WO2013031997A1 - 匿名化装置、及び、匿名化方法 - Google Patents

匿名化装置、及び、匿名化方法 Download PDF

Info

Publication number
WO2013031997A1
WO2013031997A1 PCT/JP2012/072282 JP2012072282W WO2013031997A1 WO 2013031997 A1 WO2013031997 A1 WO 2013031997A1 JP 2012072282 W JP2012072282 W JP 2012072282W WO 2013031997 A1 WO2013031997 A1 WO 2013031997A1
Authority
WO
WIPO (PCT)
Prior art keywords
group
anonymization
data
adaptive
level
Prior art date
Application number
PCT/JP2012/072282
Other languages
English (en)
French (fr)
Inventor
伊東 直子
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to EP12828450.2A priority Critical patent/EP2752786A4/en
Priority to JP2013531445A priority patent/JP6015658B2/ja
Priority to US14/240,876 priority patent/US20140201847A1/en
Publication of WO2013031997A1 publication Critical patent/WO2013031997A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification

Definitions

  • the present invention relates to anonymization technology.
  • Statistical data relating to data including personal information such as age, gender or address is made public and used.
  • a technique of anonymizing using data abstraction is known so that an individual is not specified based on the released data when the data is disclosed.
  • Anonymization is a technique for processing data so that each record (a collection of personal information, etc.) does not know which individual data in the collection of personal information.
  • a well-known indicator of anonymization is k-anonymity. The k anonymity guarantees that the data is not narrowed down to less than k data.
  • an attribute and an attribute group that is a set of attributes that can specify an individual based on a combination of the attributes is called a quasi-identifier.
  • Patent Document 1 and Patent Document 2 disclose a public information privacy protection device for processing data and protecting the privacy of information to be disclosed.
  • the setting unit sets priority (weighting) for each attribute of data in consideration of a request condition of a user who uses public information.
  • the calculation means calculates an evaluation point for each data based on the set priority (weighting).
  • the processing method selection means selects a data processing method that minimizes the calculated decrease in evaluation points, and then selects a data processing method that maximizes the calculated increase in evaluation points.
  • the data processing means processes the data using the selected processing method.
  • Patent Document 1 discloses an information processing apparatus that anonymizes information using a determination as to whether or not an entire item can be anonymized when anonymization is performed on individual items of data. Has been.
  • Patent Document 4 discloses an information processing apparatus capable of dynamically setting a secure level. JP2011-128862 JP2011-113285A JP2010-086179 Japanese Patent No. 4507568 "On Variable Constrains in Privacy Preserving Data Mining", Charu C. Aggarwal, Philip S .; Yu. IBM T.M. J.
  • Non-Patent Document 1 describes a technique that takes into account the required level of each data.
  • the technique described in Non-Patent Document 1 divides a data set into groups based on request levels. Specifically, it is as follows.
  • Non-Patent Document 1 In the technique described in Non-Patent Document 1, first, a data set is classified into data having the same k-identity requirement level (similar to anonymity k, the number narrowed down as data of a specific user in the data set). Divide into The technique described in Non-Patent Document 1 groups data according to a semantic similarity for each divided data set. Here, the size of each group satisfies the required level. However, in each group processed for each request level, if the data in one group is greatly dispersed or one group is close to another adjacent group, the technique described in Non-Patent Document 1 Moving. However, the technique described in Non-Patent Document 1 divides a data set based on a request level.
  • One of the objects of the present invention is to provide an anonymization device and an anonymization method capable of preventing a decrease in information value based on all data satisfying the request level of anonymization and abstracting the entire data set. It is to provide.
  • the anonymization device includes an anonymization means for executing anonymization processing on a data set including two or more data, with the group of data as a processing unit, and the anonymization processing Anonymity level setting means for setting an adaptive anonymous level for each group of executed data sets, and anonymity determination means for determining whether or not the group satisfies the set adaptive anonymous level.
  • the anonymization means further executes an anonymization process on the data set on which the anonymization process is executed based on the determination result of the anonymity determination means.
  • the anonymization method performs anonymization processing on a data set including two or more data, using the group of data as a processing unit, and sets an adaptive anonymity level for each group. Set, determine whether the group satisfies the set adaptive anonymity level, and further anonymize the data set on which anonymization processing is executed based on the determination result .
  • the program according to the present invention executes anonymization processing on a data set including two or more data, using the group of data as a processing unit, and sets an adaptive anonymous level for each group.
  • One example of the effect of the present invention is that all data satisfy the respective anonymization request levels, and it is possible to prevent a decrease in information value based on abstraction of the entire data set.
  • FIG. 1 is a diagram illustrating an initial state of an example of a data set that is an object of anonymization processing.
  • FIG. 2 is a diagram illustrating an example of a state in which a data set that is a target of the anonymization process illustrated in FIG. 1 is divided.
  • FIG. 3 is a block diagram illustrating an example of the configuration of the anonymization device 10 according to the first embodiment of the present invention.
  • FIG. 4 is a flowchart showing an example of the operation of the anonymization device 10 according to the first embodiment of the present invention.
  • FIG. 5 is an image diagram of an example of a classification tree used for data division that is an anonymization process.
  • FIG. 6 is a diagram showing an example of the adaptive anonymous level set for each group.
  • FIG. 1 is a diagram illustrating an initial state of an example of a data set that is an object of anonymization processing.
  • FIG. 2 is a diagram illustrating an example of a state in which a data set that is a target of the anonymization process illustrated in FIG.
  • FIG. 7 is a diagram illustrating an example of a state of the data set in which the data set illustrated in FIG. 6 is further divided and an adaptive anonymous level is set for each group.
  • FIG. 8 is a diagram illustrating an example of a state of a data set in which a group is corrected.
  • FIG. 9 is a block diagram illustrating an example of the configuration of the anonymization device 20 according to the second embodiment.
  • FIG. 10 is a flowchart showing an example of the operation of the anonymization device 20 according to the second embodiment of the present invention.
  • FIG. 11 is a diagram illustrating an example of a state where the data set is divided for each group including one data having the minimum value.
  • FIG. 12 is a diagram illustrating an example of a state of a data set in which groups are integrated and an adaptive anonymous level is newly set.
  • FIG. 13 is a diagram illustrating an example of a state in which the data sets of FIG. 12 are further integrated.
  • FIG. 14 is a diagram illustrating an example of a state in which the data set of FIG. 13 is further integrated.
  • FIG. 15 is a diagram illustrating an example of a state in which the data set of FIG. 14 is further integrated.
  • FIG. 16 is a diagram illustrating an example of a state in which the data sets of FIG. 15 are further integrated.
  • FIG. 17 is a diagram illustrating an example of a state in which the data set of FIG. 16 is further integrated.
  • FIG. 16 is a diagram illustrating an example of a state in which the data set of FIG. 16 is further integrated.
  • FIG. 18 is a block diagram illustrating an example of the configuration of the anonymization device 30 according to the third embodiment.
  • FIG. 19 is a flowchart of an example of the operation of the anonymization device 30 according to the third embodiment.
  • FIG. 20 is a block diagram illustrating an example of a hardware configuration of the anonymization device 10 according to the first embodiment.
  • Sensitive information is information that you do not want others to know.
  • the quasi-identifier is information that can identify a user based on a combination of background knowledge and information, that is, an identifier. Note that the quasi-identifier may include sensitive information.
  • public business operator a business operator who performs anonymization processing on data used for analysis
  • FIG. 1 provides data shown in FIG. 1 as medical chart data of a hospital medical business operator. Is assumed to be held.
  • FIG. 1 is a diagram illustrating an initial state of an example of a data set to be anonymized for use in the present description.
  • the public service provider holds data including “ZIP code”, “age”, “nationality”, “disease”, and “ki”.
  • information regarding “disease” is assumed to be sensitive information.
  • sensitive information (“illness” in FIG. 1) is information that is not desired to be abstracted. Therefore, this embodiment abstracts at least a part of the quasi-identifier other than sensitive information (“disease”).
  • “Ki” means a request level for k anonymity.
  • the k anonymity is an index that requires the number of data including the same combination of quasi-identifiers to be k or more. Data is treated as a group. Therefore, the quasi-identifier information is abstracted so that the group satisfies the required level of k-anonymity.
  • “I” in “ki” means a number (number) for identifying data. For example, no. “I” of “ki” of the data 2 is “2”. No.
  • the request level of the data of 2 is expressed as “k2”, and its value is “3” (see FIG. 1).
  • the request level for the highest k anonymity among the data held in the data set is set as the “optimal k anonymity level” for the entire data held by the public service provider.
  • FIG. 2 is a diagram illustrating an example of a state in which the data set that is the target of the anonymization process illustrated in FIG. 1 is divided.
  • the data shown in FIG. 1 is related to the age as one of the quasi-identifiers. , 8 and 9 data).
  • “age” is abstracted into, for example, “20-29” and “30-39”.
  • the “ZIP code” is abstracted into “130 **” and “148 **”, for example.
  • the nationality is abstracted to “*”, for example. Based on these abstractions, personal identification is prevented.
  • the number of data in the 20's group is “4”.
  • the number of data in the 30s group is “5”.
  • All groups satisfy the optimal k anonymity level “4”.
  • the related technology of this embodiment does not divide data any more. The reason is that the optimal k anonymity level is set uniformly for both the 20's group and the 30's group, so if both groups are divided further, the optimal k anonymity level will not be met. is there. However, none of the required levels of data belonging to the group in their 30s requires “4”, which is the optimal k anonymity level.
  • FIG. 3 is a block diagram illustrating an example of the configuration of the anonymization device 10 according to the first embodiment.
  • the anonymization device 10 includes an anonymization unit 11, an anonymous level setting unit 12, an anonymity determination unit 13, and a group correction unit 14.
  • the anonymization unit 11 receives a set including two or more data (hereinafter referred to as “data set”) from an external device or system.
  • the anonymization unit 11 may receive a data set from a storage device (not shown) or a configuration unit (not shown). Further, as will be described in detail later, the anonymization unit 11 receives a data set from the anonymity determination unit 13 and / or the group correction unit 14.
  • the anonymization device 10 of the present embodiment is not particularly limited in the method of transmitting and receiving data sets between the components.
  • the anonymization device 10 may store a data set in a storage unit (not shown), and each component may read data included in the data set of the storage unit or write data.
  • each structure of the anonymization apparatus 10 may transmit a data set directly to the following structure.
  • each configuration of the anonymization device 10 includes a part of data set necessary for the following configuration or the following configuration (for example, abstracted data, grouped data, or data before abstraction or grouping) ) May be sent.
  • these are collectively referred to as outputting a data set or transmitting a data set, or inputting a data set or receiving a data set.
  • the anonymization unit 11 divides the data into groups for the received data set, and executes an anonymization process that abstracts the divided groups as processing units. When an already grouped data set is received, the anonymization unit 11 may divide the group included in the data set into smaller groups.
  • the anonymization process of the anonymization unit 11 is to process data so as to suppress data abstraction as much as possible in the division and not to identify an individual from the published data (segmentation / abstraction) ).
  • the anonymization process of this embodiment is demonstrated using a top-down process as an example.
  • the top-down anonymization process of this embodiment includes a data division process and an abstraction process. That is, in this embodiment, the anonymization part 11 divides
  • the top-down anonymization process of the anonymization unit 11 is not particularly limited.
  • the anonymization process pays attention to an arbitrary quasi-identifier, and may be a process using a classification tree or a process using clustering, for example.
  • the anonymization unit 11 outputs the data set divided into groups to the anonymous level setting unit 12.
  • the anonymous level setting unit 12 receives the data set divided into groups from the anonymization unit 11.
  • the anonymity level setting unit 12 sets an “adaptive anonymity level” that is a request level for anonymization to each group based on the received data set.
  • the adaptive anonymity level may be different for each group, or may be the same for some groups.
  • this embodiment operates recursively. That is, the setting of the applicable anonymous level may be executed a plurality of times.
  • the “adaptive anonymity level” is an anonymity request level that is adaptively set according to data belonging to a group.
  • the anonymity level setting unit 12 may set the request level of data having the highest anonymization request level in the group (for example, equivalent to the above-described optimal k anonymity level) to the adaptive anonymity level.
  • the anonymous level setting unit 12 outputs a set of data in which an adaptive anonymous level is set for each group to the anonymity determination unit 13.
  • the anonymity determination unit 13 receives a data set in which an adaptive anonymous level is set for each group from the anonymous level setting unit 12.
  • the anonymity determination unit 13 determines whether each group satisfies the adaptive anonymity level.
  • the anonymity determination part 13 When it determines with each group satisfy
  • the group correction unit 14 adapts the surplus data necessary for supplementing the other group. To a group that does not meet the public anonymity level. After correcting the group by moving the data, the group correction unit 14 outputs the corrected data set to the anonymization unit 11. Thereafter, until the group correction unit 14 determines that the group cannot be corrected so as to satisfy the adaptive anonymous level in any group, the anonymization unit 11, the anonymous level setting unit 12, the anonymity determination unit 13, and the group correction unit 14 repeats the described processing recursively.
  • the group correction part 14 will cancel the division
  • the returned data set is a data set divided as much as possible in a state where each group satisfies the adaptive anonymous level. Therefore, this data set may be called a final data set.
  • the group correction unit 14 outputs the final data set to a display device, for example.
  • the group correction unit 14 may output the final data set to a storage device (not shown), an external device, or a system.
  • FIG. 4 is a flowchart showing an example of the operation of the anonymization device 10 according to the first embodiment of the present invention. As shown in FIG.
  • the anonymization unit 11 divides the data set output from the outside or other internal configuration unit (not shown), or the anonymity determination unit 13 or the group correction unit 14 into groups, and divides the data set. Abstraction is performed on a group basis as necessary (step S11).
  • the number of groups to be divided depends on an anonymization processing algorithm set in advance in the anonymization unit 11 and is not particularly limited in the present embodiment. However, in the following description of the present embodiment, as an example, the anonymization unit 11 will be described as dividing a data set or a group of data sets into two groups.
  • the anonymous level setting unit 12 sets an adaptive anonymous level for each group (step S12).
  • the anonymity level setting unit 12 sets the request level of data having the highest anonymization request level in the group as the adaptive anonymity level of the group.
  • the anonymity determination unit 13 determines whether each group of the data set divided into groups satisfies the adaptive anonymity level (step S13). When it is determined that each group satisfies the adaptive anonymity level, the anonymity determination unit 13 outputs the data set to the anonymization unit 11. Thereafter, the processes of step S11, step S12, and step S13 are recursively repeated until the anonymity determination unit 13 determines that at least one group does not satisfy the adaptive anonymity level.
  • step S ⁇ b> 13 when it is determined that at least one group does not satisfy the adaptive anonymity level, the anonymity determination unit 13 outputs the data set to the group correction unit 14.
  • the group correction unit 14 determines whether it is possible to correct the group so that all the groups satisfy the adaptive anonymous level (step S14). Specifically, the group correction unit 14 determines whether or not the deficiency of the data of the group determined that the anonymity determination unit 13 does not satisfy the adaptive anonymity level can be compensated by the excess of other groups. When it determines with supplementing, the group correction
  • the group correction unit 14 After correcting the group, the group correction unit 14 outputs the data set to the anonymization unit 11. Thereafter, until the group correction unit 14 determines that the group cannot be corrected so as to satisfy the adaptive anonymity level in any group, the determinizing device 10 performs steps S11, S12, S13, S14, and S15. This process is repeated recursively. If it is determined in step S14 that the group cannot be corrected so as to satisfy the adaptive anonymity level in any group, the group correction unit 14 cancels the division of the data set performed last by the anonymization unit 11. Then, the group correction unit 14 returns the data set to a state in which all groups satisfy the adaptive anonymous level (step S16).
  • the group correction unit 14 outputs a data set (final data set) in a state where each group satisfies the adaptive anonymous level to, for example, a display device.
  • the group correction unit 14 may output the final data set to a storage device (not shown), an external device, or a system.
  • a storage device not shown
  • an external device or a system.
  • the anonymization unit 11 of the anonymization device 10 uses a classification tree related to “age”, which is an example of a quasi-identifier, and divides data using a top-down method. (And abstract the data as needed). For example, a data set with an age of 20-39 is first divided into a group of 20's whose age is 20-29 and a group of 30's whose age is 30-39. Next, a group of 30's will be described as an example. A data set belonging to the group of 30's is divided into a group of age 30-34 and a group of age 35-39.
  • the data set is divided into finer groups including a group of 20s.
  • the anonymization unit 11 may use a general clustering method or the like.
  • a general clustering method is, for example, a method using an average value of quasi-identifier values or a k-means method.
  • the anonymization unit 11 in the anonymization device 10 uses the top-down method using the classification tree to convert the data shown in FIG. 1 into the 20s and 30s as shown in FIG. Are divided into two groups (first group division).
  • FIG.4 S12 the anonymous level setting part 12 sets an adaptive anonymous level to each group (1st adaptive anonymous level setting).
  • FIG. 6 is a diagram showing an example of the adaptive anonymous level set for each group.
  • the adaptive anonymity level is represented by k (j).
  • “j” is given in ascending order of age. That is, “j” of the group of 20's is “1”, and “j” of the group of 30's is “2”.
  • the anonymity level setting unit 12 sets “4” of k3 having the highest request level in the group of 20's as an adaptive anonymous level as k (1).
  • the anonymous level setting part 12 sets "3" of k2 with the highest request level in a group in 30's as an adaptive anonymous level as k (2).
  • the anonymization unit 11 divides any group of the data set divided last time (second data division).
  • the anonymization unit 11 may determine whether the data set can be divided and may determine that the data set can be divided. Or the anonymization part 11 may further divide
  • ave ki (j) is an average of ki (request level for k anonymity) of data included in group j.
  • the anonymization unit 11 determines whether or not division is possible using the above method.
  • FIG. 7 is a diagram illustrating an example of a state of a data set in which the second adaptive anonymous level is set after the second data division. As shown in FIG.
  • step S13 of FIG. 4 the anonymity determination unit 13 determines that at least one group does not satisfy the adaptive anonymity level. Therefore, the process of the anonymization apparatus 10 proceeds to step S14.
  • step S14 of FIG. 4 the group correction unit 14 determines whether the group can be corrected.
  • FIG. 8 is a diagram illustrating an example of a state of a data set in which a group is corrected.
  • the process of the anonymization apparatus 10 returns to step S11 of FIG.
  • the anonymization device 10 of the present embodiment may determine whether or not all groups after correction can be divided when the group correction unit 14 corrects the group. Then, when it is determined that all groups cannot be divided after group correction based on the group correction unit 14, the anonymization device 10 may output the final data set to a display device or the like and terminate the processing.
  • movement of the anonymization apparatus 10 of this embodiment is not restricted to this.
  • step S13 the anonymity determination unit 13 determines that there is a group that does not satisfy anonymity. Then, the group correction unit 14 determines that the group cannot be corrected. In this case, the process of the anonymization device 10 proceeds to step S16. In step S ⁇ b> 16, the group correction unit 14 cancels the last division performed by the anonymization unit 11 and returns the data set to a state in which all groups satisfy the adaptive anonymous level. The group correction unit 14 then outputs the final data set to a display device or the like.
  • amendment part 14 moves the excess data which one group among the groups divided
  • in a predetermined case May be configured not to move data.
  • the configuration not to move is, for example, the position of the centroid of the data of the group that does not satisfy the adaptive anonymous level on the data space and the position of the data closest to the centroid among the excess data belonging to other groups. This is a case where the distance is equal to or greater than a predetermined threshold.
  • the group correction unit 14 may cancel the division performed last by the anonymization unit 11 without correcting the group.
  • the group correction unit 14 cancels the last division without moving the data.
  • the data set shown in FIG. 8 finally output in this embodiment is compared with the data set shown in FIG. 2, the data set of FIG. 8 output by this embodiment is shown in FIG.
  • the degree of abstraction is low for the ZIP code and age, and the decrease in the value of the information is small.
  • the configuration of the present embodiment is not limited to the configuration shown in FIG. Each configuration may be divided into a plurality of configurations.
  • the anonymization unit 11 and the group correction unit 14 may be configured as one anonymization unit 11.
  • the anonymization device 10 according to the first embodiment can prevent a decrease in information value based on the fact that all data satisfies the request level for anonymization and the entire data set is abstracted. .
  • the reason is that the anonymization device 10 sets an adaptive anonymization request level (adaptive anonymity level) for each divided group. Further, the anonymization device 10 corrects the group so that the adaptive anonymity level is appropriate.
  • the anonymization device 20 according to the second embodiment of the present invention will be described.
  • FIG. 9 is a block diagram illustrating an example of the configuration of the anonymization device 20 according to the second embodiment.
  • the anonymization device 20 includes an anonymization unit 21, an anonymity level setting unit 22, and an anonymity determination unit 23.
  • the anonymization unit 21 receives two or more data sets from an external device or system.
  • the anonymization unit 21 may receive a data set from a storage device (not shown) or other configuration unit. Further, the anonymization unit 21 receives a data set or a determination result from the anonymity determination unit 23.
  • the anonymization unit 21 performs anonymization processing on the received data set, with a group of data as a processing unit.
  • the anonymization process of this embodiment is a bottom-up process.
  • Anonymization processing using bottom-up includes data integration processing and abstraction processing.
  • the anonymization unit 21 of the present embodiment divides the data set into two or more groups so that the number of data of the unit group becomes the number of data of a predetermined minimum value.
  • the minimum value may be set in advance as a specific value, or may be set based on the operation of the user or the like every time the anonymization device 20 operates.
  • the anonymization unit 21 integrates the two groups after the determination process by the anonymity determination unit 23, abstracts the data as necessary, and executes the anonymization process.
  • the anonymization process performed from the bottom up is not particularly limited.
  • the anonymization process to be used focuses on an arbitrary quasi-identifier and integrates and abstracts the groups having the closest centroid distance in the data space, or a process based on NCP (Normalized Certificate Penalty) But it ’s okay.
  • the anonymization unit 21 outputs to the anonymous level setting unit 22 a data set divided into a plurality of groups corresponding to a predetermined minimum number of data or a data set obtained by integrating the groups.
  • the anonymous level setting unit 22 receives the data set from the anonymization unit 21. Similar to the anonymous level setting unit 12, the anonymous level setting unit 22 sets an adaptive anonymous level for each group.
  • the anonymous level setting unit 22 outputs the data set set by the adaptive anonymous level for each group to the anonymity determination unit 23.
  • the anonymity determination unit 23 receives from the anonymous level setting unit 22 a data set in which an adaptive anonymous level is set for each group.
  • the anonymity determination unit 23 determines whether each group of the data set satisfies an adaptive anonymous level. If it is determined that at least one group does not satisfy the adaptive anonymity level, the anonymity determination unit 23 outputs the data set to the anonymization unit 21. Thereafter, until the anonymity determination unit 23 determines that all groups satisfy the adaptive anonymity level, the anonymization unit 21, the anonymity level setting unit 22, and the anonymity determination unit 23 repeat the process recursively.
  • FIG. 10 is a flowchart showing an example of the operation of the anonymization device 20 according to the second embodiment of the present invention. As shown in FIG. 10, the anonymization unit 21 divides the data set output from other external or internal components (not shown) into a plurality of groups having a predetermined minimum number of data (steps).
  • the anonymous level setting unit 22 sets an adaptive anonymous level for each group (step S22).
  • the anonymity level setting unit 22 sets the request level of data having the highest anonymization request level in the group as an adaptive anonymous level of the group.
  • the anonymity determination unit 23 determines whether or not all groups in the data set satisfy the adaptive anonymity level (step S23). If it is determined that at least one group does not satisfy the adaptive anonymity level, the anonymity determination unit 23 outputs the data set to the anonymization unit 21.
  • the anonymization unit 21 that has received the data set from the anonymity determination unit 23 integrates the group and one or more other groups so that the group that does not satisfy the adaptive anonymous level satisfies the adaptive anonymous level (Ste S24). Thereafter, the anonymization device 20 recursively repeats the processes of Step S22, Step S23, and Step S24 until the anonymity determination unit 23 determines that all groups satisfy the adaptive anonymous level.
  • the anonymity determination unit 23 determines the final data set as, for example, And output to the display device.
  • the anonymity determination unit 23 may output the final data set to a storage device (not shown), an external device, or a system.
  • FIG. 10 is a diagram illustrating an example of a state where the data set is divided for each group including data “1” that is the minimum value.
  • the anonymization device 20 of the present embodiment performs the integration process by focusing on “age”, which is one of the quasi-identifiers. Therefore, in FIG. 11, the data are arranged in ascending order of age for convenience. If the predetermined minimum value is “2”, the data set is, for example, No. 1 shown in FIG. 3 and no. No. 5, a group containing two data, No. 5 1 and no. 7 is divided into groups including two pieces of data.
  • the anonymous level setting part 22 sets an adaptive anonymous level to each group.
  • ki which is k anonymity of each data, becomes an adaptive anonymous level k (j) of a group including each data.
  • the anonymization unit 21 may select an arbitrary group as a processing target from among groups that do not satisfy the adaptive anonymity level. Or even if the anonymization part 21 selects as a process target the group with the largest difference between the value of an adaptive anonymous level and the number of data in a group in the group which does not satisfy an adaptive anonymous level. good.
  • the method of selecting a processing target in the present embodiment is not limited to the method described in this specification. However, in the following description of the present embodiment, the anonymization unit 21 will be described as selecting a group having the largest difference between the adaptive anonymity level and the number of data as a processing target.
  • the anonymization part 21 selects the other group (integration object group) used as the integration object of the group (selection group) selected as a process target.
  • the anonymization unit 21 selects the group with the smallest information loss based on the integration process as the integration target group. For example, the anonymization unit 21 selects the group at the center of gravity closest to the position of the center of gravity of the selected group in the data space as the integration target group. Then, the anonymization unit 21 may integrate the two selected groups (selected group and integration target group). In addition, the anonymization unit 21 uses the NCP method to select a group having the smallest degree of abstraction (for example, the width of the quasi-identifier value included in the group after integration) when it is integrated with the selected group. Alternatively, it may be selected as an integration target group.
  • the anonymization unit 21 selects a group having the closest center-of-gravity distance as an integration target group.
  • the anonymization unit 21 is the No. with the largest difference between the adaptive anonymity level and the number of data.
  • the anonymous level setting part 22 sets an adaptive anonymous level newly.
  • FIG. 12 is a diagram illustrating an example of a state of a data set in which groups are integrated and an adaptive anonymous level is newly set. As shown in FIG. 12, “4” is set as the adaptive anonymity level (k (1)). Age and nationality are abstracted.
  • the anonymity determination unit 23 determines that at least one group does not satisfy the adaptive anonymity level. Therefore, the process of the anonymization apparatus 20 proceeds to step S24. Henceforth, the process of step S22, step S23, and step S24 is recursively repeated until the anonymity determination part 23 determines with the adaptive anonymity level being satisfied in all the groups.
  • the anonymization unit 21 may select any group as the selected group. In the present embodiment, it is assumed that the anonymization unit 21 selects a group with a younger age as a selection group to be processed.
  • FIG. 13 is a diagram illustrating an example of a state in which the data sets of FIG. 12 are further integrated.
  • the anonymization part 21 is No. as an integration object group. No. 9 which is one of the data closest to the data of No. 9.
  • the anonymization unit 21 repeats the procedure described above, and repeats group integration as shown in FIGS. 15 to 17.
  • FIG. 15 is a diagram illustrating an example of a state in which the data sets illustrated in FIG. 14 are further integrated.
  • FIG. 16 is a diagram illustrating an example of a state in which the data sets illustrated in FIG. 15 are further integrated.
  • FIG. 17 is a diagram illustrating an example of a state in which the data sets illustrated in FIG. 16 are further integrated.
  • the anonymity determination unit 23 determines that all groups satisfy the adaptive anonymity level.
  • the anonymity determination unit 23 outputs a data set (final data set) in a state where all groups satisfy the adaptive anonymous level to a display device or the like.
  • a data set final data set
  • the anonymization device 20 of the second embodiment can obtain the same effect as the anonymization device 10 of the first embodiment.
  • all the data included in the data set satisfies the request level of anonymization, and the information value is reduced based on the abstraction of the entire data set. Can be prevented.
  • FIG. 18 is a block diagram illustrating an example of the configuration of the anonymization device 30 according to the third embodiment.
  • the anonymization device 30 includes an anonymization unit 31, an anonymous level setting unit 32, and an anonymity determination unit 33.
  • the anonymization unit 31 performs anonymization processing on a data set input from the outside of the anonymization unit 31 using a group of data as a processing unit.
  • the anonymization unit 31 receives a data set from the anonymity determination unit 33.
  • the anonymization unit 31 outputs the data set subjected to the anonymization process to the anonymity level setting unit 32.
  • the anonymity level setting unit 32 sets an adaptive anonymity level for each group for which the anonymization unit 31 has performed anonymization processing based on data included in the group.
  • the anonymous level setting unit 32 outputs a data set in which an adaptive anonymous level is set for each group to the anonymity determination unit 33.
  • the anonymity determination unit 33 determines whether the group satisfies the set adaptive anonymity level.
  • the anonymity determination unit 33 outputs the data set to the anonymization unit 31 according to the determination result, or ends the process and outputs the data set to a display device or the like.
  • the anonymization unit 31 of the anonymization device 30 performs anonymization processing using a group as a processing unit for a data set input from outside the anonymization unit 31 or received from the anonymity determination unit 33. Is executed (step S31).
  • the anonymity level setting unit 32 sets an adaptive anonymity level for each group for which the anonymization unit 31 has performed anonymization processing (step S32).
  • the anonymity determination unit 33 determines whether each of the groups satisfies an adaptive anonymous level corresponding to each group (step S33).
  • the anonymity determination unit 33 outputs the data set to the anonymization unit 31 according to the determination result, or ends the process and outputs the data set to a display device or the like.
  • the anonymization device 30 according to the third embodiment prevents all data from satisfying the request level for anonymization and lowering the information value based on the abstraction of the entire data set. It becomes possible. The reason is that the anonymization device 30 sets an adaptive anonymization request level (adaptive anonymity level) for each group.
  • adaptive anonymity level adaptive anonymity level
  • the anonymization device 10 includes a CPU 1 (Central Processing Unit 1), a network connection communication IF 2 (communication interface 2), a memory 3, and a storage device 4 such as a hard disk for storing a program. Including. And the anonymization apparatus 10 implement
  • the configuration of the anonymization device 10 is not limited to the computer device shown in FIG.
  • the anonymization device 10 may receive a data set from the outside via the communication IF 2.
  • the CPU 1 controls the entire anonymization device 10 by operating an operating system.
  • the CPU 1 may read a program and a data set into a memory 3 from a recording medium (not shown) that can be read by a computer mounted on a drive device or the like, and execute various processes based on the program or data set.
  • some or all of the functions of the anonymization unit 11, the anonymity level setting unit 12, the anonymity determination unit 13, and the group correction unit 14 may be realized using the CPU 1 and a program.
  • the storage device 4 is, for example, an optical disk, a flexible disk, a magnetic optical disk, an external hard disk, or a semiconductor memory, and records a computer program so that it can be read from a computer (CPU).
  • the storage device 4 may store, for example, a computer program for realizing the data set or the anonymization device 10.
  • the computer program for realizing the anonymization device 10 may be downloaded from an external computer (not shown) connected to the communication network.
  • the block diagram utilized in each embodiment described so far has shown the block of a functional unit instead of the structure of a hardware unit. These functional blocks may be realized using any combination of hardware and software.
  • the means for realizing the components of the anonymization device 10 is not limited to a physical device. That is, the anonymization device 10 may be realized by using one physically coupled device, or two or more physically separated devices are connected by wire or wirelessly, and the plurality of devices are used. May be realized.
  • the program of the present invention may be a program that causes a computer to execute the operations described in the above embodiments.
  • the anonymization apparatus 20 which concerns on 2nd Embodiment, and the anonymization apparatus 30 which concerns on 3rd Embodiment were based on the hardware constitutions shown in FIG. 20 similarly to the anonymization apparatus 10 which concerns on 1st Embodiment. It may be realized by a computer device.
  • the structure of the anonymization apparatus 20 and the anonymization apparatus 30 is not limited to the computer apparatus shown in FIG. While the present invention has been described with reference to the embodiments, the present invention is not limited to the above embodiments. Various changes that can be understood by those skilled in the art can be made to the configuration and details of the present invention within the scope of the present invention. This application claims the priority on the basis of Japanese application Japanese Patent Application No. 2011-191355 for which it applied on September 2, 2011, and takes in those the indications of all here.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

 すべてデータがそれぞれの匿名化の要求レベルを満足し、かつデータ集合全体の抽象化に基づく情報価値の低下を防止する匿名化装置及び匿名化方法を提供する。 本発明の匿名化装置は、二以上のデータを含むデータ集合に対し、データのグループを処理単位とし て匿名化処理を実行する匿名化手段と、グループ毎に適応的匿名レベルを設定する匿名レベル設定手段と、グループが設定された適応的匿名レベルを満たすか否かを判定する匿名性判定手段と、を含み、匿名化手段は、匿名性判定手段の判定結果を基に、匿名化処理が実行されているデータ集合に対し、さらに匿名化処理を実行する。

Description

匿名化装置、及び、匿名化方法
 本発明は、匿名化技術に関する。
 年齢、性別又は住所等の個人情報を含むデータに関する統計データは、公開され、又、利用されている。データの公開の際、公開されたデータを基に個人が特定されないように、データの抽象化を用いて匿名化する技術が、知られている。匿名化とは、個人情報の集合において、各レコード(個人情報などの集合)が、どの個人のデータか判らないようにデータを加工する技術である。匿名化のよく知られた指標として、k匿名性がある。k匿名性とは、データがk個未満のデータに絞りこまれないことを保証するものである。個人情報に含まれる属性の中で、その属性の組み合わせに基づき個人を特定できる属性(及び属性の集合である属性群)は、準識別子と言われる。基本的に、k匿名性を確保する匿名化とは、この準識別子に含まれる属性値を汎化し、準識別子を共有するレコードをk個以上とし、k匿名性を保証する。
 例えば、特許文献1及び特許文献2には、データを加工して、公開する情報におけるプライバシーを保護するための、公開情報のプライバシー保護装置が開示されている。
 特許文献1のプライバシー保護装置において、設定手段は、公開情報を利用する利用者の要求条件を考慮して、データの各属性に優先順位(重み付け)を設定する。
 算出手段は、設定された優先順位(重み付け)に基づいて、各データの評価ポイントを算出する。
 加工方法選択手段は、算出した評価ポイントの減少分が最小となるデータの加工方法を選択し、次いで、算出した評価ポイントの増加分が最大となるデータの加工方法を選択する。
 データ加工手段は、選択された加工方法を用いてデータを加工する。データ加工手段は、設定手段が設定した優先順位(重み付け)の最も低いものから、k匿名性を満足するまで、データを加工する。
 特許文献1のプライバシー保護装置は、上記構成を採用し、すべてのデータを平等に扱うことに基づき、データ利用者が求める情報の欠落という問題を解決する。
 また、特許文献3には、データの個々の項目に対して匿名化を行った場合に、項目全体として匿名化が出来たか否かの判定を用いて、情報を匿名化する情報処理装置が開示されている。
 また、特許文献4には、セキュアレベルの動的な設定が可能な情報処理装置が開示されている。
特開2011−128862 特開2011−113285 特開2010−086179 特許第4507569号 ″On Variable Constraints in Privacy Preserving Data Mining″,Charu C.Aggarwal,Philip S.Yu.IBM T.J.Watson Research Center(Proceedings of the Fifth SIAM International Conference on Data Mining,Newport Beach,CA,April 21−23,2005.ISBN 0−89871−593−8に掲載)http://www.siam.org/proceedings/datamining/2005/dm05_11aggarwalc.pdf
 しかし、特許文献1~4に記載の技術では、データ集合の中に匿名化の要求レベルが高い人のデータが一つでも含まれると、データ集合全体の情報価値が、落ちる。その理由は、データ集合全体が、要求レベルが最も高い人のデータに合わせて、k匿名性のレベルを満たすように抽象化されるためである。
 なお、各データの要求レベルを考慮した技術が、非特許文献1に記載されている。非特許文献1に記載の技術は、データ集合を、要求レベルに基づきグループに分割する。具体的に説明すると、次のようになる。非特許文献1に記載の技術は、まず、データ集合を、識別性のk要求レベル(匿名性のkと同様に、データ集合内で、特定のユーザのデータとして絞られる数)が同一のデータに分割する。そして、非特許文献1に記載の技術は、分割したデータ集合ごとに、意味的な類似度に応じてデータをグループ化する。ここで、それぞれのグループの大きさは、要求レベルを満たす。ただし、要求レベルごとに処理された各グループにおいて、一グループ内のデータが大きく分散したり、一グループが隣接する他のグループに近かったりする場合、非特許文献1に記載の技術は、データを移動する。しかし、非特許文献1に記載の技術は、要求レベルに基づいてデータ集合を分割する。そのため、要求レベルが同一のデータの数が十分にない場合、グループ内のデータは、類似したデータで構成されるとは限らない。非特許文献1に記載の技術のように、統計量を保つことを目的に適用される場合、グループ内のデータが必ずしも類似しないことは、特に問題とはならない。しかし、非特許文献1に記載の技術を、データとして意味のある抽象化が必要な匿名化に適用することは、困難である。
 本発明の目的の一つは、すべてデータがそれぞれの匿名化の要求レベルを満足し、かつデータ集合全体が抽象化されることに基づく情報価値の低下を防止できる匿名化装置及び匿名化方法を提供することにある。
[課題を解決するための手段]
 上記目的を達成するため、本発明における匿名化装置は、二以上のデータを含むデータ集合に対し、前記データのグループを処理単位として匿名化処理を実行する匿名化手段と、前記匿名化処理が実行されたデータ集合の前記グループ毎に適応的匿名レベルを設定する匿名レベル設定手段と、前記グループが前記設定された適応的匿名レベルを満たすか否かを判定する匿名性判定手段と、を含み、前記匿名化手段は、前記匿名性判定手段の判定結果を基に、匿名化処理が実行されているデータ集合に対し、さらに匿名化処理を実行する。
 上記目的を達成するため、本発明における匿名化方法は、二以上のデータを含むデータ集合に対し、前記データのグループを処理単位として匿名化処理を実行し、前記グループ毎に適応的匿名レベルを設定し、前記グループが前記設定された適応的匿名レベルを満たすか否かを判定し、前記判定結果を基に、匿名化処理が実行されているデータ集合に対し、さらに匿名化処理を実行する。
 上記目的を達成するため、本発明におけるプログラムは、二以上のデータを含むデータ集合に対し、前記データのグループを処理単位として匿名化処理を実行し、前記グループ毎に適応的匿名レベルを設定し、前記グループが前記設定された適応的匿名レベルを満たすか否かを判定し、前記判定結果を基に、匿名化処理が実行されているデータ集合に対し、さらに匿名化処理を実行する処理をコンピュータに実行させる。
[発明の効果]
 本発明の効果の一例は、すべてデータがそれぞれの匿名化の要求レベルを満足し、かつデータ集合全体の抽象化に基づく情報価値の低下を防止することが可能なことである。
図1は、匿名化処理の対象となるデータ集合の一例の初期状態を表す図である。 図2は、図1に示す匿名化処理の対象となるデータ集合が分割された状態の一例を表す図である。 図3は、本発明のおける第1実施形態に係る匿名化装置10の構成の一例を示すブロック図である。 図4は、本発明の第1実施形態に係る匿名化装置10の動作の一例を示すフローチャートである。 図5は、匿名化処理であるデータの分割に用いる分類木の一例のイメージ図である。 図6は、各グループに設定された適応的匿名レベルの一例を表示した図である。 図7は、図6に示すデータ集合が、さらに分割され、グループ毎に適応的匿名レベルが設定されたデータ集合の状態の一例を表す図である。 図8は、グループが修正されたデータ集合の状態の一例を表す図である。 図9は、第2実施形態に係る匿名化装置20の構成の一例を示すブロック図である。 図10は、本発明の第2実施形態に係る匿名化装置20の動作の一例を示すフローチャートである。 図11は、データ集合が最小値である1のデータを含むグループ毎に分割された状態の一例を示す図である。 図12は、グループが統合され、新たに適応的匿名レベルが設定されたデータ集合の状態の一例を表す図である。 図13は、図12のデータ集合がさらに統合された状態の一例を示す図である。 図14は、図13のデータ集合がさらに統合された状態の一例を示す図である。 図15は、図14のデータ集合がさらに統合された状態の一例を示す図である。 図16は、図15のデータ集合がさらに統合された状態の一例を示す図である。 図17は、図16のデータ集合がさらに統合された状態の一例を示す図である。 図18は、第3実施形態に係る匿名化装置30の構成の一例を示すブロック図である。 図19は、第3実施形態に係る匿名化装置30の動作の一例のフローチャートである。 図20は、第1実施形態に係る匿名化装置10のハードウェア構成の一例を示すブロック図である。
 <第1実施形態>
 まず、本発明のおける第1実施形態の理解を容易にするため、本実施形態に関係する技術について説明する。
 最初に、以下の説明で使用する用語について整理する。
 機微情報(センシティブ情報)とは、他人に知られたくない情報である。
 準識別子とは、背景知識や情報の組み合わせを基に、ユーザを特定できる、つまり識別子となる情報である。なお、準識別子は、センシティブ情報を含む場合もある。
 また、説明の一例として、分析に用いるデータに匿名化処理を施して公開する事業者(以下、「公開事業者」という。)が、病院の医療事業者のカルテデータとして、図1に示すデータを保持している場合を想定する。
 図1は、本説明に用いる、匿名化処理の対象となるデータ集合の一例の初期状態を表す図である。図1に示すように、公開事業者は、「ZIPコード」、「年齢」、「国籍」、「病気」及び「ki」を含むデータを保持している。
 本実施形態において、「病気」に関する情報が、センシティブ情報とする。ただし、本実施形態において、センシティブ情報は、データの分析に用いるとする。そのため、本実施形態においてセンシティブ情報(図1では「病気」)は、抽象化したくない情報となる。
 そこで、本実施形態は、センシティブ情報(「病気」)以外の準識別子の少なくとも一部を、抽象化する。
 「ki」は、k匿名性に対する要求レベルを意味する。k匿名性とは、同じ準識別子の組み合わせを含むデータの数が、k以上となることを要求する指標である。データは、グループとして扱われる。そのため、グループがk匿名性の要求レベルを満たすように、準識別子の情報は、抽象化される。「ki」における「i」は、データを識別する番号(ナンバー)を意味する。例えば、No.2のデータの「ki」の「i」は、「2」である。また、No.2のデータの要求レベルは、「k2」と表現され、その値は、「3」である(図1を参照)。
 本実施形態に関連する技術は、公開事業者が有するデータ全体に対し、データ集合が保持するデータの中で最も高いk匿名性に対する要求レベルを、「最適k匿名性レベル」として設定する。図1に示すデータ集合の場合、最も高い要求レベルである4(k3=4)が、最適k匿名性レベルとなる。
 本実施形態に関連する技術は、図1に示すデータを、例えば、図2に示すように、2つのグループに分割する。
 図2は、図1に示す匿名化処理の対象となるデータ集合が分割された状態の一例を表す図である。
 図2に示すように、図1に示すデータは、準識別子の一つである年齢に関し、20代(No.1、3、5、7のデータ)と30代(No.2、4、6、8、9のデータ)との二つのグループに分割される。この時、「年齢」は、例えば、「20−29」及び「30−39」に抽象化される。また、「ZIPコード」は、例えば、「130**」及び「148**」に抽象化される。さらに、国籍は、例えば、「*」に抽象化される。これらの抽象化に基づき、個人の特定は、防止される。
 ここで、20代のグループのデータ数は、「4」である。また、30代のグループのデータ数は、「5」である。いずれのグループも、最適k匿名性レベルの「4」を満たす。
 本実施形態の関連技術は、これ以上、データを分割しない。その理由は、最適k匿名性レベルが20代のグループにも30代のグループにも一律に設定されているため、どちらのグループも、これ以上分割すると、最適k匿名性レベルを満たさなくなるからである。
 しかし、30代のグループに属するデータの要求レベルは、いずれも最適k匿名性レベルである「4」を要求していない。つまり、30代のグループに属するデータの準識別子の情報は、必要以上に抽象化されている。
 すなわち、本実施形態の関連技術は、データ集合の中で最も高い要求レベルに合わせて匿名化処理するため、データ集合全体の情報価値が落ちてしまうという問題がある。
 以下で説明する本発明における第1実施形態は、上記の関連技術の問題を解決する。
 まず、図3を参照して、本発明における第1実施形態に係る匿名化装置10の機能構成を説明する。
 図3は、第1実施形態に係る匿名化装置10の構成の一例を示すブロック図である。図3に示すように匿名化装置10は、匿名化部11と、匿名レベル設定部12と、匿名性判定部13と、グループ修正部14とを含む。
 匿名化部11は、外部の装置又はシステムから二以上のデータを含む集合(以下「データ集合」という。)を受信する。匿名化部11は、図示しない記憶装置又は図示しない構成部からデータ集合を受信しても良い。また、後ほど詳細に説明するが、匿名化部11は、匿名性判定部13及び/又はグループ修正部14から、データ集合を受信する。
 なお、本実施形態の匿名化装置10は、各構成間でのデータ集合の送信及び受信の手法に特に制限はない。例えば、匿名化装置10は、図示しない記憶部にデータ集合を記憶し、各構成が記憶部のデータ集合に含まれるデータを読み出し又はデータを書き込んでも良い。また、匿名化装置10の各構成は、データ集合を次の構成に直接送信してもよい。さらに、匿名化装置10の各構成は、次の構成や以降の構成で必要なデータ集合の一部のデータ(例えば、抽象化したデータ、グループ化したデータ又は抽象化やグループ化する前のデータ)を送信しても良い。以下、これらをまとめて、データ集合を出力する若しくはデータ集合を送信する、又は、データ集合を入力する若しくはデータ集合を受信するという。
 匿名化部11は、受信したデータ集合に対し、データをグループに分割し、分割したグループを処理単位として抽象化する匿名化処理を実行する。既にグループ化されているデータ集合を受信した場合、匿名化部11は、データ集合に含まれるグループをさらに小さなグループに分割しても良い。以下、データ集合のグループをさらに小さなグループに分割することを含め、データ集合を分割するという。
 ただし、本実施形態の匿名化部11の匿名化処理は、分割において、可能な限りデータの抽象化を抑え、かつ、公開されたデータから個人を特定できないようにデータを加工(分割化/抽象化)する。
 本実施形態の匿名化処理は、一例として、トップダウンの処理を用いて説明する。本実施形態のトップダウンの匿名化処理は、データの分割処理と、抽象化処理とを含む。つまり、本実施形態において匿名化部11は、データ集合をグループに分割し、グループに属するデータを必要に応じて抽象化する。なお、匿名化部11のトップダウンの匿名化処理は、特に制限はない。この匿名化処理は、任意の準識別子に着目し、例えば、分類木を利用した処理や、クラスタリングを利用した処理でも良い。
 匿名化部11は、グループに分割したデータ集合を、匿名レベル設定部12に出力する。
 匿名レベル設定部12は、匿名化部11からグループに分割されたデータ集合を受信する。匿名レベル設定部12は、受信したデータ集合に基づいて、匿名化の要求レベルである「適応的匿名レベル」を、それぞれのグループに設定する。ここで、適応的匿名レベルは、グループ毎に異なっても良いし、一部のグループで同じでも良い。ただし、後ほど説明するように、本実施形態は、再帰的に動作する。つまり、適用的匿名レベルの設定は、複数回実行される場合もある。そのため、本実施形態は、匿名レベル設定部12が全てのグループに同じ適用的匿名レベルを設定する場合を排除するものではない。
 「適応的匿名レベル」とは、グループに属するデータに応じて適応的に設定される匿名性の要求レベルである。匿名レベル設定部12は、グループ内で最も高い匿名化の要求レベルを有するデータの要求レベル(例えば、前述の最適k匿名性レベルに相当)を、適応的匿名レベルに設定しても良い。
 匿名レベル設定部12は、グループ毎に適応的匿名レベルが設定されたデータの集合を匿名性判定部13に出力する。
 匿名性判定部13は、匿名レベル設定部12からグループ毎に適応的匿名レベルが設定されたデータ集合を受信する。匿名性判定部13は、各グループが適応的匿名レベルを満たすか否かを判定する。各グループが適応的匿名レベルを満たすと判定した場合、匿名性判定部13は、各グループのデータ集合を匿名化部11に出力する。
 以降、匿名性判定部13が、少なくとも一つのグループが適応的匿名レベルを満たさない、と判定するまで、匿名化部11、匿名レベル設定部12及び匿名性判定部13は、再帰的に処理を繰り返す。
 匿名性判定部13は、少なくとも一つのグループが適応的匿名レベルを満たさない、と判定した場合、データ集合をグループ修正部14に出力する。
 グループ修正部14は、匿名性判定部13の判定結果に基づいて、データ集合のグループを修正する。適応的匿名レベルを満たさないと判定したグループのデータの不足分を、他のグループの過剰分で補える場合、グループ修正部14は、他のグループの補うのに必要な過剰分のデータを、適応的匿名レベルを満たさないグループに移動させる。
 データを移動させてグループを修正した後、グループ修正部14は、修正後のデータ集合を匿名化部11に出力する。
 以降、グループ修正部14が、いずれかのグループにおいて適応的匿名レベルを満たすようにグループを修正できないと判定するまで、匿名化部11、匿名レベル設定部12、匿名性判定部13及びグループ修正部14は、再帰的に、説明した処理を繰り返す。
 いずれかのグループにおいて適応的匿名レベルを満たすようにグループを修正できない状態と判定すると、グループ修正部14は、匿名化部11が最後に行った分割をキャンセルし、全てのグループが適応的匿名レベルを満たす状態に戻す。戻したデータ集合は、各グループが適応的匿名レベルを満たしている状態で可能な限り分割したデータ集合となる。そのため、このデータ集合は、最終的なデータ集合と言っても良い。
 グループ修正部14は、最終的なデータ集合を、例えば、表示装置に出力する。グループ修正部14は、最終的なデータ集合を、図示しない記憶装置、外部の装置又はシステムに出力しても良い。
 なお、少なくとも1つのグループが適応的匿名レベルを満たすようにグループを修正することができない状態とは、例えば、適応的匿名レベルを満たさないと判定された少なくとも1つグループのデータの不足分が、他のグループの過剰分のデータで補えない状態である。又は、このような状態とは、他のグループに過剰分のデータがない状態である。
 次に、図4を参照して、本発明の第1実施形態に係る匿名化装置10の動作について説明する。
 図4は、本発明の第1実施形態に係る匿名化装置10の動作の一例を示すフローチャートである。
 図4に示すように、匿名化部11は、図示しない外部や内部の他の構成部、又は、匿名性判定部13やグループ修正部14から出力されたデータ集合をグループに分割し、分割したグループ単位で必要に応じて抽象化する(ステップS11)。分割するグループの数は、予め匿名化部11に設定される匿名化処理のアルゴリズムに依存し、本実施形態では、特に限定されない。ただし、以下の本実施形態の説明では、一例として、匿名化部11は、データ集合又はデータ集合のグループを二つのグループに分割するとして説明する。
 次に、匿名レベル設定部12は、それぞれのグループに適応的匿名レベルを設定する(ステップS12)。本実施形態において、匿名レベル設定部12は、グループ内で最も高い匿名化の要求レベルを有するデータの要求レベルを、グループの適応的匿名レベルとして設定する。
 次に、匿名性判定部13は、グループに分割されたデータ集合の各グループが、適応的匿名レベルを満たすか否かを判定する(ステップS13)。各グループが適応的匿名レベルを満たすと判定した場合、匿名性判定部13は、データ集合を匿名化部11に出力する。
 以降、匿名性判定部13が、少なくとも一つのグループが適応的匿名レベルを満たさない、と判定するまで、ステップS11、ステップS12及びステップS13の処理は、再帰的に繰り返される。
 ステップS13において、少なくとも一つのグループが適応的匿名レベルを満たさない、と判定されると、匿名性判定部13は、データ集合をグループ修正部14に出力する。
 グループ修正部14は、全てのグループが適応的匿名レベルを満たすようにグループを修正することが可能か否かを判定する(ステップS14)。具体的には、グループ修正部14は、匿名性判定部13が適応的匿名レベルを満たさないと判定したグループのデータの不足分を、他のグループの過剰分で補えるか否かを判定する。
 補えると判定した場合、グループ修正部14は、過剰分のデータを他のグループから適応的匿名レベルを満たさないグループに移動させる。この移動を基に、グループ修正部14は、全てのグループが適応的匿名レベルを満たすようにグループを修正する(ステップS15)。
 グループの修正を行った後、グループ修正部14は、データ集合を匿名化部11に出力する。以降、グループ修正部14が、いずれかのグループにおいて適応的匿名レベルを満たすようにグループを修正できないと判定するまで、判定化装置10は、ステップS11、ステップS12、ステップS13、ステップS14及びステップS15の処理を、再帰的に繰り返す。
 ステップS14において、いずれかのグループにおいて適応的匿名レベルを満たすようにグループを修正できない状態と判定すると、グループ修正部14は、匿名化部11が最後に行ったデータ集合の分割をキャンセルする。そして、グループ修正部14は、データ集合を、全てのグループが適応的匿名レベルを満たしている状態に戻す(ステップS16)。グループ修正部14は、各グループが適応的匿名レベルを満たしている状態のデータ集合(最終的なデータ集合)を、例えば、表示装置に出力する。グループ修正部14は、最終的なデータ集合を、図示しない記憶装置、外部の装置又はシステムに出力しても良い。
 次に、図1、図2及び図5~図7を参照して、図4の各ステップを、具体的に説明する。本説明の前提として、匿名化装置10を有する公開事業者が、図1に示すデータ集合を保持しているとする。また、「病気」に関する個人情報が、センシティブ情報とする。
 また、以降の説明において、匿名化装置10は、分類木を用いたトップダウンの処理を用いてデータを分割する。
 図5は、本実施形態の説明における、匿名化処理で用いるデータの分割の分類木の一例のイメージ図である。図5に示すように、本実施形態において、匿名化装置10の匿名化部11は、準識別子の1例である「年齢」に関する分類木を利用し、トップダウンの手法を用いてデータの分割(及び必要に応じたデータの抽象化)を繰り返す。例えば、年齢が20—39のデータ集合は、まず、年齢が20—29の20代のグループと、年齢が30—39の30代のグループとに分割される。次に、例として30代のグループについて説明すると、30代のグループに属するデータ集合は、年齢が30—34のグループと、年齢が35—39のグループとに分割される。以降、データ集合は、20代のグループも含めてより細かいグループに分割される。
 なお、本実施形態の説明として分類木を用いた匿名化手法を用いて説明するが、匿名化部11が採用する匿名化の手法は、これに限定されない。匿名化部11は、一般的なクラスタリングの手法等を用いても良い。一般的なクラスタリング手法とは、例えば、準識別子の値の平均値を利用する手法やk−means法である。
 図4のステップS11において、匿名化装置10における匿名化部11は、分類木を用いたトップダウンの手法を基に、図1に示すデータを、図2に示すように20代と30代との2つのグループに分割する(第1のグループ分割)。
 図4のステップS12において、匿名レベル設定部12は、それぞれのグループに適応的匿名レベルを設定する(第1の適応的匿名レベル設定)。
 図6は、各グループに設定された適応的匿名レベルの一例を表示した図である。図6において適応的匿名レベルは、k(j)で表される。なお、図6において「j」は、年齢の若い順に付与されている。つまり、20代のグループの「j」は「1」、30代のグループの「j」は、「2」である。匿名レベル設定部12は、k(1)として、20代のグループで最も要求レベルが高いk3の「4」を適応的匿名レベルに設定する。また、匿名レベル設定部12は、k(2)として、30代のグループで最も要求レベルが高いk2の「3」を適応的匿名レベルに設定する。
 図4のステップS13において、匿名性判定部13は、j=1のグループに属するデータの数が4であり、k(1)=4であることを基に、20代のグループが適応的匿名レベルを満たすと判定する。また、匿名性判定部13は、j=2のグループに属するデータの数が5であり、k(2)=3であることを基に、30代のグループも適応的匿名レベルを満たすと判定する。全てのグループが適応的匿名レベルを満たすため、匿名化装置10の処理は、ステップS11に戻る。
 図4のステップS11において、匿名化部11は、分類木を用いたトップダウンの処理を基に再帰的にデータを分割する。つまり、匿名化部11は、前回分割したデータ集合のいずれかのグループを分割する(第2のデータ分割)。
 ここで、匿名化部11は、データ集合の分割が可能か否かを判断し、分割可能であると判断した場合に分割しても良い。あるいは、匿名化部11は、分割が可能か否かを判断しないで、分類木を利用してデータ集合をさらに分割しても良い。分割が可能か否かを判断として、匿名化部11は、グループに属するデータの数が、「2×ave ki(j)(以下、「×」を省略して「2ave・ki(j)」とする。)」以上であるときに、そのグループを分割可能と判断しても良い。ここで「ave ki(j)」とは、グループjに含まれるデータのki(k匿名性に対する要求レベル)の平均である。以下の本実施形態の説明では、匿名化部11は、上記の方法を用いて、分割可能か否かを判断するものとする。
 図6に示すデータ集合のj=1のグループは、ave ki(j)=3であり、2ave ki(j)=6である。j=1のグループのデータ数は、4である。そのため、匿名化部11は、j=1のグループ(ここでは、20代のグループ)が、分割不可能と判断する。
 j=2のグループは、ave ki(j)=2であり、2ave ki(j)=4である。j=2のグループのデータ数は、5である。そのため、匿名化部11は、j=2のグループ(ここでは、30代のグループ)が、分割可能と判断する。そして、匿名化部11は、分類木を用いたトップダウンの処理を基に、j=2のグループ(30代のグループ)を二つのグループ(ここでは、年齢30—34のグループと年齢35—39のグループ)に分割する。
 次に、図4のステップS12において、匿名レベル設定部12は、各グループに適応的匿名レベルを設定する。(第2の適応的匿名レベル設定)
 図7は、第2のデータ分割後、第2の適応的匿名レベル設定されたデータ集合の状態の一例を表す図である。図7に示すように、図6におけるj=2のグループは、新たに、j=2及びj=3のグループに分割される。また、j=2のグループの適応的匿名レベル(k(2))は「3」が、j=3のグループの適応的匿名レベル(k(3))は「2」が設定される。
 ここで、j=2のグループは、適応的匿名レベル(k(2))が「3」である。しかし、このグループに属するデータの数は、2である。そのため、図4のステップS13において、匿名性判定部13は、少なくとも一つのグループが適応的匿名レベルを満たさないと判定する。そのため、匿名化装置10の処理は、ステップS14に進む。
 図4のステップS14において、グループ修正部14は、グループの修正が可能か否かを判定する。具体的には、グループ修正部14は、匿名化部11が適応的匿名レベルを満たさないと判定されたグループ(j=2)を分割したときの、もう一方のグループ(今の場合、j=3のグループ)に過剰分のデータがあるか否かを判定する。そして、過剰分のデータある場合、グループ修正部14は、過剰分のデータを用いて適応的匿名レベルを満たさないと判定されたグループ(j=2)の不足分を補えるか否かを判定する。
 図7を参照すると、もう一方のグループ(j=3)は、適応的匿名レベル(k(3))が「2」であり、グループに属するデータの数が「3」である。そのため、このグループ(j=3)には、1つの過剰分のデータが、存在する。そのため、グループ修正部14は、グループ(j=2)の不足分を修正可能と判定する。
 図4のステップS15において、グループ修正部14は、j=3のグループの中から、データ空間上において最もj=2のグループの重心に最も近いデータを、j=2のグループに移動する。
 例えば、グループ修正部14は、データ空間として、「年齢」を軸とする一次元空間を考える。この「年齢」の空間において、j=2のグループのデータの重心は、No.4の「31」と、No.9の「34」の平均の「32.5」である。
 この重心の値を基に、グループ修正部14は、j=3のグループに属するデータの中で、j=2のグループの重心の「年齢」である「32.5」に最も近い「35」の「年齢」の値を持つNo.8のデータを、j=2のグループに移動して、グループを修正する。
 図8は、グループが修正されたデータ集合の状態の一例を表す図である。図8に示すように、図7においてj=3のグループに含まるNo.8のデータは、j=2のグループに移動した。これに伴い、「年齢」に関して、j=2のグループは、「30—35」となり、j=3のグループは「36—39」となる。
 次に、匿名化装置10の処理は、図4のステップS11に戻る。ここで、j=2のグループは、2ave ki(2)=4.666・・・であり、j=3のグループは、2ave ki(3)=3である。また、j=2のグループのデータ数は、「3」であり、j=3のグループのデータ数は、「2」である。このため、匿名化部11は、j=2のグループ及びj=3のグループのいずれも、これ以上の分割が不可能である。
 本実施形態の匿名化装置10は、グループ修正部14がグループを修正したときに、修正後の全部グループが分割可能か否かを判定してもよい。そして、グループ修正部14に基づくグループ修正後に全グループ分割不可と判断した時点で、匿名化装置10は、最終的なデータ集合を表示装置等に出力し、処理を終了しても良い。ただし、本実施形態の匿名化装置10の動作は、これに限らない。
 例えば、仮に、グループ修正部14がグループを修正後、全グループが分割不可となったが、ステップS11に戻り、匿名化部11が、グループを分割した場合を考える。この場合、ステップS13で匿名性判定部13は、匿名性を満たさないグループが存在すると判定する。そして、グループ修正部14は、グループの修正が不可能であると判断する。そして、この場合、匿名化装置10の処理は、ステップS16に進む。ステップS16において、グループ修正部14は、匿名化部11が最後に行った分割をキャンセルし、全てのグループが適応的匿名レベルを満たしている状態のデータ集合に戻す。そして、グループ修正部14は、最終的なデータ集合を表示装置等に出力する。
 なお、グループ修正部14は、二つに分割されたグループのうち、一方のグループが含む過剰分のデータを移動すれば、もう一方のグループが適応的匿名レベルを満たす場合でも、所定の場合には、データを移動させない構成としても良い。移動させない構成とは、例えば、データ空間上における、適応的匿名レベルを満たさないグループのデータの重心の位置と、他のグループに属する過剰分のデータの中で重心に最も近いデータの位置との距離が、所定の閾値以上の場合である。この場合、グループ修正部14は、グループの修正を行わず、匿名化部11が最後に行った分割をキャンセルしても良い。
 具体的な値を用いて説明すると、上述の例において、閾値が5であり、j=2のグループに属するデータの重心である「32.5」に最も近いj=3のグループに属するデータの値が「38」の場合である。この場合、グループ修正部14は、データを移動せず、最後の分割をキャンセルする。
 ここで、本実施形態のおいて最終的に出力される図8に示すデータ集合と、図2に示すデータ集合とを比較すると、本実施形態が出力する図8のデータ集合は、図2に示すデータ集合に比べると、ZIPコード及び年齢について抽象化の程度が低く、情報の価値の低下が小さい。
 なお、本実施形態の構成は、図3に示す構成に限らない。各構成は、複数の構成に分かれても良い。また、1つ又は複数の構成は、1つの構成で実現されても良い。例えば、匿名化部11とグループ修正部14は、1つの匿名化部11として構成してもよい。
 以上で説明したように、第1実施形態に係る匿名化装置10は、すべてデータが匿名化の要求レベルを満足し、かつデータ集合全体が抽象化されることに基づく情報価値の低下を防止できる。
 その理由は、匿名化装置10は、分割されたグループ毎に、適応的な匿名化の要求レベル(適応的匿名レベル)を設定するからである。さらに、匿名化装置10は、適応的匿名レベルが適切となるように、グループを修正するからである。
 <第2実施形態>
 次に、本発明の第2実施形態に係る匿名化装置20について説明する。第1実施形態の説明に用いた匿名化装置10は、匿名化処理として分類木を利用したトップダウンの処理を採用した。これに対し、本実施形態の匿名化装置20は、ボトムアップの処理を採用する点で異なる。
 図9は、第2実施形態に係る匿名化装置20の構成の一例を示すブロック図である。図9に示すように匿名化装置20は、匿名化部21と、匿名レベル設定部22と、匿名性判定部23とを含む。
 匿名化部21は、外部の装置又はシステムから二以上のデータ集合を受信する。匿名化部21は、図示しない記憶装置やその他の構成部からデータ集合を受信しても良い。また、匿名化部21は、匿名性判定部23から、データ集合又は判定結果を受信する。
 匿名化部21は、受信したデータ集合に、データのグループを処理単位として、匿名化処理を実行する。本実施形態の匿名化処理は、ボトムアップの処理である。ボトムアップを用いた匿名化処理は、データの統合処理と、抽象化処理とを含む。本実施形態の匿名化部21は、まず、単位グループのデータの数が、予め定められた最小値のデータの数になるように、データ集合を二以上のグループに分割する。最小値は、予め特定の値が設定されていても良いし、匿名化装置20が動作する都度、ユーザなどの操作を基に設定されても良い。さらに、匿名化部21は、匿名性判定部23が判定処理の後において、二つのグループを統合し、必要に応じてデータを抽象化して、匿名化処理を実行する。ボトムアップで行う匿名化処理は、特に制限はない。例えば、使用する匿名化処理は、任意の準識別子に着目して、データ空間上の重心距離が最も近いグループ同士を統合し、抽象化する処理や、NCP(Normalized Certainty Penalty)を基にする処理でも良い。
 匿名化部21は、予め定められた最小値のデータの数となる複数のグループに分割したデータ集合又はグループを統合したデータ集合を、匿名レベル設定部22に出力する。
 匿名レベル設定部22は、匿名化部21からデータ集合を受信する。匿名レベル設定部22は、匿名レベル設定部12と同様に、グループ毎に適応的匿名レベルを設定する。
 匿名レベル設定部22は、グループ毎に適応的匿名レベルが設定したデータ集合を、匿名性判定部23に出力する。
 匿名性判定部23は、匿名レベル設定部22から、グループ毎に適応的匿名レベルが設定されたデータ集合を受信する。匿名性判定部23は、データ集合の各グループが適応的匿名レベルを満たすか否かを判定する。少なくとも一つのグループが適応的匿名レベルを満たさないと判定した場合、匿名性判定部23は、データ集合を匿名化部21に出力する。
 以降、匿名性判定部23が、全てのグループが適応的匿名レベルを満たす、と判定するまで、匿名化部21、匿名レベル設定部22及び匿名性判定部23は、再帰的に処理を繰り返す。
 匿名性判定部23は、全てのグループが適応的匿名レベルを満たす(この場合のデータ集合は、「最終的なデータ集合」となる)と判定すると、最終的なデータ集合を、例えば、表示装置に出力する。匿名性判定部23は、最終的なデータ集合を図示しない記憶装置、外部の装置又はシステムに出力しても良い。
 次に、図10を参照して、本発明の第2実施形態に係る匿名化装置20の動作について説明する。
 図10は、本発明の第2実施形態に係る匿名化装置20の動作の一例を示すフローチャートである。図10に示すように、匿名化部21は、図示しない外部又は内部の他の構成部から出力されたデータ集合を、予め定められた最小値のデータの数の複数のグループに分割する(ステップS21)。最小のデータの数は、特定の値が設定されても良いし、匿名化装置20が動作する都度、ユーザから値を受信しても良い。
 次に、匿名レベル設定部22は、それぞれのグループに、適応的匿名レベルを設定する(ステップS22)。本実施形態において、匿名レベル設定部22は、グループ内で最も高い匿名化の要求レベルを有するデータの要求レベルを、グループの適応的匿名レベルとして、設定する。
 次に、匿名性判定部23は、データ集合の全てのグループが適応的匿名レベルを満たすか否かを判定する(ステップS23)。少なくとも一つのグループが適応的匿名レベルを満たさないと判定した場合、匿名性判定部23は、データ集合を匿名化部21に出力する。
 匿名性判定部23からデータ集合を受信した匿名化部21は、適応的匿名レベルを満たさないグループが適応的匿名レベルを満たすように、そのグループと他の1つ以上のグループとを統合する(ステップS24)。
 以降、匿名性判定部23が、全てのグループが適応的匿名レベルを満たす、と判定するまで、匿名化装置20は、ステップS22、ステップS23及びステップS24の処理を、再帰的に繰り返す。
 ステップS23において、全てのグループが適応的匿名レベルを満たすと判定すると(この場合、そのデータ集合は、最終的なデータ集合となる)、匿名性判定部23は、最終的なデータ集合を、例えば、表示装置に出力する。匿名性判定部23は、最終的なデータ集合を、図示しない記憶装置、外部の装置又はシステムに出力しても良い。
 次に、図1、図2及び図11~図17を参照して、図10の各ステップを、具体的に説明する。ここで、前提として、匿名化装置20を有する公開事業者が、図1に示すデータ集合を保持しているとする。そして、「病気」に関する個人情報が、センシティブ情報とする。
 また、以降の説明において、匿名化装置20は、ボトムアップの処理を基にデータを統合する。
 図10のステップS21において、公開事業者の有する匿名化装置20の匿名化部21は、図1に示すデータを、予め定められた最小値のデータの数になる複数のグループに分割する。本実施形態の説明において、予め定められた最小値は、「1」とする。
 図11は、データ集合が最小値である「1」のデータを含むグループ毎に分割された状態の一例を示す図である。本実施形態の匿名化装置20は、第1実施形態と同様、準識別子の一つである「年齢」に着目して統合処理を行う。そのため、図11において、データは、便宜上、年齢の若い順に並んでいる。
 なお、仮に、予め定められた最小値が「2」の場合、データ集合は、例えば、図11に示すNo.3及びNo.5の二つのデータを含むグループ、No.1及びNo.7の二つのデータを含むグループ等に分割されることになる。
 図10のステップS21において、匿名レベル設定部22は、それぞれのグループに適応的匿名レベルを設定する。図11において、各データのk匿名性であるkiが、各データを含むグループの適応的匿名レベルk(j)になる。
 図10のステップS23において、匿名性判定部23は、j=9のグループに属するデータの数が1であり、適応的匿名レベル(k(9))が「1」であることを基に、j=9のグループが、適応的匿名レベルを満たすと判定する。匿名性判定部23は、j=9以外のグループについては、いずれも、適応的匿名レベルを満たさないと判定する。少なくとも一つのグループが適応的匿名レベルを満たさないため、匿名化装置20の処理は、ステップS24に進む。
 図10のステップS24において、匿名化部21は、ボトムアップの処理を基に、再帰的にデータ集合のデータを統合する。
 匿名化部21は、統合処理の対象のグループ(選択グループ)を選択する。例えば、匿名化部21は、適応的匿名レベルを満たさないグループの中から、任意のグループを処理対象として選択しても良い。または、匿名化部21は、適応的匿名レベルを満たさないグループの中で、適応的匿名レベルの値と、グループ内のデータの数との差が最も大きいグループを処理対象として、選択しても良い。本実施形態の処理対象の選択の手法は、本明細書に記載の方法に限定されない。ただし、以下の本実施形態の説明において、匿名化部21は、適応的匿名レベルとデータの数との差が最も大きいグループを処理対象として選択するとして説明する。
 次に、匿名化部21は、処理対象として選択したグループ(選択グループ)の統合対象となる他のグループ(統合対象グループ)を選択する。
 ここで、統合対象グループの選択に特に制限はない。しかし、匿名化部21は、統合処理に基づく情報損失が最も小さいグループを統合対象グループとして選択することが望ましい。匿名化部21は、例えば、データ空間上の選択グループの重心の位置に最も近い重心の位置のグループを統合対象グループとして選択する。そして、匿名化部21は、選択した二つのグループ(選択グループと統合対象グループ)を統合しても良い。また、匿名化部21は、NCPの手法を用いて、選択グループと統合したときの抽象化の度合い(例えば、統合後のグループに含まれる準識別子の値がとる幅)が最も小さくなるグループを、統合対象グループとして選択しても良い。本実施形態の説明において、匿名化部21は、重心距離が最も近いグループを統合対象グループとして選択するとする。
 匿名化部21は、処理対象として、適応的匿名レベルとデータの数との差が最も大きいNo.3のデータが属するj=1のグループを選択する(つまり、j=1のグループが、選択グループである)。なぜなら、j=1のグループに属するデータの数は、「1」であり、適応的匿名レベルk(1)は、「4」であり、その差は、「3」となる。j=1のグループの差「3」は、他のグループの差と比較して最も大きいからである。
 匿名化部21は、j=1のグループの統合対象となるグループとして、No.5のデータが属するグループであるj=2のグループを選択する(つまり、j=2のグループが、統合対象グループである)。なぜなら、j=2のグループは、「年齢」を軸とする一次元空間上において、j=1のグループと最も距離が近いからである。
 匿名化部21は、j=1のグループとj=2のグループとを統合する。
 そして、図10のステップS22において、匿名レベル設定部22は、適応的匿名レベルを新たに設定する。
 図12は、グループが統合され、新たに適応的匿名レベルが設定されたデータ集合の状態の一例を表す図である。図12に示すように、適応的匿名レベル(k(1))は、「4」が設定される。また、年齢及び国籍は、抽象化される。
 ここで再び図10のステップS23において、匿名性判定部23は、少なくとも一つのグループが適応的匿名レベルを満たさないと判定する。そのため、匿名化装置20の処理は、ステップS24に進む。
 以降、匿名性判定部23が全てのグループにおいて適応的匿名レベルを満たされたと判定するまで、ステップS22、ステップS23及びステップS24の処理は、再帰的に繰り返される。
 図12において、j=1、j=2及びj=5のグループの、適応的匿名レベルとデータ数との差は、それぞれ、「2」である。この場合、匿名化部21は、いずれのグループを選択グループとして選択しても良い。本実施形態において、匿名化部21は、処理対象の選択グループとして、年齢がより若いグループを選択するとする。そのため、匿名化部21は、処理対象の選択グループとしてj=1のグループを、統合対象グループとしてj=2のグループを選択し、統合する。
 図13は、図12のデータ集合がさらに統合された状態の一例を示す図である。
 次に匿名化部21は、選択グループとして、適応的匿名レベルとデータの数との差が最も大きなグループであるj=4のグループを選択する。また、匿名化部21は、統合対象グループとして、No.9のデータに最も近いデータの1つであるNo.4のデータが含まれているj=3のグループを選択する。
 図14は、図13のj=4のグループとj=3のグループとを統合した状態の一例を示す図である。
 匿名化部21は、以上で説明した手順を繰り返し、図15~図17に示すようにグループの統合を繰り返す。
 図15は、図14で示すデータ集合がさらに統合された状態の一例を示す図である。
 図16は、図15で示すデータ集合がさらに統合された状態の一例を示す図である。
 図17は、図16で示すデータ集合がさらに統合された状態の一例を示す図である。
 図17に示す状態までデータ集合のデータがグループに統合されると、図10のステップS23において、匿名性判定部23は、全てのグループが適応的匿名レベルを満たすと判定する。匿名性判定部23は、全てのグループが適応的匿名レベルを満たしている状態のデータ集合(最終的なデータ集合)を表示装置等に出力する。
 ここで、出力される図17に示す最終的なデータ集合と、図8に示す第1実施形態の最終的なデータ集合とを比較すると、図17に示す最終的なデータ集合は、第1実施形態と同様の結果である。つまり、第2実施形態の匿名化装置20は、第1実施形態の匿名化装置10と同様の効果を得ることができる。
 以上、説明したように、第2実施形態に係る匿名化装置20は、データ集合に含まれる全てのデータが匿名化の要求レベルを満足し、かつデータ集合全体の抽象化に基づく情報価値の低下を防止することが可能となる。
 その理由は、匿名化装置20は、グループ毎に適応的な匿名化の要求レベル(適応的匿名レベル)を設定するからである。さらに、匿名化装置20は、適応的匿名レベルが適切となるように、グループを統合するからである。
 <第3実施形態>
 次に、本発明の第3実施形態に係る匿名化装置30について、図面を参照して説明する。
 図18は、第3実施形態に係る匿名化装置30の構成の一例を示すブロック図である。図18に示すように、匿名化装置30は、匿名化部31と、匿名レベル設定部32と、匿名性判定部33とを含む。
 匿名化部31は、匿名化部31の外部から入力されるデータ集合に対し、データのグループを処理単位として匿名化処理を実行する。また、匿名化部31は、匿名性判定部33からデータ集合を受信する。匿名化部31は、匿名化処理を施したデータ集合を匿名レベル設定部32に出力する。
 匿名レベル設定部32は、匿名化部31が匿名化処理を実行したグループ毎に、グループに含まれるデータを基に適応的匿名レベルを設定する。匿名レベル設定部32は、グループ毎に適応的匿名レベルを設定したデータ集合を、匿名性判定部33に出力する。
 匿名性判定部33は、グループが、設定された適応的匿名レベルを満たすか否かを判定する。匿名性判定部33は、判定結果に応じて、データ集合を匿名化部31に出力するか、又は処理を終了してデータ集合を表示装置等に出力する。
 図19は、第3実施形態に係る匿名化装置30の動作の一例を示すフローチャートである。図19に示すように、匿名化装置30の匿名化部31は、匿名化部31の外部から入力された又は匿名性判定部33から受信したデータ集合に対し、グループを処理単位として匿名化処理を実行する(ステップS31)。
 次に、匿名レベル設定部32は、匿名化部31が匿名化処理を実行したグループ毎に適応的匿名レベルを設定する(ステップS32)。
 次に、匿名性判定部33は、グループのそれぞれが、各グループに対応する適応的匿名レベルを満たすか否かを判定する(ステップS33)。
 匿名性判定部33は、判定結果に応じて、データ集合を匿名化部31に出力するか、又は処理を終了してデータ集合を表示装置等に出力する。
 以上、説明したように、第3実施形態に係る匿名化装置30は、全てのデータが匿名化の要求レベルを満足し、かつデータ集合全体の抽象化に基づく情報価値の低下を防止することが可能となる。
 その理由は、匿名化装置30は、グループ毎に適応的な匿名化の要求レベル(適応的匿名レベル)を設定するからである。
 以上、各実施形態を参照して本発明を説明したが、本発明は、以上の実施形態に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で同業者が理解し得る様々な変更をすることができる。
 図20は、第1実施形態に係る匿名化装置10のハードウェア構成の一例を示すブロック図である。図20に示すように、匿名化装置10は、CPU1(Central Processing Unit1)と、ネットワーク接続用の通信IF2(通信インターフェース2)と、メモリ3と、プログラムを格納するハードディスク等の記憶装置4とを含む。そして、匿名化装置10は、図20に示す構成を基にコンピュータ装置を実現する。ただし、匿名化装置10の構成は、図20に示すコンピュータ装置に限定されない。
 例えば、匿名化装置10は、通信IF2を介して、外部からデータ集合を受信しても良い。
 CPU1は、オペレーティングシステムを動作させて匿名化装置10の全体を制御する。また、CPU1は、例えば、ドライブ装置などに装着されたコンピュータで読み出し可能な図示しない記録媒体から、メモリ3にプログラムやデータ集合を読み出し、これを基に各種の処理を実行しても良い。
 例えば、匿名化部11、匿名レベル設定部12、匿名性判定部13、グループ修正部14のいずれか一部又は全ての機能は、CPU1及びプログラムを用いて実現されても良い。
 記憶装置4は、例えば、光ディスク、フレキシブルディスク、磁気光ディスク、外付けハードディスク、半導体メモリであり、コンピュータプログラムをコンピュータ(CPU)から読み取り可能に記録する。記憶装置4は、例えば、データ集合や匿名化装置10を実現するためのコンピュータプログラムを格納していても良い。また、匿名化装置10を実現するためのコンピュータプログラムは、通信網に接続されている図示しない外部コンピュータからダウンロードされても良い。
 なお、これまでに説明した各実施形態において利用するブロック図は、ハードウェア単位の構成ではなく、機能単位のブロックを示している。これらの機能ブロックは、ハードウェア及びソフトウェアの任意の組み合わせを用いて実現されても良い。また、匿名化装置10の構成部の実現手段は、特に物理的な装置に限定されない。すなわち、匿名化装置10は、物理的に結合した一つの装置を用いて実現されても良いし、物理的に分離した二つ以上の装置を有線又は無線で接続し、これら複数の装置を用いて実現されても良い。
 本発明のプログラムは、上記の各実施形態で説明した各動作を、コンピュータに実行させるプログラムであれば良い。
 また、第2実施形態に係る匿名化装置20及び第3実施形態に係る匿名化装置30は、第1実施形態に係る匿名化装置10と同様に、図20に示すハードウェア構成を基にしたコンピュータ装置で実現されても良い。ただし、匿名化装置20及び匿名化装置30の構成は、図20に示すコンピュータ装置に限定されない。
 以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 この出願は、2011年9月2日に出願された日本出願特願2011−191355を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 1  CPU
 2  通信IF
 3  メモリ
 4  記憶装置
 10、20、30 匿名化装置
 11、21、31 匿名化部
 12、22、32 匿名レベル設定部
 13、23、33 匿名性判定部
 14 グループ修正部

Claims (12)

  1. 二以上のデータを含むデータ集合に対し、前記データのグループを処理単位として匿名化処理を実行する匿名化手段と、
     前記匿名化処理が実行されたデータ集合の前記グループ毎に適応的匿名レベルを設定する匿名レベル設定手段と、
     前記グループが前記設定された適応的匿名レベルを満たすか否かを判定する匿名性判定手段と、
     を含み、
     前記匿名化手段は、前記匿名性判定手段の判定結果を基に、匿名化処理が実行されているデータ集合に対し、さらに匿名化処理を実行する
     匿名化装置。
  2. 前記適応的匿名レベルは、前記グループ内で最も高い匿名化の要求レベルを有するデータの当該要求レベルである、
     請求項1に記載の匿名化装置。
  3. 前記匿名化手段は、前記匿名化処理として、前記データ集合をグループに分割し、
     前記匿名性判定手段が、少なくとも一つのグループが適応的匿名レベルを満たさないと判定するまで、前記匿名化処理を再帰的に実行する、
     請求項1又は2に記載の匿名化装置。
  4. 前記匿名性判定手段の判定結果に基づいて、前記グループを修正するグループ修正手段
     をさらに含み、
     前記匿名化手段は、
     前記グループ修正手段が、いずれかのグループが前記適応的匿名レベルを満たすようにグループを修正できないと判定するまで、前記匿名化処理を再帰的に実行する
     請求項3に記載の匿名化装置。
  5. 前記匿名化手段は、前記データ集合又は前記データ集合のグループを二つのグループに分割し、
     前記グループ修正手段は、
     前記二つに分割されたグループのいずれもが前記適応的匿名レベルを満たさない場合又は前記二つに分割されたグループのうち一のグループが前記適応的匿名レベルを満たさない場合であって、他のグループが含むデータの当該適応的匿名レベルを超える分のデータを移動しても、前記一のグループが当該適応的匿名レベルを満たさない場合、前記分割をキャンセルし、
     前記二つに分割されたグループのうち一のグループが前記適応的匿名レベルを満たさない場合であって、他のグループが含むデータのうち当該適応的匿名レベルを超える分のデータを移動すれば、前記一のグループが当該適応的匿名レベルを満たすこととなる場合は、前記他のグループから前記一のグループにデータを移動して前記二つに分割されたグループを修正する
     請求項4に記載の匿名化装置。
  6. 前記グループ修正手段は、
     前記二つに分割されたグループのうち一のグループが前記適応的匿名レベルを満たさない場合であって、他のグループが含むデータのうち当該適応的匿名レベルを超える分のデータを移動すれば、前記一のグループが当該適応的匿名レベルを満たすこととなる場合であっても、データ空間上において、前記一のグループの所定の情報の重心の位置と、前記他のグループに属するデータのうち前記一のグループの重心と最も近い所定の情報の位置を含むデータの所定の情報の位置との距離が、所定の閾値以上である場合は、前記分割をキャンセルする、
     請求項5に記載の匿名化装置。
  7. 前記匿名化手段は、単位グループのデータの数が予め定められた最小値のデータの数となるようにデータの集合を二以上に分割し、さらに、前記匿名性判定手段が少なくとも一つのグループが適応的匿名レベルを満たさない、と判定すると、前記匿名化処理として、二つのグループを統合し、
     前記匿名性判定手段が、全てのグループが適応的匿名レベルを満たす、と判定するまで、前記匿名化処理を再帰的に実行する、
     請求項1又は2に記載の匿名化装置。
  8. 前記匿名化手段は、前記適応的匿名レベルを満たさないグループを処理対象として選択し、データ空間上において、該選択されたグループのデータの重心と、データの重心の位置の距離が最も近い他のグループを統合対象として選択し、選択された二つのグループを統合する、
     請求項7に記載の匿名化装置。
  9. 前記匿名化手段は、前記適応的匿名レベルを満たさないグループであって、前記適応的匿名レベルと、グループ内のデータの数との差が最も大きいグループを前記処理対象として選択する、
     請求項8に記載の匿名化装置。
  10. 前記匿名化処理の再帰的な実行が終了すると、データ集合を表示装置に出力する、
     請求項3、4又は7のいずれか一項に記載の匿名化装置。
  11. 二以上のデータを含むデータ集合に対し、前記データのグループを処理単位として匿名化処理を実行し、
     前記グループ毎に適応的匿名レベルを設定し、
     前記グループが前記設定された適応的匿名レベルを満たすか否かを判定し、
     前記判定結果を基に、匿名化処理が実行されているデータ集合に対し、さらに匿名化処理を実行する
     匿名化方法。
  12. 二以上のデータを含むデータ集合に対し、前記データのグループを処理単位として匿名化処理を実行し、
     前記グループ毎に適応的匿名レベルを設定し、
     前記グループが前記設定された適応的匿名レベルを満たすか否かを判定し、
     前記判定結果を基に、匿名化処理が実行されているデータ集合に対し、さらに匿名化処理を実行する
     処理をコンピュータに実行させるプログラム。
PCT/JP2012/072282 2011-09-02 2012-08-28 匿名化装置、及び、匿名化方法 WO2013031997A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP12828450.2A EP2752786A4 (en) 2011-09-02 2012-08-28 DEVICE AND METHOD FOR DISASSENTING
JP2013531445A JP6015658B2 (ja) 2011-09-02 2012-08-28 匿名化装置、及び、匿名化方法
US14/240,876 US20140201847A1 (en) 2011-09-02 2012-08-28 Anonymization device and anonymization method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2011191355 2011-09-02
JP2011-191355 2011-09-02

Publications (1)

Publication Number Publication Date
WO2013031997A1 true WO2013031997A1 (ja) 2013-03-07

Family

ID=47756469

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2012/072282 WO2013031997A1 (ja) 2011-09-02 2012-08-28 匿名化装置、及び、匿名化方法

Country Status (4)

Country Link
US (1) US20140201847A1 (ja)
EP (1) EP2752786A4 (ja)
JP (1) JP6015658B2 (ja)
WO (1) WO2013031997A1 (ja)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014106691A (ja) * 2012-11-27 2014-06-09 Fujitsu Ltd 匿名化処理方法及び装置
WO2014181541A1 (ja) * 2013-05-09 2014-11-13 日本電気株式会社 匿名性を検証する情報処理装置及び匿名性検証方法
WO2015122403A1 (ja) * 2014-02-13 2015-08-20 株式会社 東芝 匿名化指標算出システム
JP2015158852A (ja) * 2014-02-25 2015-09-03 日本電信電話株式会社 情報収集システムとその情報収集装置、情報提供装置、匿名情報収集方法及びプログラム
JP2016009338A (ja) * 2014-06-24 2016-01-18 株式会社日立ソリューションズ パーソナル情報管理システム及びパーソナル情報匿名化装置
EP2989586A4 (en) * 2013-04-25 2016-11-09 Hewlett Packard Development Co MULTI-STAGE STORAGE BASED ON ANONYMOUSING DATA
JP2017049693A (ja) * 2015-08-31 2017-03-09 富士通株式会社 個人情報匿名化方法、プログラム、及び情報処理装置
JP2017516194A (ja) * 2014-03-26 2017-06-15 アルカテル−ルーセント ストリーミングデータの匿名化
KR20180060390A (ko) * 2016-11-29 2018-06-07 주식회사 파수닷컴 목적에 따라 비식별화된 데이터를 최적화하는 방법 및 장치
JP2019101809A (ja) * 2017-12-04 2019-06-24 Kddi株式会社 匿名化装置、匿名化方法及び匿名化プログラム
JP2019175002A (ja) * 2018-03-27 2019-10-10 富士通株式会社 匿名化装置

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160042198A1 (en) * 2012-10-19 2016-02-11 Pearson Education, Inc. Deidentified access of content
US20150235049A1 (en) * 2014-02-20 2015-08-20 International Business Machines Corporation Maintaining Data Privacy in a Shared Data Storage System
US9842215B2 (en) * 2015-11-03 2017-12-12 Palo Alto Research Center Incorporated Computer-implemented system and method for anonymizing encrypted data
US10572459B2 (en) * 2018-01-23 2020-02-25 Swoop Inc. High-accuracy data processing and machine learning techniques for sensitive data
FR3077894B1 (fr) 2018-02-13 2021-10-29 Digital & Ethics Procede de traitement automatique pour l’anonymisation d’un jeu de donnees numeriques
US20220215127A1 (en) * 2019-04-29 2022-07-07 Telefonaktiebolaget Lm Ericsson (Publ) Data anonymization views
US12008141B2 (en) * 2020-03-31 2024-06-11 Intuit Inc. Privacy preserving synthetic string generation using recurrent neural networks

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007219636A (ja) * 2006-02-14 2007-08-30 Nippon Telegr & Teleph Corp <Ntt> データ開示方法およびデータ開示装置
WO2010023803A1 (ja) * 2008-08-26 2010-03-04 日本電気株式会社 匿名通信システム
JP2011133958A (ja) * 2009-12-22 2011-07-07 Michio Kimura 匿名度の指標値を算出する情報処理システムおよび匿名度の指標値の算出方法
JP2011170632A (ja) * 2010-02-18 2011-09-01 Kddi Corp 公開情報のプライバシー保護装置、公開情報のプライバシー保護方法およびプログラム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3578450B2 (ja) * 2001-06-29 2004-10-20 株式会社東芝 電子文書の実名語/匿名語マップ作成装置及びプログラム、電子文書の匿名化装置及びプログラム、電子文書の実名化装置及びプログラム
US8250025B2 (en) * 2001-11-06 2012-08-21 Business Controls, Inc. Anonymous reporting system
JP4015919B2 (ja) * 2002-10-22 2007-11-28 株式会社東芝 情報共有支援装置および情報共有支援方法
US7512788B2 (en) * 2002-12-10 2009-03-31 International Business Machines Corporation Method and apparatus for anonymous group messaging in a distributed messaging system
JP2006227814A (ja) * 2005-02-16 2006-08-31 Toshiba Corp 匿名サービス提供システム、装置及びプログラム
US20090327434A1 (en) * 2008-06-30 2009-12-31 Nokia Corporation Method, Apparatus, and Computer Program Product for Anonymous Polling
US20110178943A1 (en) * 2009-12-17 2011-07-21 New Jersey Institute Of Technology Systems and Methods For Anonymity Protection
US8499158B2 (en) * 2009-12-18 2013-07-30 Electronics And Telecommunications Research Institute Anonymous authentication service method for providing local linkability
US8700705B2 (en) * 2010-06-11 2014-04-15 Microsoft Corporation Sharing of user preferences
JP5735485B2 (ja) * 2010-08-06 2015-06-17 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 匿名化情報共有装置および匿名化情報共有方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007219636A (ja) * 2006-02-14 2007-08-30 Nippon Telegr & Teleph Corp <Ntt> データ開示方法およびデータ開示装置
WO2010023803A1 (ja) * 2008-08-26 2010-03-04 日本電気株式会社 匿名通信システム
JP2011133958A (ja) * 2009-12-22 2011-07-07 Michio Kimura 匿名度の指標値を算出する情報処理システムおよび匿名度の指標値の算出方法
JP2011170632A (ja) * 2010-02-18 2011-09-01 Kddi Corp 公開情報のプライバシー保護装置、公開情報のプライバシー保護方法およびプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP2752786A4 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014106691A (ja) * 2012-11-27 2014-06-09 Fujitsu Ltd 匿名化処理方法及び装置
EP2989586A4 (en) * 2013-04-25 2016-11-09 Hewlett Packard Development Co MULTI-STAGE STORAGE BASED ON ANONYMOUSING DATA
US9977922B2 (en) 2013-04-25 2018-05-22 Hewlett-Packard Development Company, L.P. Multi-tier storage based on data anonymization
WO2014181541A1 (ja) * 2013-05-09 2014-11-13 日本電気株式会社 匿名性を検証する情報処理装置及び匿名性検証方法
US9558369B2 (en) 2013-05-09 2017-01-31 Nec Corporation Information processing device, method for verifying anonymity and medium
US10346639B2 (en) 2014-02-13 2019-07-09 Kabushiki Kaisha Toshiba Anonymization identifier computing system
WO2015122403A1 (ja) * 2014-02-13 2015-08-20 株式会社 東芝 匿名化指標算出システム
JP2015153106A (ja) * 2014-02-13 2015-08-24 株式会社東芝 匿名化指標算出システム
JP2015158852A (ja) * 2014-02-25 2015-09-03 日本電信電話株式会社 情報収集システムとその情報収集装置、情報提供装置、匿名情報収集方法及びプログラム
JP2017516194A (ja) * 2014-03-26 2017-06-15 アルカテル−ルーセント ストリーミングデータの匿名化
JP2016009338A (ja) * 2014-06-24 2016-01-18 株式会社日立ソリューションズ パーソナル情報管理システム及びパーソナル情報匿名化装置
JP2017049693A (ja) * 2015-08-31 2017-03-09 富士通株式会社 個人情報匿名化方法、プログラム、及び情報処理装置
KR101973949B1 (ko) 2016-11-29 2019-04-30 주식회사 파수닷컴 목적에 따라 비식별화된 데이터를 최적화하는 방법 및 장치
KR20180060390A (ko) * 2016-11-29 2018-06-07 주식회사 파수닷컴 목적에 따라 비식별화된 데이터를 최적화하는 방법 및 장치
JP2019101809A (ja) * 2017-12-04 2019-06-24 Kddi株式会社 匿名化装置、匿名化方法及び匿名化プログラム
JP2019175002A (ja) * 2018-03-27 2019-10-10 富士通株式会社 匿名化装置
JP7063048B2 (ja) 2018-03-27 2022-05-09 富士通株式会社 匿名化装置

Also Published As

Publication number Publication date
JP6015658B2 (ja) 2016-10-26
JPWO2013031997A1 (ja) 2015-03-23
EP2752786A1 (en) 2014-07-09
EP2752786A4 (en) 2015-04-08
US20140201847A1 (en) 2014-07-17

Similar Documents

Publication Publication Date Title
JP6015658B2 (ja) 匿名化装置、及び、匿名化方法
US11334685B2 (en) Smart de-identification using date jittering
JP6007969B2 (ja) 匿名化装置及び匿名化方法
Prasser et al. Putting statistical disclosure control into practice: The ARX data anonymization tool
US10423803B2 (en) Smart suppression using re-identification risk measurement
US11222731B2 (en) Balancing provenance and accuracy tradeoffs in data modeling
US20210165913A1 (en) Controlling access to de-identified data sets based on a risk of re- identification
US10346639B2 (en) Anonymization identifier computing system
WO2014049995A1 (ja) 匿名化を実行する情報処理装置、匿名化方法及びプログラムを記録した記録媒体
WO2013121738A1 (ja) 分散匿名化装置及び分散匿名化方法
US20170293724A1 (en) Linking entity records based on event information
US10891275B2 (en) Limited data enricher
US20240095398A1 (en) Data aggregation based on disparate local processing of requests
US20190236309A1 (en) Data de-identification with minimal data change operations to maintain privacy and data utility
Vavilis et al. Role mining with missing values
US10510028B2 (en) Method and apparatus for utilizing task value units for imaging interpretation and other tasks
JP5875535B2 (ja) 匿名化装置、匿名化方法、プログラム
JP5875536B2 (ja) 匿名化装置、匿名化方法、プログラム
EP4060542B1 (en) System and method for data anonymization using optimization techniques
WO2022022062A1 (en) Pair selection for entity resolution analysis
Elsa et al. Data Privacy and Security in Sustainable Healthcare: Navigating Legal and Ethical Challenges
JP6626804B2 (ja) 計算機、選定方法、および選定プログラム
KR20240077318A (ko) 머신러닝 기반의 데이터 비식별화 처리 시스템과 방법 및 이를 위한 컴퓨터 프로그램

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12828450

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2013531445

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 14240876

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE