WO2014006851A1 - 匿名化装置、匿名化システム、匿名化方法、及び、プログラム記録媒体 - Google Patents

匿名化装置、匿名化システム、匿名化方法、及び、プログラム記録媒体 Download PDF

Info

Publication number
WO2014006851A1
WO2014006851A1 PCT/JP2013/003980 JP2013003980W WO2014006851A1 WO 2014006851 A1 WO2014006851 A1 WO 2014006851A1 JP 2013003980 W JP2013003980 W JP 2013003980W WO 2014006851 A1 WO2014006851 A1 WO 2014006851A1
Authority
WO
WIPO (PCT)
Prior art keywords
group
record
records
anonymization
minority
Prior art date
Application number
PCT/JP2013/003980
Other languages
English (en)
French (fr)
Inventor
由起 豊田
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to JP2014523583A priority Critical patent/JPWO2014006851A1/ja
Publication of WO2014006851A1 publication Critical patent/WO2014006851A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification

Definitions

  • the present invention relates to an anonymization device that performs anonymization processing on data, an anonymization method, and a program recording medium.
  • the number of patients with a certain illness is used as statistical data in graphs etc. for each age and gender.
  • the patient data that is the basis of these data may be identified by a combination of information such as the date of consultation and the date of birth. Therefore, from the viewpoint of protecting personal information, it is necessary to anonymize these data so that individuals are not identified.
  • k-anonymity means that the number of records having the same quasi-identifier is set to a predetermined threshold by performing processing such as classifying the quasi-identifier item, which is information that may identify an individual, into an anonymization group. It is an index to guarantee that
  • Patent Document 1 includes a group in which the number of records belonging to a subject is less than a predetermined threshold as a result of anonymizing each item in the data to be anonymized.
  • Patent Document 2 priorities are assigned to items of a plurality of quasi-identifiers according to the purpose of use of the data, and the k-anonymity is satisfied in order from the quasi-identifier item having the lowest priority.
  • a device that performs anonymization processing is disclosed.
  • Patent Document 3 user information that matches the content attribute condition is acquired, and if the number of user information is less than a certain number, the attribute value of the most frequently accessed number is obtained and added to the attribute condition using the OR condition.
  • a user information management apparatus that acquires user information is disclosed. If the number of user information is equal to or greater than a certain number, the user information management device transmits a content acquisition method including access information to the content, and when receiving a content provision request, acquires and transmits the content. Further, the user information management apparatus counts and records the number of users having the same attribute value accessed for each attribute value specified in the attribute condition as the access number.
  • An object of the present invention is to provide an anonymization device, an anonymization system, an anonymization method, and an anonymization program that solve the above-described problems.
  • An anonymization apparatus includes a classification unit that classifies an input record into a group corresponding to a section obtained by dividing a range that can be taken by an attribute value of a data item included in the record, and an included record Determining means for determining the group having a number of less than a threshold as a minority group, and when the group is a minority group, a record of a group adjacent to the minority group, wherein the attribute value of the data item is the Change means for changing a record belonging to a predetermined range from a boundary value with a minority group to belonging to the minority group, and an attribute value of the data item of the record as identification information of a section corresponding to the group to which the group belongs And output means for outputting the record.
  • the anonymization method of an embodiment of the present invention classifies input records into groups corresponding to sections obtained by dividing a range that can be taken by attribute values of data items included in the records, and the number of records included is
  • the group that is less than the threshold is determined as a minority group, and the group is a minority group
  • the record is a group adjacent to the minority group
  • the attribute value of the data item is a boundary value with the minority group
  • the record belonging to a predetermined range is changed to belong to the minority group
  • the attribute value of the data item of the record is replaced with the identification information of the section corresponding to the group to which the record belongs, and the record is output.
  • An anonymization program includes a classification process for classifying an input record into a group corresponding to a section obtained by dividing a range that an attribute value of a data item included in the record can take, and an included record
  • a determination process for determining the group whose number is less than a threshold as a minority group, and when the group is a minority group, a record of a group adjacent to the minority group, wherein the attribute value of the data item is the Change processing for changing a record belonging to a predetermined range from a boundary value with a minority group to belonging to the minority group, and an attribute value of the data item of the record as identification information of a section corresponding to the group to which the group belongs
  • the computer executes the output process for outputting the record.
  • the present invention realizes anonymization while ensuring the k-anonymity of information and at the same time suppressing information loss.
  • FIG. 1 is a block diagram showing the configuration of the anonymization system of this embodiment.
  • the anonymization system 1 of the present embodiment includes an anonymization device 10, an input information storage unit 20, and an anonymization information storage unit 30.
  • the anonymization device 10 anonymizes input information such as patient data stored in the input information storage unit 20 and stores the input information in the anonymization information storage unit 30.
  • Anonymization device 10 includes a classification unit 100, a grouping index storage unit 101, a determination unit 102, an anonymization index storage unit 103, a change unit 104, an adjustment width storage unit 105, and an output unit 106. .
  • the classification unit 100 receives the input information stored in the input information storage unit 20.
  • a configuration example of the input information is shown in FIG.
  • the input information of this embodiment is patient data in a medical institution, for example.
  • Each record in the input information includes items of patient age and disease name.
  • record items are also called data items or attributes, and their contents are called attribute values.
  • the classification unit 100 classifies each record of the input information into a plurality of groups based on the grouping index stored in the grouping index storage unit 101. Specifically, the grouping index specifies the data item in the record and the width of the attribute value section of the data item. Then, the classification unit 100 refers to the grouping index, and classifies records in which the value of the data item specified by the grouping index falls within the same section into the same group.
  • the grouping index storage unit 101 is, for example, set by the administrator of the anonymization system 1 “for age items, the age range from 0 to 79 years is 5 years old, and 80 and older is combined into one”. Stores grouping indicators. As illustrated in FIG. 3, the classification unit 100 classifies the ten records “10 years and 10 months” to “14 years and 11 months” in the input information into a group of “10 to 14 years”, and sets “17 Two records of “8 years old” and “19 years 5 months” are classified into a group of “15 to 19 years old”.
  • the determination unit 102 determines whether the number of records included in each group grouped by the classification unit 100 is equal to or greater than the value of the anonymization index stored in the anonymization index storage unit 103.
  • the anonymization index storage unit 103 stores “5” that is an anonymization index set by the administrator of the anonymization system 1, for example.
  • the determination unit 102 determines that the number of records of the group “15 to 19 years old” of the above two groups is two and is less than “5” which is the value of the anonymization index. Then, the determination unit 102 reports to the changing unit 104 that the number of records in the group “15 to 19 years old” is less than the value of the anonymization index.
  • the change unit 104 receives the report from the determination unit 102 and performs a change process in the group classification of records based on the adjustment width stored in the adjustment width storage unit 105.
  • the adjustment width storage unit 105 stores, for example, “6 months” that is the adjustment width set by the administrator of the anonymization system 1.
  • the change unit 104 includes a “10 to 14 years old” group that is adjacent to a “15 to 19 year old” group whose number of records is less than “5” that is the value of the anonymization index. Search for records that fall within the range of adjustment from the age of 15 to 6 months, ie, “14 years and 6 months” to “14 years and 11 months”, which is the boundary value between the above two groups. .
  • the change unit 104 assigns the group belonging to the three records “14 years and 11 months”, “14 years and 9 months”, and “14 years and 7 months” that were hit as a result of the search to “15 to 19 years old” To the group.
  • the number of records of the group “10 to 14 years” is changed from 10 to 7
  • the number of records of the group “15 to 19 years” is changed from 2 to 5.
  • the number of records in each group satisfies “5” which is the value of the anonymization index.
  • the output unit 106 receives the processing result of the changing unit 104, and performs anonymization processing of the input information as shown in FIG.
  • the output unit 106 changes the attribute value of the age item of the seven records belonging to the group “10 to 14 years old” to “10-14 years old” which is identification information for identifying the section corresponding to the group.
  • the attribute value of the age item of the five records belonging to the group “15 to 19 years old” is changed to “15 to 19 years old”.
  • the output unit 106 stores the output anonymized information in the anonymized information storage unit 30.
  • the classification unit 100 classifies the record of the input information obtained from the input information storage unit 20 into groups based on the grouping index stored in the grouping index storage unit 101, and determines correspondence information between the record and the group as a determination unit. It outputs to 102 (S101).
  • the determination unit 102 determines whether the number of records included in each group of input information is equal to or greater than the value of the anonymization index stored in the anonymization index storage unit 103 (S102).
  • the changing unit 104 When there is a group in which the number of records is less than the value of the anonymization index (Yes in S103), the changing unit 104 performs the following process for a small number of groups in which the number of records is less than the anonymization index. First, the change unit 104 selects the adjustment width storage unit from the record included in the group adjacent to the minority group in the order of the section, the item specified by the grouping index from the boundary value with the section of the minority group Records included in the adjustment range stored in 105 are extracted. Next, the changing unit 104 changes the extracted record to belong to the minority group (S104).
  • the output unit 106 rewrites the attribute value of the item specified by the grouping index with respect to all records to the identification information of the section corresponding to the group to which each record belongs, and uses the anonymized information storage unit 30 as anonymized information. (S105), and the entire process ends.
  • This embodiment has an effect of enabling anonymization while ensuring k-anonymity while suppressing loss of information as statistical data originally held by input information.
  • the reason is that when there is a minority group in which the number of records is determined to be less than the value of the anonymization index by the determination unit 102, the changing unit 104 selects the section of the minority group from the records of the groups adjacent to the minority group. This is because the affiliation of records included in the range of the adjustment range from the boundary value is changed to a decimal group.
  • the input information record includes two items of age and disease name is described as an example.
  • the input information record may have three or more items.
  • the anonymization system 1 may set a plurality of items to be anonymized, set an anonymization index and an adjustment width for each anonymization target item, and It is also possible to perform a more complicated anonymization process by performing the process.
  • the configuration of the second embodiment is the same as the configuration of the first embodiment shown in FIG.
  • FIG. 5 shows a configuration example of the input information stored in the input information storage unit 20.
  • Each record in the input information of the present embodiment is different from the first embodiment, and includes, for example, items of a patient address and a disease name.
  • the grouping index storage unit 101 stores, as a grouping index, data that indicates the data items in the records used for grouping criteria and the order of their values.
  • the grouping index storage unit 101 stores, for example, a data item of a grouping index “target address data item”.
  • the address data is non-numeric data unlike the age data in the first embodiment. Therefore, an index for defining the order of records is required.
  • the order of records of the input information according to the present embodiment is defined in advance by human or computer calculation according to a predetermined index.
  • examples of an index for defining the order of the records include a zip code corresponding to each address, information on the latitude and longitude of the address area, and the like.
  • the grouping index storage unit 101 stores data describing the arrangement order of addresses defined as described above.
  • the grouping index storage unit 101 further defines, as a grouping index, a character string indicating the width of the section, that is, the range in which the attribute value of the data item belongs to the same group, and the section name. Stores group definition information. Here, the section in the address data comes to an area.
  • the group definition information describes the attribute value of the section name as identification information in order from the top in the order of sections corresponding to the group.
  • the sections are arranged in the order of “Minato Ward” and “Shinagawa Ward”.
  • the group definition information defines a region belonging to each section, a correspondence relationship between the region indicated by the address data and the section name, and the arrangement order of the regions.
  • FIG. 4 shows (1) the order in which the address data is arranged in the record, and (2) records having the same width of the address data section, that is, the “district” of the address data are in the same group. (3) section identification information, that is, a section name is shown.
  • the classification unit 100 When the classification unit 100 receives the input information shown in FIG. 5, the classification unit 100 refers to the grouping index “target address attribute” stored in the grouping index storage unit 101. The classification unit 100 performs group classification processing by comparing the record of the input information with the group definition information in the grouping index storage unit 101. In the case of the example in FIG. 5, the classification unit 100 classifies the records “Minato Ward Shiba 1” to “Minato Ward Takanawa 4” into the group “Minato Ward”, “Shinagawa Ward Kita Shinagawa 1”, “Shinagawa Ward Osaki “2” records are classified into the “Shinagawa Ward” group.
  • the determination unit 102 determines whether or not the number of records in the group “Minato Ward” and “Shinagawa Ward” satisfies “5” which is the value of the anonymization index. As shown in FIG. 5, since there are 10 records for the “Minato Ward” group and 2 records for the “Shinagawa Ward” group, the determination unit 102 determines that the number of records for “Shinagawa Ward” is the anonymization index. It is determined that the value is not satisfied. Then, the determination unit 102 reports to the changing unit 104 that the number of records in the “Shinagawa Ward” group is less than the value of the anonymization index.
  • the change unit 104 receives the report from the determination unit 102 and performs a change process in the group classification of records based on the adjustment width stored in the adjustment width storage unit 105.
  • the adjustment width storage unit 105 stores, for example, the adjustment width of “1 area” in the section.
  • the changing unit 104 is a section adjacent to the section corresponding to the group of “Shinagawa Ward” whose number of records is less than the anonymization index “5” in the order of the section “Minato Ward”. Records that belong to the adjustment range of one region from the boundary between the two groups described above.
  • the area closest to the boundary with “Shinagawa Ward” in the “Minato Ward” group is “Minato Ward Takanawa” from the order of the regions belonging to “Minato Ward”. .
  • the change unit 104 changes the group belonging to the three records of “Minato-ku Takanawa 1”, “Minato-ku Takanawa 3”, and “Minato-ku Takanawa 4” belonging to the area of “Minato-ku Takanawa”. Extract as Then, the changing unit 104 changes the group to which the three records described above belong to “Shinagawa Ward”.
  • the number of records in the “Minato-ku” group is changed from 10 to 7
  • the number of records in the “Shinagawa-ku” group is changed from 2 to 5.
  • the number of records in each group satisfies “5” which is the value of the anonymization index.
  • the output unit 106 receives the processing result of the changing unit 104 and performs anonymization processing of input information as shown in FIG.
  • the output unit 106 changes the attribute value of the address item of the seven records belonging to the “Minato Ward” group to the identification information “Minato Ward”, and sets the address of the five records belonging to the “Shinagawa Ward” group. Change the attribute value of the item to the identification information “Shinagawa Ward”.
  • This embodiment has the effect of enabling anonymization similar to that of the first embodiment even if the attribute value of the item to be anonymized is non-numeric data.
  • the reason is that the grouping index storage unit 101 stores group definition information that defines the correspondence between section names and non-numeric data to be anonymized, and the classification unit 101 refers to the group definition information. This is because the input information records are classified.
  • the attribute value of the item to be anonymized is numerical data as in the first embodiment, if the section width of each group indicated by the numerical value is defined, each group ranked from the numerical value The input records can be classified.
  • the attribute value of the item to be anonymized is non-numeric data as in this embodiment, the definition information of the arrangement order of the non-numeric data, the width definition information of the section, and the identification information of the section Are defined as group definition information, so that input records can be classified into each ranked group.
  • the address is described as an example of the non-numeric data to be anonymized.
  • the address is not limited to the address.
  • non-numeric data such as occupation and educational background may be used. is there.
  • a third embodiment of the present invention will be described in detail with reference to the drawings.
  • FIG. 6 is a block diagram showing the configuration of the anonymization system according to the third embodiment of the present invention.
  • This embodiment is different from the first embodiment in that the anonymization device 10 includes an adjustment record selection unit 107 and an adjustment record selection index storage unit 108.
  • the operations of the constituent elements other than the adjustment record selection unit 107 and the adjustment record selection index storage unit 108 are as described in the first embodiment.
  • the adjustment record selection unit 107 selects a record that finally changes the belonging group from among the input information records that the changing unit 104 extracts for anonymization processing that changes the belonging group.
  • the adjustment record selection unit 107 performs the selection described above based on the adjustment record selection index stored in the adjustment record selection index storage unit 108.
  • the adjustment record selection index storage unit 108 stores an adjustment record selection index “proportional to the number of records in the group” as set by the administrator of the anonymization system 1.
  • This indicator shows the number of records that change the affiliation to the minority group from each group adjacent to the front and rear in the record order of the minority group whose inclusion record number does not satisfy the anonymization index. And it is shown that it is proportional to the number of records included in the group adjacent to the rear. That is, when the ratio of the total number of records included in the group adjacent to the front and rear in the record arrangement order of the minority group is m: n (m and n are natural numbers), The ratio of the number of records whose membership is changed to the group is also m: n.
  • FIG. 7 shows an example of anonymization processing of input information in this embodiment.
  • the input information of this embodiment includes, for example, a total of 32 records from “10 years and 10 months” to “24 years and 5 months”.
  • the classification unit 100 Based on the grouping index similar to that of the first embodiment stored in the grouping index storage unit 101, the classification unit 100 records input information records “10 to 14 years old” and “15 to 19 years old”. And “20 to 24 years old”. The number of records included in each group is 10, 2, and 20, respectively.
  • the determining unit 102 notifies the changing unit 104 that the number of records of the group “15 to 19 years old” is less than the value of the anonymization index “5”.
  • the changing unit 104 has a range of 6 months from the boundary, that is, “14 years and 6 years”.
  • the records of “14 years and 7 months”, “14 years and 9 months”, and “14 years and 11 months” belonging to “14 years and 11 months” are extracted as belonging group change target candidates.
  • the change unit 104 selects a range of 6 months from the boundary, that is, “20” among records belonging to the group “20 to 24 years” adjacent to the “15 to 19 years” group.
  • the records of “20 years and 1 month”, “20 years and 3 months” and “20 years and 5 months” belonging to “20 years and 5 months” are also extracted as candidates for belonging group change. .
  • the adjustment record selection unit 107 follows the adjustment record selection index “proportional to the number of records in the group”, and finally sets one of the three records that change the group to be “10 to 14 years old”. Two of the groups are selected from the group of “20 to 24 years old”.
  • the adjustment record selection unit 107 selects records in order from the closest to the boundary in each group. Therefore, the adjustment record selection unit 107 is the first among the “14 years and 11 months” record and the “20 to 24 years” group that are closest to the boundary among the “10 to 14 years” groups. The records of “20 years and 1 month” and “20 years and 3 months”, which are the second closest to the boundary, are finally selected as records for changing the belonging group.
  • the changing unit 104 changes the group to which the above-described three records selected by the adjustment record selecting unit 107 belong to the group “15 to 19 years old”, and notifies the output unit 106 of it.
  • the adjustment record selection unit 107 narrows down the records for changing the group to the optimum one based on the adjustment record selection index “proportional to the number of records in the group”.
  • the numbers of records after anonymization processing of the groups “10 to 14 years old” and “20 to 24 years old” are 9 and 18, respectively, and the ratio is 1: 2 is the same as before the anonymization process. If the group to which the record that changes the group belongs is biased to any group, the anonymization process may affect the characteristics of the input information statistical data. The above-described problem can be avoided depending on the form. ⁇ Fourth embodiment> Next, a fourth embodiment of the present invention will be described in detail with reference to the drawings.
  • the configuration of the fourth embodiment is the same as that of the third embodiment shown in FIG.
  • the fourth embodiment is different from the third embodiment in that the adjustment record selection index stored in the adjustment record selection index storage unit 108 is “only the group having the larger number of records”.
  • This index is a record for changing the affiliation to a minority group whose number of records to be included does not satisfy the anonymization index, and among the groups adjacent to the front and rear in the record arrangement order of the minority group, the number of records is This indicates that the record is selected from the records included in the larger group.
  • FIG. 1 An example of input information anonymization processing in the present embodiment is shown in FIG.
  • the input information of this embodiment is the same as that of the example of 3rd embodiment shown in FIG.
  • the adjustment record selection unit 107 selects the three records that finally change the belonging group from the six records extracted as the belonging group change target candidates by the changing unit 104. Select based on indicators.
  • the adjustment record selection unit 107 follows the adjustment record selection index “only the group with the larger number of records”, and finally selects all the three records to be changed from the group “20 to 24 years old” from the group “20 to 24 years old”. select. Therefore, the adjustment record selection unit 107 selects the three records “20 years and 1 month”, “20 years and 3 months”, and “20 years and 5 months” as the records that finally change the belonging group. To do.
  • the adjustment record selection unit 107 narrows down the records for changing the belonging group to the optimum one based on the adjustment record selection index “only the group with the larger number of records”.
  • FIG. 9 is a block diagram showing the configuration of the anonymization system of the fifth embodiment of the present invention.
  • This embodiment is different from the first embodiment in that the anonymization device 10 includes the adjustment width setting unit 109.
  • the operation of each component other than the adjustment width setting unit 109 is as described in the first embodiment.
  • the adjustment width setting unit 109 sets the range of the adjustment width to be set forward and backward in the record arrangement order of each group for each group, and the adjustment width storage unit 105 stores information indicating the set adjustment width range. To store.
  • FIG. 10 An example of information indicating the range of the adjustment width set by the adjustment width setting unit 109 is shown in FIG.
  • the change unit 104 determines whether the number of records is 6 in front of the group “10 to 14 years”. Indicates that the month and the adjustment range of 6 months are taken backward.
  • FIG. 11 shows an example of anonymization processing of input information in the present embodiment.
  • the input information of this embodiment is the same as that of the third to fourth embodiments shown in FIGS.
  • the changing unit 104 performs the changing process in the group classification of the records.
  • the adjustment unit 104 since the adjustment range of the front and rear of the group “15 to 19 years old” is 6 months and 0 month, respectively, the adjustment unit 104 is “15 to 19 years old”.
  • An adjustment range of 6 months is set only in front of the group, that is, the group side of “10 to 14 years old”.
  • the change unit 104 sets the group belonging to the three records “14 years and 11 months”, “14 years and 9 months”, and “14 years and 7 months” within the range of the adjustment range described above from “15 years old”. Change to the “19-year-old” group.
  • the adjustment width setting unit 109 sets the adjustment width for each front and rear in the record arrangement order of each group and stores the adjustment width in the adjustment width storage unit 105, and the changing unit 104 sets the adjustment width storage unit 105. This is because the change processing in the group classification of records is performed based on the above information.
  • the adjustment range set to the rear of the group “15 to 19 years” and the front of “25 to 29 years” is 0 month. Therefore, when the number of records of the group adjacent to the group “20 to 24 years old” is less than the anonymization index, the changing unit 104 selects the group belonging to the group “20 to 24 years old” Do not change. This is because in the input information, the data of the “20 to 24 years” group is more important than the other age groups, and the “20 to 24 years” group is intended to be an error caused by anonymization processing. It means to make it smaller.
  • the anonymization system 1 when the importance of data of a specific group is high, the anonymization system 1 is used as statistical data of input information by intentionally reducing the error caused by the anonymization process with respect to the group. The influence on the characteristics can be reduced. ⁇ Sixth embodiment> Next, a sixth embodiment of the present invention will be described in detail with reference to the drawings.
  • FIG. 12 is a block diagram showing the configuration of the anonymization device according to the sixth embodiment of the present invention.
  • the anonymization device 10 of this embodiment includes a classification unit 100, a determination unit 102, a change unit 104, and an output unit 106.
  • the classification unit 100 receives a record that includes any of the values in which the arrangement order is determined in a predetermined data item, and determines a range in which the attribute value of the predetermined data item can take these records according to the grouping index. Classify into groups corresponding to the divided sections.
  • the determination unit 102 determines a group in which the number of included records is less than the specified anonymization index value as a minority group.
  • the changing unit 104 is a record of a group adjacent to the minority group in the section arrangement order, and the attribute value of the predetermined data item has a predetermined adjustment range from the boundary value with the minority group Change the records belonging to the range to the minority group affiliation.
  • the output unit 106 replaces the attribute value of a predetermined data item of the record with the identification information of the group to which it belongs, and outputs the record in which the attribute value is replaced as anonymization information.
  • this embodiment has an effect of enabling anonymization of information with k-anonymity without impairing characteristics as statistical data originally held by the information. .
  • the reason is that when there is a minority group whose number of records is determined to be less than the anonymization index by the determination unit 102, the change unit 104 adjusts the boundary value with the minority group from the records of the groups adjacent to the minority group. This is because the affiliation of records included in the width range is changed to a decimal group.
  • the value of the grouping index, the anonymization index, and the adjustment width is input to the anonymization device 10 by the user of the anonymization device 10 every time the anonymization device 10 executes the anonymization process. May be.
  • Anonymization apparatus 100 Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

情報のk-匿名性を確保すると同時に、情報の損失を抑えた匿名化を行うための匿名化装置を提供する。本願発明の匿名化装置は、入力されるレコードを、レコードに含まれるデータ項目の属性値が取りうる範囲を分割した区間に対応するグループに分類する分類手段と、包含するレコードの数が閾値未満である前記グループを少数グループと判定する判定手段と、グループが少数グループである場合に、少数グループに隣接するグループのレコードであって、データ項目の属性値が少数グループとの境界値から所定幅の範囲に属するレコードを、少数グループの所属に変更する変更手段と、レコードの前記データ項目の属性値を、所属するグループに対応する区間の識別情報に置き換え、レコードを出力する出力手段と、を備える。

Description

匿名化装置、匿名化システム、匿名化方法、及び、プログラム記録媒体
 本願発明は、データに対して匿名化処理を行う匿名化装置、匿名化方法、及び、プログラム記録媒体に関する。
 医療機関等において、ある病気の患者数は、年齢や性別ごとにグラフ等にして統計データとして利用される。しかしこれらのデータの元となる患者データは、受診年月日や生年月日等の情報の組み合わせによって個人が特定される場合がある。そこで、個人情報の保護の観点で、個人を特定されないようにこれらのデータを匿名化する必要がある。
 匿名性に関する代表的な指標の一つとしてk-匿名性がある。k-匿名性とは、個人を特定する恐れがある情報である準識別子の項目を、グループに分類して匿名化する等の処理を行うことより、同じ準識別子を有するレコード数が所定の閾値以上になることを保証するための指標である。
 このk-匿名性に関連する技術として、特許文献1には、匿名化の対象データにおける個々の項目に対して匿名化を行った結果、所属するレコード数が所定の閾値未満であるグループが存在する場合は、匿名化区分を変更して再度匿名化処理を行う装置が公開されている。
 また、特許文献2には、データの利用目的に応じて、複数の準識別子の項目に対して優先順位を付け、優先順位が最下位の準識別子の項目から順番にk-匿名性を満たすまで匿名化処理を行う装置が公開されている。
 また、特許文献3には、コンテンツの属性条件に一致するユーザ情報を取得して、ユーザ情報数が一定数未満であれば、最多アクセス数の属性値を得て属性条件にOR条件で追加してユーザ情報を取得するユーザ情報管理装置が公開されている。このユーザ情報管理装置は、ユーザ情報数が一定数以上であれば、コンテンツへのアクセス情報を含むコンテンツ取得方法を送信し、コンテンツ提供依頼を受信すると、そのコンテンツを取得して送信する。さらに前記ユーザ情報管理装置は、属性条件に指定された属性値毎に、アクセスした同じ属性値を持つユーザ数をアクセス数として集計して記録する。
特開2010-86179号公報 特開2012-3440号公報 特開2011-175313号公報
 前述の特許文献1から特許文献3の装置では、情報の匿名化の過程で、k-匿名性を満たすまで、匿名化の対象とする準識別子の項目のグループ単位を次第に広げていく処理を行う。この為、グループの粒度が粗くなればなるほど、情報の損失量が増加することになる。したがって、特許文献1から特許文献3の装置では、匿名化処理により、その情報が本来保持している統計データとしての特性を大きく損なう可能性がある。その場合、匿名化したデータは、医学研究などの利用目的に合致しないものになるという問題点がある。
 本願発明の目的は、上述の問題点を解決した匿名化装置、匿名化システム、匿名化方法、及び、匿名化プログラムを提供することである。
 本願発明の一実施形態の匿名化装置は、入力されるレコードを、前記レコードに含まれるデータ項目の属性値が取りうる範囲を分割した区間に対応するグループに分類する分類手段と、包含するレコードの数が閾値未満である前記グループを少数グループと判定する判定手段と、前記グループが少数グループである場合に、前記少数グループに隣接するグループのレコードであって、前記データ項目の属性値が前記少数グループとの境界値から所定幅の範囲に属するレコードを、前記少数グループの所属に変更する変更手段と、前記レコードの前記データ項目の属性値を、所属するグループに対応する区間の識別情報に置き換え、前記レコードを出力する出力手段と、を備える。
 本願発明の一実施形態の匿名化方法は、入力されるレコードを、前記レコードに含まれるデータ項目の属性値が取りうる範囲を分割した区間に対応するグループに分類し、包含するレコードの数が閾値未満である前記グループを少数グループと判定し、前記グループが少数グループである場合に、前記少数グループに隣接するグループのレコードであって、前記データ項目の属性値が前記少数グループとの境界値から所定幅の範囲に属するレコードを、前記少数グループの所属に変更し、前記レコードの前記データ項目の属性値を、所属するグループに対応する区間の識別情報に置き換え、前記レコードを出力する。
 本願発明の一実施形態の匿名化プログラムは、入力されるレコードを、前記レコードに含まれるデータ項目の属性値が取りうる範囲を分割した区間に対応するグループに分類する分類処理と、包含するレコードの数が閾値未満である前記グループを少数グループと判定する判定処理と、前記グループが少数グループである場合に、前記少数グループに隣接するグループのレコードであって、前記データ項目の属性値が前記少数グループとの境界値から所定幅の範囲に属するレコードを、前記少数グループの所属に変更する変更処理と、前記レコードの前記データ項目の属性値を、所属するグループに対応する区間の識別情報に置き換え、前記レコードを出力する出力処理と、をコンピュータに実行させる。
 本願発明は、情報のk-匿名性を確保すると同時に、情報の損失を抑えた匿名化を行うことを実現する。
本願発明の第一の実施形態の匿名化システムの構成を示すブロック図である。 本願発明の第一の実施形態の動作を示すフローチャートである。 本願発明の第一の実施形態における入力情報の匿名化処理の例を示す図である。 本願発明の第二の実施形態におけるグループ化指標記憶部に格納された情報の例を示す図である。 本願発明の第二の実施形態における入力情報の匿名化処理の例を示す図である。 本願発明の第三の実施形態の匿名化システムの構成を示すブロック図である。 本願発明の第三の実施形態における入力情報の匿名化処理の例を示す図である。 本願発明の第四の実施形態における入力情報の匿名化処理の例を示す図である。 本願発明の第五の実施形態の匿名化システムの構成を示すブロック図である。 本願発明の第五の実施形態における調整幅記憶部に格納された情報の構成例を示す図である。 本願発明の第五の実施形態における入力情報の匿名化処理の例を示す図である。 本願発明の第六の実施形態の匿名化装置の構成を示すブロック図である。
<第一の実施形態>
 本願発明の第一の実施の形態について図面を参照して詳細に説明する。
 図1は本実施形態の匿名化システムの構成を示すブロック図である。本実施形態の匿名化システム1は、匿名化装置10と、入力情報格納部20と、匿名化情報格納部30とを含む。
 匿名化装置10は、入力情報格納部20に格納された患者データ等の入力情報を匿名化処理して、匿名化情報格納部30に格納する。
 匿名化装置10は、分類部100と、グループ化指標記憶部101と、判定部102と、匿名化指標記憶部103と、変更部104と、調整幅記憶部105と、出力部106とを含む。
 分類部100は、入力情報格納部20に格納された入力情報を受け取る。入力情報の構成例を図3に示す。本実施形態の入力情報は、例えば、医療機関における患者データである。入力情報における各レコードは、患者の年齢と病名との項目を含む。なお、以下ではレコードの項目をデータ項目、または、属性とも呼び、その内容を属性値と呼ぶ。
 分類部100は、グループ化指標記憶部101に格納されたグループ化指標に基づき、入力情報の各レコードを複数のグループに分類する。具体的には、グループ化指標は、レコード内のデータ項目と、当該データ項目の属性値の区間の幅とを指定している。そして、分類部100は、グループ化指標を参照して、当該グループ化指標で指定されたデータ項目の値が、同じ区間に入るレコード同士を同じグループに分類する。
 グループ化指標記憶部101は、例えば、匿名化システム1の管理者により設定された「年齢の項目を対象に、0歳から79歳までは5歳幅、80歳以上は1つにまとめる」というグループ化指標を格納している。図3に示すとおり、分類部100は、入力情報における「10歳10か月」乃至「14歳11か月」の10個のレコードを「10歳から14歳」のグループに分類し、「17歳8か月」と「19歳5か月」の2個のレコードを、「15歳から19歳」のグループに分類する。
 判定部102は、分類部100がグループ化した各グループが包含するレコード数が、匿名化指標記憶部103に格納された匿名化指標の値以上であるか否かを判定する。匿名化指標記憶部103は、例えば、匿名化システム1の管理者により設定された匿名化指標である「5」を記憶している。
 判定部102は、上述の2つのグループのうち、「15歳から19歳」のグループのレコード数が2個であり、匿名化指標の値である「5」未満であることを判定する。そして、判定部102は、「15歳から19歳」のグループのレコード数が匿名化指標の値未満であることを変更部104へ報告する。
 変更部104は、判定部102からの報告を受け、調整幅記憶部105に格納された調整幅に基づき、レコードのグループ分類における変更処理を行う。調整幅記憶部105は、例えば、匿名化システム1の管理者により設定された調整幅である「6か月」を記憶している。
 変更部104は、図3に示すとおり、レコード数が匿名化指標の値である「5」に満たない「15歳から19歳」のグループに隣接する「10歳から14歳」のグループ内のレコードであって、上述の2つのグループの境界値である15歳から6か月の調整幅の範囲、即ち、「14歳6か月」から「14歳11か月」に属するレコードをサーチする。変更部104は、サーチの結果ヒットした、「14歳11か月」、「14歳9か月」、「14歳7か月」の3個のレコードの所属グループを、「15歳から19歳」のグループに変更する。上述の処理の結果、「10歳から14歳」のグループのレコード数が10個から7個へ、「15歳から19歳」のグループのレコード数が2個から5個へ変更になる。これによって、各グループのレコード数は、匿名化指標の値である「5」を満たすことになる。
 出力部106は、変更部104の処理結果を受けて、図3に示すとおり、入力情報の匿名化処理を行う。出力部106は、「10歳から14歳」のグループに属する7個のレコードの年齢の項目の属性値を、グループに対応する区間を識別する識別情報である「10-14歳」に変更し、「15歳から19歳」のグループに属する5個のレコードの年齢の項目の属性値を「15-19歳」に変更する。出力部106は、出力した匿名化情報を、匿名化情報格納部30に格納する。
 次に図2のフローチャートを参照して、本実施形態の動作について詳細に説明する。
 分類部100は、入力情報格納部20から入手した入力情報のレコードを、グループ化指標記憶部101に格納されたグループ化指標に基づき、グループに分類し、レコードとグループの対応情報を、判定部102に出力する(S101)。
 判定部102は、入力情報の各グループが包含するレコード数が、匿名化指標記憶部103に記憶された匿名化指標の値以上であるか否かを判定する(S102)。
 レコード数が匿名化指標の値未満のグループが存在する場合(S103でYes)、変更部104は、レコード数が匿名化指標未満の少数グループについて次の処理を行う。変更部104は、まず、区間の並び順において少数グループに隣接するグループが包含するレコードの中から、グループ化指標で指定された項目が、少数グループの区間との境界値から、調整幅記憶部105に記憶された調整幅の範囲内に含まれるレコードを抽出する。変更部104は、次に、抽出したレコードを、少数グループの所属に変更する(S104)。
 レコード数が匿名化指標の値未満のグループが存在しない場合(S103でNo)、処理はS105へ進む。
 出力部106は、全てのレコードについて、グループ化指標で指定された項目の属性値を、各レコードが所属するグループに対応する区間の識別情報に書き換え、匿名化情報として、匿名化情報格納部30へ出力し(S105)、全体の処理は終了する。
 本実施形態には、入力情報が本来保持している統計データとしての情報の損失を抑えながら、k-匿名性を確保した匿名化を可能とする効果がある。その理由は、判定部102によりレコード数が匿名化指標の値未満と判定された少数グループが存在する場合、変更部104が、少数グループに隣接するグループのレコードの中から、少数グループの区間との境界値から調整幅の範囲に含まれるレコードの所属を、小数グループに変更するからである。
 この処理により、少数グループのレコード数は、匿名化指標の値を満たすことが可能となる。そして、少数グループが匿名化指標の値を満たすために所属グループを変更されたレコードは、元々少数グループの区間に隣接する区間上のレコードである。そのため、所属グループが変更された影響は、ほぼ統計誤差の範囲と考えても問題ない。したがって、本実施形態では、入力情報の統計データとしての情報の損失をほとんど伴わずに、匿名化を行うことが可能となる。
 尚、本実施形態では、便宜上、入力情報のレコードが年齢と病名との2つの項目を包含する場合を例に記載しているが、入力情報のレコードが3つ以上の項目を持つ場合もある。その場合、匿名化システム1は、匿名化の対象とする項目を複数個設定してもよく、各々の匿名化対象の項目に対して、匿名化指標と調整幅を設定し、本実施形態の処理を行うことで、より複雑な匿名化処理を行うことも可能である。
<第二の実施形態>
 次に、本願発明の第二の実施形態について図面を参照して詳細に説明する。
 第二の実施形態の構成は図1に示す第一の実施形態の構成と同様である。
 入力情報格納部20に格納された入力情報の構成例を図5に示す。本実施形態の入力情報における各レコードは、第一の実施形態とは異なり、例えば、患者の住所と病名との項目を包含している。
 グループ化指標記憶部101は、グループ分けの基準に使われるレコード内のデータ項目とその値の並び順とが分かるデータをグループ化指標として記憶する。グループ化指標記憶部101は、例えば、「住所のデータ項目を対象とする」というグループ化指標のデータ項目を格納している。
 住所のデータは第一の実施形態における年齢のデータとは異なり非数値データである。そのため、レコードの並び順を定義するための指標が必要となる。本実施形態の入力情報のレコードの並び順は、所定の指標に従い、人手あるいはコンピュータによる計算等により事前に定義されている。住所のデータの場合、レコードの並び順を定義するための指標としては、例えば、各々の住所に対応する郵便番号や、住所の区域の緯度経度の情報等がある。グループ化指標記憶部101は、このように定義された住所の並び順を記述したデータを記憶する。
 グループ化指標記憶部101は、グループ化指標としてさらに、区間の幅、即ち、データ項目の属性値がどの範囲にあるレコードが、同じグループに属するかを示す文字列と、区間名称とを定義したグループ定義情報を格納している。ここで、住所データにおける区間は区域に想到する。
 その構成例を図4に示す。グループ定義情報は、グループに対応する区間の並び順で、上から順番に識別情報として区間名称の属性値を記載している。図4の例では、区間の並び順は、「港区」、「品川区」の順番となる。グループ定義情報には、あわせて、各区間に所属する地域であって、住所のデータが示す地域と区間名称との対応関係、及び当該地域の並び順が定義されている。図4の例では、「港区」のグループに所属する地域は、「港区芝」、「港区三田」、「港区高輪」となり、「品川区」のグループに所属する地域は、「品川区北品川」、「品川区大崎」となる。地域の並び順は、図4における上からの記載順となる。即ち、図4には、(1)レコードに住所データの並び順が示されており、(2)住所データの区間の幅、即ち、住所データの「区」が同一のレコードが同一グループとなることを示す文字列、(3)区間の識別情報、即ち、区間名称が示されている。
 分類部100は、図5に示す入力情報を受け取ると、グループ化指標記憶部101に格納された「住所の属性を対象とする」というグループ化指標を参照する。分類部100は、入力情報のレコードを、グループ化指標記憶部101のグループ定義情報に照らし合わせて、グループ分類処理を行う。図5の例の場合、分類部100は、「港区芝1」乃至「港区高輪4」のレコードを「港区」のグループに分類し、「品川区北品川1」、「品川区大崎2」のレコードを「品川区」のグループに分類する。
 判定部102は、「港区」、「品川区」のグループのレコード数が、匿名化指標の値である「5」を満たすか否かの判定を行う。図5に示す通り、「港区」のグループのレコードは10個、「品川区」のグループのレコードは2個となるため、判定部102は、「品川区」のレコード数が匿名化指標の値を満たしていないことを判定する。そして、判定部102は、「品川区」のグループのレコード数が匿名化指標の値未満であることを変更部104へ報告する。
 変更部104は、判定部102からの報告を受け、調整幅記憶部105に格納された調整幅に基づき、レコードのグループ分類における変更処理を行う。調整幅記憶部105は、例えば、区間における「1地域」の調整幅を記憶している。
 変更部104は、図5に示すとおり、レコード数が匿名化指標の「5」に満たない「品川区」のグループに対応する区間に、区間の並び順で隣接する区間である「港区」のグループ内のレコードであって、上述の2つのグループの境界から1地域の調整幅の範囲に属するレコードを抽出する。図5の例の場合、「港区」のグループ内にあって、「品川区」との境界に最も近い地域は、「港区」に属する地域の並び順から、「港区高輪」となる。したがって、変更部104は、「港区高輪」の地域に属する「港区高輪1」、「港区高輪3」、「港区高輪4」の3個のレコードを、所属グループを変更させる対象レコードとして抽出する。そして、変更部104は、上述の3個のレコードの所属グループを、「品川区」に変更する。
 上述の処理の結果、「港区」のグループのレコード数が10個から7個へ、「品川区」のグループのレコード数が2個から5個へ変更になる。これによって、各グループのレコード数は、匿名化指標の値である「5」を満たすことになる。
 出力部106は、変更部104の処理結果を受けて、図5に示すとおり、入力情報の匿名化処理を行う。出力部106は、「港区」のグループに属する7個のレコードの住所の項目の属性値を識別情報「港区」に変更し、「品川区」のグループに属する5個のレコードの住所の項目の属性値を識別情報「品川区」に変更する。
 本実施形態には、匿名化の対象とする項目の属性値が非数値データであっても、第一の実施形態と同様の匿名化を可能とする効果がある。その理由は、グループ化指標記憶部101が、区間名称と匿名化の対象となる非数値データとの対応関係等を定義したグループ定義情報を格納し、分類部101がグループ定義情報を参照して入力情報のレコードの分類を行うからである。
 匿名化の対象とする項目の属性値が第一の実施形態のような数値データである場合、数値で示される各グループの区間幅を定義しておけば、数値から順位付けされた各グループへの入力レコードの分類が可能である。これに対し、匿名化の対象とする項目の属性値が本実施形態のような非数値データである場合、非数値データの並び順の定義情報と、区間の幅定義情報と、区間の識別情報とを、グループ定義情報として定義しておくことで、順位付けされた各グループへの入力レコードの分類が可能となる。
 尚、本実施形態では、匿名化の対象とする非数値データの項目として、住所を例に記載したが、住所に限定されるものではなく、例えば職業や学歴等の非数値データを用いる場合もある。
<第三の実施形態>
 次に、本願発明の第三の実施形態について図面を参照して詳細に説明する。
 図6は本願発明の第三の実施形態の匿名化システムの構成を示すブロック図である。
 本実施形態では、匿名化装置10が、調整レコード選択部107と、調整レコード選択指標記憶部108とを包含していることが、第一の実施形態とは異なる。調整レコード選択部107、および、調整レコード選択指標記憶部108を除く各構成要素の動作は、第一の実施形態で説明したとおりである。
 調整レコード選択部107は、変更部104が匿名化処理のために抽出した、所属グループを変更させる入力情報のレコードの中から、最終的に所属グループを変更させるレコードの選択を行う。調整レコード選択部107は、前述の選択を、調整レコード選択指標記憶部108に記憶された調整レコード選択指標に基づき行う。
 調整レコード選択指標記憶部108は、匿名化システム1の管理者の設定により、「グループのレコード数に比例」という調整レコード選択指標を記憶している。この指標は、包含するレコード数が匿名化指標を満たしていない少数グループの、レコードの並び順における前方および後方に隣接するそれぞれのグループから、当該少数グループに所属を変更させるレコードの数を、前方および後方に隣接するグループが包含するレコード数に比例させることを示している。即ち、上述の少数グループの、レコードの並び順における前方および後方にそれぞれ隣接するグループが包含する全レコード数の比率がm:n(m,nは自然数)である場合、それぞれのグループから当該少数グループに所属を変更させるレコードの数の比率もm:nとなる。
 本実施形態における入力情報の匿名化処理の例を図7に示す。本実施形態の入力情報は、例えば、「10歳10か月」乃至「24歳5か月」の計32個のレコードを包含している。
 分類部100は、グループ化指標記憶部101に格納された、第一の実施形態と同様のグループ化指標に基づき、入力情報のレコードを、「10歳から14歳」、「15歳から19歳」、「20歳から24歳」の3個のグループに分類する。各グループが包含するレコード数は、それぞれ、10個、2個、20個となる。
 判定部102は、「15歳から19歳」のグループのレコード数が、匿名化指標の値の「5」未満であることを変更部104に通知する。
 変更部104は、「15歳から19歳」のグループの前方に隣接する「10歳から14歳」のグループに属するレコードのうち、境界から調整幅の6ヶ月の範囲、即ち、「14歳6か月」から「14歳11か月」に属する、「14歳7か月」、「14歳9か月」、「14歳11か月」のレコードを、所属グループ変更対象候補として抽出する。変更部104は、同様に「15歳から19歳」のグループの後方に隣接する「20歳から24歳」のグループに属するレコードのうち、境界から調整幅の6ヶ月の範囲、即ち、「20歳0か月」から「20歳5か月」に属する、「20歳1か月」、「20歳3か月」、「20歳5か月」のレコードも所属グループ変更対象候補として抽出する。
 「15歳から19歳」のグループのレコード数は2個であり、あと3個レコードを追加すれば匿名化指標の値の「5」を満たすことができるので、調整レコード選択部107は、上述で変更部104が抽出した6個のレコードの中から、最終的に所属グループを変更させる3個のレコードの選択を行う。
 図7に示すとおり、入力情報において、「10歳から14歳」のグループと「20歳から24歳」のグループに属するレコード数は、それぞれ10個、20個であり、その比率は1:2となる。したがって、調整レコード選択部107は、「グループのレコード数に比例」という調整レコード選択指標に従い、最終的に所属グループを変更させる3個のレコードのうちの1個を「10歳から14歳」のグループの中から、2個を「20歳から24歳」のグループの中から選択する。
 調整レコード選択部107は、各グループにおいて、境界に近いものから順番にレコードを選択する。したがって、調整レコード選択部107は、「10歳から14歳」のグループの中で最も境界に近い「14歳11か月」のレコードと、「20歳から24歳」のグループの中で1番目と2番目に境界に近い「20歳1か月」と「20歳3か月」のレコードを、最終的に所属グループを変更させるレコードとして選択する。
 変更部104は、調整レコード選択部107が選択した上述の3つのレコードの所属グループを「15歳から19歳」のグループに変更し、出力部106へ通知する。
 本実施形態には、第一の実施形態の効果に加え、入力情報における各グループ間で、レコード数の比率を匿名化処理後も維持することで、匿名化処理による統計データとしての入力情報の特性に与える影響を小さくできる効果がある。その理由は、調整レコード選択部107が、「グループのレコード数に比例」という調整レコード選択指標に基づき、所属グループを変更させるレコードを、最適なものに絞込むからである。
 本実施形態の場合、図7に示す通り、「10歳から14歳」、「20歳から24歳」のグループの匿名化処理後のレコード数は、それぞれ9個、18個となり、その比率が1:2であることは、匿名化処理前と同じである。もし、所属グループを変更させるレコードの変更元の所属グループが、何れかのグループに偏った場合、匿名化処理により、入力情報の統計データとしての特性に影響を与える可能性があるが、本実施形態により、上述の問題を回避することが可能となる。
<第四の実施形態>
 次に、本願発明の第四の実施形態について図面を参照して詳細に説明する。
 第四の実施形態の構成は図6に示す第三の実施形態の構成と同様である。
 第四の実施形態は、調整レコード選択指標記憶部108が記憶する調整レコード選択指標が「レコード数が多い方のグループのみ」であることが、第三の実施形態とは異なる。この指標は、包含するレコード数が匿名化指標を満たしていない少数グループに所属を変更させるレコードを、当該少数グループの、レコードの並び順における前方および後方にそれぞれ隣接するグループのうち、レコード数が多いほうのグループが包含するレコードから、選択することを示している。
 本実施形態における入力情報の匿名化処理の例を図8に示す。本実施形態の入力情報は、図7に示す第三の実施形態の例と同様である。
 本実施形態でも、調整レコード選択部107は、変更部104により所属グループ変更対象候補として抽出された6個のレコードの中から、最終的に所属グループを変更させる3個のレコードを、調整レコード選択指標に基づいて選択する。
 図8に示すとおり、入力情報において、「10歳から14歳」のグループと「20歳から24歳」のグループに属するレコード数は、それぞれ10個、20個であり、「20歳から24歳」のグループのレコード数の方が多い。調整レコード選択部107は、「レコード数が多い方のグループのみ」という調整レコード選択指標に従い、最終的に所属グループを変更させる3個のレコードを全て「20歳から24歳」のグループの中から選択する。したがって、調整レコード選択部107は、「20歳1か月」、「20歳3か月」、「20歳5か月」の3個のレコードを、最終的に所属グループを変更させるレコードとして選択する。
 本実施形態には、第一の実施形態の効果に加え、所属グループを変更させるレコードを、レコード数の多いグループからのみ選択することで、匿名化処理による統計データとしての入力情報の特性に与える影響を小さくできる効果がある。その理由は、調整レコード選択部107が、「レコード数が多い方のグループのみ」という調整レコード選択指標に基づき、所属グループを変更させるレコードを、最適なものに絞込むからである。
 特に、あるグループのレコード数が、他のグループのレコード数と比較して非常に多いような場合は、レコード数が多いグループのレコードを変更させた方が、変更元のグループの統計データとしての特性に与える影響は相対的に小さくなる。したがって、本実施形態により、入力情報全体に関する統計データとしての特性に与える影響を小さくすることが可能となる。
<第五の実施形態>
 次に、本願発明の第五の実施形態について図面を参照して詳細に説明する。
 図9は本願発明の第五の実施形態の匿名化システムの構成を示すブロック図である。
 本実施形態では、匿名化装置10が、調整幅設定部109を包含していることが、第一の実施形態とは異なる。調整幅設定部109を除く各構成要素の動作は、第一の実施形態で説明したとおりである。
 調整幅設定部109は、各グループの、レコードの並び順における前方及び後方に設定する調整幅の範囲を、それぞれグループごとに設定し、設定した調整幅の範囲を示す情報を調整幅記憶部105に格納する。
 調整幅設定部109により設定された調整幅の範囲を示す情報の例を図10に示す。図10の例の場合、例えば「10歳から14歳」のグループのレコード数が匿名化指標の値に満たない場合、変更部104は、「10歳から14歳」のグループの前方に6か月、後方に6ヶ月の調整幅をとることを示す。
 本実施形態における入力情報の匿名化処理の例を図11に示す。本実施形態の入力情報は、図7乃至図8に示す第三乃至第四の実施形態の例と同様である。
 変更部104は、「15歳から19歳」のグループのレコード数が匿名化指標の値の「5」に満たないことを受け、レコードのグループ分類における変更処理を行うため、調整幅記憶部105を参照する。図10に示すとおり、「15歳から19歳」のグループの前方、及び後方の調整幅は、それぞれ6か月と0か月であるため、調整部104は、「15歳から19歳」のグループの前方、すなわち、「10歳から14歳」のグループ側にのみ、6か月の調整幅を設定する。変更部104は、前述の調整幅の範囲にある、「14歳11か月」、「14歳9か月」、「14歳7か月」の3個のレコードの所属グループを「15歳から19歳」のグループに変更する。
 本実施形態には、第一の実施形態の効果に加え、各グループの前後の調整幅の範囲を、それぞれグループごとに設定することで、ある特定のグループに関して、匿名化処理により生ずる誤差を意図的に小さくできる効果がある。その理由は、調整幅設定部109が、各グループの、レコードの並び順における前方及び後方ごとに調整幅を設定して調整幅記憶部105に格納し、変更部104が、調整幅記憶部105の情報に基づいて、レコードのグループ分類における変更処理を行うからである。
 図10の例では、「15歳から19歳」のグループの後方と、「25歳から29歳」の前方とに設定する調整幅が0ヶ月となっている。したがって、「20歳から24歳」のグループに隣接するグループのレコード数が匿名化指標に満たない場合、変更部104は、「20歳から24歳」のグループに属するレコードについては、所属グループの変更処理を行わない。これは、入力情報において、「20歳から24歳」のグループのデータの重要性が他の年齢層よりも高く、「20歳から24歳」のグループに関しては、匿名化処理により生ずる誤差を意図的に小さくすることを意味している。
 本実施形態により、ある特定のグループのデータの重要性が高い場合、匿名化処理により生ずる誤差を、当該グループに関して意図的に小さくすることで、匿名化システム1は、入力情報の統計データとしての特性に与える影響を小さくすることが可能となる。
<第六の実施形態>
 次に、本願発明の第六の実施形態について図面を参照して詳細に説明する。
 図12は本願発明の第六の実施形態の匿名化装置の構成を示すブロック図である。
 本実施形態の匿名化装置10は、分類部100と、判定部102と、変更部104と、出力部106とを包含している。
 分類部100は、並び順が定められている値のいずれかを、所定のデータ項目に含むレコードを受け取り、これらのレコードを、グループ化指標に従い、所定のデータ項目の属性値が取り得る範囲を分割した区間に対応するグループに分類する。
 判定部102は、包含するレコードの数が、指定された匿名化指標の値未満であるグループを少数グループと判定する。
 変更部104は、グループが少数グループである場合に、区間の並び順において少数グループに隣接するグループのレコードであって、所定のデータ項目の属性値が少数グループとの境界値から所定の調整幅の範囲に属するレコードを、少数グループの所属に変更する。
 出力部106は、レコードの所定のデータ項目の属性値を、所属するグループの識別情報に置き換えて、属性値を置き換えたレコードを匿名化情報として出力する。
 本実施形態には、第一の実施形態と同様に、情報が本来保持している統計データとしての特性を損なうことなく、k-匿名性を確保した情報の匿名化を可能とする効果がある。その理由は、判定部102によりレコード数が匿名化指標未満と判定された少数グループが存在する場合、変更部104が少数グループに隣接するグループのレコードの中から、少数グループとの境界値から調整幅の範囲に含まれるレコードの所属を、小数グループに変更するからである。
 本実施形態では、グループ化指標、匿名化指標、及び、調整幅の値は、匿名化装置10が匿名化処理を実行する度に、匿名化装置10の使用者が匿名化装置10へ入力してもよい。
 以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されたものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 この出願は、2012年7月2日に出願された日本出願特願2012-148402を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 1  匿名化システム
 10  匿名化装置
 100  分類部
 101  グループ化指標記憶部
 102  判定部
 103  匿名化指標記憶部
 104  変更部
 105  調整幅記憶部
 106  出力部
 107  調整レコード選択部
 108  調整レコード選択指標記憶部
 109  調整幅設定部
 20  入力情報格納部
 30  匿名化情報格納部

Claims (9)

  1. 入力されるレコードを、前記レコードに含まれるデータ項目の属性値が取りうる範囲を分割した区間に対応するグループに分類する分類手段と、
    包含するレコードの数が閾値未満である前記グループを少数グループと判定する判定手段と、
    前記グループが少数グループである場合に、前記少数グループに隣接するグループのレコードであって、前記データ項目の属性値が前記少数グループとの境界値から所定幅の範囲に属するレコードを、前記少数グループの所属に変更する変更手段と、
    前記レコードの前記データ項目の属性値を、所属するグループに対応する区間の識別情報に置き換え、前記レコードを出力する出力手段と、
    を備える匿名化装置。
  2. 前記分類手段は、前記データ項目の属性値が数値であるレコードと、当該属性値の区間の幅の情報と、を受け取り、
    前記出力手段は、前記区間において前記データ項目の属性値が取り得る数値の範囲を、前記区間に対応するグループの識別情報とする
    請求項1に記載の匿名化装置。
  3. 前記変更手段は、所属するグループを変更するレコードとして、前記少数グループに隣接するグループが包含するレコード数に比例した数のレコードを選択する
    請求項1又は2に記載の匿名化装置。
  4. 前記変更手段は、所属するグループを変更するレコードを、前記少数グループに隣接するグループのうち、包含するレコード数が多いグループから選択する
    請求項1又は2に記載の匿名化装置。
  5. 前記グループのレコードの並び順における前方および後方の前記所定幅の範囲を、前記グループごとに設定する設定手段をさらに備える
    請求項1乃至4のいずれかに記載の匿名化装置。
  6. 非数値データの並び順の定義情報、前記区間の幅定義情報、前記区間の識別情報を格納するグループ化指標記憶手段をさらに備え、
    前記分類手段は、前記非数値データを前記所定データ項目の属性値に含む前記レコードを受け取り、前記並び順の定義情報、前記区間の幅定義情報、前記区間の識別情報に基づいて、前記レコードを前記区間に対応する前記グループに分類する請求項1に記載の匿名化装置。
  7. 請求項1乃至6のいずれかに記載の匿名化装置と、前記匿名化装置へ入力する情報を格納する入力情報格納装置と、前記匿名化装置から出力される情報を格納する出力情報格納装置とを包含する匿名化システム。
  8. 入力されるレコードを、前記レコードに含まれるデータ項目の属性値が取りうる範囲を分割した区間に対応するグループに分類し、
    包含するレコードの数が閾値未満である前記グループを少数グループと判定し、
    前記グループが少数グループである場合に、前記少数グループに隣接するグループのレコードであって、前記データ項目の属性値が前記少数グループとの境界値から所定幅の範囲に属するレコードを、前記少数グループの所属に変更し、
    前記レコードの前記データ項目の属性値を、所属するグループに対応する区間の識別情報に置き換え、前記レコードを出力する
    匿名化方法。
  9. 入力されるレコードを、前記レコードに含まれるデータ項目の属性値が取りうる範囲を分割した区間に対応するグループに分類する分類処理と、
    包含するレコードの数が閾値未満である前記グループを少数グループと判定する判定処理と、
    前記グループが少数グループである場合に、前記少数グループに隣接するグループのレコードであって、前記データ項目の属性値が前記少数グループとの境界値から所定幅の範囲に属するレコードを、前記少数グループの所属に変更する変更処理と、
    前記レコードの前記データ項目の属性値を、所属するグループに対応する区間の識別情報に置き換え、前記レコードを出力する出力処理と、
    をコンピュータに実行させる匿名化プログラムを記録したプログラム記録媒体。
PCT/JP2013/003980 2012-07-02 2013-06-26 匿名化装置、匿名化システム、匿名化方法、及び、プログラム記録媒体 WO2014006851A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014523583A JPWO2014006851A1 (ja) 2012-07-02 2013-06-26 匿名化装置、匿名化システム、匿名化方法、及び、匿名化プログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2012-148402 2012-07-02
JP2012148402 2012-07-02

Publications (1)

Publication Number Publication Date
WO2014006851A1 true WO2014006851A1 (ja) 2014-01-09

Family

ID=49881627

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2013/003980 WO2014006851A1 (ja) 2012-07-02 2013-06-26 匿名化装置、匿名化システム、匿名化方法、及び、プログラム記録媒体

Country Status (2)

Country Link
JP (1) JPWO2014006851A1 (ja)
WO (1) WO2014006851A1 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017021739A (ja) * 2015-07-15 2017-01-26 株式会社リコー 情報処理システム、情報処理装置、及びプログラム
JP2017049693A (ja) * 2015-08-31 2017-03-09 富士通株式会社 個人情報匿名化方法、プログラム、及び情報処理装置
JP6148371B1 (ja) * 2016-03-29 2017-06-14 西日本電信電話株式会社 グループ化装置、グループ化方法及びコンピュータプログラム
JP2017516194A (ja) * 2014-03-26 2017-06-15 アルカテル−ルーセント ストリーミングデータの匿名化
EP3477528A1 (en) * 2017-10-26 2019-05-01 Sap Se Data anonymization in an in-memory database
CN113544684A (zh) * 2019-03-11 2021-10-22 日本电信电话株式会社 数据置换装置、数据置换方法、程序

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100332537A1 (en) * 2009-06-25 2010-12-30 Khaled El Emam System And Method For Optimizing The De-Identification Of Data Sets
JP2011209800A (ja) * 2010-03-29 2011-10-20 Kddi Corp 公開情報のプライバシー保護装置、公開情報のプライバシー保護方法およびプログラム
WO2011145401A1 (ja) * 2010-05-19 2011-11-24 株式会社日立製作所 個人情報匿名化装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100332537A1 (en) * 2009-06-25 2010-12-30 Khaled El Emam System And Method For Optimizing The De-Identification Of Data Sets
JP2011209800A (ja) * 2010-03-29 2011-10-20 Kddi Corp 公開情報のプライバシー保護装置、公開情報のプライバシー保護方法およびプログラム
WO2011145401A1 (ja) * 2010-05-19 2011-11-24 株式会社日立製作所 個人情報匿名化装置

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017516194A (ja) * 2014-03-26 2017-06-15 アルカテル−ルーセント ストリーミングデータの匿名化
JP2017021739A (ja) * 2015-07-15 2017-01-26 株式会社リコー 情報処理システム、情報処理装置、及びプログラム
JP2017049693A (ja) * 2015-08-31 2017-03-09 富士通株式会社 個人情報匿名化方法、プログラム、及び情報処理装置
US10289869B2 (en) * 2015-08-31 2019-05-14 Fujitsu Limited Personal information anonymization method, recording medium, and information processing apparatus
JP6148371B1 (ja) * 2016-03-29 2017-06-14 西日本電信電話株式会社 グループ化装置、グループ化方法及びコンピュータプログラム
JP2017182342A (ja) * 2016-03-29 2017-10-05 西日本電信電話株式会社 グループ化装置、グループ化方法及びコンピュータプログラム
EP3477528A1 (en) * 2017-10-26 2019-05-01 Sap Se Data anonymization in an in-memory database
CN109711186A (zh) * 2017-10-26 2019-05-03 Sap欧洲公司 内存数据库中的数据匿名化
US10528761B2 (en) 2017-10-26 2020-01-07 Sap Se Data anonymization in an in-memory database
CN109711186B (zh) * 2017-10-26 2023-01-20 Sap欧洲公司 内存数据库中的数据匿名化
CN113544684A (zh) * 2019-03-11 2021-10-22 日本电信电话株式会社 数据置换装置、数据置换方法、程序

Also Published As

Publication number Publication date
JPWO2014006851A1 (ja) 2016-06-02

Similar Documents

Publication Publication Date Title
WO2014006851A1 (ja) 匿名化装置、匿名化システム、匿名化方法、及び、プログラム記録媒体
TWI718643B (zh) 異常群體識別方法及裝置
CA2690788C (en) System and method for optimizing the de-identification of datasets
Meyer et al. Origin and emergence of entrepreneurship as a research field
Lam et al. Is insecurity worse for well-being in turbulent times? Mental health in context
JP5626733B2 (ja) 個人情報匿名化装置及び方法
Liu et al. Non-White scientists appear on fewer editorial boards, spend more time under review, and receive fewer citations
Murphy et al. Financial toxicity is associated with worse physical and emotional long-term outcomes after traumatic injury
US20130138698A1 (en) Identity information de-identification device
US10360405B2 (en) Anonymization apparatus, and program
JP6078437B2 (ja) パーソナル情報匿名化システム
CN109711186B (zh) 内存数据库中的数据匿名化
JP6056610B2 (ja) テキスト情報処理装置、テキスト情報処理方法、及びテキスト情報処理プログラム
Digiampietri et al. Brax-ray: an x-ray of the brazilian computer science graduate programs
Bean et al. Network analysis of patient flow in two UK acute care hospitals identifies key sub-networks for A&E performance
CN112259210A (zh) 医疗大数据访问控制方法、装置及计算机可读存储介质
Wainer et al. How productivity and impact differ across computer science subareas
US20220229854A1 (en) Constructing ground truth when classifying data
Sorbero et al. Imputation of race and ethnicity in health insurance marketplace enrollment data, 2015-2022 open enrollment periods
Long et al. Applying the Huntington’s disease integrated staging system (HD-ISS) to observational studies
Reeves et al. Resampling to address inequities in predictive modeling of suicide deaths
Uddin et al. A Sciento-text framework to characterize research strength of institutions at fine-grained thematic area level
KR101402808B1 (ko) 익명화를 위한 시드 선택 방법, 익명화 방법 및 이를 이용하는 정보 보호 장치
KR101948603B1 (ko) 데이터의 유용성 보존을 위한 익명화 장치 및 그 방법
Thomas et al. The gap between technology and ethics, especially in low-and middle-income country health information systems: A bibliometric study

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13812766

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2014523583

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 13812766

Country of ref document: EP

Kind code of ref document: A1