WO2016021039A1 - k-匿名化処理システム及びk-匿名化処理方法 - Google Patents
k-匿名化処理システム及びk-匿名化処理方法 Download PDFInfo
- Publication number
- WO2016021039A1 WO2016021039A1 PCT/JP2014/070988 JP2014070988W WO2016021039A1 WO 2016021039 A1 WO2016021039 A1 WO 2016021039A1 JP 2014070988 W JP2014070988 W JP 2014070988W WO 2016021039 A1 WO2016021039 A1 WO 2016021039A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- quasi
- identifier
- unit
- anonymity
- data
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
Definitions
- the present invention relates to a k-anonymization processing system and a k-anonymization processing method.
- ⁇ K-anonymization technology exists to obscure sensitive information such as personal information included in data and enable secure and free secondary use of the data.
- This k-anonymization technology is specified by a combination of a certain quasi-identifier among “identifiers” that can identify an individual in a data item and “quasi-identifiers” that can be identified by combining multiple data items. This is a technique that aims to increase the number of data to be “k” or more.
- quasi-identifiers are abstracted by a process called generalization of quasi-identifiers (eg, converting age values into ages and complete addresses into regions), and these generalized values (eg, : “K-anonymity” is realized by making it possible to identify more than “k” persons who belong to a combination of age and region).
- generalization of quasi-identifiers eg, converting age values into ages and complete addresses into regions
- K-anonymity is realized by making it possible to identify more than “k” persons who belong to a combination of age and region.
- the following techniques have been proposed as conventional techniques corresponding to the situation in which the data subject to k-anonymization is displaced in time. That is, based on the number of times that the number of data having one attribute is greater than or equal to the threshold at the first time and less than the threshold at the second time after that, the score for each threshold is calculated to identify the anonymization index Common in the case where the number of data having a negative attribute in the data is less than the anonymization index and the sum of the number of data and the number of data having at least one other attribute is equal to or greater than the anonymization index As data to be updated to an attribute, a technique for specifying data having the-attribute and the other attribute (see Patent Document 1) has been proposed.
- actual data has a plurality of quasi-identifiers, and there are various units for generalizing each quasi-identifier.
- the generalization unit for the current location is “XX city XX chome”, and the generalization unit for age is “10 years old. "Every age" can be assumed.
- no technical idea has been proposed that focuses on which quasi-identifier unit should be preferentially set among these quasi-identifiers.
- the quasi-identifiers of the current position and the age described above are both quasi-identifiers having a time change characteristic, and the speed of time change of each value is different.
- the unit of each quasi-identifier is generalized, that is, obscured more than necessary, and there is a possibility that a useful data set cannot be sufficiently provided to users of anonymized data.
- an object of the present invention is to provide a technique for making the generalized unit of each quasi-identifier in the data appropriate according to the time change characteristic and achieving both good usability of the anonymized data set and k-anonymization. There is to do.
- the k-anonymization processing system of the present invention that solves the above-described problems is based on a storage device that stores data to be anonymized and information on time variation characteristics of each quasi-identifier in the data, and information on the time variation characteristics.
- a process for determining the priority according to the magnitude of the time change between the quasi-identifiers for each quasi-identifier, and for each quasi-identifier, calculating the interval of each corresponding value in the data, and based on the calculated interval A process of identifying a generalized unit candidate value in the corresponding quasi-identifier, and each value in the data corresponding to the quasi-identifier and the unit candidate value in a descending order of priority from a predetermined k-anonymity evaluation Applying to the algorithm, the smallest candidate under the constraint satisfying k-anonymity among the unit candidate values is identified as the generalized unit of the corresponding semi-identifier, and the unit before the generalized unit of each identified semi-identifier is used.
- the k-anonymization processing system of the present invention includes a storage device that stores data to be anonymized and information on time change characteristics of each semi-identifier in the data, and a semi-identifier based on the information on the time change characteristics. Processing for determining the priority according to the magnitude of temporal change between each quasi-identifier, for each quasi-identifier, identifying a combination pattern of attributes of each corresponding value in the data, and for the identified attribute. The process of specifying the attribute distribution range indicated by the combination pattern as a generalized unit candidate in the corresponding quasi-identifier, and each value in the data corresponding to the quasi-identifier in descending order of priority, and the unit candidate, Applying to a predetermined k-anonymity evaluation algorithm, the unit candidate having the smallest number of attributes under the constraint satisfying k-anonymity is defined as the generalized unit of the corresponding semi-identifier Constant, and characterized in that it comprises an arithmetic unit for executing the processing of anonymity k- for the data using Generalized unit of
- an information processing apparatus including a storage device that stores data to be anonymized and information on time change characteristics of each quasi-identifier in the data includes information on the time change characteristics.
- an information processing apparatus including a storage device that stores data to be anonymized and information on time change characteristics of each quasi-identifier in the data includes information on the time change characteristics.
- a storage device that stores data to be anonymized and information on time change characteristics of each quasi-identifier in the data includes information on the time change characteristics.
- the generalized unit of each quasi-identifier in the data is appropriate according to the time change characteristic, and it is possible to achieve both good usability of the anonymized data set and k-anonymization. Obviously, the generalized unit of each quasi-identifier in the data is appropriate according to the time change characteristic, and it is possible to achieve both good usability of the anonymized data set and k-anonymization. Obviously, the generalized unit of each quasi-identifier in the data is appropriate according to the time change characteristic, and it is possible to achieve both good usability of the anonymized data set and k-anonymization. Become.
- FIG. 1 is a diagram showing a network configuration example including the k-anonymization processing system 100 of the present embodiment.
- the generalized unit of each quasi-identifier in the original data to be processed for k-anonymization is appropriate according to the time change characteristic, and the anonymized data set is good. It is a computer system for achieving both usefulness and k-anonymization.
- the k-anonymization processing system 100 in the present embodiment assumes a server device as an example.
- the k-anonymization processing system is referred to as a k-anonymization processing server 100.
- the k-anonymization processing server 100 is connected to the network 20, the operator terminal 10 operated by the person in charge of the k-anonymization processing, and the source of the k-anonymization processing target
- the external server 30 that provides data is connected to be communicable.
- the k-anonymization processing server 100 is a server that obtains original data from the external server 30 described above and generates a k-anonymous data set 130 by performing k-anonymization processing on the original data.
- the k-anonymization processing server 100, the operator terminal 10, and the external server 30 may constitute a k-anonymization processing system.
- the acquisition form of the original data in the above-described external server 30 will be exemplified.
- a user of a mobile terminal with a payment function purchases a predetermined product at a certain store using the payment function in the mobile terminal.
- the above-described mobile terminal accesses the external server 30 that is a payment system for the product price via a predetermined network such as a mobile phone network, and notifies the payment request including the payment details regarding the corresponding product, Execute the process.
- the mobile terminal includes the current position information obtained from the GPS function provided in advance in the above-described settlement request.
- the payment system as the external server 30 receives a payment request including the above-described current position information from the mobile terminal, and information (user ID, age) of the corresponding user, purchase information, and current position information associated with the above-described payment processing. Is acquired as the original data.
- the external server 30 transmits these original data to the k-anonymization processing server 100 at predetermined intervals or in real time.
- the k-anonymization processing server 100 receives the original data from the external server 30 and stores it together with the time information in the original data table 125 of the storage device 101.
- the original data to be anonymized includes values such as the user's current location information, date of birth (age), purchased product, and registration time, as described above. Further, each value included in the original data can be classified into an identifier, a quasi-identifier, and other information in the concept of k-anonymization according to the attribute.
- the identifier is personal information that can identify the user alone, and corresponds to a value such as a complete name and address.
- the quasi-identifier is information that can identify the user by combining a plurality of quasi-identifiers, and corresponds to values such as age and current position information.
- the other information is information that is unlikely to be identified even if a plurality of pieces of information are combined.
- the value of the purchased product is applicable.
- the above-mentioned quasi-identifier has a value that changes with time.
- the age as a semi-identifier increases every year with the aging of a person.
- the current position information as the quasi-identifier changes, for example, every hour or so with the movement of a person who is out. That is, among the values of the original data, the values corresponding to the quasi-identifier having such a time change characteristic change with the passage of time, leading to a change in the distribution of the corresponding values in the entire original data.
- the frequency of time change of the value corresponding to such a quasi-identifier is defined as the lifetime of the quasi-identifier.
- the age lifetime can be defined as one year
- the current location information lifetime can be defined as one hour
- the reciprocal of this lifetime is defined as “fluctuation” in the corresponding quasi-identifier.
- the k-anonymization processing server 100 of the present embodiment illustrated in FIG. 2 includes a storage device 101 configured with an appropriate nonvolatile storage element such as an SSD (Solid State Drive) or a hard disk drive, and a volatile storage element such as a RAM.
- the storage device 101 stores a program 102 for implementing functions necessary for the k-anonymization processing server 100 of the present embodiment, and tables storing data used for various processes.
- This table includes an original data table 125, a priority management table 126, a unit candidate table 127, and a k-anonymous data set 130 which will be described later.
- the priority management table 126 stores the above-mentioned lifetime, which is information on time change, together with the priority of each quasi-identifier.
- the operator terminal 10 and the external server 30 described above have a general hardware configuration as a computer, as with the k-anonymization processing server 100, and details thereof are omitted.
- Function example Next, functions provided in the k-anonymization processing server 100 as the k-anonymization processing system of this embodiment will be described. As described above, the functions described below can be said to be implemented by executing the program 102 provided in the k-anonymization processing server 100, for example.
- the k-anonymization processing server 100 manages the lifetime of the quasi-identifier included in the corresponding original data (information on time change characteristics) with respect to the original data held in the above-described original data table 125. It has a function of reading from the table 126, calculating the reciprocal of the lifetime of each quasi-identifier, obtaining the above-mentioned fluctuation, and determining that the priority is higher in the order of the fluctuation among the quasi-identifiers.
- This function corresponds to the function of the quasi-identifier generalization setting unit 113 in the k-anonymization processing server 100 of FIG.
- the k-anonymization processing server 100 calculates an interval between corresponding values in the original data for each quasi-identifier described above, and calculates a minimum value or an average value of the calculated intervals as a generalization in the corresponding quasi-identifier. It has a function to specify as a unit candidate value. For example, when the interval between corresponding values in the original data is calculated as “0.02”, “0.04”, “0.03”, etc., the minimum value “0.02” or the average of the calculated intervals The value “0.03” is specified as the generalized unit candidate value in the corresponding quasi-identifier.
- Such a function corresponds to the function of the quasi-identifier generalization setting unit 113 in the k-anonymization processing server 100 of FIG.
- the unit refers to the width of abstraction when the quasi-identifier is generalized. For example, in the case where the age is generalized to the age, the unit is 2 years if the age is generalized (abstracted) in increments of 2 years, and the unit is 5 years if it is generalized (abstracted) in increments of 5 years Become.
- the k-anonymization processing server 100 calculates each value in the original data corresponding to the corresponding quasi-identifier and the above-described unit candidate value in descending order of the priorities determined above as k-anonymity evaluation algorithm.
- the k-anonymization processing server 100 has a function of executing k-anonymization processing on the original data using the generalized unit of each quasi-identifier specified above. This function corresponds to the function of the k-anonymization processing unit 115 in the k-anonymization processing server 100 of FIG.
- the k-anonymization processing method in the k-anonymization processing unit 115 may appropriately employ a k-anonymization processing method that has conventionally existed.
- the k-anonymization processing server 100 determines each value in the relevant nearest data and the above generalized unit for the most recent data to be anonymized after a predetermined time has passed since the above generalized unit specifying process. -When applied to the anonymity evaluation unit 114 and found that k-anonymity is not satisfied, each value in the latest data corresponding to the corresponding quasi-identifier and unit candidates in descending order of priority in the priority management table 126 A value larger than the initially specified generalized unit is applied to the k-anonymity evaluation unit 114, and among unit candidate values larger than the above generalized unit, the smallest one under the constraint satisfying k-anonymity Is further provided as a new generalized unit of the corresponding quasi-identifier. This function corresponds to the function of the quasi-identifier generalization setting unit 113 in the k-anonymization processing server 100 of FIG.
- the k-anonymization processing server 100 specifies a new generalized unit as described above, the k-anonymization processing server 100 selects the smallest value under the constraint satisfying k-anonymity among the integer multiples of the initially specified generalized unit. It is preferable that a function for specifying a new generalized unit of the corresponding quasi-identifier is further provided. This function corresponds to the function of the quasi-identifier generalization setting unit 113 in the k-anonymization processing server 100 of FIG.
- the k-anonymization processing server 100 for the latest data to be anonymized after the elapse of a predetermined time after the identification processing of the generalized unit as described above, each value in the relevant recent data and the generalized unit described above, When applied to the k-anonymity evaluation unit 114 and found that k-anonymity is not satisfied, each value corresponding to the above-mentioned most recent data for each quasi-identifier in descending order of priority in the priority management table 126
- the attribute combination pattern is identified, the attribute distribution range indicated by the identified attribute combination pattern is identified as a new unit candidate for generalization in the corresponding quasi-identifier, and each value in the latest data corresponding to the quasi-identifier
- the new unit candidate is applied to the k-anonymity evaluation unit 114, and among the above new unit candidate values, the number of attributes is maximized under the constraint that satisfies k-anonymity. Further it has a function of identifying a new generalized units of the corresponding quasi-identifier ones. This function
- the combination of attributes described above can be a combination of addresses indicated by values corresponding to current location information in the data to be anonymized.
- the address can be recognized as the property that the address increases in one direction, such as address 1, address 2, address 3, address 4, etc., but considering the positional relationship of each address on the map, However, there may be a situation where address 2 is adjacent but address 3 is adjacent to address 1 via another address.
- it is preferable to assume a combination pattern of each address without being limited by the order of the values such as the ascending order or descending order of the address values.
- the attribute distribution range indicated by the attribute combination pattern corresponds to a predetermined area on the map configured by each address included in the corresponding pattern. Therefore, the attribute distribution range can be specified by, for example, a set of current position coordinate values (values indicated by anonymization target data) corresponding to each address, or a distribution range expression of current position coordinate values.
- the k-anonymization processing server 100 specifies the attribute combination pattern of each value corresponding to the original data for each quasi-identifier with respect to the original data, and the attribute distribution indicated by the specified attribute combination pattern It has a function of specifying a range as a general unit candidate in the corresponding quasi-identifier. This function corresponds to the function of the quasi-identifier generalization setting unit 113 in the k-anonymization processing server 100 of FIG.
- the k-anonymization processing server 100 calculates each value in the original data corresponding to the corresponding semi-identifier and the unit candidate in descending order of priority in the priority management table 126. This is applied to the k-anonymity evaluation unit 114, and has a function of specifying, as a generalized unit of the corresponding quasi-identifier, a unit having the smallest number of attributes under the constraint that satisfies k-anonymity among the above unit candidates. This function corresponds to the function of the quasi-identifier generalization setting unit 113 in the k-anonymization processing server 100 of FIG.
- the k-anonymization processing server 100 for the latest data to be anonymized after a predetermined time has passed since the specifying process of the generalized unit based on the attribute combination pattern described above,
- the attribute distribution range indicated by the combination pattern other than the combination pattern as the generalized unit described above is Specify as a new general unit candidate in the corresponding quasi-identifier, apply each value in the latest data corresponding to the quasi-identifier and the new unit candidate to the k-anonymity evaluation unit 114, and A function is further provided for identifying a new unit candidate value having a minimum number of attributes under a constraint satisfying k-anonymity as a new generalized unit of the corresponding quasi-identifier.
- This function corresponds to the function of the quasi-identifier generalization setting unit 113 in the k-anonymization processing server 100 of FIG. --- Processing flow example ---
- Various operations corresponding to the k-anonymization processing method described below are realized by a program 102 that is read and executed by the k-anonymization processing server 100 as a k-anonymization processing system.
- the program 102 is composed of codes for performing various operations described below.
- FIG. 3 is a flowchart showing a processing procedure example 1 of the k-anonymization processing method in the present embodiment, and specifically, is a main flow example of the k-anonymization processing method in the present embodiment.
- the item classification unit 111 in the k-anonymization processing server 100 reads the record of the original data table 125 as the original data that is the target of k-anonymization from the original data table 125 of the storage device 101, and The value indicated by each field (item) is applied to a predetermined algorithm, and is classified into “identifier”, “quasi-identifier”, and “other” in the k-anonymization process (200).
- an algorithm in the basic technique of the existing k-anonymization process may be employed.
- a dictionary that defines the correspondence between the item name of each value included in the original data, the identifier, and the quasi-identifier Based on the table, when the value indicated by each field of the above record is collated with this dictionary table, the identifier or quasi-identifier corresponding to the corresponding value is specified, and the corresponding value does not correspond to either the identifier or the quasi-identifier Can assume an algorithm that determines “other”.
- the identifier deletion unit 112 in the k-anonymization processing server 100 executes the deletion processing of the corresponding value in the corresponding record for the field identified as the identifier in the record that is the original data (201).
- each record as the original data is in a state including only the values corresponding to the quasi-identifier and others.
- the quasi-identifier generalization setting unit 113 in the k-anonymization processing server 100 determines the priority for setting the generalization unit for the quasi-identifier specified in Step 200 (202). Details of the priority determination procedure regarding the quasi-identifier will be described with reference to FIG.
- FIG. 5 is a flowchart showing a processing procedure example 2 of the k-anonymization processing method of the present embodiment.
- the quasi-identifier generalization setting unit 113 in the k-anonymization processing server 100 generates a new record in the priority management table 126 of the storage device 101 for the quasi-identifier information specified in step 200 described above.
- the above-described quasi-identifier information is registered in association with the quasi-identifier ID (303).
- the quasi-identifier ID is an ID given by the quasi-identifier generalization setting unit 113 to uniquely identify each record in the priority management table 126.
- FIG. 6 An example of the configuration of this priority management table 126 is shown in FIG.
- the quasi-identifier column of the record with the quasi-identifier ID “1” is displayed in the quasi-identifier corresponding to the “current location” in the record of the original data in FIG.
- An identifier “position” is registered.
- “age” that is a quasi-identifier corresponding to “age” in the record of the original data of FIG. .
- the semi-identifier generalization setting unit 113 in the k-anonymization processing server 100 distributes the record information registered in the priority management table 126 in step 303 described above to the operator terminal 10, for example.
- the designation of the lifetime of the quasi-identifier is accepted from the operator terminal 10, and this is set in the lifetime column of the quasi-identifier of the priority management table 126 (304).
- the semi-identifier generalization setting unit 113 designates “1 hour” from the operator terminal 10 as the lifetime of the semi-identifier “position” of the record with the semi-identifier ID “1” in the priority management table 126 of FIG. And “1 hour” is registered in the corresponding lifetime column.
- the quasi-identifier generalization setting unit 113 obtains designation of “1 year” from the operator terminal 10 as the lifetime of the quasi-identifier “age” of the record of the quasi-identifier ID “2” in the priority management table 126, Register “1 year” in the relevant lifetime column.
- the operator terminal 10 may receive a designation as described above.
- the k-anonymization processing server 100 determines the value of each quasi-identifier in the original data table 125.
- the time variation may be monitored for each same user, and the elapsed time for the time variation of this value to be greater than or equal to a predetermined standard may be statistically processed to identify this as a lifetime value.
- the quasi-identifier generalization setting unit 113 in the k-anonymization processing server 100 calculates the reciprocal of the lifetime of each quasi-identifier in the priority management table 126 and uses the value of this reciprocal as a priority evaluation index. It is set in the priority evaluation index column of the management table 126 (305).
- This priority evaluation index corresponds to the “fluctuation” already described above.
- the priority evaluation index that is the reciprocal of this 1 hour is 1/1 (times / hour ).
- the priority evaluation index that is the reciprocal of the year converted to time can be calculated as 1/8760 (times / hour).
- the quasi-identifier generalization setting unit 113 in the k-anonymization processing server 100 compares the priority evaluation index values for the respective quasi-identifiers obtained in step 305 described above, and compares the relative magnitudes between the quasi-identifiers.
- the priority of the generalized unit setting of the semi-identifier is determined, and the value is set in the priority column of the priority management table 126 (306).
- the larger the priority evaluation index the greater the temporal change characteristic of the corresponding quasi-identifier, and the greater the degree of influence on k-anonymity security over time. Therefore, it is necessary to preferentially set the generalized unit of the quasi-identifier according to the above-described high priority.
- the k-anonymization processing server 100 repeatedly executes the above steps 303 to 306 by the number of quasi-identifiers obtained from the records of the original data table 125 (307: NO to 303), and performs each step for all quasi-identifiers. If executed (307: YES), the flow ends.
- the priority management table 126 thus obtained has the configuration shown in FIG.
- the priority management table 126 according to the present embodiment is a set of records in which values such as a corresponding quasi-identifier, its lifetime, a priority evaluation index, and a priority are associated using a quasi-identifier ID as a key.
- the quasi-identifier generalization setting unit 113 in the k-anonymization processing server 100 performs unit setting (203) in quasi-identifier generalization. Details of the unit setting (203) will be described with reference to FIG.
- the semi-identifier generalization setting unit 113 in the k-anonymization processing server 100 extracts the value of the original data corresponding to each semi-identifier registered in the priority management table 126 from the original data table 125. Then, the interval of each value extracted for a certain quasi-identifier is calculated, and the generalized unit candidate value in the corresponding quasi-identifier is specified based on the calculated interval (401). In this processing, for example, the smallest of the calculated intervals, that is, the minimum interval, or the average of the calculated intervals, that is, the average interval is calculated, and the minimum interval or a multiple of the average interval is specified as the unit candidate value. .
- a specific example of the above-described unit candidate value calculation process based on the value indicated by the record of the original data table 125 illustrated in FIG. 4 is as follows. That is, the value of the original data corresponding to the quasi-identifier “position” in the priority management table 126 is changed from the value of “current location (latitude)” in the original data table 125 to “35.370”, “35.372”, “ 35.373 ”,“ 35.398 ”,“ 35.390 ”,“ 35.378 ”, etc., and the intervals of the extracted values are“ 0.002 ”,“ 0.001 ”, Calculated as “0.003”,. Among these, the minimum interval is “0.001”, and the average interval is calculated as “0.0059” by taking the average of the intervals.
- the quasi-identifier generalization setting unit 113 employs an algorithm for selecting a candidate number as many as the number of original data, using the minimum interval as a default candidate, a multiple of the minimum interval as another candidate, and selecting the number of candidates as the number of original data values. If it is held in advance, the semi-identifier generalization setting unit 113 determines “0.001” as the default unit candidate value, and “0.002”, “0.003” as other unit candidate values. ”,“ 0.004 ”,“ 0.005 ”, and“ 0.01 ”. The procedure for determining such unit candidate values is the same for the above-mentioned “age”.
- the quasi-identifier generalization setting unit 113 in the k-anonymization processing server 100 associates the generalization unit candidate value specified for each quasi-identifier in step 401 with the quasi-identifier ID of the corresponding quasi-identifier. It is stored in the unit candidate table 127 (402).
- the semi-identifier generalization setting unit 113 records a unit ID that uniquely indicates each unit candidate value when registering the unit candidate value in the unit candidate table 127. And the semi-identifier ID and the unit candidate value are stored in this record.
- the unit candidate value corresponding to the minimum interval is set as the default unit candidate value, in the example of the unit candidate table 127 in FIG.
- the unit candidate value “0.001” indicating the minimum interval is specified as the default unit candidate value.
- the quasi-identifier generalization setting unit 113 generates the unit candidate table 127 illustrated in FIG. 8 as a result of executing the above processing for each quasi-identifier in the priority management table 126.
- the quasi-identifier generalization setting unit 113 in the k-anonymization processing server 100 determines each value in the original data table 125 corresponding to the quasi-identifier and the unit candidate described above in descending order of priority in the priority management table 126. Whether the default unit candidate value among the unit candidate values in the table 127 is applied to the k-anonymity evaluation unit 114 as the k-anonymity evaluation algorithm, and whether the default unit candidate value satisfies the prescribed k-anonymity Determine (204).
- the semi-identifier generalization setting unit 113 sets the corresponding semi-identifier in the unit candidate table 127. “1” is set in the adoption flag column, and the corresponding unit candidate value is specified as a generalized unit (205).
- the unit candidate table 127 in FIG. 8 for example, for the quasi-identifier “position (latitude)”, “1” is set in the adoption flag, and “0.001” is specified as the generalized unit. .
- the semi-identifier generalization setting unit 113 supports the corresponding semi-identifier. Processing for applying each value in the original data table 125 and unit candidate values other than the above-mentioned default unit candidate values in the unit candidate table 127 to the k-anonymity evaluation unit 114, except for the default unit candidate values Executed for each unit candidate value, specifies the smallest unit candidate value under the constraint satisfying k-anonymity as a generalized unit of the corresponding semi-identifier, and adopts the corresponding semi-identifier in the unit candidate table 127 Is set to "1" (206).
- the k-anonymization processing unit 115 in the k-anonymization processing server 100 uses the generalized unit of each quasi-identifier specified in the above steps to k the value of each original data in the original data table 125.
- -Anonymization processing is executed (207), and the system temporarily enters a standby state.
- a k-anonymous data set 130 illustrated in FIG. 9 is obtained.
- This k-anonymous data set 130 is a collection of records in which the value of the purchased product is associated with the combination of “quasi-identifiers” “age” and “position (latitude)”.
- the actual value of “age” in the record of the original data table 125 is generalized to “age”, which is a quasi-identifier generalized every 5 years, and the actual value of “current location”.
- “Position (latitude)” which is a quasi-identifier whose value has been generalized up to the second decimal place, has been registered.
- information on purchased items by the user corresponding to a combination of quasi-identifiers “age” and “position (latitude)” is set.
- a matrix 900 as shown in FIG. 10 is obtained.
- the quasi-identifier “age” generalized in increments of 5 years is taken on the horizontal axis
- the quasi-identifier “position (latitude)” generalized in increments of 0.005 is taken on the vertical axis.
- It is a matrix in which users corresponding to identifiers are drawn with dots.
- a cell 910 in this matrix 900 is an area surrounded by a width corresponding to the generalized unit of each quasi-identifier, and the number of dots contained in this cell 910 is greater than or equal to the “k” value in k-anonymization.
- the semi-identifier generalization setting unit 113 detects that a predetermined time has elapsed (208: y), and is registered at the latest time t2 from the original data table 125.
- the value of the original data (hereinafter referred to as the most recent data) is read, each value corresponding to the quasi-identifier in the corresponding most recent data, and the generalized unit of the quasi-identifier (the adoption flag is set to “1” in the unit candidate table 127).
- the semi-identifier generalization setting unit 113 returns the process to step 208 described above.
- the semi-identifier generalization setting unit 113 has a high priority in the priority management table 126. In order, each value in the above-mentioned most recent data corresponding to the corresponding semi-identifier and each unit candidate value in the unit candidate table 127 that is larger than the above generalized unit are applied to the k-anonymity evaluation unit 114.
- the smallest one that satisfies k-anonymity is specified as a new generalized unit of the corresponding quasi-identifier (210), and the process returns to step 208. Note that the flow ends when an instruction to end the process is received from the operator terminal 10 in any step.
- FIG. 11 illustrates a matrix 1000 corresponding to a state that does not satisfy k-anonymity at time t2.
- the quasi-identifier generalization setting unit 113 executes Step 210 described above, specifies a new generalized unit larger than the original generalized unit under the constraint satisfying k-anonymity, and this new generalized unit.
- FIG. 12 illustrates a matrix when the k-anonymization process is performed based on the conversion unit.
- the cell 1110 includes a cell 1111 having an age “20 to 24” and a position (latitude) “36.390 to 36.399”, an age “25 to 29”, and a position (latitude) “ Like the cell 1112 of “36.390 to 36.399”, a new generalized unit of the quasi-identifier “position (latitude)” is doubled from the original.
- FIG. 13 is a flowchart showing a processing procedure example 5 of the k-anonymization processing method of the present embodiment.
- the quasi-identifier generalization setting unit 113 identifies the attribute combination pattern of each corresponding value in the above-mentioned latest data for each quasi-identifier in descending order of priority in the priority management table 126, and identifies them.
- the attribute distribution range indicated by the attribute combination pattern is specified as a new unit candidate for generalization in the corresponding quasi-identifier (700).
- the combination of the above-mentioned attributes can be assumed to be a combination of addresses indicated by values corresponding to the quasi-identifier “position” in the latest data.
- the address can be recognized as a property in which the address increases in one direction, such as address 1, address 2, address 3, address 4, etc., but the position of each address on the map In consideration of the relationship, there may be a situation where address 2 is adjacent to address 1, but address 3 is adjacent to address 1 via another address.
- the attribute distribution range indicated by the attribute combination pattern corresponds to a predetermined area on the map configured by each address included in the corresponding pattern. Therefore, the attribute distribution range can be specified by, for example, a set of coordinate values (latitude values indicated by the above-mentioned latest data) corresponding to each address, or a distribution range expression of coordinate values.
- the quasi-identifier generalization setting unit 113 in descending order of priority in the above-described priority management table 126, each value in the above-mentioned most recent data corresponding to the corresponding quasi-identifier, and the unit candidate specified in the above-described step 300.
- the k-anonymity evaluation unit 114 Is applied to the k-anonymity evaluation unit 114, and the unit candidate having the smallest number of attributes under the constraint satisfying k-anonymity is specified as the generalized unit of the corresponding quasi-identifier (701).
- the k-anonymization processing unit 115 in the k-anonymization processing server 100 executes the above-described step 207, and uses the generalized unit of each quasi-identifier specified in step 701, the original data table The k-anonymization process is executed for the value of each latest data in 125.
- the attribute combination pattern of each corresponding value in the original data for each quasi-identifier may be specified as a generalization unit candidate in the corresponding quasi-identifier.
- the quasi-identifier generalization setting unit 113 converts each value in the above-described original data corresponding to the corresponding quasi-identifier in the descending order of priority in the above-described priority management table 126 and the attribute combination pattern as described above.
- the unit candidate specified based on the above is applied to the k-anonymity evaluation unit 114, and the unit candidate having the minimum number of attributes under the constraint satisfying k-anonymity is specified as the generalized unit of the corresponding semi-identifier.
- the present embodiment among the plurality of quasi-identifiers in the original data to be anonymized, by setting a preferentially small generalized unit of the quasi-identifier having a relatively large temporal change, that is, fluctuation,
- the change in value in the data set due to the fluctuation described above can be absorbed by resetting the generalized unit, and k-anonymity can be ensured while minimizing information loss. That is, even if the value distribution of the data changes greatly with time, the data set after k-anonymization is reset by, for example, resetting to a minimum satisfying k-anonymity among multiples of the original generalized unit The reduction in the amount of information can be minimized.
- the generalized unit of each quasi-identifier in the data is appropriately set according to the time change characteristic, and it is possible to achieve both good usability of the anonymized data set and k-anonymization.
- the arithmetic device for the latest data to be anonymized after elapse of a predetermined time after the specifying process of the generalized unit, Are applied to the k-anonymity evaluation algorithm and it is found that k-anonymity is not satisfied, the values in the most recent data corresponding to the quasi-identifier in descending order of priority, A unit candidate value that is larger than the generalized unit is applied to the k-anonymity evaluation algorithm, and a unit candidate value that is larger than the generalized unit and that is the smallest under the constraint that satisfies k-anonymity A process for specifying a new generalized unit of the corresponding quasi-identifier may be further executed.
- the computing device when specifying the new generalized unit, is under a constraint satisfying k-anonymity among integer multiples of the generalized unit.
- the smallest one may be specified as a new generalized unit of the corresponding quasi-identifier.
- the data set after k-anonymization processing can be analyzed by changing the generalized unit of the semi-identifier by an integer multiple.
- the arithmetic unit is configured to determine each value in the corresponding nearest data and the general data for the nearest data to be anonymized after elapse of a predetermined time after specifying the generalized unit. Is applied to the k-anonymity evaluation algorithm and it is found that k-anonymity is not satisfied, the attribute of each corresponding value in the data is assigned to each quasi-identifier in descending order of priority.
- Specify a combination pattern specify the attribute distribution range indicated by the specified combination pattern of the attribute as a new unit candidate for generalization in the corresponding quasi-identifier, and each value in the latest data corresponding to the quasi-identifier,
- the new unit candidate is applied to the k-anonymity evaluation algorithm, and is subject to the constraint that satisfies k-anonymity among the new unit candidate values.
- Number of attributes is one which further executes a process of identifying a new generalized units of the corresponding quasi-identifier smallest may be.
- the arithmetic unit is configured to determine each value in the corresponding nearest data and the general data for the nearest data to be anonymized after elapse of a predetermined time after specifying the generalized unit.
- the attribute distribution range indicated by the combination pattern other than the combination pattern as the generalized unit And applying each value in the most recent data corresponding to the corresponding semi-identifier and the new unit candidate to the k-anonymity evaluation algorithm to identify the new unit candidate. Further processing is performed for identifying a value with the smallest number of attributes under a constraint satisfying k-anonymity as a new generalized unit of the corresponding quasi-identifier. In it, it may be used as the.
- the generalized unit of the corresponding semi-identifier as the generalized unit of the corresponding quasi-identifier with the minimum number of attributes under the constraint satisfying k-anonymity, such as the position information indicating the person's current location
- k-anonymity such as the position information indicating the person's current location
- the information processing apparatus for the latest data to be anonymized after elapse of a predetermined time after the specifying process of the generalized unit,
- a generalized unit to the k-anonymity evaluation algorithm and finding that k-anonymity is not satisfied, each value in the most recent data corresponding to the quasi-identifier in descending order of priority,
- the unit candidate value that is larger than the generalized unit is applied to the k-anonymity evaluation algorithm, and the smallest unit candidate value that satisfies k-anonymity among the unit candidate values larger than the generalized unit. It is also possible to further execute a process of specifying as a new generalized unit of the corresponding semi-identifier.
- a constraint satisfying k-anonymity among values that are integer multiples of the generalized unit. May be specified as a new generalized unit of the corresponding quasi-identifier.
- the information processing apparatus for the latest data to be anonymized after elapse of a predetermined time after the specifying process of the generalized unit,
- a generalized unit is applied to the k-anonymity evaluation algorithm and it is found that k-anonymity is not satisfied, the attribute of each value corresponding to the data for each quasi-identifier in descending order of priority.
- the attribute distribution range indicated by the identified combination pattern of the attribute is specified as a new unit candidate for generalization in the corresponding quasi-identifier, and each value in the latest data corresponding to the quasi-identifier , Applying the new unit candidate to the k-anonymity evaluation algorithm, and satisfying k-anonymity among the new unit candidate values.
- May be the number of attributes further performs minimal processing of specifying a new generalized units of the corresponding quasi-identifier ones.
- the information processing apparatus for the latest data to be anonymized after elapse of a predetermined time after the specifying process of the generalized unit,
- the generalized unit is applied to the k-anonymity evaluation algorithm and it is found that k-anonymity is not satisfied
- the attribute distribution range indicated by the combination pattern other than the combination pattern as the generalized unit Specifying as a new unit candidate for generalization in an identifier, applying each value in the latest data corresponding to the corresponding quasi-identifier and the new unit candidate to the k-anonymity evaluation algorithm, and
- a process of further identifying a candidate value having a minimum number of attributes under a constraint satisfying k-anonymity as a new generalized unit of the corresponding quasi-identifier is further executed. It may be.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】データにおける各準識別子の一般化単位を時間変化特性に応じた適宜なものとし、匿名化したデータセットの良好な有用性及びk-匿名化の両立を図る。 【解決手段】k-匿名化処理システム100において、匿名化対象のデータと各準識別子の時間変化特性の情報を記憶する記憶装置101と、時間変化特性の情報に基づき、準識別子間での時間変化の大きさに応じた優先度を各準識別子について判定し、準識別子毎に、データにおいて対応する各値の間隔に基づき該当準識別子における一般化の単位候補値を特定し、優先度が高い順に該当準識別子に対応するデータにおける各値と単位候補値をk-匿名性評価アルゴリズムに適用し、単位候補値のうちk-匿名性を満たす制約下で最小のものを該当準識別子の一般化単位と特定し、k-匿名化の処理を実行する演算装置104を備える構成とする。
Description
本発明は、k-匿名化処理システム及びk-匿名化処理方法に関する。
データが含む個人情報などの機微な情報を曖昧化し、該当データのセキュアかつ自由な二次利用を可能にするものとして、k-匿名化技術が存在する。このk-匿名化技術は、データ項目における単独で個人を特定可能な「識別子」と、複数組み合わせることで個人を特定出来る可能性のある「準識別子」のうち、ある準識別子の組み合わせで特定されるデータ数が「k」以上となるよう図る技術である。具体的には、準識別子の一般化処理(例:年齢値を年代に、完全な住所を地域に変換する)と言われる処理により、準識別子の抽象化を行い、それら一般化した値(例:年代、地域)の組み合わせに属する対象者を「k」人以上識別可能とすることで「k-匿名性」を実現する。
一方、k-匿名化の対象となるデータが時間変位する状況に対応する従来技術として、以下の技術が提案されている。すなわち、一つの属性を有するデータ数が第一の時刻で閾値以上であり、その後の第二の時刻で閾値未満である回数に基づいて、閾値ごとのスコアを算出して匿名化指標を特定し、データ中のーの属性を有するデータ数が匿名化指標より少なく、かつ、当該データ数と少なくとも一以上の他の属性を有するデータ数との和が匿名化指標以上である場合に、共通する属性に更新するデータとして、当該ーの属性および当該他の属性を有するデータを特定する技術(特許文献1参照)などが提案されている。
ところが、現実のデータは複数の準識別子を有し、かつ、それぞれの準識別子に関して一般化を行う単位は様々である。例えば、ある地域に所在する人物について、各自の現在位置および年齢を準識別子とした場合、現在位置に関する一般化の単位は「○○市○○丁目」、年齢に関する一般化の単位は「10歳毎の年代」、などと想定出来る。しかしながら、こうした各準識別子のうち、どの準識別子の単位を優先的に設定すべきか、という観点に着目した技術思想は提案されていない。
そのため、いずれかの準識別子の単位を優先的に考慮することで、k-匿名性を効率的に担保し、かつ情報損失を小さくする、といった点に関して検証することは出来ていない。例えば、上述した現在位置及び年齢の各準識別子は、共に時間変化特性のある準識別子であり、しかも、それぞれの値の時間変化の速度は異なっている。従って、そうした準識別子における時間変化特性の相違と無関係にそれぞれの単位を設定した場合、各準識別子の組み合わせで特定出来るデータ数が時間推移と共に変化する事態に対応し、該当データ数を「k」以上とする際には、各準識別子の単位を必要以上に一般化すなわち曖昧化してしまい、匿名化データの利用者に有用なデータセットを十分には提供できない恐れがある。
そこで本発明の目的は、データにおける各準識別子の一般化単位を時間変化特性に応じた適宜なものとし、匿名化したデータセットの良好な有用性及びk-匿名化の両立を図る技術を提供することにある。
上記課題を解決する本発明のk-匿名化処理システムは、匿名化対象のデータと当該データにおける各準識別子の時間変化特性の情報を記憶する記憶装置と、前記時間変化特性の情報に基づいて、準識別子間での時間変化の大きさに応じた優先度を各準識別子について判定する処理と、準識別子毎に、前記データにおいて対応する各値の間隔を算定し、当該算定した間隔に基づいて該当準識別子における一般化の単位候補値を特定する処理と、前記優先度が高い順に、該当準識別子に対応する前記データにおける各値と前記単位候補値とを、所定のk-匿名性評価アルゴリズムに適用し、前記単位候補値のうちk-匿名性を満たす制約下で最小のものを該当準識別子の一般化単位と特定し、当該特定した各準識別子の一般化単位を用いた前記データに対するk-匿名化の処理を実行する演算装置と、を備えることを特徴とする。
また、本発明のk-匿名化処理システムは、匿名化対象のデータと当該データにおける各準識別子の時間変化特性の情報を記憶する記憶装置と、前記時間変化特性の情報に基づいて、準識別子間での時間変化の大きさに応じた優先度を各準識別子について判定する処理と、準識別子毎に、前記データにおいて対応する各値の属性の組み合わせパターンを特定し、当該特定した前記属性の組み合わせパターンが示す属性分布範囲を、該当準識別子における一般化の単位候補として特定する処理と、前記優先度が高い順に、該当準識別子に対応する前記データにおける各値と、前記単位候補とを、所定のk-匿名性評価アルゴリズムに適用し、前記単位候補のうちk-匿名性を満たす制約下で属性数が最小のものを該当準識別子の一般化単位と特定し、当該特定した各準識別子の一般化単位を用いた前記データに対するk-匿名化の処理を実行する演算装置と、を備えることを特徴とする。
また、本発明のk-匿名化処理方法は、匿名化対象のデータと当該データにおける各準識別子の時間変化特性の情報を記憶する記憶装置を備えた情報処理装置が、前記時間変化特性の情報に基づいて、準識別子間での時間変化の大きさに応じた優先度を各準識別子について判定する処理と、準識別子毎に、前記データにおいて対応する各値の間隔を算定し、当該算定した間隔に基づいて該当準識別子における一般化の単位候補値を特定する処理と、前記優先度が高い順に、該当準識別子に対応する前記データにおける各値と前記単位候補値とを、所定のk-匿名性評価アルゴリズムに適用し、前記単位候補値のうちk-匿名性を満たす制約下で最小のものを該当準識別子の一般化単位と特定し、当該特定した各準識別子の一般化単位を用いた前記データに対するk-匿名化の処理と、を実行することを特徴とする。
また、本発明のk-匿名化処理方法は、匿名化対象のデータと当該データにおける各準識別子の時間変化特性の情報を記憶する記憶装置を備えた情報処理装置が、前記時間変化特性の情報に基づいて、準識別子間での時間変化の大きさに応じた優先度を各準識別子について判定する処理と、準識別子毎に、前記データにおいて対応する各値の属性の組み合わせパターンを特定し、当該特定した前記属性の組み合わせパターンが示す属性分布範囲を、該当準識別子における一般化の単位候補として特定する処理と、前記優先度が高い順に、該当準識別子に対応する前記データにおける各値と、前記単位候補とを、所定のk-匿名性評価アルゴリズムに適用し、前記単位候補のうちk-匿名性を満たす制約下で属性数が最小のものを該当準識別子の一般化単位と特定し、当該特定した各準識別子の一般化単位を用いた前記データに対するk-匿名化の処理と、を実行することを特徴とする。
本発明によれば、データにおける各準識別子の一般化単位を時間変化特性に応じた適宜なものとし、匿名化したデータセットの良好な有用性及びk-匿名化の両立を図ることが可能となる。
---システム構成例---
以下に本発明の実施形態について図面を用いて詳細に説明する。図1は本実施形態のk-匿名化処理システム100を含むネットワーク構成例を示す図である。図1に示すk-匿名化処理システム100は、k-匿名化処理対象となる元データにおける各準識別子の一般化単位を時間変化特性に応じた適宜なものとし、匿名化したデータセットの良好な有用性及びk-匿名化の両立を図るためのコンピュータシステムである。
以下に本発明の実施形態について図面を用いて詳細に説明する。図1は本実施形態のk-匿名化処理システム100を含むネットワーク構成例を示す図である。図1に示すk-匿名化処理システム100は、k-匿名化処理対象となる元データにおける各準識別子の一般化単位を時間変化特性に応じた適宜なものとし、匿名化したデータセットの良好な有用性及びk-匿名化の両立を図るためのコンピュータシステムである。
本実施形態におけるk-匿名化処理システム100は、一例としてサーバ装置を想定する。以降、k-匿名化処理システムをk-匿名化処理サーバ100と称する。また、当該k-匿名化処理サーバ100は、ネットワーク20に接続しており、k-匿名化処理の作業担当者等が操作する操作者端末10、及び、k-匿名化処理の対象となる元データを提供する外部サーバ30と通信可能に結ばれている。k-匿名化処理サーバ100は、上述の外部サーバ30から元データを取得し、この元データに対するk-匿名化処理を施すことでk-匿名データセット130を生成するサーバである。なお、k-匿名化処理サーバ100、操作者端末10、及び外部サーバ30によりk-匿名化処理システムを構成するとしてもよい。
ここで、上述の外部サーバ30における元データの取得形態について例示しておく。例えば、決済機能付きの携帯端末のユーザが、この携帯端末における決済機能を利用して或る店舗にて所定商品を購入したとする。この場合、上述の携帯端末は、携帯電話網等の所定ネットワークを経由して、商品代金の決済システムたる外部サーバ30にアクセスし、該当商品に関する決済内容を含む決済要求を通知し、所定の決済処理を実行する。この時、携帯端末は、予め備えるGPS機能より得ている現在位置情報も上述の決済要求に含めるものとする。一方、外部サーバ30たる決済システムは、上述の現在位置情報を含む決済要求を携帯端末から受信し、上述の決済処理に伴う該当ユーザの情報(ユーザID、年齢)、購買情報、及び現在位置情報を元データとして取得する。外部サーバ30は、これら元データを、所定期間毎に或いはリアルタイムにk-匿名化処理サーバ100に送信する。k-匿名化処理サーバ100は、外部サーバ30から元データを受信し、これを記憶装置101の元データテーブル125に時刻情報と共に格納していくこととなる。
k-匿名化処理対象となる元データは、上述のように、例えばユーザの現在位置情報、生年月日(年齢)、購入商品、及び登録時刻といった値が含まれる。また、こうした元データが含む各値は、その属性に応じてk-匿名化の概念における、識別子、準識別子、その他の情報に分類出来る。このうち識別子は、単独で該当ユーザを特定出来る個人情報であり、完全な氏名や住所といった値が該当する。また、準識別子は、複数組み合わせることで該当ユーザを特定出来る可能性のある情報であり、年齢や現在位置情報、といった値が該当する。またその他の情報は、複数組み合わせるとしても該当ユーザの特定は想定されにくい情報であり、上述の例では購入商品の値が該当する。
また、上述した準識別子は、時間経過に伴って値が変化するものが存在する。例えば、準識別子たる年齢は、人の加齢と共に1年毎に増える。また、準識別子たる現在位置情報は、外出中の人の移動と共に例えば1時間程度毎に変化する。すなわち、元データの各値のうち、そうした時間変化特性がある準識別子に対応する各値は、時間経過と共に変化し、元データ全体における該当各値の分布が変化することにつながる。本実施形態では、このような準識別子に対応する値の時間変化の頻度(例:1年、1時間など)を、準識別子のライフタイムと定義する。例えば、上記の準識別子の例の場合、年齢のライフタイムは1年、現在地情報のライフタイムは1時間、などと定義できる。また本実施形態では、このライフタイムの逆数を、該当準識別子における「揺らぎ」と定義する。
続いてk-匿名化処理サーバ100のハードウェア構成について説明する。図2で例示する本実施形態のk-匿名化処理サーバ100は、SSD(Solid State Drive)やハードディスクドライブなど適宜な不揮発性記憶素子で構成される記憶装置101、RAMなど揮発性記憶素子で構成されるメモリ103、記憶装置101に保持されるプログラム102をメモリ103に読み出すなどして実行しサーバ装置自体の統括制御を行なうとともに各種判定、演算及び制御処理を行なうCPUなどの演算装置104、ネットワーク20と接続し操作者端末10および外部サーバ30など他装置との通信処理を担う通信装置105を備える。
なお、記憶装置101内には、本実施形態のk-匿名化処理サーバ100として必要な機能を実装する為のプログラム102と、各種処理に用いるデータ等を格納したテーブル類が記憶されている。このテーブルとしては、後述する元データテーブル125、優先度管理テーブル126、単位候補テーブル127、およびk-匿名データセット130が含まれる。また優先度管理テーブル126には、各準識別子の優先度と共に、時間変化の情報たる上述のライフタイムが格納されているものとする。
また、上述の操作者端末10および外部サーバ30は、k-匿名化処理サーバ100と同様に、コンピュータとして一般的なハードウェア構成を備えており、その詳細については省略する。
---機能例---
続いて、本実施形態のk-匿名化処理システムたるk-匿名化処理サーバ100が備える機能について説明する。上述したように、以下に説明する機能は、例えばk-匿名化処理サーバ100が備えるプログラム102を実行することで実装される機能と言える。
---機能例---
続いて、本実施形態のk-匿名化処理システムたるk-匿名化処理サーバ100が備える機能について説明する。上述したように、以下に説明する機能は、例えばk-匿名化処理サーバ100が備えるプログラム102を実行することで実装される機能と言える。
本実施形態のk-匿名化処理サーバ100は、上述の元データテーブル125に保持している元データに関し、該当元データが含む準識別子のライフタイム(時間変化特性の情報)を、優先度管理テーブル126から読み出し、各準識別子のライフタイムの逆数を算定して上述の揺らぎを得て、準識別子間で揺らぎの大きい順に優先度を高いものと判定する機能を備えている。この機能は、図1のk-匿名化処理サーバ100における準識別子一般化設定部113の備える機能に該当する。
また、k-匿名化処理サーバ100は、上述の準識別子毎に、元データにおいて対応する各値の間隔を算定し、当該算定した間隔の最小値または平均値を、該当準識別子における一般化の単位候補値として特定する機能を備えている。例えば、元データにおいて対応する各値の間隔を、「0.02」、「0.04」、「0.03」などと算定した場合、当該算定した間隔の最小値「0.02」または平均値「0.03」を、該当準識別子における一般化の単位候補値として特定することとなる。こうした機能は、図1のk-匿名化処理サーバ100における準識別子一般化設定部113の備える機能に該当する。
ここで、準識別子を一般化する単位について定義する。単位とは、準識別子を一般化処理した際の抽象化の幅を指す。例えば、年齢を年代に一般化する場合の例では、年代を2歳刻みで一般化(抽象化)すれば単位は2歳、5歳刻みで一般化(抽象化)すれば単位は5歳となる。
また、k-匿名化処理サーバ100は、上述で判定済みの優先度が高い順に、該当準識別子に対応する元データにおける各値と上述の単位候補値とを、k-匿名性評価アルゴリズムたるk-匿名性評価部114に適用し、単位候補値のうちk-匿名性を満たす制約下で最小のものを該当準識別子の一般化単位と特定する機能を備えている。この機能は、図1のk-匿名化処理サーバ100における準識別子一般化設定部113の備える機能に該当する。
また、k-匿名化処理サーバ100は、上述で特定した各準識別子の一般化単位を用いて、元データに対するk-匿名化の処理を実行する機能を備えている。この機能は、図1のk-匿名化処理サーバ100におけるk-匿名化処理部115の備える機能に該当する。このk-匿名化処理部115におけるk-匿名化処理の手法は従来から存在するk-匿名化処理方法を適宜採用すればよい。
なお、k-匿名化処理サーバ100は、上述の一般化単位の特定処理後から所定時間経過後における匿名化対象の直近データについて、該当直近データにおける各値と上述の一般化単位とを、k-匿名性評価部114に適用し、k-匿名性を満たさないことが判明した場合、優先度管理テーブル126における優先度が高い順に、該当準識別子に対応する直近データにおける各値と、単位候補値のうち当初特定した一般化単位より大きいものとを、k-匿名性評価部114に適用し、上述の一般化単位より大きい単位候補値のうちk-匿名性を満たす制約下で最小のものを該当準識別子の新たな一般化単位と特定する機能を更に備えている。この機能は、図1のk-匿名化処理サーバ100における準識別子一般化設定部113の備える機能に該当する。
また、k-匿名化処理サーバ100は、上述のごとく新たな一般化単位を特定する際、当初特定した一般化単位の整数倍の値のうちk-匿名性を満たす制約下で最小のものを該当準識別子の新たな一般化単位と特定する機能を更に備えているとすれば好適である。この機能は、図1のk-匿名化処理サーバ100における準識別子一般化設定部113の備える機能に該当する。
また、k-匿名化処理サーバ100は、上述の如き一般化単位の特定処理後から所定時間経過後における匿名化対象の直近データについて、該当直近データにおける各値と上述の一般化単位とを、k-匿名性評価部114に適用し、k-匿名性を満たさないことが判明した場合、優先度管理テーブル126における優先度が高い順に、準識別子毎に、上述の直近データにおいて対応する各値の属性の組み合わせパターンを特定し、当該特定した属性の組み合わせパターンが示す属性分布範囲を、該当準識別子における一般化の新たな単位候補として特定し、該当準識別子に対応する直近データにおける各値と、新たな単位候補とを、k-匿名性評価部114に適用し、上述の新たな単位候補値のうちk-匿名性を満たす制約下で属性数が最小のものを該当準識別子の新たな一般化単位と特定する機能を更に備えている。この機能は、図1のk-匿名化処理サーバ100における準識別子一般化設定部113の備える機能に該当する。
上述の属性の組み合わせとは、例えば、準識別子が現在地情報である場合、匿名化対象のデータにおいて現在地情報に対応した値が示す番地の組み合わせ、を想定出来る。番地は、1番地、2番地、3番地、4番地・・・とその値が一方方向に増える性質である認識できるが、地図上での各番地の位置関係を考慮した場合、1番地に対して2番地は隣接するが、3番地は別の番地を介して1番地と隣接する、などといった状況も十分存在しうる。そこで、そうした準識別子の一般化を図る際の単位としては、番地の値の昇順ないし降順といった値の順序に囚われず、各番地の組み合わせパターンを想定すると好適であるケースも想定される。また、そうした場合、属性の組み合わせパターンが示す属性分布範囲とは、該当パターンが含む各番地で構成される、地図上での所定領域に対応する。従って、属性分布範囲は、例えば各番地に対応した現在位置座標値(匿名化対象のデータが示す値)の集合、または現在位置座標値の分布範囲式等で特定できる。
また、k-匿名化処理サーバ100は、上述の元データに関して、その準識別子毎に、元データにおいて対応する各値の属性の組み合わせパターンを特定し、当該特定した属性の組み合わせパターンが示す属性分布範囲を、該当準識別子における一般化の単位候補として特定する機能を備えている。この機能は、図1のk-匿名化処理サーバ100における準識別子一般化設定部113の備える機能に該当する。
また、この場合のk-匿名化処理サーバ100は、上述の優先度管理テーブル126における優先度が高い順に、該当準識別子に対応する上述の元データにおける各値と、上述の単位候補とを、k-匿名性評価部114に適用し、上述の単位候補のうちk-匿名性を満たす制約下で属性数が最小のものを該当準識別子の一般化単位と特定する機能を備えている。この機能は、図1のk-匿名化処理サーバ100における準識別子一般化設定部113の備える機能に該当する。
また、k-匿名化処理サーバ100は、上述した属性の組み合わせパターンに基づく一般化単位の特定処理後から所定時間経過後における匿名化対象の直近データについて、該当直近データにおける各値と、上述の一般化単位とを、k-匿名性評価部114に適用し、k-匿名性を満たさないことが判明した場合、上述の一般化単位とした組み合わせパターン以外の組み合わせパターンが示す属性分布範囲を、該当準識別子における一般化の新たな単位候補として特定し、該当準識別子に対応する上述の直近データにおける各値と、新たな単位候補とを、k-匿名性評価部114に適用し、上述の新たな単位候補値のうちk-匿名性を満たす制約下で属性数が最小のものを該当準識別子の新たな一般化単位と特定する機能を更に備えている。この機能は、図1のk-匿名化処理サーバ100における準識別子一般化設定部113の備える機能に該当する。
---処理フロー例---
以下、本実施形態におけるk-匿名化処理方法の実際手順について図に基づき説明する。以下で説明するk-匿名化処理方法に対応する各種動作は、k-匿名化処理システムたるk-匿名化処理サーバ100がメモリ103に読み出して実行するプログラム102によって実現される。そして、そのプログラム102は、以下に説明される各種の動作を行うためのコードから構成されている。
---処理フロー例---
以下、本実施形態におけるk-匿名化処理方法の実際手順について図に基づき説明する。以下で説明するk-匿名化処理方法に対応する各種動作は、k-匿名化処理システムたるk-匿名化処理サーバ100がメモリ103に読み出して実行するプログラム102によって実現される。そして、そのプログラム102は、以下に説明される各種の動作を行うためのコードから構成されている。
図3は、本実施形態におけるk-匿名化処理方法の処理手順例1を示すフロー図であり、具体的には本実施形態におけるk-匿名化処理方法のメインフロー例である。ここでまず、k-匿名化処理サーバ100における項目分類部111は、記憶装置101の元データテーブル125からk-匿名化対象である元データとして、元データテーブル125のレコードを読み出し、当該レコードの各フィールド(項目)が示す値を所定アルゴリズムに適用して、k-匿名化処理における「識別子」、「準識別子」、および「その他」に分類する(200)。
上述のアルゴリズムとしては、既存のk-匿名化処理の基本技術におけるアルゴリズムを採用すればよいが、例えば、元データの含む各値の項目名称と、識別子および準識別子との対応関係を規定した辞書テーブルに基づいて、上述のレコードの各フィールドが示す値をこの辞書テーブルに照合し、該当値に対応する識別子または準識別子を特定し、該当値が識別子と準識別子のいずれにも該当しない場合には「その他」と判定するアルゴリズムを想定出来る。図4に例示する元データテーブル125の例においては、レコードの各フィールドが示す値、「ユーザID」、「年齢」、「現在地」、「購入品」、を辞書テーブルに照合し、このうち、辞書テーブルにて識別子と規定されている“ユーザID”については識別子、同様に準識別子と規定されている“年齢”、“現在地”、については準識別子たる“年代”、“位置”、などと判定し、辞書テーブルにて識別子と準識別子のいずれにも規定されていない“購入品”についてはその他と判定する。
上述のステップ200の結果、元データたるレコードにおいて識別子と特定したフィールドについて、k-匿名化処理サーバ100における識別子削除部112は、該当レコードにおける該当値の削除処理を実行する(201)。この処理の結果、元データたる各レコードは、準識別子とその他に対応した各値のみ含む状態となる。
続いてk-匿名化処理サーバ100における準識別子一般化設定部113は、上述のステップ200で特定した準識別子について、その一般化単位の設定を行う際の優先度を決定する(202)。この準識別子に関する優先度決定手順の詳細について、図5に基づき説明する。
図5は、本実施形態のk-匿名化処理方法の処理手順例2を示すフロー図である。この場合、k-匿名化処理サーバ100における準識別子一般化設定部113は、上述のステップ200で特定済みの準識別子の情報について、記憶装置101の優先度管理テーブル126にて新たなレコードを生成し、当該レコードにて準識別子IDと対応付けて上述の準識別子の情報を登録する(303)。準識別子IDは、優先度管理テーブル126における各レコードを一意に特定すべく準識別子一般化設定部113が付与したIDである。
この優先度管理テーブル126の構成例を図6にて示す。上述のステップ303の処理の結果、図6の優先度管理テーブル126において、例えば、準識別子ID「1」のレコードの準識別子欄に、図4の元データのレコードにおける「現在地」に対応する準識別子たる「位置」が登録される。同様に、図6の優先度管理テーブル126の準識別子ID「2」のレコードの準識別子欄に、図4の元データのレコードにおける「年齢」に対応する準識別子たる「年代」が登録される。
続いて、k-匿名化処理サーバ100における準識別子一般化設定部113は、例えば、上述のステップ303で優先度管理テーブル126に登録したレコードの情報を、操作者端末10に配信し、各レコードにおける準識別子のライフタイムについての指定を操作者端末10から受け付け、これを優先度管理テーブル126の該当準識別子のライフタイム欄に設定する(304)。例えば準識別子一般化設定部113は、図6の優先度管理テーブル126における、準識別子ID「1」のレコードの準識別子「位置」のライフタイムとして「1時間」の指定を操作者端末10から得て、該当ライフタイム欄に「1時間」を登録する。同様に準識別子一般化設定部113は、優先度管理テーブル126の準識別子ID「2」のレコードの準識別子「年代」のライフタイムとして「1年」の指定を操作者端末10から得て、該当ライフタイム欄に「1年」を登録する。
なお、このライフタイムの値の取得に際し、上述のように操作者端末10から指定を受けるとしてもよいが、例えば、k-匿名化処理サーバ100が、元データテーブル125における各準識別子の値の時間変動を同一ユーザごとに監視し、この値の時間変動が所定基準以上となるための経過時間を統計処理して、これをライフタイムの値と特定するなどとしてもよい。
次に、k-匿名化処理サーバ100における準識別子一般化設定部113は、優先度管理テーブル126における各準識別子のライフタイムの逆数を算定し、この逆数の値を優先度評価指数として優先度管理テーブル126の優先度評価指数欄に設定する(305)。この優先度評価指数は既に上述した「ゆらぎ」に相当する。図6で例示した優先度管理テーブル126の例であれば、準識別子「位置」のライフタイム「1時間」に基づいて、この1時間の逆数たる優先度評価指数は1/1(回/時間)と算定できる。また同様に、準識別子「年代」のライフタイム「1年」に基づいて、この1年を時間換算した逆数たる優先度評価指数は1/8760(回/時間)と算定できる。
続いて、k-匿名化処理サーバ100における準識別子一般化設定部113は、上述のステップ305で得た各準識別子に関する優先度評価指数の値を比較し、準識別子間での相対的な大きさ順に、準識別子の一般化単位設定の優先度を決定し、その値を優先度管理テーブル126における優先度欄に設定する(306)。優先度評価指数の大きいものほど、該当準識別子の時間変化特性は大きく、時間経過と共にk-匿名性の担保に影響を与える程度も大きくなる。したがって、上述の優先度の高さに応じて、準識別子の一般化単位を優先的に設定する必要がある。
k-匿名化処理サーバ100は、以上のステップ303~306を元データテーブル125のレコードから得た準識別子の数分だけ繰り返し実行し(307:NO~303)、全ての準識別子に関して各ステップを実行したならば(307:YES)、当該フローを終了する。
こうして得られた優先度管理テーブル126は、図6に示す構成となる。本実施形態における優先度管理テーブル126は、準識別子IDをキーとして、対応する準識別子、そのライフタイム、優先度評価指数、および優先度といった値を対応付けたレコードの集合体となっている。
ここで図3のフローの説明に戻る。次にk-匿名化処理サーバ100における準識別子一般化設定部113は、準識別子の一般化における単位の設定(203)を行う。この単位の設定(203)の詳細については図7に従って説明する。
この場合、k-匿名化処理サーバ100における準識別子一般化設定部113は、優先度管理テーブル126に登録してある各準識別子に対応する元データの値を、元データテーブル125から抽出して、或る準識別子について抽出した各値の間隔を算定し、当該算定した間隔に基づいて該当準識別子における一般化の単位候補値を特定する(401)。この処理に際しては、例えば、算定した間隔のうち最小のもの、すなわち最小間隔、或いは、算定した間隔の平均、すなわち平均間隔を算定し、これら最小間隔又は平均間隔の倍数を単位候補値として特定する。
図4に例示した元データテーブル125のレコードが示す値に基づいて、上述の単位候補値の算定処理について具体例を示すと、以下のようになる。すなわち、優先度管理テーブル126における準識別子「位置」に対応する元データの値を、元データテーブル125の「現在地(緯度)」の値から、「35.370」、「35.372」、「35.373」、「35.398」、「35.390」、「35.378」、などと抽出し、ここで抽出した各値の間隔を、「0.002」、「0.001」、「0.003」、・・・などと算定する。このうち最小間隔は「0.001」であり、また平均間隔は各間隔の平均をとって「0.0059」などと算出される。
単位候補値の選定概念として、最小間隔をデフォルト候補として、この最小間隔の倍数を他の候補とし、元データの値の数だけ候補数を選定するとのアルゴリズムを、準識別子一般化設定部113が予め保持しているとすれば、当該準識別子一般化設定部113は、デフォルトの単位候補値として「0.001」を決定し、他の単位候補値として「0.002」、「0.003」、「0.004」、「0.005」、「0.01」を決定することとなる。こうした単位候補値の決定手順は、上述の「年代」に関しても同様である。
続いて、k-匿名化処理サーバ100における準識別子一般化設定部113は、ステップ401で各準識別子に関して特定した一般化の単位候補値を、該当準識別子の準識別子IDと紐付けた上で単位候補テーブル127に格納する(402)。図8に示す単位候補テーブル127の例であれば、準識別子一般化設定部113は、単位候補テーブル127への単位候補値の登録時に、各単位候補値を一意に示す単位IDを付与したレコードを生成し、このレコードにおいて、準識別子ID、および単位候補値、を格納する。
なお、上述のように、最小間隔に対応した単位候補値をデフォルトの単位候補値とする場合、図8の単位候補テーブル127の例であれば、準識別子一般化設定部113は、準識別子ID「1」、すなわち準識別子「位置(緯度)」に関して、最小間隔を示す単位候補値「0.001」をデフォルトの単位候補値と特定する。
準識別子一般化設定部113は、以上のような処理を、優先度管理テーブル126における各準識別子に関して実行した結果、図8に例示する単位候補テーブル127を生成することとなる。
ここで図3のフローの説明に戻る。次にk-匿名化処理サーバ100における準識別子一般化設定部113は、優先度管理テーブル126において優先度が高い順に、該当準識別子に対応する元データテーブル125における各値と、上述の単位候補テーブル127における単位候補値のうちデフォルトの単位候補値とを、k-匿名性評価アルゴリズムたるk-匿名性評価部114に適用し、このデフォルトの単位候補値で規定のk-匿名性を満たすか判定する(204)。
この判定の結果、上述のデフォルトの単位候補値で規定のk-匿名性を満たすことが判明した場合(204:y)、準識別子一般化設定部113は、単位候補テーブル127における該当準識別子の採用フラグ欄に「1」を設定し、該当単位候補値を一般化単位と特定する(205)。図8の単位候補テーブル127の例であれば、例えば準識別子「位置(緯度)」について、採用フラグに「1」が設定された、「0.001」を一般化単位と特定したことになる。
他方、上述の判定の結果、上述のデフォルトの単位候補値で規定のk-匿名性を満たせないことが判明した場合(204:n)、準識別子一般化設定部113は、該当準識別子に対応する元データテーブル125における各値と、単位候補テーブル127において上述のデフォルトの単位候補値以外の単位候補値とを、k-匿名性評価部114に適用する処理を、デフォルトの単位候補値以外の各単位候補値ごとに実行し、単位候補値のうちk-匿名性を満たす制約下で最小のものを該当準識別子の一般化単位と特定し、単位候補テーブル127における該当準識別子の採用フラグ欄に「1」を設定する(206)。
次に、k-匿名化処理サーバ100におけるk-匿名化処理部115は、上述までのステップで特定した各準識別子の一般化単位を用いた、元データテーブル125における各元データの値に対するk-匿名化の処理を実行し(207)、一旦、待機状態となる。
上述のステップ207によるk-匿名化処理の結果、得られるのは図9に例示するk-匿名データセット130となる。このk-匿名データセット130は、準識別子である「年代」、「位置(緯度)」の組み合わせに対し、購入品の値が対応付けたレコードの集合体となっている。この例では、元データテーブル125のレコードでは「年齢」の実際値であったのが5歳刻みに一般化された準識別子である「年代」に一般化され、また、「現在地」の実際値(完全な緯度の値)であったのが少数点以下2位まで値が一般化された準識別子である「位置(緯度)」が登録されている。また各レコードには、「年代」と「位置(緯度)」という準識別子の組み合わせに対応するユーザにおける購入品の情報が設定されている。
このようなk-匿名データセット130を図面上で表示するとすれば、図10のようなマトリクス900になる。図10にて示すマトリクス900では、5歳刻みで一般化された準識別子「年代」を横軸に、0.005刻みで一般化され準識別子「位置(緯度)」を縦軸にとり、各準識別子に対応するユーザをドットで描画したマトリクスとなっている。このマトリクス900におけるセル910は、各準識別子の一般化単位分の幅で囲まれた領域であり、このセル910内に含まれるドット数がk-匿名化における「k」値以上であることが、k-匿名性を満たすことに該当する。説明の便宜上、このマトリクス900を、k=3、時刻t=t1でのk-匿名性に関するマトリクスであるとする。
上述のステップ207の完了後、すなわちt=t1以降、準識別子一般化設定部113は、所定時間経過したことを検知し(208:y)、元データテーブル125より、直近の時刻t2に登録された元データ(以後、直近データ)の値を読み出し、該当直近データにおける準識別子に対応する各値と、該当準識別子の一般化単位(単位候補テーブル127で採用フラグに「1」がセットされている値)とを、k-匿名性評価部114に適用し、k-匿名性を満たすか判定する(209)。
この判定の結果、直近の時刻t2でもk-匿名性を満たすことが判明した場合(209:y)、準識別子一般化設定部113は、処理を上述のステップ208に戻す。他方、上述の判定の結果、直近の時刻t2ではk-匿名性を満たさないことが判明した場合(209:n)、準識別子一般化設定部113は、優先度管理テーブル126における優先度が高い順に、該当準識別子に対応する上述の直近データにおける各値と、単位候補テーブル127における各単位候補値のうち、上述の一般化単位より大きいものとを、k-匿名性評価部114に適用し、上述の一般化単位より大きい単位候補値のうちk-匿名性を満たす制約下で最小のものを該当準識別子の新たな一般化単位と特定し(210)、処理をステップ208に戻す。なお、いずれかのステップにて操作者端末10から処理終了の指示を受けた際には当該フローは終了する。
ここで、時刻t2ではk-匿名性を満たさない状態に対応したマトリクス1000を図11に例示する。図11にて示すマトリクス1000では、セル1010のうち、年代「20~24」、位置(緯度)「36.390~36.394」のセル1011内に含まれるドット数が1であり、「k」=3の値以下となっている。同様に、年代「25~29」、位置(緯度)「36.390~36.394」のセル1012内に含まれるドット数も1であり、「k」=3の値以下となっている。つまり、k-匿名性を満たさない状態となっている。
そこで準識別子一般化設定部113が、上述のステップ210を実行して、k-匿名性を満たす制約下で、元の一般化単位より大きな、新たな一般化単位を特定し、この新たな一般化単位に基づいてk-匿名化処理を行った場合のマトリクスを図12に例示する。図12にて示すマトリクス1100では、セル1110が、年代「20~24」、位置(緯度)「36.390~36.399」のセル1111と、年代「25~29」、位置(緯度)「36.390~36.399」のセル1112のように、準識別子「位置(緯度)」の新たな一般化単位を元の2倍に拡大したものとなっている。この場合、セル1110内に含まれるドット数が5であり、「k」=3の値以上となっている。同様に、セル1111内に含まれるドット数は6であり、「k」=3の値以上となっている。つまり、準識別子「位置(緯度)」の新たな一般化単位を元の2倍に拡大したことで、時刻t2においてk-匿名性を満たす状態となっている。
なお、上述のステップ209の結果、直近の時刻t2ではk-匿名性を満たさないことが判明した場合(209:n)、上述のステップ210ではなく、別の処理を実行することで新たな一般化単位を特定するとしてもよい。この場合のステップ210に代わる、処理について説明する。図13は本実施形態のk-匿名化処理方法の処理手順例5を示すフロー図である。
このフローにおいて準識別子一般化設定部113は、優先度管理テーブル126における優先度が高い順に、準識別子毎に、上述の直近データにおいて対応する各値の属性の組み合わせパターンを特定し、当該特定した属性の組み合わせパターンが示す属性分布範囲を、該当準識別子における一般化の新たな単位候補として特定する(700)。
例えば、上述の属性の組み合わせとは、準識別子が「位置」である場合、直近データにおいて準識別子「位置」に対応した値が示す番地の組み合わせ、を想定出来る。図14に示す概念例のように、番地は、1番地、2番地、3番地、4番地・・・とその値が一方方向に増える性質である認識できるが、地図上での各番地の位置関係を考慮した場合、1番地に対して2番地は隣接するが、3番地は別の番地を介して1番地と隣接する、などといった状況も十分存在しうる。そこで、そうした準識別子の一般化を図る際の単位としては、番地の値の昇順ないし降順といった値の順序に囚われず、各番地の組み合わせパターンを想定すると好適であるケースも想定される。また、そうした場合、属性の組み合わせパターンが示す属性分布範囲とは、該当パターンが含む各番地で構成される、地図上での所定領域に対応する。従って、属性分布範囲は、例えば各番地に対応した座標値(上述の直近データが示す緯度値)の集合、または座標値の分布範囲式等で特定できる。
次に準識別子一般化設定部113は、上述の優先度管理テーブル126における優先度が高い順に、該当準識別子に対応する上述の直近データにおける各値と、上述のステップ300で特定した単位候補とを、k-匿名性評価部114に適用し、上述の単位候補のうちk-匿名性を満たす制約下で属性数が最小のものを該当準識別子の一般化単位と特定する(701)。
このステップ701の後、k-匿名化処理サーバ100におけるk-匿名化処理部115は、上述のステップ207を実行し、ステップ701で特定した各準識別子の一般化単位を用いた、元データテーブル125における各直近データの値に対するk-匿名化の処理を実行することとなる。
なお、上述のステップ203、すなわち準識別子の一般化単位を最初に設定する際にも、図13に示したフローと同様に、準識別子毎に、元データにおいて対応する各値の属性の組み合わせパターンを特定し、当該特定した属性の組み合わせパターンが示す属性分布範囲を、該当準識別子における一般化の単位候補として特定するとしてもよい。この場合、準識別子一般化設定部113は、上述の優先度管理テーブル126における優先度が高い順に、該当準識別子に対応する上述の元データにおける各値と、上述のように属性の組み合わせパターンに基づき特定した単位候補とを、k-匿名性評価部114に適用し、単位候補のうちk-匿名性を満たす制約下で属性数が最小のものを該当準識別子の一般化単位と特定する。
以上、本発明を実施するための最良の形態などについて具体的に説明したが、本発明はこれに限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能である。例えば、上述の本実施形態においては、(1)時間変化の大きな準識別子の一般化単位を優先的に小さくとる、(2)元データの時間変化に応じて一般化単位を大きくする場合、元の一般化単位の倍数とする、形態を例示したが、(1)、(2)のどちらか一方だけを満たせばよい場合も想定できる。即ち、ユーザ端末が分析対象のデータにおける傾向だけを観察したい場合、単位を倍数単位で変化させて分析時の対象範囲を時間経過前後で正確に一致させる必要性は低く、(1)の条件だけを踏まえて準識別子の一般化を行い、情報量保存を優先させるとしても良い。
こうした本実施形態によれば、k-匿名化対象の元データにおける、複数の準識別子のうち、時間変化すなわち揺らぎが相対的に大きい準識別子の一般化単位を優先的に小さく設定することで、上述の揺らぎによるデータセットにおける値変化を一般化単位の再設定で吸収し、情報量損失を最小化しつつk-匿名性を担保することができる。すなわち、時間変化でデータの値分布が大きく変化しても、例えば元の一般化単位の倍数のうちk-匿名性を満たす最小のものに再設定することで、k-匿名化後のデータセットにおける情報量の減少を最小限に出来る。このように、一般化の単位を倍数で設定することで、時間経過前後で分析対象のデータ範囲の整合性を自在に維持でき、可用性の高いk-匿名データセットを得ることができる。逆に、可用性を重視する場合、一般化単位の倍数を任意で大きく設定することも可能であり、情報量と可用性のトレードオフが可能である。
従って、データにおける各準識別子の一般化単位を時間変化特性に応じた適宜なものとし、匿名化したデータセットの良好な有用性及びk-匿名化の両立を図ることが可能となる。
本明細書の記載により、少なくとも次のことが明らかにされる。すなわち、本実施形態のk-匿名化処理システムにおいて、前記演算装置は、前記一般化単位の特定処理後から所定時間経過後における匿名化対象の直近データについて、該当直近データにおける各値と前記一般化単位とを前記k-匿名性評価アルゴリズムに適用し、k-匿名性を満たさないことが判明した場合、前記優先度が高い順に、該当準識別子に対応する前記直近データにおける各値と、前記単位候補値のうち前記一般化単位より大きいものとを、前記k-匿名性評価アルゴリズムに適用し、前記一般化単位より大きい単位候補値のうちk-匿名性を満たす制約下で最小のものを該当準識別子の新たな一般化単位と特定する処理を更に実行するものである、としてもよい。
これによれば、時間経過に伴って匿名化対象のデータにおける値変化が生じる状況に対応し、k-匿名性を担保しつつも一般化を最低限に抑制し、k-匿名化処理で得られるデータセットの有用性を良好なものと出来る。
また、本実施形態のk-匿名化処理システムにおいて、前記演算装置は、前記新たな一般化単位を特定する際、前記一般化単位の整数倍の値のうちk-匿名性を満たす制約下で最小のものを該当準識別子の新たな一般化単位と特定するものである、としてもよい。
これによれば、時間経過に伴って匿名化対象のデータにおける値変化が生じる状況において、準識別子の一般化単位を整数倍で変更することで、k-匿名化処理後のデータセットを分析に用いる際に、時間経過の前後で分析結果の整合性維持が容易となる。
また、本実施形態のk-匿名化処理システムにおいて、前記演算装置は、前記一般化単位の特定処理後から所定時間経過後における匿名化対象の直近データについて、該当直近データにおける各値と前記一般化単位とを前記k-匿名性評価アルゴリズムに適用し、k-匿名性を満たさないことが判明した場合、前記優先度が高い順に、準識別子毎に、前記データにおいて対応する各値の属性の組み合わせパターンを特定し、当該特定した前記属性の組み合わせパターンが示す属性分布範囲を、該当準識別子における一般化の新たな単位候補として特定し、該当準識別子に対応する前記直近データにおける各値と、前記新たな単位候補とを、前記k-匿名性評価アルゴリズムに適用し、前記新たな単位候補値のうちk-匿名性を満たす制約下で属性数が最小のものを該当準識別子の新たな一般化単位と特定する処理を更に実行するものである、としてもよい。
これによれば、単純に小さい値から大きい値へと一方向に変化する年齢等とは異なり、人物の現在地を示す位置情報など、各位置情報が示す属性たる番地の降順や昇順で一般化を図るケースと、地図上において上述の属性たる各番地に対応した領域の隣接パターン別に一般化を図るケースの両方が想定出来る準識別子に関し、k-匿名性を満たす制約下で属性数が最小のものを該当準識別子の新たな一般化単位と特定出来る。つまり、準識別子の属性の組み合わせを組み換えることで一般化単位を特定し、k-匿名化処理に用いることが可能となる。
また、本実施形態のk-匿名化処理システムにおいて、前記演算装置は、前記一般化単位の特定処理後から所定時間経過後における匿名化対象の直近データについて、該当直近データにおける各値と前記一般化単位とを前記k-匿名性評価アルゴリズムに適用し、k-匿名性を満たさないことが判明した場合、前記一般化単位とした組み合わせパターン以外の組み合わせパターンが示す属性分布範囲を、該当準識別子における一般化の新たな単位候補として特定し、該当準識別子に対応する前記直近データにおける各値と、前記新たな単位候補とを、前記k-匿名性評価アルゴリズムに適用し、前記新たな単位候補値のうちk-匿名性を満たす制約下で属性数が最小のものを該当準識別子の新たな一般化単位と特定する処理を更に実行するものである、としてもよい。
これによれば、当初から、人物の現在地を示す位置情報など、k-匿名性を満たす制約下で属性数が最小のものを該当準識別子の一般化単位と特定する形態において、時間経過に伴って匿名化対象のデータにおける値変化が生じる状況に対し、準識別子の属性の組み合わせを組み換えることで新たな一般化単位を特定し、k-匿名性を担保しつつも一般化を最低限に抑制し、k-匿名化処理で得られるデータセットの有用性を良好なものと出来る。
また、本実施形態のk-匿名化処理方法において、前記情報処理装置が、前記一般化単位の特定処理後から所定時間経過後における匿名化対象の直近データについて、該当直近データにおける各値と前記一般化単位とを前記k-匿名性評価アルゴリズムに適用し、k-匿名性を満たさないことが判明した場合、前記優先度が高い順に、該当準識別子に対応する前記直近データにおける各値と、前記単位候補値のうち前記一般化単位より大きいものとを、前記k-匿名性評価アルゴリズムに適用し、前記一般化単位より大きい単位候補値のうちk-匿名性を満たす制約下で最小のものを該当準識別子の新たな一般化単位と特定する処理を更に実行するとしてもよい。
また、本実施形態のk-匿名化処理方法において、前記情報処理装置が、前記新たな一般化単位を特定する際、前記一般化単位の整数倍の値のうちk-匿名性を満たす制約下で最小のものを該当準識別子の新たな一般化単位と特定するとしてもよい。
また、本実施形態のk-匿名化処理方法において、前記情報処理装置が、前記一般化単位の特定処理後から所定時間経過後における匿名化対象の直近データについて、該当直近データにおける各値と前記一般化単位とを前記k-匿名性評価アルゴリズムに適用し、k-匿名性を満たさないことが判明した場合、前記優先度が高い順に、準識別子毎に、前記データにおいて対応する各値の属性の組み合わせパターンを特定し、当該特定した前記属性の組み合わせパターンが示す属性分布範囲を、該当準識別子における一般化の新たな単位候補として特定し、該当準識別子に対応する前記直近データにおける各値と、前記新たな単位候補とを、前記k-匿名性評価アルゴリズムに適用し、前記新たな単位候補値のうちk-匿名性を満たす制約下で属性数が最小のものを該当準識別子の新たな一般化単位と特定する処理を更に実行するとしてもよい。
また、本実施形態のk-匿名化処理方法において、前記情報処理装置が、前記一般化単位の特定処理後から所定時間経過後における匿名化対象の直近データについて、該当直近データにおける各値と前記一般化単位とを前記k-匿名性評価アルゴリズムに適用し、k-匿名性を満たさないことが判明した場合、前記一般化単位とした組み合わせパターン以外の組み合わせパターンが示す属性分布範囲を、該当準識別子における一般化の新たな単位候補として特定し、該当準識別子に対応する前記直近データにおける各値と、前記新たな単位候補とを、前記k-匿名性評価アルゴリズムに適用し、前記新たな単位候補値のうちk-匿名性を満たす制約下で属性数が最小のものを該当準識別子の新たな一般化単位と特定する処理を更に実行するとしてもよい。
10 操作者端末
20 ネットワーク
30 外部サーバ
100 k-匿名化処理サーバ(k-匿名化処理システム)
101 記憶装置
102 プログラム
103 メモリ
104 演算装置
105 通信装置
111 項目分類部
112 識別子削除部
113 準識別子一般化設定部
114 k-匿名性評価部
115 匿名化処理部
125 元データテーブル
126 優先度管理テーブル
127 単位候補テーブル
130 k-匿名データセット
20 ネットワーク
30 外部サーバ
100 k-匿名化処理サーバ(k-匿名化処理システム)
101 記憶装置
102 プログラム
103 メモリ
104 演算装置
105 通信装置
111 項目分類部
112 識別子削除部
113 準識別子一般化設定部
114 k-匿名性評価部
115 匿名化処理部
125 元データテーブル
126 優先度管理テーブル
127 単位候補テーブル
130 k-匿名データセット
Claims (12)
- 匿名化対象のデータと当該データにおける各準識別子の時間変化特性の情報を記憶する記憶装置と、
前記時間変化特性の情報に基づいて、準識別子間での時間変化の大きさに応じた優先度を各準識別子について判定する処理と、
準識別子毎に、前記データにおいて対応する各値の間隔を算定し、当該算定した間隔に基づいて該当準識別子における一般化の単位候補値を特定する処理と、
前記優先度が高い順に、該当準識別子に対応する前記データにおける各値と前記単位候補値とを、所定のk-匿名性評価アルゴリズムに適用し、前記単位候補値のうちk-匿名性を満たす制約下で最小のものを該当準識別子の一般化単位と特定し、当該特定した各準識別子の一般化単位を用いた前記データに対するk-匿名化の処理を実行する演算装置と、
を備えることを特徴とするk-匿名化処理システム。 - 前記演算装置は、
前記一般化単位の特定処理後から所定時間経過後における匿名化対象の直近データについて、該当直近データにおける各値と前記一般化単位とを前記k-匿名性評価アルゴリズムに適用し、k-匿名性を満たさないことが判明した場合、前記優先度が高い順に、該当準識別子に対応する前記直近データにおける各値と、前記単位候補値のうち前記一般化単位より大きいものとを、前記k-匿名性評価アルゴリズムに適用し、前記一般化単位より大きい単位候補値のうちk-匿名性を満たす制約下で最小のものを該当準識別子の新たな一般化単位と特定する処理を更に実行するものである、
ことを特徴とする請求項1に記載のk-匿名化処理システム。 - 前記演算装置は、
前記新たな一般化単位を特定する際、前記一般化単位の整数倍の値のうちk-匿名性を満たす制約下で最小のものを該当準識別子の新たな一般化単位と特定するものである、
ことを特徴とする請求項2に記載のk-匿名化処理システム。 - 前記演算装置は、
前記一般化単位の特定処理後から所定時間経過後における匿名化対象の直近データについて、該当直近データにおける各値と前記一般化単位とを前記k-匿名性評価アルゴリズムに適用し、k-匿名性を満たさないことが判明した場合、前記優先度が高い順に、準識別子毎に、前記データにおいて対応する各値の属性の組み合わせパターンを特定し、当該特定した前記属性の組み合わせパターンが示す属性分布範囲を、該当準識別子における一般化の新たな単位候補として特定し、該当準識別子に対応する前記直近データにおける各値と、前記新たな単位候補とを、前記k-匿名性評価アルゴリズムに適用し、前記新たな単位候補値のうちk-匿名性を満たす制約下で属性数が最小のものを該当準識別子の新たな一般化単位と特定する処理を更に実行するものである、
ことを特徴とする請求項1に記載のk-匿名化処理システム。 - 匿名化対象のデータと当該データにおける各準識別子の時間変化特性の情報を記憶する記憶装置と、
前記時間変化特性の情報に基づいて、準識別子間での時間変化の大きさに応じた優先度を各準識別子について判定する処理と、
準識別子毎に、前記データにおいて対応する各値の属性の組み合わせパターンを特定し、当該特定した前記属性の組み合わせパターンが示す属性分布範囲を、該当準識別子における一般化の単位候補として特定する処理と、
前記優先度が高い順に、該当準識別子に対応する前記データにおける各値と、前記単位候補とを、所定のk-匿名性評価アルゴリズムに適用し、前記単位候補のうちk-匿名性を満たす制約下で属性数が最小のものを該当準識別子の一般化単位と特定し、当該特定した各準識別子の一般化単位を用いた前記データに対するk-匿名化の処理を実行する演算装置と、
を備えることを特徴とするk-匿名化処理システム。 - 前記演算装置は、
前記一般化単位の特定処理後から所定時間経過後における匿名化対象の直近データについて、該当直近データにおける各値と前記一般化単位とを前記k-匿名性評価アルゴリズムに適用し、k-匿名性を満たさないことが判明した場合、前記一般化単位とした組み合わせパターン以外の組み合わせパターンが示す属性分布範囲を、該当準識別子における一般化の新たな単位候補として特定し、該当準識別子に対応する前記直近データにおける各値と、前記新たな単位候補とを、前記k-匿名性評価アルゴリズムに適用し、前記新たな単位候補値のうちk-匿名性を満たす制約下で属性数が最小のものを該当準識別子の新たな一般化単位と特定する処理を更に実行するものである、
ことを特徴とする請求項5に記載のk-匿名化処理システム。 - 匿名化対象のデータと当該データにおける各準識別子の時間変化特性の情報を記憶する記憶装置を備えた情報処理装置が、
前記時間変化特性の情報に基づいて、準識別子間での時間変化の大きさに応じた優先度を各準識別子について判定する処理と、
準識別子毎に、前記データにおいて対応する各値の間隔を算定し、当該算定した間隔に基づいて該当準識別子における一般化の単位候補値を特定する処理と、
前記優先度が高い順に、該当準識別子に対応する前記データにおける各値と前記単位候補値とを、所定のk-匿名性評価アルゴリズムに適用し、前記単位候補値のうちk-匿名性を満たす制約下で最小のものを該当準識別子の一般化単位と特定し、当該特定した各準識別子の一般化単位を用いた前記データに対するk-匿名化の処理と、
を実行することを特徴とするk-匿名化処理方法。 - 前記情報処理装置が、
前記一般化単位の特定処理後から所定時間経過後における匿名化対象の直近データについて、該当直近データにおける各値と前記一般化単位とを前記k-匿名性評価アルゴリズムに適用し、k-匿名性を満たさないことが判明した場合、前記優先度が高い順に、該当準識別子に対応する前記直近データにおける各値と、前記単位候補値のうち前記一般化単位より大きいものとを、前記k-匿名性評価アルゴリズムに適用し、前記一般化単位より大きい単位候補値のうちk-匿名性を満たす制約下で最小のものを該当準識別子の新たな一般化単位と特定する処理を更に実行することを特徴とする請求項7に記載のk-匿名化処理方法。 - 前記情報処理装置が、
前記新たな一般化単位を特定する際、前記一般化単位の整数倍の値のうちk-匿名性を満たす制約下で最小のものを該当準識別子の新たな一般化単位と特定することを特徴とする請求項8に記載のk-匿名化処理方法。 - 前記情報処理装置が、
前記一般化単位の特定処理後から所定時間経過後における匿名化対象の直近データについて、該当直近データにおける各値と前記一般化単位とを前記k-匿名性評価アルゴリズムに適用し、k-匿名性を満たさないことが判明した場合、前記優先度が高い順に、準識別子毎に、前記データにおいて対応する各値の属性の組み合わせパターンを特定し、当該特定した前記属性の組み合わせパターンが示す属性分布範囲を、該当準識別子における一般化の新たな単位候補として特定し、該当準識別子に対応する前記直近データにおける各値と、前記新たな単位候補とを、前記k-匿名性評価アルゴリズムに適用し、前記新たな単位候補値のうちk-匿名性を満たす制約下で属性数が最小のものを該当準識別子の新たな一般化単位と特定する処理を更に実行することを特徴とする請求項7に記載のk-匿名化処理方法。 - 匿名化対象のデータと当該データにおける各準識別子の時間変化特性の情報を記憶する記憶装置を備えた情報処理装置が、
前記時間変化特性の情報に基づいて、準識別子間での時間変化の大きさに応じた優先度を各準識別子について判定する処理と、
準識別子毎に、前記データにおいて対応する各値の属性の組み合わせパターンを特定し、当該特定した前記属性の組み合わせパターンが示す属性分布範囲を、該当準識別子における一般化の単位候補として特定する処理と、
前記優先度が高い順に、該当準識別子に対応する前記データにおける各値と、前記単位候補とを、所定のk-匿名性評価アルゴリズムに適用し、前記単位候補のうちk-匿名性を満たす制約下で属性数が最小のものを該当準識別子の一般化単位と特定し、当該特定した各準識別子の一般化単位を用いた前記データに対するk-匿名化の処理と、
を実行することを特徴とするk-匿名化処理方法。 - 前記情報処理装置が、
前記一般化単位の特定処理後から所定時間経過後における匿名化対象の直近データについて、該当直近データにおける各値と前記一般化単位とを前記k-匿名性評価アルゴリズムに適用し、k-匿名性を満たさないことが判明した場合、前記一般化単位とした組み合わせパターン以外の組み合わせパターンが示す属性分布範囲を、該当準識別子における一般化の新たな単位候補として特定し、該当準識別子に対応する前記直近データにおける各値と、前記新たな単位候補とを、前記k-匿名性評価アルゴリズムに適用し、前記新たな単位候補値のうちk-匿名性を満たす制約下で属性数が最小のものを該当準識別子の新たな一般化単位と特定する処理を更に実行することを特徴とする請求項11に記載のk-匿名化処理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2014/070988 WO2016021039A1 (ja) | 2014-08-08 | 2014-08-08 | k-匿名化処理システム及びk-匿名化処理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2014/070988 WO2016021039A1 (ja) | 2014-08-08 | 2014-08-08 | k-匿名化処理システム及びk-匿名化処理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2016021039A1 true WO2016021039A1 (ja) | 2016-02-11 |
Family
ID=55263345
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2014/070988 WO2016021039A1 (ja) | 2014-08-08 | 2014-08-08 | k-匿名化処理システム及びk-匿名化処理方法 |
Country Status (1)
Country | Link |
---|---|
WO (1) | WO2016021039A1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109688551A (zh) * | 2017-08-24 | 2019-04-26 | 西安电子科技大学 | 一种连续lbs请求下位置匿名算法的攻击方法 |
CN110378148A (zh) * | 2019-07-25 | 2019-10-25 | 哈尔滨工业大学 | 一种面向云平台的多域数据隐私保护方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011113285A (ja) * | 2009-11-26 | 2011-06-09 | Kddi Corp | 公開情報のプライバシー保護装置、公開情報のプライバシー保護方法およびプログラム |
JP2011128862A (ja) * | 2009-12-17 | 2011-06-30 | Kddi Corp | 公開情報のプライバシー保護装置、公開情報のプライバシー保護方法およびプログラム |
WO2012063546A1 (ja) * | 2010-11-09 | 2012-05-18 | 日本電気株式会社 | 匿名化装置及び匿名化方法 |
WO2012176923A1 (ja) * | 2011-06-20 | 2012-12-27 | 日本電気株式会社 | 匿名化指標決定装置及び方法、並びに匿名化処理実行システム及び方法 |
-
2014
- 2014-08-08 WO PCT/JP2014/070988 patent/WO2016021039A1/ja active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011113285A (ja) * | 2009-11-26 | 2011-06-09 | Kddi Corp | 公開情報のプライバシー保護装置、公開情報のプライバシー保護方法およびプログラム |
JP2011128862A (ja) * | 2009-12-17 | 2011-06-30 | Kddi Corp | 公開情報のプライバシー保護装置、公開情報のプライバシー保護方法およびプログラム |
WO2012063546A1 (ja) * | 2010-11-09 | 2012-05-18 | 日本電気株式会社 | 匿名化装置及び匿名化方法 |
WO2012176923A1 (ja) * | 2011-06-20 | 2012-12-27 | 日本電気株式会社 | 匿名化指標決定装置及び方法、並びに匿名化処理実行システム及び方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109688551A (zh) * | 2017-08-24 | 2019-04-26 | 西安电子科技大学 | 一种连续lbs请求下位置匿名算法的攻击方法 |
CN110378148A (zh) * | 2019-07-25 | 2019-10-25 | 哈尔滨工业大学 | 一种面向云平台的多域数据隐私保护方法 |
CN110378148B (zh) * | 2019-07-25 | 2023-02-03 | 哈尔滨工业大学 | 一种面向云平台的多域数据隐私保护方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6007969B2 (ja) | 匿名化装置及び匿名化方法 | |
WO2016127904A1 (zh) | 文本地址处理方法及装置 | |
US20210165913A1 (en) | Controlling access to de-identified data sets based on a risk of re- identification | |
US20140317756A1 (en) | Anonymization apparatus, anonymization method, and computer program | |
CN109524070B (zh) | 数据处理方法及装置、电子设备、存储介质 | |
US9218503B2 (en) | Collection and analysis of customer data from application programming interface usage | |
CN114490656A (zh) | 数据查询方法、装置、设备及存储介质 | |
JP6260694B2 (ja) | 発注プログラム、発注装置及び発注方法 | |
CN110162518A (zh) | 数据分组方法、装置、电子设备及存储介质 | |
US11907963B2 (en) | On-device privacy-preservation and personalization | |
CN114650167B (zh) | 一种异常检测方法、装置、设备及计算机可读存储介质 | |
JPWO2017203672A1 (ja) | アイテム推奨方法、アイテム推奨プログラムおよびアイテム推奨装置 | |
US9130949B2 (en) | Anonymizing apparatus and anonymizing method | |
EP3332334B1 (en) | Efficient location-based entity record conflation | |
WO2016021039A1 (ja) | k-匿名化処理システム及びk-匿名化処理方法 | |
KR102547033B1 (ko) | 키워드 인식 기능을 활용하여 사용자가 선택한 방식으로 정보를 제공하는 방법 | |
JP7278100B2 (ja) | 投稿評価システム及び方法 | |
JPWO2014050837A1 (ja) | 判定装置、判定方法、及びプログラム | |
KR102372996B1 (ko) | 브라우저 핑거프린팅을 통한 사용자 식별 방법, 장치 및 프로그램 | |
CN104781788A (zh) | 资源管理系统、资源管理方法和程序 | |
US8832110B2 (en) | Management of class of service | |
US10210269B1 (en) | Computation of similar locations based on position transition data in a social networking service | |
US11720609B2 (en) | Graph analysis of geo-temporal information | |
WO2016092830A1 (ja) | 情報処理装置、情報処理方法、及び、記録媒体 | |
US10216806B1 (en) | Computation of similar titles based on position transition data in a social networking service |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 14899547 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 14899547 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: JP |