WO2013027782A1 - 匿名化装置、匿名化方法、及びそのためのプログラムを記録した記録媒体 - Google Patents

匿名化装置、匿名化方法、及びそのためのプログラムを記録した記録媒体 Download PDF

Info

Publication number
WO2013027782A1
WO2013027782A1 PCT/JP2012/071247 JP2012071247W WO2013027782A1 WO 2013027782 A1 WO2013027782 A1 WO 2013027782A1 JP 2012071247 W JP2012071247 W JP 2012071247W WO 2013027782 A1 WO2013027782 A1 WO 2013027782A1
Authority
WO
WIPO (PCT)
Prior art keywords
statistical processing
value
processing result
privacy information
anonymity
Prior art date
Application number
PCT/JP2012/071247
Other languages
English (en)
French (fr)
Inventor
貴之 佐々木
諒 古川
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Publication of WO2013027782A1 publication Critical patent/WO2013027782A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification

Definitions

  • the present invention relates to an anonymization device that discloses privacy information, an anonymization method, and a program therefor.
  • Patent Document 1 An example of a data disclosure device is described in Patent Document 1.
  • the data disclosure apparatus disclosed in Patent Literature 1 calculates anonymity when privacy information is disclosed. Next, when the calculation result is less than a desired value, the data disclosure apparatus changes the granularity of the privacy information to be disclosed and increases anonymity. And this data disclosure apparatus discloses the privacy information when the calculation result satisfies a desired value.
  • the problem is that, when statistical processing is performed on the privacy information disclosed by the data disclosure device, the trade-off between the anonymity of the original privacy information and the usefulness of the statistical processing result in the statistical processing result May not be appropriate.
  • the reason is as follows.
  • the technology described in the technical document 1 changes the granularity of the privacy information so that the data disclosure apparatus has anonymity that can be disclosed.
  • An increase in anonymity means an increase in the amount of information (entropy) obtained therefrom. Therefore, usefulness is relatively reduced.
  • An object of the present invention is to provide an anonymization device, an anonymization method, and a program therefor that can solve the above-described problems.
  • the anonymization device of the present invention analyzes privacy information including attribute information of a plurality of individuals by performing statistical processing and outputs statistical processing results, and the privacy information among the plurality of statistical processing results Selection means for selecting and outputting the statistical processing result that most closely matches the privacy information with an anonymity value indicating a high degree of anonymity with respect to.
  • a computer analyzes privacy information including attribute information of a plurality of individuals by performing statistical processing, outputs a statistical processing result, and the privacy information among the plurality of statistical processing results
  • the anonymity value indicating the level of anonymity with respect to the image satisfies the threshold value and selects and outputs the statistical processing result that best matches the privacy information.
  • the program recorded in the nonvolatile storage medium of the present invention is a computer that analyzes the privacy information including attribute information of a plurality of individuals by statistical processing, outputs a statistical processing result, and the plurality of statistical processing results Among these, the anonymity value indicating the level of anonymity with respect to the privacy information satisfies a threshold and selects and outputs the statistical processing result that most closely matches the privacy information.
  • the effect of the present invention is to obtain a privacy information statistical processing result in which the trade-off between anonymity with respect to the original privacy information and the usefulness of the statistical processing result is appropriate in the result of statistical processing of the privacy information. It is possible to do.
  • FIG. 1 is a block diagram showing the configuration of the first embodiment.
  • FIG. 2 is a diagram illustrating an example of privacy information according to the first embodiment.
  • FIG. 3 is a block diagram illustrating a hardware configuration according to the first embodiment.
  • FIG. 4 is a diagram illustrating an example of a chi-square distribution table according to the first embodiment.
  • FIG. 5 is a flowchart illustrating the operation of the anonymization device according to the first embodiment.
  • FIG. 6 is a diagram illustrating an example of minimum iteration count data and maximum iteration count data according to the first embodiment.
  • FIG. 7 is a flowchart showing the operation of the modified example of the anonymization apparatus in the first embodiment.
  • FIG. 8 is a diagram illustrating an example of privacy information according to the first embodiment.
  • FIG. 1 is a block diagram showing the configuration of the first embodiment.
  • FIG. 2 is a diagram illustrating an example of privacy information according to the first embodiment.
  • FIG. 3 is a block diagram illustrating a hardware configuration according
  • FIG. 9 is a diagram illustrating an example of privacy information according to the first embodiment.
  • FIG. 10 is a diagram illustrating an example of privacy information according to the first embodiment.
  • FIG. 11 is a block diagram illustrating an example of a nonvolatile storage medium in which a program is recorded.
  • FIG. 1 is a block diagram showing the configuration of the first exemplary embodiment of the present invention.
  • the anonymization device 100 includes an analysis unit 110 and a selection unit 120. Note that the components shown in FIG. 1 are not hardware components but functional units.
  • the analysis unit 110 analyzes privacy information including attribute information of a plurality of individuals by performing statistical processing, and outputs a statistical processing result.
  • FIG. 2 is a diagram illustrating an example of the privacy information 620. Referring to FIG. 2, the privacy information 620 includes a plurality of individual attribute information 621.
  • the selection unit 120 selects a statistical processing result that the anonymity value corresponding to the statistical processing result satisfies the threshold and best matches the privacy information 620 from among the plurality of statistical processing results output by the analysis unit 110, and outputs the selected statistical processing result To do.
  • the anonymity value indicates the level of anonymity with respect to the original privacy information 620 in the statistical processing result corresponding to the anonymity value. Note that, as the anonymity value is higher, the statistical processing result corresponding to the anonymity value includes fewer features of the original privacy information 620 and does not match the original privacy information.
  • the feature of the privacy information 620 is information that accurately indicates the attribute information 621 included in the privacy information 620.
  • FIG. 3 is a diagram illustrating a hardware configuration of the anonymization device 100 and its peripheral devices in the present embodiment.
  • the anonymization device 100 includes a CPU (Central Processing Unit) 1070, a storage unit 1071, a storage device 1072, an input unit 1073, an output unit 1074, and a communication unit 1075.
  • the CPU 1070 operates an operating system (not shown) to control the overall operation of the anonymization device 100 according to the present embodiment.
  • the CPU 1070 reads programs and data into the storage unit 1071 from, for example, a non-volatile recording medium (not shown) attached to the storage device 1072.
  • the CPU 1070 executes various processes as the analysis unit 110 and the selection unit 120 illustrated in FIG. 1 according to the read program and based on the read data.
  • the CPU 1070 may download any of the programs and data to the storage unit 1071 from an external computer (not shown) connected to a communication network (not shown).
  • the storage unit 1071 stores any program and data.
  • the storage unit 1071 may store privacy information 620 as shown in FIG. 2 analyzed by the analysis unit 110.
  • the storage device 1072 is, for example, an optical disk, a flexible disk, a magnetic optical disk, an external hard disk, and a semiconductor memory, and includes a nonvolatile storage medium.
  • the storage device 1072 records the program so that it can be read by a computer. Further, the storage device 1072 may record data so as to be computer-readable.
  • the storage device 1072 may store privacy information 620 analyzed by the analysis unit 110.
  • the input unit 1073 is realized by, for example, a mouse, a keyboard, a built-in key button, and the like, and is used for an input operation.
  • the input unit 1073 is not limited to a mouse, a keyboard, and a built-in key button, and may be a touch panel, an accelerometer, a gyro sensor, a camera, or the like.
  • the output unit 1074 is realized by a display, for example, and is used to check the output.
  • the communication unit 1075 communicates with an external device (not shown).
  • the anonymization device 100 may acquire the privacy information 620 analyzed by the analysis unit 110 held by the external device via the communication unit 1075. Further, the anonymization device 100 may receive an operation start instruction from an external device via the communication unit 1075. Further, the anonymization device 100 may output the statistical processing result to an external device via the communication unit 1075.
  • the communication unit 1075 may be included in the analysis unit 110 and the selection unit 120.
  • the above is an explanation of each component of the anonymization device 100 in hardware units.
  • the functional unit block shown in FIG. 1 is realized by the hardware configuration shown in FIG.
  • the means for realizing each unit included in the anonymization device 100 is not limited to the above. That is, the anonymization device 100 may be realized by one physically coupled device, or two or more physically separated devices may be connected by wire or wirelessly, and may be realized by these plural devices. Also good.
  • FIG. 11 is a diagram illustrating an example of a recording medium (storage medium) 1077 that records (stores) a program.
  • the recording medium 1077 is a non-volatile recording medium that stores information non-temporarily.
  • the recording medium 1077 may be a recording medium that temporarily stores information.
  • the recording medium 1077 records a code of a program (software) that causes the anonymization device 100 (CPU 1070) to execute the operations illustrated in FIGS.
  • the recording medium 1077 may further record an arbitrary program and data.
  • the recording medium 1077 in which the program (software) code is recorded is supplied to the anonymization apparatus 100, and the anonymization apparatus 100 (CPU 1070) reads and executes the program code stored in the recording medium.
  • the CPU 1070 may store the code of the program stored in the recording medium 1077 in the storage unit 1071.
  • the present embodiment includes an embodiment of a recording medium that stores a program executed by the anonymization device 100 (CPU 1070) temporarily or non-temporarily.
  • the analysis unit 110 analyzes the privacy information 620 as illustrated in FIG. 2 based on the statistical processing parameter indicating the execution content of the statistical processing, and outputs the statistical processing result.
  • the analysis unit 110 acquires the privacy information 620 stored in the storage device 1072 illustrated in FIG.
  • the analysis unit 110 may acquire the privacy information 620 specified by the operator via the input unit 1073.
  • the analysis unit 110 may acquire the privacy information 620 from an external device (not shown) via the communication unit 1075.
  • the analysis unit 110 determines a statistical processing parameter indicating the execution content of the statistical processing.
  • the analysis unit 110 acquires, for example, a statistical processing parameter given in advance and stored in the storage unit 1071 shown in FIG. 3, and determines it as a statistical processing parameter.
  • the analysis unit 110 may acquire and determine statistical processing parameters designated by the operator via the input unit 1073.
  • the analysis unit 110 may acquire and determine statistical processing parameters from an external device (not shown) via the communication unit 1075. Further, the analysis unit 110 may acquire information for determining a statistical processing parameter instead of the statistical processing parameter itself, and may determine the statistical processing parameter based on the acquired information.
  • the statistical processing is, for example, fitting (applying) a specific function (hereinafter referred to as a model function) to the privacy information 620, or fitting (also referred to as function fitting).
  • the model function is a function given in advance, for example, corresponding to the statistical model in the statistical processing.
  • the model function may be a function that is input from the input unit 1073 illustrated in FIG. 3 by the user who uses the analysis result, for example. That is, the statistical processing result is a model function (hereinafter referred to as a fitting function) fitted using, for example, a fitting technique.
  • the statistical processing result may be a parameter value of the fit function.
  • the fitting is to determine the parameters a and b in the formula 1 so that the model function shown in the formula 1 is best matched with the distribution of the privacy information 620, for example.
  • the fitting function is a model function to which a parameter as a result of fitting is applied. Since function fitting is a technique well known to those skilled in the art, detailed description thereof is omitted.
  • the analysis unit 110 performs an analysis process for fitting a model function to the privacy information 620, generates a fit function as a statistical process result, and outputs the fit function.
  • the model function is a probability density function of the normal distribution.
  • the model function may be any function other than the functions described above.
  • the parameter of the statistical process is, for example, the number of iterations (the number of iterations) in the fitting process.
  • the above is the detailed description of the analysis unit 110.
  • the selection unit 120 will be described in detail. As described above, the selection unit 120 selects and outputs the statistical processing result that the corresponding anonymity value satisfies the threshold and best matches the privacy information 620 among the plurality of statistical processing results output by the analysis unit 110.
  • the anonymity value is, for example, an estimate of the variance of the error from the theoretical value derived from the fit function, that is, the sum of squares of the residuals between the attribute information 621 and the theoretical value corresponding to the attribute information 621, respectively. Value.
  • the selecting unit 120 The anonymity value is calculated as follows.
  • the theoretical values of “x” are “2”, “3”, “4”, “5”, “6” and “7” are “161.7”, “163.0”, “ 164.3 “,” 165.5 “,” 166.8 “and” 168.1 “.
  • the selection unit 120 sets the anonymity value to “ 49.0 ".
  • the selection unit 120 sets the anonymity value to “ 184.6 ".
  • the selection unit 120 sets the anonymity value to “ 406.6 ".
  • the anonymity value may be a chi-square value.
  • the selection unit 120 is a statistic corresponding to the anonymity value “184.6”.
  • the processing result f (x) 0.48x + 167.1 is selected.
  • the threshold value may be stored in the storage device 1072, for example.
  • the anonymity value is, for example, the above-described chi-square value
  • the selection unit 120 selects a statistical processing result as follows.
  • the threshold is assumed to be a chi-square value with a lower probability of 0.01 (1%).
  • the chi-square distribution table 630 is a table showing chi-square values determined from degrees of freedom and probabilities.
  • the chi-square distribution table 630 may be stored in advance in the storage device 1072, for example.
  • the selection unit 120 refers to the chi-square distribution table, detects the anonymity value “1.095” that is equal to or higher than the threshold and is based on the calculated chi-square value and the degree of freedom.
  • F (x) 0.48x + 167.1, which is the statistical processing result corresponding to the anonymity value, is selected. The above is the detailed description of the selection unit 120.
  • the selection unit 120 may calculate the anonymity value based on the information amount of the fit function and the lower probability of the chi-square distribution indicating how much the fit function is included in the data. Specifically, the selection unit 120 obtains a fitting function by substituting parameters obtained as a result of fitting into a model function. Next, the selection unit 120 calculates the probability density P (x) of the distribution by multiplying the fit function by a constant so that the area of the fit function becomes “1”. Next, the selection unit 120 calculates “ ⁇ P (x) logP (x) dx” for the probability density P (x), and uses the calculation result as the information amount.
  • the integration range of “ ⁇ P (x) logP (x) dx” is the domain of the function, or from minus infinity to plus infinity.
  • the selection unit 120 refers to a chi-square distribution table as illustrated in FIG. 4 based on the degree of freedom and the chi-square value, and obtains the lower probability of the chi-square distribution.
  • the selection unit 120 may integrate the chi-square distribution from 0 to a value of chi-square to obtain the lower probability of the chi-square distribution. Then, the selection unit 120 calculates the anonymity value based on the information amount and the lower probability of the chi-square distribution.
  • the selection unit 120 may set a value obtained by multiplying the information amount by the lower probability of the chi-square distribution as the anonymity value.
  • FIG. 5 is a flowchart showing the operation of the present embodiment.
  • the analysis unit 110 acquires privacy information 620 as shown in FIG. 2, for example (S701).
  • the analysis unit 110 acquires, for example, the minimum number of iterations data 641 (number of times 4) and the maximum number of iterations data 642 (number of times 10) as shown in FIG. 6 (S702).
  • FIG. 6 is a diagram illustrating an example of the minimum iteration count data 641 and the maximum iteration count data 642.
  • the minimum iteration count data 641 and the maximum iteration count data 642 may be given in advance and stored in the storage unit 1071, for example.
  • the analysis unit 110 determines a statistical processing parameter (S703). Specifically, when determining the statistical processing parameter for the first time in this process, the analysis unit 110 determines the value “4” of the minimum iteration count data 641 as the statistical processing parameter. When the statistical processing parameter is determined after the second time, the analysis unit 110 sequentially adds 1 to the determined statistical processing parameter. The number to be added is not limited to “1”, and may be an arbitrary number. Next, the analysis unit 110 determines whether or not the statistical processing parameter exceeds the value “10” of the maximum number of iterations data 642 (S704).
  • the analysis unit 110 analyzes the acquired privacy information 620 based on the statistical processing parameter and calculates a statistical processing result (S705). That is, the analysis unit 110 performs fitting for the number of iterations indicated by the statistical processing parameter, and calculates the parameters of the fit function. Note that the analysis unit 110 does not perform the analysis of the privacy information 620 from 1, but the previous statistical process (for example, if the current statistical process parameter is “4”, the statistical process parameter is “3”). It may be executed as a continuation of the statistical processing). Next, the analysis unit 110 outputs the calculated statistical processing result to the selection unit 120 (S706).
  • the selection unit 120 calculates an anonymity value based on the received statistical processing result (S710).
  • the selection unit 120 determines whether or not the calculated anonymity value is greater than or equal to a threshold value (S711). If it is not equal to or greater than the threshold (NO in S711), the process returns to S702. If it is equal to or greater than the threshold (NO in S711), the selection unit 120 determines whether or not it is the first time that a statistical processing result has been received in this processing (S712). If it is the first time (YES in S712), the process ends. Note that the selection unit 120 may output error information indicating that the statistical processing result cannot be disclosed before the processing ends.
  • the selection unit 120 If it is not the first time (NO in S712), the selection unit 120 outputs the received statistical processing result (S713).
  • the analysis unit 110 may execute iteration for the number of times indicated by the maximum number of iterations data 642. Then, the analysis unit 110 may output a statistical processing result including a parameter (hereinafter referred to as an iteration parameter) applied to the model function in the plurality of iterations to the selection unit 120.
  • the selection unit 120 calculates an anonymity value corresponding to each iteration parameter based on the received statistical processing result. And the selection part 120 may output the iteration parameter corresponding to the lowest anonymity value more than a threshold value among those calculated anonymity values as a statistical processing result.
  • the selection unit 120 may output a statistical processing result corresponding to the number of iterations in which the anonymity value is equal to or greater than the threshold and the chi-square value is the smallest.
  • the anonymization device 100 described above operates as follows. First, the analysis unit 110 determines the number of iterations (the number of iterations) in advance, statistically processes the privacy information, and outputs a statistical processing result. 2ndly, the selection part 120 selects the statistical processing result corresponding to the lowest anonymity value more than a threshold value among the anonymity values corresponding to a statistical processing result.
  • the modified example of the anonymization device 100 operates as follows.
  • the analysis unit 110 performs the fitting process without determining the number of iterations in advance. And the analysis part 110 outputs the statistical process result corresponding to the parameter (iteration parameter) applied to the model function for every iteration of fitting process. 2ndly, the selection part 120 calculates the anonymity value corresponding to the statistical processing result output for every iteration, and determines the statistical processing result to output based on the calculated anonymity value.
  • FIG. 7 is a flowchart showing the operation of the modified example of the anonymization device 100 of the present embodiment. First, the analysis unit 110 acquires privacy information 620 as shown in FIG. 2, for example (S801).
  • the analysis unit 110 changes a parameter (iteration parameter) to be applied to the model function in the iteration so that the model function matches the privacy information more (matches / applies), and calculates a statistical processing result (S802). In other words, the analysis unit 110 executes one iteration of the fitting process. It is assumed that the initial value of the iteration parameter is predetermined. For example, the method of changing the iteration parameter may be determined by searching the iteration parameter so that the value of the chi-square is reduced by using the Gauss-Newton method or the steepest descent method. Since the Gauss-Newton method and the steepest descent method are known, the description is omitted.
  • the analysis unit 110 outputs the calculated statistical processing result to the selection unit 120 (S803).
  • the selection unit 120 calculates an anonymity value based on the received statistical processing result (S804).
  • the selection unit 120 determines whether or not the calculated anonymity value is greater than or equal to a threshold value (S805). If the anonymity value is greater than or equal to the threshold (YES in S805), the process proceeds to S808. If the anonymity value is not equal to or greater than the threshold value (NO in S805), the process proceeds to S806. Note that the fact that the anonymity value is not greater than or equal to the threshold indicates that the disclosure of the current statistical processing result (for example, the current iteration parameter) cannot be disclosed due to the unauthorized disclosure of privacy.
  • the selection unit 120 determines whether or not the received statistical processing result is the first statistical processing result in the fitting (execution result of the first iteration) (S806). If it is the first processing result (YES in S805), the processing ends. Note that the selection unit 120 may output an error message before the end of processing. If it is not the first statistical processing result (NO in S806), the selection unit 120 outputs the statistical processing result (the execution result of the previous iteration) (S807). Then, the process ends. The execution result of the previous iteration is determined to be equal to or greater than the threshold value in the determination in S805, and it has been confirmed that unauthorized privacy disclosure does not occur.
  • the selection unit 120 determines whether or not to end the fitting (S808). Specifically, the selection unit 120 determines whether or not an iteration parameter that matches the privacy information can be obtained more for a statistical processing result having an anonymity value equal to or greater than a threshold value. If the fitting is to be ended (YES in S808), the process proceeds to S809. If the fitting is not finished (NO in S808), the process returns to S802. For example, when the difference between the chi-square values in the previous and current iteration execution results is equal to or less than a predetermined value, the selection unit 120 determines to end the fitting.
  • the selection unit 120 further increases the chi 2 It is determined that the power value cannot be reduced. That is, the selection unit 120 determines that it is impossible to perform fitting with higher accuracy, and ends the fitting process. In S809, the selection unit 120 outputs the current statistical processing result (for example, the current iteration parameter) (S809).
  • This statistical processing result is determined to be equal to or greater than the threshold value in the determination in S805, and it has been confirmed that unauthorized disclosure of privacy does not occur.
  • the selection unit 120 may be able to further fit the privacy information. Is determined. The difference between the chi-square values corresponding to the execution results of the previous iteration and the current iteration is larger than the threshold value. This means that the current iteration execution result is more private than the previous iteration execution result. Indicates that it matches the information. Note that the selection unit 120 may output an error of an iteration parameter based on chi-square.
  • the selection unit 120 calculates parameters A ′ and A ′′ that cause the chi-square value to be one greater than the minimum value in the analysis unit 110.
  • a ′ and A ′′ may be disclosed as the error range of A.
  • the selection unit 120 may disclose errors (A′ ⁇ A and A ⁇ A ′′). Further, the selection unit 120 may operate as follows in step S807. The selection unit 120 searches for a more appropriate parameter that exists between the two iteration parameters.
  • the two iteration parameters are the execution results of the previous iteration in which the anonymity value is equal to or greater than the threshold and the current iteration in which the anonymity value is equal to or less than the threshold.
  • a more appropriate parameter is a parameter that matches the privacy information more and has an anonymity value that satisfies the threshold than the iteration parameter of the previous iteration execution result.
  • the selection unit 120 outputs the searched parameters as a high-precision statistical processing result. For example, the selection unit 120 calculates N-1 sets of parameters to be applied to the model function, which divide the previous iteration parameter and the current iteration parameter into N equal parts. Next, the selection unit 120 calculates a corresponding anonymity value and chi-square value for each of these parameters.
  • the selection unit 120 searches for a parameter having an anonymity value that satisfies the threshold value and that has the smallest chi-square value among these calculated parameters.
  • the selection unit 120 may search between the previous iteration parameter and the current iteration parameter by the binary search method. Further, the selection unit 120 may output an analysis result in which the anonymity value satisfies the threshold and the error obtained from the chi-square is small.
  • the selection unit 120 may calculate the anonymity value in each iteration after the fitting process is completed. In this case, the selection unit 120 may record the iteration parameter of each iteration in a means (not shown).
  • the analysis unit 110 may add preprocessing to the privacy information before the fitting processing. For example, the analysis unit 110 may generate a histogram based on privacy information, and may perform a fitting process on the generated histogram. The analysis unit 110 may output a statistical processing result of statistical processing executed with a predetermined standard number of iterations.
  • the selection unit 120 may calculate an anonymity value corresponding to the received statistical processing result, and instruct the analysis unit 110 to increase or decrease the number of iterations based on the result.
  • the first effect of the present embodiment described above is that privacy information statistics in which the tradeoff between anonymity with respect to the original privacy information and the usefulness of the statistical processing result in the result of statistical processing of privacy information is appropriate
  • the processing result can be obtained. This is because the following configuration is included. That is, first, the analysis unit 110 analyzes the privacy information based on the statistical processing parameters and calculates the statistical processing result. Secondly, the selection unit 120 selects and outputs a statistical processing result whose anonymity value satisfies the threshold and best matches the privacy information among the plurality of statistical processing results.
  • the second effect of the present embodiment described above is that the anonymization device 100 can be made more efficient so that the statistical processing result having the anonymity value equal to or higher than the threshold value is selected in one fitting process. It is a point to become. The reason is that the analysis unit 110 outputs a statistical processing result for each iteration, and the selection unit 120 determines whether to end or continue the fitting based on the statistical processing result. is there.
  • the third effect of the present embodiment described above is that a mathematical error based on chi-square can be calculated and disclosed. That is, it is possible to solve the problem of a general anonymization method that a mathematical error cannot be calculated when blurring a value or adding noise.
  • the fourth effect of the present embodiment described above is that it is possible to disclose a statistical processing result that is more consistent with privacy information and whose anonymity value satisfies a threshold value. This is because the selection unit 120 searches for and outputs a more appropriate iteration parameter.
  • the configuration of the present embodiment is the same as the configuration of the anonymization device 100 of the first embodiment shown in FIGS. 1 and 3.
  • This embodiment is different from the first embodiment in that the statistical processing parameters are set to the granularity of the attribute information 621 of the privacy information 620 shown in FIG.
  • the model function is a probability density function of a normal distribution
  • the statistical processing result is an average value and a standard deviation value of the normal distribution.
  • the anonymization apparatus 100 of this embodiment uses the standard deviation as the anonymity value, and the standard deviation of the original attribute information 621 having the finest granularity is equal to or greater than the threshold.
  • the analysis result including the standard deviation is output.
  • the granularity that is the statistical processing parameter is, for example, 1 millimeter, 1 centimeter, 5 centimeter, and 10 centimeter.
  • the particle size may be any value other than the above.
  • the model function is a normal distribution having the probability density function shown in Equation 2.
  • the model function may be a Gaussian function as shown in Equation 3. Parameters to be determined by fitting are a, ⁇ , and ⁇ .
  • the probability density function of the normal distribution shown in Expression 2 is an expression in which the Gaussian function a shown in Expression 3 is an inverse of a value obtained by multiplying the square root of 2 ⁇ by ⁇ .
  • the fit function (statistical processing result) is a probability density function in which, for example, in Equation 2, ⁇ (average) is “164.2” and ⁇ squared (variance) is “7.09”.
  • the statistical processing result is a value of ⁇ (average) and square of ⁇ (variance) of the probability density function, which are parameters of the fit function.
  • the fit function is, for example, a probability density function in Expression 2 in which ⁇ (average) is “164.2” and ⁇ squared (variance) is “7.086”.
  • the anonymity value is a standard deviation ⁇ (for example, “2.662” (the square root of ⁇ squared (variance) “7.09”)).
  • the analysis unit 110 calculates a statistical processing result based on a plurality of statistical processing parameters (granularity) as follows, and outputs the calculated statistical processing result to the selection unit 120.
  • the attribute information 621 of the privacy information 620 shown in FIG. 2 is the individual's height when the granularity is “1 millimeter”.
  • the privacy information 620 shown in FIG. 2 is the original privacy information 620.
  • FIG. 8 is a diagram illustrating an example of the privacy information 622.
  • the attribute information 623 of the privacy information 622 shown in FIG. 8 is obtained by setting the granularity of the attribute information 621 in FIG. 2 to “1 centimeter”.
  • FIG. 9 is a diagram illustrating an example of the privacy information 624.
  • the attribute information 625 of the privacy information 624 shown in FIG. 9 is obtained by setting the granularity of the attribute information 621 in FIG. 2 to “5 centimeters”.
  • FIG. 10 is a diagram illustrating an example of the privacy information 626.
  • the attribute information 627 of the privacy information 626 shown in FIG. 10 is obtained by setting the granularity of the attribute information 621 in FIG. 2 to “10 centimeters”.
  • the analysis unit 110 generates the privacy information 622 shown in FIG. 8, the privacy information 624 shown in FIG. 9, and the privacy information 626 shown in FIG. 10, based on the privacy information 620 shown in FIG. Stored in the storage unit 1071 shown.
  • the analysis unit 110 analyzes the privacy information 620 illustrated in FIG.
  • the analysis unit 110 analyzes the privacy information 622 shown in FIG. 8 and calculates a statistical processing result in which ⁇ is “164.3” and the square of ⁇ is “8.490”. Further, the analysis unit 110 analyzes the privacy information 624 illustrated in FIG. 9 and calculates a statistical processing result in which ⁇ is “164.3” and the square of ⁇ is “17.35”. Further, the analysis unit 110 analyzes the privacy information 626 illustrated in FIG. 10 and calculates a statistical processing result in which ⁇ is “165.7” and the square of ⁇ is “28.57”.
  • the selection unit 120 selects and outputs the statistical processing result whose anonymity value (standard deviation ⁇ ) is equal to or higher than the threshold and based on the received statistical processing results as follows. First, the selection unit 120 calculates the standard deviation ⁇ as “2.91” as the anonymity value of the statistical processing result whose statistical processing parameter is the granularity “1 millimeter”. Similarly, the selection unit 120 sets the standard deviations ⁇ of the particle sizes “1 centimeter”, “5 centimeter”, and “10 centimeter” to “2.914”, “4.165”, and “5.345”, respectively. Is calculated.
  • the selection unit 120 has a standard deviation ⁇ (anonymity) that is closest to the standard deviation of the original attribute information 621 having a standard deviation equal to or greater than the threshold and the finest granularity. Value) “4.165” is detected. Then, the selection unit 120 displays the statistical processing result of which the detected standard deviation ⁇ (anonymity value) corresponds to “4.165”, ⁇ is “164.3”, and the square of ⁇ is “17.35”. Select and output.
  • anonymity
  • the analysis unit 110 analyzes the privacy information based on the statistical processing parameters and calculates the statistical processing result.
  • the selection unit 120 selects and outputs a statistical processing result whose anonymity value satisfies the threshold and best matches the privacy information among the plurality of statistical processing results.
  • the anonymization apparatus 100 performs an iteration when fitting and performs an operation of stopping the iteration so that the anonymity value satisfies the threshold value.
  • the anonymization apparatus 100 may obtain a parameter value that satisfies the threshold value and has the smallest chi-square value by using a non-linear programming method or the like.
  • the anonymization device 100 can use a penalty function method of nonlinear programming to obtain a parameter value that satisfies the condition that the anonymity value satisfies the threshold and the chi-square value is minimized.
  • an expression for obtaining the chi-square may be an objective function, and a function that increases as the anonymity value decreases may be a penalty function.
  • the anonymization apparatus 100 that operates as described above can select the best parameter in a multidimensional parameter space when there are a plurality of parameters to be fitted.
  • each component described in each of the above embodiments does not necessarily have to be individually independent.
  • a plurality of components may be realized as one module, or one component may be realized as a plurality of modules.
  • Each component is configured such that a component is a part of another component, or a part of a component overlaps a part of another component. Also good.
  • each component and a module that realizes each component may be realized by hardware as long as necessary, or may be realized by a computer and a program. It may be realized by mixing hardware modules, computers, and programs.
  • the program is provided by being recorded on a non-volatile computer-readable recording medium such as a magnetic disk or a semiconductor memory, and read by the computer when the computer is started up.
  • the read program causes the computer to function as a component in each of the above-described embodiments by controlling the operation of the computer.
  • a plurality of operations are described in order in the form of a flowchart, but the described order does not limit the order in which the plurality of operations are executed. For this reason, when each embodiment is implemented, the order of the plurality of operations can be changed within a range that does not hinder the contents.
  • a plurality of operations are not limited to being executed at different timings.
  • another operation may occur during the execution of a certain operation, or the execution timing of a certain operation and another operation may partially or entirely overlap.
  • a certain operation is described as a trigger for another operation, but the description does not limit all relationships between the certain operation and the other operations. For this reason, when each embodiment is implemented, the relationship between the plurality of operations can be changed within a range that does not hinder the contents.
  • the specific description of each operation of each component does not limit each operation of each component. For this reason, each specific operation
  • the present invention can be applied to, for example, a statistical processing service based on privacy information.

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

 本発明は、プライバシ情報を統計処理した結果における、元のプライバシ情報に対する匿名性と、その統計処理結果の有用性とのトレードオフが適切である、プライバシ情報の統計処理結果を、得ることができる匿名化装置を提供する。その匿名化装置は、複数の個人の属性情報を含むプライバシ情報を、統計処理することによって解析し、統計処理結果を出力する解析手段と、複数のそれら統計処理結果の内、そのプライバシ情報に対する匿名性の高さを示す匿名性値が閾値を満たし、かつそのプライバシ情報に最も合致するその統計処理結果を選択し、出力する選択手段と、を備える。

Description

匿名化装置、匿名化方法、及びそのためのプログラムを記録した記録媒体
 本発明は、プライバシ情報を開示する匿名化装置、匿名化方法、及びそのためのプログラムに関する。
 プライバシ情報を活用する場合において、一定のプライバシを保護するための関連技術が知られている。
 データ開示装置の一例が特許文献1に記載されている。特許文献1のデータ開示装置は、プライバシ情報を開示する場合の匿名性を計算する。次に、このデータ開示装置は、その計算結果が所望の値に満たない場合、開示するプライバシ情報の粒度を変更して匿名性を増加させる。そして、このデータ開示装置は、その計算結果が所望の値を満たした場合に、そのプライバシ情報を開示する。
特開2007−219636号公報
 しかしながら、上述した技術文献1に記載された技術は、以下の問題点を有する。その問題点は、そのデータ開示装置により開示されたプライバシ情報について統計処理を実施した場合、その統計処理の結果における、元のプライバシ情報に対する匿名性と、その統計処理結果の有用性とのトレードオフが適切でない場合があることである。
 その理由は、以下の通りである。技術文献1に記載された技術は、そのデータ開示装置により、開示可能な匿名性を有するようにプライバシ情報の粒度を変更する。そのように匿名性を確保して開示されたプライバシ情報について統計処理を実行した場合、その統計処理の結果の匿名性は、開示されたプライバシ情報に比べて増加する。匿名性が増加することは、そこから得られる情報量(エントロピー)が増加することである。従って、有用性は、相対的に低下する。
 即ち、技術文献1に記載された技術は、そのデータ開示装置により開示されたプライバシ情報を用いて統計処理を実施した場合、その統計処理結果は、匿名性が過多であり、有用性が不足したものとなる場合がある。
 本発明の目的の一例は、上述した問題点を解決できる匿名化装置、匿名化方法、及びそのためのプログラムを提供することにある。
 本発明の匿名化装置は、複数の個人の属性情報を含むプライバシ情報を、統計処理することによって解析し、統計処理結果を出力する解析手段と、複数の前記統計処理結果の内、前記プライバシ情報に対する匿名性の高さを示す匿名性値が閾値を満たし、かつ前記プライバシ情報に最も合致する前記統計処理結果を選択し、出力する選択手段と、を含む。
 本発明の匿名化方法は、コンピュータが、複数の個人の属性情報を含むプライバシ情報を、統計処理することによって解析し、統計処理結果を出力し、複数の前記統計処理結果の内、前記プライバシ情報に対する匿名性の高さを示す匿名性値が閾値を満たし、かつ前記プライバシ情報に最も合致する前記統計処理結果を選択し、出力する。
 本発明の不揮発性記憶媒体に記録されたプログラムは、コンピュータに、複数の個人の属性情報を含むプライバシ情報を、統計処理することによって解析し、統計処理結果を出力し、複数の前記統計処理結果の内、前記プライバシ情報に対する匿名性の高さを示す匿名性値が閾値を満たし、かつ前記プライバシ情報に最も合致する前記統計処理結果を選択し、出力する、処理を実行させる。
 本発明による効果は、プライバシ情報を統計処理した結果における、元のプライバシ情報に対する匿名性と、その統計処理結果の有用性とのトレードオフが適切である、プライバシ情報の統計処理結果を、得ることができることである。
図1は、第1の実施形態の構成を示すブロック図である。 図2は、第1の実施形態におけるプライバシ情報の一例を示す図である。 図3は、第1の実施形態のハードウェア構成を示すブロック図である。 図4は、第1の実施形態におけるカイ2乗分布表の例を示す図である。 図5は、第1の実施形態における匿名化装置の動作を示すフローチャートである。 図6は、第1の実施形態における最小反復回数データ及び最大反復回数データの例を示す図である。 図7は、第1の実施形態における匿名化装置の変形例の動作を示すフローチャートである。 図8は、第1の実施形態におけるプライバシ情報の一例を示す図である。 図9は、第1の実施形態におけるプライバシ情報の一例を示す図である。 図10は、第1の実施形態におけるプライバシ情報の一例を示す図である。 図11は、プログラムを記録した不揮発性記憶媒体の例を示すブロック図である。
 次に、本発明の実施形態について図面を参照して詳細に説明する。
 [第1の実施の形態]
 図1は、本発明の第1の実施形態の構成を示すブロック図である。
 図1を参照すると、本実施形態に係る匿名化装置100は、解析部110及び選択部120を含む。尚、図1に示す構成要素は、ハードウェア単位の構成要素ではなく、機能単位の構成要素を示している。
 まず、本実施形態に係る匿名化装置100の各構成要素の概要を説明する。
 解析部110は、複数の個人の属性情報を含むプライバシ情報を、統計処理することによって解析し、統計処理結果を出力する。
 図2は、プライバシ情報620の例を示す図である。図2を参照すると、プライバシ情報620は、複数の個人の属性情報621から成る。
 選択部120は、解析部110が出力した複数の統計処理結果の内、その統計処理結果に対応する匿名性値が閾値を満たし、かつプライバシ情報620に最も合致する統計処理結果を選択し、出力する。ここで、匿名性値は、その匿名性値に対応する統計処理結果における、元のプライバシ情報620に対する、匿名性の高さを示す。
 尚、匿名性値が高いほど、その匿名性値に対応する統計処理結果は、元のプライバシ情報620の特徴をより少なく含み、元のプライバシ情報に合致していない。尚、プライバシ情報620の特徴とは、プライバシ情報620に含まれる属性情報621を正確に示す情報のことである。一方、匿名性値が低いほど、その統計処理結果は、元のプライバシ情報620の特徴をより多く含み、元のプライバシ情報により合致している。従って、有用性は、その匿名性が高いほど低下し、その匿名性が低いほど向上する。
 次に、匿名化装置100のハードウェア単位の構成要素について説明する。
 図3は、本実施形態における匿名化装置100とその周辺装置のハードウェア構成を示す図である。図3に示されるように、匿名化装置100は、CPU(Central Processing Unit)1070、記憶部1071、記憶装置1072、入力部1073、出力部1074及び通信部1075を含む。
 CPU1070は、オペレーティングシステム(不図示)を動作させて、本実施形態に係る匿名化装置100の全体の動作を制御する。また、CPU1070は、例えば記憶装置1072に装着された不揮発性の記録媒体(不図示)から、記憶部1071にプログラムやデータを読み込む。そして、CPU1070は、読み込んだプログラムに従って、また読み込んだデータに基づいて、図1に示す解析部110及び選択部120として各種の処理を実行する。
 尚、CPU1070は、通信網(不図示)に接続されている外部コンピュータ(不図示)から、記憶部1071にプログラム及びデータの内の任意のものをダウンロードするようにしてもよい。
 記憶部1071は、プログラム及びデータの内の任意のものを記憶する。記憶部1071は、解析部110が解析する図2に示すようなプライバシ情報620を記憶してもよい。
 記憶装置1072は、例えば、光ディスク、フレキシブルディスク、磁気光ディスク、外付けハードディスク及び半導体メモリであって、不揮発性の記憶媒体を含む。記憶装置1072は、プログラムをコンピュータ読み取り可能に記録する。また、記憶装置1072は、データをコンピュータ読み取り可能に記録してもよい。記憶装置1072は、解析部110が解析するプライバシ情報620を記憶してもよい。
 入力部1073は、例えばマウスやキーボード、内蔵のキーボタンなどで実現され、入力操作に用いられる。入力部1073は、マウスやキーボード、内蔵のキーボタンに限らず、例えばタッチパネル、加速度計、ジャイロセンサ、カメラなどでもよい。
 出力部1074は、例えばディスプレイで実現され、出力を確認するために用いられる。
 通信部1075は、外部装置(不図示)と通信を行う。匿名化装置100は、例えば外部装置が保持する解析部110が解析するプライバシ情報620を、通信部1075を経由して、取得するようにしてもよい。また、匿名化装置100は、通信部1075を経由して、外部装置から動作開始の指示を受けてもよい。また、匿名化装置100は、通信部1075を経由して、統計処理結果を外部装置に出力してもよい。通信部1075は、解析部110及び選択部120に含まれてよい。
 以上が、匿名化装置100のハードウェア単位の各構成要素についての説明である。
 以上説明したように、図1に示す機能単位のブロックは、図3に示すハードウェア構成によって実現される。但し、匿名化装置100が備える各部の実現手段は、上記に限定されない。すなわち、匿名化装置100は、物理的に結合した一つの装置により実現されてもよいし、物理的に分離した2つ以上の装置を有線または無線で接続し、これら複数の装置により実現されてもよい。
 図11は、プログラムを記録(記憶)する、記録媒体(記憶媒体)1077の例を示す図である。記録媒体1077は、情報を非一時的に記憶する不揮発性記録媒体である。尚、記録媒体1077は、情報を一時的に記憶する記録媒体であってもよい。記録媒体1077は、図5及び図6に示す動作を匿名化装置100(CPU1070)に実行させるプログラム(ソフトウェア)のコードを記録する。尚、記録媒体1077は、更に、任意のプログラムやデータを記録してよい。
 また、前述のプログラム(ソフトウェア)のコードを記録した記録媒体1077が匿名化装置100に供給され、匿名化装置100(CPU1070)は、記録媒体に格納されたプログラムのコードを読み込み、実行してもよい。或いは、CPU1070は、記録媒体1077に格納されたプログラムのコードを、記憶部1071に格納するようにしてもよい。すなわち、本実施形態は、匿名化装置100(CPU1070)が実行するプログラムを、一時的にまたは非一時的に、記憶する記録媒体の実施形態を含む。
 次に、解析部110について、詳細に説明する。
 解析部110は、例えば、統計処理の実行内容を示す統計処理パラメータに基づいて、図2に示すようなプライバシ情報620を統計処理することによって解析し、統計処理結果を出力する。
 解析部110は、例えば、図3に示す記憶装置1072に記憶されているプライバシ情報620を取得する。尚、解析部110は、入力部1073を介して操作者が指定したプライバシ情報620を取得するようにしてもよい。また、解析部110は、通信部1075を介して図示しない外部装置からプライバシ情報620を取得するようにしてもよい。
 また、解析部110は、統計処理の実行内容を示す統計処理パラメータを決定する。解析部110は、例えば、予め与えられ、図3に示す記憶部1071に記憶している統計処理パラメータを取得し、それを統計処理パラメータとして決定する。尚、解析部110は、入力部1073を介して操作者が指定した統計処理パラメータを取得し、決定するようにしてもよい。また、解析部110は、通信部1075を介して図示しない外部装置から統計処理パラメータを取得し、決定するようにしてもよい。また、解析部110は、統計処理パラメータそのものではなく、統計処理パラメータを決定するための情報を取得し、取得した情報に基づいて統計処理パラメータを決定するようにしてもよい。
 統計処理は、例えば、プライバシ情報620に特定の関数(以後、モデル関数と呼ぶ)をフィットさせる(当てはめる)、フィッティング(関数フィッティングとも呼ばれる)である。ここで、モデル関数は、その統計処理における統計モデルに対応する、例えば予め与えられた関数である。また、モデル関数は、解析結果を利用する利用者が、例えば図3に示す入力部1073から入力した関数であってもよい。
 即ち、統計処理結果は、例えば、フィッティングの手法を用いて、フィットされたモデル関数(以後、フィット関数と呼ぶ)である。尚、統計処理結果は、フィット関数のパラメータの値であってもよい。
 具体的には、フィティングは、例えば式1に示すようなモデル関数をプライバシ情報620の分布に最もよく合うように、式1のパラメータa、bを決定することである。即ち、フィット関数は、フィッティングの結果のパラメータを適用されたモデル関数である。尚、関数のフィティングは、当業者にとってよく知られた技術であるため、詳細な説明は省略する。
Figure JPOXMLDOC01-appb-M000001
 解析部110は、例えば、プライバシ情報620に、モデル関数をフィッティングさせる解析処理を実行し、統計処理結果としてフィット関数を生成し、出力する。
 例えば、平均を求めるようなモデルの場合、モデル関数yは、y=aである。また、モデルが回帰直線ならば、モデル関数f(x)は、f(x)=ax+bである。また、モデルが正規分布ならば、モデル関数は、その正規分布の確率密度関数である。尚、モデル関数は、上述の関数以外の、任意の関数であってよい。
 具体的には、統計処理結果は、モデル関数が回帰直線を示すf(x)=ax+b(xは属性情報621の順番の値)である場合、以下の通りである。即ち、統計処理結果は、例えば、モデル関数のパラメータであるa及びbそれぞれを「1.28」及び「159.13」とする、f(x)=1.28x+159.13である。
 統計処理のパラメータは、例えば、フィッティング処理におけるイテレーション回数(反復回数)である。
 以上が、解析部110の詳細な説明である。
 次に、選択部120について、詳細に説明する。
 選択部120は、上述したように、解析部110が出力した複数の統計処理結果の内、対応する匿名性値が閾値を満たし、かつプライバシ情報620に最も合致する統計処理結果を選択し、出力する。
 匿名性値は、例えば、フィット関数から導出される理論値からの誤差の、分散の推定値、即ち、属性情報621それぞれと属性情報621それぞれに対応するその理論値との残差の平方和の値である。
 具体的には、統計処理パラメータである反復回数を10回とする、図2に示すプライバシ情報620の統計処理結果が、f(x)=1.28x+159.13であった場合、選択部120は、匿名性値を以下のように算出する。
 「x」が「1」の理論値は、f(1)=1.28×1+159.1=160.4である。同様に、「x」が、「2」、「3」、「4」、「5」、「6」及び「7」それぞれの理論値は、「161.7」、「163.0」、「164.3」、「165.5」、「166.8」及び「168.1」である。
 「x」が「1」の属性情報621と対応するその理論値との残差は、161.1−160.4=0.5である。同様に、「x」が、「2」、「3」、「4」、「5」、「6」及び「7」それぞれの属性情報621と対応するその理論値との残差は、「0.3」、「0.3」、「2.6」、「0.2」、「0.5」及び「0.2」である。
 従って、属性情報621それぞれと対応するその理論値との残差の平方和の値は、「4.6」である。
 即ち、プライバシ情報620の統計処理結果が、f(x)=1.28x+159.13であった場合、選択部120は、匿名性値を「4.6」と算出する。同様に、統計処理パラメータである反復回数を9回とする、プライバシ情報620の統計処理結果が、f(x)=1.68x+155.1であった場合、選択部120は、匿名性値を「49.0」と算出する。同様に、統計処理パラメータである反復回数を8回とする、プライバシ情報620の統計処理結果が、f(x)=0.48x+167.1であった場合、選択部120は、匿名性値を「184.6」と算出する。同様に、統計処理パラメータである反復回数を7回とする、プライバシ情報620の統計処理結果が、f(x)=2.48x+147.1であった場合、選択部120は、匿名性値を「406.6」と算出する。
 また、匿名性値は、カイ2乗値であってもよい。具体的には、選択部120は、例えば、カイ2乗値=((属性情報−対応する理論値)の2乗)÷対応する理論値)により、カイ2乗値を算出する。
 具体的には、図2に示すプライバシ情報620の統計処理結果が、f(x)=1.28x+159.13であった場合、選択部120は、上述の計算式によりカイ2乗値=0.0280を算出する。
 同様に、プライバシ情報620の統計処理結果が、f(x)=1.68x+155.1であった場合、選択部120は、カイ2乗値=0.3073を算出する。同様に、プライバシ情報620の統計処理結果が、f(x)=0.48x+167.1であった場合、選択部120は、カイ2乗値=1.095を算出する。同様に、プライバシ情報620の統計処理結果が、f(x)=2.48x+147.1であった場合、選択部120は、カイ2乗値=2.645を算出する。
 選択部120は、上述のように算出した匿名性値に基づいて、対応する匿名性値が閾値を満たし、かつプライバシ情報620に最も合致する統計処理結果を選択し、選択した統計処理結果を出力部1074に出力する。
 具体的には、匿名性値が、例えば、上述の誤差の分散の推定値である場合、閾値を例えば100とすると、選択部120は、匿名性値が「184.6」に対応する、統計処理結果であるf(x)=0.48x+167.1を選択する。尚、閾値は、例えば、記憶装置1072に記憶されていてよい。
 また、匿名性値が、例えば、上述のカイ2乗値である場合、選択部120は以下のようにして、統計処理結果を選択する。尚、閾値は、カイ2乗分布の下側確率が0.01(1%)の、カイ2乗値であるとする。
 まず、選択部120は、自由度=属性情報数−1により、自由度「6」を算出する。
 図4は、カイ2乗分布表630の例を示す図である。図4に示すように、カイ2乗分布表630は、自由度と確率とから決定されるカイ2乗値を示す表である。尚、カイ2乗分布表630は、例えば、記憶装置1072に予め記憶されていてよい。
 次に、選択部120は、カイ2乗分布表を参照し、算出したカイ2乗値と自由度とに基づいて、閾値以上でかつ最も低い匿名性値「1.095」を検出し、この匿名性値に対応する統計処理結果であるf(x)=0.48x+167.1を選択する。
 以上が、選択部120の詳細な説明である。
 選択部120は、フィット関数の情報量と、そのフィット関数がデータからどれくらいずれているかを示すカイ2乗分布の下側確率とに基づいて、匿名性値を算出してもよい。
 具体的には、選択部120は、フィッティングの結果として求めたパラメータを、モデル関数に代入してフィット関数を取得する。次に、選択部120は、そのフィット関数の面積が「1」になるように、そのフィット関数に定数を掛けて分布の確率密度P(x)を算出する。次に、選択部120は、その確率密度P(x)について、「∫P(x)logP(x)dx」を算出し、この算出結果を情報量とする。ここで、「∫P(x)logP(x)dx」の積分範囲は、関数の定義域、もしくはマイナス無限大からプラス無限大までである。
 また、選択部120は、例えば、自由度とカイ2乗の値に基づいて、図4に示すようなカイ2乗分布表を参照し、カイ2乗分布の下側確率を求める。尚、選択部120は、カイ2乗分布を0からカイ2乗の値まで積分し、カイ2乗分布の下側確率を求めてもよい。
 そして、選択部120は、情報量とカイ2乗分布の下側確率とに基づいて、匿名性値を算出する。例えば、選択部120は、情報量とカイ2乗分布の下側確率とを掛けた値を、匿名性値としてもよい。
 次に本実施形態の動作について、図1~図7を参照して詳細に説明する。
 図5は、本実施形態の動作を示すフローチャートである。
 まず、解析部110は、例えば図2に示すようなプライバシ情報620を取得する(S701)。
 次に、解析部110は、例えば図6に示すような最小反復回数データ641(回数4)と最大反復回数データ642(回数10)とを取得する(S702)。図6は、最小反復回数データ641と最大反復回数データ642との例を示す図である。最小反復回数データ641と最大反復回数データ642とは、例えば、予め与えられ記憶部1071に記憶されていてよい。
 次に、解析部110は、統計処理パラメータを決定する(S703)。具体的には、解析部110は、本処理において1回目に統計処理パラメータを決定する場合、最小反復回数データ641の値「4」を統計処理パラメータとして決定する。解析部110は、2回目以後に統計処理パラメータを決定する場合、決定済みの統計処理パラメータに順次1ずつ加算する。尚、加算する数は「1」に限らず、任意の数であってよい。
 次に、解析部110は、統計処理パラメータが最大反復回数データ642の値「10」を超えたか否かを判定する(S704)。超えている場合(S704でYES)、処理は終了する。
 超えていない場合(S704でNO)、解析部110は、その統計処理パラメータに基づいて、取得したプライバシ情報620を解析し、統計処理結果を算出する(S705)。即ち、解析部110は、統計処理パラメータが示す反復回数分のフィッティングを実行し、フィット関数のパラメータを算出する。尚、解析部110は、プライバシ情報620の解析を1から実行するのではなく、前回の統計処理(例えば、現在の統計処理パラメータが「4」である場合、統計処理パラメータが「3」であった時の統計処理)の続きとして実行するようにしてよい。
 次に、解析部110は、算出した統計処理結果を選択部120に出力する(S706)。
 次に、選択部120は、受け取った統計処理結果に基づいて、匿名性値を算出する(S710)。
 次に、選択部120は、算出した匿名性値が閾値以上であるか否かを判定する(S711)。閾値以上でない場合(S711でNO)、処理はS702へ戻る。
 閾値以上である場合(S711でNO)、選択部120は、本処理において統計処理結果を受け取ったのが1回目であるか否かを判定する(S712)。
 1回目である場合(S712でYES)、処理は終了する。尚、選択部120は、処理を終了する前に、統計処理結果の開示不可を示す、エラー情報を出力するようにしてもよい。
 1回目でない場合(S712でNO)、選択部120は、受け取った統計処理結果を出力する(S713)。
 尚、解析部110は、最大反復回数データ642で示される回数分のイテレーションを実行するようにしてよい。そして、解析部110は、それらの複数のイテレーションにおいてモデル関数に適用したパラメータ(以後、イテレーションパラメータと呼ぶ)を含む統計処理結果を、選択部120に出力するようにしてよい。この場合、選択部120は、受け取った統計処理結果に基づいて、それぞれのイテレーションパラメータに対応する匿名性値を算出する。そして、選択部120は、それらの算出した匿名性値の内の、閾値以上でかつ最も低い匿名性値に対応するイテレーションパラメータを統計処理結果として出力するようにしてもよい。
 また、選択部120は、匿名性値が閾値以上であり、かつカイ2乗の値が最も小さい反復回数に対応する、統計処理結果を出力するようにしてもよい。
 次に、匿名化装置100の変形例の動作について説明する。
 上述した匿名化装置100は、以下のように動作する。第1に、解析部110が、イテレーションの回数(反復回数)を予め決定して、プライバシ情報を統計処理し、統計処理結果を出力する。第2に、選択部120が、統計処理結果に対応する匿名性値の内の、閾値以上でかつ最も低い匿名性値に対応する統計処理結果を選択する。
 一方、匿名化装置100の変形例は、以下のように動作する。第1に、解析部110は、イテレーションの回数を予め決定することなくフィッティング処理を実行する。そして、解析部110は、フィッティング処理のイテレーション毎にモデル関数に適用したパラメータ(イテレーションパラメータ)に対応する統計処理結果を出力する。第2に、選択部120は、そのイテレーション毎に出力される統計処理結果に対応する匿名性値を算出し、その算出した匿名性値に基づいて、出力する統計処理結果を決定する。
 図7は、本実施形態の匿名化装置100の変形例の動作を示すフローチャートである。
 まず、解析部110は、例えば図2に示すようなプライバシ情報620を取得する(S801)。
 解析部110は、イテレーションにおいてモデル関数に適用するパラメータ(イテレーションパラメータ)を、モデル関数がよりプライバシ情報に合う(合致する/当てはまる)ように変更し、統計処理結果を算出する(S802)。即ち、解析部110は、フィッティング処理のうちの、1回のイテレーションを実行する。尚、イテレーションパラメータの初期値は予め定められているものとする。
 例えば、イテレーションパラメータの変更の仕方は、ガウス・ニュートン法や、最急降下法を用いて、カイ2乗の値が小さくなるように、イテレーションパラメータを探索することによって、決定してもよい。ガウス・ニュートン法や、最急降下法は公知であるため、説明は省略する。
 次に、解析部110は、算出した統計処理結果を選択部120に出力する(S803)。
 次に、選択部120は、受け取った統計処理結果に基づいて、匿名性値を算出する(S804)。
 次に、選択部120は、算出した匿名性値が閾値以上であるか否かを判定する(S805)。匿名性値が閾値以上である場合(S805でYES)、処理はS808へ進む。
 匿名性値が閾値以上でない場合(S805でNO)、処理は、S806へ進む。尚、匿名性値が閾値以上でないということは、今回の統計処理結果(例えば、今回のイテレーションパラメータ)の公開は、不正なプライバシの公開にあたり、開示できないことを示す。
 S806において、選択部120は、受け取った統計処理結果がそのフィッティングにおける最初の統計処理結果(1回目のイテレーションの実行結果)であるか否かを判定する(S806)。最初の処理結果である場合(S805でYES)、処理は終了する。尚、選択部120は、処理の終了の前にエラーメッセージを出力するようにしてもよい。
 最初の統計処理結果でない場合(S806でNO)、選択部120は、統計処理結果(1つ前のイテレーションの実行結果)を出力する(S807)。そして、処理は終了する。1つ前のイテレーションの実行結果は、それに対するS805の判定において閾値以上と判定されており、不正なプライバシの公開が起こらないことが確認されている。
 S808において、選択部120は、フィッティングを終了するか否かを判定する(S808)。具体的には、選択部120は、匿名性値が閾値以上である統計処理結果に対して、よりプライバシ情報に合致するイテレーションパラメータを求めることができるか否かを、判定する。
 フィッティングを終了する場合(S808でYES)、処理はS809へ進む。フィッティングを終了しない場合(S808でNO)、処理はS802へ戻る。
 例えば、前回及び今回のイテレーションの実行結果それぞれにおけるカイ2乗の値の差が予め定められた値以下の場合、選択部120は、フィッティングを終了すると判定する。なぜならば、前回及び今回のイテレーションとの実行結果それぞれに対応するカイ2乗の値の差が予め定められた値以下であることは、即ち、これ以上プライバシ情報に効果的に合致するようには、モデル関数をフィッティングできないことを意味するからである。つまり、イテレーションパラメータをよりプライバシ情報に合致するように変更する前及び変更した後それぞれにおいて算出したカイ2乗の値の差が予め決めた閾値よりも小さい場合、選択部120は、これ以上カイ2乗の値を減らすことができないと判断する。すなわち、選択部120は、これ以上精度よくフィッティングを行うことは不可能と判断し、フィッティング処理を終了する。
 S809において、選択部120は、今回の統計処理結果(例えば、今回のイテレーションパラメータ)を出力する(S809)。この統計処理結果は、S805の判定において閾値以上と判定されており、不正なプライバシの公開が起こらないことが確認されている。
 尚、S808において、前回及び今回のイテレーションとの実行結果それぞれに対応するカイ2乗の値の差が閾値より大きい場合、選択部120は、更にプライバシ情報に合致するようにフィッティングできる可能性があると判定する。前回及び今回のイテレーションとの実行結果それぞれに対応するカイ2乗の値の差が、閾値より大きいということは、前回のイテレーションの実行結果よりも、今回のイテレーションの実行結果の方が、よりプライバシ情報に合致することを示す。
 尚、選択部120は、カイ2乗に基づいたイテレーションパラメータの誤差を出力してもよい。例えば、上記の動作によって選択した、イテレーションパラメータをAとすると、選択部120は、カイ2乗の値が最小値よりも1大きくなるようなパラメータA’とA’’とを解析部110に算出させ、A’とA’’とをAの誤差範囲として開示してもよい。このとき、A’>A>A’’である。また、選択部120は、誤差(A’−A、及び、A−A’’)を開示してもよい。
 また、選択部120は、ステップS807において、以下のように動作してもよい。
 選択部120は、2つのイテレーションパラメータの間に存在する、より適切なパラメータを探索する。ここで、2つのイテレーションパラメータは、匿名性値が閾値以上である前回のイテレーション及び匿名性値が閾値以下である今回のイテレーションそれぞれの実行結果である。また、より適切なパラメータとは、前回のイテレーションの実行結果のイテレーションパラメータに比べて、よりプライバシ情報に合致し、かつ匿名性値が閾値を満たすパラメータである。
 次に、選択部120は、探索したパラメータを、高精度統計処理結果として出力する。
 例えば、選択部120は、前回のイテレーションパラメータと今回のイテレーションパラメータとの間をN等分する、モデル関数に適用するN−1組のパラメータを算出する。次に、選択部120は、それらのパラメータそれぞれについて、対応する匿名性値とカイ2乗の値を計算する。
 次に、選択部120は、それらのN−1組のパラメータの内、匿名性値が閾値を満たし、かつ、カイ2乗の値が最も小さいパラメータを、解析結果として出力する。
 例えば、「y=−a*x^2+100」をモデル関数として、「a=100.5」の場合に匿名性値が閾値を満たし、「a=100.1」の場合に匿名性値が閾値を満たさないとする。この場合、選択部120は、「a=100.5」及び「100.1」の間を4等分する、「a=100.4」、「100.3」及び「100.2」を、モデル関数に適用するパラメータとして算出する。そして、選択部120は、これらの算出したパラメータの内、匿名性値が閾値を満たし、かつ、カイ2乗の値が最も小さいパラメータを探索する。
 尚、選択部120は、前回のイテレーションパラメータと、今回のイテレーションパラメータとの間を、二分探索法によって探索してもよい。
 また、選択部120は、匿名性値が閾値を満たし、かつ、カイ2乗から求めた誤差が小さい解析結果を出力してもよい。
 尚、選択部120は、フィッティング処理が完了した後に、各イテレーションにおける匿名性値を算出するようにしてもよい。この場合、選択部120は、各回のイテレーションのイテレーションパラメータを図示しない手段に記録するようにしてもよい。そして、選択部120は、各イテレーションのうち、対応する匿名性値が閾値を満たし、かつ上述の誤差が最も小さいイテレーションを特定する。次に、選択部120は、特定したイテレーションに対応するイテレーションパラメータを統計処理結果として出力する。
 以上が、本実施形態の変形例の動作の説明である。
 尚、解析部110は、フィッティング処理の前に、プライバシ情報に対して前処理を加えてもよい。例えば、解析部110は、プライバシ情報に基づいてヒストグラムを生成し、生成したヒストグラムに対してフィッティング処理を実行してもよい。
 また、解析部110は、予め定められた標準的な反復回数で実行した統計処理の統計処理結果を出力するようにしてもよい。この場合、選択部120は、受け取った統計処理結果に対応する匿名性値を算出し、その結果に基づいて反復回数の増減分を解析部110に指示するようにしてもよい。
 上述した本実施形態における第1の効果は、プライバシ情報を統計処理した結果における、元のプライバシ情報に対する匿名性と、その統計処理結果の有用性とのトレードオフが適切である、プライバシ情報の統計処理結果を、得ることが可能になる点である。
 その理由は、以下のような構成を含むからである。即ち、第1に解析部110が統計処理パラメータに基づいて、プライバシ情報を解析して統計処理結果を算出する。第2に、選択部120が、複数の統計処理結果の内、匿名性値が閾値を満たし、かつプライバシ情報に最も合致する統計処理結果を選択し、出力する。
 上述した本実施形態における第2の効果は、1回のフィッティング処理で、匿名性値が閾値以上でかつ最も低い統計処理結果を選択するように匿名化装置100の動作を効率化することが可能になる点である。
 その理由は、解析部110が1回のイテレーション毎に統計処理結果を出力し、選択部120が、その統計処理結果に基づいて、フィッティングを終了するか継続するかを判定するようにしたからである。
 上述した本実施形態における第3の効果は、カイ2乗に基づいた、数学的な誤差を算出し、開示することが可能になる点である。即ち、値をぼかしたりノイズを加えたりする場合、数学的な誤差を算出することはできないという、一般的な匿名化手法の問題点を解決できる点である。
 その理由は、解析部110がカイ2乗の値に対応するイテレーションパラメータを算出し、選択部120がそれらのイテレーションパラメータの差を誤差として出力するようにしたからである。
 上述した本実施形態における第4の効果は、よりプライバシ情報に合致し、かつ、匿名性値が閾値を満たす統計処理結果を開示することが可能になる点である。
 その理由は、選択部120が、より適切なイテレーションパラメータを探索し、出力するようにしたからである。
 [第2の実施の形態]
 次に、本発明の第2の実施形態について図面を参照して詳細に説明する。以下、本実施形態の説明が不明確にならない範囲で、前述の説明と重複する内容については説明を省略する。
 本実施形態の構成は、図1及び図3に示す第1の実施形態の匿名化装置100の構成と同じである。
 本実施形態は、統計処理パラメータを図2に示すプライバシ情報620の属性情報621の粒度とする点が第1の実施形態と異なる。また、本実施形態において、モデル関数は正規分布の確率密度関数であり、統計処理結果は正規分布の平均の値及び標準偏差の値である。更に、本実施形態において、本実施形態の匿名化装置100は、標準偏差を匿名性値として、その標準偏差が閾値以上で、かつ粒度が最も密である元の属性情報621の標準偏差に最も近い、その標準偏差を含む解析結果を出力する。
 具体的には、統計処理パラメータである粒度は、属性情報621が個人の身長である場合、例えば、1ミリメートル、1センチメートル、5センチメートル及び10センチメートルである。尚、粒度は、上記以外の任意の値であってよい。
 また、モデル関数は、式2に示す確率密度関数を持つ正規分布である。
Figure JPOXMLDOC01-appb-M000002
 尚、モデル関数は、式3に示すようなガウス関数でもよい。フィッティングによって、決定するパラメータはa、μ、σである。ここで、式2に示す正規分布の確率密度関数は、式3に示すガウス関数のaを、2πの平方根とσとを乗じた値の逆数とした式である。
Figure JPOXMLDOC01-appb-M000003
 フィット関数(統計処理結果)は、例えば式2において、μ(平均)を「164.2」、σの2乗(分散)を「7.09」とする確率密度関数である。
 また、統計処理結果は、フィット関数のパラメータである、その確率密度関数のμ(平均)とσの2乗(分散)との値である。そして、フィット関数は、例えば式2において、μ(平均)を「164.2」、σの2乗(分散)を「7.086」とする確率密度関数である。
 また、匿名性値は、標準偏差σ(例えば、「2.662」(σの2乗(分散)「7.09」の平方根)である。
 解析部110は、例えば、以下のように、複数の統計処理パラメータ(粒度)に基づいて統計処理結果を算出し、算出した統計処理結果を選択部120へ出力する。
 図2に示すプライバシ情報620の属性情報621は、粒度が「1ミリメートル」の場合の個人の身長である。この、図2に示すプライバシ情報620が、元のプライバシ情報620である。
 図8は、プライバシ情報622の例を示す図である。図8に示すプライバシ情報622の属性情報623は、図2の属性情報621の粒度を「1センチメートル」にしたものである。
 図9は、プライバシ情報624の例を示す図である。図9に示すプライバシ情報624の属性情報625は、図2の属性情報621の粒度を「5センチメートル」にしたものである。
 図10は、プライバシ情報626の例を示す図である。図10に示すプライバシ情報626の属性情報627は、図2の属性情報621の粒度を「10センチメートル」にしたものである。
 まず、解析部110は、図2に示すプライバシ情報620に基づいて、図8に示すプライバシ情報622、図9に示すプライバシ情報624及び図10に示すプライバシ情報626を生成し、例えば、図3に示す記憶部1071に格納する。
 次に、解析部110は、図2に示すプライバシ情報620を解析し、μが「164.2」及びσの2乗が「7.086」である統計処理結果を算出する。
 また、解析部110は、図8に示すプライバシ情報622を解析し、μが「164.3」及びσの2乗が「8.490」である統計処理結果を算出する。
 また、解析部110は、図9に示すプライバシ情報624を解析し、μが「164.3」及びσの2乗が「17.35」である統計処理結果を算出する。
 また、解析部110は、図10に示すプライバシ情報626を解析し、μが「165.7」及びσの2乗が「28.57」である統計処理結果を算出する。
 選択部120は、例えば、以下のように、受け取った複数の統計処理結果に基づいて、匿名性値(標準偏差σ)が閾値以上でかつ最も低い統計処理結果を選択し、出力する。
 まず、選択部120は、統計処理パラメータである粒度が「1ミリメートル」の統計処理結果の匿名性値として、標準偏差σを「2.91」と算出する。
 同様に、選択部120は、粒度が「1センチメートル」、「5センチメートル」及び「10センチメートル」それぞれの標準偏差σを、「2.914」、「4.165」及び「5.345」を算出する。
 次に、選択部120は、例えば匿名性値の閾値を3とすると、標準偏差が閾値以上で、粒度が最も密である元の属性情報621の標準偏差に最も近い、標準偏差σ(匿名性値)の「4.165」を検出する。そして、選択部120は、検出した標準偏差σ(匿名性値)が「4.165」に対応する、μが「164.3」及びσの2乗が「17.35」の統計処理結果を選択し、出力する。
 上述した本実施形態における効果は、プライバシ情報を統計処理した結果における、元のプライバシ情報に対する匿名性と、その統計処理結果の有用性とのトレードオフが適切である、プライバシ情報の統計処理結果を、得ることが可能になる点である。
 その理由は、以下のような構成を含むからである。即ち、第1に解析部110が統計処理パラメータに基づいて、プライバシ情報を解析して統計処理結果を算出する。第2に、選択部120が、複数の統計処理結果の内、匿名性値が閾値を満たし、かつプライバシ情報に最も合致する統計処理結果を選択し、出力する。
 以上説明した実施形態において、図5及び図7に示すように、匿名化装置100は、フィッティングをする際にイテレーションを行って、匿名性値が閾値を満たすようにイテレーションを停止する動作をした。例えば、匿名化装置100は、非線形計画法などを用いて、匿名性値が閾値を満たし、かつ、カイ二乗の値が最小となるパラメータの値を求めてもよい。例えば、匿名化装置100は、非線形計画法のペナルティ関数法を用いて、その匿名性値が閾値を満たし、かつ、カイ二乗の値が最小となるという条件を満たすパラメータの値を求めることができる。この場合、カイ二乗を求める式を目的関数、匿名性値が減ると値が増加する関数をペナルティ関数としてよい。
 上述のように動作する匿名化装置100は、フィッティングを行うパラメータが複数ある場合に、多次元のパラメータ空間内で最良のパラメータを選択することができる。従って、匿名化装置100は、出力する解析結果の精度を向上することができる。
 以上の各実施形態で説明した各構成要素は、必ずしも個々に独立した存在である必要はない。例えば、各構成要素は、複数の構成要素が1個のモジュールとして実現されたり、1つの構成要素が複数のモジュールで実現されたりしてもよい。また、各構成要素は、ある構成要素が他の構成要素の一部であったり、ある構成要素の一部と他の構成要素の一部とが重複していたり、といったような構成であってもよい。
 以上説明した各実施形態における各構成要素及び各構成要素を実現するモジュールは、必要に応じ可能であれば、ハードウェア的に実現されても良いし、コンピュータ及びプログラムで実現されても良いし、ハードウェア的なモジュールとコンピュータ及びプログラムとの混在により実現されても良い。プログラムは、磁気ディスクや半導体メモリなど、不揮発性のコンピュータ可読記録媒体に記録されて提供され、コンピュータの立ち上げ時などにコンピュータに読み取られる。この読み取られたプログラムは、そのコンピュータの動作を制御することにより、そのコンピュータを前述した各実施形態における構成要素として機能させる。
 また、以上説明した各実施形態では、複数の動作をフローチャートの形式で順番に記載してあるが、その記載の順番は複数の動作を実行する順番を限定するものではない。このため、各実施形態を実施するときには、その複数の動作の順番は内容的に支障しない範囲で変更することができる。
 更に、以上説明した各実施形態では、複数の動作は個々に相違するタイミングで実行されることに限定されない。例えば、ある動作の実行中に他の動作が発生したり、ある動作と他の動作との実行タイミングが部分的に乃至全部において重複していたりしていてもよい。
 更に、以上説明した各実施形態では、ある動作が他の動作の契機になるように記載しているが、その記載はある動作と他の動作の全ての関係を限定するものではない。このため、各実施形態を実施するときには、その複数の動作の関係は内容的に支障のない範囲で変更することができる。また各構成要素の各動作の具体的な記載は、各構成要素の各動作を限定するものではない。このため、各構成要素の具体的な各動作は、各実施形態を実施する上で機能的、性能的、その他の特性に対して支障をきたさない範囲内で変更されて良い。
 以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 この出願は、2011年8月25日に出願された日本出願特願2011−183609を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 本発明は、例えば、プライバシ情報に基づく統計処理サービスに適用できる。
 100 匿名化装置
 110 解析部
 120 選択部
 620 プライバシ情報
 621 属性情報
 622 プライバシ情報
 623 属性情報
 624 プライバシ情報
 625 属性情報
 626 プライバシ情報
 627 属性情報
 630 カイ2乗分布表
 641 最小反復回数データ
 642 最大反復回数データ
 1070 CPU
 1071 記憶部
 1072 記憶装置
 1073 入力部
 1074 出力部
 1075 通信部
 1077 記録媒体

Claims (18)

  1.  複数の個人の属性情報を含むプライバシ情報を、統計処理することによって解析し、統計処理結果を出力する解析手段と、
     複数の前記統計処理結果の内、前記プライバシ情報に対する匿名性の高さを示す匿名性値が閾値を満たし、かつ前記プライバシ情報に最も合致する前記統計処理結果を選択し、出力する選択手段と、を含む
     匿名化装置。
  2.  前記統計処理は、前記プライバシ情報へのモデル関数のフィッティングであり、
     前記統計処理結果は、前記フィッティングにより決定された、モデル関数に適用するパラメータの値を少なくとも含む
     ことを特徴とする請求項1記載の匿名化装置。
  3.  前記解析処理は、前記フィッティングのイテレーション毎に前記パラメータの値を出力し、
     前記選択手段は、前記パラメータの値に基づいて、前記解析手段に前記フィッティングを継続させるか否かを判定する
     ことを特徴とする請求項2記載の匿名化装置。
  4.  前記選択手段は、前記統計処理結果に基づいて、いずれの前記統計処理結果よりもプライバシ情報により合致し、かつ前記匿名性値が前記閾値を満たす高精度統計処理結果を生成し、出力する
     ことを特徴とする請求項2または3のいずれかに記載の匿名化装置。
  5.  前記解析手段は、前記フィッティングにおける前記イテレーションの回数を含む統計処理パラメータに基づいて、統計処理する
     ことを特徴とする請求項2乃至4のいずれかに記載の匿名化装置。
  6.  前記解析手段は、前記属性情報の粒度を含む統計処理パラメータに基づいて、統計処理する
     ことを特徴とする請求項2乃至5のいずれかに記載の匿名化装置。
  7.  前記匿名性値は、前記統計処理結果に対応するカイ2乗値である
     ことを特徴とする請求項2乃至6のいずれかに記載の匿名化装置。
  8.  前記選択手段は、前記統計処理結果に対応する情報量とカイ2乗値とに基づいて、前記匿名性値を算出する
     ことを特徴とする請求項2乃至7のいずれかに記載の匿名化装置。
  9.  前記匿名性値は、前記統計処理結果に対応する、前記属性情報と前記属性情報それぞれに対応する理論値との残差の平方和である、
     ことを特徴とする請求項2乃至8のいずれかに記載の匿名化装置。
  10.  前記モデル関数は、正規分布の確率密度関数またはガウス関数であり、
     前記統計処理結果は、前記正規分布の確率密度関数またはガウス関数における平均の値と標準偏差との値であり、
     前記選択手段は、前記標準偏差を前記匿名性値として、前記標準偏差が閾値以上で、前記粒度が最も密である元の前記属性情報の前記標準偏差に、最も近い前記標準偏差を含む前記統計処理結果を出力する
     ことを特徴とする請求項6記載の匿名化装置。
  11.  コンピュータが、複数の個人の属性情報を含むプライバシ情報を、統計処理することによって解析し、統計処理結果を出力し、
     複数の前記統計処理結果の内、前記プライバシ情報に対する匿名性の高さを示す匿名性値が閾値を満たし、かつ前記プライバシ情報に最も合致する前記統計処理結果を選択し、出力する
     匿名化方法。
  12.  前記統計処理は、前記プライバシ情報へのモデル関数のフィッティングであり、
     前記統計処理結果は、前記フィッティングにより決定された、モデル関数に適用するパラメータの値を少なくとも含む
     ことを特徴とする請求項11記載の匿名化方法。
  13.  コンピュータが、
     前記フィッティングのイテレーション毎に前記パラメータの値を出力し、
     前記パラメータの値に基づいて、前記解析手段に前記フィッティングを継続させるか否かを判定する
     ことを特徴とする請求項12記載の匿名化方法。
  14.  コンピュータが、
     前記統計処理結果に基づいて、いずれの前記統計処理結果よりもプライバシ情報により合致し、かつ前記匿名性値が前記閾値を満たす高精度統計処理結果を生成し、出力する
     ことを特徴とする請求項12または13のいずれかに記載の匿名化方法。
  15.  コンピュータに、複数の個人の属性情報を含むプライバシ情報を、統計処理することによって解析し、統計処理結果を出力し、
     複数の前記統計処理結果の内、前記プライバシ情報に対する匿名性の高さを示す匿名性値が閾値を満たし、かつ前記プライバシ情報に最も合致する前記統計処理結果を選択し、出力する、処理を実行させる
     プログラムを記録した不揮発性媒体。
  16.  前記統計処理は、前記プライバシ情報へのモデル関数のフィッティングであり、
     前記統計処理結果は、前記フィッティングにより決定された、モデル関数に適用するパラメータの値を少なくとも含む
     ことを特徴とする請求項15記載のプログラムを記録した不揮発性媒体。
  17.  コンピュータに、
     前記フィッティングのイテレーション毎に前記パラメータの値を出力し、
     前記パラメータの値に基づいて、前記解析手段に前記フィッティングを継続させるか否かを判定する、処理を実行させる
     ことを特徴とする請求項16記載のプログラムを記録した不揮発性媒体。
  18.  コンピュータに、
     前記統計処理結果に基づいて、いずれの前記統計処理結果よりもプライバシ情報により合致し、かつ前記匿名性値が前記閾値を満たす高精度統計処理結果を生成し、出力する、処理を実行させる
     ことを特徴とする請求項16または17のいずれかに記載のプログラムを記録した不揮発性媒体。
PCT/JP2012/071247 2011-08-25 2012-08-16 匿名化装置、匿名化方法、及びそのためのプログラムを記録した記録媒体 WO2013027782A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2011-183609 2011-08-25
JP2011183609 2011-08-25

Publications (1)

Publication Number Publication Date
WO2013027782A1 true WO2013027782A1 (ja) 2013-02-28

Family

ID=47746520

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2012/071247 WO2013027782A1 (ja) 2011-08-25 2012-08-16 匿名化装置、匿名化方法、及びそのためのプログラムを記録した記録媒体

Country Status (1)

Country Link
WO (1) WO2013027782A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015130022A (ja) * 2014-01-07 2015-07-16 Kddi株式会社 匿名化パラメータ選択装置、方法及びプログラム
WO2018168103A1 (ja) * 2017-03-17 2018-09-20 新日鉄住金ソリューションズ株式会社 情報処理装置、情報処理方法及び記録媒体
JP2021064032A (ja) * 2019-10-10 2021-04-22 富士通株式会社 評価方法、評価プログラムおよび情報処理装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004287846A (ja) * 2003-03-20 2004-10-14 Ntt Data Corp 個人特定防止装置、個人特定防止方法、および、プログラム
JP2007219636A (ja) * 2006-02-14 2007-08-30 Nippon Telegr & Teleph Corp <Ntt> データ開示方法およびデータ開示装置
JP2008217425A (ja) * 2007-03-05 2008-09-18 Hitachi Ltd 情報出力装置、情報出力方法、及び、情報出力プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004287846A (ja) * 2003-03-20 2004-10-14 Ntt Data Corp 個人特定防止装置、個人特定防止方法、および、プログラム
JP2007219636A (ja) * 2006-02-14 2007-08-30 Nippon Telegr & Teleph Corp <Ntt> データ開示方法およびデータ開示装置
JP2008217425A (ja) * 2007-03-05 2008-09-18 Hitachi Ltd 情報出力装置、情報出力方法、及び、情報出力プログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015130022A (ja) * 2014-01-07 2015-07-16 Kddi株式会社 匿名化パラメータ選択装置、方法及びプログラム
WO2018168103A1 (ja) * 2017-03-17 2018-09-20 新日鉄住金ソリューションズ株式会社 情報処理装置、情報処理方法及び記録媒体
JP2018156427A (ja) * 2017-03-17 2018-10-04 新日鉄住金ソリューションズ株式会社 情報処理装置、情報処理方法及びプログラム
US11620406B2 (en) 2017-03-17 2023-04-04 Ns Solutions Corporation Information processing device, information processing method, and recording medium
JP2021064032A (ja) * 2019-10-10 2021-04-22 富士通株式会社 評価方法、評価プログラムおよび情報処理装置
JP7255444B2 (ja) 2019-10-10 2023-04-11 富士通株式会社 評価方法、評価プログラムおよび情報処理装置

Similar Documents

Publication Publication Date Title
US9454454B2 (en) Memory leak analysis by usage trends correlation
US9189152B2 (en) Touch device and method for dynamically setting touch inactive area, and non-transitory recording medium
US8671397B2 (en) Selective data flow analysis of bounded regions of computer software applications
US20150040219A1 (en) User evaluation
US10963297B2 (en) Computational resource management device, computational resource management method, and computer-readable recording medium
US9389852B2 (en) Technique for plagiarism detection in program source code files based on design pattern
US20140195794A1 (en) Electronic device with baseboard management controller updating system
US9600795B2 (en) Measuring process model performance and enforcing process performance policy
US10509641B2 (en) Optimizing feature deployment based on usage pattern
JP6891611B2 (ja) 管理装置、情報処理システムの制御方法、および管理装置の管理プログラム
US11995077B2 (en) Parameter optimization apparatus, method, and system
US20140208437A1 (en) Anonymization device, anonymization method and recording medium recording program therefor
WO2013027782A1 (ja) 匿名化装置、匿名化方法、及びそのためのプログラムを記録した記録媒体
US11086679B2 (en) Determine whether to accelerate a process of a program based on characteristic values associated with strongly connected graphs
JP2017146888A (ja) 設計支援装置及び方法及びプログラム
US20180210762A1 (en) Apparatus, method, and program medium for parallel-processing parameter determination
CN111191795B (zh) 一种训练机器学习模型的方法、装置及系统
JP2007080049A (ja) 組み込み用プログラム生成方法、組み込み用プログラム開発システム、及び情報テーブル部
JP6831307B2 (ja) 解算出装置、解算出方法及び解算出プログラム
US20130254894A1 (en) Information processing device, non-transitory computer readable medium, and information processing method
JP7259436B2 (ja) 情報処理装置、情報処理方法、情報処理プログラム、及び情報処理システム
US20080256395A1 (en) Determining and analyzing a root cause incident in a business solution
WO2013027780A1 (ja) 匿名化装置、匿名化方法、及びそのためのプログラムを記録した記録媒体
US20230161683A1 (en) Method and apparatus for detecting outliers in a set of runs of software applications
JP6355554B2 (ja) 設定データ記憶装置、方法及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12825233

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 12825233

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP