WO2013190810A1 - 情報処理装置、及び、情報匿名化方法 - Google Patents

情報処理装置、及び、情報匿名化方法 Download PDF

Info

Publication number
WO2013190810A1
WO2013190810A1 PCT/JP2013/003726 JP2013003726W WO2013190810A1 WO 2013190810 A1 WO2013190810 A1 WO 2013190810A1 JP 2013003726 W JP2013003726 W JP 2013003726W WO 2013190810 A1 WO2013190810 A1 WO 2013190810A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
similarity
anonymization
processing apparatus
combination
Prior art date
Application number
PCT/JP2013/003726
Other languages
English (en)
French (fr)
Inventor
翼 高橋
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Publication of WO2013190810A1 publication Critical patent/WO2013190810A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification

Definitions

  • the present invention relates to information processing, and more particularly to anonymization of information.
  • a service provider provides a service using information of a service recipient (service user) receiving the service in an information processing system including an information processing apparatus that processes the information. Therefore, the service provider stores user information.
  • the user information includes information (for example, an identifier (ID)) for specifying (identifying) the user in order to provide the service.
  • the user information includes information on one or more user attributes such as a purchase history.
  • the user information includes the user identification information and one or more attribute information. That is, the user information is a set (group) of a plurality of pieces of information (data, values).
  • user attribute information includes information related to goods such as purchased goods. Therefore, hereinafter, information (attribute information) included in the information set may be referred to as “item”.
  • information (attribute information) included in the information set may be referred to as “item”.
  • a set of items is referred to as “set value data”.
  • the information set (record) includes an identifier (ID) and an item.
  • the information set (record) is data valid for a third party related to the provided service.
  • medical treatment information includes information on treatment and medication performed by a hospital (service provider) for a patient (user). Therefore, the medical information is information that is effective for a pharmaceutical company (third party).
  • the user information set includes information that the third party does not want to know, for example, information related to privacy.
  • sensitive information Sensitive Information (SI)
  • sensitive attribute Sensitive Attribute (SA)
  • sensitive value Sensitive Value (SV)
  • the set of user information includes information (ID) that identifies (identifies) the user.
  • the service provider provides the stored user information to a third party as it is, the third party can know the information that the user does not want to be known.
  • a set of information may include a combination of sensitive information that can identify a user.
  • the combination of address, gender, and occupation may identify an individual.
  • a set of information from which sensitive information has been deleted contains few valid information. Therefore, it is difficult to effectively use the information set from which the sensitive information is deleted. For example, when a patient's (user) injury / illness name (sensitive information) is deleted, the pharmaceutical company (third party) cannot analyze the correlation or co-occurrence relationship between the injury / illness.
  • the privacy information evaluation server described in Patent Document 1 anonymizes (k-anonymize) and stores data received from a user terminal. Further, the server described in Patent Document 1 deletes the user ID (Identifier) and stores the data. Moreover, the server described in Patent Document 1 evaluates privacy information and notifies a user terminal when there is a problem with privacy.
  • k-anonymization is anonymization that guarantees the existence of k or more sets (records) of the same information (see, for example, Non-Patent Document 1 and Non-Patent Document 2).
  • the k-anonymized data set (a plurality of information sets and records) is guaranteed to have at least “k ⁇ 1” identical records.
  • FIG. 15 shows combinations of product names (for example, patients and drugs, consumers and purchased products) related to users.
  • product names for example, patients and drugs, consumers and purchased products
  • a drug with a drug name ⁇ A, B, C, X, Y ⁇ is administered to a patient with ID1.
  • items with product names ⁇ A, B, C ⁇ are simultaneously included in the information set. That is, the item name ⁇ A, B, C ⁇ has a high frequency of co-occurring.
  • the item with the product name ⁇ E, F ⁇ is simultaneously included in the information set at the same frequency as the item with the product name ⁇ A, B, C ⁇ . That is, the item name ⁇ E, F ⁇ has a high frequency of co-occurring.
  • the frequency is lower than the items of the product names ⁇ A, B, C ⁇ and the items of the product names ⁇ E, F ⁇
  • the items of the product names ⁇ X, Y ⁇ are simultaneously included in the information set. That is, the item with the product name ⁇ X, Y ⁇ has a lower frequency than the item with the product name ⁇ A, B, C ⁇ , but has a frequency of co-occurring.
  • the service provider anonymizes the data set shown in FIG. 15 to satisfy “k-anonymization” by using an information processing apparatus that performs k-anonymization before publishing the data.
  • Non-Patent Document 2 Disclosure from items with high appearance frequency often increases the number of items that can be disclosed. Therefore, an information processing apparatus that performs general k-anonymization anonymizes data so that items with high appearance frequency are disclosed (see, for example, Non-Patent Document 2).
  • an information processing apparatus that performs general k-anonymization anonymizes items as follows.
  • the information processing apparatus that performs k-anonymization anonymizes (abstracts) all items to the highest concept.
  • “*” is used as anonymized data.
  • the top concept is “*” because all items are anonymized.
  • the information processing apparatus returns the original item from the items having a high appearance frequency (hereinafter, this operation may be referred to as “detailing” or “disclosure”).
  • the information processing apparatus anonymizes the data in FIG. 15 to the data shown in FIG. Note that “*” in FIG. 16 indicates anonymized data.
  • Non-Patent Document 2 discloses items with higher appearance frequency. In order to disclose items with high application frequency, the anonymization technology of Non-Patent Document 2 can disclose many items. Therefore, the anonymization technique of Non-Patent Document 2 can keep the amount of information loss low.
  • the information loss amount is the amount of information lost due to anonymization.
  • the amount of information loss can be expressed using the number of items deleted.
  • a combination of items having a high appearance frequency and high co-occurrence frequency may already be a widely known event.
  • a combination of items that disclose many well-known events has a small amount of information (entropy).
  • third-party information analysis may find a new analysis result based on analysis of items with low appearance frequency even if the number of disclosed items is small.
  • Non-Patent Document 2 has a problem that it is not possible to disclose items with low appearance frequency.
  • Patent Document 1 Since the anonymization techniques described in Patent Document 1 and Non-Patent Document 1 do not assume the anonymization of a set of items, the above problems cannot be solved.
  • An object of the present invention is to provide an information processing apparatus and an information anonymization method for solving the above problems and disclosing more valuable anonymized information.
  • the information processing apparatus provides information that monotonically decreases with respect to an increase in the appearance frequency of the information or monotonously increases with respect to a decrease in the appearance frequency of the information, as a similarity between sets of information including a plurality of information. Based on the combination determined by the combination determination means, the combination determination means for determining the combination of the information set to be anonymized using the similarity, and the combination determined by the combination determination means And processing means for processing at least part of the information included in the set for anonymization.
  • the information anonymization method of the present invention monotonically decreases with respect to an increase in the appearance frequency of the information or monotonously increases with respect to a decrease in the appearance frequency of the information, as a similarity between information sets including a plurality of pieces of information.
  • Information is calculated, the combination of the information set to be anonymized is determined using the similarity, and at least a part of the information included in the information set is anonymous based on the determined combination Process for conversion.
  • the program according to the present invention calculates information that monotonously decreases with respect to an increase in the appearance frequency of the information or monotonously increases with respect to a decrease in the appearance frequency of the information, as a similarity between a set of information including a plurality of information. Processing, determining the combination of the information set to be anonymized using the similarity, and at least a part of the information included in the information set based on the determined combination causess the computer to execute processing for anonymization.
  • FIG. 1 is a block diagram showing an example of the configuration of the information processing apparatus according to the first embodiment of the present invention.
  • FIG. 2 is a flowchart illustrating an example of the operation of the information processing apparatus according to the first embodiment.
  • FIG. 3 is a diagram illustrating an example of similarity data according to the first embodiment.
  • FIG. 4 is a diagram illustrating an example of similarity data related to the processing according to the first embodiment.
  • FIG. 5 is a diagram illustrating an example of data after anonymization according to the first embodiment.
  • FIG. 6 is a diagram illustrating an example of hierarchized items according to the first embodiment.
  • FIG. 7 is a block diagram illustrating an example of another configuration of the information processing apparatus according to the first embodiment.
  • FIG. 1 is a block diagram showing an example of the configuration of the information processing apparatus according to the first embodiment of the present invention.
  • FIG. 2 is a flowchart illustrating an example of the operation of the information processing apparatus according to the first embodiment.
  • FIG. 3 is a diagram
  • FIG. 8 is a block diagram illustrating an example of the configuration of the information processing apparatus according to the second embodiment.
  • FIG. 9 is a diagram illustrating an example of similarity data according to the second embodiment.
  • FIG. 10 is a diagram illustrating an example of data after anonymization according to the second embodiment.
  • FIG. 11 is a flowchart illustrating an example of an operation according to the second embodiment.
  • FIG. 12 is a block diagram illustrating an example of the configuration of the information processing apparatus according to the third embodiment.
  • FIG. 13 is a diagram illustrating an example of data after anonymization according to the third embodiment.
  • FIG. 14 is a flowchart illustrating an example of the operation of the information processing apparatus according to the third embodiment.
  • FIG. 15 is a diagram illustrating an example of anonymization target data including a plurality of sets of information.
  • FIG. 16 is a diagram illustrating an example of data after general anonymization.
  • FIG. 1 is a block diagram showing an example of the configuration of the information processing apparatus 10 according to the first embodiment of the present invention.
  • the information processing apparatus 10 includes a combination determination unit 110, a similarity calculation unit 120, and a processing unit 130.
  • the combination determination unit 110 uses the similarity calculation unit 120 to obtain the similarity between information sets (records) included in the information to be processed. And the combination determination part 110 determines the combination (grouping) of the record to anonymize based on the calculated
  • the similarity is a value indicating the degree of similarity between records.
  • the record after anonymization becomes information including the same item.
  • anonymization is sometimes referred to as “merge” or “combine”.
  • the present embodiment will be described using information of a person such as a user as a record.
  • the information handled by the information processing apparatus 10 according to the present embodiment is not limited to human information.
  • the information processing apparatus 10 according to the present embodiment may use information such as an apparatus or an organization such as a company or a group.
  • it demonstrates using a product name as an item contained in a record.
  • the item need not be limited to the product name.
  • the item may be information related to the person or organization indicated by the identifier, such as a symptom or state.
  • the information processing apparatus 10 receives an input of an anonymization target data set as an example of information that is a target of information processing.
  • the information processing apparatus 10 is not limited to information to be processed.
  • the information processing apparatus 10 uses, as an anonymization target data set that is information to be processed, an identifier (ID) for identifying a user and sensitive information including a plurality of items. It is assumed that a plurality of records including it are processed.
  • ID an identifier
  • the information processing apparatus 10 is not limited in the storage location of information to be processed.
  • the information processing apparatus 10 may store information that is a processing target (anonymization target data set in FIG. 1) in a storage unit (not shown). Further, the information processing apparatus 10 may receive information to be processed from an external apparatus via a communication unit (not shown).
  • the combination determination unit 110 reads the anonymization target data set from a storage unit (not shown) or receives it via a communication unit (not shown).
  • the similarity calculation unit 120 calculates the similarity between records included in the information to be processed based on an instruction from the combination determination unit 110. Note that the similarity calculation unit 120 holds information for calculating the similarity in advance.
  • the similarity is sometimes called “distance”. For example, when two records are similar, the similarity calculated based on the two records is high and the distance between the two records is short.
  • the similarity calculation unit 120 is not limited to information for calculating the similarity.
  • the similarity calculation unit 120 may hold a similarity criterion between records and a similarity calculation method.
  • the similarity calculation unit 120 of the present embodiment next assigns a condition to the similarity calculation process for records having a common item. That is, the similarity calculation unit 120 calculates the similarity between records so that the similarity increases as the appearance frequency of the common item decreases.
  • the similarity calculation unit 120 calculates the similarity between the record group and the record grouped for anonymization or the similarity between the record groups based on the instruction of the combination determination unit 110. Also good.
  • the combination determination unit 110 groups records based on the similarity calculated by the similarity calculation unit 120 so as to satisfy anonymity in predetermined anonymization.
  • the processing unit 130 processes (anonymizes) at least some items of the records included in the combination (group) determined by the combination determination unit 110 so as to satisfy predetermined anonymity.
  • the information processing apparatus 10 calculates the similarity between records so that the similarity between records increases as the frequency of appearance of common items decreases. Furthermore, the information processing apparatus 10 according to the present embodiment groups records based on the calculated similarity and information related to predetermined anonymization, and anonymizes the grouped records.
  • FIG. 2 is a flowchart showing an example of the operation of the information processing apparatus 10.
  • the information processing apparatus 10 calculates the similarity between records of the anonymization target data set (step S1001).
  • the combination determination unit 110 instructs the similarity calculation unit 120 to calculate the similarity between records.
  • the combination determination unit 110 may send a record to the similarity calculation unit 120 and instruct the calculation of the similarity, for example. Or when hold
  • the similarity calculation unit 120 is not limited to the instruction to the combination determination unit 110.
  • the similarity calculation unit 120 calculates the similarity between records in accordance with the instruction, and returns the calculation result to the combination determination unit 110. In this calculation, the similarity calculation unit 120 calculates the similarity so that the similarity between records increases as the appearance frequency of the common item decreases.
  • the similarity calculation unit 120 of the present embodiment is not limited to the calculation of similarity.
  • the similarity calculation unit 120 may use IDF for calculating the similarity.
  • IDF is the inverse document appearance frequency (Inverse Document Frequency).
  • IDF (IFDi) of item i can be obtained using the following equation.
  • IDFi log (
  • is the total number of records
  • is the number of records including the item i.
  • the parentheses in the IDF log are the reciprocal of the appearance frequency of the item i, that is, a value inversely proportional to the appearance frequency.
  • the similarity calculation part 120 calculates a similarity as follows.
  • the similarity calculation unit 120 sums up the IDFs of items included in the record for calculating the similarity.
  • the similarity calculation unit 120 calculates the sum of the IDFs of items that are common among the records for calculating the similarity. Then, the similarity calculation unit 120 notifies the combination determination unit 110 of the total value of IDFs of common items as the similarity between records.
  • the similarity calculation unit 120 of the present embodiment is not limited to a value that is inversely proportional to the appearance frequency as a value used for calculating the similarity, but decreases monotonously (monotonically decreases) or increases in the appearance frequency. A value that monotonously increases (monotonically increases) with respect to the decrease may be used. Furthermore, the similarity calculation unit 120 according to the present embodiment is not limited to a monotonically increasing / monotonically increasing value in a narrow sense, but uses a monotonically increasing (monotonic non-decreasing) / monotonically decreasing (monotonic non-increasing) value in a broad sense as the similarity It may be used.
  • the information processing apparatus 10 groups records based on the calculated similarity (step S1002).
  • the combination determination unit 110 holds information on anonymization set in the information in advance.
  • the combination determination part 110 is not restrict
  • the administrator or user of the information processing apparatus 10 may instruct the combination determination unit 110 to set anonymization.
  • the combination determination part 110 determines the group (anonymous group) containing a some record so that the predetermined anonymity in anonymization may be satisfied based on the similarity between groups calculated by the similarity calculation part 120. To do.
  • step S1002 The operation of step S1002 will be described based on specific values.
  • the combination determination unit 110 holds k-anonymity information as anonymization. More specifically, the combination determination unit 110 holds “2-anonymization” information. Moreover, the combination determination part 110 makes the anonymization object data set shown in FIG. 15 a process target.
  • the similarity calculation part 120 calculates a similarity with respect to the data set shown in FIG.
  • FIG. 3 is a diagram showing an example of calculation result data of similarity between records using IDF. Note that the first row and the first column in FIG. 3 indicate the ID of the record. The value of the intersection of the row and the column indicates the similarity between the record indicated by the row ID and the record indicated by the column ID.
  • the similarity between the ID1 record including the item with the item name ⁇ X, Y ⁇ having the lowest appearance frequency and the ID4 record is the highest.
  • the combination determination unit 110 detects a record having the highest similarity from the calculation result data, and determines an anonymous group in which those records are merged.
  • the combination determination unit 110 determines an anonymous group (first anonymous group) obtained by merging the ID1 record and the ID4 record.
  • the determined anonymous group satisfies 2-anonymization at this point. Therefore, the determined anonymous group does not require additional records. Therefore, the combination determination unit 110 determines the next anonymous group based on the similarity between the remaining records excluding the first anonymous group.
  • FIG. 4 is a diagram showing similarity data obtained by deleting the record ID1 and the record ID4 from FIG. 3 for easy understanding.
  • the similarity between the ID2 record and the ID3 record is the highest.
  • the combination determination unit 110 determines an anonymous group (second anonymous group) obtained by merging the ID2 record and the ID3 record. This anonymous group satisfies 2-anonymization. For this reason, the combination determination part 110 determines the next anonymous group based on the similarity between the remaining records except a 2nd anonymous group.
  • the remaining records are an ID5 record and an ID6 record.
  • the combination determination unit 110 determines an anonymous group (third anonymous group) obtained by merging the remaining records (ID5 and ID6) as an anonymous group.
  • the combination determination unit 110 does not need to determine an anonymous group in a single process.
  • the combination determination unit 110 may determine an anonymous group using a plurality of processes, or may determine an anonymous group by repeating a predetermined process. Further, the combination determination unit 110 may cause the similarity calculation unit 120 to calculate the similarity in each process.
  • the combination determination unit 110 determines an anonymization group for 3-anonymization in a single process based on the similarity calculated in step S1001. Also good.
  • the combination determination unit 110 determines a 2-anonymization anonymous group based on the similarity in step S1001. Then, the combination determination unit 110 may determine a 3-anonymized anonymous group based on the similarity of records belonging to the determined 2-anonymized anonymous group. In this case, the combination determination unit 110 uses the similarity calculation unit 120 to calculate the similarity between the anonymous group and the group.
  • the combination determination unit 110 calculates the similarity between the anonymous groups using the similarity calculation unit 120 and merges based on the calculated similarity.
  • An anonymous group may be determined.
  • the similarity calculation unit 120 may use, for example, the sum, average, minimum value, or maximum value of the similarity between the record and the record in the anonymous group as the similarity between the record and the anonymous group.
  • the similarity calculation unit 120 may use a similarity between a vector representing the anonymous group (for example, an average vector or a centroid vector) and the record as the similarity.
  • the similarity calculation unit 120 may use the following vector.
  • a predetermined item or items included in a record are coordinate axes, and a space (item space) expressed using the coordinate axes is assumed. Then, the position and position vector of each record in the item space can be set based on a predetermined item included in the record.
  • the average vector is a vector obtained by averaging the position vectors of records included in a predetermined anonymous group.
  • the center-of-gravity vector is a vector obtained by giving a predetermined weight to records included in a predetermined anonymous group and averaging the position vectors of the records in consideration of the weight.
  • the similarity calculation unit 120 may use a total range, average, maximum value, or minimum value of similarities between a predetermined range or all records included in each group as the similarity between anonymous groups.
  • the similarity calculation unit 120 may use the similarity of a vector representing the anonymous group (for example, an average vector or a centroid vector) as the similarity.
  • the information processing apparatus 10 processes the items of the records included in the anonymous group based on the determined group, and anonymizes the data (step S1003).
  • the processing unit 130 leaves items common to the records included in the anonymous group and processes other items (non-common items).
  • the processing unit 130 processes the item as described below.
  • the processing unit 130 confirms items of the ID1 record and the ID4 record belonging to the first anonymous group in FIG.
  • the common item is the product name ⁇ X, Y ⁇ . Therefore, the processing unit 130 leaves the item with the product name ⁇ X, Y ⁇ and deletes other items. Similarly, the processing unit 130 deletes other items while leaving common items of ID2 and ID3 belonging to the second anonymous group. Further, the processing unit 130 deletes other items while leaving items common to ID5 and ID6 belonging to the third anonymous group.
  • FIG. 5 is a diagram illustrating an example after the processing unit 130 processes the record of FIG.
  • the information processing apparatus 10 realizes anonymization that leaves items with low occurrence frequency (ID1 and ID4 ⁇ X, Y ⁇ in FIG. 5).
  • processing unit 130 does not have to be limited to deletion as an item processing.
  • the processing unit 130 may generalize (generalize) items using a classification system (taxonomy) such as a concept tree.
  • a classification system such as a concept tree.
  • FIG. 6 is a diagram illustrating an example of hierarchized items.
  • the superordinate concept of the item ⁇ A, B, C ⁇ is “D”
  • the superordinate concept of the item ⁇ E, F, X, Y ⁇ is “W”
  • the superordinate concept of the item ⁇ G, H ⁇ is , “J”.
  • the processing unit 130 processes “A, B, C, J ⁇ using“ J ”, which is a superordinate concept of the item ⁇ G, H ⁇ . good.
  • the information processing apparatus 10 is not limited to the configuration illustrated in FIG.
  • the information processing apparatus 10 may have each configuration as a separate apparatus.
  • the information processing apparatus 10 may be configured by connecting a server including the combination determination unit 110 and a server including the similarity calculation unit 120 via a network (not shown).
  • the information processing apparatus 10 may have a plurality of configurations as one configuration.
  • the combination determination unit 110 may include a similarity calculation unit 120.
  • the configuration of the information processing apparatus 10 according to the present embodiment is not limited to the above description.
  • the information processing apparatus 10 may be realized as a computer including a CPU (Central Processing Unit), a ROM (Read Only Memory), and a RAM (Random Access Memory).
  • CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • FIG. 7 is a block diagram showing an example of the configuration of the information processing apparatus 60, which is another configuration of the present embodiment.
  • the information processing apparatus 60 includes a CPU 610, a ROM 620, a RAM 630, an IO (Input / Output) 640, a storage device 650, an input device 660, and a display device 670, and constitutes a computer.
  • the CPU 610 reads a program from the storage device 650 via the ROM 620 or the IO 640.
  • the CPU 610 realizes each function as the combination determination unit 110, the similarity calculation unit 120, and the processing unit 130 of the information processing apparatus 10 in FIG. 1 based on the read program.
  • the CPU 610 may use the RAM 630 and the storage device 650 as temporary storage when realizing each function.
  • the CPU 610 receives input data from the input device 660 via the IO 640 and displays the data on the display device 670.
  • the CPU 610 may read a program included in the storage medium 700 that stores the program so as to be readable by a computer using a storage medium reading device (not shown). Alternatively, the CPU 610 may receive a program from an external device via a network (not shown).
  • ROM 620 stores programs executed by CPU 610 and fixed data.
  • the ROM 620 is, for example, a P-ROM (Programmable-ROM) or a flash ROM.
  • the RAM 630 temporarily stores programs executed by the CPU 610 and data.
  • the RAM 630 is, for example, a D-RAM (Dynamic-RAM).
  • the IO 640 mediates data between the CPU 610, the storage device 650, the input device 660, and the display device 670.
  • the IO 640 is, for example, an IO interface card.
  • the storage device 650 stores data and programs stored in the information processing device 60 for a long time. Further, the storage device 650 may operate as a temporary storage device for the CPU 610. Further, the storage device 650 may store information to be processed.
  • the storage device 650 is, for example, a hard disk device, a magneto-optical disk device, an SSD, or a disk array device.
  • the input device 660 is an input unit (detection unit) that detects an input instruction from an operator of the information processing apparatus 60.
  • the input device 660 is, for example, a keyboard, a mouse, or a touch panel.
  • the display device 670 is a display unit of the information processing apparatus 60.
  • the display device 670 is a liquid crystal display, for example.
  • the display device 670 may display the anonymized data shown in FIG.
  • the information processing apparatus 60 configured as described above can obtain the same effects as the information processing apparatus 10.
  • the information processing apparatus 10 can disclose anonymized information that is valuable for third-party information analysis.
  • the reason is that the information processing apparatus 10 of this embodiment operates as follows.
  • the similarity calculation unit 120 calculates a high similarity between records sharing items with low appearance frequency.
  • the combination determination unit 110 determines a record including an item with a low appearance frequency as an anonymous group. Therefore, items with a low appearance frequency are common items. And the process part 130 leaves the common item and anonymizes. Therefore, the information processing apparatus 10 can realize anonymization in which items with low appearance frequency are disclosed.
  • the information processing apparatus 10 holds anonymization set in advance. However, anonymization changes according to the information handled and the third party provided.
  • the information processing apparatus 20 includes a configuration for changing anonymization.
  • FIG. 8 is a block diagram illustrating an example of the configuration of the information processing apparatus 20 according to the second embodiment.
  • the information processing apparatus 20 includes a similarity calculation unit 220 instead of the similarity calculation unit 120 of the information processing apparatus 10 of the first embodiment, and is similar to the anonymization policy reception unit 240. Degree setting unit 250.
  • the information processing apparatus 20 of the present embodiment may be realized by a computer including a CPU 610, a ROM 620, and a RAM 630, similarly to the information processing apparatus 60 shown in FIG.
  • the similarity calculation unit 220 calculates the similarity based on the notification from the similarity setting unit 250 instead of calculating the similarity stored in advance in the first embodiment.
  • the similarity calculation unit 220 operates in the same manner as in the first embodiment except that the calculation is based on the notification from the similarity setting unit 250. Therefore, detailed description of the similarity calculation unit 220 is omitted.
  • the anonymization policy receiving unit 240 receives an anonymization policy indicating what anonymization is performed.
  • the anonymization policy receiving unit 240 sends the received anonymization policy to the similarity setting unit 250.
  • the sender of the anonymization policy is not particularly limited.
  • the information processing device 20 may receive an anonymization policy from a management device (not shown) via a network.
  • the information processing apparatus 20 may receive the anonymization policy based on the operation of the input device 660 of the information processing apparatus 20 operated by the administrator.
  • the data format of the anonymization policy of this embodiment is not particularly limited.
  • the anonymization policy may simply include a specific value, such as the k-anonymization “k” value.
  • the anonymization policy may include more specific contents such as “disclose more items with low appearance frequency” or “identify items with co-occurrence frequencies equal to or higher than a specified value”.
  • “same” means that the items are not distinguished, that is, they are regarded as the same as a predetermined item.
  • the similarity setting unit 250 selects the similarity used by the similarity calculation unit 220 based on the received anonymization policy, and notifies the similarity calculation unit 220 of the similarity.
  • the similarity setting unit 250 calculates the similarity using the IDF described in the first embodiment.
  • the unit 220 may be instructed.
  • the similarity setting unit 250 causes the similarity calculation unit 220 to identify the items included in the anonymization policy. To be notified.
  • the similarity setting unit 250 receives an anonymization policy “identify items having a co-occurrence frequency of 3 or more” will be described in more detail.
  • the similarity setting unit 250 notifies the similarity calculation unit 220 that “identifies items having a co-occurrence frequency of 3 or more”.
  • the similarity calculation unit 220 Upon receiving the notification from the similarity setting unit 250, the similarity calculation unit 220 replaces an item having a co-occurrence frequency of 3 or more with a predetermined item, and calculates the similarity (for example, the sum of IDFs).
  • FIG. 9 is a diagram illustrating an example of a similarity obtained by applying “identify items having a co-occurrence frequency of 3 or more” to the data in FIG.
  • the information processing apparatus 20 groups ID1 and ID4, ID2 and ID5, and ID3 and ID6.
  • FIG. 10 is a diagram illustrating an example of data after anonymization in this case.
  • the data after anonymization shown in FIG. 10 in addition to the item of the item name ⁇ X, Y ⁇ , the item of the item name ⁇ G ⁇ and the item of the item name ⁇ H ⁇ with low appearance frequency are disclosed.
  • the similarity setting unit 250 is not particularly limited in the notification sent to the similarity calculation unit 220.
  • the similarity setting unit 250 may instruct the calculation method.
  • the similarity setting unit 250 may notify the similarity calculation unit 220 of a calculation formula used for the calculation and parameters of the calculation formula.
  • the similarity calculation unit 220 uses a value (SIM: SIMilarity) represented by the following expression as the similarity.
  • freq (i) is a function indicating the appearance frequency of the item i.
  • is a parameter that the similarity setting unit 250 notifies the similarity calculation unit 220 of.
  • the similarity setting unit 250 may notify the similarity calculation unit 220 of an appropriate parameter ⁇ value based on the anonymization policy.
  • FIG. 11 is a flowchart illustrating an example of the operation of the information processing apparatus 20 according to the second embodiment.
  • the information processing apparatus 20 receives the anonymization policy (step S2004). Specifically, the anonymization policy receiving unit 240 receives the anonymization policy and sends it to the similarity setting unit 250. In addition, the information processing apparatus 20 may receive an anonymization policy not only once but in multiple times.
  • the information processing apparatus 20 sets the calculation used for the similarity based on the received anonymization policy (step S2005). Specifically, the similarity setting unit 250 transmits information on the similarity calculation to be performed to the similarity calculation unit 220 based on the anonymization policy.
  • the information processing apparatus 20 calculates the similarity between records (step S2006). Specifically, the combination determination unit 110 instructs the similarity calculation unit 220 to calculate the similarity. Then, the similarity calculation unit 220 calculates the similarity using a calculation based on an instruction from the similarity setting unit 250.
  • the information processing apparatus 20 according to the second embodiment can obtain an effect of changing anonymization in addition to the effect according to the first embodiment.
  • the reason is that the information processing apparatus 20 according to the second embodiment operates as follows.
  • the anonymization policy receiving unit 240 receives the anonymization policy. Then, the similarity setting unit 250 notifies the similarity calculation unit 220 of information related to the similarity calculation based on the received anonymization policy. This is because the similarity calculation unit 220 calculates the similarity of records using the notified similarity.
  • the information processing apparatus 30 uses the importance or priority of the item.
  • FIG. 12 is a block diagram illustrating an example of the configuration of the information processing apparatus 30 according to the third embodiment.
  • the information processing apparatus 30 includes a priority receiving unit 360 as compared with the information processing apparatus 20 of the second embodiment.
  • the information processing device 30 includes a similarity setting unit 350 and a combination determination unit 310 instead of the similarity setting unit 250 and the combination determination unit 110 of the information processing device 20.
  • the information processing apparatus 30 may be realized by a computer including a CPU 610, a ROM 620, and a RAM 630, similarly to the information processing apparatus 60 shown in FIG.
  • the priority receiving unit 360 receives the priority of items to be disclosed.
  • the priority receiving unit 360 sends the received priority to the similarity setting unit 350 and the combination determining unit 310.
  • the information processing apparatus 30 of the present embodiment is not particularly limited in the priority transmission source.
  • the information processing apparatus 30 may receive the priority from a management apparatus (not shown) via a network.
  • the information processing device 30 may receive the priority based on the operation of the input device 660 of the information processing device 30 of the administrator.
  • the priority data format of this embodiment is not particularly limited.
  • the priority may be a value indicating the priority of each item (for example, a numerical value of 10 levels), or may be a degree of priority (for example, high / medium / low), and information indicating an item having a high priority ( For example, product name) may be used.
  • the similarity setting unit 350 instructs the calculation used by the similarity calculation unit 220 for the priority based on the anonymization policy and the priority.
  • the combination determining unit 310 determines a group between records based on the priority received from the priority receiving unit 360 in addition to the similarity calculated by the similarity calculating unit 220.
  • the priority of the item ⁇ G ⁇ is “high”
  • the priority of the item ⁇ C ⁇ is “medium”
  • the priority of other items is “low”
  • the anonymization policy is “ Assume the case of “2-anonymization”.
  • the combination determination unit 310 first determines the ID2 record and the ID5 record including the item ⁇ G ⁇ as an anonymous group. Next, the combination determination unit 310 determines the ID1 record and the ID3 record including the item ⁇ C ⁇ as an anonymous group. Then, the combination determining unit 310 determines the record of ID4 and the record of ID6 as an anonymous group.
  • FIG. 13 is a diagram showing an example of the data after the above anonymization. An item ⁇ G ⁇ having a high priority is disclosed.
  • FIG. 14 is a flowchart illustrating an example of the operation of the information processing apparatus 30 according to the third embodiment.
  • the information processing apparatus 30 receives the priority (step S3007). Specifically, the priority receiving unit 360 receives the priority and sends it to the similarity setting unit 350.
  • the information processing apparatus 30 receives the anonymization policy (step S2004).
  • the information processing apparatus 30 may interchange the order of step S3007 and step S2004. Further, the information processing apparatus 30 may divide the processing of step S3007 or step S2004 into a plurality of processes.
  • the information processing apparatus 30 sets similarity calculation based on the priority and the anonymization policy (step S3008). Specifically, the similarity setting unit 350 instructs the similarity calculation unit 220 to calculate.
  • the information processing apparatus 30 calculates the similarity between records (step S2006). Specifically, the combination determination unit 310 instructs the similarity calculation unit 220. Then, the similarity calculation unit 220 calculates the similarity.
  • the information processing apparatus 30 determines a group of records based on the similarity and the priority (step S3009). Specifically, the combination determination unit 310 determines a group based on the similarity and the priority.
  • the information processing apparatus 30 processes the item for anonymization based on the determined group (step 1003). Specifically, the processing unit 130 processes the item.
  • both the similarity setting unit 350 and the combination determining unit 310 use priority.
  • the information processing apparatus 30 of the present embodiment is not limited to this. Either the similarity setting unit 350 or the combination determining unit 310 may use the similarity.
  • the information processing apparatus 30 can obtain the effect of disclosing items based on the priority in addition to the effect according to the second embodiment.
  • the reason is that the information processing apparatus 30 according to the third embodiment operates as follows.
  • Priority receiving unit 360 receives the priority of an item. This is because the similarity setting unit 350 and / or the combination determination unit 310 operates based on the priority in addition to the operations of the second embodiment.

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

 情報分析に価値のある匿名化した情報を開示する。 本発明の情報処理装置は、複数の情報を含む情報の組の間の類似度として、情報の出現頻度の増加に対して単調減少又は情報の出現頻度の減少に対して単調増加する情報を算出する類似度計算手段と、類似度を用いて、匿名化の対象となる情報の組の組み合わせを決定する組み合わせ決定手段と、組み合わせ決定手段が決定した組み合わせを基に、情報の組に含まれる情報の少なくとも一部を匿名化のために加工する加工手段とを含む。

Description

情報処理装置、及び、情報匿名化方法
 本発明は、情報処理に関し、特に、情報の匿名化に関する。
 サービス提供者は、情報を処理する情報処理装置を含む情報処理システムにおいて、サービスを受けるサービス受領者(サービス利用者)の情報を用いて、サービスを提供する。そのため、サービス提供者は、利用者の情報を保存する。
 利用者の情報は、サービスを提供するため、利用者を特定(識別)するための情報(例えば、識別子(ID:Identifier))を含む。また、利用者の情報は、購買履歴など、1つ以上の利用者の属性に関する情報を含む。このように、利用者の情報は、利用者の識別情報と1つ以上の属性情報とを含む。つまり、利用者の情報は、複数の情報(データ、値)の集合(組)となる。
 以下、このような人物の情報の集合を、「情報の組(セット)」又は「レコード」と呼ぶ。つまり、サービス提供者は、各利用者に対応する「情報の組」を保存する。
 なお、利用者の属性情報は、購買品のような、物品に関連する情報を含む。そのため、以下では、情報の組に含まれる情報(属性情報)を、「アイテム」と呼ぶこともある。また、アイテムの集合は、「集合値データ」と呼ぶ。
 つまり、情報の組(レコード)は、識別子(ID)と、アイテムとを含む。
 情報の組(レコード)は、提供されるサービスに関連する第三者に有効なデータである。
 例えば、診療情報は、患者(利用者)に対して病院(サービス提供者)が行った治療や投薬の情報を含む。そのため、診療情報は、製薬会社(第三者)に有効な情報である。
 しかし、利用者の情報の組は、第三者に知られたくない情報、例えば、プライバシーに関する情報を含む。
 なお、第三者に知られたくない情報は、一般的に、センシティブ(機微)情報(Sensitive Information (SI))、センシティブ属性(Sensitive Attribute (SA))又はセンシティブ値(Sensitive Value (SV))と呼ばれる。
 また、利用者の情報の組は、利用者を特定(識別)する情報(ID)を含む。
 そのため、サービス提供者が、保存する利用者の情報を、そのまま、第三者に提供した場合、第三者は、利用者の知られたくない情報を、知ることができる。
 その対策として、利用者を特定する情報(ID)を削除した情報の提供が、考えられる。
 しかし、情報の集合(組)は、利用者の特定が可能なセンシティブ情報の組み合わせを含む場合がある。例えば、住所、性別、職業の組み合わせは、個人を特定できる場合がある。
 しかし、センシティブ情報を削除した情報の組は、含まれる有効な情報が少ない。そのため、センシティブ情報を削除した情報の組は、有効な二次利用が難しい。例えば、患者(利用者)の傷病名(センシティブ情報)を削除した場合、製薬会社(第三者)は、傷病間の相関関係や共起関係を分析できない。
 そこで、情報の組に含まれる情報の有効性を保ちながらセンシティブ情報を保護するために、匿名化(Anonymization)の技術が用いられる(例えば、特許文献1を参照)。
 特許文献1に記載のプライバシー情報評価サーバは、ユーザ端末から受信したデータを匿名化(k-匿名化)して保存する。また、特許文献1に記載のサーバは、ユーザのID(Identifier)を削除してデータを保存する。また、特許文献1に記載のサーバは、プライバシー情報を評価し、プライバシーに問題がある場合に、ユーザ端末に通知する。
 なお、k-匿名化とは、同じ情報の組(レコード)のk個以上の存在を保証する匿名化である(例えば、非特許文献1、非特許文献2を参照)。つまり、k-匿名化されたデータセット(複数の情報の組、レコード)は、少なくとも「k-1」個の同じレコードの存在が保証されている。
 例えば、図15に示すように、6個の情報の組(レコード)が、匿名化対象のデータセットとして、保存されているとする。
 図15は、利用者と関連する品名(例えば、患者と薬、消費者と購入品)の組み合わせを示す。例えば、患者と薬の組み合わせとして説明すると、ID1の患者は、薬品名{A、B、C、X、Y}の薬が投与されている。
 図15に示すデータセットを参照すると、品名{A、B、C}のアイテムは、情報の組に、同時に含まれる。つまり、品名{A、B、C}のアイテムは、共起する頻度が高い。
 また、品名{E、F}のアイテムは、品名{A、B、C}のアイテムと同じ頻度で、情報の組に、同時に含まれる。つまり、品名{E、F}のアイテムは、共起する頻度が高い。
 また、品名{A、B、C}のアイテム及び品名{E、F}のアイテムに比べると頻度は低いが、品名{X、Y}のアイテムは、同時に情報の組に含まれる。つまり、品名{X、Y}のアイテムは、品名{A、B、C}のアイテムに比べると低い頻度であるが、共起する頻度がある。
 ここで、ある第三者が、ID1の利用者の情報の組に、品名{A、B、C、X}のアイテムが含まれることを既知とする。この第三者は、図15のデータセットからIDを削除しても、1行目のデータがID1の利用者のデータであることが分かる。そのため、その第三者は、ID1の利用者の情報の組に品名{Y}のアイテムが含まれることが分かる。つまり、センシティブ情報は、この第三者に漏洩する。
 そこで、サービス提供者は、データを公開する前に、k-匿名化を実行する情報処理装置を用いて、図15に示すデータセットを「k-匿名化」を満足するように匿名化する。
 出現頻度が高いアイテムからの開示は、開示可能なアイテムの数を多くできる場合が多い。そこで、一般的なk-匿名化を実行する情報処理装置は、出現頻度の高いアイテムが開示されるようにデータを匿名化する(例えば、非特許文献2を参照)。
 より具体的には、一般的なk-匿名化の実行する情報処理装置は、次のようにアイテムを匿名化する。
 まず、k-匿名化する情報処理装置は、全てのアイテムを、最上位概念に、匿名化(抽象化)する。なお、以下、匿名化したデータとして「*」を用いる。例えば、最上位概念は、全てのアイテムを匿名化した状態のため、「*」となる。
 次に、情報処理装置は、出現頻度が高いアイテムから、元のアイテムを戻す(以下、この動作を「詳細化」又は「開示」と呼ぶ場合もある)。
 例えば、図15に示したデータセットの場合、薬品{A、B、C}及び{E、F}の出現頻度が高い。そのため、k=2及び3のk-匿名化を実行する場合、情報処理装置は、図15のデータを、図16に示すデータに匿名化する。なお、図16の「*」は、匿名化されたデータを示す。
特開2011-180839
L.Sweeney,"k-anonymity:a model for protecting privacy", International Journal on Uncertainty, Fuzziness and Knowledge-based Systems,10(5),pp.555-570, 2002. Yeye He and Jeffrey F. Naughton, "Anonymization of set-valued data via top-down, local generalization", International Conference on Very Large Databases, 2008.
 上述した非特許文献2に記載の匿名化技術は、出現頻度が高いアイテムほど、開示する。出願頻度が高いアイテムを開示するため、非特許文献2の匿名化技術は、多くのアイテムを開示できる。そのため、非特許文献2の匿名化技術は、情報損失量を低く抑えることができる。
 ここで、情報損失量とは、匿名化に基づき失われる情報の量である。例えば、情報損失量は、削除されたアイテムの数を用いて表すことができる。
 しかし、第三者の情報分析におけるアイテムの価値は、必ずしも、出現頻度に比例しない。
 例えば、出現頻度や共起頻度が高いアイテムの組み合わせは、既に、広く知られた事象の場合がある。広く知られた事象を多く開示したアイテムの組み合わせは、情報量(エントロピー)が小さい。
 そのため、第三者の情報分析は、開示されているアイテムの数が少なくても、出現頻度が低いアイテムの分析を基に、新たな分析結果を見つけ出せる場合がある。
 しかし、非特許文献2に記載の匿名化技術は、出現頻度が低いアイテムを開示できないという問題点があった。
 特許文献1及び非特許文献1に記載の匿名化技術は、アイテムの集合の匿名化を想定していないため、上記問題点を解決できない。
 本発明の目的は、上記問題点を解決し、より価値がある匿名化した情報を開示する情報処理装置、及び、情報匿名化方法を提供することにある。
 本発明の情報処理装置は、複数の情報を含む情報の組の間の類似度として、前記情報の出現頻度の増加に対して単調減少又は前記情報の出現頻度の減少に対して単調増加する情報を算出する類似度計算手段と、前記類似度を用いて、匿名化の対象となる前記情報の組の組み合わせを決定する組み合わせ決定手段と、前記組み合わせ決定手段が決定した組み合わせを基に、前記情報の組に含まれる情報の少なくとも一部を匿名化のために加工する加工手段とを含む。
 本発明の情報匿名化方法は、複数の情報を含む情報の組の間の類似度として、前記情報の出現頻度の増加に対して単調減少又は前記情報の出現頻度の減少に対して単調増加する情報を算出し、前記類似度を用いて、匿名化の対象となる前記情報の組の組み合わせを決定し、前記決定した組み合わせを基に、前記情報の組に含まれる情報の少なくとも一部を匿名化のために加工する。
 本発明のプログラムは、複数の情報を含む情報の組の間の類似度として、前記情報の出現頻度の増加に対して単調減少又は前記情報の出現頻度の減少に対して単調増加する情報を算出する処理と、前記類似度を用いて、匿名化の対象となる前記情報の組の組み合わせを決定する処理と、前記決定した組み合わせを基に、前記情報の組に含まれる情報の少なくとも一部を匿名化のために加工する処理とをコンピュータに実行させる。
 本発明によれば、情報分析に価値のある匿名化した情報を開示できる。
図1は、本発明における第1の実施形態に係る情報処理装置の構成の一例を示すブロック図である。 図2は、第1の実施形態に係る情報処理装置の動作の一例を示すフローチャートである。 図3は、第1の実施形態に係る類似度のデータの一例を示す図である。 図4は、第1の実施形態に係る処理に関連する類似度のデータの一例を示す図である。 図5は、第1の実施形態に係る匿名化後のデータの一例を示す図である。 図6は、第1の実施形態に係る階層化されたアイテムの一例を示す図である。 図7は、第1の実施形態に係る情報処理装置の別の構成の一例を示すブロック図である。 図8は、第2の実施形態に係る情報処理装置の構成の一例を示すブロック図である。 図9は、第2の実施形態に係る類似度のデータの一例を示す図である。 図10は、第2の実施形態に係る匿名化後のデータの一例を示す図である。 図11は、第2の実施形態に係る動作の一例を示すフローチャートである。 図12は、第3の実施形態に係る情報処理装置の構成の一例を示すブロック図である。 図13は、第3の実施形態に係る匿名後のデータの一例を示す図である。 図14は、第3の実施形態に係る情報処理装置の動作の一例を示すフローチャートである。 図15は、複数の情報の組を含む匿名化対象データの一例を示す図である。 図16は、一般的な匿名化後のデータの一例を示す図である。
 次に、本発明の実施形態について図面を参照して説明する。
 なお、各図面は、本発明の実施形態を説明するものである。そのため、本発明は、各図面の記載に限られるわけではない。また、各図面の同様の構成には、同じ番号を付し、その繰り返しの説明は、省略する場合がある。
 (第1の実施形態)
 本発明における第1の実施形態に係る情報処理装置10について図面を参照して説明する。
 まず、本実施形態の情報処理装置10の構成について説明する。
 図1は、本発明における第1の実施形態に係る情報処理装置10の構成の一例を示すブロック図である。
 情報処理装置10は、組み合わせ決定部110と、類似度計算部120と、加工部130とを含む。
 組み合わせ決定部110は、類似度計算部120を用いて、処理対象である情報に含まれる情報の組(レコード)の間の類似度を求める。そして、組み合わせ決定部110は、求めた類似度と所定の匿名化に関する情報とに基づいて、匿名化するレコードの組み合わせ(グループ化)を決定する。
 ここで、類似度とは、レコード間の類似の程度を示す値である。
 なお、匿名化後のレコードは、同一のアイテムを含む情報となる。そのため、匿名化は、「併合(merge)」又は「結合(combine)」と呼ばれることもある。
 なお、以下では、レコードとして、利用者のような、人の情報を用いて本実施形態を説明する。ただし、本実施形態に係る情報処理装置10が取り扱う情報は、人の情報に限るわけではない。例えば、本実施形態に係る情報処理装置10は、装置などの物や、会社や団体など組織に関する情報を用いても良い。また、以下では、レコードに含まれるアイテムとして、品名を用いて説明する。ただし、アイテムは、品名に限る必要はない。例えば、アイテムは、症状や状態など、識別子で示される者や組織に関連する情報でもよい。
 図1の組み合わせ決定部110は、情報処理の対象である情報の一例として、匿名化対象データセットの入力を受け付ける。なお、情報処理装置10は、処理対象である情報を制限されない。しかし、以下の説明では、一例として、情報処理装置10は、処理対象の情報である匿名化対象データセットとして、利用者を識別するための識別子(ID)と複数のアイテムを含むセンシティブ情報とを含む複数のレコードを処理するとして説明する。
 また、情報処理装置10は、処理対象である情報の保存場所を制限されない。例えば、情報処理装置10は、図示しない記憶部に、処理対象である情報(図1の匿名化対象データセット)を保存してもよい。また、情報処理装置10は、図示しない通信部を介して、外部の装置から、処理対象である情報を受け取っても良い。
 これらの場合、組み合わせ決定部110は、匿名化対象データセットを、図示しない記憶部からの読み取る、又は、図示しない通信部を介して受信する。
 類似度計算部120は、組み合わせ決定部110の指示を基に、処理対象の情報に含まれるレコード間の類似度を計算する。なお、類似度計算部120は、予め、類似度の計算のための情報を保持する。
 また、類似度は、「距離」と呼ばれる場合もある。例えば、2つのレコードが類似する場合、2つのレコードを基に算出される類似度は、高く、2つのレコードの距離は、近い。
 類似度計算部120は、類似度の計算のための情報を、制限されない。例えば、類似度計算部120は、レコード間の類似度の基準と類似度の計算方法とを保持しても良い。ただし、本実施形態の類似度計算部120は、共通のアイテムを有するレコードに対する類似度の計算プロセスに、次に条件を付与する。すなわち、類似度計算部120は、共通アイテムの出現頻度が低いほど類似度が高くなるように、レコード間の類似度を計算する。
 さらに、類似度計算部120は、組み合わせ決定部110の指示を基に、匿名化のためにグループ化したレコード群とレコードと間の類似度、又は、レコード群の間の類似度を計算しても良い。
 組み合わせ決定部110は、類似度計算部120で算出された類似度を基に、所定の匿名化における匿名性を充足するように、レコードをグループ化する。
 加工部130は、所定の匿名性を充足するように、組み合わせ決定部110が決定した組み合わせ(グループ)に含まれるレコードの少なくとも一部のアイテムを加工(匿名化)する。
 このように、本実施形態の情報処理装置10は、共通のアイテムの出現頻度が低いほどレコード間の類似度が高くなるように、レコード間の類似度を算出する。さらに、本実施形態の情報処理装置10は、算出した類似度と所定の匿名化に関する情報とを基に、レコードをグループ化し、グループ化したレコードを匿名化する。
 次に、情報処理装置10の動作について説明する。
 図2は、情報処理装置10の動作の一例を示すフローチャートである。
 まず、情報処理装置10は、匿名化対象データセットのレコード間の類似度を計算する(ステップS1001)。
 そのため、組み合わせ決定部110は、類似度計算部120にレコード間の類似度の計算を指示する。
 なお、組み合わせ決定部110は、例えば、レコードを類似度計算部120に送って類似度の計算を指示してもよい。あるいは、匿名化対象データセットを記憶部に保持する場合、組み合わせ決定部110は、その記憶部におけるレコードの保存位置を類似度計算部120に送り、類似度の計算を指示してもよい。このように、類似度計算部120は、組み合わせ決定部110への指示を、制限されない。
 類似度計算部120は、指示に従いレコード間の類似度を計算し、計算結果を組み合わせ決定部110に返す。この計算において、類似度計算部120は、共通のアイテムの出現頻度が低いほどレコード間の類似度が高くなるように、類似度を計算する。
 本実施形態の類似度計算部120は、類似度の計算を、制限されない。例えば、類似度計算部120は、類似度の計算に、IDFを用いても良い。
 ここで、IDFとは、逆文書出現頻度(Inverse Document Frequency)である。例えば、アイテムiのIDF(IFDi)は、次の式を用いて求めることができる。
  IDFi=log(|D|/|{d:d∋i}|)
 ここで、|D|は、全レコード数であり、|{d:d∋i}|は、アイテムiを含むレコード数である。IDFのlogの括弧内は、アイテムiの出現頻度の逆数、つまり、出現頻度に反比例する値である。
 そして、IDFを用いる場合、類似度計算部120は、次のように類似度を計算する。
 まず、類似度計算部120は、類似度を計算するレコードに含まれるアイテムのIDFを合計する。類似度計算部120は、類似度を計算するレコード間で共通するアイテムのIDFの合計を算出する。そして、類似度計算部120は、レコード間の類似度として、共通するアイテムのIDFの合計の値を、組み合わせ決定部110に通知する。
 なお、本実施形態の類似度計算部120は、類似度の計算に用いる値として、出現頻度に反比例する値に限らず、出現頻度の増加に対して単調に減少(単調減少)又は出現頻度の減少に対して単調に増加(単調増加)する値を用いてもよい。さらに、本実施形態の類似度計算部120は、狭義の単調増加/単調増加する値に限らず、広義の単調増加(単調非減少)/単調減少(単調非増加)する値を、類似度として用いてもよい。
 類似度の計算後、情報処理装置10は、計算した類似度を基にレコードをグループ化する(ステップS1002)。
 組み合わせ決定部110は、予め、情報に設定する匿名化に関する情報を保持する。なお、組み合わせ決定部110は、匿名化に関する情報の設定を制限されない。例えば、情報処理装置10の管理者又は利用者が、匿名化の設定を、組み合わせ決定部110に、指示しても良い。
 そして、組み合わせ決定部110は、類似度計算部120で計算されたグループ間の類似度を基に、匿名化における所定の匿名性を充足するように複数のレコードを含むグループ(匿名グループ)を決定する。
 具体的な値を基に、ステップS1002の動作を説明する。
 組み合わせ決定部110が、匿名化として、k-匿名性の情報を保持するとする。より具体的には、組み合わせ決定部110は、「2-匿名化」の情報を保持するとする。また、組み合わせ決定部110は、図15に示す匿名化対象データセットを処理対象とする。
 そして、類似度計算部120は、図15に示すデータセットに対して、類似度を計算する。
 図3は、IDFを用いたレコード間の類似度の計算結果データの一例を示す図である。なお、図3の第1行と第1列は、レコードのIDを示す。そして、行と列との交点の値が、その行のIDで示されるレコードと列のIDで示されるレコードとの間の類似度を示す。
 図3において、出現頻度が最も低い品名{X、Y}のアイテムを含むID1のレコードとID4のレコードとの類似度が、最も高い。組み合わせ決定部110は、計算結果データから類似度が最も高いレコードを検出し、それらのレコードを併合した匿名グループを決定する。
 すなわち、組み合わせ決定部110は、ID1のレコードとID4のレコードとを併合した匿名グループ(第1の匿名グループ)を決定する。決定した匿名グループは、この時点で2-匿名化を満たす。そのため、決定した匿名グループは、さらなるレコードの追加が必要ない。そこで、組み合わせ決定部110は、第1の匿名グループを除く残りのレコード間の類似度に基づいて、次の匿名グループを決定する。
 図4は、説明を分かりやすくするため、図3からID1のレコードとID4のレコードとを削除した類似度のデータを示す図である。
 図4を参照すると、ID2のレコードとID3のレコードとの類似性が、最も高い。
 そこで、組み合わせ決定部110は、ID2のレコードとID3のレコードとを併合した匿名グループ(第2の匿名グループ)を決定する。この匿名グループは、2-匿名化を満たす。このため、組み合わせ決定部110は、第2の匿名グループを除く残りのレコード間の類似度に基づいて、次の匿名グループを決定する。
 残りのレコードは、ID5のレコードとID6のレコードとなる。組み合わせ決定部110は、2-匿名化を満たすために、匿名グループとして、残りのレコード(ID5とID6)を併合した匿名グループ(第3の匿名グループ)を決定する。
 なお、組み合わせ決定部110は、1回の処理で匿名グループを決定する必要はない。組み合わせ決定部110は、複数の処理を用いて匿名グループを決定しても良く、所定の処理を繰り返して匿名グループを決定しても良い。さらに、組み合わせ決定部110は、各処理において、類似度計算部120に、類似度を計算させても良い。
 例えば、組み合わせ決定部110が3-匿名化を保持する場合、組み合わせ決定部110は、ステップS1001で計算された類似度を基に、一度の処理で3-匿名化の匿名化グループを決定してもよい。
 一方、組み合わせ決定部110は、ステップS1001での類似度を基に、2-匿名化の匿名グループを決定する。それから、組み合わせ決定部110は、決定した2-匿名化の匿名グループに属するレコードの類似度を基に、3-匿名化の匿名グループを決定しても良い。この場合、組み合わせ決定部110は、類似度計算部120を用いて、匿名グループとグループとの類似度を計算する。
 さらに、k=3を超えるk-匿名化を保持する場合、組み合わせ決定部110は、類似度計算部120を用いて匿名グループ間の類似度を計算し、計算した類似度を基に、併合する匿名グループを決定しても良い。
 なお、類似度計算部120は、レコードと匿名グループの類似度として、例えば、そのレコードと匿名グループ内のレコードとの類似度の総和、平均、最小値又は最大値を用いても良い。
 あるいは、レコードがベクトル表現できる場合、類似度計算部120は、匿名グループを代表するベクトル(例えば、平均ベクトルや重心ベクトル)とレコードとの類似度を、類似度として用いても良い。
 なお、ここに記載のベクトルは、特に制限はない。
 しかし、例えば、類似度計算部120は、次のようなベクトルを用いても良い。
 レコードが含む所定の1つ又は複数のアイテムを座標軸とし、その座標軸を用いて表現される空間(アイテム空間)を想定する。すると、レコードが含む所定のアイテムを基に、このアイテム空間における、各レコードの位置及び位置ベクトルが、設定できる。
 平均ベクトルは、所定の匿名グループに含まれるレコードの位置ベクトルを平均したベクトルである。
 また、重心ベクトルは、所定の匿名グループに含まれるレコードに所定の重みを付け、重みを考慮してレコードの位置ベクトルを平均したベクトルである。
 また、類似度計算部120は、匿名グループ間の類似度として、各グループに含まれる所定範囲又は全てのレコード間の類似度の総和、平均、最大値又は最小値を用いてもよい。あるいは、類似度計算部120は、匿名グループを代表するベクトル(例えば、平均ベクトルや重心ベクトル)の類似度を、類似度として、用いても良い。
 次に、情報処理装置10は、決定したグループに基づき、匿名グループに含まれるレコードのアイテムを加工して、データを匿名化する(ステップS1003)。
 そのため、加工部130は、組み合わせ決定部110が決定した匿名グループを基に、匿名グループに含まれる、レコードに共通するアイテムを残し、他のアイテム(共通しないアイテム)を加工する。
 例えば、ステップS1002で生成された第1乃至第3の匿名グループの情報を用いる場合、加工部130は、次に説明するようにアイテムを加工する。
 まず、加工部130は、図15の第1の匿名グループに属するID1のレコードとID4のレコードとのアイテムを確認する。この場合、共通するアイテムは、品名{X、Y}である。そこで、加工部130は、品名{X、Y}のアイテムを残し、他のアイテムを削除する。同様に、加工部130は、第2の匿名グループに属するID2とID3の共通のアイテムを残して、他のアイテムを削除する。さらに、加工部130は、第3の匿名グループに属するID5とID6に共通するアイテムを残して、他のアイテムを削除する。
 図5は、加工部130が図15のレコードを加工した後の一例を示す図である。
 図5において、アイテムの削除を示すため「*」を付している。例えば、ID1のレコードは、{X、Y}を残して、他のアイテムを削除された。
 図5に示すように、本実施形態の情報処理装置10は、発生頻度が低いアイテム(図5のID1とID4の{X、Y})を残した匿名化を実現している。
 なお、加工部130は、アイテムの加工として削除に限る必要はない。
 例えば、加工部130は、概念木などの分類体系(タキソノミ)を用いて、アイテムを一般化(汎化)してもよい。
 図6は、階層化されたアイテムの一例を示す図である。アイテム{A、B、C}の上位概念は、「D」であり、アイテム{E、F、X、Y}の上位概念は、「W」であり、アイテム{G、H}の上位概念は、「J」である。
 例えば、図15のID2とID3を併合する場合、加工部130は、アイテム{G、H}の上位概念である「J」を用いて、{A、B、C、J}と加工しても良い。
 なお、本実施形態に係る情報処理装置10は、図1に示す構成に限られない。情報処理装置10は、各構成を別装置としてもよい。例えば、情報処理装置10は、組み合わせ決定部110を含むサーバと、類似度計算部120を含むサーバとを、図示しないネットワークを介して接続して構成されてもよい。
 また、情報処理装置10は、複数の構成を1つの構成としてもよい。例えば、組み合わせ決定部110は、類似度計算部120を含んでもよい。
 さらに、本実施形態の情報処理装置10の構成は、これまでの説明に限らない。
 情報処理装置10は、CPU(Central Processing Unit)と、ROM(Read Only Memory)と、RAM(Random Access Memory)とを含むコンピュータとして実現されても良い。
 図7は、本実施形態の別の構成である情報処理装置60の構成の一例を示すブロック図である。
 情報処理装置60は、CPU610と、ROM620と、RAM630と、IO(Input/Output)640と、記憶装置650と、入力機器660と、表示機器670とを含み、コンピュータを構成している。
 CPU610は、ROM620、又は、IO640を介して記憶装置650からプログラムを読み込む。そして、CPU610は、読み込んだプログラムに基づいて、図1の情報処理装置10の組み合わせ決定部110と、類似度計算部120と、加工部130としての各機能を実現する。CPU610は、各機能を実現する際に、RAM630及び記憶装置650を一時記憶として使用しても良い。また、CPU610は、IO640を介して、入力機器660から入力データを受信し、表示機器670にデータを表示する。
 なお、CPU610は、コンピュータで読み取り可能にプログラムを記憶した記憶媒体700が含むプログラムを、図示しない記憶媒体読み取り装置を用いて読み込んでも良い。あるいは、CPU610は、図示しないネットワークを介して、外部の装置からプログラムを受け取っても良い。
 ROM620は、CPU610が実行するプログラム、及び、固定的なデータを記憶する。ROM620は、例えば、P-ROM(Programmable-ROM)やフラッシュROMである。
 RAM630は、CPU610が実行するプログラムやデータを一時的に記憶する。RAM630は、例えば、D-RAM(Dynamic-RAM)である。
 IO640は、CPU610と、記憶装置650、入力機器660及び表示機器670とのデータを仲介する。IO640は、例えば、IOインターフェースカードである。
 記憶装置650は、情報処理装置60の長期的に保存するデータやプログラムを保存する。また、記憶装置650は、CPU610の一時記憶装置として動作しても良い。また、記憶装置650は、情報処理対象の情報を記憶しても良い。記憶装置650は、例えば、ハードディスク装置、光磁気ディスク装置、SSD、又は、ディスクアレイ装置である。
 入力機器660は、情報処理装置60の操作者からの入力指示を検出する入力部(検出部)である。入力機器660は、例えば、キーボード、マウス又はタッチパネルである。
 表示機器670は、情報処理装置60の表示部である。表示機器670は、例えば、液晶ディスプレイである。表示機器670は、図5に示す匿名化後のデータを表示しても良い。
 このように構成された情報処理装置60は、情報処理装置10と同様の効果を得ることができる。
 その理由は、情報処理装置60のCPU610が、プログラムに基づいて情報処理装置10と同様の動作を実現できるためである。
 このように、本実施形態に係る情報処理装置10は、第三者の情報分析に価値のある匿名化した情報を開示できる。
 その理由は、本実施形態の情報処理装置10が、次のとおり動作するからである。
 類似度計算部120は、出現頻度の低いアイテムを共有するレコード間の類似度を、高く計算する。
 そのため、組み合わせ決定部110は、出現頻度が低いアイテムを含むレコードを、匿名グループとして決定する。そのため、出現頻度が低いアイテムが、共通するアイテムとなる。そして、加工部130が、共通するアイテムを残して匿名化する。そのため、情報処理装置10は、出現頻度が低いアイテムが開示される匿名化を実現できる。
 (第2の実施形態)
 情報処理装置10は、予め設定する匿名化を保持している。しかし、匿名化は、取り扱う情報や提供する第三者に対応して変化する。
 そこで、第2の実施形態に係る情報処理装置20は、匿名化を変更する構成を含む。
 図8は、第2の実施形態に係る情報処理装置20の構成の一例を示すブロック図である。
 本実施形態に係る情報処理装置20は、第1の実施形態の情報処理装置10の類似度計算部120の替わりに、類似度計算部220を含み、さらに、匿名化方針受信部240と、類似度設定部250とを含む。
 情報処理装置20の他の構成は、情報処理装置10と同じである。そのため、本実施形態に特有の構成及び動作について説明し、第1の実施形態と同様の説明を、省略する。
 なお、本実施形態の情報処理装置20は、図7に示す情報処理装置60と同様に、CPU610と、ROM620と、RAM630とを含むコンピュータで実現されても良い。
 類似度計算部220は、第1の実施形態における、予め保持する類似度の計算の替わりに、類似度設定部250からの通知を基に、類似度を計算する。類似度計算部220は、類似度設定部250からの通知を基に計算する点を除き第1の実施形態と同様に動作する。そのため、類似度計算部220の詳細な説明を省略する。
 匿名化方針受信部240は、どのような匿名化を実施するかを示す匿名化方針を受信する。匿名化方針受信部240は、受信した匿名化方針を類似度設定部250に送る。
 なお、本実施形態において、匿名化方針の送信元は、特に制限はない。例えば、情報処理装置20は、図示しない管理装置からネットワークを介して匿名化方針を受信してもよい。あるいは、情報処理装置20は、管理者が操作する情報処理装置20の入力機器660を操作に基づいて匿名化方針を受け取っても良い。
 また、本実施形態の匿名化方針のデータ形式は、特に制限はない。例えば、匿名化方針は、単に、k-匿名化の「k」の値のように、具体的な値を含んでもよい。あるいは、匿名化方針は、「出現頻度が低いアイテムをより多く開示する」又は「共起頻度が指定の値以上のアイテムは同一視する」のように、より具体的な内容を含んでもよい。なお、ここでの「同一視する」とは、アイテムを区別しない、つまり、所定の1つのアイテムと同一と見做すことである。
 類似度設定部250は、受け取った匿名化方針を基に、類似度計算部220が用いる類似度を選択し、類似度計算部220に通知する。
 例えば、「出現頻度が低いアイテムをより多く開示する」を含む匿名化方針の場合、類似度設定部250は、第1の実施形態で説明したIDFを用いた類似度の計算を、類似度計算部220に指示しても良い。
 また、「共起頻度が指定の値以上のアイテムは同一視する」を含む匿名化方針の場合、類似度設定部250は、類似度計算部220に、匿名化方針に含まれるアイテムの同一視を通知する。
 例えば、類似度設定部250が、「共起頻度が3以上のアイテムを同一視する」との匿名化方針を受けた場合について、より詳細に説明する。
 類似度設定部250は、類似度計算部220に、「共起頻度が3以上のアイテムを同一視する」を通知する。
 類似度計算部220は、類似度設定部250から通知を受けると、共起頻度が3以上のアイテムを所定の1つのアイテムに置き換え、類似度(例えば、IDFの総和)を計算する。
 例えば、図15のデータを基に、「共起頻度が3以上のアイテムを同一視する」を適用した場合、類似度は、図3で示した類似度は異なる値となる。
 図9は、図15のデータに「共起頻度が3以上のアイテムを同一視する」を適用した類似度の一例を示す図である。図9に示す類似度の場合、情報処理装置20は、ID1とID4、ID2とID5、ID3とID6をグループ化する。
 図10は、この場合の匿名化後のデータの一例を示す図である。図10に示す匿名後のデータは、品名{X、Y}のアイテムに加え、出現頻度の低い品名{G}のアイテムや品名{H}のアイテムが開示されている。
 なお、類似度設定部250は、類似度計算部220に送る通知を、特に制限されない。例えば、類似度計算部220が複数の計算方法を保持する場合、類似度設定部250は、計算方法を指示してもよい。あるいは、類似度設定部250は、計算に用いる計算式や計算式のパラメータを類似度計算部220に通知しても良い。
 例えば、類似度計算部220が、類似度して、次の式で示す値(SIM:SIMilarity)を用いるとする。
  SIM=Σlog(1/freq(i)β)=Σ{-(β)×log(freq(i))}
 ここで、「freq(i)」は、アイテムiの出現頻度を示す関数である。また、βは、類似度設定部250が、類似度計算部220に通知するパラメータである。
 βが負の値の場合、出現頻度が高いアイテムは、出現頻度が低いアイテムに比べ、SIMの値が、大きくなる。一方、βが正の値の場合、出現頻度が高いアイテムは、出現頻度が低いアイテムに比べ、SIMの値が、小さくなる。
 そのため、類似度設定部250は、匿名化方針を基に、適切なパラメータβの値を類似度計算部220に通知すればよい。
 次に、図面を参照して、第2の実施形態の動作を説明する。
 図11は、第2の実施形態の情報処理装置20の動作の一例を示すフローチャートである。
 情報処理装置20は、匿名化方針を受信する(ステップS2004)。具体的には、匿名化方針受信部240は、匿名化方針を受信し、類似度設定部250に送る。なお、情報処理装置20は、1回に限らず複数回に分けて、匿名化方針を受信してもよい。
 次に、情報処理装置20は、受信した匿名化方針を基に、類似度に用いる計算を設定する(ステップS2005)。具体的には、類似度設定部250は、匿名化方針を基に、実施する類似度の計算についての情報を、類似度計算部220に送信する。
 そして、情報処理装置20は、レコード間の類似度を計算する(ステップS2006)。具体的には、組み合わせ決定部110は、類似度の計算を、類似度計算部220に指示する。そして、類似度計算部220は、類似度設定部250の指示に基づく計算を用いて、類似度を計算する。
 以降の動作は、第1の実施形態の同様である。
 このように、第2の実施形態に係る情報処理装置20は、第1の実施形態に係る効果に加え、匿名化を変更する効果を得ることができる。
 その理由は、第2の実施形態に係る情報処理装置20が次のとおり動作するからである。
 匿名化方針受信部240は、匿名化方針を受信する。そして、類似度設定部250は、受信した匿名化方針に基づき、類似度計算部220に、類似度の計算に関する情報を通知する。類似度計算部220は、通知された類似度を用いて、レコードの類似度を計算するためである。
 (第3の実施形態)
 これまでの説明では、アイテムに区別を付けないで説明した。
 しかし、情報を開示において、予め重要なアイテムが、分かっている場合がある。
 そこで、第3の実施形態に係る情報処理装置30は、アイテムの重要性又は優先度を用いる。
 図12は、第3の実施形態に係る情報処理装置30の構成の一例を示すブロック図である。
 本実施形態に係る情報処理装置30は、第2の実施形態の情報処理装置20と比較して、優先度受信部360を含む。そして、情報処理装置30は、情報処理装置20の類似度設定部250と組み合わせ決定部110との替わりに、類似度設定部350と組み合わせ決定部310とを含む。
 情報処理装置30の他の構成は、情報処理装置20と同じである。そのため、以下の説明では、本実施形態に特有の構成及び動作について説明し、第2の実施形態と同様の説明を、省略する場合がある。また、本実施形態の情報処理装置30は、図7に示す情報処理装置60と同様に、CPU610と、ROM620と、RAM630とを含むコンピュータで実現されても良い。
 優先度受信部360は、開示するアイテムの優先度を受信する。優先度受信部360は、受信した優先度を、類似度設定部350と組み合わせ決定部310とに送る。
 なお、本実施形態の情報処理装置30は、優先度の送信元を、特に制限されない。例えば、情報処理装置30は、図示しない管理装置からネットワークを介して、優先度を受信してもよい。あるいは、情報処理装置30は、管理者の情報処理装置30の入力機器660を操作に基づいて、優先度を受信しても良い。
 なお、本実施形態の優先度のデータ形式は、特に制限はない。例えば、優先度は、各アイテムの優先度を示す値(例えば、10段階の数値)でもよく、優先度の程度(例えば、高/中/低)でもよく、優先度が高いアイテムを示す情報(例えば、品名)でもよい。
 類似度設定部350は、匿名化方針と優先度とを基に、類似度計算部220が優先度に用いる計算を指示する。
 組み合わせ決定部310は、類似度計算部220が計算した類似度に加え、優先度受信部360から受け取った優先度を基に、レコード間のグループを決定する。
 具体的なデータの一例として、図13のデータを用いて説明する。
 例えば、図13のデータにおいて、アイテム{G}の優先度が「高」、アイテム{C}の優先度が「中」、他のアイテムの優先度が「低」とし、匿名化方針が、「2-匿名化」とする場合を想定する。
 なお、以下の説明では、説明を簡単にするため、類似度についての判定を省略する。
 この場合、組み合わせ決定部310は、まず、アイテム{G}を含むID2のレコードとID5のレコードを匿名グループと決定する。次に、組み合わせ決定部310は、アイテム{C}を含むID1のレコードとID3のレコードを匿名グループと決定する。そして、組み合わせ決定部310は、ID4のレコードとID6のレコードを匿名グループと決定する。
 図13は、上記の匿名化後のデータの一例を示す図である。優先度が高いアイテム{G}が、開示されている。
 次に図面を用いて、第3の実施形態の情報処理装置30の動作を説明する。
 図14は、第3の実施形態に係る情報処理装置30の動作の一例を示すフローチャートである。
 情報処理装置30は、優先度を受信する(ステップS3007)。具体的には、優先度受信部360は、優先度を受信し、類似度設定部350に送る。
 そして、情報処理装置30は、匿名化方針を受信する(ステップS2004)。
 なお、情報処理装置30は、ステップS3007とステップS2004との順番を入れ替えても良い。また、情報処理装置30は、ステップS3007又はステップS2004の処理を複数に分けても良い。
 情報処理装置30は、優先度と匿名化方針とを基に、類似度の計算を設定する(ステップS3008)。具体的には、類似度設定部350が、類似度計算部220に計算を指示する。
 次に、情報処理装置30は、レコード間の類似度を計算する(ステップS2006)。具体的には、組み合わせ決定部310が、類似度計算部220に指示する。そして、類似度計算部220が、類似度を計算する。
 そして、情報処理装置30は、類似度と優先度とを基にレコードのグループを決定する(ステップS3009)。具体的には、組み合わせ決定部310が、類似度と優先度とを基にグループを決定する。
 そして、情報処理装置30は、決定してグループを基に、匿名化のために、アイテムを加工する(ステップ1003)。具体的には、加工部130が、アイテムを加工する。
 なお、ここまでの説明において、類似度設定部350と組み合わせ決定部310とが、共に、優先度を用いるように説明した。しかし、本実施形態の情報処理装置30は、これに限る必要はない。類似度設定部350又は組み合わせ決定部310のいずれか一方が、類似度を用いても良い。
 このように第3の実施形態に係る情報処理装置30は、第2の実施形態に係る効果に加え、優先度に基づいて、アイテムを開示できる効果を得ることができる。
 その理由は、第3の実施形態に係る情報処理装置30が、次のとおり動作するからである。
 優先度受信部360は、アイテムの優先度を受信する。そして、類似度設定部350及び/又は組み合わせ決定部310は、第2の実施形態の動作に加え、優先度に基づいて動作するためである。
 以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 この出願は、2012年06月18日に出願された日本出願特願2012-137068を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 10 情報処理装置
 20 情報処理装置
 30 情報処理装置
 60 情報処理装置
 110 組み合わせ決定部
 120 類似度計算部
 130 加工部
 220 類似度計算部
 240 匿名化方針受信部
 250 類似度設定部
 310 組み合わせ決定部
 350 類似度設定部
 360 優先度受信部
 610 CPU
 620 ROM
 630 RAM
 640 IO
 650 記憶装置
 660 入力機器
 670 表示機器

Claims (9)

  1.  複数の情報を含む情報の組の間の類似度として、前記情報の出現頻度の増加に対して単調減少又は前記情報の出現頻度の減少に対して単調増加する情報を算出する類似度計算手段と、
     前記類似度を用いて、匿名化の対象となる前記情報の組の組み合わせを決定する組み合わせ決定手段と、
     前記組み合わせ決定手段が決定した組み合わせを基に、前記情報の組に含まれる情報の少なくとも一部を匿名化のために加工する加工手段と
     を含む情報処理装置。
  2.  匿名化の方針を含む匿名化方針を受信する匿名化方針受信手段と、
     前記匿名化方針を基に前記類似度計算手段における前記類似度の計算方法を設定する類似度設定手段と
     を含む請求項1に記載の情報処理装置。
  3.  前記情報の優先を示す優先度を受信する優先度受信手段を含み、
     前記類似度設定手段は、前記優先度を基に前記類似度計算手段における前記類似度の計算方法を設定し、
     前記組み合わせ設定手段は、前記優先度を基に組み合わせを決定する
     請求項2に記載の情報処理装置。
  4.  前記加工手段は、前記組み合わせに含まれるグループ間で共通しないアイテムを削除する請求項1乃至請求項3のいずれか1項に記載の情報処理装置。
  5.  前記加工手段は、前記組み合わせに含まれるグループ間で共通しないアイテムを上位概念に加工する請求項1乃至請求項3のいずれか1項に記載の情報処理装置。
  6.  複数の情報を含む情報の組の間の類似度として、前記情報の出現頻度の増加に対して単調減少又は前記情報の出現頻度の減少に対して単調増加する情報を算出し、
     前記類似度を用いて、匿名化の対象となる前記情報の組の組み合わせを決定し、
     前記決定した組み合わせを基に、前記情報の組に含まれる情報の少なくとも一部を匿名化のために加工する
     情報匿名化方法。
  7.  匿名化の方針を含む匿名化方針を受信し、
     前記匿名化方針を基に前記類似度の計算方法を設定する
     請求項6に記載の情報匿名化方法。
  8.  前記情報の優先を示す優先度を受信し、
     前記優先度を基に前記類似度の計算方法を設定し、
     前記優先度を基に前記組み合わせを決定する
     請求項7に記載の情報匿名化方法。
  9.  複数の情報を含む情報の組の間の類似度として、前記情報の出現頻度の増加に対して単調減少又は前記情報の出現頻度の減少に対して単調増加する情報を算出する処理と、
     前記類似度を用いて、匿名化の対象となる前記情報の組の組み合わせを決定する処理と、
     前記決定した組み合わせを基に、前記情報の組に含まれる情報の少なくとも一部を匿名化のために加工する処理と
     をコンピュータに実行させるプログラム。
PCT/JP2013/003726 2012-06-18 2013-06-13 情報処理装置、及び、情報匿名化方法 WO2013190810A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2012137068 2012-06-18
JP2012-137068 2012-06-18

Publications (1)

Publication Number Publication Date
WO2013190810A1 true WO2013190810A1 (ja) 2013-12-27

Family

ID=49768424

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2013/003726 WO2013190810A1 (ja) 2012-06-18 2013-06-13 情報処理装置、及び、情報匿名化方法

Country Status (1)

Country Link
WO (1) WO2013190810A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016203555A1 (ja) * 2015-06-16 2016-12-22 株式会社日立製作所 類似性秘匿検索システム、類似性秘匿検索方法
JP6148370B1 (ja) * 2016-03-29 2017-06-14 西日本電信電話株式会社 グループ化装置、グループ化方法及びコンピュータプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008217425A (ja) * 2007-03-05 2008-09-18 Hitachi Ltd 情報出力装置、情報出力方法、及び、情報出力プログラム
JP2009020646A (ja) * 2007-07-11 2009-01-29 Hitachi Ltd 文字列匿名化装置、文字列匿名化方法及び文字列匿名化プログラム
JP2011065270A (ja) * 2009-09-15 2011-03-31 Fujitsu Ltd 出力制御プログラムおよび出力制御装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008217425A (ja) * 2007-03-05 2008-09-18 Hitachi Ltd 情報出力装置、情報出力方法、及び、情報出力プログラム
JP2009020646A (ja) * 2007-07-11 2009-01-29 Hitachi Ltd 文字列匿名化装置、文字列匿名化方法及び文字列匿名化プログラム
JP2011065270A (ja) * 2009-09-15 2011-03-31 Fujitsu Ltd 出力制御プログラムおよび出力制御装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YOSHINORI SATO ET AL.: "An Anonymization Technique with Considering Identification Risk", SYMPOSIUM ON MULTIMEDIA, DISTRIBUTED, COOPERATIVE AND MOBILE SYSTEMS (DICOM02007) RONBUNSHU, IPSJ SYMPOSIUM SERIES, vol. 2007, no. 1, 7 April 2009 (2009-04-07), pages 1182 - 1189 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016203555A1 (ja) * 2015-06-16 2016-12-22 株式会社日立製作所 類似性秘匿検索システム、類似性秘匿検索方法
JPWO2016203555A1 (ja) * 2015-06-16 2018-02-15 株式会社日立製作所 類似性秘匿検索システム、類似性秘匿検索方法
JP6148370B1 (ja) * 2016-03-29 2017-06-14 西日本電信電話株式会社 グループ化装置、グループ化方法及びコンピュータプログラム
JP2017182304A (ja) * 2016-03-29 2017-10-05 西日本電信電話株式会社 グループ化装置、グループ化方法及びコンピュータプログラム

Similar Documents

Publication Publication Date Title
JP6712529B2 (ja) 暗号化済データを匿名化するためのコンピュータで実施されるシステムおよび方法
Zhang et al. Proximity-aware local-recoding anonymization with mapreduce for scalable big data privacy preservation in cloud
US20170277907A1 (en) Abstracted Graphs from Social Relationship Graph
EP3477528B1 (en) Data anonymization in an in-memory database
US20180293283A1 (en) Systems and methods of controlled sharing of big data
Sangeetha et al. Privacy of big data: a review
Gardner et al. SHARE: system design and case studies for statistical health information release
US20160306999A1 (en) Systems, methods, and computer-readable media for de-identifying information
US20210165913A1 (en) Controlling access to de-identified data sets based on a risk of re- identification
Jiang et al. Privacy technology to support data sharing for comparative effectiveness research: a systematic review
Sisodia et al. Fast prediction of web user browsing behaviours using most interesting patterns
Gkoulalas-Divanis et al. PCTA: privacy-constrained clustering-based transaction data anonymization
Xia et al. RU policy frontiers for health data de-identification
JP2013200659A (ja) 属性選択装置、情報匿名化装置、属性選択方法、情報匿名化方法、属性選択プログラム、及び情報匿名化プログラム
Prince Reproductive health surveillance
JP2013190838A (ja) 情報匿名化システム、情報損失判定方法、及び情報損失判定プログラム
Charleux et al. True spatial k-anonymity: Adaptive areal elimination vs. adaptive areal masking
JP2017228255A (ja) 評価装置、評価方法及びプログラム
Bewong et al. A relative privacy model for effective privacy preservation in transactional data
JP2015141642A (ja) 利用同意管理装置
WO2013190810A1 (ja) 情報処理装置、及び、情報匿名化方法
Han et al. Differentially private top-k query over MapReduce
Lin et al. Anonymization of multiple and personalized sensitive attributes
JP7154884B2 (ja) 情報秘匿化方法、情報秘匿化プログラム、情報秘匿化装置および情報提供システム
JP7088863B2 (ja) 提供装置、提供方法及び提供プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13806881

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 13806881

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP