WO2020175306A1 - Anonymizing device, anonymizing method, and program - Google Patents

Anonymizing device, anonymizing method, and program Download PDF

Info

Publication number
WO2020175306A1
WO2020175306A1 PCT/JP2020/006714 JP2020006714W WO2020175306A1 WO 2020175306 A1 WO2020175306 A1 WO 2020175306A1 JP 2020006714 W JP2020006714 W JP 2020006714W WO 2020175306 A1 WO2020175306 A1 WO 2020175306A1
Authority
WO
WIPO (PCT)
Prior art keywords
anonymization
anonymized
partial
master
attributes
Prior art date
Application number
PCT/JP2020/006714
Other languages
French (fr)
Japanese (ja)
Inventor
禅 石倉
長谷川 聡
高橋 誠治
進 角田
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to JP2021502128A priority Critical patent/JP7088405B2/en
Priority to CN202080016418.5A priority patent/CN113474778B/en
Priority to EP20763879.2A priority patent/EP3933635B1/en
Priority to US17/294,417 priority patent/US11972021B2/en
Publication of WO2020175306A1 publication Critical patent/WO2020175306A1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof

Definitions

  • the present invention relates to anonymization technology.
  • a table is data that includes N (N is an integer of 1 or more) records that are a set of values for M (M is an integer of 2 or more) attributes.
  • a record is called a row, and a set of values for a certain attribute (for example, name) is called a column.
  • the first row of the table in Figure 1 is (Mr. A, Male, 30s, Convenience store, 150),
  • the first column is (A, C, E, A, B, D, E).
  • the size of the table is expressed as MXN.
  • the attribute value included in the table is called the element of the table.
  • Attributes that are anonymized by the anonymization technology described in Non-Patent Document 1 or 2 are master attributes, and other attributes, that is, attributes that are not anonymized by the anonymization technology. Is called a history attribute.
  • attribute deletion deleting a set of attribute values for a certain master attribute, that is, a column is called attribute deletion. Attribute deletion is an example of anonymization technology.
  • Non-Patent Document 1 Latanya Sweeney, “k-anonymity: a model for protecting privacy, International Journal of Uncertainty, Fuzziness and Know Led. ge-Based Systems, Vo l. 10, Issue 5, October 2002.
  • Non-patent document 2 Dai Igarashi, Koji Senda, Katsumi Takahashi, “Extension of k-anonymity to probabilistic index and its application example”, Computer Security Symposium 2010 (CSS2 009), pp. 1-6, October 2009.
  • Non-Patent Document 1 and Non-Patent Document 2 target a table composed of special records in which a master attribute value pair and a history attribute value pair have a one-to-one correspondence.
  • anonymization process to protect the data Therefore, for example, in the table in Fig. 1, we try to anonymize using the k-anonymization as the two attributes of the master attribute: three attributes of name, gender, and age group, history attribute of purchase store, and purchase price. Then, it cannot be applied as it is.
  • the method of dividing the table and making it anonymous is explained below.
  • FIG. 1 Focusing on a certain history attribute, consider dividing the table according to its value. Focusing on the purchase store, Figure 1 can be divided into the two tables shown in Figure 2, namely, the table showing the purchase history at the convenience store and the table showing the purchase history at the supermarket.
  • the two tables in Figure 2 are equivalent to the table in Figure 1, and there is no difference in the information that the two tables in Figure 2 and the table in Figure 1 represent.
  • the two tables in Fig. 2 obtained by dividing the table in Fig. 1 each have a one-to-one correspondence between the master attribute value pairs and the history attribute value pairs.
  • the shaded parts represent the anonymized elements.
  • the table obtained by anonymizing the table in Figure 1 is a table with all records deleted, as in the table in Figure 4.
  • the table showing the purchase history at the convenience store is 1
  • the table obtained by anonymizing the table in Figure 1 is a table with one deleted record, like the table in Figure 6.
  • the data of Mr. Mami's purchase history at the supermarket remains after anonymization, but the data of his purchase history at the convenience store is deleted, and the data about Mr. The combination relationship of is destroyed.
  • an object of the present invention is to provide a technique for anonymizing data without impairing its usefulness.
  • One aspect of the present invention is that 11/1 is an integer of 2 or more that represents the number of attributes, 1 ⁇ 1 is an integer of 1 or more that represents the number of records, and 1 is 1 or more that represents the number of master attributes.
  • An integer less than or equal to 1,! Let _ be an integer greater than or equal to 1 and less than or equal to 1 ⁇ 1 that represents the number of different sets of master attribute values, and from the anonymization target table of 11/1 X 1 ⁇ , set the number of master attribute value sets. Contains different records from the anonymization target table And a de-duplication unit that generates an anonymized partial table of 1 ⁇ 1 XI ⁇ that is an anonymization of the partial table for each master attribute from the partial table.
  • Fig. 1 is a diagram showing an example of an anonymization target table.
  • Fig. 2 is a diagram illustrating a method of dividing a table to make it anonymous.
  • Fig. 3 is a diagram illustrating a method of dividing a table to make it anonymous.
  • FIG. 4 A diagram for explaining a method of dividing a table to make it anonymous.
  • FIG. 5 is a diagram illustrating a method of anonymizing a table by dividing it.
  • FIG. 6 is a diagram illustrating a method of dividing a table to make it anonymous.
  • FIG. 7 is a block diagram showing an example of the configuration of the anonymization device 100.
  • FIG. 8 is a flowchart showing an example of the operation of the anonymization device 100.
  • FIG. 9 is a block diagram showing an example of the configuration of the deduplication unit 110.
  • FIG. 10 is a flowchart showing an example of the operation of the deduplication unit 110.
  • FIG. 11 is a diagram showing an example of an anonymization target table.
  • Ru Figure der to FIG. 12 shows the _ examples of the resulting table generation process of coding already table.
  • FIG. 13 is a diagram showing an example of an encoded table.
  • FIG. 14 is a diagram showing an example of a table obtained in the process of generating the duplicate record number table.
  • FIG. 15 is a diagram showing an example of a table obtained in the process of generating the duplicate record number table.
  • FIG. 16 is a view to view the _ examples of the resulting table generation process duplicate record number table.
  • FIG. 17 is a diagram showing an example of a duplicate record number table.
  • FIG. 18 is a diagram showing an _ example of the resulting table generation process parts table. Is a diagram illustrating an _ example of the resulting table generation process in FIG. 19 parts table. ⁇ 0 2020/175306 5 ⁇ (: 170? 2020 /006714
  • FIG. 20 is a diagram showing an example of a partial table.
  • FIG. 21 is a diagram showing an example of an anonymized partial table.
  • FIG. 22 is a diagram showing an example of an anonymized table.
  • 11/1 is an integer of 2 or more that represents the number of attributes
  • 1 ⁇ 1 is an integer of 1 or more that represents the number of records
  • anonymized target table of 11/1 X 1 ⁇ is generated by anonymizing the anonymization target table for approximately master attributes. To do.
  • FIG. 7 is a block diagram showing the configuration of the anonymization device 100.
  • FIG. 8 is a flow chart showing the operation of the anonymization device 100.
  • the anonymization device 100 includes a deduplication unit 110, anonymization unit 120, duplication restoration unit 130, and recording unit 190.
  • the recording unit 190 is a component that appropriately records information necessary for the processing of the anonymization device 100.
  • the recording unit 190 records, for example, a table generated in the process of processing by the anonymization device 100 such as an anonymization target table.
  • the deduplication unit 1 10 inputs the anonymization target table of 11/1 X 1 ⁇ , and from the anonymization target table, the sets of values of the master attribute of each are mutually exclusive. Generates a 1 ⁇ x 1 ⁇ partial table containing different records of different tables to be anonymized and outputs the partial table.
  • FIG. 9 is a block diagram showing the configuration of the deduplication unit 110.
  • FIG. 10 is a flow chart showing the operation of the deduplication unit 110. As shown in Fig. 9, the deduplication unit 1 1 1 0 It includes a record number table generator 1 1 3 and a partial table generator 1 1 5.
  • deduplication unit 110 The operation of the deduplication unit 110 will be described with reference to FIG.
  • the encoded table generation unit 1 1 1 1 is a master table of p XN that includes N records that are pairs of values of p master attribute values from the anonymization target table. Is generated, and the encoded table of p XN in which the values of the master attribute table are encoded is generated.
  • the encoded table generation unit 1 11 1 generates the master attribute table of FIG. 12 from the anonymization target table of FIG. 11.
  • the encoded table generation unit 1 11 generates the encoded table of FIG. 13 from the master attribute table of FIG.
  • the encoded table is a table obtained by encoding according to the rule that elements of the master attribute table having the same value are assigned the same integer value.
  • S 1 1 3 duplicate record number table generating unit 1 1 3, from the coding already table generated by the S 1 1 1, anonymization target set of values of p number of master attribute is the same _ Generate a 2XL duplicate record number table that has a set of record numbers of the records in the table and a set of key values that are the elements (for example, the minimum value of the set) of the set.
  • the record number is a number that identifies a record included in the anonymization target table.
  • the duplicate record number table generation unit 1 13 generates the coded table with record numbers of FIG. 14 from the coded table of FIG.
  • the coded table with record numbers is a (p+1) XN table obtained by adding the record number sequence to the coded table.
  • the duplicate record number table generation unit 1 13 generates the duplicate record number table of FIG. 17 from the encoded table with the record number of FIG.
  • the duplicate record number table generator 1 1 3 generates, for example, a 2 XN table using the map structure shown in FIG. 15 and a 2 XL table using the map structure shown in FIG. Generate a record number table.
  • the map structure means that for one attribute, the values of multiple relevant attributes are combined into one. ⁇ 0 2020/175306 7 ⁇ (: 170? 2020/006714
  • the partial table generation function ⁇ 1 15 generates the record numbered anonymization target table of Fig. 18 from the anonymization target table of Fig. 11.
  • the anonymization target table with record numbers is a (11/1+1) 1 ⁇ 1 table obtained by adding a column of record numbers to the anonymization target table.
  • the partial table generation unit 115 generates the partial table of FIG. 20 from the record number-added anonymization target table of FIG. 18 and the duplicate record number table of FIG. At that time, the partial table generation unit 115 generates, for example, the partial table with record numbers shown in FIG. 19 and the partial table.
  • the anonymization unit 120 inputs the partial table generated in 3110, and anonymizes the partial table from the partial table for a master attribute of 1 unit. Generate the anonymized partial table of ⁇ X1 ⁇ and output the anonymized partial table.
  • the anonymization unit 120 generates the anonymized partial table of FIG. 21 from the partial table of FIG.
  • a record shuffle that changes the order of records (upper and lower) may be used.
  • the anonymization unit 120 When performing anonymization including a process of changing the order of records like record shuffle, the anonymization unit 120 generates a table showing transition of record numbers.
  • the duplication restoration unit 1300 uses the anonymization target table, the anonymized partial table generated in 3120, and the duplicate record number table generated in 3110. ⁇ 2020/175306 8 ⁇ (: 170? 2020/006714
  • Duplicate restoration unit 1 3 0 anonymous Kasumi portion Te _ table of FIG 1, to produce a anonymization already table of FIG 2.
  • the duplication restoration unit 1300 determines the anonymization target table and the anonymized part generated in 3120. Input the table and the duplicate record number table generated in 3110 and the table that represents the transition of the record number generated in 3120, and enter the duplicate record number table and the record from the anonymization target table and the anonymized partial table. Anonymized table is generated using the table showing the number transition and the anonymized table is output.
  • the device of the present invention is, for example, as a single hardware entity, an input unit to which a keyboard or the like can be connected, an output unit to which a liquid crystal display or the like can be connected, a communication device capable of communicating with the outside of the hardware entity (for example, communication. Communication part that can be connected, It may have cache memory, registers, etc.), memory
  • External storage device that is a hard disk and its input, output, and communication units, ⁇ 11, [3 ⁇ 41 ⁇ /1, It has a bus to connect it so that data can be exchanged between external storage devices.
  • the hardware entity It is also possible to provide a device (drive) capable of reading and writing a recording medium such as.
  • General-purpose computers are examples of physical entities that have such hardware resources.
  • the external storage device of the hardware entity is necessary for the program required to realize the above-mentioned functions and the processing of this program.
  • Data, etc. are stored (not limited to an external storage device, for example, the program may be stored in a ROM which is a read-only storage device). Further, data and the like obtained by the processing of these programs are appropriately stored in the RAM, an external storage device, or the like.
  • each program stored in the external storage device (or ROM, etc.) and the data necessary for the processing of each program are read into the memory as necessary, and are interpreted and executed by the CPU as appropriate. It is processed. As a result, C P U realizes a predetermined function (each component described above, part, means, etc.).
  • the present invention is not limited to the above-mentioned embodiments, and can be modified as appropriate without departing from the spirit of the present invention. Further, the processing described in the above embodiments is not only executed in time series in the order described, but also in parallel or individually in accordance with the processing capability of the device that executes the processing or the need. Good.
  • the processing function of (the device of the present invention) is realized by a computer
  • the processing content of the function that the hardware entity should have is described by a program. Then, by executing this program on the computer, the processing function of the hardware entity is realized on the computer.
  • the program describing the processing contents can be recorded in a computer-readable recording medium.
  • the computer-readable recording medium may be, for example, any magnetic recording device, optical disk, magneto-optical recording medium, semiconductor memory, or the like.
  • a magnetic recording device is a hard disk device, a flexible disk, a magnetic tape, etc.
  • an optical disc is a DVD (Digital Versatile Disc), a DVD-RAM (Random Access Memory), a CD-ROM (Compact). Disc Read Only Memory), CD-R (Recordable) /RW (Rewritable), etc.
  • Magneticto-Optical disc
  • semiconductor memory such as EEP-R ⁇ M (Electrically Erasable and Programmable-Read Only Memory) etc.
  • the distribution of this program is, for example, a DV recording the program.
  • the program may be stored in a storage device of a server computer and transferred from the server computer to another computer via a network to distribute the program.
  • a computer that executes such a program for example, first temporarily stores the program recorded on a portable recording medium or the program transferred from the server computer in its own storage device.
  • the computer reads the program stored in its own storage device and executes the process according to the read program.
  • the computer may read the program directly from the portable recording medium and execute the processing according to the program.
  • the program is transferred from the server computer to this computer. It is also possible to execute processing according to the received program one after another.
  • the so-called ASP (Application Service Provider) type service which does not transfer the program from the server computer to this computer, realizes the processing function only by the execution instruction and the result acquisition, is used. It may be configured to execute processing.
  • the program in this embodiment includes information used for processing by an electronic computer and conforms to the program (data that is not a direct command to the computer but has the property of defining the processing of the computer, etc.). ..
  • the hardware entity is configured by executing a predetermined program on the computer, but at least a part of these processing contents is realized by hardware. It may be that. ⁇ 0 2020/175 306 1 1 ⁇ (: 170? 2020 /006714

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

The present invention provides technology for anonymizing data without impairing the usefulness of the data. The present invention includes: a duplicate elimination unit for generating, from M×N anonymization object tables, M×L partial tables that include the records of L anonymization object tables in which sets of values of p master attributes are mutually different, with M denoting the number of attributes, N denoting the number of records, p denoting the number of master attributes, L denoting the number of sets of values of mutually different p master attributes; an anonymization unit for generating, from the partial tables, M×L pre-anonymized partial tables in which the partial tables are anonymized with respect to the p master attributes; and a duplicate restoration unit for generating, from the anonymization object tables and pre-anonymized partial tables, M×N pre-anonymized tables in which the anonymization object tables are anonymized with respect to the p master attributes.

Description

明 細 書 Specification
発明の名称 : 匿名化装置、 匿名化方法、 プログラム Title of invention: Anonymization device, anonymization method, program
技術分野 Technical field
[0001] 本発明は、 匿名化技術に関する。 The present invention relates to anonymization technology.
背景技術 Background technology
[0002] 近年、 データマイニングにおいてプライバシーを保護しながら結果を得る ことができるプライバシー保護データマイニングと呼ばれる技術が注目され ている。 このような技術として、 非特許文献 1 に記載の k-匿名化や非特許文 献 2に記載の Pk-匿名化がある。 [0002] In recent years, a technique called privacy-preserving data mining, which can obtain a result while protecting privacy in data mining, has attracted attention. Such techniques include k-anonymization described in Non-Patent Document 1 and Pk-anonymization described in Non-Patent Document 2.
[0003] これらの匿名化技術の処理対象は、 図 1 に示すようなテーブルである。 こ こで、 テーブルとは、 M (Mは 2以上の整数) 個の属性に対して、 その値の組で あるレコードを N (Nは 1以上の整数) 個含むデータである。 また、 レコードの ことを行、 ある属性 (例えば、 氏名) の値の組のことを列という。 例えば、 図 1のテーブルの 1行目は、 (Aさん, 男, 30代, コンビニ, 150) であり、 The processing target of these anonymization techniques is a table as shown in FIG. Here, a table is data that includes N (N is an integer of 1 or more) records that are a set of values for M (M is an integer of 2 or more) attributes. A record is called a row, and a set of values for a certain attribute (for example, name) is called a column. For example, the first row of the table in Figure 1 is (Mr. A, Male, 30s, Convenience store, 150),
1列目は (Aさん, Cさん, Eさん, Aさん, Bさん, Dさん, Eさん) である。 ま た、 テーブルのサイズを MXNと表す。 例えば、 図 1のテーブルは 5X7のテー ブル (M=5、 N=7) である。 テーブルに含まれる属性値のことをテーブルの要 素という。 The first column is (A, C, E, A, B, D, E). Also, the size of the table is expressed as MXN. For example, the table in Figure 1 is a 5X7 table (M=5, N=7). The attribute value included in the table is called the element of the table.
[0004] 非特許文献 1や非特許文献 2に記載の匿名化技術が匿名化対象とする属性 のことをマスター属性、 それ以外の属性、 つまり、 匿名化技術が匿名化対象 としない属性のことを履歴属性という。 また、 あるマスター属性に対する属 性値の組、 すなわち、 列を削除することを属性削除という。 属性削除は匿名 化技術の一例である。 [0004] Attributes that are anonymized by the anonymization technology described in Non-Patent Document 1 or 2 are master attributes, and other attributes, that is, attributes that are not anonymized by the anonymization technology. Is called a history attribute. In addition, deleting a set of attribute values for a certain master attribute, that is, a column is called attribute deletion. Attribute deletion is an example of anonymization technology.
先行技術文献 Prior art documents
非特許文献 Non-patent literature
[0005] 非特許文献 1 : Latanya Sweeney, “k-anonymity: a model for protecting p rivacy , International Journal of Uncertainty, Fuzziness and Know Led ge-Based Systems, Vo l. 10, Issue 5, October 2002. [0005] Non-Patent Document 1: Latanya Sweeney, “k-anonymity: a model for protecting privacy, International Journal of Uncertainty, Fuzziness and Know Led. ge-Based Systems, Vo l. 10, Issue 5, October 2002.
非特許文献 2 :五十嵐大, 千田浩司, 高橋克巳, “k-匿名性の確率的指標への 拡張とその適用例” , コンビュータセキュリティシンポジウム 2 0 0 9 (CSS2 009), pp. 1 -6, 2009年 10月. Non-patent document 2: Dai Igarashi, Koji Senda, Katsumi Takahashi, “Extension of k-anonymity to probabilistic index and its application example”, Computer Security Symposium 2010 (CSS2 009), pp. 1-6, October 2009.
発明の概要 Summary of the invention
発明が解決しようとする課題 Problems to be Solved by the Invention
[0006] 非特許文献 1や非特許文献 2に記載の匿名化技術では、 マスター属性の値 の組と履歴属性の値の組が 1対 1 に対応する特殊なレコードから構成される テーブルを対象として匿名化処理を行い、 データを保護する。 そのため、 例 えば、 図 1のテーブルに対して、 マスター属性を氏名、 性別、 年代の 3つの 属性、 履歴属性を購入店舗、 購入金額の 2つの属性として k-匿名化を用いて 匿名化しようとすると、 このままでは適用することができない。 この問題を 解決する方法として、 テーブルを分割して匿名化する方法を以下説明する。 [0006] The anonymization techniques described in Non-Patent Document 1 and Non-Patent Document 2 target a table composed of special records in which a master attribute value pair and a history attribute value pair have a one-to-one correspondence. As anonymization process to protect the data. Therefore, for example, in the table in Fig. 1, we try to anonymize using the k-anonymization as the two attributes of the master attribute: three attributes of name, gender, and age group, history attribute of purchase store, and purchase price. Then, it cannot be applied as it is. As a method to solve this problem, the method of dividing the table and making it anonymous is explained below.
[0007] ある 1つの履歴属性に着目し、 その値ごとにテーブルを分割することを考 える。 購入店舗に着目すると、 図 1は、 図 2に示す 2つのテーブル (すなわ ち、 コンビニでの購入履歴を示すテーブルとスーパーでの購入履歴を示すテ —ブル) に分割することができる。 図 2の 2つのテーブルは図 1のテーブル と等価であり、 図 2の 2つのテーブルと図 1のテーブルが表す情報に差はな い。 このように図 1のテーブルを分割して得られる、 図 2の 2つのテーブル は、 いずれもマスター属性の値の組と履歴属性の値の組が 1対 1 に対応する テーブルとなるが、 氏名を属性削除し、 k=3として性別、 年代で k-匿名化を行 うと、 いずれのテーブルもマスター属性の値の組が同一であるレコードを 3以 上含むことがないため、 図 3に示す、 すべてのレコードが削除された 2つの テーブルが得られる。 ここで、 網掛けされた箇所が匿名化された要素を表す 。 その結果、 図 1のテーブルを匿名化して得られるテーブルは、 図 4のテー ブルのように、 すべてのレコードが削除されたテーブルとなる。 [0007] Focusing on a certain history attribute, consider dividing the table according to its value. Focusing on the purchase store, Figure 1 can be divided into the two tables shown in Figure 2, namely, the table showing the purchase history at the convenience store and the table showing the purchase history at the supermarket. The two tables in Figure 2 are equivalent to the table in Figure 1, and there is no difference in the information that the two tables in Figure 2 and the table in Figure 1 represent. In this way, the two tables in Fig. 2 obtained by dividing the table in Fig. 1 each have a one-to-one correspondence between the master attribute value pairs and the history attribute value pairs. If the attributes are deleted and k-anonymization is performed by gender and age with k=3, no table contains more than three records with the same set of master attribute values. , I get two tables with all records deleted. Here, the shaded parts represent the anonymized elements. As a result, the table obtained by anonymizing the table in Figure 1 is a table with all records deleted, as in the table in Figure 4.
[0008] このように 1つの履歴属性に着目し、 その値ごとにテーブルを分割してそ れぞれのテーブルを匿名化する方法では、 _般に分割して得られるテーブル \¥0 2020/175306 3 卩(:170? 2020 /006714 [0008] In this way, by paying attention to one history attribute and dividing the table according to its value and anonymizing each table, \¥0 2020/175 306 3 卩 (: 170? 2020 /006714
に含まれるレコードの数が元のテーブルに含まれるレコードの数より少なく なるため、 削除されるレコードの数が多くなってしまい、 データ (図 1のテ —ブル) の有用性が損なわれてしまう結果となる。 Since the number of records contained in the table is smaller than the number of records contained in the original table, the number of deleted records will be larger and the usefulness of the data (table in Fig. 1) will be impaired. Will result.
[0009] また、 別の例として、 氏名を属性削除し、 1^=2として性別、 年代で 匿名化 を行うと、 図 5に示すように、 コンビニでの購入履歴を示すテーブルについ ては 1つのレコードが削除されたテーブル、 スーパーでの購入履歴を示すテ —ブルについてはレコードが削除されていないテーブルが得られる。 その結 果、 図 1のテーブルを匿名化して得られるテーブルは、 図 6のテーブルのよ うに、 1つのレコードが削除されたテーブルとなる。 図 6のテーブルをみる とわかるように、 巳さんのスーパーでの購入履歴のデータは匿名化後も残る _ 方で、 コンビニでの購入履歴のデータは削除されてしまい、 £さんに関するデ —夕の組み合わせ関係が崩れてしまう。 [0009] As another example, when the name is deleted from the attributes and anonymization is performed with 1^=2 as the gender and age, as shown in Fig. 5, the table showing the purchase history at the convenience store is 1 You will get a table with one deleted record and a table with no deleted records for the table showing the purchase history at the supermarket. As a result, the table obtained by anonymizing the table in Figure 1 is a table with one deleted record, like the table in Figure 6. As you can see from the table in Figure 6, the data of Mr. Mami's purchase history at the supermarket remains after anonymization, but the data of his purchase history at the convenience store is deleted, and the data about Mr. The combination relationship of is destroyed.
[0010] このように 1つの履歴属性に着目し、 その値ごとにテーブルを分割してそ れそれのテーブルを匿名化する方法では、 データの組み合わせ関係が崩れる ことによっても、 データ (図 1のテーブル) の有用性が損なわれてしまう結 果となる。 [0010] In this way, by focusing on one history attribute and dividing the table according to its value and anonymizing that table, even if the data combination relationship collapses, the data (Fig. 1 As a result, the usefulness of the table) is impaired.
[001 1 ] そこで本発明は、 データの有用性を損なうことなく、 匿名化する技術を提 供することを目的とする。 [001 1] Therefore, an object of the present invention is to provide a technique for anonymizing data without impairing its usefulness.
課題を解決するための手段 Means for solving the problem
[0012] 本発明の一態様は、 11/1を属性の数を表す 2以上の整数、 1\1をレコードの数を表 す 1以上の整数、 をマスター属性の数を表す 1以上 11/1以下の整数、 !_を互いに異 なる 個のマスター属性の値の組の数を表す 1以上 1\1以下の整数とし、 11/1 X 1^の匿 名化対象テーブルから、 卩個のマスター属性の値の組が互いに異なる、 し個の 前記匿名化対象テーブルのレコードを含む
Figure imgf000005_0001
の部分テーブルを生成する重 複排除部と、 前記部分テーブルから、 個のマスター属性を対象として前記部 分テーブルを匿名化した 1^1 X I·の匿名化済部分テーブルを生成する匿名化部と 、 前記匿名化対象テ _ブルと前記匿名化済部分テ _ブルから、 卩個のマスタ _ 属性を対象として前記匿名化対象テーブルを匿名化した 11/1 X 1^の匿名化済テー \¥0 2020/175306 4 卩(:170? 2020 /006714
[0012] One aspect of the present invention is that 11/1 is an integer of 2 or more that represents the number of attributes, 1\1 is an integer of 1 or more that represents the number of records, and 1 is 1 or more that represents the number of master attributes. An integer less than or equal to 1,! Let _ be an integer greater than or equal to 1 and less than or equal to 1\1 that represents the number of different sets of master attribute values, and from the anonymization target table of 11/1 X 1^, set the number of master attribute value sets. Contains different records from the anonymization target table
Figure imgf000005_0001
And a de-duplication unit that generates an anonymized partial table of 1^1 XI· that is an anonymization of the partial table for each master attribute from the partial table. , said to the anonymous subject Te _ Bull anonymous Kasumi part from Te _ Bull, 11/1 X 1 ^ anonymous pre-tape of which were anonymous the anonymous target table as the target master _ attribute of卩個 \\0 2020/175 306 4 卩 (: 170? 2020 /006714
ブルを生成する重複復元部とを含む。 And a deduplication unit that generates a bull.
発明の効果 Effect of the invention
[0013] 本発明によれば、 データの有用性を損なうことなく、 匿名化することが可 能になる。 [0013] According to the present invention, it is possible to anonymize data without impairing its usefulness.
図面の簡単な説明 Brief description of the drawings
[0014] [図 1]匿名化対象テーブルの _例を示す図である。 [0014] [Fig. 1] Fig. 1 is a diagram showing an example of an anonymization target table.
[図 2]テーブルを分割して匿名化する方法を説明する図である。 [Fig. 2] Fig. 2 is a diagram illustrating a method of dividing a table to make it anonymous.
[図 3]テーブルを分割して匿名化する方法を説明する図である。 [Fig. 3] Fig. 3 is a diagram illustrating a method of dividing a table to make it anonymous.
[図 4]テーブルを分割して匿名化する方法を説明する図である。 [FIG. 4] A diagram for explaining a method of dividing a table to make it anonymous.
[図 5]テーブルを分割して匿名化する方法を説明する図である。 [FIG. 5] FIG. 5 is a diagram illustrating a method of anonymizing a table by dividing it.
[図 6]テーブルを分割して匿名化する方法を説明する図である。 FIG. 6 is a diagram illustrating a method of dividing a table to make it anonymous.
[図 7]匿名化装置 1 0 0の構成の一例を示すブロック図である。 FIG. 7 is a block diagram showing an example of the configuration of the anonymization device 100.
[図 8]匿名化装置 1 0 0の動作の一例を示すフローチヤートである。 FIG. 8 is a flowchart showing an example of the operation of the anonymization device 100.
[図 9]重複排除部 1 1 0の構成の一例を示すブロック図である。 FIG. 9 is a block diagram showing an example of the configuration of the deduplication unit 110.
[図 10]重複排除部 1 1 0の動作の一例を示すフローチヤートである。 FIG. 10 is a flowchart showing an example of the operation of the deduplication unit 110.
[図 1 1]匿名化対象テーブルの一例を示す図である。 FIG. 11 is a diagram showing an example of an anonymization target table.
[図 12]符号化済テーブルの生成過程で得られるテーブルの _例を示す図であ る。 Ru Figure der to FIG. 12 shows the _ examples of the resulting table generation process of coding already table.
[図 13]符号化済テーブルの一例を示す図である。 FIG. 13 is a diagram showing an example of an encoded table.
[図 14]重複レコード番号テーブルの生成過程で得られるテーブルの一例を示 す図である。 FIG. 14 is a diagram showing an example of a table obtained in the process of generating the duplicate record number table.
[図 15]重複レコード番号テーブルの生成過程で得られるテーブルの一例を示 す図である。 FIG. 15 is a diagram showing an example of a table obtained in the process of generating the duplicate record number table.
[図 16]重複レコード番号テーブルの生成過程で得られるテーブルの _例を示 す図である。 FIG. 16 is a view to view the _ examples of the resulting table generation process duplicate record number table.
[図 17]重複レコード番号テーブルの一例を示す図である。 FIG. 17 is a diagram showing an example of a duplicate record number table.
[図 18]部分テーブルの生成過程で得られるテーブルの _例を示す図である。 [図 19]部分テーブルの生成過程で得られるテーブルの _例を示す図である。 \¥0 2020/175306 5 卩(:170? 2020 /006714 18 is a diagram showing an _ example of the resulting table generation process parts table. Is a diagram illustrating an _ example of the resulting table generation process in FIG. 19 parts table. \¥0 2020/175306 5 卩 (: 170? 2020 /006714
[図 20]部分テーブルの一例を示す図である。 FIG. 20 is a diagram showing an example of a partial table.
[図 21]匿名化済部分テーブルの一例を示す図である。 FIG. 21 is a diagram showing an example of an anonymized partial table.
[図 22]匿名化済テーブルの一例を示す図である。 FIG. 22 is a diagram showing an example of an anonymized table.
発明を実施するための形態 MODE FOR CARRYING OUT THE INVENTION
[0015] 以下、 本発明の実施の形態について、 詳細に説明する。 なお、 同じ機能を 有する構成部には同じ番号を付し、 重複説明を省略する。 [0015] Hereinafter, embodiments of the present invention will be described in detail. It should be noted that components having the same function are denoted by the same reference numeral, and redundant description will be omitted.
[0016] <第 1実施形態> [0016] <First Embodiment>
11/1を属性の数を表す 2以上の整数、 1\1をレコードの数を表す 1以上の整数、 を マスター属性の数を表す 1以上 11/1以下の整数、 !_を互いに異なる 個のマスター 属性の値の組の数を表す 1以上 |\|以下の整数とする。 匿名化装置 1 0 0は、
Figure imgf000007_0001
11/1 is an integer of 2 or more that represents the number of attributes, 1\1 is an integer of 1 or more that represents the number of records, is an integer of 1 or more and 11/1 or less that represents the number of master attributes,! Let _ be an integer greater than or equal to 1 and less than or equal to |\| that represents the number of different sets of master attribute values. Anonymization device 100
Figure imgf000007_0001
1\1の、 匿名化の処理対象となるテーブル (匿名化対象テーブル) から、 卩個の マスター属性を対象として匿名化対象テーブルを匿名化した 11/1 X 1^の匿名化済 テーブルを生成する。 From 1\1 anonymization target table (anonymization target table), anonymized target table of 11/1 X 1^ is generated by anonymizing the anonymization target table for approximately master attributes. To do.
[0017] 以下、 図 7〜図 8を参照して匿名化装置 1 0 0について説明する。 図 7は 、 匿名化装置 1 0 0の構成を示すブロック図である。 図 8は、 匿名化装置 1 0 0の動作を示すフローチヤートである。 図 7に示すように匿名化装置 1 0 〇は、 重複排除部 1 1 〇、 匿名化部 1 2 0、 重複復元部 1 3 0、 記録部 1 9 0を含む。 記録部 1 9 0は、 匿名化装置 1 0 0の処理に必要な情報を適宜記 録する構成部である。 記録部 1 9 0は、 例えば、 匿名化対象テーブルなど匿 名化装置 1 〇〇が処理する過程で生成するテーブルを記録する。 [0017] Hereinafter, the anonymization device 100 will be described with reference to FIGS. 7 to 8. FIG. 7 is a block diagram showing the configuration of the anonymization device 100. FIG. 8 is a flow chart showing the operation of the anonymization device 100. As shown in FIG. 7, the anonymization device 100 includes a deduplication unit 110, anonymization unit 120, duplication restoration unit 130, and recording unit 190. The recording unit 190 is a component that appropriately records information necessary for the processing of the anonymization device 100. The recording unit 190 records, for example, a table generated in the process of processing by the anonymization device 100 such as an anonymization target table.
[0018] 図 8に従い匿名化装置 1 0 0の動作について説明する。 [0018] The operation of the anonymization device 100 will be described with reference to FIG.
[0019] 3 1 1 0において、 重複排除部 1 1 0は、 11/1 X 1^の匿名化対象テーブルを入 力とし、 匿名化対象テーブルから、 卩個のマスター属性の値の組が互いに異な る、 し個の匿名化対象テーブルのレコードを含む 1^ x 1·の部分テーブルを生成し 、 部分テーブルを出力する。 以下、 図 9〜図 1 0を参照して重複排除部 1 1 0について説明する。 図 9は、 重複排除部 1 1 0の構成を示すブロック図で ある。 図 1 0は、 重複排除部 1 1 〇の動作を示すフローチヤートである。 図 9に示すように重複排除部 1 1 0は、 符号化済テーブル生成部 1 1 1、 重複 レコード番号テーブル生成部 1 1 3、 部分テーブル生成部 1 1 5を含む。 [0019] In 311 0, the deduplication unit 1 10 inputs the anonymization target table of 11/1 X 1^, and from the anonymization target table, the sets of values of the master attribute of each are mutually exclusive. Generates a 1^x 1· partial table containing different records of different tables to be anonymized and outputs the partial table. Hereinafter, the deduplication unit 110 will be described with reference to FIGS. 9 to 10. FIG. 9 is a block diagram showing the configuration of the deduplication unit 110. FIG. 10 is a flow chart showing the operation of the deduplication unit 110. As shown in Fig. 9, the deduplication unit 1 1 1 0 It includes a record number table generator 1 1 3 and a partial table generator 1 1 5.
[0020] 図 1 0に従い重複排除部 1 1 0の動作について説明する。 The operation of the deduplication unit 110 will be described with reference to FIG.
[0021 ] S 1 1 1 において、 符号化済テーブル生成部 1 1 1は、 匿名化対象テーブ ルから、 p個のマスター属性の値の組であるレコードを N個含む p X Nのマスタ —属性テーブルを生成し、 当該マスター属性テーブルの値を符号化した p X N の符号化済テーブルを生成する。 以下、 各テーブルの具体例を用いて説明す る。 まず、 符号化済テーブル生成部 1 1 1は、 図 1 1の匿名化対象テーブル から、 図 1 2のマスター属性テーブルを生成する。 次に、 符号化済テーブル 生成部 1 1 1は、 図 1 2のマスター属性テーブルから、 図 1 3の符号化済テ —ブルを生成する。 符号化済テーブルは、 値が同じマスター属性テーブルの 要素には同じ整数値を割り当てるという規則に従い符号化することにより得 られるテーブルである。 [0021] In S 1 1 1, the encoded table generation unit 1 1 1 1 is a master table of p XN that includes N records that are pairs of values of p master attribute values from the anonymization target table. Is generated, and the encoded table of p XN in which the values of the master attribute table are encoded is generated. Hereinafter, a specific example of each table will be described. First, the encoded table generation unit 1 11 1 generates the master attribute table of FIG. 12 from the anonymization target table of FIG. 11. Next, the encoded table generation unit 1 11 generates the encoded table of FIG. 13 from the master attribute table of FIG. The encoded table is a table obtained by encoding according to the rule that elements of the master attribute table having the same value are assigned the same integer value.
[0022] S 1 1 3において、 重複レコード番号テーブル生成部 1 1 3は、 S 1 1 1 で生成した符号化済テーブルから、 p個のマスター属性の値の組が同 _である 匿名化対象テーブルのレコードのレコード番号の集合と、 当該集合の要素 ( 例えば、 当該集合の最小値) であるキーの値の組をレコードとする 2 X Lの重 複レコード番号テーブルを生成する。 ここで、 レコード番号とは、 匿名化対 象テーブルに含まれるレコードを識別する番号のことである。 以下、 各テー ブルの具体例を用いて説明する。 まず、 重複レコード番号テーブル生成部 1 1 3は、 図 1 3の符号化済テーブルから、 図 1 4のレコード番号付き符号化 済テーブルを生成する。 レコード番号付き符号化済テーブルは、 レコード番 号の列を符号化済テーブルに追加することにより得られる(p+1) X Nのテーブ ルである。 次に、 重複レコード番号テーブル生成部 1 1 3は、 図 1 4のレコ —ド番号付き符号化済テーブルから、 図 1 7の重複レコード番号テーブルを 生成する。 その際、 重複レコード番号テーブル生成部 1 1 3は、 例えば、 図 1 5に示すマップ構造を用いた 2 X Nのテーブルや図 1 6に示すマップ構造を 用いた 2 X Lのテーブルを生成し、 重複レコード番号テーブルを生成する。 こ こで、 マップ構造とは、 一つの属性に対して、 複数の当該属性の値を 1つに \¥0 2020/175306 7 卩(:170? 2020 /006714 In [0022] S 1 1 3, duplicate record number table generating unit 1 1 3, from the coding already table generated by the S 1 1 1, anonymization target set of values of p number of master attribute is the same _ Generate a 2XL duplicate record number table that has a set of record numbers of the records in the table and a set of key values that are the elements (for example, the minimum value of the set) of the set. Here, the record number is a number that identifies a record included in the anonymization target table. Hereinafter, description will be made using specific examples of each table. First, the duplicate record number table generation unit 1 13 generates the coded table with record numbers of FIG. 14 from the coded table of FIG. The coded table with record numbers is a (p+1) XN table obtained by adding the record number sequence to the coded table. Next, the duplicate record number table generation unit 1 13 generates the duplicate record number table of FIG. 17 from the encoded table with the record number of FIG. At that time, the duplicate record number table generator 1 1 3 generates, for example, a 2 XN table using the map structure shown in FIG. 15 and a 2 XL table using the map structure shown in FIG. Generate a record number table. Here, the map structure means that for one attribute, the values of multiple relevant attributes are combined into one. \¥0 2020/175306 7 卩(: 170? 2020/006714
まとめて格納するデータ構造である。 例えば、 図 1 5では、 符号化データと いう属性に対して、 [1 , 2, 3]、 [4, 5, 6]などのような複数の値が 1つの要 素として格納されている。 This is a data structure that is stored collectively. For example, in FIG. 15, a plurality of values such as [1, 2, 3], [4, 5, 6] are stored as one element for the attribute called encoded data.
[0023] 3 1 1 5において、 部分テーブル生成部 1 1 5は、 匿名化対象テーブルと [0023] In 3 1 1 5, the partial table generation unit 1 1 5
3 1 1 3で生成した重複レコード番号テーブルから、 部分テーブルを生成す る。 以下、 各テーブルの具体例を用いて説明する。 まず、 部分テーブル生成 咅^ 1 1 5は、 図 1 1の匿名化対象テーブルから、 図 1 8のレコード番号付き 匿名化対象テーブルを生成する。 レコード番号付き匿名化対象テーブルは、 レコード番号の列を匿名化対象テーブルに追加することにより得られる(11/1+1) 1\1のテーブルである。 次に、 部分テーブル生成部 1 1 5は、 図 1 8のレコー ド番号付き匿名化対象テーブルと図 1 7の重複レコード番号テーブルから、 図 2 0の部分テーブルを生成する。 その際、 部分テーブル生成部 1 1 5は、 例えば、 図 1 9のレコード番号付き部分テーブルを生成し、 部分テーブルを 生成する。 3 Generate a partial table from the duplicate record number table generated in 1 1. Hereinafter, a specific example of each table will be described. First, the partial table generation function ^ 1 15 generates the record numbered anonymization target table of Fig. 18 from the anonymization target table of Fig. 11. The anonymization target table with record numbers is a (11/1+1) 1\1 table obtained by adding a column of record numbers to the anonymization target table. Next, the partial table generation unit 115 generates the partial table of FIG. 20 from the record number-added anonymization target table of FIG. 18 and the duplicate record number table of FIG. At that time, the partial table generation unit 115 generates, for example, the partial table with record numbers shown in FIG. 19 and the partial table.
[0024] 3 1 2 0において、 匿名化部 1 2 0は、 3 1 1 0で生成した部分テーブル を入力とし、 部分テーブルから、 卩個のマスター属性を対象として部分テーブ ルを匿名化した 1^X1·の匿名化済部分テーブルを生成し、 匿名化済部分テーブ ルを出力する。 以下、 各テーブルの具体例を用いて説明する。 匿名化部 1 2 0は、 図 2 0の部分テーブルから、 図 2 1の匿名化済部分テーブルを生成す る。 図 2 1の匿名化済部分テーブルは、 氏名を属性削除、 住所及び年齢を一 般化、 1^=2として 匿名化することにより、 得られる。 [0024] In 3120, the anonymization unit 120 inputs the partial table generated in 3110, and anonymizes the partial table from the partial table for a master attribute of 1 unit. Generate the anonymized partial table of ^X1· and output the anonymized partial table. Hereinafter, a specific example of each table will be described. The anonymization unit 120 generates the anonymized partial table of FIG. 21 from the partial table of FIG. The anonymized partial table in Fig. 21 is obtained by deleting the attributes of the name, generalizing the address and age, and anonymizing 1^=2.
[0025] なお、 匿名化には、 属性削除、 一般化、 匿名化の他、 卩 匿名化を用いて もよい。 また、 レコードの順番 (上下) を入れ替えるレコードシャッフルを 用いてもよい。 レコードシャッフルのようにレコードの順番を入れ替える処 理を含む匿名化を行う場合、 匿名化部 1 2 0は、 レコード番号の遷移を表す テーブルを生成する。 [0025] Note that, for the anonymization, in addition to attribute deletion, generalization, and anonymization, general anonymization may be used. A record shuffle that changes the order of records (upper and lower) may be used. When performing anonymization including a process of changing the order of records like record shuffle, the anonymization unit 120 generates a table showing transition of record numbers.
[0026] 3 1 3 0において、 重複復元部 1 3 0は、 匿名化対象テーブルと 3 1 2 0 で生成した匿名化済部分テーブルと 3 1 1 0で生成した重複レコード番号テ \¥0 2020/175306 8 卩(:170? 2020 /006714 [0026] In 3130, the duplication restoration unit 1300 uses the anonymization target table, the anonymized partial table generated in 3120, and the duplicate record number table generated in 3110. \¥ 2020/175306 8 卩(: 170? 2020/006714
—ブルを入力とし、 匿名化対象テーブルと匿名化済部分テーブルから、 重複 レコード番号テーブルを用いて、 匿名化済テーブルを生成し、 匿名化済テー ブルを出力する。 以下、 各テーブルの具体例を用いて説明する。 重複復元部 1 3 0は、 図 2 1の匿名化済部分テ _ブルから、 図 2 2の匿名化済テーブル を生成する。 — Input the table, generate the anonymized table from the anonymization target table and the anonymized partial table using the duplicate record number table, and output the anonymized table. Hereinafter, a specific example of each table will be described. Duplicate restoration unit 1 3 0 anonymous Kasumi portion Te _ table of FIG 1, to produce a anonymization already table of FIG 2.
[0027] なお、 3 1 2 0においてレコードの順番を入れ替える処理を含む匿名化が 行われた場合、 重複復元部 1 3 0は、 匿名化対象テーブルと 3 1 2 0で生成 した匿名化済部分テーブルと 3 1 1 0で生成した重複レコード番号テーブル と 3 1 2 0で生成したレコード番号の遷移を表すテーブルを入力とし、 匿名 化対象テーブルと匿名化済部分テーブルから、 重複レコード番号テーブルと レコード番号の遷移を表すテーブルを用いて、 匿名化済テーブルを生成し、 匿名化済テーブルを出力する。 [0027] When anonymization including a process of changing the order of records is performed in 3120, the duplication restoration unit 1300 determines the anonymization target table and the anonymized part generated in 3120. Input the table and the duplicate record number table generated in 3110 and the table that represents the transition of the record number generated in 3120, and enter the duplicate record number table and the record from the anonymization target table and the anonymized partial table. Anonymized table is generated using the table showing the number transition and the anonymized table is output.
[0028] 本発明の実施形態によれば、 データの有用性を損なうことなく、 匿名化す ることが可能になる。 [0028] According to the embodiment of the present invention, it is possible to anonymize data without impairing its usefulness.
[0029] <補記> [0029] <Additional Notes>
本発明の装置は、 例えば単一のハードウエアエンティティとして、 キーボ -ドなどが接続可能な入力部、 液晶ディスプレイなどが接続可能な出力部、 ハードウエアエンティティの外部に通信可能な通信装置 (例えば通信ケープ ル) が接続可能な通信部、
Figure imgf000010_0001
キャッシュメ モリやレジスタなどを備えていてもよい) 、 メモリである
Figure imgf000010_0002
The device of the present invention is, for example, as a single hardware entity, an input unit to which a keyboard or the like can be connected, an output unit to which a liquid crystal display or the like can be connected, a communication device capable of communicating with the outside of the hardware entity (for example, communication. Communication part that can be connected,
Figure imgf000010_0001
It may have cache memory, registers, etc.), memory
Figure imgf000010_0002
ハードディスクである外部記憶装置並びにこれらの入力部、 出力部、 通信部 、 〇 11、 [¾ 1\/1、
Figure imgf000010_0003
外部記憶装置の間のデータのやり取りが可能な ように接続するバスを有している。 また必要に応じて、 ハードウエアエンテ ィティに、
Figure imgf000010_0004
などの記録媒体を読み書きできる装置 (ドライブ) などを設けることとしてもよい。 このようなハードウエア資源を備えた物理 的実体としては、 汎用コンビュータなどがある。
External storage device that is a hard disk and its input, output, and communication units, 〇11, [¾1\/1,
Figure imgf000010_0003
It has a bus to connect it so that data can be exchanged between external storage devices. In addition, if necessary, the hardware entity
Figure imgf000010_0004
It is also possible to provide a device (drive) capable of reading and writing a recording medium such as. General-purpose computers are examples of physical entities that have such hardware resources.
[0030] ハードウヱアエンティティの外部記憶装置には、 上述の機能を実現するた めに必要となるプログラムおよびこのプログラムの処理において必要となる データなどが記憶されている (外部記憶装置に限らず、 例えばプログラムを 読み出し専用記憶装置である ROMに記憶させておくこととしてもよい) 。 また、 これらのプログラムの処理によって得られるデータなどは、 RAMや 外部記憶装置などに適宜に記憶される。 [0030] The external storage device of the hardware entity is necessary for the program required to realize the above-mentioned functions and the processing of this program. Data, etc. are stored (not limited to an external storage device, for example, the program may be stored in a ROM which is a read-only storage device). Further, data and the like obtained by the processing of these programs are appropriately stored in the RAM, an external storage device, or the like.
[0031] ハードウエアエンティティでは、 外部記憶装置 (あるいは ROMなど) に 記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に 応じてメモリに読み込まれて、 適宜に C P Uで解釈実行 ·処理される。 その 結果、 C P Uが所定の機能 (上記、 部、 手段などと表した各構成部) を 実現する。 [0031] In the hardware entity, each program stored in the external storage device (or ROM, etc.) and the data necessary for the processing of each program are read into the memory as necessary, and are interpreted and executed by the CPU as appropriate. It is processed. As a result, C P U realizes a predetermined function (each component described above, part, means, etc.).
[0032] 本発明は上述の実施形態に限定されるものではなく、 本発明の趣旨を逸脱 しない範囲で適宜変更が可能である。 また、 上記実施形態において説明した 処理は、 記載の順に従って時系列に実行されるのみならず、 処理を実行する 装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されると してもよい。 The present invention is not limited to the above-mentioned embodiments, and can be modified as appropriate without departing from the spirit of the present invention. Further, the processing described in the above embodiments is not only executed in time series in the order described, but also in parallel or individually in accordance with the processing capability of the device that executes the processing or the need. Good.
[0033] 既述のように、 上記実施形態において説明したハードウエアエンティティ As described above, the hardware entity described in the above embodiment
(本発明の装置) における処理機能をコンピュータによって実現する場合、 ハードウエアエンティティが有すべき機能の処理内容はプログラムによって 記述される。 そして、 このプログラムをコンビュータで実行することにより 、 上記ハードウエアエンティティにおける処理機能がコンピュータ上で実現 される。 When the processing function of (the device of the present invention) is realized by a computer, the processing content of the function that the hardware entity should have is described by a program. Then, by executing this program on the computer, the processing function of the hardware entity is realized on the computer.
[0034] この処理内容を記述したプログラムは、 コンピュータで読み取り可能な記 録媒体に記録しておくことができる。 コンピュータで読み取り可能な記録媒 体としては、 例えば、 磁気記録装置、 光ディスク、 光磁気記録媒体、 半導体 メモリ等どのようなものでもよい。 具体的には、 例えば、 磁気記録装置とし て、 ハードディスク装置、 フレキシブルディスク、 磁気テープ等を、 光ディ スクとして、 DVD (Digital Versatile Disc) 、 DVD-RAM (Random Access Memory) 、 CD-ROM (Compact Disc Read Only Memory) 、 CD - R (Recordable) /RW (Rewritable) 等を、 光磁気記録媒体として、 M 〇 (Magneto-Optical disc) 等を、 半導体メモリとして E E P— R〇 M (Ele ctronical ly Erasable and Programmable-Read Only Memory) 等を用いるこ とができる。 The program describing the processing contents can be recorded in a computer-readable recording medium. The computer-readable recording medium may be, for example, any magnetic recording device, optical disk, magneto-optical recording medium, semiconductor memory, or the like. Specifically, for example, a magnetic recording device is a hard disk device, a flexible disk, a magnetic tape, etc., and an optical disc is a DVD (Digital Versatile Disc), a DVD-RAM (Random Access Memory), a CD-ROM (Compact). Disc Read Only Memory), CD-R (Recordable) /RW (Rewritable), etc. 〇 (Magneto-Optical disc) etc. can be used as semiconductor memory such as EEP-R 〇 M (Electrically Erasable and Programmable-Read Only Memory) etc.
[0035] また、 このプログラムの流通は、 例えば、 そのプログラムを記録した DV [0035] Further, the distribution of this program is, for example, a DV recording the program.
D、 CD— ROM等の可搬型記録媒体を販売、 譲渡、 貸与等することによっ て行う。 さらに、 このプログラムをサーバコンピュータの記憶装置に格納し ておき、 ネッ トワークを介して、 サーバコンピュータから他のコンピュータ にそのプログラムを転送することにより、 このプログラムを流通させる構成 としてもよい。 D, CD-ROM, and other portable recording media will be sold, transferred, or loaned. Further, the program may be stored in a storage device of a server computer and transferred from the server computer to another computer via a network to distribute the program.
[0036] このようなプログラムを実行するコンビュータは、 例えば、 まず、 可搬型 記録媒体に記録されたプログラムもしくはサーバコンピュータから転送され たプログラムを、 一旦、 自己の記憶装置に格納する。 そして、 処理の実行時 、 このコンビュータは、 自己の記憶装置に格納されたプログラムを読み取り 、 読み取ったプログラムに従った処理を実行する。 また、 このプログラムの 別の実行形態として、 コンピュータが可搬型記録媒体から直接プログラムを 読み取り、 そのプログラムに従った処理を実行することとしてもよく、 さら に、 このコンビュータにサーバコンピュータからプログラムが転送されるた びに、 逐次、 受け取ったプログラムに従った処理を実行することとしてもよ い。 また、 サーバコンピュータから、 このコンビュータへのプログラムの転 送は行わず、 その実行指示と結果取得のみによって処理機能を実現する、 い わゆる AS P (Application Service Provider) 型のサービスによって、 上 述の処理を実行する構成としてもよい。 なお、 本形態におけるプログラムに は、 電子計算機による処理の用に供する情報であってプログラムに準ずるも の (コンビュータに対する直接の指令ではないがコンビュータの処理を規定 する性質を有するデータ等) を含むものとする。 A computer that executes such a program, for example, first temporarily stores the program recorded on a portable recording medium or the program transferred from the server computer in its own storage device. When executing the process, the computer reads the program stored in its own storage device and executes the process according to the read program. As another execution form of this program, the computer may read the program directly from the portable recording medium and execute the processing according to the program. Furthermore, the program is transferred from the server computer to this computer. It is also possible to execute processing according to the received program one after another. In addition, the so-called ASP (Application Service Provider) type service, which does not transfer the program from the server computer to this computer, realizes the processing function only by the execution instruction and the result acquisition, is used. It may be configured to execute processing. It should be noted that the program in this embodiment includes information used for processing by an electronic computer and conforms to the program (data that is not a direct command to the computer but has the property of defining the processing of the computer, etc.). ..
[0037] また、 この形態では、 コンビュータ上で所定のプログラムを実行させるこ とにより、 ハードウエアエンテイテイを構成することとしたが、 これらの処 理内容の少なくとも一部をハードウエア的に実現することとしてもよい。 \¥0 2020/175306 1 1 卩(:170? 2020 /006714 Further, in this embodiment, the hardware entity is configured by executing a predetermined program on the computer, but at least a part of these processing contents is realized by hardware. It may be that. \¥0 2020/175 306 1 1 卩 (: 170? 2020 /006714
[0038] 上述の本発明の実施形態の記載は、 例証と記載の目的で提示されたもので ある。 網羅的であるという意思はなく、 開示された厳密な形式に発明を限定 する意思もない。 変形やバリエーションは上述の教示から可能である。 実施 形態は、 本発明の原理の最も良い例証を提供するために、 そして、 この分野 の当業者が、 熟考された実際の使用に適するように本発明を色々な実施形態 で、 また、 色々な変形を付加して利用できるようにするために、 選ばれて表 現されたものである。 すべてのそのような変形やバリエーションは、 公正に 合法的に公平に与えられる幅にしたがって解釈された添付の請求項によって 定められた本発明のスコープ内である。 [0038] The foregoing description of the embodiments of the invention has been presented for purposes of illustration and description. I have no intention of being exhaustive and of limiting the invention to the precise form disclosed. Modifications and variations are possible from the above teachings. The embodiments are intended to provide the best illustration of the principles of the invention and to those of ordinary skill in the art in various embodiments and in various ways to suit the contemplated and practical use. It was chosen and represented so that it could be used with additional transformations. All such variations and variations are within the scope of the invention as defined by the appended claims, which are construed in accordance with the breadth to which they are impartially and legally imparted.

Claims

\¥0 2020/175306 12 卩(:17 2020 /006714 請求の範囲 \¥0 2020/175 306 12 卩(: 17 2020/006714 Claims
[請求項 1 ] 11/1を属性の数を表す 2以上の整数、 1\1をレコードの数を表す 1以上の整 数、 をマスター属性の数を表す 1以上 11/1以下の整数、 !_を互いに異なる 個のマスター属性の値の組の数を表す 1以上 1\1以下の整数とし、 い
Figure imgf000014_0001
[Claim 1] 11/1 is an integer of 2 or more representing the number of attributes, 1\1 is an integer of 1 or more representing the number of records, is an integer of 1 or more and 11/1 or less representing the number of master attributes, !! Let _ be an integer greater than or equal to 1 and less than or equal to 1\1 that represents the number of different sets of master attribute values.
Figure imgf000014_0001
部分テーブルを生成する重複排除部と、 A deduplication unit that generates a partial table,
前記部分テーブルから、 個のマスター属性を対象として前記部分 テーブルを匿名化した 1^1 X I·の匿名化済部分テーブルを生成する匿名化 部と、 From the partial table, an anonymization unit that generates an anonymized partial table of 1^1 X I· that anonymizes the partial table for each master attribute,
前記匿名化対象テーブルと前記匿名化済部分テーブルから、 個の マスター属性を対象として前記匿名化対象テーブルを匿名化した M X N の匿名化済テーブルを生成する重複復元部と、 From the anonymization target table and the anonymized partial table, a duplicate restoration unit that generates an anonymized table of M X N that anonymizes the anonymization target table for each master attribute,
を含む匿名化装置。 Anonymization device including.
[請求項 2] 請求項 1 に記載の匿名化装置であって、 [Claim 2] The anonymization device according to claim 1,
レコード番号を前記匿名化対象テーブルに含まれるレコードを識別 する番号とし、 A record number is a number for identifying a record included in the anonymization target table,
前記重複排除部は、 個のマスター属性の値の組が同一である前記 匿名化対象テーブルのレコードのレコード番号の集合と、 当該集合の 要素であるキーの値の組をレコードとする 2 X 1·の重複レコード番号テ —ブルを生成するものであり、 The deduplication unit uses a set of record numbers of the records of the anonymization target table having the same set of master attribute values and a set of key values as elements of the set as a record 2 X 1 ·Duplicate record number table of
前記重複復元部は、 前記重複レコード番号テーブルを用いて、 前記 匿名化済テーブルを生成するものである The duplication restoration unit generates the anonymized table using the duplication record number table.
ことを特徴とする匿名化装置。 An anonymization device characterized by the above.
[請求項 3] 11/1を属性の数を表す 2以上の整数、 1\1をレコードの数を表す 1以上の整 数、 をマスター属性の数を表す 1以上 11/1以下の整数、 !_を互いに異なる 個のマスター属性の値の組の数を表す 1以上 1\1以下の整数とし、 匿名化装置が、 11/1 X 1^の匿名化対象テーブルから、 個のマスター属 \¥0 2020/175306 13 卩(:170? 2020 /006714 [Claim 3] 11/1 is an integer of 2 or more indicating the number of attributes, 1\1 is an integer of 1 or more indicating the number of records, is an integer of 1 or more and 11/1 or less indicating the number of master attributes, !! Let _ be an integer greater than or equal to 1 and less than or equal to 1\1 that represents the number of different sets of master attribute values. \\0 2020/175 306 13 卩 (: 170? 2020 /006714
性の値の組が互いに異なる、 1_個の前記匿名化対象テーブルのレコー ドを含む
Figure imgf000015_0001
の部分テーブルを生成する重複排除ステップと、 前記匿名化装置が、 前記部分テーブルから、 個のマスター属性を 対象として前記部分テーブルを匿名化した 1^ X 1·の匿名化済部分テーブ ルを生成する匿名化ステップと、
Includes 1_ records of the anonymization target table with different sex value pairs
Figure imgf000015_0001
A deduplication step of generating the partial table of 1), and the anonymization device generates 1^X 1·anonymized partial tables of the partial table that are anonymized for the master attributes from the partial table. An anonymization step to
前記匿名化装置が、 前記匿名化対象テーブルと前記匿名化済部分テ —ブルから、 卩個のマスター属性を対象として前記匿名化対象テーブ ルを匿名化した 11/1 X 1^の匿名化済テーブルを生成する重複復元ステップ と、 The anonymization device has anonymized the anonymization target table from the anonymization target table and the anonymized partial table for the anonymization target table for 11 master attributes. A duplicate restoration step to generate a table,
を含む匿名化方法。 Anonymization method including.
[請求項 4] 請求項 1 または 2に記載の匿名化装置としてコンピュータを機能さ せるためのプログラム。 [Claim 4] A program for causing a computer to function as the anonymization device according to claim 1 or 2.
PCT/JP2020/006714 2019-02-26 2020-02-20 Anonymizing device, anonymizing method, and program WO2020175306A1 (en)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2021502128A JP7088405B2 (en) 2019-02-26 2020-02-20 Anonymization device, anonymization method, program
CN202080016418.5A CN113474778B (en) 2019-02-26 2020-02-20 Anonymizing apparatus, anonymizing method, and computer-readable recording medium
EP20763879.2A EP3933635B1 (en) 2019-02-26 2020-02-20 Anonymizing apparatus, anonymizing method, and program
US17/294,417 US11972021B2 (en) 2019-02-26 2020-02-20 Anonymization apparatus, anonymization method, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019032453 2019-02-26
JP2019-032453 2019-02-26

Publications (1)

Publication Number Publication Date
WO2020175306A1 true WO2020175306A1 (en) 2020-09-03

Family

ID=72238367

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/006714 WO2020175306A1 (en) 2019-02-26 2020-02-20 Anonymizing device, anonymizing method, and program

Country Status (5)

Country Link
US (1) US11972021B2 (en)
EP (1) EP3933635B1 (en)
JP (1) JP7088405B2 (en)
CN (1) CN113474778B (en)
WO (1) WO2020175306A1 (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015176496A (en) * 2014-03-17 2015-10-05 Kddi株式会社 Risk analysis device, method and program in anonymous data
JP2016110472A (en) * 2014-12-09 2016-06-20 日本電気株式会社 Information processing apparatus, information processing method, and program
JP2017073022A (en) * 2015-10-08 2017-04-13 日本電信電話株式会社 Anonymization device, anonymization method, and program

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101605107B (en) * 2009-07-22 2011-09-21 国家计算机网络与信息安全管理中心 Message hybrid anonymous communication method and device
US9946810B1 (en) * 2010-04-21 2018-04-17 Stan Trepetin Mathematical method for performing homomorphic operations
US9202078B2 (en) * 2011-05-27 2015-12-01 International Business Machines Corporation Data perturbation and anonymization using one way hash
CN102867022B (en) * 2012-08-10 2015-01-14 上海交通大学 System for anonymizing set type data by partially deleting certain items
US9558369B2 (en) * 2013-05-09 2017-01-31 Nec Corporation Information processing device, method for verifying anonymity and medium
US9235617B1 (en) * 2013-08-21 2016-01-12 Allscripts Software, Llc Securing date data fields
US9230132B2 (en) * 2013-12-18 2016-01-05 International Business Machines Corporation Anonymization for data having a relational part and sequential part
JP6223853B2 (en) * 2014-02-13 2017-11-01 株式会社東芝 Anonymization index calculation system
US11048820B2 (en) * 2017-07-21 2021-06-29 Sap Se Anonymized data storage and retrieval

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015176496A (en) * 2014-03-17 2015-10-05 Kddi株式会社 Risk analysis device, method and program in anonymous data
JP2016110472A (en) * 2014-12-09 2016-06-20 日本電気株式会社 Information processing apparatus, information processing method, and program
JP2017073022A (en) * 2015-10-08 2017-04-13 日本電信電話株式会社 Anonymization device, anonymization method, and program

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
DAI IKARASHIKOJI CHIDAKATSUMI TAKAHASHI: "A Probabilistic Extension of k-Anonymity", COMPUTER SECURITY SYMPOSIUM, October 2009 (2009-10-01), pages 1 - 6
LATANYA SWEENEY: "k-anonymity: a model for protecting privacy", INTERNATIONAL JOURNAL OF UNCERTAINTY, FUZZINESS AND KNOWLEDGE-BASED SYSTEMS, vol. 10, October 2002 (2002-10-01)
See also references of EP3933635A4

Also Published As

Publication number Publication date
US20220019696A1 (en) 2022-01-20
CN113474778B (en) 2024-02-20
CN113474778A (en) 2021-10-01
US11972021B2 (en) 2024-04-30
EP3933635A4 (en) 2022-11-23
JP7088405B2 (en) 2022-06-21
EP3933635A1 (en) 2022-01-05
JPWO2020175306A1 (en) 2021-09-30
EP3933635B1 (en) 2024-07-10

Similar Documents

Publication Publication Date Title
JP7288903B2 (en) Computer implemented methods, systems, computer programs, computer programs and storage media for data anonymization
US10223368B2 (en) Predictive object tiering based on object metadata
US20230259640A1 (en) Data storage systems and methods of an enforceable non-fungible token having linked custodial chain of property transfers prior to minting using a token-based encryption determination process
US20160306999A1 (en) Systems, methods, and computer-readable media for de-identifying information
JP7153420B2 (en) Using B-Trees to Store Graph Information in a Database
US9411513B2 (en) Sensitive data file attribute
Brito et al. Sorting by genome rearrangements on both gene order and intergenic sizes
Chang et al. Dynamic deduplication decision in a hadoop distributed file system
JP2005018197A (en) Server, computer apparatus, data processing method and program
WO2020175306A1 (en) Anonymizing device, anonymizing method, and program
WO2020175305A1 (en) Anonymity evaluation device, anonymity evaluation method, and program
Aufderheide et al. The copyright permissions culture in software preservation and its implications for the cultural record
JP4378342B2 (en) Mechanism for applying transformations to multipart files
RU96433U1 (en) FILE REMOVAL SYSTEM (FILE SHREDDER)
JP7290169B2 (en) Discrimination Estimation Risk Evaluation Device, Discrimination Estimation Risk Evaluation Method, and Program
US9436840B2 (en) System and method for securely storing information
KR102227113B1 (en) A file processing apparatus based on a shared file system
JP5875535B2 (en) Anonymization device, anonymization method, program
WO2023233622A1 (en) Secret computing device, secret computing method, and program
WO2020184126A1 (en) Data substitution device, data substitution method, and program
Hassan et al. Essential technical concepts
KR20240061157A (en) Device and method for de-identifying medical record documents
Kowalczyk Curating Digital Cultural Heritage Materials
Ackerman Big Data
JP2014137587A (en) Anonymity setting device, anonymity setting method and program

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20763879

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021502128

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2020763879

Country of ref document: EP

Effective date: 20210927