WO2021065004A1 - 識別推定リスク評価装置、識別推定リスク評価方法、プログラム - Google Patents

識別推定リスク評価装置、識別推定リスク評価方法、プログラム Download PDF

Info

Publication number
WO2021065004A1
WO2021065004A1 PCT/JP2019/039362 JP2019039362W WO2021065004A1 WO 2021065004 A1 WO2021065004 A1 WO 2021065004A1 JP 2019039362 W JP2019039362 W JP 2019039362W WO 2021065004 A1 WO2021065004 A1 WO 2021065004A1
Authority
WO
WIPO (PCT)
Prior art keywords
value
risk evaluation
probability
record number
identification estimation
Prior art date
Application number
PCT/JP2019/039362
Other languages
English (en)
French (fr)
Inventor
長谷川 聡
尭之 三浦
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to US17/764,203 priority Critical patent/US20220350924A1/en
Priority to PCT/JP2019/039362 priority patent/WO2021065004A1/ja
Priority to JP2021550931A priority patent/JP7290169B2/ja
Publication of WO2021065004A1 publication Critical patent/WO2021065004A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09CCIPHERING OR DECIPHERING APPARATUS FOR CRYPTOGRAPHIC OR OTHER PURPOSES INVOLVING THE NEED FOR SECRECY
    • G09C1/00Apparatus or methods whereby a given sequence of signs, e.g. an intelligible text, is transformed into an unintelligible sequence of signs by transposing the signs or groups of signs or by replacing them by others according to a predetermined system

Definitions

  • the present invention relates to a technique for concealing individual data from a database by a probabilistic method.
  • Non-Patent Document 1 There is a method described in Non-Patent Document 1 as a technique for concealing individual data from a database by a probabilistic method.
  • PRAM post randomization method
  • the value is randomly rewritten according to a certain probability, that is, the data is randomized.
  • Non-Patent Document 1 There is Pk-anonymity shown in Non-Patent Document 1 as a method for quantitatively evaluating how much concealment processing has been performed by PRAM. If the database satisfies Pk-anonymity, it can be guaranteed that "an individual cannot be identified with a probability of 1 / k or more".
  • Pk-anonymity is evaluated assuming an attacker with arbitrary background knowledge. Therefore, the Pk-anonymity evaluation overestimates the probability of an individual being identified. That is, there is a problem that the risk that the records in the randomized table are identified and estimated is evaluated more than necessary.
  • an object of the present invention is to provide a technique for evaluating the risk that a randomized table record is identified and estimated when the attacker's knowledge about the table is fixed.
  • FIG. 1 It is a figure which shows an example of a table. It is a figure which shows an example of the original table t and the anonymization table t'. It is a block diagram which shows the structure of the identification estimation risk evaluation apparatus 100. It is a flowchart which shows the operation of the identification estimation risk evaluation apparatus 100. It is a figure which shows an example of the functional structure of the computer which realizes each apparatus in embodiment of this invention.
  • x y_z means that y z is a superscript for x
  • x y_z means that y z is a subscript for x
  • FIG. 1 shows an example of a table.
  • [shuffle] Map ⁇ : [N] ⁇ [N] is called shuffle. Also, let ⁇ be the set of all shuffle ⁇ . That is, ⁇ is a set of all shuffle patterns.
  • PRAM Pk-There is PRAM as a concealment processing method that satisfies anonymity. PRAM protects privacy by probabilistically substituting the attribute values of each record in the table based on a matrix called the transition probability matrix.
  • the transition probability matrix an attribute value of an attribute a ⁇ A v a ⁇ V a attribute value v 'probability is replaced by a ⁇ V a Pr (v'
  • a method of setting the transition probability a method of holding a value with a constant probability ⁇ a and randomly rewriting the value with a probability 1- ⁇ a can be considered as shown in the following equation.
  • transition probability matrix P a is expressed by the following equation.
  • the discrimination estimation probability ⁇ (t, t', r, r') Is defined by the following equation.
  • t is called the original table
  • t' is called the anonymized table
  • r is called the record number of the original table t
  • r' is called the record number of the anonymized table t'.
  • the identification estimation probability ⁇ (t, t', r, r') is the record number r of the original table t and the record number r of the anonymization table t'assuming an attacker who has the table t as the background knowledge. Indicates the probability that it is identified and estimated to correspond to'.
  • the random variable ⁇ is included in the definition formula (1) of the identification estimated probability ⁇ (t, t', r, r'). Therefore, when Eq. (1) is transformed using the instance ⁇ ⁇ ⁇ , it becomes as follows.
  • the probability that the record number r and the record number r'correspond to each other can be determined and estimated.
  • ⁇ (r') t'
  • FIG. 2 shows the original table t and the anonymization table t', which are the two tables to be calculated. Also, the transition probability matrix P attr2 transition probability matrix P attr1 and attributes attr2 attributes attr1 is assumed to be given by the following equation.
  • transition probability matrix P attr1 and the transition probability matrix P attr2 indicate that the probability that a certain attribute value becomes the same value due to randomization is 0.8, and the probability that another value becomes the same value is 0.1, respectively.
  • perm (A) was calculated by a primitive method according to the definition formula of permanent, but as mentioned above, perm (A) can be calculated efficiently by using Ryser's Algorithm.
  • the amount of calculation becomes O (2 N ) by using Ryser's Algorithm.
  • FIG. 3 is a block diagram showing the configuration of the identification estimation risk evaluation device 100.
  • FIG. 4 is a flowchart showing the operation of the identification estimation risk evaluation device 100.
  • the identification estimation risk evaluation device 100 includes a first calculation unit 110, a second calculation unit 120, a third calculation unit 130, and a recording unit 190.
  • the recording unit 190 is a component unit that appropriately records information necessary for processing of the identification estimation risk evaluation device 100.
  • the identification estimation risk evaluation device 100 uses the record number r ⁇ [N] of the source table t, the anonymization table t', the source table t, and the record number r' ⁇ [N] of the source table t as the record number r. Calculate the risk assessment value that is identified and estimated to correspond to the record number r'.
  • the first calculation unit 110 takes the original table t and the anonymization table t'as inputs, and from the original table t and the anonymization table t', the original table t is anonymized by the randomization ⁇ (t).
  • ⁇ Pr [ ⁇ (t) t' Fuji ⁇ ]
  • a ij represents the probability (i ⁇ [N], j ⁇ [N]) that the record of the record number i of the original table t becomes the record of the record number j of the anonymized table t'by randomization ⁇ .
  • the probability a ij of the i-th record of the source table t the A is the j record of anonymous table t 'Randomized ⁇ first the (i, j) th component to the matrix, the second calculation unit 120, the matrix A
  • the first value ⁇ ⁇ Pr [ ⁇ (t) t'
  • Output
  • FIG. 5 is a diagram showing an example of a functional configuration of a computer that realizes each of the above-mentioned devices.
  • the processing in each of the above-mentioned devices can be carried out by causing the recording unit 2020 to read a program for causing the computer to function as each of the above-mentioned devices, and operating the control unit 2010, the input unit 2030, the output unit 2040, and the like.
  • the device of the present invention is, for example, an input unit to which a keyboard or the like can be connected, an output unit to which a liquid crystal display or the like can be connected, and a communication device (for example, a communication cable) capable of communicating outside the hardware entity as a single hardware entity.
  • Communication unit CPU (Central Processing Unit, cache memory, registers, etc.) to which can be connected, RAM and ROM as memory, external storage device as hard hardware, and input, output, and communication units of these.
  • CPU, RAM, ROM has a connecting bus so that data can be exchanged between external storage devices.
  • a device (drive) or the like capable of reading and writing a recording medium such as a CD-ROM may be provided in the hardware entity.
  • a physical entity equipped with such hardware resources includes a general-purpose computer and the like.
  • the external storage device of the hardware entity stores the program required to realize the above-mentioned functions and the data required for processing this program (not limited to the external storage device, for example, reading a program). It may be stored in a ROM, which is a dedicated storage device). Further, the data obtained by the processing of these programs is appropriately stored in a RAM, an external storage device, or the like.
  • each program stored in the external storage device (or ROM, etc.) and the data necessary for processing each program are read into the memory as needed, and are appropriately interpreted, executed, and processed by the CPU. ..
  • the CPU realizes a predetermined function (each component represented by the above, ..., ... means, etc.).
  • the present invention is not limited to the above-described embodiment, and can be appropriately modified without departing from the spirit of the present invention. Further, the processes described in the above-described embodiment are not only executed in chronological order according to the order described, but may also be executed in parallel or individually as required by the processing capacity of the device that executes the processes. ..
  • the processing function in the hardware entity (device of the present invention) described in the above embodiment is realized by a computer
  • the processing content of the function that the hardware entity should have is described by a program.
  • the processing function in the above hardware entity is realized on the computer.
  • the program that describes this processing content can be recorded on a computer-readable recording medium.
  • the computer-readable recording medium may be, for example, a magnetic recording device, an optical disk, a photomagnetic recording medium, a semiconductor memory, or the like.
  • a hard disk device, a flexible disk, a magnetic tape, etc. as a magnetic recording device
  • a DVD Digital Versatile Disc
  • DVD-RAM Random Access Memory
  • CD-ROM Compact Disc Read Only
  • CD-R Recordable
  • RW ReWritable
  • MO Magnetto-Optical disc
  • magneto-optical recording media EP-ROM (Electronically Erasable and Programmable-Read Only Memory), etc. as semiconductor memory Can be used.
  • the distribution of this program is carried out, for example, by selling, transferring, renting, etc., a portable recording medium such as a DVD or CD-ROM on which the program is recorded. Further, the program may be stored in the storage device of the server computer, and the program may be distributed by transferring the program from the server computer to another computer via a network.
  • a computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. Then, when the process is executed, the computer reads the program stored in its own storage device and executes the process according to the read program. Further, as another execution form of this program, a computer may read the program directly from a portable recording medium and execute processing according to the program, and further, the program is transferred from the server computer to this computer. Each time, the processing according to the received program may be executed sequentially. In addition, the above processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and result acquisition without transferring the program from the server computer to this computer. May be.
  • the program in this embodiment includes information to be used for processing by a computer and equivalent to the program (data that is not a direct command to the computer but has a property of defining the processing of the computer, etc.).
  • the hardware entity is configured by executing a predetermined program on the computer, but at least a part of these processing contents may be realized in terms of hardware.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Bioethics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

攻撃者が持つテーブルに関する知識を固定した場合においてランダム化されたテーブルのレコードが識別推定されるリスクを評価する技術を提供する。元テーブルtをランダム化Δにより匿名化したテーブルΔ(t)と、シャッフルγと匿名化テーブルt'の合成として表されるテーブルt'оγとが一致する確率Pr[Δ(t)=t'оγ]の、すべてのシャッフルに関する和である第1の値ΣγPr[Δ(t)=t'оγ]を計算する第1計算部と、確率Pr[Δ(t)=t'оγ]の、γ(r)=r'を満たすシャッフルに関する和である第2の値Σγ(r)=r'Pr[Δ(t)=t'оγ]を計算する第2計算部と、第1の値と第2の値から、第3の値Σγ(r)=r'Pr[Δ(t)=t'оγ]/ΣγPr[Δ(t)=t'оγ]をレコード番号rとレコード番号r'が対応すると識別推定されるリスク評価値として計算する第3計算部とを含む。

Description

識別推定リスク評価装置、識別推定リスク評価方法、プログラム
 本発明は、データベースに対して個々のデータを確率的手法により秘匿処理する技術に関する。
 データベースに対して個々のデータを確率的手法により秘匿処理する技術として、非特許文献1に記載の方法がある。非特許文献1に記載の維持置換撹乱(PRAM: post randomization method)では、一定の確率に従いランダムに値を書き換える、つまり、データをランダム化する。
 PRAMによりどの程度秘匿処理が行われたかを定量的に評価する方法として、非特許文献1に示すPk-匿名性がある。データベースがPk-匿名性を満たす場合、「1/k以上の確率で個人を識別することができない」ことを保証することができる。
 以下では、表形式のデータベースであるテーブルについて扱う。
Dai Ikarashi, Ryo Kikuchi, Koji Chida, and Katsumi Takahashi, "k-anonymous microdata release via post randomization method," In International Workshop on Security 2015, pp.225-241, 2015.
 Pk-匿名性では、任意の背景知識を持つ攻撃者を仮定して評価を行っている。そのため、Pk-匿名性による評価では個人が識別される確率を必要以上に高く見積もってしまう。つまり、ランダム化されたテーブルのレコードが識別推定されるリスクを必要以上に大きく評価してしまうという問題がある。
 そこで本発明は、攻撃者が持つテーブルに関する知識を固定した場合においてランダム化されたテーブルのレコードが識別推定されるリスクを評価する技術を提供することを目的とする。
 本発明の一態様は、[N]={1, 2, …, N}(ただし、Nは1以上の整数)、シャッフルを[N]→[N]の写像とし、元テーブルt、匿名化テーブルt'、前記元テーブルtのレコード番号r∈[N]、前記匿名化テーブルt'のレコード番号r'∈[N]から、前記レコード番号rと前記レコード番号r'が対応すると識別推定されるリスク評価値を計算する識別推定リスク評価装置であって、前記元テーブルtをランダム化Δにより匿名化したテーブルΔ(t)と、シャッフルγと前記匿名化テーブルt'の合成として表されるテーブルt'оγとが一致する確率Pr[Δ(t)=t'оγ]の、すべてのシャッフルに関する和である第1の値ΣγPr[Δ(t)=t'оγ]を計算する第1計算部と、前記確率Pr[Δ(t)=t'оγ]の、γ(r)=r'を満たすシャッフルに関する和である第2の値Σγ(r)=r'Pr[Δ(t)=t'оγ]を計算する第2計算部と、前記第1の値ΣγPr[Δ(t)=t'оγ]と前記第2の値Σγ(r)= r'Pr[Δ(t)=t'оγ]から、第3の値Σγ(r)=r'Pr[Δ(t)=t'оγ]/ΣγPr[Δ(t)=t'оγ]を前記リスク評価値として計算する第3計算部と、を含む。
 本発明によれば、攻撃者が持つテーブルに関する知識を固定した場合においてランダム化されたテーブルのレコードが識別推定されるリスクを評価することが可能となる。
テーブルの一例を示す図である。 元テーブルtと匿名化テーブルt'の一例を示す図である。 識別推定リスク評価装置100の構成を示すブロック図である。 識別推定リスク評価装置100の動作を示すフローチャートである。 本発明の実施形態における各装置を実現するコンピュータの機能構成の一例を示す図である。
 以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
 各実施形態の説明に先立って、この明細書における表記方法について説明する。
 _(アンダースコア)は下付き添字を表す。例えば、xy_zはyzがxに対する上付き添字であり、xy_zはyzがxに対する下付き添字であることを表す。
 また、ある文字xに対する^xや~xのような上付き添え字の”^”や”~”は、本来”x”の真上に記載されるべきであるが、明細書の記載表記の制約上、^xや~xと記載しているものである。
<技術的背景>
《定義》
 集合A, Bに対して、AからBへの写像全体の集合をA⇒Bと表す。また、正の整数Nに対して、[N]={1, …, N}とする。
[テーブル]
 Rを個人からなる集合とする。また、N=|R|(ただし、Nは1以上の整数)とする。つまり、Nは集合Rの濃度を表す。
 集合Rの要素である各個人に対して、1, …, Nのラベルを付与する。また、Aを属性全体の集合、各a∈Aに対してVaを属性aの属性値の集合とし、V=Πa∈AVaとする。このとき、T=[N]⇒Vとし、各t∈Tをテーブルと呼ぶこととする。また、テーブルtに対して、r∈[N]をテーブルtのレコード番号と呼ぶこととする。
 図1は、テーブルの一例を示す。属性全体の集合A={住所, 年齢, 性別}、属性“性別(gender)”の属性値の集合Agender={男, 女}であり、図1のテーブルは[3]={1, 2, 3}から3つの属性A={住所, 年齢, 性別}の属性値の組への写像となっている。
[テーブル保護]
 テーブルの集合T, T'に対して、写像Δ:T→T'は、入力となるテーブルt∈Tに対して、tに応じた確率分布に従ってテーブルt'∈T'を出力するものであり、この写像Δのことをランダム化という。
[シャッフル]
 写像γ:[N]→[N]をシャッフルと呼ぶ。また、シャッフルγ全体の集合をΓとする。つまり、Γはシャッフルのすべてのパターンの集合である。
[PRAM]
 Pk-匿名性を満たす秘匿処理手法として、PRAMがある。PRAMは遷移確率行列と呼ばれる行列に基づいて、テーブルの各レコードの属性値を確率的に置換することでプライバシを保護する。ここで、遷移確率行列とは、ある属性a∈Aの属性値va∈Vaが属性値v'a∈Vaに置換される確率Pr(v'a|va)(遷移確率という)を要素に持つ|Va|×|Va|行列Paのことである。
 遷移確率の設定の方法として、次式のように、一定の確率ρaで値を保持し、確率1-ρaで値をランダムに書き換える方法が考えられる。
Figure JPOXMLDOC01-appb-M000002
 したがって、遷移確率行列Paは、次式で表される。
Figure JPOXMLDOC01-appb-M000003
《リスク評価》
 ここでは、本発明の各実施形態におけるリスク評価で用いる識別推定確率について説明する。
 t∈T, t'∈T', r, r'∈[N]、t∈Tを攻撃者が背景知識として持つテーブルとするとき、識別推定確率η(t, t', r, r')を次式で定義する。
Figure JPOXMLDOC01-appb-M000004
 ここで、tを元テーブル、t'を匿名化テーブル、rを元テーブルtのレコード番号、r'を匿名化テーブルt'のレコード番号という。
 識別推定確率η(t, t', r, r')は、テーブルtを背景知識として持つ攻撃者を仮定した場合において、元テーブルtのレコード番号rと、匿名化テーブルt'のレコード番号r'とが対応すると識別推定される確率を表す。
 識別推定確率η(t, t', r, r')の定義式(1)には確率変数Γが含まれている。そこで、インスタンスγ∈Γを用いて式(1)を変形すると、以下のようになる。
Figure JPOXMLDOC01-appb-M000005
 したがって、式(2)の分母及び分子を計算すれば、レコード番号rとレコード番号r'が対応すると識別推定される確率を求めることができる。
(式(2)の分母の計算方法)
 元テーブルtのレコード番号iのレコードがランダム化Δによって匿名化テーブルt'のレコード番号jのレコードとなる確率をaij(i∈[N], j∈[N])とすると、ΣγPr[Δ(t)=t'оγ]は、次式により計算される。
Figure JPOXMLDOC01-appb-M000006
 aijを第(i, j)要素とする行列をAとすると、式(3)の右辺は行列Aのパーマネントと呼ばれる式と一致する。
 なお、N×N行列のパーマネントに対しては、計算量O(2N)で計算する方法(Ryser's Algorithm)が知られている。
(式(2)の分子の計算方法)
 Σγ(r)=r'Pr[Δ(t)=t'оγ]については、行列の余因子展開に似た操作を行うことで計算することができる(以下、この操作のことを疑似余因子展開と呼ぶこととする)。行列Aに対する(i, j)の疑似余因子展開を、Aの第(i, j)要素とi行j列を除く(N-1)×(N-1)行列のパーマネントの積として定義する。
 したがって、Σγ(r)=r'Pr[Δ(t)=t'оγ]は、行列Aに対する(r, r')の疑似余因子展開、すなわち、Aの第(r, r')要素とr行r'列を除く(N-1)×(N-1)行列のパーマネントの積として計算することができる。
《具体例》
 以下、識別推定確率の計算方法について具体的に説明する。まず、各計算方法に共通する前提について説明する。ここでは、ランダム化としてPRAMを用いる場合の識別推定確率を計算する。
 計算対象となる2つのテーブルである元テーブルtと匿名化テーブルt'を図2に示す。また、属性attr1の遷移確率行列Pattr1と属性attr2の遷移確率行列Pattr2は次式により与えられるものとする。
Figure JPOXMLDOC01-appb-M000007
 遷移確率行列Pattr1、遷移確率行列Pattr2は、ある属性値がランダム化により同じ値になる確率が0.8、それ以外の値になる確率がそれぞれ0.1であることを表している。
 上記前提のもと、識別推定確率η(t, t', 1, 1)を計算する方法について説明する。
(計算方法1)
 まず、シャッフルγによる並びの変更がなかった場合について考える。シャッフルγによる並びの変更がなかった場合、Pr[Δ(t)=t']は、元テーブルtの要素が匿名化テーブルt'の対応する要素に遷移する確率の積、すなわち、Pr[Δ(t)=t']=(a→aとなる確率)×(A→Cとなる確率)×(b→bとなる確率)×(B→Bとなる確率)×(c→bとなる確率)×(C→Aとなる確率)となる。したがって、Pr[Δ(t)=t']は、次式により計算される。
Figure JPOXMLDOC01-appb-M000008
 確率Pr[Δ(t)=t'оγ]をシャッフルのすべてのパターンについて同様に計算する。
 そして、確率Pr[Δ(t)=t'оγ]の総和をとることで、式(2)の分母を求めることができる。一方、式(2)の分子については、シャッフルのすべてのパターンのうち、γ(1)=1'を満たすシャッフルについての確率Pr[Δ(t)=t'оγ]の総和をとる。
 以上のことからわかるように、計算方法1ではシャッフルのすべてのパターンに対して確率計算を行う必要があるため、計算量はO(N!)となる。
(計算方法2)
 ここでは、行列のパーマネント、疑似余因子展開を用いる方法について説明する。
 まず、式(2)の分母であるΣγPr[Δ(t)=t'оγ]の計算について説明する。最初に、行列Aを求める。例えば、元テーブルtのレコード番号1のレコードから匿名化テーブルt'のレコード番号1のレコードへ遷移する確率は、a→aとなる確率である0.8とA→Cとなる確率である0.1との積、すなわち0.08となる。以下、同様に計算していくと、行列Aが得られる。
Figure JPOXMLDOC01-appb-M000009
 次に、行列Aのパーマネントperm(A)を計算する。パーマネントの定義式に従って計算すると、
Figure JPOXMLDOC01-appb-M000010
となる。ここでは、パーマネントの定義式に従った原始的な方法でperm(A)を計算したが、先述の通り、Ryser's Algorithmを用いると、perm(A)を効率よく計算することができる。
 一方、式(2)の分子であるΣγ(r)=r'Pr[Δ(t)=t'оγ]については、行列の疑似余因子展開を用いる。識別推定確率η(t, t', 1, 1)を計算する場合、i=1, j=1として、行列Aの疑似余因子展開を用いることで、式(2)の分子は、
Figure JPOXMLDOC01-appb-M000011
となる。
 以上より、η(t, t', 1, 1)=0.000576/0.004745=0.12139となる。
 参考までに、すべてのr∈[3], r'∈[3]の組み合わせに対して、Σγ(r)=r'Pr[Δ(t)=t'оγ]を計算し、1行目がr=1に対するr'=1, 2, 3の結果、2行目がr=2に対するr'=1, 2, 3の結果、3行目がr=3に対するr'=1, 2, 3の結果を並べた行列を作成すると、
Figure JPOXMLDOC01-appb-M000012
となる。
 計算方法2では、Ryser's Algorithmを用いることにより、計算量がO(2N)となる。
<第1実施形態>
 以下、図3~図4を参照して識別推定リスク評価装置100を説明する。図3は、識別推定リスク評価装置100の構成を示すブロック図である。図4は、識別推定リスク評価装置100の動作を示すフローチャートである。図3に示すように識別推定リスク評価装置100は、第1計算部110と、第2計算部120と、第3計算部130と、記録部190を含む。記録部190は、識別推定リスク評価装置100の処理に必要な情報を適宜記録する構成部である。
 識別推定リスク評価装置100は、元テーブルt、匿名化テーブルt'、元テーブルtのレコード番号r∈[N]、匿名化テーブルt'のレコード番号r'∈[N]から、レコード番号rとレコード番号r'が対応すると識別推定されるリスク評価値を計算する。
 図4に従い識別推定リスク評価装置100の動作について説明する。
 S110において、第1計算部110は、元テーブルt、匿名化テーブルt'を入力とし、元テーブルt、匿名化テーブルt'から、元テーブルtをランダム化Δにより匿名化したテーブルΔ(t)と、シャッフルγと匿名化テーブルt'の合成として表されるテーブルt'оγとが一致する確率Pr[Δ(t)=t'оγ]の、すべてのシャッフルに関する和である第1の値ΣγPr[Δ(t)=t'оγ]を計算し、出力する。ランダム化Δには、例えば、PRAMを用いることができる。この場合、遷移確率を用いて確率Pr[Δ(t)=t'оγ]を計算することができる。
 第1計算部110は、次式により第1の値ΣγPr[Δ(t)=t'оγ]を計算するようにしてもよい。
Figure JPOXMLDOC01-appb-M000013
 ただし、aijは元テーブルtのレコード番号iのレコードがランダム化Δにより匿名化テーブルt'のレコード番号jのレコードとなる確率(i∈[N], j∈[N])を表す。
 S120において、第2計算部120は、元テーブルt、匿名化テーブルt'、元テーブルtのレコード番号r、匿名化テーブルt'のレコード番号r'を入力とし、元テーブルt、匿名化テーブルt'、元テーブルtのレコード番号r、匿名化テーブルt'のレコード番号r'から、確率Pr[Δ(t)=t'оγ]の、γ(r)=r'を満たすシャッフルに関する和である第2の値Σγ(r)=r'Pr[Δ(t)=t'оγ]を計算し、出力する。
 Aを元テーブルtの第iレコードがランダム化Δにより匿名化テーブルt'の第jレコードとなる確率aijを第(i, j)要素とする行列とし、第2計算部120は、行列Aに対する(r, r')の疑似余因子展開により第2の値Σγ(r)=r'Pr[Δ(t)=t'оγ]を計算するようにしてもよい。
 S130において、第3計算部130は、S110で計算した第1の値ΣγPr[Δ(t)=t'оγ]とS120で計算した第2の値Σγ(r)= r'Pr[Δ(t)=t'оγ]を入力とし、第1の値ΣγPr[Δ(t)=t'оγ]、第2の値Σγ(r)= r'Pr[Δ(t)=t'оγ]から、第3の値Σγ(r)=r'Pr[Δ(t)=t'оγ]/ΣγPr[Δ(t)=t'оγ]をリスク評価値として計算し、出力する。
 本実施形態の発明によれば、攻撃者が持つテーブルに関する知識を固定した場合においてランダム化されたテーブルのレコードが識別推定されるリスクを評価することが可能となる。
<補記>
 図5は、上述の各装置を実現するコンピュータの機能構成の一例を示す図である。上述の各装置における処理は、記録部2020に、コンピュータを上述の各装置として機能させるためのプログラムを読み込ませ、制御部2010、入力部2030、出力部2040などに動作させることで実施できる。
 本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD-ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
 ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
 ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成部)を実現する。
 本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
 既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
 この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD-RAM(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP-ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
 また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
 このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
 また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
 上述の本発明の実施形態の記載は、例証と記載の目的で提示されたものである。網羅的であるという意思はなく、開示された厳密な形式に発明を限定する意思もない。変形やバリエーションは上述の教示から可能である。実施形態は、本発明の原理の最も良い例証を提供するために、そして、この分野の当業者が、熟考された実際の使用に適するように本発明を色々な実施形態で、また、色々な変形を付加して利用できるようにするために、選ばれて表現されたものである。すべてのそのような変形やバリエーションは、公正に合法的に公平に与えられる幅にしたがって解釈された添付の請求項によって定められた本発明のスコープ内である。

Claims (6)

  1.  [N]={1, 2, …, N}(ただし、Nは1以上の整数)、シャッフルを[N]→[N]の写像とし、
     元テーブルt、匿名化テーブルt'、前記元テーブルtのレコード番号r∈[N]、前記匿名化テーブルt'のレコード番号r'∈[N]から、前記レコード番号rと前記レコード番号r'が対応すると識別推定されるリスク評価値を計算する識別推定リスク評価装置であって、
     前記元テーブルtをランダム化Δにより匿名化したテーブルΔ(t)と、シャッフルγと前記匿名化テーブルt'の合成として表されるテーブルt'оγとが一致する確率Pr[Δ(t)=t'оγ]の、すべてのシャッフルに関する和である第1の値ΣγPr[Δ(t)=t'оγ]を計算する第1計算部と、
     前記確率Pr[Δ(t)=t'оγ]の、γ(r)=r'を満たすシャッフルに関する和である第2の値Σγ(r)=r'Pr[Δ(t)=t'оγ]を計算する第2計算部と、
     前記第1の値ΣγPr[Δ(t)=t'оγ]と前記第2の値Σγ(r)= r'Pr[Δ(t)=t'оγ]から、第3の値Σγ(r)=r'Pr[Δ(t)=t'оγ]/ΣγPr[Δ(t)=t'оγ]を前記リスク評価値として計算する第3計算部と、
     を含む識別推定リスク評価装置。
  2.  請求項1に記載の識別推定リスク評価装置であって、
     前記第1計算部は、次式により前記第1の値ΣγPr[Δ(t)=t'оγ]を計算する
    Figure JPOXMLDOC01-appb-M000001

    (ただし、aijは前記元テーブルtのレコード番号iのレコードが前記ランダム化Δにより前記匿名化テーブルt'のレコード番号jのレコードとなる確率(i∈[N], j∈[N])を表す)
     ことを特徴とする識別推定リスク評価装置。
  3.  請求項2に記載の識別推定リスク評価装置であって、
     Aを前記確率aijを第(i, j)要素とする行列とし、
     前記第2計算部は、前記行列Aに対する(r, r')の疑似余因子展開により前記第2の値Σγ(r)=r'Pr[Δ(t)=t'оγ]を計算する
     ことを特徴とする識別推定リスク評価装置。
  4.  請求項1に記載の識別推定リスク評価装置であって、
     前記ランダム化ΔはPRAMである
     ことを特徴とする識別推定リスク評価装置。
  5.  [N]={1, 2, …, N}(ただし、Nは1以上の整数)、シャッフルを[N]→[N]の写像とし、
     識別推定リスク評価装置が、元テーブルt、匿名化テーブルt'、前記元テーブルtのレコード番号r∈[N]、前記匿名化テーブルt'のレコード番号r'∈[N]から、前記レコード番号rと前記レコード番号r'が対応すると識別推定されるリスク評価値を計算する識別推定リスク評価方法であって、
     前記識別推定リスク評価装置が、前記元テーブルtをランダム化Δにより匿名化したテーブルΔ(t)と、シャッフルγと前記匿名化テーブルt'の合成として表されるテーブルt'оγとが一致する確率Pr[Δ(t)=t'оγ]の、すべてのシャッフルに関する和である第1の値ΣγPr[Δ(t)=t'оγ]を計算する第1計算ステップと、
     前記識別推定リスク評価装置が、前記確率Pr[Δ(t)=t'оγ]の、γ(r)=r'を満たすシャッフルに関する和である第2の値Σγ(r)=r'Pr[Δ(t)=t'оγ]を計算する第2計算ステップと、
     前記識別推定リスク評価装置が、前記第1の値ΣγPr[Δ(t)=t'оγ]と前記第2の値Σγ(r)= r'Pr[Δ(t)=t'оγ]から、第3の値Σγ(r)=r'Pr[Δ(t)=t'оγ]/ΣγPr[Δ(t)=t'оγ]を前記リスク評価値として計算する第3計算ステップと、
     を含む識別推定リスク評価方法。
  6.  請求項1ないし4のいずれか1項に記載の識別推定リスク評価装置としてコンピュータを機能させるためのプログラム。
PCT/JP2019/039362 2019-10-04 2019-10-04 識別推定リスク評価装置、識別推定リスク評価方法、プログラム WO2021065004A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US17/764,203 US20220350924A1 (en) 2019-10-04 2019-10-04 Identification estimate risk evaluation apparatus, identification estimate risk evaluation method, and program
PCT/JP2019/039362 WO2021065004A1 (ja) 2019-10-04 2019-10-04 識別推定リスク評価装置、識別推定リスク評価方法、プログラム
JP2021550931A JP7290169B2 (ja) 2019-10-04 2019-10-04 識別推定リスク評価装置、識別推定リスク評価方法、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/039362 WO2021065004A1 (ja) 2019-10-04 2019-10-04 識別推定リスク評価装置、識別推定リスク評価方法、プログラム

Publications (1)

Publication Number Publication Date
WO2021065004A1 true WO2021065004A1 (ja) 2021-04-08

Family

ID=75336858

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/039362 WO2021065004A1 (ja) 2019-10-04 2019-10-04 識別推定リスク評価装置、識別推定リスク評価方法、プログラム

Country Status (3)

Country Link
US (1) US20220350924A1 (ja)
JP (1) JP7290169B2 (ja)
WO (1) WO2021065004A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018055613A (ja) * 2016-09-30 2018-04-05 日本電信電話株式会社 匿名化テーブル生成装置、匿名化テーブル生成方法、プログラム
US20180114037A1 (en) * 2015-07-15 2018-04-26 Privacy Analytics Inc. Re-identification risk measurement estimation of a dataset
JP2019095885A (ja) * 2017-11-20 2019-06-20 株式会社日立製作所 匿名化データ評価システム及び方法、並びに匿名レベル判定サーバ

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3449414B1 (en) * 2016-04-29 2021-12-08 Privitar Limited Computer-implemented privacy engineering system and method

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180114037A1 (en) * 2015-07-15 2018-04-26 Privacy Analytics Inc. Re-identification risk measurement estimation of a dataset
JP2018055613A (ja) * 2016-09-30 2018-04-05 日本電信電話株式会社 匿名化テーブル生成装置、匿名化テーブル生成方法、プログラム
JP2019095885A (ja) * 2017-11-20 2019-06-20 株式会社日立製作所 匿名化データ評価システム及び方法、並びに匿名レベル判定サーバ

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HASEGAWA SATOSHI, MIURA TAKAYUKI: "Proposal of Anonymization method by generalization and randomization and How Much is Explicit identification risk?", INFORMATION PROCESSING SOCIETY OF JAPAN- PROCEEDINGS OF COMPUTER SECURITY SYMPOSIUM 2019, vol. 2019, 14 October 2019 (2019-10-14), pages 1520 - 1527, Retrieved from the Internet <URL:http://id.nii.ac.jp/1001/00201414> *

Also Published As

Publication number Publication date
JPWO2021065004A1 (ja) 2021-04-08
JP7290169B2 (ja) 2023-06-13
US20220350924A1 (en) 2022-11-03

Similar Documents

Publication Publication Date Title
O'Donoghue et al. Design choices and trade-offs in health care blockchain implementations: systematic review
US20200356901A1 (en) Target variable distribution-based acceptance of machine learning test data sets
CN106415586A (zh) 已配置的结构数据的快速访问权利检查
JP6766182B2 (ja) 秘密計算システム、秘密計算装置、秘密計算方法、プログラム
CN110197445B (zh) 知识产权状态的生成、查询方法、计算机设备及存储介质
WO2023005862A1 (zh) 数据治理装置、方法、计算机设备及存储介质
JP2023512338A (ja) コンテキスト駆動型データプロファイリング
JPWO2020071187A1 (ja) 秘密シグモイド関数計算システム、秘密ロジスティック回帰計算システム、秘密シグモイド関数計算装置、秘密ロジスティック回帰計算装置、秘密シグモイド関数計算方法、秘密ロジスティック回帰計算方法、プログラム
Chang et al. Dynamic deduplication decision in a hadoop distributed file system
WO2021065004A1 (ja) 識別推定リスク評価装置、識別推定リスク評価方法、プログラム
JP6549076B2 (ja) 匿名化テーブル生成装置、匿名化テーブル生成方法、プログラム
JP6556681B2 (ja) 匿名化テーブル生成装置、匿名化テーブル生成方法、プログラム
WO2020189133A1 (ja) システム、クライアント装置、データ処理方法、コンピュータプログラム及び記録媒体
CN111737090B (zh) 日志仿真方法、装置、计算机设备和存储介质
JP7088404B2 (ja) 匿名性評価装置、匿名性評価方法、プログラム
KR20210137612A (ko) 블록체인을 관리하기 위한 장치, 방법, 시스템 및 컴퓨터 판독가능 저장 매체
JP7088405B2 (ja) 匿名化装置、匿名化方法、プログラム
JP6532829B2 (ja) 撹乱データ再構築誤差推定装置、撹乱データ再構築誤差推定方法、プログラム
WO2021220402A1 (ja) 準識別子判定装置、準識別子判定方法、プログラム
JP2020035066A (ja) 情報秘匿化方法、情報秘匿化プログラム、情報秘匿化装置および情報提供システム
WO2021220404A1 (ja) 匿名化データベース生成装置、匿名化データベース生成方法、プログラム
JP6758632B2 (ja) 正確検定計算装置、正確検定計算方法、およびプログラム
US20230195928A1 (en) Detection and protection of personal data in audio/video calls
WO2021070361A1 (ja) 維持置換確率生成装置、維持置換撹乱装置、維持置換確率生成方法、維持置換撹乱方法、プログラム
WO2021220403A1 (ja) 属性推定装置、属性推定方法、プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19947711

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021550931

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19947711

Country of ref document: EP

Kind code of ref document: A1