JPWO2014181541A1 - 匿名性を検証する情報処理装置及び匿名性検証方法 - Google Patents

匿名性を検証する情報処理装置及び匿名性検証方法 Download PDF

Info

Publication number
JPWO2014181541A1
JPWO2014181541A1 JP2015515787A JP2015515787A JPWO2014181541A1 JP WO2014181541 A1 JPWO2014181541 A1 JP WO2014181541A1 JP 2015515787 A JP2015515787 A JP 2015515787A JP 2015515787 A JP2015515787 A JP 2015515787A JP WO2014181541 A1 JPWO2014181541 A1 JP WO2014181541A1
Authority
JP
Japan
Prior art keywords
record
anonymity
information
class
quasi
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015515787A
Other languages
English (en)
Inventor
翼 高橋
翼 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2014181541A1 publication Critical patent/JPWO2014181541A1/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/04Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
    • H04L63/0407Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the identity of one or more communicating identities is hidden

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本発明は、多次元データを匿名化の対象とする場合に、その匿名化における匿名性検証の計算コストの低減を可能にする情報処理装置を提供する。その情報処理装置は、データセットに含まれるレコードと、準識別子属性値の一意的な組み合わせを特定するクラスとの対応を示す情報を生成する手段と、その情報に示されるそのクラスに基づいて、そのレコード毎の匿名性を検証する手段と、その匿名性を検証した結果に基づいて、その匿名性を満たさないそのレコードを識別可能なように、その情報を更新し、出力する手段と、を備える。

Description

本発明は匿名化の技術に関し、例えば個人情報などの、オリジナルな情報内容のままで公開及び利用されることが好ましくない情報について匿名性を検証する技術に関する。
近年、購買情報や診療情報等のようなプライバシ情報が、販売サービスや診療サービスの提供者(サービス事業者)によって蓄積されている。
そのプライバシ情報は、複数の属性からなり、準識別子と呼ばれる属性を含む。準識別子は、生年や性別などといった個人を特徴付け、それらの組み合わせから個人を特定する可能性を持つ属性である。
このようなプライバシ情報は、プライバシ侵害の懸念から積極的な二次活用がなされていない。例えば、二次活用とは、プライバシ情報を生成、蓄積しているサービス事業者が、第三者にそのプライバシ情報を提供し、その第三者が自身の提供するサービスを強化するために、そのプライバシ情報を利用することを指す。また、二次活用とは、プライバシ情報を生成、蓄積しているサービス事業者が、第三者に対してそのプライバシ情報の分析などのアウトソーシングを依頼することなどを指す。
プライバシ侵害の懸念なしに二次活用ができれば、プライバシ情報を利用した研究の促進、分析・研究結果を用いたサービスの強化を行うことができる。そして、プライバシ情報を保有するサービス事業者以外の第三者も、プライバシ情報の持つ高い有益性を享受することができる。
例えば、第三者と想定し得るものとして製薬会社がある。その製薬会社にとっては診療情報を入手することは、困難である。その製薬会社は、その診療情報を入手することができれば、薬品がどのように利用されているのかを知ることができる。更には、その製薬会社は、その診療情報から、薬品の共起関係や相関関係などを分析することもできる。
例えば、プライバシ情報のデータセットは、サービス利用者(個人)を一意に識別するユーザ識別子と、一つ以上の準識別子とを一つのレコードとして含む。そして、サービス提供者は、サービス利用者がサービスを享受する度に、係るレコードを蓄積する。
ユーザ識別子が付与されたままのプライバシ情報が第三者に提供される場合、その第三者は、そのユーザ識別子を用いることによってサービス利用者を特定することが可能である。そのため、プライバシ侵害の問題が発生し得る。
また、複数のレコードによって構成されるデータセット(例えば、履歴情報など)の中から、各レコードに付与されている準識別子の組み合わせに基づいて、ある個人を特定できてしまう場合がある。即ち、例えユーザ識別子を取り除いた履歴情報であっても、準識別子の組み合わせに基づいてある個人を特定可能な場合があり、プライバシ侵害が発生し得る。
このような特性を有するプライバシ情報のデータセットを、本来の有用性を保ちながら、プライバシを保護した形態に変換する手法として、匿名化(匿名化技術:Anonymization)が知られている。
非特許文献1は、最もよく知られた匿名性指標である“k−匿名性”を提案する。匿名化対象のデータセットに、係るk−匿名性を充足させる手法は、“k−匿名化”と呼ばれる。このk−匿名化では、同じ値の準識別子を有するレコードがその匿名化対象のデータセットの中に少なくともk個以上存在するように、その準識別子を変換する処理が行われる。この変換処理としては、一般化、切り落とし等の方式が知られている。係る一般化において、元の詳細な情報は、抽象化された情報に変換される。
例えば、特許文献1は、プライバシ情報評価サーバを開示する。第1に、そのプライバシ情報評価サーバは、ユーザ端末から受信したプライバシ情報を加工する。第2に、そのプライバシ情報評価サーバは、その加工したプライバシ情報がk-匿名性を満たすか否かを判定する。第3に、そのプライバシ情報評価サーバは、その判定結果に基づいて、ユーザの識別情報を除いたその加工したプライバシ情報を出力する。
また、このようなk−匿名化技術を利用する他の関連技術が、非特許文献2に記載されている。非特許文献2では、類似する属性値を持つレコードの集合(以降、クラスタと呼ぶ)を逐次生成し、クラスタに含まれるレコードにおいて、一般化や切り落としにより共通の属性値を生成することで多次元データをk−匿名化する手法が提案されている。
そのプライバシ情報評価サーバのk-匿名性判定部は、k-匿名性判定のフィードバックに基づいて、ボトムアップ処理或いはトップダウン処理により、そのプライバシ情報を一般化する。
また、特許文献2は、公開情報のプライバシ保護装置を開示する。第1に、そのプライバシ保護装置は、入力されたデータの各準識別子を加工し、一般化を行う。第2に、そのプライバシ保護装置は、その一般化された準識別子の全てから構成される表が、所定のk-匿名性を満たすことを判定する。第3に、そのプライバシ保護装置は、その判定した結果に基づいて、最適なデータセットを出力する。
特開2011−180839 特開2012−003440
L.Sweeney、"k−anonymity:a model for protecting privacy"、 International Journal on Uncertainty, Fuzziness and Knowledge−based Systems,10(5),pp.555−570,2002. K. LeFevre, David J. DeWitt and Raghu Ramakrishnan, "Mondrian Multidimensional k−Anonymity", ICDE2006.Proceedings of the 22nd International Conference on Data Engineering Page 25,2006.
しかしながら、上述した特許文献及び非特許文献に記載された技術においては、多次元データを匿名化の対象とした場合、その次元数に比例して、匿名性検証の計算コストが増加するという問題点がある。
その理由は、上述した特許文献及び非特許文献に記載された技術のいずれにおいても、多次元データを対象とする匿名化における、匿名化検証の処理特性を考慮していないからである。以下に、この理由を詳細に説明する。
k−匿名化の際には、データセットがk−匿名性を満たすかどうかを判定する匿名性検証を多数実施する。特に、有効性(Utility)の高いk−匿名化データを生成するためには、各属性(準識別子)を有効性が高くなるように段階的に加工(再符号化)する必要がある。そして、各属性を加工される度にその匿名性検証を実施する必要がある。
ここで、加工する属性が複数であることは、即ち多次元データを匿名化の対象としていることである。
その匿名性検証では、まず検証の対象であるデータセットについて、全ての準識別子に対して同一の値の組を持つ、レコード数またはユニークなユーザ識別子の種類数が、数えられる。ここで、そのデータセットは、そのユーザ識別子を含むそのレコードを含む。
ここで、全ての準識別子に対して同一の値の組を持つそのレコードの集合を等価クラス(Equivalent Class)またはクラスと呼ぶ。
あるクラスのレコード数(またはユニークなユーザ識別子の種類数)がk以上である場合、そのクラスに含まれるレコード集合はk−匿名性を充足していると判断される。また、あるクラスのレコード数がk未満である場合、そのクラスに含まれるレコード集合はk−匿名性を充足しないと判断される。この匿名性検証を、あるデータセットに含まれる全てのレコードに対して実施し、全てのそのレコードがk−匿名性を満たせば、そのデータセットはk−匿名性を満たすと判断される。
その匿名性検証では、その対象とするデータセットで出現する組Qについて、そこに含まれるレコード数またはユニークなユーザ識別子の種類数を数える必要がある。ここで組Qは、全ての準識別子の全ての属性値の、組み合わせである。このとき、その準識別子の数が増加すると、組Qの組み合わせ数が増大する。
例えば、d(d≧1)個の準識別子qi(i=1、・・・、d)があり、各準識別子qiの属性値の種類数を|qi|とする。この場合、その匿名性検証で考慮すべき、その組み合わせ数の最大値は、|q1|×|q2|×…×|qd|である。各準識別子が再符号化されることで、その組み合わせ数は増減するが、基本的にはその準識別子の数に比例して、その組み合わせ数は増大する。
また、その匿名性検証において、組Qを抽出する処理では、その準識別子の数であるd回のデータ参照が必要になる。そのレコード数をN(N≧1)とすると、dN回の参照が必要となる。更に、その各準識別子が分散して配置されている場合、1回の参照コストも大きくなり、トータルの参照コストが更に大きくなる。
本発明の目的は、上述した問題点を解決できる情報処理装置、匿名性検証方法、及びそのためのプログラム或いはそのプログラムを記録したコンピュータ読み取り可能な非一時的記録媒体を提供することにある。
本発明の一様態における情報処理装置は、データセットに含まれるレコードと、前記レコードに含まれる準識別子の値である準識別子属性値の、一意的な組み合わせを特定するクラスとの対応を示すレコード−クラス対応情報(Record−Class Map、RCM)を生成する対応情報生成手段と、前記レコード−クラス対応情報に示される前記クラスに基づいて、前記レコード毎の匿名性を検証する匿名性検証手段と、前記匿名性を検証した結果に基づいて、前記匿名性を満たさない前記レコードを識別可能なように、前記レコード−クラス対応情報を更新し、出力する対応情報更新手段と、を含む。
本発明の一様態における匿名化方法は、情報処理装置が、データセットに含まれるレコードと、前記レコードに含まれる準識別子の値である準識別子属性値の、一意的な組み合わせを特定するクラスとの対応を示すレコード−クラス対応情報を生成し、前記レコード−クラス対応情報に示される前記クラスに基づいて、前記レコード毎の匿名性を検証し、前記匿名性を検証した結果に基づいて、前記匿名性を満たさない前記レコードを識別可能なように、前記レコード−クラス対応情報を更新し、出力する。
本発明の一様態におけるコンピュータ読み取り可能な非一時的記録媒体は、データセットに含まれるレコードと、前記レコードに含まれる準識別子の値である準識別子属性値の、一意的な組み合わせを特定するクラスとの対応を示すレコード−クラス対応情報を生成し、前記レコード−クラス対応情報に示される前記クラスに基づいて、前記レコード毎の匿名性を検証し、前記匿名性を検証した結果に基づいて、前記匿名性を満たさない前記レコードを識別可能なように、前記レコード−クラス対応情報を更新し、出力する処理をコンピュータに実行させるプログラムを記憶する。
本発明は、多次元データを匿名化の対象とする場合に、その匿名化における匿名性検証の計算コストの低減を可能にするという効果がある。
図1は本発明の第1の実施形態に係る匿名性検証装置の構成を示すブロック図である。 図2は第1の実施形態における匿名化対象データセットの一例を示す図である。 図3は第1の実施形態におけるクラス定義の一例を示す図である。 図4は第1の実施形態におけるレコード−クラスマップの一例を示す図である。 図5は第1の実施形態における匿名性検証結果の一例を示す図である。 図6は第1の実施形態における更新後レコード−クラスマップの一例を示す図である。 図7は、第1の実施形態に係る匿名性検証装置を実現するコンピュータのハードウェア構成を示すブロック図である。 図8は第1の実施形態における匿名性検証装置の動作を示すフローチャートである。 図9は本発明の第2の実施形態に係る匿名性検証装置の構成を示すブロック図である。 図10は第2の実施形態におけるレコード−クラスマップの一例を示す図である。 図11は第2の実施形態におけるカレントステートテーブルの一例を示す図である。 図12は第2の実施形態における中間データの一例を示す図である。 図13は第2の実施形態における属性の一般化階層の一例を示す図である。 図14は第2の実施形態における匿名性検証結果の一例を示す図である。 図15は第2の実施形態における更新後カレントステートテーブルの一例を示す図である。 図16は第2の実施形態における更新後レコード−クラスマップの一例を示す図である。 図17は第2の実施形態における匿名性検証装置の動作を示すフローチャートである。
以下、本発明の実施形態に関して、図面を参照して詳細に説明する。尚、各図面及び明細書記載の各実施形態において、同様の構成要素には同様の符号を付与し、適宜説明を省略する。
また、以下の実施形態及び各図において、本発明の本質に関わらない構成については一般的な技術を採用することとし、本実施形態における詳細な説明及び図示は省略する。
<<<第1の実施形態>>>
図1は、第1の実施形態に係る匿名性検証装置(情報処理装置とも呼ばれる)100の構成を示すブロック図である。図1に示すように、匿名性検証装置100は、RCM生成部(対応情報生成手段とも呼ばれる)102と、匿名性検証部106と、RCM更新部(対応情報更新手段とも呼ばれる)108とを含む。尚、図1に示す構成要素は、ハードウェア単位の構成要素でも、コンピュータ装置の機能単位に分割した構成要素でもよい。ここでは、図1に示す構成要素は、コンピュータ装置の機能単位に分割した構成要素として説明する。
まず、本実施形態に係る匿名性検証装置100の動作の概要を説明する。
匿名性検証装置100は、匿名化対象データセット(単に、データセットとも呼ばれる)に含まれる全ての匿名化対象レコード(単に、レコードとも呼ばれる)809のそれぞれから、組Qを抽出する。ここで、組Qは、「準識別子の値(準識別子属性値とも呼ばれる)の、全種類の準識別子についての、一意的な組み合わせ」を示す。尚、準識別子の値は、準識別子の具体的内容を表すデータであり、数値に限定されない(例えば、文字などの)情報である。
次に、匿名性検証装置100は、その抽出した各組Qを一意的に特定するクラスを定義し、それらの匿名化対象レコード809のそれぞれをそれらのクラスに対応付けるレコード−クラスマップ(RCM、レコード−クラス対応情報とも呼ばれる)を生成する。
そして、匿名性検証装置100は、そのレコード−クラスマップに基づいて、各匿名化レコードr’のk−匿名性を検証する。ここで、匿名化レコードr’とは、匿名化対象レコード809に対応する、匿名化対象レコード809が匿名化された或いは匿名化されるレコードである。
そして、匿名性検証装置100は、それらのk−匿名性を検証した結果に基づいて、そのk−匿名性を満たさない匿名化レコードr’を識別可能なように、そのレコード−クラスマップを更新する。
次に、本実施形態における匿名性検証装置100が備える各構成要素について説明する。
===RCM生成部102===
RCM生成部102は、匿名化対象データセット800に含まれる全ての匿名化対象レコード809から、組Qを抽出する。
図2は、本実施形態における匿名化対象データセット800の一例を示す図である。
図2に示すように、匿名化対象データセット800は、複数の匿名化対象レコード809を含む。匿名化対象レコード809は、匿名化対象レコード809自身を識別するRID(Record Identifier、レコード識別子、レコードID)と、1つ以上の準識別子とを含む。その準識別子は、例えば、「性別」、「生年」、「診療月」及び「傷病名」である。尚、匿名化対象データセット800は、図2に示す例に係わらず、任意の属性を含んでよい。また、その準識別子は、匿名化対象データセット800に含まれる属性の内、任意の属性であってよい。
匿名化対象データセット800は、オリジナルな情報内容のままで公開や利用されることが好ましくない、個人情報等の情報である。
例えば、RCM生成部102は、図2に示す匿名化対象データセット800から、以下の6種類の組Qを抽出する。
{“男性”、“1930〜1939”、“4〜6”、“A、B、C”}、{“男性”、“1940〜1949”、“4〜6”、“X、Y、Z”}、{“男性”、“1950〜1959”、“4〜6”、“X、Y、Z”}、{“女性”、“1930〜1939”、“4〜6”、“A、B、C”}、{“女性”、“1940〜1949”、“4〜6”、“X、Y、Z”}、{“女性”、“1950〜1959”、“4〜6”、“X、Y、Z”}。
上述したように、これらの組Qは、準識別子の値の、全種類の準識別子についての、一意的な組み合わせである。尚、その組Qは、匿名性検証部106がk−匿名性検証に用いる任意の種類の準識別子の値の、一意的な組み合わせであってもよい。
次に、RCM生成部102は、その抽出した組Qのそれぞれに対してクラスを定義する。
図3は、本実施形態における、クラス定義表810の一例を示す図である。図3に示すようにクラス定義表810は、その抽出された組QとCID(Class Identifier、クラス識別子、クラスID)との対応を示す。そのクラスIDは、その組Qのそれぞれに対して定義されたID情報であり、そのクラスを一意に識別する。
RCM生成部102は、各クラスのCIDに、重複がなく一意に識別できる任意の値を付与する。例えば、RCM生成部102は、その組Qの抽出順に対して、1から始まる連番を付与する。
次に、RCM生成部102は、匿名化対象レコード809のそれぞれに対応する組Qに基づいて、レコード−クラスマップを生成する。レコード−クラスマップは、匿名化対象レコード809とその定義したクラスとを対応付ける。同一のクラスに属する匿名化対象レコード809の集合は、同一の組Q(即ち、同一の準識別子の値の一意的な組み合わせ)に対応する匿名化対象レコード809の集合である。
例えば、CIDが「1」である組Qの「{“男性”、“1930〜1939”、“4〜6”、“A、B、C”}」を持つ匿名化対象レコード809の集合は、RIDが「1」及び「2」の匿名化対象レコード809である。よって、RIDが「1」及び「2」の匿名化対象レコード809は、CIDが「1」のクラスに属する。RCM生成部102は、RIDが「3」〜「10」の匿名化対象レコード809についても、同様にその組Qに基づいて、その各クラスのいずれかに対応付ける。
図4は、本実施形態におけるRCM820の一例を示す図である。図4に示すように、RCM820は、RIDとCIDとの対応、即ち匿名化対象レコード809とクラスとの対応を示す。
===匿名性検証部106===
匿名性検証部106は、RCM820に基づいて、匿名化レコードr’のk−匿名性を評価する。
具体的には、匿名性検証部106は、RCM820中のCID毎の頻度(RIDの数)を計数し、その頻度に基づいて匿名化レコードr’のk−匿名性を評価する。即ち、その頻度がk以上のクラスは、そのk−匿名性を満たす。従って、そのk−匿名性を満たすそのクラスに属する匿名化レコードr’も、そのk−匿名性を満たす。
図5は、匿名性検証部106によるk-匿名性の評価の結果である、匿名性検証結果830の一例を示す図である。
図5に示す匿名性検証結果830は、図4のRCM820に対してk=2のk−匿名性を検証した結果を示す。各行は、CIDと、そのCIDに対応するRIDの頻度(クラス毎のRID数=匿名化対象レコード809の数)と、その頻度からそのk−匿名性を充足するか否かを評価した検証結果とを含む。検証結果は、「OK」の場合にそのk-匿名性を充足することを示し、「NG」の場合にそのk-匿名性を充足しないことを示す。
図5は、CIDの「3」及び「6」に対応するクラスがそのk−匿名性を満たさないことを示す。従って、それらのクラスに属する、RIDの「5」及び「10」に対応する匿名化レコードr’がそのk−匿名性を満たさないことを示す。
このとき、匿名性検証部106は、CIDだけを参照してk−匿名性を検証することができ、N(レコード数)回の属性値の参照で匿名性の検証を実現できる。
即ち、レコード数をN(N≧1)、準識別子数をd(d≧1)とした場合、RCM820の生成には、dN回の匿名化対象データセット800の参照が必要になる。しかし、以降の処理において匿名性検証を実施する際には、匿名性検証部106は、N回の参照、または検証したい匿名化レコードr’の属するそのクラスのそのレコード数だけの参照回数でk−匿名性を検証できる。
===RCM更新部108===
RCM更新部108は、匿名性検証結果830に基づいて、更新後RCMを生成し、出力する。RCM更新部108は、k−匿名性を満たさない匿名化レコードr’が明らかになるように、RCM820を更新して更新後RCMを生成する。
具体的には、RCM更新部108は、RCM820からk−匿名性を満たさない匿名化レコードr’に対応する行を削除する。また、RCM更新部108は、k−匿名性を満たさないその匿名化レコードr’に対応するクラスIDを、k−匿名性を満たす匿名化レコードr’に対応するクラスIDと区別可能に管理するようにしてもよい。例えば、RCM更新部108は、クラスIDにk−匿名性を満たさないことを示す情報(例えば、所定の値)を付加するようにしてもよい。
図6は、更新後RCM821の一例を示す図である。図6に示すように、更新後RCM821は、図4に示すRCM820から、RIDが「5」及び「6」の行が削除されている。即ち、更新後RCM821は、RCM820からk−匿名性を満たさない匿名化レコードr’に対応する行(一般的に、情報とも呼ばれる)を削除したものである。
以上が、匿名性検証装置100の機能単位の各構成要素についての説明である。
次に、匿名性検証装置100のハードウェア単位の構成要素について説明する。
本実施形態において、匿名性検証装置100は、コンピュータ等の情報処理装置によって実現することができる。匿名性検証装置100及び後述する第2の実施形態における匿名化装置200における各構成要素(機能ブロック)は、情報処理装置が備えるハードウェア資源において、プログラムが実行されることによって実現される。プログラムは、コンピュータ・プログラム或いはソフトウェア・プログラムとも呼ばれる。
例えば、匿名性検証装置100は、コンピュータのCPU(Central Processing Unit)、主記憶装置、補助記憶装置等のハードウェアと、記憶装置等から主記憶装置にロードされたプログラムとが協働することによって実現される。
但し、プログラムの実装形態は、図1に示したブロック構成(RCM生成部102、匿名性検証部106、RCM更新部108)には限定されず、当業者が採用し得る様々な実装形態を適用可能である(以下の各実施形態においても同様)。尚、匿名性検証装置100及び後述する各実施形態に係る匿名化装置は、専用の装置によって実現してもよい。
図7は、本実施形態における匿名性検証装置100を実現するコンピュータ700のハードウェア構成を示す図である。
図7に示すように、コンピュータ700は、CPU(Central Processing Unit)701、記憶部702、記憶装置703、入力部704、出力部705及び通信部706を含む。更に、コンピュータ700は、外部から供給される記録媒体(または記憶媒体)707を含む。記録媒体707は、情報を非一時的に記憶する不揮発性記録媒体であってもよい。
CPU701は、オペレーティングシステム(不図示)を動作させて、コンピュータ700の、全体の動作を制御する。また、CPU701は、例えば記憶装置703に装着された記録媒体707から、プログラムやデータを読み込み、読み込んだプログラムやデータを記憶部702に書き込む。ここで、そのプログラムは、例えば、後述の図8に示すフローチャートの動作をコンピュータ700に実行させるプログラムである。
そして、CPU701は、読み込んだプログラムに従って、また読み込んだデータに基づいて、図1に示すRCM生成部102、匿名性検証部106及びRCM更新部108として各種の処理を実行する。
尚、CPU701は、通信網(不図示)に接続されている外部コンピュータ(不図示)から、記憶部702にプログラムやデータをダウンロードするようにしてもよい。
記憶部702は、プログラムやデータを記憶する。記憶部702は、匿名化対象データセット800、クラス定義表810、RCM820、匿名性検証結果830及び更新後RCM821を記憶してよい。
記憶装置703は、例えば、光ディスク、フレキシブルディスク、磁気光ディスク、外付けハードディスク及び半導体メモリであって、記録媒体707を含む。記憶装置703(記録媒体707)は、プログラムをコンピュータ読み取り可能に記憶する。また、記憶装置703は、データを記憶してもよい。記憶装置703は、匿名化対象データセット800、クラス定義表810、RCM820、匿名性検証結果830及び更新後RCM821を記憶してよい。
入力部704は、例えばマウスやキーボード、内蔵のキーボタンなどで実現され、入力操作に用いられる。入力部704は、マウスやキーボード、内蔵のキーボタンに限らず、例えばタッチパネルなどでもよい。入力部704は、例えば103の一部として含まれる。この場合、RCM生成部102は、処理開始の指示や、匿名化対象データセット800の指定を、入力部704を介して受け取るようにしてよい。
出力部705は、例えばディスプレイで実現され、出力を確認するために用いられる。出力部705は、例えばRCM生成部102、匿名性検証部106及びRCM更新部108の一部として含まれる。この場合、各構成要素は、処理の結果や異常の発生などを、出力部705を介して出力するようにしてよい。
通信部706は、外部とのインタフェースを実現する。通信部706は、例えばRCM生成部102の一部として含まれる。この場合、RCM生成部102は、通信部706を介して、外部装置から匿名化対象データセット800を取得するようにしてよい。
以上説明したように、図1に示す匿名性検証装置100の機能単位のブロックは、図7に示すハードウェア構成のコンピュータ700によって実現される。但し、コンピュータ700が備える各部の実現手段は、上記に限定されない。すなわち、コンピュータ700は、物理的に結合した1つの装置により実現されてもよいし、物理的に分離した2つ以上の装置を有線または無線で接続し、これら複数の装置により実現されてもよい。
尚、上述のプログラムのコードを記録した記録媒体707が、コンピュータ700に供給され、CPU701は、記録媒体707に格納されたプログラムのコードを読み出して実行するようにしてもよい。或いは、CPU701は、記録媒体707に格納されたプログラムのコードを、記憶部702、記憶装置703またはその両方に格納するようにしてもよい。すなわち、本実施形態は、コンピュータ700(CPU701)が実行するプログラム(ソフトウェア)を、一時的にまたは非一時的に、記憶する記録媒体707の実施形態を含む。
以上が、本実施形態における匿名性検証装置100を実現するコンピュータ700の、ハードウェア単位の各構成要素についての説明である。
次に本実施形態の動作について、図1〜図8を参照して詳細に説明する。
図8は、本実施形態の動作を示すフローチャートである。尚、このフローチャートによる処理は、前述したCPU701によるプログラム制御に基づいて、実行されても良い。また、処理のステップ名については、S601のように、記号で記載する。
RCM生成部102は、匿名化対象データセット800に含まれる全ての匿名化対象レコード809から、組Qを抽出する(ステップS601)。
例えば、匿名化対象データセット800は、図7に示す記憶部702或いは記憶装置703に予め記憶されていてよい。また、RCM生成部102は、図7に示す入力部704を介して操作者が入力した、匿名化対象データセット800を取得するようにしてもよい。また、RCM生成部102は、図7に示す通信部706を介して図示しない機器から、匿名化対象データセット800を受信するようにしてもよい。また、RCM生成部102は、図7に示す記憶装置703を介して、記録媒体707に記録された匿名化対象データセット800を取得するようにしてもよい。
次に、RCM生成部102は、その抽出した組Qのそれぞれに対してクラスを定義する(ステップS602)。
次に、RCM生成部102は、匿名化対象レコード809のそれぞれが持つ組Qに基づいて、匿名化対象レコード809とそれらのクラスとを対応付けたRCM820を生成する(ステップS603)。
次に、匿名性検証部106は、RCM820に基づいて、各匿名化レコードr’のk−匿名性を評価する(ステップS604)。
次に、RCM更新部108は、そのk-匿名性の評価の結果に基づいて、RCM820を更新して更新後RCM821を生成し、出力する(ステップS605)。
例えば、RCM更新部108は、更新後RCM821を図7に示す出力部705を介して出力する。また、RCM更新部108は、図7に示す通信部706を介して、図示しない機器に更新後RCM821を送信するようにしてもよい。また、RCM更新部108は、図7に示す記憶装置703を介して、記録媒体707に更新後RCM821を記録するようにしてもよい。
上述したように、本実施形態の匿名性検証装置100は、匿名化対象データセット800のような多次元データを対象とした匿名化における匿名性検証の際に、匿名化レコードr’の数(例えば、N(N≧1))の回数だけRCM820を参照する。そして、匿名性検証装置100がRCM820を参照する回数は、準識別子の数(例えばd(d≧1))に係わらない。即ち、匿名性検証装置100は、匿名性検証の際のデータ参照をN回に抑えることができる。一方、関連技術では、そのデータ参照がdN回実施される。
上述した本実施形態における効果は、多次元データを匿名化の対象とする場合に、その匿名化における匿名性検証の計算コストの低減を可能にする点である。
その理由は、RCM生成部102がRCM820を生成し、匿名性検証部106がRCM820に基づいてk−匿名性を検証し、RCM更新部108が検証結果に基づいてRCM820を更新して更新後RCM821を生成し、出力するようにしたからである。
<<<第2の実施形態>>>
次に、本発明の第2の実施形態について図面を参照して詳細に説明する。以下、本実施形態の説明が不明確にならない範囲で、前述の説明と重複する内容については説明を省略する。
本実施形態は、匿名化処理中に実施する匿名性検証を、レコード−クラスマップを用いてデータの参照コストを抑制しつつ、実現する方法を開示する。
本実施形態は、段階的にk−匿名性を満たしながら情報損失が低い状態を探索する場合を開示する。具体的には、本実施形態は、準識別子を最も一般化した状態から少しずつ詳細化(具体化)することと、その詳細化した場合の匿名性を検証することとを繰り返すことで再符号化を行う場合を開示する。
図9は、本発明の第2の実施形態に係る匿名化装置(情報処理装置とも呼ばれる)200の構成を示す機能ブロック図である。
図9に示すように匿名化装置200は、RCM生成部202とカレントステート生成部203と再符号化部205と匿名性検証部206とカレントステート更新部207とRCM更新部208とを含む。
===RCM生成部202===
RCM生成部202は、匿名化対象データセット800に基づいて、レコード−クラスマップ(RCM)を生成する。
図10は、RCM生成部202が生成するRCM840の一例を示す図である。尚、RCM840において、CIDは1つである。即ち、図10に示すRCM840は、全ての匿名化レコードr’が同じクラスに属していることを示す。
===カレントステート生成部203===
カレントステート生成部203は、RCM840に基づいて、準識別子毎にカレントステートテーブルを生成する。
図11は、カレントステートテーブル850の一例を示す図である。図11に示すように、カレントステートテーブル850は、RID(レコード識別子)とCID(クラス識別子)と再符号化値との組を含む。
図11に示すカレントステートテーブル850は、図2に示す匿名化対象データセット800及び図10に示すRCM840に基づいて、生成されたものである。そして、カレントステートテーブル850は、トップダウン再符号化の場合に対応するカレントステートレコードの例である。そのトップダウン再符号化は、所定のk−匿名性を充足しつつ、その準識別子の属性値の範囲や性質がオリジナルの属性値に近づくように、準識別子の値を加工(具体化)する再符号化である。
その再符号化値は、準識別子の属性値を加工し、生成したものである。カレントステートテーブル850に含まれる再符号化値は、いずれの準識別子に対応するカレントステートテーブル850においても、全て同じ(例えば、「ANY」)である。「ANY」は、ある準識別子が取り得る全ての値を包含する。即ち、カレントステートテーブル850は、最も一般化された準識別子の値を再符号化値として含む。
尚、カレントステートレコードは、以下に示すボトムアップ再符号化の場合に対応するカレントステートレコードであってもよい。そのボトムアップ再符号化は、その準識別子のオリジナルの属性値を、所定のk−匿名性を充足するように、加工(一般化)する再符号化である。
この場合、そのカレントステートレコードに含まれる再符号化値は、そのカレントステートレコードに対応する匿名化対象レコード809に含まれる、オリジナルの属性値である。
===再符号化部205===
再符号化部205は、カレントステートテーブル850の再符号化値を加工し、中間データを生成する。
図12は、中間データ860の一例を示す図である。図12に示すように、中間データ860は、図11に示すカレントステートテーブル850と同様に、RIDとCIDと再符号化値との組を含む。ここで、中間データ860に含まれる再符号化値は、カレントステートテーブル850の再符号化値が加工されたものである。
図13は、一般化階層(Generalization Hierarchy)870の一例を示す図である。図13に示すように、一般化階層870は、生年属性の一般化階層であり、最上位に生年属性が取り得る値を全て包含する値のルートを持ち、下位に向かって、順次具体化された値のノードを持つ。
例えば、再符号化部205は、図13に示す一般化階層870に基づいて、図11に示すカレントステートテーブル850に含まれる「生年」の属性(準識別子)を再符号化し、図12に示す中間データ860を生成する。
具体的には、再符号化部205は、カレントステートテーブル850に含まれる「生年」の準識別子を、匿名化対象データセット800に含まれる生年の準識別子の値と一般化階層870とに基づいて、再符号化する。具体的には、再符号化部205は、その「生年」の準識別子を、最も一般化された状態である「ANY」から1段階詳細化を行った「1900〜1949」、「1950〜1999」、「2000〜」へと再符号化する。
尚、中間データ860は、トップダウン再符号化の場合に対応する中間データの例である。ボトムアップ再符号化の場合、再符号化部205は、その「生年」の準識別子を、そのオリジナルの属性値から1段階一般化を行った値へと再符号化する。
===匿名性検証部206===
匿名性検証部206は、中間データ860に基づいて、各匿名化レコードr’のk−匿名性を検証する。
例えば、匿名性検証部206は、中間データ860における、同一の(CID、再符号化値)の組を持つその匿名化レコードr’の数を計数する。または、k−匿名性の検証は、同一の(CID、再符号化値)の組を持つその匿名化レコードr’に対応する、個人識別子等の属性の種類数を計数するようにしてもよい。
計数したレコード数がk以上である、同一の(CID、再符号化値)の組に対応する匿名化レコードr’は、k−匿名性を満たす。また、計数したレコード数がk未満の、同一の(CID、再符号化値)の組に対応する匿名化レコードr’は、k−匿名性を満たさない。ここで、同一の(CID、再符号化値)の組を持つその匿名化レコードr’のグループは、同一のクラスに属すると考えることができる。
図14は、図12の中間データ860に対してk−匿名性(k=2)を評価した結果を示す図である。図14に示す匿名性検証結果880は、(CID、再符号化値)の組と頻度とを含む。ここで、その頻度は、その(CID、再符号化値)の組を持つその匿名化レコードr’の数である。CIDが「1」及び再符号化値が「1900〜1949」の組に対応するクラスはその頻度が「8」でありそのk−匿名性を満たすことを示している。また、図14は、CIDが「1」及び再符号化値が「1950〜1999」の(CID、再符号化値)の組に対応するクラスはその頻度が「2」でありそのk−匿名性を満たさないことを示している。
===カレントステート更新部207===
カレントステート更新部207は、後述するRCM更新部208が中間データ860を採用すると判定した場合、中間データ860に含まれる再符号化値を、カレントステートテーブル850に反映する。更に、カレントステート更新部207は、カレントステートテーブル850のCIDを更新し、更新後カレントステートテーブル852を生成する。カレントステート更新部207は、更新する新しいCIDとして、図14に示す匿名性検証結果880に含まれるCIDと再符号化値との組み合わせに対して一意となる値を割り当てる。
また、カレントステート更新部207は、後述の更新後RCM842に基づいて、その再符号化した準識別子以外の、他の準識別子に対応するカレントステートテーブルのCIDを更新する。
また、カレントステート更新部207は、全ての準識別子の再符号化が終了した場合に、その更新した結果に対応する情報を出力する。その情報は、例えば、それら全ての準識別子のそれぞれに対応するCIDを更新されたカレントステートテーブルである。または、その情報は、それらのCIDを更新されたカレントステートテーブルに基づいて匿名化対象データセット800が更新されて生成された匿名化データセットであってよい。
図15は、図11に示すカレントステートテーブル850が、再符号化値を反映され、図14に示す匿名性検証結果880に基づいてクラスIDを更新された、更新後カレントステートテーブル852の一例を示す図である。ここで、その再符号化値は、図12に示す中間データ860に含まれる再符号化値である。
===RCM更新部208===
RCM更新部208は、匿名性検証部206の匿名性検証結果880に応じて、中間データ860を採用するか否かを判定する。例えば、RCM更新部208は、全匿名化対象レコード809のそれぞれに対応する匿名化レコードr’の80%以上がk−匿名性を満たす匿名性検証結果880を得られる場合、中間データ860を採用すると判定する。また、RCM更新部208は、その匿名性検証結果880を得られない場合、中間データ860を採用しないと判定する。
中間データ860を採用すると判定した場合、RCM更新部208は、CIDを変更された更新後カレントステートテーブル852に基づいて、RCM840を更新する。具体的には、RCM更新部208は、更新後カレントステートテーブル852のRIDとCIDとの組み合わせを抽出し、その抽出した内容に基づいて、RCM840を更新する。
RCM更新部208は、更に、匿名性検証結果880に基づいて、k−匿名性を満たさない匿名化レコードr’に対応するRIDとCIDとの組み合わせを削除する。また、RCM更新部208は、k−匿名性を満たさない匿名化レコードr’に対応するクラスIDを、k−匿名性を満たすその匿名化レコードに対応するクラスIDと区別可能なように管理するようにしてもよい。例えば、RCM更新部208は、k−匿名性を満たさない匿名化レコードr’に対応するクラスIDにk−匿名性を満たさないことを示す情報(例えば、所定の値)を付加するようにしてもよい。
図16は、図10に示すRCM840が、CIDを更新され、RIDとCIDとの組み合わせを削除された、更新後RCM842の一例を示す図である。ここで、そのCIDの更新は、図15に示す更新後カレントステートテーブル852に基づいた更新である。また、RIDとCIDとの組み合わせの削除は、図14に示す匿名性検証結果880に基づいた削除である。
また、中間データ860を採用しないと判定した場合、RCM更新部208は、その中間データ860を破棄する。即ち、その場合、RCM更新部208は、その中間データ860について、何の処理も実行しなくてよい。
次に、本実施形態の動作を、図面を参照して詳細に説明する。
RCM生成部202は、匿名化対象データセット800に基づいて、RCM840を生成する(ステップS611)。ここで、RCM生成部202は、初期状態として全ての匿名化対象レコード809のクラスを同じクラス(例えば、CIDが「1」)に初期化する。
次に、カレントステート生成部203は、RCM840に基づいて、準識別子毎にカレントステートテーブル850を生成する(ステップS613)。
次に、再符号化部205は、再符号化の可否を判定する(ステップS615)。ここで、再符号化の可否とは、匿名化の対象のいずれかの準識別子についての、k−匿名性を満たす再符号化の可否を示す。
再符号化が可と判定された場合(ステップS615でYES)、処理はステップS617へ進む。再符号化が不可と判定された場合(ステップS615でNO)、処理はステップS631へ進む。
例えば、再符号化部205は、先行して実行されたステップS623(後述)の処理において、中間データ860を採用しないと判定された再符号化に対応する準識別子について、再符号化が不可であると判断する。
また、再符号化部205は、ステップS617以降の処理を実行しても、RCM更新部208における中間データ860の採用基準を満足できる可能性がある場合に再符号化が可であると判定するようにしてもよい。ここでその採用基準は、例えば、匿名化対象レコード809のそれぞれに対応する匿名化レコードr’の80%以上がk−匿名性を満たす匿名性検証結果880を得られるか否かである。そして、再符号化部205は、その採用基準を満足できる可能性がない場合に再符号化が不可であると判定するようにしてもよい。
尚、その採用基準を満足できる可能性がない場合は、例えば、前回のステップS617以降の処理実行による匿名性検証結果880が、全匿名化レコードr’のちょうど80%がk−匿名性を満たすことを示している場合である。換言すると、その場合は、匿名化結果に含めない匿名化レコードr’を更に増やすと、匿名性検証結果880が、そのk−匿名性を満たす匿名化レコードr’が80%未満であることを示す場合である。
更に、再符号化部205は、その再符号化値が一般化階層870の最下層のノード(リーフ)のいずれかの値である場合に再符号化が不可であると判定するようにしてよい。ここで、その再符号化値は、ステップS615の一回目の処理においては、カレントステートテーブル850に含まれる再符号化値である。また、その再符号化値は、ステップS615の二回目以降の処理においては、中間データ860に含まれる再符号化値である。
再符号化部205は、上述に係わらず、任意の条件或いは条件の組み合わせに基づいて、再符号化の可否を判定してよい。
この「RCM更新部208における中間データ860の採用基準」に基づく判定は、k−匿名性を満たさない匿名化レコードr’を匿名化結果には含めないことで、データセット全体としてはk−匿名性を満たすようにするという想定に基づくものである。
再符号化が可と判定された場合、再符号化部205は、再符号化の対象とする準識別子を選択する(ステップS617)。再符号化の対象とする準識別子は、再符号化可能な準識別子群から選択する。このとき、再符号化部205は、準識別子毎の情報損失等の情報量や、準識別子毎に定義された再符号化方法を用いて、再符号化を実施した場合の情報量の変化度合いや、その見積もり値を算出し、それらを用いて、再符号化の対象とする準識別子を1つ選択する。尚、再符号化部205は、選択の評価指標として任意の情報量を用いてよい。
ここでは、生年属性が再符号化の対象として選択されたものとして、ステップS619以降のステップの動作を説明する。
再符号化部205は、対象準識別子のカレントステートテーブル850に含まれる再符号化値を、その対象準識別子に対応する属性毎の再符号化手法に基づいて加工し、中間データ860を生成する(ステップS619)。
次に、匿名性検証部206は、ステップS619で生成した中間データ860に基づいて、各匿名化レコードr’のk−匿名性を検証する(ステップS621)。
次に、匿名性検証部206は、その検証した結果に基づいて、中間データ860を採用するか否かを判定する(ステップS623)。例えば、図12に示す中間データ860は、図14の匿名性検証結果880が示すように、10レコード中8レコード(80%)がk−匿名性を満たす。このため、匿名性検証部206は中間データ860を採用すると判定する。
中間データ860を採用する場合(ステップS623でYES)、処理はステップS625へ進む。
中間データ860を採用しない場合(ステップS623でNO)、処理はステップS615へ戻る。この場合、その中間データ860は、破棄される。
次に、カレントステート更新部207は、更新後カレントステートテーブル852を生成する(ステップS625)。
次に、RCM更新部208は、更新後RCM842を生成する(ステップS627)。
次に、カレントステート更新部207は、その更新後RCM842に基づいて、その再符号化した準識別子以外の、他の準識別子に対応するカレントステートテーブルのCIDを更新する(ステップS629)。尚、カレントステート更新部207は、この更新の処理を、ステップS619(再符号化)の前に、実施するようにしてもよい。その場合、カレントステート更新部207は、この更新の処理を再符号化の処理対象である準識別子に対応するカレントステートテーブルに対してのみ実施するようにしてもよい。
次に、カレントステート更新部207は、準識別子のそれぞれに対応する、それらの全ての更新後カレントステートテーブルを出力する(ステップS631)。尚、カレントステート更新部207は、それらの更新後カレントステートテーブルに基づいて、匿名化対象データセット800を更新して匿名化データセットを生成し、出力するようにしてもよい。
上述したように、本実施形態の匿名化装置200は、匿名化対象データセット800のような多次元データを対象とした匿名化における匿名性検証の際に、匿名化レコードr’の数「N(N≧1)」の2倍の回数だけカレントステートテーブルを参照する。ここで、そのカレントステートテーブルは、カレントステートテーブル850或いは更新後カレントステートテーブル852である。そして、匿名化装置200がそのカレントステートテーブルを参照する回数は準識別子の数「d(d≧1)」に係わらない。即ち、匿名性検証装置100は、匿名性検証の際のデータ参照を2N回に抑えることができる。一方、関連技術では、そのデータ参照がdN回実施される。
上述した本実施形態における効果は、多次元データを匿名化の対象とする場合に、その匿名化における匿名性検証の計算コストの低減を可能にする点である。
その理由は、以下のような構成を含むからである。即ち、第1に、RCM生成部202がRCM840を生成する。第2に、カレントステート生成部203がカレントステートテーブル850を生成する。第3に、再符号化部205が中間データ860を生成する。第4に、匿名性検証部206が中間データ860に基づいてk−匿名性を検証する。第5に、カレントステート更新部207がその検証結果に基づいてカレントステートテーブル850を更新する。第6に、RCM更新部208がその検証結果及びその更新されたカレントステートテーブル850に基づいて、RCM840を更新して更新後RCM842を生成し、出力する。
以上の各実施形態で説明した各構成要素は、必ずしも個々に独立した存在である必要はない。例えば、各構成要素は、複数の構成要素が1個のモジュールとして実現されてよい。また、各構成要素は、1つの構成要素が複数のモジュールで実現されてもよい。また、各構成要素は、ある構成要素が他の構成要素の一部であるような構成であってよい。また、各構成要素は、ある構成要素の一部と他の構成要素の一部とが重複するような構成であってもよい。
以上説明した各実施形態における各構成要素及び各構成要素を実現するモジュールは、必要に応じ、可能であれば、ハードウェア的に実現されてよい。また、各構成要素及び各構成要素を実現するモジュールは、コンピュータ及びプログラムで実現されてよい。また、各構成要素及び各構成要素を実現するモジュールは、ハードウェア的なモジュールとコンピュータ及びプログラムとの混在により実現されてもよい。
そのプログラムは、例えば、磁気ディスクや半導体メモリなど、不揮発性のコンピュータ可読記録媒体に記録されて提供され、コンピュータの立ち上げ時などにコンピュータに読み取られる。この読み取られたプログラムは、そのコンピュータの動作を制御することにより、そのコンピュータを前述した各実施形態における構成要素として機能させる。
また、以上説明した各実施形態では、複数の動作をフローチャートの形式で順番に記載してあるが、その記載の順番は複数の動作を実行する順番を限定するものではない。このため、各実施形態を実施するときには、その複数の動作の順番は内容的に支障がない範囲で変更することができる。
更に、以上説明した各実施形態では、複数の動作は個々に相違するタイミングで実行されることに限定されない。例えば、ある動作の実行中に他の動作が発生したり、ある動作と他の動作との実行タイミングが部分的に乃至全部において重複してもよい。
更に、以上説明した各実施形態では、ある動作が他の動作の契機になるように記載しているが、その記載はある動作と他の動作との全ての関係を限定するものではない。このため、各実施形態を実施するときには、その複数の動作の関係は内容的に支障のない範囲で変更することができる。また各構成要素の各動作の具体的な記載は、各構成要素の各動作を限定するものではない。このため、各構成要素の具体的な各動作は、各実施形態を実施する上で機能的、性能的、その他の特性に対して支障をきたさない範囲内で変更されて良い。
以上、各実施形態を参照して本発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2013年5月9日に出願された日本出願特願2013−099432を基礎とする優先権を主張し、その開示の全てをここに取り込む。
100 匿名性検証装置
102 RCM生成部
106 匿名性検証部
108 RCM更新部
200 匿名化装置
202 RCM生成部
203 カレントステート生成部
205 再符号化部
206 匿名性検証部
207 カレントステート更新部
208 RCM更新部
700 コンピュータ
701 CPU
702 記憶部
703 記憶装置
704 入力部
705 出力部
706 通信部
707 記録媒体
800 匿名化対象データセット
809 匿名化対象レコード
810 クラス定義表
820 RCM
821 更新後RCM
830 匿名性検証結果
840 RCM
842 更新後RCM
850 カレントステートテーブル
852 更新後カレントステートテーブル
860 中間データ
870 一般化階層
880 匿名性検証結果

Claims (10)

  1. データセットに含まれるレコードと、前記レコードに含まれる準識別子の値である準識別子属性値の一意的な組み合わせを特定するクラスとの対応を示すレコード−クラス対応情報を生成する対応情報生成手段と、
    前記レコード−クラス対応情報に示される前記クラスに基づいて、前記レコード毎の匿名性を検証する匿名性検証手段と、
    前記匿名性を検証した結果に基づいて、前記匿名性を満たさない前記レコードを識別可能なように、前記レコード−クラス対応情報を更新し、出力する対応情報更新手段と、を含む
    情報処理装置。
  2. 前記レコード−クラス対応情報と前記準識別子属性値とに基づいて、前記準識別子の種類毎に、前記レコードと前記クラスと前記準識別子属性値に対応する再符号化値との対応を示すカレントステート情報を生成するカレントステート生成手段と、
    前記カレントステート情報に含まれる前記再符号化値を加工する再符号化手段と、を含み、
    前記匿名性検証手段は、前記再符号化値に基づいて、前記レコード毎の匿名性を検証し、
    前記再符号化値と前記匿名性を検証した結果とに基づいて、前記カレントステート情報を更新し、その更新した結果に対応する情報を出力するカレントステート更新手段を更に含み、
    前記対応情報更新手段は、前記更新されたカレントステート情報に基づいて、前記レコード−クラス対応情報を更新する
    ことを特徴とする請求項1記載の情報処理装置。
  3. 前記再符号化手段は、最上位に前記順識別子が取り得る値を全て包含する値のルートを持ち、下位に向かって順次具体化された値のノードを持つ一般化階層に基づいて、前記再符号化値を生成する
    ことを特徴とする請求項2記載の情報処理装置。
  4. 前記対応情報更新手段は、前記匿名性を満たさない前記レコードに対応する情報を、前記レコード−クラス対応情報から削除することで、前記レコード−クラス対応情報を更新する
    ことを特徴とする請求項1乃至3のいずれか1項に記載の情報処理装置。
  5. 前記対応情報更新手段は、前記レコード−クラス対応情報に含まれる前記匿名性を満たさない前記レコードに対応する情報に、前記匿名生成を満たさないことを示す情報を付加することで、前記レコード−クラス対応情報を更新する
    ことを特徴とする請求項1乃至3のいずれか1項に記載の情報処理装置。
  6. 前記対応情報更新手段は、前記レコード−クラス対応情報に含まれる前記匿名性を満たさない前記レコードに対応する情報を、前記匿名生成を満たさないことを示す情報に変更することで、前記レコード−クラス対応情報を更新する
    ことを特徴とする請求項1乃至3のいずれか1項に記載の情報処理装置。
  7. 情報処理装置が、
    データセットに含まれるレコードと、前記レコードに含まれる準識別子の値である準識別子属性値の一意的な組み合わせを特定するクラスとの対応を示すレコード−クラス対応情報を生成し、
    前記レコード−クラス対応情報に示される前記クラスに基づいて、前記レコード毎の匿名性を検証し、
    前記匿名性を検証した結果に基づいて、前記匿名性を満たさない前記レコードを識別可能なように、前記レコード−クラス対応情報を更新し、出力する
    匿名化検証方法。
  8. 前記情報処理装置が、
    前記レコード−クラス対応情報と前記準識別子属性値とに基づいて、前記準識別子の種類毎に、前記レコードと前記クラスと前記準識別子属性値に対応する再符号化値との対応を示すカレントステート情報を生成し、
    前記カレントステート情報に含まれる前記再符号化値を加工し、
    前記匿名性の検証は、前記再符号化値に基づいて、前記レコード毎の匿名性を検証し、
    前記再符号化値と前記匿名性を検証した結果とに基づいて、前記カレントステート情報を更新し、その更新した結果に対応する情報を出力し、
    前記レコード−クラス対応情報の更新は、前記更新されたカレントステート情報に基づいて、前記レコード−クラス対応情報を更新する
    ことを特徴とする請求項7記載の匿名化検証方法。
  9. データセットに含まれるレコードと、前記レコードに含まれる準識別子の値である準識別子属性値の一意的な組み合わせを特定するクラスとの対応を示すレコード−クラス対応情報を生成し、
    前記レコード−クラス対応情報に示される前記クラスに基づいて、前記レコード毎の匿名性を検証し、
    前記匿名性を検証した結果に基づいて、前記匿名性を満たさない前記レコードを識別可能なように、前記レコード−クラス対応情報を更新し、出力する処理をコンピュータに実行させる
    プログラムを記録したコンピュータ読み取り可能な非一時的記録媒体。
  10. 前記レコード−クラス対応情報と前記準識別子属性値とに基づいて、前記準識別子の種類毎に、前記レコードと前記クラスと前記準識別子属性値に対応する再符号化値との対応を示すカレントステート情報を生成し、
    前記カレントステート情報に含まれる前記再符号化値を加工し、
    前記匿名性の検証は、前記再符号化値に基づいて、前記レコード毎の匿名性を検証し、
    前記再符号化値と前記匿名性を検証した結果とに基づいて、前記カレントステート情報を更新し、その更新した結果に対応する情報を出力し、
    前記レコード−クラス対応情報の更新は、前記更新されたカレントステート情報に基づいて、前記レコード−クラス対応情報を更新する処理をコンピュータに実行させる
    請求項9記載のプログラムを記録したコンピュータ読み取り可能な非一時的記録媒体。
JP2015515787A 2013-05-09 2014-05-08 匿名性を検証する情報処理装置及び匿名性検証方法 Pending JPWO2014181541A1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2013099432 2013-05-09
JP2013099432 2013-05-09
PCT/JP2014/002439 WO2014181541A1 (ja) 2013-05-09 2014-05-08 匿名性を検証する情報処理装置及び匿名性検証方法

Publications (1)

Publication Number Publication Date
JPWO2014181541A1 true JPWO2014181541A1 (ja) 2017-02-23

Family

ID=51867029

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015515787A Pending JPWO2014181541A1 (ja) 2013-05-09 2014-05-08 匿名性を検証する情報処理装置及び匿名性検証方法

Country Status (3)

Country Link
US (1) US9558369B2 (ja)
JP (1) JPWO2014181541A1 (ja)
WO (1) WO2014181541A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6597066B2 (ja) 2015-08-31 2019-10-30 富士通株式会社 個人情報匿名化方法、プログラム、及び情報処理装置
US10326772B2 (en) * 2015-11-20 2019-06-18 Symantec Corporation Systems and methods for anonymizing log entries
US11182502B2 (en) * 2016-02-22 2021-11-23 Tata Consultancy Services Limited Systems and methods for computing data privacy-utility tradeoff
WO2020043610A1 (en) * 2018-08-28 2020-03-05 Koninklijke Philips N.V. De-identification of protected information
JP7174377B2 (ja) * 2018-11-26 2022-11-17 株式会社日立製作所 データベース管理システム、および、匿名加工処理方法
CN113474778B (zh) * 2019-02-26 2024-02-20 日本电信电话株式会社 匿名化装置、匿名化方法、计算机可读取的记录介质
EP3933634B1 (en) * 2019-02-26 2024-05-01 Nippon Telegraph And Telephone Corporation Anonymity evaluation device, anonymity evaluation method, and program
US11456996B2 (en) * 2019-12-10 2022-09-27 International Business Machines Corporation Attribute-based quasi-identifier discovery
US20230121356A1 (en) * 2021-10-20 2023-04-20 Yodlee, Inc. Synthesizing user transactional data for de-identifying sensitive information

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002084531A2 (en) * 2001-04-10 2002-10-24 Univ Carnegie Mellon Systems and methods for deidentifying entries in a data source
US8316054B2 (en) * 2008-09-22 2012-11-20 University Of Ottawa Re-identification risk in de-identified databases containing personal information
CA2690788C (en) * 2009-06-25 2018-04-24 University Of Ottawa System and method for optimizing the de-identification of datasets
JP5525864B2 (ja) 2010-03-01 2014-06-18 Kddi株式会社 プライバシー情報評価サーバ、データ管理方法およびプログラム
JP5511532B2 (ja) 2010-06-16 2014-06-04 Kddi株式会社 公開情報のプライバシー保護装置、公開情報のプライバシー保護方法およびプログラム
EP2752786A4 (en) * 2011-09-02 2015-04-08 Nec Corp DEVICE AND METHOD FOR DISASSENTING
JP5626733B2 (ja) * 2011-10-04 2014-11-19 株式会社日立製作所 個人情報匿名化装置及び方法
TW201426578A (zh) * 2012-12-27 2014-07-01 Ind Tech Res Inst 匿名資料集的產生方法及裝置與風險評估方法及裝置

Also Published As

Publication number Publication date
WO2014181541A1 (ja) 2014-11-13
US9558369B2 (en) 2017-01-31
US20160117526A1 (en) 2016-04-28

Similar Documents

Publication Publication Date Title
WO2014181541A1 (ja) 匿名性を検証する情報処理装置及び匿名性検証方法
EP2793162A1 (en) Anonymization device, anonymization method, and computer program
JP5626733B2 (ja) 個人情報匿名化装置及び方法
KR20160110530A (ko) 요청된 정보를 삭제하기 위한 방법들 및 시스템들
JP6079783B2 (ja) 匿名化を実行する情報処理装置及び匿名化方法、及びプログラム
JP5782636B2 (ja) 情報匿名化システム、情報損失判定方法、及び情報損失判定プログラム
JP5971115B2 (ja) 情報処理プログラム、情報処理方法及び装置
JP5942634B2 (ja) 秘匿化装置、秘匿化プログラムおよび秘匿化方法
JP2015141642A (ja) 利用同意管理装置
JP6450098B2 (ja) 匿名化装置、匿名化方法及び匿名化プログラム
US20220327095A1 (en) Data archiving method and system for minimizing cost of data transmission and retrieval
JP2016148993A (ja) プライバシー保護装置、方法及びプログラム
JP5665685B2 (ja) 重要度判定装置、重要度判定方法およびプログラム
KR102113680B1 (ko) 빅 데이터 비식별화 처리 시스템 및 방법
JP2018013819A (ja) ビジネスマッチング支援システムおよびビジネスマッチング支援方法
JP2019101809A (ja) 匿名化装置、匿名化方法及び匿名化プログラム
JP6193491B2 (ja) 計算機システム
JP5875535B2 (ja) 匿名化装置、匿名化方法、プログラム
JP6160427B2 (ja) 差分抽出システム及びプログラム
JP2019101808A (ja) 匿名化装置、匿名化方法及び匿名化プログラム
JP5875536B2 (ja) 匿名化装置、匿名化方法、プログラム
JP7323825B2 (ja) データベースシステム、分散処理装置、データベース装置、分散処理方法、および、分散処理プログラム
CN108989245A (zh) 用户数据存储方法及装置
JP2014219876A (ja) 再符号化を実行する情報処理装置、再符号化方法、及びそのためのプログラム
JP2016110472A (ja) 情報処理装置、情報処理法、及び、プログラム