WO2014136422A1 - 匿名化処理を行う情報処理装置及び匿名化方法 - Google Patents

匿名化処理を行う情報処理装置及び匿名化方法 Download PDF

Info

Publication number
WO2014136422A1
WO2014136422A1 PCT/JP2014/001125 JP2014001125W WO2014136422A1 WO 2014136422 A1 WO2014136422 A1 WO 2014136422A1 JP 2014001125 W JP2014001125 W JP 2014001125W WO 2014136422 A1 WO2014136422 A1 WO 2014136422A1
Authority
WO
WIPO (PCT)
Prior art keywords
data set
difference
identifier
record
appearance ratio
Prior art date
Application number
PCT/JP2014/001125
Other languages
English (en)
French (fr)
Inventor
側高 幸治
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Publication of WO2014136422A1 publication Critical patent/WO2014136422A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification

Definitions

  • k-anonymity is a record having a combination of quasi-identifiers of the same value by processing the attribute values (quasi-identifier values) of attributes that can be information for identifying individuals into a common value. Is an index that guarantees that k becomes k or more.
  • a set of records having a combination of quasi-identifiers having the same value is called an anonymization group.
  • the appearance ratio correction unit 130 verifies whether or not the update anonymization data set 912 shown in FIG. 5 has the k-anonymity described above. Then, when the data set shown in FIG. 5 does not have the aforementioned k-anonymity, the appearance ratio correction unit 130 repeats the following processing. First, the appearance ratio correction unit 130 selects another valid anonymized data record 911 that has not yet been selected from the anonymized data set 910 (for example, the anonymized data record 911 on the ninth line). delete. Second, the appearance ratio correction unit 130 verifies whether or not the k-anonymity described above is provided.
  • the maintenance state determination unit 120 outputs the update anonymization data set 930 (S635). Then, the process ends.
  • the ratio difference threshold changing unit 550 may output the changed ratio difference threshold via the output unit 705 shown in FIG.

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

 本発明は、匿名化処理前のデータが含む統計的性質を、匿名化処理後のデータにおいても維持することを可能にする情報処理装置を提供する。その情報処理装置は、データセットを匿名化する手段と、匿名化前と匿名化後とのそれぞれのデータセットにおける、特定の1つの準識別子についての、属性値の出現割合の差異が閾値以上であることを判定する手段と、閾値以上である場合に、その匿名化の匿名性を継承し、かつその差異がより小さくなるように、その匿名化後のデータセットに含まれるレコードを削減する手段とを備える。

Description

匿名化処理を行う情報処理装置及び匿名化方法
 本発明は、個人情報の匿名化処理を行うための技術に関する。
 近年、個人情報の匿名化について、様々な関連技術が知られている。
 非特許文献1は、k-匿名性についての技術を開示する。k-匿名性は、準識別子の匿名化により、同じ値の準識別子の組み合わせを含む個人情報の組がk通り以上になることを保証する指標である。ここで、準識別子は、個人情報の要素(属性とも呼ばれる)の一種であり、その要素を解析することにより、個人を特定することが可能になるような要素である。
 具体的には、個人情報を含む開示データセットは、複数の属性(準識別子)の属性値を含むレコードを集積したデータである。そして、その開示データセットは、以下の場合に、k-匿名性を満たす。その場合は、任意のそれらの属性について、その属性値が共通の組み合わせを持つレコードが、少なくともk個以上存在する場合である。
 即ち、k-匿名性とは、個人を特定する情報となり得る属性について、その属性値(準識別子の値)を加工して共通な値にすることにより、同じ値の準識別子の組み合わせを持つレコードがk個以上になることを保証する指標である。以後、同じ値の準識別子の組み合わせを持つレコードの集合は、匿名化グループと呼ばれる。
 特許文献1は、k-匿名性を満たすようにデータセットを加工するプライバシー保護装置を開示する。特許文献1のプライバシー保護装置は、以下の構成を備える。
 第1に、表生成手段が、入力されたデータセットを属性毎に準識別子或いは重要情報に分類し、全ての準識別子からなる表と全ての重要情報からなる表とを生成する。
 第2に、設定手段が、公開情報を利用する利用者の要求条件を考慮して、データセットの各属性に優先順位(重み付け)を設定する。
 第3に、算出手段が、設定された優先順位(重み付け)に基づいて、各データセットの評価ポイントを算出する。
 第4に、処理手段が、それぞれの属性において、属性単体でk-匿名性を満たすようにデータセットの一般化を行う。
 第5に、データ加工手段が、一般化されたデータについて、トップダウン処理によりデータセットの加工を行い、次いで、ボトムアップ処理によりデータセットの加工を行う。
 ここで、そのデータ加工手段は、全ての準識別子から構成される表についてk-匿名性が満たされ、かつ、全ての重要情報から構成される表についてl-多様性が満たされるまで、そのトップダウン処理とそのボトムアップ処理とを繰り返す。
 そして、そのプライバシー保護装置は、そのk-匿名性及びそのl-多様性が満たされたことを判定した上で、最適なデータセットを出力する。
特開2012-003440号公報
L. Sweeney, "Achieving k-anonymity privacy protection using generalization and suppression," International Journal on Uncertainty, Fuzziness and Knowledge based Systems, 10(5), pp.571-588, 2002.
 しかしながら、上述した先行技術文献に記載された技術においては、匿名化処理前のデータが含む統計的性質(例えば、特定の属性値の出現割合)が、匿名化処理により失われる場合があるという問題点がある。
 その理由は、上述した先行技術文献に記載された技術が、匿名化処理を行う場合に、その統計的性質を維持することを考慮されていない技術だからである。
 本発明の目的は、上述した問題点を解決できる情報処理装置、匿名化方法、及びそのためのプログラム或いはそのプログラムを記録したコンピュータ読み取り可能な非一時的記録媒体を提供することにある。
 本発明の一様態における情報処理装置は、準識別子を含む複数のデータレコードを含む第1のデータセットについて、前記準識別子を加工して所定の匿名性を有する第2のデータセットを生成する匿名化手段と、特定の1つの前記準識別子である対象準識別子について、前記第1のデータセットに含まれるデータレコードにおける前記対象準識別子の属性値の出現割合である第1の出現割合と、前記第2のデータセットに含まれる、前記対象準識別子の情報損失量が許容範囲内のデータレコードである、有効レコードにおける前記対象準識別子の属性値の出現割合である第2の出現割合との差異が割合差異閾値未満である場合に、前記第2のデータセットを出力する維持状態判定手段と、前記差異が前記割合差異閾値以上である場合に、前記所定の匿名性を継承し、かつ前記差異がより小さくなるように、前記第2のデータセットに含まれる有効レコードを削減する出現割合補正手段と、を含む。
 本発明の一様態における匿名化方法は、コンピュータが、準識別子を含む複数のデータレコードを含む第1のデータセットについて、前記準識別子を加工して所定の匿名性を有する第2のデータセットを生成し、特定の1つの前記準識別子である対象準識別子について、前記第1のデータセットに含まれるデータレコードにおける前記対象準識別子の属性値の出現割合である第1の出現割合と、前記第2のデータセットに含まれる、前記対象準識別子の情報損失量が許容範囲内のデータレコードである、有効レコードにおける前記対象準識別子の属性値の出現割合である第2の出現割合との差異が割合差異閾値未満である場合に、前記第2のデータセットを出力し、前記差異が前記割合差異閾値以上である場合に、前記所定の匿名性を継承し、かつ前記差異がより小さくなるように、前記第2のデータセットに含まれる有効レコードを削減する。
 本発明の一様態におけるコンピュータ読み取り可能な非一時的記録媒体は、準識別子を含む複数のデータレコードを含む第1のデータセットについて、前記準識別子を加工して所定の匿名性を有する第2のデータセットを生成する処理と、特定の1つの前記準識別子である対象準識別子について、前記第1のデータセットに含まれるデータレコードにおける前記対象準識別子の属性値の出現割合である第1の出現割合と、前記第2のデータセットに含まれる、前記対象準識別子の情報損失量が許容範囲内のデータレコードである、有効レコードにおける前記対象準識別子の属性値の出現割合である第2の出現割合との差異が割合差異閾値未満である場合に、前記第2のデータセットを出力する処理と、前記差異が前記割合差異閾値以上である場合に、前記所定の匿名性を継承し、かつ前記差異がより小さくなるように、前記第2のデータセットに含まれる有効レコードを削減する処理と、をコンピュータに実行させるプログラムを記録する。
 本発明は、匿名化処理前のデータが含む統計的性質を、匿名化処理後のデータにおいても維持することを可能にするという効果がある。
図1は、本発明の第1の実施形態に係る匿名化装置の構成を示すブロック図である。 図2は、第1の実施形態に係る匿名化装置を組む情報処理システムの構成を示すブロック図である。 図3は、第1の実施形態における元データセットの一例を示す図である。 図4は、第1の実施形態における匿名化データセットの一例を示す図である。 図5は、第1の実施形態における更新匿名化データセットの一例を示す図である。 図6は、第1の実施形態に係る匿名化装置を実現するコンピュータのハードウェア構成を示すブロック図である。 図7は、第1の実施形態における匿名化装置の動作を示すフローチャートである。 図8は、本発明の第2の実施形態に係る匿名化装置の構成を示すブロック図である。 図9は、第2の実施形態における削除後匿名化データセットの一例を示す図である。 図10は、第2の実施形態における匿名化装置の動作を示すフローチャートである。 図11は、本発明の第3の実施形態における元データセット810において削除される元データレコード811を示す図である。 図12は、第3の実施形態における更新元データセットの一例を示す図である。 図13は、第3の実施形態における更新匿名化データセットの一例を示す図である。 図14は、第3の実施形態における匿名化装置の動作を示すフローチャートである。 図15は、第3の実施形態における匿名化装置の動作を示すフローチャートである。 図16は、本発明の第4の実施形態に係る匿名化装置の構成を示すブロック図である。 図17は、本発明の第5の実施形態に係る匿名化装置の構成を示すブロック図である。
 本発明を実施するための形態について図面を参照して詳細に説明する。尚、各図面及び明細書記載の各実施形態において、同様の構成要素には同様の符号を付与し、適宜説明を省略する。
<<第1の実施の形態>>
 図1は、本発明の第1の実施形態に係る匿名化装置(情報処理装置とも呼ばれる)100の構成を示すブロック図である。
 図1に示すように、本実施形態に係る匿名化装置100は、k-匿名化部(匿名化手段とも呼ばれる)110と、維持状態判定部120と、出現割合補正部130とを含む。
 図2は、匿名化装置100を含む情報処理システム101の構成を示すブロック図である。
 図2に示すように、その情報処理システム101は、匿名化装置100、元データ記憶装置800及び匿名化データ記憶装置900を含む。
 ===k-匿名化部110===
 k-匿名化部110は、準識別子を含む複数のレコードを含む元データセット(第1のデータセット)について、その準識別子を加工してk-匿名性(所定の匿名性とも呼ばれる)を有する匿名化データセット(第2のデータセット)を生成する。
 図3は、元データセット810の一例を示す図である。図3に示すように、元データセット810は、複数の元データレコード811を含む。元データレコード811は、属性名が「性別」、「郵便番号」、「年齢」及び「病名」の各属性の属性値を含む。
 図3に示す元データセット810において、例えば、属性の「性別」、「郵便番号」及び「年齢」は、準識別子である。また、属性の「病名」は、センシティブ情報である。センシティブ情報は、特定の個人に結び付けられたくない、重要な或いは秘密として守られたい情報である。尚、上述の例に係わらず、ある属性が準識別子或いはセンシティブ情報であるということは、任意に定義されてよい。
 図3に示す例に係わらず、元データセットは、任意の数のデータレコードを含んでよい。元データセットのレコードは、任意の数の属性値を含んでよい。元データセットに含まれる準識別子は、1以上の任意の数であってよい。元データセットに含まれるセンシティブ情報は、任意の数であってよい。即ち、元データセットは、センシティブ情報を含まなくてもよい。
 k-匿名化部110は、例えば、元データ記憶装置800から元データセット810を取得する。k-匿名化部110は、後述の図6に示す通信部706を介して、図示しない外部装置から元データセット810を取得してもよい。k-匿名化部110は、後述の図6に示す入力部704、元データセット810を取得してもよい。また、k-匿名化部110は、後述の図6に示す記録媒体707から、元データセット810を取得してもよい。
 図4は、匿名化データセット910の一例を示す図である。図4に示す匿名化データセット910は、次のように生成される。すなわち、k-匿名化部110は、k-匿名化(ここでは、k=2)を満たすように、図4に示す元データセット810の準識別子における属性値を加工し、匿名化データセット910を生成する。その匿名化データセット910は、維持状態判定部120に出力される。
 ===維持状態判定部120===
 維持状態判定部120は、匿名前の元データセット810と匿名化後の匿名化データセット910におけるそれぞれの統計的性質が、許容範囲で維持されるか否かを判定する。すなわち、維持状態判定部120は、特定の1つの準識別子である対象準識別子について、元出現割合(第1の出現割合)と、匿名化出現割合(第2の出現割合)との差異が割合差異閾値未満である場合に、その匿名化データセット910を出力する。ここで、元出現割合は、元データセット810に含まれる元データレコード811における、その対象準識別子の属性値の出現割合である。また、匿名化出現割合は、匿名化データレコード911のうちの有効レコードにおけるその対象準識別子の属性値の出現割合である。ここで、有効レコードは、匿名化データセット910に含まれるレコードのうち、その対象準識別子の情報損失量が許容範囲内のものである。
 具体的には、第1に、維持状態判定部120は、元データセット810に含まれる元データレコード811における、特定の1つの準識別子(以後、対象準識別子と呼ぶ)の属性値の出現割合である元出現割合(第1の出現割合)を算出する。
 維持状態判定部120は、例えば、後述の図6に示す入力部704を介してオペレータが入力した、対象準識別子の指定を取得する。維持状態判定部120は、後述の図6に示す通信部706を介して図示しない外部装置から、対象準識別子の指定を取得してもよい。維持状態判定部120は、後述の図6に示す記録媒体707に記憶されている、対象準識別子の指定を取得してもよい。また、維持状態判定部120は、匿名化装置100の図示しない記憶手段に予め記憶されている、対象準識別子の指定を取得してもよい。
 例えば、対象準識別子が「性別」である場合、維持状態判定部120は、図3に示す元データセット810に対応する、元出現割合を以下のように算出する。
 (属性値が「男」の元出現割合)=(属性値が「男」を含む元データレコード811の数)÷(全ての元データレコード811の数)=6÷10=0.6=60%。
 (属性値が「女」の元出現割合)=(属性値が「女」を含む元データレコード811の数)÷(全ての元データレコード811の数)=4÷10=0.4=40%。
 第2に、維持状態判定部120は、匿名化データセット910に含まれる有効な匿名化データレコード911における、その対象準識別子の属性値の出現割合である匿名化出現割合(第2の出現割合)を算出する。ここで、有効な匿名化データレコード911は、その対象準識別子の情報損失量が許容範囲内の匿名化データレコード911である。
 その情報損失量は、元データセット810が匿名化データセット910に匿名化された場合の、各属性値の抽象化の度合いである。
 例えば、「性別」の属性に係る情報損失量は、その属性値が「男」及び「女」のままの場合に「0」と、その属性値が「*(男または女を示す)」に加工された場合に「1」と、定義することができる。この情報損失量の許容範囲を「0」とすると、情報損失量が「0」である「性別」の属性の属性値(「男」または「女」)を含む匿名化データレコード911は、その対象準識別子の情報損失量が許容範囲内である。また、情報損失量が「1」である「性別」の属性の属性値(「*」)を含む匿名化データレコード911は、その対象準識別子の情報損失量が許容範囲外である。
 尚、情報損失量及び許容範囲は、上述の定義に係わらず、任意に定義で数値化されてよい。例えば、郵便番号の下位のいくつかの数字が無効化される場合、情報損失量は無効化する桁数であってよく、許容範囲は0から10まで整数のいずれかであってよい。
 例えば、その対象準識別子が「性別」である場合、維持状態判定部120は、図4に示す匿名化データセット910に対応する、匿名化出現割合を以下のように算出する。
 (属性値が「男」の匿名化出現割合)=(属性値が「男」を含む匿名化データレコード911の数)÷(全ての有効な匿名化データレコード911)=3÷6=0.5=50%。
 (属性値が「女」の匿名化出現割合)=(属性値が「女」を含む匿名化データレコード911の数)÷(全ての有効な匿名化データレコード911の数)=3÷6=0.5=50%。
 例えば、その対象準識別子が「郵便番号」である場合、維持状態判定部120は、図3に示す元データセット810に対応する、元出現割合を以下のように算出する。
 その算出するための前提は、以下の2つである。1つ目の前提は、「匿名化データセット910においても維持したい、元データセット810が含む統計的性質が、上位2桁毎の出現割合である」である。2つ目の前提は、「有効桁数(利用したい桁数)が上位3桁である」である。この場合、情報損失量を無効化する下位の桁数及び許容範囲を「4」と定義することができる。
 (属性値の上位2桁が「13」の元出現割合)=(属性値の上位3桁が「130」の元データレコード811の数)÷(全ての元データレコード811の数)=2÷10=0.2=20%。
 ここで、「属性値の上位3桁が「130」の元データレコード811の数」は、属性値の上位3桁が有効であって、属性値の上位2桁が「13」である、元データレコード811の数を示す。
 (属性値の上位2桁が「14」の元出現割合)=(属性値の上位3桁が「140」、「141」「148」の元データレコード811の数)÷(全ての元データレコード811の数)=6÷10=0.6=60%。
 (属性値の上位2桁が「21」の元出現割合)=(属性値の上位3桁が「211」の元データレコード811の数)÷(全ての元データレコード811の数)=2÷10=0.2=20%。
 また、維持状態判定部120は、その対象準識別子が「郵便番号」である場合、図4に示す匿名化データセット910に対応する、匿名化出現割合を以下のように算出する。
 (属性値の上位2桁が「13」の匿名化出現割合)=(属性値の上位3桁が「130」の匿名化データレコード911の数)÷(全ての有効な匿名化データレコード911の数)=2÷7=0.286=28.6%。
 ここで、「全ての有効な匿名化データレコード911の数」は、許容範囲が「4」以下、即ち上位3桁が数値(「*」ではない)で示されている属性値を含む匿名化データレコード911の数である。
 (属性値の上位2桁が「14」の匿名化出現割合)=(属性値の上位3桁が「148」の匿名化データレコード911の数)÷(全ての有効な匿名化データレコード911の数)=3÷7=0.429=42.9%。
 (属性値の上位2桁が「21」の匿名化出現割合)=(属性値の上位3桁が「211」の匿名化データレコード911の数)÷(全ての有効な匿名化データレコード911の数)=2÷7=0.286=28.6%。
 第3に、維持状態判定部120は、属性値のそれぞれの、その元出現割合とその匿名化出現割合との差異が割合差異閾値未満であるか否かを判定する。そして、その差異がその割合差異閾値未満である場合に、匿名化データセット910を出力する。
 割合差異閾値は、その元出現割合とその匿名化出現割合との差異の絶対値に対する、上限の値である。
 上述の図3に示す元データセット810と図4に示す匿名化データセット910とで示す例では、「性別」の属性の属性値が「男」に対応する、その元出現割合とその匿名化出現割合との差異の絶対値は、10%である。同様に、属性値が「女」に対応する差異の絶対値は、10%である。
 この場合、維持状態判定部120は、例えば、割合差異閾値が「20%」ならば匿名化データセット910を出力し、割合差異閾値が「5%」ならば匿名化データセット910を出力しない。
 維持状態判定部120は、例えば、匿名化データ記憶装置900に匿名化データセット910を出力する。維持状態判定部120は、後述の図6に示す通信部706を介して、図示しない外部装置に匿名化データセット910を出力してもよい。維持状態判定部120は、後述の図6に示す出力部705を介して、匿名化データセット910を出力してもよい。また、維持状態判定部120は、後述の図6に示す記録媒体707に、匿名化データセット910を記録してもよい。
 ===出現割合補正部130===
 出現割合補正部130は、その元出現割合とその匿名化出現割合との差異がその割合差異閾値以上である場合に、以下の処理を実行する。その場合、出現割合補正部130は、前述のk-匿名性を継承し、かつその差異がより小さくなるように、匿名化データセット910に含まれる匿名化データレコード911を削除する。
 上述の図3に示す元データセット810と図4に示す匿名化データセット910とで示す例では、「性別」の属性の属性値が「男」に対応するその匿名化出現割合は、その元出現割合に対して、10%減少している。また、「性別」の属性の属性値が「女」に対応するその匿名化出現割合は、その元出現割合に対して、10%増加している。
 この場合、出現割合補正部130は、属性値が「男」に対応するその匿名化出現割合を増加させ、属性値が「女」に対応するその匿名化出現割合を減少させるように、「女」の属性値を含む匿名化データレコード911を削除する。維持状態判定部120は、そのような匿名化データレコード911をランダムに選択して削除する。
 図5は、上述のようにして匿名化データレコード911が削除された、更新匿名化データセット912の一例を示す図である。尚、更新匿名化データセット912は、匿名化データセットの一種である。そこで、維持状態判定部120は、更新匿名化データセット912に対して、匿名化データセット910に対する場合と同様の処理を行う。
 図5に示すように更新匿名化データセット912は、匿名化データセット910の10行目の匿名化データレコード911が削除され、出現割合を補正された匿名化データセットである。図5に示す更新匿名化データセット912における匿名化出現割合は、結果的に、以下のように補正される。
 (属性値が「男」の元出現割合)=(属性値が「男」を含む匿名化データレコード911の数)÷(全ての有効な匿名化データレコード911)=3÷5=0.6=60%。
 (属性値が「女」の元出現割合)=(属性値が「女」を含む匿名化データレコード911の数)÷(全ての有効な匿名化データレコード911の数)=2÷5=0.4=40%。
 また、出現割合補正部130は、図5に示す更新匿名化データセット912が前述のk-匿名性を有するか否かを検証する。そして、出現割合補正部130は、図5に示すデータセットが前述のk-匿名性を有さない場合、以下の処理を繰り返す。第1に、出現割合補正部130は、匿名化データセット910から、未だ選択していない、他の有効な匿名化データレコード911(例えば、9行目の匿名化データレコード911)を選択して削除する。第2に、出現割合補正部130は、前述のk-匿名性を有するか否かを検証する。
 上述のようにして、匿名化装置100は、前述のk-匿名性を継承し、かつ前述の差異が割合差異閾値未満である、更新匿名化データセット912を出力する。
 尚、匿名化データセット910の内容によっては、いずれの有効な匿名化データレコード911を選択して削除しても、前述のk-匿名性を継承することができない場合がありえる。そのような場合の異常処理の一例について、第5の実施形態で説明する。
 ===元データ記憶装置800===
 元データ記憶装置800は、元データセット810を記憶する。
 ===匿名化データ記憶装置900===
 匿名化データ記憶装置900は、匿名化データセット910を記憶する。
 以上が、匿名化装置100の機能単位の各構成要素についての説明である。
 次に、匿名化装置100のハードウェア単位の構成要素について説明する。
 図6は、本実施形態における匿名化装置100を実現するコンピュータ700のハードウェア構成を示す図である。
 図6に示すように、コンピュータ700は、CPU(Central Processing Unit)701、記憶部702、記憶装置703、入力部704、出力部705及び通信部706を含む。更に、コンピュータ700は、外部から供給される記録媒体(または記憶媒体)707を含む。記録媒体707は、情報を非一時的に記憶する不揮発性記録媒体であってもよい。
 CPU701は、オペレーティングシステム(不図示)を動作させて、コンピュータ700の、全体の動作を制御する。また、CPU701は、例えば記憶装置703に装着された記録媒体707から、プログラムやデータを読み込み、読み込んだプログラムやデータを記憶部702に書き込む。ここで、そのプログラムは、例えば、後述の図7に示すフローチャートの動作をコンピュータ700に実行させるプログラムである。
 そして、CPU701は、読み込んだプログラムに従って、また読み込んだデータに基づいて、図1に示すk-匿名化部110、維持状態判定部120及び出現割合補正部130として各種の処理を実行する。
 尚、CPU701は、通信網(不図示)に接続されている外部コンピュータ(不図示)から、記憶部702にプログラムやデータをダウンロードしてもよい。
 記憶部702は、プログラムやデータを記憶する。記憶部702は、元データ記憶装置800及び匿名化データ記憶装置900を含んでよい。
 記憶装置703は、例えば、光ディスク、フレキシブルディスク、磁気光ディスク、外付けハードディスク及び半導体メモリであって、記録媒体707を含む。記憶装置703(記録媒体707)は、プログラムをコンピュータ読み取り可能に記憶する。また、記憶装置703は、データを記憶してもよい。記憶装置703は、元データ記憶装置800及び匿名化データ記憶装置900を含んでよい。
 入力部704は、例えばマウスやキーボード、内蔵のキーボタンなどで実現され、入力操作に用いられる。入力部704は、マウスやキーボード、内蔵のキーボタンに限らず、例えばタッチパネルなどでもよい。
 出力部705は、例えばディスプレイで実現され、出力を確認するために用いられる。
 通信部706は、外部装置(不図示)とのインタフェースを実現する。通信部706は、k-匿名化部110及び維持状態判定部120の一部として含まれてよい。
 以上説明したように、図1に示す匿名化装置100の機能単位のブロックは、図2に示すハードウェア構成のコンピュータ700によって実現される。但し、コンピュータ700が備える各部の実現手段は、上記に限定されない。すなわち、コンピュータ700は、物理的に結合した1つの装置により実現されてもよいし、物理的に分離した2つ以上の装置を有線または無線で接続し、これら複数の装置により実現されてもよい。
 尚、上述のプログラムのコードを記録した記録媒体707が、コンピュータ700に供給され、CPU701は、記録媒体707に格納されたプログラムのコードを読み出して実行してもよい。或いは、CPU701は、記録媒体707に格納されたプログラムのコードを、記憶部702、記憶装置703またはその両方に格納してもよい。すなわち、本実施形態は、コンピュータ700(CPU701)が実行するプログラム(ソフトウェア)を、一時的にまたは非一時的に、記憶する記録媒体707の実施形態を含む。
 以上が、本実施形態における匿名化装置100を実現するコンピュータ700の、ハードウェア単位の各構成要素についての説明である。
 次に本実施形態の動作について、図1~図7を参照して詳細に説明する。
 図7は、本実施形態の動作を示すフローチャートである。尚、このフローチャートによる処理は、前述したCPU701によるプログラム制御に基づいて、実行されても良い。また、処理のステップ名については、S601のように、記号で記載する。
 維持状態判定部120は、元データセット810における、対象準識別子の元出現割合を算出する(S601)。
 次に、k-匿名化部110は、元データセット810を匿名化して、匿名化データセット910を生成する(S602)。
 次に、維持状態判定部120は、匿名化データセット910における、その対象準識別子の匿名化出現割合を算出する(S603)。
 次に、維持状態判定部120は、元出現割合と匿名化出現割合との差異が割合差異閾値の範囲内か否かを判定する(S604)。
 範囲内である場合、維持状態判定部120は、匿名化データセット910を出力する(S605)。そして、処理は終了する。
 範囲内でない場合、出現割合補正部130は、元出現割合と匿名化出現割合との差異が割合差異閾値の範囲内になるように匿名化データレコード911を選択して、選択した匿名化データレコード911を削除する(S606)。
 次に、出現割合補正部130は、更新匿名化データセット912がk-匿名性を満たすか否かを検証する(S607)。
 匿名性を満たす場合、処理はS604へ戻る。
 匿名性を満たさない場合、出現割合補正部130は、匿名化データセット910から、未だ選択していない、他の有効な匿名化データレコード911を選択して削除する(S608)。そして、処理はS607へ戻る。
 以上が、本実施形態の動作の説明である。
 上述した本実施形態における効果は、匿名化処理前のデータが含む統計的性質を、匿名化処理後のデータにおいても維持することを可能にする点である。
 その理由は、以下のような構成を含むからである。第1に、k-匿名化部110が、元データセット810について、k-匿名性を有する匿名化データセット910を生成する。第2に、維持状態判定部120が元出現割合と、匿名化出現割合とを算出し、それらの間の差異が割合差異閾値未満である場合に、匿名化データセット910を出力する。第3に、出現割合補正部130が、その差異が割合差異閾値以上である場合に、前述のk-匿名性を継承し、かつ前述の差異がより小さくなるように、匿名化データセット910に含まれる有効レコードを削減して、出現割合を補正する。
<<第2の実施形態>>
 次に、本発明の第2の実施形態について図面を参照して詳細に説明する。以下、本実施形態の説明が不明確にならない範囲で、前述の説明と重複する内容については説明を省略する。
 図8は、本発明の第2の実施形態に係る匿名化装置200の構成を示すブロック図である。
 図8を参照すると、本実施形態における匿名化装置200は、第1の実施形態の匿名化装置100と比べて、無効レコード削除部240を更に含む。
 ===無効レコード削除部240===
 無効レコード削除部240は、匿名化データセット910に含まれる無効レコードを削除する。無効レコードは、匿名化データレコード911が含む対象準識別子の情報損失量が許容範囲外の、その匿名化データレコード911である。
 無効レコード削除部240は、その無効レコードを削除した削除後匿名化データセットを出力する。
 図9は、削除後匿名化データセット920の一例を示す図である。図9に示すように、削除後匿名化データセット920は、図4に示す匿名化データセット910から、「性別」の準識別子の値が「*」(情報損失量が「1」、かつ許容範囲外)の匿名化データレコード911が削除されている。
 次に本実施形態の動作について、図8~図10を参照して詳細に説明する。
 図10は、本実施形態の動作を示すフローチャートである。尚、このフローチャートによる処理は、前述したCPU701によるプログラム制御に基づいて、実行されても良い。また、処理のステップ名については、S601のように、記号で記載する。
 図10のS601からS604までの動作は、図7のS601からS604までの動作と同等である。
 範囲内である場合、無効レコード削除部240は、匿名化データセット910に含まれる無効レコードを削除する(S626)。
 次に、無効レコード削除部240は、その無効レコードを削除した削除後匿名化データセット920を出力する(S627)。そして、処理は終了する。
 図10のS606からS608までの動作は、図7のS606からS608までの動作と同様である。
 上述した本実施形態における効果は、第1の実施形態の効果に加えて、より利用に適したデータを出力することが可能になる点である。
 その理由は、無効レコード削除部240が、匿名化データセット910に含まれる無効レコードを削除した、削除後匿名化データセット920を出力するようにしたからである。
<<第3の実施形態>>
 次に、本発明の第3の実施形態について図面を参照して詳細に説明する。以下、本実施形態の説明が不明確にならない範囲で、前述の説明と重複する内容については説明を省略する。
 本実施形態の構成は、図1に示す匿名化装置100と同等である。
 本実施形態のk-匿名化部110、維持状態判定部120及び出現割合補正部130は、第1の実施形態のk-匿名化部110、維持状態判定部120及び出現割合補正部130と動作が異なる。
 ===k-匿名化部110===
 本実施形態のk-匿名化部110は、準識別子を含む複数のレコードを含む元データセット810について、その準識別子を加工してk-匿名性を有する匿名化データセット910を生成する。
 更に、本実施形態のk-匿名化部110は、更新元データセットについて、その準識別子を加工して前述のk-匿名性を有する更新匿名化データセット(新たな第2のデータセット)を生成する。ここで、更新元データセットは、出現割合補正部130によって元データレコード811を削除された元データセット810である。詳細は後述する。
 図11は、元データセット810において、出現割合補正部130によって削除される元データレコード811を示す図である。
 図12は、元データレコード811が削除された更新元データセット830の一例を示す図である。図12に示すように、更新元データセット830は、元データセット810に比べて、10行目の元データレコード811が削除されている。
 図13は、更新匿名化データセット930の一例を示す図である。
 ===維持状態判定部120===
 第1に、維持状態判定部120は、元データセット810に含まれる元データレコード811における、対象準識別子の属性値の出現割合である元出現割合を算出する。
 第2に、維持状態判定部120は、匿名化データセット910に含まれる、有効な匿名化データレコード911における、その対象準識別子の属性値の出現割合である匿名化出現割合を算出する。
 第3に、維持状態判定部120は、それらの属性値のそれぞれの、その元出現割合とその匿名化出現割合との差異が割合差異閾値未満であるか否かを判定する。そして、その差異がその割合差異閾値未満である場合に、匿名化データセット910を出力する。
 更に、維持状態判定部120は、更新匿名化データセット930に含まれる有効な匿名化データレコード911における、その対象準識別子の属性値の出現割合である更新匿名化出現割合(第2の出現割合)を算出する。
 また、維持状態判定部120は、それらの属性値のそれぞれの、その元出現割合とその更新匿名化出現割合との差異が割合差異閾値未満であるか否かを判定する。そして、維持状態判定部120は、その差異がその割合差異閾値未満である場合に、更新匿名化データセット930を出力する。
 ===出現割合補正部130===
 本実施形態の出現割合補正部130は、その元出現割合とその匿名化出現割合との差異がその割合差異閾値以上である場合に、以下の処理を実行する。その場合、出現割合補正部130は、前述のk-匿名性を継承し、かつその差異がより小さくなるような、その匿名化データセット910に含まれる匿名化データレコード911を検出する。続けて、本実施形態の出現割合補正部130は、その匿名化データレコード911に対応する、元データセット810の元データレコード811を削除し、更新元データセット830を生成する。
 また、本実施形態の出現割合補正部130は、その元出現割合とその更新匿名化出現割合との差異がその割合差異閾値以上である場合(即ち、既に検出済みの匿名化データレコード911がある場合)、以下の処理を実行する。その場合、出現割合補正部130は、前述のk-匿名性を継承し、かつその差異がより小さくなるような、匿名化データセット910に含まれる検出済みの匿名化データレコード911以外の、匿名化データレコード911を検出する。続けて、本実施形態の出現割合補正部130は、その匿名化データレコード911に対応する、元データセット810の元データレコード811を削除し、更新元データセット830を生成する。
 次に本実施形態の動作について、図1及び図11~図15を参照して詳細に説明する。
 図14及び図15は、本実施形態の動作を示すフローチャートである。尚、このフローチャートによる処理は、前述したCPU701によるプログラム制御に基づいて、実行されても良い。また、処理のステップ名については、S601のように、記号で記載する。
 図14のS601からS605までの動作は、図7に示すS601からS605までの動作と同等である。
 範囲内でない場合、出現割合補正部130は、元出現割合と匿名化出現割合との差異がより小さくなるような匿名化データレコード911を検出する。続けて、出現割合補正部130は、その検出した匿名化データレコード911に対応する元データレコード811を削除して更新元データセット830を生成する(S631)。
 次に、k-匿名化部110は、更新元データセット830を匿名化し、更新匿名化データセット930を生成する(S632)。
 次に、維持状態判定部120は、更新匿名化データセット930における、その対象準識別子の更新匿名化出現割合を算出する(S633)。
 次に、維持状態判定部120は、元出現割合と更新匿名化出現割合との差異が割合差異閾値の範囲内か否かを判定する(S634)。
 範囲内である場合、維持状態判定部120は、更新匿名化データセット930を出力する(S635)。そして、処理は終了する。
 範囲内でない場合、出現割合補正部130は、匿名化データセット910から、未だ検出していない、元出現割合と更新匿名化出現割合との差異がより小さくなるような他の有効な匿名化データレコード911を検出する。続けて、出現割合補正部130は、検出した匿名化データレコード911に対応する元データレコード811を削除し、更新元データセット830を再度生成する(S636)。そして、処理はS632へ戻る。
 尚、無効レコード削除部240は、本実施形態に適用されてもよい。この場合、匿名化装置100は、匿名化データセット920を出力する。具体的には、本実施形態のk-匿名化部110、維持状態判定部120及び出現割合補正部130の動作は、例えば以下の点を除いて、図14及び図15に示す動作と同等であってよい。それは、第1に、図14に示すS605の動作が、図10に示すS626及びS627の動作に変わる点である。また、第2に、図15に示すS635の動作が、図10に示すS626及びS627の動作に変わる点である。
 上述した本実施形態における効果は、第1の実施形態の効果と同様である。
 その理由は、第1の実施形態と同等の各構成要素が、第1の実施形態とは異なる動作で、匿名化データセット910または更新匿名化データセット930を出力するようにしたからである。
<<第4の実施形態>>
 次に、本発明の第4の実施形態について図面を参照して詳細に説明する。以下、本実施形態の説明が不明確にならない範囲で、前述の説明と重複する内容については説明を省略する。
 図16は、本実施形態に係る匿名化装置400の構成を示すブロック図である。
 図16に示すように本実施形態の匿名化装置400は、第1の実施形態の匿名化装置100に比べて、状態判定部120に替えて維持状態判定部420を、出現割合補正部130に替えて出現割合補正部430を含む。
 ===維持状態判定部420===
 第1に、本実施形態の維持状態判定部420は、元データセット810に含まれる特定の元データレコード811における、対象準識別子について、それの属性値の出現割合である元出現割合を算出する。ここで、「特定の元データレコード811」は、その対象準識別子以外の属性が、ある特定の属性値(以後、注目属性値とと呼ぶ)を含む、元データレコード811である。
 維持状態判定部420は、例えば、図6に示す入力部704を介してオペレータが入力した、注目属性値を取得する。維持状態判定部420は、図6に示す通信部706を介して図示しない外部装置から、注目属性値を取得してもよい。維持状態判定部420は、図6に示す記録媒体707に記憶されている、注目属性値を取得してもよい。また、維持状態判定部420は、匿名化装置100の図示しない記憶手段に予め記憶されている、注目属性値を取得してもよい。
 第2に、本実施形態の維持状態判定部420は、特定の匿名化データレコード911における、その対象準識別子の属性値の出現割合である匿名化出現割合を算出する。その特定の匿名化データレコード911は、匿名化データセット910に含まれる有効な匿名化データレコード911であって、その注目属性値を含む。
 第3に、維持状態判定部420は、それらの属性値のそれぞれの、その元出現割合とその匿名化出現割合との差異が割合差異閾値未満であるか否かを判定する。そして、その差異がその割合差異閾値未満である場合に、匿名化データセット910を出力する。
 以上の点を除き、維持状態判定部420は、図1に示す維持状態判定部120と同等である。
 ===出現割合補正部430===
 出現割合補正部430は、その元出現割合とその匿名化出現割合との差異がその割合差異閾値以上である場合に、以下の処理を実行する。その場合、出現割合補正部430は、前述のk-匿名性を継承し、かつその差異がより小さくなるように、匿名化データセット910に含まれる、その注目属性値を含む、匿名化データレコード911を削除する。
 以上の点を除き、出現割合補正部430は、図1に示す出現割合補正部130と同等である。
 以上説明したように、本実施形態の匿名化装置400は、例えば、注目属性値が「20歳台」である場合、20歳台における対象準識別子について、匿名化処理前のデータの統計的性質を匿名化処理後のデータにおいて維持することができる。
 尚、本実施形態の匿名化装置400は、無効レコード削除部240を含んでもよい。換言すると、第2の実施形態の匿名化装置200が、図8に示す維持状態判定部120に替えて維持状態判定部420を、出現割合補正部130に替えて出現割合補正部430を含んでもよい。
 また、本実施形態の匿名化装置400は、第3の実施形態の匿名化装置100の動作を、維持状態判定部420及び出現割合補正部430に実行させてもよい。
 上述した本実施形態における効果は、第1の実施形態の効果に加えて、より利用に適したデータを出力することが可能になる点である。
 その理由は、維持状態判定部420及び出現割合補正部530が、注目属性値を利用して、処理を行うからである。
<<第5の実施形態>>
 次に、本発明の第5の実施形態について図面を参照して詳細に説明する。以下、本実施形態の説明が不明確にならない範囲で、前述の説明と重複する内容については説明を省略する。
 図17は、本発明の第5の実施形態に係る匿名化装置500の構成を示すブロック図である。
 図17を参照すると、本実施形態における匿名化装置500は、第1の実施形態の匿名化装置100と比べて、割合差異閾値変更部550を更に含む。
 ===割合差異閾値変更部550===
 割合差異閾値変更部550は、匿名化データセット910に含まれるいずれの有効レコードを削減しても、k-匿名性を継承し、かつ差異を割合差異閾値未満にすることができないことを検出した場合に、割合差異閾値を変更する。
 例えば、匿名化装置500は、変更された割合差異閾値を利用して、匿名化データセット910を再度生成する処理を実行してよい。
 また、割合差異閾値変更部550は、図6に示す出力部705を介して、変更した割合差異閾値を出力にしてもよい。
 尚、割合差異閾値変更部550は、第1乃至第4の実施形態に適用してもよい。
 上述した本実施形態における効果は、第1の実施形態の効果に加えて、割合差異閾値が適切でない場合でも、匿名化装置500の利用を容易にすることが可能になる点である。
 その理由は、割合差異閾値変更部550が、差異を割合差異閾値未満にできないことを検出した場合に、割合差異閾値を変更するようにしたからである。
 以上の各実施形態で説明した各構成要素は、必ずしも個々に独立した存在である必要はない。例えば、各構成要素は、複数の構成要素が1個のモジュールとして実現されてよい。また、各構成要素は、1つの構成要素が複数のモジュールで実現されてもよい。また、各構成要素は、ある構成要素が他の構成要素の一部であるような構成であってよい。また、各構成要素は、ある構成要素の一部と他の構成要素の一部とが重複するような構成であってもよい。
 以上説明した各実施形態における各構成要素及び各構成要素を実現するモジュールは、必要に応じ、可能であれば、ハードウェア的に実現されてよい。また、各構成要素及び各構成要素を実現するモジュールは、コンピュータ及びプログラムで実現されてよい。また、各構成要素及び各構成要素を実現するモジュールは、ハードウェア的なモジュールとコンピュータ及びプログラムとの混在により実現されてもよい。
 そのプログラムは、例えば、磁気ディスクや半導体メモリなど、不揮発性のコンピュータ可読記録媒体に記録されて提供され、コンピュータの立ち上げ時などにコンピュータに読み取られる。この読み取られたプログラムは、そのコンピュータの動作を制御することにより、そのコンピュータを前述した各実施形態における構成要素として機能させる。
 また、以上説明した各実施形態では、複数の動作をフローチャートの形式で順番に記載してあるが、その記載の順番は複数の動作を実行する順番を限定するものではない。このため、各実施形態を実施するときには、その複数の動作の順番は内容的に支障をきたさない範囲で変更することができる。
 更に、以上説明した各実施形態では、複数の動作は個々に相違するタイミングで実行されることに限定されない。例えば、ある動作の実行中に他の動作が発生したり、ある動作と他の動作との実行タイミングが部分的に乃至全部において重複していたりしていてもよい。
 更に、以上説明した各実施形態では、ある動作が他の動作の契機になるように記載しているが、その記載はある動作と他の動作との全ての関係を限定するものではない。このため、各実施形態を実施するときには、その複数の動作の関係は内容的に支障のない範囲で変更することができる。また各構成要素の各動作の具体的な記載は、各構成要素の各動作を限定するものではない。このため、各構成要素の具体的な各動作は、各実施形態を実施する上で機能的、性能的、その他の特性に対して支障をきたさない範囲内で変更されてよい。
 以上、各実施形態を参照して本発明を説明したが、本発明は上記実施形態に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解しえる様々な変更をすることができる。
 この出願は、2013年3月6日に出願された日本出願特願2013-043934を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 本発明は、プライバシー情報、匿名情報などを扱う情報処理システム、情報処理装置などに適用できる。例えば、本発明は、二次利用に供される個人情報の匿名化処理を行う情報処理システム、情報処理装置などにも適用できる。
 100  匿名化装置
 101  情報処理システム
 110  k-匿名化部
 120  維持状態判定部
 130  出現割合補正部
 200  匿名化装置
 240  無効レコード削除部
 400  匿名化装置
 420  維持状態判定部
 430  出現割合補正部
 500  匿名化装置
 550  割合差異閾値変更部
 700  コンピュータ
 701  CPU
 702  記憶部
 703  記憶装置
 704  入力部
 705  出力部
 706  通信部
 707  記録媒体
 800  元データ記憶装置
 810  元データセット
 811  元データレコード
 830  更新元データセット
 900  匿名化データ記憶装置
 910  匿名化データセット
 911  匿名化データレコード
 912  更新匿名化データセット
 920  削除後匿名化データセット
 930  更新匿名化データセット

Claims (10)

  1.  準識別子を含む複数のデータレコードを含む第1のデータセットについて、前記準識別子を加工して所定の匿名性を有する第2のデータセットを生成する匿名化手段と、
     特定の1つの前記準識別子である対象準識別子について、前記第1のデータセットに含まれるデータレコードにおける前記対象準識別子の属性値の出現割合である第1の出現割合と、前記第2のデータセットに含まれる、前記対象準識別子の情報損失量が許容範囲内のデータレコードである、有効レコードにおける前記対象準識別子の属性値の出現割合である第2の出現割合との差異が割合差異閾値未満である場合に、前記第2のデータセットを出力する維持状態判定手段と、
     前記差異が前記割合差異閾値以上である場合に、前記所定の匿名性を継承し、かつ前記差異がより小さくなるように、前記第2のデータセットに含まれる有効レコードを削減する出現割合補正手段と、を含む、
     情報処理装置。
  2.  前記対象準識別子の前記情報損失量が許容範囲外のデータレコードである、無効レコードを削除した前記第2のデータセットを出力する無効レコード削除手段を含む、
     ことを特徴とする請求項1記載の情報処理装置。
  3.  前記出現割合補正手段は、前記差異が前記割合差異閾値以上である場合に、前記差異がより小さくなるように、前記第2のデータセットに含まれる有効レコードを削除する
     ことを特徴とする請求項1または2記載の情報処理装置。
  4.  前記出現割合補正手段は、前記差異が前記割合差異閾値以上である場合に、前記差異がより小さくなるように、前記第2のデータセットに含まれる有効レコードに対応する前記第1のデータセットに含まれるデータレコードを削除し、
     前記匿名化手段は、前記データレコードを削除された第1のデータセットについて、前記準識別子を加工して所定の匿名性を有する新たな第2のデータセットを生成し、
     前記維持状態判定手段は、前記データレコードを削除された第1のデータセットに含まれるデータレコードにおける前記第1の出現割合と、前記新たな第2のデータセットに含まれる、前記有効レコードにおける前記第2の出現割合との差異が割合差異閾値未満である場合に、前記新たな第2のデータセットを出力する、
     ことを特徴とする請求項1乃至3のいずれか1項に記載の情報処理装置。
  5.  前記維持状態判定手段は、前記対象準識別子以外の属性の特定の属性値である注目属性値を含む前記レコードにおける前記第1の出現割合と、前記注目属性値を含む前記有効レコードにおける、前記第2の出現割合との差異が前記割合差異閾値未満である場合に、前記第2のデータセットを出力し、
     前記出現割合補正手段は、前記差異が前記割合差異閾値以上である場合に、前記差異がより小さくなるように、前記第2のデータセットに含まれる、前記注目属性値を含む、前記有効レコードを削減して、前記出現割合を補正する
     ことを特徴とする請求項1または2記載の情報処理装置。
  6.  前記出現割合補正手段は、前記差異が前記割合差異閾値以上である場合に、前記差異がより小さくなるように、前記第2のデータセットに含まれる、前記注目属性値を含む、有効レコードを削除する
     ことを特徴とする請求項5記載の情報処理装置。
  7.  前記出現割合補正手段は、前記差異が前記割合差異閾値以上である場合に、前記差異がより小さくなるように、前記第2のデータセットに含まれる、前記注目属性値を含む、有効レコードに対応する前記第1のデータセットに含まれるデータレコードを削除し、
     前記匿名化手段は、前記データレコードを削除された第1のデータセットについて、前記準識別子を加工して所定の匿名性を有する新たな第2のデータセットを生成し、
     前記維持状態判定手段は、前記第1のデータセットに含まれる、前記第2の属性値を含む、前記レコードにおける前記第1の出現割合と、前記第2のデータセットに含まれる、前記注目属性値を含む、前記有効レコードにおける前記第2の出現割合との差異が割合差異閾値未満である場合に、前記新たな第2のデータセットを出力する、
     ことを特徴とする請求項5または6記載の情報処理装置。
  8.  前記第2のデータセットに含まれるいずれの有効レコードを削減しても、前記所定の匿名性を継承し、かつ前記差異を前記割合差異閾値未満にすることができないことを検出した場合に、前記割合差異閾値を変更する割合差異閾値変更手段を更に含む
     ことを特徴とする請求項1乃至7のいずれか1項に記載の情報処理装置。
  9.  コンピュータが、
     準識別子を含む複数のデータレコードを含む第1のデータセットについて、前記準識別子を加工して所定の匿名性を有する第2のデータセットを生成し、
     特定の1つの前記準識別子である対象準識別子について、前記第1のデータセットに含まれるデータレコードにおける前記対象準識別子の属性値の出現割合である第1の出現割合と、前記第2のデータセットに含まれる、前記対象準識別子の情報損失量が許容範囲内のデータレコードである、有効レコードにおける前記対象準識別子の属性値の出現割合である第2の出現割合との差異が割合差異閾値未満である場合に、前記第2のデータセットを出力し、
     前記差異が前記割合差異閾値以上である場合に、前記所定の匿名性を継承し、かつ前記差異がより小さくなるように、前記第2のデータセットに含まれる有効レコードを削減する
     匿名化方法。
  10.  準識別子を含む複数のデータレコードを含む第1のデータセットについて、前記準識別子を加工して所定の匿名性を有する第2のデータセットを生成する処理と、
     特定の1つの前記準識別子である対象準識別子について、前記第1のデータセットに含まれるデータレコードにおける前記対象準識別子の属性値の出現割合である第1の出現割合と、前記第2のデータセットに含まれる、前記対象準識別子の情報損失量が許容範囲内のデータレコードである、有効レコードにおける前記対象準識別子の属性値の出現割合である第2の出現割合との差異が割合差異閾値未満である場合に、前記第2のデータセットを出力する処理と、
     前記差異が前記割合差異閾値以上である場合に、前記所定の匿名性を継承し、かつ前記差異がより小さくなるように、前記第2のデータセットに含まれる有効レコードを削減する処理と、をコンピュータに実行させる
     プログラムを記録したコンピュータ読み取り可能な非一時的記録媒体。
PCT/JP2014/001125 2013-03-06 2014-03-03 匿名化処理を行う情報処理装置及び匿名化方法 WO2014136422A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2013043934 2013-03-06
JP2013-043934 2013-03-06

Publications (1)

Publication Number Publication Date
WO2014136422A1 true WO2014136422A1 (ja) 2014-09-12

Family

ID=51490958

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2014/001125 WO2014136422A1 (ja) 2013-03-06 2014-03-03 匿名化処理を行う情報処理装置及び匿名化方法

Country Status (1)

Country Link
WO (1) WO2014136422A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016126579A (ja) * 2015-01-05 2016-07-11 富士通株式会社 データ秘匿装置、データ秘匿プログラムおよびデータ秘匿方法
JP2017041048A (ja) * 2015-08-19 2017-02-23 Kddi株式会社 プライバシ保護装置、方法及びプログラム
JP2019109755A (ja) * 2017-12-19 2019-07-04 株式会社日立ハイテクノロジーズ 計測装置および計測データ処理方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011180839A (ja) * 2010-03-01 2011-09-15 Kddi Corp プライバシー情報評価サーバ、データ管理方法およびプログラム
WO2011145401A1 (ja) * 2010-05-19 2011-11-24 株式会社日立製作所 個人情報匿名化装置
WO2012115031A1 (ja) * 2011-02-22 2012-08-30 三菱電機株式会社 検索システム、検索システムの検索方法、情報処理装置、検索プログラム、対応キーワード管理装置および対応キーワード管理プログラム
WO2012165518A1 (ja) * 2011-06-02 2012-12-06 日本電気株式会社 分散匿名化システム、分散匿名化装置及び分散匿名化方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011180839A (ja) * 2010-03-01 2011-09-15 Kddi Corp プライバシー情報評価サーバ、データ管理方法およびプログラム
WO2011145401A1 (ja) * 2010-05-19 2011-11-24 株式会社日立製作所 個人情報匿名化装置
WO2012115031A1 (ja) * 2011-02-22 2012-08-30 三菱電機株式会社 検索システム、検索システムの検索方法、情報処理装置、検索プログラム、対応キーワード管理装置および対応キーワード管理プログラム
WO2012165518A1 (ja) * 2011-06-02 2012-12-06 日本電気株式会社 分散匿名化システム、分散匿名化装置及び分散匿名化方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SHUNSUKE MURAMOTO: "Minimization of Data Distortion on a Privacy Protection Technique against Attacks Using Background Knowledge", THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS, DAI 19 KAI DATA ENGINEERING WORKSHOP RONBUNSHU, [ ONLINE ] DEWS2008 DATA ENGINEERIN, 7 April 2008 (2008-04-07), pages 1 - 8, XP055153042 *
TSUBASA TAKAHASHI: "Jikeiretsu Data ni Taisuru 1-Tayoka Hoshiki no Teian", DAI 4 KAI FORUM ON DATA ENGINEERING AND INFORMATION MANAGEMENT RONBUNSHU (DAI 10 KAI THE DATABASE SOCIETY OF JAPAN NENJI TAIKAI, 30 August 2012 (2012-08-30), Retrieved from the Internet <URL:http://db-event.jpn.org/deim2012/proceedings/final-pdf/a1-1.pdf> *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016126579A (ja) * 2015-01-05 2016-07-11 富士通株式会社 データ秘匿装置、データ秘匿プログラムおよびデータ秘匿方法
JP2017041048A (ja) * 2015-08-19 2017-02-23 Kddi株式会社 プライバシ保護装置、方法及びプログラム
JP2019109755A (ja) * 2017-12-19 2019-07-04 株式会社日立ハイテクノロジーズ 計測装置および計測データ処理方法

Similar Documents

Publication Publication Date Title
US9230132B2 (en) Anonymization for data having a relational part and sequential part
US10289869B2 (en) Personal information anonymization method, recording medium, and information processing apparatus
US10255443B2 (en) Method, apparatus, system and non-transitory computer readable medium for code protection
US20180255099A1 (en) Security and compliance alerts based on content, activities, and metadata in cloud
US20130117802A1 (en) Authorization-based redaction of data
WO2013121739A1 (ja) 匿名化装置及び匿名化方法
JP2010541080A (ja) サービス指向型パイプライン構造
US10331885B2 (en) Identification of entity performing operation on local file(s) and notification to reduce misuse risk
KR20160110530A (ko) 요청된 정보를 삭제하기 위한 방법들 및 시스템들
WO2014181541A1 (ja) 匿名性を検証する情報処理装置及び匿名性検証方法
WO2012176923A1 (ja) 匿名化指標決定装置及び方法、並びに匿名化処理実行システム及び方法
US20160306999A1 (en) Systems, methods, and computer-readable media for de-identifying information
WO2014073214A1 (ja) パーソナル情報を分析する情報処理システム及びパーソナル情報分析方法
CN111417954A (zh) 基于数据去标识过程的可允许配置的检测的数据去标识
CN107741760A (zh) 双屏笔记本及双屏显示方法
WO2014136422A1 (ja) 匿名化処理を行う情報処理装置及び匿名化方法
US10719409B2 (en) Retainment of locally deleted content at storage service by client device
CN108694333A (zh) 用户信息处理方法及装置
JP5971115B2 (ja) 情報処理プログラム、情報処理方法及び装置
WO2014049995A1 (ja) 匿名化を実行する情報処理装置、匿名化方法及びプログラムを記録した記録媒体
US20180084045A1 (en) Dynamic storage management in cloud storage synchronization
JP2017215868A (ja) 匿名化処理装置、匿名化処理方法、及びプログラム
JP6558126B2 (ja) 情報処理システム及び情報処理方法
CN108073403A (zh) 转换应用的方法及计算装置
JP6192601B2 (ja) パーソナル情報管理システム及びパーソナル情報匿名化装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14760707

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14760707

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP