WO2013190810A1

WO2013190810A1 - 情報処理装置、及び、情報匿名化方法

Info

Publication number: WO2013190810A1
Application number: PCT/JP2013/003726
Authority: WO
Inventors: 翼高橋
Original assignee: 日本電気株式会社
Priority date: 2012-06-18
Filing date: 2013-06-13
Publication date: 2013-12-27

Abstract

　情報分析に価値のある匿名化した情報を開示する。　本発明の情報処理装置は、複数の情報を含む情報の組の間の類似度として、情報の出現頻度の増加に対して単調減少又は情報の出現頻度の減少に対して単調増加する情報を算出する類似度計算手段と、類似度を用いて、匿名化の対象となる情報の組の組み合わせを決定する組み合わせ決定手段と、組み合わせ決定手段が決定した組み合わせを基に、情報の組に含まれる情報の少なくとも一部を匿名化のために加工する加工手段とを含む。

Description

情報処理装置、及び、情報匿名化方法

　本発明は、情報処理に関し、特に、情報の匿名化に関する。

　サービス提供者は、情報を処理する情報処理装置を含む情報処理システムにおいて、サービスを受けるサービス受領者（サービス利用者）の情報を用いて、サービスを提供する。そのため、サービス提供者は、利用者の情報を保存する。

　利用者の情報は、サービスを提供するため、利用者を特定（識別）するための情報（例えば、識別子（ＩＤ：Identifier））を含む。また、利用者の情報は、購買履歴など、１つ以上の利用者の属性に関する情報を含む。このように、利用者の情報は、利用者の識別情報と１つ以上の属性情報とを含む。つまり、利用者の情報は、複数の情報（データ、値）の集合（組）となる。

　以下、このような人物の情報の集合を、「情報の組（セット）」又は「レコード」と呼ぶ。つまり、サービス提供者は、各利用者に対応する「情報の組」を保存する。

　なお、利用者の属性情報は、購買品のような、物品に関連する情報を含む。そのため、以下では、情報の組に含まれる情報（属性情報）を、「アイテム」と呼ぶこともある。また、アイテムの集合は、「集合値データ」と呼ぶ。

　つまり、情報の組（レコード）は、識別子（ＩＤ）と、アイテムとを含む。

　情報の組（レコード）は、提供されるサービスに関連する第三者に有効なデータである。

　例えば、診療情報は、患者（利用者）に対して病院（サービス提供者）が行った治療や投薬の情報を含む。そのため、診療情報は、製薬会社（第三者）に有効な情報である。

　しかし、利用者の情報の組は、第三者に知られたくない情報、例えば、プライバシーに関する情報を含む。

　なお、第三者に知られたくない情報は、一般的に、センシティブ（機微）情報（Sensitive Information (SI)）、センシティブ属性（Sensitive Attribute (SA)）又はセンシティブ値（Sensitive Value (SV)）と呼ばれる。

　また、利用者の情報の組は、利用者を特定（識別）する情報（ＩＤ）を含む。

　そのため、サービス提供者が、保存する利用者の情報を、そのまま、第三者に提供した場合、第三者は、利用者の知られたくない情報を、知ることができる。

　その対策として、利用者を特定する情報（ＩＤ）を削除した情報の提供が、考えられる。

　しかし、情報の集合（組）は、利用者の特定が可能なセンシティブ情報の組み合わせを含む場合がある。例えば、住所、性別、職業の組み合わせは、個人を特定できる場合がある。

　しかし、センシティブ情報を削除した情報の組は、含まれる有効な情報が少ない。そのため、センシティブ情報を削除した情報の組は、有効な二次利用が難しい。例えば、患者（利用者）の傷病名（センシティブ情報）を削除した場合、製薬会社（第三者）は、傷病間の相関関係や共起関係を分析できない。

　そこで、情報の組に含まれる情報の有効性を保ちながらセンシティブ情報を保護するために、匿名化（Anonymization）の技術が用いられる（例えば、特許文献１を参照）。

　特許文献１に記載のプライバシー情報評価サーバは、ユーザ端末から受信したデータを匿名化（ｋ－匿名化）して保存する。また、特許文献１に記載のサーバは、ユーザのＩＤ（Identifier）を削除してデータを保存する。また、特許文献１に記載のサーバは、プライバシー情報を評価し、プライバシーに問題がある場合に、ユーザ端末に通知する。

　なお、ｋ－匿名化とは、同じ情報の組（レコード）のｋ個以上の存在を保証する匿名化である（例えば、非特許文献１、非特許文献２を参照）。つまり、ｋ－匿名化されたデータセット（複数の情報の組、レコード）は、少なくとも「ｋ－１」個の同じレコードの存在が保証されている。

　例えば、図１５に示すように、６個の情報の組（レコード）が、匿名化対象のデータセットとして、保存されているとする。

　図１５は、利用者と関連する品名（例えば、患者と薬、消費者と購入品）の組み合わせを示す。例えば、患者と薬の組み合わせとして説明すると、ＩＤ１の患者は、薬品名｛Ａ、Ｂ、Ｃ、Ｘ、Ｙ｝の薬が投与されている。

　図１５に示すデータセットを参照すると、品名｛Ａ、Ｂ、Ｃ｝のアイテムは、情報の組に、同時に含まれる。つまり、品名｛Ａ、Ｂ、Ｃ｝のアイテムは、共起する頻度が高い。

　また、品名｛Ｅ、Ｆ｝のアイテムは、品名｛Ａ、Ｂ、Ｃ｝のアイテムと同じ頻度で、情報の組に、同時に含まれる。つまり、品名｛Ｅ、Ｆ｝のアイテムは、共起する頻度が高い。

　また、品名｛Ａ、Ｂ、Ｃ｝のアイテム及び品名｛Ｅ、Ｆ｝のアイテムに比べると頻度は低いが、品名｛Ｘ、Ｙ｝のアイテムは、同時に情報の組に含まれる。つまり、品名｛Ｘ、Ｙ｝のアイテムは、品名｛Ａ、Ｂ、Ｃ｝のアイテムに比べると低い頻度であるが、共起する頻度がある。

　ここで、ある第三者が、ＩＤ１の利用者の情報の組に、品名｛Ａ、Ｂ、Ｃ、Ｘ｝のアイテムが含まれることを既知とする。この第三者は、図１５のデータセットからＩＤを削除しても、１行目のデータがＩＤ１の利用者のデータであることが分かる。そのため、その第三者は、ＩＤ１の利用者の情報の組に品名｛Ｙ｝のアイテムが含まれることが分かる。つまり、センシティブ情報は、この第三者に漏洩する。

　そこで、サービス提供者は、データを公開する前に、ｋ－匿名化を実行する情報処理装置を用いて、図１５に示すデータセットを「ｋ－匿名化」を満足するように匿名化する。

　出現頻度が高いアイテムからの開示は、開示可能なアイテムの数を多くできる場合が多い。そこで、一般的なｋ－匿名化を実行する情報処理装置は、出現頻度の高いアイテムが開示されるようにデータを匿名化する（例えば、非特許文献２を参照）。

　より具体的には、一般的なｋ－匿名化の実行する情報処理装置は、次のようにアイテムを匿名化する。

　まず、ｋ－匿名化する情報処理装置は、全てのアイテムを、最上位概念に、匿名化（抽象化）する。なお、以下、匿名化したデータとして「＊」を用いる。例えば、最上位概念は、全てのアイテムを匿名化した状態のため、「＊」となる。

　次に、情報処理装置は、出現頻度が高いアイテムから、元のアイテムを戻す（以下、この動作を「詳細化」又は「開示」と呼ぶ場合もある）。

　例えば、図１５に示したデータセットの場合、薬品｛Ａ、Ｂ、Ｃ｝及び｛Ｅ、Ｆ｝の出現頻度が高い。そのため、ｋ＝２及び３のｋ－匿名化を実行する場合、情報処理装置は、図１５のデータを、図１６に示すデータに匿名化する。なお、図１６の「＊」は、匿名化されたデータを示す。

特開２０１１－１８０８３９

L.Sweeney,"k-anonymity:a model for protecting privacy", International Journal on Uncertainty, Fuzziness and Knowledge-based Systems,10(5),pp.555-570, 2002. Yeye He and Jeffrey F. Naughton, "Anonymization of set-valued data via top-down, local generalization", International Conference on Very Large Databases, 2008.

　上述した非特許文献２に記載の匿名化技術は、出現頻度が高いアイテムほど、開示する。出願頻度が高いアイテムを開示するため、非特許文献２の匿名化技術は、多くのアイテムを開示できる。そのため、非特許文献２の匿名化技術は、情報損失量を低く抑えることができる。

　ここで、情報損失量とは、匿名化に基づき失われる情報の量である。例えば、情報損失量は、削除されたアイテムの数を用いて表すことができる。

　しかし、第三者の情報分析におけるアイテムの価値は、必ずしも、出現頻度に比例しない。

　例えば、出現頻度や共起頻度が高いアイテムの組み合わせは、既に、広く知られた事象の場合がある。広く知られた事象を多く開示したアイテムの組み合わせは、情報量（エントロピー）が小さい。

　そのため、第三者の情報分析は、開示されているアイテムの数が少なくても、出現頻度が低いアイテムの分析を基に、新たな分析結果を見つけ出せる場合がある。

　しかし、非特許文献２に記載の匿名化技術は、出現頻度が低いアイテムを開示できないという問題点があった。

　特許文献１及び非特許文献１に記載の匿名化技術は、アイテムの集合の匿名化を想定していないため、上記問題点を解決できない。

　本発明の目的は、上記問題点を解決し、より価値がある匿名化した情報を開示する情報処理装置、及び、情報匿名化方法を提供することにある。

　本発明の情報処理装置は、複数の情報を含む情報の組の間の類似度として、前記情報の出現頻度の増加に対して単調減少又は前記情報の出現頻度の減少に対して単調増加する情報を算出する類似度計算手段と、前記類似度を用いて、匿名化の対象となる前記情報の組の組み合わせを決定する組み合わせ決定手段と、前記組み合わせ決定手段が決定した組み合わせを基に、前記情報の組に含まれる情報の少なくとも一部を匿名化のために加工する加工手段とを含む。

　本発明の情報匿名化方法は、複数の情報を含む情報の組の間の類似度として、前記情報の出現頻度の増加に対して単調減少又は前記情報の出現頻度の減少に対して単調増加する情報を算出し、前記類似度を用いて、匿名化の対象となる前記情報の組の組み合わせを決定し、前記決定した組み合わせを基に、前記情報の組に含まれる情報の少なくとも一部を匿名化のために加工する。

　本発明のプログラムは、複数の情報を含む情報の組の間の類似度として、前記情報の出現頻度の増加に対して単調減少又は前記情報の出現頻度の減少に対して単調増加する情報を算出する処理と、前記類似度を用いて、匿名化の対象となる前記情報の組の組み合わせを決定する処理と、前記決定した組み合わせを基に、前記情報の組に含まれる情報の少なくとも一部を匿名化のために加工する処理とをコンピュータに実行させる。

　本発明によれば、情報分析に価値のある匿名化した情報を開示できる。

図１は、本発明における第１の実施形態に係る情報処理装置の構成の一例を示すブロック図である。図２は、第１の実施形態に係る情報処理装置の動作の一例を示すフローチャートである。図３は、第１の実施形態に係る類似度のデータの一例を示す図である。図４は、第１の実施形態に係る処理に関連する類似度のデータの一例を示す図である。図５は、第１の実施形態に係る匿名化後のデータの一例を示す図である。図６は、第１の実施形態に係る階層化されたアイテムの一例を示す図である。図７は、第１の実施形態に係る情報処理装置の別の構成の一例を示すブロック図である。図８は、第２の実施形態に係る情報処理装置の構成の一例を示すブロック図である。図９は、第２の実施形態に係る類似度のデータの一例を示す図である。図１０は、第２の実施形態に係る匿名化後のデータの一例を示す図である。図１１は、第２の実施形態に係る動作の一例を示すフローチャートである。図１２は、第３の実施形態に係る情報処理装置の構成の一例を示すブロック図である。図１３は、第３の実施形態に係る匿名後のデータの一例を示す図である。図１４は、第３の実施形態に係る情報処理装置の動作の一例を示すフローチャートである。図１５は、複数の情報の組を含む匿名化対象データの一例を示す図である。図１６は、一般的な匿名化後のデータの一例を示す図である。

　次に、本発明の実施形態について図面を参照して説明する。

　なお、各図面は、本発明の実施形態を説明するものである。そのため、本発明は、各図面の記載に限られるわけではない。また、各図面の同様の構成には、同じ番号を付し、その繰り返しの説明は、省略する場合がある。

　（第１の実施形態）
　本発明における第１の実施形態に係る情報処理装置１０について図面を参照して説明する。

　まず、本実施形態の情報処理装置１０の構成について説明する。

　図１は、本発明における第１の実施形態に係る情報処理装置１０の構成の一例を示すブロック図である。

　情報処理装置１０は、組み合わせ決定部１１０と、類似度計算部１２０と、加工部１３０とを含む。

　組み合わせ決定部１１０は、類似度計算部１２０を用いて、処理対象である情報に含まれる情報の組（レコード）の間の類似度を求める。そして、組み合わせ決定部１１０は、求めた類似度と所定の匿名化に関する情報とに基づいて、匿名化するレコードの組み合わせ（グループ化）を決定する。

　ここで、類似度とは、レコード間の類似の程度を示す値である。

　なお、匿名化後のレコードは、同一のアイテムを含む情報となる。そのため、匿名化は、「併合（merge）」又は「結合(combine)」と呼ばれることもある。

　なお、以下では、レコードとして、利用者のような、人の情報を用いて本実施形態を説明する。ただし、本実施形態に係る情報処理装置１０が取り扱う情報は、人の情報に限るわけではない。例えば、本実施形態に係る情報処理装置１０は、装置などの物や、会社や団体など組織に関する情報を用いても良い。また、以下では、レコードに含まれるアイテムとして、品名を用いて説明する。ただし、アイテムは、品名に限る必要はない。例えば、アイテムは、症状や状態など、識別子で示される者や組織に関連する情報でもよい。

　図１の組み合わせ決定部１１０は、情報処理の対象である情報の一例として、匿名化対象データセットの入力を受け付ける。なお、情報処理装置１０は、処理対象である情報を制限されない。しかし、以下の説明では、一例として、情報処理装置１０は、処理対象の情報である匿名化対象データセットとして、利用者を識別するための識別子（ＩＤ）と複数のアイテムを含むセンシティブ情報とを含む複数のレコードを処理するとして説明する。

　また、情報処理装置１０は、処理対象である情報の保存場所を制限されない。例えば、情報処理装置１０は、図示しない記憶部に、処理対象である情報（図１の匿名化対象データセット）を保存してもよい。また、情報処理装置１０は、図示しない通信部を介して、外部の装置から、処理対象である情報を受け取っても良い。

　これらの場合、組み合わせ決定部１１０は、匿名化対象データセットを、図示しない記憶部からの読み取る、又は、図示しない通信部を介して受信する。

　類似度計算部１２０は、組み合わせ決定部１１０の指示を基に、処理対象の情報に含まれるレコード間の類似度を計算する。なお、類似度計算部１２０は、予め、類似度の計算のための情報を保持する。

　また、類似度は、「距離」と呼ばれる場合もある。例えば、２つのレコードが類似する場合、２つのレコードを基に算出される類似度は、高く、２つのレコードの距離は、近い。

　類似度計算部１２０は、類似度の計算のための情報を、制限されない。例えば、類似度計算部１２０は、レコード間の類似度の基準と類似度の計算方法とを保持しても良い。ただし、本実施形態の類似度計算部１２０は、共通のアイテムを有するレコードに対する類似度の計算プロセスに、次に条件を付与する。すなわち、類似度計算部１２０は、共通アイテムの出現頻度が低いほど類似度が高くなるように、レコード間の類似度を計算する。

　さらに、類似度計算部１２０は、組み合わせ決定部１１０の指示を基に、匿名化のためにグループ化したレコード群とレコードと間の類似度、又は、レコード群の間の類似度を計算しても良い。

　組み合わせ決定部１１０は、類似度計算部１２０で算出された類似度を基に、所定の匿名化における匿名性を充足するように、レコードをグループ化する。

　加工部１３０は、所定の匿名性を充足するように、組み合わせ決定部１１０が決定した組み合わせ（グループ）に含まれるレコードの少なくとも一部のアイテムを加工（匿名化）する。

　このように、本実施形態の情報処理装置１０は、共通のアイテムの出現頻度が低いほどレコード間の類似度が高くなるように、レコード間の類似度を算出する。さらに、本実施形態の情報処理装置１０は、算出した類似度と所定の匿名化に関する情報とを基に、レコードをグループ化し、グループ化したレコードを匿名化する。

　次に、情報処理装置１０の動作について説明する。

　図２は、情報処理装置１０の動作の一例を示すフローチャートである。

　まず、情報処理装置１０は、匿名化対象データセットのレコード間の類似度を計算する（ステップＳ１００１）。

　そのため、組み合わせ決定部１１０は、類似度計算部１２０にレコード間の類似度の計算を指示する。

　なお、組み合わせ決定部１１０は、例えば、レコードを類似度計算部１２０に送って類似度の計算を指示してもよい。あるいは、匿名化対象データセットを記憶部に保持する場合、組み合わせ決定部１１０は、その記憶部におけるレコードの保存位置を類似度計算部１２０に送り、類似度の計算を指示してもよい。このように、類似度計算部１２０は、組み合わせ決定部１１０への指示を、制限されない。

　類似度計算部１２０は、指示に従いレコード間の類似度を計算し、計算結果を組み合わせ決定部１１０に返す。この計算において、類似度計算部１２０は、共通のアイテムの出現頻度が低いほどレコード間の類似度が高くなるように、類似度を計算する。

　本実施形態の類似度計算部１２０は、類似度の計算を、制限されない。例えば、類似度計算部１２０は、類似度の計算に、ＩＤＦを用いても良い。

　ここで、ＩＤＦとは、逆文書出現頻度（Inverse Document Frequency）である。例えば、アイテムｉのＩＤＦ（ＩＦＤｉ）は、次の式を用いて求めることができる。

　　ＩＤＦｉ＝ｌｏｇ（｜Ｄ｜／｜｛ｄ：ｄ∋ｉ｝｜）
　ここで、｜Ｄ｜は、全レコード数であり、｜｛ｄ：ｄ∋ｉ｝｜は、アイテムｉを含むレコード数である。ＩＤＦのｌｏｇの括弧内は、アイテムｉの出現頻度の逆数、つまり、出現頻度に反比例する値である。

　そして、ＩＤＦを用いる場合、類似度計算部１２０は、次のように類似度を計算する。

　まず、類似度計算部１２０は、類似度を計算するレコードに含まれるアイテムのＩＤＦを合計する。類似度計算部１２０は、類似度を計算するレコード間で共通するアイテムのＩＤＦの合計を算出する。そして、類似度計算部１２０は、レコード間の類似度として、共通するアイテムのＩＤＦの合計の値を、組み合わせ決定部１１０に通知する。

　なお、本実施形態の類似度計算部１２０は、類似度の計算に用いる値として、出現頻度に反比例する値に限らず、出現頻度の増加に対して単調に減少（単調減少）又は出現頻度の減少に対して単調に増加（単調増加）する値を用いてもよい。さらに、本実施形態の類似度計算部１２０は、狭義の単調増加／単調増加する値に限らず、広義の単調増加（単調非減少）／単調減少（単調非増加）する値を、類似度として用いてもよい。

　類似度の計算後、情報処理装置１０は、計算した類似度を基にレコードをグループ化する（ステップＳ１００２）。

　組み合わせ決定部１１０は、予め、情報に設定する匿名化に関する情報を保持する。なお、組み合わせ決定部１１０は、匿名化に関する情報の設定を制限されない。例えば、情報処理装置１０の管理者又は利用者が、匿名化の設定を、組み合わせ決定部１１０に、指示しても良い。

　そして、組み合わせ決定部１１０は、類似度計算部１２０で計算されたグループ間の類似度を基に、匿名化における所定の匿名性を充足するように複数のレコードを含むグループ（匿名グループ）を決定する。

　具体的な値を基に、ステップＳ１００２の動作を説明する。

　組み合わせ決定部１１０が、匿名化として、ｋ－匿名性の情報を保持するとする。より具体的には、組み合わせ決定部１１０は、「２－匿名化」の情報を保持するとする。また、組み合わせ決定部１１０は、図１５に示す匿名化対象データセットを処理対象とする。

　そして、類似度計算部１２０は、図１５に示すデータセットに対して、類似度を計算する。

　図３は、ＩＤＦを用いたレコード間の類似度の計算結果データの一例を示す図である。なお、図３の第１行と第１列は、レコードのＩＤを示す。そして、行と列との交点の値が、その行のＩＤで示されるレコードと列のＩＤで示されるレコードとの間の類似度を示す。

　図３において、出現頻度が最も低い品名｛Ｘ、Ｙ｝のアイテムを含むＩＤ１のレコードとＩＤ４のレコードとの類似度が、最も高い。組み合わせ決定部１１０は、計算結果データから類似度が最も高いレコードを検出し、それらのレコードを併合した匿名グループを決定する。

　すなわち、組み合わせ決定部１１０は、ＩＤ１のレコードとＩＤ４のレコードとを併合した匿名グループ（第１の匿名グループ）を決定する。決定した匿名グループは、この時点で２－匿名化を満たす。そのため、決定した匿名グループは、さらなるレコードの追加が必要ない。そこで、組み合わせ決定部１１０は、第１の匿名グループを除く残りのレコード間の類似度に基づいて、次の匿名グループを決定する。

　図４は、説明を分かりやすくするため、図３からＩＤ１のレコードとＩＤ４のレコードとを削除した類似度のデータを示す図である。

　図４を参照すると、ＩＤ２のレコードとＩＤ３のレコードとの類似性が、最も高い。

　そこで、組み合わせ決定部１１０は、ＩＤ２のレコードとＩＤ３のレコードとを併合した匿名グループ（第２の匿名グループ）を決定する。この匿名グループは、２－匿名化を満たす。このため、組み合わせ決定部１１０は、第２の匿名グループを除く残りのレコード間の類似度に基づいて、次の匿名グループを決定する。

　残りのレコードは、ＩＤ５のレコードとＩＤ６のレコードとなる。組み合わせ決定部１１０は、２－匿名化を満たすために、匿名グループとして、残りのレコード（ＩＤ５とＩＤ６）を併合した匿名グループ（第３の匿名グループ）を決定する。

　なお、組み合わせ決定部１１０は、１回の処理で匿名グループを決定する必要はない。組み合わせ決定部１１０は、複数の処理を用いて匿名グループを決定しても良く、所定の処理を繰り返して匿名グループを決定しても良い。さらに、組み合わせ決定部１１０は、各処理において、類似度計算部１２０に、類似度を計算させても良い。

　例えば、組み合わせ決定部１１０が３－匿名化を保持する場合、組み合わせ決定部１１０は、ステップＳ１００１で計算された類似度を基に、一度の処理で３－匿名化の匿名化グループを決定してもよい。

　一方、組み合わせ決定部１１０は、ステップＳ１００１での類似度を基に、２－匿名化の匿名グループを決定する。それから、組み合わせ決定部１１０は、決定した２－匿名化の匿名グループに属するレコードの類似度を基に、３－匿名化の匿名グループを決定しても良い。この場合、組み合わせ決定部１１０は、類似度計算部１２０を用いて、匿名グループとグループとの類似度を計算する。

　さらに、ｋ＝３を超えるｋ－匿名化を保持する場合、組み合わせ決定部１１０は、類似度計算部１２０を用いて匿名グループ間の類似度を計算し、計算した類似度を基に、併合する匿名グループを決定しても良い。

　なお、類似度計算部１２０は、レコードと匿名グループの類似度として、例えば、そのレコードと匿名グループ内のレコードとの類似度の総和、平均、最小値又は最大値を用いても良い。

　あるいは、レコードがベクトル表現できる場合、類似度計算部１２０は、匿名グループを代表するベクトル（例えば、平均ベクトルや重心ベクトル）とレコードとの類似度を、類似度として用いても良い。

　なお、ここに記載のベクトルは、特に制限はない。

　しかし、例えば、類似度計算部１２０は、次のようなベクトルを用いても良い。

　レコードが含む所定の１つ又は複数のアイテムを座標軸とし、その座標軸を用いて表現される空間（アイテム空間）を想定する。すると、レコードが含む所定のアイテムを基に、このアイテム空間における、各レコードの位置及び位置ベクトルが、設定できる。

　平均ベクトルは、所定の匿名グループに含まれるレコードの位置ベクトルを平均したベクトルである。

　また、重心ベクトルは、所定の匿名グループに含まれるレコードに所定の重みを付け、重みを考慮してレコードの位置ベクトルを平均したベクトルである。

　また、類似度計算部１２０は、匿名グループ間の類似度として、各グループに含まれる所定範囲又は全てのレコード間の類似度の総和、平均、最大値又は最小値を用いてもよい。あるいは、類似度計算部１２０は、匿名グループを代表するベクトル（例えば、平均ベクトルや重心ベクトル）の類似度を、類似度として、用いても良い。

　次に、情報処理装置１０は、決定したグループに基づき、匿名グループに含まれるレコードのアイテムを加工して、データを匿名化する（ステップＳ１００３）。

　そのため、加工部１３０は、組み合わせ決定部１１０が決定した匿名グループを基に、匿名グループに含まれる、レコードに共通するアイテムを残し、他のアイテム（共通しないアイテム）を加工する。

　例えば、ステップＳ１００２で生成された第１乃至第３の匿名グループの情報を用いる場合、加工部１３０は、次に説明するようにアイテムを加工する。

　まず、加工部１３０は、図１５の第１の匿名グループに属するＩＤ１のレコードとＩＤ４のレコードとのアイテムを確認する。この場合、共通するアイテムは、品名｛Ｘ、Ｙ｝である。そこで、加工部１３０は、品名｛Ｘ、Ｙ｝のアイテムを残し、他のアイテムを削除する。同様に、加工部１３０は、第２の匿名グループに属するＩＤ２とＩＤ３の共通のアイテムを残して、他のアイテムを削除する。さらに、加工部１３０は、第３の匿名グループに属するＩＤ５とＩＤ６に共通するアイテムを残して、他のアイテムを削除する。

　図５は、加工部１３０が図１５のレコードを加工した後の一例を示す図である。

　図５において、アイテムの削除を示すため「＊」を付している。例えば、ＩＤ１のレコードは、｛Ｘ、Ｙ｝を残して、他のアイテムを削除された。

　図５に示すように、本実施形態の情報処理装置１０は、発生頻度が低いアイテム（図５のＩＤ１とＩＤ４の｛Ｘ、Ｙ｝）を残した匿名化を実現している。

　なお、加工部１３０は、アイテムの加工として削除に限る必要はない。

　例えば、加工部１３０は、概念木などの分類体系（タキソノミ）を用いて、アイテムを一般化（汎化）してもよい。

　図６は、階層化されたアイテムの一例を示す図である。アイテム｛Ａ、Ｂ、Ｃ｝の上位概念は、「Ｄ」であり、アイテム｛Ｅ、Ｆ、Ｘ、Ｙ｝の上位概念は、「Ｗ」であり、アイテム｛Ｇ、Ｈ｝の上位概念は、「Ｊ」である。

　例えば、図１５のＩＤ２とＩＤ３を併合する場合、加工部１３０は、アイテム｛Ｇ、Ｈ｝の上位概念である「Ｊ」を用いて、｛Ａ、Ｂ、Ｃ、Ｊ｝と加工しても良い。

　なお、本実施形態に係る情報処理装置１０は、図１に示す構成に限られない。情報処理装置１０は、各構成を別装置としてもよい。例えば、情報処理装置１０は、組み合わせ決定部１１０を含むサーバと、類似度計算部１２０を含むサーバとを、図示しないネットワークを介して接続して構成されてもよい。

　また、情報処理装置１０は、複数の構成を１つの構成としてもよい。例えば、組み合わせ決定部１１０は、類似度計算部１２０を含んでもよい。

　さらに、本実施形態の情報処理装置１０の構成は、これまでの説明に限らない。

　情報処理装置１０は、ＣＰＵ（Central Processing Unit）と、ＲＯＭ（Read Only Memory）と、ＲＡＭ（Random Access Memory）とを含むコンピュータとして実現されても良い。

　図７は、本実施形態の別の構成である情報処理装置６０の構成の一例を示すブロック図である。

　情報処理装置６０は、ＣＰＵ６１０と、ＲＯＭ６２０と、ＲＡＭ６３０と、ＩＯ（Input/Output）６４０と、記憶装置６５０と、入力機器６６０と、表示機器６７０とを含み、コンピュータを構成している。

　ＣＰＵ６１０は、ＲＯＭ６２０、又は、ＩＯ６４０を介して記憶装置６５０からプログラムを読み込む。そして、ＣＰＵ６１０は、読み込んだプログラムに基づいて、図１の情報処理装置１０の組み合わせ決定部１１０と、類似度計算部１２０と、加工部１３０としての各機能を実現する。ＣＰＵ６１０は、各機能を実現する際に、ＲＡＭ６３０及び記憶装置６５０を一時記憶として使用しても良い。また、ＣＰＵ６１０は、ＩＯ６４０を介して、入力機器６６０から入力データを受信し、表示機器６７０にデータを表示する。

　なお、ＣＰＵ６１０は、コンピュータで読み取り可能にプログラムを記憶した記憶媒体７００が含むプログラムを、図示しない記憶媒体読み取り装置を用いて読み込んでも良い。あるいは、ＣＰＵ６１０は、図示しないネットワークを介して、外部の装置からプログラムを受け取っても良い。

　ＲＯＭ６２０は、ＣＰＵ６１０が実行するプログラム、及び、固定的なデータを記憶する。ＲＯＭ６２０は、例えば、Ｐ－ＲＯＭ(Programmable-ROM）やフラッシュＲＯＭである。

　ＲＡＭ６３０は、ＣＰＵ６１０が実行するプログラムやデータを一時的に記憶する。ＲＡＭ６３０は、例えば、Ｄ－ＲＡＭ（Dynamic-RAM）である。

　ＩＯ６４０は、ＣＰＵ６１０と、記憶装置６５０、入力機器６６０及び表示機器６７０とのデータを仲介する。ＩＯ６４０は、例えば、ＩＯインターフェースカードである。

　記憶装置６５０は、情報処理装置６０の長期的に保存するデータやプログラムを保存する。また、記憶装置６５０は、ＣＰＵ６１０の一時記憶装置として動作しても良い。また、記憶装置６５０は、情報処理対象の情報を記憶しても良い。記憶装置６５０は、例えば、ハードディスク装置、光磁気ディスク装置、ＳＳＤ、又は、ディスクアレイ装置である。

　入力機器６６０は、情報処理装置６０の操作者からの入力指示を検出する入力部（検出部）である。入力機器６６０は、例えば、キーボード、マウス又はタッチパネルである。

　表示機器６７０は、情報処理装置６０の表示部である。表示機器６７０は、例えば、液晶ディスプレイである。表示機器６７０は、図５に示す匿名化後のデータを表示しても良い。

　このように構成された情報処理装置６０は、情報処理装置１０と同様の効果を得ることができる。

　その理由は、情報処理装置６０のＣＰＵ６１０が、プログラムに基づいて情報処理装置１０と同様の動作を実現できるためである。

　このように、本実施形態に係る情報処理装置１０は、第三者の情報分析に価値のある匿名化した情報を開示できる。

　その理由は、本実施形態の情報処理装置１０が、次のとおり動作するからである。

　類似度計算部１２０は、出現頻度の低いアイテムを共有するレコード間の類似度を、高く計算する。

　そのため、組み合わせ決定部１１０は、出現頻度が低いアイテムを含むレコードを、匿名グループとして決定する。そのため、出現頻度が低いアイテムが、共通するアイテムとなる。そして、加工部１３０が、共通するアイテムを残して匿名化する。そのため、情報処理装置１０は、出現頻度が低いアイテムが開示される匿名化を実現できる。

　（第２の実施形態）
　情報処理装置１０は、予め設定する匿名化を保持している。しかし、匿名化は、取り扱う情報や提供する第三者に対応して変化する。

　そこで、第２の実施形態に係る情報処理装置２０は、匿名化を変更する構成を含む。

　図８は、第２の実施形態に係る情報処理装置２０の構成の一例を示すブロック図である。

　本実施形態に係る情報処理装置２０は、第１の実施形態の情報処理装置１０の類似度計算部１２０の替わりに、類似度計算部２２０を含み、さらに、匿名化方針受信部２４０と、類似度設定部２５０とを含む。

　情報処理装置２０の他の構成は、情報処理装置１０と同じである。そのため、本実施形態に特有の構成及び動作について説明し、第１の実施形態と同様の説明を、省略する。

　なお、本実施形態の情報処理装置２０は、図７に示す情報処理装置６０と同様に、ＣＰＵ６１０と、ＲＯＭ６２０と、ＲＡＭ６３０とを含むコンピュータで実現されても良い。

　類似度計算部２２０は、第１の実施形態における、予め保持する類似度の計算の替わりに、類似度設定部２５０からの通知を基に、類似度を計算する。類似度計算部２２０は、類似度設定部２５０からの通知を基に計算する点を除き第１の実施形態と同様に動作する。そのため、類似度計算部２２０の詳細な説明を省略する。

　匿名化方針受信部２４０は、どのような匿名化を実施するかを示す匿名化方針を受信する。匿名化方針受信部２４０は、受信した匿名化方針を類似度設定部２５０に送る。

　なお、本実施形態において、匿名化方針の送信元は、特に制限はない。例えば、情報処理装置２０は、図示しない管理装置からネットワークを介して匿名化方針を受信してもよい。あるいは、情報処理装置２０は、管理者が操作する情報処理装置２０の入力機器６６０を操作に基づいて匿名化方針を受け取っても良い。

　また、本実施形態の匿名化方針のデータ形式は、特に制限はない。例えば、匿名化方針は、単に、ｋ－匿名化の「ｋ」の値のように、具体的な値を含んでもよい。あるいは、匿名化方針は、「出現頻度が低いアイテムをより多く開示する」又は「共起頻度が指定の値以上のアイテムは同一視する」のように、より具体的な内容を含んでもよい。なお、ここでの「同一視する」とは、アイテムを区別しない、つまり、所定の１つのアイテムと同一と見做すことである。

　類似度設定部２５０は、受け取った匿名化方針を基に、類似度計算部２２０が用いる類似度を選択し、類似度計算部２２０に通知する。

　例えば、「出現頻度が低いアイテムをより多く開示する」を含む匿名化方針の場合、類似度設定部２５０は、第１の実施形態で説明したＩＤＦを用いた類似度の計算を、類似度計算部２２０に指示しても良い。

　また、「共起頻度が指定の値以上のアイテムは同一視する」を含む匿名化方針の場合、類似度設定部２５０は、類似度計算部２２０に、匿名化方針に含まれるアイテムの同一視を通知する。

　例えば、類似度設定部２５０が、「共起頻度が３以上のアイテムを同一視する」との匿名化方針を受けた場合について、より詳細に説明する。

　類似度設定部２５０は、類似度計算部２２０に、「共起頻度が３以上のアイテムを同一視する」を通知する。

　類似度計算部２２０は、類似度設定部２５０から通知を受けると、共起頻度が３以上のアイテムを所定の１つのアイテムに置き換え、類似度（例えば、ＩＤＦの総和）を計算する。

　例えば、図１５のデータを基に、「共起頻度が３以上のアイテムを同一視する」を適用した場合、類似度は、図３で示した類似度は異なる値となる。

　図９は、図１５のデータに「共起頻度が３以上のアイテムを同一視する」を適用した類似度の一例を示す図である。図９に示す類似度の場合、情報処理装置２０は、ＩＤ１とＩＤ４、ＩＤ２とＩＤ５、ＩＤ３とＩＤ６をグループ化する。

　図１０は、この場合の匿名化後のデータの一例を示す図である。図１０に示す匿名後のデータは、品名｛Ｘ、Ｙ｝のアイテムに加え、出現頻度の低い品名｛Ｇ｝のアイテムや品名｛Ｈ｝のアイテムが開示されている。

　なお、類似度設定部２５０は、類似度計算部２２０に送る通知を、特に制限されない。例えば、類似度計算部２２０が複数の計算方法を保持する場合、類似度設定部２５０は、計算方法を指示してもよい。あるいは、類似度設定部２５０は、計算に用いる計算式や計算式のパラメータを類似度計算部２２０に通知しても良い。

　例えば、類似度計算部２２０が、類似度して、次の式で示す値（ＳＩＭ：SIMilarity）を用いるとする。

　　ＳＩＭ＝Σｌｏｇ（１／ｆｒｅｑ（ｉ）^β）＝Σ｛－（β）×ｌｏｇ（ｆｒｅｑ（ｉ））｝
　ここで、「ｆｒｅｑ（ｉ）」は、アイテムｉの出現頻度を示す関数である。また、βは、類似度設定部２５０が、類似度計算部２２０に通知するパラメータである。

　βが負の値の場合、出現頻度が高いアイテムは、出現頻度が低いアイテムに比べ、ＳＩＭの値が、大きくなる。一方、βが正の値の場合、出現頻度が高いアイテムは、出現頻度が低いアイテムに比べ、ＳＩＭの値が、小さくなる。

　そのため、類似度設定部２５０は、匿名化方針を基に、適切なパラメータβの値を類似度計算部２２０に通知すればよい。

　次に、図面を参照して、第２の実施形態の動作を説明する。

　図１１は、第２の実施形態の情報処理装置２０の動作の一例を示すフローチャートである。

　情報処理装置２０は、匿名化方針を受信する（ステップＳ２００４）。具体的には、匿名化方針受信部２４０は、匿名化方針を受信し、類似度設定部２５０に送る。なお、情報処理装置２０は、１回に限らず複数回に分けて、匿名化方針を受信してもよい。

　次に、情報処理装置２０は、受信した匿名化方針を基に、類似度に用いる計算を設定する（ステップＳ２００５）。具体的には、類似度設定部２５０は、匿名化方針を基に、実施する類似度の計算についての情報を、類似度計算部２２０に送信する。

　そして、情報処理装置２０は、レコード間の類似度を計算する（ステップＳ２００６）。具体的には、組み合わせ決定部１１０は、類似度の計算を、類似度計算部２２０に指示する。そして、類似度計算部２２０は、類似度設定部２５０の指示に基づく計算を用いて、類似度を計算する。

　以降の動作は、第１の実施形態の同様である。

　このように、第２の実施形態に係る情報処理装置２０は、第１の実施形態に係る効果に加え、匿名化を変更する効果を得ることができる。

　その理由は、第２の実施形態に係る情報処理装置２０が次のとおり動作するからである。

　匿名化方針受信部２４０は、匿名化方針を受信する。そして、類似度設定部２５０は、受信した匿名化方針に基づき、類似度計算部２２０に、類似度の計算に関する情報を通知する。類似度計算部２２０は、通知された類似度を用いて、レコードの類似度を計算するためである。

　（第３の実施形態）
　これまでの説明では、アイテムに区別を付けないで説明した。

　しかし、情報を開示において、予め重要なアイテムが、分かっている場合がある。

　そこで、第３の実施形態に係る情報処理装置３０は、アイテムの重要性又は優先度を用いる。

　図１２は、第３の実施形態に係る情報処理装置３０の構成の一例を示すブロック図である。

　本実施形態に係る情報処理装置３０は、第２の実施形態の情報処理装置２０と比較して、優先度受信部３６０を含む。そして、情報処理装置３０は、情報処理装置２０の類似度設定部２５０と組み合わせ決定部１１０との替わりに、類似度設定部３５０と組み合わせ決定部３１０とを含む。

　情報処理装置３０の他の構成は、情報処理装置２０と同じである。そのため、以下の説明では、本実施形態に特有の構成及び動作について説明し、第２の実施形態と同様の説明を、省略する場合がある。また、本実施形態の情報処理装置３０は、図７に示す情報処理装置６０と同様に、ＣＰＵ６１０と、ＲＯＭ６２０と、ＲＡＭ６３０とを含むコンピュータで実現されても良い。

　優先度受信部３６０は、開示するアイテムの優先度を受信する。優先度受信部３６０は、受信した優先度を、類似度設定部３５０と組み合わせ決定部３１０とに送る。

　なお、本実施形態の情報処理装置３０は、優先度の送信元を、特に制限されない。例えば、情報処理装置３０は、図示しない管理装置からネットワークを介して、優先度を受信してもよい。あるいは、情報処理装置３０は、管理者の情報処理装置３０の入力機器６６０を操作に基づいて、優先度を受信しても良い。

　なお、本実施形態の優先度のデータ形式は、特に制限はない。例えば、優先度は、各アイテムの優先度を示す値（例えば、１０段階の数値）でもよく、優先度の程度（例えば、高／中／低）でもよく、優先度が高いアイテムを示す情報（例えば、品名）でもよい。

　類似度設定部３５０は、匿名化方針と優先度とを基に、類似度計算部２２０が優先度に用いる計算を指示する。

　組み合わせ決定部３１０は、類似度計算部２２０が計算した類似度に加え、優先度受信部３６０から受け取った優先度を基に、レコード間のグループを決定する。

　具体的なデータの一例として、図１３のデータを用いて説明する。

　例えば、図１３のデータにおいて、アイテム｛Ｇ｝の優先度が「高」、アイテム｛Ｃ｝の優先度が「中」、他のアイテムの優先度が「低」とし、匿名化方針が、「２－匿名化」とする場合を想定する。

　なお、以下の説明では、説明を簡単にするため、類似度についての判定を省略する。

　この場合、組み合わせ決定部３１０は、まず、アイテム｛Ｇ｝を含むＩＤ２のレコードとＩＤ５のレコードを匿名グループと決定する。次に、組み合わせ決定部３１０は、アイテム｛Ｃ｝を含むＩＤ１のレコードとＩＤ３のレコードを匿名グループと決定する。そして、組み合わせ決定部３１０は、ＩＤ４のレコードとＩＤ６のレコードを匿名グループと決定する。

　図１３は、上記の匿名化後のデータの一例を示す図である。優先度が高いアイテム｛Ｇ｝が、開示されている。

　次に図面を用いて、第３の実施形態の情報処理装置３０の動作を説明する。

　図１４は、第３の実施形態に係る情報処理装置３０の動作の一例を示すフローチャートである。

　情報処理装置３０は、優先度を受信する（ステップＳ３００７）。具体的には、優先度受信部３６０は、優先度を受信し、類似度設定部３５０に送る。

　そして、情報処理装置３０は、匿名化方針を受信する（ステップＳ２００４）。

　なお、情報処理装置３０は、ステップＳ３００７とステップＳ２００４との順番を入れ替えても良い。また、情報処理装置３０は、ステップＳ３００７又はステップＳ２００４の処理を複数に分けても良い。

　情報処理装置３０は、優先度と匿名化方針とを基に、類似度の計算を設定する（ステップＳ３００８）。具体的には、類似度設定部３５０が、類似度計算部２２０に計算を指示する。

　次に、情報処理装置３０は、レコード間の類似度を計算する（ステップＳ２００６）。具体的には、組み合わせ決定部３１０が、類似度計算部２２０に指示する。そして、類似度計算部２２０が、類似度を計算する。

　そして、情報処理装置３０は、類似度と優先度とを基にレコードのグループを決定する（ステップＳ３００９）。具体的には、組み合わせ決定部３１０が、類似度と優先度とを基にグループを決定する。

　そして、情報処理装置３０は、決定してグループを基に、匿名化のために、アイテムを加工する（ステップ１００３）。具体的には、加工部１３０が、アイテムを加工する。

　なお、ここまでの説明において、類似度設定部３５０と組み合わせ決定部３１０とが、共に、優先度を用いるように説明した。しかし、本実施形態の情報処理装置３０は、これに限る必要はない。類似度設定部３５０又は組み合わせ決定部３１０のいずれか一方が、類似度を用いても良い。

　このように第３の実施形態に係る情報処理装置３０は、第２の実施形態に係る効果に加え、優先度に基づいて、アイテムを開示できる効果を得ることができる。

　その理由は、第３の実施形態に係る情報処理装置３０が、次のとおり動作するからである。

　優先度受信部３６０は、アイテムの優先度を受信する。そして、類似度設定部３５０及び／又は組み合わせ決定部３１０は、第２の実施形態の動作に加え、優先度に基づいて動作するためである。

　以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

　この出願は、２０１２年０６月１８日に出願された日本出願特願２０１２－１３７０６８を基礎とする優先権を主張し、その開示の全てをここに取り込む。

　１０　情報処理装置
　２０　情報処理装置
　３０　情報処理装置
　６０　情報処理装置
　１１０　組み合わせ決定部
　１２０　類似度計算部
　１３０　加工部
　２２０　類似度計算部
　２４０　匿名化方針受信部
　２５０　類似度設定部
　３１０　組み合わせ決定部
　３５０　類似度設定部
　３６０　優先度受信部
　６１０　ＣＰＵ
　６２０　ＲＯＭ
　６３０　ＲＡＭ
　６４０　ＩＯ
　６５０　記憶装置
　６６０　入力機器
　６７０　表示機器

Claims

　複数の情報を含む情報の組の間の類似度として、前記情報の出現頻度の増加に対して単調減少又は前記情報の出現頻度の減少に対して単調増加する情報を算出する類似度計算手段と、
　前記類似度を用いて、匿名化の対象となる前記情報の組の組み合わせを決定する組み合わせ決定手段と、
　前記組み合わせ決定手段が決定した組み合わせを基に、前記情報の組に含まれる情報の少なくとも一部を匿名化のために加工する加工手段と
　を含む情報処理装置。
　匿名化の方針を含む匿名化方針を受信する匿名化方針受信手段と、
　前記匿名化方針を基に前記類似度計算手段における前記類似度の計算方法を設定する類似度設定手段と
　を含む請求項１に記載の情報処理装置。
　前記情報の優先を示す優先度を受信する優先度受信手段を含み、
　前記類似度設定手段は、前記優先度を基に前記類似度計算手段における前記類似度の計算方法を設定し、
　前記組み合わせ設定手段は、前記優先度を基に組み合わせを決定する
　請求項２に記載の情報処理装置。
　前記加工手段は、前記組み合わせに含まれるグループ間で共通しないアイテムを削除する請求項１乃至請求項３のいずれか１項に記載の情報処理装置。
　前記加工手段は、前記組み合わせに含まれるグループ間で共通しないアイテムを上位概念に加工する請求項１乃至請求項３のいずれか１項に記載の情報処理装置。
　複数の情報を含む情報の組の間の類似度として、前記情報の出現頻度の増加に対して単調減少又は前記情報の出現頻度の減少に対して単調増加する情報を算出し、
　前記類似度を用いて、匿名化の対象となる前記情報の組の組み合わせを決定し、
　前記決定した組み合わせを基に、前記情報の組に含まれる情報の少なくとも一部を匿名化のために加工する
　情報匿名化方法。
　匿名化の方針を含む匿名化方針を受信し、
　前記匿名化方針を基に前記類似度の計算方法を設定する
　請求項６に記載の情報匿名化方法。
　前記情報の優先を示す優先度を受信し、
　前記優先度を基に前記類似度の計算方法を設定し、
　前記優先度を基に前記組み合わせを決定する
　請求項７に記載の情報匿名化方法。
　複数の情報を含む情報の組の間の類似度として、前記情報の出現頻度の増加に対して単調減少又は前記情報の出現頻度の減少に対して単調増加する情報を算出する処理と、
　前記類似度を用いて、匿名化の対象となる前記情報の組の組み合わせを決定する処理と、
　前記決定した組み合わせを基に、前記情報の組に含まれる情報の少なくとも一部を匿名化のために加工する処理と
　をコンピュータに実行させるプログラム。