WO2013088681A1

WO2013088681A1 - 匿名化装置、匿名化方法、並びにコンピュータ・プログラム

Info

Publication number: WO2013088681A1
Application number: PCT/JP2012/007825
Authority: WO
Inventors: 翼高橋
Original assignee: 日本電気株式会社
Priority date: 2011-12-15
Filing date: 2012-12-06
Publication date: 2013-06-20
Also published as: US20140317756A1; JPWO2013088681A1; EP2793162A4; EP2793162A1

Abstract

　履歴情報を匿名化する際に、同一の識別子を持つ複数のレコード間に存在する本来の性質を最大限維持した状態で、最適且つ十分な匿名化を行う匿名化装置等が提供される。　係る匿名化装置は、固有識別情報に関して少なくとも準識別子とセンシティブ情報とが関連付けされたレコードが複数件含まれる履歴情報を対象として、その履歴情報の中から、所望の匿名性を充足可能であり、且つ特定の固有識別子を共通に有する複数のレコード間に存在する性質の曖昧さの小ささに基づいて、該特定の固有識別子とは異なる他の固有識別子を与えられたレコードを抽出するレコード抽出手段と、このレコード抽出手段によって抽出された複数のレコードが有する個々の属性が前記所望の匿名性を充足するように、それらのレコードにそれぞれ含まれる準識別子に共通性を持たせることによって抽象化する匿名化手段とを備える。

Description

匿名化装置、匿名化方法、並びにコンピュータ・プログラム

　本発明は、例えば個人情報等のように、オリジナルな情報内容のままで公開や利用されることが好ましくない情報（履歴情報）を、匿名化する技術分野に関する。

　購買履歴や診療履歴等のように、日々ユーザに提供されるサービス活動から生まれるログ情報は、それらのサービス提供者によって、履歴情報として蓄積されている。これらの履歴情報を分析することで、特定の利用者の行動パターンの把握や、ある集団が持つ固有の傾向の把握、将来起こり得る事象の予測、過去の事象に対する要因分析等が可能である。これらの履歴情報、および、その分析結果を利用することで、サービス提供者は、自己の事業の強化や見直しが可能である。よって、履歴情報は、利用価値が非常に高い有益な情報である。

　サービス提供者以外の第三者にとっても、このようなサービス提供者が保有する履歴情報は有益である。例えば、この第三者は、係る履歴情報を利用することで、自身では得られなかった情報を手にすることができるので、第三者自身のサービスやマーケティングの強化が可能である。また、サービス提供者自身が、第三者に対して、履歴情報の分析を依頼する場合や、研究目的に履歴情報を公開する場合もある。

　このように利用価値の高い履歴情報には、その履歴情報の主体にとって他人に知られたくない情報や、第三者に知られるべきでない情報が含まれている場合がある。このような情報は、一般に、センシティブ情報（機微情報：Ｓｅｎｓｉｔｉｖｅ　Ａｔｔｒｉｂｕｔｅ（ＳＡ），　Ｓｅｎｓｉｔｉｖｅ　Ｖａｌｕｅ）と呼ばれる。例えば、購買履歴の場合は、購入した商品がセンシティブ情報に成り得る。診療情報の場合は、傷病名や、診療行為名がセンシティブ情報である。

　履歴情報には、サービス利用者を一意に識別するユーザ識別子（ユーザＩＤ）と、サービス利用者を特徴付ける複数の属性（属性情報）とが付与されている場合が多い。ユーザ識別子には、氏名、会員番号や被保険者番号などが該当する。サービス利用者を特徴付ける属性には、性別、生年月日、職業、居住エリア、郵便番号などが該当する。サービス提供者は、これらのユーザ識別子と、複数種類の属性と、センシティブ情報とを関連付けた状態で、一つのレコードとして記録する。そして、サービス提供者は、係るレコードを、そのレコードにユーザ識別子が関連付けされている特定のユーザがサービスを享受する度に、履歴情報として蓄積する。ユーザ識別子が付与されたままの履歴情報が第三者に提供されると、そのユーザ識別子を用いることによってサービス利用者を特定することが可能であるため、プライバシ侵害の問題が発生し得る。

　また、複数のレコードによって構成されるデータセットの中から、各レコードに付与されている属性値を１つ以上組み合わせることにより、ある個人を特定できてしまう場合がある。このように個人を特定し得る属性は、準識別子（Ｑｕａｓｉ－Ｉｄｅｎｔｉｆｉｅｒ）と呼ばれる。即ち、例えユーザ識別子を取り除いた履歴情報であっても、準識別子に基づいてある個人を特定可能であれば、プライバシ侵害が発生し得る。

　但し、その一方で、全ての準識別子を履歴情報から取り除いてしまうと、統計的な分析が不可能になるので、履歴情報の本来の有益性が大幅に失われる。この場合、例えば、ある年代が好んで購入する傾向にある製品の分析や、ある地域に居住する住民が罹患する特有の傷病の分析等が行えない。

　このような特性を有する履歴情報のデータセットを、本来の有用性を保ちながら、プライバシを保護した形態に変換する手法として、匿名化（匿名化技術：Ａｎｏｎｙｍｉｚａｔｉｏｎ）が知られている。

　匿名化技術を説明する文献として、例えば、特許文献１は、ユーザ端末から受信したデータを加工すると共に、受信したデータに含まれるプライバシ情報を評価することにより、当該受信したデータを、ユーザの識別情報を除いた情報に変換する技術を開示する。

　また、非特許文献１は、最もよく知られた匿名性指標である“ｋ－匿名性”を提案する。匿名化対象のデータセットに、係るｋ－匿名性を充足させる手法は、“ｋ－匿名化”と呼ばれる。このｋ－匿名化では、同じ準識別子を有するレコードが匿名化対象のデータセットの中に少なくともｋ個以上存在するように、対象となる準識別子を変換する処理が行われる。この変換処理としては、一般化、切り落とし等の方式が知られている。係る一般化において、元の詳細な情報は、抽象化された情報に変換される。

　非特許文献２は、ｋ－匿名性を発展させた匿名性指標の１つである、“ｌ－多様性”を提案する。このｌ－多様化では、同じ準識別子を持つ複数のレコードに、少なくともｌ種類以上の異なるセンシティブ情報が含まれるように、対象となる準識別子を変換する処理が行われる。

　ここで、ｋ－匿名化は、準識別子と関連付けされるレコードの数がｋ個以上になることを保証する。ｌ－多様化は、準識別子と関連付けされるセンシティブ情報の種類がｌ種類以上になることを保証する。尚、ｌ－多様化を施したデータセットの例については、図１１Ａ乃至図１１Ｃを参照して後述する。

　上述した非特許文献１におけるｋ－匿名化や、非特許文献２におけるｌ－多様化では、同一のユーザ識別子を持つ複数のレコードが存在する場合に、それらレコード間の順序や関係等の、互いに異なる事象間の性質（換言すれば、特徴、遷移、プロパティ：以下、本願では「性質」と称する）が考慮されていない。そのため、係るレコード間の性質が曖昧になったり、失われてしまう場合がある。

　また、同一のユーザ識別子を持つ複数のレコードを対象とした時間軸上における、順序を保存した匿名化方法として、移動軌跡に対する匿名化技術が知られている。

　非特許文献３は、位置情報が時系列に関連付けされた移動軌跡を匿名化する技術に関する論文である。より具体的に、非特許文献３に記載された匿名化技術は、係る移動軌跡の始点から終点までを一連のシーケンスとみなして、一貫したｋ－匿名性を保証する匿名化技術である。この移動軌跡の匿名化技術では、地理的に類似するｋ個以上の移動軌跡を束ねたチューブ状の匿名移動軌跡が生成される。移動軌跡の匿名化技術は、匿名性の制約の中で、地理的な類似性を最大化した匿名移動軌跡が生成される。

　非特許文献３に代表される移動軌跡の匿名化方式では、同一のユーザ識別子を与えられたレコード間に存在する性質のうち、特に、時系列な順序関係が保たれる。ただし、非特許文献３では、地理的な類似性を最大化した匿名移動軌跡を構築すること主たる目的としており、必ずしも、各レコード間の性質が維持されるわけではない。また、非特許文献３では、ｋ－匿名性、ｌ－多様性、及びｍ－不変性等の任意の匿名性の保証には対応していない。

特開２０１１－１８０８３９

Ｌ．Ｓｗｅｅｎｅｙ，"ｋ－ａｎｏｎｙｍｉｔｙ：ａ　ｍｏｄｅｌ　ｆｏｒ　ｐｒｏｔｅｃｔｉｎｇ　ｐｒｉｖａｃｙ"，　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｊｏｕｒｎａｌ　ｏｎ　Ｕｎｃｅｒｔａｉｎｔｙ，　Ｆｕｚｚｉｎｅｓｓ　ａｎｄ　Ｋｎｏｗｌｅｄｇｅ－ｂａｓｅｄ　Ｓｙｓｔｅｍｓ，１０（５），ｐｐ．５５５－５７０，２００２．Ａ．Ｍａｃｈａｎａｖａｊｊｈａｌａ，　Ｄ．Ｋｉｆｅｒ，　Ｊ．Ｇｅｈｒｋｅ　ａｎｄ　Ｍ．Ｖｅｎｋｉｔａｓｕｂｒａｍａｎｉａｍ，　"ｌ－Ｄｉｖｅｒｓｉｔｙ：　Ｐｒｉｖａｃｙ　Ｂｅｙｏｎｄ　ｋ－Ａｎｏｎｙｍｉｔｙ"，　ＡＣＭ　Ｔｒａｎｓａｃｔｉｏｎｓ　ｏｎ　Ｋｎｏｗｌｅｄｇｅ　Ｄｉｓｃｏｖｅｒｙ　ｆｒｏｍ　Ｄａｔａ，２００７．Ｏ．Ａｂｕｌ，　Ｆ．Ｂｏｎｃｈｉ　ａｎｄ　Ｍ．Ｎａｎｎｉ、「Ｎｅｖｅｒ　Ｗａｌｋ　Ａｌｏｎｅ：　Ｕｎｃｅｒｔａｉｎｔｙ　ｆｏｒ　Ａｎｏｎｙｍｉｔｙ　ｉｎ　Ｍｏｖｉｎｇ　Ｏｂｊｅｃｔｓ　Ｄａｔａｂａｓｅｓ．」　Ｉｎ　Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　２４ｔｈ　ＩＥＥＥ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｄａｔａ　Ｅｎｇｉｎｅｅｒｉｎｇ，　ｐｐ．３７６－３８５，２００８．

　ここで、同一のユーザ識別子を付与された複数のレコードが存在する履歴情報を匿名化する問題について、図１１Ａ乃至図１１Ｃ、図１２Ａ及び図１２Ｂ、並びに図１３に示す例を参照して考える。

　例えば、一般的な履歴情報の一例として、サービス提供者としての医療機関において収集される診療情報がある。診療情報は、同一の患者に対して付与されたユーザ識別子を基準として、異なる診療時刻に関連付けされたレコードが多数件存在する場合が多い。

　図１１Ａは、匿名化前の履歴情報（２０１０年４月に関する診療履歴）に関するテーブルを例示する図である。図１１Ｂは、匿名化前の履歴情報（２０１０年５月に関する診療履歴に関するテーブルを例示する図である。

　より具体的に、図１１Ａに示す履歴情報は、２０１０年４月に関して、患者を特定するユーザ識別子別に、性別、生年月日、診療年月、及び傷病名が関連付けされたテーブルである。そして、図１１Ｂに示す履歴情報は、図１１Ａと同様な履歴情報が２０１０年５月に関してまとめられたテーブルである。即ち、図１１Ｂには、図１１Ａと同じユーザ識別子を基に、同様な種類のレコードが、異なる診療年月について関連付けされている。図１１Ａ及び図１１Ｂにおいて、性別と、生年月日と、診療年月とは、上述した“準識別子”に相当する。傷病名は、上述した“センシティブ情報”に相当する。

　そして、図１１Ｃは、図１１Ａ及び図１１Ｂに示すデータセット間に存在する性質を表すテーブルを例示する図である。より具体的に、図１１Ｃにおいて、例えばユーザ識別子００００１なる患者の２０１０年４月及び５月のレコードに注目すると、４月に傷病Ａに罹患した後、５月には傷病Ｅを罹患したという性質が存在することが判る。ここで、図１１Ｃに示す矢印（以下の本願における文章による説明では、“＞”にて表現することとする）は、傷病の遷移を表す。同様に、ユーザ識別子００００２なる患者の場合は、４月に傷病Ｂに罹患した後、５月には傷病Ｇを罹患したという性質が存在することが判る。

　次に、図１１Ａ及び図１１Ｂに示す各データセットを対象として、一般的な匿名化を行った場合について説明する。図１２Ａは、図１１Ａに示す履歴情報を匿名化した結果を例示する図である。図１２Ｂは、図１１Ｂに示す履歴情報を匿名化した結果を例示する図である。そして、図１３は、性別を抽象化する際に利用する汎化ツリーを例示する図である。

　より具体的に、図１２Ａ及び図１２Ｂに示すテーブルは、図１１Ａ及び図１１Ｂに例示する履歴情報に対して、ｌ－多様化（ｌ＝２の場合）を施すことによって匿名化した結果を例示する。図１２Ａ及び図１２Ｂにおいて、破線枠で示すユーザ識別子は、匿名化された結果を利用する際には削除されることによって利用者には開示されない情報であり、説明の便宜上から示している。

　そして、図１３は、性別を抽象化する際に利用する汎化（一般化）ツリーの一例を示した図である。即ち、図１３は、準識別子としての性別を抽象化する際に、抽象化の方法を定めた抽象化木の概念階層の一例を表す。図１３において、「＊」は、男性と女性の両方に対応すると共に、「＊」が２種類の性別（男性、女性）の上位概念であることを表す。

　尚、図１１Ａ乃至図１１Ｃ、図１２Ａ及び図１２Ｂについては、後述する実施形態においても、上述した前提の基に参照することとする。

　ここで説明する匿名化技術は、単一のデータセット（４月分、５月分）を個別に匿名化する一般的な技術である。即ち、係る一般的な匿名化技術において、図１１Ａ及び図１１Ｂに示すように、異なる診療時刻を持つ複数のデータセットは、４月分が図１１Ａから図１２Ａに示すように匿名化され、そして５月分が図１１Ｂから図１２Ｂに示すように月別に個別に匿名化が施される。また、一般的な匿名化では、月別のように明示的な単位に分割されていないデータセットであっても、同一のユーザ識別子を持った複数のレコードが存在する場合、個々のレコードに対して匿名化が施される。

　このとき、同一のユーザ識別子が関連付けされた複数のレコード間に存在する性質の一つである時系列性が失われる場合がある。図１２Ａ及び図１２Ｂに示す例では、匿名化されたレコードにおいて、ユーザ識別子が削除（但し、図示では上記の通り便宜上から記載）されることにより、準識別子の抽象化が行われたことが判る。

　また、図１１Ａ及び図１１Ｂに示すユーザ識別子００００１、００００２、００００５、００００６に関連付けされた各レコードのうち、“性別”は、図１３に示す抽象化木に従って曖昧にされることにより、図１２Ａ及び図１２Ｂにおいては、上位概念である「＊」によって表される。

　更に、図１２Ａ及び図１２Ｂに示す生年月日は、範囲（期間）を表す。これは、図１１Ａ及び図１１Ｂに示す属性「生年月日」が、２つ以上のレコードが共通の値を持つように変換（抽象化）されることにより、月日が削除された結果を表す。

　このように匿名化では、所望の匿名性を満たすため、複数のレコードが共通の準識別子（同じ識別子）を持つように、準識別子の抽象化が行われる。

　ところで、図１１Ａに示すデータセットと、図１１Ｂに示すデータセットとの間には、本来は図１１Ｃに示す性質が存在する。例えば、図１１Ｃにおいて、２０１０年４月に疾病Ａであったレコードは、２０１０年５月には、疾病Ｅもしくは疾病Ｆを罹患するという性質が存在する。このような性質をまとめると、図１１Ａ及び図１１Ｂに示す匿名化前のデータセットには、下記の時系列な性質が存在する。

　　・Ａ＞Ｅ，Ａ＞Ｆ，
　　・Ｂ＞Ｇ，
　　・Ｃ＞Ｈ，
　ここで、演算子「＞」は、個々の性質が有する時系列な順序を表しており、例えば、Ｘ＞Ｙであれば、状態Ｘの後に状態Ｙになることを表す（以下の本願の説明に於いても同様）。

　ところが、図１２Ａ及び図１２Ｂだけに注目した場合、これらの図に示された匿名化後の２つのデータセットの間には、下記の時系列な性質が存在すると推測できる。

　　・Ａ＞Ｅ，Ａ＞Ｆ，Ａ＞Ｇ，Ａ＞Ｈ，
　　・Ｂ＞Ｅ，Ｂ＞Ｇ，
　　・Ｃ＞Ｆ，Ｃ＞Ｈ，
　即ち、上記匿名化後の時系列な性質の例を具体的に説明すると、まず、２０１０年４月に疾病Ａになった患者に注目した場合を考える。この場合、図１２Ａに示す４つの期間（「１９７６年～１９８５年」、「１９７５年～１９７９年」、「１９７２年～１９７６年」、「１９５１年～１９６３年」）内に生年月日を有する患者が対象となる。この場合、これらの患者について図１２Ｂにおいて同じ生年月日の期間に注目すると、以下の性質を読み取ることができる。

　　・期間「１９７６年～１９８５年」においては疾病ＥおよびＧを罹患するという性質、
　　・期間「１９７５年～１９７９年」においては疾病ＥおよびＧを罹患するという性質、
　　・期間「１９７２年～１９７６年」においては疾病ＦおよびＨを罹患するという性質、そして
　　・期間「１９５１年～１９６３年」においては疾病ＦおよびＨを罹患するという性質。

　即ち、これらの性質は、図１２Ａに示すレコードでは、匿名化によって削除されたユーザ識別子００００１，００００３，００００５，００００７に関してのみ注目していたにも関わらず、図１２Ｂにおいては、これら削除されたユーザ識別子だけでなく、ユーザ識別子００００２，００００４，００００６，００００８に関する性質（即ち、Ａ＞Ｇ，Ａ＞Ｈ）までも導出してしまっている。

　同様に、２０１０年４月に疾病Ｂになった患者に注目した場合を考える。この場合、図１２Ａに示すように、２つの期間（「１９７６年～１９８５年」、「１９７５年～１９７９年」）内に生年月日を有する患者が対象となる。この場合、これらの患者について図１２Ｂにおいて同じ生年月日の期間に注目すると、以下の性質を読み取ることができる。

　　・期間「１９７６年～１９８５年」においては疾病ＥおよびＧを罹患するという性質、そして
　　・期間「１９７５年～１９７９年」においても疾病ＥおよびＧを罹患するという性質。

　即ち、これらの性質は、図１２Ａに示すレコードでは、匿名化によって削除されたユーザ識別子００００２，００００４に関してのみ注目していたにも関わらず、図１２Ｂにおいては、これら削除されたユーザ識別子だけでなく、ユーザ識別子００００１，００００３に関する性質（即ち、Ｂ＞Ｇ）までも導出してしまっている。

　そして、２０１０年４月に疾病Ｃになった患者に注目した場合を考える。この場合、図１２Ａに示すように、２つの期間（「１９７２年～１９７６年」、「１９５１年～１９６３年」）内に生年月日を有する患者が対象となる。この場合、これらの患者について図１２Ｂにおいて同じ生年月日の期間に注目すると、以下の性質を読み取ることができる。

　　・期間「１９７２年～１９７６年」においては疾病ＦおよびＨを罹患するという性質、そして
　　・期間「１９５１年～１９６３年」においても疾病ＦおよびＨを罹患するという性質。

　即ち、これらの性質は、図１２Ａに示すレコードでは、匿名化によって削除されたユーザ識別子００００６，００００８に関してのみ注目していたにも関わらず、図１２Ｂにおいては、これら削除されたユーザ識別子だけでなく、ユーザ識別子００００５，００００７に関する性質（即ち、Ｃ＞Ｆ）までも導出してしまっている。

　上述した具体例から判るように、図１２Ａ及び図１２Ｂに示すテーブルに基づいて推測した匿名化後の時系列な性質は、図１１Ｃに示した匿名化前に得られた本来の時系列な性質を曖昧にしたにも関わらず、本来導かれるべきでない性質までもが導出されている。

　このように、それぞれのレコードに一般的な多様化（匿名化）を単純に施した場合、複数のレコードに亘って存在する本来の性質が歪曲される可能性があることが判る。そして、本来の性質が匿名化によって損なわれた場合、対象とするデータセット間に本来存在する性質を見誤るという問題がある。

　本発明は、上述した問題を鑑みてなされた。本発明は、履歴情報を匿名化する際に、同一の識別子を持つ複数のレコード間に存在する本来の性質を最大限維持した状態で、最適且つ十分な匿名化を行う匿名化装置等の提供を主たる目的とする。

　上記の目的を達成すべく、本発明に係る匿名化装置は、以下の構成を備えることを特徴とする。

　即ち、本発明に係る匿名化装置は、
　固有識別情報に関して少なくとも準識別子とセンシティブ情報とが関連付けされたレコードが複数件含まれる履歴情報を対象として、その履歴情報の中から、所望の匿名性を充足可能であり、且つ特定の固有識別子を共通に有する複数のレコード間に存在する性質の曖昧さの小ささに基づいて、該特定の固有識別子とは異なる他の固有識別子を与えられたレコードを抽出するレコード抽出手段と、
　前記レコード抽出手段によって抽出された複数のレコードが有する個々の属性が前記所望の匿名性を充足するように、それらのレコードにそれぞれ含まれる準識別子に共通性を持たせることによって抽象化する匿名化手段とを備える。

　また、同目的を達成する他の見地として、本発明に係る匿名化方法は、以下の構成を備えることを特徴とする。

　即ち、本発明に係る匿名化方法は、
　固有識別情報に関して少なくとも準識別子とセンシティブ情報とが関連付けされたレコードが複数件含まれる履歴情報を対象として、その履歴情報の中から、所望の匿名性を充足可能であり、且つ特定の固有識別子を共通に有する複数のレコード間に存在する性質の曖昧さの小ささに基づいて、該特定の固有識別子とは異なる他の固有識別子を与えられたレコードをコンピュータによって抽出し、
　抽出された複数のレコードが有する個々の属性が前記所望の匿名性を充足するように、前記コンピュータまたは異なるコンピュータによって、それらのレコードにそれぞれ含まれる準識別子に共通性を持たせることによって抽象化する。

　尚、同目的は、上記構成を有する匿名化装置、並びに対応する方法を、コンピュータによって実現するコンピュータ・プログラム、及びそのコンピュータ・プログラムが格納されている、コンピュータ読み取り可能な記憶媒体によっても達成される。

　上記の本発明によれば、履歴情報を匿名化する際に、同一の識別子を持つ複数のレコード間に存在する本来の性質を最大限維持した状態で、最適且つ十分な匿名化を行う匿名化装置等の提供が実現する。

図１は、本発明の第１の実施形態に係る匿名化装置１００の構成を示す機能ブロック図である。図２は、本発明の第２の実施形態に係る匿名化装置２００の構成を示す機能ブロック図である。図３は、本発明の第１の実施形態に係る匿名化装置における制御処理の手順を示すフローチャートである。図４Ａは、第１の実施形態において、図１１Ａに示す匿名化前の履歴情報を用いて、匿名化した情報を例示するテーブルを示す図である。図４Ｂは、第１の実施形態において、図１１Ｂに示す匿名化前の履歴情報を用いて、本来の性質（図１１Ｃ）の抽象度の低下が抑制されるように匿名化した結果を例示するテーブルを示す図である。図５は、本発明の第２の実施形態に係る匿名化装置における制御処理の手順を示すフローチャートである。図６は、本発明の第３の実施形態に係る匿名化装置３００の構成を示す機能ブロック図である。図７は、本発明の第３の実施形態に係る匿名化装置における制御処理の手順を示すフローチャートである。図８は、本発明の第４の実施形態に係る匿名化装置４００の構成を示す機能ブロック図である。図９は、第３の実施形態において、図１４Ｂに示す匿名化前の履歴情報を用いて、本来の性質（図１４Ｃ）の抽象度の低下が抑制されるように匿名化した結果を例示するテーブルを示す図である。図１０は、本発明の第１乃至第４の実施形態を実現可能なコンピュータ（情報処理装置）のハードウェア構成を例示的に説明する図である。図１１Ａは、匿名化前の履歴情報（２０１０年４月に関する診療履歴）に関するテーブルを例示する図である。図１１Ｂは、匿名化前の履歴情報（２０１０年５月に関する診療履歴に関するテーブルを例示する図である。図１１Ｃは、図１１Ａ及び図１１Ｂに示すデータセット間に存在する性質を表すテーブルを例示する図である。図１２Ａは、図１１Ａに示す履歴情報を匿名化した結果を例示する図である。図１２Ｂは、図１１Ｂに示す履歴情報を匿名化した結果を例示する図である。図１３は、性別を抽象化する際に利用する汎化ツリーを例示する図である。図１４Ａは、匿名化前の履歴情報（２０１０年６月に関する診療履歴）に関するテーブルを例示する図である。図１４Ｂは、匿名化前の履歴情報（２０１０年７月に関する診療履歴に関するテーブルを例示する図である。図１４Ｃは、２０１０年４月から７月までの匿名化前の履歴情報（図１１Ａ、図１１Ｂ、図１４Ａ、及び図１４Ｂに示す各データセット）間に存在する性質に関して、ユーザ識別子毎にテーブルにまとめた例を示す図である。

　以下、本発明の実施形態に関して、添付図面を参照して詳細に説明する。尚、以下の実施形態及びその説明において参照する各図において、本発明の本質に関わらない構成については一般的な技術を採用することとし、係る構成についての本実施形態における詳細な説明及び図示は省略する。

　また、上述した「発明が解決しようとする課題」欄にて参照した図１１Ａ，図１１Ｂおよび図１１Ｃに例示した関係は、以下の各実施形態においても説明の便宜を鑑み利用することとする。

　また、上述した「背景技術」欄にて説明したように、変化する事象間の特徴、遷移、プロパティ等に関して、以下に説明する各実施形態では、“性質”なる文言を用いることとする。

　＜第１の実施形態＞
　まず、本発明の第１の実施形態に係る匿名化装置について説明する。図１は、本発明の第１の実施形態に係る匿名化装置１００の構成を示す機能ブロック図である。匿名化装置１００は、レコード抽出部１０２と、匿名化部１０４とを有する。匿名化装置１００は、履歴情報１１０に基づいて匿名化を行う。本実施形態において、匿名化装置１００は、注目する履歴情報１１０に関する性質を、例えば外部装置から入手する。

　履歴情報１１０は、複数のレコードを紐付ける（関連付ける）識別子と、センシティブ情報とを含む。履歴情報１１０は、オリジナルな情報内容のままで公開や利用されることが好ましくない個人情報等の情報である。即ち、履歴情報１１０は、例えば、同じ被保険者番号をユーザ識別子として共有し、且つ異なる診療年月を持つ複数のレコードである。より具体的に、図１１Ａ及び図１１Ｂに示す例を参照する本実施形態において、履歴情報１１０は、ユーザ識別子が表すユーザを特徴づける属性として、性別、生年月日、診療年月、および傷病名を含む。これらの属性のうち、ユーザ識別子は、固有の識別子である。傷病名は、センシティブ情報である。

　レコード抽出部１０２は、ある特定の同一ユーザ識別子（共通のユーザ識別子）を持つ複数のレコード間に存在する性質の抽象化を抑制可能であり、且つ、所望の匿名性を充足可能な複数のレコードを、履歴情報１１０から抽出する。換言すると、レコード抽出部１０２は、所望の匿名性（本実施形態では“２－多様性”）を充足可能であり、且つ履歴情報１１０が持つ性質の曖昧さの小ささに基づいて、当該同一ユーザ識別子とは異なる他のユーザ識別子を与えられたレコードを抽出する。

　匿名化部１０４は、レコード抽出部１０２によって抽出された複数のレコードが有する個々の属性が、当該所望の匿名性を充足（満足）するように、それらのレコードに含まれる準識別子を抽象化する。

　本実施形態において、匿名化装置１００は、コンピュータ等の情報処理装置によって実現することができる。匿名化装置１００及び後述する他の実施形態における匿名化装置における各構成要素（機能ブロック）は、情報処理装置が備えるハードウェア資源において、コンピュータ・プログラム（ソフトウェア・プログラム：以下、単に「プログラム」と称する場合がある）が実行されることによって実現される。例えば、匿名化装置１００は、コンピュータのＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、主記憶装置、補助記憶装置等のハードウェアと、記憶装置等から主記憶装置にロードされたプログラムとが協働することによって実現される。但し、プログラムの実装形態は、図１に示したブロック構成（レコード抽出部１０２、匿名化部１０４）には限定されず、当業者が採用し得る様々な実装形態を適用可能である（以下の各実施形態においても同様）。尚、本実施形態を適用可能なハードウェア構成の例は、図１０を参照して後述する。但し、匿名化装置１００及び後述する各実施形態に係る匿名化装置は、専用の装置によって実現してもよい。

　次に、匿名化装置１００の具体的な動作について、新たに図３も参照して説明する。図３は、本発明の第１の実施形態に係る匿名化装置における制御処理の手順を示すフローチャートである。

　（レコード抽出部１０２）
　まず、レコード抽出部１０２の動作について説明する。レコード抽出部１０２は、当該所望の匿名性を充足するために必要な複数のレコードを、履歴情報１１０の中から抽出する（ステップＳ１０１）。そして、レコード抽出部１０２は、ステップＳ１０１にて抽出した複数のレコードの中から、当該性質の曖昧度が最も小さいレコードを選択する（ステップＳ１０３）。以下、これら２つのステップの処理手順について詳細に説明する。

　まず、ステップＳ１０１において、レコード抽出部１０２は、当該所望の匿名性を充足するために必要な複数のレコードを、履歴情報１１０の中から抽出する。本実施形態では、ステップＳ１０１にて抽出対象となるレコードを、“対象レコード”と称することとする。また、対象レコードに対して、当該所望の匿名性を充足するために必要となる複数のレコード（即ち、ステップＳ１０１にて抽出される複数のレコード）を、“匿名化候補レコード群”と称することとする。

　例えば、診療年月が２０１０年５月（以下、「２０１０／５」と標記する場合がある）であるレコードセット（図１１Ｂ）が履歴情報１１０である場合について説明する。そしてこの場合において、一例として、履歴情報１１０のうち、ユーザ識別子００００１（注目する特定のユーザ識別子）が関連付けされたレコードが、対象レコードである場合を考える。

　この対象レコードに関して、当該所望の匿名性としての“２－多様性”を充足するために必要な匿名化候補レコード群とは、同一の診療年月において、異なるセンシティブ情報を持つレコードである。図１１Ｂに示すレコードセットの場合、係る対象レコードのセンシティブ情報は、傷病名Ｅである。従ってこの場合、匿名化候補レコード群は、図１１Ｂに示すレコードセットにおいて、傷病名Ｅとは異なる傷病名（Ｆ，Ｇ，Ｈ）が関連付けされている複数のレコードである。よって、レコード抽出部１０２は、当該対象レコードに関する匿名化候補レコード群として、当該注目する特定のユーザ識別子とは異なるユーザ識別子００００２，００００４，００００５，００００６，００００７，００００８が関連付けされている各レコードを選択する。

　次に、ステップＳ１０３において、レコード抽出部１０２は、ステップＳ１０１にて抽出した匿名化候補レコード群の中から、各レコードが持つ性質を保存可能な複数のレコードを抽出する。本実施形態では、当該各レコードが持つ性質を保存可能なレコードを、“性質保存候補レコード”と称することとする。以下の説明では、係る性質保存候補レコードの抽出手順について詳細に説明する。

　一般に、匿名化された複数のデータセットの間に存在する性質を抽出または推定した場合、匿名化する前に存在した本来の性質は、匿名化された後には曖昧になる。例えば、図１１Ａ及び図１１Ｂに示すデータセットを対象とする場合、「発明が解決しようとする課題」欄において上述したように、一般的な匿名化技術においては、図１２Ａ及び図１２Ｂに示した如く抽象化されるため、本来有するべき性質が曖昧になる。

　即ち、図１１Ｃに示される本来の性質において、例えば、ユーザ識別子００００１なる患者に関して存在していた本来の性質「Ａ＞Ｅ」は、図１２Ａ及び図１２Ｂに示す一般的な匿名化後のデータセットにおいては「Ａ＞Ｅ、Ａ＞Ｇ、Ｂ＞Ｅ、Ｂ＞Ｇ」の如く曖昧になる。このことに関して以下においてより具体的に説明する。

　図１１Ａ及び図１１Ｂに準識別子として含まれていたユーザ識別子００００１なる患者の生年月日（１９８５／１／１）は、図１２Ａ及び図１２Ｂにそれぞれ示す如く、一般的な匿名化により、期間（１９７６～１９８５年）に変換される。即ち、係る変換により、当該患者の生年月日は、時間的な範囲を表す期間として抽象化された結果、変換前と比較して曖昧になる。上述したように、ユーザ識別子は、匿名化されたデータセット（図１２Ａ及び図１２Ｂ）が利用者に提供される際には削除される。従って、匿名化されたデータセットだけを注目した場合、係る変換の結果、図１２Ａ（診療年月２０１０／４）において当該期間（１９７６～１９８５年）に傷病名Ａを含んでいたレコードは、図１２Ｂ（診療年月２０１０／５）では、当該同期間に関する２つのレコードに含まれる傷病名ＥとＧとを、性質として持つことになる。即ち、傷病名Ａに関する性質は、「Ａ＞Ｅ、Ａ＞Ｇ」である。

　更にこの場合、係る変換の結果、図１２Ａ（診療年月２０１０／４）においても、当該期間（１９７６～１９８５年）に関するレコードは、傷病名Ａを含んでいるレコードだけでなく、新たに傷病名Ｂを含んでいるレコードも対象となる。その結果、傷病名Ｂに関しても、図１２Ｂ（診療年月２０１０／５）において当該同期間に関する２つのレコードに含まれている傷病名ＥとＧとを性質として持つことになる。即ち、傷病名Ｂに関する性質は、「Ｂ＞Ｅ、Ｂ＞Ｇ」である。

　このように、図１１Ａ及び図１１Ｂと、図１２Ａ及び図１２Ｂとを例にした一般的な匿名化の場合、匿名化前に本来有していた１つの性質（Ａ＞Ｅ）は、一般的な匿名化においては、匿名性の充足のために、上記の如く４つの性質（Ａ＞Ｅ、Ａ＞Ｇ、Ｂ＞Ｅ、Ｂ＞Ｇ）が推測されるまでに曖昧になってしまう。但し、曖昧化された性質のうち、「Ｂ＞Ｇ」は、図１１Ｃに示すように、ユーザ識別子００００２が持つ性質である。従って、上述した例では、本来２つの性質（Ａ＞Ｅ、Ｂ＞Ｇ）が、係る４つの曖昧な性質に抽象化されたことになる。

　このような一般的な匿名化に対して、本実施形態では、匿名化を実施した際に生じる性質の曖昧度（曖昧さの程度）を求める。

　即ち、図１２Ｂ（診療年月２０１０／５）に示す、ユーザ識別子００００１に関するレコードを、準識別子である生年月日を基に求めた期間が同じユーザ識別子００００２に関するレコードを用いて、１つのグループとしてまとめる。本実施形態では、このグループを、“匿名グループ”と称することとする。係る匿名グループを形成（生成）することにより、匿名化を実施した際の性質の曖昧度は、匿名化後に類推される性質の種類数と、匿名化前の本来の性質の種類数との差異（差分）によって求めることができる。

　但し、係る曖昧度の算出方法は、上記の差分を用いる方法には限定されない。例えば、係る曖昧度は、匿名化前の性質の種類数を基にした場合の、匿名化後に類推される性質の種類数の増加率を算出しても得ることができる。図１１Ａ及び図１１Ｂと、図１２Ａ及び図１２Ｂとを参照した上記の例の場合、係る曖昧度は、差分によって求めた場合は２（＝４－２）である。また、増加率によって求めた曖昧度は、２（２００％＝４／２）である。以下の説明では、差分によって曖昧度を導出する場合を例に説明する。

　ステップＳ１０３において、レコード抽出部１０２は、上記の如く求めた匿名化候補レコード群から、匿名化後の性質の曖昧度が小さい複数のレコードを抽出する。即ち、図１１Ｂに示すレコードセットにおいて、ユーザ識別子００００１を持つレコードを対象レコードした場合、ステップＳ１０３では、図１１Ｂにてユーザ識別子が００００５と００００７とを持つ２つのレコードが性質保存候補レコードとして抽出される。ここでこの抽出方法について更に説明を加える。

　即ち、上記の例の如く２－多様性を充足する場合、レコード抽出部１０２は、まず、ステップＳ１０１において、図１１Ｂに示すユーザ識別子００００１に関するレコード（対象レコード）の匿名化候補レコード群として、ユーザ識別子００００２，００００４，００００５，００００６，００００７，００００８に関する各レコードを抽出する。換言すれば、レコード抽出部１０２は、同一の診療年月（図１１Ｂに示す２０１０／５）に、当該ユーザ識別子００００１に関するセンシティブ情報（即ち、傷病名Ｅ）とは異なるセンシティブ情報を持つ複数のレコードを選択する訳である。よってこの場合、ユーザ識別子０００３に関するレコードは、対象レコードとしてのユーザ識別子０００１に関するレコードと同じセンシティブ情報を有するため、匿名化候補レコード群から除外される。

　そして、レコード抽出部１０２は、ステップＳ１０３において、係る匿名化候補レコード群をなす個々のレコードに対して、当該対象レコードと共に匿名グループを形成した場合における性質の曖昧度を算出する。そしてこの場合、ユーザ識別子００００２、００００４、００００６、００００８に関するレコードに関して順に、当該対象レコードとの匿名グループを形成した場合を考えると、上述した差分を基に算出できる曖昧度は２である。また、残る２つのユーザ識別子００００５、００００７に関するレコードに関して順に、当該対象レコードとの匿名グループを生成した場合を考えると、上述した差分を基に算出できる曖昧度は０である。

　そして、上記の如く算出した曖昧度は、本来の性質を維持するためには小さい方がよい。このため、レコード抽出部１０２は、ステップＳ１０３において、図１１Ｂにてユーザ識別子００００１を持つレコードを対象レコードとした場合、性質保存候補レコードとして、ユーザ識別子００００５、００００７に関する２つのレコードを選択する。このとき選択されたこれらのレコードは、現在注目しているユーザ識別子（特定の固有識別子）を有するレコード００００１と共に抽象化されるべきところの、異なる他の固有識別子を有するレコードのうち、抽象化後に推測され得る曖昧さが最も小さいレコードである。

　上述した例では、１つの対象レコードを匿名化する場合に関して、性質の曖昧度の小ささを基準として性質保存候補レコードを選択する処理構成を説明した。しかしながら、本実施形態を例として説明する本発明は、この処理構成には限定されず、例えば、２つ以上の対象レコードを処理対象とすることもできる。この場合、レコード抽出部１０２は、２つ以上の対象レコードと、それらの対象レコードを基に求めることができる複数種類の匿名化候補レコード群との曖昧度を算出する。そして、レコード抽出部１０２は、算出した結果の中から、抽象度が小さいレコードを、係る各対象レコードに関する性質保存候補レコードとして抽出してもよい。

　（匿名化部１０４）
　次に、匿名化部１０４の動作について説明する。匿名化部１０４は、ステップＳ１０３にて選択された複数のレコード（性質保存候補レコード）の中から、匿名グループを形成する複数のレコードを抽出する（ステップＳ１０５）。そして、匿名化部１０４は、ステップＳ１０５にて抽出した複数のレコード（即ち、匿名グループ）を対象として、準識別子の匿名化を行う（ステップＳ１０７）。即ち、ステップＳ１０７において、匿名化部１０４は、注目する匿名グループに属する複数のレコードにそれぞれ含まれる準識別子を抽象化する。以下、これら２つのステップの処理手順について詳細に説明する。

　まず、ステップＳ１０５において、匿名化部１０４は、現在注目している対象レコードと共に匿名グループを形成するレコードを、ステップＳ１０３にて求めた性質保存候補レコード群から選択する。ここでは、対象レコードとしてユーザ識別子００００１に関するレコードに注目しており、この場合、上述したレコード抽出部１０２（ステップＳ１０１，ステップＳ１０３）により、性質保存候補レコードとして、ユーザ識別子００００５、００００７を持つレコードが選択された。

　上記の場合において、充足すべき所望の匿名性は２－多様性であるため、ユーザ識別子００００５と００００７とに関するレコードの何れかを選択すればよい。但し、所望の匿名性を充足可能であれば、レコード選択に際しての基準、指標、並びに観点は、前述した例には限定されない。一例としては、匿名化後の準識別子を、匿名化前の準識別子と比較した場合の曖昧度を評価し、その評価の結果、曖昧度が最小となるレコードを抽出する方法が想定される。そしてこの場合、曖昧度が最小となるためには、これら２つのレコードのうち、準識別子としての生年月日を期間に変換した場合に、変換後の期間が短くなる方のレコードを選択すればよい。

　即ち、図１１Ｂに示す生年月日に注目した場合、ユーザ識別子００００１なる患者の生年月日を基準として、ユーザ識別子００００５及び００００７なる各患者の生年月日と差異によって表される期間を考えると、ユーザ識別子００００５の場合における期間の方が、ユーザ識別子００００７の場合の期間と比較して短いことが判る。従って、匿名化部１０４は、当該対象レコード（ユーザ識別子００００１に関するレコード）が匿名グループを形成するために、ユーザ識別子００００５に関するレコードを選択する。

　次に、ステップＳ１０７において、匿名化部１０４は、上記の如くステップＳ１０５にて当該対象レコードに関して形成された匿名グループについて、その匿名グループを構成している複数のレコードにそれぞれ関連付けされている準識別子の抽象化を実施する。ここでは、準識別子の抽象化の一般的な例として、係る準識別子の汎化（一般化）によって抽象度を最小にする場合について説明する。

　図４Ａは、第１の実施形態において、図１１Ａに示す匿名化前の履歴情報を用いて、匿名化した情報を例示するテーブルを示す図である。図４Ｂは、第１の実施形態において、図１１Ｂに示す匿名化前の履歴情報を用いて、本来の性質（図１１Ｃ）の抽象度の低下が抑制されるように匿名化した結果を例示するテーブルを示す図である。

　図４Ａ及び図４Ｂにおいて、破線で示す範囲は、図１２Ａ及び図１２Ｂの場合と同様に、匿名化された情報の利用者に提供される場合は開示されない情報であり、説明の便宜上から示されている。従って、匿名化装置１００は、利用者への提供前であれば、図４Ａ及び図４Ｂに破線及び実線で示した枠で示される全体的なデータ構造を保存していてもよい。

　図４Ｂに示すように、診療年月２０１０／０５に関するテーブル中におけるユーザ識別子００００１及び００００５に関するレコードは、匿名グループ（ＩＩ－Ｉ）を形成している。

　匿名化前の状態を示す図１１Ｂにおいて、ユーザ識別子００００１の準識別子（性別、生年月日）は（女性，１９８５／１／１）である。一方、ユーザ識別子００００５の準識別子は、図１１Ｂにおいて、（女性，１９７６／５／５）である。匿名化部１０４は、これらの準識別子を汎化によって抽象化し、抽象化した準識別子を匿名化後の双方のレコードに付与する。

　即ち、本実施形態における抽象化は、一例として、汎化によって行われる。汎化により、詳細な情報（具体的なカテゴリ値）から、曖昧な情報に変換することができる。即ち、本実施形態における、図１１Ｂに示すレコードから図４Ｂに示すレコードへの汎化において、性別は、図１３に示された汎化ツリーに基づいて抽象化される。そして、生年月日は、具体的な値から、特定の年月日が曖昧にされた期間に変換される。

　より具体的に、ユーザ識別子００００１及び００００５を持つ２つのレコードは、共に性別が「女性」であり、図１３に示すような汎化ツリーが表す階層に基づいて、抽象化後も「女性」となる。一方、具体的な数値である生年月日は、ユーザ識別子００００１なる患者の生年月日を表す値と、ユーザ識別子００００５なる患者の生年月日を表す値とを包含する最小の範囲（期間）が選択される。そして、本実施形態では、選択された最小の範囲から、更に“月”及び“日”を表す情報を切り捨てる。これにより、匿名グループ（ＩＩ－Ｉ）をなす当該２名の患者の生年月日は、図４Ｂに示すように、抽象化後には、「１９７６～１９８５年」なる“年”だけからなる範囲へと変換される。このような抽象化処理を通して、匿名化部１０４は、ステップＳ１０７において、ユーザ識別子００００１及び００００５なる２名の患者の診療年月２０１０／０５に関するレコードから、準識別子「（女性，１９７６～１９８５年）」を有するレコードを生成する。

　即ち、匿名化装置１００は、このような一連の手順を、対象レコードを順次変更しながら実行することにより、図４Ｂに示す匿名グループＩＩ－Ｉ乃至ＩＩ－ＩＶを得る。また、匿名化装置１００は、上述した一連の手順と同様な手順により、履歴情報１１０として
例えば、２０１０年３月に関する診療履歴（不図示）と、２０１０年４月に関する診療履歴（図１１Ａ）に基づいて、図４Ａに示す匿名グループＩ－Ｉ乃至Ｉ－ＩＶを得る。

　ここで、上述した実施形態では、説明を容易にすべく、例えば、５月に関する匿名化の結果（図４Ｂ）を得るために、４月及び５月に関する診療履歴（図１１Ａ及び図１１Ｂ）を参照する処理を説明した。しかしながら、本実施形態を例に説明する本発明は、係る処理構成には限定されない。より具体的に、本実施形態では、特定単位の履歴情報の一例として、説明の便宜上から、月別（月単位）の履歴情報を採用し、且つ時間の経過に従ってｎ月及び（ｎ＋１）月（但しｎは１から１１までの整数）に関する履歴情報を参照した。しかしながら、本発明は、時間の経過に伴う性質に注目する場合であっても、係る月単位の履歴情報には限定されず、例えば、ある時間帯、週、年等のように、所望の特定単位を扱うことができる。

　更に、本発明は、例えば、時間の経過に伴う月単位の性質に注目する場合であっても、上述した本実施形態の如くｎ月及び（ｎ＋１）月に注目することには限定されない。即ち、本発明は、ｎ月と、（ｎ＋２）月あるいは（ｎ＋３）月とに注目する等のように、連続しない所望の複数月に注目してもよい。また、本発明は、例えば、月単位の性質に注目する場合において、時間の経過順には限定されず、注目する履歴情報として、匿名化したい所望の月よりも前の、所望の月に関する履歴情報を参照してもよい。

　但し、ステップＳ１０７における抽象化の方法には、汎化や摂動化など様々な方法を採用することができるので、本発明は図４Ｂに示した抽象化の具体例には限定されない。

　このように、匿名化装置１００は、診療年月２０１０／０４及び２０１０／０５の各レコードセットに対して上述した一連の手順を施すことにより、図４Ａ及び図４Ｂに示す２つの匿名化テーブルを生成する。これらの匿名化テーブルは、図１１Ａ及び図１１Ｂに示す各データセットに対して、図１１Ｃに示す本来の性質を可能な限り保存しながら、２－多様性を充足する匿名化を実施したデータセットである。

　即ち、本実施形態に係る特徴的な手順によって生成された２つの匿名化テーブル（図４Ａ及び図４Ｂ）の間には、「Ａ＞Ｅ」、「Ａ＞Ｆ」、「Ｂ＞Ｅ」、「Ｂ＞Ｇ」、「Ｃ＞Ｆ」、及び「Ｃ＞Ｈ」なる６つの性質が推測できる。これらの性質は、「発明が解決しようとする課題」欄において図１２Ａ及び図１２Ｂを参照して説明した一般的な匿名化による結果から推測できる性質（８つ）よりも、匿名化前の本来の性質（４つ：図１１Ｃ）に近い性質である。

　従って、本実施形態に係る匿名化装置１００によれば、履歴情報を匿名化する際に、同一の識別子を持つ複数のレコード間に存在する本来の性質を最大限維持した状態で、最適且つ十分な匿名化を行うことができる。即ち、本実施形態によれば、所望の匿名性を満たしながらも、同一のユーザ識別子を共有する複数のレコード間に存在する多くの性質を保存したデータセットを提供することができる。そして本実施形態によれば、匿名化を行ったデータセットを用いて分析等を行う場合に、元データが持つ本来の性質を多く保存することができる。よって、本実施形態によれば、一般的な匿名化技術を利用した場合に発生する誤った性質による分析結果等におけるご認識の可能性を大きく軽減することができる。

　ここで、上述した本実施形態における一連の匿名化処理を、一般化した場合について説明を加える。この場合、ある固有識別子（ユーザ識別子）をもつレコードｒｉを匿名化する場合について考える。このレコードｒｉは、共通の（同一の）固有識別子を持つレコードｒｊとの間に何らかの性質を持つものとする。ここでは、レコードｒｉとレコードｒｊとの間に存在する当該性質は、ｐｉｊと表す。

　所望の匿名性を満たすために、ある固有識別子をもつレコードｒｉの準識別子は、他の固有識別子を持つレコードの準識別子と区別が困難になるように加工（即ち、抽象化）が施される。抽象化の一例としては、同一の準識別子を有するレコードｒｉと、他の固有識別子を持つ１つ以上のレコードに割り当てる方法がある。また、抽象化に際して、加工対象の複数のレコードが有する準識別子の値域は、以下の何れの場合であってもよい。

　（１）一方のレコードの値域が他方のレコードの値域を完全に含んでいる場合、或いは、
　（２）一方のレコードの値域と、他方のレコードの値域とが部分的に重複している場合。

　そして、レコードｒｉが有する準識別子と抽象化によって共通性を持つようになる他のレコードの数や種類は、満足しようとする匿名性（ｋ－匿名性やｌ－多様性等）に応じて決定される。

　本実施形態では、ある固有識別子をもつレコードｒｉと他の固有識別子を持つ複数のレコードとに対して抽象化を施すに際して、性質ｐｉｊができるだけ曖昧にならないように抽象化する。このような抽象化を実現するために、本実施形態では、ある固有識別子をもつレコードｒｉと共に抽象化されるべきところの、他の固有識別子を持つレコードを、抽象化後に推測され得る複数種の性質間の曖昧さの小ささに基づいて選択する。

　ここで、匿名化後に推測され得る複数種の性質間の曖昧さは、例えば、匿名化後に推測される性質の数や、推測される複数の性質の間における地理的な距離、或いは、意味的な距離等によって測定することができる。よって、係る曖昧さは、特定の測定方法には限定されない。

　そして、本実施形態において、係るレコードｒｉと共通の準識別子を割り当てられるレコードには、ｐｉｊと類似する性質を持ち、且つ匿名化後に推測される複数種の性質の曖昧さが小さくなるようなレコードが選ばれる。係る選択において得られる複数のレコードを、上述した匿名化装置１００においては、“匿名グループ”と称している。

　最後に、本実施形態では、係るレコードｒｉと、選択された複数のレコードとを処理対象とする抽象化を行う。抽象化の具体的な方法には、元の値よりも抽象的な概念を持つ値に変換する汎化やノイズを付加する摂動化等を採用することができる。よって、抽象化は、所望の匿名性を充足できれば何れの方法を利用してもよく、且つ複数種類の方法の組み合わせを採用してもよい。

　即ち、このような特徴的な処理を採用する本実施形態によれば、履歴情報を匿名化する際に、同一の識別子を持つ複数のレコード間に存在する本来の性質を最大限維持した状態で、最適且つ十分な匿名化を行うことができる。

　＜第２の実施形態＞
　次に、上述した第１の実施形態を基本とする第２の実施形態について説明する。以下の説明においては、本実施形態に係る特徴的な部分を中心に説明すると共に、上述した第１の実施形態と同様な構成についての重複する説明は省略する。

　図２は、本発明の第２の実施形態に係る匿名化装置２００の構成を示す機能ブロック図である。匿名化装置２００は、レコード抽出部２０２、匿名化部２０４、元データ格納部２０６、性質分析部２０８、匿名性入力部２１０、及びデータ格納部２１２を有する。

　図５は、本発明の第２の実施形態に係る匿名化装置における制御処理の手順を示すフローチャートである。即ち、本実施形態に係る匿名化装置２００は、第１の実施形態に係る図３に示すフローチャートにおけるステップＳ１０１～ステップＳ１０７と同様な処理ステップＳ２０３～ステップＳ２０９に先だって、ステップＳ２０１を実行する。このステップＳ２０１は、以下に説明する元データ格納部２０６及び性質分析部２０８によって実現される処理である。

　即ち、元データ格納部２０６は、外部から取得した履歴情報１１０を格納することができる。履歴情報１１０には、１つ以上の同じユーザ識別子を持つレコードが存在すると仮定する。本実施形態においても、個々の履歴情報１１０には、少なくとも、ユーザ識別子、準識別子、センシティブ情報が含まれており、例えば、図１１Ａ及び図１１Ｂに示すレコードセットのような情報である。

　そして性質分析部２０８は、元データ格納部２０６に格納された履歴情報１１０を元データ格納部２０６から読み出し、読み出した履歴情報であるデータセット（図１１Ａ及び図１１Ｂ）を構成する複数のレコードを分析することにより、個々のレコード間に存在する性質を抽出する。性質分析部２０８が行う分析としては、例えば、係るデータセットをなす複数のレコード間における属性値の共起分析、相関分析、回帰分析、時系列分析等の様々なデータマイニング、統計分析の手法が想定される。本実施形態では、第１の実施形態と同様に、時系列分析の場合を例に説明する。

　即ち、元データ格納部２０６は、例えば図１１Ａ及び図１１Ｂに例示するデータセットを分析対象とする場合、上述した図１１Ｃに示す性質を導出することができる。

　レコード抽出部２０２は、上述した第１の実施形態におけるレコード抽出部１０２と略同様に、履歴情報１１０の中から、匿名化候補レコード群を抽出する（ステップＳ２０３）。そして、レコード抽出部２０２は、上述した第１の実施形態におけるレコード抽出部１０２と同様に、匿名化候補レコード群の中から、性質保存候補レコードを抽出する（ステップＳ２０５）。但し、レコード抽出部２０２は、性質保存候補レコードの抽出に際して、匿名性入力部２１０から入力された匿名性を充足しつつ、且つ、性質分析部１０４によって抽出した性質の曖昧さの小ささに基づいて、他のユーザ識別子を持つレコードを、当該性質保存候補レコードとして抽出する。

　匿名性入力部２１０には、匿名化部２０４による匿名化後のデータセットが満たすべき匿名性に関する情報を外部から設定することができる。

　匿名化部２０４は、上述した第１の実施形態における匿名化部１０４と略同様に、レコード抽出部２０２にて抽出された性質保存候補レコードに基づいて、匿名グループを形成する（ステップＳ２０７）。そして、匿名化部２０４は、上述した第１の実施形態における匿名化部１０４と略同様に、係る匿名グループを形成する複数のレコードが有する準識別子を抽象化する（ステップＳ２０９）。但し、匿名化部２０４は、抽象化に際して、匿名性入力部２１０にて設定された匿名性を充足するように処理を実行する。そしてデータ格納部２１２は、匿名化部２０４が生成した匿名化データを格納することができる。

　このような本実施形態に係る匿名化装置２００によっても、第１の実施形態と同様に、履歴情報を匿名化する際に、同一の識別子を持つ複数のレコード間に存在する本来の性質を最大限維持した状態で、最適且つ十分な匿名化を行うことができる。

　特に、第２の実施形態によれば、履歴情報１１０が持つ性質を性質分析部２０８においいて分析することができる。このため、本実施形態によれば、係る分析によって抽出された性質の抽象度を低く抑えた匿名化を実現することができる。

　＜第３の実施形態＞
　次に、上述した第１及び第２の実施形態を基本とする第３の実施形態について説明する。以下の説明においては、本実施形態に係る特徴的な部分を中心に説明すると共に、上述した第１及び第２の実施形態と同様な構成についての重複する説明は省略する。

　図６は、本発明の第３の実施形態に係る匿名化装置３００の構成を示す機能ブロック図である。本実施形態に係る匿名化装置３００は、レコード抽出部３０２、匿名化部３０４、元データ格納部３０６、性質分析部３０８、匿名性入力部３１０、データ格納部３１２、及び重要性評価部３１４を有する。即ち、本実施形態に係る匿名化装置３００は、第２の実施形態に係る匿名化装置２００の構成に加えて、重要性評価部３１４を更に有するという構成が第２の実施形態と異なる。その他の構成については、匿名化装置２００が備える同じ名称の各部と同様であるため、本実施形態における説明は省略する。

　但し、以下に説明する第３の実施形態に係る匿名化装置３００の変形例として、元データ格納部３０６、匿名性入力部３１０、及びデータ格納部３１２の少なくとも何れかを有していない装置構成も想定される。

　上述した実施形態において扱った複数種類の性質は、性質毎に重要性が異なる場合がある。例えば、「ある傷病になったユーザは、高い確信度で他の傷病になる」という性質や、「ある傷病になったユーザは、そうでないユーザよりも、特定の傷病になる可能性が非常に高い」という性質を表す情報は、その他の性質と比較して重要性が高いと言える。そこで、本実施形態では、全ての種類の性質を保存することが難しい場合に、重要性評価部３１４により、個々の性質の重要性を評価する。即ち、本実施形態に係る匿名化装置３００は、評価した重要性に基づいて、保存すべき性質を決定し、与えられた匿名性の制約内で、重要な性質を可能な限り充足できるように匿名グループを生成する。

　図７は、本発明の第３の実施形態に係る匿名化装置における制御処理の手順を示すフローチャートである。即ち、本実施形態に係る匿名化装置３００は、第２の実施形態係る図５に示すフローチャートにおけるステップＳ２０１～ステップＳ２０９と略同様な処理ステップＳ３０１、ステップＳ３０７～ステップＳ３１３を行うと共に、更に、ステップＳ３０１とステップＳ３０７との間において新たにステップＳ３０３及びステップＳ３０５を実行する。これらステップＳ３０３及びステップＳ３０５は、重要性評価部３１４によって実現される処理である。

　即ち、ステップＳ３０１において、性質分析部３０８は、第２の実施形態におけるステップＳ２０１と同様に、元データ格納部３０６に格納されていた履歴情報１１０から、各ユーザ識別子に関するレコードが持つ複数の性質を抽出する。

　次に、ステップＳ３０３において、重要性評価部３１４は、ステップＳ３０１にて抽出された当該複数の性質に対して、その重要性を評価する。そして、ステップＳ３０５において、性質重要性評価部３１４は、その評価の結果を基に、当該複数の性質の中から重要性の高い性質を抽出して、抽出した性質を、レコード抽出部３０２へ通知する。

　レコード抽出部３０２及び匿名化部３０４によるステップＳ３０７以降の処理は、第２の実施形態において図５に示すステップＳ２０５以降の処理と同様である。但し、ステップＳ３０７において、レコード抽出部３０２は、性質を保存可能な他のユーザ識別子を持ったレコードを抽出するに際して、重要性評価部３１４がステップＳ３０５にて抽出した重要性の高い性質が保存可能な、他のユーザ識別子を持ったレコードを抽出する。

　ここで、重要性評価部３１４について更に説明する。重要な性質の一例として、ある条件下において、他の条件下よりも頻繁に出現する性質が挙げられる。このとき、性質の重要性を表す指標としては、例えば、確信度（Ｃｏｎｆｉｄｅｎｃｅ）やリフト値、エントロピーなどがある。この確信度とは、ある条件下で、ある事象が発生する条件付きの確率を表す。リフト値は、ある条件を持つ場合と、持たない場合とで、どれだけ特定の事象が発生し易くなるかを表す。エントロピーは、特定の事象の発生がどれだけ稀であるかを表す。本実施形態では、確信度の高い性質を重要な性質として扱う。

　図１４Ａは、匿名化前の履歴情報（２０１０年６月に関する診療履歴）に関するテーブルを例示する図である。図１４Ｂは、匿名化前の履歴情報（２０１０年７月に関する診療履歴に関するテーブルを例示する図である。これらのテーブルは、図１１Ａ及び図１１Ｂに示したテーブルと同様な複数のユーザ識別子について、異なる診療年月のレコードがまとめられている。

　そして、図１４Ｃは、２０１０年４月から７月までの匿名化前の履歴情報（図１１Ａ、図１１Ｂ、図１４Ａ、及び図１４Ｂに示す各データセット）間に存在する性質に関して、ユーザ識別子毎にテーブルにまとめた例を示す図である。

　本実施形態において、重要性評価部３１４は、ステップＳ３０３において、図１４Ｃに例示されるこれらの性質を対象として、それぞれの性質についての出現頻度と確信度とを評価する。ここで、係る個々の性質のうち、最も右側に記載されているデータを結論パート、それ以外の部分を前提パートとする。例えば、性質「Ｂ＞Ｇ＞Ｘ」の場合、前提パートは「Ｂ＞Ｇ」であり、結論パートが「Ｘ」である。確信度は、前提パートが出現するときに、結論パートが出現する割合を表す指標である。前提パート「Ｂ＞Ｇ」が出現するときに結論パート「Ｘ」が出現する割合は１００％である。係る性質「Ｂ＞Ｇ＞Ｘ」は、図１４Ｃにおいて、ユーザ識別子００００２及び００００４に関して出現するため、出現頻度は２である。

　ここで、２０１０年７月に関するデータセット（図１４Ｂ）を匿名化する場合、２０１０年７月のセンシティブ情報（傷病名）を結論パートとする性質を、保存すべき性質とする。図１４Ｃに示すユーザ識別子００００２については、「Ｂ＞Ｇ＞Ｌ＞Ｘ」、「Ｇ＞Ｌ＞Ｘ」、「Ｂ＞Ｇ＞Ｘ」、「Ｂ＞Ｘ」、「Ｇ＞Ｘ」、及び「Ｌ＞Ｘ」が、保存すべき性質として抽出される。

　まず、重要性評価部３１４は、図１４Ｃに示す個々の性質を、前提パートの出現頻度によって評価する。ここでは、同じ性質が２回以上出現することを閾値とする。そして、重要性評価部３１４は、この閾値以上の性質を保存の対象とする。即ち、重要性評価部３１４は、図１４Ｃに示すユーザ識別子００００２の場合、「Ｂ＞Ｇ＞Ｘ」、「Ｂ＞Ｘ」、及び「Ｇ＞Ｘ」なる３つの性質を、当該閾値を基準として抽出する。

　続いて、重要性評価部３１４は、確信度に基づいて性質を評価し、その評価の結果、最も確信度が高い性質を抽出する。上記３つの性質について、確信度は、それぞれ「Ｂ＞Ｇ＞Ｘ：１００％」、「Ｂ＞Ｘ：１００％」、「Ｇ＞Ｘ：１００％」である。このように確信度が最大の性質が複数存在する場合、重要性評価部３１４は、係る性質の長さや性質の出現頻度の高さに基づいて、注目する当該複数の性質を評価し、保存すべき性質として何れか一つを決定（選定）する。

　即ち、図１４Ｃに示すユーザ識別子００００２について性質の長さに基づいて評価を行う場合、「Ｂ＞Ｇ＞Ｘ」は長さが３であり、「Ｂ＞Ｘ」及び「Ｇ＞Ｘ」は、長さ２である。できるだけ長い性質が重要（有用）であると仮定する場合、重要性評価部３１４は、図１４Ｃに示すユーザ識別子００００２によって特定される患者の２０１０年７月に関するレコードが保存すべき性質として、「Ｂ＞Ｇ＞Ｘ」を選定する。

　このように、本実施形態によれば、ユーザ識別子ごとに確信度や出現頻度、長さなどを考慮して性質の重要性を測り、最も重要な性質を決定することができる。

　次に、重要性評価部３１４は、ステップＳ３０５において、ユーザ識別子００００２、００００４、００００６、００００８を持つレコードに対しては、これらのレコードに関して抽出された性質が最も重要性の高い性質として抽出する。そして、本実施形態では、ステップＳ３０７以降の処理において、係る最も重要性の高いこの性質を保存しながら、上述した第１および第２の実施形態と同様に匿名グループを生成する。これにより、診療年月が２０１０／０７である複数のレコードは、図９に示す如く匿名化が施される。

　即ち、第３の実施の形態におけるレコード抽出部３０２は、第１及び第２の実施形態と同様に、保存すべき性質の曖昧化を抑制するような匿名グループを形成する。例えば、レコード抽出部３０２は、ユーザ識別子００００１によって特定される患者の２０１０年７月に関するレコード（図１４Ｂ）に対しては、２－多様性を充足するために、異なる傷病名を、係る２０１０年７月に関するレコードから抽出する。この場合、係る抽出に際しての候補を考えると、ユーザ識別子００００１以外のすべてのユーザ識別子を持つレコードが該当する。

　次に、レコード抽出部３０２がユーザ識別子００００１と各ユーザ識別子のレコードとによって匿名グループを形成する場合について、重要性評価部３１４は、性質の曖昧度を評価する。曖昧度の評価は、例えば、第１の実施形態における曖昧度の評価と同様に実施すればよい。

　本実施形態では、このような手順を経て、例えば、匿名化部３０４がユーザ識別子００００１に関するレコードを対象レコードとして匿名グループ（ＩＩＩ－ＩＩＩ）を形成する場合に注目すると、ユーザ識別子００００３を持つレコードが曖昧度最小のレコードとして選択される。

　図９は、第３の実施形態において、図１４Ｂに示す匿名化前の履歴情報を用いて、本来の性質（図１４Ｃ）の抽象度の低下が抑制されるように匿名化した結果を例示するテーブルを示す図である。

　第３の実施形態に係る匿名化装置３００は、重要性評価部３１４を用いて、性質の重要性を評価することで、共通のユーザ識別子を与えられた複数のレコードが持つ複数種の性質の中から、重要性の高い性質を保存しながら匿名グループを生成し、生成した匿名グループを基に匿名化を施すことができる。

　このように本実施形態によれば、所望の匿名性を満たしながらも、同一のユーザ識別子を共有する複数のレコード間に存在する多くの性質を保存したデータセットを提供することができる。

　特に、第３の実施形態によれば、注目する時系列な性質が４月から７月という第１の実施形態の場合よりも長い期間において履歴情報１１０が複数の性質を持つ場合に、係る複数の性質の中から重要性の高い性質に関して、抽象度を低く抑えた状態で適切な匿名化を実現することができる。従って、本実施形態に係る匿名化装置３００によれば、上記の如く生成した匿名グループに基づき匿名化を実施することで、匿名性を保証すると共に、重要な性質をも同時に保存することができる。

　＜第４の実施形態＞
　次に、上述した第１乃至第３の実施形態を基本とする第４の実施形態について説明する。以下の説明においては、本実施形態に係る特徴的な部分を中心に説明すると共に、上述した第１乃至第３の実施形態と同様な構成についての重複する説明は省略する。

　図８は、本発明の第４の実施形態に係る匿名化装置４００の構成を示す機能ブロック図である。本実施形態に係る匿名化装置４００は、レコード抽出部４０２、匿名化部４０４、元データ格納部４０６、性質分析部４０８、匿名性入力部４１０、データ格納部４１２、重要性評価部４１４、及び性質保持要求受付部４１６を有する。即ち、本実施形態に係る匿名化装置４００は、第３の実施形態に係る匿名化装置３００の構成に加えて、性質保持要求受付部４１６を更に有するという構成が第３の実施形態と異なる。その他の構成については、匿名化装置３００が備える同じ名称の各部と同様であるため、本実施形態における説明は省略する。

　但し、以下に説明する第４の実施形態に係る匿名化装置４００の変形例として、元データ格納部４０６、匿名性入力部４１０、及びデータ格納部４１２の少なくとも何れかを有していない装置構成も想定される。

　第４の実施形態では、予め保存すべき性質が明らかな場合に、その性質が保存されるように匿名グループを形成する。匿名化装置４００は、保存したい性質を、性質保持要求受付部４１６を用いて、外部からの要求として受け付けることができる。

　即ち、性質保存要求受付部４１６には、データファイルや、ＧＵＩ（Ｇｒａｐｈｉｃａｌ　Ｕｓｅｒ　Ｉｎｔｅｒｆａｃｅ）等の入力インタフェースを介して入力された、保存したい性質を表す情報を、受け付けることが可能であると共に、その情報を格納することができる。係る保存したい性質を表す情報としては、コンピュータが扱える形式であれば、本実施形態を例に説明する本発明において、入力の方法や、形式、格納方式、通信方式は何ら限定されない。ここでは、一例として、保存したい性質を列挙したファイルに、「Ａ＞Ｅ」「Ａ＞Ｆ」「Ａ＞Ｚ」が記載されているとする。

　重要性評価部４１４は、性質保存要求受付部４１６に入力された性質を検出するのに応じて、検出した性質を、満足すべき重要な性質として抽出する。一方、重要性評価部４１４は、係る性質の存在を検出しない場合、上述した第３の実施形態における重要性評価部３１４と同様の動作を行う。

　第３の実施形態において参照した図１４Ｃを本実施形態においても参照する。図１４Ｃに示される４月から７月までのデータセット（図１１Ａ、図１１Ｂ、図１４Ａ，図１４Ｂ）間には、性質保存要求受付部４１６に入力された性質「Ａ＞Ｅ」及び「Ａ＞Ｆ」が存在する。このため、本実施形態では、重要性評価部４１４により、これらの重要性が高く設定される。図１４Ｃにおいて、性質「Ａ＞Ｚ」は存在しないため、重要視されない。例えば、確信度に基づいて重要性を評価する場合、一例としては、ｇ＝αｃのような重要性評価式を用いて評価することができる。ここで、ｇは重要性を増幅する係数、ｃは確信度を増幅する係数、そしてαは重要性を増幅する係数とする。

　重要性評価部４１４は、性質保存要求受付部４１６に入力された性質と同じ性質に対しては、例えばα＝２と設定し、異なる性質に対してはα＝０．５と設定することにより、性質保存要求受付部４１６に入力された性質の重要性を高く評価する。

　特に、第４の実施形態によれば、履歴情報が持つ１つ以上の性質の中から、外部から与えられた性質の抽象度を低く抑えた状態で履歴情報の匿名化を実現することができる。

　（ハードウェアの構成例）
　ここで、上述した各実施形態に係る装置を実現可能なハードウェアの構成例について説明する。図１０は、本発明の第１乃至第４の実施形態を実現可能なコンピュータ（情報処理装置）のハードウェア構成を例示的に説明する図である。

　図１０に示した情報処理装置（コンピュータ）１０００のハードウェアは、ＣＰＵ１１、通信インタフェース（Ｉ／Ｆ）１２、入出力ユーザインタフェース１３、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）１４、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）１５、記憶装置１７、及びコンピュータ読み取り可能な記憶媒体１９のドライブ装置１８を備え、これらがバス１６を介して接続された構成を有する。入出力ユーザインタフェース１３は、入力デバイスの一例であるキーボードや、出力デバイスとしてのディスプレイ等のマンマシンインタフェース（ユーザインタフェース：ＵＩ）である。通信インタフェース１２は、上述した各実施形態に係る匿名化装置（図１，図２，図６，図７）が、外部装置とのとの間において、通信ネットワーク６００を介して通信するための一般的な通信手段である。係るハードウェア構成において、ＣＰＵ１１は、各実施形態に係る装置としての情報処理装置１０００の全体の動作を司る。

　そして、上述した第１乃至第４の実施形態を例に説明した本発明は、その説明において参照したフローチャート（図３，図５，図９）の機能、或いは、図１，図２，図６，図７に示したブロック図において当該装置内に示した各部（各ブロック）を実現可能なプログラムを、図１０に示す情報処理装置１０００に対して供給した後、そのプログラムを、ＣＰＵ１１に読み出して実行することによって達成される。但しこの場合、各種データ格納部（２０６，２１２等）には、ハードウェア資源としての記憶装置１７が適宜利用される。また、各種の入力部及び受付部（３１０，４１０，４１６）には、ハードウェア資源としての入出力ユーザインタフェース１３が適宜利用される。

　また、情報処理装置１０００内に供給されたプログラムは、読み書き可能な一時記憶メモリ（１５）またはハードディスクドライブ等の不揮発性の記憶装置（１７）に格納すれば良い。即ち、記憶装置１７において、プログラム群１７Ａは、例えば、上述した各実施形態における匿名化装置（１００，２００，３００，４００）内に示した各部の機能を実現可能なプログラムである。また、各種の記憶情報１７Ｂは、例えば、上述した各実施形態における履歴情報１１０や、所望の匿名性を表す情報等である。

　また、前記の場合において、当該装置内へのプログラムの供給方法は、ＣＤ－ＲＯＭ、フラッシュメモリ等のコンピュータ読み取り可能な各種の記録媒体（１９）を介して当該装置内にインストールする方法や、インターネット等の通信回線（６００）を介して外部よりダウンロードする方法等のように、現在では一般的な手順を採用することができる。そして、このような場合において、本発明は、係るコンピュータ・プログラムを表すコード（プログラム群１７Ａ）、或いは係るコードが格納された記憶媒体（１９）によって構成されると捉えることができる。

　尚、上述した各実施形態において説明した匿名化装置（１００，２００，３００，４００）は、説明の便宜上から、単体の装置として構成する場合を例に説明した。しかしながら、これらの匿名化装置は、係る単体の装置構成に限定されることはなく、例えば、上述した各部の機能を、通信可能な複数の情報処理装置に適宜分散したコンピュータ・システムにおいても実現可能である。或いは、上述した各実施形態に係る匿名化装置は、単体あるいは複数の情報処理装置において適宜実行される複数の仮想マシンを用いても実現可能である。但し、このような様々な実装方法自体には、現在では一般的な技術を利用できるため、本願における詳細な説明は省略する。

　また、上述した各実施形態における匿名化装置への履歴情報１１０の供給方法には、ユーザが入出力ユーザインタフェース１３等を用いて供給する方法や、係る匿名化装置と通信可能な外部装置から供給する方法（所謂、Ｍ２Ｍ：Ｍａｃｈｉｎｅ　ｔｏ　Ｍａｃｈｉｎｅ）などを採用することができる。

　同様に、上述した第２乃至第４の実施形態における匿名性入力部（２１０，３１０，４１０）への所望の匿名性（匿名性情報）の供給方法、そして、第４の実施形態における性質保存要求受付部４１６への性質（性質情報）の供給方法には、ユーザがＵＩを用いて供給する方法や、係る匿名化装置と通信可能な外部装置から供給する方法などを採用することができる。

　また、上述した各実施形態に係る匿名化装置は、説明の都合から「背景技術」欄における説明と同様に、一例として、時間の経過に伴う傷病の遷移という性質を扱うこととした。しかしながら、上述した各実施形態を例に説明した本発明は、係る性質（時間の経過に伴う傷病の遷移）には限定されず、各種の性質にも採用することができる。例えば、本発明は、傷病間の共起関係に関する性質に適用することができる。

　そして、上述した各実施形態では、一例として、ユーザ識別子毎に存在する性質を対象とした。しかしながら、本発明は、これらの実施形態にて例示的に採用した性質には限定されず、例えば、共通の準識別子（同じ準識別子）を持つユーザ識別子に、共通の性質を保存（維持）する場合に適用してもよい。

　尚、上述した実施形態及びその変形例の一部又は全部は、以下の付記のようにも記載されうる。しかしながら、上述した実施形態及びその変形例により例示的に説明した本発明は、以下には限られない。即ち、
　（付記１）
　固有識別情報に関して少なくとも準識別子とセンシティブ情報とが関連付けされたレコードが複数件含まれる履歴情報を対象として、その履歴情報の中から、所望の匿名性を充足可能であり、且つ特定の固有識別子を共通に有する複数のレコード間に存在する性質の曖昧さの小ささに基づいて、該特定の固有識別子とは異なる他の固有識別子を与えられたレコードを抽出するレコード抽出手段と、
　前記レコード抽出手段によって抽出された複数のレコードが有する個々の属性が前記所望の匿名性を充足するように、それらのレコードにそれぞれ含まれる準識別子に共通性を持たせることによって抽象化する匿名化手段とを備える
ことを特徴とする匿名化装置。

　（付記２）
　前記レコード抽出手段は、
前記特定の固有識別子を有するレコードと共に抽象化されるべきところの、前記他の固有識別子を有するレコードのうち、抽象化後に推測され得る曖昧さが最も小さいレコードを抽出する
ことを特徴とする付記１記載の匿名化装置。

　（付記３）
　前記レコード抽出手段は、
前記特定の固有識別子が与えられたレコードと、抽出した該特定の固有識別子とは異なる他の固有識別子を与えられたレコードとを１つのグループとしてまとめ、
　前記匿名化手段は、
前記グループ単位に前記抽象化を行う
ことを特徴とする付記１または付記２記載の匿名化装置。

　（付記４）
　前記履歴情報を構成する複数のレコードを分析することにより、その履歴情報の中から、前記性質を抽出する性質分析手段を更に備える
ことを特徴とする付記１乃至付記３の何れかに記載の匿名化装置。

　（付記５）
　前記性質が複数種類存在する場合に、それらの性質の重要性を評価することにより、
前記レコード抽出手段による抽出に際して優先すべき重要な性質を選択する評価手段を更に備える
ことを特徴とする付記１乃至付記４の何れかに記載の匿名化装置。

　（付記６）
　前記複数種類の性質のうち、保存を希望する性質に関する要求をエントリ可能な要求受付手段を更に備える
ことを特徴とする付記５記載の匿名化装置。

　（付記７）
　前記評価手段は、
前記要求受付手段にエントリされた性質の重要性を他の性質と比較して高くしてから、前記性質分析手段によって抽出された性質の重要性を評価する
ことを特徴とする付記６記載の匿名化装置。

　（付記８）
　前記評価手段による性質の重要性の評価方法を設定する設定手段を更に備える
ことを特徴とする付記７記載の匿名化装置。

　（付記９）
　固有識別情報に関して少なくとも準識別子とセンシティブ情報とが関連付けされたレコードが複数件含まれる履歴情報を対象として、その履歴情報の中から、所望の匿名性を充足可能であり、且つ特定の固有識別子を共通に有する複数のレコード間に存在する性質の曖昧さの小ささに基づいて、該特定の固有識別子とは異なる他の固有識別子を与えられたレコードをコンピュータによって抽出し、
　抽出された複数のレコードが有する個々の属性が前記所望の匿名性を充足するように、前記コンピュータまたは異なるコンピュータによって、それらのレコードにそれぞれ含まれる準識別子に共通性を持たせることによって抽象化する
ことを特徴とする匿名化方法。

　（付記１０）
　前記抽出に際して、
前記特定の固有識別子を有するレコードと共に抽象化されるべきところの、前記他の固有識別子を有するレコードのうち、抽象化後に推測され得る曖昧さが最も小さいレコードを抽出する
ことを特徴とする付記９記載の匿名化方法。

　（付記１１）
　前記抽出に際しては、前記特定の固有識別子が与えられたレコードと、抽出した該特定の固有識別子とは異なる他の固有識別子を与えられたレコードとを１つのグループとしてまとめ、
　前記匿名化に際しては、前記グループ単位に前記抽象化を行う
ことを特徴とする付記９記載の匿名化方法。

　（付記１２）
　固有識別情報に関して少なくとも準識別子とセンシティブ情報とが関連付けされたレコードが複数件含まれる履歴情報を対象として、その履歴情報の中から、所望の匿名性を充足可能であり、且つ特定の固有識別子を共通に有する複数のレコード間に存在する性質の曖昧さの小ささに基づいて、該特定の固有識別子とは異なる他の固有識別子を与えられたレコードを抽出するレコード抽出機能と、
　前記レコード抽出手段によって抽出された複数のレコードが有する個々の属性が前記所望の匿名性を充足するように、それらのレコードにそれぞれ含まれる準識別子に共通性を持たせることによって抽象化する匿名化機能とを、
コンピュータに実行させることを特徴とするコンピュータ・プログラム。

　（付記１３）
　前記レコード抽出機能は、
前記特定の固有識別子を有するレコードと共に抽象化されるべきところの、前記他の固有識別子を有するレコードのうち、抽象化後に推測され得る曖昧さが最も小さいレコードを抽出する
ことを特徴とする付記１２記載のコンピュータ・プログラム。

　（付記１４）
　前記レコード抽出機能は、
前記特定の固有識別子が与えられたレコードと、抽出した該特定の固有識別子とは異なる他の固有識別子を与えられたレコードとを１つのグループとしてまとめ、
　前記匿名化機能は、
前記グループ単位に前記抽象化を行う
ことを特徴とする付記１２または付記１３記載のコンピュータ・プログラム。

　以上、上述した実施形態を模範的な例として本発明を説明した。しかしながら、本発明は、上述した実施形態には限定されない。即ち、本発明は、本発明のスコープ内において、当業者が理解し得る様々な態様を適用することができる。

　この出願は、２０１１年１２月１５日に出願された日本出願特願２０１１－２７４７９１を基礎とする優先権を主張し、その開示の全てをここに取り込む。

　１１　　ＣＰＵ
　１２　　通信インタフェース（Ｉ／Ｆ）
　１３　　入出力ユーザインタフェース
　１４　　ＲＯＭ
　１５　　ＲＡＭ
　１６　　バス
　１７　　記憶装置
　１８　　ドライブ装置
　１９　　記憶媒体
　１００，２００，３００，４００　　匿名化装置
　１０２，２０２，３０２，４０２　　レコード抽出部
　１０４，２０４，３０４，４０４　　匿名化部
　１１０　　履歴情報
　２０６，３０６，４０６　　元データ格納部
　２０８，３０８，４０８　　性質分析部
　２１０，３１０，４１０　　匿名性入力部
　２１２，３１２，４１２　　データ格納部
　３１４，４１４　　重要性評価部
　４１６　　性質保持要求受付部
　６００　　通信ネットワーク
　１０００　　情報処理装置（コンピュータ）

Claims

　固有識別情報に関して少なくとも準識別子とセンシティブ情報とが関連付けされたレコードが複数件含まれる履歴情報を対象として、その履歴情報の中から、所望の匿名性を充足可能であり、且つ特定の固有識別子を共通に有する複数のレコード間に存在する性質の曖昧さの小ささに基づいて、該特定の固有識別子とは異なる他の固有識別子を与えられたレコードを抽出するレコード抽出手段と、
　前記レコード抽出手段によって抽出された複数のレコードが有する個々の属性が前記所望の匿名性を充足するように、それらのレコードにそれぞれ含まれる準識別子に共通性を持たせることによって抽象化する匿名化手段とを備える
ことを特徴とする匿名化装置。
　前記レコード抽出手段は、
前記特定の固有識別子を有するレコードと共に抽象化されるべきところの、前記他の固有識別子を有するレコードのうち、抽象化後に推測され得る曖昧さが最も小さいレコードを抽出する
ことを特徴とする請求項１記載の匿名化装置。
　前記レコード抽出手段は、
前記特定の固有識別子が与えられたレコードと、抽出した該特定の固有識別子とは異なる他の固有識別子を与えられたレコードとを１つのグループとしてまとめ、
　前記匿名化手段は、
前記グループ単位に前記抽象化を行う
ことを特徴とする請求項１または請求項２記載の匿名化装置。
　前記履歴情報を構成する複数のレコードを分析することにより、その履歴情報の中から、前記性質を抽出する性質分析手段を更に備える
ことを特徴とする請求項１乃至請求項３の何れかに記載の匿名化装置。
　前記性質が複数種類存在する場合に、それらの性質の重要性を評価することにより、
前記レコード抽出手段による抽出に際して優先すべき重要な性質を選択する評価手段を更に備える
ことを特徴とする請求項１乃至請求項４の何れかに記載の匿名化装置。
　前記複数種類の性質のうち、保存を希望する性質に関する要求をエントリ可能な要求受付手段を更に備える
ことを特徴とする請求項５記載の匿名化装置。
　前記評価手段は、
前記要求受付手段にエントリされた性質の重要性を他の性質と比較して高くしてから、前記性質分析手段によって抽出された性質の重要性を評価する
ことを特徴とする請求項６記載の匿名化装置。
　固有識別情報に関して少なくとも準識別子とセンシティブ情報とが関連付けされたレコードが複数件含まれる履歴情報を対象として、その履歴情報の中から、所望の匿名性を充足可能であり、且つ特定の固有識別子を共通に有する複数のレコード間に存在する性質の曖昧さの小ささに基づいて、該特定の固有識別子とは異なる他の固有識別子を与えられたレコードをコンピュータによって抽出し、
　抽出された複数のレコードが有する個々の属性が前記所望の匿名性を充足するように、前記コンピュータまたは異なるコンピュータによって、それらのレコードにそれぞれ含まれる準識別子に共通性を持たせることによって抽象化する
ことを特徴とする匿名化方法。
　前記抽出に際して、
前記特定の固有識別子を有するレコードと共に抽象化されるべきところの、前記他の固有識別子を有するレコードのうち、抽象化後に推測され得る曖昧さが最も小さいレコードを抽出する
ことを特徴とする請求項８記載の匿名化方法。
　固有識別情報に関して少なくとも準識別子とセンシティブ情報とが関連付けされたレコードが複数件含まれる履歴情報を対象として、その履歴情報の中から、所望の匿名性を充足可能であり、且つ特定の固有識別子を共通に有する複数のレコード間に存在する性質の曖昧さの小ささに基づいて、該特定の固有識別子とは異なる他の固有識別子を与えられたレコードを抽出するレコード抽出機能と、
　前記レコード抽出手段によって抽出された複数のレコードが有する個々の属性が前記所望の匿名性を充足するように、それらのレコードにそれぞれ含まれる準識別子に共通性を持たせることによって抽象化する匿名化機能とを、
コンピュータに実行させることを特徴とするコンピュータ・プログラム。