WO2016021039A1

WO2016021039A1 - ｋ－匿名化処理システム及びｋ－匿名化処理方法

Info

Publication number: WO2016021039A1
Application number: PCT/JP2014/070988
Authority: WO
Inventors: 雅之吉野; 紀宏津嶋
Original assignee: 株式会社日立製作所
Priority date: 2014-08-08
Filing date: 2014-08-08
Publication date: 2016-02-11

Abstract

【課題】データにおける各準識別子の一般化単位を時間変化特性に応じた適宜なものとし、匿名化したデータセットの良好な有用性及びｋ－匿名化の両立を図る。【解決手段】ｋ－匿名化処理システム１００において、匿名化対象のデータと各準識別子の時間変化特性の情報を記憶する記憶装置１０１と、時間変化特性の情報に基づき、準識別子間での時間変化の大きさに応じた優先度を各準識別子について判定し、準識別子毎に、データにおいて対応する各値の間隔に基づき該当準識別子における一般化の単位候補値を特定し、優先度が高い順に該当準識別子に対応するデータにおける各値と単位候補値をｋ－匿名性評価アルゴリズムに適用し、単位候補値のうちｋ－匿名性を満たす制約下で最小のものを該当準識別子の一般化単位と特定し、ｋ－匿名化の処理を実行する演算装置１０４を備える構成とする。

Description

ｋ－匿名化処理システム及びｋ－匿名化処理方法

　本発明は、ｋ－匿名化処理システム及びｋ－匿名化処理方法に関する。

　データが含む個人情報などの機微な情報を曖昧化し、該当データのセキュアかつ自由な二次利用を可能にするものとして、ｋ－匿名化技術が存在する。このｋ－匿名化技術は、データ項目における単独で個人を特定可能な「識別子」と、複数組み合わせることで個人を特定出来る可能性のある「準識別子」のうち、ある準識別子の組み合わせで特定されるデータ数が「ｋ」以上となるよう図る技術である。具体的には、準識別子の一般化処理（例：年齢値を年代に、完全な住所を地域に変換する）と言われる処理により、準識別子の抽象化を行い、それら一般化した値（例：年代、地域）の組み合わせに属する対象者を「ｋ」人以上識別可能とすることで「ｋ－匿名性」を実現する。

　一方、ｋ－匿名化の対象となるデータが時間変位する状況に対応する従来技術として、以下の技術が提案されている。すなわち、一つの属性を有するデータ数が第一の時刻で閾値以上であり、その後の第二の時刻で閾値未満である回数に基づいて、閾値ごとのスコアを算出して匿名化指標を特定し、データ中のーの属性を有するデータ数が匿名化指標より少なく、かつ、当該データ数と少なくとも一以上の他の属性を有するデータ数との和が匿名化指標以上である場合に、共通する属性に更新するデータとして、当該ーの属性および当該他の属性を有するデータを特定する技術（特許文献１参照）などが提案されている。

ＰＣＴ／ＪＰ２０１２／０６６３０５

　ところが、現実のデータは複数の準識別子を有し、かつ、それぞれの準識別子に関して一般化を行う単位は様々である。例えば、ある地域に所在する人物について、各自の現在位置および年齢を準識別子とした場合、現在位置に関する一般化の単位は「○○市○○丁目」、年齢に関する一般化の単位は「１０歳毎の年代」、などと想定出来る。しかしながら、こうした各準識別子のうち、どの準識別子の単位を優先的に設定すべきか、という観点に着目した技術思想は提案されていない。

　そのため、いずれかの準識別子の単位を優先的に考慮することで、ｋ－匿名性を効率的に担保し、かつ情報損失を小さくする、といった点に関して検証することは出来ていない。例えば、上述した現在位置及び年齢の各準識別子は、共に時間変化特性のある準識別子であり、しかも、それぞれの値の時間変化の速度は異なっている。従って、そうした準識別子における時間変化特性の相違と無関係にそれぞれの単位を設定した場合、各準識別子の組み合わせで特定出来るデータ数が時間推移と共に変化する事態に対応し、該当データ数を「ｋ」以上とする際には、各準識別子の単位を必要以上に一般化すなわち曖昧化してしまい、匿名化データの利用者に有用なデータセットを十分には提供できない恐れがある。

　そこで本発明の目的は、データにおける各準識別子の一般化単位を時間変化特性に応じた適宜なものとし、匿名化したデータセットの良好な有用性及びｋ－匿名化の両立を図る技術を提供することにある。

　上記課題を解決する本発明のｋ－匿名化処理システムは、匿名化対象のデータと当該データにおける各準識別子の時間変化特性の情報を記憶する記憶装置と、前記時間変化特性の情報に基づいて、準識別子間での時間変化の大きさに応じた優先度を各準識別子について判定する処理と、準識別子毎に、前記データにおいて対応する各値の間隔を算定し、当該算定した間隔に基づいて該当準識別子における一般化の単位候補値を特定する処理と、前記優先度が高い順に、該当準識別子に対応する前記データにおける各値と前記単位候補値とを、所定のｋ－匿名性評価アルゴリズムに適用し、前記単位候補値のうちｋ－匿名性を満たす制約下で最小のものを該当準識別子の一般化単位と特定し、当該特定した各準識別子の一般化単位を用いた前記データに対するｋ－匿名化の処理を実行する演算装置と、を備えることを特徴とする。

　また、本発明のｋ－匿名化処理システムは、匿名化対象のデータと当該データにおける各準識別子の時間変化特性の情報を記憶する記憶装置と、前記時間変化特性の情報に基づいて、準識別子間での時間変化の大きさに応じた優先度を各準識別子について判定する処理と、準識別子毎に、前記データにおいて対応する各値の属性の組み合わせパターンを特定し、当該特定した前記属性の組み合わせパターンが示す属性分布範囲を、該当準識別子における一般化の単位候補として特定する処理と、前記優先度が高い順に、該当準識別子に対応する前記データにおける各値と、前記単位候補とを、所定のｋ－匿名性評価アルゴリズムに適用し、前記単位候補のうちｋ－匿名性を満たす制約下で属性数が最小のものを該当準識別子の一般化単位と特定し、当該特定した各準識別子の一般化単位を用いた前記データに対するｋ－匿名化の処理を実行する演算装置と、を備えることを特徴とする。

　また、本発明のｋ－匿名化処理方法は、匿名化対象のデータと当該データにおける各準識別子の時間変化特性の情報を記憶する記憶装置を備えた情報処理装置が、前記時間変化特性の情報に基づいて、準識別子間での時間変化の大きさに応じた優先度を各準識別子について判定する処理と、準識別子毎に、前記データにおいて対応する各値の間隔を算定し、当該算定した間隔に基づいて該当準識別子における一般化の単位候補値を特定する処理と、前記優先度が高い順に、該当準識別子に対応する前記データにおける各値と前記単位候補値とを、所定のｋ－匿名性評価アルゴリズムに適用し、前記単位候補値のうちｋ－匿名性を満たす制約下で最小のものを該当準識別子の一般化単位と特定し、当該特定した各準識別子の一般化単位を用いた前記データに対するｋ－匿名化の処理と、を実行することを特徴とする。

　また、本発明のｋ－匿名化処理方法は、匿名化対象のデータと当該データにおける各準識別子の時間変化特性の情報を記憶する記憶装置を備えた情報処理装置が、前記時間変化特性の情報に基づいて、準識別子間での時間変化の大きさに応じた優先度を各準識別子について判定する処理と、準識別子毎に、前記データにおいて対応する各値の属性の組み合わせパターンを特定し、当該特定した前記属性の組み合わせパターンが示す属性分布範囲を、該当準識別子における一般化の単位候補として特定する処理と、前記優先度が高い順に、該当準識別子に対応する前記データにおける各値と、前記単位候補とを、所定のｋ－匿名性評価アルゴリズムに適用し、前記単位候補のうちｋ－匿名性を満たす制約下で属性数が最小のものを該当準識別子の一般化単位と特定し、当該特定した各準識別子の一般化単位を用いた前記データに対するｋ－匿名化の処理と、を実行することを特徴とする。

　本発明によれば、データにおける各準識別子の一般化単位を時間変化特性に応じた適宜なものとし、匿名化したデータセットの良好な有用性及びｋ－匿名化の両立を図ることが可能となる。

本実施形態のｋ－匿名化処理システムを含むネットワーク構成例を示す図である。本実施形態におけるｋ－匿名化処理システムのハードウェア構成例を示す図である。本実施形態のｋ－匿名化処理方法の処理手順例１を示すフロー図である。本実施形態における元データテーブルの構成例を示す図である。本実施形態のｋ－匿名化処理方法の処理手順例２を示すフロー図である。本実施形態における優先度管理テーブルの構成例を示す図である。本実施形態のｋ－匿名化処理方法の処理手順例３を示すフロー図である。本実施形態における単位候補テーブルの構成例を示す図である。本実施形態におけるｋ－匿名データセットの構成例を示す図である。本実施形態における準識別子の一般化の概念例１を示す説明図である。本実施形態における準識別子の一般化の概念例２を示す説明図である。本実施形態における準識別子の一般化の概念例３を示す説明図である。本実施形態のｋ－匿名化処理方法の処理手順例５を示すフロー図である。本実施形態における準識別子の一般化の概念例４を示す説明図である。

－－－システム構成例－－－
　以下に本発明の実施形態について図面を用いて詳細に説明する。図１は本実施形態のｋ－匿名化処理システム１００を含むネットワーク構成例を示す図である。図１に示すｋ－匿名化処理システム１００は、ｋ－匿名化処理対象となる元データにおける各準識別子の一般化単位を時間変化特性に応じた適宜なものとし、匿名化したデータセットの良好な有用性及びｋ－匿名化の両立を図るためのコンピュータシステムである。

　本実施形態におけるｋ－匿名化処理システム１００は、一例としてサーバ装置を想定する。以降、ｋ－匿名化処理システムをｋ－匿名化処理サーバ１００と称する。また、当該ｋ－匿名化処理サーバ１００は、ネットワーク２０に接続しており、ｋ－匿名化処理の作業担当者等が操作する操作者端末１０、及び、ｋ－匿名化処理の対象となる元データを提供する外部サーバ３０と通信可能に結ばれている。ｋ－匿名化処理サーバ１００は、上述の外部サーバ３０から元データを取得し、この元データに対するｋ－匿名化処理を施すことでｋ－匿名データセット１３０を生成するサーバである。なお、ｋ－匿名化処理サーバ１００、操作者端末１０、及び外部サーバ３０によりｋ－匿名化処理システムを構成するとしてもよい。

　ここで、上述の外部サーバ３０における元データの取得形態について例示しておく。例えば、決済機能付きの携帯端末のユーザが、この携帯端末における決済機能を利用して或る店舗にて所定商品を購入したとする。この場合、上述の携帯端末は、携帯電話網等の所定ネットワークを経由して、商品代金の決済システムたる外部サーバ３０にアクセスし、該当商品に関する決済内容を含む決済要求を通知し、所定の決済処理を実行する。この時、携帯端末は、予め備えるＧＰＳ機能より得ている現在位置情報も上述の決済要求に含めるものとする。一方、外部サーバ３０たる決済システムは、上述の現在位置情報を含む決済要求を携帯端末から受信し、上述の決済処理に伴う該当ユーザの情報（ユーザＩＤ、年齢）、購買情報、及び現在位置情報を元データとして取得する。外部サーバ３０は、これら元データを、所定期間毎に或いはリアルタイムにｋ－匿名化処理サーバ１００に送信する。ｋ－匿名化処理サーバ１００は、外部サーバ３０から元データを受信し、これを記憶装置１０１の元データテーブル１２５に時刻情報と共に格納していくこととなる。

　ｋ－匿名化処理対象となる元データは、上述のように、例えばユーザの現在位置情報、生年月日（年齢）、購入商品、及び登録時刻といった値が含まれる。また、こうした元データが含む各値は、その属性に応じてｋ－匿名化の概念における、識別子、準識別子、その他の情報に分類出来る。このうち識別子は、単独で該当ユーザを特定出来る個人情報であり、完全な氏名や住所といった値が該当する。また、準識別子は、複数組み合わせることで該当ユーザを特定出来る可能性のある情報であり、年齢や現在位置情報、といった値が該当する。またその他の情報は、複数組み合わせるとしても該当ユーザの特定は想定されにくい情報であり、上述の例では購入商品の値が該当する。

　また、上述した準識別子は、時間経過に伴って値が変化するものが存在する。例えば、準識別子たる年齢は、人の加齢と共に１年毎に増える。また、準識別子たる現在位置情報は、外出中の人の移動と共に例えば１時間程度毎に変化する。すなわち、元データの各値のうち、そうした時間変化特性がある準識別子に対応する各値は、時間経過と共に変化し、元データ全体における該当各値の分布が変化することにつながる。本実施形態では、このような準識別子に対応する値の時間変化の頻度（例：１年、１時間など）を、準識別子のライフタイムと定義する。例えば、上記の準識別子の例の場合、年齢のライフタイムは１年、現在地情報のライフタイムは１時間、などと定義できる。また本実施形態では、このライフタイムの逆数を、該当準識別子における「揺らぎ」と定義する。

　続いてｋ－匿名化処理サーバ１００のハードウェア構成について説明する。図２で例示する本実施形態のｋ－匿名化処理サーバ１００は、ＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）やハードディスクドライブなど適宜な不揮発性記憶素子で構成される記憶装置１０１、ＲＡＭなど揮発性記憶素子で構成されるメモリ１０３、記憶装置１０１に保持されるプログラム１０２をメモリ１０３に読み出すなどして実行しサーバ装置自体の統括制御を行なうとともに各種判定、演算及び制御処理を行なうＣＰＵなどの演算装置１０４、ネットワーク２０と接続し操作者端末１０および外部サーバ３０など他装置との通信処理を担う通信装置１０５を備える。

　なお、記憶装置１０１内には、本実施形態のｋ－匿名化処理サーバ１００として必要な機能を実装する為のプログラム１０２と、各種処理に用いるデータ等を格納したテーブル類が記憶されている。このテーブルとしては、後述する元データテーブル１２５、優先度管理テーブル１２６、単位候補テーブル１２７、およびｋ－匿名データセット１３０が含まれる。また優先度管理テーブル１２６には、各準識別子の優先度と共に、時間変化の情報たる上述のライフタイムが格納されているものとする。

　また、上述の操作者端末１０および外部サーバ３０は、ｋ－匿名化処理サーバ１００と同様に、コンピュータとして一般的なハードウェア構成を備えており、その詳細については省略する。
－－－機能例－－－
　続いて、本実施形態のｋ－匿名化処理システムたるｋ－匿名化処理サーバ１００が備える機能について説明する。上述したように、以下に説明する機能は、例えばｋ－匿名化処理サーバ１００が備えるプログラム１０２を実行することで実装される機能と言える。

　本実施形態のｋ－匿名化処理サーバ１００は、上述の元データテーブル１２５に保持している元データに関し、該当元データが含む準識別子のライフタイム（時間変化特性の情報）を、優先度管理テーブル１２６から読み出し、各準識別子のライフタイムの逆数を算定して上述の揺らぎを得て、準識別子間で揺らぎの大きい順に優先度を高いものと判定する機能を備えている。この機能は、図１のｋ－匿名化処理サーバ１００における準識別子一般化設定部１１３の備える機能に該当する。

　また、ｋ－匿名化処理サーバ１００は、上述の準識別子毎に、元データにおいて対応する各値の間隔を算定し、当該算定した間隔の最小値または平均値を、該当準識別子における一般化の単位候補値として特定する機能を備えている。例えば、元データにおいて対応する各値の間隔を、「０．０２」、「０．０４」、「０．０３」などと算定した場合、当該算定した間隔の最小値「０．０２」または平均値「０．０３」を、該当準識別子における一般化の単位候補値として特定することとなる。こうした機能は、図１のｋ－匿名化処理サーバ１００における準識別子一般化設定部１１３の備える機能に該当する。

　ここで、準識別子を一般化する単位について定義する。単位とは、準識別子を一般化処理した際の抽象化の幅を指す。例えば、年齢を年代に一般化する場合の例では、年代を２歳刻みで一般化（抽象化）すれば単位は２歳、５歳刻みで一般化（抽象化）すれば単位は５歳となる。

　また、ｋ－匿名化処理サーバ１００は、上述で判定済みの優先度が高い順に、該当準識別子に対応する元データにおける各値と上述の単位候補値とを、ｋ－匿名性評価アルゴリズムたるｋ－匿名性評価部１１４に適用し、単位候補値のうちｋ－匿名性を満たす制約下で最小のものを該当準識別子の一般化単位と特定する機能を備えている。この機能は、図１のｋ－匿名化処理サーバ１００における準識別子一般化設定部１１３の備える機能に該当する。

　また、ｋ－匿名化処理サーバ１００は、上述で特定した各準識別子の一般化単位を用いて、元データに対するｋ－匿名化の処理を実行する機能を備えている。この機能は、図１のｋ－匿名化処理サーバ１００におけるｋ－匿名化処理部１１５の備える機能に該当する。このｋ－匿名化処理部１１５におけるｋ－匿名化処理の手法は従来から存在するｋ－匿名化処理方法を適宜採用すればよい。

　なお、ｋ－匿名化処理サーバ１００は、上述の一般化単位の特定処理後から所定時間経過後における匿名化対象の直近データについて、該当直近データにおける各値と上述の一般化単位とを、ｋ－匿名性評価部１１４に適用し、ｋ－匿名性を満たさないことが判明した場合、優先度管理テーブル１２６における優先度が高い順に、該当準識別子に対応する直近データにおける各値と、単位候補値のうち当初特定した一般化単位より大きいものとを、ｋ－匿名性評価部１１４に適用し、上述の一般化単位より大きい単位候補値のうちｋ－匿名性を満たす制約下で最小のものを該当準識別子の新たな一般化単位と特定する機能を更に備えている。この機能は、図１のｋ－匿名化処理サーバ１００における準識別子一般化設定部１１３の備える機能に該当する。

　また、ｋ－匿名化処理サーバ１００は、上述のごとく新たな一般化単位を特定する際、当初特定した一般化単位の整数倍の値のうちｋ－匿名性を満たす制約下で最小のものを該当準識別子の新たな一般化単位と特定する機能を更に備えているとすれば好適である。この機能は、図１のｋ－匿名化処理サーバ１００における準識別子一般化設定部１１３の備える機能に該当する。

　また、ｋ－匿名化処理サーバ１００は、上述の如き一般化単位の特定処理後から所定時間経過後における匿名化対象の直近データについて、該当直近データにおける各値と上述の一般化単位とを、ｋ－匿名性評価部１１４に適用し、ｋ－匿名性を満たさないことが判明した場合、優先度管理テーブル１２６における優先度が高い順に、準識別子毎に、上述の直近データにおいて対応する各値の属性の組み合わせパターンを特定し、当該特定した属性の組み合わせパターンが示す属性分布範囲を、該当準識別子における一般化の新たな単位候補として特定し、該当準識別子に対応する直近データにおける各値と、新たな単位候補とを、ｋ－匿名性評価部１１４に適用し、上述の新たな単位候補値のうちｋ－匿名性を満たす制約下で属性数が最小のものを該当準識別子の新たな一般化単位と特定する機能を更に備えている。この機能は、図１のｋ－匿名化処理サーバ１００における準識別子一般化設定部１１３の備える機能に該当する。

　上述の属性の組み合わせとは、例えば、準識別子が現在地情報である場合、匿名化対象のデータにおいて現在地情報に対応した値が示す番地の組み合わせ、を想定出来る。番地は、１番地、２番地、３番地、４番地・・・とその値が一方方向に増える性質である認識できるが、地図上での各番地の位置関係を考慮した場合、１番地に対して２番地は隣接するが、３番地は別の番地を介して１番地と隣接する、などといった状況も十分存在しうる。そこで、そうした準識別子の一般化を図る際の単位としては、番地の値の昇順ないし降順といった値の順序に囚われず、各番地の組み合わせパターンを想定すると好適であるケースも想定される。また、そうした場合、属性の組み合わせパターンが示す属性分布範囲とは、該当パターンが含む各番地で構成される、地図上での所定領域に対応する。従って、属性分布範囲は、例えば各番地に対応した現在位置座標値（匿名化対象のデータが示す値）の集合、または現在位置座標値の分布範囲式等で特定できる。

　また、ｋ－匿名化処理サーバ１００は、上述の元データに関して、その準識別子毎に、元データにおいて対応する各値の属性の組み合わせパターンを特定し、当該特定した属性の組み合わせパターンが示す属性分布範囲を、該当準識別子における一般化の単位候補として特定する機能を備えている。この機能は、図１のｋ－匿名化処理サーバ１００における準識別子一般化設定部１１３の備える機能に該当する。

　また、この場合のｋ－匿名化処理サーバ１００は、上述の優先度管理テーブル１２６における優先度が高い順に、該当準識別子に対応する上述の元データにおける各値と、上述の単位候補とを、ｋ－匿名性評価部１１４に適用し、上述の単位候補のうちｋ－匿名性を満たす制約下で属性数が最小のものを該当準識別子の一般化単位と特定する機能を備えている。この機能は、図１のｋ－匿名化処理サーバ１００における準識別子一般化設定部１１３の備える機能に該当する。

　また、ｋ－匿名化処理サーバ１００は、上述した属性の組み合わせパターンに基づく一般化単位の特定処理後から所定時間経過後における匿名化対象の直近データについて、該当直近データにおける各値と、上述の一般化単位とを、ｋ－匿名性評価部１１４に適用し、ｋ－匿名性を満たさないことが判明した場合、上述の一般化単位とした組み合わせパターン以外の組み合わせパターンが示す属性分布範囲を、該当準識別子における一般化の新たな単位候補として特定し、該当準識別子に対応する上述の直近データにおける各値と、新たな単位候補とを、ｋ－匿名性評価部１１４に適用し、上述の新たな単位候補値のうちｋ－匿名性を満たす制約下で属性数が最小のものを該当準識別子の新たな一般化単位と特定する機能を更に備えている。この機能は、図１のｋ－匿名化処理サーバ１００における準識別子一般化設定部１１３の備える機能に該当する。
－－－処理フロー例－－－
　以下、本実施形態におけるｋ－匿名化処理方法の実際手順について図に基づき説明する。以下で説明するｋ－匿名化処理方法に対応する各種動作は、ｋ－匿名化処理システムたるｋ－匿名化処理サーバ１００がメモリ１０３に読み出して実行するプログラム１０２によって実現される。そして、そのプログラム１０２は、以下に説明される各種の動作を行うためのコードから構成されている。

　図３は、本実施形態におけるｋ－匿名化処理方法の処理手順例１を示すフロー図であり、具体的には本実施形態におけるｋ－匿名化処理方法のメインフロー例である。ここでまず、ｋ－匿名化処理サーバ１００における項目分類部１１１は、記憶装置１０１の元データテーブル１２５からｋ－匿名化対象である元データとして、元データテーブル１２５のレコードを読み出し、当該レコードの各フィールド（項目）が示す値を所定アルゴリズムに適用して、ｋ－匿名化処理における「識別子」、「準識別子」、および「その他」に分類する（２００）。

　上述のアルゴリズムとしては、既存のｋ－匿名化処理の基本技術におけるアルゴリズムを採用すればよいが、例えば、元データの含む各値の項目名称と、識別子および準識別子との対応関係を規定した辞書テーブルに基づいて、上述のレコードの各フィールドが示す値をこの辞書テーブルに照合し、該当値に対応する識別子または準識別子を特定し、該当値が識別子と準識別子のいずれにも該当しない場合には「その他」と判定するアルゴリズムを想定出来る。図４に例示する元データテーブル１２５の例においては、レコードの各フィールドが示す値、「ユーザＩＤ」、「年齢」、「現在地」、「購入品」、を辞書テーブルに照合し、このうち、辞書テーブルにて識別子と規定されている“ユーザＩＤ”については識別子、同様に準識別子と規定されている“年齢”、“現在地”、については準識別子たる“年代”、“位置”、などと判定し、辞書テーブルにて識別子と準識別子のいずれにも規定されていない“購入品”についてはその他と判定する。

　上述のステップ２００の結果、元データたるレコードにおいて識別子と特定したフィールドについて、ｋ－匿名化処理サーバ１００における識別子削除部１１２は、該当レコードにおける該当値の削除処理を実行する（２０１）。この処理の結果、元データたる各レコードは、準識別子とその他に対応した各値のみ含む状態となる。

　続いてｋ－匿名化処理サーバ１００における準識別子一般化設定部１１３は、上述のステップ２００で特定した準識別子について、その一般化単位の設定を行う際の優先度を決定する（２０２）。この準識別子に関する優先度決定手順の詳細について、図５に基づき説明する。

　図５は、本実施形態のｋ－匿名化処理方法の処理手順例２を示すフロー図である。この場合、ｋ－匿名化処理サーバ１００における準識別子一般化設定部１１３は、上述のステップ２００で特定済みの準識別子の情報について、記憶装置１０１の優先度管理テーブル１２６にて新たなレコードを生成し、当該レコードにて準識別子ＩＤと対応付けて上述の準識別子の情報を登録する（３０３）。準識別子ＩＤは、優先度管理テーブル１２６における各レコードを一意に特定すべく準識別子一般化設定部１１３が付与したＩＤである。

　この優先度管理テーブル１２６の構成例を図６にて示す。上述のステップ３０３の処理の結果、図６の優先度管理テーブル１２６において、例えば、準識別子ＩＤ「１」のレコードの準識別子欄に、図４の元データのレコードにおける「現在地」に対応する準識別子たる「位置」が登録される。同様に、図６の優先度管理テーブル１２６の準識別子ＩＤ「２」のレコードの準識別子欄に、図４の元データのレコードにおける「年齢」に対応する準識別子たる「年代」が登録される。

　続いて、ｋ－匿名化処理サーバ１００における準識別子一般化設定部１１３は、例えば、上述のステップ３０３で優先度管理テーブル１２６に登録したレコードの情報を、操作者端末１０に配信し、各レコードにおける準識別子のライフタイムについての指定を操作者端末１０から受け付け、これを優先度管理テーブル１２６の該当準識別子のライフタイム欄に設定する（３０４）。例えば準識別子一般化設定部１１３は、図６の優先度管理テーブル１２６における、準識別子ＩＤ「１」のレコードの準識別子「位置」のライフタイムとして「１時間」の指定を操作者端末１０から得て、該当ライフタイム欄に「１時間」を登録する。同様に準識別子一般化設定部１１３は、優先度管理テーブル１２６の準識別子ＩＤ「２」のレコードの準識別子「年代」のライフタイムとして「１年」の指定を操作者端末１０から得て、該当ライフタイム欄に「１年」を登録する。

　なお、このライフタイムの値の取得に際し、上述のように操作者端末１０から指定を受けるとしてもよいが、例えば、ｋ－匿名化処理サーバ１００が、元データテーブル１２５における各準識別子の値の時間変動を同一ユーザごとに監視し、この値の時間変動が所定基準以上となるための経過時間を統計処理して、これをライフタイムの値と特定するなどとしてもよい。

　次に、ｋ－匿名化処理サーバ１００における準識別子一般化設定部１１３は、優先度管理テーブル１２６における各準識別子のライフタイムの逆数を算定し、この逆数の値を優先度評価指数として優先度管理テーブル１２６の優先度評価指数欄に設定する（３０５）。この優先度評価指数は既に上述した「ゆらぎ」に相当する。図６で例示した優先度管理テーブル１２６の例であれば、準識別子「位置」のライフタイム「１時間」に基づいて、この１時間の逆数たる優先度評価指数は１／１（回／時間）と算定できる。また同様に、準識別子「年代」のライフタイム「１年」に基づいて、この１年を時間換算した逆数たる優先度評価指数は１／８７６０（回／時間）と算定できる。

　続いて、ｋ－匿名化処理サーバ１００における準識別子一般化設定部１１３は、上述のステップ３０５で得た各準識別子に関する優先度評価指数の値を比較し、準識別子間での相対的な大きさ順に、準識別子の一般化単位設定の優先度を決定し、その値を優先度管理テーブル１２６における優先度欄に設定する（３０６）。優先度評価指数の大きいものほど、該当準識別子の時間変化特性は大きく、時間経過と共にｋ－匿名性の担保に影響を与える程度も大きくなる。したがって、上述の優先度の高さに応じて、準識別子の一般化単位を優先的に設定する必要がある。

　ｋ－匿名化処理サーバ１００は、以上のステップ３０３～３０６を元データテーブル１２５のレコードから得た準識別子の数分だけ繰り返し実行し（３０７：ＮＯ～３０３）、全ての準識別子に関して各ステップを実行したならば（３０７：ＹＥＳ）、当該フローを終了する。

　こうして得られた優先度管理テーブル１２６は、図６に示す構成となる。本実施形態における優先度管理テーブル１２６は、準識別子ＩＤをキーとして、対応する準識別子、そのライフタイム、優先度評価指数、および優先度といった値を対応付けたレコードの集合体となっている。

　ここで図３のフローの説明に戻る。次にｋ－匿名化処理サーバ１００における準識別子一般化設定部１１３は、準識別子の一般化における単位の設定（２０３）を行う。この単位の設定（２０３）の詳細については図７に従って説明する。

　この場合、ｋ－匿名化処理サーバ１００における準識別子一般化設定部１１３は、優先度管理テーブル１２６に登録してある各準識別子に対応する元データの値を、元データテーブル１２５から抽出して、或る準識別子について抽出した各値の間隔を算定し、当該算定した間隔に基づいて該当準識別子における一般化の単位候補値を特定する（４０１）。この処理に際しては、例えば、算定した間隔のうち最小のもの、すなわち最小間隔、或いは、算定した間隔の平均、すなわち平均間隔を算定し、これら最小間隔又は平均間隔の倍数を単位候補値として特定する。

　図４に例示した元データテーブル１２５のレコードが示す値に基づいて、上述の単位候補値の算定処理について具体例を示すと、以下のようになる。すなわち、優先度管理テーブル１２６における準識別子「位置」に対応する元データの値を、元データテーブル１２５の「現在地（緯度）」の値から、「３５．３７０」、「３５．３７２」、「３５．３７３」、「３５．３９８」、「３５．３９０」、「３５．３７８」、などと抽出し、ここで抽出した各値の間隔を、「０．００２」、「０．００１」、「０．００３」、・・・などと算定する。このうち最小間隔は「０．００１」であり、また平均間隔は各間隔の平均をとって「０．００５９」などと算出される。

　単位候補値の選定概念として、最小間隔をデフォルト候補として、この最小間隔の倍数を他の候補とし、元データの値の数だけ候補数を選定するとのアルゴリズムを、準識別子一般化設定部１１３が予め保持しているとすれば、当該準識別子一般化設定部１１３は、デフォルトの単位候補値として「０．００１」を決定し、他の単位候補値として「０．００２」、「０．００３」、「０．００４」、「０．００５」、「０．０１」を決定することとなる。こうした単位候補値の決定手順は、上述の「年代」に関しても同様である。

　続いて、ｋ－匿名化処理サーバ１００における準識別子一般化設定部１１３は、ステップ４０１で各準識別子に関して特定した一般化の単位候補値を、該当準識別子の準識別子ＩＤと紐付けた上で単位候補テーブル１２７に格納する（４０２）。図８に示す単位候補テーブル１２７の例であれば、準識別子一般化設定部１１３は、単位候補テーブル１２７への単位候補値の登録時に、各単位候補値を一意に示す単位ＩＤを付与したレコードを生成し、このレコードにおいて、準識別子ＩＤ、および単位候補値、を格納する。

　なお、上述のように、最小間隔に対応した単位候補値をデフォルトの単位候補値とする場合、図８の単位候補テーブル１２７の例であれば、準識別子一般化設定部１１３は、準識別子ＩＤ「１」、すなわち準識別子「位置（緯度）」に関して、最小間隔を示す単位候補値「０．００１」をデフォルトの単位候補値と特定する。

　準識別子一般化設定部１１３は、以上のような処理を、優先度管理テーブル１２６における各準識別子に関して実行した結果、図８に例示する単位候補テーブル１２７を生成することとなる。

　ここで図３のフローの説明に戻る。次にｋ－匿名化処理サーバ１００における準識別子一般化設定部１１３は、優先度管理テーブル１２６において優先度が高い順に、該当準識別子に対応する元データテーブル１２５における各値と、上述の単位候補テーブル１２７における単位候補値のうちデフォルトの単位候補値とを、ｋ－匿名性評価アルゴリズムたるｋ－匿名性評価部１１４に適用し、このデフォルトの単位候補値で規定のｋ－匿名性を満たすか判定する（２０４）。

　この判定の結果、上述のデフォルトの単位候補値で規定のｋ－匿名性を満たすことが判明した場合（２０４：ｙ）、準識別子一般化設定部１１３は、単位候補テーブル１２７における該当準識別子の採用フラグ欄に「１」を設定し、該当単位候補値を一般化単位と特定する（２０５）。図８の単位候補テーブル１２７の例であれば、例えば準識別子「位置（緯度）」について、採用フラグに「１」が設定された、「０．００１」を一般化単位と特定したことになる。

　他方、上述の判定の結果、上述のデフォルトの単位候補値で規定のｋ－匿名性を満たせないことが判明した場合（２０４：ｎ）、準識別子一般化設定部１１３は、該当準識別子に対応する元データテーブル１２５における各値と、単位候補テーブル１２７において上述のデフォルトの単位候補値以外の単位候補値とを、ｋ－匿名性評価部１１４に適用する処理を、デフォルトの単位候補値以外の各単位候補値ごとに実行し、単位候補値のうちｋ－匿名性を満たす制約下で最小のものを該当準識別子の一般化単位と特定し、単位候補テーブル１２７における該当準識別子の採用フラグ欄に「１」を設定する（２０６）。

　次に、ｋ－匿名化処理サーバ１００におけるｋ－匿名化処理部１１５は、上述までのステップで特定した各準識別子の一般化単位を用いた、元データテーブル１２５における各元データの値に対するｋ－匿名化の処理を実行し（２０７）、一旦、待機状態となる。

　上述のステップ２０７によるｋ－匿名化処理の結果、得られるのは図９に例示するｋ－匿名データセット１３０となる。このｋ－匿名データセット１３０は、準識別子である「年代」、「位置（緯度）」の組み合わせに対し、購入品の値が対応付けたレコードの集合体となっている。この例では、元データテーブル１２５のレコードでは「年齢」の実際値であったのが５歳刻みに一般化された準識別子である「年代」に一般化され、また、「現在地」の実際値（完全な緯度の値）であったのが少数点以下２位まで値が一般化された準識別子である「位置（緯度）」が登録されている。また各レコードには、「年代」と「位置（緯度）」という準識別子の組み合わせに対応するユーザにおける購入品の情報が設定されている。

　このようなｋ－匿名データセット１３０を図面上で表示するとすれば、図１０のようなマトリクス９００になる。図１０にて示すマトリクス９００では、５歳刻みで一般化された準識別子「年代」を横軸に、０．００５刻みで一般化され準識別子「位置（緯度）」を縦軸にとり、各準識別子に対応するユーザをドットで描画したマトリクスとなっている。このマトリクス９００におけるセル９１０は、各準識別子の一般化単位分の幅で囲まれた領域であり、このセル９１０内に含まれるドット数がｋ－匿名化における「ｋ」値以上であることが、ｋ－匿名性を満たすことに該当する。説明の便宜上、このマトリクス９００を、ｋ＝３、時刻ｔ＝ｔ１でのｋ－匿名性に関するマトリクスであるとする。

　上述のステップ２０７の完了後、すなわちｔ＝ｔ１以降、準識別子一般化設定部１１３は、所定時間経過したことを検知し（２０８：ｙ）、元データテーブル１２５より、直近の時刻ｔ２に登録された元データ（以後、直近データ）の値を読み出し、該当直近データにおける準識別子に対応する各値と、該当準識別子の一般化単位（単位候補テーブル１２７で採用フラグに「１」がセットされている値）とを、ｋ－匿名性評価部１１４に適用し、ｋ－匿名性を満たすか判定する（２０９）。

　この判定の結果、直近の時刻ｔ２でもｋ－匿名性を満たすことが判明した場合（２０９：ｙ）、準識別子一般化設定部１１３は、処理を上述のステップ２０８に戻す。他方、上述の判定の結果、直近の時刻ｔ２ではｋ－匿名性を満たさないことが判明した場合（２０９：ｎ）、準識別子一般化設定部１１３は、優先度管理テーブル１２６における優先度が高い順に、該当準識別子に対応する上述の直近データにおける各値と、単位候補テーブル１２７における各単位候補値のうち、上述の一般化単位より大きいものとを、ｋ－匿名性評価部１１４に適用し、上述の一般化単位より大きい単位候補値のうちｋ－匿名性を満たす制約下で最小のものを該当準識別子の新たな一般化単位と特定し（２１０）、処理をステップ２０８に戻す。なお、いずれかのステップにて操作者端末１０から処理終了の指示を受けた際には当該フローは終了する。

　ここで、時刻ｔ２ではｋ－匿名性を満たさない状態に対応したマトリクス１０００を図１１に例示する。図１１にて示すマトリクス１０００では、セル１０１０のうち、年代「２０～２４」、位置（緯度）「３６．３９０～３６．３９４」のセル１０１１内に含まれるドット数が１であり、「ｋ」＝３の値以下となっている。同様に、年代「２５～２９」、位置（緯度）「３６．３９０～３６．３９４」のセル１０１２内に含まれるドット数も１であり、「ｋ」＝３の値以下となっている。つまり、ｋ－匿名性を満たさない状態となっている。

　そこで準識別子一般化設定部１１３が、上述のステップ２１０を実行して、ｋ－匿名性を満たす制約下で、元の一般化単位より大きな、新たな一般化単位を特定し、この新たな一般化単位に基づいてｋ－匿名化処理を行った場合のマトリクスを図１２に例示する。図１２にて示すマトリクス１１００では、セル１１１０が、年代「２０～２４」、位置（緯度）「３６．３９０～３６．３９９」のセル１１１１と、年代「２５～２９」、位置（緯度）「３６．３９０～３６．３９９」のセル１１１２のように、準識別子「位置（緯度）」の新たな一般化単位を元の２倍に拡大したものとなっている。この場合、セル１１１０内に含まれるドット数が５であり、「ｋ」＝３の値以上となっている。同様に、セル１１１１内に含まれるドット数は６であり、「ｋ」＝３の値以上となっている。つまり、準識別子「位置（緯度）」の新たな一般化単位を元の２倍に拡大したことで、時刻ｔ２においてｋ－匿名性を満たす状態となっている。

　なお、上述のステップ２０９の結果、直近の時刻ｔ２ではｋ－匿名性を満たさないことが判明した場合（２０９：ｎ）、上述のステップ２１０ではなく、別の処理を実行することで新たな一般化単位を特定するとしてもよい。この場合のステップ２１０に代わる、処理について説明する。図１３は本実施形態のｋ－匿名化処理方法の処理手順例５を示すフロー図である。

　このフローにおいて準識別子一般化設定部１１３は、優先度管理テーブル１２６における優先度が高い順に、準識別子毎に、上述の直近データにおいて対応する各値の属性の組み合わせパターンを特定し、当該特定した属性の組み合わせパターンが示す属性分布範囲を、該当準識別子における一般化の新たな単位候補として特定する（７００）。

　例えば、上述の属性の組み合わせとは、準識別子が「位置」である場合、直近データにおいて準識別子「位置」に対応した値が示す番地の組み合わせ、を想定出来る。図１４に示す概念例のように、番地は、１番地、２番地、３番地、４番地・・・とその値が一方方向に増える性質である認識できるが、地図上での各番地の位置関係を考慮した場合、１番地に対して２番地は隣接するが、３番地は別の番地を介して１番地と隣接する、などといった状況も十分存在しうる。そこで、そうした準識別子の一般化を図る際の単位としては、番地の値の昇順ないし降順といった値の順序に囚われず、各番地の組み合わせパターンを想定すると好適であるケースも想定される。また、そうした場合、属性の組み合わせパターンが示す属性分布範囲とは、該当パターンが含む各番地で構成される、地図上での所定領域に対応する。従って、属性分布範囲は、例えば各番地に対応した座標値（上述の直近データが示す緯度値）の集合、または座標値の分布範囲式等で特定できる。

　次に準識別子一般化設定部１１３は、上述の優先度管理テーブル１２６における優先度が高い順に、該当準識別子に対応する上述の直近データにおける各値と、上述のステップ３００で特定した単位候補とを、ｋ－匿名性評価部１１４に適用し、上述の単位候補のうちｋ－匿名性を満たす制約下で属性数が最小のものを該当準識別子の一般化単位と特定する（７０１）。

　このステップ７０１の後、ｋ－匿名化処理サーバ１００におけるｋ－匿名化処理部１１５は、上述のステップ２０７を実行し、ステップ７０１で特定した各準識別子の一般化単位を用いた、元データテーブル１２５における各直近データの値に対するｋ－匿名化の処理を実行することとなる。

　なお、上述のステップ２０３、すなわち準識別子の一般化単位を最初に設定する際にも、図１３に示したフローと同様に、準識別子毎に、元データにおいて対応する各値の属性の組み合わせパターンを特定し、当該特定した属性の組み合わせパターンが示す属性分布範囲を、該当準識別子における一般化の単位候補として特定するとしてもよい。この場合、準識別子一般化設定部１１３は、上述の優先度管理テーブル１２６における優先度が高い順に、該当準識別子に対応する上述の元データにおける各値と、上述のように属性の組み合わせパターンに基づき特定した単位候補とを、ｋ－匿名性評価部１１４に適用し、単位候補のうちｋ－匿名性を満たす制約下で属性数が最小のものを該当準識別子の一般化単位と特定する。

　以上、本発明を実施するための最良の形態などについて具体的に説明したが、本発明はこれに限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能である。例えば、上述の本実施形態においては、（１）時間変化の大きな準識別子の一般化単位を優先的に小さくとる、（２）元データの時間変化に応じて一般化単位を大きくする場合、元の一般化単位の倍数とする、形態を例示したが、（１）、（２）のどちらか一方だけを満たせばよい場合も想定できる。即ち、ユーザ端末が分析対象のデータにおける傾向だけを観察したい場合、単位を倍数単位で変化させて分析時の対象範囲を時間経過前後で正確に一致させる必要性は低く、（１）の条件だけを踏まえて準識別子の一般化を行い、情報量保存を優先させるとしても良い。

　こうした本実施形態によれば、ｋ－匿名化対象の元データにおける、複数の準識別子のうち、時間変化すなわち揺らぎが相対的に大きい準識別子の一般化単位を優先的に小さく設定することで、上述の揺らぎによるデータセットにおける値変化を一般化単位の再設定で吸収し、情報量損失を最小化しつつｋ－匿名性を担保することができる。すなわち、時間変化でデータの値分布が大きく変化しても、例えば元の一般化単位の倍数のうちｋ－匿名性を満たす最小のものに再設定することで、ｋ－匿名化後のデータセットにおける情報量の減少を最小限に出来る。このように、一般化の単位を倍数で設定することで、時間経過前後で分析対象のデータ範囲の整合性を自在に維持でき、可用性の高いｋ－匿名データセットを得ることができる。逆に、可用性を重視する場合、一般化単位の倍数を任意で大きく設定することも可能であり、情報量と可用性のトレードオフが可能である。

　従って、データにおける各準識別子の一般化単位を時間変化特性に応じた適宜なものとし、匿名化したデータセットの良好な有用性及びｋ－匿名化の両立を図ることが可能となる。

　本明細書の記載により、少なくとも次のことが明らかにされる。すなわち、本実施形態のｋ－匿名化処理システムにおいて、前記演算装置は、前記一般化単位の特定処理後から所定時間経過後における匿名化対象の直近データについて、該当直近データにおける各値と前記一般化単位とを前記ｋ－匿名性評価アルゴリズムに適用し、ｋ－匿名性を満たさないことが判明した場合、前記優先度が高い順に、該当準識別子に対応する前記直近データにおける各値と、前記単位候補値のうち前記一般化単位より大きいものとを、前記ｋ－匿名性評価アルゴリズムに適用し、前記一般化単位より大きい単位候補値のうちｋ－匿名性を満たす制約下で最小のものを該当準識別子の新たな一般化単位と特定する処理を更に実行するものである、としてもよい。

　これによれば、時間経過に伴って匿名化対象のデータにおける値変化が生じる状況に対応し、ｋ－匿名性を担保しつつも一般化を最低限に抑制し、ｋ－匿名化処理で得られるデータセットの有用性を良好なものと出来る。

　また、本実施形態のｋ－匿名化処理システムにおいて、前記演算装置は、前記新たな一般化単位を特定する際、前記一般化単位の整数倍の値のうちｋ－匿名性を満たす制約下で最小のものを該当準識別子の新たな一般化単位と特定するものである、としてもよい。

　これによれば、時間経過に伴って匿名化対象のデータにおける値変化が生じる状況において、準識別子の一般化単位を整数倍で変更することで、ｋ－匿名化処理後のデータセットを分析に用いる際に、時間経過の前後で分析結果の整合性維持が容易となる。

　また、本実施形態のｋ－匿名化処理システムにおいて、前記演算装置は、前記一般化単位の特定処理後から所定時間経過後における匿名化対象の直近データについて、該当直近データにおける各値と前記一般化単位とを前記ｋ－匿名性評価アルゴリズムに適用し、ｋ－匿名性を満たさないことが判明した場合、前記優先度が高い順に、準識別子毎に、前記データにおいて対応する各値の属性の組み合わせパターンを特定し、当該特定した前記属性の組み合わせパターンが示す属性分布範囲を、該当準識別子における一般化の新たな単位候補として特定し、該当準識別子に対応する前記直近データにおける各値と、前記新たな単位候補とを、前記ｋ－匿名性評価アルゴリズムに適用し、前記新たな単位候補値のうちｋ－匿名性を満たす制約下で属性数が最小のものを該当準識別子の新たな一般化単位と特定する処理を更に実行するものである、としてもよい。

　これによれば、単純に小さい値から大きい値へと一方向に変化する年齢等とは異なり、人物の現在地を示す位置情報など、各位置情報が示す属性たる番地の降順や昇順で一般化を図るケースと、地図上において上述の属性たる各番地に対応した領域の隣接パターン別に一般化を図るケースの両方が想定出来る準識別子に関し、ｋ－匿名性を満たす制約下で属性数が最小のものを該当準識別子の新たな一般化単位と特定出来る。つまり、準識別子の属性の組み合わせを組み換えることで一般化単位を特定し、ｋ－匿名化処理に用いることが可能となる。

　また、本実施形態のｋ－匿名化処理システムにおいて、前記演算装置は、前記一般化単位の特定処理後から所定時間経過後における匿名化対象の直近データについて、該当直近データにおける各値と前記一般化単位とを前記ｋ－匿名性評価アルゴリズムに適用し、ｋ－匿名性を満たさないことが判明した場合、前記一般化単位とした組み合わせパターン以外の組み合わせパターンが示す属性分布範囲を、該当準識別子における一般化の新たな単位候補として特定し、該当準識別子に対応する前記直近データにおける各値と、前記新たな単位候補とを、前記ｋ－匿名性評価アルゴリズムに適用し、前記新たな単位候補値のうちｋ－匿名性を満たす制約下で属性数が最小のものを該当準識別子の新たな一般化単位と特定する処理を更に実行するものである、としてもよい。

　これによれば、当初から、人物の現在地を示す位置情報など、ｋ－匿名性を満たす制約下で属性数が最小のものを該当準識別子の一般化単位と特定する形態において、時間経過に伴って匿名化対象のデータにおける値変化が生じる状況に対し、準識別子の属性の組み合わせを組み換えることで新たな一般化単位を特定し、ｋ－匿名性を担保しつつも一般化を最低限に抑制し、ｋ－匿名化処理で得られるデータセットの有用性を良好なものと出来る。

　また、本実施形態のｋ－匿名化処理方法において、前記情報処理装置が、前記一般化単位の特定処理後から所定時間経過後における匿名化対象の直近データについて、該当直近データにおける各値と前記一般化単位とを前記ｋ－匿名性評価アルゴリズムに適用し、ｋ－匿名性を満たさないことが判明した場合、前記優先度が高い順に、該当準識別子に対応する前記直近データにおける各値と、前記単位候補値のうち前記一般化単位より大きいものとを、前記ｋ－匿名性評価アルゴリズムに適用し、前記一般化単位より大きい単位候補値のうちｋ－匿名性を満たす制約下で最小のものを該当準識別子の新たな一般化単位と特定する処理を更に実行するとしてもよい。

　また、本実施形態のｋ－匿名化処理方法において、前記情報処理装置が、前記新たな一般化単位を特定する際、前記一般化単位の整数倍の値のうちｋ－匿名性を満たす制約下で最小のものを該当準識別子の新たな一般化単位と特定するとしてもよい。

　また、本実施形態のｋ－匿名化処理方法において、前記情報処理装置が、前記一般化単位の特定処理後から所定時間経過後における匿名化対象の直近データについて、該当直近データにおける各値と前記一般化単位とを前記ｋ－匿名性評価アルゴリズムに適用し、ｋ－匿名性を満たさないことが判明した場合、前記優先度が高い順に、準識別子毎に、前記データにおいて対応する各値の属性の組み合わせパターンを特定し、当該特定した前記属性の組み合わせパターンが示す属性分布範囲を、該当準識別子における一般化の新たな単位候補として特定し、該当準識別子に対応する前記直近データにおける各値と、前記新たな単位候補とを、前記ｋ－匿名性評価アルゴリズムに適用し、前記新たな単位候補値のうちｋ－匿名性を満たす制約下で属性数が最小のものを該当準識別子の新たな一般化単位と特定する処理を更に実行するとしてもよい。

　また、本実施形態のｋ－匿名化処理方法において、前記情報処理装置が、前記一般化単位の特定処理後から所定時間経過後における匿名化対象の直近データについて、該当直近データにおける各値と前記一般化単位とを前記ｋ－匿名性評価アルゴリズムに適用し、ｋ－匿名性を満たさないことが判明した場合、前記一般化単位とした組み合わせパターン以外の組み合わせパターンが示す属性分布範囲を、該当準識別子における一般化の新たな単位候補として特定し、該当準識別子に対応する前記直近データにおける各値と、前記新たな単位候補とを、前記ｋ－匿名性評価アルゴリズムに適用し、前記新たな単位候補値のうちｋ－匿名性を満たす制約下で属性数が最小のものを該当準識別子の新たな一般化単位と特定する処理を更に実行するとしてもよい。

１０　操作者端末
２０　ネットワーク
３０　外部サーバ
１００　ｋ－匿名化処理サーバ（ｋ－匿名化処理システム）
１０１　記憶装置
１０２　プログラム
１０３　メモリ
１０４　演算装置
１０５　通信装置
１１１　項目分類部
１１２　識別子削除部
１１３　準識別子一般化設定部
１１４　ｋ－匿名性評価部
１１５　匿名化処理部
１２５　元データテーブル
１２６　優先度管理テーブル
１２７　単位候補テーブル
１３０　ｋ－匿名データセット

Claims

　匿名化対象のデータと当該データにおける各準識別子の時間変化特性の情報を記憶する記憶装置と、
　前記時間変化特性の情報に基づいて、準識別子間での時間変化の大きさに応じた優先度を各準識別子について判定する処理と、
　準識別子毎に、前記データにおいて対応する各値の間隔を算定し、当該算定した間隔に基づいて該当準識別子における一般化の単位候補値を特定する処理と、
　前記優先度が高い順に、該当準識別子に対応する前記データにおける各値と前記単位候補値とを、所定のｋ－匿名性評価アルゴリズムに適用し、前記単位候補値のうちｋ－匿名性を満たす制約下で最小のものを該当準識別子の一般化単位と特定し、当該特定した各準識別子の一般化単位を用いた前記データに対するｋ－匿名化の処理を実行する演算装置と、
　を備えることを特徴とするｋ－匿名化処理システム。
　前記演算装置は、
　前記一般化単位の特定処理後から所定時間経過後における匿名化対象の直近データについて、該当直近データにおける各値と前記一般化単位とを前記ｋ－匿名性評価アルゴリズムに適用し、ｋ－匿名性を満たさないことが判明した場合、前記優先度が高い順に、該当準識別子に対応する前記直近データにおける各値と、前記単位候補値のうち前記一般化単位より大きいものとを、前記ｋ－匿名性評価アルゴリズムに適用し、前記一般化単位より大きい単位候補値のうちｋ－匿名性を満たす制約下で最小のものを該当準識別子の新たな一般化単位と特定する処理を更に実行するものである、
　ことを特徴とする請求項１に記載のｋ－匿名化処理システム。
　前記演算装置は、
　前記新たな一般化単位を特定する際、前記一般化単位の整数倍の値のうちｋ－匿名性を満たす制約下で最小のものを該当準識別子の新たな一般化単位と特定するものである、
　ことを特徴とする請求項２に記載のｋ－匿名化処理システム。
　前記演算装置は、
　前記一般化単位の特定処理後から所定時間経過後における匿名化対象の直近データについて、該当直近データにおける各値と前記一般化単位とを前記ｋ－匿名性評価アルゴリズムに適用し、ｋ－匿名性を満たさないことが判明した場合、前記優先度が高い順に、準識別子毎に、前記データにおいて対応する各値の属性の組み合わせパターンを特定し、当該特定した前記属性の組み合わせパターンが示す属性分布範囲を、該当準識別子における一般化の新たな単位候補として特定し、該当準識別子に対応する前記直近データにおける各値と、前記新たな単位候補とを、前記ｋ－匿名性評価アルゴリズムに適用し、前記新たな単位候補値のうちｋ－匿名性を満たす制約下で属性数が最小のものを該当準識別子の新たな一般化単位と特定する処理を更に実行するものである、
　ことを特徴とする請求項１に記載のｋ－匿名化処理システム。
　匿名化対象のデータと当該データにおける各準識別子の時間変化特性の情報を記憶する記憶装置と、
　前記時間変化特性の情報に基づいて、準識別子間での時間変化の大きさに応じた優先度を各準識別子について判定する処理と、
　準識別子毎に、前記データにおいて対応する各値の属性の組み合わせパターンを特定し、当該特定した前記属性の組み合わせパターンが示す属性分布範囲を、該当準識別子における一般化の単位候補として特定する処理と、
　前記優先度が高い順に、該当準識別子に対応する前記データにおける各値と、前記単位候補とを、所定のｋ－匿名性評価アルゴリズムに適用し、前記単位候補のうちｋ－匿名性を満たす制約下で属性数が最小のものを該当準識別子の一般化単位と特定し、当該特定した各準識別子の一般化単位を用いた前記データに対するｋ－匿名化の処理を実行する演算装置と、
　を備えることを特徴とするｋ－匿名化処理システム。
　前記演算装置は、
　前記一般化単位の特定処理後から所定時間経過後における匿名化対象の直近データについて、該当直近データにおける各値と前記一般化単位とを前記ｋ－匿名性評価アルゴリズムに適用し、ｋ－匿名性を満たさないことが判明した場合、前記一般化単位とした組み合わせパターン以外の組み合わせパターンが示す属性分布範囲を、該当準識別子における一般化の新たな単位候補として特定し、該当準識別子に対応する前記直近データにおける各値と、前記新たな単位候補とを、前記ｋ－匿名性評価アルゴリズムに適用し、前記新たな単位候補値のうちｋ－匿名性を満たす制約下で属性数が最小のものを該当準識別子の新たな一般化単位と特定する処理を更に実行するものである、
　ことを特徴とする請求項５に記載のｋ－匿名化処理システム。
　匿名化対象のデータと当該データにおける各準識別子の時間変化特性の情報を記憶する記憶装置を備えた情報処理装置が、
　前記時間変化特性の情報に基づいて、準識別子間での時間変化の大きさに応じた優先度を各準識別子について判定する処理と、
　準識別子毎に、前記データにおいて対応する各値の間隔を算定し、当該算定した間隔に基づいて該当準識別子における一般化の単位候補値を特定する処理と、
　前記優先度が高い順に、該当準識別子に対応する前記データにおける各値と前記単位候補値とを、所定のｋ－匿名性評価アルゴリズムに適用し、前記単位候補値のうちｋ－匿名性を満たす制約下で最小のものを該当準識別子の一般化単位と特定し、当該特定した各準識別子の一般化単位を用いた前記データに対するｋ－匿名化の処理と、
　を実行することを特徴とするｋ－匿名化処理方法。
　前記情報処理装置が、
　前記一般化単位の特定処理後から所定時間経過後における匿名化対象の直近データについて、該当直近データにおける各値と前記一般化単位とを前記ｋ－匿名性評価アルゴリズムに適用し、ｋ－匿名性を満たさないことが判明した場合、前記優先度が高い順に、該当準識別子に対応する前記直近データにおける各値と、前記単位候補値のうち前記一般化単位より大きいものとを、前記ｋ－匿名性評価アルゴリズムに適用し、前記一般化単位より大きい単位候補値のうちｋ－匿名性を満たす制約下で最小のものを該当準識別子の新たな一般化単位と特定する処理を更に実行することを特徴とする請求項７に記載のｋ－匿名化処理方法。
　前記情報処理装置が、
　前記新たな一般化単位を特定する際、前記一般化単位の整数倍の値のうちｋ－匿名性を満たす制約下で最小のものを該当準識別子の新たな一般化単位と特定することを特徴とする請求項８に記載のｋ－匿名化処理方法。
　前記情報処理装置が、
　前記一般化単位の特定処理後から所定時間経過後における匿名化対象の直近データについて、該当直近データにおける各値と前記一般化単位とを前記ｋ－匿名性評価アルゴリズムに適用し、ｋ－匿名性を満たさないことが判明した場合、前記優先度が高い順に、準識別子毎に、前記データにおいて対応する各値の属性の組み合わせパターンを特定し、当該特定した前記属性の組み合わせパターンが示す属性分布範囲を、該当準識別子における一般化の新たな単位候補として特定し、該当準識別子に対応する前記直近データにおける各値と、前記新たな単位候補とを、前記ｋ－匿名性評価アルゴリズムに適用し、前記新たな単位候補値のうちｋ－匿名性を満たす制約下で属性数が最小のものを該当準識別子の新たな一般化単位と特定する処理を更に実行することを特徴とする請求項７に記載のｋ－匿名化処理方法。
　匿名化対象のデータと当該データにおける各準識別子の時間変化特性の情報を記憶する記憶装置を備えた情報処理装置が、
　前記時間変化特性の情報に基づいて、準識別子間での時間変化の大きさに応じた優先度を各準識別子について判定する処理と、
　準識別子毎に、前記データにおいて対応する各値の属性の組み合わせパターンを特定し、当該特定した前記属性の組み合わせパターンが示す属性分布範囲を、該当準識別子における一般化の単位候補として特定する処理と、
　前記優先度が高い順に、該当準識別子に対応する前記データにおける各値と、前記単位候補とを、所定のｋ－匿名性評価アルゴリズムに適用し、前記単位候補のうちｋ－匿名性を満たす制約下で属性数が最小のものを該当準識別子の一般化単位と特定し、当該特定した各準識別子の一般化単位を用いた前記データに対するｋ－匿名化の処理と、
　を実行することを特徴とするｋ－匿名化処理方法。
　前記情報処理装置が、
　前記一般化単位の特定処理後から所定時間経過後における匿名化対象の直近データについて、該当直近データにおける各値と前記一般化単位とを前記ｋ－匿名性評価アルゴリズムに適用し、ｋ－匿名性を満たさないことが判明した場合、前記一般化単位とした組み合わせパターン以外の組み合わせパターンが示す属性分布範囲を、該当準識別子における一般化の新たな単位候補として特定し、該当準識別子に対応する前記直近データにおける各値と、前記新たな単位候補とを、前記ｋ－匿名性評価アルゴリズムに適用し、前記新たな単位候補値のうちｋ－匿名性を満たす制約下で属性数が最小のものを該当準識別子の新たな一般化単位と特定する処理を更に実行することを特徴とする請求項１１に記載のｋ－匿名化処理方法。