WO2014073370A1

WO2014073370A1 - 情報処理装置、情報処理方法及びコンピュータプログラム

Info

Publication number: WO2014073370A1
Application number: PCT/JP2013/078594
Authority: WO
Inventors: 雄田中; 白井　太三; 洋平川元; 一也神尾; 紘一作本
Original assignee: ソニー株式会社
Priority date: 2012-11-12
Filing date: 2013-10-22
Publication date: 2014-05-15
Also published as: US20150269208A1; US10108650B2

Abstract

【課題】データの解析結果から起こるプライバシ侵害のリスクを適切に測ることが可能な情報処理装置を提供する。【解決手段】データベースのテーブル及び前記テーブルに対する任意の問い合わせに基づいて別の異なる問い合わせを１つ以上生成する問い合わせ生成部と、前記問い合わせ生成部が生成した前記新たな問い合わせの結果が前記任意の問い合わせの結果と矛盾しない、前記テーブルとは異なるテーブルの数を探索するテーブル探索部と、を備える、情報処理装置が提供される。

Description

情報処理装置、情報処理方法及びコンピュータプログラム

　本開示は、情報処理装置、情報処理方法及びコンピュータプログラムに関する。

　インターネットやセンサ等の技術の発達により、情報の収集は容易になってきている。情報は活発に収集、解析され、様々なビジネスに利用されている。古くは銀行による顧客の与信判定のために行動履歴の解析が用いられ、近年では、インターネットを利用した通信販売サイトにおける、新たな商品を推薦するために、顧客の購買履歴等の解析が用いられる。また、ユーザの個人情報を売買目的で収集し、その収益の一部をユーザに還元するという、より直接的なビジネスも生まれている。

　このように情報の収集が容易になってきている一方、ユーザのプライバシの問題も顕在化してきており、個人情報の漏洩事件や、プライバシ侵害事件が多数発生している。より高度なプライバシ侵害として、複数のデータベースに登録されている攻撃対象の共通情報を利用して名寄せをすることで、その攻撃対象のプライバシ情報を特定するものもある（非特許文献１）。

　このようなプライバシの問題は２０００年頃から明確に指摘されるようになり、研究が活発に行われ様々な防止技術が開発されている（例えば非特許文献２参照）。しかし、その防止技術の利用は一部に留まっている。

　法規制の動きも進んできており、プライバシ保護に最も積極的と言われているＥＵでは、個人情報のビジネス利用に関して利用の事前承諾を求めるオプトインを基本原則とした規制案を提案している。

特開２０１１－１００１１６号公報

L. Sweeney. k-anonymity: a model for protecting privacy.International Journal on Uncertainty, Fuzziness and Knowledge-based Systems,10(5):557-570, 2002 M. Atzori, F. Bonchi, F. Giannotti, D. Pedreschi. Anonymity PreservingPattern Discovery. The International Journal on Very Large Data Bases, Volume17 Issue 4, July 2008.

　以上のような事情から、個人情報をビジネスに利用する動きと保護する動きの間にはトレードオフが存在する。適切に企業がビジネス利用とプライバシ保護のバランスを取るためには、このトレードオフを正確に計測する技術が必要である．

　そこで本開示は、データの解析結果から起こるプライバシ侵害のリスクを適切に測ることが可能な、新規かつ改良された情報処理装置、情報処理方法及びコンピュータプログラムを提供する。

　本開示によれば、データベースのテーブル及び前記テーブルに対する任意の問い合わせに基づいて別の異なる問い合わせを１つ以上生成する問い合わせ生成部と、前記問い合わせ生成部が生成した前記別の異なる問い合わせの結果が前記任意の問い合わせの結果と矛盾しない、前記テーブルとは異なるテーブルの数を探索するテーブル探索部と、を備える、情報処理装置が提供される。

　また本開示によれば、データベースのテーブル及び前記テーブルに対する任意の問い合わせを他の装置に提供するテーブル提供部と、前記テーブルに対する任意の問い合わせに基づいて生成される別の異なる問い合わせの結果が前記任意の問い合わせの結果と矛盾しない、前記テーブルとは異なるテーブルの数の情報に基づく、前記任意の問い合わせの結果から個人の属性情報が特定されるか否かの情報を前記他の装置から取得する結果取得部と、を備える、情報処理装置が提供される。

　また本開示によれば、サーバ装置及び端末装置を備え、前記端末装置は、データベースのテーブルに対する任意の問い合わせを前記サーバ装置に提供するテーブル提供部と、前記テーブルに対する任意の問い合わせに基づいて生成される別の異なる問い合わせの結果が前記任意の問い合わせの結果と矛盾しない、前記テーブルとは異なるテーブルの数の情報に基づく、前記任意の問い合わせの結果を開示しても該問い合わせの結果から個人の属性情報が特定されないかどうかの情報を前記サーバ装置から取得する結果取得部と、を備え、前記サーバ装置は、前記テーブル及び前記端末装置から取得した前記テーブルに対する任意の問い合わせに基づいて前記別の異なる問い合わせを１つ以上生成する問い合わせ生成部と、前記問い合わせ生成部が生成した前記別の異なる問い合わせの結果が前記任意の問い合わせの結果と矛盾しない、前記テーブルとは異なるテーブルの数を探索し、探索結果に基づく、前記任意の問い合わせの結果を開示しても該問い合わせの結果から個人の属性情報が特定されないかどうかの情報を前記端末装置に提供するテーブル探索部と、を備える、情報処理システムが提供される。

　また本開示によれば、データベースのテーブル及び前記テーブルに対する任意の問い合わせに基づいて別の異なる問い合わせを１つ以上生成することと、生成された前記別の異なる問い合わせの結果が前記任意の問い合わせの結果と矛盾しない、前記テーブルとは異なるテーブルの数を探索することと、を備える、情報処理方法が提供される。

　また本開示によれば、データベースのテーブル及び前記テーブルに対する任意の問い合わせに基づいて別の異なる問い合わせを１つ以上生成することと、生成された前記別の異なる問い合わせの結果が前記任意の問い合わせの結果と矛盾しない、前記テーブルとは異なるテーブルの数を探索することと、を実行させる、コンピュータプログラムが提供される。

　以上説明したように本開示によれば、データの解析結果から起こるプライバシ侵害のリスクを適切に測ることが可能な、新規かつ改良された情報処理装置、情報処理方法及びコンピュータプログラムを提供することができる。

本開示の一実施形態にかかる情報処理システム１の構成例を示す説明図である。本開示の一実施形態における用語の定義のための説明図である。本開示の一実施形態における用語の定義のための説明図である。本開示の一実施形態における用語の定義のための説明図である。本開示の一実施形態における用語の定義のための説明図である。本開示の一実施形態における用語の定義のための説明図である。本実施形態におけるアルゴリズムで用いられるラベル付き多重有向グラフの例を示す説明図である。本実施形態における攻撃者の特徴を示す説明図である。Ｈｏｍｏｇｅｎｅｉｔｙ　Ａｔｔａｃｋの例を示す説明図である。テーブルの一例を示す説明図である。テーブルの一例を示す説明図である。テーブルの一例を示す説明図である。本開示の一実施形態に係るデータ解析装置１００が実行するアルゴリズムの概要を示す説明図である。本開示の一実施形態に係るデータ解析装置１００が実行するグラフ生成アルゴリズムの例を示す説明図である。本開示の一実施形態に係るデータ解析装置１００が実行するグラフ生成アルゴリズムを説明するための説明図である。本開示の一実施形態に係るデータ解析装置１００が実行するグラフ生成アルゴリズムを説明するための説明図である。本開示の一実施形態に係るデータ解析装置１００が実行するグラフ生成アルゴリズムを説明するための説明図である。本開示の一実施形態に係るデータ解析装置１００が実行するグラフ生成アルゴリズムを説明するための説明図である。本開示の一実施形態に係るデータ解析装置１００が実行するグラフ生成アルゴリズムを説明するための説明図である。本開示の一実施形態に係るデータ解析装置１００が実行するグラフ生成アルゴリズムを説明するための説明図である。本開示の一実施形態に係るデータ解析装置１００が実行するグラフ生成アルゴリズムを説明するための説明図である。本開示の一実施形態に係るデータ解析装置１００が実行するグラフ生成アルゴリズムを説明するための説明図である。本開示の一実施形態に係るデータ解析装置１００が実行するグラフ生成アルゴリズムを説明するための説明図である。本開示の一実施形態に係るデータ解析装置１００が実行するグラフ生成アルゴリズムを説明するための説明図である。本開示の一実施形態に係るデータ解析装置１００が実行するグラフ生成アルゴリズムを説明するための説明図である。本開示の一実施形態に係るデータ解析装置１００が実行するグラフ生成アルゴリズムを説明するための説明図である。本開示の一実施形態に係るデータ解析装置１００が実行するグラフ生成アルゴリズムを説明するための説明図である。本開示の一実施形態に係るデータ解析装置１００が実行するグラフ生成アルゴリズムを説明するための説明図である。本開示の一実施形態に係るデータ解析装置１００が実行するグラフ生成アルゴリズムを説明するための説明図である。本開示の一実施形態に係るデータ解析装置１００が実行するループチェックアルゴリズムの例を示す説明図である。本開示の一実施形態に係るデータ解析装置１００が実行するループチェックアルゴリズムを説明するための説明図である。本開示の一実施形態に係るデータ解析装置１００が実行するループチェックアルゴリズムを説明するための説明図である。本開示の一実施形態に係る情報処理システム全体の動作例を示す流れ図である。本開示の一実施形態に係る情報処理システム全体の動作例を示す流れ図である。情報処理装置のハードウェア構成を示す説明図である。

　以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

　なお、説明は以下の順序で行うものとする。
　＜１．既存技術の説明＞
　＜２．本開示の一実施形態＞
　［システム構成例］
　［用語の定義］
　［プライバシの定義］
　［アルゴリズムの動作］
　＜３．ハードウェア構成例＞
　＜４．まとめ＞

　＜１．既存技術の説明＞
　まず、本開示の好適な実施の形態について詳細に説明する前に、既存技術の説明を行い、続いて既存技術の問題点について説明する。その後に本開示の好適な実施の形態について詳細に説明する。

　データベースの取り扱いや、データ解析時のプライバシを考慮する技術分野は、Ｐｒｉｖａｃｙ－Ｐｒｅｓｅｒｖｉｎｇ　Ｄａｔａ　Ｍｉｎｉｎｇと呼ばれている。この技術分野では、データの収集・整形・解析に至る、データマイニングの一連の流れのうちの各段階におけるプライバシ保護の手法が研究の対象となっている。本開示に関係のある従来の研究として、非特許文献１、２等がある。

　非特許文献１では、公開情報を利用した名寄せにより個人の匿名性が無くなり、プライバシ情報が漏洩することを問題にしている。非特許文献１によると、公開情報を利用した脱匿名化からマサチューセッツ州知事の医療記録が特定可能である。さらに１９９０年のｔｈｅ　ＵＳ　１９９０　ｃｅｎｓｕｓ　ｄａｔａによれば８７％の人が、郵便番号（ｚｉｐｃｏｄｅ）、性別及び生年月日の組から一意に特定することが可能であることを示している。この問題に対して非特許文献１では、名寄せに利用される情報の粒度を上げて（例えばｚｉｐｃｏｄｅ：１４１００３１→１４１＊＊＊＊、性別：男→人間等のように抽象化する）、匿名性を上げる手法が提案されている。そして非特許文献１では、この匿名度を測るためｋ－匿名性と呼ばれる指標が提案されている。この研究以降、プライバシ保護処理を施しつつデータを公開する技術（プライバシ保護データ公開）の研究が活発になされるようになった。

　一方非特許文献２では、上記のプライバシ保護データ公開とは異なり、データの解析結果に対するプライバシ問題に取り組んでいる様子が開示されている。非特許文献２によると、スーパーマーケットの顧客購入履歴の頻出集合を計算した結果から、非特許文献１で開示されている方法で、顧客が購入したという事実を隠したいような品目を特定できる場合があることを例示し、プライバシ侵害が可能であることが示されている。顧客購入履歴の頻出集合とは、購入パターン者数が予め定めた閾値以上の購入パターンのことである。例えば閾値を５０人と設定している場合は、「卵と牛乳を購入」した顧客数が５３人であったら、５３＞５０であるので、購入パターン「卵と牛乳を購入」は頻出集合である。この問題に対処するため、非特許文献２では、ｋ－匿名性とのアナロジーを用いたｋ－匿名パターンと呼ばれるプライバシ指標が提案されている。ここでパターンとは、そのパターンに当てはまる顧客のグループであると解釈することができる。従って、どのグループにも顧客がｋ人以上いれば、各グループ内の顧客同士の匿名性が担保されるというアイデアに基づいている。

　また特許文献１では、維持・撹乱法と呼ばれる、データを撹乱することでプライバシの保護を行う手法が開示されている。特許文献１では、Ｐｋ－匿名性というｋ－匿名性と似た概念の指標が提案されており、従来の撹乱法では明確でなかったデータの秘匿度を明らかにし、簡便な手法でトレードオフを正確に取れるようにしている。

　このような既存技術は、全てデータベース中の個人のプライバシの保護を目的としており、データの有用性とプライバシとのトレードオフを制御する技術の提案となっている。これらの既存技術は、データベース・プライバシと呼ばれる分野に関するもので、データベースの開示が必要とされる場合に特に有効性を発揮する技術である。

　しかしながら，データベースそのものの開示ではなく、データの解析結果の開示が必要とされる場合も存在する。

　まず、ビジネスインテリジェンスと呼ばれる分野を例に説明する。ビジネスインテリジェンスとは、企業に蓄積されたデータを生のままではなく、そのデータの集約・整理・分析を行い、結果を通じて経営上の意思決定に役立てる手法である。この場合、正しい意思決定のために正確なデータ解析結果が要求され、データ解析結果はその企業の知識として、他社の知識との交換材料にされることもあるといった状況が考えられる。従って、元のデータを歪ませることは好まれない。

　また、別の例としてレコメンデーション技術の分野を挙げて説明する。レコメンデーション技術とは、顧客の提供データ（例えば、顧客の個人情報や購買データ）を解析することで顧客の嗜好情報を抽出し、その結果に基づき顧客に最適な商品を推薦する技術を指す。このようなレコメンデーション技術の下でも、解析結果は正確であることが望ましいので、提供データにノイズを含ませることはできれば避けたいところである。

　しかしながら、いずれの例についても、解析結果や推薦結果から、その元になったデータベースに属する個人へのプライバシ侵害のリスクが存在する。ビジネスインテリジェンスの例では解析結果を受け取った他社が、レコメンデーションの例では推薦結果を受けた顧客が、それぞれ潜在的なプライバシ侵害者であり、データベースに属する個人のプライバシ情報を推定しようとする恐れがある。このプライバシ侵害のリスクは、データベースの開示とそれに伴うプライバシの問題を扱っていたデータベース・プライバシとは問題点が異なる。実際、既存の技術はデータの解析結果からのプライバシ漏洩リスクを直接評価することには対応していない。

　このようなデータの解析結果からのプライバシ漏洩リスクを扱った研究としては非特許文献２がある。非特許文献２で開示されている技術は、ｋ－匿名パターンに基づく匿名性を保証する。しかし，それ以上のプライバシの問題は非特許文献２で開示されている技術のスコープ外になっている。実際スコープ外の問題として均一性攻撃と呼ばれるプライバシ侵害攻撃がある。均一性攻撃とは、Ｑｕａｓｉ－ｉｄｅｎｔｉｆｉｅｒとそれに結びつくＳｅｎｓｉｔｉｖｅ　Ａｔｔｒｉｂｕｔｅと呼ばれる個人の属性情報も扱う場合、ｋ－匿名性によってあるＱｕａｓｉ－ｉｄｅｎｔｉｆｉｅｒに当てはまる個人がｋ人居たとしても、それに結びつくＳｅｎｓｉｔｉｖｅ　Ａｔｔｒｉｂｕｔｅの値が一通りの場合、そのｋ人に当てはまる個人のＳｅｎｓｉｔｉｖｅ　Ａｔｔｒｉｂｕｔｅの値は一意に特定されてしまうというものである。

　そこで、以下で説明する本開示の実施の形態は、以上の問題点に対処するものであり、データの解析者が他者に解析結果を開示した場合に負うことになるプライバシ漏洩のリスクを計測する技術に関するものである。

　＜２．本開示の一実施形態＞
　［システム構成例］
　まず、図面を参照しながら本開示の一実施形態にかかる情報処理システムの構成例を説明する。図１は、本開示の一実施形態にかかる情報処理システム１の構成例を示す説明図である。以下、図１を用いて本開示の一実施形態にかかる情報処理システム１の構成例について説明する。

　図１に示したように、本開示の一実施形態に係る情報処理システム１は、データ管理装置１０と、データ利用装置２０と、データ解析装置１００と、を含んで構成される。

　データ管理装置１０は、データをデータベースで管理する装置である。データ管理装置１０が管理するデータは特定のものに限られない。例えば、データ管理装置１０は、顧客の購買履歴の情報を管理してもよく、患者の病歴の情報を管理してもよい。データ管理装置１０は、管理しているデータをデータ利用装置２０に提供することができるが、提供の際には生のデータを提供するのではなく、与えられた条件を満たす個人がテーブル中に何人属しているかを数え上げたものを提供する。この、与えられた条件を満たす個人がテーブル中に何人属しているかを数え上げるクエリのことをＣｏｕｎｔ　ｑｕｅｒｙと称する。

　図１に示したように、データ管理装置１０は、テーブル提供部１１と、結果取得部１２と、を含んで構成される。テーブル提供部１１は、データ解析装置１００に対して、解析対象のテーブル及び当該テーブルに対するクエリ（Ｃｏｕｎｔ　ｑｕｅｒｙ）を提供する。結果取得部１２は、テーブル提供部１１が提供したテーブル及びクエリに対するデータ解析装置１００での解析結果を取得する。

　データ利用装置２０は、データ管理装置１０から提供されるデータを利用する装置である。例えば、データ管理装置１０が顧客の購買履歴の情報を管理していれば、データ利用装置２０は、データ解析装置１００から提供されるデータを用いて売上の分析や顧客への商品の推薦等を実行することができる。また、データ管理装置１０が患者の病歴の情報を管理していれば、データ利用装置２０は、データ解析装置１００から提供されるデータを用いて病気に関する情報を医療機関等に提供することが出来る。

　しかし、データ利用装置２０を利用する利用者は常に善意のデータの利用を行なうとは限らない。データ利用装置２０を利用する利用者は、データ管理装置１０から提供されるデータを解析して、Ｈｏｍｏｇｅｎｅｉｔｙ　Ａｔｔａｃｋと呼ばれるプライバシ侵害を試みようとする場合がある。そのため、データ管理装置１０からデータ利用装置２０へ提供されるデータは、データ利用装置２０での利用に適したものでありながらも、プライバシ侵害とならないようなデータであることが求められる。

　データ解析装置１００は、データ管理装置１０が公開しようとするデータがプライバシ侵害にならないかどうかを解析する装置である。図１に示したように、データ解析装置１００は、データ解析部１１０と、結果判定部１２０と、を含んで構成される。

　データ解析部１１０は、データ管理装置１０が管理しているデータに対する解析を実行する。データ解析部１１０が実行する解析処理の詳細については後述するが、簡単に説明すると、データ解析部１１０は、データ管理装置１０が管理しているテーブルに対するＣｏｕｎｔ　ｑｕｅｒｙの結果を提供することで予想される、テーブルに属する個人に対するＨｏｍｏｇｅｎｅｉｔｙ　Ａｔｔａｃｋのリスクの計測に用いられる情報を生成する。具体的には、データ解析部１１０は、データベースのテーブル及びテーブルに対する任意の問い合わせに基づいて別の異なる問い合わせを１つ以上生成する。データ解析部１１０は、テーブルに属する個人に対するＨｏｍｏｇｅｎｅｉｔｙ　Ａｔｔａｃｋのリスクの計測に用いられる情報を生成すると、生成した情報を結果判定部１２０に提供する。

　結果判定部１２０は、データ解析部１１０が生成した情報を用いて、データ管理装置１０が管理しているテーブルが外部に提供されてもプライバシ侵害とならないかどうかを判定する。具体的には、結果判定部１２０は、データ解析部１１０が生成した別の異なる問い合わせの結果が、データ解析部１１０に提供された任意の問い合わせの結果と矛盾しない、データ解析部１１０に提供されたテーブルとは異なるテーブルの数を探索することで、プライバシ侵害とならないかどうかを判定する。結果判定部１２０は、判定結果をデータ管理装置１０に提供する。

　本開示の一実施形態に係る情報処理システム１は、図１に示したような構成を有することで、データ管理装置１０が管理し、データ利用装置２０に提供されるデータが、データ利用装置２０でＨｏｍｏｇｅｎｅｉｔｙ　Ａｔｔａｃｋを実行されたとしてもプライバシ侵害とならないかどうかをデータ解析装置１００で判定することができる。

　以上、図１を用いて本開示の一実施形態に係る情報処理システム１の構成例について説明した。次に、本開示の一実施形態に係る情報処理システム１の動作例について説明するが、情報処理システム１の動作例について説明する前に、説明に用いられる用語の定義及び本実施形態におけるプライバシの定義を説明する。

　［用語の定義］
　まず本実施形態の説明に用いられる用語の定義を示す。図２及び図３は、本開示の一実施形態における用語の定義のための説明図である。図２及び図３には、用語の定義の説明に用いられるテーブル１３０が示されている。

　符号１３１で示した「年齢」のように、個人に関する特徴を示す項目を属性（Ａｔｔｒｉｂｕｔｅ）と定義する。従って、図２に示したテーブル１３０の属性は「顧客番号」「顧客名」「性別」「年齢」「地域コード」「商品コード」「利用額」である。本実施形態では、属性は離散値を取るものとする。また、符号１３２で示したような、属性の具体的な値を属性値（Ａｔｔｒｉｂｕｔｅ　Ｖａｌｕｅ）と定義する。

　また符号１３３で示したような、個人に関する属性値の集まりをエントリ（Ｅｎｔｒｙ）と定義する。図２に示したテーブル１３０には、１０個のエントリが含まれている。なお、エントリに含まれる各属性は、以下で説明するＩＤ、Ｑｕａｓｉ－ＩＤ、Ｓｅｎｓｉｔｉｖｅ　Ａｔｔｒｉｂｕｔｅの３種類に分類されている。

　ＩＤは、個人名に代表されるような、個人を識別する識別子である。図３に示したテーブル１３０では、符号１３４で示した「顧客番号」及び「顧客名」がＩＤに該当する。プライバシ保護という文脈では、このＩＤは通常はデータベースから秘匿されたり、削除されたりするものである。

　Ｓｅｎｓｉｔｉｖｅ　Ａｔｔｒｉｂｕｔｅは、テーブル中にあって、個人のプライバシに関わると考えられる属性、またはそのテーブルの性格を決定づけられていると考えられる属性である。図３に示したテーブル１３０では、「商品コード」及び「利用額」がＳｅｎｓｉｔｉｖｅ　Ａｔｔｒｉｂｕｔｅに該当する。攻撃者は、Ｈｏｍｏｇｅｎｅｉｔｙ　Ａｔｔａｃｋにおいて、攻撃対象に関するＳｅｎｓｉｔｉｖｅ　Ａｔｔｒｉｂｕｔｅの属性値（Ｓｅｎｓｉｔｉｖｅ　Ａｔｔｒｉｂｕｔｅ　Ｖａｌｕｅ）を知ろうとする。

　本実施形態におけるＱｕａｓｉ－ＩＤは、ＩＤとＳｅｎｓｉｔｉｖｅ　Ａｔｔｒｉｂｕｔｅ以外の属性である。図３に示したテーブル１３０では、「性別」「年齢」及び「地域コード」がＱｕａｓｉ－ＩＤに該当する。攻撃者は、Ｈｏｍｏｇｅｎｅｉｔｙ　Ａｔｔａｃｋにおいて、攻撃対象のＱｕａｓｉ－ＩＤの属性値（Ｑｕａｓｉ－ＩＤ　Ｖａｌｕｅ）を知っており、その情報を攻撃に利用するものとする。

　そして、エントリの集合がテーブルである。通常のリレーショナルデータベースでは、図２及び図３のテーブル１３０のように、テーブルは各個人のエントリを属性値の列ベクトルとしてリスト化したもので表現される。しかし本実施形態では、説明の便宜上、テーブルについて異なる表現を使用する。

　全てのＱｕａｓｉ－ＩＤ　Ｖａｌｕｅの組を行のインデックス、全てのＳｅｎｓｉｔｉｖｅ　Ａｔｔｒｉｂｕｔｅ　Ｖａｌｕｅの組を列のインデックスとするような行列を考える。この場合、各行列要素の数値を、その行列要素のインデックスが示す属性値を持つような個人の人数とし、本実施形態では、以上のような行列をテーブルと定義する。

　図４及び図５は、本開示の一実施形態における用語の定義のための説明図である。図４のテーブル１４０は、説明の便宜上、Ｑｕａｓｉ－ＩＤとＳｅｎｓｉｔｉｖｅ　Ａｔｔｒｉｂｕｔｅをそれぞれ１項目としたテーブルである。図４のテーブル１４０では、患者名がＩＤ、病名がＳｅｎｓｉｔｉｖｅ　Ａｔｔｒｉｂｕｔｅ、年代がＱｕａｓｉ－ＩＤにそれぞれ該当する。患者名は通常はデータベースから秘匿されたり、削除されたりする。病名は、データマイニングでは重要な情報ではあるが、患者のプライバシに関わる情報でもある。また年代は、ＩＤとＳｅｎｓｉｔｉｖｅ　Ａｔｔｒｉｂｕｔｅ以外の属性であり、個人情報ではあるがさほど重要ではない情報である。

　この図４に示したテーブル１４０を、全てのＱｕａｓｉ－ＩＤ　Ｖａｌｕｅの組を行のインデックス、全てのＳｅｎｓｉｔｉｖｅ　Ａｔｔｒｉｂｕｔｅ　Ｖａｌｕｅの組を列のインデックスとするような行列で表し、各行列要素の数値を、その行列要素のインデックスが示す属性値を持つような個人の人数としたものが、図５に示したテーブルである。符号１４１は、テーブル１４０における可能なＱｕａｓｉ－ＩＤの集合を示し、Ｓｅｔ　ｏｆ　ｑｕａｓｉ－ｉｄｅｎｔｉｆｉｅｒｓ（ＱＩｓ）とする。符号１４２は、テーブル１４０における可能なＳｅｎｓｉｔｉｖｅ　Ａｔｔｒｉｂｕｔｅの集合を示し、Ｓｅｔ　ｏｆ　ｓｅｎｓｉｔｉｖｅ　ａｔｔｒｉｂｕｔｅｓ（ＳＡｓ）とする。符号１４３は要素の数を示しており、符号１４３が示しているのは、「３０代で脳卒中である患者の数」である。

　本実施形態におけるテーブルの数学的な定義は以下の通りである。

　（本実施形態におけるテーブルの数学的な定義）
　有離散集合Ｑ、ＳをそれぞれＳｅｔ　ｏｆ　ｑｕａｓｉ－ｉｄｅｎｔｉｆｉｅｒｓ（ＱＩｓ）及びＳｅｔ　ｏｆ　ｓｅｎｓｉｔｉｖｅ　ａｔｔｒｉｂｕｔｅｓ（ＳＡｓ）とする。この場合、要素が非負整数の行列Ｔ：＝（Ｔ_ｑ，ｓ）_{ｑ∈Ｑ、ｓ∈Ｓ}を、Ｑ×Ｓ上のテーブルと定義する。

　本実施形態では、説明の便宜上、Ｑｕａｓｉ－ＩＤとＳｅｎｓｉｔｉｖｅ　Ａｔｔｒｉｂｕｔｅをそれぞれ１項目として説明するが、本開示は係る例に限定されないことは言うまでもない。

　続いて、このように定義したテーブルに対して行われる解析であるＣｏｕｎｔ　ｑｕｅｒｙについて定義する。Ｃｏｕｎｔ　ｑｕｅｒｙは、テーブルに対する基本演算の一つであり、データのクロス集計や相関ルール抽出など、幅広い利用がなされている。

　一般的には、Ｃｏｕｎｔ　ｑｕｅｒｙは「与えられた条件を満たす個人がテーブル中に何人属しているかを数え上げるクエリ」と説明される。ここでは、その条件と数え上げの方法を、本実施形態におけるテーブルの定義に即した形式で定義する。

　図６は、本開示の一実施形態における用語の定義のための説明図である。図６に示したテーブルの内容は図５に示したテーブルの内容と同一である。

　まず、Ｃｏｕｎｔ　ｑｕｅｒｙ条件集合について定義する。Ｃｏｕｎｔ　ｑｕｅｒｙ条件集合とは、Ｑｕａｓｉ－ＩＤの集合Ｑと、Ｓｅｎｓｉｔｉｖｅ　Ａｔｔｒｉｂｕｔｅの集合Ｓとの直積集合Ｑ×Ｓの部分集合Ｃであると定義する。図６では、例えば符号１４４で示すような「１０代から３０代で風邪又は脳卒中」という条件を満たす集合が、Ｃｏｕｎｔ　ｑｕｅｒｙ条件集合の一つである。

　Ｃｏｕｎｔ　ｑｕｅｒｙ条件集合Ｃが与えられたときに、テーブルＴに対するＣｏｕｎｔ　ｑｕｅｒｙの結果をＣＮＴ_Ｃ（Ｔ）とし、このＣＮＴ_Ｃ（Ｔ）とは、Ｃｏｕｎｔ　ｑｕｅｒｙ条件集合Ｃに属する全てのＱｕａｓｉ－ＩＤ　Ｖａｌｕｅ（ｑ）と、Ｓｅｎｓｉｔｉｖｅ　Ａｔｔｒｉｂｕｔｅ　Ｖａｌｕｅ（ｓ）の組をインデックスとするＴの行列要素Ｔ_ｑ，ｓの和を取るものであるとする。従って、図６の符号１４４で示したＣｏｕｎｔ　ｑｕｅｒｙ条件集合に対するＣｏｕｎｔ　ｑｕｅｒｙの結果は、１＋２＝３となる。

　本実施形態におけるＣｏｕｎｔ　ｑｕｅｒｙの数学的な定義は以下の通りである。

　（本実施形態におけるＣｏｕｎｔ　ｑｕｅｒｙの数学的な定義）
　Ｑ×Ｓ上のテーブルＴと、Ｑ×Ｓの部分集合Ｃとが与えられたとき、以下の写像をＴに対する条件集合ＣによるＣｏｕｎｔ　ｑｕｅｒｙと定義する。

　最後に、本実施形態におけるアルゴリズムで使用することになるグラフについて定義する。

　頂点の集合をＶ、エッジの集合をＡ、ラベルの集合をΣ、多重度（Ｍｕｌｔｉｐｌｉｃｉｔｙ）をｍとする。この場合、組＜Ｖ，Ａ，Σ，ｍ＞をラベル付き多重有向グラフであると定義する。ここで、Σはエッジに付随するラベルの集合であり、ｍはエッジの本数を与える関数である。

　ラベル付き多重有向グラフは以下のように定義される。

　（本実施形態におけるラベル付き多重有向グラフの数学的な定義）
　Ｇ＝＜Ｖ，Ａ，Σ，ｍ＞がラベル付き有向グラフであるとは、以下を満たす場合をいう。
　１．Ｖ及びΣは有限離散集合で、それぞれ頂点集合、ラベル集合と呼ばれる。
　２．Ａ⊆Ｖ×Ｖ×Σは有限離散集合で、エッジ集合と呼ばれる。（ｖ，ｖ’，ｑ）∈Ａは、始点を頂点ｖ、終点を頂点ｖ’、ラベルがｑであるエッジを意味するものとする。
　３．ｍ：Ａ→Ｎ_＞０は写像であり、多重度（Ｍｕｌｔｉｐｌｉｃｉｔｙ）と呼ばれ、エッジの本数を与える。

　図７は、本実施形態におけるアルゴリズムで用いられるラベル付き多重有向グラフの例を示す説明図である。図７に示したラベル付き多重有向グラフ１４５において、１～６の数字はそれぞれ頂点を表している。そして各エッジにはラベルが付与されており、ラベルは複数あり得るものとして扱われる。例えば、図７に示したラベル付き多重有向グラフ１４５において、あるエッジが（５，１，ｑ）ならば、始点が頂点５であり、終点が頂点１であり、ラベルがｑであることを確認できる。なお、図７に示したラベル付き多重有向グラフ１４５は、記号の表記による煩雑さを避けるために、ラベルの表記が省略されている。

　以上、本実施形態の説明に用いられる用語の定義を示した。続いて、本実施形態の説明に用いられるプライバシの定義を示す。

　［プライバシの定義］
　まず、本実施形態における攻撃者の特徴を示す。そのために、本実施形態における攻撃者がどのような前提知識を持っているかについて定義する。攻撃者に対して前提知識を持つことを仮定するのは主に次のような理由からである。通常、誰かのプライバシを侵害しようとする攻撃者は、攻撃対象のことを事前に調べたり、公の機関が公開しているデータを収集したりする可能性が高いからである。

　また本実施形態で仮定する前提知識は、プライバシの問題の中でもＳｅｎｓｉｔｉｖｅ　Ａｔｔｒｉｂｕｔｅ　Ｖａｌｕｅの推定問題を扱うもので、Ａ．　Ｍａｃｈａｎａｖａｊｊｈａｌａ等の「ｌ－ｄｉｖｅｒｓｉｔｙ：　Ｐｒｉｖａｃｙ　ｂｅｙｏｎｄ　ｋ－ａｎｏｎｙｍｉｔｙ，　ＡＣＭ　Ｔｒａｎｓａｃｔｉｏｎｓ　ｏｎ　Ｋｎｏｗｌｅｄｇｅ　Ｄｉｓｃｏｖｅｒｙ　ｆｒｏｍ　Ｄａｔａ　（ＴＫＤＤ），　Ｖｏｌ．　１，　Ｉｓｓｕｅ　１　，　Ａｒｔｉｃｌｅ　Ｎｏ．　３，　（２００７）．」に基づいている。

　攻撃者は、以下の情報について既知であるとする。
　１．攻撃対象がテーブルに属しており、かつ攻撃対象のＱｕａｓｉ－ＩＤの値を知っている。
　２．テーブル中のＱｕａｓｉ－ＩＤの情報を知っている。つまり、各Ｑｕａｓｉ－ＩＤ　Ｖａｌｕｅを固定したときに、全てのＳｅｎｓｉｔｉｖｅ　Ａｔｔｒｉｂｕｔｅ　Ｖａｌｕｅに関してテーブルの列要素を足し合わせた値を知っている。
　３．テーブル中のＳｅｎｓｉｔｉｖｅ　Ａｔｔｒｉｂｕｔｅの情報を知っている。つまり、各Ｓｅｎｓｉｔｉｖｅ　Ａｔｔｒｉｂｕｔｅ　Ｖａｌｕｅを固定したときに、全てのＱｕａｓｉ－ＩＤ　Ｖａｌｕｅに関してテーブルの行要素を足し合わせた値を知っている。

　図８は、本実施形態における攻撃者の特徴を示す説明図である。図８の符号１５１が、上記の情報の１．に該当し、符号１５２が上記の情報の２．に該当し、符号１５３が上記の情報の３．に該当する。すなわち、攻撃者はテーブルの各要素の値については知らないが、図８に示したような情報については既知である。

　上記の１～３の情報について、１．の仮定は妥当であるとされる。なぜなら、Ｑｕａｓｉ－ＩＤは習慣的には年齢、住所、電話番号といった属性であり、攻撃者は攻撃対象に対して事前に調査をして、そのような属性を知っていることが多いためである。また上記２．については、公情報等から入手できる可能性があり、また異なる攻撃対象を持つ攻撃者同士が結託して情報を共有する場合が考えられる。また上記３．についても同様に公情報等から入手できるとされている。

　なお、Ｑｕａｓｉ－ＩＤとＳｅｎｓｉｔｉｖｅ　Ａｔｔｒｉｂｕｔｅとの対応関係については、攻撃者は知らないと仮定する。Ｑｕａｓｉ－ＩＤとＳｅｎｓｉｔｉｖｅ　Ａｔｔｒｉｂｕｔｅとの対応関係まで攻撃者が知っているということは、テーブルそのものが攻撃者に知られていることを意味するので、もはやプライバシは全て開示されていることになり、意味がなくなる。

　本実施形態における攻撃者の前提知識の数学的な定義は以下の通りである。

　（本実施形態における攻撃者の前提知識の数学的な定義）
　１．ターゲットがテーブルに属していることと、そのターゲットのＱｕａｓｉ－ＩＤの値を知っている。
　２．テーブルのＱｕａｓｉ－ＩＤの情報（ｄ_ｑ：＝Σ_ｓ∈ＳＴ_ｑ，ｓ）_ｑ∈Ｑ
　３．テーブルのＳｅｎｓｉｔｉｖｅ　Ａｔｔｒｉｂｕｔｅの情報（ｅ_ｓ：＝Σ_ｑ∈ＱＴ_ｑ，ｓ）_ｓ∈Ｓ

　以上の攻撃者の前提知識の下で、以下のようなプライバシ侵害攻撃を考える。

　このような攻撃者の前提知識の下、攻撃者は、与えられたＣｏｕｎｔ　ｑｕｅｒｙの結果の値から、攻撃対象のＳｅｎｓｉｔｉｖｅ　Ａｔｔｒｉｂｕｔｅ　Ｖａｌｕｅの値を一意に決定しようとする。このような攻撃は上述したようにＨｏｍｏｇｅｎｅｉｔｙ　Ａｔｔａｃｋと呼ばれる。

　図９は、Ｈｏｍｏｇｅｎｅｉｔｙ　Ａｔｔａｃｋの例を示す説明図である。符号１５４は、攻撃者に与えられるＣｏｕｎｔ　ｑｕｅｒｙの結果の値の例を示したものである。図９では、「１０代から３０代で風邪又は脳卒中」という条件を満たす要素の数が３であることが示されている。また図９では、攻撃者が、攻撃対象のＱｕａｓｉ－ＩＤの値が１０代であることを知っている場合が示されている。

　本実施形態におけるプライバシの数学的な定義は以下の通りである。

　（本実施形態におけるプライバシの数学的な定義）
　Ｑ×Ｓ上のテーブルＴ：＝（Ｔ_ｑ，ｓ）_{ｑ∈Ｑ、ｓ∈Ｓ}，およびＱ×Ｓの部分集合列ＣＦ＝（Ｃ_１，Ｃ_２，・・・，Ｃ_ｍ）が攻撃者に与えられたとする。このとき、
　（（ＣＮＴ_Ｃ１、ｃ_１），（ＣＮＴ_Ｃ２、ｃ_２），・・・（ＣＮＴ_Ｃｍ、ｃ_ｍ））　（１）
　がＴに対してｌ－Ｐｒｉｖａｃｙを侵害しないとは、次が成り立つときに言う。
　まず、以下の条件を満たすテーブルの集合をΤ’とする。
　１．任意のｋ∈｛１，２，・・・，ｍ｝に対して、Σ_{（ｑ，ｓ）∈Ｃｋ}Ｔ’_ｑ，ｓ＝ｃ_ｋ
　２．任意のｑ∈Ｑに対して、Σ_ｓ∈ＳＴ’_ｑ，ｓ＝ｄ_ｑ（：＝Σ_ｓ∈ＳＴ_ｑ，ｓ）
　３．任意のｓ∈Ｓに対して、Σ_ｑ∈ＱＴ’_ｑ，ｓ＝ｅ_ｓ（：＝Σ_ｑ∈ＱＴ_ｑ，ｓ）
　このとき、ｄ_ｑ≠０を満たす任意のｑ∈Ｑに対して、少なくともｌ通りの異なるｓ_１，ｓ_２，・・・，ｓ_ｌ∈Ｓが存在し、各ｓ_ｔに対して、Ｔ’_ｑ，ｓｔ≠０となるテーブルＴ’∈Τ’が存在する。

　上記の式（１）は、チェックしたいＣｏｕｎｔ　ｑｕｅｒｙ及びその結果を意味する。つまり、上記の式（１）からのプライバシの漏洩（Ｈｏｍｏｇｅｎｅｉｔｙ　Ａｔｔａｃｋの意味するところでもある）を問題としている。

　上記のプライバシの数学的な定義における３つの条件について説明する。まず条件１．は、攻撃者がクエリ結果から立式したテーブルが満たすべき方程式である。そして条件２．及び３．は、攻撃者の前提知識であり、これらの条件もテーブルが満たすべき方程式である。また、攻撃者の残りの前提知識、つまり、攻撃対象のＱｕａｓｉ－ＩＤが既知であることは、上の条件における「ｄ_ｑ≠０を満たす任意のｑ∈Ｑに対して」と言う部分に反映されている。ここで「任意の」となっているのは、データ管理者の立場からすると攻撃者の攻撃対象は誰か分からないので、テーブル中のすべての個人を考慮しているためである。

　本実施形態のプライバシの意図を説明する。本実施形態におけるアルゴリズムは、Ｈｏｍｏｇｅｎｅｉｔｙ　Ａｔｔａｃｋのリスクを評価することが目的である。これは、攻撃者が予め有している前提知識に加え、提供されるＣｏｕｎｔ　ｑｕｅｒｙの結果から、攻撃対象のＳｅｎｓｉｔｉｖｅ　Ａｔｔｒｉｂｕｔｅの値を推論によって何通りまで絞り込めるかを評価することに相当する。そしてその評価は、攻撃者が予め有している前提知識に加え、提供されるＣｏｕｎｔ　ｑｕｅｒｙの結果を拘束条件として、それらと矛盾しないテーブルが何通り存在し、さらにそのような可能なテーブルの中で攻撃対象のＳｅｎｓｉｔｉｖｅ　Ａｔｔｒｉｂｕｔｅが何通り取り得るかを調べることに対応する。

　例えば、図６に示したようなテーブルにおいて、「１０代から３０代で風邪又は脳卒中」の人数の情報だけでは、その結果及び攻撃者の前提知識と矛盾しないテーブルは複数存在する。図１０～図１２は、テーブルの一例を示す説明図であり、攻撃者の前提知識及び「１０代から３０代で風邪又は脳卒中」の人数の情報だけでは、図６に示したテーブルと結果が矛盾しないテーブルを示す説明図である。

　「１０代から３０代で風邪又は脳卒中」の人数が３人であり、かつ１０代の人数が１人であるようなテーブルは、図１０に示したように１０代の患者が風邪であるテーブル、図１１に示したように１０代の患者が脳卒中であるテーブル、図１２に示したように１０代の患者が感染症であるテーブルなど、様々なものが存在する。従って、「１０代から３０代で風邪又は脳卒中」の人数の情報だけでは、１０代の患者の病名を一意に特定することは出来ない。本実施形態におけるアルゴリズムは、このような意味で、各患者が何通りのＳｅｎｓｉｔｉｖｅ　Ａｔｔｒｉｂｕｔｅを取り得るかによって、プライバシの漏洩リスクを評価するものである。

　以上、本実施形態におけるプライバシの定義を説明した。続いて、続いて、本開示の一実施形態に係るデータ解析装置１００が実行するアルゴリズムの動作について説明する。

　［アルゴリズムの動作］
　本開示の一実施形態に係るデータ解析装置１００が実行するアルゴリズムは、テーブルＴと、Ｃｏｕｎｔ　ｑｕｅｒｙの条件集合の集まりＣＦと、プライバシ閾値ｌとが与えられたとき、Ｈｏｍｏｇｅｎｅｉｔｙ　Ａｔｔａｃｋのリスク評価を行なうアルゴリズムである。このＨｏｍｏｇｅｎｅｉｔｙ　Ａｔｔａｃｋのリスク評価は、上述したような攻撃者の前提知識と矛盾しないテーブルの数が与えられた閾値ｌ以上になるか（“ＣＦ　ｐｒｅｓｅｒｖｅｓ　ｐｒｉｖａｃｙ．”）、または超えないか（“ＣＦ　ｖｉｏｌａｔｅｓ　ｐｒｉｖａｃｙ．”）を判定することによってなされる。攻撃者の前提知識と矛盾しないテーブルの数が与えられた閾値ｌ以上になるなら、データ管理者が設定したリスクの範囲内にあるということなので、データ管理者は、Ｃｏｕｎｔ　ｑｕｅｒｙ結果を公開してもいいと判断することが出来る。

　本開示の一実施形態に係るデータ解析装置１００が実行するアルゴリズムは、２つのアルゴリズムに分けられる。１つはグラフ生成アルゴリズムであり、もう一つはループチェックアルゴリズムである。また図１３は、本開示の一実施形態に係るデータ解析装置１００が実行するアルゴリズムの概要を示す説明図である。

　グラフ生成アルゴリズムは、Ｃｏｕｎｔ　ｑｕｅｒｙの条件集合の集まりＣＦ及び攻撃者の前提知識の一部から新たな条件集合の集まりＣＦ’を生成し、その新たな条件集合の集まりＣＦ’とテーブルＴとから誘導されるグラフＧを生成するアルゴリズムである。ここで新たな条件集合の集まりＣＦ’を生成する理由は、一般に任意のＣＦに対して、本実施形態におけるプライバシをチェックする問題は０／１係数線形方程式系の非負整数解の探索問題であり、一般には困難であることが知られているからである。上述した、本実施形態におけるプライバシの数学的な定義を形式化すると、線型方程式系Ａｘ＝ｂの非負整数解を探索することに該当する。なおＡはｍ×ｎ行列であり、Ａ_ｉｊ∈｛０，１｝である。またｂはｎ次元ベクトルであり、ｂ_ｉは非負整数である。

　ループチェックアルゴリズムは、グラフ生成アルゴリズムで生成された有向グラフＧに関して、各頂点を始点とするループの数を評価し、閾値ｌとの比較を行うアルゴリズムである。この比較が、Ｈｏｍｏｇｅｎｅｉｔｙ　Ａｔｔａｃｋのリスク評価を行なうことと対応している。

　本実施形態では、グラフ生成アルゴリズムはデータ解析装置１００のデータ解析部１１０が実行し、ループチェックアルゴリズムは結果判定部１２０が実行するものとする。

　（グラフ生成アルゴリズム）
　まずグラフ生成アルゴリズムについて図面も参照しながら詳細に説明する。図１４は、本開示の一実施形態に係るデータ解析装置１００が実行するグラフ生成アルゴリズムの例を示す説明図である。また図１５～図２９は、本開示の一実施形態に係るデータ解析装置１００が実行するグラフ生成アルゴリズムを説明するための説明図である。

　図１４に示したグラフ生成アルゴリズムは、テーブルＴとＣｏｕｎｔ　ｑｕｅｒｙ　条件集合の集まりＣＦから、（より厳しい）Ｃｏｕｎｔ　ｑｕｅｒｙ条件集合の集まりＤＣを生成し、テーブルＴとＤＣとから誘導されるグラフを生成するアルゴリズムである。この図１４に示したグラフ生成アルゴリズムを、図１５に示したテーブルを例に説明する。図１５に示したテーブル全体がテーブルＴであり、条件集合Ｃ_１及びＣ_２の組が条件集合ＣＦである。Ｃ_１は「１０代から３０代で風邪又は脳卒中」を表し、Ｃ_２は「３０代から５０代で脳卒中又は感染症」を表す条件集合である。

　図１４に示したグラフ生成アルゴリズムの１行目は、攻撃者の前提知識のうち、Ｓｅｎｓｉｔｉｖｅ　ａｔｔｒｉｂｕｔｅに関する部分（前提知識の３．）を考慮に入れるための処理である。なお、他の前提知識は、生成されるグラフの構造やループチェックの際に考慮される。この処理は、Ｓｅｎｓｉｔｉｖｅ　ａｔｔｒｉｂｕｔｅに関する前提知識をＣｏｕｎｔ　ｑｕｅｒｙ条件集合に書き換えることに対応する。この条件集合の集まりを初期のＤＣとする。

　例えば、「Ｑ×｛風邪｝」は、図１４に示したアルゴリズム１行目の条件を満たす。実際、「風邪」に対して例えば「１０代」が存在し、「１０代かつ風邪」の患者がテーブルに属する。一方、「Ｑ×｛詐病｝」は、アルゴリズム１行目の条件を満たさない。実際、「詐病」を持つ患者はテーブル中には存在しない。

　次に、図１４に示したグラフ生成アルゴリズムの２行目から１３行目までのｆｏｒ文での繰り返しによって、１行目で規定されたＤＣを順次更新していく。このアルゴリズムの動作は次のように進行していく。

　まずＣｏｕｎｔ　ｑｕｅｒｙ条件集合Ｃを一つ選択する。次に、ＤＣ中の集合Ｄを選択し、選択したＣとＤとの共通部分を評価する。このとき、テーブルに属するあるエントリ（ｑ，ｓ）が共通部分にも含まれる場合は、ＤとＣとの共通部分を一時的にＤＣ’に加える。またＤとＣとの補集合に関しても同様の確認を行い、テーブルに属するあるエントリ（ｑ，ｓ）が含まれるならばＤＣ’に加える。これらの処理は、ＤをＣによって「分割」していると解釈できる。

　例えば、ＤＣが「Ｑ×｛風邪｝」であり、Ｃｏｕｎｔ　ｑｕｅｒｙ条件集合ＣがＣ_１である場合、図１４に示したグラフ生成アルゴリズムの５行目に関して、図１７に示すように、ＤＣはＣ_１に内包されずに共通元を含む。そこで、図１４に示したグラフ生成アルゴリズムの６行目に従って、図１８に示すように、Ｃ_１が含まれる部分と含まれない部分とに「Ｑ×｛風邪｝」のＤＣを分割する。

　図１４に示したグラフ生成アルゴリズムは、このようなＣｏｕｎｔ　ｑｕｅｒｙ条件集合Ｃによる分割をＤＣ中の全ての集合に対して行い、グラフ生成アルゴリズムの１２行目のように、ＤＣをＤＣ’で更新する。

　例えば、ＤＣが「Ｑ×｛脳卒中｝」であり、Ｃｏｕｎｔ　ｑｕｅｒｙ条件集合ＣがＣ_１である場合、図１４に示したグラフ生成アルゴリズムの５行目に関して、図１９に示すように、ＤＣはＣ_１に内包されずに共通元を含む。そこで、図１４に示したグラフ生成アルゴリズムの６行目に従って、図２０に示すように、Ｃ_１が含まれる部分と含まれない部分とに「Ｑ×｛脳卒中｝」のＤＣを分割する。なお、テーブルに属するエントリを含まない部分については、図２０に示すように今後の処理において考慮に入れないものとする。

　そして、「Ｑ×｛感染症｝」、「Ｑ×｛糖尿病｝」及び「Ｑ×｛癌｝」については、Ｃ_１との共通元は存在しないので、図１４に示したグラフ生成アルゴリズムの１１行目に従い、図２１に示したような条件集合が、新たなＣｏｕｎｔ　ｑｕｅｒｙ条件集合の集まりＤＣとなる。

　アルゴリズムは、条件集合Ｃ_２に対しても同様の処理を実行する。すなわち、図２２に示したように、Ｃ_２が含まれる部分と含まれない部分とに「Ｑ×｛脳卒中｝」及び「Ｑ×｛感染症｝」のＤＣを分割する。すると、図２３に示したような、新たなＣｏｕｎｔ　ｑｕｅｒｙ条件集合の集まりＤＣが得られる。なお、図２３に示した新たなＣｏｕｎｔ　ｑｕｅｒｙ条件集合の集まりＤＣの内、感染症の列における２つのブロックは分離されていないことに留意すべきである。つまりこの部分は「１０代、２０代または６０代で感染症」という条件集合であることに留意すべきである。

　最後に、図１４に示したグラフ生成アルゴリズムの１４行目で、分割された条件集合とテーブルとから誘導されるグラフを生成する。本実施形態では、分割された条件集合とテーブルとから誘導されるグラフとして、図２４のような定義で与えられるような、ラベル付き多重有向グラフである。

　図２４に示したグラフの定義の１．は、ＤＣ中の集合のうちテーブルに属するエントリを含むような集合に対するインデックスだけ頂点にするという意味である。つまり定義の１．は、図２５に示したように、ＤＣ中の集合Ｄが条件集合Ｃによって分割されて新たに生成された集合Ｄ_１、Ｄ_２、Ｄ_３、Ｄ_４、Ｄ_５、Ｄ_６が与えられると、図２６に示したように、集合に対するインデックスだけを頂点とするものである。

　また図２４に示したグラフにおけるエッジの意味は、始点に対応するＣｏｕｎｔ　ｑｕｅｒｙ条件集合とテーブルに属するエントリのＱｕａｓｉ－ＩＤの値は、Ｓｅｎｓｉｔｉｖｅ　ａｔｔｒｉｂｕｔｅの値を適切に書き変えれば。終点に対応するＣｏｕｎｔ　ｑｕｅｒｙ条件集合にも属することを意味している。多重度（Ｍｕｌｔｉｐｌｉｃｉｔｙ）には、この例の場合は全て１が与えられる。

　例えば図２７を参照して説明すると、「１０代で風邪」の患者はテーブルに存在し、かつ頂点１に対応する集合Ｄ_１にも含まれる。この場合に、「１０代で風邪」の患者を「１０代で感染症」に変更した場合、図２８に示したように、頂点１から頂点２へのエッジを追加する。

　数学的に示すと、頂点ｉ，ｊについて、あるｑ∈Ｑが存在し、あるｓ、ｓ’∈Ｓが存在し、Ｔ_ｑ，ｓ≠０、（ｑ，ｓ）∈Ｄ_ｑ，ｓ、（ｑ，ｓ）∈Ｄ_ｑ，ｓ’が成り立つときに、ｉからｊへのエッジを追加する、ということに相当する。

　図２７のように集合Ｄ_１、Ｄ_２、Ｄ_３、Ｄ_４、Ｄ_５、Ｄ_６に対応する頂点が与えられた場合、生成されるグラフは図２９に示したグラフとなる。例えば、図２９において、エッジ（２，１，“２０”）は１本であるが、図２４のＭｕｌｔｉｐｌｉｃｉｔｙの定義に従えば、実際は２本である。

　（ループチェックアルゴリズム）
　このようにグラフ生成アルゴリズムによって生成されたグラフに対するループチェックアルゴリズムについて説明する。図３０は、本開示の一実施形態に係るデータ解析装置１００が実行するループチェックアルゴリズムの例を示す説明図である。また図３１、図３２は、本開示の一実施形態に係るデータ解析装置１００が実行するループチェックアルゴリズムを説明するための説明図である。またループチェックアルゴリズムについて、図２９に示したラベル付き有向グラフも参照して説明する。

　図３０に示したループチェックアルゴリズムは、１行目及び２行目で、Ｑｕａｓｉ－ＩＤ及び頂点を１つ固定する。例えば図２９に示したラベル付き有向グラフにおいて、Ｑｕａｓｉ－ＩＤ“１０”及び頂点１を選択して固定したとする。次にループチェックアルゴリズムは、３行目から６行目で、固定した頂点を始点とするエッジを選び、そのエッジの終点から固定した頂点まで戻るパスが存在するときにカウントを行う。

　例えば図２９に示したラベル付き有向グラフにおいて、Ｑｕａｓｉ－ＩＤ“１０”及び頂点１を選択して固定し、頂点１を終点に選択した場合は、終点から始点まで戻るパス（自己ループ）が存在する。同様に、Ｑｕａｓｉ－ＩＤ“１０”及び頂点１を選択して固定し、頂点２、３、４を終点に選択した場合も、終点から始点まで戻るパスが存在する。従って、Ｑｕａｓｉ－ＩＤ“１０”及び頂点１を選択して固定した場合は、ループチェックアルゴリズムの３行目から６行目でカウントされるカウント値は４となる。

　そして、カウントした値が与えられた閾値ｌ未満であったら、ループチェックアルゴリズムは、プライバシが破れているとして動作を停止する。そうでなければ、ループチェックアルゴリズムは別の頂点を選択して同様にカウントを行なう。なお、ループチェックアルゴリズムは、カウントした値ｃが与えられた閾値ｌ以上となった時点で、その時点のＱｕａｓｉ－ＩＤに対応する個人のプライバシが保たれているとして、図３０に示したループチェックのアルゴリズムで示された４行目から６行目のＦｏｒ文を抜けてもよい。

　このループチェックアルゴリズムの意味について図３１及び図３２を参照して説明する。ループチェックアルゴリズムの１行目と２行目でＱｕａｓｉ－ＩＤ及び頂点を選択し固定することは、その頂点に対応するＣｏｕｎｔ　ｑｕｅｒｙ条件集合と、テーブルに属するエントリのＱｕａｓｉ－ＩＤとを選択したことに相当する。エッジの存在は、図３１に示したように、Ｑｕａｓｉ－ＩＤの値を保存しつつＳｅｎｓｉｔｉｖｅ　ａｔｔｒｉｂｕｔｅの値を書き変える操作と対応している。

　従って、始点から出発するループの存在は、図３２に示したように、Ｃｏｕｎｔ　ｑｕｅｒｙ条件集合による拘束条件を保存するようなＳｅｎｓｉｔｉｖｅ　ａｔｔｒｉｂｕｔｅの値を変えた別のテーブルが存在することを意味する。

　つまり、図３１及び図３２に示したように、ターゲットである１０代の患者の病気が風邪であっても感染症であっても、１０代の患者数は１人であり、風邪の患者数は４人であり、感染症の患者数は２人であるという拘束条件を満たすテーブルが存在することを意味している。

　また、ループチェックアルゴリズムの３行目で頂点ｊから頂点ｉへのパスを見つける必要がある。この問題は有向グラフ上２頂点間の経路探索問題として知られる。この問題に関しては効率的に解けることが知られており、例えばＢｒｅａｄｔｈ　Ｆｉｒｓｔ　Ｓｅａｒｃｈを利用すればよい（Ｋｎｕｔｈ，　Ｄｏｎａｌｄ　Ｅ．　（１９９７），　Ｔｈｅ　Ａｒｔ　Ｏｆ　Ｃｏｍｐｕｔｅｒ　Ｐｒｏｇｒａｍｍｉｎｇ　Ｖｏｌ　１．　３ｒｄ　ｅｄ．，　Ｂｏｓｔｏｎ：　Ａｄｄｉｓｏｎ－Ｗｅｓｌｅｙ等を参照のこと）。

　以上、本開示の一実施形態に係るデータ解析装置１００が実行するアルゴリズムについて説明した。次に、本開示の一実施形態に係る情報処理システム全体の動作について説明する。

　図３３は、本開示の一実施形態に係る情報処理システム全体の動作例を示す流れ図である。以下、図３３を用いて本開示の一実施形態に係る情報処理システム全体の動作例について説明する。

　データ管理装置１０からデータ利用装置２０へ提供されるＣｏｕｎｔ　ｑｕｅｒｙ結果が、プライバシの侵害とならないかどうかを確認するために、データ管理装置１０は、対象のテーブルＴ、閾値ｌ及びＣｏｕｎｔ　ｑｕｅｒｙの条件集合の集まりＣＦ（＝ＣＮＴ_Ｃ１，ＣＮＴ_Ｃ２，・・・，ＣＮＴ_Ｃｍ）をデータ解析装置１００へ渡す（ステップＳ１０１）。このテーブルＴ、閾値ｌ及びＣｏｕｎｔ　ｑｕｅｒｙの条件集合の集まりＣＦの提供は例えばテーブル提供部１１が実行する。

　データ解析装置１００は、テーブルＴ、閾値ｌ及びＣｏｕｎｔ　ｑｕｅｒｙの条件集合の集まりＣＦをデータ管理装置１０から受け取ると、Ｃｏｕｎｔ　ｑｕｅｒｙの条件集合の集まりＣＦがプライバシを破らないかどうかを確認するために、上述のアルゴリズムを実行し、その判定結果をデータ管理装置１０に返す（ステップＳ１０２）。データ解析装置１００から送られてくる判定結果は例えば結果取得部１２が取得する。

　データ管理装置１０は、データ解析装置１００から判定結果を受け取ると、その判定結果を用いて、データ管理装置１０からデータ利用装置２０へ提供されるＣｏｕｎｔ　ｑｕｅｒｙ結果によってプライバシが保護されているかどうかを判断する（ステップＳ１０３）。

　上記ステップＳ１０３の結果、プライバシが保護されていると判断した場合は、データ管理装置１０は、データ解析装置１００で解析されたＣｏｕｎｔ　ｑｕｅｒｙによるＣｏｕｎｔ　ｑｕｅｒｙ結果（ｃ_１，ｃ_２，・・・，ｃ_ｍ）をデータ利用装置２０へ提供する（ステップＳ１０４）。一方上記ステップＳ１０３の結果、プライバシが保護されないと判断した場合は、データ管理装置１０はデータ利用装置２０へのＣｏｕｎｔ　ｑｕｅｒｙ結果の提供は行わない。

　このようにデータ管理装置１０及びデータ解析装置１００が動作することで、本開示の一実施形態に係る情報処理システムは、データ管理装置１０からデータ利用装置２０へ提供されるＣｏｕｎｔ　ｑｕｅｒｙ結果が、プライバシの侵害とならないかどうかの判断が可能になる。

　なお、上述の説明ではデータ管理装置１０は、Ｃｏｕｎｔ　ｑｕｅｒｙの条件集合をバッチ的に全て一度にデータ解析装置１００に渡していたが、本開示は係る例に限定されない。つまり、データ管理装置１０は、Ｃｏｕｎｔ　ｑｕｅｒｙをデータ解析装置１００に一つずつ渡しても良い。

　図３４は、本開示の一実施形態に係る情報処理システム全体の動作例を示す流れ図である。データ管理装置１０からデータ利用装置２０へ提供されるＣｏｕｎｔ　ｑｕｅｒｙ結果が、プライバシの侵害とならないかどうかを確認するために、データ管理装置１０は、対象のテーブルＴ及び閾値ｌをデータ解析装置１００へ渡し（ステップＳ１１１）、続いてＣｏｕｎｔ　ｑｕｅｒｙの条件集合の集まりＣＦ（＝ＣＮＴ_Ｃ１，ＣＮＴ_Ｃ２，・・・，ＣＮＴ_Ｃｍ）の内、１つのＣｏｕｎｔ　ｑｕｅｒｙ　ＣＮＴ_Ｃ１をデータ解析装置１００へ渡す（ステップＳ１１２）。

　データ解析装置１００は、テーブルＴ、閾値ｌ及びＣｏｕｎｔ　ｑｕｅｒｙ　ＣＮＴ_Ｃ１をデータ管理装置１０から受け取ると、Ｃｏｕｎｔ　ｑｕｅｒｙ　ＣＮＴ_Ｃ１がプライバシを破らないかどうかを確認するために、上述のアルゴリズムを実行し、その判定結果をデータ管理装置１０に返す（ステップＳ１１３）。続いてデータ解析装置１００はグラフ生成アルゴリズムの１２行目のＤＣの更新を行なう（ステップＳ１１４）。

　データ管理装置１０は、データ解析装置１００から判定結果を受け取ると、その判定結果を用いて、データ管理装置１０からデータ利用装置２０へ提供されるＣｏｕｎｔ　ｑｕｅｒｙ結果によってプライバシが保護されているかどうかを判断する（ステップＳ１１５）。

　上記ステップＳ１１５の結果、プライバシが保護されていると判断した場合は、データ管理装置１０は、データ解析装置１００で解析されたＣｏｕｎｔ　ｑｕｅｒｙ　ＣＮＴ_Ｃ１によるＣｏｕｎｔ　ｑｕｅｒｙ結果ｃ_１をデータ利用装置２０へ提供する（ステップＳ１１６）。一方上記ステップＳ１１５の結果、プライバシが保護されないと判断した場合は、データ管理装置１０はデータ利用装置２０へのＣｏｕｎｔ　ｑｕｅｒｙ　ＣＮＴ_Ｃ１によるＣｏｕｎｔ　ｑｕｅｒｙ結果ｃ_１の提供は行わない。

　このデータ解析装置１００での解析及びデータ管理装置１０での判断を、全てのＣｏｕｎｔ　ｑｕｅｒｙについて実行する（ステップＳ１２１～Ｓ１２５）。

　データ解析装置１００は、Ｃｏｕｎｔ　ｑｕｅｒｙが一つの場合でグラフ生成アルゴリズム及びループチェックアルゴリズムを動作させればよい。データ解析装置１００は、グラフ生成アルゴリズムの１行目のＤＣの生成は最初のＣｏｕｎｔ　ｑｕｅｒｙのチェックときのみ行い、２回目以降は、それより前に“ＣＦ　ｐｒｅｓｅｒｖｅｓ　ｐｒｉｖａｃｙ”と判定された回で、かつ直近の回のＤＣを利用する。データ解析装置１００は、このようにグラフ生成アルゴリズムを実行することで、過去になされたプライバシが保護されているとされたＣｏｕｎｔ　ｑｕｅｒｙの結果を考慮することができる。

　図３３に示したように一度に複数のＣｏｕｎｔ　ｑｕｅｒｙの条件集合をチェックした場合は、全てのＣｏｕｎｔ　ｑｕｅｒｙの結果に対してプライバシが保護されているか、または破れているかをチェックするものであった。一方、図３４に示したように逐次的にチェックした場合は、各Ｃｏｕｎｔ　ｑｕｅｒｙの結果に対して保護されているか、または破れているかをチェックできる。

　通常このような逐次的なチェックでは、新しいＣｏｕｎｔ　ｑｕｅｒｙが送られてくると、過去に行われたＣｏｕｎｔ　ｑｕｅｒｙを考慮する必要があった。これに対して本実施形態における逐次的構成は、先に説明したように、新たに生成したＣｏｕｎｔ　ｑｕｅｒｙの条件集合の集まりＤＣを更新することで、過去のＣｏｕｎｔ　ｑｕｅｒｙに対処することができる。そして本実施形態のグラフ生成アルゴリズムは、集合の分割で更新に対処するので、Ｃｏｕｎｔ　ｑｕｅｒｙの追加を続けていってもＤＣのサイズは有限（最大の場合でもテーブルサイズの２乗程度）で抑えることができる。

　上述の説明では、データ解析装置１００に渡される入力として、テーブル、Ｃｏｕｎｔ　ｑｕｅｒｙの条件集合及び閾値の組を示したが、本開示は係る例に限定されない。例えば、上述の説明ではデータ管理装置１０が保持しているとしたテーブルを最初からデータ解析装置１００が保持していてもよい。言い換えれば、データ解析装置１００が実行するアルゴリズムをデータベースサーバに組み込むようにしても良い。すなわち、データ解析装置１００への入力をＣｏｕｎｔ　ｑｕｅｒｙの条件集合及び閾値としてもよく、データ解析装置１００が保持するテーブルと合わせてアルゴリズムを実行しても良い。これにより、データ解析装置１００にテーブルを送信する手間を省くことができる。

　また上述の説明では、データ解析装置１００に渡される入力として閾値を示したが、本開示は係る例に限定されない。例えば、データ解析装置１００に閾値を入力せずに、データ解析装置１００がループチェックアルゴリズムで計算したループ数を、各Ｑｕａｓｉ－ＩＤに対応する個々人のリスク値として、データ管理装置１０へのデータ解析装置１００の出力としてもよい。

　図３０に示したループチェックアルゴリズムを参照しながら説明する。図３０に示したループチェックアルゴリズムでは、各Ｑｕａｓｉ－ＩＤ　ｑ（１行目）に対してループの数を計算（４行目）し、閾値との比較（７行目）をしてプライバシの侵害の有無を判定していた。ここで、この７行目の閾値による判定を行わずに、Ｑｕａｓｉ－ＩＤ　ｑ毎にループ数ｃの値を出力するようにする。

　Ｑｕａｓｉ－ＩＤ　ｑに対するループ数ｃは、上述の説明の通りＱｕａｓｉ－ＩＤ　ｑに対応する個人がとり得るＳｅｎｓｉｔｉｖｅ　Ａｔｔｒｉｂｕｔｅの値の種類を示すものである。よってループ数ｃの出力によって、データ管理装置１０は各個人に対するプライバシ漏えいリスクを評価することが可能になる。

　当然、テーブルをデータ解析装置１００への入力とするか、データ解析装置１００に保持させるかの選択と、閾値をデータ解析装置１００への入力とするか各Ｑｕａｓｉ－ＩＤに対するリスク値をデータ解析装置１００の出力とするかの選択に関して、任意の組み合わせが可能であることは言うまでもない。

　＜３．ハードウェア構成例＞
　上記の各アルゴリズムは、例えば、図３５に示す情報処理装置のハードウェア構成を用いて実行することが可能である。つまり、当該各アルゴリズムの処理は、コンピュータプログラムを用いて図３５に示すハードウェアを制御することにより実現される。なお、このハードウェアの形態は任意であり、例えば、パーソナルコンピュータ、携帯電話、ＰＨＳ、ＰＤＡ等の携帯情報端末、ゲーム機、接触式又は非接触式のＩＣチップ、接触式又は非接触式のＩＣカード、又は種々の情報家電がこれに含まれる。但し、上記のＰＨＳは、Ｐｅｒｓｏｎａｌ　Ｈａｎｄｙ－ｐｈｏｎｅ　Ｓｙｓｔｅｍの略である。また、上記のＰＤＡは、Ｐｅｒｓｏｎａｌ　Ｄｉｇｉｔａｌ　Ａｓｓｉｓｔａｎｔの略である。

　図３５に示すように、このハードウェアは、主に、ＣＰＵ９０２と、ＲＯＭ９０４と、ＲＡＭ９０６と、ホストバス９０８と、ブリッジ９１０と、を有する。さらに、このハードウェアは、外部バス９１２と、インターフェース９１４と、入力部９１６と、出力部９１８と、記憶部９２０と、ドライブ９２２と、接続ポート９２４と、通信部９２６と、を有する。但し、上記のＣＰＵは、Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔの略である。また、上記のＲＯＭは、Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙの略である。そして、上記のＲＡＭは、Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙの略である。

　ＣＰＵ９０２は、例えば、演算処理装置又は制御装置として機能し、ＲＯＭ９０４、ＲＡＭ９０６、記憶部９２０、又はリムーバブル記録媒体９２８に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。ＲＯＭ９０４は、ＣＰＵ９０２に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。ＲＡＭ９０６には、例えば、ＣＰＵ９０２に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。

　これらの構成要素は、例えば、高速なデータ伝送が可能なホストバス９０８を介して相互に接続される。一方、ホストバス９０８は、例えば、ブリッジ９１０を介して比較的データ伝送速度が低速な外部バス９１２に接続される。また、入力部９１６としては、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力部９１６としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ（以下、リモコン）が用いられることもある。

　出力部９１８としては、例えば、ＣＲＴ、ＬＣＤ、ＰＤＰ、又はＥＬＤ等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。但し、上記のＣＲＴは、Ｃａｔｈｏｄｅ　Ｒａｙ　Ｔｕｂｅの略である。また、上記のＬＣＤは、Ｌｉｑｕｉｄ　Ｃｒｙｓｔａｌ　Ｄｉｓｐｌａｙの略である。そして、上記のＰＤＰは、Ｐｌａｓｍａ　ＤｉｓｐｌａｙＰａｎｅｌの略である。さらに、上記のＥＬＤは、Ｅｌｅｃｔｒｏ－Ｌｕｍｉｎｅｓｃｅｎｃｅ　Ｄｉｓｐｌａｙの略である。

　記憶部９２０は、各種のデータを格納するための装置である。記憶部９２０としては、例えば、ハードディスクドライブ（ＨＤＤ）等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。但し、上記のＨＤＤは、Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅの略である。

　ドライブ９２２は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体９２８に記録された情報を読み出し、又はリムーバブル記録媒体９２８に情報を書き込む装置である。リムーバブル記録媒体９２８は、例えば、ＤＶＤメディア、Ｂｌｕ－ｒａｙメディア、ＨＤ　ＤＶＤメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体９２８は、例えば、非接触型ＩＣチップを搭載したＩＣカード、又は電子機器等であってもよい。但し、上記のＩＣは、Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔの略である。

　接続ポート９２４は、例えば、ＵＳＢポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ、ＲＳ－２３２Ｃポート、又は光オーディオ端子等のような外部接続機器９３０を接続するためのポートである。外部接続機器９３０は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はＩＣレコーダ等である。但し、上記のＵＳＢは、Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓの略である。また、上記のＳＣＳＩは、Ｓｍａｌｌ　Ｃｏｍｐｕｔｅｒ　Ｓｙｓｔｅｍ　Ｉｎｔｅｒｆａｃｅの略である。

　通信部９２６は、ネットワーク９３２に接続するための通信デバイスであり、例えば、有線又は無線ＬＡＮ、Ｂｌｕｅｔｏｏｔｈ（登録商標）、又はＷＵＳＢ用の通信カード、光通信用のルータ、ＡＤＳＬ用のルータ、又は接触又は非接触通信用のデバイス等である。また、通信部９２６に接続されるネットワーク９３２は、有線又は無線により接続されたネットワークにより構成され、例えば、インターネット、家庭内ＬＡＮ、赤外線通信、可視光通信、放送、又は衛星通信等である。但し、上記のＬＡＮは、Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋの略である。また、上記のＷＵＳＢは、Ｗｉｒｅｌｅｓｓ　ＵＳＢの略である。そして、上記のＡＤＳＬは、Ａｓｙｍｍｅｔｒｉｃ　Ｄｉｇｉｔａｌ　Ｓｕｂｓｃｒｉｂｅｒ　Ｌｉｎｅの略である。

　＜４．まとめ＞
　以上説明した様に本開示の一実施形態によれば、データ解析装置１００がグラフ生成アルゴリズム及びループチェックアルゴリズムからなるアルゴリズムを実行することで、データ解析の結果に係るプライバシの漏洩リスクを定量的に評価することが出来る。プライバシの漏洩リスクを定量的に評価することで、解析結果の公開にかかる適切なリスクと利益とのトレードオフを考慮することが出来るようになる。

　またデータ解析装置１００は、Ｃｏｕｎｔ　ｑｕｅｒｙの条件集合の集まりＣＦを入力としてアルゴリズムを実行することもできるし、異なるＣｏｕｎｔ　ｑｕｅｒｙに対して逐次的にアルゴリズムを実行することもできる。データ解析装置１００は、異なるＣｏｕｎｔ　ｑｕｅｒｙに対して逐次的にアルゴリズムを実行することで、一つ一つのＣｏｕｎｔ　ｑｕｅｒｙに対してプライバシが保護されているか否かをチェック出来るとともに、過去のＣｏｕｎｔ　ｑｕｅｒｙの結果を考慮しつつ、過去のＣｏｕｎｔ　ｑｕｅｒｙの結果を記憶するための記憶領域を有限に抑えることが出来る。

　以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示はかかる例に限定されない。本開示の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

　なお、本技術は以下のような構成も取ることができる。
（１）
　データベースのテーブル及び前記テーブルに対する任意の問い合わせに基づいて別の異なる問い合わせを１つ以上生成する問い合わせ生成部と、
　前記問い合わせ生成部が生成した前記別の異なる問い合わせの結果が前記任意の問い合わせの結果と矛盾しない、前記テーブルとは異なるテーブルの数を探索するテーブル探索部と、
を備える、情報処理装置。
（２）
　前記問い合わせ生成部は、前記テーブル及び前記任意の問い合わせから生成した前記別の異なる問い合わせを用いてループを有するグラフを生成する、前記（１）に記載の情報処理装置。
（３）
　前記テーブル探索部は、前記問い合わせ生成部が生成した前記グラフのループ数を算出することで、前記問い合わせ生成部が生成した前記別の異なる問い合わせの結果が前記任意の問い合わせの結果と矛盾しない、前記テーブルとは異なるテーブルの数を探索する、前記（２）に記載の情報処理装置。
（４）
　前記グラフは、ラベル付き多重有向グラフである、前記（２）または（３）に記載の情報処理装置。
（５）
　前記テーブル探索部は、前記テーブルとは異なるテーブルの数と所定の閾値とを比較した結果を出力する、前記（１）～（４）のいずれかに記載の情報処理装置。
（６）
　前記テーブル探索部は、前記テーブルの所定の条件についての内容を変えても前記任意の問い合わせの結果と矛盾しないテーブルの数が前記所定の閾値以上になった時点で前記所定の条件に対する探索を終了する、前記（５）に記載の情報処理装置。
（７）
　前記問い合わせ生成部は、前記テーブルにおける任意の列に対する問い合わせに基づいて前記別の異なる問い合わせを１つ以上生成する、前記（１）～（６）のいずれかに記載の情報処理装置。
（８）
　前記問い合わせ生成部は、前記テーブルを他の装置から取得する、前記（１）～（７）のいずれかに記載の情報処理装置。
（９）
　前記テーブルを保持するテーブル保持部をさらに備える、前記（１）～（８）のいずれかに記載の情報処理装置。
（１０）
　前記問い合わせ生成部は、前記テーブルに対する任意の問い合わせを他の装置から取得する、前記（１）～（８）のいずれかに記載の情報処理装置。
（１１）
　前記テーブル探索部は、前記テーブルとは異なるテーブルの数を他の装置に提示する、前記（１）～（１０）のいずれかに記載の情報処理装置。
（１２）
　前記テーブル探索部は、前記別の異なる問い合わせの組み合わせに対する探索を実行する、前記（１）～（１１）のいずれかに記載の情報処理装置。
（１３）
　前記テーブル探索部は、前記別の異なる問い合わせに対する探索を前記別の異なる問い合わせ毎に実行する、前記（１）～（１２）のいずれかに記載の情報処理装置。
（１４）
　データベースのテーブル及び前記テーブルに対する任意の問い合わせを他の装置に提供するテーブル提供部と、
　前記テーブルに対する任意の問い合わせに基づいて生成される別の異なる問い合わせの結果が前記任意の問い合わせの結果と矛盾しない、前記テーブルとは異なるテーブルの数の情報に基づく、前記任意の問い合わせの結果から個人の属性情報が特定されるか否かの情報を前記他の装置から取得する結果取得部と、
を備える、情報処理装置。
（１５）
　サーバ装置及び端末装置を備え、
　前記端末装置は、
　データベースのテーブルに対する任意の問い合わせを前記サーバ装置に提供するテーブル提供部と、
　前記テーブルに対する任意の問い合わせに基づいて生成される別の異なる問い合わせの結果が前記任意の問い合わせの結果と矛盾しない、前記テーブルとは異なるテーブルの数の情報に基づく、前記任意の問い合わせの結果を開示しても該問い合わせの結果から個人が特定されないかどうかの情報を前記サーバ装置から取得する結果取得部と、
を備え、
　前記サーバ装置は、
　前記テーブル及び前記端末装置から取得した前記テーブルに対する任意の問い合わせに基づいて別の異なる問い合わせを１つ以上生成する問い合わせ生成部と、
　前記問い合わせ生成部が生成した前記別の異なる問い合わせの結果が前記任意の問い合わせの結果と矛盾しない、前記テーブルとは異なるテーブルの数を探索し、探索結果に基づく、前記任意の問い合わせの結果を開示しても該問い合わせの結果から個人が特定されないかどうかの情報を前記端末装置に提供するテーブル探索部と、
を備える、情報処理システム。
（１６）
　データベースのテーブル及び前記テーブルに対する任意の問い合わせに基づいて別の異なる問い合わせを１つ以上生成することと、
　生成された前記別の異なる問い合わせの結果が前記任意の問い合わせの結果と矛盾しない、前記テーブルとは異なるテーブルの数を探索することと、
を備える、情報処理方法。
（１７）
　コンピュータに、
　データベースのテーブル及び前記テーブルに対する任意の問い合わせに基づいて別の異なる問い合わせを１つ以上生成することと、
　生成された前記別の異なる問い合わせの結果が前記任意の問い合わせの結果と矛盾しない、前記テーブルとは異なるテーブルの数を探索することと、
を実行させる、コンピュータプログラム。

　１　　情報処理システム
　１０　　データ管理装置
　１１　　テーブル提供部
　１２　　結果取得部
　２０　　データ利用装置
　１００　　データ解析装置
　１１０　　データ解析部
　１２０　　結果判定部

Claims

　データベースのテーブル及び前記テーブルに対する任意の問い合わせに基づいて別の異なる問い合わせを１つ以上生成する問い合わせ生成部と、
　前記問い合わせ生成部が生成した前記別の異なる問い合わせの結果が前記任意の問い合わせの結果と矛盾しない、前記テーブルとは異なるテーブルの数を探索するテーブル探索部と、
を備える、情報処理装置。
　前記問い合わせ生成部は、前記テーブル及び前記任意の問い合わせから生成した前記別の異なる問い合わせを用いてループを有するグラフを生成する、請求項１に記載の情報処理装置。
　前記テーブル探索部は、前記問い合わせ生成部が生成した前記グラフのループ数を算出することで、前記問い合わせ生成部が生成した前記別の異なる問い合わせの結果が前記任意の問い合わせの結果と矛盾しない、前記テーブルとは異なるテーブルの数を探索する、請求項２に記載の情報処理装置。
　前記グラフは、ラベル付き多重有向グラフである、請求項２に記載の情報処理装置。
　前記テーブル探索部は、前記テーブルとは異なるテーブルの数と所定の閾値とを比較した結果を出力する、請求項１に記載の情報処理装置。
　前記テーブル探索部は、前記テーブルの所定の条件についての内容を変えても前記任意の問い合わせの結果と矛盾しないテーブルの数が前記所定の閾値以上になった時点で前記所定の条件に対する探索を終了する、請求項５に記載の情報処理装置。
　前記問い合わせ生成部は、前記テーブルにおける任意の列に対する問い合わせに基づいて前記別の異なる問い合わせを１つ以上生成する、請求項１に記載の情報処理装置。
　前記問い合わせ生成部は、前記テーブルを他の装置から取得する、請求項１に記載の情報処理装置。
　前記テーブルを保持するテーブル保持部をさらに備える、請求項１に記載の情報処理装置。
　前記問い合わせ生成部は、前記テーブルに対する任意の問い合わせを他の装置から取得する、請求項１に記載の情報処理装置。
　前記テーブル探索部は、前記テーブルとは異なるテーブルの数を他の装置に提示する、請求項１に記載の情報処理装置。
　前記テーブル探索部は、前記別の異なる問い合わせの組み合わせに対する探索を実行する、請求項１に記載の情報処理装置。
　前記テーブル探索部は、前記別の異なる問い合わせに対する探索を前記別の異なる問い合わせ毎に実行する、請求項１に記載の情報処理装置。
　データベースのテーブル及び前記テーブルに対する任意の問い合わせを他の装置に提供するテーブル提供部と、
　前記テーブルに対する任意の問い合わせに基づいて生成される別の異なる問い合わせの結果が前記任意の問い合わせの結果と矛盾しない、前記テーブルとは異なるテーブルの数の情報に基づく、前記任意の問い合わせの結果から個人の属性情報が特定されるか否かの情報を前記他の装置から取得する結果取得部と、
を備える、情報処理装置。
　サーバ装置及び端末装置を備え、
　前記端末装置は、
　データベースのテーブルに対する任意の問い合わせを前記サーバ装置に提供するテーブル提供部と、
　前記テーブルに対する任意の問い合わせに基づいて生成される別の異なる問い合わせの結果が前記任意の問い合わせの結果と矛盾しない、前記テーブルとは異なるテーブルの数の情報に基づく、前記任意の問い合わせの結果を開示すると該問い合わせの結果から個人が特定されるかどうかの情報を前記サーバ装置から取得する結果取得部と、
を備え、
　前記サーバ装置は、
　前記テーブル及び前記端末装置から取得した前記テーブルに対する任意の問い合わせに基づいて別の異なる問い合わせを１つ以上生成する問い合わせ生成部と、
　前記問い合わせ生成部が生成した前記別の異なる問い合わせの結果が前記任意の問い合わせの結果と矛盾しない、前記テーブルとは異なるテーブルの数を探索し、探索結果に基づく、前記任意の問い合わせの結果を開示すると該問い合わせの結果から個人が特定されるかどうかの情報を前記端末装置に提供するテーブル探索部と、
を備える、情報処理システム。
　データベースのテーブル及び前記テーブルに対する任意の問い合わせに基づいて別の異なる問い合わせを１つ以上生成することと、
　生成された前記別の異なる問い合わせの結果が前記任意の問い合わせの結果と矛盾しない、前記テーブルとは異なるテーブルの数を探索することと、
を備える、情報処理方法。
　コンピュータに、
　データベースのテーブル及び前記テーブルに対する任意の問い合わせに基づいて別の異なる問い合わせを１つ以上生成することと、
　生成された前記別の異なる問い合わせの結果が前記任意の問い合わせの結果と矛盾しない、前記テーブルとは異なるテーブルの数を探索することと、
を実行させる、コンピュータプログラム。