WO2023067666A1

WO2023067666A1 - 算出装置、算出方法及び算出プログラム

Info

Publication number: WO2023067666A1
Application number: PCT/JP2021/038500
Authority: WO
Inventors: 俊樹芝原; 尭之三浦; 真昇紀伊; 敦謙市川
Original assignee: 日本電信電話株式会社
Priority date: 2021-10-18
Filing date: 2021-10-18
Publication date: 2023-04-27

Abstract

実施形態の算出装置は、作成部、学習部、判定部及び算出部を有する。作成部は、第１のデータセットを基に、第１のデータセットに隣接する第２のデータセットを作成する。学習部は、第１のデータセット及び第２のデータセットのいずれかを教師データとして用いて、ベイジアンＮＮ（neural　network）の学習を行う。判定部は、学習部によって学習が行われたベイジアンＮＮの出力を基に、ベイジアンＮＮの学習に用いられた教師データが第１のデータセットであるか第２のデータセットであるかを判定する。算出部は、判定部による判定結果を基にプライバシーリスクを算出する。

Description

算出装置、算出方法及び算出プログラム

　本発明は、算出装置、算出方法及び算出プログラムに関する。

　Deep　neural　network（ＤＮＮ）に代表される機械学習技術には、プライバシーリスクがあることが指摘されている。これは、学習済みのモデルが、教師データを記憶しやすい特性を持つためである。

　具体的には、特定のデータが教師データに含まれていたかを、学習済みモデルの出力から推定できることが示されている。特に医療データやウェブの閲覧履歴等、ユーザが他人に知られたくないデータを扱う場合はプライバシーリスクへの配慮が必要である。

　これに対し、あるデータがデータセットに含まれているかどうかを特定する攻撃がどの程度成功するかに基づいて、プライバシーリスクを算出する手法が知られている（例えば、非特許文献１及び非特許文献２を参照）。

Jagielski,　M.　et　al.:　Auditing　differentially　private　machine　learning:　How　private　is　private　sgd?,　arXiv　preprint　arXiv:2006.07709　(2020). Nasr,　M.　et　al.:　Adversary　instantiation:　Lower　bounds　for　differentially　private　machine　learning,　arXiv　preprint　arXiv:2101.04535　(2021).

　しかしながら、従来の技術には、ベイジアンＮＮのプライバシーリスクを算出することが困難であるという問題がある。

　非特許文献１及び非特許文献２に記載された手法は、入力に対して１つの予測値を出力する決定的なＮＮを用いたモデルを対象とするものである。

　一方で、ベイジアンＮＮは、予測値の事後分布又は事後分布からサンプリングされた値を出力するものであるため、従来の手法を適用することができない。

　上述した課題を解決し、目的を達成するために、算出装置は、第１のデータセットを基に、前記第１のデータセットに隣接する第２のデータセットを作成する作成部と、前記第１のデータセット及び前記第２のデータセットのいずれかを教師データとして用いて、ベイジアンＮＮ（neural　network）の学習を行う学習部と、前記学習部によって学習が行われたベイジアンＮＮの出力を基に、前記ベイジアンＮＮの学習に用いられた教師データが前記第１のデータセットであるか前記第２のデータセットであるかを判定する判定部と、前記判定部による判定結果を基にプライバシーリスクを算出する算出部と、を有することを特徴とする。

　本発明によれば、ベイジアンＮＮのプライバシーリスクを算出することができる。

図１は、プライバシーリスクの算出方法を説明する図である。図２は、第１の実施形態に係る算出装置の構成例を示す図である。図３は、データセットの判定方法を説明する図である。図４は、第１の実施形態に係る算出装置の処理の流れを示すフローチャートである。図５は、算出プログラムを実行するコンピュータの一例を示す図である。

　以下に、本願に係る算出装置、算出方法及び算出プログラムの実施形態を図面に基づいて詳細に説明する。なお、本発明は、以下に説明する実施形態により限定されるものではない。

　第１の実施形態では、特にベイジアンＮＮ（neural　network）に関するプライバシーリスクが算出される。

　ここで、ベイジアンＮＮは、ＮＮを基にした機械学習技術である。ベイジアンＮＮにおける重み及びバイアス等のパラメータは、確率分布に従うものとして扱われる。そして、各パラメータの事後分布は、ベイズ推定により求められる。

　図１を用いて、第１の実施形態における算出装置によるプライバシーリスク算出方法を説明する。図１は、プライバシーリスクの算出方法を説明する図である。

　図１に示すように、まず、算出装置は、データセットＤから隣接するデータセットＤ´を作成する（ステップＳ１）。

　例えば、データセットＤがそれぞれを（ｘ，ｙ）のような形式で表せる複数のデータを要素として含む場合、算出装置は、データセットＤにデータ（ｘ´，ｙ´）を追加することでデータセットＤ´を作成する。

　そして、算出装置は、データセットＤ及びデータセットＤ´のいずれかをランダムに選択する（ステップＳ２）。

　次に、算出装置は、選択したデータセットを教師データとして用いてモデルの学習を行う（ステップＳ３）。例えば、モデルはベイジアンＮＮである。

　ここで、算出装置は、学習済みのモデルの出力を基に、教師データとして用いられたのがデータセットＤであるかデータセットＤ´であるかを判定する（ステップＳ４）。

　さらに、算出装置は、判定結果を基にプライバシーリスクを算出する（ステップＳ５）。例えば、ステップＳ４における判定精度が高いほど攻撃が成功しやすく、プライバシーリスクは大きいということができる。

　例えば、判定精度が高いことは、どのデータセットが学習に用いられたかが出力から容易に推測されること、さらには（ｘ´，ｙ´）というデータが学習に使用されていたことが特定されやすいことを意味する。

　なお、算出装置は、ステップＳ２においてデータセットの選択を複数回行い、データセットを選択するたびにステップＳ３の学習及びステップＳ４の判定を実行する。

　その際、選択されたデータセットが同じであっても、学習済みのベイジアンＮＮが同じものになるとは限らない。

　以下、実施形態における算出装置の構成とともに、図１で説明した各処理の詳細を説明する。

［第１の実施形態の構成］
　図２を用いて、第１の実施形態に係る算出装置の構成について説明する。図２は、第１の実施形態に係る算出装置の構成例を示す図である。算出装置１０は、データセットの入力を受け付け、ベイジアンＮＮに関するプライバシーリスクを算出する。

　図２に示すように、算出装置１０は、通信部１１、入力部１２、出力部１３、記憶部１４及び制御部１５を有する。

　通信部１１は、ネットワークを介して、他の装置との間でデータ通信を行う。例えば、通信部１１はＮＩＣ（Network　Interface　Card）である。

　入力部１２は、ユーザからのデータの入力を受け付ける。入力部１２は、例えば、マウスやキーボード等の入力装置、又は入力装置と接続されるインタフェースである。

　出力部１３は、画面の表示等により、データを出力する。出力部１３は、例えば、ディスプレイ及びスピーカ等の出力装置、又は出力装置と接続されるインタフェースである。

　記憶部１４は、ＨＤＤ（Hard　Disk　Drive）、ＳＳＤ（Solid　State　Drive）、光ディスク等の記憶装置である。なお、記憶部１４は、ＲＡＭ（Random　Access　Memory）、フラッシュメモリ、ＮＶＳＲＡＭ（Non　Volatile　Static　Random　Access　Memory）等のデータを書き換え可能な半導体メモリであってもよい。

　記憶部１４は、算出装置１０で実行されるＯＳ（Operating　System）や各種プログラムを記憶する。記憶部１４は、モデル情報１４１及び学習用データ１４２を記憶する。

　モデル情報１４１は、例えばベイジアンＮＮを用いたモデルのハイパーパラメータ（層の数、ユニット数、活性化関数等）である。さらに具体的には、モデル情報１４１は、重み及びバイアスが従う確率分布を特定するための平均、分散等のパラメータであってもよい。

　また、学習用データ１４２は、ベイジアンＮＮの学習を行うためのデータである。例えば、学習用データ１４２はデータセットＤである。

　例えば、データセットＤは、ラベルと特徴量とを組み合わせたデータを要素として持つものであってもよい。

　制御部１５は、算出装置１０全体を制御する。制御部１５は、例えば、ＣＰＵ（Central　Processing　Unit）、ＭＰＵ（Micro　Processing　Unit）、ＧＰＵ（Graphics　Processing　Unit）等の電子回路や、ＡＳＩＣ（Application　Specific　Integrated　Circuit）、ＦＰＧＡ（Field　Programmable　Gate　Array）等の集積回路である。

　また、制御部１５は、各種の処理手順を規定したプログラムや制御データを格納するための内部メモリを有し、内部メモリを用いて各処理を実行する。

　制御部１５は、各種のプログラムが動作することにより各種の処理部として機能する。例えば、制御部１５は、作成部１５１、学習部１５２、判定部１５３及び算出部１５４を有する。

　作成部１５１は、データセットＤを基に、データセットＤに隣接するデータセットＤ´を作成する。データセットＤは、第１のデータセットの一例である。また、データセットＤ´は、第２のデータセットの一例である。

　図１で説明したように、作成部１５１は、データセットＤにデータ（ｘ´，ｙ´）を追加することによりデータセットＤ´を作成する。

　この場合、データセットＤとデータセットＤ´は、要素が１つだけ異なる２つのデータセットということができる。

　例えば、データ（ｘ´，ｙ´）は、データセットＤに含まれるデータの中から選択される。データ（ｘ´，ｙ´）はランダムに選択されたものであってもよい。

　また、例えば、データ（ｘ´，ｙ´）は、データセットＤ´が教師データとして用いられたときに影響が大きくなるようなデータであってもよい。影響の大きさは、データセットＤ´を教師データとして用いて学習を行った際のモデルの損失が大きいほど大きくなる。

　また、データ（ｘ´，ｙ´）は、算出したいプライバシーリスクがどのようなものであるかに応じて選択されるものであってもよい。

　また、作成部１５１は、データ（ｘ´，ｙ´）にノイズを加えた上でデータセットＤに追加することによりデータセットＤ´を作成してもよい。

　学習部１５２は、データセットＤ及びデータセットＤ´のいずれかを教師データとして用いて、ベイジアンＮＮ（neural　network）の学習を行う。

　例えば、学習部１５２は、データセットＤ及びデータセットＤ´のいずれかをランダムに選択し、選択したデータセットを教師データして用いてモデルの学習を行う。

　例えば、モデルは、モデル情報１４１から構築される未学習状態のベイジアンＮＮである。学習部１５２は、データセットを選択するたびにモデル情報１４１からモデルを構築し、学習を行うことができる。

　学習部１５２は、既知の機械学習手法により学習を行うことができる。また、学習部１５２は、プライバシー保護機械学習の手法（例えば、差分プライバシーを保証した学習手法）により学習を行ってもよい。

　判定部１５３は、学習部１５２によって学習が行われたベイジアンＮＮの出力を基に、ベイジアンＮＮの学習に用いられた教師データがデータセットＤであるかデータセットＤ´であるかを判定する。例えば、判定部１５３は、ベイジアンＮＮに１つのサンプルを１回又は複数回入力して得られた出力、又は、ベイジアンＮＮに複数のサンプルのそれぞれを１回又は複数回入力して得られた出力を基に判定を行う。

　例えば、判定部１５３は、データ（ｘ´，ｙ´）を学習済みのベイジアンＮＮに入力したときの出力を用いて判定を行う。また、判定部１５３は、データ（ｘ´，ｙ´）にノイズを加えた上で学習済みのベイジアンＮＮに入力したときの出力を用いて判定を行ってもよい。

　判定部１５３は、学習部１５２によって学習が行われたベイジアンＮＮに１つのサンプルを複数回入力すること、又は、ベイジアンＮＮに複数のサンプルのそれぞれを１回以上入力すること、によって得られた複数の出力を統合した情報を基に、ベイジアンＮＮの学習に用いられた教師データがデータセットＤであるかデータセットＤ´であるかを判定することができる。なお、判定部１５３は、ベイジアンＮＮに１つのサンプルを１回だけ入力して得られた１つの出力を基に判定を行ってもよい。

　例えば、判定部１５３は、複数のサンプルを学習済みのベイジアンＮＮに入力して得られた出力のそれぞれについて教師データがデータセットＤであるかデータセットＤ´であるかを判定する。これにより、判定部１５３は、複数の判定結果を得ることができる。

　例えば、判定部１５３は、複数の判定結果のうち、全ての判定結果が教師データがデータセットＤ´であることを示している場合、最終的に教師データがデータセットＤ´であると判定する。

　また、例えば、判定部１５３は、複数の判定結果のうち、１つ以上の判定結果が教師データがデータセットＤ´であることを示している場合、最終的に教師データがデータセットＤ´であると判定する。

　また、例えば、判定部１５３は、複数の判定結果のうち、教師データがデータセットＤ´であることを示している判定結果の数が、教師データがデータセットＤであることを示している判定結果の数よりも多い場合、最終的に教師データがデータセットＤ´であると判定する。

　ここで、ベイジアンＮＮの出力は所定の事後分布に従って決定される。ベイジアンＮＮは、事後分布の平均等の統計値を出力することができる。

　ベイジアンＮＮが事後分布の統計値を出力する場合、判定部１５３は、統計値を基に、ベイジアンＮＮの学習に用いられた教師データがデータセットＤであるかデータセットＤ´であるかを判定する。

　また、ベイジアンＮＮは、事後分布からサンプリングされた複数の予測値を出力する場合がある。

　ベイジアンＮＮが事後分布からサンプリングされた複数の予測値を出力する場合、判定部１５３は、複数の予測値に関する統計値を基に、ベイジアンＮＮの学習に用いられた教師データがデータセットＤであるかデータセットＤ´であるかを判定する。

　いずれの場合においても、統計値の種類は１つであってもよいし、複数であってもよい。統計値の種類は、例えば平均、最大値、最小値、予測値のうちｉ番目（ただし、ｉは１からサンプル数までの整数）に小さい値等である。

　図３を用いて、判定部１５３による統計値を用いたデータセットの判定方法を説明する。図３は、データセットの判定方法を説明する図である。

　なお、情報１ｆ及び情報２ｆは、それぞれ所定の種類の統計値に相当する。例えば、情報１ｆが平均であり、情報２ｆが最大値であってもよい。

　判定部１５３は、統計値が閾値以上であるか否かによって、ベイジアンＮＮの学習に用いられた教師データがデータセットＤであるかデータセットＤ´であるかを判定する。

　例えば、判定部１５３は、全ての種類の統計値が閾値以上である場合に、教師データがデータセットＤ´であると判定する。この判定方法は図３のタイプＡに相当する。

　図３に示すように、タイプＡの判定方法においてデータセットＤ´と判定される領域は、情報１ｆが閾値以上である領域と情報２ｆが閾値以上である領域の重複部分である。

　また、例えば、判定部１５３は、いずれかの種類の統計値が閾値以上である場合に、教師データがデータセットＤ´であると判定する。この判定方法は図３のタイプＢに相当する。

　図３に示すように、タイプＢの判定方法においてデータセットＤ´と判定される領域は、情報１ｆが閾値以上である領域と情報２ｆが閾値以上である領域の両方である。

　また、タイプＡ及びタイプＢにおける領域に限られず、図３のような平面（情報が３つ以上の場合は空間）におけるあらかじめ指定された領域に、各情報から決定される点が存在する場合に、判定部１５３は教師データがデータセットＤ´であると判定することができる。

　閾値による判定に用いられる情報は、教師データがデータセットＤ´であるときに大きくなる傾向がある値であることが望ましい。平均、最大値、最小値といった統計値にはそのような傾向がある。

　一方で、標準偏差には、教師データがデータセットＤ´であるときに小さくなる傾向がある。このため、判定部１５３は、標準偏差そのものの代わりに、標準偏差の逆数又は標準偏差の符号を反転させた値を判定のための情報として用いることができる。

　なお、ベイジアンＮＮが複数の予測値を出力することなく、所定の統計値を出力するものである場合、判定部１５３は、当該統計値を用いて判定を行う。

　例えば、ベイジアンＮＮが平均と標準偏差のみを出力する場合、判定部１５３は、平均と標準偏差以外の統計値を用いて判定を行うことはできない。

　これにより、ベイジアンＮＮの出力がどのように公開されるかによって、プライバシーリスクがどのように変化するかを評価することが可能になる。

　算出部１５４は、判定部１５３による判定結果を基にプライバシーリスクを算出する。

　ここで、学習部１５２による学習及び判定部１５３による判定は、複数回行われるものとする。

　実際の教師データがデータセットＤであるときに、判定部１５３が教師データがデータセットＤ´であると判定した割合を誤検知率（ＦＰＲ：false　positive　rate）とする。

　一方、実際の教師データがデータセットＤ´であるときに、判定部１５３が教師データがデータセットＤであると判定した割合を見逃し率（ＦＮＲ：false　negative　rate）とする。

　このとき、算出部１５４は、（１）式によりプライバシーリスクを計算することができる。

　δは十分小さな定数（例えば、１０^－５）である。判定部１５３は、（１）式から計算されるプライバシーリスクが大きくなるような閾値を用いるようにしてもよい。また、算出部１５４は、信頼区間を考慮してプライバシーリスクを算出してもよい。

　なお、算出部１５４は、（１）式を用いた方法以外にも、確率の比率に基づく方法、及び所定の検定手法を用いた方法によってプライバシーリスクを算出してもよい。

（実施例）
　算出装置１０は、例えば下記の方法により決定的なＮＮとベイジアンＮＮとのプライバシーリスクの比較を行うことができる。これにより、ベイジアンＮＮを導入した場合のプライバシーリスクの増加の度合いを評価することが可能になる。

　まず、算出装置１０は、ＮＮとしてDropoutを適用したＣＮＮ（Convolutional　Neural　Network）を用いる。また、算出装置１０は、ＤＰ（Differentially　Private）－ＳＧＤ（Stochastic　Gradient　Descent）によりＣＮＮの学習を行う。

　そして、算出装置１０は、ＣＮＮにＭＣ　dropoutを適用して得られるベイジアンＮＮのプライバシーリスクを実施形態の方法により算出する。

　次に、算出装置１０は、ＣＮＮの決定的なＮＮとしてのプライバシーリスクを従来の方法（例えば、非特許文献１又は非特許文献２に記載の方法）により算出する。

　算出装置１０は、ベイジアンＮＮのプライバシーリスクと、ＣＮＮの決定的なＮＮとしてのプライバシーリスクとを比較する。

［第１の実施形態の処理］
　図４を用いて、算出装置１０の処理の流れを説明する。図４は、第１の実施形態に係る算出装置の処理の流れを示すフローチャートである。

　図４に示すように、まず、算出装置１０は、学習用のデータセットＤに隣接するデータセットＤ´を作成する（ステップＳ１０１）。例えば、算出装置１０は、データセットＤにデータ（ｘ´，ｙ´）を追加することによりデータセットＤ´を作成する。

　次に、算出装置１０は、データセットＤ又はデータセットＤ´のいずれかをランダムに選択する（ステップＳ１０２）。算出装置１０は、複数回にわたって選択を行う。

　算出装置１０は、選択したデータセットを用いてモデルの学習を行う（ステップＳ１０３）。算出装置１０は、プライバシー保護機械学習の手法による学習を行ってもよい。

　算出装置１０は、学習結果からデータセットＤとデータセットＤ´のどちらが学習に用いられたかを判定する（ステップＳ１０４）。例えば、算出装置１０は、モデルの出力に関する統計値を用いて判定を行う。

　終了条件が充足されるまで（ステップＳ１０５、Ｎｏ）、算出装置１０はステップＳ１０２からステップＳ１０４を繰り返す。例えば、終了条件は、ステップＳ１０２からステップＳ１０４が一定回数だけ繰り返されたことである。

　一方、終了条件が充足された場合（ステップＳ１０５、Ｙｅｓ）、算出装置１０はステップＳ１０６に進む。

　算出装置１０は、判定結果を基にプライバシーリスクを算出する（ステップＳ１０６）。例えば、算出装置１０は、教師データがデータセットＤ´であると判定することを陽性（positive）とした場合のＦＰＲ及びＦＮＲから、プライバシーリスクを算出することができる。

［第１の実施形態の効果］
　これまで説明してきたように、作成部１５１は、第１のデータセットを基に、第１のデータセットに隣接する第２のデータセットを作成する。学習部１５２は、第１のデータセット及び第２のデータセットのいずれかを教師データとして用いて、ベイジアンＮＮ（neural　network）の学習を行う。判定部１５３は、学習部１５２によって学習が行われたベイジアンＮＮの出力を基に、ベイジアンＮＮの学習に用いられた教師データが第１のデータセットであるか第２のデータセットであるかを判定する。算出部１５４は、判定部１５３による判定結果を基にプライバシーリスクを算出する。

　このように、算出装置１０は、ベイジアンＮＮの出力を基に教師データのデータセットを判定し、その判定結果からプライバシーリスクを算出する。その結果、本実施形態によれば、ベイジアンＮＮのプライバシーリスクを算出することができる。

　判定部１５３は、学習部１５２によって学習が行われたベイジアンＮＮに１つのサンプルを複数回入力すること、又は、ベイジアンＮＮに複数のサンプルのそれぞれを１回以上入力すること、によって得られた複数の出力を統合した情報を基に、ベイジアンＮＮの学習に用いられた教師データが第１のデータセットであるか第２のデータセットであるかを判定する。このように、算出装置１０は、複数の出力を利用することで、例えばＦＰＲ及びＦＮＲを用いて統計的な判定を行うことができる。

　ベイジアンＮＮが事後分布の統計値を出力する場合、判定部１５３は、統計値を基に、ベイジアンＮＮの学習に用いられた教師データが第１のデータセットであるか第２のデータセットであるかを判定する。このように、算出装置１０は、ベイジアンＮＮの出力を利用して容易に判定を行うことができる。

　ベイジアンＮＮが事後分布からサンプリングされた複数の予測値を出力する場合、判定部１５３は、複数の予測値に関する統計値を基に、ベイジアンＮＮの学習に用いられた教師データが第１のデータセットであるか第２のデータセットであるかを判定する。このように、算出装置１０は、ベイジアンＮＮの出力を利用して任意の統計値を用いて判定を行うことができる。

　判定部１５３は、統計値が閾値以上であるか否かによって、ベイジアンＮＮの学習に用いられた教師データが第１のデータセットであるか第２のデータセットであるかを判定する。このように、算出装置１０は、閾値により容易に判定を行うことができる。

［システム構成等］
　また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散及び統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散又は統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、ＣＰＵ（Central　Processing　Unit）及び当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。なお、プログラムは、ＣＰＵだけでなく、ＧＰＵ等の他のプロセッサによって実行されてもよい。

　また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

［プログラム］
　一実施形態として、算出装置１０は、パッケージソフトウェアやオンラインソフトウェアとして上記の算出処理を実行する算出プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の算出プログラムを情報処理装置に実行させることにより、情報処理装置を算出装置１０として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やＰＨＳ（Personal　Handyphone　System）等の移動体通信端末、さらには、ＰＤＡ（Personal　Digital　Assistant）等のスレート端末等がその範疇に含まれる。

　また、算出装置１０は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の算出処理に関するサービスを提供する算出サーバ装置として実装することもできる。例えば、算出サーバ装置は、データセットを入力とし、ベイジアンＮＮのプライバシーリスクを出力とする算出サービスを提供するサーバ装置として実装される。この場合、算出サーバ装置は、Ｗｅｂサーバとして実装することとしてもよいし、アウトソーシングによって上記の算出処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。

　図５は、算出プログラムを実行するコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

　メモリ１０１０は、ＲＯＭ（Read　Only　Memory）１０１１及びＲＡＭ（Random　Access　Memory）１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

　ハードディスクドライブ１０９０は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、算出装置１０の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、算出装置１０における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、ＳＳＤ（Solid　State　Drive）により代替されてもよい。

　また、上述した実施形態の処理で用いられる設定データは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０は、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して、上述した実施形態の処理を実行する。

　なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク（ＬＡＮ（Local　Area　Network）、ＷＡＮ（Wide　Area　Network）等）を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

　１０　算出装置
　１１　通信部
　１２　入力部
　１３　出力部
　１４　記憶部
　１５　制御部
　１４１　モデル情報
　１４２　学習用データ
　１５１　作成部
　１５２　学習部
　１５３　判定部
　１５４　算出部

Claims

　第１のデータセットを基に、前記第１のデータセットに隣接する第２のデータセットを作成する作成部と、
　前記第１のデータセット及び前記第２のデータセットのいずれかを教師データとして用いて、ベイジアンＮＮ（neural　network）の学習を行う学習部と、
　前記学習部によって学習が行われたベイジアンＮＮの出力を基に、前記ベイジアンＮＮの学習に用いられた教師データが前記第１のデータセットであるか前記第２のデータセットであるかを判定する判定部と、
　前記判定部による判定結果を基にプライバシーリスクを算出する算出部と、
　を有することを特徴とする算出装置。
　前記判定部は、前記学習部によって学習が行われたベイジアンＮＮに１つのサンプルを複数回入力すること、又は、前記ベイジアンＮＮに複数のサンプルのそれぞれを１回以上入力すること、によって得られた複数の出力を統合した情報を基に、前記ベイジアンＮＮの学習に用いられた教師データが前記第１のデータセットであるか前記第２のデータセットであるかを判定することを特徴とする請求項１に記載の算出装置。
　ベイジアンＮＮが事後分布の統計値を出力する場合、前記判定部は、前記統計値を基に、前記ベイジアンＮＮの学習に用いられた教師データが前記第１のデータセットであるか前記第２のデータセットであるかを判定することを特徴とする請求項１又は２に記載の算出装置。
　ベイジアンＮＮが事後分布からサンプリングされた複数の予測値を出力する場合、前記判定部は、前記複数の予測値に関する統計値を基に、前記ベイジアンＮＮの学習に用いられた教師データが前記第１のデータセットであるか前記第２のデータセットであるかを判定することを特徴とする請求項１又は２に記載の算出装置。
　前記判定部は、前記統計値が閾値以上であるか否かによって、前記ベイジアンＮＮの学習に用いられた教師データが前記第１のデータセットであるか前記第２のデータセットであるかを判定することを特徴とする請求項３又は４に記載の算出装置。
　算出装置によって実行される算出方法であって、
　第１のデータセットを基に、前記第１のデータセットに隣接する第２のデータセットを作成する作成工程と、
　前記第１のデータセット及び前記第２のデータセットのいずれかを教師データとして用いてモデルの学習を行う学習工程と、
　前記学習工程において学習が行われたモデルの出力を基に、前記モデルの学習に用いられた教師データが前記第１のデータセットであるか前記第２のデータセットであるかを判定する判定工程と、
　前記判定工程における判定結果を基にプライバシーリスクを算出する算出工程と、
　を含むことを特徴とする算出方法。
　コンピュータを、請求項１から５のいずれか１項に記載の算出装置として機能させるための算出プログラム。