WO2023135636A1

WO2023135636A1 - 秘密クラスタ計算システム、秘密クラスタ計算装置、秘密クラスタ計算方法、プログラム

Info

Publication number: WO2023135636A1
Application number: PCT/JP2022/000520
Authority: WO
Inventors: 気吹三品; 大五十嵐; 浩気濱田; 亮菊池
Original assignee: 日本電信電話株式会社
Priority date: 2022-01-11
Filing date: 2022-01-11
Publication date: 2023-07-20

Abstract

データを秘匿したまま高精度にk-means法を秘密計算する技術を提供する。クラスタID jのシェアとクラスタID jのセントロイドのシェアの組を第jレコードとして含むテーブルをセントロイドテーブルの初期値として設定するセントロイドテーブル初期化手段と、データID iのシェアとクラスタID jのシェアとデータID iのデータとクラスタID jのセントロイドとの距離dijのシェアの組を第M(j-1)+iレコードとして含む距離テーブルを計算する距離テーブル計算手段と、データID iのシェアとデータID iのデータが属するクラスタのクラスタID k(i)のシェアの組を第iレコードとして含むクラスタIDテーブルを計算するクラスタIDテーブル計算手段と、セントロイドテーブルを計算するセントロイドテーブル計算手段とを含む。

Description

秘密クラスタ計算システム、秘密クラスタ計算装置、秘密クラスタ計算方法、プログラム

　本発明は、秘密計算技術に関し、特にk-means法を秘密計算する技術に関する。

　複数のデータを分類する技術として、似ているデータ同士を１つのクラスタに分類する技術（以下、クラスタリング技術という）がある。クラスタリング技術として、例えば、非特許文献１に記載のk-means法がある。このk-means法を秘密計算するための従来の方法として、非特許文献２に記載の方法がある。

　秘密計算とは、暗号化された数値を復元することなく指定された演算の演算結果を得る方法のことである（例えば参考非特許文献１参照）。参考非特許文献１の方法では、数値を復元することのできる複数の情報を3つの秘密計算装置に分散するという暗号化を行い、数値を復元することなく、加減算、定数和、乗算、定数倍、論理演算（否定、論理積、論理和、排他的論理和）、データ形式変換（整数、二進数）の結果を3つの秘密計算装置に分散された状態、すなわち暗号化されたまま保持させることができる。一般に、分散数は3に限らずW（Wは3以上の所定の定数）とすることができ、W個の秘密計算装置による協調計算によって秘密計算を実現するプロトコルはマルチパーティプロトコルと呼ばれる。

（参考非特許文献１：千田浩司, 濱田浩気, 五十嵐大, 高橋克巳, “軽量検証可能３パーティ秘匿関数計算の再考,” In CSS, 2010．）

John A Hartigan and Manchek A Wong, "Algorithm AS 136: A K-Means Clustering Algorithm," Journal of the Royal Statistical Society. Series C(Applied Statistics), Vol.28, No.1, pp.100-108, 1979. Jaideep Vaidya and Chris Clifton, "Privacy-preserving k-means clustering over vertically partitioned data," In Proceedings of the ninth ACM SIGKDD international conference on Knowledge discovery and data mining, pp.206-215, 2003.

　しかし、非特許文献２に記載の方法には、暗号化したままでは計算が困難なものを近似計算するために平文で計算したときの結果と異なるものになってしまうという計算精度の問題や、計算の途中でデータを復号して計算するという安全性の問題がある。

　そこで本発明は、データを秘匿したまま高精度にk-means法を秘密計算する技術を提供することを目的とする。

　本発明の一態様は、M（Mは1以上の整数）をデータの数、K（Kは1以上の整数）をクラスタの数、N（Nは1以上の整数）をデータの次元、(x_i1, …, x_iN) (i=1, …, M)をデータID iのデータとし、3個以上の秘密クラスタ計算装置で構成され、M個のデータ(x_i1, …, x_iN)のシェア([[x_i1]], …, [[x_iN]]) (i=1, …, M)から、データID iのデータが属するクラスタのクラスタID k(i)（ただし、k(i)は1≦k(i)≦Kを満たす）のシェア[[k(i)]]を計算する秘密クラスタ計算システムであって、データIDと当該データIDのデータが属するクラスタのクラスタIDを属性（以下、データID属性、クラスタID属性という）として含むテーブルをクラスタIDテーブル、データIDと当該データIDのデータを属性（以下、データID属性、データ属性という）として含むテーブルをデータテーブル、クラスタIDと当該クラスタIDのクラスタのセントロイドを属性（以下、クラスタID属性、セントロイド属性という）として含むテーブルをセントロイドテーブル、データIDとクラスタIDと当該データIDのデータと当該クラスタIDのクラスタのセントロイドとの距離を属性（以下、データID属性、クラスタID属性、距離属性という）として含むテーブルを距離テーブルとし、データテーブルは、データID iのシェア[[i]]とデータID iのデータ(x_i1, …, x_iN)のシェア([[x_i1]], …, [[x_iN]])の組を第iレコード(i=1, …, M)として含み、クラスタID jのシェア[[j]]とクラスタID jのセントロイド(c_j1, …, c_jN)のシェア([[c_j1]], …, [[c_jN]]) （ただし、当該シェアは所定の方法で計算したものとする）の組を第jレコード(j=1, …, K)として含むテーブルをセントロイドテーブルの初期値として設定するセントロイドテーブル初期化手段と、データテーブルとセントロイドテーブルを用いて、データID iのシェア[[i]]とクラスタID jのシェア[[j]]とデータID iのデータ(x_i1, …, x_iN)とクラスタID jのセントロイド(c_j1, …, c_jN)との距離d_ijのシェア[[d_ij]]の組を第M(j-1)+iレコード(i=1, …, M, j=1, …, K)として含む距離テーブルを計算する距離テーブル計算手段と、距離テーブルを用いて、データID iのシェア[[i]]とデータID iのデータが属するクラスタのクラスタID k(i)のシェア[[k(i)]]の組を第iレコード(i=1, …, M)として含むクラスタIDテーブルを計算するクラスタIDテーブル計算手段と、データテーブルとクラスタIDテーブルを用いて、セントロイドテーブルを計算するセントロイドテーブル計算手段と、を含む。

　本発明によれば、データを秘匿したまま高精度にk-means法を秘密計算することが可能となる。

groupBySum演算の様子を示す図である。 groupByCount演算の様子を示す図である。クラスタIDテーブルの一例を示す図である。データテーブルの一例を示す図である。セントロイドテーブルの一例を示す図である。距離テーブルの一例を示す図である。秘密クラスタ計算システム１０の構成を示すブロック図である。秘密クラスタ計算装置１００_iの構成を示すブロック図である。秘密クラスタ計算システム１０の動作を示すフローチャートである。本発明の実施形態における各装置を実現するコンピュータの機能構成の一例を示す図である。

　以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

　各実施形態の説明に先立って、この明細書における表記方法について説明する。

　^（キャレット）は上付き添字を表す。例えば、x^{y^z}はy^zがxに対する上付き添字であり、x_y^zはy^zがxに対する下付き添字であることを表す。また、_（アンダースコア）は下付き添字を表す。例えば、x^y_zはy_zがxに対する上付き添字であり、x_{y_z}はy_zがxに対する下付き添字であることを表す。

　ある文字xに対する^xや~xのような上付き添え字の”^”や”~”は、本来”x”の真上に記載されるべきであるが、明細書の記載表記の制約上、^xや~xと記載しているものである。

＜技術的背景＞
<<秘密計算>>
　本願の発明における秘密計算は、既存の秘密計算上の演算の組み合わせで構築される。この秘密計算に必要な演算は、秘匿化、加算、減算、乗算、除算、論理演算（否定、論理積、論理和、排他的論理和）、比較演算（=, <, >, ≦, ≧）、秘密ソート、秘密ユニークチェック、Group-by演算である。以下、記法も含めいくつかの演算について説明していく。

［秘匿化］
　[[x]]をxを秘密分散で秘匿した値（以下、xのシェアという）とする。秘密分散方法には、任意の方法を用いることができる。例えば、GF(2⁶¹-1)上のShamir秘密分散、Z₂上の複製秘密分散を用いることができる。

　ある１つのアルゴリズムの中で複数の秘密分散方法を組み合わせて用いてもよい。この場合、適宜相互に変換するものとする。

　また、N次元ベクトル^→x=(x₁, …, x_N)に対して、[[^→x]]=([[x₁]], …, [[x_N]])とする。つまり、[[^→x]]は、^→xの第n要素x_nのシェア[[x_n]]を第n要素とするベクトルである。同様に、M×N行列A=(a_m,n)(1≦m≦M, 1≦n≦N)に対しても、[[A]]をAの第(m, n)要素a_m,nのシェア[[a_m,n]]を第(m, n)要素とする行列とする。

　なお、xを[[x]]の平文という。

　xから[[x]]を求める方法（秘匿化）、[[x]]からxを求める方法（復元）として、具体的には、参考非特許文献１、参考非特許文献２に記載の方法がある。

（参考非特許文献２：Shamir, A., “How to share a secret”, Communications of the ACM, Vol.22, No.11, pp.612-613, 1979.）
［加算、減算、乗算、除算］
　秘密計算による加算[[x]]+[[y]]は、[[x]], [[y]]を入力とし、[[x+y]]を出力する。秘密計算による減算[[x]]-[[y]]は、[[x]], [[y]]を入力とし、[[x-y]]を出力する。秘密計算による乗算[[x]]×[[y]]（mul([[x]], [[y]])と表すこともある）は、[[x]], [[y]]を入力とし、[[x×y]]を出力する。秘密計算による除算[[x]]/[[y]]（div([[x]], [[y]])と表すこともある）は、[[x]], [[y]]を入力とし、[[x/y]]を出力する。

　加算、減算、乗算、除算の具体的方法として、参考非特許文献３、参考非特許文献４に記載の方法がある。

（参考非特許文献３：Ben-Or, M., Goldwasser, S. and Wigderson, A., “Completeness theorems for non-cryptographic fault-tolerant distributed computation”, Proceedings of the twentieth annual ACM symposium on Theory of computing, ACM, pp. 1-10, 1988.）
（参考非特許文献４：Gennaro, R., Rabin, M. O. and Rabin, T., “Simplied VSS and fast-track multiparty computations with applications to threshold cryptography”, Proceedings of the seventeenth annual ACM symposium on Principles of distributed computing, ACM, pp.101-111, 1998.）
　N次元ベクトル^→x=(x₁, …, x_N)のシェア[[^→x]]=([[x₁]], …, [[x_N]])、N次元ベクトル^→y=(y₁, …, y_N)のシェア[[^→y]]=([[y₁]], …, [[y_N]])に対して、秘密計算による除算[[^→x]]/[[^→y]]を[[^→x/^→y]]=([[x₁/y₁]], …, [[x_N/y_N]])とする。なお、[[^→x]]/[[^→y]]を[[^→x]]を[[^→y]]で割った値ともいう。

［論理演算］
　秘密計算による否定not[[x]]は、[[x]]を入力とし、[[not(x)]]を出力する。秘密計算による論理積and([[x]], [[y]])は、[[x]], [[y]]を入力とし、[[and(x, y)]]を出力する。秘密計算による論理和or([[x]], [[y]])は、[[x]], [[y]]を入力とし、[[or(x, y)]]を出力する。秘密計算による排他的論理和xor([[x]], [[y]])は、[[x]], [[y]]を入力とし、[[xor(x, y)]]を出力する。

　なお、論理演算は加算、減算、乗算、除算を組み合わせることで容易に構成することができる。

［比較演算］
　秘密計算による等号判定=([[x]], [[y]]) （equal([[x]], [[y]])と表すこともある）は、[[x]], [[y]]を入力とし、x=yである場合は[[1]]を、それ以外の場合は[[0]]を出力する。秘密計算による比較<([[x]], [[y]])は、[[x]], [[y]]を入力とし、x<yである場合は[[1]]を、それ以外の場合は[[0]]を出力する。秘密計算による比較>([[x]], [[y]])は、[[x]], [[y]]を入力とし、x>yである場合は[[1]]を、それ以外の場合は[[0]]を出力する。秘密計算による比較≦([[x]], [[y]])は、[[x]], [[y]]を入力とし、x≦yである場合は[[1]]を、それ以外の場合は[[0]]を出力する。秘密計算による比較≧([[x]], [[y]])は、[[x]], [[y]]を入力とし、x≧yである場合は[[1]]を、それ以外の場合は[[0]]を出力する。

　なお、比較演算は論理演算を組み合わせることで容易に構成することができる。

［秘密ソート］
　秘密ソートは、N次元ベクトル^→x=(x₁, …, x_N)のシェア[[^→x]]を入力とし、[[^→x]]の要素[[x₁]], …, [[x_N]]を昇順にソートしたベクトルsort([[^→x]]):=([[x_{i_1}]], …, [[x_{i_N}]])（ただし、x_{i_1}, …, x_{i_N}はx_{i_1}≦x_{i_2}≦ … ≦x_{i_N}を満たす）を出力する。また、任意の属性の各要素が秘匿化されているテーブルTに対して、テーブルTの属性αをキーとしてテーブルTを秘密ソートしたテーブルとは、属性αの要素の値が第１レコードから昇順になるようにレコードごと入れ替えたテーブルのこととする。

　秘密ソートの具体的方法として、参考非特許文献５に記載の方法がある。

（参考非特許文献５：五十嵐大, 濱田浩気, 菊池亮, 千田浩司, “超高速秘密計算ソートの設計と実装：秘密計算がスクリプト言語に並ぶ日,” コンピュータセキュリティシンポジウム(CSS), 2017.）
［秘密ユニークチェック］
　秘密ユニークチェックは、N次元ベクトル^→x=(x₁, …, x_N)のシェア[[^→x]]を入力とし、[[^→x]]の要素[[x₁]], …, [[x_N]]の中に同じ値が２回以上出現する場合、１回目の出現となる要素については[[1]]、２回目以降の出現となる要素については[[0]]で置換したベクトルunique_check([[^→x]]):=([[x_{i_1}]], …, [[x_{i_N}]])（ただし、x_{i_1}, …, x_{i_N}は1または0のいずれかである）を出力する。例えば、ベクトル([[1]], [[2]], [[2]], [[3]], [[3]], [[3]])に対して秘密ユニークチェックを実行すると、([[1]], [[1]], [[0]], [[1]], [[0]], [[0]])となる。

　なお、秘密ユニークチェックは秘密ソートや比較演算を組み合わせることで容易に構成することができる。

［Group-by演算］
　Group-by演算とは，テーブルにキー属性（例：性別）とバリュー属性（例：身長）があり、当該テーブルの任意の属性の各要素が秘匿化されている場合、キー属性の要素の値ごとにグループ分けした統計値（例：性別ごとの平均身長）を得る演算である。計算される統計値が合計である場合がgroupBySum演算であり、計算される統計値が度数である場合がgroupByCount演算である。

　図１はgroupBySum演算の一例を示す図である。図１の例からわかるように、groupBySum演算の結果を表すテーブルではキー属性の要素の値が第1レコードから昇順に整列され、キー属性の要素の値ごとに、バリュー属性1の要素の和、バリュー属性2の要素の和が求められている。図２はgroupByCount演算の一例を示す図である。図２の例からわかるように、groupByCount演算の結果を表すテーブルではキー属性の値が第1レコードから昇順に整列され、キー属性の要素の値ごとに、バリュー属性1の要素の数、バリュー属性2の要素の数が求められている。

　Group-by演算の具体的方法として、参考非特許文献６に記載の方法がある。

（参考非特許文献６：菊池亮, 濱田浩気, 五十嵐大, 高橋元, 高橋克巳, ”横断的動線分析を秘密計算でやってみよう”, 2020年暗号と情報セキュリティシンポジウム, 3C2-1, 2020.）
　参考非特許文献６に開示されているGroup-by演算はgroupByCommonという演算を用いることで様々なGroup-by演算を効率よく行っている。

<<k-means法>>
　k-means法は教師無し学習に分類される機械学習手法の１つである。回帰分析やクラス分類のような教師あり学習では、欲しい出力（教師データという）を用意してその出力を高い精度で再現するようなモデルを構築することを目的とするのに対し、クラスタリングのような教師無し学習では事前に欲しい出力を定めない。

　クラスタリングでは、与えられた複数のデータ間の距離を計算し、距離が近いデータを似ているデータとしてクラスタにまとめていく。クラスタリングはk-means法のように生成するクラスタの数を事前に決めておく非階層的な手法と、生成するクラスタの数を事前に決めておかず最も似ている（つまり、距離が最小の）データ同士から順番にクラスタとしていく階層的な手法とがある。k-means法は、階層的な手法に比べると、大規模データをクラスタリングする場合でも計算量が大きくなりにくいという特徴があるため、階層的な手法で扱いきれない規模のデータに対して用いられることが多い。

　k-means法における処理の流れは以下の通りである。

（１）生成するクラスタの数Kとクラスタリングの対象となるM個のデータを入力する。なお、各データはN次元ベクトルで表されるものとする。各次元はそれぞれデータの特徴量を表す。

（２）K個のセントロイドの初期値を設定する。ここで、セントロイドとは、クラスタに含まれるデータの重心のことである。また、初期値の設定方法として、M個のデータの中からランダムに選択したK個のデータをセントロイドとするForgy法や、k-means++法がある。

（３）データとセントロイドの各ペアに対して、距離を計算する。距離には、例えば、ユークリッド距離を用いる。

（４）各データに対して、セントロイドとの距離が最小となるクラスタを当該データが属するクラスタとして割り当てる。

（５）各クラスタに対して、セントロイドを計算する。

（６）所定の終了条件を満たす場合、（４）で得られたデータに対するクラスタの割り当て結果、つまり、データが属するクラスタを表す情報を出力し、それ以外の場合は（３）～（５）の処理を実行する。ここで、所定の終了条件とは、例えば、K個のセントロイドのそれぞれがある位置に収束したか否かという条件や、（３）～（５）の処理の実行回数が所定の回数に達したか否かという条件のことである。

<<秘密k-means法>>
　秘密k-means法は、k-means法を秘密計算する方法であり、データの数Mとクラスタの数K以外は秘密とする。また、終了条件として上記のような収束判定条件を用いる場合、収束判定ごとに“K個のセントロイドのそれぞれがある位置に収束したか否か”を表す1ビットの情報を復号する必要があるが、その他の情報はいずれも秘匿化されたまま処理される。例えば、M個のデータ、K個のセントロイド、データとセントロイドとの距離、データが属するクラスタを表す情報、クラスタに含まれるデータの数は秘匿化されたまま処理される。

　次に、秘密k-means法で扱うテーブルについて説明する。k-means法では、データが属するクラスタを表す情報を扱う必要がある。ここでは、図３に示すような、M個のデータのデータIDとK個のクラスタのクラスタIDを１対１で対応付けたテーブル（以下、クラスタIDテーブルという）を用いて管理する。なお、いずれのIDも1から順に払い出されるものとする。また、M個のデータは、図４に示すような、データIDと当該データIDのデータを対応付けたテーブル（以下、データテーブルという）を用いて管理する。さらに、K個のセントロイドは、図５に示すような、クラスタIDと当該クラスタIDのクラスタのセントロイドを対応付けたテーブル（以下、セントロイドテーブルという）を用いて管理する。上記３つのテーブルのうち、データテーブルは処理の途中で書き換えられることはない一方で、クラスタIDテーブルとセントロイドテーブルは適宜書き換えられる。

　秘密k-means法における処理の流れは、k-means法における処理の流れと同一であり、秘密計算されるか否かという点において異なるのみである。以下、（３）～（５）の処理が上記３つのテーブルを用いてどのように実行されるのかについて説明する。

［データとセントロイドとの距離の計算］
　ここでは、（３）の処理について説明する。当該処理では、データテーブルとセントロイドテーブルを用いて、データIDとクラスタIDのすべての組合せに対して、当該データIDのデータと当該クラスタIDのクラスタのセントロイドとの距離を計算する。ただし、以降の処理を容易にするために、計算結果を図６に示すような距離テーブルにまとめる。

［クラスタの割り当て］
　ここでは、（４）の処理について説明する。当該処理では、（３）の処理で得られた距離テーブルを用いて、各データに対してセントロイドとの距離が最小となるクラスタがペアとなるように、クラスタIDテーブルを更新する。つまり、クラスタIDテーブルにおいて、データIDとペアになるクラスタIDは、当該データIDのデータとの距離が最小となるセントロイドが含まれるクラスタのクラスタIDである。そのために、距離テーブルの中から、各データIDに対して当該データIDのデータとの距離が最小となるクラスタのクラスタIDを取り出すようにする。具体的には、以下のような処理を実行する。

（４－１）距離属性をキーとして距離テーブルを秘密ソートする。

（４－２）（４－１）で生成したテーブルのデータID属性の要素列に対して秘密ユニークチェックを実行し、秘密ユニークチェックした結果として得られる要素列をチェック済みデータID属性として（４－１）で生成したテーブルに追加したテーブルを生成する。

（４－３）（４－２）で生成したテーブルのチェック済みデータID属性の要素の値が[[1]]に等しいレコードのみを取り出し、これらのレコードからなるテーブルを生成する。

（４－４）データID属性をキーとして（４－３）で生成したテーブルを秘密ソートする。

　（４－４）で生成したテーブルからデータID属性の要素列とクラスタID属性の要素列を取り出したテーブルが、各データに対してセントロイドとの距離が最小となるクラスタがペアとなるクラスタIDテーブルとなる。

［セントロイドの計算］
　ここでは、（５）の処理について説明する。当該処理では、（４）の処理で得られたクラスタIDテーブルを用いて、セントロイドテーブルを更新する。セントロイドは、各クラスタに含まれるデータの平均である。したがって、各クラスタに対して、当該クラスタに含まれるデータの和と当該クラスタに含まれるデータの数を求めることができれば、セントロイドを求めることができる。各データはベクトルとして表現されているため、groupBySum演算とgroupByCount演算を用いることで、セントロイドを効率よく求めることができる。具体的には、以下のような処理を実行する。

（５－１）クラスタIDテーブルのクラスタID属性の要素列を取り出し、当該要素列でデータテーブルのデータID属性の要素列を置換する。

（５－２）（５－１）で生成したテーブルに対して、データID属性をキーとしてgroupBySum演算を実行する。

（５－３）（５－１）で生成したテーブルに対して、データID属性をキーとしてgroupByCount演算を実行する。

（５－４）（５－２）で生成したテーブルの各レコードのデータ属性の要素の値を（５－３）で生成したテーブルの各レコードのデータ属性の要素の値で割った値を求める。

　（５－４）で求めた値が、各クラスタのセントロイドとなる。

　以上述べたことからわかるように、秘密ソートと秘密ユニークチェックを用いてクラスタの割り当てを実行し、groupBySum演算とgroupByCount演算を用いてセントロイドの計算を実行することにより、k-means法を安全かつ効率的に秘密計算することができる。

＜第１実施形態＞
　以下、図７～図９を参照して秘密クラスタ計算システム１０について説明する。図７は、秘密クラスタ計算システム１０の構成を示すブロック図である。秘密クラスタ計算システム１０は、W個（Wは3以上の所定の整数）の秘密クラスタ計算装置１００₁、…、１００_Wを含む。秘密クラスタ計算装置１００₁、…、１００_Wは、ネットワーク８００に接続しており、相互に通信可能である。ネットワーク８００は、例えば、インターネットなどの通信網あるいは同報通信路などでよい。図８は、秘密クラスタ計算装置１００_i(1≦i≦W)の構成を示すブロック図である。図９は、秘密クラスタ計算システム１０の動作を示すフローチャートである。

　図８に示すように秘密クラスタ計算装置１００_iは、セントロイドテーブル初期化部１１０_iと、距離テーブル計算部１２０_iと、クラスタIDテーブル計算部１３０_iと、セントロイドテーブル計算部１４０_iと、終了条件判定部１５０_iと、記録部１９０_iを含む。記録部１９０_iを除く秘密クラスタ計算装置１００_iの各構成部は、秘密計算で必要とされる演算、つまり、少なくとも秘匿化、加算、減算、乗算、除算、論理演算（否定、論理積、論理和、排他的論理和）、比較演算（=, <, >, ≦, ≧）、秘密ソート、秘密ユニークチェック、Group-by演算のうち、各構成部の機能を実現するうえで必要になる演算を実行できるように構成されている。本発明において個々の演算を実現するための具体的な機能構成は、例えば参考非特許文献１～６のそれぞれで開示されるアルゴリズムを含む既存のアルゴリズムを実行できるような構成で十分であり、これらは従来的構成であるから詳細な説明については省略する。また、記録部１９０_iは、秘密クラスタ計算装置１００_iの処理に必要な情報を記録する構成部である。例えば、記録部１９０_iは、事前にクラスタリング対象となるデータを表すデータテーブルを記録しておく。

　W個の秘密クラスタ計算装置１００_iによる協調計算によって、秘密クラスタ計算システム１０はマルチパーティプロトコルであるk-means法の秘密計算を実現する。よって、秘密クラスタ計算システム１０のセントロイドテーブル初期化手段１１０（図示していない）はセントロイドテーブル初期化部１１０₁、…、１１０_Wで構成され、距離テーブル計算手段１２０（図示していない）は距離テーブル計算部１２０₁、…、１２０_Wで構成され、クラスタIDテーブル計算手段１３０（図示していない）はクラスタIDテーブル計算部１３０₁、…、１３０_Wで構成され、セントロイドテーブル計算手段１４０（図示していない）はセントロイドテーブル計算部１４０₁、…、１４０_Wで構成され、終了条件判定手段１５０（図示していない）は終了条件判定部１５０₁、…、１５０_Wで構成される。

　秘密クラスタ計算システム１０は、M（Mは1以上の整数）をデータの数、K（Kは1以上の整数）をクラスタの数、N（Nは1以上の整数）をデータの次元、(x_i1, …, x_iN) (i=1, …, M)をデータID iのデータとし、M個のデータ(x_i1, …, x_iN)のシェア([[x_i1]], …, [[x_iN]]) (i=1, …, M)から、データID iのデータが属するクラスタのクラスタID k(i)（ただし、k(i)は1≦k(i)≦Kを満たす）のシェア[[k(i)]]を計算する。ここで、クラスタIDテーブルは、データIDと当該データIDのデータが属するクラスタのクラスタIDを属性（以下、データID属性、クラスタID属性という）として含むテーブル、データテーブルは、データIDと当該データIDのデータを属性（以下、データID属性、データ属性という）として含むテーブル、セントロイドテーブルは、クラスタIDと当該クラスタIDのクラスタのセントロイドを属性（以下、クラスタID属性、セントロイド属性という）として含むテーブル、距離テーブルは、データIDとクラスタIDと当該データIDのデータと当該クラスタIDのクラスタのセントロイドとの距離を属性（以下、データID属性、クラスタID属性、距離属性という）として含むテーブルであり、データテーブルは、データID iのシェア[[i]]とデータID iのデータ(x_i1, …, x_iN)のシェア([[x_i1]], …, [[x_iN]])の組を第iレコード(i=1, …, M)として含むものとする。

　以下、図９に従い秘密クラスタ計算システム１０の動作について説明する。

　Ｓ１１０において、セントロイドテーブル初期化手段１１０は、クラスタID jのシェア[[j]]とクラスタID jのセントロイド(c_j1, …, c_jN)のシェア([[c_j1]], …, [[c_jN]]) （ただし、当該シェアは所定の方法で計算したものとする）の組を第jレコード(j=1, …, K)として含むテーブルをセントロイドテーブルの初期値として設定する。セントロイドテーブル初期化手段１１０は、例えば、シェア[[1]], …, [[M]]の中からデータIDのシェア[[i₁]], …, [[i_K]]をランダムに選択し、クラスタID jのシェア[[j]]とデータID i_jのデータ(x_{i_j1}, …, x_{i_jN})のシェア([[x_{i_j1}]], …, [[x_{i_jN}]])の組をセントロイドテーブルの第jレコード(j=1, …, K)の初期値として設定する。

　Ｓ１２０において、距離テーブル計算手段１２０は、データテーブルとセントロイドテーブルを用いて、データID iのシェア[[i]]とクラスタID jのシェア[[j]]とデータID iのデータ(x_i1, …, x_iN)とクラスタID jのセントロイド(c_j1, …, c_jN)との距離d_ijのシェア[[d_ij]]の組を第M(j-1)+iレコード(i=1, …, M, j=1, …, K)として含む距離テーブルを計算する。なお、Ｓ１２０の１回目の実行時にはＳ１１０で計算したセントロイドテーブル、２回目以降の実行時にはＳ１４０で計算したセントロイドテーブルが用いられる。

　Ｓ１３０において、クラスタIDテーブル計算手段１３０は、距離テーブルを用いて、データID iのシェア[[i]]とデータID iのデータが属するクラスタのクラスタID k(i)のシェア[[k(i)]]の組を第iレコード(i=1, …, M)として含むクラスタIDテーブルを計算する。クラスタIDテーブル計算手段１３０は、例えば、距離テーブルを用いて、距離テーブルの距離属性をキーとして距離テーブルを秘密ソートすることにより、第1中間テーブルを計算し、第1中間テーブルを用いて、第1中間テーブルのデータID属性の要素列を秘密ユニークチェックすることにより得られる列をチェック済みデータID属性として第1中間テーブルに追加することにより、第2中間テーブルを計算し、第2中間テーブルを用いて、第2中間テーブルのチェック済みデータID属性の要素の値が[[1]]であるレコードを含む第3中間テーブルを計算し、第3中間テーブルを用いて、第3中間テーブルのデータID属性をキーとして第3中間テーブルを秘密ソートすることにより得られるテーブルのデータID属性の要素列とクラスタID属性の要素列をそれぞれクラスタIDテーブルのデータID属性の要素列とクラスタID属性の要素列とすることにより、クラスタIDテーブルを計算する。ここで、第1中間テーブルはデータID属性とクラスタID属性と距離属性を含むテーブル、第2中間テーブルはチェック済みデータID属性とデータID属性とクラスタID属性と距離属性を含むテーブル、第3中間テーブルはチェック済みデータID属性とデータID属性とクラスタID属性と距離属性を含むテーブルとなる。また、第1中間テーブルはMK個のレコードを、第2中間テーブルはMK個のレコードを、第3中間テーブルはM個のレコードを含む。

　Ｓ１４０において、セントロイドテーブル計算手段１４０は、データテーブルとクラスタIDテーブルを用いて、セントロイドテーブルを計算する。セントロイドテーブル計算手段１４０は、例えば、データテーブルとクラスタIDテーブルを用いて、データテーブルのデータID属性の要素列をクラスタIDテーブルのクラスタID属性の要素で置換することにより、第5中間テーブルを計算し、第5中間テーブルを用いて、第5中間テーブルのデータID属性をキーとするgroupBySum演算により、第6中間テーブルを計算し、第5中間テーブルを用いて、第5中間テーブルのデータID属性をキーとするgroupByCount演算により、第7中間テーブルを計算し、第6中間テーブルと第7中間テーブルを用いて、第6中間テーブルの第jレコードのデータ属性の要素の値を第7中間テーブルの第jレコードのデータ属性の要素の値で割った値をセントロイドテーブルの第jレコードのセントロイド属性の要素の値とすることにより、セントロイドテーブルを計算する。ここで、第5中間テーブルはデータID属性とデータ属性を含むテーブル、第6中間テーブルはデータID属性とデータ属性を含むテーブル、第7中間テーブルはデータID属性とデータ属性を含むテーブルとなる。また、第5中間テーブルはM個のレコードを、第6中間テーブルはK個のレコードを、第7中間テーブルはK個のレコードを含む。

　Ｓ１５０において、終了条件判定手段１５０は、所定の終了条件が満たされる場合処理を終了し、それ以外の場合Ｓ１２０の処理に戻る。つまり、秘密クラスタ計算システム１０は、Ｓ１２０～Ｓ１４０の処理を繰り返す。所定の終了条件がＳ１２０～Ｓ１４０の処理の実行回数である場合、実行回数Tのシェア[[T]]は事前に与えられているものとし、セントロイドテーブル初期化手段１１０はカウンタtの値をシェア[[0]]で初期化する。そして、終了条件判定手段１５０は、カウンタtの値をt+[[1]]で更新し、=([[t>T]], [[1]])の値が[[1]]である場合は処理を終了し、それ以外の場合はＳ１２０の処理に戻るようにすればよい。

　本発明の実施形態によれば、データを秘匿したまま高精度にk-means法を秘密計算することが可能となる。

＜補記＞
　図１０は、上述の各装置を実現するコンピュータの機能構成の一例を示す図である。上述の各装置における処理は、記録部２０２０に、コンピュータを上述の各装置として機能させるためのプログラムを読み込ませ、制御部２０１０、入力部２０３０、出力部２０４０などに動作させることで実施できる。

　本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置（例えば通信ケーブル）が接続可能な通信部、ＣＰＵ（Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい）、メモリであるＲＡＭやＲＯＭ、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、ＣＰＵ、ＲＡＭ、ＲＯＭ、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、ＣＤ－ＲＯＭなどの記録媒体を読み書きできる装置（ドライブ）などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。

　ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている（外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるＲＯＭに記憶させておくこととしてもよい）。また、これらのプログラムの処理によって得られるデータなどは、ＲＡＭや外部記憶装置などに適宜に記憶される。

　ハードウェアエンティティでは、外部記憶装置（あるいはＲＯＭなど）に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にＣＰＵで解釈実行・処理される。その結果、ＣＰＵが所定の機能（上記、…部、…手段などと表した各構成要件）を実現する。

　本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

　既述のように、上記実施形態において説明したハードウェアエンティティ（本発明の装置）における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。

　この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ－ＲＡＭ（Random Access Memory）、ＣＤ－ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ－Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ－ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

　また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ－ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

　このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

　また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

　M（Mは1以上の整数）をデータの数、K（Kは1以上の整数）をクラスタの数、N（Nは1以上の整数）をデータの次元、(x_i1, …, x_iN) (i=1, …, M)をデータID iのデータとし、
　3個以上の秘密クラスタ計算装置で構成され、M個のデータ(x_i1, …, x_iN)のシェア([[x_i1]], …, [[x_iN]]) (i=1, …, M)から、データID iのデータが属するクラスタのクラスタID k(i)（ただし、k(i)は1≦k(i)≦Kを満たす）のシェア[[k(i)]]を計算する秘密クラスタ計算システムであって、
　データIDと当該データIDのデータが属するクラスタのクラスタIDを属性（以下、データID属性、クラスタID属性という）として含むテーブルをクラスタIDテーブル、データIDと当該データIDのデータを属性（以下、データID属性、データ属性という）として含むテーブルをデータテーブル、クラスタIDと当該クラスタIDのクラスタのセントロイドを属性（以下、クラスタID属性、セントロイド属性という）として含むテーブルをセントロイドテーブル、データIDとクラスタIDと当該データIDのデータと当該クラスタIDのクラスタのセントロイドとの距離を属性（以下、データID属性、クラスタID属性、距離属性という）として含むテーブルを距離テーブルとし、
　データテーブルは、データID iのシェア[[i]]とデータID iのデータ(x_i1, …, x_iN)のシェア([[x_i1]], …, [[x_iN]])の組を第iレコード(i=1, …, M)として含み、
　クラスタID jのシェア[[j]]とクラスタID jのセントロイド(c_j1, …, c_jN)のシェア([[c_j1]], …, [[c_jN]]) （ただし、当該シェアは所定の方法で計算したものとする）の組を第jレコード(j=1, …, K)として含むテーブルをセントロイドテーブルの初期値として設定するセントロイドテーブル初期化手段と、
　データテーブルとセントロイドテーブルを用いて、データID iのシェア[[i]]とクラスタID jのシェア[[j]]とデータID iのデータ(x_i1, …, x_iN)とクラスタID jのセントロイド(c_j1, …, c_jN)との距離d_ijのシェア[[d_ij]]の組を第M(j-1)+iレコード(i=1, …, M, j=1, …, K)として含む距離テーブルを計算する距離テーブル計算手段と、
　距離テーブルを用いて、データID iのシェア[[i]]とデータID iのデータが属するクラスタのクラスタID k(i)のシェア[[k(i)]]の組を第iレコード(i=1, …, M)として含むクラスタIDテーブルを計算するクラスタIDテーブル計算手段と、
　データテーブルとクラスタIDテーブルを用いて、セントロイドテーブルを計算するセントロイドテーブル計算手段と、
　を含む秘密クラスタ計算システム。
　請求項１に記載の秘密クラスタ計算システムであって、
　前記クラスタIDテーブル計算手段は、
　距離テーブルを用いて、距離テーブルの距離属性をキーとして距離テーブルを秘密ソートすることにより、第1中間テーブルを計算し、
　第1中間テーブルを用いて、第1中間テーブルのデータID属性の要素列を秘密ユニークチェックすることにより得られる列をチェック済みデータID属性として第1中間テーブルに追加することにより、第2中間テーブルを計算し、
　第2中間テーブルを用いて、第2中間テーブルのチェック済みデータID属性の要素の値が[[1]]であるレコードを含む第3中間テーブルを計算し、
　第3中間テーブルを用いて、第3中間テーブルのデータID属性をキーとして第3中間テーブルを秘密ソートすることにより得られるテーブルのデータID属性の要素列とクラスタID属性の要素列をそれぞれクラスタIDテーブルのデータID属性の要素列とクラスタID属性の要素列とすることにより、クラスタIDテーブルを計算する
　ことを特徴とする秘密クラスタ計算システム。
　請求項１に記載の秘密クラスタ計算システムであって、
　前記セントロイドテーブル計算手段は、
　データテーブルとクラスタIDテーブルを用いて、データテーブルのデータID属性の要素列をクラスタIDテーブルのクラスタID属性の要素で置換することにより、第5中間テーブルを計算し、
　第5中間テーブルを用いて、第5中間テーブルのデータID属性をキーとするgroupBySum演算により、第6中間テーブルを計算し、
　第5中間テーブルを用いて、第5中間テーブルのデータID属性をキーとするgroupByCount演算により、第7中間テーブルを計算し、
　第6中間テーブルと第7中間テーブルを用いて、第6中間テーブルの第jレコードのデータ属性の要素の値を第7中間テーブルの第jレコードのデータ属性の要素の値で割った値をセントロイドテーブルの第jレコードのセントロイド属性の要素の値とすることにより、セントロイドテーブルを計算する
　ことを特徴とする秘密クラスタ計算システム。
　M（Mは1以上の整数）をデータの数、K（Kは1以上の整数）をクラスタの数、N（Nは1以上の整数）をデータの次元、(x_i1, …, x_iN) (i=1, …, M)をデータID iのデータとし、
　M個のデータ(x_i1, …, x_iN)のシェア([[x_i1]], …, [[x_iN]]) (i=1, …, M)から、データID iのデータが属するクラスタのクラスタID k(i)（ただし、k(i)は1≦k(i)≦Kを満たす）のシェア[[k(i)]]を計算する、3個以上の秘密クラスタ計算装置で構成される秘密クラスタ計算システムの中の秘密クラスタ計算装置であって、
　データIDと当該データIDのデータが属するクラスタのクラスタIDを属性（以下、データID属性、クラスタID属性という）として含むテーブルをクラスタIDテーブル、データIDと当該データIDのデータを属性（以下、データID属性、データ属性という）として含むテーブルをデータテーブル、クラスタIDと当該クラスタIDのクラスタのセントロイドを属性（以下、クラスタID属性、セントロイド属性という）として含むテーブルをセントロイドテーブル、データIDとクラスタIDと当該データIDのデータと当該クラスタIDのクラスタのセントロイドとの距離を属性（以下、データID属性、クラスタID属性、距離属性という）として含むテーブルを距離テーブルとし、
　データテーブルは、データID iのシェア[[i]]とデータID iのデータ(x_i1, …, x_iN)のシェア([[x_i1]], …, [[x_iN]])の組を第iレコード(i=1, …, M)として含み、
　クラスタID jのシェア[[j]]とクラスタID jのセントロイド(c_j1, …, c_jN)のシェア([[c_j1]], …, [[c_jN]]) （ただし、当該シェアは所定の方法で計算したものとする）の組を第jレコード(j=1, …, K)として含むテーブルをセントロイドテーブルの初期値として設定するセントロイドテーブル初期化部と、
　データテーブルとセントロイドテーブルを用いて、データID iのシェア[[i]]とクラスタID jのシェア[[j]]とデータID iのデータ(x_i1, …, x_iN)とクラスタID jのセントロイド(c_j1, …, c_jN)との距離d_ijのシェア[[d_ij]]の組を第M(j-1)+iレコード(i=1, …, M, j=1, …, K)として含む距離テーブルを計算する距離テーブル計算部と、
　距離テーブルを用いて、データID iのシェア[[i]]とデータID iのデータが属するクラスタのクラスタID k(i)のシェア[[k(i)]]の組を第iレコード(i=1, …, M)として含むクラスタIDテーブルを計算するクラスタIDテーブル計算部と、
　データテーブルとクラスタIDテーブルを用いて、セントロイドテーブルを計算するセントロイドテーブル計算部と、
　を含む秘密クラスタ計算装置。
　M（Mは1以上の整数）をデータの数、K（Kは1以上の整数）をクラスタの数、N（Nは1以上の整数）をデータの次元、(x_i1, …, x_iN) (i=1, …, M)をデータID iのデータとし、
　3個以上の秘密クラスタ計算装置で構成される秘密クラスタ計算システムが、M個のデータ(x_i1, …, x_iN)のシェア([[x_i1]], …, [[x_iN]]) (i=1, …, M)から、データID iのデータが属するクラスタのクラスタID k(i)（ただし、k(i)は1≦k(i)≦Kを満たす）のシェア[[k(i)]]を計算する秘密クラスタ計算方法であって、
　データIDと当該データIDのデータが属するクラスタのクラスタIDを属性（以下、データID属性、クラスタID属性という）として含むテーブルをクラスタIDテーブル、データIDと当該データIDのデータを属性（以下、データID属性、データ属性という）として含むテーブルをデータテーブル、クラスタIDと当該クラスタIDのクラスタのセントロイドを属性（以下、クラスタID属性、セントロイド属性という）として含むテーブルをセントロイドテーブル、データIDとクラスタIDと当該データIDのデータと当該クラスタIDのクラスタのセントロイドとの距離を属性（以下、データID属性、クラスタID属性、距離属性という）として含むテーブルを距離テーブルとし、
　データテーブルは、データID iのシェア[[i]]とデータID iのデータ(x_i1, …, x_iN)のシェア([[x_i1]], …, [[x_iN]])の組を第iレコード(i=1, …, M)として含み、
　前記秘密クラスタ計算システムが、クラスタID jのシェア[[j]]とクラスタID jのセントロイド(c_j1, …, c_jN)のシェア([[c_j1]], …, [[c_jN]]) （ただし、当該シェアは所定の方法で計算したものとする）の組を第jレコード(j=1, …, K)として含むテーブルをセントロイドテーブルの初期値として設定するセントロイドテーブル初期化ステップと、
　前記秘密クラスタ計算システムが、データテーブルとセントロイドテーブルを用いて、データID iのシェア[[i]]とクラスタID jのシェア[[j]]とデータID iのデータ(x_i1, …, x_iN)とクラスタID jのセントロイド(c_j1, …, c_jN)との距離d_ijのシェア[[d_ij]]の組を第M(j-1)+iレコード(i=1, …, M, j=1, …, K)として含む距離テーブルを計算する距離テーブル計算ステップと、
　前記秘密クラスタ計算システムが、距離テーブルを用いて、データID iのシェア[[i]]とデータID iのデータが属するクラスタのクラスタID k(i)のシェア[[k(i)]]の組を第iレコード(i=1, …, M)として含むクラスタIDテーブルを計算するクラスタIDテーブル計算ステップと、
　前記秘密クラスタ計算システムが、データテーブルとクラスタIDテーブルを用いて、セントロイドテーブルを計算するセントロイドテーブル計算ステップと、
　を含む秘密クラスタ計算方法。
　請求項４に記載の秘密クラスタ計算装置としてコンピュータを機能させるためのプログラム。