WO2022079907A1

WO2022079907A1 - 秘密決定木学習装置、秘密決定木学習システム、秘密決定木学習方法、及びプログラム

Info

Publication number: WO2022079907A1
Application number: PCT/JP2020/039123
Authority: WO
Inventors: 浩気濱田
Original assignee: 日本電信電話株式会社
Priority date: 2020-10-16
Filing date: 2020-10-16
Publication date: 2022-04-21
Also published as: EP4231273A1; AU2020472727A1; JPWO2022079907A1; US20230376790A1; AU2020472727A2; CN116324938A

Abstract

一実施形態に係る秘密決定木学習装置は、秘密計算により決定木の学習を行う秘密決定木学習装置であって、１以上の説明変数の属性値と目的変数の属性値とを含む複数のレコードで構成されるデータ集合を入力する入力部と、前記決定木の階層ごとに、前記階層に含まれる全ての節点における前記データ集合の分割を一括して行うことで、前記決定木を学習する学習部と、を有する。

Description

秘密決定木学習装置、秘密決定木学習システム、秘密決定木学習方法、及びプログラム

　本発明は、秘密決定木学習装置、秘密決定木学習システム、秘密決定木学習方法、及びプログラムに関する。

　暗号化された数値を復元すること無く特定の演算結果を得る方法として、秘密計算と呼ばれる方法が知られている（例えば、非特許文献１）。非特許文献１に記載されている方法では、３つの秘密計算装置に数値の断片を分散させるという暗号化を行い、３つの秘密計算装置が協調計算を行うことにより、数値を復元すること無く、加減算、定数加算、乗算、定数倍、論理演算（否定、論理積、論理和、排他的論理和）、データ形式変換（整数と二進数）等の結果を３つの秘密計算装置に分散された状態として得ることができる。

　ところで、与えられたデータ集合から決定木の学習を行う際に、各データの属性値により各節点（ノード）でデータ集合を分割した際の評価値を計算し、その評価値が最大となる分割を採用する方法がよく知られている。

千田浩司，濱田浩気，五十嵐大，高橋克巳，「軽量検証可能3パーティ秘匿関数計算の再考」，In CSS, 2010.

　しかしながら、秘密計算により決定木の学習を行う場合、その計算時間が大きくなることがあった。例えば、決定木を高さｈ以下の二分木とした場合、秘密計算では各節点で分類されるデータ数を隠すため、データ集合の参照回数はΘ（２^ｈ）となる。このため、決定木の高さが大きくなると、学習に要する計算時間が大きくなる。

　本発明の一実施形態は、上記の点に鑑みてなされたもので、秘密計算による決定木の学習を行う場合の計算時間を削減することを目的とする。

　上記目的を達成するため、一実施形態に係る秘密決定木学習装置は、秘密計算により決定木の学習を行う秘密決定木学習装置であって、１以上の説明変数の属性値と目的変数の属性値とを含む複数のレコードで構成されるデータ集合を入力する入力部と、前記決定木の階層ごとに、前記階層に含まれる全ての節点における前記データ集合の分割を一括して行うことで、前記決定木を学習する学習部と、を有する。

　秘密計算による決定木の学習を行う場合の計算時間を削減することができる。

本実施形態に係る秘密決定木学習装置の機能構成の一例を示す図である。本実施形態に係る秘密決定木学習装置のハードウェア構成の一例を示す図である。本実施形態に係る秘密決定木学習処理の流れの一例を示すフローチャートである。本実施形態に係る秘密決定木テスト処理の流れの一例を示すフローチャート（その１）である。本実施形態に係る秘密決定木テスト処理の流れの一例を示すフローチャート（その２）である。本実施形態に係る秘密グループ分け処理の流れの一例を示すフローチャートである。

　以下、本発明の一実施形態について説明する。本実施形態では、秘密計算による決定木の学習（つまり、入力や出力を明かすことなく決定木の学習）を効率的に行うことが可能な秘密決定木学習装置１０について説明する。本実施形態に係る秘密決定木学習装置１０は、後述するように、与えられたデータ集合中の各データが決定木の同一階層の節点間で互いに重なりなく分類されることを利用し、同一階層のすべての節点における分類を一括で行うことにより、当該データ集合全体の参照回数を指数的に小さくことができる。なお、本実施形態では、秘密計算を利用して入力や出力を秘匿した決定木を秘密決定木ともいう。

　＜記法＞
　まず、各種記法について説明する。なお、以下では、本実施形態で必ずしも用いるとは限らない記法についても説明している。

　ある値ａを暗号化や秘密分散等により秘匿化した値をａの秘匿値と呼び、［ａ］と記述する。ａが秘密分散により秘匿化された場合は、［ａ］により各秘密計算装置が持つ秘密分散の断片の集合を参照するものとする。

　・復元
　ａの秘匿値［ａ］を入力とし、ｃ＝ａとなる値ｃを計算する処理を
　ｃ←Ｏｐｅｎ（［ａ］）
と記述する。

　・算術演算
　加算、減算、乗算の各演算は２つの値ａ、ｂの秘匿値［ａ］、［ｂ］を入力とし、それぞれａ＋ｂ、ａ－ｂ、ａｂの計算結果ｃ_１、ｃ_２、ｃ_３の秘匿値［ｃ_１］、［ｃ_２］、［ｃ_３］を計算する。加算、減算、乗算の各演算の実行をそれぞれ
　［ｃ_１］←Ａｄｄ（［ａ］，［ｂ］）
　［ｃ_２］←Ｓｕｂ（［ａ］，［ｂ］）
　［ｃ_３］←Ｍｕｌ（［ａ］，［ｂ］）
と記述する。誤解を招く恐れのない場合は、Ａｄｄ（［ａ］，［ｂ］）、Ｓｕｂ（［ａ］，［ｂ］）、Ｍｕｌ（［ａ］，［ｂ］）をそれぞれ［ａ］＋［ｂ］、［ａ］－［ｂ］、［ａ］×［ｂ］と略記する。

　・比較
　比較の演算は２つの値ａ、ｂの秘匿値［ａ］、［ｂ］を入力とし、ａ＝ｂ、ａ≦ｂ、ａ＜ｂの真偽値ｃ∈｛０，１｝の秘匿値［ｃ_１］、［ｃ_２］、［ｃ_３］を計算する。真偽値は真のとき１、偽のとき０とする。ａ＝ｂ、ａ≦ｂ、ａ＜ｂの比較演算の実行をそれぞれ
　［ｃ_１］←ＥＱ（［ａ］，［ｂ］）
　［ｃ_２］←ＬＥ（［ａ］，［ｂ］）
　［ｃ_３］←ＬＴ（［ａ］，［ｂ］）
と記述する。

　・選択
　選択の演算は、真偽値ｃ∈｛０，１｝の秘匿値［ｃ］と２つの値ａ、ｂの秘匿値［ａ］、［ｂ］とを入力とし、

を満たすｄの秘匿値［ｄ］を計算する。この演算の実行を
　［ｄ］←ＩｆＥｌｓｅ（［ｃ］，［ａ］，［ｂ］）
と記述する。この演算は、
　［ｄ］←［ｃ］×（［ａ］－［ｂ］）＋［ｂ］
により実現できる。

　＜決定木＞
　決定木は、データのある属性に対する知識を、木構造によるルールの組み合わせで表現した有向グラフである。また、属性には目的変数と呼ばれる属性と説明変数と呼ばれる属性とがあり、決定木は、説明変数の属性値を入力とし、目的変数の属性値を予測及び出力する。決定木には１以上の節点（ノード）が含まれており、葉以外の各節点には、例えば「年齢が３０歳未満」等といった説明変数に関する分割のルール（分割条件）が設定される。一方で、葉（つまり、決定木の終端の節点）には目的変数の属性値が設定される。

　決定木は説明変数の属性値を受け取ると、まず、最初に根の節点で分割条件の判定を行う。次に、当該分割条件の判定結果に従って子の節点のいずれかに遷移する。その後、各節点での分割条件の判定と子の節点への遷移とを再帰的に繰り返し、最終的に到達した葉に割り当てられている属性値が目的変数の予測値として出力される。

　・決定木の学習アルゴリズム
　説明変数と目的変数とで構成されるデータの集合から決定木を学習するアルゴリズムとして、例えば、ＣＡＲＴ、ＩＤ３、Ｃ４．５等が知られている。これらのアルゴリズムは細部で異なるが、いずれも根から葉へとある目的関数を最大化するように貪欲的にデータ集合を再帰的に分割することで決定木を学習する（後述するＳｔｅｐ１～Ｓｔｅｐ８）。また、アルゴリズムへの入力はデータ集合Ｑ＝（Ｘ，ｙ）であり、出力は根から葉へ向かう有向グラフとして表現された決定木である。以降では、データ集合に含まれる各データのそれぞれをレコードともいう。なお、例えば、データ集合は「学習用データセット」や「教師データセット」、データ集合に含まれる各データは「学習用データ」や「教師データ」等と称されてもよい。

　ここで、Ｘは各レコードの説明変数の属性値を要素する行列であり、例えば、レコードの総数を行数、説明変数の総数を列数とした行列で表される。ｙは各レコードの目的変数の属性値を要素するベクトルであり、例えば、Ｘのｎ行目のレコードの目的変数の属性値をｎ番目の要素とする縦ベクトルで表される。

　なお、上述したように、決定木の葉以外の各節点には分割条件が設定され、葉には目的変数の属性値が設定される。また、目的変数はカテゴリ値、説明変数は数値又はカテゴリ値をそれぞれ取るものとし、目的変数のことをラベル、その値（属性値）のことをラベル値ともいう。また、以降では数値を取る説明変数のことを数値属性ともいい、その値を数値属性値ともいうものとする。同様に、カテゴリ値を取る説明変数のことをカテゴリ属性ともいい（つまり、「カテゴリ属性」と表した場合は、カテゴリ値を取る説明変数のこと指すものとする。）、その値をカテゴリ属性値ともいうものとする。目的変数が数値の場合の決定木は回帰木とも呼ばれる。

　Ｓｔｅｐ１：節点ｖを作成する。

　Ｓｔｅｐ２：分割の終了条件が満たされれば、当該節点ｖに目的変数の属性値を設定した上で葉として出力し、終了する。このとき、当該節点ｖに設定する属性値（ラベル値）は、例えば、ｙに含まれる要素の値うち、最も多く出現する値とする。なお、終了条件としては、例えば、ｙに含まれる要素がすべて同じ値（つまり、目的変数の属性値がすべて同じ）となること、決定木が予め決められた高さに達したこと、等が挙げられる。

　Ｓｔｅｐ３：分割の終了条件が満たされていなければ、当該節点ｖに対して適用可能な分割条件ｒ_１，ｒ_２，・・・を列挙する。

　Ｓｔｅｐ４：目的関数により各分割条件ｒ_ｉの評価値ｓ_ｉを計算する。

　Ｓｔｅｐ５：分割条件の集合｛ｒ_ｉ｝の中から最大の評価値を取る分割条件ｒ^＊を選択し、当該節点ｖに分割条件ｒ^＊を設定する。

　Ｓｔｅｐ６：分割条件ｒ^＊に基づいてデータ集合（Ｘ，ｙ）をデータ集合（Ｘ_１，ｙ_１），（Ｘ_２，ｙ_２），・・・，（Ｘ_ｄ，ｙ_ｄ）に分割する。これは、言い換えれば、分割条件ｒ^＊に基づいてデータ集合（Ｘ，ｙ）に含まれる各レコードをデータ集合（Ｘ_１，ｙ_１），（Ｘ_２，ｙ_２），・・・，（Ｘ_ｄ，ｙ_ｄ）に分類することを意味する。なお、ｄは分岐数（つまり、１つの節点が持つ子の数）である。

　Ｓｔｅｐ７：各（Ｘ_ｊ，ｙ_ｊ）に対してＳｔｅｐ１～Ｓｔｅｐ７を再帰的に実行する。すなわち、各（Ｘ_ｊ，ｙ_ｊ）を（Ｘ，ｙ）とみなして、Ｓｔｅｐ１～Ｓｔｅｐ７を実行する関数又はメソッド等を呼び出す。ここで、再帰的に実行されたＳｔｅｐ１で節点ｖが作成されると、呼び出し元のＳｔｅｐ１で作成された節点ｖとの間で枝が張られる。なお、呼び出し元のＳｔｅｐ１で作成された節点ｖが親、呼び出し先のＳｔｅｐ１で作成された節点ｖが子となる。

　Ｓｔｅｐ８：すべてのデータ集合（Ｘ_ｊ，ｙ_ｊ）に対するＳｔｅｐ１～Ｓｔｅｐ７の実行が終了（つまり、再帰的に呼び出されたすべてのＳｔｅｐ１～Ｓｔｅｐ７の実行が終了）すると、各節点ｖ（及びその節点ｖに設定された分割条件ｒ）の集合と節点間に張られた枝の集合とを出力し、終了する。これらの節点ｖの集合と枝の集合とが決定木である。

　本実施形態では、同一階層の各節点における分割条件の評価（上記のＳｔｅｐ４～Ｓｔｅｐ５）とその評価結果に基づくデータ集合の分割（上記のＳｔｅｐ６）とを一括して実行し、それらを階層ごとに再帰的に繰り返すことで、秘密決定木の学習を行う。なお、階層とは根からの深さが同一である節点の集合のことであり、単に「層」とも称される。

　・分岐数
　分岐数ｄは２以上の任意の整数値とすることが可能であるが、本実施形態では、２分木を想定し、ｄ＝２であるものとする。なお、本実施形態はｄが３以上の場合も適用可能であるが、ｄの値が大きいほど計算時間は大きくなる。

　・分割条件
　分割条件としては説明変数の属性値に対する任意の条件を用いることが可能であるが、一般に、大小比較やある集合に含まれるか否か等の条件が用いられることが多い。本実施形態では説明変数は数値又はカテゴリ値のいずれかを取るため、数値を取る場合はしきい値に対する大小比較（例えば、Ｃを閾値、ｘを説明変数の数値属性値として、ｘ≦Ｃ等）を分割条件とし、カテゴリ値を取る場合はある集合に属すること（例えば、Ｘを集合、ｘをカテゴリ属性値として、ｘ∈Ｘ等）を分割条件とする。なお、分割条件は、例えば、分割ルール、分類条件、分類ルール等と称されてもよい。

　・純度の指標
　あるデータ集合を複数のデータ集合に分割（言い換えれば、あるデータ集合に含まれる各レコードを複数のデータ集合に分類）した際の分割（又は分類）の良し悪しを測る指標として、データ集合があいまいであるかどうかを表す純度の指標Ｈ（・）が知られている。よく用いられる指標には、例えば、ｇｉｎｉ係数やエントロピー等がある。

　データ集合Ｑのうち、目的変数の属性値（つまり、ラベル値）がｋであるレコードの集合をＱ_ｋとする。このとき、データ集合Ｑを入力とする節点におけるラベル値ｋのレコードの割合を

と定義する。

　そして、本実施形態では、純度の指標としてエントロピー

を用いる。

　・目的関数
　各分割条件の良し悪しは目的関数により評価される（つまり、目的関数の値が分割条件の評価値である。）。よく利用される目的関数には、例えば、相互情報量、ゲイン率等がある。

　分割条件をθとして、データ集合Ｑをある分割条件θでＱ（θ，０）、Ｑ（θ，１）の２つのデータ集合に分割したものとする。このとき、

により定義されるＧａｉｎＲａｔｉｏ（）はゲイン率と呼ばれる。本実施形態では、ゲイン率を目的関数とする。

　＜評価値の計算＞
　各節点の分割条件は、予め定められた目的関数をその節点で最大化するような分割条件を選択することにより設定される。分割条件の候補それぞれについて目的関数の値を計算する必要があるため、与えられた分割条件に対して目的関数の値を効率よく計算できることは重要である。

　上記の数４で定義したゲイン率は、実際に分割を行った後の各ラベルの値（目的変数の値）の度数を求めるという入り組んだ計算をする必要がある。そこで、本実施形態では、秘密計算により複数の分割条件に対するゲイン率の計算を一括で行えるように、ゲイン率の計算方法を整理し単純化する。

　ゲイン率の計算を単純化するために、ゲイン率では多くの割合が必要とされていることに着目する。割合は除算を必要とするため、そのまま計算すると計算コストが高くなるが、総数を掛けることで度数という計算しやすい統計量に変換することができる。この観察に基づき、本実施形態では、ＳｐｌｉｔＩｎｆｏ、Ｈ、Ｇａｉｎ及びＧの各関数の代わりに、入力されるデータ集合の大きさを乗じたＳｐｌｉｔＩｎｆｏ^＋、Ｈ^＋、Ｇａｉｎ^＋及びＧ^＋の各関数を用いる。

　簡単のために、

を用いると、ＳｐｌｉｔＩｎｆｏ^＋は以下のように整理できる。

　同様に、Ｈ^＋は以下のように整理できる。

　同様に、Ｇ^＋は以下のように整理できる。

　また、同様に、Ｇａｉｎ^＋は以下のように整理できる。

　上記のＳｐｌｉｔＩｎｆｏ^＋、Ｈ^＋、Ｇａｉｎ^＋及びＧ^＋の各関数はいずれも、データ集合Ｑに含まれるレコード数やデータ集合Ｑのうち或る条件を満たすレコード数等の度数と、ｆ（・）と、加減算とで構成される。ＧａｉｎＲａｔｉｏは、

であるため、データ集合Ｑに対する分割条件θのＧａｉｎＲａｔｉｏの分子、分母は、結局、
　（１）Ｑのレコード数｜Ｑ｜
　（２）Ｑのうちラベル値ｋのレコード数｜Ｑ_ｋ｜
　（３）Ｑをθで分割した各データ集合のレコード数｜Ｑ（θ，ｉ）｜
　（４）Ｑをθで分割した各データ集合のうちラベル値ｋのレコード数｜Ｑ（θ，ｉ）_ｋ｜
の４つと、ｆ（・）と、加減算とで計算できることがわかる。

　ｆ（・）の入力は上述した４つの度数（レコード数｜Ｑ｜、｜Ｑ_ｋ｜、｜Ｑ（θ，ｉ）｜、｜Ｑ（θ，ｉ）_ｋ｜）のいずれかである。したがって、学習用データセットとして与えられたデータ集合のレコード数がｎである場合、ｆ（・）の入力は必ず０以上ｎ以下の整数である。よって、秘密分散により秘匿化が行われている場合、ｆ（・）は大きさΘ（ｎ）の以下の対応を表す対応表（ルックアップテーブル）を使った秘密一括写像を用いることで、Θ（ｎ）回のｆ（・）の計算をＯ（ｎｌｏｇｎ）の通信量で実現できる。

　これにより、本実施形態では、秘密決定木を学習する際に、各節点で各度数を算出することで、各節点における複数の分割条件の評価値（ＧａｉｎＲａｔｉｏ）の計算を一括して行うことが可能になる。

　また、非負の分子と分母の対として与えられる２つの値（ａ，ｂ）と（ｃ，ｄ）の比較結果はａｄとｂｃの比較結果と等しくなる。ＧａｉｎＲａｔｉｏの分子と分母はいずれも非負であるため、ＧａｉｎＲａｔｉｏの比較（つまり、評価値の比較）を行う際には上記の方法で代用することで除算を回避する。これにより、最大の評価値を取る分割条件を選択するための評価値同士の比較に要する計算時間を削減することができる。

　＜機能構成＞
　次に、本実施形態に係る秘密決定木学習装置１０の機能構成について、図１を参照しながら説明する。図１は、本実施形態に係る秘密決定木学習装置１０の機能構成の一例を示す図である。

　図１に示すように、本実施形態に係る秘密決定木学習装置１０は、入力部１０１と、秘密決定木学習部１０２と、出力部１０３と、記憶部１０４とを有する。

　記憶部１０４には、秘密決定木を学習するための各種データ（つまり、秘匿化された各種データ）が記憶されている。ここで、これら各種データには、学習用データセットとして与えられたデータ集合（以下、学習用データセットという。）がある。学習用データセットは、各レコードの説明変数の値を要素とするベクトルと、各レコードのラベル値を要素とするベクトルとで構成されているものとする。具体的には、例えば、学習用データセットを構成するレコード数をｎ、説明変数の総数をｍ－１とすれば、当該学習用データセットはｎ行ｍ列の行列で表されるデータである。

　また、記憶部１０４に記憶される各種データには、秘密決定木の学習中にあるレコードがどの節点に分類されたか（つまり、グループ）を表すグループ情報ベクトル等も含まれる。

　入力部１０１は、秘密決定木を学習するための学習用データセットを入力する。

　秘密決定木学習部１０２は、学習用データセットとグループ情報ベクトルとを用いて、同一層の各節点における分割条件の評価（テスト）とその評価結果に基づくデータ集合の分割（つまり、当該データ集合を構成するレコードの分類）とを一括して、層ごとに再帰的に繰り返すことで秘密決定木を学習する。ここで、秘密決定木学習部１０２には、初期化部１１１と、分割部１１２と、グループ分け部１１３と、節点抽出部１１４とが含まれる。

　初期化部１１１は、秘密決定木を学習する際にグループ情報ベクトル等の各種データを初期化する。分割部１１２は、同一層の各節点における分割条件の評価（テスト）とその評価結果に基づくデータ集合の分割（つまり、当該データ集合を構成するレコードの分類）とを一括して行う。グループ分け部１１３は、分割部１１２によるレコードの分類結果を用いて、次の層の各節点における分割条件の評価とその評価結果に基づくデータ集合の分割とに利用される学習用データセット及びグループ情報ベクトル等を計算する。節点抽出部１１４は、最終的に出力される秘密決定木を構成する各節点の情報を抽出する。

　出力部１０３は、秘密決定木学習部１０２によって学習された秘密決定木を出力する。なお、出力部１０３は予め決められた任意の出力先（例えば、記憶部１０４等）に秘密決定木（より正解には、秘密決定木を構成する各節点の情報を表すデータ）を出力すればよい。

　＜ハードウェア構成＞
　次に、本実施形態に係る秘密決定木学習装置１０のハードウェア構成について、図２を参照しながら説明する。図２は、本実施形態に係る秘密決定木学習装置１０のハードウェア構成の一例を示す図である。

　図２に示すように、本実施形態に係る秘密決定木学習装置１０は一般的なコンピュータ又はコンピュータシステムのハードウェア構成で実現され、入力装置２０１と、表示装置２０２と、外部Ｉ／Ｆ２０３と、通信Ｉ／Ｆ２０４と、プロセッサ２０５と、メモリ装置２０６とを有する。これら各ハードウェアは、それぞれがバス２０７を介して通信可能に接続される。

　入力装置２０１は、例えば、キーボードやマウス、タッチパネル等である。表示装置２０２は、例えば、ディスプレイ等である。なお、秘密決定木学習装置１０は、例えば、入力装置２０１及び表示装置２０２のうちの少なくとも一方を有していなくてもよい。

　外部Ｉ／Ｆ２０３は、記録媒体２０３ａ等の外部装置とのインタフェースである。秘密決定木学習装置１０は、外部Ｉ／Ｆ２０３を介して、記録媒体２０３ａの読み取りや書き込み等を行うことができる。記録媒体２０３ａには、例えば、秘密決定木学習装置１０が有する各機能部（入力部１０１、秘密決定木学習部１０２及び出力部１０３）を実現する１以上のプログラムが格納されていてもよい。

　なお、記録媒体２０３ａには、例えば、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disk）、ＳＤメモリカード（Secure Digital memory card）、ＵＳＢ（Universal Serial Bus）メモリカード等がある。

　通信Ｉ／Ｆ２０４は、秘密決定木学習装置１０を通信ネットワークに接続するためのインタフェースである。なお、秘密決定木学習装置１０が有する各機能部を実現する１以上のプログラムは、通信Ｉ／Ｆ２０４を介して、所定のサーバ装置等から取得（ダウンロード）されてもよい。

　プロセッサ２０５は、例えば、ＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）等の各種演算装置である。秘密決定木学習装置１０が有する各機能部は、例えば、メモリ装置２０６等に格納されている１以上のプログラムがプロセッサ２０５に実行させる処理により実現される。

　メモリ装置２０６は、例えば、ＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、フラッシュメモリ等の各種記憶装置である。秘密決定木学習装置１０が有する記憶部１０４は、例えば、メモリ装置２０６を用いて実現可能である。なお、記憶部１０４は、例えば、秘密決定木学習装置１０と通信ネットワークを介して接続される記憶装置等を用いて実現されていてもよい。

　本実施形態に係る秘密決定木学習装置１０は、図２に示すハードウェア構成を有することにより、各種処理を実現することができる。なお、図２に示すハードウェア構成は一例であって、秘密決定木学習装置１０は、他のハードウェア構成を有していてもよい。例えば、秘密決定木学習装置１０は、複数のプロセッサ２０５を有していてもよいし、複数のメモリ装置２０６を有していてもよい。

　＜秘密決定木学習処理＞
　次に、与えられた学習用データセットから秘密決定木を学習するための秘密決定木学習処理について、図３を参照しながら説明する。図３は、本実施形態に係る秘密決定木学習処理の流れの一例を示すフローチャートである。なお、以降では、高さｈ以下のｄ分木を学習するものとする。

　まず、入力部１０１は、秘密決定木を学習するための学習用データセットを入力する（ステップＳ１０１）。ここで、以降では、一例として、学習用データセットＱはレコード数をｎ、説明変数の総数をｍ－１としてｎ行ｍ列の行列で表されるデータであるものとし、［Ｔ_１］：＝［Ｑ］とする。

　次に、秘密決定木学習部１０２の初期化部１１１は、グループ情報ベクトル［ｇ_１］と引継ぎパラメータ［ｑ_１］とを以下に初期化する（ステップＳ１０２）。

　［ｇ_１］：＝（０，０，・・・，１）^Ｔ
　［ｑ_１］：＝（０，・・・，０）^Ｔ
　なお、グループ情報ベクトル及び引継ぎパラメータは要素数がｎのベクトルである。また、Ｔは転置を表す記号である。

　ここで、グループ情報ベクトルは学習用データセットの各レコードがどのグループに分類されているかを表すベクトルであり、ある連続したレコード群が同一グループに分類されている場合そのレコード群の末尾のレコードに対応する位置の要素を１、それ以外の要素を０としたベクトルである。例えば、上記のグループ情報ベクトル［ｇ_１］は、学習用データセット［Ｔ_１］のすべてのレコードが同一のグループに分類されていることを表している。これは、根の節点ではすべてのレコードが同一のグループに分類されていることを意味している。

　また、引継ぎパラメータは各階層で各レコードが分類された節点の番号を要素するベクトルであり、ｉ＝１，・・・，ｈに対して、引継ぎパラメータ［ｑ_ｉ］のｎ番目の要素は、学習用データセット［Ｔ_ｉ］のｎ番目のレコードが分類された節点の番号を表す。例えば、上記の引継ぎパラメータ［ｑ_１］は学習用データセット［Ｔ_１］のすべてのレコードが番号「０」の節点（つまり、根）に分類されていることを表している。

　以降のステップＳ１０３～ステップＳ１０５は、層ｉ＝１，・・・，ｈごとに繰り返し実行される。以降では、ある層ｉにおけるステップＳ１０３～ステップＳ１０５について説明する。

　秘密決定木学習部１０２の分割部１１２は、学習用データセット［Ｔ_ｉ］及びグループ情報ベクトル［ｇ_ｉ］から分割パラメータ［ｐ_ｉ］を計算する（ステップＳ１０３）。このステップＳ１０３の処理は当該層ｉの各節点における分割条件の評価（テスト）を行う処理であり、この処理によって当該層ｉの各節点（ただし、葉は除く）に分割条件が設定される。なお、この処理の詳細については後述する。

　ここで、分割パラメータ［ｐ_ｉ］とは秘密決定木の各節点における分類結果（後述する［ｆ_ｉ］）を計算するために必要な情報の秘匿値が含まれたデータであり、例えば、層ｉの各節点ごとに以下の（ａ）～（ｄ）ような情報の秘匿値が含まれている。

　（ａ）どの説明変数に対して分割条件の判定を行うのか
　（ｂ）当該説明変数に対してどのような種類の分割条件（例えば、しきい値との大小比較を表す分割条件、ある集合に属するか否かを表す分割条件等）の判定を行うのか
　（ｃ）分割条件に利用されるしきい値又は集合
　（ｄ）当該節点が葉となった場合に設定されるラベル値
　すなわち、分割パラメータ［ｐ_ｉ］には、層ｉの各節点に設定された分割条件（又は、節点が葉の場合はラベル値）の情報が含まれている。

　次に、秘密決定木学習部１０２の分割部１１２は、学習用データセット［Ｔ_ｉ］及び分割パラメータ［ｐ_ｉ］から分類結果［ｆ_ｉ］を計算する（ステップＳ１０４）。ここで、分類結果［ｆ_ｉ］は上記のステップＳ１０３で各節点に設定された分割条件で学習用データセット［Ｔ_ｉ］を分割（つまり、当該学習用データセット［Ｔ_ｉ］を構成する各レコードを分類）した結果を表す情報であり、例えば、各レコードの分類先を示す番号（０以上ｄ－１以下の番号）をその要素とするベクトル等である。分割部１１２は、例えば、ｄ＝２の場合、上記の（ａ）に示す説明変数の各属性値を学習用データセット［Ｔ_ｉ］から取り出した上で、上記の（ｂ）及び（ｃ）で決定される条件を当該各属性値が満たすか否かをそれぞれ判定し、ｊ（１≦ｊ≦ｎ）番目のレコードの属性値が当該条件を満たす場合はｊ番目の要素を１、そうでなければ０とすることで分類結果［ｆ_ｉ］を計算すればよい。

　次に、秘密決定木学習部１０２のグループ分け部１１３は、学習用データセット［Ｔ_ｉ］、引継ぎパラメータ［ｑ_ｉ］、グループ情報ベクトル［ｇ_ｉ］及び分類結果［ｆ_ｉ］から次の層ｉ＋１の学習用データセット［Ｔ_ｉ＋１］、引継ぎパラメータ［ｑ_ｉ＋１］及びグループ情報ベクトル［ｇ_ｉ＋１］を計算する（ステップＳ１０５）。このとき、グループ分け部１１３は、［Ｔ_ｉ］と［ｑ_ｉ］×ｄ＋［ｆ_ｉ］とを連結したデータセット（［Ｔ_ｉ］，［ｑ_ｉ］×ｄ＋［ｆ_ｉ］）を［ｇ_ｉ］及び［ｆ_ｉ］に従って並び替えることで、その並び替えの結果（［Ｔ_ｉ＋１］，［ｑ_ｉ＋１］）と、［Ｔ_ｉ＋１］の各レコードがどのグループに分類されているかを表す［ｇ_ｉ＋１］とを計算する。なお、［ｑ_ｉ］×ｄ＋［ｆ_ｉ］は並べ替えを行う前の［ｑ_ｉ＋１］に相当する。これは、［ｆ_ｉ］の各要素は０以上ｄ－１以下の値を取るため、［ｑ_ｉ］の各要素の値（つまり、節点の番号）を、［ｆ_ｉ］の各要素ごとに異なる番号に振り直しを行って、ｉ＋１層における各節点の番号を採番していることを意味している。

　上記のステップＳ１０５の処理は上記のステップＳ１０４で得られた分類結果［ｆ_ｉ］に従って学習用データセット［Ｔ_ｉ］の各レコードをより細かいグループにグループ分けする処理であり、この処理によって次の層ｉ＋１の学習用データセット［Ｔ_ｉ＋１］と引継ぎパラメータ［ｑ_ｉ＋１］とグループ情報ベクトル［ｇ_ｉ＋１］とが計算される。なお、この処理の詳細については後述する。

　続いて、上記のステップＳ１０３～ステップＳ１０５がｉ＝１，・・・，ｈに対して実行された場合、秘密決定木学習部１０２の節点抽出部１１４は、各引継ぎパラメータ［ｑ_ｉ］及び各分割パラメータ［ｐ_ｉ］から各節点の情報を抽出する（ステップＳ１０６）。ここで、上述したように、［ｑ_ｉ］には［Ｔ_ｉ］の各レコードが分類されている節点の番号が格納されている。一方で、［ｐ_ｉ］には各節点ごとに上記の（ａ）～（ｄ）に示す情報が格納されている。このため、節点抽出部１１４は、例えば、［ｑ_ｉ］の各要素が取る値のうちの異なる値ごとに、当該値に対応する節点の（ａ）～（ｄ）の情報を抽出すればよい。

　そして、出力部１０３は、上記のステップＳ１０６で抽出された情報（つまり、秘密決定木を構成する各節点の情報）を出力する（ステップＳ１０７）。

　＜秘密決定木テスト処理（その１）＞
　次に、上記のステップＳ１０３の処理の詳細の一例について、図４を参照しながら説明する。図４は、本実施形態に係る秘密決定木テスト処理の流れの一例を示すフローチャート（その１）である。なお、以降では、一例として、ある数値属性を対象として、層ｉを構成する各節点で分割条件の評価（テスト）を行う場合について説明する。また、学習用データセット［Ｔ_ｉ］中の各レコードの当該数値属性値をレコード順に並べたベクトルを数値属性値ベクトルといい、同様にラベル値をレコード順に並べたベクトルをラベル値ベクトルという。また、ラベルが取り得る値の集合を｛１，２，３｝とする。

　まず、分割部１１２は、数値属性値ベクトルと、ラベル値ベクトルと、グループ情報ベクトルとを入力する（ステップＳ２０１）。以降では、一例として、グループ情報ベクトルは、
　［ｇ］＝［ｇ_ｉ］＝（０，０，１，１，０，０，０，１，０，１）^Ｔ
であるものとする。上記の［ｇ］は、学習用データセット［Ｔ_ｉ］中の１番目のレコードから３番目のレコードは１番目のグループに属し、４番目のレコードは２番目のグループに属し、５番目のレコードから８番目のレコードは３番目のグループに属し、９番目のレコードから１０番目のレコードは４番目のグループに属することを表している。

　次に、分割部１１２は、グループごとに、同一グループ内で数値属性値ベクトル及びラベル値ベクトルの要素を昇順に並び替える（ステップＳ２０２）。すなわち、分割部１１２は、１番目のグループ～４番目のグループの各グループ内で、数値属性値ベクトル及びラベル値ベクトルの要素を昇順に並び替える。以降では、一例として、この並び替え後の数値属性値ベクトルは、
　［ｃ］＝（１，２，５，２，３，４，５，７，２，４）^Ｔ
であるものとする。また、並び替え後のラベル値ベクトルは、
　［ｙ］＝（３，２，１，３，２，１，１，３，１，２）^Ｔ
であるものとする。以降、数値属性値ベクトル及びラベル値ベクトルは、並び替え後の数値属性値ベクトル及びラベル値ベクトルを指すものとする。

　次に、分割部１１２は、ラベルが取り得る値ごとに、ラベル値ベクトル［ｙ］の要素のうち、当該ラベル値と一致する要素の位置を表すビットベクトルを計算する（ステップＳ２０３）。

　ラベルが取り得る値「１」、「２」及び「３」のそれぞれに対応するビットベクトルを［ｆ_１］、［ｆ_２］及び［ｆ_３］とすれば、これらのビットベクトルはそれぞれ以下のようになる。

　［ｆ_１］＝（０，０，１，０，０，１，１，０，１，０）^Ｔ
　［ｆ_２］＝（０，１，０，０，１，０，０，０，０，１）^Ｔ
　［ｆ_３］＝（１，０，０，１，０，０，０，１，０，０）^Ｔ
　つまり、あるラベル値に対応するビットベクトルとは、ラベル値ベクトルの要素のうち、当該ラベル値に一致する要素と同一位置にある要素のみを１、それ以外の要素を０としたベクトルである。

　次に、分割部１１２は、各ビットベクトルに対して、グループ情報ベクトル［ｇ］によるグループ分けに従って集約関数累積和演算を行い、第１の判定ベクトルを計算する（ステップＳ２０４）。ここで、集約関数累積和演算は同一グループ内の要素の集合を入力して、その要素の値の累積和の集合を出力する演算である。言い換えれば、集約関数累積和演算は、同一グループ内の各要素について先頭から累積和を計算する演算である。

　例えば、分割部１１２は、各ビットベクトルのそれぞれについて、１番目の要素から３番目の要素の累積和を順に計算し、同様に４番目の要素の累積和を計算し、５番目の要素から８番目の要素の累積和を順に計算し、９番目の要素から１０番目の要素の累積和を順に計算する。

　これにより、ビットベクトル［ｆ_１］に対応する第１の判定ベクトル
　［ｓ_０，１］＝（０，０，１，０，０，１，２，２，１，１）^Ｔ
が得られる。

　同様に、ビットベクトル［ｆ_２］に対応する第１の判定ベクトル
　［ｓ_０，２］＝（０，１，１，０，１，１，１，１，０，１）^Ｔ
が得られる。

　同様に、ビットベクトル［ｆ_３］に対応する第１の判定ベクトル
　［ｓ_０，３］＝（１，１，１，１，０，０，０，１，０，０）^Ｔ
が得られる。

　上記の第１の判定ベクトルは、各グループ内で各数値属性値の直後（つまり、当該数値属性値と次に大きい数値属性値との間）にしきい値を設定した場合に、このしきい値以下の数値属性値が該当のラベル値である個数（度数）を表している。例えば、第１の判定ベクトル［ｓ_０，１］は、数値属性値ベクトル［ｃ］の１番目のグループの１番目の要素の直後にしきい値を設定した場合、しきい値以下の数値属性値でラベル値が１である個数は０であることを表している。同様に、例えば、１番目のグループの３番目の要素の直後にしきい値を設定した場合、しきい値以下の数値属性値でラベル値が１である個数は１であることを表している。

　したがって、上記の第１の判定ベクトルにより、ｘ≦Ｃ（ただし、Ｃはしきい値）といった形式で表される分割条件で分割（グループ分け）されたデータ集合（数値属性値の集合）のうち、当該分割条件を満たすデータ集合でラベル値ｋを取るレコードの度数を計算することができる。

　次に、分割部１１２は、各ビットベクトルに対して、グループ情報ベクトル［ｇ］によるグループ分けに従って集約関数総和演算を行い、集約総和ベクトルを計算する（ステップＳ２０５）。ここで、集約関数総和演算は同一グループ内の要素の集合を入力して、その要素の値の総和を出力する演算である。

　例えば、分割部１１２は、各ビットベクトルのそれぞれについて、１番目の要素から３番目の要素の総和を計算し、同様に４番目の要素の総和を計算し、５番目の要素から８番目の要素の総和を計算し、９番目の要素から１０番目の要素の総和を計算する。そして、分割部１１２は、各総和を、当該総和の計算元となった要素と同一位置の要素とすることで集約総和ベクトルを作成する。

　これにより、ビットベクトル［ｆ_１］に対応する集約総和ベクトル
　［ｓ_＊，１］＝（１，１，１，０，２，２，２，２，１，１）^Ｔ
が得られる。

　同様に、ビットベクトル［ｆ_２］に対応する集約総和ベクトル
　［ｓ_＊，２］＝（１，１，１，０，１，１，１，１，１，１）^Ｔ
が得られる。

　同様に、ビットベクトル［ｆ_３］に対応する集約総和ベクトル
　［ｓ_＊，３］＝（１，１，１，１，１，１，１，１，０，０）^Ｔ
が得られる。

　次に、分割部１１２は、同一のラベル値に対応する第１の判定ベクトル及び集約総和ベクトルを用いて、当該ラベル値に対応する第２の判定ベクトルを計算する（ステップＳ２０６）。分割部１１２は、同一のラベル値に対応する第１の判定ベクトル及び集約総和ベクトルを用いて、集約総和ベクトルから第１の判定ベクトルを減算することで第２の判定ベクトルを計算する。

　これにより、ラベル値「１」に対応する第２の判定ベクトル
　［ｓ_１，１］＝［ｓ_＊，１］－［ｓ_０，１］＝（１，１，０，０，２，１，０，０，０，０）^Ｔ
が得られる。

　同様に、ラベル値「２」に対応する第２の判定ベクトル
　［ｓ_１，２］＝［ｓ_＊，２］－［ｓ_０，２］＝（１，０，０，０，０，０，０，０，１，０）^Ｔ
が得られる。

　同様に、ラベル値「３」に対応する第２の判定ベクトル
　［ｓ_１，３］＝［ｓ_＊，３］－［ｓ_０，３］＝（０，０，０，０，１，１，１，０，０，０）^Ｔ
が得られる。

　上記の第２の判定ベクトルは、各グループ内で各数値属性値の直後（つまり、当該数値属性値と次に大きい数値属性値との間）にしきい値を設定した場合に、このしきい値より大きい数値属性値が該当のラベル値である個数（度数）を表している。例えば、第２の判定ベクトル［ｓ_１，１］は、数値属性値ベクトル［ｃ］の１番目のグループの１番目の要素の直後にしきい値を設定した場合、しきい値より大きい数値属性値でラベル値が１である個数は１個であることを表している。同様に、例えば、１番目のグループの３番目の要素の直後にしきい値を設定した場合、しきい値より大きい数値属性値でラベル値が１である個数は０であることを表している。

　したがって、上記の第２の判定ベクトルにより、ｘ≦Ｃ（ただし、Ｃはしきい値）といった形式で表される分割条件で分割（グループ分け）されたデータ集合（数値属性値の集合）のうち、当該分割条件を満たさないデータ集合でラベル値ｋを取るレコードの度数を計算することができる。

　次に、分割部１１２は、グループごと、かつ、分割条件ごとに、各度数を計算する（ステップＳ２０７）。ここで、分割部１１２は、
　数値属性値ベクトル［ｃ］の各グループの要素数（つまり、上記の（１）に示す｜Ｑ｜）
　数値属性値ベクトル［ｃ］の各グループでラベル値ｋの要素数（つまり、上記の（２）に示す｜Ｑ_ｋ｜）
　数値属性値ベクトル［ｃ］の各グループを分割条件θで分割した各グループの要素数（つまり、上記の（３）に示す｜Ｑ（θ，ｉ）｜）
　数値属性値ベクトル［ｃ］の各グループを分割条件θで分割した各グループでラベル値ｋの要素数（つまり、上記の（４）に示す｜Ｑ（θ，ｉ）_ｋ｜）
の４つの度数を計算する。

　これら４つの度数のうち、１つ目の度数は数値属性値ベクトル［ｃ］及びグループ情報ベクトル［ｇ］を用いて、グループごとの要素数を計算することで得られる。また、２つ目の度数は数値属性値ベクトル［ｃ］、ラベル値ベクトル［ｙ］及びグループ情報ベクトル［ｇ］を用いて、グループごと、かつ、ラベル値ごとの要素数を計算することで得られる。また、３つ目の度数は数値属性値ベクトル［ｃ］及びグループ情報ベクトル［ｇ］を用いて、分割条件θのしきい値をグループに設定した際に、当該グループ内で分割条件θにより分割された各集合（つまり、分割条件θを満たす集合と満たさない集合）の要素数を計算することで得られる。

　一方で、４つ目の度数は数値属性値ベクトル［ｃ］とグループ情報ベクトル［ｇ］と第１の判定ベクトルと第２の判定ベクトルとを用いて、分割条件θのしきい値をグループに設定した際に、当該グループ内で分割条件θにより分割された各集合でラベル値ｋを取る要素数を計算することで得られる。これは、上述したように、分割後の各集合のうち、分割条件θを満たす集合でラベル値ｋを取る要素数は当該ラベル値ｋに対応する第１の判定ベクトルにより計算され、分割条件θを満たさない集合でラベル値ｋを取る要素数は当該ラベル値ｋに対応する第２の判定ベクトルにより計算される。

　次に、分割部１１２は、上記のステップＳ２０７で計算された各度数を用いて、グループごと、かつ、分割条件ごとに、上記の数１０により当該分割条件の評価値を計算する（ステップＳ２０８）。

　そして、分割部１１２は、各グループで評価値が最大となる分割条件を選択し、選択した分割条件を当該グループに対応する節点に設定される分割条件として出力する（ステップＳ２０９）。なお、各グループで評価値が最大となる分割条件を選択する際には、例えば、集約関数最大値演算を行えばよい。集約関数最大値演算は同一グループ内の要素（評価値）を入力し、その要素の値の最大値を出力する演算である。

　これにより、層ｉの葉以外の各節点に関する（ａ）～（ｃ）の情報が得られる。一方で、上記のステップＳ２０１で数値属性値ベクトルとラベル値ベクトルとグループ情報ベクトルとを入力した結果、あるグループ内のラベル値がすべて同一である場合、当該グループに対応する節点は葉となり、（ａ）及び（ｄ）の情報が得られる。

　＜秘密決定木テスト処理（その２）＞
　次に、上記のステップＳ１０３の処理の詳細の一例について、図５を参照しながら説明する。図５は、本実施形態に係る秘密決定木テスト処理の流れの一例を示すフローチャート（その２）である。なお、以降では、一例として、あるカテゴリ属性を対象として、層ｉを構成する各節点で分割条件の評価（テスト）を行う場合について説明する。また、学習用データセット［Ｔ_ｉ］中の各レコードの当該カテゴリ属性値をレコード順に並べたベクトルをカテゴリ属性値ベクトルといい、同様にラベル値をレコード順に並べたベクトルをラベル値ベクトルという。また、当該カテゴリ属性が取り得る値の集合を｛５，６，７，８｝、ラベルが取り得る値の集合を｛１，２，３｝とする。

　まず、分割部１１２は、カテゴリ属性値ベクトルと、ラベル値ベクトルと、グループ情報ベクトルとを入力する（ステップＳ３０１）。以降では、一例として、グループ情報ベクトルは、
　［ｇ］＝［ｇ_ｉ］＝（０，０，１，１，０，０，０，１，０，１）^Ｔ
であるものとする。

　また、カテゴリ属性値ベクトルは、
　［ｃ］＝（５，５，６，８，５，８，５，７，６，５）^Ｔ
であり、ラベル値ベクトルは、
　［ｙ］＝（３，２，１，３，２，１，１，３，１，２）^Ｔ
であるものとする。

　次に、分割部１１２は、当該カテゴリ属性が取り得る値とラベルが取り得る値との組み合わせごとに、当該カテゴリ属性値及びラベル値の組み合わせと一致する要素の位置を表すビットベクトルを計算する（ステップＳ３０２）。

　例えば、カテゴリ属性が取り得る値「５」とラベルが取り得る値「１」との組み合わせに対応するビットベクトルを［ｆ_５，１］とすれば、このビットベクトル［ｆ_５，１］は以下のようになる。

　［ｆ_５，１］＝（０，０，０，０，０，０，１，０，０，０）^Ｔ
　同様に、例えば、カテゴリ属性が取り得る値「５」とラベルが取り得る値「２」との組み合わせに対応するビットベクトルを［ｆ_５，２］とすれば、このビットベクトル［ｆ_５，２］は以下のようになる。

　［ｆ_５，２］＝（０，１，０，０，１，０，０，０，０，１）^Ｔ
　同様に、例えば、カテゴリ属性が取り得る値「５」とラベルが取り得る値「３」との組み合わせに対応するビットベクトルを［ｆ_５，３］とすれば、このビットベクトル［ｆ_５，３］は以下のようになる。

　［ｆ_５，３］＝（１，０，０，０，０，０，０，０，０，０）^Ｔ
　その他の組み合わせに対応する各ビットベクトル［ｆ_６，１］～［ｆ_６，３］、［ｆ_７，１］～［ｆ_７，３］、［ｆ_８，１］～［ｆ_８，３］も同様に計算される。

　つまり、あるカテゴリ属性値とラベル値との組み合わせに対応するビットベクトルとは、カテゴリ属性値ベクトルとラベル値ベクトルとで同一位置にある要素の組み合わせのうち、当該カテゴリ属性値とラベル値との組み合わせに一致する組み合わせの位置にある要素のみを１、それ以外の要素を０としたベクトルである。

　次に、分割部１１２は、各ビットベクトルに対して、グループ情報ベクトル［ｇ］によるグループ分けに従って集約関数総和演算を行い、判定ベクトルを計算する（ステップＳ３０３）。

　例えば、分割部１１２は、各ビットベクトルのそれぞれについて、１番目の要素から３番目の要素の総和を計算し、同様に４番目の要素の総和を計算し、５番目の要素から８番目の要素の総和を計算し、９番目の要素から１０番目の要素の総和を計算する。そして、分割部１１２は、各総和を、当該総和の計算元となった要素と同一位置の要素とすることで判定ベクトルを作成する。

　これにより、ビットベクトル［ｆ_５，１］に対応する判定ベクトル
　［ｃ_５，１］＝（０，０，０，０，１，１，１，１，０，０）^Ｔ
が得られる。

　同様に、ビットベクトル［ｆ_５，２］に対応する判定ベクトル
　［ｃ_５，２］＝（１，１，１，０，１，１，１，１，１，１）^Ｔ
が得られる。

　同様に、ビットベクトル［ｆ_５，３］に対応する判定ベクトル
　［ｃ_５，３］＝（１，１，１，０，０，０，０，０，０，０）^Ｔ
が得られる。

　その他の各ビットベクトル［ｆ_６，１］～［ｆ_６，３］、［ｆ_７，１］～［ｆ_７，３］、［ｆ_８，１］～［ｆ_８，３］に対応する判定ベクトルも同様に計算される。

　上記の判定ベクトルは、ビットベクトルに対応するカテゴリ属性値及びラベル値の組み合わせが各グループ内で出現する回数を表している。例えば、（カテゴリ属性値，ラベル値）＝（５，１）の組み合わせは１番目のグループで０回、２番目のグループで０回、３番目のグループで１回、４番目のグループで０回出現していることを表している。同様に、例えば、（カテゴリ属性値，ラベル値）＝（５，２）の組み合わせは１番目のグループで１回、２番目のグループで０回、３番目のグループで１回、４番目のグループで１回出現していることを表している。

　したがって、上記の判定ベクトルにより、ｘ∈Ｘ（ただし、Ｘはカテゴリ属性が取り得る値の集合の部分集合）といった形式で表される分割条件で分割（グループ分け）されたデータ集合（カテゴリ属性値の集合）のうち、当該分割条件を満たすデータ集合でラベル値ｋを取るレコードの度数を計算することができる。

　次に、分割部１１２は、グループごと、かつ、分割条件ごとに、各度数を計算する（ステップＳ３０４）。ここで、分割部１１２は、
　カテゴリ属性値ベクトル［ｃ］の各グループの要素数（つまり、上記の（１）に示す｜Ｑ｜）
　カテゴリ属性値ベクトル［ｃ］の各グループでラベル値ｋの要素数（つまり、上記の（２）に示す｜Ｑ_ｋ｜）
　カテゴリ属性値ベクトル［ｃ］の各グループを分割条件θで分割した各グループの要素数（つまり、上記の（３）に示す｜Ｑ（θ，ｉ）｜）
　カテゴリ属性値ベクトル［ｃ］の各グループを分割条件θで分割した各グループでラベル値ｋの要素数（つまり、上記の（４）に示す｜Ｑ（θ，ｉ）_ｋ｜）
の４つの度数を計算する。

　これら４つの度数のうち、１つ目の度数はカテゴリ属性値ベクトル［ｃ］及びグループ情報ベクトル［ｇ］を用いて、グループごとの要素数を計算することで得られる。また、２つ目の度数はカテゴリ属性値ベクトル［ｃ］、ラベル値ベクトル［ｙ］及びグループ情報ベクトル［ｇ］を用いて、グループごと、かつ、ラベル値ごとの要素数を計算することで得られる。また、３つ目の度数はカテゴリ属性値ベクトル［ｃ］及びグループ情報ベクトル［ｇ］を用いて、分割条件θでグループを分割した際に、当該分割条件θにより分割された各集合（つまり、分割条件θを満たす集合と満たさない集合）の要素数を計算することで得られる。

　一方で、４つ目の度数はカテゴリ属性値ベクトル［ｃ］とグループ情報ベクトル［ｇ］と判定ベクトルとを用いて、分割条件θでグループを分割した際に、当該分割条件θにより分割された各集合でラベル値ｋを取る要素数を計算することで得られる。これは、分割後の集合に含まれる各要素（カテゴリ属性値）とラベル値ｋとの組み合わせが当該グループ内に出現する回数を判定ベクトルにより計算すればよい。具体的には、例えば、分割条件θがｘ∈｛５，８｝であった場合、カテゴリ属性値ベクトル［ｃ］の３番目のグループは｛５，８，５｝と｛７｝に分割される。このため、例えば、｛５，８，５｝でラベル値ｋを取る要素数は、上述したように、（５，ｋ）の組み合わせが３番目のグループで出現する回数と（８，ｋ）の組み合わせが３番目のグループで出現する回数との和を判定ベクトル［ｆ_５，ｋ］及び［ｆ_８，ｋ］から計算することで得られる。同様に、例えば、｛７｝でラベル値ｋを取る要素数は、（７，ｋ）の組み合わせが３番目のグループで出現する回数を判定ベクトル［ｆ_７，ｋ］から計算することで得られる。

　次に、分割部１１２は、上記のステップＳ３０４で計算された各度数を用いて、グループごと、かつ、分割条件ごとに、上記の数１０により当該分割条件の評価値を計算する（ステップＳ３０５）。

　そして、分割部１１２は、各グループで評価値が最大となる分割条件を選択し、選択した分割条件を当該グループに対応する節点に設定される分割条件として出力する（ステップＳ３０６）。

　これにより、層ｉの葉以外の各節点に関する（ａ）～（ｃ）の情報が得られる。一方で、上記のステップＳ３０１で数値属性値ベクトルとラベル値ベクトルとグループ情報ベクトルとを入力した結果、あるグループ内のラベル値がすべて同一である場合、当該グループに対応する節点は葉となり、（ａ）及び（ｄ）の情報が得られる。

　＜秘密グループ分け処理＞
　次に、上記のステップＳ１０５の処理の詳細の一例について、図６を参照しながら説明する。図６は、本実施形態に係る秘密グループ分け処理の流れの一例を示すフローチャートである。以降では、簡単のため、データセット（［Ｔ_ｉ］，［ｑ_ｉ］×ｄ＋［ｆ_ｉ］）の各レコードのレコード番号を要素とするベクトルをデータベクトルとして、このデータベクトルの各要素を並び替えることでデータセット（［Ｔ_ｉ］，［ｑ_ｉ］×ｄ＋［ｆ_ｉ］）の各レコードを並び替える場合について説明する。

　まず、グループ分け部１１３は、データベクトルと、グループ情報ベクトルとを入力する（ステップＳ４０１）。以降では、一例として、データベクトルは、
　［ｖ］＝（３，０，４，５，１，６，７，２）^Ｔ
であるものとする。また、グループ情報ベクトルは、
　［ｇ］＝［ｇ_ｉ］＝（０，１，１，０，０，１，０，１）^Ｔ
であるものとする。

　次に、グループ分け部１１３は、分類結果を分類先ベクトルとして入力する（ステップＳ４０２）。以降では、一例として、分類先ベクトルは、
　［ｆ］＝［ｆ_ｉ］＝（０，１，０，１，１，０，１，１）^Ｔ
であるものとする。

　次に、グループ分け部１１３は、データベクトルの各要素のうち、各グループ内で各分類先の端点となる要素を検出した検出ベクトルを計算する（ステップＳ４０３）。この検出ベクトルは以下の手順１～手順２により計算される。

　手順１：分類先として取り得る値ごとに、同一グループ内で当該分類先の端点となる要素を検出した分類先単位検出ベクトルを計算する。分類先単位検出ベクトルとは、データベクトルの各要素のうち、同一グループ内で当該分類先の端点となる要素と同一位置の要素を１、それ以外の要素を０としたベクトルである。

　例えば、分類先として取り得る値が「１」の場合、まず、グループ分け部１１３は、［ｅ_１］←ＥＱ（［ｆ］，１）を計算し、以下の［ｅ_１］を得る。

　［ｅ_１］＝（０，１，０，１，１，０，１，１）^Ｔ
　次に、グループ分け部１１３は、グループ情報ベクトル［ｇ］が表すグループ内で下から累積和を計算し、以下の［ｘ_１］を得る。

　［ｘ_１］＝（１，１，０，２，１，０，２，１）^Ｔ
　なお、グループ内で下から累積和を計算するとは、グループ内の下の要素（後ろの要素）から順に上（前）に向かって累積和を計算することを意味する。

　次に、グループ分け部１１３は、［ｅ_１］×［ｘ_１］により以下の［ｋ_１］を得る。

　［ｋ_１］＝（０，１，０，２，１，０，２，１）^Ｔ
　そして、グループ分け部１１３は、［ｔ_１］←ＥＱ（［ｋ_１］，１）を計算し、以下の［ｔ_１］を得る。

　［ｔ_１］＝（０，１，０，０，１，０，０，１）^Ｔ
　この［ｔ_１］が分類先「１」に対応する分類先単位検出ベクトルである。この分類先単位検出ベクトル［ｔ_１］は、データベクトルの各要素のうち、各グループ内で分類先「１」に分類される要素の端点（つまり、最後の要素）を検出したベクトルである。すなわち、上記の分類先単位検出ベクトル［ｔ_１］は、データベクトル［ｖ］の２番目の要素が、１番目のグループで分類先「１」に分類される要素の最後の要素（つまり、端点）であることを表している。同様に、データベクトル［ｖ］の５番目の要素が、３番目のグループで分類先「１」に分類される要素の最後の要素であることを表している。同様に、データベクトル［ｖ］の８番目の要素が、４番目のグループで分類先「１」に分類される要素の最後の要素であることを表している。

　同様に、例えば、分類先として取り得る値が「０」の場合、まず、グループ分け部１１３は、［ｅ_０］←ＥＱ（［ｆ］，０）を計算し、以下の［ｅ_０］を得る。

　［ｅ_０］＝（１，０，１，０，０，１，０，０）^Ｔ
　次に、グループ分け部１１３は、グループ情報ベクトル［ｇ］が表すグループ内で下から累積和を計算し、以下の［ｘ_０］を得る。

　［ｘ_０］＝（１，０，１，１，１，１，０，０）^Ｔ
　次に、グループ分け部１１３は、［ｅ_０］×［ｘ_０］により以下の［ｋ_０］を得る。

　［ｋ_０］＝（１，０，１，０，０，１，０，０）^Ｔ
　そして、グループ分け部１１３は、［ｔ_０］←ＥＱ（［ｋ_０］，１）を計算し、以下の［ｔ_０］を得る。

　［ｔ_０］＝（１，０，１，０，０，１，０，０）^Ｔ
　この［ｔ_０］が分類先「０」に対応する分類先単位検出ベクトルである。この分類先単位検出ベクトル［ｔ_０］は、データベクトルの各要素のうち、各グループ内で分類先「０」に分類される要素の端点（つまり、最後の要素）を検出したベクトルである。すなわち、上記の分類先単位検出ベクトル［ｔ_０］は、データベクトル［ｖ］の１番目の要素が、１番目のグループで分類先「０」に分類される要素の最後の要素（つまり、端点）であることを表している。同様に、データベクトル［ｖ］の３番目の要素が、２番目のグループで分類先「０」に分類される要素の最後の要素であることを表している。同様に、データベクトル［ｖ］の６番目の要素が、３番目のグループで分類先「０」に分類される要素の最後の要素であることを表している。

　手順２：すべての分類先単位検出ベクトルの和を検出ベクトルとして計算する。

　すなわち、例えば、上記の分類先単位検出ベクトル［ｔ_０］及び［ｔ_１］が得られた場合、グループ分け部１１３は、［ｔ］＝［ｔ_０］＋［ｔ_１］により以下の検出ベクトル［ｔ］を得る。

　［ｔ］＝（１，１，１，０，１，１，０，１）^Ｔ
　この検出ベクトル［ｔ］が、データベクトルの各要素のうち、各グループ内で各分類先「０」及び「１」の端点となる要素を検出したベクトルである。

　次に、グループ分け部１１３は、データベクトル及び検出ベクトルを分類先ベクトルでそれぞれ安定ソートして、分類後のデータベクトル及びグループ情報ベクトルを得る（ステップＳ４０４）。

　すなわち、例えば、グループ分け部１１３は、データベクトル［ｖ］を分類先ベクトル［ｆ］の要素の昇順に安定ソートして、以下の［ｖ'］を得る。

　［ｖ'］＝（３，４，６，０，５，１，７，２）^Ｔ
　この［ｖ'］が分類後のデータベクトルである。

　同様に、例えば、グループ分け部１１３は、検出ベクトル［ｔ］を分類先ベクトル［ｆ］の要素の昇順に安定ソートして、以下の［ｇ'］を得る。

　［ｇ'］＝（１，１，１，１，０，１，０，１）^Ｔ
　この［ｇ'］が分類後のグループ情報ベクトルである。

　そして、グループ分け部１１３は、分類後のデータベクトルと分類後のグループ情報ベクトルとを出力する（ステップＳ４０５）。

　これにより、（［Ｔ_ｉ］，［ｑ_ｉ］×ｄ＋［ｆ_ｉ］）のレコード番号を［ｖ'］に並び替えたデータセット（［Ｔ_ｉ＋１］，［ｑ_ｉ＋１］）と、グループ情報ベクトル［ｇ_ｉ＋１］＝［ｇ'］とが得られる。

　＜まとめ＞
　以上のように、本実施形態に係る秘密決定木学習装置１０は、与えられた秘匿値のデータ集合から秘密決定木を学習する際に、同一階層のすべての節点でデータ集合の分割を一括して行うことにより、データ集合全体の参照回数を指数的に小さくすることができる。具体的には、例えば、決定木を高さｈ以下の二分木とした場合、従来技術ではΘ（２^ｈ）の参照回数が必要であったのに対して、本実施形態に係る秘密決定木学習装置１０では、Ｏ（ｈ）とすることができる。

　本発明は、具体的に開示された上記の実施形態に限定されるものではなく、請求の範囲の記載から逸脱することなく、種々の変形や変更、既知の技術との組み合わせ等が可能である。

　１０　　　　秘密決定木学習装置
　１０１　　　入力部
　１０２　　　秘密決定木学習部
　１０３　　　出力部
　１０４　　　記憶部
　１１１　　　初期化部
　１１２　　　分割部
　１１３　　　グループ分け部
　１１４　　　節点抽出部
　２０１　　　入力装置
　２０２　　　表示装置
　２０３　　　外部Ｉ／Ｆ
　２０３ａ　　記録媒体
　２０４　　　通信Ｉ／Ｆ
　２０５　　　プロセッサ
　２０６　　　メモリ装置
　２０７　　　バス

Claims

　秘密計算により決定木の学習を行う秘密決定木学習装置であって、
　１以上の説明変数の属性値と目的変数の属性値とを含む複数のレコードで構成されるデータ集合を入力する入力部と、
　前記決定木の階層ごとに、前記階層に含まれる全ての節点における前記データ集合の分割を一括して行うことで、前記決定木を学習する学習部と、
　を有する秘密決定木学習装置。
　前記学習部は、
　前記決定木の階層ごとに、１つ前の階層で１以上のグループに分割されたデータ集合と、前記データ集合に含まれる各レコードが属するグループを表すグループ情報ベクトルとを用いて、前記階層に含まれる全ての節点で前記データ集合を一括してより細かいグループに分割することで、前記決定木を学習する、請求項１に記載の秘密決定木学習装置。
　前記データ集合は、同一グループに属するレコードが連続して構成されており、
　前記グループ情報ベクトルは、前記データ集合を構成する各レコードの中で同一グループに属するレコードの最後のレコードに対応する要素を１、前記最後のレコードに対応する要素以外の要素を０としたベクトルである、請求項２に記載の秘密決定木学習装置。
　前記階層をｉ（ただし、ｉ＝１，・・・，ｈ）として、
　前記学習部は、
　１つ前の階層で１以上のグループに分割されたデータ集合［Ｔ_ｉ］と、前記データ集合［Ｔ_ｉ］に含まれる各レコードが属するグループを表すグループ情報ベクトル［ｇ_ｉ］とを用いて、前記階層ｉに含まれる各節点における分割条件を表すパラメータ［ｐ_ｉ］を計算し、
　前記データ集合［Ｔ_ｉ］と前記パラメータ［ｐ_ｉ］とを用いて、前記データ集合［Ｔ_ｉ］に含まれる各レコードを階層ｉ＋１の節点に分類し、
　前記データ集合［Ｔ_ｉ］と、前記パラメータ［ｐ_ｉ］と、前記分類の結果と、前記データ集合［Ｔ_ｉ］に含まれる各レコードが分類されている節点を表す情報とを用いて、データ集合［Ｔ_ｉ＋１］とグループ情報ベクトル［ｇ_ｉ＋１］とを計算する、ことを階層ｉごとに繰り返す、請求項２又は３に記載の秘密決定木学習装置。
　秘密計算により決定木の学習を行う秘密決定木学習システムであって、
　１以上の説明変数の属性値と目的変数の属性値とを含む複数のレコードで構成されるデータ集合を入力する入力部と、
　前記決定木の階層ごとに、前記階層に含まれる全ての節点における前記データ集合の分割を一括して行うことで、前記決定木を学習する学習部と、
　を有する秘密決定木学習システム。
　秘密計算により決定木の学習を行う秘密決定木学習方法であって、
　１以上の説明変数の属性値と目的変数の属性値とを含む複数のレコードで構成されるデータ集合を入力する入力手順と、
　前記決定木の階層ごとに、前記階層に含まれる全ての節点における前記データ集合の分割を一括して行うことで、前記決定木を学習する学習手順と、
　をコンピュータが実行する秘密決定木学習方法。
　コンピュータを、請求項１乃至４の何れか一項に記載の秘密決定木学習装置として機能させるプログラム。