WO2023127111A1

WO2023127111A1 - 生成方法、生成プログラム、及び、情報処理装置

Info

Publication number: WO2023127111A1
Application number: PCT/JP2021/048834
Authority: WO
Inventors: 智尊江田
Original assignee: 富士通株式会社
Priority date: 2021-12-28
Filing date: 2021-12-28
Publication date: 2023-07-06

Abstract

コンピュータが、ルートノードに属する複数のデータをランダムな閾値により前記ルートノードよりも下位のノードに階層的に分類する複数のツリーであって、複数の前記ノードのうちのリーフノードに分類されるデータ数が基準値以下である前記複数のツリーのうちの第１のツリーに基づき、複数の前記リーフノードのうちのいずれかのリーフノードの定義域に第１のデータを生成し、前記ルートノードから前記第１のデータが生成されたリーフノードまでの第１の距離と、前記複数のツリーのうちの前記第１のツリーとは異なる１以上の第２のツリーの各々における、前記第２のツリーのルートノードから前記第１のデータを定義域に含む前記第２のツリーのノードまでの１以上の第２の距離と、に基づき、前記第１のデータが前記複数のデータの分布外のデータであることの妥当性を判定する、処理を実行する。

Description

生成方法、生成プログラム、及び、情報処理装置

　本発明は、生成方法、生成プログラム、及び、情報処理装置に関する。

　複数のデータから異常データを検出する異常検出アルゴリズムの１つとして、ｉＦ（Isolation Forest）が知られている。

　ｉＦは、データ内の変数に基づき複数のデータを個々のデータに分離（分割）するツリー（ｉＴ：Isolation Tree）を利用し、複数のデータの分布における各データの「分布外らしさ」を示す指標を取得する手法である。分布外のデータは、複数のデータの分布とは異なる（例えば乖離した）分布のデータ（以下、「分布外データ」と表記する場合がある）である。

国際公開第２０２１－０９５１０１号パンフレット

　機械学習アルゴリズムは、分布外データに対して脆弱である場合がある。例えば、所定の分布である複数のデータによって訓練された機械学習モデルに分布外データが入力されると、機械学習モデルから適切でない判定結果が出力される可能性がある。

　機械学習アルゴリズムの誤判定を抑制するために、擬似的に生成した分布外データ（以下、「疑似分布外データ」と表記する場合がある）を用いて、疑似分布外データが「分布外のデータである」ことを機械学習モデルに学習させることが考えられる。例えば、疑似分布外データの生成に、ｉＦから取得できる分布外らしさを示す指標を用いることを想定する。

　しかし、ｉＦでは、データにおける分割対象の変数（どの変数を分割するか）、及び、分割の閾値がそれぞれにランダムに決定されるため、分布外らしさを示す指標が、同じデータであってもツリーごとに異なる場合がある。このため、分布外らしさを示す指標に基づき擬似的に生成した分布外データが、機械学習モデルの訓練に不適切な（妥当ではない）疑似分布外データとなり、分布外データの生成効率が低下する可能性がある。

　１つの側面では、本発明は、分布外データの生成効率を向上させることを目的の１つとする。

　１つの側面では、生成方法は、コンピュータが、以下の処理を実行してよい。前記処理は、ルートノードに属する複数のデータをランダムな閾値により前記ルートノードよりも下位のノードに階層的に分類する複数のツリーであって、複数の前記ノードのうちのリーフノードに分類されるデータ数が基準値以下である前記複数のツリーのうちの第１のツリーに基づき、複数の前記リーフノードのうちのいずれかのリーフノードの定義域に第１のデータを生成してよい。また、前記処理は、前記ルートノードから前記第１のデータが生成されたリーフノードまでの第１の距離と、前記複数のツリーのうちの前記第１のツリーとは異なる１以上の第２のツリーの各々における、前記第２のツリーのルートノードから前記第１のデータを定義域に含む前記第２のツリーのノードまでの１以上の第２の距離と、に基づき、前記第１のデータが前記複数のデータの分布外のデータであることの妥当性を判定してよい。

　１つの側面では、本発明は、分布外データの生成効率を向上させることができる。

分布外データの一例を説明するための図である。ツリーによるデータの分割例を示す図である。図２に示す分割のツリー形式の表現例を示す図である。ツリーによるデータの他の分割例を示す図である。一実施形態に係る生成装置の機能を実現するコンピュータのハードウェア（ＨＷ）構成例を示すブロック図である。一実施形態に係る生成装置の機能構成例を示すブロック図である。ｐｌ（Path Length）の分布密度のヒストグラムの一例を示す図である。ｐｌの分布密度推定による深さｄの導出例を示す図である。データ生成用ツリーを用いて生成された分布外データの一例を示す図である。データ評価用ツリーにおける分布外データの一例を示す図である。一実施形態に係る生成装置の動作例を説明するフローチャートである。

　以下、図面を参照して本発明の実施の形態を説明する。ただし、以下に説明する実施形態は、あくまでも例示であり、以下に明示しない種々の変形又は技術の適用を排除する意図はない。例えば、本実施形態を、その趣旨を逸脱しない範囲で種々変形して実施することができる。なお、以下の説明で用いる図面において、同一符号を付した部分は、特に断らない限り、同一若しくは同様の部分を表す。

　〔１〕一実施形態
　〔１－１〕分布外データの説明
　図１は、分布外データの一例を説明するための図である。図１に示すように、機械学習モデルが、第１の分布を有する複数のデータと、第２の分布を有する複数のデータとを含む訓練データを用いて、判別境界１０１を境にクラス＃１及び＃２を分離するように訓練された場合を想定する。なお、クラス＃１は、第１の分布に属するデータに対応する分類であり、クラス＃２は、第２の分布に属するデータに対応する分類である。

　機械学習アルゴリズムは、例えば、訓練データには含まれない領域のサンプル（分布外データ１０２）が入力されると、データ１０２が判別境界１０１よりもクラス＃１側に存在するため、データ１０２を高い確信度でクラス＃１に分類する可能性がある。

　仮に、データ１０２がサイバー攻撃のためのデータである場合、データ１０２がクラス＃１に分類されることは、攻撃が見逃されたことに相当する。このような攻撃の見逃しを防止するために、例えば、データ１０２のような分布外データを擬似的に生成して機械学習モデルの訓練を行なうことで、データ１０２が「分布外のデータである」ことを機械学習モデルに学習させることが考えられる。

　一実施形態では、分布外データを生成するための手法として、ツリー（ｉＴ）により複数のデータを個々のデータに分割するｉＦの手法を利用するものとする。

　図２は、ツリーによるデータの分割例を示す図であり、図３は、図２に示す分割のツリー形式の表現例を示す図である。

　ツリーは、分割する対象となる変数（どの変数を分割するか）、及び、分割の閾値をランダムとするツリーである。一実施形態では、図２に例示するように、変数として、データ１２０（図３参照）に含まれる複数の変数のうちの、ｘ_１及びｘ_２（それぞれ横軸及び縦軸参照）が選択されるものとする。また、閾値として、破線で示すように、変数ｘ_１又はｘ_２における所定の値（符号１１１参照）が選択されるものとする。

　例えば、図３に示すように、ｉＦは、ノードを選択し、変数の選択及び閾値の選択を行ない、選択したノードを選択した変数及び閾値に応じて複数（例えば２つ）のノードに分割する手順を、各ノードに含まれるデータ（サンプル）が１つになるまで繰り返す。ノードは、ツリーに含まれる、条件を満たすデータが格納されるボックス（箱）を意味し、図２では閾値１１１又は軸により区切られる範囲であり、図３では四角枠である。ノードの初期状態は、図３に示すように全データ１２０を含んでよい。

　このように、ｉＦは、ルートノードに属する複数のデータをランダムな閾値によりルートノードよりも下位のノードに階層的に分類する複数のツリーを含む。また、複数のノードのうちの末端（最下位）のリーフノードに分類されるデータ数は、基準値以下となる。一実施形態では、基準値は“1”であるものとするが、これに限定されるものではなく、“2”以上であってもよい。

　図３の例では、ｉＦは、変数ｘ_２及び閾値“0.4”を選択し、全データ１２０のノード（ルートノード）を、ｘ_２≦“0.4”を満たすデータを含むノードと、ｘ_２＞“0.4”を満たすデータを含むノードとに分割する。また、ｉＦは、ｘ_２≦“0.4”を満たすデータを含むノードについて、変数ｘ_１及び閾値“0.5”を選択し、当該ノードを、ｘ_１≦“0.5”を満たすデータを含むノードと、ｘ_１＞“0.5”を満たすデータを含むノード１１２とに分割する。

　ｉＦは、ｘ_１＞“0.5”を満たすデータを含むノード１１２に存在するデータが１つ（データ１１３；図２参照）になったため、ノード１１２の分割を終了する。分割が終了したノード１１２は、リーフノードと称されてよい。ｉＦは、同様の手順によって、ｘ_１≦“0.5”を満たすデータを含むノードについても分割を進め、ノード１１４等のリーフノードに分割する。ｉＦは、全データ１２０のそれぞれをリーフノードに分割すると、処理を終了する。

　ｉＦは、例えば、ツリーを生成する機械学習モデル（以下、「ツリーモデル」と表記する場合がある）を複数含んでよい。ツリーモデルは、変数及び閾値を選択し、データ（ノード）を分割する処理を、入力される全データの分割が終わる（リーフノードに達する）まで繰り返すことでツリーを生成するためのモデルである。一実施形態では、ｉＦが含む複数のツリーモデルは、いずれも同じ変数の同じ組み合わせ（一例として、２つの変数ｘ_１、ｘ_２）を選択するものとする。なお、変数は３つ以上又は１つであってもよい。

　ｉＦにおいて、ルートノードからリーフノードに到達するまでに通過するノード（ルートノードを含む）の数、換言すれば、ルートノードからリーフノードまでの距離を、ｐｌ（Path Length）又は“リーフノードの深さ”という。図３の例では、リーフノード１１２はｐｌ＝“2”であり、リーフノード１１４はｐｌ＝“4”である。

　例えば、図２において、符号１１２は比較的「疎」な領域である。「疎」な領域は、ノードの分割が比較的早期に終了する（分割回数が少なくなる）ため、浅いリーフノードとなる、換言すればｐｌが比較的小さくなる。一方、符号１１４は比較的「密」な領域である。「密」な領域は、ノードの分割が比較的遅くに終了する（分割回数が多くなる）ため、深いリーフノードとなる、換言すればｐｌが比較的大きくなる。

　このように、ｐｌは、全データ１２０の分布における各データの分布外らしさを示す指標の一例と捉えることができる。

　ここで、疑似分布外データを生成するコンピュータ、例えばサーバに、ｉＦを利用して疑似分布外データを生成させることを考える。疑似分布外データの生成手法としては、例えば以下の（ｉ）～（iii）の手順が想定される。

　（ｉ）サーバは、疑似分布外データを生成するノードの深さｄを選択する。
　（ii）サーバは、ｉＦ内のツリーと、深さｄのリーフノードを１つランダムに選択する。
　（iii）サーバは、選択したリーフノードの領域（定義域）から一様ランダムにデータ（サンプル）を生成する。

　上述したように、ｐｌが小さいノード、換言すれば、ツリー上で浅い位置のノードは、「疎」な領域であるため、深さｄが小さいノードに一様ランダムに生成されるデータは、分布外らしい（分布外である可能性が高い）サンプルとなる。一方、ｐｌが大きいノード、換言すれば、ツリー上で深い位置のノードは、「密」な領域であるため、深さｄが大きいノードに一様ランダムに生成されるデータは、分布内らしい（分布内である可能性が高い）サンプルとなる。

　従って、サーバは、手順（ｉ）において、適切な深さｄ（換言すれば、所定の基準）を選択することができれば、手順（ii）及び（iii）において適切な分布外データを生成することができる。

　なお、適切な分布外データとは、例えば、分布外データを利用せずに（分布内のデータを利用して）訓練された機械学習モデルにより、分布内のデータのクラスに誤って分類され得る分布外のデータを意味してよい。生成された分布外データは、当該機械学習モデルの訓練に利用される。これにより、分布内及び分布外の判定が困難なデータセットを利用して、分布外データが分布外のデータであると判定（分類）するように機械学習モデルを訓練することができる。

　しかしながら、ｉＦは、個々のノードのｐｌを取得することは可能であるが、適切な深さｄを特定することは想定されていない。例えば、深さｄが大き過ぎる場合、生成されるサンプルは分布内になる。一方、深さｄが小さ過ぎる場合、生成されるサンプルは分布外になるものの、分布外であることが明らかであり、機械学習モデルの訓練に不適切なサンプルとなる。

　また、上述したように、ｉＦは、変数の選択及び閾値の選択がいずれもランダムな複数のツリーモデルを利用する。このため、或るツリーに基づき生成された疑似分布外データが、他の複数のツリーにおいては不適切な（分布外らしいとはいえない）データになる可能性がある。

　図４は、ツリーによるデータの他の分割例を示す図である。図４に示すように、ツリーでは、閾値１３１及び軸によりデータが分割される。

　図４の例において、閾値１３１及び軸で区切られるノード（領域）１３２はｐｌ＝“3”であり、ノード（領域）１３３はｐｌ＝“4”であるものとする。ｐｌの値と分布外らしさとの関係によれば、ｐｌ＝“3”のノード１３２に生成されるサンプルは、ｐｌ＝“4”のノード１３３に生成されるサンプルよりも、分布外らしさを示す指標が大きいはずである。しかし、図４に例示するように、分割のランダム性により、ｐｌの値と分布外らしさとの間に逆転が生じることがある。

　このように、想定される手法では、ツリーに基づき適切な深さｄを選択すること、及び、生成されたサンプルが妥当であるかを判断すること、の一方又は双方が困難になる場合がある。

　そこで、一実施形態では、適切な深さｄの選択、及び、選択した深さｄのノードに生成される疑似分布外データの妥当性の判定を可能とすることで、適切な疑似分布外データの生成を実現する手法の一例を説明する。なお、以下では、適切な深さｄの選択、及び、疑似分布外データの妥当性の判定の双方の手法を説明するが、いずれか一方の実施によっても、上述した想定される手法よりも適切な疑似分布外データを生成することができる。

　〔１－２〕一実施形態の構成例
　以下、疑似分布外データを生成する生成装置１（図６参照）を例に挙げて説明する。

　〔１－２－１〕ハードウェア構成例
　一実施形態に係る生成装置１は、種々のサーバ、例えば、仮想サーバ（ＶＭ；Virtual Machine）であってもよいし、物理サーバであってもよい。また、生成装置１の機能は、１台のコンピュータにより実現されてもよいし、２台以上のコンピュータにより実現されてもよい。さらに、生成装置１の機能のうちの少なくとも一部は、クラウド環境により提供されるＨＷ（Hardware）リソース及びＮＷ（Network）リソースを用いて実現されてもよい。

　図５は、一実施形態に係る生成装置１の機能を実現するコンピュータ１０のハードウェア（ＨＷ）構成例を示すブロック図である。生成装置１の機能を実現するＨＷリソースとして、複数のコンピュータが用いられる場合は、各コンピュータが図５に例示するＨＷ構成を備えてよい。

　図５に示すように、コンピュータ１０は、ＨＷ構成として、例示的に、プロセッサ１０ａ、メモリ１０ｂ、記憶部１０ｃ、ＩＦ（Interface）部１０ｄ、ＩＯ（Input / Output）部１０ｅ、及び読取部１０ｆを備えてよい。

　プロセッサ１０ａは、種々の制御や演算を行なう演算処理装置の一例である。プロセッサ１０ａは、コンピュータ１０内の各ブロックとバス１０ｉで相互に通信可能に接続されてよい。なお、プロセッサ１０ａは、複数のプロセッサを含むマルチプロセッサであってもよいし、複数のプロセッサコアを有するマルチコアプロセッサであってもよく、或いは、マルチコアプロセッサを複数有する構成であってもよい。

　プロセッサ１０ａとしては、例えば、ＣＰＵ、ＭＰＵ、ＧＰＵ、ＡＰＵ、ＤＳＰ、ＡＳＩＣ、ＦＰＧＡ等の集積回路（ＩＣ；Integrated Circuit）が挙げられる。なお、プロセッサ１０ａとして、これらの集積回路の２以上の組み合わせが用いられてもよい。ＣＰＵはCentral Processing Unitの略称であり、ＭＰＵはMicro Processing Unitの略称である。ＧＰＵはGraphics Processing Unitの略称であり、ＡＰＵはAccelerated Processing Unitの略称である。ＤＳＰはDigital Signal Processorの略称であり、ＡＳＩＣはApplication Specific ICの略称であり、ＦＰＧＡはField-Programmable Gate Arrayの略称である。

　例えば、生成装置１が一実施形態に係る生成処理に加えて、機械学習処理を実行する場合、プロセッサ１０ａは、生成処理を実行するＣＰＵ等の処理装置と、機械学習処理を実行するアクセラレータとの組み合わせであってよい。アクセラレータとしては、例えば、上述したＧＰＵ、ＡＰＵ、ＤＳＰ、ＡＳＩＣ又はＦＰＧＡ等が挙げられる。

　メモリ１０ｂは、種々のデータやプログラム等の情報を格納するＨＷの一例である。メモリ１０ｂとしては、例えばＤＲＡＭ（Dynamic Random Access Memory）等の揮発性メモリ、及び、ＰＭ（Persistent Memory）等の不揮発性メモリ、の一方又は双方が挙げられる。

　記憶部１０ｃは、種々のデータやプログラム等の情報を格納するＨＷの一例である。記憶部１０ｃとしては、ＨＤＤ（Hard Disk Drive）等の磁気ディスク装置、ＳＳＤ（Solid State Drive）等の半導体ドライブ装置、不揮発性メモリ等の各種記憶装置が挙げられる。不揮発性メモリとしては、例えば、フラッシュメモリ、ＳＣＭ（Storage Class Memory）、ＲＯＭ（Read Only Memory）等が挙げられる。

　記憶部１０ｃは、コンピュータ１０の各種機能の全部若しくは一部を実現するプログラム１０ｇ（生成プログラム）を格納してよい。

　例えば、生成装置１のプロセッサ１０ａは、記憶部１０ｃに格納されたプログラム１０ｇをメモリ１０ｂに展開して実行することにより、後述する生成装置１（図６に例示する制御部１９）としての機能を実現できる。

　ＩＦ部１０ｄは、生成装置１と図示しない装置との間のネットワークを含む種々のネットワークとの間の接続及び通信の制御等を行なう通信ＩＦの一例である。装置としては、例えば、生成装置１にデータを提供するユーザ端末又はサーバ等のコンピュータ、生成装置１から出力されるデータを利用する（例えばデータに基づき機械学習処理を行なう）サーバ等のコンピュータ等が挙げられる。

　例えば、ＩＦ部１０ｄは、イーサネット（登録商標）等のＬＡＮ（Local Area Network）、或いは、ＦＣ（Fibre Channel）等の光通信等に準拠したアダプタを含んでよい。当該アダプタは、無線及び有線の一方又は双方の通信方式に対応してよい。

　なお、プログラム１０ｇは、当該通信ＩＦを介して、ネットワークからコンピュータ１０にダウンロードされ、記憶部１０ｃに格納されてもよい。

　ＩＯ部１０ｅは、入力装置、及び、出力装置、の一方又は双方を含んでよい。入力装置としては、例えば、キーボード、マウス、タッチパネル等が挙げられる。出力装置としては、例えば、モニタ、プロジェクタ、プリンタ等が挙げられる。また、ＩＯ部１０ｅは、入力装置及び表示装置が一体となったタッチパネル等を含んでもよい。

　読取部１０ｆは、記録媒体１０ｈに記録されたデータやプログラムの情報を読み出すリーダの一例である。読取部１０ｆは、記録媒体１０ｈを接続可能又は挿入可能な接続端子又は装置を含んでよい。読取部１０ｆとしては、例えば、ＵＳＢ（Universal Serial Bus）等に準拠したアダプタ、記録ディスクへのアクセスを行なうドライブ装置、ＳＤカード等のフラッシュメモリへのアクセスを行なうカードリーダ等が挙げられる。なお、記録媒体１０ｈにはプログラム１０ｇが格納されてもよく、読取部１０ｆが記録媒体１０ｈからプログラム１０ｇを読み出して記憶部１０ｃに格納してもよい。

　記録媒体１０ｈとしては、例示的に、磁気／光ディスクやフラッシュメモリ等の非一時的なコンピュータ読取可能な記録媒体が挙げられる。磁気／光ディスクとしては、例示的に、フレキシブルディスク、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disc）、ブルーレイディスク、ＨＶＤ（Holographic Versatile Disc）等が挙げられる。フラッシュメモリとしては、例示的に、ＵＳＢメモリやＳＤカード等の半導体メモリが挙げられる。

　上述したコンピュータ１０のＨＷ構成は例示である。従って、コンピュータ１０内でのＨＷの増減（例えば任意のブロックの追加や削除）、分割、任意の組み合わせでの統合、又は、バスの追加若しくは削除等は適宜行なわれてもよい。

　〔１－２－２〕機能構成例
　図６は、一実施形態に係る生成装置１の機能構成例を示すブロック図である。生成装置１は、（疑似）分布外データを生成する情報処理装置又はコンピュータの一例である。

　例えば、生成装置１は、複数のデータの分布外らしさを示す指標を取得するための種々の手法を採用して、機械学習モデルの訓練に利用される分布外データを生成してよい。一実施形態では、複数のデータの分布外らしさを示す指標を取得する手法の一例として、上述したｉＦ（Isolation Forest）が利用されてよい。

　図６に示すように、生成装置１は、例示的に、メモリ部１１、取得部１２、統計情報生成部１３、パラメータ決定部１４、サンプル生成部１５、妥当性判定部１６及び出力部１７を備えてよい。また、生成装置１は、機械学習部１８ａを備えてもよく、さらに、推論処理部１８ｂを備えてもよい。取得部１２、統計情報生成部１３、パラメータ決定部１４、サンプル生成部１５、妥当性判定部１６及び出力部１７（、並びに、機械学習部１８ａ及び推論処理部１８ｂ）は、制御部１９の一例である。

　メモリ部１１は、記憶領域の一例であり、生成装置１が利用する種々のデータを記憶する。メモリ部１１は、例えば、図５に示すメモリ１０ｂ及び記憶部１０ｃのうちの一方又は双方が有する記憶領域により実現されてもよい。

　図６に示すように、メモリ部１１は、例示的に、複数のデータ１１ａ、複数のツリーモデル１１ｂ、統計情報１１ｃ、パラメータ１１ｄ及び分布外データ１１ｅを記憶可能であってよい。また、生成装置１が機械学習部１８ａを備える場合、メモリ部１１は、機械学習モデル１１ｆを記憶可能であってもよい。さらに、生成装置１が推論処理部１８ｂを備える場合、メモリ部１１は、推論結果１１ｇを記憶可能であってもよい。メモリ部１１は、これらの情報を、例えば、ＤＢ（Database）、テーブル又は配列等の種々の形式で記憶してよい。

　取得部１２は、生成装置１で利用される種々の情報を取得する。例えば、取得部１２は、ユーザの端末等から分布外データの生成要求を受信してよい。

　また、取得部１２は、データを提供する装置（図示省略）から、複数のデータ１１ａと、複数のツリーモデル１１ｂを含むｉＦとを取得し、メモリ部１１に格納してよい。なお、複数のデータ１１ａは、生成要求に含まれてもよい。

　生成要求は、複数のデータ１１ａの分布外データを生成することの要求を含んでよい。また、生成要求は、例えば、分布外データの生成数（所定数）を指定してもよい。

　データ１１ａは、複数の属性の値を含むデータであり、例えば、機械学習モデルの訓練に利用される訓練データの一例である。複数の属性のそれぞれは、例えば、変数ｘ_１、ｘ_２、・・・、ｘ_ｍ（ｍは２以上の整数）に対応付けられてよい。一実施形態において、複数のデータ１１ａには、分布外データが含まれていないものとする。

　ツリーモデル１１ｂは、ツリー、例えばｉＴ（Isolation Tree）を生成するための訓練済み機械学習モデルである。ツリーモデル１１ｂは、例えば、変数及び閾値を選択し、入力される複数のデータ（ノード）を分割する処理を、入力される全データの分割が終わる（リーフノードに達する）まで繰り返すことでツリーを生成する。

　一実施形態では、複数のツリーモデル１１ｂの各々は、データの分割の手法、例えば選択する閾値が互いにランダムである一方、選択する変数は、互いに同一であるものとする。一例として、複数のツリーモデル１１ｂの各々は、データ１１ａに含まれる属性を特定する変数として、複数の変数のうちのｘ_１及びｘ_２の２つの変数の中から、閾値と比較する変数を選択するように訓練されたものとする。

　統計情報生成部１３は、複数のデータ１１ａを個々のデータ１１ａ（ノード）に分割した所定のツリーにおける、データ１１ａの分布外らしさを示す指標の統計情報１１ｃを生成し、メモリ部１１に格納する。データ１１ａの分布外らしさを示す指標としては、例えば、ｐｌ（Path Length）が用いられてよい。所定のツリーは、第１のツリーの一例である。

　統計情報１１ｃの第１の例としては、所定のツリーにおけるｐｌの平均値ｃ（ｎ）（ｎは１以上の整数）が挙げられる。例えば、統計情報生成部１３は、下記式（１）に従い、所定のツリーに含まれるデータ１１ａ（ノード）の各々のｐｌを用いてｐｌの平均値ｃ（ｎ）を算出してよい。
　　ｃ（ｎ）＝２Ｈ（ｎ－１）－（２（ｎ－１）／ｎ）　　　　　　（１）

　上記式（１）において、ｎは、ユニークなサンプル数であり、例えば所定のツリーに含まれるデータ１１ａの総数である。Ｈ（ｉ）（ｉは引数。ｉ＝ｎ－１）は、自然対数ｌｎ（ｉ）と、オイラーの定数（例えば“0.5772156649”）との和である。

　統計情報１１ｃの第２の例としては、所定のツリーにおけるｐｌの分布密度のヒストグラムが挙げられる。

　図７は、ｐｌの分布密度のヒストグラムの一例を示す図である。図７に示すように、統計情報生成部１３は、所定のツリーに含まれる複数のデータ１１ａのｐｌの値の出現頻度を集計することで、ヒストグラムを算出（生成）してよい。ｐｌの値の出現頻度としては、例えば、ｐｌの値が共通するデータ１１ａの個数、又は、データ１１ａの総数に対する、ｐｌの値が共通するデータ１１ａの割合等が挙げられる。

　なお、統計情報生成部１３は、統計情報１１ｃの第２の例の変形例として、所定のツリーに含まれる複数のデータ１１ａのｐｌの値に代えて、複数のツリーにおけるデータ１１ａごとのｐｌの値の平均値（ｉＦでの平均値）を利用してもよい。この場合、統計情報生成部１３は、データ１１ａごとに算出したｐｌの平均値を用いてヒストグラムを算出してもよい。なお、データ１１ａごとのｐｌの平均値の算出手法としては、例えば、上記式（１）が用いられてもよい。

　パラメータ決定部１４は、統計情報１１ｃに基づきパラメータ１１ｄを決定し、メモリ部１１に格納する。パラメータ１１ｄとしては、例えば、ツリーに含まれるノードの深さｄ（第１の距離）が挙げられる。

　例えば、パラメータ決定部１４は、統計情報１１ｃに基づき、所定のツリーに含まれる複数のデータ１１ａのｐｌの中からいずれかのｐｌを深さｄとして決定してよい。

　第１の例として、統計情報１１ｃが平均値ｃ（ｎ）である場合、パラメータ決定部１４は、下記式（２）に従い、深さｄを算出してよい。
　　ｄ＝ｉｎｔ（αｃ（ｎ））　　　　　　　　　　　　　　　　　（２）

　上記式（２）において、αは“0”以上“1”以下の係数である。一例として、α＝“0.5”等であってよい。また、ｉｎｔ（）は、引数を超えない最大の整数を出力する関数である。

　このように、第１の例では、パラメータ決定部１４は、平均的なｐｌの数値のα倍（小数点以下切り捨て）という、ユーザにとって理解が容易な指標を利用して、適切な深さｄを導出するのである。

　第２の例として、統計情報１１ｃがヒストグラムである場合、パラメータ決定部１４は、ヒストグラムの密度の累積点を利用して、深さｄを算出してよい。

　図８は、ｐｌの分布密度推定による深さｄの導出例を示す図である。図８に示すように、パラメータ決定部１４は、ｐｌの分布密度のヒストグラム（図７参照）における累積β％点のｐｌの値を、深さｄとして選択してよい。βは、“0”以上“100”以下の係数である。一例として、β＝“20”等であってよい。

　累積β％点のｐｌの値は、例えば、ｐｌの出現頻度の累積値がβ％に達するときのｐｌの値を意味してよい。図８の例では、パラメータ決定部１４は、値が小さいｐｌから順に、ｐｌの出現頻度を累積し、累積値がβ％に達したときのｐｌの値である“3”を深さｄとして選択する。なお、パラメータ決定部１４は、値が大きいｐｌから順に、ｐｌの出現頻度を累積し、累積値がβ％に達したときのｐｌの値を選択してもよい。

　このように、第２の例では、パラメータ決定部１４は、ｐｌの分布密度推定による累積β％点のｐｌの選択という、ユーザにとって理解が容易な指標を利用して、適切な深さｄを導出するのである。

　サンプル生成部１５は、パラメータ決定部１４が決定したパラメータ１１ｄに基づき、パラメータ１１ｄに応じたノードの定義域にサンプルを生成する。

　例えば、サンプル生成部１５は、所定の（第１の）ツリーから、パラメータ１１ｄが示す深さｄに応じたノードを選択し、選択したノードの定義域を特定してよい。定義域とは、例えば、ｐｌの値が深さｄと一致するノード（深さｄに位置するノード）の変数の範囲であってよい。一例として、選択したノードの定義域は、当該ノードの変数ｘ_１の下限値及び上限値、並びに、変数ｘ_２の下限値及び上限値により決定される範囲である。各変数の下限値及び上限値は、ツリーモデル１１ｂによる複数のデータ１１ａの分割の際に選択された閾値により特定可能である。

　そして、サンプル生成部１５は、ノードから特定した定義域の範囲内に、一様ランダムにサンプルとなる分布外データ（第１のデータ）を生成する。一例として、サンプル生成部１５は、変数ｘ_１が下限値以上且つ上限値以下であり、変数ｘ_２が下限値以上且つ上限値以下である変数ｘ_１及びｘ_２の値の組み合わせを、分布外データとして生成してよい。

　妥当性判定部１６は、サンプル生成部１５により所定のツリーを用いて生成された分布外データが妥当な分布外のデータであるか否かを判定する。

　例えば、妥当性判定部１６は、ｉＦに含まれる複数のツリーのうちの１以上の（第２の）ツリーに基づき、分布外データの妥当性を評価してよい。当該１以上のツリーは、分布外データの生成に用いられた所定の（第１の）ツリー以外のツリーである。以下、第１のツリーを「データ生成用ツリー」と表記し、１以上の第２のツリーの各々を「データ評価用ツリー」と表記する場合がある。

　図９は、データ生成用ツリーを用いて生成された分布外データの一例を示す図であり、図１０は、データ評価用ツリーにおける分布外データの一例を示す図である。

　以下、サンプル生成部１５が、図９に例示するように、閾値１４１及び軸により区切られた複数のリーフノードを含むデータ生成用ツリーにおいて、深さｄに相当するノード１４２に分布外データ１４３を生成した場合を想定する。

　妥当性判定部１６は、例えば、当該分布外データ１４３の値（変数ｘ_１及びｘ_２の値）が、データ評価用ツリーにおけるいずれの深さ（ｐｌ；第２の距離）のリーフノードに対応するかを判定する。

　一例として、妥当性判定部１６は、データ評価用ツリーにおいて分布外データ１４３が属するリーフノードのｐｌの平均値と、パラメータ１１ｄの深さｄとを比較してよい。

　図１０の例では、データ評価用ツリーは、閾値１５１及び軸により区切られた複数のリーフノードを含む。各ツリーにおけるデータ１１ａの分割のランダム性により、データ評価用ツリーの各リーフノードの定義域は、データ生成用ツリーの各リーフノードの定義域とは異なる。

　このため、データ評価用ツリーに分布外データ１４３をマッピングすると、分布外データ１４３は、データ生成用ツリー上のノード１４２とは異なる定義域のノード１５２に属することになる。

　例えば、妥当性判定部１６は、分布外データ１４３の値と、データ評価用ツリーに含まれる各ノードの定義域とを比較することで、分布外データ１４３が属するノード１５２のｐｌを取得する。例えば、妥当性判定部１６は、１以上のデータ評価用ツリーのそれぞれについて、分布外データ１４３が属するノード１５２のｐｌを取得してよい。

　そして、妥当性判定部１６は、例えば、１以上のデータ評価用ツリーからそれぞれ取得した１以上のｐｌの平均値を算出し、算出した平均値と深さｄとを比較する。例えば、妥当性判定部１６は、算出した平均値と深さｄとの差分が閾値γ以上であるか否かを判定してよい。なお、１以上のｐｌの平均値の算出手法としては、例えば、上記式（１）が用いられてもよい。閾値γは、“1”以上の整数であり、一例として“3”等の値であってよい。

　算出した平均値と深さｄとの差分が閾値γ以上である場合、データ生成用ツリーから深さｄに基づき生成された分布外データ１４３は、他のツリーにおいては不適切な深さのデータであるといえる。例えば、深さｄが平均値よりもγ以上大きい場合、分布外データ１４３は、１以上のデータ評価用ツリーにおいて分布内となる可能性が高い。また、深さｄが平均値よりもγ以上小さい場合、分布外データ１４３は、１以上のデータ評価用ツリーにおいて分布外になるものの、分布外であることが明らかであり、機械学習モデルの訓練に不適切なサンプルとなる。

　そこで、妥当性判定部１６は、算出した平均値と深さｄとの差分が閾値γ以上である場合、サンプル生成部１５により生成された分布外データが不適切なデータである（妥当ではない）と判定してよい。一方、算出した平均値と深さｄとの差分が閾値γ未満である場合、妥当性判定部１６は、サンプル生成部１５により生成された分布外データが適切（妥当）な分布外のデータであると判定し、分布外データ１１ｅとしてメモリ部１１に保存してよい。

　分布外データが不適切なデータであると判定した場合、妥当性判定部１６は、例えば、サンプル生成部１５に対して、新たな（他の）分布外データの生成を指示してよい。サンプル生成部１５は、妥当性判定部１６からの生成の指示に応じて、データ生成用ツリーに含まれる、深さｄに位置するノードを特定し、当該ノードの定義域に一様ランダムな分布外データ（第２のデータ）を生成してよい。妥当性判定部１６は、サンプル生成部１５により分布外データが生成される都度、上述した妥当性の評価を行なってよい。

　データ生成用ツリー内に、パラメータ１１ｄが示す深さｄに位置するノードが複数存在する場合、サンプル生成部１５は、第２のデータを定義域に生成するノードとして、第１のデータを定義域に生成したノードとは異なるノードを選択してもよい。

　なお、データ生成用ツリー内に、パラメータ１１ｄが示す深さｄに位置するノードが複数存在する場合、サンプル生成部１５は、当該複数のノードのそれぞれの定義域に分布外データを生成してもよい。この場合、妥当性判定部１６は、サンプル生成部１５が生成した複数の分布外データのそれぞれに対して上述した妥当性の評価を行なってもよい。

　出力部１７は、出力データを出力する。出力データの一例としては、例えば、妥当性判定部１６により適切（妥当）であると判定された分布外データ１１ｅが挙げられる。また、出力データは、分布外データ１１ｅに加えて、複数のデータ１１ａを含んでもよい。さらに、出力データは、後述する機械学習モデル１１ｆ及び推論結果１１ｇの一方又は双方を含んでもよい。

　出力部１７は、出力データの「出力」において、例えば、出力データを図示しない他のコンピュータに送信（提供）してもよいし、出力データをメモリ部１１に蓄積して、生成装置１又は他のコンピュータから取得可能に管理してもよい。或いは、出力部１７は、出力データの「出力」において、出力データを示す情報を生成装置１等の出力装置に画面出力してもよく、その他の種々の態様により出力データを出力してよい。

　上述のように、生成装置１は、機械学習部１８ａを備えてもよく、さらに、推論処理部１８ｂを備えてもよい。

　機械学習部１８ａは、機械学習フェーズにおいて、複数のデータ１１ａと分布外データ１１ｅとを含む訓練データに基づいて、機械学習モデル１１ｆを訓練する機械学習処理を実行する。機械学習モデル１１ｆは、機械学習済パラメータを含むＮＮ（Neural Network）モデルであってよい。機械学習処理は、既知の種々の手法により実現されてよい。例えば、機械学習部１８ａは、擬似的に生成した分布外データ１１ｅを機械学習モデル１１ｆの訓練に用いることで、分布外データ１１ｅが「分布外のデータである」ことを機械学習モデル１１ｆに学習させることができる。

　推論処理部１８ｂは、推論フェーズにおいて、分布外データ１１ｅに基づき訓練された機械学習モデル１１ｆを用いて、推論処理を行なう。例えば、推論処理部１８ｂは、機械学習モデル１１ｆに推論処理の対象データ（図示省略）を入力し、機械学習モデル１１ｆから出力された推論結果１１ｇをメモリ部１１に格納する。

　〔１－３〕動作例
　次に、一実施形態に係る生成装置１の動作例を説明する。図１１は、一実施形態に係る生成装置１の動作例を説明するフローチャートである。なお、生成装置１は、訓練済みのｉＦ（複数のツリーモデル１１ｂ）を予めメモリ部１１に保持しているものとする。

　図１１に例示するように、生成装置１の取得部１２は、分布外データ１１ｅの生成要求を受信する。また、取得部１２は、複数のデータ１１ａを取得する（ステップＳ１）。

　統計情報生成部１３は、複数のデータ１１ａのデータセットを複数のツリーモデル１１ｂのそれぞれに入力し、複数のツリー（ｉＴ）を生成する（ステップＳ２）。

　統計情報生成部１３は、生成した複数のツリーのうちの１つをデータ生成用ツリーとして選択し、データ生成用ツリーに基づき統計情報１１ｃを生成する（ステップＳ３）。

　パラメータ決定部１４は、統計情報１１ｃに基づき、データ生成用ツリーにおけるノードの深さｄをパラメータ１１ｄとして算出する（ステップＳ４）。

　サンプル生成部１５は、データ生成用ツリーにおける深さｄのノードの定義域に、一様ランダムにサンプル（分布外データ１１ｅ）を生成する（ステップＳ５）。

　妥当性判定部１６は、複数のツリーのうちの、データ生成用ツリー以外の１以上のデータ評価用ツリーのそれぞれにおいて、ステップＳ５で生成されたサンプルが属するノードの深さｐｌを取得し、当該ツリー間の深さｐｌの平均値を算出する（ステップＳ６）。

　妥当性判定部１６は、深さｄと、算出したｐｌの平均値との差分の絶対値が、閾値γ以上か否かを判定する（ステップＳ７）。

　差分の絶対値が閾値γ以上である場合（ステップＳ７でＹＥＳ）、妥当性判定部１６は、ステップＳ５で生成されたサンプルを破棄し（ステップＳ８）、処理がステップＳ５に移行する。この場合、ステップＳ５では、サンプル生成部１５は、データ生成用ツリーにおける深さｄのノードの定義域に、一様ランダムにサンプル（分布外データ１１ｅ）を生成する。データ生成用ツリーに深さｄのノードが複数存在する場合、サンプル生成部１５は、以前にサンプルを生成したノードとは異なるノードを選択してもよい。

　ステップＳ７において、差分の絶対値が閾値γ未満である場合（ステップＳ７でＮＯ）、妥当性判定部１６は、ステップＳ５で生成されたサンプルを分布外データ１１ｅとしてメモリ部１１に保存する（ステップＳ９）。

　そして、妥当性判定部１６は、分布外データ１１ｅの数が、所定数、例えば生成要求で指定された生成数に達したか否かを判定する（ステップＳ１０）。分布外データ１１ｅの数が所定数に達していない場合（ステップＳ１０でＮＯ）、処理がステップＳ５に移行する。

　分布外データ１１ｅの数が所定数に達した場合（ステップＳ１０でＹＥＳ）、処理がステップＳ１１に移行する。

　ステップＳ１１では、出力部１７は、生成された分布外データ１１ｅを出力し、処理が終了する。

　〔１－４〕一実施形態の効果
　一実施形態に係る生成装置１では、制御部１９は、データ生成用ツリーに基づき、複数のリーフノードのうちのいずれかのリーフノードの定義域にサンプル（分布外データ）を生成する。また、制御部１９は、データ生成用ツリーにおけるサンプルのｐｌ（深さｄ）と、１以上のデータ評価用ツリーの各々における、サンプルを定義域に含むノードの１以上のｐｌと、に基づき、サンプルが複数のデータ１１ａの分布外のデータであることの妥当性を判定する。

　これにより、生成装置１は、データ生成用ツリーにおいて深さｄで生成されたサンプルが、データ評価用ツリーにおいて、尤もらしく深さｄのデータであることを保証することができる。従って、生成装置１による分布外データの生成効率を向上させることができる。

　また、一実施形態に係る生成装置１では、制御部１９は、データ生成用ツリーのルートノードから複数のリーフノードまでの複数の距離（ｐｌ）の統計情報１１ｃに基づき、複数の距離のうちの深さｄを選択する。

　これにより、生成装置１は、分布外データ１１ｅの生成に用いるノードの適切な深さｄを導出することができる。従って、生成装置１による分布外データの生成効率を向上させることができる。

　さらに、一実施形態では、分布外データ１１ｅの生成にｉＦを用いてよい。ｉＦは、種々の表形式データに適用可能である。また、ツリー系のアルゴリズムは、データの前処理、例えば名義変数のエンコード処理、正規化処理等が不要である。このため、カーネル密度推定等の他の密度推定手法よりも、分布外データ１１ｅの生成手法を適用可能なデータの種類を拡張することができる。

　〔２〕その他
　上述した一実施形態に係る技術は、以下のように変形、変更して実施することができる。

　例えば、図６に示す生成装置１が備える取得部１２、統計情報生成部１３、パラメータ決定部１４、サンプル生成部１５、妥当性判定部１６及び出力部１７（並びに機械学習部１８ａ及び推論処理部１８ｂ）は、任意の組み合わせで併合してもよく、それぞれ分割してもよい。

　また、図６に示す生成装置１は、複数の装置がネットワークを介して互いに連携することにより、各処理機能を実現する構成（システム）であってもよい。一例として、メモリ部１１はＤＢサーバ、取得部１２及び出力部１７はＷｅｂサーバ又はアプリケーションサーバ、統計情報生成部１３、パラメータ決定部１４、サンプル生成部１５、妥当性判定部１６、機械学習部１８ａ及び推論処理部１８ｂはアプリケーションサーバ等であってもよい。この場合、ＤＢサーバ、アプリケーションサーバ及びｗｅｂサーバが、ネットワークを介して互いに連携することにより、生成装置１としての各処理機能を実現してもよい。

　１　　生成装置
　１０　　コンピュータ
　１１　　メモリ部
　１１ａ　　データ
　１１ｂ　　ツリーモデル
　１１ｃ　　統計情報
　１１ｄ　　パラメータ
　１１ｅ　　分布外データ
　１１ｆ　　機械学習モデル
　１１ｇ　　推論結果
　１２　　取得部
　１３　　統計情報生成部
　１４　　パラメータ決定部
　１５　　サンプル生成部
　１６　　妥当性判定部
　１７　　出力部
　１８ａ　　機械学習部
　１８ｂ　　推論処理部
　１９　　制御部

Claims

　ルートノードに属する複数のデータをランダムな閾値により前記ルートノードよりも下位のノードに階層的に分類する複数のツリーであって、複数の前記ノードのうちのリーフノードに分類されるデータ数が基準値以下である前記複数のツリーのうちの第１のツリーに基づき、複数の前記リーフノードのうちのいずれかのリーフノードの定義域に第１のデータを生成し、
　前記ルートノードから前記第１のデータが生成されたリーフノードまでの第１の距離と、前記複数のツリーのうちの前記第１のツリーとは異なる１以上の第２のツリーの各々における、前記第２のツリーのルートノードから前記第１のデータを定義域に含む前記第２のツリーのノードまでの１以上の第２の距離と、に基づき、前記第１のデータが前記複数のデータの分布外のデータであることの妥当性を判定する、
処理をコンピュータが実行する、生成方法。
　前記妥当性を判定する処理は、前記第１の距離と、前記１以上の第２の距離の平均値との差分が閾値未満である場合、前記第１のデータが前記分布外のデータであることが妥当であると判定し、前記差分が閾値以上である場合、前記第１のデータが前記分布外のデータであることが妥当ではないと判定する処理を含む、
請求項１に記載の生成方法。
　前記妥当性を判定する処理において、前記第１のデータが前記分布外のデータであることが妥当ではないと判定した場合、前記第１のツリーの前記第１の距離に応じたリーフノードの定義域に、前記第１のデータとは異なる第２のデータを生成し、
　前記第２のデータが前記複数のデータの分布外のデータであることの妥当性を判定する、
処理を前記コンピュータが実行する、請求項１又は請求項２に記載の生成方法。
　前記第１のツリーのルートノードから前記第１のツリーの前記複数のリーフノードまでの複数の距離の統計情報に基づき、前記複数の距離のうちの前記第１の距離を選択する、
処理を前記コンピュータが実行する、請求項１～請求項３のいずれか１項に記載の生成方法。
　前記統計情報は、前記第１のツリーにおける前記複数の距離の平均値であり、
　前記第１の距離を選択する処理は、前記複数の距離の平均値に基づき前記第１の距離を算出する処理を含む、
請求項４に記載の生成方法。
　前記統計情報は、前記第１のツリーにおける前記複数の距離の分布密度のヒストグラムであり、
　前記第１の距離を選択する処理は、前記ヒストグラムにおける距離の出現頻度の累積値が所定の値に達したときの出現頻度に対応する距離を前記第１の距離とする処理を含む、
請求項４に記載の生成方法。
　ルートノードに属する複数のデータをランダムな閾値により前記ルートノードよりも下位のノードに階層的に分類する複数のツリーであって、複数の前記ノードのうちのリーフノードに分類されるデータ数が基準値以下である前記複数のツリーのうちの第１のツリーに基づき、複数の前記リーフノードのうちのいずれかのリーフノードの定義域に第１のデータを生成し、
　前記ルートノードから前記第１のデータが生成されたリーフノードまでの第１の距離と、前記複数のツリーのうちの前記第１のツリーとは異なる１以上の第２のツリーの各々における、前記第２のツリーのルートノードから前記第１のデータを定義域に含む前記第２のツリーのノードまでの１以上の第２の距離と、に基づき、前記第１のデータが前記複数のデータの分布外のデータであることの妥当性を判定する、
処理をコンピュータに実行させる、生成プログラム。
　前記妥当性を判定する処理は、前記第１の距離と、前記１以上の第２の距離の平均値との差分が閾値未満である場合、前記第１のデータが前記分布外のデータであることが妥当であると判定し、前記差分が閾値以上である場合、前記第１のデータが前記分布外のデータであることが妥当ではないと判定する処理を含む、
請求項７に記載の生成プログラム。
　前記妥当性を判定する処理において、前記第１のデータが前記分布外のデータであることが妥当ではないと判定した場合、前記第１のツリーの前記第１の距離に応じたリーフノードの定義域に、前記第１のデータとは異なる第２のデータを生成し、
　前記第２のデータが前記複数のデータの分布外のデータであることの妥当性を判定する、
処理を前記コンピュータに実行させる、請求項７又は請求項８に記載の生成プログラム。
　前記第１のツリーのルートノードから前記第１のツリーの前記複数のリーフノードまでの複数の距離の統計情報に基づき、前記複数の距離のうちの前記第１の距離を選択する、
処理を前記コンピュータに実行させる、請求項７～請求項９のいずれか１項に記載の生成プログラム。
　前記統計情報は、前記第１のツリーにおける前記複数の距離の平均値であり、
　前記第１の距離を選択する処理は、前記複数の距離の平均値に基づき前記第１の距離を算出する処理を含む、
請求項１０に記載の生成プログラム。
　前記統計情報は、前記第１のツリーにおける前記複数の距離の分布密度のヒストグラムであり、
　前記第１の距離を選択する処理は、前記ヒストグラムにおける距離の出現頻度の累積値が所定の値に達したときの出現頻度に対応する距離を前記第１の距離とする処理を含む、
請求項１０に記載の生成プログラム。
　ルートノードに属する複数のデータをランダムな閾値により前記ルートノードよりも下位のノードに階層的に分類する複数のツリーであって、複数の前記ノードのうちのリーフノードに分類されるデータ数が基準値以下である前記複数のツリーのうちの第１のツリーに基づき、複数の前記リーフノードのうちのいずれかのリーフノードの定義域に第１のデータを生成し、
　前記ルートノードから前記第１のデータが生成されたリーフノードまでの第１の距離と、前記複数のツリーのうちの前記第１のツリーとは異なる１以上の第２のツリーの各々における、前記第２のツリーのルートノードから前記第１のデータを定義域に含む前記第２のツリーのノードまでの１以上の第２の距離と、に基づき、前記第１のデータが前記複数のデータの分布外のデータであることの妥当性を判定する、
制御部を備える、情報処理装置。
　前記制御部は、前記妥当性を判定する処理において、前記第１の距離と、前記１以上の第２の距離の平均値との差分が閾値未満である場合、前記第１のデータが前記分布外のデータであることが妥当であると判定し、前記差分が閾値以上である場合、前記第１のデータが前記分布外のデータであることが妥当ではないと判定する、
請求項１３に記載の情報処理装置。
　前記制御部は、
　前記妥当性を判定する処理において、前記第１のデータが前記分布外のデータであることが妥当ではないと判定した場合、前記第１のツリーの前記第１の距離に応じたリーフノードの定義域に、前記第１のデータとは異なる第２のデータを生成し、
　前記第２のデータが前記複数のデータの分布外のデータであることの妥当性を判定する、
請求項１３又は請求項１４に記載の情報処理装置。
　前記制御部は、前記第１のツリーのルートノードから前記第１のツリーの前記複数のリーフノードまでの複数の距離の統計情報に基づき、前記複数の距離のうちの前記第１の距離を選択する、
請求項１３～請求項１５のいずれか１項に記載の情報処理装置。
　前記統計情報は、前記第１のツリーにおける前記複数の距離の平均値であり、
　前記制御部は、前記第１の距離を選択する処理において、前記複数の距離の平均値に基づき前記第１の距離を算出する、
請求項１６に記載の情報処理装置。
　前記統計情報は、前記第１のツリーにおける前記複数の距離の分布密度のヒストグラムであり、
　前記制御部は、前記第１の距離を選択する処理において、前記ヒストグラムにおける距離の出現頻度の累積値が所定の値に達したときの出現頻度に対応する距離を前記第１の距離とする、
請求項１６に記載の情報処理装置。