WO2022190221A1

WO2022190221A1 - データ解析装置、データ解析方法、及びプログラム

Info

Publication number: WO2022190221A1
Application number: PCT/JP2021/009379
Authority: WO
Inventors: 允裕中野; 昭悟木村; 武士山田; 修功上田
Original assignee: 日本電信電話株式会社
Priority date: 2021-03-09
Filing date: 2021-03-09
Publication date: 2022-09-15

Abstract

ノンパラメトリックベイズ法により、観測された関係データに対する長方形分割クラスタリングを行うデータ解析装置であって、第１確率分布から得られる確率変数である第１パラメータから順列を生成し、当該順列に基づいて、第２確率分布から得られる確率変数である第２パラメータを用いて長方形分割を生成する変換部と、前記関係データが観測された下での事後確率に基づいて、前記第１パラメータと前記第２パラメータを含むパラメータを更新する更新部とを備える。

Description

データ解析装置、データ解析方法、及びプログラム

　本発明は、ノンパラメトリックベイズ法により、関係データのクラスタリングを行う技術に関連するものである。

　以下、背景技術として、（ａ）ベイズ推論、（ｂ）ノンパラメトリックベイズ法、（ｃ）ネットワーク・関係データ解析、（ｅ）順列について説明する。

　（ａ）ベイズ推定
　ベイズ推定は、パラメータを持つ確率モデル（ベイズモデルとも呼ぶ）を人手で設計して、それを入力観測データにフィッティングさせ（学習させ）ることで、入力観測データを条件付けた時のパラメータの事後確率分布を得ることによってデータ解析を行う技術である。ベイズ推定は、数十年単位の歴史のある概念であり、「統計的機械学習」と近い程度に非常に広い考え方である。

　（ｂ）ノンパラメトリックベイズ法
　ノンパラメトリックベイズ法は、（ａ）で説明したベイズ推論の部分概念であり、（ａ）に加えて、確率モデルが無限次元のパラメータ空間を持つときに、それらをノンパラメトリックベイズモデルと呼び、ノンパラメトリックベイズモデルを用いてベイズ推論を行う技術のことをノンパラメトリックベイズ法と呼ぶ。２０００年初頭に興った研究領域であり、「ノンパラメトリックベイズモデル」は通常のベイズモデルよりも遥かに希少である。実用・応用におけるノンパラメトリックベイズ法の恩恵は、本質的にモデル選択・モデル複雑度のチューニング問題から解放されることにある。つまり、もともと無限次元のパラメータを持つため、その次元の調整が不要となる。

　（ｃ）ネットワーク・関係データ解析
　広く一般のネットワーク・関係データ解析は最近特に需要が高まっている。これらは特に「多次元配列の解析」という文脈で、標準的な「一次元配列の解析」とは区別されて論じられることが多く、これはネットワークや関係データが一般に行列（二次元配列）の形で表現されることが多いことに由来する。ネットワークはノードごとの繋がりを各要素として「行：ノード集合、列：ノード集合」の行列と表せる。また、関係データも例えば購買データなどは「行：ユーザ集合、列：商品集合」のようにして行列として表せる。機械学習技術は広く「クラスタリング（分類）」「因子分析」「回帰」の３つに分けることが出来るが、ネットワーク・関係データ解析においてもこれら３つの技術が広く研究されている。

　（ｄ）ネットワーク・関係データの長方形分割クラスタリング
　ネットワーク・関係データ解析を広く「クラスタリング（分類）」「因子分析」「回帰」に細分化したとき、その「クラスタリング（分類）」の中で、特に「全てのクラスタが長方形になるようにクラスタリング」する技術のことを長方形分割クラスタリングと呼ぶ。これは（ｃ）の小さな部分概念ではあるものの、研究領域の意味では（その基礎性、他への拡張性の高さもあって）非常に人気がある。
（ｅ）順列
　順列は、自然数の集合の並べ替えである。例えば｛１，２，３，４｝のすべての順列は、１２３４，１２４３，１３２４，１３４２，１４２３，１４３２，２１３４，２１４３，２３１４，２３４１，２４１３，２４３１，３１２４，３１４２，３２１４，３２４１，３４１２，３４２１，４１２３，４１３２，４２１３，４２３１，４３１２，４３２１の２４通りである。また、順列の中から特別な条件を満たすものだけに注目して、それらに特別な名前を付けられることもある。例えば、先述の｛１，２，３，４｝の順列の中から、３１４２，２４１３の二つを除いた２２通りのものは「長さ４のＢａｘｔｅｒ順列」と呼ばれる。ほかにも、ｓｅｐａｒａｂｌｅ順列、ｋ－ｃｌｕｍｐｅｄ順列、などその重要性から個別に研究対象となっている順列クラスが存在する。

[Kemp+, 2006] Kemp, C., Tenenbaum, J.B., Griffiths, T.L., Yamada, T., Ueda, N.: Learning systems of concepts with an infinite relational model. In: AAAI Conference on Artificial Intelligence. pp. 381-388 (2006) [Roy&Teh, 2009] Roy, D.M., Teh, Y.W.: The Mondrian process. In: Advances in Neural Information Processing Systems (2009) [Nakano+, 2014] Nakano, M., Ishiguro, K., Kimura, A., Yamada, T., Ueda, N.: Rectangular tiling process. In: Proceedings of the 31st International Conference on Machine Learning.Proceedings of Machine Learning Research, vol. 32, pp. 361-369 (2014)

　ネットワーク・関係データの長方形分割クラスタリングに対するノンパラメトリックベイズ法、つまり、（ｂ）と（ｄ）の同時実現についての従来技術がある。しかし、従来技術には、以下のような課題１、２がある。

　（課題１）
　課題１は、解（長方形分割クラスタリング結果）候補が制限されてしまうということである。従来技術では、任意の長方形分割上のノンパラメトリックベイズモデルを諦めて、表現しうる長方形分割のクラスを制限することでノンパラメトリックベイズモデルを構成し、それを用いてベイズ推論を行うことでノンパラメトリックベイズ法を実現しなければならなかった。

　例えば、非特許文献１［Ｋｅｍｐ＋，２００６］ではｒｅｇｕｌａｒ　ｇｒｉｄと呼ばれるクラスに対して、非特許文献２［Ｒｏｙ＆Ｔｅｈ，　２００９］ではｈｉｅｒａｒｃｈｉｃａｌと呼ばれるクラスに対してノンパラメトリックベイズモデルの構成・ノンパラメトリックベイズ法によるネットワーク・関係データの長方形分割クラスタリングを実現している。

　しかし、これらの手法は、表現しうる長方形分割のクラスを制限してしまったことにより、本来解析結果として望ましい長方形分割クラスタリング結果が制限された長方形分割クラスに属さないときには、そのような結果を得ることが出来なくなってしまっていた。

　（課題２）
　課題２は、モデルに対する有効な推論アルゴリズム（モデルフィッティングアルゴリズム）の構成が困難になってしまうということである。

　上記課題１の解消のため（つまり長方形分割クラスが制限される事のないノンパラメトリックベイズモデルの実現のため）、非特許文献３［Ｎａｋａｎｏ＋２０１４］では任意の長方形分割上のノンパラメトリックベイズモデルの構成に成功している。

　しかし、このノンパラメトリックベイズモデルは複雑なモデル構成をしていたためにそれを入力観測データに対してフィッティングするベイズ推論アルゴリズムの構成が難しいものとなり、結果として実応用（ネットワーク・関係データ解析）用途には不向きなものとなってしまっていた。

　本発明は上記の点に鑑みてなされたものであり、ノンパラメトリックベイズ法により、関係データのクラスタリングを行う技術において、解の候補を制限せずに、効率的にベイズ推論を行うことを可能とする技術を提供することを目的とする。

　開示の技術によれば、ノンパラメトリックベイズ法により、観測された関係データに対する長方形分割クラスタリングを行うデータ解析装置であって、
　第１確率分布から得られる確率変数である第１パラメータから順列を生成し、当該順列に基づいて、第２確率分布から得られる確率変数である第２パラメータを用いて長方形分割を生成する変換部と、
　前記関係データが観測された下での事後確率に基づいて、前記第１パラメータと前記第２パラメータを含むパラメータを更新する更新部と
　を備えるデータ解析装置が提供される。

　開示の技術によれば、ノンパラメトリックベイズ法により、関係データのクラスタリングを行う技術において、解の候補を制限せずに、効率的にベイズ推論を行うことを可能とする技術が提供される。

本発明の実施の形態における行列データ解析装置の構成図である。ＲＰを説明するための図である。見取り図の例を示す図である。ＵからＢＰへの変換を説明するための図である。ＢＰからＦＰへの変換のアルゴリズムを示す図である。ＢＰからＦＰへの変換を説明するための図である。ＦＰの進化を示す図である。ＦＰの進化を示す図である。ＦＰからＲＰへの変換を説明するための図である。学習の様子を示す図である。装置のハードウェア構成例を示す図である。

　以下、図面を参照して本発明の実施の形態（本実施の形態）を説明する。以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下の実施の形態に限られるわけではない。

　例えば、本実施の形態では、順列としてＢａｘｔｅｒ順列を用いているが、適用可能な順列はＢａｘｔｅｒ順列に限られない。例えば、ｓｅｐａｒａｂｌｅ順列を使用してもよい。また、以下の説明では、確率分布として、一様分布、ベータ分布、ディリクレ分布、カテゴリカル分布などを使用しているが、以下の説明で使用する分布に限定されるわけではなく、それぞれ、他の分布を使用してもよい。

　（実施の形態の概要）
　長方形分割と見取り図分割との間には全射の関係があり、見取り図分割とＢａｘｔｅｒ順列との間には全単射の関係があることが知られている。本実施の形態では、これらの関係を利用して、任意の長方形分割上のノンパラメトリックベイズモデルを、Ｂａｘｔｅｒ順列を用いて表すこととしている。具体的には、下記のとおりである。

　・任意の長さの任意のＢａｘｔｅｒ順列上のノンパラメトリックベイズモデルの構成を実現している。見取り図分割とＢａｘｔｅｒ順列との間の全単射（一対一対応）を利用することにより、このノンパラメトリックベイズモデルは、任意の見取り図分割上のノンパラメトリックベイズモデルとしての役割も果たす。

　・見取り図分割を長方形分割に変換（つまり、長方形分割と見取り図分割の間の全射の逆向きの操作）する確率的アルゴリズムを実現し、その結果、任意の長方形分割上のノンパラメトリックベイズモデルを実現している。これにより課題１が解消される。

　・新しい任意の長方形分割上のノンパラメトリックベイズモデルは、長方形分割を直接用いたベイズ推論ではなく、背後にあるＢａｘｔｅｒ順列を介したベイズ推論アルゴリズムを導出することができるために、効率的なベイズ推論アルゴリズムを実現することができる。これにより課題２が解消される。

　（装置構成）
　本実施の形態における行列データ解析装置１００の構成例を図１に示す。図１に示すように、本実施の形態に係る行列データ解析装置１００は、ＢＰ－ＦＰ変換部１１０、ＦＰ－ＲＰ変換部１２０、パラメータ更新部１３０、反復計算終了判定部１４０、事後確率分布計算部１５０を有する。なお、行列データ解析装置１００をデータ解析装置と呼んでもよい。また、「ＢＰ－ＦＰ変換部１１０＋ＦＰ－ＲＰ変換部１２０」を変換部と呼んでもよい。ＢＰ－ＦＰ変換部１１０、ＦＰ－ＲＰ変換部１２０をそれぞれ第１変換部、第２変換部と呼んでもよい。また、事後確率分布計算部１５０に、計算結果となる長方形分割クラスタ等を出力する出力部が含まれていてもよい。

　ＢＰは、Ｂａｘｔｅｒ　Ｐｅｒｍｕｔａｔｉｏｎ（Ｂａｘｔｅｒ順列）の略であり、ＦＰは、Ｆｌｏｏｒｐｌａｎ　ｐａｒｔｉｔｉｏｎｉｎｇ（見取り図分割）、ＲＰは、Ｒｅｃｔａｎｇｕｌａｒ　ｐａｒｔｉｔｉｏｎｉｎｇ（長方形分割）の略である。

　ＢＰ－ＦＰ変換部１１０は、確率変数列からＢａｘｔｅｒ順列を生成し、生成したＢａｘｔｅｒ順列から見取り図分割への変換を行う。ＦＰ－ＲＰ変換部１２０は、見取り図分割から長方形分割への変換を行う。パラメータ更新部１３０は、パラメータ（確率変数）の更新を行う。反復計算終了判定部１４０は、反復計算の終了判定を行う。事後確率分布計算部１５０は、パラメータ（確率変数）の事後確率分布を計算する。

　各部の詳細処理内容については後述するが、その前に、本実施の形態において用いている長方形分割、見取り図分割、Ｂａｘｔｅｒ順列の概要を説明する。以降、Ｂａｘｔｅｒ順列、長方形分割、見取り図分割、ベイジアンノンパラメトリックについて、それぞれＢＰ、ＲＰ、ＦＰ、ＢＮＰと表記する場合がある。また、添字付きの確率変数の表記において、下付きの下付きの文字を表現する場合、"＿"を使用する。例えば、Ｕ_ｘ＿２は、Ｕの下付きの添字がｘ_２であることを意図している。

　（ＲＰ、ＦＰ、ＢＰの概要）
　本実施において、ＲＰは、全てのブロックが、［０，１］×［０，１］の長方形クラスタを形成するような［０，１］×［０，１］の分割と見なすことができる。図２に、ＡＨＫ（Aldous-Hoover-Kallenberg）表現によるＲＰの例を示す。図２において、関係データの観測結果が、｛１，…，Ｎ｝によりインデックス付けされる行と｛１，…，Ｍ｝によりインデックス付けされる列からなると考える。

　ＲＰに対するＢＮＰモデルに関して、関係データの生成確率モデルは、下記のようにして容易に生成することができる。

　まず、ＢＮＰモデルに基づいてＲＰサンプルを抽出する。そして、下記のように一様分布から確率変数Ｕ_ｉ ^ｒｏｗ、Ｕ_ｊ ^{ｃｏｌｕｍｎ}を抽出する。

　Ｕ_ｉ ^ｒｏｗ～Ｕｎｉｆｏｒｍ（［０，１］）　（ｉ＝１，２，…Ｎ），
　Ｕ_ｊ ^{ｃｏｌｕｍｎ}～Ｕｎｉｆｏｒｍ（［０，１］）　（ｊ＝１，２，…Ｍ）
　行のインデックスｉ及び列のインデックスｊを持つ点（Ｕ_ｉ ^ｒｏｗ，Ｕ_ｊ ^{ｃｏｌｕｍｎ}）が属する［０，１］×［０，１］上のブロックにより、各要素のクラスタ割り当てが特定される。

　次に、ＦＰの概要を説明する。図３にＦＰの例を示す。ＦＰでは、部屋に相当する各長方形ブロックはサイズを持たない。つまり、図３に示す３つのＦＰは、ＦＰとしては同一である。

　ＦＰのサンプルｆにおいて、セグメントｓが部屋（ブロック）ｒの辺のうちの１つを含む場合、セグメントｓは部屋ｒをサポートするという。ｓとｒとの間には、ｔｏｐ－ｓｅｇ－ｒｏｏｍ関係、ｌｅｆｔ－ｓｅｇ－ｒｏｏｍ関係、ｒｉｇｈｔ－ｓｅｇ－ｒｏｏｍ関係、又はｂｏｔｔｏｍ－ｓｅｇ－ｒｏｏｍ関係がある。２つにＦＰ間において、同じｓｅｇ－ｒｏｏｍ関係を持つように部屋とセグメントのラベルが付されている場合、これら２つのＦＰは等価である。

　次に、Ｂａｘｔｅｒ順列（ＢＰ）について説明する。｛１，２，…，ｎ｝（ｎ∈Ｎ）上のＢａｘｔｅｒ順列は、σ_ｊ＜σ_ｋ＜σ_ｉ＜σ_ｊ＋１又はσ_ｊ＋１＜σ_ｉ＜σ_ｋ＜σ_ｊを満たす４個のインデックスｉ＜ｊ＜ｊ＋１＜ｋが存在しないような順列π＝（σ_１σ_２…σ_ｎ）である。

　例えば、π＝（σ_１σ_２…σ_ｎ）＝６１８３２５４７はＢａｘｔｅｒ順列ではない。σ_４＝３＜σ_１＝６＜σ_８＝７＜σ_３＝８となる４個のインデックス１＜３＜４＜８を含むからである。

　（ノンパラメトリックベイズモデル）
　本実施の形態では、観測される関係データが生成確率モデル（ノンパラメトリックベイズモデル）から生成されると仮定し、当該関係データが観測された下での当該ノンパラメトリックベイズモデルに基づく事後確率を最大にするようなパラメータ（長方形分割クラスタ）を推定する。

　ノンパラメトリックベイズ推論に用いるノンパラメトリックベイズモデルを以下で説明する。

　本実施の形態におけるノンパラメトリックベイズモデルは、関係データ解析において使用する関係モデルであり、後述するＢＢＰ（板割り過程）ベースの関係モデルである。

　ＢＢＰベースの関係モデルは、入力行列Ｘ：＝（Ｘ_ｉ，ｊ）_Ｎ×Ｍに対して適用される。Ｘは行列データ解析装置１００に入力される観測データである。ノンパラメトリックベイズモデルにおいてＸはカテゴリカル要素からなるものと想定する。つまり、Ｘ_ｉ，ｊ∈｛１，２，…，Ｈ｝，Ｈ∈Ｎであるとする。

　ＢＢＰは、下記のとおり、［０，１］上の一様分布確率変数列Ｕ：＝（Ｕ_１，Ｕ_２…）、及びベータ分布確率変数列β：＝（β_１，β_２，…）からなる。

　Ｕ_ｋ～Ｕｎｉｆｏｒｍ（［０，１］）、β_ｋ～Ｂｅｔａ（１，α）（ｋ＝１，２，…）
ここで、αは、非負ハイパーパラメータである。便宜上、Ｕ_ｋ＝（Ｕ_１，Ｕ_２…，Ｕ_ｋ）、β_ｋ＝（β_１，β_２，…，β_ｋ）という表記も使用する。

　これらの確率変数は、［０，１］×［０，１］における長方形分割のサンプルに対応する。ｋ番目のブロックは、下記のように、潜在ディリクレ分布確率変数φ_ｋを有する。

　φ_ｋ～Ｄｉｒｉｃｈｌｅｔ（α_０）　（ｋ＝１，２，…）
ここで、α_０＝（α_０，…，α_０）は、Ｈ次元非負ハイパーパラメータである。ＡＨＫ表現に従って、入力行列における各行と列は、下記のとおり、一様分布から［０，１］にマッピングされる。

　Ｕ_ｊ ^ｒｏｗ～Ｕｎｉｆｏｒｍ（［０，１］）　（ｉ＝１，２，…，Ｎ），
　Ｕ_ｊ ^{ｃｏｌｕｍｎ}～Ｕｎｉｆｏｒｍ（［０，１］）　（ｊ＝１，２，…，Ｍ）
　最後に、行の位置Ｕ^ｒｏｗ：＝（Ｕ_１ ^ｒｏｗ，…，Ｕ_Ｎ ^ｒｏｗ）、列の位置Ｕ^{ｃｏｌｕｍｎ}：＝（Ｕ_１ ^{ｃｏｌｕｍｎ}，…，Ｕ_Ｍ ^{ｃｏｌｕｍｎ}）、及び、Ｕ＝（Ｕ_１，Ｕ_２…）、β＝（β_１，β_２，…）、（φ_１，φ_２，…）からなるＢＢＰパラメータが与えられると、入力行列における各要素Ｘ_ｉ，ｊがＨ次元カテゴリカル分布から抽出される。

　Ｘ_ｉ，ｊ｜Ｕ^ｒｏｗ，Ｕ^{ｃｏｌｕｍｎ}，Ｕ，β，φ_{ｋ（ｉ，ｊ）}～Ｃａｔｅｇｏｒｉｃａｌ（φ_{ｋ（ｉ，ｊ）}）
　ここで、ｋ（ｉ，ｊ）は、点（Ｕ_ｊ ^ｒｏｗ，Ｕ_ｊ ^{ｃｏｌｕｍｎ}）が属するブロックインデックスを示す。

　本実施の形態では、上記のモデルを入力データＸにフィッティングさせるベイズ推論として、最も標準的な方法であるマルコフ連鎖モンテカルロ法（ＭＣＭＣ）を使用している。図１に示した行列データ解析装置１００は、ＭＣＭＣを実行するように構成されている。以下、行列データ解析装置１００における各部の動作を詳細に説明する。

　（ＢＰ－ＦＰ変換部１１０）
　まず、ＢＰ－ＦＰ変換部１１０の動作を説明する。ＢＰ－ＦＰ変換部１１０は、Ｂａｘｔｅｒ順列（に対応する一様分布確率変数列）から見取り図分割への変換を行う。より具体的には、ＢＰ－ＦＰ変換部１１０は、確率変数列Ｕを入力して、それをある一つのＢａｘｔｅｒ順列へ変換し、それをさらに対応する見取り図分割に一意に変換し、出力する。

　以下、上記の処理の前半（確率変数列ＵからＢａｘｔｅｒ順列への変換）と後半（Ｂａｘｔｅｒ順列から見取り図分割への変換）のそれぞれについて説明する。

　　＜前半（確率変数列ＵからＢａｘｔｅｒ順列への変換）＞
　まず、確率変数列ＵからＢａｘｔｅｒ順列（ＢＰ）への変換について説明する。ＢＰには、次の命題１、２が成り立つことが知られている。

　命題１：π＝（σ_１σ_２…σ_ｎ）が｛１，…，ｎ｝上のＢＰであり、当該ＢＰから最大のラベルσ_ｉ＝ｎを除いた場合、その結果はＢＰである。

　命題２：｛１，…，ｎ－１｝上のＢＰに対して、数字ｎを挿入して｛１，…ｎ｝上のＢＰを作ることを考える。このとき、追加が許される位置はＢａｘｔｅｒ順列におけるｌｅｆｔ－ｔｏ－ｒｉｇｈｔ　ｍａｘｉｍａのすぐ左隣、またはｒｉｇｈｔ－ｔｏ－ｌｅｆｔ　ｍａｘｉｍａのすぐ右隣に限られる。

　ここで、σ_１σ_２…σ_ｎを｛１，…，ｎ｝上の順列とした場合、全てのｊ＜ｉについてσ_ｉ＞σ_ｊが成り立つ場合、σ_ｉをｌｅｆｔ－ｔｏ－ｒｉｇｈｔ　ｍａｘｉｍｕｍと呼ぶ。同様に、全てのｊ＞ｉについてσ_ｉ＞σ_ｊが成り立つ場合、σ_ｉをｒｉｇｈｔ－ｔｏ－ｌｅｆｔ　ｍａｘｉｍｕｍと呼ぶ。

　次に、Ｂａｘｔｅｒ順列過程（Baxter permutation process）について説明する。なお、Ｂａｘｔｅｒ順列過程をＢＰＰと記載する場合がある。

　Ｚ_ｎを｛１，…，ｎ｝上の全てのＢＰの集合とする。ＢＰＰは、ＢＰ上の離散時間マルコフ過程であり、ｎ番目の時刻において、Ｚ_ｎにおけるＢＰサンプルに対応するオブジェクトを生成する。

　ＢＰＰの一例を説明する。ＢＰサンプルを３１２５６４∈Ｚ_６とし、追加が許されている位置に７を挿入することにより得られるＢＰを考える。上述した命題２により、追加が許されている位置は、「〇３１２〇５〇６〇４〇」における〇で示される。すなわち、ｌｅｆｔ－ｔｏ－ｒｉｇｈｔ　ｍａｘｉｍａである３、５、６のすぐ左隣、及び、ｒｉｇｈｔ－ｔｏ－ｌｅｆｔ　ｍａｘｉｍａである４、６のすぐ右隣になる。

　この例に示すように、ＢＰＰの進化は、ｌｅｆｔ－ｔｏ－ｒｉｇｈｔ　ｍａｘｉｍａ及びｒｉｇｈｔ－ｔｏ－ｌｅｆｔ　ｍａｘｉｍａ、及び、追加が許される位置の選択に依存する。表記の便宜上、ＢＰにおけるｌｅｆｔ－ｔｏ－ｌｅｆｔ　ｍａｘｉｍａをｘ_１，ｘ_２，…，ｘ_ｉと表し、ｒｉｇｈｔ－ｔｏ－ｒｉｇｈｔ　ｍａｘｉｍａをｙ_１，ｙ_２，…，ｙ_ｊと表す。

　ＢＰＰの進化を説明するために、補助変数として、一様分布確率変数である、［０，１］上のＵ_１，Ｕ_２，…，を導入する。ｎ番目に時刻におけるＢＰＰサンプルは、Ｕ_１，Ｕ_２，…，Ｕ_ｎから得られる。以下でより詳細に説明する。

　上述したとおり、ＢＰＰは、時間ｔ_１，ｔ_２，．．にわたる離散時間マルコフ過程π：＝（π（ｔ_ｎ），ｎ∈Ｎ）であり、各π（ｔ_ｎ）は、Ｚ_ｎ上のＢＰサンプルである。ｔ_ｎ上のＢＰＰπ（ｔ_ｎ）は、［０，１］上の一様分布確率変数Ｕ_１，Ｕ_２，…，Ｕ_ｎからなる潜在パラメータの集合を有する。

　Ｕ_１，Ｕ_２，…，Ｕ_ｎから生成されたサンプルπ（ｔ_ｎ）＝（σ_１σ_２…σ_ｎ）が与えられた場合、サンプルπ（ｔ_ｎ＋１）は下記のようにして抽出される。

　一般性を失うことなく、π（ｔ_ｎ）は、ｌｅｆｔ－ｔｏ－ｒｉｇｈｔ　ｍａｘｉｍａとしてｘ_１＜…＜ｘ_ｉ＝ｎを有し、ｒｉｇｈｔ－ｔｏ－ｌｅｆｔ　ｍａｘｉｍａとしてｎ＝ｙ_ｊ＞…＞ｙ_１を有すると想定することができる。更に、Ｕ_１，Ｕ_２，…，Ｕ_ｎは、下記を満たすと想定することができる。

　Ｕ_ｘ＿１＜Ｕ_ｘ＿２＜…＜Ｕ_ｘ＿ｉ＝Ｕ_ｎ＝Ｕ_ｙ＿ｊ＜Ｕ_{ｙ＿ｊ－１}＜…＜Ｕ_ｙ＿１
便宜上、Ｕ_ｘ＿０＝０としＵ_ｙ＿０＝０とする。上記の不等式は、実線［０，１］が、区間［Ｕ_ｘ＿０，Ｕ_ｘ＿１］，［Ｕ_ｘ＿１，Ｕ_ｘ＿２］，...［Ｕ_{ｘ＿ｉ－１}，Ｕ_ｘ＿ｉ］，［Ｕ_ｙ＿ｊ，Ｕ_{ｙ＿ｊ－１}］，...［Ｕ_ｙ＿１，Ｕ_ｙ＿０］に分割されることを示している。

　例えば、［０，１］上の一様分布から独立に抽出されたＵ_ｎ＋１が［Ｕ_{ｘ＿ｋ－１}，Ｕ_ｘ＿ｋ］（ｋ＝１，…，ｉ）の区間に位置する場合、（ｎ＋１）が、ｘ_ｋのすぐ左隣に挿入される。もしも、Ｕ_ｎ＋１が［Ｕ_ｙ＿ｌ，Ｕ_{ｙ＿ｌ－１}］（ｌ＝１，…，ｊ）の区間に位置する場合、（ｎ＋１）が、ｙ_ｌのすぐ右隣に挿入される。

　上述した不等式、Ｕ_１，…，Ｕ_ｎ＋１に対しても成立するので、当該不等式は、全てのｎ∈Ｎについて成立する。

　一例として、図４に示すように、ＢＰであるπ（ｔ_６）＝３１２５６４∈Ｚ_６を考える。図４の上段に示すように、Ｕ_１，…，Ｕ_６が抽出されたとする。このＢＰは、図４の中段に示すように、ｌｅｆｔ－ｔｏ－ｒｉｇｈｔ　ｍａｘｉｍａとしてｘ_１＝３＜ｘ_２＝５＜ｘ_３＝６を有し、ｒｉｇｈｔ－ｔｏ－ｌｅｆｔ　ｍａｘｉｍａとして６＝ｙ_２＞４＝ｙ_１を有する。もしも、区間［Ｕ_３，Ｕ_５］からＵ_７が抽出された場合、３１２５６４における５のすぐ右隣に７が挿入される。結果として、３１２７５６４に対応するＢＰであるπ（ｔ_７）∈Ｚ_７が得られる。なお、このＢＰは、Ｕ_１，…，Ｕ_７の順序と等価ではない。

　　＜後半（Ｂａｘｔｅｒ順列から見取り図分割への変換）＞
　次に、ＢＰ－ＦＰ変換部１１０が実行するＢＰからＦＰへの変換処理について説明する。｛１，…，ｎ｝上のＢＰが与えられると、図５に示すアルゴリズムにより、ｎ部屋を持つＦＰサンプルを構築できる。なお「アルゴリズム」は、行列データ解析装置１００が実行するプログラムに相当する。このアルゴリズムにおいて、繰り返し、ＦＰの上右隅に１つずつ部屋が挿入される。ｉ番目の部屋は、ｉ－１番目の部屋を２分割することにより生成され、ＢＰのｉ番目の要素に従ってラベル付けされる。より具体的には、下記のとおりである。

　もしも、（ｉ－１）番目の要素が、現在の要素（ｉ番目の要素）よりも大きい場合、その部屋は横のセグメントにより２分割され（図５、５行、６行）、ＢＰのｉ番目の要素のラベルが新たな上右隅ブロックに付けられる（図５、７行）。その結果生じる横方向のブロックについて、もしもその部屋の左が、その部屋のラベルよりも大きなラベルを持つ場合、その部屋は、左へ拡張される（９、１０行）。

　もしも、（ｉ－１）番目の要素が、現在の要素（ｉ番目の要素）よりも小さい場合、その部屋は縦のセグメントにより２分割され（図５、１３行）、ＢＰのｉ番目の要素のラベルが新たな上右隅ブロックに付けられる（１４行）。その結果生じる縦方向のブロックについて、もしもその部屋の下が、その部屋のラベルよりも小さなラベルを持つ場合、その部屋は、下へ拡張される（１６行、１７行）。

　図６に例を示す。図６の例では、ＢＰサンプルであるπ＝（σ_１σ_２…σ_ｎ）＝２５３１４が、ＦＰに変換される。まず、σ_１＝２としてラベル付けされたブロックを抽出し、５×５のグリッド（第１グリッド）を生成する。続いて、σ_２＝５＞σ_１＝２なので、右上隅ブロックを、図６の第２グリッドにおいて、縦のセグメントで２分割する。次に、σ_３＝３＜σ_２＝５なので、第３グリッドにおいて、右上隅ブロックを、横のセグメントで２分割する。

　次に、第４グリッドにおいて、右上隅ブロックを、横のセグメントで２分割する。ここでσ_４＝１の左のブロックσ_１＝２は、ブロックσ_４よりも大きなラベルを有するので、σ_１＝２の一部をつぶしてブロックσ_４＝１を左方向に拡張する。このような処理を２５３１４に対して行うことにより、２５３１４に対応するＦＰサンプルが得られる。

　図７は、ＢＰＰに基づくＦＰの進化を示しており、２つのＦＰサンプルがＢＰＰに従って成長していることを示している。ｎブロックのＦＰをｎ＋１ブロックのＦＰへ直接的に変換するのではなく、ＢＰを進化させ、図５のアルゴリズムを用いることで、ＦＰサンプルを得る。

　一例として、３１２５６４から３１２７５６４へのＢＰの進化を考えると、図５のアルゴリズムを３１２５６４と３１２７５６４の両方に適用し、それぞれ３１２５６４と３１２７５６４に対応するＦＰを得ることになる。

　図８も、ＢＰＰに従ったＦＰの進化の例を示している。図８における上段のＦＰは２５３１４に対応する。その下の４つのパターンはすべて、Ｚ_５への射影が２５３１４であるＺ_６のＢＰに対応する、あり得るＦＰである。上述したように、２５３１４に対応するＦＰから６ブロックのＦＰへの直接変換は行わない。図５のアルゴリズムを６２５３１４、２６５３１４、２５６３１４、２５３１４６にそれぞれ独立に適用して、対応するＦＰを得る。

　（ＦＰ－ＲＰ変換部１２０）
　次に、ＦＰ－ＲＰ変換部１２０の処理内容について説明する。ＦＰ－ＲＰ変換部１２０は、ＢＰ－ＦＰ変換部１１０から、ある一つの見取り図分割（ＦＰ）を入力し、ベータ分布確率変数であるβを入力して、板割り過程（ＢＢＰ: Block Breaking Process）を適用することで、一意に一つの長方形分割（ＲＰ）を出力する。具体的には下記のとおりである。

　前述したとおり、図５のアルゴリズムにより、ＢＰをＦＰに変換できる。しかし、ＦＰはサイズを持たないため、そのままでは本実施の形態における関係データの解析のためのＡＨＫ定理に基づくＢＮＰモデルを構築することができない。

　そこで、ＦＰ－ＲＰ変換部１２０は、サイズ調整パラメータβを導入して、ＢＰＰによって生成される、サイズの無い部屋からなるＦＰから、サイズを有するブロックからなるＲＰを生成することとしている。これにより、各部屋のサイズ情報を持たない見取り図分割に対し、分割としての整合性を壊さずに確率的なサイズを割り当てる生成モデルを実現している。

　すなわち、本実施の形態では、ＢＰＰから抽出されたＦＰの部屋のサイズを制御するために、ＢＰＰにベータ分布確率変数列を導入し、［０，１］×［０，１］の板割り過程を実現している。

　ＢＢＰは、ＳＢＰ（棒割り過程（Stick-breaking process））の多次元への拡張と解釈することも可能である。ＳＢＰでは、ベータ分布確率変数βを抽出し、残りの棒をβ：（１－β）の比で切断する処理を再帰的に繰り返すことにより、線［０，１］の無限数の棒を生成する。ＢＢＰはＳＢＰの線［０，１］と棒を、それぞれバウンディング長方形［０，１］×［０，１］と長方形ブロックに置き換えたものと考えてもよい。ただし、ＳＢＰとは異なり、ＢＢＰの構築においては、新しい分割を追加すべき方向を考慮しなければならない板割り過程（ＢＢＰ）の詳細、つまり、ＦＰ－ＲＰ変換部１２０の動作の詳細は下記のとおりである。

　ＢＢＰは、時間ｔ_１，ｔ_２，...．にわたる離散時間マルコフ過程ｂ：＝（ｂ（ｔ_ｎ），ｎ∈Ｎ）である。ここで、各ｂ（ｔ_ｎ）はｎブロックのＲＰサンプルである。ｔ_ｎ上のＢＢＰであるｂ（ｔ_ｎ）は、［０，１］上の一様分布確率変数Ｕ_１，...，Ｕ_ｎ、及びベータ分布確率変数β_１，...．．，β_ｎ－１からなる潜在パラメータの集合を有する。

　図９には、ｎ＝１～５におけるＢＢＰの例が示されている。図９に示すように、順次、現在のＲＰに、新たな右下ブロックが追加される。Ｃ_ｎやＣ_ｎ ^ｍｉｎ、βの使用方法については、以下で説明される。なお、図９には、表示の便宜上、Ｃ_２、Ｃ_２ ^ｍｉｎ、Ｃ_３、Ｃ_３ ^ｍｉｎは図示されていない。

　Ｕ_１，...Ｕ_ｎ－１とβ_１，．．，β_ｎ－２から得られるＲＰサンプルｂ（ｔ_ｎ－１）、及び、ＢＰＰに従ってＵ_１，...Ｕ_ｎ－１から得られる、（ｎ－１）個の部屋を有するＦＰサンプルｆ（ｔ_ｎ－１）を考える。

　ｂ（ｔ_ｎ－１）とｆ（ｔ_ｎ－１）が与えられたとき、次時刻ｔ_ｎにおけるサンプルｂ（ｔ_ｎ）は次のようにして生成される。

　ベータ分布からβ_ｎ－１を抽出する。もしも、Ｕ_ｎに基づき得られるｆ（ｔ_ｎ）の（ｎ－１）番目の部屋の右下隅が、ｆ（ｔ_ｎ）のｎ番目の部屋の右下隅の左側（または上側）にあるならば、対応するｆ（ｔ_ｎ）の部屋がｆ（ｔ_ｎ）のｎ番目の部屋の左側（または上側）に隣接するような、ｂ（ｔ_ｎ）のすべてのブロック（図９の明るい灰色（Ｂで示す）と暗い灰色（Ａで示す））のセットをＣ_ｎとする。図９において、ｎ＝３の次段階及びｎ＝４の次段階に示されるように、Ｃ_ｎは、ブロック切断前のｂ（ｔ_ｎ－１）における、上記条件を満たすブロックである。

　Ｃ_ｎ ^ｍｉｎを、Ｃ_ｎにおける最小幅（または最小高）ｌ_ｎのブロック（図９においてＡで示す濃い灰色）とする。ＲＰのｎ番目のブロックは、当該ｎ番目のブロックが幅（または高さ）として（１－β_ｎ－１）ｌ_ｎを持つように、Ｃ_ｎにおけるブロックを切断することによって生成される。

　上記のように、ＦＰ内の部屋間の位置関係により定まるＲＰにおけるブロックを、ベータ分布から得られたパラメータβを比率として使用して分割していくことで、順次、新たなＲＰを生成する。

　（パラメータ更新部１３０）
　次に、パラメータ更新部１３０の処理動作を説明する。パラメータ更新部１３０には、現在のパラメータの集合θが入力され、パラメータ更新部１３０は、それらから新しい候補θを求め、上書きして更新する。パラメータの集合θは、前述したＢＰ－ＦＰ変換部１１０、ＦＰ－ＲＰ変換部１２０において使用される潜在パラメータであり、具体的には、｛Ｕ^ｒｏｗ，Ｕ^{ｃｏｌｕｍｎ}，Ｕ，β｝である。

　上記の更新には、例えば、マルコフ連鎖モンテカルロ法（ＭＣＭＣ）と呼ばれるベイズ推論における標準的な手法を用いることができる。ＭＣＭＣは、対象とする確率分布に対して、「確率の大きな方へ移動し、確率が大きくなったらその近傍をうろうろする」手法であり、ベイズ推定では、事後確率を対象とする。

　サンプリングのアルゴリズムとして多く用いられるメトロポリス＝ヘイスティング法を使用する場合、パラメータ毎にその事前確率分布から一度確率変数をサンプリングし、それを新しい候補として採択するか棄却するかを確率変数の事後確率の密度比の確率によって決定する。確率変数の事後確率の密度比は、以下の「数１」（及び「数２」～「数４」）により示される入力Ｘとパラメータθの同時確率（ｐ（Ｘ，θ））の密度比とも一致する。

　ただし、Ｎ_ｋ，ｈは、ｋ番目の長方形ブロックに属するｈラベルの行列要素の個数を示しており、θ＝｛Ｕ^ｒｏｗ，Ｕ^{ｃｏｌｕｍｎ}，Ｕ，β｝である。また、Ｐ_{ｍｏｄｅｌ}（θ_ｋ）は、モデルにおけるパラメータθ_ｋの確率を示す。Ｐ_ｏｂｓ．（Ｘ｜Ｕ^ｒｏｗ，Ｕ^{ｃｏｌｕｍｎ}，Ｕ，β）は、Ｕ^ｒｏｗ，Ｕ^{ｃｏｌｕｍｎ}，Ｕ，βのもとでのＸの生成確率を示す。また、「数２」のｐ_{ｃｏｍｐ．}（ｋ^＊｜Ｘ，θ_ｋ＾＊）は、観測データ（観測行列Ｘ）の全要素が、１からｋ^＊番目のラベルのついたブロックの中に収まって、なおかつｋ^＊番目のブロックは空でなく、更にｋ^＊＋１以降の全てのブロックは空になるような確率を示す。具体的には、「数２」の右辺の３つの項の掛け算「第１項×第２項×第３項」において、第１項がｋ^＊番目のブロックが空でない確率を表し、第２項×第３項がｋ^＊番目以降のブロックに観測データが入らない確率を表している。

　なお、パラメータ更新の手法は、上記の手法に限られない。他の種々の既存技術を用いてパラメータ更新を実現することが可能である。

　（反復計算終了判定部１４０）
　本実施の形態で使用する汎用のマルコフ連鎖モンテカルロ法は一般に反復計算に基づいており、その終了判定が必要となる。反復計算終了判定部１４０は、例えば、予め事前に指定した回数（例えば２０００反復など）だけ反復し、その指定回数に達したら繰り返し処理を終了するようパラメータ更新部１３０を制御する。

　（事後確率分布計算部１５０）
　本実施の形態では、事後確率分布計算部１５０は、マルコフ連鎖モンテカルロ法によるパラメータ（確率変数）の事後確率の最も標準的な計算方法を使用している。すなわち、事後確率分布計算部１５０は、反復の途中から終了まで（例えば１００１回目～２０００回目）までの反復中における各パラメータのヒストグラムをとることによって、それを真の事後確率分布の近似とする。

　（出力について）
　事後確率分布計算部１５０における出力部は、例えば、入力データＸが観測された下での事後確率を最大とするパラメータθ＝｛Ｕ^ｒｏｗ，Ｕ^{ｃｏｌｕｍｎ}，Ｕ，β｝を出力する。出力された｛Ｕ^ｒｏｗ，Ｕ^{ｃｏｌｕｍｎ}，Ｕ，β｝は、入力されたデータＸに対するクラスタリングの推定結果を表す。出力時には、例えば、板割りがなされたＲＰの形で出力（表示）してもよい。

　図１０の左側は、ユーザとアイテムを有する関係データの解析結果を、長方形分割クラスタとして出力したイメージを示している。図１０の右側は、板割り過程の観測データのフィッティング度合を測る指標（パープレキシティ）が学習の進行に応じて徐々に改善（グラフ下側に向かうほど改善）する様子を示している。

　（装置のハードウェア構成例）
　本実施の形態に係る行列データ解析装置１００は、例えば、コンピュータにプログラムを実行させることにより実現できる。このコンピュータは、物理的なコンピュータであってもよいし、クラウド上の仮想マシンであってもよい。

　すなわち、当該装置は、コンピュータに内蔵されるＣＰＵやメモリ等のハードウェア資源を用いて、当該装置で実施される処理に対応するプログラムを実行することによって実現することが可能である。上記プログラムは、コンピュータが読み取り可能な記録媒体（可搬メモリ等）に記録して、保存したり、配布したりすることが可能である。また、上記プログラムをインターネットや電子メール等、ネットワークを通して提供することも可能である。

　図１１は、上記コンピュータのハードウェア構成例を示す図である。図１１のコンピュータは、それぞれバスＢＳで相互に接続されているドライブ装置１０００、補助記憶装置１００２、メモリ装置１００３、ＣＰＵ１００４、インタフェース装置１００５、表示装置１００６、入力装置１００７、出力装置１００８等を有する。

　当該コンピュータでの処理を実現するプログラムは、例えば、ＣＤ－ＲＯＭ又はメモリカード等の記録媒体１００１によって提供される。プログラムを記憶した記録媒体１００１がドライブ装置１０００にセットされると、プログラムが記録媒体１００１からドライブ装置１０００を介して補助記憶装置１００２にインストールされる。但し、プログラムのインストールは必ずしも記録媒体１００１より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置１００２は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。

　メモリ装置１００３は、プログラムの起動指示があった場合に、補助記憶装置１００２からプログラムを読み出して格納する。ＣＰＵ１００４は、メモリ装置１００３に格納されたプログラムに従って、当該装置に係る機能を実現する。インタフェース装置１００５は、ネットワークに接続するためのインタフェースとして用いられ、送信部及び受信部として機能する。表示装置１００６はプログラムによるＧＵＩ（Ｇｒａｐｈｉｃａｌ　Ｕｓｅｒ　Ｉｎｔｅｒｆａｃｅ）等を表示する。入力装置１００７はキーボード及びマウス、ボタン、又はタッチパネル等で構成され、様々な操作指示を入力させるために用いられる。出力装置１００８は演算結果を出力する。

　（実施の形態の効果）
　以上説明した本実施の形態に係る技術により、ノンパラメトリックベイズ法を用いて関係データのクラスタリングを行う技術において、解の候補を制限せずに、効率的にベイズ推論を行うことを可能とする技術が提供される。具体的には下記のとおりである。

　・モデル選択及びモデル複雑度のチューニングを必要としないアルゴリズムを実現することができる。すなわち、長方形分割クラスタリングにおけるクラスタ（長方形ブロック）の個数や、各クラスタのサイズに対する事前知識・チューニングを必要とせず、それらをデータから自立的に学習させることのできるアルゴリズムが構成できる。

　・解候補を任意の長方形分割から推論することができる。

　・上記二つの効果を持ちつつ、さらに実用に足るベイズ推論を導くことができる。

　（実施の形態のまとめ）
　本明細書には、少なくとも下記各項のデータ解析装置、データ解析方法、及びプログラムが開示されている。
（第１項）
　ノンパラメトリックベイズ法により、観測された関係データに対する長方形分割クラスタリングを行うデータ解析装置であって、
　第１確率分布から得られる確率変数である第１パラメータから順列を生成し、当該順列に基づいて、第２確率分布から得られる確率変数である第２パラメータを用いて長方形分割を生成する変換部と、
　前記関係データが観測された下での事後確率に基づいて、前記第１パラメータと前記第２パラメータを含むパラメータを更新する更新部と
　を備えるデータ解析装置。
（第２項）
　前記順列は、Ｂａｘｔｅｒ順列である
　第１項に記載のデータ解析装置。
（第３項）
　前記変換部は、
　前記第１パラメータから前記順列を生成し、前記順列から見取り図分割を生成する第１変換部と、
　前記見取り図分割から前記長方形分割を生成する第２変換部と、
　備える第１項又は第２項に記載のデータ解析装置。
（第４項）
　前記第１変換部は、前記順列における前後の要素の大小関係に基づいて、右上ブロックを追加していく処理を繰り返すことにより前記見取り図分割を生成する
　第３項に記載のデータ解析装置。
（第５項）
　前記第２変換部は、前記見取り図分割における部屋間の位置関係から得られる前記長方形分割における所定のブロックを、前記第２パラメータに基づく比率を用いて分割する処理を繰り返すことにより、目的の長方形分割を生成する
　第３項又は第４項に記載のデータ解析装置。
（第６項）
　前記事後確率を最大にする前記第１パラメータと前記第２パラメータに基づく長方形分割を前記関係データのクラスタリング結果として出力する出力部
　を備える請求項１ないし４のうちいずれか１項に記載のデータ解析装置。
（第７項）
　ノンパラメトリックベイズ法により、観測された関係データに対する長方形分割クラスタリングを行うデータ解析装置が実行するデータ解析方法であって、
　第１確率分布から得られる確率変数である第１パラメータから順列を生成し、当該順列に基づいて、第２確率分布から得られる確率変数である第２パラメータを用いて長方形分割を生成する変換ステップと、
　前記関係データが観測された下での事後確率に基づいて、前記第１パラメータと前記第２パラメータを含むパラメータを更新する更新ステップと
　を備えるデータ解析方法。
（第８項）
　コンピュータを、第１項ないし第６項のうち１ずれか１項に記載のデータ解析装置における各部として機能させるためのプログラム。

　以上、本実施の形態について説明したが、本発明はかかる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

１００　行列データ解析装置
１１０　ＢＰ－ＦＰ変換部
１２０　ＦＰ－ＲＰ変換部
１３０　パラメータ更新部
１４０　反復計算終了判定部
１５０　事後確率分布計算部
１０００　ドライブ装置
１００１　記録媒体
１００２　補助記憶装置
１００３　メモリ装置
１００４　ＣＰＵ
１００５　インタフェース装置
１００６　表示装置
１００７　入力装置
１００８　出力装置

Claims

　ノンパラメトリックベイズ法により、観測された関係データに対する長方形分割クラスタリングを行うデータ解析装置であって、
　第１確率分布から得られる確率変数である第１パラメータから順列を生成し、当該順列に基づいて、第２確率分布から得られる確率変数である第２パラメータを用いて長方形分割を生成する変換部と、
　前記関係データが観測された下での事後確率に基づいて、前記第１パラメータと前記第２パラメータを含むパラメータを更新する更新部と
　を備えるデータ解析装置。
　前記順列は、Ｂａｘｔｅｒ順列である
　請求項１に記載のデータ解析装置。
　前記変換部は、
　前記第１パラメータから前記順列を生成し、前記順列から見取り図分割を生成する第１変換部と、
　前記見取り図分割から前記長方形分割を生成する第２変換部と、
　備える請求項１又は２に記載のデータ解析装置。
　前記第１変換部は、前記順列における前後の要素の大小関係に基づいて、右上ブロックを追加していく処理を繰り返すことにより前記見取り図分割を生成する
　請求項３に記載のデータ解析装置。
　前記第２変換部は、前記見取り図分割における部屋間の位置関係から得られる前記長方形分割における所定のブロックを、前記第２パラメータに基づく比率を用いて分割する処理を繰り返すことにより、目的の長方形分割を生成する
　請求項３又は４に記載のデータ解析装置。
　前記事後確率を最大にする前記第１パラメータと前記第２パラメータに基づく長方形分割を前記関係データのクラスタリング結果として出力する出力部
　を備える請求項１ないし４のうちいずれか１項に記載のデータ解析装置。
　ノンパラメトリックベイズ法により、観測された関係データに対する長方形分割クラスタリングを行うデータ解析装置が実行するデータ解析方法であって、
　第１確率分布から得られる確率変数である第１パラメータから順列を生成し、当該順列に基づいて、第２確率分布から得られる確率変数である第２パラメータを用いて長方形分割を生成する変換ステップと、
　前記関係データが観測された下での事後確率に基づいて、前記第１パラメータと前記第２パラメータを含むパラメータを更新する更新ステップと
　を備えるデータ解析方法。
　コンピュータを、請求項１ないし６のうちいずれか１項に記載のデータ解析装置における各部として機能させるためのプログラム。