WO2016132683A1

WO2016132683A1 - クラスタリングシステム、方法およびプログラム

Info

Publication number: WO2016132683A1
Application number: PCT/JP2016/000403
Authority: WO
Inventors: 遼平藤巻; 洋介本橋
Original assignee: 日本電気株式会社
Priority date: 2015-02-18
Filing date: 2016-01-27
Publication date: 2016-08-25
Also published as: US20180025072A1; JP6687011B2; US10877996B2; JPWO2016132683A1

Abstract

　分類器８１は、対象データの特徴を示す２種類の異なる変数を用いて定義される混同分布モデルに基づいて対象データをクラスタに分類する。その際、分類器８１は、混同分布モデルの混同比が第一の変数の関数で表され、対象データを分類するクラスタの要素分布が第二の変数の関数で表される混合分布モデルに基づいて対象データをクラスタに分類する。

Description

クラスタリングシステム、方法およびプログラム

　本発明は、混合分布モデルを利用して分類対象データをクラスタリングするクラスタリングシステム、クラスタリング方法およびクラスタリングプログラムに関する。

　クラスタ化によるデータ分割は、データマイニングにおいて最も基本的な方法の一つである。大量のデータを分割して複数のセグメントを生成する場面として、例えば、文書のクラスタ化や、店舗のクラスタ化などが挙げられる。例えば、文書のクラスタ化を行う場合、各文書に現れる単語の有無に基づいてデータを分割することによりトピックセグメントを生成してクラスタリングすることが可能である。また、店舗のクラスタ化を行う場合、例えば、ｋ－ｍｅａｎｓ法で個々の製品の売上を要素とする売上特徴ベクトルをクラスタリングすることにより、売上が類似する店舗群を含むセグメントを生成できる。

　クラスタリングの手法には、上述するｋ－ｍｅａｎｓ法以外にも様々な手法が存在する。例えば、クラスタリングの問題を確率モデルで解く方法として、データの発生確率が複数の確率の線形和で表される混合分布モデルが知られている。

　また、非特許文献１には、複数種のデータと環境特性との関係を探索、記述および予測するために用いられる多変量回帰ツリー（Multivariate regression trees ：ＭＲＴ）が記載されている。非特許文献１に記載されたＭＲＴは、環境値に基づく単純な規則に基づくデータ分割を繰り返すことにより、クラスタを形成する。

Glenn De'ath, "MULTIVARIATE REGRESSION TREES: A NEW TECHNIQUE FOR MODELING SPECIES-ENVIRONMENT RELATIONSHIPS", Ecology, 83(4), 2002, pp.1105-1117

　一方、売上特徴ベクトルに基づいて店舗をクラスタリングしようとしても、対象の店舗が新規店舗の場合には適切にクラスタリングできないという問題がある。新規店舗には、クラスタの特徴を示す売上情報が存在しないため、売上情報に基づく分類ができないからである。そのため、上述する一般的な混同分布モデルでは、このようなデータを適切に分類できないという技術的課題がある。

　また、非特許文献１に記載されたＭＲＴは、そもそも確率モデルでなく、適用できるモデルが限定的であるという問題がある。また、非特許文献１に記載されたＭＲＴで扱われるデータは、連続値で表されるデータに限定されてしまうため、例えば、上述する文書クラスタなどを生成することも困難である。

　そこで、本発明は、クラスタの特徴を示す情報を分類対象データが有しているか否かに関わらず、混合分布モデルを利用してその分類対象データを適切にクラスタリングできるクラスタリングシステム、クラスタリング方法およびクラスタリングプログラムを提供することを目的とする。

　本発明によるクラスタリングシステムは、対象データの特徴を示す２種類の異なる変数を用いて定義される混同分布モデルに基づいて対象データをクラスタに分類する分類器を備え、分類器が、混同分布モデルの混同比が第一の変数の関数で表され、対象データを分類するクラスタの要素分布が第二の変数の関数で表される混合分布モデルに基づいて対象データをクラスタに分類することを特徴とする。

　本発明によるクラスタリング方法は、コンピュータが、対象データの特徴を示す２種類の異なる変数を用いて定義される混同分布モデルに基づいて対象データをクラスタに分類し、その分類の際、コンピュータが、混同分布モデルの混同比が第一の変数の関数で表され、対象データを分類するクラスタの要素分布が第二の変数の関数で表される混合分布モデルに基づいて対象データをクラスタに分類することを特徴とする。

　本発明によるクラスタリングプログラムは、コンピュータに、対象データの特徴を示す２種類の異なる変数を用いて定義される混同分布モデルに基づいて対象データをクラスタに分類する分類処理を実行させ、分類処理で、混同分布モデルの混同比が第一の変数の関数で表され、対象データを分類するクラスタの要素分布が第二の変数の関数で表される混合分布モデルに基づいて対象データをクラスタに分類させることを特徴とする。

　本発明によれば、上述した技術的手段により、クラスタの特徴を示す情報を分類対象データが有しているか否かに関わらず、混合分布モデルを利用してその分類対象データを適切にクラスタリングできるという技術的効果を奏する。

本発明によるクラスタリングシステムの第１の実施形態の構成例を示すブロック図である。第１の実施形態のクラスタリングシステムの動作例を示すフローチャートである。本発明によるクラスタリングシステムの第２の実施形態の構成例を示すブロック図である。ルールベース条件付きクラスタリングモデルの一例を示す説明図である。本発明によるクラスタリングシステムの第３の実施形態の構成例を示すブロック図である。第３の実施形態のクラスタリングシステムの動作例を示すフローチャートである。混合分布モデルの例を示す説明図である。本発明によるクラスタリグンシステムの概要を示すブロック図である。

　以下、本発明の実施形態を図面を参照して説明する。

実施形態１．
　図１は、本発明によるクラスタリングシステムの第１の実施形態の構成例を示すブロック図である。本実施形態のクラスタリングシステムは、入力装置１１と、分類器１２と、出力装置１３と、学習器１４と、記憶部１５とを備えている。

　入力装置１１は、分類対象データを入力する。また、入力装置１１は、モデルの最適化に必要なパラメータを同時に入力してもよい。

　記憶部１５は、分類器１２がクラスタリングに利用するモデルを記憶する。記憶部１５は、予め学習されたモデルを記憶してもよく、後述する学習器１４によって学習されたモデルを記憶してもよい。また、記憶部１５は、モデルの学習に用いられる学習データや、学習データに基づくクラスタリング結果などを記憶していてもよい。記憶部１５は、例えば、磁気ディスク等により実現される。

　分類器１２は、記憶部１５に記憶されたモデルに基づいて、入力されたデータをクラスタリングする。本実施形態では、分類器１２は、混同分布モデルの一種である確率的条件付きクラスタリングモデルＰＣＣｓ（Probabilistic Conditional Clustering models ）を用いてデータセグメントを計算する。

　ＰＣＣｓは、対象データの特徴（属性）を示す２種類の異なる変数を用いて定義される混同分布モデルであり、２種類の変数として、条件変数（condition variables ）および特徴変数（feature variables ）を想定する。

　条件変数は、対象データをセグメントに割り当てる条件を表現するために利用される変数であり、クラスタ分類変数（隠れ変数）の事前分布における条件として利用される。また、特徴変数は、セグメントの特徴的な統計を表現するために利用される変数であり、要素分布（コンポーネント分布）において利用される。例えば、店舗の売上に基づいてクラスタリングを行う場合、特徴変数は売上（sales ）に対応し、条件変数は、各店舗の人口統計（store demographics）などに対応する。

　言い換えると、２種類の異なる変数は、コンポーネント分布において利用される変数と、そのコンポーネント分布には直接的に利用されない変数と言うことができる。

　以下、ＰＣＣｓを用いて対象データをクラスタリングする方法を詳細に説明する。上述するように、ＰＣＣｓでは、２種類の変数（条件変数、特徴変数）が用いられる。条件変数は、セグメントの構造（すなわち、対象データをセグメントに割り当てる際に用いられる条件）を表現するために用いられる。なお、本実施形態では、条件変数は、予測段階および学習段階のいずれの段階でも使用することが可能な変数とする。

　特徴変数は、セグメントを特徴づけるために（すなわち、セグメントの特徴的な統計に）用いられる。なお、本実施形態では、特徴変数が、学習段階でのみ使用可能な場合も想定する。すなわち、本実施形態では、予測段階において、対象データが特徴変数で示される情報を含んでいない場合も想定する。

　本実施形態において、特徴変数で示された情報を含んでいない対象データをクラスタリングする場合には、大きく２つの課題がある。一つの課題は、典型的なクラスタリングの場合と同様、予測段階においてコンパクトかつ解釈可能なクラスタを見つけることである。もう一つの課題は、予測段階において、条件変数のみに基づいて、上記対象データ（すなわち、新規に獲得されたデータ）のクラスタ割当を予測することである。

　これは、新規店舗を売上に基づいてクラスタリングしようとしたときに、新規店舗の売上（特徴変数）が未知であるが、その新規店舗の人口統計（条件変数）が既知である場合に、既知の条件変数のみに基づいて新規店舗をクラスタに割り当てることに対応する。

　条件変数および特徴変数に基づいて対象データのクラスタ割当を予測する方法と、条件変数のみに基づいて対象データのクラスタ割当を予測する方法を比較しながら説明する。本実施形態では、予測段階において、分類器１２が、上記いずれの場合にも同様に対象データをクラスタに割り当てることができるようにする。

　ここで、条件変数をＸ^ｃと記し、特徴変数をＸ^ｆと記す。Ｘ^ｃの範囲は、数値または区分を示す値、または、それらの混合であり、Ｘ^ｃの次元はＤ^ｃである。また、Ｘ^ｆの範囲は、用途（例えば、確率モデルにおけるクラスタの形状）に依存し、Ｘ^ｆの次元はＤ^ｆである。

　なお、本実施形態では、教師なしクラスタリングの場合について説明するが、教師ありクラスタリングの場合にも本実施形態のクラスタリングシステムを同様に適用可能である。教師ありクラスタリングに適用する場合、分類器１２は、Ｘ^ｆに応じた目標変数Ｙ^ｆを有すると想定すればよい。

　本実施形態のＰＣＣｓは、上述するＸ^ｃおよびＸ^ｆを用いて、以下に例示する式１で定義される。

　式１において、θ＝（η_１，…，η_K，φ_１，…，φ_k）は、モデル全体のパラメータであり、η_kおよびφ_kは、ｋ番目のクラスタの条件および形状を表わすパラメータである。また、式１において、ｗ_ｋは、ｋ番目のクラスタに属する条件を定義している関数である。

　ここで、クラスタ分類変数Ｚ＝（Ｚ_１，…，Ｚ_K）を定義する。Ｚ_ｋ＝１の場合、データがｋ番目のクラスタから生成されたことを意味し、Ｚ_ｋ＝０の場合、データがｋ番目のクラスタから生成されていないことを意味する。

　クラスタ分類変数Ｚを用いると、Ｘ^ｃが与えられたときのＸ^ｆおよびＺ_ｋの同時分布は、以下に例示する式２および式３で定義される。以下に示すように、式２は、対象データをクラスタに割り当てる確率分布であり、式３は、各クラスタの形を示す確率分布であり、その確率分布の内容は任意である。

　このモデルは、混同モデルの変形であることは明らかである。すなわち、このモデルは、ガウス混合モデルのようなガウス分布、または、混合エキスパートモデルのような線形回帰で表すことできるコンポーネント分布ｐ（Ｘ^ｆ；φ_ｋ）における正規混同モデルと同様である。

　ただし、上記の式１に例示するモデルは、２種類の異なる変数Ｘ^ｃおよびＸ^ｆを用いて定義される混合分布モデルであり、混同分布モデルの混同比が条件変数Ｘ^ｃの関数で表されている点において、上述するモデルとは異なる。すなわち、上記の式１に例示するモデルは、混同分布モデルの混同比が条件変数の関数で表され、分類先のクラスタのコンポーネント分布が特徴変数の関数で表される。分類器１２は、この混同分布モデルに基づいて分類対象データをクラスタリングする。

　条件変数および特徴変数に基づいて対象データをクラスタに割り当てる方法と、条件変数のみに基づいて対象データをクラスタに割り当てる方法として、以下の式４および式５に例示する２種類の手法が考えられる。

　式４は、条件変数および特徴変数に基づいて対象データをクラスタに割り当てる方法であり、式５は、条件変数のみに基づいて対象データをクラスタに割り当てる方法である。式４に例示する方法は、事後確率を最大にするクラスタを見つける標準的な方法である。

　ただし、上記の式４に示す方法では、特徴変数Ｘ^ｆが含まれていることからも明らかなように、予測段階において特徴変数Ｘ^ｆが含まれていないデータに対してはクラスタに割り当てることができない。一方で、上記に例示する式５には、特徴変数Ｘ^ｆが含まれていない。すなわち、上記の式５に示す方法では、条件変数Ｘ^ｃの事前確率に基づいてデータをクラスタに割り当てることができる。

　分類器１２は、例えば、売上および店舗人口統計のいずれも既知である場合には、上記に例示する式４を用いて確率が最大になるクラスタを導出すればよく、売上が未知の場合であっても、上記に例示する式５を用いて確率が最大になるクラスタを導出できる。

　すなわち、本実施形態の分類器１２は、上記の式１に例示する混合分布モデル（ＰＣＣｓ）から導出される上記の式４または式５を用いて分類対象データをクラスタリングできる。そのため、例えば売上のようなクラスタの特徴を示す情報を分類対象データが有しているか否かに関わらず、その分類対象データをクラスタに適切に分類できる。

　出力装置１３は、クラスタリングの結果を出力する。出力装置１３は、例えば、対象データを割り当てたクラスタを特定する情報（例えば、クラスタ名など）や、そのクラスタの特徴を示す情報（例えば、クラスタの統計情報など）を出力してもよい。ただし、出力する内容は、上述する方法に限定されない。

　学習器１４は、分類器１２がクラスタリングに利用するモデルを学習する。本実施形態では、学習器１４は、学習データに基づいて上述するＰＣＣｓを学習する際、近年発展しているＦＡＢ（factorized asymptotic Bayesian）推論に基づいて、データからセグメント構造を特定するベイズ学習アルゴリズムを利用することが好ましい。

　ＦＡＢ推論は、隠れ変数モデルにおけるモデル選択問題に対処するための原則を提供し、周辺対数尤度を最大化（ほぼ正確に）することによりセグメント構造を明らかにするものである。さらに、ＦＡＢ推論ではパラメータ事前分布を漸近的に無視する事によって、ハイパーパラメータを除去し、クラスタリングを自動化する。これは、目的パラメータの調整をしなくても大量のデータに潜む主観的な評価を提供しようとするシナリオ（教師なしデータ分割）において特に有益である。

　学習器１４は、学習結果を記憶部１５に記憶する。

　分類器１２は、プログラム（クラスタリングプログラム）に従って動作するコンピュータのＣＰＵによって実現される。例えば、プログラムは、クラスタリングシステムが備える記憶部（図示せず）に記憶され、ＣＰＵは、そのプログラムを読み込み、プログラムに従って、分類器１２として動作してもよい。

　また、入力装置１１と、分類器１２と、出力装置１３とは、それぞれが専用のハードウェアで実現されていてもよい。また、本発明によるクラスタリングシステムは、２つ以上の物理的に分離した装置が有線または無線で接続されることにより構成されていてもよい。

　次に、本実施形態のクラスタリングシステムの動作を説明する。図２は、本実施形態のクラスタリングシステムの動作例を示すフローチャートである。なお、本動作例では、対象データの特徴を示す２種類の異なる変数を用いて定義される混同分布モデル（ＰＣＣｓ）がすでに学習され、記憶部１５に記憶されているものとする。

　入力装置１１は、分類対象データを入力する（ステップＳ１１）。分類器１２は、上述する混同分布モデル（ＰＣＣｓ）を記憶部１５から取得する（ステップＳ１２）。そして、分類器１２は、取得した混合分布モデルに基づいて、入力された分類対象データの属するクラスタを予測し、その分類対象データを予測されたクラスタに割り当てる（ステップＳ１３）。出力装置１３は、分類対象データを割り当てた結果を出力する（ステップＳ１４）。

　以上のように、本実施形態では、分類器１２が、対象データの特徴を示す２種類の異なる変数を用いて定義される混同分布モデルに基づいて対象データをクラスタに分類する。その混合分布モデルは、混同比が第一の変数（具体的には、条件変数）の関数で表され、対象データを分類するクラスタの要素分布が第二の変数（具体的には、特徴変数）の関数で表される。

　そのため、クラスタの特徴を示す情報を対象データが有しているか否かに関わらず、混合分布モデルを利用してその対象データを適切にクラスタリングできる。例えば、販売業者は、売上のような特徴変数が利用できない新しいデータを分類する場合でも、条件変数を用いて条件付けされた事前確率を使って、新しいデータを分類するクラスタを予測できる。

実施形態２．
　第１の実施形態では、分類器１２がクラスタリングを行う際、上記に例示する式１の条件付き事前確率ｐ（Ｚ｜Ｘ^ｃ；η_ｋ）がＰＣＣｓにおいて重要な役割を果たしていた。第１の実施形態で示したように、分類器１２は、ｐ（Ｚ｜Ｘ^ｃ；η_ｋ）に任意の確率モデルを適用してクラスタリングが可能である。

　本実施形態では、クラスタの解釈容易性を高めるため、条件付き事前確率にルールベース条件付き事前関数（Rule-based conditional prior function ）を利用してクラスタリングする方法を説明する。

　図３は、本発明によるクラスタリングシステムの第２の実施形態の構成例を示すブロック図である。なお、第１の実施形態と同様の構成については、図１と同一の符号を付し、説明を省略する。本実施形態のクラスタリングシステムは、入力装置１１と、分類器２２と、出力装置１３と、学習器１４と、記憶部１５とを備えている。すなわち、本実施形態のクラスタリングシステムは、分類器１２の代わりに分類器２２を備えている点において、第１の実施形態と異なる。

　分類器２２は、第１の実施形態の分類器１２と同様、記憶部１５に記憶されたモデルに基づいて、入力されたデータをクラスタリングする。なお、本実施形態では、分類器２２は、ＰＣＣｓを改良したルールベース条件付きクラスタリングモデルを用いて、対象データをクラスタに分類する。

　図４は、本実施形態で用いるルールベース条件付きクラスタリングモデルの一例を示す説明図である。図４に例示するモデルは木構造で表され、矩形で示される各ノードが条件ノードを示し、円形で示される葉ノードがクラスタノードを示す。

　最上位の条件ノードにＸ^ｃが入力されると、その条件ノードでは決定木のルールに従って適切なクラスタノードが選択される。条件ノードには、以下の式６で例示するベルヌーイ関数が適用される。

　式６におけるα_ｉは、β_ｉとγ_ｉの関数（α_ｉ＝（β_ｉ，γ_ｉ））であり、β_ｉは、ｇ_ｉとｔ_ｉの関数（β_ｉ＝（ｇ_ｉ，ｔ_ｉ））である。ここで、ｇ_ｉ∈［０，１］であり、γ_ｉは、Ｘ^ｃの要素に関するインデックスであり、ｔ_ｉ∈Ｒ（実数全体）は、任意の値である。また、式６におけるＵは、階段関数である。

　例えば、図４において式６を利用する場合、Ｘ^ｃ［γ_ｉ］＜ｔ_ｉのとき、ｇ（Ｘ^ｃ，α_ｉ）＝ｇ_ｉであり、Ｘ^ｃ［γ_ｉ］≧ｔ_ｉのとき、ｇ（Ｘ^ｃ，α_ｉ）＝１－ｇ_ｉである。

　条件ノードで使用する場合、上記に例示する式１で用いられるｗ_ｋは、以下に例示する式７のようにモデル化できる。

　ここで、Ｃ_ｋ＝（ｋ＝１，…，Ｋ）は、ｋ番目のクラスタのインデックス集合を表示するものとし、ルートノードからｋ番目のクラスタノードまでのユニークな経路上の条件ノードの全てのインデックスを含む。また、以下に例示する式８は、ｉ番目の条件ノードにおける確率を示す。

　式８において、ψは、ａ，ｉ，ｋの関数であり、ｋ番目のクラスタがｉ番目の条件ノードの左側の部分木に存在する場合に確率ａとなり、それ以外の場合に確率（１－ａ）になる関数である。この場合、式７における右辺は、分類対象データがｋ番目のクラスタノードに到達する確率を表わす。

　以上に示すルールベース条件付きクラスタリングモデルは、第１の実施形態で説明した式１～３に特殊な確率モデルを適用したモデルと言える。このような木構造でＰＣＣｓを表わすことで、モデルの解釈性が向上する。そのため、各クラスタの分類条件が一見して把握できるため、クラスタ（セグメント）から得られる知見を各種戦略（例えば、マーケティング戦略など）に生かすことが可能になる。

実施形態３．
　次に、本発明によるクラスタリングシステムの第３の実施形態を説明する。本実施形態では、商品売上データに基づいて店舗を分類するものとし、店舗を分類した店舗クラスタに基づいて、新規店舗の出店計画を立てる場合を例に説明する。この商品売上データが、第１の実施形態の特徴変数に対応する。

　また、第１の実施形態で示すように、新規店舗には商品売上データが存在しない。そこで、本実施形態では、店舗の人口統計情報を用いて新規店舗の出店計画を立てるものとする。この人口統計情報が、第１の実施形態の条件変数に対応する。　

　図５は、本発明によるクラスタリングシステムの第３の実施形態の構成例を示すブロック図である。本実施形態のクラスタリングシステムは、入力部３１と、分類器３２と、出力部３３と、学習器３４と、モデル記憶部３５と、実績データ記憶部３６と、条件データ記憶部３７とを備えている。

　本実施形態の入力部３１、分類器３２、出力部３３、学習器３４、モデル記憶部３５は、第１の実施形態の入力装置１１、分類器１２、出力装置１３、学習器１４、記憶部１５にそれぞれ対応するため、詳細な説明は省略する。

　実績データ記憶部３６は、店舗ごとの商品売上データを記憶する。実績データ記憶部３６は、例えば、店舗ごとに商品の販売数、売上数、販売金額などを記憶する。ただし、実績データ記憶部３６が記憶する商品売上データは、これらの内容に限定されず、例えば、ＰＯＳ（Point of Sales）データから取得可能な情報であってもよい。

　条件データ記憶部３７は、新規店舗の出店の際に取得可能な、店舗に関する統計情報を記憶する。具体的には、条件データ記憶部３７は、店舗の人口統計情報（例えば、地域ごとの人口や男女比、年代別の割合など）を記憶する。

　入力部３１と、分類器３２と、出力部３３と、学習器３４とは、プログラム（クラスタリングプログラム）に従って動作するコンピュータのＣＰＵによって実現される。入力部３１と、分類器３２と、出力部３３と、学習器３４とは、それぞれが専用のハードウェアで実現されていてもよい。また、本発明によるクラスタリングシステムは、２つ以上の物理的に分離した装置が有線または無線で接続されることにより構成されていてもよい。また、モデル記憶部３５と、実績データ記憶部３６と、条件データ記憶部３７とは、例えば、磁気ディスク装置により実現される。

　次に、本実施形態のクラスタリングシステムの動作を説明する。図６は、本実施形態のクラスタリングシステムの動作例を示すフローチャートである。図６に例示する動作例は、商品売上データのない新規店舗Ｓを店舗クラスタに分類する処理を示す。

　学習器３４は、商品売上データおよび人口統計情報に基づいて、混合比が条件変数（人口統計情報）の関数で表され、クラスタの要素分布が特徴変数（商品売上データ）の関数で表される混合分布モデルを生成し（ステップＳ２１）、生成したモデルをモデル記憶部３５に記憶する。学習器３４は、例えば、第１の実施形態で挙げたＦＡＢ推論に基づいて、混合分布モデルを生成してもよい。

　図７は、混合分布モデルの例を示す説明図である。図７に示す例では、第一の変数の関数が木構造で表される混合分布モデルを示す。図７に例示する木構造の葉ノードには、店舗クラスタが配され、それ以外のノードには、人口統計情報の条件が配される。例えば、図７に示す例では、条件ノードに人口統計の条件（性別割合、１世帯あたり人口、年代別割合）が配され、葉ノードに４つの店舗クラスタが配されていることを示す。

　式６に示す例では、Ｘ^ｃ［γ_ｉ］が人口統計情報に対応し、Ｘ^ｃ［γ_ｉ］＜ｔ_ｉのときに一方のノードへ分岐する（Ｘ^ｃ［γ_ｉ］≧ｔ_ｉのときに他方のノードへ分岐する）ことに対応する。

　入力部３１は、分類する対象データを入力する（ステップＳ２２）。具体的には、入力部３１は、新規店舗Ｓの情報として、その店舗に関する人口統計情報を入力する。分類器３２は、モデル記憶部３５に記憶された混合分布モデルに基づいて、新規店舗Ｓを分類する店舗クラスタを特定する（ステップＳ２３）。出力部３３は、特定した店舗クラスタに関する情報を出力する（ステップＳ２４）。出力部３３は、例えば、特定した店舗クラスタの商品売上データを集計した統計情報を出力してもよいし、特定した店舗クラスタの中から代表の店舗の商品売上データを出力してもよい。

　以上のように、本実施形態のクラスタリングシステムは、売上に基づいて生成される店舗クラスタに対象店舗を分類する。具体的には、入力部３１が、対象店舗の特徴を示す人口統計情報を第一の変数として入力し、分類器３２が、混合分布モデルに基づいて、入力された人口統計情報が示す対象店舗を店舗クラスタに分類する。その際、分類器３２は、混合比が人口統計情報の関数で表され、店舗クラスタの要素分布が店舗の商品売上データの関数で表される混合分布モデルを利用する。

　このような混合分布モデル（すなわち、ＰＣＣｓ）を用いることで、売上傾向に基づくクラスタを生成する一方、そのクラスタの情報を人口統計によって説明することが可能になる。

　本実施形態では、混合分布モデル（ＰＣＣｓ）を用いて、商品売上データのない新規店舗Ｓを分類するクラスタを推定する方法を例示した。一方、図７に例示するように、本実施形態の混合分布モデル（ＰＣＣｓ）は、葉ノードに店舗クラスタを配し、それ以外のノードに人口統計情報の条件を配する木構造で表すことが可能である。そのため、例えば、店舗クラスタ（葉ノード）から根ノードに向けて人口統計情報の条件を辿ることにより、所望する売上傾向が得られるような人口統計情報の条件を特定することも可能になる。

　また、本実施形態では、商品売上で店舗を分類した店舗クラスタに、新規店舗を分類する方法を例示したが、本実施形態のクラスタリングシステムの対象は新規店舗に限定されない。

　例えば、新規建物や一部のセンサデータが取得できていない建物について、電力消費のピーク値や最低値などを予測したい場合がある。このような場合、既存の建物を電力消費量等に基づいてクラスタ化しておき、例えば、特徴変数を電力消費量とし、条件変数を立地条件や建物の用途、フロア数などとして、本実施形態のクラスタリングシステムを適用する。このようにすることで、新規建物を分類するクラスタを予測できるため、このクラスタの情報に基づいて、電力消費のピーク値や最低値などを予測することが可能になる。また、このような新規建物以外にも、例えば、新商品の需要予測や在庫管理などにも、本実施形態のクラスタリングシステムを利用することが可能である。

　すなわち、本実施形態のクラスタリングシステムは、時間的な遷移により新しい分類対象が発生し、その分類対象がクラスタを特徴づける変数に関するデータを有していない場合でも、分類対象を特徴付ける別の変数に基づいて、その分類対象をクラスタに分類できる。

　次に、本発明の概要を説明する。図８は、本発明によるクラスタリグンシステムの概要を示すブロック図である。本発明によるクラスタリングシステムは、対象データ（例えば、店舗）の特徴を示す２種類の異なる変数（例えば、条件変数および特徴変数）を用いて定義される混同分布モデル（例えば、上記に示す式１）に基づいて対象データをクラスタに分類する分類器８１（例えば、分類器１２）を備えている。

　分類器８１は、混同分布モデルの混同比が第一の変数（例えば、条件変数）の関数（例えば、ｗ_ｋ）で表され、対象データを分類するクラスタの要素分布が第二の変数（例えば、特徴変数）の関数（例えば、ｐ（Ｘ^ｆ；φ_ｋ））で表される混合分布モデルに基づいて対象データをクラスタに分類する。

　そのような構成により、クラスタの特徴を示す情報を分類対象データが有しているか否かに関わらず、混合分布モデルを利用してその分類対象データを適切にクラスタリングできる。

　また、分類器８１は、第二の変数が未知（例えば、商品売上データが未知）の対象データ（例えば、新規店舗）に対し、第一の変数が示す状態（例えば、店舗人口統計情報）のもとで対象データが属する条件付き確率が最大になるクラスタを第一の変数の関数に基づいて推定（例えば、上記に示す式５を用いて推定）し、推定されたクラスタを対象データが分類されるクラスタと推定してもよい。

　そのような構成によれば、クラスタの特徴を示す情報を分類対象データが有していない場合でも、混合分布モデルを利用してその分類対象データを適切にクラスタリングできる。また、クラスタの特徴を示す情報を分類対象データが有していない場合でも、混合分布モデルを利用してその分類対象データをクラスタリングする処理を、コンピュータが適切に実行することができる。

　また、第一の変数の関数が、葉ノードに対象データを分類するクラスタが配され、葉ノード以外の他のノードである条件ノードに第一の変数の条件が配される木構造で表される確率モデルで定義されていてもよい。そして、分類器８１は、確率モデルを最適化するクラスタを対象データが分類されるクラスタと推定してもよい。

　そのような構成によれば、対象データが分類される条件を一見して把握できるため、対象データの分類方法についての解釈容易性を高めることができる。

　また、本発明のクラスタリングシステムは、売上に基づいて生成される店舗クラスタに対象店舗を分類してもよい。このとき、クラスタリングシステムは、対象店舗の特徴を示す人口統計情報を第一の変数として入力する入力部（例えば、入力部３１）を備えていてもよい。そして、分類器８１は、混合比が人口統計情報の関数で表され、店舗クラスタの要素分布が第二の変数である店舗の商品売上データの関数で表される混合分布モデルに基づいて、入力された人口統計情報が示す対象店舗を店舗クラスタに分類してもよい。

　そのような構成によれば、商品売上データを分類対象の店舗が有しているか否かに関わらず、混合分布モデルを利用してその分類対象の店舗を適切にクラスタリングできる。

　このとき、人口統計情報の関数が、葉ノードに対象店舗を分類する店舗クラスタが配され、条件ノードに人口統計情報の条件が配される木構造で表される確率モデルで定義されていてもよい。そして、分類器８１は、確率モデルを最適化するクラスタを対象店舗が分類される店舗クラスタと推定してもよい。

　以上、実施形態及び実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

　この出願は、２０１５年２月１８日に出願された米国仮出願第６２／１１７，６５９号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

　１１　入力装置
　１２，２２，３２　分類器
　１３　出力装置
　１４，３４　学習器
　１５　記憶部
　３１　入力部
　３３　出力部
　３５　モデル記憶部
　３６　実績データ記憶部
　３７　条件データ記憶部

Claims

　対象データの特徴を示す２種類の異なる変数を用いて定義される混同分布モデルに基づいて前記対象データをクラスタに分類する分類器を備え、
　前記分類器は、前記混同分布モデルの混同比が第一の変数の関数で表され、前記対象データを分類するクラスタの要素分布が第二の変数の関数で表される混合分布モデルに基づいて前記対象データをクラスタに分類する
　ことを特徴とするクラスタリングシステム。
　分類器は、第二の変数が未知の対象データに対し、第一の変数が示す状態のもとで前記対象データが属する条件付き確率が最大になるクラスタを第一の変数の関数に基づいて推定し、推定されたクラスタを対象データが分類されるクラスタと推定する
　請求項１記載のクラスタリングシステム。
　第一の変数の関数が、葉ノードに対象データを分類するクラスタが配され、葉ノード以外の他のノードである条件ノードに第一の変数の条件が配される木構造で表される確率モデルで定義され、
　分類器は、前記確率モデルを最適化するクラスタを対象データが分類されるクラスタと推定する
　請求項１または請求項２に記載のクラスタリングシステム。
　売上に基づいて生成される店舗クラスタに対象店舗を分類するクラスタリングシステムであって、
　前記対象店舗の特徴を示す人口統計情報を第一の変数として入力する入力部を備え、
　分類器は、混合比が前記人口統計情報の関数で表され、前記店舗クラスタの要素分布が第二の変数である店舗の商品売上データの関数で表される混合分布モデルに基づいて、入力された人口統計情報が示す対象店舗を前記店舗クラスタに分類する
　請求項１から請求項３のうちのいずれか１項に記載のクラスタリングシステム。
　人口統計情報の関数が、葉ノードに対象店舗を分類する店舗クラスタが配され、条件ノードに人口統計情報の条件が配される木構造で表される確率モデルで定義され、
　分類器は、前記確率モデルを最適化するクラスタを対象店舗が分類される店舗クラスタと推定する
　請求項４記載のクラスタリングシステム。
　コンピュータが、対象データの特徴を示す２種類の異なる変数を用いて定義される混同分布モデルに基づいて前記対象データをクラスタに分類し、
　その分類の際、前記コンピュータが、前記混同分布モデルの混同比が第一の変数の関数で表され、前記対象データを分類するクラスタの要素分布が第二の変数の関数で表される混合分布モデルに基づいて前記対象データをクラスタに分類する
　ことを特徴とするクラスタリング方法。
　コンピュータが、第二の変数が未知の対象データに対し、第一の変数が示す状態のもとで前記対象データが属する条件付き確率が最大になるクラスタを第一の変数の関数に基づいて推定し、推定されたクラスタを対象データが分類されるクラスタと推定する
　請求項６記載のクラスタリング方法。
　コンピュータに、
　対象データの特徴を示す２種類の異なる変数を用いて定義される混同分布モデルに基づいて前記対象データをクラスタに分類する分類処理を実行させ、
　前記分類処理で、前記混同分布モデルの混同比が第一の変数の関数で表され、前記対象データを分類するクラスタの要素分布が第二の変数の関数で表される混合分布モデルに基づいて前記対象データをクラスタに分類させる
　ためのクラスタリングプログラム。
　コンピュータに、
　分類処理で、第二の変数が未知の対象データに対し、第一の変数が示す状態のもとで前記対象データが属する条件付き確率が最大になるクラスタを第一の変数の関数に基づいて推定させ、推定されたクラスタを対象データが分類されるクラスタと推定させる
　請求項８記載のクラスタリングプログラム。