WO2019198165A1

WO2019198165A1 - 情報処理装置、データ分類支援システム及び方法、非一時的なコンピュータ可読媒体

Info

Publication number: WO2019198165A1
Application number: PCT/JP2018/015144
Authority: WO
Inventors: 圭吾木村
Original assignee: 日本電気株式会社
Priority date: 2018-04-10
Filing date: 2018-04-10
Publication date: 2019-10-17

Abstract

情報処理装置（１）は、Ｍ（Ｍは２以上の自然数。）種類の特徴量を有し、かつ、Ｌ（Ｌは２以上の自然数。）種類のラベルのそれぞれの有無が定義されたＮ（Ｎは２以上の自然数。）件のデータのうち一部を複数のグループのいずれかに割り当てるための複数の割当条件を設定する設定部（１１）と、Ｎ件のデータのうち、同一の割当条件に該当する２以上のデータを同一のグループに割り当てて、複数のグループに基づいて複数の基礎クラスタを構築する基礎クラスタ構築部（１２）と、複数の基礎クラスタに対して、クラスタの統合及び洗練を行い、Ｎ件のデータのそれぞれについてのクラスタの割り当てを決定するクラスタ割当部（１３）と、を備える。

Description

情報処理装置、データ分類支援システム及び方法、非一時的なコンピュータ可読媒体

　本発明は、情報処理装置、データ分類支援システム、データ分類支援方法、及び、データ分類支援プログラムが格納された非一時的なコンピュータ可読媒体に関し、特に、超マルチラベル分類問題を解くためのデータ分類を支援するための情報処理装置、データ分類支援システム、データ分類支援方法、及び、データ分類支援プログラムが格納された非一時的なコンピュータ可読媒体に関する。

　「マルチラベル分類」（Multi-Label classification）と呼ばれる分類問題は、あるデータについてそのデータの特徴から該当するカテゴリに分類する際に、１つのデータが複数のカテゴリ（ラベル）に同時に属する（分類される）ことを許容する分類問題である。すなわち、「マルチラベル分類」という分類問題は、未だラベルが付されていないデータ（つまり、未分類データ）に付される１つ又は複数のラベルを推定する問題である。換言すると、「マルチラベル分類」という分類問題は、未分類データに付される１つ又は複数のラベルを算出する分類器を形成する問題である。

　ここで、「超大規模マルチラベル分類」（eXtreme Multi-Label classification）と呼ばれるマルチラベル分類問題は、データ数、データを表現する特徴数、及び、ラベル数が膨大なマルチラベル分類である。例えば、超大規模マルチラベル分類問題には、特徴数やラベル数が数百万以上に及ぶものが該当する。超大規模マルチラベル分類問題を解くためには、分類対象のデータ群を予め複数のグループに分割し、分割された各グループごとの比較的小さな問題に対して独立に従来のマルチラベル分類問題を解く、という方法が有効であることが知られている。例えば、非特許文献１及び非特許文献２が挙げられる。

　非特許文献１は、データの分割にK-means法を用いて、近しい特徴を持つデータを単純に分割する手法である。また、非特許文献２は、データの分割にGraph-Cut手法を用いるものである。つまり、非特許文献２は、データを一つのノード、複数のラベル共有するデータ間（ノード間）にはエッジを張るということを行うことによって得られるK近傍グラフからデータ分割を行う手法である。これによってラベルの情報を利用し、分割後のマルチラベル分類の精度を高くすることができることが知られている。

　尚、特許文献１には、学習用のデータセットから所定のデータペアを生成して超平面を学習する学習方法に関する技術が開示されている。当該学習方法では、データセットに含まれる各特徴量ベクトルに付与されたラベルの数、ラベルの種類の数、同一ラベルが付与された特徴量ベクトルの数等を計数する。

　また、特許文献２には、学習対象データに対して識別情報（ラベル）を付与するための識別情報付与装置に関する技術が開示されている。当該識別情報付与装置は、まず、学習対象から抽出された特徴ベクトルと、学習対象に付与された識別情報とを組みにした学習データに基づいて決定木を作成する。そして、当該識別情報付与装置は、決定木に基づいて各データのグループ化を行う。

　また、特許文献３には、マルチラベルの文書を含む文書集合からカテゴリごとの特徴語群を抽出する特徴語抽出システムに関する技術が開示されている。当該特徴語抽出システムは、まず、マルチラベルの文書を含む文書集合について、同一カテゴリ数の文書集合にグループ分けする。そして、当該特徴語抽出システムは、グループ分けした文書集合がマルチラベル文書の集合であればシングルラベル文書の集合に分割する。その後、当該特徴語抽出システムは、分割したシングルラベル文書の文書集合からカテゴリごとの特徴語の抽出を行う。

国際公開２０１４／１１８９７６号特開２０１３－０５４５１２号公報特開２００４－０３０２０２号公報

K. Bhatia, H. Jain, P. Kar, M. Varma and P. Jain. Sparse local embeddings for extreme multi-label classification. In Advances in Neural Information Processing Systems, Montreal, Canada, December 2015. Tagami, Yukihiro. AnnexML: Approximate Nearest Neighbor Search for Extreme Multi-label Classification. Proceedings of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2017.

　しかしながら、非特許文献１及び２には、超大規模マルチラベル分類問題を解くために事前に行われるデータ分割時の分割のされ方によって、その後の分類精度が依存してしまい、分類精度が低くなってしまうおそれがあるという問題点がある。

　例えば、非特許文献１では、超大規模マルチラベル分類問題の分割を行う際にラベルの情報を使っていないために、当該問題の分割のされ方によっては、分割後のマルチラベル分類器の精度が低い可能性がある。特に、出現頻度が小さいラベルがデータ分割によって異なるグループ（問題）へと分割された場合には、そのラベルに対する分類器の構築がより困難になるため、精度が低くなる。

　また、非特許文献２では、出現頻度の低いラベルを必ず同じクラスタへと割り当てるわけではない。そのため、非特許文献１と同様に、出現頻度が小さいラベルがデータ分割によって異なるグループ（問題）へと分割され、分割後のマルチラベル分類器の精度が低くなる可能性がある。また、非特許文献２にかかる技術では、K近傍グラフの構築に大きな計算時間を必要とする。

　尚、特許文献１から３にかかる技術についても上述した問題点を解決するものではない。

　本開示は、このような問題点を解決するためになされたものであり、超大規模マルチラベル分類問題を解くための分類精度を向上するための情報処理装置、データ分類支援システム、データ分類支援方法、及び、データ分類支援プログラムを提供することを目的とする。

　本開示の第１の態様にかかる情報処理装置は、
　Ｍ（Ｍは２以上の自然数。）種類の特徴量を有し、かつ、Ｌ（Ｌは２以上の自然数。）種類のラベルのそれぞれの有無が定義されたＮ（Ｎは２以上の自然数。）件のデータのうち一部を複数のグループのいずれかに割り当てるための複数の割当条件を設定する設定部と、
　前記Ｎ件のデータのうち、同一の前記割当条件に該当する２以上のデータを同一のグループに割り当てて、前記複数のグループに基づいて複数の基礎クラスタを構築する基礎クラスタ構築部と、
　前記複数の基礎クラスタに対して、クラスタの統合及び洗練を行い、前記Ｎ件のデータのそれぞれについてのクラスタの割り当てを決定するクラスタ割当部と、
　を備える。

　本開示の第２の態様にかかるデータ分類支援システムは、
　Ｍ（Ｍは２以上の自然数。）種類の特徴量を有し、かつ、Ｌ（Ｌは２以上の自然数。）種類のラベルのそれぞれの有無が定義されたＮ（Ｎは２以上の自然数。）件のデータを記憶する記憶部と、
　前記記憶部に記憶された前記Ｎ件のデータのうち一部を複数のグループのいずれかに割り当てるための複数の割当条件を設定する設定部と、
　前記Ｎ件のデータのうち、同一の前記割当条件に該当する２以上のデータを同一のグループに割り当てて、前記複数のグループに基づいて複数の基礎クラスタを構築する基礎クラスタ構築部と、
　前記複数の基礎クラスタに対して、クラスタの統合及び洗練を行い、前記Ｎ件のデータのそれぞれについてのクラスタの割り当てを決定するクラスタ割当部と、
　を備える。

　本開示の第３の態様にかかるデータ分類支援方法は、
　コンピュータが、
　Ｍ（Ｍは２以上の自然数。）種類の特徴量を有し、かつ、Ｌ（Ｌは２以上の自然数。）種類のラベルのそれぞれの有無が定義されたＮ（Ｎは２以上の自然数。）件のデータのうち一部を複数のグループのいずれかに割り当てるための複数の割当条件を設定し、
　前記Ｎ件のデータのうち、同一の前記割当条件に該当する２以上のデータを同一のグループに割り当てて、前記複数のグループに基づいて複数の基礎クラスタを構築し、
　前記複数の基礎クラスタに対して、クラスタの統合及び洗練を行い、前記Ｎ件のデータのそれぞれについてのクラスタの割り当てを決定する。

　本開示の第４の態様にかかるデータ分類支援プログラムは、
　Ｍ（Ｍは２以上の自然数。）種類の特徴量を有し、かつ、Ｌ（Ｌは２以上の自然数。）種類のラベルのそれぞれの有無が定義されたＮ（Ｎは２以上の自然数。）件のデータのうち一部を複数のグループのいずれかに割り当てるための複数の割当条件を設定する処理と、
　前記Ｎ件のデータのうち、同一の前記割当条件に該当する２以上のデータを同一のグループに割り当てて、前記複数のグループに基づいて複数の基礎クラスタを構築する処理と、
　前記複数の基礎クラスタに対して、クラスタの統合及び洗練を行い、前記Ｎ件のデータのそれぞれについてのクラスタの割り当てを決定する処理と、
　をコンピュータに実行させる。

　本発明により、超大規模マルチラベル分類問題を解くための分類精度を向上するための情報処理装置、データ分類支援システム、データ分類支援方法、及び、データ分類支援プログラムを提供することができる。

本実施の形態１にかかる情報処理装置の構成を示すブロック図である。本実施の形態１にかかるデータ分類支援方法の流れを説明するためのフローチャートである。本実施の形態２にかかるデータ分類支援システムの全体構成を示すブロック図である。本実施の形態２にかかる特徴行列とラベル行列の関係の概念を説明する図である。本実施の形態２にかかるクラスタ割当情報の概念を説明する図である。本実施の形態２にかかるデータ分類支援方法の流れを説明するためのフローチャートである。本実施の形態２にかかるクラスタ構成の階層構造の例を説明する図である。本実施の形態３にかかるデータ分類支援システムの全体構成を示すブロック図である。本実施の形態３にかかる学習される分岐関数の概念を説明する図である。本実施の形態３にかかるデータ分類支援方法の流れを説明するためのフローチャートである。本実施の形態４にかかるデータ分類支援システムの全体構成を示すブロック図である。

　以下では、本開示の実施の形態について、図面を参照しながら詳細に説明する。各図面において、同一又は対応する要素には同一の符号が付されており、説明の明確化のため、必要に応じて重複説明は省略される。

＜実施の形態１＞
　図１は、本実施の形態１にかかる情報処理装置１の構成を示すブロック図である。情報処理装置１は、Ｎ（Ｎは２以上の自然数。）件のデータについてクラスタ分析を行うコンピュータである。そして、当該クラスタ分析の結果は、マルチラベル分類問題を解くための分類器の形成に用いることができる。ここで、Ｎ件のデータのそれぞれは、Ｍ（Ｍは２以上の自然数。）種類の特徴量を有するものである。また、Ｎ件のデータのそれぞれは、Ｌ（Ｌは２以上の自然数。）種類のラベルのそれぞれの有無が定義されている。尚、Ｍ種類の特徴量、Ｌ種類のラベル、及び、Ｎ件のデータのそれぞれは、百万以上である。そのため、本実施の形態１にかかる情報処理装置１は、超大規模マルチラベル分類問題を解くための分類器を形成するために用いることができる。

　情報処理装置１は、設定部１１と、基礎クラスタ構築部１２と、クラスタ割当部１３とを備える。設定部１１は、Ｎ件のデータのうち一部を複数のグループのいずれかに割り当てるための複数の割当条件を設定する。つまり、割当条件は、Ｎ件のデータのうち一部のデータに対して適用される条件情報である。例えば、割当条件は、各データにおける特徴量又はラベルの有無の条件を定義した情報である。

　基礎クラスタ構築部１２は、Ｎ件のデータのうち、同一の割当条件に該当する２以上のデータを同一のグループに割り当てて、複数のグループに基づいて複数の基礎クラスタを構築する。ここで、基礎クラスタ構築部１２は、Ｎ件のデータのうち割当条件の適用対象となる少なくとも一部のデータに対して、複数のグループのいずれかに割り当てるものであればよい。そして、基礎クラスタ構築部１２は、１つのグループをそのまま１つの基礎クラスタとして構築してもよい。または、基礎クラスタ構築部１２は、複数のグループを統合して１つの基礎クラスタとして構築してもよい。そのため、基礎クラスタとは、Ｎ件のデータのうち１以上のデータが所属するデータの集合である。また、基礎クラスタには、Ｎ件のデータのうち割当条件の適用対象外のデータが含まれても良い。この時、割当条件の適用対象外のデータを割り当てる条件は、当該割当条件以外のものであればよい。尚、複数の基礎クラスタの間で所属するデータの重複があっても構わないものとする。つまり、基礎クラスタに割り当てられた各データは、他の基礎クラスタに所属しても構わない。

　クラスタ割当部１３は、基礎クラスタ構築部１２により構築された複数の基礎クラスタに対して、クラスタの統合及び洗練（sophisticate）を行い、Ｎ件のデータのそれぞれについてのクラスタの割り当てを決定する。尚、クラスタの統合及び洗練には、公知の技術を用いることが可能である。但し、クラスタ割当部１３は、複数の基礎クラスタをそのまま最終的なクラスタとするのではなく、少なくとも複数の基礎クラスタを所定の方法で統合し、その後、統合後のクラスタを所定の方法で洗練、つまり、分割することにより、複数のクラスタを生成するものとする。そのため、複数の基礎クラスタのいずれかに割り当てられた各データは、クラスタ割当部１３により生成された複数のクラスタの少なくとも１つ以上に割り当てられることとなる。

　尚、情報処理装置１は、図示しない構成としてプロセッサ、メモリ、記憶装置を備えるものである。また、当該記憶装置には、本実施の形態にかかるデータ分類支援処理が実装されたコンピュータプログラムが記憶されている。そして、当該プロセッサは、記憶装置からコンピュータプログラムを前記メモリへ読み込み、当該コンピュータプログラムを実行する。これにより、前記プロセッサは、設定部１１、基礎クラスタ構築部１２及びクラスタ割当部１３の機能を実現する。

　尚、前記記憶装置は、上述したＮ件のデータをさらに記憶するものであってもよい。その場合、設定部１１は、前記記憶装置からＮ件のデータを取得して、前記メモリへ一時的に保存し、前記設定を行う。または、上述したＮ件のデータは、情報処理装置１と通信回線を介して接続された外部の記憶装置に記憶されたものであってもよい。その場合、設定部１１は、通信回線を介して前記外部の記憶装置からＮ件のデータを取得して、前記メモリへ一時的に保存し、前記設定を行う。

　また、設定部１１は、前記割当条件を少なくとも前記メモリに一時的に保存することにより前記設定を行う。そして、基礎クラスタ構築部１２は、前記メモリに保存されたＮ件のデータ及び割当条件を参照して、グループへの割り当て及び基礎クラスタを構築し、構築した複数の基礎クラスタを少なくとも前記メモリに保存する。そして、クラスタ割当部１３は、前記メモリに保存されたＮ件のデータ及び基礎クラスタを参照して、クラスタの割り当てを決定し、決定したクラスタの割り当てを少なくとも前記メモリに保存する。また、クラスタ割当部１３は、決定したクラスタの割り当てを前記記憶装置に保存するか、情報処理装置１の外部へ出力してもよい。

　図２は、本実施の形態１にかかるデータ分類支援方法の流れを説明するためのフローチャートである。まず、設定部１１は、Ｎ（Ｎは２以上の自然数。）件のデータのうち一部を複数のグループのいずれかに割り当てるための複数の割当条件を設定する（Ｓ１１）。次に、基礎クラスタ構築部１２は、Ｎ件のデータのうち、同一の割当条件に該当する２以上のデータを同一のグループに割り当てて複数のグループとする。そして、基礎クラスタ構築部１２は、割り当てられた複数のグループに基づいて複数の基礎クラスタを構築する（Ｓ１２）。そして、クラスタ割当部１３は、複数の基礎クラスタに対して、クラスタの統合及び洗練を行い、Ｎ件のデータのそれぞれについてのクラスタの割り当てを決定する（Ｓ１３）。

　このように、本実施の形態により、超大規模マルチラベル分類問題を解くための分類精度を向上することができる。すなわち、本実施の形態にかかるデータ分類支援方法は、Ｎ件のデータ全てに対して一律に同じ条件で初期の分類（データ分割）を行うのではなく、特定の割当条件を満たす一部のデータに対して、特定の基礎クラスタに割り当てるものである。そのため、例えば、Ｌ件のラベルのうち全データの中で出現頻度が相対的に低いラベルを有するデータについては、特定の分割ルールを適用して特定の基礎クラスタに割り当てることができる。つまり、出現頻度の低いラベルが付されたデータが異なる基礎クラスタに分散されてしまうことを防ぐことができる。そして、このようにして割り当てられた基礎クラスタに対してクラスタの統合及び洗練を行うため、その後のクラスタの割り当てを用いて分類器の学習を行う際に、学習処理時間を短縮し、かつ、精度良く学習できる。そのため、分類精度の高い分類器を形成できる。よって、超大規模マルチラベル分類問題を精度良く、解くことができる。

　尚、本実施の形態で対象とする超大規模マルチラベル分類問題としては、例えば、マルウェアに複数のカテゴリを分類する問題が挙げられる。そのため、本実施の形態にかかる情報処理装置１は、マルウェア分類支援装置と呼ぶことができる。また、本実施の形態で対象とする超大規模マルチラベル分類問題としては、例えば、動画データに複数のタグを付与する問題が挙げられる。そのため、本実施の形態にかかる情報処理装置１は、動画データタグ付け支援装置と呼ぶこともできる。また、本実施の形態で対象とする超大規模マルチラベル分類問題としては、例えば、Ｗｅｂページを推薦するためにＷｅｂページに複数のラベルを付与する問題が挙げられる。そのため、本実施の形態にかかる情報処理装置１は、Ｗｅｂページ推薦支援装置と呼ぶこともできる。

＜実施の形態２＞
　本実施の形態２は、上述した実施の形態１の応用例である。本実施の形態２にかかるデータ分類支援システムは、記憶部と、設定部と、基礎クラスタ構築部と、クラスタ割当部とを備える。記憶部は、Ｍ種類の特徴量を有し、かつ、Ｌ種類のラベルのそれぞれの有無が定義されたＮ件のデータを記憶する。尚、設定部と、基礎クラスタ構築部と、クラスタ割当部とは、少なくとも上述した実施の形態１と同様の機能を有するものであればよい。

　また、前記設定部は、前記Ｌ種類のラベルのうち一部のラベルを有することを前記割当条件として設定するものである。このように、ラベルの有無を基礎クラスタの割り当て基準とすることで、ラベルに基づく分類精度を向上させることができる。

　さらに、前記設定部は、前記Ｎ件のデータ内でのラベルの出現頻度に基づいて、前記Ｌ種類のラベルのうち一部のラベルを注目ラベルとして選択し、当該注目ラベルの集合を前記割当条件として設定することが望ましい。そして、前記基礎クラスタ構築部は、前記Ｎ件のデータのうち、同一の前記注目ラベルが有と定義された２以上のデータを同一のグループに割り当てて、前記基礎クラスタを構築することが望ましい。これにより、ラベルの出現頻度に基づく注目ラベルを加味して基礎クラスタを構築できるため、ラベルが共通するデータを同一の基礎クラスタに割り当てられて、分類精度が向上する。

　さらに、前記設定部は、前記Ｌ種類のラベルのそれぞれについて前記Ｎ件のデータ内でのラベルの出現頻度を算出し、前記Ｌ種類のラベルのうち前記出現頻度が大きい順で所定の順位より低いラベルを前記注目ラベルとして選択するとよい。これにより、出現頻度の低いラベルが付加された２以上のデータが異なる基礎クラスタに割り当てられることを防げるため、分類精度が向上する。

　さらに、前記設定部は、前記Ｎ件のデータのそれぞれに対応し、かつ、前記Ｌ種類のラベルのそれぞれの有無を要素とするＮ件のラベルベクトルから算出した前記ラベルの出現頻度に基づいて、前記注目ラベルを選択するとよい。そして、前記基礎クラスタ構築部は、前記Ｎ件のラベルベクトルのうち同一の前記注目ラベルを有とした要素を有する２以上のラベルベクトルを、同一のグループに割り当てて、前記基礎クラスタを構築するとよい。これにより、特徴量ベクトルを用いずとも、精度の高い基礎クラスタを構築できるため、処理性能が向上する。

　さらに、前記基礎クラスタ構築部は、前記Ｎ件のデータのうち特定のデータが２以上の前記割当条件に該当する場合、各割当条件に対応する異なる２以上のグループに当該特定データを割り当てて、各グループのそれぞれを前記基礎クラスタとして構築するとよい。これにより、割当条件を直接反映した基礎クラスタを構築することができ、基礎クラスタをきめ細かく定義できる。

　さらに、前記基礎クラスタ構築部は、前記Ｎ件のデータのうち特定のデータについて、２以上のグループに割り当てられた場合、当該２以上のグループを統合して１の前記基礎クラスタとして構築するとよい。これにより、分類精度を維持しつつ、基礎クラスタの数を減らし、その後のクラスタ統合及び洗練処理の効率を向上させることができる。

　さらに、前記クラスタ割当部は、次のように処理することが望ましい。まず、前記クラスタ割当部は、前記基礎クラスタに属する各データの前記特徴量又は前記ラベルの有無に基づいて、前記複数の基礎クラスタを階層化して前記クラスタの統合を行い、当該統合による階層構造を記録する。次に、前記クラスタ割当部は、前記統合後のクラスタから、前記階層構造のうち所定の階層までクラスタを分割する。そして、前記クラスタ割当部は、前記Ｎ件のデータのそれぞれについて前記分割したクラスタのいずれかに属するように、前記クラスタの割り当てを決定する。例えば、凝集型クラスタリングにより、その階層構造は、一部の条件を満たすデータについて効果的に割り当てられた基礎クラスタから統合されたものとなる。そのため、特定条件を満たすデータが予め下位階層で同一クラスタに分類されている確率が高く、精度の高いクラスタ割り当てを決定することが可能となる。

　また、前記Ｍ種類の特徴量、前記Ｌ種類のラベル、及び、前記Ｎ件のデータのそれぞれは、百万以上である。これにより、超大規模マルチラベル分類問題に適用できる。

　図３は、本実施の形態２にかかるデータ分類支援システム１００の全体構成を示すブロック図である。データ分類支援システム１００は、１又は複数台のコンピュータ装置により実現される。データ分類支援システム１００は、記憶部１１０と、制御部１２０と、メモリ１３０と、ＩＦ（InterFace）部１４０とを備える。

　記憶部１１０は、ハードディスク、フラッシュメモリ等の記憶装置である。記憶部１１０は、特徴行列１１１と、ラベル行列１１２と、注目ラベル定義１１３と、注目ラベル集合１１４と、クラスタ割当情報１１５と、戻し条件１１６と、プログラム１１７とを備える。

　特徴行列１１１は、Ｎ件のデータのそれぞれをＭ次元の特徴ベクトルで表現したものである。ここで、Ｍ次元の各要素は、上述したＭ種類の特徴量に相当する。そして、特徴行列１１１は、各行が各データの特徴ベクトルに対応する。

　ラベル行列１１２は、Ｎ件のデータのそれぞれについてＬ種類のラベルのそれぞれの有無を定義したラベルベクトルで表現したものである。そして、ラベル行列１１２は、各行が各データのラベルベクトルに対応する。つまり、ラベル行列１１２は、各要素がラベルの有無を示すバイナリ行列といえる。例えば、ラベル行列１１２のＩ行目Ｊ列目の要素が１である場合、Ｉ番目のデータはＪ番目のラベルを有することを示す。一方、Ｉ行目Ｊ列目の要素が０である場合、Ｉ番目のデータはＪ番目のラベルを有さないことを示す。

　図４は、本実施の形態２にかかる特徴行列１１１とラベル行列１１２の関係の概念を説明する図である。特徴行列１１１は、Ｎ件の特徴ベクトル１１１１、１１１２、・・・１１１Ｎを備える。そして、例えば、特徴ベクトル１１１１は、Ｍ種類の特徴量１１１１１、・・・１１１１Ｍを有する。また、他の特徴ベクトル１１１２、・・・１１１Ｎのそれぞれについても同様にＭ種類の特徴量を有する。ラベル行列１１２は、Ｎ件のラベルベクトル１１２１、１１２２、・・・１１２Ｎを備える。そして、例えば、ラベルベクトル１１２１は、Ｌ種類のラベルフラグ１１２１１、・・・１１２１Ｌを有する。また、他のラベルベクトル１１２２、・・・１１２Ｎのそれぞれについても同様にＬ種類のラベルを有する。

　図３に戻り説明を続ける。注目ラベル定義１１３は、後述する注目ラベル設定部１２２により注目ラベルを設定する際に用いる注目ラベルを選択する際の定義である。ここで、注目ラベルとは、上述した割当条件の一例であり、後述する基礎クラスタ構築部１２３が基礎クラスタを構築する際に、同一のグループに割り当てる際の基準となるラベルの種類を示す。そのため、注目ラベルとは、同じ注目ラベルを持つデータ同士を強制的に同じ基礎クラスタへと割り当てさせるための制約条件ともいえる。そして、注目ラベル定義１１３は、ユーザにより任意の定義が設定されてもよい。例えば、注目ラベル定義１１３は、Ｌ種類のラベルのうち出現頻度が所定の順位より低いものを注目ラベルとして設定する場合、所定の順位の定義としてもよい。または、注目ラベル定義１１３は、Ｌ種類のラベルのうち出現頻度が最下位、つまり、出現頻度が最も少ないラベルという定義としてもよい。

　注目ラベル集合１１４は、Ｌ種類のラベルのうち、注目ラベル設定部１２２により選択された注目ラベルの集合である。

　クラスタ割当情報１１５は、特徴行列１１１及びラベル行列１１２の各行に対応するＮ件のデータのそれぞれが割り当てられた複数のクラスタを示す情報である。クラスタ割当情報１１５は、基礎クラスタ情報１１５１及び階層構造情報１１５２を含む。

　図５は、本実施の形態２にかかるクラスタ割当情報１１５の概念を説明する図である。基礎クラスタ情報１１５１は、複数の基礎クラスタ１１５１１、１１５１２、・・・を含む。尚、基礎クラスタの数は、２以上かつＮ未満となる。基礎クラスタは、１以上のデータの識別情報又はデータの保存先アドレスへのリンクの集合である。基礎クラスタは、後述するクラスタ統合部１２４におけるクラスタ統合の統合対象となるクラスタの最小単位である。例えば、基礎クラスタは、クラスタＩＤ、所属するデータのＩＤ、当該基礎クラスタへの割当条件等を含むとよい。

　階層構造情報１１５２は、複数のノード情報１１５２１、１１５２２、・・・を含む。尚、ノード情報の数は、基礎クラスタの数以上となる。ノード情報は、基礎クラスタ及び複数の基礎クラスタを統合した統合クラスタにおける階層構造を定義するための情報である。ノード情報は、例えば、ノードＩＤ、左ノードＩＤ、右ノードＩＤを含む。例えば、基礎クラスタに対応するノード情報におけるノードＩＤは、当該基礎クラスタのクラスタＩＤである。また、統合クラスタに対応するノード情報におけるノードＩＤは、当該統合クラスタのクラスタＩＤである。尚、クラスタ割当情報、基礎クラスタ情報、基礎クラスタ、階層構造情報、ノード情報の具体的な構成は上述したものに限定されない。

　図３に戻り説明を続ける。戻し条件１１６は、後述するクラスタ洗練部１２５により統合後のクラスタを洗練、分割する（統合したクラスタを分割して戻す）際の条件を定義した情報である。プログラム１１７は、データ分類支援プログラムの一例であり、本実施形態にかかるデータ分類支援処理が実装されたコンピュータプログラムである。

　尚、注目ラベル集合１１４及びクラスタ割当情報１１５は、必ずしも記憶部１１０に記憶される必要はなく、基礎クラスタ構築部１２３、クラスタ統合部１２４及びクラスタ洗練部１２５の処理中に少なくともメモリ１３０に保持されていればよい。

　メモリ１３０は、ＲＡＭ（Random Access Memory）等の揮発性記憶装置であり、制御部１２０の動作時に一時的に情報を保持するための記憶領域である。ＩＦ部１４０は、データ分類支援システム１００の外部との入出力を行うインタフェースである。例えば、ＩＦ部１４０は、キーボード、マウス、タッチパネル等の入力デバイス（不図示）を介して、ユーザの操作を受け付け、受け付けた操作内容を制御部１２０へ出力する。また、ＩＦ部１４０は、制御部１２０からの指示に応じて、タッチパネル、表示装置、プリンタ等（不図示）へ出力を行う。

　制御部１２０は、ＣＰＵ（Central Processing Unit）等のプロセッサであり、データ分類支援システム１００の各構成を制御する。制御部１２０は、記憶部１１０からプログラム１１７をメモリ１３０へ読み込み、プログラム１１７を実行する。これにより、制御部１２０は、入力取得部１２１、注目ラベル設定部１２２、基礎クラスタ構築部１２３、クラスタ統合部１２４及びクラスタ洗練部１２５の機能を実現する。尚、注目ラベル設定部１２２は、上述した設定部１１の一例である。また、基礎クラスタ構築部１２３は、上述した基礎クラスタ構築部１２の一例である。また、クラスタ統合部１２４及びクラスタ洗練部１２５は、上述したクラスタ割当部１３の一例である。

　入力取得部１２１は、記憶部１１０から特徴行列１１１及びラベル行列１１２を入力として取得する。そして、入力取得部１２１は、特徴行列１１１及びラベル行列１１２の少なくとも一方を注目ラベル設定部１２２へ出力する。尚、以下の説明では、入力取得部１２１は、ラベル行列１１２を注目ラベル設定部１２２へ出力するものとする。また、入力取得部１２１は、特徴行列１１１及びラベル行列１１２を基礎クラスタ構築部１２３へ出力する。

　注目ラベル設定部１２２は、記憶部１１０内の注目ラベル定義１１３を参照し、ラベル行列１１２を解析して、Ｌ種類のラベルのうち一部のラベルを有することを割当条件として設定する。具体的には、注目ラベル設定部１２２は、ラベル行列１１２内でのラベルの出現頻度に基づいて、Ｌ種類のラベルのうち一部のラベルを注目ラベルとして選択する。そして、注目ラベル設定部１２２は、選択した注目ラベルの集合である注目ラベル集合１１４を割当条件として設定する。例えば、注目ラベル設定部１２２は、Ｌ種類のラベルのそれぞれについてＮ件のラベルベクトル内でのラベルの出現頻度を算出する。そして、注目ラベル定義１１３に順位が定義されていた場合、注目ラベル設定部１２２は、Ｌ種類のラベルのうち出現頻度が大きい順で所定の順位より低いラベルを注目ラベルとして選択する。尚、注目ラベル設定部１２２は、注目ラベル集合１１４を基礎クラスタ構築部１２３へ出力する。このとき、注目ラベル設定部１２２は、メモリ１３０又は記憶部１１０を介して注目ラベル集合１１４を基礎クラスタ構築部１２３へ受け渡しても良い。

　基礎クラスタ構築部１２３は、特徴行列１１１、ラベル行列１１２及び注目ラベル集合１１４を受け付け、凝集型クラスタリングの際に凝集するクラスタの最小単位である基礎クラスタを構築して、クラスタ統合部１２４へ出力する。すなわち、基礎クラスタ構築部１２３は、Ｎ件のデータ（特徴ベクトル又はラベルベクトル）のうち、同一の注目ラベルが有と定義された２以上のデータを同一のグループに割り当てて、複数の基礎クラスタを構築する。例えば、基礎クラスタ構築部１２３は、Ｎ件のラベルベクトルのうち同一の注目ラベルを有とした要素を有する２以上のラベルベクトルを、同一のグループに割り当てて、基礎クラスタを構築する。また、基礎クラスタ構築部１２３は、Ｎ件のデータのうち特定のデータについて、複数の注目ラベルが有と定義されていた場合、各注目ラベルに対応する異なる２以上のグループに当該特定のデータを割り当てる。この場合、基礎クラスタ構築部１２３は、各グループのそれぞれを別個の基礎クラスタとして構築してもよい。または、基礎クラスタ構築部１２３は、Ｎ件のデータのうち特定のデータについて、２以上のグループに割り当てられた場合、当該２以上のグループを統合して１の基礎クラスタとして構築することができる。例えば、基礎クラスタ構築部１２３は、あるラベルベクトルが２以上の注目ラベルを有する場合、それぞれの注目ラベルに対応するグループを統合して１つの基礎クラスタとしてもよい。尚、注目ラベルを有さないデータの扱いは任意とする。例えば、基礎クラスタ構築部１２３は、注目ラベルを有さないラベルベクトルについては、上記とは異なるクラスタリング手法を用いて基礎クラスタに割り当てても良い。または、基礎クラスタ構築部１２３は、注目ラベルを有さないラベルベクトルについて基礎クラスタの構築に用いなくても良い。尚、基礎クラスタ構築部１２３は、構築した複数の基礎クラスタを基礎クラスタ情報１１５１に含めてメモリ１３０又は記憶部１１０に記憶し、メモリ１３０又は記憶部１１０を介してクラスタ統合部１２４へ受け渡しても良い。尚、入力取得部１２１又は基礎クラスタ構築部１２３は、特徴行列１１１及びラベル行列１１２をクラスタ統合部１２４及びクラスタ洗練部１２５へ出力する。

　クラスタ統合部１２４は、特徴行列１１１、ラベル行列１１２及び基礎クラスタ情報１１５１を受け付け、凝集型クラスタリングを行う。そして、クラスタ統合部１２４は、クラスタを統合する際の階層構造情報１１５２を木構造として記録し、基礎クラスタ情報１１５１及び階層構造情報１１５２をクラスタ洗練部１２５へ出力する。すなわち、クラスタ統合部１２４は、基礎クラスタに属する各データの特徴量又はラベルの有無に基づいて、複数の基礎クラスタを階層化してクラスタの統合を行い、当該統合による階層構造を記録する。尚、基礎クラスタ構築部１２３又はクラスタ統合部１２４は、各基礎クラスタに対応する上述したノード情報を生成しているものとする。

　ここで、クラスタ統合部１２４は、各基礎クラスタについて所属するデータの特徴ベクトル又はラベルベクトルから、所定の距離尺度に基づいて、任意の２つの基礎クラスタの間での距離を算出する。そして、クラスタ統合部１２４は、距離が最も近い２つの基礎クラスタを統合して、１つの統合クラスタとする。このとき、クラスタ統合部１２４は、例えば、統合クラスタに対応する上述したノード情報を生成する。つまり、クラスタ統合部１２４は、統合クラスタに対応する新たなノードＩＤを生成し、統合する一方の基礎クラスタのクラスタＩＤ（ノードＩＤ）を左ノードＩＤ、他方の基礎クラスタのクラスタＩＤを右ノードＩＤとし、これらを対応付けてノード情報とする。

　そして、クラスタ統合部１２４は、クラスタが一つになるまでクラスタの統合を繰り返す。この間、上述の通り、クラスタ統合部１２４は、ノード情報を生成するため、階層構造情報１１５２を木構造として記録する。尚、クラスタ統合部１２４は、生成した階層構造情報１１５２をメモリ１３０又は記憶部１１０に記憶し、メモリ１３０又は記憶部１１０を介してクラスタ洗練部１２５へ受け渡しても良い。

　ここで、上述したクラスタ間の距離を算出する際の距離尺度には、様々なものを用いることができる。例えば、距離尺度は、クラスタに属する２点で最も近い点同士の距離、又は、最も遠い点同士の距離としてもよい。また、距離尺度は、クラスタ間の全ての点の距離の平均を用いてもよい。また、距離尺度は、クラスタ中心を計算し、それらの距離を用いてもよい。また、上述した距離には、コサイン距離やユークリッド距離など、様々なものを用いてよい。

　クラスタ洗練部１２５は、特徴行列１１１、ラベル行列１１２、基礎クラスタ情報１１５１及び階層構造情報１１５２を受け付け、統合後の１つのクラスタから、階層構造のうち所定の階層までクラスタを分割する。そして、クラスタ洗練部１２５は、Ｎ件のデータのそれぞれについて、分割したクラスタのいずれかに属するように、クラスタの割り当てを決定する。そして、クラスタ洗練部１２５は、決定したクラスタの割り当てをクラスタ割当情報１１５として記憶部１１０に保存又は外部へ出力する。ここで、クラスタ洗練部１２５は、記憶部１１０内の戻し条件１１６を参照し、階層構造情報１１５２からどの階層までをクラスタを分割するかを判定し、判定した階層まで統合クラスタを分割する。例えば、クラスタ洗練部１２５は、該当する階層より上の階層に相当するノード情報を削除してもよい。また、戻し条件１１６には様々な定義を用いることができる。例えば、戻し条件１１６は、統合クラスタを最上位の階層から分割すべき階層の位置、クラスタのサイズ（所属するデータの数）の最大値としてもよい。または、戻し条件１１６は、クラスタ内の密度としてもよい。ここで、密度には、特徴空間又はラベル空間上のいずれか、または、これら組み合わせを用いてもよい。

　図６は、本実施の形態２にかかるデータ分類支援方法の流れを説明するためのフローチャートである。まず、注目ラベル設定部１２２は、ラベル行列１１２から複数の注目ラベルを設定し、注目ラベル集合１１４として基礎クラスタ構築部１２３へ出力する（Ｓ１）。次に、基礎クラスタ構築部１２３は、注目ラベル集合１１４と特徴行列１１１又はラベル行列１１２を用いて、複数の基礎クラスタを構築する（Ｓ２）。そして、クラスタ統合部１２４は、各基礎クラスタのクラスタ中心を算出する（Ｓ３）。続いて、クラスタ統合部１２４は、クラスタ中心間の距離が最小である２つのクラスタを統合する（Ｓ４）。そして、クラスタ統合部１２４は、統合したクラスタの木構造上の位置関係を示す階層構造情報１１５２を更新する（Ｓ５）。そして、クラスタ統合部１２４は、統合後に残りのクラスタが１つか否かを判定する（Ｓ６）。残りのクラスタが２以上の場合、ステップＳ３からＳ５を再度実行し、統合後のクラスタが１つになるまで繰り返す。その後、統合後のクラスタが１つと判定された場合、クラスタ洗練部１２５は、木構造の最上位のクラスタ（統合後のクラスタ）から、戻し条件１１６を満たすクラスタを深さ優先で検索する（Ｓ７）。そして、クラスタ洗練部１２５は、全てのクラスタが戻し条件１１６を満たし、かつ、木構造の階層が最も浅くなるように、クラスタの分割を行う（Ｓ８）。

　続いて、具体例を用いて、本実施の形態２にかかるデータ分類支援システム１００の動作を説明する。ここでは、以下の設定で処理を行うものとする。
（１）注目ラベルを出現頻度によって定める。
（２）基礎クラスタには注目ラベルを持つデータのみを用いる。
（３）クラスタ中心はラベルベクトルの平均を用いる。
（４）クラスタ中心間の距離にはコサイン距離を用いる。
（５）戻し条件をクラスタに所属するデータの数とする。

　まず、処理対象となるラベル行列１１２は、以下であるものとする。

これに対して、上記（１）に基づき注目ラベル定義１１３を出現頻度が２以下のラベルと定義した場合、注目ラベル設定部１２２は、注目ラベル集合Ｚ＝｛５，６，７，８｝として設定する。この注目ラベル集合Ｚを用いて基礎クラスタを構成する。

　基礎クラスタ構築部１２３は、上記（２）に基づき基礎クラスタを構築するために、まず、注目ラベル集合Ｚ中の出現頻度の低いラベルから順にそのラベルを持つデータをクラスタに割り当てる。例えば、注目ラベル集合Ｚにおいては、注目ラベル８（出現頻度１）、注目ラベル５，６，７（出現頻度２）の順となる。そして、注目ラベル８に対応するクラスタ（グループ）にはデータ５（５行目のラベルベクトル）が割り当てられる。また、注目ラベル５に対応するクラスタにはデータ２及び７（２及び７行目のラベルベクトル）が割り当てられる。また、注目ラベル６に対応するクラスタにはデータ４及び６（４及び６行目のラベルベクトル）が割り当てられる。また、注目ラベル７に対応するクラスタにはデータ２及び３（２及び３行目のラベルベクトル）が割り当てられる。

　そして、注目ラベルを有する全てのデータをクラスタへと割り当てた後に、基礎クラスタ構築部１２３は、複数のクラスタの間で割り当てが重複しているデータが存在するかを確認する。そして、基礎クラスタ構築部１２３は、データが重複するクラスタが存在する場合は、それらのクラスタを統合し、一つの基礎クラスタとして構築する。この例の場合、注目ラベル５と注目ラベル７に対応する各クラスタには、データ２が重複する。そのため、基礎クラスタ構築部１２３は、注目ラベル５又は注目ラベル７のいずれか１つ以上を有するデータが所属する基礎クラスタとする。例えば、上述した基礎クラスタへの割当条件を注目ラベル５又は注目ラベル７のいずれか１つ以上を含むこと、とする。

　図７は、本実施の形態２にかかるクラスタ構成の階層構造の例を説明する図である。尚、基礎クラスタ構築部１２３の処理後では、基礎クラスタＣ１、Ｃ２及びＣ３が構築されたこととなる。

　続いて、クラスタ統合部１２４は、構築された複数の基礎クラスタを用いてクラスタの統合を行う。ここでは、上記（３）及び（４）に基づき、クラスタ統合部１２４は、クラスタ中心を各基礎クラスタに属しているデータのラベルベクトルの要素の平均とし、クラスタ中心間の距離を以下のコサイン距離で計算する。

　そして、クラスタ統合部１２４は、全ての基礎クラスタについて一対の組ごとにクラスタ間のコサイン距離を算出する。そして、クラスタ統合部１２４は、算出した全てのコサイン距離の中で最小となる距離におけるクラスタ同士を統合する。そして、クラスタ統合部１２４は、統合後のクラスタと、他のクラスタのそれぞれとの間のコサイン距離を算出する。そして、クラスタ統合部１２４は、同様の条件でクラスタの統合を行い、統合後のクラスタが１つとなるまで繰り返す。

　この例の場合、クラスタ統合部１２４は、基礎クラスタＣ１及びＣ２間の距離、基礎クラスタＣ１及びＣ３間の距離、基礎クラスタＣ２及びＣ３間の距離をそれぞれ算出する。そして、上記３つの距離のうち、基礎クラスタＣ１及びＣ２間の距離が最小であるため、クラスタ統合部１２４は、基礎クラスタＣ１及びＣ２を統合し、統合クラスタＣ４を生成する。例えば、クラスタ統合部１２４は、統合クラスタＣ４に対応するノードＩＤ（Ｃ４）を発行し、左ノードＩＤをＣ１、右ノードＩＤをＣ２とし、Ｃ４、Ｃ１及びＣ２を対応付けてノード情報として生成する。それ故、統合クラスタＣ４の割当条件は、基礎クラスタＣ１又はＣ２のいずれかを満たすこととなる。そして、クラスタ統合部１２４は、統合クラスタＣ４及び基礎クラスタＣ３の距離を算出し、統合クラスタＣ４及び基礎クラスタＣ３を統合し、統合クラスタＣ５を生成する。その結果、図７のような木構造になる。

　その後、クラスタ洗練部１２５は、統合後のクラスタと木構造に基づき、戻し条件１１６を満たすようにクラスタを分割する。そして、クラスタ洗練部１２５は、戻し条件１１６を満たすまで、又は、全てが基礎クラスタになるまで行う。

　すなわち、クラスタ洗練部１２５は、上記（５）に基づき、クラスタに所属するデータの数となるクラスタを統合後のクラスタの最上位から深さ優先で検索する。例えば、戻し条件１１６におけるクラスタサイズを３とする。この例では、クラスタ洗練部１２５は、まず、最上位の階層Ｈにおける統合クラスタＣ５に所属するデータ数が６（データ２，３，４，５、６，７）であるため、１階層下の階層Ｈ＋１における統合クラスタＣ４及びＣ５をさらに検索する。そして、統合クラスタＣ４に所属するデータ数が３（データ４，５、６）、また、基礎クラスタＣ３に所属するデータ数が３（データ２，３，７）であるため、クラスタ洗練部１２５は、階層Ｈ＋１が戻し条件１１６を満たすと判定する。そこで、クラスタ洗練部１２５は、統合クラスタＣ５を階層Ｈ＋１まで分割する。つまり、統合クラスタＣ５を統合クラスタＣ４及び基礎クラスタＣ３まで戻す。そのため、クラスタ洗練部１２５は、データ４，５、６についてのクラスタの割り当てを統合クラスタＣ４、データ２，３，７についてのクラスタの割り当てを基礎クラスタＣ３として決定する。

　このように、本実施の形態では、例えば、出現頻度が相対的に小さいラベルを必ず同じ問題へと分割するように強制的なクラスタ割り当てを凝集型クラスタリングに導入し、データ分割を行うものである。そのため、出現頻度が相対的に小さいラベルに対する分類精度の悪化を引き起こす可能性を抑制できる。そして、出現頻度が相対的に低いラベルを持つデータが異なるクラスタへと割り当てされてしまうことを防ぐことができる。

　尚、通常の凝集型クラスタリング手法では、基礎クラスタが個別のデータを単位とするものであるが、本実施の形態では、１つ以上のデータを含むデータの集合を基礎クラスタの単位とするものである。

＜実施の形態３＞
　本実施の形態３は、上述した実施の形態２の改良例である。本実施の形態３にかかる情報処理装置又はデータ分類支援システムは、Ｍ種類の特徴量を有する任意の入力ベクトルデータを所定のクラスタに分類するための分岐関数を学習する学習部をさらに備えるものである。ここで、学習部は、Ｍ種類の特徴量を有するＮ件の特徴ベクトルと、前記決定されたクラスタの割り当てとを用いるものである。これにより、分類を高速に決定できる。

　図８は、本実施の形態３にかかるデータ分類支援システム１００ａの全体構成を示すブロック図である。データ分類支援システム１００ａは、上述したデータ分類支援システム１００を改良したものであり、プログラム１１７がプログラム１１７ａに置き換わり、記憶部１１０内に分岐関数１１８、制御部１２０内に分岐関数学習部１２６が追加されたものである。それ以外の構成は、図３と同等であるため、詳細な説明を省略する。

　プログラム１１７ａは、プログラム１１７の機能に加え、後述する分岐関数学習部１２６の処理が実装されたコンピュータプログラムである。分岐関数１１８は、Ｍ種類の特徴量を有する任意の特徴量ベクトルを引数とし、２つのクラスタのいずれかへの分岐を判定するための判定値を算出する関数である。分岐関数１１８は、例えば、二値分類器である。

　分岐関数学習部１２６は、特徴行列１１１と、クラスタ洗練部１２５により決定されたクラスタ割当情報１１５とを用いて、Ｍ種類の特徴量を有する任意の入力ベクトルデータを所定のクラスタに分類するための分岐関数を学習する学習部の一例である。つまり、分岐関数学習部１２６は、クラスタ統合部１２４で生成した木構造と、クラスタ洗練部１２５により決定されたクラスタの割り当てと、特徴行列１１１とを入力とし、クラスタへの割当を学習した複数の二値分類器を出力するものである。ここで、複数の二値分類器としては、ｆ_１（ｘ）、・・・ｆ_ｋ（ｘ）と記載するものとする。ここで、ｋは分岐数とし、階層構造に依存する。

　ここで、分岐関数学習部１２６は、まず、入力された木構造から、クラスタ洗練部１２５により最終的なクラスタとされた以外のクラスタを全て削除した木構造を生成する。次に、分岐関数学習部１２６は、各分岐に対して、分岐を決定するための二値分類器学習する。この学習には、分岐した後に属するデータの左側を正例、右側を負例として用いる。この二値分類器をすべての分岐に対して構築する。図９は、本実施の形態３にかかる学習される分岐関数の概念を説明する図である。これによって、テストデータの分類をどのクラスタで行えばよいかを高速に決定することができるようになる。尚、分岐関数学習部１２６に用いる二値分類器は様々なものを用いることができる。例えば、二値分類器は、線形回帰の形をとる分類器でもよいし、カーネルトリックを用いるカーネルＳＶＭ（Support Vector Machine）でもよい。

　図１０は、本実施の形態３にかかるデータ分類支援方法の流れを説明するためのフローチャートである。ここで、ステップＳ１からＳ８は、上述した図６と同様であるため、説明を省略する。そこで、ステップＳ８の後、分岐関数学習部１２６は、クラスタ洗練部１２５で得られたクラスタと、クラスタ統合部１２４で得られた木構造を用いて、統合されているクラスタと、分割されたクラスタを木構造から削除する（Ｓ９）。次に、分岐関数学習部１２６は、木構造の各分岐に対して、二値分類器を学習する（Ｓ１０）。そして、分岐関数学習部１２６は、分割されたクラスタ、及び、木構造、並びに、木構造の各分岐に対応する分岐関数を分割されたマルチラベル分類問題として出力する。

　続いて、具体例を用いて、本実施の形態３にかかるデータ分類支援システム１００ａの動作を説明する。ここでは、上述した実施の形態２の設定を用いるものとする。また、本実施の形態３では、上述した通りクラスタ洗練部１２５の処理までは実施の形態２と同様である。そのため、クラスタ洗練部１２５の処理結果として図７のような木構造が得られたものとする。

　本実施の形態３ではこれに引き続き、分岐関数学習部１２６は、分岐関数１１８について各分岐において学習を行う。具体的には、まず、最初の分岐に対してｆ_１（ｘ）を学習する際に、ラベル６又はラベル８のいずれかを一つ以上有するデータを正例、ラベル５又はラベル７のいずれかを一つ以上有するデータを負例として二値分類器として学習する。同様に、次の分岐に対してｆ_２（ｘ）を学習する際に、ラベル６を有し、かつ、ラベル８を有さないデータを正例、ラベル８を有し、かつ、ラベル６を有さないデータを負例として二値分類器として学習する。これにより、木構造を用いたテストデータの高速なクラスタ割り当てを可能とする。

＜実施の形態４＞
　本実施の形態４は、上述した実施の形態２とは異なる態様の実施例である。本実施の形態４にかかるデータ分類支援システムは、特徴行列及びラベル行列を記憶する記憶部が、注目ラベル設定部等とは別体となった構成である。

　図１１は、本実施の形態４にかかるデータ分類支援システム２００の全体構成を示すブロック図である。データ分類支援システム２００は、データ管理装置２１とデータ分類支援装置２２とを備える。そして、データ管理装置２１とデータ分類支援装置２２とは、ネットワークＮを介して通信可能に接続されている。データ管理装置２１は、１又は複数台のストレージサーバ等のコンピュータである。データ管理装置２１は、記憶部２１１と、通信部２１２とを備える。記憶部２１１は、ハードディスク、フラッシュメモリ等の記憶装置である。また、記憶部２１１は、特徴行列１１１と、ラベル行列１１２とを記憶する。但し、記憶部２１１は、特徴行列１１１又はラベル行列１１２のいずれか一方が記憶されたものであればよい。その場合、他方の行列データは、記憶部１１０に記憶されているものとする。通信部２１２は、ネットワークＮを介してデータ分類支援装置２２とデータの送受信を行う。通信部２１２は、データ分類支援装置２２からネットワークＮを介して特徴行列１１１及びラベル行列１１２の取得要求を受信する。この場合、通信部２１２は、記憶部２１１から特徴行列１１１及びラベル行列１１２を読み出し、ネットワークＮを介してデータ分類支援装置２２へ返信する。

　例えば、データ管理装置２１は、図示しない構成としてプロセッサ及びメモリを備えるものである。また、記憶部２１１には、所定のプログラムが記憶されている。当該所定のプログラムは、データ分類支援装置２２からの上記取得要求を受信した場合に、指定されたデータを記憶部２１１から読み出し、データ分類支援装置２２へ返信する処理が実装されているものとする。そして、当該プロセッサは、記憶部２１１から上記所定のプログラムを前記メモリへ読み込み、当該プログラムを実行する。これにより、前記プロセッサは、通信部２１２の機能を実現する。

　データ分類支援装置２２は、データ分類支援システム１００と比べて、プログラム１１７がプログラム１１７ｂに、入力取得部１２１が入力取得部１２１ａに、ＩＦ部１４０が通信部１４０ａに置き換わったものである。プログラム１１７ｂは、プログラム１１７と比べて特徴行列１１１及びラベル行列１１２の取得処理においてネットワークＮを介した処理に置き換わったものである。通信部１４０ａは、ＩＦ部１４０の機能に加え、制御部１２０からの指示に応じて、ネットワークＮを介してデータを送信し、また、ネットワークＮを介して受信したデータを制御部１２０へ出力する。

　入力取得部１２１ａは、データ管理装置２１に対してネットワークＮを介して、特徴行列１１１及びラベル行列１１２を指定した取得要求を送信する。そして、入力取得部１２１ａは、データ管理装置２１からネットワークＮを介して受信した特徴行列１１１及びラベル行列１１２を注目ラベル設定部１２２等へ出力する。

　以上のことから、本実施形態４は、上述した実施形態１及び２と同等の効果を奏することができる。さらに、本実施形態４にかかるデータ分類支援システム２００には、実施形態３の改良を適用することもできる。

＜その他の実施の形態＞
　尚、上述の実施の形態では、ハードウェアの構成として説明したが、これに限定されるものではない。本開示は、任意の処理を、ＣＰＵ（Central Processing Unit）にコンピュータプログラムを実行させることにより実現することも可能である。

　上述の例において、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体（non-transitory computer readable medium）を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体（tangible storage medium）を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記録媒体（例えば光磁気ディスク）、ＣＤ－ＲＯＭ（Read Only Memory）、ＣＤ－Ｒ、ＣＤ－Ｒ／Ｗ、ＤＶＤ（Digital Versatile Disc）、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（Programmable ROM）、ＥＰＲＯＭ（Erasable PROM）、フラッシュＲＯＭ、ＲＡＭ（Random Access Memory））を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（transitory computer readable medium）によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。

　なお、本開示は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。また、本開示は、それぞれの実施の形態を適宜組み合わせて実施されてもよい。

　上記の実施形態の一部又は全部は、以下の付記のようにも記載され得るが、以下には限られない。
　（付記Ａ１）
　Ｍ（Ｍは２以上の自然数。）種類の特徴量を有し、かつ、Ｌ（Ｌは２以上の自然数。）種類のラベルのそれぞれの有無が定義されたＮ（Ｎは２以上の自然数。）件のデータのうち一部を複数のグループのいずれかに割り当てるための複数の割当条件を設定する設定部と、
　前記Ｎ件のデータのうち、同一の前記割当条件に該当する２以上のデータを同一のグループに割り当てて、前記複数のグループに基づいて複数の基礎クラスタを構築する基礎クラスタ構築部と、
　前記複数の基礎クラスタに対して、クラスタの統合及び洗練を行い、前記Ｎ件のデータのそれぞれについてのクラスタの割り当てを決定するクラスタ割当部と、
　を備える情報処理装置。
　（付記Ａ２）
　前記設定部は、
　前記Ｌ種類のラベルのうち一部のラベルを有することを前記割当条件として設定する
　付記Ａ１に記載の情報処理装置。
　（付記Ａ３）
　前記設定部は、
　前記Ｎ件のデータ内でのラベルの出現頻度に基づいて、前記Ｌ種類のラベルのうち一部のラベルを注目ラベルとして選択し、当該注目ラベルの集合を前記割当条件として設定し、
　前記基礎クラスタ構築部は、
　前記Ｎ件のデータのうち、同一の前記注目ラベルが有と定義された２以上のデータを同一のグループに割り当てて、前記基礎クラスタを構築する
　付記Ａ２に記載の情報処理装置。
　（付記Ａ４）
　前記設定部は、
　前記Ｌ種類のラベルのそれぞれについて前記Ｎ件のデータ内でのラベルの出現頻度を算出し、
　前記Ｌ種類のラベルのうち前記出現頻度が大きい順で所定の順位より低いラベルを前記注目ラベルとして選択する
　付記Ａ３に記載の情報処理装置。
　（付記Ａ５）
　前記設定部は、
　前記Ｎ件のデータのそれぞれに対応し、かつ、前記Ｌ種類のラベルのそれぞれの有無を要素とするＮ件のラベルベクトルから算出した前記ラベルの出現頻度に基づいて、前記注目ラベルを選択し、
　前記基礎クラスタ構築部は、
　前記Ｎ件のラベルベクトルのうち同一の前記注目ラベルを有とした要素を有する２以上のラベルベクトルを、同一のグループに割り当てて、前記基礎クラスタを構築する
　付記Ａ３又はＡ４に記載の情報処理装置。
　（付記Ａ６）
　前記基礎クラスタ構築部は、前記Ｎ件のデータのうち特定のデータが２以上の前記割当条件に該当する場合、各割当条件に対応する異なる２以上のグループに当該特定データを割り当てて、各グループのそれぞれを前記基礎クラスタとして構築する
　付記Ａ１乃至Ａ５のいずれか１項に記載の情報処理装置。
　（付記Ａ７）
　前記基礎クラスタ構築部は、
　前記Ｎ件のデータのうち特定のデータについて、２以上のグループに割り当てられた場合、当該２以上のグループを統合して１の前記基礎クラスタとして構築する
　付記Ａ１乃至Ａ５のいずれか１項に記載の情報処理装置。
　（付記Ａ８）
　前記クラスタ割当部は、
　前記基礎クラスタに属する各データの前記特徴量又は前記ラベルの有無に基づいて、前記複数の基礎クラスタを階層化して前記クラスタの統合を行い、当該統合による階層構造を記録し、
　前記統合後のクラスタから、前記階層構造のうち所定の階層までクラスタを分割し、
　前記Ｎ件のデータのそれぞれについて前記分割したクラスタのいずれかに属するように、前記クラスタの割り当てを決定する
　付記Ａ１乃至Ａ７のいずれか１項に記載の情報処理装置。
　（付記Ａ９）
　前記Ｎ件のデータのそれぞれに対応し、かつ、前記Ｍ種類の特徴量を有するＮ件の特徴ベクトルと、前記決定されたクラスタの割り当てとを用いて、前記Ｍ種類の特徴量を有する任意の入力ベクトルデータを、所定のクラスタに分類するための分岐関数を学習する学習部をさらに備える
　付記Ａ１乃至Ａ８のいずれか１項に記載の情報処理装置。
　（付記Ａ１０）
　前記Ｍ種類の特徴量、前記Ｌ種類のラベル、及び、前記Ｎ件のデータのそれぞれは、百万以上である
　付記Ａ１乃至Ａ９のいずれか１項に記載の情報処理装置。
　（付記Ｂ１）
　Ｍ（Ｍは２以上の自然数。）種類の特徴量を有し、かつ、Ｌ（Ｌは２以上の自然数。）種類のラベルのそれぞれの有無が定義されたＮ（Ｎは２以上の自然数。）件のデータを記憶する記憶部と、
　前記記憶部に記憶された前記Ｎ件のデータのうち一部を複数のグループのいずれかに割り当てるための複数の割当条件を設定する設定部と、
　前記Ｎ件のデータのうち、同一の前記割当条件に該当する２以上のデータを同一のグループに割り当てて、前記複数のグループに基づいて複数の基礎クラスタを構築する基礎クラスタ構築部と、
　前記複数の基礎クラスタに対して、クラスタの統合及び洗練を行い、前記Ｎ件のデータのそれぞれについてのクラスタの割り当てを決定するクラスタ割当部と、
　を備えるデータ分類支援システム。
　（付記Ｂ２）
　前記設定部は、
　前記Ｌ種類のラベルのうち一部のラベルを有することを前記割当条件として設定する
　付記Ｂ１に記載のデータ分類支援システム。
　（付記Ｃ１）
　コンピュータが、
　Ｍ（Ｍは２以上の自然数。）種類の特徴量を有し、かつ、Ｌ（Ｌは２以上の自然数。）種類のラベルのそれぞれの有無が定義されたＮ（Ｎは２以上の自然数。）件のデータのうち一部を複数のグループのいずれかに割り当てるための複数の割当条件を設定し、
　前記Ｎ件のデータのうち、同一の前記割当条件に該当する２以上のデータを同一のグループに割り当てて、前記複数のグループに基づいて複数の基礎クラスタを構築し、
　前記複数の基礎クラスタに対して、クラスタの統合及び洗練を行い、前記Ｎ件のデータのそれぞれについてのクラスタの割り当てを決定する
　データ分類支援方法。
　（付記Ｄ１）
　Ｍ（Ｍは２以上の自然数。）種類の特徴量を有し、かつ、Ｌ（Ｌは２以上の自然数。）種類のラベルのそれぞれの有無が定義されたＮ（Ｎは２以上の自然数。）件のデータのうち一部を複数のグループのいずれかに割り当てるための複数の割当条件を設定する処理と、
　前記Ｎ件のデータのうち、同一の前記割当条件に該当する２以上のデータを同一のグループに割り当てて、前記複数のグループに基づいて複数の基礎クラスタを構築する処理と、
　前記複数の基礎クラスタに対して、クラスタの統合及び洗練を行い、前記Ｎ件のデータのそれぞれについてのクラスタの割り当てを決定する処理と、
　をコンピュータに実行させるデータ分類支援プログラム。

　１　情報処理装置
　１１　設定部
　１２　基礎クラスタ構築部
　１３　クラスタ割当部
　１００　データ分類支援システム
　１００ａ　データ分類支援システム
　１１０　記憶部
　１１１　特徴行列
　１１１１　特徴ベクトル
　１１１１１　特徴量
　１１１１Ｍ　特徴量
　１１１２　特徴ベクトル
　１１１Ｎ　特徴ベクトル
　１１２　ラベル行列
　１１２１　ラベルベクトル
　１１２１１　ラベルフラグ
　１１２１Ｌ　ラベルフラグ
　１１２２　ラベルベクトル
　１１２Ｎ　ラベルベクトル
　１１３　注目ラベル定義
　１１４　注目ラベル集合
　１１５　クラスタ割当情報
　１１５１　基礎クラスタ情報
　１１５１１　基礎クラスタ
　１１５１２　基礎クラスタ
　１１５２　階層構造情報
　１１５２１　ノード情報
　１１５２２　ノード情報
　１１６　戻し条件
　１１７　プログラム
　１１７ａ　プログラム
　１１８　分岐関数
　１２０　制御部
　１２１　入力取得部
　１２２　注目ラベル設定部
　１２３　基礎クラスタ構築部
　１２４　クラスタ統合部
　１２５　クラスタ洗練部
　１２６　分岐関数学習部
　１３０　メモリ
　１４０　ＩＦ部
　２００　データ分類支援システム
　２１　データ管理装置
　２１１　記憶部
　２１２　通信部
　Ｎ　ネットワーク
　２２　データ分類支援装置
　１１７ｂ　プログラム
　１２１ａ　入力取得部
　１４０ａ　通信部
　Ｃ１　基礎クラスタ
　Ｃ２　基礎クラスタ
　Ｃ３　基礎クラスタ
　Ｃ４　統合クラスタ
　Ｃ５　統合クラスタ

Claims

　Ｍ（Ｍは２以上の自然数。）種類の特徴量を有し、かつ、Ｌ（Ｌは２以上の自然数。）種類のラベルのそれぞれの有無が定義されたＮ（Ｎは２以上の自然数。）件のデータのうち一部を複数のグループのいずれかに割り当てるための複数の割当条件を設定する設定部と、
　前記Ｎ件のデータのうち、同一の前記割当条件に該当する２以上のデータを同一のグループに割り当てて、前記複数のグループに基づいて複数の基礎クラスタを構築する基礎クラスタ構築部と、
　前記複数の基礎クラスタに対して、クラスタの統合及び洗練を行い、前記Ｎ件のデータのそれぞれについてのクラスタの割り当てを決定するクラスタ割当部と、
　を備える情報処理装置。
　前記設定部は、
　前記Ｌ種類のラベルのうち一部のラベルを有することを前記割当条件として設定する
　請求項１に記載の情報処理装置。
　前記設定部は、
　前記Ｎ件のデータ内でのラベルの出現頻度に基づいて、前記Ｌ種類のラベルのうち一部のラベルを注目ラベルとして選択し、当該注目ラベルの集合を前記割当条件として設定し、
　前記基礎クラスタ構築部は、
　前記Ｎ件のデータのうち、同一の前記注目ラベルが有と定義された２以上のデータを同一のグループに割り当てて、前記基礎クラスタを構築する
　請求項２に記載の情報処理装置。
　前記設定部は、
　前記Ｌ種類のラベルのそれぞれについて前記Ｎ件のデータ内でのラベルの出現頻度を算出し、
　前記Ｌ種類のラベルのうち前記出現頻度が大きい順で所定の順位より低いラベルを前記注目ラベルとして選択する
　請求項３に記載の情報処理装置。
　前記設定部は、
　前記Ｎ件のデータのそれぞれに対応し、かつ、前記Ｌ種類のラベルのそれぞれの有無を要素とするＮ件のラベルベクトルから算出した前記ラベルの出現頻度に基づいて、前記注目ラベルを選択し、
　前記基礎クラスタ構築部は、
　前記Ｎ件のラベルベクトルのうち同一の前記注目ラベルを有とした要素を有する２以上のラベルベクトルを、同一のグループに割り当てて、前記基礎クラスタを構築する
　請求項３又は４に記載の情報処理装置。
　前記基礎クラスタ構築部は、
　前記Ｎ件のデータのうち特定のデータが２以上の前記割当条件に該当する場合、各割当条件に対応する異なる２以上のグループに当該特定データを割り当てて、各グループのそれぞれを前記基礎クラスタとして構築する
　請求項１乃至５のいずれか１項に記載の情報処理装置。
　前記基礎クラスタ構築部は、
　前記Ｎ件のデータのうち特定のデータについて、２以上のグループに割り当てられた場合、当該２以上のグループを統合して１の前記基礎クラスタとして構築する
　請求項１乃至５のいずれか１項に記載の情報処理装置。
　前記クラスタ割当部は、
　前記基礎クラスタに属する各データの前記特徴量又は前記ラベルの有無に基づいて、前記複数の基礎クラスタを階層化して前記クラスタの統合を行い、当該統合による階層構造を記録し、
　前記統合後のクラスタから、前記階層構造のうち所定の階層までクラスタを分割し、
　前記Ｎ件のデータのそれぞれについて前記分割したクラスタのいずれかに属するように、前記クラスタの割り当てを決定する
　請求項１乃至７のいずれか１項に記載の情報処理装置。
　前記Ｎ件のデータのそれぞれに対応し、かつ、前記Ｍ種類の特徴量を有するＮ件の特徴ベクトルと、前記決定されたクラスタの割り当てとを用いて、前記Ｍ種類の特徴量を有する任意の入力ベクトルデータを、所定のクラスタに分類するための分岐関数を学習する学習部をさらに備える
　請求項１乃至８のいずれか１項に記載の情報処理装置。
　前記Ｍ種類の特徴量、前記Ｌ種類のラベル、及び、前記Ｎ件のデータのそれぞれは、百万以上である
　請求項１乃至９のいずれか１項に記載の情報処理装置。
　Ｍ（Ｍは２以上の自然数。）種類の特徴量を有し、かつ、Ｌ（Ｌは２以上の自然数。）種類のラベルのそれぞれの有無が定義されたＮ（Ｎは２以上の自然数。）件のデータを記憶する記憶部と、
　前記記憶部に記憶された前記Ｎ件のデータのうち一部を複数のグループのいずれかに割り当てるための複数の割当条件を設定する設定部と、
　前記Ｎ件のデータのうち、同一の前記割当条件に該当する２以上のデータを同一のグループに割り当てて、前記複数のグループに基づいて複数の基礎クラスタを構築する基礎クラスタ構築部と、
　前記複数の基礎クラスタに対して、クラスタの統合及び洗練を行い、前記Ｎ件のデータのそれぞれについてのクラスタの割り当てを決定するクラスタ割当部と、
　を備えるデータ分類支援システム。
　前記設定部は、
　前記Ｌ種類のラベルのうち一部のラベルを有することを前記割当条件として設定する
　請求項１１に記載のデータ分類支援システム。
　コンピュータが、
　Ｍ（Ｍは２以上の自然数。）種類の特徴量を有し、かつ、Ｌ（Ｌは２以上の自然数。）種類のラベルのそれぞれの有無が定義されたＮ（Ｎは２以上の自然数。）件のデータのうち一部を複数のグループのいずれかに割り当てるための複数の割当条件を設定し、
　前記Ｎ件のデータのうち、同一の前記割当条件に該当する２以上のデータを同一のグループに割り当てて、前記複数のグループに基づいて複数の基礎クラスタを構築し、
　前記複数の基礎クラスタに対して、クラスタの統合及び洗練を行い、前記Ｎ件のデータのそれぞれについてのクラスタの割り当てを決定する
　データ分類支援方法。
　Ｍ（Ｍは２以上の自然数。）種類の特徴量を有し、かつ、Ｌ（Ｌは２以上の自然数。）種類のラベルのそれぞれの有無が定義されたＮ（Ｎは２以上の自然数。）件のデータのうち一部を複数のグループのいずれかに割り当てるための複数の割当条件を設定する処理と、
　前記Ｎ件のデータのうち、同一の前記割当条件に該当する２以上のデータを同一のグループに割り当てて、前記複数のグループに基づいて複数の基礎クラスタを構築する処理と、
　前記複数の基礎クラスタに対して、クラスタの統合及び洗練を行い、前記Ｎ件のデータのそれぞれについてのクラスタの割り当てを決定する処理と、
　をコンピュータに実行させるデータ分類支援プログラムが格納された非一時的なコンピュータ可読媒体。