WO2017183548A1

WO2017183548A1 - 情報処理システム、情報処理方法、及び、記録媒体

Info

Publication number: WO2017183548A1
Application number: PCT/JP2017/015078
Authority: WO
Inventors: シルバダニエルゲオルグアンドラーデ; 細見　格
Original assignee: 日本電気株式会社
Priority date: 2016-04-22
Filing date: 2017-04-13
Publication date: 2017-10-26
Also published as: US20190164078A1; JP6763426B2; JPWO2017183548A1

Abstract

ラベル付きデータ数に対する分類器の性能を正確に予測する。　学習システム１００は、抽出部１２０、及び、推定部１３０を含む。抽出部１２０は、１以上の参照データ集合から、対象データ集合と類似する参照データ集合を抽出する。推定部１３０は、対象データ集合のラベル付きデータで分類器が学習されたときの性能を、抽出された参照データ集合を用いて推定し、出力する。

Description

情報処理システム、情報処理方法、及び、記録媒体

　本発明は、情報処理システム、情報処理方法、及び、記録媒体に関する。

　テキストや画像を分類するための分類器（Classifier）では、ラベルが付与された学習データ（Training Data）を用いて学習が行われる。一般に、ラベル付き学習データの数が多いほど、分類器の性能が改善されることが知られている。しかしながら、このようなラベルは、例えば人により付与されるため、ラベル付き学習データの数を増やすことはコストの増加につながる。このため、所望の性能を得るために、現在のラベル付きデータ数に対して、さらに、いくつのデータにラベルを付与する必要があるかを知る必要がある。特に、分類器の性能向上が期待できるようなデータを選択しながらラベルを付与する（アノテーションを行う）能動学習（Active Learning）では、アノテーションの継続を判断するために、ラベル付きデータの増加数に対する分類器の性能の改善量を知る必要がある。

　このような、分類器の性能の改善量の推定に係る技術として、非特許文献１には、複数の能動学習アルゴリズムの中から、精度が最大となる能動学習アルゴリズムを選択する方法が開示されている。

Yoram Baram, et al., "Online Choice of Active Learning Algorithms", Proceedings of the Twentieth International Conference on Machine Learning (ICML-2003), 2003.

　しかしながら、上述の非特許文献１に記載された技術においては、分類対象のデータ集合（コーパス）の情報をもとに、分類器の性能の改善量を推定している。このため、ラベル付きデータの増加数が少ない場合には性能の改善量を予測できるが、ラベル付きデータの増加数が多い場合は性能の改善量を正確に予測することが難しいという問題がある。例えば、分類対象のデータ集合に３５０個のラベル付きデータがあり、さらに、ラベル付きデータを１０００個まで増やす場合を考える。この場合、非特許文献１の技術では、分類器の精度がラベル付きデータの数に応じて大きくなるのか、ある程度の数で一定の値に達するのかを予測できない。

　本発明の目的は、上述の課題を解決し、ラベル付きデータ数に対する分類器の性能を正確に予測できる、情報処理システム、情報処理方法、及び、記録媒体を提供することである。

　本発明の一態様における情報処理システムは、１以上の参照データ集合から、対象データ集合と類似する参照データ集合を抽出する、抽出手段と、前記対象データ集合のラベル付きデータで分類器が学習されたときの性能を、前記抽出された参照データ集合を用いて推定し、出力する、推定手段と、を備える。

　本発明の一態様における情報処理方法は、１以上の参照データ集合から、対象データ集合と類似する参照データ集合を抽出し、前記対象データ集合のラベル付きデータで分類器が学習されたときの性能を、前記抽出された参照データ集合を用いて推定し、出力する。

　本発明の一態様におけるコンピュータが読み取り可能な記録媒体は、コンピュータに、１以上の参照データ集合から、対象データ集合と類似する参照データ集合を抽出し、前記対象データ集合のラベル付きデータで分類器が学習されたときの性能を、前記抽出された参照データ集合を用いて推定し、出力する、処理を実行させるプログラムを格納する。

　本発明の効果は、ラベル付きデータ数に対する分類器の性能を正確に予測できることである。

本発明の実施形態の特徴的な構成を示すブロック図である。本発明の実施の形態における、学習システム１００の構成を示すブロック図である。本発明の実施の形態における、コンピュータにより実現された学習システム１００の構成を示すブロック図である。本発明の実施の形態における、学習システム１００の動作を示すフローチャートである。本発明の実施の形態における、性能曲線の例を示す図である。本発明の実施の形態における、性能推定の具体例を示す図である。本発明の実施の形態における、性能の推定結果の出力画面の例を示す図である。

　本発明の実施の形態について説明する。

　はじめに、本発明の実施の形態の構成を説明する。図２は、本発明の実施の形態における、学習システム１００の構成を示すブロック図である。学習システム１００は、本発明の情報処理システムの一実施形態である。図２を参照すると、学習システム１００は、データ集合記憶部１１０、抽出部１２０、推定部１３０、学習部１４０、及び、分類器１５０を含む。

　データ集合記憶部１１０は、１以上のデータ集合を記憶する。データ（以下、インスタンスとも記載）は、例えば、文書やテキスト等、分類器１５０による分類対象である。データ集合は、１以上のデータからなる集合である。また、データ集合は、１以上の文書やテキストを含むコーパス（Corpus）でもよい。また、データは、分類器１５０により分類できれば、画像等、文書やテキスト以外のデータでもよい。また、データ集合記憶部１１０は、分類器１５０の性能（Performance）推定の対象であるデータ集合（以下、対象データ集合とも記載）、及び、性能推定において参照されるデータ集合（以下、参照データ集合とも記載）を記憶する。

　本発明の実施の形態では、対象データ集合において、ｍ個（ｍは１以上の整数）のデータにラベルが付与されていると仮定する。また、学習システム１００は、対象データ集合のｖ個（ｖは、ｍ＜ｖの整数）のラベル付きデータで分類器１５０が学習されたときの性能を推定すると仮定する。さらに、参照データ集合において、ｎ個（ｎは、ｖ≦ｎの整数）のデータにラベルが付与されていると仮定する。

　また、本発明の実施の形態では、分類器１５０の性能を表す指標として、精度（Accuracy）を用いる。なお、分類器１５０の性能を表すことができれば、性能を表す指標として、適合率（Precision）や再現率（Recall）、Ｆ値（F-score）等、他の指標を用いてもよい。

　抽出部１２０は、データ集合記憶部１１０の参照データ集合の内、対象データ集合と類似する参照データ集合を抽出する。

　ここで、対象データ集合をＤ_Ｔ、参照データ集合をＤ_ｉ（ｉ＝１，２，…，Ｎ）（Ｎは参照データ集合の数）、対象データ集合Ｄ_Ｔと参照データ集合Ｄ_ｉとの類似度をｓ（Ｄ_Ｔ，Ｄ_ｉ）と定義する。この場合、抽出部１２０は、数１式に従って、対象データ集合Ｄ_Ｔと類似する参照データ集合を抽出する。

　類似度ｓ（Ｄ_Ｔ，Ｄ_ｉ）としては、例えば、以下に示すように、性能曲線（以下、学習曲線や性能特性とも記載する）の類似度や、特徴ベクトルの類似度、ラベルの比率の類似度等が用いられる。

　１）性能曲線の類似度
　抽出部１２０は、類似度ｓ（Ｄ_Ｔ，Ｄ_ｉ）として、例えば、対象データ集合Ｄ_Ｔと参照データ集合Ｄ_ｉとの間の性能曲線の類似度を用いてもよい。性能曲線は、分類器１５０の学習に用いるラベル付きデータの数に対する、当該分類器１５０の性能を表す曲線である。

　図５は、本発明の実施の形態における、性能曲線の例を示す図である。図５では、対象データ集合Ｄ_Ｔ、及び、参照データ集合Ｄ_１、Ｄ_２の性能曲線が示されている。

　性能曲線の類似度として、例えば、図５に示すような、ラベル付きデータ数がｍ以下における曲線の傾きｇｒａｄｉｅｎｔＤ_ＴとｇｒａｄｉｅｎｔＤ_１、Ｄ_２との類似度が用いられる。この場合、類似度ｓ（Ｄ_Ｔ，Ｄ_ｉ）は、例えば、数２式により定義される。

　また、性能曲線の類似度として、ラベル付きデータ数ｍにおける性能値の類似度が用いられてもよい。

　性能曲線は、例えば、データ集合から選択されたラベル付きデータを用いた交差検証（Cross-validation）により生成される。交差検証としてLeave-one-out法を用いる場合、選択されたｋ個のラベル付きデータから１個のデータが抽出され、残りのｋ－１個のデータを用いて、後述する学習部１４０により分類器１５０が学習される。そして、学習された分類器１５０による、抽出した１個のデータの分類結果と、付与されているラベルとが検証される。このような学習、分類、及び、検証を、抽出するデータを変えながらｋ回繰り返し、結果を平均することで、ラベル付きデータ数ｋに対する性能値が算出される。なお、交差検証として、Leave-one-out法以外のＫ-分割交差検証（K-fold Cross-validation）が用いられてもよい。

　性能曲線の生成におけるｋ個のラベル付きデータは、性能推定の対象である分類器１５０の学習時にラベルを付与するデータを選択する方法と同じ方法で選択される。すなわち、学習時にラベルを付与すべきデータがランダムに選択される場合、性能曲線の生成においても、ｋ個のラベル付きデータがランダムに選択される。また、学習時にラベルを付与すべきデータが能動学習により選択される場合、性能曲線の生成においても、ｋ個のラベル付きデータが同じ能動学習の方式に従って選択される。能動学習の方式としては、指標にLeast ConfidentやMargin Sampling、Entropy等を用いるUncertainty Samplingや、Query-By-Committee等が用いられる。能動学習を用いる場合、ｋ’（ｋ’＞ｋ）個のラベル付きデータは、選択済みのｋ個のデータに加えて、ｋ’－ｋ個のデータを選択することにより取得される。

　２）特徴ベクトル間の類似度
　抽出部１２０は、類似度ｓ（Ｄ_Ｔ，Ｄ_ｉ）として、対象データ集合Ｄ_Ｔと参照データ集合Ｄ_ｉとの間の、同じラベルが付与されたデータ群（ラベルごとのデータ群）の特徴ベクトル間の類似度を用いてもよい。例えば、対象データ集合Ｄ_Ｔのラベル付きデータにラベル｛Ａ１，Ａ２｝が付与され、参照データ集合Ｄ_ｉのラベル付きデータにラベル｛Ｂ１，Ｂ２｝が付与されていると仮定する。この場合、類似度ｓ（Ｄ_Ｔ，Ｄ_ｉ）は、例えば、数３式により定義される。

　ここで、Ｄ_{Ｔ_Ａ１}、Ｄ_{Ｔ_Ａ２}は、対象データ集合Ｄ_Ｔのデータの内、それぞれ、ラベルＡ１、Ａ２が付与されたデータ群を示す。同様に、Ｄ_{ｉ_Ｂ１}、Ｄ_{ｉ_Ｂ２}は、参照データ集合Ｄ_ｉのデータの内、それぞれ、ラベルＢ１、Ｂ２が付与されたデータ群を示す。ｓｕ（Ｄ_x、Ｄ_y）は、データ群Ｄ_xとＤ_yの類似度であり、数４式のように定義される。

　ここで、ｈｉｓｔ（Ｄ）は、データ群Ｄの特徴ベクトルであり、データ群Ｄおける単語ごとの出現頻度の分布を表す。また、ｃｏｓ＿ｓｉｍ（ｈｉｓｔ（Ｄ_x），ｈｉｓｔ（Ｄ_y））は、ｈｉｓｔ（Ｄ_x）とｈｉｓｔ（Ｄ_y）とのコサイン類似度である。

　３）ラベルの比率の類似度
　抽出部１２０は、類似度ｓ（Ｄ_Ｔ，Ｄ_ｉ）として、対象データ集合Ｄ_Ｔと参照データ集合Ｄ_ｉとの間の、同じラベルが付与されたデータ数（ラベルごとのデータ数）の比率の類似度を用いてもよい。例えば、ラベルがある特定のクラスに対する正例または負例を示す場合、正例のラベルが付与されたデータ数と負例のラベルが付与されたデータ数との比率が用いられる。

　なお、上述のような性能曲線や特徴ベクトルの類似度を用いる場合も、抽出部１２０は、参照データ集合Ｄ_ｉとして、同じラベルが付与されたデータ数の比率が、対象データ集合Ｄ_Ｔと同一または略同一であるような集合を用いてもよい。この場合、抽出部１２０は、元の参照データ集合Ｄ_ｉから、同じラベルが付与されたデータ数の比率が、対象データ集合Ｄ_Ｔと同一または略同一となるように、ラベル付きデータを抽出することにより、新たな参照データ集合Ｄ_ｉを生成する。そして、抽出部１２０は、当該新たな参照データ集合Ｄ_ｉから、対象データ集合Ｄ_Ｔと類似する参照データ集合を抽出する。

　推定部１３０は、抽出部１２０により抽出された参照データ集合を用いて、対象データ集合のｖ個（ｖは、ｍ＜ｖの整数）のラベル付きデータで分類器１５０が学習されたときの性能を推定する。

　ここで、推定部１３０は、例えば、上述の性能曲線の生成方法に従って、対象データ集合Ｄ_Ｔのラベル付きデータ数ｍまでの性能曲線ｆ（ｋ）を生成し、ラベル付きデータ数ｍに対する性能値ｆ（ｍ）を取得する。同様に、推定部１３０は、上述の性能曲線の生成方法に従って、抽出された参照データ集合のラベル付きデータ数ｎまでの性能曲線ｇ（ｋ）（ｋ≦ｎ）を生成する。そして、推定部１３０は、数５式により、対象データ集合Ｄ_Ｔの推定性能曲線ｆ’（ｋ）（ｍ≦ｋ≦ｎ）を生成し、ラベル付きデータ数ｖに対する推定性能値ｆ’（ｖ）を取得する。

　推定部１３０は、性能の推定結果（ラベル付きデータ数ｖに対する推定性能値）を、出力デバイス１０４を介して、ユーザ等へ出力（表示）する。

　なお、抽出部１２０や推定部１３０は、生成した対象データ集合Ｄ_Ｔや参照データ集合Ｄ_ｉの性能曲線を、生成時に用いたラベル付きデータの選択方法とともに、記憶部（図示せず）に保存してもよい。この場合、抽出部１２０や推定部１３０は、生成すべき性能曲線が既に保存されている場合は、当該性能曲線を用いて、類似度の算出や性能値の推定を行ってもよい。

　学習部１４０は、上述のように抽出部１２０や推定部１３０が性能曲線を生成する場合に、対象データ集合Ｄ_Ｔや参照データ集合Ｄ_ｉに対する分類器１５０の学習を行う。また、ユーザ等は、性能の推定結果をもとに、所望の性能を得るために必要なラベル付きデータ数を指定して、分類器１５０の学習を指示する。学習部１４０は、対象データ集合Ｄ_Ｔに含まれる、ユーザ等から指定された数のラベル付きデータを用いて、分類器１５０を学習する。ここで、学習部１４０は、指定された数のラベルを付与するデータを、ランダム、または、能動学習により選択しながら、分類器１５０を学習する。

　分類器１５０は、対象データ集合Ｄ_Ｔや参照データ集合Ｄ_ｉに含まれるラベル付きデータで学習され、対象データ集合Ｄ_Ｔや参照データ集合Ｄ_ｉのデータを分類する。

　なお、学習システム１００は、ＣＰＵ（Central Processing Unit）とプログラムを記憶した記憶媒体を含み、プログラムにもとづく制御によって動作するコンピュータであってもよい。

　図３は、本発明の実施の形態における、コンピュータにより実現された学習システム１００の構成を示すブロック図である。

　この場合、学習システム１００は、ＣＰＵ１０１、ハードディスクやメモリ等の記憶デバイス１０２（記憶媒体）、キーボード等の入力デバイス１０３、ディスプレイ等の出力デバイス１０４、及び、他の装置等と通信を行う通信デバイス１０５を含む。ＣＰＵ１０１は、抽出部１２０、推定部１３０、学習部１４０、及び、分類器１５０を実現するためのプログラムを実行する。記憶デバイス１０２は、データ集合記憶部１１０のデータ（データ集合）を記憶する。入力デバイス１０３は、ユーザ等から、性能推定や学習の指示、データに付与するラベルの入力を受け付ける。出力デバイス１０４は、ユーザ等へ、性能の推定結果を出力（表示）する。また、通信デバイス１０５が、他の装置等から性能推定や学習の指示、ラベルを受信してもよい。また、通信デバイス１０５が、他の装置等へ、性能の推定結果を出力してもよい。また、通信デバイス１０５は、他の装置等から対象データ集合や参照データ集合を受信してもよい。

　また、学習システム１００の各構成要素の一部又は全部は、汎用または専用の回路（Circuitry）、プロセッサ等やこれらの組み合わせによって実現されてもよい。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。また、各構成要素の一部又は全部は、上述した回路等とプログラムとの組み合わせによって実現されてもよい。

　さらに、学習システム１００の各構成要素の一部又は全部が複数のコンピュータや回路等により実現される場合は、複数のコンピュータや回路等は、集中配置されてもよいし、分散配置されてもよい。例えば、複数のコンピュータや回路等は、クライアントアンドサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。

　次に、本発明の実施の形態の動作を説明する。

　図４は、本発明の実施の形態における、学習システム１００の動作を示すフローチャートである。

　はじめに、学習システム１００は、ユーザ等から、性能推定の指示を受け付ける（ステップＳ１０１）。ここで、学習システム１００は、対象データ集合の識別子、及び、性能を推定するラベル付きデータの数ｖの入力を受け付ける。

　学習システム１００の抽出部１２０は、データ集合記憶部１１０の参照データ集合の内、対象データ集合と類似する参照データ集合を抽出する（ステップＳ１０２）。

　推定部１３０は、抽出部１２０により抽出された参照データ集合を用いて、対象データ集合のラベル付学習データで分類器１５０が学習されたときの性能を推定する（ステップＳ１０３）。ここで、推定部１３０は、ｖ個のラベル付学習データで分類器１５０が学習されたときの性能を推定する。

　推定部１３０は、分類器１５０の性能の推定結果を、出力デバイス１０４を通して、ユーザ等へ出力（表示）する（ステップＳ１０４）。

　以上により、本発明の実施の形態の動作が完了する。

　なお、本発明の実施の形態では、対象データ集合にｍ個のラベル付きデータがあるときに、ラベル付きデータ数をｖに増やした場合の性能を推定した。しかしながら、これに限らず、対象データ集合にラベル付きデータが無いときに、ラベル付きデータ数をｖにした場合の性能を推定してもよい。この場合、抽出部１２０は、例えば、数６式により定義される類似度ｓ（Ｄ_Ｔ，Ｄ_ｉ）を用いて、対象データ集合Ｄ_Ｔと類似する参照データ集合を抽出する。

　そして、推定部１３０は、抽出部１２０により抽出された参照データ集合を用いて、当該参照データ集合の性能曲線ｇ（ｋ）を生成し、ｇ（ｖ）をラベル付きデータ数ｖに対する推定性能値として取得する。

　次に、本発明の実施の形態の具体例を説明する。図６は、本発明の実施の形態における、性能推定の具体例を示す図である。ここでは、データ集合記憶部１１０が対象データ集合Ｄ_Ｔ、及び、参照データ集合Ｄ_１、Ｄ_２を記憶している場合を例に説明する。対象データ集合Ｄ_Ｔにおけるラベル付きデータの数ｍは３５０であり、性能を推定するラベル付きデータの数ｖは１０００である。また、参照データ集合Ｄ_１、Ｄ_２におけるラベル付きデータの数ｎも１０００である。また、対象データ集合Ｄ_Ｔに対する分類器１５０の学習には、指標としてEntropyを用いたUncertainty Samplingによる能動学習が用いられると仮定する。

　類似度ｓ（Ｄ_Ｔ，Ｄ_ｉ）として性能曲線の類似度を用いる場合、抽出部１２０は、図５に示すように、ラベル付きデータの数ｍまでの対象データ集合Ｄ_Ｔの性能曲線ｆ（ｋ）、及び、参照データ集合Ｄ_１、Ｄ_２の性能曲線ｇ（ｋ）を生成する。ここで、抽出部１２０は、Entropyを用いたUncertainty Samplingにより、ラベル付きデータを選択し、性能曲線を生成する。そして、抽出部１２０は、図６に示すように、傾きｇｒａｄｉｅｎｔＤ_ＴとｇｒａｄｉｅｎｔＤ_１、Ｄ_２を算出し、類似度ｓ（Ｄ_Ｔ，Ｄ_ｉ）を算出する。抽出部１２０は、類似度ｓ（Ｄ_Ｔ，Ｄ_ｉ）が大きい参照データ集合Ｄ_１を、対象データ集合Ｄ_Ｔと類似する参照データ集合として抽出する。

　さらに、推定部１３０は、図５に示すように、参照データ集合Ｄ_１の性能曲線ｇ（ｋ）を生成し、対象データ集合Ｄ_Ｔの推定性能曲線ｆ’（ｋ）を生成する。そして、推定部１３０は、図６に示すように、対象データ集合Ｄ_Ｔのラベル付きデータ数ｖに対する推定性能値（推定精度）ｆ’（ｖ）＝０．７６を算出する。

　図７は、本発明の実施の形態における、性能の推定結果の出力画面の例を示す図である。図７の例では、対象データ集合Ｄ_Ｔの性能曲線ｆ（ｋ）、及び、推定性能曲線ｆ’（ｋ）と、ラベル付きデータ数ｖ＝１０００に対する推定性能値（推定精度）ｆ’（ｖ）＝０．７６と、が示されている。推定部１３０は、例えば、図７の出力画面を出力する。

　次に、本発明の実施の形態の特徴的な構成を説明する。

　図１は、本発明の実施形態の特徴的な構成を示すブロック図である。図１を参照すると、学習システム１００は、抽出部１２０、及び、推定部１３０を含む。抽出部１２０は、１以上の参照データ集合から、対象データ集合と類似する参照データ集合を抽出する。推定部１３０は、対象データ集合のラベル付きデータで分類器１５０が学習されたときの性能を、抽出された参照データ集合を用いて推定し、出力する。

　次に、本発明の実施の形態の効果を説明する。

　本発明の実施の形態によれば、ラベル付きデータ数に対する分類器の性能を正確に予測できる。その理由は、抽出部１２０が、対象データ集合と類似する参照データ集合を抽出し、推定部１３０が、対象データ集合のラベル付きデータで分類器１５０が学習されたときの性能を、抽出された参照データ集合を用いて推定するためである。

　また、本発明の実施の形態によれば、ラベル付きデータの増加数が多い場合の分類器の性能の改善量を正確に予測できる。その理由は、推定部１３０が、以下のように、分類器１５０の性能を推定するためである。すなわち、推定部１３０は、対象データ集合に係る第１の数のラベル付きデータ数に対する性能特性と、抽出された参照データ集合に係る第１の数から第２の数までのラベル付きデータ数に対する性能特性とを用いる。そして、推定部１３０は、これらの性能特性を用いて、対象データ集合の第２の数のラベル付きデータで分類器１５０が学習されたときの性能を推定する。

　以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細に対しては、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

　この出願は、２０１６年４月２２日に出願された日本出願特願２０１６－０８５７９５を基礎とする優先権を主張し、その開示の全てをここに取り込む。

　１００　　学習システム
　１０１　　ＣＰＵ
　１０２　　記憶デバイス
　１０３　　入力デバイス
　１０４　　出力デバイス
　１０５　　通信デバイス
　１１０　　データ集合記憶部
　１２０　　抽出部
　１３０　　推定部
　１４０　　学習部
　１５０　　分類器

Claims

　１以上の参照データ集合から、対象データ集合と類似する参照データ集合を抽出する、抽出手段と、
　前記対象データ集合のラベル付きデータで分類器が学習されたときの性能を、前記抽出された参照データ集合を用いて推定し、出力する、推定手段と、
　を備える情報処理システム。
　前記推定手段は、前記抽出された参照データ集合のラベル付きデータで前記分類器が学習されたときのラベル付きデータ数に対する性能を表す性能特性を用いて、前記対象データ集合のラベル付きデータで前記分類器が学習されたときの性能を推定する、
　請求項１に記載の情報処理システム。
　前記対象データ集合は、第１の数のラベル付きデータを含み、前記１以上の参照データ集合の各々は、前記第１の数より大きな第２の数のラベル付きデータを含み、
　前記対象データ集合に係る性能特性により得られる、前記対象データ集合の前記第１の数のラベル付きデータで前記分類器が学習されたときの性能、及び、前記抽出された参照データ集合に係る性能特性により得られる、前記抽出された参照データ集合の前記第１の数のラベル付きデータで前記分類器が学習されたときの性能と前記第２の数のラベル付きデータで前記分類器が学習されたときの性能、を用いて、前記対象データ集合の前記第２の数のラベル付きデータで前記分類器が学習されたときの性能を推定する、
　請求項２に記載の情報処理システム。
　前記抽出手段は、前記対象データ集合のラベル付きデータ数に対する性能特性と、前記１以上の参照データ集合の各々のラベル付きデータ数に対する性能特性と、の類似度をもとに、前記対象データ集合と類似する参照データ集合を抽出する、
　請求項１乃至３のいずれかに記載の情報処理システム。
　前記抽出手段は、前記対象データ集合のラベルごとのデータ群の特徴ベクトルと、前記１以上の参照データ集合の各々のラベルごとのデータ群の特徴ベクトルと、の類似度をもとに、前記対象データ集合と類似する参照データ集合を抽出する、
　請求項１乃至３のいずれかに記載の情報処理システム。
　前記抽出手段は、前記１以上の参照データ集合の各々から、ラベルごとのデータ数の比率が、前記対象データ集合のラベルごとのデータ数の比率と同一または略同一となるようにラベル付きデータを抽出することにより、１以上の新たな参照データ集合を生成し、当該１以上の新たな参照データ集合から、前記対象データ集合と類似する参照データ集合を抽出する、
　請求項１乃至５のいずれかに記載の情報処理システム。
　前記抽出手段は、前記対象データ集合のラベルごとのデータ数の比率と、前記１以上の参照データ集合の各々のラベルごとのデータ数の比率と、の類似度をもとに、前記対象データ集合と類似する参照データ集合を抽出する、
　請求項１乃至３のいずれかに記載の情報処理システム。
　１以上の参照データ集合から、対象データ集合と類似する参照データ集合を抽出し、
　前記対象データ集合のラベル付きデータで分類器が学習されたときの性能を、前記抽出された参照データ集合を用いて推定し、出力する、
　情報処理方法。
　コンピュータに、
　１以上の参照データ集合から、対象データ集合と類似する参照データ集合を抽出し、
　前記対象データ集合のラベル付きデータで分類器が学習されたときの性能を、前記抽出された参照データ集合を用いて推定し、出力する、
　処理を実行させるプログラム
　を格納する、コンピュータが読み取り可能な記録媒体。