WO2016111241A1

WO2016111241A1 - 学習装置、識別器、学習方法および記録媒体

Info

Publication number: WO2016111241A1
Application number: PCT/JP2016/000015
Authority: WO
Inventors: 佐藤　敦
Original assignee: 日本電気株式会社
Priority date: 2015-01-07
Filing date: 2016-01-05
Publication date: 2016-07-14
Also published as: JP6662301B2; US20170344908A1; JPWO2016111241A1; US11631025B2

Abstract

　学習のための工数および処理時間をより改善する技術を提供する。識別器に用いる辞書を更新する更新部と、更新部によって更新された辞書と、１以上のサンプルであって、ラベルが付与されたラベル付きサンプルとを用いて、ラベル付きサンプルの数に対する比を、該ラベル付きサンプル全体に対する損失として算出する算出部と、損失を用いて、辞書の更新を行うか否かの判定を行う判定部と、を備え、更新部は、判定部によって辞書の更新を行うと判定された場合、新たなラベル付きサンプルを加えたラベル付きサンプルを用いて、辞書を更新し、判定部は、更新された辞書を用いて算出された損失と、更新前の辞書を用いて新たなラベル付きサンプルを加える前のラベル付きサンプル全体に対して算出された損失と、を用いて、辞書の更新を行うか否かの判定を行う。

Description

学習装置、識別器、学習方法および記録媒体

　本発明は、学習装置、識別器、学習方法および記録媒体に関する。

　音声や画像などのコンテンツのパターンをコンピュータに認識させるときに用いる識別器に対し、パターンのサンプルを用いて学習を行う。このサンプルに対し、各サンプルが属するクラス（正解クラス）がラベル付けされていない場合に、該サンプルにラベル付けを行う方法として、能動学習が用いられている。

　一般的には、最も識別結果の信頼度の低い（すなわち、間違えやすい）サンプルを選択し、選択したサンプルに対して、ユーザが正解クラスをラベル付けする。しかしながら、このラベル付けの作業をいつ終了すればよいのかわからないという問題があった。例えば、非特許文献１には、安定予測に基づいて能動学習を停止する方法が記載されている。

　また、特許文献１には、ラベルが付与されていないサンプル（コンテンツ）に対し、ラベルの予測を行い、該予測したラベル（予測ラベル）の確信度を算出することが記載されている。ここで、予測ラベルの確信度とは、予測したラベルの確からしさを示す。そして、特許文献１には、予測ラベルの確信度が所定の閾値以上であるとき、能動学習を終了することが記載されている。

特開２０１１－２０３９９１号公報

Michael Bloodgood, K.Vijay-Shanker, "A Method for Stopping Active Learning Based on Stabilizing Predictions and the Need for User-Adjustable Stopping", Proceedings of the Thirteenth Conference on Computational Natural Language Learning, USA, Association for Computational Linguistics, June 2009, p. 39-47

　しかしながら、上述のような技術では、能動学習の終了判定のための新たな学習と評価が発生するため、多くの処理時間を要するという問題がある。

　本発明は、上記課題に鑑みてなされたものであり、その目的は、学習のための工数および処理時間をより改善する技術を提供することにある。

　本発明の一態様に係る学習装置は、識別器に用いる辞書を更新する更新手段と、前記更新手段によって更新された辞書と、１以上のサンプルであって、ラベルが付与されたラベル付きサンプルとを用いて、前記ラベル付きサンプルの数に対する比を、該ラベル付きサンプル全体に対する損失として算出する算出手段と、前記損失を用いて、前記辞書の更新を行うか否かの判定を行う判定手段と、を備え、前記更新手段は、前記判定手段によって前記辞書の更新を行うと判定された場合、新たなラベル付きサンプルを加えた前記ラベル付きサンプルを用いて、前記辞書を更新し、前記判定手段は、前記更新された辞書を用いて算出された損失と、更新前の前記辞書を用いて前記新たなラベル付きサンプルを加える前の前記ラベル付きサンプル全体に対して算出された損失と、を用いて、前記辞書の更新を行うか否かの判定を行う。

　また、本発明の一態様に係る学習方法は、識別器に用いる辞書を更新し、前記更新された辞書と、１以上のサンプルであって、ラベルが付与されたラベル付きサンプルとを用いて、前記ラベル付きサンプルの数に対する比を、該ラベル付きサンプル全体に対する損失として算出し、前記損失を用いて、前記辞書の更新を行うか否かの判定を行い、前記辞書の更新を行うと判定された場合に、新たな前記ラベル付きサンプルを加えたラベル付きサンプルを用いて、前記辞書を更新し、前記更新された辞書と、前記新たなラベル付きサンプルを加えた前記ラベル付きサンプルとを用いて、前記ラベル付きサンプルの数に対する比を、該ラベル付きサンプル全体に対する損失として算出し、前記更新された辞書を用いて算出された損失と、更新前の前記辞書を用いて前記新たなラベル付きサンプルを加える前の前記ラベル付きサンプル全体に対して算出された損失と、を用いて、前記辞書の更新を行うか否かの判定を行う。

　また、上記学習装置によって、更新を行わないと判定された辞書を用いて、データの識別を行う識別器も、本発明の範疇に含まれる。

　また、上記学習装置または学習方法を、コンピュータによって実現するコンピュータプログラム、およびそのコンピュータプログラムが格納されている、コンピュータ読み取り可能な記録媒体も、本発明の範疇に含まれる。

　本発明によれば、学習のための工数および処理時間をより改善することができる。

本発明の第１の実施の形態に係る学習装置の機能構成の一例を示す機能ブロック図である。本発明の第１の実施の形態に係る学習装置において、ラベル有サンプルの数の増加に対する、ラベル有サンプルの損失の変化の一例を示す図である。本発明の第１の実施の形態に係る学習装置において、ラベル有サンプルの数が増加する毎に得られた認識辞書を用いて、ラベルが付与された評価用セットを認識したときのエラー率の一例を示す図である。ラベル有サンプルの数の増加に対する、ラベル有サンプルの損失の変化の他の例を示す図である。本発明の第１の実施の形態に係る学習装置の処理の流れの一例を示すフローチャートである。本発明の第２の実施の形態に係る学習装置の機能構成の一例を示す機能ブロック図である。本発明の第２の実施の形態に係る学習装置の処理の流れの一例を示すフローチャートである。本発明の第３の実施の形態に係る学習装置の機能構成の一例を示す機能ブロック図である。本発明の各実施の形態に係る学習装置を含むシステムの構成の一例を示す図である。本発明の各実施の形態を実現可能なコンピュータ（情報処理装置）のハードウェア構成を例示的に説明する図である。

　＜第１の実施の形態＞
　本発明の第１の実施の形態について、図面を参照して詳細に説明する。図１は、本実施の形態に係る学習装置１００の機能構成の一例を示す機能ブロック図である。なお、図面中の矢印の方向は、一例を示すものであり、ブロック間の信号の向きを限定するものではない。以降に参照する、他のブロック図においても同様に、図面中の矢印の方向は、一例を示すものであり、ブロック間の信号の向きを限定するものではない。図１に示す通り、本実施の形態に係る学習装置１００は、選択部１０１と、取得部１０２と、更新部１０３と、算出部１０４と、比較部（判定部）１０５と、出力部１０６と、記憶部１０７とを備えている。

　まず、本実施の形態において、学習に用いるサンプル（学習用データ）であって、ラベルが付与されていないサンプルの数をＭ個（Ｍは自然数）とする。また、ラベルが付与されたサンプルの数をＮ個（Ｎは自然数）とする。ここで、ラベルとは、各サンプルが属するクラスを示したものである。すなわち、ラベルが付与されたサンプルは、正しいクラス（正解クラスと呼ぶ）のラベルが付与されたサンプル（ラベル付きサンプル）といえる。以降の説明では、正解クラスのラベルが付与されたサンプルをラベル有サンプルと呼び、ラベルが付与されていないサンプルをラベル無サンプルと呼ぶ。また、正解クラスのラベルを正解ラベルとも呼ぶ。

　また、本実施の形態では、学習装置１００に入力された学習用データ（サンプル）が、記憶部１０７に格納されているものとして説明を行うが、学習用データは、後述する各部材に直接入力されるものであってもよい。

　選択部１０１は、後述する比較部１０５からの指示に従って、記憶部１０７に格納された、学習装置１００に入力された学習用データ（サンプル）から、ラベルを付与する対象となるサンプルを選択する。つまり、選択部１０１は、学習に用いるサンプルであって、ラベルが付与されていないサンプルから、ラベルを付与する対象となるサンプルを選択する。この学習用データの集合をサンプル集合Ｃとし、ラベル無サンプルの集合をサンプル集合Ｂとし、ラベル有サンプルの集合をサンプル集合Ａとすると、サンプル集合Ｃは、サンプル集合Ａとサンプル集合Ｂとの和集合となる。そして、サンプル集合Ｂに属するサンプルにラベルが付与されると、該ラベルが付与されたサンプルは、サンプル集合Ａに属する。よって、サンプル集合Ｂに属するサンプルの数が１つ減ることになる。なお、選択部１０１が行うサンプルの選択方法については、後述する。

　記憶部１０７には、学習装置１００に入力された学習用データが格納されている。記憶部１０７は、各サンプルがサンプル集合Ａに属するのか、サンプル集合Ｂに属するのかを示す情報が関連付けられた状態で、各サンプルを格納する。また、記憶部１０７は、サンプル集合Ａに属することを示す情報が関連付けられた１以上のサンプルの夫々を、該サンプルに付与されたラベルが何であるかがわかる状態で格納する。

　つまり、記憶部１０７は、集合に関する情報が関連付けられたサンプルを格納する。そして、記憶部１０７に格納されたサンプルのうち、集合に関する情報がサンプル集合Ａを示すサンプルは、ラベルが関連付けられている。

　また、記憶部１０７は、後述する辞書（パラメータ）、ラベル有サンプルの損失等を格納してもよい。

　なお、記憶部１０７は、学習装置１００内に内蔵されるものであってもよいし、学習装置１００とは別個の記憶装置によって実現されるものであってもよい。

　また、図１では、学習用データと、パラメータと、損失とが同じ記憶部に格納されているが、これらは、夫々異なる記憶部に格納されるものであってもよい。

　取得部１０２は、ラベルが付与されたサンプルに関する情報を取得する。具体的には、選択部１０１が選択したサンプルに対して、ユーザがラベルを付与すると、取得部１０２は、このラベルが付与されたサンプルに関する情報を取得する。なお、取得部１０２は、例えば、ユーザが図示しない入力装置を用いて、ラベル無サンプルにラベルを付与した場合、この入力装置の操作情報に基づいて、ラベルが付与されたサンプル（ラベル有サンプル）に関する情報を取得してもよい。取得部１０２は、各サンプルにどのようなラベルが付与されたのかがわかる状態で、該サンプルに関する情報を取得する。

　ラベルが付与されたサンプルは、ラベルが付与される前はサンプル集合Ｂに属している。したがって、取得部１０２は、ラベルが付与されたサンプルを、サンプル集合Ｂから削除し、サンプル集合Ａに含める。つまり、取得部１０２は、記憶部１０７に格納されたサンプルに関連付けられた、集合に関する情報を、サンプル集合Ｂに関する情報からサンプル集合Ａを示す情報に更新する。そして、取得部１０２は、記憶部１０７に格納された該サンプルに、ラベルを関連付ける。

　そして、取得部１０２は、ラベルが付与されたサンプルに関する情報を取得したことを示す情報を更新部１０３に出力する。なお、取得部１０２は、記憶部１０７に格納されたサンプルに関連付けられた情報を更新したことを示す情報を、更新部１０３に出力してもよい。また、取得部１０２は、ラベルが付与されたサンプルに関する情報を取得したことを示す情報として、ラベル有サンプルの数Ｎを更新部１０３に出力してもよい。また、取得部１０２は、新しくラベルが付与されたサンプル、または、ラベルが付与されたサンプル全部（サンプル集合Ａに属するラベル有サンプル）を記憶部１０７から取得し、更新部１０３に供給する構成であってもよい。

　更新部１０３は、取得部１０２から、ラベルが付与されたサンプルに関する情報を取得したことを示す情報、新しくラベルが付与されたサンプル、または、ラベルが付与されたサンプル全部、を受信する。更新部１０３は、ラベルが付与されたサンプルに関する情報を取得したことを示す情報、または、新しくラベルが付与されたサンプルを受信した場合、記憶部１０７から、ラベル有サンプルを取得する。そして、更新部１０３は、サンプル集合Ａに属するラベル有サンプルを用いて、自身および／または記憶部１０７に格納された辞書を更新する。ここで、辞書とは、識別器で、音声や画像などの所定のデータを識別するために使用するパラメータである。また、パラメータとは、特に限定されるものではないが、例えば、識別器によって特定のものと識別される代表的なパターンの特徴を示すものである。識別器は、このパラメータに基づいて、未知のデータを識別する。なお、辞書の更新方法については、後述する。

　更新部１０３は、更新した辞書（識別器のパラメータ）を算出部１０４と、出力部１０６とに出力する。

　算出部１０４は、更新部１０３からパラメータを受信する。また、算出部１０４は、記憶部１０７から、ラベル有サンプルを取得する。そして、算出部１０４は、パラメータと、記憶部１０７に格納されたラベル有サンプルとを用いて、ラベル有サンプルの損失を算出する。

　ここで、Ｎ個のラベル有サンプル｛ｘ_ｎ｜ｎ＝１、・・・、Ｎ｝の夫々に、ラベル｛ｔ_ｎ｜ｎ＝１、・・・、Ｎ｝が付与されているとする。ここで、ｘ_ｎは、ラベルが付与されたｎ（ｎ＝１、・・・、Ｎ）番目のサンプル（ラベル有サンプル）を示している。また、ラベルｔ_ｎは、ラベル有サンプルｘ_ｎに付与されたラベルであり、正解クラスを表すものである。

　このとき、ラベル有サンプル全体に対する損失Ｌ_Ｎ（θ）を以下の式（１）で定義する。

　このように、ラベル有サンプル全体に対する損失は、ラベル有サンプルの数（Ｎ個）を分母に有する式によって表される。つまり、ラベル有サンプル全体に対する損失は、ｌｏｓｓ（ｘ；θ）の和の、ラベル有サンプルの数に対する比を、算出することによって求められる。

　式（１）において、θは、辞書（識別器のパラメータ）である。また、ｌｏｓｓ（ｘ；θ）は、パラメータθを用いた時のベクトルｘに対する損失（誤り具合）を表している。ここで、ｌｏｓｓ（ｘ；θ）を、以下の式（２）のように定義する。

　ここで、Ｋはクラス数、１（・）は真偽値に応じて所定の値を返す指示関数である。本実施の形態では、この指示関数は、括弧内の条件式が真であれば１を返し、偽なら０を返す。また、ω_ｋは、ｋ（ｋ＝１、・・・、Ｋ）番目のクラス（正解クラス）を示す。また、ｊは、１以上Ｋ以下の自然数である。また、ｒ_ｋｊ（ｘ_ｎ；θ）は、間違えやすさを表す尺度である。ｒ_ｋｊ（ｘ_ｎ；θ）の値が、負なら正認識、正なら誤認識を表す。このように、ｌｏｓｓ（ｘ；θ）は、更新部１０３によって更新された辞書を用いて算出された、各ラベル有サンプルに対する損失である。このｒ_ｋｊ（ｘ_ｎ；θ）は、以下の式（３）で定義される。

　ここで、ｇ_ｋ（ｘ_ｎ；θ）は、クラスω_ｋの識別関数を表す。だたし、識別関数の値は、正となる。そして、このｇ_ｋ（ｘ_ｎ；θ）は、属する可能性が高いクラスほど、その値が大きくなるように定義される。したがって、ｇ_ｋ（ｘ_ｎ；θ）が最大となるクラスω_ｋが、識別器が判定するクラス（識別結果）となる。

　また、式（２）において、ｆ（・）は、間違えやすさに対する損失の量を決める正の単調増加関数であり、例えば、以下の式（４）で定義される。

　ここで、ξ（ξ＞０）は、傾きを表すパラメータである。誤認識となるサンプルに対しては、大きな損失が与えられる。

　以上のように、算出部１０４は、パラメータと、記憶部１０７に格納されたラベル有サンプルとを用いて、ラベル有サンプルの損失Ｌ_Ｎを算出する。
算出部１０４は、損失Ｌ_Ｎの算出に用いるラベル有サンプルの数Ｎを、記憶部１０７に格納されたラベル有サンプルの数を数えることにより、取得してもよいし、取得部１０２から更新部１０３を介して取得するものであってもよい。

　そして、算出部１０４は、損失を算出した際のラベル有サンプルの数（この場合Ｎ個）に関連付けたラベル有サンプルの損失Ｌ_Ｎを比較部１０５に出力する。また、算出部１０４は、算出した損失Ｌ_Ｎを、該損失を算出した際のラベル有サンプルの数に関連付けて、記憶部１０７に格納してもよい。

　比較部１０５は、算出部１０４からラベル有サンプルの数に関連付けられたラベル有サンプルの損失Ｌ_Ｎを受信する。ここで、本実施の形態に係る比較部１０５は、受信した損失Ｌ_Ｎを損失Ｌ_ｎｅｗとし、受信した損失Ｌ_Ｎに関連付けられたラベル有サンプルの数より少ない数のラベル有サンプルの損失であって、算出部１０４が算出した損失を損失Ｌ_ｏｌｄとする。なお、受信した損失Ｌ_Ｎに関連付けられたラベル有サンプルの数より少ない数のラベル有サンプルの損失は、比較部１０５に格納されていてもよいし、記憶部１０７に格納されていてもよい。

　比較部１０５は、損失Ｌ_ｎｅｗと損失Ｌ_ｏｌｄとを比較することにより、辞書の更新を行うか否かの判定を行う。比較部１０５は、損失Ｌ_ｏｌｄが損失Ｌ_ｎｅｗより大きい場合、辞書の更新を行わないと判定し、辞書を出力する指示を出力部１０６に出力する。また、比較部１０５は、以前に算出された損失Ｌ_ｏｌｄが受信した損失Ｌ_ｎｅｗ以下の場合、辞書の更新を行うと判定し、ラベルを付与する対象となるサンプルを選択する指示を、選択部１０１に出力する。

　ここで、比較部１０５が比較する損失について説明する。本実施の形態では、比較部１０５は、ラベル有サンプルの数がＮのときの損失Ｌ_Ｎを損失Ｌ_ｎｅｗとし、ラベル有サンプルの数がＮ－１のときの損失Ｌ_Ｎ－１を損失Ｌ_ｏｌｄとして、損失Ｌ_ｎｅｗと損失Ｌ_ｏｌｄとを比較する。

　出力部１０６は、比較部１０５から辞書を出力する指示を受け取る。また、出力部１０６は、更新部１０３から、更新部１０３が更新した辞書（パラメータ）を受け取る。そして、出力部１０６は、比較部１０５からの指示に基づき、更新部１０３から受け取った辞書を、例えば、識別器に出力する。この辞書は、算出部１０４が損失を算出する際に用いたパラメータである。なお、出力部１０６は、出力する辞書を、記憶部１０７から取得して、出力してもよい。

　次に、ラベル有サンプルの数の増加に対する、ラベル有サンプルの損失の変化について、図２を用いて説明する。図２は、本実施の形態に係る学習装置１００において、ラベル有サンプルの数の増加に対する、ラベル有サンプルの損失の変化の一例を示す図である。図２において、横軸は、ラベル有サンプルの数を示し、縦軸は、ラベル有サンプルの損失を示す。

　ここで、ラベル有サンプルの数（Ｎ個）に反比例して損失が減少する理由について説明する。まず、上述した式（１）を、以下の式（５）のように書き換える。式（５）は、式（１）を簡略化した式であり、式（１）からθの表記を省いたものである。

　ここで、ｍは１以上Ｎ以下の任意の自然数である。ｎがｍ＋１より大きい値のときに、ｘ_ｎに対する損失であるｌｏｓｓ（ｘ_ｎ）の値が、十分小さい値であるとすると、式（５）の右辺の第二項は十分小さな値になる。そのため、式（５）の右辺では、第一項が支配的となる。この場合、ｍとＬ_ｍとは、固定値であるため、損失Ｌ_ＮはＮに反比例して減少する。

　すなわち、識別結果の信頼度の低いサンプルに優先的に正解ラベルが付与された場合、ラベル有サンプルの数（Ｎ個）に反比例して損失が減少しはじめると、大きな損失を与えるようなサンプルはもう存在しないと考えられる。したがって、この損失Ｌ_Ｎは、正解クラスのラベル付けを行うという作業の終了を判定する指標となり得る。

　図２に示す通り、本実施の形態に係る学習装置１００によれば、能動学習によって、識別結果の信頼度の低いサンプルに優先的にラベルが付与されるため、初期段階（ラベル有サンプルの数が、より少ない場合）では損失が急増する。しかしながら、図２に示す通り、ラベル有サンプルの数が、ある値（図２においてはＴＨ）を過ぎた時点から、ラベル有サンプルの数の増加に反比例して、損失の減少がはじまることがわかる。

　ここで、ラベル有サンプルの数が増加する毎に得られた認識辞書を用いて、ラベルが付与された評価用のサンプル（評価用セットとも呼ぶ）を認識したときのエラー率を、図３を用いて説明する。図３は、本実施の形態に係る学習装置１００において、ラベル有サンプルの数が増加する毎（段階と呼ぶ）に得られた認識辞書を用いて、ラベルが付与された評価用セットを認識したときのエラー率の一例を示す図である。図３において、横軸は、ラベル有サンプルの数を示し、縦軸は、エラー率を示す。なお、図３において、ＴＨは、図２において破線で示したラベル有サンプルの数（ＴＨ）と同様の値であり、図２において損失がラベル有サンプルの数に反比例して減少し始めた時点の、ラベル有サンプルの数を示す。

　図３に示す通り、初期段階（ラベル有サンプルの数が、より少ない場合）ではエラー率が急減する。そして、ラベル有サンプルの数がある値（ＴＨ）以降は、エラー率は、ほぼ一定となる。

　以上より、式（１）で定義される損失Ｌ_Ｎは、正解クラスのラベル付けを行うという作業の終了を判定する指標として、より好適であることがわかる。したがって、比較部１０５は、算出部１０４が損失Ｌ_Ｎを算出した際のラベル有サンプルの数Ｎが、図３に示す値ＴＨか否かを判定していると言える。つまり、比較部１０５は、損失Ｌ_Ｎがラベル有サンプルの数に反比例して減少し始める時点を判定していると言える。

　また、式（１）を用いた損失の算出による効果を説明するために、式（１）の右辺における１／Ｎを省いた式を用いて算出された損失の一例を図４に示す。図４は、ラベル有サンプルの数の増加に対する、ラベル有サンプルの損失の変化の他の例を示す図である。図４において、横軸は、ラベル有サンプルの数を示し、縦軸は、ラベル有サンプルの損失を示す。なお、図４において、ＴＨは、図２において破線で示したラベル有サンプルの数（ＴＨ）と同様の値である。

　式（１）の右辺における１／Ｎを省いた式を用いて算出された損失は、図４に示す通り、単純増加を続けて減少しない。したがって、学習装置１００がラベル有サンプルの数を分母に有しない式を用いて、損失を算出した場合、正解クラスのラベル付けを行うという作業の終了の判定が難しくなる。したがって、本実施の形態に係る学習装置１００の算出部１０４が損失を算出する際に用いる式が、式（１）に示すように、ラベル有サンプルの数（Ｎ個）を分母に有する式であることが好ましいことがわかる。

　（学習装置１００の処理の流れ）
　次に、本実施の形態に係る学習装置１００の処理の流れについて説明する。図５は、本実施の形態に係る学習装置１００の処理の流れの一例を示すフローチャートである。

　なお、前提条件として、クラスω_ｋの識別関数が以下の式（６）であるとする。

　ここで、ｚは入力データ、ｙ_ｋはクラスω_ｋに関する識別器のパラメータである。したがって、識別器のパラメータθはθ＝｛ｙ_ｋ｜ｋ＝１、・・・、Ｋ｝となる。ここで、Ｋはクラス数である。これにより、識別器は、入力データに対し、ｋ＝１、・・・、Ｋのそれぞれについて式（６）を算出し、式（６）が最大となるｋの値を求める。そして、識別器は、該入力データをｋ番目のクラスω_ｋに識別する。

　なお、識別関数は、式（６）に示した式に限定されるものではなく、任意の識別関数を用いてもよい。この場合であっても、学習装置１００は、以下に説明する処理を好適に実行することができる。

　また、以下に説明する処理を実行する前提条件として、正解クラスのラベルが付与されたサンプルを各クラス１個ずつ用意し、これをｙ_ｋ（ｋ＝１、・・・、Ｋ）の初期値とする。この初期値からなるパラメータθは、更新部１０３に記憶されているとする。なお、上述したとおり、パラメータθは、記憶部１０７に格納されていてもよい。

　また、この正解クラスのラベルが付与されたサンプルをラベル有サンプルとして、記憶部１０７に記憶する。これらのラベル有サンプルは、上述した、サンプル集合Ａに属する。このとき、ラベル有サンプルの数Ｎは、Ｎ＝Ｋとなる。

　また、算出部１０４によって、式（１）を用いて算出される損失Ｌ_Ｎは、この時点では、算出されていない。そのため、以前に算出された損失Ｌ_ｏｌｄの値は、０とする。そして、この損失Ｌ_ｏｌｄは、比較部１０５に記憶されているとする。なお、上述したとおり、損失Ｌ_ｏｌｄは、記憶部１０７に格納されていてもよい。

　また、記憶部１０７には、学習用データとして、Ｍ個のラベルが付与されていないサンプル（ラベル無サンプル）｛ｗ_ｂ｜ｂ＝１、・・・、Ｍ｝が格納されているとする。なお、上述したとおり、ラベル無サンプルは、サンプル集合Ｂに属する。

　図５に示す通り、本実施の形態に係る学習装置１００の選択部１０１は、記憶部１０７に格納されたラベル無サンプルから、ラベルを付与する対象となるサンプルを選択する。

　具体的には、選択部１０１は、サンプル集合Ｂに属するラベル無サンプルの夫々に対し、式（６）を用いて、ｇ_ｋ（ｗ_ｂ；θ）を算出する。つまり、選択部１０１は、式（６）のｚをｗ_ｂとして、ラベル無サンプルｗ_ｂの夫々に対して、ｇ_ｋ（ｗ_ｂ；θ）を算出する。

　そして、選択部１０１は、ラベル無サンプルｗ_ｂ毎に、式（６）が最大および２番目に大きくなるｋを求める。ここで、式（６）が最大となるｋの値をｉ（ｉは１からＫまでの自然数）とし、式（６）が２番目に大きくなるｋの値をｊ（ｊは、１からＫまでの自然数）とする。そして、選択部１０１は、ｉ番目のクラスω_ｉを１位のクラス（１位クラス）とし、ｊ番目のクラスω_ｊを２位のクラス（２位クラス）とする。

　そして、選択部１０１は、以下の式（７）を用いて、各ラベル無サンプルｗ_ｂに対し、ｒ_ｉｊを算出する。この式（７）は、上述した式（３）のｘ_ｎをｗ_ｂとしたものである。

　式（７）によって算出されるｒ_ｉｊの値は必ず負となる。このｒ_ｉｊの値が大きくなればなるほど、つまり、ｒ_ｉｊの値が０に近くなればなるほど、ｒ_ｉｊの算出に用いたラベル無サンプルｗ_ｂは、１位クラスと２位クラスとの違いが少ないサンプルである。つまり、このようなラベル無サンプルは、識別境界付近のサンプルであり、正解クラスではないクラスに判別されやすいサンプルであることを意味する。

　したがって、選択部１０１は、サンプル集合Ｂに属するラベル無サンプルのうち、ｒ_ｉｊの値が最も大きいラベル無サンプルｗ_ｂを、ラベルを付与する対象となるサンプル（対象サンプルと呼ぶ）として選択する（ステップＳ１）。

　この処理により、選択部１０１は、正解クラスではないクラスに判別されやすいラベル無サンプルを優先的に選ぶことができる。

　次に、ステップＳ１で選択された対象サンプルに、ユーザが正解クラスをラベル付けすると、取得部１０２は、そのラベル付けされたサンプル（ラベル有サンプルｘ_ｎとする）に関する情報を取得する（ステップＳ２）。そして、取得部１０２は、記憶部１０７に記憶されている、このラベル有サンプルに関連付けられた情報を更新する。つまり、取得部１０２は、このラベル有サンプルｘ_ｎが属する集合を、サンプル集合Ｂからサンプル集合Ａに変更し、該ラベル有サンプルｘ_ｎに付与されたラベルを該ラベル有サンプルｘ_ｎに関連付けて記憶部１０７に格納する（ステップＳ３）。

　これにより、サンプル集合Ｂに属するラベル無サンプルの数Ｍは、１つ減り、サンプル集合Ａに属するラベル有サンプルの数Ｎは１つ増える。

　次に、更新部１０３が、サンプル集合Ａを用いて、辞書（識別器のパラメータθ）を更新する。具体的には、更新部１０３は、式（１）の値が小さくなるように、以下の式（８）で示す最急降下法を用いて、パラメータθを更新する（ステップＳ４）。

　式（８）において、εは、０より大きい実数である。

　次に、算出部１０４は、更新部１０３が更新したパラメータθと、記憶部１０７に格納されたラベル有サンプルｘ_ｎとを用いて、式（１）からラベル有サンプルの損失Ｌ_Ｎを算出する（ステップＳ５）。

　そして、比較部１０５は、算出部１０４が算出した損失Ｌ_ＮをＬ_ｎｅｗとし、このＬ_ｎｅｗと、Ｌ_ｏｌｄとを比較する（ステップＳ６）。これにより、比較部１０５は、損失Ｌ_Ｎがラベル有サンプルの数に反比例して減少し始める時点を判定することができる。

　そして、Ｌ_ｏｌｄ≦Ｌ_ｎｅｗの場合（ステップＳ６にてＮＯ）、比較部１０５は、損失Ｌ_ｎｅｗを保存する。具体的には、比較部１０５は、Ｌ_ｏｌｄにＬ_ｎｅｗを代入する（ステップＳ７）。そして、処理をステップＳ１に戻す。その後、選択部１０１は、新たに、記憶部１０７に格納されたラベル無サンプルから、ラベルを付与する対象となるサンプルを選択する（ステップＳ１）。

　Ｌ_ｏｌｄ＞Ｌ_ｎｅｗの場合（ステップＳ６にてＹＥＳ）、出力部１０６は、現時点のパラメータθを、辞書として出力する（ステップＳ８）。

　以上により、学習装置１００は、学習処理を終了する。

　（効果）
　本実施の形態に係る学習装置１００によれば、学習のための工数および処理時間をより改善することができる。

　なぜならば、算出部１０４が、更新部１０３が更新した辞書と、１以上のラベル有サンプルとを用いて、ラベル有サンプルの数に対する比を、該ラベル有サンプル全体に対する損失として算出するからである。そして、比較部１０５が、この損失を用いて、辞書の更新を行うか否かの判定を行うからである。

　ラベル有サンプルの数を分母に有する式によって求められる損失は、より大きな損失を与えるサンプルがなくなった時点で、ラベル有サンプルの数に反比例して損失が減少するという性質を有している。

　一般的に、能動学習によって正解クラスをラベル付けする際、終了判定として識別器の安定性を評価する場合が多い。そのため、一般的な学習装置は、新たな学習や評価を行ったり、そのために必要な評価セットを別に用意したりする。したがって、一般的な学習装置は、学習のために、多くの工数や処理時間を要する場合が多い。

　しかしながら、本実施の形態に係る学習装置１００によれば、比較部１０５が、算出部１０４が算出した損失を用いて、辞書の更新の終了を判定する。そのため、本実施の形態に係る学習装置１００は、能動学習における正解クラスのラベル付けの作業の終了判定のために、新たな学習や評価を行う必要が無い。また、本実施の形態に係る学習装置１００は、そのために必要な評価セットを別に用意する必要もない。したがって、本実施の形態に係る学習装置１００は、能動学習における正解クラスのラベル付け作業の終了判定を精度よく行うことができる。

　このように、本実施の形態に係る学習装置１００は、正解クラスのラベル付け作業の終了判定を精度よく行うことができるため、学習のための工数および処理時間をより改善することができる。

　（変形例）
　本実施の形態に係る学習装置１００の比較部１０５が比較する損失の変形例について説明する。比較部１０５は、算出部１０４から、損失Ｌ_Ｎを受け取ると、該損失Ｌ_Ｎを含む１以上の損失（Ｌ_Ｎ、Ｌ_Ｎ－１、・・・、Ｌ_Ｎ－ｈ（ｈはＮより小さい任意の自然数））の平均を算出し、該平均をＬ_ｎｅｗとしてもよい。また、比較部１０５は、以前に算出された損失のうち、上記Ｌ_ｎｅｗを算出する際に使用していない損失（Ｌ_{Ｎ－ｈ－１}、Ｌ_{Ｎ－ｈ－２}、・・・、Ｌ_{Ｎ－ｈ－ｐ}（ｐはＮ－ｈより小さい任意の自然数））の平均を算出し、該平均をＬ_ｏｌｄとしてもよい。そして、比較部１０５は、上記Ｌ_ｏｌｄとＬ_ｎｅｗとを比較してもよい。

　これにより、Ｌ_ｏｌｄ＞Ｌ_ｎｅｗを満たすラベル有サンプルＮの数が、第１の実施の形態に比べ、多くなる可能性がある。したがって、本変形例に係る学習装置１００は、第１の実施の形態に係る学習装置１００が出力する辞書よりも、更に、識別精度が高い辞書を出力することができる。

　＜第２の実施の形態＞
　次に、本発明の第２の実施の形態について説明する。前述した第１の実施の形態では、学習装置１００の比較部１０５は、Ｎ個のラベル有サンプルに対する損失と、以前に算出された（Ｎ－１）個のラベル有サンプルに対する損失とを比較した。しかしながら、比較部１０５が比較する損失はこれに限定されるものではない。本実施の形態では、比較部１０５の動作の他の例について説明する。なお、説明の便宜上、前述した第１の実施の形態で説明した図面に含まれる部材と同じ機能を有する部材については、同じ符号を付し、その説明を省略する。

　図６は、本実施の形態に係る学習装置２００の機能構成の一例を示す機能ブロック図である。本実施の形態に係る学習装置２００は、図６に示す通り、選択部１０１と、取得部１０２と、更新部１０３と、算出部１０４と、比較部（判定部）２０５と、出力部１０６と、記憶部１０７とを備える。

　比較部２０５は、算出部１０４からラベル有サンプルの損失Ｌ_Ｎを受信する。そして、受信した損失Ｌ_Ｎ、並びに、比較部２０５および／または記憶部１０７に格納された、以前に算出部１０４によって算出された損失Ｌ_Ｎ－１、・・・、Ｌ_Ｎ－ｃ（ｃはＮより小さい任意の自然数）を用いて、以下の式（９）にて、Ｘ_ｑおよびＹ_ｑを算出する。

　ここで、ｑは、１からｃまでの自然数である。

　そして、比較部２０５は、算出したＸ_ｑとＹ_ｑとを用いて、Ｘ_ｑとＹ_ｑとの相関係数を、以下の式（１０）を用いて算出する。

　ただし、μ_ＸはＸ_ｑ（ｑ＝１、・・・、ｃ）の平均であり、μ_ＹはＹ_ｑ（ｑ＝１、・・・、ｃ）の平均である。

　ここで、損失Ｌ_Ｎが１／Ｎで減衰する場合、Ｒ＝１となる。損失Ｌ_Ｎが１／Ｎで減衰していれば、｛Ｌ_Ｎ、Ｌ_Ｎ－１、・・・、Ｌ_Ｎ－ｃ｝は、夫々、｛α／Ｎ、α／（Ｎ－１）、・・・、α／（Ｎ－ｃ）｝となる。ここで、αは任意の正の実数である。したがって、｛Ｌ_Ｎ－１／Ｌ_Ｎ、・・・、Ｌ_Ｎ－ｃ／Ｌ_Ｎ｝は、夫々、｛Ｎ／（Ｎ－１）、・・・、Ｎ／（Ｎ－ｃ）｝となる。

　したがって、Ｘ_ｑとＹ_ｑとの相関が高い場合、Ｒは１に近い値になるため、ラベル有サンプルの損失も、１／Ｎに近い値で減衰していると判定することができる。以上により、相関係数Ｒは、正解クラスのラベル付けを行うという作業の終了を判定する指標として、より好適であることがわかる。

　そして、比較部２０５は、Ｒと所定の閾値とを比較し、Ｒが所定の閾値より大きい場合、辞書を出力する指示を出力部１０６に出力する。また、比較部２０５は、Ｒが所定の閾値以下の場合、ラベルを付与する対象となるサンプルを選択する指示を、選択部１０１に出力する。なお、この所定の閾値は予めユーザによって設定されたものであってもよいし、学習によって設定されるものであってもよい。この所定の閾値は、損失Ｌ_Ｎがラベル有サンプルの数に反比例して減少し始める時点を判別するより適した値が設定されればよい。これにより、比較部２０５は、相関係数Ｒを用いて、損失Ｌ_Ｎがラベル有サンプルの数に反比例して減少し始める時点を判別していると言える。

　（学習装置２００の処理の流れ）
　次に、本実施の形態に係る学習装置２００の処理の流れについて説明する。図７は、本実施の形態に係る学習装置２００の処理の流れの一例を示すフローチャートである。

　なお、前提条件として、クラスω_ｋの識別関数が上述した式（６）であるとする。また、以下に説明する処理を実行する前提条件として、設定するパラメータθは、第１の実施の形態と同様であるとする。また、第１の実施の形態と同様に、記憶部１０７には、Ｎ個のラベル有サンプルおよびＭ個のラベル無サンプルが格納されているとする。

　図７に示すステップＳ１１～ステップＳ１５は、上述したステップＳ１～ステップＳ５と同様であるため、説明を省略する。

　ステップＳ１５の終了後、比較部２０５は、算出部１０４が算出した損失Ｌ_Ｎを受け取り、式（９）および式（１０）を用いて、Ｘ_ｑとＹ_ｑとの相関係数Ｒを算出する（ステップＳ１６）。そして、比較部２０５は、算出した相関係数Ｒと所定の閾値とを比較する（ステップＳ１７）。これにより、比較部２０５は、損失Ｌ_Ｎがラベル有サンプルの数に反比例して減少し始める時点を判別することができる。

　そして、相関係数Ｒが所定の閾値以上の場合（ステップＳ１７にてＮＯ）、比較部２０５は、ステップＳ１５で算出した損失Ｌ_Ｎを保存する。具体的には、比較部２０５は、次に相関係数Ｒを算出する際に、この損失Ｌ_Ｎを使用できるように、該損失Ｌ_Ｎを比較部２０５内および／または記憶部１０７に格納する（ステップＳ１８）。そして、処理をステップＳ１に戻す。その後、選択部１０１は、新たに、記憶部１０７に格納されたラベル無サンプルから、ラベルを付与する対象となるサンプルを選択する（ステップＳ１１）。

　相関係数Ｒが所定の閾値より大きい場合（ステップＳ１７にてＹＥＳ）、出力部１０６は、現時点のパラメータθを、辞書として出力する（ステップＳ１９）。

　以上により、学習装置２００は、学習処理を終了する。

　このように、本実施の形態に係る学習装置２００は、第１の実施の形態に係る学習装置１００と同様に、損失Ｌ_Ｎがラベル有サンプルの数に反比例して減少し始める時点を判別することができる。したがって、本実施の形態に係る学習装置２００は、第１の実施の形態に係る学習装置１００と同様の効果を有することができる。

　＜第３の実施の形態＞
　本発明の第３の実施の形態について、図面を参照して説明する。本実施の形態では、本発明の課題を解決する最小の構成について説明を行う。図８は、本実施の形態に係る学習装置３００の機能構成の一例を示す機能ブロック図である。

　図８に示す通り、本実施の形態に係る学習装置３００は、更新部３０３と、算出部３０４と、判定部３０５とを備えている。なお、学習装置３００は、第１の実施の形態と同様に、記憶部１０７を備える構成であってもよい。

　更新部３０３は、上述した更新部１０３に相当する。更新部３０３は、判定部３０５の判定結果に基づいて、識別器に用いる辞書を更新する。具体的には、更新部３０３は、判定部３０５によって、辞書の更新を行うと判定された場合、新たなラベル有サンプル（ラベル付きサンプル）を加えたラベル有サンプルを用いて、損失の値が収束するまでパラメータを変化させ、損失の値が収束した時点のパラメータ（辞書）に、識別器に用いる辞書を、更新する。

　算出部３０４は、上述した算出部１０４に相当する。算出部３０４は、更新部３０３によって更新された辞書と、１以上のサンプルであって、ラベルが付与されたラベル有サンプルとを用いて、ラベル有サンプル全体に対する損失を算出する。なお、算出部３０４は、ラベル有サンプルの数に対する比を、ラベル有サンプル全体に対する損失として算出する。

　判定部３０５は、上述した、比較部１０５または比較部２０５に相当する。判定部３０５は、算出部３０４が算出した損失を用いて、辞書の更新を行うか否かの判定を行う。そして、辞書の更新を行うと判定した場合、判定部３０５は、更新部３０３に判定結果を送信する。その後、判定部３０５は、辞書が更新される度に、更新された辞書を用いて算出された、新たなラベル有サンプルを加えたラベル有サンプル全体に対する損失と、更新前の辞書を用いて算出された、新たなラベル有サンプルを加える前のラベル有サンプル全体に対する損失とを用いて、辞書の更新を行うか否かの判定を行い、判定結果を更新部３０３に送信する。

　以上により、本実施の形態に係る学習装置３００は、第１の実施の形態に係る学習装置１００と同様に、学習のための工数および処理時間をより改善することができる。

　＜システム構成＞
　次に、図９を参照して、上述した各実施の形態に係る学習装置（１００、２００、３００）を含むシステムの構成について説明する。図９は、各実施の形態に係る学習装置（１００、２００、３００）を含むシステムの構成の一例を示す図である。

　図９に示す通り、システムは、識別器（識別装置）１と、学習装置（１００、２００、３００）とを含む。識別器１は、学習装置（１００、２００）の出力部１０６から出力された辞書、または学習装置３００において、更新しないと判定された際の辞書を用いて識別を行う。

　このように、識別器は、各実施の形態に係る学習装置（１００、２００、３００）から得られる辞書を用いて識別を行うことができる。

　＜ハードウェアの構成例＞
　ここで、上述した各実施の形態に係る学習装置（１００、２００、３００）を実現可能なハードウェアの構成例について説明する。上述した学習装置（１００、２００、３００）は、専用の装置として実現してもよいが、コンピュータ（情報処理装置）を用いて実現してもよい。

　図１０は、本発明の各実施の形態を実現可能なコンピュータ（情報処理装置）のハードウェア構成を例示する図である。

　図１０に示した情報処理装置（コンピュータ）１０のハードウェアは、以下に示す部材を備える。
・ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）１１、
・通信インタフェース（Ｉ／Ｆ）１２、入出力ユーザインタフェース１３、
・ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）１４、
・ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）１５、
・記憶装置１７、及び
・コンピュータ読み取り可能な記憶媒体１９のドライブ装置１８。
また、これらはバス１６を介して接続されている。入出力ユーザインタフェース１３は、入力デバイスの一例であるキーボードや、出力デバイスとしてのディスプレイ等のマンマシンインタフェースである。通信インタフェース１２は、上述した各実施の形態に係る装置（図１、図６および図８）が、外部装置と、通信ネットワーク２０を介して通信するための一般的な通信手段である。係るハードウェア構成において、ＣＰＵ１１は、各実施の形態に係る学習装置（１００、２００、３００）を実現する情報処理装置１０について、全体の動作を司る。

　上述した各実施の形態は、例えば、上記各実施の形態において説明した処理を実現可能なプログラム（コンピュータプログラム）を、図１０に示す情報処理装置１０に対して供給した後、そのプログラムを、ＣＰＵ１１に読み出して実行することによって達成される。なお、係るプログラムは、例えば、上記各実施の形態の説明において参照したフローチャート（図５、図７）に記載した各種処理や、或いは、図１、図６および図８に示したブロック図において当該装置内に示した各部（各ブロック）を実現可能なプログラムであってもよい。

　また、情報処理装置１０内に供給されたプログラムは、読み書き可能な一時記憶メモリ（１５）またはハードディスクドライブ等の不揮発性の記憶装置（１７）に格納されてもよい。即ち、記憶装置１７において、プログラム群１７Ａは、例えば、上述した各実施の形態における学習装置（１００、２００、３００）内に示した各部の機能を実現可能なプログラムである。また、各種の記憶情報１７Ｂは、例えば、上述した各実施の形態における学習用データ、パラメータ、損失等である。ただし、情報処理装置１０へのプログラムの実装に際して、個々のプログラム・モジュールの構成単位は、ブロック図（図１、図６および図８）に示した各ブロックの区分けには限定されず、当業者が実装に際して適宜選択してよい。

　また、前記の場合において、当該装置内へのプログラムの供給方法は、以下のような現在では一般的な手順を採用することができる。
・ＣＤ（Ｃｏｍｐａｃｔ　Ｄｉｓｃ）－ＲＯＭ、フラッシュメモリ等のコンピュータ読み取り可能な各種の記録媒体（１９）を介して当該装置内にインストールする方法、
・インターネット等の通信回線（２０）を介して外部よりダウンロードする方法。
そして、このような場合において、本発明の各実施の形態は、係るコンピュータプログラムを構成するコード（プログラム群１７Ａ）或いは係るコードが格納された記憶媒体（１９）によって構成されると捉えることができる。

　以上、本発明を、上述した模範的な実施の形態に適用した例として説明した。しかしながら、本発明の技術的範囲は、上述した各実施の形態に記載した範囲には限定されない。当業者には、係る実施の形態に対して多様な変更または改良を加えることが可能であることは明らかである。そのような場合、係る変更または改良を加えた新たな実施の形態も、本発明の技術的範囲に含まれ得る。そしてこのことは、請求の範囲に記載した事項から明らかである。

　この出願は、２０１５年１月７日に出願された日本出願特願２０１５－００１２７１を基礎とする優先権を主張し、その開示の全てをここに取り込む。

　１００　　学習装置
　１０１　　選択部
　１０２　　取得部
　１０３　　更新部
　１０４　　算出部
　１０５　　比較部
　１０６　　出力部
　１０７　　記憶部
　２００　　学習装置
　２０５　　比較部
　３００　　学習装置
　３０３　　更新部
　３０４　　算出部
　３０５　　判定部
　１　　識別器

Claims

　識別器に用いる辞書を更新する更新手段と、
　前記更新手段によって更新された辞書と、１以上のサンプルであって、ラベルが付与されたラベル付きサンプルとを用いて、前記ラベル付きサンプルの数に対する比を、該ラベル付きサンプル全体に対する損失として算出する算出手段と、
　前記損失を用いて、前記辞書の更新を行うか否かの判定を行う判定手段と、を備え、
　前記更新手段は、前記判定手段によって前記辞書の更新を行うと判定された場合、新たなラベル付きサンプルを加えた前記ラベル付きサンプルを用いて、前記辞書を更新し、
　前記判定手段は、前記更新された辞書を用いて算出された損失と、更新前の前記辞書を用いて前記新たなラベル付きサンプルを加える前の前記ラベル付きサンプル全体に対して算出された損失と、を用いて、前記辞書の更新を行うか否かの判定を行う、ことを特徴とする学習装置。
　前記判定手段は、前記更新された辞書を用いて算出された損失が、前記ラベル付きサンプルの数に反比例して減少している場合に、前記辞書の更新を行わないと判定する、ことを特徴とする請求項１に記載の学習装置。
　前記判定手段は、前記更新された辞書を用いて算出された損失が、前記ラベル付きサンプルの数が一つ少ない数のときに前記算出手段が算出した過去の損失より小さい場合に、前記辞書の更新を行わないと判定する、ことを特徴とする請求項２に記載の学習装置。
　前記判定手段は、前記更新された辞書を用いて算出された損失および所定数の過去の損失の平均が、前記所定数の過去の損失を算出するより更に前に、前記算出手段が算出した所定数の損失の平均より小さい場合に、前記辞書の更新を行わないと判定する、ことを特徴とする請求項２に記載の学習装置。
　前記判定手段は、前記ラベル付きサンプルの数の、該ラベル付きサンプルの数が所定数少ない第１のサンプル数に対する比と、前記ラベル付きサンプル全体に対する損失に対する、前記ラベル付きサンプルの数が前記第１のサンプル数の際の損失の比との、相関関数を算出し、前記相関関数が所定の閾値より大きい場合、前記辞書の更新を行わないと判定する、ことを特徴とする請求項２に記載の学習装置。
　ラベルが付与されていないサンプルのうち、正解クラスではないクラスに判別されやすいサンプルを、ラベルを付与する対象のサンプルとして選択する選択手段と、
　前記選択手段によって選択された前記ラベルを付与する対象のサンプルに対してラベルが付与されると、前記ラベルを付与する対象のサンプルを含む、前記ラベル付きサンプルを取得する取得手段と、を更に備え、
　前記更新手段は、前記取得手段が取得した前記ラベル付きサンプルを用いて、前記辞書を更新する、ことを特徴とする請求項１から５の何れか１項に記載の学習装置。
　前記判定手段が、前記辞書の更新を行わないと判定したとき、該辞書を出力する出力手段を更に備えることを特徴とする、請求項１から６の何れか１項に記載の学習装置。
　請求項１から７の何れか１項に記載の学習装置において更新を行わないと判定された前記辞書を用いて、データの識別を行うことを特徴とする識別器。
　識別器に用いる辞書を更新し、
　前記更新された辞書と、１以上のサンプルであって、ラベルが付与されたラベル付きサンプルとを用いて、前記ラベル付きサンプルの数に対する比を、該ラベル付きサンプル全体に対する損失として算出し、
　前記損失を用いて、前記辞書の更新を行うか否かの判定を行い、
　前記辞書の更新を行うと判定された場合に、新たな前記ラベル付きサンプルを加えたラベル付きサンプルを用いて、前記辞書を更新し、
　前記更新された辞書と、前記新たなラベル付きサンプルを加えた前記ラベル付きサンプルとを用いて、前記ラベル付きサンプルの数に対する比を、該ラベル付きサンプル全体に対する損失として算出し、
　前記更新された辞書を用いて算出された損失と、更新前の前記辞書を用いて前記新たなラベル付きサンプルを加える前の前記ラベル付きサンプル全体に対して算出された損失と、を用いて、前記辞書の更新を行うか否かの判定を行う、ことを特徴とする学習方法。
　識別器に用いる辞書を更新する処理と、
　前記更新された辞書と、１以上のサンプルであって、ラベルが付与されたラベル付きサンプルとを用いて、前記ラベル付きサンプルの数に対する比を、該ラベル付きサンプル全体に対する損失として算出する処理と、
　前記損失を用いて、前記辞書の更新を行うか否かの判定を行う処理と、をコンピュータに実行させ、
　前記辞書を更新する処理は、前記辞書の更新を行うと判定された場合、新たな前記ラベル付きサンプルを加えた前記ラベル付きサンプルを用いて、前記辞書を更新する処理であり、
　前記辞書の更新を行うか否かの判定を行う処理は、前記更新された辞書を用いて算出された損失と、更新前の前記辞書を用いて前記新たなラベル付きサンプルを加える前の前記ラベル付きサンプル全体に対して算出された損失と、を用いて、前記辞書の更新を行うか否かの判定を行う処理であるプログラムを記憶する、コンピュータ読み取り可能な記録媒体。