WO2021064787A1

WO2021064787A1 - 学習システム、学習装置、および学習方法

Info

Publication number: WO2021064787A1
Application number: PCT/JP2019/038498
Authority: WO
Inventors: 亮高本
Original assignee: 日本電気株式会社
Priority date: 2019-09-30
Filing date: 2019-09-30
Publication date: 2021-04-08
Also published as: JPWO2021064787A1; US20220343163A1; JP7468540B2

Abstract

学習システム８００は、複数の訓練データの各々の特徴量を抽出する教師ＤＮＮ特徴量抽出手段８０１と、複数の訓練データの各々に対応する各ラベルの第１推定値を計算する教師ＤＮＮ推定値計算手段８０２と、複数の訓練データの各々の特徴量を抽出する生徒ＤＮＮ特徴量抽出手段８０３と、複数の訓練データの各々に対応する各ラベルの第２推定値を計算する生徒ＤＮＮ推定値計算手段８０４と、訓練データに対応するラベルと第１推定値とに基づいて、訓練データに対応するラベルがノイズを含むラベルであるか否か判定するノイズラベル修正手段８０５と、ノイズを含むラベルの影響を低下させながら、教師ＤＮＮ特徴量抽出手段８０１が抽出した特徴量と生徒ＤＮＮ特徴量抽出手段８０３が抽出した特徴量との差がなくなるように生徒ＤＮＮにおける重みを更新する更新手段８０６とを含む。

Description

学習システム、学習装置、および学習方法

　本発明は、ディープニューラルネットワークを含む学習システムおよび学習装置、ならびに、ディープニューラルネットワークを用いる学習方法に関する。

　ディープニューラルネットワーク（以下、ＤＮＮ（Deep Neural Network ）は、中間層が複数の層からなるニューラルネットワークである。ＤＮＮの一例として、２以上の隠れレイヤを有するＣＮＮ（Convolutional Neural Network）がある。

　ＤＮＮにおいて、多くのパラメータが使用される。それに起因して、ＤＮＮを実現する計算機での計算量が多くなる。その結果、計算機の能力（演算速度や記憶容量）が比較的低い携帯端末などにＤＮＮを適用することは難しい。

　計算コストを下げるために、すなわち、計算量を減らすために、隠れレイヤの数を減らしたり、隠れレイヤにおけるノード数を減らしてＤＮＮの次元数を減らすことが考えられる。隠れレイヤの数やノード数が減ることによって、ＤＮＮモデルのサイズを小さくすることができる。しかし、ＤＮＮモデルのサイズが小さくなることによって計算量は少なくなるが、ＤＮＮの精度は低下する。

　精度の低下を押さえつつ計算コストを下げる手法として、モデル圧縮としての蒸留という手法がある。蒸留では、まず、例えば教師あり学習の方法でモデルが訓練され、教師モデルが作成される。次いで、教師モデルとは別のよりサイズが小さいモデルである生徒モデルが、教師モデルの出力を正解ラベルの代わりに使用して訓練される（例えば、特許文献１参照）。

　なお、非特許文献１にも、蒸留が紹介されている。

特表２０１７－５３１２５５号公報

G. Chen et al., "Learning Efficient Object Detection Models with Knowledge Distillation", 31st International Conference on Neural Information Processing Systems (NIPS2017)

　教師データにおいて、ラベルにノイズが含まれることがある。ノイズが含まれた教師データは、ＤＮＮの精度に影響を与える。特許文献１には、教師モデルの出力を正解ラベルの代わりに使用して訓練された生徒モデルが記載されているが、特許文献１において、ノイズが含まれた教師データは、考慮されていない。

　非特許文献１にも、教師モデルの出力を正解ラベルの代わりに使用して訓練された生徒モデルが記載されている。しかし、非特許文献１において、ノイズが含まれた教師データに対する対応策は検討されていない。

　本発明は、教師ＤＮＮが学んだ情報を効率よく生徒ＤＮＮに学習させることができる学習システム、学習装置、および学習方法を提供することを目的とする。

　本発明による学習システムは、教師ＤＮＮと、教師ＤＮＮのサイズよりも小さいサイズの生徒ＤＮＮとを使用する学習システムであって、複数の訓練データの各々の特徴量を抽出する教師ＤＮＮ特徴量抽出手段と、複数の訓練データの各々に対応する各ラベルの第１推定値を計算する教師ＤＮＮ推定値計算手段と、複数の訓練データの各々の特徴量を抽出する生徒ＤＮＮ特徴量抽出手段と、複数の訓練データの各々に対応する各ラベルの第２推定値を計算する生徒ＤＮＮ推定値計算手段と、訓練データに対応するラベルと第１推定値とに基づいて、訓練データに対応するラベルがノイズを含むラベルであるか否か判定するノイズラベル修正手段と、ノイズを含むラベルの影響を低下させながら、教師ＤＮＮ特徴量抽出手段が抽出した特徴量と生徒ＤＮＮ特徴量抽出手段が抽出した特徴量との差がなくなるように生徒ＤＮＮにおける重みを更新する更新手段とを含む。

　本発明による学習装置は、生徒ＤＮＮを使用する学習装置であって、入力データの特徴量を抽出する生徒ＤＮＮ特徴量抽出手段と、入力データに対応するラベルの複数の推定値を計算する生徒ＤＮＮ推定値計算手段と、複数の推定値を統合する出力統合手段とを備え、生徒ＤＮＮ特徴量抽出手段の重みが、複数の訓練データの各々の特徴量を抽出する教師ＤＮＮ特徴量抽出手段、複数の訓練データの各々に対応する各ラベルの第１推定値を計算する教師ＤＮＮ推定値計算手段、訓練データに対応するラベルと第１推定値とに基づいて、訓練データに対応するラベルがノイズを含むラベルであるか否か判定するノイズラベル修正手段、およびノイズを含むラベルの影響を低下させながら、教師ＤＮＮ特徴量抽出手段が抽出した特徴量と生徒ＤＮＮ特徴量抽出手段が抽出した特徴量との差がなくなるように生徒ＤＮＮにおける重みを更新する更新手段を含む教師ＤＮＮによって更新される。

　本発明による学習方法は、教師ＤＮＮと、教師ＤＮＮのサイズよりも小さいサイズの生徒ＤＮＮとを使用する学習方法であって、複数の訓練データの各々の特徴量を教師ＤＮＮ特徴量として抽出し、複数の訓練データの各々に対応する各ラベルの第１推定値を計算し、複数の訓練データの各々の特徴量を生徒ＤＮＮ特徴量として抽出し、複数の訓練データの各々に対応する各ラベルの第２推定値を計算し、訓練データに対応するラベルと第１推定値とに基づいて、訓練データに対応するラベルがノイズを含むラベルであるか否か判定し、抽出された教師ＤＮＮ特徴量と生徒ＤＮＮ特徴量との差がなくなるように生徒ＤＮＮにおける重みを更新する。

　本発明による記録媒体は、学習プログラムが格納されたコンピュータ読み取り可能な記録媒体であって、学習プログラムは、複数の訓練データの各々の特徴量を教師ＤＮＮ特徴量として抽出する処理と、複数の訓練データの各々に対応する各ラベルの第１推定値を計算する処理と、複数の訓練データの各々の特徴量を生徒ＤＮＮ特徴量として抽出する処理と、複数の訓練データの各々に対応する各ラベルの第２推定値を計算する処理と、訓練データに対応するラベルと第１推定値とに基づいて、訓練データに対応するラベルがノイズを含むラベルであるか否か判定する処理と、抽出された教師ＤＮＮ特徴量と生徒ＤＮＮ特徴量との差がなくなるように生徒ＤＮＮにおける重みを更新する処理とをプロセッサに実行させる。

　本発明によれば、教師ＤＮＮが学んだ情報を効率よく生徒ＤＮＮに学習させることができる。

第１の実施形態の学習システムの構成例を示すブロック図である。第１の実施形態における教師ＤＮＮから生徒ＤＮＮを学習させる例を示す説明図である。教師ＤＮＮモデルの例を示す説明図である。生徒ＤＮＮモデルの例を示す説明図である。第１の実施形態の学習システムの動作を示すフローチャートである。第２の実施形態の学習システムの構成例を示すブロック図である。第２の実施形態における教師ＤＮＮから生徒ＤＮＮを学習させる例を示す説明図である。ＣＰＵを有するコンピュータの一例を示すブロック図である学習システムの主要部を示すブロック図である。学習装置の主要部を示すブロック図である。

実施形態１．
　以下、本発明の第１の実施形態を、図面を参照して説明する。第１の実施形態の学習システムは、蒸留の手法が適用された学習システムである。

　図１は、学習システムの構成例を示すブロック図である。本実施形態の学習システム２００は、データ読み込み部２０１と、ラベル読み込み部２０２と、教師ＤＮＮ特徴量抽出部２０３と、教師ＤＮＮ推定値計算部２０４と、生徒ＤＮＮ特徴量抽出部２０５と、生徒ＤＮＮ推定値計算部２０６と、生徒ＤＮＮ特徴量学習部２０７と、ノイズラベル修正部２０８と、生徒ＤＮＮ学習部２０９と、出力統合部２１０と、出力部２１１とを含む。

　データ読み込み部２０１には、例えば画像や音声、文章等のデータが入力される。なお、入力されたデータは、一時的にメモリに保存される。その後、データ読み込み部２０１は、教師ＤＮＮ特徴量抽出部２０３および生徒ＤＮＮ特徴量抽出部２０５に、入力されたデータを出力する。

　ラベル読み込み部２０２には、データ読み込み部２０１に入力されたデータに対応するラベルが入力される。なお、入力されたラベルは、一時的にメモリに保存される。ラベル読み込み部２０２は、ノイズラベル修正部２０８および生徒ＤＮＮ学習部２０９に、入力されたラベルを出力する。

　教師ＤＮＮ特徴量抽出部２０３は、データ読み込み部２０１から入力されたデータをスカラ配列の特徴量に変換する。

　教師ＤＮＮ推定値計算部２０４は、教師ＤＮＮ特徴量抽出部２０３から入力されるスカラ配列の特徴量を用いてラベル推定値を計算する。

　生徒ＤＮＮ特徴量抽出部２０５は、教師ＤＮＮ特徴量抽出部２０３と同様に、データ読み込み部２０１から入力されたデータをスカラ配列の特徴量に変換する。

　生徒ＤＮＮ推定値計算部２０６は、生徒ＤＮＮ特徴量抽出部２０５から入力されるスカラ配列の特徴量を用いてラベル推定値を計算する。生徒ＤＮＮ推定値計算部２０６は、統計平均のために複数の推定値を出力する。生徒ＤＮＮ推定値計算部２０６は、ノイズラベル修正部２０８からの出力の推定値や、教師ＤＮＮ推定値計算部２０４からの出力の推定値等を出力する。

　生徒ＤＮＮ特徴量学習部２０７は、教師ＤＮＮ特徴量抽出部２０３と生徒ＤＮＮ特徴量抽出部２０５とのそれぞれから特徴量を受け取り、それらの差の関数を計算する。そして、生徒ＤＮＮ特徴量学習部２０７は、関数の値を小さくする勾配を計算する。勾配は、生徒ＤＮＮの重みを更新するために用いられる。

　ノイズラベル修正部２０８は、ラベル読み込み部２０２から入力されたラベル値と、教師ＤＮＮ推定値計算部２０４から入力されるラベル推定値とを比較する。ノイズラベル修正部２０８は、ラベル値とラベル推定値との差が大きなラベルを誤っているラベル（ノイズを含むラベル）と見なす。

　ノイズラベル修正部２０８は、誤っているラベルを修正する。修正方法として、例えば、教師ＤＮＮ推定値計算部２０４から入力されるラベル推定値をそのまま修正ラベルとして用いることが考えられる。なお、修正方法は、教師ＤＮＮ推定値計算部２０４からのラベル推定値をそのまま修正ラベルとして用いる方法に限定されず、他の方法が用いられてもよい。

　生徒ＤＮＮ学習部２０９は、ラベル読み込み部２０２からラベルを入力し、教師ＤＮＮ推定値計算部２０４からラベル推定値を入力し、ノイズラベル修正部２０８から修正ラベルを入力する。また、生徒ＤＮＮ学習部２０９は、生徒ＤＮＮ推定値計算部２０６からラベル推定値を入力する。生徒ＤＮＮ学習部２０９は、例えば、修正ラベルを参照しつつ、教師ＤＮＮ推定値計算部２０４からのラベル推定値と生徒ＤＮＮ推定値計算部２０６からのラベル推定値（教師ＤＮＮ推定値計算部２０４からの出力の推定値）との差を計算する。生徒ＤＮＮ学習部２０９は、関数の値を小さくする勾配を計算し、生徒ＤＮＮの重みの更新に用いる。関数として、例えば、平均二乗誤差、平均絶対値誤差、Ｗｉｎｇ－Ｌｏｓｓが使用可能である。

　出力統合部２１０は、生徒ＤＮＮ推定値計算部２０６から出力を受け取り、その値を統合する。統合方法として、例えば統計平均がある。

　出力部２１１は、訓練フェーズ（学習フェーズ）が終了した後の運用（適用フェーズ）時に、出力統合部２１０からの出力を入力し、生徒ＤＮＮの推定値として出力する。

　なお、出力統合部２１０および出力部２１１は、適用フェーズで活用されるので、訓練フェーズでは存在しなくてもよい。

　また、教師ＤＮＮ（教師ＤＮＮ特徴量抽出部２０３および教師ＤＮＮ推定値計算部２０４が含まれる。）は、要求される精度を学習で実現するのに十分な数のパラメータを持つ比較的大きなサイズのＤＮＮモデルである。教師モデルとして、一例として、チャンネル数の多いＲｅｓＮｅｔやＷｉｄｅｒ　ＲｅｓＮｅｔが使用可能である。ＤＮＮモデルのサイズは、例えば、パラメータ数に相当するが、層数、特徴マップサイズ、カーネルサイズに相当してもよい。

　また、生徒ＤＮＮ（生徒ＤＮＮ特徴量抽出部２０５、生徒ＤＮＮ推定値計算部２０６、生徒ＤＮＮ特徴量学習部２０７および生徒ＤＮＮ学習部２０９を含む。）のサイズは、教師ＤＮＮのサイズよりも小さい。例えば、生徒ＤＮＮにおけるパラメータ数は比較的少ない。生徒ＤＮＮにおけるパラメータ数は、教師ＤＮＮにおけるパラメータ数よりも少ない。生徒ＤＮＮは、例えば、実装が想定されるデバイスに実際に実装されることが可能な程度の小さなサイズのＤＮＮモデルである。生徒ＤＮＮ５０１として、一例として、Ｍｏｂｉｌｅ　Ｎｅｔやチャンネル数を十分減少させたＲｅｓＮｅｔやＷｉｄｅｒ　ＲｅｓＮｅｔが考えられる。

　図２は、教師ＤＮＮから生徒ＤＮＮを学習させる例を示す説明図である。図２を参照して、パラメータ数が多い教師ＤＮＮの出力を正解ラベルの代わりに使用して、パラメータ数が小さい生徒ＤＮＮを訓練する（学習させる）例を説明する。

　学習システム３００において、生徒ＤＮＮ３０１は、データ読み込み部３１０からデータを入力する。特徴量抽出部３２１は、データを特徴量に変換する。推定値計算部３３１は、特徴量を推定値３４１に変換する。データ読み込み部３１０、特徴量抽出部３２１および推定値計算部３３１は、図１に示された学習システム２００におけるデータ読み込み部２０１、生徒ＤＮＮ特徴量抽出部２０５および生徒ＤＮＮ推定値計算部２０６に対応する。すなわち、学習システム３００は、表現方法が異なっているが、図１に示された学習システム２００と同様のシステムである。

　また、教師ＤＮＮ３０２は、データ読み込み部３１０からデータを入力する。特徴量抽出部３２２は、データを特徴量に変換する。推定値計算部３３２は、特徴量を推定値３４２に変換する。データ読み込み部３１０、特徴量抽出部３２２および推定値計算部３３２は、図１に示された学習システム２００におけるデータ読み込み部２０１、教師ＤＮＮ特徴量抽出部２０３および教師ＤＮＮ推定値計算部２０４に対応する。

　学習システム３００において、誤差信号計算部３５０は、得られた各特徴量と、変換された各推定値とから誤差信号を計算する。そして、学習システム３００は、生徒ＤＮＮ３０１のネットワークパラメータを更新するための逆伝搬によって重みを更新する。

　なお、図１に示された学習システム２００では、誤差信号計算部３５０の処理は、生徒ＤＮＮ学習部２０９によって実行される。

　図３は、教師ＤＮＮモデルの例を示す説明図である。

　教師ＤＮＮモデル４００における教師ＤＮＮ４０１は、特徴量抽出部４０６と、推定値計算部４０７とを含む。特徴量抽出部４０６は、複数の隠れレイヤ４０４を含む。隠れレイヤは、複数のノード４０３からなる。各ノードは、対応する重みパラメータを有する。重みパラメータは学習により更新される。

　データは、データ読み込み部４０２から供給される。特徴量抽出部４０６によって抽出された特徴量は、特徴量抽出部４０６の最終層から推定値計算部４０７に出力される。推定値計算部４０７は、入力した特徴量をラベル推定値４０５に変換する。

　なお、データ読み込み部４０２、特徴量抽出部４０６および推定値計算部４０７は、図１に示された学習システム２００におけるデータ読み込み部２０１、教師ＤＮＮ特徴量抽出部２０３および教師ＤＮＮ推定値計算部２０４に対応する。

　図４は、生徒ＤＮＮモデルの例を示す説明図である。

　生徒ＤＮＮモデル５００における生徒ＤＮＮ５０１は、特徴量抽出部５０６と、推定値計算部５０７とを含む。特徴量抽出部５０６は、複数の隠れレイヤ５０４を含む。隠れレイヤは、複数のノード５０３からなる。各ノードは、対応する重みパラメータを有する。重みパラメータは学習により更新される。

　特徴量抽出部５０６によって抽出された特徴量は、特徴量抽出部５０６の最終層から推定値計算部５０７に出力される。推定値計算部５０７は、入力した特徴量を複数のラベル推定値５０５に変換する。

　なお、データ読み込み部５０２、特徴量抽出部５０６および推定値計算部５０７は、図１に示された学習システム２００におけるデータ読み込み部２０１、生徒ＤＮＮ特徴量抽出部２０５および生徒ＤＮＮ推定値計算部２０６に対応する

　次に、図５のフローチャートを参照して第１の実施形態の学習システム３００の動作を説明する。

　まず、学習システム３００は、第１ＤＮＮモデルを教師ＤＮＮモデルとして決定する（ステップＳ１１０）。図１に示された構成例では、教師ＤＮＮには、教師ＤＮＮ特徴量抽出部２０３および教師ＤＮＮ推定値計算部２０４が含まれる。

　次に、学習システム３００は、第２ＤＮＮモデルを生徒ＤＮＮモデルとして初期化する（ステップＳ１２０）。初期化に際して、例えば、平均０、分散１の正規分布する乱数を用いて初期値を与える。図１に示された学習システム２００では、生徒ＤＮＮモデルには、生徒ＤＮＮ特徴量抽出部２０５、生徒ＤＮＮ推定値計算部２０６、生徒ＤＮＮ特徴量学習部２０７および生徒ＤＮＮ学習部２０９が含まれる。

　そして、学習システム３００は、１組のラベル付き訓練データを、教師ＤＮＮモデルと生徒ＤＮＮモデルとの入力として受け取る（ステップＳ１３０）。図１に示された学習システム２００では、データ読み込み部２０１およびラベル読み込み部２０２が、ラベル付き訓練データを入力する。なお、データ読み込み部２０１とラベル読み込み部２０２とは、一体化されていてもよい。また、以下の説明において、訓練データは、ラベル付き訓練データを意味する。

　学習システム３００において、教師ＤＮＮ４０１および生徒ＤＮＮ５０１は、受け取った訓練データの部分集合を使用して、出力の計算を行う（ステップＳ１４０）。

　図１に示された学習システム２００では、教師ＤＮＮ推定値計算部２０４の出力が、教師ＤＮＮ４０１の出力に相当する。また、生徒ＤＮＮ推定値計算部２０６の出力が、生徒ＤＮＮ５０１の出力に相当する。

　次に、学習システム３００において、教師ＤＮＮ４０１の出力を用いて訓練データの誤ったラベルデータ（ノイズラベル）が判定される (ステップＳ１５０)。図１に示された学習システム２００では、ノイズラベル修正部２０８が、訓練データにおけるラベルが誤っているか否か判定する。

　学習システム３００において、生徒ＤＮＮ５０１の出力が、教師ＤＮＮ４０１の出力および修正された訓練データのラベル（修正ラベル）と比較されることによって評価される（ステップＳ１６０）。図１に示された学習システム２００では、生徒ＤＮＮ学習部２０９が、評価を行う。

　学習システム３００において、ある判定基準を用いてステップＳ１４０～ステップＳ１６０の処理を繰り返すか否か決定される（ステップＳ１６５）。判定基準として、例えば生徒ＤＮＮ５０１の出力とラベルとの平均二乗誤差を計算し、その値があるしきい値を上回る（または、下回る）ことが考えられる。図１に示された学習システム２００では、生徒ＤＮＮ学習部２０９が、ステップＳ１６５の判定処理を実行する。

　ステップＳ１６５において、繰り返すと判定された場合には、学習システム３００において、評価に基づいて生徒ＤＮＮ５０１の重みパラメータ（具体的には、生徒ＤＮＮ特徴量抽出部２０５を構成するレイヤにおけるノードの重み）が更新される（ステップＳ１７０）。ステップＳ１６５において、繰り返すと判定されなかった場合、すなわち、訓練を終了すると判定された場合には、学習システム３００は、訓練された生徒ＤＮＮ５０１を提供する（ステップＳ１８０）。

　なお、例えば携帯端末などのデバイスにＤＮＮが実装される場合には、生徒ＤＮＮモデル５００が実装の対象である。訓練された生徒ＤＮＮ５０１を提供するということは、デバイスに実行可能な生徒ＤＮＮ５０１が決定されたことを意味する。

　次に、図１を参照して、より具体的な実施例を説明する。

　回帰問題として学習させたいデータセットとラベルとを用意する。そしてデータセットを学習させるのに十分に大きなサイズの第１ＤＮＮモデルを教師モデルとして採用し学習をさせる。

　教師モデルには、例えば乱数や何らかのデータセットを用いて学習済みの重みが初期値として設定されている。学習時に、データセットの部分集合が教師ＤＮＮ特徴量抽出部２０３に与えられる。教師ＤＮＮ推定値計算部２０４からの出力値ｙ_outputと、ラベルの値ｙ_labelとが比較される。出力値ｙ_outputとラベルの値ｙ_labelとの差の関数、例えば平均二乗誤差（Σ（ｙ_output－ｙ_label）^２／Ｎ)が計算される。なお、比較の処理および計算の処理は、例えば、図１には示されていない教師特徴量学習部によって実行される。

　そして、関数の値を減少させる方向に、誤差逆伝播等を用いて勾配が計算され、確率的勾配降下法等によって重みパラメータが更新される。勾配の計算および重みパラメータの更新の処理は、ある判定基準、例えば出力とラベルの平均二乗誤差があるしきい値以下になるまで続けられる。以上の処理によって教師ＤＮＮ４０１が得られる。なお、勾配の計算および重みパラメータの更新の処理は、例えば、図１には示されていない教師特徴量学習部によって実行される。

　生徒ＤＮＮ５０１にも、教師ＤＮＮ４０１と同様に乱数や何らかのデータセットを用いて学習済みの重みが初期値として設定されている。

　学習時に、データセットの部分集合が、教師ＤＮＮ特徴量抽出部２０３と生徒ＤＮＮ特徴量抽出部２０５とに与えられる。教師ＤＮＮ特徴量抽出部２０３および生徒ＤＮＮ特徴量抽出部２０５の最終層（図３参照）の値ｚ_teacher、ｚ_studentと、教師ＤＮＮ推定値計算部２０４および生徒ＤＮＮ推定値計算部２０６の出力ｙ_teacher、ｙ_{student，ｉ}とが計算される。生徒ＤＮＮ推定値計算部２０６は、複数のデータを出力するので、出力の値に添え字ｉが付されている。

　生徒ＤＮＮ特徴量学習部２０７は、ｚ_teacher、ｚ_studentの差の関数、例えば平均二乗誤差（Σ（ｚ_student－ｚ_teacher）^２／Ｎ）を計算する。なお、生徒ＤＮＮ特徴量学習部２０７は、教師ＤＮＮ４０１と生徒ＤＮＮ５０１との各特徴量出力ｚ_teacher、ｚ_studentの出力の次元が異なる場合は、両者の次元を揃える。例えば、生徒ＤＮＮ特徴量学習部２０７は、適当なＣＮＮを教師ＤＮＮの特徴量出力に作用させる。例えば、次元を揃えることが意図される中間層の出力を畳み込み層に供給し、畳み込み演算によって次元が調整される。

　教師ＤＮＮ推定値計算部２０４の出力は、ノイズラベル修正部２０８においてラベルの修正に用いられる。ノイズラベルであるか否かを判定する場合、例えば教師ＤＮＮ４０１の推定値とラベルの値とを比較し、差があるしきい値より小さければ正しいラベルであるとみなし、差があるしきい値より大きいときには誤ったラベル（ノイズラベル）であると見なす方法がある。

　生徒ＤＮＮ学習部２０９は、例えばｉ＝１の生徒ＤＮＮ推定値計算部２０６の出力ｙ_{student，１}と、教師ＤＮＮ推定値計算部２０４の出力ｙ_teacherとの平均二乗誤差（Σ（ｙ_{student，１}－ｙ_teacher）^２／Ｎ）を計算する。また、生徒ＤＮＮ学習部２０９は、ｉ＝２の生徒ＤＮＮ推定値計算部２０６の出力ｙ_{student，２}とラベルの値ｙ_labelとの差の関数を、ノイズラベル修正部２０８の結果を反映して計算する。

　例えば、生徒ＤＮＮ学習部２０９は、重み付き平均二乗誤差（Σｗ^ｊ（ｙ^ｊ _{student，１}－ｙ^ｊ _teacher）^２／Ｎ）を計算し、誤ったラベルと判定されたラベルに対して重みｗ＝０を、それ以外のラベルに対してｗ＝１を設定する。

　その後、生徒ＤＮＮ学習部２０９は、計算された複数の差の関数の値を減少させる方向に、誤差逆伝播等を用いて勾配を計算する。また、生徒ＤＮＮ学習部２０９は、確率的勾配降下法等により重みパラメータを更新する。以上のように、生徒ＤＮＮ学習部２０９は、ノイズを含むラベルの影響を低下させながら、教師ＤＮＮ特徴量抽出部２０３が抽出した特徴量と生徒ＤＮＮ特徴量抽出部２０５が抽出した特徴量との差がなくなるように生徒ＤＮＮにおける重みを更新する。

　なお、重みパラメータの更新に関する処理は、ある判定基準、例えば出力とラベルの平均二乗誤差があるしきい値以下になるまで続けられる。以上のような処理によって生徒ＤＮＮ５０１が得られる。

　学習が終了した後に、生徒ＤＮＮ５０１が推定値を出力するときには、出力統合部２１０は、例えば出力の統計平均を計算する。出力部２１１は、それを最終推定値として出力する。

　次に、第１の実施形態の学習システムの効果を説明する。

　本実施形態では、生徒ＤＮＮ５０１は、生徒ＤＮＮ特徴量学習部２０７を用いて、生徒ＤＮＮ特徴量抽出部２０５の出力を教師ＤＮＮ特徴量抽出部２０３の出力を再現するように学習する。その結果、学習システムは、教師ＤＮＮの学んだ情報を効率よく生徒ＤＮＮに学習させることができる。一般に、教師ＤＮＮ４０１を再現するように生徒ＤＮＮ５０１を学習させる場合、教師ＤＮＮ４０１のどの出力を学習させるかについて自由度がある。ＤＮＮの特徴量抽出部の最終層の出力は、線形回帰装置の場合の基底ベクトルに相当する。基底ベクトルを再現できることは、教師ＤＮＮ４０１の特徴抽出器が完全に再現されたことを意味する。基底ベクトルを再現できれば、一般に学習は容易である。

　また、誤ったラベルに起因する学習の困難を減らすことが可能になる。なぜなら、教師ＤＮＮ４０１は、学習の過程で訓練データのラベルの正誤を暗に学習する。そして、教師ＤＮＮ４０１において、ノイズラベル修正部２０８が、教師ＤＮＮ推定値計算部２０４の出力とラベル読み込み部２０２から供給されたラベルデータとを比較することによって、入力されたラベルが誤ったラベルである否か推測し、誤ったラベルを修正するからである。

　さらに、生徒ＤＮＮ５０１の出力の統計的誤差を減らすことが可能になる。一般に、ＤＮＮの出力には、ランダムな統計的誤差が含まれるが、本実施形態では、生徒ＤＮＮ５０１は複数の結果が出力され、出力統合部２１０がそれらの出力の統計平均を取るからである。

実施形態２．
　第２の実施形態の学習システムでは、生徒ＤＮＮ５０１は、教師ＤＮＮ４０１における最終層以外の任意の層からの出力を受け取る。

　本実施形態による学習システムの構成を説明する。図６は、学習システムの構成例を示すブロック図である。第２の実施形態の学習システム６００は、データ読み込み部２０１と、ラベル読み込み部２０２と、教師ＤＮＮ特徴量抽出部２０３と、教師ＤＮＮ推定値計算部２０４と、生徒ＤＮＮ特徴量抽出部２０５と、生徒ＤＮＮ推定値計算部２０６と、生徒ＤＮＮ特徴量学習部２０７と、ノイズラベル修正部２０８と、生徒ＤＮＮ学習部２０９と、出力統合部２１０と、出力部２１１とを含む。学習システム６００は、さらに、生徒ＤＮＮ中間特徴量学習部６１２を含む。

　生徒ＤＮＮ中間特徴量学習部６１２は、教師ＤＮＮ特徴量抽出部２０３と、生徒ＤＮＮ特徴量抽出部２０５とから最終層以外の任意の層からの出力を入力する。生徒ＤＮＮ中間特徴量学習部６１２は、それらの差の関数を計算する。生徒ＤＮＮ中間特徴量学習部６１２は、その差の関数を小さくする勾配を計算し、生徒ＤＮＮの重みの更新に用いる。

　生徒ＤＮＮ中間特徴量学習部６１２以外の構成は、第１の実施形態の学習システム２００の構成と同じである。

　図７は、第２の実施形態のＤＮＮの学習システムの例を示す説明図である本発明の学習システム７００は、図２に示された学習システム３００と同様に、生徒ＤＮＮ７０１と、教師ＤＮＮ７０２とを含む。なお、学習システム７００は、表現方法が異なっているが、図６に示された学習システム６００と同様のシステムである。

　図７を参照して、パラメータ数が多い教師ＤＮＮの出力を正解ラベルの代わりに使用して、パラメータ数が小さい生徒ＤＮＮを訓練する（学習させる）例を説明する。

　生徒ＤＮＮ７０１は、データ読み込み部３１０からデータ（訓練データ）を入力する。特徴量抽出部３２１は、データを特徴量に変換する。推定値計算部３３１は、特徴量を推定値３４１に変換する。

　教師ＤＮＮ７０２は、データ読み込み部３１０からデータ（訓練データ）を入力する。特徴量抽出部３２２は、データを特徴量に変換する。推定値計算部３３２は、特徴量を推定値３４２に変換する。

　学習システム７００において、誤差信号計算部７５０は、得られた最終層の特徴量と、中間層の特徴量と、各推定値とから誤差信号を計算する。そして、学習システム７００は、生徒ＤＮＮ７０１のネットワークパラメータを更新するための逆伝搬によって重みを更新する。

　学習システム６００は、図５のフローチャートに示された第１の実施形態の学習システム２００の処理と同様の処理を行う。ただし、本実施形態では、ステップＳ１４０，Ｓ１６０の処理が、第１の実施形態における処理とは異なる。

　すなわち、ステップＳ１４０で、生徒ＤＮＮ５０１（具体的には、生徒ＤＮＮ推定値計算部２０６）は、教師ＤＮＮ４０１における中間層から特徴量を（中間特徴量）入力する処理も実行する。教師ＤＮＮ４０１において複数の中間層が存在する場合には、生徒ＤＮＮ５０１は、あらかじめ定められた１または複数の中間層から特徴量を入力する。

　また、ステップＳ１６０で、生徒ＤＮＮ５０１（具体的には、生徒ＤＮＮ学習部２０９）は、教師ＤＮＮ４０１における中間層から特徴量と、生徒ＤＮＮ５０１における中間層から特徴量とを比較する処理も実行する。

　本実施形態では、教師ＤＮＮ４０１の中間特徴量を生徒ＤＮＮ５０１に学習させることによって、より多くの教師ＤＮＮ４０１の知識を生徒ＤＮＮ５０１に伝えることができる。

　上記の各実施形態の学習システム２００，６００は、回帰問題を取り扱うデバイスに適用可能である。一例として、物体検出器をＤＮＮで構築する場合、物体の位置を回帰問題として取り扱うことができる。また、人体、物体の姿勢も回帰問題として取り扱うことが可能である。

　上記の各実施形態における各機能（各処理）を、ＣＰＵ（Central Processing Unit ）等のプロセッサやメモリ等を有するコンピュータで実現可能である。例えば、記憶装置（記憶媒体）に上記の実施形態における方法（処理）を実施するためのプログラムを格納し、各機能を、記憶装置に格納されたプログラムをＣＰＵで実行することによって実現してもよい。

　図８は、ＣＰＵを有するコンピュータの一例を示すブロック図である。コンピュータは、学習システムに実装される。ＣＰＵ１０００は、記憶装置１００１に格納されたプログラムに従って処理を実行することによって、上記の各実施形態における各機能を実現する。すなわち、コンピュータは、図１，図７に示された教師ＤＮＮ特徴量抽出部２０３、教師ＤＮＮ推定値計算部２０４、生徒ＤＮＮ特徴量抽出部２０５、生徒ＤＮＮ推定値計算部２０６、生徒ＤＮＮ特徴量学習部２０７、ノイズラベル修正部２０８、生徒ＤＮＮ学習部２０９、および出力統合部２１０の機能を実現する。

　記憶装置１００１は、例えば、非一時的なコンピュータ可読媒体（non-transitory computer readable medium ）である。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体（tangible storage medium ）を含む。非一時的なコンピュータ可読媒体の具体例として、磁気記録媒体（例えば、ハードディスクドライブ）、光磁気記録媒体（例えば、光磁気ディスク）、ＣＤ－ＲＯＭ（Compact Disc-Read Only Memory ）、ＣＤ－Ｒ（Compact Disc-Recordable ）、ＣＤ－Ｒ／Ｗ（Compact Disc-ReWritable ）、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（Programmable ROM）、ＥＰＲＯＭ（Erasable PROM ）、フラッシュＲＯＭ）がある。

　また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（transitory computer readable medium ）に格納されてもよい。一時的なコンピュータ可読媒体には、例えば、有線通信路または無線通信路を介して、すなわち、電気信号、光信号または電磁波を介して、プログラムが供給される。

　メモリ１００２は、例えばＲＡＭ（Random Access Memory）で実現され、ＣＰＵ１０００が処理を実行するときに一時的にデータを格納する記憶手段である。メモリ１００２に、記憶装置１００１または一時的なコンピュータ可読媒体が保持するプログラムが転送され、ＣＰＵ１０００がメモリ１００２内のプログラムに基づいて処理を実行するような形態も想定しうる。

　図９は、本発明による学習システムの主要部を示すブロック図である。学習システム８００は、複数の訓練データの各々の特徴量を抽出する教師ＤＮＮ特徴量抽出手段８０１（例えば、教師ＤＮＮ特徴量抽出部２０３）と、複数の訓練データの各々に対応する各ラベルの第１推定値を計算する教師ＤＮＮ推定値計算手段８０２（例えば、教師ＤＮＮ推定値計算部２０４）と、複数の訓練データの各々の特徴量を抽出する生徒ＤＮＮ特徴量抽出手段８０３（例えば、生徒ＤＮＮ特徴量抽出部２０５）と、複数の訓練データの各々に対応する各ラベルの第２推定値を計算する生徒ＤＮＮ推定値計算手段８０４（例えば、生徒ＤＮＮ推定値計算部２０６）と、訓練データに対応するラベルと第１推定値とに基づいて、訓練データに対応するラベルがノイズを含むラベルであるか否か判定するノイズラベル修正手段８０５（例えば、ノイズラベル修正部２０８）と、ノイズを含むラベルの影響を低下させながら、教師ＤＮＮ特徴量抽出手段８０１が抽出した特徴量と生徒ＤＮＮ特徴量抽出手段８０３が抽出した特徴量との差がなくなるように生徒ＤＮＮにおける重みを更新する更新手段８０６（例えば、生徒ＤＮＮ学習部２０９）とを備える。

　図１０は、本発明による学習装置の主要部を示すブロック図である。学習装置９００は、入力データの特徴量を抽出する生徒ＤＮＮ特徴量抽出手段８０３（例えば、生徒ＤＮＮ特徴量抽出部２０５）と、入力データに対応するラベルの複数の推定値を計算する生徒ＤＮＮ推定値計算手段８０４（例えば、生徒ＤＮＮ推定値計算部２０６）と、複数の推定値を統合する出力統合手段８０７（例えば、出力統合部２１０）とを備え、生徒ＤＮＮ特徴量抽出手段８０３の重みが、複数の訓練データの各々の特徴量を抽出する教師ＤＮＮ特徴量抽出手段８０１（例えば、教師ＤＮＮ特徴量抽出部２０３）、複数の訓練データの各々に対応する各ラベルの第１推定値を計算する教師ＤＮＮ推定値計算手段８０２（例えば、教師ＤＮＮ推定値計算部２０４）、訓練データに対応するラベルと第１推定値とに基づいて、訓練データに対応するラベルがノイズを含むラベルであるか否か判定するノイズラベル修正手段８０５（例えば、ノイズラベル修正部２０８）、およびノイズを含むラベルの影響を低下させながら、教師ＤＮＮ特徴量抽出手段８０１が抽出した特徴量と生徒ＤＮＮ特徴量抽出手段８０３が抽出した特徴量との差がなくなるように生徒ＤＮＮにおける重みを更新する更新手段８０６（例えば、生徒ＤＮＮ学習部２０９）を含む教師ＤＮＮ９１０によって更新される。

　上記の実施形態の一部または全部は、以下の付記のようにも記載され得るが、以下に限定されるわけではない。

（付記１）教師ＤＮＮ（Deep Neural Network ）と、該教師ＤＮＮのサイズよりも小さいサイズの生徒ＤＮＮとを使用する学習システムであって、
　複数の訓練データの各々の特徴量を抽出する教師ＤＮＮ特徴量抽出手段と、
　複数の前記訓練データの各々に対応する各ラベルの第１推定値を計算する教師ＤＮＮ推定値計算手段と、
　複数の前記訓練データの各々の特徴量を抽出する生徒ＤＮＮ特徴量抽出手段と、
　複数の前記訓練データの各々に対応する各ラベルの第２推定値を計算する生徒ＤＮＮ推定値計算手段と、
　前記訓練データに対応するラベルと前記第１推定値とに基づいて、前記訓練データに対応するラベルがノイズを含むラベルであるか否か判定するノイズラベル修正手段と、
　前記ノイズを含むラベルの影響を低下させながら、前記教師ＤＮＮ特徴量抽出手段が抽出した特徴量と前記生徒ＤＮＮ特徴量抽出手段が抽出した特徴量との差がなくなるように前記生徒ＤＮＮにおける重みを更新する更新手段と
　を備えることを特徴とする学習システム。

（付記２）前記更新手段は、複数の前記第１推定値と複数の前記第２推定値との差を表す関数において前記ノイズを含むラベルの影響を低下させて、前記関数の値を計算し、計算結果に応じて、前記生徒ＤＮＮを構成するレイヤにおけるノードの重みを更新する
　付記１の学習システム。

（付記３）前記更新手段は、前記関数の値を小さくする勾配を計算し、勾配降下法で重みを更新する
　付記２の学習システム。

（付記４）前記ノイズラベル修正手段は、前記訓練データに対応するラベルがノイズを含むラベルであると判定したときに、該ラベルを修正する
　付記１から付記３のいずれかの学習システム。

（付記５）生徒ＤＮＮを使用する学習装置であって、
　入力データの特徴量を抽出する生徒ＤＮＮ特徴量抽出手段と、
　前記入力データに対応するラベルの複数の推定値を計算する生徒ＤＮＮ推定値計算手段と、
　前記複数の推定値を統合する出力統合手段とを備え、
　前記生徒ＤＮＮ特徴量抽出手段の重みが、
　複数の訓練データの各々の特徴量を抽出する教師ＤＮＮ特徴量抽出手段、
　複数の前記訓練データの各々に対応する各ラベルの第１推定値を計算する教師ＤＮＮ推定値計算手段、
　前記訓練データに対応するラベルと前記第１推定値とに基づいて、前記訓練データに対応するラベルがノイズを含むラベルであるか否か判定するノイズラベル修正手段、および
　前記ノイズを含むラベルの影響を低下させながら、前記教師ＤＮＮ特徴量抽出手段が抽出した特徴量と前記生徒ＤＮＮ特徴量抽出手段が抽出した特徴量との差がなくなるように前記生徒ＤＮＮにおける重みを更新する更新手段を含む教師ＤＮＮによって更新される
　ことを特徴とする学習装置。

（付記６）教師ＤＮＮと、該教師ＤＮＮのサイズよりも小さいサイズの生徒ＤＮＮとを使用する学習方法であって、
　複数の訓練データの各々の特徴量を教師ＤＮＮ特徴量として抽出し、
　複数の前記訓練データの各々に対応する各ラベルの第１推定値を計算し、
　複数の前記訓練データの各々の特徴量を生徒ＤＮＮ特徴量として抽出し、
　複数の前記訓練データの各々に対応する各ラベルの第２推定値を計算し、
　前記訓練データに対応するラベルと前記第１推定値とに基づいて、前記訓練データに対応するラベルがノイズを含むラベルであるか否か判定し、
　抽出された教師ＤＮＮ特徴量と前記生徒ＤＮＮ特徴量との差がなくなるように前記生徒ＤＮＮにおける重みを更新する
　ことを特徴とする学習方法。

（付記７）複数の前記第１推定値と複数の前記第２推定値との差を表す関数において前記ノイズを含むラベルの影響を低下させて、前記関数の値を計算し、計算結果に応じて、前記生徒ＤＮＮを構成するレイヤにおけるノードの重みを更新する
　付記６の学習方法。

（付記８）前記関数の値を小さくする勾配を計算し、勾配降下法で重みを更新する
　付記７の学習方法。

（付記９）前記訓練データに対応するラベルがノイズを含むラベルであると判定したときに、該ラベルを修正する
　付記６から付記８のいずれかの記載の学習方法。

（付記１０）学習プログラムが格納されたコンピュータ読み取り可能な記録媒体であって、
　前記学習プログラムは、
　複数の訓練データの各々の特徴量を教師ＤＮＮ特徴量として抽出する処理と、
　複数の前記訓練データの各々に対応する各ラベルの第１推定値を計算する処理と、
　複数の前記訓練データの各々の特徴量を生徒ＤＮＮ特徴量として抽出する処理と、
　複数の前記訓練データの各々に対応する各ラベルの第２推定値を計算する処理と、
　前記訓練データに対応するラベルと前記第１推定値とに基づいて、前記訓練データに対応するラベルがノイズを含むラベルであるか否か判定する処理と、
　抽出された教師ＤＮＮ特徴量と前記生徒ＤＮＮ特徴量との差がなくなるように前記生徒ＤＮＮにおける重みを更新する処理と
　をプロセッサに実行させる記録媒体。

（付記１１）前記学習プログラムは、
　複数の前記第１推定値と複数の前記第２推定値との差を表す関数において前記ノイズを含むラベルの影響を低下させて、前記関数の値を計算し、計算結果に応じて、前記生徒ＤＮＮを構成するレイヤにおけるノードの重みを更新する処理をプロセッサに実行させる付記１０の記録媒体。

（付記１２）前記学習プログラムは、
　前記関数の値を小さくする勾配を計算し、勾配降下法で重みを更新する処理をプロセッサに実行させる付記１１の記録媒体。

（付記１３）前記学習プログラムは、
　前記訓練データに対応するラベルがノイズを含むラベルであると判定したときに、該ラベルを修正する処理をプロセッサに実行させる
　付記１０から付記１２のいずれかの記録媒体。

（付記１４）コンピュータに、
　複数の訓練データの各々の特徴量を教師ＤＮＮ特徴量として抽出する処理と、
　複数の前記訓練データの各々に対応する各ラベルの第１推定値を計算する処理と、
　複数の前記訓練データの各々の特徴量を生徒ＤＮＮ特徴量として抽出する処理と、
　複数の前記訓練データの各々に対応する各ラベルの第２推定値を計算する処理と、
　前記訓練データに対応するラベルと前記第１推定値とに基づいて、前記訓練データに対応するラベルがノイズを含むラベルであるか否か判定する処理と、
　抽出された教師ＤＮＮ特徴量と前記生徒ＤＮＮ特徴量との差がなくなるように前記生徒ＤＮＮにおける重みを更新する処理と
　を実行させるための学習プログラム。

（付記１５）コンピュータに、複数の前記第１推定値と複数の前記第２推定値との差を表す関数において前記ノイズを含むラベルの影響を低下させて、前記関数の値を計算し、計算結果に応じて、前記生徒ＤＮＮを構成するレイヤにおけるノードの重みを更新する処理を実行させる付記１４の学習プログラム。

（付記１６）コンピュータに、
　前記関数の値を小さくする勾配を計算し、勾配降下法で重みを更新する処理を実行させる付記１５の学習プログラム。

（付記１７）コンピュータに、
　前記訓練データに対応するラベルがノイズを含むラベルであると判定したときに、該ラベルを修正する処理を実行させる
　付記１４から付記１６のいずれかの学習プログラム。

　以上、実施形態を参照して本願発明を説明したが、本願発明は上記の実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

　２００，６００，７００　　学習システム
　２０１，３１０，４０２　　データ読み込み部
　２０２　　ラベル読み込み部
　２０３　　教師ＤＮＮ特徴量抽出部
　２０４　　教師ＤＮＮ推定値計算部
　２０５　　生徒ＤＮＮ特徴量抽出部
　２０６　　生徒ＤＮＮ推定値計算部
　２０７　　生徒ＤＮＮ特徴量学習部
　２０８　　ノイズラベル修正部
　２０９　　生徒ＤＮＮ学習部
　２１０　　出力統合部
　２１１　　出力部
　３００　　学習システム
　３０１，５０１，７０１　　生徒ＤＮＮ
　３０２，４０１，７０２　　教師ＤＮＮ
　３５０，７５０　　誤差信号計算部
　４０３，５０３　　ノード
　４０４，５０４　　隠れレイヤ
　５００　　生徒ＤＮＮモデル
　６１２　　生徒ＤＮＮ中間特徴量学習部
　８００　　学習システム
　８０１　　教師ＤＮＮ特徴量抽出手段
　８０２　　教師ＤＮＮ推定値計算手段
　８０３　　生徒ＤＮＮ特徴量抽出手段
　８０４　　生徒ＤＮＮ推定値計算手段
　８０５　　ノイズラベル修正手段
　８０６　　更新手段
　８０７　　出力統合手段
　９００　　学習装置
　９１０　　教師ＤＮＮ

Claims

　教師ＤＮＮ（Deep Neural Network ）と、該教師ＤＮＮのサイズよりも小さいサイズの生徒ＤＮＮとを使用する学習システムであって、
　複数の訓練データの各々の特徴量を抽出する教師ＤＮＮ特徴量抽出手段と、
　複数の前記訓練データの各々に対応する各ラベルの第１推定値を計算する教師ＤＮＮ推定値計算手段と、
　複数の前記訓練データの各々の特徴量を抽出する生徒ＤＮＮ特徴量抽出手段と、
　複数の前記訓練データの各々に対応する各ラベルの第２推定値を計算する生徒ＤＮＮ推定値計算手段と、
　前記訓練データに対応するラベルと前記第１推定値とに基づいて、前記訓練データに対応するラベルがノイズを含むラベルであるか否か判定するノイズラベル修正手段と、
　前記ノイズを含むラベルの影響を低下させながら、前記教師ＤＮＮ特徴量抽出手段が抽出した特徴量と前記生徒ＤＮＮ特徴量抽出手段が抽出した特徴量との差がなくなるように前記生徒ＤＮＮにおける重みを更新する更新手段と
　を備えることを特徴とする学習システム。
　前記更新手段は、複数の前記第１推定値と複数の前記第２推定値との差を表す関数において前記ノイズを含むラベルの影響を低下させて、前記関数の値を計算し、計算結果に応じて、前記生徒ＤＮＮを構成するレイヤにおけるノードの重みを更新する
　請求項１記載の学習システム。
　前記更新手段は、前記関数の値を小さくする勾配を計算し、勾配降下法で重みを更新する
　請求項２記載の学習システム。
　前記ノイズラベル修正手段は、前記訓練データに対応するラベルがノイズを含むラベルであると判定したときに、該ラベルを修正する
　請求項１から請求項３のうちのいずれか１項に記載の学習システム。
　生徒ＤＮＮを使用する学習装置であって、
　入力データの特徴量を抽出する生徒ＤＮＮ特徴量抽出手段と、
　前記入力データに対応するラベルの複数の推定値を計算する生徒ＤＮＮ推定値計算手段と、
　前記複数の推定値を統合する出力統合手段とを備え、
　前記生徒ＤＮＮ特徴量抽出手段の重みが、
　複数の訓練データの各々の特徴量を抽出する教師ＤＮＮ特徴量抽出手段、
　複数の前記訓練データの各々に対応する各ラベルの第１推定値を計算する教師ＤＮＮ推定値計算手段、
　前記訓練データに対応するラベルと前記第１推定値とに基づいて、前記訓練データに対応するラベルがノイズを含むラベルであるか否か判定するノイズラベル修正手段、および
　前記ノイズを含むラベルの影響を低下させながら、前記教師ＤＮＮ特徴量抽出手段が抽出した特徴量と前記生徒ＤＮＮ特徴量抽出手段が抽出した特徴量との差がなくなるように前記生徒ＤＮＮにおける重みを更新する更新手段を含む教師ＤＮＮによって更新される
　ことを特徴とする学習装置。
　教師ＤＮＮと、該教師ＤＮＮのサイズよりも小さいサイズの生徒ＤＮＮとを使用する学習方法であって、
　複数の訓練データの各々の特徴量を教師ＤＮＮ特徴量として抽出し、
　複数の前記訓練データの各々に対応する各ラベルの第１推定値を計算し、
　複数の前記訓練データの各々の特徴量を生徒ＤＮＮ特徴量として抽出し、
　複数の前記訓練データの各々に対応する各ラベルの第２推定値を計算し、
　前記訓練データに対応するラベルと前記第１推定値とに基づいて、前記訓練データに対応するラベルがノイズを含むラベルであるか否か判定し、
　抽出された教師ＤＮＮ特徴量と前記生徒ＤＮＮ特徴量との差がなくなるように前記生徒ＤＮＮにおける重みを更新する
　ことを特徴とする学習方法。
　複数の前記第１推定値と複数の前記第２推定値との差を表す関数において前記ノイズを含むラベルの影響を低下させて、前記関数の値を計算し、計算結果に応じて、前記生徒ＤＮＮを構成するレイヤにおけるノードの重みを更新する
　請求項６記載の学習方法。
　前記関数の値を小さくする勾配を計算し、勾配降下法で重みを更新する
　請求項７記載の学習方法。
　前記訓練データに対応するラベルがノイズを含むラベルであると判定したときに、該ラベルを修正する
　請求項６から請求項８のうちのいずれか１項に記載の学習方法。
　学習プログラムが格納されたコンピュータ読み取り可能な記録媒体であって、
　前記学習プログラムは、
　複数の訓練データの各々の特徴量を教師ＤＮＮ特徴量として抽出する処理と、
　複数の前記訓練データの各々に対応する各ラベルの第１推定値を計算する処理と、
　複数の前記訓練データの各々の特徴量を生徒ＤＮＮ特徴量として抽出する処理と、
　複数の前記訓練データの各々に対応する各ラベルの第２推定値を計算する処理と、
　前記訓練データに対応するラベルと前記第１推定値とに基づいて、前記訓練データに対応するラベルがノイズを含むラベルであるか否か判定する処理と、
　抽出された教師ＤＮＮ特徴量と前記生徒ＤＮＮ特徴量との差がなくなるように前記生徒ＤＮＮにおける重みを更新する処理と
　をプロセッサに実行させる記録媒体。
　前記学習プログラムは、
　複数の前記第１推定値と複数の前記第２推定値との差を表す関数において前記ノイズを含むラベルの影響を低下させて、前記関数の値を計算し、計算結果に応じて、前記生徒ＤＮＮを構成するレイヤにおけるノードの重みを更新する処理をプロセッサに実行させる請求項１０記載の記録媒体。
　前記学習プログラムは、
　前記関数の値を小さくする勾配を計算し、勾配降下法で重みを更新する処理をプロセッサに実行させる請求項１１記載の記録媒体。
　前記学習プログラムは、
　前記訓練データに対応するラベルがノイズを含むラベルであると判定したときに、該ラベルを修正する処理をプロセッサに実行させる
　請求項１０から請求項１２のうちのいずれか１項に記載の記録媒体。