WO2022244159A1

WO2022244159A1 - 機械学習装置、推論装置、機械学習方法及びプログラム

Info

Publication number: WO2022244159A1
Application number: PCT/JP2021/019049
Authority: WO
Inventors: 精一紺谷; 聡佐久間; 健也鈴木; 隆宮武; 泰治中村; 裕介市川
Original assignee: 日本電信電話株式会社
Priority date: 2021-05-19
Filing date: 2021-05-19
Publication date: 2022-11-24
Also published as: JPWO2022244159A1

Abstract

本開示に係る機械学習装置（１０）は、学習データからの特徴量の抽出処理を学習する特徴量抽出部（１１１）と、特徴量に基づいて学習データの分類処理を学習する複数のクラス分類部（１１２）と、複数のクラス分類部（１１２）にそれぞれ対応付けられ、対応するクラス分類部の分類誤差を計算し、該分類誤差が小さくなるように、特徴量抽出部（１１１）及び対応するクラス分類部（１１２）に用いられるパラメータを修正する複数の損失計算部（１１３）と、を備え、損失計算部（１１３）は、対応するクラス分類部（１１２）と異なる他のクラス分類部（１１２）の出力値を参照して、対応するクラス分類部の分類誤差を決定する。

Description

機械学習装置、推論装置、機械学習方法及びプログラム

　本開示は、機械学習装置、推論装置、機械学習方法及びプログラムに関する。

　従来、クラス分類を行う深層学習では、図９に示すように、入力データから特徴量抽出部が特徴量を計算し、クラス分類部が特徴量に従ってクラス分類を行っている。そして、損失計算部が正解ラベルと分類結果との比較を行い、誤差逆伝搬法などの手法を用いて特徴量抽出部とクラス分類部の重みを修正する。このようにして学習されたモデルを用いて、図１０に示すように、未知データのクラス分類を行っていた。このような機械学習の精度を向上させる手法として、アンサンブル学習と呼ばれる手法が知られている。

　非特許文献１にあるように、アンサンブル学習には幾つかの種類が存在するが、その一つのバギングという手法では、学習時、図１１に示すように、学習データから復元抽出を行い、複数の学習モデルを学習している。図１２に示すように、未知データの推論時には、複数の学習済みモデルに推論を行わせ、複数の学習モデルの推論結果を統合することで最終的な推論結果を得る。

荒木雅弘、「フリーソフトではじめる機械学習入門」、森北出版株式会社、pp.142-144、2014年

　アンサンブル学習では、学習モデル間の相関が強いと複数のモデルから同じ推論結果しか得られないため、精度を向上させるには複数の学習モデルの結果の相関を弱めることが重要である。バギングの手法では、学習データの復元抽出により、各学習モデルに与える学習データ自体に差異を付けることで相関を弱めている。

　このような従来のアンサンブル学習では、学習モデルをN個用いる必要があるため、学習および推論にN倍の計算コストがかかり、非効率であった。このように、機械学習の効率を向上させる技術が望まれていた。

　かかる事情に鑑みてなされた本開示の目的は、分類処理の精度を向上させつつ、機械学習の効率を向上させる技術を提供することである。

　本開示に係る機械学習装置は、学習データからの特徴量の抽出処理を学習する特徴量抽出部と、前記特徴量に基づいて前記学習データの分類処理を学習する複数のクラス分類部と、前記複数のクラス分類部にそれぞれ対応付けられ、対応するクラス分類部の分類誤差を計算し、該分類誤差が小さくなるように、前記特徴量抽出部及び対応する前記クラス分類部に用いられるパラメータを修正する複数の損失計算部と、を備え、前記損失計算部は、前記対応するクラス分類部と異なる他のクラス分類部の出力値を参照して、前記対応するクラス分類部の前記分類誤差を決定する。

　また、本開示に係る機械学習装置は、学習データからの特徴量の抽出処理を学習する特徴量抽出部と、前記特徴量に基づいて前記学習データの分類処理を学習する複数のクラス分類部と、前記複数のクラス分類部にそれぞれ対応付けられ、対応するクラス分類部の分類誤差を計算し、該分類誤差が小さくなるように、前記特徴量抽出部及び対応する前記クラス分類部に用いられるパラメータを修正する複数の損失計算部と、を備え、前記損失計算部は、乱数及び損失関数を用いて前記対応するクラス分類部の前記分類誤差を決定する。

　また、本開示に係る機械学習方法は、機械学習装置が実行する機械学習方法であって、学習データからの特徴量の抽出処理を学習する特徴量抽出ステップと、前記特徴量に基づいて前記学習データの分類処理を学習する複数のクラス分類ステップと、前記複数のクラス分類ステップにそれぞれ対応付けられ、対応するクラス分類ステップの分類誤差を計算し、該分類誤差が小さくなるように、前記特徴量抽出ステップ及び対応する前記クラス分類ステップに用いられるパラメータを修正する複数の損失計算ステップと、を含み、前記損失計算ステップは、前記対応するクラス分類ステップと異なる他のクラス分類ステップの出力値を参照して、前記対応するクラス分類ステップの前記分類誤差を決定する。

　また、本開示に係る推論装置は、本開示に係る機械学習装置が作成した学習済みモデルを未知データに適用して、前記複数のクラス分類部からそれぞれの出力値を取得する推論部と、前記推論部により取得された前記出力値を統合する統合部とを備える。

　また、本開示に係るプログラムは、コンピュータを、本開示に係る機械学習装置として機能させる。

　本開示によれば、分類処理の精度を向上させつつ、機械学習の効率を向上させる技術を提供することができる。

本開示の一実施形態に係るシステムを説明するための図である。本開示の一実施形態に係る機械学習装置の構成の一例を示す図である。学習データの例を示す図である。本開示の一実施形態に係る機械学習装置における処理の流れを説明するための図である。本開示の一実施形態に係る推論装置の構成の一例を示す図である。本開示の一実施形態に係る推論装置における処理の流れを説明するための図である。本開示の一実施形態に係るシステムの動作を示す図である。変形例４に係る機械学習装置における処理の流れを説明するための図である。従来の機械学習の技法を説明するための図である。従来の学習済みモデルを用いた推論の技法を説明するための図である。従来の機械学習の技法を説明するための図である。従来の学習済みモデルを用いた推論の技法を説明するための図である。

　以下、本開示の実施形態について適宜図面を参照しながら説明する。各図面中、同一又は相当する部分には、同一符号を付している。本実施形態の説明において、同一又は相当する部分については、説明を適宜省略又は簡略化する。以下に説明する実施形態は本開示の構成の例であり、本開示は、以下の実施形態に制限されるものではない。

＜システム１の構成＞
　図１を参照して、本実施形態に係るシステム１の構成の一例について説明する。図１に示すように、システム１は、機械学習装置１０と、推論装置２０とを備える。

　機械学習装置１０と推論装置２０とは、有線または無線により通信可能に接続されていてよい。各装置間で情報を送受信するための通信方法は、特に限定されない。また、機械学習装置１０と推論装置２０とは、一体化されていてもよい。

　機械学習装置１０は、入力された学習データに基づいて、学習データを分類する学習モデルを学習させて学習済みモデルを作成する。推論装置２０は当該学習済みモデルを取得し、入力された未知データに適用する。このようにして、推論装置２０は未知データの分類処理を行う。推論装置２０は、分類処理の結果をユーザに対し出力できる。

＜機械学習装置１０の構成＞
　図２から図４を参照して、本実施形態に係る機械学習装置１０の構成の一例について説明する。図２に示すように、機械学習装置１０は、制御部１１と、記憶部１２と、通信部１３と、入力部１４と、出力部１５と、を備える。

　記憶部１２は、１つ以上のメモリを含み、例えば半導体メモリ、磁気メモリ、光メモリなどを含んでもよい。記憶部１２に含まれる各メモリは、例えば主記憶装置、補助記憶装置、又はキャッシュメモリとして機能してもよい。記憶部１２は、機械学習装置１０の動作に用いられる任意の情報を記憶する。記憶部１２は、必ずしも機械学習装置１０が内部に備える必要はなく、機械学習装置１０の外部に備える構成としてもよい。

　通信部１３には、少なくとも１つの通信インタフェースが含まれる。通信インタフェースは、例えば、ＬＡＮインタフェースである。通信部１３は、機械学習装置１０の動作に用いられる情報を受信し、また機械学習装置１０の動作によって得られる情報を送信する。

　通信部１３は、機械学習装置１０がネットワークを介して他の装置と情報の送受信を行うことを可能にする。ネットワークとは、インターネット、少なくとも１つのＷＡＮ（Wide Area Network）、少なくとも１つのＭＡＮ（Metropolitan Area Network）、又はこれらの組み合わせを含む。ネットワークは、少なくとも１つの無線ネットワーク、少なくとも１つの光ネットワーク、又はこれらの組み合わせを含んでもよい。無線ネットワークは、例えば、アドホックネットワーク、セルラーネットワーク、無線ＬＡＮ（Local Area Network）、衛星通信ネットワーク、又は地上マイクロ波ネットワークである。

　入力部１４には、少なくとも１つの入力用インタフェースが含まれる。入力用インタフェースは、例えば、物理キー、静電容量キー、ポインティングデバイス、ディスプレイと一体的に設けられたタッチスクリーン、又はマイクである。入力部１４は、機械学習装置１０の動作に用いられる情報を入力する操作を受け付ける。入力部１４は、機械学習装置１０に備えられる代わりに、外部の入力機器として機械学習装置１０に接続されてもよい。接続方式としては、例えば、ＵＳＢ（Universal Serial Bus）、ＨＤＭＩ（High-Definition Multimedia Interface）（登録商標）、又はBluetooth（登録商標）等の任意の方式を用いることができる。

　入力部１４は、学習データの入力を受け付ける。学習データは、例えば画像等の入力データ、及び正解ラベルである。入力データは画像に限られず、テキスト、音声、動画等を含んでよい。学習データは、入力部１４を介して直接的に入力されてもよいし、通信部１３及びネットワークを介して外部装置から入力されてもよい。以下においては、入力データを画像として説明する。

　出力部１５には、少なくとも１つの出力用インタフェースが含まれる。出力用インタフェースは、例えば、ディスプレイ又はスピーカである。ディスプレイは、例えば、ＬＣＤ（Liquid Crystal Display）又は有機ＥＬ（Electro Luminescence）ディスプレイである。出力部１５は、機械学習装置１０の動作によって得られる情報を出力する。出力部１５は、機械学習装置１０に備えられる代わりに、外部の出力機器として機械学習装置１０に接続されてもよい。接続方式としては、例えば、ＵＳＢ、ＨＤＭＩ（登録商標）、又はBluetooth（登録商標）等の任意の方式を用いることができる。

　制御部１１は、制御演算回路（コントローラ）により実現される。該制御演算回路は、ＡＳＩＣ（Application Specific Integrated Circuit)、ＦＰＧＡ(Field-Programmable Gate Array)等の専用のハードウェアによって構成されてもよいし、プロセッサによって構成されてもよいし、双方を含んで構成されてもよい。制御部１１は、機械学習装置１０の各部を制御しながら、機械学習装置１０の動作に関わる処理を実行する。制御部１１は、外部装置との情報の送受信を、通信部１３及びネットワークを介して行うことができる。

　制御部１１は、特徴量抽出部１１１と、クラス分類部１１２と、損失計算部１１３とを備える。本実施形態において、制御部１１はクラス分類部１１２＿１からクラス分類部１１２＿ＫまでのＫ個のクラス分類部１１２と、当該クラス分類部１１２のそれぞれに対応して、損失計算部１１３＿１から損失計算部１１３＿ＫまでのＫ個の損失計算部１１３とを備える。

　特徴量抽出部１１１は、対象とする学習データを取得し、学習データからの特徴量の抽出処理を学習する。学習データの取得には任意の手法が用いられてよく、特徴量抽出部１１１は、通信部２３を介して外部装置から学習データを取得してもよい。特徴量の抽出処理は畳み込みニューラルネットワークによるものであってよい。畳み込みニューラルネットワークの構成及び学習技法については既知であるので、詳しい説明を省略する。抽出処理により、入力された画像から特徴量としてＤ次元のベクトルが抽出される。Ｄの値は例えば１，０２４等の値である。

　図３は、特徴量抽出部１１１が特徴量を抽出する学習データの例である。本実施形態では、学習データは、入力データとしての白抜きの三角形、白抜きの円形、黒い三角形、黒い円形の四つの二次元の静止画像と、当該画像が三角形と円形との２つのクラスのいずれかに属するかを示す正解ラベルとを含む。特徴量抽出部１１１は、抽出した特徴量をクラス分類部１１２に出力する。

　図４は、本実施形態に係る機械学習装置１０における処理の流れを示す。図４を参照すると、学習データのうち、入力データとしての画像は特徴量抽出部１１１に、正解ラベルは損失計算部１１３のそれぞれに入力されている。図４において、特徴量抽出部１１１からの特徴量の出力が二重の実線矢印で示されている。

　クラス分類部１１２は、特徴量に基づいて学習データの分類処理を学習する。本実施形態の分類処理は２クラス分類処理であるが、これに限定されず、多クラス分類処理であってもよい。図２に示す通り、本実施形態においてクラス分類部１１２は複数設けられる。クラス分類部１１２＿１からクラス分類部１１２＿Ｋのそれぞれが、特徴量に基づいて分類処理を学習する。分類処理は全結合ニューラルネットワークによるものであってよい。全結合ニューラルネットワークの構成及び学習技法については既知であるので、詳しい説明は省略する。本実施形態では、同じ構成のクラス分類部１１２を２つ用いるが、クラス分類部１１２の構成は、異なる構成を取ってもよい。

　クラス分類部１１２は、学習データの分類時、出力値として、画像が任意のクラスに属する確率を数字で出力できる。本実施形態の２クラス分類処理において、クラス分類部１１２は、画像が三角形のクラスに属する確率をqの値で出力し、画像が円形のクラスに属する確率を１－qの値で出力する。このようにクラス分類部１１２は、分類時の出力値をスカラー値で出力できる。クラス分類部１１２が２以上のクラス分類処理を学習する場合は、クラス分類部１１２は任意の次元のベクトルを出力してよい。

　本実施形態において、クラス分類部１１２は、０．５の値を閾値として、画像が三角形のクラスに属すると判断したときは０．５以上の値を出力し、画像が円形のクラスに属すると判断したときは０．５未満の値を出力する。

　例えばクラス分類部１１２＿１は、図３の学習データの分類処理を以下の表に示すように学習する。以下の表において、クラス分類部１１２＿１は、０．５の値を閾値として、画像を三角形のクラスに分類したときに０．５以上の値を出力し、画像を円形のクラスに分類したときに０．５未満の値を出力する。表１中、左から二番目の白抜きの円形の学習データについて、クラス分類部１１２＿１が０．６の値を出力しており、三角形と誤分類して学習していることがわかる。

　クラス分類部１１２のそれぞれは、分類処理の結果を、対応する損失計算部１１３＿１から損失計算部１１３＿Ｋのそれぞれに出力する。図４を参照すると、クラス分類部１１２のそれぞれからの出力値の流れが実線矢印で示されている。

　損失計算部１１３は、複数のクラス分類部１１２にそれぞれ対応付けられ、対応するクラス分類部１１２の分類誤差を計算し、該分類誤差が小さくなるように、特徴量抽出部１１１及び対応するクラス分類部１１２に用いられるパラメータを修正する。

　図２に示す通り、本実施形態において損失計算部１１３は複数設けられる。損失計算部１１３＿１から損失計算部１１３＿Ｋのそれぞれが、対応するクラス分類部１１２＿１からクラス分類部１１２＿Ｋのそれぞれの分類誤差を計算し、特徴量抽出部１１１及び対応するクラス分類部１１２＿１からクラス分類部１１２＿Ｋの分類処理に用いられるパラメータを修正する。

　損失計算部１１３はまず、対応するクラス分類部１１２の出力値と、対応するクラス分類部１１２と異なる他のクラス分類部１１２の出力値とを用いて損失関数Ｆを設定する。本実施形態において、損失関数Ｆはクロスエントロピー関数である。クロスエントロピー関数については既知であるので、詳しい説明は省略する。

　損失計算部１１３＿１、損失計算部１１３＿２、・・・損失計算部１１３＿Ｋのそれぞれは、損失関数Ｆ＿１、損失関数Ｆ＿２、・・・損失関数Ｆ＿Ｋをそれぞれ設定する。例えば、損失計算部１１３＿Ｋは、対応するクラス分類部１１２＿Ｋの出力値と、クラス分類部１１２＿Ｋより一つ前の段階で分類処理を学習したクラス分類部１１２＿Ｋ－１の出力値とを損失関数Ｆ＿Ｋに反映させる。

　以下の式（１）は、クラス分類部１１２＿１に対応する損失計算部１１３＿１が設定する損失関数Ｆ＿１の例である。クラス分類部１１２＿１は、全てのクラス分類部１１２の中で最初に分類処理を学習する。損失計算部１１３＿１は、当該損失関数Ｆ＿１を用いて、クラス分類部１１２＿１の分類誤差loss₁を決定する。

　ここで、p_iには正解ラベルが三角形であるとき1の値、そうでなければ0の値が入る。q_i ¹はクラス分類部１１２＿１の出力値であり、画像が三角形のクラスに属する確率を示す値である。ｎは学習データの数を示す。

　以下の式（２）は、クラス分類部１１２＿２に対応する損失計算部１１３＿２が設定する損失関数Ｆ＿２の例である。損失計算部１１３＿２は、当該損失関数Ｆ＿２を用いて、対応するクラス分類部１１２＿２と異なる他のクラス分類部１１２＿１の出力値を参照して、対応するクラス分類部１１２＿２の分類誤差loss₂を決定する。

　ここで、q_i ²はクラス分類部１１２＿２の出力値であり、画像が三角形のクラスに属する確率を示す値である。δは0.1程度の定数である。当該式（２）のうち、(1－p_i)log(1－q_i ²)の値は、正解ラベルが円形(1－p_i＝1)であるときの、対応するクラス分類部１１２＿２の出力値の対数をとっている。当該値に乗じるよう設定された(q_i ¹＋δ)は、定数と、他のクラス分類部１１２＿１の分類処理における誤分類時の出力値とを示す。このように損失関数Ｆ＿２を設定することで、正解ラベルが円形(1－p_i＝1)である場合に、クラス分類部１１２＿１が三角形と誤分類した学習データについて重みを強くしている。すなわち、損失計算部１１３＿２は、クラス分類部１１２＿１が三角形と誤分類した学習データを、クラス分類部１１２＿２の分類処理においては正しく分類できるようパラメータを修正するよう、損失関数Ｆ＿２を設定している。このように、損失計算部１１３は、他のクラス分類部１１２の分類処理における誤分類時の出力値に基づいて重み付けがされたクロスエントロピー関数を用いて、対応するクラス分類部１１２の分類誤差を決定する。

　次に損失計算部１１３は、決定した分類誤差が小さくなるように、特徴量抽出部１１１及び対応するクラス分類部１１２に用いられるパラメータを修正する。パラメータの修正には、誤差逆伝播法等の任意の既知の手法を用いてよい。誤差逆伝播法については既知であるため、説明を省略する。損失計算部１１３は、特徴量抽出部１１１及び対応するクラス分類部１１２のいずれかのみのパラメータのみを修正してもよい。

　例えば損失計算部１１３＿２は、算出した分類誤差が所定の値以上である場合は、分類誤差が小さくなるように、特徴量抽出部１１１と、クラス分類部１１２＿２とに用いられるパラメータを修正する。なお、分類誤差損失値の所定の値とは任意に設定されてよい。損失計算部１１３は、分類誤差が所定の値未満となるまで、特徴量抽出部１１１及びクラス分類部１１２のパラメータの修正を繰り返してよい。損失計算部１１３は、分類誤差の低下率が所定の値より低下しなくなった場合に、パラメータの修正を停止してもよい。

　パラメータが修正された後、クラス分類部１１２＿２は図３の学習データの分類処理を以下の表２に示すように学習する。

　表２を参照すると、クラス分類部１１２＿１によって誤分類されていた左から二番目の白抜きの円形の学習データについて、クラス分類部１１２＿２が０．３の値を算出し、円形と正しくクラスを分類する学習ができたことがわかる。一方、クラス分類部１１２＿２が右端の黒丸を三角形と誤分類していることがわかる。これについて、損失計算部１１３＿３は、上記した手法と同様にして、クラス分類部１１２＿３と異なる他のクラス分類部１１２＿２の出力値を用いて損失関数Ｆ＿３を設定し、クラス分類部１１２＿３の分類誤差を決定し、特徴量抽出部１１１及びクラス分類部１１２＿３に用いられるパラメータを修正する。このようにして損失計算部１１３は、クラス分類部１１２を互いに関連付けて分類処理の学習の手法を更新していくことができる。図４を参照すると、損失計算部１１３のそれぞれによる特徴量抽出部１１１及びクラス分類部１１２のパラメータの更新が破線矢印で示されている。

　制御部１１は、特徴量抽出部１１１と、複数のクラス分類部１１２とを一つの学習済みモデルとして出力する。制御部１１は、通信部２３を介して、当該学習済みモデルを推論装置２０に送信してもよい。

＜推論装置２０の構成＞
　次に、図５及び図６を参照して、本実施形態に係る推論装置２０の構成の一例について説明する。図３に示すように、推論装置２０は、制御部２１と、記憶部２２と、通信部２３と、入力部２４と、出力部２５と、を備える。

　記憶部２２は、１つ以上のメモリを含み、例えば半導体メモリ、磁気メモリ、光メモリなどを含んでもよい。記憶部１２に含まれる各メモリは、例えば主記憶装置、補助記憶装置、又はキャッシュメモリとして機能してもよい。記憶部２２は、推論装置２０の動作に用いられる任意の情報を記憶する。記憶部２２は、必ずしも推論装置２０が内部に備える必要はなく、推論装置２０の外部に備える構成としてもよい。

　通信部２３には、少なくとも１つの通信インタフェースが含まれる。通信インタフェースは、例えば、ＬＡＮインタフェースである。通信部２３は、推論装置２０の動作に用いられる情報を受信し、また機械学習装置１０の動作によって得られる情報を送信する。

　通信部２３は、推論装置２０がネットワークを介して他の装置と情報の送受信を行うことを可能にする。ネットワークとは、インターネット、少なくとも１つのＷＡＮ、少なくとも１つのＭＡＮ、又はこれらの組み合わせを含む。ネットワークは、少なくとも１つの無線ネットワーク、少なくとも１つの光ネットワーク、又はこれらの組み合わせを含んでもよい。無線ネットワークは、例えば、アドホックネットワーク、セルラーネットワーク、無線ＬＡＮ、衛星通信ネットワーク、又は地上マイクロ波ネットワークである。

　入力部２４には、少なくとも１つの入力用インタフェースが含まれる。入力用インタフェースは、例えば、物理キー、静電容量キー、ポインティングデバイス、ディスプレイと一体的に設けられたタッチスクリーン、又はマイクである。入力部２４は、推論装置２０の動作に用いられる情報を入力する操作を受け付ける。入力部２４は、推論装置２０に備えられる代わりに、外部の入力機器として推論装置２０に接続されてもよい。接続方式としては、例えば、ＵＳＢ、ＨＤＭＩ（登録商標）、又はBluetooth（登録商標）等の任意の方式を用いることができる。

　入力部２４は、未知データの入力を受け付ける。未知データは例えば画像である。本実施形態では、未知データは図３に示す学習データに含まれるものと同様の、白抜きの三角形、白抜きの円形、黒い三角形、黒い円形の四つの二次元の静止画像である。未知データは、入力部２４を介して直接的に入力されてもよいし、通信部２３及びネットワークを介して外部装置から入力されてもよい。

　出力部２５には、少なくとも１つの出力用インタフェースが含まれる。出力用インタフェースは、例えば、ディスプレイ又はスピーカである。ディスプレイは、例えば、ＬＣＤ又は有機ＥＬディスプレイである。出力部２５は、推論装置２０の動作によって得られる情報を出力する。出力部２５は、推論装置２０に備えられる代わりに、外部の出力機器として推論装置２０に接続されてもよい。接続方式としては、例えば、ＵＳＢ、ＨＤＭＩ（登録商標）、又はBluetooth（登録商標）等の任意の方式を用いることができる。出力部２５は、推論装置２０による推論結果を、ネットワーク又はファイル等に出力できる。

　制御部２１は、制御演算回路（コントローラ）により実現される。該制御演算回路は、ＡＳＩＣ、ＦＰＧＡ等の専用のハードウェアによって構成されてもよいし、プロセッサによって構成されてもよいし、双方を含んで構成されてもよい。制御部２１は、推論装置２０の各部を制御しながら、推論装置２０の動作に関わる処理を実行する。制御部２１は、外部装置との情報の送受信を、通信部２３及びネットワークを介して行うことができる。制御部２１は、機械学習装置１０が出力した学習済みモデルを取得する。取得の方法は任意の手法が採用されてよいが、例えば、制御部２１は、通信部２３を介して学習済みモデルを機械学習装置１０から受信することで取得してよい。

　制御部２１は、推論部２１１と、統合部２１２とを備える。

　推論部２１１は、機械学習装置１０が作成した学習済みモデルを未知データに適用して、学習済みモデルに含まれる複数のクラス分類部１１２からそれぞれの出力値を取得する。推論部２１１は、取得した学習済みモデルを、例えば入力部２４を介して受け付けた未知データに適用する。推論部２１１は、クラス分類部１１２のそれぞれから取得した出力値を統合部２１２へ出力する。図６を参照すると、クラス分類部１１２のそれぞれからの出力値の流れが実線矢印で示されている。

　統合部２１２は、推論部２１１により取得された出力値を統合する。統合は任意の手法を採用してよい。例えば、学習済みモデルにクラス分類部１１２＿１とクラス分類部１１２＿２との２つのクラス分類部１１２が含まれているとき、統合部２１２は、以下の式（３）に示すように、２つのクラス分類部１１２の出力値を平均してよい。

　ここで、q_i ¹はクラス分類部１１２＿１の出力値であり、画像が三角形のクラスに属する確率を示す値であり、q_i ²はクラス分類部１１２＿２の出力値であり、画像が三角形のクラスに属する確率を示す値である。

　以下の表３は、未知データを学習済みモデルに適用した場合のクラス分類部１１２＿１とクラス分類部１１２＿２との出力値と、統合部２１２が未知データごとに統合した結果の値とを示す。表３を参照すると、クラス分類部１１２＿１は白抜きの円形を誤判断し、クラス分類部１１２＿２は黒い円形を誤判断しているが、統合結果からはいずれの未知データも正しく分類されたことがわかる。

＜プログラム＞
　上述した機械学習装置１０又は推論装置２０として機能させるために、プログラム命令を実行可能なコンピュータを用いることも可能である。ここで、コンピュータは、汎用コンピュータ、専用コンピュータ、ワークステーション、ＰＣ（Personal Computer）、電子ノートパッドなどであってもよい。プログラム命令は、必要なタスクを実行するためのプログラムコード、コードセグメントなどであってもよい。

　コンピュータは、プロセッサと、記憶部と、入力部と、出力部と、通信インタフェースとを備える。プロセッサは、ＣＰＵ(Central Processing Unit)、ＭＰＵ（Micro Processing Unit）、ＧＰＵ（Graphics Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＳｏＣ（System on a Chip）等であり、同種又は異種の複数のプロセッサにより構成されてもよい。プロセッサは、記憶部からプログラムを読み出して実行することで、上記各構成の制御及び各種の演算処理を行う。なお、これらの処理内容の少なくとも一部をハードウェアで実現することとしてもよい。入力部は、ユーザの入力操作を受け付けてユーザの操作に基づく情報を取得する入力インタフェースであり、ポインティングデバイス、キーボード、マウスなどである。出力部は、情報を出力する出力インタフェースであり、ディスプレイ、スピーカなどである。通信インタフェースは、外部の装置と通信するためのインタフェースである。

　プログラムは、コンピュータが読み取り可能な記録媒体に記録されていてもよい。このような記録媒体を用いれば、プログラムをコンピュータにインストールすることが可能である。ここで、プログラムが記録された記録媒体は、非一過性（non-transitory）の記録媒体であってもよい。非一過性の記録媒体は、特に限定されるものではないが、例えば、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、ＵＳＢメモリなどであってもよい。また、このプログラムは、ネットワークを介して外部装置からダウンロードされる形態としてもよい。

＜システム１の動作＞
　次に、図２、図３、及び図７を参照して、本実施形態に係る機械学習装置１０及び推論装置２０を含むシステム１の動作について説明する。システム１の動作のうち、機械学習装置１０の動作は、本実施形態に係る機械学習方法に相当する。

　ステップＳ１において、機械学習装置１０は、入力部１４を介して学習データを受け付ける。本実施形態では、学習データは、入力データとしての白抜きの三角形、白抜きの円形、黒い三角形、黒い円形の四つの二次元の静止画像と、当該画像が三角形と円形との２つのクラスのいずれかに属するかを示す正解ラベルとを含む。

　ステップＳ２において、特徴量抽出部１１１は、対象とする学習データを取得し、学習データからの特徴量の抽出処理を学習する。特徴量の抽出処理は畳み込みニューラルネットワークによるものであってよい。特徴量抽出部１１１は、抽出した特徴量をクラス分類部１１２に出力する。

　ステップＳ３において、クラス分類部１１２は、特徴量に基づいて学習データの分類処理を学習する。本実施形態の分類処理は２クラス分類処理であるが、これに限定されず、多クラス分類処理であってもよい。図２に示す通り、本実施形態においてクラス分類部１１２は複数設けられる。クラス分類部１１２＿１からクラス分類部１１２＿Ｋのそれぞれが、特徴量に基づいて分類処理を学習する。

　クラス分類部１１２のそれぞれは、分類処理の結果を、対応する損失計算部１１３＿１から損失計算部１１３＿Ｋのそれぞれに出力する。

　ステップＳ４において、損失計算部１１３はまず、対応するクラス分類部１１２の出力値と、対応するクラス分類部１１２と異なる他のクラス分類部１１２の出力値とを用いて損失関数Ｆを設定する。本実施形態において、損失関数Ｆはクロスエントロピー関数である。

　以下の式（４）は、クラス分類部１１２＿１に対応する損失計算部１１３＿１が設定する損失関数Ｆ＿１の例である。クラス分類部１１２＿１は、全てのクラス分類部１１２の中で最初に分類処理を学習する。損失計算部１１３＿１は、当該損失関数Ｆ＿１を用いて、クラス分類部１１２＿１の分類誤差loss₁を決定する。

　以下の式（５）は、クラス分類部１１２＿２に対応する損失計算部１１３＿２が設定する損失関数Ｆ＿２の例である。損失計算部１１３＿２は、当該損失関数Ｆ＿２を用いて、対応するクラス分類部１１２＿２と異なる他のクラス分類部１１２＿１の出力値を参照して、対応するクラス分類部１１２＿２の分類誤差loss₂を決定する。

　ここで，q_i ²はクラス分類部１１２＿２の出力値であり、画像が三角形のクラスに属する確率を示す値である。δは0.1程度の定数である。当該式（５）のうち、(1－p_i)log(1－q_i ²)の値は、正解ラベルが円形(1－p_i＝1)であるときの、対応するクラス分類部１１２＿２の出力値の対数をとっている。当該値に乗じるよう設定された(q_i ¹＋δ)は、定数と、他のクラス分類部１１２＿１の分類処理における誤分類時の出力値とを示す。このように損失関数Ｆ＿２を設定することで、正解ラベルが円形(1－p_i＝1)である場合に、クラス分類部１１２＿１が三角形と誤分類した学習データについて重みを強くしている。すなわち、損失計算部１１３＿２は、クラス分類部１１２＿１が三角形と誤分類した学習データを、クラス分類部１１２＿２の分類処理においては正しく分類できるようパラメータを修正するよう、損失関数Ｆ＿２を設定している。このように、損失計算部１１３は、他のクラス分類部１１２の分類処理における誤分類時の出力値に基づいて重み付けがされたクロスエントロピー関数を用いて、対応するクラス分類部１１２の分類誤差を決定する。

　ステップＳ５において、損失計算部１１３は、決定した分類誤差が小さくなるように、特徴量抽出部１１１及び対応するクラス分類部１１２に用いられるパラメータを修正する。パラメータの修正には、誤差逆伝播法等の任意の既知の手法を用いてよい。

　例えば損失計算部１１３＿２は、算出した分類誤差が所定の値以上である場合は、分類誤差が小さくなるように、特徴量抽出部１１１＿２と、クラス分類部１１２＿２とに用いられるパラメータを修正する。なお、分類誤差損失値の所定の値とは任意に設定されてよい。損失計算部１１３は、分類誤差が所定の値未満となるまで、特徴量抽出部１１１及びクラス分類部１１２のパラメータの修正を繰り返してよい。損失計算部１１３は、分類誤差の低下率が所定の値より低下しなくなった場合に、パラメータの修正を停止してもよい。

　表２を参照すると、クラス分類部１１２＿１によって誤分類されていた左から二番目の白抜きの円形の学習データについて、クラス分類部１１２＿２が０．３の値を算出し、円形と正しくクラスを分類する学習ができたことがわかる。一方、クラス分類部１１２＿２が右端の黒丸を三角形と誤分類していることがわかる。これについて、損失計算部１１３＿３は、上記した手法と同様にして、クラス分類部１１２＿３と異なる他のクラス分類部１１２＿２の出力値を用いて損失関数Ｆ＿３を設定し、クラス分類部１１２＿３の分類誤差を決定し、特徴量抽出部１１１及びクラス分類部１１２＿３に用いられるパラメータを修正する。

　ステップＳ４およびステップＳ５に示すように、損失計算部１１３は、複数のクラス分類部１１２にそれぞれ対応付けられ、対応するクラス分類部１１２の分類誤差を計算し、該分類誤差が小さくなるように、特徴量抽出部１１１及び対応するクラス分類部１１２に用いられるパラメータを修正する。

　ステップＳ６において、制御部１１は、特徴量抽出部１１１と、複数のクラス分類部１１２とを一つの学習済みモデルとして、推論装置２０に出力する。

　ステップＳ７において、推論装置２０の制御部２１は、通信部２３を介して、機械学習装置１０が出力した学習済みモデルを取得する。

　ステップＳ８において、推論装置２０は、入力部２４を介して未知データを受け付ける。本実施形態では、未知データは図３に示す学習データに含まれるものと同様の、白抜きの三角形、白抜きの円形、黒い三角形、黒い円形の四つの二次元の静止画像である。

　ステップＳ９において、推論部２１１は、機械学習装置１０が作成した学習済みモデルを未知データに適用して、学習済みモデルに含まれる複数のクラス分類部１１２からそれぞれの出力値を取得する。推論部２１１は、クラス分類部１１２のそれぞれから取得した出力値を統合部２１２へ出力する。

　ステップＳ１０において、統合部２１２は、推論部２１１により取得された出力値を統合する。例えば、学習済みモデルにクラス分類部１１２＿１とクラス分類部１１２＿２との２つのクラス分類部１１２が含まれているとき、統合部２１２は、以下の式（６）に示すように、２つのクラス分類部１１２の出力値を平均してよい。

　以下の表６は、未知データを学習済みモデルに適用した場合のクラス分類部１１２＿１とクラス分類部１１２＿２との出力値と、統合部２１２が未知データごとに統合した結果の値とを示す。表３を参照すると、クラス分類部１１２＿１は白抜きの丸を誤判断し、クラス分類部１１２＿２は黒丸を誤判断しているが、統合結果からはいずれの未知データも正しく分類されたことがわかる。

　ステップＳ１１において、制御部２１は、出力部２５を介して統合結果を推論結果として出力する。その後、システム１の動作は終了する。

　上述のように、本実施形態にかかる機械学習装置１０は、学習データからの特徴量の抽出処理を学習する特徴量抽出部１１１と、特徴量に基づいて学習データの分類処理を学習する複数のクラス分類部１１２と、複数のクラス分類部１１２にそれぞれ対応付けられ、対応するクラス分類部１１２の分類誤差を計算し、該分類誤差が小さくなるように、前記特徴量抽出部１１１及び対応するクラス分類部１１２に用いられるパラメータを修正する複数の損失計算部１１３と、を備え、損失計算部１１３は、対応するクラス分類部１１２と異なる他のクラス分類部１１２の出力値を参照して、対応するクラス分類部１１２の分類誤差を決定する。

　本実施形態によれば、一つの特徴量抽出部１１１を複数のクラス分類部１１２で共有することで、特徴量抽出部１１１の個数を削減できる。さらに損失計算部１１３は、他のクラス分類部１１２の出力値を参照することができる。よって、複数のクラス分類部１１２部間の相関を調整して分類処理の精度を向上させつつ、機械学習の効率を向上させることができる。

　上述のように、本実施形態にかかる機械学習装置１０において、損失計算部１１３は、他のクラス分類部１１２の分類処理における誤分類時の出力値に基づいて重み付けがされたクロスエントロピー関数を用いて対応するクラス分類部１１２の分類誤差を決定する。

　本実施形態によれば、損失計算部１１３は、他のクラス分類部１１２の誤分類時の出力値を用いて分類誤差を決定する。他のクラス分類部１１２の誤分類時の出力値に応じて当該分類誤差の値が大きくなり、結果的に特徴量抽出部１１１及び対応するクラス分類部１１２に用いられるパラメータが修正される程度が大きくなる。このように本実施形態によれば、複数のクラス分類部１１２部間の相関を調整して分類処理の精度を向上させつつ、機械学習の効率を向上させることができる。

　上述のように、本実施形態に係る推論装置２０は、本実施形態に係る機械学習装置１０が作成した学習済みモデルを未知データに適用して、複数のクラス分類部１１２からそれぞれの出力値を取得する推論部２１１と、推論部２１１により取得された出力値を統合する統合部２１２とを備える。

　本実施形態によれば、統合部２１２が、複数のクラス分類部１１２からのそれぞれの出力値を統合する。よって、一つの学習済みモデルを用いて、精度よく未知データの分類を推定することが可能となる。

　本開示を諸図面や実施形態に基づき説明してきたが、当業者であれば本開示に基づき種々の変形や修正を行うことが容易であることに注意されたい。従って、これらの変形や修正は本開示の範囲に含まれることに留意されたい。

　機械学習装置１０の損失計算部１１３による分類誤差の決定手法は上述した実施形態に限られない。損失計算部１１３による分類誤差の決定手法の変形例として、以下に変形例１～４を示す。

　（変形例１）
　変形例１では、損失計算部１１３は、複数のクラス分類部１１２が分類処理を行う学習データの重みに乱数を用いて、各クラス分類部１１２の分類誤差を決定する。

　以下に示す式（７）は、本変形例においてクラス分類部１１２＿Ｋに対応する損失計算部１１３＿Ｋが設定する損失関数Ｆ＿Ｋの例である。

ここで、r_i ^kは乱数を示す。ｋはクラス分類部１１２の数である。他の各項が示す値については、上述の実施形態及び変形例１と同様であるため、説明を省略する。
r_i ^kは例えば、０．９～１．１の範囲の一様で独立した乱数とする。乱数を用いて各クラス分類部のサンプルに異なる重みを与えることで、クラス分類部間の相関を弱める。

　上述のように、本変形例にかかる機械学習装置１０は、学習データからの特徴量の抽出処理を学習する特徴量抽出部１１１と、特徴量に基づいて学習データの分類処理を学習する複数のクラス分類部１１２と、複数のクラス分類部１１２にそれぞれ対応付けられ、対応するクラス分類部１１２の分類誤差を計算し、該分類誤差が小さくなるように、特徴量抽出部１１１及び対応するクラス分類部１１２に用いられるパラメータを修正する複数の損失計算部１１３と、を備え、損失計算部１１３は、乱数及び損失関数Ｆを用いて対応するクラス分類部１１２の分類誤差を決定する。

　本変形例によれば、損失計算部１１３は、入力する学習データ自体に差異を付ける必要なく、複数のクラス分類部１１２間の相関を弱めるよう調整することができる。よって、複数のクラス分類部１１２部間の相関を調整して分類処理の精度を向上させつつ、機械学習の効率を向上させることができる。

　（変形例２）
　変形例２～４では、上述した実施形態と同様に、対応するクラス分類部１１２と異なる他のクラス分類部１１２の出力値を参照して、対応するクラス分類部１１２の分類誤差を決定する。変形例２では、損失計算部１１３＿Ｋは、クラス分類部１１２＿Ｋの損失関数Ｆ＿Ｋを設定するとき、以下の式（８）のように損失関数Ｆを設定する。以下の式（８）は、クラス分類部１１２＿２に対応する損失計算部１１３＿２が設定する損失関数Ｆ＿２の例である。

ここで，q_i ²はクラス分類部１１２＿２の出力値であり、画像が三角形のクラスに属する確率を示す値である。δは0.1程度の定数である。当該式（８）のうち、p_ilogq_i ²の値は、正解ラベルが三角形（p_i）であるときの、対応するクラス分類部１１２＿２の出力値の対数をとっている。当該値に乗じるよう設定された(1－q_i ¹＋δ)は、定数と、他のクラス分類部１１２＿１の分類処理における誤分類時の出力値とを示す。

　本変形例では、このように損失関数Ｆ＿２を設定することにで、正解ラベルが三角形(p_i＝1)である場合に、クラス分類部１１２＿１が円形と誤分類した学習データについて重みを強くすることができる。すなわち、損失計算部１１３＿Ｋは、クラス分類部１１２＿Ｋ－１が円形と誤分類した（三角形を見落とした）学習データを、クラス分類部１１２＿Ｋの分類処理においては正しく分類できるようパラメータを修正するよう、損失関数Ｆ＿Ｋを設定する。

（変形例３）
　変形例３では、損失計算部１１３は、以下の式（９）のように損失関数Ｆを設定する。以下の式（９）は、クラス分類部１１２＿２に対応する損失計算部１１３＿２が設定する損失関数Ｆ＿２の例である。式（９）の各項が示す値については、上述の実施形態及び変形例１と同様であるため、説明を省略する。

　本変形例によれば、損失計算部１１３は、正解ラベルが円形である場合において、クラス分類部１１２＿Ｋ－１が三角形と誤分類したときの出力値と、正解ラベルが三角形である場合に、クラス分類部１１２＿Ｋ－１が円形と誤分類したときの出力値との両方を参照して、クラス分類部１１２＿Ｋの分類誤差を決定する。すなわち、損失計算部１１３＿Ｋは、クラス分類部１１２＿Ｋ－１が誤分類したときの学習データを、クラス分類部１１２＿Ｋの分類処理においては正しく分類できるようパラメータを修正するよう、損失関数Ｆ＿Ｋを設定する。

　（変形例４）
　変形例４では、損失計算部１１３は、クラス分類部１１２＿Ｋの分類誤差を決定するとき、クラス分類部１１２＿Ｋ－１のみでなく、全ての他のクラス分類部１１２、すなわちクラス分類部１１２＿１からクラス分類部１１２＿Ｋ－１の誤分類時の出力値を参照する。図８は、本変形例に係る機械学習装置１０における処理の流れを示す。見やすさのため、図４で示した損失計算部１１３のそれぞれによるパラメータの更新を示す破線矢印は省略する。図８の損失計算部１１３＿Ｋは、クラス分類部１１２＿１からクラス分類部１１２＿Ｋ－１の出力値を参照してクラス分類部１１２＿Ｋの分類誤差を決定する。

　本変形例によれば、他のクラス分類部１１２全ての出力値を参照して分類誤差を決定することで、複数のクラス分類部１１２間の相関を弱めるよう調整することができる。よって、複数のクラス分類部１１２部間の相関を調整して分類処理の精度を向上させつつ、機械学習の効率を向上させることができる。

　（変形例５）
　本開示の変形例として、推論装置２０の統合部２１２は、以下の式（１０）に示すように、各クラス分類部１１２の分類処理の結果を単純ベイズ法を用いて統合してもよい。

　本変形例によれば、複数のクラス分類部１１２の分類処理の結果の多数決を取って、未知データの分類を推定することができる。

　（変形例６）
　本開示の変形例として、推論装置２０の統合部２１２は、以下の式（１１）に示すように、各クラス分類部１１２の出力値を重み付けして計算して分類結果を統合してもよい。

ここで、w¹、w²は0以上の実数であり、それぞれクラス分類部１１２＿１とクラス分類部１１２＿２とに対する重み付けの値を示す。統合部２１２は、所定のクラス分類部１１２の重み付けの値を大きく設定して計算してもよい。これにより、信頼性の高い任意のクラス分類部１１２の分類処理の結果を反映することができる。

　（変形例７）
　本開示の変形例として、推論装置２０の統合部２１２を機械学習装置１０が備え、機械学習装置１０において統合部２１２で使用されるパラメータを学習させてもよい。例えば、変形例６に係る統合部２１２を機械学習装置１０で学習させてもよい。本変形例に係る学習済みモデルを適用することで、信頼性の高いクラス分類部１１２を重視して、未知データを分類することができる。

　以上の実施形態に関し、更に以下の付記を開示する。

　（付記項１）
　学習データからの特徴量の抽出処理を学習し、
　前記特徴量に基づいて前記学習データの複数の分類処理を学習し、
　前記複数の分類処理のうち、対応する分類処理の誤差を計算し、該分類誤差が小さくなるように、前記抽出処理及び前記対応する分類処理に用いられるパラメータを修正する制御部を備え、
　前記制御部は、前記対応する分類処理と異なる他の分類処理による出力値を参照して、前記対応する分類処理の前記誤差を決定する、機械学習装置。

　（付記項２）
　前記制御部は、前記他の分類処理における誤分類時の出力値に基づいて重み付けがされたクロスエントロピー関数を用いて前記対応する分類処理の前記誤差を決定する、付記項１に記載の機械学習装置。

　（付記項３）
　学習データからの特徴量の抽出処理を学習し、
　前記特徴量に基づいて前記学習データの複数の分類処理を学習し、
　前記複数の分類処理のうち、対応する分類処理の誤差を計算し、該分類誤差が小さくなるように、前記抽出処理及び前記対応する分類処理に用いられるパラメータを修正する制御部を備え、
　前記制御部は、乱数及び損失関数を用いて前記対応する分類処理の前記誤差を決定する、機械学習装置。

　（付記項４）
　付記項１から３のいずれか一項に記載の機械学習装置が作成した学習済みモデルを未知データに適用して、前記複数の分類処理からそれぞれの出力値を取得し、
　取得された前記出力値を統合する制御部を備える、推論装置。

　（付記項５）
　機械学習装置が実行する機械学習方法であって、
　学習データからの特徴量の抽出処理を学習する特徴量抽出ステップと、
　前記特徴量に基づいて前記学習データの分類処理を学習する複数のクラス分類ステップと、
　前記複数のクラス分類ステップにそれぞれ対応付けられ、対応するクラス分類ステップの分類誤差を計算し、該分類誤差が小さくなるように、前記特徴量抽出ステップ及び対応する前記クラス分類ステップに用いられるパラメータを修正する複数の損失計算ステップと、を含み、
　前記損失計算ステップは、前記対応するクラス分類ステップと異なる他のクラス分類ステップの出力値を参照して、前記対応するクラス分類ステップの前記分類誤差を決定する、機械学習方法。

　（付記項６）
　前記損失計算ステップは、前記他のクラス分類ステップの前記分類処理における誤分類時の出力値に基づいて重み付けがされたクロスエントロピー関数を用いて前記対応するクラス分類ステップの前記分類誤差を決定する、付記項５に記載の機械学習方法。

　（付記項７）
　機械学習装置が実行する機械学習方法であって、
　学習データからの特徴量の抽出処理を学習する特徴量抽出ステップと、
　前記特徴量に基づいて前記学習データの分類処理を学習する複数のクラス分類ステップと、
　前記複数のクラス分類ステップにそれぞれ対応付けられ、対応するクラス分類ステップの分類誤差を計算し、該分類誤差が小さくなるように、前記特徴量抽出ステップ及び対応する前記クラス分類ステップに用いられるパラメータを修正する複数の損失計算ステップと、を含み、
　前記損失計算ステップは、乱数及び損失関数を用いて前記対応するクラス分類ステップの前記分類誤差を決定する、機械学習方法。

　（付記項８）
　コンピュータを、付記項１から３のいずれか一項に記載の機械学習装置として機能させるためのプログラムを記憶した非一時的なコンピュータ読取り可能な媒体。

　　１　システム
　　１０　機械学習装置
　　２０　推論装置
　　１１　制御部
　　１２　記憶部
　　１３　通信部
　　１４　入力部
　　１５　出力部
　　２１　制御部
　　２２　記憶部
　　２３　通信部
　　２４　入力部
　　２５　出力部
　　１１１　特徴量抽出部
　　１１２　クラス分類部
　　１１３　損失計算部
　　２１１　推論部
　　２１２　統合部

Claims

　学習データからの特徴量の抽出処理を学習する特徴量抽出部と、
　前記特徴量に基づいて前記学習データの分類処理を学習する複数のクラス分類部と、
　前記複数のクラス分類部にそれぞれ対応付けられ、対応するクラス分類部の分類誤差を計算し、該分類誤差が小さくなるように、前記特徴量抽出部及び対応する前記クラス分類部に用いられるパラメータを修正する複数の損失計算部と、を備え、
　前記損失計算部は、前記対応するクラス分類部と異なる他のクラス分類部の出力値を参照して、前記対応するクラス分類部の前記分類誤差を決定する、機械学習装置。
　前記損失計算部は、前記他のクラス分類部の前記分類処理における誤分類時の出力値に基づいて重み付けがされたクロスエントロピー関数を用いて前記対応するクラス分類部の前記分類誤差を決定する、請求項１に記載の機械学習装置。
　学習データからの特徴量の抽出処理を学習する特徴量抽出部と、
　前記特徴量に基づいて前記学習データの分類処理を学習する複数のクラス分類部と、
　前記複数のクラス分類部にそれぞれ対応付けられ、対応するクラス分類部の分類誤差を計算し、該分類誤差が小さくなるように、前記特徴量抽出部及び対応する前記クラス分類部に用いられるパラメータを修正する複数の損失計算部と、を備え、
　前記損失計算部は、乱数及び損失関数を用いて前記対応するクラス分類部の前記分類誤差を決定する、機械学習装置。
　請求項１から３のいずれか一項に記載の機械学習装置が作成した学習済みモデルを未知データに適用して、前記複数のクラス分類部からそれぞれの出力値を取得する推論部と、
　前記推論部により取得された前記出力値を統合する統合部と
を備える、推論装置。
　機械学習装置が実行する機械学習方法であって、
　学習データからの特徴量の抽出処理を学習する特徴量抽出ステップと、
　前記特徴量に基づいて前記学習データの分類処理を学習する複数のクラス分類ステップと、
　前記複数のクラス分類ステップにそれぞれ対応付けられ、対応するクラス分類ステップの分類誤差を計算し、該分類誤差が小さくなるように、前記特徴量抽出ステップ及び対応する前記クラス分類ステップに用いられるパラメータを修正する複数の損失計算ステップと、を含み、
　前記損失計算ステップは、前記対応するクラス分類ステップと異なる他のクラス分類ステップの出力値を参照して、前記対応するクラス分類ステップの前記分類誤差を決定する、機械学習方法。
　前記損失計算ステップは、前記他のクラス分類ステップの前記分類処理における誤分類時の出力値に基づいて重み付けがされたクロスエントロピー関数を用いて前記対応するクラス分類ステップの前記分類誤差を決定する、請求項５に記載の機械学習方法。
　機械学習装置が実行する機械学習方法であって、
　学習データからの特徴量の抽出処理を学習する特徴量抽出ステップと、
　前記特徴量に基づいて前記学習データの分類処理を学習する複数のクラス分類ステップと、
　前記複数のクラス分類ステップにそれぞれ対応付けられ、対応するクラス分類ステップの分類誤差を計算し、該分類誤差が小さくなるように、前記特徴量抽出ステップ及び対応する前記クラス分類ステップに用いられるパラメータを修正する複数の損失計算ステップと、を含み、
　前記損失計算ステップは、乱数及び損失関数を用いて前記対応するクラス分類ステップの前記分類誤差を決定する、機械学習方法。
　コンピュータを、請求項１から３のいずれか一項に記載の機械学習装置として機能させるためのプログラム。