WO2023233559A1

WO2023233559A1 - 学習装置、判定装置、学習方法および記録媒体

Info

Publication number: WO2023233559A1
Application number: PCT/JP2022/022235
Authority: WO
Inventors: 和也柿崎; 潤古川; 俊則荒木
Original assignee: 日本電気株式会社
Priority date: 2022-05-31
Filing date: 2022-05-31
Publication date: 2023-12-07

Abstract

学習装置が、複数のパラメータをもつ機械学習モデルの前記パラメータについて、複数の前記機械学習モデルに共用として設けられる共有パラメータと、機械学習モデルごとに設けられる非共有パラメータとの区別を示すマスク情報を決定するマスク初期化手段と、訓練データを用いて、複数の前記機械学習モデルに基づく損失関数の値を計算する損失関数計算手段と、前記損失関数の値を用いて前記共有パラメータの値と前記非共有パラメータの値とを更新するパラメータ更新手段と、を備える。

Description

学習装置、判定装置、学習方法および記録媒体

　本発明は、学習装置、判定装置、学習方法および記録媒体に関する。

　アンサンブル学習による判定装置など、複数の機械学習モデルを用いる判定装置が構成される場合がある。
　例えば、特許文献１には、顔認証等のアンサンブル学習においてニューラルネットワーク（Neural Network；ＮＮ）が用いられることが開示されている。
　また、非特許文献１には、アンサンブル学習に基づくロバスト化訓練（Ensemble based Robust Training；ＥＲＴ）が示されている。アンサンブル学習に基づくロバスト化訓練では、得られる判定装置が敵対的サンプル（Adversarial Example；ＡＸ）に騙されにくくなるように、アンサンブル学習を行う。判定装置が敵対的サンプルに騙されにくいとは、判定装置が敵対的サンプルの入力に対して誤判定を行いにくいことである。

ＷＯ２０１７／１２６４８２号公報

Huanrui Yang、他８名、"DVERGE: Diversifying Vulnerabilities for Enhanced Robust Generation of Ensemble"、NeurIPS2020、２０２０年。

　複数の機械学習モデルを用いる判定装置が記憶すべきパラメータ値の個数を比較的少なくすることができることが好ましい。

　本発明の目的の一例は、上述した課題を解決することのできる学習装置、判定装置、学習方法および記録媒体を提供することである。

　本発明の第１の態様によれば、学習装置は、複数のパラメータをもつ機械学習モデルの前記パラメータについて、複数の前記機械学習モデルに共用として設けられる共有パラメータと、機械学習モデルごとに設けられる非共有パラメータとの区別を示すマスク情報を決定するマスク初期化手段と、前記共有パラメータ、前記非共有パラメータ、および、前記マスク情報にて示されるパラメータ値を適用した複数の前記機械学習モデルに基づく損失関数の、訓練データに対する値を計算する損失関数計算手段と、前記損失関数の値を用いて前記共有パラメータの値と前記非共有パラメータの値とを更新するパラメータ更新手段と、を備える。

　本発明の第２の態様によれば、学習方法は、コンピュータが、複数のパラメータをもつ機械学習モデルの前記パラメータについて、複数の前記機械学習モデルに共用として設けられる共有パラメータと、機械学習モデルごとに設けられる非共有パラメータとの区別を示すマスク情報を決定する工程と、前記共有パラメータ、前記非共有パラメータ、および、前記マスク情報にて示されるパラメータ値を適用した複数の前記機械学習モデルに基づく損失関数の、訓練データに対する値を計算する工程と、前記損失関数の値を用いて前記共有パラメータの値と前記非共有パラメータの値とを更新する工程と、を含む。

　本発明の第３の態様によれば、記録媒体は、コンピュータに、複数のパラメータをもつ機械学習モデルの前記パラメータについて、複数の前記機械学習モデルに共用として設けられる共有パラメータと、機械学習モデルごとに設けられる非共有パラメータとの区別を示すマスク情報を決定する工程と、前記共有パラメータ、前記非共有パラメータ、および、前記マスク情報にて示されるパラメータ値を適用した複数の前記機械学習モデルに基づく損失関数の、訓練データに対する値を計算する工程と、前記損失関数の値を用いて前記共有パラメータの値と前記非共有パラメータの値とを更新する工程と、を実行させるためのプログラムを記録した記録媒体である。

　上記した学習装置、判定装置、学習方法および記録媒体によれば、複数の機械学習モデルを用いる判定装置が記憶すべきパラメータ値の個数を比較的少なくすることができる。

全てのパラメータが非共有パラメータとして構成されている複数のニューラルネットワークの例を示す図である。共有パラメータを含む複数のニューラルネットワークの例を示す図である。第１実施形態に係る学習装置の機能構成の例を示す概略ブロック図である。第１実施形態に係る学習装置の処理手順の例を示すフローチャートである。第１実施形態に係る学習装置の損失関数計算の処理手順の例を示すフローチャートである。第２実施形態及び第３実施形態に係る学習装置の機能構成の例を示す概略ブロック図である。第２実施形態に係る学習装置の処理手順の例を示すフローチャートである。第３実施形態に係る学習装置の処理手順の例を示すフローチャートである。第３実施形態に係る学習装置の処理手順の例を示すフローチャートである。第４実施形態に係る判定装置の機能構成の例を示す概略ブロック図である。第５実施形態に係る学習装置の機能構成の例を示す概略ブロック図である。第６実施形態に係る学習方法の処理手順の例を示すフローチャートである。少なくとも１つの実施形態に係るコンピュータの構成を示す概略ブロック図である。

　以下、本発明の実施形態を説明するが、以下の実施形態は請求の範囲にかかる発明を限定するものではない。また、実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。

　まず、実施形態における共有パラメータを含むニューラルネットワークの例を、全てのパラメータが非共有パラメータとして構成されているニューラルネットワークの例と比較して示す。

　図１は、全てのパラメータが非共有パラメータとして構成されている複数のニューラルネットワークの例を示す図である。
　図１に示すＮＮ１とＮＮ２とは、同じ構造を有するニューラルネットワークである。具体的には、ＮＮ１及びＮＮ２は、それぞれ層１、層２、層３を有する全結合型のニューラルネットワークであり、各層には４つのノードを持つ。各ノードはニューロンモデル（人工ニューロン）を用いて構成される。

　ＮＮ１およびＮＮ２の何れにおいても、全てのパラメータがニューラルネットワークごとに設けられている。図１は、パラメータがニューラルネットワークごとに設けられるか複数のニューラルネットワークに共用として設けられるかがノードごとに決定される場合の例を示しており、全てのノードについて、パラメータがニューラルネットワークごとに設けられている。

　ニューラルネットワークごとに設けられるパラメータを、非共有パラメータとも称する。パラメータがニューラルネットワークごとに設けられると決定されているノードを、非共有パラメータによるノードとも称する。図１では、非共有パラメータによるノードを丸（○）で示している。
　一方、複数のニューラルネットワークに共用として設けられるパラメータを、共有パラメータとも称する。パラメータが複数のニューラルネットワークに共用として設けられると決定されているノードを、共有パラメータによるノードとも称する。

　ニューラルネットワークにおけるパラメータは、ニューラルネットワークの種類に応じて設けられる。例えば、パーセプトロンの場合、ノード間の結合ごとに設けられる重み係数と、ノード出力算出用にノードごとに設けられるバイアスとが、パラメータの例に該当する。また、活性化関数をパーセプトロンにおけるステップ関数に限定しないように一般化されたニューラルネットワークでも、ノード間の結合ごとに設けられる重み係数と、ノード出力算出用にノードごとに設けられるバイアスとが、パラメータの例に該当する。
　また、スパイキングニューラルネットワーク（Spiking Neural Network；ＳＮＮ）では、ノード間の結合ごとに設けられる重み係数と、ノードごとに設けられる発火閾値とがパラメータの例に該当する。

　なお、パラメータがニューラルネットワークごとに設けられるか複数のニューラルネットワークに共用として設けられるかがノードごとに決定される場合、ノード間の結合に設けられるパラメータは、その結合で伝達される情報の入力を受ける側のノードに属するものとして扱うことができる。具体的には、非共有パラメータによるノードが入力ノードとなっている結合に設けられているパラメータは、非共有パラメータとなっていてもよい。また、共有パラメータによるノードが入力ノードとなっている結合に設けられているパラメータは、共有パラメータとなっていてもよい。

　ＮＮ１およびＮＮ２のような複数のニューラルネットワークは、例えば、アンサンブル学習に用いることができる。アンサンブル学習では、機械学習モデルを複数含むシステムの学習を行う。このシステムは、これら複数の機械学習モデルの出力の多数決をとるなど、複数の機械学習モデルの出力に基づいてシステムとしての出力を決定する。
　以下では、機械学習モデルを複数含み、これら複数の機械学習モデルの出力に基づいてシステムとしての出力を決定するシステムを、アンサンブルシステムと称する。また、アンサンブルシステムに含まれる機械学習モデルを、「アンサンブル内の機械学習モデル」という。例えば、アンサンブルシステムに含まれるニューラルネットワークを、「アンサンブル内のニューラルネットワーク」と称する。

　図２は、共有パラメータを含む複数のニューラルネットワークの例を示す図である。
　図２に示すＮＮ３とＮＮ４とは、同じ構造を有するニューラルネットワークである。具体的には、ＮＮ３及びＮＮ４は、それぞれ層１、層２、層３を有する全結合型のニューラルネットワークであり、各層には４つのノードを持つ。各ノードはニューロンモデルを用いて構成される。

　図１のＮＮ１およびＮＮ２では、全てのパラメータが非共有パラメータとなっているのに対し、図２のＮＮ３およびＮＮ４は、共有パラメータを含む。図２では、非共有パラメータによるノードを丸（○）で示し、共有パラメータによるノードを二重丸（◎）で示している。

　ＮＮ３とＮＮ４とが同じ構造を有することから、ＮＮ３とＮＮ４とで、ニューラルネットワークの構造において同じ位置にあるパラメータを対応付けることができ、同じ位置にあるパラメータを共用とすることができる。図２の例では、ＮＮ３とＮＮ４とで、ニューラルネットワークの構造において同じ位置にあるノードが共有パラメータによるノードとなっている。これにより、ＮＮ３とＮＮ４とで、ニューラルネットワークの構造において同じ位置にあるパラメータが共有パラメータとなっている。

　このように、同じ構造を有する複数のニューラルネットワークについて、ニューラルネットワークの構造において同じ位置にあるパラメータを対応付けることができ、同じ位置にあるパラメータを共用とすることができる。複数のニューラルネットワークでパラメータを共用とすることを、複数のニューラルネットワークがパラメータを共有するとも称する。

　複数のニューラルネットワークがパラメータの一部のみを共有することにより、複数のニューラルネットワークの構成に必要なメモリ領域を抑えつつ、複数のニューラルネットワークを異なるニューラルネットワークとして構成することができる。
　ここでは、２つのニューラルネットワークが、構造が同じであり、かつ、ニューラルネットワークの構造において同じ位置にあるパラメータの値が全て同じである場合、これら２つのニューラルネットワークは同じであると称する。一方、２つのニューラルネットワークの構造が異なる場合、これら２つのニューラルネットワークは異なると称する。２つのニューラルネットワークが、構造が同じであっても、ニューラルネットワークの構造において同じ位置にあるパラメータのうち少なくとも一組のパラメータの値が異なる場合も、これら２つのニューラルネットワークは異なると称する。

　異なるニューラルネットワークは、同じ入力データに対して異なる値を出力する場合がある。複数のニューラルネットワークが互いに異なるニューラルネットワークとして構成され得ることで、これら複数のニューラルネットワークの出力に基づいてシステムとしての出力を決定するシステムを構成することができる。例えば、これら複数のニューラルネットワークの出力の多数決をとる多数決モデルが、システムとして構成されていてもよい。

　例えば、パラメータの一部のみを共有する複数のニューラルネットワークをアンサンブル学習に基づくロバスト化訓練に用いる場合、全てのパラメータがニューラルネットワーク毎に設けられているニューラルネットワークを用いる場合と比較して、複数のニューラルネットワークの構成に必要なメモリ領域を抑えつつ、アンサンブル内のニューラルネットワークの個数を増加させることができ、ロバスト性（Robustness、頑健性）の向上が期待される。

　ここで、機械学習モデルの安全性に関するクリティカルな問題の１つとして、敵対的サンプル（ＥＸ）の問題を挙げることができる。敵対的サンプルとは、機械学習モデルが誤判断をするような微小な摂動を用いて意図的に生成される入力データである。ニューラルネットワーク等の機械学習モデルの敵対的サンプルに対するロバスト化の方法が必要である。

　機械学習モデルの敵対的サンプルに対するロバスト化の方法の１つとして、アンサンブル学習に基づくロバスト化訓練（ＥＲＴ）を挙げることができる。アンサンブル学習は、それぞれ個別に学習させた複数のニューラルネットワークを用いて多数決等をとることにより、未知のデータに対して予測能力を向上させるための学習方法である。

　アンサンブル学習に基づくロバスト化訓練は、アンサンブル内のニューラルネットワークが敵対的サンプルに対して同時に騙されにくく（誤判断をしにくく）なるように学習し、複数のニューラルネットワークを用いたシステムとしてロバストな予測を実現しようとする学習方法である。アンサンブル学習に基づくロバスト化訓練では、アンサンブル内のニューラルネットワークの個数を増やすことでロバスト性が向上することが期待される。

　アンサンブル学習に基づくロバスト化訓練に、全てのパラメータが非共有パラメータとして構成されるニューラルネットワークを用いる場合、ニューラルネットワークの個数に比例してパラメータの個数が増加する。この場合、ニューラルネットワークの個数が多いと、パラメータ値の記憶に必要な記憶容量が大きくなり、処理の遅延につながることが考えられる。また、この場合、パラメータ値の記憶に用いることができる記憶容量の制約により、ニューラルネットワークの個数を十分に多くすることができず、ロバスト性を十分確保できないことが考えられる。

　これに対し、アンサンブル学習に基づくロバスト化訓練に、一部のパラメータのみが共有パラメータとして構成されるニューラルネットワークを用いる場合、パラメータの共有化によって、全てのパラメータが非共有パラメータとして構成されるニューラルネットワークを用いる場合よりもパラメータの個数を少なくすることができる。これにより、処理速度が比較的速いことが期待される。また、この場合、ニューラルネットワークの個数を比較的多くすることができ、この点で、ロバスト性の向上が期待される。

　なお、上記の説明では、機械学習モデルとしてニューラルネットワークを用いる場合を例に説明したが、機械学習モデルはこれに限られない。誤差逆伝播法などの学習手法を用いてパラメータを更新可能であり、かつ、複数のパラメータをもちアンサンブル学習においてパラメータを共有することができるいろいろな機械学習モデルを用いることができる。このような機械学習モデルの例として、ニューラルネットワークの他に、サポートベクターマシン（Support Vector Machine；ＳＶＭ）、及び、ランダムフォレスト（Random Forest）を挙げることができる。

　以下でも、機械学習モデルとしてニューラルネットワークを用いる場合を例に説明するが、機械学習モデルはこれに限られない。誤差逆伝播法などの学習手法を用いてパラメータを更新可能であり、かつ、複数のパラメータをもちアンサンブル学習においてパラメータを共有することができるいろいろな機械学習モデルを用いることができる。

　さらに、上記の説明では、複数の機械学習モデルを用いてアンサンブル学習を行う場合を例に説明したが、複数の機械学習モデルを用いるシステムは、アンサンブル学習のように、複数の機械学習モデルの出力の多数決をとってシステムとしての出力を決定するものに限られない。例えば、複数の機械学習モデルを用いるシステムが、複数の機械学習モデルの出力に対して重み付けを行ったうえで多数決をとってシステムとしての出力を決定するようにしてもよい。
　また、複数の機械学習モデルを用いるシステムが、複数の機械学習モデルの出力を用いてシステムとしての出力を決定することに加えて、あるいは、変えて、複数の機械学習モデルの出力の分散または信頼度など、複数の機械学習モデルの出力に関する指標値を算出するようにしてもよい。
　また、機械学習の手法として誤差逆伝播法を用いる場合を例に説明するが、適用可能な機械学習の手法は、これに限られない。

　以下でも、複数の機械学習モデルを用いるシステムは、複数の機械学習モデルの出力の多数決をとってシステムとしての出力を決定するものに限られない。例えば、複数の機械学習モデルを用いるシステムが、複数の機械学習モデルの出力に対して重み付けを行ったうえで多数決をとってシステムとしての出力を決定するようにしてもよい。
　また、複数の機械学習モデルを用いるシステムが、複数の機械学習モデルの出力を用いてシステムとしての出力を決定することに加えて、あるいは、変えて、複数の機械学習モデルの出力の分散または信頼度など、複数の機械学習モデルの出力に関する指標値を算出するようにしてもよい。
　以下でも、適用可能な機械学習の手法は、誤差逆伝播法に限られない。

　なお、上記の説明と同様、以下でも、アンサンブル内の各ニューラルネットワークの構造は同一とし、各ニューラルネットワークの共有パラメータの位置も、ニューラルネットワークの構造における位置について同一とする。

＜第１実施形態＞
　第１実施形態のアンサンブル学習に基づくロバスト化訓練（ＥＲＴ）では、アンサンブル内のニューラルネットワーク（ＮＮ）の共有パラメータの位置をランダムに決定し、後述する式（７）の最適化問題を解くことにより、ニューラルネットワークのパラメータの学習を行う。
　まず、アンサンブル内のニューラルネットワークの個数をＫとすると、ニューラルネットワークのパラメータを要素にもつベクトルである共有ベクトルおよび非共有ベクトルは、式（１）のように表記することができる。

　θは、アンサンブル内のニューラルネットワーク１つ分のパラメータを示すベクトルである。上記のように、アンサンブル内のニューラルネットワークは同じ構造を有し、したがって、同じ個数のパラメータを有するものとする。｜θ｜は、アンサンブル内のニューラルネットワーク１つ分のパラメータの個数を表す。

　Ｒ^｜θ｜は、｜θ｜個の実数を要素にもつ｜θ｜次元（｜θ｜サイズ）のベクトルの集合を表す。ニューラルネットワークのパラメータベクトルは、Ｒ^｜θ｜の要素である。θ^ｓは、ニューラルネットワーク間で共有されるパラメータを保持する共有パラメータベクトルである。ｓはsharedを表す。θ_j ^ns（１≦ｊ≦Ｋ）は、ニューラルネットワーク間で共有されない、ｊ番目のニューラルネットワークのパラメータを保持する非共有パラメータベクトルである。ｎｓはnon-sharedを表す。以下、アンサンブル内のｊ番目のニューラルネットワークを、単にｊ番目のニューラルネットワークとも称する。この場合、１≦ｊ≦Ｋである。

　式（１）に示すように、共有パラメータベクトルおよび非共有パラメータベクトルの何れも、アンサンブル内のニューラルネットワーク１つ分のパラメータの個数の実数を要素に持つベクトルとすることができる。
　学習結果を用いた運用時には、共有パラメータベクトルおよび非共有パラメータベクトルの何れでも、マスクで示される一部の要素のみがアクセス（書込および読み出し）される。アクセスされない要素には、メモリ等の記憶容量を割り当てる必要がない。したがって、学習済みのニューラルネットワークを用いて構成され、運用時に用いられる判定装置では、パラメータの共有化によって、パラメータ値の記憶に必要な記憶容量を削減することができる。

　共有パラメータベクトルの共有位置を表すための共有マスクベクトルＭは、式（２）のように表すことができる。

　共有マスクベクトルＭは、｜θ｜次元の二値ベクトルであり、各要素の値は、０又は１である。要素の値１が共有位置を表す。共有位置は、共有パラメータベクトルにおける、共有パラメータに対応付けられる要素の位置である。共有パラメータベクトルの要素と、アンサンブル内のニューラルネットワーク１つ分のパラメータとは一対一に対応付けられる。したがって、共有マスクベクトルＭは、ニューラルネットワークの構造における共有パラメータの位置を示す、ともいえる。
　共有マスクベクトルＭは、マスク情報の例に該当する。

　非共有パラメータベクトルの非共有位置を表すための非共有マスクベクトル＾Ｍは、式（３）のように表すことができる。

　非共有マスクベクトル＾Ｍも、｜θ｜次元の二値ベクトルであり、各要素の値は、０又は１である。要素の値１が非共有位置を表す。非共有位置は、非共有パラメータベクトルにおける、非共有パラメータに対応付けられる要素の位置である。非共有パラメータベクトルの要素と、アンサンブル内のニューラルネットワーク１つ分のパラメータとは一対一に対応付けられる。したがって、非共有マスクベクトル＾Ｍは、ニューラルネットワークの構造における非共有パラメータの位置を示す、ともいえる。
　非共有マスクベクトル＾Ｍは、共有マスクベクトルＭの０と１を反転させたものである。

　共有パラメータベクトルからの共有パラメータの取り出しは、式（４）のように表すことができる。

　式においては、白丸（○）はアダマール積を表し、ベクトルの要素ごとの積を計算する。すなわち、ｚ＝ｘ○ｙとすると、ｚ_ｉ＝ｘ_ｉ×ｙ_ｉ（１≦ｉ≦｜θ｜）である。
　式（４）の演算結果のベクトル「θ^ｓ○Ｍ」では、共有位置の要素は共有パラメータの値を示し、非共有位置の要素の値は０である。

　ｊ番目のニューラルネットワークの非共有パラメータベクトルからの非共有ベクトルの取り出しは、式（５）のように表すことができる。

　上記のように、○はアダマール積を表す。
　式（５）の演算結果のベクトル「θ^ｓ○Ｍ」では、非共有位置の要素は非共有パラメータの値を示し、共有位置の要素の値は０である。

　ｊ番目のニューラルネットワークのパラメータベクトルθ_ｊは、式（６）のように表すことができる。

　パラメータベクトルθ_ｊは、ｊ番目のニューラルネットワークのパラメータの値を示すベクトルである。パラメータベクトルθ_ｊは、共有マスクベクトルＭで表される共有位置には、共有ベクトルθ^ｓの要素をもち、非共有マスクベクトル＾Mで表される非共有位置には、ｊ番目のニューラルネットワークの非共有パラメータベクトルθ_j ^nsの要素をもつ。

　次に、式（７）の最適化問題について説明する。

　式（７）において、「ｘ_ｓ」は、画像データなどのニューラルネットワークへの入力データであり、「ｙ_ｓ」は、ｘ_ｓの正しいクラスラベル（クラス値）である。同様に、「ｘ_ｔ」は、ニューラルネットワークへの入力データであり、「ｙ_ｔ」は、ｘ_ｔの正しいクラスラベルである。ここで、「ｘ_ｓ」と「ｘ_ｔ」は、異なるクラスに属する入力データとする。つまりｙ_ｓ≠ｙ_ｔである。「Δｆ_θｊ（ｘ_ｓ，ｘ_ｔ，ｌ）」は、敵対的摂動（ノイズ）を表し、次の式（８）で計算される。

　式（８）において、「ｌ」は、ニューラルネットワークの選択された１つの層を表す。
　「δ」は、敵対的摂動（ノイズ）を表す。「｜δ｜_∞≦ε」は、δの∞ノルムでの大きさが、与えられたε以下であることを表す。「ｘ_ｓ＋δ」は、ｘ_ｓに敵対的摂動δを付与した入力データを表す。
　「ｆ^ｌ _θｊ（ｘ_ｓ＋δ）」は、パラメータベクトルθ_ｊを用いた際のｊ番目のニューラルネットワークにおいて、ｘ_ｓ＋δを入力したときの、第ｌ層の出力（ベクトル）を表す。
　「ｆ^ｌ _θｊ（ｘ_ｔ）」は、パラメータベクトルθ_ｊを用いた際のｊ番目のニューラルネットワークにおいて、ｘ_ｔを入力したときの、第ｌ層の出力（ベクトル）を表す。
　「｜・｜」^２ _２」は、２ノルムを表し、「｜ｆ^ｌ _θｊ（ｘ_ｓ＋δ）－ｆ^ｌ _θｊ（ｘ_ｔ）｜^２ _２」は、これらの出力の間の距離を表す。
　「ａｒｇｍｉｎ_δｄ（δ）」は、ｄ（δ）を最小とするようなδを求めることを表す。

　したがって、式（８）の「Δｆ_θｊ（ｘ_ｓ，ｘ_ｔ，ｌ）」は、ｊ番目のニューラルネットワークの第ｌ層の出力に関して、大きさε以下のノイズδのうち、ｘ_ｓに当該ノイズδを付与すると、ｘ_ｔと出力が最も近くなるようなノイズδを表す。つまり、このノイズδは、ｊ番目のニューラルネットワークの第ｌ層の出力に関して、ｘ_ｓをｘ_ｔに誤判断させる最小のノイズである。

　式（７）に戻って、「ｘ_ｓ＋Δｆ_θｊ（ｘ_ｓ，ｘ_ｔ，ｌ）」は、式（８）で求めた敵対的摂動Δｆ_θｊ（ｘ_ｓ，ｘ_ｔ，ｌ）をｘ_ｓに付与した入力データを表す。
　「ＣＥｆ_θｉ（ｘ，ｙ）」は、クロスエントロピー（Cross Entropy）損失関数であり、入力データｘとクラスラベルｙが与えられたとき、パラメータベクトルθ_ｉを用いた際のｉ番目のニューラルネットワークが、ｘをｙと正しく分類できているほど小さい値を出力する関数である。したがって、「ＣＥｆ_θｉ（ｘ_ｓ＋Δｆ_θｊ（ｘ_ｓ，ｘ_ｔ，ｌ），ｙ_ｓ）」は、ｘ_ｓに、パラメータベクトルθ_ｊを用いた際のｊ番目のニューラルネットワークの第ｌ層が誤判断するような敵対的摂動を付与しても、パラメータベクトルθ_ｉを用いた際のｉ番目のニューラルネットワークが、ｙ_ｓと正しく判断する場合に、比較的小さい値を出力する関数である。

　「Σ_ｊ≠ｉＣＥｆ_θｉ（・，・）」は、ｊ番目のニューラルネットワークと異なる全てのニューラルネットワークでクロスエントロピーを求め総和を取ることを表す。
　「Ｅ_{（ｘｓ，ｙｓ），（ｘｔ，ｙｔ），ｌ}Σ_ｊ≠ｉＣＥｆ_θｉ（・，・）」は、（ｘ_ｓ，ｙ_ｓ），（ｘ_ｔ，ｙ_ｔ），ｌに対して、クロスエントロピーの総和の期待値をとることを表す。
　「ａｒｇｍｉｎ_{θ^ｓ，θ₁ ^ns，…，θ_K ^ns}Ｅ_{（ｘｓ，ｙｓ），（ｘｔ，ｙｔ），ｌ}Σ_ｊ≠ｉＣＥｆ_θｉ（・，・）」は、前述のクロスエントロピーの総和の期待値を最小にするような、各ニューラルネットワークのパラメータベクトルθ^ｓ，θ₁ ^ns，…，θ_K ^nsを求めることを表す。

　図３は、第１実施形態に係る学習装置１００の機能構成の例を示す概略ブロック図である。学習装置１００は、制御部１１０、記憶部１３０を備える。制御部１１０は、マスク初期化部１１１、パラメータ初期化部１１２、訓練データ取得部１１３、学習部１１４を備える。学習部１１４は、ミニバッチサンプリング部１１５、層選択部１１６、パラメータ決定部１１７、損失関数計算部１１８、パラメータ更新部１１９を備える。記憶部１３０は、訓練データ記憶部１３１を備える。なお、学習装置１００はこれら以外のものを備えてもよく、また、記憶部１３０は学習装置１００の外部に備えられてもよい。
　第１実施形態のアンサンブル学習に基づくロバスト化訓練（ＥＲＴ）では、アンサンブル内のニューラルネットワーク（ＮＮ）の共有パラメータの位置をランダムに決定し、ニューラルネットワークのパラメータの学習を行う。アンサンブル内のニューラルネットワークの個数をＫとする。

　マスク初期化部１１１は、共有マスクベクトルＭと非共有マスクベクトル＾Ｍとを初期化する。マスク初期化部１１１は、マスク初期化手段の例に該当する。マスク初期化部１１１が行う共有マスクベクトルＭと非共有マスクベクトル＾Ｍとの初期化は、ニューラルネットワークの一つ分のパラメータのうち共有パラメータをランダムに選択する処理と捉えることができる。
　上述したように、共有マスクベクトルＭおよび非共有マスクベクトル＾Ｍは、式（９）のように表すことができる。

　具体的には、マスク初期化部１１１は、割合をｐとして、ｐ×｜θ｜の要素が１となるように、共有マスクベクトルＭをランダムに初期化する。また、マスク初期化部１１１は、マスクベクトルＭの各要素の０と１を反転したものを、非共有マスクベクトル＾Ｍとして初期化する。ｐは、アンサンブル内のニューラルネットワークの共有パラメータの割合を示す。ｐの値は、使用可能な記憶容量に応じて予め定められていてもよい。
　あるいは、共有マスクベクトルＭの初期値が予め定められ、マスク初期化部１１１が、共有マスクベクトルＭの初期値を予め記憶しておいてもよい。

　パラメータ初期化部１１２は、共有パラメータベクトルθ^ｓと、非共有パラメータベクトルθ₁ ^ns，…，θ_K ^nsの各々とを初期化する。上述したように、共有パラメータおよび非共有パラメータは、式（１０）のように表すことができる。

　例えば、パラメータ初期化部１１２は、これらのパラメータベクトルの各要素に乱数を割り振って、パラメータ値をランダムに初期化する。あるいは、各パラメータの初期値が予め定められ、パラメータ初期化部１１２が、パラメータの初期値をパラメータベクトルの各要素の初期値として予め記憶しておいてもよい。

　訓練データ記憶部１３１は、ニューラルネットワークの学習に用いる訓練データ（の集合）Ｘ_ｔｒを記憶している。
　訓練データＸ_ｔｒは、式（１１）のように表すことができる。

　「ｘ_ｓ」は、画像データなどのニューラルネットワークへの入力データであり、「ｙ_ｓ」は、ｘ_ｓの正しいクラスラベル（クラス値）である。同様に、「ｘ_ｔ」は、ニューラルネットワークへの入力データであり、「ｙ_ｔ」は、ｘ_ｔの正しいクラスラベルである。ここで、「ｘ_ｓ」と「ｘ_ｔ」は、異なるクラスに属する入力データとする。つまりｙ_ｓ≠ｙ_ｔである。

　訓練データ取得部１１３は、訓練データ記憶部１３１に記憶されている訓練データＸ_ｔｒを取得する。

　学習部１１４は、訓練データＸ_ｔｒを用いて、アンサンブル内のニューラルネットワークのパラメータベクトルを、繰り返し誤差逆伝播法により更新して学習を行う。

　ミニバッチサンプリング部１１５は、訓練データＸ_ｔｒから、１回の学習に用いるミニバッチＢをサンプリングする。具体的には、ミニバッチサンプリング部１１５は、訓練データＸ_ｔｒから、部分集合をランダムにサンプリングしてミニバッチＢとする。

　層選択部１１６は、敵対的摂動Δｆ_θｊ（ｘ_ｓ，ｘ_ｔ，ｌ）の生成に使用するニューラルネットワークの１つの層ｌを選択する。

　パラメータ決定部１１７は、各ニューラルネットワークに対して、パラメータベクトルを決定する。パラメータ決定部１１７は、パラメータ決定手段の例に該当する。
　上述したように、ｊ番目のニューラルネットワークのパラメータベクトルθ_ｊは、式（１２）のように表すことができる。

　具体的には、パラメータ決定部１１７は、共有マスクベクトルＭと、非共有マスクベクトル＾Ｍと、共有パラメータベクトルθ^ｓと、非共有パラメータベクトルθ_j ^ns（１≦ｊ≦Ｋ）とを用いて、各ニューラルネットワークのパラメータベクトルθ_ｊ（１≦ｊ≦Ｋ）を決定（計算）する。θ^ｓ及びθ_j ^ns（１≦ｊ≦Ｋ）は、初期化又は更新されたものである。

　パラメータ決定部１１７がパラメータベクトルθ_ｊを決定する処理は、ｊ番目のニューラルネットワークを構成する処理と捉えることができる。
　具体的には、同じ構造を有するＫ個のニューラルネットワークに共用としてモデルテンプレートを設けておく。モデルテンプレートは、ニューラルネットワークのパラメータがパラメータベクトルで示されるテンプレートであり、パラメータベクトルに値を入力することでニューラルネットワークが構成される。パラメータ決定部１１７が決定するパラメータベクトルθ_ｊをモデルテンプレートに適用することで、ｊ番目のニューラルネットワークが構成される。

　損失関数計算部１１８は、ミニバッチＢ＝｛（ｘ_ｓ，ｙ_ｓ，ｘ_ｔ，ｙ_ｔ）｝の訓練データを、各ｊ番目のニューラルネットワーク（１≦ｊ≦Ｋ）に入力して情報を伝播させ、式（１３）の損失関数Ｌｏｓｓを計算する。

　式（１３）において、「Δｆ_θｊ（ｘ_ｓ，ｘ_ｔ，ｌ）」は、式（８）で示す敵対的摂動である。「ｌ」は、層選択部１１６が選択した層ｌである。この敵対的摂動は、は、ｊ番目のニューラルネットワークの第ｌ層の出力に関して、ｘ_ｓをｘ_ｔに誤判断させる最小のノイズである。
　「ｘ_ｓ＋Δｆ_θｊ（ｘ_ｓ，ｘ_ｔ，ｌ）」は、敵対的摂動Δｆ_θｊ（ｘ_ｓ，ｘ_ｔ，ｌ）をｘ_ｓに付与した入力データを表す。
　「ＣＥｆ_θｉ（ｘ，ｙ）」は、クロスエントロピー損失関数であり、入力データｘとクラスラベルｙが与えられたとき、パラメータベクトルθ_ｉを用いた際のｉ番目のニューラルネットワークが、ｘをｙと正しく分類できているほど小さい値を出力する関数である。したがって、「ＣＥｆ_θｉ（ｘ_ｓ＋Δｆ_θｊ（ｘ_ｓ，ｘ_ｔ，ｌ），ｙ_ｓ）」は、ｘ_ｓに、パラメータベクトルθ_ｊを用いた際のｊ番目のニューラルネットワークの第ｌ層が誤判断するような敵対的摂動を付与しても、パラメータベクトルθ_ｉを用いた際のｉ番目のニューラルネットワークが、ｙ_ｓと正しく判断するほど小さい値を出力する関数である。
　「Σ_ｊ≠ｉＣＥｆ_θｉ（ｘ_ｓ＋Δｆ_θｊ（ｘ_ｓ，ｘ_ｔ，ｌ），ｙ_ｓ）」は、ｊ番目のニューラルネットワークと異なる全てのニューラルネットワークでクロスエントロピーを求め総和を取ることを表す。
　「１／｜Ｂ｜×Σ_{（ｘｓ，ｙｓ，ｘｔ，ｙｔ）∈Ｂ}Σ_ｊ≠ｉＣＥｆ_θｉ（ｘ_ｓ＋Δｆ_θｊ（ｘ_ｓ，ｘ_ｔ，ｌ），ｙ_ｓ）」は、ミニバッチＢ内の全ての要素（ｘ_ｓ，ｙ_ｓ，ｘ_ｔ，ｙ_ｔ）に対して、クロスエントロピーの総和の期待値（平均値）をとることを表す。
　損失関数計算部１１８は、損失関数計算手段の例に該当する。

　パラメータ更新部１１９は、誤差逆伝播法により誤差情報を逆伝播させてパラメータの更新を行う。パラメータ更新部１１９は、パラメータ更新手段の例に該当する。
　具体的には、パラメータ更新部１１９は、式（１４）に示される損失関数Ｌｏｓｓの偏微分を計算し、θ^ｓを更新する。

　式（１４）は、θ^ｓの要素(θ^ｓ)_i（１≦ｉ≦｜θ｜）に対して、∂Ｌｏｓｓ／∂(θ^ｓ)_iを計算するという意味である。パラメータ更新部１１９は、例えば、所定の学習係数α（＞０）に対して、(θ^ｓ)_iを、(θ^ｓ)_i－α×∂Ｌｏｓｓ／∂(θ^ｓ)_iに更新する。
　また、パラメータ更新部１１９は、式（１５）に示される損失関数Ｌｏｓｓの偏微分を計算し、θ_j ^nsを更新する（ｊ＝１，…，Ｋ）。

　式（１５）は、θ_j ^nsの要素(θ_j ^ns)_i（１≦ｉ≦｜θ｜）に対して、∂Ｌｏｓｓ／∂(θ_j ^ns)_iを計算するという意味である。パラメータ更新部１１９は、例えば、所定の学習係数α（＞０）に対して、(θ_j ^ns)_iを、(θ_j ^ns)_i－α×∂Ｌｏｓｓ／∂(θ_j ^ns)_iに更新する。

　学習部１１４は、例えば、所定回の学習を終えたら、パラメータベクトルθ^ｓ，θ₁ ^ns，…，θ_K ^nsを学習結果として出力する。

　次に、図４及び図５を参照して、学習装置１００の動作について説明する。図４は、第１実施形態に係る学習装置１００の処理手順の例を示すフローチャートである。図５は、学習装置１００の損失関数計算の処理手順の例を示すフローチャートである。

　まず、マスク初期化部１１１は、共有マスクベクトルＭと非共有マスクベクトル＾Ｍとを初期化する（ステップＳ１０１）。マスク初期化部１１１は、例えば、共有マスクベクトルＭをランダムに初期化し、マスクベクトルＭの各要素の０と１を反転したものを、非共有マスクベクトル＾Ｍとして初期化する。

　次に、パラメータ初期化部１１２は、共有パラメータベクトルθ^ｓと、非共有パラメータベクトルθ₁ ^ns，…，θ_K ^nsを初期化する（ステップＳ１０２）。パラメータ初期化部１１２は、例えば、これらのパラメータベクトルの各要素に乱数を割り振る。

　次に、訓練データ取得部１１３は、訓練データ記憶部１３１に記憶されている訓練データＸ_ｔｒ＝｛（ｘ_ｓ，ｙ_ｓ，ｘ_ｔ，ｙ_ｔ）_ｉ｝（１≦ｉ≦Ｋ）を取得する（ステップＳ１０３）。
　次に、ミニバッチサンプリング部１１５は、訓練データＸ_ｔｒから、１回の学習に用いるミニバッチＢ＝｛（ｘ_ｓ，ｙ_ｓ，ｘ_ｔ，ｙ_ｔ）をサンプリングする（ステップＳ１０４）。
　次に、層選択部１１６は、敵対的摂動Δｆ_θｊ（ｘ_ｓ，ｘ_ｔ，ｌ）の生成に使用するニューラルネットワークの１つの層ｌを選択する（ステップＳ１０５）。

　次に、パラメータ決定部１１７は、共有マスクベクトルＭと、非共有マスクベクトル＾Ｍと、共有パラメータベクトルθ^ｓと、非共有パラメータベクトルθ_j ^ns（１≦ｊ≦Ｋ）とを用いて、各ニューラルネットワークのパラメータベクトルθ_ｊ＝θ^ｓ○Ｍ＋θ_j ^ns○＾Ｍ（１≦ｊ≦Ｋ）を決定（計算）する（ステップＳ１０６）。ここで、○はアダマール積を表す。θ^ｓ及びθ_j ^ns（１≦ｊ≦Ｋ）は、初期化又は更新されたものである。

　損失関数計算部１１８は、ミニバッチＢ＝｛（ｘ_ｓ，ｙ_ｓ，ｘ_ｔ，ｙ_ｔ）｝を、各ｊ番目のニューラルネットワーク（１≦ｊ≦Ｋ）で情報を伝播させ、式（１３）の損失関数Ｌｏｓｓを計算する（ステップＳ１０７）。

　図５に移る。次に、損失関数計算部１１８は、ミニバッチＢから要素（ｘ_ｓ，ｙ_ｓ，ｘ_ｔ，ｙ_ｔ）を１つ選択する（ステップＳ２０１）。
　次に、損失関数計算部１１８は、ｊ番目のニューラルネットワークにおいて、敵対的摂動Δｆ_θｊ（ｘ_ｓ，ｘ_ｔ，ｌ）を計算する（ステップＳ２０２）。

　次に、損失関数計算部１１８は、ｊ番目のニューラルネットワークと異なるｉ番目のニューラルネットワークにおいて、ｘ_ｓに敵対的摂動Δｆ_θｊ（ｘ_ｓ，ｘ_ｔ，ｌ）を付与した際のクロスエントロピーの和Σ_ｊ≠ｉＣＥｆ_θｉ（ｘ_ｓ＋Δｆ_θｊ（ｘ_ｓ，ｘ_ｔ，ｌ），ｙ_ｓ）を計算する（ステップＳ２０３）。

　次に、損失関数計算部１１８は、ミニバッチＢの全ての要素に対して、クロスエントロピーの和を計算したか否か判定する（ステップＳ２０４）。全ての要素に対して計算していない場合は、損失関数計算部１１８は、処理をステップＳ２０１に戻す。一方、全ての要素に対して計算をした場合は、損失関数計算部１１８は、処理をステップＳ２０５へ移す。

　次に、損失関数計算部１１８は、損失関数Ｌｏｓｓ＝（１／｜Ｂ｜）×Σ_{（ｘｓ，ｙｓ，ｘｔ，ｙｔ）∈Ｂ}Σ_ｊ≠ｉＣＥｆ_θｉ（ｘ_ｓ＋Δｆ_θｊ（ｘ_ｓ，ｘ_ｔ，ｌ），ｙ_ｓ）を計算する（ステップＳ２０５）。

　図４に戻る。次に、パラメータ更新部１１９は、誤差情報を逆伝播させて、勾配法により、∂Ｌｏｓｓ／∂θ^ｓを計算し、θ^ｓを更新する（ステップＳ１０８）。
　また、パラメータ更新部１１９は、誤差情報を逆伝播させて、勾配法により、∂Ｌｏｓｓ／∂θ_j ^nsを計算し、θ_j ^nsを更新する（ｊ＝１，…，Ｋ）（ステップＳ１０９）。

　次に、学習部１１４は、学習を所定回行ったか否かを判定する（ステップＳ１１０）。学習を所定回行っていない場合は、学習部１１４は、処理をステップＳ１０４へ戻す。一方、学習を所定回行った場合は、学習部１１４は、処理をステップＳ１１１へ移す。
　次に、学習部１１４（制御部１１０）は、ニューラルネットワークのパラメータベクトルθ^ｓ，θ₁ ^ns，…，θ_K ^nsを出力する（ステップＳ１１１）。

　以上で、図４及び図５の第１実施形態に係る学習装置１００の処理手順は終了である。
　なお、ステップＳ１１０において、学習の終了条件は、学習を所定回数行ったこととしたが、これに限られない。例えば、損失関数の減少幅が所定の閾値より小さいことを学習の終了条件としてもよい。

　以上説明したように、マスク初期化部１１１が、共有及び非共有マスクベクトルを初期化し、パラメータ初期化部１１２が、パラメータベクトルを初期化し、訓練データ取得部１１３が、訓練データを取得する。ミニバッチサンプリング部１１５が、ミニバッチをサンプリングし、層選択部１１６が、層を選択し、パラメータ決定部１１７が、共有及び非共有マスクベクトルを用いてパラメータベクトルを決定し、損失関数計算部１１８が、損失関数を計算する。パラメータ更新部１１９が、パラメータの更新を行い、学習部１１４は、所定回の学習を終えたらパラメータベクトルを出力する。

　これにより、学習装置１００は、アンサンブル学習に基づくロバスト化訓練（ＥＲＴ）において、アンサンブル内のニューラルネットワークのパラメータの個数を抑制することができる。したがって、学習装置１００は、メモリ等の記憶容量の抑制することができるため、アンサンブル内のニューラルネットワークの個数を増加させることができる。したがって、学習装置１００は、アンサンブル学習に基づくロバスト化訓練において、ロバスト性を向上させることができる。

　また、マスク初期化部１１１は、ニューラルネットワークのパラメータについて、複数のニューラルネットワークに共用として設けられる共有パラメータと、ニューラルネットワークごとに設けられる非共有パラメータとの区別を示す共有マスクベクトルを決定する。損失関数計算部１１８は、共有パラメータ、非共有パラメータ、および、共有マスクベクトルにて示されるパラメータ値を適用した複数のニューラルネットワークに基づく損失関数の、訓練データに対する値を計算する。パラメータ更新部１１９は、損失関数の値を用いて共有パラメータの値と非共有パラメータの値とを更新する。
　学習装置１００によれば、複数のニューラルネットワークの一部を共用化することができる。したがって、学習装置１００によれば、学習済みの複数のニューラルネットワークを用いる判定装置が記憶すべきパラメータ値の個数を比較的少なくすることができる。

　また、パラメータ決定部１１７は、ニューラルネットワークの一つ分のパラメータがベクトルに構成されたパラメータベクトルを含み、複数のニューラルネットワークに共用として設けられるモデルテンプレートの、パラメータベクトルの要素のうち、共有マスクベクトルによって共有パラメータとされる要素には、共有パラメータベクトルから共有パラメータの値を設定し、パラメータベクトルの要素のうち、共有マスクベクトルによって非共有パラメータとされる要素には、非共有パラメータベクトルから非共有パラメータの値を設定することで、複数のニューラルネットワークのうち１つのニューラルネットワークを構成する。
　学習装置１００によれば、共有パラメータの値および非共有パラメータの値が何れもベクトルで示される点で、パラメータ値の計算を行列計算で行うことができ、比較的高速に計算を行うことができる。

　また、マスク初期化部１１１は、ニューラルネットワークの一つ分のパラメータのうち共有パラメータをランダムに選択するように、共有マスクベクトルを決定する。
　これにより、学習装置１００では、ニューラルネットワークの一つ分のパラメータのうち共有パラメータを、ランダムに選択するという簡単な処理で選択することができる。所望の学習結果を得られない場合、マスク初期化部１１１による共有パラメータの選択を含め、学習をやり直すようにしてもよい。

　また、損失関数は、１つのニューラルネットワークを誤判断させる敵対的摂動を付与された入力データに対して、その他のニューラルネットワークが誤判断しない場合に、比較的小さい値を出力する関数である。
　学習装置１００が、この損失関数を用いてニューラルネットワークのアンサンブル学習を行うことで、敵対的摂動にロバストな判定装置を得られることが期待される。具体的には、アンサンブル学習で得られるニューラルネットワークのうち１つが、敵対的摂動を付与された入力データに対して御判断（誤ったクラス識別）を行う場合でも、他のニューラルネットワークが、その入力データに対して正しい判断（正しいクラス識別）を行うことが期待される。

＜第２実施形態＞
　第２実施形態のアンサンブル学習に基づくロバスト化訓練（ＥＲＴ）では、アンサンブル内のニューラルネットワーク（ＮＮ）の共有パラメータの位置も学習により決定する。すなわち、第２実施形態のＥＲＴでは、下記の式（２３）の最適化問題を解くことにより、ニューラルネットワークのパラメータ及び共有パラメータの位置の学習を行う。第２実施形態では、共有パラメータの位置も学習により決定するため、共有パラメータの位置が学習中に変更される。例えば図２で、◎で示した共有パラメータの位置が学習中に変更される。それ以外の点では、第２実施形態は第１実施形態の場合と同様である。

　第２実施形態における共有パラメータ及び非共有パラメータは、第１実施形態の場合と同様である。第１実施形態の場合と同様、アンサンブル内のニューラルネットワークの個数をＫとすると、共有ベクトルおよび非共有ベクトルは、式（１６）のように表記することができる。

　第２実施形態における共有マスクベクトルＭも、第１実施形態の場合と同様である。
　一方、第２実施形態では、共有マスクベクトルＭに対応する実数ベクトルを設ける。この実数ベクトルを、共有マスクベクトルＭの代替ベクトル、または、単に代替ベクトルとも称し、Ｓで表記する。Ｓは変数（変数ベクトル）であり、代替変数とも称する。
　共有マスクベクトルＭ、及び、代替ベクトルＳは、式（１７）のように表すことができる。

　Ｍは、｜θ｜次元のベクトルで要素が０又は１であり、１が共有位置を表す。
　共有マスクベクトルＭは、要素が離散値であるため、誤差逆伝播法など微分を用いる学習方法で直接最適化することが難しい。このため、要素が連続値をとるＭの代替変数（代替ベクトル）Ｓを用いて最適化を行う。Ｓは、｜θ｜次元のベクトルで要素が０以上１以下の実数値である。Ｓを最適化した後、要素の値の大きい上位ｍ個（０≦ｍ≦｜θ｜）の位置の要素の値を１としそれ以外を０として、共有マスクベクトルＭを決定する。ここでｐは、共有パラメータの割合である。ｐは、式（１８）のように表すことができる。

　ｍは、予め定められた正の整数とすることができる。

　第２実施形態における非共有マスクベクトル＾Ｍも、第１実施形態の場合と同様である。
　非共有マスクベクトル＾Ｍに対応する実数ベクトルは、１－Ｓで算出することができる。この実数ベクトルを、非共有マスクベクトル＾Ｍの代替ベクトル、または、単に代替ベクトルとも称し、１－Ｓまたは＾Ｓで表記する。また、Ｓを代替変数と称することに対応して、１－Ｓまたは＾Ｓも代替変数とも称する。＾Ｓに相当する変数を設け、１－Ｓを代入するようにしてもよい。
　非共有マスクベクトル＾Ｍ、及び、代替ベクトル＾Ｓは、式（１９）のように表すことができる。

　＾Ｍも、｜θ｜次元のベクトルで要素の値が０又は１であり、１が非共有位置を表す。＾Ｍは、Ｍの０と１を反転させたものである。
　非共有マスクベクトル＾Ｍに対応する代替変数＾Ｓも、｜θ｜次元のベクトルで要素が０以上１以下の実数値である。＾Ｓの各要素の値は、１からＳの対応する位置の要素の値を引いた値である。

　学習時に、代替ベクトルＳから共有パラメータベクトルＭを算出するようにしてもよい。この場合、共有パラメータベクトルθ^ｓからの共有パラメータの取り出しは、第１実施形態の場合と同様、共有マスクベクトルＭを用いて行うことができ、上記の式（４）のように表すことができる。このように、共有マスクベクトルＭを用いて共有パラメータベクトルθ^ｓからの共有パラメータを取り出す場合については、第３実施形態で説明する。

　一方、第２実施形態では、代替ベクトルＳの要素を、共有パラメータに乗算する係数として用いる。代替ベクトルＳの要素の、共有パラメータへの乗算は、式（２０）のように表すことができる。

　上述したように、○はアダマール積を表し、ベクトルの要素ごとの積を計算する。

　学習時に、代替ベクトルＳから共有パラメータベクトルＭを算出する場合、ｊ番目のニューラルネットワークの非共有パラメータベクトルθ_j ^nsから非共有パラメータの取り出しは、第１実施形態の場合と同様、非共有マスクベクトル＾Ｍを用いて行うことができ、上記の式（５）のように表すことができる。ｊ番目のニューラルネットワークのパラメータベクトルθ_ｊの算出も、第１実施形態の場合と同様に行うことができ、式（６）のように表すことができる。後述する第３実施形態では、これらの処理方法を用いることができる。

　一方、第２実施形態では、非代替ベクトル１－Ｓの要素を、非共有パラメータに乗算する係数として用いる。非代替ベクトル１－Ｓの要素の、ｊ番目のニューラルネットワークの非共有パラメータへの乗算は、式（２１）のように表すことができる。

　上述したように、○はアダマール積を表す。

　第２実施形態では、代替ベクトルＳの要素を共有パラメータに乗算した値と、非代替ベクトル１－Ｓの要素を非共有に乗算した値の足し合わせにて、パラメータベクトルを算出する。ｊ番目のニューラルネットワークのパラメータベクトルθ_ｊは、式（２２）のように表すことができる。

　次に、式（２３）の最適化問題について説明する。

　式（２３）において、「ｘ_ｓ」は、画像データなどのニューラルネットワークへの入力データであり、「ｙ_ｓ」は、ｘ_ｓの正しいクラスラベル（クラス値）である。同様に、「ｘ_ｔ」は、ニューラルネットワークへの入力データであり、「ｙ_ｔ」は、ｘ_ｔの正しいクラスラベルである。ここで、「ｘ_ｓ」と「ｘ_ｔ」は、異なるクラスに属する入力データとする。つまりｙ_ｓ≠ｙ_ｔである。
　「Δｆ_θｊ（ｘ_ｓ，ｘ_ｔ，ｌ）」は、敵対的摂動（ノイズ）を表し、第１実施形態の式（８）で計算されるものと同様である。つまり、「Δｆ_θｊ（ｘ_ｓ，ｘ_ｔ，ｌ）」は、ｊ番目のニューラルネットワークの第ｌ層の出力に関して、ｘ_ｓをｘ_ｔに誤判断させる最小のノイズである。

　「ｘ_ｓ＋Δｆ_θｊ（ｘ_ｓ，ｘ_ｔ，ｌ）」は、式（８）で求めた敵対的摂動Δｆ_θｊ（ｘ_ｓ，ｘ_ｔ，ｌ）をｘ_ｓに付与した入力データを表す。
　「ＣＥｆ_θｉ（ｘ，ｙ）」は、クロスエントロピー（Cross Entropy）損失関数であり、入力データｘとクラスラベルｙが与えられたとき、パラメータベクトルθ_ｉを用いた際のｉ番目のニューラルネットワークが、ｘをｙと正しく分類てきているほど小さい値を出力する関数である。したがって、「ＣＥｆ_θｉ（ｘ_ｓ＋Δｆ_θｊ（ｘ_ｓ，ｘ_ｔ，ｌ），ｙ_ｓ）」は、ｘ_ｓに、パラメータベクトルθ_ｊを用いた際のｊ番目のニューラルネットワークの第ｌ層が誤判断するような敵対的摂動を付与しても、パラメータベクトルθ_ｉを用いた際のｉ番目のニューラルネットワークが、ｙ_ｓと正しく判断するほど小さい値を出力する関数である。

　「Σ_ｊ≠ｉＣＥｆ_θｉ（・，・）」は、ｊ番目のニューラルネットワークと異なる全てのニューラルネットワークでクロスエントロピーを求め総和を取ることを表す。
　「Ｅ_{（ｘｓ，ｙｓ），（ｘｔ，ｙｔ），ｌ}Σ_ｊ≠ｉＣＥｆ_θｉ（・，・）」は、（ｘ_ｓ，ｙ_ｓ），（ｘ_ｔ，ｙ_ｔ），ｌに対して、クロスエントロピーの総和の期待値をとることを表す。
　「ａｒｇｍｉｎ_{Ｍ（ｏｒＳ），θ^ｓ，θ₁ ^ns，…，θ_K ^ns}Ｅ_{（ｘｓ，ｙｓ），（ｘｔ，ｙｔ），ｌ}Σ_ｊ≠ｉＣＥｆ_θｉ（・，・）」は、前述のクロスエントロピーの総和の期待値を最小にするような、各ニューラルネットワークのパラメータベクトルθ^ｓ，θ₁ ^ns，…，θ_K ^nsと共有マスクベクトルＭを求めることを表す。

　なお、第２実施形態、及び、第３実施形態で、最適化で値を求める対象の１つとして、共有マスクベクトルＭではなく代替ベクトルＳを用いる。上記のように、共有マスクベクトルＭは離散値をとるため、最適化問題の解法として誤差逆伝播法など微分を用いる方法を適用することができない。そこで、共有マスクベクトルＭに代えて代替ベクトルＳを用いて最適化問題を構成し、得られる代替ベクトルＳから共有マスクベクトルＭを求める。

　第２実施形態では、学習終了時に得られた代替ベクトルＳから、上述したように式（１８）に示される割合ｐに従って、共有マスクベクトルＭを求める。
　一方、後述する第３実施形態では、誤差逆伝播法を用いてｊ番目（１≦ｊ≦Ｋ）のニューラルネットワークのパラメータベクトルθ_ｊの値を更新する際に、代替ベクトルＳの値を更新する。そして、更新された代替ベクトルＳから、上述したように式（１８）に示される割合ｐに従って、共有マスクベクトルＭを求める。そして、得られた共有マスクベクトル（更新された共有マスクベクトル）を用いて、第１実施形態の場合と同様、共有パラメータベクトルθ^ｓおよび非共有パラメータベクトルθ_j ^nsを更新する。

　図６は、第２実施形態に係る学習装置２００の機能構成の例を示す概略ブロック図である。学習装置２００は、制御部２１０、記憶部２３０を備える。制御部２１０は、マスク初期化部２１１、パラメータ初期化部２１２、訓練データ取得部２１３、学習部２１４、マスク決定部２２１を備える。学習部２１４は、ミニバッチサンプリング部２１５、層選択部２１６、パラメータ決定部２１７、損失関数計算部２１８、マスク更新部２１９、パラメータ更新部２２０を備える。記憶部２３０は、訓練データ記憶部２３１を備える。なお、学習装置２００はこれら以外のものを備えてもよく、また、記憶部２３０は学習装置２００の外部に備えられてもよい。
　第２実施形態のアンサンブル学習に基づくロバスト化訓練（ＥＲＴ）では、アンサンブル内のニューラルネットワーク（ＮＮ）の共有パラメータの位置を学習により決定し、ニューラルネットワークのパラメータの学習を行う。上記のように、アンサンブル内のニューラルネットワークの個数をＫとする。

　マスク初期化部２１１は、共有マスクベクトルＭに対応する代替変数（代替ベクトル）Ｓを初期化する。マスク初期化部２１１は、マスク初期化手段の例に該当する。
　上述したように、代替変数Ｓおよび＾Ｓは、式（２４）のように表すことができる。

　具体的には、マスク初期化部２１１は、代替変数Ｓをランダムに初期化する。Ｓの要素は０以上１以下の実数値である。あるいは、代替変数Ｓの初期値が予め定められ、マスク初期化部２１１が、代替変数Ｓの初期値を予め記憶しておいてもよい。

　パラメータ初期化部２１２は、パラメータ初期化部１１２と同様である。パラメータ初期化部２１２は、共有パラメータベクトルθ^ｓと、非共有パラメータベクトルθ₁ ^ns，…，θ_K ^nsの各々とを初期化する。上述したように、共有パラメータおよび非共有パラメータは、式（２５）のように表すことができる。

　例えば、パラメータ初期化部２１２は、これらのパラメータベクトルの各要素に乱数を割り振って、パラメータ値をランダムに初期化する。あるいは、各パラメータの初期値が予め定められ、パラメータ初期化部１１２が、パラメータの初期値をパラメータベクトルの各要素の初期値として予め記憶しておいてもよい。

　訓練データ記憶部２３１は、訓練データ記憶部１３１と同様である。訓練データ記憶部２３１は、ニューラルネットワークの学習に用いる訓練データ（の集合）Ｘ_ｔｒを記憶している。
　上述したように、訓練データＸ_ｔｒは、式（２６）のように表すことができる。

　学習部２１４は、訓練データＸ_ｔｒを用いて、アンサンブル内のニューラルネットワークのパラメータベクトル及び共有マスクベクトルの代替変数Ｓを、繰り返し誤差逆伝播法により更新して学習を行う。

　ミニバッチサンプリング部２１５は、ミニバッチサンプリング部１１５と同様である。ミニバッチサンプリング部２１５は、訓練データＸ_ｔｒから、１回の学習に用いるミニバッチＢをサンプリングする。具体的には、ミニバッチサンプリング部２１５は、訓練データＸ_ｔｒから、部分集合をランダムにサンプリングしてミニバッチＢとする。

　層選択部２１６は、層選択部１１６と同様である。層選択部２１６は、敵対的摂動Δｆ_θｊ（ｘ_ｓ，ｘ_ｔ，ｌ）の生成に使用するニューラルネットワークの１つの層ｌを選択する。

　パラメータ決定部２１７は、各ニューラルネットワークに対して、パラメータベクトルを決定する。パラメータ決定部２１７は、パラメータ決定手段の例に該当する。
　上述したように、ｊ番目のニューラルネットワークのパラメータベクトルθ_ｊは、式（２７）のように表すことができる。

　具体的には、パラメータ決定部１１７は、共有マスクベクトルに対応する代替変数Ｓと、非共有マスクベクトルに対応する代替変数＾Ｓ＝１－Ｓと、共有パラメータベクトルθ^ｓと、非共有パラメータベクトルθ_j ^ns（１≦ｊ≦Ｋ）とを用いて、各ニューラルネットワークのパラメータベクトルθ_ｊ（１≦ｊ≦Ｋ）を決定（計算）する。Ｓ，θ^ｓ及びθ_j ^ns（１≦ｊ≦Ｋ）は、初期化又は更新されたものである。

　損失関数計算部２１８は、損失関数計算部１１８と同様である。損失関数計算部２１８は、損失関数計算手段の例に該当する。
　損失関数計算部２１８は、ミニバッチＢ＝｛（ｘ_ｓ，ｙ_ｓ，ｘ_ｔ，ｙ_ｔ）｝を、各ｊ番目のニューラルネットワーク（１≦ｊ≦Ｋ）で情報を伝播させ、式（２８）の損失関数Ｌｏｓｓを計算する。

　式（２８）の損失関数Ｌｏｓｓは、式（１３）の損失関数Ｌｏｓｓと同様である。

　マスク更新部２１９は、誤差逆伝播法により誤差情報を逆伝播させて代替変数Ｓの更新を行う。マスク更新部２１９は、マスク更新手段の例に該当する。
　具体的には、マスク更新部２１９は、式（２９）に示される損失関数Ｌｏｓｓの偏微分を計算し、Ｓを更新する。

　式（２９）は、Ｓの要素Ｓ_i（１≦ｉ≦｜θ｜）に対して、∂Ｌｏｓｓ／∂Ｓ_iを計算するという意味である。マスク更新部２１９は、例えば、所定のα（＞０）に対して、Ｓ_iを、Ｓ_i－α×∂Ｌｏｓｓ／∂Ｓ_iに更新する。
　また、マスク更新部２１９は、Ｓ_iが［０，１］の範囲内の値となるように調整を行う。例えば、算出されたＳ_ｉの値がＳ_ｉ＜０である場合、マスク更新部２１９は、更新後のＳ_ｉの値を０とする。また、算出されたＳ_ｉの値がＳ_ｉ＞１である場合、マスク更新部２１９は、更新後のＳ_ｉの値を１とする。

　パラメータ更新部２２０は、パラメータ更新部１１９と同様である。パラメータ更新部２２０は、パラメータ更新手段の例に該当する。
　パラメータ更新部２２０は、誤差逆伝播法により誤差情報を逆伝播させてパラメータの更新を行う。具体的には、パラメータ更新部２２０は、式（３０）に示される損失関数Ｌｏｓｓの偏微分を計算し、θ^ｓを更新する。

　式（３０）は、式（１４）と同様である。パラメータ更新部２２０は、例えば、所定の学習係数α（＞０）に対して、(θ^ｓ)_iを、(θ^ｓ)_i－α×∂Ｌｏｓｓ／∂(θ^ｓ)_iに更新する。

　また、パラメータ更新部２２０は、式（３１）に示される損失関数Ｌｏｓｓの偏微分を計算し、θ_j ^nsを更新する（ｊ＝１，…，Ｋ）。

　式（３１）は、式（１５）と同様である。パラメータ更新部２２０は、例えば、所定の学習係数α（＞０）に対して、(θ_j ^ns)_iを、(θ_j ^ns)_i－α×∂Ｌｏｓｓ／∂(θ_j ^ns)_iに更新する。

　学習部２１４は、所定回の学習を終えたら、パラメータベクトルθ^ｓ，θ₁ ^ns，…，θ_K ^nsと代替変数Ｓを学習結果として出力する。

　マスク決定部２２１は、マスクベクトルＭを決定する。具体的には、マスク決定部２２１は、学習部２１４から出力された代替変数Ｓに対して、値の大きい上位ｐ×｜θ｜＝ｍ個の位置を１とし、それ以外の位置を０となるように、マスクベクトルＭを決定する。ここでｐは、式（１８）に示される、共有パラメータの割合である。

　次に、図７を参照して、第２実施形態に係る学習装置２００の動作について説明する。図７は、第２実施形態に係る学習装置２００の処理手順の例を示すフローチャートである。第２実施形態の処理手順では、パラメータベクトルθ^ｓ，θ₁ ^ns，…，θ_K ^nsと代替変数Ｓの更新を、１回の学習ごとに同時に行う。

　まず、マスク初期化部２１１は、共有マスクベクトルＭに対応する代替変数（代替ベクトル）Ｓを初期化する。（ステップＳ３０１）。マスク初期化部２１１は、例えば、代替変数Ｓをランダムに初期化する。

　次に、パラメータ初期化部２１２は、共有パラメータベクトルθ^ｓと、非共有パラメータベクトルθ₁ ^ns，…，θ_K ^nsを初期化する（ステップＳ３０２）。パラメータ初期化部２１２は、例えば、これらのパラメータベクトルの各要素に乱数を割り振ってランダムに初期化する。

　次に、訓練データ取得部２１３は、訓練データ記憶部２３１に記憶されている訓練データＸ_ｔｒ＝｛（ｘ_ｓ，ｙ_ｓ，ｘ_ｔ，ｙ_ｔ）_ｉ｝（１≦ｉ≦Ｋ）を取得する（ステップＳ３０３）。
　次に、ミニバッチサンプリング部２１５は、訓練データＸ_ｔｒから、１回の学習に用いるミニバッチＢ＝｛（ｘ_ｓ，ｙ_ｓ，ｘ_ｔ，ｙ_ｔ）をサンプリングする（ステップＳ３０４）。
　次に、層選択部２１６は、敵対的摂動Δｆ_θｊ（ｘ_ｓ，ｘ_ｔ，ｌ）の生成に使用するニューラルネットワークの１つの層ｌを選択する（ステップＳ３０５）。

　次に、パラメータ決定部２１７は、共有マスクベクトルの代替変数Ｓと、非共有マスクベクトルの代替変数＾Ｓ＝１－Ｓと、共有パラメータベクトルθ^ｓと、非共有パラメータベクトルθ_j ^ns（１≦ｊ≦Ｋ）とを用いて、各ニューラルネットワークのパラメータベクトルθ_ｊ＝θ^ｓ○Ｍ＋θ_j ^ns○＾Ｍ（１≦ｊ≦Ｋ）を決定（計算）する（ステップＳ３０６）。上述したように、○はアダマール積を表す。Ｓ，θ^ｓ及びθ_j ^ns（１≦ｊ≦Ｋ）は、初期化又は更新されたものである。

　損失関数計算部２１８は、ミニバッチＢ＝｛（ｘ_ｓ，ｙ_ｓ，ｘ_ｔ，ｙ_ｔ）｝を、各ｊ番目のニューラルネットワーク（１≦ｊ≦Ｋ）で情報を伝播させ、式（２８）の損失関数Ｌｏｓｓ＝（１／｜Ｂ｜）×Σ_{（ｘｓ，ｙｓ，ｘｔ，ｙｔ）∈Ｂ}Σ_ｊ≠ｉＣＥｆ_θｉ（ｘ_ｓ＋Δｆ_θｊ（ｘ_ｓ，ｘ_ｔ，ｌ），ｙ_ｓ）を計算する（ステップＳ３０７）。損失関数Ｌｏｓｓの計算は、パラメータベクトルθ_ｊ（１≦ｊ≦Ｋ）の意味合いが異なる点を除いて、第１実施形態において図５で示した損失関数計算の処理手順と同様である。

　次に、マスク更新部２１９は、誤差情報を逆伝播させて、∂Ｌｏｓｓ／∂Ｓを計算し、Ｓを更新する（ステップＳ３０８）。
　次に、パラメータ更新部２２０は、誤差情報を逆伝播させて、∂Ｌｏｓｓ／∂θ^ｓを計算し、θ^ｓを更新する（ステップＳ３０９）。
　また、パラメータ更新部２２０は、誤差情報を逆伝播させて、∂Ｌｏｓｓ／∂θ_j ^nsを計算し、θ_j ^nsを更新する（ｊ＝１，…，Ｋ）（ステップＳ３１０）。

　次に、学習部２１４は、学習を所定回行ったか否かを判定する（ステップＳ３１１）。学習を所定回行っていない場合は、学習部２１４は、処理をステップＳ３０４へ戻す。一方、学習を所定回行った場合は、学習部２１４は、処理をステップＳ３１２へ移す。

　次に、マスク決定部２２１は、代替変数Ｓに対して、値の大きい上位ｐ×｜θ｜＝ｍ個の位置を１とし、それ以外の位置を０となるように、マスクベクトルＭを決定する（ステップＳ３１２）。
　次に、学習部２１４（制御部２１０）は、ニューラルネットワークのパラメータベクトルθ^ｓ，θ₁ ^ns，…，θ_K ^nsとマスクベクトルＭを出力する（ステップＳ３１３）。

　以上で、図７の第２実施形態に係る学習装置２００の処理手順は終了である。
　なお、ステップＳ３１０において、学習の終了条件は、学習を所定回数行ったこととしたが、これに限られない。例えば、損失関数の減少幅が所定の閾値より小さいことを学習の終了条件としてもよい。

　以上説明したように、マスク初期化部２１１が、代替変数Ｓを初期化し、パラメータ初期化部２１２が、パラメータベクトルを初期化し、訓練データ取得部２１３が、訓練データを取得する。ミニバッチサンプリング部２１５が、ミニバッチをサンプリングし、層選択部２１６が、層を選択し、パラメータ決定部２１７が、代替変数Ｓ，＾Ｓ＝１－Ｓを用いてパラメータベクトルを決定し、損失関数計算部２１８が、損失関数を計算する。マスク更新部２１９が、代替変数Ｓの更新を行い、パラメータ更新部２２０が、パラメータの更新を行い、学習部２１４は、所定回の学習を終えた後パラメータベクトル及び代替変数Ｓを出力する。マスク決定部２２１は、代替変数Ｓからマスクベクトルを決定する。

　これにより、学習装置２００は、アンサンブル学習に基づくロバスト化訓練（ＥＲＴ）において、アンサンブル内のニューラルネットワークのパラメータの個数を抑制することができる。したがって、学習装置２００は、メモリ等の記憶容量の抑制することができるため、アンサンブル内のニューラルネットワークの個数を増加させることができる。したがって、学習装置２００は、アンサンブル学習に基づくロバスト化訓練において、ロバスト性を向上させることができる。

　また、学習装置２００は、共有パラメータの位置（マスクベクトル）を学習により決定するため、より共有パラメータの位置や個数を適切に決定できる。また、第２実施形態の学習装置２００は、後に述べる第３実施形態の処理方法より、高速に処理を行うことができる。

　また、共有マスクベクトルは、ニューラルネットワークの一つ分におけるパラメータごとに連続量の値を有する。マスク更新部２１９は、損失関数の値を用いて共有マスクベクトルにおけるパラメータごとの値（共有マスクベクトルの要素の値）を更新する。
　学習装置２００によれば、ニューラルネットワークのパラメータの値に加えて共有パラメータとするパラメータ、ニューラルネットワークの構造における位置も学習することができる。学習装置２００によれば、この点で、より高精度に学習を行えると期待される。

＜第３実施形態＞
　第３実施形態のアンサンブル学習に基づくロバスト化訓練（ＥＲＴ）では、第２実施形態と同様に、アンサンブル内のニューラルネットワーク（ＮＮ）の共有パラメータの位置も学習により決定する。すなわち、第３実施形態のＥＲＴでは、前述の式（２３）の最適化問題を解くことにより、ニューラルネットワークのパラメータ及び共有パラメータの位置の学習を行う。第３実施形態でも、共有パラメータの位置も学習により決定するため、共有パラメータの位置が学習中に変更される。例えば図２で、◎で示した共有パラメータの位置が学習中に変更される。

　上述したように、第３実施形態では、誤差逆伝播法で、共有パラメータベクトル及び非共有パラメータベクトルを更新する際に、更新された代替ベクトルＳから共有マスクベクトルＭを算出（更新）し、算出した共有マスクベクトルを用いてニューラルネットワークのパラメータ値を算出して誤差を算出する。それ以外の点では、第３実施形態は、第２実施形態の場合と同様である。
　第３実施形態の学習装置２００の機能構成の例を示す概略ブロック図は、図６で示した第２実施形態の学習装置２００の機能構成の例を示す概略ブロック図と同様である。

　次に、図８及び図９を参照して、第３実施形態に係る学習装置２００の動作について説明する。図８及び図９は、第３実施形態に係る学習装置２００の処理手順の例を示すフローチャートである。第３実施形態の処理手順では、代替変数Ｓの学習を先に行い、代替変数ＳからマスクベクトルＭ，＾Ｍを決定し、これらを用いてパラメータベクトルθ^ｓ，θ₁ ^ns，…，θ_K ^nsの学習を行う。

　まず、マスク初期化部２１１は、共有マスクベクトルＭに対応する代替変数（代替ベクトル）Ｓを初期化する。（ステップＳ４０１）。マスク初期化部２１１は、例えば、代替変数Ｓをランダムに初期化する。

　次に、パラメータ初期化部２１２は、共有パラメータベクトルθ^ｓと、非共有パラメータベクトルθ₁ ^ns，…，θ_K ^nsを初期化する（ステップＳ４０２）。パラメータ初期化部２１２は、例えば、これらのパラメータベクトルの各要素に乱数を割り振ってランダムに初期化する。

　次に、訓練データ取得部２１３は、訓練データ記憶部２３１に記憶されている訓練データＸ_ｔｒ＝｛（ｘ_ｓ，ｙ_ｓ，ｘ_ｔ，ｙ_ｔ）_ｉ｝（１≦ｉ≦Ｋ）を取得する（ステップＳ４０３）。
　次に、ミニバッチサンプリング部２１５は、訓練データＸ_ｔｒから、１回の学習（ステップＳ４０４～ステップＳ４０８の学習であり、以下、学習Ａと称する。）に用いるミニバッチＢ＝｛（ｘ_ｓ，ｙ_ｓ，ｘ_ｔ，ｙ_ｔ）をサンプリングする（ステップＳ４０４）。
　次に、層選択部２１６は、敵対的摂動Δｆ_θｊ（ｘ_ｓ，ｘ_ｔ，ｌ）の生成に使用するニューラルネットワークの１つの層ｌを選択する（ステップＳ４０５）。

　次に、パラメータ決定部２１７は、共有マスクベクトルの代替変数Ｓと、非共有マスクベクトルの代替変数＾Ｓ＝１－Ｓと、共有パラメータベクトルθ^ｓと、非共有パラメータベクトルθ_j ^ns（１≦ｊ≦Ｋ）とを用いて、各ニューラルネットワークのパラメータベクトルθ_ｊ＝θ^ｓ○Ｓ＋θ_j ^ns○＾Ｓ（１≦ｊ≦Ｋ）を決定（計算）する（ステップＳ４０６）。ここで、○はアダマール積を表す。Ｓは、初期化又は更新されたものである。

　損失関数計算部２１８は、ミニバッチＢ＝｛（ｘ_ｓ，ｙ_ｓ，ｘ_ｔ，ｙ_ｔ）｝を、各ｊ番目のニューラルネットワーク（１≦ｊ≦Ｋ）で情報を伝播させ、式（２８）の損失関数Ｌｏｓｓ＝（１／｜Ｂ｜）×Σ_{（ｘｓ，ｙｓ，ｘｔ，ｙｔ）∈Ｂ}Σ_ｊ≠ｉＣＥｆ_θｉ（ｘ_ｓ＋Δｆ_θｊ（ｘ_ｓ，ｘ_ｔ，ｌ），ｙ_ｓ）を計算する（ステップＳ４０７）。損失関数計算部２１８が行う損失関数Ｌｏｓｓの計算は、パラメータベクトルθ_ｊ（１≦ｊ≦Ｋ）の意味合いが異なる点を除いて、第１実施形態において図５で示した損失関数計算の処理手順と同様である。

　次に、マスク更新部２１９は、誤差情報を逆伝播させて、∂Ｌｏｓｓ／∂Ｓを計算し、Ｓを更新する（ステップＳ４０８）。

　次に、学習部２１４は、学習Ａを所定回行ったか否かを判定する（ステップＳ４０９）。学習Ａを所定回行っていない場合は、学習部２１４は、処理をステップＳ４０４へ戻す。一方、学習Ａを所定回行った場合は、学習部２１４は、処理をステップＳ４１０へ移す。

　次に、マスク決定部２２１は、代替変数Ｓに対して、値の大きい上位ｐ×｜θ｜＝ｍ個の位置を１とし、それ以外の位置を０となるように、マスクベクトルＭを決定する（ステップＳ４１０）。また、マスク決定部２２１は、マスクベクトルＭの各要素の０と１を反転したものを、非共有マスクベクトル＾Ｍとして決定する（ステップＳ４１０）。

　次に、ミニバッチサンプリング部２１５は、訓練データＸ_ｔｒから、１回の学習（ステップＳ４１１～ステップＳ４１６の学習であり、以下、学習Ｂと称する。）に用いるミニバッチＢ＝｛（ｘ_ｓ，ｙ_ｓ，ｘ_ｔ，ｙ_ｔ）をサンプリングする（ステップＳ４１１）。
　次に、層選択部２１６は、敵対的摂動Δｆ_θｊ（ｘ_ｓ，ｘ_ｔ，ｌ）の生成に使用するニューラルネットワークの１つの層ｌを選択する（ステップＳ４１２）。

　次に、パラメータ決定部２１７は、共有マスクベクトルＭと、非共有マスクベクトル＾Ｍと、共有パラメータベクトルθ^ｓと、非共有パラメータベクトルθ_j ^ns（１≦ｊ≦Ｋ）とを用いて、各ニューラルネットワークのパラメータベクトルθ_ｊ＝θ^ｓ○Ｍ＋θ_j ^ns○＾Ｍ（１≦ｊ≦Ｋ）を決定（計算）する（ステップＳ４１３）。ここで、○はアダマール積を表す。θ^ｓ，θ_j ^ns（１≦ｊ≦Ｋ）は、初期化又は更新されたものである。

　損失関数計算部２１８は、ミニバッチＢ＝｛（ｘ_ｓ，ｙ_ｓ，ｘ_ｔ，ｙ_ｔ）｝を、各ｊ番目のニューラルネットワーク（１≦ｊ≦Ｋ）で情報を伝播させ、式（２８）の損失関数Ｌｏｓｓ＝（１／｜Ｂ｜）×Σ_{（ｘｓ，ｙｓ，ｘｔ，ｙｔ）∈Ｂ}Σ_ｊ≠ｉＣＥｆ_θｉ（ｘ_ｓ＋Δｆ_θｊ（ｘ_ｓ，ｘ_ｔ，ｌ），ｙ_ｓ）を計算する（ステップＳ４１４）。損失関数計算部２１８が行う損失関数Ｌｏｓｓの計算は、パラメータベクトルθ_ｊ（１≦ｊ≦Ｋ）の意味合いが異なる点を除いて、第１実施形態において図５で示した損失関数計算の処理手順と同様である。

　次に、パラメータ更新部２２０は、誤差情報を逆伝播させて、∂Ｌｏｓｓ／∂θ^ｓを計算し、θ^ｓを更新する（ステップＳ４１５）。
　また、パラメータ更新部２２０は、誤差情報を逆伝播させて、∂Ｌｏｓｓ／∂θ_j ^nsを計算し、θ_j ^nsを更新する（ｊ＝１，…，Ｋ）（ステップＳ４１６）。

　次に、学習部２１４は、学習Ｂを所定回行ったか否かを判定する（ステップＳ４１７）。学習Ｂを所定回行っていない場合は、学習部２１４は、処理をステップＳ４１１へ戻す。一方、学習Ｂを所定回行った場合は、学習部２１４は、処理をステップＳ４１７へ移す。

　次に、学習部２１４は、さらに学習Ａ及び学習Ｂを所定回行ったか否かを判定する（ステップＳ４１８）。学習Ａ及び学習Ｂを所定回行っていない場合は、学習部２１４は、処理をステップＳ４０４へ戻す。一方、学習Ａ及び学習Ｂを所定回行った場合は、学習部２１４は、処理をステップＳ４１９へ移す。

　次に、学習部２１４（制御部２１０）は、ニューラルネットワークのパラメータベクトルθ^ｓ，θ₁ ^ns，…，θ_K ^nsとマスクベクトルＭを出力する（ステップＳ４１９）。

　以上で、図８及び図９の第３実施形態に係る学習装置２００の処理手順は終了である。
　なお、ステップＳ４１８において、学習Ａ及び学習Ｂの終了条件は、１回の学習でもよい。また、ステップＳ４０９、Ｓ４１７、Ｓ４１８の各学習の終了条件は、学習を所定回数行ったこととしたが、例えば、損失関数の減少幅が所定の閾値より小さいことを学習の終了条件としてもよい。

　以上説明したように、マスク初期化部２１１が、代替変数Ｓを初期化し、パラメータ初期化部２１２が、パラメータベクトルを初期化し、訓練データ取得部２１３が、訓練データを取得する。学習Ａにおいて、ミニバッチサンプリング部２１５が、ミニバッチをサンプリングし、層選択部２１６が、層を選択し、パラメータ決定部２１７が、代替変数Ｓ，＾Ｓ＝１－Ｓを用いてパラメータベクトルを決定し、損失関数計算部２１８が、損失関数を計算し、マスク更新部２１９が、代替変数Ｓの更新を行う。学習部２１４が学習Ａを所定回行ったら、マスク決定部２２１は、代替変数Ｓからマスクベクトルを決定する。さらに、学習Ｂにおいて、ミニバッチサンプリング部２１５が、ミニバッチをサンプリングし、層選択部２１６が、層を選択し、パラメータ決定部２１７が、マスクベクトルＭ，＾Ｍを用いてパラメータベクトルを決定し、損失関数計算部２１８が、損失関数を計算し、パラメータ更新部２２０が、パラメータの更新を行う。学習部２１４が学習Ｂを所定回行ったら、さらに学習部２１４は、学習Ａ及び学習Ｂを所定回行い、その後、パラメータベクトル及びマスクベクトルＭを出力する。

　また、学習装置２００は、共有パラメータの位置（マスクベクトル）を学習により決定するため、より共有パラメータの位置や個数を適切に決定できる。また、第３実施形態の学習装置２００は、前述した第２実施形態の処理方法より、精度のよい学習を行うことができる。

＜第４実施形態＞
　第４実施形態は、第１実施形態乃至第３実施形態の学習装置１００、２００で学習されたニューラルネットワークを用いた判定装置の例を示す。
　図１０は、第４実施形態に係る判定装置３００の機能構成の例を示す概略ブロック図である。判定装置３００は、複数のニューラルネットワーク３０１（ニューラルネットワーク１、・・・、ニューラルネットワークＫ）と、多数決部３０２とを備える。

　ニューラルネットワーク３０１は、第１実施形態乃至第３実施形態の学習装置１００、２００で学習されたニューラルネットワーク１、・・・、ニューラルネットワークＫである。これらのニューラルネットワークｉ（１≦ｉ≦Ｋ）は、パラメータ（パラメータベクトル）が共有されている。各ニューラルネットワークｉは、画像データ等の入力データを入力として入力されると、クラスラベル（クラス値）を出力する。

　多数決部３０２は、複数のニューラルネットワーク３０１からクラスラベル（クラス値）を入力されると、多数決（最多のクラスラベルとする）をとって、その結果のクラスラベルを出力する。なお、多数決部３０２は、複数のニューラルネットワーク３０１の入力に対して重みづけをしてもよい。また、多数決部３０２は、複数のニューラルネットワーク３０１からの入力に対して多数決ではなく、その他の関数により値を計算して結果を出力してもよい。

　第４実施形態によれば、第１実施形態乃至第３実施形態の学習装置１００、２００で学習されたニューラルネットワーク１、・・・、ニューラルネットワークＫが、入力データからクラスラベルを計算し、多数決部３０２が、クラスラベルの多数決をとって結果を出力する。
　これによって、ニューラルネットワークのパラメータ数が抑制された判定（クラス識別）を行うことができる。また、アンサンブル内のニューラルネットワークの個数を増加させることができるため、ロバスト性を向上させることができる。

＜第５実施形態＞
　図１１は、第５実施形態に係る学習装置５００の機能構成の例を示す概略ブロック図である。図１１に示す構成で、学習装置５００は、マスク初期化部５０１と、損失関数計算部５０２と、パラメータ更新部５０３とを備える。

　かかる構成で、マスク初期化部５０１は、複数のパラメータをもつ機械学習モデルのパラメータについて、複数の機械学習モデルに共用として設けられる共有パラメータと、機械学習モデルごとに設けられる非共有パラメータとの区別を示すマスク情報を決定する。損失関数計算部５０２は、前記共有パラメータ、前記非共有パラメータ、および、前記マスク情報にて示されるパラメータ値を適用した複数の前記機械学習モデルに基づく損失関数の、訓練データに対する値を計算する。パラメータ更新部５０３は、損失関数の値を用いて共有パラメータの値と非共有パラメータの値とを更新する。
　マスク初期化部５０１は、マスク初期化手段の例に該当する。損失関数計算部５０２は、損失関数計算手段の例に該当する。パラメータ更新部５０３は、パラメータ更新手段の例に該当する。

　学習装置５００によれば、複数の機械学習モデルを用いる判定装置が記憶すべきパラメータ値の個数を比較的少なくすることができる。
　例えば、学習装置５００は、アンサンブル学習に基づくロバスト化訓練（ＥＲＴ）において、アンサンブル内のニューラルネットワークのパラメータの個数を抑制することができる。したがって、学習装置５００は、メモリ等の記憶容量の抑制することができるため、アンサンブル内のニューラルネットワークの個数を増加させることができる。したがって、学習装置５００は、アンサンブル学習に基づくロバスト化訓練において、ロバスト性を向上させることができる。

＜第６実施形態＞
　図１２は、第６実施形態に係る学習方法の処理手順の例を示すフローチャートである。図１２に示す学習方法は、マスク情報を決定することと（ステップＳ５０１）、損失関数を計算することと（ステップＳ５０２）、共有パラメータと非共有パラメータとを更新することと（ステップＳ５０３）とを含む。

　マスク情報を決定すること（ステップＳ５０１）では、コンピュータが、複数のパラメータをもつ機械学習モデルのパラメータについて、複数の機械学習モデルに共用として設けられる共有パラメータと、機械学習モデルごとに設けられる非共有パラメータとの区別を示すマスク情報を決定する。損失関数を計算すること（ステップＳ５０２）では、コンピュータが、訓練データを用いて、複数の機械学習モデルに基づく損失関数を計算する。共有パラメータと非共有パラメータとを更新すること（ステップＳ５０３）では、コンピュータが、損失関数の値を用いて、誤差逆伝播法により、共有パラメータと非共有パラメータとを更新する。

　図１２に示す学習方法によれば、複数の機械学習モデルを用いる判定装置が記憶すべきパラメータ値の個数を比較的少なくすることができる。
　例えば、図１２に示す学習方法によれば、アンサンブル学習に基づくロバスト化訓練（ＥＲＴ）において、アンサンブル内のニューラルネットワークのパラメータの個数を抑制することができる。したがって、学習方法は、メモリ等の記憶容量の抑制することができるため、アンサンブル内のニューラルネットワークの個数を増加させることができる。したがって、学習方法、アンサンブル学習に基づくロバスト化訓練において、ロバスト性を向上させることができる。

　図１３は、少なくとも１つの実施形態に係るコンピュータの構成を示す概略ブロック図である。
　図１３に示す構成で、コンピュータ４００は、ＣＰＵ（Central Processing Unit）４１０と、主記憶装置４２０と、補助記憶装置４３０と、インタフェース４４０とを備える。
　上記の学習装置１００及び２００のうち何れか１つ以上が、コンピュータ４００に実装されてもよい。その場合、上述した各処理部の動作は、プログラムの形式で補助記憶装置４３０に記憶されている。ＣＰＵ４１０は、プログラムを補助記憶装置４３０から読み出して主記憶装置４２０に展開し、当該プログラムに従って上記処理を実行する。また、ＣＰＵ４１０は、プログラムに従って、上述した各記憶部に対応する記憶領域を主記憶装置４２０に確保する。各装置と他の装置との通信は、インタフェース４４０が通信機能を有し、ＣＰＵ４１０の制御に従って通信を行うことで実行される。

　学習装置１００がコンピュータ４００に実装される場合、マスク初期化部１１１と、パラメータ初期化部１１２と、訓練データ取得部１１３と、学習部１１４の動作、及び、学習部１１４が備えるミニバッチサンプリング部１１５と、層選択部１１６と、パラメータ決定部１１７と、損失関数計算部１１８と、パラメータ更新部１１９の動作は、プログラムの形式で補助記憶装置４３０に記憶されている。ＣＰＵ４１０は、プログラムを補助記憶装置４３０から読み出して主記憶装置４２０に展開し、当該プログラムに従って上記処理を実行する。
　学習装置１００の出力は、インタフェース４４０が通信機能又は表示機能等の出力機能を有し、ＣＰＵ４１０の制御に従って出力処理を行うことで実行される。

　学習装置２００がコンピュータ４００に実装される場合、マスク初期化部２１１と、パラメータ初期化部２１２と、訓練データ取得部２１３と、学習部２１４と、マスク決定部２２１の動作、及び、学習部１１４が備えるミニバッチサンプリング部２１５と、層選択部２１６と、パラメータ決定部２１７と、損失関数計算部２１８と、マスク更新部２１９と、パラメータ更新部１１９の動作は、プログラムの形式で補助記憶装置４３０に記憶されている。ＣＰＵ４１０は、プログラムを補助記憶装置４３０から読み出して主記憶装置４２０に展開し、当該プログラムに従って上記処理を実行する。
　学習装置１００の出力は、インタフェース４４０が通信機能又は表示機能等の出力機能を有し、ＣＰＵ４１０の制御に従って出力処理を行うことで実行される。

　以上、本発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計変更等も含まれる。

　上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。

（付記１）
　複数のパラメータをもつ機械学習モデルの前記パラメータについて、複数の前記機械学習モデルに共用として設けられる共有パラメータと、機械学習モデルごとに設けられる非共有パラメータとの区別を示すマスク情報を決定するマスク初期化手段と、
　前記共有パラメータ、前記非共有パラメータ、および、前記マスク情報にて示されるパラメータ値を適用した複数の前記機械学習モデルに基づく損失関数の、訓練データに対する値を計算する損失関数計算手段と、
　前記損失関数の値を用いて前記共有パラメータの値と前記非共有パラメータの値とを更新するパラメータ更新手段と、
　を備える学習装置。

（付記２）
　前記機械学習モデルの一つ分のパラメータがベクトルに構成されたパラメータベクトルを含み、複数の前記機械学習モデルに共用として設けられるモデルテンプレートの、前記パラメータベクトルの要素のうち、前記マスク情報によって共有パラメータとされる要素には、前記共有パラメータがベクトルに構成され複数の前記機械学習モデルに共用として設けられる共有パラメータベクトルから共有パラメータの値を設定し、前記パラメータベクトルの要素のうち、前記マスク情報によって非共有パラメータとされる要素には、前記非共有パラメータがベクトルに構成され前記機械学習モデルごとに設けられる非共有パラメータベクトルから非共有パラメータの値を設定することで、複数の前記機械学習モデルのうち１つの機械学習モデルを構成するパラメータ決定手段
　を更に備える、付記１に記載の学習装置。

（付記３）
　前記マスク初期化手段は、前記機械学習モデルの一つ分のパラメータのうち共有パラメータをランダムに選択するように、前記マスク情報を決定する
　付記１または付記２に記載の学習装置。

（付記４）
　前記マスク情報は、前記機械学習モデルの一つ分におけるパラメータごとに連続量の値を有し、
　前記損失関数の値を用いて前記マスク情報におけるパラメータごとの値を更新するマスク更新手段をさらに備える
　付記１から３の何れか一つに記載の学習装置。

（付記５）
　所定の条件を満たすまで、前記損失関数計算手段による前記損失関数の計算と、前記パラメータ更新手段による前記共有パラメータ及び非共有パラメータの更新とを繰り返す
　付記１から４の何れか一つに記載の学習装置。

（付記６）
　前記損失関数は、１つの前記機械学習モデルを誤判断させる敵対的摂動を付与された入力データに対して、その他の前記機械学習モデルが誤判断しない場合に、比較的小さい値を出力する関数である
　付記１から５の何れか一つに記載の学習装置。

（付記７）
　前記機械学習モデルは、ニューラルネットワークである
　付記１から６の何れか一つに記載の学習装置。

（付記８）
　付記１から７の何れか一つにおける学習装置で学習済みの複数の前記機械学習モデルと、
　複数の前記機械学習モデルの出力の多数決をとる多数決手段と、
　を備える判定装置。

（付記９）
　コンピュータが、
　複数のパラメータをもつ機械学習モデルの前記パラメータについて、複数の前記機械学習モデルに共用として設けられる共有パラメータと、機械学習モデルごとに設けられる非共有パラメータとの区別を示すマスク情報を決定する工程と、
　前記共有パラメータ、前記非共有パラメータ、および、前記マスク情報にて示されるパラメータ値を適用した複数の前記機械学習モデルに基づく損失関数の、訓練データに対する値を計算する工程と、
　前記損失関数の値を用いて前記共有パラメータの値と前記非共有パラメータの値とを更新する工程と、
　を含む学習方法。

（付記１０）
　コンピュータに、
　複数のパラメータをもつ機械学習モデルの前記パラメータについて、複数の前記機械学習モデルに共用として設けられる共有パラメータと、機械学習モデルごとに設けられる非共有パラメータとの区別を示すマスク情報を決定する工程と、
　前記共有パラメータ、前記非共有パラメータ、および、前記マスク情報にて示されるパラメータ値を適用した複数の前記機械学習モデルに基づく損失関数の、訓練データに対する値を計算する工程と、
　前記損失関数の値を用いて前記共有パラメータの値と前記非共有パラメータの値とを更新する工程と、
　を実行させるためのプログラムを記録した記録媒体。

　本発明の実施形態は、学習装置、判定装置、学習方法および記録媒体に適用してもよい。

　１００、２００　学習装置
　１１０、２１０　制御部
　１１１、２１１　マスク初期化部
　１１２、２１２　パラメータ初期化部
　１１３、２１３　訓練データ取得部
　１１４、２１４　学習部
　１１５、２１５　ミニバッチサンプリング部
　１１６、２１６　層選択部
　１１７、２１７　パラメータ決定部
　１１８、２１８　損失関数計算部
　　　　　２１９　マスク更新部
　１１９、２２０　パラメータ更新部
　　　　　２２１　マスク決定部
　１３０、２３０　記憶部
　１３１、２３１　訓練データ記憶部
　３００　　　　　判定装置
　３０１　　　　　ニューラルネットワーク
　３０２　　　　　多数決部

Claims

　複数のパラメータをもつ機械学習モデルの前記パラメータについて、複数の前記機械学習モデルに共用として設けられる共有パラメータと、機械学習モデルごとに設けられる非共有パラメータとの区別を示すマスク情報を決定するマスク初期化手段と、
　前記共有パラメータ、前記非共有パラメータ、および、前記マスク情報にて示されるパラメータ値を適用した複数の前記機械学習モデルに基づく損失関数の、訓練データに対する値を計算する損失関数計算手段と、
　前記損失関数の値を用いて前記共有パラメータの値と前記非共有パラメータの値とを更新するパラメータ更新手段と、
　を備える学習装置。
　前記機械学習モデルの一つ分のパラメータがベクトルに構成されたパラメータベクトルを含み、複数の前記機械学習モデルに共用として設けられるモデルテンプレートの、前記パラメータベクトルの要素のうち、前記マスク情報によって共有パラメータとされる要素には、前記共有パラメータがベクトルに構成され複数の前記機械学習モデルに共用として設けられる共有パラメータベクトルから共有パラメータの値を設定し、前記パラメータベクトルの要素のうち、前記マスク情報によって非共有パラメータとされる要素には、前記非共有パラメータがベクトルに構成され前記機械学習モデルごとに設けられる非共有パラメータベクトルから非共有パラメータの値を設定することで、複数の前記機械学習モデルのうち１つの機械学習モデルを構成するパラメータ決定手段
　を更に備える、請求項１に記載の学習装置。
　前記マスク初期化手段は、前記機械学習モデルの一つ分のパラメータのうち共有パラメータをランダムに選択するように、前記マスク情報を決定する
　請求項１または請求項２に記載の学習装置。
　前記マスク情報は、前記機械学習モデルの一つ分におけるパラメータごとに連続量の値を有し、
　前記損失関数の値を用いて前記マスク情報におけるパラメータごとの値を更新するマスク更新手段をさらに備える
　請求項１から３の何れか一項に記載の学習装置。
　所定の条件を満たすまで、前記損失関数計算手段による前記損失関数の計算と、前記パラメータ更新手段による前記共有パラメータ及び非共有パラメータの更新とを繰り返す
　請求項１から４の何れか一項に記載の学習装置。
　前記損失関数は、１つの前記機械学習モデルを誤判断させる敵対的摂動を付与された入力データに対して、その他の前記機械学習モデルが誤判断しない場合に、比較的小さい値を出力する関数である
　請求項１から５の何れか一項に記載の学習装置。
　前記機械学習モデルは、ニューラルネットワークである
　請求項１から６の何れか一項に記載の学習装置。
　請求項１から７の何れか一項における学習装置で学習済みの複数の前記機械学習モデルと、
　複数の前記機械学習モデルの出力の多数決をとる多数決手段と、
　を備える判定装置。
　コンピュータが、
　複数のパラメータをもつ機械学習モデルの前記パラメータについて、複数の前記機械学習モデルに共用として設けられる共有パラメータと、機械学習モデルごとに設けられる非共有パラメータとの区別を示すマスク情報を決定する工程と、
　前記共有パラメータ、前記非共有パラメータ、および、前記マスク情報にて示されるパラメータ値を適用した複数の前記機械学習モデルに基づく損失関数の、訓練データに対する値を計算する工程と、
　前記損失関数の値を用いて前記共有パラメータの値と前記非共有パラメータの値とを更新する工程と、
　を含む学習方法。
　コンピュータに、
　複数のパラメータをもつ機械学習モデルの前記パラメータについて、複数の前記機械学習モデルに共用として設けられる共有パラメータと、機械学習モデルごとに設けられる非共有パラメータとの区別を示すマスク情報を決定する工程と、
　前記共有パラメータ、前記非共有パラメータ、および、前記マスク情報にて示されるパラメータ値を適用した複数の前記機械学習モデルに基づく損失関数の、訓練データに対する値を計算する工程と、
　前記損失関数の値を用いて前記共有パラメータの値と前記非共有パラメータの値とを更新する工程と、
　を実行させるためのプログラムを記録した記録媒体。