WO2022249327A1

WO2022249327A1 - 学習装置、学習方法及び学習プログラム

Info

Publication number: WO2022249327A1
Application number: PCT/JP2021/019982
Authority: WO
Inventors: 関利金井; 安俊井田
Original assignee: 日本電信電話株式会社
Priority date: 2021-05-26
Filing date: 2021-05-26
Publication date: 2022-12-01
Also published as: JPWO2022249327A1

Abstract

学習装置は、深層学習モデルに敵対的攻撃として作成されたデータを入力したときの目的関数をＥｎｔｒｏｐｙ－ＳＧＤにより計算する。学習装置は、目的関数が最適化されるように深層学習モデルのパラメータを更新する。

Description

学習装置、学習方法及び学習プログラム

　本発明は、学習装置、学習方法及び学習プログラムに関する。

　従来、深層学習及びディープニューラルネットワークは画像認識や音声認識等で大きな成功を収めている。例えば深層学習を使った画像認識では、画像を深層学習の多数の非線形関数を含んだモデルに入力すると、その画像が何を写しているのかという識別結果を出力する。特に畳み込みネットワークとReLUは画像認識において一般的に使用される。以降の説明では、深層学習によって訓練されるディープニューラルネットワークを、単に深層学習モデル又はモデルと呼ぶ場合がある。

　一方で、悪意ある攻撃者がノイズを入力画像に加えると、小さなノイズで簡単に深層学習モデルを誤識別させることができる（参考文献：Christian　Szegedy,　et　al.　“Intriguing　properties　of　neural　networks.”　arXiv　preprint:　1312.6199,　2013.）。このような攻撃は敵対的攻撃と呼ばれている。

　敵対的攻撃に対して深層学習をロバスト化する方法として、事前に敵対的攻撃を学習する際のデータとして加える敵対的学習が提案されている（例えば、非特許文献１及び２を参照）。

　ここで、敵対的学習において最適化される目的関数（損失関数）は滑らかではないため、通常の勾配を使った学習方法は効率的でない場合がある（例えば、非特許文献３を参照）。

　また、深層学習における目的関数の滑らかさを向上させる方法として、SGLD（参考文献：M.　Welling　and　Y.　W.　Teh.　“Bayesian　learning　via　stochastic　gradient　Langevin　dynamics.”　In　ICML,　2011.）を内部で使用したEntropy-SGDが提案されている（例えば、非特許文献４を参照）。

Goodfellow,　Ian　J.,　Jonathon　Shlens,　and　Christian　Szegedy.　"Explaining　and　harnessing　adversarial　examples."　arXiv　preprint:　1412.6572　2014. Madry　Aleksander,　et　al.　"Towards　deep　learning　models　resistant　to　adversarial　attacks."　arXivpreprint:　1706.06083,　2017. Liu,　Chen,　et　al.　"On　the　Loss　Landscape　of　Adversarial　Training:　Identifying　Challenges　and　How　to　Overcome　Them."　Advances　in　Neural　Information　Processing　Systems　33　(2020). Chaudhari,　Pratik,　et　al.　"Entropy-SGD:　Biasing　Gradient　Descent　into　Wide　Valleys."　arXivpreprint:　1611.01838　(2016).

　しかしながら、従来の技術には、敵対的学習の目的関数を滑らかにしつつ学習効率を向上させることができない場合があるという問題がある。

　例えば、非特許文献に記載のノイズに対してロバストでない場合があるという問題がある。例えば、非特許文献４に記載のEntropy-SGDは目的関数を滑らかにするものであるが、学習効率が十分に高くない場合がある。

　上述した課題を解決し、目的を達成するために、学習装置は、深層学習モデルに敵対的攻撃として作成されたデータを入力したときの目的関数をＥｎｔｒｏｐｙ－ＳＧＤにより計算する計算部と、前記目的関数が最適化されるように前記深層学習モデルのパラメータを更新する更新部と、を有することを特徴とする。

　本発明によれば、深層学習モデルをノイズに対してロバストにすることができる。

図１は、深層学習モデル全体の構造を例示する図である。図２は、第１の実施形態の学習装置の構成例を示す図である。図３は、Ｅｎｔｒｏｐｙ－ＳＧＤのアルゴリズムを説明する図である。図４は、実施形態のアルゴリズムを説明する図である。図５は、実施形態のアルゴリズムを説明する図である。図６は、深層学習の流れを示すフローチャートである。図７は、Ｅｎｔｒｏｐｙ－ＳＧＤを使った学習の流れを示すフローチャートである。図８は、学習における更新処理の流れを示すフローチャートである。図９は、実施形態による更新処理の流れを示すフローチャートである。図１０は、実施形態による更新処理の流れを示すフローチャートである。図１１は、敵対的学習における更新処理の流れを示すフローチャートである。図１２は、敵対的学習における実施形態による更新処理の流れを示すフローチャートである。図１３は、敵対的学習における実施形態による更新処理の流れを示すフローチャートである。図１４は、プログラムを実行するコンピュータの一例を示す図である。

（深層学習）
　まず、図１を用いて深層学習モデルについて説明する。図１は、深層学習モデル全体の構造を例示する図である。なお、以降の説明では深層学習は学習装置１０ａによって実行されるものとする。

　図１に示すように、深層学習モデルは、信号が入る入力層、入力層からの信号を変換する１つ以上の中間層、中間層からの信号を確率等の出力に変換する最終層を有する。

　図６は、深層学習の流れを示すフローチャートである。図６に示すように、まず、学習装置１０ａは、あらかじめ用意されたデータセットからランダムに選択された入力を識別器に印加する（ステップＳ１０１）。

　次に、学習装置１０ａは、識別器の出力を計算し、それとデータセットのラベルを使用して損失関数を計算する（ステップＳ１０２）。そして、学習装置１０ａは、損失関数の勾配を使って識別器のパラメータを更新する（ステップＳ１０３）。なお、損失関数は目的関数の一例である。

　評価基準が満たされない場合（ステップＳ１０４、Ｎｏ）、学習装置１０ａはステップＳ１０１に戻り処理を繰り返す。一方、評価基準が満たされる場合（ステップＳ１０４、Ｙｅｓ）、学習装置１０ａは処理を終了する。

　例えば、学習装置１０ａは、損失関数が小さくなるようにパラメータを更新する。損失関数は通常、識別器の出力とラベルが一致するほど小さくなる関数が設定されるため、学習処理により識別器が入力のラベルを識別できるようになる。

　また、ステップＳ１０４の評価基準は、例えば別途用意したデータセットを正しく識別できるか否か等である。

　以降、図面及び数式等の表記において、大文字の太字は行列を表し、小文字の太字は列ベクトルを表すものとする。また、行ベクトルは転置を使って表現される。

　また、ここでは深層学習による画像認識を例として説明するが、実施形態は画像認識以外の様々な識別タスクに適用できる。

　深層学習による画像認識として、画像ｘ∈Ｒ^{Ｃ×Ｈ×Ｗ}を認識し、Ｍ個のラベルからその画像のラベルｙを求める問題を考える。ただし、Ｃは画像のチャネル（ＲＧＢ形式の場合３チャネル）、Ｈは縦の大きさ、Ｗは横の大きさとする。

　このとき深層学習のモデルは非線形関数と線形演算を繰り返して最終層でｓｏｆｔｍａｘ関数と呼ばれる関数を通して出力を出す。いまモデルで変換されて最終的にｓｏｆｔｍａｘ　に入力されるベクトルをｚ_θ（ｘ）＝［ｚ_θ，１（ｘ），ｚ_θ，２（ｘ），…,ｚ_θ，Ｍ（ｘ）］^Ｔとする。

　ここでθ∈Ｒ^ｄは深層学習のモデルのパラメータベクトルであり、このｚ_θ（ｘ）はｌｏｇｉｔと呼ばれる。ｓｏｆｔｍａｘ　関数をｆ_ｓ（・）とすると、モデルの出力はｓｏｆｔｍａｘの出力ｆ_ｓ（ｚ_θ（ｘ））∈Ｒ^Ｍであり、ｋ番目の出力は（１）式である。

　（１）式の出力はクラス分類において各ラベルに対するスコアを表し、（２）式によって得られるｉが最も大きなスコアを持つ出力の要素が深層学習の認識結果である。

　画像認識はクラス分類の１つであり、分類を行うモデルｆ_ｓ（ｚ_θ（・））を識別器と呼ぶ。パラメータθは事前に用意したＮ個のデータセット｛（ｘ_ｉ，ｙ_ｉ）｝、ｉ＝１，…,Ｎから学習する。この学習ではクロスエントロピー等のｙ_ｉ＝ａｒｇｍａｘ_ｋ［ｆ_ｓ（ｚ_θ（ｘ））］_ｋと正しく認識できるほど小さな値となるような損失関数ｌ（ｘ，ｙ，θ）を設定し、そのデータでの平均に対して（３）式のように最適化を行ってθを求める。

　学習は損失関数の勾配に基づく最適化によって行い、（４）式の計算を繰り返し行うことによってθを求める。

　ここでηは学習率と呼ばれるパラメータである。勾配を使った最適化においてより効率的に最適化を行う方法としてニュートン法と呼ばれる方法があり、（５）式の最適化を行う。

　さらに、モデルを頑健にするための敵対的学習では、（６）式の最適化によりθが求められる。

　ここで、Ｂ（ｘ_ｉ）はｘ_ｉを中心とした距離εの領域であり、最大化して得られるｘ´_ｉは敵対的攻撃と呼ばれる。

（Ｅｎｔｒｏｐｙ－ＳＧＤ）
　深層学習において滑らかさを改善する方法としてＥｎｔｒｏｐｙ－ＳＧＤがある。元々の損失関数Ｌ（ｘ，ｙ，θ）に対して、Ｅｎｔｒｏｐｙ－ＳＧＤは（７）式の損失関数を最小化する。

　（７）式は、（８）式に示す確率密度関数ｐ_θ（θ′）の局所エントロピーである。

　（７）式の損失関数の勾配は、（９）式により表される。

　ここでＥｐ_{θ（θ′）}［θ′］は、確率密度関数ｐ_θ（θ′）の期待値である。

　ここで説明したＥｎｔｒｏｐｙ－ＳＧＤのアルゴリズムを図３に示す。図３は、Ｅｎｔｒｏｐｙ－ＳＧＤのアルゴリズムを説明する図である。

　また、図７は、Ｅｎｔｒｏｐｙ－ＳＧＤを使った学習の流れを示すフローチャートである。

　図７に示すように、まず、学習装置１０ａは、パラメータを初期化する（ステップＳ２０１）。次に、学習装置１０ａは、Ｅｎｔｒｏｐｙ－ＳＧＤを使ったパラメータの更新を行う（ステップＳ２０２）。

　評価基準が満たされない場合（ステップＳ２０３、Ｎｏ）、学習装置１０ａはステップＳ２０２に戻り処理を繰り返す。一方、評価基準が満たされる場合（ステップＳ２０３、Ｙｅｓ）、学習装置１０ａは処理を終了する。

　ここで、図３の３行目から８行目では、Stochastic　Gradient　Langevin　Dynamics（ＳＧＬＤ）と呼ばれる方法でＥ_ｐθ（θ′）［θ′］を近似的に求めている。

　図８は、学習における更新処理の流れを示すフローチャートである。図８の破線で囲まれた部分は、図３の３行目から８行目、すなわちＳＧＬＤによるθ′の期待値を計算する処理に相当する。

　図８に示すように、まず、学習装置１０ａはｌを１だけ増加させる（ステップＳ３０１）。そして、学習装置１０ａは、データセットからランダムに選択された入力を識別器に印加する（ステップＳ３０２）。

　ここで、学習装置１０ａは、勾配を計算してｐ_{θ（θ′）}に従うθ′のサンプリング及びこれを使ったθ′の平均を更新する（ステップＳ３０３）。

　ここで、ｌがＬ以下である場合（ステップＳ３０４、Ｙｅｓ）、学習装置１０ａはステップＳ３０１に戻り処理を繰り返す。一方、ｌがＬ以下でない場合（ステップＳ３０４、Ｎｏ）、学習装置１０ａはモデルパラメータを更新する（ステップＳ３０５）。

［実施形態の学習装置］
　図２を用いて、第１の実施形態に係る学習装置の構成について説明する。図２は、第１の実施形態の学習装置の構成例を示す図である。学習装置１０は、学習用データセットの入力を受け付け、モデルの学習を行い、学習済みモデルを出力する。

　学習装置１０の各部について説明する。図２に示すように、学習装置１０は、インタフェース部１１、記憶部１２及び制御部１３を有する。

　インタフェース部１１は、データの入力及び出力のためのインタフェースである。例えば、インタフェース部１１はＮＩＣ（Network　Interface　Card）を含む。また、インタフェース部１１は、マウスやキーボード等の入力装置、及びディスプレイ等の出力装置を含んでいてもよい。

　記憶部１２は、ＨＤＤ（Hard　Disk　Drive）、ＳＳＤ（Solid　State　Drive）、光ディスク等の記憶装置である。なお、記憶部１２は、ＲＡＭ（Random　Access　Memory）、フラッシュメモリ、ＮＶＳＲＡＭ（Non　Volatile　Static　Random　Access　Memory）等のデータを書き換え可能な半導体メモリであってもよい。記憶部１２は、学習装置１０で実行されるＯＳ（Operating　System）や各種プログラムを記憶する。また、記憶部１２は、モデル情報１２１を記憶する。

　モデル情報１２１は、深層学習モデル（識別器）を構築するためのパラメータ等の情報である。例えば、モデル情報１２１は、ディープニューラルネットワークの各層の重み及びバイアス等を含む。また、モデル情報１２１によって構築される深層学習モデルは、学習済みのものであってもよいし、学習前のものであってもよい。

　制御部１３は、学習装置１０全体を制御する。制御部１３は、例えば、ＣＰＵ（Central　Processing　Unit）、ＭＰＵ（Micro　Processing　Unit）等の電子回路や、ＡＳＩＣ（Application　Specific　Integrated　Circuit）、ＦＰＧＡ（Field　Programmable　Gate　Array）等の集積回路である。また、制御部１３は、各種の処理手順を規定したプログラムや制御データを格納するための内部メモリを有し、内部メモリを用いて各処理を実行する。また、制御部１３は、各種のプログラムが動作することにより各種の処理部として機能する。例えば、制御部１３は、計算部１３１及び更新部１３２を有する。

　ここで、前述の通り、深層学習の損失関数Ｌ（ｘ，ｙ，θ）は敵対的学習等を行う場合、滑らかでない関数となる。その場合は勾配に基づく最適化は効率的ではない。

　そこで、敵対的学習の目的関数を滑らかにしつつ学習効率を向上させるために、学習装置１０は以下のような構成を有する。すなわち、計算部１３１は、深層学習モデルに敵対的攻撃として作成されたデータを入力したときの目的関数をＥｎｔｒｏｐｙ－ＳＧＤにより計算する。また、更新部１３２は、目的関数が最適化されるように深層学習モデルのパラメータを更新する。

　学習装置１０は、以下の実施例１、又は実施例１をさらに効率化した実施例２により学習を行うことができる。

（実施例１）
　学習装置１０は、Ｅｎｔｒｏｐｙ－ＳＧＤにおいてヘッセ行列が分散共分散行列になることを用いて、ＳＧＬＤによって当該分散共分散行列を推定し、ニュートン法のようにヘッセ行列の逆行列を掛けることで効率化する。

　学習装置１０は、Ｅｎｔｒｏｐｙ－ＳＧＤのヘッセ行列を計算する。ヘッセ行列の（ｉ，ｊ）成分は（１０）式のようになる。

　（１０）式の成分を含む行列は（１１）式である。

　ここでδ_ｉ，ｊは、ｉ＝ｊのときに１、他は０となるデルタ関数であり、Ｉは単位行列である。Σ_θ′は確率密度関数ｐ_θ（θ′）の分散共分散行列である。

　この分散共分散行列を正確に求めるのは困難である。そこで、学習装置１０は、期待値と同様にＳＧＬＤを使って図４の疑似コードが示すアルゴリズムによって、分散共分散行列を近似する。図４は、実施形態のアルゴリズムを説明する図である。

　学習装置１０は、図４の１３行目から１７行目でＥ_ｐθ［θ_ｉ′θ_ｊ′］を近似計算し、１９行目から２２行目でＥ_ｐθ［θ_ｉ′θ_ｊ′］－Ｅ_ｐθ［θ_ｉ′］Ｅ_ｐθ［θ_ｊ′］を近似計算し、２４行目でヘッセ行列の逆行列を計算して勾配に掛けている。これによってニュートン法と同様に高速化が期待できる。

　また、この場合の更新処理の流れを図９に示す。図９は、実施形態による更新処理の流れを示すフローチャートである。図９の処理は図４のアルゴリズムに対応する。

　図９に示すように、まず、学習装置１０はｌを１だけ増加させる（ステップＳ４０１）。そして、学習装置１０は、データセットからランダムに選択された入力を識別器に印加する（ステップＳ４０２）。

　ここで、学習装置１０は、勾配を計算してｐ_{θ（θ′）}に従うθ′のサンプリング及びこれを使ったθ′の平均を更新する（ステップＳ４０３）。

　さらに、学習装置１０は、θ′を使って分散共分散行列を更新する（ステップＳ４０４）。

　ここで、ｌがＬ以下である場合（ステップＳ４０５、Ｙｅｓ）、学習装置１０はステップＳ４０１に戻り処理を繰り返す。

　一方、ｌがＬ以下でない場合（ステップＳ４０５、Ｎｏ）、学習装置１０は、単位行列と、推定（更新）された分散共分散からなる行列の逆行列を計算する（ステップＳ４０６）。そして、学習装置１０は計算した逆行列を用いてモデルパラメータを更新する（ステップＳ４０７）。

　実施例１では、計算部１３１は、Ｅｎｔｒｏｐｙ－ＳＧＤの中で用いられる確率分布にしたがったパラメータの分散共分散行列である第１の行列をＳＧＬＤ（Stochastic　Gradient　Langevin　Dynamics）により計算する。更新部１３２は、第１の行列を用いて深層学習モデルのパラメータを更新する。

　また、更新部１３２は、ヘッセ行列である第１の行列の逆行列を勾配に掛けて深層学習モデルのパラメータを更新する。

（実施例２）
　逆行列を計算するにはＯ（ｄ^３）の計算コストがかかるため、より効率的な方法として共分散を０と仮定してΣが各パラメータの分散からなる対角行列であると仮定する。すると、ヘッセ行列の逆行列は対角行列でその（ｉ，ｉ）成分は（１２）式となる。

　この場合、学習装置１０は、分散の逆数を各パラメータに掛けるだけで済む。学習装置１０は、図５の疑似コードが示すアルゴリズムによって、共分散が０の分散共分散行列（分散行列）を近似する。図５は、実施形態のアルゴリズムを説明する図である。

　学習装置１０は、図５の１１行目から１３行目でＥ_ｐθ［θ_ｉ′θ_ｊ′］を近似計算し、１５行目から１７行目でＥ_ｐθ［θ_ｉ′θ_ｊ′］－Ｅ_ｐθ［θ_ｉ′］Ｅ_ｐθ［θ_ｊ′］を近似計算し、１８行目でヘッセ行列の逆行列を計算して勾配に掛けている。

　また、この場合の更新処理の流れを図１０に示す。図１０は、実施形態による更新処理の流れを示すフローチャートである。図１０の処理は図５のアルゴリズムに対応する。

　図１０に示すように、まず、学習装置１０はｌを１だけ増加させる（ステップＳ５０１）。そして、学習装置１０は、データセットからランダムに選択された入力を識別器に印加する（ステップＳ５０２）。

　ここで、学習装置１０は、勾配を計算してｐ_{θ（θ′）}に従うθ′のサンプリング及びこれを使ったθ′の平均を更新する（ステップＳ５０３）。

　さらに、学習装置１０は、θ′を使って分散を更新する（ステップＳ５０４）。

　ここで、ｌがＬ以下である場合（ステップＳ５０５、Ｙｅｓ）、学習装置１０はステップＳ５０１に戻り処理を繰り返す。

　一方、ｌがＬ以下でない場合（ステップＳ５０５、Ｎｏ）、学習装置１０は、単位行列と、推定（更新）された分散からなるベクトルを計算する（ステップＳ５０６）。そして、学習装置１０は計算したベクトルを用いてモデルパラメータを更新する（ステップＳ５０７）。

　実施例２では、計算部１３１は、Ｅｎｔｒｏｐｙ－ＳＧＤの中で用いられる確率分布にしたがったパラメータのＳＧＬＤ（Stochastic　Gradient　Langevin　Dynamics）により計算される分散共分散行列の共分散を０と仮定した第１の行列を計算する。更新部１３２は、第１の行列を用いて深層学習モデルのパラメータを更新する。

　これまで説明したＥｎｔｒｏｐｙ－ＳＧＤ、実施例１及び実施例２は、敵対的学習に適用可能である。特に実施例１及び実施例２を敵対的学習に適用することで、敵対的学習の目的関数を滑らかにしつつ学習効率を向上させるという効果が生じる。

　図１１、図１２及び図１３は、それぞれＥｎｔｒｏｐｙ－ＳＧＤ、実施例１及び実施例２を敵対的学習に適用した場合の処理を示している。これらの処理においては、データセットからランダムに選択した入力を基に、敵対的攻撃が作成される。

　図１１は、敵対的学習における更新処理の流れを示すフローチャートである。図１１に示すように、まず、学習装置１０ａはｌを１だけ増加させる（ステップＳ６０１）。そして、学習装置１０ａは、データセットからランダムに入力を選択する（ステップＳ６０２）。

　ここで、学習装置１０ａは、選択した入力から敵対的攻撃を作成する（ステップＳ６０３）。そして、学習装置１０ａは、作成した敵対的攻撃を識別器に入力（印加）する（ステップＳ６０４）。

　ここで、学習装置１０ａは、勾配を計算してｐ_{θ（θ′）}に従うθ′のサンプリング及びこれを使ったθ′の平均を更新する（ステップＳ６０５）。

　ここで、ｌがＬ以下である場合（ステップＳ６０６、Ｙｅｓ）、学習装置１０ａはステップＳ６０１に戻り処理を繰り返す。一方、ｌがＬ以下でない場合（ステップＳ６０６、Ｎｏ）、学習装置１０ａはモデルパラメータを更新する（ステップＳ６０７）。

　図１２は、敵対的学習における実施形態による更新処理の流れを示すフローチャートである。図１２に示すように、まず、学習装置１０はｌを１だけ増加させる（ステップＳ７０１）。そして、学習装置１０は、データセットからランダムに入力を選択する（ステップＳ７０２）。

　ここで、学習装置１０は、選択した入力から敵対的攻撃を作成する（ステップＳ７０３）。そして、学習装置１０は、作成した敵対的攻撃を識別器に入力（印加）する（ステップＳ７０４）。

　ここで、学習装置１０は、勾配を計算してｐ_{θ（θ′）}に従うθ′のサンプリング及びこれを使ったθ′の平均を更新する（ステップＳ７０５）。

　さらに、学習装置１０は、θ′を使って分散共分散行列を更新する（ステップＳ７０６）。

　ここで、ｌがＬ以下である場合（ステップＳ７０７、Ｙｅｓ）、学習装置１０はステップＳ７０１に戻り処理を繰り返す。

　一方、ｌがＬ以下でない場合（ステップＳ７０７、Ｎｏ）、学習装置１０は、単位行列と、推定（更新）された分散共分散からなる行列の逆行列を計算する（ステップＳ７０８）。そして、学習装置１０は計算した逆行列を用いてモデルパラメータを更新する（ステップＳ７０９）。

　図１３は、敵対的学習における実施形態による更新処理の流れを示すフローチャートである。図１３に示すように、まず、学習装置１０はｌを１だけ増加させる（ステップＳ８０１）。そして、学習装置１０は、データセットからランダムに入力を選択する（ステップＳ８０２）。

　ここで、学習装置１０は、選択した入力から敵対的攻撃を作成する（ステップＳ８０３）。そして、学習装置１０は、作成した敵対的攻撃を識別器に入力（印加）する（ステップＳ８０４）。

　ここで、学習装置１０は、勾配を計算してｐ_{θ（θ′）}に従うθ′のサンプリング及びこれを使ったθ′の平均を更新する（ステップＳ８０５）。

　さらに、学習装置１０は、θ′を使って分散を更新する（ステップＳ８０６）。

　ここで、ｌがＬ以下である場合（ステップＳ８０７、Ｙｅｓ）、学習装置１０はステップＳ８０１に戻り処理を繰り返す。

　一方、ｌがＬ以下でない場合（ステップＳ８０７、Ｎｏ）、学習装置１０は、単位行列と、推定（更新）された分散からなるベクトルを計算する（ステップＳ８０８）。そして、学習装置１０は計算したベクトルを用いてモデルパラメータを更新する（ステップＳ８０９）。

［第１の実施形態の効果］
　これまで説明してきたように、計算部１３１は、深層学習モデルに敵対的攻撃として作成されたデータを入力したときの目的関数をＥｎｔｒｏｐｙ－ＳＧＤにより計算する。更新部１３２は、目的関数が最適化されるように深層学習モデルのパラメータを更新する。これにより、学習装置１０は、敵対的学習の目的関数を滑らかにしつつ学習効率を向上させることができる。

　また、計算部１３１は、Ｅｎｔｒｏｐｙ－ＳＧＤの中で用いられる確率分布にしたがったパラメータの分散共分散行列である第１の行列をＳＧＬＤ（Stochastic　Gradient　Langevin　Dynamics）により計算する。更新部１３２は、第１の行列を用いて深層学習モデルのパラメータを更新する。これにより、学習装置１０は、敵対的学習の学習効率を向上させることができる。

　計算部１３１は、Ｅｎｔｒｏｐｙ－ＳＧＤの中で用いられる確率分布にしたがったパラメータのＳＧＬＤ（Stochastic　Gradient　Langevin　Dynamics）により計算される分散共分散行列の共分散を０と仮定した第１の行列を計算する。更新部１３２は、第１の行列を用いて深層学習モデルのパラメータを更新する。これにより、学習装置１０は、敵対的学習の学習効率をさらに向上させることができる。

　更新部１３２は、ヘッセ行列である第１の行列の逆行列を勾配に掛けて深層学習モデルのパラメータを更新する。これにより、学習装置１０は勾配を滑らかにすることができる。

［システム構成等］
　また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散及び統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散又は統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、ＣＰＵ（Central　Processing　Unit）及び当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

　また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

［プログラム］
　一実施形態として、学習装置１０は、パッケージソフトウェアやオンラインソフトウェアとして上記の学習処理を実行するプログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記のプログラムを情報処理装置に実行させることにより、情報処理装置を学習装置１０として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やＰＨＳ（Personal　Handyphone　System）等の移動体通信端末、さらには、ＰＤＡ（Personal　Digital　Assistant）等のスレート端末等がその範疇に含まれる。

　また、学習装置１０は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の処理に関するサービスを提供するサーバ装置として実装することもできる。例えば、サーバ装置は、データセットを入力とし、学習済みの深層学習モデルを出力とするサービスを提供するサーバ装置として実装される。この場合、サーバ装置は、Ｗｅｂサーバとして実装することとしてもよいし、アウトソーシングによって上記の処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。

　図１４は、プログラムを実行するコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

　メモリ１０１０は、ＲＯＭ（Read　Only　Memory）１０１１及びＲＡＭ（Random　Access　Memory）１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

　ハードディスクドライブ１０９０は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、学習装置１０の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、学習装置１０における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、ＳＳＤ（Solid　State　Drive）により代替されてもよい。

　また、上述した実施形態の処理で用いられる設定データは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０は、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して、上述した実施形態の処理を実行する。

　なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク（ＬＡＮ（Local　Area　Network）、ＷＡＮ（Wide　Area　Network）等）を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

　１０　学習装置
　１１　インタフェース部
　１２　記憶部
　１３　制御部
　１２１　モデル情報
　１３１　計算部
　１３２　更新部

Claims

　深層学習モデルに敵対的攻撃として作成されたデータを入力したときの目的関数をＥｎｔｒｏｐｙ－ＳＧＤにより計算する計算部と、
　前記目的関数が最適化されるように前記深層学習モデルのパラメータを更新する更新部と、
　を有することを特徴とする学習装置。
　前記計算部は、Ｅｎｔｒｏｐｙ－ＳＧＤの中で用いられる確率分布にしたがったパラメータの分散共分散行列である第１の行列をＳＧＬＤ（Stochastic　Gradient　Langevin　Dynamics）により計算し、
　前記更新部は、前記第１の行列を用いて前記深層学習モデルのパラメータを更新することを特徴とする請求項１に記載の学習装置。
　前記計算部は、Ｅｎｔｒｏｐｙ－ＳＧＤの中で用いられる確率分布にしたがったパラメータのＳＧＬＤ（Stochastic　Gradient　Langevin　Dynamics）により計算される分散共分散行列の共分散を０と仮定した第１の行列を計算し、
　前記更新部は、前記第１の行列を用いて前記深層学習モデルのパラメータを更新することを特徴とする請求項１に記載の学習装置。
　前記更新部は、ヘッセ行列である前記第１の行列の逆行列を勾配に掛けて前記深層学習モデルのパラメータを更新することを特徴とする請求項２又は３に記載の学習装置。
　学習装置によって実行される学習方法であって、
　深層学習モデルに敵対的攻撃として作成されたデータを入力したときの目的関数をＥｎｔｒｏｐｙ－ＳＧＤにより計算する計算工程と、
　前記目的関数が最適化されるように前記深層学習モデルのパラメータを更新する更新工程と、
　を含むことを特徴とする学習方法。
　コンピュータを、請求項１から４のいずれか一項に記載の学習装置として機能させるための学習プログラム。