WO2020235011A1

WO2020235011A1 - 学習装置、学習方法及び学習プログラム

Info

Publication number: WO2020235011A1
Application number: PCT/JP2019/020160
Authority: WO
Inventors: 関利金井
Original assignee: 日本電信電話株式会社
Priority date: 2019-05-21
Filing date: 2019-05-21
Publication date: 2020-11-26

Abstract

学習装置（１０）は、学習用データと畳み込みニューラルネットワークを適用したモデル（１１１）の出力との関係を評価する損失関数と、畳み込みニューラルネットワークの畳み込み層のフィルタの要素の和の絶対値との和である目的関数を最小化するようにモデルのパラメータを更新する学習部（１２）を有する。

Description

学習装置、学習方法及び学習プログラム

　本発明は、学習装置、学習方法及び学習プログラムに関する。

　深層学習、ディープニューラルネットワークは、画像認識や音声認識などで大きな成功を収めている（例えば、非特許文献１参照）。例えば、深層学習を使った画像認識では、深層学習の多数の非線形関数を含んだモデルに画像を入力すると、その画像が何を写しているのかという分類結果を出力する。特に、畳み込みニューラルネットワークとＲｅＬＵ（Rectified　Linear　Unit）とは、画像認識において頻繁に使用される技術である。

　しかしながら、悪意ある攻撃者が、モデルに最適なノイズを入力画像に加えると、小さなノイズで簡単に深層学習を誤分類させることができる（例えば、非特許文献２参照）。これは、敵対的攻撃と呼ばれており、ＦＧＳＭ（Fast　Gradient　Sign　Method）やＰＧＤ（Projected　Gradient　Descent）などの攻撃方法が報告されている（例えば、非特許文献３，４参照）。畳み込みニューラルネットワークに対しては、フーリエ基底からなるノイズによって、モデルの情報なしに攻撃する方法が報告されている（例えば、非特許文献６参照）。

Ian　Goodfellow,　Yoshua　Bengio,　and　Aaron　Courville,　"Deep　Learning",　MIT　press,　2016. Christian　Szegedy,　et　al,　"Intriguing　properties　of　neural　networks",　arXiv　preprint:　1312.　6199,　2013. Ian　J.　Goodfellow,　et　al.,　"EXPLAINING　AND　HARNESSING　ADVERSARIAL　EXAMPLES",　arXiv　preprint:　1412.6572,　2014. Aleksander　Madry,　et　al.,　"Towards　Deep　Learning　Models　Resistant　to　Adversarial　Attacks",　arXiv　preprint:　1706.06083,　2017. Dimitris　Tsipras,　et　al.,　"Robustness　May　Be　at　Odds　with　Accuracy",　arXiv　preprint:　1805.12152,　2018. Yusuke　Tsuzuku,　and　Issei　Sato，　"On　the　Structural　Sensitivity　of　Deep　Convolutional　Networks　to　the　Directions　of　Fourier　Basis　Functions",　arXiv　preprint　arXiv:1809.04098　(2018).

　このように、畳み込みニューラルネットワークを適用したモデルが敵対的攻撃に脆弱であり、誤分類してしまうという問題があった。

　本発明は、上記に鑑みてなされたものであって、敵対的攻撃にロバストなモデルを実現する学習装置、学習方法及び学習プログラムを提供することを目的とする。

　上述した課題を解決し、目的を達成するために、本発明に係る学習装置は、学習用データと畳み込みニューラルネットワークを適用したモデルの出力との関係を評価する損失関数と、畳み込みニューラルネットワークの畳み込み層のフィルタの要素の和の絶対値との和である目的関数を最小化するようにモデルのパラメータを更新する学習部を有することを特徴とする。

　本発明によれば、敵対的攻撃にロバストなモデルを実現することができる。

図１は、深層学習モデルを説明する図である。図２は、従来の分類器の学習処理の処理手順を示すフローチャートである。図３は、実施の形態に係る学習装置の構成の一例を示すブロック図である。図４は、実施の形態における学習処理の処理手順を示すフローチャートである。図５は、プログラムが実行されることにより、学習装置が実現されるコンピュータの一例を示す図である。

　以下、図面を参照して、本発明の一実施の形態を詳細に説明する。なお、この実施の形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。

　なお、以下では、例えばＡがベクトルである場合には“ベクトルＡ”と表記し、例えばＡが行列である場合には“行列Ａ”と表記し、例えばＡがスカラーである場合には単に“Ａ”と表記する。また、例えばベクトルＡの関数ｆは、ｆ（ベクトルＡ）と表記する。また、ベクトル、行列又はスカラーであるＡに対し、“－Ａ”と記載する場合は「“Ａ”の直上に“－”が記された記号」と同等であるとする。また、ベクトル又は行列であるＡに対し、Ａ^ＴはＡの転置を表す。

［深層学習モデル］
　まず、深層学習モデルについて説明する。図１は、深層学習モデルを説明する図である。図１に示すように、深層学習のモデルは信号の入る入力層、入力層からの信号を様々に変換する１層または複数の中間層、及び、中間層の信号を確率などの出力に変換する出力層からなる。

　入力層には入力データが入力される。また、出力層からは各クラスの確率が出力される。例えば、入力データは、所定の形式で表現された画像データである。また、例えば、クラスが車、船、犬、猫についてそれぞれ設定されている場合、出力層からは、入力データの元になった画像に写っているものが車である確率、船である確率、犬である確率及び猫である確率がそれぞれ出力される。

［従来の分類器の学習方法］
　深層学習モデルを有する分類器（分類部）の従来の学習について説明する。図２は、従来の分類器の学習処理の処理手順を示すフローチャートである。

　図２に示すように、従来の学習処理では、予め用意したデータセットからランダムに入力とラベルとを選択し、分類部に入力を印加する（ステップＳ１）。そして、従来の学習処理では、分類部の出力を計算し、その出力とデータセットのラベルとを使用して損失関数を計算する（ステップＳ２）。

　従来の学習処理では、計算される損失関数が小さくなるように学習し、損失関数の勾配を使って分類部のパラメータを更新する（ステップＳ３）。損失関数は、通常、分類部の出力とラベルとが一致するほど小さくなる関数を設定するため、これにより分類部が入力のラベルを分類できるようになる。

　そして、従来の学習処理では、別途用意したデータセットを正しく分類できるかどうかなどを評価基準とする。従来の学習処理では、評価基準を満たさない場合には（ステップＳ４：Ｎｏ）、ステップＳ１に戻り学習を継続し、評価基準を満たす場合には（ステップＳ４：Ｙｅｓ）、学習を終了する。

［深層学習による画像認識］
　分類処理の一例として、深層学習による画像認識処理について説明する。ここで、深層学習において、画像ｘ∈Ｒ^{Ｃ×Ｈ×Ｗ}を認識し、Ｍ個のラベルから、その画像のラベルｙを求める問題を考える。ここで、ｘは三次元の配列で表され、Ｒは行列で表される。Ｃは画像のチャネル（ＲＧＢ式の場合は３チャネル）、Ｈは縦の大きさ、Ｗは横の大きさとする。

　このとき、深層学習のモデルの出力ｆ（ｘ，θ）∈Ｒ^Ｍは、各ラベルに対するスコアを表し、式（１）によって得られる最も大きなスコアを持つ出力の要素が、深層学習の認識結果である。ここで、ｆ，θは、列ベクトルで表される。

　画像認識は、クラス分類の一つであり、分類を行うｆを分類器と呼ぶ。ここで、θは、深層学習のモデルのパラメータであり、このパラメータは、事前に用意したＮ個のデータセット｛（ｘ_ｉ，ｙ_ｉ）｝，ｉ＝１，・・・，Ｎから学習する。この学習では、クロスエントロピーなどの、ｙ_ｉ＝ｍａｘ_ｊｆ_ｊ（ｘ）と正しく認識できるほど小さな値となるような損失関数Ｌ（ｘ，ｙ，θ）を設定し、式（２）に示す最適化を行ってθを求める。

　最適化では、データから（ｘ_ｉ，ｙ_ｉ）をサンプリングしながら、損失関数の勾配δＬ（ｘ_ｉ，ｙ_ｉ，θ）／δθを計算し、式（３）の計算を繰り返して行う。ここで、ηは、学習率と呼ばれるパラメータである。

［敵対的攻撃］
　深層学習の認識は脆弱性を持っており、敵対的攻撃によって誤認識させることができる。敵対的攻撃は、式（４）に示す最適化問題で定式化される。

　||・||_ｐはｌ_ｐノルムであり、ｐとしてｐ＝２やｐ＝∞が主に用いられる。これは誤って認識する最もノルムの小さなノイズを求めるという問題であり、ＦＧＳＭやＰＧＤなどのモデルの勾配を使った攻撃方法が提案されている。

［畳み込み層と巡回行列、ＲｅＬＵ］
　行列Ｘ∈Ｒ^ｎ×ｎを畳み込み層への一つのチャンネルの入力とし、行列Ｙ∈Ｒ^ｎ×ｎを出力とする。また、行列Ｋ∈Ｒ^ｎ×ｎを畳み込み層のフィルタ行列とする。なお、行列Ｋのサイズがｈ×ｈである場合は、適当に０をパディングしてｎ×ｎ行列とする。ここで、行列Ｋ＝［ｋ_０ ^Ｔ，ｋ_１ ^Ｔ，・・・，ｋ_ｎ－１ ^Ｔ］^Ｔであり、列ベクトルｋ_ｉ＝［ｋ_ｉ，０，ｋ_ｉ，１，・・・，ｋ_{ｉ，ｎ－１}］^Ｔ∈Ｒ^ｎとする。畳み込み層のフィルタＫによる計算は、行列演算を用いて、式（５）として計算できる。

　ここで、列ベクトルｘ＝ｖｅｃ（Ｘ）と、列ベクトルｙ＝ｖｅｃ（Ｙ）は、行列ＸとＹとをベクトルとなるように並び替えたものとする。行列Ａは、式（６）という二重の巡回行列である。

　式（６）におけるｃｉｒｃ（ｋ_ｉ）は、式（７）に示す巡回行列である。

　画像認識では、ＲｅＬＵという関数がよく用いられる。ＲｅＬＵは、ＲｅＬＵ（ｘ）＝ｍａｘ（０，ｘ）という関数であり、出力は、必ず０以上となる。

［モデルの学習］
　本実施の形態では、前述の畳み込み層を行列とみなし、かつ、畳み込み層の入力がＲｅＬＵを通した後で０以上であるということを利用し、この畳み込み層の行列に制約をかけてモデルを学習させる。

　具体的には、本実施の形態では、畳み込み層の入力が０以上ということを利用し、式（８）に示す最適化を考えると、式（８）は、入力に正の値をもつ１というノイズが加わった際の畳み込み層の出力の変化量を測る指標とすることができる。

　このため、式（８）の大きさを制約すれば、畳み込み層の入力ノイズの影響を抑えられると考えられる。そこで、本実施の形態では、学習時の目的関数を、式（９）に示す関数とする。

　ここで、θは、モデルの持つ全パラメータである。行列Ｋ^（ｉ）は、モデルのｉ番目の畳み込み層のフィルタである。行列Ｋ^（ｉ）は、θに含まれる。λは、式（９）の第一項と第二項との重みを調整するパラメータである。式（９）の第一項は、学習用データとモデルの出力との関係を評価する損失関数である。式（９）の第二項は、畳み込みニューラルネットワークの畳み込み層のフィルタの要素の和の絶対値である。このため、式（９）は、学習用データとモデルの出力との関係を評価する損失関数と、畳み込みニューラルネットワークの畳み込み層のフィルタの要素の和の絶対値との和を示す式である。

　次に、式（９）の解法について説明する。本実施の形態では、式（９）の解法として、近接勾配法を用いる。ここで、簡単のため、－ｋを、－ｋ＝［ｋ_０ ^Ｔ，ｋ_１ ^Ｔ，・・・，ｋ_ｎ－１ ^Ｔ］^Ｔとする。本実施の形態では、モデルに対する学習処理として、通常通り式（３）でパラメータθを更新したあと、式（１０）に示す計算を行う。

　実施の形態では、この式（１０）に示す計算の後に、再び式（３）の計算と、式（１０）の計算とを繰り返す。実施の形態では、評価基準をモデルが満たすまで、式（３）の計算と、式（１０）の計算とを反復して行うことによって、モデルのパラメータを最適化する。

［学習装置］
　次に、実施の形態に係る学習装置について説明する。図３は、実施の形態に係る学習装置の構成の一例を示すブロック図である。図３に示す学習装置１０は、ＲＯＭ（Read　Only　Memory）、ＲＡＭ（Random　Access　Memory）、ＣＰＵ（Central　Processing　Unit）等を含むコンピュータ等に所定のプログラムが読み込まれて、ＣＰＵが所定のプログラムを実行することで実現される。また、学習装置１０は、ＮＩＣ（Network　Interface　Card）等を有し、ＬＡＮ（Local　Area　Network）やインターネットなどの電気通信回線を介した他の装置との間の通信を行うことも可能である。

　学習装置１０は、分類部１１と学習部１２とを有する。分類部１１は、深層学習モデルであるモデル１１１を有する。

　分類部１１は、モデル１１１を用いてクラス分類を行う。モデル１１１は、クラス分類を行うモデルであって、畳み込みニューラルネットワークを適用したモデルである。分類部１１は、入力データを畳み込みニューラルネットワークの入力層に入力し、畳み込みネットワークの出力層から、各クラスの確率を出力する。

　学習部１２は、学習用データをモデルに学習させ、モデル１１１のパラメータを最適化する。学習部１２は、学習用データとして、ラベル有りデータセットに限らず、ラベル無しデータセットを用いてもよい。

　学習部１２は、学習用データとモデル１１１の出力との関係を評価する損失関数と、畳み込みニューラルネットワークの畳み込み層のフィルタの要素の和の絶対値との和である目的関数（式（９）参照）を最小化するようにモデル１１１のパラメータを更新する。

　具体的には、学習部１２は、損失関数の勾配を計算し、計算結果を基に式（３）を用いてモデル１１１のパラメータθを更新する処理と、目的関数に対し近接勾配法を用いて、畳み込みニューラルネットワークの畳み込み層のフィルタの要素の和の大きさを制約する処理とを行う。制約する処理は、式（１０）に示す計算処理である。学習部１２は、評価基準をモデル１１１が満たすまで、式（３）を用いてモデル１１１のパラメータθを更新する処理と、式（１０）を計算して畳み込みニューラルネットワークの畳み込み層のフィルタの要素の和の大きさを制約する処理と、を、反復して行うことによって、モデルのパラメータを最適化する。

［学習処理］
　次に、学習装置１０のモデル１１１に対する学習処理について説明する。図４は、実施の形態における学習処理の処理手順を示すフローチャートである。

　図４に示すように、学習部１２は、予め用意したデータセットからランダムに入力とラベルとを選択し、モデル１１１に入力を印加する（ステップＳ１１）。学習部１２は、モデル１１１の出力を計算し、計算した出力とデータセットのラベルを使用して損失関数Ｌを計算する（ステップＳ１２）。

　続いて、学習部１２は、損失関数Ｌの勾配を式（３）に適用し、分類部１１のモデル１１１のパラメータθを更新する（ステップＳ１３）。そして、学習部１２は、モデル１１１内の畳み込み層全てについて、式（１０）の計算を実施する（ステップＳ１４）。

　学習部１２は、別途用意したデータセットを正しく分類できるかどうかなどを評価基準とする。学習部１２は、評価基準を満たさないと判定した場合（ステップＳ１５：Ｎｏ）、ステップＳ１１に戻り学習を継続する。一方、学習部１２は、評価基準を満たすと判定した場合（ステップＳ１５：Ｙｅｓ）、学習を終了する。

［実施の形態の効果］
　以上のように、学習装置１０は、学習用データとモデル１１１の出力との関係を評価する損失関数と、畳み込みニューラルネットワークの畳み込み層のフィルタの要素の和の絶対値との和である目的関数を最小化するようにモデル１１１のパラメータを更新する。具体的には、学習装置１０は、損失関数の勾配を計算し、計算結果を基に前記モデルのパラメータを更新する処理と、目的関数に対し近接勾配法を用いて、畳み込みニューラルネットワークの畳み込み層のフィルタの要素の和の大きさを制約する処理とを行う。

　このように、学習装置１０は、畳み込みニューラルネットワークの畳み込み層のフィルタの要素の和の大きさを制約する処理を行う。このため、学習装置１０は、式（８）に示すような全要素が１のノイズが入った場合であっても、畳み込み層の出力の変化量を抑えることができる。したがって、学習装置１０によれば、敵対的攻撃のようなノイズが加わってもロバストなモデルを実現でき、誤分類を低減することが可能になる。

［実施形態のシステム構成について］
　図３に示した学習装置１０の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、学習装置１０の機能の分散および統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散または統合して構成することができる。

　また、学習装置１０においておこなわれる各処理は、全部または任意の一部が、ＣＰＵおよびＣＰＵにより解析実行されるプログラムにて実現されてもよい。また、学習装置１０においておこなわれる各処理は、ワイヤードロジックによるハードウェアとして実現されてもよい。

　また、実施形態において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的に行うこともできる。もしくは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上述および図示の処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて適宜変更することができる。

［プログラム］
　図５は、プログラムが実行されることにより、学習装置１０が実現されるコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

　メモリ１０１０は、ＲＯＭ１０１１及びＲＡＭ１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

　ハードディスクドライブ１０９０は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、学習装置１０の各処理を規定するプログラムは、コンピュータ１０００により実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、学習装置１０における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、ＳＳＤ（Solid　State　Drive）により代替されてもよい。

　また、上述した実施の形態の処理で用いられる設定データは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０が、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して実行する。

　なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク（ＬＡＮ（Local　Area　Network）、ＷＡＮ（Wide　Area　Network）等）を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

　以上、本発明者によってなされた発明を適用した実施の形態について説明したが、本実施の形態による本発明の開示の一部をなす記述及び図面により本発明は限定されることはない。すなわち、本実施の形態に基づいて当業者等によりなされる他の実施の形態、実施例及び運用技術等は全て本発明の範疇に含まれる。

　１０　学習装置
　１１　分類部
　１２　学習部
　１１１　モデル

Claims

　学習用データと畳み込みニューラルネットワークを適用したモデルの出力との関係を評価する損失関数と、前記畳み込みニューラルネットワークの畳み込み層のフィルタの要素の和の絶対値との和である目的関数を最小化するように前記モデルのパラメータを更新する学習部
　を有する学習装置。
　前記学習部は、前記損失関数の勾配を計算し、計算結果を基に前記モデルのパラメータを更新し、前記目的関数に対し近接勾配法を用いて前記要素の和の大きさを制約することを特徴とする請求項１に記載の学習装置。
　前記モデルを用いて、クラス分類を行う分類部であって、入力データを前記畳み込みニューラルネットワークの入力層に入力し、前記畳み込みニューラルネットワークの出力層から、各クラスの確率を出力する分類部をさらに有することを特徴とする請求項１または２に記載の学習装置。
　学習装置が実行する学習方法であって、
　学習用データと畳み込みニューラルネットワークを適用したモデルの出力との関係を評価する損失関数と、前記畳み込みニューラルネットワークの畳み込み層のフィルタの要素の和の絶対値との和である目的関数を最小化するように前記モデルのパラメータを更新する工程
　を含んだことを特徴とする学習方法。
　学習用データと畳み込みニューラルネットワークを適用したモデルの出力との関係を評価する損失関数と、前記畳み込みニューラルネットワークの畳み込み層のフィルタの要素の和の絶対値との和である目的関数を最小化するように前記モデルのパラメータを更新するステップ
　をコンピュータに実行させることを特徴とする学習プログラム。