JPWO2017145852A1

JPWO2017145852A1 - ニューラルネットワーク学習装置、ニューラルネットワーク学習方法及びプログラムを記憶する記憶媒体

Info

Publication number: JPWO2017145852A1
Application number: JP2018501601A
Authority: JP
Inventors: 雅人石井
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2016-02-24
Filing date: 2017-02-14
Publication date: 2018-12-13
Anticipated expiration: 2037-02-14
Also published as: WO2017145852A1; US11263511B2; JP6729676B2; US20210192331A1

Abstract

ネットワーク全体を効率的に学習することができる。本発明の一態様におけるニューラルネットワーク学習装置は、初期化されたネットワークに基づいて層ごとの正則化強度を決定する正則化強度決定部と、初期化されたネットワークと前記正則化強度決定部で決定された正則化強度とに基づいてネットワークの学習を行うネットワーク学習部とを備え、前記正則化強度決定部は、損失関数から計算されるパラメータ更新量の大きさと正則化項から計算されるパラメータ更新量の大きさとの違いが所定範囲内となるように正則化強度を決定することを特徴とする。

Description

本発明は、ニューラルネットワーク学習装置、ニューラルネットワーク学習方法及びプログラムに関し、特に、深いネットワークでも効率よくネットワークを学習する装置、方法及びプログラムを記憶する記憶媒体に関する。

パターン認識技術とは、入力されたパターンがどのクラスに属するパターンであるかを推定する技術である。具体的なパターン認識の例としては、画像を入力として写っている物体を推定する物体認識や、音声を入力として発話内容を推定する音声認識などが挙げられる。

パターン認識技術として統計的機械学習が広く利用されている。特にニューラルネットワークは、近年、ｄｅｅｐｌｅａｒｎｉｎｇと呼ばれる学習技術の発達により、深層ネットワークの学習が可能となり、入力パターンの変動に頑健な認識を行うことができることが知られている。

深層ネットワークを学習する際に、一般的には正則化を行うが、適切な正則化強度を設定することが難しい。正則化とは、過学習を回避するため、学習されるパラメータが極端な値をとらないようにする処理である。

非特許文献１は、ニューラルネットワークの学習に関する技術を開示する。非特許文献１が開示する技術では、例えば、パラメータの２乗和を正則化項とするＬ２正則化が用いられ、損失関数と正則化項の総和を減少させるように学習を行う。

ＹｏｓｈｕａＢｅｎｇｉｏ， "ＰｒａｃｔｉｃａｌＲｅｃｏｍｍｅｎｄａｔｉｏｎｓｆｏｒＧｒａｄｉｅｎｔ−ＢａｓｅｄＴｒａｉｎｉｎｇｏｆＤｅｅｐＡｒｃｈｉｔｅｃｔｕｒｅｓ，" ＮｅｕｒａｌＮｅｔｗｏｒｋｓ：ＴｒｉｃｋｓｏｆｔｈｅＴｒａｄｅ，２ｎｄＥｄｉｔｉｏｎ，Ｖｏｌｕｍｅ７７００ｏｆｔｈｅｓｅｒｉｅｓＬｅｃｔｕｒｅＮｏｔｅｓｉｎＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ，ｐｐ４３７−４７８，２０１２．

例えば、正則化の大きさが学習に与える影響について図３を用いて説明する。図３は正則化項の働きの一例を示す図である。簡単のため、２つのパラメータｗ₁，ｗ₂の場合について考える。正則化が弱すぎる場合、損失関数のみを低減する方向（図３のＡ）にパラメータが更新され、過学習が発生する。逆に、正則化が強すぎる場合、正則化項のみを低減する方向（図３のＢ）にパラメータが更新され、多くのパラメータがゼロに収束してしまい、学習が進まない。したがって、正則化の大きさを適切に設定することで更新方向を調整し（図３のＣ）、いずれの問題も起きないように更新を行う必要がある。

非特許文献１が開示する技術では、各層で均一な強度の正則化を行うが、このような正則化では、正則化が強すぎる層と弱すぎる層が発生してしまう。なぜなら、例えば学習に勾配法を用いる場合、学習におけるネットワークの更新時、損失関数の勾配の大きさは誤差逆伝播により更新対象より上の層全てのスケールに依存するが、正則化項の勾配の大きさは更新対象の層自身のスケールにしか依存せず、両者の比は各層で不均一になってしまうためである。したがって、図４の左側の列で示すように、非特許文献１が開示する技術は、各層で均一な強度の正則化では、いずれかの層では正則化が弱すぎて過学習が発生したり、またいずれかの層では正則化が強すぎて学習が進まなかったりしてしまい、深層ネットワークを適切に学習することが難しかった。また、層ごとの正則化強度を個別に手動で設定する場合でも、深層ネットワークでは層の数が多いため、試行すべき正則化強度の組み合わせが膨大になり、層ごとに最適な正則化強度を決定することは現実的ではなかった。

本発明の目的の１つは、上記課題を解決し、ネットワーク全体を効率的に学習するニューラルネットワーク学習装置、ニューラルネットワーク学習方法及びプログラムを提供することである。

本発明の一態様におけるニューラルネットワーク学習装置は、初期化されたネットワークに基づいて層ごとの正則化強度を決定する正則化強度決定手段と、初期化されたネットワークと前記正則化強度決定部で決定された正則化強度とに基づいてネットワークの学習を行うネットワーク学習手段とを備え、前記正則化強度決定手段は、損失関数から計算されるパラメータ更新量の大きさと正則化項から計算されるパラメータ更新量の大きさとの違いが所定範囲内となるように正則化強度を決定することを特徴とする。

本発明の一態様におけるニューラルネットワーク学習方法は、初期化されたネットワークに基づいて層ごとの正則化強度を決定し、初期化されたネットワークと決定された前記正則化強度とに基づいてネットワークの学習を行い、損失関数から計算されるパラメータ更新量の大きさと正則化項から計算されるパラメータ更新量の大きさとの違いが所定範囲内となるように正則化強度を決定することを特徴とする。

本発明の一態様におけるプログラムは、コンピュータに、初期化されたネットワークに基づいて層ごとの正則化強度を決定する正則化強度決定処理と、初期化されたネットワークと決定された前記正則化強度とに基づいてネットワークの学習を行うネットワーク学習処理と、を実行させ、前期正則化強度決定処理は、損失関数から計算されるパラメータ更新量の大きさと正則化項から計算されるパラメータ更新量の大きさとの違いが所定範囲内となるように正則化強度を決定することを特徴とする。本発明は、上述のプログラムを記憶する記録媒体によっても実現できる。

本発明によれば、ネットワーク全体を効率的に学習することができる。

本発明の実施形態に係るニューラルネットワーク学習装置の機能構成を示すブロック図である。本発明の実施形態に係るニューラルネットワーク学習装置の動作を示すフローチャートである。正則化項の働きの一例を示す図である。本発明の実施形態におけるネットワークの各層で最適な強度の正則化の一例を示す図である。本発明の実施形態に係るニューラルネットワーク学習装置を実現するコンピュータ装置のハードウェア構成を示すブロック図である。

以下、図面を参照して、本発明の実施形態および実施形態の変形例を説明するが、本発明は本実施形態および本変形例に限定されるものではない。なお、以下で説明する図面で、同機能を有する要素には同一符号を付け、その繰り返しの説明は省略することもある。

図５を用いて、本発明の実施形態に係るニューラルネットワーク学習装置１００を構成するハードウェアについて説明する。図５は、本発明の実施形態に係るニューラルネットワーク学習装置１００を実現するコンピュータ装置２００のハードウェア構成を示すブロック図である。なお、本発明の実施形態において、ニューラルネットワーク学習装置１００の各構成要素は、機能単位のブロックを示している。ニューラルネットワーク学習装置１００の各構成要素は、例えば図５に示すようなコンピュータ装置２００とソフトウェアとの任意の組み合わせにより実現することができる。

図５が示すように、コンピュータ装置２００は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）２０１と、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）２０２と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）２０３と、記憶装置２０５と、ドライブ装置２０７と、通信インターフェース２０８と、入出力インターフェース２１０と、バス２１１とを備える。

記憶装置２０５は、プログラム２０４を格納する。ドライブ装置２０７は、記憶媒体２０６の読み書きを行う。通信インターフェース２０８は、ネットワーク２０９と接続する。入出力インターフェース２１０は、データの入出力を行う。バス２１１は、各構成要素を接続する。

ＣＰＵ２０１は、ＲＡＭ２０３を用いてプログラム２０４を実行する。プログラム２０４は、ＲＯＭ２０２に記憶されていてもよい。また、プログラム２０４は、記憶媒体２０６に記憶され、ドライブ装置２０７によって読み出されてもよいし、外部装置からネットワーク２０９を介して送信されてもよい。通信インターフェース２０８は、ネットワーク２０９を介して外部装置とデータをやり取りする。入出力インターフェース２１０は、周辺機器（キーボード、マウス、表示装置など）とデータをやり取りする。通信インターフェース２０８及び入出力インターフェース２１０は、データを取得又は出力する手段として機能することができる。出力情報などのデータは、記憶装置２０５に記憶されていてもよいし、プログラム２０４に含まれていてもよい。

なお、本発明の実施形態に係る各装置の実現方法には様々な変形例がある。例えば、本発明の実施形態に係る各装置は、専用の装置として実現することができる。また、本発明の実施形態に係る各装置は、互いに通信可能に接続された複数の装置の組み合わせにより実現することができる。

なお、以下の本発明の実施形態の機能を実現するように該実施形態の構成を動作させるプログラム（より具体的には、図２等に示す処理をコンピュータに実行させるプログラム）を記憶媒体に記憶させ、該記憶媒体に記憶されたプログラムをコードとして読み出し、コンピュータにおいて実行する処理方法も本発明の実施形態の範疇に含まれる。すなわち、コンピュータ読取可能な記憶媒体も実施形態の範囲に含まれる。また、上述のプログラムが記録された記憶媒体はもちろん、そのプログラム自体も本発明の実施形態に含まれる。

該記憶媒体としては例えばフロッピー（登録商標）ディスク、ハードディスク、光ディスク、光磁気ディスク、ＣＤ（ＣｏｍｐａｃｔＤｉｓｃ）−ＲＯＭ、磁気テープ、不揮発性メモリカード、ＲＯＭを用いることができる。また該記憶媒体に記憶されているコード単体で処理を実行するプログラムに限らず、他のソフトウェア、拡張ボードの機能と共同して、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）上で動作して処理を実行するプログラムも実施形態の範疇に含まれる。

次に、本発明の実施形態に係るニューラルネットワーク学習装置１００の機能について説明する。図１は、本発明の実施形態に係るニューラルネットワーク学習装置１００の機能構成を示すブロック図である。図１が示すブロックは単一の装置内に実装されてよく、あるいは複数の装置内に別れて実装されてよい。ブロック間のデータの授受は、データバス、ネットワーク、可搬記憶媒体等、任意の媒体を介して行われてよい。

図１が示すように、本実施形態に係るニューラルネットワーク学習装置１００は、初期化されたネットワークに基づいて各層の正則化強度を決定する正則化強度決定部１０１と、初期化されたネットワークを正則化強度決定部１０１で決定した正則化強度で学習するネットワーク学習部１０２とを含む。

次に、本実施形態に係るニューラルネットワーク学習装置１００の動作について説明する。図２は、本発明の実施形態に係るニューラルネットワーク学習装置１００の動作例を示すフローチャートである。正則化強度決定部１０１は、初期化されたネットワークと基準の正則化強度とに基づいて、層ごとの正則化強度を決定し、決定した正則化強度をネットワーク学習部１０２に出力する（ステップＳ１０１）。ネットワーク学習部１０２は、学習データと初期ネットワークと正則化強度決定部１０１から入力される正則化強度とに基づいてネットワークの学習を行い、学習したネットワークを出力する（ステップＳ１０２）。

以下、具体的な例を用いて本発明の実施形態に係るニューラルネットワーク学習装置１００の動作を説明する。

正則化強度決定部１０１は、初期化されたネットワークに基づき、層ごとの適切な正則化強度を算出する。正則化強度決定部１０１は、本例では、学習に勾配法を用いるとし、最終層の正則化強度を基準として、損失関数の勾配の分散と正則化項の勾配の分散との比が各層で等しくなるように正則化強度を決定する。ここで、ｋ層目のパラメータＷ_kに関する損失関数の勾配の分散をΔ_kＥ、正則化項の勾配の分散をΔ_kＲとすると、正則化強度決定部１０１は、以下を満たすようにｋ層目の正則化強度λ_kを決定する。以下の式において、Ｌは最下層の番号である。Δ_LＥは、最下層（すなわちＬ層目）のパラメータＷ_Lに関する損失関数の勾配の分散を表す。Δ_LＲは、Ｌ層目の正則化項の勾配の分散を表す。

例えば図４を用いて説明する。図４は、本発明の実施形態におけるネットワークの各層で最適な強度の正則化の一例を示す図である。図４に示す例では、数１の右辺が５／５＝１である。すべてのλ_kが1であれば、k=1である場合の数１の左辺は、図４の左側に示すように、３／８である。さらに、k=2である場合の数１の左辺は、図４の左側に示すように、７／２である。この場合、各層でλ_k・Δ_kＲ／Δ_kＥ＝１となるようにλ_kを決定すると、λ₁＝３／８、λ₂＝７／２となる。これにより、損失関数の勾配の大きさと正則化項の勾配の大きさが各層で揃うため、層ごとに正則化の効き方が変わることなく、ネットワーク全体を効率的に学習することができる。最終層の正則化強度λ_Lは本発明の実施形態に係るニューラルネットワーク学習装置１００への入力として指定される。これを調整することによって全ての層の学習を適切に行うことができる。正則化強度決定部１０１は、本例では比を一定とするように正則化強度λ_Lを決定したが、差を一定にするように正則化強度λ_Lを決定しても良いし、一定でなく事前に定めた範囲内とするように正則化強度λ_Lを決定しても良い。また、基準となる正則化強度は、最終層でなくてもよく、どの層の強度でも良い。

ネットワーク学習部１０２は、学習データと初期化されたネットワークと正則化強度決定部１０１によって決定された正則化強度を用いてネットワークの学習を行う。ネットワーク学習部１０２は、学習には、一般に良く知られている誤差逆伝播法などを用いる。

以上説明したように、本実施形態に係るニューラルネットワーク学習装置１００においては、正則化強度決定部１０１が、初期化されたネットワークと基準の正則化強度とに基づいて層ごとの正則化強度を決定し、ネットワーク学習部１０２が、学習データと初期ネットワークと決定された正則化強度とに基づいてネットワークの学習を行い、学習したネットワークを出力する。

これにより、ニューラルネットワーク学習装置１００は、ネットワークの構造に基づき、各層で適切な正則化強度を設定することができるので、ネットワーク全体を効率的に学習することができる。

本実施形態の効果は、ネットワーク学習時に適切な正則化を行い、ネットワーク全体を効率よく学習できる点である。これは、層ごとに適切な正則化強度を設定しているためである。ネットワークの学習時、ネットワークのパラメータは、損失関数から計算されるパラメータ更新量と正則化項から計算されるパラメータ更新量に基づいて更新されるが、両者の大きさは層によって異なる。本実施形態の正則化強度決定部１０１は、損失関数による更新量の大きさと正則化項による更新量の大きさとの違いが各層で一定範囲内となるように正則化強度を決定する。これにより、図４の右列に示すように、損失関数による更新量の大きさと正則化項による更新量の大きさとのバランスが全ての層で揃うため、層によって正則化が強すぎたり弱すぎたりすることなく、ネットワーク全体を効率よく学習できる。

＜本発明の実施形態の変形例＞
次に、本発明の実施形態の変形例を説明する。

上述の実施形態では、正則化強度決定部１０１は、損失関数の勾配の大きさと正則化項の勾配の大きさとの比を一定にするため、層ごとに正則化強度を決定したが、本変形例では、正則化強度決定部１０１は、逆に正則化強度を一定とし、損失関数の勾配に対して係数をかけても良い。この場合、ネットワーク学習部１０２は、正則化強度決定部１０１が算出した正則化強度の逆数を係数として用いる。

本発明の実施形態によれば、画像処理や音声処理において、例えば顔認識や物体認識などのように、パターンを識別する用途に使用することができる。この場合は、ニューラルネットワーク学習装置を用いて学習したニューラルネットワークに基づいて認識を行うパターン認識装置を用いる。

また、上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。

（付記１）
初期化されたネットワークに基づいて層ごとの正則化強度を決定する正則化強度決定手段と、
初期化されたネットワークと前記正則化強度決定手段で決定された正則化強度とに基づいてネットワークの学習を行うネットワーク学習手段とを備え、
前記正則化強度決定手段は、損失関数から計算されるパラメータ更新量の大きさと正則化項から計算されるパラメータ更新量の大きさとの違いが所定範囲内となるように正則化強度を決定する
ことを特徴とするニューラルネットワーク学習装置。

（付記２）
前記正則化強度決定手段は、損失関数の勾配の大きさと正則化項の勾配の大きさとの比が所定範囲内となるように正則化強度を決定する
ことを特徴とする付記１に記載のニューラルネットワーク学習装置。

（付記３）
前記正則化強度決定手段は、損失関数の勾配の大きさと正則化項の勾配の大きさとの差が所定範囲内となるように正則化強度を決定する
ことを特徴とする付記１に記載のニューラルネットワーク学習装置。

（付記４）
付記１乃至３のいずれか１項に記載のニューラルネットワーク学習装置を用いて学習したニューラルネットワークに基づいて認識を行うことを特徴とするパターン認識装置。

（付記５）
初期化されたネットワークに基づいて層ごとの正則化強度を決定し、
初期化されたネットワークと決定された前記正則化強度とに基づいてネットワークの学習を行い、
損失関数から計算されるパラメータ更新量の大きさと正則化項から計算されるパラメータ更新量の大きさとの違いが所定範囲内となるように正則化強度を決定する
ことを特徴とするニューラルネットワーク学習方法。

（付記６）
損失関数の勾配の大きさと正則化項の勾配の大きさとの比が所定範囲内となるように正則化強度を決定する
ことを特徴とする付記５に記載のニューラルネットワーク学習方法。

（付記７）
損失関数の勾配の大きさと正則化項の勾配の大きさとの差が所定範囲内となるように正則化強度を決定する
ことを特徴とする付記５に記載のニューラルネットワーク学習方法。

（付記８）
付記５乃至７のいずれか１項に記載のニューラルネットワーク学習方法を用いて学習したニューラルネットワークに基づいて認識を行うことを特徴とするパターン認識方法。

（付記９）
コンピュータに、
初期化されたネットワークに基づいて層ごとの正則化強度を決定する正則化強度決定処理と、
初期化されたネットワークと決定された前記正則化強度とに基づいてネットワークの学習を行う学習処理と、
を実行させ、
前記正則化強度決定処理は、損失関数から計算されるパラメータ更新量の大きさと正則化項から計算されるパラメータ更新量の大きさとの違いが所定範囲内となるように正則化強度を決定する、
ことを特徴とするプログラムを記憶する記憶媒体。

（付記１０）
前記正則化強度決定処理は、損失関数の勾配の大きさと正則化項の勾配の大きさとの比が所定範囲内となるように正則化強度を決定する
ことを特徴とする付記９に記載の記憶媒体。

（付記１１）
前記正則化強度決定処理は、損失関数の勾配の大きさと正則化項の勾配の大きさとの差が所定範囲内となるように正則化強度を決定する
ことを特徴とする付記９に記載の記憶媒体。

本発明は、上述の実施形態に限定されない。本発明は、本発明の趣旨を逸脱しない範囲において当業者が理解し得る様々な変更が可能である。

この出願は、２０１６年２月２４日に出願された日本出願特願２０１６−０３２８０６を基礎とする優先権を主張し、その開示の全てをここに取り込む。

１００ニューラルネットワーク学習装置
１０１正則化強度決定部
１０２ネットワーク学習部
２００コンピュータ装置
２０１ＣＰＵ
２０２ＲＯＭ
２０３ＲＡＭ
２０４プログラム
２０５記憶装置
２０６記憶媒体
２０７ドライブ装置
２０８通信インターフェース
２０９ネットワーク
２１０入出力インターフェース
２１１バス

Claims

初期化されたネットワークに基づいて層ごとの正則化強度を決定する正則化強度決定手段と、
初期化されたネットワークと前記正則化強度決定手段で決定された正則化強度とに基づいてネットワークの学習を行うネットワーク学習手段とを備え、
前記正則化強度決定手段は、損失関数から計算されるパラメータ更新量の大きさと正則化項から計算されるパラメータ更新量の大きさとの違いが所定範囲内となるように正則化強度を決定する
ことを特徴とするニューラルネットワーク学習装置。
前記正則化強度決定手段は、損失関数の勾配の大きさと正則化項の勾配の大きさとの比が所定範囲内となるように正則化強度を決定する
ことを特徴とする請求項１に記載のニューラルネットワーク学習装置。
前記正則化強度決定手段は、損失関数の勾配の大きさと正則化項の勾配の大きさとの差が所定範囲内となるように正則化強度を決定する
ことを特徴とする請求項１に記載のニューラルネットワーク学習装置。
請求項１乃至３のいずれか１項に記載のニューラルネットワーク学習装置を用いて学習したニューラルネットワークに基づいて認識を行うことを特徴とするパターン認識装置。
初期化されたネットワークに基づいて層ごとの正則化強度を決定し、
初期化されたネットワークと決定された前記正則化強度とに基づいてネットワークの学習を行い、
損失関数から計算されるパラメータ更新量の大きさと正則化項から計算されるパラメータ更新量の大きさとの違いが所定範囲内となるように正則化強度を決定する
ことを特徴とするニューラルネットワーク学習方法。
損失関数の勾配の大きさと正則化項の勾配の大きさとの比が所定範囲内となるように正則化強度を決定する
ことを特徴とする請求項５に記載のニューラルネットワーク学習方法。
損失関数の勾配の大きさと正則化項の勾配の大きさとの差が所定範囲内となるように正則化強度を決定する
ことを特徴とする請求項５に記載のニューラルネットワーク学習方法。
請求項５乃至７のいずれか１項に記載のニューラルネットワーク学習方法を用いて学習したニューラルネットワークに基づいて認識を行うことを特徴とするパターン認識方法。
コンピュータに、
初期化されたネットワークに基づいて層ごとの正則化強度を決定する正則化強度決定処理と、
初期化されたネットワークと決定された前記正則化強度とに基づいてネットワークの学習を行う学習処理と、
を実行させ、
前記正則化強度決定処理は、損失関数から計算されるパラメータ更新量の大きさと正則化項から計算されるパラメータ更新量の大きさとの違いが所定範囲内となるように正則化強度を決定する、
ことを特徴とするプログラムを記憶する記憶媒体。
前記正則化強度決定処理は、損失関数の勾配の大きさと正則化項の勾配の大きさとの比が所定範囲内となるように正則化強度を決定する
ことを特徴とする請求項９に記載の記憶媒体。
前記正則化強度決定処理は、損失関数の勾配の大きさと正則化項の勾配の大きさとの差が所定範囲内となるように正則化強度を決定する
ことを特徴とする請求項９に記載の記憶媒体。