JPWO2017145852A1 - ニューラルネットワーク学習装置、ニューラルネットワーク学習方法及びプログラムを記憶する記憶媒体 - Google Patents

ニューラルネットワーク学習装置、ニューラルネットワーク学習方法及びプログラムを記憶する記憶媒体 Download PDF

Info

Publication number
JPWO2017145852A1
JPWO2017145852A1 JP2018501601A JP2018501601A JPWO2017145852A1 JP WO2017145852 A1 JPWO2017145852 A1 JP WO2017145852A1 JP 2018501601 A JP2018501601 A JP 2018501601A JP 2018501601 A JP2018501601 A JP 2018501601A JP WO2017145852 A1 JPWO2017145852 A1 JP WO2017145852A1
Authority
JP
Japan
Prior art keywords
regularization
regularization strength
network
neural network
strength
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018501601A
Other languages
English (en)
Other versions
JP6729676B2 (ja
Inventor
雅人 石井
雅人 石井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2017145852A1 publication Critical patent/JPWO2017145852A1/ja
Application granted granted Critical
Publication of JP6729676B2 publication Critical patent/JP6729676B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

ネットワーク全体を効率的に学習することができる。本発明の一態様におけるニューラルネットワーク学習装置は、初期化されたネットワークに基づいて層ごとの正則化強度を決定する正則化強度決定部と、初期化されたネットワークと前記正則化強度決定部で決定された正則化強度とに基づいてネットワークの学習を行うネットワーク学習部とを備え、前記正則化強度決定部は、損失関数から計算されるパラメータ更新量の大きさと正則化項から計算されるパラメータ更新量の大きさとの違いが所定範囲内となるように正則化強度を決定することを特徴とする。

Description

本発明は、ニューラルネットワーク学習装置、ニューラルネットワーク学習方法及びプログラムに関し、特に、深いネットワークでも効率よくネットワークを学習する装置、方法及びプログラムを記憶する記憶媒体に関する。
パターン認識技術とは、入力されたパターンがどのクラスに属するパターンであるかを推定する技術である。具体的なパターン認識の例としては、画像を入力として写っている物体を推定する物体認識や、音声を入力として発話内容を推定する音声認識などが挙げられる。
パターン認識技術として統計的機械学習が広く利用されている。特にニューラルネットワークは、近年、deep learningと呼ばれる学習技術の発達により、深層ネットワークの学習が可能となり、入力パターンの変動に頑健な認識を行うことができることが知られている。
深層ネットワークを学習する際に、一般的には正則化を行うが、適切な正則化強度を設定することが難しい。正則化とは、過学習を回避するため、学習されるパラメータが極端な値をとらないようにする処理である。
非特許文献1は、ニューラルネットワークの学習に関する技術を開示する。非特許文献1が開示する技術では、例えば、パラメータの2乗和を正則化項とするL2正則化が用いられ、損失関数と正則化項の総和を減少させるように学習を行う。
Yoshua Bengio, "Practical Recommendations for Gradient−Based Training of Deep Architectures," Neural Networks: Tricks of the Trade, 2nd Edition, Volume 7700 of the series Lecture Notes in Computer Science, pp 437−478,2012.
例えば、正則化の大きさが学習に与える影響について図3を用いて説明する。図3は正則化項の働きの一例を示す図である。簡単のため、2つのパラメータw1,w2の場合について考える。正則化が弱すぎる場合、損失関数のみを低減する方向(図3のA)にパラメータが更新され、過学習が発生する。逆に、正則化が強すぎる場合、正則化項のみを低減する方向(図3のB)にパラメータが更新され、多くのパラメータがゼロに収束してしまい、学習が進まない。したがって、正則化の大きさを適切に設定することで更新方向を調整し(図3のC)、いずれの問題も起きないように更新を行う必要がある。
非特許文献1が開示する技術では、各層で均一な強度の正則化を行うが、このような正則化では、正則化が強すぎる層と弱すぎる層が発生してしまう。なぜなら、例えば学習に勾配法を用いる場合、学習におけるネットワークの更新時、損失関数の勾配の大きさは誤差逆伝播により更新対象より上の層全てのスケールに依存するが、正則化項の勾配の大きさは更新対象の層自身のスケールにしか依存せず、両者の比は各層で不均一になってしまうためである。したがって、図4の左側の列で示すように、非特許文献1が開示する技術は、各層で均一な強度の正則化では、いずれかの層では正則化が弱すぎて過学習が発生したり、またいずれかの層では正則化が強すぎて学習が進まなかったりしてしまい、深層ネットワークを適切に学習することが難しかった。また、層ごとの正則化強度を個別に手動で設定する場合でも、深層ネットワークでは層の数が多いため、試行すべき正則化強度の組み合わせが膨大になり、層ごとに最適な正則化強度を決定することは現実的ではなかった。
本発明の目的の1つは、上記課題を解決し、ネットワーク全体を効率的に学習するニューラルネットワーク学習装置、ニューラルネットワーク学習方法及びプログラムを提供することである。
本発明の一態様におけるニューラルネットワーク学習装置は、初期化されたネットワークに基づいて層ごとの正則化強度を決定する正則化強度決定手段と、初期化されたネットワークと前記正則化強度決定部で決定された正則化強度とに基づいてネットワークの学習を行うネットワーク学習手段とを備え、前記正則化強度決定手段は、損失関数から計算されるパラメータ更新量の大きさと正則化項から計算されるパラメータ更新量の大きさとの違いが所定範囲内となるように正則化強度を決定することを特徴とする。
本発明の一態様におけるニューラルネットワーク学習方法は、初期化されたネットワークに基づいて層ごとの正則化強度を決定し、初期化されたネットワークと決定された前記正則化強度とに基づいてネットワークの学習を行い、損失関数から計算されるパラメータ更新量の大きさと正則化項から計算されるパラメータ更新量の大きさとの違いが所定範囲内となるように正則化強度を決定することを特徴とする。
本発明の一態様におけるプログラムは、コンピュータに、初期化されたネットワークに基づいて層ごとの正則化強度を決定する正則化強度決定処理と、初期化されたネットワークと決定された前記正則化強度とに基づいてネットワークの学習を行うネットワーク学習処理と、を実行させ、前期正則化強度決定処理は、損失関数から計算されるパラメータ更新量の大きさと正則化項から計算されるパラメータ更新量の大きさとの違いが所定範囲内となるように正則化強度を決定することを特徴とする。本発明は、上述のプログラムを記憶する記録媒体によっても実現できる。
本発明によれば、ネットワーク全体を効率的に学習することができる。
本発明の実施形態に係るニューラルネットワーク学習装置の機能構成を示すブロック図である。 本発明の実施形態に係るニューラルネットワーク学習装置の動作を示すフローチャートである。 正則化項の働きの一例を示す図である。 本発明の実施形態におけるネットワークの各層で最適な強度の正則化の一例を示す図である。 本発明の実施形態に係るニューラルネットワーク学習装置を実現するコンピュータ装置のハードウェア構成を示すブロック図である。
以下、図面を参照して、本発明の実施形態および実施形態の変形例を説明するが、本発明は本実施形態および本変形例に限定されるものではない。なお、以下で説明する図面で、同機能を有する要素には同一符号を付け、その繰り返しの説明は省略することもある。
図5を用いて、本発明の実施形態に係るニューラルネットワーク学習装置100を構成するハードウェアについて説明する。図5は、本発明の実施形態に係るニューラルネットワーク学習装置100を実現するコンピュータ装置200のハードウェア構成を示すブロック図である。なお、本発明の実施形態において、ニューラルネットワーク学習装置100の各構成要素は、機能単位のブロックを示している。ニューラルネットワーク学習装置100の各構成要素は、例えば図5に示すようなコンピュータ装置200とソフトウェアとの任意の組み合わせにより実現することができる。
図5が示すように、コンピュータ装置200は、CPU(Central Processing Unit)201と、ROM(Read Only Memory)202と、RAM(Random Access Memory)203と、記憶装置205と、ドライブ装置207と、通信インターフェース208と、入出力インターフェース210と、バス211とを備える。
記憶装置205は、プログラム204を格納する。ドライブ装置207は、記憶媒体206の読み書きを行う。通信インターフェース208は、ネットワーク209と接続する。入出力インターフェース210は、データの入出力を行う。バス211は、各構成要素を接続する。
CPU201は、RAM203を用いてプログラム204を実行する。プログラム204は、ROM202に記憶されていてもよい。また、プログラム204は、記憶媒体206に記憶され、ドライブ装置207によって読み出されてもよいし、外部装置からネットワーク209を介して送信されてもよい。通信インターフェース208は、ネットワーク209を介して外部装置とデータをやり取りする。入出力インターフェース210は、周辺機器(キーボード、マウス、表示装置など)とデータをやり取りする。通信インターフェース208及び入出力インターフェース210は、データを取得又は出力する手段として機能することができる。出力情報などのデータは、記憶装置205に記憶されていてもよいし、プログラム204に含まれていてもよい。
なお、本発明の実施形態に係る各装置の実現方法には様々な変形例がある。例えば、本発明の実施形態に係る各装置は、専用の装置として実現することができる。また、本発明の実施形態に係る各装置は、互いに通信可能に接続された複数の装置の組み合わせにより実現することができる。
なお、以下の本発明の実施形態の機能を実現するように該実施形態の構成を動作させるプログラム(より具体的には、図2等に示す処理をコンピュータに実行させるプログラム)を記憶媒体に記憶させ、該記憶媒体に記憶されたプログラムをコードとして読み出し、コンピュータにおいて実行する処理方法も本発明の実施形態の範疇に含まれる。すなわち、コンピュータ読取可能な記憶媒体も実施形態の範囲に含まれる。また、上述のプログラムが記録された記憶媒体はもちろん、そのプログラム自体も本発明の実施形態に含まれる。
該記憶媒体としては例えばフロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、CD(Compact Disc)−ROM、磁気テープ、不揮発性メモリカード、ROMを用いることができる。また該記憶媒体に記憶されているコード単体で処理を実行するプログラムに限らず、他のソフトウェア、拡張ボードの機能と共同して、OS(Operating System)上で動作して処理を実行するプログラムも実施形態の範疇に含まれる。
次に、本発明の実施形態に係るニューラルネットワーク学習装置100の機能について説明する。図1は、本発明の実施形態に係るニューラルネットワーク学習装置100の機能構成を示すブロック図である。図1が示すブロックは単一の装置内に実装されてよく、あるいは複数の装置内に別れて実装されてよい。ブロック間のデータの授受は、データバス、ネットワーク、可搬記憶媒体等、任意の媒体を介して行われてよい。
図1が示すように、本実施形態に係るニューラルネットワーク学習装置100は、初期化されたネットワークに基づいて各層の正則化強度を決定する正則化強度決定部101と、初期化されたネットワークを正則化強度決定部101で決定した正則化強度で学習するネットワーク学習部102とを含む。
次に、本実施形態に係るニューラルネットワーク学習装置100の動作について説明する。図2は、本発明の実施形態に係るニューラルネットワーク学習装置100の動作例を示すフローチャートである。正則化強度決定部101は、初期化されたネットワークと基準の正則化強度とに基づいて、層ごとの正則化強度を決定し、決定した正則化強度をネットワーク学習部102に出力する(ステップS101)。ネットワーク学習部102は、学習データと初期ネットワークと正則化強度決定部101から入力される正則化強度とに基づいてネットワークの学習を行い、学習したネットワークを出力する(ステップS102)。
以下、具体的な例を用いて本発明の実施形態に係るニューラルネットワーク学習装置100の動作を説明する。
正則化強度決定部101は、初期化されたネットワークに基づき、層ごとの適切な正則化強度を算出する。正則化強度決定部101は、本例では、学習に勾配法を用いるとし、最終層の正則化強度を基準として、損失関数の勾配の分散と正則化項の勾配の分散との比が各層で等しくなるように正則化強度を決定する。ここで、k層目のパラメータWkに関する損失関数の勾配の分散をΔkE、正則化項の勾配の分散をΔkRとすると、正則化強度決定部101は、以下を満たすようにk層目の正則化強度λkを決定する。以下の式において、Lは最下層の番号である。ΔLEは、最下層(すなわちL層目)のパラメータWLに関する損失関数の勾配の分散を表す。ΔLRは、L層目の正則化項の勾配の分散を表す。
Figure 2017145852
例えば図4を用いて説明する。図4は、本発明の実施形態におけるネットワークの各層で最適な強度の正則化の一例を示す図である。図4に示す例では、数1の右辺が5/5=1である。すべてのλkが1であれば、k=1である場合の数1の左辺は、図4の左側に示すように、3/8である。さらに、k=2である場合の数1の左辺は、図4の左側に示すように、7/2である。この場合、各層でλk・ΔkR/ΔkE=1となるようにλkを決定すると、λ1=3/8、λ2=7/2となる。これにより、損失関数の勾配の大きさと正則化項の勾配の大きさが各層で揃うため、層ごとに正則化の効き方が変わることなく、ネットワーク全体を効率的に学習することができる。最終層の正則化強度λLは本発明の実施形態に係るニューラルネットワーク学習装置100への入力として指定される。これを調整することによって全ての層の学習を適切に行うことができる。正則化強度決定部101は、本例では比を一定とするように正則化強度λLを決定したが、差を一定にするように正則化強度λLを決定しても良いし、一定でなく事前に定めた範囲内とするように正則化強度λLを決定しても良い。また、基準となる正則化強度は、最終層でなくてもよく、どの層の強度でも良い。
ネットワーク学習部102は、学習データと初期化されたネットワークと正則化強度決定部101によって決定された正則化強度を用いてネットワークの学習を行う。ネットワーク学習部102は、学習には、一般に良く知られている誤差逆伝播法などを用いる。
以上説明したように、本実施形態に係るニューラルネットワーク学習装置100においては、正則化強度決定部101が、初期化されたネットワークと基準の正則化強度とに基づいて層ごとの正則化強度を決定し、ネットワーク学習部102が、学習データと初期ネットワークと決定された正則化強度とに基づいてネットワークの学習を行い、学習したネットワークを出力する。
これにより、ニューラルネットワーク学習装置100は、ネットワークの構造に基づき、各層で適切な正則化強度を設定することができるので、ネットワーク全体を効率的に学習することができる。
本実施形態の効果は、ネットワーク学習時に適切な正則化を行い、ネットワーク全体を効率よく学習できる点である。これは、層ごとに適切な正則化強度を設定しているためである。ネットワークの学習時、ネットワークのパラメータは、損失関数から計算されるパラメータ更新量と正則化項から計算されるパラメータ更新量に基づいて更新されるが、両者の大きさは層によって異なる。本実施形態の正則化強度決定部101は、損失関数による更新量の大きさと正則化項による更新量の大きさとの違いが各層で一定範囲内となるように正則化強度を決定する。これにより、図4の右列に示すように、損失関数による更新量の大きさと正則化項による更新量の大きさとのバランスが全ての層で揃うため、層によって正則化が強すぎたり弱すぎたりすることなく、ネットワーク全体を効率よく学習できる。
<本発明の実施形態の変形例>
次に、本発明の実施形態の変形例を説明する。
上述の実施形態では、正則化強度決定部101は、損失関数の勾配の大きさと正則化項の勾配の大きさとの比を一定にするため、層ごとに正則化強度を決定したが、本変形例では、正則化強度決定部101は、逆に正則化強度を一定とし、損失関数の勾配に対して係数をかけても良い。この場合、ネットワーク学習部102は、正則化強度決定部101が算出した正則化強度の逆数を係数として用いる。
本発明の実施形態によれば、画像処理や音声処理において、例えば顔認識や物体認識などのように、パターンを識別する用途に使用することができる。この場合は、ニューラルネットワーク学習装置を用いて学習したニューラルネットワークに基づいて認識を行うパターン認識装置を用いる。
また、上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
初期化されたネットワークに基づいて層ごとの正則化強度を決定する正則化強度決定手段と、
初期化されたネットワークと前記正則化強度決定手段で決定された正則化強度とに基づいてネットワークの学習を行うネットワーク学習手段とを備え、
前記正則化強度決定手段は、損失関数から計算されるパラメータ更新量の大きさと正則化項から計算されるパラメータ更新量の大きさとの違いが所定範囲内となるように正則化強度を決定する
ことを特徴とするニューラルネットワーク学習装置。
(付記2)
前記正則化強度決定手段は、損失関数の勾配の大きさと正則化項の勾配の大きさとの比が所定範囲内となるように正則化強度を決定する
ことを特徴とする付記1に記載のニューラルネットワーク学習装置。
(付記3)
前記正則化強度決定手段は、損失関数の勾配の大きさと正則化項の勾配の大きさとの差が所定範囲内となるように正則化強度を決定する
ことを特徴とする付記1に記載のニューラルネットワーク学習装置。
(付記4)
付記1乃至3のいずれか1項に記載のニューラルネットワーク学習装置を用いて学習したニューラルネットワークに基づいて認識を行うことを特徴とするパターン認識装置。
(付記5)
初期化されたネットワークに基づいて層ごとの正則化強度を決定し、
初期化されたネットワークと決定された前記正則化強度とに基づいてネットワークの学習を行い、
損失関数から計算されるパラメータ更新量の大きさと正則化項から計算されるパラメータ更新量の大きさとの違いが所定範囲内となるように正則化強度を決定する
ことを特徴とするニューラルネットワーク学習方法。
(付記6)
損失関数の勾配の大きさと正則化項の勾配の大きさとの比が所定範囲内となるように正則化強度を決定する
ことを特徴とする付記5に記載のニューラルネットワーク学習方法。
(付記7)
損失関数の勾配の大きさと正則化項の勾配の大きさとの差が所定範囲内となるように正則化強度を決定する
ことを特徴とする付記5に記載のニューラルネットワーク学習方法。
(付記8)
付記5乃至7のいずれか1項に記載のニューラルネットワーク学習方法を用いて学習したニューラルネットワークに基づいて認識を行うことを特徴とするパターン認識方法。
(付記9)
コンピュータに、
初期化されたネットワークに基づいて層ごとの正則化強度を決定する正則化強度決定処理と、
初期化されたネットワークと決定された前記正則化強度とに基づいてネットワークの学習を行う学習処理と、
を実行させ、
前記正則化強度決定処理は、損失関数から計算されるパラメータ更新量の大きさと正則化項から計算されるパラメータ更新量の大きさとの違いが所定範囲内となるように正則化強度を決定する、
ことを特徴とするプログラムを記憶する記憶媒体。
(付記10)
前記正則化強度決定処理は、損失関数の勾配の大きさと正則化項の勾配の大きさとの比が所定範囲内となるように正則化強度を決定する
ことを特徴とする付記9に記載の記憶媒体。
(付記11)
前記正則化強度決定処理は、損失関数の勾配の大きさと正則化項の勾配の大きさとの差が所定範囲内となるように正則化強度を決定する
ことを特徴とする付記9に記載の記憶媒体。
本発明は、上述の実施形態に限定されない。本発明は、本発明の趣旨を逸脱しない範囲において当業者が理解し得る様々な変更が可能である。
この出願は、2016年2月24日に出願された日本出願特願2016−032806を基礎とする優先権を主張し、その開示の全てをここに取り込む。
100 ニューラルネットワーク学習装置
101 正則化強度決定部
102 ネットワーク学習部
200 コンピュータ装置
201 CPU
202 ROM
203 RAM
204 プログラム
205 記憶装置
206 記憶媒体
207 ドライブ装置
208 通信インターフェース
209 ネットワーク
210 入出力インターフェース
211 バス

Claims (11)

  1. 初期化されたネットワークに基づいて層ごとの正則化強度を決定する正則化強度決定手段と、
    初期化されたネットワークと前記正則化強度決定手段で決定された正則化強度とに基づいてネットワークの学習を行うネットワーク学習手段とを備え、
    前記正則化強度決定手段は、損失関数から計算されるパラメータ更新量の大きさと正則化項から計算されるパラメータ更新量の大きさとの違いが所定範囲内となるように正則化強度を決定する
    ことを特徴とするニューラルネットワーク学習装置。
  2. 前記正則化強度決定手段は、損失関数の勾配の大きさと正則化項の勾配の大きさとの比が所定範囲内となるように正則化強度を決定する
    ことを特徴とする請求項1に記載のニューラルネットワーク学習装置。
  3. 前記正則化強度決定手段は、損失関数の勾配の大きさと正則化項の勾配の大きさとの差が所定範囲内となるように正則化強度を決定する
    ことを特徴とする請求項1に記載のニューラルネットワーク学習装置。
  4. 請求項1乃至3のいずれか1項に記載のニューラルネットワーク学習装置を用いて学習したニューラルネットワークに基づいて認識を行うことを特徴とするパターン認識装置。
  5. 初期化されたネットワークに基づいて層ごとの正則化強度を決定し、
    初期化されたネットワークと決定された前記正則化強度とに基づいてネットワークの学習を行い、
    損失関数から計算されるパラメータ更新量の大きさと正則化項から計算されるパラメータ更新量の大きさとの違いが所定範囲内となるように正則化強度を決定する
    ことを特徴とするニューラルネットワーク学習方法。
  6. 損失関数の勾配の大きさと正則化項の勾配の大きさとの比が所定範囲内となるように正則化強度を決定する
    ことを特徴とする請求項5に記載のニューラルネットワーク学習方法。
  7. 損失関数の勾配の大きさと正則化項の勾配の大きさとの差が所定範囲内となるように正則化強度を決定する
    ことを特徴とする請求項5に記載のニューラルネットワーク学習方法。
  8. 請求項5乃至7のいずれか1項に記載のニューラルネットワーク学習方法を用いて学習したニューラルネットワークに基づいて認識を行うことを特徴とするパターン認識方法。
  9. コンピュータに、
    初期化されたネットワークに基づいて層ごとの正則化強度を決定する正則化強度決定処理と、
    初期化されたネットワークと決定された前記正則化強度とに基づいてネットワークの学習を行う学習処理と、
    を実行させ、
    前記正則化強度決定処理は、損失関数から計算されるパラメータ更新量の大きさと正則化項から計算されるパラメータ更新量の大きさとの違いが所定範囲内となるように正則化強度を決定する、
    ことを特徴とするプログラムを記憶する記憶媒体。
  10. 前記正則化強度決定処理は、損失関数の勾配の大きさと正則化項の勾配の大きさとの比が所定範囲内となるように正則化強度を決定する
    ことを特徴とする請求項9に記載の記憶媒体。
  11. 前記正則化強度決定処理は、損失関数の勾配の大きさと正則化項の勾配の大きさとの差が所定範囲内となるように正則化強度を決定する
    ことを特徴とする請求項9に記載の記憶媒体。
JP2018501601A 2016-02-24 2017-02-14 ニューラルネットワーク学習装置、ニューラルネットワーク学習方法及びプログラム Active JP6729676B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2016032806 2016-02-24
JP2016032806 2016-02-24
PCT/JP2017/005230 WO2017145852A1 (ja) 2016-02-24 2017-02-14 ニューラルネットワーク学習装置、ニューラルネットワーク学習方法及びプログラムを記憶する記憶媒体

Publications (2)

Publication Number Publication Date
JPWO2017145852A1 true JPWO2017145852A1 (ja) 2018-12-13
JP6729676B2 JP6729676B2 (ja) 2020-07-22

Family

ID=59685311

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018501601A Active JP6729676B2 (ja) 2016-02-24 2017-02-14 ニューラルネットワーク学習装置、ニューラルネットワーク学習方法及びプログラム

Country Status (3)

Country Link
US (1) US11263511B2 (ja)
JP (1) JP6729676B2 (ja)
WO (1) WO2017145852A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11488054B2 (en) * 2017-12-06 2022-11-01 Google Llc Systems and methods for distributed on-device learning with data-correlated availability

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110751286B (zh) * 2018-07-23 2024-05-10 第四范式(北京)技术有限公司 神经网络模型的训练方法和训练系统
WO2020129412A1 (ja) * 2018-12-17 2020-06-25 ソニー株式会社 学習装置、識別装置およびプログラム
CN110163421B (zh) * 2019-04-29 2021-08-24 广东电网有限责任公司电网规划研究中心 中长期电力负荷预测方法
JP2024043911A (ja) * 2022-09-20 2024-04-02 株式会社Jvcケンウッド 機械学習装置、機械学習方法、および機械学習プログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3618007B2 (ja) * 1995-01-27 2005-02-09 株式会社リコー ニューラルネットワークの学習装置及び学習方法
JP2001142864A (ja) * 1999-11-15 2001-05-25 Nippon Telegr & Teleph Corp <Ntt> ニューラルネットの重要重み発見方法及び装置及びニューラルネットの重要重み発見プログラムを格納した記憶媒体
US8234228B2 (en) * 2008-02-07 2012-07-31 Nec Laboratories America, Inc. Method for training a learning machine having a deep multi-layered network with labeled and unlabeled training data
US9390370B2 (en) * 2012-08-28 2016-07-12 International Business Machines Corporation Training deep neural network acoustic models using distributed hessian-free optimization
US10380479B2 (en) * 2015-10-08 2019-08-13 International Business Machines Corporation Acceleration of convolutional neural network training using stochastic perforation

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11488054B2 (en) * 2017-12-06 2022-11-01 Google Llc Systems and methods for distributed on-device learning with data-correlated availability

Also Published As

Publication number Publication date
US11263511B2 (en) 2022-03-01
WO2017145852A1 (ja) 2017-08-31
JP6729676B2 (ja) 2020-07-22
US20210192331A1 (en) 2021-06-24

Similar Documents

Publication Publication Date Title
WO2017145852A1 (ja) ニューラルネットワーク学習装置、ニューラルネットワーク学習方法及びプログラムを記憶する記憶媒体
CN110689109A (zh) 神经网络方法和装置
KR20190050141A (ko) 고정 소수점 타입의 뉴럴 네트워크를 생성하는 방법 및 장치
JP2018097875A (ja) トレーニング画像処理装置に用いるトレーニング装置及びトレーニング方法
CN110400575A (zh) 通道间特征提取方法、音频分离方法和装置、计算设备
CN110175641A (zh) 图像识别方法、装置、设备和存储介质
CN110956263A (zh) 一种二值化神经网络的构建方法、存储介质及终端设备
JP7095599B2 (ja) 辞書学習装置、辞書学習方法、データ認識方法およびコンピュータプログラム
CN110929836B (zh) 神经网络训练及图像处理方法和装置、电子设备、介质
US11475312B2 (en) Method and apparatus with deep neural network model fusing
CN113674733A (zh) 用于说话时间估计的方法和设备
CN111144574B (zh) 使用指导者模型训练学习者模型的人工智能系统和方法
CN117315758A (zh) 面部表情的检测方法、装置、电子设备及存储介质
WO2020071213A1 (ja) 音響モデル学習装置、音声合成装置、及びプログラム
JP6636973B2 (ja) マスク推定装置、マスク推定方法およびマスク推定プログラム
US20070223821A1 (en) Pattern recognition method
CN113055546A (zh) 处理图像的系统和方法
JP2019185207A (ja) モデル学習装置、モデル学習方法、プログラム
CN113570044A (zh) 客户流失分析模型训练方法及装置
TW202219750A (zh) 機器學習模型訓練方法、電子設備、控制器及存儲介質
CN114187465A (zh) 分类模型的训练方法、装置、电子设备及存储介质
CN115439894B (zh) 训练指纹配对模型的方法、电子设备、程序产品及介质
US20230068381A1 (en) Method and electronic device for quantizing dnn model
WO2021111831A1 (ja) 情報処理方法、情報処理システム及び情報処理装置
WO2021070559A1 (ja) データ処理装置、データ処理方法、およびプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180802

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200116

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200602

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200615

R150 Certificate of patent or registration of utility model

Ref document number: 6729676

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150