WO2022153739A1

WO2022153739A1 - 機械学習装置、機械学習方法、および機械学習プログラム

Info

Publication number: WO2022153739A1
Application number: PCT/JP2021/045340
Authority: WO
Inventors: 晋吾木田; 英樹竹原; 尹誠楊
Original assignee: 株式会社Ｊｖｃケンウッド
Priority date: 2021-01-13
Filing date: 2021-12-09
Publication date: 2022-07-21
Also published as: EP4280115A1; JP2022108332A; US20230376763A1; CN116806341A

Abstract

重み記憶部（５０）は、タスクの特徴検出に用いられる複数のフィルタの重みを記憶する。継続学習部（２０）は、入力されるタスクに対して複数のフィルタの重みを継続学習する。フィルタ制御部（４０）は、所定のエポック数の継続学習の後、タスクを学習済みのフィルタの重みとタスクを学習中のフィルタの重みを比較し、重みの類似度が所定の閾値以上である重複フィルタをタスク間の共用フィルタとして抽出し、重複フィルタの内、一つのフィルタを共用フィルタとして残し、共用フィルタ以外のフィルタの重みを初期化する。

Description

機械学習装置、機械学習方法、および機械学習プログラム

　本発明は、機械学習技術に関する。

　人間は長期にわたる経験を通して新しい知識を学習することができ、昔の知識を忘れないように維持することができる。一方、畳み込みニューラルネットワーク（Convolutional Neural Network(CNN)）の知識は学習に使用したデータセットに依存しており、データ分布の変化に適応するためにはデータセット全体に対してＣＮＮのパラメータの再学習が必要となる。ＣＮＮでは、新しいタスクについて学習していくにつれて、昔のタスクに対する推定精度は低下していく。このようにＣＮＮでは連続学習を行うと新しいタスクの学習中に昔のタスクの学習結果を忘れてしまう致命的忘却(catastrophic forgetting)が避けられない。

　致命的忘却を回避する手法として、継続学習（incremental learningまたはcontinual learning）が提案されている。継続学習の一つの手法としてＰａｃｋＮｅｔがある。

　特許文献１には、複数の学習モジュールが更新したモデルパラメータを２以上の学習モジュールに共有させる学習装置が開示されている。

特開２０１０－２０４４６号公報

　継続学習の一つの手法であるＰａｃｋＮｅｔは、致命的忘却問題を回避することができる。しかし、ＰａｃｋＮｅｔでは、モデルのフィルタ数に限りがあり、新しいタスクを学習していくと、フィルタが飽和するため、学習可能なタスク数に制限があるという問題があった。

　本発明はこうした状況に鑑みてなされたものであり、その目的は、フィルタの飽和を緩和することができる機械学習技術を提供することにある。

　上記課題を解決するために、本実施形態のある態様の機械学習装置は、タスクの特徴検出に用いられる複数のフィルタの重みを記憶する重み記憶部と、入力されるタスクに対して前記複数のフィルタの重みを継続学習する継続学習部と、所定のエポック数の前記継続学習の後、タスクを学習済みのフィルタの重みとタスクを学習中のフィルタの重みを比較し、重みの類似度が所定の閾値以上である重複フィルタをタスク間の共用フィルタとして抽出するフィルタ制御部とを含む。

　本実施形態の別の態様は、機械学習方法である。この方法は、入力されるタスクに対して、タスクの特徴検出に用いられる複数のフィルタの重みを継続学習する継続学習ステップと、所定のエポック数の前記継続学習の後、タスクを学習済みのフィルタの重みとタスクを学習中のフィルタの重みを比較し、重みの類似度が所定の閾値以上である重複フィルタをタスク間の共用フィルタとして抽出するステップとを含む。

　なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。

　本実施形態によれば、フィルタの飽和を緩和することができる機械学習技術を提供することができる。

図１（ａ）～図１（ｅ）は、前提技術となる継続学習を説明する図である。実施の形態に係る機械学習装置の構成図である。図３（ａ）～図３（ｅ）は、図２の機械学習装置による継続学習を説明する図である。図２の機械学習装置のフィルタ制御部の動作を説明する図である。図２の機械学習装置による継続学習手順を説明するフローチャートである。

　図１（ａ）～図１（ｅ）は、前提技術となるＰａｃｋＮｅｔによる継続学習を説明する図である。ＰａｃｋＮｅｔでは与えられたタスクに対してモデルの複数のフィルタの重みが学習される。ここでは、畳み込みニューラルネットワークの各層の複数のフィルタを格子状に並べて図示する。

　ＰａｃｋＮｅｔの学習プロセスは下記の（Ａ）～（Ｅ）のステップで進められる。

　（Ａ）モデルがタスク１を学習する。図１（ａ）は、タスク１の学習後のフィルタの初期状態を示す。すべてのフィルタはタスク１を学習済みで、色が黒で示される。

　（Ｂ）各フィルタの重みの値の大きい順にフィルタを並べ、重みの値が小さいフィルタから順に全体の６０％のフィルタの値を初期化する。図１（ｂ）は、タスク１の学習後のフィルタの最終状態を示す。初期化されたフィルタは色が白で示される。

　（Ｃ）次に、タスク２を学習する。このステップにおいて、図１（ｂ）の黒色のフィルタの重みの値がロックされ、重みの値を変更できるのは白色のフィルタだけである。図１（ｃ）は、タスク２の学習後のフィルタの初期状態を示す。図１（ｂ）の白で示されたフィルタのすべてはタスク２を学習済みで、図１（ｃ）において斜線で示される。

　（Ｄ）ステップ（Ｂ）と同様に、タスク２を学習した斜線のフィルタの重みの値の大きい順にフィルタを並べ、重みの値が小さいフィルタから順に全体の６０％のフィルタの値を初期化する。図１（ｄ）は、タスク２の学習後のフィルタの最終状態を示す。初期化されたフィルタは色が白で示される。

　（Ｅ）さらに、タスク３を学習する。このステップにおいて、図１（ｄ）の黒色と斜線のフィルタの重みの値がロックされ、重みの値を変更できるのは白色のフィルタだけである。図１（ｅ）は、タスク３の学習後のフィルタの初期状態を示す。図１（ｄ）の白で示されたフィルタのすべてはタスク３を学習済みで、図１（ｅ）において横縞で示される。

　このようにＰａｃｋＮｅｔの学習プロセスによると、このままタスクＮまで学習していくと、初期化された白のフィルタの数がどんどん少なくなり、飽和する。フィルタが飽和すると、新しいタスクを学習できなくなる。

　ＰａｃｋＮｅｔのフィルタがいつか飽和することは回避することができない。しかし、フィルタが飽和するスピードを緩めることはできる。そこで、本実施の形態では、現在のタスクを学習する過程で、重みの類似度が高い重複フィルタをタスク間の共用フィルタとして抽出し、重複フィルタの内、一つのフィルタを共用フィルタとして残し、共用フィルタ以外のフィルタの重みを０に初期化し、現在のタスクの学習対象から除外する。これにより、新しいタスクで学習できるフィルタを増やし、フィルタの飽和速度を緩和し、学習できるタスクの数を増やすことができる。

　図２は、実施の形態に係る機械学習装置１００の構成図である。機械学習装置１００は、入力部１０、継続学習部２０、フィルタ処理部３０、フィルタ制御部４０、重み記憶部５０、推論部６０、および出力部７０を含む。

　入力部１０は、教師付きのタスクを継続学習部２０に供給し、未知タスクを推論部６０に供給する。ここでは、一例としてタスクは画像認識である。たとえば、タスク１は猫の認識、タスク２は犬の認識といった画像における特定の物体の認識である。

　重み記憶部５０は、タスクの特徴検出に用いられる複数のフィルタの重みを記憶する。画像をいくつものフィルタに通すことで、その画像の特徴を捉えることができる。

　継続学習部２０は、入力される教師付きタスクに対して重み記憶部５０の複数のフィルタの重みを継続学習し、更新されたフィルタの重みを重み記憶部５０に保存する。

　継続学習部２０が現在のタスクの学習を所定のエポック数だけ行った後、フィルタ制御部４０は、現在のタスクを学習中の複数のフィルタの重みと過去のタスクを学習後の複数のフィルタの重みを比較し、重みの類似度が所定の閾値以上である重複フィルタをタスク間の共用フィルタとして抽出する。モデルは多層の畳み込みニューラルネットワークであるため、各層において複数のフィルタの重みの類似度を算出する。フィルタ制御部４０は、重複フィルタの内、一つのフィルタを共用フィルタとして残し、共用フィルタ以外のフィルタの重みを初期化し、重み記憶部５０に保存する。重みが初期化された重複フィルタは、現在のタスクの学習対象から除外され、次のタスクの学習対象として利用される。

　ここで、所定のエポック数は、たとえば１０回である。学習がある程度安定してから、フィルタ制御部４０が類似するフィルタを初期化することが望ましい。学習が安定するまでの回数や時間は、タスクによって異なる。そのため、損失（Ｌｏｓｓ）と正確さ（Ａｃｃｕｒａｃｙ）の関係からエポック数を調整することが好ましい。ここで、損失は、ニューラルネットワークによる出力値と教師データの与える正解との誤差であり、正確さは、ニューラルネットワークによる出力値の正答率である。

　たとえば、学習が安定していることを、下記いずれかの条件を用いて判断し、所定のエポック数を調整する。
（１）損失が一定以下である（たとえば０．７５以下）
（２）正確さが一定以上である（たとえば０．７５以上）
（３）上記の（１）および（２）の両方の条件を満たす

　フィルタ処理部３０は、１つのタスクを学習後の複数のフィルタの内、所定の割合のフィルタを別のタスクの学習で用いないように重みをロックし、それ以外のフィルタを別のタスクの学習で用いるために重みを初期化する。たとえば、フィルタの重みの大きい順にフィルタを並べ、重みの大きい方から４０％のフィルタの重みをロックし、残りの６０％のフィルタを別のタスクの学習で用いるために重みを初期化する。

　継続学習部２０は、新しいタスクに対してフィルタの初期化された重みを継続学習する。

　推論部６０は、重み記憶部５０に保存されたフィルタの重みを用いて、入力された未知タスクに対して推論する。出力部７０は、推論部６０による推論結果を出力する。

　図３（ａ）～図３（ｅ）は、図２の機械学習装置１００による継続学習を説明する図である。畳み込みニューラルネットワークの各層の複数のフィルタを格子状に並べて図示しており、（ｉ，ｊ）は、第ｉ行、第ｊ列のフィルタを指す。

　機械学習装置１００の学習プロセスは下記の（Ａ）～（Ｅ）のステップで進められる。

　（Ａ）モデルがタスク１を学習する。図３（ａ）は、タスク１の学習後のフィルタの初期状態を示す。すべてのフィルタはタスク１を学習済みで、色が黒で示される。

　（Ｂ）各フィルタの重みの値の大きい順にフィルタを並べ、重みの値が小さいフィルタから順に全体の６０％のフィルタの値を初期化する。図３（ｂ）は、タスク１の学習後のフィルタの最終状態を示す。初期化されたフィルタは色が白で示される。

　（Ｃ）次に、タスク２を学習する。このステップにおいて、図３（ｂ）の黒色のフィルタの重みの値がロックされ、重みの値を変更できるのは白色のフィルタだけである。タスク２の学習過程で、フィルタ制御部４０は、タスク２で使用するフィルタがタスク１を学習済みのフィルタ（黒色）と類似するフィルタであった場合、そのフィルタを初期化して、タスク２の学習対象から除外するように制御する。図３（ｃ）は、タスク２の学習後のフィルタの初期状態を示す。図３（ｂ）の白で示されたフィルタの内、タスク２を学習済みのフィルタは、図３（ｃ）において斜線で示される。図３（ｂ）の白で示されたフィルタの内、タスク２の学習過程で初期化され、学習対象から除外されたフィルタは、図３（ｃ）において白で示される。ここでは、（１，１）フィルタ、（１，５）フィルタがタスク２の学習過程で初期化され、それ以降の新しいタスクで利用可能となる。

　（Ｄ）ステップ（Ｂ）と同様に、タスク２を学習した斜線のフィルタの重みの値の大きい順にフィルタを並べ、重みの値が小さいフィルタから順に全体の６０％のフィルタの値を初期化する。図３（ｄ）は、タスク２の学習後のフィルタの最終状態を示す。初期化されたフィルタは色が白で示される。

　（Ｅ）さらに、タスク３を学習する。このステップにおいて、図３（ｄ）の黒色および斜線のフィルタの重みの値がロックされ、重みの値を変更できるのは白色のフィルタだけである。タスク３の学習過程で、フィルタ制御部４０は、タスク３で使用するフィルタがタスク１を学習済みのフィルタ（黒色）またはタスク２を学習済みのフィルタ（斜線）と類似するフィルタであった場合、そのフィルタを初期化して、タスク３の学習対象から除外するように制御する。図３（ｅ）は、タスク３の学習後のフィルタの初期状態を示す。図３（ｄ）の白で示されたフィルタの内、タスク３を学習済みのフィルタは、図３（ｅ）において横縞で示される。図３（ｄ）の白で示されたフィルタの内、タスク３の学習過程で初期化され、学習対象から除外されたフィルタは、図３（ｅ）において白で示される。ここでは、（１，１）フィルタ、（１，５）フィルタ、（２，２）フィルタがタスク３の学習過程で初期化され、それ以降の新しいタスクで利用可能となる。

　以降、タスクＮまで同様の学習プロセスを実行することで、学習過程においてタスク間のフィルタの重複を解消し、フィルタの飽和を緩和し、学習可能なタスク数を増やすことができる。

　図４は、図２の機械学習装置１００のフィルタ制御部４０の動作を説明する図である。

　フィルタ制御部４０は、ニューラルネットワークの教師付き学習方法であるバックプロパゲーション（誤差逆伝搬法）におけるフィルタの重みの学習時に、現在学習中で所定のエポック数を学習済みのタスクのフィルタの重みを学習済タスクのフィルタの重みと比較し、類似する場合、現在学習中のタスクのフィルタの重みを初期化し、現在のタスクの学習対象から除外する。

　モデルには複数のレイヤがあるため、比較は各レイヤ内で行う。例えば、一つのレイヤにフィルタが１２８個ある。この中に、タスク１を学習済みのフィルタが５１個、タスク２を学習中のフィルタが３０個、残りのフィルタは初期化されている場合、タスク１の５１個のフィルタとタスク２の３０個のフィルタの類似度を算出する。

　類似度は、フィルタの重みの値の絶対値を比較することによって算出する。たとえば、３×３のフィルタの場合、９個の重みの絶対値を比較する。ここで、閾値を設定する。類似度が閾値を上回ると、二つのフィルタは重複していると判定され、タスク２のフィルタの重みを０に初期化し、以降のタスク２の学習対象から除外する。

　フィルタＡの各要素をａ_ｉｊ、フィルタＢの各要素をｂ_ｉｊとした場合、二つのフィルタＡ、Ｂ間で同じ位置にある値の絶対値の差を、たとえば次式のｄ_１（Ａ，Ｂ）、ｄ_２（Ａ，Ｂ）、ｄ_∞（Ａ，Ｂ）、ｄ_ｍ（Ａ，Ｂ）のように計算する。

　上記の説明では、フィルタの類似度は、二つのフィルタ間で同じ位置にある値の絶対値の差を計算することによって算出したが、これ以外の方法で類似度を算出してもよい。たとえば、各フィルタについて、フィルタ絶対差分和ＳＡＤを水平方向絶対差分和ＳＡＤ＿Ｈと垂直方向絶対差分和ＳＡＤ＿Ｖの和として、ＳＡＤ＝ＳＡＤ＿Ｈ＋ＳＡＤ＿Ｖにより求める。フィルタＡのフィルタ絶対差分和ＳＡＤ＿ＡとフィルタＢのフィルタ絶対差分和ＳＡＤ＿Ｂの差が閾値より小さいなら、フィルタＡとフィルタＢは重複していると判定してもよい。ここで、３×３のフィルタの第１行の要素をａ１、ａ２、ａ３、第２行の要素をａ４、ａ５、ａ６、第３行の要素をａ７、ａ８、ａ９とした場合、水平方向絶対差分和ＳＡＤ＿Ｈと垂直方向絶対差分和ＳＡＤ＿Ｖは次式で与えられる。
　ＳＡＤ＿Ｈ＝｜ａ１－ａ２｜＋｜ａ２－ａ３｜＋｜ａ４－ａ５｜＋｜ａ５－ａ６｜＋｜ａ７－ａ８｜＋｜ａ８－ａ９｜
　ＳＡＤ＿Ｖ＝｜ａ１－ａ４｜＋｜ａ２－ａ５｜＋｜ａ３－ａ６｜＋｜ａ４－ａ７｜＋｜ａ５－ａ８｜＋｜ａ６－ａ９｜
　また、別の類似度の算出方法として、ユークリッド距離やコサイン距離の比較を用いてもよい。

　フィルタの重みの類似度が高ければ、そのフィルタはタスク間において特徴が同じか差がないということになり、重複フィルタを保持する必要はない。そこで片方のフィルタについては初期化して、別のタスクの学習に用いる。なお、ここでは、重みをフィルタの中にある１要素、図４の３×３のフィルタの場合、マトリクスのうちの１つのセルであるとして説明したが、フィルタ単位、つまりマトリクスの単位で重みを捉えてもよい。

　より一般的には、タスクＮの性能を最大限に維持するため、学習済みタスクＮと学習中タスクＮ＋１の間に重複したフィルタがある場合、学習中タスクＮ＋１のフィルタの重みを０に初期化する。これにより、限られたフィルタを最大限に利用することができる。

　図５は、図２の機械学習装置１００による継続学習手順を説明するフローチャートである。

　入力部１０は、現在の教師付きタスクを継続学習部２０に入力する（Ｓ１０）。

　継続学習部２０は、所定のエポック数だけ現在のタスクに対して複数のフィルタの重みを継続学習する（Ｓ２０）。

　フィルタ制御部４０は、現在のタスクを学習中のフィルタと、過去のタスクを学習済みのフィルタとを比較し、重みの類似度を算出する（Ｓ３０）。

　フィルタ制御部４０は、過去のタスクの学習済みのフィルタと類似度が高い現在のタスクの学習中のフィルタを初期化する（Ｓ４０）。

　現在のタスクの学習が終了すると（Ｓ５０のＹ）、ステップＳ６０に進み、現在のタスクの学習を引き続き行う場合（Ｓ５０のＮ）、ステップＳ２０に戻る。

　フィルタ処理部３０は、現在のタスクを学習した複数のフィルタの重みの小さいものから順に所定の割合のフィルタを初期化する（Ｓ６０）。

　まだタスクがある場合、ステップＳ１０に戻り、次のタスクを入力する（Ｓ７０のＮ）。次のタスクがない場合、継続学習を終了する（Ｓ７０のＹ）。

　以上説明した機械学習装置１００の各種の処理は、ＣＰＵやメモリ等のハードウェアを用いた装置として実現することができるのは勿論のこと、ＲＯＭ（リード・オンリ・メモリ）やフラッシュメモリ等に記憶されているファームウェアや、コンピュータ等のソフトウェアによっても実現することができる。そのファームウェアプログラム、ソフトウェアプログラムをコンピュータ等で読み取り可能な記録媒体に記録して提供することも、有線あるいは無線のネットワークを通してサーバと送受信することも、地上波あるいは衛星ディジタル放送のデータ放送として送受信することも可能である。

　以上述べたように、本実施の形態の機械学習装置１００によれば、継続学習モデルのフィルタの飽和速度を緩和し、フィルタを効率的に利用してより多くのタスクを学習することができる。

　以上、本発明を実施の形態をもとに説明した。実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。

　本発明は、機械学習技術に利用できる。

　１０　入力部、　２０　継続学習部、　３０　フィルタ処理部、　４０　フィルタ制御部、　５０　重み記憶部、　６０　推論部、　７０　出力部、　１００　機械学習装置。

Claims

　タスクの特徴検出に用いられる複数のフィルタの重みを記憶する重み記憶部と、
　入力されるタスクに対して前記複数のフィルタの重みを継続学習する継続学習部と、
　所定のエポック数の前記継続学習の後、タスクを学習済みのフィルタの重みとタスクを学習中のフィルタの重みを比較し、重みの類似度が所定の閾値以上である重複フィルタをタスク間の共用フィルタとして抽出するフィルタ制御部とを含むことを特徴とする機械学習装置。
　前記フィルタ制御部は、前記重複フィルタの内、一つのフィルタを前記共用フィルタとして残し、前記共用フィルタ以外のフィルタの重みを初期化することを特徴とする請求項１に記載の機械学習装置。
　前記継続学習部は、別のタスクに対して前記共用フィルタ以外のフィルタの初期化された重みを継続学習することを特徴とする請求項２に記載の機械学習装置。
　前記所定のエポック数は、学習モデルの出力値と教師データの与える正解の誤差である損失の変化率または学習モデルの出力値の正答率である正確さの変化率に関する条件にもとづいて決定されることを特徴とする請求項１から３のいずれかに記載の機械学習装置。
　入力されるタスクに対して、タスクの特徴検出に用いられる複数のフィルタの重みを継続学習する継続学習ステップと、
　所定のエポック数の前記継続学習の後、タスクを学習済みのフィルタの重みとタスクを学習中のフィルタの重みを比較し、重みの類似度が所定の閾値以上である重複フィルタをタスク間の共用フィルタとして抽出するステップとを含むことを特徴とする機械学習方法。
　入力されるタスクに対して、タスクの特徴検出に用いられる複数のフィルタの重みを継続学習する継続学習ステップと、
　所定のエポック数の前記継続学習の後、タスクを学習済みのフィルタの重みとタスクを学習中のフィルタの重みを比較し、重みの類似度が所定の閾値以上である重複フィルタをタスク間の共用フィルタとして抽出するステップとをコンピュータに実行させることを特徴とする機械学習プログラム。