WO2023233621A1

WO2023233621A1 - 学習処理装置、プログラム及び学習処理方法

Info

Publication number: WO2023233621A1
Application number: PCT/JP2022/022485
Authority: WO
Inventors: 恵一白須賀
Original assignee: 三菱電機株式会社
Priority date: 2022-06-02
Filing date: 2022-06-02
Publication date: 2023-12-07
Also published as: JPWO2023233621A1

Abstract

学習処理装置（１００）は、複数の畳み込み層を有する再学習前学習済モデルを記憶する記憶部（１０１）と、その複数の畳み込み層に含まれている少なくとも一つの畳み込み層に含まれている複数の畳み込みフィルタ群から出力される複数の活性化出力間の類似度の平均値である平均類似度を、その複数の畳み込みフィルタ群毎に算出し、その平均類似度が最も大きい畳み込みフィルタ群を少なくとも削除する冗長性削除部（１１３）とを備える。

Description

学習処理装置、プログラム及び学習処理方法

　本開示は、学習処理装置、プログラム及び学習処理方法に関する。

　画像認識の分野では、近年、畳み込みニューラルネットワークを用いて高精度に画像認識を行う方式が主流になってきている。ニューラルネットワークを構成する畳み込み層の層数を増やし、多数のパラメータを持たせたネットワーク構造を、ネットワークの表現能力を高め、大量の画像を用いて学習することで、非常に高精度な画像認識が実現可能となってきている。しかし、このような技術を組込み機器へ適用するためには、ニューラルネットワークをＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＦＰＧＡ（Ｆｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）又はＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎ　Ｓｐｅｃｉｆｉｃ　Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）等で動作させる必要があり、演算量、ネットワークサイズ及びワークメモリサイズを小さくする必要がある。

　このため、非特許文献１には、畳み込みフィルタの活性化出力を行列とみなし、そのランク値が小さいもの、言い換えると、情報量の少ない特徴マップを出力するフィルタを削除して、再学習を実施する方式が記載されている。

Ｍｉｎｇｂａｏ　Ｌｉｎ．　ｅｔ　ａｌ．、"Ｈｒａｎｋ：　Ｆｉｌｔｅｒ　Ｐｒｕｎｉｎｇ　ｕｓｉｎｇ　Ｈｉｇｈｔ－Ｒａｎｋ　Ｆｅａｔｕｒｅ　Ｍａｐ"、ａｒＸｉｖ：２００２．１０１７９ｖ２［ｃｓ．ＣＶ］、１６　Ｍａｒ　２０２０

　従来の技術では、畳み込み層から類似の特徴マップが出力される可能性があるため、冗長性の高い畳み込みフィルタ群が複数存在し得る。

　また、既に公開されている学習済みの畳み込みニューラルネットワークを用いて、複数の畳み込みフィルタで構成される複数の畳み込み層で主に構成される特徴抽出層を流用し、分類を行う場合、出力層のみを検知したい特定のクラスが認識できるように学習する転移学習を行って、学習後のモデルを使用するのが一般的である。この場合、特徴抽出層については、検知したい特定クラスに有効な畳み込みフィルタ群以外の不要なフィルタ群が存在してしまう。

　そこで、本開示の一又は複数の態様は、分類精度の劣化を防止しながら、畳み込みニューラルネットワークの規模をより削減できるようにすることを目的とする。

　本開示の第１の態様に係る学習処理装置は、複数の畳み込み層を有する再学習前学習済モデルを記憶する記憶部と、前記複数の畳み込み層に含まれている少なくとも一つの畳み込み層に含まれている複数の畳み込みフィルタ群から出力される複数の活性化出力間の類似度の平均値である平均類似度を、前記複数の畳み込みフィルタ群毎に算出し、前記平均類似度が最も大きい畳み込みフィルタ群を少なくとも削除する冗長性削除部と、を備えることを特徴とする。

　本開示の第２の態様に係る学習処理装置は、複数の畳み込み層を有する再学習前学習済モデルを記憶する記憶部と、検知する特定のクラスの少なくとも一つの画像を前記畳み込みニューラルネットワークモデルに入力し、前記複数の畳み込み層に含まれている少なくとも一つの畳み込み層に含まれている複数の畳み込みフィルタ群から出力される複数の活性化出力の活性化度の平均値である平均活性化度を、前記複数の畳み込みフィルタ群毎に算出し、前記平均活性化度が最も小さい畳み込みフィルタ群を少なくとも削除する特定クラス削除部と、を備えることを特徴とする。

　本開示の第１の態様に係るプログラムは、コンピュータを、複数の畳み込み層を有する再学習前学習済モデルを記憶する記憶部、及び、前記複数の畳み込み層に含まれている少なくとも一つの畳み込み層に含まれている複数の畳み込みフィルタ群から出力される複数の活性化出力間の類似度の平均値である平均類似度を、前記複数の畳み込みフィルタ群毎に算出し、前記平均類似度が最も大きい畳み込みフィルタ群を少なくとも削除する冗長性削除部、として機能させることを特徴とする。

　本開示の第２の態様に係るプログラムは、コンピュータを、複数の畳み込み層を有する再学習前学習済モデルを記憶する記憶部、及び、検知する特定のクラスの少なくとも一つの画像を前記畳み込みニューラルネットワークモデルに入力し、前記複数の畳み込み層に含まれている少なくとも一つの畳み込み層に含まれている複数の畳み込みフィルタ群から出力される複数の活性化出力の活性化度の平均値である平均活性化度を、前記複数の畳み込みフィルタ群毎に算出し、前記平均活性化度が最も小さい畳み込みフィルタ群を少なくとも削除する特定クラス削除部、として機能させることを特徴とする。

　本開示の第１の態様に係る学習処理方法は、複数の畳み込み層を有する再学習前学習済モデルにおける前記複数の畳み込み層に含まれている少なくとも一つの畳み込み層に含まれている複数の畳み込みフィルタ群から出力される複数の活性化出力間の類似度の平均値である平均類似度を、前記複数の畳み込みフィルタ群毎に算出し、前記平均類似度が最も大きい畳み込みフィルタ群を少なくとも削除することを特徴とする。

　本開示の第２の態様に係る学習処理方法は、複数の畳み込み層を有する再学習前学習済モデルに、検知する特定のクラスの少なくとも一つの画像を入力し、前記複数の畳み込み層に含まれている少なくとも一つの畳み込み層に含まれている複数の畳み込みフィルタ群から出力される複数の活性化出力の活性化度の平均値である平均活性化度を、前記複数の畳み込みフィルタ群毎に算出し、前記平均活性化度が最も小さい畳み込みフィルタ群を少なくとも削除することを特徴とする。

　本開示の一又は複数の態様によれば、分類精度の劣化を防止しながら、畳み込みニューラルネットワークの規模をより削減することができる。

実施の形態１に係る学習処理装置の構成を概略的に示すブロック図である。畳み込みニューラルネットワークの概念を示す説明図である。実施の形態１に係る学習処理装置が行う学習処理方法を示すフローチャートである。情報量の少ない特徴マップを出力する畳み込みフィルタ群の削除処理を示すフローチャートである。（Ａ）～（Ｄ）は、情報量の少ない特徴マップを出力する畳み込みフィルタ群を削除する処理を概略的に説明するための概略図である。フィルタ群の削除前の畳み込み層の状態を示す概略図である。フィルタ群の削除後の畳み込み層の状態を示す概略図である。冗長性の高い特徴マップを出力する畳み込みフィルタ群の削除処理を示すフローチャートである。ある畳み込み層における各畳み込みフィルタ群が出力した特徴マップを示す概略図である。実施の形態２に係る学習処理装置の構成を概略的に示すブロック図である。実施の形態２に係る学習処理装置が行う学習処理方法を示すフローチャートである。検知したい特定のクラスを強く活性化しない畳み込みフィルタ群の削除処理を示すフローチャートである。（Ａ）及び（Ｂ）は、ある畳み込み層における一つの畳み込みフィルタ群である第１畳み込みフィルタ群が出力する特徴マップを示している。（Ａ）及び（Ｂ）は、ある畳み込み層における第１畳み込みフィルタ群とは異なる一つの畳み込みフィルタ群である第２畳み込みフィルタ群が出力する特徴マップを示している。実施の形態３に係る学習処理装置の構成を概略的に示すブロック図である。（Ａ）及び（Ｂ）は、ハードウェア構成例を示すブロック図である。

実施の形態１．
　図１は、実施の形態１に係る学習処理装置１００の構成を概略的に示すブロック図である。
　図示するように、学習処理装置１００は、記憶部１０１と、制御部１１０とを備える。

　記憶部１０１は、学習処理装置１００での処理に必要なデータ及びプログラムを記憶する。例えば、記憶部１０１は、再学習前学習済モデルを記憶する。再学習前学習済モデルは、再学習前の学習済の畳み込みニューラルネットワークであり、複数の畳み込み層を有する。

　制御部１１０は、学習処理装置１００での処理を制御する。例えば、制御部１１０は、ニューラルネットワークでの学習モデルであるニューラルネットワークモデルを学習する。ここで学習されたモデルが、再学習前学習済モデルである。そして、制御部１１０は、畳み込みニューラルネットワークのフィルタ群を削除し、ネットワークサイズを小さくする処理を行う。ここでは、まず、ニューラルネットワークについて説明する。

　図２は、畳み込みニューラルネットワークの概念を示す説明図である。
　畳み込みニューラルネットワークは、複数の畳み込み層で構成されている。例えば、図２では、複数の畳み込み層の内、第ｎ畳み込み層（ｎは、１以上の整数）及び第ｎ＋１畳み込み層が示されている。

　一つの畳み込み層は、複数の畳み込みフィルタ群を含んでいる。図２では、第ｎ畳み込み層は、五つの畳み込みフィルタ群ＦＧ１_ｎ～ＦＧ５_ｎを含んでおり、第ｎ＋１畳み込み層は、二つの畳み込みフィルタ群ＦＧ１_ｎ＋１～ＦＧ２_ｎ＋１を含んでいる。

　また、ある畳み込み層の入力は、複数のチャンネルで構成された２次元データとなっている。例えば、図２に示されているように、第ｎ畳み込み層への入力は、３チャンネルの２次元データとなっており、第ｎ＋１畳み込み層への入力は、５チャンネルの２次元データとなっている。

　各畳み込みフィルタ群には、その層に入力されるチャンネルである入力チャンネルの数と等しい数のフィルタが存在する。図２に示されているように、第ｎ畳み込み層への入力は、３チャンネルとなっているため、畳み込みフィルタ群ＦＧ１_ｎ～ＦＧ５_ｎの各々は、三つのフィルタで構成されている。また、第ｎ＋１畳み込み層への入力は、５チャンネルとなっているため、畳み込みフィルタ群ＦＧ１_ｎ＋１、ＦＧ２_ｎ＋１の各々は、五つのフィルタで構成されている。

　各フィルタは、対応する入力チャンネルの２次元データの畳み込み計算を行う。各フィルタの畳み込み計算結果は、一つのフィルタ群に含まれている複数のフィルタ間で加算され、その畳み込みフィルタ群の出力であるフィルタ群出力として出力される。例えば、図２に示されている第ｎ畳み込み層の畳み込みフィルタ群ＦＧ１_ｎでは、三つのフィルタの畳み込み計算結果が加算され、畳み込みフィルタ群ＦＧ１_ｎのフィルタ群出力として出力される。

　そして、各畳み込み層は、活性化出力として、その畳み込みフィルタ群数と等しい数の特徴マップを出力し、その出力は、後段の畳み込み層に入力される。例えば、図２に示されている第ｎ畳み込み層の出力は、第ｎ＋１畳み込み層の入力になる。従って、第ｎ＋１畳み込み層の各フィルタ群のチャンネル数は、その前段の第ｎ畳み込み層の特徴マップのチャンネル数又は畳み込みフィルタ群数と等しい。

　図１に戻り、制御部１１０は、転移学習部１１１と、情報量削除部１１２と、冗長性削除部１１３と、再学習部１１４とを備える。

　転移学習部１１１は、記憶部１０１に記憶されている再学習前学習済モデルをベースモデルとして用いて、転移学習を行う。転移学習については、公知の技術が使用されればよい。転移学習が行われた再学習前学習済モデルについては、記憶部１０１に記憶される。

　情報量削除部１１２は、再学習前学習済モデルの複数の畳み込み層に含まれている少なくとも一つの畳み込み層に含まれている複数の畳み込みフィルタ群から出力される複数の活性化出力の情報量を算出して、その複数の畳み込みフィルタ群の各々における情報量の平均値である平均情報量を算出する。そして、情報量削除部１１２は、その平均情報量が最も少ない畳み込みフィルタ群を少なくとも削除する。実施の形態１では、情報量として、ランク値が使用され、平均情報量は、そのランク値の平均値である。

　また、情報量削除部１１２は、畳み込みフィルタ群を削除した畳み込み層の一つ後段の畳み込み層に含まれている複数の畳み込み群から、その削除された畳み込みフィルタ群から出力される活性化出力を処理するためのフィルタを削除する。

　冗長性削除部１１３は、再学習前学習済モデルの複数の畳み込み層に含まれている少なくとも一つの畳み込み層に含まれている複数の畳み込みフィルタ群から出力される複数の活性化出力間の類似度を算出して、その複数の畳み込みフィルタ群の各々における類似度の平均値である平均類似度を算出する。そして、冗長性削除部１１３は、その平均類似度が最も大きい畳み込みフィルタ群を少なくとも削除する。なお、実施の形態１では、冗長性削除部１１３は、情報量削除部１１２により少なくとも一つの畳み込みフィルタ群及び後段の対応するフィルタが削除された後の畳み込みニューラルネットワークモデルから少なくとも一つの畳み込みフィルタ群を削除する。

　また、冗長性削除部１１３は、畳み込みフィルタ群を削除した畳み込み層の一つ後段の畳み込み層に含まれている複数の畳み込み群から、その削除された畳み込みフィルタ群から出力される活性化出力を処理するためのフィルタを削除する。

　再学習部１１４は、冗長性削除部１１３で畳み込みフィルタ群及びフィルタが削除された後の畳み込みニューラルネットワークを再学習する。再学習については、公知の技術が使用されればよいため、詳細な説明は省略する。

　図３は、実施の形態１に係る学習処理装置１００が行う学習処理方法を示すフローチャートである。
　まず、転移学習部１１１は、既に大規模なデータで十分に学習された畳み込みニューラルネットワークをベースネットワークモデルとして転移学習を実施する（Ｓ１０）。転移学習は、ベースネットワークの前段の特徴抽出層をそのまま活用するが、分類を行う層だけを意図した画像分類が可能なように再学習を行うものである。これにより分類したいクラスに画像の分類を効率的に行うことが可能となる。なお、ベースネットワークモデルは、記憶部１０１に記憶されているものとする。

　例えば、ある特定の製品について、正常か異常かの画像診断を行う畳み込みニューラルネットワークを得たい場合、転移学習部１１１は、ベースネットワークモデルとして１０００カテゴリの一般的な画像分類が可能なネットワークを用い、その特徴抽出層の学習率を０に固定することでその層の重みを転移学習時に更新しないようにして、その特定の製品の正常画像及び異常画像を用いて分類層だけを学習することで、転移学習を行うことができる。

　次に、情報量削除部１１２は、情報量の少ない特徴マップを出力する畳み込みフィルタ群を削除する処理を行う（Ｓ１１）。ここでの処理の詳細については、図４を用いて説明する。

　次に、冗長性削除部１１３は、冗長性の高い特徴マップを出力する畳み込みフィルタ群の削除を行う（Ｓ１２）。ここでの処理の詳細については、図８を用いて説明する。

　次に、再学習部１１４は、以上のようにしてフィルタ群が削除された畳み込みニューラルネットワークの再学習を行う（Ｓ１３）。
　なお、ステップＳ１１又はＳ１２における畳み込みフィルタ群の削除は、全ての畳み込み層に対して実施されてもよいし、一部の畳み込み層に対してのみ実施されてもよい。

　図４は、情報量の少ない特徴マップを出力する畳み込みフィルタ群の削除処理を示すフローチャートである。
　まず、情報量削除部１１２は、各畳み込みフィルタ群が出力する特徴マップの情報量を算出する（Ｓ２０）。例えば、情報量削除部１１２は、図５（Ａ）に示されているように複数の画像を、図５（Ｂ）に示されているように畳み込みニューラルネットワークに入力し、各畳み込み層において、各畳み込みフィルタ群が出力する特徴マップを取得する。図５（Ｃ）は、第１畳み込み層であるｃｏｎｖ１層から出力された特徴マップを示している。なお、図５（Ｃ）は、ｃｏｎｖ１層にフィルタ群が１６個存在する場合の例であり、ｃｏｎｖ１層の出力は、１６枚の特徴マップとなっている。

　情報量削除部１１２は、特徴マップのそれぞれを２次元の行列とみなし、各ランク値を算出する（Ｓ２０）。これにより特徴マップの情報量を把握することができる。なお、ある特定の畳み込みフィルタ群によって生成された特徴マップの情報量は、画像が変わってもあまり変化しない特徴がある。このため、複数枚の入力画像に対するランク値の平均値をフィルタ群ごとに算出し、得られた平均ランク値が低い特徴マップは、情報量が少なく、分類を行うのに重要な役割をしていないことを把握することができる。

　次に、情報量削除部１１２は、畳み込みフィルタ群のそれぞれが出力した特徴マップの平均ランク値の小さい順に、対応する畳み込みフィルタ群をソートしたリストを生成する（Ｓ２１）。例えば、畳み込みフィルタ群には、それぞれを識別するための識別情報であるＩＤであるフィルタ群ＩＤが付与されており、情報量削除部１１２は、図５（Ｄ）に示されているように、そのフィルタ群ＩＤを平均ランク値の小さい順にソートする。このソートした結果により、情報量の少ない無駄な畳み込みフィルタ群から重要な畳み込みフィルタ群がソートされて把握できるようになる。

　次に、情報量削除部１１２は、ステップＳ２１で生成したリストにおいて、平均ランク値の小さいものから順に、予め定められた削減率ａ％に対応する部分の畳み込みフィルタ群を削除する（Ｓ２２）。ここで、削減率ａ％は、（削減するフィルタ群の数）÷（全フィルタ群の数）×１００で算出される値である。例えば、図５（Ｄ）では、フィルタ群ＩＤ１５よりも平均ランク値の低い畳み込みフィルタ群が削除されている。

　次に、情報量削除部１１２は、ステップＳ２２において畳み込みフィルタ群を削除したことで、影響を受ける後段の畳み込み層内の各畳み込みフィルタ群内のフィルタを削除する（Ｓ２３）。

　ステップＳ２３での処理を、図６及び図７を用いて説明する。
　図６は、フィルタの削除前の畳み込み層の状態を示し、図７は、フィルタ削除後の畳み込み層の状態を示す。

　まず、図６に示されているように、第ｎ畳み込み層の入力は、３チャンネルであり、第ｎ畳み込み層は、四つの畳み込みフィルタ群ＦＧ１_ｎ～ＦＧ４_ｎを含んでいる。畳み込みフィルタ群ＦＧ１_ｎ～ＦＧ４_ｎの各々は、三つの入力チャンネルをそれぞれ処理する三つのチャンネルのフィルタで構成されている。

　また、図６に示されているように、第ｎ畳み込み層の後段の第（ｎ＋１）畳み込み層は、前段が出力した４つの特徴マップが入力される。そのため、第（ｎ＋１）畳み込み層は、それら４チャンネルの入力に対して、畳み込み演算を行う４チャンネルのフィルタを含む２つの畳み込みフィルタ群ＦＧ１_ｎ＋１、ＦＧ２_ｎ＋１を含み、これらの畳み込みフィルタ群ＦＧ１_ｎ＋１～ＦＧ２_ｎ＋１から、２つの特徴マップが出力される。

　ここで、図６に示されているように、第ｎ畳み込み層に含まれている畳み込みフィルタ群ＦＧ２_ｎ及び畳み込みフィルタ群ＦＧ３_ｎが削除された場合、削除された畳み込みフィルタ群ＦＧ２_ｎ、ＦＧ３_ｎからの出力である特徴マップＭＡ２、ＭＡ３はなくなるため、これらを入力として畳み込み処理を行う第ｎ＋１畳み込み層の２つのフィルタ群ＦＧ１_ｎ＋１、ＦＧ２_ｎ＋１を中の、その２チャンネルを処理するためのフィルタＦ１２_ｎ＋１、Ｆ１３_ｎ＋１、Ｆ２２_ｎ＋１、Ｆ２３_ｎ＋１は不要になる。このため、情報量削除部１１２は、それらのフィルタＦ１２_ｎ＋１、Ｆ１３_ｎ＋１、Ｆ２２_ｎ＋１、Ｆ２３_ｎ＋１を削除する。

　これにより、削除後の第ｎ畳み込み層及び第ｎ＋１畳み込み層は、図７に示されているようになる。
　なお、削除後の第ｎ＋１畳み込み層の出力は、２つの畳み込みフィルタ群からの出力なので２チャンネルの特徴マップが出力される。この出力特徴マップのチャネル数は、畳み込みフィルタ削除前と変わらない。

　以上のように、第ｎ畳み込み層からｊ個の畳み込みフィルタ群を削除すると、その層からの出力チャネル数はｊ個減少し、第ｎ＋１畳み込み層の畳み込みフィルタ群から、ｊ個のフィルタが削減されることとなる。以上のように、図４のステップＳ２３は、影響を受ける後段の畳み込みフィルタ群内のフィルタが削除され、前後層の整合がとれるようにするための処理である。

　次に、情報量削除部１１２は、畳み込みフィルタ群が削除された畳み込みニューラルネットワークを再学習する（Ｓ２４）。なお、図２に示されているように、再学習部１１４による再学習が行われるようになっているため、ステップＳ２４での再学習は行われなくてもよい。

　以上のように、ステップＳ２３での処理により、対象となる畳み込み層の中で、それぞれ情報量の少ない無駄な畳み込みフィルタ群が閾値ａ％に対応する個数だけ削除される。なお、この閾値ａ％は、全畳み込み層で共通としてもよいし、畳み込み層毎に異なる閾値が設定されていてもよい。

　図８は、冗長性の高い特徴マップを出力する畳み込みフィルタ群の削除処理を示すフローチャートである。
　ここでは、フローチャートを説明する前に、図９を用いて特徴マップについて説明する。

　図９は、ある畳み込み層における各畳み込みフィルタ群が出力した特徴マップを示す概略図である。
　ここでは、その畳み込み層に５×５個の畳み込みフィルタ群が存在する例を示す。
　ある画像を畳み込みニューラルネットワークに入力したとき、この畳み込み層の各畳み込みフィルタ群が出力する５×５個の特徴マップを見ると、図９の左上コーナの畳み込みフィルタ群ｉの特徴マップＭＡｉと、類似する複数の特徴マップＭＡｉ＃１、ＭＡｉ＃２が存在している。これらは類似性が高く、同じような特徴マップを出力する全ての畳み込みフィルタ群を残しておく必要はない。そこで、冗長性の高い特徴マップを出力する畳み込みフィルタ群を削除する処理を行うことで、無駄を省くことができる。

　図８に戻り、まず、冗長性削除部１１３は、畳み込みニューラルネットワークにある画像を入力したとき、ある畳み込み層の各畳み込みフィルタ群が出力する特徴マップと、他の畳み込みフィルタ群が出力する特徴マップとの類似度を算出する（Ｓ３０）。ここで算出される類似度は、例えば、特徴マップ間の平方二乗平均誤差（ＲＭＳＥ）とするが、他の類似度を示す指標が用いられてもよい。さらに、複数の画像を入力することで得られる特徴マップ間の類似度の平均値が用いられてもよい。

　次に、冗長性削除部１１３は、算出された類似度の平均値である平均類似度を、畳み込みフィルタ群毎に算出して、その平均類似度が大きい順に、対応する畳み込みフィルタ群をソートしたリストを生成する（Ｓ３１）。このソートされた結果により、冗長性の高い無駄な畳み込みフィルタ群から冗長性の少ない重要な畳み込みフィルタ群が把握できるようになる。

　次に、冗長性削除部１１３は、生成されたリストを用いて、平均類似度が大きいものから順に、予め定められた削減率ｂ％に対応する部分の畳み込みフィルタ群を削除する（Ｓ３２）。ここで、削減率ｂ％は、（削減するフィルタ群の数）÷（全フィルタ群の数）×１００で算出される値である。なお、この閾値ｂ％は、全畳み込み層で共通であってもよく、畳み込み層毎に異なる値であってもよい。

　次に、冗長性削除部１１３は、ステップＳ３２において畳み込みフィルタ群を削除したことで、影響を受ける後段の畳み込み層内の各畳み込みフィルタ群内のフィルタを削除する（Ｓ３３）。ここでの処理は、図４のステップＳ２３での処理と同様である。

　次に、冗長性削除部１１３は、畳み込みフィルタ群が削除された畳み込みニューラルネットワークを再学習する（Ｓ３４）。なお、図２に示されているように、再学習部１１４による再学習が行われるようになっているため、ステップＳ３４での再学習は行われなくてもよい。

　以上のように、ステップＳ３２での処理により、各畳み込み層の中で、それぞれ冗長性の高い無駄な畳み込みフィルタ群が閾値ｂ％の個数だけ各畳み込み層から削除される。

　以上のように、実施の形態１によれば、図３のステップＳ１０の転移学習の後、ステップＳ１１で情報量の少ない特徴マップを出力する畳み込みフィルタ群を削除した後、ステップＳ１２でさらに冗長性の高い特徴マップを出力する畳み込みフィルタ群を削除するようにしたため、検知したい特定のクラスの検知精度を維持しつつ、よりネットワーク規模を小さくすることができる。
　なお、ステップＳ１１での処理と、ステップＳ１２での処理の順番については、逆の順番であってもよい。

　また、畳み込みフィルタ群の活性化出力間の類似度を求め、冗長性の高い活性化出力を出力する畳み込みフィルタ群を削除するようにした利点として、一般に、畳み込みフィルタ群の縦×横のサイズは、５×５、３×３、１×１のように小さなサイズとなっている。一方、畳み込みフィルタ群の活性化出力は、畳み込みフィルタ群のサイズよりも大きなサイズとなっている。そのため畳み込みフィルタ群間の類似度を直接求めるよりも、活性化出力間の類似度を求めるほうが、比較する情報量が多い。このため、より大きな情報をもとに冗長度を計算することができ、より的確に削減候補を抽出することができ、フィルタ群の削除による分類精度劣化の影響を抑えることができる。

実施の形態２．
　図１０は、実施の形態２に係る学習処理装置２００の構成を概略的に示すブロック図である。
　図示するように、学習処理装置２００は、記憶部１０１と、制御部２１０とを備える。
　実施の形態２における学習処理装置２００の記憶部１０１は、実施の形態１における学習処理装置１００の記憶部１０１と同様である。

　制御部２１０は、学習処理装置２００での処理を制御する。例えば、制御部２１０は、ニューラルネットワークでの学習モデルであるニューラルネットワークモデルを学習する。そして、制御部２１０は、畳み込みニューラルネットワークの畳み込みフィルタ群を削除し、ネットワークサイズを小さくする処理を行う。

　制御部２１０は、転移学習部１１１と、情報量削除部１１２と、再学習部１１４と、特定クラス削除部２１５とを備える。
　実施の形態２における制御部２１０の転移学習部１１１、情報量削除部１１２及び再学習部１１４は、実施の形態１における制御部１１０の転移学習部１１１、情報量削除部１１２及び再学習部１１４と同様である。

　特定クラス削除部２１５は、検知する特定のクラスの少なくとも一つの画像を畳み込みニューラルネットワークモデルに入力し、複数の畳み込み層における少なくとも一つの畳み込み層に含まれている複数の畳み込みフィルタ群から出力される複数の活性化出力の活性化度を算出して、複数の畳み込みフィルタ群の各々における活性化度の平均値である平均活性化度を算出する。そして、特定クラス削除部２１５は、その平均活性化度が最も小さい畳み込みフィルタ群を少なくとも削除する。なお、実施の形態２では、特定クラス削除部２１５は、情報量削除部１１２により少なくとも一つの畳み込みフィルタ群及び後段の対応するフィルタが削除された後の畳み込みニューラルネットワークモデルから少なくとも一つの畳み込みフィルタ群を削除する。

　また、特定クラス削除部２１５は、畳み込みフィルタ群を削除した少なくとも一つの畳み込み層の一つ後段の畳み込み層に含まれている複数の畳み込み群から、その削除された畳み込みフィルタ群から出力される活性化出力を処理するためのフィルタを削除する。

　図１１は、実施の形態２に係る学習処理装置２００が行う学習処理方法を示すフローチャートである。
　図１１において、図３に示されているフローチャートと同様の処理を行うステップについては、図３に示されているフローチャートのステップと同じ符号を付す。

　図１１におけるステップＳ１０及びＳ１１の処理については、図３におけるステップＳ１０及びＳ１１の処理と同様である。
　但し、図１１においては、ステップＳ１１の処理の後は、処理はステップＳ４２に進む。

　ステップＳ４２では、特定クラス削除部２１５は、検知したい特定のクラスを強く活性化しない畳み込みフィルタ群の削除を行う。ここでの処理の詳細については、図１２を用いて説明する。

　次に、再学習部１１４は、以上のようにしてフィルタ群が削除された畳み込みニューラルネットワークの再学習を行う（Ｓ１３）。ここでの処理は、図３に示されているフローチャートのステップＳ１３での処理と同様である。
　なお、ステップＳ４２における畳み込みフィルタ群の削除は、全ての畳み込み層に対して実施されてもよいし、一部の畳み込み層に対してのみ実施されてもよい。

　図１２は、検知したい特定のクラスを強く活性化しない畳み込みフィルタ群の削除処理を示すフローチャートである。
　ここでは、フローチャートを説明する前に、図１３及び図１４を用いて、特徴マップの活性化について説明する。

　図１３（Ａ）及び（Ｂ）は、ある畳み込み層における一つの畳み込みフィルタ群である第１畳み込みフィルタ群が出力する特徴マップを示している。また、図１４（Ａ）及び（Ｂ）は、ある畳み込み層における第１畳み込みフィルタ群とは異なる一つの畳み込みフィルタ群である第２畳み込みフィルタ群が出力する特徴マップを示している。

　また、図１３（Ａ）は、人の画像を畳み込みニューラルネットワークに入力した際に、第１畳み込みフィルタ群から出力される特徴マップＭＡ４＃１であり、図１４（Ａ）は、その画像を畳み込みニューラルネットワークに入力した際に、第２畳み込みフィルタ群から出力される特徴マップＭＡ４＃２である。

　さらに、図１３（Ｂ）は、船の画像を畳み込みニューラルネットワークに入力した際に、第１畳み込みフィルタ群から出力される特徴マップＭＡ５＃１であり、図１４（Ｂ）は、その画像を畳み込みニューラルネットワークに入力した際に、第２畳み込みフィルタ群から出力される特徴マップＭＡ５＃２である。

　図１３（Ａ）に示されているように、人の画像に対する第１畳み込みフィルタ群の活性化出力である特徴マップＭＡ４＃１は、人の顔の部分が白くなっており、強く活性化されている。
　一方、図１３（Ｂ）に示されているように、船の画像に対する第１畳み込みフィルタ群の活性化出力である特徴マップＭＡ５＃１は、船の部分が白くなっておらず、あまり活性化されていない。

　また、図１４（Ａ）に示されているように、人の画像に対する第２畳み込みフィルタ群の活性化出力である特徴マップＭＡ５＃１は、人の顔の部分が白くなっておらず、あまり活性化されていない。
　一方、図１４（Ｂ）に示されているように、船の画像に対する第２畳み込みフィルタ群の活性化出力である特徴マップＭＡ５＃２は、船の部分が白くなっており、強く活性化されている。

　以上により、第１畳み込みフィルタ群は、人のパーツの特徴を捉えることができるフィルタ群であり、人の検出には重要な畳み込みフィルタ群といえる。逆に、第２畳み込みフィルタ群は、船の特徴を捉えることができる畳み込みフィルタ群であり、人の検出には不要な畳み込みフィルタ群といえる。
　従って、例えば、人を認識する用途で畳み込みニューラルネットワークを使用したい場合、人の特徴を捉えることができる畳み込みフィルタ群を残し、人以外の特徴を捉える畳み込みフィルタ群を削除することで、不要な畳み込みフィルタ群を削除することができる。

　図１２に戻り、特定クラス削除部２１５は、畳み込みニューラルネットワークにある画像を入力したとき、ある畳み込み層の各畳み込みフィルタ群が出力する特徴マップの活性化度を算出する（Ｓ５０）。この活性化度を算出するために入力される画像としては、畳み込みニューラルネットワークで検知したい特定の分類クラスの複数の画像が用いられる。ここで算出される活性化度としては、分類したい特定クラスの複数の画像を入力したときの、ある畳み込みフィルタ群が出力する特徴マップにおける、最大値、分散値、又は、最大値と最小値との差を用いることができる。ここでは、その最大値が用いられているものとして説明する。

　次に、特定クラス削除部２１５は、検知したい特定の分類クラスの複数画像を入力したときの各畳み込みフィルタ群の活性化度の平均値である平均活性化度を算出し、その平均活性化度の小さい順に、対応する畳み込みフィルタ群をソートしたリストを生成する（Ｓ５１）。このリストにより、検知したい特定の分類クラスの画像を検知するために重要な畳み込みフィルタ群を把握できるようになる。

　次に、特定クラス削除部２１５は、生成されたリストを用いて、平均活性化度が低いものから順に、予め定められた削減率ｃ％に対応する部分の畳み込みフィルタ群を削除する（Ｓ５２）。ここで、削減率ｃ％は、（削減するフィルタ群の数）÷（全フィルタ群の数）×１００で算出される値である。なお、この閾値ｃ％は、全畳み込み層で共通であってもよく、畳み込み層毎に異なる値であってもよい。

　次に、特定クラス削除部２１５は、ステップＳ５２において畳み込みフィルタ群を削除したことで、影響を受ける後段の畳み込み層内の各畳み込みフィルタ群内のフィルタを削除する（Ｓ５３）。ここでの処理は、図４のステップＳ２３での処理と同様である。

　次に、特定クラス削除部２１５は、畳み込みフィルタ群が削除された畳み込みニューラルネットワークを再学習する（Ｓ５４）。なお、図２に示されているように、再学習部１１４による再学習が行われるようになっているため、ステップＳ５４での再学習は行われなくてもよい。

　以上のように、ステップＳ５２の処理により、各畳み込み層の中で、それぞれ検知したい特定クラスを強く活性化しない畳み込みフィルタ群が閾値ｃ％の個数だけ各畳み込み層から削除される。

　以上のように、実施の形態２によれば、ステップＳ１０の転移学習の後、ステップＳ１１で情報量の少ない特徴マップを出力する畳み込みフィルタ群が削除された後、ステップＳ４２でさらに検知したい特定クラスを強く活性化しない畳み込みフィルタ群が削除されるため、検知したい特定のクラスの検出精度を維持しつつ、ネットワーク規模をより小さくすることができる。
　なお、ステップＳ１１での処理と、ステップＳ４２での処理の順番については、逆の順番であってもよい。

　また、畳み込みフィルタ群の活性化出力に対して、各畳み込みフィルタ群の活性化出力の平均活性化度を求め、特定クラスをあまり活性化しない不要な畳み込みフィルタ群を削除するようにした利点として、一般に、畳み込みフィルタ群の縦×横のサイズは、５×５、３×３、１×１のように小さなサイズとなっているが、畳み込みフィルタ群の活性化出力は、畳み込みフィルタのサイズよりも大きなサイズとなっている。そのため、畳み込みフィルタ群の重みの大きさの絶対値和又は二乗和を、畳み込みフィルタ群の活性化度として直接求めるよりも、検知したい特定の分類クラスの画像を入力したときのフィルタ出力の平均活性化度を求めるほうが、より大きな情報をもとに活性化度を計算することができる。このため、より的確に削減候補を抽出でき、畳み込みフィルタ群の削除による分類精度劣化の影響を抑えることができる。

実施の形態３．
　実施の形態１及び実施の形態２で記載した情報量の少ない特徴マップを出力するフィルタ群削除処理、冗長性の高い特徴マップを出力するフィルタ群削除処理、及び、検知したい特定クラスを強く活性化しない畳み込みフィルタ群削除処理の全てが行われてもよい。

　図１５は、実施の形態３に係る学習処理装置３００の構成を概略的に示すブロック図である。
　図示するように、学習処理装置３００は、記憶部１０１と、制御部３１０とを備える。
　実施の形態３における学習処理装置３００の記憶部１０１は、実施の形態１における学習処理装置１００の記憶部１０１と同様である。

　制御部３１０は、学習処理装置３００での処理を制御する。例えば、制御部３１０は、ニューラルネットワークでの学習モデルであるニューラルネットワークモデルを学習する。そして、制御部３１０は、畳み込みニューラルネットワークの畳み込みフィルタ群を削除し、ネットワークサイズを小さくする処理を行う。

　制御部３１０は、転移学習部１１１と、情報量削除部１１２と、冗長性削除部１１３と、再学習部１１４と、特定クラス削除部２１５とを備える。
　実施の形態３における制御部３１０の転移学習部１１１、情報量削除部１１２、冗長性削除部１１３及び再学習部１１４は、実施の形態１における制御部１１０の転移学習部１１１、情報量削除部１１２、冗長性削除部１１３及び再学習部１１４と同様である。
　また、実施の形態３における制御部３１０の特定クラス削除部２１５は、実施の形態２における制御部２１０の特定クラス削除部２１５と同様である。

　実施の形態３では、情報量の少ない特徴マップを出力するフィルタ群削除処理、冗長性の高い特徴マップを出力するフィルタ群削除処理、及び、検知したい特定クラスを強く活性化しない畳み込みフィルタ群削除処理が行われるが、これらが行われる順番については、任意の順番でよい。

　実施の形態３によれば、検知したい特定のクラスの検知精度を維持しつつ、よりネットワーク規模を小さくすることができる。

　なお、以上に記載された制御部１１０、２１０、３１０の一部又は全部は、例えば、図１６（Ａ）に示されているように、メモリ１０と、メモリ１０に格納されているプログラムを実行するＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）等のプロセッサ１１とにより構成することができる。言い換えると、学習処理装置１００、２００、３００は、いわゆるコンピュータで実現することができる。そのようなプログラムは、ネットワークを通じて提供されてもよく、また、記録媒体に記録されて提供されてもよい。即ち、このようなプログラムは、例えば、プログラムプロダクトとして提供されてもよい。

　また、制御部１１０、２１０、３１０の一部又は全部は、例えば、図１６（Ｂ）に示されているように、単一回路、複合回路、プログラムで動作するプロセッサ、プログラムで動作する並列プロセッサ、ＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎ　Ｓｐｅｃｉｆｉｃ　Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）又はＦＰＧＡ（Ｆｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）等の処理回路１２で構成することもできる。
　以上のように、制御部１１０、２１０、３１０は、処理回路網により実現することができる。

　以上に記載された実施の形態１～３では、図３のステップＳ１０及び図１１のステップＳ１０における転移学習処理、図３のステップＳ１１及び図１１のステップＳ１１における情報量の少ない特徴マップを出力するフィルタ群を削除する処理、並びに、図３のステップＳ１３及び図１１のステップＳ１３における再学習処理が行われているが、これらの処理の少なくとも何れか一つは行われなくてもよい。

　１００，２００，３００　学習処理装置、　１０１　記憶部、　１１０，２１０，３１０　制御部、　１１１　転移学習部、　１１２　情報量削除部、　１１３　冗長性削除部、　２１５　特定クラス削除部、　１１４　再学習部。

Claims

　複数の畳み込み層を有する再学習前学習済モデルを記憶する記憶部と、
　前記複数の畳み込み層に含まれている少なくとも一つの畳み込み層に含まれている複数の畳み込みフィルタ群から出力される複数の活性化出力間の類似度の平均値である平均類似度を、前記複数の畳み込みフィルタ群毎に算出し、前記平均類似度が最も大きい畳み込みフィルタ群を少なくとも削除する冗長性削除部と、を備えること
　を特徴とする学習処理装置。
　前記冗長性削除部は、前記少なくとも一つの畳み込み層の一つ後段の畳み込み層に含まれている複数の畳み込み群から、前記削除された畳み込みフィルタ群から出力される活性化出力を処理するためのフィルタを削除すること
　を特徴とする請求項１に記載の学習処理装置。
　複数の畳み込み層を有する再学習前学習済モデルを記憶する記憶部と、
　検知する特定のクラスの少なくとも一つの画像を前記畳み込みニューラルネットワークモデルに入力し、前記複数の畳み込み層に含まれている少なくとも一つの畳み込み層に含まれている複数の畳み込みフィルタ群から出力される複数の活性化出力の活性化度の平均値である平均活性化度を、前記複数の畳み込みフィルタ群毎に算出し、前記平均活性化度が最も小さい畳み込みフィルタ群を少なくとも削除する特定クラス削除部と、を備えること
　を特徴とする学習処理装置。
　前記特定クラス削除部は、前記少なくとも一つの畳み込み層の一つ後段の畳み込み層に含まれている複数の畳み込み群から、前記削除された畳み込みフィルタ群から出力される活性化出力処理するためのフィルタを削除すること
　を特徴とする請求項３に記載の学習処理装置。
　コンピュータを、
　複数の畳み込み層を有する再学習前学習済モデルを記憶する記憶部、及び、
　前記複数の畳み込み層に含まれている少なくとも一つの畳み込み層に含まれている複数の畳み込みフィルタ群から出力される複数の活性化出力間の類似度の平均値である平均類似度を、前記複数の畳み込みフィルタ群毎に算出し、前記平均類似度が最も大きい畳み込みフィルタ群を少なくとも削除する冗長性削除部、として機能させること
　を特徴とするプログラム。
　コンピュータを、
　複数の畳み込み層を有する再学習前学習済モデルを記憶する記憶部、及び、
　検知する特定のクラスの少なくとも一つの画像を前記畳み込みニューラルネットワークモデルに入力し、前記複数の畳み込み層に含まれている少なくとも一つの畳み込み層に含まれている複数の畳み込みフィルタ群から出力される複数の活性化出力の活性化度の平均値である平均活性化度を、前記複数の畳み込みフィルタ群毎に算出し、前記平均活性化度が最も小さい畳み込みフィルタ群を少なくとも削除する特定クラス削除部、として機能させること
　を特徴とするプログラム。
　複数の畳み込み層を有する再学習前学習済モデルにおける前記複数の畳み込み層に含まれている少なくとも一つの畳み込み層に含まれている複数の畳み込みフィルタ群から出力される複数の活性化出力間の類似度の平均値である平均類似度を、前記複数の畳み込みフィルタ群毎に算出し、
　前記平均類似度が最も大きい畳み込みフィルタ群を少なくとも削除すること
　を特徴とする学習処理方法。
　複数の畳み込み層を有する再学習前学習済モデルに、検知する特定のクラスの少なくとも一つの画像を入力し、
　前記複数の畳み込み層に含まれている少なくとも一つの畳み込み層に含まれている複数の畳み込みフィルタ群から出力される複数の活性化出力の活性化度の平均値である平均活性化度を、前記複数の畳み込みフィルタ群毎に算出し、
　前記平均活性化度が最も小さい畳み込みフィルタ群を少なくとも削除すること
　を特徴とする学習処理方法。