WO2024014002A1

WO2024014002A1 - 推論処理装置、推論処理方法、及び推論処理プログラム

Info

Publication number: WO2024014002A1
Application number: PCT/JP2022/027940
Authority: WO
Inventors: 優也大森; 周平吉田; 健中村; 大祐小林; 彩希八田; 寛之鵜澤; 宥光飯沼
Original assignee: 日本電信電話株式会社
Priority date: 2022-07-15
Filing date: 2022-07-15
Publication date: 2024-01-18

Abstract

推論処理装置は、畳み込みニューラルネットワークのレイヤをチャネル方向で複数のサブレイヤに分割する分割部と、サブレイヤ毎に畳み込み処理を実行することで畳み込み結果を出力する畳み込み部と、畳み込み処理が実行される都度、畳み込み結果にバイアスを加算するための加算器で、１つ前のサブレイヤまでの畳み込み結果を累積加算した中間値を畳み込み結果に加算することで加算結果を出力する加算部と、最後に畳み込み処理が実行された最後のサブレイヤの畳み込み結果を加算した加算結果を活性化関数に入力する活性化部と、を備える。

Description

推論処理装置、推論処理方法、及び推論処理プログラム

　開示の技術は、ニューラルネットワークにおける畳み込み処理を行う推論処理装置、推論処理方法、及び推論処理プログラムに関する。

　ＣＮＮ（Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）において、ネットワークモデルは複数のレイヤで構成され、畳み込み層（Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｌａｙｅｒ）で畳み込み処理を行う。畳み込み処理では、前のレイヤなどで出力された入力特徴マップと、重み係数であるカーネルデータとを入力とする。そして、畳み込み処理では、入力特徴マップとカーネルデータとで積和演算したものにバイアスを加算し、活性化関数処理を行うことで、出力特徴マップを出力として取得する。

　ＣＮＮの推論処理又は学習処理を行う場合において、ネットワークモデルのカーネルデータのデータサイズが相対的に大きい場合、一度に全てのカーネルデータを計算機又は専用ハードウェアのメモリ上に載せることができないことがある。そこで、ネットワークモデルを分割して処理することがある。具体的に、ネットワークモデルを分割することで、カーネルデータを分割し、分割されたそれぞれのカーネルデータを一度にメモリ上に載せることができるようにする。

　例えば、非特許文献１では、各レイヤの特徴マップをチャネル方向に２分割し、２台のハードウェアを並列に動作させて学習を行う技術が開示されている。分割されたネットワークモデル及びカーネルデータは、別々のハードウェアで並列に処理してもよいし、同一のハードウェアで順番に処理してもよい。例えば、同一のハードウェアで順番にＣＮＮの推論処理を実行する場合、ネットワークモデルを入力チャネル方向にｎ個に分割し、ｎ個のうち１個のカーネルデータのみをメモリに格納し、同一のハードウェアで順番に畳み込み処理を実行すれば、メモリに同時に格納する必要のあるカーネルデータのサイズは、ネットワークモデルを分割しない場合に比較して１／ｎですむ。

　ここで、ＣＮＮの推論処理を実行するハードウェアは、高速、高価、かつ低容量のメモリと、低速、安価、かつ大容量のメモリとで構成された、複数段階のメモリ構成を取ることが多い。例えば専用ハードウェアの場合、ＬＳＩ（Ｌａｒｇｅ　Ｓｃａｌｅ　Ｉｎｔｅｇｒａｔｉｏｎ）等の内部にＳＲＡＭ（Ｓｔａｔｉｃ　Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）等の高速、高価、かつ低容量の内部メモリを含む事が多い。また、ＬＳＩ等の外部にＤＲＡＭ（Ｄｙｎａｍｉｃ　Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）等の低速、安価、かつ大容量の外部メモリを含む事が多い。この場合、外部メモリに全てのカーネルデータを記憶し、内部メモリに現在の処理で必要となる１／ｎのサイズのカーネルデータだけを適宜外部メモリから読み出すことで、内部メモリのサイズを低減することができる。

Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffrey E. (2017-05-24). "ImageNet classification with deep convolutional neural networks". Communications of the ACM 60 (6): 84-90. doi:10.1145/3065386. ISSN 0001-0782.

　しかし、ネットワークモデルを入力チャネルで複数に分割し、同一のハードウェアで順番に畳み込み層の推論処理をする場合、分割した個数分の畳み込み結果を最終的に統合するための加算回路を追加する必要がある。また、全ての入力チャネルが加算された畳み込み結果に対して活性化関数を適用する必要もある。また、一度外部メモリに記憶されている分割した個数分の畳み込み結果を、最後に再び読み込んでから加算回路において加算処理を行うため、処理時間が増加する可能性がある。

　開示の技術は、上記の点に鑑みてなされたものであり、ハードウェア資源及び処理時間の増加を抑えつつ、汎用的に対応可能な畳み込み処理を行うことができる、推論処理装置、推論処理方法、及び推論処理プログラムを提供することを目的とする。

　本開示の第１態様は、推論処理装置であって、畳み込みニューラルネットワークのレイヤをチャネル方向で複数のサブレイヤに分割する分割部と、前記サブレイヤ毎に畳み込み処理を実行することで畳み込み結果を出力する畳み込み部と、前記畳み込み処理が実行される都度、畳み込み結果にバイアスを加算するための加算器で、１つ前のサブレイヤまでの前記畳み込み結果を累積加算した中間値を前記畳み込み結果に加算することで加算結果を出力する加算部と、最後に前記畳み込み処理が実行された最後のサブレイヤの前記畳み込み結果を加算した前記加算結果を活性化関数に入力する活性化部と、を含む。

　本開示の第２態様は、推論処理方法であって、分割部が、畳み込みニューラルネットワークのレイヤをチャネル方向で複数のサブレイヤに分割し、畳み込み部が、前記サブレイヤ毎に畳み込み処理を実行することで畳み込み結果を出力し、加算部が、前記畳み込み処理が実行される都度、畳み込み結果にバイアスを加算するための加算器で、１つ前のサブレイヤまでの前記畳み込み結果を累積加算した中間値を前記畳み込み結果に加算することで加算結果を出力し、活性化部が、最後に前記畳み込み処理が実行された最後のサブレイヤの前記畳み込み結果を加算した前記加算結果を活性化関数に入力する。

　本開示の第３態様は、推論処理プログラムであって、コンピュータを、上記第１態様の推論処理装置の各部として機能させるためのプログラムである。

　開示の技術によれば、ハードウェア資源及び処理時間の増加を抑えつつ、汎用的に対応可能な畳み込み処理を行うことができる。

実施形態に係る推論処理装置のハードウェア構成の一例を示す模式図である。実施形態に係る推論処理装置の機能構成の一例を示すブロック図である。実施形態に係る１つのレイヤから３つのサブレイヤに分割した場合に、各サブレイヤに実行する畳み込み処理の流れの一例を示す模式図である。実施形態に係る畳み込み結果をバイアス用加算器で加算する処理の流れの一例を示す模式図である。実施形態に係る加算結果を入力する関数の一例を示す模式図である。実施形態に係る加算結果をバイアス用加算器で加算する処理の流れの一例を示す模式図である。実施形態に係るビット精度の一例について説明するための模式図である。実施形態に係る分割されていないレイヤの設定の一例を示すための模式図である。実施形態に係る分割されているレイヤの設定の一例を示すための模式図である。実施形態に係る推論処理装置における推論処理の一例を示すフローチャートである。内部メモリに３２チャネル分のデータが格納できる場合に、従来技術で実行される処理の一例を示すための模式図である。

　以下、開示の技術の実施形態の一例を、図面を参照しつつ説明する。なお、各図面において同一又は等価な構成要素及び部分には同一の参照符号を付与している。また、図面の寸法比率は、説明の都合上誇張されており、実際の比率とは異なる場合がある。

　まず、本実施形態に係る推論処理装置１０のハードウェア構成を説明する。図１に示すように、推論処理装置１０は、ＬＳＩ２０、及び外部メモリ３０を有する。各構成は、バス１９を介して相互に通信可能に接続されている。

　記憶部としての外部メモリ３０は、ＬＳＩ２０の外部メモリであり、例えばＤＲＡＭが適用される。

　ＬＳＩ２０はＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）２１、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）２２、内部メモリ２３、畳み込み用演算器２４、バイアス用加算器２５、及び活性化用演算器２６を有する。

　ＣＰＵ２１は、中央演算処理ユニットであり、各種プログラムを実行したり、各部を制御したりする。すなわち、ＣＰＵ２１は、ＲＯＭ２２からプログラムを読み出し、内部メモリ２３を作業領域としてプログラムを実行する。ＣＰＵ２１は、ＲＯＭ２２に記憶されているプログラムに従って、上記各構成の制御及び各種の演算処理を行う。本実施形態では、ＲＯＭ２２には、推論処理プログラムが格納されている。推論処理プログラムは、１つのプログラムであってもよいし、複数のプログラム又はモジュールで構成されるプログラム群であってもよい。

　ＲＯＭ２２は、各種プログラム及び各種データを格納する。内部メモリ２３は、作業領域として一時的にプログラム又はデータを記憶する。例えば内部メモリ２３として、ＳＲＡＭが適用される。

　畳み込み用演算器２４は、畳み込み処理を実行する演算器である。バイアス用加算器２５は、畳み込み結果にバイアスを加算する加算器である。活性化用演算器２６は、入力値に活性化関数を適用する演算器である。

　次に、推論処理装置１０の機能構成について説明する。図２に示すように、推論処理装置１０は、分割部１０１、畳み込み部１０２、加算部１０３、及び活性化部１０４を備えている。各機能構成は、ＣＰＵ２１がＲＯＭ２２に記憶された推論処理プログラムを読み出し、内部メモリ２３に展開して実行することにより実現される。

　分割部１０１は、畳み込みニューラルネットワークのレイヤをチャネル方向で複数のサブレイヤに分割する。具体的に、分割部１０１は、外部メモリ３０に記憶されたレイヤをチャネル方向で複数のサブレイヤに分割する。分割部１０１は、内部メモリ２３に記憶できる範囲の入力チャネル数を１単位として、レイヤを分割する。例えば、内部メモリ２３の容量が４ＭＢｙｔｅで、あるレイヤが３×３カーネル、２０４８入力チャネル、及び１０２４出力チャネルで、当該レイヤの精度が８ｂｉｔである場合、カーネルデータは３＊３＊２０４８＊１０２４＊８ｂｉｔで１８ＭＢｙｔｅとなるので、分割部１０１は、１８／４で５つ以上のサブレイヤに分割する。そして、（４＊８ｂｉｔ＊１０２４＊１０２４）／（３＊３＊１０２４＊８ｂｉｔ）は４５５であるため、分割部１０１は、１つのサブレイヤあたりの入力チャネル数を４５５以下に抑える。そして、分割部１０１は、分割した１つのサブレイヤを畳み込み部１０２に受け渡す。

　畳み込み部１０２は、分割部１０１から受け渡されたサブレイヤ毎に畳み込み処理を実行することで畳み込み結果を出力する。具体的に、畳み込み部１０２は、外部メモリ３０から読み出した１つのサブレイヤを内部メモリ２３に格納し、当該格納したサブレイヤに畳み込み用演算器２４で畳み込み処理を実行する。そして、畳み込み部１０２は、畳み込み結果（すなわち、サブレイヤから出力される中間出力である特徴マップ）を加算部１０３に受け渡す。

　図３に、１つのレイヤから３つのサブレイヤに分割した場合に、各サブレイヤに実行する畳み込み処理の流れを示す。以下では、最初に畳み込み処理を実行するサブレイヤを最初のサブレイヤといい、最後に畳み込み処理を実行するサブレイヤを最後のサブレイヤといい、最初のサブレイヤと最後のサブレイヤ以外のサブレイヤを中間のサブレイヤという。

　図３に示すように、畳み込み部１０２は、外部メモリ３０から最初のサブレイヤとしてのサブレイヤ０を読み出し、内部メモリ２３に格納する。そして、畳み込み部１０２は、サブレイヤ０に畳み込み用演算器２４で畳み込み処理を実行し、バイアス用加算器２５に受け渡す。また、畳み込み部１０２は、外部メモリ３０から中間のサブレイヤとしてのサブレイヤ１を読み出し、内部メモリ２３に格納する。そして、畳み込み部１０２は、サブレイヤ１に畳み込み用演算器２４で畳み込み処理を実行し、バイアス用加算器２５に受け渡す。また、畳み込み部１０２は、外部メモリ３０から最後のサブレイヤとしてのサブレイヤ２を読み出し、内部メモリ２３に格納する。そして、畳み込み部１０２は、サブレイヤ２に畳み込み用演算器２４で畳み込み処理を実行し、バイアス用加算器２５に受け渡す。なお、分割部１０１が１つのレイヤを５つのサブレイヤに分割した場合、最初のサブレイヤは１つで、中間のサブレイヤは３つで、最後のサブレイヤは１つとなる。

　以下では、畳み込み部１０２が外部メモリ３０から読み出したサブレイヤを現サブレイヤという。そして、現サブレイヤの１つ前に畳み込み部１０２が外部メモリ３０から読み出したサブレイヤを直前サブレイヤという。

　加算部１０３は、畳み込み部１０２で畳み込み処理が実行される都度、バイアス用加算器２５で、１つ前のサブレイヤまでの畳み込み結果を累積加算した中間値を畳み込み結果に加算することで加算結果を出力する。具体的に、加算部１０３は、最初のサブレイヤの畳み込み結果が受け渡されると、当該最初のサブレイヤの畳み込み結果に外部メモリ３０から読み出したバイアスを、バイアス用加算器２５で加算する。そして、加算部１０３は、当該最初のサブレイヤの畳み込み結果とバイアスとの加算結果を活性化部１０４に受け渡す。

　そして、２番目に畳み込み処理が実行された２番目のサブレイヤの畳み込み結果が受け渡されてからは、加算部１０３は、外部メモリ３０に記憶された直前サブレイヤまでの加算結果に、現サブレイヤの畳み込み結果を加算する。直前サブレイヤまでの加算結果とは、後述する活性化部１０４が外部メモリ３０に記憶した加算結果としての１つ前のサブレイヤまでの畳み込み結果を累積加算した中間値である。そして、加算部１０３は、直前サブレイヤまでの加算結果と現サブレイヤの畳み込み結果との加算結果を活性化部１０４に受け渡す。具体的に、加算部１０３は、バイアス用加算器２５において本来バイアスが設定される場所に上書きする形で、直前サブレイヤまでの加算結果を設定する。バイアスは１回だけ加算できればよいので、最初のサブレイヤの畳み込み結果にバイアスを加算できれば、２番目のサブレイヤ以降では、バイアスを加算する必要はないからである。サブレイヤ同士の加算を既存のバイアス用加算器２５で行うことで、ハードウェア資源を追加せずに畳み込み結果を得ることができる。

　図４に、畳み込み結果をバイアス用加算器２５で加算する処理の流れを示す。図４に示すように、加算部１０３は、最初のサブレイヤの畳み込み結果に外部メモリ３０から読み出したバイアスを、バイアス用加算器２５で加算する。そして、加算部１０３は、中間のサブレイヤの畳み込み結果に、外部メモリ３０から読み出した直前サブレイヤまでの加算結果を、バイアス用加算器２５で加算する。また、加算部１０３は、最後のサブレイヤの畳み込み結果に対しても、外部メモリ３０から読み出した直前サブレイヤまでの加算結果を、バイアス用加算器２５で加算する。

　活性化部１０４は、最後のサブレイヤの畳み込み結果を加算した加算結果が受け渡されると、当該加算結果を活性化関数（例えば、ｒｅｌｕ関数等）に入力し、算出した特徴マップを外部メモリ３０に記憶する。以下では、活性化部１０４が出力した特徴マップを出力特徴マップ（ｏｆｍａｐ：Ｏｕｔｐｕｔ　Ｆｅａｔｕｒｅ　Ｍａｐ）という。

　また、活性化部１０４は、最後のサブレイヤの畳み込み結果を加算した加算結果が加算部１０３から受け渡されるまでは、活性化関数を適用せず、受け渡された加算結果を比例定数が１で切片が０の１次関数（Ｙ＝Ｘ）に入力する。これにより、活性化部１０４は、実質的に加算結果を活性化関数に入力せずに、加算部１０３から受け渡された加算結果をそのまま外部メモリ３０に記憶する。

　図５に、加算結果を入力する関数を示す。図５に示すように、活性化部１０４は、活性化用演算器２６で、最初のサブレイヤの畳み込み結果とバイアスとが加算された値を、比例定数が１で切片が０の１次関数に入力し、加算結果を外部メモリ３０に記憶する。そして、活性化部１０４は、活性化用演算器２６で、中間のサブレイヤの畳み込み結果と直前サブレイヤまでの加算結果とが加算された値を上記１次関数に入力し、加算結果を外部メモリ３０に上書きする。そして、活性化部１０４は、活性化用演算器２６で、最後のサブレイヤの畳み込み結果と直前サブレイヤまでの加算結果とが加算された値を活性化関数に入力し、算出した最終的な出力特徴マップを外部メモリ３０に記憶する。

　図６に、加算結果をバイアス用加算器２５で加算する処理の流れを示す。図６に示すように、活性化部１０４は、最初のサブレイヤの畳み込み結果を加算した加算結果、又は中間のサブレイヤの畳み込み結果を加算した加算結果が受け渡されると、当該加算結果をそのまま外部メモリ３０に記憶する。そして、加算部１０３は、中間のサブレイヤの畳み込み結果又は最後のサブレイヤの畳み込み結果に、外部メモリ３０から読み出した加算結果を、バイアス用加算器２５で加算する。そして、活性化部１０４は、最後のサブレイヤの畳み込み結果を加算した加算結果を活性化関数に入力し、最終的な出力特徴マップを外部メモリ３０に記憶する。

　次に、各サブレイヤのビット精度について説明する。

　本実施形態では、加算部１０３は、最後のサブレイヤの畳み込み結果が畳み込み部１０２から入力されるまでは、出力する加算結果のビット精度を、活性化部１０４が最後のサブレイヤの畳み込み結果を加算した加算結果に活性化関数を入力して算出する値のビット精度より高くしている。具体的に、加算部１０３は、畳み込み部１０２から入力されたまままのビット精度で出力する。また、活性化部１０４は、最後のサブレイヤの畳み込み結果を加算した加算結果が入力されるまでは、外部メモリ３０に記憶する加算結果のビット精度を、最後のサブレイヤの畳み込み結果を加算した加算結果に活性化関数を入力して算出する値のビット精度より高くしている。具体的に、活性化部１０４は、加算部１０３から入力されたままのビット精度で出力する。活性化部１０４は、最後のサブレイヤの畳み込み結果を加算した加算結果が入力されるまでは、実際の出力特徴マップではなく、加算部１０３から入力された加算結果を外部メモリ３０に記憶する。最後のサブレイヤ以外のサブレイヤの出力のビット精度を、最後のサブレイヤの出力のビット精度と同一にしてしまうと、レイヤを分割しない場合と比べて、演算精度が低下するからである。これにより、演算精度を犠牲にしてビット精度を変更する必要がなく、外部メモリ３０への転送データを削減することが可能となる。

　例えば、入力特徴マップが８ｂｉｔで、カーネルデータが８ｂｉｔの場合、そのまま乗算すると１６ｂｉｔになるため、推論処理装置１０は畳み込み処理の中間結果を８ｂｉｔではなく１６ｂｉｔ以上で保持する。推論処理装置１０が１回の畳み込みのたびに１６ｂｉｔを８ｂｉｔに落とした上で８ｂｉｔのまま累積加算すると、演算精度が大きく劣化するためである。そして、推論処理装置１０は、累積加算が終わった後（もしくは更に後の、バイアスの加算後又は活性化関数への入力後）、畳み込み処理の中間結果を出力特徴マップのビット精度まで落とす。具体的に、上述した例では、推論処理装置１０は畳み込み処理の中間結果を１６ｂｉｔから８ｂｉｔまで落とす。

　図７に、ビット精度について説明するための模式図を示す。図７に示すように、加算部１０３は、最初のサブレイヤの畳み込み結果を加算した加算結果と中間のサブレイヤの畳み込み結果を加算した加算結果については、ビット精度をそのままにしてバイアス用加算器２５から活性化用演算器２６に受け渡している。そして、活性化部１０４は、最初のサブレイヤの畳み込み結果を加算した加算結果と中間のサブレイヤの畳み込み結果を加算した加算結果については、ビット精度をそのままにして活性化用演算器２６から外部メモリ３０に記憶している。そして、加算部１０３は、最後のサブレイヤの畳み込み結果に対して、活性化部１０４によってビット精度をそのままにして記憶された直前サブレイヤの加算結果を加算する。

　次に、各サブレイヤに設定された設定について説明する。

　図８に分割されてないレイヤ０及びレイヤ１の設定の例を示す。そして、図９にレイヤ０、及び、レイヤ１から分割されたサブレイヤ０とサブレイヤ１とサブレイヤ２との設定の例を示す。サブレイヤ０は最初のサブレイヤで、サブレイヤ１は中間のサブレイヤで、サブレイヤ２は最後のサブレイヤである。図９に示す通り、各サブレイヤには、分割されてないレイヤと同様に、関数及びバイアス等が設定されている。したがって、ＣＮＮ用のハードウェアは、サブレイヤを１つのレイヤのようにみなして汎用的に処理できる。これにより、ハードウェア資源や処理時間の増加を抑えながらも、汎用的に対応可能な畳み込み処理を行うことが可能となる。

　入力チャネル数については、図８に示すように、分割前のレイヤ１に３０００入力チャネルとして設定されている場合、図９に示すように、サブレイヤ０、サブレイヤ１、サブレイヤ２は全て１０００入力チャネルとして設定される。なお、図９に示す例では、入力チャネルが３つに均等に分割されているが、この例に限られない。１つのサブレイヤの入力チャネル数は、内部メモリ２３に記憶できるデータサイズであれば均等に分割されていなくてもよい。

　カーネルデータについては、図８に示すように、分割前のレイヤ１にカーネル１が設定されている場合、図９に示すように、サブレイヤ０についてはカーネル１のうち先頭１／３の入力チャネルに相当するデータが、サブレイヤ１についてはカーネル１のうち中間１／３の入力チャネルに相当するデータが、サブレイヤ２についてはカーネル１のうち末尾１／３の入力チャネルに相当するデータが設定されている。

　バイアスについては、図８に示すように、分割前のレイヤ１にバイアス１が設定されている場合、図９に示すように、サブレイヤ０については実際のバイアスであるバイアス１が、サブレイヤ１についてはサブレイヤ０までの加算結果が、サブレイヤ２についてはサブレイヤ１までの加算結果が設定されている。なお、実際の推論処理装置１０への設定としては、外部メモリ３０上の該当するデータのアドレスを、リードアドレスとして指定すればよい。

　活性化用演算器２６に設定する関数は、図８に示すように、分割前のレイヤ１に活性化関数としてのＹ＝ｆ１（ｘ）が設定されている場合、図９に示すように、サブレイヤ０及びサブレイヤ１についてはＹ＝Ｘの一次関数が設定され、サブレイヤ２については活性化関数としてのＹ＝ｆ１（ｘ）が設定される。

　出力特徴マップのビット精度は、図８に示すように、分割前のレイヤ１にｂ２が設定されている場合、図９に示すように、サブレイヤ２についてもｂ２が設定される。そして、サブレイヤ０及びサブレイヤ１にはｂ＿ｔｍｐが設定される。ｂ＿ｔｍｐは、演算精度の劣化を抑えるため、本来の出力特徴マップの精度ではなく畳み込み処理中の精度に設定されている。

　次に、本実施形態に係る推論処理装置１０の作用について説明する。

　図１０は、推論処理装置１０による推論処理の流れを示すフローチャートである。ＣＰＵ２１がＲＯＭ２２から推論処理プログラムを読み出して、内部メモリ２３に展開して実行することにより、推論処理が行なわれる。

　ステップＳ１００で、ＣＰＵ２１は、分割部１０１として、レイヤをチャネル方向で複数のサブレイヤに分割する。

　ステップＳ１０１で、ＣＰＵ２１は、畳み込み部１０２として、受け渡された１つのサブレイヤに畳み込み処理を実行することで畳み込み結果を出力する。

　ステップＳ１０２で、ＣＰＵ２１は、加算部１０３として、出力された畳み込み結果が最初のサブレイヤの畳み込み結果であるか否かを判定する。ＣＰＵ２１は、出力された畳み込み結果が最初のサブレイヤである場合（ステップＳ１０２：ＹＥＳ）、ステップＳ１０３に移行する。一方、ＣＰＵ２１は、出力された畳み込み結果が最初のサブレイヤでない場合（ステップＳ１０２：ＮＯ）、ステップＳ１０４に移行する。

　ステップＳ１０３で、ＣＰＵ２１は、加算部１０３として、出力された最初のサブレイヤの畳み込み結果にバイアスを加算する。

　ステップＳ１０４で、ＣＰＵ２１は、加算部１０３として、出力された最初のサブレイヤ以外のサブレイヤの畳み込み結果に加算結果を加算する。

　ステップＳ１０５で、ＣＰＵ２１は、活性化部１０４として、出力された加算結果が最後のサブレイヤの畳み込み結果を加算した加算結果であるか否かを判定する。ＣＰＵ２１は、出力された加算結果が最後のサブレイヤの畳み込み結果を加算した加算結果である場合（ステップＳ１０５：ＹＥＳ）、ステップＳ１０６に移行する。一方、ＣＰＵ２１は、出力された加算結果が最後のサブレイヤの畳み込み結果を加算した加算結果でない場合（ステップＳ１０５：ＮＯ）、ステップＳ１０８に移行する。

　ステップＳ１０６で、ＣＰＵ２１は、活性化部１０４として、最後のサブレイヤの畳み込み結果を加算した加算結果を活性化関数に入力する。

　ステップＳ１０７で、ＣＰＵ２１は、活性化部１０４として、最終的な出力特徴マップを外部メモリ３０に記憶し、本推論処理を終了する。

　ステップＳ１０８で、ＣＰＵ２１は、活性化部１０４として、受け渡された加算結果を比例定数が１で切片が０の１次関数に入力する。

　ステップＳ１０９で、ＣＰＵ２１は、活性化部１０４として、加算結果を外部メモリ３０に記憶し、ステップＳ１０１に戻る。

　次に、本実施形態に係る推論処理装置１０の効果について説明する。

　図１１に、内部メモリに３２チャネル分のデータが格納できる場合に、従来技術で実行される処理を示す。図１１に示すように、従来技術においては、カーネルデータを入力チャネルで３２チャネルずつに分割して順番に内部メモリに読み込んで畳み込み処理を実行する。そして、畳み込み結果は外部メモリに記憶される。この場合、外部メモリに記憶された３２個の畳み込み結果をハードウェア内部に読み出したうえで、３２個の畳み込み結果を最終的に統合する必要がある。したがって、畳み込み結果を統合するための加算回路をハードウェア内部に追加する必要がある。また、最終的な出力特徴マップを得るためには、全ての入力チャネルが加算された畳み込み結果に対して活性化関数を適用する必要もある。さらに、処理時間が増加する可能性がある。

　この課題に対し、本実施形態に係る推論処理装置１０では、レイヤを複数のサブレイヤに分割し、既存の演算回路を用いて最終的な演算結果を算出することで、ハードウェア資源及び処理時間の増加を抑えつつ、汎用的に対応可能な畳み込み処理を行うことができる。

＜変形例＞
　なお、本開示は、上述した実施形態に限定されるものではなく、この開示の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

　また、上記実施形態でＣＰＵがソフトウェア（プログラム）を読み込んで実行した各種処理を、ＣＰＵ以外の各種のプロセッサが実行してもよい。この場合のプロセッサとしては、ＦＰＧＡ（Ｆｉｅｌｄ－Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）等の製造後に回路構成を変更可能なＰＬＤ（Ｐｒｏｇｒａｍｍａｂｌｅ　Ｌｏｇｉｃ　Ｄｅｖｉｃｅ）、及びＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎ　Ｓｐｅｃｉｆｉｃ　Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が例示される。また、推論処理を、これらの各種のプロセッサのうちの１つで実行してもよいし、同種又は異種の２つ以上のプロセッサの組み合わせ（例えば、複数のＦＰＧＡ、及びＣＰＵとＦＰＧＡとの組み合わせ等）で実行してもよい。また、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子等の回路素子を組み合わせた電気回路である。

　また、上記実施形態では、推論プログラムがＲＯＭ２２に予め記憶（インストール）されている態様を説明したが、これに限定されない。プログラムは、ＣＤ－ＲＯＭ（Ｃｏｍｐａｃｔ　Ｄｉｓｋ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ＤＶＤ－ＲＯＭ（Ｄｉｇｉｔａｌ　Ｖｅｒｓａｔｉｌｅ　Ｄｉｓｋ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、及びＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）メモリ等の非一時的（ｎｏｎ－ｔｒａｎｓｉｔｏｒｙ）記憶媒体に記憶された形態で提供されてもよい。また、プログラムは、ネットワークを介して外部装置からダウンロードされる形態としてもよい。

　以上の実施形態に関し、更に以下の付記を開示する。

　（付記項１）
　推論装置であって、
　メモリと、
　前記メモリに接続された少なくとも１つのプロセッサと、
　を含み、
　前記プロセッサは、
　畳み込みニューラルネットワークのレイヤをチャネル方向で複数のサブレイヤに分割し、
　前記サブレイヤ毎に畳み込み処理を実行することで畳み込み結果を出力し、
　前記畳み込み処理が実行される都度、畳み込み結果にバイアスを加算するための加算器で、１つ前のサブレイヤまでの前記畳み込み結果を累積加算した中間値を前記畳み込み結果に加算することで加算結果を出力し、
　最後に前記畳み込み処理が実行された最後のサブレイヤの前記畳み込み結果を加算した前記加算結果を活性化関数に入力する、
　ように構成される推論装置。

　（付記項２）
　推論処理を実行するようにコンピュータによって実行可能なプログラムを記憶した非一時的記憶媒体であって、
　前記推論処理は、
　畳み込みニューラルネットワークのレイヤをチャネル方向で複数のサブレイヤに分割し、
　前記サブレイヤ毎に畳み込み処理を実行することで畳み込み結果を出力し、
　前記畳み込み処理が実行される都度、畳み込み結果にバイアスを加算するための加算器で、１つ前のサブレイヤまでの前記畳み込み結果を累積加算した中間値を前記畳み込み結果に加算することで加算結果を出力し、
　最後に前記畳み込み処理が実行された最後のサブレイヤの前記畳み込み結果を加算した前記加算結果を活性化関数に入力する、
　非一時的記憶媒体。

１０   推論処理装置
１９   バス
２０   ＬＳＩ
２１   ＣＰＵ
２２   ＲＯＭ
２３   内部メモリ
２４   畳み込み用演算器
２５   バイアス用加算器
２６   活性化用演算器
３０   外部メモリ
１０１分割部
１０２畳み込み部
１０３加算部
１０４活性化部

Claims

　畳み込みニューラルネットワークのレイヤをチャネル方向で複数のサブレイヤに分割する分割部と、
　前記サブレイヤ毎に畳み込み処理を実行することで畳み込み結果を出力する畳み込み部と、
　前記畳み込み処理が実行される都度、畳み込み結果にバイアスを加算するための加算器で、１つ前のサブレイヤまでの前記畳み込み結果を累積加算した中間値を前記畳み込み結果に加算することで加算結果を出力する加算部と、
　最後に前記畳み込み処理が実行された最後のサブレイヤの前記畳み込み結果を加算した前記加算結果を活性化関数に入力する活性化部と、
　を備える推論処理装置。
　前記活性化部は、前記最後のサブレイヤの前記畳み込み結果を加算した前記加算結果が前記加算部から入力されるまでは、前記活性化関数を適用せず、入力された前記加算結果をそのまま記憶部に記憶する、請求項１に記載の推論処理装置。
　前記加算部は、最初に前記畳み込み処理が実行された最初のサブレイヤについては、前記加算器により前記バイアスを前記畳み込み結果に加算し、２番目に前記畳み込み処理が実行された２番目のサブレイヤの前記畳み込み結果が前記畳み込み部から入力されてからは、前記加算器により、前記記憶部から読み出した前記加算結果を前記畳み込み結果に加算する、請求項２に記載の推論処理装置。
　前記活性化部は、前記最後のサブレイヤの前記畳み込み結果を加算した前記加算結果が前記加算部から入力されるまでは、入力された前記加算結果を比例定数が１で切片が０の１次関数に入力する、請求項２に記載の推論処理装置。
　前記加算部は、前記最後のサブレイヤの前記畳み込み結果が前記畳み込み部から入力されるまでは、出力する前記加算結果のビット精度を、前記活性化部が前記最後のサブレイヤの前記畳み込み結果を加算した前記加算結果に前記活性化関数を入力して算出する値のビット精度より高くする、請求項１に記載の推論処理装置。
　前記活性化部は、前記最後のサブレイヤの前記畳み込み結果を加算した前記加算結果が入力されるまでは、前記記憶部に記憶する前記加算結果のビット精度を、前記最後のサブレイヤの前記畳み込み結果を加算した前記加算結果に前記活性化関数を入力して算出する値のビット精度より高くする、請求項２に記載の推論処理装置。
　分割部が、畳み込みニューラルネットワークのレイヤをチャネル方向で複数のサブレイヤに分割し、
　畳み込み部が、前記サブレイヤ毎に畳み込み処理を実行することで畳み込み結果を出力し、
　加算部が、前記畳み込み処理が実行される都度、畳み込み結果にバイアスを加算するための加算器で、１つ前のサブレイヤまでの前記畳み込み結果を累積加算した中間値を前記畳み込み結果に加算することで加算結果を出力し、
　活性化部が、最後に前記畳み込み処理が実行された最後のサブレイヤの前記畳み込み結果を加算した前記加算結果を活性化関数に入力する、
　推論処理方法。
　コンピュータを、請求項１に記載の推論処理装置の各部として機能させるための推論処理プログラム。