WO2022259427A1

WO2022259427A1 - 画像処理装置、画像処理方法、及び画像処理プログラム

Info

Publication number: WO2022259427A1
Application number: PCT/JP2021/021935
Authority: WO
Inventors: 優也大森; 健中村; 高庸新田; 寛之鵜澤; 大祐小林; 彩希八田; 周平吉田
Original assignee: 日本電信電話株式会社
Priority date: 2021-06-09
Filing date: 2021-06-09
Publication date: 2022-12-15
Also published as: EP4354387A1; JPWO2022259574A1; WO2022259574A1

Abstract

畳み込み処理を行う際に、畳み込み処理の入力となる入力特徴マップを小領域に分割し、小領域を構成する特徴が、予め定められた特徴、又は過去に処理された小領域の特徴と同じ場合、小領域に対する畳み込み処理を行わず、予め定められた特徴に対して処理された結果、又は過去に処理された結果を、小領域を処理した結果として出力する。

Description

画像処理装置、画像処理方法、及び画像処理プログラム

　本開示の技術は、画像処理装置、画像処理方法、及び画像処理プログラムに関する。

　ＣＮＮ（Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）を用いた推論を行う場合，ネットワークは複数の層で構成され，畳み込み層（Ｃｏｎｖｏｌｕｔｉｏｎａｌ　ｌａｙｅｒ）では畳み込み処理を行う。畳み込み処理は積和演算や活性化処理を行う。

　ＣＮＮを用いた推論においては、上記の畳み込み演算が全体処理量の大部分を占める。

　ハードウェアとしてＣＮＮを用いた推論エンジンを実装する場合においても、畳み込み演算の性能がエンジン全体の性能に直結する。

　カーネルサイズが３×３である場合における畳み込み演算の例を図１５、図１６に示す。図１５では、３×３のカーネルを用いて、３×３の入力特徴マップに対して畳み込み演算を行う例を示している。この例では、９回の積和演算を行い、１×１の出力特徴マップを出力する。

　また、図１６では、３×３のカーネルを用いて、（Ｗ＋２）×（Ｈ＋２）の入力特徴マップに対して畳み込み演算を行う例を示している。この例では、カーネルを入力特徴マップ上で動かしながら９回の積和演算を繰り返し行い、Ｗ×Ｈの出力特徴マップを出力する。

　ＣＮＮの畳み込み演算を行うハードウェアでは、スループットを高めるため、入力特徴マップをある固定サイズの小領域に分割し、１つの小領域への積和演算を一度に行えるように回路を用意することが多い（図１７参照）。図１７では、２６×１４の入力特徴マップを、９個の１０×６の小領域に分割し、演算回路が、３×３のカーネルを用いて３２点（８×４点）同時に畳み込み処理を行い、８×４の出力特徴マップを出力する例を示している。この例では、入力特徴マップのドット部分が、１つの小領域であり、演算回路が、９個の小領域の各々に対して、３２点同時の畳み込み処理を行うことにより、２４×１２の出力特徴マップを出力する。

　また、演算高速化手法の１つとして、図１８に示すように、入力特徴マップの小領域の値が全てゼロの場合に演算をスキップする手法が知られている（例えば、非特許文献１）。図１８では、出力される小領域のサイズが４×２であり、カーネルサイズが３×３であり、０～１５を表す４ビットデータを用いる場合の例を示している。この例では、入力特徴マップの小領域のサイズが６×４であり、点線で表される小領域の値が全て０となっている。０に対する積和演算の結果は０になるため、演算回路で畳み込み処理を行う必要はなく、当該小領域の畳み込み処理をスキップすることが可能となる。

Angshuman Parashar, Minsoo Rhu, Anurag Mukkara, Antonio Puglielli, Rangharajan Venkatesan, Brucek Khailany, Joel Emer, Stephen W. Keckler, William J. Dally, "SCNN: An Accelerator for Compressed-sparse Convolutional Neural Networks", arXiv:1708.04485, 23 May 2017

　ここで、スループットを高めるために、小領域のサイズを大きくしようとすると、入力特徴マップの小領域の値が全てゼロとなることが少なくなり、十分な演算高速化が期待できない。例えば、図１９Ａに示すように、出力特徴マップの小領域のサイズが４×２である場合（入力特徴マップの小領域のサイズが６×４である場合）には、入力特徴マップの点線で表される小領域の値が全てゼロとなる。一方、図１９Ｂに示すように、出力特徴マップの小領域のサイズが８×４である場合（入力特徴マップの小領域のサイズが１０×６である場合）には、入力特徴マップの点線で表される小領域にゼロでない値が含まれる。

　また、小領域のサイズは演算スループットに直結するため、変更が難しい場合が多い。

　開示の技術は、上記の点に鑑みてなされたものであり、畳み込み処理を含むニューラルネットワークを用いた処理を高速化することができる画像処理装置、画像処理方法、及び画像処理プログラムを提供することを目的とする。

　本開示の第１態様は、画像を対象とする畳み込み処理を含むニューラルネットワークを含む画像処理装置であって、処理対象である対象画像を取得する取得部と、前記畳み込み処理を含むニューラルネットワークを用いて前記対象画像を処理する処理部とを含み、前記処理部は、前記畳み込み処理を行う際に、前記畳み込み処理の入力となる入力特徴マップを分割した小領域ごとに前記畳み込み処理を行い、前記小領域ごとに前記畳み込み処理を行う際に、前記小領域を構成する特徴が、予め定められた特徴、又は過去に処理された小領域の特徴と同じ場合、前記小領域に対する前記畳み込み処理を行わず、前記予め定められた特徴に対して処理された結果、又は過去に処理された結果を、前記小領域を処理した結果として出力する。

　本開示の第２態様は、画像を対象とする畳み込み処理を含むニューラルネットワークを含む画像処理装置における画像処理方法であって、取得部が、処理対象である対象画像を取得し、処理部が、前記畳み込み処理を含むニューラルネットワークを用いて前記対象画像を処理することを含み、前記処理部が前記畳み込み処理を行う際に、前記畳み込み処理の入力となる入力特徴マップを分割した小領域ごとに前記畳み込み処理を行い、前記小領域ごとに前記畳み込み処理を行う際に、前記小領域を構成する特徴が、予め定められた特徴、又は過去に処理された小領域の特徴と同じ場合、前記小領域に対する前記畳み込み処理を行わず、前記予め定められた特徴に対して処理された結果、又は過去に処理された結果を、前記小領域を処理した結果として出力する。

　本開示の第３態様は、画像を対象とする畳み込み処理を含むニューラルネットワークを含むコンピュータに、処理対象である対象画像を取得し、前記畳み込み処理を含むニューラルネットワークを用いて前記対象画像を処理することを実行させるための画像処理プログラムであって、前記畳み込み処理を行う際に、前記畳み込み処理の入力となる入力特徴マップを分割した小領域ごとに前記畳み込み処理を行い、前記小領域ごとに前記畳み込み処理を行う際に、前記小領域を構成する特徴が、予め定められた特徴、又は過去に処理された小領域の特徴と同じ場合、前記小領域に対する前記畳み込み処理を行わず、前記予め定められた特徴に対して処理された結果、又は過去に処理された結果を、前記小領域を処理した結果として出力する。

　開示の技術によれば、畳み込み処理を含むニューラルネットワークを用いた処理を高速化することができる。

入力特徴マップの小領域を説明するための図である。入力特徴マップの小領域に対する畳み込み処理をスキップする方法を説明するための図である。第１実施形態及び第２実施形態の画像処理装置として機能するコンピュータの一例の概略ブロック図である。第１実施形態及び第２実施形態の画像処理装置の機能構成を表すブロック図である。第１実施形態及び第２実施形態の画像処理装置の学習部の機能構成を表すブロック図である。第１実施形態及び第２実施形態の画像処理装置の推論部の機能構成を表すブロック図である。第１実施形態及び第２実施形態の学習処理の流れを表すフローチャートである。第１実施形態及び第２実施形態の学習処理及び画像処理における畳み込み処理の流れを表すフローチャートである。第１実施形態及び第２実施形態の画像処理の流れを表すフローチャートである。４ｂｉｔデータを用いた小領域の一例を示す図である。６ｂｉｔデータを用いた小領域の一例を示す図である。複数の小領域に対して並列に畳み込み処理を行う方法を説明するための図である。変形例における入力特徴マップの小領域に対する畳み込み処理をスキップする方法を説明するための図である。変形例における入力特徴マップの小領域に対する畳み込み処理をスキップする方法を説明するための図である。変形例における入力特徴マップの小領域に対する畳み込み処理をスキップする方法を説明するための図である。畳み込み処理の一例を示す図である。畳み込み処理の一例を示す図である。小領域ごとの畳み込み処理の一例を示す図である。入力特徴マップの小領域の一例を示す図である。入力特徴マップの小領域の一例を示す図である。入力特徴マップの小領域の一例を示す図である。

　以下、開示の技術の実施形態の一例を、図面を参照しつつ説明する。なお、各図面において同一又は等価な構成要素及び部分には同一の参照符号を付与している。また、図面の寸法比率は、説明の都合上誇張されており、実際の比率とは異なる場合がある。

＜開示の技術の実施形態の概要＞
　開示の技術では、畳み込み層の入力特徴マップのデータをＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）等から読み込んだ後に、小領域ごとに、小領域内の全ての特徴が同値である小領域であるか、連続して同一の小領域であるかをそれぞれ判定する。以下、入力特徴マップの小領域の内部が全て同一の特徴となるものを「同値の小領域」と称する。また、小領域内の特徴が、一つ前の小領域と全く同一となるものを「連続して同一の小領域」と称する。図１では、「同値の小領域」の一例として、点線で囲まれている小領域内の全ての特徴が４である例を示している。また、「連続して同一の小領域」の一例として、細い破線で囲まれている小領域内の特徴と、太い破線で囲まれている小領域内の特徴とが、同一である例を示している。ここで、同値である小領域であるかを判定するのは、入力画像でも同値となっているときが多いためである。また、連続して同一の小領域であるかを判定するのは、入力画像でも同じような領域が続くときが多いためである。例えば、入力画像の10×6領域の上1行目の10点の値が10で下3行目の50点の値が12である場合である。同値である領域、連続して同一の小領域のどちらの場合も、入力画像が複雑な絵の領域ではなく平坦で均一気味な領域の場合があてはまる。

　また、図２に示すように、同値の小領域であるか否かの小領域ごとの判定結果を表す同値フラグと、連続して同一の小領域であるか否かの小領域ごとの判定結果を表す連続フラグと、入力特徴マップの各小領域のデータである小領域データとを、畳み込み処理を行う演算回路に入力する。

　演算回路において、処理対象となる小領域が、同値の小領域であるか、又は連続して同一の小領域である場合には、畳み込み処理を行わない処理スキップを行う。連続して同一の小領域である場合、直前に処理対象となった小領域と同じ処理結果となるため、直前に処理対象となった小領域の処理結果を連続して出力するだけでよく、処理が高速化される。図２では、小領域３内の特徴と小領域４内の特徴とが同一であるため、小領域４に対して処理スキップを行う例を示している。

　また、同値の小領域については、処理結果が限定される。特徴を示す値が４ｂｉｔである場合には、処理結果は１６パターンであり、特徴を示す値が８ｂｉｔである場合には、処理結果は２５６パターンとなる。全パターンの処理結果を事前計算して事前計算結果テーブルをＲＡＭに格納しておき、各層の処理ごとに、ＲＡＭから演算回路の内部メモリに事前計算結果テーブルを読み込んでおく。これにより、同値の小領域に対しては畳み込み処理を行わずに、内部メモリ参照のみで処理結果が得られるため、処理が高速化される。図２では、小領域２が同値の小領域であるため、小領域２に対して処理スキップを行い、事前計算結果テーブルに格納された、全ての特徴が４である場合の処理結果を参照して出力する例を示している。

　また、図２に示すように、演算回路による畳み込み処理の結果である出力特徴マップをＲＡＭ等に書き出す。書き出した出力特徴マップは次層以降で入力特徴マップとして使用され、再度、上述した判定処理と、処理スキップを用いた畳み込み処理を行うことが繰り返される。

［第１実施形態］
＜第１実施形態に係る画像処理装置の構成＞
　図３は、第１実施形態の画像処理装置１０のハードウェア構成を示すブロック図である。

　図３に示すように、画像処理装置１０は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）１１、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）１２、ＲＡＭ１３、ストレージ１４、入力部１５、表示部１６、通信インタフェース（Ｉ／Ｆ）１７、及び演算回路１８を有する。各構成は、バス１９を介して相互に通信可能に接続されている。

　ＣＰＵ１１は、中央演算処理ユニットであり、各種プログラムを実行したり、各部を制御したりする。すなわち、ＣＰＵ１１は、ＲＯＭ１２又はストレージ１４からプログラムを読み出し、ＲＡＭ１３を作業領域としてプログラムを実行する。ＣＰＵ１１は、ＲＯＭ１２又はストレージ１４に記憶されているプログラムに従って、上記各構成の制御及び各種の演算処理を行う。本実施形態では、ＲＯＭ１２又はストレージ１４には、ニューラルネットワークの学習処理を行うための学習処理プログラム及びニューラルネットワークを用いた画像処理を行うための画像処理プログラムが格納されている。学習処理プログラム及び画像処理プログラムは、１つのプログラムであっても良いし、複数のプログラム又はモジュールで構成されるプログラム群であっても良い。

　ＲＯＭ１２は、各種プログラム及び各種データを格納する。ＲＡＭ１３は、作業領域として一時的にプログラム又はデータを記憶する。ストレージ１４は、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）又はＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）により構成され、オペレーティングシステムを含む各種プログラム、及び各種データを格納する。

　入力部１５は、マウス等のポインティングデバイス、及びキーボードを含み、各種の入力を行うために使用される。

　入力部１５は、ニューラルネットワークを学習するための学習用データを、入力として受け付ける。例えば、入力部１５は、処理対象となる対象画像と、予め求められた対象画像に対する処理結果とを含む学習用データを、入力として受け付ける。

　また、入力部１５は、処理対象となる対象画像を、入力として受け付ける。

　表示部１６は、例えば、液晶ディスプレイであり、処理結果を含む各種の情報を表示する。表示部１６は、タッチパネル方式を採用して、入力部１５として機能しても良い。

　通信インタフェース１７は、他の機器と通信するためのインタフェースであり、例えば、イーサネット（登録商標）、ＦＤＤＩ、Ｗｉ－Ｆｉ（登録商標）等の規格が用いられる。

　演算回路１８は、ニューラルネットワークの畳み込み層における畳み込み処理を実行する。具体的には、演算回路１８は、入力特徴マップの小領域と、カーネルとを受け付け、当該小領域内の各点の畳み込み処理の結果である、出力特徴マップの小領域を出力する。

　次に、画像処理装置１０の機能構成について説明する。図４は、画像処理装置１０の機能構成の例を示すブロック図である。

　画像処理装置１０は、機能的には、図４に示すように、学習部２０及び推論部２２を備えている。

　学習部２０は、図５に示すように、取得部３０、処理部３２、及び更新部３４を備えている。

　取得部３０は、入力された学習用データの対象画像及び処理結果を取得する。

　処理部３２は、畳み込み処理を含むニューラルネットワークを用いて対象画像を処理する。処理部３２は、畳み込み処理を行う際に、畳み込み処理の入力となる入力特徴マップを分割した小領域ごとに畳み込み処理を行う。小領域ごとの畳み込み処理は、演算回路１８を用いて実行される。このとき、入力特徴マップの小領域データとカーネルとが演算回路１８に入力され、演算回路１８から、小領域ごとの畳み込み処理の結果を表す出力特徴マップが出力される。

　ここで、入力特徴マップは、上記図１に示すように小領域に分割される。上記図１では、出力特徴マップの小領域に対応する領域を太線の枠で表示しており、入力特徴マップの小領域は、対応する出力特徴マップの小領域と、隣り合う小領域と重複した重複領域とを含む領域である。このように、入力特徴マップを分割した小領域は、隣り合う小領域と重複した重複領域であって、かつ、畳み込み処理のカーネルサイズに応じた重複領域を有する。なお、小領域の分割について、設計時に決めておく。例えば、ハードウェアの制約（サイズや電力）と所望のスループット（ｘｘｆｐｓなど）のバランスで決めればよい。カーネルサイズを３×３とし、入力特徴マップの小領域を１０×６とし、出力特徴マップの小領域を８×４とすれば、同時に３２点出力できるスループットが得られる。このとき、積和演算回路は、２８８個（＝（３×３）×８×４）必要となる。また、入力特徴マップの小領域を６×４とし、出力特徴マップの小領域を４×２とすれば、同時に８点のみ出力するスループットになる。このとき、積和演算回路は７２個（＝（３×３）×４×２）必要となる。また、積和演算をハードウェアで実現する場合には、小領域の分割は設計時に決めるため、層によって小領域の分割は変化しない。

　演算回路１８は、小領域ごとに畳み込み処理を行う際に、当該小領域を構成する全ての特徴が、同値である場合、当該小領域に対する畳み込み処理を行わず、予め定められた、小領域を構成する全ての特徴が当該同値である場合に対して処理された結果を、当該小領域を処理した結果として出力する。

　具体的には、処理部３２が、小領域ごとに、当該小領域を構成する全ての特徴が、同値であるか否かを判定する。当該小領域を構成する全ての特徴が、同値であると判定された場合、演算回路１８は、当該小領域に対する畳み込み処理を行わず、事前計算結果テーブルに格納された、小領域を構成する全ての特徴が当該同値である場合に対して処理された結果を、当該小領域を処理した結果として出力する。

　また、演算回路１８は、小領域ごとに畳み込み処理を行う際に、当該小領域を構成する特徴が、直前に処理された小領域の特徴と同じ場合、当該小領域に対する畳み込み処理を行わず、直前に処理された小領域に対して処理された結果を、当該小領域を処理した結果として出力する。

　具体的には、処理部３２が、小領域ごとに、当該小領域を構成する特徴が、直前に処理された小領域の特徴と同じであるか否かを判定する。当該小領域を構成する特徴が、直前に処理された小領域の特徴と同じであると判定された場合、演算回路１８は、当該小領域に対する畳み込み処理を行わず、直前に処理された小領域に対して処理された結果を、当該小領域を処理した結果として出力する。

　更新部３４は、対象画像に対してニューラルネットワークを用いて処理した結果と、予め求められた処理結果とが一致するように、ニューラルネットワークのパラメータを更新する。また、更新部３４は、更新されたニューラルネットワークのパラメータに基づいて、各畳み込み層の事前計算結果テーブルを更新する。

　予め定められた反復終了条件を満たすまで、処理部３２及び更新部３４の各処理が繰り返し行われる。これにより、ニューラルネットワークが学習される。

　推論部２２は、図６に示すように、取得部４０及び処理部４２を備えている。

　取得部４０は、入力された処理対象である対象画像を取得する。

　処理部４２は、畳み込み処理を含むニューラルネットワークを用いて対象画像を処理する。処理部４２は、畳み込み処理を行う際に、畳み込み処理の入力となる入力特徴マップを分割した小領域ごとに畳み込み処理を行う。小領域ごとの畳み込み処理は、演算回路１８を用いて実行される。このとき、入力特徴マップの小領域データとカーネルとが演算回路１８に入力され、演算回路１８から、小領域ごとの畳み込み処理の結果を表す出力特徴マップが出力される。

　処理部４２は、処理部３２と同様に、小領域ごとに、当該小領域を構成する全ての特徴が、同値であるか否かを判定する。当該小領域を構成する全ての特徴が、同値であると判定された場合、演算回路１８は、当該小領域に対する畳み込み処理を行わず、事前計算結果テーブルに格納された、小領域を構成する全ての特徴が当該同値である場合に対して処理された結果を、当該小領域を処理した結果として出力する。

　また、処理部４２は、処理部３２と同様に、当該小領域を構成する特徴が、直前に処理された小領域の特徴と同じであるか否かを判定する。当該小領域を構成する特徴が、直前に処理された小領域の特徴と同じであると判定された場合、演算回路１８は、当該小領域に対する畳み込み処理を行わず、直前に処理された小領域に対して処理された結果を、当該小領域を処理した結果として出力する。

　対象画像に対してニューラルネットワークを用いて処理した結果が、表示部１６により表示される。

＜第１実施形態に係る画像処理装置の作用＞
　次に、第１実施形態に係る画像処理装置１０の作用について説明する。

　図７は、画像処理装置１０による学習処理の流れを示すフローチャートである。ＣＰＵ１１がＲＯＭ１２又はストレージ１４から学習処理プログラムを読み出して、ＲＡＭ１３に展開して実行することにより、学習処理が行なわれる。また、画像処理装置１０に、学習用データが入力される。

　ステップＳ１００で、ＣＰＵ１１は、取得部３０として、入力された学習用データの処理対象である対象画像及び処理結果を取得する。

　ステップＳ１０２で、ＣＰＵ１１は、処理部３２として、畳み込み処理を含むニューラルネットワークを用いて、学習用データの対象画像を処理する。

　ステップＳ１０４で、ＣＰＵ１１は、更新部３４として、学習用データの対象画像に対してニューラルネットワークを用いて処理した結果と、予め求められた処理結果とが一致するように、ニューラルネットワークのパラメータを更新し、事前計算結果テーブルを更新する。

　ステップＳ１０６で、ＣＰＵ１１は、予め定められた反復終了条件を満たしたか否かを判定する。反復終了条件を満たしていない場合には、上記ステップＳ１０２へ戻り、処理部３２、及び更新部３４の各処理が繰り返し行われる。これにより、ニューラルネットワークが学習される。

　上記ステップＳ１０２は、ニューラルネットワークの各層の演算処理を行う。ここで、畳み込み層の演算処理は、図８に示す処理ルーチンによって実現される。

　ステップＳ１１０において、ＣＰＵ１１は、処理部３２として、当該畳み込み層の入力となる入力特徴マップを小領域に分割する。

　ステップＳ１１２において、ＣＰＵ１１は、処理部３２として、ＲＡＭ１３から、当該畳み込み層の事前計算結果テーブルを読み出す。

　ステップＳ１１４において、ＣＰＵ１１は、処理部３２として、分割した小領域を順に処理対象とし、処理対象の小領域を構成する特徴が、同値であるか、又は直前に処理された小領域の特徴と同じであるかを判定する。

　ステップＳ１１６において、ＣＰＵ１１は、処理部３２として、入力特徴マップの各小領域データ、事前計算結果テーブル、及び上記ステップＳ１１４の判定結果を示す同値フラグ及び連続フラグを、演算回路１８に出力する。そして、演算回路１８は、小領域ごとに畳み込み処理を行う。このとき、処理対象の小領域が、同値の小領域でなく、かつ、連続して同一の小領域でもない場合には、演算回路１８は、処理対象の小領域に対する畳み込み処理を行う。処理対象の小領域が、同値の小領域である場合、演算回路１８は、処理対象である小領域に対する畳み込み処理を行わず、事前計算結果テーブルに格納された、小領域を構成する特徴が当該同値である場合に対して処理された結果を、処理対象である小領域を処理した結果として出力する。

　また、処理対象である小領域が、連続して同一の小領域である場合、演算回路１８は、処理対象である小領域に対する畳み込み処理を行わず、直前に処理された小領域に対して処理された結果を、処理対象である小領域を処理した結果として出力する。

　そして、処理ルーチンを終了し、各小領域に対する処理結果からなる出力特徴マップを出力し、次の層の入力特徴マップとする。

　図９は、画像処理装置１０による画像処理の流れを示すフローチャートである。ＣＰＵ１１がＲＯＭ１２又はストレージ１４から画像処理プログラムを読み出して、ＲＡＭ１３に展開して実行することにより、画像処理が行なわれる。また、画像処理装置１０に、対象画像が入力される。

　ステップＳ１２０で、ＣＰＵ１１は、取得部４０として、入力された対象画像を取得する。

　ステップＳ１２２で、ＣＰＵ１１は、処理部４２として、上述した学習処理により学習されたニューラルネットワークを用いて、対象画像を処理する。そして、対象画像に対してニューラルネットワークを用いて処理した結果が、表示部１６により表示される。

　上記ステップＳ１２２は、ニューラルネットワークの各層の演算処理を行う。ここで、畳み込み層の演算処理は、上記図８に示す処理ルーチンによって実現される。

　以上説明したように、第１実施形態に係る画像処理装置は、入力特徴マップの小領域ごとに畳み込み処理を行う際に、小領域を構成する特徴が、同値である場合、又は直前に処理された小領域の特徴と同じ場合、当該小領域に対する畳み込み処理を行わず、予め定められた同値の小領域に対して処理された結果、又は直前に処理された結果を、当該小領域を処理した結果として出力する。これにより、畳み込み処理を含むニューラルネットワークを用いた処理を高速化することができる。

　スループット向上のために入力特徴マップを分割した小領域のサイズを大きくする場合や、ＣＮＮ演算精度を高めるために入力特徴マップを表現するビット深度を大きくする場合には、従来手法では、小領域の内部が全てゼロとなることが少なくなり、演算を高速化できないことが多い。例えば、図１０Ａに示すように、入力特徴マップの特徴を４ｂｉｔデータで表す場合には、小領域の内部が全てゼロとなるのに対し、図１０Ｂに示すように、入力特徴マップの特徴を６ｂｉｔデータで表す場合には、小領域の内部が全てゼロとならない。一方、本実施形態では、同値の小領域又は連続して同一の小領域において、従来手法と比べて十分な演算高速化が見込める。

［第２実施形態］
　第２実施形態では、演算回路において複数の小領域に対して並列に畳み込み処理を行う点が、第１実施形態と異なっている。

＜第２実施形態の概要＞
　第２実施形態では、図１１に示すように、演算回路において、入力特徴マップの複数の小領域に対して並列に畳み込み処理を行う。図１１では、演算回路が、入力特徴マップの小領域のサイズを６×４とし、４個の小領域に対して並列に畳み込み処理を行い、３２点の畳み込み処理の結果を同時に出力する例を示している。

　このとき、小領域ごとに、同値の小領域であるか、又は連続して同一の小領域であるかの判定を行う。図１１の例では、小領域１が、同値の小領域であり、小領域３が、連続して同一の小領域であり、小領域１と小領域３の畳み込み処理がスキップされている。また、小領域０、小領域２、小領域４、及び小領域５に対して並列に畳み込み処理が行われ、結果として、１度に、６つの小領域に対する処理結果が得られている。

　このように、小領域ごとに、同値の小領域であるか、又は連続して同一の小領域であるかの判定を行い、演算回路を用いて、複数の小領域に対して並列に畳み込み処理を行うことにより、同値の小領域である確率、及び連続して同一の小領域である確率を増加させて、畳み込み処理をスキップさせる確率を増加させることができる。

＜第２実施形態に係る画像処理装置の構成＞
　第２実施形態の画像処理装置について説明する。第１実施形態と同様の構成となる部分については、同一符号を付して説明を省略する。

　第２実施形態の画像処理装置２１０のハードウェア構成は、上記図３に示す画像処理装置１０のハードウェア構成と同様である。

　画像処理装置２１０の演算回路１８は、入力特徴マップの小領域データと、カーネルとを受け付け、所定数の小領域に対して並列に畳み込み処理を行うことを繰り返し、各小領域内の各点の畳み込み処理の結果である、出力特徴マップを出力する。

　学習部２０の処理部３２は、畳み込み処理を含むニューラルネットワークを用いて対象画像を処理する。処理部３２は、畳み込み処理を行う際に、畳み込み処理の入力となる入力特徴マップを分割した小領域ごとに畳み込み処理を行う。小領域ごとの畳み込み処理は、演算回路１８を用いて実行される。このとき、処理部３２は、小領域ごとに、同値の小領域であるか否か、及び連続して同一の小領域であるか否かを判定する。入力特徴マップの小領域データとカーネルと小領域ごとの判定結果と事前計算結果テーブルとが演算回路１８に入力され、演算回路１８から、出力特徴マップが出力される。

　具体的には、処理部３２は、畳み込み処理を行う際に、小領域ごとに、当該小領域を構成する全ての特徴が、同値であるか否かを判定する。当該小領域を構成する全ての特徴が、同値であると判定された場合、演算回路１８は、当該小領域に対する畳み込み処理を行わず、事前計算結果テーブルに格納された、小領域を構成する全ての特徴が当該同値である場合に対して処理された結果を、当該小領域を処理した結果として出力する。

　また、処理部３２が、小領域ごとに、当該小領域を構成する特徴が、直前に処理された小領域の特徴と同じであるか否かを判定する。当該小領域を構成する特徴が、直前に処理された小領域の特徴と同じであると判定された場合、演算回路１８は、当該小領域に対する畳み込み処理を行わず、直前に処理された小領域に対して処理された結果を、当該小領域を処理した結果として出力する。

　また、演算回路１８は、小領域を構成する全ての特徴が同値ではなく、かつ、直前に処理された小領域の特徴と同じでない、所定数の小領域に対して並列に畳み込み処理を行う。

　上記のように小領域ごとに行われた畳み込み処理の結果である出力特徴マップが、ニューラルネットワークの次の層の入力となる。

　推論部２２の処理部４２は、処理部３２と同様に、畳み込み処理を含むニューラルネットワークを用いて対象画像を処理する。処理部４２は、畳み込み処理を行う際に、畳み込み処理の入力となる入力特徴マップを分割した小領域ごとに畳み込み処理を行う。小領域ごとの畳み込み処理は、演算回路１８を用いて実行される。このとき、処理部４２は、小領域ごとに、同値の小領域であるか否か、及び連続して同一の小領域であるか否かを判定する。入力特徴マップの小領域データとカーネルと小領域ごとの判定結果と事前計算結果テーブルとが演算回路１８に入力され、演算回路１８から、出力特徴マップが出力される。

　具体的には、処理部４２は、処理部３２と同様に、畳み込み処理を行う際に、小領域ごとに、当該小領域を構成する全ての特徴が、同値であるか否かを判定する。当該小領域を構成する全ての特徴が、同値であると判定された場合、演算回路１８は、当該小領域に対する畳み込み処理を行わず、事前計算結果テーブルに格納された、小領域を構成する全ての特徴が当該同値である場合に対して処理された結果を、当該小領域を処理した結果として出力する。

　また、処理部４２は、処理部３２と同様に、小領域ごとに、当該小領域を構成する特徴が、直前に処理された小領域の特徴と同じであるか否かを判定する。当該小領域を構成する特徴が、直前に処理された小領域の特徴と同じであると判定された場合、演算回路１８は、当該小領域に対する畳み込み処理を行わず、直前に処理された小領域に対して処理された結果を、当該小領域を処理した結果として出力する。

＜第２実施形態に係る画像処理装置の作用＞
　次に、第２実施形態に係る画像処理装置１０の作用について説明する。

　画像処理装置２１０のＣＰＵ１１がＲＯＭ１２又はストレージ１４から学習処理プログラムを読み出して、ＲＡＭ１３に展開して実行することにより、は、上記図７に示す学習処理と同様の処理が行なわれる。また、画像処理装置１０に、学習用データが入力される。

　上記ステップＳ１０２は、ニューラルネットワークの各層の演算処理を行う。ここで、畳み込み層の演算処理は、上記図８に示す処理ルーチンによって実現される。

　ステップＳ１１６では、処理対象の小領域を構成する特徴が、同値である場合、演算回路１８は、処理対象である小領域に対する畳み込み処理を行わず、事前計算結果テーブルに格納された、小領域を構成する特徴が当該同値である場合に対して処理された結果を、処理対象である小領域を処理した結果として出力する。

　また、処理対象である小領域を構成する特徴が、直前に処理された小領域の特徴と同じ場合、演算回路１８は、処理対象である小領域に対する畳み込み処理を行わず、直前に処理された小領域に対して処理された結果を、処理対象である小領域を処理した結果として出力する。

　また、演算回路１８は、小領域を構成する特徴が、同値でなく、かつ、直前に処理された小領域の特徴と同じでない所定数の小領域に対して、並列に畳み込み処理を行う。

　画像処理装置２１０のＣＰＵ１１がＲＯＭ１２又はストレージ１４から画像処理プログラムを読み出して、ＲＡＭ１３に展開して実行することにより、上記図９に示す画像処理と同様の処理が行なわれる。また、画像処理装置２１０に、対象画像が入力される。

　なお、第２実施形態の画像処理装置２１０の他の構成及び作用については第１実施形態と同様であるため、説明を省略する。

　以上説明したように、第２実施形態に係る画像処理装置は、演算回路を、複数の小領域に対して並列に畳み込み処理を行うように構成し、入力特徴マップの小領域ごとに畳み込み処理を行う際に、小領域を構成する特徴が、同値である場合、又は直前に処理された小領域の特徴と同じ場合、当該小領域に対する畳み込み処理を行わず、予め定められた同値の小領域に対して処理された結果、又は直前に処理された結果を、当該小領域を処理した結果として出力する。これにより、ビット深度や並列処理用単位が大きく、全てがゼロとなる小領域について畳み込み処理をスキップすることが期待できないような場合であっても、演算精度やスループットの低下なしで処理スキップによる高速化を期待できる。

　なお、本発明は、上述した実施形態の装置構成及び作用に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

　例えば、同値の小領域について、全ての値（例えば、特徴が４ｂｉｔデータで表される場合、１６つの値）の各々に対して事前に処理結果を計算してメモリに保存しておく場合を例に説明したが、これに限定されるものではない。同値の小領域として出現する可能性の高い特徴の値を、シミュレーション等を行って予め決めておき、出現確率の高い上位いくつかの特徴の値のみについてのみ、同値の小領域に対する処理結果を予め求めておき、事前計算結果テーブルに保存しておくようにしてもよい（図１２参照）。同値の小領域であって、処理結果が予め求められたものである場合に、畳み込み処理を行わずに、予め求められた処理結果を出力する。図１２では、特徴の値が１である同値の小領域、特徴の値が４である同値の小領域、及び特徴の値が１５である同値の小領域の各々に対してのみ、処理結果を予め求めておく例を示している。また、特徴の値が０である同値の小領域に対しては、処理結果が０であるため、事前計算結果テーブルに保存していない。これにより、予め求められた処理結果を格納する事前計算結果テーブルのサイズを削減でき、ハードウェアのメモリ量削減につながる。

　また、同値の小領域について、全ての値（例えば、特徴が４ｂｉｔデータで表される場合、１６つの値）の各々に対して事前に処理結果を計算してメモリに保存しておく場合を例に説明したが、これに限定されるものではない。特徴の値がある値である同値の小領域が初めて出現したときには畳み込み処理を行ってその処理結果を計算結果テーブルに保存し、特徴の値が当該値である同値の小領域が２回目以降出現したときには、畳み込み処理を行わずに計算結果テーブルから処理結果を読み込むようにしてもよい（図１３参照）。図１３では、小領域２で、特徴の値が４である同値の小領域が初めて出現し、畳み込み処理を行って、処理結果を計算結果テーブルに格納する例を示している。この例では、特徴の値が４である同値の小領域が２回目以降出現したときに、畳み込み処理を行わずに、計算結果テーブルから処理結果を読み込む。また、各層を処理するたびに計算結果テーブルをリセットする。これにより、事前計算の処理の手間が不要となる。また、各層の事前計算結果を層ごとにＲＡＭ等から演算回路の内部メモリに転送する必要がないため、ＲＡＭ等との転送データ量を削減することが可能である。

　また、連続して同一の小領域であるか否かを判定する場合を例に説明したが、これに限定されるものではない。例えば、いくつか前に処理した小領域と同一の小領域であるか否かを判定し、いくつか前に処理した小領域と同一の小領域である場合に、畳み込み処理を行わずに、当該いくつか前に処理した小領域の処理結果を出力するようにしてもよい（図１４参照）。図１４では、いくつか前に処理した小領域と同一であるか否かを示す同一フラグに加えて、いくつ前の小領域と同一であったかを示す小領域間隔のパラメータも用いて、小領域４が、小領域１と同一であると判断し、畳み込み処理を行わずに、小領域１と同一の処理結果を出力する例を示している。この場合、上限となる小領域間隔を設定し、上限となる小領域間隔の分だけ、小領域に対する処理結果を演算回路の内部メモリに保存しておく必要がある。これにより、処理スキップできる確率が増加するため高速化が期待できる。

　また、小領域が、同値の小領域であるか否かを判定する場合を例に説明したが、これに限定されるものではない。小領域が、同値の小領域以外の予め定められた特徴パターンと同一であるか否かを判定するようにしてもよい。例えば、予め定められた頻出の特徴パターンに対する処理結果を予め求めておき、小領域が、予め定められた頻出の特徴パターンと同一であるか否かを判定し、小領域が、予め定められた頻出の特徴パターンと同一である場合に、畳み込み処理を行わずに、予め求めた処理結果を出力するようにしてもよい。

　また、画像処理装置が、学習部と推論部とを備えている場合を例に説明したが、これに限定されるものではない。学習部を備えた装置と、推論部を備えた装置とを別の装置として構成してもよい。電力やサイズ等のハードウェアの制約が大きい場合に、学習部を備えた装置と、推論部を備えた装置とを別の装置として構成する方が好ましい。例えば、推論部を備えた装置を、ドローンにのせたり、ＩｏＴやエッジデバイスとして用いる場合である。また、一つの装置が学習部と推論部とを備えるように構成するのは、クラウドコンピューティングのようにデータセンタに置いてあるハードウェアを使って高速に学習させる場合が一般的である。

　また、上記実施形態でＣＰＵがソフトウェア（プログラム）を読み込んで実行した各種処理を、ＣＰＵ以外の各種のプロセッサが実行してもよい。この場合のプロセッサとしては、ＦＰＧＡ（Ｆｉｅｌｄ－Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）等の製造後に回路構成を変更可能なＰＬＤ（Ｐｒｏｇｒａｍｍａｂｌｅ　Ｌｏｇｉｃ　Ｄｅｖｉｃｅ）、及びＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎ　Ｓｐｅｃｉｆｉｃ　Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が例示される。また、学習処理及び画像処理を、これらの各種のプロセッサのうちの１つで実行してもよいし、同種又は異種の２つ以上のプロセッサの組み合わせ（例えば、複数のＦＰＧＡ、及びＣＰＵとＦＰＧＡとの組み合わせ等）で実行してもよい。また、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子等の回路素子を組み合わせた電気回路である。

　また、上記各実施形態では、学習処理プログラム及び画像処理プログラムがストレージ１４に予め記憶（インストール）されている態様を説明したが、これに限定されない。プログラムは、ＣＤ－ＲＯＭ（Ｃｏｍｐａｃｔ　Ｄｉｓｋ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ＤＶＤ－ＲＯＭ（Ｄｉｇｉｔａｌ　Ｖｅｒｓａｔｉｌｅ　Ｄｉｓｋ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、及びＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）メモリ等の非一時的（ｎｏｎ－ｔｒａｎｓｉｔｏｒｙ）記憶媒体に記憶された形態で提供されてもよい。また、プログラムは、ネットワークを介して外部装置からダウンロードされる形態としてもよい。

　以上の実施形態に関し、更に以下の付記を開示する。

　（付記項１）
　画像を対象とする畳み込み処理を含むニューラルネットワークを含む画像処理装置であって、
　メモリと、
　前記メモリに接続された少なくとも１つのプロセッサと、
　を含み、
　前記プロセッサは、
　処理対象である対象画像を取得し、
　前記畳み込み処理を含むニューラルネットワークを用いて前記対象画像を処理することを実行させるための画像処理プログラムであって、
　前記畳み込み処理を行う際に、前記畳み込み処理の入力となる入力特徴マップを分割した小領域ごとに前記畳み込み処理を行い、
　前記小領域ごとに前記畳み込み処理を行う際に、前記小領域を構成する特徴が、予め定められた特徴、又は過去に処理された小領域の特徴と同じ場合、前記小領域に対する前記畳み込み処理を行わず、前記予め定められた特徴に対して処理された結果、又は過去に処理された結果を、前記小領域を処理した結果として出力する
　画像処理装置。

　（付記項２）
　画像処理を実行するように、画像を対象とする畳み込み処理を含むニューラルネットワークを含むコンピュータによって実行可能なプログラムを記憶した非一時的記憶媒体であって、
　前記画像処理は、
　処理対象である対象画像を取得し、
　前記畳み込み処理を含むニューラルネットワークを用いて前記対象画像を処理することを実行させるための画像処理プログラムであって、
　前記畳み込み処理を行う際に、前記畳み込み処理の入力となる入力特徴マップを分割した小領域ごとに前記畳み込み処理を行い、
　前記小領域ごとに前記畳み込み処理を行う際に、前記小領域を構成する特徴が、予め定められた特徴、又は過去に処理された小領域の特徴と同じ場合、前記小領域に対する前記畳み込み処理を行わず、前記予め定められた特徴に対して処理された結果、又は過去に処理された結果を、前記小領域を処理した結果として出力する
　非一時的記憶媒体。

１０、２１０  画像処理装置
１１   ＣＰＵ
１３   ＲＡＭ
１８   演算回路
２０   学習部
２２   推論部
３０、４０    取得部
３２、４２    処理部
３４   更新部

Claims

　画像を対象とする畳み込み処理を含むニューラルネットワークを含む画像処理装置であって、
　処理対象である対象画像を取得する取得部と、
　前記畳み込み処理を含むニューラルネットワークを用いて前記対象画像を処理する処理部とを含み、
　前記処理部は、前記畳み込み処理を行う際に、前記畳み込み処理の入力となる入力特徴マップを分割した小領域ごとに前記畳み込み処理を行い、
　前記小領域ごとに前記畳み込み処理を行う際に、前記小領域を構成する特徴が、予め定められた特徴、又は過去に処理された小領域の特徴と同じ場合、前記小領域に対する前記畳み込み処理を行わず、前記予め定められた特徴に対して処理された結果、又は過去に処理された結果を、前記小領域を処理した結果として出力する
　画像処理装置。
　前記予め定められた特徴は、前記小領域内の特徴が同一のものである請求項１記載の画像処理装置。
　前記入力特徴マップを分割した小領域は、隣り合う前記小領域と重複した重複領域であって、かつ、前記畳み込み処理のカーネルサイズに応じた大きさの重複領域を有する請求項１又は２記載の画像処理装置。
　前記処理部は、複数の小領域に対して並列に前記畳み込み処理を行う請求項１～請求項３の何れか１項記載の画像処理装置。
　画像を対象とする畳み込み処理を含むニューラルネットワークを含む画像処理装置における画像処理方法であって、
　取得部が、処理対象である対象画像を取得し、
　処理部が、前記畳み込み処理を含むニューラルネットワークを用いて前記対象画像を処理することを含み、
　前記処理部が前記畳み込み処理を行う際に、前記畳み込み処理の入力となる入力特徴マップを分割した小領域ごとに前記畳み込み処理を行い、
　前記小領域ごとに前記畳み込み処理を行う際に、前記小領域を構成する特徴が、予め定められた特徴、又は過去に処理された小領域の特徴と同じ場合、前記小領域に対する前記畳み込み処理を行わず、前記予め定められた特徴に対して処理された結果、又は過去に処理された結果を、前記小領域を処理した結果として出力する
　画像処理方法。
　画像を対象とする畳み込み処理を含むニューラルネットワークを含むコンピュータに、
　処理対象である対象画像を取得し、
　前記畳み込み処理を含むニューラルネットワークを用いて前記対象画像を処理することを実行させるための画像処理プログラムであって、
　前記畳み込み処理を行う際に、前記畳み込み処理の入力となる入力特徴マップを分割した小領域ごとに前記畳み込み処理を行い、
　前記小領域ごとに前記畳み込み処理を行う際に、前記小領域を構成する特徴が、予め定められた特徴、又は過去に処理された小領域の特徴と同じ場合、前記小領域に対する前記畳み込み処理を行わず、前記予め定められた特徴に対して処理された結果、又は過去に処理された結果を、前記小領域を処理した結果として出力する
　画像処理プログラム。