WO2023238237A1

WO2023238237A1 - 画像処理装置、画像処理方法、及び画像処理プログラム

Info

Publication number: WO2023238237A1
Application number: PCT/JP2022/022961
Authority: WO
Inventors: 優也大森; 健中村; 大祐小林; 周平吉田; 彩希八田; 寛之鵜澤
Original assignee: 日本電信電話株式会社
Priority date: 2022-06-07
Filing date: 2022-06-07
Publication date: 2023-12-14

Abstract

畳み込み処理を行う際に、畳み込み処理の入力となる入力特徴マップを小領域に分割し、小領域を構成する特徴が、予め定められた特徴、又は過去に処理された小領域の特徴と対応する場合、小領域に対する畳み込み処理を行わず、予め定められた特徴に対して処理された結果、又は過去に処理された結果を、小領域を処理した結果として出力する。

Description

画像処理装置、画像処理方法、及び画像処理プログラム

　本開示の技術は、画像処理装置、画像処理方法、及び画像処理プログラムに関する。

　ＣＮＮ（Convolutional Neural Network）を用いた推論を行う場合、ネットワークは複数の層で構成され、畳み込み層（Convolutional layer）では畳み込み処理を行う。畳み込み処理は積和演算や活性化処理を行う。

　ＣＮＮを用いた推論においては、上記の畳み込み演算が全体処理量の大部分を占める。

　ハードウェアとしてＣＮＮを用いた推論エンジンを実装する場合においても、畳み込み演算の性能がエンジン全体の性能に直結する。

　カーネルサイズが３×３である場合における畳み込み演算の例を図２５、図２６に示す。図２５では、３×３のカーネルを用いて、３×３の入力特徴マップに対して畳み込み演算を行う例を示している。この例では、９回の積和演算を行い、１×１の出力特徴マップを出力する。

　また、図２６では、３×３のカーネルを用いて、（Ｗ＋２）×（Ｈ＋２）の入力特徴マップに対して畳み込み演算を行う例を示している。この例では、カーネルを入力特徴マップ上で動かしながら９回の積和演算を繰り返し行い、Ｗ×Ｈの出力特徴マップを出力する。

　ＣＮＮの畳み込み演算を行うハードウェアでは、スループットを高めるため、入力特徴マップをある固定サイズの小領域に分割し、１つの小領域への積和演算を一度に行えるように回路を用意することが多い（図２７参照）。図２７では、２６×１４の入力特徴マップを、９個の１０×６の小領域に分割し、演算回路が、３×３のカーネルを用いて３２点（８×４点）同時に畳み込み処理を行い、８×４の出力特徴マップを出力する例を示している。この例では、入力特徴マップのドット部分が、１つの小領域であり、演算回路が、９個の小領域の各々に対して、３２点同時の畳み込み処理を行うことにより、２４×１２の出力特徴マップを出力する。

　また、演算高速化手法の１つとして、図２８に示すように、入力特徴マップの小領域の値が全てゼロの場合に演算をスキップする手法が知られている（例えば、非特許文献１）。図２８では、出力される小領域のサイズが４×２であり、カーネルサイズが３×３であり、０～１５を表す４ビットデータを用いる場合の例を示している。この例では、入力特徴マップの小領域のサイズが６×４であり、点線で表される小領域の値が全て０となっている。０に対する積和演算の結果は０になるため、演算回路で畳み込み処理を行う必要はなく、当該小領域の畳み込み処理をスキップすることが可能となる。

Angshuman Parashar, Minsoo Rhu, Anurag Mukkara, Antonio Puglielli, Rangharajan Venkatesan, Brucek Khailany, Joel Emer, Stephen W. Keckler, William J. Dally, "SCNN: An Accelerator for Compressed-sparse Convolutional Neural Networks", arXiv:1708.04485, 23 May 2017

　ここで、スループットを高めるために、小領域のサイズを大きくしようとすると、入力特徴マップの小領域の値が全てゼロとなることが少なくなり、十分な演算高速化が期待できない。例えば、図２９Ａに示すように、出力特徴マップの小領域のサイズが４×２である場合（入力特徴マップの小領域のサイズが６×４である場合）には、入力特徴マップの点線で表される小領域の値が全てゼロとなる。一方、図２９Ｂに示すように、出力特徴マップの小領域のサイズが８×４である場合（入力特徴マップの小領域のサイズが１０×６である場合）には、入力特徴マップの点線で表される小領域にゼロでない値が含まれる。

　また、小領域のサイズは演算スループットに直結するため、変更が難しい場合が多い。

　開示の技術は、上記の点に鑑みてなされたものであり、畳み込み処理を含むニューラルネットワークを用いた処理を高速化することができる画像処理装置、画像処理方法、及び画像処理プログラムを提供することを目的とする。

　本開示の第１態様は、画像を対象とする畳み込み処理を含むニューラルネットワークを含む画像処理装置であって、処理対象である対象画像を取得する取得部と、前記畳み込み処理を含むニューラルネットワークを用いて前記対象画像を処理する処理部とを含み、前記処理部は、前記畳み込み処理を行う際に、前記畳み込み処理の入力となる入力特徴マップを分割した小領域ごとに前記畳み込み処理を行い、前記小領域ごとに前記畳み込み処理を行う際に、前記小領域を構成する特徴が、予め定められた特徴、又は過去に処理された小領域の特徴と対応する場合、前記小領域に対する前記畳み込み処理を行わず、前記予め定められた特徴に対して処理された結果、又は過去に処理された結果を、前記小領域を処理した結果として出力し、前記予め定められた特徴と対応する前記小領域は、前記予め定められた特徴との違いが、閾値以下である前記小領域であり、前記過去に処理された小領域の特徴と対応する前記小領域は、前記過去に処理された小領域の特徴との違いが、閾値以下である前記小領域である。

　本開示の第２態様は、画像を対象とする畳み込み処理を含むニューラルネットワークを含む画像処理装置における画像処理方法であって、取得部が、処理対象である対象画像を取得し、処理部が、前記畳み込み処理を含むニューラルネットワークを用いて前記対象画像を処理することを含み、前記処理部が前記畳み込み処理を行う際に、前記畳み込み処理の入力となる入力特徴マップを分割した小領域ごとに前記畳み込み処理を行い、前記小領域ごとに前記畳み込み処理を行う際に、前記小領域を構成する特徴が、予め定められた特徴、又は過去に処理された小領域の特徴と対応する場合、前記小領域に対する前記畳み込み処理を行わず、前記予め定められた特徴に対して処理された結果、又は過去に処理された結果を、前記小領域を処理した結果として出力し、前記予め定められた特徴と対応する前記小領域は、前記予め定められた特徴との違いが、閾値以下である前記小領域であり、前記過去に処理された小領域の特徴と対応する前記小領域は、前記過去に処理された小領域の特徴との違いが、閾値以下である前記小領域である。

　本開示の第３態様は、画像を対象とする畳み込み処理を含むニューラルネットワークを含むコンピュータに、処理対象である対象画像を取得し、前記畳み込み処理を含むニューラルネットワークを用いて前記対象画像を処理することを実行させるための画像処理プログラムであって、前記畳み込み処理を行う際に、前記畳み込み処理の入力となる入力特徴マップを分割した小領域ごとに前記畳み込み処理を行い、前記小領域ごとに前記畳み込み処理を行う際に、前記小領域を構成する特徴が、予め定められた特徴、又は過去に処理された小領域の特徴と対応する場合、前記小領域に対する前記畳み込み処理を行わず、前記予め定められた特徴に対して処理された結果、又は過去に処理された結果を、前記小領域を処理した結果として出力し、前記予め定められた特徴と対応する前記小領域は、前記予め定められた特徴との違いが、閾値以下である前記小領域であり、前記過去に処理された小領域の特徴と対応する前記小領域は、前記過去に処理された小領域の特徴との違いが、閾値以下である前記小領域である。

　開示の技術によれば、畳み込み処理を含むニューラルネットワークを用いた処理を高速化することができる。

入力特徴マップの小領域を説明するための図である。入力特徴マップの小領域に対する畳み込み処理をスキップする方法を説明するための図である。入力特徴マップの小領域を説明するための図である。同値の小領域と判定する方法を説明するための図である。連続して同一の小領域と判定する方法を説明するための図である。同値の小領域と判定する方法を説明するための図である。連続して同一の小領域と判定する方法を説明するための図である。第１実施形態、第２実施形態、及び第３実施形態の画像処理装置として機能するコンピュータの一例の概略ブロック図である。第１実施形態、第２実施形態、及び第３実施形態の画像処理装置の機能構成を表すブロック図である。第１実施形態、第２実施形態、及び第３実施形態の画像処理装置の学習部の機能構成を表すブロック図である。第１実施形態、第２実施形態、及び第３実施形態の画像処理装置の推論部の機能構成を表すブロック図である。第１実施形態、第２実施形態、及び第３実施形態の学習処理の流れを表すフローチャートである。第１実施形態、第２実施形態、及び第３実施形態の学習処理及び画像処理における畳み込み処理の流れを表すフローチャートである。第１実施形態の同値の小領域であるかの判定処理の流れを表すフローチャートである。第１実施形態の連続して同一の小領域であるかの判定処理の流れを表すフローチャートである。第１実施形態の同値の小領域であるかの判定処理の流れを表すフローチャートである。第１実施形態の連続して同一の小領域であるかの判定処理の流れを表すフローチャートである。第１実施形態、第２実施形態、及び第３実施形態の画像処理の流れを表すフローチャートである。第２実施形態の同値の小領域であるかの判定処理の流れを表すフローチャートである。第２実施形態の連続して同一の小領域であるかの判定処理の流れを表すフローチャートである。小領域に対する判定結果に応じて畳み込み処理を行う方法を説明するための図である。複数の小領域に対して並列に畳み込み処理を行う方法を説明するための図である。変形例における入力特徴マップの小領域に対する畳み込み処理をスキップする方法を説明するための図である。変形例における入力特徴マップの小領域に対する畳み込み処理をスキップする方法を説明するための図である。変形例における入力特徴マップの小領域に対する畳み込み処理をスキップする方法を説明するための図である。畳み込み処理の一例を示す図である。畳み込み処理の一例を示す図である。小領域ごとの畳み込み処理の一例を示す図である。入力特徴マップの小領域の一例を示す図である。入力特徴マップの小領域の一例を示す図である。入力特徴マップの小領域の一例を示す図である。

　以下、開示の技術の実施形態の一例を、図面を参照しつつ説明する。なお、各図面において同一又は等価な構成要素及び部分には同一の参照符号を付与している。また、図面の寸法比率は、説明の都合上誇張されており、実際の比率とは異なる場合がある。

＜開示の技術の実施形態の概要＞
　開示の技術では、畳み込み層の入力特徴マップのデータをＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）等から読み込んだ後に、小領域ごとに、小領域内の全ての特徴が同値である小領域であるか、連続して同一の小領域であるかをそれぞれ判定する。以下、入力特徴マップの小領域の内部が全て同一の特徴となるものを「同値の小領域」と称する。また、小領域内の特徴が、一つ前の小領域と全く同一となるものを「連続して同一の小領域」と称する。図１では、「同値の小領域」の一例として、点線で囲まれている小領域内の全ての特徴が４である例を示している。また、「連続して同一の小領域」の一例として、細い破線で囲まれている小領域内の特徴と、太い破線で囲まれている小領域内の特徴とが、同一である例を示している。ここで、同値である小領域であるかを判定するのは、入力画像でも同値となっているときが多いためである。また、連続して同一の小領域であるかを判定するのは、入力画像でも同じような領域が続くときが多いためである。例えば、入力画像の１０×６領域の上１行目の１０点の値が１０で下３行目の５０点の値が１２である場合である。同値である領域、連続して同一の小領域のどちらの場合も、入力画像が複雑な絵の領域ではなく平坦で均一気味な領域の場合があてはまる。

　また、図２に示すように、同値の小領域であるか否かの小領域ごとの判定結果を表す同値フラグと、連続して同一の小領域であるか否かの小領域ごとの判定結果を表す連続フラグと、入力特徴マップの各小領域のデータである小領域データとを、畳み込み処理を行う演算回路に入力する。

　演算回路において、処理対象となる小領域が、同値の小領域であるか、又は連続して同一の小領域である場合には、畳み込み処理を行わない処理スキップを行う。連続して同一の小領域である場合、直前に処理対象となった小領域と同じ処理結果となるため、直前に処理対象となった小領域の処理結果を連続して出力するだけでよく、処理が高速化される。図２では、小領域３内の特徴と小領域４内の特徴とが同一であるため、小領域４に対して処理スキップを行う例を示している。

　また、同値の小領域については、処理結果が限定される。特徴を示す値が４ビットである場合には、処理結果は１６パターンであり、特徴を示す値が８ビットである場合には、処理結果は２５６パターンとなる。全パターンの処理結果を事前計算して事前計算結果テーブルをＲＡＭに格納しておき、各層の処理ごとに、ＲＡＭから演算回路の内部メモリに事前計算結果テーブルを読み込んでおく。これにより、同値の小領域に対しては畳み込み処理を行わずに、内部メモリ参照のみで処理結果が得られるため、処理が高速化される。図２では、小領域２が同値の小領域であるため、小領域２に対して処理スキップを行い、事前計算結果テーブルに格納された、全ての特徴が４である場合の処理結果を参照して出力する例を示している。

　また、図２に示すように、演算回路による畳み込み処理の結果である出力特徴マップをＲＡＭ等に書き出す。書き出した出力特徴マップは次層以降で入力特徴マップとして使用され、再度、上述した判定処理と、処理スキップを用いた畳み込み処理を行うことが繰り返される。

　ここで、一度に処理する小領域のサイズは、演算回路の規模と比例する。また、一度に処理する小領域のサイズを大きくするほど、推論処理のスループットは向上する。しかしながら、スループットを高めるために、小領域のサイズを大きくしようとすると、入力特徴マップの小領域が、同値の小領域、又は連続して同一の小領域となることが少なくなる傾向にある。このため、演算回路の規模の増加に対して、スループットとしては十分な演算高速化が期待できないことが多い。

　例えば、図３に示すように、出力特徴マップの小領域のサイズを４×２ではなく４×４にした場合（入力特徴マップの小領域のサイズが６×４ではなく６×６である場合）、特徴マップは３個の小領域に分割されるが、いずれの小領域も内部が全て同値になることはない。また、いずれの小領域も連続して同一の小領域となることもない。このため、処理スキップは発生せずに３回分の畳み込み処理が必要となる。

　出力特徴マップの小領域のサイズが４×２だった場合は、６つの小領域のうち１つが同値の小領域で、１つが連続して同一の小領域であったため（上記図２を参照）、２回の処理スキップが発生して４回分の畳み込み処理だけでよい。

　出力特徴マップの小領域のサイズを４×２から４×４にするにはハードウェアとして演算回路の規模を２倍にする必要があるが、一方で処理スキップが発生しなくなることで実際のスループットは４／３倍しか増えていないこととなる。演算回路あたりのスループットは、（４／３）／２＝２／３倍と、下がっている。このように、スキップ率は小領域のサイズの向上に伴って下がる傾向にあり、そのために処理スキップによる演算回路の高速化の効果が低くなることがある。

　そこで、本実施形態では、ニューラルネットワークを用いた畳み込み処理において、処理精度への影響が少ない範囲で処理スキップ効果を高めて演算高速化を行う。

　具体的には、小領域の内部が全て同値でない小領域、または小領域の内部が全て連続して同一でない小領域であっても、処理精度への影響が少ない場合には畳み込み処理のスキップを適用することで、小領域のサイズが大きい場合やビット深度が大きい場合でも処理スキップによる演算高速化を行う。

　処理精度への影響が少ない場合として、同値の小領域又は連続して同一の小領域内の特徴との違いが、閾値以下である場合にスキップする。より具体的には、（１）小領域の画素毎の違いが閾値以外である場合、（２）小領域内の特徴が異なる画素の画素数が閾値以下である場合、に処理スキップを適用する。

　「（１）小領域の画素毎の違いが閾値以下である場合」について以下に詳細を説明する。

　小領域内の特徴について、精度を落とせば同値の小領域または連続して同一の小領域とみなせる場合に、処理スキップを行う。

　小領域判定にて、下位の数ビットがずれていることを許容した上で同値の小領域であるか、及び連続して同一の小領域であるかを判定する。このとき、処理対象の小領域内の特徴について下位ビットをマスクしてから、全て同値かどうか判定し、また、連続して同一の小領域であるかを判定する。

　このとき、設定パラメータとして、同値の小領域であるかの判定時に下位ビットをマスクするビット数α１と、連続して同一の小領域であるかの判定時に下位ビットをマスクするビット数α２とを設ける。

　例えば、図４Ａに示すように、α＝２とし、下位２ビットを無視するために、２進数「１１０１」（すなわち、１０進数「１３」）における下位２ビット「０１」がマスクされて、２進数「１１」（すなわち、１０進数「３」）とみなされる。これは、「＞＞α」と、αビットだけ右シフトすることと等しい。また、２^αで割ったときの商の値とすることと等しい（１３％（２^２）＝１３％４＝３）。

　図４Ａに、小領域の画素毎の違いが閾値以下である場合に、同値の小領域であると判定する例を示す。この例では、α１＝２、カーネルサイズ３×３、出力される小領域サイズ４×２（入力６×４）である。α１＝０、すなわち小領域の内部の値でそのまま判定処理を行う場合は、６×４＝２４つの値が全て同値ではないため、同値の小領域と判定なされない。一方で、α１＝２の場合、下位２ビットがマスクされることで、２４つの値が全て３となり、同値の小領域であると判定され処理スキップが行われる。

　図４Ｂに、小領域の画素毎の違いが閾値以下である場合に、連続して同一の小領域であると判定する例を示す。この例では、α１＝２、カーネルサイズ３×３、出力される小領域サイズ４×２（入力される小領域サイズ６×４）である。α２＝０、すなわち小領域の内部の値でそのまま判定処理を行う場合は、６×４＝２４つの値が、処理対象の小領域と直前の小領域とで全く一致してはおらず、連続して同一の小領域と判定されない。一方で、α２＝２の場合、下位２ビットがマスクされることで、２４つの値が、処理対象の小領域と直前の小領域とで全て一致することとなり、連続して同一の小領域と判定され処理スキップが適用される。

　「（２）小領域内の特徴と異なる画素の画素数が閾値以下である場合」について以下に詳細を説明する。

　小領域内の特徴について、一部の画素を除けば同値の小領域または連続して同一の小領域とみなせる場合に、処理スキップを行う。

　小領域判定にて、小領域内で数個の特徴がずれていることを許容した上で同値の小領域または連続して同一の小領域であるかの判定を行う。

　このとき、小領域内の特徴について、同値でなかった画素数、直前の小領域と一致しなかった画素数をそれぞれカウントする。カウント数が閾値以下である場合、同値の小領域又は連続して同一の小領域と判定し、処理スキップを行う。

　また、設定パラメータとして、同値の小領域であるかの判定時に許容される同値でない画素数β１と、連続して同一の小領域であるかの判定時に許容される、直前の小領域と同一でない画素数β２を設ける。

　図５に、小領域内の特徴と異なる画素の画素数が閾値以下である場合に、同値の小領域であると判定する例を示す。この例では、β１＝３、カーネルサイズ３×３、出力される小領域サイズ４×２（入力される小領域サイズ６×４）である。

　β１＝０、すなわち同値でないものが１つでも存在することを許容しない場合は、６×４＝２４つの値が全て同値ではないため、同値の小領域と判定されない。一方で、β１＝３の場合、同値でない画素数が３個まで許容される。図５において同値でないものは「１７」、「１６」の計２つであるため、２＜＝β１であり、同値の小領域と判定されて処理スキップが行われる。

　図６に、小領域内の特徴と異なる画素の画素数が閾値以下である場合に、連続して同一の小領域であると判定する例を示す。この例では、β１＝３、カーネルサイズ３×３、出力される小領域サイズ４×２（入力される小領域サイズ６×４）である。

　β２＝０、すなわち処理対象の小領域と直前の小領域とで一致しないものが１つでも存在することを許容しない場合は、６×４＝２４つの値が全て一致してはいないため、連続して同一の小領域と判定されない。

　一方で、β２＝３の場合、一致しない画素数が３個まで許容される。図６において処理対象の小領域と直前の小領域とで一致しないものは｛「２５」と「２８」｝、｛「８」と「１２」｝の計２つであるため、β２よりも少なく、連続して同一の小領域と判定され処理スキップが行われる。

　また、閾値に相当するビット数α１、α２、画素数β１、β２は、ニューラルネットワークを用いた処理の精度が所定の精度となるように予め定められたものである。なお、ビット数α１、α２、画素数β１、β２の値を推論処理中に動的に設定してもよい。

［第１実施形態］
＜第１実施形態に係る画像処理装置の構成＞
　図７は、第１実施形態の画像処理装置１０のハードウェア構成を示すブロック図である。

　図７に示すように、画像処理装置１０は、ＣＰＵ（Central Processing Unit）１１、ＲＯＭ（Read Only Memory）１２、ＲＡＭ１３、ストレージ１４、入力部１５、表示部１６、通信インタフェース（Ｉ／Ｆ）１７、及び演算回路１８を有する。各構成は、バス１９を介して相互に通信可能に接続されている。

　ＣＰＵ１１は、中央演算処理ユニットであり、各種プログラムを実行したり、各部を制御したりする。すなわち、ＣＰＵ１１は、ＲＯＭ１２又はストレージ１４からプログラムを読み出し、ＲＡＭ１３を作業領域としてプログラムを実行する。ＣＰＵ１１は、ＲＯＭ１２又はストレージ１４に記憶されているプログラムに従って、上記各構成の制御及び各種の演算処理を行う。本実施形態では、ＲＯＭ１２又はストレージ１４には、ニューラルネットワークの学習処理を行うための学習処理プログラム及びニューラルネットワークを用いた画像処理を行うための画像処理プログラムが格納されている。学習処理プログラム及び画像処理プログラムは、１つのプログラムであっても良いし、複数のプログラム又はモジュールで構成されるプログラム群であっても良い。

　ＲＯＭ１２は、各種プログラム及び各種データを格納する。ＲＡＭ１３は、作業領域として一時的にプログラム又はデータを記憶する。ストレージ１４は、ＨＤＤ（Hard Disk Drive）又はＳＳＤ（Solid State Drive）により構成され、オペレーティングシステムを含む各種プログラム、及び各種データを格納する。

　入力部１５は、マウス等のポインティングデバイス、及びキーボードを含み、各種の入力を行うために使用される。

　入力部１５は、ニューラルネットワークを学習するための学習用データを、入力として受け付ける。例えば、入力部１５は、処理対象となる対象画像と、予め求められた対象画像に対する処理結果とを含む学習用データを、入力として受け付ける。

　また、入力部１５は、処理対象となる対象画像を、入力として受け付ける。

　表示部１６は、例えば、液晶ディスプレイであり、処理結果を含む各種の情報を表示する。表示部１６は、タッチパネル方式を採用して、入力部１５として機能しても良い。

　通信インタフェース１７は、他の機器と通信するためのインタフェースであり、例えば、イーサネット（登録商標）、ＦＤＤＩ、Ｗｉ－Ｆｉ（登録商標）等の規格が用いられる。

　演算回路１８は、ニューラルネットワークの畳み込み層における畳み込み処理を実行する。具体的には、演算回路１８は、入力特徴マップの小領域と、カーネルとを受け付け、当該小領域内の各点の畳み込み処理の結果である、出力特徴マップの小領域を出力する。

　次に、画像処理装置１０の機能構成について説明する。図８は、画像処理装置１０の機能構成の例を示すブロック図である。

　画像処理装置１０は、機能的には、図８に示すように、学習部２０及び推論部２２を備えている。

　学習部２０は、図９に示すように、取得部３０、処理部３２、及び更新部３４を備えている。

　取得部３０は、入力された学習用データの対象画像及び処理結果を取得する。

　処理部３２は、畳み込み処理を含むニューラルネットワークを用いて対象画像を処理する。処理部３２は、畳み込み処理を行う際に、畳み込み処理の入力となる入力特徴マップを分割した小領域ごとに畳み込み処理を行う。小領域ごとの畳み込み処理は、演算回路１８を用いて実行される。このとき、入力特徴マップの小領域データとカーネルとが演算回路１８に入力され、演算回路１８から、小領域ごとの畳み込み処理の結果を表す出力特徴マップが出力される。

　ここで、入力特徴マップは、上記図１に示すように小領域に分割される。上記図１では、出力特徴マップの小領域に対応する領域を太線の枠で表示しており、入力特徴マップの小領域は、対応する出力特徴マップの小領域と、隣り合う小領域と重複した重複領域とを含む領域である。このように、入力特徴マップを分割した小領域は、隣り合う小領域と重複した重複領域であって、かつ、畳み込み処理のカーネルサイズに応じた重複領域を有する。なお、小領域の分割について、設計時に決めておく。例えば、ハードウェアの制約（サイズや電力）と所望のスループット（ｘｘｆｐｓなど）のバランスで決めればよい。カーネルサイズを３×３とし、入力特徴マップの小領域を１０×６とし、出力特徴マップの小領域を８×４とすれば、同時に３２点出力できるスループットが得られる。このとき、積和演算回路は、２８８個（＝（３×３）×８×４）必要となる。また、入力特徴マップの小領域を６×４とし、出力特徴マップの小領域を４×２とすれば、同時に８点のみ出力するスループットになる。このとき、積和演算回路は７２個（＝（３×３）×４×２）必要となる。また、積和演算をハードウェアで実現する場合には、小領域の分割は設計時に決めるため、層によって小領域の分割は変化しない。

　演算回路１８は、小領域ごとに畳み込み処理を行う際に、当該小領域を構成する全ての特徴が、同値の小領域と対応する場合、当該小領域に対する畳み込み処理を行わず、予め定められた、小領域を構成する全ての特徴が当該同値である場合に対して処理された結果を、当該小領域を処理した結果として出力する。

　具体的には、処理部３２が、小領域ごとに、当該小領域を構成する全ての特徴が、同値の小領域と対応するか否かを判定する。当該小領域を構成する全ての特徴が、同値の小領域と対応すると判定された場合、演算回路１８は、当該小領域に対する畳み込み処理を行わず、事前計算結果テーブルに格納された、小領域を構成する全ての特徴が当該同値である場合に対して処理された結果を、当該小領域を処理した結果として出力する。

　より具体的には、処理部３２が、小領域ごとに、同値の小領域内の特徴との違いが、閾値以下である場合、当該小領域を構成する全ての特徴が、同値の小領域と対応すると判定する。例えば、処理対象の小領域内の特徴を表す下位の所定ビット数α１のビット以外のビットが同一である場合、当該小領域を構成する全ての特徴が、同値の小領域と対応すると判定する。

　また、処理部３２が、小領域ごとに、同値の小領域内の特徴と異なる画素の画素数が閾値以下である場合、当該小領域を構成する全ての特徴が、同値の小領域と対応すると判定する。例えば、同値の小領域と比較して、特徴が異なる画素の画素数をカウントし、カウントした画素数が閾値β１以下である場合、当該小領域を構成する全ての特徴が、同値の小領域と対応すると判定する。

　また、演算回路１８は、小領域ごとに畳み込み処理を行う際に、当該小領域を構成する特徴が、直前に処理された小領域の特徴と対応する場合、当該小領域に対する畳み込み処理を行わず、直前に処理された小領域に対して処理された結果を、当該小領域を処理した結果として出力する。

　具体的には、処理部３２が、小領域ごとに、当該小領域を構成する特徴が、直前に処理された小領域の特徴と対応するか否かを判定する。当該小領域を構成する特徴が、直前に処理された小領域の特徴と対応すると判定された場合、演算回路１８は、当該小領域に対する畳み込み処理を行わず、直前に処理された小領域に対して処理された結果を、当該小領域を処理した結果として出力する。

　より具体的には、処理部３２が、小領域ごとに、直前に処理された小領域内の特徴との違いが、閾値以下である場合、当該小領域を構成する特徴が、直前に処理された小領域の特徴と対応すると判定する。例えば、直前に処理された小領域内の特徴を表す下位の所定ビット数α２のビット以外のビットが、当該小領域内の特徴を表す下位の所定ビット数α２のビット以外のビットと同一である場合、当該小領域を構成する特徴が、直前に処理された小領域の特徴と対応すると判定する。

　また、処理部３２が、小領域ごとに、直前に処理された小領域内の特徴と異なる画素の画素数が閾値以下である場合、当該小領域を構成する特徴が、直前に処理された小領域の特徴と対応すると判定する。例えば、直前に処理された小領域と比較して、特徴が異なる画素の画素数をカウントし、カウントした画素数が閾値β２以下である場合、当該小領域を構成する特徴が、直前に処理された小領域の特徴と対応すると判定する。

　更新部３４は、対象画像に対してニューラルネットワークを用いて処理した結果と、予め求められた処理結果とが一致するように、ニューラルネットワークのパラメータを更新する。また、更新部３４は、更新されたニューラルネットワークのパラメータに基づいて、各畳み込み層の事前計算結果テーブルを更新する。

　予め定められた反復終了条件を満たすまで、処理部３２及び更新部３４の各処理が繰り返し行われる。これにより、ニューラルネットワークが学習される。

　推論部２２は、図１０に示すように、取得部４０及び処理部４２を備えている。

　取得部４０は、入力された処理対象である対象画像を取得する。

　処理部４２は、畳み込み処理を含むニューラルネットワークを用いて対象画像を処理する。処理部４２は、畳み込み処理を行う際に、畳み込み処理の入力となる入力特徴マップを分割した小領域ごとに畳み込み処理を行う。小領域ごとの畳み込み処理は、演算回路１８を用いて実行される。このとき、入力特徴マップの小領域データとカーネルとが演算回路１８に入力され、演算回路１８から、小領域ごとの畳み込み処理の結果を表す出力特徴マップが出力される。

　処理部４２は、処理部３２と同様に、小領域ごとに、当該小領域を構成する全ての特徴が、同値の小領域に対応するか否かを判定する。当該小領域を構成する全ての特徴が、同値の小領域に対応すると判定された場合、演算回路１８は、当該小領域に対する畳み込み処理を行わず、事前計算結果テーブルに格納された、小領域を構成する全ての特徴が当該同値である場合に対して処理された結果を、当該小領域を処理した結果として出力する。

　また、処理部４２は、処理部３２と同様に、当該小領域を構成する特徴が、直前に処理された小領域の特徴と対応するか否かを判定する。当該小領域を構成する特徴が、直前に処理された小領域の特徴と対応すると判定された場合、演算回路１８は、当該小領域に対する畳み込み処理を行わず、直前に処理された小領域に対して処理された結果を、当該小領域を処理した結果として出力する。

　対象画像に対してニューラルネットワークを用いて処理した結果が、表示部１６により表示される。

＜第１実施形態に係る画像処理装置の作用＞
　次に、第１実施形態に係る画像処理装置１０の作用について説明する。

　図１１は、画像処理装置１０による学習処理の流れを示すフローチャートである。ＣＰＵ１１がＲＯＭ１２又はストレージ１４から学習処理プログラムを読み出して、ＲＡＭ１３に展開して実行することにより、学習処理が行なわれる。また、画像処理装置１０に、学習用データが入力される。

　ステップＳ１００で、ＣＰＵ１１は、取得部３０として、入力された学習用データの処理対象である対象画像及び処理結果を取得する。

　ステップＳ１０２で、ＣＰＵ１１は、処理部３２として、畳み込み処理を含むニューラルネットワークを用いて、学習用データの対象画像を処理する。

　ステップＳ１０４で、ＣＰＵ１１は、更新部３４として、学習用データの対象画像に対してニューラルネットワークを用いて処理した結果と、予め求められた処理結果とが一致するように、ニューラルネットワークのパラメータを更新し、事前計算結果テーブルを更新する。

　ステップＳ１０６で、ＣＰＵ１１は、予め定められた反復終了条件を満たしたか否かを判定する。反復終了条件を満たしていない場合には、上記ステップＳ１０２へ戻り、処理部３２、及び更新部３４の各処理が繰り返し行われる。これにより、ニューラルネットワークが学習される。

　上記ステップＳ１０２は、ニューラルネットワークの各層の演算処理を行う。ここで、畳み込み層の演算処理は、図１２に示す処理ルーチンによって実現される。

　ステップＳ１１０において、ＣＰＵ１１は、処理部３２として、当該畳み込み層の入力となる入力特徴マップを小領域に分割する。

　ステップＳ１１２において、ＣＰＵ１１は、処理部３２として、ＲＡＭ１３から、当該畳み込み層の事前計算結果テーブルを読み出す。

　ステップＳ１１４において、ＣＰＵ１１は、処理部３２として、分割した小領域を順に処理対象とし、処理対象の小領域を構成する特徴が、同値の小領域と対応するか、又は直前に処理された小領域の特徴と対応するかを判定する。

　具体的には、ＣＰＵ１１が、同値の小領域内の特徴との違いが、閾値以下である場合、処理対象の小領域を構成する特徴が、同値の小領域と対応すると判定する。

　また、ＣＰＵ１１が、同値の小領域内の特徴と異なる画素の画素数が閾値以下である場合、処理対象の小領域を構成する特徴が、同値の小領域と対応すると判定する。

　また、ＣＰＵ１１が、直前に処理された小領域内の特徴との違いが、閾値以下である場合、処理対象の小領域を構成する特徴が、直前に処理された小領域の特徴と対応すると判定する。

　また、ＣＰＵ１１が、直前に処理された小領域内の特徴と異なる画素の画素数が閾値以下である場合、処理対象の小領域を構成する特徴が、直前に処理された小領域の特徴と対応すると判定する。

　ステップＳ１１６において、ＣＰＵ１１は、処理部３２として、入力特徴マップの各小領域データ、事前計算結果テーブル、及び上記ステップＳ１１４の判定結果を示す同値フラグ及び連続フラグを、演算回路１８に出力する。そして、演算回路１８は、小領域ごとに畳み込み処理を行う。このとき、処理対象の小領域が、同値の小領域に対応せず、かつ、連続して同一の小領域にも対応しない場合には、演算回路１８は、処理対象の小領域に対する畳み込み処理を行う。処理対象の小領域が、同値の小領域に対応する場合、演算回路１８は、処理対象である小領域に対する畳み込み処理を行わず、事前計算結果テーブルに格納された、小領域を構成する特徴が当該同値である場合に対して処理された結果を、処理対象である小領域を処理した結果として出力する。

　また、処理対象である小領域が、連続して同一の小領域に対応する場合、演算回路１８は、処理対象である小領域に対する畳み込み処理を行わず、直前に処理された小領域に対して処理された結果を、処理対象である小領域を処理した結果として出力する。

　そして、処理ルーチンを終了し、各小領域に対する処理結果からなる出力特徴マップを出力し、次の層の入力特徴マップとする。

　上記ステップＳ１１４は、分割した小領域を順に処理対象とし、処理対象の小領域を構成する特徴が、同値の小領域と対応するか、又は直前に処理された小領域の特徴と対応するかを判定する。ここで、小領域の画素毎の違いが閾値以下である場合に、同値の小領域と対応すると判定する処理は、図１３に示す処理ルーチンによって実現される。

　ステップＳ１３０において、ＣＰＵ１１は、処理部３２として、処理対象の小領域内の特徴について下位の所定ビット数α１のビットをマスクするマスク処理を行う。

　ステップＳ１３２において、ＣＰＵ１１は、処理部３２として、上記ステップＳ１３０のマスク処理後の処理対象の小領域内の特徴が、全て同値かどうかに基づいて、処理対象の小領域を構成する特徴が、同値の小領域と対応するか否かを判定する。

　また、小領域の画素毎の違いが閾値以下である場合に、連続して同一の小領域と対応すると判定する処理は、図１４に示す処理ルーチンによって実現される。

　ステップＳ１４０において、ＣＰＵ１１は、処理部３２として、処理対象の小領域内の特徴について下位の所定ビット数α２のビットをマスクするマスク処理を行う。

　ステップＳ１４２において、ＣＰＵ１１は、処理部３２として、上記ステップＳ１４０のマスク処理後の処理対象の小領域内の特徴が、マスク処理後の、直前に処理された小領域内の特徴と同一であるかどうかに基づいて、処理対象の小領域を構成する特徴が、直前に処理された小領域と対応するか否かを判定する。

　また、小領域内の特徴と異なる画素の画素数が閾値以下である場合に、同値の小領域と対応すると判定する処理は、図１５に示す処理ルーチンによって実現される。

　ステップＳ１５０において、ＣＰＵ１１は、処理部３２として、処理対象の小領域について、同値の小領域と比較して、特徴が異なる画素の画素数をカウントする。

　ステップＳ１５２において、ＣＰＵ１１は、処理部３２として、上記ステップＳ１５０でカウントされた画素数が、閾値β１以下であるかどうかに基づいて、処理対象の小領域を構成する特徴が、同値の小領域と対応するか否かを判定する。

　また、小領域内の特徴と異なる画素の画素数が閾値以下である場合に、連続して同一の小領域と対応すると判定する処理は、図１６に示す処理ルーチンによって実現される。

　ステップＳ１６０において、ＣＰＵ１１は、処理部３２として、処理対象の小領域について、直前に処理された小領域と比較して、特徴が異なる画素の画素数をカウントする。

　ステップＳ１６２において、ＣＰＵ１１は、処理部３２として、上記ステップＳ１６０でカウントされた画素数が、閾値β２以下であるかどうかに基づいて、処理対象の小領域を構成する特徴が、直前に処理された小領域と対応するか否かを判定する。

　図１７は、画像処理装置１０による画像処理の流れを示すフローチャートである。ＣＰＵ１１がＲＯＭ１２又はストレージ１４から画像処理プログラムを読み出して、ＲＡＭ１３に展開して実行することにより、画像処理が行なわれる。また、画像処理装置１０に、対象画像が入力される。

　ステップＳ１２０で、ＣＰＵ１１は、取得部４０として、入力された対象画像を取得する。

　ステップＳ１２２で、ＣＰＵ１１は、処理部４２として、上述した学習処理により学習されたニューラルネットワークを用いて、対象画像を処理する。そして、対象画像に対してニューラルネットワークを用いて処理した結果が、表示部１６により表示される。

　上記ステップＳ１２２は、ニューラルネットワークの各層の演算処理を行う。ここで、畳み込み層の演算処理は、上記図１２に示す処理ルーチンによって実現される。

　以上説明したように、第１実施形態に係る画像処理装置は、入力特徴マップの小領域ごとに畳み込み処理を行う際に、小領域を構成する特徴が、同値の小領域に対応する場合、又は直前に処理された小領域の特徴と対応する場合、当該小領域に対する畳み込み処理を行わず、予め定められた同値の小領域に対して処理された結果、又は直前に処理された結果を、当該小領域を処理した結果として出力する。これにより、畳み込み処理を含むニューラルネットワークを用いた処理を高速化することができる。

　スループット向上のために入力特徴マップを分割した小領域のサイズを大きくする場合や、ＣＮＮ演算精度を高めるために入力特徴マップを表現するビット深度を大きくする場合には、従来手法では、小領域の内部が全てゼロとなることが少なくなり、演算を高速化できないことが多い。例えば、入力特徴マップの特徴を４ビットデータで表す場合には、小領域の内部が全てゼロとなるのに対し、入力特徴マップの特徴を６ビットデータで表す場合には、小領域の内部が全てゼロとならない。一方、本実施形態では、同値の小領域又は連続して同一の小領域に対応する小領域において、従来手法と比べて十分な演算高速化が見込める。

　また、マスクするビット数α１、α２、特徴が異なる画素数の上限数β１、β２が設定パラメータとなる。パラメータ値が大きいほどスキップ率が高くなり高速化されやすく、小さいほどＣＮＮ演算精度への影響が少ない。

　事前実験等によってニューラルネットワークに適した値を決定することが可能である。事前実験によって、一定以上のＣＮＮ演算精度を出せて、かつその中で最もスキップ性能が高くなることが多いような、α１，α２、β１、β２を決めることができる。

　もしくは、ＣＮＮ演算精度の変化をフィードバックしてＣＮＮ演算精度への影響が少ない範囲で適応的にパラメータ値を変更することも可能である。例えば、ＣＮＮ演算精度の閾値を設定しておき、推論処理の途中でその閾値を下回った場合、α１、α２、β１、β２を一段階小さくすることで、ＣＮＮ演算精度を適応的に向上させることが可能である。

　上記のような処理により，ＣＮＮ演算精度への影響を一定値以下に抑えながら、大幅なスキップ率の向上が可能となり、ＣＮＮ演算処理全体の高速化が期待できる。

［第２実施形態］
　次に、第２実施形態について説明する。なお、第１実施形態と同様の構成であるため、同一符号を付して説明を省略する。

　第２実施形態では、小領域判定において、マスク処理後に、小領域内の特徴が異なる画素の画素数をカウントして、カウントした画素数が閾値以下であるか否かに基づいて、同値の小領域または連続して同一の小領域に対応するか否かを判定する点が、第１実施形態と異なっている。

＜第２実施形態の概要＞
　第２実施形態では、（１）小領域の画素毎の違いが閾値以外である場合、（２）小領域内の特徴が異なる画素の画素数が閾値以下である場合、の双方を同時に考慮する。具体的には、設定パラメータα１、α２、β１、β２をそれぞれ設定し、下位ビットのマスクと、小領域内の特徴が異なる画素の画素数のカウントとを同時に行う。

　これにより、画素毎の違いが閾値以下であれば、いくつ存在しても許容し、画素毎の違いが閾値以上となる画素数が、一定数β１、β２以下まで許容する、という条件で、処理スキップが行われる。

＜第２実施形態に係る画像処理装置の構成＞
　処理部３２が、小領域ごとに、当該小領域を構成する全ての特徴が、同値の小領域と対応するか否かを判定する。当該小領域を構成する全ての特徴が、同値の小領域と対応すると判定された場合、演算回路１８は、当該小領域に対する畳み込み処理を行わず、事前計算結果テーブルに格納された、小領域を構成する全ての特徴が当該同値である場合に対して処理された結果を、当該小領域を処理した結果として出力する。

　具体的には、処理部３２が、小領域ごとに、同値の小領域内の特徴との違いが、閾値以下であれば、同一の特徴とみなした上で、同値の小領域内の特徴と異なる画素の画素数が閾値以下である場合、当該小領域を構成する全ての特徴が、同値の小領域と対応すると判定する。例えば、処理対象の小領域内の特徴を表す下位の所定ビット数α１のビット以外のビットが同一であれば、同一の特徴とみなした上で、同値の小領域と比較して、特徴が異なる画素の画素数をカウントし、カウントした画素数が閾値β１以下である場合、当該小領域を構成する全ての特徴が、同値の小領域と対応すると判定する。

　また、処理部３２が、小領域ごとに、当該小領域を構成する特徴が、直前に処理された小領域の特徴と対応するか否かを判定する。当該小領域を構成する特徴が、直前に処理された小領域の特徴と対応すると判定された場合、演算回路１８は、当該小領域に対する畳み込み処理を行わず、直前に処理された小領域に対して処理された結果を、当該小領域を処理した結果として出力する。

　具体的には、処理部３２が、小領域ごとに、直前に処理された小領域内の特徴との違いが、閾値以下であれば、同一の特徴とみなした上で、直前に処理された小領域内の特徴と異なる画素の画素数が閾値以下である場合、当該小領域を構成する特徴が、直前に処理された小領域の特徴と対応すると判定する。

　例えば、処理対象の小領域内の特徴を表す下位の所定ビット数α２のビット以外のビットが同一であれば、同一の特徴とみなした上で、直前に処理された小領域と比較して、特徴が異なる画素の画素数をカウントし、カウントした画素数が閾値β２以下である場合、当該小領域を構成する全ての特徴が、直前に処理された小領域の特徴と対応すると判定する。

＜第２実施形態に係る画像処理装置の作用＞
　畳み込み層の演算処理は、上記図１２に示す処理ルーチンによって実現される。ここで、ステップＳ１１４では、ＣＰＵ１１は、処理部３２として、分割した小領域を順に処理対象とし、処理対象の小領域を構成する特徴が、同値の小領域と対応するか、又は直前に処理された小領域の特徴と対応するかを判定する。

　具体的には、ＣＰＵ１１が、同値の小領域内の特徴との違いが、閾値以下であれば、同一の特徴とみなした上で、同値の小領域内の特徴と異なる画素の画素数が閾値以下である場合、処理対象の小領域を構成する特徴が、同値の小領域と対応すると判定する。

　また、ＣＰＵ１１が、直前に処理された小領域内の特徴との違いが、閾値以下であれば、同一の特徴とみなした上で、直前に処理された小領域内の特徴と異なる画素の画素数が閾値以下である場合、処理対象の小領域を構成する特徴が、直前に処理された小領域の特徴と対応すると判定する。

　上記ステップＳ１１４は、分割した小領域を順に処理対象とし、処理対象の小領域を構成する特徴が、同値の小領域と対応するか、又は直前に処理された小領域の特徴と対応するかを判定する。ここで、小領域の画素毎の違いが閾値以下であれば、同一の特徴とみなした上で、小領域内の特徴と異なる画素の画素数が閾値以下である場合に、同値の小領域と対応すると判定する処理は、図１８に示す処理ルーチンによって実現される。

　ステップＳ２００において、ＣＰＵ１１は、処理部３２として、マスク処理後の処理対象の小領域について、同値の小領域と比較して、特徴が異なる画素の画素数をカウントする。

　ステップＳ２０２において、ＣＰＵ１１は、処理部３２として、上記ステップＳ２００でカウントされた画素数が、閾値β１以下であるかどうかに基づいて、処理対象の小領域を構成する特徴が、同値の小領域と対応するか否かを判定する。

　また、小領域の画素毎の違いが閾値以下であれば、同一の特徴とみなした上で、小領域内の特徴と異なる画素の画素数が閾値以下である場合に、連続して同一の小領域と対応すると判定する処理は、図１９に示す処理ルーチンによって実現される。

　ステップＳ２１０において、ＣＰＵ１１は、処理部３２として、マスク処理後の処理対象の小領域について、マスク処理後の、直前に処理された小領域と比較して、特徴が異なる画素の画素数をカウントする。

　ステップＳ２１２において、ＣＰＵ１１は、処理部３２として、上記ステップＳ２１０でカウントされた画素数が、閾値β２以下であるかどうかに基づいて、処理対象の小領域を構成する特徴が、直前に処理された小領域と対応するか否かを判定する。

　次に、図２０を用いて、畳み込み層の演算処理の一例を示す。

　まず、入力特徴マップとして、小領域１つを与える（Ｓ２２０）。図２０では、８ビット精度、ｋｅｒｎｅｌサイズ３×３、出力する小領域サイズ４×２の場合を示す。この場合、処理対象の小領域のサイズは６×４となる。小領域内の２４つの特徴をｆ_ｔ（ｔ：０～２３）として表す。

　そして、同値の小領域であるかの判定のためのマスク処理を行う（Ｓ２２２）。与えられるパラメータα１により、ｆ’_ｔ＝ｆ_ｔ≫α１としてマスク処理後の小領域内の特徴ｆ’_ｔを算出する。

　また、同値の小領域であるかの判定のためのカウント処理を行う（Ｓ２２４）。マスク処理後の小領域に対して、１つ目の値ｆ’_０をｘとし、ｘと同値でないｆ’_ｎの個数をカウントし、ｙ個とする。

　ｙ≦β１の場合、処理対象の小領域内の特徴を表す下位の所定ビット数α１のビット以外のビットが同一であれば、同一の特徴とみなした上で、同値の小領域と比較して、特徴が異なる画素の画素数が、閾値β１以下であると判断し、当該小領域が、同値の小領域と判定する（Ｓ２２６）。同値フラグを１に立てる。

　同値フラグ１の場合、処理スキップを行う（Ｓ２２８）。ｘ（＝ｆ’_０）が、小領域の代表値であり、事前計算結果テーブルに格納された、ｘに相当する畳み込み処理の結果を、出力データとしてそのまま利用すればよい。

　例えばａ１＝４の場合、ｆ’_ｔは８－４＝４ビット相当なので、ｆ’_ｔは１６段階の値しかとらない。それぞれの場合に出力がどうなるか、という畳み込み処理の結果を事前にしておき、事前計算結果テーブルとして保存しておく。

　同値の小領域が入力の場合は、畳み込み処理の結果も内部の値がすべて同値になるので、１６段階の入力値に対してそれぞれ１つの値のみ保存しておくだけでよい。この場合、入力の代表値ｘに対する出力データをｄｘとして、畳み込み処理の結果のサイズ４×２の中の８つの値をすべてｄｘで埋めて、畳み込み処理の結果とすればよく、実際の積和演算なしでデータリードだけで演算結果を取得可能となる。

　また、連続して同一の小領域であるかの判定のためのマスク処理を行う（Ｓ２３０）。与えられるパラメータα２により、ｆ’’_ｔ＝ｆ_ｔ≫α２としてマスク処理後の小領域内の特徴ｆ’’_ｔを算出する。

　また、次の小領域の際に利用できるように、マスク処理後の値（６×４＝２４つの値）を保存しておく（Ｓ２３２）。ｇ’’_ｔ（ｔ：０～２３）とする。

　連続して同一の小領域であるかの判定のためのカウント処理を行う（Ｓ２３４）。マスク処理後の小領域の特徴ｆ’’_ｔと直前の小領域の特徴ｇ’’_ｔに対して、同じ値となっていない画素数をカウントし、ｚ個とする。

　ｚ≦β２の場合、処理対象の小領域内の特徴を表す下位の所定ビット数α２のビット以外のビットが同一であれば、同一の特徴とみなした上で、同値の小領域と比較して、特徴が異なる画素の画素数が閾値β２以下であると判断し、当該小領域が、連続して同一の小領域と判定する（Ｓ２３６）。連続フラグを１に立てる。

　連続フラグ１の場合、処理スキップを行う（Ｓ２３８）。前回の畳み込み処理の結果をそのまま利用する。前回の畳み込み処理の結果（４×２＝８つの値）を毎回保持しておき、連続フラグ１のときはそのデータをリードすることで畳み込み処理の結果とすればよく、実際の積和演算なしでデータリードだけで演算結果を取得可能となる。

　同値フラグ及び連続フラグのどちらも０の場合、処理スキップはできないため、通常通りに演算回路１８で積和演算を行うことで、畳み込み処理の結果を得る。

　なお、第２実施形態に係る画像処理装置の他の構成及び作用については、第１実施形態と同様であるため、説明を省略する。

　以上説明したように、第２実施形態に係る画像処理装置は、入力特徴マップの小領域ごとに畳み込み処理を行う際に、小領域を構成する特徴が、同値の小領域に対応する場合、又は直前に処理された小領域の特徴と対応する場合、当該小領域に対する畳み込み処理を行わず、予め定められた同値の小領域に対して処理された結果、又は直前に処理された結果を、当該小領域を処理した結果として出力する。これにより、畳み込み処理を含むニューラルネットワークを用いた処理を高速化することができる。

　また、小領域判定において、マスク処理後に、小領域内の特徴が異なる画素の画素数をカウントして、カウントした画素数が閾値以下であるか否かに基づいて、同値の小領域または連続して同一の小領域に対応するか否かを判定することにより、比較用の演算回路やデータ格納用の内部メモリ量を抑えることができる。例えば８ビットの特徴マップにおいて、小領域判定も８ビットにした場合と、下位ビットをマスクして小領域判定を行う場合とでは、同値の小領域であるかの判定と連続して同一の小領域であるかの判定で各ビットが一致するかどうかを判定するＡＮＤ回路の数が減る。

　また、同値の小領域であるかの判定用にはそれぞれの値に対する結果をテーブルとして保持する必要がある。例えば８ビットの特徴マップにおいて、同値の小領域であるかの判定も８ビットにした場合、同値の小領域の入力値としては０～２５５の２５６段階がとりうる。また、同値の小領域であるかの判定を４ビットにすれば同値の小領域の入力値としては０～１５の１６段階でよく、同値の小領域であるかの判定のためのテーブル用のメモリ量を大幅に削減することが可能となる。

［第３実施形態］
　第３実施形態では、演算回路において複数の小領域に対して並列に畳み込み処理を行う点が、第１実施形態と異なっている。

＜第３実施形態の概要＞
　第３実施形態では、図２１に示すように、演算回路において、入力特徴マップの複数の小領域に対して並列に畳み込み処理を行う。図２１では、演算回路が、入力特徴マップの小領域のサイズを６×４とし、４個の小領域に対して並列に畳み込み処理を行い、３２点の畳み込み処理の結果を同時に出力する例を示している。

　このとき、小領域ごとに、同値の小領域であるか、又は連続して同一の小領域であるかの判定を行う。図２１の例では、小領域１が、同値の小領域であり、小領域３が、連続して同一の小領域であり、小領域１と小領域３の畳み込み処理がスキップされている。また、小領域０、小領域２、小領域４、及び小領域５に対して並列に畳み込み処理が行われ、結果として、１度に、６つの小領域に対する処理結果が得られている。

　このように、小領域ごとに、同値の小領域であるか、又は連続して同一の小領域であるかの判定を行い、演算回路を用いて、複数の小領域に対して並列に畳み込み処理を行うことにより、同値の小領域である確率、及び連続して同一の小領域である確率を増加させて、畳み込み処理をスキップさせる確率を増加させることができる。

＜第３実施形態に係る画像処理装置の構成＞
　第３実施形態の画像処理装置について説明する。第１実施形態と同様の構成となる部分については、同一符号を付して説明を省略する。

　第３実施形態の画像処理装置２１０のハードウェア構成は、上記図７に示す画像処理装置１０のハードウェア構成と同様である。

　画像処理装置２１０の演算回路１８は、入力特徴マップの小領域データと、カーネルとを受け付け、所定数の小領域に対して並列に畳み込み処理を行うことを繰り返し、各小領域内の各点の畳み込み処理の結果である、出力特徴マップを出力する。

　学習部２０の処理部３２は、畳み込み処理を含むニューラルネットワークを用いて対象画像を処理する。処理部３２は、畳み込み処理を行う際に、畳み込み処理の入力となる入力特徴マップを分割した小領域ごとに畳み込み処理を行う。小領域ごとの畳み込み処理は、演算回路１８を用いて実行される。このとき、処理部３２は、小領域ごとに、同値の小領域であるか否か、及び連続して同一の小領域であるか否かを判定する。入力特徴マップの小領域データとカーネルと小領域ごとの判定結果と事前計算結果テーブルとが演算回路１８に入力され、演算回路１８から、出力特徴マップが出力される。

　具体的には、処理部３２は、畳み込み処理を行う際に、小領域ごとに、当該小領域を構成する全ての特徴が、同値の小領域に対応するか否かを判定する。当該小領域を構成する全ての特徴が、同値の小領域に対応すると判定された場合、演算回路１８は、当該小領域に対する畳み込み処理を行わず、事前計算結果テーブルに格納された、小領域を構成する全ての特徴が当該同値である場合に対して処理された結果を、当該小領域を処理した結果として出力する。

　また、演算回路１８は、小領域を構成する全ての特徴が同値の小領域に対応せず、かつ、直前に処理された小領域の特徴と対応しない、所定数の小領域に対して並列に畳み込み処理を行う。

　上記のように小領域ごとに行われた畳み込み処理の結果である出力特徴マップが、ニューラルネットワークの次の層の入力となる。

　推論部２２の処理部４２は、処理部３２と同様に、畳み込み処理を含むニューラルネットワークを用いて対象画像を処理する。処理部４２は、畳み込み処理を行う際に、畳み込み処理の入力となる入力特徴マップを分割した小領域ごとに畳み込み処理を行う。小領域ごとの畳み込み処理は、演算回路１８を用いて実行される。このとき、処理部４２は、小領域ごとに、同値の小領域に対応するか否か、及び連続して同一の小領域に対応するか否かを判定する。入力特徴マップの小領域データとカーネルと小領域ごとの判定結果と事前計算結果テーブルとが演算回路１８に入力され、演算回路１８から、出力特徴マップが出力される。

　具体的には、処理部４２は、処理部３２と同様に、畳み込み処理を行う際に、小領域ごとに、当該小領域を構成する全ての特徴が、同値の小領域に対応するか否かを判定する。当該小領域を構成する全ての特徴が、同値の小領域に対応すると判定された場合、演算回路１８は、当該小領域に対する畳み込み処理を行わず、事前計算結果テーブルに格納された、小領域を構成する全ての特徴が当該同値である場合に対して処理された結果を、当該小領域を処理した結果として出力する。

　また、処理部４２は、処理部３２と同様に、小領域ごとに、当該小領域を構成する特徴が、直前に処理された小領域の特徴と対応するか否かを判定する。当該小領域を構成する特徴が、直前に処理された小領域の特徴と対応すると判定された場合、演算回路１８は、当該小領域に対する畳み込み処理を行わず、直前に処理された小領域に対して処理された結果を、当該小領域を処理した結果として出力する。

＜第３実施形態に係る画像処理装置の作用＞
　次に、第３実施形態に係る画像処理装置１０の作用について説明する。

　画像処理装置２１０のＣＰＵ１１がＲＯＭ１２又はストレージ１４から学習処理プログラムを読み出して、ＲＡＭ１３に展開して実行することにより、は、上記図１１に示す学習処理と同様の処理が行なわれる。また、画像処理装置１０に、学習用データが入力される。

　上記ステップＳ１０２は、ニューラルネットワークの各層の演算処理を行う。ここで、畳み込み層の演算処理は、上記図１２に示す処理ルーチンによって実現される。

　ステップＳ１１６では、処理対象の小領域を構成する特徴が、同値の小領域に対応する場合、演算回路１８は、処理対象である小領域に対する畳み込み処理を行わず、事前計算結果テーブルに格納された、小領域を構成する特徴が当該同値である場合に対して処理された結果を、処理対象である小領域を処理した結果として出力する。

　また、処理対象である小領域を構成する特徴が、直前に処理された小領域の特徴と対応する場合、演算回路１８は、処理対象である小領域に対する畳み込み処理を行わず、直前に処理された小領域に対して処理された結果を、処理対象である小領域を処理した結果として出力する。

　また、演算回路１８は、小領域を構成する特徴が、同値の小領域に対応せず、かつ、直前に処理された小領域の特徴と対応しない所定数の小領域に対して、並列に畳み込み処理を行う。

　画像処理装置２１０のＣＰＵ１１がＲＯＭ１２又はストレージ１４から画像処理プログラムを読み出して、ＲＡＭ１３に展開して実行することにより、上記図１７に示す画像処理と同様の処理が行なわれる。また、画像処理装置２１０に、対象画像が入力される。

　なお、第３実施形態の画像処理装置２１０の他の構成及び作用については第１実施形態と同様であるため、説明を省略する。

　以上説明したように、第３実施形態に係る画像処理装置は、演算回路を、複数の小領域に対して並列に畳み込み処理を行うように構成し、入力特徴マップの小領域ごとに畳み込み処理を行う際に、小領域を構成する特徴が、同値の小領域に対応する場合、又は直前に処理された小領域の特徴と対応する場合、当該小領域に対する畳み込み処理を行わず、予め定められた同値の小領域に対して処理された結果、又は直前に処理された結果を、当該小領域を処理した結果として出力する。これにより、ビット深度や並列処理用単位が大きく、全てがゼロとなる小領域について畳み込み処理をスキップすることが期待できないような場合であっても、演算精度やスループットの低下なしで処理スキップによる高速化を期待できる。

　なお、本発明は、上述した実施形態の装置構成及び作用に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

　例えば、同値の小領域について、全ての値（例えば、特徴が４ビットデータで表される場合、１６つの値）の各々に対して事前に処理結果を計算してメモリに保存しておく場合を例に説明したが、これに限定されるものではない。同値の小領域として出現する可能性の高い特徴の値を、シミュレーション等を行って予め決めておき、出現確率の高い上位いくつかの特徴の値のみについてのみ、同値の小領域に対する処理結果を予め求めておき、事前計算結果テーブルに保存しておくようにしてもよい（図２２参照）。同値の小領域であって、処理結果が予め求められたものである場合に、畳み込み処理を行わずに、予め求められた処理結果を出力する。図２２では、特徴の値が１である同値の小領域、特徴の値が４である同値の小領域、及び特徴の値が１５である同値の小領域の各々に対してのみ、処理結果を予め求めておく例を示している。また、特徴の値が０である同値の小領域に対しては、処理結果が０であるため、事前計算結果テーブルに保存していない。これにより、予め求められた処理結果を格納する事前計算結果テーブルのサイズを削減でき、ハードウェアのメモリ量削減につながる。

　また、同値の小領域について、全ての値（例えば、特徴が４ビットデータで表される場合、１６つの値）の各々に対して事前に処理結果を計算してメモリに保存しておく場合を例に説明したが、これに限定されるものではない。特徴の値がある値である同値の小領域が初めて出現したときには畳み込み処理を行ってその処理結果を計算結果テーブルに保存し、特徴の値が当該値である同値の小領域が２回目以降出現したときには、畳み込み処理を行わずに計算結果テーブルから処理結果を読み込むようにしてもよい（図２３参照）。図２３では、小領域２で、特徴の値が４である同値の小領域が初めて出現し、畳み込み処理を行って、処理結果を計算結果テーブルに格納する例を示している。この例では、特徴の値が４である同値の小領域が２回目以降出現したときに、畳み込み処理を行わずに、計算結果テーブルから処理結果を読み込む。また、各層を処理するたびに計算結果テーブルをリセットする。これにより、事前計算の処理の手間が不要となる。また、各層の事前計算結果を層ごとにＲＡＭ等から演算回路の内部メモリに転送する必要がないため、ＲＡＭ等との転送データ量を削減することが可能である。

　また、連続して同一の小領域に対応するか否かを判定する場合を例に説明したが、これに限定されるものではない。例えば、いくつか前に処理した小領域と対応する小領域であるか否かを判定し、いくつか前に処理した小領域と対応する小領域である場合に、畳み込み処理を行わずに、当該いくつか前に処理した小領域の処理結果を出力するようにしてもよい（図２４参照）。図２４では、いくつか前に処理した小領域と対応するか否かを示す同一フラグに加えて、いくつ前の小領域と対応したかを示す小領域間隔のパラメータも用いて、小領域４が、小領域１と対応すると判断し、畳み込み処理を行わずに、小領域１と同一の処理結果を出力する例を示している。この場合、上限となる小領域間隔を設定し、上限となる小領域間隔の分だけ、小領域に対する処理結果を演算回路の内部メモリに保存しておく必要がある。これにより、処理スキップできる確率が増加するため高速化が期待できる。

　また、小領域が、同値の小領域と対応するか否かを判定する場合を例に説明したが、これに限定されるものではない。小領域が、同値の小領域以外の予め定められた特徴パターンと対応するか否かを判定するようにしてもよい。例えば、予め定められた頻出の特徴パターンに対する処理結果を予め求めておき、小領域が、予め定められた頻出の特徴パターンと対応するか否かを判定し、小領域が、予め定められた頻出の特徴パターンと対応する場合に、畳み込み処理を行わずに、予め求めた処理結果を出力するようにしてもよい。

　また、画像処理装置が、学習部と推論部とを備えている場合を例に説明したが、これに限定されるものではない。学習部を備えた装置と、推論部を備えた装置とを別の装置として構成してもよい。電力やサイズ等のハードウェアの制約が大きい場合に、学習部を備えた装置と、推論部を備えた装置とを別の装置として構成する方が好ましい。例えば、推論部を備えた装置を、ドローンにのせたり、ＩｏＴやエッジデバイスとして用いる場合である。また、一つの装置が学習部と推論部とを備えるように構成するのは、クラウドコンピューティングのようにデータセンタに置いてあるハードウェアを使って高速に学習させる場合が一般的である。

　また、上記実施形態でＣＰＵがソフトウェア（プログラム）を読み込んで実行した各種処理を、ＣＰＵ以外の各種のプロセッサが実行してもよい。この場合のプロセッサとしては、ＦＰＧＡ（Field-Programmable Gate Array）等の製造後に回路構成を変更可能なＰＬＤ（Programmable Logic Device）、及びＡＳＩＣ（Application Specific Integrated Circuit）等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が例示される。また、学習処理及び画像処理を、これらの各種のプロセッサのうちの１つで実行してもよいし、同種又は異種の２つ以上のプロセッサの組み合わせ（例えば、複数のＦＰＧＡ、及びＣＰＵとＦＰＧＡとの組み合わせ等）で実行してもよい。また、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子等の回路素子を組み合わせた電気回路である。

　また、上記各実施形態では、学習処理プログラム及び画像処理プログラムがストレージ１４に予め記憶（インストール）されている態様を説明したが、これに限定されない。プログラムは、ＣＤ－ＲＯＭ（Compact Disk Read Only Memory）、ＤＶＤ－ＲＯＭ（Digital Versatile Disk Read Only Memory）、及びＵＳＢ（Universal Serial Bus）メモリ等の非一時的（non-transitory）記憶媒体に記憶された形態で提供されてもよい。また、プログラムは、ネットワークを介して外部装置からダウンロードされる形態としてもよい。

　以上の実施形態に関し、更に以下の付記を開示する。

　（付記項１）
　画像を対象とする畳み込み処理を含むニューラルネットワークを含む画像処理装置であって、
　メモリと、
　前記メモリに接続された少なくとも１つのプロセッサと、
　を含み、
　前記プロセッサは、
　処理対象である対象画像を取得し、
　前記畳み込み処理を含むニューラルネットワークを用いて前記対象画像を処理することを実行させるための画像処理プログラムであって、
　前記畳み込み処理を行う際に、前記畳み込み処理の入力となる入力特徴マップを分割した小領域ごとに前記畳み込み処理を行い、
　前記小領域ごとに前記畳み込み処理を行う際に、前記小領域を構成する特徴が、予め定められた特徴、又は過去に処理された小領域の特徴と対応する場合、前記小領域に対する前記畳み込み処理を行わず、前記予め定められた特徴に対して処理された結果、又は過去に処理された結果を、前記小領域を処理した結果として出力し、
　前記予め定められた特徴と対応する前記小領域は、前記予め定められた特徴との違いが、閾値以下である前記小領域であり、
　前記過去に処理された小領域の特徴と対応する前記小領域は、前記過去に処理された小領域の特徴との違いが、閾値以下である前記小領域である
　画像処理装置。

　（付記項２）
　画像処理を実行するように、画像を対象とする畳み込み処理を含むニューラルネットワークを含むコンピュータによって実行可能なプログラムを記憶した非一時的記憶媒体であって、
　前記画像処理は、
　処理対象である対象画像を取得し、
　前記畳み込み処理を含むニューラルネットワークを用いて前記対象画像を処理することを実行させるための画像処理プログラムであって、
　前記畳み込み処理を行う際に、前記畳み込み処理の入力となる入力特徴マップを分割した小領域ごとに前記畳み込み処理を行い、
　前記小領域ごとに前記畳み込み処理を行う際に、前記小領域を構成する特徴が、予め定められた特徴、又は過去に処理された小領域の特徴と対応する場合、前記小領域に対する前記畳み込み処理を行わず、前記予め定められた特徴に対して処理された結果、又は過去に処理された結果を、前記小領域を処理した結果として出力し、
　前記予め定められた特徴と対応する前記小領域は、前記予め定められた特徴との違いが、閾値以下である前記小領域であり、
　前記過去に処理された小領域の特徴と対応する前記小領域は、前記過去に処理された小領域の特徴との違いが、閾値以下である前記小領域である
　非一時的記憶媒体。

１０、２１０　画像処理装置
１１　ＣＰＵ
１３　ＲＡＭ
１８　演算回路
２０　学習部
２２　推論部
３０、４０　取得部
３２、４２　処理部
３４　更新部

Claims

　画像を対象とする畳み込み処理を含むニューラルネットワークを含む画像処理装置であって、
　処理対象である対象画像を取得する取得部と、
　前記畳み込み処理を含むニューラルネットワークを用いて前記対象画像を処理する処理部とを含み、
　前記処理部は、前記畳み込み処理を行う際に、前記畳み込み処理の入力となる入力特徴マップを分割した小領域ごとに前記畳み込み処理を行い、
　前記小領域ごとに前記畳み込み処理を行う際に、前記小領域を構成する特徴が、予め定められた特徴、又は過去に処理された小領域の特徴と対応する場合、前記小領域に対する前記畳み込み処理を行わず、前記予め定められた特徴に対して処理された結果、又は過去に処理された結果を、前記小領域を処理した結果として出力し、
　前記予め定められた特徴と対応する前記小領域は、前記予め定められた特徴との違いが、閾値以下である前記小領域であり、
　前記過去に処理された小領域の特徴と対応する前記小領域は、前記過去に処理された小領域の特徴との違いが、閾値以下である前記小領域である
　画像処理装置。
　前記特徴との違いが閾値以下である前記小領域は、画素毎の特徴の違いが閾値以下である小領域である請求項１記載の画像処理装置。
　前記特徴との違いが閾値以下である前記小領域は、下位の所定ビット数のビット以外のビットが、前記特徴と同一である請求項２記載の画像処理装置。
　前記特徴との違いが閾値以下である前記小領域は、前記特徴が異なる画素の画素数が閾値以下である小領域である請求項１記載の画像処理装置。
　前記閾値は、前記ニューラルネットワークを用いた前記処理の精度が所定の精度となるように予め定められたものである請求項１記載の画像処理装置。
　前記予め定められた特徴は、前記小領域内の特徴が同一のものである請求項１記載の画像処理装置。
　画像を対象とする畳み込み処理を含むニューラルネットワークを含む画像処理装置における画像処理方法であって、
　取得部が、処理対象である対象画像を取得し、
　処理部が、前記畳み込み処理を含むニューラルネットワークを用いて前記対象画像を処理することを含み、
　前記処理部が前記畳み込み処理を行う際に、前記畳み込み処理の入力となる入力特徴マップを分割した小領域ごとに前記畳み込み処理を行い、
　前記小領域ごとに前記畳み込み処理を行う際に、前記小領域を構成する特徴が、予め定められた特徴、又は過去に処理された小領域の特徴と対応する場合、前記小領域に対する前記畳み込み処理を行わず、前記予め定められた特徴に対して処理された結果、又は過去に処理された結果を、前記小領域を処理した結果として出力し、
　前記予め定められた特徴と対応する前記小領域は、前記予め定められた特徴との違いが、閾値以下である前記小領域であり、
　前記過去に処理された小領域の特徴と対応する前記小領域は、前記過去に処理された小領域の特徴との違いが、閾値以下である前記小領域である
　画像処理方法。
　画像を対象とする畳み込み処理を含むニューラルネットワークを含むコンピュータに、
　処理対象である対象画像を取得し、
　前記畳み込み処理を含むニューラルネットワークを用いて前記対象画像を処理することを実行させるための画像処理プログラムであって、
　前記畳み込み処理を行う際に、前記畳み込み処理の入力となる入力特徴マップを分割した小領域ごとに前記畳み込み処理を行い、
　前記小領域ごとに前記畳み込み処理を行う際に、前記小領域を構成する特徴が、予め定められた特徴、又は過去に処理された小領域の特徴と対応する場合、前記小領域に対する前記畳み込み処理を行わず、前記予め定められた特徴に対して処理された結果、又は過去に処理された結果を、前記小領域を処理した結果として出力し、
　前記予め定められた特徴と対応する前記小領域は、前記予め定められた特徴との違いが、閾値以下である前記小領域であり、
　前記過去に処理された小領域の特徴と対応する前記小領域は、前記過去に処理された小領域の特徴との違いが、閾値以下である前記小領域である
　画像処理プログラム。