WO2022074877A1

WO2022074877A1 - 処理方法およびそれを利用した処理装置

Info

Publication number: WO2022074877A1
Application number: PCT/JP2021/024224
Authority: WO
Inventors: 俊嗣堀井
Original assignee: パナソニックＩｐマネジメント株式会社
Priority date: 2020-10-08
Filing date: 2021-06-25
Publication date: 2022-04-14
Also published as: US20240119717A1; CN116368517A; EP4227892A1; JPWO2022074877A1; JP7462168B2; EP4227892A4

Abstract

第１処理部１００は、処理対象となる対象画像７００に対して第１ニューラルネットワークの処理を実行することによって、対象画像７００の（１／ｍ）×（１／ｎ）倍のサイズとなる第１特徴マップを生成する。拡大部４００は、第１処理部１００において生成した前記第１特徴マップをｎ倍拡大する。第２処理部３００は、対象画像７００に対して第２ニューラルネットワークの処理を実行することによって、対象画像７００の（１／ｍ）倍のサイズとなる第２特徴マップ７１６を生成する。組合せ部５００は、拡大部４００においてｎ倍拡大した第１特徴マップ７０６と、第２処理部３００において生成した第２特徴マップ７１６とを組み合わせる。

Description

処理方法およびそれを利用した処理装置

　本開示は、処理技術、特に入力された情報に対する処理を実行する処理方法およびそれを利用した処理装置に関する。

　画像認識処理には、例えば、Ｄｅｅｐ　Ｌｅａｒｎｉｎｇが使用される。Ｄｅｅｐ　Ｌｅａｒｎｉｎｇは、多層のニューラルネットワークを使った機械学習の方法論として知られ、多層ニューラルネットワークには例えば畳み込みニューラルネットワークが使用される。畳み込みニューラルネットワークは、局所領域の畳み込み(Ｃｏｎｖｏｌｕｔｉｏｎ)とプーリング(Ｐｏｏｌｉｎｇ)とを繰り返す多層のニューラルネットワークによって形成される。さらに、畳み込みニューラルネットワークを構成する全結合層を畳み込み層にする完全畳み込みニューラルネットワークの構造が提案されている（例えば、特許文献１参照）。

国際公開第１９／１５９４１９号

　完全畳み込みニューラルネットワークは局所領域の処理の積み重ねであるので、処理対象となる画像内の要素の位置関係が特定されない。ニューラルネットワークにおける画像認識の精度を向上させるためには、画像内の要素の位置関係を特定できる方が好ましい。

　本開示はこうした状況に鑑みなされたものであり、その目的は、全結合層を含まないニューラルネットワークにおける画像認識の精度を向上する技術を提供することにある。

　上記課題を解決するために、本開示のある態様の処理装置は、処理対象となる対象画像に対して第１ニューラルネットワークの処理を実行することによって、対象画像の（１／ｍ）×（１／ｎ）倍のサイズとなる第１特徴マップを生成する第１処理部と、第１処理部において生成した第１特徴マップをｎ倍拡大する拡大部と、対象画像に対して第２ニューラルネットワークの処理を実行することによって、対象画像の（１／ｍ）倍のサイズとなる第２特徴マップを生成する第２処理部と、拡大部においてｎ倍拡大した第１特徴マップと、第２処理部において生成した第２特徴マップとを組み合わせる組合せ部とを備える。第１処理部の第１ニューラルネットワークと第２処理部の第２ニューラルネットワークは全結合層を含まず、学習時において、第１処理部の第１ニューラルネットワークには第１学習用画像が入力され、学習時において、第２処理部の第２ニューラルネットワークには、第１学習用画像の一部であり、かつ第１学習用画像の（１／ｎ）倍のサイズとなる第２学習用画像が入力され、学習時において、組合せ部は、拡大部を介さずに第１処理部に接続されるとともに、第２処理部に接続される。

　本開示の別の態様は、処理方法である。この方法は、処理対象となる対象画像に対して第１ニューラルネットワークの処理を実行することによって、対象画像の（１／ｍ）×（１／ｎ）倍のサイズとなる第１特徴マップを生成するステップと、生成した第１特徴マップをｎ倍拡大するステップと、対象画像に対して第２ニューラルネットワークの処理を実行することによって、対象画像の（１／ｍ）倍のサイズとなる第２特徴マップを生成するステップと、ｎ倍拡大した第１特徴マップと、生成した第２特徴マップとを組み合わせるステップとを備える。第１ニューラルネットワークと第２ニューラルネットワークは全結合層を含まず、学習時において、第１ニューラルネットワークには第１学習用画像が入力され、学習時において、第２ニューラルネットワークには、第１学習用画像の一部であり、かつ第１学習用画像の（１／ｎ）倍のサイズとなる第２学習用画像が入力され、学習時において、ｎ倍の拡大がなされずに、組合せがなされる。

　なお、以上の構成要素の任意の組合せ、本開示の表現を方法、装置、システム、コンピュータプログラム、またはコンピュータプログラムを記録した記録媒体などの間で変換したものもまた、本開示の態様として有効である。

　本開示によれば、全結合層を含まないニューラルネットワークにおける画像認識の精度を向上できる。

図１（ａ）－（ｂ）は、本実施例の比較対象となる処理装置の構成を示す図である。図１（ａ）－（ｂ）のデンスブロックの構成を示す図である。図３（ａ）－（ｂ）は、本実施例に係る処理装置の構成を示す図である。図４（ａ）－（ｃ）は、図３（ａ）－（ｂ）の組合せ部における処理概要を示す図である。図５（ａ）－（ｂ）は、図３（ｂ）の拡大部における処理概要を示す図である。図３（ａ）－（ｂ）の処理装置による処理手順を示すシーケンス図である。

　本開示の実施例を具体的に説明する前に、本実施例の概要を説明する。実施例は、処理対象となる画像（以下、「対象画像」という）に対して画像認識処理を実行することによって、対象画像内の要素を特定する処理装置に関する。画像認識処理のために、全結合層を含まない完全畳み込みニューラルネットワークの使用が可能である。完全畳み込みニューラルネットワークでは、畳み込み層とプーリング層の処理が繰り返され、含まれる物体に対して色塗りによるセグメンテーションがなされた画像（以下、「セグメンテーション画像」あるいは「特徴マップ」という）が出力される。

　しかしながら、前述のごとく、完全畳み込みニューラルネットワークは局所領域の処理の積み重ねであるので、対象画像内の要素の位置関係が特定されない。対象画像内の要素の位置関係を利用することによって、画像認識の精度が向上するので、対象画像内の要素の位置関係を特定することが望まれる。一方、対象画像内の要素の位置関係を特定するためには、完全畳み込みニューラルネットワークの認識対象となる領域を広げる必要があるが、領域を広げることによって、領域内の画像認識の精度自体が低下してしまう。そのため、対象画像内の要素の位置関係の特定と、領域内の画像認識の精度の向上との両立が求められる。

　本実施例に係る処理装置は、広域を認識対象とするネットワーク（以下、「第１ネットワーク」という）と、狭域を認識対象とするネットワーク（以下、「第２ネットワーク」という）とを備え、処理画像を第１ネットワークと第２ネットワークとに入力する。また、処理装置は、第１ネットワークにより生成される特徴マップ（以下、「第１特徴マップ」という）と、第２ネットワークにより生成される特徴マップ（以下、「第２特徴マップ」という）とを組み合わせることによって、最終的な特徴マップを生成する。

　図１（ａ）－（ｂ）は、比較対象となる処理装置１０の構成を示す。特に、図１（ａ）は、学習処理のための構成を示し、図１（ｂ）は、認識処理ための構成を示す。図１（ａ）における処理装置１０と図１（ｂ）における処理装置１０とは、同一の装置であってもよいし、別の装置であってもよい。

　処理装置１０は、図１（ａ）に示すように学習処理のための構成として、畳み込み層２０、バッチノーマライゼーション層２２、デンスブロック２４、デンスブロック２６、マックスプーリング層２８、デンスブロック３０、デンスブロック３２、アベレージプーリング層３４を含む。学習処理では、学習用画像４０が使用される。学習用画像４０は、画像認識の結果が教師データとして予め用意されている画像である。学習用画像４０は、例えば、「２８×２８」のサイズを有する。これは、例えば、「１０２４×１０２４」のサイズを有する画像のうちの一部分の画像、つまり細部の画像であるといえる。学習用画像４０は、畳み込み層２０に入力される。

　畳み込み層２０は、入力される画像、例えば学習用画像４０のサイズよりも小さいサイズの空間フィルタをずらしながら空間フィルタリングを実行する。畳み込み層２０において、空間フィルタのサイズが「５×５」と規定され、空間フィルタをずらす幅であるストライドが「２」と規定される。空間フィルタリングは公知の技術であるので、ここでは説明を省略するが、この空間フィルタリングが畳み込み処理に相当し、畳み込み処理によって画像の特徴量が抽出される。畳み込み層２０においてパディング等が実行されてもよい。さらに、畳み込み層２０は、画像に対して、複数の空間フィルタを並列に使用して、複数の空間フィルタリングを並列して実行してもよい。このような複数の空間フィルタの並列使用によって、画像が増加する。畳み込み層２０において並列に使用される空間フィルタの数は、チャンネル数と呼ばれる。バッチノーマライゼーション層２２には公知の技術が使用されればよい。中間情報４２とは、畳み込み層２０、バッチノーマライゼーション層２２による処理がなされた結果であり、処理の途中の情報を示す。中間情報４２は「１４×１４」のサイズを有する。

　デンスブロック２４は、図２のように示される。図２は、デンスブロックの構成を示す。図示のごとく、中間情報６０、畳み込み層６２、組合せ層６４、中間情報６６、畳み込み層６８、中間情報７０、バッチノーマライゼーション層７２を含む。中間情報６０、中間情報６６、中間情報７０は、中間情報４２と同様に、処理の途中の情報を示す。例えば、中間情報６０は３２チャンネルを有し、中間情報６６は６４チャンネルを有し、中間情報７０は３２チャンネルを有する。畳み込み層６２、畳み込み層６８は、畳み込み層２０と同様である。畳み込み層６２の空間フィルタのサイズは「３×３」と規定され、畳み込み層６８の空間フィルタのサイズは「１×１」と規定される。組合せ層６４は、中間情報６０と、畳み込み層６２の処理結果とを組み合わせることによって、中間情報６６を生成する。中間情報６０と、畳み込み層６２の処理結果とは、別のチャンネルとして組み合わされる。バッチノーマライゼーション層７２はバッチノーマライゼーション層２２と同様である。図１（ａ）に戻る。

　デンスブロック２６、デンスブロック３０、デンスブロック３２は、デンスブロック２４と同様に構成される。デンスブロック２４、デンスブロック２６、デンスブロック３０、デンスブロック３２は、図２の構成に限定されず、畳み込み層等の組合せが異なっていてもよい。また、デンスブロック２４、デンスブロック２６、デンスブロック３０、デンスブロック３２の構成が互いに異なっていてもよい。

　マックスプーリング層２８は畳み込み層２０と同様に構成される。マックスプーリング層２８は、画像内の任意の領域に含まれた複数の画素を１つの画素にまとめることによって、画像のサイズを小さくする。マックスプーリング層２８は、複数の画素を１つの画素にまとめるために、領域内の複数の画素値の平均値を１つの画素に対して使用する。プーリング処理は、着目領域における平均値の並進移動に対してロバスト性を強化するためになされる。マックスプーリング層２８において領域をずらす幅であるストライドが「２」と規定される。

　アベレージプーリング層３４は、マックスプーリング層２８と同様にプーリング処理を実行する。アベレージプーリング層３４は、複数の画素を１つの画素にまとめるために、領域内の複数の画素値のうちの最大値を１つの画素に対して使用する。プーリング処理は、着目領域における代表値の並進移動に対してロバスト性を強化するためになされる。アベレージプーリング層３４における領域のサイズが「７×７」と規定される。

　学習処理では、学習用画像４０と教師データとをもとに、畳み込み層２０と、デンスブロック２４とデンスブロック２６とデンスブロック３０とデンスブロック３２に含まれる畳み込み層の空間フィルタの係数が学習される。学習用画像４０と教師データを使用する状況下における空間フィルタの係数の学習自体には公知の技術が使用されればよいので、ここでは説明を省略する。

　処理装置１０は、図１（ｂ）に示すように認識処理のための構成として、畳み込み層２０からアベレージプーリング層３４を含む。この構成は図１（ａ）と同じである。ここで、図１（ａ）における学習処理によって導出された空間フィルタの係数が、畳み込み層２０と、デンスブロック２４とデンスブロック２６とデンスブロック３０とデンスブロック３２に含まれる畳み込み層に設定される。対象画像５０は、処理装置１０における認識処理の対象となる画像であり、例えば、「１０２４×１０２４」のサイズを有する。対象画像５０は、畳み込み層２０に入力される。

　畳み込み層２０からアベレージプーリング層３４は、これまでと同様の処理を実行するので、ここでは説明を省略する。また、認証処理において、中間情報５２、中間情報５４が生成される。中間情報５２は、「５１２×５１２」のサイズを有し、中間情報５４は、「２５６×２５６」のサイズを有する。認証処理の結果はアベレージプーリング層３４から出力される。

　学習用画像４０は「２８×２８」のサイズを有し、対象画像５０は「１０２４×１０２４」のサイズを有するので、学習用画像４０を使用する学習処理は、狭域に対してなされているといえる。そのため、処理装置１０は、狭域における要素を詳細に認識可能である。ここで、異なった要素が狭域において類似する場合に、処理装置１０では、それらの要素の区別が困難になる。一方、それらの要素が画像全体のうちの異なった位置に配置されていれば、それらの要素が配置された相対的な位置関係をもとに、それらの要素の区別が可能になる。そのためには、学習処理が広域に対してなされる必要がある。しかしながら、学習処理が広域に対してなされた場合、処理装置１０は、狭域における要素を詳細に認識できなくなる。そのため、狭域における要素の詳細な認識と、広域における要素の位置の認識との両立が求められる。

　図３（ａ）－（ｂ）は、処理装置１０００の構成を示す。特に、図３（ａ）は、学習処理のための構成を示し、図３（ｂ）は、認識処理ための構成を示す。図３（ａ）における処理装置１０００と図３（ｂ）における処理装置１０００とは、同一の装置であってもよいし、別の装置であってもよい。図３（ａ）－（ｂ）に示される処理装置１０００は、第１処理部１００、第２処理部３００、組合せ部５００、畳み込み層５１０を共通して含む。一方、図３（ａ）に示される処理装置１０００だけが抽出部２００を含み、図３（ｂ）に示される処理装置１０００だけが拡大部４００を含む。

　第１処理部１００は、バッチノーマライゼーション層１１０、畳み込み層１１２、デンスブロック１１４、マックスプーリング層１１８、デンスブロック１２０、デンスブロック１２２、アベレージプーリング層１２４を含む。第２処理部３００は、バッチノーマライゼーション層３１０、畳み込み層３１２、デンスブロック３１４、デンスブロック３１６、マックスプーリング層３１８、デンスブロック３２０、デンスブロック３２２、アベレージプーリング層３２４を含む。第１処理部１００、第２処理部３００には、全結合層が含まれない。ここでは、（１）学習処理、（２）認識処理の順に説明する。

（１）学習処理
　図３（ａ）に示される学習処理では、第１学習用画像６００が使用される。第１学習用画像６００は、画像認識の結果が教師データとして予め用意されている画像である。第１学習用画像６００は、例えば、「１１２×１１２」のサイズを有する。第１学習用画像６００は、第１処理部１００と抽出部２００に入力される。

　第１処理部１００におけるバッチノーマライゼーション層１１０、畳み込み層１１２、デンスブロック１１４、マックスプーリング層１１８、デンスブロック１２０、デンスブロック１２２、アベレージプーリング層１２４は、第１ニューラルネットワークに含まれる。図３（ａ）においてデンスブロック１１４とマックスプーリング層１１８との間の構成は省略される。これらは、図１（ａ）－（ｂ）、図２と同様の処理を実行する。畳み込み層１１２の空間フィルタのサイズが「５×５」と規定され、ストライドが「２」と規定される。マックスプーリング層１１８のストライドが「２」と規定され、アベレージプーリング層１２４における領域のサイズが「７×７」と規定される。

　第１処理部１００では、中間情報６０２、中間情報６０４が生成される。中間情報６０２は、「５６×５６」のサイズを有し、中間情報６０４は、「７×７」のサイズを有する。アベレージプーリング層１２４において生成される中間情報も「７×７」のサイズを有する。そのため、第１処理部１００は、「１１２×１１２」のサイズを「７×７」のサイズに変換しており、これは、（１／ｍ）×（１／ｎ）倍の変換といえる。ここで、ｍ＝４、ｎ＝４である。

　抽出部２００は、第１学習用画像６００の一部、例えば中心部分を抽出することによって、第２学習用画像６１０を生成する。第２学習用画像６１０は、「２８×２８」のサイズを有するので、第１学習用画像６００の（１／ｎ）倍のサイズを有する。第２学習用画像６１０は、第２処理部３００に入力される。

　第２処理部３００におけるバッチノーマライゼーション層３１０、畳み込み層３１２、デンスブロック３１４、デンスブロック３１６、マックスプーリング層３１８、デンスブロック３２０、デンスブロック３２２、アベレージプーリング層３２４は、第２ニューラルネットワークに含まれる。これらは、図１（ａ）－（ｂ）、図２と同様の処理を実行する。畳み込み層３１２の空間フィルタのサイズが「５×５」と規定され、ストライドが「２」と規定される。マックスプーリング層３１８のストライドが「２」と規定され、アベレージプーリング層３２４における領域のサイズが「７×７」と規定される。

　第２処理部３００では、中間情報６１２、中間情報６１４が生成される。中間情報６１２は、「１４×１４」のサイズを有し、中間情報６１４は、「７×７」のサイズを有する。アベレージプーリング層３２４において生成される中間情報も「７×７」のサイズを有する。そのため、第２処理部３００は、「２８×２８」のサイズを「７×７」のサイズに変換しており、これは、（１／ｍ）倍の変換といえる。

　学習のために、第１処理部１００では第１学習用画像６００が使用され、第２処理部３００では第２学習用画像６１０が使用される。第１学習用画像６００のサイズは第２学習用画像６１０のサイズよりも大きいので、第１処理部１００の第１ネットワークは広域を認識対象とし、第２処理部３００の第２ネットワークは狭域を認識対象とする。

　第１処理部１００では、（１／ｍ）×（１／ｎ）倍の変換がなされ、第２処理部３００では、（１／ｍ）倍の変換がなされているので、第１処理部１００と第２処理部３００とでは変換の倍率が異なる。しかしながら、第２学習用画像６１０のサイズが第１学習用画像６００のサイズの（１／ｎ）倍であるので、第１処理部１００から出力される中間情報と、第２処理部３００から出力される中間情報は同一のサイズを有する。

　組合せ部５００は、アベレージプーリング層１２４からの中間情報と、アベレージプーリング層３２４からの中間情報とを組み合わせる。図４（ａ）－（ｃ）は、組合せ部５００における処理概要を示す。第１入力情報８００ａ、第２入力情報８００ｂは、組合せ部５００に入力される２つの情報であり、中間情報を含む。図４（ａ）では、第１入力情報８００ａと第２入力情報８００ｂとが別のチャンネルとして合併される。図４（ｂ）では、第１入力情報８００ａ、第２入力情報８００ｂが、横方向に並べることによって１つのチャンネルの情報にされる。図４（ｃ）では、第１入力情報８００ａ、第２入力情報８００ｂが、縦軸方向に並べることによって１つのチャンネルの情報にされる。図３（ａ）に戻る。組合せ部５００は、２つの入力を画素毎に加算、減算等の四則演算して組み合わせてもよい。畳み込み層５１０は、これまでと同様になされる。畳み込み層５１０の空間フィルタのサイズが「１×１」と規定される。

　学習処理では、第１学習用画像６００と教師データとをもとに、畳み込み層の空間フィルタの係数が学習される。その際、第２処理部３００では第２学習用画像６１０が使用される。空間フィルタの係数の学習自体には公知の技術が使用されればよいので、ここでは説明を省略する。

（２）認識処理
　図３（ａ）における学習処理によって導出された空間フィルタの係数が、図３（ｂ）における各畳み込み層に設定される。図３（ｂ）に示される認証処理では、対象画像７００が使用される。対象画像７００は、処理装置１０００における認識処理の対象となる画像であり、例えば、「１０２４×１０２４」のサイズを有する。対象画像７００は、第１処理部１００と第２処理部３００に入力される。認証処理において抽出部２００は使用されない。

　バッチノーマライゼーション層１１０からアベレージプーリング層１２４、バッチノーマライゼーション層３１０からアベレージプーリング層３２４は、これまでと同様の処理を実行するので、ここでは説明を省略する。また、認証処理において、中間情報７０２、中間情報７０４、中間情報７１２、中間情報７１４が生成される。中間情報７０２と中間情報７１２は「５１２×５１２」のサイズを有し、中間情報７０４は「６４×６４」のサイズを有し、中間情報７１４は「２５６×２５６」のサイズを有する。

　第１処理部１００は、対象画像７００に対して第１ニューラルネットワークの処理を実行することによって、第１特徴マップを生成する。第１処理部１００では、対象画像７００に対して（１／ｍ）×（１／ｎ）倍の変換がなされるので、第１特徴マップは、対象画像７００の（１／１６）×（１／１６）倍のサイズを有する。対象画像７００は「１０２４×１０２４」のサイズを有するので、第１特徴マップは「６４×６４」のサイズを有する。

　一方、第２処理部３００は、対象画像７００に対して第２ニューラルネットワークの処理を実行することによって、第２特徴マップ７１６を生成する。第２処理部３００では、対象画像７００に対して（１／ｍ）倍の変換がなされるので、第２特徴マップ７１６は、対象画像７００の（１／１６）倍のサイズを有する。対象画像７００は「１０２４×１０２４」のサイズを有するので、第２特徴マップ７１６は「２５６×２５６」のサイズを有する。

　第１処理部１００において生成された第１特徴マップと、第２処理部３００において生成された第２特徴マップ７１６とではサイズが異なるので、第１特徴マップと第２特徴マップ７１６とを組み合わせることができない。そこで、第１処理部１００には拡大部４００が接続され、拡大部４００が組合せ部５００に接続される。拡大部４００は、第１処理部１００において生成した第１特徴マップをｎ倍拡大することによって、第１特徴マップ７０６を生成する。ここではｎ＝４であるので、第１特徴マップ７０６は、第２特徴マップ７１６と同一の「２５６×２５６」のサイズを有する。

　図５（ａ）－（ｂ）は、拡大部４００における処理概要を示す。図５（ａ）は、拡大部４００における処理の一例を示す。画素８５０と総称される第１画素８５０ａから第８画素８５０ｈは、第１処理部１００において生成した第１特徴マップを構成する画素である。隣接する画素８５０の間に追加画素８５２が追加される。例えば、第１画素８５０ａ、第３画素８５０ｃ、第４画素８５０ｄ、第５画素８５０ｅの間に第３追加画素８５２ｃが追加される。第１追加画素８５２ａ、第４追加画素８５２ｄ、第５追加画素８５２ｅ、第７追加画素８５２ｇ、第８追加画素８５２ｈも同様である。このように画素８５０に追加画素８５２を追加することによって、第１特徴マップがｎ倍拡大される。拡大部４００は、画素８５０の値を、隣接の追加画素８５２に複製する。例えば、第３画素８５０ｃの値は、第３追加画素８５２ｃに複製される。

　図５（ｂ）は、拡大部４００における処理の別の一例を示す。画素８５０と追加画素８５２は図５（ａ）と同一である。拡大部４００は、追加画素８５２を囲む複数の画素８５０の値を補間した値を、追加画素８５２に使用する。例えば、第１画素８５０ａの値、第３画素８５０ｃの値、第４画素８５０ｄの値、第５画素８５０ｅの値を保管した値が、第３追加画素８５２ｃに使用される。補間には公知の技術が使用されればよいので、ここでは説明を省略する。図３（ｂ）に戻る。

　組合せ部５００は、拡大部４００においてｎ倍拡大した第１特徴マップ７０６と、第２処理部３００において生成した第２特徴マップ７１６とを組み合わせる。組合せ部５００および畳み込み層５１０では、これまで同様の処理がなされる。

　前述のごとく、第１処理部１００における変換の倍率と、第２処理部３００における変換の倍率とは異なる。一方、第１処理部１００からの出力と、第２処理部３００からの出力とを組合せ部５００において組み合わせるために、両方の出力のサイズは同一でなければならない。これらの条件を満たすために、学習処理において抽出部２００により第１学習用画像６００と第２学習用画像６１０とのサイズを変え、認証処理において拡大部４００により第１特徴マップ７０６と第２特徴マップ７１６とのサイズが合わされる。

　本開示における装置、システム、または方法の主体は、コンピュータを備えている。このコンピュータがプログラムを実行することによって、本開示における装置、システム、または方法の主体の機能が実現される。コンピュータは、プログラムにしたがって動作するプロセッサを主なハードウェア構成として備える。プロセッサは、プログラムを実行することによって機能を実現することができれば、その種類は問わない。プロセッサは、半導体集積回路（ＩＣ）、またはＬＳＩ（Ｌａｒｇｅ　Ｓｃａｌｅ　Ｉｎｔｅｇｒａｔｉｏｎ）を含む１つまたは複数の電子回路で構成される。複数の電子回路は、１つのチップに集積されてもよいし、複数のチップに設けられてもよい。複数のチップは１つの装置に集約されていてもよいし、複数の装置に備えられていてもよい。プログラムは、コンピュータが読み取り可能なＲＯＭ、光ディスク、ハードディスクドライブなどの非一時的記録媒体に記録される。プログラムは、記録媒体に予め格納されていてもよいし、インターネット等を含む広域通信網を介して記録媒体に供給されてもよい。

　以上の構成による処理装置１０００の動作を説明する。図６は、処理装置１０００による処理手順を示すシーケンス図である。学習処理である場合（Ｓ１０のＹ）、抽出部２００は、第１学習用画像６００から第２学習用画像６１０を抽出する（Ｓ１２）。処理装置１０００は、第１学習用画像６００を第１処理部１００に入力し、第２学習用画像６１０を第２処理部３００に入力して学習を実行する（Ｓ１４）。学習処理でない場合（Ｓ１０のＮ）、処理装置１０００は、対象画像７００を第１処理部１００と第２処理部３００に入力する（Ｓ１６）。拡大部４００は第１特徴マップを拡大する（Ｓ１８）。組合せ部５００は、第１特徴マップ７０６と第２特徴マップ７１６との組合せを実行する（Ｓ２０）。

　本実施例によれば、学習時において、第１処理部１００に第１学習用画像６００が入力され、第２処理部３００に第２学習用画像６１０が入力されるので、広域な認識対象のネットワークと狭域な認識対象のネットワークとを共存できる。また、広域な認識対象のネットワークと狭域な認識対象のネットワークとが共存されるので、対象画像内の要素の位置関係の特定と、領域内の画像認識の精度の向上との両立を実現できる。また、対象画像内の要素の位置関係の特定と、領域内の画像認識の精度の向上との両立が実現されるので、全結合層を含まないニューラルネットワークにおける画像認識の精度を向上できる。また、拡大部４００により第１特徴マップのサイズを変更するので、第１処理部１００での変換の倍率と第２処理部３００での変換の倍率とを独立して設定できる。また、第１処理部１００での変換の倍率と第２処理部３００での変換の倍率とが独立して設定されるので、第１処理部１００と第２処理部３００のそれぞれに適した処理を実行できる。また、第１処理部１００と第２処理部３００のそれぞれに適した処理が実行されるので、認識精度を向上できる。

　また、第２学習用画像６１０は第１学習用画像６００の中心部分であるので、広域の認証対象の一部に狭域の認証対象を配置できる。また、第１特徴マップに含まれる画素の値を、追加する画素に複製することによって、第１特徴マップをｎ倍拡大するので、拡大を容易に実行できる。また、第１特徴マップにおいて隣接した第１画素と第２画素の間に第３画素を追加し、第１画素の値と第２画素の値とを補間した値を第３画素に使用することによって、第１特徴マップをｎ倍拡大するので、第１特徴マップの品質を維持しながら拡大できる。また、２つの入力を別のチャンネルとして合併するので、組合せを容易に実行できる。また、２つの入力を画素毎に四則演算して組み合わせるので、組合せを容易に実行できる。

　本開示の一態様の概要は、次の通りである。上記課題を解決するために、本開示のある態様の処理装置（１０００）は、処理対象となる対象画像（７００）に対して第１ニューラルネットワークの処理を実行することによって、対象画像（７００）の（１／ｍ）×（１／ｎ）倍のサイズとなる第１特徴マップを生成する第１処理部（１００）と、第１処理部（１００）において生成した第１特徴マップをｎ倍拡大する拡大部（４００）と、対象画像（７００）に対して第２ニューラルネットワークの処理を実行することによって、対象画像（７００）の（１／ｍ）倍のサイズとなる第２特徴マップ（７１６）を生成する第２処理部（３００）と、拡大部（４００）においてｎ倍拡大した第１特徴マップと、第２処理部（３００）において生成した第２特徴マップ（７１６）とを組み合わせる組合せ部（５００）とを備える。第１処理部（１００）の第１ニューラルネットワークと第２処理部（３００）の第２ニューラルネットワークは全結合層を含まず、学習時において、第１処理部（１００）の第１ニューラルネットワークには第１学習用画像（６００）が入力され、学習時において、第２処理部（３００）の第２ニューラルネットワークには、第１学習用画像（６００）の一部であり、かつ第１学習用画像（６００）の（１／ｎ）倍のサイズとなる第２学習用画像（６１０）が入力され、学習時において、組合せ部（５００）は、拡大部（４００）を介さずに第１処理部（１００）に接続されるとともに、第２処理部（３００）に接続される。

　第２学習用画像（６１０）は、第１学習用画像（６００）の中心部分であってもよい。

　拡大部（４００）は、第１特徴マップに含まれる画素の値を、追加する画素に複製することによって、第１特徴マップをｎ倍拡大してもよい。

　拡大部（４００）は、第１特徴マップにおいて隣接した第１画素と第２画素の間に第３画素を追加し、第１画素の値と第２画素の値とを補間した値を第３画素に使用することによって、第１特徴マップをｎ倍拡大してもよい。

　組合せ部（５００）は、２つの入力を別のチャンネルとして合併してもよい。

　組合せ部（５００）は、２つの入力を画素毎に四則演算して組み合わせる。

　本開示の別の態様は、処理方法である。この方法は、処理対象となる対象画像（７００）に対して第１ニューラルネットワークの処理を実行することによって、対象画像（７００）の（１／ｍ）×（１／ｎ）倍のサイズとなる第１特徴マップを生成するステップと、生成した第１特徴マップをｎ倍拡大するステップと、対象画像（７００）に対して第２ニューラルネットワークの処理を実行することによって、対象画像（７００）の（１／ｍ）倍のサイズとなる第２特徴マップ（７１６）を生成するステップと、ｎ倍拡大した第１特徴マップと、生成した第２特徴マップ（７１６）とを組み合わせるステップとを備える。第１ニューラルネットワークと第２ニューラルネットワークは全結合層を含まず、学習時において、第１ニューラルネットワークには第１学習用画像（６００）が入力され、学習時において、第２ニューラルネットワークには、第１学習用画像（６００）の一部であり、かつ第１学習用画像（６００）の（１／ｎ）倍のサイズとなる第２学習用画像（６１０）が入力され、学習時において、ｎ倍の拡大がなされずに、組合せがなされる。

　以上、本開示を実施例をもとに説明した。この実施例は例示であり、それらの各構成要素あるいは各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本開示の範囲にあることは当業者に理解されるところである。

　本実施例における処理装置１０００は、第１処理部１００のアベレージプーリング層１２４と、第２処理部３００のアベレージプーリング層３２４とを組合せ部５００に接続する。しかしながらこれに限らず例えば、第１処理部１００と第２処理部３００の別の構成が組合せ部５００に接続されてもよい。例えば、第１処理部１００のマックスプーリング層１１８と第２処理部３００のマックスプーリング層３１８とが組合せ部５００に接続されてもよい。その際、マックスプーリング層１１８は拡大部４００を介して組合せ部５００に接続される。本変形例によれば、構成の自由度を向上できる。

　１０　処理装置、　２０　畳み込み層、　２２　バッチノーマライゼーション層、　２４，２６　デンスブロック、　２８　マックスプーリング層、　３０，３２　デンスブロック、　３４　アベレージプーリング層、　６２　畳み込み層、　６４　組合せ層、　６８　畳み込み層、　７２　バッチノーマライゼーション層、　１００　第１処理部、　１１０　バッチノーマライゼーション層、　１１２　畳み込み層、　１１４　デンスブロック、　１１８　マックスプーリング層、　１２０，１２２　デンスブロック、　１２４　アベレージプーリング層、　２００　抽出部、　３００　第２処理部、　３１０　バッチノーマライゼーション層、　３１２　畳み込み層、　３１４，３１６　デンスブロック、　３１８　マックスプーリング層、　３２０，３２２　デンスブロック、　３２４　アベレージプーリング層、　４００　拡大部、　５００　組合せ部、　５１０　畳み込み層、　１０００　処理装置。

Claims

　処理対象となる対象画像に対して第１ニューラルネットワークの処理を実行することによって、前記対象画像の（１／ｍ）×（１／ｎ）倍のサイズとなる第１特徴マップを生成する第１処理部と、
　前記第１処理部において生成した前記第１特徴マップをｎ倍拡大する拡大部と、
　前記対象画像に対して第２ニューラルネットワークの処理を実行することによって、前記対象画像の（１／ｍ）倍のサイズとなる第２特徴マップを生成する第２処理部と、
　前記拡大部においてｎ倍拡大した前記第１特徴マップと、前記第２処理部において生成した前記第２特徴マップとを組み合わせる組合せ部とを備え、
　前記第１処理部の前記第１ニューラルネットワークと前記第２処理部の前記第２ニューラルネットワークは全結合層を含まず、
　学習時において、前記第１処理部の前記第１ニューラルネットワークには第１学習用画像が入力され、
　学習時において、前記第２処理部の前記第２ニューラルネットワークには、前記第１学習用画像の一部であり、かつ前記第１学習用画像の（１／ｎ）倍のサイズとなる第２学習用画像が入力され、
　学習時において、前記組合せ部は、前記拡大部を介さずに前記第１処理部に接続されるとともに、前記第２処理部に接続される処理装置。
　前記第２学習用画像は、前記第１学習用画像の中心部分である請求項１に記載の処理装置。
　前記拡大部は、前記第１特徴マップに含まれる画素の値を、追加する画素に複製することによって、前記第１特徴マップをｎ倍拡大する請求項１または２に記載の処理装置。
　前記拡大部は、前記第１特徴マップにおいて隣接した第１画素と第２画素の間に第３画素を追加し、前記第１画素の値と前記第２画素の値とを補間した値を前記第３画素に使用することによって、前記第１特徴マップをｎ倍拡大する請求項１または２に記載の処理装置。
　前記組合せ部は、２つの入力を別のチャンネルとして合併する請求項１から４のいずれか１項に記載の処理装置。
　前記組合せ部は、２つの入力を画素毎に四則演算して組み合わせる請求項１から４のいずれか１項に記載の処理装置。
　処理対象となる対象画像に対して第１ニューラルネットワークの処理を実行することによって、前記対象画像の（１／ｍ）×（１／ｎ）倍のサイズとなる第１特徴マップを生成するステップと、
　生成した前記第１特徴マップをｎ倍拡大するステップと、
　前記対象画像に対して第２ニューラルネットワークの処理を実行することによって、前記対象画像の（１／ｍ）倍のサイズとなる第２特徴マップを生成するステップと、
　ｎ倍拡大した前記第１特徴マップと、生成した前記第２特徴マップとを組み合わせるステップとを備え、
　前記第１ニューラルネットワークと前記第２ニューラルネットワークは全結合層を含まず、
　学習時において、前記第１ニューラルネットワークには第１学習用画像が入力され、
　学習時において、前記第２ニューラルネットワークには、前記第１学習用画像の一部であり、かつ前記第１学習用画像の（１／ｎ）倍のサイズとなる第２学習用画像が入力され、
　学習時において、ｎ倍の拡大がなされずに、組合せがなされる処理方法。