WO2020230244A1

WO2020230244A1 - 学習方法、学習プログラム、および、学習装置

Info

Publication number: WO2020230244A1
Application number: PCT/JP2019/018980
Authority: WO
Inventors: 琢佐々木; 啓太三上; 将司外山; 森賀　邦広
Original assignee: 日本電信電話株式会社
Priority date: 2019-05-13
Filing date: 2019-05-13
Publication date: 2020-11-19
Also published as: US20220222928A1; JPWO2020230244A1; JP7173309B2

Abstract

学習装置は、学習対象のディープニューラルネットワークにおいて画像内のオブジェクトの特徴量を抽出するモジュールごとに、当該モジュールが、前記画像のオブジェクトを構成するサブオブジェクト群のうち、どのサブオブジェクトの特徴量を抽出するかを割り当てる。その後、学習装置は、画像ごとに当該画像におけるサブオブジェクトの領域を示す情報を用いて、当該モジュールが当該モジュールに割り当てられたサブオブジェクトの領域を精度よくピックアップできるよう、モジュールそれぞれの学習を行う第１の学習と、モジュールそれぞれによりピックアップされたサブオブジェクトの特徴量を用いた画像分析の結果を用いて、画像分析の分析精度をより向上させるよう、モジュールそれぞれの学習を行う第２の学習とを実行する。

Description

学習方法、学習プログラム、および、学習装置

　本発明は、学習方法、学習プログラム、および、学習装置に関する。

　従来、画像解析において、解析対象の画像から、オブジェクト（例えば、人物）の映っている部分を切り出し、切り出した部分の特徴量を抽出し、抽出した特徴量に基づき、切り出した部分の分析を行う技術がある。ここで、深層学習により画像解析を行う場合、上記のオブジェクトの特徴量を抽出する工程において、いわゆるアテンション機構を搭載したモデル（アテンションモデル）を用いることが提案されている（非特許文献１参照）。

　アテンションモデルは、切り出し済みの画像（切出済画像）に含まれるいくつかの領域に着目し、着目する領域ごとに特徴量を抽出するモデルである。例えば、オブジェクトが人物である場合、アテンションモデルは、切出済画像から頭部、上半身、下半身等のサブオブジェクトの領域をピックアップし、ピックアップした領域ごとに特徴量を抽出する。このように着目する領域ごとに特徴量を抽出することで、切り出した部分の分析を行う際、分析精度を向上させることができる。

　ここで、アテンションモデルの一つに、HA-CNN（Harmonious　Attention　Convolutional　Neural　Network、非特許文献１参照）がある。このHA-CNNにおける特徴量抽出モジュールは、１本のglobal　branchと、複数本のlocal　branchとを備える。このlocal　branchはそれぞれ、上記の切出済画像からオブジェクトの一部の領域（サブオブジェクトの領域）をピックアップし、そのピックアップした領域の特徴量を抽出する。そして、分析モジュール（例えば、画像のオブジェクトの分類モジュールおよび属性推定モジュール）は、抽出された各サブオブジェクトの領域の特徴量に基づき、オブジェクトの分析を行う（図１参照）。

　ここで、HA-CNNの特徴量抽出モジュールの学習は、当該特徴量抽出モジュールの後続のモジュール（例えば、分析モジュール）から逆伝搬されてきた誤差を元に、特徴量抽出モジュールの重みパラメータを更新することにより行われる。

　例えば、HA-CNNの分析モジュールが、図２に示すように、画像のオブジェクトの分類モジュールおよび属性推定モジュールを備える場合を考える。この場合、分類モジュールおよび属性推定モジュールから逆伝搬されてきた誤差に基づき、特徴量抽出モジュールの各local　branchの重みパラメータが更新される。これにより特徴量抽出モジュールの各local　branchは、分析モジュールによる分析精度を向上させるように最適化される。例えば、分析モジュールによる分析精度を向上させるよう、各local　branchが担当するサブオブジェクトの領域が更新される。上記のような学習を、説明の便宜上、特徴量抽出モジュールの間接的な反省と呼ぶ。

Wei　Li　et　al.,　Harmonious　Attention　Network　for　Person　Re-identification,　CVPR2018　(arXiv:1802.08122)、［平成31年4月19日検索］、インターネット＜URL：https://arxiv.org/abs/1802.08122＞

　ここで、上記のHA-CNNが扱う画像のオブジェクトが人物である場合、切出済画像はそれぞれ、人物の全身が映っていて、人物が直立しているような画像であり、サブオブジェクト（例えば、頭、上半身、下半身等）が同じ順序で並んでいる場合しか想定されていない。したがって、上記の切出済画像により学習された特徴量抽出モジュールは、人物の全身が映っていて直立しているような画像については、人物のサブオブジェクトそれぞれの領域を正確にピックアップできる。その結果、分析モジュールによる画像の分析精度も高かった。

　ここで、上記の切出済画像が不完全（例えば、オブジェクトの一部しか映っていない、サブオブジェクトの順序が画像ごとに異なる等）である場合も多々ある。このような場合、特徴量抽出モジュールは、各サブオブジェクトの領域を正確にピックアップできないおそれがある。その結果、分析モジュールによる画像の分析精度も低くなってしまうという問題がある。

　このことを、図３を用いて具体的に説明する。例えば、HA-CNNの扱う切出済画像が符号１０１に示すように人物の全身が映っていて直立している画像である場合、特徴量抽出モジュールの１本目のlocal　branchは、符号１０１に示す画像から人物の上半身をピックアップし、２本目のlocal　branchは、符号１０１に示す画像から人物の下半身をピックアップする。

　一方、HA-CNNの扱う切出済画像が符号１０２に示すように、人物の下半身のみが映っている画像である場合、特徴量抽出モジュールの１本目のlocal　branchは、符号１０２に示す画像から人物のズボンの部分をピックアップし、２本目のlocal　branchは、符号１０２に示す画像から人物の膝下の部分をピックアップする。つまり、切出済画像が不完全だと、HA-CNNの特徴量抽出モジュールは、各サブオブジェクトの領域（例えば、人物の上半身、下半身）を正確にピックアップできない。その結果、分析モジュールによる画像の分析精度も低くなってしまうという問題がある。

　そこで、本発明は、前記した問題を解決し、画像解析における切り出し済の画像が不完全である場合でも、画像の分析精度を向上させることを課題とする。

　前記した課題を解決するため、本発明は、学習装置により実行される学習方法であって、学習対象のディープニューラルネットワークにおいて画像内のオブジェクトの特徴量を抽出するモジュールごとに、前記モジュールが、前記画像のオブジェクトを構成するサブオブジェクト群のうち、どのサブオブジェクトの特徴量を抽出するかを割り当てるステップと、画像ごとに当該画像におけるサブオブジェクトの領域を示す情報を用いて、前記モジュールそれぞれが当該モジュールに割り当てられたサブオブジェクトの領域を精度よくピックアップできるよう、前記モジュールそれぞれの学習を行う第１の学習と、前記モジュールそれぞれによりピックアップされたサブオブジェクトの特徴量を用いた画像分析の結果を用いて、前記画像分析の分析精度をより向上させるよう、前記モジュールそれぞれの学習を行う第２の学習とを実行するステップと、を含むことを特徴とする。

　本発明によれば、画像解析における切り出し済の画像が不完全である場合でも、画像の分析精度を向上させることができる。

図１は、HA-CNNを説明するための図である。図２は、HA-CNNにおける特徴量抽出モジュールの学習を説明するための図である。図３は、HA-CNNにおけるサブオブジェクトの抽出の例を示す図である。図４は、本実施形態の学習装置の概要を説明する図である。図５は、本実施形態の学習装置の構成例を示す図である。図６は、本実施形態における、サブオブジェクトの座標の自動付与の例を示す図である。図７は、本実施形態における、切出済画像の作成方法の例を示す図である。図８は、本実施形態のlocal　branchがピックアップする領域の例を示す図である。図９は、本実施形態の学習装置の処理手順の例を示す図である。図１０は、本実施形態の学習装置により学習されたディープニューラルネットワークによる分析結果の例を示す図である。図１１は、本実施形態の学習プログラムを実行するコンピュータの例を示す図である。

　以下、図面を参照しながら、本発明を実施するための形態（実施形態）について説明する。本発明は、本実施形態に限定されない。

［概要］
　まず、図４を用いて、本実施形態の学習装置の概要を説明する。ここでの学習の対象は、画像解析を行うディープニューラルネットワークであるものとする。このディープニューラルネットワークは、解析対象の画像から、オブジェクトの映っている部分を切り出す切出モジュール（図４において図示省略）と、切り出した部分の特徴量を抽出する特徴量抽出モジュールと、抽出した特徴量に基づき、切り出した部分の分析を行う分析モジュールとを備えるものとする。

　特徴量抽出モジュールは、画像から特徴量を抽出する複数のモジュールから構成される。このモジュールは、例えば、HA-CNN等で用いられるlocal　branchである。以下、特徴量抽出モジュールを構成するモジュールはlocal　branchである場合を例に説明する。この特徴量抽出モジュールは、global　branchを含んでいてもよい。また、分析モジュールは、画像に映ったオブジェクトの分類を行う分類モジュールと、当該オブジェクトの属性を推定する属性推定モジュールとを備える場合を例に説明する。

　学習装置は、特徴量抽出モジュールのlocal　branchそれぞれに、当該local　branchが担当する（ピックアップすべき）サブオブジェクトを割り当てる。このサブオブジェクトは、オブジェクトを構成するオブジェクトである。

　例えば、オブジェクトが人物である場合、当該オブジェクトのサブオブジェクトは上半身や下半身等である。例えば、学習装置は、図４の符号４０１に示すlocal　branchが担当するサブオブジェクトとして人物の上半身を割り当て、符号４０２に示すlocal　branchが担当するサブオブジェクトとして人物の下半身を割り当てる。

　その後、学習装置は、特徴量抽出モジュールのlocal　branchそれぞれがピックアップすべき領域の学習を行う。例えば、学習装置は、切出済画像の１枚１枚に対して各local　branchがピックアップすべきサブオブジェクトが存在する領域（local　branchがピックアップすべき領域）を示した情報を用いて、local　branchそれぞれがピックアップすべきサブオブジェクトの領域の学習を行う。

　例えば、学習装置は、図４の符号４０１に示すlocal　branchが担当するサブオブジェクトの領域と、当該local　branchがピックアップした領域との間に誤差があれば、学習装置は、誤差を低減するよう当該local　branchのパラメータ値の調整を行う。また、符号４０２に示すlocal　branchが担当するサブオブジェクトの領域と、当該local　branchがピックアップした領域との間に誤差があれば、学習装置は、誤差を低減するよう当該local　branchのパラメータ値の調整を行う。このような調整を繰り返すことにより、local　branchそれぞれは、自身に割り当てられたサブオブジェクトの領域を正確にピックアップできるようになる。このような調整（学習）を、説明の便宜上、特徴量抽出モジュールの直接的な反省と呼ぶ。また、学習装置は、分析モジュールによる分析精度をより向上させるためには、local　branchそれぞれがどの領域をピックアップすればよいのかの学習も行う（つまり、前記した間接的な反省も行う）。

　このように学習装置が、特徴量抽出モジュールの学習にあたり、上記の間接的な反省に加え、直接的な反省も行うことで、上記の間接的な反省のみで学習を行うよりも、学習に必要な画像数やエポック数を大幅に低減することができる。

［構成］
　次に、図５を用いて、学習装置の構成例を説明する。学習装置１０は、入出力部１１と、記憶部１２と、制御部１３とを備える。

　入出力部１１は、各種情報の入力や出力を司る。入出力部１１は、例えば、特徴量抽出モジュールが参照する部分画像等の入力を受け付ける。

　記憶部１２は、制御部１３が上記の学習処理を実行する際に参照する各種情報を記憶する。例えば、記憶部１２は、上記の入出力部１１経由で入力された部分画像、制御部１３による学習により得られたディープニューラルネットワークのモデルを記憶する。モデルは、例えば、上記のディープニューラルネットワークで用いられる各種モジュール（切出モジュール、特徴量抽出モジュール、分析モジュール）のパラメータ値等を示した情報である。このモデルの情報は、制御部１３による学習処理により適宜更新される。

　上記の部分画像は、例えば、画像ごとに、当該画像においてサブオブジェクトが存在する領域（つまり、local　branchがピックアップすべき領域）の情報を付与したものである。このサブオブジェクトが存在する領域の情報（例えば、座標）は、手動で付与してもよいし、自動で付与してもよい。

　例えば、学習装置１０が特徴量抽出モジュールにおいて、人物の上半身と下半身という２つのサブオブジェクトをピックアップすると定め、画像においてこれらのサブオブジェクトが存在する領域の情報（例えば、座標）を自動で付与する場合を考える。

　この場合、例えば、人物の全身が映った切出済画像（図６の符号６０１参照）と、上半身が映った切出済画像（図６の符号６０２参照）と、下半身が映った切出済画像（図６の符号６０３参照）とを予め用意しておく。

　そして、学習装置１０は、これらの切出済画像について、人物の全身が映った切出済画像に対しては「切出済画像の上半分が上半身で、切出済画像の下半分が下半身」、上半身が映った切出済画像に対しては「切出済画像の全体が上半身で、下半身は存在せず」、下半身が映った切出済画像に対しては「切出済画像の全体が下半身で、上半身は存在せず」と判断する。その後、学習装置１０は、上記の判断結果に基づき、各切出済画像において上半身の存在する領域と下半身の存在する領域とを、例えば、矩形領域の四辺の座標で付与する。そして、学習装置１０は、各サブオブジェクトの存在する領域の座標を付与した切出済画像を、部分画像として記憶部１２に格納する。なお、学習装置１０は、上半身が映った切出済画像と下半身が映った切出済画像とを用意する際、図７に示すように、全身の映った切出済画像を上下２つに分割することにより用意してもよい。

　図５の説明に戻る。制御部１３は、サブオブジェクト割当部１３１と、学習部１３２とを備える。

　サブオブジェクト割当部１３１は、特徴量抽出モジュールを構成するlocal　branchごとに、当該local　branchが担当するサブオブジェクトを割り当てる。つまり、サブオブジェクト割当部１３１は、local　branchごとに、当該local　branchが、オブジェクトを構成するサブオブジェクト群のうち、どのサブオブジェクトをピックアップし、特徴量を抽出するかを割り当てる。ここで特徴量抽出モジュールにおいてピックアップするサブオブジェクトの数、種類は任意の数、種類でよい。

　例えば、ディープニューラルネットワークが扱うオブジェクトが人物である場合において、特徴量抽出モジュールがピックアップするサブオブジェクトの数を２個としたとき、サブオブジェクト割当部１３１は、１本目のlocal　branchに人物の上半身を割り当て、２本目のlocal　branchに人物の下半身を割り当てる。また、同様に、特徴量抽出モジュールにおいてピックアップするサブオブジェクトの数を２個とした場合、サブオブジェクト割当部１３１は、１本目のlocal　branchに人物の右半身を割り当て、２本目のlocal　branchに人物の左半身を割り当ててもよい。

　さらに、特徴量抽出モジュールにおいてピックアップするサブオブジェクトの数を３個とした場合、サブオブジェクト割当部１３１は、例えば、１本目のlocal　branchに人物の顔面を割り当て、２本目のlocal　branchに人物の顔面を除く上半身を割り当て、３本目のlocal　branchに人物の下半身を割り当てる。

　学習部１３２は、サブオブジェクト割当部１３１により各local　branchに割り当てられたサブオブジェクトの領域について、前記した間接的反省（第２の学習）に加え、部分画像を用いた直接的反省（第１の学習）を行う。

　つまり、学習部１３２は、画像ごとに当該画像におけるサブオブジェクトの領域を示す情報を用いて、local　branchそれぞれが当該local　branchに割り当てられたサブオブジェクトの領域を精度よくピックアップできるようlocal　branchそれぞれの学習（第１の学習）を行い、また、local　branchそれぞれによりピックアップされたサブオブジェクトの特徴量を用いた画像分析の結果を用いて、当該画像分析の分析精度をより向上させるようlocal　branchそれぞれの学習（第２の学習）を行う。

　なお、学習部１３２が、各local　branchの直接的反省（第１の学習）を行う場合の損失関数は、例えば、以下のようなものが考えられる。

　例えば、各local　branchがピックアップする領域の形状が矩形であり、ｉ本目のlocal　branchが実際にピックアップした矩形領域の座標が（x₀,x₁,y₀,y₁）であり、ｉ本目のlocal　branchがピックアップすべき矩形領域の座標が以下のように与えられた場合を考える。

　この場合、学習部１３２は、ｉ本目のlocal　branchに直接伝播する損失関数として、例えば以下の式（１）を用いる。

　学習部１３２は、直接的反省および間接的反省により得られた特徴量抽出モジュールのパラメータ値を用いて、記憶部１２内のモデルを更新する。

［処理手順］
　図９を用いて、上記の学習装置１０の処理手順の例を説明する。まず、学習装置１０のサブオブジェクト割当部１３１は、学習対象のディープニューラルネットワークの特徴量抽出モジュールにおける各local　branchへのサブオブジェクトの割り当てを行う（Ｓ１）。その後、学習部１３２は、上記の特徴量抽出モジュールの各local　branchの学習を行う（Ｓ２）。すなわち、学習部１３２は、分析モジュールから逆伝搬されてきた誤差を用いた各local　branchの間接的反省に加え、記憶部１２の部分画像を用いた各local　branchの直接的反省を行う。

［効果］
　上記の学習装置１０は、特徴量抽出モジュールのlocal　branchそれぞれがピックアップすべき領域を所与のものとし、さらにその誤差を損失関数として計上して、直接的な反省も行う。これにより、特徴量抽出モジュールのlocal　branchそれぞれは、オブジェクトの映り方が不完全な切出済画像に対しても、当該オブジェクトの狙った部位（サブオブジェクト）を正確にピックアップすることができる。その結果、特徴量抽出モジュールは各サブオブジェクトの特徴量を精度よく抽出できるので、分析モジュールが当該オブジェクトの分析（例えば、分類、属性推定、照合等）を行う際の精度を向上させることができる。

　例えば、監視カメラで撮影された映像に対し、映像に映った人物の自動解析を行うディープニューラルネットワークの学習に、本実施形態の学習装置１０による学習を適用すれば、「迷子になった赤い服を着た5歳の女の子を探したい」、または、「この写真の犯人を捜したい」という要求があった場合に、従来は目視で扱うしかなかった「身体の一部しか映っていない切出済画像」に対しても自動解析を行うことができる。

　監視カメラで撮影された映像に対し、人物自動解析を行うディープニューラルネットワークの学習に、本実施形態の学習装置１０による学習を適用した場合と、従来技術（HA-CNN）による学習を適用した場合との比較結果を図１０に示す。

　ここでは、それぞれのディープニューラルネットワークに対し、切出済画像の中から、「ボーダーのズボンの人物」（図１０の左側の「この人物を探せ」に示す画像の人物）に似ている上位５枚の画像を探すよう指示した。

　この場合、比較例である従来技術（HA-CNN)により学習したディープニューラルネットワークは、本来「ボーダーのズボンの人物」を探すべきところ、上記の上位５枚の画像の中には「ボーダーのＴシャツの人物」や「ボーダーのワンピースの人物」が含まれている。これは、比較元の切出済画像（図１０の「この人物を探せ」に示す画像）に、人物の下半身しか映っておらず、ディープニューラルネットワークにおいて画像上の領域と部位の紐づけに失敗したためと考えられる。

　一方で、本実施形態の学習装置１０により学習したディープニューラルネットワークは、切出済画像の中から探した上記の上位５枚の画像の中に「ボーダーのズボンの人物」のみが含まれており、「ボーダーのＴシャツの人物」や「ボーダーのワンピースの人物」が含まれていない。このことから本実施形態の学習装置１０により学習したディープニューラルネットワークは、不完全な切出済画像であっても精度よく検索できることが示された。

　つまり、従来技術では、ディープニューラルネットワークの特徴量抽出モジュールにおいて各local　branchがどのサブオブジェクトを担当すべきかを事前に決めていなかった。そのため、各local　branchがどのサブオブジェクトを担当すべきかは、後続の分析モジュールからの間接的な反省に頼らざるを得なかった。その結果、各local　branchが、不完全な切出済画像でも精度よく特徴量を抽出できるよう学習を積むためは、学習用データを多数用意したり、長時間の学習時間を用意したりする必要があった。

　一方、本実施形態の学習装置１０は、特徴量抽出モジュールにおける各local　branchがどのサブオブジェクトを担当すべきかを事前に決めておく。これにより、学習装置１０は、前記した各local　branchの間接的な反省に加え、直接的な反省も行えるようになる。その結果、現実的に確保できる量の学習用データや学習時間により、特徴量抽出モジュールの各local　branchが、不完全な切出済画像でも精度よく特徴量を抽出できるよう学習することができる。

［プログラム］
　また、上記の実施形態で述べた学習装置１０の機能を実現するプログラムを所望の情報処理装置（コンピュータ）にインストールすることによって実装できる。例えば、パッケージソフトウェアやオンラインソフトウェアとして提供される上記のプログラムを情報処理装置に実行させることにより、情報処理装置を学習装置１０として機能させることができる。ここで言う情報処理装置には、デスクトップ型またはノート型のパーソナルコンピュータ、ラック搭載型のサーバコンピュータ等が含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やＰＨＳ（Personal　Handyphone　System）等の移動体通信端末、さらには、ＰＤＡ（Personal　Digital　Assistants）等がその範疇に含まれる。また、学習装置１０を、クラウドサーバに実装してもよい。

　図１１を用いて、上記のプログラム（学習プログラム）を実行するコンピュータの一例を説明する。図１１に示すように、コンピュータ１０００は、例えば、メモリ１０１０と、ＣＰＵ１０２０と、ハードディスクドライブインタフェース１０３０と、ディスクドライブインタフェース１０４０と、シリアルポートインタフェース１０５０と、ビデオアダプタ１０６０と、ネットワークインタフェース１０７０とを有する。これらの各部は、バス１０８０によって接続される。

　メモリ１０１０は、ＲＯＭ（Read　Only　Memory）１０１１およびＲＡＭ（Random　Access　Memory）１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。ディスクドライブ１１００には、例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース１０５０には、例えば、マウス１１１０およびキーボード１１２０が接続される。ビデオアダプタ１０６０には、例えば、ディスプレイ１１３０が接続される。

　ここで、図１１に示すように、ハードディスクドライブ１０９０は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３およびプログラムデータ１０９４を記憶する。前記した実施形態で説明した各種データや情報は、例えばハードディスクドライブ１０９０やメモリ１０１０に記憶される。

　そして、ＣＰＵ１０２０が、ハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して、上述した各手順を実行する。

　なお、上記の学習プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限られず、例えば、着脱可能な記憶媒体に記憶されて、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、上記のプログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ＬＡＮやＷＡＮ（Wide　Area　Network）等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

１０　学習装置
１１　入出力部
１３　制御部
１２　記憶部
１３１　サブオブジェクト割当部
１３２　学習部

Claims

　学習装置により実行される学習方法であって、
　学習対象のディープニューラルネットワークにおいて画像内のオブジェクトの特徴量を抽出するモジュールごとに、前記モジュールが、前記画像のオブジェクトを構成するサブオブジェクト群のうち、どのサブオブジェクトの特徴量を抽出するかを割り当てるステップと、
　画像ごとに当該画像におけるサブオブジェクトの領域を示す情報を用いて、前記モジュールそれぞれが当該モジュールに割り当てられたサブオブジェクトの領域を精度よくピックアップできるよう、前記モジュールそれぞれの学習を行う第１の学習と、前記モジュールそれぞれによりピックアップされたサブオブジェクトの特徴量を用いた画像分析の結果を用いて、前記画像分析の分析精度をより向上させるよう、前記モジュールそれぞれの学習を行う第２の学習とを実行するステップと、
　を含むことを特徴とする学習方法。
　前記第１の学習に用いられる画像は、
　前記オブジェクトの一部しか映っていない画像を含む
　ことを特徴とする請求項１に記載の学習方法。
　前記第１の学習に用いられる画像におけるサブオブジェクトの領域を示す情報は、
　前記サブオブジェクトの領域が、前記画像を矩形に分割した領域のうち、どの領域に属するかを示す情報である
　ことを特徴とする請求項１に記載の学習方法。
　前記第１の学習に用いられる画像におけるサブオブジェクトの領域を示す情報は、
　前記画像における前記サブオブジェクトの座標情報である
　ことを特徴とする請求項１に記載の学習方法。
　学習対象のディープニューラルネットワークにおいて画像内のオブジェクトの特徴量を抽出するモジュールごとに、前記モジュールが、前記画像のオブジェクトを構成するサブオブジェクト群のうち、どのサブオブジェクトの特徴量を抽出するかを割り当てるステップと、
　画像ごとに当該画像におけるサブオブジェクトの領域を示す情報を用いて、前記モジュールそれぞれが当該モジュールに割り当てられたサブオブジェクトの領域を精度よくピックアップできるよう、前記モジュールそれぞれの学習を行う第１の学習と、前記モジュールそれぞれによりピックアップされたサブオブジェクトの特徴量を用いた画像分析の結果を用いて、前記画像分析の分析精度をより向上させるよう、前記モジュールそれぞれの学習を行う第２の学習とを実行するステップと、
　をコンピュータに実行させることを特徴とする学習プログラム。
　学習対象のディープニューラルネットワークにおいて画像内のオブジェクトの特徴量を抽出するモジュールごとに、前記モジュールが、前記画像のオブジェクトを構成するサブオブジェクト群のうち、どのサブオブジェクトの特徴量を抽出するかを割り当てるサブオブジェクト割当部と、
　画像ごとに当該画像におけるサブオブジェクトの領域を示す情報を用いて、前記モジュールそれぞれが当該モジュールに割り当てられたサブオブジェクトの領域を精度よくピックアップできるよう、前記モジュールそれぞれの学習を行う第１の学習と、前記モジュールそれぞれによりピックアップされたサブオブジェクトの特徴量を用いた画像分析の結果を用いて、前記画像分析の分析精度をより向上させるよう、前記モジュールそれぞれの学習を行う第２の学習とを実行する学習部と、
　を備えることを特徴とする学習装置。