WO2019102796A1

WO2019102796A1 - 認識装置、認識方法及びプログラム

Info

Publication number: WO2019102796A1
Application number: PCT/JP2018/040069
Authority: WO
Inventors: 喬俊狩野; 正明大酒; 誠大関
Original assignee: 富士フイルム株式会社
Priority date: 2017-11-21
Filing date: 2018-10-29
Publication date: 2019-05-31
Also published as: JP2021015317A

Abstract

入力画像からそれぞれ特徴の異なる複数の対象物を認識する際に、処理負荷を軽減させ、認識精度を向上させる認識装置、認識方法及びプログラムを提供する。画像を示す画像データが入力されると処理層毎に画像内の特徴量を示す特徴マップを算出する第１層構造特徴量算出部の複数の処理層のうち第１処理層が算出した第１特徴マップから画像内の第１対象物を認識し、第１処理層よりも入力側の処理層である第２処理層が算出した第２特徴マップから第２対象物に関する外部情報に基づいて決定した領域を切り出して切り出し特徴マップを生成し、切り出し特徴マップに基づいて画像内の第２対象物を認識する。

Description

認識装置、認識方法及びプログラム

　本発明は認識装置、認識方法及びプログラムに係り、特に入力画像からそれぞれ特徴の異なる複数の対象物を認識する認識装置、認識方法及びプログラムに関する。

　対象物の特徴量を事前にコンピュータに学習させ、入力された画像の中から対象物を認識する認識装置が知られている。このような認識装置として、例えば多層構造のニューラルネットワークの機械学習を利用することが知られている。多層構造のニューラルネットワークの一例として、畳み込み層とプーリング層とを交互に含む畳み込みニューラルネットワーク（Convolutional Neural Network：ＣＮＮ）がある。

　特許文献１には、入力画像内における所定の対象の有無を認識するＣＮＮを有し、ＣＮＮの中間層の出力である中間画像（特徴マップ）群からその対象の認識率向上に寄与する中間画像を抽出し、抽出された中間画像を合成した合成画像を生成し、中間画像から入力画像内の対象を含む領域を特定することで、入力画像から対象が含まれる領域をトリミングする装置が開示されている。

特開２０１７－０５９０９０号公報

　入力画像からそれぞれ特徴の異なる第１対象物及び第２対象物を認識するには、第１対象物を認識するタスクのために作成されたＣＮＮと、第２対象物を認識するタスクのために作成されたＣＮＮとを用意して、それぞれのＣＮＮに入力画像を入力すればよい。しかしながら、複数のＣＮＮを個別に用意すると処理負荷が大きくなるという問題点がある。

　このような問題点に対し、入力画像から第１対象物を認識するタスクのために作成されたＣＮＮの中間層の特徴マップを、第１対象物とは特徴の異なる第２対象物のタスクに利用することが考えられる。

　ここで、第２対象物は、画像中に現れる位置が局所的である（空間的局所性がある）ものとする。特徴マップは、入力画像の位置情報を反映している。したがって、例えば各特徴マップの特徴量の平均値を使用する場合、第２対象物が存在し得ない領域の特徴量もまとめて平均化される。このため、使用される平均値は、第２対象物に関する特徴量が希薄化するという問題点があった。

　また、特許文献１には、このような問題点を解決する記載はない。

　本発明はこのような事情に鑑みてなされたもので、入力画像からそれぞれ特徴の異なる複数の対象物を認識する際に、処理負荷を軽減させ、認識精度を向上させる認識装置、認識方法及びプログラムを提供することを目的とする。

　上記目的を達成するために認識装置の一の態様は、画像を示す画像データを取得する画像取得部と、層構造を有する複数の処理層を有し、画像データが入力されると処理層毎に画像内の特徴量を示す特徴マップを算出する第１層構造特徴量算出部と、複数の処理層のうち第１処理層が算出した第１特徴マップから画像内の第１対象物を認識する第１対象物認識部と、複数の処理層のうち第１処理層よりも入力側の処理層である第２処理層が算出した第２特徴マップを取得する特徴マップ取得部と、第２対象物に関する外部情報に基づいて第２特徴マップから切り出す領域を決定する切り出し領域決定部と、第２特徴マップから決定した領域を切り出して切り出し特徴マップを生成する切り出し部と、切り出し特徴マップに基づいて画像内の第２対象物を認識する第２対象物認識部と、を備えた認識装置である。

　本態様の認識装置によれば、層構造を有する複数の処理層を有し、画像データが入力されると処理層毎に画像内の特徴量を示す特徴マップを算出する第１層構造特徴量算出部の複数の処理層のうち第１処理層よりも入力側の処理層である第２処理層が算出した第２特徴マップを取得し、第２対象物に関する外部情報に基づいて第２特徴マップから領域を切り出して切り出し特徴マップを生成し、切り出し特徴マップに基づいて画像内の第２対象物を認識するようにしたので、入力画像からそれぞれ特徴の異なる複数の対象物を認識する際に、処理負荷を軽減させ、認識精度を向上させることができる。

　第２対象物に関する外部情報は、画像内の第２対象物の位置情報であることが好ましい。これにより、第２特徴マップから切り出す領域を適切に決定することができる。

　特徴マップ取得部は、第２処理層とは異なる第３処理層であって、複数の処理層のうち第１処理層よりも入力側の第３処理層が算出した第３特徴マップをさらに取得し、切り出し部は、第２特徴マップから決定した領域を切り出して第１切り出し特徴マップを生成し、かつ第３特徴マップから決定した領域を切り出して第２切り出し特徴マップを生成し、第２対象物認識部は、第１切り出し特徴マップ及び第２切り出し特徴マップに基づいて画像内の第２対象物を認識することが好ましい。これにより、第２特徴マップだけでは第２対象物の情報が足りない場合であっても、第２対象物を適切に認識することができる。

　特徴マップ取得部は、第２処理層が算出した複数の第２特徴マップを取得し、切り出し部は、複数の第２特徴マップから決定した領域を切り出して複数の切り出し特徴マップを生成し、第２対象物認識部は、複数の切り出し特徴マップを特徴量ベクトルに変換し、特徴量ベクトルに基づいて第２対象物の有無を判別することが好ましい。これにより、第２対象物の有無を適切に判別することができる。

　第２対象物認識部は、複数の切り出し特徴マップの各切り出し特徴マップ内の特徴量の平均値を算出し、平均値を特徴量ベクトルに変換することが好ましい。これにより、第２対象物の有無を適切に判別することができる。

　第２対象物認識部は、複数の切り出し特徴マップの各切り出し特徴マップ内の特徴量を特徴量ベクトルに変換することが好ましい。これにより、第２対象物の有無を適切に判別することができる。

　層構造を有する複数の第４処理層を有し、切り出し特徴マップが入力されると切り出し特徴マップ内の特徴量を示す第４特徴マップを算出する第２層構造特徴量算出部を備え、第２対象物認識部は、第４特徴マップに基づいて第２対象物の有無を判別、又は第２対象物の少なくとも一部の領域を抽出することが好ましい。これにより、第２対象物の有無を適切に判別、又は第２対象物の少なくとも一部の領域を適切に抽出することができる。

　第１層構造特徴量算出部は、畳み込み演算部を備えることが好ましい。これにより、画像内の第１対象物を適切に認識することができ、さらに第２対象物を認識するための適切な特徴マップを取得することができる。

　第１層構造特徴量算出部は、畳み込みニューラルネットワーク（Convolutional Neural Network：CNN）であることが好ましい。また、特徴マップは、ＣＮＮの中間層の特徴マップであることが好ましい。これにより、画像内の第１対象物を適切に認識することができ、さらに第２対象物を認識するための適切な特徴マップを取得することができる。

　認識装置は、さらに第１対象物認識部の学習を行う第１学習部を備えることが好ましい。これにより、第１対象物認識部の認識精度を向上させることができる。

　認識装置は、さらに第２対象物認識部の学習を行う第２学習部を備えることが好ましい。これにより、第２対象物認識部の認識精度を向上させることができる。

　特徴マップは２次元データで構成され、切り出し領域決定部は、２次元データの一部を切り出す領域として決定することが好ましい。これにより２次元データで構成された特徴マップを取得して、第２対象物を適切に認識することができる。

　特徴マップは３次元データで構成され、切り出し領域決定部は、３次元データの一部を切り出す領域として決定することが好ましい。これにより３次元データで構成された特徴マップを取得して、第２対象物を適切に認識することができる。

　上記目的を達成するために認識方法の一の態様は、画像を示す画像データを取得する画像取得工程と、画像データが入力されると層構造を有する複数の処理層の処理層毎に画像内の特徴量を示す特徴マップを算出する第１層構造特徴量算出工程と、複数の処理層のうち第１処理層が算出した第１特徴マップから画像内の第１対象物を認識する第１対象物認識工程と、複数の処理層のうち第１処理層よりも入力側の処理層である第２処理層が算出した第２特徴マップを取得する特徴マップ取得工程と、第２対象物に関する外部情報に基づいて第２特徴マップから切り出す領域を決定する切り出し領域決定工程と、第２特徴マップから決定した領域を切り出して切り出し特徴マップを生成する切り出し工程と、切り出し特徴マップに基づいて画像内の第２対象物を認識する第２対象物認識工程と、を備えた認識方法である。

　本態様の認識方法によれば、層構造を有する複数の処理層を有し、画像データが入力されると処理層毎に画像内の特徴量を示す特徴マップを算出する第１層構造特徴量算出部の複数の処理層のうち第１処理層よりも入力側の処理層である第２処理層が算出した第２特徴マップを取得し、第２対象物に関する外部情報に基づいて第２特徴マップから領域を切り出して切り出し特徴マップを生成し、切り出し特徴マップに基づいて画像内の第２対象物を認識するようにしたので、入力画像からそれぞれ特徴の異なる複数の対象物を認識する際に、処理負荷を軽減させ、認識精度を向上させることができる。

　上記目的を達成するためにコンピュータに実行させるプログラムの一の態様は、画像を示す画像データを取得する画像取得工程と、画像データが入力されると層構造を有する複数の処理層の処理層毎に画像内の特徴量を示す特徴マップを算出する第１層構造特徴量算出工程と、複数の処理層のうち第１処理層が算出した第１特徴マップから画像内の第１対象物を認識する第１対象物認識工程と、複数の処理層のうち第１処理層よりも入力側の処理層である第２処理層が算出した第２特徴マップを取得する特徴マップ取得工程と、第２対象物に関する外部情報に基づいて第２特徴マップから切り出す領域を決定する切り出し領域決定工程と、第２特徴マップから決定した領域を切り出して切り出し特徴マップを生成する切り出し工程と、切り出し特徴マップに基づいて画像内の第２対象物を認識する第２対象物認識工程と、をコンピュータに実行させるプログラムである。

　本態様のプログラムによれば、層構造を有する複数の処理層を有し、画像データが入力されると処理層毎に画像内の特徴量を示す特徴マップを算出する第１層構造特徴量算出部の複数の処理層のうち第１処理層よりも入力側の処理層である第２処理層が算出した第２特徴マップを取得し、第２対象物に関する外部情報に基づいて第２特徴マップから領域を切り出して切り出し特徴マップを生成し、切り出し特徴マップに基づいて画像内の第２対象物を認識するようにしたので、入力画像からそれぞれ特徴の異なる複数の対象物を認識する際に、処理負荷を軽減させ、認識精度を向上させることができる。
　また、他の態様の認識装置は、プロセッサを有し、プロセッサが画像を示す画像データを取得し、画像データが入力されると層構造を有する複数の処理層の処理層毎に画像内の特徴量を示す特徴マップを算出し、複数の処理層のうち第１処理層が算出した第１特徴マップから画像内の第１対象物を認識し、複数の処理層のうち第１処理層よりも入力側の処理層である第２処理層が算出した第２特徴マップを取得し、第２対象物に関する外部情報に基づいて第２特徴マップから切り出す領域を決定し、第２特徴マップから決定した領域を切り出して切り出し特徴マップを生成し、切り出し特徴マップに基づいて画像内の第２対象物を認識する、認識装置である。

　本発明によれば、入力画像からそれぞれ特徴の異なる複数の対象物を認識する際に、処理負荷を軽減させ、認識精度を向上させることができる。

認識装置のハードウェア構成を示すブロック図認識方法の処理を示すフローチャート各処理を概念的に説明するための模式図入力画像の一例を示す図表示部の表示内容を示す図認識方法の処理を示すフローチャート各処理を概念的に説明するための模式図認識装置のハードウェア構成を示すブロック図認識方法の処理を示すフローチャート各処理を概念的に説明するための模式図表示部の表示内容を示す図認識方法の処理を示すフローチャート各処理を概念的に説明するための模式図認識方法の処理を示すフローチャート各処理を概念的に説明するための模式図認識装置のハードウェア構成を示すブロック図内視鏡システムの外観図挿入部の先端面の正面図内視鏡システムの制御系の構成を示した構成図運転画像の一例を示す図認識装置のハードウェア構成を示すブロック図認識方法の処理を示すフローチャート各処理を概念的に説明するための模式図表示部の表示内容を示す図３次元医用画像の一例を示す図

　以下、添付図面に従って本実施形態の好ましい実施形態について詳説する。

　＜第１の実施形態＞
　〔認識装置〕
　本実施形態に係る認識装置１０は、取得した画像からそれぞれ特徴の異なる第１対象物及び第２対象物を認識するための装置である。認識装置１０は、画像内の第１対象物について領域の抽出（セグメンテーション）のタスクを行い、画像内の第２対象物について有無の判別のタスクを行う。

　図１は、認識装置１０のハードウェア構成を示すブロック図である。認識装置１０は、画像取得部１２、第１層構造特徴量算出部１４、第１対象物認識部１６、表示部１８、特徴マップ取得部２０、切り出し領域決定部２２、切り出し部２４、第２対象物認識部３０等を備えて構成される。

　画像取得部１２は、画像を示す画像データを取得する。画像取得部１２は、画像データを不図示のカメラから取得してもよいし、不図示のサーバ等から取得してもよい。カメラ及びサーバ等は、ネットワークを介して接続されていてもよい。

　第１層構造特徴量算出部１４は、複数の処理層が階層的に接続された構造（層構造）を有している。第１層構造特徴量算出部１４は、画像データが入力されると処理層毎に画像内の位置情報を反映した特徴量を示す特徴マップを算出する。

　第１対象物認識部１６は、複数の処理層のうち第１処理層が算出した第１特徴マップから画像内の第１対象物を認識する。ここでは、第１層構造特徴量算出部１４の複数の処理層のうち最終層（最も入力側から遠い層）を第１処理層とし、第１処理層が算出した第１特徴マップに基づいて画像内の第１対象物の領域を抽出する。

　表示部１８は、液晶画面等により構成されるディスプレイ装置である。表示部１８は、第１対象物認識部１６の認識結果を表示する。

　特徴マップ取得部２０は、第１層構造特徴量算出部１４の複数の処理層のうち第１処理層（ここでは最終層）よりも入力側の処理層である第２処理層が算出した第２特徴マップを取得する。第２処理層は、複数の第２特徴マップを算出する。特徴マップ取得部２０は、第２処理層が算出した複数の第２特徴マップを取得する。

　切り出し領域決定部２２は、第２対象物に関する外部情報に基づいて第２特徴マップから切り出す領域を決定する。ここでいう外部情報とは、例えば画像内の第２対象物の位置情報であり、画像の上半分、下半分、右半分、又は左半分等の情報である。この外部情報は、画像取得部１２が取得した画像データを解析することによって得られる情報ではなく、画像の有する属性として予め判明している情報である。

　切り出し部２４は、特徴マップ取得部２０が取得した第２特徴マップから切り出し領域決定部２２が決定した領域を切り出して、切り出し特徴マップを生成する。切り出し部２４は、複数の第２特徴マップから複数の切り出し特徴マップを生成する。

　第２対象物認識部３０は、切り出し特徴マップに基づいて画像内の第２対象物を認識する。

　本実施形態では、第２対象物認識部３０は、複数の切り出し特徴マップを特徴量ベクトルに変換する。具体的には、複数の切り出し特徴マップの各切り出し特徴マップ内の特徴量の平均値を算出し、算出した特徴量の平均値を特徴量ベクトルに変換する。

　第２対象物認識部３０は、この特徴量ベクトルに基づいて画像内の第２対象物の有無を判別する。第２対象物認識部３０として、例えばＳＶＭ（Support Vector Machine）を用いることができる。第２対象物認識部３０は、画像を入力した際の特徴量ベクトルとその画像内の第２対象物の有無である正解ラベルとの組を教師データとして、第２対象物の有無を判別するために予め学習させてある。なお、第２対象物認識部３０は、ＮＮ（Neural Network）、又はその他の公知の識別器を利用することも可能である。

　〔認識方法〕
　認識装置１０を用いた画像内の第１対象物及び第２対象物の認識方法について説明する。ここでは、不図示の内視鏡システムによって撮影された、被検体の体腔内の画像（以下、内視鏡画像と表記する）を示す画像データから、第１対象物として病変を、第２対象物として不図示の鉗子口から挿通された生検器具を認識する。

　図２は、認識方法の処理を示すフローチャートである。また、図３は、各処理を概念的に説明するための模式図である。

　最初に、ステップＳ１において、画像取得部１２によって内視鏡画像である入力画像Ｇ_１を示す画像データ１００を取得する（画像取得工程の一例）。図４は、入力画像Ｇ_１の一例を示す図である。

　次に、ステップＳ２では、第１層構造特徴量算出部１４において、画像データ１００の特徴マップを算出する（第１層構造特徴量算出工程）。ここでは、第１層構造特徴量算出部１４は、中間層１０２－１、１０２－２、１０２－３、１０２－４、１０２－５、…、及び１０２－ｎからなる畳み込み演算部である畳み込みニューラルネットワーク（Convolutional Neural Network：ＣＮＮ）１０４（以下、ＣＮＮ１０４と表記する）により構成される。ＣＮＮ１０４は、複数のフィルタによる畳み込み処理により画像の局所的な特徴抽出を行う畳み込み層と、抽出した特徴を矩形領域毎にまとめるプーリング層とを繰り返した構造を有している。即ち、中間層１０２－１、１０２－２、１０２－３、１０２－４、１０２－５、…、及び１０２－ｎは、それぞれ畳み込み層又はプーリング層である。なお、中間層１０２－１、１０２－２、１０２－３、１０２－４、１０２－５、…、及び１０２－ｎは、畳み込み層又はプーリング層に限定されず、抽出した特徴に活性化処理を行うアクティベーション層であってもよい。ＣＮＮ１０４は、内視鏡画像から特定の病変を認識することを目的として設計及び学習されている。

　ＣＮＮ１０４に画像データ１００が入力されると、中間層１０２－１、１０２－２、１０２－３、１０２－４、１０２－５、…、及び１０２－ｎは、それぞれ特徴マップ１０６－１、１０６－２、１０６－３、１０６－４、…、及び１０６－ｎを算出する。ここでは、各中間層１０２－１、１０２－２、１０２－３、１０２－４、１０２－５、…、及び１０２－ｎは、入力画像Ｇ_１に含まれる複数の特徴にそれぞれ対応するｃｈａｎｎｅｌ数分の複数の特徴マップ１０６－１、１０６－２、１０６－３、１０６－４、…、及び１０６－ｎを算出する。複数の特徴マップ１０６－１、１０６－２、１０６－３、１０６－４、…、及び１０６－ｎは、それぞれ水平方向にｗｉｄｔｈ、垂直方向にｈｅｉｇｈｔのサイズを有する２次元データである。この２次元データは、それぞれ入力画像Ｇ_１内の位置情報を反映した入力画像Ｇ_１の特徴量を示している。

　なお、ｃｈａｎｎｅｌ、ｗｉｄｔｈ、及びｈｅｉｇｈｔは、特徴マップ１０６－１、１０６－２、１０６－３、１０６－４、…、及び１０６－ｎ毎に任意の値を取る。

　続いて、ステップＳ３では、第１対象物認識部１６において、ＣＮＮ１０４の中間層１０２－１、１０２－２、１０２－３、１０２－４、１０２－５、…、及び１０２－ｎのうち、第１処理層１０８が算出した第１特徴マップ１１０を取得する。ここでは、最終の中間層である中間層１０２－ｎを第１処理層１０８とし、中間層１０２－ｎが算出した複数の特徴マップ１０６－ｎを複数の第１特徴マップ１１０として取得する。なお、第１処理層１０８は中間層１０２－ｎに限定されず、中間層１０２－２～１０２－（ｎ－１）のいずれを採用してもよい。

　さらに、ステップＳ４では、第１対象物認識部１６において、第１特徴マップ１１０から入力画像Ｇ_１内の第１対象物である病変を認識する処理１１２を行う（第１対象物認識工程の一例）。ここでは、処理１１２は、病変の少なくとも一部の領域を抽出する。具体的には、複数の第１特徴マップ１１０に基づいて入力画像Ｇ_１内の各領域に対して病変である可能性を示すスコアを算出し、スコアの高い領域を示すスコアマップ１１４を出力する。複数の第１特徴マップ１１０は、それぞれ入力画像Ｇ_１内の位置情報を反映した特徴量を有している。したがって、複数の第１特徴マップ１１０から、病変の位置を認識することができる。

　一方、ステップＳ５では、特徴マップ取得部２０において、ＣＮＮ１０４の中間層１０２－１、１０２－２、１０２－３、１０２－４、１０２－５、…、及び１０２－ｎのうち、第１処理層１０８よりも入力側の第２処理層１１６が算出した第２特徴マップ１１８を取得する処理１２０を行う（特徴マップ取得工程の一例）。ここでは、処理１２０は、中間層１０２－３を第２処理層１１６とし、中間層１０２－３が算出した複数の特徴マップ１０６－３を複数の第２特徴マップ１１８として取得する。この複数の第２特徴マップ１１８は、２次元データで構成される。なお、第２処理層１１６は中間層１０２－３に限定されず、第１処理層１０８よりも入力側であれば中間層１０２－１～１０２－（ｎ－１）のいずれを採用してもよい。

　また、第２処理層１１６とした中間層１０２－３の出力である複数の特徴マップ１０６－３の全てを第２特徴マップ１１８とするのではなく、複数の特徴マップ１０６－３のうち特定の１つ又は複数の特徴マップ１０６－３のみを第２特徴マップ１１８としてもよい。

　次に、ステップＳ６では、切り出し領域決定部２２において、第２対象物である生検器具に関する外部情報に基づいて第２特徴マップ１１８から切り出す切り出し領域１２１を決定する（切り出し領域決定工程の一例）。ここでは、生検器具に関する外部情報は、入力画像Ｇ_１内の生検器具の位置情報である。

　生検器具の出現頻度が高い位置は、内視鏡画像の下半分であることが予めわかっている。また、特徴マップは入力画像Ｇ_１内の位置情報を反映している。したがって、切り出し領域決定部２２は、内視鏡画像の下半分という空間的局所性の外部情報から、切り出し領域１２１を第２特徴マップ１１８の下半分に決定する。このように、切り出し領域決定部２２は、２次元データである複数の第２特徴マップ１１８の一部を切り出す領域として決定する。

　続いて、ステップＳ７では、切り出し部２４において、第２特徴マップ１１８から切り出し領域１２１の切り出し処理１２２を行って、切り出し特徴マップ１２４を生成する（切り出し工程の一例）。ここでは、複数の第２特徴マップ１１８のそれぞれの下半分を切り出した複数の切り出し特徴マップ１２４が生成される。

　ここで、複数の切り出し特徴マップ１２４のｗｉｄｔｈ及びｈｅｉｇｈｔのサイズを縮小するために、プーリング処理を行ってもよい。プーリング処理として、周辺画素値の最大値を選択するmax pooling、及び平均値を選択するaverage pooling等の手法がある。また、サイズの縮小はプーリング処理に限定されず、主成分分析等の他の手法を用いてもよい。

　次に、ステップＳ８では、第２対象物認識部３０において、複数の切り出し特徴マップ１２４のｃｈａｎｎｅｌ毎の特徴量の平均値を算出する（特徴量算出工程の一例）。さらに、第２対象物認識部３０において、この平均値をベクトル変換処理１２６により特徴量ベクトル１２８に変換する。

　続くステップＳ９では、第２対象物認識部３０において、特徴量ベクトル１２８に基づいて判別処理１３０を行い、入力画像Ｇ_１内の生検器具の有無１３２を出力する（第２対象物認識工程の一例）。

　最後に、ステップＳ１０では、表示部１８において、ステップＳ４の病変の認識結果及びステップＳ９の生検器具の認識結果を出力し、本フローチャートの処理を終了する。

　図５は、図４に示す入力画像Ｇ_１が入力された場合の表示部１８の表示内容を示す図である。ここでは、表示部１８に入力画像Ｇ_１を表示するとともに、病変の認識結果として入力画像Ｇ_１にスコアマップ１１４を重畳表示している。また、生検器具の認識結果として、表示部１８に生検器具の有無１３２を表示している。

　ここでは、スコアマップ１１４は、病変の領域を着色して示したが、病変の領域を枠で囲んで表示する等、病変の領域を認識できれば表示の方法については限定されない。

　一定のフレームレートで撮影された入力画像Ｇ_１を示す画像データ１００を取得し、本フローチャートの処理を逐次行うことで、動画像の内視鏡画像からリアルタイムで病変及び生検器具を認識することができる。

　このように、認識装置１０によれば、第１対象物の認識結果及び第２対象物の認識結果を出力することができる。ここで、第２対象物の認識は、特徴マップが入力画像の位置情報を反映していることと、第２対象物が空間的局所性を有することとを利用して、外部情報に基づいて特徴マップの必要な領域のみを切り出して使用する。このため、特徴マップの全体を使用した場合よりも第２対象物の特徴が希薄化せず、認識精度を向上させることができる。また、第１対象物の認識のために作成された第１層構造特徴量算出部の中間層の出力を利用して第２対象物の認識を行うため、第２対象物のために層構造特徴量算出部を独立に用意し、２つの層構造特徴量算出部において処理を行う場合よりも処理負荷を軽減させることができる。

　本実施形態では、第１対象物認識部１６における病変の認識処理（ステップＳ３~Ｓ４）及び第２対象物認識部３０における生検器具の認識処理（ステップＳ５～Ｓ８）を並列に行ったが、一方の処理を先に行い、他方の処理をその後に行ってもよい。

　また、本実施形態では、第２対象物認識部３０において、複数の切り出し特徴マップを特徴量ベクトルに変換する際に、複数の切り出し特徴マップの各切り出し特徴マップ内の特徴量の平均値を算出し、算出した特徴量の平均値を特徴量ベクトルに変換したが、特徴マップを特徴量ベクトルに変換する方法は、これに限定されない。

　例えば、複数の切り出し特徴マップの各切り出し特徴マップ内の特徴量の最大値を算出し、算出した特徴量の最大値を特徴量ベクトルに変換してもよい。なお、これらの方法では、特徴量ベクトルの次元数は特徴マップの数となる。

　また、特徴マップの水平方向のサイズがＷ、垂直方向のサイズがＨ、特徴マップの数がＮの場合に、各切り出し特徴マップ内の特徴量を一列に並べて（Ｎ×Ｗ×Ｈ）次元の特徴量ベクトルに変換してもよい。

　＜第２の実施形態＞
　認識装置１０を用いた画像内の第１対象物及び第２対象物の認識方法について説明する。第１の実施形態と同様に、内視鏡画像を示す画像データから、画像内の第１対象物について領域の抽出のタスクを行い、画像内の第２対象物について有無の判別のタスクを行う。

　図６は、認識方法の処理を示すフローチャートである。また、図７は、各処理を概念的に説明するための模式図である。なお、図２に示すフローチャート及び図３に示す模式図と共通する部分には同一の符号を付し、その詳細な説明は省略する。

　まず、ステップＳ１において、入力画像Ｇ_１を示す画像データ１００を取得する。次に、ステップＳ２において、画像データ１００の特徴マップを算出する。続いて、ステップＳ３において、第１処理層１０８である中間層１０２－ｎが算出した複数の特徴マップ１０６－ｎを、複数の第１特徴マップ１１０として取得する。さらに、ステップＳ４において、複数の第１特徴マップ１１０に基づいて病変のスコアマップ１１４を出力する。このように、第１の実施形態と同様に入力画像Ｇ_１内の病変を認識する。

　一方、ステップＳ１１では、特徴マップ取得部２０において、ＣＮＮ１０４の中間層１０２－１、１０２－２、１０２－３、１０２－４、１０２－５、…、及び１０２－ｎのうち第１処理層１０８よりも入力側の第２処理層１１６－１が算出した第２特徴マップ１１８－１を取得する処理１２０－１を行う。ここでは、処理１２０－１は、中間層１０２－３を第２処理層１１６－１とし、中間層１０２－３が算出した複数の特徴マップ１０６－３を複数の第２特徴マップ１１８－１として取得する。

　なお、第１の実施形態と同様に、第２処理層１１６－１とした中間層１０２－３の出力である複数の特徴マップ１０６－３の全てを第２特徴マップ１１８－１とするのではなく、複数の特徴マップ１０６－３のうち特定の１つ又は複数の特徴マップ１０６－３のみを第２特徴マップ１１８－１としてもよい。

　ステップＳ１１ではさらに、特徴マップ取得部２０において、ＣＮＮ１０４の中間層１０２－１、１０２－２、１０２－３、１０２－４、１０２－５、…、及び１０２－ｎのうち第２処理層１１６－１とは異なる第３処理層１１６－２であって、第１処理層１０８よりも入力側の第３処理層１１６－２が算出した第３特徴マップ１１８－２を取得する処理１２０－２を行う。ここでは、処理１２０－２は、中間層１０２－４を第３処理層１１６－２とし、中間層１０２－４が算出した複数の特徴マップ１０６－４を複数の第３特徴マップ１１８－２として取得する。

　ここでも同様に、第３処理層１１６－２とした中間層１０２－３の出力である複数の特徴マップ１０６－３の全てを第３特徴マップ１１８－２とするのではなく、複数の特徴マップ１０６－３のうち特定の１つ又は複数の特徴マップ１０６－３のみを第３特徴マップ１１８－２としてもよい。

　次に、ステップＳ１２では、切り出し領域決定部２２において、生検器具に関する外部情報に基づいて複数の第２特徴マップ１１８－１から切り出す切り出し領域１２１－１、及び複数の第３特徴マップ１１８－２から切り出す切り出し領域１２１－２を決定する。第１の実施形態と同様に、切り出し領域決定部２２は、切り出し領域１２１－１を複数の第２特徴マップ１１８－１の下半分、及び切り出し領域１２１－２を複数の第３特徴マップ１１８－２の下半分に決定する。

　続いて、ステップＳ１３では、切り出し部２４において切り出し処理１２２－１を行って、複数の第２特徴マップ１１８－１から切り出し領域１２１－１を切り出して複数の第１切り出し特徴マップ１２４－１を生成する。同様に、切り出し部２４において切り出し処理１２２－２を行って、複数の第３特徴マップ１１８－２から切り出し領域１２１－２を切り出して複数の第２切り出し特徴マップ１２４－２を生成する。

　ここで、必要であれば、複数の第１切り出し特徴マップ１２４－１及び複数の第２切り出し特徴マップ１２４－２について、プーリング処理を行ってもよい。

　次に、ステップＳ１４では、第２対象物認識部３０において、複数の第１切り出し特徴マップ１２４－１のｃｈａｎｎｅｌ毎の特徴量の平均値（第１特徴量の一例）を算出し、この平均値をベクトル変換処理１２６－１により特徴量ベクトル１２８－１に変換する。同様に、第２対象物認識部３０において、複数の第２切り出し特徴マップ１２４－２のｃｈａｎｎｅｌ毎の特徴量の平均値（第２特徴量の一例）を算出し、この平均値をベクトル変換処理１２６－２により特徴量ベクトル１２８－２に変換する。

　続いて、ステップＳ１５では、第２対象物認識部３０においてベクトル連結処理１３４を行い、特徴量ベクトル１２８－１及び特徴量ベクトル１２８－２を１つの特徴量ベクトル１３６に連結する。

　さらに、ステップＳ１６では、第２対象物認識部３０において、特徴量ベクトル１３６に基づいて判別処理１３０を行い、入力画像Ｇ_１内の生検器具の有無１３２を出力する。

　最後に、ステップＳ１０において、第１の実施形態と同様に、表示部１８に病変の認識結果及び生検器具の認識結果を出力する。

　このように、第２対象物についての情報が足りない場合には、それぞれ異なる複数の中間層の出力の特徴マップを用いることで、第２対象物の認識精度を向上させることができる。

　＜第３の実施形態＞
　〔認識装置〕
　本実施形態に係る認識装置４０は、画像内の第１対象物及び第２対象物について、それぞれ領域を抽出するタスクを行う。

　図８は、認識装置４０のハードウェア構成を示すブロック図である。なお、図１に示すブロック図と共通する部分には同一の符号を付し、その詳細な説明は省略する。認識装置４０の第２対象物認識部３０は、第２層構造特徴量算出部２８を備えている。

　第２層構造特徴量算出部２８は、第１層構造特徴量算出部１４と同様に、複数の処理層が階層的に接続された構造を有している。第２層構造特徴量算出部２８は、画像データが入力されると処理層毎に画像内の位置情報を反映した特徴量を示す特徴マップを算出する。

　〔認識方法〕
　認識装置４０を用いた画像内の第１対象物及び第２対象物の認識方法について説明する。これまでと同様に、内視鏡画像を示す画像データから、第１対象物として病変を、第２対象物として不図示の鉗子口から挿通された生検器具を認識する例を説明する。

　図９は、認識方法の処理を示すフローチャートである。また、図１０は、各処理を概念的に説明するための模式図である。なお、図２に示すフローチャート及び図３に示す模式図と共通する部分には同一の符号を付し、その詳細な説明は省略する。

　認識装置１０と同様に、ステップＳ１～Ｓ４の処理を行い、第１対象物である病変の認識を行う。

　また、認識装置１０と同様に、ステップＳ５～Ｓ７の処理を行う。即ち、ステップＳ５において、ＣＮＮ１０４の中間層１０２－３を第２処理層１１６とし、中間層１０２－３が算出した複数の特徴マップ１０６－３を複数の第２特徴マップ１１８として取得する。次に、ステップＳ６において、生検器具に関する外部情報に基づいて第２特徴マップ１１８から切り出す切り出し領域１２１を決定する。さらに、ステップＳ７において、複数の第２特徴マップ１１８のそれぞれの下半分を切り出した複数の切り出し特徴マップ１２４を生成する。

　次に、ステップＳ２１において、第２層構造特徴量算出部２８によって切り出し特徴マップ１２４内の特徴量を示す第４特徴マップ１４２－ｎを取得する。

　第２層構造特徴量算出部２８は、中間層１３８－１、１３８－２、…、及び１３８－ｎ（複数の第４処理層の一例）からなるＣＮＮ１４０により構成される。中間層１３８－１、…、及び１３８－ｎは、それぞれ特徴マップ１４２－１、…、及び１４２－ｎを算出する。ＣＮＮ１４０は、内視鏡画像から生検器具を認識することを目的として設計及び学習されている。

　ＣＮＮ１４０に切り出し特徴マップ１２４が入力されると、最終の中間層１３８－ｎから切り出し特徴マップ１２４内の特徴量を示す第４特徴マップ１４２－ｎが出力される。切り出し特徴マップ１２４は、入力画像Ｇ_１の位置情報を反映している。また、ＣＮＮ１４０は、入力された画像内の位置情報を反映した特徴量を示す第４特徴マップ１４２－ｎを算出する。したがって、第４特徴マップ１４２－ｎは、入力画像Ｇ_１の位置情報を反映した特徴量を有している。ここでは、ｃｈａｎｎｅｌ数分の第４特徴マップ１４２－ｎが出力されるものとする。

　続くステップＳ２２では、第２対象物認識部３０において、第４特徴マップ１４２－ｎから入力画像Ｇ_１内の生検器具の少なくとも一部の領域を抽出する処理１４４を行う。ここでは、処理１４４は、複数の第４特徴マップ１４２－ｎに基づいて入力画像Ｇ_１内の各領域に対して生検器具である可能性を示すスコアを算出し、スコアの高い領域を示すスコアマップ１４６を出力する。複数の第４特徴マップ１４２－ｎは、それぞれ入力画像Ｇ_１内の位置情報を反映した特徴量を有している。したがって、複数の第４特徴マップ１４２－ｎから、生検器具の位置を認識することができる。

　最後に、ステップＳ２３では、表示部１８において、ステップＳ４の病変の認識結果及びステップＳ２２の生検器具の認識結果を出力し、本フローチャートの処理を終了する。

　図１１は、入力画像Ｇ_１が入力された場合の表示部１８の表示内容を示す図である。ここでは、表示部１８に入力画像Ｇ_１を表示するとともに、病変の認識結果として入力画像Ｇ_１に病変のスコアマップ１１４を重畳表示している。さらに、生検器具の認識結果として、入力画像Ｇ_１に生検器具のスコアマップ１４６を重畳表示している。スコアマップ１１４及びスコアマップ１４６は、それぞれ異なる色で着色することが好ましい。

　このように、第２対象物の有無だけでなく、第２対象物が存在する領域を認識することも可能である。

　＜第４の実施形態＞
　認識装置４０を用いた画像内の第１対象物及び第２対象物の認識方法について説明する。ここでは、画像内の第１対象物について領域の抽出のタスクを行い、画像内の第２対象物について有無の判別のタスクを行う。

　図１２は、認識方法の処理を示すフローチャートである。また、図１３は、各処理を概念的に説明するための模式図である。なお、図２及び図９に示すフローチャートと共通する部分、及び図３及び図１０に示す模式図と共通する部分には同一の符号を付し、その詳細な説明は省略する。

　第３の実施形態と同様に、ステップＳ１～Ｓ４の処理を行い、第１対象物である病変の認識を行う。

　また、第１の実施形態と同様に、ステップＳ５～Ｓ７の処理を行う。即ち、ステップＳ５において、ＣＮＮ１０４の中間層１０２－３を第２処理層１１６とし、中間層１０２－３が算出した複数の特徴マップ１０６－３を複数の第２特徴マップ１１８として取得する。次に、ステップＳ６において、生検器具に関する外部情報に基づいて第２特徴マップ１１８から切り出す切り出し領域１２１を決定する。さらに、ステップＳ７において、複数の第２特徴マップ１１８のそれぞれの下半分を切り出した複数の切り出し特徴マップ１２４を生成する。

　次に、第３の実施形態と同様に、ステップＳ２１において、第２層構造特徴量算出部２８によって切り出し特徴マップ１２４内の特徴量を示す第４特徴マップ１４２－ｎを取得する。

　ＣＮＮ１４０に切り出し特徴マップ１２４が入力されると、最終の中間層１３８－ｎから切り出し特徴マップ１２４内の特徴量を示す第４特徴マップ１４２－ｎが出力される。ここでは、ｃｈａｎｎｅｌ数分の第４特徴マップ１４２－ｎが出力されるものとする。

　次に、ステップＳ８では、第２対象物認識部３０において、第４特徴マップ１４２－ｎのｃｈａｎｎｅｌ毎の特徴量の平均値を算出する。さらに、第２対象物認識部３０において、この平均値をベクトル変換処理１２６により特徴量ベクトル１２８に変換する。

　続くステップＳ９では、第２対象物認識部３０において、特徴量ベクトル１２８に基づいて判別処理１３０を行い、入力画像Ｇ_１内の生検器具の有無１３２を出力する。

　このように、切り出し特徴マップを畳み込み演算した結果を特徴量ベクトルに変換し、特徴量ベクトルを判別してもよい。

　＜第５の実施形態＞
　認識装置４０を用いた画像内の第１対象物及び第２対象物の認識方法について説明する。第３の実施形態と同様に、画像内の第１対象物及び第２対象物について、それぞれ領域を抽出するタスクを行う例を説明する。

　図１４は、認識方法の処理を示すフローチャートである。また、図１５は、各処理を概念的に説明するための模式図である。なお、図６及び図９に示すフローチャートと共通する部分、及び図７及び図１０に示す模式図と共通する部分には同一の符号を付し、その詳細な説明は省略する。

　また、第２の実施形態と同様に、ステップＳ１１～Ｓ１３の処理を行う。即ち、ステップＳ１１において、複数の第２特徴マップ１１８－１及び第３特徴マップ１１８－２として取得する。次に、ステップＳ１２において、切り出し領域１２１－１及び切り出し領域１２１－２を決定する。さらに、ステップＳ１３において、複数の第１切り出し特徴マップ１２４－１及び複数の第２切り出し特徴マップ１２４－２を生成する。

　続くステップＳ３１では、特徴マップ取得部２０において、第１切り出し特徴マップ１２４－１及び第２切り出し特徴マップ１２４－２を連結する処理１４８を行い、連結切り出し特徴マップ１５０を生成する。連結の順序は学習と推論で同じであれば、特に問わない。複数の第１切り出し特徴マップ１２４－１のｃｈａｎｎｅｌ数がＡ、複数の第２切り出し特徴マップ１２４－２のｃｈａｎｎｅｌ数がＢであるとすると、処理１４８により連結切り出し特徴マップ１５０のｃｈａｎｎｅｌ数は（Ａ＋Ｂ）となる。

　なお、第１切り出し特徴マップ１２４－１及び第２切り出し特徴マップ１２４－２のｗｉｄｔｈ及びｈｅｉｇｈｔのサイズが異なる場合は、特徴マップ取得部２０は、第１切り出し特徴マップ１２４－１及び第２切り出し特徴マップ１２４－２の少なくとも一方について、拡大処理及び縮小処理の少なくとも一方を行うことで、第１切り出し特徴マップ１２４－１及び第２切り出し特徴マップ１２４－２のｗｉｄｔｈ及びｈｅｉｇｈｔのサイズを一致させればよい。拡大処理はデコンボリューション処理、縮小処理はプーリング処理を用いてもよい。

　次に、ステップＳ２１において、連結切り出し特徴マップ１５０を第２層構造特徴量算出部２８のＣＮＮ１４０に入力し、最終の中間層１３８－ｎから連結切り出し特徴マップ１５０内の特徴量を示す複数の第４特徴マップ１４２－ｎを取得する。

　さらに、ステップＳ２２において、複数の第４特徴マップ１４２－ｎから入力画像Ｇ_１内の生検器具の少なくとも一部の領域を抽出する処理１４４を行い、入力画像Ｇ_１内の各領域に対して生検器具である可能性を示すスコアを算出し、スコアの高い領域を示すスコアマップ１４６を出力する。

　最後に、ステップＳ２３において、ステップＳ４の病変の認識結果及びステップＳ２２の生検器具の認識結果を出力し、本フローチャートの処理を終了する。

　このように、第２対象物についての情報が足りない場合には、それぞれ異なる複数の中間層の出力の特徴マップからそれぞれ切り出し特徴マップを生成し、切り出し特徴マップを連結して特徴を抽出することで、第２対象物の認識精度を向上させることができる。

　＜第６の実施形態＞
　図１６は、認識装置５０のハードウェア構成を示すブロック図である。なお、図８に示すブロック図と共通する部分には同一の符号を付し、その詳細な説明は省略する。認識装置５０は、第１学習部５２及び第２学習部５４を備えている。

　第１学習部５２は、不図示の入力部から取得した画像及び画像内の第１対象物の認識結果の正解ラベルの組を、教師情報として第１層構造特徴量算出部１４及び第１対象物認識部１６に入力し、第１層構造特徴量算出部１４及び第１対象物認識部１６に学習させる。

　第２学習部５４は、不図示の入力部から取得した画像及び画像内の第２対象物の認識結果の正解ラベルの組を教師情報として第２層構造特徴量算出部２８及び第２対象物認識部３０に入力し、第２層構造特徴量算出部２８及び第２対象物認識部３０に学習させる。

　このように、認識装置１０において、第１層構造特徴量算出部１４、第１対象物認識部１６、第２層構造特徴量算出部２８、及び第２対象物認識部３０を学習させてもよい。これにより、第１対象物及び第２対象物の認識精度を向上させることができる。また、第１学習部５２及び第２学習部５４のうち、いずれか一方のみを備えていてもよい。

　＜第７の実施形態＞
　〔内視鏡システム〕
　図１７は、内視鏡システム７０の外観図である。内視鏡システム７０は、内視鏡７１、プロセッサ装置７２、及び光源装置７３を備えて構成される。

　内視鏡７１は、被検体の体内に挿入される可撓性の挿入部７４と、挿入部７４の基端部分に連設された操作部７５と、プロセッサ装置７２および光源装置７３に接続されるコネクタ７６と、操作部７５及びコネクタ７６間を繋ぐユニバーサルコード７７と、を有する。

　操作部７５の先端側には、鉗子口７８が設けられる。鉗子口７８には、電気メス等の処置具（生検器具）が挿通される。鉗子口７８は、挿入部７４内の鉗子チャンネルを通して、挿入部７４の先端面７４ａの鉗子出口７９に連通している。図１８は、挿入部７４の先端面７４ａの正面図である。

　操作部７５は、アングルノブ８０、送気送水ボタン８２、及び吸引ボタン８４等の各種操作部材を備えている。アングルノブ８０は、回転操作によって挿入部７４の先端硬質部８６を上下左右方向に湾曲させる。送気送水ボタン８２は、押圧操作によって図１８に示すように先端面７４ａに設けられた送気送水ノズル８８からエアー又は水を噴出させる。吸引ボタン８４は、押圧操作によって、体内の液体及び組織等の被吸引物を図１８に示す鉗子出口７９から吸引する。

　プロセッサ装置７２は、内視鏡７１及び光源装置７３と電気的に接続され、内視鏡システム７０の動作を統括的に制御する。

　先端硬質部８６には、図１８に示すように先端面７４ａに設けられた観察窓９０を介して撮影を行う撮像部２００（図１９参照）が搭載されている。撮像部２００には、ユニバーサルコード７７及び挿入部７４内に挿通された不図示の信号ケーブルを介してプロセッサ装置７２からの電力及び制御信号が与えられ、撮像部２００の動作がプロセッサ装置７２によって制御される。

　また、プロセッサ装置７２には、撮像部２００からの撮像信号が信号ケーブルを介して与えられ、プロセッサ装置７２においてその撮像信号に対して各種処理が施されて撮像部２００により観察されている観察画像の画像データが生成される。

　プロセッサ装置７２にはモニタ９２が接続されている。モニタ９２の画面には、プロセッサ装置７２からの画像データに基づき撮像部２００により撮影されている観察画像が表示される。

　光源装置７３は、撮像部２００により撮像する体腔内に照明光を出射する照明手段である。光源装置７３は、先端面７４ａに設けられた図１８に示す照明窓９４から被観察部位に向けて出射する照明光を内視鏡７１に供給する。光源装置７３から供給された照明光は、ユニバーサルコード７７及び挿入部７４内に挿通された不図示のライトガイドを介して先端硬質部８６まで伝送される。

　図１９は、内視鏡システム７０の制御系の構成を示した構成図である。内視鏡７１の先端硬質部８６には、撮像部２００として、撮像素子２０２、アナログ信号処理回路２０４、及びタイミングジェネレータ２０６等が備えられている。また、先端硬質部８６にはＣＰＵ（Central Processing Unit）２０８が備えられている。

　タイミングジェネレータ２０６は、ＣＰＵ２０８の制御に基づき、撮像素子２０２の垂直／水平走査パルス、及びリセットパルス等の駆動パルスとアナログ信号処理回路２０４用の同期パルスとを発生する。

　撮像素子２０２は、複数の色セグメントからなる不図示のカラーフィルタ（例えば、ベイヤ配列の原色カラーフィルタ）を備えた単板カラー撮像方式の固体撮像素子である。撮像素子２０２は、タイミングジェネレータ２０６から入力される駆動パルスにより駆動され、先端面７４ａの観察窓９０及び対物光学系２１０を介して不図示の撮像面に結像された光学像を光電変換して撮像信号として出力する。

　撮像素子２０２の撮像面には、多数の画素がマトリクス状に配置されており、各画素にはそれぞれ不図示のフォトセンサ（光電変換素子）が設けられている。撮像素子２０２の撮像面に入射した光は、各画素のフォトセンサに電荷として蓄積される。そして、不図示の垂直走査回路及び水平走査回路による垂直方向と水平方向の走査によって、各画素のフォトセンサに蓄積された信号電荷量が画素信号として順次読み出され、所定のフレームレートで出力される。

　撮像素子２０２の各フォトセンサの蓄積電荷を撮像信号として読み出す信号読出回路の構成は従来周知であり、例えば３トランジスタ構成又は４トランジスタ構成等の一般的な構成を適用することが可能であり、ここでは説明を省略する。

　アナログ信号処理回路２０４は、不図示の相関二重サンプリング回路、自動ゲイン回路、及びアナログデジタル変換器により構成されている。相関二重サンプリング回路は、撮像素子２０２から出力される撮像信号に対して相関二重サンプリング処理を施し、撮像素子２０２で生じるリセット雑音及びアンプ雑音の除去を行う。

　自動ゲイン回路は、相関二重サンプリング回路によりノイズ除去が行われた撮像信号を、ＣＰＵ２０８から指定されたゲイン（増幅率）で増幅する。アナログデジタル変換器は、自動ゲイン回路により増幅された撮像信号を、所定のビット数のデジタル信号に変換して出力する。

　アナログ信号処理回路２０４でデジタル化されて出力された撮像信号（デジタル撮像信号）は、プロセッサ装置７２に入力される。

　なお、撮像素子２０２を駆動するための回路、及び撮像素子２０２からの撮像信号をプロセッサ装置７２に送信するための先端硬質部８６内の構成は上記のものに限らない。

　プロセッサ装置７２は、ＣＰＵ２１２、ＲＯＭ（Read Only Memory）２１４、ＲＡＭ（Random Access Memory）２１６、画像処理回路２１８、及び表示制御回路２２０を備えて構成される。

　ＣＰＵ２１２は、プロセッサ装置７２内の各部を制御するとともに、内視鏡システム７０の全体を統括的に制御する。ＲＯＭ２１４には、プロセッサ装置７２の動作を制御するための各種プログラム及び制御用データが記憶される。また、ＲＡＭ２１６には、ＣＰＵ２１２により実行されるプログラム及びデータ等が一時記憶される。

　画像処理回路２１８は、ＣＰＵ２１２の制御に基づき、アナログ信号処理回路２０４から入力された撮像信号に対し、色補間、色分離、色バランス調整、ガンマ補正、及び画像強調処理等を施し、画像データを生成する。

　画像処理回路２１８から出力された画像データは表示制御回路２２０に入力される。表示制御回路２２０は、画像処理回路２１８から入力された画像データを、モニタ９２に対応した信号形式に変換する。これにより、モニタ９２の画面には、画像データに応じた画像が表示される。

　プロセッサ装置７２の操作部２３０は、ユーザの指示入力を受け付ける不図示の各種ボタンが設けられている。

　光源装置７３は、光源２２２、光源駆動回路２２４、及びＣＰＵ２２６を備えて構成される。ＣＰＵ２２６は、プロセッサ装置７２のＣＰＵ２１２と通信を行い、光源駆動回路２２４の制御を行う。

　光源２２２は、例えばキセノンランプであり、光源駆動回路２２４により点灯及び消灯が制御される。光源２２２で発光された照明光は、不図示の多数本の光ファイバを束ねて構成されるライトガイド２２８の入射端に導入される。ライトガイド２２８を伝送した照明光は、ライトガイド２２８の出射端から出射され、内視鏡７１の照明窓９４を通して被観察部位を照射する。

　上記のように構成された内視鏡システム７０で体腔内を観察する際には、まず、内視鏡７１、プロセッサ装置７２、光源装置７３、及びモニタ９２の電源を投入する。次に、内視鏡７１の挿入部７４を体腔内に挿入する。そして、光源装置７３からの照明光で体腔内を照明しながら、撮像部２００の撮像素子２０２により撮像される体腔内の画像をモニタ９２で観察する。

　また、必要に応じて操作部７５の先端側に設けられた鉗子口７８から生検器具を挿通する。この生検器具は、挿入部７４の先端面７４ａの鉗子出口７９から突出する。鉗子出口７９から突出した生検器具により、状況に応じた処置を行うことができる。

　上記の内視鏡システム７０において、認識装置１０、認識装置４０、又は認識装置５０を備えることができる。これにより、撮像部２００において撮影された内視鏡画像について、病変及び生検器具を認識することができる。

　この場合、認識装置１０等を専用のハードウェア構成としてもよいし、ＣＰＵ２１２、ＲＯＭ２１４、ＲＡＭ２１６、画像処理回路２１８、表示制御回路２２０、及びモニタ９２を用いて構成してもよい。

　ここで、内視鏡システム７０において撮影される画像の天地方向は、図１８に示す＋Ｘ方向が上側に、－Ｘ方向が下側に固定される。したがって、鉗子出口７９から突出する生検器具は、常に撮像部２００が撮影を行う観察窓９０の下側から現れる。このため、生検器具の出現頻度が高い位置は、内視鏡画像の下半分であるという外部情報を取得することができる。

　＜第８の実施形態＞
　ここまでは、認識装置１０、認識装置４０、及び認識装置５０において内視鏡画像内の対象物を認識する例を説明したが、認識装置１０、認識装置４０、及び認識装置５０は、内視鏡画像以外の画像内の対象物の認識に適用することも可能である。

　図２０は、自動車の運転席から見える前方の状況を撮影した動画像の１シーンである画像（以下、運転画像と表記する）である入力画像Ｇ_２の一例を示す図である。この入力画像Ｇ_２には、自動車ＳＢ_１、自転車ＳＢ_２、歩行者ＳＢ_３、交通標識ＳＢ_４、及び信号機ＳＢ_５が写っている。

　認識装置１０、認識装置４０、及び認識装置５０によれば、入力画像Ｇ_２から、画像全体に現れる自動車ＳＢ_１、自転車ＳＢ_２、又は歩行者ＳＢ_３を第１対象物として認識するタスクを行い、画像の特定部分に現れる交通標識ＳＢ_４又は信号機ＳＢ_５を第２対象物として認識するタスクを行うことができる。

　なお、交通ルールにより自動車は左側通行と定められている場合であれば、交通標識ＳＢ_４は一般に道路の左側に設置される。したがって、交通標識ＳＢ_４に関する外部情報は、運転画像の左半分という位置情報である。また、信号機ＳＢ_５は視認性の関係で一般に高い場所に設置される。したがって、信号機ＳＢ_５に関する外部情報は、運転画像の上半分という位置情報である。

　認識装置１０、認識装置４０、及び認識装置５０に、運転画像から構成される動画像を入力して各対象物を認識させることで、自動車の自動運転等に活用することが可能になる。

　＜第９の実施形態＞
　〔認識装置〕
　本実施形態に係る認識装置６０は、画像内の第１対象物、第２対象物、及び第３対象物のそれぞれの領域を抽出するタスクを行う。

　図２１は、認識装置６０のハードウェア構成を示すブロック図である。なお、図８に示すブロック図と共通する部分には同一の符号を付し、その詳細な説明は省略する。

　認識装置６０は、認識装置４０の構成に加え、第３層構造特徴量算出部６２及び第３対象物認識部６４を備えている。

　第３層構造特徴量算出部６２は、第１層構造特徴量算出部１４と同様に、複数の処理層が階層的に接続された構造を有している。第３層構造特徴量算出部６２は、画像データが入力されると処理層毎に画像内の位置情報を反映した特徴量を示す第５特徴マップを算出する。

　第３対象物認識部６４は、第３層構造特徴量算出部６２が算出した第５特徴マップから画像内の第３対象物を認識する。

　〔認識方法〕
　認識装置６０を用いた画像内の第１対象物、第２対象物、及び第３対象物の認識方法について説明する。ここでは、運転画像を示す画像データから、第１対象物として自動車を、第２対象物として信号機を、第３対象物として交通標識を認識する例を説明する。

　図２２は、認識方法の処理を示すフローチャートである。また、図２３は、各処理を概念的に説明するための模式図である。なお、図９に示すフローチャート及び図１０に示す模式図と共通する部分には同一の符号を付し、その詳細な説明は省略する。

　最初に、ステップＳ１において、画像取得部１２によって運転画像である入力画像Ｇ_２を示す画像データ２４０を取得する。

　次に、ステップＳ２では、第１層構造特徴量算出部１４において、画像データ２４０の特徴マップを算出する。ここでは、ＣＮＮ１０４は、運転画像から自動車を認識することを目的として設計及び学習されている。

　続いて、ステップＳ３において、第１処理層１０８である中間層１０２－ｎが算出した複数の特徴マップ１０６－ｎを、複数の第１特徴マップ１１０として取得する。さらに、ステップＳ４において、複数の第１特徴マップ１１０に基づいて自動車のスコアマップ１１４を出力する。

　次に、ステップＳ５では、特徴マップ取得部２０において、ＣＮＮ１０４の中間層１０２－３を第２処理層１１６とし、中間層１０２－３が算出した複数の特徴マップ１０６－３を複数の第２特徴マップ１１８として取得する。

　次に、ステップＳ４１では、切り出し領域決定部２２において、第２対象物である信号機に関する外部情報に基づいて第２特徴マップ１１８から切り出す切り出し領域１２１－３を決定する。ここでは、信号機に関する外部情報は、画像の下半分という位置情報である。したがって、切り出し領域決定部２２は、切り出し領域１２１－３を複数の第２特徴マップ１１８の下半分に決定する。

　また、ステップＳ４１では、切り出し領域決定部２２において、第３対象物である交通標識に関する外部情報に基づいて第２特徴マップ１１８から切り出す切り出し領域１２１－４を決定する。ここでは、交通標識に関する外部情報は、画像の左半分という位置情報である。したがって、切り出し領域決定部２２は、切り出し領域１２１－４を複数の第２特徴マップ１１８の左半分に決定する。

　続いて、ステップＳ４２では、切り出し部２４において、第２特徴マップ１１８から切り出し領域１２１－３の切り出し処理１２２－３を行って、第３切り出し特徴マップ１２４－３を生成する。ここでは、複数の第２特徴マップ１１８のそれぞれの上半分を切り出した複数の第３切り出し特徴マップ１２４－３が生成される。

　また、ステップＳ４２では、切り出し部２４において、第２特徴マップ１１８から切り出し領域１２１－４の切り出し処理１２２－４を行って、第４切り出し特徴マップ１２４－４を生成する。ここでは、複数の第２特徴マップ１１８のそれぞれの左半分を切り出した複数の第４切り出し特徴マップ１２４－４が生成される。

　なお、切り出し処理１２２－３及び切り出し処理１２２－４を行う順序は限定されず、同時に行ってもよい。

　次に、ステップＳ４３において、第２層構造特徴量算出部２８によって第３切り出し特徴マップ１２４－３内の特徴量を示す第４特徴マップ１４２－ｎを取得する。ここでは、ＣＮＮ１４０は、運転画像から信号機を認識することを目的として設計及び学習されている。

　続いて、ステップＳ４４では、第２対象物認識部３０において、第４特徴マップ１４２－ｎから入力画像Ｇ_２内の信号機の少なくとも一部の領域を抽出する処理１４４を行う。ここでは、処理１４４は、複数の第４特徴マップ１４２－ｎに基づいて入力画像Ｇ_２内の各領域に対して信号機である可能性を示すスコアを算出し、スコアの高い領域を示すスコアマップ１４６を出力する。

　また、ステップＳ４５において、第３層構造特徴量算出部６２によって第４切り出し特徴マップ１２４－４内の特徴量を示す第５特徴マップ１６８－ｎを取得する。

　第３層構造特徴量算出部６２は、中間層１６２－１、１６２－２、…、及び１６２－ｎからなるＣＮＮ１６４により構成される。中間層１６２－１、…、及び１３８－ｎは、それぞれ特徴マップ１６８－１、…、及び１６８－ｎを算出する。ＣＮＮ１６４は、運転画像から交通標識を認識することを目的として設計及び学習されている。

　第４切り出し特徴マップ１２４－４は、入力画像Ｇ_２の位置情報を反映している。また、ＣＮＮ１６４は、入力された画像内の位置情報を反映した特徴量を示す第５特徴マップ１６８－ｎを算出する。したがって、第５特徴マップ１６８－ｎは、入力画像Ｇ_２の位置情報を反映した特徴量を有している。

　続いて、ステップＳ４６では、第３対象物認識部６４において、第５特徴マップ１６８－ｎから入力画像Ｇ_２内の交通標識の少なくとも一部の領域を抽出する処理１７０を行う。ここでは、処理１７０は、複数の第５特徴マップ１６８－ｎに基づいて入力画像Ｇ_２内の各領域に対して交通標識である可能性を示すスコアを算出し、スコアの高い領域を示すスコアマップ１７２を出力する。複数の第５特徴マップ１６８－ｎは、それぞれ入力画像Ｇ_２内の位置情報を反映した特徴量を有している。したがって、複数の第５特徴マップ１６８－ｎから、交通標識の位置を認識することができる。

　最後に、ステップＳ４７では、表示部１８において、ステップＳ４の自動車の認識結果、ステップＳ４４の信号機の認識結果、及びステップＳ４６の交通標識の認識結果を出力し、本フローチャートの処理を終了する。

　図２４は、図２０に示す入力画像Ｇ_２が入力された場合の表示部１８の表示内容を示す図である。ここでは、表示部１８に入力画像Ｇ_２を表示するとともに、スコアマップ１１４、１４６、及び１７２を重畳表示している。

　このように、画像全体から第１対象物が存在する領域を認識し、同じ画像から空間的局所性を有する第２対象物が存在する領域を認識し、さらにその画像から第２対象物とは異なる空間的局所性を有する第３対象物が存在する領域を認識することが可能である。

　なお、第３層構造特徴量算出部６２及び第３対象物認識部６４を学習させる学習部を備えてもよい。

　＜第１０の実施形態＞
　医療分野において、ＣＴ（Computed Tomography）装置及びＭＲ（Magnetic Resonance）装置等において撮影された３次元の医用画像が診断に用いられている。ここでは、認識装置４０（図８参照）において、不図示のＣＴ装置により撮影された３次元医用画像から第１対象物として肺野領域を、第２対象物として背骨領域を、それぞれ抽出するタスクを行う場合について説明する。

　図２５は、ＣＴ装置によって撮影された、肺野ＳＢ_６と背骨ＳＢ_７とを含む３次元医用画像Ｇ_３の一例を示す図である。図２５に示すように、本実施形態に係る３次元医用画像は、複数のアキシャル断面画像が体軸方向に並べられて構成されている。３次元医用画像を示す画像データは、ボクセル値を有する３次元データ（ボクセルデータ）として表される。

　ここでは、第１層構造特徴量算出部１４のＣＮＮ１０４（図１０参照）は、肺野と背骨とを含む３次元医用画像から３次元の肺野領域を抽出することを目的として設計及び学習されている。また、第２層構造特徴量算出部２８のＣＮＮ１４０（図１０参照）は、肺野と背骨とを含む３次元医用画像から３次元の背骨領域を抽出することを目的として設計及び学習されている。

　ＣＴ装置では、一般的に被検体を寝台上に仰向けに寝かせた状態（被検体の背中を寝台の上面に接触させた状態）で撮影を行う。このため、３次元医用画像Ｇ_３は、アキシャル断面において被検体の背中側が画像の下側となる。この場合、背骨は３次元医用画像Ｇ_３のアキシャル断面において中央付近下半分に写る。

　したがって、背骨に関する外部情報は、アキシャル断面画像の中央付近下半分という位置情報である。切り出し領域決定部２２は、この外部情報を取得し、アキシャル断面の中央付近下半分を切り出し領域１２１として決定すればよい。

　なお、本実施形態では、ＣＮＮ１０４の中間層１０２－１、１０２－２、１０２－３、１０２－４、１０２－５、…、及び１０２－ｎは、それぞれ３次元データで構成された複数の特徴マップ１０６－１、１０６－２、１０６－３、１０６－４、…、及び１０６－ｎを算出する。したがって、切り出し領域決定部２２は、３次元データである複数の第２特徴マップ１１８の一部を切り出す領域として決定する。

　なお、中間層１０２－１、１０２－２、１０２－３、１０２－４、１０２－５、…、及び１０２－ｎは、それぞれ２次元データで構成された複数の特徴マップ１０６－１、１０６－２、１０６－３、１０６－４、…、及び１０６－ｎを算出してもよい。また、複数の特徴マップ１０６－２が２次元データで構成され、複数の特徴マップ１０６－３が３次元データで構成される等であってもよい。

　このように構成した認識装置４０において、画像取得部１２から３次元医用画像Ｇ_３を示す画像データが入力されると、表示部１８において肺野領域のスコアマップ１１４及び背骨領域のスコアマップ１４６を出力する。

　なお、撮影時の被検体の姿勢が仰向けでない場合は、ＣＮＮ１０４に入力する画像の向きを調整するか、又は背骨領域に関する外部情報を、撮影時の被検体の姿勢を考慮した位置情報とすればよい。

　ここでは、肺野領域と背骨領域とを抽出するタスクを行う場合について説明したが、この組に限定されるものではなく、必要な領域を自由に決定することができる。

　また、第２特徴マップを複数のタスクに利用してもよい。例えば、第２特徴マップを、背骨領域、気管領域、及び胸骨領域を抽出するタスクに利用してもよい。ここで、気管領域は一般的に３次元医用画像のアキシャル断面において背骨上に存在する。また、胸骨領域は一般的に３次元医用画像のアキシャル断面において中央上部に存在する。したがって、気管領域に関する外部情報は背骨の上という位置情報、胸骨領域に関する外部情報は中央上部という位置情報となる。

　さらに、タスク毎にそれぞれ異なる中間層の出力である特徴マップを用いてもよい。

　ここでは、認識装置４０において３次元医用画像内の対象物を認識する例について説明したが、認識装置１０、５０、及び６０において３次元医用画像内の対象物を認識することも可能である。また、認識装置１０、４０、５０、及び６０の少なくとも１つを、ＣＴ装置及びＭＲ装置と一体にして構成してもよい。

　＜その他＞
　上記の認識方法は、各工程をコンピュータに実現させるためのプログラムとして構成し、このプログラムを記憶したＣＤ－ＲＯＭ（Compact Disk-Read Only Memory）等の非一時的な記録媒体を構成することも可能である。

　ここまで説明した実施形態において、例えば、認識装置１０、４０、５０、及び６０の各種の処理を実行する処理部（processing unit）のハードウェア的な構造は、次に示すような各種のプロセッサ（processor）である。各種のプロセッサには、ソフトウェア（プログラム）を実行して各種の処理部として機能する汎用的なプロセッサであるＣＰＵ（Central Processing Unit）、画像処理に特化したプロセッサであるＧＰＵ（Graphics Processing Unit）、ＦＰＧＡ（Field Programmable Gate Array）等の製造後に回路構成を変更可能なプロセッサであるプログラマブルロジックデバイス（Programmable Logic Device：ＰＬＤ）、ＡＳＩＣ（Application Specific Integrated Circuit）等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が含まれる。

　１つの処理部は、これら各種のプロセッサのうちの１つで構成されていてもよいし、同種又は異種の２つ以上のプロセッサ（例えば、複数のＦＰＧＡ、あるいはＣＰＵとＦＰＧＡの組み合わせ、又はＣＰＵとＧＰＵの組み合わせ）で構成されてもよい。また、複数の処理部を１つのプロセッサで構成してもよい。複数の処理部を１つのプロセッサで構成する例としては、第１に、サーバ及びクライアント等のコンピュータに代表されるように、１つ以上のＣＰＵとソフトウェアの組合せで１つのプロセッサを構成し、このプロセッサが複数の処理部として機能する形態がある。第２に、システムオンチップ（System On Chip：ＳｏＣ）等に代表されるように、複数の処理部を含むシステム全体の機能を１つのＩＣ（Integrated Circuit）チップで実現するプロセッサを使用する形態がある。このように、各種の処理部は、ハードウェア的な構造として、各種のプロセッサを１つ以上用いて構成される。

　さらに、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子等の回路素子を組み合わせた電気回路（circuitry）である。

　本発明の技術的範囲は、上記の実施形態に記載の範囲には限定されない。各実施形態における構成等は、本発明の趣旨を逸脱しない範囲で、各実施形態間で適宜組み合わせることができる。

１０　認識装置
１２　画像取得部
１４　第１層構造特徴量算出部
１６　第１対象物認識部
１８　表示部
２０　特徴マップ取得部
２２　切り出し領域決定部
２４　切り出し部
２８　第２層構造特徴量算出部
３０　第２対象物認識部
４０　認識装置
５０　認識装置
５２　第１学習部
５４　第２学習部
６０　認識装置
６２　第３層構造特徴量算出部
６４　第３対象物認識部
７０　内視鏡システム
７１　内視鏡
７２　プロセッサ装置
７３　光源装置
７４　挿入部
７４ａ　先端面
７５　操作部
７６　コネクタ
７７　ユニバーサルコード
７８　鉗子口
７９　鉗子出口
８０　アングルノブ
８２　送気送水ボタン
８４　吸引ボタン
８６　先端硬質部
８８　送気送水ノズル
９０　観察窓
９２　モニタ
９４　照明窓
１００　画像データ
１０２－１　中間層
１０２－２　中間層
１０２－３　中間層
１０２－４　中間層
１０２－５　中間層
１０２－ｎ　中間層
１０４　畳み込みニューラルネットワーク（ＣＮＮ）
１０６－１　特徴マップ
１０６－２　特徴マップ
１０６－３　特徴マップ
１０６－４　特徴マップ
１０６－ｎ　特徴マップ
１０８　第１処理層
１１０　第１特徴マップ
１１２　処理
１１４　スコアマップ
１１６　第２処理層
１１６－１　第２処理層
１１６－２　第３処理層
１１８　第２特徴マップ
１１８－１　第２特徴マップ
１１８－２　第３特徴マップ
１２０　処理
１２０－１　処理
１２０－２　処理
１２１　切り出し領域
１２１－１　切り出し領域
１２１－２　切り出し領域
１２１－３　切り出し領域
１２１－４　切り出し領域
１２２　切り出し処理
１２２－１　切り出し処理
１２２－２　切り出し処理
１２２－３　切り出し処理
１２２－４　切り出し処理
１２４　切り出し特徴マップ
１２４－１　第１切り出し特徴マップ
１２４－２　第２切り出し特徴マップ
１２４－３　第３切り出し特徴マップ
１２４－４　第４切り出し特徴マップ
１２６　ベクトル変換処理
１２６－１　ベクトル変換処理
１２６－２　ベクトル変換処理
１２８　特徴量ベクトル
１２８－１　特徴量ベクトル
１２８－２　特徴量ベクトル
１３０　判別処理
１３２　有無
１３４　ベクトル連結処理
１３６　特徴量ベクトル
１３８－１　中間層
１３８－２　中間層
１３８－ｎ　中間層
１４０　畳み込みニューラルネットワーク（ＣＮＮ）
１４２－１　特徴マップ
１４２－ｎ　第４特徴マップ
１４４　処理
１４６　スコアマップ
１４８　処理
１５０　連結切り出し特徴マップ
１６２－１　中間層
１６２－２　中間層
１６４　畳み込みニューラルネットワーク（ＣＮＮ）
１６８－１　特徴マップ
１６８－ｎ　第５特徴マップ
１７０　処理
１７２　スコアマップ
２００　撮像部
２０２　撮像素子
２０４　アナログ信号処理回路
２０６　タイミングジェネレータ
２０８　ＣＰＵ
２１０　対物光学系
２１２　ＣＰＵ
２１４　ＲＯＭ
２１６　ＲＡＭ
２１８　画像処理回路
２２０　表示制御回路
２２２　光源
２２４　光源駆動回路
２２６　ＣＰＵ
２２８　ライトガイド
２３０　操作部
２４０　画像データ
Ｇ_１　入力画像
Ｇ_２　入力画像
Ｇ_３　３次元医用画像
Ｓ１～Ｓ４７　認識方法の処理のステップ
ＳＢ_１　自動車
ＳＢ_２　自転車
ＳＢ_３　歩行者
ＳＢ_４　交通標識
ＳＢ_５　信号機
ＳＢ_６　肺野
ＳＢ_７　背骨

Claims

　画像を示す画像データを取得する画像取得部と、
　層構造を有する複数の処理層を備え、前記画像データが入力されると前記処理層毎に前記画像内の特徴量を示す特徴マップを算出する第１層構造特徴量算出部と、
　前記複数の処理層のうち第１処理層が算出した第１特徴マップから前記画像内の第１対象物を認識する第１対象物認識部と、
　前記複数の処理層のうち前記第１処理層よりも入力側の処理層である第２処理層が算出した第２特徴マップを取得する特徴マップ取得部と、
　第２対象物に関する外部情報に基づいて前記第２特徴マップから切り出す領域を決定する切り出し領域決定部と、
　前記第２特徴マップから前記決定した領域を切り出して切り出し特徴マップを生成する切り出し部と、
　前記切り出し特徴マップに基づいて前記画像内の前記第２対象物を認識する第２対象物認識部と、
　を備えた認識装置。
　前記第２対象物に関する外部情報は、前記画像内の前記第２対象物の位置情報である請求項１に記載の認識装置。
　前記特徴マップ取得部は、前記第２処理層とは異なる第３処理層であって、前記複数の処理層のうち前記第１処理層よりも入力側の第３処理層が算出した第３特徴マップをさらに取得し、
　前記切り出し部は、前記第２特徴マップから前記決定した領域を切り出して第１切り出し特徴マップを生成し、かつ前記第３特徴マップから前記決定した領域を切り出して第２切り出し特徴マップを生成し、
　前記第２対象物認識部は、前記第１切り出し特徴マップ及び前記第２切り出し特徴マップに基づいて前記画像内の前記第２対象物を認識する請求項１又は２に記載の認識装置。
　前記特徴マップ取得部は、前記第２処理層が算出した複数の前記第２特徴マップを取得し、
　前記切り出し部は、前記複数の第２特徴マップから前記決定した領域を切り出して複数の切り出し特徴マップを生成し、
　前記第２対象物認識部は、前記複数の切り出し特徴マップを特徴量ベクトルに変換し、前記特徴量ベクトルに基づいて前記第２対象物の有無を判別する請求項１から３のいずれか１項に記載の認識装置。
　前記第２対象物認識部は、前記複数の切り出し特徴マップの各切り出し特徴マップ内の特徴量の平均値を算出し、前記平均値を特徴量ベクトルに変換する請求項４に記載の認識装置。
　前記第２対象物認識部は、前記複数の切り出し特徴マップの各切り出し特徴マップ内の特徴量を特徴量ベクトルに変換する請求項４に記載の認識装置。
　層構造を有する複数の第４処理層を有し、前記切り出し特徴マップが入力されると前記切り出し特徴マップ内の特徴量を示す第４特徴マップを算出する第２層構造特徴量算出部を備え、
　前記第２対象物認識部は、前記第４特徴マップに基づいて前記第２対象物の有無を判別、又は前記第２対象物の少なくとも一部の領域を抽出する請求項１から６のいずれか１項に記載の認識装置。
　前記第１層構造特徴量算出部は、畳み込み演算部を備える請求項１から７のいずれか１項に記載の認識装置。
　前記第１層構造特徴量算出部は、畳み込みニューラルネットワークである請求項８に記載の認識装置。
　前記特徴マップは、畳み込みニューラルネットワークの中間層の特徴マップである請求項９に記載の認識装置。
　前記第１対象物認識部の学習を行う第１学習部を備えた請求項１から１０のいずれか１項に記載の認識装置。
　前記第２対象物認識部の学習を行う第２学習部を備えた請求項１から１１のいずれか１項に記載の認識装置。
　前記特徴マップは２次元データで構成され、
　前記切り出し領域決定部は、前記２次元データの一部を切り出す領域として決定する請求項１から１２のいずれか１項に記載の認識装置。
　前記特徴マップは３次元データで構成され、
　前記切り出し領域決定部は、前記３次元データの一部を切り出す領域として決定する請求項１から１３のいずれか１項に記載の認識装置。
　画像を示す画像データを取得する画像取得工程と、
　前記画像データが入力されると層構造を有する複数の処理層の前記処理層毎に前記画像内の特徴量を示す特徴マップを算出する第１層構造特徴量算出工程と、
　前記複数の処理層のうち第１処理層が算出した第１特徴マップから前記画像内の第１対象物を認識する第１対象物認識工程と、
　前記複数の処理層のうち前記第１処理層よりも入力側の処理層である第２処理層が算出した第２特徴マップを取得する特徴マップ取得工程と、
　第２対象物に関する外部情報に基づいて前記第２特徴マップから切り出す領域を決定する切り出し領域決定工程と、
　前記第２特徴マップから前記決定した領域を切り出して切り出し特徴マップを生成する切り出し工程と、
　前記切り出し特徴マップに基づいて前記画像内の前記第２対象物を認識する第２対象物認識工程と、
　を備えた認識方法。
　画像を示す画像データを取得する画像取得工程と、
　前記画像データが入力されると層構造を有する複数の処理層の前記処理層毎に前記画像内の特徴量を示す特徴マップを算出する第１層構造特徴量算出工程と、
　前記複数の処理層のうち第１処理層が算出した第１特徴マップから前記画像内の第１対象物を認識する第１対象物認識工程と、
　前記複数の処理層のうち前記第１処理層よりも入力側の処理層である第２処理層が算出した第２特徴マップを取得する特徴マップ取得工程と、
　第２対象物に関する外部情報に基づいて前記第２特徴マップから切り出す領域を決定する切り出し領域決定工程と、
　前記第２特徴マップから前記決定した領域を切り出して切り出し特徴マップを生成する切り出し工程と、
　前記切り出し特徴マップに基づいて前記画像内の前記第２対象物を認識する第２対象物認識工程と、
　をコンピュータに実行させるプログラム。