WO2020174770A1

WO2020174770A1 - 領域特定装置、方法およびプログラム、学習装置、方法およびプログラム、並びに識別器

Info

Publication number: WO2020174770A1
Application number: PCT/JP2019/044390
Authority: WO
Inventors: 晶路一ノ瀬; 嘉郎北村
Original assignee: 富士フイルム株式会社
Priority date: 2019-02-28
Filing date: 2019-11-12
Publication date: 2020-09-03
Also published as: EP3933764A4; US20210383164A1; JPWO2020174770A1; EP3933764A1; JP7130107B2

Abstract

領域特定装置は、入力画像に含まれる、性状が異なる複数のサブクラス物体を含む物体の領域を特定する。領域特定装置は、入力画像に含まれる物体候補を特定する第１の識別器を備える。第１の識別器は、サブクラス物体の性状に応じた複数のアンカーの移動および変形の少なくとも一方を予測して、物体候補を囲む物体候補領域を特定するように構成された構成要素を有する。

Description

領域特定装置、方法およびプログラム、学習装置、方法およびプログラム、並びに識別器

　本開示は、画像に含まれる物体の領域を特定する領域特定装置、方法およびプログラム、学習装置、方法およびプログラム、並びに識別器に関するものである。

　近年、ＣＴ（Computed Tomography）装置およびＭＲＩ（Magnetic Resonance Imaging）装置等の医療機器の進歩により、より質の高い高解像度の３次元画像を用いての画像診断が可能となってきている。このような３次元画像に含まれる臓器および病変等の領域を自動で抽出することも行われている。このように画像から領域を抽出する手法として、ディープラーニング等の機械学習により学習がなされた識別器を用いる手法が提案されている。とくに、ディープラーニングで用いられる畳み込みニューラルネットワーク（ＣＮＮ（Convolution Neural Network））としてＦａｓｔｅｒ－ＲＣＮＮ（Regions with CNN features）が知られている（「Ren, Shaoqing, et al. "Faster R-CNN: Towards real-time object detection with region proposal networks." Advances in neural information processing systems. 2015」および米国特許第９８５８４９６号明細書参照）。

　Ｆａｓｔｅｒ－ＲＣＮＮは、入力画像から特徴量を抽出して特徴マップを生成する畳み込み層と、物体の候補領域を特定するＲＰＮ（Region Proposal Networks）と、特徴マップおよび物体候補領域を入力として、物体のカテゴリの分類および回帰の結果を出力する分類ネットワークとから構成される。Ｆａｓｔｅｒ－ＲＣＮＮのＲＰＮにおいては、複数種類のアスペクト比およびサイズを有するアンカーと呼ばれる矩形領域が予め定義される。ＲＰＮにおいては、複数種類のアンカーを入力画像から生成された特徴マップの各画素位置に適用し、入力画像に含まれる物体候補との重なり率が最も大きいアンカーが選択される。そして、ＲＰＮにおいては、選択されたアンカーを用いて、物体候補を囲む矩形（正解ボックス）と一致するようにアンカーを回帰させる（すなわち変形および移動させる）処理を、特徴マップの全画素において行い、正解ボックスと一致するように回帰されたアンカーの位置およびサイズが、入力画像における物体候補領域としてＲＰＮから出力される。そして、分類ネットワークにおいて、物体候補領域および特徴マップに基づいて、入力画像における物体候補領域の分類が行われる。

　また、ＣＮＮを用いて画像に含まれる人物を効率よく特定するために、複数種類のアンカーから人物が立っている状態のアスペクト比に近い縦長の１：２のアスペクト比を有するアンカーを用いる手法が提案されている（特開２０１７－１９１５０１号公報参照）。

　一方、胸部の入力画像に含まれる肺癌を特定するために、Ｆａｓｔｅｒ－ＲＣＮＮを用いることが考えられる。この場合、ＲＰＮにおいて、入力画像における肺癌の候補領域を特定し、分類ネットワークにおいて、肺癌の候補領域を悪性病変および良性病変のカテゴリ、並びに病変でない領域のカテゴリに分類するように、Ｆａｓｔｅｒ－ＲＣＮＮが構築される。ここで、肺癌の候補領域としては、肺結節の領域が挙げられる。また、肺結節には、すりガラス状の肺結節および充実状の肺結節のように性状が異なる肺結節がある。このため、ＲＰＮは、すべての性状の肺結節の領域を特定できるように学習が行われる。

　また、入力画像に含まれる人物の顔を特定するためにも、Ｆａｓｔｅｒ－ＲＣＮＮを用いることが考えられる。この場合、ＲＰＮにおいて、入力画像における人物の顔候補領域を特定し、分類ネットワークにおいて、顔候補領域を顔と顔でない領域に分類するように、Ｆａｓｔｅｒ－ＲＣＮＮが構築される。ここで、人物の肌の色および髪の毛の色等、人物の性状は人種によって異なる。このため、ＲＰＮは、すべての人種の人物の顔候補の領域を特定できるように学習が行われる。

　上述した肺癌および人物の顔のように、画像に含まれる特定すべき物体が、性状が異なる複数の物体（以下、サブクラス物体とする）を含む場合であっても、Ｆａｓｔｅｒ－ＲＣＮＮを適切に学習することにより、画像から物体を検出できる。しかしながら、特定すべき物体が、性状が異なる複数のサブクラス物体を含む場合、ＲＰＮに定義されたアンカーが、すべての性状のサブクラス物体を特定できるように学習を行う必要がある。このように学習を行うと、ＲＰＮの構成が複雑となるため、学習の負担が大きいものとなる。また、物体の特定時においても処理の負担が大きい。このため、学習を効率よく行ったり、効率よく物体を特定したりすることができない。

　本発明は上記事情に鑑みなされたものであり、特定すべき物体が、性状が異なる複数のサブクラス物体を含む場合に、より効率よく物体を特定できるようにすることを目的とする。

　本開示による領域特定装置は、入力画像に含まれる、性状が異なる複数のサブクラス物体を含む物体の領域を特定する領域特定装置であって、
　入力画像に含まれる物体候補を特定する第１の識別器を備え、
　第１の識別器は、サブクラス物体の性状に応じた複数のアンカーの移動および変形の少なくとも一方を予測して、物体候補を囲む物体候補領域を特定するように構成された構成要素を有する。

　「性状」とは、入力画像上に含まれるサブクラス物体の外観を規定する、性質および状態の少なくとも一方を表す。性質および状態は、サブクラス物体の形状、信号値、およびサブクラス物体に含まれる構造等の少なくとも１つにより定義される。このため、形状、信号値、および含まれる構造等の少なくとも１つが異なれば、性状が異なるものとなる。

　なお、本開示による領域特定装置においては、第１の識別器は、サブクラス物体の性状に応じて、各種形状および各種大きさを有する複数のアンカーから、物体候補を含む正解ボックスとの形状および大きさの類似度に基づいてアンカーを選択し、選択されたアンカーの移動および変形の少なくとも一方を予測して、物体候補を囲む物体候補領域を特定するものであってもよい。

　また、本開示による領域特定装置においては、第１の識別器は、物体候補を含む正解ボックスとの形状および大きさの類似度に基づいてアンカーを選択するものであってもよい。

　また、本開示による領域特定装置においては、特定された物体候補領域のサブクラスを表示部に表示する表示制御部をさらに備えるものであってもよい。

　また、本開示による領域特定装置においては、表示制御部は、物体候補領域が特定された入力画像を表示部に表示するものであってもよい。

　また、本開示による領域特定装置においては、入力画像から畳み込み特徴マップを生成する畳み込み部をさらに備え、
　第１の識別器は、畳み込み特徴マップに基づいて物体候補領域を特定するものであってもよい。

　また、本開示による領域特定装置においては、物体候補領域に含まれる物体候補のカテゴリを特定する第２の識別器をさらに備えるものであってもよい。

　また、本開示による領域特定装置においては、畳み込み特徴マップおよび物体候補領域に基づいて、物体候補のカテゴリを特定する第２の識別器をさらに備えるものであってもよい。

　この場合、第２の識別器は、物体候補領域を修正するものであってもよい。

　また、第２の識別器は、物体候補領域内における物体候補の輪郭を識別するものであってもよい。

　本開示による学習装置は、入力画像に含まれる、性状が異なる複数のサブクラス物体を含む物体の候補である物体候補を特定する識別器を学習する学習装置であって、
　性状が既知のサブクラス物体を含む教師画像に性状に応じたアンカーを適用し、適用したアンカーの移動および変形の少なくとも一方を予測して、サブクラス物体を物体候補として囲む物体候補領域を特定する処理を、複数の教師画像を用いて行うことにより、サブクラス物体の性状に応じた複数のアンカーの移動および変形の少なくとも一方を予測して、入力画像における物体候補を囲む物体候補領域を特定するように、識別器を学習する学習部を備える。

　本開示による識別器は、入力画像に含まれる、性状が異なる複数のサブクラス物体を含む物体の候補である物体候補を特定する識別器であって、
　性状が既知のサブクラス物体を含む教師画像に性状に応じたアンカーを適用し、適用したアンカーの移動および変形の少なくとも一方を予測して、サブクラス物体を物体候補として囲む物体候補領域を特定する処理を、複数の教師画像を用いて行うことにより、サブクラス物体の性状に応じた複数のアンカーの移動および変形の少なくとも一方を予測して、入力画像における物体候補を囲む物体候補領域を特定するように学習されてなる。

　本開示による領域特定方法は、入力画像に含まれる、性状が異なる複数のサブクラス物体を含む物体の領域を特定する領域特定方法であって、
　サブクラス物体の性状に応じた複数のアンカーの移動および変形の少なくとも一方を予測して、物体候補を囲む物体候補領域を特定するように構成された構成要素を有する第１の識別器が、入力画像に含まれる物体候補を特定する。

　本開示による学習方法は、入力画像に含まれる、性状が異なる複数のサブクラス物体を含む物体の候補である物体候補を特定する識別器を学習する学習方法であって、
　性状が既知のサブクラス物体を含む教師画像に性状に応じたアンカーを適用し、適用したアンカーの移動および変形の少なくとも一方を予測して、サブクラス物体を物体候補として囲む物体候補領域を特定する処理を、複数の教師画像を用いて行うことにより、サブクラス物体の性状に応じた複数のアンカーの移動および変形の少なくとも一方を予測して、入力画像における物体候補を囲む物体候補領域を特定するように、識別器を学習する。

　なお、本開示による領域特定方法および学習方法をコンピュータに実行させるためのプログラムとして提供してもよい。

　本開示による他の領域特定装置は、入力画像に含まれる、性状が異なる複数のサブクラス物体を含む物体の領域を特定する処理をコンピュータに実行させるための命令を記憶するメモリと、
　記憶された命令を実行するよう構成されたプロセッサとを備え、プロセッサは、
　サブクラス物体の性状に応じた複数のアンカーの移動および変形の少なくとも一方を予測して、物体候補を囲む物体候補領域を特定するように構成された構成要素を有する第１の識別器として機能して、入力画像に含まれる物体候補を特定する処理を実行する。

　本開示による他の学習装置は、入力画像に含まれる、性状が異なる複数のサブクラス物体を含む物体の候補である物体候補を特定する識別器を学習する処理をコンピュータに実行させるための命令を記憶するメモリと、
　記憶された命令を実行するよう構成されたプロセッサとを備え、プロセッサは、
　性状が既知のサブクラス物体を含む教師画像に性状に応じたアンカーを適用し、適用したアンカーの移動および変形の少なくとも一方を予測して、サブクラス物体を物体候補として囲む物体候補領域を特定する処理を、複数の教師画像を用いて行うことにより、サブクラス物体の性状に応じた複数のアンカーの移動および変形の少なくとも一方を予測して、入力画像における物体候補を囲む物体候補領域を特定するように、識別器を学習する処理を実行する。

　本開示によれば、識別器の学習を効率よく行うことができる。また、入力画像において物体候補領域を効率よく特定することができる。

本開示の実施形態による領域特定装置を適用した、診断支援システムの概要を示すハードウェア構成図本開示の実施形態による領域特定装置の概略構成を示す図物体特定部の構成を示す概略ブロック図ＲＰＮの構成を示す図アンカーの選択を説明するための図アンカーの選択を説明するための図アンカーの選択を説明するための図アンカーの正解ボックスとの差分を説明するための図第１の識別器の学習を説明するための図差分の算出を説明するための、教師入力画像の部分拡大図結果画面を示す図本実施形態による学習処理を示すフローチャート本実施形態による領域特定処理を示すフローチャート

　以下、図面を参照して本開示の実施形態について説明する。図１は、本開示の実施形態による領域特定装置を適用した、診断支援システムの概要を示すハードウェア構成図である。図１に示すように、診断支援システムでは、本実施形態による領域特定装置１、３次元画像撮影装置２、および画像保管サーバ３が、ネットワーク４を経由して通信可能な状態で接続されている。

　３次元画像撮影装置２は、被検体の診断対象となる部位を撮影することにより、その部位を表す３次元画像を生成する装置であり、具体的には、ＣＴ装置、ＭＲＩ装置、およびＰＥＴ（Positron Emission Tomography）装置等である。３次元画像撮影装置２により生成された３次元画像は画像保管サーバ３に送信され、保存される。なお、本実施形態においては、３次元画像撮影装置２は例えばＣＴ装置であり、被検体の診断対象となる部位を含むＣＴ画像を３次元画像として生成する。なお、３次元画像は複数の断層画像からなる。

　画像保管サーバ３は、各種データを保存して管理するコンピュータであり、大容量外部記憶装置およびデータベース管理用ソフトウェアを備えている。画像保管サーバ３は、有線あるいは無線のネットワーク４を介して他の装置と通信を行い、画像データ等を送受信する。具体的には３次元画像撮影装置２で生成された３次元画像の画像データを含む各種データをネットワーク経由で取得し、大容量外部記憶装置等の記録媒体に保存して管理する。なお、画像データの格納形式およびネットワーク４経由での各装置間の通信は、ＤＩＣＯＭ（Digital Imaging and Communication in Medicine）等のプロトコルに基づいている。

　領域特定装置１は、本実施形態の学習装置を内包するものであり、１台のコンピュータに、本実施形態の領域特定プログラムおよび学習プログラムをインストールしたものである。コンピュータは、診断を行う医師が直接操作するワークステーションまたはパーソナルコンピュータでもよいし、それらとネットワークを介して接続されたサーバコンピュータでもよい。領域特定プログラムは、ＤＶＤ（Digital Versatile Disc）あるいはＣＤ－ＲＯＭ（Compact Disc Read Only Memory）等の記録媒体に記録されて配布され、その記録媒体からコンピュータにインストールされる。または、ネットワークに接続されたサーバコンピュータの記憶装置、もしくはネットワークストレージに、外部からアクセス可能な状態で記憶され、要求に応じて医師が使用するコンピュータにダウンロードされ、インストールされる。

　図２は、コンピュータに領域特定プログラムおよび学習プログラムをインストールすることにより実現される領域特定装置の概略構成を示す図である。図２に示すように、領域特定装置１は、標準的なワークステーションの構成として、ＣＰＵ（Central Processing Unit）１１、メモリ１２およびストレージ１３を備えている。また、領域特定装置１には、液晶ディスプレイ等の表示部１４、並びにキーボードおよびマウス等の入力部１５が接続されている。

　ストレージ１３はハードディスクドライブ等からなり、ネットワーク４を経由して画像保管サーバ３から取得した入力画像および処理に必要な情報を含む各種情報が記憶されている。

　また、メモリ１２には、領域特定プログラムおよび学習プログラムが記憶されている。領域特定プログラムは、ＣＰＵ１１に実行させる処理として、物体領域を特定する対象となる入力画像Ｓ０を取得する画像取得処理、入力画像Ｓ０に含まれる物体を特定する物体特定処理、および後述する物体候補領域が特定された入力画像Ｓ０を表示する表示制御処理を規定する。また、学習プログラムは、後述する第１の識別器を学習する処理を規定する。なお、入力画像は３次元の画像であってもよく、２次元の画像であってもよい。本実施形態においては、説明のために例えばＣＴ装置により取得された３次元画像の１つの断層面を表す断層画像が入力画像として用いられるものとするが、これに限定されるものではない。

　そして、ＣＰＵ１１がプログラムに従いこれらの処理を実行することで、コンピュータは、画像取得部２１、物体特定部２２、学習部２３および表示制御部２４として機能する。

　画像取得部２１は、入力画像Ｓ０を画像保管サーバ３から取得するインターフェース等からなる。なお、入力画像Ｓ０が既にストレージ１３に記憶されている場合には、画像取得部２１は、ストレージ１３から入力画像Ｓ０を取得するようにしてもよい。

　物体特定部２２は、入力画像Ｓ０に含まれる物体を特定する。本実施形態においては、物体特定部２２はＦａｓｔｅｒ－ＲＣＮＮからなる。図３は物体特定部２２の構成を示す概略ブロック図である。図３に示すように、物体特定部２２、すなわちＦａｓｔｅｒ－ＲＣＮＮは、入力画像Ｓ０から畳み込み特徴マップＭ０を生成する畳み込みニューラルネットワーク３０、畳み込み特徴マップＭ０に含まれる物体候補領域Ｐ０を特定する第１の識別器４０、および物体候補領域Ｐ０に基づいて物体候補領域Ｐ０に含まれる物体候補のカテゴリを特定する第２の識別器５０を有する。なお、畳み込みニューラルネットワーク３０が本開示の畳み込み部に対応する。

　ここで、本実施形態においては、第１の識別器４０により、入力画像Ｓ０における肺癌の候補領域を物体候補領域Ｐ０として特定し、第２の識別器５０により、肺癌の候補領域を悪性病変、良性病変および病変でない領域の症状別のカテゴリに分類するものとする。ここで、肺癌の候補領域としては、肺結節の領域が挙げられる。肺結節には、すりガラス状の肺結節および充実状の肺結節のように性状が異なる肺結節がある。したがって、肺結節は、すりガラス状の肺結節および充実状の肺結節を含む。このように、本実施形態においては、入力画像Ｓ０において特定すべき物体は、性状が異なる複数のサブクラス物体を含むものとする。

　ここで、すりガラス状の肺結節は、淡い白色を有し、境界がそれほど明確でない。一方、充実性の肺結節は、白色を有し、境界が明確である。このため、すりガラス状の肺結節と充実状の肺結節とでは、形状および信号値が異なることにより、性状が異なるものとなっている。

　畳み込みニューラルネットワーク３０は、畳み込み層(Convolutional Layer)、プーリング層(Pooling Layer)および逆畳み込み層(Deconvolutional Layer)等の複数の層を有する。畳み込みニューラルネットワーク３０は、入力画像Ｓ０が入力されると、入力画像Ｓ０の特徴がマッピングされた畳み込み特徴マップＭ０を出力する。本実施形態における畳み込みニューラルネットワーク３０は、畳み込み層およびプーリング層を有するものとする。この場合、畳み込み特徴マップＭ０は、入力画像Ｓ０のサイズよりも小さいものとなる。例えば、畳み込みニューラルネットワーク３０に含まれるプーリング層が１つおよび２つのそれぞれ場合において、畳み込み特徴マップＭ０のサイズは、入力画像Ｓ０に対してそれぞれ１／４，１／１６となる。なお、畳み込みニューラルネットワーク３０がプーリング層を有さない場合、または逆畳み込み層を有する場合、畳み込み特徴マップＭ０のサイズは入力画像Ｓ０と同一となる。ここで、畳み込みニューラルネットワークとしては、上述したShaoqingらの文献に記載された、ZeilerとFergusのモデルまたはSimonyanとZissermanのモデル等、公知のモデルを用いることができる。

　第１の識別器４０は、並進不変なRegion Proposal Network（物体領域提案ネットワーク、以下、ＲＰＮ４１とする）を有する。なお、ＲＰＮ４１が本開示の構成要素に対応する。ＲＰＮ４１は、畳み込みニューラルネットワーク３０から入力された畳み込み特徴マップＭ０に含まれる物体候補領域を特定する。図４はＲＰＮの構成を示す図である。図４に示すように、ＲＰＮ４１はスライディングウィンドウ４２により畳み込み特徴マップＭ０をコンボリューションする。スライディングウィンドウ４２は、畳み込み特徴マップＭ０上の各画素を中心とするｎ×ｎ（例えば３×３）画素の領域内の信号値を抽出する。そして、ＲＰＮ４１は、畳み込み特徴マップＭ０上においてスライディングウィンドウ４２を、予め定められた画素単位で順次移動しつつ、畳み込み特徴マップＭ０におけるｎ×ｎ画素の領域の信号値を抽出する。なお、本実施形態においては、畳み込み特徴マップＭ０におけるスライディングウィンドウ４２の中心画素位置が、物体候補検出の対象画素位置となる。

　ここで、ＲＰＮ４１においては、畳み込み特徴マップＭ０上において設定されたスライディングウィンドウ４２の中心位置、すなわち畳み込み特徴マップＭ０における対象画素位置に設定される複数のアンカー４３が予め定義されている。アンカー４３は各種サイズおよび各種アスペクト比を有する矩形の領域である。本実施形態においては、特定すべき物体に含まれるサブクラス物体の性状に応じてアンカー４３が定義されている。具体的には、すりガラス状の肺結節用のアンカー４３Ａおよび充実状の肺結節用のアンカー４３Ｂがそれぞれ複数定義されている。

　本実施形態においては、すりガラス状の肺結節用として、縦横１：１、２：１および１：２の３種類のアスペクト比、並びに面積として１２８画素、２５６画素および５１２画素の３種類のサイズを有する、合計９種類のアンカー４３Ａが定義されているものとする。また、充実状の肺結節用として、縦横１：１、２：１および１：２の３種類のアスペクト比、並びに面積として１２８画素、２５６画素および５１２画素の３種類のサイズを有する、合計９種類のアンカー４３Ｂが定義されているものとする。なお、アンカー４３Ａ，４３Ｂのアスペクト比および面積はこれらの値に限定されるものではない。また、アンカー４３Ａ，４３Ｂのそれぞれに対して、９種類よりも少ないまたは９種類よりも多いアンカー４３を定義しておいてもよい。また、アンカー４３Ａ，４３Ｂのそれぞれに含まれるアンカーの数は同一でなくてもよい。なお、アンカーの画素数は、入力画像Ｓ０に対する画素数であり、畳み込み特徴マップＭ０のサイズのサイズに応じて、アンカーのサイズも変更される。なお、本実施形態においては、畳み込み特徴マップＭ０の入力画像Ｓ０に対するサイズおよびアンカー４３Ａ，４３Ｂのサイズは説明のための例であり、実際には上述したもの以外の種々の値を取り得る。

　また、ＲＰＮ４１は、中間層４４、分類層４５および回帰層４６を備える。中間層４４は、スライディングウィンドウ４２内のｎ×ｎ画素の信号値を畳み込んで信号値の代表値を導出する。信号値の代表値は、例えば平均値、最大値および中間値等とすることができるが、これに限定されるものではない。

　分類層４５は、中間層４４が導出したスライディングウィンドウ４２の代表値に基づいて、畳み込み特徴マップＭ０の対象画素位置についての物体候補の有無の判定、および対象画素位置に対応する入力画像Ｓ０上の対応画素位置における物体候補の有無の判定を行う。図５は分類層４５が行う処理を模式的に示す図である。畳み込み特徴マップＭ０においては、物体候補と物体候補が存在しない背景とにおいて信号値に差異が生じる。このため、分類層４５は、対象画素位置において導出された上記代表値を予め定められたしきい値と比較し、対象画素位置が物体候補領域にあるか背景領域にあるかを判定する。ここで、図５においては、畳み込み特徴マップＭ０において斜線を付与した画素位置に物体候補が存在するものとする。

　対象画素位置が物体候補領域にあると判定された場合、分類層４５は畳み込み特徴マップＭ０における対象画素位置に対してアンカー４３を設定する。このために、分類層４５は、物体候補領域にあると判定された畳み込み特徴マップＭ０における対象画素位置に対応する、入力画像Ｓ０の対応画素位置および対応画素位置の画素値を参照する。例えば、図５に示す対象画素位置Ｇｔについて、入力画像Ｓ０における対象画素位置Ｇｔに対応する複数の対応画素位置および対応画素位置の画素値を参照する。なお、複数の対応画素位置の画素値の代表値を参照してもよい。ここで、本実施形態において、畳み込み特徴マップＭ０が入力画像Ｓ０の１／１６のサイズであるとすると、入力画像Ｓ０における対象画素位置Ｇｔに対応する対応画素位置は４×４＝１６画素からなる。なお、複数の対応画素位置からなる入力画像Ｓ０の領域を対応画素領域Ｒｔと称する。

　分類層４５は、入力画像Ｓ０の対応画素領域Ｒｔにおける各対応画素位置について、物体候補の有無の判定を行う。対応画素領域Ｒｔにおいては、物体候補と物体候補が存在しない背景とにおいて信号値に差異が生じる。このため、分類層４５は、対応画素領域Ｒｔ内の各対応画素位置の信号値を予め定められたしきい値と比較し、対応画素領域Ｒｔ内の各対応画素位置が物体候補領域にあるか背景領域にあるかを判定する。ここで、図５においては、対応画素領域Ｒｔにおいて斜線を付与した対応画素位置に物体候補が存在するものとする。なお、対応画素領域Ｒｔにおいて物体候補を含む画素からなる領域が正解ボックス７１となる。

　続いて、分類層４５はアンカーを選択する。具体的には、複数のアンカー４３から、物体候補を含む正解ボックス内の信号値、並びに正解ボックスとの形状および大きさの類似度に基づいてアンカーを選択する。なお、正解ボックス内の信号値に代えて、畳み込み特徴マップＭ０における対象画素位置の信号値または信号値の代表値を用いてもよい。ここで、図５に示すように対応画素領域Ｒｔ内において物体候補が存在する画素位置、すなわち正解ボックス７１が、斜線が付与された横に並ぶ２つの画素からなるものとする。また、正解ボックス７１の信号値が、すりガラス状の肺結節の性状を表すものであるとする。この場合、分類層４５は、２種類のアンカー４３Ａ，４３Ｂから、すりガラス状の肺結節用のアンカー４３Ａを選択する。また、分類層４５は、正解ボックス７１とサイズおよびアスペクト比が最も類似するアンカーを、すりガラス状の肺結節用の複数のアンカー４３Ａ（４３Ａ－１，４３Ａ－２．．．）から選択する。例えば、図５に示すように、ＲＰＮ４１が、すりガラス状の肺結節用として、それぞれアスペクト比が縦横１：１、２：１および１：２である３種類のアンカー４３Ａ－１，４３Ａ－２，４３Ａ－３が定義され、充実状の肺結節用として、それぞれアスペクト比が縦横１：１、２：１および１：２である３種類のアンカー４３Ｂ－１，４３Ｂ－２，４３Ｂ－３が定義されているものとする。この場合、すりガラス状の肺結節用のアンカー４３Ａが選択され、さらに正解ボックス７１とサイズおよびアスペクト比が最も類似するアスペクト比が１：２のアンカー４３Ａ－３が選択される。なお、図５においては、説明を容易なものとするために、アンカー４３Ａ－１，４３Ａ－２，４３Ａ－３およびアンカー４３Ｂ－１，４３Ｂ－２，４３Ｂ－３のサイズは、それぞれ縦横１×１画素、２×０．５画素、０．５×２画素となっている。

　この際、分類層４５は、畳み込み特徴マップＭ０において、対応画素位置が１、それ以外の画素位置が０の値を有する物体候補のチャンネル、および対応画素位置が０、それ以外の画素位置が１の値を有する背景のチャンネルを、物体候補の領域の特定結果として生成する。

　一方、図６に示すように対応画素領域Ｒｔ内において物体候補が存在する画素位置、すなわち正解ボックス７２の信号値が、充実状の性状を表し、かつ縦に並ぶ２つの画素からなるものとする。この場合において、ＲＰＮ４１が図５に示すものと同様のアンカー４３Ａ，４３Ｂが定義されている場合、充実状の肺結節用のアンカー４３Ｂが選択され、さらに、アンカー４３Ｂ－１，４３Ｂ－２，４３Ｂ－３から、アスペクト比が２：１のアンカー４３Ｂ－２が選択される。なお、図６においても、説明を容易なものとするために、アンカー４３Ａ，４３Ｂに含まれる各アンカーのサイズは、それぞれ縦横１×１画素、２×０．５画素、０．５×２画素となっている。

　また、図７に示すように対応画素領域Ｒｔ内において物体候補が存在する画素位置、すなわち正解ボックス７３の信号値が、すりガラス状の性状を表し、かつ１つの画素からなるものとする。この場合において、図７に示すように、すりガラス状の肺結節用として、それぞれアスペクト比が１：１であり、サイズが異なる３種類のアンカー４３Ａ－４，４３Ａ－１，４３Ａ－５が定義され、充実状の肺結節用として、それぞれアスペクト比が１：１であり、サイズが異なる３種類のアンカー４３Ｂ－４，４３Ｂ－１，４３Ｂ－５が定義されているものとする。この場合、すりガラス状の肺結節用のアンカー４３Ａが選択され、さらに、アンカー４３Ａ－４，４３Ａ－１，４３Ａ－５から中間のサイズのアンカー４３Ａ－１が選択される。なお、図７においては、説明を容易なものとするために、アンカー４３Ａ，４３Ｂに含まれる各アンカーのサイズは、それぞれ０．５×０．５画素、１×１画素、１．５×１．５画素となっている。

　回帰層４６は、選択されたアンカーの移動および変形の少なくとも一方を予測して、入力画像Ｓ０において、物体候補を囲む物体候補領域を特定する。すなわち、畳み込み特徴マップＭ０における対象画素位置に物体候補が含まれる場合に、分類層４５が選択したアンカー４３と物体候補が存在する領域である正解ボックスとの差分を算出し、入力画像Ｓ０における物体候補領域を特定する。ここで、差分とは、選択されたアンカー４３を正解ボックスに一致させるための、選択されたアンカー４３の移動量および変形量である。移動量は入力画像Ｓ０の座標上における移動量であり、入力画像Ｓ０が２次元の場合はＸＹ方向のそれぞれの移動量、３次元の場合はＸＹＺ方向のそれぞれの移動量である。変形量は、入力画像Ｓ０が２次元の場合はＸＹ方向のそれぞれの拡大率であり、３次元の場合はＸＹＺ方向のそれぞれの拡大率である。変形はアンカーを拡大または縮小することと同義であるため、変形量は拡大率と同義である。

　図８はアンカーの正解ボックスとの差分を説明するための図である。図８に示すように入力画像Ｓ０が正解ボックス７４を含み、アンカー４３が図８に示す位置に設定されたものとする。回帰層４６は、アンカー４３を正解ボックス７４に一致させるためのｘ方向の移動量Δｘ、ｙ方向の移動量Δｙ、ｘ方向の拡大率Δｗおよびｙ方向の拡大率Δｈを導出する。アンカー４３を導出された移動量および拡大率により変形させると、正解ボックス７４に一致する領域が特定される。

　回帰層４６は導出された差分に基づいて、入力画像Ｓ０における物体候補領域Ｐ０を特定する。すなわち、回帰層４６は、入力画像Ｓ０に含まれる物体候補すなわち正解ボックスと一致する領域を物体候補領域Ｐ０として特定する。

　ここで、第１の識別器４０は、並進不変であるとしたが、並進不変であるとは、入力される画像（ここでは畳み込み特徴マップＭ０）上の位置に拘わらず、物体候補領域を特定するための判断基準が変わらないことを意味する。例えば、アンカーの選択の仕方、移動および変形の仕方が、入力される画像に含まれる物体の大きさおよび位置に拘わらず同一であることを意味する。

　なお、本実施形態において、第１の識別器４０、すなわちＲＰＮ４１の学習は、学習部２３が、以下のようにして行う。すなわち、物体の性状、サイズおよびアスペクト比が既知の各種教師入力画像についての教師畳み込み特徴マップを生成し、教師畳み込み特徴マップから識別すべき物体に外接する教師矩形領域を切り出す。そして、矩形領域の中心座標を含む画素位置に対応する入力画像の教師矩形領域（入力教師矩形領域とする）に含まれる物体の性状、サイズおよびアスペクト比が最も類似するアンカーを複数のアンカー４３から選択する。

　図９は第１の識別器の学習を説明するための図である。図９に示すように、教師入力画像Ｓ１にすりガラス状の肺結節の病変６０が含まれているものとする。教師入力画像Ｓ１から生成された教師畳み込み特徴マップＭ１においては、教師入力画像Ｓ１に含まれる病変６０に対応する画素位置（２，２）の信号値が、すりガラスの肺結節の性状を表すものとなっているとする。なお、画素位置は教師畳み込み特徴マップＭ１の左上隅を原点とする。また、ＲＰＮ４１には、すりガラス状の肺結節用のアンカー４３Ａ－１，４３Ａ－５、および充実状の肺結節用のアンカー４３Ｂ－１，４３Ｂ－５が定義されているものとする。

　第１の識別器４０における分類層４５は、入力画像Ｓ０に含まれる物体候補領域を特定する際に、畳み込み特徴マップＭ０における対象画素位置が物体候補領域にあるか背景領域にあるかを判定する。この際、分類層４５は、畳み込み特徴マップＭ０から物体候補領域のチャンネルおよび背景領域のチャンネルを生成する。ここで、物体候補領域のチャンネルにおいては、物体候補領域の画素位置の値が１となり、それ以外の領域の画素位置の値が０となる。また、背景領域のチャンネルにおいては、背景領域の画素位置の値が１となり、それ以外の領域の画素位置の値が０となる。

　学習部２３は、教師畳み込み特徴マップＭ１に対して、すりガラス状の肺結節用のアンカー４３Ａ－１および４３Ａ－５のうち、教師入力画像Ｓ１に含まれる病変とサイズおよび形状が類似するアンカー４３Ａ－１を適用したときに、教師畳み込み特徴マップＭ１における病変６０に対応する画素位置を物体候補領域に特定し、それ以外の画素位置を背景に特定するように、分類層４５を学習する。すなわち、図９に示す教師畳み込み特徴マップＭ１の画素位置（２，２）の信号値は、すりガラス状の肺結節の性状を表すため、学習部２３は、まず、画素位置（２，２）に対してはすりガラス状の肺結節用のアンカー４３Ａを適用するように、分類層４５を学習する。また、対象画素位置に対応する教師入力画像Ｓ１のすりガラス状の肺結節のサイズおよび形状は、アンカー４３Ａ－１と類似する。このため、学習部２３は、図９に示すような教師入力画像Ｓ１に対しては、すりガラス状の肺結節用のアンカー４３Ａ－１を選択し、物体候補領域のチャンネルｆｇにおいて、画素位置（２，２）の値が１かつそれ以外の画素位置の値が０となり、背景領域のチャンネルｂｇにおいて、画素位置（２，２）の値が０かつそれ以外の画素位置の値が１となるように、分類層４５を学習する。この場合、アンカー４３Ａ－５、アンカー４３Ｂ－１およびアンカー４３Ｂ－５を適用した場合は、物体候補領域のチャンネルｆｇのすべての画素位置の値が０となり、背景領域のチャンネルｂｇのすべての画素位置の値が１となるように、分類層４５を学習する。

　これにより、すりガラス状の肺結節に対しては、アンカー４３Ａが適用され、充実状の肺結節に対しては、アンカー４３Ｂが適用されるように、分類層４５が学習される。

　次いで、学習部２３は、教師入力画像Ｓ１において、設定したアンカー４３Ａ－１と病変６０を囲む正解ボックスとの差分を算出する。図１０は差分の算出を説明するための、教師入力画像Ｓ１の部分拡大図である。ここで、差分とは、上述したように選択されたアンカーを正解ボックス７６と一致させるためのアンカー４３Ａ－１の変形量および移動量である。例えば、入力画像が２次元である場合、アンカー４３Ａ－１の中心と正解ボックス７６の中心とを一致させるための、ｘ方向の移動量Δｘ、ｙ方向の移動量Δｙ、ｘ方向の拡大率Δｗおよびｙ方向の拡大率Δｈである。

　学習部２３は、アンカー４３Ａ－１と正解ボックス７６との差分が算出された差分となるように、回帰層４６を学習する。この際、確率的勾配降下法または誤差逆伝播法を用いて、回帰層４６を学習させればよい。

　第２の識別器５０は、畳み込み特徴マップＭ０および第１の識別器４０が特定した物体候補領域Ｐ０に基づいて、物体候補のカテゴリを特定する。なお、第２の識別器５０は、上述したShaoqingらの文献および米国特許第９８５８４９６号明細書に記載されたものと同一である。例えば、第２の識別器５０は、プーリング層および１以上の全結合層を有するニューラルネットワークからなり、以下のようにして物体候補のカテゴリを特定する。まず、第２の識別器５０は、第１の識別器４０が特定した物体候補領域Ｐ０を畳み込み特徴マップＭ０から切り出し、必要であれば切り出した物体候補領域Ｐ０を、予め定められた大きさにリサイズする。そして、第２の識別器５０は、切り出した物体候補領域Ｐ０の症状のカテゴリを特定する。

　具体的には、第２の識別器５０は、切り出した物体候補領域Ｐ０について、特定の症状であることの確率を表すスコアを出力し、物体候補領域Ｐ０の症状のカテゴリを、スコアが大きい方の症状に特定する。例えば、本実施形態においては、第１の識別器４０により、肺結節の候補領域が特定されているため、肺結節の候補領域について、悪性病変および良性病変であることの確率を表すスコアを出力し、肺結節の領域の特徴を、スコアが大きい方の症状に特定する。一方、悪性病変のスコアおよび良性病変のスコアが、ともにしきい値以上とならない場合、第２の識別器５０は、物体候補領域Ｐ０のカテゴリを病変でない領域に特定する。

　なお、第２の識別器５０の学習は、症状のカテゴリが悪性病変および良性病変のいずれかであることが既知の肺結節を含む画像を教師画像とし、教師画像が入力された場合に、入力された教師画像に含まれる肺結節の症状のカテゴリのスコアが１００％となるように行われる。この際、第１の識別器４０と同様に、確率的勾配降下法または誤差逆伝播法を用いて、学習を行えばよい。

　また、第２の識別器５０は、物体に外接する矩形の位置およびサイズを特定するものであってもよい。この場合、切り出した物体候補領域Ｐ０が、より正確に物体に外接するように、畳み込み特徴マップＭ０における物体候補領域Ｐ０の位置およびサイズを修正する処理を行うものとなる。

　また、第２の識別器５０は、物体候補領域Ｐ０に含まれる物体の輪郭を識別するものであってもよい。この場合、第２の識別器５０は、第１の識別器４０が特定した物体候補領域Ｐ０に含まれる物体の輪郭を識別するように、学習が行われる。

　表示制御部２４は、第１の識別器４０が特定した物体候補領域、および第１の識別器４０が選択したアンカーについての性状を表示部１４に表示する。また、第１の識別器４０が選択したアンカーのサイズおよび形状を表示部１４に表示する。また、第２の識別器５０によるカテゴリの特定結果を表示部１４に表示する。図１１は、表示部１４における結果画面を示す図である。図１１に示すように、結果画面６１には入力画像Ｓ０が表示される。また、結果画面６１は、その右下隅に、使用したアンカーの性状、種類およびサイズを表示するアンカー表示領域６２を含む。図１１においては、すりガラス状の肺結節用であり、アスペクト比が１：１で面積が１２８画素のアンカーが選択されたことを示す情報がアンカー表示領域６２に表示されている。また、結果画面６１においては、入力画像Ｓ０において特定された物体候補を囲む矩形６３が表示されている。また、結果画面６１は、その左下隅に、矩形６３の症状のカテゴリを表示するカテゴリ表示領域６４を含む。図１１においては、カテゴリ表示領域６４には、特定された物体の症状のカテゴリとして、「良性」が表示されている。

　次いで、本実施形態において行われる処理について説明する。図１２は本実施形態による学習処理を示すフローチャートである。まず、学習部２３は教師入力画像Ｓ１を取得する（ステップＳＴ１）。そして、学習部２３は、教師入力画像Ｓ１に対して、教師入力画像Ｓ１に含まれる物体の性状に応じたアンカーを選択する（ステップＳＴ２）。さらに、学習部２３は、アンカーと教師入力画像Ｓ１に含まれる病変、すなわち正解ボックスとの差分を導出する（ステップＳＴ３）。そして、学習部２３は、教師入力画像Ｓ１が入力されると、選択したアンカーを適用し、適用したアンカーの移動および変形の少なくとも一方を予測して、教師入力画像Ｓ１に含まれる正解ボックスを物体候補として囲むように第１の識別器４０のＲＰＮ４１を学習する（ステップＳＴ４）。そして、学習の処理を予め定められた回数繰り返すと（ステップＳＴ５，ＹＥＳ）、学習の処理を終了する。

　なお、学習は、予め定められた回数に限定されるものではない。学習された第１の識別器を用いて物体候補領域を特定させ、正解率が予め定められたしきい値（例えば９９％）を超えるまで学習を行うようにしてもよい。

　図１３は本実施形態による領域特定処理を示すフローチャートである。まず、画像取得部２１が、入力画像Ｓ０を取得する（ステップＳＴ１１）。次いで、物体特定部２２の畳み込みニューラルネットワーク３０が、入力画像Ｓ０から畳み込み特徴マップＭ０を生成する（ステップＳＴ１２）。そして、第１の識別器４０がアンカー４３を選択し（ステップＳＴ１３）、選択したアンカー４３に基づいて、入力画像Ｓ０における物体候補領域Ｐ０を特定する（ステップＳＴ１４）。そして、第２の識別器５０が、物体候補領域Ｐ０における症例のカテゴリを特定する（ステップＳＴ１５）。さらに、表示制御部２４が、選択されたアンカーおよび特定された物体のカテゴリを含む結果画面６１を表示部１４に表示し（ステップＳＴ１６）、処理を終了する。

　ここで、上述したShaoqingらの文献および米国特許第９８５８４９６号明細書に記載された手法においては、入力画像Ｓ０に含まれる物体が、性状が異なる複数のサブクラスの物体を含む場合であっても、ＲＰＮにおけるアンカーがすべての性状のサブクラスの物体を検出できるように学習を行う必要がある。このため、ＲＰＮの構成が複雑となることから、学習の負担が大きいものとなる。また、物体の検出時においても処理の負担が大きい。したがって、上述したShaoqingらの文献および米国特許第９８５８４９６号明細書に記載された手法では、学習を効率よく行ったり、効率よく物体を検出したりすることができない。

　本実施形態によれば、入力画像Ｓ０に含まれる、性状が異なる複数のサブクラス物体を含む物体候補領域、例えば、すりガラス状の肺結節および充実状の肺結節を含む肺結節の候補領域を特定するに際して、サブクラス物体の性状に応じたアンカーを選択するようにした。このため、性状に応じたアンカーを用いてサブクラス物体を物体候補領域として特定するように学習が行われることから、第１の識別器４０の構成を簡易なものとすることができる。したがって、本実施形態によれば、第１の識別器４の学習を効率よく行うことができる。また、入力画像Ｓ０において物体候補領域Ｐ０を効率よく特定することができる。

　また、上述したShaoqingらの文献および米国特許第９８５８４９６号明細書に記載された手法においては、アンカーと正解ボックスとの重なりの大きさに基づいて、アンカーが選択される。例えば、図７に示すような正解ボックス７３の場合、アンカーを対応画素領域Ｒｔの中央に位置させた場合のアンカーと正解ボックスとの重なりの大きさに基づくと、図７に示す最も大きい正方形のアンカー４３Ａ－５が選択される。これに対して、本実施形態は、正解ボックスとの形状および大きさの類似度に基づいてアンカーが選択される。このため、上述したように、本実施形態においては、アンカー４３Ａ－１が選択される。

　このように、本実施形態においては、アンカーに基づいて物体候補領域Ｐ０を特定しているため、図７に示すような正解ボックス７３の場合、アンカー４３Ａ－５よりもアンカー４３Ａ－１の方が、正解ボックス７３に一致させるためのアンカーの移動および変形の少なくとも一方の処理のための演算量を低減することができる。したがって、本実施形態によれば、入力画像Ｓ０に含まれる物体を高速かつ効率よく特定することができる。

　なお、上記実施形態においては、性状に加えて、正解ボックスとの形状および大きさの類似度に基づいてアンカーを選択しているが、これに限定されるものではない。例えば、米国特許第９８５８４９６号明細書に記載されたように、性状に加えて、アンカーと正解ボックスとの重なりの大きさに基づいて、アンカーを選択するようにしてもよい。例えば、図７に示すようなガラス状の性状を表す信号を有する正解ボックス７３の場合、アンカーを対応画素領域Ｒｔの中央に位置させた場合のアンカーと正解ボックスとの重なりの大きさに基づくと、図７に示す最も大きい正方形のアンカー４３Ａ－５が選択されることとなる。この場合、選択されたアンカーを用いての物体候補領域の特定は、上記実施形態と同様に行われる。また、学習部２３による第１の識別器４０の学習は、正解ボックスとの重なりが最も大きいアンカーを選択するように行われる。

　また、上記実施形態においては、すりガラス状の肺結節用のアンカーおよび充実状の肺結節用のアンカーのそれぞれに複数のアンカーを定義しているが，これに限定されるものではない。サブクラス物体のそれぞれに１つのアンカーのみ、すなわちすりガラス状の肺結節用および充実状の肺結節用のそれぞれに１つのアンカーのみを定義するようにしてもよい。

　また、上記実施形態においては、第１の識別器４０および第２の識別器５０をニューラルネットワークからなるものとしているが、これに限定されるものではない。例えばサポートベクタマシン（ＳＶＭ(Support Vector Machine)）、および決定木であってもよい。

　また、上記実施形態においては、物体特定部２２を畳み込みニューラルネットワーク３０を備えるものとし、畳み込みニューラルネットワーク３０において畳み込み特徴マップＭ０を生成し、生成された畳み込み特徴マップＭ０において、物体候補領域Ｐ０を特定しているが、これに限定されるものではない。物体特定部２２を畳み込みニューラルネットワーク３０を備えないものとし、第１の識別器４０において、入力画像Ｓ０において物体候補領域Ｐ０を特定するものであってもよい。この場合、第２の識別器５０は、畳み込み特徴マップＭ０に基づいて物体のカテゴリを特定するものとしてもよいが、入力画像Ｓ０から物体候補領域Ｐ０を切り出して、物体のカテゴリを特定するものとしてもよい。

　また、上記実施形態においては、畳み込みニューラルネットワーク３０を畳み込み層およびプーリング層を有するものとしているが、これに限定されるものではない。畳み込みニューラルネットワーク３０を、プーリング層を有さないもの、または逆畳み込み層をさらに有するものとしてもよい。畳み込みニューラルネットワーク３０がプーリング層を有さない場合、または逆畳み込み層を有する場合、畳み込み特徴マップＭ０のサイズは入力画像Ｓ０と同一となる。

　また、上記実施形態においては、第２の識別器５０に畳み込み特徴マップＭ０を入力し、畳み込み特徴マップＭ０に基づいて物体のカテゴリを特定しているが、これに限定されるものではない。第２の識別器５０に入力画像Ｓ０を入力し、入力画像Ｓ０に基づいて物体のカテゴリを特定するようにしてもよい。

　また、上記実施形態においては、性状が異なる複数のサブクラス物体を含む物体として、すりガラス状の肺結節および充実状の肺結節をサブクラス物体として含む肺結節を用いているが、これに限定されるものではない。例えば、画像に含まれる人物を特定するＦａｓｔｅｒ－ＲＣＮＮを構築する場合において、人物を特定すべき物体とした場合には、白色人種、黒色人種および黄色人種が、性状が異なる、すなわち肌の色（画像における信号値）が異なるサブクラス物体として含まれる。このような場合においても、人種に応じたアンカーを用意してＲＰＮ４１の学習を行い、人種に応じたアンカーを選択して人物候補領域を特定するようにＦａｓｔｅｒ－ＲＣＮＮを構築することが可能である。

　また、自動運転技術における運転中に車両の前に出現する危険物を特定するＦａｓｔｅｒ－ＲＣＮＮを構築する場合において、危険物には、人、車および自転車等が、性状が異なる、すなわち形状および含まれる構造が異なるサブクラス物体として含まれる。このような場合においても、危険物の種類に応じたアンカーを用意してＲＰＮ４１の学習を行い、危険物の種類に応じたに応じたアンカーを選択して危険物候補領域を特定するようにＦａｓｔｅｒ－ＲＣＮＮを構築することが可能である。

　また、上記実施形態において、例えば、画像取得部２１、物体特定部２２、学習部２３および表示制御部２４といった各種の処理を実行する処理部（Processing Unit）のハードウェア的な構造としては、次に示す各種のプロセッサ（Processor）を用いることができる。上記各種のプロセッサには、上述したように、ソフトウェア（プログラム）を実行して各種の処理部として機能する汎用的なプロセッサであるＣＰＵに加えて、ＦＰＧＡ（Field　Programmable Gate Array）等の製造後に回路構成を変更可能なプロセッサであるプログラマブルロジックデバイス（Programmable Logic Device :PLD）、ＡＳＩＣ（Application Specific Integrated Circuit）等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が含まれる。

　１つの処理部は、これらの各種のプロセッサのうちの１つで構成されてもよいし、同種または異種の２つ以上のプロセッサの組み合わせ（例えば、複数のＦＰＧＡの組み合わせまたはＣＰＵとＦＰＧＡとの組み合わせ）で構成されてもよい。また、複数の処理部を１つのプロセッサで構成してもよい。

　複数の処理部を１つのプロセッサで構成する例としては、第１に、クライアントおよびサーバ等のコンピュータに代表されるように、１つ以上のＣＰＵとソフトウェアとの組み合わせで１つのプロセッサを構成し、このプロセッサが複数の処理部として機能する形態がある。第２に、システムオンチップ（System On Chip:SoC）等に代表されるように、複数の処理部を含むシステム全体の機能を１つのＩＣ（Integrated Circuit）チップで実現するプロセッサを使用する形態がある。このように、各種の処理部は、ハードウェア的な構造として、上記各種のプロセッサの１つ以上を用いて構成される。

　さらに、これらの各種のプロセッサのハードウェア的な構造としては、より具体的には、半導体素子等の回路素子を組み合わせた電気回路（Circuitry）を用いることができる。

　　　１　　領域特定装置
　　　２　　３次元画像撮影装置
　　　３　　画像保管サーバ
　　　４　　ネットワーク
　　　１１　　ＣＰＵ
　　　１２　　メモリ
　　　１３　　ストレージ
　　　１４　　表示部
　　　１５　　入力部
　　　２１　　画像取得部
　　　２２　　物体特定部
　　　２３　　表示制御部
　　　３０　　畳み込みニューラルネットワーク
　　　４０　　第１の識別器
　　　４１　　ＲＰＮ
　　　４２　　スライディングウィンドウ
　　　４２Ａ　　中心画素
　　　４３　　アンカー
　　　４３Ａ，４３Ａ－１，４３Ａ－２，４３Ａ－３，４３Ａ－４，４３Ａ－５　すりガラス状の肺結節用のアンカー
　　　４３Ｂ，４３Ｂ－１，４３Ｂ－２，４３Ｂ－３，４３Ｂ－４，４３Ｂ－５　充実状の肺結節用のアンカー
　　　４４　　中間層
　　　４５　　分類層
　　　４６　　回帰層
　　　５０　　第２の識別器
　　　６０　　病変
　　　６１　　結果画面
　　　６２　　アンカー表示領域
　　　６３　　矩形
　　　６４　　カテゴリ表示領域
　　　７１，７２，７３，７４，７５．７６　　正解ボックス
　　　Ｇｔ　　対象画素位置
　　　Ｒｔ　　対応画素領域
　　　Ｍ０　　畳み込み特徴マップ
　　　Ｍ１　　教師畳み込み特徴マップ
　　　Ｓ０　　入力画像
　　　Ｓ１　　教師入力画像
　　　Ｐ０　　物体候補領域

Claims

　入力画像に含まれる、性状が異なる複数のサブクラス物体を含む物体の領域を特定する領域特定装置であって、
　前記入力画像に含まれる物体候補を特定する第１の識別器を備え、
　前記第１の識別器は、前記サブクラス物体の性状に応じた複数のアンカーの移動および変形の少なくとも一方を予測して、前記物体候補を囲む物体候補領域を特定するように構成された構成要素を有する領域特定装置。
　前記第１の識別器は、前記サブクラス物体の性状に応じて、各種形状および各種大きさを有する複数のアンカーから、前記物体候補を含む正解ボックスとの形状および大きさの類似度に基づいてアンカーを選択し、選択されたアンカーの移動および変形の少なくとも一方を予測して、前記物体候補を囲む物体候補領域を特定する請求項１に記載の領域特定装置。
　前記第１の識別器は、前記物体候補を含む正解ボックスとの形状および大きさの類似度に基づいてアンカーを選択する請求項２に記載の領域特定装置。
　前記特定された物体候補領域のサブクラスを表示部に表示する表示制御部をさらに備えた請求項１から３のいずれか１項に記載の領域特定装置。
　前記表示制御部は、前記物体候補領域が特定された前記入力画像を前記表示部に表示する請求項４に記載の領域特定装置。
　前記入力画像から畳み込み特徴マップを生成する畳み込み部をさらに備え、
　前記第１の識別器は、前記畳み込み特徴マップに基づいて前記物体候補領域を特定する請求項１から５のいずれか１項に記載の領域特定装置。
　前記物体候補領域に含まれる前記物体候補のカテゴリを特定する第２の識別器をさらに備えた請求項１から６のいずれか１項に記載の領域特定装置。
　前記畳み込み特徴マップおよび前記物体候補領域に基づいて、前記物体候補のカテゴリを特定する第２の識別器をさらに備えた請求項６に記載の領域特定装置。
　前記第２の識別器は、前記物体候補領域を修正する請求項７または８に記載の領域特定装置。
　前記第２の識別器は、前記物体候補領域内における前記物体候補の輪郭を識別する請求項７から９のいずれか１項に記載の領域特定装置。
　入力画像に含まれる、性状が異なる複数のサブクラス物体を含む物体の候補である物体候補を特定する識別器を学習する学習装置であって、
　性状が既知のサブクラス物体を含む教師画像に前記性状に応じたアンカーを適用し、該適用したアンカーの移動および変形の少なくとも一方を予測して、前記サブクラス物体を前記物体候補として囲む物体候補領域を特定する処理を、複数の前記教師画像を用いて行うことにより、前記サブクラス物体の性状に応じた複数のアンカーの移動および変形の少なくとも一方を予測して、前記入力画像における前記物体候補を囲む物体候補領域を特定するように、前記識別器を学習する学習部を備えた学習装置。
　入力画像に含まれる、性状が異なる複数のサブクラス物体を含む物体の候補である物体候補を特定する識別器であって、
　性状が既知のサブクラス物体を含む教師画像に前記性状に応じたアンカーを適用し、該適用したアンカーの移動および変形の少なくとも一方を予測して、前記サブクラス物体を前記物体候補として囲む物体候補領域を特定する処理を、複数の前記教師画像を用いて行うことにより、前記サブクラス物体の性状に応じた複数のアンカーの移動および変形の少なくとも一方を予測して、前記入力画像における前記物体候補を囲む物体候補領域を特定するように学習されてなる識別器。
　入力画像に含まれる、性状が異なる複数のサブクラス物体を含む物体の領域を特定する領域特定方法であって、
　前記サブクラス物体の性状に応じた複数のアンカーの移動および変形の少なくとも一方を予測して、物体候補を囲む物体候補領域を特定するように構成された構成要素を有する第１の識別器が、前記入力画像に含まれる前記物体候補を特定する領域特定方法。
　入力画像に含まれる、性状が異なる複数のサブクラス物体を含む物体の候補である物体候補を特定する識別器を学習する学習方法であって、
　性状が既知のサブクラス物体を含む教師画像に前記性状に応じたアンカーを適用し、該適用したアンカーの移動および変形の少なくとも一方を予測して、前記サブクラス物体を前記物体候補として囲む物体候補領域を特定する処理を、複数の前記教師画像を用いて行うことにより、前記サブクラス物体の性状に応じた複数のアンカーの移動および変形の少なくとも一方を予測して、前記入力画像における前記物体候補を囲む物体候補領域を特定するように、前記識別器を学習する学習方法。
　入力画像に含まれる、性状が異なる複数のサブクラス物体を含む物体の領域を特定する領域特定方法をコンピュータに実行させる領域特定プログラムであって、
　前記サブクラス物体の性状に応じた複数のアンカーの移動および変形の少なくとも一方を予測して、物体候補を囲む物体候補領域を特定するように構成された構成要素を有する第１の識別器が、前記入力画像に含まれる前記物体候補を特定する手順をコンピュータに実行させる領域特定プログラム。
　入力画像に含まれる、性状が異なる複数のサブクラス物体を含む物体の候補である物体候補を特定する識別器を学習する学習方法をコンピュータに実行させる学習プログラムであって、
　性状が既知のサブクラス物体を含む教師画像に前記性状に応じたアンカーを適用し、該適用したアンカーの移動および変形の少なくとも一方を予測して、前記サブクラス物体を前記物体候補として囲む物体候補領域を特定する処理を、複数の前記教師画像を用いて行うことにより、前記サブクラス物体の性状に応じた複数のアンカーの移動および変形の少なくとも一方を予測して、前記入力画像における前記物体候補を囲む物体候補領域を特定するように、前記識別器を学習する手順をコンピュータに実行させる学習プログラム。