WO2021085057A1

WO2021085057A1 - 物体検出装置、物体検出方法およびプログラム

Info

Publication number: WO2021085057A1
Application number: PCT/JP2020/037903
Authority: WO
Inventors: 研一郎金子
Original assignee: 富士フイルム株式会社
Priority date: 2019-10-30
Filing date: 2020-10-06
Publication date: 2021-05-06
Also published as: US20220351494A1; JPWO2021085057A1; JP7252366B2

Abstract

物体検出装置は、入力画像に含まれる特定物を検出する物体検出装置であって、被検体を第１体位で撮影して得られた第１入力画像から物体候補が含まれる第１候補領域を特定する第１候補領域特定部と、被検体を第１体位とは異なる第２体位で撮影して得られた第２入力画像から物体候補が含まれる第２候補領域を特定する第２候補領域特定部と、第１入力画像と第２入力画像との間の変形変位場を生成する変形変位場生成部と、変形変位場に基づき、第２候補領域の座標を第１体位の座標に変換する座標変換部と、第１候補領域と、第１候補領域に近接した変換後の第２候補領域とを関連付ける関連付け部と、関連付けられた各候補領域に含まれる物体候補が同一の物体であって、かつ特定物であることを判定する同一物体判定部とを備える。

Description

物体検出装置、物体検出方法およびプログラム

　本開示は、物体検出装置、物体検出方法およびプログラムに関する。

　近年、ＣＴ（Computed Tomography）装置およびＭＲＩ（Magnetic Resonance Imaging）装置等の医療機器の進歩により、高解像度の３次元画像を用いた画像診断が実現されている。このような画像に含まれる臓器および病変等を含む領域を自動で抽出することも行われている（例えば、特開２０１７－１２７６２３号公報および特開２０１７－８０１５７号公報参照）。

　また、このような画像から領域を抽出する手法として、ディープラーニング等の機械学習により学習がなされた識別器を用いる手法が提案されている。特に、ディープラーニングで用いられる畳み込みニューラルネットワーク（ＣＮＮ：Convolution Neural Network）としてＦａｓｔｅｒ－ＲＣＮＮ（Regions with CNN features）が知られている（例えば、米国特許第９８５８４９６号明細書参照）。

　ＣＴ検査の１つとして、内視鏡を使わない新しい大腸検査として大腸ＣＴ検査が知られている。この大腸ＣＴ検査では、病変として、例えば、大腸内腔において凸部として観察され得る大腸癌のポリープの検出が行われる。このような大腸ＣＴ検査では、被検体としての患者は、仰向け（仰臥位）およびうつ伏せ（伏臥位）の２体位で撮影が行われる。２体位の撮影を行うことの理由は、１体位では水滴等をポリープと誤検出してしまう恐れがあるからである。

　特開２０１７－１２７６２３号公報および特開２０１７－８０１５７号公報には、異なる体位で撮影された２つの画像を用いて診断を行うことが記載されているが、病変領域の検出は各画像で個別に行われている。したがって、従来の技術では、病変領域の検出精度は医師の経験および能力等への依存性が大きく、誤検出が生じる可能性がある。

　本開示の技術は、従来と比べて誤検出の少ない物体検出装置、物体検出方法およびプログラムを提供することを目的とする。

　上記目的を達成するために、本開示の物体検出装置は、入力画像に含まれる特定物を検出する物体検出装置であって、被検体を第１体位で撮影して得られた第１入力画像から物体候補が含まれる第１候補領域を特定する第１候補領域特定部と、被検体を第１体位とは異なる第２体位で撮影して得られた第２入力画像から物体候補が含まれる第２候補領域を特定する第２候補領域特定部と、第１入力画像と第２入力画像との間の変形変位場を生成する変形変位場生成部と、変形変位場に基づき、第２候補領域の座標を第１体位の座標に変換する座標変換部と、第１候補領域と、第１候補領域に近接した変換後の第２候補領域とを関連付ける関連付け部と、関連付け部により関連付けられた各候補領域に含まれる物体候補が同一の物体であって、かつ特定物であることを判定する同一物体判定部と、を備える物体検出装置。

　第１候補領域に含まれる物体候補が特定物であることを判定する第１物体判定部と、第２候補領域に含まれる物体候補が特定物であることを判定する第２物体判定部と、をさらに備えることが好ましい。

　この場合、第１物体判定部は、第１候補領域に含まれる物体候補が特定物であることを判定し、第２物体判定部は、第２候補領域に含まれる物体候補が特定物であることを判定することが好ましい。

　また、同一物体判定部は、各候補領域に含まれる物体候補が同一の物体であって、かつ特定物であることの確からしさを表す主スコアを生成し、第１物体判定部は、第１候補領域に含まれる物体候補が特定物であることの確からしさを表す第１副スコアを生成し、第２物体判定部は、第２候補領域に含まれる物体候補が特定物であることの確からしさを表す第２副スコアを生成することが好ましい。

　また、第１閾値以上の主スコアを持つ物体候補と、第１閾値より大きい第２閾値以上の第１副スコアを持つ物体候補と、第２閾値以上の第２副スコアを持つ物体候補とを、特定物として検出する検出部をさらに備えることが好ましい。

　第１物体判定部は、第１候補領域を修正し、第２物体判定部は、第２候補領域を修正することが好ましい。

　第１入力画像から第１畳み込み特徴マップを生成する第１畳み込みニューラルネットワークと、第２入力画像から第２畳み込み特徴マップを生成する第２畳み込みニューラルネットワークと、をさらに備え、第１候補領域特定部は、第１畳み込み特徴マップに基づいて第１候補領域を特定し、第２候補領域特定部は、第２畳み込み特徴マップに基づいて第２候補領域を特定することが好ましい。

　変形変位場生成部は、第１畳み込み特徴マップおよび第２畳み込み特徴マップから変形変位場を生成する畳み込みニューラルネットワークであることが好ましい。

　仰臥位と伏臥位とのうちの一方が第１体位であり、他方が第２体位であることが好ましい。特定物はポリープであることが好ましい。

　本開示の物体検出方法は、入力画像に含まれる特定物を検出する物体検出方法であって、被検体を第１体位で撮影して得られた第１入力画像から物体候補が含まれる第１候補領域を特定する第１候補領域特定ステップと、被検体を第１体位とは異なる第２体位で撮影して得られた第２入力画像から物体候補が含まれる第２候補領域を特定する第２候補領域特定ステップと、第１入力画像と第２入力画像との間の変形変位場を生成する変形変位場生成ステップと、変形変位場に基づき、第２候補領域の座標を第１体位の座標に変換する座標変換ステップと、第１候補領域と、第１候補領域に近接した変換後の第２候補領域とを関連付ける関連付けステップと、関連付けステップにより関連付けられた各候補領域に含まれる物体候補が同一の物体であって、かつ特定物であることを判定する同一物体判定ステップと、を備える。

　本開示のプログラムは、入力画像に含まれる特定物を検出する物体検出装置としてコンピュータを作動させるプログラムであって、被検体を第１体位で撮影して得られた第１入力画像から物体候補が含まれる第１候補領域を特定する第１候補領域特定部と、被検体を第１体位とは異なる第２体位で撮影して得られた第２入力画像から物体候補が含まれる第２候補領域を特定する第２候補領域特定部と、第１入力画像と第２入力画像との間の変形変位場を生成する変形変位場生成部と、変形変位場に基づき、第２候補領域の座標を第１体位の座標に変換する座標変換部と、第１候補領域と、第１候補領域に近接した変換後の第２候補領域とを関連付ける関連付け部と、関連付け部により関連付けられた各候補領域に含まれる物体候補が同一の物体であって、かつ特定物であることを判定する同一物体判定部として、コンピュータを作動させる。

　本開示の技術によれば、従来と比べて誤検出を低減することができる。

診断支援システムの概要を示すハードウェア構成図である。物体検出装置の概略構成を示す図である。第１入力画像の一例を示す図である。第２入力画像の一例を示す図である。物体検出部の機能的な構成を示すブロック図である。第１候補領域特定部の構成を示す図である。第１物体判定部の構成を示す図である。変形変位場生成部が生成する変形変位場を模式的に示す図である。座標変換部により行われる座標変換処理を概略的に示す図である。関連付け部により関連付けられた候補ペアを概略的に示す図である。同一物体判定部の構成を示す図である。検出部の構成を示す図である。検出部による検出処理を示すフローチャートである。表示部の表示画面を例示する図である。変形例に係る物体検出部の構成を示す図である。

　以下、図面を参照して本開示の実施形態について説明する。図１は、本開示の実施形態による物体検出装置１を適用した診断支援システム１００の概要を示すハードウェア構成図である。図１に示すように、診断支援システム１００は、物体検出装置１と、３次元画像撮影装置２と、画像保管サーバ３とを有する。物体検出装置１と、３次元画像撮影装置２と、画像保管サーバ３とは、ネットワーク４を経由して互いに通信可能な状態で接続されている。

　３次元画像撮影装置２は、被検体の診断対象となる部位を撮影することにより、その部位を表す３次元画像を生成する装置であり、具体的には、ＣＴ装置、ＭＲＩ装置、およびＰＥＴ（Positron Emission Tomography）装置等である。３次元画像撮影装置２により生成された３次元画像は、画像保管サーバ３に送信されて保存される。なお、本実施形態においては、３次元画像撮影装置２は、例えばＣＴ装置であり、被検体の診断対象となる部位（例えば、人体腹部）を含むＣＴ画像を３次元画像として生成する。なお、３次元画像は複数の断層画像により構成される。

　画像保管サーバ３は、各種データを保存して管理するコンピュータであり、大容量外部記憶装置およびデータベース管理用ソフトウェアを有する。画像保管サーバ３は、有線あるいは無線のネットワーク４を介して他の装置と通信を行い、画像データ等を送受信する。具体的には、画像保管サーバ３は、３次元画像撮影装置２で生成された３次元画像の画像データを含む各種データをネットワーク４経由で取得し、大容量外部記憶装置等の記録媒体に保存して管理する。なお、画像データの格納形式、およびネットワーク４を経由した各装置間の通信は、例えば、ＤＩＣＯＭ（Digital Imaging and Communication in Medicine）等のプロトコルに基づいている。

　物体検出装置１は、１台のコンピュータに作動プログラムをインストールしたものである。コンピュータは、診断を行う医師が直接操作するワークステーションまたはパーソナルコンピュータでもよいし、それらとネットワークを介して接続されたサーバコンピュータでもよい。作動プログラムは、ＤＶＤ（Digital Versatile Disc）あるいはＣＤ－ＲＯＭ（Compact Disc Read Only Memory）等の記録媒体に記録されて配布され、その記録媒体からコンピュータにインストールされる。または、ネットワークに接続されたサーバコンピュータの記憶装置、もしくはネットワークストレージに、外部からアクセス可能な状態で記憶される。この場合、作動プログラムは、要求に応じて医師が使用するコンピュータにダウンロードされてインストールされる。

　図２は、コンピュータに作動プログラムをインストールすることにより実現される物体検出装置１の概略構成を示す図である。図２に示すように、物体検出装置１は、標準的なワークステーションの構成として、ＣＰＵ（Central Processing Unit）１１、メモリ１２およびストレージ１３を備えている。また、物体検出装置１には、液晶ディスプレイ等の表示部１４、並びにキーボードおよびマウス等の入力部１５が接続されている。

　ストレージ１３は、ハードディスクドライブ等で構成され、ネットワーク４を経由して画像保管サーバ３から取得した入力画像および処理に必要な情報を含む各種情報を記憶している。

　また、メモリ１２には、作動プログラムが記憶されている。作動プログラムは、ＣＰＵ１１に実行させる処理として、物体検出の対象となる入力画像を取得する画像取得処理、入力画像に含まれる物体を検出する物体検出処理、および入力画像を物体の検出結果とともに表示する表示制御処理を規定する。なお、入力画像は３次元の画像であってもよいし、２次元の画像であってもよい。

　ＣＰＵ１１が作動プログラムに従ってこれらの処理を実行することで、ＣＰＵ１１は、画像取得部２１、物体検出部２２、および表示制御部２３として機能する。

　画像取得部２１は、入力画像を画像保管サーバ３から取得するインターフェースである。なお、入力画像が既にストレージ１３に記憶されている場合には、画像取得部２１は、ストレージ１３から入力画像を取得してもよい。

　本実施形態では、画像取得部２１は、同一の被検体を異なる撮影条件で撮影することにより得られた２つの入力画像を取得する。具体的には、画像取得部２１は、３次元画像撮影装置２により被検体を異なる体位で撮影した２つの３次元画像を、第１入力画像Ｓ１および第２入力画像Ｓ２として取得する。例えば、第１入力画像Ｓ１は、被検体を寝台上に仰向け（仰臥位）にした状態で撮影することにより得られた仰臥画像であり、第２入力画像Ｓ２は、被検体を寝台上にうつ伏せ（伏臥位）にした状態で撮影することにより得られた伏臥画像である。

　仰臥位は第１体位の一例であり、伏臥位は第２体位の一例である。なお、第１体位および第２体位は、仰臥位および伏臥位に限定されず、右側臥位および左側臥位等、異なる２つの体位であればよい。

　本実施形態においては、説明のために、例えばＣＴ装置により取得された３次元画像を構成する１つの断層面を表す断層画像は、第１入力画像Ｓ１および第２入力画像Ｓ２として用いられるものとするが、これに限定されるものではない。図３および図４は、それぞれ同一の被検体を撮影することにより得られた第１入力画像Ｓ１および第２入力画像Ｓ２を例示している。図３および図４において、Ｚ軸方向は、被検体の体軸方向である。第１入力画像Ｓ１および第２入力画像Ｓ２は、それぞれＺ軸方向に直交するＸＹ面の断層面を表す断層画像である。

　図３および図４に示す第１入力画像Ｓ１および第２入力画像Ｓ２は、大腸を含む領域の仰臥画像および伏臥画像であり、病変として大腸癌のポリープＰを含んでいる。

　物体検出部２２は、第１入力画像Ｓ１および第２入力画像Ｓ２に基づいて、第１入力画像Ｓ１および第２入力画像Ｓ２に含まれる特定物（本実施形態では、ポリープＰ）を検出する。表示制御部２３は、第１入力画像Ｓ１および第２入力画像Ｓ２を、各画像中における特定物の検出領域をユーザが認識可能に表示部１４に表示する。

　図５は、物体検出部２２の機能的な構成を示すブロック図である。物体検出部２２は、第１物体識別部３０Ａと、第２物体識別部３０Ｂと、変形変位場生成部４０と、座標変換部４１と、関連付け部４２と、同一物体判定部４３とを有する。

　第１物体識別部３０Ａは、第１入力画像Ｓ１に基づく物体識別処理を行う。第２物体識別部３０Ｂは、第１入力画像Ｓ１に基づく物体識別処理を行う。第１物体識別部３０Ａおよび第２物体識別部３０Ｂは、それぞれＦａｓｔｅｒ－ＲＣＮＮにより構成されたネットワークである。Ｆａｓｔｅｒ－ＲＣＮＮは、ＣＮＮにより生成される特徴マップから物体の候補領域を推定する領域提案ネットワーク（ＲＰＮ：Region Proposal Network）を備えることを特徴としている。第１物体識別部３０Ａおよび第２物体識別部３０Ｂは、教師入力画像を用いて予め学習が行われている。

　第１物体識別部３０Ａは、第１ＣＮＮ３１Ａと、第１候補領域特定部３２Ａと、第１物体判定部３３Ａとを有する。第２物体識別部３０Ｂは、第１物体識別部３０Ａと同様の構成であって、第２ＣＮＮ３１Ｂと、第２候補領域特定部３２Ｂと、第２物体判定部３３Ｂとを有する。

　第１ＣＮＮ３１Ａおよび第２ＣＮＮ３１Ｂは、それぞれ畳み込み層（Convolutional Layer）、プーリング層（Pooling Layer）、および逆畳み込み層（Deconvolutional Layer）等の複数の層を有する。畳み込み層は、入力画像の各画素にフィルタ（カーネルとも称される。）を適用する畳み込み演算を行うことにより特徴マップを生成する。プーリング層は、特徴マップの局所統計量を算出する処理を行うことにより特徴マップのサイズを縮小する。統計量としては、平均値、最大値、または中間値等が用いられる。

　第１ＣＮＮ３１Ａは、第１入力画像Ｓ１が入力されると、第１入力画像Ｓ１の特徴がマッピングされた畳み込み特徴マップ（以下、第１畳み込み特徴マップＭ１という。）を出力する。同様に、第２ＣＮＮ３１Ｂは、第２入力画像Ｓ２が入力されると、第２入力画像Ｓ２の特徴がマッピングされた畳み込み特徴マップ（以下、第２畳み込み特徴マップＭ２という。）を出力する。

　本実施形態における第１ＣＮＮ３１Ａおよび第２ＣＮＮ３１Ｂは、それぞれ畳み込み層およびプーリング層を有し、プーリングが行われるので、第１畳み込み特徴マップＭ１は、第１入力画像Ｓ１よりもサイズが小さくなる。例えば、プーリング層で４画素を１画素に圧縮する場合には、第１畳み込み特徴マップＭ１のサイズは、第１入力画像Ｓ１のサイズに対して１／４となる。プーリング層が２つの場合には、第１畳み込み特徴マップＭ１のサイズは、第１入力画像Ｓ１のサイズに対して１／１６となる。第２畳み込み特徴マップＭ２と第２入力画像Ｓ２との関係についても同様である。

　なお、第１ＣＮＮ３１Ａおよび第２ＣＮＮ３１Ｂは、プーリング層を有していなくてもよい。この場合、第１畳み込み特徴マップＭ１および第２畳み込み特徴マップＭ２のサイズは、それぞれ第１入力画像Ｓ１および第２入力画像Ｓ２のサイズと同一となる。ここで、ＣＮＮとしては、「ZeilerとFergusのモデル」または「SimonyanとZissermanのモデル」等、公知のモデルを用いることができる。

　第１候補領域特定部３２Ａは、第１畳み込み特徴マップＭ１から何らかの物体を含む候補領域（以下、第１候補領域Ｒ１という。）を特定する。同様に、第２候補領域特定部３２Ｂは、第２畳み込み特徴マップＭ２から何らかの物体を含む候補領域（以下、第２候補領域Ｒ２という。）を特定する。

　第１候補領域特定部３２Ａおよび第２候補領域特定部３２Ｂは、それぞれＲＰＮにより構成されている。ＲＰＮは、畳み込み特徴マップに含まれる物体の候補領域を推定する機能を有する。具体的には、ＲＰＮは、畳み込み特徴マップの局所領域ごとに、物体らしさを表すスコアが付与された１以上の候補領域を出力する。このＲＰＮを備えることが、Ｆａｓｔｅｒ－ＲＣＮＮの特徴である。

　図６は、第１候補領域特定部３２Ａの構成を示す図である。第１候補領域特定部３２Ａと第２候補領域特定部３２Ｂとは同一の構成であるので、以下、第１候補領域特定部３２Ａの構成のみについて説明する。

　第１候補領域特定部３２Ａは、中間層５０、分類層５１、および回帰層５２を含むニューラルネットワークで構成されている。

　図６に示すように、第１候補領域特定部３２Ａは、第１畳み込み特徴マップＭ１の局所領域をスライディングウィンドウＳＷで選択してスライドさせる。そして、第１候補領域特定部３２Ａは、各スライディングウィンドウＳＷの中央をアンカーとして、ｋ個のアンカーボックスＡＢを作成する。アンカーボックスＡＢは、各種アスペクト比および各種サイズを有する矩形の領域である。例えば、３種のアスペクト比（１：１，１：２，および２：１）と、３種のサイズ（１２８×１２８，２５６×２５６，および５１２×５１２）とからなる合計ｋ＝９のアンカーボックスＡＢが作成される。これらのｋ個のアンカーボックスＡＢは、中間層５０を介して、分類層５１と回帰層５２とに入力される。

　中間層５０は、各アンカーボックスＡＢ内の特徴ベクトルを算出する。この特徴ベクトルは、例えば、平均値、最大値、または中間値等により構成される。

　分類層５１と回帰層５２とは、中間層５０により計算される特徴量に基づいて予測を行う。分類層５１は、アンカーボックスＡＢごとに、物体の有無を表すスコアを出力する。回帰層５２は、アンカーボックスＡＢごとに、位置（中心のＸ座標およびＹ座標）およびサイズ（高さおよび幅）のオフセット値（ずれ量）を出力する。１つのスライディングウィンドウＳＷに対してｋ個のアンカーボックスＡＢが設定されるとすると、分類層５１は２ｋ次元のベクトルを出力し、回帰層５２は４ｋ次元のベクトルを出力する。

　第１候補領域特定部３２Ａは、教師入力画像に基づき、物体の有無の分類に関する損失と、バウンディングボックスの位置とサイズに関する損失を合わせたマルチタスク損失を最小化することにより学習を行う。学習済みの第１候補領域特定部３２Ａは、第１畳み込み特徴マップＭ１に基づき、１つの物体候補ごとに最も確度の高いアンカーボックスＡＢを、第１候補領域Ｒ１として特定する。具体的には、第１候補領域Ｒ１を生成するために、スコアリングされたアンカーボックスＡＢから非最大値の抑制を行うことにより不要なアンカーボックスＡＢを削除する。

　図５に戻り、第１物体判定部３３Ａは、第１畳み込み特徴マップＭ１および第１候補領域特定部３２Ａが特定した第１候補領域Ｒ１に基づいて、各第１候補領域Ｒ１に含まれる物体候補が特定物（ポリープＰ）であるか否かを判定する。同様に、第２物体判定部３３Ｂは、第２畳み込み特徴マップＭ２および第２候補領域特定部３２Ｂが特定した第２候補領域Ｒ２に基づいて、各第２候補領域Ｒ２に含まれる物体候補が特定物（ポリープＰ）であるか否かを判定する。

　図７は、第１物体判定部３３Ａの構成を示す図である。第１物体判定部３３Ａと第２物体判定部３３Ｂとは同一の構成であるので、以下、第１物体判定部３３Ａの構成のみについて説明する。

　図７に示すように、第１物体判定部３３Ａは、ＲＯＩ（Region of Interest）プーリング層６０、全結合層６１、分類層６２、および回帰層６３を含むニューラルネットワークで構成されている。第１物体判定部３３Ａは、第１候補領域特定部３２Ａにより特定される複数の第１候補領域Ｒ１のそれぞれに対して物体候補が特定物であることの確からしさを表すスコアを出力する。

　第１候補領域特定部３２Ａにより特定される複数の第１候補領域Ｒ１は、それぞれアスペクト比が異なり、次元数が様々である。このことから、ＲＯＩプーリング層６０は、各第１候補領域Ｒ１について次元数の異なる特徴マップを一定のサイズのベクトルに変換する処理を行う。具体的には、ＲＯＩプーリング層６０には、第１畳み込み特徴マップＭ１から各第１候補領域Ｒ１内の特徴マップが切り出されて入力される。ＲＯＩプーリング層６０は、入力された特徴マップを変換し、変換後の特徴マップを、第１ＲＯＩ特徴マップＲＭ１として出力する。

　全結合層６１は、第１ＲＯＩ特徴マップＲＭ１の特徴量を算出する。分類層６２と回帰層６３とは、全結合層６１により計算される特徴量に基づいて予測を行う。分類層６２は、各第１ＲＯＩ特徴マップＲＭ１について、クラス認識により、物体候補が特定物であることの確からしさを表すスコア（以下、第１副スコアＳＣ１という。）を出力する。この第１副スコアＳＣ１は、０以上１以下の数値で表される。第１副スコアＳＣ１が１に近いほど第１候補領域Ｒ１に含まれる物体候補が特定物であることの確度が高いことを表す。回帰層６３は、第１候補領域Ｒ１ごとに、位置（中心のＸ座標およびＹ座標）およびサイズ（高さおよび幅）のオフセット値（ずれ量）を出力する。

　第１物体判定部３３Ａは、教師入力画像に基づき、学習済みの第１候補領域特定部３２Ａにより特定された第１候補領域Ｒ１を用いて、第１副スコアＳＣ１に関する損失と、第１候補領域Ｒ１の位置とサイズに関する損失を合わせたマルチタスク損失を最小化することによって学習を行う。学習済みの第１候補領域特定部３２Ａは、１つの物体候補ごとに特定物であることの確度が最も高い第１候補領域Ｒ１を特定する。このように、第１物体判定部３３Ａからは、回帰により位置およびサイズが修正され、第１副スコアＳＣ１が付された第１候補領域Ｒ１が出力される。

　同様に、第２物体判定部３３Ｂは、第２候補領域Ｒ２ごとに第２ＲＯＩ特徴マップＲＭ２を生成する。第２物体判定部３３Ｂは、各第２ＲＯＩ特徴マップＲＭ２について、物体候補が特定物であることの確からしさを表すスコア（以下、第２副スコアＳＣ２という。）を出力し、第２候補領域Ｒ２ごとに位置（中心のＸ座標およびＹ座標）およびサイズ（高さおよび幅）のオフセット値（ずれ量）を出力する。このように、第２物体判定部３３Ｂからは、回帰により位置およびサイズが修正され、第２副スコアＳＣ２が付された第２候補領域Ｒ２が出力される。

　図５に戻り、変形変位場生成部４０には、第１ＣＮＮ３１Ａにより生成された第１畳み込み特徴マップＭ１と、第２ＣＮＮ３１Ｂにより生成された第２畳み込み特徴マップＭ２とが入力される。

　変形変位場生成部４０は、ＣＮＮにより構成されており、第１畳み込み特徴マップＭ１と第２畳み込み特徴マップＭ２を入力として、第２入力画像Ｓ２（伏臥画像）から第１入力画像Ｓ１（仰臥画像）への変形位置合わせ（すなわち、非剛体位置合わせ）処理を学習する。例えば、位置合わせの最終出力は、第１入力画像Ｓ１と同じあるいは拡縮された大きさの特徴マップであり、第２入力画像Ｓ２の各点に関して対応する第１入力画像Ｓ１の各点への移動量に相当する。図８に示すように、学習済みの変形変位場生成部４０は、第１畳み込み特徴マップＭ１と第２畳み込み特徴マップＭ２を入力として、第２入力画像Ｓ２の各点に対応する第１入力画像Ｓ１の各点への移動量を表す変形変位場ＤＦを生成する。

　変形変位場生成部４０は、第１畳み込み特徴マップＭ１と第２畳み込み特徴マップＭ２との間の解剖学的に対応する特徴点の誤差に基づいて最適な変形変位場ＤＦの生成を学習する。具体的には、変形変位場生成部４０は、第１畳み込み特徴マップＭ１と第２畳み込み特徴マップＭ２との間で、対応する特徴点の位置の誤差を損失として、損失を最小化することにより学習を行う。なお、変形変位場生成部４０は、第１畳み込み特徴マップＭ１と第２畳み込み特徴マップＭ２との間で、対応する領域（例えば、ポリープＰを含む領域）の位置の誤差と、領域の形状の誤差とを損失として学習を行ってもよい。本実施形態では、大腸内のポリープを検出対象としているため、変形変位場生成部４０が大腸領域の位置合わせを学習することで、高精度な変形変位場ＤＦを生成することができる。

　座標変換部４１は、変形変位場生成部４０により生成された変形変位場ＤＦに基づき、第２候補領域特定部３２Ｂにより特定された第２候補領域Ｒ２の座標変換を行う。図９は、座標変換部４１により行われる座標変換処理を概略的に示す図である。座標変換部４１は、変形変位場ＤＦに基づき、第２入力画像Ｓ２を表す第２座標系（伏臥座標系）を、第１入力画像Ｓ１を表す第１座標系（仰臥座標系）に座標変換する。これにより、第２候補領域Ｒ２の座標が第１座標系に変換される。座標変換部４１は、座標変換後の第２候補領域Ｒ２ｃを生成する。

　関連付け部４２は、第１候補領域Ｒ１の位置と、座標変換部４１による座標変換後の第２候補領域Ｒ２ｃの位置とを、第１座標系において比較することで、近接した第１候補領域Ｒ１と第２候補領域Ｒ２ｃとを候補ペアとして関連付ける。図１０は、関連付け部４２により関連付けられた候補ペアを概略的に示す図である。関連付け部４２は、例えば、第１候補領域Ｒ１の中心位置と、座標変換後の第２候補領域Ｒ２ｃの中心位置との距離が一定値以下のものを候補ペアとして関連付ける。なお、関連付け部４２は、第１候補領域Ｒ１と、座標変換後の第２候補領域Ｒ２ｃとの重なりの割合が一定値以上であるものを候補ペアとして関連付けてもよい。

　また、関連付け部４２は、関連付けた第１候補領域Ｒ１および座標変換後の第２候補領域Ｒ２ｃに対応する第１ＲＯＩ特徴マップＲＭ１および第２ＲＯＩ特徴マップＲＭ２を、第１物体判定部３３Ａおよび第２物体判定部３３Ｂから取得して関連付ける。

　同一物体判定部４３は、関連付けられた第１ＲＯＩ特徴マップＲＭ１および第２ＲＯＩ特徴マップＲＭ２に基づき、第１候補領域Ｒ１および座標変換後の第２候補領域Ｒ２ｃに含まれる物体候補が同一の物体であって、かつ特定物であるか否かを判定する。

　図１１は、同一物体判定部４３の構成を示す図である。同一物体判定部４３は、全結合層７０および分類層７１を含むニューラルネットワークで構成されている。全結合層７０は、候補ペアとして関連付けられた第１ＲＯＩ特徴マップＲＭ１および第２ＲＯＩ特徴マップＲＭ２の特徴量を算出する。

　分類層７１は、全結合層７０により算出された特徴量に基づき、クラス認識を行うことにより、第１候補領域Ｒ１および座標変換後の第２候補領域Ｒ２ｃに含まれる物体候補が同一の物体であって、かつ特定物であることの確からしさを表すスコア（以下、主スコアＳＣ０という。）を出力する。この主スコアＳＣ０は、０以上１以下の数値で表される。主スコアＳＣ０が１に近いほど第１候補領域Ｒ１および座標変換後の第２候補領域Ｒ２ｃに含まれる物体候補が同一の物体であって、かつ特定物であることの確度が高いことを表す。

　図１２に示すように、物体検出部２２には、同一物体判定部４３、第１物体判定部３３Ａ、および第２物体判定部３３Ｂから出力される各スコアに基づいて、特定物を検出する検出部８０が含まれる。検出部８０は、特定物であると検出した物体候補の領域情報を検出データとしてストレージ１３に記録する。表示制御部２３は、入力部１５からの入力操作信号に基づいて、ストレージ１３により格納された検出データおよび画像等を、表示部１４へ表示させる。

　次に、図１３に示すフローチャートを参照しながら、検出部８０による病変領域の検出処理について説明する。以下の検出処理では、主スコアＳＣ０に加えて、第１副スコアＳＣ１および第２副スコアＳＣ２に基づく検出を行うことにより、高い検出精度を保ちつつ、検出漏れを低減する。

　まず、検出部８０は、同一物体判定部４３から主スコアＳＣ０を含む判定結果（同一物体判定結果）を取得する（ステップＳ１０）。検出部８０は、取得した主スコアＳＣ０を第１閾値αと比較する（ステップＳ１１）。検出部８０は、主スコアＳＣ０が第１閾値α以上である場合には（ステップＳ１１：ＹＥＳ）、当該主スコアＳＣ０を有する物体候補の領域情報を、主検出データＤ０としてストレージ１３に記録する（ステップＳ１２）。一方、検出部８０は、主スコアＳＣ０が第１閾値α未満である場合には（ステップＳ１１：ＮＯ）、記録処理は行わずに処理をステップＳ１３に進める。なお、検出部８０は、候補ペアが複数存在する場合には、ステップＳ１０～Ｓ１２の処理を繰り返し行う。

　次に、検出部８０は、第１物体判定部３３Ａから第１副スコアＳＣ１を含む判定結果（第１物体判定結果）を取得する（ステップＳ１３）。検出部８０は、取得した第１副スコアＳＣ１を第２閾値βと比較する（ステップＳ１４）。ここで、第２閾値βは、第１閾値αより大きい値（すなわち、β＞α）である。第１物体判定部３３Ａから出力される第１副スコアＳＣ１は、同一物体判定部４３から出力される主スコアＳＣ０よりも精度が低いと考えられることから、第１閾値αよりも厳しい検出条件である第２閾値βを用いて検出を行う。

　検出部８０は、第１副スコアＳＣ１が第２閾値β以上である場合には（ステップＳ１４：ＹＥＳ）、当該第１副スコアＳＣ１を有する物体候補の領域情報を、第１副検出データＤ１としてストレージ１３に記録する（ステップＳ１５）。一方、検出部８０は、第１副スコアＳＣ１が第２閾値β未満である場合には（ステップＳ１４：ＮＯ）、記録処理は行わずに処理をステップＳ１６に進める。なお、検出部８０は、第１候補領域Ｒ１が複数存在する場合には、ステップＳ１３～Ｓ１５の処理を繰り返し行う。

　次に、検出部８０は、第２物体判定部３３Ｂから第２副スコアＳＣ２を含む判定結果（第２物体判定結果）取得する（ステップＳ１６）。検出部８０は、取得した第２副スコアＳＣ２を第２閾値βと比較する（ステップＳ１７）。検出部８０は、第２副スコアＳＣ２が第２閾値β以上である場合には（ステップＳ１７：ＹＥＳ）、当該第２副スコアＳＣ２を有する物体候補の領域情報を、第２副検出データＤ２としてストレージ１３に記録する（ステップＳ１８）。一方、検出部８０は、第２副スコアＳＣ２が第２閾値β未満である場合には（ステップＳ１７：ＮＯ）、記録処理は行わずに処理をステップＳ１９に進める。なお、検出部８０は、第２候補領域Ｒ２が複数存在する場合には、ステップＳ１６～Ｓ１８の処理を繰り返し行う。

　そして、ステップＳ１９では、検出部８０は、ストレージ１３に記録した主検出データＤ０、第１副検出データＤ１、および第２副検出データＤ２の重複を排除し、和集合データとして統合した統合検出データＤｔを生成する。

　なお、検出部８０による主スコアＳＣ０、第１副スコアＳＣ１、および第２副スコアＳＣ２による３つの判定処理の順番は、上記の順番に限られず、任意に変更可能である。また、これらの３つの判定処理を並列に行うことも可能である。

　図１４は、表示部１４の表示画面１４Ａを例示する図である。図１４に示すように、表示画面１４Ａには、仰臥画像としての第１入力画像Ｓ１と伏臥画像としての第２入力画像Ｓ２とが対比可能に隣接した状態で表示される。なお、図１４では、第２入力画像Ｓ２の座標系を１８０度回転させている。

　表示画面１４Ａには、ストレージ１３に記録された４種の検出データ（主検出データＤ０、第１副検出データＤ１、第２副検出データＤ２、および統合検出データＤｔ）のいずれかに基づき、特定物を含む確度の高い候補領域（病変領域）が表示される。

　また、表示制御部２３は、４種の検出データのいずれに基づいて候補領域を表示するかをユーザが選択可能とするように、表示画面１４Ａ上にユーザインターフェイス表示を行う。表示画面１４Ａには、例えば、４種の検出データを入力部１５としてのマウス等で選択可能とする選択ボタン１４Ｂと、表示を実行させる表示ボタン１４Ｃと、表示を終了させる終了ボタン１４Ｄとが表示される。ユーザは、選択ボタン１４Ｂの選択操作を行い、表示ボタン１４Ｃをクリックすることにより、所望の検出データに対応する候補領域を表示させることができる。

　図１４は、主検出データＤ０が選択された場合における表示例である。この場合、表示画面１４Ａには、主スコアＳＣ０に基づいて検出された同一の特定物を含む第１候補領域Ｒ１と第２候補領域Ｒ２とが、相互に関連付けられた状態で表示される。

　また、統合検出データＤｔが選択された場合には、検出部８０により検出されたすべての候補領域が表示される。また、第１副検出データＤ１が選択された場合には、第１副スコアＳＣ１に基づいて検出された第１候補領域Ｒ１が表示される。第２副検出データＤ２が選択された場合には、第２副スコアＳＣ２に基づいて検出された第２候補領域Ｒ２が表示される。

　上記実施形態によれば、候補ペアとして関連付けられた第１候補領域Ｒ１および座標変換後の第２候補領域Ｒ２ｃに含まれる物体候補が、同一の物体であって、かつ特定物であること判定するので、従来と比べて特定物（ポリープ）の誤検出を低減することができる。

　例えば、従来の技術では、大腸内腔に水滴が付着している場合には、水滴が大腸内腔の凸部として画像中に現れ、ポリープとして誤検出される恐れがある。このような水滴は、被検体の体位を変えることで離脱または変形するため、２つの入力画像中の対応領域に現れることはない。上記実施形態では、被検体を異なる体位で撮影することにより得られた２つの入力画像において関連付けられた２つの候補領域に基づいて判定を行うので、水滴等を特定物として誤検出するおそれが低減し、特定物を高精度に検出することができる。

　また、大腸内腔においては、便等の残渣によりポリープが隠れている場合がある。この場合には、被検体の体位を変えることにより、残渣が離脱してポリープが現れることがある。このような場合には、上記のように２つの候補領域に基づいて判定を行うと、２つの候補領域に同一の物体が存在しないとして、ポリープが検出されない可能性がる。これに対して、上記実施形態では、各体位で得られた各入力画像中の候補領域に基づく判定も行っているため、残渣によるポリープの検出漏れを抑制することができる。このように、上記実施形態によれば、高い検出精度を保ちつつ、検出漏れを低減することができる。

　また、上記実施形態では、物体検出部２２は、特定物の検出と２つの入力画像間の変形位置合わせを、部分共通化したネットワークで行うため、１つのアルゴリズムで学習が可能であるとともに、検出時間を短縮することが可能である。さらに、物体検出部２２は、２つの入力画像における特定物の位置と特定物のペアに関する正解データのみを用いて学習を行うことができる。

　＜変形例＞
　以下、上記実施形態の変形例について説明する。上記実施形態においては、物体検出部２２中の第１物体識別部３０Ａおよび第２物体識別部３０Ｂを、Ｆａｓｔｅｒ－ＲＣＮＮにより構成しているが、Ｆａｓｔｅｒ－ＲＣＮＮに限られず、Ｆａｓｔ－ＲＣＮＮまたはＲＣＮＮにより構成してもよい。また、物体検出部２２は、ニューラルネットワークに限られず、例えばサポートベクタマシン（Support Vector Machine）、または決定木等の教師あり学習アルゴリズムで構成されていてもよい。

　また、上記実施形態においては、物体検出部２２は、第１ＣＮＮ３１Ａおよび第２ＣＮＮ３１Ｂを備えているが、第１ＣＮＮ３１Ａおよび第２ＣＮＮ３１Ｂを備えていなくてもよい。この場合には、第１候補領域特定部３２Ａおよび第２候補領域特定部３２Ｂは、それぞれ第１入力画像Ｓ１および第２入力画像Ｓ２から第１候補領域Ｒ１および第２候補領域Ｒ２を特定すればよい。また、この場合、第１物体判定部３３Ａおよび第２物体判定部３３Ｂは、それぞれ第１入力画像Ｓ１および第２入力画像Ｓ２から第１候補領域Ｒ１および第２候補領域Ｒ２を切り出して物体のカテゴリを判定すればよい。さらに、この場合、変形変位場生成部４０は、第１入力画像Ｓ１および第２入力画像Ｓ２を入力として変形変位場ＤＦを生成すればよい。

　また、上記実施形態においては、同一物体判定部４３は、第１ＲＯＩ特徴マップＲＭ１および第２ＲＯＩ特徴マップＲＭ２に基づいて物体のカテゴリを判定している。これに代えて、同一物体判定部４３は、第１入力画像Ｓ１から切り出された第１候補領域Ｒ１と、第２入力画像Ｓ２から切り出されて座標変換部４１により座標変換が行われた第２候補領域Ｒ２ｃとに基づいて物体のカテゴリを判定してもよい。

　また、上記実施形態では、主スコアＳＣ０を０以上１以下の値とし、第１副スコアＳＣ１および第２副スコアＳＣ２をそれぞれ０以上１以下の値としているが、各スコアの上限および下限は同一でなくてもよい。この場合、第２閾値βは、第１閾値αよりも厳しい検出条件であればよい。すなわち、第２閾値βが第１閾値αより大きいとは、各スコアの上限および下限を同一として同一のスケールで表現した場合に、第２閾値βが第１閾値αより大きい値となることを意味する。

　また、上記実施形態では、被検体を異なる２つの体位で撮影することにより得られた２つの入力画像に基づいて物体検出を行っているが、被検体を異なる３以上の体位で撮影することにより得られた３以上の入力画像に基づいて物体検出を行うことも可能である。

　図１５は、変形例に係る物体検出部２２Ａの構成を示す図である。物体検出部２２Ａは、同一の被検体を異なる３以上の体位で撮影することにより得られた３以上の入力画像に基づいて物体検出を行う。物体検出部２２Ａは、入力画像の数に対応した数だけ物体識別部を備える。

　例えば、物体検出部２２Ａは、第１入力画像Ｓ１、第２入力画像Ｓ２、および第３入力画像Ｓ３が入力される場合には、上記実施形態の第１物体識別部３０Ａおよび第２物体識別部３０Ｂに加えて、第３物体識別部３０Ｃを備える。第３物体識別部３０Ｃは、第２物体識別部３０Ｂと同様の構成である。第３物体識別部３０Ｃは、第３入力画像Ｓ３に基づく物体識別の過程において、第３畳み込み特徴マップＭ３、第３候補領域Ｒ３、第２物体および第３ＲＯＩ特徴マップＲＭ３を生成する。

　本変形例では、変形変位場生成部４０は、第２入力画像Ｓ２の各点に対応する第１入力画像Ｓ１の各点への移動量を表す第１変形変位場ＤＦ１に加えて、第３入力画像Ｓ３の各点に対応する第１入力画像Ｓ１の各点への移動量を表す第２変形変位場ＤＦ２を生成する。また、本変形例では、座標変換部４１は、第１変形変位場ＤＦ１に基づき第２候補領域Ｒ２の座標変換を行うことに加えて、第２変形変位場ＤＦ２に基づき第３候補領域Ｒ３の座標変換を行う。すなわち、座標変換部４１は、座標変換後の第２候補領域Ｒ２ｃに加えて、座標変換後の第３候補領域Ｒ３ｃを生成する。

　また、本変形例では、関連付け部４２は、第１候補領域Ｒ１の位置と、座標変換後の第２候補領域Ｒ２ｃの位置と、座標変換後の第３候補領域Ｒ３ｃの位置とを、第１座標系において比較する。そして、関連付け部４２は、近接した第１候補領域Ｒ１、第２候補領域Ｒ２ｃ、および第３候補領域Ｒ３ｃを、候補グループとして関連付ける。また、関連付け部４２は、関連付けた１候補領域Ｒ１、第２候補領域Ｒ２ｃ、および第３候補領域Ｒ３ｃに対応する第１ＲＯＩ特徴マップＲＭ１、第２ＲＯＩ特徴マップＲＭ２、および第３ＲＯＩ特徴マップＲＭ３を関連付ける。

　そして、同一物体判定部４３は、関連付けられた第１ＲＯＩ特徴マップＲＭ１、第２ＲＯＩ特徴マップＲＭ２、および第３ＲＯＩ特徴マップＲＭ３に基づいて、各候補領域に含まれる物体候補が同一の物体であって、かつ特定物であるか否かを判定する。

　また、本変形例では、第３物体識別部３０Ｃは、物体候補が特定物であることの確からしさを表すスコア（以下、第３副スコアＳＣ３という。）を出力する。検出部８０は、上述の主スコアＳＣ０、第１副スコアＳＣ１、および第２副スコアＳＣ２に加えて、第３副スコアＳＣ３に基づく検出を行い、第３副検出データＤ３を生成する。

　４以上の入力画像に基づいて物体検出を行う場合についても物体検出部の構成を同様に変形することができる。

　なお、上記各変形例の構成は、矛盾が生じない限り、適宜組み合わせることが可能である。

　また、上記実施形態および変形例において、例えば、画像取得部２１、物体検出部２２，２２Ａ、および表示制御部２３といった各種の処理を実行する処理部（Processing Unit）のハードウェア的な構造としては、次に示す各種のプロセッサ（Processor）を用いることができる。上記各種のプロセッサには、上述したように、ソフトウェア（作動プログラム）を実行して各種の処理部として機能する汎用的なプロセッサであるＣＰＵに加えて、ＦＰＧＡ（Field Programmable Gate Array）等の製造後に回路構成を変更可能なプロセッサであるＰＬＤ（Programmable Logic Device）、およびＡＳＩＣ（Application Specific Integrated Circuit）等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が含まれる。

　１つの処理部は、これらの各種のプロセッサのうちの１つで構成されてもよいし、同種または異種の２つ以上のプロセッサの組み合わせ（例えば、複数のＦＰＧＡの組み合わせまたはＣＰＵとＦＰＧＡとの組み合わせ）で構成されてもよい。また、複数の処理部を１つのプロセッサで構成してもよい。

　複数の処理部を１つのプロセッサで構成する例としては、第１に、クライアントおよびサーバ等のコンピュータに代表されるように、１つ以上のＣＰＵとソフトウェアとの組み合わせで１つのプロセッサを構成し、このプロセッサが複数の処理部として機能する形態がある。第２に、システムオンチップ（System on Chip）等に代表されるように、複数の処理部を含むシステム全体の機能を１つのＩＣ（Integrated Circuit）チップで実現するプロセッサを使用する形態がある。このように、各種の処理部は、ハードウェア的な構造として、上記各種のプロセッサの１つ以上を用いて構成される。

　さらに、これらの各種のプロセッサのハードウェア的な構造としては、より具体的には、半導体素子等の回路素子を組み合わせた電気回路（Circuitry）を用いることができる。

　以上の記載から、以下の付記項１～５に記載の発明を把握することができる。

　［付記項１］
　入力画像に含まれる特定物を検出する物体検出装置であって、
　被検体を第１体位で撮影して得られた第１入力画像から物体候補が含まれる第１候補領域を特定する第１候補領域特定プロセッサと、
　前記被検体を前記第１体位とは異なる第２体位で撮影して得られた第２入力画像から物体候補が含まれる第２候補領域を特定する第２候補領域特定プロセッサと、
　前記第１入力画像と前記第２入力画像との間の変形変位場を生成する変形変位場生成プロセッサと、
　前記変形変位場に基づき、前記第２候補領域の座標を前記第１体位の座標に変換する座標変換プロセッサと、
　前記第１候補領域と、前記第１候補領域に近接した変換後の前記第２候補領域とを関連付ける関連付けプロセッサと、
　前記関連付けプロセッサにより関連付けられた各候補領域に含まれる物体候補が同一の物体であって、かつ前記特定物であることを判定する同一物体判定プロセッサと、
　を備える物体検出装置。
　［付記項２］
　前記第１候補領域に含まれる物体候補が前記特定物であることを判定する第１物体判定プロセッサと、
　前記第２候補領域に含まれる物体候補が前記特定物であることを判定する第２物体判定プロセッサと、
　をさらに備える付記項１に記載の物体検出装置。
　［付記項３］
　前記第１物体判定プロセッサは、前記第１候補領域に含まれる物体候補が前記特定物であることを判定し、
　前記第２物体判定プロセッサは、前記第２候補領域に含まれる物体候補が前記特定物であることを判定する
　付記項２に記載の物体検出装置。
　［付記項４］
　前記同一物体判定プロセッサは、前記各候補領域に含まれる物体候補が同一の物体であって、かつ前記特定物であることの確からしさを表す主スコアを生成し、
　前記第１物体判定プロセッサは、前記第１候補領域に含まれる物体候補が前記特定物であることの確からしさを表す第１副スコアを生成し、
　前記第２物体判定プロセッサは、前記第２候補領域に含まれる物体候補が前記特定物であることの確からしさを表す第２副スコアを生成する
　付記項３に記載の物体検出装置。
　［付記項５］
　第１閾値以上の前記主スコアを持つ物体候補と、前記第１閾値より大きい第２閾値以上の前記第１副スコアを持つ物体候補と、前記第２閾値以上の前記第２副スコアを持つ物体候補とを、前記特定物として検出する検出プロセッサ
　をさらに備える付記項４に記載の物体検出装置。

　本開示の技術は、上述の実施形態と種々の変形例を適宜組み合わせることも可能である。また、上記実施形態及び変形例に限らず、要旨を逸脱しない限り種々の構成を採用し得ることはもちろんである。さらに、本開示の技術は、プログラムに加えて、プログラムを非一時的に記憶する記憶媒体にもおよぶ。

　以上に示した記載内容及び図示内容は、本開示の技術に係る部分についての詳細な説明であり、本開示の技術の一例に過ぎない。例えば、上記の構成、機能、作用、及び効果に関する説明は、本開示の技術に係る部分の構成、機能、作用、及び効果の一例に関する説明である。よって、本開示の技術の主旨を逸脱しない範囲内において、以上に示した記載内容及び図示内容に対して、不要な部分を削除したり、新たな要素を追加したり、置き換えたりしてもよいことはいうまでもない。また、錯綜を回避し、本開示の技術に係る部分の理解を容易にするために、以上に示した記載内容及び図示内容では、本開示の技術の実施を可能にする上で特に説明を要しない技術常識等に関する説明は省略されている。

　本明細書に記載された全ての文献、特許出願及び技術規格は、個々の文献、特許出願及び技術規格が参照により取り込まれることが具体的かつ個々に記された場合と同程度に、本明細書中に参照により取り込まれる。

Claims

　入力画像に含まれる特定物を検出する物体検出装置であって、
　被検体を第１体位で撮影して得られた第１入力画像から物体候補が含まれる第１候補領域を特定する第１候補領域特定部と、
　前記被検体を前記第１体位とは異なる第２体位で撮影して得られた第２入力画像から物体候補が含まれる第２候補領域を特定する第２候補領域特定部と、
　前記第１入力画像と前記第２入力画像との間の変形変位場を生成する変形変位場生成部と、
　前記変形変位場に基づき、前記第２候補領域の座標を前記第１体位の座標に変換する座標変換部と、
　前記第１候補領域と、前記第１候補領域に近接した変換後の前記第２候補領域とを関連付ける関連付け部と、
　前記関連付け部により関連付けられた各候補領域に含まれる物体候補が同一の物体であって、かつ前記特定物であることを判定する同一物体判定部と、
　を備える物体検出装置。
　前記第１候補領域に含まれる物体候補が前記特定物であることを判定する第１物体判定部と、
　前記第２候補領域に含まれる物体候補が前記特定物であることを判定する第２物体判定部と、
　をさらに備える請求項１に記載の物体検出装置。
　前記第１物体判定部は、前記第１候補領域に含まれる物体候補が前記特定物であることを判定し、
　前記第２物体判定部は、前記第２候補領域に含まれる物体候補が前記特定物であることを判定する
　請求項２に記載の物体検出装置。
　前記同一物体判定部は、前記各候補領域に含まれる物体候補が同一の物体であって、かつ前記特定物であることの確からしさを表す主スコアを生成し、
　前記第１物体判定部は、前記第１候補領域に含まれる物体候補が前記特定物であることの確からしさを表す第１副スコアを生成し、
　前記第２物体判定部は、前記第２候補領域に含まれる物体候補が前記特定物であることの確からしさを表す第２副スコアを生成する
　請求項３に記載の物体検出装置。
　第１閾値以上の前記主スコアを持つ物体候補と、前記第１閾値より大きい第２閾値以上の前記第１副スコアを持つ物体候補と、前記第２閾値以上の前記第２副スコアを持つ物体候補とを、前記特定物として検出する検出部
　をさらに備える請求項４に記載の物体検出装置。
　前記第１物体判定部は、前記第１候補領域を修正し、前記第２物体判定部は、前記第２候補領域を修正する請求項２から請求項５のうちいずれか１項に記載の物体検出装置。
　前記第１入力画像から第１畳み込み特徴マップを生成する第１畳み込みニューラルネットワークと、
　前記第２入力画像から第２畳み込み特徴マップを生成する第２畳み込みニューラルネットワークと、
　をさらに備え、
　前記第１候補領域特定部は、前記第１畳み込み特徴マップに基づいて前記第１候補領域を特定し、
　前記第２候補領域特定部は、前記第２畳み込み特徴マップに基づいて前記第２候補領域を特定する
　請求項１から請求項６のうちいずれか１項に記載の物体検出装置。
　前記変形変位場生成部は、前記第１畳み込み特徴マップおよび前記第２畳み込み特徴マップから前記変形変位場を生成する畳み込みニューラルネットワークである請求項７に記載の物体検出装置。
　仰臥位と伏臥位とのうちの一方が前記第１体位であり、他方が前記第２体位である請求項１から請求項８のうちいずれか１項に記載の物体検出装置。
　前記特定物はポリープである請求項１から請求項９のうちいずれか１項に記載の物体検出装置。
　入力画像に含まれる特定物を検出する物体検出方法であって、
　被検体を第１体位で撮影して得られた第１入力画像から物体候補が含まれる第１候補領域を特定する第１候補領域特定ステップと、
　前記被検体を前記第１体位とは異なる第２体位で撮影して得られた第２入力画像から物体候補が含まれる第２候補領域を特定する第２候補領域特定ステップと、
　前記第１入力画像と前記第２入力画像との間の変形変位場を生成する変形変位場生成ステップと、
　前記変形変位場に基づき、前記第２候補領域の座標を前記第１体位の座標に変換する座標変換ステップと、
　前記第１候補領域と、前記第１候補領域に近接した変換後の前記第２候補領域とを関連付ける関連付けステップと、
　前記関連付けステップにより関連付けられた各候補領域に含まれる物体候補が同一の物体であって、かつ前記特定物であることを判定する同一物体判定ステップと、
　を備える物体検出方法。
　入力画像に含まれる特定物を検出する物体検出装置としてコンピュータを作動させるプログラムであって、
　被検体を第１体位で撮影して得られた第１入力画像から物体候補が含まれる第１候補領域を特定する第１候補領域特定部と、
　前記被検体を前記第１体位とは異なる第２体位で撮影して得られた第２入力画像から物体候補が含まれる第２候補領域を特定する第２候補領域特定部と、
　前記第１入力画像と前記第２入力画像との間の変形変位場を生成する変形変位場生成部と、
　前記変形変位場に基づき、前記第２候補領域の座標を前記第１体位の座標に変換する座標変換部と、
　前記第１候補領域と、前記第１候補領域に近接した変換後の前記第２候補領域とを関連付ける関連付け部と、
　前記関連付け部により関連付けられた各候補領域に含まれる物体候補が同一の物体であって、かつ前記特定物であることを判定する同一物体判定部として、
　コンピュータを作動させるプログラム。