WO2024084578A1

WO2024084578A1 - 画像処理装置、画像処理方法及び記憶媒体

Info

Publication number: WO2024084578A1
Application number: PCT/JP2022/038743
Authority: WO
Inventors: 雅弘西光
Original assignee: 日本電気株式会社
Priority date: 2022-10-18
Filing date: 2022-10-18
Publication date: 2024-04-25
Also published as: US20240161283A1; WO2024084838A1

Abstract

画像処理装置（１Ｘ）は、取得手段（３０Ｘ）と、推論手段（３２Ｘ）と、統合手段（３３Ｘ）と、を備える。取得手段（３０Ｘ）は、被検体を撮影した内視鏡画像を取得する。推論手段（３２Ｘ）は、内視鏡画像に基づき、内視鏡画像における被検体の注目領域に関する複数の推論結果を生成する。統合手段（３３Ｘ）は、複数の推論結果を統合する。

Description

画像処理装置、画像処理方法及び記憶媒体

　本開示は、内視鏡検査において取得される画像の処理を行う画像処理装置、画像処理方法及び記憶媒体の技術分野に関する。

　従来から、臓器の管腔内を撮影した画像を表示する内視鏡検査システムが知られている。例えば、特許文献１には、内視鏡画像と注目領域検出閾値とに基づいて注目領域を検出し、注目領域が平坦病変又は隆起病変のいずれであるかを判定する内視鏡検査システムが開示されている。

国際公開ＷＯ２０１９／１４６０７７

　一般的に、内視鏡画像には多種多様な病変が含まれている可能性があり、かつ、内視鏡画像の撮影環境も多種多様であり、病変領域の正確な検知が非常に困難である場合がある。従って、生検を行う候補箇所となる病変領域は、医師の間でも一致しないことがある。

　本開示は、上述した課題を鑑み、内視鏡画像に含まれる注目領域を的確に検知することが可能な画像処理装置、画像処理方法及び記憶媒体を提供することを目的の一つとする。

　画像処理装置の一の態様は、
　被検体を撮影した内視鏡画像を取得する取得手段と、
　前記内視鏡画像に基づき、前記内視鏡画像における前記被検体の注目領域に関する複数の推論結果を生成する推論手段と、
　前記複数の推論結果を統合する統合手段と、
を有する画像処理装置である。

　画像処理方法の一の態様は、
　コンピュータが、
　被検体を撮影した内視鏡画像を取得し、
　前記内視鏡画像に基づき、前記内視鏡画像における前記被検体の注目領域に関する複数の推論結果を生成し、
　前記複数の推論結果を統合する、
画像処理方法である。

　記憶媒体の一の態様は、
　被検体を撮影した内視鏡画像を取得し、
　前記内視鏡画像に基づき、前記内視鏡画像における前記被検体の注目領域に関する複数の推論結果を生成し、
　前記複数の推論結果を統合する処理をコンピュータに実行させるプログラムを格納した記憶媒体である。

　本開示の１つの効果の例として、内視鏡画像に含まれる注目領域を的確に検知することが可能となる。

内視鏡検査システムの概略構成を示す。画像処理装置のハードウェア構成を示す。第１実施形態における画像処理装置が実行する病変検知処理の概要を示す図である。第１実施形態における病変検知処理の機能ブロックの一例である。（Ａ）モデル入力画像と代表画像との類似度を算出する例を示す。（Ｂ）モデル入力画像の病変信頼度マップと代表画像との類似度を算出する例を示す。内視鏡検査において表示装置が表示する表示画面例を示す。第１実施形態において内視鏡検査時に画像処理装置が実行する処理の概要を示すフローチャートの一例である。第２実施形態における画像処理装置が実行する病変検知処理の概要を示す図である。第２実施形態での病変検知処理に関する画像処理装置の機能ブロック図である。第２実施形態において内視鏡検査時に画像処理装置が実行する処理の概要を示すフローチャートの一例である。第３実施形態における画像処理装置が実行する病変検知処理の概要を示す図である。第３実施形態において内視鏡検査時に画像処理装置が実行する処理の概要を示すフローチャートの一例である。第４実施形態における画像処理装置のブロック図である。第４実施形態において画像処理装置が実行するフローチャートの一例である。

　以下、図面を参照しながら、画像処理装置、画像処理方法及び記憶媒体の実施形態について説明する。

　＜第１実施形態＞
　（１）システム構成
　図１は、内視鏡検査システム１００の概略構成を示す。図１に示すように、内視鏡検査システム１００は、内視鏡を利用した検査又は治療を行う医師等の検査者に対して病変の疑いがある被検体の部位（「病変部位」とも呼ぶ。）を検知し、細胞採取（生検）を行う候補箇所等として提示するシステムである。内視鏡検査システム１００は、主に、画像処理装置１と、表示装置２と、画像処理装置１に接続された内視鏡スコープ３と、を備える。

　画像処理装置１は、内視鏡スコープ３が時系列により撮影する画像（「内視鏡画像Ｉａ」とも呼ぶ。）を内視鏡スコープ３から取得し、内視鏡画像Ｉａに基づく画面を表示装置２に表示させる。内視鏡画像Ｉａは、被検者への内視鏡スコープ３の挿入工程又は排出工程の少なくとも一方において所定のフレーム周期により撮影された画像である。本実施形態においては、画像処理装置１は、内視鏡画像Ｉａを解析することで、内視鏡画像Ｉａにおける病変部位の領域（「病変領域」とも呼ぶ。）を検知し、その検知結果に関する情報を表示装置２に表示させる。病変領域は「注目領域」の一例である。

　表示装置２は、画像処理装置１から供給される表示信号に基づき所定の表示を行うディスプレイ等である。

　内視鏡スコープ３は、主に、検査者が所定の入力を行うための操作部３６と、被検者の撮影対象となる臓器内に挿入され、柔軟性を有するシャフト３７と、超小型撮像素子などの撮影部を内蔵した先端部３８と、画像処理装置１と接続するための接続部３９とを有する。

　図１に示される内視鏡検査システム１００の構成は一例であり、種々の変更が行われてもよい。例えば、画像処理装置１は、表示装置２と一体に構成されてもよい。他の例では、画像処理装置１は、複数の装置から構成されてもよい。

　なお、本開示における内視鏡検査の被検体は、大腸、食道、胃、膵臓などの内視鏡検査が可能な任意の臓器であってもよい。例えば、本開示において対象となる内視鏡は、咽頭内視鏡、気管支鏡、上部消化管内視鏡、十二指腸内視鏡、小腸内視鏡、大腸内視鏡、カプセル内視鏡、胸腔鏡、腹腔鏡、膀胱鏡、胆道鏡、関節鏡、脊椎内視鏡、血管内視鏡、硬膜外腔内視鏡などが挙げられる。また、内視鏡検査において検知対象となる病変部位の病状は、以下の（ａ）～（ｆ）ように例示される。

　（ａ）頭頚部：咽頭ガン、悪性リンパ腫、乳頭腫
　（ｂ）食道：食道ガン、食道炎、食道裂孔ヘルニア、食道静脈瘤、食道アカラシア、食道粘膜下腫瘍、食道良性腫瘍
　（ｃ）胃：胃ガン、胃炎、胃潰瘍、胃ポリープ、胃腫瘍
　（ｄ）十二指腸：十二指腸ガン、十二指腸潰瘍、十二指腸炎、十二指腸腫瘍、十二指腸リンパ腫
　（ｅ）小腸：小腸ガン、小腸腫瘍性疾患、小腸炎症性疾患、小腸血管性疾患
　（ｆ）大腸：大腸ガン、大腸腫瘍性疾患、大腸炎症性疾患、大腸ポリープ、大腸ポリポーシス、クローン病、大腸炎、腸結核、痔

　（２）ハードウェア構成
　図２は、画像処理装置１のハードウェア構成を示す。画像処理装置１は、主に、プロセッサ１１と、メモリ１２と、インターフェース１３と、入力部１４と、光源部１５と、音出力部１６と、を含む。これらの各要素は、データバス１９を介して接続されている。

　プロセッサ１１は、メモリ１２に記憶されているプログラム等を実行することにより、所定の処理を実行する。プロセッサ１１は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＴＰＵ（Ｔｅｎｓｏｒ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）などのプロセッサである。プロセッサ１１は、複数のプロセッサから構成されてもよい。プロセッサ１１は、コンピュータの一例である。

　メモリ１２は、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）などの、作業メモリとして使用される各種の揮発性メモリ及び画像処理装置１の処理に必要な情報を記憶する不揮発性メモリにより構成される。なお、メモリ１２は、画像処理装置１に接続又は内蔵されたハードディスクなどの外部記憶装置を含んでもよく、着脱自在なフラッシュメモリなどの記憶媒体を含んでもよい。メモリ１２には、画像処理装置１が本実施形態における各処理を実行するためのプログラムが記憶される。

　また、メモリ１２は、病変領域推論モデルに関する情報である病変領域推論モデル情報Ｄ１を記憶している。病変領域推論モデルは、内視鏡検査において検知対象となる疾患に該当する病変領域に関する推論結果を生成する機械学習モデルであり、当該モデルに必要なパラメータが病変領域推論モデル情報Ｄ１に記憶されている。病変領域推論モデルは、例えば、内視鏡画像が入力された場合に、入力された内視鏡画像における病変領域を示す推論結果を出力する。病変領域推論モデルは、ニューラルネットワークやサポートベクターマシーンなどの任意の機械学習において採用されるアーキテクチャを含むモデル（統計モデルを含む、以下同じ。）であってもよい。このようなニューラルネットワークの代表モデルとして、例えば、ＦｕｌｌｙＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋ、ＳｅｇＮｅｔ、Ｕ－Ｎｅｔ、Ｖ－Ｎｅｔ、ＦｅａｔｕｒｅＰｙｒａｍｉｄＮｅｔｗｏｒｋ、ＭａｓｋＲ－ＣＮＮ、ＤｅｅｐＬａｂなどが存在する。病変領域推論モデルがニューラルネットワークにより構成される場合、病変領域推論モデル情報Ｄ１は、例えば、層構造、各層のニューロン構造、各層におけるフィルタ数及びフィルタサイズ、並びに各フィルタの各要素の重みなどの各種パラメータを含む。

　ここで、病変領域推論モデルが出力する推論結果は、例えば、入力された内視鏡画像の単位領域ごとに、病変領域であることの信頼度を表すスコア（「病変信頼度スコア」とも呼ぶ。）のマップである。上述のマップを、以後では、「病変信頼度マップ」とも呼ぶ。例えば、病変信頼度マップは、病変信頼度スコアを単位画素（サブピクセルを含んでもよい）又は画素群ごとに示した画像である。なお、病変信頼度スコアは、病変信頼度スコアが高い領域ほど、病変領域である信頼度が高いことを表すものとする。なお、病変信頼度マップは、病変領域を２値により示したマスク画像であってもよい。このように、病変領域推論モデルは、病変領域推論モデルに入力される画像と、当該画像における病変領域との関係を学習したモデルである。

　なお、病変領域推論モデルは、病変領域推論モデルの入力形式に即した入力画像と当該入力画像が入力された場合に病変領域推論モデルが出力すべき推論結果の正解を示す正解データ（本実施形態では正解の病変信頼度マップ）との組に基づき予め学習される。そして、学習により得られた各モデルのパラメータ等が病変領域推論モデル情報Ｄ１としてメモリ１２に記憶される。

　また、メモリ１２には、画像処理装置１が本実施形態における各処理を実行するために必要なその他の情報を任意に含んでもよい。

　なお、病変領域推論モデル情報Ｄ１は、画像処理装置１とは別の記憶装置に記憶されてもよい。この場合、画像処理装置１は、上述の記憶装置から病変領域推論モデル情報Ｄ１を受信する。

　インターフェース１３は、画像処理装置１と外部装置とのインターフェース動作を行う。例えば、インターフェース１３は、プロセッサ１１が生成した表示情報「Ｉｂ」を表示装置２に供給する。また、インターフェース１３は、光源部１５が生成する光等を内視鏡スコープ３に供給する。また、インターフェース１３は、内視鏡スコープ３から供給される内視鏡画像Ｉａを示す電気信号をプロセッサ１１に供給する。インターフェース１３は、外部装置と有線又は無線により通信を行うためのネットワークアダプタなどの通信インターフェースであってもよく、ＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）、ＳＡＴＡ（Ｓｅｒｉａｌ　ＡＴ　Ａｔｔａｃｈｍｅｎｔ）などに準拠したハードウェアインターフェースであってもよい。

　入力部１４は、検査者による操作に基づく入力信号を生成する。入力部１４は、例えば、ボタン、タッチパネル、リモートコントローラ、音声入力装置等である。光源部１５は、内視鏡スコープ３の先端部３８に供給するための光を生成する。また、光源部１５は、内視鏡スコープ３に供給する水や空気を送り出すためのポンプ等も内蔵してもよい。音出力部１６は、プロセッサ１１の制御に基づき音を出力する。

　（３）病変検知処理
　病変領域の検知に関する処理である病変検知処理について説明する。概略的には、画像処理装置１は、内視鏡画像Ｉａをデータ拡張（即ちデータオーグメンテーション）により「Ｎ」枚（Ｎは２以上の整数）の画像に増やし、Ｎ枚の画像の夫々を病変領域推論モデルに入力して得られる推論結果を統合する。これにより、画像処理装置１は、生検を行う候補箇所となる病変領域を的確に検知する。

　（３－１）概要説明
　図３は、第１実施形態における画像処理装置１が実行する病変検知処理の概要を示す図である。

　まず、画像処理装置１は、内視鏡スコープ３から所定のフレーム周期により得られる各内視鏡画像Ｉａから、データ拡張により、N枚の画像を、病変領域推論モデルに入力する画像（「モデル入力画像」とも呼ぶ。）として生成する。図３の例では、一例として、画像処理装置１は、内視鏡画像Ｉａに対して０度、９０度、１８０度、２７０度の時計回りへの回転操作を行うことで、４枚（即ちＮ＝４）のモデル入力画像を生成している。なお、回転操作の他、画像サイズの変更操作、輝度の変更操作（輝度の正規化の有無の指定を含む）、色の変更操作（赤みの強弱の調整を含む）、又はこれらの組み合わせなどの任意の操作をデータ拡張の手法として採用してもよい。

　次に、画像処理装置１は、各モデル入力画像を病変領域推論モデルに入力し、当該病変領域推論モデルが出力する病変領域に関する推論結果である病変信頼度マップを取得する。図３では、一例として、病変信頼度マップは、病変領域であるか否かを２値（ここでは、白が病変領域）により示したマスク画像であるものとする。

　そして、画像処理装置１は、Ｎ枚（Ｎ＝４）の病変信頼度マップを重み付け平均により統合した画像（「統合画像」とも呼ぶ。）を生成する。ここでは、合計値が１となる重み係数「ｗｉ」（ｉは推論結果のインデックスであり、ｉ＝１，…，Ｎ）が用いられており、Ｎ枚の病変信頼度マップの画素ごとの病変信頼度スコアを重み係数を用いて平均化することで、統合画像の画素ごとの病変信頼度スコアを決定する。図３では、統合画像において、白に近づくほど、病変信頼度スコアが高い（即ち病変領域である確信度が高い）箇所を示すものとする。なお、データ拡張において画像の回転やサイズの拡大縮小などの幾何学的画像変換を行った場合は、原画像の角度や画像サイズに戻したうえで統合する。従って、図３の例では、画像処理装置１は、病変信頼度マップの各々に対し、０度、９０度、１８０度、２７０度の逆方向（反時計回り）への回転操作（即ち、モデル入力画像の生成時の回転操作を戻す回転操作）を行うことで得られる画像に対し、重み付け平均による統合を行う。

　そして、画像処理装置１は、統合画像において、病変領域である確信度が所定度合い以上であることを示す画素値を有する画素を病変領域とみなし、最終的な病変検知結果を示す画像（ここでは病変領域を表すマスク画像）を生成する。画像処理装置１は、このマスク画像を内視鏡画像Ｉａと共に表示する。

　ここで、一般的に、病変検知に用いる内視鏡画像Ｉａは多種多様な病変を含んでいる可能性があり、かつ、内視鏡画像Ｉａの撮影環境も多種多様であり、病変領域の正確な検知は非常に困難である場合がある。例えば、内視鏡画像Ｉａに含まれる病変には、隆起型、平坦型、陥凹型などのタイプが存在し、形状は逐次変化する。また、撮影環境は、病変位置、照明条件、水しぶきの有無、ブレ・ボケの有無によって異なる。従って、生検を行う候補箇所となる病変領域は、医師の間でも一致しないことがある。

　以上を勘案し、画像処理装置１は、複数の推論結果を生成し、その推論結果を統合することで最終的な病変領域を特定する。これにより、生検箇所の候補となる病変領域を好適に検査者に提示することが可能となる。

　（３－２）機能ブロック
　図４は、第１実施形態における病変検知処理の機能ブロックの一例である。画像処理装置１のプロセッサ１１は、機能的には、内視鏡画像取得部３０と、変換部３１と、推論部３２と、統合部３３と、病変検知部３４と、表示制御部３５と、を有する。なお、図４では、データの授受が行われるブロック同士を実線により結んでいるが、データの授受が行われるブロックの組合せはこれに限定されない。後述する他の機能ブロックの図においても同様である。

　内視鏡画像取得部３０は、インターフェース１３を介して内視鏡スコープ３が撮影した内視鏡画像Ｉａを所定間隔により取得する。そして、内視鏡画像取得部３０は、取得した内視鏡画像Ｉａを、変換部３１及び表示制御部３５に夫々供給する。そして、内視鏡画像取得部３０が内視鏡画像Ｉａを取得する時間間隔を周期として、後段の各処理部が後述の処理を行う。以後では、このフレーム周期ごとの時刻を「処理時刻」とも呼ぶ。

　変換部３１は、データ拡張により、内視鏡画像ＩａからN枚のモデル入力画像を生成する。この場合、変換部３１は、例えば、内視鏡画像Ｉａに対して、回転操作、画像サイズの変更操作、輝度の変更操作、または色の変更操作、又はこれらの任意の組み合わせの操作を行うことで、互いに異なるＮ枚のモデル入力画像を生成する。なお、データ拡張の手法は、例示した各種操作に限定されず、データ拡張に用いられる任意の操作であってもよい。変換部３１は、生成したＮ枚のモデル入力画像を推論部３２に供給する。

　推論部３２は、Ｎ枚のモデル入力画像と、病変領域推論モデル情報Ｄ１を参照することで構成した病変領域推論モデルと、に基づき、病変領域に関する推論結果であるＮ個の病変信頼度マップを取得する。この場合、推論部３２は、Ｎ枚のモデル入力画像の各々を病変領域推論モデルに入力し、当該病変領域推論モデルが出力するＮ個の病変信頼度マップを取得する。推論部３２は、Ｎ個の病変信頼度マップを統合部３３に供給する。

　統合部３３は、Ｎ枚の病変信頼度マップを重み付け平均により統合した統合画像を生成する。この場合、推論部３２は、変換部３１での変換操作を戻すように各病変信頼度マップの角度や画像サイズを変換した後、合計値が１となる重み係数ｗｉ（ｉ＝１，…，Ｎ）を各病変信頼度マップに設定し、Ｎ枚の病変信頼度マップの画素ごとの病変信頼度スコアに、対応する重み係数ｗｉを乗じた値を足し合わせることで、統合画像の画素ごとの値である病変信頼度スコアを決定する。重み係数ｗｉは、例えば、対応するモデル入力画像又は病変信頼度マップと、病変領域推論モデルの学習に用いる入力画像又は正解データを代表する画像（「代表画像」とも呼ぶ。）との類似度に基づき決定される。他の例では、重み係数ｗｉは、重みが均等となるように、インデックスｉによらずに全て等しい値（即ち、「１／Ｎ」）に設定される。重み係数ｗｉの決定方法については後述する。統合部３３は、生成した統合画像を病変検知部３４に供給する。

　病変検知部３４は、統合画像に基づき、病変領域の存否の判定及び病変領域が存在する場合の病変領域の特定を行う。この場合、例えば、病変検知部３４は、所定の閾値以上となる病変信頼度スコアを有する統合画像の画素が所定個数以上存在する場合に、病変領域が存在すると判定し、所定の閾値以上となる病変信頼度スコアを有する統合画像の画素を病変領域として特定する。なお、病変検知部３４は、所定の閾値以上となる病変信頼度スコアを有する画素について隣接画素同士を同一のクラスタとするクラスタリングを行い、所定個数以上の画素を有するクラスタを病変領域とみなしてもよい。病変検知部３４は、病変領域の存否の判定結果及び特定した病変領域を示す情報を、病変検知結果として表示制御部３５に供給する。

　表示制御部３５は、内視鏡画像取得部３０から供給される最新の内視鏡画像Ｉａと、病変検知部３４から供給される病変検知結果とに基づき、表示情報Ｉｂを生成し、生成した表示情報Ｉｂを表示装置２に供給することで、最新の内視鏡画像Ｉａ及び病変検知結果等を表示装置２に表示させる。なお、表示制御部３５は、病変検知結果に基づき、病変部位が検知されたことをユーザに通知する警告音又は音声案内等を出力するように、音出力部１６の音出力制御を行ってもよい。

　なお、内視鏡画像取得部３０、変換部３１、推論部３２、統合部３３、病変検知部３４、及び表示制御部３５の各構成要素は、例えば、プロセッサ１１がプログラムを実行することによって実現できる。また、必要なプログラムを任意の不揮発性記憶媒体に記録しておき、必要に応じてインストールすることで、各構成要素を実現するようにしてもよい。なお、これらの各構成要素の少なくとも一部は、プログラムによるソフトウェアで実現することに限ることなく、ハードウェア、ファームウェア、及びソフトウェアのうちのいずれかの組合せ等により実現してもよい。また、これらの各構成要素の少なくとも一部は、例えばＦＰＧＡ（Ｆｉｅｌｄ－Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）又はマイクロコントローラ等の、ユーザがプログラミング可能な集積回路を用いて実現してもよい。この場合、この集積回路を用いて、上記の各構成要素から構成されるプログラムを実現してもよい。また、各構成要素の少なくとも一部は、ＡＳＳＰ（Ａｐｐｌｉｃａｔｉｏｎ　Ｓｐｅｃｉｆｉｃ　Ｓｔａｎｄａｒｄ　Ｐｒｏｄｕｃｅ）、ＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎ　Ｓｐｅｃｉｆｉｃ　Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）又は量子プロセッサ（量子コンピュータ制御チップ）により構成されてもよい。このように、各構成要素は、種々のハードウェアにより実現されてもよい。以上のことは、後述する他の実施の形態においても同様である。さらに、これらの各構成要素は、例えば、クラウドコンピューティング技術などを用いて、複数のコンピュータの協働によって実現されてもよい。

　（３－３）重み係数の設定例
　次に、重み係数ｗｉをインデックスｉごとに設定する場合の統合部３３による重み係数ｗｉの設定例について説明する。この場合、統合部３３は、各モデル入力画像又はその病変信頼度マップと、検知対象となる病変領域を含んだ画像を代表する代表画像との類似度に基づき、重み係数ｗｉを決定する。

　図５（Ａ）は、インデックスｉのモデル入力画像と代表画像との類似度を算出する例を示す。この例では、統合部３３は、代表画像として、病変領域推論モデルの学習に用いられ、病変領域を含む学習用の内視鏡画像（「学習用病変画像」とも呼ぶ。）を用い、モデル入力画像との類似度をインデックスｉごとに算出する。

　なお、図５（Ａ）の例では、任意の１枚の学習用病変画像を代表画像として定めているが、これに限らず、例えば、統合部３３は、複数枚の学習用病変画像の平均画像又は平均以外の任意の統計的手法により統合した画像を、代表画像として定めてもよい。他の例では、統合部３３は、複数枚の学習用病変画像を代表画像として夫々定め、各学習用病変画像とインデックスｉのモデル入力画像との類似度の平均を、重み係数ｗｉの決定に用いる類似度として定めてもよい。

　なお、モデル入力画像と代表画像との類似度として、画像間の比較（即ち画像同士の比較）に基づく任意の類似度の指標を算出してもよい。この場合の類似度の指標は、例えば、相関係数、ＳＳＩＭ（Ｓｔｒｕｃｔｕｒａｌ　ＳＩＭｉｌａｒｉｔｙ）指標、ＰＳＮＲ（Ｐｅａｋ　Ｓｉｇｎａｌ－ｔｏ－Ｎｏｉｓｅ　Ｒａｔｉｏ）指標、対応する画素同士の二乗誤差などが挙げられる。また、統合部３３は、モデル入力画像と代表画像とを、夫々サイズを正規化した上でベクトル化し、これらのベクトルのコサイン類似度を、類似度として算出してもよい。

　そして、統合部３３は、インデックスｉごとに上述する類似度を算出し、類似度が高いインデックスｉほど、重み係数ｗｉを大きい値に設定する。例えば、インデックスｉの類似度を「Ｓｉ」とすると、統合部３３は、重み係数ｗｉを、類似度Ｓｉの合計値を表す「ΣＳｉ」を用いた以下の式により設定する。
　ｗｉ＝Ｓｉ／ΣＳｉ
　この例によれば、全てのインデックスｉの合計値Σｗｉが１となり、かつ、対応する類似度Ｓｉが高いほど高い値となる重み係数ｗｉを設定することができる。

　図５（Ｂ）は、インデックスｉのモデル入力画像の病変信頼度マップ（ここではマスク画像）と代表画像との類似度を算出する例を示す。この例では、統合部３３は、代表画像として、学習用病変画像に対してアノテーションされた病変領域推論モデルが出力すべき正解の病変信頼度マップ（ここでは病変領域を示すマスク画像）を用いる。そして、統合部３３は、学習に用いられた正解の病変信頼度マップと、モデル入力画像から病変領域推論モデルが生成した病変信頼度マップとの類似度をインデックスｉごとに算出する。

　なお、図５（Ｂ）の例では、任意の１枚の学習用病変画像に対する正解の病変信頼度マップを代表画像として定めているが、これに限らず、複数枚の学習用病変画像に対する正解の病変信頼度マップの平均画像又は平均以外の任意の統計的手法により病変信頼度マップを統合した画像を、代表画像として定めてもよい。

　そして、統合部３３は、学習用病変画像の病変信頼度マップと、モデル入力画像の病変信頼度マップとの類似度として、画像間の比較に基づく任意の類似度の指標を算出する。そして、統合部３３は、全てのインデックスｉでの合計値Σｗｉが１となり、かつ、対応する類似度が高いほど高い値となるように、重み係数ｗｉを設定する。類似度の算出方法及び類似度に基づく重み係数ｗｉの設定方法の具体例については、図５（Ａ）の例において示した例と同一である。

　（３－４）表示例
　図６は、内視鏡検査において表示装置２が表示する表示画面例を示す。画像処理装置１の表示制御部３５は、内視鏡画像取得部３０が取得する内視鏡画像Ｉａと病変検知部３４による病変検知結果等とに基づき生成した表示情報Ｉｂを表示装置２に出力する。表示制御部３５は、内視鏡画像Ｉａ及び表示情報Ｉｂを表示装置２に送信することで、上述の表示画面を表示装置２に表示させている。図６に示す表示画面例では、画像処理装置１の表示制御部３５は、リアルタイム画像表示領域７０と、病変検知結果表示領域７１と、を表示画面上に設けている。

　ここで、表示制御部３５は、リアルタイム画像表示領域７０において、最新の内視鏡画像Ｉａを表す動画像を表示する。さらに、病変検知結果表示領域７１において、表示制御部３５は、病変検知部３４による病変検知結果を表示する。なお、図６に示す表示画面の表示時点において、病変部位が存在すると病変検知部３４が判定したことから、表示制御部３５は、病変検知結果に基づき、病変が存在する可能性が高い旨のテキストメッセージと、病変領域を示すマスク画像とを、病変検知結果表示領域７１に表示している。なお、表示制御部３５は、病変が存在する可能性が高い旨のテキストメッセージを病変検知結果表示領域７１に表示することに代えて、又はこれに加えて、病変が存在する可能性が高い旨を通知する音（音声を含む）を、音出力部１６により出力してもよい。

　（３－５）処理フロー
　図７は、第１実施形態において内視鏡検査時に画像処理装置１が実行する処理の概要を示すフローチャートの一例である。

　まず、画像処理装置１は、内視鏡画像Ｉａを取得する（ステップＳ１１）。この場合、画像処理装置１の内視鏡画像取得部３０は、インターフェース１３を介して内視鏡スコープ３から内視鏡画像Ｉａを受信する。

　次に、画像処理装置１は、ステップＳ１１で取得された内視鏡画像Ｉａからデータ拡張により、夫々異なるＮ枚のモデル入力画像を生成する（ステップＳ１２）。そして、画像処理装置１は、病変領域推論モデル情報Ｄ１を参照して構成される病変領域推論モデルにより、各モデル入力画像から病変信頼度マップを生成する（ステップＳ１３）。この場合、画像処理装置１は、各モデル入力画像を病変領域推論モデルに入力することで病変領域推論モデルから出力される病変信頼度マップを取得する。

　そして、画像処理装置１は、病変信頼度マップごとに重み係数ｗｉを算出する（ステップＳ１４）。この場合、例えば、画像処理装置１は、インデックスｉ（ｉ＝１，…，Ｎ）ごとに、モデル入力画像又は病変信頼度マップと対応する代表画像との類似度に基づき、重み係数ｗｉを設定する。また、画像処理装置１は、ステップＳ１２でのデータ拡張による変換操作を戻すように、各病変信頼度マップの角度やサイズの変換操作を行う。

　次に、画像処理装置１は、病変信頼度マップを重み係数ｗｉを用いて統合した統合画像を生成する（ステップＳ１５）。そして、画像処理装置１は、統合画像に基づき、病変検知結果を生成する（ステップＳ１６）。そして、画像処理装置１は、ステップＳ１１で得られた内視鏡画像Ｉａと、ステップＳ１６で生成した病変検知結果とに基づく情報を表示装置２に表示する（ステップＳ１７）。

　そして、画像処理装置１は、ステップＳ１７の後、内視鏡検査が終了したか否か判定する（ステップＳ１８）。例えば、画像処理装置１は、入力部１４又は操作部３６への所定の入力等を検知した場合に、内視鏡検査が終了したと判定する。そして、画像処理装置１は、内視鏡検査が終了したと判定した場合（ステップＳ１８；Ｙｅｓ）、フローチャートの処理を終了する。一方、画像処理装置１は、内視鏡検査が終了していないと判定した場合（ステップＳ１８；Ｎｏ）、ステップＳ１１へ処理を戻す。そして、画像処理装置１は、内視鏡スコープ３が新たに生成する内視鏡画像Ｉａに対してステップＳ１１～ステップＳ１７の処理を実行する。

　（４）変形例
　画像処理装置１は、内視鏡検査時に生成された内視鏡画像Ｉａから構成された映像を、検査後において処理してもよい。

　例えば、画像処理装置１は、検査後の任意のタイミングにおいて、入力部１４によるユーザ入力等に基づき、処理を行う対象となる映像が指定された場合に、当該映像を構成する時系列の内視鏡画像Ｉａに対して逐次的に図７のフローチャートの処理を行う。そして、画像処理装置１は、ステップＳ１８において対象の映像が終了したと判定した場合に、フローチャートの処理を終了し、対象の映像が終了していない場合にはステップＳ１１に戻り、時系列において次の内視鏡画像Ｉａを対象としてフローチャートの処理を行う。

　また、検知対象は病変領域に限らず、検査者が注目する必要がある任意の注目箇所を表す内視鏡画像Ｉａ内の領域（「注目領域」とも呼ぶ。）であってもよい。このような注目箇所は、病変領域、炎症が生じている箇所、手術痕その他の切り傷が生じている箇所、ひだや突起が生じている箇所、内視鏡スコープ３の先端部３８が管腔内の壁面において接触しやすい（閊えやすい）箇所などであってもよい。

　なお、本変形例は、後述する第２実施形態及び第３実施形態にも同様に適用される。

　＜第２実施形態＞
　第２実施形態に係る画像処理装置１は、内視鏡画像Ｉａから生成したＮ枚のモデル入力画像からＮ個の病変信頼度マップを生成する代わりに、異なるＮ個の病変領域推論モデルを用いて内視鏡画像ＩａからＮ個の病変信頼度マップを生成する点において、第１実施形態と異なる。以後では、第１実施形態と同様の構成要素については適宜同一符号を付し、その説明を省略する。なお、第２実施形態に係る画像処理装置１のハードウェア構成は、第１実施形態において説明した図２に示す構成と同一であるものとする。

　図８は、第２実施形態における画像処理装置１が実行する病変検知処理の概要を示す図である。

　まず、画像処理装置１は、内視鏡スコープ３から所定のフレーム周期により得られる各内視鏡画像Ｉａを、Ｎ個の病変領域推論モデル（ここではモデルＡ～モデルＤ）に夫々入力する。これにより、画像処理装置１は、Ｎ個の病変領域推論モデルから計Ｎ個の病変信頼度マップを取得する。

　ここで、Ｎ個の病変領域推論モデルは、アーキテクチャ又は学習に用いた学習データの少なくとも一方が他の病変領域推論モデルと異なっている。これにより、Ｎ個の病変領域推論モデルは、同一の内視鏡画像Ｉａが入力された場合であっても、夫々異なる推論結果を生成する。

　アーキテクチャが異なる例は、例えば、深層学習モデルの場合、層構造、各層のニューロン構造、各層におけるフィルタ数及びフィルタサイズ、並びに各フィルタの各要素の重みの少なくともいずれかが異なる場合が挙げられる。また、Ｎ個の病変領域推論モデルには、深層学習モデル以外のモデル（例えばサポートベクターマシーンに基づくモデル）又は深層学習モデルと深層学習モデル以外のモデルとの組み合わせが含まれていてもよい。

　また、学習データが異なる例では、内視鏡スコープのベンダーごとに、内視鏡画像及び病変領域の正解データの組となる学習データのセット（即ちＮ社分のベンダーに対応する学習データのセット）が用意され、ベンダーごとの学習データのセットによりＮ個の病変領域推論モデルが学習される。学習データが異なる他の例では、病変タイプ（隆起型、平坦型、陥凹型など）ごとに、内視鏡画像及び病変領域の正解データの組となる学習データのセット（即ちＮ個分の病変タイプに対応する学習データのセット）が用意され、病変タイプごとの学習データのセットによりＮ個の病変領域推論モデルが学習される。

　そして、画像処理装置１は、Ｎ個の病変信頼度マップを重み係数ｗｉにより重み付けして統合した統合画像を生成する。この場合、画像処理装置１は、Ｎ枚の病変信頼度マップの画素ごとの病変信頼度スコアに、対応する重み係数を乗じた値を足し合わせることで、統合画像の画素ごとの病変信頼度スコアを決定する。

　そして、画像処理装置１は、統合画像において、病変領域である確信度が所定度合い以上であることを示す病変信頼度スコアを有する画素を病変領域とみなし、最終的な病変検知結果を示す画像（ここでは病変領域を表すマスク画像）を生成する。画像処理装置１は、このマスク画像を内視鏡画像Ｉａと共に表示する。

　このように、第２実施形態における画像処理装置１は、複数の推論結果を生成し、その推論結果を統合することで最終的な病変領域を特定する。これにより、生検箇所の候補となる病変領域を好適に検査者に提示することが可能となる。

　図９は、第２実施形態での病変検知処理に関する画像処理装置１の機能ブロック図である。第２実施形態に係る画像処理装置１のプロセッサ１１は、機能的には、内視鏡画像取得部３０Ａと、推論部３２Ａと、統合部３３Ａと、病変検知部３４Ａと、表示制御部３５Ａと、を有する。また、メモリ１２には、Ｎ個の病変領域推論モデルの学習済みのパラメータを少なくとも含んだ病変領域推論モデル情報Ｄ１が記憶されている。

　内視鏡画像取得部３０Ａは、インターフェース１３を介して内視鏡スコープ３が撮影した内視鏡画像Ｉａを所定間隔により取得する。そして、内視鏡画像取得部３０Ａは、取得した内視鏡画像Ｉａを、推論部３２Ａ及び表示制御部３５Ａに夫々供給する。

　推論部３２Ａは、内視鏡画像Ｉａと、病変領域推論モデル情報Ｄ１を参照することで構成したＮ個の病変領域推論モデルと、に基づき、病変領域に関する推論結果であるＮ個の病変信頼度マップを取得する。この場合、推論部３２Ａは、内視鏡画像ＩａをＮ個の病変領域推論モデルに夫々入力し、当該病変領域推論モデルが出力するＮ個の病変信頼度マップを取得する。推論部３２Ａは、Ｎ個の病変信頼度マップを統合部３３Ａに供給する。

　統合部３３Ａは、Ｎ枚の病変信頼度マップを重み付け平均により統合した統合画像を生成する。この場合、例えば、統合部３３Ａは、重み係数ｗｉを、インデックスｉによらずに全て等しい値（即ち、「１／Ｎ」）に設定する。他の例では、統合部３３Ａは、重み係数ｗｉを、インデックスｉごとの病変信頼度マップと、代表画像との類似度に基づき設定する。この場合、代表画像は、例えば、インデックスｉに対応する病変領域推論モデルの学習に用いられた正解の病変信頼度マップとなる。なお、「正解の病変信頼度マップ」には、複数枚の学習用病変画像に対応する正解データが示す病変信頼度マップの平均画像又は平均以外の任意の統計的手法により当該病変信頼度マップを統合した画像が含まれる。このように、代表画像は、インデックスｉごとに対応する病変領域推論モデルに用いられた学習データに応じて予め用意されてもよい。

　病変検知部３４Ａは、統合部３３Ａが生成した統合画像に基づき、病変領域の存否の判定及び病変領域が存在する場合の病変領域の特定を行い、病変領域の存否の判定結果及び特定した病変領域を示す情報を、病変検知結果として表示制御部３５Ａに供給する。なお、病変検知部３４Ａが実行する処理は、病変検知部３４が実行する処理と同一である。

　表示制御部３５Ａは、内視鏡画像取得部３０Ａから供給される最新の内視鏡画像Ｉａと、病変検知部３４Ａから供給される病変検知結果とに基づき、表示情報Ｉｂを生成し、生成した表示情報Ｉｂを表示装置２に供給することで、最新の内視鏡画像Ｉａ及び病変検知結果等を表示装置２に表示させる。なお、表示制御部３５Ａが実行する処理は、表示制御部３５が実行する処理と同一である。

　図１０は、第２実施形態において内視鏡検査時に画像処理装置１が実行する処理の概要を示すフローチャートの一例である。

　まず、画像処理装置１は、内視鏡画像Ｉａを取得する（ステップＳ２１）。次に、画像処理装置１は、病変領域推論モデル情報Ｄ１を参照して構成されるＮ個の病変領域推論モデルにより、ステップＳ１１で取得された内視鏡画像ＩａからＮ個の病変信頼度マップを生成する（ステップＳ２２）。この場合、画像処理装置１は、内視鏡画像Ｉａを各病変領域推論モデルに入力することで各病変領域推論モデルから出力される病変信頼度マップを取得する。

　そして、画像処理装置１は、病変信頼度マップごとに重み係数ｗｉを算出する（ステップＳ２３）。この場合、例えば、画像処理装置１は、インデックスｉ（ｉ＝１，…，Ｎ）ごとに用意された代表画像と、インデックスｉに対応する病変信頼度マップとの類似度に基づき、重み係数ｗｉを設定する。

　次に、画像処理装置１は、病変信頼度マップを重み係数ｗｉを用いて統合した統合画像を生成する（ステップＳ２４）。そして、画像処理装置１は、統合画像に基づき、病変検知結果を生成する（ステップＳ２５）。そして、画像処理装置１は、ステップＳ１１で得られた内視鏡画像Ｉａと、ステップＳ２５で生成した病変検知結果とに基づく情報を表示装置２に表示する（ステップＳ２６）。

　そして、画像処理装置１は、ステップＳ２６の後、内視鏡検査が終了したか否か判定する（ステップＳ２７）。そして、画像処理装置１は、内視鏡検査が終了したと判定した場合（ステップＳ２７；Ｙｅｓ）、フローチャートの処理を終了する。一方、画像処理装置１は、内視鏡検査が終了していないと判定した場合（ステップＳ２７；Ｎｏ）、ステップＳ２１へ処理を戻す。そして、画像処理装置１は、内視鏡スコープ３が新たに生成する内視鏡画像Ｉａに対してステップＳ２１～ステップＳ２６の処理を実行する。

　＜第３実施形態＞
　第３実施形態に係る画像処理装置１は、１つの病変領域推論モデルに対して異なるＮ個のパターン（Ｎパターン）の設定条件を適用して内視鏡画像ＩａからＮ個の病変信頼度マップを生成する点において、第１実施形態又は第２実施形態と異なる。以後では、第１実施形態又は第２実施形態と同様の構成要素については適宜同一符号を付し、その説明を省略する。

　なお、第３実施形態に係る画像処理装置１のハードウェア構成は、第１実施形態において説明した図２に示す構成と同一であるものとする。また、第３実施形態での病変検知処理に関する画像処理装置１の機能ブロックは、例えば、第２実施形態において説明した図9に示される構成と同一である。

　図１１は、第３実施形態における画像処理装置１が実行する病変検知処理の概要を示す図である。

　まず、画像処理装置１は、内視鏡スコープ３から所定のフレーム周期により得られる各内視鏡画像Ｉａを、Ｎパターンの設定条件（ここでは設定条件ａ～ｄ）を適用した病変領域推論モデル（ここではモデルＡ）に入力する。これにより、画像処理装置１は、Ｎパターンの設定条件が適用された病変領域推論モデルから計Ｎ個の病変信頼度マップを取得する。言い換えると、画像処理装置１は、処理時刻ごとに得られる内視鏡画像Ｉａを、病変領域推論モデルに、病変領域推論モデルの設定条件を変えながらＮ回入力することで、当該病変領域推論モデルから出力されるＮ個の推論結果を取得する。

　ここで、設定条件は、例えば、ユーザが入力により調整可能な病変領域推論モデルの設定パラメータであり、各画素の病変信頼度スコアに応じて、当該画素が病変領域であるか否かを決定する閾値パラメータであってもよい。具体的には、病変信頼度スコアは０～１の値（１の時、当該画素がもっとも病変らしいとする）をとることとし、ある画素の病変信頼度スコアが閾値パラメータより小さいとき、当該画素の病変信頼度スコアを０とすることで、当該画素を非病変領域とすることができる。このとき、例えば閾値パラメータを１に近い値に設定したとき、推論モデルがより病変らしいと推論する領域のみが病変領域となり、それ以外の領域は非病変領域となる。逆に、閾値パラメータを０に近い値に設定したとき、推論モデルが病変ではないと推論する領域も病変領域となる。これは、前者が推定された病変領域が正しく病変領域であることを重視し、非病変領域を誤って病変領域と推定しないことを意図した（適合率を重視した）設定であり、後者が非病変領域を病変領域として含むことを許容した上で、病変領域の検知漏れを許さないことを意図した（再現率を重視した）設定となる。このように意図の異なる（例えば、再現率を重視するか又は適合率を重視するかで異なる）複数の病変領域推論モデルの設定パラメータで各々の信頼度マップを生成することができる。

　そして、画像処理装置１は、Ｎ個の病変信頼度マップを重み係数ｗｉにより重み付けして統合した統合画像を生成する。この場合、画像処理装置１は、Ｎ枚の病変信頼度マップの画素ごとの病変信頼度スコアに、対応する重み係数を乗じた値を足し合わせることで、統合画像の画素値を決定する。

　このように、第３実施形態における画像処理装置１は、複数の推論結果を生成し、その推論結果を統合することで最終的な病変領域を特定する。これにより、生検箇所の候補となる病変領域を好適に検査者に提示することが可能となる。

　図１２は、第３実施形態において内視鏡検査時に画像処理装置１が実行する処理の概要を示すフローチャートの一例である。

　まず、画像処理装置１は、内視鏡画像Ｉａを取得する（ステップＳ３１）。次に、画像処理装置１は、病変領域推論モデル情報Ｄ１を参照して構成される１個の病変領域推論モデルに対し、Ｎパターンの設定条件を適用し、ステップＳ１１で取得された内視鏡画像ＩａからＮ個の病変信頼度マップを生成する（ステップＳ３２）。この場合、画像処理装置１は、処理時刻ごとに得られる内視鏡画像Ｉａを、病変領域推論モデルに、病変領域推論モデルの設定条件を変えながらＮ回入力することで、当該病変領域推論モデルから出力されるＮ個の病変信頼度マップ（即ち推論結果）を取得する。

　そして、画像処理装置１は、病変信頼度マップごとに重み係数ｗｉを算出する（ステップＳ３３）。この場合、例えば、画像処理装置１は、全てのインデックスｉにおいて共通の代表画像と、インデックスｉに対応する病変信頼度マップとの類似度に基づき、重み係数ｗｉを設定する。

　次に、画像処理装置１は、病変信頼度マップを重み係数ｗｉを用いて統合した統合画像を生成する（ステップＳ３４）。そして、画像処理装置１は、統合画像に基づき、病変検知結果を生成する（ステップＳ３５）。そして、画像処理装置１は、ステップＳ１１で得られた内視鏡画像Ｉａと、ステップＳ２５で生成した病変検知結果とに基づく情報を表示装置２に表示する（ステップＳ３６）。

　そして、画像処理装置１は、ステップＳ３６の後、内視鏡検査が終了したか否か判定する（ステップＳ３７）。そして、画像処理装置１は、内視鏡検査が終了したと判定した場合（ステップＳ３７；Ｙｅｓ）、フローチャートの処理を終了する。一方、画像処理装置１は、内視鏡検査が終了していないと判定した場合（ステップＳ３７；Ｎｏ）、ステップＳ３１へ処理を戻す。そして、画像処理装置１は、内視鏡スコープ３が新たに生成する内視鏡画像Ｉａに対してステップＳ３１～ステップＳ３６の処理を実行する。

　＜第４実施形態＞
　図１３は、第４実施形態における画像処理装置１Ｘのブロック図である。画像処理装置１Ｘは、取得手段３０Ｘと、推論手段３２Ｘと、統合手段３３Ｘと、を備える。画像処理装置１Ｘは、複数の装置から構成されてもよい。

　取得手段３０Ｘは、被検体を撮影した内視鏡画像を取得する。取得手段３０Ｘは、第１実施形態における内視鏡画像取得部３０、又は、第２実施形態若しくは第３実施形態における内視鏡画像取得部３０Ａとすることができる。なお、取得手段３０Ｘは、撮影部が生成した内視鏡画像を即時に取得してもよく、予め撮影部が生成して記憶装置に記憶された内視鏡画像を、所定のタイミングにおいて取得してもよい。

　推論手段３２Ｘは、内視鏡画像に基づき、内視鏡画像における被検体の注目領域に関する複数の推論結果を生成する。推論手段３２Ｘは、第１実施形態における推論部３２、又は、第２実施形態若しくは第３実施形態における推論部３２Ａとすることができる。

　統合手段３３Ｘは、複数の推論結果を統合する。統合手段３３Ｘは、第１実施形態における統合部３３、又は、第２実施形態若しくは第３実施形態における統合部３３Ａとすることができる。

　図１４は、第４実施形態における処理手順を示すフローチャートの一例である。取得手段３０Ｘは、被検体を撮影した内視鏡画像を取得する。取得手段３０Ｘは、被検体を撮影した内視鏡画像を取得する（ステップＳ４１）。次に、推論手段３２Ｘは、内視鏡画像に基づき、内視鏡画像における被検体の注目領域に関する複数の推論結果を生成する（ステップＳ４２）。そして、統合手段３３Ｘは、複数の推論結果を統合する（ステップＳ４３）。

　第４実施形態によれば、画像処理装置１Ｘは、被検体を撮影した内視鏡画像から注目箇所の領域を的確に検知することができる。

　なお、上述した各実施形態において、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体（Ｎｏｎ－ｔｒａｎｓｉｔｏｒｙ　ｃｏｍｐｕｔｅｒ　ｒｅａｄａｂｌｅ　ｍｅｄｉｕｍ）を用いて格納され、コンピュータであるプロセッサ等に供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記憶媒体（Ｔａｎｇｉｂｌｅ　ｓｔｏｒａｇｅ　ｍｅｄｉｕｍ）を含む。非一時的なコンピュータ可読媒体の例は、磁気記憶媒体（例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記憶媒体（例えば光磁気ディスク）、ＣＤ－ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ＣＤ－Ｒ、ＣＤ－Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（Ｐｒｏｇｒａｍｍａｂｌｅ　ＲＯＭ）、ＥＰＲＯＭ（Ｅｒａｓａｂｌｅ　ＰＲＯＭ）、フラッシュＲＯＭ、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（Ｔｒａｎｓｉｔｏｒｙ　ｃｏｍｐｕｔｅｒ　ｒｅａｄａｂｌｅ　ｍｅｄｉｕｍ）によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。

　その他、上記の各実施形態（変形例を含む、以下同じ）の一部又は全部は、以下の付記のようにも記載され得るが以下には限られない。

　［付記１］
　被検体を撮影した内視鏡画像を取得する取得手段と、
　前記内視鏡画像に基づき、前記内視鏡画像における前記被検体の注目領域に関する複数の推論結果を生成する推論手段と、
　前記複数の推論結果を統合する統合手段と、
を有する画像処理装置。
　［付記２］
　前記内視鏡画像をデータ拡張により複数の画像に変換する変換手段をさらに有し、
　前記推論手段は、前記複数の画像の各々から前記注目領域に関する推論結果を生成する、付記１に記載の画像処理装置。
　［付記３］
　前記推論手段は、前記複数の画像の各々を推論モデルに入力することで当該推論モデルから出力される前記推論結果を取得し、
　前記推論モデルは、前記推論モデルに入力される画像と、当該画像における前記注目領域との関係を学習したモデルである、付記２に記載の画像処理装置。
　［付記４］
　前記推論手段は、前記内視鏡画像を複数の推論モデルに入力することで当該複数の推論モデルから出力される前記複数の推論結果を取得し、
　前記複数の推論モデルは、前記推論モデルに入力される画像と、当該画像における前記注目領域との関係を学習したモデルである、付記１に記載の画像処理装置。
　［付記５］
　前記複数の推論モデルは、モデルのアーキテクチャ又は学習に用いた学習データの少なくとも一方が互いに異なるモデルである、付記４に記載の画像処理装置。
　［付記６］
　前記推論手段は、前記内視鏡画像を、推論モデルに当該推論モデルの設定条件を変えながら複数回入力することで当該推論モデルから出力される前記複数の推論結果を取得し、
　前記複数の推論モデルは、前記推論モデルに入力される画像と、当該画像における前記注目領域との関係を学習したモデルである、付記１に記載の画像処理装置。
　［付記７］
　前記設定条件は、前記注目領域であるか否かを決定する閾値パラメータである、付記６に記載の画像処理装置。
　［付記８］
　前記推論手段は、再現率を重視した前記閾値パラメータと、適合率を重視した前記閾値パラメータとを夫々前記推論モデルに設定した場合に得られる前記推論結果を少なくとも取得する、付記７に記載の画像処理装置。
　［付記９］
　前記統合手段は、前記複数の画像の各々と、前記推論モデルの学習に用いる前記注目領域を含む学習用画像との類似度に基づき、前記複数の推論結果の各々を重み付けして統合する、付記３に記載の画像処理装置。
　［付記１０］
　前記統合手段は、前記複数の推論結果の各々と、前記推論モデルの学習に用いる正解データとの類似度に基づき、前記複数の推論結果の各々を重み付けして統合する、付記３～８のいずれか一項に記載の画像処理装置。
　［付記１１］
　前記複数の推論結果を統合した画像に基づき、前記注目領域の検知を行う検知手段をさらに有する、付記１に記載の画像処理装置。
　［付記１２］
　前記検知の結果に関する情報を表示又は音声出力する出力制御手段をさらに有する、付記９に記載の画像処理装置。
　［付記１３］
　コンピュータが、
　被検体を撮影した内視鏡画像を取得し、
　前記内視鏡画像に基づき、前記内視鏡画像における前記被検体の注目領域に関する複数の推論結果を生成し、
　前記複数の推論結果を統合する、
画像処理方法。
　［付記１４］
　被検体を撮影した内視鏡画像を取得し、
　前記内視鏡画像に基づき、前記内視鏡画像における前記被検体の注目領域に関する複数の推論結果を生成し、
　前記複数の推論結果を統合する処理をコンピュータに実行させるプログラムを格納した記憶媒体。

　以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。すなわち、本願発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。また、引用した上記の特許文献及び非特許文献の各開示は、本書に引用をもって繰り込むものとする。

　１、１Ｘ　画像処理装置
　２　表示装置
　３　内視鏡スコープ
　１１　プロセッサ
　１２　メモリ
　１３　インターフェース
　１４　入力部
　１５　光源部
　１６　音出力部
　１００　内視鏡検査システム

Claims

　被検体を撮影した内視鏡画像を取得する取得手段と、
　前記内視鏡画像に基づき、前記内視鏡画像における前記被検体の注目領域に関する複数の推論結果を生成する推論手段と、
　前記複数の推論結果を統合する統合手段と、
を有する画像処理装置。
　前記内視鏡画像をデータ拡張により複数の画像に変換する変換手段をさらに有し、
　前記推論手段は、前記複数の画像の各々から前記注目領域に関する推論結果を生成する、請求項１に記載の画像処理装置。
　前記推論手段は、前記複数の画像の各々を推論モデルに入力することで当該推論モデルから出力される前記推論結果を取得し、
　前記推論モデルは、前記推論モデルに入力される画像と、当該画像における前記注目領域との関係を学習したモデルである、請求項２に記載の画像処理装置。
　前記推論手段は、前記内視鏡画像を複数の推論モデルに入力することで当該複数の推論モデルから出力される前記複数の推論結果を取得し、
　前記複数の推論モデルは、前記推論モデルに入力される画像と、当該画像における前記注目領域との関係を学習したモデルである、請求項１に記載の画像処理装置。
　前記複数の推論モデルは、モデルのアーキテクチャ又は学習に用いた学習データの少なくとも一方が互いに異なるモデルである、請求項４に記載の画像処理装置。
　前記推論手段は、前記内視鏡画像を、推論モデルに当該推論モデルの設定条件を変えながら複数回入力することで当該推論モデルから出力される前記複数の推論結果を取得し、
　前記推論モデルは、前記推論モデルに入力される画像と、当該画像における前記注目領域との関係を学習したモデルである、請求項１に記載の画像処理装置。
　前記設定条件は、前記注目領域であるか否かを決定する閾値パラメータである、請求項６に記載の画像処理装置。
　前記推論手段は、再現率を重視した前記閾値パラメータと、適合率を重視した前記閾値パラメータとを夫々前記推論モデルに設定した場合に得られる前記推論結果を少なくとも取得する、請求項７に記載の画像処理装置。
　前記統合手段は、前記複数の画像の各々と、前記推論モデルの学習に用いる前記注目領域を含む学習用画像との類似度に基づき、前記複数の推論結果の各々を重み付けして統合する、請求項３に記載の画像処理装置。
　前記統合手段は、前記複数の推論結果の各々と、前記推論モデルの学習に用いる正解データとの類似度に基づき、前記複数の推論結果の各々を重み付けして統合する、請求項３～８のいずれか一項に記載の画像処理装置。
　前記複数の推論結果を統合した画像に基づき、前記注目領域の検知を行う検知手段をさらに有する、請求項１に記載の画像処理装置。
　前記検知の結果に関する情報を表示又は音声出力する出力制御手段をさらに有する、請求項９に記載の画像処理装置。
　コンピュータが、
　被検体を撮影した内視鏡画像を取得し、
　前記内視鏡画像に基づき、前記内視鏡画像における前記被検体の注目領域に関する複数の推論結果を生成し、
　前記複数の推論結果を統合する、
画像処理方法。
　被検体を撮影した内視鏡画像を取得し、
　前記内視鏡画像に基づき、前記内視鏡画像における前記被検体の注目領域に関する複数の推論結果を生成し、
　前記複数の推論結果を統合する処理をコンピュータに実行させるプログラムを格納した記憶媒体。