WO2021140602A1

WO2021140602A1 - 画像処理システム、学習装置及び学習方法

Info

Publication number: WO2021140602A1
Application number: PCT/JP2020/000377
Authority: WO
Inventors: 文行白谷
Original assignee: オリンパス株式会社
Priority date: 2020-01-09
Filing date: 2020-01-09
Publication date: 2021-07-15
Also published as: JPWO2021140602A1; JP7346596B2; US20220335610A1

Abstract

画像処理システム（２００）は、生体内画像を処理対象画像として取得する画像取得部（２１０）と、学習済モデルに従って動作することによって、処理対象画像において注目領域を認識した結果である認識結果を出力する処理部（２２０）を含む。学習済モデルは、第１観察方法において撮像された画像を含む第１画像群を用いてプレトレーニングされ、プレトレーニング後に、第２観察方法において撮像された画像を含む第２画像群と、第２画像群に含まれる注目領域に関する正解データを用いてファインチューニングされる。第１観察方法は、通常光を照明光とする観察方法であり、第２観察方法は、特殊光を照明光とする観察方法、又は、被写体に対して色素散布が行われた観察方法である。

Description

画像処理システム、学習装置及び学習方法

　本発明は、画像処理システム、学習装置及び学習方法等に関する。

　生体内画像を対象とした画像処理を行うことによって、医師による診断をサポートする手法が広く知られている。特に、ディープラーニングによる画像認識を病変検出や悪性度鑑別に応用する試みがなされている。ただしディープラーニングによる学習は、訓練データ（学習データ）が豊富にない状況では、高い認識精度が得られない。

　例えば非特許文献１には、枚数の少ない内視鏡画像のみでフルトレーニングを行った学習器よりも、枚数の多いImage Netを用いてプレトレーニングを行った後、内視鏡画像を用いてファインチューニングを行った学習器の方が病変検出精度が高い旨が開示されている。Image Netとは、一般物体画像からなるデータセットである。

　また特許文献１には、フレームレートが低いカプセル内視鏡画像に対し、フレームレートが高い内視鏡画像をプレトレーニングに用いることによって、胃の幽門や大腸の回盲弁等のランドマークが写っている学習用画像の不足等を補う手法が開示されている。

国際公開第２０１７／１７５２８２号

Nima Tajbakhsh et al., "Convolutional Neural Networks for Medical Image Analysis: Full Training or Fine Tuning?", lEEE TRANSACTlONS ON MEDICAL IMAGlNG. 2016.05.NO.5 , p.1229-1312

　内視鏡撮像装置を用いた観察においては、特殊光を照射することによって撮像される特殊光画像が用いられる場合がある。また、被写体に対して色素散布を行った状態で撮像される色素散布画像を用いる手法も知られている。特殊光画像や色素散布画像は、通常光を照射することによって撮像される通常光画像に比べて取得される枚数が少なく、ディープラーニング等の機械学習を行っても高い認識精度を得ることが難しい。特許文献１や非特許文献１等の従来手法においては、特殊光画像や色素散布画像を用いた学習について開示がない。

　本開示のいくつかの態様によれば、特殊光観察や色素散布観察等の観察方法における学習用画像が不足する場合であっても、注目領域を高い精度で認識するための画像処理システム、学習装置及び学習方法等を提供できる。

　本開示の一態様は、内視鏡撮像装置によって撮像された生体内画像を、処理対象画像として取得する画像取得部と、学習済モデルに従って動作することによって、前記処理対象画像において注目領域を認識した結果である認識結果を出力する処理を行う処理部と、を含み、前記学習済モデルは、第１観察方法において撮像された画像を含む第１画像群を用いてプレトレーニングされ、前記プレトレーニング後に、第２観察方法において撮像された画像を含む第２画像群と、前記第２画像群に含まれる前記注目領域に関する正解データを用いてファインチューニングされることによって学習されており、前記第１観察方法は、通常光を照明光とする観察方法であり、前記第２観察方法は、特殊光を前記照明光とする観察方法、又は、被写体に対して色素散布が行われた観察方法であり、前記第２画像群は、少なくとも１枚は前記注目領域が撮影されている画像を含み、且つ、前記第１画像群よりも枚数が少ない画像処理システムに関係する。

　本開示の他の態様は、第１観察方法において撮像された画像を含む第１画像群と、第２観察方法において撮像された画像を含む第２画像群と、を取得する画像取得部と、前記第１画像群を用いてプレトレーニングを行い、前記プレトレーニング後に、前記第２画像群と、前記第２画像群に含まれる注目領域に関する正解データを用いてファインチューニングを行うことによって、処理対象画像が入力された際に、前記処理対象画像において前記注目領域を認識した認識結果を出力する学習済モデルを生成する学習部と、を含み、前記第１観察方法は、通常光を照明光とする観察方法であり、前記第２観察方法は、特殊光を前記照明光とする観察方法、又は、被写体に対して色素散布が行われた観察方法であり、前記第２画像群は、少なくとも１枚は前記注目領域が撮影されている画像を含み、且つ、前記第１画像群よりも枚数が少ない学習装置に関係する。

　本開示のさらに他の態様は、第１観察方法において撮像された画像を含む第１画像群と、第２観察方法において撮像された画像を含む第２画像群と、を取得し、前記第１画像群を用いてプレトレーニングを行い、前記プレトレーニング後に、前記第２画像群と、前記第２画像群に含まれる注目領域に関する正解データを用いてファインチューニングを行うことによって、処理対象画像が入力された際に、前記処理対象画像において前記注目領域を認識した認識結果を出力する学習済モデルを生成し、前記第１観察方法は、通常光を照明光とする観察方法であり、前記第２観察方法は、特殊光を前記照明光とする観察方法、又は、被写体に対して色素散布が行われた観察方法であり、前記第２画像群は、少なくとも１枚は前記注目領域が撮影されている画像を含み、且つ、前記第１画像群よりも枚数が少ない学習方法に関係する。

画像処理システムを含むシステムの概略構成例。学習装置の構成例。画像処理システムの構成例。内視鏡システムの構成例。図５（Ａ）、図５（Ｂ）はニューラルネットワークの構成例。本実施形態におけるＣＮＮの構成例。第１の実施形態における学習装置の構成例。第１の実施形態における学習処理を説明するフローチャート。第１の実施形態における画像処理システムの構成例。第１の実施形態における認識処理を説明するフローチャート。本実施形態の手法による効果を説明する図。第２の実施形態における学習装置の構成例。図１３（Ａ）～図１３（Ｃ）は第２の実施形態における学習処理を説明するフローチャート。第２の実施形態における画像処理システムの構成例。第２の実施形態における認識処理を説明するフローチャート。

　以下、本実施形態について説明する。なお、以下に説明する本実施形態は、請求の範囲に記載された本開示の内容を不当に限定するものではない。また本実施形態で説明される構成の全てが、本開示の必須構成要件であるとは限らない。

１．概要
　医師が内視鏡システムを用いて診断等を行う際、種々の観察方法が用いられる。ここでの観察とは、具体的には撮像画像を用いて被写体の状態を見ることである。撮像画像とは、具体的には生体内画像である。内視鏡装置の照明光の種類や、被写体の状態に応じて、観察方法が変化する。観察方法としては、通常光を照明光として照射することによって撮像を行う観察方法である通常光観察、特殊光を照明光として照射することによって撮像を行う観察方法である特殊光観察、染料を被写体に散布した状態で撮像を行う観察方法である色素散布観察等が考えられる。以下の説明においては、通常光観察において撮像される画像を通常光画像と表記し、特殊光観察において撮像される画像を特殊光画像と表記し、色素散布観察において撮像される画像を色素散布画像と表記する。

　通常光とは、可視光に対応する波長帯域のうち、広い波長帯域において強度を有する光であって、狭義には白色光である。特殊光とは、通常光とは分光特性が異なる光であり、例えば通常光に比べて波長帯域が狭い狭帯域光である。特殊光を用いた観察手法としては、例えば３９０～４４５ｎｍに対応する狭帯域光と、５３０～５５０ｎｍに対応する狭帯域光を用いたＮＢＩ（Narrow Band Imaging）が考えられる。また特殊光は、赤外光等の可視光以外の波長帯域の光を含んでもよい。特殊光観察に用いられる特殊光は種々の波長帯域の光が知られており、本実施形態においてはそれらを広く適用可能である。色素散布観察における染料は、例えばインジゴカルミンである。インジゴカルミンを散布することによって、ポリープの視認性を向上させることが可能である。染料の種類や対象となる注目領域の組み合わせも種々知られており、本実施形態の色素散布観察においてはそれらを広く適用可能である。

　例えば医師による診断工程は、通常光観察を用いて病変を探す工程と、特殊光観察や色素散布観察を用いて、見つかった病変の悪性度の鑑別を行う工程とが考えられる。特殊光画像や色素散布画像は、通常光画像に比べて病変の視認性が高いため、悪性度の鑑別を精度よく行うことが可能になる。

　上述したように、医師による診断をサポートする目的で、ディープラーニングによる画像認識を病変検出や悪性度鑑別に応用する試みがなされている。ディープラーニングによる学習は、訓練データが豊富にない状況では、高い認識精度が得られない。特殊光画像や色素散布画像は、通常光画像のように豊富に得られるとは限らないので、訓練データが豊富にない状況に該当する。

　訓練データの不足に対して、特許文献１や非特許文献１に示すように、プレトレーニングとファインチューニングを行う手法が知られている。しかし非特許文献１は、プレトレーニングに内視鏡画像とは異なる画像が用いられている。プレトレーニングとファインチューニングにおけるカテゴリの違いが大きく、内視鏡画像を対象とした認識精度の向上効果が十分でない可能性がある。また特許文献１は、カプセル内視鏡のフレームレートの低さに起因して、特定の被写体を撮像した画像が不足することを考慮した手法である。特許文献１においては、特殊光画像と通常光画像の間の観察方法の違い、及び色素散布画像と通常光画像の間の観察方法の違いが考慮されていない。ディープラーニングでは、学習に用いた画像群と異なる条件で撮影されたテスト画像に対する認識性能が低下する。ここでのテスト画像とは、学習結果を用いた推論処理の対象となる画像を表す。即ち、特許文献１及び非特許文献１を含む従来手法は、特殊光画像や色素散布画像を対象とした認識処理の精度を向上させる手法を開示していない。

　本実施形態の手法においては、通常光画像を含む画像群を用いてプレトレーニングを行い、当該プレトレーニング後に、特殊光画像又は色素散布画像を含む画像群を用いてファインチューニングを行うことによって学習された学習済モデルを用いて、注目領域の認識処理が行われる。このようにすれば、特殊光画像や色素散布画像を認識処理の対象とする場合であっても、認識精度を高くすることが可能になる。なお、本実施形態における注目領域とは、使用者にとって観察の優先順位が他の領域よりも相対的に高い領域である。ユーザが診断や治療を行う医者である場合、注目領域は、例えば病変部を写した領域に対応する。ただし、医者が観察したいと欲した対象が泡や便であれば、注目領域は、その泡部分や便部分を写した領域であってもよい。即ち、ユーザが注目すべき対象は観察目的によって異なるが、その観察に際し、ユーザにとって観察の優先順位が他の領域よりも相対的に高い領域が注目領域となる。

　以下、まず図１～図４を用いて本実施形態に係る画像処理システム２００を含むシステムの概略構成を説明する。その後、第１～第３の実施形態において、具体的な手法や処理の流れについて説明する。

　図１は、画像処理システム２００を含むシステムの構成例である。システムは、学習装置１００と、画像処理システム２００と、内視鏡システム３００を含む。ただしシステムは図１の構成に限定されず、これらの一部の構成要素を省略したり、他の構成要素を追加するなどの種々の変形実施が可能である。

　学習装置１００は、機械学習を行うことによって学習済モデルを生成する。内視鏡システム３００は、内視鏡撮像装置によって生体内画像を撮像する。画像処理システム２００は、生体内画像を処理対象画像として取得する。そして画像処理システム２００は、学習装置１００が生成した学習済モデルに従って動作することによって、処理対象画像を対象とした注目領域の認識処理を行う。内視鏡システム３００は、認識結果を取得、表示する。このようにすれば、機械学習を用いることによって、医師による診断等をサポートするシステムを実現することが可能になる。

　学習装置１００、画像処理システム２００、内視鏡システム３００は、例えばそれぞれが別体として設けられてもよい。学習装置１００及び画像処理システム２００は、それぞれが例えばＰＣ（Personal Computer）やサーバシステム等の情報処理装置である。なお学習装置１００は、複数の装置による分散処理によって実現されてもよい。例えば学習装置１００は複数のサーバを用いたクラウドコンピューティングによって実現されてもよい。画像処理システム２００も同様に、クラウドコンピューティング等によって実現されてもよい。内視鏡システム３００は、例えば図４を用いて後述するように、挿入部３１０と、システム制御装置３３０と、表示部３４０とを含む装置である。ただし、システム制御装置３３０の一部又は全部が、サーバシステム等のネットワークを介した機器によって実現されてもよい。例えばシステム制御装置３３０の一部又は全部は、クラウドコンピューティングによって実現される。

　また、画像処理システム２００及び学習装置１００の一方が他方を含んでもよい。この場合、画像処理システム２００（学習装置１００）は、機械学習を行うことによって学習済モデルを生成する処理と、当該学習済モデルに従った認識処理の両方を実行するシステムである。また画像処理システム２００及び内視鏡システム３００の一方が、他方を含んでもよい。例えば、内視鏡システム３００のシステム制御装置３３０が画像処理システム２００を含む。この場合、システム制御装置３３０は、内視鏡システム３００の各部の制御と、学習済モデルに従った認識処理の両方を実行する。或いは、学習装置１００、画像処理システム２００、システム制御装置３３０の全てを含むシステムが実現されてもよい。例えば、１又は複数のサーバからなるサーバシステムが、機械学習を行うことによって学習済モデルを生成する処理と、当該学習済モデルに従った認識処理と、内視鏡システム３００の各部の制御と、を実行してもよい。以上のように、図１に示すシステムの具体的な構成は種々の変形実施が可能である。

　図２は、学習装置１００の構成例である。学習装置１００は、画像取得部１１０と、学習部１２０を含む。画像取得部１１０は、学習用画像を取得する。画像取得部１１０は、例えば他の装置から学習用画像を取得するための通信インターフェースである。学習用画像とは、例えば通常光画像、特殊光画像、色素散布画像等に対して、正解データがメタデータとして付与された画像である。学習部１２０は、取得した学習用画像に基づいて機械学習を行うことによって学習済モデルを生成する。機械学習に用いられるデータの詳細、及び学習処理の具体的な流れについては後述する。

　学習部１２０は、下記のハードウェアにより構成される。ハードウェアは、デジタル信号を処理する回路及びアナログ信号を処理する回路の少なくとも一方を含むことができる。例えば、ハードウェアは、回路基板に実装された１又は複数の回路装置や、１又は複数の回路素子で構成することができる。１又は複数の回路装置は例えばＩＣ（Integrated Circuit）、ＦＰＧＡ（field-programmable gate array）等である。１又は複数の回路素子は例えば抵抗、キャパシター等である。

　また学習部１２０は、下記のプロセッサにより実現されてもよい。学習装置１００は、情報を記憶するメモリと、メモリに記憶された情報に基づいて動作するプロセッサと、を含む。情報は、例えばプログラムと各種のデータ等である。プロセッサは、ハードウェアを含む。プロセッサは、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit）、ＤＳＰ（Digital Signal Processor）等、各種のプロセッサを用いることが可能である。メモリは、ＳＲＡＭ（Static Random Access Memory）、ＤＲＡＭ（Dynamic Random Access Memory）などの半導体メモリであってもよいし、レジスタであってもよいし、ＨＤＤ（Hard Disk Drive）等の磁気記憶装置であってもよいし、光学ディスク装置等の光学式記憶装置であってもよい。例えば、メモリはコンピュータにより読み取り可能な命令を格納しており、当該命令がプロセッサにより実行されることで、学習部１２０の各部の機能が処理として実現されることになる。学習部１２０の各部とは、例えば図７及び図１２を用いて後述する各部である。ここでの命令は、プログラムを構成する命令セットの命令でもよいし、プロセッサのハードウェア回路に対して動作を指示する命令であってもよい。

　図３は、画像処理システム２００の構成例である。画像処理システム２００は、画像取得部２１０と、処理部２２０と、記憶部２３０を含む。

　画像取得部２１０は、内視鏡システム３００の撮像装置によって撮像された生体内画像を、処理対象画像として取得する。例えば画像取得部２１０は、内視鏡システム３００からネットワークを介して生体内画像を受信する通信インターフェースとして実現される。ここでのネットワークは、イントラネット等のプライベートネットワークであってもよいし、インターネット等の公衆通信網であってもよい。またネットワークは、有線、無線を問わない。

　処理部２２０は、学習済モデルに従って動作することによって、処理対象画像における注目領域の認識処理を行う。また処理部２２０は、学習済モデルの認識結果に基づいて、出力する情報を決定する。処理部２２０は、デジタル信号を処理する回路及びアナログ信号を処理する回路の少なくとも一方を含むハードウェアにより構成される。例えば、ハードウェアは、回路基板に実装された１又は複数の回路装置や、１又は複数の回路素子で構成することができる。

　また処理部２２０は、下記のプロセッサにより実現されてもよい。画像処理システム２００は、プログラムと各種のデータ等の情報を記憶するメモリと、メモリに記憶された情報に基づいて動作するプロセッサと、を含む。ここでのメモリは、記憶部２３０であってもよいし、異なるメモリであってもよい。プロセッサは、ＧＰＵ等、各種のプロセッサを用いることが可能である。メモリは、半導体メモリ、レジスタ、磁気記憶装置、光学式記憶装置等、種々の態様により実現可能である。メモリはコンピュータにより読み取り可能な命令を格納しており、当該命令がプロセッサにより実行されることで、処理部２２０の各部の機能が処理として実現される。処理部２２０の各部とは、例えば図９及び図１４を用いて後述する各部である。

　記憶部２３０は、処理部２２０等のワーク領域となるもので、その機能は半導体メモリ、レジスタ、磁気記憶装置などにより実現できる。記憶部２３０は、画像取得部２１０が取得した処理対象画像を記憶する。また記憶部２３０は、学習装置１００によって生成された学習済モデルの情報を記憶する。

　図４は、内視鏡システム３００の構成例である。内視鏡システム３００は、挿入部３１０と、外部Ｉ／Ｆ部３２０と、システム制御装置３３０と、表示部３４０と、光源装置３５０を含む。

　挿入部３１０は、その先端側が体内へ挿入される部分である。挿入部３１０は、対物光学系３１１、撮像素子３１２、アクチュエータ３１３、照明レンズ３１４、ライトガイド３１５、ＡＦ（Auto Focus）開始／終了ボタン３１６を含む。

　ライトガイド３１５は、光源３５２からの照明光を、挿入部３１０の先端まで導光する。照明レンズ３１４は、ライトガイド３１５によって導光された照明光を被写体に照射する。対物光学系３１１は、被写体から反射した反射光を、被写体像として結像する。対物光学系３１１は、フォーカスレンズを含み、フォーカスレンズの位置に応じて被写体像が結像する位置を変更可能である。アクチュエータ３１３は、ＡＦ制御部３３６からの指示に基づいて、フォーカスレンズを駆動する。なお、ＡＦは必須ではなく、内視鏡システム３００はＡＦ制御部３３６を含まない構成であってもよい。

　撮像素子３１２は、対物光学系３１１を経由した被写体からの光を受光する。撮像素子３１２はモノクロセンサであってもよいし、カラーフィルタを備えた素子であってもよい。カラーフィルタは、広く知られたベイヤフィルタであってもよいし、補色フィルタであってもよいし、他のフィルタであってもよい。補色フィルタとは、シアン、マゼンタ及びイエローの各色フィルタを含むフィルタである。

　ＡＦ開始／終了ボタン３１６は、ユーザがＡＦの開始／終了を操作するための操作インターフェースである。外部Ｉ／Ｆ部３２０は、内視鏡システム３００に対するユーザからの入力を行うためのインターフェースである。外部Ｉ／Ｆ部３２０は、例えばＡＦ制御モードの設定ボタン、ＡＦ領域の設定ボタン、画像処理パラメータの調整ボタンなどを含む。

　システム制御装置３３０は、画像処理やシステム全体の制御を行う。システム制御装置３３０は、Ａ／Ｄ変換部３３１、前処理部３３２、検出処理部３３３、後処理部３３４、システム制御部３３５、ＡＦ制御部３３６、記憶部３３７を含む。

　Ａ／Ｄ変換部３３１は、撮像素子３１２から順次出力されるアナログ信号をデジタルの画像に変換し、前処理部３３２に順次出力する。前処理部３３２は、Ａ／Ｄ変換部３３１から順次出力される生体内画像に対して、各種補正処理を行い、検出処理部３３３、ＡＦ制御部３３６に順次出力する。補正処理とは、例えばホワイトバランス処理、ノイズ低減処理等を含む。

　検出処理部３３３は、例えば前処理部３３２から取得した補正処理後の画像を、内視鏡システム３００の外部に設けられる画像処理システム２００に送信する処理を行う。内視鏡システム３００は不図示の通信部を含み、検出処理部３３３は、通信部の通信制御を行う。ここでの通信部は、所与のネットワークを介して、生体内画像を画像処理システム２００に送信するための通信インターフェースである。また検出処理部３３３は、通信部の通信制御を行うことによって、画像処理システム２００から認識結果を受信する処理を行う。

　或いは、システム制御装置３３０は、画像処理システム２００を含んでもよい。この場合、Ａ／Ｄ変換部３３１が、画像取得部２１０に対応する。記憶部３３７が、記憶部２３０に対応する。前処理部３３２、検出処理部３３３、後処理部３３４等が、処理部２２０に対応する。この場合、検出処理部３３３は、記憶部３３７に記憶される学習済モデルの情報に従って動作することによって、処理対象画像である生体内画像を対象として、注目領域の認識処理を行う。学習済モデルがニューラルネットワークである場合、検出処理部３３３は、入力である処理対象画像に対して、学習によって決定された重みを用いて順方向の演算処理を行う。そして、出力層の出力に基づいて、認識結果を出力する。

　後処理部３３４は、検出処理部３３３における認識結果に基づく後処理を行い、後処理後の画像を表示部３４０に出力する。ここでの後処理は、画像における認識対象の強調、検出結果を表す情報の付加等、種々の処理が考えられる。例えば後処理部３３４は、前処理部３３２から出力された画像に対して、検出処理部３３３において検出された検出枠を重畳することによって、表示画像を生成する後処理を行う。

　システム制御部３３５は、撮像素子３１２、ＡＦ開始／終了ボタン３１６、外部Ｉ／Ｆ部３２０、ＡＦ制御部３３６と互いに接続され、各部を制御する。具体的には、システム制御部３３５は、各種制御信号の入出力を行う。ＡＦ制御部３３６は、前処理部３３２から順次出力される画像を用いてＡＦ制御を行う。

　表示部３４０は、後処理部３３４から出力される画像を順次表示する。表示部３４０は、例えば液晶ディスプレイやＥＬ（Electro-Luminescence）ディスプレイ等である。光源装置３５０は、照明光を発光する光源３５２を含む。光源３５２は、キセノン光源であってもよいし、ＬＥＤであってもよいし、レーザー光源であってもよい。また光源３５２は他の光源であってもよく、発光方式は限定されない。

　なお、光源装置３５０は、通常光と特殊光を照射可能である。例えば光源装置３５０は、白色光源と回転フィルタを含み、回転フィルタの回転に基づいて、通常光と特殊光を切り替え可能である。或いは光源装置３５０は、赤色ＬＥＤ、緑色ＬＥＤ、青色ＬＥＤ、緑色狭帯域光ＬＥＤ、青色狭帯域光ＬＥＤ等の複数の光源を含むことによって、波長帯域の異なる複数の光を照射可能な構成であってもよい。光源装置３５０は、赤色ＬＥＤ、緑色ＬＥＤ、青色ＬＥＤを点灯させることによって通常光を照射し、緑色狭帯域光ＬＥＤ、青色狭帯域光ＬＥＤを点灯させることによって特殊光を照射する。ただし、通常光及び特殊光を照射する光源装置の構成は種々知られており、本実施形態においてはそれらを広く適用可能である。

２．第１の実施形態
２．１　学習処理
　まず機械学習の概要について説明する。以下では、ニューラルネットワークを用いた機械学習について説明するが、本実施形態の手法はこれに限定されない。本実施形態においては、例えばＳＶＭ（support vector machine）等の他のモデルを用いた機械学習が行われてもよいし、ニューラルネットワークやＳＶＭ等の種々の手法を発展させた手法を用いた機械学習が行われてもよい。

　図５（Ａ）は、ニューラルネットワークを説明する模式図である。ニューラルネットワークは、データが入力される入力層と、入力層からの出力に基づいて演算を行う中間層と、中間層からの出力に基づいてデータを出力する出力層を有する。図５（Ａ）においては、中間層が２層であるネットワークを例示するが、中間層は１層であってもよいし、３層以上であってもよい。また各層に含まれるノード（ニューロン）の数は図５（Ａ）の例に限定されず、種々の変形実施が可能である。なお精度を考慮すれば、本実施形態の学習は多層のニューラルネットワークを用いたディープラーニングを用いることが望ましい。ここでの多層とは、狭義には４層以上である。

　図５（Ａ）に示すように、所与の層に含まれるノードは、隣接する層のノードと結合される。各結合には重み付け係数が設定されている。各ノードは、前段のノードの出力と重み付け係数を乗算し、乗算結果の合計値を求める。さらに各ノードは、合計値に対してバイアスを加算し、加算結果に活性化関数を適用することによって当該ノードの出力を求める。この処理を、入力層から出力層へ向けて順次実行することによって、ニューラルネットワークの出力が求められる。なお活性化関数としては、シグモイド関数やＲｅＬＵ関数等の種々の関数が知られており、本実施形態ではそれらを広く適用可能である。

　ニューラルネットワークにおける学習は、適切な重み付け係数を決定する処理である。ここでの重み付け係数は、バイアスを含む。具体的には、学習装置１００は、訓練データのうちの入力データをニューラルネットワークに入力し、そのときの重み付け係数を用いた順方向の演算を行うことによって出力を求める。学習装置１００の学習部１２０は、当該出力と、訓練データのうちの正解データとに基づいて、誤差関数を演算する。そして誤差関数を小さくするように、重み付け係数を更新する。重み付け係数の更新では、例えば出力層から入力層に向かって重み付け係数を更新していく誤差逆伝播法を利用可能である。

　またニューラルネットワークは例えばＣＮＮ（Convolutional Neural Network）であってもよい。図５（Ｂ）は、ＣＮＮを説明する模式図である。ＣＮＮは、畳み込み演算を行う畳み込み層とプーリング層を含む。畳み込み層は、フィルタ処理を行う層である。プーリング層は、縦方向、横方向のサイズを縮小するプーリング演算を行う層である。図５（Ｂ）に示す例は、畳み込み層及びプーリング層による演算を複数回行った後、全結合層による演算を行うことによって出力を求めるネットワークである。全結合層とは、所与の層のノードに対して前の層の全てのノードが結像される場合の演算処理を行う層であり、図５（Ａ）を用いて上述した各層の演算に対応する。なお、図５（Ｂ）では活性化関数による演算処理を省略している。ＣＮＮは種々の構成が知られており、本実施形態においてはそれらを広く適用可能である。例えば本実施形態のＣＮＮは、公知のＲＰＮ（Region Proposal Network）を利用できる。

　ＣＮＮを用いる場合も、処理の手順は図５（Ａ）と同様である。即ち、学習装置１００は、訓練データのうちの入力データをＣＮＮに入力し、そのときのフィルタ特性を用いたフィルタ処理やプーリング演算を行うことによって出力を求める。当該出力と、正解データとに基づいて誤差関数が算出され、当該誤差関数を小さくするように、フィルタ特性を含む重み付け係数の更新が行われる。ＣＮＮの重み付け係数を更新する際にも、例えば誤差逆伝播法を利用可能である。

　次に、本実施形態における機械学習について説明する。画像処理システム２００が実行する注目領域の認識処理とは、注目領域の有無、位置、大きさ、形状のうち少なくとも１つを検出する検出処理と、注目領域の悪性度を鑑別する局所分類処理を含む。

　例えば検出処理は、注目領域を囲む矩形の枠領域を特定する情報と、当該枠領域の確からしさを表す検出スコアを求める処理である。以下、枠領域を検出枠と表記する。検出枠を特定する情報とは、例えば検出枠の左上端点の横軸における座標値、当該端点の縦軸における座標値、検出枠の横軸方向の長さ、検出枠の縦軸方向の長さ、の４つの数値である。注目領域の形状が変化することによって、検出枠の縦横比が変化するため、当該検出枠は注目領域の有無、位置、大きさだけでなく、形状を表す情報に該当する。ただし本実施形態の検出処理では、広く知られているセグメンテーションが用いられてもよい。この場合、画像中の各画素について、当該画素が注目領域であるか否かを表す情報、例えばポリープであるか否かを表す情報が出力される。この場合、注目領域の形状をより詳細に特定することが可能である。

　病変である注目領域は、悪性度に応じていくつかのタイプに分類される。例えばポリープをＴｙｐｅ１（良性）、Ｔｙｐｅ２（やや悪性）、Ｔｙｐｅ３（悪性）の３つに分類するＮＩＣＥ分類が広く知られている。局所分類処理とは、注目領域がいずれのタイプであるかを特定する処理である。また本実施形態における局所分類処理はＮＩＣＥ分類に従った処理に限定されず、他の分類が用いられてもよい。

　図６は、本実施形態におけるニューラルネットワークの構成を示す図である。図６に示すように、ニューラルネットワークは、特徴量抽出層と、検出層と、局所分類層と、を含んでもよい。図６における矩形領域は、それぞれが畳み込み層、プーリング層、全結合層等の何らかの演算を行う層を表す。ただし、本実施形態のＣＮＮの構成は図６に限定されず、種々の変形実施が可能である。

　特徴量抽出層は、処理対象画像を入力として受け付け、畳み込み演算等を含む演算を行うことによって特徴量を出力する。検出層は、特徴量抽出層から出力された特徴量を入力とし、検出結果を表す情報を出力する。局所分類層は、特徴量抽出層から出力された特徴量を入力とし、局所分類結果を表す情報を出力する。学習装置１００は、特徴量抽出層、検出層、局所分類層の各層における重み付け係数を決定する学習処理を実行する。

　図７は、第１の実施形態における学習装置１００の構成例である。学習装置１００の学習部１２０は、プレトレーニング部１２１と、ファインチューニング部１２２を含む。プレトレーニング部１２１は、画像取得部１１０から画像群Ａ１を訓練データとして取得し、当該画像群Ａ１に基づくプレトレーニングを行う。ファインチューニング部１２２は、画像取得部１１０から画像群Ａ２を訓練データとして取得する。ファインチューニング部１２２は、プレトレーニング後の重み付け係数を初期値として、画像群Ａ２に基づくファインチューニングを行う。

　本実施形態におけるプレトレーニングは、豊富に取得可能な通常光画像を用いた学習処理である。即ち、画像群Ａ１は、通常光画像に対して、注目領域の有無、位置、大きさ、形状のうち少なくとも１つに関連する情報である検出データが正解データとして付与された学習用画像を複数含む画像群である。例えば、検出データは、検出対象であるポリープ領域と背景領域が異なる色で塗り分けられたマスクデータである。或いは検出データは、ポリープを囲む検出枠を特定するための情報であってもよい。

　上述したように、通常光観察は注目領域を探す工程において広く利用される。そのため、検出データが付与された通常光画像は豊富に取得可能であり、画像群Ａ１に含まれる画像の枚数は、画像群Ａ２に比べて多い。例えば画像群Ａ１に含まれる画像は数十万枚程度であり、画像群Ａ２に含まれる画像は数万枚程度である。

　プレトレーニング部１２１は、画像群Ａ１を用いたプレトレーニングを行う。具体的には、プレトレーニング部１２１は、図６に示すニューラルネットワークにおいて、画像群Ａ１に含まれる通常光画像を入力として現在の重み付け係数に基づく順方向の演算を行う。プレトレーニング部１２１は、検出層の出力と、正解データである検出データとの誤差を誤差関数として演算し、当該誤差関数を小さくするように重み付け係数の更新処理を行う。以上が１枚の学習用画像に基づく処理であり、プレトレーニング部１２１は、上記処理を繰り返すことによってプレトレーニングを実行する。なお、重み付け係数の更新は１枚単位で行うものに限定されず、バッチ学習等が用いられてもよい。

　なお、通常光画像を入力とする順方向の演算においては、局所分類層からの出力も取得可能である。ただし、画像群Ａ１における正解データは検出結果に相当する検出データであるため、局所分類層の出力と正解データから誤差関数を求めることはできない。即ちプレトレーニングにおいては、図６に示すニューラルネットワークのうち、特徴量抽出層における重み付け係数と、検出層における重み付け係数が学習対象となる。

　本実施形態におけるファインチューニングは、豊富に取得することが難しい特殊光画像を用いた学習処理である。即ち、画像群Ａ２は、特殊光画像に対して検出データ、及び、注目領域の悪性度を鑑別する情報である局所分類データが正解データとして付与された学習用画像を複数含む画像群である。検出データは、例えば上述した例と同様にマスクデータである。局所分類データは、例えばポリープの悪性度を示すＴｙｐｅ１、Ｔｙｐｅ２、Ｔｙｐｅ３のいずれかを表すラベルデータである。

　ただし、特殊光画像を用いてファインチューニングを行った学習済モデルに、観察方法の異なる通常光画像が入力された場合、認識処理の精度が低下するおそれがある。よって画像群Ａ２は、通常光画像に対して、検出データ及び局所分類データが正解データとして付与された学習用画像を複数含んでもよい。即ち、画像群Ａ２は、特殊光画像と通常光画像の両方を含む画像群であってもよい。このようにすれば、通常光画像と特殊光画像の両方に対応可能な汎用学習モデルを生成することが可能になる。局所分類データが付与された通常光画像を豊富に取得することは容易でないが、ここではファインチューニングに用いられるため、画像枚数の不足による精度低下を考慮する必要はない。なお、本実施形態の手法は、枚数が不足しやすい特殊光画像を対象とした認識処理の精度を向上させるものである。そのため、画像群Ａ２が通常光画像を含む構成は必須ではない。

　ファインチューニング部１２２は、画像群Ａ２を用いたファインチューニングを行う。具体的には、ファインチューニング部１２２は、図６に示すニューラルネットワークにおいて、画像群Ａ２に含まれる通常光画像又は特殊光画像を入力として、現在の重み付け係数に基づく順方向の演算を行う。ファインチューニング部１２２は、順方向の演算によって求められた結果と、正解データとの誤差を誤差関数として演算し、当該誤差関数を小さくするように重み付け係数の更新処理を行う。例えばファインチューニング部１２２は、検出層の出力と検出データの間の誤差と、局所分類層の出力と局所分類データの間の誤差と、の重み付け和を誤差関数として求める。即ちファインチューニングにおいては、図６に示すニューラルネットワークのうち、特徴量抽出層における重み付け係数、検出層における重み付け係数、局所分類層における重み付け係数、の全てが学習対象となる。

　図８は、第１の実施形態における学習処理を説明するフローチャートである。この処理が開始されると、まずステップＳ１０１において、プレトレーニング部１２１は、通常光画像を用いて病変検出タスク向けにＣＮＮをプレトレーニングする。病変検出タスク向けのプレトレーニングとは、検出データを正解データとして用いることによって、特徴量抽出層及び検出層の重み付け係数を更新する学習処理である。

　ステップＳ１０２において、ファインチューニング部１２２は、プレトレーニング結果を初期値として、特殊光画像及び通常光画像を用いて病変検出及び局所分類タスク向けにＣＮＮをファインチューニングする。病変検出及び局所分類タスク向けのファインチューニングとは、検出データ及び局所分類データの両方を正解データとして用いることによって、特徴量抽出層、検出層、局所分類層の重み付け係数を更新する学習処理である。

　ステップＳ１０３において、学習装置１００は、検出病変の局所分類結果の信頼性に関わる面積占有率の閾値ＴＨ１を設定する。閾値ＴＨ１の設定方法については、例えば、バリデーションデータを用意しておき、その誤分類率が１０％以下となるように設定する。バリデーションデータとは、例えば画像群Ａ２のうち、ファインチューニングに用いられなかった学習用画像であり、通常光画像又は特殊光画像に対して、検出データ及び局所分類データが付与されたデータを表す。正解データが付与されたデータであるため、バリデーションデータを用いることによって学習済モデルの誤分類率を評価できる。

２．２　認識処理
　図９は、第１の実施形態における画像処理システム２００の構成例である。画像処理システム２００の処理部２２０は、認識処理部２２１と、出力処理部２２２を含む。認識処理部２２１は、学習装置１００によって生成された学習済モデルに従って動作する。出力処理部２２２は、学習済モデルの演算結果に基づいて出力処理を行う。

　図１０は、第１の実施形態における画像処理システム２００の処理を説明するフローチャートである。まずステップＳ２０１において、画像取得部２１０は、内視鏡撮像装置によって撮像された生体内画像を、処理対象画像として取得する。

　ステップＳ２０２において、認識処理部２２１は、画像取得部２１０が取得した処理対象画像を学習済モデルの入力として順方向の演算を行う。ステップＳ２０２の処理において、認識処理部２２１は、検出層からの検出結果を表す情報と、局所分類層からの局所分類結果を表す情報を取得する。

　例えば認識処理部２２１は、処理対象画像中の所定数の検出枠の位置及び大きさに関する情報と、当該検出枠に対応付けられた検出スコア、局所分類ラベル、及び局所分類スコアを取得する。本実施形態における検出結果とは例えば検出枠を表し、検出スコアは当該検出結果の確からしさを表す。具体的には検出スコアは、当該検出枠が注目領域を囲む領域である確からしさを表す数値データである。また本実施形態における局所分類結果とは例えば局所分類ラベルを表し、局所分類スコアは当該局所分類結果の確からしさを表す情報である。ＮＩＣＥ分類を用いる場合、局所分類層の出力は、検出枠に対応するポリープがＴｙｐｅ１である確からしさを表す数値と、Ｔｙｐｅ２である確からしさを表す数値と、Ｔｙｐｅ３である確からしさを表す数値とを含む。例えば局所分類層の出力層が公知のソフトマックス層である場合、局所分類層は合計が１となる３つの確率データを出力する。局所分類ラベルとは、Ｔｙｐｅ１～Ｔｙｐｅ３のうち、確率データが最大となるタイプを特定する情報である。局所分類スコアとは、例えば３つの確率データのうちの最大値である。

　次に出力処理部２２２は、検出枠、検出スコア、局所分類ラベル、局所分類スコアに基づいて出力情報を生成する。例えば出力処理部２２２は、検出スコアと所与の検出閾値ＴＨ２を比較する不図示の前処理を行ってもよい。所与の検出枠の検出スコアが検出閾値ＴＨ２未満である場合、当該検出枠に関する情報は信頼性が低いため出力対象から除外する。或いは認識処理部２２１は、検出スコアがＴＨ２未満の検出枠を出力処理部２２２に送信しないように構成されていてもよい。

　またステップＳ２０３において、出力処理部２２２は、注目領域の画像中の面積占有率が、予め設定しておいた閾値ＴＨ１以上かどうかを判定する。例えば出力処理部２２２は、処理対象画像全体の面積に対する、検出枠の面積の割合を面積占有率とする。ステップＳ２０３における判定結果が真であれば、ステップＳ２０４において、出力処理部２２２は、検出枠及び局所分類ラベルを出力する処理を行う。ステップＳ２０３における判定結果が偽であれば、ステップＳ２０５において、出力処理部２２２は、検出枠のみを出力する処理を行う。なお出力処理部２２２は、検出枠に検出スコアを付加して出力してもよいし、局所分類ラベルに局所分類スコアを付加して出力してもよい。これにより、情報の信頼性をユーザに提示することが可能である。

　ステップＳ２０４又はＳ２０５における処理は、例えば画像処理システム２００が内視鏡システム３００に含まれる場合、表示画像を生成する処理、及び、当該表示画像を表示部３４０に表示する処理である。また画像処理システム２００と内視鏡システム３００が別体として設けられる場合、上記処理は、例えば表示画像の内視鏡システム３００への送信処理である。或いは上記処理は、検出枠や局所分類ラベルを表す情報を内視鏡システム３００へ送信する処理であってもよい。この場合、表示画像の生成処理及び表示制御は内視鏡システム３００において実行される。

　以上のように、本実施形態に係る画像処理システム２００は、内視鏡撮像装置によって撮像された生体内画像を処理対象画像として取得する画像取得部２１０と、学習済モデルに従って動作することによって、処理対象画像において注目領域を認識した結果である認識結果を出力する処理を行う処理部２２０を含む。ここで、内視鏡撮像装置とは、内視鏡システム３００に設けられ、生体に対応する被写体像の結像結果を出力可能な撮像装置であって、狭義には撮像素子３１２に対応する。

　本実施形態の学習済モデルは、第１観察方法において撮像された画像を含む第１画像群を用いてプレトレーニングされ、プレトレーニング後に、第２観察方法において撮像された画像を含む第２画像群と、第２画像群に含まれる注目領域に関する正解データを用いてファインチューニングされることによって学習されている。第１画像群は、図７における画像群Ａ１に対応し、第２画像群は画像群Ａ２に対応する。

　ここで、第１観察方法は、通常光を照明光とする観察方法である。第２観察方法は、特殊光を照明光とする観察方法である。第２画像群は、少なくとも１枚は注目領域が撮影されている画像を含み、且つ、第１画像群よりも枚数が少ない。

　本実施形態の手法によれば、特殊光観察において撮像される学習用画像の枚数不足を補うために、通常光観察において撮像される通常光画像を用いて機械学習のプレトレーニングが行われる。ニューラルネットワークを用いる場合、プレトレーニングとはファインチューニングを行う際の重み付け係数の初期値を設定する処理である。これにより、プレトレーニングを行わない場合に比べて、特殊光画像を対象とした認識処理の精度向上が可能になる。

　なお、学習済モデルに従った処理部２２０おける演算、即ち、入力データに基づいて出力データを出力するための演算は、ソフトウェアによって実行されてもよいし、ハードウェアによって実行されてもよい。換言すれば、図５（Ａ）の各ノードにおいて実行される積和演算や、ＣＮＮの畳み込み層において実行されるフィルタ処理等は、ソフトウェア的に実行されてもよい。或いは上記演算は、ＦＰＧＡ等の回路装置によって実行されてもよい。また、上記演算は、ソフトウェアとハードウェアの組み合わせによって実行されてもよい。このように、学習済モデルからの指令に従った処理部２２０の動作は、種々の態様によって実現可能である。例えば学習済モデルは、推論アルゴリズムと、当該推論アルゴリズムにおいて用いられるパラメータとを含む。推論アルゴリズムとは、入力データに基づいて、フィルタ演算等を行うアルゴリズムである。パラメータとは、学習処理によって取得されるパラメータであって、例えば重み付け係数である。この場合、推論アルゴリズムとパラメータの両方が記憶部２３０に記憶され、処理部２２０は、当該推論アルゴリズムとパラメータを読み出すことによってソフトウェア的に推論処理を行ってもよい。或いは、推論アルゴリズムはＦＰＧＡ等によって実現され、記憶部２３０はパラメータを記憶してもよい。或いは、パラメータを含む推論アルゴリズムがＦＰＧＡ等によって実現されてもよい。この場合、学習済モデルの情報を記憶する記憶部２３０は、例えばＦＰＧＡの内蔵メモリである。

　図１１は、本実施形態の手法による効果を説明する図である。図１１の横軸は画像１枚当たりの過検出数を表す。過検出数とは、ポリープでない領域を誤ってポリープとして検出した数である。縦軸は、感度を表す。感度とは、検証に用いた画像に撮像されたポリープのうち、どれだけのポリープが適切に検出され、且つ適切な局所分類結果が得られたかの割合を表す。

　図１１のＢ１は、特殊光画像に検出データ（マスクデータ）及び局所分類データ（分類ラベル）が付与された画像群のみを訓練データとして学習した場合の感度グラフを表す。Ｂ２は、通常光画像にマスクデータが付与された画像群を用いてプレトレーニングを行った後、特殊光画像にマスクデータ及び分類ラベルが付与された画像群を用いてファインチューニングを行った場合の感度グラフを表す。

　図１１からわかるように、Ｂ２はＢ１に比べて、検出及び局所分類の感度が向上している。即ち、本実施形態の手法により、特殊光画像における物体認識の精度向上が可能になる。また本実施形態の手法は、プレトレーニングとファインチューニングがいずれも生体内画像を用いて行われるため、ImageNet等の一般物体の画像群でプレトレーニングするよりも、ファインチューニングによる転移学習時のドメイン適応が上手くいく。

　なお図１１においては、特殊光画像を用いてファインチューニング済みのＣＮＮに、特殊光画像を入力した結果を例示した。しかし上述したように、通常光画像と特殊光画像を混合して１つのＣＮＮモデルをファインチューニングしてもよい。この場合、通常光画像、特殊光画像のどちらが入力されても、鑑別診断支援が可能なシステムを構築することが可能になる。

　また以上では、第２観察方法が特殊光を照明光として用いた観察方法である例について説明した。ただし、第２観察方法は被写体に色素散布を行った観察方法であってもよい。具体的な処理は特殊光画像の例と同様であり、以上の説明における特殊光画像を色素散布画像に置き換えて考えることが可能である。

　また本実施形態における注目領域は、ポリープであってもよい。このようにすれば、ポリープを対象とした検出処理、及び局所分類処理を高い精度で実行することが可能になる。ポリープの悪性度を鑑別する際には、ＮＢＩ等の特殊光観察や、色素散布観察が広く用いられる。そのため、特殊光画像や色素散布画像を用いた処理の精度向上が可能である本実施形態の手法と、ポリープの認識処理は親和性が高い。

　また本実施形態において第２画像群に付与される正解データは、画像内の注目領域の有無、位置、大きさ、形状のうち少なくとも１つに関連する検出データと、画像内の注目領域の悪性度を示す局所分類データのうち少なくとも１つを含むデータである。そして画像処理システム２００の処理部２２０において求められる認識結果は、画像内の注目領域の有無、位置、大きさ、形状のうち少なくとも１つに関連する検出結果と、画像内の注目領域の悪性度に関連する局所分類結果のうち少なくとも１つを含む。

　このようにすれば、認識処理として検出処理及び局所分類処理（鑑別処理）の少なくとも一方を行うことが可能になる。以上の説明においては、認識処理が、検出処理と局所分類処理の両方である例について説明した。このようにすれば、ポリープ等の注目領域の位置や大きさ等に加えて、悪性度の鑑別を行うことが可能になる。画像中のどの位置に、どのような悪性度のポリープが存在するかを提示できるため、ユーザによる診断等を適切にサポートすることが可能になる。

　ただし、本実施形態の学習済モデルは、検出結果のみを出力するものであってもよいし、局所分類結果のみを出力するものであってもよい。例えば、スクリーニング用途に特殊光画像を用いる場合であれば、検出結果が取得できれば足りる。また、事前に行ったスクリーニングにおいて注目領域の位置等が既知であれば、特殊光画像を用いた観察においては局所分類結果が取得できれば足りる。

　また本実施形態の処理部２２０は、学習済モデルによって取得される検出結果及び局所分類結果をそのまま出力するのではなく、所与の条件を満たした結果に限定して出力する。例えば上述したように、出力される認識結果は、検出スコアが所与の閾値ＴＨ２以上であるものに限定されてもよい。このようにすれば、信頼度の低い情報が出力されることを抑制できるため、ユーザによる診断等を適切にサポートすることが可能になる。さらに、局所分類ラベルの出力は、注目領域の面積が所与の閾値ＴＨ１以上であるものに限定されてもよい。画像上における大きさが小さいポリープは、検出自体は可能であっても、微細な構造に関する情報が十分取得されないため、当該ポリープの悪性度鑑別には適していない。図６に示したように、本実施形態のニューラルネットワークは処理対象画像を入力とする順方向の演算を行うことによって局所分類ラベルが取得されるものの、注目領域の面積が小さい場合、当該局所分類ラベルの信頼性が低い。その点、注目領域の面積が所与の閾値ＴＨ１以上であるか否かを判定することによって、信頼度の低い情報が出力されることを抑制できる。

　なお、出力する情報を決定する処理は、注目領域の面積を用いるものに限定されず、種々の変形実施が可能である。例えば処理部２２０は、学習済モデルに基づいて、検出結果の確からしさを示す検出スコアと、局所分類結果の確からしさを示す局所分類スコアと、を求める。そして処理部２２０は、検出スコアが所与の検出閾値より大きい場合に、検出結果を出力し、局所分類スコアが所与の分類閾値より大きい場合に局所分類結果を出力してもよい。

　局所分類スコアは、例えば上述したようにＴｙｐｅ１～Ｔｙｐｅ３のそれぞれに対応する確率データのうちの最大値である。例えばＴｙｐｅ１の確率データが０．４であり、Ｔｙｐｅ２の確率データが０．３であり、Ｔｙｐｅ３の確率データが０．３である場合を考える。この場合、確率データが最大となるのはＴｙｐｅ１であるため局所分類ラベルは「Ｔｙｐｅ１」となる。しかしＴｙｐｅ１の確率である局所分類スコアは０．４と小さく、Ｔｙｐｅ２である確率及びＴｙｐｅ３である確率との差も小さい。そのため、「Ｔｙｐｅ１」という局所分類ラベルの信頼性は低い。よって出力処理部２２２は、局所分類スコアが分類閾値未満である場合、局所分類結果の出力を行わない。分類閾値は種々の設定が可能であるが、例えば０．５よりも大きい値である。このようにすれば、局所分類スコアに基づいて信頼性の低い情報が出力されることを抑制できる。

　或いは処理部２２０は、検出結果に基づいて、注目領域の大きさ、ボケ、ブレの少なくとも１つに関する条件が満たされるか否かの判定を行ってもよい。そして条件が満たされた場合に、検出結果及び局所分類結果を出力し、条件が満たされない場合に、検出結果を出力し、且つ、局所分類結果を出力しない。

　ここで注目領域の大きさに関する条件とは、例えば上述したように面積占有率が閾値ＴＨ１以上であるという条件である。このようにすれば、注目領域が鑑別に不適切な程度に小さい場合、局所分類結果の出力が抑制される。

　ボケに関する条件とは、例えばボケ量がボケ閾値以下であるという条件である。ブレに関する条件とは、例えばブレ量がブレ閾値以下であるという条件である。ボケ量やブレ量が大きい場合、例えばエッジ等の注目領域の微細構造等に関する情報が失われるため、当該注目領域は鑑別に適さない。このように、ボケ、ブレに関する条件を判定することによっても、信頼度の低い情報の出力を抑制可能である。

　ここでボケ量とは、ボケの度合いを表す指標である。ボケとは、被写体にピントが合わないことによって画像がぼやけることを表す。例えば出力処理部２２２は、処理対象画像に対して所定量のボケを付与する画像処理を行った後、処理後の画像と元画像を比較する処理を行う。元画像のボケ量が小さい場合、画像間のボケ度合いの差が大きくなるのに対して、元画像のボケ量がそもそも大きい場合、画像処理による変化が小さく、画像間のボケ度合いの差が小さくなる。出力処理部２２２は、２つの画像の比較に基づいて、ボケ量を算出することが可能である。

　またブレ量とは、ブレの度合いを表す指標である。ブレとは、被写体が撮像装置に対して相対的に移動することによって、画像がぼやけることを表す。内視鏡システム３００において撮像される生体内画像では、照明光が被写体において正反射することによって、輝点が撮像される。輝点とは、輝度が相対的に高い領域であり、例えば白飛びした領域に対応する。ブレが小さい場合、輝点は円形状、或いはそれに類する形状となる。一方、ブレが大きくなると、被写体と撮像装置の相対的な移動に起因して、輝点が移動方向に沿って伸びた形状となる。出力処理部２２２は、輝点の形状に基づいて、ブレ量を算出することが可能である。

　なお、大きさ、ボケ、ブレに関する条件は、いずれか１つについて判定が行われてもよいし、２以上の条件を組み合わせて判定が行われてもよい。２以上の条件を組み合わせる場合、例えば全ての条件が満たされる場合に検出結果及び局所分類結果が出力され、少なくとも１つの条件が満たされない場合に検出結果のみが出力される。ただし、複数の条件の組み合わせ方は種々の変形実施が可能である。

　また本実施形態の学習済モデルは、コンボリューショナルニューラルネットワーク（Convolutional Neural Network）からなる。このようにすれば、画像を入力とする認識処理を効率的に、且つ高い精度で実行することが可能になる。なお、物体認識を行うＣＮＮは、Ｒ－ＣＮＮ及びそれを発展させた手法の他、ＹＯＬＯ（You only Look Once）、ＳＳＤ（Single Shot Detector）等の種々の手法が知られており、本実施形態ではそれらを広く適用可能である。

　また本実施形態の学習済モデルは、図６に示したように、処理対象画像に基づいて特徴量を出力する特徴量抽出層と、特徴量に基づいて検出結果を出力する検出層と、特徴量に基づいて局所分類結果を出力する局所分類層と、を含んでもよい。検出データが正解データとして付与された画像を含む第１画像群を用いたプレトレーニングによって、特徴量抽出層及び検出層における重み付け係数が学習される。また、検出データ及び局所分類データが正解データとして付与された画像を含む第２画像群を用いたファインチューニングによって、特徴量抽出層及び検出層及び局所分類層における重み付け係数が学習される。

　図６に示す構成を用いることによって、検出処理における特徴量抽出と、局所分類処理における特徴量抽出を共通化することが可能になる。そのため、特徴量抽出層をそれぞれ設ける場合に比べて、学習済モデルのサイズを小さくすることが可能になる。例えば、画像処理システム２００の記憶部２３０が学習済モデルの重み付け係数を記憶する場合に、当該記憶部２３０の容量を小さくすることが可能である。或いは、学習済モデルに従った推論処理アルゴリズムをＦＰＧＡ等を用いて構成する場合において、当該ＦＰＧＡのサイズ低減が可能になる。

　また本実施形態の手法は、学習装置１００に適用可能である。学習装置１００は、画像取得部１１０と、学習部１２０を含む。画像取得部１１０は、第１観察方法において撮像された画像を含む第１画像群と、第２観察方法において撮像された画像を含む第２画像群と、を取得する。学習部１２０は、第１画像群を用いてプレトレーニングを行い、プレトレーニング後に、第２画像群と、第２画像群に含まれる注目領域に関する正解データを用いてファインチューニングを行うことによって、学習済モデルを生成する。学習済モデルは、処理対象画像が入力された際に、処理対象画像において注目領域を認識した認識結果を出力するモデルである。また第１観察方法は、通常光を照明光とする観察方法であり、第２観察方法は、特殊光を照明光とする観察方法、又は、被写体に対して色素散布が行われた観察方法である。第２画像群は、少なくとも１枚は注目領域が撮影されている画像を含み、且つ、第１画像群よりも枚数が少ない。

　このようにすれば、特殊光画像又は色素散布画像を対象とする注目領域の認識処理を、高い精度で実行可能な学習済モデルを生成することが可能になる。

　また、本実施形態の学習装置１００が行う処理は、学習方法として実現されてもよい。本実施形態の学習方法は、第１観察方法において撮像された画像を含む第１画像群と、第２観察方法において撮像された画像を含む第２画像群と、を取得し、第１画像群を用いてプレトレーニングを行い、プレトレーニング後に、第２画像群と、第２画像群に含まれる注目領域に関する正解データを用いてファインチューニングを行うことによって、処理対象画像が入力された際に、処理対象画像において注目領域を認識した認識結果を出力する学習済モデルを生成する方法である。第１観察方法は、通常光を照明光とする観察方法であり、第２観察方法は、特殊光を照明光とする観察方法、又は、被写体に対して色素散布が行われた観察方法である。

３．第２の実施形態
３．１　学習処理
　第１の実施形態においては、学習装置１００が１つの学習済モデルを生成し、画像処理システム２００は、当該１つの学習済モデルに基づいて、少なくとも特殊光画像又は色素散布画像を対象とした注目領域の認識処理を行う手法について説明した。ただし、本実施形態の認識処理は、複数の学習済モデルを用いて行われてもよい。なお、第２の実施形態においても、第２の観察方法が特殊光観察である例について説明するが、第２の観察方法は色素散布観察であってもよい。即ち、以下の説明における、特殊光観察又は特殊光画像との表記を、適宜、色素散布観察及び色素散布画像と読み替えることが可能である。

　図１２は、第２の実施形態における学習装置１００の構成例である。学習装置１００の学習部１２０は、プレトレーニング部１２１と、観察方法混合ファインチューニング部１２３と、観察方法別ファインチューニング部１２４と、観察方法分類学習部１２５を含む。

　プレトレーニング部１２１は、画像取得部１１０から画像群Ｃ１を取得し、当該画像群Ｃ１に基づくプレトレーニングを行う。

　観察方法混合ファインチューニング部１２３は、画像取得部１１０から画像群Ｃ２を取得する。観察方法混合ファインチューニング部１２３は、プレトレーニング後の重み付け係数を初期値として、画像群Ｃ２に基づくファインチューニングを行う。

　観察方法別ファインチューニング部１２４は、画像取得部１１０から画像群Ｃ３及びＣ４を取得する。観察方法別ファインチューニング部１２４は、プレトレーニング後の重み付け係数を初期値として、画像群Ｃ３に基づくファインチューニングを行う。また観察方法別ファインチューニング部１２４は、プレトレーニング後の重み付け係数を初期値として、画像群Ｃ４に基づくファインチューニングを行う。即ち、観察方法別ファインチューニング部１２４は、異なる複数の画像群に基づいて、複数の学習済モデルを生成する。

　観察方法分類学習部１２５は、画像取得部１１０から画像群Ｃ５を取得し、当該画像群Ｃ５に基づく機械学習を行う。観察方法分類学習部１２５における機械学習は、例えばプレトレーニングとファインチューニングに区分されないフルトレーニングである。

　本実施形態におけるプレトレーニングは、第１の実施形態と同様である。即ち、画像群Ｃ１は画像群Ａ１と同様に、通常光画像に対して検出データが正解データとして付与された学習用画像を複数含む画像群である。プレトレーニング部１２１は、第１の実施形態と同様に、図６のニューラルネットワークにおいて、特徴量抽出層における重み付け係数と、検出層における重み付け係数を学習する。

　観察方法混合ファインチューニング部１２３において実行されるファインチューニングは、通常光画像と特殊光画像の両方に適用可能な、汎用性の高い学習済モデルを生成するための学習処理である。即ち、画像群Ｃ２は、通常光画像に対して検出データ及び局所分類データが付与された学習用画像、及び、特殊光画像に対して検出データ及び局所分類データが付与された学習用画像を含む。観察方法混合ファインチューニング部１２３は、図６に示すニューラルネットワークにおいて、特徴量抽出層における重み付け係数、検出層における重み付け係数、局所分類層における重み付け係数、の全てを学習対象とする。観察方法混合ファインチューニング部１２３は、学習済モデルとして観察方法混合ＣＮＮを出力する。以下、観察方法混合ＣＮＮをＣＮＮ＿ＡＢと表記する。

　観察方法別ファインチューニング部１２４において実行されるファインチューニングは、通常光画像と特殊光画像のいずれか一方に特化した学習済モデルを生成するための学習処理である。即ち、画像群Ｃ３は、通常光画像に対して検出データ及び局所分類データが付与された学習用画像を含む。画像群Ｃ３は、特殊光画像に対して検出データ及び局所分類データが付与された学習用画像を含まない、又は、含むとしてもその枚数が通常光画像に比べて十分少ない。観察方法別ファインチューニング部１２４は、画像群Ｃ３を用いて、図６に示すニューラルネットワークにおける、特徴量抽出層における重み付け係数、検出層における重み付け係数、局所分類層における重み付け係数、の全てを学習する。観察方法別ファインチューニング部１２４は、学習済モデルとして通常光観察に適した観察方法別ＣＮＮを出力する。以下、通常光観察に適した観察方法別ＣＮＮをＣＮＮ＿Ａと表記する。

　同様に画像群Ｃ４は、特殊光画像に対して検出データ及び局所分類データが付与された学習用画像を含む。画像群Ｃ４は、通常光画像に対して検出データ及び局所分類データが付与された学習用画像を含まない、又は、含むとしてもその枚数が特殊光画像に比べて十分少ない。観察方法別ファインチューニング部１２４は、画像群Ｃ４を用いて、図６に示すニューラルネットワークにおける、特徴量抽出層における重み付け係数、検出層における重み付け係数、局所分類層における重み付け係数、の全てを学習する。観察方法別ファインチューニング部１２４は、学習済モデルとして特殊光観察に適した観察方法別ＣＮＮを出力する。以下、特殊光観察に適した観察方法別ＣＮＮをＣＮＮ＿Ｂと表記する。

　以上のように、第２の実施形態においては、図６に示した構造のＣＮＮが３つ用いられ、各ＣＮＮの重み付け係数は異なる画像群を用いた個別のファインチューニングによって学習される。即ち、重み付け係数の異なる３つの学習済モデルＣＮＮ＿Ａ、ＣＮＮ＿Ｂ、ＣＮＮ＿ＡＢが生成される。

　画像群Ｃ５は、通常光画像に対して、観察方法を特定する情報である観察方法データが正解データとして付与された学習用画像と、特殊光画像に対して観察方法データが付与された学習画像とを含む画像群である。観察方法分類学習部１２５は、画像が入力される入力層と、観察方法分類結果を出力する出力層を含むモデルの機械学習を行う。当該モデルの中間層の構成については、種々の変形実施が可能である。

　観察方法分類結果は、例えば入力された画像が通常光観察において撮像された通常光画像である確からしさを表すデータと、入力された画像が特殊光観察において撮像された特殊光画像である確からしさを表すデータを含む。観察方法分類学習部１２５は、画像群Ｃ５に含まれる通常光画像又は特殊光画像を入力として現在の重み付け係数に基づく順方向の演算を行う。観察方法分類学習部１２５は、順方向の演算によって求められた観察方法分類結果と、正解データである観察方法データとの誤差を誤差関数として演算し、当該誤差関数を小さくするように重み付け係数の更新処理を行う。これにより、観察方法分類学習部１２５は、入力画像の観察方法を特定するための学習済モデルを生成する。観察方法を特定するための学習済モデルを、以下では観察方法分類用ＣＮＮと表記する。

　なお後述するように、画像処理システム２００における観察方法分類処理において、学習済モデルを用いなくてもよい。その場合、観察方法分類学習部１２５を省略することが可能である。

　図１３（Ａ）～図１３（Ｃ）は、第２の実施形態における学習処理を説明するフローチャートである。図１３（Ａ）は、ＣＮＮ＿ＡＢを生成する処理を説明するフローチャートである。この処理が開始されると、まずステップＳ３０１－１において、プレトレーニング部１２１は、通常光画像を用いて病変検出タスク向けにＣＮＮ＿ＡＢをプレトレーニングする。ステップＳ３０２－１において、観察方法混合ファインチューニング部１２３は、プレトレーニング結果を初期値として、特殊光画像及び通常光画像を用いて病変検出及び局所分類タスク向けにＣＮＮ＿ＡＢをファインチューニングする。

　図１３（Ｂ）は、ＣＮＮ＿Ａを生成する処理を説明するフローチャートである。この処理が開始されると、まずステップＳ３０１－２において、プレトレーニング部１２１は、通常光画像を用いて病変検出タスク向けにＣＮＮ＿Ａをプレトレーニングする。ステップＳ３０２－２において、観察方法別ファインチューニング部１２４は、プレトレーニング結果を初期値として、通常光画像のみを用いて病変検出及び局所分類タスク向けにＣＮＮ＿Ａをファインチューニングする。

　図１３（Ｃ）は、ＣＮＮ＿Ｂを生成する処理を説明するフローチャートである。この処理が開始されると、まずステップＳ３０１－３において、プレトレーニング部１２１は、通常光画像を用いて病変検出タスク向けにＣＮＮ＿Ｂをプレトレーニングする。ステップＳ３０２－３において、観察方法別ファインチューニング部１２４は、プレトレーニング結果を初期値として、特殊光画像のみを用いて病変検出及び局所分類タスク向けにＣＮＮ＿Ｂをファインチューニングする。

３．２　認識処理
　図１４は、第２の実施形態における画像処理システム２００の構成例である。画像処理システム２００の処理部２２０は、観察方法混合認識処理部２２３と、観察方法別認識処理部２２４と、観察方法分類部２２５と、統合処理部２２６と、出力処理部２２７を含む。観察方法混合認識処理部２２３は、学習装置１００によって生成されたＣＮＮ＿ＡＢに従って動作する。観察方法別認識処理部２２４は、学習装置１００によって生成されたＣＮＮ＿Ａ、ＣＮＮ＿Ｂの少なくとも一方に従って動作する。観察方法分類部２２５は、学習装置１００によって生成された観察方法分類用ＣＮＮに従って動作する。統合処理部２２６は、観察方法混合認識処理部２２３による認識結果と、観察方法別認識処理部２２４による認識結果の統合処理を行う。出力処理部２２７は、統合処理結果に基づいて出力処理を行う。

　図１５は、第２の実施形態における画像処理システム２００の処理を説明するフローチャートである。まずステップＳ４０１において、画像取得部２１０は、内視鏡撮像装置によって撮像された生体内画像を、処理対象画像として取得する。

　ステップＳ４０２において、観察方法混合認識処理部２２３は、画像取得部２１０が取得した処理対象画像をＣＮＮ＿ＡＢの入力として順方向の演算を行う。ステップＳ４０２の処理において、認識処理部２２１は、検出層からの検出結果を表す情報と、局所分類層からの局所分類結果を表す情報を取得する。

　ステップＳ４０３において、観察方法分類部２２５は、処理対象画像が通常光画像であるか特殊光画像であるかを判定する観察方法分類処理を行う。例えば観察方法分類部２２５は、画像取得部２１０が取得した処理対象画像を観察方法分類用ＣＮＮに入力することによって、処理対象画像が通常光画像である確率を表す確率データと、処理対象画像が特殊光画像である確率を表す確率データとを取得する。観察方法分類部２２５は、２つの確率データの大小関係に基づいて、観察方法分類処理を行う。

　或いは、観察方法分類部２２５は、学習済モデルを用いずに観察方法分類処理を行ってもよい。例えば観察方法分類部２２５は、通常光照明と特殊光照明との切り替えスイッチからの信号を取得することによって、どちらの照明状態にあるかの観察方法分類処理を行ってもよい。或いは観察方法分類部２２５は、処理対象画像の色分布等に基づいて観察方法分類処理を行ってもよい。例えばＮＢＩ画像である特殊光画像は擬似カラー画像となるため、通常光画像との色分布の違いが大きい。

　また特殊光画像に代えて色素散布画像を用いる場合も同様であり、観察方法分類部２２５は、学習済モデルを用いて観察方法分類処理を行ってもよいし、学習済モデルを用いずに観察方法分類処理を行ってもよい。学習済モデルを用いずに通常光画像と色素散布画像を分類する場合、切り替えスイッチからの信号を取得することはできない。例えば観察方法分類部２２５は、処理対象画像の色分布等に基づいて観察方法分類処理を行ってもよい。例えばインジゴカルミンを散布した場合、色素散布画像は通常光画像に比べて青色が強い画像になる。或いは、色素散布を行ったか否かに関する入力をユーザに行わせることによって、観察方法分類処理を行ってもよい。

　ステップＳ４０４において、観察方法別認識処理部２２４は、観察方法分類処理の結果に基づいて、観察方法が通常光観察であるか特殊光観察であるかを判定する。ステップＳ４０４において通常光観察であると判定された場合、ステップＳ４０５において、観察方法別認識処理部２２４は、画像取得部２１０が取得した処理対象画像をＣＮＮ＿Ａの入力として順方向の演算を行う。ステップＳ４０５の処理が行われることによって、観察方法別認識処理部２２４は、検出層からの検出結果を表す情報と、局所分類層からの局所分類結果を表す情報を取得する。

　ステップＳ４０６において、統合処理部２２６は、ＣＮＮ＿ＡＢによる認識結果と、ＣＮＮ＿Ａによる認識結果の統合処理を行う。同じ注目領域の検出結果であっても、ＣＮＮ＿ＡＢによって出力される検出枠の位置や大きさと、ＣＮＮ＿Ａによって出力される検出枠の位置や大きさが一致するとは限らない。また当該検出枠に対応付けられた局所分類ラベルが異なる場合がある。その際、ＣＮＮ＿ＡＢによる認識結果とＣＮＮ＿Ａによる認識結果を両方出力してしまうと、１つの注目領域に対して異なる複数の情報が表示されることになりユーザを混乱させてしまう。

　よって統合処理部２２６は、ＣＮＮ＿ＡＢによって検出された検出枠と、ＣＮＮ＿Ａによって検出された検出枠が、同一の注目領域に対応する領域であるかを判定する。例えば、統合処理部２２６は検出枠どうしの重なり度合いを表すＩＯＵ（Intersection Over Union）を算出し、ＩＯＵが閾値以上である場合に、２つの検出枠が同一の注目領域に対応すると判定する。ＩＯＵについては公知であるため詳細な説明は省略する。またＩＯＵの閾値は例えば０．５程度であるが、具体的な数値は種々の変形実施が可能である。

　また統合処理部２２６は、同一の注目領域に対応すると判定された２つの検出枠について、局所分類ラベルが一致するか否かを判定する。例えばＮＩＣＥ分類を用いる場合、統合処理部２２６は、Ｔｙｐｅ１～３のうち、確率データの値が最も大きいタイプが一致するか否かを判定する。局所分類ラベルが異なる場合、例えば統合処理部２２６は、局所分類スコアの大きな方の局所分類ラベルを選択し、局所分類スコアの小さい方の局所分類ラベルを消去する統合処理を行う。局所分類ラベルが一致する場合には、統合処理部２２６は、ＣＮＮ＿ＡＢから出力された局所分類スコアと、ＣＮＮ＿Ａから出力された局所分類スコアのうち、値の大きな方を選択する処理、又は、２つの値の平均値を求める処理によって局所分類スコアを更新する。

　一方、ステップＳ４０４において特殊光観察であると判定された場合、ステップＳ４０７において、観察方法別認識処理部２２４は、画像取得部２１０が取得した処理対象画像をＣＮＮ＿Ｂの入力として順方向の演算を行う。ステップＳ４０６の処理が行われることによって、観察方法別認識処理部２２４は、検出層からの検出結果を表す情報と、局所分類層からの局所分類結果を表す情報を取得する。

　ステップＳ４０８において、統合処理部２２６は、ＣＮＮ＿ＡＢによる認識結果と、ＣＮＮ＿Ｂによる認識結果の統合処理を行う。統合処理の流れについてはステップＳ４０６と同様である。

　ステップＳ４０６又はステップＳ４０８の統合処理の結果として、１つの注目領域について１つの認識結果が取得される。即ち、統合処理の出力は、処理対象画像中の注目領域の数に応じた数の検出枠と、各検出枠における検出スコア、局所分類ラベル及び局所分類スコアを表す情報である。よって出力処理部２２７は、第１の実施形態における出力処理部２２２と同様の出力処理を行う。例えば出力処理部２２７は、面積占有率とＴＨ１の比較処理や、検出スコアとＴＨ２の比較処理等を行うことによって、出力する情報を選択する。

　以上のように、本実施形態の処理部２２０は、第１学習済モデルに従って動作することによって求めた第１認識結果と、第２学習済モデルに従って動作することによって求めた第２認識結果との統合処理を行い、統合処理の結果を認識結果として出力する。

　第１学習済モデルとは、例えばＣＮＮ＿ＡＢである。第２学習済モデルとは、例えばＣＮＮ＿Ａ又はＣＮＮ＿Ｂである。

　このように、複数の認識結果を統合することによって、より精度の高い認識結果を取得することが可能となる。例えば、２つの観察方法のデータバランスが悪い場合には、観察方法別学習済モデルであるＣＮＮ＿Ａ又はＣＮＮ＿Ｂの方がより高い精度となり、２つの観察方法のデータバランスが良い場合には、観察方法混合学習済モデルであるＣＮＮ＿ＡＢの方がより高い精度になる。データバランスとは、学習に用いる画像群における画像枚数の比率を表す。

　観察方法のデータバランスは、データ収集元となる内視鏡システムの稼働状況や、正解データの付与状況等、種々の要因によって変化する。また収集を継続的に行う場合、データバランスが時間経過とともに変化していくことも想定される。学習装置１００において、データバランスの調整を行ったり、データバランスに応じて学習処理を変更することは可能であるが、学習処理の負荷が大きくなってしまう。また、学習段階におけるデータバランスを考慮して、画像処理システム２００における推論処理を変更することも可能であるが、データバランスに関する情報を取得したり、当該データバランスに応じて処理を分岐させる必要があり、負荷が大きい。その点、上記のように統合処理を行うことによって、処理負荷を増大させることなく、データバランスによらず相補的に高精度な結果を提示することが可能となる。

　また処理部２２０は、第１学習済モデルに従って動作することによって注目領域に対応する領域である第１領域を検出結果として求め、第２学習済モデルに従って動作することによって注目領域に対応する領域である第２領域を検出結果として求める。そして処理部２２０は、第１領域と第２領域の重なり度合いに基づいて、第１領域及び第２領域が同一の注目領域に対応する領域であるか否かを判定する。

　このようにすれば、２つの学習済モデルからそれぞれ出力された２つの領域が、同じ注目領域を対象とした情報であるか否かを判定できる。そのため、例えば同じ注目領域に対して異なる複数の情報を提示することを抑制できる。

　また上記第１領域及び第２領域は、画像内の注目領域を囲う枠である検出枠であってもよい。処理部２２０は、第１領域に対応する検出枠と、第２領域に対応する検出枠の重なり度合いであるＩＯＵを算出し、ＩＯＵが所定の閾値以上である場合に、第１領域及び第２領域が同一の注目領域に対応する領域であると判定する。

　このようにすれば、２つの検出枠のＩＯＵに基づいて、当該２つの検出枠が同じ注目領域を対象とした情報であるか否かを判定できる。そのため、同じ注目領域に対して異なる複数の情報を提示することを抑制できる。

　また処理部２２０は、第１領域と第２領域が同一の注目領域に対応する領域と判定され、且つ、第１領域に対応する局所分類結果と、第２領域に対応する局所分類結果が異なる場合に、局所分類結果の確からしさを表す局所分類スコアの大きな局所分類結果を選択する処理を行ってもよい。

　ここでの局所分類結果とは、具体的には局所分類ラベルを表す。このようにすれば、同一の注目領域に対する局所分類結果が相違した場合であっても、より確からしい局所分類結果を出力することが可能になる。

　また本実施形態の学習済モデルは、第１画像群を用いてプレトレーニングされ、第２画像群を用いてファインチューニングされることによって学習された第２観察方法用学習済モデルと、第１画像群を用いてプレトレーニングされ、第１観察方法において撮像された画像を含む第３画像群を用いてファインチューニングされることによって学習された第１観察方法用学習済モデルと、を含む。

　ここで第１画像群は、図１２のＣ１に対応し、通常光画像に対して検出データが付与された画像からなる画像群である。第２画像群はＣ４に対応し、特殊光画像に対して検出データ及び局所分類データが付与された画像からなる画像群である。第３画像群はＣ３に対応し、通常光画像に対して検出データ及び局所分類データが付与された画像、及び、特殊光画像に対して検出データ及び局所分類データが付与された画像からなる画像群である。第２観察方法用学習済モデルはＣＮＮ＿Ｂに対応し、第１観察方法用学習済モデルはＣＮＮ＿Ａに対応する。

　このようにすれば、第１観察方法において撮像された画像に適した学習済モデルと、第２観察方法において撮像された画像に適した学習済モデルとを認識処理に用いることが可能になる。そのため、処理対象画像の観察方法によらず、精度の高い認識処理を行うことが可能になる。

　処理部２２０は、処理対象画像が第１観察方法において撮像された画像であると判定した場合、第１観察方法用学習済モデルに基づく認識結果を出力し、処理対象画像が第２観察方法において撮像された画像であると判定した場合、第２観察方法用学習済モデルに基づく認識結果を出力する。例えば処理部２２０は、撮像分類処理の結果に基づいて、第１観察方法用学習済モデルに従って動作するか、第２観察方法用学習済モデルに従って動作するかを切り替える。

　このように、処理対象画像が撮像された観察方法の判定結果に基づいて、適切な学習済モデルを選択することによって、精度の高い認識処理を行うことが可能になる。なお、図１５に示した例においては、ＣＮＮ＿Ａに基づく認識処理と、ＣＮＮ＿Ｂに基づく認識処理のいずれか一方が行われる例を示したが、処理の流れはこれに限定されない。例えば観察方法別認識処理部２２４は、ＣＮＮ＿Ａに基づく認識処理と、ＣＮＮ＿Ｂに基づく認識処理の両方を行っておき、観察方法分類結果に基づいて、いずれか一方を統合処理部２２６に出力するように構成されてもよい。

　また第１画像群は、第１観察方法において撮像された画像に対して、注目領域の有無、位置、大きさ、形状のうち少なくとも１つに関連する検出データが正解データとして付与された画像を含み、第３画像群は、第１観察方法において撮像された画像に対して、検出データ、及び、注目領域の悪性度を示す局所分類データが正解データとして付与された画像を含む。

　上述したように、本実施形態の認識処理は、検出処理に加えて、局所分類処理を行うことが想定される。通常光画像は病変検出に使用されるケースが多いため、検出データが付与された通常光画像は豊富に取得可能である。即ち第１画像群の枚数は相対的に多い。しかし、局所分類データがないため、第１画像群から局所分類処理を行う学習済モデルを生成することはできない。また、局所分類データが付与された通常光画像は豊富に取得できず、第３画像群の枚数は相対的に少ない。そのため、第３画像群のみを用いてフルトレーニングを行っても、画像枚数が不足することによって認識処理の精度を高くできない。その点、第１画像群を用いてプレトレーニングを行い、第３画像群を用いてファインチューニングを行うことによって、通常光画像に対する検出処理及び局所分類処理を高い精度で実行可能な学習済モデルを生成できる。

４．第３の実施形態
　第２の実施形態では、第２の観察方法が特殊光観察又は色素散布観察のいずれか一方である例を示した。しかし特殊光観察と色素散布観察はいずれか一方を処理対象とするものに限定されず、その両方を処理対象としてもよい。即ち、第３の実施形態における観察方法は、通常光観察と、特殊光観察と、色素散布観察の３つを含む。

　学習装置１００のプレトレーニング部１２１の構成は第１の実施形態及び第２の実施形態と同様である。ファインチューニングに用いる画像群としては、通常光画像に検出データ及び局所分類データが付与された画像からなる画像群Ａ、特殊光画像に検出データ及び局所分類データが付与された画像からなる画像群Ｂ、色素散布画像に検出データ及び局所分類データが付与された画像からなる画像群Ｃ、通常光画像及び特殊光画像を混合した画像群ＡＢ、特殊光画像及び色素散布画像を混合した画像群ＢＣ、色素散布画像及び通常光画像を混合した画像群ＣＡ、通常光画像及び特殊光画像及び色素散布画像を混合した画像群ＡＢＣ、の７通りが考えられる。

　例えば、観察方法混合ファインチューニング部１２３は、画像群ＡＢＣに基づいてＣＮＮ＿ＡＢＣを生成するファインチューニングと、画像群ＡＢに基づいてＣＮＮ＿ＡＢを生成するファインチューニングと、画像群ＢＣに基づいてＣＮＮ＿ＢＣを生成するファインチューニングと、画像群ＣＡに基づいてＣＮＮ＿ＣＡを生成するファインチューニングと、を行う。観察方法別ファインチューニング部１２４は、画像群Ａに基づいてＣＮＮ＿Ａを生成するファインチューニングと、画像群Ｂに基づいてＣＮＮ＿Ｂを生成するファインチューニングと、画像群Ｃに基づいてＣＮＮ＿Ｃを生成するファインチューニングと、を行う。

　観察方法分類部２２５は、処理対象画像が撮像された観察方法が、通常光観察、特殊光観察、色素散布観察のいずれであるかを判定する観察方法分類処理を行う。観察方法分類処理は、第２の実施形態と同様に、学習済モデルを用いて行われてもよいし、処理対象画像の色分布を用いて行われてもよい。

　観察方法分類処理の結果が通常光観察である場合、観察方法混合認識処理部２２３は、ＣＮＮ＿ＡＢ、ＣＮＮ＿ＣＡ、ＣＮＮ＿ＡＢＣを用いて３つの認識結果を取得する。観察方法別認識処理部２２４は、ＣＮＮ＿Ａを用いて１つの認識結果を取得する。統合処理部２２６は、取得された４つの認識結果の統合処理を行う。統合対象が４つに増えるが、具体的な統合処理の流れは第２の実施形態と同様である。即ち、統合処理部２２６は、検出枠の重なり度合いに基づいて、複数の検出枠が同一の注目領域に対応するか否かを判定する。同一の注目領域に対応すると判定された場合、各検出枠の局所分類ラベルを比較する。局所分類ラベルが異なる場合、例えば局所分類スコアが最大となる局所分類ラベルを選択する処理を行う。局所分類ラベルが一致する場合、局所分類スコアの最大値や平均値を用いて局所分類スコアを更新する。

　観察方法分類処理の結果が特殊光観察である場合、観察方法混合認識処理部２２３は、ＣＮＮ＿ＡＢ、ＣＮＮ＿ＢＣ、ＣＮＮ＿ＡＢＣを用いて３つの認識結果を取得する。観察方法別認識処理部２２４は、ＣＮＮ＿Ｂを用いて１つの認識結果を取得する。統合処理部２２６は、取得された４つの認識結果の統合処理を行う。

　観察方法分類処理の結果が色素散布観察である場合、観察方法混合認識処理部２２３は、ＣＮＮ＿ＢＣ、ＣＮＮ＿ＣＡ、ＣＮＮ＿ＡＢＣを用いて３つの認識結果を取得する。観察方法別認識処理部２２４は、ＣＮＮ＿Ｃを用いて１つの認識結果を取得する。統合処理部２２６は、取得された４つの認識結果の統合処理を行う。

　以上のように、本開示の手法は、観察方法が３つ以上の場合にも拡張可能である。複数の認識結果を統合することによって、より精度の高い認識結果を提示することが可能となる。

　なお、上記のように本実施形態について詳細に説明したが、本実施形態の新規事項および効果から実体的に逸脱しない多くの変形が可能であることは当業者には容易に理解できるであろう。従って、このような変形例はすべて本開示の範囲に含まれるものとする。例えば、明細書又は図面において、少なくとも一度、より広義または同義な異なる用語と共に記載された用語は、明細書又は図面のいかなる箇所においても、その異なる用語に置き換えることができる。また本実施形態及び変形例の全ての組み合わせも、本開示の範囲に含まれる。また学習装置、画像処理システム、内視鏡システム等の構成及び動作等も、本実施形態で説明したものに限定されず、種々の変形実施が可能である。

１００…学習装置、１１０…画像取得部、１２０…学習部、１２１…プレトレーニング部、１２２…ファインチューニング部、１２３…観察方法混合ファインチューニング部、１２４…観察方法別ファインチューニング部、１２５…観察方法分類学習部、２００…画像処理システム、２１０…画像取得部、２２０…処理部、２２１…認識処理部、２２２…出力処理部、２２３…観察方法混合認識処理部、２２４…観察方法別認識処理部、２２５…観察方法分類部、２２６…統合処理部、２２７…出力処理部、２３０…記憶部、３００…内視鏡システム、３１０…挿入部、３１１…対物光学系、３１２…撮像素子、３１３…アクチュエータ、３１４…照明レンズ、３１５…ライトガイド、３１６…ＡＦ開始／終了ボタン、３２０…外部Ｉ／Ｆ部、３３０…システム制御装置、３３１…Ａ／Ｄ変換部、３３２…前処理部、３３３…検出処理部、３３４…後処理部、３３５…システム制御部、３３６…制御部、３３７…記憶部、３４０…表示部、３５０…光源装置、３５２…光源

Claims

　内視鏡撮像装置によって撮像された生体内画像を、処理対象画像として取得する画像取得部と、
　学習済モデルに従って動作することによって、前記処理対象画像において注目領域を認識した結果である認識結果を出力する処理を行う処理部と、
　を含み、
　前記学習済モデルは、
　第１観察方法において撮像された画像を含む第１画像群を用いてプレトレーニングされ、前記プレトレーニング後に、第２観察方法において撮像された画像を含む第２画像群と、前記第２画像群に含まれる前記注目領域に関する正解データを用いてファインチューニングされることによって学習されており、
　前記第１観察方法は、通常光を照明光とする観察方法であり、
　前記第２観察方法は、特殊光を前記照明光とする観察方法、又は、被写体に対して色素散布が行われた観察方法であり、
　前記第２画像群は、少なくとも１枚は前記注目領域が撮影されている画像を含み、且つ、前記第１画像群よりも枚数が少ないことを特徴とする画像処理システム。
　請求項１において、
　前記注目領域は、ポリープであることを特徴とする画像処理システム。
　請求項１において、
　前記正解データは、画像内の前記注目領域の有無、位置、大きさ、形状のうち少なくとも１つに関連する検出データと、画像内の前記注目領域の悪性度を示す局所分類データのうち少なくとも１つを含むデータであって、
　前記認識結果は、画像内の前記注目領域の有無、位置、大きさ、形状のうち少なくとも１つに関連する検出結果と、画像内の前記注目領域の前記悪性度に関連する局所分類結果のうち少なくとも１つを含む結果であることを特徴とする画像処理システム。
　請求項３において、
　前記処理部は、
　前記学習済モデルに基づいて、前記検出結果の確からしさを示す検出スコアと、前記局所分類結果の確からしさを示す局所分類スコアと、を求め、
　前記検出スコアが所与の検出閾値より大きい場合に、前記検出結果を出力し、前記局所分類スコアが所与の分類閾値より大きい場合に前記局所分類結果を出力することを特徴とする画像処理システム。
　請求項３において、
　前記処理部は、
　前記検出結果に基づいて、前記注目領域の大きさ、ボケ、ブレの少なくとも１つに関する条件が満たされるか否かの判定を行い、
　前記条件が満たされた場合に、前記検出結果及び前記局所分類結果を出力し、
　前記条件が満たされない場合に、前記検出結果を出力し、且つ、前記局所分類結果を出力しない、
　ことを特徴とする画像処理システム。
　請求項１において、
　前記処理部は、
　第１学習済モデルに従って動作することによって求めた第１認識結果と、第２学習済モデルに従って動作することによって求めた第２認識結果との統合処理を行い、前記統合処理の結果を前記認識結果として出力することを特徴とする画像処理システム。
　請求項３において、
　前記処理部は、
　第１学習済モデルに従って動作することによって前記注目領域に対応する領域である第１領域を前記検出結果として求め、第２学習済モデルに従って動作することによって前記注目領域に対応する領域である第２領域を前記検出結果として求め、
　前記第１領域と前記第２領域の重なり度合いに基づいて、前記第１領域及び前記第２領域が同一の前記注目領域に対応する領域であるか否かを判定することを特徴とする画像処理システム。
　請求項７において、
　前記第１領域及び前記第２領域は、画像内の前記注目領域を囲う枠である検出枠であり、
　前記処理部は、
　前記第１領域に対応する前記検出枠と、前記第２領域に対応する前記検出枠の前記重なり度合いであるＩＯＵ（Intersection over Union）を算出し、前記ＩＯＵが所定の閾値以上である場合に、前記第１領域及び前記第２領域が同一の前記注目領域に対応すると判定することを特徴とする画像処理システム。
　請求項７において、
　前記処理部は、
　前記第１領域と前記第２領域が同一の前記注目領域に対応すると判定され、且つ、前記第１領域に対応する前記局所分類結果と、前記第２領域に対応する前記局所分類結果が異なる場合に、前記局所分類結果の確からしさを表す局所分類スコアの大きな前記局所分類結果を選択する処理を行うことを特徴とする画像処理システム。
　請求項１において、
　前記学習済モデルは、コンボリューショナルニューラルネットワーク（Convolutional Neural Network）からなることを特徴とする画像処理システム。
　請求項１において、
　前記学習済モデルは、
　前記第１画像群を用いてプレトレーニングされ、前記第２画像群を用いてファインチューニングされることによって学習された第２観察方法用学習済モデルと、
　前記第１画像群を用いてプレトレーニングされ、前記第１観察方法において撮像された画像を含む第３画像群を用いてファインチューニングされることによって学習された第１観察方法用学習済モデルと、を含むことを特徴とする画像処理システム。
　請求項１１において、
　前記第１画像群は、前記第１観察方法において撮像された画像に対して、前記注目領域の有無、位置、大きさ、形状のうち少なくとも１つに関連する検出データが前記正解データとして付与された画像を含み、
　前記第３画像群は、前記第１観察方法において撮像された画像に対して、前記検出データ、及び、前記注目領域の悪性度を示す局所分類データが前記正解データとして付与された画像を含むことを特徴とする画像処理システム。
　請求項３において、
　前記学習済モデルは、
　前記処理対象画像に基づいて特徴量を出力する特徴量抽出層と、前記特徴量に基づいて前記検出結果を表す情報を出力する検出層と、前記特徴量に基づいて前記局所分類結果を表す情報を出力する局所分類層と、を含み、
　前記検出データが前記正解データとして付与された画像を含む前記第１画像群を用いた前記プレトレーニングによって、前記特徴量抽出層及び前記検出層における重み付け係数が学習され、
　前記検出データ及び前記局所分類データが前記正解データとして付与された画像を含む前記第２画像群を用いた前記ファインチューニングによって、前記特徴量抽出層及び前記検出層及び前記局所分類層における前記重み付け係数が学習されることを特徴とする画像処理システム。
　第１観察方法において撮像された画像を含む第１画像群と、第２観察方法において撮像された画像を含む第２画像群と、を取得する画像取得部と、
　前記第１画像群を用いてプレトレーニングを行い、前記プレトレーニング後に、前記第２画像群と、前記第２画像群に含まれる注目領域に関する正解データを用いてファインチューニングを行うことによって、処理対象画像が入力された際に、前記処理対象画像において前記注目領域を認識した認識結果を出力する学習済モデルを生成する学習部と、
　を含み、
　前記第１観察方法は、通常光を照明光とする観察方法であり、
　前記第２観察方法は、特殊光を前記照明光とする観察方法、又は、被写体に対して色素散布が行われた観察方法であり、
　前記第２画像群は、少なくとも１枚は前記注目領域が撮影されている画像を含み、且つ、前記第１画像群よりも枚数が少ないことを特徴とする学習装置。
　第１観察方法において撮像された画像を含む第１画像群と、第２観察方法において撮像された画像を含む第２画像群と、を取得し、
　前記第１画像群を用いてプレトレーニングを行い、
　前記プレトレーニング後に、前記第２画像群と、前記第２画像群に含まれる注目領域に関する正解データを用いてファインチューニングを行うことによって、処理対象画像が入力された際に、前記処理対象画像において前記注目領域を認識した認識結果を出力する学習済モデルを生成し、
　前記第１観察方法は、通常光を照明光とする観察方法であり、
　前記第２観察方法は、特殊光を前記照明光とする観察方法、又は、被写体に対して色素散布が行われた観察方法であり、
　前記第２画像群は、少なくとも１枚は前記注目領域が撮影されている画像を含み、且つ、前記第１画像群よりも枚数が少ないことを特徴とする学習方法。