WO2021106174A1

WO2021106174A1 - 画像処理方法、学習装置及び画像処理装置

Info

Publication number: WO2021106174A1
Application number: PCT/JP2019/046692
Authority: WO
Inventors: 淳安藤
Original assignee: オリンパス株式会社
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2021-06-03
Also published as: JP7231762B2; US20220130136A1; CN114365180A; JPWO2021106174A1

Abstract

画像処理方法は、入力画像に第１画像拡張を適用することによって第１拡張画像を生成し、入力画像に第２画像拡張を適用することによって第２拡張画像を生成し、第１拡張画像をニューラルネットワークに入力することによって第１出力を生成し、第２拡張画像をニューラルネットワークに入力することによって第２出力を生成し、第１出力と第２出力との相違度を示す出力相違度を算出し、出力相違度に基づいて、ニューラルネットワークの各層における重み係数を更新する。

Description

画像処理方法、学習装置及び画像処理装置

　本発明は、画像処理方法、学習装置及び画像処理装置等に関する。

　従来、機械学習を用いて種々の画像処理を行う手法が知られている。ここでの画像処理とは、例えば画像分類処理や物体検出処理等である。また、学習済モデルを生成する学習処理において、画像拡張を行う手法も知られている。

　例えば非特許文献１は、畳み込みニューラルネットワーク（ＣＮＮ：Convolutional Neural Network）を大規模画像分類に適用する手法を開示している。また非特許文献１は、Random Crop、左右反転、色補正といった画像拡張を行うことによって、過学習の抑制を図る手法を開示している。

Alex Krizhevsky, Ilya Sutskever, and Geoffrey E. Hinton: "Imagenet Classification with Deep Convolutional Neural Networks", Advances in neural information processing systems 25, pp.1097-1105 (2012)

　画像拡張に基づいて拡張画像を生成し、当該拡張画像を含む訓練データを用いた機械学習を行うことによって、処理対象となる適用画像が変動する場合であっても、学習済モデルを用いた高精度な画像処理を行うことが可能になる。しかし、画像拡張時の画像変動範囲を超えた変動が適用画像に発生した場合、処理精度が大きく低下するおそれがある。

　本開示の一態様は、入力画像に第１画像拡張を適用することによって第１拡張画像を生成し、前記入力画像に前記第１画像拡張と異なる第２画像拡張を適用することによって第２拡張画像を生成し、前記第１拡張画像をニューラルネットワークに入力することによって第１出力を生成し、前記第２拡張画像を前記ニューラルネットワークに入力することによって第２出力を生成し、前記第１出力と前記第２出力との相違度を示す出力相違度を算出し、前記出力相違度に基づいて、前記ニューラルネットワークの各層における重み係数を更新する画像処理方法に関係する。

　例えば、入力画像に第１画像拡張を適用することによって第１拡張画像を生成し、前記入力画像に前記第１画像拡張と異なる第２画像拡張を適用することによって第２拡張画像を生成し、前記第１拡張画像をニューラルネットワークに入力することによって第１出力を生成し、前記第２拡張画像を前記ニューラルネットワークに入力することによって第２出力を生成し、前記第１出力と前記第２出力との相違度を示す出力相違度を算出し、前記出力相違度に基づいて、前記ニューラルネットワークの各層における重み係数を更新する処理は、プロセッサによって実行することが可能である。

　本開示の他の態様は、ニューラルネットワークを用いた画像処理方法であって、前記ニューラルネットワークは、一つの入力画像に対して複数の異なる画像拡張を適用することにより生成した複数の拡張画像を、前記ニューラルネットワークに入力したときに、複数の前記拡張画像に対応する複数の出力間の相違度を含む誤差を用いて学習されており、第１適用画像を前記ニューラルネットワークに入力することによって、第１適用出力を生成し、前記第１適用出力に基づいて第１認識結果を生成し、第２適用画像を前記ニューラルネットワークに入力することによって、第２適用出力を生成し、前記第２適用出力に基づいて第２認識結果を生成し、前記第１適用画像と前記第２適用画像は対応する被写体を撮像しており、且つ、前記第１適用画像と前記第２適用画像との差異が、色合い、明るさ、及び、平滑化度合いの少なくとも１つの場合に、前記第１認識結果と前記第２認識結果とが同一となる画像処理方法に関係する。

　本開示の他の態様は、入力画像を取得する取得部と、前記入力画像に基づいて機械学習を行う処理部と、を含み、前記処理部は、前記入力画像に第１画像拡張を適用することによって第１拡張画像を生成し、前記入力画像に前記第１画像拡張と異なる第２画像拡張を適用することによって第２拡張画像を生成し、前記第１拡張画像をニューラルネットワークに入力することによって第１出力を生成し、前記第２拡張画像を前記ニューラルネットワークに入力することによって第２出力を生成し、前記第１出力と前記第２出力との相違度を示す出力相違度を算出し、前記出力相違度に基づいて、前記ニューラルネットワークの各層における重み係数を更新する学習装置に関係する。

　本開示の他の態様は、学習済モデルを記憶する記憶部と、前記学習済モデルに基づいて適用画像に対する画像処理を行う処理部と、を含み、前記学習済モデルは、入力画像に第１画像拡張を適用することによって第１拡張画像を生成し、前記入力画像に前記第１画像拡張と異なる第２画像拡張を適用することによって第２拡張画像を生成し、前記第１拡張画像をニューラルネットワークに入力することによって第１出力を生成し、前記第２拡張画像を前記ニューラルネットワークに入力することによって第２出力を生成し、前記第１出力と前記第２出力との相違度を示す出力相違度を算出し、前記出力相違度に基づいて、前記ニューラルネットワークの各層における重み係数を更新することによって学習されている画像処理装置に関係する。

本実施形態の手法によって処理精度の低下が抑制されることの説明図。学習装置の構成例。処理部の詳細な構成例。学習処理を説明するフローチャート。図５（Ａ）、図５（Ｂ）はニューラルネットワークを説明する図。図６（Ａ）は入力画像の例を示す模式図、図６（Ｂ）、図６（Ｃ）は拡張画像の例を示す模式図、図６（Ｄ）は入力画像の具体例、図６（Ｅ）、図６（Ｆ）は拡張画像の具体例。出力誤差及び出力相違度を求める処理の説明図。１枚の入力画像に対する画像拡張の例。１枚の入力画像に対する画像拡張の他の例。学習の繰返し回数と誤差の関係図。第２ニューラルネットワークの構成例。第２ニューラルネットワークの他の構成例。画像処理装置の構成例。学習済モデルを用いた推論処理を説明するフローチャート。内視鏡装置の構成例。

　以下、本実施形態について説明する。なお、以下に説明する本実施形態は、請求の範囲に記載された内容を不当に限定するものではない。また本実施形態で説明される構成の全てが必須構成要件であるとは限らない。

１．本実施形態の手法
　近年、機械学習を用いて画像分類処理や物体検出処理を行う手法が広く知られている。画像分類処理とは、画像をいくつかのカテゴリに分類する処理であり、例えば当該画像の主要な被写体を分類する処理である。画像中の被写体が猫であるか犬であるかを判定するような画像分類処理が広く知られている。また物体検出処理とは、画像中の被写体のカテゴリとともに、当該被写体の画像上位置を判定する処理である。例えば、所与のカテゴリの被写体を囲む領域を検出する手法や、画像の各画素について、当該画素がいずれのカテゴリの被写体に対応するかを判定する手法等が知られている。以下、画像分類処理及び物体検出処理をまとめて、画像に対する認識処理と表記する。

　非特許文献１等に開示されているとおり、ディープラーニング技術を用いた認識処理では、画像を学習済みのニューラルネットワークに入力することで認識対象らしさを表すスコアが出力され、当該スコアに基づいて最終的な認識結果が決定する手法が用いられる。

　入力となる画像に色合いや明るさ、平滑化度合い等の変動が生じた場合、当該変動が小さかったとしても、学習済モデルから出力されるスコアが大きく変動する可能性がある。特にニューラルネットワークは、図５（Ａ）、図５（Ｂ）を用いて後述するように、多層の線形結合で構成されているため、入力における小さな変動に起因して、出力されるスコアが大きく変化する可能性がある。即ち、色合い等の小さな変動に起因して認識結果が異なる可能性があり、認識結果が不安定になってしまう。そこで、学習処理に用いる画像に対して色補正処理、明度補正処理、平滑化処理等を行うことによって、画像枚数を水増しした拡張画像を生成する画像拡張が用いられる。拡張画像を含む画像セットを訓練データとする学習を行うことによって、学習済モデルを用いた処理の精度向上を図ることが可能になる。

　ただし、画像拡張の範囲、具体的には画像拡張に用いるパラメータの下限値及び上限値については慎重に検討する必要がある。画像拡張が色補正処理である場合を例にとって説明する。色補正処理とは、例えば画像の色相Ｈを変更する処理であり、この場合の画像拡張のパラメータは色相の変動量ΔＨである。ΔＨが－１０度≦ΔＨ≦１０度の範囲内の値となるように、画像拡張が行われたとする。

　図１は、テスト画像の変動量を変化させた場合の、認識処理結果の変化を説明する図である。テスト画像とは、学習済モデルを用いた推論処理の精度を確認するための画像であり、狭義には正解ラベルが付与された画像である。ここでの推論処理は、上述したように認識処理であり、正解ラベルは認識対象である被写体のカテゴリや位置を特定する情報である。図１の横軸はテスト画像に付加された色相Ｈの変動量を表す。図１の縦軸は、感度を表す。ここでの感度とは、テスト画像中に存在する認識対象の数に対する、学習済モデルを用いた認識処理によって検出された認識対象の数の割合である。即ち、感度が高いほど精度の高い認識処理を行えたことを表す。

　図１のＡ１は、従来手法の認識結果を表す。Ａ１に示すように、テスト画像の変動量が±１０度である場合、感度は変動量が０度の場合と同程度の高い値となる。それに対して、テスト画像の変動量が±２０度になった場合、感度が低下する。またテスト画像の変動量が±３０度になった場合、さらに感度が低下する。図１のＡ１からわかるように、テスト画像の変動量が、画像拡張において想定した変動量の範囲内である場合、十分高い精度での認識処理が可能である。一方、画像拡張において想定した変動量に比べて、テスト画像の変動量が大きい場合、認識処理の精度が大きく低下してしまう。

　図１では、正解が既知であるテスト画像を用いた例について説明したが、実環境において取得される未知の画像を対象とした認識処理においても同様のことが言える。また、図１では認識処理の精度について説明したが、学習済モデルを認識処理以外の画像処理に適用する場合も同様である。即ち、画像拡張におけるパラメータの範囲は、実環境における画像の変動量をカバーするように設定されることが望ましい。以下、実環境において取得される画像であって、学習済モデルを適用した推論処理の対象となる画像を適用画像と表記する。

　しかし、適用画像の変動量を取得することが難しいケースも多い。例えば、新型の内視鏡装置（内視鏡システム）に学習済モデルを用いた推論処理を行う機能を搭載することを考える。新型の内視鏡装置は、例えば撮像素子、光源、レンズ等の構成が旧型の内視鏡装置とは異なる可能性があり、撮像される画像の傾向も異なる。そのため、新型の内視鏡装置専用の学習済モデルを生成することが精度向上に寄与すると考えられる。しかし生体内画像は、内視鏡装置の挿入部を生体内に挿入しなければ撮像できないものであるため、新型の内視鏡装置を用いて撮像された画像を、当該内視鏡装置の製造段階において大量に取得することは難しい。そのため学習用の画像が十分蓄積されるまでは、旧型の内視鏡装置によって撮像された画像を用いて機械学習された学習済モデルを、新型の内視鏡装置において流用することが現実的である。しかし上述したように、新型の内視鏡装置によって撮像された画像を大量に取得することが難しい以上、新型の内視鏡装置を用いた場合の画像の変動量を予測することは困難である。即ち、新型の内視鏡装置と旧型の内視鏡装置の差異を画像拡張によって吸収しようとしても、画像拡張に用いるパラメータの設定が難しく、認識処理等の画像処理の精度が低下するおそれがある。またここでは内視鏡装置について例示したが、通常のデジタルスチルカメラ等においても、ユーザの撮像環境を機械学習の実行時に正確に予測することが容易でないケースがあり、やはり実環境における画像の変動量予測が困難である。

　以上を考慮して、本実施形態では以下の処理を実行する。本実施形態の画像処理方法は、入力画像に第１画像拡張を適用することによって第１拡張画像を生成し、当該入力画像に第１画像拡張と異なる第２画像拡張を適用することによって第２拡張画像を生成する。さらに本実施形態の手法では、第１拡張画像をニューラルネットワークに入力することによって第１出力を生成し、第２拡張画像を当該ニューラルネットワークに入力することによって第２出力を生成する。そして第１出力と第２出力との相違度を示す出力相違度を算出し、出力相違度に基づいて、ニューラルネットワークの各層における重み係数を更新する。より具体的には、出力相違度を小さくするように、重み係数の更新が行われる。

　具体的には、本実施形態の画像処理方法は、適用画像に対する画像処理を実行するための学習済モデルを生成する。即ち、本実施形態にかかる画像処理方法においては、上記第１拡張画像及び第２拡張画像の生成、第１出力及び第２出力の生成、出力相違度の算出、出力相違度に基づく重み係数の更新、の各処理を繰り返し実行した結果として、学習済モデルが出力される。例えば学習済モデルは、図１３を用いて後述する画像処理装置４０へ出力され、画像処理装置４０は当該学習済モデルを用いて適用画像に対する画像処理、例えば注目被写体の認識処理を実行する。

　第１拡張画像と第２拡張画像は、異なる画像拡張が適用された画像であるため、一方に対して他方は色味や明るさ等が変動している。そのため従来手法であれば、第１出力と第２出力が大きく異なるおそれがある。しかし本実施形態では、第１出力と第２出力の差が小さくなるような機械学習が行われる。そのため、入力における小さな変動に起因して、出力されるスコアが大きく変化することが抑制され、認識結果を安定させることが可能になる。換言すれば、ニューラルネットワークに入力される画像の変動に対して、ロバスト性を向上させることが可能になる。すなわち、内視鏡画像をニューラルネットワークに入力してポリープの検出を行うときに、特異な症状や、ポリープの正面から観察せずに斜めから観察した場合でも、認識の精度が落ちにくくなる。

　図１のＡ２は、本実施形態の手法を適用した場合の認識処理結果である。テスト画像の変動量が０度又は±１０度の場合、感度はＡ１に示す従来手法と同程度である。しかしテスト画像における変動量が±２０度又は±３０度である場合、Ａ２に示すように感度の減少幅が従来手法に比べて抑制される。即ち本実施形態の手法によれば、実環境における画像の変動量が予測できないことに起因して、当該変動量が画像拡張の範囲を超えてしまった場合であっても、学習済モデルを用いた画像処理の精度低下を抑制することが可能になる。

　また本実施形態の手法は、生成された学習済モデルであるニューラルネットワークを用いた画像処理方法に適用できる。ここでのニューラルネットワークは、一つの入力画像に対して複数の異なる画像拡張を適用することにより生成した複数の拡張画像を、当該ニューラルネットワークに入力したときに、複数の拡張画像に対応する複数の出力間の相違度を含む誤差を用いて学習されている。画像処理方法は、第１適用画像をニューラルネットワークに入力することによって、第１適用出力を生成し、第１適用出力に基づいて第１認識結果を生成する。また第２適用画像をニューラルネットワークに入力することによって、第２適用出力を生成し、第２適用出力に基づいて第２認識結果を生成する。ここで第１適用画像と第２適用画像が対応する被写体を撮像しており、且つ、第１適用画像と第２適用画像との差異が、色合い、明るさ、及び、平滑化度合いの少なくとも１つである場合、本実施形態の画像処理方法においては、第１認識結果と第２認識結果との差が同一又は略同一となる。略同一とは、第１認識結果と第２認識結果との差が所与の閾値以下となることを表す。なお色合いは例えば色相であり、明るさは例えば輝度や明度であり、平滑化度合いは例えばコントラスト値等である。

　なお、第１適用出力とは、第１適用画像が入力された場合のニューラルネットワークの出力である。例えばニューラルネットワークの出力層が公知のソフトマックス層である場合、第１適用出力とは、認識結果が所与の被写体である確からしさを表す確率データである。第２の適用出力についても同様である。第１認識結果とは、第１適用出力に基づいて求められる情報である。例えば第１適用出力である複数の確率データのうち、最も値が大きいものを選択することによって、第１認識結果が取得される。例えばポリープとそれ以外の被写体を分類する画像分類処理を行う場合、第１適用出力とはポリープである確率データと、ポリープ以外である確率データの２つの数値であり、いずれの値が大きいかに基づいてポリープか否かが判定される。第２適用出力及び第２認識結果についても同様である。

　上記のように、本実施形態の手法では入力される適用画像の色合い、明るさ、平滑化度合いに変動があったとしても、ニューラルネットワークの出力差が低減される。そのため、第１適用出力と第２適用出力の差は十分小さくなる。適用出力から認識結果を求める際には、適用出力の微小な差異が問題とならないケースも多い。例えば上記のように確率データの最大値を求める場合、ポリープである確率データが、ポリープ以外である確率データよりも大きいという条件が満たされれば、具体的な数値がいくつであっても認識結果はポリープとなる。即ち、本実施形態の学習処理方法においては、第１認識結果と第２認識結果が同一となる。

　ただし、物体検出処理を行う場合、検出結果は例えば被写体を囲む矩形領域である。画像分類処理の認識結果がポリープか否か等の相対的に粗い認識結果であるのに対して、物体検出処理の認識結果である矩形領域の位置やサイズは、より細かい粒度で検出される。具体的な粒度はニューラルネットワークのモデルに依存するが、例えば１画素単位での検出も可能である。またセグメンテーションを行う場合、１画素単位で当該画素がいずれの被写体に対応するかが判定される。物体検出処理の場合、認識結果が細かいため、第１適用出力と第２適用出力の差が十分吸収されず、第１認識結果と第２認識結果が同一とならないケースも想定される。しかし、第１適用出力と第２適用出力の差が抑制されているため、第１認識結果と第２認識結果は略同一になることが期待される。例えば、認識結果が矩形領域を表す場合、位置やサイズの差が所定画素数以下となる。或いは、画素単位で被写体を特定する場合、第１認識結果と第２認識結果において特定した被写体が異なる画素が所定画素数以下となる。

２．システム構成例
　本実施形態の手法は、学習装置１０に適用されてもよい。図２に示すように、学習装置１０は、入力画像を取得する取得部２０と、入力画像に基づいて機械学習を行う処理部３０を含む。ただし、学習装置１０は図２の構成に限定されず、これらの一部の構成要素の省略、他の構成要素の追加等の種々の変形実施が可能である。

　取得部２０は、機械学習に用いる入力画像を取得する。また取得部２０は、入力画像に対応付けられた正解ラベルも取得する。例えば、入力画像に対する正解ラベルの付与が外部機器において実行され、取得部２０は、当該外部機器から入力画像及び正解ラベルを取得する。この場合の取得部２０は、外部機器と通信を行う通信インターフェースである。或いは、学習装置１０において入力画像に対する正解ラベルの付与が行われ、学習装置１０は付与結果を蓄積する不図示の記憶部を含んでもよい。この場合の取得部２０は、記憶部から正解ラベルが付与された入力画像を読み出すためのインターフェースである。ここでの記憶部は、データやプログラムなどの各種の情報を記憶する。記憶部は、半導体メモリであってもよいし、レジスタであってもよいし、磁気記憶装置であってもよいし、光学式記憶装置であってもよい。

　処理部３０は、下記のハードウェアにより構成される。ハードウェアは、デジタル信号を処理する回路及びアナログ信号を処理する回路の少なくとも一方を含むことができる。例えば、ハードウェアは、回路基板に実装された１又は複数の回路装置や、１又は複数の回路素子で構成することができる。１又は複数の回路装置は例えばＩＣ等である。１又は複数の回路素子は例えば抵抗、キャパシター等である。

　また処理部３０は、下記のプロセッサにより実現されてもよい。本実施形態の学習装置１０は、情報を記憶するメモリと、メモリに記憶された情報に基づいて動作するプロセッサと、を含む。情報は、例えばプログラムと各種のデータ等である。プロセッサは、ハードウェアを含む。プロセッサは、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit）、ＤＳＰ（Digital Signal Processor）等、各種のプロセッサを用いることが可能である。メモリは、ＳＲＡＭ（Static Random Access Memory）、ＤＲＡＭ（Dynamic Random Access Memory）などの半導体メモリであってもよいし、レジスタであってもよいし、ハードディスク装置（ＨＤＤ：Hard Disk Drive）等の磁気記憶装置であってもよいし、光学ディスク装置等の光学式記憶装置であってもよい。例えば、メモリはコンピュータにより読み取り可能な命令を格納しており、当該命令がプロセッサにより実行されることで、処理部３０の各部の機能が処理として実現される。ここでの命令は、プログラムを構成する命令セットの命令でもよいし、プロセッサのハードウェア回路に対して動作を指示する命令であってもよい。

　処理部３０は、第１拡張画像の生成、第２拡張画像の生成、第１出力の生成、第２出力の生成、出力相違度の算出、ニューラルネットワークの各層における重み係数の更新、の各処理を実行する。

　図３は、処理部３０の詳細な構成例である。処理部３０は、画像拡張部３１と、ニューラルネットワーク適用部３３と、出力相違度算出部３５と、出力誤差算出部３７と、重み係数更新部３９を含む。ただし、処理部３０は図３の構成に限定されず、これらの一部の構成要素の省略、他の構成要素の追加等の種々の変形実施が可能である。例えば処理部３０は、機械学習の開始時にニューラルネットワークを初期化する初期化部等の構成をさらに含んでもよい。

　画像拡張部３１は、取得部２０から入力画像を取得し、当該入力画像に対して画像拡張を適用する。画像拡張部３１は、入力画像に第１画像拡張を適用することによって第１拡張画像を生成する処理と、当該入力画像に第２画像拡張を適用することによって第２拡張画像を生成する処理を行う。画像拡張部３１は、第１拡張画像及び第２拡張画像を、ニューラルネットワーク適用部３３に出力する。

　ニューラルネットワーク適用部３３は、第１拡張画像をニューラルネットワークに入力することによって第１出力を生成する処理と、第２拡張画像をニューラルネットワークに入力することによって第２出力を生成する処理を行う。ニューラルネットワーク適用部３３は、第１出力及び第２出力を、出力相違度算出部３５及び出力誤差算出部３７に出力する。

　出力相違度算出部３５は、第１出力と第２出力に基づいて出力相違度を算出する。出力相違度算出部３５は、出力相違度を重み係数更新部３９に出力する。

　出力誤差算出部３７は、取得部２０から入力画像に対応する正解ラベルを取得する。出力誤差算出部３７は、第１出力、第２出力、正解ラベルに基づいて出力誤差を算出する。出力誤差算出部３７は、出力誤差を重み係数更新部３９に出力する。なお出力誤差は、第１出力と正解ラベルに基づく誤差であってもよいし、第２出力と正解ラベルに基づく誤差であってもよいし、この両方であってもよい。

　重み係数更新部３９は、出力相違度を含む全体誤差に基づいてニューラルネットワークの各層の重み係数を更新する。なお全体誤差は、出力相違度と出力誤差を含んでもよい。

　なお、本実施形態の学習装置１０や後述する画像処理装置４０等は、その処理の一部または大部分をプログラムにより実現してもよい。この場合には、ＣＰＵ等のプロセッサがプログラムを実行することで、本実施形態の学習装置１０等が実現される。具体的には、非一時的な情報記憶装置に記憶されたプログラムが読み出され、読み出されたプログラムをＣＰＵ等のプロセッサが実行する。ここで、情報記憶装置は、プログラムやデータなどを格納するものであり、その機能は、ＤＶＤやＣＤ等の光ディスク、ＨＤＤ（hard disk drive）、或いは不揮発性メモリやＲＡＭ等のメモリなどにより実現できる。情報記憶装置は、コンピュータにより読み取り可能な装置である。そして、ＣＰＵ等のプロセッサは、情報記憶装置に格納されるプログラムに基づいて本実施形態の種々の処理を行う。即ち、情報記憶装置には、本実施形態の各部としてコンピュータを機能させるためのプログラムが記憶される。コンピュータは、操作部、処理部、記憶部、出力部を備える装置である。

３．処理の詳細
　図４は、本実施形態の学習処理を説明するフローチャートである。この処理が開始されると、まずステップＳ１０１において、ニューラルネットワークを初期化する処理が行われる。なお、図面においてはニューラルネットワークを適宜ＮＮと表記する。

　図５（Ａ）は、ニューラルネットワークを説明する模式図である。ニューラルネットワークは、データが入力される入力層と、入力層からの出力に基づいて演算を行う中間層と、中間層からの出力に基づいてデータを出力する出力層を有する。図５（Ａ）においては、中間層が２層であるネットワークを例示するが、中間層は１層であってもよいし、３層以上であってもよい。また各層に含まれるノードの数は図５（Ａ）の例に限定されず、種々の変形実施が可能である。なお精度を考慮すれば、本実施形態の学習は多層のニューラルネットワークを用いた深層学習（ディープラーニング）を用いることが望ましい。ここでの多層とは、狭義には４層以上である。

　図５（Ａ）に示すように、所与の層に含まれるノードは、隣接する層のノードと結合される。各結合には重みが設定されている。各ノードは、前段のノードの出力と重みを乗算し、乗算結果の合計値を求める。さらに各ノードは、合計値に対してバイアスを加算し、加算結果に活性化関数を適用することによって当該ノードの出力を求める。この処理を、入力層から出力層へ向けて順次実行することによって、ニューラルネットワークの出力が求められる。ニューラルネットにおける学習は、適切な重み係数を決定する処理である。ここでの重み係数は、上記重みとバイアスを含む。学習には誤差逆伝播法等の種々の手法が知られており、本実施形態においてはそれらを広く適用可能である。

　より具体的には、本実施形態のニューラルネットワークは、畳み込みニューラルネットワーク（以下、ＣＮＮと記載）である。ＣＮＮを用いることによって、画像処理に好適な学習済モデルを生成することが可能になる。

　図５（Ｂ）は、ＣＮＮを説明する模式図である。ＣＮＮは、畳み込み演算を行う畳み込み層とプーリング層を含む。畳み込み層は、フィルタ処理を行う層である。プーリング層は、縦方向、横方向のサイズを縮小するプーリング演算を行う層である。図５（Ｂ）に示す例では、ＣＮＮは畳み込み層及びプーリング層による演算をそれぞれ複数回行うネットワークである。なお、図５（Ｂ）では明示されていないが、活性化関数による演算処理も図５（Ａ）と同様に行われる。また本実施形態のＣＮＮは、全結合層による演算を含んでもよい。全結合層とは、所与の層のノードに対して前の層の全てのノードが結像される場合の演算処理を行う層であり、図５（Ａ）を用いて上述した各層の演算に対応する。また出力層に広く知られたソフトマックス層が用いられてもよい。その他、ＣＮＮの具体的な構成は種々の変形実施が可能である。ＣＮＮの畳み込み層における重み係数は、フィルタのパラメータである。即ち、ＣＮＮにおける学習とは、畳み込み演算に用いるフィルタの学習を含む。

　本実施形態では、例えばニューラルネットワークとしてＶＧＧ－１６をベースにしたＣＮＮを用いてもよい。また、ＣＮＮとしてIdentity Mapping（ＩＭ）を導入したResidual Networkを用いてもよい。その他、種々のＣＮＮが知られており、本実施形態ではこれらを広く適用可能である。なおＶＧＧ－１６やResidual Networkは公知の手法であるため、詳細な説明は省略する。

　ステップＳ１０１におけるＣＮＮの初期化は、例えば平均０、標準偏差wscale/√(ci×k×k)の正規乱数を用いて実行される。なお、wscaleはスケールパラメータ、ｃｉは畳み込み層の入力チャンネル数、ｋは畳み込みカーネルサイズである。また、畳み込み層の重み係数の初期値として、本実施形態で用いる画像データベースとは異なる大規模画像データベースによって学習済みの畳み込み層の重み係数を用いてもよい。これによって、入力画像の枚数が少ない場合でも高性能な学習を行うことが可能になる。なお本実施形態の画像データベースとは、複数の入力画像を含むデータベースであり、例えばポリープが撮像された画像の集合である。

　次にステップＳ１０２及びＳ１０３において、取得部２０は、入力画像と、当該入力画像に対応付けられた正解ラベルを取得する。画像分類処理を行う場合、正解ラベルは、画像上に各分類カテゴリ対象が含まれるか否かを表す２値のデータである。物体検出処理を行う場合、正解ラベルは例えば検出対象を含む矩形領域を特定する情報である。矩形領域を特定する情報は、１つの座標値、縦サイズ、横サイズの組であってもよいし、対角線上の２つの座標値の組であってもよい。或いは正解ラベルは、画像上の各点に対応した候補枠ごとに検出対象が含まれるか否かを表す２値データの配列であってもよい。また本実施形態のニューラルネットワークは、入力された画像に対して画像変換処理を行ってもよい。この場合の正解ラベルは、理想的な変換結果の画像である。

　次にステップＳ１０４において、画像拡張部３１は、入力画像に第１画像拡張を適用することによって第１拡張画像を生成する。第１画像拡張は、色補正処理、明度補正処理、平滑化処理、鮮鋭化処理、ノイズ付加処理、及び、アフィン変換処理の少なくとも１つの処理を含む。即ち第１画像拡張は、これらのうちのいずれか１つの処理であってもよいし、２以上の処理の組み合わせであってもよい。

　色補正処理は、例えば色相Ｈの補正処理である。画像拡張部３１は、下式（１）に基づいて、ＲＧＢの画素値をＨＳＶ色空間に変換する。Ｈは色相（Hue）、Ｓは彩度（Saturation）、Ｖは明度（Value）である。下式（１）におけるＲ，Ｇ，Ｂは入力画像の赤緑青の画素値を表す。またＭａｘはＲＧＢの画素値のうちの最大値を表し、ＭｉｎはＲＧＢの画素値のうちの最小値を表す。

　画像拡張部３１は、算出されたＨをΔＨだけ変更する処理を行う。ここでのΔＨが色補正処理におけるパラメータであり、下限値以上、上限値以下の範囲においてランダムに値が決定される。下限値が－１０度であり上限値が＋１０度である場合、例えば－１０以上＋１０以下の整数値のうちのいずれか１つの値が、ΔＨとして選択される。上述したように、本実施形態の手法では、実環境における画像の変動量が画像拡張における変動量を超えても精度低下が抑制されるため、パラメータの範囲を過剰に広くする必要はない。

　明度補正処理は、例えばガンマ補正処理である。例えば画像拡張部３１は、下式（２）に基づいて、明度Ｖに対するガンマ補正処理を行う。Ｖ’はガンマ補正処理後の明度を表す。γ＝１の場合に元の明度が維持され、γが大きいほど明度が低下し、γが小さいほど明度が増加する。γが明度補正処理におけるパラメータである。画像拡張部３１は、あらかじめ設定された下限値以上、上限値以下の範囲において、ランダムにγの値を決定することによってガンマ補正処理を行う。

　なお画像拡張部３１は、色補正処理後又はガンマ補正処理後に、下式（３）に基づいて、ＲＧＢの画素値への再変換を行う。下式（３）におけるＲ’，Ｇ’，Ｂ’は再変換後の赤緑青の画素値を表す。ｆｌｏｏｒ（ｘ）は、ｘ以下の最大の整数を表す。

　平滑化処理は、例えば平滑化フィルタを用いたフィルタ処理である。平滑化フィルタは、例えば平滑化度合いが可変のフィルタである。平滑化度合いとは、例えばガウシアンフィルタにおけるσの値であり、σが大きいほど平滑化度合いが大きくなる。ここでのσが平滑化処理におけるパラメータである。なお平滑化フィルタ及び当該フィルタの平滑化度合いを決定するパラメータは種々知られており、本実施形態ではそれらを広く適用可能である。画像拡張部３１は、あらかじめ設定された下限値以上、上限値以下の範囲において、平滑化処理のパラメータを決定し、当該パラメータによって特定される平滑化処理を実行する。

　或いは、平滑化フィルタは、例えば平滑化度合いが固定のフィルタであり、画像拡張部３１は、当該平滑化フィルタの適用回数をランダムに決定することによって、平滑化度合いを変更してもよい。この場合、適用回数が平滑化処理のパラメータであり、少ないほど平滑化度合いが小さい。例えば、σが固定のガウシアンフィルタを何回適用させるかによって、平滑化度合いの調整が可能である。

　鮮鋭化処理は、例えばエッジ強調フィルタ等の鮮鋭化フィルタを用いたフィルタ処理である。鮮鋭化フィルタについても、フィルタのパラメータや適用回数を変更することによって、鮮鋭化度合いを変更可能である。即ち、フィルタパラメータ又は適用回数が、鮮鋭化処理のパラメータである。画像拡張部３１は、あらかじめ設定された下限値以上、上限値以下の範囲において、鮮鋭化処理のパラメータを決定し、当該パラメータによって特定される鮮鋭化処理を実行する。

　ノイズ付加処理は、入力画像にノイズ成分を付加する処理である。例えば、ガウシアンフィルタを用いたフィルタ処理を行うことによって、ガウシアンノイズを付加する処理を実行できる。即ち上記の平滑化処理は、ノイズ付加処理の一態様と考えることが可能である。この場合、σやフィルタの適用回数がノイズ付加処理のパラメータである。またノイズ付加処理は、インパルスノイズを付加する処理であってもよい。例えば画像拡張部３１は、入力画像の所定割合の画素の画素値を、最小値又は最大値に変更する処理を行うことによって入力画像にインパルスノイズを付加する。画素値が８ビットデータである場合、最小値は０であり最大値は２５５である。この場合、画素値を変更する画素の割合がノイズ付加処理のパラメータであり、当該パラメータを変更することによってノイズの付加度合いを調整できる。また画像に対するノイズ付加処理はこれ以外の処理も広く知られており、本実施形態ではそれらを広く適用可能である。画像拡張部３１は、あらかじめ設定された下限値以上、上限値以下の範囲において、ノイズ付加処理のパラメータを決定し、当該パラメータによって特定されるノイズ付加処理を実行する。

　アフィン変換処理は、画像のリサイズ、回転、平行移動を行う処理であり、具体的には画像拡張部３１は行列演算を行う。アフィン変換に用いられる行列の各要素の値を変更することによって、リサイズ率、回転角度、平行移動量を調整できる。即ち、行列の要素がアフィン変換のパラメータである。なお、アフィン変換では行列を複数に分解可能であることが知られており、各行列の要素をパラメータとしてもよい。画像拡張部３１は、あらかじめ設定された下限値以上、上限値以下の範囲において、アフィン変換のパラメータを決定し、当該パラメータによって特定されるアフィン変換処理を実行する。なお、本実施形態のアフィン変換は、リサイズ、回転及び平行移動の全てを行う必要はなく、いずれか１つが行われてもよいし、２つが組み合わされてもよい。

　以上のような画像拡張を行うことによって、様々な色合い、明るさ、平滑化度合い、鮮鋭化度合い、ノイズ量、サイズ、角度、画像上位置、の認識対象を含む拡張画像を生成できる。

　またステップＳ１０５において、画像拡張部３１は、入力画像に第２画像拡張を適用することによって第２拡張画像を生成する。第２画像拡張は、色補正処理、明度補正処理、平滑化処理、鮮鋭化処理、ノイズ付加処理、及び、アフィン変換処理の少なくとも１つの処理を含む。即ち画像拡張部３１は、第２画像拡張として、Ｓ１０４と同様の種類の画像変換を行う。ただし画像拡張部３１は、画像拡張に用いるパラメータを変更することで第１拡張画像とは異なる第２拡張画像を生成する。なお、ここでは説明を簡略化するため、第１画像拡張と第２画像拡張は、同じ種類の処理であり、且つ、当該処理に用いるパラメータが異なる例について説明する。ただし変形例として後述するように、第１画像拡張と第２画像拡張は、画像変換の組み合わせが異なってもよい。

　図６（Ａ）は入力画像の例を示す模式図である。図６（Ａ）は生体内画像の例でありＢ１が大腸の内壁に対応する領域であり、Ｃ１がポリープ領域である。図６（Ｂ）は第１拡張画像の例を示す模式図であり、図６（Ｃ）は第２拡張画像の例を示す模式図である。図６（Ｂ）、図６（Ｃ）についても同様に、Ｂ２及びＢ３が大腸の内壁に対応し、Ｃ２及びＣ３がポリープ領域である。ここでは第１画像拡張及び第２画像拡張における画像変換はいずれも明度補正処理である。第１画像拡張におけるγをγ１とし、第２画像拡張におけるγをγ２とした場合、１＜γ１＜γ２である。そのため、図６（Ｂ）に示す第１拡張画像、及び図６（Ｃ）に示す第２拡張画像はいずれも入力画像に比べて明度が低下しており、その低下度合いは第２拡張画像が第１拡張画像よりも大きい。このような画像拡張を行うことによって、入力画像に比べて暗い画像を機械学習の対象に含めることが可能になる。そのため、暗く撮像されたポリープの検出精度向上等が可能になる。

　また図６（Ｄ）は入力画像の例であり、図６（Ｅ）、図６（Ｆ）はそれぞれ入力画像に基づく拡張画像の例である。なお図６（Ｄ）～図６（Ｆ）では、生体内画像とは異なる一般画像を例示している。図６（Ｅ）の拡張画像を生成する画像拡張における画像変換は明度補正処理である。ここでのγは１＜γであり、図６（Ｅ）に示す拡張画像は入力画像に比べて明度が低下している。図６（Ｆ）の拡張画像を生成する画像拡張における画像変換は平滑化処理である。平滑化処理によって、図６（Ｆ）に示す拡張画像は入力画像に比べてぼけ度合いが増した画像となっている。

　図４のフローチャートに戻って説明を続ける。ステップＳ１０６において、ニューラルネットワーク適用部３３は、第１拡張画像をニューラルネットワークに入力することによって、第１出力を生成する。またステップＳ１０６において、ニューラルネットワーク適用部３３は、第２拡張画像をニューラルネットワークに入力することによって、第２出力を生成する。なお、Ｓ１０６の処理が初めて行われる場合、ニューラルネットワークの重み係数は、Ｓ１０１において初期化された値となる。２回目以降にＳ１０６の処理が行われる場合、重み係数は後述するＳ１１０の処理によって更新された後の値となる。

　図７は、ニューラルネットワークの適用処理、及び後述する全体誤差の演算処理を説明する図である。図７に示すように、第１拡張画像と第２拡張画像をニューラルネットワークに入力することによって、第１出力と第２出力が取得される。図７の例では、第１出力は、４×３の各領域について、当該領域がポリープである確からしさを表す確率データが対応付けられた情報である。ここでは説明を簡略化するために要素数を４×３としたが、例えば出力データは入力画像の画素数に相当する要素を含んでもよい。第２出力についても同様である。

　次にステップＳ１０７において、出力誤差算出部３７は、第１の出力、第２の出力の少なくとも１つと、取得部２０が取得した正解ラベルに基づいて、ニューラルネットワークの出力誤差を算出する。正解ラベルは、例えば図７に示すように４×３の各領域について、当該領域がポリープである場合に１が対応付けられ、ポリープでない場合に０が対応付けられた情報である。正解ラベルは、具体的には出力データと同一の要素数を含む情報である。なお正解ラベルは、例えば入力画像に対応付けられた正解ラベルそのものである。ただし、物体検出処理を行う場合であり、且つ、画像拡張としてアフィン変換を行う場合、当該アフィン変換によってポリープ等の検出対象物の位置やサイズが変化してしまう。そのため、物体検出処理においてアフィン変換を含む画像拡張を行う場合、当該アフィン変換に合わせて正解ラベルを修正することが望ましい。或いは物体検出処理を行う場合、画像拡張からアフィン変換を省略してもよい。

　出力誤差は、第１出力と正解ラベルの誤差を表す情報（Ｄ１）、又は、第２出力と正解ラベルの誤差を表す情報（Ｄ２）、又は、その両方である。出力誤差は、Sigmoid cross entropyであってもよいしSoftmax cross entropyであってもよい。これらの出力誤差は、画像分類処理や物体検出処理を行う場合に好適である。例えば２値分類を行う場合にSigmoid cross entropyが用いられ、多クラス分類を行う場合にSoftmax cross entropyが用いられる。また出力誤差は、二乗誤差等であってもよい。二乗誤差等は、ニューラルネットワークを画像変換処理に利用する際に好適である。ただし、ニューラルネットワークを用いた処理と出力誤差の関係は上記のものに限定されず、本実施形態の出力誤差は種々の態様の誤差を適用可能である。

　次にステップＳ１０８において、出力相違度算出部３５は、第１出力と第２出力の相違度である出力相違度を算出する。出力相違度は、第１出力と第２出力の差が大きいほど値が大きくなる数値情報である。出力相違度算出部３５は、第１出力と第２出力の要素ごとに算出した二乗誤差に基づいて出力相違度を求める。例えば出力相違度は、要素ごとの二乗誤差の和である。或いは出力相違度算出部３５は、第１出力と第２出力の要素ごとに算出したＨｕｂｅｒ誤差に基づいて出力相違度を求めてもよい。例えば出力相違度は、要素ごとのＨｕｂｅｒ誤差の和である。Ｈｕｂｅｒ誤差は下式（４）によって求めることが可能である。下式（４）において、ａは第１出力を表し、ｂは第２出力を表す。Ｈｕｂｅｒ誤差を用いることによって、外れ値の影響を小さくできる。また出力相違度算出部３５は、第１出力と第２出力の相互相関に基づいて、出力相違度を求めてもよい。例えば出力相違度は、相互相関関数の逆数である。図７の例であれば、第１出力と第２出力は、それぞれ２次元配列のデータであり、２つの２次元配列の相互相関関数を求める手法は広く知られている。よってそれらの手法を適用することによって、第１出力と第２出力の相互相関関数を演算可能である。相互相関関数の逆数を用いることによって、出力に含まれる要素間の関連性を考慮することが可能になる。また、出力相違度算出部３５は、出力相違度として、第１出力の確率分布と第２出力の確率分布との間のカルバック・ライブラー・ダイバージェンスを用いてもよい。すなわち、出力相違度算出部３５は、出力相違度として、第１出力の確率分布と第２出力の確率分布との間の距離を用いてもよい。

　以上のように、本実施形態の手法では第１出力と第２出力の相違度を表す情報を出力相違度として求めることが可能であり、その際、種々の手法を適用できる。

　次にステップＳ１０９において、重み係数更新部３９は、出力相違度を含む全体誤差を算出し、当該全体誤差に基づいて、ニューラルネットワークの各層における誤差を算出する。ステップＳ１０９における処理は、各層における重み係数を変化させた際の全体誤差の変化量、即ち勾配（偏微分）を求める処理に相当する。なお、勾配を効率的に求める手法として誤差逆伝播法が知られており、本実施形態においても誤差逆伝播法を利用可能である。ただし、誤差逆伝播法以外の手法によって勾配が求められてもよい。

　具体的には、重み係数更新部３９は、出力誤差と出力相違度との重み付け和を全体誤差として求める。出力誤差は、上述したように、第１出力及び第２出力の少なくとも１つと、正解ラベルとに基づいて算出される。例えば、第１出力と正解ラベルの誤差（Ｄ１）を出力誤差とする場合、全体誤差は出力誤差（Ｄ１）と出力相違度（Ｄ３）の重み付け和である。出力相違度と出力誤差の重みは例えばともに１／２である。ただし、重みはこれに限定されず、種々の変形実施が可能である。或いは、全体誤差は第２出力と正解ラベルの誤差（Ｄ２）と出力相違度（Ｄ３）の重み付け和であってもよい。また全体誤差は、Ｄ１～Ｄ３の３つの重み付け和であってもよい。

　そしてステップＳ１１０において、重み係数更新部３９は、全体誤差を小さくするように、ニューラルネットワークの各層における重み係数を更新する。例えば重み係数更新部３９は、重み係数の勾配に対して学習率ρを乗算し、乗算結果を現在の重み係数の値から減算することによって、各重み係数を更新する。

　従来手法においては、全体誤差は出力誤差から求められる。そのため、従来手法は画像を入力した際の出力が正解ラベルに近づくような学習を行うことはできても、拡張画像間の関係を考慮していない。それに対して本実施形態では、出力誤差と出力相違度との重み付け和を全体誤差とする。そのため、出力誤差を減らす方向の学習、即ち画像を入力した際の出力が正解ラベルに近づくような学習に加えて、出力相違度を減らす方向の学習を行うことが可能になる。即ち、同一の入力画像に対して異なる２つの画像拡張を適用することで生成した２つの拡張画像をニューラルネットワークに入力したときに、それらに対応する出力間の相違度が０に近づくような学習が行われる。これにより、色合い、明るさ、平滑化度合い等の入力画像の変動に対応する出力の変動を小さくできる。結果として、適用画像における変動が画像拡張における変動量を超えるような場合であっても、学習済モデルを用いた画像処理の精度低下を抑制することが可能になる。具体例については図１のＡ１を用いて上述したとおりである。

　なおステップＳ１１０の処理後、ステップＳ１１１において、処理部３０は終了条件が満たされたか否かを判定する。終了条件とは、例えば重み係数の更新回数が所与の回数に達したことである。終了条件が満たされていない場合（Ｓ１１１でＮｏ）、処理部３０はステップＳ１０２に戻り、以上で述べたステップＳ１０２～ステップＳ１１０の処理を繰り返す。例えば処理部３０は、複数の入力画像から新たな入力画像を選択し、選択した入力画像を対象として上記処理を実行する。終了条件が満たされた場合（Ｓ１１１でＹｅｓ）、処理部３０はニューラルネットワークの学習を終了する。なお処理部３０は、ニューラルネットワークに正解ラベルが付与されたテスト画像セットを入力し、正解率が所与の閾値を超えた場合に、終了条件が満たされたと判定してもよい。

４．学習処理における変形例
　以下、学習処理におけるいくつかの変形例について説明する。

４．１　１枚の入力画像から生成される拡張画像の枚数
　図８は、１枚の入力画像に基づく画像拡張を説明する図である。例えば画像拡張として明度補正処理を行う場合、図８に示すように値の異なるｘ通りのγを用いることによって、ｘ枚の拡張画像が生成される。そしてここでのｘは２以上の整数であり、３以上であってもよい。この場合、ｘ枚の拡張画像のうちの２枚が、第１拡張画像及び第２拡張画像として選択される。

　１枚の入力画像に基づいて出力される第１拡張画像と第２拡張画像の組は１組に限定されない。例えば、図８における拡張画像１と拡張画像２を１組目とし、拡張画像３と拡張画像４を２組目とするように、１枚の入力画像に基づいて第１拡張画像と第２拡張画像の組が複数組出力され、各組について上述した処理が行われてもよい。ｘ枚の拡張画像が生成される場合、第１拡張画像と第２拡張画像の組は、最大ｘ（ｘ－１）／２組だけ出力可能である。

　また機械学習において、拡張画像の生成元となった入力画像を利用することが可能である。例えば第１拡張画像と第２拡張画像のいずれか一方を入力画像に変更してもよい。この場合、入力画像と拡張画像をそれぞれニューラルネットワークに入力した際の出力間の相違度を減らすような学習が可能になる。そのため、２つの拡張画像の出力間の相違度を出力相違度とする場合と同様に、画像変動に起因する精度の低下を抑制することが可能になる。この場合、入力画像と、当該入力画像に基づくｘ枚の拡張画像と、を含む合計ｘ＋１枚の画像から、第１拡張画像と第２拡張画像が選択される。即ち１枚の入力画像に基づいて、第１拡張画像と第２拡張画像の組は、最大ｘ（ｘ＋１）／２組だけ出力可能である。

　なお図４においては、ステップＳ１０２～ステップＳ１１０に示す処理を１回行う際に、逐次、第１拡張画像と第２拡張画像が生成される例について説明した。しかし、拡張画像を生成する処理はまとめて行われてもよい。例えば処理部３０は、１枚の入力画像からｘ枚の拡張画像を生成する処理をあらかじめ行い、生成された複数の拡張画像からなる拡張画像セットを記憶部に蓄積しておく。この場合、ステップＳ１０２～ステップＳ１０５の処理は、記憶部に記憶された拡張画像セットから、適切な２枚の画像を第１拡張画像及び第２拡張画像として選択する処理に置き換えが可能である。また処理部３０は、複数の入力画像のそれぞれについて、ｘ枚の拡張画像を求める処理をまとめて行っておくことも可能である。その他、本実施形態の処理の流れは図４に限定されず、種々の変形実施が可能である。

４．２　第１画像拡張と第２画像拡張の他の例
　また図６（Ａ）～図６（Ｃ）、図８では、画像拡張が明度補正処理である例について説明した。ただし、入力画像に対する画像拡張は２以上の処理が組み合わされてもよい。

　図９は、画像拡張の他の例を説明する図である。画像拡張部３１は、入力画像に対してγ１～γｚをパラメータとするガンマ補正処理と、ΔＨ１～ΔＨｚをパラメータとする色補正処理を行う。ｚは２以上の整数である。ここで、所与の拡張画像ｉと拡張画像ｊに着目した場合、同じ拡張画像を複数生成する必要性は低いため、γｉ≠γｊとΔＨｉ≠ΔＨｊの少なくとも一方が満たされるようにパラメータが設定される。ｉ及びｊは、それぞれ１以上ｚ以下であり、且つｉ≠ｊを満たす整数である。

　画像拡張部３１は、拡張画像１～拡張画像ｚのうちの２枚を第１拡張画像及び第２拡張画像として出力する。この場合、第１拡張画像と第２拡張画像は、それぞれが同じ２つの処理の組み合わせであって、当該２つの処理に対応する２つのパラメータのうち少なくとも一方が異なる。この場合、第１拡張画像と第２拡張画像とは明度と色合いの両方について変動が生じる可能性があるが、本実施形態の手法であれば当該変動に起因するニューラルネットワークの出力変動を抑制することが可能になる。

　また、画像拡張において入力画像と一致する拡張画像を生成する必要性は低いため、γｉ≠１とΔＨｉ≠０の少なくとも一方が満たされるようにパラメータが設定される。換言すれば、ΔＨｉ≠０であればγｉ＝１となることが許容されてもよいし、γｉ≠１であればΔＨｉ＝０となることが許容されてもよい。即ち、図９の例において、ガンマ補正処理と色補正処理のいずれか一方が省略されてもよい。

　この場合、拡張画像１～拡張画像ｚは、明度補正処理のみが行われた画像、色補正処理のみが行われた画像、明度補正処理及び色補正処理が行われた画像、のいずれかである。そのため、第１拡張画像と第２拡張画像は、処理の組み合わせが同じであってパラメータが異なるというケースだけでなく、そもそも処理の組み合わせが異なるというケースも考えられる。ここでの処理の組み合わせとは、画像拡張に含まれる処理を特定する情報であり、上記例であれば「明度補正処理のみ」、「色補正処理のみ」、「明度補正処理及び色補正処理」のいずれかである。例えば、第１拡張画像は入力画像に対して明度補正処理が行われた画像であり、第２拡張画像は入力画像に対して色補正処理が行われた画像となるケースが考えられる。

　ただし上述したように、「明度補正処理のみ」とは「明度補正処理、及びΔＨ＝０の色補正処理」と考えることが可能であるし、「色補正処理のみ」とは「γ＝１の明度補正処理、及び色補正処理」と考えることが可能である。即ち、処理の組み合わせが異なるケースは、２つの同じ処理の組み合わせであって当該２つの処理に対応する２つのパラメータのうち少なくとも一方が異なるケースに含まれる。なお図９では明度補正処理と色補正処理の２つの処理について説明したが、上述したとおり、画像拡張は３以上の処理を含んでもよい。

４．３　画像拡張範囲の調整処理
　図１０は、学習を繰り返した場合の誤差の減少度合いを表す図である。図１０の横軸が学習の繰返し回数（イテレーション）であり、縦軸が誤差を表す。学習の繰返し回数とは、重み係数の更新回数に相当し、例えば図４のステップＳ１１０の実行回数である。

　図１０のＥ１は、出力相違度を用いずに、出力誤差を減少させるような学習を行った場合の、当該出力誤差の減少度合いを表す。図７の例であれば、第１出力と正解ラベルの誤差を表す情報（Ｄ１）や、第２出力と正解ラベルの誤差を表す情報（Ｄ２）を含み、且つ出力相違度（Ｄ３）を含まない誤差を全体誤差とする学習処理を行った場合に相当する。

　Ｅ１に示す手法と比較した場合、本実施形態の手法では、全体誤差に出力相違度が含まれる点で相違する。出力相違度を小さくする学習を行うことによって、適用画像の変動に起因する精度低下を抑制できる。ただし、出力誤差だけでなく出力相違度についても減少させる必要があるため、学習が難しくなるおそれがある。例えばＥ２に示すように、本実施形態の手法では、出力相違度を用いないＥ１に比べて誤差が減少しにくい。具体的には、学習の初期段階において誤差の減少幅が小さくなったり、値が収束した際の誤差が大きくなるおそれがある。なお値が収束するとは、学習の繰返し回数の増加に対して、誤差の変化量が十分小さくなった状態を表す。

　特に、第１拡張画像と第２拡張画像の間の変動が過剰に大きい場合、第１出力と第２出力の相違度も大きくなりやすいため、出力相違度を０に近づけるような学習がより難しくなる。

　よって本実施形態では、第１画像拡張を決定する第１パラメータと、第２画像拡張を決定する第２パラメータの差異が所与の範囲内であってもよい。このようにすれば、第１拡張画像と第２拡張画像間の差が抑制されるため、出力相違度を用いた学習の収束度合いを高くすることが可能になる。学習の収束度合いが高いとは、誤差の減少幅が大きいことであってもよいし、収束時の誤差の値が小さいことであってもよいし、その両方であってもよい。

　例えば第１画像拡張と第２画像拡張が同じ処理である場合、当該処理におけるパラメータの差異を所与の閾値以下に設定する。処理がガンマ補正処理であれば、第１画像拡張におけるγと第２画像拡張におけるγの差分絶対値が所与のガンマ閾値以下となる。例えば上述したように、ガンマ補正処理におけるガンマの下限値と上限値を設定する際に、上限値と下限値の差分がガンマ閾値以下となるように、上限値及び下限値を設定する。このようにすれば、画像拡張部３１が下限値と上限値の範囲内においてランダムにγの値を決定した場合にも、第１拡張画像の生成に用いるγと、第２拡張画像の生成に用いるγの差分絶対値が、ガンマ閾値以下となることが保証される。ただし画像拡張部３１は、まず第１拡張画像に用いるγを決定し、当該γとの差分がガンマ閾値以下となるように、第２拡張画像に用いるγを決定してもよく、具体的な処理については変形実施が可能である。

　また第１画像拡張と第２画像拡張が２以上の処理の組み合わせである場合、それぞれの処理についてパラメータの差異を所与の閾値以下に設定する。処理がガンマ補正処理及び色補正処理であれば、第１画像拡張におけるγと第２画像拡張におけるγの差分絶対値が所与のガンマ閾値以下となり、且つ、第１画像拡張におけるΔＨと第２画像拡張におけるΔＨの差分絶対値が所与の色相閾値以下となるように各パラメータが設定される。

　或いは、γの差分とΔＨの差分に基づいて、第１パラメータと第２パラメータ間の差異を表す評価値が演算されてもよい。第１画像拡張と第２画像拡張は、当該評価値が閾値以下となるように、各パラメータが設定される。

　なお、第１画像拡張と第２画像拡張の処理の組み合わせが異なる場合、上述したように、実行しない処理については入力画像を変動させないようなパラメータを用いて処理を行っていると見なせばよい。入力画像を変動させないパラメータとは、例えば上述したように、γ＝１、ΔＨ＝０である。また、平滑化処理ではガウシアンフィルタの適用回数を０とし、鮮鋭化処理ではエッジ強調フィルタの適用回数を０とすることによって入力画像の平滑化度合いや鮮鋭化度合いが維持される。また、ノイズ付加処理では、インパルスノイズを０にする、即ち画素値を変化させる画素の割合を０にすることによって、入力画像のノイズ量が維持される。またアフィン変換処理では、アフィン変換に用いる行列要素のうち、対角成分を１とし、それ以外を０とすることによって入力画像のサイズ、角度、位置が維持される。

　具体的には、出力誤差、又は、全体誤差を判定対象誤差とした場合に、重み係数の更新処理による判定対象誤差の減少度合いに基づいて、所与の範囲が設定される。このようにすれば、学習の進捗度合い、収束度合いに基づいて、第１画像拡張と第２画像拡張との間で許容されるパラメータの差を決定することが可能になる。

　例えば処理部３０は、所与の範囲、例えばパラメータの下限値及び上限値を初期値に設定する。そして出力相違度及び出力誤差を含む全体誤差を減少させるような学習処理を行い、判定対象誤差の減少度合いを判定する。判定対象誤差が十分減少していると判定された場合、当該下限値及び上限値は適切であると判定される。一方、誤差の減少幅が小さい場合、所与の範囲が広すぎることによって学習が困難になっていると判定される。よって処理部３０は、所与の範囲を狭く更新する。例えば下限値を増加させる処理、及び上限値を減少させる処理の少なくとも一方を行う。なお、画像拡張が複数の処理の組み合わせである場合、全ての処理のパラメータについて上限値や下限値を更新してもよいし、一部の処理のパラメータについて上限値や下限値を更新してもよい。

　なおこのように実際の誤差の減少度合いを用いて所与の範囲を調整する場合、図４においてステップＳ１１１の終了条件が満たされた際に、判定対象誤差の減少度合いを判定してもよい。即ち、学習が完了した際に、判定対象誤差がどの程度減少したかに応じて、所与の範囲が適切であったか否かの判定を行ってもよい。ただし所与の範囲が広すぎた場合、当該所与の範囲を狭くした後に、再度、ステップＳ１０２～Ｓ１１０の処理を繰り返す必要がある。即ち、所与の範囲を設定する際の学習結果は、判定対象誤差の減少度合いによっては破棄される可能性がある。図１０に示すように、誤差の減少度合いは、学習初期段階（Ｅ３）での誤差の減少幅、具体的にはグラフの傾きから判定することが可能である。或いは、誤差が十分に収束していないＥ４のような繰返し回数であっても、誤差の値の大小によって減少度合いを判定できる。即ち、判定対象誤差の減少度合いを判定する際の学習の繰返し回数は、学習の終了条件に比べて少ない回数であってもよい。

　また、判定対象誤差の減少度合いが高いか低いかの判定は、固定の閾値との比較によって行ってもよい。ただし、ニューラルネットワークの構成や学習に用いる画像等に応じて、誤差の減少度合いは変化する。そのため、固定の閾値を用いた場合、誤差が十分減少しているか否かの判定を正確に行えないおそれがある。

　よって処理部３０は、比較対象として図１０のＥ１に示す情報を用いてもよい。具体的には、処理部３０は、出力誤差に基づいてニューラルネットワークの各層における重み係数を更新した場合の出力誤差（Ｅ１）の減少度合いと、出力相違度を含む全体誤差に基づいてニューラルネットワークの各層における重み係数を更新した場合の判定対象誤差（Ｅ２）の減少度合いの比較処理に基づいて、所与の範囲を設定する。このようにすれば、出力相違度を用いることによって、どの程度学習が困難になっているかを適切に判定することが可能になる。特に、比較対象が出力誤差であること考慮すれば、全体誤差のうちの出力誤差を判定対象誤差として用いてもよい。このようにすれば、出力誤差同士の比較となるため、誤差の減少度合いの高低を精度よく判定することが可能になる。

４．４　画像拡張領域
　また画像拡張部３１は、入力画像のうちの一部の領域を画像拡張領域に設定してもよい。そして画像拡張部３１は、入力画像の画像拡張領域に第１画像拡張を適用することによって第１拡張画像を生成し、入力画像の画像拡張領域に第２画像拡張を適用することによって第２拡張画像を生成する。このようにすれば、画像拡張を入力画像の一部の領域に限定して適用することが可能になる。

　例えば内視鏡装置によって撮像される生体内画像は、中央領域に比べて周縁領域が暗く、低コントラストになりやすい。そのため、適用画像の周縁領域に認識対象となる被写体が存在した場合、当該被写体は不鮮明に撮像される。例えば画像拡張部３１は画像の周縁領域を画像拡張領域に設定し、明度を下げる明度補正処理や、平滑化度合いの高い平滑化処理を実行する。これにより、不鮮明な被写体の認識精度向上が可能になる。

　或いは、生体内画像においては被写体において鏡面反射された照明光が対物レンズに入射することによって、輝点が発生しやすい。輝点とは、輝度が高い領域であり、例えば白飛びが発生している領域である。特に撮像部と被写体が正対する位置関係にある場合、画像の中央領域に輝点が発生しやすくなる。この場合、画像拡張部３１は画像の中央領域を画像拡張領域に設定し、画素値を最大値とするようなインパルスノイズを付加するノイズ付加処理を実行する。このようにすれば、画像中に輝点が発生する場合にも被写体の認識精度向上が可能になる。

　なお、以上の処理は一例であり、画像の周縁領域を画像拡張領域に設定する場合の画像拡張は、明度補正処理及び平滑化処理に限定されない。画像の中央領域を画像拡張領域に設定する場合の画像拡張は、ノイズ付加処理に限定されない。

　また、画像拡張領域は異なる観点から設定されてもよい。例えば入力画像のうち注目被写体を撮像した領域を注目領域とした場合に、注目領域に基づいて画像拡張領域が設定されてもよい。撮像態様によらず、注目被写体の認識精度を向上させるという観点からすれば、注目領域を画像拡張領域に設定するとよい。なお注目被写体とは、ユーザにとって観察の優先順位が他の被写体よりも相対的に高い被写体である。例えば、入力画像が生体内画像であり、ユーザが治療を行う医者である場合、注目被写体は、粘膜部や病変部である。上述したように注目被写体はポリープであってもよい。また、他の例として、医者が観察したいと欲した対象が泡や便であれば、注目被写体は、その泡や便になる。ユーザが注目すべき対象は、その観察目的によって異なるが、いずれにしても、その観察に際し、ユーザにとって観察の優先順位が他の被写体よりも相対的に高い被写体が注目被写体となる。

　ただし、入力画像において、注目領域と背景領域のコントラスト差が小さいケースも存在する。このような被写体はユーザの目視による検出が難しく、機械学習を用いた認識処理の対象とすることが望ましい。その場合に、注目領域に対して平滑化処理を含む画像拡張が行われた場合、元々小さかったコントラスト差がさらに小さくなってしまう。結果として、注目領域を検出するための学習が困難になるおそれがある。このようなケースが想定される場合、画像拡張部３１は、注目領域を画像拡張の対象から除外する。即ち、入力画像のうち、注目領域を除いた領域が画像拡張領域に設定される。

　また、出力誤差算出部３７は、入力画像のうちの一部の領域を用いて出力誤差を算出してもよい。例えば、入力画像のうち注目被写体を撮像した領域を注目領域とした場合に、注目領域に対応する領域で出力誤差を算出してもよい。

４．５　第２のニューラルネットワーク
　またニューラルネットワーク適用部３３は、第１拡張画像を、ニューラルネットワークと一部の構造を共有する第２ニューラルネットワークに入力することによって第３出力を生成し、第２拡張画像を、第２ニューラルネットワークに入力することによって第４出力を生成してもよい。ニューラルネットワーク適用部３３は、第３出力及び第４出力を出力相違度算出部３５に出力する。

　出力相違度算出部３５は、第３の出力と第４の出力との相違度を示す第２出力相違度を算出する。第２出力相違度は、第３出力と第４出力の差が大きいほど値が大きくなる数値情報である。第２出力相違度は、上記出力相違度と同様に、二乗誤差、Ｈｕｂｅｒ誤差、相互相関関数等に基づいて算出可能である。出力相違度算出部３５は、第２出力相違度を重み係数更新部３９に出力する。

　重み係数更新部３９は、第２出力相違度に基づいて、ニューラルネットワークの各層における重み係数を更新する。なお、出力相違度もニューラルネットワークの各層における重み係数の更新に用いてもよい。例えば重み係数更新部３９は、出力誤差と、出力相違度と、第２出力相違度との重み付け和に基づいて全体誤差を算出し、当該全体誤差を減少させるようにニューラルネットワークの各層の重み係数を更新する。

　図１１は、第２ニューラルネットワーク、第３出力及び第４出力を説明する図である。図７を用いて上述した例と同様に、第１拡張画像をニューラルネットワークに入力することによって、第１出力が生成され、第２拡張画像をニューラルネットワークに入力することによって、第２出力が生成される。第１出力及び第２出力に基づいて出力相違度が求められる。なおニューラルネットワークに含まれる矩形は、それぞれニューラルネットワークにおける１つの層を表し、畳み込み層であってもよいしプーリング層であってもよいし、これら以外の層であってもよい。

　本実施形態における第２ニューラルネットワークは、例えば図１１に示すように、ニューラルネットワークの入力層から、所与の中間層（Ｆ１）までに対応する。第１拡張画像を入力した場合、Ｆ１に示す中間層の出力は、その次の層（Ｆ２）に入力されるとともに、第３出力として出力相違度算出部３５に出力される。同様に、第２拡張画像を入力した場合、Ｆ１に示す中間層の出力は、その次の層（Ｆ２）に入力されるとともに、第４出力として出力相違度算出部３５に出力される。

　このようにすれば、第１出力と第２出力の差を小さくするとともに、第３出力と第４出力の差を小さくするような学習が可能になる。第２出力相違度は、Ｆ１及びそれよりも前段の層における誤差の減少に寄与する。ニューラルネットワークの出力だけでなく、中間層における変動も抑制されるため、より画像変動に強いニューラルネットワークを構築することが可能になる。

　なお、図１１においてはＦ１に示す中間層の出力がそのまま第３出力又は第４出力として用いられる例について説明した。ただし第２ニューラルネットワークの構成はこれに限定されない。

　図１２は、第２ニューラルネットワーク、第３出力及び第４出力を説明する他の図である。例えば第２ニューラルネットワークは、ニューラルネットワークの入力層から、所与の中間層（Ｆ１）までを含み、且つ、ニューラルネットワークに含まれない層（Ｆ３）から構成されてもよい。図１２の例では、Ｆ１に示す中間層の出力は、Ｆ３１に示す層に入力される。そしてＦ３に示す各層における処理を経て、Ｆ３２に示す出力層から第３出力又は第４出力が出力される。なお、ここではＦ３が複数の層を含む例について説明したが、Ｆ３は１つの層であってもよい。

　図１２に示す例においても、中間層における変動が抑制されるため、より画像変動に強いニューラルネットワークを構築することが可能になる。また図１２においてはＦ１を中間層としたが、出力層に変更してもよい。即ち、第１出力や第２出力がＦ３に示す１又は複数の層に入力されることによって、第３出力や第４出力が出力されてもよい。

５．推論装置である画像処理装置
　以上では出力相違度に基づく学習処理を行う画像処理方法、及び学習装置１０について説明した。本実施形態の手法は、適用画像を取得し、当該適用画像をニューラルネットワークに入力することによって、出力を生成し、当該出力に基づいて、適用画像を対象とした認識処理を行う画像処理方法に適用できる。なおここでは認識処理を例示したが、適用画像に対する画像処理は画像変換処理であってもよい。或いは本実施形態の手法は、学習結果に基づいて適用画像に対する処理を行う画像処理装置４０に適用できる。

　図１３は、画像処理装置４０の構成例である。画像処理装置４０は、画像取得部５０と、処理部６０と、記憶部７０を含む。画像取得部５０は、適用画像を取得する。記憶部７０は、学習装置１０によって生成された学習済モデルを記憶する。学習済モデルは、人工知能ソフトウェアの一部であるプログラムモジュールとして利用される。

　処理部６０は、適用画像に対して、学習済モデルに基づく推論処理を行う。ここでの推論処理は、適用画像に対する画像処理に対応し、画像分類処理や物体検出処理等の認識処理であってもよいし、適用画像の画像変換処理であってもよい。処理部６０は、記憶部７０に記憶された学習済モデルからの指令に従って、入力である適用画像に対する画像処理の結果を出力するよう動作する。

　処理部６０は、学習装置１０の処理部３０と同様に、種々のハードウェア、プロセッサにより実現される。記憶部７０は、半導体メモリであってもよいし、レジスタであってもよいし、磁気記憶装置であってもよいし、光学式記憶装置であってもよい。なお処理部６０は、学習済モデルに基づく処理を行うための専用ハードウェアを含んでもよい。ニューラルネットワークを用いる例であれば、処理部６０は、畳み込み演算におけるフィルタ処理や、全結合層における積和演算処理を行う回路装置を含んでもよい。回路装置は、例えばＦＰＧＡ（field-programmable gate array）等により実現できる。この場合、記憶部７０は、学習済モデルとして重み係数を記憶し、当該重み係数に従って上記回路装置を含む処理部６０が動作することによって、認識処理等が行われる。或いは、記憶部７０は、フィルタ処理や積和演算処理を行うためのプログラムと、上記重み係数の両方を学習済モデルとして記憶してもよい。このように、処理部６０が、記憶部７０に記憶された学習済モデルからの指令に従って動作するための具体的な構成には、種々の変形実施が可能である。

　また、画像処理装置４０は、１つの装置であってもよいし、複数の装置を含んでもよい。例えば、ＰＣ等の端末装置と、サーバーシステムとが連携して動作することによって、画像処理装置４０が実現されてもよい。また、記憶部７０はＲＯＭであってもよいしＲＡＭであってもよい。具体的には、記憶部７０に書き込まれた学習済モデルは、書き換え不可であってもよいし、書き換え可能であってもよい。書き換え可能である場合、例えば、学習済モデルの情報はサーバーシステムに集約されており、画像処理装置４０の記憶部７０は、サーバーシステムから取得した学習済モデルを記憶する。この場合、学習済モデルをサーバーシステム側で管理できるため、更新処理等が容易になる。

　ここで記憶部７０が記憶する学習済モデルは、入力画像に第１画像拡張を適用することによって第１拡張画像を生成し、入力画像に第１画像拡張と異なる第２画像拡張を適用することによって第２拡張画像を生成し、第１拡張画像をニューラルネットワークに入力することによって第１出力を生成し、第２拡張画像をニューラルネットワークに入力することによって第２出力を生成し、第１出力と第２出力との相違度を示す出力相違度を算出し、出力相違度に基づいて、ニューラルネットワークの各層における重み係数を更新することによって学習されている。より具体的には、学習済モデルは、図４を用いて上述した各ステップを実行することによって学習されるモデルである。

　このようにすれば、出力相違度が小さくなるように学習された学習済モデルを用いて、適用画像に対する画像処理を実行することが可能になる。適用画像に色味や明るさの変動が生じ、当該変動が画像拡張における入力画像の変動量を超えるものであったとしても、画像処理の精度低下を抑制することが可能になる。

　また、本実施形態の画像処理装置４０が行う処理を実現するプログラムは、例えばコンピュータによって読み取り可能な媒体である情報記憶装置に格納できる。ここでのプログラムとは、学習済モデルを含む。情報記憶装置は、例えば光ディスク、メモリーカード、ＨＤＤ、或いは半導体メモリなどによって実現できる。処理部６０は、情報記憶装置に格納されるプログラムに基づいて認識対象の検出処理を含む種々の処理を行う。即ち情報記憶装置は、画像処理装置４０としてコンピュータを機能させるためのプログラムを記憶する。コンピュータは、入力装置、処理部、記憶部、出力部を備える装置である。プログラムは、画像処理装置４０における処理、特に処理部６０における処理をコンピュータに実行させるためのプログラムである。

　図１４は、画像処理装置４０における処理を説明するフローチャートである。この処理が開始されると、ステップＳ２０１において、画像取得部５０は、適用画像を取得する。

　次にステップＳ２０２において、処理部６０は、適用画像を学習済モデルであるニューラルネットワークに入力することによって、出力を生成する。ステップＳ２０２における処理は、図４のステップＳ１０６と同様に、設定された重み係数に従った畳み込み演算等である。

　そしてステップＳ２０３において、処理部６０は、ステップＳ２０２の出力に基づいて認識処理を実行する。ステップＳ２０３における認識結果は、上述したように画像に撮像された被写体のカテゴリを特定する情報であってもよいし、被写体の位置まで特定可能な情報であってもよい。

　なお処理部６０は、内視鏡装置によって撮像された生体内画像を適用画像として取得し、生体内画像を学習済モデルに入力することによって、生体内画像を対象とした認識処理を行ってもよい。認識対象は、生体内画像に撮像される注目被写体である。注目被写体とは、上述したとおり、ユーザにとって観察の優先度が他の被写体よりも高い被写体である。このようにすれば、生体内画像の観察において、認識対象である注目被写体の認識精度を高くすることが可能になる。この場合、画像処理装置４０は、生体内画像を撮像する内視鏡装置に含まれてもよい。

　図１５は、内視鏡装置１２の構成例である。内視鏡装置１２は、挿入部１００と、外部Ｉ／Ｆ部２００と、システム制御装置３００と、表示部４００と、光源装置５００を含む。

　挿入部１００は、体内へ挿入される部分である。挿入部１００は、対物光学系１１０、撮像素子１２０、アクチュエータ１３０、照明レンズ１４０、ライトガイド１５０、ＡＦ（Auto Focus）開始／終了ボタン１６０を含む。

　ライトガイド１５０は、光源５２０からの照明光を、挿入部１００の先端まで導光する。照明レンズ１４０は、ライトガイド１５０によって導光された照明光を被写体に照射する。対物光学系１１０は、被写体から反射した反射光を、被写体像として結像する。対物光学系１１０は、フォーカスレンズ１１１を含み、フォーカスレンズ１１１の位置に応じて被写体像が結像する位置を変更可能である。アクチュエータ１３０は、ＡＦ制御部３６０からの指示に基づいて、フォーカスレンズ１１１を駆動する。なお、ＡＦは必須ではなく、内視鏡装置１２はＡＦ制御部３６０を含まない構成であってもよい。

　撮像素子１２０は、対物光学系１１０を経由した被写体からの光を受光する。撮像素子１２０はモノクロセンサであってもよいし、カラーフィルタを備えた素子であってもよい。カラーフィルタは、広く知られたベイヤフィルタであってもよいし、補色フィルタであってもよいし、他のフィルタであってもよい。補色フィルタとは、シアン、マゼンダ及びイエローの各色フィルタを含むフィルタである。

　ＡＦ開始／終了ボタン１６０は、ユーザがＡＦの開始／終了を操作するための操作インターフェースである。外部Ｉ／Ｆ部２００は、内視鏡装置１２に対するユーザからの入力を行うためのインターフェースである。外部Ｉ／Ｆ部２００は、例えばＡＦ制御モードの設定ボタン、ＡＦ領域の設定ボタン、画像処理パラメータの調整ボタンなどを含む。

　システム制御装置３００は、画像処理やシステム全体の制御を行う。システム制御装置３００は、Ａ／Ｄ変換部３１０、前処理部３２０、検出部３３０、後処理部３４０、システム制御部３５０、ＡＦ制御部３６０、記憶部３７０を含む。システム制御装置３００は、例えば図１３の画像処理装置４０を含む。Ａ／Ｄ変換部３１０が、図１３の画像取得部５０に対応する。記憶部３７０が、図１３の記憶部７０に対応する。前処理部３２０、検出部３３０、後処理部３４０等が、図１３の処理部６０に対応する。

　Ａ／Ｄ変換部３１０は、撮像素子１２０から順次出力されるアナログ信号をデジタルの画像に変換し、前処理部３２０に順次出力する。前処理部３２０は、Ａ／Ｄ変換部３１０から順次出力される撮像画像に対して、各種補正処理を行い、検出部３３０、ＡＦ制御部３６０に順次出力する。補正処理とは、例えばホワイトバランス処理、ノイズ低減処理等を含む。

　検出部３３０は、記憶部３７０に記憶される学習済モデルに従って動作することによって、適用画像である撮像画像から注目被写体の認識処理を行う。学習済モデルがニューラルネットワークである場合、検出部３３０は、入力である適用画像に対して、学習によって決定された重み係数を用いて順方向の演算処理を行う。そして、出力層の出力に基づいて、認識処理の結果を出力する。

　後処理部３４０は、検出部３３０における検出処理結果に基づく後処理を行い、後処理後の画像を表示部４００に出力する。ここでの後処理は、適用画像における認識対象の強調、検出結果を表す情報の付加等、種々の処理が考えられる。

　システム制御部３５０は、撮像素子１２０、ＡＦ開始／終了ボタン１６０、外部Ｉ／Ｆ部２００、ＡＦ制御部３６０と互いに接続され、各部を制御する。具体的には、システム制御部３５０は、各種制御信号の入出力を行う。ＡＦ制御部３６０は、前処理部３２０から順次出力される適用画像を用いてＡＦ制御を行う。

　表示部４００は、後処理部３４０から出力される画像を順次表示する。表示部４００は、例えば液晶ディスプレイやＥＬ（Electro-Luminescence）ディスプレイ等である。光源装置５００は、照明光を発光する光源５２０を含む。光源５２０は、キセノン光源であってもよいし、ＬＥＤであってもよいし、レーザー光源であってもよい。また光源５２０は他の光源であってもよく、発光方式は限定されない。

　なお、画像処理装置４０は内視鏡装置１２に含まれるものには限定されない。例えば画像処理装置４０は、内視鏡装置１２とは別体として設けられ、内視鏡装置１２と通信可能なＰＣ、サーバーシステム等であってもよい。

　なお、上記のように本実施形態について詳細に説明したが、本実施形態の新規事項および効果から実体的に逸脱しない多くの変形が可能であることは当業者には容易に理解できるであろう。従って、このような変形例はすべて本開示の範囲に含まれるものとする。例えば、明細書又は図面において、少なくとも一度、より広義または同義な異なる用語と共に記載された用語は、明細書又は図面のいかなる箇所においても、その異なる用語に置き換えることができる。また本実施形態及び変形例の全ての組み合わせも、本開示の範囲に含まれる。また学習装置、画像処理装置等の構成及び動作等も、本実施形態で説明したものに限定されず、種々の変形実施が可能である。

１０…学習装置、１２…内視鏡装置、２０…取得部、３０…処理部、３１…画像拡張部、３３…ニューラルネットワーク適用部、３５…出力相違度算出部、３７…出力誤差算出部、３９…重み係数更新部、４０…画像処理装置、５０…画像取得部、６０…処理部、７０…記憶部、１００…挿入部、１１０…対物光学系、１１１…フォーカスレンズ、１２０…撮像素子、１３０…アクチュエータ、１４０…照明レンズ、１５０…ライトガイド、１６０…ＡＦ開始／終了ボタン、２００…外部Ｉ／Ｆ部、３００…システム制御装置、３１０…Ａ／Ｄ変換部、３２０…前処理部、３３０…検出部、３４０…後処理部、３５０…システム制御部、３６０…ＡＦ制御部、３７０…記憶部、４００…表示部、５００…光源装置、５２０…光源

Claims

　入力画像に第１画像拡張を適用することによって第１拡張画像を生成し、
　前記入力画像に前記第１画像拡張と異なる第２画像拡張を適用することによって第２拡張画像を生成し、
　前記第１拡張画像をニューラルネットワークに入力することによって第１出力を生成し、
　前記第２拡張画像を前記ニューラルネットワークに入力することによって第２出力を生成し、
　前記第１出力と前記第２出力との相違度を示す出力相違度を算出し、
　前記出力相違度に基づいて、前記ニューラルネットワークの各層における重み係数を更新する、
　ことを特徴とする画像処理方法。
　請求項１において、
　前記入力画像に対応する正解ラベルを取得し、
　前記第１出力及び前記第２出力の少なくとも１つと、前記正解ラベルとに基づいて出力誤差を算出し、
　前記出力誤差と前記出力相違度との重み付け和を全体誤差として求め、
　前記全体誤差に基づいて、前記ニューラルネットワークの各層における前記重み係数を更新する、
　ことを特徴とする画像処理方法。
　請求項２において、
　前記全体誤差を小さくするように、前記ニューラルネットワークの各層における前記重み係数を更新することを特徴とする画像処理方法。
　請求項２又は３において、
　前記第１画像拡張を決定する第１パラメータと、前記第２画像拡張を決定する第２パラメータの差異が所与の範囲内であることを特徴とする画像処理方法。
　請求項４において、
　前記出力誤差、又は、前記全体誤差を判定対象誤差とした場合に、
　前記重み係数の更新処理による前記判定対象誤差の減少度合いに基づいて、前記所与の範囲が設定されることを特徴とする画像処理方法。
　請求項５において、
　前記出力誤差に基づいて、前記ニューラルネットワークの各層における前記重み係数を更新した場合の前記出力誤差の減少度合いと、
　前記全体誤差に基づいて、前記ニューラルネットワークの各層における前記重み係数を更新した場合の前記判定対象誤差の減少度合いの比較処理に基づいて、前記所与の範囲が設定されることを特徴とする画像処理方法。
　請求項１乃至６のいずれか一項において、
　前記第１出力と前記第２出力の要素ごとに算出した二乗誤差、又は、前記第１出力と前記第２出力の前記要素ごとに算出したＨｕｂｅｒ誤差、又は、前記第１出力と前記第２出力の相互相関に基づいて、前記出力相違度を求めることを特徴とする画像処理方法。
　請求項１乃至７のいずれか一項において、
　前記第１画像拡張は、色補正処理、明度補正処理、平滑化処理、鮮鋭化処理、ノイズ付加処理、及び、アフィン変換処理の少なくとも１つの処理を含み、
　前記第２画像拡張は、前記色補正処理、前記明度補正処理、前記平滑化処理、前記鮮鋭化処理、前記ノイズ付加処理、及び、前記アフィン変換処理の少なくとも１つの処理を含む、
　ことを特徴とする画像処理方法。
　請求項１乃至８のいずれか一項において、
　前記入力画像のうちの一部の領域を画像拡張領域に設定し、
　前記入力画像の前記画像拡張領域に前記第１画像拡張を適用することによって前記第１拡張画像を生成し、
　前記入力画像の前記画像拡張領域に前記第２画像拡張を適用することによって前記第２拡張画像を生成する、
　ことを特徴とする画像処理方法。
　請求項９において、
　前記入力画像のうち注目被写体を撮像した領域を注目領域とした場合に、
　前記注目領域に基づいて前記画像拡張領域を設定することを特徴とする画像処理方法。
　請求項１乃至１０のいずれか一項において、
　前記ニューラルネットワークは、畳み込みニューラルネットワーク（CNN:Convolutional Neural Network）であることを特徴とする画像処理方法。
　請求項１乃至１１のいずれか一項において、
　適用画像を入力し、
　前記適用画像を前記ニューラルネットワークに入力することで、適用出力を生成し、
　前記適用出力に基づいて、前記適用画像を対象とした認識処理を行う、
　ことを特徴とする画像処理方法。
　請求項１乃至１２のいずれか一項において、
　前記第１拡張画像を、前記ニューラルネットワークと一部の構造を共有する第２ニューラルネットワークに入力することによって第３出力を生成し、
　前記第２拡張画像を、前記第２ニューラルネットワークに入力することによって第４出力を生成し、
　前記第３出力と前記第４出力との相違度を示す第２出力相違度を算出し、
　前記第２出力相違度に基づいて、前記ニューラルネットワークの各層における重み係数を更新する、
　ことを特徴とする画像処理方法。
　ニューラルネットワークを用いた画像処理方法であって、
　前記ニューラルネットワークは、一つの入力画像に対して複数の異なる画像拡張を適用することにより生成した複数の拡張画像を、前記ニューラルネットワークに入力したときに、複数の前記拡張画像に対応する複数の出力間の相違度を含む誤差を用いて学習されており、
　第１適用画像を前記ニューラルネットワークに入力することによって、第１適用出力を生成し、
　前記第１適用出力に基づいて第１認識結果を生成し、
　第２適用画像を前記ニューラルネットワークに入力することによって、第２適用出力を生成し、
　前記第２適用出力に基づいて第２認識結果を生成し、
　前記第１適用画像と前記第２適用画像が対応する被写体を撮像しており、且つ、前記第１適用画像と前記第２適用画像との差異が、色合い、明るさ、及び、平滑化度合いの少なくとも１つの場合に、前記第１認識結果と前記第２認識結果とが同一となる、
　ことを特徴とする画像処理方法。
　入力画像を取得する取得部と、
　前記入力画像に基づいて機械学習を行う処理部と、
　を含み、
　前記処理部は、
　前記入力画像に第１画像拡張を適用することによって第１拡張画像を生成し、
　前記入力画像に前記第１画像拡張と異なる第２画像拡張を適用することによって第２拡張画像を生成し、
　前記第１拡張画像をニューラルネットワークに入力することによって第１出力を生成し、
　前記第２拡張画像を前記ニューラルネットワークに入力することによって第２出力を生成し、
　前記第１出力と前記第２出力との相違度を示す出力相違度を算出し、
　前記出力相違度に基づいて、前記ニューラルネットワークの各層における重み係数を更新する、
　ことを特徴とする学習装置。
　学習済モデルを記憶する記憶部と、
　前記学習済モデルに基づいて適用画像に対する画像処理を行う処理部と、
　を含み、
　前記学習済モデルは、
　入力画像に第１画像拡張を適用することによって第１拡張画像を生成し、
　前記入力画像に前記第１画像拡張と異なる第２画像拡張を適用することによって第２拡張画像を生成し、
　前記第１拡張画像をニューラルネットワークに入力することによって第１出力を生成し、
　前記第２拡張画像を前記ニューラルネットワークに入力することによって第２出力を生成し、
　前記第１出力と前記第２出力との相違度を示す出力相違度を算出し、
　前記出力相違度に基づいて、前記ニューラルネットワークの各層における重み係数を更新することによって学習されていることを特徴とする画像処理装置。
　請求項１６において、
　前記処理部は、
　内視鏡装置によって撮像された生体内画像を前記適用画像として取得し、前記生体内画像を前記学習済モデルに入力することによって、前記生体内画像を対象とした認識処理を行うことを特徴とする画像処理装置。