WO2019102797A1

WO2019102797A1 - ニューラルネットワークの学習方法、学習装置、学習済みモデル及びプログラム

Info

Publication number: WO2019102797A1
Application number: PCT/JP2018/040070
Authority: WO
Inventors: 誠大関; 正明大酒
Original assignee: 富士フイルム株式会社
Priority date: 2017-11-21
Filing date: 2018-10-29
Publication date: 2019-05-31
Also published as: JPWO2019102797A1; JP7008081B2

Abstract

認識精度の向上及び機械学習に必要なデータの準備の負担軽減が可能なニューラルネットワークの学習方法、学習装置、学習済みモデル及びプログラムを提供する。ニューラルネットワーク１０は、第１の正解形態に対応した第１の出力を行う第１のニューラルネットワーク１１と、第２の正解形態に対応した第２の出力を行う第２のニューラルネットワーク１２と、これら各々への入力要素を出力する第３のニューラルネットワークと、を含む。学習用データ群から、第１の正解形態及び第２の正解形態のうち少なくとも１つを有した学習用サンプルを選択し、選択した学習用サンプルを用いて第１の出力及び第２の出力の少なくとも１つを取得し、その評価結果に基づいて、ニューラルネットワークの重みを更新するステップを複数回実施した後に、各ニューラルネットワーク１１、１２、１３の重みを決定する。

Description

ニューラルネットワークの学習方法、学習装置、学習済みモデル及びプログラム

　本発明はニューラルネットワークの学習方法、学習装置、学習済みモデル及びプログラムに係り、特に、画像認識などに用いるニューラルネットワークの機械学習技術、並びに、コンピュータを用いた情報処理技術に関する。

　近年、多層のニューラルネットワークを用いて画像又は音声などを認識する技術の開発が活発に行われている。特許文献１には、畳み込みニューラルネットワーク（ＣＮＮ：Convolution Neural Network）を用いた画像認識方法が提案されている。特許文献１に記載の画像認識方法は、画像中で一部重なっている複数の認識対象の各々を正しく認識し得る画像認識方法である。認識対象は、例えば人物である。特許文献１によれば、第１畳み込みニューラルネットワークを用いて認識対象の中央領域を認識できるように学習し、学習後の第１畳み込みニューラルネットワークと同一構成の第２畳み込みニューラルネットワークを用いて認識対象の位置の回帰を学習する方法が開示されている。また、特許文献１には、人物領域座標出力ニューラルネットワークの学習と人物中央領域出力ニューラルネットワークの学習の順番は逆でもよい旨の記載がある。

特開２０１７－５９２０７号公報

　ニューラルネットワークを用いて画像認識を行うためには、入力画像データと識別結果との誤差が小さくなるよう、予めニューラルネットワークの「重み」と呼ばれるパラメータを適切に設定する必要がある。適切な重みを設定するために行われる重みの探索及び調整は「学習」と呼ばれる。画像認識の精度を向上させるためには、多様かつ大量の画像データと、それぞれの画像データについての正解データとのペア（組）を用いて学習しなければならない。このことは、画像認識の分野に限らず、音声認識の分野など、様々な対象の認識処理に共通する。

　一般的に、ニューラルネットワークを用いて高い認識性能を実現するためには、学習用サンプルとしての多くの正解データを要する。学習用入力データへの「正解」のラベル付与は、人手によって行われるため、作業者の負担が大きく、良質な正解データを大量に取得するためには膨大な費用と時間が必要となる。

　本発明はこのような事情に鑑みてなされたもので、認識精度の向上及び機械学習に必要なデータの準備の負担軽減が可能なニューラルネットワークの学習方法、学習装置、学習済みモデル及びプログラムを提供することを目的とする。

　課題を解決するために、次の発明態様を提供する。

　本発明の一の態様は、ニューラルネットワークの学習方法であって、ニューラルネットワークは、第１の正解形態に対応した第１の出力を行う第１のニューラルネットワークと、第２の正解形態に対応した第２の出力を行う第２のニューラルネットワークと、第１のニューラルネットワーク及び第２のニューラルネットワークへの入力要素を出力する第３のニューラルネットワークと、を含むニューラルネットワークであり、学習用データ群から、第１の正解形態及び第２の正解形態のうち少なくとも１つを有した学習用サンプルを選択する選択ステップと、選択した学習用サンプルをニューラルネットワークへの入力に用いることにより、ニューラルネットワークから第１の出力及び第２の出力の少なくとも１つを取得する出力取得ステップと、出力取得ステップにて得られた第１の出力及び第２の出力の少なくとも１つについて評価を行う評価ステップと、評価ステップにて得られる評価結果に基づいて、ニューラルネットワークの重みを更新する重み更新ステップと、選択ステップ、出力取得ステップ、評価ステップ、及び重み更新ステップを複数回実施した後に、第１のニューラルネットワーク、第２のニューラルネットワーク及び第３のニューラルネットワークの各々の重みを決定する重み決定ステップと、を含むニューラルネットワークの学習方法である。

　本態様によれば、選択ステップ、出力取得ステップ、評価ステップ、及び重み更新ステップを複数回実施することによって、第１の正解形態を含んだ学習用サンプルを用いる学習と、第２の正解形態を含んだ学習用サンプルを用いる学習とが複合的に実施され、第１のニューラルネットワーク、第２のニューラルネットワーク及び第３のニューラルネットワークの各ニューラルネットワークの重みを更新する処理が行われる。第３のニューラルネットワークは、第１のニューラルネットワーク及び第２のニューラルネットワークの各々への入力要素を出力する共通の処理部として機能しており、第２の正解形態を用いた学習による重み更新の効果が第１の正解形態についての認識精度の向上に寄与する。また、第１の正解形態を用いた学習による重み更新の効果が第２の正解形態についての認識精度の向上に寄与する。

　本態様によれば、異なる正解形態の学習用サンプルを、相互に両方の形態に対応した認識精度の向上に活用し得るため、学習用サンプルの準備の負担を軽減でき、かつ、認識精度を向上させることができる。

　「重み」はニューラルネットワークにおけるパラメータであり、各層の処理に用いるフィルタのフィルタ係数（結合の重み）やノードのバイアスなどを含む。

　「認識」という用語は、「識別」及び「判別」のそれぞれの概念を含む。「複合的に実施」とは、並行して実施すること、同時に実施すること、交互に実施すること、並びに、統合して実施することのそれぞれの概念を含む。

　複数回実施される選択ステップにて選択される複数の学習用サンプルの中には、第１の正解形態を有した第１の学習用サンプルと、第２の正解形態を有した第２の学習用サンプルの両方が含まれる構成とすることが好ましい。

　学習用サンプルとして、入力用画像に第１の正解形態及び第２の正解形態の両方の正解形態が関連付けられたデータが用いられる構成とすることができる。

　本発明の他の一の態様は、ニューラルネットワークの学習方法であって、ニューラルネットワークは、第１の正解形態に対応した第１の出力を行う第１のニューラルネットワークと、第２の正解形態に対応した第２の出力を行う第２のニューラルネットワークと、第１のニューラルネットワーク及び第２のニューラルネットワークへの入力要素を出力する第３のニューラルネットワークと、を含むニューラルネットワークであり、第１の正解形態及び第２の正解形態を含む少なくとも２種類の正解形態を含む第１の学習用データ群から、第１の学習用データ群の一部又は全部である第２の学習用データ群を選び出すステップと、第２の学習用データ群に含まれる学習用サンプルをニューラルネットワークへの入力に用いることにより、ニューラルネットワークから第１の出力及び第２の出力の少なくとも１つを取得する出力取得ステップと、出力取得ステップにて取得された第１の出力及び第２の出力の少なくとも１つについて評価を行う評価ステップと、第２の学習用データ群に含まれる学習用サンプルをすべて用いて、評価ステップから得られた評価結果に基づいてニューラルネットワークの重みを更新する重み更新ステップと、を含み、重みを更新する学習単位としての第２の学習用データ群の中に、第１の正解形態及び第２の正解形態が含まれているニューラルネットワークの学習方法である。

　本態様によれば、重みを更新する学習単位の内で、第１の正解形態に対応した学習と、第２の正解形態に対応した学習とが複合的に実施され、複数の正解形態を用いた学習の効果が相互に両形態に対応した認識精度の向上に寄与する。本態様によれば、学習用サンプルの準備の負担を軽減でき、かつ、認識精度を向上させることができる。

　本発明の他の一の態様は、ニューラルネットワークの学習方法であって、ニューラルネットワークは、第１の正解形態に対応した第１の出力を行う第１のニューラルネットワークと、第２の正解形態に対応した第２の出力を行う第２のニューラルネットワークと、第１のニューラルネットワーク及び第２のニューラルネットワークへの入力要素を出力する第３のニューラルネットワークと、を含むニューラルネットワークであり、第１の正解形態及び第２の正解形態のうち少なくとも第１の正解形態の第１の正解データと関連付けられた第１の学習用入力データをニューラルネットワークに入力することにより、少なくとも第１の出力を取得する第１の出力取得ステップと、第１の出力取得ステップにて取得された少なくとも第１の出力について評価を行う第１の評価ステップと、第１の評価ステップにて得られる評価結果に基づいて、ニューラルネットワークの重みを更新する第１の更新ステップと、第１の正解形態及び第２の正解形態のうち少なくとも第２の正解形態を有した第２の学習用サンプルをニューラルネットワークへの入力に用いることにより、ニューラルネットワークから少なくとも第２の出力を取得する第２の出力取得ステップと、第２の出力取得ステップにて得られた少なくとも第２の出力について評価を行う第２の評価ステップと、第２の評価ステップにて得られる評価結果に基づいて、ニューラルネットワークの重みを更新する第２の更新ステップと、を含み、ニューラルネットワークに入力する第１の学習用入力データを変えて、第１の出力取得ステップ及び第１の評価ステップを少なくとも２回実施し、かつ、少なくとも２回の第１の出力取得ステップ及び第１の評価ステップを実施する間に、第２の出力取得ステップ及び第２の評価ステップを少なくとも１回実施するニューラルネットワークの学習方法である。

　本態様によれば、第１の正解形態に対応した学習と、第２の正解形態に対応した学習とが複合的に実施され、複数の正解形態を用いた学習の効果が相互に両形態の認識精度の向上に寄与する。本態様によれば、認識精度を向上させることができ、かつ、学習用サンプルの準備の負担を軽減できる。

　上述した各態様におけるニューラルネットワークは、畳み込み層を含む構成とすることができる。

　第１のニューラルネットワーク及び第２のニューラルネットワークのうち少なくとも一方は、１×１の畳み込みによる処理を行う畳み込み層を含む構成とすることができる。

　「１×１の畳み込み」は、複数の特徴量のチャネルごとの特徴マップをチャネル方向に畳み込み、複数の特徴量をまとめる処理である。

　ニューラルネットワークは、入力された画像内の少なくとも１つの特定領域を抽出した少なくとも１つのマスク画像を出力する構成とすることができる。

　ニューラルネットワークは、入力された画像内の少なくとも１つの矩形領域を出力する構成とすることができる。

　第１の正解形態は、少なくとも１枚の画像に対し、画像内の特定領域の各画素と対応するものを含む構成とすることができる。

　第２の正解形態は、少なくとも１枚の画像に対し、画像内の矩形領域と対応するものを含む構成とすることができる。

　上述した各態様に係るニューラルネットワークの学習方法において、第１のニューラルネットワークから得られる第１の出力と第２のニューラルネットワークから得られる第２の出力のそれぞれの評価を重み付けして行う構成とすることができる。

　本発明の他の一の態様に係る学習済みモデルは、上述した各態様のうちいずれか一態様のニューラルネットワークの学習方法を用いて、ニューラルネットワークを学習することにより、重みが決定された学習済みのニューラルネットワークを含む学習済みモデルである。

　本態様に係る学習済みモデルを用いることにより、認識精度の高い認識処理が可能である。

　学習済みモデルは、プログラムに準ずるものである。また、学習済みモデルを用いた信号処理装置は、画像処理装置、認識装置、識別装置、或いは、判別装置などの用語の概念を含む。

　本発明の他の一の態様は、ニューラルネットワークの学習装置であって、ニューラルネットワークは、第１の正解形態に対応した第１の出力を行う第１のニューラルネットワークと、第２の正解形態に対応した第２の出力を行う第２のニューラルネットワークと、第１のニューラルネットワーク及び第２のニューラルネットワークへの入力要素を出力する第３のニューラルネットワークと、を含むニューラルネットワークであり、学習用データ群から、第１の正解形態及び第２の正解形態のうち少なくとも１つを有した学習用サンプルを選択する選択部と、選択した学習用サンプルをニューラルネットワークへの入力に用いることにより、ニューラルネットワークから第１の出力及び第２の出力の少なくとも１つを取得する出力取得部と、出力取得部にて得られた第１の出力及び第２の出力の少なくとも１つについて評価を行う評価部と、評価部にて得られる評価結果に基づいて、ニューラルネットワークの重みを更新する重み更新部と、選択部による選択ステップ、出力取得部による出力取得ステップ、評価部による評価ステップ、及び重み更新部による重み更新ステップを複数回実施した後に、第１のニューラルネットワーク、第２のニューラルネットワーク及び第３のニューラルネットワークの各々の重みを決定する重み決定部と、を備える学習装置である。

　本発明の他の一の態様は、ニューラルネットワークの学習装置であって、ニューラルネットワークは、第１の正解形態に対応した第１の出力を行う第１のニューラルネットワークと、第２の正解形態に対応した第２の出力を行う第２のニューラルネットワークと、第１のニューラルネットワーク及び第２のニューラルネットワークへの入力要素を出力する第３のニューラルネットワークと、を含むニューラルネットワークであり、第１の正解形態及び第２の正解形態を含む少なくとも２種類の正解形態を含む第１の学習用データ群から、第１の学習用データ群の一部又は全部である第２の学習用データ群を選び出す学習用データ群選択部と、第２の学習用データ群に含まれる学習用サンプルをニューラルネットワークへの入力に用いることにより、ニューラルネットワークから第１の出力及び第２の出力の少なくとも１つを取得する出力取得部と、出力取得部にて取得された第１の出力及び第２の出力の少なくとも１つについて評価を行う評価部と、第２の学習用データ群に含まれる学習用サンプルをすべて用いて、評価部から得られた評価結果に基づいてニューラルネットワークの重みを更新する重み更新部と、を含み、重みを更新する学習単位としての第２の学習用データ群の中に、第１の正解形態及び第２の正解形態が含まれている学習装置である。

　本発明の他の一の態様は、ニューラルネットワークの学習装置であって、ニューラルネットワークは、第１の正解形態に対応した第１の出力を行う第１のニューラルネットワークと、第２の正解形態に対応した第２の出力を行う第２のニューラルネットワークと、第１のニューラルネットワーク及び第２のニューラルネットワークへの入力要素を出力する第３のニューラルネットワークと、を含むニューラルネットワークであり、第１の正解形態及び第２の正解形態のうち少なくとも第１の正解形態の第１の正解データと関連付けられた第１の学習用入力データをニューラルネットワークに入力することにより、少なくとも第１の出力を取得する第１の出力取得部と、第１の出力取得部にて取得された少なくとも第１の出力について評価を行う第１の評価部と、第１の評価部にて得られる評価結果に基づいて、ニューラルネットワークの重みを更新する第１の更新部と、第１の正解形態及び第２の正解形態のうち少なくとも第２の正解形態を有した第２の学習用サンプルをニューラルネットワークへの入力に用いることにより、ニューラルネットワークから少なくとも第２の出力を取得する第２の出力取得部と、第２の出力取得部にて得られた少なくとも第２の出力について評価を行う第２の評価部と、第２の評価部にて得られる評価結果に基づいて、ニューラルネットワークの重みを更新する第２の更新部と、を含み、ニューラルネットワークに入力する第１の学習用入力データを変えて、第１の出力取得部による第１の出力取得ステップ及び第１の評価部による第１の評価ステップを少なくとも２回実施し、かつ、少なくとも２回の第１の出力取得ステップ及び第１の評価ステップを実施する間に、第２の出力取得部による第２の出力取得ステップ及び第２の評価部による第２の評価ステップを少なくとも１回実施する学習装置である。

　本発明の他の一の態様は、上述した各態様の学習装置において、第１の正解形態及び第２の正解形態のうち少なくとも１つを有した学習用サンプルを作成する学習用サンプル作成部を備え、学習用サンプル作成部は、学習用入力データを取得する学習用入力データ取得部と、学習用入力データに対する第１の正解形態の正解を特定する第１の正解特定情報を取得する第１の正解特定情報取得部と、第１の正解特定情報を基に、学習用入力データに対する第１の正解データを作成する第１の正解データ作成部と、学習用入力データに対する第２の正解形態の正解を特定する第２の正解特定情報を取得する第２の正解特定情報取得部と、第２の正解特定情報を基に、学習用入力データに対する第２の正解データを作成する第２の正解データ作成部と、第１の正解データ作成部によって作成された第１の正解データ及び第２の正解データ作成部によって作成された第２の正解データのうち少なくとも１つの正解データを学習用入力データと関連付ける関連付け処理部と、を含む構成とすることができる。

　本発明の他の一の態様に係る学習装置は、学習用入力データ取得部を介して取得された学習用入力データを表示する表示装置と、学習用入力データに対する第１の正解形態の正解を特定する指示、及び学習用入力データに対する第２の正解形態の正解を特定する指示のうち、少なくとも１つの指示を、ユーザが入力するための入力装置と、を備え、表示装置は、入力装置から入力された指示に従って第１の正解データ作成部を用いて作成された第１の正解データ、及び入力装置から入力された指示に従って第２の正解データ作成部を用いて作成された第２の正解データのうち、少なくとも１つを表示する構成とすることができる。

　本発明の他の一の態様は、コンピュータに、ニューラルネットワークの学習を実行させるプログラムであって、ニューラルネットワークは、第１の正解形態に対応した第１の出力を行う第１のニューラルネットワークと、第２の正解形態に対応した第２の出力を行う第２のニューラルネットワークと、第１のニューラルネットワーク及び第２のニューラルネットワークへの入力要素を出力する第３のニューラルネットワークと、を含むニューラルネットワークであり、プログラムは、学習用データ群から、第１の正解形態及び第２の正解形態のうち少なくとも１つを有した学習用サンプルを選択する選択ステップと、選択した学習用サンプルをニューラルネットワークへの入力に用いることにより、ニューラルネットワークから第１の出力及び第２の出力の少なくとも１つを取得する出力取得ステップと、出力取得ステップにて得られた第１の出力及び第２の出力の少なくとも１つについて評価を行う評価ステップと、評価ステップにて得られる評価結果に基づいて、ニューラルネットワークの重みを更新する重み更新ステップと、選択ステップ、出力取得ステップ、評価ステップ、及び重み更新ステップを複数回実施した後に、第１のニューラルネットワーク、第２のニューラルネットワーク及び第３のニューラルネットワークの各々の重みを決定する重み決定ステップと、をコンピュータに実行させるプログラムである。

　本発明の他の一の態様は、コンピュータに、ニューラルネットワークの学習を実行させるプログラムであって、ニューラルネットワークは、第１の正解形態に対応した第１の出力を行う第１のニューラルネットワークと、第２の正解形態に対応した第２の出力を行う第２のニューラルネットワークと、第１のニューラルネットワーク及び第２のニューラルネットワークへの入力要素を出力する第３のニューラルネットワークと、を含むニューラルネットワークであり、プログラムは、第１の正解形態及び第２の正解形態を含む少なくとも２種類の正解形態を含む第１の学習用データ群から、第１の学習用データ群の一部又は全部である第２の学習用データ群を選び出すステップと、第２の学習用データ群に含まれる学習用サンプルをニューラルネットワークへの入力に用いることにより、ニューラルネットワークから第１の出力及び第２の出力の少なくとも１つを取得する出力取得ステップと、出力取得ステップにて取得された第１の出力及び第２の出力の少なくとも１つについて評価を行う評価ステップと、第２の学習用データ群に含まれる学習用サンプルをすべて用いて、評価ステップから得られた評価結果に基づいてニューラルネットワークの重みを更新する重み更新ステップと、をコンピュータに実行させるものであり、重みを更新する学習単位としての第２の学習用データ群の中に、第１の正解形態及び第２の正解形態が含まれているプログラムである。

　本発明の他の一の態様は、コンピュータに、ニューラルネットワークの学習を実行させるプログラムであって、ニューラルネットワークは、第１の正解形態に対応した第１の出力を行う第１のニューラルネットワークと、第２の正解形態に対応した第２の出力を行う第２のニューラルネットワークと、第１のニューラルネットワーク及び第２のニューラルネットワークへの入力要素を出力する第３のニューラルネットワークと、を含むニューラルネットワークであり、プログラムは、第１の正解形態及び第２の正解形態のうち少なくとも第１の正解形態の第１の正解データと関連付けられた第１の学習用入力データをニューラルネットワークに入力することにより、少なくとも第１の出力を取得する第１の出力取得ステップと、第１の出力取得ステップにて取得された少なくとも第１の出力について評価を行う第１の評価ステップと、第１の評価ステップにて得られる評価結果に基づいて、ニューラルネットワークの重みを更新する第１の更新ステップと、第１の正解形態及び第２の正解形態のうち少なくとも第２の正解形態を有した第２の学習用サンプルをニューラルネットワークへの入力に用いることにより、ニューラルネットワークから少なくとも第２の出力を取得する第２の出力取得ステップと、第２の出力取得ステップにて得られた少なくとも第２の出力について評価を行う第２の評価ステップと、第２の評価ステップにて得られる評価結果に基づいて、ニューラルネットワークの重みを更新する第２の更新ステップと、をコンピュータに実行させるものであり、ニューラルネットワークに入力する第１の学習用入力データを変えて、第１の出力取得ステップ及び第１の評価ステップを少なくとも２回実施し、かつ、少なくとも２回の第１の出力取得ステップ及び第１の評価ステップを実施する間に、第２の出力取得ステップ及び第２の評価ステップを少なくとも１回実施するプログラムである。

　本発明の他の一の態様は、ニューラルネットワークの学習装置であって、ニューラルネットワークは、第１の正解形態に対応した第１の出力を行う第１のニューラルネットワークと、第２の正解形態に対応した第２の出力を行う第２のニューラルネットワークと、第１のニューラルネットワーク及び第２のニューラルネットワークへの入力要素を出力する第３のニューラルネットワークと、を含むニューラルネットワークであり、学習装置は、プロセッサを含み、プロセッサは、学習用データ群から、第１の正解形態及び第２の正解形態のうち少なくとも１つを有した学習用サンプルを選択する選択ステップと、選択した学習用サンプルをニューラルネットワークへの入力に用いることにより、ニューラルネットワークから第１の出力及び第２の出力の少なくとも１つを取得する出力取得ステップと、出力取得部にて得られた第１の出力及び第２の出力の少なくとも１つについて評価を行う評価ステップと、評価部にて得られる評価結果に基づいて、ニューラルネットワークの重みを更新する重み更新ステップと、選択ステップ、出力取得ステップ、評価ステップ、及び重み更新ステップを複数回実施した後に、第１のニューラルネットワーク、第２のニューラルネットワーク及び第３のニューラルネットワークの各々の重みを決定する重み決定ステップと、の各ステップの処理を行う学習装置である。

　本発明の他の一の態様は、ニューラルネットワークの学習装置であって、ニューラルネットワークは、第１の正解形態に対応した第１の出力を行う第１のニューラルネットワークと、第２の正解形態に対応した第２の出力を行う第２のニューラルネットワークと、第１のニューラルネットワーク及び第２のニューラルネットワークへの入力要素を出力する第３のニューラルネットワークと、を含むニューラルネットワークであり、学習装置は、プロセッサを含み、プロセッサは、第１の正解形態及び第２の正解形態を含む少なくとも２種類の正解形態を含む第１の学習用データ群から、第１の学習用データ群の一部又は全部である第２の学習用データ群を選び出す学習用データ群選択ステップと、第２の学習用データ群に含まれる学習用サンプルをニューラルネットワークへの入力に用いることにより、ニューラルネットワークから第１の出力及び第２の出力の少なくとも１つを取得する出力取得ステップと、出力取得ステップにて取得された第１の出力及び第２の出力の少なくとも１つについて評価を行う評価ステップと、第２の学習用データ群に含まれる学習用サンプルをすべて用いて、評価ステップから得られた評価結果に基づいてニューラルネットワークの重みを更新する重み更新ステップと、を含む各ステップの処理を行うものであり、重みを更新する学習単位としての第２の学習用データ群の中に、第１の正解形態及び第２の正解形態が含まれている学習装置である。

　本発明の他の一の態様は、ニューラルネットワークの学習装置であって、ニューラルネットワークは、第１の正解形態に対応した第１の出力を行う第１のニューラルネットワークと、第２の正解形態に対応した第２の出力を行う第２のニューラルネットワークと、第１のニューラルネットワーク及び第２のニューラルネットワークへの入力要素を出力する第３のニューラルネットワークと、を含むニューラルネットワークであり、学習装置は、プロセッサを含み、プロセッサは、第１の正解形態及び第２の正解形態のうち少なくとも第１の正解形態の第１の正解データと関連付けられた第１の学習用入力データをニューラルネットワークに入力することにより、少なくとも第１の出力を取得する第１の出力取得ステップと、第１の出力取得ステップにて取得された少なくとも第１の出力について評価を行う第１の評価ステップと、第１の評価ステップにて得られる評価結果に基づいて、ニューラルネットワークの重みを更新する第１の更新ステップと、第１の正解形態及び第２の正解形態のうち少なくとも第２の正解形態を有した第２の学習用サンプルをニューラルネットワークへの入力に用いることにより、ニューラルネットワークから少なくとも第２の出力を取得する第２の出力取得ステップと、第２の出力取得ステップにて得られた少なくとも第２の出力について評価を行う第２の評価ステップと、第２の評価ステップにて得られる評価結果に基づいて、ニューラルネットワークの重みを更新する第２の更新ステップと、を含む各ステップの処理を行うものであり、ニューラルネットワークに入力する第１の学習用入力データを変えて、第１の出力取得ステップ及び第１の評価ステップを少なくとも２回実施し、かつ、少なくとも２回の第１の出力取得ステップ及び第１の評価ステップを実施する間に、第２の出力取得ステップ及び第２の評価ステップを少なくとも１回実施する学習装置である。

　本発明によれば、認識精度の向上、及び、機械学習に必要なデータ準備の負担軽減が可能である。

図１は、本発明の実施形態に係るニューラルネットワークの学習方法の概要を模式的に示した説明図である。図２は、入力画像に対応した２種類の正解形態の簡単な例である。図３は、学習用データ群の例を示す図表である。図４は、ニューラルネットワークの学習方法の例を示すフローチャートである。図５は、学習装置の機能を示すブロック図である。図６は、ニューラルネットワークの学習方法の他の例を示すフローチャートである。図７は、ニューラルネットワークの学習方法の他の例を示すフローチャートである。図８は、ニューラルネットワークの学習方法の他の例を示すフローチャートである。図９は、図８のステップＳ５８に適用される処理内容を示すフローチャートである。図１０は、図８のステップＳ５８に適用される他の処理内容を示すフローチャートである。図１１は、図８のステップＳ６０に適用される処理内容を示すフローチャートである。図１２は、図８のステップＳ６２に適用される処理内容を示すフローチャートである。図１３は、学習済みのニューラルネットワークを用いた画像認識装置の例１を示すブロック図である。図１４は、学習済みモデルを用いた画像認識装置の例２を示すブロック図である。図１５は、学習装置に搭載される学習用サンプルの作成機能に関するブロック図である。図１６は、学習用サンプルの作成を開始する際に表示される操作画面の一例を示す図である。図１７は、第１の正解データを作成する際に表示される操作画面の一例を示す図である図１８は、正解データの確認画面の一例を示す図である。図１９は、第２の正解データを作成する際に表示される操作画面の一例を示す図である。図２０は、正解データの確認画面の一例を示す図である。図２１は、学習用サンプル作成機能によって作成された学習サンプルの一例を示す概念図である。図２２は、ニューラルネットワークの他の形態例１を示す概念図である。図２３は、ニューラルネットワークの他の形態例２を示す概念図である。図２４は、ニューラルネットワークの他の形態例３を示す概念図である。図２５は、コンピュータのハードウェア構成の例を示すブロック図である。

　以下、添付図面に従って本発明の好ましい実施の形態について詳説する。

　図１は、本発明の実施形態に係るニューラルネットワークの学習方法の概要を模式的に示した説明図である。ここでは、画像認識に用いる階層型ニューラルネットワークである畳み込みニューラルネットワークを例示する。ニューラルネットワークとは、脳神経系の仕組みを模擬した情報処理の数理モデルである。ニューラルネットワークを用いた処理は、コンピュータを用いて実現することができる。

　《ニューラルネットワークの構造例》
　ニューラルネットワーク１０は、入力層１０Ａと、複数の中間層１０Ｂと、第１の出力層１０Ｃと、第２の出力層１０Ｄと、を含む階層型ニューラルネットワークである。各層は複数の「ノード」を含む。図１においてノードの図示は省略した。ある層に属するノードは、その層よりも出力側の層に属するノードと結合している。各ノードのノード間の結合の各々には、結合の重みが割り当てられる。それぞれの結合の重みは、本発明の実施形態に係るニューラルネットワークの学習方法を使用して決定される。

　ニューラルネットワーク１０の入力から出力に向けたデータの流れの方向に沿って、入力側を「前」、出力側を「後ろ」と表現する。なお、図１において実線の矢印はデータの流れを示す。図１において破線の矢印は学習に基づく重みの更新処理を含むフィードバックの流れを示す。

　本例のニューラルネットワーク１０は、複数の中間層１０Ｂの一部に畳み込み層とプーリング層の組み合わせを含む畳み込みニューラルネットワークである。図１では、ニューラルネットワーク１０の層構造を簡略化して示しているが、ニューラルネットワーク１０を構成する中間層１０Ｂの層数、及び各層の処理内容、並びに各層の配列順序は、特に制限されず、様々な組み合わせからなる層構造が採用され得る。

　畳み込み層は、前の層において局所領域内にあるノードにフィルタを適用した畳み込み演算を行い、特徴マップを取得する。畳み込み層は、フィルタが表す特徴的な濃淡構造を画像から抽出する特徴抽出の役割を担う。

　プーリング層は、畳み込み層から出力された特徴マップの局所領域を代表値により集約するプーリング処理を行う。プーリング層は、畳み込み層から出力された特徴マップを縮小して解像度を低下させた新たな特徴マップを生成する。プーリング層は、畳み込み層によって抽出された対象特徴量が位置変動に対して影響を受けないようにロバスト性を与える（位置変動に対する感度を低下させる）役割を担う。

　ニューラルネットワーク１０は、畳み込み層及びプーリング層の他に、正規化層及び全結合層のうち少なくとも１種の層を１層以上含んでもよい。また、中間層１０Ｂの各層は、必要に応じて活性化関数を含んでよい。

　正規化層は、画像の濃淡を正規化する処理を行う。例えば、正規化層は、畳み込み層の出力及びプーリング層の出力の少なくとも一方の出力に対して局所コントラスト正規化の処理を行う。

　全結合層は、隣接層間のノードの全てを結合した層である。全結合層は、出力層付近に配置され得る。例えば、全結合層は、畳み込み層とプーリング層を経て特徴が抽出された特徴マップを１つのノードに結合し、活性化関数を用いて特徴変数を出力する。一般に、畳み込みニューラルネットワークでは、最後のプーリング層から出力層の間に、全結合層が１層以上配置される。

　第１の出力層１０Ｃ及び第２の出力層１０Ｄの各々は、例えば、全結合層からの出力を基に、ソフトマックス関数などを用いて、クラス分類を行う。

　本例のニューラルネットワーク１０は、中間層１０Ｂの出力を第１のニューラルネットワーク１１と第２のニューラルネットワーク１２の各々に入力する構造を有しており、ニューラルネットワーク１０に対する１つの入力から、２種類の出力を得ることができる。すなわち、ニューラルネットワーク１０は、第１の出力層１０Ｃを有する第１のニューラルネットワーク１１と、第２の出力層１０Ｄを有する第２のニューラルネットワーク１２と、入力層１０Ａを有する第３のニューラルネットワーク１３と、を含んで構成される。図１に示すように、ニューラルネットワーク１０は、第３のニューラルネットワーク１３の後ろに第１のニューラルネットワーク１１と第２のニューラルネットワーク１２とが並列に接続された層構造を有する。第１のニューラルネットワーク１１、第２のニューラルネットワーク１２及び第３のニューラルネットワーク１３の各々は、ニューラルネットワーク１０を構成しているサブネットワークである。

　ニューラルネットワーク１０は、第３のニューラルネットワーク１３及び第１のニューラルネットワーク１１を用いて第１の認識処理を行う第１の認識処理経路と、第３のニューラルネットワーク１３及び第２のニューラルネットワーク１２を用いて第２の認識処理を行う第２の認識処理経路と、を含む。

　第３のニューラルネットワーク１３は、第１の識別処理と第２の識別処理の両方に共通する処理を担う共通処理部に相当する。第３のニューラルネットワーク１３は、第１のニューラルネットワーク１１及び第２のニューラルネットワーク１２への入力要素を出力するニューラルネットワークである。

　第３のニューラルネットワーク１３は、入力層１０Ａの他に、畳み込み層及びプーリング層をそれぞれ１層以上含んで構成される。

　第１のニューラルネットワーク１１は、第３のニューラルネットワーク１３から出力された要素が入力されるニューラルネットワークである。第１のニューラルネットワーク１１は、第１の正解形態に対応した第１の出力ＯＰ１を生成するニューラルネットワークである。図１において、第１のニューラルネットワーク１１から得られる第１の出力ＯＰ１を「出力１」と表記した。

　第１のニューラルネットワーク１１は、例えば、畳み込み層、及び全結合層のうちの少なくとも１種の層を１層以上含んで構成される。第１のニューラルネットワーク１１は、畳み込み層、及び全結合層の各層をそれぞれ１層以上含んでもよい。第１のニューラルネットワーク１１は、畳み込み層として「１×１の畳み込み」を行う畳み込み層を含んでもよい。１×１の畳み込みは、複数の特徴量のチャネルごとの特徴マップを、「１×１」のフィルタを用いて、まとめる処理である。また、第１のニューラルネットワーク１１は、プーリング層を含んでもよい。

　第２のニューラルネットワーク１２は、第３のニューラルネットワーク１３から出力された要素が入力されるニューラルネットワークである。第２のニューラルネットワーク１２は、第２の正解形態に対応した第２の出力ＯＰ２を生成するニューラルネットワークである。第２のニューラルネットワーク１２は、第１のニューラルネットワーク１１とは異なるニューラルネットワークである。第２の正解形態は、第１の正解形態とは異なる正解形態である。図１において、第２のニューラルネットワーク１２から得られる第２の出力ＯＰ２を「出力２」と表記した。

　第２のニューラルネットワーク１２は、例えば、畳み込み層、及び全結合層のうちの少なくとも１種の層を１層以上含んで構成される。第２のニューラルネットワーク１２は、畳み込み層、及び全結合層の各層をそれぞれ１層以上含んでもよい。第２のニューラルネットワーク１２は、畳み込み層として「１×１の畳み込み」を行う畳み込み層を含んでもよい。

　第１のニューラルネットワーク１１及び第２のニューラルネットワーク１２の各々が「１×１の畳み込み」を行う畳み込み層を含む構成が好ましい。

　ニューラルネットワーク１０から得られる２種類の出力に対応して、「第１の正解形態」と「第２の正解形態」の２種類の正解形態がある場合、入力画像を「Ｉ」、第１の正解形態の正解ラベルを「Ｌ１」、第２の正解形態の正解ラベルを「Ｌ２」と表記すると、畳み込みニューラルネットワーク１０の学習に使用するデータセットは、｛Ｉ，Ｌ１｝、｛Ｉ，Ｌ２｝及び｛Ｉ，Ｌ１，Ｌ２｝の組み合わせを含む集合により構成される。「データセット」は、「学習用データ群」と同義である。「正解ラベル」は、「正解データ」と同義である。

　以後、第１の正解形態の正解ラベルを「第１の正解データ」といい、符号Ｌ１で示す。第２の正解形態の正解ラベルを「第２の正解データ」といい、符号Ｌ２で示す。図１において、第１の正解データＬ１を「正解１」と表記し、第２の正解データＬ２を「正解２」と表記した。

　図２は、入力画像に対応した２種類の正解形態の簡単な例である。図２には、入力画像Ｉと、これに対応する第１の正解データＬ１及び第２の正解データＬ２の例が示されている。入力画像Ｉは、認識対象５０の画像領域を含む。図２では、図示の簡略化のために、認識対象５０としての顔を模した顔図形の絵柄を例示したが、認識対象５０は、顔に限らない。例えば、入力画像としての内視鏡画像を扱う場合、認識対象は病変領域であってもよい。画像認識の用途に応じて、様々な認識対象を想定し得る。また、認識対象は、画像内に複数含まれていてもよい。

　第１の正解データＬ１は、認識対象５０の画像領域を特定したマスク画像６１を含むものであってよい。例えば、マスク画像６１は、認識対象５０の画像領域の輪郭を外縁とする画像領域であってもよい。マスク画像６１は、認識対象５０の画像領域を画素単位により抽出した認識対象領域であってよい。

　第２の正解データＬ２は、認識対象５０の画像領域と重なる矩形領域６２を含むものであってよい。矩形領域６２は、バウンディングボックス（Bounding Box）と呼ばれる場合がある。矩形領域６２は、認識対象５０の画像領域を内包する大きさであってもよい。矩形領域６２は、認識対象５０の画像領域の少なくとも一部と重なるものであればよく、認識対象５０の画像領域の一部は、矩形領域６２からはみ出していてもよい。

　図１に示した第３のニューラルネットワーク１３と第１のニューラルネットワーク１１とが組み合わされたニューラルネットワークは、例えば、入力画像Ｉから認識対象の画像領域を抽出するセグメンテーションを行う。第１のニューラルネットワーク１１は、第１の出力ＯＰ１としての認識対象領域を出力し得る。

　第３のニューラルネットワーク１３と第２のニューラルネットワーク１２とが組み合わされたニューラルネットワークは、例えば、入力画像Ｉから認識対象の画像領域を含んだ大まかに囲んだ矩形領域を出力し得る。

　《第１実施形態に係るニューラルネットワークの学習方法の概要》
　ニューラルネットワーク１０の学習方法の一例を概説する。本発明の第１実施形態に係るニューラルネットワークの学習方法は、次のステップ１からステップ５を含む。

　［ステップ１］まず、学習に使用する学習用データ群を用意する。学習に使用する学習用データ群は、予め用意された学習用サンプルのデータ全体であってもよいし、予め用意された学習用サンプルのデータ全体から取得された一部のデータ群であってもよい。学習用データ群は、複数の学習用サンプルを含む。

　予め用意された学習用サンプルのデータ全体から一部のデータ群を選び出すステップは「第１の学習用データ群から第２の学習用データ群を選び出すステップ」の一例である。この場合、「予め用意された学習用サンプルのデータ全体」が「第１の学習用データ群」に相当し、「一部のデータ群」が「第２の学習用データ群」に相当する。

　１つの学習用サンプルは、学習用入力画像と、少なくとも１つの正解形態の正解データとの組み合わせから成る。ここでは、第１の正解形態として、認識対象領域を詳細に抽出したマスク画像を例示する。「詳細に抽出」とは、例えば、認識対象の正確な輪郭を外縁とする輪郭線で囲まれた認識対象領域を抽出することを指す。マスク画像のマスク領域は、学習用入力画像内の特定領域である認識対象領域の各画素と対応するものに相当する。

　また、第２の正解形態として、認識対象領域を概略的に特定するよう矩形領域によって簡素に抽出した矩形画像を例示する。第２の正解形態は、第１の正解形態に比べて、認識対象領域を「大雑把に」又は「粗く」抽出したものに相当する。

　１つの学習用入力画像に対して、第１の正解形態と第２の正解形態の両方の正解データが与えられていてもよいし、いずれか一形態の正解データのみが与えられていてもよい。学習に使用する学習用データ群の中に、第１の正解形態と第２の正解形態とが混在していればよい。

　［ステップ２］ステップ１で用意したラベル付き学習用サンプルの学習用入力画像をニューラルネットワーク１０に入力し、ニューラルネットワーク１０を用いてセグメンテーションを行う。

　［ステップ３］学習用入力画像に対応付けられた正解形態がマスク画像の場合、第３のニューラルネットワーク１３及び第１のニューラルネットワーク１１からなるニューラルネットワークについて、通常のＣＮＮを用いた学習処理と同様の重みの更新処理を行うことができる。すなわち、第１のニューラルネットワーク１１の出力について、損失関数を用いて誤差を算出し、フィードバックを行う。ここでのフィードバックは、算出した誤差に基づき、第１のニューラルネットワーク１１と第３のニューラルネットワーク１３の重みを更新する処理を含む。

　第１のニューラルネットワーク１１の出力を取得するステップは「出力取得ステップ」及び「第１の出力取得ステップ」の一例である。損失関数を用いて誤差を算出することは、ニューラルネットワークの出力を評価することに相当する。損失関数は「評価関数」に相当する。損失関数を用いた誤差の算出を行うステップは「評価ステップ」及び「第１の評価ステップ」の一例である。「第１のニューラルネットワーク１１と第３のニューラルネットワーク１３の重みを更新する処理」のステップは、「重み更新ステップ」及び「第１の重み更新ステップ」の一例である。

　［ステップ４］学習用入力画像に対応付けられた正解形態が矩形領域の場合、ニューラルネットワーク１０の中間層の出力に、畳み込み処理を行った後に、損失関数を用いて誤差を算出し、フィードバックを行う。すなわち、算出した誤差に基づき、第２のニューラルネットワーク１２と第３のニューラルネットワーク１３の重みを更新する処理を行う。

　第２のニューラルネットワーク１２の出力を取得するステップは「出力取得ステップ」及び「第２の出力取得ステップ」の一例である。第２のニューラルネットワーク１２からの出力に対して損失関数を用いた誤差の算出を行うステップは「評価ステップ」及び「第２の評価ステップ」の一例である。「第２のニューラルネットワーク１２と第３のニューラルネットワーク１３の重みを更新する処理」のステップは、「重み更新ステップ」及び「第２の重み更新ステップ」の一例である。

　［ステップ５］上述したステップ２からステップ４を、ニューラルネットワーク１０の重みが収束するまで繰り返し行う。

　ステップ２からステップ４の処理は、ミニバッチの単位で実施することができる。

　〈ミニバッチ学習について〉
　ミニバッチは、予め用意された学習用データ群の部分集合であり、予め用意された学習用データ群の全体の中から選ばれた複数の学習用サンプルにより構成される学習用データ群である。ミニバッチ学習は、ミニバッチに含まれる全ての学習サンプルを用いて各学習サンプルについて出力と正解との誤差を評価し、これらの誤差の評価結果を利用して、ミニバッチ単位によりニューラルネットワークの重みをまとめて更新する手法である。ミニバッチは「第２の学習用データ群」の一例である。

　図３は、予め用意された学習用データ群の例である。ここでは、説明を簡単にするために、学習用データ群の全体がＡ～Ｇの７つの学習用サンプルの集合である場合を説明する。学習用サンプルは、入力用画像データと、これに対応する正解データとの組み合わせから構成される学習用データある。学習用サンプルには、第１の正解形態と第２の正解形態のそれぞれに対応した２つの正解データが含まれている場合と、第１の正解形態と第２の正解形態のうちどちらか１形態のみの正解データが含まれている場合とがあり得る。

　図３に示した図表において「名前」は、個々の学習用サンプルを識別する識別名を意味する。「入力」は「入力用画像データ」を意味する。「正解１」は第１の正解形態の正解データ（第１の正解データ）を意味する。「正解２」は第２の正解形態の正解データ（第２の正解データ）を意味する。「有」は、データが存在することを表す。「無」はデータが存在しないことを表す。

　例えば、学習用サンプルＡは、入力用画像データと、第１の正解データと、第２の正解データとを含む。学習用サンプルＡは、入力用画像データに、第１の正解形態と第２の正解形態のそれぞれに対応した２つの正解データが関連付けされている学習用データである。学習用サンプルＡは、第１の正解データが付された学習用サンプルとして用いることができ、かつ、第２の正解データが付された学習用サンプルとして用いることができる。学習用サンプルＡは、実質的に２つの学習用サンプルであると見做すこともできる。

　学習用サンプルＢは、入力用画像データに対して、第１の正解形態に対応した正解データが存在せず、第２の正解形態に対応した正解データのみを有していることを表す。

　学習用サンプルＡ、Ｄ、Ｅ、Ｇはそれぞれ「第１の学習用サンプル」の例である。学習用サンプルＡ、Ｂ、Ｃ、Ｅ、Ｆはそれぞれ「第２の学習用サンプル」の例である。

　〈ミニバッチの形成例１〉
　ミニバッチを形成する際の条件の一例として、「１ミニバッチに複数の正解形態を必ず含める」というミニバッチ条件１を満たすようミニバッチを形成する態様があり得る。図３に示した学習用データ群の全体からミニバッチ条件１を満たして形成するミニバッチの例を表１に示す。

　なお、表１では、学習回数として３回目までを示したが、学習回数については、特に制限はない。

　このように、各ミニバッチ内に複数の正解形態を混在させ、ミニバッチに属する学習用サンプルをすべて用いて学習を行う態様により、ミニバッチの学習単位により第１のニューラルネットワーク１１、第２のニューラルネットワーク１２及び第３のニューラルネットワーク１３の各ニューラルネットワークの重みを、更新していくことができる。

　表１に示したように、ミニバッチ条件１に従うミニバッチ学習を複数回実施することにより、第１の正解形態を用いた学習が少なくとも２回実施され、その２回の間に、第２の正解形態を用いた学習が少なくとも１回実施される。

　〈ミニバッチの形成例２〉
　ミニバッチを形成する際の他の条件の例として、「ミニバッチ間で複数の正解形態を入れ替える」というミニバッチ条件２を満たすようミニバッチを形成する態様があり得る。図３に示した学習用データ群の全体からミニバッチ条件２を満たして形成するミニバッチの例を表２に示す。

　表２では、学習回数として３回目までを示したが、学習回数については、特に制限はない。

　このように、異なるミニバッチ間で複数の正解形態を混在させることにより、ミニバッチの学習単位で複数の正解形態を交互に用いて、第１のニューラルネットワーク１１、第２のニューラルネットワーク１２及び第３のニューラルネットワーク１３の各ニューラルネットワークの重みを、更新していくことができる。

　表２に示したように、ミニバッチ条件２に従うミニバッチ学習を複数回実施することにより、第１の正解形態を用いた学習が少なくとも２回実施され、その２回の間に、第２の正解形態を用いた学習が少なくとも１回実施される。

　《第２実施形態》
　ここでは内視鏡画像から病変領域を認識するための画像認識装置への適応を想定した具体例について説明する。学習用入力画像は、内視鏡で撮影された画像、若しくは、表示装置の画面に表示された内視鏡画像をキャプチャしたキャプチャ画面であってもよい。

　第１の正解形態は、病変領域を詳細に示したマスク画像である。第２の正解形態は、病変領域を簡素に示した矩形画像である。「病変領域」は「画像内の特定領域」の一例である。

　図４は、ニューラルネットワークの学習方法の例を示すフローチャートである。図４に示した処理プロセスの各ステップは、コンピュータを用いて実行される。コンピュータは、プログラムを実行することにより、学習装置として機能し得る。コンピュータは、ＣＰＵ（Central Processing Unit）及びメモリを備える。コンピュータは、ＧＰＵ（Graphics Processing Unit）を含んでもよい。以下、ニューラルネットワーク１０の学習処理を行う信号処理装置を「学習装置」という。なお、「学習装置」は「画像処理装置」と言い換えてもよい。

　ステップＳ１１において、学習装置は、学習用データ群から複数の学習用サンプルを選択してミニバッチを形成する。学習用データ群は予め用意され、学習装置の内部記憶装置、又は学習装置に接続される外部記憶装置に格納されている。外部記憶装置は、例えば、メモリカードなどの可搬型記憶メディアであってもよいし、通信回線を介して接続される外付けハードディスク装置などであってもよい。また、外部記憶装置は、通信回線を介して接続される他のコンピュータの記憶装置であってもよい。

　学習装置は、プログラムに従って学習用データ群から自動的にミニバッチを形成し得る。或いは、学習装置は、ユーザによって入力装置などから学習用サンプルを選択する指示が与えられることにより、その入力された指示に従ってミニバッチを形成してもよい。ミニバッチの形成に際しては、上述したミニバッチ条件１又はミニバッチ条件２に従う。ステップＳ１１のミニバッチを形成するステップは「第２の学習用データ群を選び出すステップ」の一例である。

　ステップＳ１２において、学習装置は、ミニバッチに含まれる学習用サンプルの学習用入力画像をニューラルネットワーク１０に入力して第１の出力ＯＰ１及び第２の出力ＯＰ２を取得する。

　ステップＳ１２において、ミニバッチからニューラルネットワーク１０に入力する入力画像を選択するステップは「選択ステップ」の一例である。また、ステップＳ１２は「出力取得ステップ」の一例である。

　ステップＳ１３において、学習装置は、第１の正解形態に係る第１の正解データと第１の出力ＯＰ１との誤差、及び第２の正解形態に係る第２の正解データと第２の出力ＯＰ２との誤差を算出する。誤差の算出方法は、例えば、二乗誤差、又は、交差エントロピーなどがあり得る。ステップＳ１３は「評価ステップ」の一例である。

　ステップＳ１２とステップＳ１３は、ミニバッチに含まれる全ての学習用入力画像について実施される。

　ステップＳ１４において、学習装置は、ステップＳ１３にて算出した誤差に基づいて、ニューラルネットワーク１０の重みを更新する。重みの更新量を算出する方法は、例えば、最急降下法などを採用し得る。第１の正解形態に関する誤差に基づいて算出された重みの更新量を使って、第１のニューラルネットワーク１１と第３のニューラルネットワーク１３の重みが更新される。第２の正解形態に関する誤差に基づいて算出された重みの更新量を使って、第２のニューラルネットワーク１２と第３のニューラルネットワーク１３の重みが更新される。

　或いはまた、第１の正解形態に関する誤差と、第２の正解形態に関する誤差とを重み付けして、第１のニューラルネットワーク１１、第２のニューラルネットワーク１２及び第３のニューラルネットワーク１３の各ニューラルネットワークの重みの更新量を算出してもよい。ステップＳ１４による重みの更新は、ミニバッチ単位で行われる。ステップＳ１４は「重み更新ステップ」の一例である。

　ステップＳ１５において、学習装置は、学習終了条件を満たすか否かの判定を行う。学習装置は、ステップＳ１５の判定処理にて、Ｎｏ判定の場合、すなわち、学習終了条件を満たさないと判定した場合は、ステップＳ１１に戻り、学習終了条件を満たすまで、ステップＳ１１からステップＳ１４を繰り返す。

　学習終了条件は、誤差の値に基づいて定められていてもよいし、更新回数に基づいて定められていてもよい。誤差の値に基づく方法としては、例えば、誤差が規定の範囲内に収束していることを学習終了条件としてよい。更新回数に基づく方法としては、例えば、更新回数が規定回数に到達したことを学習終了条件としてよい。

　なお、評価関数として用いる損失関数の重み付けは、更新回数に従って線形に変化させる態様、又は段階的に変化される態様があり得る。

　ステップＳ１５の判定処理にて、Ｙｅｓ判定の場合、すなわち、学習終了条件を満たしていると判定した場合は、ステップＳ１６に進む。

　ステップＳ１６において、学習装置は、ニューラルネットワークの重みを決定し、学習の処理を終了する。ステップＳ１６は「重み決定ステップ」の一例である。

　このようにして学習された重みを使うことにより、病変領域の詳細な抽出、すなわちセグメンテーション、及び／又は、病変領域の簡易的抽出（検出）を高精度で実施することが可能になる。

　また、学習終了後は、第２のニューラルネットワーク１２を使用せずに、第３のニューラルネットワーク１３と第１のニューラルネットワーク１１を使用してセグメンテーションを行うことも可能である。

　《学習装置の構成》
　図５は、学習装置の機能を示すブロック図である。学習装置１００は、信号処理装置１０２を備える。信号処理装置１０２は、記憶装置１３０に記憶されているデータを取得することができる。また、信号処理装置１０２は、記憶装置１３０にデータを記憶させることができる。

　記憶装置１３０は、学習用データ群記憶部１３２と、ミニバッチ記憶部１３４と、を含む。学習用データ群記憶部１３２は、学習に使用し得る学習用サンプルの全データが記憶されている記憶領域である。ミニバッチ記憶部１３４は、学習用データ群記憶部１３２に記憶された学習用サンプル全体の学習用データ群の中から選ばれた一部の学習用データ群であるミニバッチを記憶する記憶領域である。ミニバッチ記憶部１３４は、ミニバッチに属する学習用サンプルを記憶してもよいし、ミニバッチに属する学習用サンプルを特定するための情報を記憶してもよい。

　記憶装置１３０の記憶領域の一部又は全部は、信号処理装置１０２の内部に備えてもよい。記憶装置１３０は、学習装置１００に含まれてもよいし、学習装置１００とは別の外部装置、サーバ又はクラウドストレージなどであってよい。また、記憶装置１３０は、信号処理装置１０２が実行するプログラムを記憶する記憶領域を含んでいてもよい。

　学習装置１００は、入力装置１４０と、表示装置１４２と、を備えていることが好ましい。入力装置１４０と表示装置１４２は、ユーザインターフェースとして機能する。入力装置１４０は、例えば、操作ボタンやキーボード、マウス、タッチパネル、若しくは、音声入力装置、又はこれらの適宜の組み合わせであってよい。ユーザは、入力装置１４０を操作することにより、学習装置１００に各種の指示を入力することができる。信号処理装置１０２は、入力装置１４０から入力された指示に応じて各種処理を実行し得る。

　表示装置１４２は、例えば、液晶ディスプレイ、有機ＥＬ（organic electro-luminescence:ＯＥＬ）ディスプレイ、若しくは、プロジェクタ、又はこれらの適宜の組み合わせであってよい。表示装置１４２は、信号処理装置１０２の処理に必要な各種設定情報、又は、処理結果を示す情報などの各種情報を表示し得る。

　信号処理装置１０２は、ミニバッチ形成部１０４と、学習用サンプル選択部１０６と、ニューラルネットワーク１０と、を含む。また、信号処理装置１０２は、第１の出力取得部１１０と、第１の誤差算出部１１１と、第１の重み更新量算出部１１２と、第１の重み更新処理部１１４と、第２の出力取得部１２０と、第２の誤差算出部１２１と、第２の重み更新量算出部１２２と、第２の重み更新処理部１２４と、重み決定部１２６と、を含む。

　ミニバッチ形成部１０４は、予め定められた条件に従い、学習用サンプルを選択してミニバッチを形成する処理を行う。ミニバッチを形成条件は、例えば、既に説明した「ミニバッチ条件１」或いは「ミニバッチ条件２」のようなものである。ミニバッチ形成部１０４は、学習用データ群記憶部１３２に記憶されている学習用データ群からプログラムに従って、自動的にミニバッチを形成し得る。或いはまた、ミニバッチ形成部１０４は、ユーザの操作に応じて入力装置１４０から与えられる指示に従ってミニバッチを形成し得る。ミニバッチ形成部１０４は「学習用データ群選択部」の一例である。

　学習用サンプル選択部１０６は、学習用データ群記憶部１３２又はミニバッチ記憶部１３４から、学習に使用する１つ又は複数の学習用サンプルを選択する処理を行う。学習用サンプル選択部１０６は、ミニバッチから、ニューラルネットワーク１０に入力する学習用サンプルを順次に選択する処理を行う。学習用サンプル選択部１０６は、学習用データ群記憶部１３２に記憶された学習用データ群の中から学習に使用する学習用サンプルを選択してもよい。学習用サンプル選択部１０６によって選択された学習用サンプルの学習用入力画像は、ニューラルネットワーク１０に入力される。学習用サンプル選択部１０６は、「選択部」の一例である。

　第１の出力取得部１１０は、第１のニューラルネットワーク１１から出力された第１の出力ＯＰ１を取得する。第１の出力ＯＰ１は、第１の出力取得部１１０を介して、第１の誤差算出部１１１に入力される。第１の出力取得部１１０は、第１の誤差算出部１１１の入力部であってよい。

　第１の誤差算出部１１１は、ニューラルネットワーク１０に入力された学習用入力画像に対応した第１の正解データＬ１と、実際に、第１のニューラルネットワーク１１から得られた第１の出力ＯＰ１との誤差を算出する。第１の誤差算出部１１１によって算出された誤差は、第１の重み更新量算出部１１２に送られる。第１の誤差算出部１１１は「第１の評価部」の一例である。

　第１の重み更新量算出部１１２は、第１の誤差算出部１１１にて算出された誤差を基に、第１のニューラルネットワーク１１及び第３のニューラルネットワーク１３の各々の重みの更新量を算出する。第１の重み更新量算出部１１２は、ミニバッチ単位で重みの更新量を算出する。

　第１の重み更新処理部１１４は、第１の重み更新量算出部１１２によって算出した更新量に従い、第１のニューラルネットワーク１１及び第３のニューラルネットワーク１３の各々の重みを更新する処理を行う。第１の重み更新処理部１１４は、ミニバッチ単位で重みの更新処理を行う。第１の重み更新処理部１１４は、「第１の更新部」の一例である。

　第２の出力取得部１２０は、第２のニューラルネットワーク１２から出力された第２の出力ＯＰ２を取得する。第２の出力ＯＰ２は、第２の出力取得部１２０を介して、第２の誤差算出部１２１に入力される。第２の出力取得部１２０は、第２の誤差算出部１２１の入力部であってよい。第２の出力取得部１２０と第１の出力取得部１１０の組み合わせは「出力取得部」の一例である。

　第２の誤差算出部１２１は、ニューラルネットワーク１０に入力された学習用入力画像に対応した第２の正解データＬ２と、実際に、第２のニューラルネットワーク１２から得られた第２の出力ＯＰ２との誤差を算出する。第２の誤差算出部１２１によって算出された誤差は、第２の重み更新量算出部１２２に送られる。第２の誤差算出部１２１は「第２の評価部」の一例である。第２の誤差算出部１２１と第１の誤差算出部１１１の組み合わせは「評価部」の一例である。

　第２の重み更新量算出部１２２は、第２の誤差算出部１２１にて算出された誤差を基に、第２のニューラルネットワーク１２及び第３のニューラルネットワーク１３の各々の重みの更新量を算出する。第２の重み更新量算出部１２２は、ミニバッチ単位で重みの更新量を算出する。

　第２の重み更新処理部１２４は、第２の重み更新量算出部１２２によって算出した更新量に従い、第２のニューラルネットワーク１２及び第３のニューラルネットワーク１３の各々の重みを更新する処理を行う。第２の重み更新処理部１２４は、ミニバッチ単位で重みの更新処理を行う。第２の重み更新処理部１２４は「第２の更新部」の一例である。第２の重み更新処理部１２４と第１の重み更新処理部１１４の組み合わせは「更新部」の一例である。

　重み決定部１２６は、予め定められた学習終了条件に従って学習を終了させ、ニューラルネットワーク１０の重みを決定する。

　〈変形例１〉
　第１の重み更新量算出部１１２の機能と第２の重み更新量算出部１２２の機能は、１つの「重み更新量算出部」として統合されてもよい。例えば、重み更新量算出部は、第１の誤差算出部１１１にて算出された誤差と、第２の誤差算出部１２１にて算出された誤差とを組み合わせた誤差に基づき、第１のニューラルネットワーク１１、第２のニューラルネットワーク１２及び第３のニューラルネットワーク１３の各々の重みの更新量を算出してもよい。

　また、第１の重み更新処理部１１４の機能と第２の重み更新処理部１２４の機能は、１つの「重み更新処理部」として統合されてもよい。例えば、重み更新処理部は、重み更新量算出部にて算出された更新量に従い、第１のニューラルネットワーク１１、第２のニューラルネットワーク１２及び第３のニューラルネットワーク１３の各々の重みを更新する処理を行う。

　〈変形例２〉
　重みの更新処理は、ミニバッチ単位で行う形態に限らず、ニューラルネットワーク１０に入力する学習用入力画像ごとに、重みの更新処理を実施してもよい。この場合、第１の重み更新量算出部１１２及び第２の重み更新量算出部１２２の各々は、ニューラルネットワーク１０に入力された学習用入力画像の１枚ごとに、重みの更新量を算出する。また、第１の重み更新処理部１１４及び第２の重み更新処理部１２４の各々は、ニューラルネットワーク１０に入力された学習用入力画像の１枚ごとに、ニューラルネットワーク１０の重みを更新する処理を行う。

　〈変形例３〉
　本発明に係るニューラルネットワークの学習方法は、ミニバッチ学習に限らず、学習用サンプルの１件ごとに逐次重みを更新するオンライン学習に適用することもできる。オンライン学習を行う場合、図５に示された信号処理装置１０２におけるミニバッチ形成部１０４は省略することができる。

　〈変形例４〉
　第２の正解形態は、矩形領域に限らず、他の多角形領域、円領域、若しくは楕円領域などであってもよい。

　《第３実施形態》
　図６は、ニューラルネットワークの学習方法の他の例を示すフローチャートである。図６に示すフローチャートは、ミニバッチ学習に適用されてもよいし、学習用サンプルの１件ごとに逐次重みを更新するオンライン学習に適用されてもよい。

　ステップＳ２２において、学習装置は、学習用データ群から学習用サンプルを選択する。ここでいう学習用データ群は、予め用意された学習用データ群の全体であってもよいし、その一部であってもよい。学習用データ群は、ミニバッチであってもよい。ただし、学習用データ群の中に、第１の正解形態と第２の正解形態のそれぞれの正解データが含まれているものとする。ステップＳ２２は「選択ステップ」の一例である。

　ステップＳ２４において、学習装置は、ステップＳ２２にて選択した学習用サンプルをニューラルネットワーク１０へ入力する。

　ステップＳ２６において、学習装置は、ニューラルネットワーク１０から第１の出力ＯＰ１及び第２の出力ＯＰ２の少なくとも１つの出力を取得する。ニューラルネットワーク１０は、入力された学習用入力画像に対して、常に、第１の出力ＯＰ１と第２の出力ＯＰ２の２種類の出力を取得してもよいし、正解データが存在する正解形態に対応した出力のみを取得してもよい。例えば、図３の学習用サンプルＢを用いた場合、第１の正解データが存在しないため、第１の出力ＯＰ１を得る演算を省略し、第２の出力ＯＰ２のみを取得してよい。ステップＳ２６は「出力取得ステップ」の一例である。

　図６のステップＳ２８において、学習装置は、入力に用いた学習用サンプルに第１の正解データがあるか否かを判定する。ステップＳ２６の判定処理にてＹｅｓ判定の場合、つまり、第１の正解データがあると判定した場合は、ステップＳ３０に進む。一方、ステップＳ２６の判定処理にてＮｏ判定の場合、つまり、第１の正解データが無いと判定した場合は、ステップＳ３３に進む。

　ステップＳ３０において、学習装置は、第１の正解データを用いて第１の出力ＯＰ１を評価する。評価は、損失関数を用いた誤差の算出を含む。ステップＳ３０は「評価ステップ」及び「第１の評価ステップ」の一例である。

　ステップＳ３２において、学習装置は、ステップＳ２０の評価結果を基に、ニューラルネットワーク１０の重みを更新する。ステップＳ３２は「更新ステップ」及び「第１の更新ステップ」の一例である。

　ステップＳ３３において、学習装置は、入力に用いた学習用サンプルに第２の正解データがあるか否かを判定する。ステップＳ３３の判定処理にてＹｅｓ判定の場合、つまり、第２の正解データがあると判定した場合は、ステップＳ３４に進む。

　ステップＳ３４において、学習装置は、第２の正解データを用いて第２の出力ＯＰ２を評価する。ステップＳ３４は「評価ステップ」及び「第２の評価ステップ」の一例である。

　ステップＳ３６において、学習装置は、ステップＳ３４の評価結果を基に、ニューラルネットワーク１０の重みを更新する。ステップＳ３６は「更新ステップ」及び「第２の更新ステップ」の一例である。

　ステップＳ３６の後、ステップＳ３８に進む。また、ステップＳ３３の判定処理にてＮｏ判定の場合、つまり、第２の正解データが無いと判定した場合は、ステップＳ３８に進む。

　ステップＳ３８において、学習装置は、学習終了条件を満たすか否かを判定する。ステップＳ３８の判定処理にてＮｏ判定の場合、つまり、学習終了条件を満たしていないと判定した場合は、ステップＳ２２に戻り、ステップＳ２２からステップＳ３８の処理を繰り返す。学習装置は、学習終了条件が満たされるまで、ステップＳ２２からステップＳ３８の処理を繰り返し実行する。

　ステップＳ３８の判定処理にてＹｅｓ判定の場合、つまり、学習終了条件を満たしていると判定した場合は、ステップＳ４０に進む。

　ステップＳ４０において、学習装置は、ニューラルネットワーク１０の重みを決定し、学習の処理を終了する。ステップＳ４０は「重み決定ステップ」の一例である。

　なお、図６では、第１の出力を評価してから第２の出力を評価する例を示したが、評価処理の順番は特に限定されない。第２の出力を評価してから第１の出力を評価してもよく、また、第１の出力の評価と第２の出力の評価を並列に処理してもよい。

　《第４実施形態》
　図７は、ニューラルネットワークの学習方法の他の例を示すフローチャートである。図７に示したフローチャートについて、図６に示したフローチャートと同一又は類似するステップには同一のステップ番号を付し、その説明は省略する。図６との相違点を説明する。

　図７に示したフローチャートは、図６と比較して、ステップＳ２０とステップＳ３９が追加されており、図６のステップＳ２２に代えて、ステップＳ２２Ｂを含む。

　ステップＳ２０において、学習装置は、第１の学習用データ群から第２の学習用データ群を選び出す処理を行う。第２の学習用データ群は、第１の学習用データ群の一部であってもよいし、全部であってもよい。例えば、ミニバッチ学習の場合、第２の学習用データ群は、ミニバッチに相当する。第１の学習用データ群は、用意された学習用データ群の全体であってよく、また、その一部であってもよい。

　ステップＳ２２Ｂにおいて、学習装置は、ステップＳ２０にて選び出された第２の学習用データ群から学習用サンプルを選択する。

　ステップＳ２４からステップＳ３８の処理は、図６と同様である。

　図７に示すフローチャートでは、ステップＳ３８の判定処理にてＮｏ判定である場合、ステップＳ３９に進む。

　ステップＳ３９において、学習装置は、第２の学習用データ群を変更するか否かを判定する。ステップＳ３９の判定処理にてＮｏ判定である場合、すなわち、第２の学習用データ群を変更しないと判定した場合は、第２の学習用データ群を変更せずに、ステップＳ２２Ｂに戻る。

　その一方、ステップＳ３９の判定処理にてＹｅｓ判定である場合、すなわち、第２の学習用データを変更すると判定した場合は、ステップＳ２０に戻り、第２の学習データ群を選び直す。

　《第５実施形態》
　図８は、ニューラルネットワークの学習方法の他の例を示すフローチャートである。ステップＳ５０において、学習装置は、第１の学習用データ群から第２の学習用データ群を選び出す。ステップＳ５０は、図７で説明したステップＳ２０と同様の処理である。

　次いで、ステップＳ５２において、学習装置は、ステップＳ５０にて選び出された第２の学習用データ群から学習用サンプルを選択する。ステップＳ５２は、図７で説明したステップＳ２２Ｂと同様の処理である。

　ステップＳ５４において、学習装置は、ステップＳ５２にて選択された学習用サンプルに第１の正解データがあるか否かを判定する。ステップＳ５４の判定処理にてＹｅｓ判定の場合、すなわち、学習用サンプルに第１の正解データが存在する場合は、ステップＳ５６に進む。

　ステップＳ５６において、学習装置は、ステップＳ５２にて選択された学習用サンプルに第２の正解データがあるか否かを判定する。ステップＳ５６の判定処理にてＹｅｓ判定の場合、すなわち、学習用サンプルに第１の正解データと第２の正解データの両方が存在する場合は、ステップＳ５８に進む。

　ステップＳ５８において、学習装置は、第１の正解形態と第２の正解形態の学習処理を行う。ステップＳ５８の処理内容は、図９及び図１０のフローチャートを用いて後述する。

　図８のステップＳ５６の判定処理にてＮｏ判定の場合、すなわち、学習用サンプルに第２の正解データが存在せず、第１の正解データのみが存在する場合は、ステップＳ６０に進む。ステップＳ６０において、学習装置は、第１の正解形態の学習処理を行う。ステップＳ６０の処理内容は、図１１のフローチャートを用いて後述する。

　図８のステップＳ５４の判定処理にてＮｏ判定の場合、すなわち、学習用サンプルに第１の正解データが存在せず、第２の正解データのみが存在する場合は、ステップＳ６２に進む。ステップＳ６２において、学習装置は、第２の正解形態の学習処理を行う。ステップＳ６２の処理内容は、図１２のフローチャートを用いて後述する。

　ステップＳ５８、ステップＳ６０、又はステップＳ６２の処理の後、ステップＳ７０に進む。

　ステップＳ７０において、学習装置は、学習終了条件を満たすか否かを判定する。ステップＳ７０の判定処理にてＮｏ判定の場合、つまり、学習終了条件を満たしていないと判定した場合は、ステップＳ７２に進む。

　ステップＳ７２において、学習装置は、第２の学習用データ群を変更するか否かを判定する。ステップＳ７２の判定処理にてＮｏ判定である場合、すなわち、第２の学習用データ群を変更しないと判定した場合は、第２の学習用データ群を変更せずに、ステップＳ５２に戻る。

　その一方、ステップＳ７２の判定処理にてＹｅｓ判定である場合、すなわち、第２の学習用データを変更すると判定した場合は、ステップＳ５０に戻り、第２の学習データ群を選び直す。

　ステップＳ７０の判定処理にてＹｅｓ判定である場合、つまり、学習終了条件を満たしていると判定した場合は、ステップＳ７４に進む。

　ステップＳ７４において、学習装置は、ニューラルネットワーク１０の重みを決定し、学習の処理を終了する。

　〈第１の正解形態と第２の正解形態の学習処理〉
　図９は、図８のステップＳ５８に適用される処理内容の例を示すフローチャートである。図９のステップＳ１０１において、学習装置は、第１の学習用入力データをニューラルネットワーク１０へ入力する。ここでいう「第１の学習用入力データ」は、図８のステップＳ５２にて選択された学習用サンプルの入力用データとしての学習用入力画像を指す。

　図９のステップＳ１０２において、学習装置は、ニューラルネットワーク１０から第１の出力及び第２の出力を取得する。学習装置は、第１の学習用入力データについてニューラルネットワーク１０を用いた処理を行い、第１の出力及び第２の出力をそれぞれ得る。ステップＳ１０２は「出力取得ステップ」の一例である。

　ステップＳ１０３において、学習装置は、第１の出力を評価する。学習装置は、ステップＳ１０２にて取得した第１の出力と、第１の学習用入力データに対応付けられている第１の正解データと誤差を算出し、第１の出力を評価する。ステップＳ１０３は「評価ステップ」及び「第１の評価ステップ」の一例である。

　ステップＳ１０４において、学習装置は、ステップＳ１０３の評価結果を基に、ニューラルネットワークの重みを更新する。学習装置は、ステップＳ１０３の評価結果から、第１のニューラルネットワーク１１及び第３のニューラルネットワーク１３の各ニューラルネットワークの重みの更新量を算出し、算出した更新量に従い重みを更新する。ステップＳ１０４は「更新ステップ」及び「第１の更新ステップ」の一例である。

　ステップＳ１０５において、学習装置は、第２の出力を評価する。学習装置は、ステップＳ１０２にて取得した第２の出力と、第１の学習用入力データに対応付けられている第２の正解データと誤差を算出し、第２の出力を評価する。ステップＳ１０５は「評価ステップ」及び「第２の評価ステップ」の一例である。

　ステップＳ１０６において、学習装置は、ステップＳ１０５の評価結果を基に、ニューラルネットワークの重みを更新する。学習装置は、ステップＳ１０５の評価結果から、第２のニューラルネットワーク１２及び第３のニューラルネットワーク１３の各ニューラルネットワークの重みの更新量を算出し、算出した更新量に従い重みを更新する。ステップＳ１０６は「更新ステップ」及び「第２の更新ステップ」の一例である。

　学習装置は、ステップＳ１０６の終了後、図８のフローチャートに復帰する。

　なお、図９で説明したステップＳ１０５をステップＳ１０３よりも前に実施してもよい。その場合、ステップＳ１０６をステップＳ１０４よりも前に実施してもよい。

　図１０は、図８のステップＳ５８に適用される処理内容の他の例を示すフローチャートである。図１０において、図９に示したフローチャートと同一又は類似のステップには同一の符号を付し、その説明は省略する。図１０に示したフローチャートは、図９に示したフローチャートのステップＳ１０４とステップＳ１０６が省略され、代わって、ステップＳ１０５の後にステップＳ１０７が追加されている。

　ステップＳ１０７において、学習装置は、ステップＳ１０３にて得られた評価結果と、ステップＳ１０５にて得られた評価結果とに基づいて、ニューラルネットワークの重みを更新する。学習装置は、ステップＳ１０３の評価結果とステップＳ１０５の評価結果から、第１のニューラルネットワーク１１、第２のニューラルネットワーク１２及び第３のニューラルネットワーク１３の各ニューラルネットワークの重みの更新量を算出し、算出した更新量に従い重みを更新する。

　学習装置は、ステップＳ１０７の終了後、図８のフローチャートに復帰する。

　〈第１の正解形態の学習処理〉
　図１１は、図８のステップＳ６０に適用される処理内容を示すフローチャートである。

　図１１のステップＳ１１１において、学習装置は、第１の学習用入力データをニューラルネットワーク１０へ入力する。ステップＳ１１２において、学習装置は、ニューラルネットワーク１０から第１の出力を取得する。学習装置は、第１の学習用入力データについてニューラルネットワーク１０を用いた処理を行い、第１の出力を得る。

　ステップＳ１１３において、学習装置は、第１の出力を評価する。学習装置は、ステップＳ１１２にて取得した第１の出力と、第１の学習用入力データに関連付けられている第１の正解データと誤差を算出し、第１の出力を評価する。

　ステップＳ１１４において、学習装置は、ステップＳ１１３の評価結果を基に、ニューラルネットワークの重みを更新する。学習装置は、ステップＳ１１３の評価結果から、第１のニューラルネットワーク１１及び第３のニューラルネットワーク１３の各ニューラルネットワークの重みの更新量を算出し、算出した更新量に従い重みを更新する。

　〈第２の正解形態の学習処理〉
　図１２は、図８のステップＳ６２に適用される処理内容を示すフローチャートである。

　図１２のステップＳ１２１において、学習装置は、第２の学習用入力データをニューラルネットワーク１０へ入力する。ここでいう「第２の学習用入力データ」は、図８のステップＳ５２にて選択された学習用サンプルの入力用データとしての学習用入力画像を指す。「第２の学習用入力データ」は、第２の正解データが関連付けられている学習用入力データであることを示している。

　ステップＳ１２２において、学習装置は、ニューラルネットワーク１０から第２の出力を取得する。学習装置は、第２の学習用入力データについてニューラルネットワーク１０を用いた処理を行い、第２の出力を得る。

　ステップＳ１２３において、学習装置は、第２の出力を評価する。学習装置は、ステップＳ１２２にて取得した第２の出力と、第２の学習用入力データに関連付けられている第２の正解データと誤差を算出し、第２の出力を評価する。誤差の算出には、損失関数が用いられる。

　ステップＳ１２４において、学習装置は、ステップＳ１２３の評価結果を基に、ニューラルネットワークの重みを更新する。学習装置は、ステップＳ１２３の評価結果から、第２のニューラルネットワーク１２及び第３のニューラルネットワーク１３の各ニューラルネットワークの重みの更新量を算出し、算出した更新量に従い重みを更新する。

　学習装置は、ステップＳ１２４の終了後、図８のフローチャートに復帰する。

　《本発明の実施形態に係るニューラルネットワークの学習方法及び学習装置の利点》
　第１実施形態から第５実施形態として説明したように、本発明の実施形態に係るニューラルネットワークの学習方法及び学習装置によれば、例えば、次のような利点がある。

　（１）上述の各実施形態に係るニューラルネットワークの学習方法及び学習装置によれば、第１の正解形態を用いた学習と、第２の正解形態を用いた学習とを並行して行い、第１のニューラルネットワーク１１、第２のニューラルネットワーク１２及び第３のニューラルネットワーク１３の各ニューラルネットワークの重みの更新を繰り返すことにより、ニューラルネットワーク１０の重みが決定される。第２の正解形態を用いた学習による重み更新の効果が第１の正解形態についての認識精度の向上に寄与する。また、第１の正解形態を用いた学習による重み更新の効果が第２の正解形態についての認識精度の向上に寄与する。

　（２）第２の正解形態を含んだ学習用サンプルは、第１の正解形態についての認識精度の向上に役立ち、第１の正解形態を含んだ学習用サンプルは、第２の正解形態についての認識精度の向上に役立つ。第１の正解形態として例示した認識対象領域のマスク画像に比べて、第２の正解形態として例示した矩形領域は、正解データの作成が簡易であり、正解データの作成コストが低い。第１の正解形態に比べて正解データの作成コストが低い第２の正解形態を用いることにより、機械学習に必要な学習用データの準備負担を軽減することができる。良質な正解データが少ない場合でも、高い認識性能を持つニューラルネットワークを得ることができる。

　（３）第１の正解形態を含んだ学習用サンプルの数が比較的少ない場合であっても、第１の正解形態に関して高い認識性能を持つニューラルネットワークを得ることができる。例えば、セグメンテーションのタスクを主目的とする場合に、認識対象領域を詳細に特定したマスク画像の正解データは良質な正解データに相当し、認識対象領域を簡素に（粗く）特定した矩形領域の正解データは低質な正解データに相当する。本発明の実施形態に係るニューラルネットワークの学習方法及び学習装置によれば、良質な正解データが少ない場合であっても高い認識性能を持つニューラルネットワークを得ることができる。学習済みのニューラルネットワークは、「学習済みモデル」と呼ばれる。学習済みモデルは、認識処理を行うプログラムモジュールと理解してもよく、学習済みモデルは、「認識器」、「識別器」、「判別器」又は「検出器」の概念を含む。

　（４）上述の各実施形態に係るニューラルネットワークの学習方法及び学習装置によれば、高い認識性能を持つ学習済みモデルを、低コストにより得ることができる。

　《学習済みのニューラルネットワークを用いた画像認識装置の例１》
　図１３は、学習済みのニューラルネットワークを用いた画像認識装置の例１を示すブロック図である。画像認識装置２００は、学習済みのニューラルネットワーク２１０を備える。学習済みのニューラルネットワーク２１０は、既述した本発明の実施形態に係るニューラルネットワークの学習方法を使用して学習されたニューラルネットワーク１０である。学習済みのニューラルネットワーク２１０は「学習済みモデル」の一例である。

　画像認識装置２００は、入力画像に対して２形態の認識結果を出力し得る。画像認識装置２００は、コンピュータを用いて実現することができる。画像認識装置２００は、表示装置２４２と接続され得る。

　画像認識装置２００に画像を入力すると、学習済みのニューラルネットワーク２１０によって処理が行われ、第１の認識結果と、第２の認識結果が出力される。第１の認識結果は、認識対象領域を詳細に抽出した情報を含む。第２の認識結果は、認識対象領域を簡素に抽出した情報を含む。第１の認識結果若しくは第２の認識結果又はこれらの両方は、表示装置２４２に表示される。

　画像認識装置２００は、図５で説明した学習装置１００がそのまま使われるものであってもよい。この場合、表示装置２４２は、図５に示した表示装置１４２であってよい。

　《学習済みのニューラルネットワークを用いた画像認識装置の例２》
　図１４は、学習済みのニューラルネットワークを用いた画像認識装置の例２を示すブロック図である。画像認識装置２０１は、学習済みのニューラルネットワーク２１１を備える。学習済みのニューラルネットワーク２１１は、既述した本発明の実施形態に係るニューラルネットワークの学習方法を使用して学習されたニューラルネットワーク１０の一部である第３のニューラルネットワーク１３と第１のニューラルネットワーク１１である。学習済みのニューラルネットワーク２１１は「学習済みモデル」の一例である。

　画像認識装置２０１は、入力画像に対して１形態の認識結果を出力する。画像認識装置２０１は、コンピュータを用いて実現することができる。

　画像認識装置２０１に画像を入力すると、学習済みのニューラルネットワーク２１１によって処理が行われ、第１の認識結果が出力される。第１の認識結果は、認識対象領域を詳細に抽出した情報を含む。第１の認識結果は、表示装置２４２に表示される。

　《学習用サンプルの作成機能》
　学習用入力データに正解データを関連付けて学習用サンプルを作成するための装置は、学習装置１００とは別のコンピュータを用いて構成することができる。また、学習装置１００が学習用サンプルを作成する機能を備えていてもよい。

　図１５は、学習装置に搭載される学習用サンプルの作成機能に関するブロック図である。図１５に示すように、学習装置１００は、学習用サンプル作成部１６０を含む。学習用サンプル作成部１６０は、学習用入力データ取得部１６１と、正解特定情報取得部１６２と、正解データ作成部１６４と、関連付け処理部１６６とを含む。

　学習用入力データ取得部１６１は、第１の正解形態及び第２の正解形態のうち少なくとも１形態についての正解データが未付与である学習用入力データを取り込む。学習用入力データ取得部１６１は、第１の正解形態及び第２の正解形態の２形態のどちらの正解データも未付与である学習用入力データを取得し得る。学習用入力データ取得部１６１は、学習用入力データ記憶部１３１から、学習用入力データを取得することができる。

　記憶装置１３０は、学習用入力データ記憶部１３１を含んでいてよい。学習用入力データ記憶部１３１は、第１の正解形態及び第２の正解形態のうち少なくとも１形態についての正解データが未付与である学習用入力データを記憶しておく記憶領域である。なお、学習用入力データ記憶部１３１は、記憶装置１３０とは異なる記憶装置によって構成されていてもよい。

　正解特定情報取得部１６２は、第１の正解特定情報取得部１６２Ａと第２の正解特定情報取得部１６２Ｂとを含む。第１の正解特定情報取得部１６２Ａは、入力装置１４０から与えられる第１の正解特定情報を取得する。第１の正解特定情報は、第１の正解形態の正解を特定する情報である。第１の正解特定情報は、例えば、認識対象領域の詳細な輪郭を指定する情報であってよい。ユーザは、表示装置１４２に表示される学習用入力データの画像を確認しながら、入力装置１４０を操作して、第１の正解形態の正解を特定する指示の入力を行うことができる。

　第２の正解特定情報取得部１６２Ｂは、入力装置１４０から与えられる第２の正解特定情報を取得する。第２の正解特定情報は、第２の正解形態の正解を特定する情報である。第２の正解特定情報は、例えば、認識対象領域を簡素に囲む矩形形状を指定する情報であってよい。ユーザは、表示装置１４２に表示される学習用入力データの画像を確認しながら、入力装置１４０を操作して、第２の正解形態の正解を特定する指示の入力を行うことができる。

　正解データ作成部１６４は、第１の正解データ作成部１６４Ａと第２の正解データ作成部１６４Ｂとを含む。第１の正解データ作成部１６４Ａは、第１の正解特定情報に基づき第１の正解データを作成する処理を行う。第１の正解データは、例えば、認識対象領域のマスク画像である。第２の正解データ作成部１６４Ｂは、第２の正解特定情報に基づき第２の正解データを作成する処理を行う。第２の正解データは、例えば、認識対象領域を囲む矩形領域である。

　関連付け処理部１６６は、学習用入力データ取得部１６１を介して取得した学習用入力データと、正解データ作成部１６４によって作成された正解データとを関連付ける処理を行い、正解データが付与された学習用サンプルを作成する。こうして作成された学習用サンプルは、記憶装置１３０の学習用データ群記憶部１３２に記憶される。

　《ユーザインターフェース画面の例》
　図１６から図２０は、学習用サンプルを作成する際に表示装置１４２に表示される画面の例である。

　図１６は、学習用サンプルの作成を開始する際に表示される操作画面の一例を示す図である。図１６に例示したウインドウ３００は、画像表示エリア３０１と、第１の正解データ作成ボタン３０４と、第２の正解データ作成ボタン３０６と、複数形態の正解データ作成ボタン３０８と、を含む。「ボタン」は、ＧＵＩ（graphical user interface）ボタンである。ＧＵＩボタンについて「押す」という表現には、クリックする、又はタッチするなど、ボタンに対応した指令の入力を行う動作が含まれる。

　画像表示エリア３０１には、学習用入力データ３０２の画像内容が表示される。ここでは、内視鏡画像を例示する。学習用入力データ３０２の画像内には、認識対象領域としての病変領域３０３が含まれている。なお、１枚の画像内に複数の病変領域が含まれる場合がある。

　第１の正解データ作成ボタン３０４は、第１の正解データを作成する際に選択されるボタンである。第２の正解データ作成ボタン３０６は、第２の正解データを作成する際に選択されるボタンである。複数形態の正解データ作成ボタン３０８は、第１の正解データと第２の正解データの両方を作成する際に選択されるボタンである。ユーザは、作成しようとする正解データの形態に応じて、所望のボタンを選択し得る。なお、既に付与済みの正解データが存在している場合には、付与済みの正解データのボタンは、グレーアウトにより、選択対象から外れていることが示される。

　第１の正解データ作成ボタン３０４が押されると、第１の正解データを作成するための操作画面が表示装置１４２に表示される。

　図１７は、第１の正解データを作成する際に表示される操作画面の一例を示す図である。図１７に例示したウインドウ３１０は、画像表示エリア３０１の他に、操作案内表示エリア３１４と、実行ボタン３１６と、キャンセルボタン３１７と、戻るボタン３１８と、を含む。

　操作案内表示エリア３１４には、ユーザに対して求められる操作内容のメッセージが表示される。ユーザは、入力装置１４０を用いて、病変領域３０３の輪郭３１３を指定する操作を行う。画像内に複数の病変領域が含まれている場合は、それぞれの病変領域について輪郭を指定することができる。

　実行ボタン３１６は、ユーザが指定した輪郭３１３に従って第１の正解データの作成を実行する指令を入力するボタンである。ユーザが輪郭３１３を指定した後、実行ボタン３１６を押すと、指定された輪郭３１３で囲まれた領域をマスクしたマスク画像を表す第１の正解データが作成される。

　キャンセルボタン３１７は、輪郭３１３の指定を取り消す際に選択されるボタンである。ユーザは、キャンセルボタン３１７を押すことによって、輪郭３１３の指定をやり直すことができる。ユーザが戻るボタン３１８を押すと、図１６の操作画面から図１５の操作画面に戻る。

　図１８は、正解データの確認画面の一例を示す図である。例えば、図１７において実行ボタン３１６が押されると、図１８に示すような確認画面が表示される。図１８に例示したウインドウ３２０は、画像表示エリア３０１にマスク画像３２４を含む第１の正解データ３２２の画像内容が表示される。なお、マスク画像３２４以外の画像領域については、元の画像内容をそのまま表示してもよいし、認識対象外の領域であることを表示するように、差別化表示してもよい。

　ウインドウ３２０は、保存ボタン３２６と、キャンセルボタン３２７と、戻るボタン３１８と、を含む。

　保存ボタン３２６は、作成された正解データを学習用入力データと関連付けて記憶装置１３０に保存する指令を入力するためのボタンである。キャンセルボタン３２７は、作成された正解データの保存を取り止める際に選択されるボタンである。キャンセルボタン３２７が押された場合は、図１７の操作画面に戻って、輪郭３１３の指定をやり直すことができる。

　図１９は、第２の正解データを作成する際に表示される操作画面の一例を示す図である。図１６に示した第２の正解データ作成ボタン３０６が押されると、第２の正解データを作成するための操作画面が表示装置１４２に表示される。

　図１９に例示したウインドウ３３０は、画像表示エリア３０１の他に、操作案内表示エリア３３４と、実行ボタン３３６と、キャンセルボタン３３７と、戻るボタン３１８と、を含む。

　操作案内表示エリア３３４には、ユーザに対して求められる操作内容のメッセージが表示される。ユーザは、入力装置１４０を用いて、病変領域３０３を簡素に囲む矩形枠３３３を指定する操作を行う。

　実行ボタン３３６は、ユーザが指定した矩形枠３３３に従って第２の正解データの作成を実行する指令を入力するボタンである。ユーザが矩形枠３３３を指定した後、実行ボタン３３６を押すと、指定された矩形枠３３３で囲まれた矩形領域を表す第２の正解データが作成される。キャンセルボタン３３７は、矩形枠３３３の指定を取り消す際に選択されるボタンである。

　図２０は、正解データの確認画面の一例を示す図である。例えば、図１９において実行ボタン３３６が押されると、図２０に示すような確認画面が表示される。図２０に例示したウインドウ３４０は、画像表示エリア３０１に矩形領域３４４を含む第２の正解データ３４２の画像内容が表示される。矩形領域３４４以外の画像領域については、元の画像内容をそのまま表示してもよいし、認識対象外の領域であることを表示するように、差別化表示してもよい。

　ウインドウ３４０は、保存ボタン３４６と、キャンセルボタン３４７と、戻るボタン３１８と、を含む。

　保存ボタン３４６は、作成された正解データを学習用入力データと関連付けて記憶装置１３０に保存する指令を入力するためのボタンである。キャンセルボタン３４７は、作成された正解データの保存を取り止める際に選択されるボタンである。キャンセルボタン３４７が押された場合は、図１９の操作画面に戻って、矩形枠３３３の指定をやり直すことができる。

　図１６に示した複数形態の正解データ作成ボタン３０８が押された場合は、図１７及び図１８で説明した第１の正解データを作成する際の操作手順と、図１９及び図２０で説明した第２の正解データを作成する際の操作手順の両方が段階的に実行される。

　図２１は、上述した学習用サンプル作成機能によって作成された学習サンプルの一例を示す概念図である。図２１に示した学習用入力データ３０２には、第１の正解データ３２２と第２の正解データ３４２とが関連付けられている。第２の正解データ３４２は、第１の正解データ３２２に比べて、簡易に作成することができる。

　《ニューラルネットワークの構造に関する他の形態》
　図１では、第１のニューラルネットワーク１１、第２のニューラルネットワーク１２及び第３のニューラルネットワーク１３から構成されるニューラルネットワーク１０を例示したが、本発明の適用に際して、ニューラルネットワークの構造については様々な形態があり得る。

　また、第１の正解形態と第２の正解形態の２形態の正解形態を用いる構成に限らず、３形態以上の正解形態を用いる構成も可能である。

　図２２は、ニューラルネットワークの他の形態例１を示す概念図である。図１に示したニューラルネットワーク１０に代えて、図２２に示すニューラルネットワーク４１０を用いてもよい。

　ニューラルネットワーク４１０は、図１に示したニューラルネットワーク１０の構成に加えて、第４のニューラルネットワーク１４を含む。第４のニューラルネットワーク１４は、第３のニューラルネットワーク１３から出力された要素が入力されるニューラルネットワークである。第４のニューラルネットワーク１４は、第４の正解形態に対応した第４の出力ＯＰ４を生成するニューラルネットワークである。図２２において、第４のニューラルネットワーク１４から得られる第４の出力ＯＰ４を「出力４」と表記した。第４の正解形態の正解ラベルを「第４の正解データ」といい、符号Ｌ４で示す。図２２において、第４の正解データＬ４を「正解４」と表記した。

　正解形態が３形態以上である場合についても、既述した２形態の例と同様の考え方を拡張して適用することができる。ニューラルネットワークの構造のみを示して、詳細な説明については省略する。

　図２３は、ニューラルネットワークの他の形態例２を示す概念図である。図１に示したニューラルネットワーク１０に代えて、図２３に示すニューラルネットワーク４２０を用いてもよい。

　ニューラルネットワーク４２０は、図１に示したニューラルネットワーク１０の構成に加えて、第５のニューラルネットワーク１５を含む。第５のニューラルネットワーク１５は、第３のニューラルネットワーク１３の中間層から出力された要素が入力されるニューラルネットワークである。第５のニューラルネットワーク１５は、第５の正解形態に対応した第５の出力ＯＰ５を生成するニューラルネットワークである。図２３において、第５のニューラルネットワーク１５から得られる第５の出力ＯＰ５を「出力５」と表記した。第５の正解形態の正解ラベルを「第５の正解データ」といい、符号Ｌ５で示す。図２３において、第５の正解データＬ５を「正解５」と表記した。

　図２４は、ニューラルネットワークの他の形態例３を示す概念図である。図１に示したニューラルネットワーク１０に代えて、図２４に示すニューラルネットワーク４３０を用いてもよい。

　ニューラルネットワーク４３０は、図１に示したニューラルネットワーク１０の構成に加えて、第６のニューラルネットワーク１６を含む。第６のニューラルネットワーク１６は、第２のニューラルネットワーク１２の中間層から出力された要素が入力されるニューラルネットワークである。第６のニューラルネットワーク１６は、第６の正解形態に対応した第６の出力ＯＰ６を生成するニューラルネットワークである。図２４において、第６のニューラルネットワーク１６から得られる第６の出力ＯＰ６を「出力６」と表記した。第６の正解形態の正解ラベルを「第６の正解データ」といい、符号Ｌ６で示す。図２４において、第６の正解データＬ６を「正解６」と表記した。

　図２４のように、第２のニューラルネットワーク１２は、第６のニューラルネットワーク１６への入力要素を出力する中間層を含む前半のサブネットワーク１２Ａと、後半のサブネットワーク１２Ｂとの組み合わせた構造であると把握される。

　この場合、後半のサブネットワーク１２Ｂが「第２のニューラルネットワーク」の一例に相当し、第６のニューラルネットワーク１６が「第１のニューラルネットワーク」の一例に相当し、第３のニューラルネットワーク１３とサブネットワーク１２Ａが「第３のニューラルネットワーク」の一例に相当すると解釈することも可能である。

　また、図２２から図２４に示した各形態を適宜組み合わせた構造を有するニューラルネットワークを採用してもよい。

　《実施形態及び変形例等の組み合わせについて》
　上述の各実施形態で説明した構成や変形例等で説明した事項は、適宜組み合わせて用いることができ、また、一部の事項を置き換えることもできる。

　《他の応用例》
　［１］本発明の実施に際しては、内視鏡画像から病変領域を認識する用途に限らず、様々な応用が可能である。例えば、本発明は、風景の画像を１又は複数の対象物の領域に分類するセグメンテーションを行う場合に用いることができる。

　［２］本発明は、ＣＴ（Computed Tomography）画像から特定の部位を認識する用途に用いることができる。入力データは、３次元データであってもよい。

　［３］本発明は、デジタルカメラを用いて撮影された画像から顔領域を抽出する用途に用いることができる。

　［４］本発明は、文書のデータから、文字領域及び／又は写真領域の抽出を行う用途に用いることができる。

　［５］本発明は、映像監視の分野に応用することができる。例えば、本発明は、監視カメラなどを用いて撮影される動画から、人物若しくは不審者等の抽出を行う用途に用いることができる。

　《各処理部のハードウェア構成について》
　図５で説明したミニバッチ形成部１０４、学習用サンプル選択部１０６、ニューラルネットワーク１０、第１の出力取得部１１０、第１の誤差算出部１１１、第１の重み更新量算出部１１２、第１の重み更新処理部１１４、第２の出力取得部１２０、第２の誤差算出部１２１、第２の重み更新量算出部１２２、第２の重み更新処理部１２４、重み決定部１２６、並びに、図１５で説明した学習用サンプル作成部１６０、学習用入力データ取得部１６１、第１の正解特定情報取得部１６２Ａ、第２の正解特定情報取得部１６２Ｂ、第１の正解データ作成部１６４Ａ、第２の正解データ作成部１６４Ｂ、及び関連付け処理部１６６などの各種の制御部並びに処理を実行する処理部（processing unit）のハードウェア的な構造は、例えば、次に示すような各種のプロセッサ（processor）である。

　各種のプロセッサには、プログラムを実行して各種の処理部として機能する汎用的なプロセッサであるＣＰＵ（Central Processing Unit）、ＦＰＧＡ（Field Programmable Gate Array）などの製造後に回路構成を変更可能なプロセッサであるプログラマブルロジックデバイス（Programmable Logic Device：ＰＬＤ）、ＡＳＩＣ（Application Specific Integrated Circuit）などの特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路などが含まれる。

　１つの処理部は、これら各種のプロセッサのうちの１つで構成されていてもよいし、同種又は異種の２つ以上のプロセッサで構成されてもよい。例えば、１つの処理部は、複数のＦＰＧＡ、或いは、ＣＰＵとＦＰＧＡの組み合わせによって構成されてもよい。また、複数の処理部を１つのプロセッサで構成してもよい。複数の処理部を１つのプロセッサで構成する例としては、第一に、クライアントやサーバなどのコンピュータに代表されるように、１つ以上のＣＰＵとソフトウェアの組み合わせで１つのプロセッサを構成し、このプロセッサが複数の処理部として機能する形態がある。第二に、システムオンチップ（System On Chip：ＳｏＣ）などに代表されるように、複数の処理部を含むシステム全体の機能を１つのＩＣ（Integrated Circuit）チップで実現するプロセッサを使用する形態がある。このように、各種の処理部は、ハードウェア的な構造として、上記各種のプロセッサを１つ以上用いて構成される。

　さらに、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子などの回路素子を組み合わせた電気回路（circuitry）である。

　《コンピュータのハードウェア構成の例》
　図２５は、学習装置若しくは画像認識装置、又はこれらの両方の機能を備えた装置として用いることができるコンピュータのハードウェア構成の例を示すブロック図である。コンピュータには、デスクトップ型、ノート型、又はタブレット型など、各種形態のコンピュータが含まれる。また、コンピュータには、サーバコンピュータであってもよいし、マイクロコンピュータであってもよい。

　コンピュータ５００は、ＣＰＵ５０１と、メモリ５０２と、記憶装置５０３と、入力インターフェース部５０４と、ネットワーク接続用の通信インターフェース部５０５と、表示制御部５０６と、周辺機器用インターフェース部５０７と、バス５０８と、を備える。図２５において「ＩＦ」の表記は「インターフェース」を表す。

　記憶装置５０３は、例えば、ハードディスク装置を用いて構成されてよい。記憶装置５０３には、学習処理及び／又は認識処理等の画像処理に必要な各種プログラムやデータ等が記憶されている。記憶装置５０３に記憶されているプログラムがメモリ５０２にロードされ、これをＣＰＵ５０１が実行することにより、コンピュータは、プログラムで規定される各種の処理を行う手段として機能する。記憶装置５０３は、図５で説明した記憶装置１３０として機能し得る。

　入力装置５１０は入力インターフェース部５０４に接続される。表示装置５２０は表示制御部５０６に接続される。入力装置５１０と表示装置５２０は、図５で説明した入力装置１４０と表示装置１４２として機能し得る。

　《コンピュータを動作させるプログラムについて》
　上述の実施形態で説明した学習装置の学習機能、及び、学習済みモデルを用いた画像認識装置の認識機能のうち少なくとも一方の処理機能をコンピュータに実現させるプログラムを光ディスク、磁気ディスク、若しくは、半導体メモリその他の有体物たる非一時的な情報記憶媒体であるコンピュータ可読媒体に記録し、この情報記憶媒体を通じてプログラムを提供することが可能である。またこのような有体物たる非一時的な情報記憶媒体にプログラムを記憶させて提供する態様に代えて、インターネットなどの電気通信回線を利用してプログラム信号をダウンロードサービスとして提供することも可能である。

　また、上述の実施形態で説明した学習装置の学習機能、及び、学習済みモデルを用いた画像認識装置の認識機能のうち少なくとも一方の処理機能の一部又は全部をアプリケーションサーバとして提供し、電気通信回線を通じて処理機能を提供するサービスを行うことも可能である。

　以上説明した本発明の実施形態は、本発明の趣旨を逸脱しない範囲で、適宜構成要件を変更、追加、又は削除することが可能である。本発明は以上説明した実施形態に限定されるものでは無く、本発明の技術的思想内で当該分野の通常の知識を有するものにより、多くの変形が可能である。

１０　ニューラルネットワーク
１０Ａ　入力層
１０Ｂ　中間層
１０Ｃ　第１の出力層
１０Ｄ　第２の出力層
１１　第１のニューラルネットワーク
１２　第２のニューラルネットワーク
１２Ａ　サブネットワーク
１２Ｂ　サブネットワーク
１３　第３のニューラルネットワーク
１４　第４のニューラルネットワーク
１５　第５のニューラルネットワーク
１６　第６のニューラルネットワーク
５０　認識対象
６１　マスク画像
６２　矩形領域
１００　学習装置
１０２　信号処理装置
１０４　ミニバッチ形成部
１０６　学習用サンプル選択部
１１０　第１の出力取得部
１１１　第１の誤差算出部
１１２　第１の更新量算出部
１１４　第１の更新処理部
１２０　第２の出力取得部
１２１　第２の誤差算出部
１２２　第２の更新量算出部
１２４　第２の更新処理部
１２６　重み決定部
１３０　記憶装置
１３１　学習用入力データ記憶部
１３２　学習用データ群記憶部
１３４　ミニバッチ記憶部
１４０　入力装置
１４２　表示装置
１６０　学習用サンプル作成部
１６１　学習用入力データ取得部
１６２　正解特定情報取得部
１６２Ａ　第１の正解特定情報取得部
１６２Ｂ　第２の正解特定情報取得部
１６４　正解データ作成部
１６４Ａ　第１の正解データ作成部
１６４Ｂ　第２の正解データ作成部
１６６　関連付け処理部
２００、２０１　画像認識装置
２１０　学習済みのニューラルネットワーク
２１１　学習済みのニューラルネットワーク
２４２　表示装置
３００　ウインドウ
３０１　画像表示エリア
３０２　学習用入力データ
３０３　病変領域
３０４　第１の正解データ作成ボタン
３０６　第２の正解データ作成ボタン
３０８　複数形態の正解データ作成ボタン
３１０、３２０、３３０、３４０　ウインドウ
３１３　輪郭
３１４、３３４　操作案内表示エリア
３１６、３３６　実行ボタン
３１７、３２７、３３７、３４７　キャンセルボタン
３１８　戻るボタン
３２２　第１の正解データ
３２４　マスク画像
３２６、３４６　保存ボタン
３３３　矩形枠
３４２　第２の正解データ
３４４　矩形領域
４１０、４２０、４３０　ニューラルネットワーク
５００　コンピュータ
５０２　メモリ
５０３　記憶装置
５０４　入力インターフェース部
５０５　通信インターフェース部
５０６　表示制御部
５０７　周辺機器用インターフェース部
５０８　バス
５１０　入力装置
５２０　表示装置
Ｉ　入力画像
Ｌ１　第１の正解データ
Ｌ２　第２の正解データ
Ｌ４　第４の正解データ
Ｌ５　第５の正解データ
Ｌ６　第６の正解データ
ＯＰ１　第１の出力
ＯＰ２　第２の出力
ＯＰ４　第４の出力
ＯＰ５　第５の出力
ＯＰ６　第６の出力
Ｓ１１～Ｓ１６　学習処理のステップ
Ｓ２２～Ｓ４０、Ｓ２２Ｂ　学習処理のステップ
Ｓ５０～Ｓ７４　学習処理のステップ
Ｓ１０１～Ｓ１０７　学習処理のステップ
Ｓ１１１～Ｓ１１４　学習処理のステップ
Ｓ１２１～Ｓ１２４　学習処理のステップ

Claims

　ニューラルネットワークの学習方法であって、
　前記ニューラルネットワークは、
　第１の正解形態に対応した第１の出力を行う第１のニューラルネットワークと、
　第２の正解形態に対応した第２の出力を行う第２のニューラルネットワークと、
　前記第１のニューラルネットワーク及び前記第２のニューラルネットワークへの入力要素を出力する第３のニューラルネットワークと、
　を含むニューラルネットワークであり、
　学習用データ群から、前記第１の正解形態及び前記第２の正解形態のうち少なくとも１つを有した学習用サンプルを選択する選択ステップと、
　前記選択した前記学習用サンプルを前記ニューラルネットワークへの入力に用いることにより、前記ニューラルネットワークから前記第１の出力及び前記第２の出力の少なくとも１つを取得する出力取得ステップと、
　前記出力取得ステップにて得られた前記第１の出力及び前記第２の出力の少なくとも１つについて評価を行う評価ステップと、
　前記評価ステップにて得られる評価結果に基づいて、前記ニューラルネットワークの重みを更新する重み更新ステップと、
　前記選択ステップ、前記出力取得ステップ、前記評価ステップ、及び前記重み更新ステップを複数回実施した後に、前記第１のニューラルネットワーク、前記第２のニューラルネットワーク及び前記第３のニューラルネットワークの各々の重みを決定する重み決定ステップと、
　を含むニューラルネットワークの学習方法。
　前記複数回実施される前記選択ステップにて選択される複数の前記学習用サンプルの中には、前記第１の正解形態を有した第１の学習用サンプルと、前記第２の正解形態を有した第２の学習用サンプルの両方が含まれる請求項１に記載のニューラルネットワークの学習方法。
　前記学習用サンプルとして、入力用画像に前記第１の正解形態及び前記第２の正解形態の両方の正解形態が関連付けられたデータが用いられる請求項１に記載のニューラルネットワークの学習方法。
　ニューラルネットワークの学習方法であって、
　前記ニューラルネットワークは、
　第１の正解形態に対応した第１の出力を行う第１のニューラルネットワークと、
　第２の正解形態に対応した第２の出力を行う第２のニューラルネットワークと、
　前記第１のニューラルネットワーク及び前記第２のニューラルネットワークへの入力要素を出力する第３のニューラルネットワークと、
　を含むニューラルネットワークであり、
　前記第１の正解形態及び前記第２の正解形態を含む少なくとも２種類の正解形態を含む第１の学習用データ群から、前記第１の学習用データ群の一部又は全部である第２の学習用データ群を選び出すステップと、
　前記第２の学習用データ群に含まれる学習用サンプルを前記ニューラルネットワークへの入力に用いることにより、前記ニューラルネットワークから前記第１の出力及び前記第２の出力の少なくとも１つを取得する出力取得ステップと、
　前記出力取得ステップにて取得された前記第１の出力及び前記第２の出力の少なくとも１つについて評価を行う評価ステップと、
　前記第２の学習用データ群に含まれる学習用サンプルをすべて用いて、前記評価ステップから得られた評価結果に基づいて前記ニューラルネットワークの重みを更新する重み更新ステップと、を含み、
　前記重みを更新する学習単位としての前記第２の学習用データ群の中に、前記第１の正解形態及び前記第２の正解形態が含まれているニューラルネットワークの学習方法。
　ニューラルネットワークの学習方法であって、
　前記ニューラルネットワークは、
　第１の正解形態に対応した第１の出力を行う第１のニューラルネットワークと、
　第２の正解形態に対応した第２の出力を行う第２のニューラルネットワークと、
　前記第１のニューラルネットワーク及び前記第２のニューラルネットワークへの入力要素を出力する第３のニューラルネットワークと、
　を含むニューラルネットワークであり、
　前記第１の正解形態及び前記第２の正解形態のうち少なくとも前記第１の正解形態の第１の正解データと関連付けられた第１の学習用入力データを前記ニューラルネットワークに入力することにより、少なくとも前記第１の出力を取得する第１の出力取得ステップと、
　前記第１の出力取得ステップにて取得された少なくとも前記第１の出力について評価を行う第１の評価ステップと、
　前記第１の評価ステップにて得られる評価結果に基づいて、前記ニューラルネットワークの重みを更新する第１の更新ステップと、
　前記第１の正解形態及び前記第２の正解形態のうち少なくとも前記第２の正解形態を有した第２の学習用サンプルを前記ニューラルネットワークへの入力に用いることにより、前記ニューラルネットワークから少なくとも前記第２の出力を取得する第２の出力取得ステップと、
　前記第２の出力取得ステップにて得られた少なくとも前記第２の出力について評価を行う第２の評価ステップと、
　前記第２の評価ステップにて得られる評価結果に基づいて、前記ニューラルネットワークの重みを更新する第２の更新ステップと、
　を含み、
　前記ニューラルネットワークに入力する前記第１の学習用入力データを変えて、前記第１の出力取得ステップ及び前記第１の評価ステップを少なくとも２回実施し、
　かつ、
　前記少なくとも２回の前記第１の出力取得ステップ及び前記第１の評価ステップを実施する間に、前記第２の出力取得ステップ及び前記第２の評価ステップを少なくとも１回実施するニューラルネットワークの学習方法。
　前記ニューラルネットワークは、畳み込み層を含む請求項１から５のいずれか一項に記載のニューラルネットワークの学習方法。
　前記第１のニューラルネットワーク及び前記第２のニューラルネットワークのうち少なくとも一方は、１×１の畳み込みによる処理を行う畳み込み層を含む請求項６に記載のニューラルネットワークの学習方法。
　前記ニューラルネットワークは、入力された画像内の少なくとも１つの特定領域を抽出した少なくとも１つのマスク画像を出力する請求項１から７のいずれか一項に記載のニューラルネットワークの学習方法。
　前記ニューラルネットワークは、入力された画像内の少なくとも１つの矩形領域を出力する請求項１から８のいずれか一項に記載のニューラルネットワークの学習方法。
　前記第１の正解形態は、少なくとも１枚の画像に対し、画像内の特定領域の各画素と対応するものを含む請求項１から９のいずれか一項に記載のニューラルネットワークの学習方法。
　前記第２の正解形態は、少なくとも１枚の画像に対し、画像内の矩形領域と対応するものを含む請求項１から１０のいずれか一項に記載のニューラルネットワークの学習方法。
　前記第１のニューラルネットワークから得られる前記第１の出力と前記第２のニューラルネットワークから得られる前記第２の出力のそれぞれの評価を重み付けして行う請求項１から１１のいずれか一項に記載のニューラルネットワークの学習方法。
　請求項１から１２のいずれか一項に記載のニューラルネットワークの学習方法を用いて、前記ニューラルネットワークを学習することにより、前記重みが決定された学習済みの前記ニューラルネットワークを含む学習済みモデル。
　ニューラルネットワークの学習装置であって、
　前記ニューラルネットワークは、
　第１の正解形態に対応した第１の出力を行う第１のニューラルネットワークと、
　第２の正解形態に対応した第２の出力を行う第２のニューラルネットワークと、
　前記第１のニューラルネットワーク及び前記第２のニューラルネットワークへの入力要素を出力する第３のニューラルネットワークと、
　を含むニューラルネットワークであり、
　学習用データ群から、前記第１の正解形態及び前記第２の正解形態のうち少なくとも１つを有した学習用サンプルを選択する選択部と、
　前記選択した前記学習用サンプルを前記ニューラルネットワークへの入力に用いることにより、前記ニューラルネットワークから前記第１の出力及び前記第２の出力の少なくとも１つを取得する出力取得部と、
　前記出力取得部にて得られた前記第１の出力及び前記第２の出力の少なくとも１つについて評価を行う評価部と、
　前記評価部にて得られる評価結果に基づいて、前記ニューラルネットワークの重みを更新する重み更新部と、
　前記選択部による選択ステップ、前記出力取得部による出力取得ステップ、前記評価部による評価ステップ、及び前記重み更新部による重み更新ステップを複数回実施した後に、前記第１のニューラルネットワーク、前記第２のニューラルネットワーク及び前記第３のニューラルネットワークの各々の重みを決定する重み決定部と、
　を備える学習装置。
　ニューラルネットワークの学習装置であって、
　前記ニューラルネットワークは、
　第１の正解形態に対応した第１の出力を行う第１のニューラルネットワークと、
　第２の正解形態に対応した第２の出力を行う第２のニューラルネットワークと、
　前記第１のニューラルネットワーク及び前記第２のニューラルネットワークへの入力要素を出力する第３のニューラルネットワークと、
　を含むニューラルネットワークであり、
　前記第１の正解形態及び前記第２の正解形態を含む少なくとも２種類の正解形態を含む第１の学習用データ群から、前記第１の学習用データ群の一部又は全部である第２の学習用データ群を選び出す学習用データ群選択部と、
　前記第２の学習用データ群に含まれる学習用サンプルを前記ニューラルネットワークへの入力に用いることにより、前記ニューラルネットワークから前記第１の出力及び前記第２の出力の少なくとも１つを取得する出力取得部と、
　前記出力取得部にて取得された前記第１の出力及び前記第２の出力の少なくとも１つについて評価を行う評価部と、
　前記第２の学習用データ群に含まれる学習用サンプルをすべて用いて、前記評価部から得られた評価結果に基づいて前記ニューラルネットワークの重みを更新する重み更新部と、を含み、
　前記重みを更新する学習単位としての前記第２の学習用データ群の中に、前記第１の正解形態及び前記第２の正解形態が含まれている学習装置。
　ニューラルネットワークの学習装置であって、
　前記ニューラルネットワークは、
　第１の正解形態に対応した第１の出力を行う第１のニューラルネットワークと、
　第２の正解形態に対応した第２の出力を行う第２のニューラルネットワークと、
　前記第１のニューラルネットワーク及び前記第２のニューラルネットワークへの入力要素を出力する第３のニューラルネットワークと、
　を含むニューラルネットワークであり、
　前記第１の正解形態及び前記第２の正解形態のうち少なくとも前記第１の正解形態の第１の正解データと関連付けられた第１の学習用入力データを前記ニューラルネットワークに入力することにより、少なくとも前記第１の出力を取得する第１の出力取得部と、
　前記第１の出力取得部にて取得された少なくとも前記第１の出力について評価を行う第１の評価部と、
　前記第１の評価部にて得られる評価結果に基づいて、前記ニューラルネットワークの重みを更新する第１の更新部と、
　前記第１の正解形態及び前記第２の正解形態のうち少なくとも前記第２の正解形態を有した第２の学習用サンプルを前記ニューラルネットワークへの入力に用いることにより、前記ニューラルネットワークから少なくとも前記第２の出力を取得する第２の出力取得部と、
　前記第２の出力取得部にて得られた少なくとも前記第２の出力について評価を行う第２の評価部と、
　前記第２の評価部にて得られる評価結果に基づいて、前記ニューラルネットワークの重みを更新する第２の更新部と、
　を含み、
　前記ニューラルネットワークに入力する前記第１の学習用入力データを変えて、前記第１の出力取得部による第１の出力取得ステップ及び前記第１の評価部による第１の評価ステップを少なくとも２回実施し、
　かつ、
　前記少なくとも２回の前記第１の出力取得ステップ及び前記第１の評価ステップを実施する間に、前記第２の出力取得部による第２の出力取得ステップ及び前記第２の評価部による第２の評価ステップを少なくとも１回実施する学習装置。
　前記第１の正解形態及び前記第２の正解形態のうち少なくとも１つを有した学習用サンプルを作成する学習用サンプル作成部を備え、
　前記学習用サンプル作成部は、
　学習用入力データを取得する学習用入力データ取得部と、
　前記学習用入力データに対する前記第１の正解形態の正解を特定する第１の正解特定情報を取得する第１の正解特定情報取得部と、
　前記第１の正解特定情報を基に、前記学習用入力データに対する前記第１の正解データを作成する第１の正解データ作成部と、
　前記学習用入力データに対する前記第２の正解形態の正解を特定する第２の正解特定情報を取得する第２の正解特定情報取得部と、
　前記第２の正解特定情報を基に、前記学習用入力データに対する第２の正解データを作成する第２の正解データ作成部と、
　前記第１の正解データ作成部によって作成された前記第１の正解データ及び前記第２の正解データ作成部によって作成された前記第２の正解データのうち少なくとも１つの正解データを前記学習用入力データと関連付ける関連付け処理部と、
　を含む請求項１４から１６のいずれか一項に記載の学習装置。
　前記学習用入力データ取得部を介して取得された前記学習用入力データを表示する表示装置と、
　前記学習用入力データに対する前記第１の正解形態の正解を特定する指示、及び前記学習用入力データに対する前記第２の正解形態の正解を特定する指示のうち、少なくとも１つの指示を、ユーザが入力するための入力装置と、
　を備え、
　前記表示装置は、前記入力装置から入力された指示に従って前記第１の正解データ作成部を用いて作成された前記第１の正解データ、及び前記入力装置から入力された指示に従って前記第２の正解データ作成部を用いて作成された前記第２の正解データのうち、少なくとも１つを表示する請求項１７に記載の学習装置。
　コンピュータに、ニューラルネットワークの学習を実行させるプログラムであって、
　前記ニューラルネットワークは、
　第１の正解形態に対応した第１の出力を行う第１のニューラルネットワークと、
　第２の正解形態に対応した第２の出力を行う第２のニューラルネットワークと、
　前記第１のニューラルネットワーク及び前記第２のニューラルネットワークへの入力要素を出力する第３のニューラルネットワークと、
　を含むニューラルネットワークであり、
　前記プログラムは、
　学習用データ群から、前記第１の正解形態及び前記第２の正解形態のうち少なくとも１つを有した学習用サンプルを選択する選択ステップと、
　前記選択した前記学習用サンプルを前記ニューラルネットワークへの入力に用いることにより、前記ニューラルネットワークから前記第１の出力及び前記第２の出力の少なくとも１つを取得する出力取得ステップと、
　前記出力取得ステップにて得られた前記第１の出力及び前記第２の出力の少なくとも１つについて評価を行う評価ステップと、
　前記評価ステップにて得られる評価結果に基づいて、前記ニューラルネットワークの重みを更新する重み更新ステップと、
　前記選択ステップ、前記出力取得ステップ、前記評価ステップ、及び前記重み更新ステップを複数回実施した後に、前記第１のニューラルネットワーク、前記第２のニューラルネットワーク及び前記第３のニューラルネットワークの各々の重みを決定する重み決定ステップと、
　をコンピュータに実行させるプログラム。
　コンピュータに、ニューラルネットワークの学習を実行させるプログラムであって、
　前記ニューラルネットワークは、
　第１の正解形態に対応した第１の出力を行う第１のニューラルネットワークと、
　第２の正解形態に対応した第２の出力を行う第２のニューラルネットワークと、
　前記第１のニューラルネットワーク及び前記第２のニューラルネットワークへの入力要素を出力する第３のニューラルネットワークと、
　を含むニューラルネットワークであり、
　前記プログラムは、
　前記第１の正解形態及び前記第２の正解形態を含む少なくとも２種類の正解形態を含む第１の学習用データ群から、前記第１の学習用データ群の一部又は全部である第２の学習用データ群を選び出すステップと、
　前記第２の学習用データ群に含まれる学習用サンプルを前記ニューラルネットワークへの入力に用いることにより、前記ニューラルネットワークから前記第１の出力及び前記第２の出力の少なくとも１つを取得する出力取得ステップと、
　前記出力取得ステップにて取得された前記第１の出力及び前記第２の出力の少なくとも１つについて評価を行う評価ステップと、
　前記第２の学習用データ群に含まれる学習用サンプルをすべて用いて、前記評価ステップから得られた評価結果に基づいて前記ニューラルネットワークの重みを更新する重み更新ステップと、をコンピュータに実行させるものであり、
　前記重みを更新する学習単位としての前記第２の学習用データ群の中に、前記第１の正解形態及び前記第２の正解形態が含まれているプログラム。
　コンピュータに、ニューラルネットワークの学習を実行させるプログラムであって、
　前記ニューラルネットワークは、
　第１の正解形態に対応した第１の出力を行う第１のニューラルネットワークと、
　第２の正解形態に対応した第２の出力を行う第２のニューラルネットワークと、
　前記第１のニューラルネットワーク及び前記第２のニューラルネットワークへの入力要素を出力する第３のニューラルネットワークと、
　を含むニューラルネットワークであり、
　前記プログラムは、
　前記第１の正解形態及び前記第２の正解形態のうち少なくとも前記第１の正解形態の第１の正解データと関連付けられた第１の学習用入力データを前記ニューラルネットワークに入力することにより、少なくとも前記第１の出力を取得する第１の出力取得ステップと、
　前記第１の出力取得ステップにて取得された少なくとも前記第１の出力について評価を行う第１の評価ステップと、
　前記第１の評価ステップにて得られる評価結果に基づいて、前記ニューラルネットワークの重みを更新する第１の更新ステップと、
　前記第１の正解形態及び前記第２の正解形態のうち少なくとも前記第２の正解形態を有した第２の学習用サンプルを前記ニューラルネットワークへの入力に用いることにより、前記ニューラルネットワークから少なくとも前記第２の出力を取得する第２の出力取得ステップと、
　前記第２の出力取得ステップにて得られた少なくとも前記第２の出力について評価を行う第２の評価ステップと、
　前記第２の評価ステップにて得られる評価結果に基づいて、前記ニューラルネットワークの重みを更新する第２の更新ステップと、
　をコンピュータに実行させるものであり、
　前記ニューラルネットワークに入力する前記第１の学習用入力データを変えて、前記第１の出力取得ステップ及び前記第１の評価ステップを少なくとも２回実施し、
　かつ、
　前記少なくとも２回の前記第１の出力取得ステップ及び前記第１の評価ステップを実施する間に、前記第２の出力取得ステップ及び前記第２の評価ステップを少なくとも１回実施するプログラム。