WO2022220221A1

WO2022220221A1 - 学習装置、方法およびプログラム

Info

Publication number: WO2022220221A1
Application number: PCT/JP2022/017507
Authority: WO
Inventors: 聡志井原
Original assignee: 富士フイルム株式会社
Priority date: 2021-04-16
Filing date: 2022-04-11
Publication date: 2022-10-20
Also published as: US20240037927A1; JPWO2022220221A1

Abstract

学習装置、方法およびプログラムにおいて、複数種類のクラスの分類を一度に学習するための多くの教師データを用意できなくても、表現媒体を複数種類のクラスに分類可能な学習済みニューラルネットワークを構築できるようにする。プロセッサは、学習用表現媒体および学習用表現媒体に含まれる複数種類のクラスのうちの少なくとも１つのクラスについての正解ラベルからなる教師データを取得し、学習用表現媒体をニューラルネットワークに入力して学習用表現媒体に含まれるクラスについての複数種類のクラスのそれぞれであることの確率を出力させ、複数種類のクラスのそれぞれであることの確率を、教師データの正解ラベルにより分類されるクラスに基づいて統合し、統合された確率および教師データの正解ラベルから導出される損失に基づいて、ニューラルネットワークを学習する。

Description

学習装置、方法およびプログラム

　本開示は、学習装置、方法およびプログラムに関するものである。

　近年、ディープラーニング（深層学習）を用いた機械学習の技術が注目を集めている。とくに、複数の処理層が階層的に接続された多層ニューラルネットワークの１つである、畳み込みニューラルネットワーク（以下ＣＮＮ(Convolutional Neural Network)とする）をディープラーニングによって学習し、学習により構築された学習済みニューラルネットワークを用いて、画像を所望の領域に分類するための各種手法が提案されている（例えば特許文献１，２参照）。

特開２０１９－０６７２９９号公報特表２０１９－５０５０６３号公報

　一方、画像を複数種類の領域に分類するに際しては、領域の種類毎に学習済みニューラルネットワークを用意すればよいが、１つの学習済みニューラルネットワークを用いて画像を複数種類の領域に分類することも可能である。例えば、人体の胸腹部の画像を肝臓領域と肺領域とに一度に分類する場合、肝臓領域を分類するニューラルネットワークと、肺領域を分類するニューラルネットワークとを合成して、肝臓領域と肺領域とを一度に分類する学習済みニューラルネットワークを構築すればよい。このような学習済みニューラルネットワークを構築するためには、学習用画像において肝臓領域と肺領域とが特定されている正解ラベルを用意する必要がある。

　また、肺を含む画像において、肺を右肺上葉、右肺中葉、右肺下葉、左肺上葉および左肺下葉の五葉それぞれの領域に分類する学習済みニューラルネットワークを構築したい場合もある。この場合、ニューラルネットワークを学習するためには、学習用画像において五葉のそれぞれが特定されている正解ラベルを用意する必要がある。

　ここで、肝臓領域のみを分類する学習済みニューラルネットワーク、および肺領域のみを分類する学習済みニューラルネットワークは既知であるため、肝臓領域のみが特定された正解ラベルおよび肺領域のみが特定された正解ラベルは、多数用意することが可能である。しかしながら、肝臓領域および肺領域の双方が特定された正解ラベルは、教師データを作成する作成者の負担が大きい。このため、肝臓および肺の分類を一度に学習するための教師データは、ニューラルネットワークを精度よく学習できるほど多く用意できないのが現状である。また、肺領域が特定された正解ラベルは多数用意できるが、肺の五葉のそれぞれが特定された正解ラベルも、教師データを作成する作成者の負担が大きい。このため、肺の五葉の分類を一度に学習するための教師データは、ニューラルネットワークを精度よく学習できるほど多く用意できないのが現状である。これは医用画像のみならず、写真画像、動画像、音声およびテキスト等の表現媒体を複数種類のクラスに分類する学習済みニューラルネットワークを構築する場合についても同様に生じる問題である。

　本開示は上記事情に鑑みなされたものであり、複数種類のクラスの分類を一度に学習するための多くの教師データを用意できなくても、表現媒体を複数種類のクラスに分類可能な学習済みニューラルネットワークを構築できるようにすることを目的とする。

　本開示による学習装置は、表現媒体を３以上の複数種類のクラスに分類するニューラルネットワークを機械学習する学習装置であって、
　少なくとも１つのプロセッサを備え、
　プロセッサは、
　学習用表現媒体および学習用表現媒体に含まれる複数種類のクラスのうちの少なくとも１つのクラスについての正解ラベルからなる教師データを取得し、
　学習用表現媒体をニューラルネットワークに入力して学習用表現媒体に含まれるクラスについての複数種類のクラスのそれぞれであることの確率を出力させ、
　複数種類のクラスのそれぞれであることの確率を、教師データの正解ラベルにより分類されるクラスに基づいて統合し、
　統合された確率および教師データの正解ラベルから導出される損失に基づいて、ニューラルネットワークを学習する。

　「表現媒体」とは、コンピュータを使用して表現することが可能な媒体であり、静止画像、動画像、音声およびテキスト等が表現媒体の例として挙げられる。

　なお、本開示による学習装置においては、表現媒体は画像であり、
　複数種類のクラスは、画像内の背景を含む複数の領域であり、
　プロセッサは、複数種類のクラスであることの確率のうち、学習用表現媒体についての正解ラベルにより分類されるクラス以外の他のクラスの確率と背景の確率とを加算することにより、複数種類のクラスのそれぞれであることの確率を統合するものであってもよい。

　また、本開示による学習装置においては、正解ラベルにより分類されるクラスが、複数種類のクラスのうちの２以上のクラスを含み、
　プロセッサは、複数種類のクラスであることの確率のうち、正解ラベルにより分類される２以上のクラスの確率を加算することにより、複数種類のクラスのそれぞれであることの確率を統合するものであってもよい。

　また、本開示による学習装置においては、プロセッサは、正解ラベルが異なる複数の教師データを用いてニューラルネットワークを学習するものであってもよい。

　本開示による学習方法は、表現媒体を３以上の複数種類のクラスに分類するニューラルネットワークを機械学習する学習方法であって、
　学習用表現媒体および学習用表現媒体に含まれる複数種類のクラスのうちの少なくとも１つのクラスについての正解ラベルからなる教師データを取得し、
　学習用表現媒体をニューラルネットワークに入力して学習用表現媒体に含まれるクラスについての複数種類のクラスのそれぞれであることの確率を出力させ、
　複数種類のクラスのそれぞれであることの確率を、教師データの正解ラベルにより分類されるクラスに基づいて統合し、
　統合された確率および教師データの正解ラベルから導出される損失に基づいて、ニューラルネットワークを学習する。

　本開示による他の学習装置は、画像内の領域を３以上の複数種類のクラスに分類するニューラルネットワークを機械学習する学習装置であって、
　少なくとも１つのプロセッサを備え、
　プロセッサは、学習用画像および学習用画像に含まれる複数種類の領域のうちの少なくとも１つの領域についての正解ラベルからなる教師データを取得し、
　学習用画像をニューラルネットワークに入力して学習用画像内の領域についての複数種類のクラスのそれぞれであることの確率を出力させ、
　複数種類のクラスのそれぞれであることの確率を、教師データの正解ラベルにより分類されるクラスに基づいて統合し、
　統合された確率および教師データの正解ラベルから導出される損失に基づいて、ニューラルネットワークを学習する。

　本開示による他の学習方法は、画像内の領域を３以上の複数種類のクラスに分類するニューラルネットワークを機械学習する学習方法であって、
　学習用画像および学習用画像に含まれる複数種類の領域のうちの少なくとも１つの領域についての正解ラベルからなる教師データを取得し、
　学習用画像をニューラルネットワークに入力して学習用画像内の領域についての複数種類のクラスのそれぞれであることの確率を出力させ、
　複数種類のクラスのそれぞれであることの確率を、教師データの正解ラベルにより分類されるクラスに基づいて統合し、
　統合された確率および教師データの正解ラベルから導出される損失に基づいて、ニューラルネットワークを学習する。

　なお、本開示による学習方法および他の学習方法をコンピュータに実行させるためのプログラムとして提供してもよい。

　本開示によれば、複数種類のクラスの分類を一度に学習するための多くの教師データを用意できなくても、表現媒体を複数種類のクラスに分類可能な学習済みニューラルネットワークを構築できる。

本開示の第１の実施形態による学習装置を適用した診断支援システムの概略構成を示す図第１の実施形態による学習装置の概略構成を示す図第１の実施形態による学習装置の機能構成図肝臓領域の分類を学習するための教師データを示す図肺領域の分類を学習するための教師データを示す図第１の実施形態におけるニューラルネットワークの学習を模式的に示す図第１の実施形態におけるニューラルネットワークの学習を模式的に示す図第１の実施形態におけるニューラルネットワークの学習を模式的に示す図第１の実施形態において行われる学習処理を示すフローチャート第２の実施形態において学習に使用される教師データを示す図第２の実施形態におけるニューラルネットワークの学習を模式的に示す図第２の実施形態におけるニューラルネットワークの学習を模式的に示す図

　以下、図面を参照して本開示の実施形態について説明する。まず、第１の実施形態による学習装置を適用した医療情報システムの構成について説明する。図１は、医療情報システムの概略構成を示す図である。図１に示す医療情報システムは、本実施形態による学習装置を内包するコンピュータ１、撮影装置２、および画像保管サーバ３が、ネットワーク４を経由して通信可能な状態で接続されている。

　コンピュータ１は、本実施形態による学習装置を内包するものであり、第１の実施形態による学習プログラムがインストールされている。コンピュータ１は、診断を行う医師が直接操作するワークステーションあるいはパーソナルコンピュータでもよいし、それらとネットワークを介して接続されたサーバコンピュータでもよい。学習プログラムは、ネットワークに接続されたサーバコンピュータの記憶装置、あるいはネットワークストレージに、外部からアクセス可能な状態で記憶され、要求に応じて医師が使用するコンピュータ１にダウンロードされ、インストールされる。または、ＤＶＤ（Digital Versatile Disc）あるいはＣＤ－ＲＯＭ（Compact Disc Read Only Memory）等の記録媒体に記録されて配布され、その記録媒体からコンピュータ１にインストールされる。

　撮影装置２は、被検体の診断対象となる部位を撮影することにより、その部位を表す３次元画像を生成する装置であり、具体的には、ＣＴ(Computed Tomography)装置、ＭＲＩ（Magnetic Resonance Imaging）装置、およびＰＥＴ（Positron Emission Tomography）装置等である。この撮影装置２により生成された、複数のスライス画像からなる３次元画像は画像保管サーバ３に送信され、保存される。なお、本実施形態においては、撮影装置２はＣＴ装置であり、例えば患者の胸腹部のＣＴ画像を生成する。

　画像保管サーバ３は、各種データを保存して管理するコンピュータであり、大容量外部記憶装置およびデータベース管理用ソフトウェアを備えている。画像保管サーバ３は、有線あるいは無線のネットワーク４を介して他の装置と通信を行い、画像データ等を送受信する。具体的には撮影装置２で生成された３次元画像の画像データを含む各種データをネットワーク経由で取得し、大容量外部記憶装置等の記録媒体に保存して管理する。なお、画像データの格納形式およびネットワーク４経由での各装置間の通信は、ＤＩＣＯＭ（Digital Imaging and Communication in Medicine）等のプロトコルに基づいている。また、画像保管サーバ３には、後述する教師データも記憶されている。

　次いで、第１の実施形態による学習装置について説明する。図２は、第１の実施形態による学習装置のハードウェア構成を説明する。図２に示すように、学習装置２０は、ＣＰＵ（Central Processing Unit）１１、不揮発性のストレージ１３、および一時記憶領域としてのメモリ１６を含む。また、学習装置２０は、液晶ディスプレイ等のディスプレイ１４、キーボードとマウス等の入力デバイス１５、およびネットワーク４に接続されるネットワークＩ／Ｆ（InterFace）１７を含む。ＣＰＵ１１、ストレージ１３、ディスプレイ１４、入力デバイス１５、メモリ１６およびネットワークＩ／Ｆ１７は、バス１８に接続される。ＣＰＵ１１は、本開示におけるプロセッサの一例である。

　ストレージ１３は、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、およびフラッシュメモリ等によって実現される。記憶媒体としてのストレージ１３には、学習プログラム１２が記憶される。ＣＰＵ１１は、ストレージ１３から学習プログラム１２を読み出してメモリ１６に展開し、展開した学習プログラム１２を実行する。

　次いで、第１の実施形態による学習装置の機能的な構成を説明する。図３は、第１の実施形態による学習装置の機能的な構成を示す図である。図３に示すように学習装置２０は、情報取得部２１および学習部２２を備える。そして、ＣＰＵ１１が学習プログラム１２を実行することにより、ＣＰＵ１１は情報取得部２１および学習部２２として機能する。

　ここで、第１の実施形態による学習装置２０は、ＣＴ画像に含まれる肺領域および肝臓領域を分類する学習済みネットワークを構築するものとする。このために、学習部２２が教師データを用いてニューラルネットワークの学習を行う。なお、ＣＴ画像が表現媒体の一例であり、肺領域、肝臓領域および背景が本開示の複数種類のクラスの一例である。

　情報取得部２１は、操作者による入力デバイス１５からの指示により、画像保管サーバ３から教師データを取得する。なお、複数の教師データが画像保管サーバ３から取得されてストレージ１３に保存されている場合、情報取得部２１はストレージ１３から教師データを取得する。

　図４は肝臓領域の分類を学習するための教師データを示す図である。図４に示すように、教師データ３０は、学習用画像３０Ａおよび正解ラベル３０Ｂを含む。学習用画像３０ＡはＣＴ画像を構成する複数のスライス画像のうちの１つのスライス画像である。学習用画像３０Ａには肝臓および肺等の領域が含まれる。正解ラベル３０Ｂにおいては、学習用画像３０Ａに含まれる肝臓領域にラベル３０Ｃが付与されている。なお、図４においてはラベルが付与されていることを斜線を付与することにより示している。学習用画像が学習用表現媒体の一例である。

　図５は肺領域の分類を学習するための教師データを示す図である。図５に示すように、教師データ３１は、学習用画像３１Ａおよび正解ラベル３１Ｂを含む。学習用画像３１Ａは学習用画像３０Ａと同一の断層画像であり、肝臓および肺等の領域が含まれる。正解ラベル３１Ｂにおいては、学習用画像３１Ａに含まれる肺領域にラベルが付与されている。具体的には、右肺領域にラベル３１Ｃが、左肺領域にラベル３１Ｄがそれぞれ付与されている。

　学習部２２は、教師データを用いてニューラルネットワークを学習する。図６は第１の実施形態におけるニューラルネットワークの学習を模式的に示す図である。図６に示すように、学習されるニューラルネットワーク４０は例えば畳み込みニューラルネットワークであり、入力層４１、複数の中間層４２および出力層４３からなる。中間層４２は畳み込み層およびプーリング層（いずれも不図示）が交互に配置されている。ニューラルネットワーク４０には学習用画像が入力され、学習用画像に含まれる各画素について、背景、肝臓、右肺および左肺のそれぞれであることの確からしさを表す値であるＬｏｇｉｔｓがニューラルネットワーク４０から出力される。Ｌｏｇｉｔｓはニューラルネットワーク４０の出力そのものであり、値が大きいほど対象の領域である可能性が高いことを表す。例えば、背景、肝臓、右肺および左肺について、（１．０，５．０，２．０，１．５）のような値のＬｏｇｉｔｓが出力される。

　学習部２２は、ニューラルネットワーク４０から出力されたＬｏｇｉｔｓに対してソフトマックス活性化関数（Ｓｏｆｔ　Ｍａｘ）を適用して、Ｌｏｇｉｔｓを確率ｐ０～ｐ３に変換する。例えば、背景、肝臓、右肺および左肺について確率（ｐ０，ｐ１，ｐ２，ｐ３）＝（０．１，０．８，０，０．１）のような値が得られる。（ｐ０，ｐ１，ｐ２，ｐ３）は確率であるため、ｐ０＋ｐ１＋ｐ２＋ｐ３＝１である。

　ここで、教師データ３０の正解ラベル３０Ｂには肝臓領域にラベル３０Ｃが付与されているのみである。また、教師データ３１の正解ラベル３１Ｂには左肺および右肺のそれぞれにラベル３１Ｃ，３１Ｄが付与されているのみである。このため、学習部２２は、導出された確率を、教師データの正解ラベルにより分類されるクラスに基づいて統合する。例えば、ニューラルネットワーク４０に図４に示す学習用画像３０Ａが入力された場合、学習用画像３０Ａは肝臓領域の分類を学習するための教師データ３０に含まれる。このため、学習部２２は、導出された確率のうち、肝臓以外の背景、右肺および左肺の確率を統合して統合確率ｐｔ０を導出する。この場合、ｐｔ０＝ｐ０＋ｐ２＋ｐ３となる。したがって、確率（ｐ０，ｐ１，ｐ２，ｐ３）＝（０．１，０．８，０，０．１）の場合、統合確率（ｐｔ０，ｐ１）＝（０．２，０．８）となる。

　学習部２２は、統合された確率分布および正解ラベルを用いて交差エントロピー誤差（Ｃｒｏｓｓ　Ｅｎｔｒｏｐｙ）を損失Ｌ０として導出する。交差エントロピー誤差は、確率分布と正解ラベルにより表されるベクトルとの距離に相当する。ここで、入力された学習用画像の正解ラベルにおいて肝臓領域にラベルが付与されている場合、統合確率（ｐｔ０，ｐ１）との損失Ｌ０を導出するための正解ラベルのベクトルは（０，１）となる。

　一方、図７に示すように、ニューラルネットワーク４０に図４に示す学習用画像３１Ａが入力された場合、学習用画像３１Ａは右肺領域および左肺領域の分類を学習するための教師データ３１に含まれる。このため、学習部２２は、導出された確率のうち、肺以外すなわち背景および肝臓の確率を統合して、統合された確率ｐｔ１を導出する。この場合、ｐｔ１＝ｐ０＋ｐ１となる。したがって、確率（ｐ０，ｐ１，ｐ２，ｐ３）＝（０．１，０．８，０，０．１）の場合、統合確率（ｐｔ１，ｐ２，ｐ３）＝（０．９，０，０．１）となる。

　また、入力された学習用画像の正解ラベルが左肺および右肺の領域にラベルが付与されている場合、統合された確率分布との損失Ｌ０を導出するための正解ラベルのベクトルは右肺の場合（０，１，０）であり、左肺の場合（０，０，１）となる。

　学習部２２は、損失Ｌ０が終了条件を満たすまで、ニューラルネットワーク４０の学習を行う。具体的には、学習部２２は、ニューラルネットワーク４０に含まれる中間層４２を構成する畳み込み層の数、プーリング層の数、カーネルの係数およびカーネルの大きさ等のパラメータを導出することにより、ニューラルネットワーク４０の機械学習を行う。終了条件は、損失Ｌ０があらかじめ定められたしきい値以下となることであってもよく、あらかじめ定められた回数の学習を行うことであってもよい。

　なお、ニューラルネットワーク４０に入力される学習用画像の正解ラベルにおいて肝臓、右肺および左肺にラベルが付与されている場合、学習部２２は、図８に示すように確率（ｐ０，ｐ１，ｐ２，ｐ３）を統合することなく、正解ラベルとの損失Ｌ０を導出してニューラルネットワーク４０の学習を行う。この場合、正解ラベルのベクトルは、背景の場合（１，０，０，０）、肝臓の場合（０，１，０，０）、右肺の場合（０，０，１，０）、左肺の場合（０，０，０，１）となる。

　このような機械学習により構築された学習済みニューラルネットワークは、ＣＴ画像が入力されると、ＣＴ画像の各画素について、肝臓領域、右肺領域、左肺領域および背景であることの確率を出力するようになる。したがって、第１の実施形態による学習装置によって構築された学習済みニューラルネットワークを用いることにより、各画素について最大の確率となる領域に、ＣＴ画像を分類することが可能となる。

　次いで、第１の実施形態において行われる処理について説明する。図９は第１の実施形態において行われる処理を示すフローチャートある。なお、複数の教師データは画像保管サーバ３から取得されてストレージ１３に保存されているものとする。また、学習の終了条件は損失Ｌ０がしきい値以下となることであるものとする。

　まず情報取得部２１がストレージ１３に保存された教師データを取得する（ステップＳＴ１）。そして、学習部２２が教師データに含まれる学習用画像をニューラルネットワーク４０に入力し（ステップＳＴ２）、学習用画像内の領域についての複数種類のクラスのそれぞれであることの確率を出力させる（ステップＳＴ３）。さらに学習部２２は、複数種類のクラスのそれぞれであることの確率を、教師データの正解ラベルにより分類されるクラスに基づいて統合する（ステップＳＴ４）。そして、学習部２２は、損失Ｌ０がしきい値以下であるか否かを判定し（ステップＳＴ５）、ステップＳＴ５が否定されると、統合された確率および教師データの正解ラベルから導出される損失Ｌ０に基づいて、ニューラルネットワークを学習する（ステップＳＴ６）。

　さらに、情報取得部２１が新たな教師データを取得し（ステップＳＴ７）、ステップＳＴ２の処理に戻り、ステップＳＴ２～ステップＳＴ５の処理を繰り返す。ステップＳＴ５が肯定されると処理を終了する。

　このように、第１の実施形態においては、ニューラルネットワークから出力された学習用画像内の領域についての複数種類のクラスのそれぞれであることの確率を、教師データの正解ラベルにより分類されるクラスに基づいて統合し、統合された確率および教師データの正解ラベルから導出される損失に基づいて、ニューラルネットワークを学習するようにした。このため、学習用画像の正解ラベルが複数種類のクラスのそれぞれに分類されていなくても、そのような教師データを用いて画像内の領域を複数種類のクラスに分類する学習済みニューラルネットワークを構築することが可能となる。

　例えば、肝臓領域にのみラベルが付与された正解ラベル、あるいは肺領域にのみラベルが付与された正解ラベルを含む教師データを用いて、画像内の領域を、肝臓、肺および背景という３以上の複数種類のクラスに分類する学習済みニューラルネットワークを構築することが可能となる。このため、複数種類のクラスのラベルをすべて含む正解ラベルを多数作成する必要がなくなり、その結果、教師データを作成する際の作成者の負担を軽減できる。また、複数種類のクラスのうちの１つのクラスの領域にのみラベルが付与された正解ラベルを含む教師データしかなくても、異なるクラスの領域にラベルが付与された正解ラベルを含む教師データがあれば、画像内の領域を複数種類のクラスに分類する学習済みニューラルネットワークを構築できる。

　次いで、本開示の第２の実施形態について説明する。なお、第２の実施形態による学習装置の構成は第１の実施形態による学習装置の構成と同一であるため、ここでは装置についての詳細な説明は省略する。第２の実施形態においては、確率の統合の処理が第１の実施形態と異なる。

　第２の実施形態において構築される学習済みニューラルネットワークは、例えば、入力された画像内の領域に含まれる肺領域を、右肺上葉、右肺中葉、右肺下葉、左肺上葉および左肺下葉の五葉の領域に分類するものである。このために、第２の実施形態においては、図１０に示す教師データが用意される。図１０に示すように第２の実施形態において使用される教師データ３２は、学習用画像３２Ａおよび正解ラベル３２Ｂを含む。正解ラベル３２Ｂには、右肺上葉、右肺中葉、右肺下葉、左肺上葉および左肺下葉のそれぞれに、異なるラベル３２Ｃ，３２Ｄ，３２Ｅ，３２Ｆ，３２Ｇが付与されている。また、第２の実施形態においては、図５に示すように右肺および左肺がラベルされた正解ラベル３１Ｂを含む教師データ３１も用意される。

　ここで、図５に示す右肺および左肺にのみラベルが付与された正解ラベルは容易に作成することができるため、多数の教師データ３１を用意することができる。一方、図１０に示す教師データは正解ラベルを作成する作成者の負担が大きいため、教師データ３２はそれほど多く用意することができない。第２の実施形態は、このような状況においても、肺を五葉の領域に分類できるようにニューラルネットワークを学習して学習済みニューラルネットワークを構築するものである。

　図１１は第２の実施形態におけるニューラルネットワークの学習を模式的に示す図である。なお、図１１に示すニューラルネットワーク５０は、第１の実施形態におけるニューラルネットワーク４０と同様の畳み込みニューラルネットワークであり、入力層５１、複数の中間層５２および出力層５３からなる。

　ニューラルネットワーク５０に学習用画像３１Ａが入力されると、学習用画像３１Ａに含まれる各画素について、背景、右肺上葉、右肺中葉、右肺下葉、左肺上葉および左肺下葉であることの確からしさを表す値であるＬｏｇｉｔｓがニューラルネットワーク５０から出力される。例えば、背景、右肺上葉、右肺中葉、右肺下葉、左肺上葉および左肺下葉について、（１．０，３．０，２．０，１．５、３．１，５．０）のような値のＬｏｇｉｔｓが出力される。

　学習部２２は、ニューラルネットワーク５０から出力されたＬｏｇｉｔｓに対してソフトマックス活性化関数（Ｓｏｆｔ　Ｍａｘ）を適用して、Ｌｏｇｉｔｓを確率ｐ１０～ｐ１５に変換する。例えば、背景、右肺上葉、右肺中葉、右肺下葉、左肺上葉および左肺下葉について確率（ｐ１０，ｐ１１，ｐ１２，ｐ１３，ｐ１４，ｐ１５）＝（０．１，０．１，０．１，０．１，０．１，０．５）のような値が得られる。なお、ｐ１０＋ｐ１１＋ｐ２１＋ｐ３１＋ｐ１４＋ｐ１５＝１である。

　ここで、学習用画像３１Ａに対応する正解ラベル３１Ｂにおいては、左肺および右肺にのみラベルが付与されている。このため、第２の実施形態においては、学習部２２は、導出された確率を、教師データの正解ラベルにより分類されるクラスに基づいて統合する。例えば、ニューラルネットワーク５０に学習用画像３１Ａが入力された場合、導出された確率のうち、右肺上葉、右肺中葉および右肺下葉の確率ｐ１１，ｐ１２，ｐ１３を右肺の確率ｐｔ１１に統合し、左肺上葉および左肺下葉の確率ｐ１４，ｐ１５を左肺の確率ｐｔ１２に統合する。この場合、ｐｔ１１＝ｐ１１＋ｐ１２＋ｐ１３、ｐｔ１２＝ｐ１４＋ｐ１５となる。したがって、確率（ｐ１０，ｐ１１，ｐ１２，ｐ１３，ｐ１４，ｐ１５）＝（０．１，０．１，０．１，０．１，０．１，０．５）の場合、統合確率（ｐ１０，ｐｔ１１，ｐｔ１２）＝（０．１，０．３，０．６）となる。

　学習部２２は、統合された確率分布および正解ラベルを用いて交差エントロピー誤差を損失Ｌ０として導出する。交差エントロピー誤差は、確率分布と正解ラベルにより表されるベクトルとの距離に相当する。ここで、入力された学習用画像３１Ａの正解ラベル３１Ｂには左肺および右肺の領域にラベルが付与されているため、統合確率との損失を導出するための正解ラベルのベクトルは右肺の場合（０，１，０）であり、左肺の場合（０，０，１）となる。

　学習部２２は、損失Ｌ０が終了条件を満たすまで、ニューラルネットワーク５０の学習を行う。終了条件は第１の実施形態と同様である。

　なお、図１０に示す学習用画像３２Ａがニューラルネットワーク５０に入力された場合、学習用画像３２Ａの正解ラベル３２Ｂには、右肺上葉、右肺中葉、右肺下葉、左肺上葉および左肺下葉のそれぞれにラベルが付与されている。この場合、学習部２２は、図１２に示すように確率分布（ｐ１０，ｐ１１，ｐ１２，ｐ１３，ｐ１４，ｐ１５）を統合することなく、確率と正解ラベルとの損失Ｌ０を導出してニューラルネットワーク５０の学習を行う。この場合、正解ラベルのベクトルは、背景の場合（１，０，０，０，０，０）、右肺上葉の場合（０，１，０，０，０，０）、右肺中葉の場合（０，０，１，０，０，０）、右肺下葉の場合（０，０，０，１，０，０）、左肺上葉の場合（０，０，０，０，１，０）、左肺下葉の場合（０，０，０，０，０，１）となる。

　このような機械学習により構築された学習済みニューラルネットワークは、ＣＴ画像が入力されると、ＣＴ画像の各画素について、右肺上葉、右肺中葉、右肺下葉、左肺上葉、左肺下葉および背景であることの確率を出力するようになる。したがって、第２の実施形態による学習装置によって構築された学習済みニューラルネットワークを用いることにより、各画素について最大の確率となる領域に、ＣＴ画像を分類することが可能となる。

　なお、上記第２の実施形態においては、肺を五葉の領域に分類しているが、分類の対象はこれに限定されるものではない。例えば、肝臓を８つの肝臓区域Ｓ１～Ｓ８に分類する学習済みニューラルネットワークを構築する場合にも第２の実施形態による学習装置を適用できる。この場合、区域Ｓ１～Ｓ３を肝左葉に統合し、区域Ｓ４～Ｓ８を肝右葉に統合することにより、上記第２の実施形態と同様にニューラルネットワークの学習を行うことができる。また、骨を、頭骨、背骨、肋骨、肩甲骨、骨盤、腕および脚のそれぞれに分類するニューラルネットワークを学習する際に、頭骨、背骨、肋骨、肩甲骨および腕を上半身骨格に統合し、骨盤および脚を下半身骨格に統合することにより、上記第２の実施形態と同様にニューラルネットワークの学習を行うことができる。

　また、上記各実施形態においては、画像に含まれる肝臓および肺の領域を分類しているが、これに限定されるものではない。肝臓および肺の他に、画像に含まれる心臓、脳、腎臓、骨および四肢等の人体の任意の部位を分類する場合にも第１の実施形態の技術を適用できる。

　また、上記実施形態においては、クラス分類をする画像としてＣＴ画像を用いているが、これに限定されるものではない。ＭＲＩ画像等の３次元画像の他、単純撮影により取得された放射線画像等、任意の画像を学習用画像として用いることにより、任意の画像内の領域を複数種類のクラスに分類する学習済みニューラルネットワークを構築することができる。

　また、上記実施形態においては、医用画像内の領域を複数種類のクラスに分類する学習済みニューラルネットワークを構築しているが、これに限定されるものではない。医用画像以外の写真画像、動画像、音声およびテキスト等の表現媒体を複数種類のクラスに分類する場合にも，本実施形態の技術を適用することができる。

　また、上記実施形態において、例えば、情報取得部２１および学習部２２といった各種の処理を実行する処理部（Processing Unit）のハードウェア的な構造としては、次に示す各種のプロセッサ（Processor）を用いることができる。上記各種のプロセッサには、上述したように、ソフトウェア（プログラム）を実行して各種の処理部として機能する汎用的なプロセッサであるＣＰＵに加えて、ＦＰＧＡ（Field Programmable Gate Array）等の製造後に回路構成を変更可能なプロセッサであるプログラマブルロジックデバイス（Programmable Logic Device :PLD）、ＡＳＩＣ（Application Specific Integrated Circuit）等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が含まれる。

　１つの処理部は、これらの各種のプロセッサのうちの１つで構成されてもよいし、同種または異種の２つ以上のプロセッサの組み合わせ（例えば、複数のＦＰＧＡの組み合わせまたはＣＰＵとＦＰＧＡとの組み合わせ）で構成されてもよい。また、複数の処理部を１つのプロセッサで構成してもよい。

　複数の処理部を１つのプロセッサで構成する例としては、第１に、クライアントおよびサーバ等のコンピュータに代表されるように、１つ以上のＣＰＵとソフトウェアとの組み合わせで１つのプロセッサを構成し、このプロセッサが複数の処理部として機能する形態がある。第２に、システムオンチップ（System On Chip:SoC）等に代表されるように、複数の処理部を含むシステム全体の機能を１つのＩＣ（Integrated Circuit）チップで実現するプロセッサを使用する形態がある。このように、各種の処理部は、ハードウェア的な構造として、上記各種のプロセッサの１つ以上を用いて構成される。

　さらに、これらの各種のプロセッサのハードウェア的な構造としては、より具体的には、半導体素子等の回路素子を組み合わせた電気回路（Circuitry）を用いることができる。

　　　１　　コンピュータ
　　　２　　モダリティ
　　　３　　画像保管サーバ
　　　４　　ネットワーク
　　　１１　　ＣＰＵ
　　　１２　　メモリ
　　　１３　　ストレージ
　　　１４　　ディスプレイ
　　　１５　　入力デバイス
　　　２０　　学習装置
　　　２１　　情報取得部
　　　３０～３２　　教師データ
　　　３０Ａ～３２Ａ　　学習用画像
　　　３０Ｂ～３２Ｂ　　正解ラベル
　　　３０Ｃ，３１Ｃ，３１Ｄ，３２Ｃ，３２Ｄ，３２Ｅ，３２Ｆ，３２Ｇ　　ラベル
　　　４０，５０　　ニューラルネットワーク
　　　４１，５１　　入力層
　　　４２，５２　　中間層
　　　４３，５３　　出力層
　　　Ｌ０　　損失

Claims

　表現媒体を３以上の複数種類のクラスに分類するニューラルネットワークを機械学習する学習装置であって、
　少なくとも１つのプロセッサを備え、
　前記プロセッサは、
　学習用表現媒体および前記学習用表現媒体に含まれる複数種類のクラスのうちの少なくとも１つのクラスについての正解ラベルからなる教師データを取得し、
　前記学習用表現媒体を前記ニューラルネットワークに入力して前記学習用表現媒体に含まれるクラスについての前記複数種類のクラスのそれぞれであることの確率を出力させ、
　前記複数種類のクラスのそれぞれであることの確率を、前記教師データの正解ラベルにより分類されるクラスに基づいて統合し、
　前記統合された確率および前記教師データの正解ラベルから導出される損失に基づいて、前記ニューラルネットワークを学習する学習装置。
　前記表現媒体は画像であり、
　前記複数種類のクラスは、前記画像内の背景を含む複数の領域であり、
　前記プロセッサは、前記複数種類のクラスであることの確率のうち、前記学習用表現媒体についての前記正解ラベルにより分類されるクラス以外の他のクラスの確率と前記背景の確率とを加算することにより、前記複数種類のクラスのそれぞれであることの確率を統合する請求項１に記載の学習装置。
　前記正解ラベルにより分類されるクラスが、前記複数種類のクラスのうちの２以上のクラスを含み、
　前記プロセッサは、前記複数種類のクラスであることの確率のうち、前記正解ラベルにより分類される前記２以上のクラスの確率を加算することにより、前記複数種類のクラスのそれぞれであることの確率を統合する請求項１に記載の学習装置。
　前記プロセッサは、前記正解ラベルが異なる複数の教師データを用いて前記ニューラルネットワークを学習する請求項１から３のいずれか１項に記載の学習装置。
　表現媒体を３以上の複数種類のクラスに分類するニューラルネットワークを機械学習する学習方法であって、
　学習用表現媒体および前記学習用表現媒体に含まれる複数種類のクラスのうちの少なくとも１つのクラスについての正解ラベルからなる教師データを取得し、
　前記学習用表現媒体を前記ニューラルネットワークに入力して前記学習用表現媒体に含まれるクラスについての前記複数種類のクラスのそれぞれであることの確率を出力させ、
　前記複数種類のクラスのそれぞれであることの確率を、前記教師データの正解ラベルにより分類されるクラスに基づいて統合し、
　前記統合された確率および前記教師データの正解ラベルから導出される損失に基づいて、前記ニューラルネットワークを学習する学習方法。
　表現媒体を３以上の複数種類のクラスに分類するニューラルネットワークを機械学習する学習方法をコンピュータに実行させる学習プログラムであって、
　学習用表現媒体および前記学習用表現媒体に含まれる複数種類のクラスのうちの少なくとも１つのクラスについての正解ラベルからなる教師データを取得する手順と、
　前記学習用表現媒体を前記ニューラルネットワークに入力して前記学習用表現媒体に含まれるクラスについての前記複数種類のクラスのそれぞれであることの確率を出力させる手順と、
　前記複数種類のクラスのそれぞれであることの確率を、前記教師データの正解ラベルにより分類されるクラスに基づいて統合する手順と、
　前記統合された確率および前記教師データの正解ラベルから導出される損失に基づいて、前記ニューラルネットワークを学習する手順とをコンピュータに実行させる学習プログラム。