JPWO2019167883A1

JPWO2019167883A1 - 機械学習装置および方法

Info

Publication number: JPWO2019167883A1
Application number: JP2020503492A
Authority: JP
Inventors: ディーパックケシュワニ; 嘉郎北村
Original assignee: Fujifilm Corp
Current assignee: Fujifilm Corp
Priority date: 2018-02-28
Filing date: 2019-02-25
Publication date: 2021-02-25
Anticipated expiration: 2039-02-25
Also published as: JP7022195B2; WO2019167883A1; US20200380313A1

Abstract

ラベル付けが混在する学習データを用いて、ボリュームデータに複数のラベルを一挙に精度良く付するラベリングの機械学習が可能な機械学習装置および方法を提供する。確率算出部（１４）は、学習済みの教師モデル（１３ａ）による、第２スライス画像の各ボクセルに対するクラスCiへのラベリングの確からしさを示す値（ソフトラベル）を算出する。検出部（１５）は、第２スライス画像のボクセルに対し、領域拡張法などの公知の手法により、「気管支」および「血管」を検出し、「気管支」および「血管」のラベリングを行う。修正確率設定部（１６）は、検出部（１５）の検出した「気管支」または「血管」のハードラベルによってソフトラベルを置き換える。蒸留部（１７）は、修正確率設定部（１６）による修正後のソフトラベルを用いて、教師モデル（１３ａ）から生徒モデル（１８ａ）の蒸留（distillation）を行う。これにより、学習済みの生徒モデル（１８ａ）が得られる。

Description

本発明は機械学習装置および方法に関し、特に、画像の構造の分類（セグメンテーション）を行う機械学習モデルを構築するための機械学習装置および方法に関する。

従来、ＣＴ（Computed Tomography）画像など３次元の医用画像データ（ボリュームデータ）に対して、各画素値が複数のラベルのいずれかに属するかを決定する学習済みモデルを用いて、それよりも規模の小さい学習モデルを機械学習させる“蒸留”（distillation）という技術が存在する。蒸留（distillation）は、softmax関数を用いて分類の確率（ソフトターゲットあるいはソフトラベルと呼ばれる値）を算出し、ソフトターゲットを用いて、学習済みモデルとは異なる別の学習モデルのニューラルネットワークの重みを更新するものである。

特開2017-182320号公報

Geoffrey Hinton, Oriol Vinyals, Jeff Dean, "Distilling the Knowledge in a Neural Network" 、インターネット<URL https://arxiv.org/abs/1503.02531>

肺の所見分類においては、「正常」、「網状」、「蜂窩」、「すりガラス」、「穏やかなLow attenuation area (LAA)」、「中程度のLAA」、「高度のLAA」、「牽引性気管支拡張」、「点状影」など３０を超える画像パターンがある。これらを機械学習するための正解ラベルを作成する場合、２次元のスライス画像で対象領域を囲む程度のことは容易であるが、３次元のスライス画像で正解ラベルを作成することは困難である。

そこで２次元画像を入力してニューラルネットワークを学習させて学習モデルを構築し、この学習モデルを３次元画像のスライスごとに適用することが考えられる。しかし、分類対象の構造物が血管や気管支など３次元である場合、それらの見え方が異なる場合には、学習モデルは高い精度でこれを分類することはできない。例えば、スライスに垂直に走行する血管は、点状影として分類される。一方、血管や気管支を３次元的にラベリングすることは、疾患パターンへのラベリングよりも容易である。

本発明は、分類対象の構造物に応じてより精度の高く効率的な蒸留（distillation）を可能とする機械学習装置および方法を提供することを目的とする。

本発明の第１の態様に係る機械学習装置は、第１のニューラルネットワークで構築された、第１ボリュームデータの分類が可能な第１の学習済みモデルによって、第１ボリュームデータと異なる第２ボリュームデータの分類の確からしさを示す確率を算出する確率算出部と、第２ボリュームデータの分類の確からしさを示す確率を修正した修正確率を設定する修正確率設定部と、第２ボリュームデータと修正確率とに基づいて、第１の学習済みモデルと異なる第２の学習済みモデルを得るための機械学習を、第１のニューラルネットワークと異なる第２のニューラルネットワークにさせる機械学習部と、を備える。

本発明の第２の態様に係る機械学習装置において、第１ボリュームデータは２次元データであり、第２ボリュームデータは３次元データである。

本発明の第３の態様に係る機械学習装置において、第１ボリュームデータは２次元医用断層画像であり、第２ボリュームデータは第１ボリュームデータよりもスライス厚の薄い複数の２次元医用断層画像を含む３次元医用断層画像である。

本発明の第４の態様に係る機械学習装置において、第１のニューラルネットワークは２次元畳み込みニューラルネットワークであり、第２のニューラルネットワークは３次元畳み込みニューラルネットワークである。

本発明の第５の態様に係る機械学習装置において、第１ボリュームデータは３次元データであり、第２ボリュームデータは４次元データである。

本発明の第６の態様に係る機械学習装置において、修正確率設定部は、確率算出部から算出された第２ボリュームデータの分類確率に対し、第２ボリュームデータから手動または自動のラベリングにより得られる少なくとも１つの領域抽出の結果に基づき、修正確率を設定する。

本発明の第７の態様に係る機械学習装置において、修正確率設定部は、領域拡張法により判別された分類に基づいて修正確率を設定する。

本発明の第８の態様に係る機械学習方法は、第１のニューラルネットワークで構築された、第１ボリュームデータの分類が可能な第１の学習済みモデルによって、第１ボリュームデータと異なる第２ボリュームデータの分類の確からしさを示す確率を算出するステップと、第２ボリュームデータの分類の確からしさを示す確率を修正した修正確率を設定するステップと、第２ボリュームデータと修正確率とに基づいて、第１の学習済みモデルと異なる第２の学習済みモデルを得るための機械学習を、第１のニューラルネットワークと異なる第２のニューラルネットワークにさせるステップと、を含む。

上記の機械学習方法をコンピュータに実行させるための機械学習プログラムおよびこの機械学習プログラムによって機械学習された機械学習済みモデルも本発明に含まれる。更に、非一時的かつコンピュータ読取可能な記録媒体であって、記録媒体に格納された指令がコンピュータによって読み取られた場合に上記の機械学習プログラムをコンピュータに実行させる記録媒体も本発明に含まれる。

この発明によると、従来の領域拡張法などで得られた正確な分類（ハードラベル）によって確率（ソフトラベル）を修正して蒸留（distillation）を行えば、より高い精度で学習済みモデルから別のモデルを学習させることができる。

機械学習装置の概略構成図スライス画像の一例を示す図機械学習処理のフローチャート

図１は本発明の好ましい実施形態に係る機械学習装置１の概略構成図である。機械学習装置１は、学習データ入力部１１、機械学習部１２、第１ニューラルネットワーク１３、確率算出部１４、修正確率設定部１６、および第２ニューラルネットワーク１８を備える。

学習データ入力部１１は、１枚のアキシャル断層画像（第１スライス画像Ithick）からなる第１ボリュームデータと、その第１ボリュームデータに含まれる各ボクセルに対し、医師などが手動で、「肺実質」、「気管支」、「血管」、「腫瘤」、「その他」などの正解のラベルを付すこと（ラベリング）で、画像内の各画素がn種類の解剖学的構造（クラスCi,1≦i≦n）に分類された正解マスクとの組（学習データ）の入力を受け付ける。

第１ニューラルネットワーク１３は２次元畳み込みニューラルネットワークである。機械学習部１２は、学習データ入力部１１から入力された学習データに基づいて、第１ニューラルネットワーク１３を機械学習させることで、スライス画像にラベリングを行う学習済みモデル（教師モデル１３ａ）を得る。

また、第１ニューラルネットワーク１３の学習で得られた教師モデル１３ａは、学習データ入力部１１から入力された多数のアキシャル断層画像（マルチスライス画像）からなる第２ボリュームデータの各々のスライス画像（第２スライス画像Ithin-1,Ithin-2,…）のボクセルに対しラベリングを行う。マルチスライス画像は平面画像と撮影時間とからなる動画であってもよい。

図２に示すように、この第２スライス画像Ithin-1,Ithin-2,…のスライス厚βは、学習データの第１スライス画像Ithickのスライス厚αよりも薄いものとする。すなわちα＞βである。

第１スライス画像Ithickのスライス厚αや第２スライス画像Ithin-1,Ithin-2,…のスライス厚βを無視すれば、これらは疑似的な２次元画像データとして扱うことができる。このため、第１ニューラルネットワーク１３により、第１スライス画像Ithickや第２スライス画像Ithin-1,Ithin-2,…の各ボクセルに対し、ラベリングを行うことが可能である。第１スライス画像Ithickと正解マスクとの組から、教師モデル１３ａが得られる。

教師モデル１３ａは、第２スライス画像Ithin-1,Ithin-2,…の各々のボクセルへの、肺実質、気管支、血管、腫瘤、その他などのクラスCiへのラベリングを行う。

確率算出部１４は、学習済みの教師モデル１３ａによる、第２スライス画像の各ボクセルに対するクラスCiへのラベリングの確からしさを示す値pi（ソフトラベル）を算出する。

これは非特許文献１に記載のように、教師モデル１３ａのsoftmax層を用いれば、第２スライス画像の各ボクセルに対するソフトラベルすなわち各クラスCiの温度付き確率piは以下の式（温度付きsoftmax関数）で求めることができる。viはロジット（logit）である。なおTは通常１であるが、より大きい値とすることでより各モデルの出力分布がよりソフトとなる。

例えば、クラスCiの添え字i=1〜5は、「肺実質」、「気管支」、「血管」、「腫瘤」、「それ以外」に対応するものとすると、第２スライス画像Ithin-1の座標(x1,y1,z1)のボクセルB1に対し、教師モデル１３ａのsoftmax層を用いた各クラスCiの温度付き確率pi(B1)は
p1(B1)(=ボクセルB1に対する肺実質のソフトラベル)=0.8
p2(B1)(=ボクセルB1に対する気管支のソフトラベル)=0.03
p3(B1)(=ボクセルB1に対する血管のソフトラベル)=0.05
p4(B1)(=ボクセルB1に対する腫瘤のソフトラベル)=0.05
p5(B1)(=ボクセルB1に対するそれ以外のソフトラベル)=0.07
などと算出される。ただし、気管支や血管のように、アキシャル方向に延びる解剖学的構造は、教師モデル１３ａによる検出は精度が高いとは言えない。これは、α＞βであり、第１スライス画像にある気管支や血管の特徴を示す情報が、個々の第２スライス画像では失われている可能性があるからである。

検出部１５は、第２スライス画像のボクセルに対し、領域拡張法などの公知の手法により、「気管支」および「血管」を検出し、「気管支」および「血管」のラベリングを行う。これらのラベリングは確率的な確からしさが０または１のハードラベルである。あるいは、検出部１５は、医師などの手動操作に基づいて、第２スライス画像のボクセルに対する「気管支」および「血管」のラベリングを検出することで、確率的な確からしさが０または１のハードラベルを各ボクセルに付与してもよい。

例えば、領域拡張法による「気管支」の検出は、気管支内部の空気領域に対応する画素値を有する連続した領域を抽出する手法（特に、所定の条件を満たす程度に画素値が近似する、近接した画素を連結する手法）が挙げられる。この画素の連結はアキシャル方向についても行われるため、第２スライス画像から比較的精度の高い気管支の抽出が可能である。

また例えば、「血管」の検出は、領域拡張法による他、ヘッセ行列等に基づく線フィルタにより血管らしい領域を抽出し、未分類の血管の領域に連結することによって未分類の血管の領域を拡張させる手法が挙げられる。

「気管支」および「血管」の他の検出方法としては、グラフカット法やレベルセット法等の公知の手法がある。

なお検出部１５は、公知の方法で、第２スライス画像から「気管支」および「血管」以外の解剖学的構造を検出してもよい。例えば、検出部１５は、領域拡張法を用いて心内腔領域を検出してもよい。検出部１５は、自動検出、手動操作、あるいはそれらの組み合わせにより、第２スライス画像から「気管支」や「血管」などの解剖学的構造を検出することができる。

修正確率設定部１６は、第２スライス画像のボクセルにおいて検出部１５が検出した「気管支」または「血管」のハードラベルによって、上記ボクセルのソフトラベルを置き換える。

例えば、上述の第２スライス画像Ithin-1の座標(x1,y1,z1)とは異なる座標(xk,yk,zk)のボクセルBkについて、検出部１５により「気管支」のハードラベル「１」が付与された場合は、ボクセルBkのソフトラベルは以下のように書き換えられる。

p1(Bk)(=ボクセルBkに対する肺実質のソフトラベル)=0.8→0.0
p2(Bk)(=ボクセルBkに対する気管支のソフトラベル)=0.35→1
p3(Bk)(=ボクセルBkに対する血管のソフトラベル)=0.05→0.0
p4(Bk)(=ボクセルBkに対する腫瘤のソフトラベル)=0.0
p5(Bk)(=ボクセルBkに対する腫瘤のソフトラベル)=0.0
あるいは、上述の座標(x1,y1,z1)および(xk,yk,zk)とは異なる座標(xm,ym,zm)のボクセルBmについて、検出部１５により「血管」のハードラベル「１」が付与された場合は、ボクセルBmのソフトラベルは以下のように書き換えられる。

p1(Bm)(=ボクセルBmに対する肺実質のソフトラベル)=0.2→0.0
p2(Bm)(=ボクセルBmに対する気管支のソフトラベル)=0.1→0.0
p3(Bm)(=ボクセルBmに対する血管のソフトラベル)=0.4→1
p4(Bm)(=ボクセルBmに対する腫瘤のソフトラベル)=0.1→0.0
p5(Bm)(=ボクセルBmに対する腫瘤のソフトラベル)=0.3→0.0
なお検出部１５によって「気管支」または「血管」のハードラベルが検出されないボクセルについては、ソフトラベルの書き換えは生じない。

第２ニューラルネットワーク１８は３次元畳み込みニューラルネットワークである。

蒸留部１７は、修正確率設定部１６による修正後のソフトラベルと、修正のされなかったソフトラベルとを用いて、教師モデル１３ａから、第２ニューラルネットワーク１８の未学習の生徒モデル１８ａの蒸留（distillation）を行うことで、学習済みの生徒モデル１８ａを得る。蒸留（distillation）は、例えば非特許文献１に記載の手法に従えばよい。

すなわち、まず確率算出部１４は、生徒モデル１８ａによる、第２スライス画像の各ボクセルに対するクラスCiへのラベリングの確からしさを示す値qi（ソフトラベル）を算出する。

これは非特許文献１に記載のように、第２ニューラルネットワーク１８のsoftmax層を用いて、第２スライス画像の各ボクセルに対するソフトラベルすなわち各クラスCiの温度付き確率qiを求める。qiは以下の式（温度付きsoftmax関数）で求められる。ziはlogitである。

蒸留部１７による蒸留（distillation）とは、ziに対する交差エントロピーＣの勾配

を最小化することである。蒸留（distillation）により、生徒モデル１８ａのqiの出力分布が、教師モデル１３ａのpiの出力分布に近づく。なおTは通常１であるが、より大きい値とすることでより各モデルの出力分布がよりソフトとなる。

典型的には、蒸留（distillation）は、大きくて複雑なニューラルネットワーク（教師）の学んだ知識を蒸留し、小さくて軽量なモデル（生徒）の学習に利用するものであるが、上述の数１および数２を用いることで、２次元ニューラルネットワークの教師モデル１３ａから３次元ニューラルネットワークの生徒モデル１８ａに適用することも可能である。

図３は機械学習装置１の実行する機械学習処理のフローチャートである。

Ｓ１（教師モデル学習ステップ）において、機械学習部１２は、学習データ入力部１１から入力された第１スライス画像と正解マスクの組からなる学習データに基づいて、第１ニューラルネットワーク１３を機械学習させることで、第２スライス画像にラベリングを行うことが可能な学習済みの教師モデル１３ａを得る。

Ｓ２（ソフトラベル算出ステップ）において、確率算出部１４は、学習済みの教師モデル１３ａによる、第２スライス画像の各ボクセルに対するクラスCiへのラベリングの確からしさを示すソフトラベルpiを算出する。

Ｓ３（ハードラベル検出ステップ）において、検出部１５は、第２スライス画像のボクセルに対し、領域拡張法などの公知の手法により、「気管支」および「血管」を検出し、「気管支」および「血管」のラベリングを行う。

Ｓ４（ソフトラベル修正ステップ）において、修正確率設定部１６は、検出部１５の検出した「気管支」または「血管」のハードラベルによってソフトラベルpiを修正する。

Ｓ５（蒸留ステップ）において、蒸留部１７は、修正確率設定部１６による修正後のソフトラベルと、修正のされなかったソフトラベルとを用いて、教師モデル１３ａから生徒モデル１８ａの蒸留（distillation）を行う。これにより、教師モデル１３ａから、学習済みの生徒モデル１８ａが得られる。

教師モデル１３ａは第１スライス画像により学習されたモデルであるため、教師モデル１３ａにより得られた第２スライス画像の「気管支」および「血管」のソフトラベルの確からしさは、精度が高いとは言えない。これに対し、検出部１５に得られた「気管支」および「血管」のハードラベルは、従来の領域拡張法などで正確に抽出できる。これを利用し、第２スライス画像の「気管支」および「血管」のソフトラベルをハードラベルで修正して蒸留（distillation）を行えば、より高い精度で教師モデル１３ａから生徒モデル１８ａを学習させることができる。

なお、上記では、第１ニューラルネットワーク１３は２次元畳み込みニューラルネットワーク、第２ニューラルネットワーク１８は３次元畳み込みニューラルネットワークであり、第１ボリュームデータは疑似的２次元画像、第２ボリュームデータは３次元画像であったが、第１ニューラルネットワーク１３および第２ニューラルネットワーク１８の次元は上記に限られない。

例えば、第１ニューラルネットワーク１３は３次元ニューラルネットワーク、第２ニューラルネットワーク１８は２次元ニューラルネットワークであり、第１ボリュームデータは疑似的３次元画像、第２ボリュームデータは２次元画像であってもよい。疑似的３次元画像は平面画像と撮影時間とからなる動画の１コマであってもよい。

あるいは、第１ニューラルネットワーク１３は３次元ニューラルネットワーク、第２ニューラルネットワーク１８は４次元ニューラルネットワークであり、第１ボリュームデータは３次元画像、第２ボリュームデータは４次元画像であってもよい。４次元画像は立体画像と撮影時刻とからなる動画であってもよい。

また、教師モデル１３ａと生徒モデル１８ａは異なるニューラルネットワークで構築されたモデルであればよく、それぞれのニューラルネットワークの次元は同じであってもよいし異なってもよい。たとえば、教師モデル１３ａと生徒モデル１８ａは異なる２次元ニューラルネットワーク、３次元ニューラルネットワーク、あるいは４次元ニューラルネットワークで構築されてもよい。

１１学習データ入力部
１２機械学習部
１３第１ニューラルネットワーク
１３ａ教師モデル
１４確率算出部
１５検出部
１６修正確率設定部
１７蒸留部
１８第２ニューラルネットワーク
１８ａ生徒モデル

Claims

第１のニューラルネットワークで構築された、第１ボリュームデータの分類が可能な第１の学習済みモデルによって、前記第１ボリュームデータと異なる第２ボリュームデータの分類の確からしさを示す確率を算出する確率算出部と、
前記第２ボリュームデータの分類の確からしさを示す確率を修正した修正確率を設定する修正確率設定部と、
前記第２ボリュームデータと前記修正確率とに基づいて、前記第１の学習済みモデルと異なる第２の学習済みモデルを得るための機械学習を、前記第１のニューラルネットワークと異なる第２のニューラルネットワークにさせる機械学習部と、
を備える機械学習装置。
前記第１ボリュームデータは２次元データであり、前記第２ボリュームデータは３次元データである請求項１に記載の機械学習装置。
前記第１ボリュームデータは２次元医用断層画像であり、
前記第２ボリュームデータは前記第１ボリュームデータよりもスライス厚の薄い複数の２次元医用断層画像を含む３次元医用断層画像である請求項２に記載の機械学習装置。
前記第１のニューラルネットワークは２次元畳み込みニューラルネットワークであり、前記第２のニューラルネットワークは３次元畳み込みニューラルネットワークである請求項２または３に記載の機械学習装置。
前記第１ボリュームデータは３次元データであり、前記第２ボリュームデータは４次元データである請求項１に記載の機械学習装置。
前記修正確率設定部は、前記確率算出部から算出された前記第２ボリュームデータの分類確率に対し、前記第２ボリュームデータから手動または自動のラベリングにより得られる少なくとも１つの領域抽出の結果に基づき、修正確率を設定する請求項１〜５のいずれか１項に記載の機械学習装置。
前記修正確率設定部は、領域拡張法により判別された分類に基づいて修正確率を設定する請求項６に記載の機械学習装置。
第１のニューラルネットワークで構築された、第１ボリュームデータの分類が可能な第１の学習済みモデルによって、前記第１ボリュームデータと異なる第２ボリュームデータの分類の確からしさを示す確率を算出するステップと、
前記第２ボリュームデータの分類の確からしさを示す確率を修正した修正確率を設定するステップと、
前記第２ボリュームデータと前記修正確率とに基づいて、前記第１の学習済みモデルと異なる第２の学習済みモデルを得るための機械学習を、前記第１のニューラルネットワークと異なる第２のニューラルネットワークにさせるステップと、
を含む機械学習方法。
請求項８に記載の機械学習方法をコンピュータに実行させるための機械学習プログラム。
請求項９に記載の機械学習プログラムによって機械学習された機械学習済みモデル。
非一時的かつコンピュータ読取可能な記録媒体であって、前記記録媒体に格納された指令がコンピュータによって読み取られた場合に請求項９に記載の機械学習プログラムをコンピュータに実行させる記録媒体。