WO2023189662A1

WO2023189662A1 - 画像処理・解析装置および画像処理・解析方法

Info

Publication number: WO2023189662A1
Application number: PCT/JP2023/010330
Authority: WO
Inventors: 旭将徳永; 凌也片渕
Original assignee: 国立大学法人九州工業大学
Priority date: 2022-03-31
Filing date: 2023-03-16
Publication date: 2023-10-05

Abstract

半教師あり学習に必要な画像のアノテーションを容易にし、データセットの作成を容易にする。　ニューラルネットワークを用いて、処理対象画像２のセグメンテーションを行う画像処理・解析装置１であって、処理対象画像２を入力するとセグメンテーションされた画像３を出力するように半教師あり学習された学習済みモデル４を用いた分類器５と、処理対象画像２から入力用のパッチ画像１１を複数形成するパッチ画像形成部１２と、分類器５から出力された確率マップ１３に対してフォアグラウンドとバックグラウンドとの境界を明確にする処理を行う輪郭明確部１４を備えている。

Description

画像処理・解析装置および画像処理・解析方法

　本発明は、ニューラルネットワークを用いて画像のセグメンテーションを行う画像処理・解析装置および画像処理・解析方法に関する。セグメンテーションとしては、セマンティックセグメンテーションの他、バイナリセグメンテーション、インスタンスセグメンテーション、パノプティックセグメンテーション等について適用可能である。

　Ｕ－Ｎｅｔなど、教師あり学習に基づくディープラーニング系の画像セグメンテーション手法が多数提案されている。それらを使用するためには、ディープラーニングモデルを訓練するためのアノテーション画像（セグメンテーションの正解例画像）を大量に準備しなくてはならない。ところが自然科学や医学におけるイメージングデータは、訓練データとなるセグメンテーションのアノテーション画像が存在しないことが多い。画像セグメンテーションのためのアノテーション作成作業は画像一枚あたりにかかる作成コストが非常に高く、ディープラーニング系のセグメンテーション技術を導入する上での大きな障壁となっている。

　なお、アノテーションを行うためのツールとして、例えばＬａｂｅｌＭｅ（http://labelme.csail.mit.edu/Release3.0/）がある。
　また、画像のアノテーションのための装置として、例えば特許文献１に開示されてものがある。

特開２０２１－１９１４２９号公報

　画像セグメンテーション用のアノテーション作成は、画像分類のための訓練データ構築よりはるかに作業コストが大きい。イメージングデータによっては、１枚の画像の中に境界を決めやすい領域と決めづらい領域が混在することが多い。例えば、オーロラのように境界が曖昧なものや、血管のような形状が複雑な物体の場合、境界を多角形や曲線で指定することは作業コストが高い。

　そこで、本発明は、画像セグメンテーション用の半教師あり学習に必要な画像のアノテーションを容易にできる技術を提供することを目的とする。

　かかる目的を達成するため、本発明の画像処理・解析装置は、ニューラルネットワークを用いて、処理対象画像のセグメンテーションを行うものであって、処理対象画像を入力するとセグメンテーションされた画像を出力するように半教師あり学習された学習済みモデルを用いた分類器を備え、半教師あり学習に使用されるデータセットは、画像の一部が切り取られてポジティブ・ラベルが付与された複数のフォアグラウンド・パッチ画像と、画像の一部が切り取られてネガティブ・ラベルが付与された複数のバックグラウンド・パッチ画像と、画像の一部が切り取られた複数のラベル無しパッチ画像と、を含んでいる。

　また、本発明の画像処理・解析装置は、データセットのラベル無しパッチ画像が、半教師あり学習においてコスト関数を最小化すべく、少なくとも学習に用いられた画像のフォアグラウンド領域とバックグラウンド領域に関する事前知識が活用できる程度の枚数を自動生成されたものであり、複数のデータセットを使用し、コスト関数を最小化するように半教師あり学習が繰り返し行われるようにしても良い。

　また、本発明の画像処理・解析装置は、処理対象画像から入力用のパッチ画像を複数形成するパッチ画像形成部を備え、分類器に入力用のパッチ画像を入力するようにしても良い。

　また、本発明の画像処理・解析装置は、分類器から出力された確率マップに対してフォアグラウンドとバックグラウンドとの境界を明確にする処理を行う輪郭明確化部を備えていても良い。

　また、本発明の画像処理・解析装置は、学習済みモデルを畳み込みニューラルネットワークとしても良い。

　さらに、本発明の画像処理・解析装置は、半教師あり学習において用いられるコスト関数が、二値分類に使用される損失関数に、データに関する事前知識を罰則項として加えたものである。

　また、本発明の画像処理・解析方法は、ニューラルネットワークを用いて、処置対象画像のセグメンテーションを行うものであって、画像の一部が切り取られてポジティブ・ラベルが付与された複数のフォアグラウンド・パッチ画像と、画像の一部が切り取られてネガティブ・ラベルが付与された複数のバックグラウンド・パッチ画像と、画像の一部がランダムに切り取られた複数のラベル無しパッチ画像とを含むデータセットを用いて、処理対象画像を入力するとセグメンテーションされた画像を出力するように半教師あり学習された学習済みモデルを作成するステップと、学習済みモデルに処理対象画像を入力してセグメンテーションされた画像を作成するステップと、を備えるものである。

　本発明によれば、学習に用いるアノテーションは、フォアグラウンド領域とバックグラウンド領域の境界をなぞって指定するのではなく、フォアグラウンド領域又はバックグラウンド領域と思われる部分をパッチ画像としてユーザが指定する。アノテーションは分類器の訓練（学習）のために用いるので、推論時（処理対象画像のセグメンテーション処理時）には新たなアノテーションは不要となる。

　また、本発明によれば、半教師あり学習に基づき、部分的なアノテーションからバイナリセグメンテーションを実現する手法を構築できる。例えば３０分以内に訓練データの構築が終わる。少数のアノテーションデータ（１００～２００枚程度の画像）から、実用的なセグメンテーションができるようになる。

本発明の画像処理装置によるセグメンテーションの流れを示す概念図である。本発明の画像処理・解析装置の一例を示すブロック図である。データセットの作成を説明するための概念図である。一般的なアノテーションの手法を説明するための概念図である。本発明の画像処理・解析方法の処理の手順を示すフローチャートである。第１の実施例を示し、画像処理・解析装置による処理全体の流れを示す概念図である。第２の実施例を示し、判定用ラベル画像と教師ラベル画像との比較（混同行列）を説明するための図である。第２の実施例を示し、ＡＣＣＵＲＡＣＹを求める数式である。コンクリート壁面に生じたクラックの画像を対象にしたセマンティックセグメンテーション処理の結果を示し、（ａ）は処理対象画像を示す図、（ｂ）は分類器から出力された確率マップを示す図である。オーロラの画像を対象にしたセマンティックセグメンテーション処理の結果を示し、（ａ）は処理対象画像を示す図、（ｂ）は分類器から出力された確率マップを示す図である。データセットの他の実施例を示し、その作成を説明するための概念図である。

　以下、本発明に係る画像処理・解析装置の実施形態の一例について、図面を参照しながら説明する。
　図１及び図２に、本発明に係る画像処理・解析装置を示す。画像処理・解析装置１は、ニューラルネットワークを用いて、処理対象画像２のセグメンテーションを行うものであって、処理対象画像２を入力するとセグメンテーションされた画像３を出力するように半教師あり学習された学習済みモデル４を用いた分類器５を備えている。本実施形態の画像処理・解析装置１は、処理対象画像２から入力用のパッチ画像１１を複数形成するパッチ画像形成部１２を備えており、分類器５に入力用のパッチ画像１１を入力するように構成されている。また、本実施形態の画像処理・解析装置１は、分類器５から出力された確率マップ１３に対してフォアグラウンドとバックグラウンドとの境界を明確にする処理を行う輪郭明確部１４を備えている。

　先ず、学習済みモデル４の機械学習に使用されるデータセット６について説明する。図３にデータセット６の作成を示す。学習済みモデル４の半教師あり学習に使用されるデータセット６は、学習用画像７の一部が切り取られてポジティブ・ラベルが付与された複数のフォアグラウンド・パッチ画像８と、学習用画像７の一部が切り取られてネガティブ・ラベルが付与された複数のバックグラウンド・パッチ画像９と、学習用画像７の一部が切り取られた複数のラベル無しパッチ画像１０とを含んでいる。

　学習用画像７のピクセルはフォアグラウンド領域とバックグラウンド領域とに分かれている。フォアグラウンド・パッチ画像８は、例えば、その中心のピクセルが学習用画像７のフォアグラウンド領域に属するように切り取られたパッチ画像である。このような切り取り方をすることで、一般的には、フォアグラウンド・パッチ画像８が学習用画像７のフォアグラウンド領域をバックグラウンド領域よりも多く含むパッチ画像になると考えられる。なお、中心のピクセルが学習用画像７のフォアグラウンド領域に属するように学習用画像７の一部を切り取る代わりに、単にフォアグラウンド領域をより多く含むように学習用画像７の一部を切り取るようにしても良い。本実施形態では、フォアグラウンド・パッチ画像８の形状を四角形としているが、四角形に限るものではなく、円形でも良く、その他の形状でも良い。データセット６には多数のフォアグラウンド・パッチ画像８が含まれる。

　バックグラウンド・パッチ画像９は、例えば、その中心のピクセルが学習用画像７のバックグラウンド領域に属するように切り取られたパッチ画像である。このような切り取り方をすることで、一般的には、バックグラウンド・パッチ画像９が学習用画像７のバックグラウンド領域をフォアグラウンド領域よりも多く含むパッチ画像になると考えられる。なお、中心のピクセルが学習用画像７のバックグラウンド領域に属するように学習用画像７の一部を切り取る代わりに、単にバックグラウンド領域をより多く含むように学習用画像７の一部を切り取るようにしても良い。本実施形態では、バックグラウンド・パッチ画像９の形状を四角形としているが、四角形に限るものではなく、円形でも良く、その他の形状でも良い。データセット６には多数のバックグラウンド・パッチ画像９が含まれる。

　ラベル無しパッチ画像１０は、学習用画像７の任意の位置が例えばランダムに切り取られたパッチ画像である。本実施形態では、ラベル無しパッチ画像１０の形状を四角形としているが、四角形に限るものではなく、円形でも良く、その他の形状でも良い。データセット６には多数のラベル無しパッチ画像１０が含まれる。なお、ラベル無しパッチ画像１０は学習用画像７の一部を例えばランダムに切り取ったものであり、ラベル無しパッチ画像１０の枚数を多くすればするほど、学習用画像７のフォアグラウンド領域の性質に関する事前知識をニューラルネットワークの学習に活用しやすくなると考えられる。そのため、ラベル無しパッチ画像１０は、少なくとも学習用画像７のフォアグラウンド領域に関する特徴的な性質を正しく推定できる枚数を図示しないパッチジェネレータによって自動生成されている。なお、ニューラルネットワークの学習に活用できるフォアグラウンド領域についての特徴的性質とは、例えば学習用画像全体の面積に対してフォアグラウンド領域が占める平均的な割合などである。この場合、コスト関数の中に事前知識としてユーザが与えた上記平均的割合と、ラベルなしパッチ画像１０のうち学習途中のニューラルネットワークがフォアグラウンドと予測したパッチ画像が占める割合が近いほど、ニューラルネットワークの学習が正しく進んでいると判断できる。その他、フォアグラウンド領域の形状や複数のフォアグラウンド領域の位置関係などが、ニューラルネットワークの学習に活用できると考えられる。

　１枚の学習用画像７から多数のパッチ画像８，９，１０が形成される。また、データセット６には、複数回分の学習用画像７のパッチ画像８，９，１０が含まれる。
　パッチ画像８，９，１０は同サイズ且つ同形状の画像であり、更に後述する入力用のパッチ画像１１とも同サイズ且つ同形状の画像である。
　なお、ラベル無しパッチ画像１０の枚数、すなわち、学習用画像７のフォアグラウンド領域に関する特徴的性質が正しく推定又はある程度正しく推定できる程度の枚数は、パッチ画像８，９の枚数よりも多くなることが一般的である。

　このような構成のデータセット６は作成が極めて容易である。すなわち、学習用画像７のアノテーションが極めて容易である。
　一般的なアノテーションでは、図４に示すように、学習用画像１７のフォアグラウンド領域とバックグラウンド領域を作業者が見極め、フォアグラウンド領域を多角形の境界線１８で囲む。このとき、フォアグラウンド領域の輪郭をなぞるようにして境界線１８を形成する。そのため、アノテーションの作業が手間のかかるものとなる。特に、オーロラや雲等の輪郭の見極めが難しいものの画像や、毛細血管等の輪郭の形状が複雑な画像についてのアノテーション作業は極めて手間のかかるものとなる。

　これに対し、データセット６では、図３に示すように、学習用画像７の一部である狭い領域をバウンディングボックス等の予め準備された枠線１６で囲んで切り取り、ポジティブ・ラベル又はネガティブ・ラベルを付与することでアノテーションされたパッチ画８，９を形成することができる。枠線１６はマウス操作等によって移動可能になっており、モニタに表示されている学習用画像７上の任意の位置に枠線１６を移動させることができる。フォアグラウンド領域又はバックグラウンド領域であると明確に判定できる位置に枠線１６を移動させて画像を切り取ることで、フォアグラウンド・パッチ画像８又はバックグラウンド・パッチ画像９を簡単に形成することができる。そのため、半教師あり学習に使用する学習用データのアノテーション作業が極めて容易になる。

　このようにして必要枚数のパッチ画像８，９が形成される。各パッチ画像８，９は部分的に重なっていても良い。また、１枚のパッチ画像８，９の中にフォアグラウンド領域とポジティブ領域が混在していても良い。もちろん、１枚のパッチ画像８の中はフォアグラウンド領域だけでも良く、１枚のパッチ画像９の中はバックグラウンド領域だけでも良い。

　また、ラベル無しパッチ画像１０は例えばランダムに領域を切り取れば良いので、作成作業のコンピュータによる自動化が容易である。そのため、ラベル無しパッチ画像１０の大量枚数の作成が容易であり、半教師あり学習に適したデータセット６の作成が容易である。なお、各ラベル無しパッチ画像１０は部分的に重なっていても良い。

　なお、上述の説明では、ラベル無しパッチ画像１０を、学習用画像７の一部をランダムに切り取ることで形成していたが、これに限るものではない。すなわち、学習用画像７のフォアグラウンド領域とバックグラウンド領域に関する事前知識が活用することが可能であれば、学習用画像７の一部をランダムに切り取った画像でなくても良い。例えば、学習用画像７の切り取り位置をラスタースキャンのように例えば端から端まで（例えば左上から右下まで縦横に少しずつずらして）順番に切り取るようにしても良い。この場合、各ラベル無しパッチ画像１０は部分的に重なっていても良い。

　半教師あり学習としては、例えばＰＮＵ学習（ＰＮＵ　Ｌｅａｒｎｉｎｇ）が採用可能であるが、これに限るものではない。
　例えば、ＰＮＵ学習では、ＰＮ学習、ＰＵ学習、ＮＵ学習のリスクを組み合わせたＰＮＵリスクから導出されるＰＮＵ　ｌｏｓｓを用いてパラメータの調整が行われるが、Ｆｏｃａｌ　Ｌｏｓｓを半教師あり学習に拡張し且つクラス事前確率罰則項を加えたコスト関数を用いてパラメータの調整が行われる半教師あり学習を採用することも可能である。

　半教師あり学習では複数のデータセット６が使用される。また、コスト関数を最小化するように半教師あり学習が繰り返し行われる。データセット６に含まれるラベル無しパッチ画像１０は、学習用画像７のフォアグラウンド領域とバックグラウンド領域に関する事前知識を活用するのに必要な枚数設けられているので、半教師あり学習での罰則項を最小化してコスト関数を最小化し易くなる。

　データセット６を使用して半教師あり学習された学習済みモデル４を用いて画像処理装置１は処理対象画像２のバイナリセグメンテーションを行う。
　処理対象画像２はバイナリセグメンテーションの対象となる画像であり、本実施形態ではデータベース１５に予め記憶されている。データベース１５から画像処理装置１に入力された処理対象画像２はパッチ画像形成部１２に供給される。

　パッチ画像形成部１２は、処理対象画像２から当該処理対象画像２よりもサイズの小さな入力用のパッチ画像１１を複数枚形成する。すなわち、処理対象画像２の一部を切り取ることでパッチ画像１１を形成する。パッチ画像１１は、データセット６のパッチ画像８～１０と同サイズである。本実施形態では、パッチ画像１１の切り取り位置をラスタースキャンのように例えば処理対象画像２の左上から右下まで縦横に少しずつ（例えば数ピクセルずつ）ずらしている。形成した複数枚のパッチ画像１１は分類器５に供給される。

　分類器５は、ニューラルネットワークを用いた学習済みモデル４により構成されている。好ましくは、学習済みモデル４は畳み込みニューラルネットワーク（ＣＮＮ、Ｃｏｎｖｏｌｕｔｉｏｎａｌ　ｎｅｕｒａｌ　ｎｅｔｗｏｒｋ）により構成される。畳み込みニューラルネットワークを用いることで、画像セグメンテーションを精度良く行うことが可能になる。本実施形態では、畳み込みニューラルネットワークとして、例えばＲｅｓＮｅｔ－１８を採用しているが、これに限るものではなく、例えば通常の畳み込み多層ニューラルネットワークや、ＳｅｇＮｅｔ、Ｍｏｂｉｌｅ－Ｎｅｔ等の採用も可能である。

　データセット６を用いて半教師あり学習された学習済みモデル４にパッチ画像１１を入力すると、セグメンテーションされた確率マップ１３が出力される。

　分類器５から出力された確率マップ１３は、輪郭明確化部１４に供給される。輪郭明確化部１４では確率マップ１３に対して例えばＣＲＦ（Ｃｏｎｄｉｔｉｏｎａｌ　Ｒａｎｄｏｍ　Ｆｉｅｌｄ、条件付き確率場）が適用され、フォアグラウンド領域とバックグラウンド領域の境界が明確化される。輪郭明確化部１４ではＣＲＦを１回適用しても良いし、複数回適用しても良い。輪郭明確化部１４からフォアグラウンド領域とバックグラウンド領域に二値化された画像、すなわちセグメンテーションされた画像３が出力される。本実施形態では、ＣＲＦの手法としてＰｙＤｅｎｓｅＣＲＦを採用しているがこれに限るものではない。なお、ＣＲＦの適用を省略しても良い。

　次に、本発明の画像処理・解析方法について説明する。図５に、画像処理・解析方法を示す。画像処理・解析方法は、ニューラルネットワークを用いて、処置対象画像２のセグメンテーションを行うもので、複数のフォアグラウンド・パッチ画像８と、複数のバックグラウンド・パッチ画像９と、複数のラベル無しパッチ画像１０とを含むデータセット６を用いて、処理対象画像２から形成したパッチ画像を入力するとセグメンテーションされた画像３を出力するように半教師あり学習された学習済みモデル４を作成するステップＳ５１と、学習済みモデル４に処理対象画像２を入力してセグメンテーションされた画像３を作成するステップＳ５２と、を備えている。

　本発明の画像処理・解析方法では、画像処理を行うための準備として、先ず学習済みモデル４が作成される（ステップＳ５１）。学習済みモデル４は機械学習用のデータセット６を使用した半教師あり学習によって作成される。この学習済みモデル４は分類器５として画像処理・解析装置１に組み込まれる。

　ステップＳ５２では、予めデータベース１５に記憶されている処理対象画像２がパッチ画像形成部１２に供給され（ステップＳ５２１）、画像処理が開始される。パッチ画像形成部１２では、処理対象画像２から入力用のパッチ画像１１を生成する（ステップＳ５２２）。本実施形態では、例えば、１枚の処理対象画像２から１枚～５枚程度のパッチ画像１１が生成される。生成されたパッチ画像１１は分類器５に供給される。

　分類器５にパッチ画像１１が入力されると、セグメンテーションされた確率マップ１３が出力される（ステップＳ５２３）。この確率マップ１３はセグメンテーションされたものであり、この確率マップ１３を最終的な出力としてのセグメンテーションされた画像３としても良いが、本実施形態では確率マップ１３を輪郭明確化部１４に供給してＣＲＦを１回又は複数回適用し（ステップＳ５２４）、その出力をセグメンテーションされた画像３とする（ステップＳ５２５）。

　本発明では、処理対象画像２よりもサイズが小さい入力用のパッチ画像１１を分類器５に入力させてセグメンテーションを行うので、分類器５の学習済みモデル４として比較的規模の小さな畳み込みニューラルネットワークを採用することができ、学習の計算量を減らすことができる。

　画像処理・解析装置１は、処理対象画像２のフォアグラウンド（ポジティブ）領域とバックグラウンド（ネガティブ）領域との境界が曖昧であってもより効率的にセグメンテーションを行うことができる。画像処理・解析装置１における処理全体のフローチャートを図６に示す。

　画像処理・解析装置１に用いられる学習済みモデル４では、元画像（学習用画像７）から切り出した部分的なパッチ画像を用いてモデルの訓練（半教師あり学習）を行う。パッチ画像はpositive、negative、unlabeledの３クラスから構成されている（フォアグラウンド・パッチ画像８、バックグラウンド・パッチ画像９、ラベル無しパッチ画像１０）。

　訓練段階（Ｔｒａｉｎｉｎｇ　ｐｈａｓｅ）ではＰＮＵ学習が行われる。ＰＮＵ学習では、positive patches（フォアグラウンド・パッチ画像８）、negative patches（バックグラウンド・パッチ画像９）、unlabeled patches（ラベル無しパッチ画像１０）に含まれる画像の特徴を抽出し、モデルの訓練を行う。このとき、モデルは、コスト関数によって導出されたＰＮＵ　ｌｏｓｓを用いてパラメータの調整を行う。

　テスト段階（Ｔｅｓｔ　ｐｈａｓｅ）では、入力された画像（入力用のパッチ画像１１）に対してラスタースキャンを行い、訓練済みモデル（学習済みモデル４）を用いて、パッチ単位でのセグメンテーションを行う。訓練済みモデルから出力されたモデルの予測結果である確率分布図（確率マップ１３）に対して、輪郭明確化部１４においてＣＲＦを適応することで、最終的なセグメンテーション画像（画像３）を得る。

　半教師あり学習において用いられるコスト関数は、二値分類に使用される損失関数に、データに関する事前知識を罰則項として加えるが、当該罰則項として、図８に示すＡＣＣＵＲＡＣＹがラベル画像数と多い場合とラベル画像数が少ない場合でも高い値を示すように設定を行うことで調整を行うことが可能である。

　上記の判定用ラベル画像と教師ラベル画像とのラベルを比較する。判定用ラベル画像と教師ラベル画像との比較方法として、２クラス（正：ポジティブ、負：ネガティブ）分類の混同行列を例示する。行列の縦が教師ラベル画像におけるセグメンテーションの結果、行列の横が判定用ラベル画像におけるセグメンテーションの結果を示す。ＴＰは、判定用ラベル画像と教師ラベルとで一致して「ポジティブ」のラベルを付与した画素の総数である。ＴＮは、判定用ラベル画像と教師ラベル画像とで一致して「ネガティブ」のラベルを付与した画素の総数である。したがって、ＴＰ、ＴＮは、一致部分の画素数を表す。一方、ＦＰは、判定用ラベル画像では「ポジティブ」のラベルを付与して教師ラベル画像では「ネガティブ」のラベルを付与した画素の総数である。ＦＮは、判定用ラベル画像では「ネガティブ」のラベルを付与して教師ラベル画像では「ポジティブ」のラベルを付与した画素の総数である。したがって、ＦＰ、ＦＮは、不一致部分の画素数を表す。

　一例として、数式１で示される検出率（ＲｅｃａｌｌまたはＴｒｕｅ　Ｐｏｓｉｔｉｖｅ　Ｒａｔｅ；ＴＰＲ）である。検出率：Ｋは感度とも呼ばれる。
　［数１］
　　　　Ｋ＝ＴＰ／（ＴＰ＋ＦＮ）
　検出率は、「本来ポジティブ（正）に分類するべきアイテム（画素）を、正しくポジティブに分類できたアイテムの割合」を示し、未検出の少なさを表す。

　数式２で示される精度（Ｐｒｅｃｉｓｉｏｎ）：Ｇである。
　［数２］
　　　　Ｇ＝ＴＰ／（ＴＰ＋ＦＰ）
　精度は、「ポジティブ（正）に分類されたアイテムのうち、実際にポジティブであったアイテムの割合」を示し、誤検出の少なさを表す。

　数式３で示されるＡＣＣＵＲＡＣＹである。
　［数３］
　　　　ＡＣＣＵＲＡＣＹ＝（ＴＰ＋ＴＮ）／（ＴＰ＋ＦＰ＋ＦＮ＋ＴＮ）
　ＡＣＣＵＲＡＣＹは、ポジティブとネガティブの両方の精度を評価する。

　図７に、判定用ラベル画像と教師ラベル画像との比較（混同行列）を示す。
　また、図８にＡＣＣＵＲＡＣＹを求める数式を示す。

　また、クラス事前確率罰則項（データに関する事前知識の罰則項）は数式４で表される。

　ここで、クラス事前確率　π　は、数式５で定義される。

　画像処理・解析装置１を使用してセマンティックセグメンテーションを行った。
（３－１）パッチ画像の作成方法
　半教師あり学習に使用した各パッチ画像８～１１として、３２ピクセル×３２ピクセルの正方形の画像を使用した。フォアグラウンド・パッチ画像８：２００枚、バックグラウンド・パッチ画像９：２００枚、ラベル無しパッチ画像１０：４０００枚で一組のデータセット６を構成した。学習用画像７は、２５６ピクセル×２５６ピクセルの正方形の画像を使用した。

（３－２）学習のパラメータ・パイパーパラメータ
　学習タイプ:ＰＮＵ
（ＰＮとＰＵ及びＰＮとＮＵのリスク損失関数の最小化）
　損失：シグモイド型ＰＮＵ損失
　ｐｒｉｏｒ：０．２
　ｅｔａ：０．１
　Ｌｅａｒｎｉｎｇ　Ｒａｔｅ：０．０００００１
　Ｂａｔｃｈｓｉｚｅ：８
　Ｅｐｏｃｈ：４０

　上記の条件で画像処理・解析装置１を使用してセマンティックセグメンテーションを行った。図９はコンクリート壁面に生じたクラックの画像を、図１０はオーロラの画像をそれぞれ対象にしている。図９（ａ）及び図１０（ａ）は処理対象画像２、図９（ｂ）及び図１０（ｂ）は分類器５から出力された確率マップ１３である。

　処理対象画像２が例えば煙突から出る煙等の場合、フォアグラウンド領域（煙の部分）とバックグラウンド領域（煙以外の部分）との境界が曖昧で、しかもその曖昧領域がある程度広いことがある。例えば煙の画像では、煙の縁の部分は煙が薄く、しかも縁に近づくほど煙が薄くなるので、煙の縁の部分が曖昧領域となる。このようにフォアグラウンド領域とバックグラウンド領域との境界が曖昧で、しかもその曖昧領域が広い画像（以下、曖昧領域が広い画像という）のセマンティックセグメンテーションでは、煙など明確な境界が存在しないはずの物体（画像中の物体）に対しても明確な境界を決めてしまう虞がある。すなわち、学習済みモデル４による推論結果が境界部分では連続的に変化せず、出力された確率マップ１３では＋１（フォアグラウンド領域）または－１（バックグラウンド領域）の極端な値しかとらないことになる。つまり、曖昧領域であるにもかかわらず学習済みモデル４による推論結果が極端な値に二値化されて勾配が消失すると共に、１通りのセグメンテーション結果しか得られないことで柔軟性が失われることになる。したがって、曖昧領域が広い画像については、曖昧領域は確率マップ１３では＋１から－１への勾配として表現されることが望ましい。

　このような場合、データセット６のラベル無しパッチ画像１０の枚数を、フォアグラウンド・パッチ画像８やバックグラウンド・パッチ画像９の枚数よりも多くすることが望ましい。

　図１１に、データセット６を示す。データセット６のラベル無しパッチ画像１０の枚数をフォアグラウンド・パッチ画像８およびバックグラウンド・パッチ画像９の枚数よりも多くしている。ラベル無しパッチ画像１０は学習用画像７を例えばランダムに切り取ることで作成されるので、作成作業のコンピュータによる自動化が容易である。そのため、ラベル無しパッチ画像１０の大量作成は容易である。しかも、コンピュータによって例えばランダムに切り取るので、ラベル無しパッチ画像１０の枚数が多くなればなるほど、フォアグラウンド領域を切り取ったラベル無しパッチ画像１０とバックグラウンド領域を切り取ったラベル無しパッチ画像１０と曖昧領域を切り取ったラベル無しパッチ画像１０の割合が、学習用画像７のフォアグラウンド領域とバックグラウンド領域と曖昧領域の割合に近くなる。

　したがって、データセット６のラベル無しパッチ画像１０の枚数を多くすることで、半教師あり学習においてＰＮＵ学習で用いるコスト関数のクラス事前確率罰則項が小さくなる傾向となり、その結果、コスト関数を最小化することが可能になる。このように、データセット６のラベル無しパッチ画像１０の枚数を多くすることで半教師あり学習においてコスト関数の最小化を図ることができ、学習済みモデル４の学習を効率良く行うことができると共に学習済みモデル４としての性能を高くすることができる。

　また、データセット６のラベル無しパッチ画像１０の枚数を多くすることで、曖昧領域が確率マップ１３では＋１（フォアグラウンド領域）から－１（バックグラウンド領域）への勾配として表現されて出力されるようになる。

　データセット６は複数準備され、コスト関数を最小化するように半教師あり学習が繰り返し行われる。

　データセット６の構成（フォアグラウンド・パッチ画像８：バックグラウンド・パッチ画像９：ラベル無しパッチ画像１０）としては、例えば１００枚：１００枚：１０００枚としても良いし、１００枚：１００枚：３０００枚としても良いし、１００枚：１００枚：１００００枚としても良いし、その他のでも良い。例えば、出力される確率マップ１３に表現される曖昧領域の態様が所望のものになるように枚数調整される。

　そして、確率マップ１３に表現された曖昧領域をフォアグラウンド領域とバックグラウンド領域に分ける閾値を調整することで、フォアグラウンド領域とバックグラウンド領域との境界が決定される。閾値の調整によって境界の位置を調節することができるので、柔軟性を持たせることができる。

　このような閾値処理は、例えば輪郭明確化部１４によって行われる。輪郭明確化部１４は、例えば閾値処理を行った後ＣＲＦを行っても良いし、閾値処理のみを行いＣＲＦを省略しても良い。また、輪郭明確化部１４とは別に閾値処理を行う閾値処理部を設けても良い。

　なお、データセット６のフォアグラウンド・パッチ画像８およびバックグラウンド・パッチ画像９は作業者がコンピュータの表示装置に表示された枠線１６等を操作して作成されるものであり、作業者は確実にフォアグラウンド領域またはバックグラウンド領域と判断できる部分のみを切り取ってフォアグラウンド・パッチ画像８またはバックグラウンド・パッチ画像９にすることができる。そのため、フォアグラウンド・パッチ画像８およびバックグラウンド・パッチ画像９の作成は容易である。そして、ラベル無しパッチ画像１０の作成も上述の通り容易であるので、データセット６の作成も容易である。

　このように、フォアグラウンド・パッチ画像８およびバックグラウンド・パッチ画像９の作成という部分的アノテーションに基づく画像セグメンテーション問題を、Ｐ（フォアグラウンド・パッチ画像８），Ｎ（バックグラウンド・パッチ画像９）＋Ｕ（ラベル無しパッチ画像１０）の不均衡データに対する半教師あり学習分類問題として取り扱うものである。

１　画像処理装置
２　処理対象画像
３　セマンティックセグメンテーションされた画像
４　学習済みモデル
５　分類器
６　データセット
７　学習用画像
８　フォアグラウンド・パッチ画像
９　バックグラウンド・パッチ画像
１０　ラベル無しパッチ画像
１１　入力用のパッチ画像
１２　パッチ画像形成部
１３　確率マップ
１４　輪郭明確化部

Claims

　ニューラルネットワークを用いて、処理対象画像のセグメンテーションを行う画像処理・解析装置であって、
　前記処理対象画像を入力するとセグメンテーションされた画像を出力するように半教師あり学習された学習済みモデルを用いた分類器を備え、
　前記半教師あり学習に使用されるデータセットは、画像の一部が切り取られてポジティブ・ラベルが付与された複数のフォアグラウンド・パッチ画像と、前記画像の一部が切り取られてネガティブ・ラベルが付与された複数のバックグラウンド・パッチ画像と、前記画像の一部が切り取られた複数のラベル無しパッチ画像と、を含むことを特徴とする画像処理・解析装置。
　前記データセットの前記ラベル無しパッチ画像は、前記半教師あり学習においてコスト関数を最小化すべく少なくとも前記学習に用いられた画像のフォアグラウンド領域とバックグラウンド領域に関する事前知識が活用できる程度の枚数を自動生成されたものであり、
　複数の前記データセットを使用し、前記コスト関数を最小化するように前記半教師あり学習が繰り返し行われることを特徴とする請求項１記載の画像処理・解析装置。
　前記処理対象画像から入力用のパッチ画像を複数形成するパッチ画像形成部を備え、
　前記分類器には前記入力用のパッチ画像が入力されることを特徴とする請求項１記載の画像処理・解析装置。
　前記分類器から出力された確率マップに対してフォアグラウンドとバックグラウンドとの境界を明確にする処理を行う輪郭明確化部を備えることを特徴とする請求項１に記載の画像処理・解析装置。
　前記学習済みモデルは、畳み込みニューラルネットワークであることを特徴とする請求項１に記載の画像処理・解析装置。
　前記半教師あり学習において用いられるコスト関数は、二値分類に使用される損失関数に、データに関する事前知識を罰則項として加えたものであることを特徴とする請求項１に記載の画像処理・解析装置。
　ニューラルネットワークを用いて、処置対象画像のセグメンテーションを行う画像処理・解析方法であって、
　画像の一部が切り取られてポジティブ・ラベルが付与された複数のフォアグラウンド・パッチ画像と、前記画像の一部が切り取られてネガティブ・ラベルが付与された複数のバックグラウンド・パッチ画像と、前記画像の一部が切り取られた複数のラベル無しパッチ画像とを含むデータセットを用いて、前記処理対象画像を入力するとセグメンテーションされた画像を出力するように半教師あり学習された学習済みモデルを作成するステップと、
　前記学習済みモデルに前記処理対象画像を入力してセグメンテーションされた画像を作成するステップと、
を備えることを特徴とする画像処理・解析方法。