WO2024024175A1

WO2024024175A1 - 判定評価装置、方法、およびプログラム

Info

Publication number: WO2024024175A1
Application number: PCT/JP2023/013968
Authority: WO
Inventors: 瑞紀宮永; 正史恵木; 明佳倉田; 喬之神田
Original assignee: 株式会社日立製作所
Priority date: 2022-07-28
Filing date: 2023-04-04
Publication date: 2024-02-01
Also published as: JP2024017902A

Abstract

判定モデルによる判定の結果がどの程度信頼できるかを評価する。判定モデルに基づく入力データに対する判定結果を評価する判定評価装置は、判定結果の不確実性を算出する不確実性算出部と、不確実性に基づいて判定結果を評価する分析評価部と、を有する。

Description

判定評価装置、方法、およびプログラム

　本開示は、画像を解析して各ピクセルをクラスに分類する人工知能の判定能力を評価する技術に関する。

　様々な分野において撮影された画像を複数の領域に分けるという処理に人工知能が利用される。例えば、医療や材料科学の分野などでは、複数の材料を混合した様子を撮影した画像を材料毎に塗り分けるといった処理に人工知能は有用である。人工知能による判定を可能にするには、予め用意した画像とその画像を領域毎に塗り分けた正解ラベルとからなる教師データを学習して判定モデルを構築する必要がある。

　しかし、精度の高い教師データを用意するには、画像に対する正解ラベルの付与を人手によって正確に行う必要があり、それが時間のかかる作業となっている。そのため教師データが不足する場合が多い。教師データが足りなければ、判定モデルに十分に教師データを学べていない部分が生じる。その場合、そのような部分に属する画像に対する判定結果の精度は低下する。このような問題に関連して、特許文献１には、推定結果の信用できる度合いを表す不確実性が許容できる範囲内となるようにしつつ、所定指標の値を向上する施策を探索する技術が開示されている。

特開２０２０－３０５００号公報

　人工知能による判定処理の結果が信頼できるものであれば、その判定結果を基に教師データを作成することが容易となり、入力データに正解ラベルを付与する際の人手による作業が削減される。

　しかしながら、特許文献１の技術は、上述のように施策を探索するための技術であり、人工知能による判定処理の結果がどの程度信頼できるかを評価するには不向きである。

　本開示に含まれるひとつの目的は、判定モデルによる判定の結果がどの程度信頼できるかを評価する技術を提供することである。

　本開示のひとつの態様による判定評価装置は、判定モデルに基づく入力データに対する判定結果を評価する判定評価装置であって、前記判定結果の不確実性を算出する不確実性算出部と、前記不確実性に基づいて前記判定結果を評価する分析評価部と、を有する。

　本開示のひとつの態様による評価判定方法は、判定モデルに基づく入力データに対する判定結果を評価する判定評価方法であって、前記判定結果の不確実性を算出し、前記不確実性に基づいて前記判定結果を評価する。

　本開示のひとつの態様による評価判定プログラムは、判定モデルに基づく入力データに対する判定結果を評価する判定評価プログラムであって、前記判定結果の不確実性を算出し、前記不確実性に基づいて前記判定結果を評価する、ことをコンピュータに実行させる。

　本開示のひとつの態様によれば、判定モデルによる判定の結果がどの程度信頼できるかを評価することが可能となる。

本実施の形態に係る判定評価装置の構成例を示すブロック図である。本実施の形態に係る学習用データの一例を示す。本実施の形態に係る機械学習モデルの一例を示す。本実施の形態に係るテストデータの一例を示す。本実施の形態に係る判定結果データの一例を示す。本実施の形態に係る不確実性データの一例を示す。本実施の形態に係る評価ルールの一例を示す。本実施の形態に係る評価結果の一例を示す。本実施の形態に係る分析評価部の詳細を示すブロック図である。本実施の形態に係る不確実性算出部の処理の一例を示すフローチャートである。本実施の形態に係る分析評価部の処理の一例を示すフローチャートである。図１１に示すステップＳ２０６にて、図７のルールＩＤ「１００１」の条件を適用する場合の処理の一例を示すフローチャートである。本実施の形態に係る評価結果表示画面１の一例を示す図である。

　以下、本発明の実施形態について図面を参照して説明する。

（本実施の形態）
　図１は、本実施の形態に係る判定評価装置１の構成例を示すブロック図である。

　判定評価装置１は、機械学習モデル１０３を用いて入力画像に対するセグメンテーション（つまり各画素のクラスへの分類）を行った際に、そのセグメントの境界（つまり異なるクラス間の境界）の不確実性を評価する装置である。不確実性とは、機械学習モデル１０３によって算出されたセグメントの境界の信頼度の低さを示す指標である。つまり、不確実性が高いセグメントの境界は信頼度が低く、不確実性が低いセグメントの境界は信頼度が高い。

　判定評価装置１は、機械学習部１０１と、判定部１１０と、不確実性算出部１１１と、分析評価部１０９と、評価結果表示部１１２とを含んで構成される。また、判定評価装置１は、学習用データ１０２と、機械学習モデル１０３と、テストデータ１０４と、判定結果データ１０５と、不確実性データ１０６と、評価ルール１０７と、評価結果１０８とを格納する。

　学習用データ１０２は、機械学習モデル１０３の学習に用いられるデータである。図２は、本実施の形態に係る学習用データ１０２の一例を示す。図２に示すように、学習用データ１０２は、学習用データＩＤ２０１と、学習用データ内容２０２とを対応づけて記録したデータである。

　学習用データＩＤ２０１は、学習用データ内容２０２を識別するための情報である。学習用データ内容２０２は、学習用の入力画像を構成する各画素（ピクセル）の画素値と、その入力画像を構成する各画素（ピクセル）が分類される正解のクラス（正解のラベル）とを有する。

　機械学習部１０１は、学習用データ１０２を用いて、入力画像の各画素についてクラスの判定（ラベルの付与）を行う機械学習モデル１０３に対して機械学習を行う。機械学習は、深層学習であってよい。機械学習モデル１０３の例として、ＣＮＮ（Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）、ＳｅｇＮｅｔ、Ｕ－Ｎｅｔ、ＰＳＰＮｅｔ等であってよい。図３は、本実施の形態に係る機械学習モデル１０３の一例を示す。機械学習モデル１０３は、レイヤー３０１と、レイヤー種別３０２と、レイヤーパラメータ３０３とを対応づけたデータにより表される。

　レイヤー３０１は、機械学習モデル１０３のレイヤーを識別するための情報である。

　レイヤー種別３０２は、レイヤー３０１の種別を示す情報である。レイヤーの種別の例として、入力層、畳み込み層、プーリング層、全結合層、出力層等が挙げられる。

　レイヤーパラメータは、レイヤー３０１のパラメータ（例えば各ニューロンの重み）を示す情報である。

　テストデータ１０４は、機械学習モデル１０３の評価判定に用いられるデータである。図４は、本実施の形態に係るテストデータ１０４の一例を示す。図４に示すように、テストデータ１０４は、項目として、テストデータＩＤ４０１と、テストデータ内容４０２とを有する。

　テストデータＩＤ４０１は、テストデータ内容４０２を識別するための情報である。

　テストデータ内容４０２として、評価判定用の入力画像の各画素の画素値が記録されている。

　判定部１１０は、テストデータ１０４を用いて機械学習モデル１０３の評価判定を行い、判定結果データ１０５を生成する。図５は、本実施の形態に係る判定結果データ１０５の一例を示す。図５に示すように、判定結果データ１０５は、エントリ毎に、判定結果ＩＤ５０１と、テストデータＩＤ５０２と、判定結果内容５０３とが対応づけて記録されたデータである。

　判定結果ＩＤ５０１は、当該エントリにおける判定結果を識別するための情報である。

　テストデータＩＤ５０２は、当該エントリにおける評価判定に用いられたテストデータを識別する情報であり、図４に示したテストデータＩＤ４０１に対応する。

　判定結果内容５０３は、当該エントリにおける判定結果の内容を示す。判定結果の内容として、機械学習モデル１０３による、テストデータＩＤ５０２のテストデータ内容４０２（テスト用の画像）を構成する各画素の各クラスへの分類の確率が示されている。つまり、判定結果内容５０３は、テスト用の画像を構成する各画素について、その画素が各クラスに分類される確率を示すデータである。例えば、第１セグメントと第２セグメントの境界付近の画素についての判定結果には、第１セグメント（第１クラス）に属する確率と、第２セグメント（第２クラス）に属する確率とが含まれ、第１セグメントに属する確率と第２セグメントに属する確率との合計が１になっていることが考えられる。

　例えば、不確実性算出部１１１は、テストデータ１０４を用いて機械学習モデル１０３の不確実性を算出し、不確実性データ１０６を生成する。図６は、本実施の形態に係る不確実性データ１０６の一例を示す。図６に示すように、エントリ毎に、不確実性データ１０６は、不確実性ＩＤ６０１と、判定結果ＩＤ６０２と、テストデータ６０３とを対応づけて記録したデータである。

　不確実性ＩＤ６０１は、テストデータを用いて不確実性の算出を実施した当該エントリを識別するための情報である。

　判定結果ＩＤ６０２は、当該エントリに対応する判定結果を識別するための情報であり、図５に示した判定結果ＩＤ５０１に対応する。

　テストデータＩＤ６０３は、当該エントリにおける不確実性の算出に用いたテストデータを識別するための情報であり、図４に示したテストデータＩＤ４０１及び図５に示したテストデータＩＤ５０２に対応する。

　不確実性内容６０４は、当該エントリにおいて算出された不確実性の値を示す。つまり、不確実性内容６０４には、テストデータＩＤ６０３のテストデータ１０４を用いて算出された各画素の不確実性の値が記録される。

　不確実性は、例えば、次の処理により求められる。まず、機械学習モデル１０３を構成する複数のノードの一部をモンテカルロ法により意図的にドロップアウトした機械学習モデル（以下、モンテカルロドロップアウトモデルと称する）を複数生成する。次に、入力画像を各モンテカルロドロップアウトモデルに入力し、それぞれの判定結果（各画素のクラス分類）を得る。そして、このように得た画素毎の複数の判定結果の分散値を算出し、当該画素の不確実性の値とする。つまり、不確実性は、互いに異なるモンテカルロドロップアウトモデルから得られた各画素のクラスの分散値であるといえる。別言すると、不確実性は、モンテカルロドロップアウトモデルのそれぞれによって得られるセグメンテーションの境界が各ドロップアウトモデルによってどのくらい揺らぐか（つまりセグメンテーションの境界の信頼度）を示す値であるといえる。

　すなわち、不確実性算出部１１１は、モンテカルロドロップアウトを用いて算出した各画素のクラスの分散値を不確実性としてよい。これにより、不確実性算出部１１１は、正解ラベルの無いテストデータを用いて不確実性を算出することができる。

　評価ルール１０７は、不確実性の評価に用いられるルールである。図７は、本実施の形態に係る評価ルール１０７の一例を示す。図７に示すように、評価ルール１０７には、ルール毎に、ルールＩＤ７０１と、条件７０２と、表示テンプレート７０３とが対応づけて記録されている。

　ルールＩＤ７０１は、当該ルールを識別するための情報であり、これにより当該ルールの条件７０２と表示テンプレート７０３のセットが識別される。

　条件７０２は、不確実性の評価に用いる条件（評価方法）を示す情報である。例えば、当該条件が満たされた場合には不確実性が高いと評価される。

　表示テンプレート７０３は、条件７０２が満たされた場合に表示する内容を定義したテンプレートである。例えば、不確実性が高いという旨と、それに対して推奨される対処方法とが表示されるように表示内容が定義されている。

　すなわち、条件７０２が満たされた場合、当該条件７０２に対応付けられている表示テンプレート７０３に基づいて、不確実性の内容が表示される。ユーザは、表示テンプレート７０３に基づいて表示された不確実性の内容を見て、どのような不確実性が発生し得るのか、さらに不確実性を小さくするための対処方法等を知ることができる。

　分析評価部１０９は、評価ルール１０７と、テストデータ１０４と、判定結果データ１０５と、不確実性データ１０６とを用いて分析評価を行い、評価結果１０８を生成する。分析評価の処理の詳細は後述する。図８は、本実施の形態に係る評価結果１０８の一例を示す。評価結果１０８は、例えば、分析評価のエントリ毎に、評価結果ＩＤ８０１と、ルールＩＤ８０２と、不確実性ＩＤ８０３と、判定結果ＩＤ８０４と、テストデータＩＤ８０５と、評価内容８０６とを対応づけて記録したデータである。

　評価結果ＩＤ８０１は、当該エントリの分析評価を識別するための情報である。

　ルールＩＤ８０２は、当該エントリの分析評価に用いられたルールを識別するための情報であり、図７に示したルールＩＤ７０１に対応する。

　不確実性ＩＤ８０３は、当該エントリの分析評価に用いられた不確実性データを識別するための情報であり、図６に示した不確実性ＩＤ６０１に対応する。

　判定結果ＩＤ８０４は、当該エントリの分析評価に用いられた判定結果を識別するための情報であり、図５に示した判定結果ＩＤ５０１に対応する。

　テストデータＩＤ８０５は、当該エントリの分析評価に用いられたテストデータを識別するための情報であり、図４に示したテストデータＩＤ５０２に対応する。

　評価内容８０６は、テストデータＩＤ８０５により示されたテストデータ、判定結果ＩＤ８０４により示された判定結果、および不確実性ＩＤ８０３により示された不確実性に対して、ルールＩＤ８０２により示された評価ルールを適用して得られた評価の内容を示す。例えば、図７に示された、あるルールＩＤ７０１のエントリの評価ルールの条件７０２に該当した場合には、そのエントリの表示テンプレート７０３に定義された表示内容が、評価内容８０６に記録される。

　なお、分析評価部１０９の詳細については後述する（図９参照）。

　評価結果表示部１１２は、テストデータ１０４と、判定結果データ１０５と、不確実性データ１０６と、評価結果１０８とに基づいて、評価結果表示画面１０００（図１３参照）を生成し、モニタ等に表示する。

　上述したように、判定評価装置１は、判定モデルに基づく入力データに対する判定結果を評価する装置であり、判定結果の不確実性を算出する不確実性算出部１１１と、不確実性に基づいて判定結果を評価する分析評価部１０９とを有する。これにより、判定評価装置１は、判定モデルによる判定の結果がどの程度信頼できるかを評価することができる。

　本実施形態では、入力データが入力画像であり、上記判定が入力画像を複数クラスの領域に分類する処理である。分析評価部１０９は、入力画像の画素毎の分類の不確実性を算出し、入力画像上のクラスの分布と、入力画像上の不確実性の分布とに基づいて判定結果を評価してよい。これにより、画像を複数の領域に分ける判定結果において画像内の各位置での不確実性の分布に基づいて、判定モデルによる判定の結果がどの程度信頼できるかを評価することができる。

　図９は、本実施の形態に係る分析評価部１０９の詳細を示すブロック図である。

　分析評価部１０９は、エリア分割部９０１と、色ヒストグラム生成部９０２と、ヒストグラム一致度算出部９０３と、境界部判別部９０４と、境界不確実性幅計測部９０５と、最頻値抽出部９０６と、高不確実性ピクセル抽出部９０７と、マスク処理部９０８と、平均算出部９０９と、低周波数成分抽出部９１０と、制御部９１１とを含む。

　エリア分割部９０１は、テストデータ１０４の画像を例えば格子状に複数のエリアに分割する。

　色ヒストグラム生成部９０２は、エリア分割で分割された各エリアの色ヒストグラムを生成する。

　ヒストグラム一致度算出部９０３は、色ヒストグラム生成で生成されたエリア同士の色ヒストグラムの一致度を算出する。

　境界部判別部９０４は、判定結果データ１０５に基づいて画像におけるクラスの境界部分を判別する。

　境界不確実性計測部９０５は、不確実性データ１０６に基づいて、境界部判別９０４により判別されたクラスの境界部分における不確実性の幅を計測する。境界部分における不確実性の幅とは、その境界部分における不確実性の度合い、つまり境界の不確実性の高さを示す。不確実性の幅の算出方法については後述する。

　最頻値抽出部９０６は、境界不確実性計測９０５によって計測された複数の不確実性の幅のうちの最頻値を抽出する。

　高不確実性ピクセル抽出部９０７は、不確実性データ１０６に基づき、不確実性の高い（例えば不確実性の値が所定の閾値以上である）画素を抽出する。

　マスク処理部９０８は、判定結果データ１０５における、高不確実性ピクセル抽出９０７で抽出された画素のデータをマスキングする。

　平均算出部９０９は、不確実性データ１０６における不確実性の値の平均値を算出する。

　低周波数成分抽出部９１０は、不確実性データ１０６における不確実性の値の低周波数成分（例えば所定の閾値以下の周波数成分）を抽出する。

　制御部９１１は、ヒストグラム一致度算出９０３の結果、最頻値抽出９０６の結果、マスク処理９０８の結果、平均算出９０９の結果、低周波数成分抽出９１０の結果に対して、評価ルール１０７に規定された各ルールを適用して評価を行い、その評価結果１０８を出力する。

　図１０は、本実施の形態に係る不確実性算出部１１１の処理の一例を示すフローチャートである。

　不確実性算出部１１１は、機械学習モデル１０３を読み出す（Ｓ１０１）。

　不確実性算出部１１１は、テストデータ１０４に含まれるエントリの数だけステップＳ１０２からステップＳ１０７を繰り返す（Ｓ１０２）。

　不確実性算出部１１１は、テストデータ１０４から次のエントリのテストデータを読み出す（Ｓ１０３）。

　不確実性算出部１１１は、予め定められたモンテカルロドロップアウトモデルの数（ＭＣＤ判定回数）だけステップＳ１０５を繰り返す（Ｓ１０４）。

　不確実性算出部１１１は、ステップＳ１０１にて読み出した機械学習モデルから生成した複数のモンテカルロドロップアウトモデルのうちのいずれか１つを選択し、選択したモンテカルロドロップアウトモデルを用いて、ステップＳ１０３にて読み出したテストデータ（つまり入力画像）の各画素をクラスに分類する。（Ｓ１０５）。

　不確実性算出部１１１は、モンテカルロドロップアウトモデルの数（ＭＣＤ判定回数）だけ、モンテカルロドロップアウトモデルを切り替えながらステップＳ１０５を繰り返した後、処理をステップＳ１０７に進める（Ｓ１０６）。

　不確実性算出部１１１は、各画素について、ステップＳ１０５にて互いに異なるモンテカルロドロップアウトモデルから得られた判定結果の分散値を算出し、不確実性データ１０６に格納する（Ｓ１０７）。

　不確実性算出部１１１は、テストデータ１０４に含まれるエントリの数（つまりテストデータの数）だけステップＳ１０３～Ｓ１０７を繰り返した後（Ｓ１０８）、本処理を終了する。

　以上の処理により、不確実性データが得られる。

　図１１は、本実施の形態に係る分析評価部１０９の処理の一例を示すフローチャートである。

　分析評価部１０９は、不確実性データ１０６に含まれるエントリの数だけステップＳ２０２からステップＳ２０９を繰り返す（Ｓ２０１）。

　分析評価部１０９は、不確実性データ１０６の次のエントリを読み出す（Ｓ２０２）。

　分析評価部１０９は、ステップＳ２０１にて読み出した不確実性データ１０６のエントリに対応するテストデータ１０４と判定結果データ１０５とを読み出す（Ｓ２０３）。

　分析評価部１０９は、評価ルール１０７に含まれるエントリの数だけステップＳ２０５からステップＳ２０８を繰り返す（Ｓ２０４）。

　分析評価部１０９は、評価ルール１０７の次のエントリを読み出す（Ｓ２０５）。

　分析評価部１０９は、ステップＳ２０５にて読み出したエントリの評価ルール１０７の条件を、ステップＳ２０２にて読み出した不確実性データ１０６とステップＳ２０３にて読み出したテストデータ１０４および判定結果データ１０５とに適用する（Ｓ２０６）。

　分析評価部１０９は、不確実性データ１０６、テストデータ１０４、および判定結果データ１０５が、評価ルール１０７の条件７０２を満たすか否かを判定する（Ｓ２０７）。

　条件７０２が満たされない場合（Ｓ２０７：Ｎｏ）、分析評価部１０９は、処理をステップＳ２０９に進める。

　条件７０２が満たされた場合（Ｓ２０７：ＹＥＳ）、分析評価部１０９は、評価ルール１０７の表示テンプレート７０３に定義された表示内容に変数を代入したものを評価結果１０８に格納し（Ｓ２０８）、処理をステップＳ２０９に進める。

　分析評価部１０９は、評価ルール１０７に含まれるエントリの数だけステップＳ２０５からステップＳ２０８を繰り返した後（Ｓ２０９）、処理をステップＳ２１０に進める。

　分析評価部１０９は、不確実性データ１０６のエントリの数だけステップＳ２０５からステップＳ２０８を繰り返した後（Ｓ２１０）、本処理を終了する。

　以上の処理により、評価結果１０８が得られる。

　図１２は、図１１に示すステップＳ２０６の処理の一例として、図７のルールＩＤ「１００１」の条件７０２を適用する場合の処理示すフローチャートである。

　分析評価部１０９は、処理対象となっている不確実性データのエントリの不確実性内容６０４の各列の分だけステップＳ３０２からステップＳ３０５を繰り返す（Ｓ３０１）。

　分析評価部１０９は、ステップＳ３０１で選択した列に存在する不確実性の局所ピークの数だけステップＳ３０３からステップＳ３０４を繰り返す（Ｓ３０２）。不確実性の局所ピークは、両隣の不確実性の値よりも大きい値を示す箇所である。

　分析評価部１０９は、ステップＳ３０２にて選択した不確実性の局所ピークについて、局所ピークを挟んで左側における局所ピークの値の４分の１になる画素（以下、左側の画素と称する）のクラスと、局所ピークを挟んで右側における局所ピーク値の４分の１になる画素（以下、右側の画素と称する）のクラスとが異なるか否かを判定する（Ｓ３０３）。局所ピークの左側の画素のクラスと右側の画素のクラスとが異なれば、その局所ピークの近傍がセグメントの境界となっていると言える。

　分析評価部１０９は、局所ピークの左側の画素のクラスと右側の画素のクラスとが異ならない場合（Ｓ３０３：ＮＯ）、処理をステップＳ３０５に進める。

　分析評価部１０９は、局所ピークの左側の画素のクラスと右側の画素のクラスとが異なる場合（Ｓ３０３：ＹＥＳ）、この局所ピークの半値幅を計測し（Ｓ３０４）、処理をステップＳ３０５に進める。

　分析評価部１０９は、不確実性の局所ピークの数だけステップＳ３０３からステップＳ３０４を繰り返した後、処理をステップＳ３０６に進める（Ｓ３０５）。

　分析評価部１０９は、不確実性データの列数だけステップＳ３０２からステップＳ３０５を繰り返した後、処理をステップＳ３０７に進める（Ｓ３０６）。

　分析評価部１０９は、ステップＳ３０４にて計測した複数の半値幅のヒストグラムを作成する（Ｓ３０７）。

　分析評価部１０９は、ステップＳ３０７にて作成したヒストグラムに基づいて、半値幅の最頻値を取得する（Ｓ３０８）。

　分析評価部１０９は、ステップＳ３０８にて算出した半値幅の最頻値が所定の閾値（ルールＩＤ「１００１」の評価ルールの例では「２」）よりも大きいか否かを、この評価ルールの条件判定結果として返す（Ｓ３０９）。そして、本処理は終了する。

　半値幅が大きい場合、セグメントの境界の揺らぎが大きい（つまり境界の不確実性が高い）ことを意味し、半値幅が小さい場合、セグメントの境界の揺らぎが小さい（つまり境界の不確実性が低い）ことを意味する。この境界に信頼性をどこまで求めるかは、ユーザや適用分野等により異なる。ユーザは、境界に高い信頼性を求める場合、ステップＳ３０９の閾値を小さく設定し、境界にそれほど高い信頼性を求めなくてもよい場合、ステップＳ３０９の閾値を大きく設定してよい。

　上述したように、分析評価部１０９は、図７に示すルールＩＤ７０１「１００１」の条件７０２を適用する場合、次の処理を行ってよい。すなわち、分析評価部１０９は、入力画像の全体にわたり、不確実性の分布における不確実性の局所ピークの両側に、クラスの分布において異なるクラスの領域がある箇所における局所ピークの半値幅を算出し、半値幅の最頻値を算出し、最頻値が所定の閾値を超えていたら、画像の判定結果を、境界の不確実性が高いと評価する。これにより、境界の不確実性が高い、すなわち、入力画像の解像度が低い恐れがあると評価することができる。

　なお、分析評価部１０９は、図７に示すルールＩＤ７０１「１００２」の条件７０２を適用する場合、次の処理を行ってよい。すなわち、分析評価部１０９は、入力画像における不確実性の平均値が所定の閾値より小さければ、入力画像の判定結果を、不確実性が低いと評価する。これにより、入力画像の全体として不確実性が低いことを評価することができる。不確実性が低い良好な画像を教師データに加えるといったことが可能となる。不確実性の低い良好な画像を教師データに加える際、画像内に不確実な箇所があればその箇所を部分的に修正してもよい。

　図１３は、本実施の形態に係る評価結果表示画面１０００の一例を示す図である。

　評価結果表示画面１０００は、評価結果表示部１１２によって生成され、モニタ等に表示されてよい。評価結果表示画面１０００は、機械学習モデル入力領域１３０１と、テストデータ入力領域１３０２と、評価ルール入力領域１３０３と、診断実行ボタン１３１１と、テストデータ選択領域１３２１と、入力画像表示領域１３２２と、判定結果表示領域１３２３と、不確実性表示領域１３２４と、評価結果表示領域１３２５とを有する。

　ユーザは、機械学習モデル入力領域１３０１に、評価対象とする機械学習モデル１０３を入力する。例えば、ユーザは機械学習モデル入力領域１３０１にて械学習モデル１０３のファイルを選択すればよい。

　ユーザは、テストデータ入力領域１３０２に、評価に用いるテストデータ１０４を入力する。例えば、ユーザはテストデータ入力領域１３０２にてテストデータ１０４のファイルを選択すればよい。

　ユーザは、評価ルール入力領域１３０３に、評価に用いる評価ルール１０７を入力する。例えば、ユーザは評価ルール入力領域１３０３にて評価ルール１０７のファイルを選択すればよい。

　ユーザが診断実行ボタン１３１１を押下すると、判定評価装置１は、上述した不確実性の評価処理を実行する。

　ユーザは、テストデータ選択領域１３２１から、テストデータ１０４に含まれる画像の中から評価結果を確認したい入力画像を選択する。

　評価結果表示部１１２は、入力画像表示領域１３２２に、テストデータ選択領域１３２１にて選択された入力画像を表示する。

　評価結果表示部１１２は、判定結果表示領域１３２３に、入力画像表示領域１３２２に表示されている入力画像に対する判定結果を示す判定結果画像を表示する。判定結果画像は、入力画像に対するクラス分類（セグメンテーション結果）を示す画像であってよい。

　評価結果表示部１１２は、不確実性表示領域１３２４に、判定結果表示領域１３２３に表示されている判定結果画像に対する不確実性画像を表示する。不確実性画像は、セグメントの境界の不確実性の高さを示す画像であってよい。例えば、不確実性画像は、不確実性の高さに応じて、セグメントの境界を示す線が太く表現されてよい。あるいは、不確実性画像は、不確実性の高さに応じて、セグメントの境界を示す線がヒートマップの高い色で表現されてもよい。

　評価結果表示部１１２は、評価結果表示領域１３２５に、評価結果１０８を表示する。例えば、評価結果表示部１１２は、図１２のステップＳ３０９に示す半値幅の最頻値が所定の閾値よりも大きい場合、評価結果表示領域１３２５に、境界の不確実性の半値幅の最頻値が所定の閾値よりも大きい旨を示す情報を表示してよい。

　上述したように、評価結果表示部１１２は、入力画像と、判定結果である入力画像上のクラスの分布の画像と、入力画像上の不確実性の分布の画像とを表示してよい。これにより、ユーザは、入力画像に対するセグメントの境界の不確実性を視覚的に認識できる。

　なお、評価結果表示部１１２は、不確実性が低いと評価された入力画像について、当該入力画像の不確実性が高い箇所の判定結果を修正して正解ラベルを作成して教師データに追加することを推奨してよい。これにより、追加した教師データを用いて機械学習モデル１０３を再学習し、当該機械学習モデル１０３の入力画像に対する不確実性を低減（つまり信頼性を向上）することができる。

　なお、上述した実施形態における判定評価装置１の各部は、各部の処理手順を規定したソフトウェアプログラムを、プロセッサ及びメモリを備えるコンピュータに実行させることにより実現することもできる。

　また、上述した実施形態は開示のための例示であり、本発明の範囲をその実施形態のみに限定する趣旨ではない。当業者は、本発明の範囲を逸脱することなしに、他の様々な態様で本発明を実施することができる。

　１：判定結果装置　１０１：機械学習部　１０２：学習用データ　１０３：機械学習モデル　１０４：テストデータ　１０５：判定結果データ　１０６：不確実性データ　１０７：評価ルール　１０８：評価結果　１０９：分析評価部　１１０：判定部　１１１：不確実性算出部　１１２：評価結果表示部　２０１：学習用データＩＤ　２０２：学習用データ内容　３０１：レイヤー　３０２：レイヤー種別　３０３：レイヤーパラメータ　４０１：テストデータＩＤ　４０２：テストデータ内容　５０１：判定結果ＩＤ　５０２：テストデータＩＤ　５０３：判定結果内容　６０１：不確実性ＩＤ　６０２：判定結果ＩＤ　６０３：テストデータＩＤ　６０４：不確実性内容　７０１：ルールＩＤ　７０２：条件　７０３：表示テンプレート　８０１：評価結果ＩＤ　８０２：ルールＩＤ　８０３：不確実性ＩＤ　８０４：判定結果ＩＤ　８０５：テストデータＩＤ　８０６：評価内容　９０１：エリア分割　９０２：色ヒストグラム生成　９０３：ヒストグラム一致度算出　９０４：境界部判別　９０５：境界不確実性幅計測　９０５：境界不確実性計測　９０６：最頻値抽出　９０７：高不確実性ピクセル抽出　９０８：マスク処理　９０９：平均算出　９１０：低周波数成分抽出　９１１：制御部　１０００：評価結果表示画面　１３０１：機械学習モデル入力領域　１３０２：テストデータ入力領域　１３０３：評価ルール入力領域　１３１１：診断実行ボタン　１３２１：テストデータ選択領域　１３２２：入力画像表示領域　１３２３：判定結果表示領域　１３２４：不確実性表示領域　１３２５：評価結果表示領域

Claims

　判定モデルに基づく入力データに対する判定結果を評価する判定評価装置であって、
　前記判定結果の不確実性を算出する不確実性算出部と、
　前記不確実性に基づいて前記判定結果を評価する分析評価部と、
を有する判定評価装置。
　前記入力データが画像であり、
　前記判定が前記画像を複数クラスの領域に分類する処理であり、
　前記分析評価部は、前記画素毎の分類の不確実性を算出し、前記画像上のクラスの分布と、前記画像上の不確実性の分布に基づいて前記判定結果を評価する、
請求項１に記載の判定評価装置。
　前記分析評価部は、前記画像の全体にわたり、前記不確実性の分布における不確実性の局所ピークの両側に、前記クラスの分布において異なるクラスの領域がある箇所における前記局所ピークの半値幅を算出し、前記半値幅の最頻値を算出し、前記最頻値が所定の閾値を超えていたら、前記画像の判定結果を、境界の不確実性が高いと評価する、
請求項２に記載の判定評価装置。
　前記分析評価部は、前記画像における前記不確実性の平均値が所定の閾値より小さければ、前記画像の判定結果を、不確実性が低いと評価する、
請求項２に記載の判定評価装置。
　前記判定結果の評価に基づく画面を表示する評価結果表示部を更に有し、
　前記評価結果表示部は、不確実性が低いと評価された画像について、当該画像の不確実性が高い箇所の判定結果を修正して正解ラベルを作成して教師データに追加することを推奨する、
請求項４に記載の判定評価装置。
　前記判定結果の評価に基づく画面を表示する評価結果表示部を更に有し、
　前記評価結果表示部は、前記入力データである画像と、前記判定結果である前記画像上のクラスの分布の画像と、前記画像上の不確実性の分布の画像とを表示する、
請求項２に記載の判定評価装置。
　前記不確実性算出部は、モンテカルロドロップアウトを用いて算出した各画素のクラスの分散値を不確実性とする、
請求項２に記載の判定評価装置。
　判定モデルに基づく入力データに対する判定結果を評価する判定評価方法であって、
　前記判定結果の不確実性を算出し、
　前記不確実性に基づいて前記判定結果を評価する、
　判定評価方法。
　判定モデルに基づく入力データに対する判定結果を評価する判定評価プログラムであって、
　前記判定結果の不確実性を算出し、
　前記不確実性に基づいて前記判定結果を評価する、
　ことをコンピュータに実行させる、判定評価プログラム。