WO2023181244A1

WO2023181244A1 - モデル分析装置、モデル分析方法、及び、記録媒体

Info

Publication number: WO2023181244A1
Application number: PCT/JP2022/013900
Authority: WO
Inventors: 竜太松野; 智哉坂井; 啓太佐久間; 義男亀田
Original assignee: 日本電気株式会社
Priority date: 2022-03-24
Filing date: 2022-03-24
Publication date: 2023-09-28

Abstract

モデル分析装置において、モデル取得手段は、モデルを取得する。性能算出手段は、データのカテゴリに含まれる属性毎にモデルの性能を算出する。出力手段は、モデルの性能の差が所定の条件を満たす属性のペアを抽出し、当該ペアに含まれる属性毎にモデルの性能を示す性能情報を出力する。

Description

モデル分析装置、モデル分析方法、及び、記録媒体

　本開示は、機械学習モデルの分析に関する。

　近年、様々な分野において、機械学習により得られた予測モデルが利用されている。特許文献１は、識別モデルの学習に使用する学習用データのカテゴリ毎に、モデルの学習に使用した学習用データの数と、学習により得られたモデルの識別精度との関係を可視化する手法を記載している。

国際公開ＷＯ２０２１／０８５１８８号公報

　予測モデルを用いて予測を行う場合、入力されるデータセットのカテゴリや属性によって、モデルの性能に差が生じることがある。この場合、予測に用いられるデータセットのカテゴリ数や属性数が多いと、モデルの性能の差を人手で確認することは困難となる。

　本開示の１つの目的は、予測に使用されるデータセットのカテゴリの属性毎にモデルの性能を評価し、モデルによる予測性能の差が大きいカテゴリ及び属性を可視化することにある。

　本開示の一つの観点では、モデル分析装置は、
　モデルを取得するモデル取得手段と、
　データのカテゴリに含まれる属性毎に前記モデルの性能を算出する性能算出手段と、
　前記モデルの性能の差が所定の条件を満たす属性のペアを抽出し、当該ペアに含まれる属性毎に前記モデルの性能を示す性能情報を出力する出力手段と、
　を備える。

　本開示の他の観点では、モデル分析方法は、
　モデルを取得し、
　データのカテゴリに含まれる属性毎に前記モデルの性能を算出し、
　前記モデルの性能の差が所定の条件を満たす属性のペアを抽出し、当該ペアに含まれる属性毎に前記モデルの性能を示す性能情報を出力する。

　本開示のさらに他の観点では、記録媒体は、
　モデルを取得し、
　データのカテゴリに含まれる属性毎に前記モデルの性能を算出し、
　前記モデルの性能の差が所定の条件を満たす属性のペアを抽出し、当該ペアに含まれる属性毎に前記モデルの性能を示す性能情報を出力する処理をコンピュータに実行させるプログラムを記録する。

　本開示によれば、予測に使用されるデータセットのカテゴリの属性毎にモデルの性能を評価し、モデルによる予測性能の差が大きいカテゴリ及び属性を可視化することが可能となる。

第１実施形態に係るモデル生成システムの全体構成を示すブロック図である。モデル生成装置のハードウェア構成を示すブロック図である。第１実施形態のモデル生成装置の機能構成を示すブロック図である。不公平性能情報の表示例を示す。不公平性能情報を生成する例を示す。モデル生成装置によるモデル分析処理のフローチャートである。サーバと端末装置を用いたモデル生成システムの概略構成を示すブロック図である。第２実施形態のモデル分析装置の機能構成を示すブロック図である。第２実施形態のモデル分析装置による処理のフローチャートである。

　以下、図面を参照して、本開示の好適な実施形態について説明する。
　＜第１実施形態＞
　［全体構成］
　図１は、第１実施形態に係るモデル生成システムの全体構成を示すブロック図である。モデル生成システム１は、モデル生成装置１００と、表示装置２と、入力装置３とを備える。モデル生成装置１００は、本開示のモデル分析装置を適用したものであり、例えばパーソナルコンピュータ（ＰＣ）などのコンピュータにより構成される。表示装置２は、例えば液晶表示装置などであり、モデル生成装置１００が生成した評価情報を表示する。入力装置３は、例えばマウス、キーボードなどであり、ユーザがモデルの修正時や評価情報の閲覧時に必要な指示、入力を行うために使用される。

　まず、モデル生成システム１の動作を概略的に説明する。モデル生成装置１００は、予め用意された訓練データを用いて、機械学習モデル（以下、単に「モデル」と呼ぶ。）を生成する。また、モデル生成装置１００は、生成したモデルの分析、評価を行う。具体的に、モデル生成装置１００は、評価用データなどを用いてモデルによる予測を行い、予測結果に基づいてモデルの予測性能を分析する。モデル生成装置１００は、評価用データのデータセットのカテゴリの属性毎に、モデルの性能を示す値（以下、「性能値」とも呼ぶ。）を算出する。そして、モデル生成装置１００は、カテゴリの属性毎のモデルの性能が大きく異なる場合、カテゴリの属性毎のモデルの性能を示すグラフなどを生成し、評価情報としてユーザに提示する。ユーザは、評価情報を確認し、入力装置３を操作してモデルの修正のための修正情報を入力することができる。

　なお、機械学習モデルとは、説明変数と目的変数の関係を表す情報である。機械学習モデルは、例えば、説明変数に基づいて目的とする変数を算出することにより推定対象の結果を推定するためのコンポーネントである。機械学習モデルは、既に目的変数の値が得られている学習用データと任意のパラメータとを入力として、学習アルゴリズムを実行することにより生成される。機械学習モデルは例えば、入力ｘを正解ｙに写像する関数ｃにより表されてもよい。機械学習モデルは、推定対象の数値を推定するものであってもよいし、推定対象のラベルを推定するものであってもよい。機械学習モデルは、目的変数の確率分布を記述する変数を出力してもよい。機械学習モデルは、「学習モデル」、「分析モデル」、「ＡＩ（Ａｒｔｉｆｉｃｉａｌ　Ｉｎｔｅｌｌｉｇｅｎｃｅ）モデル」、「学習済みモデル」、「推論モデル」、または「予測式」などと記載されることもある。ここで、説明変数とは機械学習モデルにおいて入力として用いられる変数である。説明変数は、「特徴量」または「特徴」などと記載されることがある。

　また、機械学習モデルを生成するための学習アルゴリズムは特に限定されず、既存の学習アルゴリズムでよい。例えば、学習アルゴリズムは、ランダムフォレスト、サポートベクターマシン、ナイーブベイズ、ＦＡＢ推論（Ｆａｃｔｏｒｉｚｅｄ　Ａｓｙｍｐｔｏｔｉｃ　Ｂａｙｅｓｉａｎ　Ｉｎｆｅｒｅｎｃｅ）を利用した区分線形モデル、またはニューラルネットワークであってよい。なお、ＦＡＢ推論を利用した区分線形モデルの手法は、例えば米国公開特許ＵＳ２０１４／０２２２７４１Ａ１号公報等に開示されている。

　［ハードウェア構成］
　図２は、モデル生成装置１００のハードウェア構成を示すブロック図である。図示のように、モデル生成装置１００は、インタフェース（Ｉ／Ｆ）１１１と、プロセッサ１１２と、メモリ１１３と、記録媒体１１４と、データベース（ＤＢ）１１５と、を備える。

　Ｉ／Ｆ１１１は、外部装置との間でデータの入出力を行う。具体的に、モデルの生成に使用する訓練データ、評価用データ、及び、ユーザが入力装置３を用いて入力した指示や入力は、Ｉ／Ｆ１１１を通じてモデル生成装置１００に入力される。また、モデル生成装置１００が生成したモデルの評価情報は、Ｉ／Ｆ１１１を通じて表示装置２へ出力される。

　プロセッサ１１２は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）などのコンピュータであり、予め用意されたプログラムを実行することによりモデル生成装置１００の全体を制御する。なお、プロセッサ１１２は、ＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＴＰＵ（Ｔｅｎｓｏｒ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、量子プロセッサまたはＦＰＧＡ（Ｆｉｅｌｄ－Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）であってもよい。プロセッサ１１２は、後述するモデル分析処理を実行する。

　メモリ１１３は、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）などにより構成される。メモリ１１３は、プロセッサ１１２による各種の処理の実行中に作業メモリとしても使用される。

　記録媒体１１４は、ディスク状記録媒体、半導体メモリなどの不揮発性で非一時的な記録媒体であり、モデル生成装置１００に対して着脱可能に構成される。記録媒体１１４は、プロセッサ１１２が実行する各種のプログラムを記録している。モデル生成装置１００が各種の処理を実行する際には、記録媒体１１４に記録されているプログラムがメモリ１１３にロードされ、プロセッサ１１２により実行される。

　ＤＢ１１５は、モデル生成装置１００が生成したモデル（以下、「既存モデル」と呼ぶ。）、及び、再訓練による修正後のモデル（以下、「修正後モデル」と呼ぶ。）に関する情報を記憶する。また、ＤＢ１１５は、必要に応じて、Ｉ／Ｆ１１１を通じて入力された訓練データ、評価用データ、ユーザが入力した修正情報などを記憶する。

　（機能構成）
　図３は、第１実施形態のモデル生成装置１００の機能構成を示すブロック図である。モデル生成装置１００は、機能的には、訓練データＤＢ１２１と、モデル訓練部１２２と、モデルＤＢ１２３と、評価用データＤＢ１２４と、分析部１２５と、を備える。

　訓練データＤＢ１２１は、モデルの生成に用いられる訓練データを記憶する。訓練データＤ１は、モデル訓練部１２２に入力される。なお、訓練データＤ１は、入力データと、その入力データに対する正解（正解値又は正解ラベル）との複数の組み合わせにより構成される。

　モデル訓練部１２２は、訓練データＤ１を用いてモデルの訓練を行い、モデルを生成する。モデル訓練部１２２は、生成したモデルに対応するモデルデータＭをモデルＤＢ１２３及び分析部１２５へ出力する。なお、モデルデータＭは、モデルを構成する複数のパラメータ情報を含む。パラメータ情報は、例えば、モデルの入力として用いられる説明変数の情報、各説明変数に対する重みの情報、入力データを構成する各サンプルに対する重みの情報などを含む。

　また、モデル訓練部１２２は、既存モデルを再訓練して修正後モデルを生成する。この場合、モデル訓練部１２２は、ユーザが入力装置３を用いて入力した修正情報Ｄ３に基づいて、モデルを構成するパラメータを修正し、必要に応じて再訓練用の訓練データを用いてモデルの再訓練を行う。モデル訓練部１２２は、再訓練により得られた修正後モデルのモデルデータＭをモデルＤＢ１２３へ記憶するとともに、分析部１２５へ出力する。

　評価用データＤＢ１２４は、生成されたモデルの評価に使用する評価用データを記憶する。評価用データは、例えば収集されたデータのうち、訓練データとして使用しなかった一部のデータや、新たに収集されたデータ、検証のために用意されたバリデーションデータなどである。なお、訓練データを評価用データとして使用してもよい。評価用データは、入力データと、その入力データに対する正解（正解値又は正解ラベル）との複数の組み合わせにより構成される。

　評価用データは、データセットの単位で記憶され、使用される。データセットに含まれる各データは、複数のカテゴリを含む。例えば、与信を判定する予測モデルの場合、評価用データとして多数の判定対象者のデータが用意され、各データは、例えば年齢層、性別、居住地域、家族構成、所得などのカテゴリを含む。また、各カテゴリは、複数の属性（グループ）を含む。

　分析部１２５は、評価用データを用いて、データセットのカテゴリに含まれる属性毎に、モデルの性能を分析する。例えば、あるカテゴリ「年齢層」が「２０代」、「３０代」、「４０代」・・・、などの複数の属性を含むとする。この場合、分析部１２５は、属性毎にモデルの性能を示す性能値を算出する。次に、分析部１２５は、性能の差（乖離）が大きい属性を抽出する。なお、性能の差が大きいことを性能が「不公平」であると呼ぶ。分析部１２５は、そのカテゴリと、性能の差が大きい属性と、を示す情報（以下、「不公平性能情報」とも呼ぶ。）を、評価情報Ｄ２として表示装置２へ出力する。

　表示装置２は、分析部１２５が出力した評価情報Ｄ２を表示装置２に表示する。ユーザは、表示された不公平性能情報を見ることにより、カテゴリ毎及び属性毎のモデルの性能の差異を知ることができる。

　また、ユーザは、必要に応じて、現行モデルを修正するための修正情報Ｄ３を入力装置３に入力する。修正情報Ｄ３は、例えば、モデルの入力として用いられる説明変数の情報、各説明変数に対する重みの情報、入力データを構成する各サンプルに対する重みの情報などの修正に関する情報である。モデル訓練部１２２は、入力された修正情報Ｄ３を用いてモデルの再訓練を行うことにより、モデルの修正を行う。

　図４は、不公平性能情報の例を示す。図４（Ａ）は、ある予測モデルのデータセット全体に対する性能指標を示す。このグラフは、例えば、データセットに含まれる全てのデータに対する予測モデルの性能指標の平均値などである。

　図４（Ｂ）は、不公平性能情報の一例を示す。この例では、カテゴリ「年齢層」に含まれる複数の属性（２０代、３０代、．．．）のうち、属性「２０代」のデータに対しては予測モデルの性能が高いが、属性「６０～９０代」のデータに対しては予測モデルの性能が低いことが示されている。

　図４（Ｃ）は、不公平性能情報の他の例を示す。この例では、カテゴリ「所得」に含まれる複数の属性のうち、属性「２００～３００万」のデータに対しては予測モデルの性能が高いが、属性「１０００万」に対しては予測モデルの性能が低いことが示されている。

　このように、分析部１２５は、属性毎のモデルの性能の差が大きい属性を抽出し、そのカテゴリ、及び、性能値を示すグラフなどを不公平性能情報としてユーザに提示する。これにより、ユーザは、各カテゴリについて属性毎のモデルの性能の差を小さくするように、即ち、モデルの性能に属性毎のばらつきが生じないように、モデルの修正などを行うことが可能となる。なお、不公平性能情報の生成方法については、後に詳しく説明する。分析部１２５は、モデル取得手段、性能算出手段、属性統合手段、及び、出力手段の一例である。

　［不公平性能情報の生成例］
　次に、不公平性能情報を生成する例を説明する。図５は、不公平性能情報を生成する例を示す。いま、顧客の情報に基づいて商品の売り上げを予測するモデルを想定する。モデルに入力されるデータセットは、複数の顧客について、カテゴリ１～６の情報を含む。なお、カテゴリ１は「年齢層」とし、カテゴリ４は「所得」とする。

　この場合、まず、分析部１２５は、各カテゴリを複数の属性（グループ）に分割する。図５の例では、分析部１２５は、カテゴリ１（年齢層）を複数の属性「２０代」、「３０代」、．．．に分割する。同様に、分析部１２５は、カテゴリ２～６をそれぞれ複数の属性に分割する。

　次に、分析部１２５は、各カテゴリについて、属性毎にデータセットをモデルに入力して予測を行い、属性毎にモデルの性能を示す性能指標を算出する。性能指標としては、例えば、モデルの予測精度、互換性など、モデルの性能を評価するために使用できる各種の指標を用いることができる。性能指標の他の例として、Ｆ１スコア、適合率、再現率などを用いることができる。回帰タスクの場合には、決定係数等を用いても良い。また、値が低いほど良いとされる誤差系の指標として、例えば平均二乗誤差や交差エントロピー等を用いても良い。これにより、図５に示すように、カテゴリ１～６に含まれる各属性について、モデルの性能を示す性能値が得られる。図５では、カテゴリ１～６について算出した属性毎の性能値をグラフ８１～８６で示している。

　次に、分析部１２５は、各カテゴリについて、属性毎の性能値の差が大きい組み合わせを抽出する。例えば、図５のカテゴリ１では、属性「２０代」の性能値は高く、属性「６０代」、「７０代」、．．の性能値は低い。よって、分析部１２５は、性能値の差が大きい属性の組み合わせ（以下、「不公平属性ペア」とも呼ぶ。）を抽出する。具体的には、分析部１２５は、最大の性能値を有する属性と最小の性能値を有する属性を不公平属性ペアとして抽出する。

　なお、分析部１２５は、連続又は隣接する属性の性能値の差が小さい場合には、それらの属性を１つの属性に統合してもよい。例えば、図５のカテゴリ１に関するグラフ８１において、属性「６０代」、「７０代」、「８０代」、「９０代」の性能値の差が小さい（差が所定の閾値以内である）場合、分析部１２５は、それらを統合した属性「６０～９０代」を作成してもよい。こうして、図５の例では、不公平属性ペアとして「２０代」と「６０～９０代」が抽出される。このように、性能値の差が小さい複数の属性を統合することにより、複数の属性を列挙する場合に比べて表示がシンプルになり、ユーザによる認識が容易となる。

　次に、分析部１２５は、各カテゴリについて抽出された不公平属性ペアについて、性能値の差を比較し、性能値の差が最も大きい不公平属性ペアに対応するカテゴリを、不公平なカテゴリ（以下、「不公平カテゴリ」とも呼ぶ。）と決定する。例えば、カテゴリ１～６のうち、カテゴリ１の不公平属性ペア間の差が最大である場合、分析部１２５は、カテゴリ１を不公平カテゴリと決定する。こうして、複数のカテゴリのうち、不公平性が最も高い（公平性が最も低い）カテゴリが抽出される。

　分析部１２５は、不公平カテゴリについて、そのカテゴリ名、不公平属性ペアの性能値を示すグラフを作成し、表示装置２へ出力する。図５の例では、分析部１２５は、カテゴリ１を不公平カテゴリと判定し、カテゴリ名「年齢層」と、不公平属性ペア「２０代」及び「６０～９０代」の性能値を示すグラフとを表示している。

　なお、上記の例では、分析部１２５は、１つの不公平カテゴリを抽出しているが、複数の不公平カテゴリを抽出してもよい。例えば、分析部１２５は、複数のカテゴリのうち、不公平性が最も高いカテゴリと、２番目に高いカテゴリと、を不公平カテゴリとして抽出してもよい。図５の例では、グラフ８７に示すカテゴリ１（年齢層）に加えて、グラフ８８に示すカテゴリ４（所得）も不公平カテゴリとして抽出されている。なお、カテゴリ４については、分析部１２５は、性能値の差が小さい属性「２００万」、「２５０万」、「３００万」を統合して属性「２００～３００万」を作成し、属性「２００～３００万」と「１０００万」を不公平属性ペアとして抽出している。なお、分析部１２５は、カテゴリ数が１つである場合には、そのカテゴリについての不公平性能情報を出力すればよい。

　以上のように、本実施形態では、分析部１２５は、各カテゴリについて、それに含まれる属性毎の性能値を比較し、属性毎の性能値の差が大きいカテゴリを不公平カテゴリとして抽出する。そして、分析部１２５は、不公平カテゴリに関するグラフ８７、８８のような情報を不公平性能情報として表示装置２に表示する。これにより、ユーザは、属性毎のモデルの性能の差やばらつきが大きいカテゴリを容易に知ることができる。通常、カテゴリ数及び属性数が多い場合、データセットが数値データである場合などには、カテゴリ毎の性能の差を人手により確認することは困難である。この点、本実施形態では、図５のグラフ８７、８８に示すような不公平性能情報を表示することにより、ユーザは性能が不公平なカテゴリや、そのカテゴリにおいて問題になっている属性毎の性能値の違いなどを容易に把握することができる。

　［モデル分析処理］
　次に、モデル生成装置１００によるモデル分析処理について説明する。図６は、モデル生成装置１００によるモデル分析処理のフローチャートである。モデル分析処理は、図５に例示したように、各カテゴリの属性毎にモデルの性能を算出し、不公平性能情報を生成する処理である。この処理は、図２に示すプロセッサ１１２が予め用意されたプログラムを実行し、主として図３に示す分析部１２５として動作することにより実現される。

　まず、分析部１２５は、データセットに含まれる連続変数を、カテゴリに変換する（ステップＳ１０）。具体的に、分析部１２５は、年齢、所得などの連続変数を、順序付きカテゴリに変換する。例えば、分析部１２５は、連続変数の取る最小値と最大値の間を２つ以上の属性（グループ）に等分割し、カテゴリに変換する。年齢の例では、分析部１２５は、２０～１００歳を１０歳毎に分割して、２０代、３０代、というように複数の属性を作成する。

　なお、分析部１２５は、業務知識に基づいて分割点を用意できる場合は、その分割点に応じて、連続変数をカテゴリに変換してもよい。また、分析部１２５は、各属性のサンプル数が同じになるように、パーセンタイルに応じて分割点を決定し、連続変数をカテゴリに変換してもよい。なお、データセットに含まれる変数が例えば、性別、居住地など、もともとカテゴリである場合は、上記の処理は不要である。

　次に、分析部１２５は、各カテゴリについて、属性毎に性能値を算出する（ステップＳ１１）。具体的に、分析部１２５は、各カテゴリの属性に応じてデータセットを分割し、部分データセットを作成する。そして、分析部１２５は、部分データセット毎にモデルの性能値を算出する。

　次に、分析部１２５は、属性を統合する（ステップＳ１２）。具体的には、分析部１２５は、元々の連続変数を含む順序付きカテゴリについて、連続する属性の性能の差が一定の閾値以内である場合に、それらの属性を１つの属性に統合する。なお、その代わりに、分析部１２５は、クラスタリング手法を用いて複数の属性を統合してもよい。

　次に、分析部１２５は、各カテゴリについて、モデルの性能値の差が大きい不公平属性ペアを決定する（ステップＳ１３）。具体的には、分析部１２５は、各カテゴリにおいて、モデルの性能値が最大の属性と最小の属性のペアを不公平属性ペアとして抽出する。

　なお、分析部１２５が、不公平属性ペアを抽出する方法は、性能値の最大値と最小値とに限定されない。例えば、分析部１２５は、ユーザによって事前に定められた条件を満たすペアを不公平属性ペアとして抽出してもよい。分析部１２５は、任意の属性ペアの性能値の差が一定以上であれば、不公平属性ペアとして抽出してもよい。

　次に、分析部１２５は、不公平カテゴリを決定し、不公平性能情報を表示装置２に出力する（ステップＳ１４）。具体的には、分析部１２５は、各カテゴリについての不公平属性ペア間の性能値の差を算出し、少なくとも性能値の差が最大であるカテゴリを不公平カテゴリと決定する。そして、分析部１２５は、不公平カテゴリについて、それに属する不公平属性ペアの性能値を示すグラフなどを含む不公平性能情報を表示装置２へ出力する。これにより、図５のグラフ８７、８８などの不公平性能情報が表示装置２に表示される。そして、処理は終了する。

　［変形例］
　上記の実施形態では、モデル生成装置１００をＰＣなどの独立した装置として構成しているが、その代わりに、モデル生成装置をサーバと端末装置により構成してもよい。図７は、サーバと端末装置を用いたモデル生成システム１ｘの概略構成を示すブロック図である。図７において、サーバ１００ｘは、図３に示すモデル生成装置１００の構成を備える。また、ユーザが使用する端末装置７の表示装置２ｘ及び入力装置３ｘを、図３に示す表示装置２及び入力装置３として使用する。

　＜第２実施形態＞
　図８は、第２実施形態のモデル分析装置７０の機能構成を示すブロック図である。モデル分析装置７０は、モデル取得手段７１と、性能算出手段７２と、出力手段７３と、を備える。

　図９は、第２実施形態のモデル分析装置７０による処理のフローチャートである。モデル取得手段７１は、モデルを取得する（ステップＳ７１）。性能算出手段７２は、データのカテゴリに含まれる属性毎にモデルの性能を算出する（ステップＳ７２）。出力手段７３は、モデルの性能の差が所定の条件を満たす属性のペアを抽出し、当該ペアに含まれる属性毎にモデルの性能を示す性能情報を出力する（ステップＳ７３）。

　第２実施形態のモデル分析装置７０によれば、予測に使用されるデータセットのカテゴリの属性毎にモデルの性能を評価し、モデルによる予測性能の差が大きいカテゴリ及び属性を可視化することが可能となる。

　上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。

　（付記１）
　モデルを取得するモデル取得手段と、
　データのカテゴリに含まれる属性毎に前記モデルの性能を算出する性能算出手段と、
　前記モデルの性能の差が所定の条件を満たす属性のペアを抽出し、当該ペアに含まれる属性毎に前記モデルの性能を示す性能情報を出力する出力手段と、
　を備えるモデル分析装置。

　（付記２）
　前記性能算出手段は、複数のカテゴリについて、各カテゴリに含まれる属性毎に前記モデルの性能を算出し、
　前記出力手段は、前記複数のカテゴリのうち、前記属性のペアに含まれる属性間の性能の差が最も大きいカテゴリについて、前記性能情報を出力する付記１に記載のモデル分析装置。

　（付記３）
　前記モデルの性能に基づいて、連続する複数の属性を１つに統合する属性統合手段を備える付記１又は２に記載のモデル分析装置。

　（付記４）
　前記出力手段は、前記属性のペアとして、前記モデルの性能が最大値である属性と、前記モデルの性能が最小値である属性とを抽出する付記１乃至３のいずれか一項に記載のモデル分析装置。

　（付記５）
　前記性能情報は、前記属性のペアに含まれる属性毎に前記モデルの性能を示すグラフを含む付記１乃至４のいずれか一項に記載のモデル分析装置。

　（付記６）
　前記性能算出手段は、前記カテゴリに含まれる属性毎にデータセットを分割し、前記属性毎のデータセットを用いて、前記属性毎に前記モデルの性能を算出する付記１乃至５のいずれか一項に記載のモデル分析装置。

　（付記７）
　モデルを取得し、
　データのカテゴリに含まれる属性毎に前記モデルの性能を算出し、
　前記モデルの性能の差が所定の条件を満たす属性のペアを抽出し、当該ペアに含まれる属性毎に前記モデルの性能を示す性能情報を出力するモデル分析方法。

　（付記８）
　モデルを取得し、
　データのカテゴリに含まれる属性毎に前記モデルの性能を算出し、
　前記モデルの性能の差が所定の条件を満たす属性のペアを抽出し、当該ペアに含まれる属性毎に前記モデルの性能を示す性能情報を出力する処理をコンピュータに実行させるプログラムを記録した記録媒体。

　以上、実施形態及び実施例を参照して本開示を説明したが、本開示は上記実施形態及び実施例に限定されるものではない。本開示の構成や詳細には、本開示のスコープ内で当業者が理解し得る様々な変更をすることができる。

　１、１ｘ　モデル生成システム
　２、２ｘ　表示装置
　３、３ｘ　入力装置
　７　端末装置
　１００　モデル生成装置
　１１２　プロセッサ
　１２１　訓練データＤＢ
　１２２　モデル訓練部
　１２３　モデルＤＢ
　１２４　評価用データＤＢ
　１２５　分析部

Claims

　モデルを取得するモデル取得手段と、
　データのカテゴリに含まれる属性毎に前記モデルの性能を算出する性能算出手段と、
　前記モデルの性能の差が所定の条件を満たす属性のペアを抽出し、当該ペアに含まれる属性毎に前記モデルの性能を示す性能情報を出力する出力手段と、
　を備えるモデル分析装置。
　前記性能算出手段は、複数のカテゴリについて、各カテゴリに含まれる属性毎に前記モデルの性能を算出し、
　前記出力手段は、前記複数のカテゴリのうち、前記属性のペアに含まれる属性間の性能の差が最も大きいカテゴリについて、前記性能情報を出力する請求項１に記載のモデル分析装置。
　前記モデルの性能に基づいて、連続する複数の属性を１つに統合する属性統合手段を備える請求項１又は２に記載のモデル分析装置。
　前記出力手段は、前記属性のペアとして、前記モデルの性能が最大値である属性と、前記モデルの性能が最小値である属性とを抽出する請求項１乃至３のいずれか一項に記載のモデル分析装置。
　前記性能情報は、前記属性のペアに含まれる属性毎に前記モデルの性能を示すグラフを含む請求項１乃至４のいずれか一項に記載のモデル分析装置。
　前記性能算出手段は、前記カテゴリに含まれる属性毎にデータセットを分割し、前記属性毎のデータセットを用いて、前記属性毎に前記モデルの性能を算出する請求項１乃至５のいずれか一項に記載のモデル分析装置。
　モデルを取得し、
　データのカテゴリに含まれる属性毎に前記モデルの性能を算出し、
　前記モデルの性能の差が所定の条件を満たす属性のペアを抽出し、当該ペアに含まれる属性毎に前記モデルの性能を示す性能情報を出力するモデル分析方法。
　モデルを取得し、
　データのカテゴリに含まれる属性毎に前記モデルの性能を算出し、
　前記モデルの性能の差が所定の条件を満たす属性のペアを抽出し、当該ペアに含まれる属性毎に前記モデルの性能を示す性能情報を出力する処理をコンピュータに実行させるプログラムを記録した記録媒体。