WO2023181243A1

WO2023181243A1 - モデル分析装置、モデル分析方法、及び、記録媒体

Info

Publication number: WO2023181243A1
Application number: PCT/JP2022/013899
Authority: WO
Inventors: 竜太松野; 智哉坂井; 啓太佐久間; 義男亀田
Original assignee: 日本電気株式会社
Priority date: 2022-03-24
Filing date: 2022-03-24
Publication date: 2023-09-28

Abstract

モデル分析装置において、モデル取得手段は、モデルを取得する。データセット取得手段は、データセットを取得する。性能算出手段は、データセットの各カテゴリに対応する属性毎に、モデルの性能を算出する。出力手段は、算出された属性毎のモデルの性能を示す性能情報を出力する。パラメータ変更手段は、属性に対応するモデルのパラメータの変更を受け取る。訓練手段は、変更後のパラメータを用いてモデルを再訓練する。モデルが再訓練された場合、性能算出手段は再訓練後のモデルの性能を算出し、出力手段は算出されたモデルの性能を出力する。

Description

モデル分析装置、モデル分析方法、及び、記録媒体

　本開示は、機械学習モデルの分析に関する。

　近年、様々な分野において、機械学習により得られた予測モデルが利用されている。特許文献１は、識別モデルの学習に使用する学習用データのカテゴリ毎に、モデルの学習に使用した学習用データの数と、学習により得られたモデルの識別精度との関係を可視化する手法を記載している。

国際公開ＷＯ２０２１／０８５１８８号公報

　予測モデルを用いて予測を行う場合、入力されるデータセットのカテゴリや属性によって、モデルの性能に差が生じることがある。よって、ユーザは、モデルの性能の差を確認し、性能の差を小さくするようにモデルを修正する必要がある。

　本開示の１つの目的は、予測に使用されるデータセットのカテゴリの属性毎にモデルの性能を評価し、モデルの性能の差を小さくするようにモデルを修正することにある。

　本開示の一つの観点では、モデル分析装置は、
　モデルを取得するモデル取得手段と、
　データセットを取得するデータセット取得手段と、
　前記データセットの各カテゴリに対応する属性毎に、前記モデルの性能を算出する性能算出手段と、
　算出された属性毎のモデルの性能を示す性能情報を出力する出力手段と、
　前記属性に対応する前記モデルのパラメータの変更を受け取るパラメータ変更手段と、
　前記変更後のパラメータを用いて前記モデルを再訓練する訓練手段と、
　を備え、
　前記性能算出手段は、前記モデルが再訓練された場合、再訓練後のモデルの性能を算出する。

　本開示の他の観点では、モデル分析方法は、
　モデルを取得し、
　データセットを取得し、
　前記データセットの各カテゴリに対応する属性毎に、前記モデルの性能を算出し、
　算出された属性毎のモデルの性能を示す性能情報を出力し、
　前記属性に対応する前記モデルのパラメータの変更を受け取り、
　前記変更後のパラメータを用いて前記モデルを再訓練し、再訓練後のモデルの性能を算出する。

　本開示のさらに他の観点では、記録媒体は、
　モデルを取得し、
　データセットを取得し、
　前記データセットの各カテゴリに対応する属性毎に、前記モデルの性能を算出し、
　算出された属性毎のモデルの性能を示す性能情報を出力し、
　前記属性に対応する前記モデルのパラメータの変更を受け取り、
　前記変更後のパラメータを用いて前記モデルを再訓練し、再訓練後のモデルの性能を算出する処理をコンピュータに実行させるプログラムを記録する。

　本開示によれば、予測に使用されるデータセットのカテゴリの属性毎にモデルの性能を評価し、モデルの性能の差を小さくするようにモデルを修正することができる。

第１実施形態に係るモデル生成システムの全体構成を示すブロック図である。モデル生成装置のハードウェア構成を示すブロック図である。第１実施形態のモデル生成装置の機能構成を示すブロック図である。属性別性能情報の表示例を示す。属性別性能情報の他の表示例を示す。モデル分析処理のフローチャートである。サーバと端末装置を用いたモデル生成システムの概略構成を示すブロック図である。第２実施形態のモデル分析装置の機能構成を示すブロック図である。第２実施形態のモデル分析装置による処理のフローチャートである。

　以下、図面を参照して、本開示の好適な実施形態について説明する。
　＜第１実施形態＞
　［全体構成］
　図１は、第１実施形態に係るモデル生成システムの全体構成を示すブロック図である。モデル生成システム１は、モデル生成装置１００と、表示装置２と、入力装置３とを備える。モデル生成装置１００は、本開示のモデル分析装置を適用したものであり、例えばパーソナルコンピュータ（ＰＣ）などのコンピュータにより構成される。表示装置２は、例えば液晶表示装置などであり、モデル生成装置１００が生成した評価情報を表示する。入力装置３は、例えばマウス、キーボードなどであり、ユーザがモデルの修正時や評価情報の閲覧時に必要な指示、入力を行うために使用される。

　まず、モデル生成システム１の動作を概略的に説明する。モデル生成装置１００は、予め用意された訓練データを用いて、機械学習モデル（以下、単に「モデル」とも呼ぶ。）を生成する。また、モデル生成装置１００は、生成したモデルの分析、評価を行う。具体的に、モデル生成装置１００は、評価用データなどを用いてモデルによる予測を行い、予測結果に基づいてモデルの予測性能を分析する。モデル生成装置１００は、評価用データのカテゴリの属性毎に、モデルの性能を示す値（以下、「性能値」とも呼ぶ。）を算出する。そして、モデル生成装置１００は、カテゴリの属性毎にモデルの性能を示す情報を評価情報としてユーザに提示する。ユーザは、評価情報を確認し、入力装置３を操作してモデルの修正のための修正情報を入力することができる。

　なお、「機械学習モデル」とは、説明変数と目的変数の関係を表す情報である。機械学習モデルは、例えば、説明変数に基づいて目的とする変数を算出することにより推定対象の結果を推定するためのコンポーネントである。機械学習モデルは、既に目的変数の値が得られている学習用データと任意のパラメータとを入力として、学習アルゴリズムを実行することにより生成される。機械学習モデルは、例えば、入力ｘを正解ｙに写像する関数ｃにより表されてもよい。機械学習モデルは、推定対象の数値を推定するものであってもよいし、推定対象のラベルを推定するものであってもよい。機械学習モデルは、目的変数の確率分布を記述する変数を出力してもよい。機械学習モデルは、「学習モデル」、「分析モデル」、「ＡＩ（Ａｒｔｉｆｉｃｉａｌ　Ｉｎｔｅｌｌｉｇｅｎｃｅ）モデル」または「予測式」などと記載されることもある。また、説明変数とは機械学習モデルにおいて入力として用いられる変数である。説明変数は、「特徴量」または「特徴」などと記載されることがある。

　また、機械学習モデルを生成するための学習アルゴリズムは特に限定されず、既存の学習アルゴリズムでよい。例えば、学習アルゴリズムは、ランダムフォレスト、サポートベクターマシン、ナイーブベイズ、ＦＡＢ推論（Ｆａｃｔｏｒｉｚｅｄ　Ａｓｙｍｐｔｏｔｉｃ　Ｂａｙｅｓｉａｎ　Ｉｎｆｅｒｅｎｃｅ）を利用した区分線形モデル、またはニューラルネットワークであってよい。なお、ＦＡＢ推論を利用した区分線形モデルの手法は、例えば米国公開特許ＵＳ２０１４／０２２２７４１Ａ１号公報等に開示されている。

　［ハードウェア構成］
　図２は、モデル生成装置１００のハードウェア構成を示すブロック図である。図示のように、モデル生成装置１００は、インタフェース（Ｉ／Ｆ）１１１と、プロセッサ１１２と、メモリ１１３と、記録媒体１１４と、データベース（ＤＢ）１１５と、を備える。

　Ｉ／Ｆ１１１は、外部装置との間でデータの入出力を行う。具体的に、モデルの生成に使用する訓練データ、評価用データ、及び、ユーザが入力装置３を用いて入力した指示や入力は、Ｉ／Ｆ１１１を通じてモデル生成装置１００に入力される。また、モデル生成装置１００が生成したモデルの評価情報は、Ｉ／Ｆ１１１を通じて表示装置２へ出力される。

　プロセッサ１１２は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）などのコンピュータであり、予め用意されたプログラムを実行することによりモデル生成装置１００の全体を制御する。なお、プロセッサ１１２は、ＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＴＰＵ（Ｔｅｎｓｏｒ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、量子プロセッサまたはＦＰＧＡ（Ｆｉｅｌｄ－Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）であってもよい。プロセッサ１１２は、後述するモデル分析処理を実行する。

　メモリ１１３は、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）などにより構成される。メモリ１１３は、プロセッサ１１２による各種の処理の実行中に作業メモリとしても使用される。

　記録媒体１１４は、ディスク状記録媒体、半導体メモリなどの不揮発性で非一時的な記録媒体であり、モデル生成装置１００に対して着脱可能に構成される。記録媒体１１４は、プロセッサ１１２が実行する各種のプログラムを記録している。モデル生成装置１００が各種の処理を実行する際には、記録媒体１１４に記録されているプログラムがメモリ１１３にロードされ、プロセッサ１１２により実行される。

　ＤＢ１１５は、モデル生成装置１００が生成したモデル（以下、「既存モデル」と呼ぶ。）、及び、再訓練による修正後のモデル（以下、「修正後モデル」と呼ぶ。）に関する情報を記憶する。また、ＤＢ１１５は、必要に応じて、Ｉ／Ｆ１１１を通じて入力された訓練データ、評価用データ、ユーザが入力した修正情報などを記憶する。

　（機能構成）
　図３は、第１実施形態のモデル生成装置１００の機能構成を示すブロック図である。モデル生成装置１００は、機能的には、訓練データＤＢ１２１と、モデル訓練部１２２と、モデルＤＢ１２３と、評価用データＤＢ１２４と、分析部１２５と、を備える。

　訓練データＤＢ１２１は、モデルの生成に用いられる訓練データを記憶する。訓練データＤ１は、モデル訓練部１２２に入力される。なお、訓練データＤ１は、入力データと、その入力データに対する正解（正解値又は正解ラベル）との複数の組み合わせにより構成される。

　モデル訓練部１２２は、訓練データＤ１を用いてモデルの訓練を行い、モデルを生成する。モデル訓練部１２２は、生成したモデルに対応するモデルデータＭをモデルＤＢ１２３及び分析部１２５へ出力する。なお、モデルデータＭは、モデルを構成する複数のパラメータ情報を含む。パラメータ情報は、例えば、モデルの入力として用いられる説明変数の情報、各説明変数に対する重みの情報、入力データを構成する各サンプルに対する重みの情報などを含む。各説明変数に対する重みは、各説明変数のカテゴリの属性毎に設定可能としてもよい。

　また、モデル訓練部１２２は、既存モデルを再訓練して修正後モデルを生成する。この場合、モデル訓練部１２２は、ユーザが入力装置３を用いて入力した修正情報Ｄ３に基づいて、モデルを構成するパラメータを修正し、必要に応じて再訓練用の訓練データを用いてモデルの再訓練を行う。モデル訓練部１２２は、再訓練により得られた修正後モデルのモデルデータＭをモデルＤＢ１２３へ記憶するとともに、分析部１２５へ出力する。モデル訓練部１２２は、パラメータ変更手段、訓練手段の一例である。

　ここで、再訓練の方法の一例を示す。モデル訓練部１２２による再訓練の方法としては、既存モデルを無視して完全に新しい修正後モデルを訓練しなおす方法、および、新たな訓練データを利用して、既存モデルを更新する方法が挙げられる。他にも、既存モデルの再訓練方法として、モデルに用いる説明変数の種類を変えずに、再訓練によって係数のみ更新する方法、および、説明変数の選択も含めて再訓練する方法が挙げられる。ただし、モデルの再訓練方法は、上述する方法に限定されない。

　評価用データＤＢ１２４は、生成されたモデルの評価に使用する評価用データを記憶する。評価用データは、例えば収集されたデータのうち、訓練データとして使用しなかった一部のデータや、新たに収集されたデータ、検証のために用意されたバリデーションデータなどである。なお、訓練データを評価用データとして使用してもよい。評価用データは、入力データと、その入力データに対する正解（正解値又は正解ラベル）との複数の組み合わせにより構成される。

　評価用データは、データセットの単位で記憶され、使用される。データセットに含まれる各データは、複数のカテゴリを含む。例えば、与信を判定する予測モデルの場合、評価用データとして多数の判定対象者のデータが用意され、各データは、例えば年齢層、性別、居住地域、家族構成、所得などのカテゴリを含む。また、各カテゴリは、複数の属性（グループ）を含む。

　分析部１２５は、評価用データを用いて、データセットの各カテゴリに対応する属性毎に、モデルの性能を分析する。例えば、あるカテゴリ「性別」が属性「男性」と「女性」を含むとする。この場合、分析部１２５は、属性「男性」及び「女性」のそれぞれについてモデルの性能を示す性能値を算出する。分析部１２５は、他のカテゴリについても、属性毎にモデルの性能値を算出する。なお、モデルの性能指標としては、例えば、モデルの予測精度、互換性など、モデルの性能を評価するために使用できる各種の指標を用いることができる。性能指標の他の例として、Ｆ１スコア、適合率、再現率を用いても良く、回帰タスクの場合には決定係数等を用いても良い。また、値が低いほど良いとされる誤差系の指標として、例えば平均二乗誤差や交差エントロピー等を用いても良い。そして、分析部１２５は、複数のカテゴリについて、属性毎にモデルの性能値を示す情報（以下、「属性別性能情報」とも呼ぶ。）を生成し、評価情報Ｄ２として表示装置２へ出力する。分析部１２５は、モデル取得手段、データセット取得手段、性能算出手段、出力手段の一例である。

　表示装置２は、分析部１２５が出力した評価情報Ｄ２を表示装置２に表示する。ユーザは、表示された属性別性能情報を見ることにより、各カテゴリの属性毎のモデルの性能の差異を知ることができる。

　また、ユーザは、必要に応じて、現行モデルを修正するための修正情報Ｄ３を入力装置３に入力する。修正情報Ｄ３は、例えば、モデルの入力として用いられる説明変数の情報、各説明変数に対する重みの情報、説明変数のカテゴリの属性毎に設定される重みの情報、入力データを構成する各サンプルに対する重みの情報などの修正に関する情報である。モデル訓練部１２２は、入力された修正情報Ｄ３を用いてモデルの再訓練を行うことにより、モデルの修正を行う。

　［属性別性能情報の表示例］
　次に、属性別性能情報の表示例について説明する。
　図４（Ａ）は、属性別性能情報の表示例を示す。表示例４０では、予測に用いられるデータセット全体について、属性毎にモデルの性能値が表示される。なお、以下の例では、モデルの性能値としてモデルの精度を用いる。

　具体的に、表示例４０は、全体性能値欄４１と、カテゴリ欄４２と、性能値欄４３と、訓練ボタン４４と、を含む。全体性能値欄４１は、対象となるデータセット全体に対するモデルの性能値を示す。本例では、データセット全体に対するモデルの性能値として、「全体精度８５％」が示されている。カテゴリ欄４２は、モデルの性能値の表示対象となるカテゴリを示す。本例では、４つのカテゴリ「性別」、「年齢」、「居住地」及び「年収」についてモデルの性能値が表示されている。

　性能値欄４３は、各カテゴリについて、属性毎にモデルの性能値を示している。図４（Ｂ）は、性能値欄４３のうち、図４（Ａ）の符号４５で示すカテゴリ「性別」に対応する部分を示す。性能値欄４３は、各カテゴリについて、属性枠４６ａ～４６ｂと、パラメータ値表示欄４７ａ～４７ｂと、操作ボタン４８ａ～４８ｂ、４９ａ～４９ｂと、を備える。図４（Ｂ）では、属性枠４６ａは属性「男性」に対応し、属性枠４６ｂは属性「女性」に対応している。また、パラメータ値表示欄４７ａは属性「男性」に対応し、パラメータ値表示欄４７ｂは属性「女性」に対応している。

　パラメータ値表示欄４７ａ～４７ｂは、モデルが予測に使用するパラメータの現在値を示している。本例では、例えばパラメータは各属性の重要度を示す重みであるとする。図４（Ｂ）では、パラメータ値表示欄４７ａは、カテゴリ「性別」の属性「男性」の説明変数に対するモデルの重みが「０．４５」であることを示している。また、パラメータ値表示欄４７ｂは、カテゴリ「性別」の属性「女性」の説明変数に対するモデルの重みが「０．５０」であることを示している。操作ボタン４８ａ～４８ｂ、４９ａ～４９ｂは、ユーザが各属性に対するパラメータ値を増減させるためのボタンである。ユーザは、パラメータ値を増加させる場合には操作ボタン４８ａ～４８ｂを押し、パラメータ値を減少させる場合には操作ボタン４９ａ～４９ｂを押す。

　図４（Ａ）において、例えば、カテゴリ「性別」については、属性「男性」に対する性能値が９５％、属性「女性」に対する性能値が６０％となっている。なお、性能値欄４３内の各属性枠４６のかっこ内には、その属性の割合が示されている。例えば、図４（Ａ）の例では、カテゴリ「性別」について、データセット全体において男性の割合が６０％、女性の割合が４０％となっている。また、各属性枠の大きさ（横方向の長さ）は、各属性の割合に対応している。例えば、カテゴリ「性別」について、「男性」の属性枠４６ａと「女性」の属性枠４６ｂの長さは３：２（６０：４０）になっている。

　カテゴリ「年齢」については、属性「子供」に対する性能値が３５％、属性「大人」に対する性能値が９４％、属性「高齢者」に対する性能値が９５％となっている。なお、カテゴリ「年齢」においては、属性「子供」の割合が２０％、属性「大人」の割合が６０％、属性「高齢者」の割合が２０％である。

　カテゴリ「居住地」については、属性「関東」に対する性能値が８４％、属性「関西」に対する性能値が８６％となっている。なお、カテゴリ「居住地」においては、属性「関東」の割合が５５％、属性「関西」の割合が４５％である。

　カテゴリ「年収」については、属性「４００万未満」に対する性能値が８３％、属性「４００万以上」に対する性能値が８７％となっている。なお、カテゴリ「年収」においては、属性「４００万未満」の割合が４８％、属性「４００万以上」の割合が５２％である。

　カテゴリ欄４２と性能値欄４３は、モデルの性能の公平性に基づいて塗分けられる。なお、本明細書では、図示の便宜上、色分けの代わりにハッチングによる区別を用いる。同一カテゴリ内の異なる属性間でモデルの性能値の差が小さいことを「モデルの性能が公平である」と言い、モデルの性能値の差が大きいことを「モデルの性能が不公平である」と言う。カテゴリ欄４２と性能値欄４３は、モデルの性能が公平であるか不公平であるかに応じて、ハッチングの種類により塗分けられている。

　いま、モデルの性能を不公平と判定する際の閾値を「５％」と仮定する。カテゴリ「性別」については、属性「男性」の精度が９５％、属性「女性」の精度が６０％であり、その差が閾値「５％」以上であるため、モデルの性能が不公平と判定される。よって、図４（Ａ）の凡例に示すように、性能値が高い「男性」の属性枠はパターンＰ１のハッチングで示され、性能値が低い「女性」の属性枠はパターンＰ２のハッチングで示されている。なお、実際の表示においては、例えば色分けにより、性能値が低い方の属性枠を「赤色」、性能値が高い方の属性枠を「黄色」などとして、性能値が低い方の属性枠をより目立つように表示することが好ましい。また、カテゴリ欄４２は、性能値が低い方の属性枠と同様にパターンＰ２のハッチングで示す。これにより、ユーザはカテゴリ欄４２を見ただけでも、そのカテゴリについてモデルの性能が不公平であることを容易に認識できる。

　カテゴリ「年齢」についても、属性「大人」及び「高齢者」の性能値に比べて、属性「子供」の性能値が上記の閾値以上低いので、モデルの性能が不公平であると判定される。その結果、カテゴリ欄４２と「子供」の属性枠とはパターンＰ２のハッチングで示され、「大人」と「高齢者」の属性枠はパターンＰ１のハッチングで示されている。

　一方、カテゴリ「居住地」については、属性「関東」の性能値と属性「関西」の性能値の差が上記の閾値以下であるので、モデルの性能は公平であると判定される。よって、カテゴリ欄４２及び性能値欄４３は、いずれもモデルの性能が公平であることを示すパターンＰ３のハッチングで示されている。

　カテゴリ「年収」についても、属性「４００万未満」の性能値と属性「４００万以上」の性能値の差が上記の閾値以下であるので、モデルの性能は公平であると判定される。よって、カテゴリ欄４２及び性能値欄４３は、いずれもモデルの性能が公平であることを示すパターンＰ３のハッチングで示されている。

　以上のように、図４（Ａ）に示す属性別性能情報の表示によれば、各カテゴリについて、属性毎にモデルの性能値が表示される。よって、ユーザは、同じモデルであっても、予測に用いるデータセットに含まれるカテゴリの属性によってモデルの性能値が異なることを知ることができる。また、各カテゴリについて、属性毎の性能値に基づいてモデルの性能が公平であるか否かが判定され、モデルの性能が公平であるカテゴリと不公平であるカテゴリとが区別して表示されるので、ユーザは、カテゴリ毎にモデルの公平性を一目で知ることができる。

　ユーザは、属性別性能情報を見てモデルの修正が必要と考えた場合、入力装置３を操作して修正情報Ｄ３を入力し、モデルの再訓練を指示することができる。具体的に、ユーザは、各属性のパラメータ値表示欄４７を見て現在のパラメータ値を確認し、カーソルＣを用いて操作ボタン４８、４９を操作してパラメータ値の増減を入力する。そして、ユーザは、訓練ボタン４４を押すことにより、モデルの再訓練を指示すればよい。訓練ボタン４４が押されると、入力装置３は、再訓練の指示、及び、操作ボタン４８、４９の操作により変更されたパラメータ値を修正情報Ｄ３としてモデル生成装置１のモデル訓練部１２２へ送信する。

　モデル訓練部１２２は、変更後のパラメータ値を用いてモデルを再訓練し、再訓練後のモデルデータＭをモデルＤＢ１２３及び分析部１２５へ出力する。そして、分析部１２５は、再訓練後のモデルについて属性別性能情報を算出し、表示装置２に表示する。こうして、ユーザによるパラメータ値の調整後のモデルについて、属性別性能情報が表示される。

　なお、モデル訓練部１２２は、ユーザが変更した属性のパラメータ値に応じて、他のパラメータ値を変更してもよい。例えば、ユーザが、カテゴリ「性別」の属性「男性」の重みを０．０１増加した場合、それに応じてモデル訓練部１２２はカテゴリ「性別」の属性「女性」の重みを０．０１減少させる。即ち、モデル訓練部１２２は、ユーザによる変更後のパラメータ値を用いてカテゴリ毎に各属性のパラメータ値を正規化し、モデルの再訓練を行う。

　ユーザは、図４（Ａ）に示す属性別性能情報を見て、特にモデルの性能が不公平であるカテゴリについてパラメータ値を調整することにより、モデルの性能が公平となるようにモデルの再訓練を行うことができる。例えば、図４（Ａ）の例では、カテゴリ「性別」に関して、性別「男性」の性能値が高く、性別「女性」の性能値が低い。基本的に、重みの値を増加させることにより性能値は上昇し、重みの値を減少させることにより性能値は低下する。よって、ユーザは、属性「男性」の重みを減少させるか、属性「女性」の重みを増加させるように操作ボタン４８又は４９を操作すればよい。

　ユーザは、上記のように、モデルの性能が不公平であるカテゴリ毎にパラメータ値を修正して再訓練を行う。図５は、モデルの再訓練を行った後の属性別性能情報の表示例である。この例では、各カテゴリについて、モデルの性能が公平となったため、各カテゴリのカテゴリ欄４２及び性能値欄４３のハッチングが全てパターンＰ３となっている。

　［モデル分析処理］
　次に、モデル生成装置１００によるモデル分析処理について説明する。図６は、モデル生成装置１００によるモデル分析処理のフローチャートである。モデル分析処理は、上記のように、各カテゴリの属性毎にモデルの性能を算出し、属性別性能情報を表示する処理である。この処理は、図２に示すプロセッサ１１２が予め用意されたプログラムを実行し、主として図３に示すモデル訓練部１２２及び分析部１２５として動作することにより実現される。

　まず、分析部１２５は、対象となるデータセットを取得する（ステップＳ１０）。次に、分析部１２５は、カテゴリ毎にデータセットを分割して部分データセットを作成し、モデルを用いて予測を行うことにより、各カテゴリについて属性毎にモデルの性能値を算出する（ステップＳ１１）。そして、分析部１２５は、図４、図５などに例示するように、属性別性能情報を表示装置２に表示する（ステップＳ１２）。

　次に、モデル訓練部１２２は、入力装置３を用いてユーザがパラメータ値を変更したか否かを判定する（ステップＳ１３）。パラメータ値が変更された場合（ステップＳ１３：Ｙｅｓ）、モデル訓練部１２２は、変更されたパラメータ値を用いて、モデルを再訓練する（ステップＳ１４）。そして、モデル分析部１２５は、再訓練後のモデルについて、ステップＳ１１～Ｓ１２を繰り返す。こうして、ユーザがパラメータ値を変更するたびに、変更されたパラメータ値を用いて再訓練されたモデルについて属性別性能情報が生成され、表示される。

　一方、パラメータ値が変更されていない場合（ステップＳ１３：Ｎｏ）、分析部１２５は、ユーザにより終了指示が入力されたか否かを判定する（ステップＳ１５）。終了指示が入力されていない場合（ステップＳ１５：Ｎｏ）、処理はステップＳ１３へ戻る。一方、終了指示が入力された場合（ステップＳ１５：Ｙｅｓ）、処理は終了する。

　ステップＳ１１で属性毎にモデルの性能値を算出する際、データセットに含まれるデータが数値データなどの連続変数である場合、分析部１２５は連続変数をカテゴリに変換することにより属性を生成する。具体的に、分析部１２５は、年齢、年収などの連続変数を、順序付きカテゴリに変換する。例えば、分析部１２５は、連続変数の取る最小値と最大値の間を２つ以上の属性（グループ）に等分割し、カテゴリに変換する。

　なお、分析部１２５は、業務知識に基づいて分割点を用意できる場合は、その分割点に応じて、連続変数をカテゴリに変換してもよい。例えば、年齢の例では、分析部１２５は、業務知識に基づき、「子供」、「大人」、「高齢者」というように３つの属性を作成している。また、分析部１２５は、各属性のデータサンプル数が同じになるように、パーセンタイルに応じて分割点を決定し、連続変数をカテゴリに変換してもよい。また、分析部１２５は、データセットに含まれるデータ（変数）のクラスタリングにより複数の属性を作成してもよい。なお、データセットに含まれる変数が例えば、性別、居住地など、もともとカテゴリである場合は、上記の処理は不要である。

　［変形例］
　（変形例１）
　図４（Ａ）のように属性別性能情報を表示した状態で、分析部１２５は、パラメータ値の調整に関するガイド情報をユーザに提示してもよい。例えば、図４（Ａ）の例では、カテゴリ「性別」についてモデルの性能が不公平となっており、前述のように属性「男性」の重みを減少させることによりモデルの性能は公平に近づく。よって、分析部１２５は、例えば図４（Ａ）及び４（Ｂ）に示すように、属性「男性」に対応する操作ボタン４９ｂを他の操作ボタン４８ａ～４８ｂ、４９ａと異なる色（本例では白抜きのボタン）などとして、属性「男性」の重みを減少させるようにユーザを誘導してもよい。その代わりに、分析部１２５は、「性別については、男性の重みを減少させるか、女性の重みを増加させると、モデルの性能が公平に近づきます。」などのメッセージを表示してもよい。

　（変形例２）
　上記の実施形態では、モデル生成装置１００をＰＣなどの独立した装置として構成しているが、その代わりに、モデル生成装置をサーバと端末装置により構成してもよい。図７は、サーバと端末装置を用いたモデル生成システム１ｘの概略構成を示すブロック図である。図７において、サーバ１００ｘは、図３に示すモデル生成装置１００の構成を備える。また、ユーザが使用する端末装置７の表示装置２ｘ及び入力装置３ｘを、図３に示す表示装置２及び入力装置３として使用する。

　＜第２実施形態＞
　図８は、第２実施形態のモデル分析装置７０の機能構成を示すブロック図である。モデル分析装置７０は、モデル取得手段７１と、データセット取得手段７２と、性能算出手段７３と、出力手段７４と、パラメータ変更手段７５と、訓練手段７６と、を備える。

　図９は、第２実施形態のモデル分析装置７０による処理のフローチャートである。モデル取得手段７１は、モデルを取得する（ステップＳ７１）。データセット取得手段７２は、データセットを取得する（ステップＳ７２）。性能算出手段７３は、データセットの各カテゴリに対応する属性毎に、モデルの性能を算出する（ステップＳ７３）。出力手段７４は、算出された属性毎のモデルの性能を示す性能情報を出力する（ステップＳ７４）。パラメータ変更手段７５は、属性に対応するモデルのパラメータの変更を受け取る（ステップＳ７５）。訓練手段７６は、変更後のパラメータを用いてモデルを再訓練する（ステップＳ７６）。モデルが再訓練された場合、性能算出手段７３は再訓練後のモデルの性能を算出し、出力手段７４は算出されたモデルの性能を出力する（ステップＳ７７）。

　第２実施形態のモデル分析装置７０によれば、予測に使用されるデータセットのカテゴリの属性毎にモデルの性能を評価し、モデルの性能の差を小さくするようにモデルを修正することが可能となる。

　上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。

　（付記１）
　モデルを取得するモデル取得手段と、
　データセットを取得するデータセット取得手段と、
　前記データセットの各カテゴリに対応する属性毎に、前記モデルの性能を算出する性能算出手段と、
　算出された属性毎のモデルの性能を示す性能情報を出力する出力手段と、
　前記属性に対応する前記モデルのパラメータの変更を受け取るパラメータ変更手段と、
　前記変更後のパラメータを用いて前記モデルを再訓練する訓練手段と、
　を備え、
　前記性能算出手段は、前記モデルが再訓練された場合、再訓練後のモデルの性能を算出するモデル分析装置。

　（付記２）
　前記性能情報は、前記属性毎の前記モデルの現在のパラメータの値を含む付記１に記載のモデル分析装置。

　（付記３）
　前記性能情報は、前記属性毎に前記パラメータの値を変更するための操作ボタンと、前記モデルの訓練を指示するための操作ボタンと、を含む付記１又は２に記載のモデル分析装置。

　（付記４）
　前記性能情報は、前記属性毎のモデルの性能の差が所定値以上であるカテゴリと、前記所定値未満であるカテゴリとを区別して示す付記１乃至３のいずれか一項に記載のモデル分析装置。

　（付記５）
　前記性能情報は、各カテゴリに対応する属性毎のデータ数の割合を示す情報を含む付記１乃至３のいずれか一項に記載のモデル分析装置。

　（付記６）
　モデルを取得し、
　データセットを取得し、
　前記データセットの各カテゴリに対応する属性毎に、前記モデルの性能を算出し、
　算出された属性毎のモデルの性能を示す性能情報を出力し、
　前記属性に対応する前記モデルのパラメータの変更を受け取り、
　前記変更後のパラメータを用いて前記モデルを再訓練し、再訓練後のモデルの性能を算出するモデル分析方法。

　（付記７）
　モデルを取得し、
　データセットを取得し、
　前記データセットの各カテゴリに対応する属性毎に、前記モデルの性能を算出し、
　算出された属性毎のモデルの性能を示す性能情報を出力し、
　前記属性に対応する前記モデルのパラメータの変更を受け取り、
　前記変更後のパラメータを用いて前記モデルを再訓練し、再訓練後のモデルの性能を算出する処理をコンピュータに実行させるプログラムを記録した記録媒体。

　以上、実施形態及び実施例を参照して本開示を説明したが、本開示は上記実施形態及び実施例に限定されるものではない。本開示の構成や詳細には、本開示のスコープ内で当業者が理解し得る様々な変更をすることができる。

　１、１ｘ　モデル生成システム
　２、２ｘ　表示装置
　３、３ｘ　入力装置
　７　端末装置
　１００　モデル生成装置
　１１２　プロセッサ
　１２１　訓練データＤＢ
　１２２　モデル訓練部
　１２３　モデルＤＢ
　１２４　評価用データＤＢ
　１２５　分析部

Claims

　モデルを取得するモデル取得手段と、
　データセットを取得するデータセット取得手段と、
　前記データセットの各カテゴリに対応する属性毎に、前記モデルの性能を算出する性能算出手段と、
　算出された属性毎のモデルの性能を示す性能情報を出力する出力手段と、
　前記属性に対応する前記モデルのパラメータの変更を受け取るパラメータ変更手段と、
　前記変更後のパラメータを用いて前記モデルを再訓練する訓練手段と、
　を備え、
　前記性能算出手段は、前記モデルが再訓練された場合、再訓練後のモデルの性能を算出するモデル分析装置。
　前記性能情報は、前記属性毎の前記モデルの現在のパラメータの値を含む請求項１に記載のモデル分析装置。
　前記性能情報は、前記属性毎に前記パラメータの値を変更するための操作ボタンと、前記モデルの訓練を指示するための操作ボタンと、を含む請求項１又は２に記載のモデル分析装置。
　前記性能情報は、前記属性毎のモデルの性能の差が所定値以上であるカテゴリと、前記所定値未満であるカテゴリとを区別して示す請求項１乃至３のいずれか一項に記載のモデル分析装置。
　前記性能情報は、各カテゴリに対応する属性毎のデータ数の割合を示す情報を含む請求項１乃至３のいずれか一項に記載のモデル分析装置。
　モデルを取得し、
　データセットを取得し、
　前記データセットの各カテゴリに対応する属性毎に、前記モデルの性能を算出し、
　算出された属性毎のモデルの性能を示す性能情報を出力し、
　前記属性に対応する前記モデルのパラメータの変更を受け取り、
　前記変更後のパラメータを用いて前記モデルを再訓練し、再訓練後のモデルの性能を算出するモデル分析方法。
　モデルを取得し、
　データセットを取得し、
　前記データセットの各カテゴリに対応する属性毎に、前記モデルの性能を算出し、
　算出された属性毎のモデルの性能を示す性能情報を出力し、
　前記属性に対応する前記モデルのパラメータの変更を受け取り、
　前記変更後のパラメータを用いて前記モデルを再訓練し、再訓練後のモデルの性能を算出する処理をコンピュータに実行させるプログラムを記録した記録媒体。