WO2020004049A1

WO2020004049A1 - 情報処理装置、情報処理方法、およびプログラム

Info

Publication number: WO2020004049A1
Application number: PCT/JP2019/023410
Authority: WO
Inventors: 慎吾高松; 健人中田; 裕士堀口; 紘士飯田; 正典宮原
Original assignee: ソニー株式会社
Priority date: 2018-06-27
Filing date: 2019-06-13
Publication date: 2020-01-02
Also published as: CN112313679A; US20210117828A1; JPWO2020004049A1; JP7318646B2

Abstract

本開示は、学習データセットの改善を容易にすることができるようにする情報処理装置、情報処理方法、およびプログラムに関する。予測分析部は、予測モデルの学習に用いる学習データセットの所定数のデータサンプルに対して、予測モデルの評価に用いる評価データセットの評価値を算出し、アドバイス生成部は、学習データセットの全データサンプルについての評価値およびその勾配に基づいて、学習データセットのデータサンプルおよびその特徴量の少なくともいずれかに関するアドバイスを提示するための提示情報を生成する。本開示に係る技術は、例えば、中古マンションの成約価格の予測に適用することができる。

Description

情報処理装置、情報処理方法、およびプログラム

　本開示は、情報処理装置、情報処理方法、およびプログラムに関し、特に、学習データセットの改善を容易にすることができるようにする情報処理装置、情報処理方法、およびプログラムに関する。

　過去のデータに基づいて未来の結果を予測する予測分析と呼ばれる技術が知られている。

　例えば、特許文献１には、不動産の売出し／貸出し価格の決定や成約価格の調整を行う際の参考となる不動産取引の成約確率を予測する技術が開示されている。

特開２０１７－１６３２１号公報

　予測分析の予測精度は、主に以下の３点で決定される。
　　１．予測に用いる予測モデル
　　２．予測モデルの構築に利用した学習データセットの量と質
　　３．本来の予測対象の困難さ

　従来の技術では、１．の予測モデルの改善により予測精度を向上させるものが多くあった。３．は、例えばコインを投げた際に表が出るか否かを高い精度で予測することはできないなど、技術的な対策が難しかった。

　一方、２．の学習データセットの改善には、対象となる予測問題のドメイン知識と予測分析の専門性が必要とされるため、学習データセットの改善により予測精度を向上させることも難易度が高かった。

　本開示は、このような状況に鑑みてなされたものであり、学習データセットの改善を容易にすることができるようにするものである。

　本開示の情報処理装置は、予測モデルの学習に用いる学習データセットの所定数のデータサンプルに対して、前記予測モデルの評価に用いる評価データセットの評価値を算出する予測分析部と、前記学習データセットの全データサンプルについての前記評価値およびその勾配に基づいて、前記学習データセットの前記データサンプルおよびその特徴量の少なくともいずれかに関するアドバイスを提示するための提示情報を生成するアドバイス生成部とを備える情報処理装置である。

　本開示の情報処理方法は、情報処理装置が、予測モデルの学習に用いる学習データセットの所定数のデータサンプルに対して、前記予測モデルの評価に用いる評価データセットの評価値を算出し、前記学習データセットの全データサンプルについての前記評価値およびその勾配に基づいて、前記学習データセットの前記データサンプルおよびその特徴量の少なくともいずれかに関するアドバイスを提示するための提示情報を生成する情報処理方法である。

　本開示のプログラムは、コンピュータに、予測モデルの学習に用いる学習データセットの所定数のデータサンプルに対して、前記予測モデルの評価に用いる評価データセットの評価値を算出し、前記学習データセットの全データサンプルについての前記評価値およびその勾配に基づいて、前記学習データセットの前記データサンプルおよびその特徴量の少なくともいずれかに関するアドバイスを提示するための提示情報を生成する処理を実行させるためのプログラムである。

　本開示においては、予測モデルの学習に用いる学習データセットの所定数のデータサンプルに対して、前記予測モデルの評価に用いる評価データセットの評価値が算出され、前記学習データセットの全データサンプルについての前記評価値およびその勾配に基づいて、前記学習データセットの前記データサンプルおよびその特徴量の少なくともいずれかに関するアドバイスを提示するための提示情報が生成される。

　本開示によれば、学習データセットの改善を容易にすることが可能となる。

　なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。

表形式データの例を示す図である。本開示における情報処理装置の機能構成例を示すブロック図である。特徴量ベクトル生成処理について説明するフローチャートである。評価値リスト生成処理について説明するフローチャートである。評価値リストのグラフを示す図である。学習データセット改善のアドバイス生成処理について説明するフローチャートである。評価値のグラフとアドバイスの例を示す図である。評価値のグラフとアドバイスの例を示す図である。評価値のグラフとアドバイスの例を示す図である。評価値のグラフとアドバイスの例を示す図である。特徴量追加のアドバイス生成処理について説明するフローチャートである。誤差予測モデルの学習について説明する図である。誤差に対する特徴量の寄与度の算出について説明する図である。特徴量の追加についてのアドバイスの提示例を示す図である。データベースに接続された情報処理装置の機能構成例を示すブロック図である。予測分析システムの概要を示す図である。指南書作成装置の機能構成例を示すブロック図である。分析情報生成処理について説明するフローチャートである。分析情報の例を示す図である。分析情報登録処理について説明するフローチャートである。登録された分析情報の例を示す図である。分析情報登録時に入力される入力情報の例を示す図である。指南情報提示処理について説明するフローチャートである。アドバイスの例を示す図である。類似度の算出について説明する図である。精度評価グラフの例を示す図である。精度評価グラフの例を示す図である。指南情報の提示例を示す図である。指南情報の提示例を示す図である。コンピュータのハードウェア構成例を示すブロック図である。

　以下、本開示を実施するための形態（以下、実施の形態とする）について説明する。なお、説明は以下の順序で行う。

　１．従来技術とその課題
　２．本開示に係る技術の概要と情報処理装置の構成
　３．予測分析部の処理
　４．アドバイス生成処理（学習データセットの改善について）
　５．アドバイス生成処理（特徴量の追加について）
　６．応用例
　７．予測分析システムの構成
　８．分析情報送信処理
　９．分析情報登録処理
　１０．指南書提示処理
　１１．コンピュータのハードウェア構成

＜１．従来技術とその課題＞
　過去のデータに基づいて未来の結果を予測する予測分析と呼ばれる技術が知られている。

　例えば、月額の定額サービスを提供する企業が、顧客データに対して予測分析を適用することで、次回の契約更新のタイミングでそのサービスを解約する確率を予測することができる。企業は、解約する確率の高い顧客に対してクーポンの配布などのマーケティング施策を実施することで、効率的にサービスの解約を防ぐことができる。この例では、クーポンの配布をせずとも契約を継続する顧客に対してクーポンの配布をすることは望ましくない。

　予測分析の予測精度は高い方がよく、予測分析結果をビジネスに利用する場合、予測精度がビジネスの効果に直結することが多い。上述した例において、サービスを解約する確率を精度よく予測できなかった場合、真に解約する可能性の高い顧客への施策を実施できないケースが増えてしまう。これと同時に、本来はクーポンの配布をせずとも契約を継続した顧客に対してクーポンの配布をするケースも増えてしまう。結果として、施策全体の効率が悪くなってしまう。

　本実施の形態においては、２．の学習データセットの改善により予測精度を向上させることを目指す。しかしながら、学習データセットの改善には、対象となる予測問題のドメイン知識（上述した例では、定額サービスや顧客に関する知識、企業のシステムに関する知識など）と予測分析の専門性が必要とされる。そのため、学習データセットの改善により予測精度を向上させることも難易度が高かった。

　そこで、以下においては、学習データセットの改善を容易にするために、学習データセットの改善のためのアドバイスを生成する構成について説明する。

＜２．本開示に係る技術の概要と情報処理装置の構成＞
（本開示に係る技術の概要）
　本開示に係る技術においては、学習データ数を変動させた場合の予測精度の変化や絶対値に基づいて、特徴量を追加することを優先すべきか、データ数を増やすことを優先すべきかのアドバイスを生成する。さらに、予測誤差が大きくなるパターンを特定し、そのパターンに含まれる予測事例を提示することで、ユーザに予測精度向上に繋がる特徴量追加の着想を得るサポートをする。

　まず、本実施の形態の一例として、予測分析を実行する情報処理装置のデータセット改善のためのアドバイス生成機能について説明する。

　予測分析における入力データは、表形式データとされる。図１は、表形式データの例を示している。

　表形式データは、行と列からなる。行はデータサンプルに対応し、列はデータサンプルの属性を表す項目に対応する。表形式データの１行目には列（項目）の名称が記述され、２行目以降にデータサンプルの内容として、各項目に対応する属性値が記述される。

　図１の表形式データは、項目として、中古マンションの「広さ」、「最寄駅」、最寄り駅からの徒歩での所要時間である「徒歩分」、「築年数」、「所在階」、「バルコニ方向」、および「成約価格」の７つの項目を有している。図１の例では、３つのデータサンプルが用意され、各項目に対応する属性値が記述されている。

　本実施の形態において、データセットは表形式データで記述される。

　予測分析は、「学習」、「予測」、および「評価」の３処理からなる。

　「学習」は、表形式データにおいてあらかじめ指定された入力項目群と予測対象項目について、各データサンプルの入力項目群に対応する属性値群から予測対象項目の値を予測する関数（予測モデルという）を生成する処理である。学習処理では、複数のデータサンプルが用いられる。

　「予測」は、学習済の予測モデルを用いて、データサンプルに対する予測値を算出する処理である。

　「評価」は、算出された予測値と、実際の予測対象項目の値とを比較参照し、予測の精度を表す評価値を算出する処理である。

（情報処理装置の構成）
　図２は、本開示における情報処理装置の機能構成例を示すブロック図である。

　図２に示されるように、情報処理装置１００は、入力部１１０、出力部１２０、記憶部１３０、および制御部１４０を備える。

　入力部１１０は、ユーザからの情報を入力する機能を有する。例えば、入力部１１０は、データセットとしての表形式データなどの様々な情報を入力する。入力部１１０は、入力した情報を制御部１４０に供給する。

　出力部１２０は、ユーザに対して情報を出力する機能を有する。例えば、出力部１２０は、データセット改善のためのアドバイスなどの様々な情報を出力する。出力部１２０は、制御部１４０から供給された情報を出力する。

　記憶部１３０は、情報を一時的または恒久的に記憶する機能を有する。例えば、記憶部１３０は、予測モデルの学習結果を記憶する。

　制御部１４０は、情報処理装置１００全体の動作を制御する機能を有する。図２に示されるように、制御部１４０は、予測分析部１５１とアドバイス生成部１５２を備える。

　予測分析部１５１は、予測分析の一連の処理を行う。アドバイス生成部１５２は、予測分析部１５１による分析結果を用いて、データセット改善のためのアドバイスを提示するための提示情報を生成する。

　情報処理装置１００においては、入力部１１０に分析対象の表形式データが入力されると、その表形式データが制御部１４０にアップロードされる。また、入力部１１０に対するユーザの操作によって、表形式データにおける予測対象項目が指定される。予測対象項目が連続値であれば回帰が行われ、予測対象項目がカテゴリカル値であれば分類が行われる。

　以下においては、回帰により、図１の表形式データにおける中古マンションの成約価格を予測する例について説明する。

＜３．予測分析部の処理＞
　予測分析部１５１においては、予測モデルの学習に用いる学習データセット、予測モデルの評価に用いる評価データセット、および予測対象項目の３つに対する処理が行われ、評価値リストが生成される。

　評価値リストは、学習アルゴリズム実行中の複数の中間時点における、予測モデルの学習データセットの評価値と、評価データセットの評価値のリストである。評価値は、評価処理を実行することで算出される。中間時点をｍ＝１，・・・，Ｍとすると、評価値リストは、以下の式（１）で表される。

　　
　　　　　　　　　　　　　　　　　　・・・（１）

　式（１）において、Ｖ_m ^Tは、学習データセットの評価値を表し、Ｖ_m ^Eは、評価データセットの評価値を表す。回帰の場合、評価値として、１－誤差率（予測値と実際の値との絶対値誤差を実際の値で割った値）の平均値が用いられる。分類の場合には、評価値として、ＡＵＣ（Area Under the ROC Curve）が用いられる。

　以下、予測分析部１５１の処理について説明する。

　まず、予測分析部１５１は、各データセットをデータポイントの集合に変換する。データポイントは、特徴量ベクトルとラベルのペアからなり、データサンプルと対応する。

　ラベルは、データサンプルにおける予測対象項目の値である。

　特徴量ベクトルは、データサンプルにおける予測対象項目以外の項目の値をベクトル化して、それらを連結したベクトルである。

　ここで、図３のフローチャートを参照して、特徴量ベクトルの生成処理について説明する。

　ステップＳ１１において、予測分析部１５１は、予測対象項目以外の項目の値を、one-of-kベクトルに変換する。

　one-of-kベクトルは、ｋ次元のベクトルであり、１つの要素のみが１で、他の（ｋ－１）の要素は０であるベクトルである。

　one-of-kベクトルへの変換においては、１つの項目の取り得る値を列挙し、取り得る値の数と同じ次元のベクトルを作成することで、取り得る値に対応する次元が定められる。ベクトル化の際には、項目の値に対応する次元を１とし、他の次元を０とすることで、その項目の値がone-of-kベクトルに変換される。

　例えば、図１の表形式データにおける徒歩分をone-of-kベクトルに変換する場合、徒歩分の取り得る値として１分から２５分を列挙することで、２５次元のベクトルを用意する。例えば１次元目は、徒歩分１分に対応する。したがって、徒歩分が３分の場合、３次元目が１で、他の次元が０のone-of-kベクトルが生成される。

　このようにして、予測分析部１５１は、各項目についてのone-of-kベクトルを生成する。

　ステップＳ１２において、予測分析部１５１は、各項目のone-of-kベクトルを、あらかじめ決められた順序で連結することで、特徴量ベクトルを生成する。

　ここでは、図１の表形式データにおける成約価格を予測対象項目（ラベル）とするので、成約価格以外の項目のone-of-kベクトルを連結した、中古マンションの物件毎の特徴量ベクトルが生成される。

　なお、上述したone-of-kベクトルの生成において、項目の取り得る値が連続値となる場合には、ある値の範囲で、値を丸めてもよい。例えば、徒歩分を、１～５分、６～１０分、１１～１５分、１６～２０分、２１～２５分の５つのグループにまとめ、各グループに対応した５次元のone-of-kベクトルが生成されるようにしてもよい。

　次に、予測分析部１５１は、予測モデルの学習を行う。

　ここで、ｉをデータサンプル（データサンプル数ｎ）のインデックスとし、成約価格の値を式（２）で表し、特徴量ベクトルを式（３）で表す。

　　　　　　　　　　　　　　　　　　・・・（２）

　　　　　　　　　　　　　　　　　　・・・（３）

　式（３）において、Ｒは実数を表し、ｄは特徴量ベクトルの次元数を表し、ｊは次元のインデックスを表す。

　すると、ｉ番目のデータポイントは、以下の式（４）で表される。

　　　　　　　　　　　　　　　　　　・・・（４）

　また、予測モデル、すなわち、特徴量ベクトルｘ_iに対する成約価格の値を算出する関数を式（５）で表し、予測モデルのパラメータを式（６）で表す。

　　　　　　　　　　　　　　　　　　・・・（５）

　　　　　　　　　　　　　　　　　　・・・（６）

　式（６）において、Ｄはパラメータ数を表す。

　予測モデルｆとしては、様々な関数が考えられるが、例えば、ニューラルネットワークが用いられる。

　パラメータ学習は、学習データセットを用いて行われる。例えば、平均二乗誤差を誤差関数とし、勾配法を実行することで、予測モデルのパラメータが決定される。

　一般に、勾配法を含む学習アルゴリズムにおいては、パラメータ更新処理が繰り返し実行される。評価値リストは、各パラメータ更新処理実行後の予測モデルについて、学習データセットの評価値と評価データセットの評価値が算出されることで生成される。

　ここで、図４のフローチャートを参照して、評価値リストの生成処理について説明する。

　ステップＳ３１において、予測分析部１５１は、空の評価値リストを生成する。

　ステップＳ３２において、予測分析部１５１は、予測モデルのパラメータを更新する。

　ステップＳ３３において、予測分析部１５１は、現在のパラメータの予測モデルについて、学習データセットの評価値と、評価データセットの評価値を算出し、評価値リストに追加する。

　ステップＳ３４において、予測分析部１５１は、パラメータの更新回数があらかじめ決められた回数になったか否かを判定する。

　パラメータの更新回数があらかじめ決められた回数になっていない場合、ステップＳ３２に戻り、パラメータの更新と、学習データセットと評価データセットの評価値の算出が繰り返される。

　一方、パラメータの更新回数があらかじめ決められた回数になった場合、ステップＳ３５に進み、予測分析部１５１は、算出した評価値リストを出力部１２０に供給する。出力部１２０は、評価値リストを出力する。

　図５は、出力部１２０における評価値リストの出力例としての、評価値リストのグラフを示す図である。

　図５のグラフにおいては、パラメータの更新回数毎に、学習データセットの評価値と、評価データセットの評価値がプロットされている。

　図５に示されるように、学習データセットの評価値は、パラメータの更新が繰り返されるにつれ高くなっている（１に近づいている）。一方、評価データセットの評価値は、パラメータの更新が繰り返されても高くはならず、パラメータの更新が繰り返されるにつれ学習データセットの評価値との差分が大きくなっている。

　予測モデルの学習は、学習データセットを用いて行われることから、パラメータの更新が繰り返されるほど、予測モデル自体が学習データセットに適応したものになる。そのため、パラメータの更新が繰り返されるほど、学習データセットの評価値と評価データセットの評価値との差分は大きくなる傾向にある。この傾向は、データサンプル数に左右される。

　以上のようにして、予測分析部１５１は、評価値リストを算出する。

＜４．アドバイス生成処理（学習データセットの改善について）＞
　次に、図６のフローチャートを参照して、上述した評価値リストを用いて、学習データセットの改善のためのアドバイスを生成する処理について説明する。

　ステップＳ５１において、制御部１４０は、入力部１１０により入力された入力データ（表形式データ）から学習データセットと評価データセットを生成する。例えば、制御部１４０は、表形式データのデータサンプルをランダムに８：２に振り分けるなどして、学習データセットと評価データセットを生成する。

　ステップＳ５２において、制御部１４０は、学習データセットの１０％，２０％，３０％，４０％，５０％，６０％，７０％，８０％，９０％，１００％の数のデータサンプルからなるデータセットを生成する。このように、学習データセットの一部のデータサンプルからなるデータセットを、以下、部分学習データセットをいう。ここでは、１０の部分学習データセットが生成される。なお、１００％の部分学習データセットは、後述するアドバイスに応じて、ユーザによって、そのデータサンプル数が増える可能性がある。したがって、１００％の部分学習データセットのデータサンプル数は、現在のデータサンプル数ということができる。

　ステップＳ５３において、制御部１４０の予測分析部１５１は、部分学習データセットそれぞれと評価データセットについて、図５のフローチャートを参照して説明した評価値リストを生成する。すなわち、予測分析部１５１は、１０％から１００％の部分学習データセットそれぞれに対して、評価データセットの評価値を算出する。

　ステップＳ５４において、予測分析部１５１は、各評価値リストにおける評価データセットの評価値のうちの最大値を取得し、評価値のグラフを生成する。すなわち、生成されるグラフにおいては、１０％から１００％の部分学習データセット毎に、評価値リストにおける評価データセットの評価値の最大値（以下、単に評価値ともいう）がプロットされる。

　ステップＳ５５において、アドバイス生成部１５２は、生成された評価値のグラフにおける、１００％の部分学習データセットについての評価値、および、その勾配に基づいて、学習データセットの改善についてのアドバイスを提示するための提示情報を生成する。生成された提示情報は、出力部１２０によって出力される。

　ここで、１００％の部分学習データセットについての評価値は、１００％の部分学習データセットについての、評価値リストにおける評価データセットの評価値の最大値である。また、１００％の部分学習データセットについての評価値の勾配とは、１００％の部分学習データセットについての評価値と、９０％の部分学習データセットについての評価値との差分をいう。

　具体的には、アドバイス生成部１５２は、１００％の部分学習データセットについての評価値と第１の閾値との大小関係に基づいて、学習データセットの特徴量（項目）数の改善についてのアドバイス（提示情報）を生成する。

　また、アドバイス生成部１５２は、１００％の部分学習データセットについての評価値の勾配と第２の閾値との大小関係に基づいて、学習データセットのデータサンプル数の改善についてのアドバイス（提示情報）を生成する。第２の閾値は、１００％の部分学習データセットについての評価値の大きさに基づいて決定される値とする。

　図７乃至図１０は、評価値のグラフと、提示されるアドバイスの例を示す図である。

　図７の例では、評価値のグラフにおいて、１００％の部分学習データセットについての評価値（以下、１００％評価値という）は第１の閾値より大きく、１００％評価値の勾配（以下、単に勾配という）は第２の閾値より小さい。

　この場合、図７に示されるように、「データ数、特徴量数ともに十分です　これ以上の精度向上は難しいでしょう」などの、学習データセットのデータサンプル数および特徴量数がいずれも足りている旨のアドバイスが提示される。

　図８の例では、評価値のグラフにおいて、１００％評価値は第１の閾値より小さく、勾配は第２の閾値より小さい。

　この場合、図８に示されるように、「データ数は十分です　特徴量数を増やす必要があります」などの、学習データセットのデータサンプル数が足りていて、特徴量数が足りない旨のアドバイスが提示される。

　図９の例では、評価値のグラフにおいて、１００％評価値は第１の閾値より大きく、勾配は第２の閾値より大きい。

　この場合、図９に示されるように、「特徴量数は十分です　データ数を増やすと精度が向上します」などの、学習データセットの特徴量数が足りていて、データサンプル数が足りない旨のアドバイスが提示される。

　図１０の例では、評価値のグラフにおいて、１００％評価値は第１の閾値より小さく、勾配は第２の閾値より大きい。

　この場合、図１０に示されるように、「データ数を増やすと精度が向上します　特徴量数を増やす必要があります」などの、学習データセットのデータサンプル数および特徴量数がいずれも足りない旨のアドバイスが提示される。

　以上の処理によれば、学習データセットの改善のためのアドバイスが提示されるので、学習データセットの改善を容易にすることが可能となる。すなわち、ユーザは、対象となる予測問題のドメイン知識や予測分析の専門性がなくとも、データサンプルを増やすべきか、特徴量（項目）を増やすべきかを容易に判断することができ、ひいては、簡単に予測精度を向上させることが可能となる。

　以上においては、勾配として、１００％の部分学習データセットについての評価値と、９０％の部分学習データセットについての評価値との差分を用いるものとした。

　これに限らず、勾配として、１００％の部分学習データセットについての評価値と、９０％より少ない、例えば８０％の部分学習データセットについての評価値との差分を用いるようにしてもよい。

　さらに、時系列予測により、１００％より多い、例えば１１０％の学習データセットについての評価値を求め、勾配として、１１０％の学習データセットについての評価値と、１００％の部分学習データセットについての評価値との差分を用いるようにしてもよい。

　また、図５のグラフにおいて、パラメータ更新回数に対して、学習データセットの評価値と評価データセットの評価値との差分は大きくなる傾向が強いほど、データサンプル数が足りないことを示す。このことから、勾配として、図５のグラフに示されるような、パラメータ更新回数に対する、学習データセットの評価値と評価データセットの評価値の差分の増加率を用いるようにしてもよい。また単純に、学習データセットの評価値と評価データセットの評価値の差分の大きさを、勾配として用いるようにしてもよい。

＜５．アドバイス生成処理（特徴量の追加について）＞
　上述したアドバイス生成処理においては、１００％評価値が第１の閾値より小さい場合、特徴量数が足りない旨のアドバイスが提示されることで、ユーザに、特徴量（項目）数を増やすことを促すようにした。

　ここでは、予測精度が低くなる項目とその値をユーザに提示することで、予測精度の低下を回避するような項目の追加を促すようなアドバイスを生成する例について説明する。

　具体的には、特定の特徴量（項目）の属性値（単に値という）が含まれることで予測精度が低くなる場合に、その特徴量の値をユーザに提示するとともに、その特徴量の値を含むデータサンプルの予測事例をユーザに提示する例について説明する。

　図１１は、特徴量の追加を促すようなアドバイスを生成する処理について説明するフローチャートである。

　ステップＳ７１において、予測分析部１５１は、それが含まれることで予測精度が低くなる特徴量の値を特定するために、予測モデルの予測誤差を推定する誤差予測モデルを学習する。

　ここで、ｉをデータサンプル（データサンプル数ｎ）のインデックスとし、成約価格の値を式（７）で表す。また、学習済の予測モデルｆによる成約価格の予測値（予測成約価格）を式（８）で表し、特徴量ベクトルを式（９）で表す。

　　　　　　　　　　　　　　　　　　・・・（７）

　　　　　　　　　　　　　　　　　　・・・（８）

　　　　　　　　　　　　　　　　　　・・・（９）

　式（９）において、ｄは特徴量ベクトルの次元数を表し、ｊは次元のインデックスを表す。

　すると、ｉ番目のデータポイントは、以下の式（１０）で表される。

　　　　　　　　　　　　　　　　　　・・・（１０）

　また、誤差予測モデル、すなわち、特徴量ベクトルｘ_iに対する予測成約価格と実際の成約価格との絶対値誤差の予測値を算出する関数を式（１１）で表す。

　　　　　　　　　　　　　　　　　　・・・（１１）

　式（１１）において、ｗ’は誤差予測モデルのパラメータ数を表す。

　例えば、図１２に示されるように、特徴量ベクトルｘを学習済の予測モデルｆに入力することで、予測成約価格3,560万が出力される。実際の成約価格が2,800万である場合、予測誤差（絶対値誤差）は760万となる。このようにして、特徴量ベクトルを入力データとして、予測モデルｆの予測誤差を推定する誤差予測モデルｇを学習する。

　誤差予測モデルｇとしては、様々な関数が考えられるが、例えば、線形回帰が用いられる。

　パラメータ学習は、学習データセットを用いて行われる。例えば、平均二乗誤差を誤差関数とし、勾配法を実行することで、誤差予測モデルのパラメータが決定される。

　誤差予測モデルの学習後、ステップＳ７２において、予測分析部１５１は、誤差予測モデルを用いて、予測誤差に対する各特徴量の値の寄与度を算出する。特徴量の値は、特徴量ベクトルの次元に対応する。

　寄与度としては、例えば、線形回帰を用いた誤差予測モデルの各特徴量に対応するパラメータの値が用いられ、予測誤差の増大に大きく寄与する特徴量の値が、予測精度を低下させる値として特定される。線形回帰の例では、パラメータの値が大きい特徴量の値が特定される。このとき、その特徴量の値が含まれるデータサンプル数の多さが考慮されて、特徴量の値が特定されてもよい。

　また、図１３に示されるようにして、特徴量の値の寄与度が算出されるようにしてもよい。

　図１３上段の例では、ある特徴量の値Ａ，Ｂ，Ｃ，Ｄ，Ｅを誤差予測モデルｇに入力すると、予測誤差540万が出力される。一方で、図１３下段の例では、値Ｂをマスクした特徴量の値Ａ，Ｃ，Ｄ，Ｅを誤差予測モデルｇに入力すると、予測誤差310万が出力される。すなわち、図１３の例では、特徴量の値Ｂをマスクすることで、予測誤差が230万減少している。この場合、予測誤差の大きさに応じて、特徴量の値Ｂの寄与度が算出される。

　誤差増大に寄与する特徴量の値が特定されると、ステップＳ７３において、アドバイス生成部１５２は、誤差増大に寄与する特徴量についてのアドバイスを提示するための提示情報を生成する。生成された提示情報は、出力部１２０によって出力される。

　図１４は、特徴量の追加についてのアドバイスの提示例を示す図である。

　図１４の例では、提示情報として、誤差増大に寄与する特徴量（項目）とその値、平均誤差増大、割合、改善インパクト、および学習データの例が提示されている。

　平均誤差増大は、全データサンプルにおける平均誤差（予測誤差の平均）に対する、誤差増大に寄与する特徴量の値を有するデータサンプルにおける平均誤差の増分を示している。

　割合は、全データサンプルに対する、誤差増大に寄与する特徴量の値を有するデータサンプルの割合を示している。

　改善インパクトは、上述した平均誤差増大と割合の積に基づいて決定されるスコアを示しており、図１４の例では星の数の多さで表されている。

　学習データの例は、誤差増大に寄与する特徴量の値を含むデータサンプルと、そのデータサンプルによる予測結果を示している。

　学習データの例においては、特に、データサンプルとして、予測モデルｆによる予測への寄与がより大きい特徴量（項目）のみが提示されるようにする。図１４の例では、広さ、最寄駅、徒歩分、築年数、所在階、およびバルコニ方向の各特徴量が示されている。

　また、学習データの例においては、データサンプルの特徴量ベクトルとしての類似度がより高く、予測の外し方（予測値－実際の値）が逆、すなわち予測誤差の正負が異なる２つのデータサンプルがペアで表示されるようにする。

　図１４の例では、誤差増大に寄与する項目の値として、築年の30～35年と、所在階の40～45階が示されている。

　築年が古い物件は、オーナーによるメンテナンスの状況により成約価格が変動することがあるが、メンテナンスの状況を示す情報（特徴量）は表形式データに含まれていないため、予測誤差が大きくなる。

　築年（30～35年）についての学習データの例においては、例１として、最寄駅が大崎で徒歩分が数分など、類似度がより高く、予測の外し方が逆の２つのデータサンプルがペアで表示されている。同様に、例２として、最寄駅が品川で徒歩分が15分程度など、類似度がより高く、予測の外し方が逆の２つのデータサンプルがペアで表示されている。

　また、所在階の高いタワーマンションの超高層階の物件は、通常の物件と比較して付加価値がつくが、超高層階であることを示す情報（特徴量）は表形式データに含まれていないため、予測誤差が大きくなる（実際より低く予測される）。

　所在階（40～45階）についての学習データの例においては、例３として、いずれも予測価格が実際の成約価格を下回っている３つのデータサンプルが表示されている。

　以上のような提示情報を提示することにより、ユーザに対して、予測精度の低下を回避するような特徴量の追加を促すことが可能となる。

　また、学習データの例として、予測モデルによる予測への寄与がより大きい項目が提示されるようにしたので、重要でない項目は提示されず、予測精度の向上に必要な学習データセットの全体像を、ユーザに直感的に認識させることができる。

　さらに、学習データの例として、類似度がより高く、予測の外し方が逆の２つのデータサンプルがペアで表示されるようにしたので、これら２つのデータサンプルの違いを表す特徴量の追加を促すことができる。

＜６．応用例＞
　以下においては、上述した実施の形態の応用例について説明する。

（１）特徴量（項目）の追加候補の自動提示
　図１５は、データベースに接続された情報処理装置１００を示している。

　データベース３００には、表形式データで表現される複数のテーブルが保持されている。予測分析に用いられる表形式データは、データベース３００に保持されているテーブルに基づいて生成される。

　アドバイス生成部１５２は、図１４を参照して説明した、特徴量の追加を促すアドバイス（提示情報）を生成する際に、誤差増大に寄与すると特定された特徴量の値を含むテーブルをデータベース３００から取得する。アドバイス生成部１５２は、取得したテーブルに含まれる、誤差増大に寄与すると特定された特徴量と、それ以外の特徴量との相関を表す相関値を算出し、その絶対値がより小さい特徴量を追加候補の特徴量として提示する。相関の低い特徴量同士は、互いに異なる情報を表すと考えられ、誤差増大を緩和する情報を含むことが期待される。

（２）分類の場合
　以上においては、予測分析として回帰が行われる場合の例について説明してきた。

　分類の場合、図１４を参照して説明したような予測値と実際の値との差分（予測誤差）を計算することができない。

　そこで、（1.0－正解ラベルの予測確率）を予測誤差とし、この予測誤差の増大に大きく寄与する特徴量が特定されるようにする。

　例えば、分類の対象となるラベルが、「離脱」か「継続」の２値を取るものとする。「離脱」のラベルを有するデータについては、離脱予測確率ｐを算出し、1.0－ｐを誤差とする。「継続」のラベルを有するデータについては、継続予測確率ｑを算出し、1.0－ｑを誤差とする。

　ただし、各ラベルを有するデータ数に偏りがある場合、上述のような誤差の算出手法では問題が生じる。例えば、「離脱」のラベルを有するデータが全体の２０％で、「継続」のラベルを有するデータが全体の８０％の場合、離脱予測確率ｐの方が、継続予測確率ｑよりも小さく推定されやすくなり、誤差が大きくなってしまう。

　そこで、以下の２つの対策が考えられる。

（対策１）
　１つ目の対策として、以下の手順で学習データでの偏りを除去する。

　１．各ラベルの比率を揃えた学習データセットを用意する。

　２．その学習データセットを用いた学習を行い、予測モデルｆａを生成する。

　３．予測モデルｆａに対して、上述で定義した誤差を推定する誤差予測モデルｆｂを生成する。

　４．誤差予測モデルｆｂについて、誤差増大に寄与する特徴量を特定する。

　５．以降は、回帰の場合と同様の処理を行う。

（対策２）
　２つ目の対策として、以下の手順で誤差値の補正を行う。

　１．学習データセットにおいて正解ラベルを有するデータの割合をｒ、ラベル数をｎとする。

　２．予測誤差として、max（１－正解ラベルの予測確率／ｒ／ｎ，０）を用いる。

　ここで、max（ｘ，ｙ）は、ｘ＞ｙであればｘ，ｘ＜ｙであればｙ，ｘ＝ｙであればｘを返す関数である。この関数を用いることにより、予測誤差がマイナス値を取らないようにすることができる。

　上述した例では、離脱予測確率ｐについては、ｒ＝0.2，ｎ＝２となり、「離脱」ラベルを有するデータの離脱予測確率ｐに対し、max（１－2.5ｐ，０）が誤差となる。一方、継続予測確率ｑについては、ｒ＝0.8となり、「継続」ラベルを有するデータの継続予測確率ｑに対し、max（１－0.625ｐ，０）が誤差となる。

　３．以降は、回帰の場合と同様の処理を行う。

　なお、誤差値の補正に、他の手法が用いられるようしてもよい。

　以上のようにして、予測誤差の増大に大きく寄与する特徴量を特定することができる。

　上述したように、予測分析の予測精度は、主に以下の３点で決定される。
　　１．予測に用いる予測モデル
　　２．予測モデルの構築に利用した学習データセットの量と質
　　３．本来の予測対象の困難さ

　上述した実施の形態においては、２．の学習データセットの改善により予測精度を向上させることを実現するものとした。これに限らず、２．や３．をより短時間で効果的に改善するには、外部の専門家によるコンサルティングを受けた方が良い場合もある。

　一方で、このような予測分析の領域の専門性を有する専門家は多くない。そのため、コンサルティングを行うコンサルタント側で知識を共有し、コンサルティングの質を向上させる仕組みが必要とされる。

　そこで、以下においては、コンサルタント側で知識を共有し、コンサルティングの質を向上させる実施の形態について説明する。

＜７．予測分析システムの構成＞
（システム概要）
　図１６は、本実施の形態の予測分析システムの概要を示す図である。

　図１６においては、ユーザＵが、予測分析ツール４００を用いた予測分析を行っている。具体的には、ユーザＵは、データセットＤを作成し、予測分析ツール４００に「学習」と「評価」を行わせる。

　予測分析ツール４００は、例えば、ユーザＵが所属する企業が保有するパーソナルコンピュータ（ＰＣ）上で起動するソフトウェアにより実現される。

　予測分析により得られた分析情報（ユーザＵにより作成されたデータセットＤの統計量や、予測分析ツール４００による予測分析の評価結果）は、例えばインターネットなどのネットワークを介して、指南書作成装置５００に供給される。

　また、ユーザＵは、予測分析の利用状況（予測分析の目的や、ユーザＵの所属部署など）を入力することで、入力したその情報を、指南書作成装置５００に供給される分析情報に追加することができる。

　指南書作成装置５００は、ユーザＵが行った予測分析に対するコンサルティングを行うコンサルタントＣが操作するＰＣやタブレット端末などにより構成される。

　指南書作成装置５００は、予測分析ツール４００からの分析情報の内容に基づいて、ユーザＵが行った予測分析に対するコンサルティングをコンサルタントＣに向けて指南するための指南書Ｇを提示する。

　指南書Ｇには、ユーザＵが行った予測分析に関するアドバイスや、分析事例データベース（ＤＢ）５０１から取得された、予測分析ツール４００からの分析情報に類似した分析情報（事例）などが含まれる。分析事例ＤＢ５０１には、過去に得られた複数の分析情報が格納されている。

　コンサルタントＣは、提示された指南書Ｇの内容に基づいて、ユーザＵが行った予測分析に対するコンサルティングを行うことができる。

　なお、図１６の予測分析システムは、ユーザＵ側の構成と、コンサルタントＣ側の構成とに区分されているが、必ずしもこのように区分される必要はなく、各構成を扱う者によって適宜区分されてよい。

（指南書作成装置の構成例）
　図１７は、指南書作成装置５００の機能構成例を示すブロック図である。

　図１７に示されるように、指南書作成装置５００は、入力部５１０、提示部５２０、記憶部５３０、および制御部５４０を備える。

　入力部５１０は、予測分析ツール４００からの分析情報などの様々な情報を入力する。入力部５１０は、入力した情報を制御部５４０に供給する。

　提示部５２０は、制御部５４０から供給された情報を提示する機能を有する。例えば、提示部５２０は、予測分析に対するコンサルティングを指南するための指南情報を含む指南書を提示する。

　提示部５２０は、例えばモニタとして構成されることで、画面への表示により情報を提示してもよいし、スピーカとして構成されることで、音声により情報を提示してもよい。また、提示部５２０は、プリンタとして構成されることで、紙などの印刷媒体への印刷により情報を提示してもよい。

　記憶部５３０は、情報を一時的または恒久的に記憶する機能を有する。例えば、記憶部５３０は、予測分析ツール４００からの分析情報を一時的に記憶する。記憶部５３０に記憶されている、過去に得られた分析情報は、例えばコンサルタントＣにより入力された入力情報に対応付けられて、分析事例ＤＢ５０１に格納される。

　制御部５４０は、指南書作成装置５００全体の動作を制御する機能を有する。具体的には、制御部５４０は、予測分析ツール４００からの分析情報の内容に基づいて、その分析情報が得られた、予測分析ツール４００による予測分析に対するコンサルティングの指南情報の提示を制御する。

　制御部５４０は、アドバイス生成部５５１、類似情報取得部５５２、グラフ生成部５５３、および提示制御部５５４を備える。

　アドバイス生成部５５１は、予測分析ツール４００からの分析情報の内容に基づいて、ユーザＵが行った予測分析に関するアドバイスを生成する。

　類似情報取得部５５２は、分析事例ＤＢ５０１に格納されている分析情報から、予測分析ツール４００からの分析情報に類似した類似情報を取得する。

　グラフ生成部５５３は、予測分析ツール４００からの分析情報の内容に基づいて、ユーザＵが行った予測分析の予測精度を評価する精度評価グラフを生成する。

　アドバイス生成部５５１により生成されたアドバイス、類似情報取得部５５２により取得された類似情報、グラフ生成部５５３により生成された精度評価グラフは、提示制御部５５４に供給される。

　提示制御部５５４は、アドバイス生成部５５１、類似情報取得部５５２、グラフ生成部５５３それぞれからのアドバイス、類似情報、精度評価グラフの、指南情報としての、提示部５２０への提示を制御する。

　以下においては、予測分析システムにおける各処理について説明する。

＜８．分析情報送信処理＞
　まず、図１８のフローチャートを参照して、予測分析ツール４００による分析情報の送信処理について説明する。

　予測分析を行うユーザＵが、予測分析ツール４００にデータセットを入力すると、ステップＳ１１１において、予測分析ツール４００は、入力されたデータセットを用いた予測分析を行うことで、分析情報を生成する。予測分析ツール４００は、生成した分析情報を、図示せぬ表示部などに表示するなどして、ユーザＵに確認させる。

　ステップＳ１１２において、予測分析ツール４００は、分析情報を確認しているユーザＵの修正操作に応じて、分析情報の修正を受け付ける。この処理は、必要に応じて行われる。

　データセットには、ユーザＵによって誤入力されたデータが存在する可能性があることから、データセットのうち、例えば特定の項目についての最大・最小の値それぞれ上位５個を有するデータを除去するといった修正を行うことができる。

　ステップＳ１１３において、予測分析ツール４００は、ユーザＵの入力操作に応じて、予測分析の利用状況の入力を受け付ける。入力された予測分析の利用状況は、生成された分析情報に追加される。この処理もまた、必要に応じて行われ、指南書作成装置５００において行われてもよい。

　ステップＳ１１４において、予測分析ツール４００は、ユーザＵの送信指示に応じて、予測分析の利用状況が追加された分析情報を、指南書作成装置５００に送信する。

　以上のようにして、分析情報送信処理が行われる。

（分析情報の例）
　図１９は、指南書作成装置５００に送信される分析情報の例を示す図である。

　図１９の分析情報６１０には、データセットの項目名、データの事例、データセットの統計量、データセットに予測分析を適用した際の情報（評価結果）、予測分析の利用状況が含まれる。

　データセットの項目名（特徴量）は、図１９の例では、上述した実施の形態と同様、中古マンションの「広さ」、「最寄駅」、「徒歩分」、「築年数」、「所在階」、「バルコニ方向」、および「成約価格」とされる。

　データの事例は、実際のデータではないものの、データセットを具体的に理解するために利用される。データの事例は、例えば、データセットの各項目について独立に、データがランダムに選択されたものとする。図１９の例では、２つのデータの事例（事例１および事例２）が例示されている。

　なお、事例１においては、成約価格が98500（万）となっているが、これはユーザＵによって誤入力されたもので、本来の成約価格は9850（万）である。このようなデータが、図１８のフローチャートのステップＳ１１２において、修正の対象となる。

　データセットの統計量には、データ数（図１９の例では3617）や項目数（図１９の例では７）の他、各項目のタイプ、ユニーク数、欠損率、データの最大値、最小値、平均値、および標準偏差が含まれる。データセットの統計量に、各項目のデータの中央値や分散が含まれてもよい。

　データセットに予測分析を適用した際の情報には、ターゲット変数、予測タスク（回帰、２値分類、多値分類など）、使用した項目リスト、予測精度値、予測寄与度の統計量などが含まれる。図１９の例では、ターゲット変数は成約価格とされ、予測タスクは数値予測とされる。また、図１９の例では、予測精度値として、ターゲット変数である成約価格の誤差中央値531万と誤差率中央値９．３％が示されている。なお、使用した項目リストは、予測精度が最も高かった設定が選択される。

　予測分析の利用状況には、予測分析の目的（作業自動化・効率化、マーケティング、予兆管理、需要予測など）、予測分析を行った分析部署（データ分析部門、営業部門、マーケティング部門など）、評価結果を利用する利用部署（営業部門、コールセンタ、人事部門など）が含まれる。また、予測分析の利用状況には、予測分析を行った企業の業界、予測タスクのサブカテゴリであるタスクタイプが含まれる。図１９の例では、予測分析の目的は、売買仲介の営業時に、仮査定額の即時算出を行うための「作業自動化・効率化」とされる。また、分析部署はＩＴ部門、利用部署は営業、業界は不動産、タスクタイプは価格予測とされる。

　以上のような分析情報６１０が、指南書作成装置５００に送信され、記憶部５３０に記憶される。

＜９．分析情報登録処理＞
　次に、図２０のフローチャートを参照して、指南書作成装置５００による分析事例ＤＢ５０１への分析情報の登録処理について説明する。

　ステップＳ１３１において、制御部５４０は、記憶部５３０に記憶されている分析情報の中から、分析事例ＤＢ５０１に登録する分析情報を選択するコンサルタントＣの選択操作に応じて、分析情報の選択を受け付ける。

　ステップＳ１３２において、制御部５４０は、コンサルタントＣの入力操作に応じて、予測分析の利用状況の入力を受け付ける。入力された予測分析の利用状況は、選択された分析情報に追加される。この処理は、必要に応じて行われ、上述したように予測分析ツール４００において行われてもよい。

　ステップＳ１３３において、制御部５４０は、コンサルタントＣの入力操作に応じて、コンサルティングに関する情報の入力を受け付ける。コンサルティングに関する情報（入力情報）は、例えば、選択された分析情報が得られた予測分析に対する、コンサルタントＣの評価や検討結果などを表すテキスト情報とされる。

　ステップＳ１３４において、制御部５４０は、コンサルタントＣの登録操作に応じて、選択された分析情報を、入力された入力情報（テキスト情報）と対応付けて分析事例ＤＢ５０１に格納する。

　以上のようにして、分析情報登録処理が行われる。

（分析情報の例）
　図２１は、分析事例ＤＢ５０１に登録される分析情報の例を示す図である。

　図２１の分析情報６２０の構成は、基本的には、図１９の分析情報６１０の構成と同様である。

　図２１の例では、データ数は10390、項目数は６、ターゲット変数は平米単価、予測タスクは数値予測とされる。

　また、図２１の例では、データセットの項目名（特徴量）は、中古マンションの「地名」、「徒歩分」、「接道方向」、「成約日」、「地域犯罪率」、および「平米単価」とされる。

　さらに、図２１の例では、予測精度値として、平米単価の誤差中央値38134と誤差率中央値１８．７％が示されている。

　そして、図２１の例では、予測分析の目的は、売買仲介の営業時に、仮査定額の即時算出を行うための「作業自動化・効率化」とされ、分析部署はＩＴ部門、利用部署は営業、業界は不動産、タスクタイプは価格予測とされている。

（入力情報の例）
　図２２は、図２１の分析情報６２０に対応付けられて分析事例ＤＢ５０１に登録される入力情報の例を示す図である。

　図２２の入力情報６３０には、コンサルタントＣによって分析情報６２０について入力されたテキスト情報が含まれる。

　具体的には、入力情報６３０には、分析情報６２０が得られた予測分析について、
　・地域犯罪率の情報を特定のＵＲＬから取得して追加することで予測精度が向上した点
　・予測精度が低く、現状では想定していた目的では利用できない点
　・上記の点に対して、予測精度の高い地域では利用できる点
　の３点についてのテキスト情報が含まれている。

　以上のような入力情報６３０が、分析情報６２０と対応付けられて分析事例ＤＢ５０１に登録される。

＜１０．指南書提示処理＞
　次に、図２３のフローチャートを参照して、指南書作成装置５００による指南書提示処理について説明する。

　ステップＳ１５１において、制御部５４０は、記憶部５３０に記憶されている分析情報の中から、コンサルタントＣによるコンサルティングの対象となる分析情報の選択操作に応じて、分析情報の選択を受け付ける。この例では、図１９の分析情報６１０が選択されたものとする。

　ステップＳ１５２において、指南書作成装置５００の制御部５４０は、コンサルタントＣにより選択された分析情報の内容に基づいて、その分析情報を分類する。

　ステップＳ１５３において、制御部５４０のアドバイス生成部５５１は、コンサルティングの対象となる分析情報が分類されたカテゴリに応じて、その分析情報が得られた予測分析に関するアドバイスを生成する。

　図２４は、アドバイス生成部５５１により生成されるアドバイスの例を示す図である。

　図２４のアドバイス６４０においては、コンサルティングの対象となる分析情報が、「データ・予測に関する観測」と「状況」について分類され、それぞれの分類結果に対して精度改善のアドバイスと、ビジネス導入のアドバイスが生成されている。

　具体的には、コンサルティングの対象となる分析情報は、データ・予測に関する観測について「データ数が少なく、過学習の傾向がある」、「予測対象の数値の分散が大きい」と分類されている。

　「データ数が少なく、過学習の傾向がある」に対しては、精度改善のアドバイスとして、「データ数を増やす方法を検討すると良い」、「予測に影響しそうにない入力項目（特徴量）を減らすと良い」とのアドバイスが生成されている。また、「予測対象の数値の分散が大きい」に対しては、精度改善のアドバイスとして、「極端に小さい値や大きい値は、データの誤りの可能性があるので、確認した方が良い」とのアドバイスが生成されている。

　また、コンサルティングの対象となる分析情報は、状況について「数値予測で誤差率が一定以上」、「領域が不動産」と分類されている。

　「数値予測で誤差率が一定以上」に対しては、ビジネス導入のアドバイスとして、「予測の高いサブ問題に絞り、そこで要求性能を超えるか否かを確認するとよい」とのアドバイスが生成されている。また、「領域が不動産」に対しては、ビジネス導入のアドバイスとして、「オープンデータを紐付けることで、入力項目（地域犯罪率など）を追加することができるので、検討すると良い」とのアドバイスが生成されている。

　以上のようなアドバイス６４０を構成するアドバイスは、カテゴリ毎に記憶部５３０に記憶されている。アドバイス生成部５５１は、分析情報が分類されたカテゴリに応じたルールベースにより、記憶部５３０から最適なアドバイスを読み出すことにより、アドバイス６４０を生成することができる。すなわち、コンサルティングの対象となる分析情報は、アドバイスを抽出するクエリとして機能する。

　なお、アドバイス生成部５５１が、分析情報が分類されたカテゴリに応じたルールベースではなく、そのカテゴリに応じた機械学習により、アドバイス６４０を生成するようにしてもよい。

　図２３のフローチャートに戻り、ステップＳ１５４において、類似情報取得部５５２は、コンサルティングの対象となる分析情報と、分析事例ＤＢ５０１に格納されている分析情報との類似度を算出する。

　例えば、類似情報取得部５５２は、２つの分析情報について、図２５に示される特徴量毎の距離を算出し、算出した各距離の重み付き和を２つの分析情報の距離とする。類似情報取得部５５２は、分析事例ＤＢ５０１に格納されている複数の分析情報について、コンサルティングの対象となる分析情報との距離を算出し、算出した各距離を単調減少関数で表現したものを類似度とする。

　図２５に示される特徴量毎の距離の算出において、数値タイプの特徴量（データ数、項目数、数値タイプの項目数の割合、予測精度値、ターゲット値の統計量）については、距離は数値として算出される。なお、予測精度値は、予測タスクが回帰の場合には誤差中央値、予測タスクが２値分類の場合にはＡＵＣ、予測タスクが多値分類の場合にはaccuracy（正解率）とされる。また、ターゲット値の統計量は、予測タスクが回帰の場合には平均と分散、予測タスクが２値分類の場合には少ない方のラベル値の全体に占める割合、予測タスクが多値分類の場合にはラベル数とされる。

　一方、特徴量毎の距離の算出において、文字列タイプの特徴量（予測タスク、タスクタイプ、業界、目的、分析部署、利用部署）については、それぞれの特徴量が一致すれば１、一致しなければ０として、距離が算出される。

　図２３のフローチャートに戻り、ステップＳ１５５において、類似情報取得部５５２は、算出した類似度（単調減少関数における各距離）が所定値より高い分析情報を類似情報として、分析事例ＤＢ５０１から取得する。この例では、類似情報として、図２１の分析情報６２０と、その分析情報６２０に対応付けられた図２２の入力情報が取得されたものとする。

　ステップＳ１５６において、グラフ生成部５５３は、コンサルティングの対象となる分析情報が分類されたカテゴリに応じて、その分析情報が得られた予測分析の予測精度を評価する精度評価グラフを生成する。

　このとき、グラフ生成部５５３は、例えばコンサルタントＣが入力した情報（予測分析の目的など）に応じた精度評価グラフを生成する。

　ここで、図２６および図２７を参照して、グラフ生成部５５３によって生成される精度評価グラフについて説明する。

　図２６は、コンサルタントＣによりタスクタイプとして「価格予測」が入力された場合に生成される精度評価グラフの例を示す図である。

　図２６の精度評価グラフでは、図１９の分析情報６１０に含まれる誤差率中央値9.3％に対して、分析情報６１０のターゲット変数である成約価格の誤差が、５％以内に収まる割合、１０％以内に収まる割合、２０％以内に収まる割合がそれぞれ示されている。図２６の例では、誤差が５％以内に収まる割合は４０．５％、１０％以内に収まる割合は６１．９％、２０％以内に収まる割合は８５．１％とされる。

　図２７は、コンサルタントＣによりタスクタイプとして「需要予測」が入力された場合に生成される精度評価グラフの例を示す図である。

　図２７の精度評価グラフでは、所定期間における需要予測について、予測値のグラフと実際の値のグラフが示されている。図２７の例では、予測値は点線で、実際の値は実線で示されており、平均誤差率は１２．５％とされる。

　なお、図２７の例では、タスクタイプとして需要予測が入力された後、コンサルタントＣにより、所定期間に対応する時間情報が入力される。このようにして、タスクタイプによっては、コンサルタントＣによる追加の情報の入力を受け付けるようにすることができる。

　上述した例では、タスクタイプは、コンサルタントＣにより入力されるものとしたが、例えば予測タスクとターゲット変数それぞれの文字列から自動的に決定されるようにしてもよい。例えば、予測タスクが数値予測で、ターゲット変数が平米単価である場合には、タスクタイプは価格予測に決定されるようにする。

　以上のような精度評価グラフもまた、カテゴリ毎に記憶部５３０に記憶されている。グラフ生成部５５３は、分析情報が分類されたカテゴリに応じたルールベースにより、記憶部５３０から最適な精度評価グラフを読み出すことにより、精度評価グラフを生成することができる。すなわち、コンサルティングの対象となる分析情報は、精度評価グラフを抽出するクエリとして機能する。

　さて、図２３のフローチャートに戻り、ステップＳ１５７において、提示制御部５５４は、指南情報として、アドバイス生成部５５１により生成されたアドバイス、類似情報取得部５５２より取得された類似情報、グラフ生成部５５３により生成された精度評価グラフの提示部５２０への提示を制御する。

　図２８は、提示部５２０がモニタとして構成される場合の指南情報の提示例を示す図である。

　図２８に示されるモニタ７１０の画面には、図２４のアドバイス６４０、類似事例としての図２１の分析情報と図２２の入力情報、および、図２７の精度評価グラフを含むコンサルティング指南書が表示されている。

　図２９は、提示部５２０がプリンタとして構成される場合の指南情報の提示例を示す図である。

　プリンタとしての提示部５２０により出力される、図２９に示される印刷媒体７２０には、図２４のアドバイス６４０、類似事例としての図２１の分析情報と図２２の入力情報、および、図２７の精度評価グラフを含むコンサルティング指南書が印刷されている。

　このようにして提示された指南書の内容（指南情報）に基づいて、コンサルタントＣは、ユーザＵが行った予測分析（図１９の分析情報６１０が得られた予測分析）に対するコンサルティングを行うことができる。

　以上の処理によれば、提示された指南書の内容に基づいて、コンサルタント側で知識を共有したり、予測分析の導入の取り組み全体をサポートしたりすることができるので、コンサルティングの質を向上させることが可能となる。

＜１１．コンピュータのハードウェア構成＞
　次に、本開示の実施の形態による情報処理装置のハードウェア構成について説明する。

　図３０は、本開示の実施の形態による情報処理装置のハードウェア構成例を示すブロック図である。

　図３０に示されるコンピュータ９００は、例えば、上述した実施の形態における情報処理装置１００や指南書作成装置５００を実現しうる。

　コンピュータ９００は、ＣＰＵ（Central Processing unit）９０１，ＲＯＭ（Read Only Memory）９０３、およびＲＡＭ（Random Access Memory）９０５を含む。また、コンピュータ９００は、ホストバス９０７、ブリッジ９０９、外部バス９１１、インタフェース９１３、入力装置９１５、出力装置９１７、ストレージ装置９１９、ドライブ９２１、接続ポート９２３、通信装置９２５を含んでもよい。コンピュータ９００は、ＣＰＵ９０１に代えて、またはこれとともに、ＤＳＰ（Digital Signal Processor）、ＡＳＩＣ（Application Specific Integrated Circuit）、またはＦＰＧＡ（Field-Programmable Gate Array）などの処理回路を有してもよい。

　ＣＰＵ９０１は、演算処理装置および制御装置として機能し、ＲＯＭ９０３，ＲＡＭ９０５、ストレージ装置９１９、またはリムーバブル記録媒体９２７に記録された各種のプログラムに従って、コンピュータ９００内の動作全般またはその一部を制御する。ＲＯＭ９０３は、ＣＰＵ９０１が使用するプログラムや演算パラメータなどを記憶する。ＲＡＭ９０５は、ＣＰＵ９０１の実行において使用するプログラムや、その実行において適宜変化するパラメータなどを一次記憶する。ＣＰＵ９０１，ＲＯＭ９０３、およびＲＡＭ９０５は、ＣＰＵバスなどの内部バスにより構成されるホストバス９０７により相互に接続されている。さらに、ホストバス９０７は、ブリッジ９０９を介して、ＰＣＩ（Peripheral Component Interconnect/Interface）バスなどの外部バス９１１に接続されている。

　入力装置９１５は、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチおよびレバーなど、ユーザによって操作される装置である。入力装置９１５は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、コンピュータ９００の操作に対応した携帯電話などの外部接続機器９２９であってもよい。入力装置９１５は、ユーザが入力した情報に基づいて入力信号を生成してＣＰＵ９０１に出力する入力制御回路を含む。ユーザは、この入力装置９１５を操作することによって、コンピュータ９００に対して各種のデータを入力したり処理動作を指示したりする。

　出力装置９１７は、取得した情報をユーザに対して視覚や聴覚、触覚などの感覚を用いて通知することが可能な装置で構成される。出力装置９１７は、例えば、ＬＣＤ（Liquid Crystal Display）または有機ＥＬ（Electro-Luminescence）ディスプレイなどの表示装置、スピーカまたはヘッドフォンなどの音声出力装置、もしくはバイブレータなどでありうる。出力装置９１７は、コンピュータ９００の処理により得られた結果を、テキストまたは画像などの映像、音声または音響などの音声、またはバイブレーションなどとして出力する。

　ストレージ装置９１９は、コンピュータ９００の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置９１９は、例えば、ＨＤＤ（Hard Disk Drive）などの磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、または光磁気記憶デバイスなどにより構成される。ストレージ装置９１９は、例えばＣＰＵ９０１が実行するプログラムや各種データ、および外部から取得した各種のデータなどを格納する。

　ドライブ９２１は、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブル記録媒体９２７のためのリーダライタであり、コンピュータ９００に内蔵、あるいは外付けされる。ドライブ９２１は、装着されているリムーバブル記録媒体９２７に記録されている情報を読み出して、ＲＡＭ９０５に出力する。また、ドライブ９２１は、装着されているリムーバブル記録媒体９２７に記録を書き込む。

　接続ポート９２３は、機器をコンピュータ９００に接続するためのポートである。接続ポート９２３は、例えば、ＵＳＢ（Universal Serial Bus）ポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ（Small Computer System Interface）ポートなどでありうる。また、接続ポート９２３は、ＲＳ－２３２Ｃポート、光オーディオ端子、ＨＤＭＩ（登録商標）（High-Definition Multimedia Interface）ポートなどであってもよい。接続ポート９２３に外部接続機器９２９を接続することで、コンピュータ９００と外部接続機器９２９との間で各種のデータが交換されうる。

　通信装置９２５は、例えば、通信ネットワーク９３１に接続するための通信デバイスなどで構成された通信インタフェースである。通信装置９２５は、例えば、ＬＡＮ（Local Area Network）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、Ｗｉ－Ｆｉ、またはＷＵＳＢ（Wireless USB）用の通信カードなどでありうる。また、通信装置９２５は、光通信用のルータ、ＡＤＳＬ（Asymmetric Digital Subscriber Line）用のルータ、または、各種通信用のモデムなどであってもよい。通信装置９２５は、例えば、インターネットや他の通信機器との間で、ＴＣＰ／ＩＰなどの所定のプロトコルを用いて信号などを送受信する。また、通信装置９２５に接続される通信ネットワーク９３１は、有線または無線によって接続されたネットワークであり、例えば、インターネット、家庭内ＬＡＮ、赤外線通信、ラジオ波通信または衛星通信などを含みうる。

　以上、コンピュータ９００のハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。かかる構成は、実施する時々の技術レベルに応じて適宜変更されうる。

　なお、コンピュータ９００が実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

　なお、本開示に係る技術の実施の形態は、上述した実施の形態に限定されるものではなく、本開示に係る技術の要旨を逸脱しない範囲において種々の変更が可能である。

　また、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。

　さらに、本開示に係る技術は以下のような構成をとることができる。
（１）
　予測モデルの学習に用いる学習データセットの所定数のデータサンプルに対して、前記予測モデルの評価に用いる評価データセットの評価値を算出する予測分析部と、
　前記学習データセットの全データサンプルについての前記評価値およびその勾配に基づいて、前記学習データセットの前記データサンプルおよびその特徴量の少なくともいずれかに関するアドバイスを提示するための提示情報を生成するアドバイス生成部と
　を備える情報処理装置。
（２）
　前記アドバイス生成部は、前記学習データセットの全データサンプルについての前記評価値と所定の閾値との大小関係に基づいて、前記学習データセットの特徴量数の改善についての前記アドバイスを提示するための前記提示情報を生成する
　（１）に記載の情報処理装置。
（３）
　前記アドバイス生成部は、前記学習データセットの全データサンプルについての前記評価値が前記閾値より小さい場合、前記学習データセットの特徴量数が足りていない旨の前記アドバイスを提示するための前記提示情報を生成する
　（２）に記載の情報処理装置。
（４）
　前記アドバイス生成部は、前記学習データセットの全データサンプルについての前記評価値が前記閾値より大きい場合、前記学習データセットの特徴量は足りている旨の前記アドバイスを提示するための前記提示情報を生成する
　（２）または（３）に記載の情報処理装置。
（５）
　前記アドバイス生成部は、前記学習データセットの全データサンプルについての前記評価値の勾配と所定の閾値との大小関係に基づいて、前記学習データセットのデータサンプル数の改善についての前記アドバイスを提示するための前記提示情報を生成する
　（１）に記載の情報処理装置。
（６）
　前記アドバイス生成部は、前記学習データセットの全データサンプルについての前記評価値の勾配が前記閾値より大きい場合、前記学習データセットのデータサンプル数が足りていない旨の前記アドバイスを提示するための前記提示情報を生成する
　（５）に記載の情報処理装置。
（７）
　前記アドバイス生成部は、前記学習データセットの全データサンプルについての前記評価値の勾配が前記閾値より小さい場合、前記学習データセットのデータサンプル数は足りている旨の前記アドバイスを提示するための前記提示情報を生成する
　（５）または（６）に記載の情報処理装置。
（８）
　前記勾配は、前記学習データセットの全データサンプルについての前記評価値と、前記全データサンプルより多いまたは少ない数のデータサンプルについての前記評価値との差分である
　（５）乃至（７）のいずれかに記載の情報処理装置。
（９）
　前記閾値は、前記学習データセットの全データサンプルについての前記評価値に基づいて決定される
　（５）乃至（７）のいずれかに記載の情報処理装置。
（１０）
　前記勾配は、学習アルゴリズムにおける前記予測モデルのパラメータ更新回数に対する、前記学習データセットについての第１の評価値と前記評価データセットについての第２の評価値との差分の増加率である
　（５）乃至（７）のいずれかに記載の情報処理装置。
（１１）
　前記予測分析部は、前記予測モデルの予測誤差を推定する誤差予測モデルを学習し、
　前記アドバイス生成部は、前記誤差予測モデルを用いて算出された前記予測誤差に対する前記特徴量の寄与度に基づいて、前記予測誤差の増大に寄与する第１の特徴量に関する前記アドバイスを提示するための前記提示情報を生成する
　（１）乃至（１０）のいずれかに記載の情報処理装置。
（１２）
　前記提示情報は、前記第１の特徴量の値を含む
　（１１）に記載の情報処理装置。
（１３）
　前記提示情報は、前記第１の特徴量の値を有する前記データサンプルを含む
　（１１）または（１２）に記載の情報処理装置。
（１４）
　前記提示情報は、前記第１の特徴量の値を有する前記データサンプルにおける、前記予測モデルによる予測への寄与がより大きい第２の特徴量を含む
　（１１）乃至（１３）のいずれかに記載の情報処理装置。
（１５）
　前記提示情報は、前記第１の特徴量の値を有する複数の前記データサンプルのうちの、前記特徴量の類似度がより高く、かつ、前記予測誤差の正負が異なる第１および第２のデータサンプルを含む
　（１１）乃至（１４）のいずれかに記載の情報処理装置。
（１６）
　前記提示情報は、前記全データサンプルにおける平均誤差に対する、前記第１の特徴量の値を有する前記データサンプルにおける平均誤差の増分を含む
　（１１）乃至（１５）のいずれかに記載の情報処理装置。
（１７）
　前記提示情報は、前記全データサンプルに対する、前記第１の特徴量の値を有する前記データサンプルの割合を含む
　（１１）乃至（１６）のいずれかに記載の情報処理装置。
（１８）
　前記第１の特徴量に関する前記提示情報は、前記第１の特徴量との相関を表す相関値がより小さい前記特徴量を含む
　（１１）乃至（１７）のいずれかに記載の情報処理装置。
（１９）
　情報処理装置が、
　予測モデルの学習に用いる学習データセットの所定数のデータサンプルに対して、前記予測モデルの評価に用いる評価データセットの評価値を算出し、
　前記学習データセットの全データサンプルについての前記評価値およびその勾配に基づいて、前記学習データセットの前記データサンプルおよびその特徴量の少なくともいずれかに関するアドバイスを提示するための提示情報を生成する
　情報処理方法。
（２０）
　コンピュータに、
　予測モデルの学習に用いる学習データセットの所定数のデータサンプルに対して、前記予測モデルの評価に用いる評価データセットの評価値を算出し、
　前記学習データセットの全データサンプルについての前記評価値およびその勾配に基づいて、前記学習データセットの前記データサンプルおよびその特徴量の少なくともいずれかに関するアドバイスを提示するための提示情報を生成する
　処理を実行させるためのプログラム。

　また、本開示に係る技術は以下のような構成をとることもできる。
（１）
　予測分析により得られた分析情報の内容に基づいて、前記予測分析に対するコンサルティングの指南情報の提示を制御する制御部
　を備える情報処理装置。
（２）
　前記予測分析に関するアドバイスを生成するアドバイス生成部をさらに備え、
　前記制御部は、前記指南情報として、前記アドバイスを提示する
　（１）に記載の情報処理装置。
（３）
　前記アドバイス生成部は、前記分析情報の内容に基づいて前記分析情報が分類されたカテゴリに応じて、前記アドバイスを生成する
　（２）に記載の情報処理装置。
（４）
　前記アドバイス生成部は、前記分析情報が分類された前記カテゴリに応じたルールベースにより、前記アドバイスを生成する
　（３）に記載の情報処理装置。
（５）
　前記アドバイス生成部は、前記分析情報が分類された前記カテゴリに応じた機械学習により、前記アドバイスを生成する
　（３）に記載の情報処理装置。
（６）
　前記分析情報は、データセットの統計量を含む
　（１）乃至（５）のいずれかに記載の情報処理装置。
（７）
　前記分析情報は、前記予測分析の評価結果を含む
　（１）乃至（５）のいずれかに記載の情報処理装置。
（８）
　前記予測分析の前記評価結果は、前記予測分析の予測精度およびデータセットの予測寄与度の少なくともいずれか一方を含む
　（７）に記載の情報処理装置。
（９）
　前記分析情報は、前記予測分析の利用状況を含む
　（１）乃至（８）のいずれかに記載の情報処理装置。
（１０）
　前記予測分析の前記利用状況は、前記予測分析の目的を少なくとも含む
　（９）に記載の情報処理装置。
（１１）
　前記予測分析の前記利用状況は、前記コンサルティングを受けるユーザ、または、前記コンサルティングを行うコンサルタントにより入力される情報である
　（９）に記載の情報処理装置。
（１２）
　過去に得られた前記分析情報から、前記コンサルティングの対象となる前記分析情報との類似度が所定値より高い類似情報を取得する類似情報取得部をさらに備え、
　前記制御部は、前記指南情報として、取得された前記類似情報をさらに提示する
　（２）に記載の情報処理装置。
（１３）
　前記制御部は、前記類似情報とともに、前記コンサルティングを行うコンサルタントによって前記類似情報について入力されたテキスト情報を提示する
　（１２）に記載の情報処理装置。
（１４）
　前記予測分析の予測精度を評価する精度評価グラフを生成するグラフ生成部をさらに備え、
　前記制御部は、前記指南情報として、前記精度評価グラフをさらに提示する
　（２）に記載の情報処理装置。
（１５）
　前記グラフ生成部は、前記分析情報の内容に基づいて前記分析情報が分類されたカテゴリに応じて、前記精度評価グラフを生成する
　（１４）に記載の情報処理装置。
（１６）
　前記グラフ生成部は、前記分析情報が分類された前記カテゴリに応じたルールベースにより、前記精度評価グラフを生成する
　（１５）に記載の情報処理装置。
（１７）
　前記制御部は、前記指南情報の画面への表示を制御する
　（１）に記載の情報処理装置。
（１８）
　前記制御部は、前記指南情報の印刷媒体への印刷を制御する
　（１）に記載の情報処理装置。
（１９）
　情報処理装置が、
　予測分析により得られた分析情報の内容に基づいて、前記予測分析に対するコンサルティングの指南情報の提示を制御する
　情報処理方法。
（２０）
　コンピュータに、
　予測分析により得られた分析情報の内容に基づいて、前記予測分析に対するコンサルティングの指南情報の提示を制御する
　処理を実行させるためのプログラム。

　１００　情報処理装置，　１１０　入力部，　１２０　出力部，　１３０　記憶部，　１４０　制御部，　１５１　予測分析部，　１５２　アドバイス生成部，　４００　予測分析ツール，　５００　指南書作成装置，　５０１　分析事例ＤＢ，　５１０　入力部，　５２０　提示部，　５３０　記憶部，　５４０　制御部，　５５１　アドバイス生成部，　５５２　類似情報取得部，　５５３　グラフ生成部，　５５４　提示制御部，　９００　コンピュータ

Claims

　予測モデルの学習に用いる学習データセットの所定数のデータサンプルに対して、前記予測モデルの評価に用いる評価データセットの評価値を算出する予測分析部と、
　前記学習データセットの全データサンプルについての前記評価値およびその勾配に基づいて、前記学習データセットの前記データサンプルおよびその特徴量の少なくともいずれかに関するアドバイスを提示するための提示情報を生成するアドバイス生成部と
　を備える情報処理装置。
　前記アドバイス生成部は、前記学習データセットの全データサンプルについての前記評価値と所定の閾値との大小関係に基づいて、前記学習データセットの特徴量数の改善についての前記アドバイスを提示するための前記提示情報を生成する
　請求項１に記載の情報処理装置。
　前記アドバイス生成部は、前記学習データセットの全データサンプルについての前記評価値が前記閾値より小さい場合、前記学習データセットの特徴量数が足りていない旨の前記アドバイスを提示するための前記提示情報を生成する
　請求項２に記載の情報処理装置。
　前記アドバイス生成部は、前記学習データセットの全データサンプルについての前記評価値が前記閾値より大きい場合、前記学習データセットの特徴量は足りている旨の前記アドバイスを提示するための前記提示情報を生成する
　請求項２に記載の情報処理装置。
　前記アドバイス生成部は、前記学習データセットの全データサンプルについての前記評価値の勾配と所定の閾値との大小関係に基づいて、前記学習データセットのデータサンプル数の改善についての前記アドバイスを提示するための前記提示情報を生成する
　請求項１に記載の情報処理装置。
　前記アドバイス生成部は、前記学習データセットの全データサンプルについての前記評価値の勾配が前記閾値より大きい場合、前記学習データセットのデータサンプル数が足りていない旨の前記アドバイスを提示するための前記提示情報を生成する
　請求項５に記載の情報処理装置。
　前記アドバイス生成部は、前記学習データセットの全データサンプルについての前記評価値の勾配が前記閾値より小さい場合、前記学習データセットのデータサンプル数は足りている旨の前記アドバイスを提示するための前記提示情報を生成する
　請求項５に記載の情報処理装置。
　前記勾配は、前記学習データセットの全データサンプルについての前記評価値と、前記全データサンプルより多いまたは少ない数のデータサンプルについての前記評価値との差分である
　請求項５に記載の情報処理装置。
　前記閾値は、前記学習データセットの全データサンプルについての前記評価値に基づいて決定される
　請求項５に記載の情報処理装置。
　前記勾配は、学習アルゴリズムにおける前記予測モデルのパラメータ更新回数に対する、前記学習データセットについての第１の評価値と前記評価データセットについての第２の評価値との差分の増加率である
　請求項５に記載の情報処理装置。
　前記予測分析部は、前記予測モデルの予測誤差を推定する誤差予測モデルを学習し、
　前記アドバイス生成部は、前記誤差予測モデルを用いて算出された前記予測誤差に対する前記特徴量の寄与度に基づいて、前記予測誤差の増大に寄与する第１の特徴量に関する前記アドバイスを提示するための前記提示情報を生成する
　請求項１に記載の情報処理装置。
　前記提示情報は、前記第１の特徴量の値を含む
　請求項１１に記載の情報処理装置。
　前記提示情報は、前記第１の特徴量の値を有する前記データサンプルを含む
　請求項１１に記載の情報処理装置。
　前記提示情報は、前記第１の特徴量の値を有する前記データサンプルにおける、前記予測モデルによる予測への寄与がより大きい第２の特徴量を含む
　請求項１１に記載の情報処理装置。
　前記提示情報は、前記第１の特徴量の値を有する複数の前記データサンプルのうちの、前記特徴量の類似度がより高く、かつ、前記予測誤差の正負が異なる第１および第２のデータサンプルを含む
　請求項１１に記載の情報処理装置。
　前記提示情報は、前記全データサンプルにおける平均誤差に対する、前記第１の特徴量の値を有する前記データサンプルにおける平均誤差の増分を含む
　請求項１１に記載の情報処理装置。
　前記提示情報は、前記全データサンプルに対する、前記第１の特徴量の値を有する前記データサンプルの割合を含む
　請求項１１に記載の情報処理装置。
　前記第１の特徴量に関する前記提示情報は、前記第１の特徴量との相関を表す相関値がより小さい前記特徴量を含む
　請求項１１に記載の情報処理装置。
　情報処理装置が、
　予測モデルの学習に用いる学習データセットの所定数のデータサンプルに対して、前記予測モデルの評価に用いる評価データセットの評価値を算出し、
　前記学習データセットの全データサンプルについての前記評価値およびその勾配に基づいて、前記学習データセットの前記データサンプルおよびその特徴量の少なくともいずれかに関するアドバイスを提示するための提示情報を生成する
　情報処理方法。
　コンピュータに、
　予測モデルの学習に用いる学習データセットの所定数のデータサンプルに対して、前記予測モデルの評価に用いる評価データセットの評価値を算出し、
　前記学習データセットの全データサンプルについての前記評価値およびその勾配に基づいて、前記学習データセットの前記データサンプルおよびその特徴量の少なくともいずれかに関するアドバイスを提示するための提示情報を生成する
　処理を実行させるためのプログラム。