WO2020255414A1

WO2020255414A1 - 学習支援装置、学習支援方法、及びコンピュータ読み取り可能な記録媒体

Info

Publication number: WO2020255414A1
Application number: PCT/JP2019/024832
Authority: WO
Inventors: 優太芦田
Original assignee: 日本電気株式会社
Priority date: 2019-06-21
Filing date: 2019-06-21
Publication date: 2020-12-24
Also published as: US20220327394A1; JP7207540B2; JPWO2020255414A1

Abstract

学習支援装置１は、残差に基づいて分類されたサンプルと、予測モデルの学習に用いた特徴量とを用いて、分類されたサンプルを差別化する特徴量のパターンを抽出する、特徴パターン抽出部２と、抽出した特徴量のパターンと残差とを用いて、特徴量のパターンの予測誤差に対する誤差寄与度を算出する、誤差寄与度算出部３とを有する。

Description

学習支援装置、学習支援方法、及びコンピュータ読み取り可能な記録媒体

　本発明は、予測モデルの学習を支援する学習支援装置、学習支援方法に関し、更には、これらを実現するためのプログラムを記録しているコンピュータ読み取り可能な記録媒体に関する。

　予測モデルの評価には一般に、ＲＭＳＥ（Root Mean Squared Error）、ＭＡＥ（Mean Absolute Error）など、すべての学習サンプル（以降サンプルと呼ぶ）の残差（予測値と実績値の差）を平均化した精度指標が用いられる。これらの精度指標を算出することで、他の分析結果との相対的な良・不良を評価することができる。

　ところが、学習された予測モデルが所望の精度を満たさなかった場合、算出した精度指標には、予測モデルが精度を満たさない原因を推察するために用いる情報が含まれていない。したがって、予測分析従事者は、予測モデルにどのような学習をさせれば予測精度が改善されるのかを考察することが困難である。

　関連する技術として非特許文献１には、学習された予測モデルの精度を改善するため、予測精度が良好なサンプル群とそうでないサンプル群とに差別化する特徴量を提示する技術が開示されている。

　非特許文献１に開示されている技術によれば、まず、サンプルごとの残差に基づいてサンプルを分類し、残差の大きいサンプルクラスタと残差の小さいサンプルクラスタとに分類する。そして、各サンプルクラスタで、予測で用いた特徴量の分布を推定する。

　また、非特許文献１に開示されている技術によれば、二つのサンプルクラスタ間で推定された各特徴量の分布のカルバック・ライブラーダイバージェンスを算出し、カルバック・ライブラーダイバージェンスの大きい順に特徴量の分布を可視化する。そうすることで、例えば、残差の大きいサンプル群と残差の小さいサンプル群とを差別化する特徴量を、予測分析従事者が把握できるようにしている。

　このように、非特許文献１が開示されている技術によれば、予測が困難なサンプル群と予測が容易なサンプル群とを差別化する特徴量を、予測分析従事者に提示できる。

Zhang, Jiawei, et al. "Manifold: A Model-Agnostic Framework for Interpretation and Diagnosis of Machine Learning Models." IEEE transactions on visualization and computer graphics 25.1 (2019): 364-373.

　しかしながら、非特許文献１に開示の技術は、予測が困難なサンプル群と予測が容易なサンプル群とを差別化する単一の特徴量を、予測分析従事者に提示できるだけである。そのため、非特許文献１に開示の技術では、単一の特徴量だけに基づいて、予測が困難なサンプル群と予測が容易なサンプル群との差別化が可能な場合には対応できるが、複数の特徴量の組み合わせに基づいて、差別化が可能な場合には対応できない。

　また、非特許文献１に開示の技術は、差別化をする特徴量の把握が可能ではあるが、その特徴量が、真に予測誤差に寄与しているかどうかを表す情報は提示されない。

　さらに、非特許文献１に開示の技術は、精度改善をするための対応策を表す情報が提示されないため、分析従事者が対策を検討しなければならない。

　本発明の目的の一例は、予測モデルの予測精度を向上させるために用いる情報を生成する、学習支援装置、学習支援方法、及びコンピュータ読み取り可能な記録媒体を提供することにある。

　上記目的を達成するため、本発明の一側面における学習支援装置は、
　残差に基づいて分類されたサンプルと、予測モデルの学習に用いた特徴量とを用いて、前記分類されたサンプルを差別化する特徴量のパターンを抽出する、特徴パターン抽出手段と、
　抽出した前記特徴量のパターンと前記残差とを用いて、前記特徴量のパターンの予測誤差に対する誤差寄与度を算出する、誤差寄与度算出手段と、
　を有することを特徴とする。

　また、上記目的を達成するため、本発明の一側面における学習支援方法は、
（ａ）残差に基づいて分類されたサンプルと、予測モデルの学習に用いた特徴量とを用いて、前記分類されたサンプルを差別化する特徴量のパターンを抽出し、
（ｂ）抽出した前記特徴量のパターンと前記残差とを用いて、前記特徴量のパターンの予測誤差に対する誤差寄与度を算出する
　ことを特徴とする。

　更に、上記目的を達成するため、本発明の一側面におけるプログラムを記録したコンピュータ読み取り可能な記録媒体は、
　コンピュータに、
（ａ）残差に基づいて分類されたサンプルと、予測モデルの学習に用いた特徴量とを用いて、前記分類されたサンプルを差別化する特徴量のパターンを抽出する、ステップと、
（ｂ）抽出した前記特徴量のパターンと前記残差とを用いて、前記特徴量のパターンの予測誤差に対する誤差寄与度を算出する、ステップと、
　を実行させる命令を含むプログラムを記録していることを特徴とする。

　以上のように本発明によれば、予測モデルの予測精度を向上させるために用いる情報を生成できる。

図１は、学習支援装置の一例を示す図である。図２は、学習支援装置を有するシステムの一例を示す図である。図３は、誤差の大きいサンプルと小さいサンプルを判別する決定木モデルの一例を示す図である。図４は、第一の実施の形態における学習支援装置の動作の一例を示す図である。図５は、第二の実施の形態における学習支援装置を有するシステムの一例を示す図である。図６は、第二の実施の形態における学習支援装置の動作の一例を示す図である。図７は、第三の実施の形態における学習支援装置を有するシステムの一例を示す図である。図８は、第三の実施の形態における学習支援装置の動作の一例を示す図である。図９は、第一、第二、第三の実施の形態における学習支援装置を実現するコンピュータの一例を示す図である。

（第一の実施の形態）
　以下、本発明の第一の実施の形態について、図１から図３を参照しながら説明する。

［装置構成］
　最初に、図１を用いて、第一の実施の形態における学習支援装置１の構成について説明する。図１は、学習支援装置の一例を示す図である。

　図１に示す学習支援装置１は、予測モデルの予測精度を向上させために用いる情報を生成する装置である。また、図１に示すように、学習支援装置１は、特徴パターン抽出部２と、誤差寄与度算出部３とを有する。

　このうち、特徴パターン抽出部２は、残差に基づいて分類されたサンプルと、予測モデルの学習に用いた特徴量とを用いて、分類されたサンプルを差別化する特徴量のパターンを抽出する。誤差寄与度算出部３は、抽出した特徴量のパターンと残差とを用いて、特徴量のパターンの予測誤差に対する誤差寄与度を算出する。

　このように、本実施の形態においては、特徴量のパターン、特徴量のパターンの誤差寄与度などを表す情報を生成できるので、出力装置を通じて、予測モデルの予測精度を向上させるために用いる情報を、管理者、開発者、分析従事者などの利用者に提供できる。したがって、利用者は、予測モデルの予測精度が改善される作業を容易に行うことができる。

［システム構成］
　続いて、図２を用いて、第一の実施の形態における学習支援装置１Ａを有するシステムの構成を説明する。図２は、第一の実施の形態における学習支援装置を有するシステムの一例を示す図である。

　システムについて説明する。
　図２に示すように、第一の実施の形態におけるシステムは、予測モデル管理システム１０Ａと、入力装置２０と、出力装置３０と、分析データ記憶部４０とを有する。

　予測モデル管理システム１０Ａは、学習フェーズにおいて、複数のサンプルを入力し、予測モデルを生成する。予測モデル管理システム１０Ａは、運用フェーズにおいて、予測分析に用いる設定、特徴量又は目的変数などを予測モデルに入力し、予測分析をする。

　また、予測モデル管理システム１０Ａは、予測モデルの学習後に、予測モデルの予測精度を評価する。また、予測モデル管理システム１０Ａは、予測モデルの学習後に、サンプルごとに残差を算出する。

　さらに、予測モデル管理システム１０Ａは、予測モデルの学習後に、予測モデルの予測精度を向上させるために用いる利用者の作業を支援するための支援情報を生成する。

　なお、予測モデル管理システム１０Ａは、例えば、サーバコンピュータなどの情報処理装置である。また、予測モデル管理システム１０Ａの詳細については後述する。

　入力装置２０は、予測モデル管理システム１０Ａに対して、予測分析設定を入力する。予測分析設定とは、例えば、予測分析に用いるパラメータ、モデルを設定するために用いる情報である。

　また、入力装置２０は、学習支援装置１Ａに対して、サンプル分類設定を入力する。サンプル分類設定は、例えば、サンプルを分類するために用いるパラメータ、分類方法などを設定するための情報である。なお、入力装置２０は、例えば、パーソナルコンピュータなどの情報処理装置である。

　出力装置３０は、出力情報生成部１２により、出力可能な形式に変換された、出力情報を取得し、取得した出力情報に基づいて、生成した画像及び音声などを出力する。出力情報生成部１２については後述する。

　出力装置３０は、例えば、液晶、有機ＥＬ（Electro Luminescence）、ＣＲＴ（Cathode Ray Tube）を用いた画像表示装置などである。更に、画像表示装置は、スピーカなどの音声出力装置などを備えていてもよい。なお、出力装置３０は、プリンタなどの印刷装置でもよい。

　分析データ記憶部４０は、予測モデル管理装置１１及び学習支援装置１Ａで用いる分析データ（サンプルごとの特徴量（説明変数）と予測対象データ（目的変数））を記憶する。分析データ記憶部４０は、例えば、データベースなどの記憶装置である。なお、図２の例では、分析データ記憶部４０は、予測モデル管理システム１０Ａの外部に設けられているが、予測モデル管理システム１０Ａの内部に設けてもよい。

　予測モデル管理システムについて説明する。
　予測モデル管理システム１０Ａは、予測モデル管理装置１１と、出力情報生成部１２と、残差記憶部１３と、学習支援装置１Ａとを有する。

　予測モデル管理装置１１は、運用フェーズにおいて、入力装置２０から、予測分析設定情報を取得する。また、予測モデル管理装置１１は、運用フェーズにおいて、分析データ記憶部４０から、予測分析に用いる目的変数、特徴量などの情報を取得する。その後、予測モデル管理装置１１は、取得した情報を用いて予測分析を実行し、予測分析結果を不図示の記憶部に記憶する。

　なお、予測モデル管理装置１１が実行する予測モデルの学習、評価、残差の処理については後述する。

　出力情報生成部１２は、出力装置３０に出力するための情報、すなわち利用者に提示するための情報を変換して、出力装置３０に出力可能な出力情報を生成する。利用者に提示するための情報は、例えば、モデル学習部１０１が学習した予測モデルの評価結果、サンプル分類部４が算出した分類結果、特徴パターン抽出部２が抽出した特徴量のパターン、誤差寄与度算出部３が算出した誤差寄与度などの情報である。

　残差記憶部１３は、残差算出部１０３が算出した予測モデルの残差を記憶する。残差記憶部１３は、例えば、データベースなどの記憶装置である。なお、図２において、残差記憶部１３は、予測モデル管理装置１１の外部に設けられているが、予測モデル管理装置１１の内部に設けてもよい。

　学習支援装置１Ａは、予測モデルの予測精度を向上させために利用者が用いる情報を生成する。学習支援装置１Ａは、予測モデル管理システム１０Ａに設けてもよいし、予測モデル管理システム１０Ａの外部に設けてもよい。学習支援装置１Ａについては後述する。

　予測モデル管理装置について説明をする。
　予測モデル管理装置１１は、モデル学習部１０１と、モデル評価部１０２と、残差算出部１０３とを有する。

　モデル学習部１０１は、学習フェーズにおいて、入力装置２０から、予測モデルに学習を実行させる学習実行指示、予測モデルの学習に用いる学習設定、分析データ記憶部４０から学習に用いるサンプルなどの情報とを取得する。学習設定は、例えば、ベースモデル、学習アルゴリズムの指定、学習プロセスのハイパーパラメータなどの情報である。

　続いて、モデル学習部１０１は、取得したそれらの情報を用いて、予測モデルの学習を実行し、予測モデルを生成する。なお、モデル学習部１０１は、生成した予測モデルを、予測モデル管理装置１１の内部に設けられた記憶部、又は予測モデル管理装置１１の外部に設けられた不図示の記憶部に記憶する。

　モデル評価部１０２は、モデル学習部１０１が学習した予測モデルの誤差などの性能評価をする。具体的には、モデル評価部１０２は、予測モデルの学習後に、予測モデルの評価値、すなわちＲＭＳＥなどの誤差評価、学習アルゴリズムの学習終了判定に用いられる値（例えば、尤度など）を算出する。

　残差算出部１０３は、モデル学習部１０１が学習した予測モデルのサンプルごとの残差を算出する。具体的には、残差算出部１０３は、予測モデルの学習後において、学習した予測モデルを用いて、予測を実行した際の残差、すなわちサンプルごとの予測値と実績値の差（＝実績値－予測値）を算出する。

　なお、上述した予測モデルの評価と残差の算出とは、訓練事例集合とテスト事例集合ごとに行う。また、予測モデルの学習に用いる学習アルゴリズム、ベースモデルは、例えば、ランダムフォレスト、ＧＢＤＴ（Gradient Boosting Decision Tree）、Deep Neural Networkなどを用いてもよい。

　学習支援装置について説明をする。
　学習支援装置１Ａは、特徴パターン抽出部２、誤差寄与度算出部３に加えて、サンプル分類部４を有する。

　サンプル分類部４は、サンプル分類設定と残差を表す情報とを用いて、サンプルを残差に基づいて分類する。具体的には、サンプル分類部４は、まず、入力装置２０からサンプル分類設定と、残差記憶部１３に記憶されているサンプルごとの残差とを取得する。

　続いて、サンプル分類部４は、サンプル分類設定が有するパラメータを用いて、サンプルを分割する。パラメータは、例えば、予測が成功しているサンプル群と予測が失敗しているサンプル群を分類するために用いる閾値である。閾値は、例えば、実験、シミュレーションなどを用いて求める。

　また、サンプル分類部４は、Kmeans法などのクラスタリング手法を用いて分類してもよい。その場合、パラメータはクラスタ数とする。

　特徴パターン抽出部２は、サンプル群を差別化するための特徴量のパターンを抽出する。具体的には、特徴パターン抽出部２は、まず、サンプル分類部４が分類した分類結果と、分析データ記憶部４０が記憶する予測モデルの学習に用いた特徴量とを取得する。

　続いて、特徴パターン抽出部２は、分類結果である残差の大きいサンプル群と、予測モデルの学習に用いた特徴量とを用いて、サンプル群を差別化する特徴量のパターンを抽出する。

　決定木を適用した特徴量のパターン抽出方法について説明する。
　例えば、予測誤差が大きいサンプルを正例とし、予測誤差が小さいサンプルを負例とし、予測モデルの学習に用いた特徴量を説明変数とし、正例と負例を判別する決定木を学習する。

　図３は、誤差の大きいサンプルと小さいサンプルを判別する決定木モデルの一例を示す図である。図３の例では、学習された決定木は、葉ノード（図３の正例、負例）を除く各ノードに、正例と負例を判別するために用いる特徴量の条件が関連付けられている。

　図３には、根ノードにおいて降水量が１０［ｍｍ／ｈ］以下の場合（Ｙｅｓ）には右の子ノードに、それ以外の場合（Ｎｏ）には左の子ノードに移行するような判別ルールが示されている。すなわち、根ノードには判別ルールにより分類されたサンプルが正例か負例であるかが関連付けられる。

　また、図３の決定木を葉ノードから根ノードに向かって逆にたどることによって、どのようなルールで正例と負例が判別可能かが抽出できる。図３において最も右にある葉ノードから得られるルールは、「予測対象が祝日であり、降水量が１０［ｍｍ／ｈ］以下」となる。このように、上述したルールを、各クラスタを説明するために用いる特徴量のパターンとして抽出する。

　なお、図３の例では、誤差の大きいサンプルと小さいサンプルの二つのクラスタを判別する例を示したが、二つ以上のクラスタであってもよい。また、クラスタは誤差の大きさに基づいて作成されていてもよい。さらに、訓練事例、テスト事例それぞれから得られたクラスタを同時に判別してもよい。

　次に、頻出アイテムセット集合を用いた特徴パターン抽出方法について説明する。
　例えば、aprioriアルゴリズムなどを用いてもよい。この方法では、第一ステップとして、誤差の大きいサンプルのクラスタと誤差の小さいサンプルのクラスタそれぞれにおける頻出アイテムセットをaprioriアルゴリズムを用いて抽出する。

　第一ステップでは、まず、予測分析に用いた特徴量のうち、連続値をとるものをビニング処理によって離散化する。ビニング処理は、連続変数の離散化に用いられる処理である。例えば、ある特徴量が０～９９の値をとるとき、値域を１０分割し、０～９、１０～１９、・・・９０～９９の幅に分割する。

　続いて、あるサンプルについてその特徴量が５の値を持っていた場合、その特徴量は「０～９」というラベルに変換される。なお、このラベルは、「０～９」をそのまま用いてもよいし、分割された値域の順序に０、１、２・・・又はＡ、Ｂ、Ｃ・・・など各値域であることが一意に識別可能な任意のラベルを用いてよい。この処理によって連続値を持つ特徴量はすべて離散値を持つ特徴量に変換される。

　次に、第二ステップとして、aprioriアルゴリズムを用いて誤差の大きいサンプルのクラスタ、誤差の小さいサンプルのクラスタのそれぞれから、頻出アイテムセットを抽出する。頻出アイテムセットとは、各サンプルが持つトランザクションで、離散化された特徴量の中で多数のサンプルが持つアイテムである。ここでは、アイテムとは、特徴量が持つ値を指し、アイテムセットとは、特徴量が持つ値の組み合わせを指す。

　誤差の大きいサンプルのクラスタから抽出された頻出アイテムセットは、誤差の大きいサンプル群の大部分が共通して持つ特徴量の値の組み合わせであり、誤差の大きいサンプル群の特徴量のパターンとして用いることができる。誤差の小さいサンプルのクラスタから抽出された頻出アイテムセットも同様に、誤差の小さいサンプル群の特徴量のパターンとして用いることができる。

　第二ステップでは、まず、aprioriアルゴリズムは、長さが１であるアイテムを探索する。すなわち、クラスタ内の全サンプルの中で、頻度α以上の出現頻度を持つ特徴量の値を抽出し、長さ１の頻出集合Ｆ_１とする。

　続いて、Ｆ_１に一つアイテムを加えた、長さが２、すなわち二つの特徴量の組み合わせで得られるすべてのアイテムを列挙する。この長さ２の各アイテムについて、いずれかの要素を一つ取り除いたアイテムがＦ_１に含まれるかどうかを判定し、含まれていなければ棄却する。

　続いて、残った長さ２のアイテムについて、頻度がα以上であるものを残し、これをＦ_２とする。同様の操作を長さがｋになるまで続ける。このようにすることで、ｋ個の特徴量の組み合わせによる、頻出する特徴量のパターンが抽出できる。また、特徴パターン抽出部２は、各クラスタごとに抽出した特徴量のパターン集合を比較し、各クラスタに固有の特徴量のパターンを抽出する。

　誤差寄与度算出部３は、特徴パターン抽出部２が抽出した特徴量のパターンの誤差寄与度（関連性）を算出する。具体的には、誤差寄与度算出部３は、まず、特徴パターン抽出部２が抽出した特徴量のパターンと、残差算出部１０３が算出した残差とを取得する。続いて、誤差寄与度算出部３は、取得した特徴量のパターンと残差とを用いて、特徴量のパターンの誤差寄与度を算出する。すなわち、各特徴量のパターンの存在が全体の予測誤差にもたらす影響を算出する。

　関連性の算出は、例えば、相関係数などである。各サンプルについて、ある特徴量のパターンＰが存在しているかどうかを関連付ける。例えば、１であれば発生、０であれば非発生のような関連付けをする。

　この特徴量のパターンの発生の有無と、サンプルごとの残差に基づいて、ケンドールの順位相関係数や、スピアマンの順位相関係数を算出することで、特徴量のパターンの発生の有無による、誤差の変化具合を算出する。

　また、関連性の算出には、任意の予測モデルの学習アルゴリズムを用いてもよい。サンプルごとの各特徴量のパターンの有無を特徴量とし、サンプルごとの残差を目的変数として予測モデルを学習する。

　この予測モデルに基づき、残差の予測をした場合において特徴パターンの寄与度を抽出することによって、誤差寄与度が算出できる。例えば、線形回帰を用いて残差を予測した場合、回帰係数を誤差寄与度と見做すことが可能である。

［装置動作］
　次に、第一の実施の形態における学習支援装置の動作について図４を用いて説明する。図４は、第一の実施の形態における学習支援装置の動作の一例を示す図である。以下の説明においては、適宜図２から図３を参照する。また、第一の実施の形態では、学習支援装置を動作させることによって、学習支援方法が実施される。よって、第一実施の形態における学習支援方法の説明は、以下の学習支援装置の動作説明に代える。

　図３に示すように、最初に、サンプル分類部４は、サンプル分類設定と残差を表す情報とを用いて、サンプルを残差に基づいて分類する（ステップＡ１）。具体的には、ステップＡ１において、サンプル分類部４は、まず、入力装置２０からサンプル分類設定と、残差記憶部１３に記憶されているサンプルごとの残差とを取得する。

　続いて、ステップＡ１において、サンプル分類部４は、サンプル分類設定が有するパラメータを用いて、サンプルを分割する。パラメータは、例えば、予測が成功しているサンプル群と予測が失敗しているサンプル群を分類するために用いる閾値である。閾値は、例えば、実験、シミュレーションなどを用いて求める。

　次に、特徴パターン抽出部２は、サンプル群を差別化するための特徴量のパターンを抽出する（ステップＡ２）。具体的には、ステップＡ２において、特徴パターン抽出部２は、まず、サンプル分類部４が分類した分類結果と、分析データ記憶部４０が記憶する予測モデルの学習に用いた特徴量とを取得する。

　続いて、ステップＡ２において、特徴パターン抽出部２は、分類結果である残差の大きいサンプル群と、予測モデルの学習に用いた特徴量とを用いて、サンプル群を差別化する特徴量のパターンを抽出する。

　次に、誤差寄与度算出部３は、特徴パターン抽出部２が抽出した特徴量のパターンの誤差寄与度（関連性）を算出する（ステップＡ３）。具体的には、ステップＡ３において、誤差寄与度算出部３は、まず、特徴パターン抽出部２が抽出した特徴量のパターンと、残差算出部１０３が算出した残差とを取得する。

　続いて、ステップＡ３において、誤差寄与度算出部３は、取得した特徴量のパターンと残差とを用いて、特徴量のパターンの誤差寄与度を算出する。すなわち、各特徴量のパターンの存在が全体の予測誤差にもたらす影響を算出する。

　次に、出力情報生成部１２は、出力装置３０に出力するための情報、すなわち利用者に提示するための情報を変換して、出力装置３０に出力可能な出力情報を生成する（ステップＡ４）。次に、出力情報生成部１２は、生成した出力情報を出力装置３０に出力する（ステップＡ５）。

　利用者に提示するための情報は、例えば、モデル学習部１０１が学習した予測モデルの評価結果、サンプル分類部４が算出した分類結果、特徴パターン抽出部２が抽出した特徴量のパターン、誤差寄与度算出部３が算出した誤差寄与度などの情報である。

［第一の実施の形態の効果］
　以上のように第一の実施の形態によれば、特徴量のパターン、特徴量のパターンの誤差寄与度などの情報を生成できるので、入力装置２０を通じて、予測モデルの予測精度を向上させるために用いる情報を、利用者に提供できる。したがって、利用者は、予測モデルの予測精度が改善される作業を容易に行うことができる。

［プログラム］
　第一の実施の形態におけるプログラムは、コンピュータに、図４に示すステップＡ１からＡ５を実行させるプログラムであればよい。このプログラムをコンピュータにインストールし、実行することによって、第一の形態における学習支援装置と学習支援方法とを実現することができる。この場合、コンピュータのプロセッサは、サンプル分類部４、特徴パターン抽出部２、誤差寄与度算出部３、出力情報生成部１２として機能し、処理を行なう。

　また、第一の実施の形態におけるプログラムは、複数のコンピュータによって構築されたコンピュータシステムによって実行されてもよい。この場合は、例えば、各コンピュータが、それぞれ、サンプル分類部４、特徴パターン抽出部２、誤差寄与度算出部３、出力情報生成部１２のいずれかとして機能してもよい。

（第二の実施の形態）
　以下、本発明の第二の実施の形態について、図５から図６を参照しながら説明する。

　第二の実施の形態では、特徴量のパターンと、特徴量のパターンの誤差寄与度だけでなく、誤差の原因と、その原因を解決するための対策を推定する。

［システム構成］
　続いて、図５を用いて、第二の実施の形態における学習支援装置１Ｂを有するシステムの構成を説明する。図５は、第二の実施の形態における学習支援装置を有するシステムの一例を示す図である。

　システムについて説明する。
　図５に示すように、第二の実施の形態におけるシステムは、予測モデル管理システム１０Ｂ、入力装置２０、出力装置３０、分析データ記憶部４０を有する。予測モデル管理システム１０Ｂは、予測モデル管理装置１１、出力情報生成部１２、残差記憶部１３、学習支援装置１Ｂを有する。予測モデル管理装置１１は、モデル学習部１０１、モデル評価部１０２、残差算出部１０３を有する。

　なお、上述した入力装置２０、出力装置３０、分析データ記憶部４０、予測モデル管理装置１１、出力情報生成部１２、残差記憶部１３については、第一の実施の形態において説明をしたので説明を省略する。

　学習支援装置について説明をする。
　学習支援装置１Ｂは、特徴パターン抽出部２、誤差寄与度算出部３、サンプル分類部４に加え、原因推定部５１と、原因推定ルール記憶部５２と、対策推定部５３と、対策推定ルール記憶部５４とを有する。

　なお、上述した特徴パターン抽出部２、誤差寄与度算出部３、サンプル分類部４については、第一の実施の形態において説明をしたので説明を省略する。

　原因推定部５１は、原因推定ルールと特徴量のパターンとを用いて、誤差原因を推定する。具体的には、原因推定部５１は、まず、原因推定ルール記憶部５２に記憶されている原因推定ルールと、特徴パターン抽出部２が算出した特徴量のパターンを取得する。

　続いて、原因推定部５１は、特徴量のパターンを、原因推定ルールに適用して、誤差原因を推定する。原因推定ルールは、特徴量のパターンを用いて誤差原因を推定するルールである。誤差原因は、例えば、共変量シフト、クラスバランス変化、インバランスラベルなどである。

　共変量シフトは、一つ以上の特徴量について、学習に用いるデータと、テストデータ及び運用中の新規データの集合とで、特徴量の確率分布が異なるケースをいう。共変量シフトが発生している場合、二つのデータセットで特徴量の平均値、取り得る範囲が変化する。これにより、学習に用いるデータを用いて学習した予測モデルでは未知の領域に入力データが変化するため、予測精度が低下する。

　クラスバランス変化は、共変量シフトとは異なり、目的変数の分布が変化することを示す。クラスバランス変化においても、学習済み予測モデルでは対応できない領域に環境が変化するため、予測精度が低下する。

　インバランスラベルは、学習データ、テストデータに共通して目的変数がとる領域のサンプル数が著しく異なることをいう。例えば、二値判別のタスクの場合、正例が全サンプルの１［％］であり、負例が９９［％］であるような状況である。実例としては、画像を用いて疾病認識、クレジットカードの不正利用の検出などがあげられる。このような場合、多数を占めるフレイの予測精度が学習過程で支配的となり、正例の予測精度が軽視され、全体の予測精度を下げてしまう。

　原因推定ルール記憶部５２は、誤差原因を推定するために用いる原因推定ルールを記憶する。原因推定ルール記憶部５２は、例えば、データベースなどの記憶装置である。なお、図５において、原因推定ルール記憶部５２は、学習支援装置１Ｂの内部に設けられているが、学習支援装置１Ｂの外部に設けてもよい。

　具体的には、原因推定ルール記憶部５２には、原因推定ルールを、あらかじめ利用者が記憶してもよいし、運用中に利用者が記憶してもよい。

　原因推定ルールは、訓練集合とテスト集合での特徴量のパターンの比較などが考えられる。例えば、サンプル分類部４と特徴パターン抽出部２とが、訓練集合の誤差が大きいクラスタ、訓練集合の誤差が小さいクラスタ、テスト集合の誤差が大きいクラスタ、テスト集合の誤差が小さいクラスタを対象とした場合、特徴パターン抽出部２は、クラスタごとに固有の特徴量のパターンを抽出する。

　テスト集合の誤差が大きいクラスタの固有の特徴量のパターンは、誤差が大きいクラスタのサンプルだけが有する特徴量の値を示し、訓練データはこの特徴量の値を有するサンプルを含まないと判定できる。このようにすることで、共変量シフトに基づく誤差が特定できる。なお、原因推定ルールは、分析タスクにおいて蓄積された様々な知見を用いてもよい。

　対策推定部５３は、対策推定ルールと特徴量のパターンとを用いて、対策を推定する。具体的には、対策推定部５３は、まず、対策推定ルール記憶部５４に記憶されている対策推定ルールと、特徴パターン抽出部２が算出した特徴量のパターンとを取得する。

　続いて、対策推定部５３は、特徴量のパターンを、対策推定ルールに適用して、対策を推定する。対策としては、例えば、上述した共変量シフトから生まれる誤差の場合、訓練集合とテスト集合のサンプルを適切に入れ替えて予測モデルを学習しなおすことなどが挙げられる。

　対策推定ルール記憶部５４は、予測誤差の削減に必要な対策を推定するルールを記憶する。対策推定ルール記憶部５４は、例えば、データベースなどの記憶装置である。なお、図５において、対策推定ルール記憶部５４は、学習支援装置１Ｂの内部に設けられているが、学習支援装置１Ｂの外部に設けてもよい。

　具体的には、対策推定ルール記憶部５４には、対策推定ルールを、あらかじめ利用者が記憶してもよいし、運用中に利用者が記憶してもよい。

　対策推定ルールは、例えば、原因推定ルールと同様に、訓練データとテストデータで誤差の大小で固有の特徴パターンを比較することにより、サンプルを入れ替えるという対応策ルールが考えられる。なお、対策推定ルールは、利用者のその他の知見を用いることができる。

　出力情報生成部１２は、出力装置３０に出力するための情報、すなわち利用者に提示するための情報を変換して、出力装置３０に出力可能な出力情報を生成する。利用者に提示するための情報は、例えば、モデル学習部１０１が学習した予測モデルの評価結果、サンプル分類部４が算出した分類結果、特徴パターン抽出部２が抽出した特徴量のパターン、誤差寄与度算出部３が算出した誤差寄与度に加え、誤差原因、対策などの情報である。

［装置動作］
　次に、第二の実施の形態における学習支援装置の動作について図６を用いて説明する。図６は、第二の実施の形態における学習支援装置の動作の一例を示す図である。以下の説明においては、適宜図５を参照する。また、第二の実施の形態では、学習支援装置を動作させることによって、学習支援方法が実施される。よって、第二の実施の形態における学習支援方法の説明は、以下の学習支援装置の動作説明に代える。

　図６に示すように、最初に、ステップＡ１からＡ３の処理を実行する。ステップＡ１からＡ３の処理については、第一の実施の形態において説明したので、ステップＡ１からＡ３の処理について説明を省略する。

　次に、原因推定部５１は、原因推定ルールと特徴量のパターンとを用いて、誤差原因を推定する（ステップＢ１）。具体的には、ステップＢ１において、原因推定部５１は、まず、原因推定ルール記憶部５２に記憶されている原因推定ルールと、特徴パターン抽出部２が算出した特徴量のパターンを取得する。

　続いて、ステップＢ１において、原因推定部５１は、特徴量のパターンを、原因推定ルールに適用して、誤差原因を推定する。原因推定ルールは、特徴量のパターンを用いて誤差原因を推定するルールである。誤差原因は、例えば、共変量シフト、クラスバランス変化、インバランスラベルなどである。

　次に、対策推定部５３は、対策推定ルールと特徴量のパターンとを用いて、対策を推定する（ステップＢ２）。具体的には、ステップＢ２において、対策推定部５３は、まず、対策推定ルール記憶部５４に記憶されている対策推定ルールと、特徴パターン抽出部２が算出した特徴量のパターンとを取得する。

　続いて、ステップＢ２において、対策推定部５３は、特徴量のパターンを、対策推定ルールに適用して、対策を推定する。対策としては、例えば、上述した共変量シフトから生まれる誤差の場合、訓練集合とテスト集合のサンプルを適切に入れ替えて予測モデルを学習しなおすことなどが挙げられる。なお、ステップＢ１とＢ２の順番は逆でもよい。

　次に、出力情報生成部１２は、出力装置３０に出力するための情報、すなわち利用者に提示するための情報を変換して、出力装置３０に出力可能な出力情報を生成する（ステップＢ３）。次に、出力情報生成部１２は、生成した出力情報を出力装置３０に出力する（ステップＢ４）。

　利用者に提示するための情報は、例えば、モデル学習部１０１が学習した予測モデルの評価結果、サンプル分類部４が算出した分類結果、特徴パターン抽出部２が抽出した特徴量のパターン、誤差寄与度算出部３が算出した誤差寄与度、誤差原因、対策などの情報である。

［第二の実施の形態の効果］
　以上のように第二の実施の形態によれば、特徴量のパターン、特徴量のパターンの誤差寄与度などの情報を生成できるので、出力装置３０を通じて、予測モデルの予測精度を向上させるために用いる情報を利用者に提供できる。したがって、利用者は、予測モデルの予測精度が改善される作業を容易に行うことができる。

　さらに、第二の実施の形態によれば、誤差原因と、その誤差原因を解決するための対策を推定できるので、特徴量のパターンと、特徴量のパターンの誤差寄与度だけでなく、誤差原因、対策などの情報を生成できる。そのため、更に、出力装置３０を通じて、予測モデルの予測精度を向上させるために用いる情報を、利用者に提供できる。したがって、利用者は、予測モデルの予測精度が改善される作業を、更に、容易に行うことができる。

［プログラム］
　第二の実施の形態におけるプログラムは、コンピュータに、図６に示すステップＡ１からＡ５、ステップＢ１からＢ４を実行させるプログラムであればよい。このプログラムをコンピュータにインストールし、実行することによって、第二の形態における学習支援装置と学習支援方法とを実現することができる。この場合、コンピュータのプロセッサは、サンプル分類部４、特徴パターン抽出部２、誤差寄与度算出部３、原因推定部５１、対策推定部５３、出力情報生成部１２として機能し、処理を行なう。

　また、第二の実施の形態におけるプログラムは、複数のコンピュータによって構築されたコンピュータシステムによって実行されてもよい。この場合は、例えば、各コンピュータが、それぞれ、サンプル分類部４、特徴パターン抽出部２、誤差寄与度算出部３、原因推定部５１、対策推定部５３、出力情報生成部１２のいずれかとして機能してもよい。

（第三の実施の形態）
　以下、本発明の第三の実施の形態について、図７から図８を参照しながら説明する。

　第三の実施の形態では、誤差原因と、有効と考えられる対策と、特徴量のパターンとを蓄積し、蓄積した誤差原因と対策と特徴量のパターンとを用いて、誤差原因推定ルールと対策推定ルールとを生成する。
［システム構成］
　続いて、図７を用いて、第三の実施の形態における学習支援装置１Ｃを有するシステムの構成を説明する。図７は、第三の実施の形態における学習支援装置を有するシステムの一例を示す図である。

　システムについて説明する。
　図７に示すように、第三の実施の形態におけるシステムは、予測モデル管理システム１０Ｃ、入力装置２０、出力装置３０、分析データ記憶部４０を有する。予測モデル管理システム１０Ｃは、予測モデル管理装置１１、出力情報生成部１２、残差記憶部１３、学習支援装置１Ｃを有する。予測モデル管理装置１１は、モデル学習部１０１、モデル評価部１０２、残差算出部１０３を有する。

　学習支援装置について説明をする。
　学習支援装置１Ｃは、特徴パターン抽出部２、誤差寄与度算出部３、サンプル分類部４、原因推定部５１、原因推定ルール記憶部５２、対策推定部５３、対策推定ルール記憶部５４に加え、フィードバック部７０と、原因記憶部７１と、対策記憶部７２と、原因推定ルール学習部７３と、対策推定ルール学習部７４と、を有する。

　なお、上述した特徴パターン抽出部２、誤差寄与度算出部３、サンプル分類部４については、第一の実施の形態において説明をしたので説明を省略する。また、原因推定部５１、原因推定ルール記憶部５２、対策推定部５３、対策推定ルール記憶部５４については、第二の実施の形態において説明をしたので説明を省略する。

　フィードバック部７０は、学習支援装置１Ｃにより推定された誤差原因、対策、特徴量パターンなどを、記憶部に記憶する。具体的には、フィードバック部７０は、原因推定部５１が推定した誤差原因の取得と、対策推定部５３が推定した対策の取得と、特徴パターン抽出部２が抽出した特徴量のパターンを取得する。

　続いて、フィードバック部７０は、原因記憶部７１に対して、誤差原因と、それに対応する特徴量のパターンとを関連付けて記憶する。また、フィードバック部７０は、対策記憶部７２に対して、誤差の改善のための対策と、それに対応する特徴量のパターンとを関連付けて記憶する。

　なお、フィードバック部７０は、入力装置２０から、誤差原因、対策、特徴量パターンを取得し、記憶部に記憶してもよい。

　原因記憶部７１は、フィードバックとして、例えば、誤差原因と、それに対応する特徴量のパターンとを関連付けて記憶する。

　また、原因記憶部７１は、例えば、データベースなどの記憶装置である。なお、図７において、原因記憶部７１は、学習支援装置１Ｃの内部に設けられているが、学習支援装置１Ｃの外部に設けてもよい。

　対策記憶部７２は、フィードバックとして、例えば、誤差の改善のための対策と、それに対応する特徴量のパターンとを関連付けて記憶する。なお、対策記憶部７２には、更に、対策の有効度（予測の改善度）を、対策とその特徴量のパターンとに関連付けて記憶してもよい。

　有効度は、モデル評価部１０２が算出した予測モデルの評価値、残差算出部１０３が算出したサンプルごとの残差、特徴パターン抽出部２が抽出した特徴量のパターンなどを用いて、採用した対策の有効度を算出する。有効度は、例えば、対策を行う前と後で、予測モデルの評価値を比較し、その差分を有効度として用いる。

　対策記憶部７２は、例えば、データベースなどの記憶装置である。なお、図７において、対策記憶部７２は、学習支援装置１Ｃの内部に設けられているが、学習支援装置１Ｃの外部に設けてもよい。

　原因推定ルール学習部７３は、学習フェーズにおいて、誤差原因と、誤差原因に対応する特徴量のパターンとを用いて、誤差原因推定ルール（モデル）を学習する。具体的には、原因推定ルール学習部７３は、まず、原因記憶部７１から、誤差原因と、誤差原因に対応する特徴量のパターンとを取得する。

　続いて、原因推定ルール学習部７３は、取得した誤差原因と、特徴量のパターンとを用いて、誤差原因推定ルールを生成し、生成した誤差原因推定ルールを原因推定ルール記憶部５２に記憶する。

　誤差原因推定ルールの学習は、記憶済みの特徴量のパターンと、誤差原因とを用いて、特徴量のパターンを説明変数とし、誤差原因を目的変数とする予測モデルを学習することによって可能である。特徴量のパターンは、例えば、特徴量の値の組み合わせとして記憶される。

　この場合、特徴量のパターンは、すべての可能な特徴量の値を列、各特徴パターンを行とし、それぞれの特徴量パターンが含む特徴量値を１、含まない特徴量値を０とする行列として表現できる。この行列を説明変数、各特徴量パターンに関連付けられる誤差原因を要素に持つ列ベクトルを目的変数とする。

　そして、これらのデータから予測モデルを、例えば、多変量回帰やＧＢＤＴによる回帰などの学習手法で学習することによって、誤差原因推定ルールの学習が可能である。

　また、誤差原因推定ルールの学習方法に、ベイズ的回帰などの確率分布推定手法を用いることで、ある特徴量パターンが与えられた場合、各誤差原因の確信度を得ることができる。

　対策推定ルール学習部７４は、学習フェーズにおいて、対策と、対策の特徴量に対応するパターンと、誤差原因に対応する有効度とを用いて、対策推定ルール（モデル）を学習する。具体的には、対策推定ルール学習部７４は、まず、対策記憶部７２から、対策と、対策に対応する特徴量のパターンと、対策に対応する有効度とを取得する。

　続いて、対策推定ルール学習部７４は、取得した対策と、特徴量のパターンと、有効度とを用いて、対策推定ルールを生成し、生成した対策推定ルールを対策推定ルール記憶部５４に記憶する。

　対策推定ルールの学習は、特徴量のパターンを説明変数とし、対策を目的変数とする予測モデルを学習することによって得られる。特徴量のパターンは、誤差原因推定ルールの学習時と同様の行列として表現可能である。対策の表現方法としては、例えば、可能な対策に一意な識別子を割り当てたカテゴリ変数として表現できる。

　この目的変数の場合、複数カテゴリの予測タスクとなるため、例えば決定木判別やＧＢＤＴによる判別などの方法で対策推定ルールの学習が可能である。

　なお、対策推定ルールの学習においては、有効度を学習時のサンプルの重みとして用いてもよい。予測モデルの学習では一般に、サンプルごとに、過去の実績値と、学習途中のモデルによる予測値との差異を評価し、その和を損失関数として定義する。

　実績値と予測値の差異は、例えば、二乗誤差や対数尤度関数が用いられる。この損失関数を最小化することで最適なモデルパラメータが決定され、予測モデルが得られるが、損失関数をサンプルごとの差異の和から、有効度を重みとする重み付き和とすることで有効度が高い対策を採用した事例を重視した学習が可能となり、有効度が高い対策を予測するモデルが得られる。

　これにより、新たな特徴量のパターン、残差の傾向などに応じて、誤差原因推定ルールと対策推定ルールとを学習・更新することができる。なお、誤差原因推定ルールと対策推定ルールは、同時に一つの予測モデルとして学習してもよい。

［装置動作］
　第三の実施の形態における学習支援装置の動作について図８を用いて説明する。図８は、第三の実施の形態における学習支援装置の動作の一例を示す図である。以下の説明においては、適宜図７を参照する。また、第三の実施の形態では、学習支援装置を動作させることによって、学習支援方法が実施される。よって、第三の実施の形態における学習支援方法の説明は、以下の学習支援装置の動作説明に代える。

　図８に示すように、最初に、利用者は、入力装置２０を介して、予測モデル管理装置１１と学習支援装置１Ｃとに、再学習の指示をする（ステップＣ１）。

　次に、フィードバック部７０は、原因記憶部７１に、誤差原因に関連するフィードバックを記憶する（ステップＣ２）。具体的には、ステップＣ２において、原因記憶部７１には、フィードバックとして、例えば、誤差原因と、それに対応する特徴量のパターンと、誤差原因の有効度とを関連付けて記憶される。

　また、フィードバック部７０は、対策記憶部７２に、対策に関連するフィードバックを記憶する（ステップＣ３）。具体的には、ステップＣ３において、対策記憶部７２には、フィードバックとして、例えば、誤差の改善のための対策と、それに対応する特徴量のパターンと、対策の有効度とを関連付けて記憶する。

　なお、ステップＣ２、Ｃ３を処理する順番は逆でもよい。又は、ステップＣ２、Ｃ３の処理を並行して実行してもよい。

　次に、原因推定ルール学習部７３は、学習フェーズにおいて、誤差原因と、誤差原因に対応する特徴量のパターンと、誤差原因に対応する有効度とを用いて、誤差原因推定ルール（モデル）を学習する（ステップＣ４）。具体的には、ステップＣ４において、原因推定ルール学習部７３は、まず、原因記憶部７１から、誤差原因と、誤差原因に対応する特徴量のパターンと、誤差原因に対応する有効度とを取得する。

　続いて、ステップＣ４において、原因推定ルール学習部７３は、取得した誤差原因と、特徴量のパターンと、有効度とを用いて、誤差原因推定ルールを生成し、生成した誤差原因推定ルールを原因推定ルール記憶部５２に記憶する。

　また、対策推定ルール学習部７４は、学習フェーズにおいて、対策と、対策の特徴量に対応するパターンと、誤差原因に対応する有効度とを用いて、対策推定ルール（モデル）を学習する（ステップＣ５）。具体的には、ステップＣ５において、対策推定ルール学習部７４は、まず、対策記憶部７２から、対策と、対策に対応する特徴量のパターンと、対策に対応する有効度とを取得する。

　続いて、ステップＣ５において、対策推定ルール学習部７４は、取得した対策と、特徴量のパターンと、有効度とを用いて、対策推定ルールを生成し、生成した対策推定ルールを対策推定ルール記憶部５４に記憶する。

　なお、ステップＣ４、Ｃ５を処理する順番は逆でもよい。又は、ステップＣ４、Ｃ５の処理を並行して実行してもよい。

　その後、第三の実施の形態において生成した誤差原因推定ルールと対策推定ルールとを用いて、図６に示したステップＡ１からＡ３、ステップＢ１からＢ４の処理を実行する。

［第三の実施の形態の効果］
　以上のように第三の実施の形態によれば、特徴量のパターン、特徴量のパターンの誤差寄与度などの情報を生成できるので、出力装置３０を通じて、予測モデルの予測精度を向上させるために用いる情報を利用者に提供できる。したがって、利用者は、予測モデルの予測精度が改善される作業を容易に行うことができる。

　また、第三の実施の形態によれば、誤差原因と、その誤差原因を解決するための対策を推定できるので、特徴量のパターンと、特徴量のパターンの誤差寄与度だけでなく、誤差原因、対策などの情報を生成できる。そのため、更に、出力装置３０を通じて、予測モデルの予測精度を向上させるために用いる情報を、利用者に提供できる。したがって、利用者は、予測モデルの予測精度が改善される作業を、更に、容易に行うことができる。

　さらに、第三の実施の形態によれば、誤差原因推定ルール又は対策推定ルール又はそれら両方を自動で生成できるので、利用者は、予測モデルの予測精度が改善される作業を、更に、容易に行うことができる。

［プログラム］
　第三の実施の形態におけるプログラムは、コンピュータに、図８に示すステップＣ１からＣ５を実行させるプログラムであればよい。このプログラムをコンピュータにインストールし、実行することによって、第三の実施の形態における学習支援装置と学習支援方法とを実現することができる。この場合、コンピュータのプロセッサは、サンプル分類部４、特徴パターン抽出部２、誤差寄与度算出部３、原因推定部５１、対策推定部５３、出力情報生成部１２、フィードバック部７０、原因記憶部７１、対策記憶部７２、原因推定ルール学習部７３、対策推定ルール学習部７４として機能し、処理を行なう。

　また、本実施の形態におけるプログラムは、複数のコンピュータによって構築されたコンピュータシステムによって実行されてもよい。この場合は、例えば、各コンピュータが、それぞれ、サンプル分類部４、特徴パターン抽出部２、誤差寄与度算出部３、原因推定部５１、対策推定部５３、出力情報生成部１２、フィードバック部７０、原因記憶部７１、対策記憶部７２、原因推定ルール学習部７３、対策推定ルール学習部７４のいずれかとして機能してもよい。

［物理構成］
　ここで、第一、第二、第三の実施の形態におけるプログラムを実行することによって、学習支援装置を実現するコンピュータについて図９を用いて説明する。図９は、第一、第二、第三の実施の形態における学習支援装置を実現するコンピュータの一例を示すブロック図である。

　図９に示すように、コンピュータ１１０は、ＣＰＵ（Central Processing Unit）１１１と、メインメモリ１１２と、記憶装置１１３と、入力インターフェイス１１４と、表示コントローラ１１５と、データリーダ／ライタ１１６と、通信インターフェイス１１７とを備える。これらの各部は、バス１２１を介して、互いにデータ通信可能に接続される。なお、コンピュータ１１０は、ＣＰＵ１１１に加えて、又はＣＰＵ１１１に代えて、ＧＰＵ（Graphics Processing Unit）、又はＦＰＧＡ（Field-Programmable Gate Array）を備えていてもよい。

　ＣＰＵ１１１は、記憶装置１１３に格納された、本実施の形態におけるプログラム（コード）をメインメモリ１１２に展開し、これらを所定順序で実行することにより、各種の演算を実施する。メインメモリ１１２は、典型的には、ＤＲＡＭ（Dynamic Random Access Memory）などの揮発性の記憶装置である。また、本実施の形態におけるプログラムは、コンピュータ読み取り可能な記録媒体１２０に格納された状態で提供される。なお、本実施の形態におけるプログラムは、通信インターフェイス１１７を介して接続されたインターネット上で流通するものであってもよい。

　また、記憶装置１１３の具体例としては、ハードディスクドライブの他、フラッシュメモリなどの半導体記憶装置があげられる。入力インターフェイス１１４は、ＣＰＵ１１１と、キーボード及びマウスといった入力機器１１８との間のデータ伝送を仲介する。表示コントローラ１１５は、ディスプレイ装置１１９と接続され、ディスプレイ装置１１９での表示を制御する。

　データリーダ／ライタ１１６は、ＣＰＵ１１１と記録媒体１２０との間のデータ伝送を仲介し、記録媒体１２０からのプログラムの読み出し、及びコンピュータ１１０における処理結果の記録媒体１２０への書き込みを実行する。通信インターフェイス１１７は、ＣＰＵ１１１と、他のコンピュータとの間のデータ伝送を仲介する。

　また、記録媒体１２０の具体例としては、ＣＦ（Compact Flash（登録商標））及びＳＤ（Secure Digital）などの汎用的な半導体記憶デバイス、フレキシブルディスク（Flexible Disk）等の磁気記録媒体、又はＣＤ－ＲＯＭ（Compact Disk Read Only Memory）などの光学記録媒体があげられる。

　なお、本実施の形態における学習支援装置は、プログラムがインストールされたコンピュータではなく、各部に対応したハードウェアを用いることによっても実現可能である。更に、学習支援装置は、一部がプログラムで実現され、残りの部分がハードウェアで実現されていてもよい。

［付記］
　以上の実施の形態に関し、更に以下の付記を開示する。上述した実施の形態の一部又は全部は、以下に記載する（付記１）から（付記１８）により表現することができるが、以下の記載に限定されるものではない。

（付記１）
　残差に基づいて分類されたサンプルと、予測モデルの学習に用いた特徴量とを用いて、前記分類されたサンプルを差別化する特徴量のパターンを抽出する、特徴パターン抽出部と、
　抽出した前記特徴量のパターンと前記残差とを用いて、前記特徴量のパターンの予測誤差に対する誤差寄与度を算出する、誤差寄与度算出部と、
　を有することを特徴とする学習支援装置。

（付記２）
　付記１に記載の学習支援装置であって、
　前記特徴量のパターンから、誤差原因を推定する誤差原因推定ルールを用いて、前記誤差原因を推定する、原因推定部
　を有することを特徴とする学習支援装置。

（付記３）
　付記２に記載の学習支援装置であって、
　前記誤差原因と前記特徴量のパターンとを用いて学習をし、前記誤差原因推定ルールを生成する、原因推定ルール学習部
　を有することを特徴とする学習支援装置。

（付記４）
　付記１又は２に記載の学習支援装置であって、
　前記特徴量のパターンから、誤差原因を解消するための対策を推定する対策推定ルールを用いて、前記対策を推定する、対策推定部
　を有することを特徴とする学習支援装置。

（付記５）
　付記４に記載の学習支援装置であって、
　前記対策と前記特徴量のパターンとを用いて学習をし、前記対策推定ルールを生成する、対策推定ルール学習部
　を有することを特徴とする学習支援装置。

（付記６）
　付記１に記載の学習支援装置であって、
　前記特徴量のパターンと前記誤差寄与度とを用いて、出力装置に出力するための出力情報を生成し、前記出力装置に出力する
　ことを特徴とする学習支援装置。

（付記７）
（ａ）残差に基づいて分類されたサンプルと、予測モデルの学習に用いた特徴量とを用いて、前記分類されたサンプルを差別化する特徴量のパターンを抽出する、ステップと
（ｂ）抽出した前記特徴量のパターンと前記残差とを用いて、前記特徴量のパターンの予測誤差に対する誤差寄与度を算出する、ステップと、
　を有することを特徴とする学習支援方法。

（付記８）
　付記７に記載の学習支援方法であって、
（ｃ）前記特徴量のパターンから、誤差原因を推定する原因推定ルールを用いて、前記誤差原因を推定する、ステップ
　を有することを特徴とする学習支援方法。

（付記９）
　付記８に記載の学習支援方法であって、
（ｄ）前記誤差原因と前記特徴量のパターンとを用いて学習をし、前記誤差原因推定ルールを生成する、ステップ
　を有することを特徴とする学習支援方法。

（付記１０）
　付記７又は８に記載の学習支援方法であって、
（ｅ）前記特徴量のパターンから、誤差原因を解消するための対策を推定する対策推定ルールを用いて、前記対策を推定する、ステップ
　を有することを特徴とする学習支援方法。

（付記１１）
　付記１０に記載の学習支援方法であって、
（ｆ）前記対策と前記特徴量のパターンとを用いて学習をし、前記対策推定ルールを生成する、ステップ
　を有することを特徴とする学習支援方法。

（付記１２）
　付記７に記載の学習支援方法であって、
　前記特徴量のパターンと前記誤差寄与度とを用いて、出力装置に出力するための出力情報を生成し、前記出力装置に出力する、ステップ
　を有することを特徴とする学習支援方法。

（付記１３）
　コンピュータに、
（ａ）残差に基づいて分類されたサンプルと、予測モデルの学習に用いた特徴量とを用いて、前記分類されたサンプルを差別化する特徴量のパターンを抽出する、ステップと、
（ｂ）抽出した前記特徴量のパターンと前記残差とを用いて、前記特徴量のパターンの予測誤差に対する誤差寄与度を算出する、ステップと、
　を実行させる命令を含む、プログラムを記録しているコンピュータ読み取り可能な記録媒体。

（付記１４）
　付記１３に記載のコンピュータ読み取り可能な記録媒体であって、
　前記プログラムが、前記コンピュータに、
（ｃ）前記特徴量のパターンから、誤差原因を推定する誤差原因推定ルールを用いて、前記誤差原因を推定する、ステップ
　を実行させる命令を更に含む、プログラムを記録しているコンピュータ読み取り可能な記録媒体。

（付記１５）
　付記１４に記載のコンピュータ読み取り可能な記録媒体であって、
　前記プログラムが、前記コンピュータに、
（ｄ）前記誤差原因と前記特徴量のパターンとを用いて学習をし、前記誤差原因推定ルールを生成する、ステップ
　を実行させる命令を更に含む、プログラムを記録しているコンピュータ読み取り可能な記録媒体。

（付記１６）
　付記１３又は１４に記載のコンピュータ読み取り可能な記録媒体であって、
　前記プログラムが、前記コンピュータに、
（ｅ）前記特徴量のパターンから、誤差原因を解消するための対策を推定する対策推定ルールを用いて、前記対策を推定する、ステップ
　を実行させる命令を更に含む、プログラムを記録しているコンピュータ読み取り可能な記録媒体。

（付記１７）
　付記１６に記載のコンピュータ読み取り可能な記録媒体であって、
　前記プログラムが、前記コンピュータに、
（ｆ）前記対策と前記特徴量のパターンとを用いて学習をし、前記対策推定ルールを生成する、ステップ
　を実行させる命令を更に含む、プログラムを記録しているコンピュータ読み取り可能な記録媒体。

（付記１８）
　付記１３に記載のコンピュータ読み取り可能な記録媒体であって、
　前記プログラムが、前記コンピュータに、
　前記特徴量のパターンと前記誤差寄与度とを用いて、出力装置に出力するための出力情報を生成し、前記出力装置に出力する、ステップ
　を実行させる命令を更に含む、プログラムを記録しているコンピュータ読み取り可能な記録媒体。

　以上、実施の形態を参照して本願発明を説明したが、本願発明は上記実施の形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

　以上のように本発明によれば、予測モデルの予測精度を向上させるために用いる情報を生成し、生成した情報を利用者に提示することができる。本発明は、予測モデルの予測精度の向上が必要な分野において有用である。

１、１Ａ、１Ｂ、１Ｃ　学習支援装置
　　２　特徴パターン抽出部
　　３　誤差寄与度算出部
　　４　サンプル分類部

　１０Ａ、１０Ｂ、１０Ｃ　予測モデル管理システム
　２０　入力装置
　３０　出力装置
　４０　分析データ記憶部

　１１　予測モデル管理装置
　　１０１　モデル学習部
　　１０２　モデル評価部
　　１０３　残差算出部
　１２　出力情報生成部
　１３　残差記憶部

　５１　原因推定部
　５２　原因推定ルール記憶部
　５３　対策推定部
　５４　対策推定ルール記憶部

　７０　フィードバック部
　７１　原因記憶部
　７２　対策記憶部
　７３　原因推定ルール学習部
　７４　対策推定ルール学習部

１１０　コンピュータ
１１１　ＣＰＵ
１１２　メインメモリ
１１３　記憶装置
１１４　入力インターフェイス
１１５　表示コントローラ
１１６　データリーダ／ライタ
１１７　通信インターフェイス
１１８　入力機器
１１９　ディスプレイ装置
１２０　記録媒体
１２１　バス

Claims

　残差に基づいて分類されたサンプルと、予測モデルの学習に用いた特徴量とを用いて、前記分類されたサンプルを差別化する特徴量のパターンを抽出する、特徴パターン抽出手段と、
　抽出した前記特徴量のパターンと前記残差とを用いて、前記特徴量のパターンの予測誤差に対する誤差寄与度を算出する、誤差寄与度算出手段と、
　を有することを特徴とする学習支援装置。
　請求項１に記載の学習支援装置であって、
　前記特徴量のパターンから、誤差原因を推定する誤差原因推定ルールを用いて、前記誤差原因を推定する、原因推定手段
　を有することを特徴とする学習支援装置。
　請求項２に記載の学習支援装置であって、
　前記誤差原因と前記特徴量のパターンとを用いて学習をし、前記誤差原因推定ルールを生成する、原因推定ルール学習手段
　を有することを特徴とする学習支援装置。
　請求項１又は２に記載の学習支援装置であって、
　前記特徴量のパターンから、誤差原因を解消するための対策を推定する対策推定ルールを用いて、前記対策を推定する、対策推定手段
　を有することを特徴とする学習支援装置。
　請求項４に記載の学習支援装置であって、
　前記対策と前記特徴量のパターンとを用いて学習をし、前記対策推定ルールを生成する、対策推定ルール学習手段
　を有することを特徴とする学習支援装置。
　請求項１に記載の学習支援装置であって、
　前記特徴量のパターンと前記誤差寄与度とを用いて、出力装置に出力するための出力情報を生成し、前記出力装置に出力する
　ことを特徴とする学習支援装置。
（ａ）残差に基づいて分類されたサンプルと、予測モデルの学習に用いた特徴量とを用いて、前記分類されたサンプルを差別化する特徴量のパターンを抽出し、
（ｂ）抽出した前記特徴量のパターンと前記残差とを用いて、前記特徴量のパターンの予測誤差に対する誤差寄与度を算出する
　ことを特徴とする学習支援方法。
　請求項７に記載の学習支援方法であって、
（ｃ）前記特徴量のパターンから、誤差原因を推定する誤差原因推定ルールを用いて、前記誤差原因を推定する
　ことを特徴とする学習支援方法。
　請求項８に記載の学習支援方法であって、
（ｄ）前記誤差原因と前記特徴量のパターンとを用いて学習をし、前記誤差原因推定ルールを生成する
　ことを特徴とする学習支援方法。
　請求項７又は８に記載の学習支援方法であって、
（ｅ）前記特徴量のパターンから、誤差原因を解消するための対策を推定する対策推定ルールを用いて、前記対策を推定する
　ことを特徴とする学習支援方法。
　請求項１０に記載の学習支援方法であって、
（ｆ）前記対策と前記特徴量のパターンとを用いて学習をし、前記対策推定ルールを生成する
　ことを特徴とする学習支援方法。
　請求項７に記載の学習支援方法であって、
　前記特徴量のパターンと前記誤差寄与度とを用いて、出力装置に出力するための出力情報を生成し、前記出力装置に出力する
　ことを特徴とする学習支援方法。
　コンピュータに、
（ａ）残差に基づいて分類されたサンプルと、予測モデルの学習に用いた特徴量とを用いて、前記分類されたサンプルを差別化する特徴量のパターンを抽出する、ステップと、
（ｂ）抽出した前記特徴量のパターンと前記残差とを用いて、前記特徴量のパターンの予測誤差に対する誤差寄与度を算出する、ステップと、
　を実行させる命令を含む、プログラムを記録しているコンピュータ読み取り可能な記録媒体。
　請求項１３に記載のコンピュータ読み取り可能な記録媒体であって、
　前記プログラムが、前記コンピュータに、
（ｃ）前記特徴量のパターンから、誤差原因を推定する誤差原因推定ルールを用いて、前記誤差原因を推定する、ステップ
　を実行させる命令を更に含む、プログラムを記録しているコンピュータ読み取り可能な記録媒体。
　請求項１４に記載のコンピュータ読み取り可能な記録媒体であって、
　前記プログラムが、前記コンピュータに、
（ｄ）前記誤差原因と前記特徴量のパターンとを用いて学習をし、前記誤差原因推定ルールを生成する、ステップ
　を実行させる命令を更に含む、プログラムを記録しているコンピュータ読み取り可能な記録媒体。
　請求項１３又は１４に記載のコンピュータ読み取り可能な記録媒体であって、
　前記プログラムが、前記コンピュータに、
（ｅ）前記特徴量のパターンから、誤差原因を解消するための対策を推定する対策推定ルールを用いて、前記対策を推定する、ステップ
　を実行させる命令を更に含む、プログラムを記録しているコンピュータ読み取り可能な記録媒体。
　請求項１６に記載のコンピュータ読み取り可能な記録媒体であって、
　前記プログラムが、前記コンピュータに、
（ｆ）前記対策と前記特徴量のパターンとを用いて学習をし、前記対策推定ルールを生成する、ステップ
　を実行させる命令を更に含む、プログラムを記録しているコンピュータ読み取り可能な記録媒体。
　請求項１３に記載のコンピュータ読み取り可能な記録媒体であって、
　前記プログラムが、前記コンピュータに、
　前記特徴量のパターンと前記誤差寄与度とを用いて、出力装置に出力するための出力情報を生成し、前記出力装置に出力する、ステップ
　を実行させる命令を更に含む、プログラムを記録しているコンピュータ読み取り可能な記録媒体。