WO2022124065A1

WO2022124065A1 - 予測器作成装置、および予測器作成方法

Info

Publication number: WO2022124065A1
Application number: PCT/JP2021/042858
Authority: WO
Inventors: 真生濱本; 正史恵木; 正和高橋; 博之難波
Original assignee: 株式会社日立製作所
Priority date: 2020-12-09
Filing date: 2021-11-22
Publication date: 2022-06-16
Also published as: US20230410488A1; JP7504783B2; JP2022091283A

Abstract

プログラムを実行するプロセッサと、プログラムを記憶する記憶デバイスと、を有する予測器作成装置は、訓練データと正解データとの組み合わせである訓練データセットに基づく複数の予測器を結合した校正対象アンサンブル予測器を取得し、複数の予測器の各々について訓練データの特徴量に関する予測根拠特性を算出し、算出された特徴量に関する予測根拠特性を出力した結果、特徴量に関する予測根拠特性に基づく特徴量に関する期待予測根拠特性を取得し、特徴量に関する予測根拠特性と、特徴量に関する期待予測根拠特性と、に基づいて、複数の予測器の各々の結合係数を決定し、結合係数に基づいて校正対象アンサンブル予測器を校正する。

Description

予測器作成装置、および予測器作成方法

参照による取り込み

　本出願は、令和２年（２０２０年）１２月９日に出願された日本出願である特願２０２０－２０４０２８の優先権を主張し、その内容を参照することにより、本出願に取り込む。

　本発明は、予測器を作成する予測器作成装置、および予測器作成方法に関する。

　近年、深層ニューラルネット、勾配ブースティングなどの機械学習手法により作成した予測器（予測モデルまたはＡＩ（Ａｒｔｉｆｉｃｉａｌ　Ｉｎｔｅｌｌｉｇｅｎｃｅ）とも呼ばれる）が社会の様々な業務に適用される動向がある。特に社会的影響が大きい業務にこれら技術を適用するには、予測器の高い予測精度に加え、予測根拠の妥当性（または納得性とも呼ばれる）が重要である。

　画像データから皮膚がんの良性と悪性を判定する予測器を例に挙げる。この予測器にテストデータを与えた場合の精度は非常に高かったとする。その予測に最も影響を与えている要素が腫瘍のそばに絆創膏が映っているか否かであることを分かった時、その予測器を信頼して実応用に適用することは困難である。このように、予測根拠の妥当性は、訓練データやテストデータの範囲を超えた現実世界においても、その予測器の予測結果を信頼できるか否かを判断するための極めて重要な要素である。

　予測根拠の妥当性を評価する手法としては、予測器への各入力値（特徴量とも称する）が予測結果へ与えた影響の度合い（以下、説明スコアと称する）を可視化する手法が一般的である。説明スコアにはシャープレイ値などがある。

　通常、予測器の予測精度を評価し、精度が所望の性能を達成していることを確認した後に予測根拠が評価される。ここで、予測根拠が所望の特性になっていないとき、予測根拠特性を改善（または校正）する手段が必要になる。

　予測根拠を校正する技術として、下記非特許文献１がある。非特許文献１は、ニューラルネットについて、モデル学習時の目的関数に予測根拠に対する正規化項（ペナルティ項とも称する）を設定することで、予測根拠（または説明スコア）の特性を考慮したニューラルネットの係数パラメータを決定する技術を開示する。

Ｍｏｒｉｔｚ　Ｈａｒｄｔ　ｈｏｋａ，「ＩＮＴＥＲＰＲＥＴＡＴＩＯＮＳ　ＡＲＥ　ＵＳＥＦＵＬ　ＰＥＮＡＬＩＺＩＮＧ　ＥＸＰＬＡＮＡＴＩＯＮＳ　ＴＯ　ＡＬＩＧＮ　ＮＥＵＲＡＬ　ＮＥＴＷＯＲＫＳ　ＷＩＴＨ　ＰＲＩＯＲ　ＫＮＯＷＬＥＤＧＥ」，３７ｔｈ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｍａｃｈｉｎｅ　Ｌｅａｒｎｉｎｇ　（ＩＣＭＬ２０２０），２０２０年７月.

　非特許文献１の技術は、モデル学習時の目的関数に正規化項を加えるため、ニューラルネットなど微分可能な機械学習モデルにしか適用できない。また、同様の理由により、非特許文献１の技術は、微分可能な説明スコアしか適用できないため、シャープレイ値など主要な説明スコアへは適用できない。説明スコアには様々な種類があり、どれを用いるかは予測器の開発者ではなく予測器の購入者が決める事項であるため、使用できる説明スコアに制限があることは実用上大きな課題となる。このように、従来の予測根拠を校正する技術にはその汎用性に課題がある。

　本発明は、予測器の予測根拠特性の改善を図ることを目的とする。

　本願において開示される発明の一側面となる予測器作成装置は、プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有する予測器作成装置であって、前記プロセッサは、訓練データと正解データとの組み合わせである訓練データセットに基づく複数の予測器を結合した校正対象アンサンブル予測器を取得する第１取得処理と、前記複数の予測器の各々について前記訓練データの特徴量に関する予測根拠特性を算出する算出処理と、前記算出処理によって算出された前記特徴量に関する予測根拠特性を出力した結果、前記特徴量に関する予測根拠特性に基づく前記特徴量に関する期待予測根拠特性を取得する第２取得処理と、前記特徴量に関する予測根拠特性と、前記第２取得処理によって取得された前記特徴量に関する期待予測根拠特性と、に基づいて、前記複数の予測器の各々の結合係数を決定する決定処理と、前記決定処理によって決定された結合係数に基づいて前記校正対象アンサンブル予測器を校正する校正処理と、を実行することを特徴とする。

　本発明の代表的な実施の形態によれば、予測器の予測根拠特性の改善を図ることができる。前述した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。

図１は、実施例１にかかる予測器作成装置のハードウェア構成例を示すブロック図である。図２は、図１に示した予測器作成装置の機能的構成例を示すブロック図である。図３は、実施例１にかかる管理情報の一例を示す説明図である。図４は、実施例１にかかる校正パラメータ情報テーブルの一例を示す説明図である。図５は、実施例１にかかる設定画面例を示す説明図である。図６は、実施例１にかかる予測器作成装置による予測器作成処理手順例を示すフローチャートである。図７は、実施例１にかかる分析結果情報の提示画面例を示す説明図である。図８は、実施例１にかかる定量期待特性設定画面の一例を示す説明図である。図９は、実施例１にかかる定性期待特性設定画面の一例を示す説明図である。図１０は、実施例１にかかるデータ期待特性設定画面の一例を示す説明図である。図１１は、実施例２にかかる分析結果情報の提示画面例を示す説明図である。図１２は、実施例２にかかる定量期待特性設定画面の一例を示す説明図である。図１３は、実施例２にかかる定性期待特性設定画面の一例を示す説明図である。

　以下、実施例１にかかる予測器作成装置について説明する。同じ予測値でも予測根拠が異なる予測器が沢山存在するという現象がある。これはある事象を予測するにあたり、現実世界の複雑さに対して観測できるデータの量と質が十分でなく、また学習モデルの複雑さも十分でないために、各予測器は事象全体のごく一部の観点しか捉えることができないことに起因する。

　この現象は一般的には次元の呪いなど困った問題として扱われるが、本実施例にかかる予測器作成装置は、この現象を積極的に利用してモデルの予測根拠を改善する。すなわち、予測器作成装置は、２つ以上の予測器群のアンサンブルが所望の予測根拠特性に近づくように、目的関数へ予測根拠に対する正規化項を与え、そのアンサンブルの結合係数を決定する。すなわち、正解値を予測するにあたり、予測器作成装置が、訓練データに内在する異なる観点を捉えた予測器を組み合わせることで、より事象全体を適切に捉えた予測器を作成することを意味する。

　実施例１にかかる予測器作成装置は、目的関数を各特徴量について微分するのではなく、目的関数をアンサンブルの各結合係数について微分する。これにより、予測器作成装置は、説明スコアや機械学習モデルの関数を定数として扱うことができる。そのため、これらは微分可能である必要はない。すなわち、実施例１にかかる予測器作成装置を適用することによって、任意の説明スコアと任意の機械学習モデルについて、予測器の予測根拠を校正することが可能になる。以下、添付図面を用いて詳細に説明する。

　＜予測器作成装置のハードウェア構成例＞
　図１は、実施例１にかかる予測器作成装置のハードウェア構成例を示すブロック図である。予測器作成装置１００は、プロセッサ１０１と、記憶デバイス１０２と、入力デバイス１０３と、出力デバイス１０４と、通信インタフェース（通信ＩＦ）１０５と、を有する。プロセッサ１０１、記憶デバイス１０２、入力デバイス１０３、出力デバイス１０４、および通信ＩＦ１０５は、バス１０６により接続される。プロセッサ１０１は、予測器作成装置１００を制御する。記憶デバイス１０２は、プロセッサ１０１の作業エリアとなる。また、記憶デバイス１０２は、各種プログラムやデータを記憶する非一時的なまたは一時的な記録媒体である。記憶デバイス１０２としては、たとえば、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）、フラッシュメモリがある。入力デバイス１０３は、データを入力する。入力デバイス１０３としては、たとえば、キーボード、マウス、タッチパネル、テンキー、スキャナ、マイクがある。出力デバイス１０４は、データを出力する。出力デバイス１０４としては、たとえば、ディスプレイ、プリンタ、スピーカがある。通信ＩＦ１０５は、ネットワークと接続し、データを送受信する。

　＜予測器作成装置の機能的構成例＞
　図２は、図１に示した予測器作成装置１００の機能的構成例を示すブロック図である。予測器作成装置は、データ取得部２１０と、予測器取得部２２０と、予測器分析部２３０と、データ管理部２４０と、パラメータ抽出部２５０と、予測器校正部２６０と、を有する。これらは、具体的には、たとえば、図１に示した記憶デバイス１０２に記憶されたプログラムを、プロセッサ１０１に実行させることにより実現される。

　データ取得部２１０は、予測器作成装置１００外から入力データ２０１を取得し、予測器作成装置１００内に入力し、予測器作成装置１００内からデータを取得し、予測器作成装置１００の出力デバイス１０４または通信ＩＦ１０５を介して出力データ２０５として出力する。

　データ取得部２１０は、ユーザが与えた入力データ２０１を取り込み、入力データ２０１に基づいて予測器作成装置１００が処理した結果を出力データ２０５として出力する。入力データ２０１には、予測器の生成に関する生成設定情報２１２と予測器の校正に関する校正設定情報２１３とが含まれる。生成設定情報２１２は、予測器取得部２２０に出力される。校正設定情報２１３は、パラメータ抽出部２５０に出力される。出力データ２０５には、予測器の状態に関する情報と分析結果に関する情報が含まれ、これらはデータ管理部２４０から送られる管理情報２４１に基づいて生成される。

　予測器取得部２２０は、データ取得部２１０からの生成設定情報２１２に基づいて、予測器を生成するための機械学習パラメータを決定し、訓練データセット２０２を用いて複数の予測器を生成する。予測器取得部２２０は、複数の予測器を、通信ＩＦ１０５を介して外部から読み込んでもよい。予測器は、たとえば、機械学習パラメータが設定されたニューラルネットワークまたは決定木である。なお、後述するアンサンブル予測器と区別するために、アンサンブルではない予測器を、「単体予測器」と称することがある。

　予測器取得部２２０は、複数の単体予測器を平均化したアンサンブル予測器を生成する。予測器取得部２２０は、アンサンブル予測器を、通信ＩＦ１０５を介して外部から読み込んでもよい。このアンサンブル予測器は、予測器校正部２６０により校正されていないため、基本アンサンブル予測器と称す。基本アンサンブル予測器は、複数の単体予測器の各出力層を結合したアンサンブル予測器であり、各単体予測器の結合係数は同一の値とする。たとえば、複数の単体予測器の数が１００個であれば、各単体予測器の結合係数は、０．０１である。複数の単体予測器および基本アンサンブル予測器をまとめて、予測器群と称す。

　予測器取得部２２０は、予測器群の予測器ごとの機械学習パラメータ（基本アンサンブル予測器についての結合係数も含む）とニューラルネットワーク（または決定木）との組み合わせを、予測器情報２２１として、予測器分析部２３０とデータ管理部２４０に出力する。また、予測器取得部２２０は、訓練データセット２０２をデータ管理部２４０へ格納する。

　予測器分析部２３０は、訓練データセット２０２とテストデータセット２０３を用いて、予測器の予測精度特性と予測根拠特性とを分析する。訓練データセット２０２とは、サンプルごとの、予測器に入力される訓練データ（複数の特徴量で構成される）と、訓練データに対応する正解データと、の組み合わせである。テストデータセット２０３は、サンプルごとの、予測器に入力されるテストデータと、テストデータに対応する正解データと、の組み合わせである。予測器分析部２３０の分析対象となる予測器は、予測器取得部２２０からの予測器情報２２１、または予測器校正部２６０からの校正後予測器情報２６１として取得される。

　予測器の予測精度特性は、たとえば、予測器にテストデータを適用した場合に予測器から出力される予測値と、テストデータに対応する正解データと、を比較して精度スコアである。より具体的には、たとえば、精度スコアは、回帰問題の場合は二乗平均平方根誤差（ＲＭＳＥとも呼ばれる）で、分類問題の場合は正解率である。その他、予測器分析部２３０は、予測器による予測値と正解データとをそれぞれ縦軸と横軸に設定した散布図を作成して、予測精度特性を分析してもよい。

　予測器の予測根拠特性は、たとえば、予測器に訓練データを適用した場合に予測器から出力される予測値に対する各特徴量の説明スコア（寄与度とも呼ばれる）であり、様々な観点でのプロットを作成することにより分析される。

　より具体的には、たとえば、説明スコアは、シャープレイ値である。予測根拠特性を分析するためのプロットには、予測器に、あるサンプルの訓練データを適用した場合に得られる予測値に対して、当該サンプルの各特徴量の説明スコア（寄与度）がどれだけかを棒グラフで表示するプロット（実施例１では説明グラフと称する。図１０を参照）がある。説明グラフは、予測に対するローカル説明と呼ばれる。

　また、その他のプロットとして、予測器に全サンプルの訓練データを適用した場合に得られる予測値群に対して、全サンプルの各特徴量がどのように寄与しているかの傾向を分析するためのＰａｒｔｉａｌ　Ｄｅｐｅｎｄｅｎｃｅ　Ｐｌｏｔ（以下、ＰＤＰ）がある。ＰＤＰは、任意の特徴量を横軸に設定し、その特徴量の説明スコア（寄与度）を縦軸に設定して、訓練データの全サンプルについて設定した特徴量と説明スコアの関係をプロットすることで得られる。ＰＤＰは、予測に対するグローバル説明と呼ばれる。

　予測器分析部２３０は、予測器を分析した分析結果情報２３１を、データ管理部２４０に格納する。また、予測器分析部２３０は、パラメータ抽出部２５０から送られた抽出パラメータ情報２５１に含まれる許容予測誤差と許容説明誤差とを参照し、校正後予測器情報２６１に含まれる校正後予測器の精度スコアと説明スコアとがそれぞれ所望の特性を達成しているか評価する。ここで、精度スコアに関する評価結果は、予測精度特性に関する分析結果の一部として、分析結果情報２３１に含まれる。また、説明スコアに関する評価結果は、予測根拠特性に関する分析結果の一部として、分析結果情報２３１に含まれる。

　データ管理部２４０は、訓練データセット２０２、予測器取得部２２０から予測器情報２２１、予測器分析部２３０から分析結果情報２３１、パラメータ抽出部２５０から抽出パラメータ情報２５１、および予測器校正部２６０から校正後予測器情報２６１を取得し、必要な情報を管理情報２４１としてデータ取得部２１０に出力する。また、データ管理部２４０は、管理対象予測器情報２４２を予測器校正部２６０に出力する。

　パラメータ抽出部２５０は、データ取得部２１０から送られた校正設定情報２１３から予測根拠特性に対する制約情報など予測器校正に関するパラメータを抽出する。抽出されたパラメータは、抽出パラメータ情報２５１として、予測器分析部２３０、データ管理部２４０と予測器校正部２６０に出力される。

　予測器校正部２６０は、パラメータ抽出部２５０からの抽出パラメータ情報２５１と、データ管理部１６０からの管理対象予測器情報２４２と、に基づいて、所望の予測根拠特性に近づくように複数の予測器に対する結合係数を決定し、それらを線形結合した新たな予測器を作成する。

　なお、このような複数の予測器を結合して新たな予測器を作成する手法はアンサンブル法と呼ばれる。予測器校正部２６０は、アンサンブル法によって作成した予測器（アンサンブル予測器と称す）を構成する機械学習パラメータ、ニューラルネットワーク（または決定木）、および結合係数の組み合わせを校正後予測器情報２６１として、予測器分析部２３０とデータ管理部２４０に出力する。また、校正後予測器情報２６１は、校正された予測器として予測器作成装置１００外へも出力可能である。

　＜管理情報＞
　つぎに、データ管理部２４０が管理する管理情報２４１について、図３および図４を用いて説明する。

　図３は、実施例１にかかる管理情報２４１の一例を示す説明図である。管理情報２４１は、データ管理部２４０によって保持される。管理情報２４１は、データ管理部２４０が有する予測器情報２２１と、分析結果情報２３１と、抽出パラメータ情報２５１と、校正後予測器情報２６１と、を関連づける。

　具体的には、たとえば、管理情報２４１は、予測器管理情報３１０と、アンサンブル管理情報３２０と、を有する。予測器管理情報３１０は、予測器情報２２１と分析結果情報２３１とを関連付ける情報である。アンサンブル管理情報３２０は、抽出パラメータ情報２５１と校正後予測器情報２６１とを関連づける情報である。

　予測器管理情報３１０は、フィールドとして、予測器ＩＤ３１１、予測根拠特性ＩＤ３１２、予測精度特性ＩＤ３１３、および結合グループＩＤ３１４を有する。同一行の各フィールドの値の組み合わせが、予測器の特性を規定するエントリとなる。

　予測器ＩＤ３１１は、予測器取得部２２０で取得された単体の予測器（以下、単体予測器とも称する）、または予測器校正部２６０で作成された校正後予測器（すなわち、アンサンブル予測器）を一意に特定する識別情報である。

　実施例１では、単体予測器の予測器ＩＤ３１１の値を「ｐ１」、「ｐ２」、…とし、アンサンブル予測器の予測器ＩＤ３１１の値を「ｅｐ１」、「ｅｐ２」、…とする。以降、アンサンブル予測器の予測器ＩＤ３１１の値に限らず、アンサンブル予測器に関する情報には「ｅ」が先頭に付与されるものとする。

　予測根拠特性ＩＤ３１２は、分析結果情報２３１として入力された各予測器の予測根拠特性に関する分析結果を一意に特定する識別情報である。実施例１では、単体予測器およびアンサンブル予測器の予測根拠特性（たとえば、特徴量ごとの説明スコア）の予測根拠特性ＩＤ３１２をそれぞれ、「ｒ１」、「ｒ２」、…および「ｅｒ１」、「ｅｒ２」、…とする。

　予測精度特性ＩＤ３１３は、分析結果情報２３１として入力された各予測器の予測精度特性に関する分析結果を一意に特定する識別情報である。本実施例では、単体予測器およびアンサンブル予測器の予測精度特性（たとえば、精度スコア）の予測精度特性ＩＤ３１３をそれぞれ、「ａ１」、「ａ２」、…および「ｅａ１」、「ｅａ２」、…とする。

　結合グループＩＤ３１４は、アンサンブル予測器として結合した予測器群である結合グループを一意に特定する識別情報である。結合グループＩＤ３１４は、アンサンブル予測器の予測器ＩＤ３１１に対して割り振られる。

　アンサンブル管理情報３２０は、フィールドとして、結合グループＩＤ３１４、結合予測器数３２１、結合予測器ＩＤ３２２、制約ＩＤ３２３、許容予測誤差３２４、および結合係数３２５を有する。同一行の各フィールドの値の組み合わせが、アンサンブル予測器の特徴を規定するエントリとなる。

　結合予測器数３２１は、アンサンブルによって結合された単体予測器の個数である。結合予測器ＩＤ３２２は、アンサンブルによって結合された単体予測器の予測器ＩＤ３１１の値の一覧である。

　制約ＩＤ３２３は、制約を一意に特定する識別情報である。制約とは、アンサンブル予測器の予測根拠特性が、ユーザが期待する予測根拠特性（期待予測根拠特性とも称する）に近づくように設定された条件である。制約ＩＤ３２３は、校正パラメータ情報テーブル４００（図４で後述）に含まれる。

　許容予測誤差３２４は、アンサンブル予測器が達成すべき精度スコアを示す情報である。回帰問題では二乗平均平方根誤差（ＲＭＳＥ）、分類問題では正解率が精度スコアとして適用される。結合係数３２５は、アンサンブルに用いられた予測器の各々に割り当てられた係数である。

　＜校正パラメータ情報テーブル＞
　図４は、実施例１にかかる校正パラメータ情報テーブルの一例を示す説明図である。校正パラメータ情報テーブル４００は、予測器を校正するための制約情報であり、後述する図８および図９の画面入力により、データ管理部２４０に登録される。校正パラメータ情報テーブル４００は、具体的には、たとえば、定量制約情報テーブル４１０、定性制約情報テーブル４２０、および制約パラメータ情報テーブル４３０により構成される。

　定量制約情報テーブル４１０は、予測器の根拠特性を校正するための定量的な制約情報を有し、たとえば、フィールドとして、定量制約ＩＤ４１１、サンプルＩＤ４１２、期待説明スコア情報４１３を有する。

　定量制約ＩＤ４１１は、定量制約情報４０１、４０２、４０３、…を一意に特定する識別情報である。すなわち、行方向に配列した定量制約ＩＤ４１１の各値「ｃ１」、「ｃ２」、「ｃ３」、…の各列が、定量制約情報４０１、４０２、４０３、…を示す。

　サンプルＩＤ４１２は、訓練データセット２０２の個々のサンプルを一意に特定する識別情報であり、実施例１では、サンプルＩＤ４１２の列に示す「ｓ１」、「ｓ２」、…がサンプルＩＤ４１２の値である。

　期待説明スコア情報４１３は、行方向に配列された訓練データが有する特徴量群（たとえば、サンプルが被験者であれば、特徴量１が身長、特徴量２が体重、特徴量３が血糖値、…）の各特徴量の列方向に配列された、サンプルＩＤ４１２で特定される各サンプルのアンサンブル予測器の予測結果に対する特徴量の望ましい説明スコア（すなわち、期待説明スコア）の列である。期待説明スコア情報４１３の各スコアは、実数値または設定なし（本実施例では“―”と表記）で与えられる。

　たとえば、定量制約ＩＤ４１１の値「ｃ１」で特定される定量制約情報４０１は、「特徴量１」についての各サンプルの期待値スコア列（０．０，７．２，…）を有する情報である。定量制約ＩＤ４１１の値「ｃ２」で特定される定量制約情報４０２は、「特徴量２」についての各サンプルの期待値スコア列（―（設定なし），－２．２，…）を有する情報である。定量制約ＩＤ４１１の値「ｃ３」で特定される定量制約情報４０３は、「特徴量３」についての各サンプルの期待値スコア列（―（設定なし），―（設定なし），…）を有する情報である。

　定量制約情報４０１、４０２、４０３、…は、具体的には、たとえば、後述する図８の定量期待特性設定画面８００において、ユーザ操作により設定される。

　定性制約情報テーブル４２０は、予測器の根拠特性を校正するための定性的な制約情報を有し、たとえば、フィールドとして、定性制約ＩＤ４２１、サンプルＩＤ４１２、期待定性特性情報４２２を有する。定性制約ＩＤ４２１は、定性制約情報４４１～４４４を一意に特定する識別情報である。すなわち、行方向に配列した定性制約ＩＤ４２１の各値「ｄ１」、「ｄ２」、「ｄ３」、「ｄ４」の各列が、定性制約情報４４１～４４４を示す。

　期待定性特性情報４２２は、それぞれ定性制約情報４４１～４４４ごとの期待特性（すなわち期待定性特性）を示す情報であり、具体的には、たとえば、行方向に、期待定性特性情報４２２の値として「最大説明スコア」、「最小説明スコア」、「単調性＋」、および「単調性－」が配列され、「最大説明スコア」、「最小説明スコア」、「単調性＋」、および「単調性－」の列方向に、サンプルごとの期待特性の値となる特徴量が規定されている。

　定性制約情報４４１は、予測根拠特性の「最大説明スコア」に対する定性的な制約を示す期待定性特性である。具体的には、たとえば、定性制約情報４４１は、サンプルＩＤ４１２が「ｓ１」の訓練データについては、「特徴量２」の説明スコアが最大となり、サンプルＩＤ４１２が「ｓ２」の訓練データについては、「特徴量１」の説明スコアが最大となるという定性的な制約である。

　同様に、定性制約情報４４２は、予測根拠特性の「最小説明スコア」に対する定性的な制約を示す期待定性特性である。具体的には、たとえば、定性制約情報４４２は、サンプルＩＤ４１２が「ｓ１」の訓練データについては、「特徴量３」の説明スコアが最小となり、サンプルＩＤ４１２が「ｓ２」の訓練データについては制約を設定しないという定性的な制約である。

　また、定性制約情報４４３は、予測根拠特性の「単調性＋」（正の単調性を意味する）に対する定性的な制約を示す期待定性特性である。具体的には、たとえば、定性制約情報４４３は、サンプルＩＤ４１２が「ｓ１」および「ｓ２」の訓練データについて、「特徴量１」の値が大きいほど説明スコアが大きくなるという定性的な制約である。

　同様に、定性制約情報４４４は、予測根拠特性の「単調性－」（負の単調性を意味する）に対する定性的な制約を示す期待定性特性である。具体的には、たとえば、定性制約情報４４４は、サンプルＩＤ４１２が「ｓ１」の訓練データについて制約を設定せず、サンプルＩＤ４１２が「ｓ２」の訓練データについては、「特徴量４」の値が小さいほど説明スコアが小さくなるという定性的な制約である。

　定性制約情報４４１～４４４は、具体的には、たとえば、後述する図９の定性期待特性設定画面９００において、ユーザ操作により設定される。

　制約パラメータ情報テーブル４３０は、各制約に対する補助パラメータを示す情報を有し、たとえば、フィールドとして、制約ＩＤ３２３、重み４３２、許容説明誤差４３３を有する。

　制約ＩＤ３２３は、定量制約ＩＤ４１１および定性制約ＩＤ４２１を含む。重み４３２は、制約ＩＤ４３１で特定される各制約情報に対する重要度を示す。重み４３２の値が大きいほど、校正後の予測器であるアンサンブル予測器において当該制約情報を満たしやすくなる。

　許容説明誤差４３３は、アンサンブル予測器が達成すべき説明スコアの特性を示す情報である。定量的制約情報では予測器の訓練データに対する説明スコアとその期待説明スコアの二乗平均平方根誤差（ＲＭＳＥ）が指標として適用される。また、定性的制約情報では、訓練データについて予測器の説明スコアの定性的特性がその期待定性特性を満たさなかったサンプル数が指標として適用される。

　重み４３２および許容説明誤差４３３は、具体的には、たとえば、後述する図９の定性期待特性設定画面９００において、ユーザ操作により設定される。

　＜設定画面例＞
　図５は、実施例１にかかる設定画面例を示す説明図である。設定画面５００は、出力デバイス１０４であるディスプレイに表示される。設定画面５００は、ユーザが生成設定情報２１２を設定するための画面である。設定画面５００は、データ設定領域５１０、特徴量設定領域５２０、モデル設定領域５３０、ランダムパラメータ設定領域５４０、出力設定領域５５０、および生成開始ボタン５６０を有する。

　データ設定領域５１０は、予測器を作成するために予測器作成装置１００が使用する訓練データセット２０２またはテストデータセット２０３のいずれかをラジオボタンで指定する領域である。訓練データセット２０２として読み込まれるファイルは、テストデータセット２０３として読み込まれるファイルと同一ファイルでもよく、異なるファイルでもよい。また、同一ファイルである場合、訓練データセット２０２が指定されると、予測器作成装置１００たとえば、ファイル内の８０％のデータを訓練データセット２０２として読み込み、テストデータセット２０３が指定されると当該ファイル内の残余の２０％のデータをテストデータセット２０３として読み込んでもよい。

　特徴量設定領域５２０は、訓練データまたはテストデータとして予測器に入力される特徴量と予測対象となる目的変数（すなわち、正解データ）とをラジオボタンで指定する領域である。たとえば、「全部使用」が指定された場合、データ設定領域５１０で指定したデータセットのうち、訓練データまたはテストデータ内のすべての特徴量が読み込まれる。「一部使用」が指定された場合、データ設定領域５１０で指定したデータセットのうち、訓練データまたはテストデータ内の一部の特徴量が読み込まれる。一部の特徴量は、あらかじめ設定されており、ユーザが任意に変更可能である。

　モデル設定領域５３０は、作成する予測器のベースとなる機械学習モデルのタイプをラジオボタンで選択する領域である。図５では、例として、「Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ」と「ＸＧＢｏｏｓｔ」から１以上のタイプが選択可能である。

　ランダムパラメータ設定領域５４０は、異なる特性の予測器を作成するために摂動を与えるパラメータを設定する領域である。図５では、訓練データセット２０２と機械学習モデルのハイパーパラメータの両方について、摂動を与える例を示している。摂動を与える手法の例として、予測器作成装置１００は、訓練データセット２０２に対しては重複を許したランダムなサンプリングによって、作成対象となる予測器ごとに異なる訓練データセット２０２を作成し、機械学習モデルに適用する。ハイパーパラメータに対しては、予測器作成装置１００は、ハイパーパラメータ探索の初期状態をランダムな値にする。本例では乱数シードとして特定の乱数発生パターンを示す「１」が設定されている。

　出力設定領域５５０は、予測器取得部２２０で取得する予測器の出力パラメータを設定する領域である。図５の例では、１００個の予測器を作成するように設定されている。また、モデル設定領域５３０で複数の機械学習モデルを選択した場合は、機械学習モデルごとに、「作成予測器数」を設定することができる。

　生成開始ボタン５６０が、ユーザにより押下されると、予測器作成装置１００は、データ設定領域５１０、特徴量設定領域５２０、モデル設定領域５３０、ランダムパラメータ設定領域５４０、および出力設定領域５５０で設定された生成設定情報２１２に従って、予測器の生成を開始する。

　＜予測器作成処理手順例＞
　図６は、実施例１にかかる予測器作成装置１００による予測器作成処理手順例を示すフローチャートである。予測器作成装置１００は、図５に示した設定画面５００に設定された生成設定情報２１２を、生成開始ボタン５６０の押下により取得する（ステップＳ６０１）。

　つぎに、予測器作成装置１００は、生成設定情報２１２に基づいて、予測器取得部２２０により複数（出力設定領域５５０の例では、１００個）の予測器を取得する（ステップＳ６０２）。また、ステップＳ６０２において、予測器作成装置１００は、作成された複数（出力設定領域５５０の例では、１００個）の予測器を平均化した基本アンサンブル予測器（予測器ＩＤ３１１の値は「ｅｐ１」、結合グループＩＤ３１４の値は「ｅｇ１」、結合係数３２５はそれぞれ「０．０１」）を、校正対象アンサンブル予測器として取得する。予測器取得部２２０は、取得した複数の単体予測器および基本アンサンブル予測器である予測器群についての予測器情報２２１（基本アンサンブル予測器についての結合係数３２５も含む）を、予測器分析部２３０とデータ管理部２４０とに出力する。

　つぎに、予測器作成装置１００は、予測器分析部２３０により、ステップＳ６０２で作成した予測器群の各予測器について特性分析処理を実行する（ステップＳ６０３）。具体的には、たとえば、予測器分析部２３０は、予測器群の予測器（基本アンサンブル予測器含む）ごとに、テストデータセット２０３に対する二乗平均平方根誤差（ＲＭＳＥ）などの精度スコアと、訓練データセット２０２に対するシャープレイ値などの特徴量ごとの説明スコアとを、分析結果情報２３１として算出する。なお、予測器分析部２３０は、分析結果情報２３１を外部から取得してもよい。

　予測器分析部２３０は、分析結果情報２３１をデータ管理部２４０に格納する。これにより、データ管理部２４０は、予測器ＩＤ３１１ごとに、精度スコアを予測精度特性として予測精度特性ＩＤ３１３に関連付けて、特徴量ごとの説明スコアを予測根拠特性として予測根拠特性ＩＤ３１２に関連付けて、記憶デバイス１０２に格納する。

　つぎに、予測器作成装置１００は、ステップＳ６０３での分析結果情報２３１を、データ取得部２１０を介してユーザへ提示する（ステップＳ６０４）。データ取得部２１０は、データ管理部２４０から予測器管理情報３１０およびアンサンブル管理情報３２０を管理情報２４１として取得し、予測器の予測精度特性と予測根拠特性とを示す提示画面を表示可能に出力する。

　図７は、実施例１にかかる分析結果情報２３１の提示画面例を示す説明図である。提示画面７００は、出力デバイス１０４であるディスプレイに表示される。提示画面７００は、予測器特性提示領域７１０、属性情報選択領域７２０、アンサンブル探索設定領域７３０、期待特性設定領域７４０、期待特性設定ボタン７５０、校正開始ボタン７６０、および終了ボタン７７０を有する。

　予測器特性提示領域７１０は、予測器の特性をユーザへ提示する領域であり、図７では、ＰＤＰ７１１と、予測精度特性として予測器の「予測誤差（ＲＭＳＥ）」と、「結合モデル数」と、を提示する例を示す。図７に示したＰＤＰ７１１は、予測根拠特性として「特徴量１」に対する説明スコアの傾向を可視化したグラフである。どの特徴量についてＰＤＰ７１１を表示するかは、属性情報選択領域７２０で選択可能である。

　属性情報選択領域７２０は、予測器特性提示領域７１０で提示する予測器とその属性情報とを選択可能な領域である。図７では、基本アンサンブル予測器（結合グループＩＤ３１４の値が「ｅｇ１」）と、その特徴量１が選択されている例を示す。属性情報選択領域７２０において、「全体特性」とは、アンサンブル予測器そのものの特性を提示するための選択項目である。

　属性情報選択領域７２０において、「個別特性」とは、アンサンブル予測器に含まれる単体予測器の特性を提示するための選択項目である。「個別特性」に予測器ＩＤ３１１を指定することで所望の単体予測器の特性が提示され、「個別特性」に複数の予測器ＩＤ３１１を指定した場合には指定された単体予測器に対する結合係数を考慮したアンサンブル予測器の特性が提示される。

　図７では、属性情報選択領域７２０において、「結合グループＩＤ」が「ｅｇ１」で、「全体特性」が選択されているため、予測器特性提示領域７１０のＰＤＰ７１１でプロットされている各説明スコアは、基本アンサンブル予測器（ｅｇ１）を構成する１００個の予測器（ｐ１，ｐ２，…，ｐ１００）の予測根拠特性ＩＤ３１２（ｒ１，ｒ２，…，ｒ１００）で特定される予測根拠特性の値（説明スコア）である。

　アンサンブル探索設定領域７３０は、より良いアンサンブル予測器を探索するためのパラメータを設定する領域である。アンサンブル探索設定領域７３０において、「最大探索回数」は、予測器校正部２６０で作成されるアンサンブル予測器が所望の特性を満たさなかったときに、予測器取得部２２０での予測器の追加作成を最大何回繰り返すかを設定するパラメータである。図７ではＮ回（Ｎは１以上の整数）に設定されている。

　予測器を追加作成する度に単体予測器の個数が増加する。すべての予測器を用いることは可能であるが、アンサンブルに用いる予測器の数を制限したいケースがある。アンサンブル探索設定領域７３０の「予測器選択」は、そのようなケースでの予測器のサンプリング方法を選択する設定項目である。図７では、「予測器選択」として「ランダム」が選択されているが、「単体予測器の精度が高い順」、または「すべての予測器の使用」など、様々なサンプリング方法が設定可能である。

　アンサンブル探索設定領域７３０において、「結合予測器数」は、「予測器選択」で設定したサンプリング方法で取り出す予測器の個数を設定する項目である。「予測器選択」で「すべての予測器の使用」を選択した場合には入力する必要はない。図７ではＭ個（Ｍは１以上の整数）に設定されている。

　アンサンブル探索設定領域７３０において、「許容予測誤差」は、アンサンブル予測器が達成すべき精度スコアであり、精度スコアの下限値または目標値とも表現できる。ここで入力した「許容予測誤差」の値は、のちに許容予測誤差３２４としてデータ管理部２４０で管理される。実施例１では、「許容予測誤差」を「閾値１」と表現して設定する例を示している。

　期待特性設定領域７４０は、予測器校正部２６０で作成（または校正）する予測器に期待予測根拠特性を設定する領域である。期待特性設定領域７４０では、定量的な期待特性（定量特性）と定性的な期待特性（定性特性）とのいずれかを選択可能である。

　期待特性設定ボタン７５０は、期待特性を設定するためのボタンである。期待特性設定ボタン７５０が押下されると、図１０に示すデータ期待特性設定画面が表示される。校正開始ボタン７６０は、提示画面７００で設定した内容で校正を開始するボタンである。終了ボタン７７０は、予測器作成処理を終了して、予測器群についての予測器情報２２１（または機械学習パラメータ）を出力するためのボタンである。

　図６に戻り、予測器作成装置１００は、データ取得部２１０により、ステップＳ６０４で提示画面７００をユーザに提示した結果、予測根拠特性（説明スコア）が適切であるか否かの提示画面７００への入力を待ち受ける（ステップＳ６１０）。データ取得部２１０が予測根拠特性（説明スコア）は適切であるという入力を提示画面７００から取得した場合（ステップＳ６１０：Ｙｅｓ）、たとえば、終了ボタン７７０が押下された場合、予測器作成装置１００は、予測器群についての予測器情報２２１（または機械学習パラメータ）を出力して、一連の処理を終了する。

　一方、データ取得部２１０が予測根拠特性（説明スコア）は適切でないという入力を提示画面から取得した場合（ステップＳ６１０：Ｎｏ）、たとえば、校正開始ボタン７６０が押下された場合、ステップＳ６１１に移行する。この場合、予測器作成装置１００は、現在の予測器を所望の予測根拠特性に校正するためのパラメータ設定を行う。

　実施例１では予測根拠特性を校正する手段として、ユーザは、提示画面７００において、定量的な期待特性の設定と定性的な期待特性の設定のいずれかを提示画面７００から選択することができる。したがって、期待特性設定領域７４０において「定量期待特性」が選択されている場合は、ステップＳ６１１において、図８に示す定量期待特性設定画面８００が表示され、「定性期待特性」が選択されている場合は、ステップＳ６１１において、図９に示す定性期待特性設定画面９００が表示される。

　図８は、実施例１にかかる定量期待特性設定画面８００の一例を示す説明図である。定量期待特性設定画面８００は、予測器特性提示領域８１０、属性情報選択領域７２０、アンサンブル探索設定領域７３０、期待特性設定領域７４０、定量期待特性設定領域８２０、校正開始ボタン８６０、および終了ボタン８７０を有する。

　予測器特性提示領域８１０は、定量的な予測器特性を示すグラフを提示する領域である。図８では、予測器特性提示領域８１０内のＰＤＰ７１１に、曲線８１１，８１２、有効区間８１３が表示されている。

　定量期待特性設定領域８２０は、予測根拠特性について定量的な期待特性を設定する領域である。定量特性を与える手段として、「手書き入力」、「線分入力」、または「関数入力」が選択可能である。図８では、「手書き入力」が選択された例を示す。「手書き入力」が選択された場合、ユーザはマウスやタッチペンなどの入力デバイス１０３を介して直接的に予測器特性提示領域８１０内のＰＤＰ７１１に期待予測根拠特性の曲線８１１を入力することができる。定量期待特性設定領域８２０で「近似関数」のひな型を選択することで、入力された曲線８１１にフィットするように関数近似された曲線８１２が得られ、予測器特性提示領域８１０内のＰＤＰ７１１上に表示される。

　また、「線分入力」が選択された場合、線分の始点と終点を設定することで予測器特性提示領域８１０内のＰＤＰ７１１に反映して表示することができる。データ取得部２１０は、ユーザ操作により、始点および終点を、定量期待特性設定領域８２０で実数として直接設定してもよいし、予測器特性提示領域８１０内のＰＤＰ７１１上の点をマウスやタッチペンで指定して取り込んでもよい。また、データ取得部２１０は、ユーザ操作により、線分を複数入力でき、複数の線分からなる曲線として期待予測根拠特性を与えることもできる。

　また、「関数入力」が選択された場合、定量期待特性設定領域８２０で「近似関数」のひな型を選択することで、予測器特性提示領域８１０内のＰＤＰ７１１上に表示されているデータにフィットするように関数近似された曲線が得られ、予測器特性提示領域８１０内のＰＤＰ７１１上に表示される。「近似関数」のひな型として、例えば一次関数や二次関数などを選択できる。

　定量期待特性設定領域８２０において、「有効区間」は、期待予測根拠特性が有効となる区間（有効区間８１３）を示している。対象となる特徴量とその説明スコアの特性について、有識者が有するドメイン知識を自信のある領域区間についてのみ設定することで、不確かな領域区間での誤った予測根拠特性を設定することを回避できる。したがって、アンサンブル予測器の予測精度特性と予測根拠特性の改善を促進することができる。定量期待特性設定領域８２０では、「有効区間」の始点を「ｘ１」、終点を「ｘ２」として示す。

　定量期待特性設定領域８２０において、「重み」は、ここで設定した定量特性をどれだけ強く考慮するかを示すパラメータであり、通常はゼロより大きな実数値で与えられる。図８では、λとして示す。ここで入力した「重み」は、データ管理部２４０の重み４３２として管理される。

　定量期待特性設定領域８２０において、「許容説明誤差」は、アンサンブル予測器が達成すべき説明スコアの特性である。「許容説明誤差」の指標は、期待予測根拠特性の曲線から得られる期待説明スコアと校正後のアンサンブル予測器の説明スコアとについて、「有効区間」内でのＲＭＳＥなどを算出することによって与えられる。

　ここで、期待説明スコアは、パラメータ抽出部２５０にて、訓練データに含まれる各サンプルの各特徴量の値に対応する期待予測根拠特性の曲線８１２上の説明スコアを算出することで得られる。図８では、許容説明誤差４３３として「閾値２」が設定されている。ここで入力した「許容説明誤差」は、データ管理部２４０の許容説明誤差４３３として管理される。

　校正開始ボタン８６０は、押下により、定量期待特性設定画面８００で設定された入力データ２０１で校正を開始するためのボタンである。すなわち、入力データ２０１である定量制約情報４０１、４０２、４０３、…が特徴量に関する定量的な期待予測根拠特性として、定量制約情報テーブル４１０に登録されて、重み４３２および許容説明誤差４３３が、制約パラメータ情報テーブル４３０に登録されて、校正が開始される。終了ボタン８７０は、押下により、定量期待特性設定画面８００での設定を終了するためのボタンである。

　図９は、実施例１にかかる定性期待特性設定画面９００の一例を示す説明図である。定性期待特性設定画面９００は、予測器特性提示領域９１０、属性情報選択領域７２０、アンサンブル探索設定領域７３０、期待特性設定領域７４０、期待定性特性設定領域９２０、校正開始ボタン９６０、および終了ボタン９７０を有する。

　予測器特性提示領域９１０は、定性的な予測器特性を示すグラフを提示する領域である。図９では、予測器特性提示領域９１０内のＰＤＰ７１１に、制約タイプ（例として、単調性＋）９１１や有効区間９１２のような定性特性が表示されている。

　期待定性特性設定領域９２０は、予測根拠特性について定性的な期待特性を設定可能な領域である。「制約タイプ」は、設定する定性的な特性のタイプを示す。ここでは、説明スコアについて指定した特徴量に対する正の単調性（単調性＋）や負の単調性（単調性－）など、期待予測根拠特性の傾向の設定が可能である。図９では、制約タイプ９１１として、正の単調性が設定された例を示す。

　期待定性特性設定領域９２０において、「許容説明誤差」は、アンサンブル予測器が達成すべき説明スコアの特性である。定性特性における許容説明誤差の指標は、設定された定性的な期待特性を満たさないサンプルの数などで表されるため、設定された「有効区間」内における期待特性を満たさないサンプル数を算出することで得られる。

　期待定性特性設定領域９２０において、「有効区間」および「重み」は、定量期待特性設定領域８２０の項目と同一であるためその説明を省略する。「制約タイプ」や「有効区間」など期待定性特性設定領域９２０で設定した項目は、予測器特性提示領域９１０内のＰＤＰ７１１上に反映されて可視化される。これにより、設定した期待特性の内容をユーザが視覚的に理解することが可能になる。

　校正開始ボタン９６０は、押下により、定性期待特性設定画面９００で設定された入力データ２０１で校正を開始するためのボタンである。すなわち、入力データ２０１である定性制約情報４４１～４４４が特徴量に関する定性的な期待予測根拠特性として、定性制約情報テーブル４２０に登録されて、重み４３２および許容説明誤差４３３が、制約パラメータ情報テーブル４３０に登録されて、校正が開始される。終了ボタン９７０は、押下により、定性期待特性設定画面９００での設定を終了するためのボタンである。

　図８または図９により、データ取得部２１０が定量期待特性設定画面８００または定性期待特性設定画面９００への入力データ２０１を校正設定情報２１３として受け付けると、パラメータ抽出部２５０は、校正設定情報２１３をデータ管理部２４０に格納するためデータ形式に変換し、抽出パラメータ情報２５１として出力する。

　これまで説明した予測器へ期待特性を設定する手段は、予測根拠特性の大局的な傾向を設定する手段、すなわちグローバル説明に対する予測根拠特性の校正手段であった。これに対し、個々のサンプルについて個別に期待予測根拠特性を設定したいケースがある。

　たとえば、全体の予測根拠特性の傾向は不明だが、「この入力値を入れたとき、この特徴量の説明スコアはこれくらいになるはずである。」、または、「この特徴量の説明スコアが他の特徴量の説明スコアよりも大きくなっているはずである。」ということが、有識者が持つドメイン知識として分かっているケースである。そのようなケースに対応するために、予測器作成装置１００は個々のサンプルに対して期待特性を設定する手段を有している。これは、ローカル説明に対する予測根拠特性の校正手段に該当する。ユーザは、図１０に示すデータ期待特性設定画面を通じて、データごとの期待特性を設定することができる。

　図１０は、実施例１にかかるデータ期待特性設定画面の一例を示す説明図である。データ期待特性設定画面１０００は、ステップＳ６０４において、図７に示した期待特性設定ボタン７５０が押下されると表示され、ステップＳ６１１において予測器に対するデータごとの期待特性の設定が可能になる。データ期待特性設定画面１０００は、全体期待特性設定領域１０１０、データ単位期待特性設定領域１０２０、校正開始ボタン１０６０、およびキャンセルボタン１０７０を有する。

　全体期待特性設定領域１０１０は、図４に示した校正パラメータ情報テーブル４００を直接編集することで期待特性を設定可能な領域である。ここで、校正パラメータ情報テーブル４００は、期待予測根拠特性ではなく制約情報としてデータ管理部２４０で管理されている。これは、ユーザにとっての期待する予測根拠特性に関する情報は、予測器作成装置１００にとっては満たすべき制約情報として見えるためであり、期待予測根拠特性に関する情報と制約情報との間に違いはない。

　また、ここで、定量期待特性設定画面８００および定性期待特性設定画面９００の説明で用いた予測器と同じアンサンブル予測器（すなわち、結合グループＩＤ３１４の値が「ｅｇ１」）の全体特性について期待予測根拠特性を設定する例を示す。全体期待特性設定領域１０１０は、定量特性設定領域１０１１と、定性特性設定領域１０１２と、制約パラメータ設定領域１０１３と、を有する。

　定量特性設定領域１０１１は、定量制約情報テーブル４１０を直接編集し、定量的な期待特性を設定可能な領域である。定性特性設定領域１０１２は、定性制約情報テーブル４２０を直接編集し、定性的な期待特性を設定可能な領域である。制約パラメータ設定領域１０１３は、制約パラメータ情報テーブル４３０を直接編集し、各制約に対する重み４３２と許容説明誤差４３３などの補助パラメータを設定可能な領域である。

　データ単位期待特性設定領域１０２０は、サンプルごとに期待予測根拠特性を直接編集することで設定可能な領域であり、サンプルＩＤ４１２を指定することで所望のサンプルに対する期待予測根拠特性を設定できる。ここでは、サンプルＩＤ４１２の値が「ｓ１」のサンプルについて期待予測根拠特性を設定する例を示している。

　説明グラフ１０２１は、サンプルＩＤ４１２で指定したサンプルでの各特徴量の説明スコア（スコア１０２２）を視覚的に表現したグラフ（図１０では棒グラフ）で提示可能な領域である。スコア１０２２は、サンプルＩＤ４１２で指定したサンプルでの各特徴量の説明スコアを数値で提示可能な領域である。

　定量１０２３は、定量的な期待特性を設定可能な領域であり、ここでは、「特徴量１」についての期待説明スコアを“０”として設定し、「特徴量２」および「特徴量３」について期待説明スコアを“―”（未設定）としている例を示している。定量１０２３の列は、定量特性設定領域１０１１の定量制約情報テーブル４１０においてサンプルＩＤ４１２の値が「ｓ１」の行に対する期待特性の設定に対応する。

　定性１０２４は、定性的な期待特性を設定可能な領域であり、ここでは、「特徴量２」と「特徴量３」についてそれぞれスコア１０２２が「最大」、「最小」となる期待特性を設定している例を示している。定性１０２４の列は、定性特性設定領域１０１２の定性制約情報テーブル４２０においてサンプルＩＤ４１２の値が「ｓ１」の行について、最大説明スコアを「特徴量２」、最小説明スコアを「特徴量３」として設定することに対応する。

　校正開始ボタン１０６０は、押下により、データ期待特性設定画面１０００で設定された内容で校正を開始するためのボタンである。キャンセルボタン１０７０は、押下により、定性期待特性設定画面９００での設定をキャンセルして、図７の提示画面７００に戻るためのボタンである。

　以上のように、図８の定量期待特性設定画面８００、図９の定性期待特性設定画面９００または図１０のデータ期待特性設定画面１０００を用いることにより、校正パラメータ設定（ステップＳ６１１）が実行され、特徴量に関する期待予測根拠特性が取得される。

　図６に戻り、予測器作成装置１００は、予測器校正部２６０により、個々の単体予測器に対する結合係数を決定する（ステップＳ６１２）。具体的には、たとえば、予測器作成装置１００は、校正パラメータ設定（ステップＳ６１１）においてパラメータ抽出部２５０が出力した抽出パラメータ情報２５１と、データ管理部２４０からの管理対象予測器情報２４２と、に基づいて、個々の単体予測器に対する結合係数を決定する。たとえば、下記式（１）～（７）に基づいて、個々の単体予測器に対する結合係数が決定される。

　Ｍ（ｘ_ｉ）＝Σ_ｋα_ｋＭ_ｋ（ｘ_ｉ）・・・・・（１）
　ただし、ｋは１から１００までの整数

　上記式（１）は、作成するアンサンブル予測器の予測値Ｍとｋ番目の単体予測器の予測値Ｍ_ｋとその結合係数α_ｋの関係を示している。ｘ_ｉは、訓練データセット２０２中のｉ番目の訓練データであり、サンプルＩＤ４１２と関連づけて管理される。すなわち、Ｍ（ｘ_ｉ）は訓練データｘ_ｉに対するアンサンブル予測器の予測値であり、Ｍ_ｋ（ｘ_ｉ）は訓練データｘ_ｉに対するｋ番目の単体予測器の予測値である。

　Ｒ（ｘ_ｉ）＝Σ_ｋα_ｋＲ_ｋ（ｘ_ｉ）・・・・・（２）
　ただし、ｋは１から１００までの整数

　上記式（２）は、作成するアンサンブル予測器の説明スコアによるベクトル（すなわち説明ベクトル）Ｒと、ｋ番目の単体予測器の説明ベクトルＲ_ｋと、その結合係数α_ｋと、の関係を示している。すなわち、Ｒ（ｘ_ｉ）は、訓練データｘ_ｉに対するアンサンブル予測器の説明ベクトルであり、Ｒ_ｋ（ｘ_ｉ）は訓練データｘ_ｉに対するｋ番目の単体予測器の説明ベクトルである。なお、説明ベクトルＲは、予測器の特徴量の数と同じ数の次元を有する。

　Ｊ_１＝Σ_ｉＬ（Ｍ_ｉ－Ｙ_ｉ）・・・・・（３）

　上記式（３）は、アンサンブル予測器の予測誤差に関する目的関数（または損失関数とも呼ばれる）Ｊ_１を示している。Ｍ_ｉはｉ番目の訓練データｘ_ｉに対するアンサンブル予測器の予測値であり、Ｍ（ｘ_ｉ）と等価である。Ｙ_ｉはｉ番目の訓練データｘ_ｉに対する正解値である。Ｌはノルムを算出する関数であり、Ｌ２ノルムなどを用いることができる。すなわち、Ｌ（Ｍ_ｉ－Ｙ_ｉ）はｉ番目の訓練データｘ_ｉに対する予測値と正解値の差分に対するノルムを示している。

　Ｊ_２＝Σ_ｉΣ_ｆλ_ｉ，ｆＬ（Ｒ_ｉ，ｆ－Ｚ_ｉ，ｆ）・・・・・（４）

　上記式（４）は、アンサンブル予測器の定量的な予測根拠特性に関する損失関数（または正規化項）Ｊ_２を示している。Ｒ_ｉ，ｆはｉ番目の訓練データｘ_ｉでのアンサンブル予測器のｆ番目の特徴量に対する説明スコアである。たとえば、アンサンブル予測器が基本アンサンブル予測器（ｅｇ１）であるとすると、Ｒ_ｉ，ｆは、基本アンサンブル予測器（ｅｇ１）を構成する１００個の予測器（ｐ１，ｐ２，…，ｐ１００）の予測根拠特性ＩＤ３１２（ｒ１，ｒ２，…，ｒ１００）で特定される予測根拠特性の値（説明スコア）のうち、ｉ番目の訓練データｘ_ｉ内のｆ番目の特徴量についての説明スコアとなる。

　Ｚは、定量制約情報テーブル４１０において期待説明スコア情報４１３として管理される期待説明スコアであり、Ｚ_ｉ，ｆはｉ番目の訓練データｘ_ｉでのｆ番目の特徴量に対する期待説明スコアである。たとえば、図４に示したように、ｉ番目の訓練データｘ_ｉがサンプルＩＤ４１２を「ｓ２」とするサンプルで、かつ、ｆ番目の特徴量が「特徴量１」であれば、Ｚ_ｉ，ｆは「７．２」である。

　λは、制約パラメータ情報テーブル４３０として管理される制約に対する重み４３２であり、λ_ｉ，ｆは、ｉ番目の訓練データｘ_ｉでのｆ番目の特徴量の説明誤差に対する重み４３２である。上記の例のＺ_ｉ，ｆ＝７．２の場合、定量制約ＩＤ４１１は「ｃ１」であるため、制約ＩＤ３２３が「ｃ１」である重み４３２は、λ_ｉ，ｆ＝０．７となる。ここで、説明誤差は、現在の説明スコアと期待説明スコアとの差分のノルムであり、Ｌ（Ｒ_ｉ，ｆ－Ｚ_ｉ，ｆ）として表現される。

　Ｊ_３＝Σ_ｉΣ_ｆλ_ｉ，ｆＬ（Ｃ_１（Ｒ_ｉ，ｆ，Ｒ_ｉ，ｆ’））・・・・・（５）

　上記式（５）は、アンサンブル予測器の定性的な予測根拠特性である最大説明スコアと最小説明スコアとの制約に関する損失関数（または正規化項）Ｊ_３を示している。Ｃ_１は、設定された最大説明スコアまたは最小説明スコアの制約が満たされていないときに０ではない値を返す関数である。

　ここでは、ｉ番目の訓練データｘ_ｉについてｆ’番目の特徴量に対する説明スコアＲ_ｉ，ｆ’が最大または最小であるという期待予測根拠特性が与えられた時に、Ｒ_ｉ，ｆと比較してその特性が満たされていれば“０”、満たされていなければ“１”を返す単純な関数であるとする。もちろん、満たされていないときにＲ_ｉ，ｆとＲ_ｉ，ｆ’の差分を返す関数などでもよい。なお、この制約対象となるｆ’番目の特徴量に関する情報は、定性制約情報テーブル４２０において期待定性特性情報４２２として管理されている。

　たとえば、図４に示したように、期待定性特性情報４２２が「最大説明スコア」（定性制約ＩＤ４２１が「ｄ１」）である場合、ｉ番目の訓練データｘ_ｉがサンプルＩＤ４１２が「ｓ２」のサンプルであれば、ｆ’番目の特徴量は「特徴量１」となり、Ｒ_ｉ，ｆ’は、サンプルＩＤ４１２が「ｓ１」の「特徴量１」に対する説明スコアとなり、Ｒ_ｉ，ｆと比較される。

　Ｊ_４＝Σ_ｆΣ_ｉλ_ｉ，ｆＬ（Ｃ_２（Ｒ_ｉ，ｆ，Ｒ_＊，ｆ））・・・・・（６）

　上記式（６）は、アンサンブル予測器の定性的な予測根拠特性である単調性の制約に関する損失関数（または正規化項）Ｊ_４を示している。Ｃ_２は、設定された正または負の単調性の制約が満たされていないときに０ではない値を返す関数である。ここでは、ｆ番目の特徴量ついてｉ番目の訓練データｘ_ｉに着目した時に、そのｉ番目の訓練データｘ_ｉに対する説明スコア（すなわちＲ_ｉ，ｆ）とその他すべての訓練データ（ｘ_＊と表現する）に対する説明スコア（すなわちＲ_＊，ｆ）を比較して、そのｆ番目の特徴量の説明スコアに設定した単調性の制約が満たされていないサンプル個数を返す単純な関数であるとする。

　たとえば、正の単調性制約であれば、ｉ番目の訓練データｘ_ｉのｆ番目の特徴量とｊ番目の訓練データｘ_ｊのｆ番目の特徴量はそれぞれＦ_ｉ，ｆとＦ_ｊ，ｆである。Ｆ_ｉ，ｆがＦ_ｊ，ｆより小さいとき、Ｒ_ｉ，ｆがＲ_ｊ，ｆより大きければその制約は満たされていないため、Ｃ_２（Ｒ_ｉ，ｆ，Ｒ_ｊ，ｆ）は“１”を返し、Ｒ_ｉ，ｆがＲ_ｊ，ｆより小さければＣ_２（Ｒ_ｉ，ｆ，Ｒ_ｊ，ｆ）は“０”を返す。もちろん、Ｃ_２にはその他の関数を用いてもよい。なお、この単調性に関する予測根拠特性の制約情報は、定性制約情報テーブル４２０として管理されている。

　α＝ａｒｇ　ｍｉｎ（β_１Ｊ_１＋β_２Ｊ_２＋β_３Ｊ_３＋β_４Ｊ_４）・・・・・（７）

　上記式（７）は、結合係数ベクトルαを算出する式を示している。ここでαは、結合予測器数と同じ数（すなわち、α_１～α_１００までの１００個）の次元を持つベクトルである。βは、抽出パラメータ情報２５１に含まれる有効係数であり、対象損失関数の制約が設定されている場合には“１”、設定されていない場合は“０”が設定される。

　β_１は予測誤差、β_２は定量的な予測根拠特性、β_３は定性的な予測根拠特性である最大説明スコアと最小説明スコアとの制約、β_４は定性的な予測根拠特性である単調性の制約に関する損失関数の有効係数である。すなわち、αは、上記式（７）の右辺を最小化する結合係数ベクトルとして与えられ、結合係数α_ｋについての偏微分による解法で、結合係数α_ｋが容易かつ高速に算出可能である。このようにして、予測器校正部２６０で作成する新しいアンサンブル予測器の結合係数α_ｋが決定される。

　予測器作成装置１００は、予測器校正部２６０により、基本アンサンブル予測器の各予測器に対し、決定された結合係数α_ｋを設定することにより、新しいアンサンブル予測器を生成する（ステップＳ６１３）。作成されたアンサンブル予測器の情報は、校正後予測器情報２６１として予測器分析部２３０とデータ管理部２４０とに出力される。

　つぎに、予測器作成装置１００は、予測器分析部２３０により、ステップＳ６１３で作成されたアンサンブル予測器の予測器特性分析を実行する（ステップＳ６１４）。具体的には、たとえば、予測器作成装置１００は、ステップＳ６０３と同じく、テストデータセット２０３に対する精度スコアと、訓練データセット２０２に対する説明スコアと、を算出する。

　また、予測器作成装置１００は、アンサンブル予測器に対する予測誤差（精度スコア）と説明誤差とを算出し、パラメータ抽出部２５０から送られた抽出パラメータ情報２５１に含まれる許容予測誤差３２４と許容説明誤差４３３とを参照して、作成されたアンサンブル予測器の精度スコアと説明スコアがそれぞれ所望の特性を達成しているか評価する。予測器作成装置１００は、これら分析結果（分析結果情報２３１）をそれぞれ予測精度特性情報、予測根拠特性情報としてデータ管理部２４０へ格納する。

　予測器作成装置１００は、ステップＳ６１３で得られた分析結果情報２３１を参照し、作成されたアンサンブル予測器の精度スコアと説明スコアがそれぞれ所望の特性を達成したかを判断する（ステップＳ６２０）。所望の特性が達成されている、または設定された最大探索回数に到達しているならば、終了条件を満たしたとして（ステップＳ６２０：Ｙｅｓ）、予測器作成装置１００は、ユーザに分析結果を提示するとともに作成された１以上のアンサンブル予測器（またはそのパラメータ）を出力して処理を終了する。

　一方、所望の特性が達成されておらず、かつ設定された最大探索回数に到達していないときは（ステップＳ６２０：Ｎｏ）、ステップＳ６２１に移行する。

　予測器作成装置１００は、ステップＳ６０１においてランダムパラメータ設定領域５４０で設定されたランダムパラメータ（ユーザ指定による訓練データセット２０２と機械学習モデルのハイパーパラメータとのうち少なくとも一方）に摂動を与える方法に基づいて、ランダムパラメータの値を更新する（ステップＳ６２１）。

　予測器作成装置１００は、アンサンブル予測器を再構成する（ステップＳ６２２）。具体的には、たとえば、予測器作成装置１００は、ステップＳ６２１で値が更新された更新後のランダムパラメータに基づいて、追加分の複数の予測器を作成する。つぎに、予測器作成装置１００は、ステップＳ６１１においてアンサンブル探索設定領域７３０で設定された予測器選択方法に基づいて、アンサンブル予測器に用いる新たな単体予測器群を追加分の複数の予測器から抽出する。そして、予測器作成装置１００は、抽出した新たな単体予測器群を、既存のアンサンブル予測器に追加する。これにより、アンサンブル予測器が再構成される。再構成されたアンサンブル予測器は、あらたな校正対象アンサンブル予測器として設定される。

　その後、予測器作成装置１００は、抽出した新たな単体予測器群に関する情報を予測器情報２２１として予測器分析部２３０とデータ管理部２４０とに送り、ステップＳ６１２に戻る。あらたな校正対象アンサンブル予測器の結合係数は、ステップＳ６１２で再計算され、ステップＳ６１３で再設定される。

　このように、実施例１によれば、正解値を予測するにあたり、予測器作成装置が、訓練データに内在する異なる観点を捉えた予測器を組み合わせることで、より事象全体を適切に捉えたアンサンブル予測器を作成することができる。また、予測器作成装置１００は、目的関数をアンサンブル予測器の各結合係数について微分するため説明スコアや機械学習モデルの関数は定数として扱うことができる。そのため、説明スコアや機械学習モデルの関数は微分可能である必要はない。すなわち、実施例１によれば、任意の説明スコアと任意の機械学習モデルについて、予測器の予測根拠を校正することが可能になる。

　実施例２は、実施例１とは異なるデータ形式の入力データ（訓練データ、テストデータ）による予測器作成装置１００を示す。実施例１で用いた入力データは、表データのような構造化データであり、実施例１では、構造化データを入力データとする予測器に対して期待予測根拠特性を設定した。しかしながら、入力データとして、構造化データではなく画像データのような非構造化データを用いる予測器もある。以下、非構造化データを入力データとする予測器に対して期待予測根拠特性を設定する手段について、図１１～図１３を用いて説明する。なお、実施例２では、実施例１との相違点について説明するため、実施例１と同一内容については説明を省略する。

　図１１は、実施例２にかかる分析結果情報２３１の提示画面例を示す説明図である。提示画面１１００は、予測器特性提示領域１１１０、属性情報選択領域１１２０、アンサンブル探索設定領域７３０、期待特性設定領域７４０、期待特性設定ボタン７５０、校正開始ボタン７６０、および終了ボタン７７０を有する。

　予測器特性提示領域１１１０は、予測器の特性をユーザへ提示する領域であり、ここでは、例として、画像データ１１１１内にサッカーボール１１１２があることを判定する予測器の特性を示している。すなわち、予測器は、サッカーボール１１１２があると判定した時には“１”を出力し、ないと判定した時には“０”を出力する。

　入力データが画像データ１１１１の場合、特徴量は画像データ１１１１内の各ピクセルに相当するが、ピクセルごとの説明スコアについて意味を理解することは困難であり、またピクセル単位で期待予測根拠特性を設定することも非効率である。そこで、ここでは、セグメンテーション処理によって画像データ１１１１をオブジェクト単位に領域分割し、その領域単位で期待予測根拠特性を設定する手法を用いる。

　また、予測器特性提示領域１１１０において、「説明スコア」は、画像データ１１１１上の色、濃淡、明るさ、透明度などを用いたヒートマップで表現される。予測器特性提示領域１１１０では、バレーボール１１１３（領域ＩＤ１とする）とサッカーボール１１１２（領域ＩＤ２とする）に正の説明スコアが割り当てられているものとする。「予測精度」は、指定された予測器の予測精度を示し、「結合モデル数」は、指定された結合グループＩＤ３１４のアンサンブル予測器に含まれる単体予測器の数を示す。

　属性情報選択領域１１２０は、予測器特性提示領域１１１０で提示する予測器とその属性情報とを選択可能な領域である。「サンプルＩＤ」は、予測器特性提示領域１１１０で提示する画像データ１１１１を指定する設定項目である。ここでは、サンプルＩＤ４１２の値が「ｓ１０」の画像データ１１１１が設定されている。

　その他、「結合グループＩＤ」、「全体特性」、および「個別特性」については、実施例１の属性情報選択領域７２０で説明済みであるためその説明を省略する。このように、提示画面１１００は、画像データ１１１１を入力とする予測器について、ステップＳ６０４で提示されるユーザインタフェースである。

　図１２は、実施例２にかかる定量期待特性設定画面の一例を示す説明図である。定量期待特性設定画面１２００は、画像データ１１１１を入力とする予測器の定量的な期待特性を設定するユーザインタフェースである。定量期待特性設定画面１２００は、予測器特性提示領域１１１０、期待特性提示領域１２１０、属性情報選択領域１１２０、アンサンブル探索設定領域７３０、期待特性設定領域７４０、定量期待特性設定領域１２２０を有している。

　期待特性提示領域１２１０は、定量期待特性設定領域１２２０で設定した期待予測根拠特性を視覚的に提示する領域である。定量期待特性設定領域１２２０は、図１１において、期待特性設定領域７４０で定量特性が選択されると表示される。定量期待特性設定領域１２２０は、画像データ１１１１の予測根拠特性について定量的な期待特性（すなわち定量特性）を設定する領域である。

　定量期待特性設定領域１２２０において、「対象領域」は、画像データ１１１１上の定量特性を設定する領域であり、領域ＩＤを入力したり、マウスなど入力デバイス１０３を用いて予測器特性提示領域１１１０の画像データ１１１１上の位置をカーソルで指定したりすることで設定される。ここでは、「領域ＩＤ１」（すなわち、バレーボール１１１３）が設定されている例を示している。

　定量期待特性設定領域１２２０において、「期待説明スコア」は、「対象領域」に期待予測根拠特性として割り当てる説明スコアであり、実数で与えられる。ここでは、一般にサッカーボール１１１２の有無を判定するにあたり、バレーボール１１１３の有無が影響することは考えにくいことから、「期待説明スコア」を“０”（すなわち判定に対して無関係）として設定する例を示している。

　定量期待特性設定領域１２２０において、「重み」は、設定した定量特性をどれだけ強く考慮するかを示すパラメータであり、通常はゼロより大きな実数値で与えられる。ここでは例として「λ」とする。

　定量期待特性設定領域１２２０において、「許容説明誤差」は、アンサンブル予測器が達成すべき説明スコアの特性である。説明誤差の指標は、設定した期待説明スコアと校正後のアンサンブル予測器の説明スコアについて、「対象領域」内でのＲＭＳＥなどを算出ことによって与えることができる。このように、定量期待特性設定画面１２００は、画像データ１１１１を入力とする予測器について、ステップＳ６１１で提示されるユーザインタフェースである。

　図１３は、実施例２にかかる定性期待特性設定画面の一例を示す説明図である。定性期待特性設定画面１３００は、画像データ１１１１を入力とする予測器の定性的な期待特性を設定するユーザインタフェースである。定性期待特性設定画面１３００は、予測器特性提示領域１１１０、期待特性提示領域１２１０、属性情報選択領域１１２０、アンサンブル探索設定領域７３０、期待特性設定領域７４０、期待定性特性設定領域１３１０を有する。

　期待定性特性設定領域１３１０は、図１１において、期待特性設定領域７４０で定性特性が選択されると表示される。ここでは「対象領域」として領域ＩＤ２（すなわちサッカーボール１１１２）が設定されている例を示している。

　期待定性特性設定領域１３１０において、「制約タイプ」は、設定する定性的な特性のタイプを示す。サッカーボール１１１２の有無を判定するにあたり、サッカーボール１１１２の領域の説明スコアが他の領域に比べて大きくなっているべきである。したがって、ここでは、「制約タイプ」に、「最大説明スコア」（の期待特性（または制約））が設定された例を示している。ここでの設定結果は定量期待特性設定領域１２２０の設定結果も含めて期待特性提示領域１２１０に反映され、提示される。これにより、ユーザが期待予測根拠特性の設定状況を視覚的に理解することを促進する。このように、定性期待特性設定画面１３００は、画像データ１１１１を入力とする予測器について、ステップＳ６１１で提示されるユーザインタフェースである。

　このように、実施例２によれば、画像データ１１１１のような非構造化データを入力データとする予測器に対しても期待予測根拠特性を設定することができる。

　また、上述した実施例１および実施例２にかかる予測器作成装置１００は、下記（１）～（１３）のように構成することもできる。

（１）予測器作成装置１００は、プログラムを実行するプロセッサ１０１と、前記プログラムを記憶する記憶デバイス１０２と、を有し、前記プロセッサ１０１は、訓練データと正解データとの組み合わせである訓練データセット２０２に基づく複数の予測器を結合した校正対象アンサンブル予測器（基本アンサンブル予測器）を取得する第１取得処理（ステップＳ６０２）と、前記複数の予測器の各々について前記訓練データの特徴量に関する予測根拠特性を算出する算出処理（ステップＳ６０３）と、前記算出処理によって算出された前記特徴量に関する予測根拠特性（予測根拠特性ＩＤ３１２で特定される）を出力した結果（定量期待特性設定画面８００、定性期待特性設定画面９００）、前記特徴量に関する予測根拠特性に基づく前記特徴量に関する期待予測根拠特性を取得する第２取得処理（ステップＳ６０４、ステップＳ６１０、ステップＳ６１１）と、前記特徴量に関する予測根拠特性と、前記第２取得処理によって取得された前記特徴量に関する期待予測根拠特性（定量期待特性設定画面８００、定性期待特性設定画面９００で設定される）と、に基づいて、前記複数の予測器の各々の結合係数α_ｋを決定する決定処理（ステップＳ６１２）と、前記決定処理によって決定された結合係数α_ｋに基づいて前記校正対象アンサンブル予測器を校正する校正処理（ステップＳ６１３）と、を実行する。

（２）上記（１）の予測器作成装置１００において、前記決定処理では、前記プロセッサ１０１は、前記特徴量に関する予測根拠特性と、前記特徴量に関する期待予測根拠特性と、に基づいて、前記校正対象アンサンブル予測器の予測根拠特性に関する損失関数（Ｊ_２，Ｊ_３またはＪ_４）を算出し、当該損失関数（Ｊ_２，Ｊ_３またはＪ_４）に基づいて、前記複数の予測器の結合係数α_ｋを決定する。

（３）上記（２）の予測器作成装置１００において、前記第２取得処理では、前記プロセッサ１０１は、前記特徴量に関する定量的な期待予測根拠特性（定量制約情報４０１、４０２、４０３、…）を取得し、前記決定処理では、前記プロセッサ１０１は、前記特徴量に関する予測根拠特性と、前記特徴量に関する定量的な期待予測根拠特性と、に基づいて、前記校正対象アンサンブル予測器の定量的な予測根拠特性に関する損失関数Ｊ_２を算出し、当該損失関数Ｊ_２に基づいて、前記複数の予測器の結合係数α_ｋを決定する。

（４）上記（３）の予測器作成装置１００において、前記第２取得処理では、前記プロセッサ１０１は、ユーザ操作によって入力（手書き入力）された前記特徴量に関する定量的な期待予測根拠特性を取得する。

（５）上記（３）の予測器作成装置１００において、前記第２取得処理では、前記プロセッサ１０１は、ユーザ操作によって設定された前記特徴量の有効範囲と、前記特徴量に関する予測根拠特性と、に基づいて、前記特徴量に関する定量的な期待予測根拠特性を取得する。

（６）上記（３）の予測器作成装置１００において、前記第２取得処理では、前記プロセッサ１０１は、前記特徴量に関する定量的な期待予測根拠特性を出力した結果（データ期待特性設定画面１０００）、修正後の前記特徴量に関する定量的な期待予測根拠特性を取得し、前記決定処理では、前記プロセッサ１０１は、前記特徴量に関する予測根拠特性と、前記特徴量に関する定量的な期待予測根拠特性と、に基づいて前記損失関数Ｊ_２を算出し、当該損失関数Ｊ_２に基づいて、前記複数の予測器の結合係数α_ｋを決定する。

（７）上記（２）の予測器作成装置１００において、前記第２取得処理では、前記プロセッサ１０１は、前記特徴量に関する定性的な期待予測根拠特性（定性制約情報４４１～４４４）を取得し、前記決定処理では、前記プロセッサ１０１は、前記特徴量に関する予測根拠特性と、前記特徴量に関する定性的な期待予測根拠特性と、に基づいて、前記校正対象アンサンブル予測器の定性的な予測根拠特性に関する損失関数（Ｊ_３またはＪ_４）を算出し、当該損失関数（Ｊ_３またはＪ_４）に基づいて、前記複数の予測器の結合係数α_ｋを決定する。

（８）上記（７）の予測器作成装置１００において、前記定性的な予測根拠特性に関する損失関数は、前記予測根拠特性の最大値（最大説明スコア）および最小値（最小説明スコア）の制約に関する損失関数Ｊ_３である。

（９）上記（７）の予測器作成装置１００において、前記定性的な予測根拠特性に関する損失関数は、前記予測根拠特性の単調性の制約に関する損失関数Ｊ_４である。

（１０）上記（７）の予測器作成装置１００において、前記プロセッサ１０１は、前記特徴量に関する定性的な期待予測根拠特性を出力した結果（データ期待特性設定画面１０００）、修正後の前記特徴量に関する定性的な期待予測根拠特性を取得し、前記決定処理では、前記プロセッサ１０１は、前記特徴量に関する予測根拠特性と、前記特徴量に関する定性的な期待予測根拠特性と、に基づいて前記損失関数（Ｊ_３またはＪ_４）を算出し、当該損失関数（Ｊ_３またはＪ_４）に基づいて、前記複数の予測器の結合係数α_ｋを決定する。

（１１）上記（２）の予測器作成装置１００において、前記訓練データは、非構造化データ（画像データ１１１１）であり、前記取得処理では、前記プロセッサ１０１は、前記算出処理によって算出された前記特徴量に関する予測根拠特性と、前記非構造化データと、を出力した結果（定量期待特性設定画面１２００）、前記非構造化データ内の特定領域（サッカーボール１１１２、バレーボール１１１３）から選択された、前記特徴量に関する予測根拠特性に基づく前記特徴量に関する定量的な期待予測根拠特性を取得する。

（１２）上記（１）の予測器作成装置１００において、前記プロセッサ１０１は、前記校正処理による校正済みのアンサンブル予測器に１以上の予測器を追加することにより、前記校正対象アンサンブル予測器に設定する設定処理（ステップＳ６２２）を実行し、前記決定処理では、前記プロセッサ１０１は、前記設定処理によって設定された校正対象アンサンブル予測器に含まれる複数の予測器の各々の予測根拠特性に基づいて、前記複数の予測器の各々の結合係数を決定し、前記校正処理では、前記プロセッサ１０１は、前記決定処理によって決定された前記複数の予測器の各々の結合係数に基づいて前記校正対象アンサンブル予測器を校正する。

（１３）上記（１２）の予測器作成装置１００において、前記設定処理では、前記プロセッサ１０１は、前記校正済みのアンサンブル予測器が所定の条件を満たすまで（ステップＳ６２０）、前記校正対象アンサンブル予測器に設定する。

　なお、本発明は前述した実施例に限定されるものではなく、添付した特許請求の範囲の趣旨内における様々な変形例及び同等の構成が含まれる。たとえば、前述した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに本発明は限定されない。また、ある実施例の構成の一部を他の実施例の構成に置き換えてもよい。また、ある実施例の構成に他の実施例の構成を加えてもよい。また、各実施例の構成の一部について、他の構成の追加、削除、または置換をしてもよい。

　また、前述した各構成、機能、処理部、処理手段等は、それらの一部又は全部を、たとえば集積回路で設計する等により、ハードウェアで実現してもよく、プロセッサ１０１がそれぞれの機能を実現するプログラムを解釈し実行することにより、ソフトウェアで実現してもよい。

　各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、ＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）等の記憶装置、又は、ＩＣ（Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）カード、ＳＤカード、ＤＶＤ（Ｄｉｇｉｔａｌ　Ｖｅｒｓａｔｉｌｅ　Ｄｉｓｃ）の記録媒体に格納することができる。

　また、制御線や情報線は説明上必要と考えられるものを示しており、実装上必要な全ての制御線や情報線を示しているとは限らない。実際には、ほとんど全ての構成が相互に接続されていると考えてよい。

Claims

　プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有する予測器作成装置であって、
　前記プロセッサは、
　訓練データと正解データとの組み合わせである訓練データセットに基づく複数の予測器を結合した校正対象アンサンブル予測器を取得する第１取得処理と、
　前記複数の予測器の各々について前記訓練データの特徴量に関する予測根拠特性を算出する算出処理と、
　前記算出処理によって算出された前記特徴量に関する予測根拠特性を出力した結果、前記特徴量に関する予測根拠特性に基づく前記特徴量に関する期待予測根拠特性を取得する第２取得処理と、
　前記特徴量に関する予測根拠特性と、前記第２取得処理によって取得された前記特徴量に関する期待予測根拠特性と、に基づいて、前記複数の予測器の各々の結合係数を決定する決定処理と、
　前記決定処理によって決定された結合係数に基づいて、前記校正対象アンサンブル予測器を校正する校正処理と、
　を実行することを特徴とする予測器作成装置。
　請求項１に記載の予測器作成装置であって、
　前記決定処理では、前記プロセッサは、前記特徴量に関する予測根拠特性と、前記特徴量に関する期待予測根拠特性と、に基づいて、前記校正対象アンサンブル予測器の予測根拠特性に関する損失関数を算出し、当該損失関数に基づいて、前記複数の予測器の結合係数を決定する、
　ことを特徴とする予測器作成装置。
　請求項２に記載の予測器作成装置であって、
　前記第２取得処理では、前記プロセッサは、前記特徴量に関する定量的な期待予測根拠特性を取得し、
　前記決定処理では、前記プロセッサは、前記特徴量に関する予測根拠特性と、前記特徴量に関する定量的な期待予測根拠特性と、に基づいて、前記校正対象アンサンブル予測器の定量的な予測根拠特性に関する損失関数を算出し、当該損失関数に基づいて、前記複数の予測器の結合係数を決定する、
　ことを特徴とする予測器作成装置。
　請求項３に記載の予測器作成装置であって、
　前記第２取得処理では、前記プロセッサは、ユーザ操作によって入力された前記特徴量に関する定量的な期待予測根拠特性を取得する、
　ことを特徴とする予測器作成装置。
　請求項３に記載の予測器作成装置であって、
　前記第２取得処理では、前記プロセッサは、ユーザ操作によって設定された前記特徴量の有効範囲と、前記特徴量に関する予測根拠特性と、に基づいて、前記特徴量に関する定量的な期待予測根拠特性を取得する、
　ことを特徴とする予測器作成装置。
　請求項３に記載の予測器作成装置であって、
　前記第２取得処理では、前記プロセッサは、前記特徴量に関する定量的な期待予測根拠特性を出力した結果、修正後の前記特徴量に関する定量的な期待予測根拠特性を取得し、
　前記決定処理では、前記プロセッサは、前記特徴量に関する予測根拠特性と、前記特徴量に関する定量的な期待予測根拠特性と、に基づいて前記損失関数を算出し、当該損失関数に基づいて、前記複数の予測器の結合係数を決定する、
　ことを特徴とする予測器作成装置。
　請求項２に記載の予測器作成装置であって、
　前記第２取得処理では、前記プロセッサは、前記特徴量に関する定性的な期待予測根拠特性を取得し、
　前記決定処理では、前記プロセッサは、前記特徴量に関する予測根拠特性と、前記特徴量に関する定性的な期待予測根拠特性と、に基づいて、前記校正対象アンサンブル予測器の定性的な予測根拠特性に関する損失関数を算出し、当該損失関数に基づいて、前記複数の予測器の結合係数を決定する、
　ことを特徴とする予測器作成装置。
　請求項７に記載の予測器作成装置であって、
　前記定性的な予測根拠特性に関する損失関数は、前記予測根拠特性の最大値および最小値の制約に関する損失関数である、
　ことを特徴とする予測器作成装置。
　請求項７に記載の予測器作成装置であって、
　前記定性的な予測根拠特性に関する損失関数は、前記予測根拠特性の単調性の制約に関する損失関数である、
　ことを特徴とする予測器作成装置。
　請求項７に記載の予測器作成装置であって、
　前記第２取得処理では、前記プロセッサは、前記特徴量に関する定性的な期待予測根拠特性を出力した結果、修正後の前記特徴量に関する定性的な期待予測根拠特性を取得し、
　前記決定処理では、前記プロセッサは、前記特徴量に関する予測根拠特性と、前記特徴量に関する定性的な期待予測根拠特性と、に基づいて前記損失関数を算出し、当該損失関数に基づいて、前記複数の予測器の結合係数を決定する、
　ことを特徴とする予測器作成装置。
　請求項２に記載の予測器作成装置であって、
　前記訓練データは、非構造化データであり、
　前記第２取得処理では、前記プロセッサは、前記算出処理によって算出された前記特徴量に関する予測根拠特性と、前記非構造化データと、を出力した結果、前記非構造化データ内の特定領域から選択された、前記特徴量に関する予測根拠特性に基づく前記特徴量に関する期待予測根拠特性を取得する、
　ことを特徴とする予測器作成装置。
　請求項１に記載の予測器作成装置であって、
　前記プロセッサは、
　前記校正処理による校正済みのアンサンブル予測器に１以上の予測器を追加することにより、前記校正対象アンサンブル予測器に設定する設定処理を実行し、
　前記決定処理では、前記プロセッサは、前記設定処理によって設定された校正対象アンサンブル予測器に含まれる複数の予測器の各々の予測根拠特性に基づいて、前記複数の予測器の各々の結合係数を決定し、
　前記校正処理では、前記プロセッサは、前記決定処理によって決定された前記複数の予測器の各々の結合係数に基づいて前記校正対象アンサンブル予測器を校正する、
　を実行することを特徴とする予測器作成装置。
　請求項１２に記載の予測器作成装置であって、
　前記設定処理では、前記プロセッサは、前記校正済みのアンサンブル予測器が所定の条件を満たすまで、前記校正対象アンサンブル予測器に設定する、
　ことを特徴とする予測器作成装置。
　プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、を有する予測器作成装置が実行する予測器作成方法であって、
　前記予測器作成方法は、
　前記プロセッサが、
　訓練データと正解データとの組み合わせである訓練データセットに基づく複数の予測器を結合した校正対象アンサンブル予測器を取得する第１取得処理と、
　前記複数の予測器の各々について前記訓練データの特徴量に関する予測根拠特性を算出する算出処理と、
　前記算出処理によって算出された前記特徴量に関する予測根拠特性を出力した結果、前記特徴量に関する予測根拠特性に基づく前記特徴量に関する期待予測根拠特性を取得する第２取得処理と、
　前記特徴量に関する予測根拠特性と、前記第２取得処理によって取得された前記特徴量に関する期待予測根拠特性と、に基づいて、前記複数の予測器の各々の結合係数を決定する決定処理と、
　前記決定処理によって決定された結合係数に基づいて前記校正対象アンサンブル予測器を校正する校正処理と、
　を実行することを特徴とする予測器作成方法。