WO2017168458A1

WO2017168458A1 - 予測モデル選択システム、予測モデル選択方法および予測モデル選択プログラム

Info

Publication number: WO2017168458A1
Application number: PCT/JP2016/001792
Authority: WO
Inventors: 圭介梅津
Original assignee: 日本電気株式会社
Priority date: 2016-03-28
Filing date: 2016-03-28
Publication date: 2017-10-05
Also published as: JP6451895B2; JPWO2017168458A1

Abstract

予測モデル選択システムは、複数の候補から予測モデルを選択する。予測モデル選択システムは、学習部８１と、除外部８２とを備えている。学習部８１は、学習データに基づいて予測モデルの候補を学習する。除外部８２は、複数の予測モデルの候補のうち、予測モデルを構成する要素が他の予測モデルと異なる傾向を示す予測モデルを、予測モデルの候補から除外する。

Description

予測モデル選択システム、予測モデル選択方法および予測モデル選択プログラム

　本発明は、複数の予測モデルから適切な予測モデルを選択する予測モデル選択システム、予測モデル選択方法および予測モデル選択プログラムに関する。

　学習データを用いてモデルを作成する場合、学習結果に対して妥当性の検証が行われることが多い。特に、初期値に依存して作成されるモデルが変化する学習方法では、全く同じ学習データを用いた場合でも、与えられる初期値により作成されるモデルは学習ごとに異なり、またその性能も異なる。そのため、複数のモデルの候補が生成される学習アルゴリズムにおいては、これらのモデルを選択するための適切な評価方法が求められる。

　学習結果を評価する方法として、交差検証が知られている。交差検証は、訓練データ（標本データ）を学習用データと評価用データとに分割し、学習用データを用いてモデルを作成した後、作成されたモデルを評価用データで評価する方法である。

　また、学習用データと評価用データとを分けずにモデルを作成し、作成されたモデルの残差を評価する方法も存在する。具体的には、この方法では、学習区間における訓練データの実測値と予測モデルによる予測値との残差に基づいて、予測モデルが評価される。

　他にも、特許文献１には、予測精度の低下を抑制する予測装置が記載されている。特許文献１に記載された予測装置は、各予測モデルにて用いられる使用値と基準値とに基づいて、複数の予測モデルの中から対象値を実際に予測する使用モデルを選択する。

特開２０１４－１５７４５７号公報

　一方、訓練データの数量が十分でない場合、交差検証を用いた評価方法を利用しようとすると、作成されるモデル自体の精度が低下してしまうという問題がある。訓練データの数量が十分でない場合、少ない訓練データからさらに評価用データを分割してしまうと学習用データがより不足してしまうからである。

　一方、訓練データの不足を補うため、学習用データと評価用データとを分けずにモデルを作成することで、作成されるモデルの精度の低下を抑制することも考えられる。しかし、この方法を用いた場合、過学習を起こしているモデルほど、より良いモデルと評価されてしまう場合があり、複数のモデルから適切なモデルを選択できるとは言い難い。これは、特許文献１に記載された予測装置を用いた場合も同様である。

　そこで、本発明は、訓練データの数量が十分でない場合でも、初期値依存性を有する学習アルゴリズムで作成された複数の予測モデル候補から適切な予測モデルを選択できる予測モデル選択システム、予測モデル選択方法および予測モデル選択プログラムを提供することを目的とする。

　本発明による予測モデル選択システムは、複数の候補から予測モデルを選択する予測モデル選択システムであって、学習データに基づいて予測モデルの候補を学習する学習部と、複数の予測モデルの候補のうち、予測モデルを構成する要素が他の予測モデルと異なる傾向を示す予測モデルを、予測モデルの候補から除外する除外部とを備えたことを特徴とする。

　本発明による予測モデル選択方法は、複数の候補から予測モデルを選択する予測モデル選択方法であって、学習データに基づいて予測モデルの候補を学習し、複数の予測モデルの候補のうち、予測モデルを構成する要素が他の予測モデルと異なる傾向を示す予測モデルを、予測モデルの候補から除外することを特徴とする。

　本発明による予測モデル選択プログラムは、複数の候補から予測モデルを選択するコンピュータに適用される予測モデル選択プログラムであって、コンピュータに、学習データに基づいて予測モデルの候補を学習する学習処理、および、複数の予測モデルの候補のうち、予測モデルを構成する要素が他の予測モデルと異なる傾向を示す予測モデルを、予測モデルの候補から除外する除外処理を実行させることを特徴とする。

　本発明によれば、訓練データの数量が十分でない場合でも、初期値依存性を有する学習アルゴリズムで作成された複数の予測モデル候補から適切な予測モデルを選択できる。

本発明による予測モデル選択システムの一実施形態の構成例を示す説明図である。予測モデルの例を示す説明図である。予測モデルの具体例を示す説明図である。選択基準を設定した定義ファイルの例を示す説明図である。予測モデルの候補を可視化した例を示す説明図である。予測モデル選択システムの動作例を示すフローチャートである。本発明による予測モデル選択システムの概要を示すブロック図である。

　以下、本発明の実施形態を図面を参照して説明する。

　図１は、本発明による予測モデル選択システムの一実施形態の構成例を示す説明図である。本実施形態の予測モデル選択システム１００は、記憶部１０と、学習部２０と、評価部３０とを備えている。本実施形態の予測モデル選択システム１００は、学習部２０が作成した複数の予測モデルの候補から、適切な予測モデルを選択する。

　記憶部１０は、後述する学習部２０が予測モデルの作成に用いる学習データを記憶する。記憶部１０は、例えば、磁気ディスク装置等により実現される。後述する学習部２０と記憶部１０とは、有線または無線ＬＡＮ（Local Area Network）を介して接続されていてもよく、インターネットを介して接続されていてもよい。

　学習部２０は、学習データに基づいて予測モデルの候補を学習する。本実施形態では、学習アルゴリズムとして、異種混合学習を用いる場合について説明する。異種混合学習は、例えば、米国特許第８９０９５８２号明細書に記載されている。

　異種混合学習は、入力された学習データと、ハイパーパラメータを用いて、説明変数から目的変数を予測するための予測モデルを作成する学習アルゴリズムである。異種混合学習により作成される予測モデルは、決定木の葉ノードに回帰式で表される予測式を含み、かつ、葉ノード以外のノード（内部接点）に予測式を選択するための分岐条件を含む決定木のような構造で表される。以下の説明では、予測式をコンポーネントと記すこともある。すなわち、本実施形態の予測モデルは、複数の分岐条件および複数のコンポーネントを含むモデルと言える。

　図２は、本実施形態で用いられる予測モデルの例を示す説明図である。図２に例示するように、本実施形態の予測モデルは、二分木構造で表され、葉ノードにコンポーネントが配され、他の上位ノードに分岐条件が配される構造を有する。分岐条件は、説明変数を用いて記述される。予測モデルにサンプルが入力されると、入力された学習データは、各ノードで条件分岐しながら複数のコンポーネントのいずれかに割り当てられる。

　異種混合学習では、コンポーネントが線形回帰式で表される。ただし、本願発明で用いられる予測式（コンポーネント）は、線形回帰式に限定されない。葉ノードのコンポーネントが、例えば、ロジスティック回帰で表されていてもよい。

　また、本実施形態で用いられる異種混合学習アルゴリズムでは、逐次的に最適化処理が行われる。そのため、学習部２０は、まず初期値が与えられ、その初期値から最適化処理を開始する。なお、学習前に最適な初期値を定めることは難しいため、初期値は、学習ごとにランダムに与えられる。そのため、本実施形態で用いられる学習アルゴリズムは、初期値依存性を有するものと言える。

　ハイパーパラメータは、予測モデルを作成する際に用いられるパラメータであり、例えば、葉ノードまでの深さなどが挙げられる。

　評価部３０は、学習部２０によって作成された複数の予測モデルの候補を評価して、適切な予測モデルを選択し、選択された予測モデルを出力する。評価部３０は、候補選択部３１と、候補評価部３２とを含む。

　候補選択部３１は、複数の予測モデルの候補のうち、予測モデルを構成する要素が他の予測モデルと異なる傾向を示す予測モデルを、予測モデルの候補から除外する。言い換えると、候補選択部３１は、複数の予測モデルの候補のうち、予測モデルを構成する要素が他の予測モデルと異なる傾向を示す予測モデル以外の予測モデルの候補を選択する。

　すなわち、本実施形態の候補選択部３１は、予測モデルの選択基準に、交差検証を用いた精度や残差に基づく基準ではなく、予測モデルそのものの構成（具体的には、予測モデルを構成する要素）から導出できる基準を用いる。

　例えば、本実施形態で用いられる予測モデルは、複数の分岐条件および複数のコンポーネントで構成される。そのため、候補選択部３１は、予測モデルの選択基準に、予測モデルに含まれる説明変数の数や、それらの説明変数の係数、コンポーネントの数などを用いて、予測モデルの候補を選択する。

　以下、候補選択部３１が予測モデルの候補を選択する方法の具体例を説明する。本具体例では、学習部２０が、同一の学習データを用いて３０回学習することで、コンポーネントが線形回帰式で表される予測モデルの候補を３０個作成する場合を例に説明する。なお、各学習時にはランダムに初期値が与えられる。その結果、作成される予測モデルの候補も３０種類作成される。

　図３は、作成される予測モデルの具体例を示す説明図である。図３に例示するように、同一の学習データを用いた場合であっても、初期値に応じて、作成される予測モデルの構造や、作成されるコンポーネントの内容が異なる。

　例えば、図３に例示する予測モデル１では、コンポーネントが３つから選択される構造であるのに対し、予測モデル２では、コンポーネントが４つから選択される構造になっている。また、例えば、説明変数ｘ_１に着目すると、図３に例示する予測モデル１では、ｘ_１が２つのコンポーネントで採用されているのに対し、予測モデル２では、ｘ_１が３つのコンポーネントで採用されている。予測モデル３～３０についても、初期値に応じてそれぞれ異なる予測モデルが作成される。

　このように、予測モデルを構成する要素が異なるため、予測モデルの候補を選択するにあたり、予め選択基準が定められる。具体的には、候補選択部３１は、予測モデルを構成する要素を規則に基づいて数値化し、その規則に基づいて算出される数値が選択基準を満たさない予測モデルを除外する。選択基準は、上記規則に応じて定められる。選択基準は、各コンポーネントに含まれる説明変数の構成（具体的には、説明変数の有無、説明変数の係数など）に基づいて定められてもよい。

　例えば、候補選択部３１は、予測モデルｉに含まれるコンポーネントの係数の合計値coeff_value_i （より詳細には、正の係数の合計値coeff_value_positive_iおよび負の正数の合計値coeff_value_negative_i）を算出してもよい。そして、候補選択部３１は、算出された値と予め定められた選択基準とを比較して、予測モデルの候補を選択してもよい。他にも、候補選択部３１は、係数採用率に基づいて予測モデルの候補を選択してもよい。

　図４は、選択基準を設定した定義ファイルの例を示す説明図である。以下、予測モデルｉに含まれるコンポーネントの数をcomp_iとする。また、対象とする説明変数ｘについて、予測モデルｉに含まれるコンポーネントの中で係数が採用されたコンポーネントの数をcoeff_i 、そのうち正の係数が採用されたコンポーネントの数をcoeff_pos_i、負の係数が採用されたコンポーネントの数をcoeff_neg_i とする。

　図４に例示するcoefficient_usage_rate_target は、予測モデルへの係数採用率を表わし、positive_coefficient_usage_rate_targetは、そのうち正の係数採用率を表わし、negative_coefficient_usage_rate_targetは、負の係数採用率を表わす。

　予測モデルへの係数採用率は、係数が採用された予測モデル／ｎで算出される。ここで、ｎは、ランダムリスタート数（すなわち、予測モデルの数）である。同様に、予測モデルへの正の係数採用率は、正の係数が採用された予測モデル／ｎで算出され、予測モデルへの負の係数採用率は、負の係数が採用された予測モデル／ｎで算出される。

　また、図４に例示するcoefficient_usage_rate_modelは、コンポーネントへの係数採用率を表わし、positive_coefficient_usage_rate_model は、そのうち正の係数採用率を表わし、negative_coefficient_usage_rate_mocel は、負の係数採用率を表わす。

　コンポーネントへの係数採用率は、（Σ_ｉ（coeff_i/comp_i））/iで算出される。同様に、コンポーネントへの正の係数採用率は、（Σ_ｉ（coeff_positive_i/comp_i ））/iで算出され、コンポーネントへの負の係数採用率は、（Σ_ｉ（coeff_negative_i/comp_i ））/iで算出される。なお、ここで説明する算出式は一例であり、コンポーネントの採用率を算出する方法は、上記算出式に限定されない。例えば、コンポーネントへの係数採用率を（Σ_ｉ（coeff_i））/（Σ_ｉ（comp_i））で算出してもよい。

　また、図４に例示するcoefficient_value_threshold は、係数統計値を判断するための絶対値係数平均値を表わし、positive_coefficient_value_thresholdは、正の係数平均値を表わす。なお、同様に、負の係数採用率を表わすnegative_coefficient_value_thresholdが用いられてもよい。

　絶対値係数平均値は、（Σ_ｉ（coeff_value_i/coeff_i ））/iで算出される。同様に、正の係数平均値は、（Σ_ｉ（coeff_value_positive_i/coeff_positive_i ））/iで算出され、負の係数平均値は、（Σ_ｉ（coeff_value_negative_i/coeff_negative_i ））/iで算出される。

　図４に例示する定義ファイルには、属性（説明変数）ごとに選択基準（閾値）が定義される。図４に例示する定義ファイルには、属性の一例であるcustomer_number （顧客番号）およびmax_temperature （最高気温）に対して選択基準が定義されている。

　図４に示す例では、顧客番号について、予測モデルへの係数採用率が８０％を超え、そのうち正の係数採用率が７０％を超え、負の係数採用率が６０％を超えたものであって、コンポーネントへの係数採用率が５０％未満で、そのうち正の係数採用率が６０％未満であり、負の係数採用率が８０％未満である予測モデルの候補が選択されることを示す。さらに、顧客番号について、絶対値係数平均値が１０％を超え、そのうち正の係数平均値が２０％を超え、負の係数平均値が３０％未満である予測モデルの候補が選択されることを示す。最高気温についても同様である。

　候補選択部３１は、定義された選択基準（閾値）を満たす予測モデルの候補を選択する。なお、定義ファイルには、選択された予測モデルをソートする方法が定義されていてもよい。

　例えば、図３に示す例において、予測モデルが予測モデル１と予測モデル２の２つであるとする。予測モデル１には、コンポーネントが３つ含まれ、予測モデル２には、コンポーネントが４つ含まれる。ここで、図３に例示する説明変数ｘ_３に着目すると、コンポーネントへの係数採用率は、
　Σ_ｉ（coeff_i/comp_i））/I = (1/3 + 1/4) / 2 = 7/24　≒２９％
と算出される。一方、図３に例示する説明変数ｘ_２に着目すると、コンポーネントへの係数採用率は、
　Σ_ｉ（coeff_i/comp_i））/I = (3/3 + 4/4) / 2 = 1 ＝１００％
と算出される。このことから、例えば、コンポーネントへの係数採用率が低い説明変数ｘ_３を採用する予測モデルが他の予測モデルと異なる傾向を示すと判断することが可能になる。

　なお、選択基準として、係数の平均値だけでなく、係数の標準偏差（例えば、絶対値係数標準偏差、正の係数標準偏差および負の係数標準偏差）を算出してもよい。この場合、候補選択部３１は、例えば、標準偏差σ×ａより大きな値をとる属性を含む予測モデルを削除するようにしてもよい。

　以上、予測モデルが線形回帰式で表される複数のコンポーネントを要素に含む場合に、候補選択部３１が、そのコンポーネントが他の予測モデルと異なる傾向を示す予測モデルを、予測モデルの候補から除外する場合について説明した。

　一方、本実施形態で用いられる予測モデルのように、予測モデルが、説明変数の値に応じて割り当てるコンポーネントを選択する分岐条件を要素に含む場合、候補選択部３１は、予測モデルの選択基準にその分岐条件を用いてもよい。すなわち、候補選択部３１は、分岐条件が他の予測モデルと異なる傾向を示す予測モデルを、予測モデルの候補から除外してもよい。

　分岐条件の選択基準として、例えば、予測モデルに所定の説明変数を含む分岐条件が含まれているか否か、また、その説明変数を条件とする分岐条件の割合などが挙げられる。例えば、図２に例示する予測モデルの場合、分岐を示すノードに説明変数ｘ_１およびｘ_３が含まれている。そこで、候補選択部３１は、この説明変数の有無や割合に応じて予測モデルの候補を除外してもよい。

　なお、上記例では、候補選択部３１が定められた全ての選択基準を満たす予測モデルを選択する場合について説明した。一方、選択基準ごとに、その選択基準を満たした場合に付与されるスコアを定めておいてもよい。この場合、候補選択部３１は、予測モデルの候補ごとに各選択基準のスコアを集計し、集計されたスコアが閾値に満たない予測モデルを予測モデルの候補から除外してもよいし、集計されたスコアが予め定めた順位を下回る下位の予測モデルを予測モデルの候補から除外してもよい。

　このように、候補選択部３１は、予測モデルを構成する変数の採用率や、変数の重みを選択基準として用い、これらの選択基準に基づいて判断した際に、他の予測モデルと異なる傾向を示す予測モデルを、予測モデルの候補から除外する。なお、候補選択部３１は、除外すると決定した予測モデルの候補を残しておいてもよい。例えば、候補選択部３１は、除外すると決定した予測モデルの候補に除外フラグを設定しておき、後述する候補評価部３２の評価に用いられないようにしてもよい。

　候補評価部３２は、選択された予測モデル（すなわち、複数の予測モデルの候補のうち残った予測モデル）を評価し、評価結果を出力する。候補評価部３２は、選択した（すなわち、除外した以外の）予測モデルそのものを出力してもよく、各予測モデルの候補の評価結果を出力してもよい。

　候補評価部３２が、予測モデルを評価する方法は任意である。しかし、本実施形態では、特異な予測モデルが予め候補選択部３１により除外されているため、一般的な評価方法を用いても、複数の予測モデルから適切な予測モデルを選択できる。

　なお、除外すると決定した予測モデルの候補が残されている場合、候補評価部３２は、選択した予測モデルとともに、または、選択した予測モデルとは別に、予測モデルを構成する要素が他の予測モデルと異なる傾向を示す予測モデルの候補を可視化してもよい。具体的には、候補評価部３２は、一つの予測対象について学習された複数の予測モデルの候補を並べて可視化し、他の予測モデルと異なる傾向を示す箇所を強調表示してもよい。異なる傾向を示す箇所とは、例えば、決定木における特定のノード、コンポーネントそのもの、コンポーネントにおける特定の説明変数またはその説明変数の係数である。

　図５は、予測モデルを構成する要素が他の予測モデルと異なる傾向を示す予測モデルの候補を可視化した例を示す説明図である。図５に示す例では、３つの予測対象（オレンジジュースの売上、アップルジュースの売上およびグレープジュースの売上）を予測する予測モデルの候補が、それぞれ３０個ずつ生成されたとする。そして、生成された予測モデルの候補のうち、１つの予測モデルが実運用モデルとして選択されているとする。

　図５に例示する画面の上の領域には、３つの予測対象について、各予測対象の予測モデルを学習した学習アルゴリズム、選択された予測モデル（実運用モデル）が表示されている。図５に示す例では、オレンジジュースの売上を予測する予測モデルには、modelID=orange_15で識別される予測モデルが実運用モデルとして選択され、アップルジュースの売上を予測する予測モデルには、modelID=apple_07で識別される予測モデルが実運用モデルとして選択され、グレープジュースの売上を予測する予測モデルには、modelID=grape_20で識別される予測モデルが実運用モデルとして選択されたことを示す。

　図５では、画面の上の領域に表示された３つの予測対象の中から、予測モデルの候補を可視化する対象（ここでは、グレープジュースの売上）を選択した結果、画面の下部に予測モデルの候補が可視化された例を示している。候補評価部３２は、ユーザから予測対象としてグレープジュースの選択を受け付けると、グレープジュースの売上を予測する３０個の予測モデルの候補（modelID=grape_01～30）を表示する。その際、候補評価部３２は、他の予測モデルと異なる傾向を示す箇所が存在する場合、予測モデルの候補ごとにその箇所を強調表示（他とは異なる態様で表示）する。

　例えば、modelID=grape_01で識別される予測モデルの候補は、他の予測モデルの候補（modelID=grape_02～30で識別される予測モデルの候補）には含まれない説明変数を用いた分岐条件で決定木が分岐しているとする。そこで、候補評価部３２は、その分岐条件が存在するノードを強調表示してもよい。

　他にも、例えば、modelID=grape_02で識別される予測モデルの候補は、一番左端の葉ノードに位置するコンポーネントに含まれる一部の説明変数の係数が、突出して大きい値になっているとする。この場合、候補評価部３２は、そのコンポーネントの係数を強調表示してもよい。

　学習部２０と、評価部３０（より具体的には、候補選択部３１および候補評価部３２）とは、プログラム（予測モデル選択プログラム）に従って動作するコンピュータのＣＰＵによって実現される。例えば、プログラムは、記憶部１０に記憶され、ＣＰＵは、そのプログラムを読み込み、プログラムに従って、学習部２０および評価部３０（より具体的には、候補選択部３１および候補評価部３２）として動作してもよい。また、予測モデル選択システムの機能がＳａａＳ（Software as a Service ）形式で提供されてもよい。

　また、学習部２０と、評価部３０（より具体的には、候補選択部３１および候補評価部３２）とは、それぞれが専用のハードウェアで実現されていてもよい。また、各装置の各構成要素の一部又は全部は、汎用または専用の回路（circuitry ）、プロセッサ等やこれらの組合せによって実現されもよい。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。各装置の各構成要素の一部又は全部は、上述した回路等とプログラムとの組合せによって実現されてもよい。

　また、各装置の各構成要素の一部又は全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は、集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントアンドサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。

　次に、本実施形態の商品需要予測システムの動作を説明する。図６は、本実施形態の予測モデル選択システム１００の動作例を示すフローチャートである。

　学習部２０は、学習データに基づいて予測モデルの候補を学習する（ステップＳ１１）。そして、評価部３０（より具体的には、候補選択部３１）は、複数の予測モデルの候補のうち、予測モデルを構成する要素が他の予測モデルと異なる傾向を示す予測モデルを、予測モデルの候補から除外する（ステップＳ１２）。そして、評価部３０（より具体的には、候補評価部３２）は、選択された予測モデルを評価し、評価結果を出力する（ステップＳ１３）。

　以上のように、本実施形態では、学習部２０が学習データに基づいて予測モデルの候補を学習し、候補選択部３１が複数の予測モデルの候補のうち、予測モデルを構成する要素が他の予測モデルと異なる傾向を示す予測モデルを、予測モデルの候補から除外する。そのような構成により、訓練データの数量が十分でない場合でも、初期値依存性を有する学習アルゴリズムで作成された複数の予測モデル候補から適切な予測モデルを選択できる。

　これは、経験的に、他の予測モデルと傾向の異なる予測モデルは、その性能が劣ることが知られているからである。例えば、学習データに異常値が含まれている場合において、その異常値を当てに行こうと学習された予測モデルは、他の学習モデルとは異なる傾向を示す。

　一般に、多くの訓練データから導き出せる傾向は、どのような初期値から学習を始めても見つけられることが多い。一方、少ない訓練データにしか当てはまらない傾向は、特定の初期値でしか見つけられないことが多い。このような少ないサンプルにしか当てはまらない傾向を予測モデルに取り入れるようとすると、過学習になる可能性が高い。

　例えば、「晴れ時々雨」のような発生頻度が低い事象が発生した時に、たまたま高い売上が記録された場合を想定する。このような訓練データが存在すると、実際には売り上げを高めた要因が上記事象とは異なっていたとしても、学習アルゴリズムによっては、この事象と高い売上との偽相関を導き出してしまう。

　特異的な結果が必ずしもすべて不適切なものであるとは限らず、適切な場合も存在し得る。しかし、上述するように、十分でない数量のサンプルに基づいて作成されるモデルでは、このような特異的な結果を採用した場合に適切なモデルと不適切なモデルとの振れ幅が大きくなり、リスクも大きいと言える。

　一方、本願発明では、候補評価部３２が評価を行う前に、候補選択部３１が特異な予測モデルを除外しており、偽相関を有する可能性の高い予測モデルを除外できるため、上記のようなリスクを低減させることが可能になる。

　なお、本実施形態では、予測モデルを作成する学習アルゴリズムとして異種混合学習を用いる場合を例示した。ただし、本願発明では、予測モデルの構成（予測モデルを構成する要素）に着目して予測モデルを選択するため、予測モデルの内容が把握できる学習アルゴリズム（いわゆる、ホワイトボックスであるアルゴリズム）であれば、本願発明を適用可能である。

　次に、本発明の概要を説明する。図７は、本発明による予測モデル選択システムの概要を示すブロック図である。本発明による予測モデル選択システムは、複数の候補から予測モデルを選択する予測モデル選択システム８０（例えば、予測モデル選択システム１００）であって、学習データに基づいて予測モデルの候補を学習する学習部８１（例えば、学習部２０）と、複数の予測モデルの候補のうち、予測モデルを構成する要素が他の予測モデルと異なる傾向を示す予測モデルを、予測モデルの候補から除外する除外部８２（例えば、候補選択部３１）とを備えている。

　そのような構成により、訓練データの数量が十分でない場合でも、初期値依存性を有する学習アルゴリズムで作成された複数の予測モデル候補から適切な予測モデルを選択できる。

　具体的には、除外部８２は、予測モデルを構成する変数の採用率（例えば、係数採用率）および変数の重み（例えば、係数）のうちの少なくともいずれかが異なる傾向を示す予測モデルを、予測モデルの候補から除外してもよい。

　また、除外部８２は、予測モデルを構成する要素を規則に基づいて数値化し、算出された数値が、規則に応じて定められる選択基準を満たさない予測モデルを、予測モデルの候補から除外してもよい。

　また、選択基準ごとにその選択基準を満たした場合に付与されるスコアが定められている場合、除外部８２は、予測モデルの候補ごとに各選択基準のスコアを集計し、集計されたスコアが閾値に満たない予測モデルを、予測モデルの候補から除外してもよい。

　また、予測モデルは、線形回帰式で表される複数のコンポーネント（例えば、予測式）を要素に含んでいてもよい。このとき、除外部８２は、複数のコンポーネントが他の予測モデルと異なる傾向を示す予測モデルを、予測モデルの候補から除外してもよい。

　また、予測モデルは、入力されるデータに応じてコンポーネントを選択する分岐条件を要素に含んでいてもよい。このとき、除外部８２は、分岐条件が他の予測モデルと異なる傾向を示す予測モデルを、予測モデルの候補から除外してもよい。

　１０　記憶部
　２０　学習部
　３０　評価部
　３１　候補選択部
　３２　候補評価部
　１００　予測モデル選択システム

Claims

　複数の候補から予測モデルを選択する予測モデル選択システムであって、
　学習データに基づいて予測モデルの候補を学習する学習部と、
　複数の前記予測モデルの候補のうち、予測モデルを構成する要素が他の予測モデルと異なる傾向を示す予測モデルを、前記予測モデルの候補から除外する除外部とを備えた
　ことを特徴とする予測モデル選択システム。
　除外部は、予測モデルを構成する変数の採用率および変数の重みのうちの少なくともいずれかが異なる傾向を示す予測モデルを、予測モデルの候補から除外する
　請求項１記載の予測モデル選択システム。
　除外部は、予測モデルを構成する要素を規則に基づいて数値化し、算出された数値が、前記規則に応じて定められる選択基準を満たさない予測モデルを、予測モデルの候補から除外する
　請求項１または請求項２記載の予測モデル選択システム。
　選択基準ごとに当該選択基準を満たした場合に付与されるスコアが定められており、
　除外部は、予測モデルの候補ごとに各選択基準の前記スコアを集計し、集計されたスコアが閾値に満たない予測モデルを、予測モデルの候補から除外する
　請求項３記載の予測モデル選択システム。
　予測モデルは、線形回帰式で表される複数のコンポーネントを要素に含み、
　除外部は、前記複数のコンポーネントが他の予測モデルと異なる傾向を示す予測モデルを、予測モデルの候補から除外する
　請求項１から請求項４のうちのいずれか１項に記載の予測モデル選択システム。
　予測モデルは、入力されるデータに応じてコンポーネントを選択する分岐条件を要素に含み、
　除外部は、前記分岐条件が他の予測モデルと異なる傾向を示す予測モデルを、予測モデルの候補から除外する
　請求項１から請求項５のうちのいずれか１項に記載の予測モデル選択システム。
　複数の候補から予測モデルを選択する予測モデル選択方法であって、
　学習データに基づいて予測モデルの候補を学習し、
　複数の前記予測モデルの候補のうち、予測モデルを構成する要素が他の予測モデルと異なる傾向を示す予測モデルを、前記予測モデルの候補から除外する
　ことを特徴とする予測モデル選択方法。
　予測モデルを構成する変数の採用率および変数の重みのうちの少なくともいずれかが異なる傾向を示す予測モデルを、予測モデルの候補から除外する
　請求項７記載の予測モデル選択方法。
　複数の候補から予測モデルを選択するコンピュータに適用される予測モデル選択プログラムであって、
　前記コンピュータに、
　学習データに基づいて予測モデルの候補を学習する学習処理、および、
　複数の前記予測モデルの候補のうち、予測モデルを構成する要素が他の予測モデルと異なる傾向を示す予測モデルを、前記予測モデルの候補から除外する除外処理
　を実行させるための予測モデル選択プログラム。
　コンピュータに、
　除外処理で、予測モデルを構成する変数の採用率および変数の重みのうちの少なくともいずれかが異なる傾向を示す予測モデルを、予測モデルの候補から除外させる
　請求項９記載の予測モデル選択プログラム。