WO2011064876A1

WO2011064876A1 - 予測モデル生成装置

Info

Publication number: WO2011064876A1
Application number: PCT/JP2009/070013
Authority: WO
Inventors: 茂明櫻井
Original assignee: 株式会社東芝
Priority date: 2009-11-27
Filing date: 2009-11-27
Publication date: 2011-06-03

Abstract

　学習データ記憶部１１０は、複数種類の固定的な第１説明変量と時系列的な第２説明変量と被説明変量とを対応付けた組の集合である学習データを記憶する。生成部１２０は、学習データを学習して、複数種類の第１説明変量及び第２説明変量と被説明変量との間の関係を説明する予測モデルを生成する。評価部１２２は、予測モデルの妥当性を評価し、妥当であると評価した予測モデルを予測モデル記憶部１１２に登録する。選択部１２４は、予測モデルが妥当でないと評価された場合に、第１説明変量それぞれの第１評価値を算出し、第１説明変量のうち最大の第１評価値を有する選択説明変量を選択する。分割部１２６は、同じ値の選択説明変量を有する組の集合に学習データを分割し、分割した学習データそれぞれを新たな学習データとして学習データ記憶部１１０に登録する。生成部１２０は、新たな学習データ毎に、当該新たな学習データを学習して予測モデルを生成する。

Description

予測モデル生成装置

　本発明は、予測モデル生成装置に関する。

　従来から、説明変量と被説明変量との間の関係をモデル化する技術が知られている。例えば特許文献１には、ユーザに選択された説明変量の組み合わせを用いて評価用のクラスターを仮分類し、仮分類された評価用のクラスターを代表する被説明変量の値を求めて、仮分類の継続・停止を判定する技術が開示されている。特許文献１に開示された技術によれば、説明変量と被説明変量との間の関係を説明する最適なクラスター分類を決定することができる。また、例えば非特許文献１には、回帰分析について記載されており、この回帰分析を利用することにより、固定的な説明変量及び時系列的な説明変量と被説明変量との間の関係を説明する予測モデルを生成することができる。

特開２０００－１３２５５８号公報

竹内啓著　「数理統計学」　東洋経済新報社　１９６３年　ｐ．３０５－３２６

　しかしながら、特許文献１に開示された技術では、固定的な説明変量のみを対象としており、固定的な説明変量と時系列的な説明変量とを含む学習データの集合から、予測モデルを生成することはできなかった。また、非特許文献１に開示された回帰分析を利用する場合、学習データに含まれる全ての固定的な説明変量及び時系列的な説明変量を一括して取り扱う必要があるため、説明変量に内在する複数の特徴を一括して処理することとなり、精度の高い予測モデルを構築することは困難であった。

　本発明は、上記事情に鑑みてなされたものであり、説明変量に内在する複数の特徴を考慮して、固定的な説明変量及び時系列的な説明変量と被説明変量との間の関係を説明する予測モデルを生成することができる予測モデル生成装置を提供することを目的とする。

　本発明の一態様にかかる予測モデル生成装置は、複数種類の固定的な第１説明変量と時系列的な第２説明変量と被説明変量とを対応付けた組の集合である学習データを記憶する学習データ記憶部と、前記学習データを学習して、複数種類の前記第１説明変量及び前記第２説明変量と前記被説明変量との間の関係を説明する予測モデルを生成する生成部と、前記予測モデルの妥当性を評価し、妥当であると評価した前記予測モデルを予測モデル記憶部に登録する評価部と、前記予測モデルが妥当でないと評価された場合に、前記第１説明変量それぞれの第１評価値を算出し、前記第１説明変量のうち最大の前記第１評価値を有する選択説明変量を選択する選択部と、同じ値の前記選択説明変量を有する組の集合に前記学習データを分割し、分割した前記学習データそれぞれを新たな学習データとして前記学習データ記憶部に登録する分割部と、を備え、前記生成部は、前記新たな学習データ毎に、当該新たな学習データを学習して前記予測モデルを生成することを特徴とする。

　本発明によれば、説明変量に内在する複数の特徴を考慮して、固定的な説明変量及び時系列的な説明変量と被説明変量との間の関係を説明する予測モデルを生成することができるという効果を奏する。

本実施形態の予測モデル生成装置を示す図。学習データを示す図。図２に示す学習データを「ライン」の値で分割した場合における、ラインの値がトップスとなる学習データを示す図。図２に示す学習データを「ライン」の値で分割した場合における、ラインの値がボトムとなる学習データを示す図。図２に示す学習データを「ライン」の値で分割した場合における、ラインの値が雑貨となる学習データを示す図。図４に示す学習データを「サイズ」の値で分割した場合における、サイズの値がＳとなる学習データを示す図。図４に示す学習データを「サイズ」の値で分割した場合における、サイズの値がＭとなる学習データを示す図。図６に示す学習データを「色」の値で分割した場合における、色の値が青となる学習データを示す図。図６に示す学習データを「色」の値で分割した場合における、色の値が黄となる学習データを示す図。本実施形態の処理を示すフローチャート。図２～９に示す学習データから生成される予測モデルを示す図。

　以下、添付図面を参照しながら、本発明の予測モデル生成装置の実施形態を説明する。なお、以下の実施形態では、アパレルショップの店内で販売されている各商品に付与されているＲＦＩＤ（Ｒａｄｉｏ　Ｆｒｅｑｕｅｎｃｙ　Ｉｄｅｎｔｉｆｉｃａｔｉｏｎ）タグをＲＦＩＤリーダで読み込むことにより収集されるＲＦＩＤデータを学習データとして予測モデルを生成する例について説明するが、これに限定されるものではない。

　図１は、本実施形態の予測モデル生成装置１００の構成の一例を示すブロック図である。図１に示すように、予測モデル生成装置１００は、学習データ記憶部１１０と、生成部１２０と、評価部１２２と、予測モデル記憶部１１２と、選択部１２４と、分割部１２６と、を備える。

　学習データ記憶部１１０は、複数種類の固定的な第１説明変量と時系列的な第２説明変量と被説明変量とを対応付けた組の集合である学習データを記憶する。本実施形態では、アパレルショップから収集されるＲＦＩＤデータが学習データとして学習データ記憶部１１０に記憶されるものとする。学習データ記憶部１１０は、例えば、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）、ＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）、メモリカード、光ディスクなどの磁気的、光学的、又は電気的に記憶可能な既存の記憶装置により実現できる。

　第１説明変量は、時系列が変化してもその値が変化しない固定的な説明変量である。本実施形態の第１説明変量としては、例えば、色（赤，青，…）、サイズ（Ｓ，Ｍ，…）、ライン（ボトム，トップス，…）、地域（関東，東北，…）、店舗業態（ショッピングモール内店舗，独立店舗，…）、素材（絹，ナイロン，…）、形状（丸首，Ｖ字，…）、又は対象季節（夏物，オールシーズン，…）などが挙げられる。

　第２説明変量は、時系列の変化に伴いその値が変化する時系列的な説明変量である。本実施形態の第２説明変量としては、例えば、ピックアップ数（非負の整数値）、試着数（非負の整数値）、販売数（非負の整数値）、温度（非負の整数値）、湿度（非負の整数値）、雨量（非負の整数値）、来店数（非負の整数値）、店頭在庫数（非負の整数値）、倉庫在庫数（非負の整数値）、又は店員数（非負の整数値）などが挙げられる。

　本実施形態の被説明変量としては、例えば、次期販売数（非負の整数値）、次期店頭在庫数（非負の整数値）、次期倉庫在庫数（非負の整数値）、次期店員数（非負の整数値）などが挙げられる。

　なお、各説明変量の後の括弧書きは、当該説明変量が取りうる値を示している。

　図２は、学習データ記憶部１１０に記憶されている学習データの一例を示す図である。図２に示す例では、学習データは、複数種類の第１説明変量（色、サイズ、及びライン）と、複数種類の第２説明変量（ピックアップ数、試着数、及び販売数）と、被説明変量（次期販売数）とを対応付けた組の集合となっている。ここでは、第１説明変量の「色」が取りうる値は、「赤」、「青」、又は「黄」であり、第１説明変量の「サイズ」が取りうる値は、「Ｓ」、「Ｍ」、又は「Ｆ」であり、第１説明変量の「ライン」が取りうる値は、「トップス」、「ボトム」、又は「雑貨」となっている。なお、各組に対応付けられているｔ１～ｔ９は、各組の番号を示している。

　図１に戻り、生成部１２０は、学習データを学習して、複数種類の第１説明変量及び第２説明変量と被説明変量との間の関係を説明する予測モデルを生成する。

　具体的には、生成部１２０は、学習データに含まれる各組の第１説明変量及び第２説明変量に変量を設定する。生成部１２０は、第１説明変量については、当該第１説明変量が取りうる値（但し、最後の値は除く）毎に、その値である場合には１、その値でない場合には０となる変量を設定する。また、生成部１２０は、第２説明変量については、当該第２説明変量の値をそのまま変量に設定する。

　そして、生成部１２０は、複数種類の第１説明変量及び第２説明変量と被説明変量との間の関係を説明可能な第１回帰式を設定し、学習データに含まれる各組の第１説明変量及び第２説明変量に設定した変量を第１回帰式に適用した場合における残差が最小となるように、第１回帰式に付随するパラメータを決定する。これにより、パラメータ決定後の第１回帰式が予測モデルとして生成される。

　例えば、生成部１２０は、図２に示す学習データに対して回帰分析を利用することにより、説明変量ｘ_ｉ（ｉ＝１，２，…，９）と、被説明変量ｙとの間の関係を、数式（１）に示す第１回帰式によってモデル化する。

　ここで、ｘ_１は、第１説明変量である「色」の値が「赤」であるか否かを識別する変量であり、ｘ_２は、「色」の値が「青」であるか否かを識別する変量であり、ｘ_３は、第１説明変量である「サイズ」の値が「Ｓ」であるか否かを識別する変量であり、ｘ_４は、「サイズ」の値が「Ｍ」であるか否かを識別する変量であり、ｘ_５は、第１説明変量である「ライン」の値が「トップス」であるか否かを識別する変量であり、ｘ_６は、「ライン」の値が「ボトム」であるか否かを識別する変量である。また、ｘ_７は、第２説明変量である「ピックアップ数」の値を示す変量であり、ｘ_８は、第２説明変量である「試着数」の値を示す変量であり、ｘ_９は、第２説明変量である「販売数」の値を示す変量である。また、ｙは、被説明変量である「次期販売数」の値を示す変量である。そして、α_Ｌ及びβ_Ｌｉ（ｉ＝１，２，…，９）が、説明変量ｘ_ｉ及び被説明変量ｙから決定されるパラメータである。

　なお、数式（１）に示す第１回帰式では、ｘ_１及びｘ_２の値が決まると、「色」の値が「黄」であるか否かも自動的に決まるため、「色」の値が「黄」であるか否かを識別する変量は回帰式に組み込まれていない。同様の理由で、「サイズ」の値が「Ｆ」であるか否かを識別する変量、及び「ライン」の値が「雑貨」であるか否かを識別する変量も、回帰式に組み込まれていない。

　また、生成部１２０は、学習データに含まれる各組の第１説明変量及び第２説明変量に設定した変量を第１回帰式に適用することにより自由度調整済みの重回帰係数を算出する。

　評価部１２２は、予測モデルの妥当性を評価し、妥当であると評価した予測モデルを予測モデル記憶部１１２に登録する。

　具体的には、評価部１２２は、パラメータ決定後の第１回帰式の良さを評価する第２評価値が予め定められた第１閾値以上である場合に予測モデルが妥当であると評価し、第２評価値が閾値未満である場合に予測モデルが妥当でないと評価する。ここで、第１回帰式を評価する第２評価値としては多様なものが考えられるが、例えば、非特許文献１に記載されている自由度調整済の重相関係数を用いることができる。なお、自由度調整済の重相関係数は、生成部１２０により算出される。

　そして、評価部１２２は、第２評価値が第１閾値以上であると判定した場合、生成部１２０により生成された予測モデルを予測モデル記憶部１１２に登録する。具体的には、評価部１２２は、第１回帰式を構成する説明変量、及び第１回帰式を構成するパラメータを予測モデルとして予測モデル記憶部１１２に登録する。一方、評価部１２２は、第２評価値が第１閾値未満であると判定した場合、生成部１２０により生成された予測モデルの予測モデル記憶部１１２への登録は行わない。

　予測モデル記憶部１１２は、評価部１２２により妥当であると評価された予測モデルを記憶するものであり、学習データ記憶部１１０同様、既存の記憶装置により実現できる。

　選択部１２４は、予測モデルが妥当でないと評価された場合に、第１説明変量それぞれの第１評価値を算出し、算出した第１評価値が最大となる第１説明変量（選択説明変量）を選択する。第１評価値には、例えば、第１説明変量だけを説明変量として第２回帰式を求めた場合における自由度調整済の重相関係数を用いることができる。

　例えば図２に示すように、第１説明変量が、「色」、「サイズ」、及び「ライン」である場合、選択部１２４は、第１説明変量が「色」でその値が「赤」である変量をｘ_１、第１説明変量が「色」でその値が「青」である変量をｘ_２に設定し、被説明変量である次期販売数ｙとの間の関係を説明する第２回帰式を設定する。また、選択部１２４は、第１説明変量が「サイズ」でその値が「Ｓ」である変量をｘ_１、第１説明変量が「サイズ」でその値が「Ｍ」である変量をｘ_２に設定し、被説明変量である次期販売数ｙとの間の関係を説明する第２回帰式を設定する。また、選択部１２４は、第１説明変量が「ライン」でその値が「トップス」である変量をｘ_１、第１説明変量が「ライン」でその値が「ボトム」である変量をｘ_２に設定し、被説明変量である次期販売数ｙとの間の関係を説明する第２回帰式を設定する。

　そして、選択部１２４は、設定した各第２回帰式に学習データを適用することにより、各第２回帰式に対応する自由度調整済の重相関係数を第１評価値として算出し、算出した第１評価値が最大となる第１説明変量（第２回帰式）を選択する。例えば、「色」、「サイズ」、「ライン」の自由度調整済の重相関係数が、それぞれ、０．６、０．７、０．８である場合、選択部１２４は、重相関係数が最大となる第１説明変量として「ライン」を選択する。

　分割部１２６は、選択部１２４により選択された第１説明変量の値が同一である組の集合に学習データを分割し、分割した学習データそれぞれを新たな学習データとして学習データ記憶部１１０に登録する。

　例えば図２に示す学習データにおいて、選択部１２４により第１説明変量として「ライン」が選択された場合、分割部１２６は、図２に示す学習データを、「ライン」の値が「トップス」である組の集合（図３参照）、「ライン」の値が「ボトム」である組の集合（図４参照）、及び「ライン」の値が「雑貨」である組の集合（図５参照）に分割する。そして、分割部１２６は、分割した学習データそれぞれを新たな学習データとして学習データ記憶部１１０に登録する。

　また例えば、生成部１２０により図４に示す学習データから予測モデルが生成され、評価部１２２により予測モデルが妥当でないと評価され、選択部１２４により第１説明変量として「サイズ」が選択されたとする。この場合、分割部１２６は、図４に示す学習データを、「サイズ」の値が「Ｓ」である組の集合（図６参照）、「サイズ」の値が「Ｍ」である組の集合（図７参照）に分割する。そして、分割部１２６は、分割した学習データそれぞれを新たな学習データとして学習データ記憶部１１０に登録する。

　また例えば、生成部１２０により図６に示す学習データから予測モデルが生成され、評価部１２２により予測モデルが妥当でないと評価され、選択部１２４により第１説明変量として「色」が選択されたとする。この場合、分割部１２６は、図６に示す学習データを、「色」の値が「青」である組の集合（図８参照）、「色」の値が「黄」である組の集合（図９参照）に分割する。そして、分割部１２６は、分割した学習データそれぞれを新たな学習データとして学習データ記憶部１１０に登録する。

　ここで、分割部１２６により学習データ記憶部１１０に登録された新たな学習データに対する生成部１２０及び評価部１２２の処理について説明する。

　例えば、生成部１２０は、図３に示す学習データを学習して予測モデルを生成する場合、図３に示す学習データに対して回帰分析を利用することにより、説明変量ｘ_ｉ（ｉ＝１，２，…，７）と、被説明変量ｙとの間の関係を、数式（２）に示す第１回帰式によってモデル化する。

　ここで、ｘ_１は、第１説明変量である「色」の値が「赤」であるか否かを識別する変量であり、ｘ_２は、「色」の値が「青」であるか否かを識別する変量であり、ｘ_３は、第１説明変量である「サイズ」の値が「Ｓ」であるか否かを識別する変量であり、ｘ_４は、「サイズ」の値が「Ｍ」であるか否かを識別する変量である。また、ｘ_５は、第２説明変量である「ピックアップ数」の値を示す変量であり、ｘ_６は、第２説明変量である「試着数」の値を示す変量であり、ｘ_７は、第２説明変量である「販売数」の値を示す変量である。また、ｙは、被説明変量である「次期販売数」の値を示す変量である。そして、α_ＬＴ及びβ_ＬＴｉ（ｉ＝１，２，…，７）が、説明変量ｘ_ｉ及び被説明変量ｙから決定されるパラメータである。なお、図３に示す例では、第１説明変量である「ライン」の値は「トップス」のみとなっており、特定の第１説明変量の値が特定の値のみとなっているため、「ライン」は、第１回帰式に組み込まれていない。

　そして、評価部１２２は、図３に示す学習データから生成した予測モデルを妥当であると評価する場合、図３に示す学習データに分割される際に選択部１２４により選択された第１説明変量である「ライン」、及び図３に示す学習データにおける「ライン」の値である「トップス」を、予測モデルに対応付けて予測モデル記憶部１１２に登録する。

　また例えば、生成部１２０は、図５に示す学習データを学習して予測モデルを生成する場合、図５に示す学習データに対して回帰分析を利用することにより、説明変量ｘ_ｉ（ｉ＝１，２，…，７）と、被説明変量ｙとの間の関係を、数式（３）に示す第１回帰式によってモデル化する。

　ここで、ｘ_１は、第１説明変量である「色」の値が「赤」であるか否かを識別する変量であり、ｘ_２は、「色」の値が「青」であるか否かを識別する変量であり、ｘ_３は、第１説明変量である「サイズ」の値が「Ｓ」であるか否かを識別する変量であり、ｘ_４は、「サイズ」の値が「Ｍ」であるか否かを識別する変量である。また、ｘ_５は、第２説明変量である「ピックアップ数」の値を示す変量であり、ｘ_６は、第２説明変量である「試着数」の値を示す変量であり、ｘ_７は、第２説明変量である「販売数」の値を示す変量である。また、ｙは、被説明変量である「次期販売数」の値を示す変量である。そして、α_ＬＯ及びβ_ＬＯｉ（ｉ＝１，２，…，７）が、説明変量ｘ_ｉ及び被説明変量ｙから決定されるパラメータである。なお、図５に示す例では、第１説明変量である「ライン」の値は「雑貨」のみとなっているため、「ライン」は、第１回帰式に組み込まれていない。

　そして、評価部１２２は、図５に示す学習データから生成した予測モデルを妥当であると評価する場合、図５に示す学習データに分割される際に選択部１２４により選択された第１説明変量である「ライン」、及び図５に示す学習データにおける「ライン」の値である「雑貨」を、予測モデルに対応付けて予測モデル記憶部１１２に登録する。

　また例えば、生成部１２０は、図７に示す学習データを学習して予測モデルを生成する場合、図７に示す学習データに対して回帰分析を利用することにより、説明変量ｘ_ｉ（ｉ＝１，２，…，５）と、被説明変量ｙとの間の関係を、数式（４）に示す第１回帰式によってモデル化する。

　ここで、ｘ_１は、第１説明変量である「色」の値が「赤」であるか否かを識別する変量であり、ｘ_２は、「色」の値が「青」であるか否かを識別する変量である。また、ｘ_３は、第２説明変量である「ピックアップ数」の値を示す変量であり、ｘ_４は、第２説明変量である「試着数」の値を示す変量であり、ｘ_５は、第２説明変量である「販売数」の値を示す変量である。また、ｙは、被説明変量である「次期販売数」の値を示す変量である。そして、α_ＳＭ及びβ_ＳＭｉ（ｉ＝１，２，…，５）が、説明変量ｘ_ｉ及び被説明変量ｙから決定されるパラメータである。なお、図７に示す例では、第１説明変量である「ライン」、「サイズ」の値は、それぞれ「ボトム」、「Ｍ」のみとなっているため、「ライン」及び「サイズ」は、第１回帰式に組み込まれていない。

　そして、評価部１２２は、図７に示す学習データから生成した予測モデルを妥当であると評価する場合、図７に示す学習データに分割されるまでに選択部１２４により選択された第１説明変量である「ライン」、「サイズ」、及びその値である「ボトム」、「Ｍ」を予測モデルに対応付けて予測モデル記憶部１１２に登録する。

　また例えば、生成部１２０は、図９に示す学習データを学習して予測モデルを生成する場合、図９に示す学習データに対して回帰分析を利用することにより、説明変量ｘ_ｉ（ｉ＝１，２，３）と、被説明変量ｙとの間の関係を、数式（５）に示す第１回帰式によってモデル化する。

　ここで、ｘ_１は、第２説明変量である「ピックアップ数」の値を示す変量であり、ｘ_２は、第２説明変量である「試着数」の値を示す変量であり、ｘ_３は、第２説明変量である「販売数」の値を示す変量である。また、ｙは、被説明変量である「次期販売数」の値を示す変量である。そして、α_ＣＹ及びβ_ＣＹｉ（ｉ＝１，２，３）が、説明変量ｘ_ｉ及び被説明変量ｙから決定されるパラメータである。なお、図９に示す例では、第１説明変量である「ライン」、「サイズ」、「色」の値は、それぞれ「ボトム」、「Ｓ」、「黄」のみとなっているため、「ライン」、「サイズ」、及び「色」は、第１回帰式に組み込まれていない。

　そして、評価部１２２は、図９に示す学習データから生成した予測モデルを妥当であると評価する場合、図９に示す学習データに分割されるまでに選択部１２４により選択された第１説明変量である「ライン」、「サイズ」、「色」及びその値である「ボトム」、「Ｓ」、「黄」を予測モデルに対応付けて予測モデル記憶部１１２に登録する。

　なお、生成部１２０、評価部１２２、選択部１２４、及び分割部１２６については、例えば、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）などの既存の制御装置により実現できる。

　図１０は、本実施形態の予測モデル生成装置１００で行われる処理の一例を示すフローチャートである。

　ステップＳ１００では、生成部１２０は、学習データ記憶部１１０に記憶されている学習データの読み込みを行う。

　ステップＳ１０２では、生成部１２０は、ノードを生成して、読み込んだ学習データに割り当てる。

　ステップＳ１０３では、生成部１２０は、学習データに割り当てたノードをスタックに格納する。

　ステップＳ１０４では、生成部１２０は、スタックに格納されている１のノードを取り出す。但し、スタックにノードが格納されておらず、生成部１２０がノードを取り出せない場合には（ステップＳ１０４でＮｏ）、処理は終了となる。一方、生成部１２０がノードを取り出した場合には（ステップＳ１０４でＹｅｓ）、ステップＳ１０６に進む。

　ステップＳ１０６では、生成部１２０は、取り出したノードに割り当てられた学習データを学習して、複数種類の第１説明変量及び第２説明変量と被説明変量との間の関係を説明する予測モデルを生成する。

　ステップＳ１０８では、評価部１２２は、生成部１２０により生成された予測モデルの妥当性を評価し、妥当であると評価した場合には（ステップＳ１０８でＹｅｓ）、ステップＳ１１０に進み、妥当でないと評価した場合には（ステップＳ１０８でＮｏ）、ステップＳ１１２に進む。

　ステップＳ１１０では、評価部１２２は、妥当であると評価した予測モデルを予測モデル記憶部１１２に登録し、ステップＳ１０４に戻る。なお、評価部１２２は、妥当であると評価した予測モデルが分割部１２６により分割された新たな学習データから生成された予測モデルである場合には、新たな学習データに割り当てたノードに到達するまでに選択部１２４により選択された第１説明変量及びその値を当該予測モデルに対応付けて予測モデル記憶部１１２に登録する。

　ステップＳ１１２では、選択部１２４は、評価部１２２により予測モデルが妥当でないと評価された場合、取り出されたノードに割り当てられた学習データに含まれる第１説明変量それぞれの第１評価値を算出し、最大の第１評価値を有する第１説明変量（選択説明変量）を選択する。但し、学習データに選択するべき第１説明変量が存在せず、第１説明変量を選択できない場合には（ステップＳ１１２でＮｏ）、ステップＳ１２４へ進む。一方、選択部１２４が第１説明変量を選択した場合には（ステップＳ１１２でＹｅｓ）、ステップＳ１１４に進む。

　ステップＳ１１４では、分割部１２６は、取り出されたノードに割り当てられた学習データを、選択部１２４により選択された第１説明変量の値が同一である組の集合に分割する。

　ステップＳ１１５では、分割部１２６は、分割した学習データそれぞれを新たな学習データとして学習データ記憶部１１０に登録する。

　ステップＳ１１６では、生成部１２０は、学習データ記憶部１１０に記憶されている新たな学習データの読み込みを行う。但し、学習データ記憶部１１０に新たな学習データが記憶されておらず、生成部１２０が新たな学習データを読み込めない場合には（ステップＳ１１６でＮｏ）、ステップＳ１０４に戻る。一方、生成部１２０が新たな学習データを読み込めた場合には（ステップＳ１１６でＹｅｓ）、ステップＳ１１７に進む。

　ステップＳ１１７では、生成部１２０は、ノードを生成して、読み込んだ新たな学習データに割り当てる。

　ステップＳ１１８では、生成部１２０は、読み込んだ新たな学習データに割り当てたノードをスタックに格納するか否かを判定する。具体的には、生成部１２０は、読み込んだ新たな学習データに含まれる組の個数から第３評価値を算出し、第３評価値が予め指定された第２閾値以上となるか否かを判定する。そして、生成部１２０は、第３評価値が第２閾値以上となる場合にはノードをスタックに格納すると判定して（ステップＳ１１８でＹｅｓ）、ステップＳ１２０に進み、第３評価値が第２閾値未満となる場合にはノードをスタックに格納しないと判定して（ステップＳ１１８でＮｏ）、ステップＳ１２２に進む。ここで、第３評価値としては多様なものが考えられるが、例えば、新たな学習データに含まれる組の個数を、当初の学習データに含まれる組の個数で割った値を用いることができる。

　ステップＳ１２０では、生成部１２０は、読み込んだ新たな学習データに割り当てたノードをスタックに格納する。

　ステップＳ１２２では、評価部１２２は、読み込んだ新たな学習データに割り当てたノードに、当該新たな学習データから予測モデルが生成できず、予測モデルが無いことを示すフラグを付与し、予測モデル記憶部１１２に登録し、ステップＳ１１６に戻る。

　ステップＳ１２４では、評価部１２２は、評価部１２２により妥当でないと評価された予測モデルの生成元の学習データに割り当てたノードに、予測モデルが無いことを示すフラグを付与し、予測モデル記憶部１１２に登録し、ステップＳ１０４に戻る。

　そして、本実施形態では、まず、図２に示す学習データから予測モデルが生成され、この予測モデルが妥当でないと評価され、第１説明変量として「ライン」が選択され、図２に示す学習データが図３～図５に示す学習データに分割されるものとする。

　続いて、図３に示す学習データから予測モデルが生成され、この予測モデルが妥当であると評価され、予測モデル記憶部１１２に登録されるものとする。

　続いて、図４に示す学習データから予測モデルが生成され、この予測モデルが妥当でないと評価され、第１説明変量として「サイズ」が選択され、図４に示す学習データが図６～図７に示す学習データに分割されるものとする。

　続いて、図５に示す学習データから予測モデルが生成され、この予測モデルが妥当であると評価され、予測モデル記憶部１１２に登録されるものとする。

　続いて、図６に示す学習データから予測モデルが生成され、この予測モデルが妥当でないと評価され、第１説明変量として「色」が選択され、図６に示す学習データが図８～図９に示す学習データに分割されるものとする。

　続いて、図７に示す学習データから予測モデルが生成され、この予測モデルが妥当であると評価され、予測モデル記憶部１１２に登録されるものとする。

　続いて、図８に示す学習データから予測モデルが生成され、この予測モデルが妥当でないと評価され、第１説明変量が選択されず、予測モデルが予測モデル記憶部１１２に登録されないものとする。

　続いて、図９に示す学習データから予測モデルが生成され、この予測モデルが妥当であると評価され、予測モデル記憶部１１２に登録されるものとする。

　この結果、予測モデル記憶部１１２には、図１１に示す予測モデルが生成される。なお、図１１に示す例では、各丸印がノードに対応しており、末端のノード以外には、選択された第１説明変量が割り当てられている。また、末端のノードには、第１説明変量の値の組み合わせに対応する第１回帰式、又は第１回帰式が割り当てられていないことを示すフラグ「予測モデル無し」が割り当てられている。また、ノード間を結ぶ枝には、上位のノードにおける第１説明変量の取りうる値が割り当てられている。なお、最上位のノードから末端のノードに至るまでに表れる第１説明変量及びその値が、末端ノードに割り当てられている回帰式及びフラグに対応する条件を表しているとする。

　以上のように、本実施形態では、学習データから生成された予測モデルが妥当でないと評価された場合、選択された第１説明変量の値が同一である組の集合に学習データが分割され、分割された新たな学習データそれぞれから予測モデルが生成される。従って本実施形態によれば、説明変量に内在する複数の特徴を考慮して、固定的な第１説明変量及び時系列的な第２説明変量と被説明変量との間の関係を説明する予測モデルを生成することができる。また、従来よりも精緻な予測モデルを生成することができる。

　例えば図２に示すように、「ライン」が「ボトム」である商品は、通常は試着されるため試着回数が多くなるが、「ライン」が「トップス」である商品は、通常は試着されないため試着回数が少なくなる傾向にある。

　従来の技術では、このような「ライン」の値による特徴の違いを考慮することができないため、「ライン」が「ボトム」である学習データと「ライン」が「トップス」である学習データをひとまとめにして、予測モデルを生成していた。このため、「ライン」の値による特徴の違いが平均化されてしまい、妥当な予測モデルを生成することができなかった。

　これに対し、本実施形態では、「ライン」が「ボトム」である学習データ及び「ライン」が「トップス」である学習データから個別に予測モデルを生成できるため、「ライン」の値による特徴の違いを捉えた妥当な予測モデルを生成することができる。

　また本実施形態によれば、固定的な第１説明変量及び時系列的な第２説明変量と被説明変量との間の関係を説明する予測モデルを生成できるので、従来に比べ学習データとして取り扱える対象を拡大することができる。

　なお、本実施形態の予測モデル生成装置は、ＣＰＵなどの制御装置と、ＲＯＭやＲＡＭなどの記憶装置と、ＨＤＤやリムーバブルドライブ装置などの外部記憶装置と、ディスプレイなどの表示装置と、キーボードやマウスなどの入力装置を備えており、通常のコンピュータを利用したハードウェア構成となっている。

（変形例）
　本発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化することができる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成することができる。例えば、実施形態に示される全構成要素からいくつかの構成要素を削除してもよい。

　例えば上記実施の形態では、線形な回帰式によって第１回帰式を構成しているが、ｎ次式、ｌｏｇ関数、又は指数関数などの非線形関数を利用して第１回帰式を構成することもできる。

　また上記実施の形態では、第１説明変量として、「色」、「サイズ」、「ライン」を例に取り説明したが、第１説明変量の種類はこれに限定されるものではなく、また、その個数も２以上の任意の値とすることができる。同様に、第２説明変量として、「ピックアップ数」、「試着数」、「販売数」を例に取り説明したが、第２説明変量の種類及び個数はこれに限定されるものではない。同様に、被説明変量として、「次期販売数」を例に取り説明したが、これに限定されるものではない。

　また、上記実施形態の予測モデル生成装置の機能を、予測モデル生成プログラムを実行することにより実現させるようにしてもよい。

　この場合、上記実施形態の予測モデル生成装置で実行される予測モデル生成プログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ－ＲＯＭ、ＣＤ－Ｒ、メモリカード、ＤＶＤ（Ｄｉｇｉｔａｌ　Ｖｅｒｓａｔｉｌｅ　Ｄｉｓｋ）、フレキシブルディスク（ＦＤ）等のコンピュータで読み取り可能な記憶媒体に記憶されてコンピュータプログラムプロダクトとして提供される。また、上記実施形態の予測モデル生成装置で実行される予測モデル生成プログラムを、ＲＯＭ等に予め組み込んで提供するようにしてもよい。

　上記実施形態の予測モデル生成装置で実行される予測モデル生成プログラムは、上述した各部をコンピュータ上で実現させるためのモジュール構成となっている。実際のハードウェアとしては、ＣＰＵがＲＯＭ等から予測モデル生成プログラムをＲＡＭ上に読み出して実行することにより、上記各部がコンピュータ上で実現されるようになっている。

　以上のように、本発明にかかる予測モデル生成装置は、説明変量と被説明変量との間の関係を説明する予測モデルの生成に適している。

　１００　予測モデル生成装置
　１１０　学習データ記憶部
　１１２　予測モデル記憶部
　１２０　生成部
　１２２　評価部
　１２４　選択部
　１２６　分割部

Claims

　複数種類の固定的な第１説明変量と時系列的な第２説明変量と被説明変量とを対応付けた組の集合である学習データを記憶する学習データ記憶部と、
　前記学習データを学習して、複数種類の前記第１説明変量及び前記第２説明変量と前記被説明変量との間の関係を説明する予測モデルを生成する生成部と、
　前記予測モデルの妥当性を評価し、妥当であると評価した前記予測モデルを予測モデル記憶部に登録する評価部と、
　前記予測モデルが妥当でないと評価された場合に、前記第１説明変量それぞれの第１評価値を算出し、前記第１説明変量のうち最大の前記第１評価値を有する選択説明変量を選択する選択部と、
　同じ値の前記選択説明変量を有する組の集合に前記学習データを分割し、分割した前記学習データそれぞれを新たな学習データとして前記学習データ記憶部に登録する分割部と、を備え、
　前記生成部は、前記新たな学習データ毎に、当該新たな学習データを学習して前記予測モデルを生成することを特徴とする予測モデル生成装置。
　前記生成部は、複数種類の前記第１説明変量及び前記第２説明変量と前記被説明変量との間の関係を説明可能な第１回帰式を設定し、前記第１回帰式に前記学習データを適用した場合における残差が最小となるように前記第１回帰式のパラメータを決定することにより、前記パラメータ決定後の前記第１回帰式を前記予測モデルとして生成することを特徴とする請求項１に記載の予測モデル生成装置。
　前記生成部は、前記第１回帰式に前記学習データを適用することにより自由度調整済みの重回帰係数を第２評価値として算出し、
　前記評価部は、前記第２評価値が閾値以上である場合に前記予測モデルが妥当であると評価し、前記第２評価値が閾値未満である場合に前記予測モデルが妥当でないと評価することを特徴とする請求項２に記載の予測モデル生成装置。
　前記選択部は、前記第１説明変量と前記被説明変量との間の関係を説明可能な第２回帰式を前記第１説明変量毎に設定し、前記第２回帰式それぞれに前記学習データを適用することにより、自由度調整済みの重回帰係数を前記第１評価値として算出することを特徴とする請求項１に記載の予測モデル生成装置。
　前記評価部は、前記新たな学習データから生成された前記予測モデルを妥当であると評価した場合、前記予測モデルと前記選択説明変量及び前記新たな学習データにおける前記選択説明変量の値とを対応付けて前記予測モデル記憶部に登録することを特徴とする請求項１に記載の予測モデル生成装置。