JPWO2019087526A1

JPWO2019087526A1 - 評価システム、評価方法および評価用プログラム

Info

Publication number: JPWO2019087526A1
Application number: JP2019549880A
Authority: JP
Inventors: 伸志伊藤; 遼平藤巻
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2017-11-02
Filing date: 2018-08-17
Publication date: 2020-11-12
Anticipated expiration: 2038-08-17
Also published as: JP6828830B2; US20210182702A1; US11586951B2; WO2019087526A1

Abstract

学習部８１は、学習に用いるサンプルから複数のサンプル群を生成し、生成されたサンプル群のうち学習に用いるサンプル群が重複しないように複数の予測モデルを生成する。最適化部８２は、予測モデルにより予測される被説明変数および最適化の制約条件に基づいて目的関数を生成し、生成された目的関数を最適化する。評価部８３は、最適化の結果を、その最適化の対象とした目的関数の生成に用いた予測モデルの学習で用いなかったサンプル群を用いて評価する。

Description

本発明は、予測に基づく最適化の結果を評価する評価システム、評価方法および評価用プログラムに関する。

近年、データ駆動型の意思決定は、大きな注目を集めており、多くの実用的なアプリケーションで使用されている。最も有望なアプローチの１つが、機械学習によって生成される予測モデルに基づく数理最適化である。近年の機械学習の進歩により、正確な予測モデルを作成することが容易になり、予測結果が数理最適化の問題を構築するために使用されている。以下の説明では、このような問題を、予測型数理最適化、または単に予測最適化と記す。

これらのアプローチは、頻繁な試行錯誤プロセスが実用的とは言えない水分配最適化、エネルギー生成計画、小売価格最適化、サプライチェーン管理、ポートフォリオ最適化などのアプリケーションで使用される。

予測最適化の重要な特徴の１つは、標準的な最適化とは異なり、目的関数が機械学習によって推定されることである。例えば、予測に基づく価格最適化では、将来の収益は本来未知であるため、収益を予測するための関数は製品価格の関数として、需要の回帰式により推定される。

特許文献１には、商品の発注計画を決定する発注計画決定装置が記載されている。特許文献１記載の発注計画決定装置は、価格ごとの商品の需要を予測し、予測された需要を用いて価格と発注量とを入力とし且つ利益を出力とする目的関数の最適化問題を解くことにより、利益が最大となる商品の価格と発注量の組み合わせを算出する。

なお、非特許文献１には、与えられたシャープ・レシオに対して適切な割引を決定する方法が記載されている。

特開２０１６−１１０５９１号公報

Harvey, Campbell R and Liu, Yan, "Backtesting", SSRN Electronic Journal, 2015

予測に基づいて戦略を決める具体的な方法として、特許文献１に記載されているように、観測されたデータを元に予測モデルを作成し、予測モデルをもとに最適な戦略を計算するという手段が挙げられる。このとき最適化した結果の効果を見積もることが重要である。効果の単純な評価方法の一つは、最適化に用いた予測モデルを用いて最適解による効果を見積もるという方法である。

ここで、現実そのものを表す（真の）目的関数ｆ（ｚ，θ^＊）に対して推定された目的関数ｆ（ｚ，θ＾）を想定する。なお、本明細書において、上付き＾を、記号に併記して記すこともある。例えば、θの上付き＾を、θ＾と記すこともある。

ｚとθは、決定変数であり、それぞれｆのパラメータである。また、推定された最適戦略をｚ＾とする。すなわち、

である。ここで、Ｚはｚの動き得る範囲である。

予測最適化において、ｆ（ｚ＾，θ^＊）を観測するには、現実の環境において戦略ｚ＾を実行することが必要なため困難である。そのため、ｚ＾の特性を評価するため、一般にｆ（ｚ＾，θ＾）によってｆ（ｚ＾，θ^＊）が推定される。

しかし、非特許文献１に記載されているように、アルゴリズム投資やポートフォリオ最適化において、ｆ（ｚ＾，θ＾）は、非常に楽観的になる傾向がある。言い換えると、推定に基づく最適値は、一般的に楽観的な方向に偏ってしまう。

非特許文献１の記載によれば、トレーディング戦略を評価する際の一般的な方法は、推定目標を５０％割り引くという単純な発見的方法である。すなわち、非特許文献１では、０．５ｆ（ｚ＾，θ＾）をｆ（ｚ，θ^＊）の推定器とみなしている。また、最近の研究では、統計的に分析され、問題を緩和するアルゴリズムが提案されている。

しかし、これらのアルゴリズムは、特定のアプリケーション（例えば、アルゴリズム投資）に限定されている。さらに、一般的な予測最適化問題において、ｆ（ｚ，θ^＊）のバイアスのない推定器のための原理的なアルゴリズムは存在しない。

そこで、本発明は、予測最適化における楽観的なバイアスを抑制した評価を行うことができる評価システム、評価方法および評価システムを提供することを目的とする。

本発明による評価システムは、学習に用いるサンプルから複数のサンプル群を生成し、生成されたサンプル群のうち学習に用いるサンプル群が重複しないように複数の予測モデルを生成する学習部と、予測モデルにより予測される被説明変数および最適化の制約条件に基づいて目的関数を生成し、生成された目的関数を最適化する最適化部と、最適化の結果を、その最適化の対象とした目的関数の生成に用いた予測モデルの学習で用いなかったサンプル群を用いて評価する評価部とを備えたことを特徴とする。

本発明による評価方法は、学習に用いるサンプルから複数のサンプル群を生成し、生成されたサンプル群のうち学習に用いるサンプル群が重複しないように複数の予測モデルを生成し、予測モデルにより予測される被説明変数および最適化の制約条件に基づいて目的関数を生成し、生成された目的関数を最適化し、最適化の結果を、その最適化の対象とした目的関数の生成に用いた予測モデルの学習で用いなかったサンプル群を用いて評価することを特徴とする。

本発明による評価用プログラムは、コンピュータに、学習に用いるサンプルから複数のサンプル群を生成し、生成されたサンプル群のうち学習に用いるサンプル群が重複しないように複数の予測モデルを生成する学習処理、予測モデルにより予測される被説明変数および最適化の制約条件に基づいて目的関数を生成し、生成された目的関数を最適化する最適化処理、および、最適化の結果を、その最適化の対象とした目的関数の生成に用いた予測モデルの学習で用いなかったサンプル群を用いて評価する評価処理を実行させることを特徴とする。

本発明によれば、予測最適化における楽観的なバイアスを抑制した評価を行うことができる。

本発明による評価システムの一実施形態の構成例を示すブロック図である。学習データの例を示す説明図である。外部要因データの例を示す説明図である。制約条件の例を示す説明図である。予測モデルの例を示す説明図である。総利益を最大化するための最適化問題の例を示す説明図である。評価結果を出力する例を示す説明図である。評価結果を出力する例を示す説明図である。評価システムの動作例を示すフローチャートである。推定器を生成するアルゴリズムの例を示すフローチャートである。本発明による評価システムの概要を示すブロック図である。少なくとも１つの実施形態に係るコンピュータの構成を示す概略ブロック図である。

まず初めに、最適値における楽観的なバイアスについて具体例を用いて説明する。ここでは、説明を簡易化するために、コイントスゲームにおける儲けの期待値を見積もる場合について説明する。ここで説明するコイントスゲームは、コインを投げた時に表（Ｈ）または裏（Ｔ）のどちらが出るかを予想するものであり、予想が的中した場合に１ドル得られ、予想が外れた時には何も得られないものとする。

ここで、３回試行した場合、（１）３回とも表（ＨＨＨ）、（２）２回は表で１回は裏（ＨＨＴ）、（３）１回は表で２回は裏（ＨＴＴ）、（４）３回とも裏（ＴＴＴ）の４パターンが存在する。この４パターンにおいて、表の出る確率は、それぞれ、（１）１、（２）２／３、（３）１／３、（４）０、と推定される。

それぞれのパターンで表の出る確率を考慮すると、（１）および（２）のパターンでは、表に賭けるのが最適と考えられ、（３）（４）のパターンでは裏に賭けるのが最適と考えられる。このように賭けた場合、（１）のパターンでの予想儲けは、１×１ドル＝１ドル、（２）のパターンでの予想儲けは、２／３×１ドル＝０．６７ドル、（３）のパターンでの予想儲けは、（１−１／３）×１ドル＝０．６７ドル、（４）のパターンでの予想儲けは、（１−０）×１ドル＝１ドルと算出される。表の確率が１／２ならば、これらのパターン（１）、（２）、（３）、（４）が観測される確率は、それぞれ１／８、３／８、３／８、１／８となるから、この４パターンの最適解を考慮した場合の予想儲けの期待値は１×１／８＋０．６７×３／８＋０．６７×３／８＋１×１／８＝０．７５ドルと算出される。これが、予測に基づいて最適解を選択した場合の儲けの推定値の期待値である。

しかし、コインを投げた場合に表（または裏）の確率は１／２である。したがって、予想儲けは１／２×１ドル＝０．５ドルになるはずである。すなわち、予測に基づいて最適解を選択した場合の儲けの推定値の期待値（０．７５ドル）が、実際に想定される儲けの期待値（０．５ドル）よりも、楽観的なバイアスを含んでしまっていることが分かる。

次に、θ＾がθ^＊の適切な推定器であったとしても、ｆ（ｚ＾，θ＾）がｆ（ｚ＾，θ^＊）の適切な推定器とは言えない理由を説明する。

目的関数ｆ（ｚ，θ＾）は、真の目的関数ｆ（ｚ，θ^＊）の不偏推定量である、すなわち、以下に示す式１が成り立つとする。

上記式１の等号関係から、Ｅ_ｘ［ｆ（ｚ＾，θ＾）］とｆ（ｚ＾，θ＾）が、それぞれＥ_ｘ［ｆ（ｚ＾，θ^＊）］とｆ（ｚ＾，θ^＊）の推定量であるとも考えられる。しかし、以下の定理が存在する。

すなわち、式１を満たし、ｚ＾およびｚ^＊がそれぞれ以下を満たすとする。

この場合、以下に示す式２が成り立つ。また、ｚ＾が、真の目的関数ｆ（ｚ，θ^＊）に関して最適でない場合が起こりうるとき、式２における右の不等式が不等号で成り立つ。

この定理は、たとえ、推定された目的関数ｆ（ｚ，θ＾）が真の目的関数の不偏推定量だとしても、推定された最適値ｆ（ｚ＾，θ＾）は、ｆ（ｚ＾，θ^＊）の不偏推定量ではないことを意味する。

この楽観的なバイアスは、ポートフォリオ最適化の文脈で経験的に知られている。この問題に対し、統計的検定に基づくバイアス補正方法が提案されているが、これは、目的関数がシャープ・レシオである場合にのみ適用可能である。しかし、これらの方法は、一般的な予測最適化問題に適用可能であるが、バイアスのない推定器を得ることは示されていない。

この問題に対し、本発明者は、経験的リスク最小化（ＥＲＭ：Empirical Risk Minimization ）での交差検証に基づく解決方法を見出した。具体的には、本発明者は、機械学習のオーバーフィッティングの解決法を利用して楽観的なバイアスの問題を解決する方法を見出した。

教師あり機械学習では、学習器は、経験的誤差を最小化することによって予測ルールｈ＾∈Ｈを決定する。すなわち、以下に示す式３が成り立つ。

式３におけるｘ_ｎは、分布Ｄから生成される観測データであり、ｌは損失関数である。以下の式４に示す経験的エラー

は、任意の決まった予測ルールｈにおける汎化誤差

のバイアスのない推定器である。すなわち、任意の決まったｈについて、以下に示す式５が成り立つ。

上記式５にも関わらず、計算されたパラメータｈ＾の経験的誤差は、ほとんどの場合、ｈ＾の汎化誤差よりも小さい。これは、良く知られているように、ｈ＾が観測されたサンプルに過剰適合するためである。

この状況に対し、発明者は、楽観的なバイアスおよび機械学習における過剰適合の問題の原因が、目的関数の評価および客観的価値の評価において、データセットを再利用することであることを見出した。

表１に、経験的リスク最小化（ＥＲＭ）と予測最適化との比較を示す。

表１に示すように、予測最適化のバイアスに関する問題は、経験的リスクを最小化する問題と同様の構造を有する。機械学習における汎化誤差を推定する典型的な方法は、交差検証と、ＡＩＣ（Akaike Information Criterion Akaike ：赤池情報量規準）のような漸近的なバイアス補正である。

以上を考慮し、本実施形態では、計算された戦略における真の目的関数の値ｆ（ｚ＾，θ^＊）に対するバイアスのない推定器を生成する。すなわち、本実施形態では、以下に示す式６を満たす推定器ρ（Ｘ^ｎ→Ｒ）を生成する。なお、本実施形態では、θ^＊のバイアスのない推定器をθ＾と想定する。

以上の想定のもと、本発明の実施形態を図面を参照して説明する。以下では、予測に基づく価格最適化について具体例を挙げながら説明する。予測に基づく価格最適化の例では、予測利益が評価結果に対応する。

図１は、本発明による評価システムの一実施形態の構成例を示すブロック図である。本実施形態の評価システム１００は、記憶部１０と、学習部２０と、最適化部３０と、評価部４０と、出力部５０とを備えている。

記憶部１０は、後述する学習部２０が学習に用いる学習データ（以下、サンプルと記すこともある。）を記憶する。価格最適化の例の場合、学習データとして、過去の売上データや価格、売上に影響する因子を表すデータ（以下、外部要因データと記すこともある。）を記憶する。

図２は、学習データの例を示す説明図である。図２に例示する学習データは、各商品の定価および実際に設定した売価、並びに各商品の売上数量を日付ごとに記憶している例を示す。

また、図３は、外部要因データの例を示す説明図である。図３に例示する外部要因データは、日付ごとのカレンダ情報を記憶している例を示す。また、図３に例示するように、外部要因データが、気象予報などのデータを含んでいてもよい。

また、記憶部１０は、後述する最適化部３０が最適化処理を行う際の制約条件を記憶する。図４は、制約条件の例を示す説明図である。図４に例示する制約条件は、各商品の定価に対する割引率に応じて、取り得る売価が定められることを示す。記憶部１０は、例えば、磁気ディスク等により実現される。

学習部２０は、最適化の算出に用いられる変数を予測する予測モデルを生成する。例えば、総売上を最大にするための価格を最適化する問題の場合、売上は価格と売上数量の積で算出されることから、学習部２０は、売上数量を予測する予測モデルを生成してもよい。以下の説明では、説明変数とは、予測対象に影響を与え得る変数を意味する。例えば、予測対象が売上数量の場合、過去の商品の売価や売上数量、カレンダ情報などが説明変数に該当する。

予測対象は、機械学習の分野では、「目的変数」とも呼ばれる。なお、後述する最適化処理で一般的に用いられる「目的変数」との混同を避けるため、以下の説明では、予測対象を表す変数を被説明変数と記す。したがって、予測モデルは、被説明変数を１つ以上の説明変数を用いて表したモデルということができる。

具体的には、学習部２０は、学習に用いるサンプルを分割して、複数のサンプル群を生成する。以下、説明を簡略化するため、サンプルを２つのサンプル群（以下、第１のサンプル群と第２のサンプル群と記す。）に分割する場合について説明する。ただし、生成するサンプル群の数は２つに限定されず、３つ以上であってもよい。

学習部２０は、生成したサンプル群を用いて予測モデルを生成する。このとき、学習部２０は、生成されたサンプル群のうち学習に用いるサンプル群が重複しないように複数の予測モデルを生成する。例えば、２つのサンプル群が生成された場合、学習部２０は、第１のサンプル群を用いて、商品の売上数量を予測する第１の予測モデルを生成し、第２のサンプル群を用いて、商品の売上数量を予測する第２の予測モデルを生成する。

学習部２０が予測モデルを生成する方法は任意である。学習部２０は、ＦＡＢ（Factorized Asymptotic Bayesian inference）などの機械学習エンジンを用いて予測モデルを生成してもよい。図５は、予測モデルの例を示す説明図である。図５に例示する予測モデルは、各商品の売上数量を予測する予測モデルであり、説明変数の内容に応じて予測式が選択される。

最適化部３０は、生成した予測モデルにより予測される被説明変数および最適化の制約条件に基づいて目的関数を生成する。そして、最適化部３０は、生成された目的関数を最適化する。例えば、２つの予測モデルが生成された場合、最適化部３０は、第１の予測モデルにより予測される被説明変数に基づいて第１の目的関数を生成し、第２の予測モデルにより予測される被説明変数に基づいて第２の目的関数を生成する。そして、最適化部３０は、生成された第１の目的関数および第２の目的関数を最適化する。

なお、最適化部３０が最適化処理を行う方法は任意である。例えば、期待される総売上を最大化する問題の場合、最適化部３０は、予測モデルに基づいて予測される売上数量と図４に例示するような制約条件に基づく商品の価格との積の総和を目的関数として生成する。そして、最適化部３０は、生成された目的関数を最適化して総売上を最大にする商品の価格を特定してもよい。

なお、最適化対象を総売上ではなく総利益としてもよい。図６は、総利益を最大化するための最適化問題の例を示す説明図である。図６に例示する目的関数は、商品売価と原価との差に、予測される売上数量を乗じた総和を純利益として算出するための関数である。具体的には、売上数量は、学習部２０により学習された予測モデルで予測される。そして、最適化部３０は、図６に例示する価格の候補を示す制約条件に基づいて総利益を最大化するように目的関数を最適化する。

評価部４０は、最適化部３０による最適化の結果を評価する。具体的には、評価部４０は、最適化の対象とした目的関数を生成するために用いた予測モデルの学習において、その予測モデルの学習に用いられなかったサンプル群を特定する。そして、評価部４０は、特定したサンプル群を用いて最適化の結果を評価する。

例えば、最適化部３０が、第１のサンプル群を用いて学習された第１の予測モデルを用いて第１の目的関数を生成したとする。このとき、評価部４０は、第２のサンプル群を用いて最適化の結果を評価する。同様に、最適化部３０が、第２のサンプル群を用いて学習された第２の予測モデルを用いて第２の目的関数を生成したとする。このとき、評価部４０は、第１のサンプル群を用いて最適化の結果を評価する。例えば、価格最適化の問題の場合、評価部４０は、特定した価格に基づいて利益を算出することにより、最適化の結果を評価してもよい。

さらに、評価部４０は、最適化の結果を、各目的関数による最適化の結果を集計して評価してもよい。具体的には、評価部４０は、最適化の結果として、各目的関数による最適化の結果の平均を算出してもよい。

出力部５０は、最適化した結果を出力する。出力部５０は、最適化した結果とその結果に対する評価を出力してもよい。出力部５０は、最適化結果をディスプレイ装置（図示せず）に表示してもよいし、記憶部１０に記憶してもよい。

図７および図８は、評価結果を出力する例を示す説明図である。図７に例示するように、出力部５０は、最適化結果に基づいて、商品別の売上額や総売上額をグラフ形式で表示してもよい。また、出力部５０は、図８に例示するように、設定した売価に対する売上予測を表形式で表示してもよい。その際、出力部５０は、定価と割引後の売価とを区別しうる態様で表示してもよい。

学習部２０と、最適化部３０と、評価部４０と、出力部５０とは、プログラム（評価プログラム）に従って動作するコンピュータのプロセッサ（例えば、ＣＰＵ（Central Processing Unit ）、ＧＰＵ（Graphics Processing Unit）、ＦＰＧＡ（field-programmable gate array ））によって実現される。

上記プログラムは、例えば、記憶部１０に記憶され、プロセッサは、そのプログラムを読み込み、プログラムに従って、学習部２０、最適化部３０、評価部４０および出力部５０として動作してもよい。また、評価システムの機能がＳａａＳ（Software as a Service ）形式で提供されてもよい。

学習部２０と、最適化部３０と、評価部４０と、出力部５０とは、それぞれが専用のハードウェアで実現されていてもよい。また、各装置の各構成要素の一部又は全部は、汎用または専用の回路（circuitry ）、プロセッサ等やこれらの組合せによって実現されもよい。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。各装置の各構成要素の一部又は全部は、上述した回路等とプログラムとの組合せによって実現されてもよい。

また、評価システムの各構成要素の一部又は全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は、集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。

次に、本実施形態の評価システムの動作を説明する。図９は、本実施形態の評価システムの動作例を示すフローチャートである。

学習部２０は、学習に用いるサンプルから複数のサンプル群を生成する（ステップＳ１１）。そして、学習部２０は、生成されたサンプル群のうち学習に用いるサンプル群が重複しないように複数の予測モデルを生成する（ステップＳ１２）。最適化部３０は、予測モデルにより予測される被説明変数および最適化の制約条件に基づいて目的関数を生成する（ステップＳ１３）。そして、最適化部３０は、生成された目的関数を最適化する（ステップＳ１４）。評価部４０は、最適化の結果を予測モデルの学習で用いなかったサンプル群を用いて評価する（ステップＳ１５）。

以上のように、本実施形態では、学習部２０が複数のサンプル群を生成し、学習に用いるサンプル群が重複しないように複数の予測モデルを生成する。また、最適化部３０が、予測モデルにより予測される被説明変数（予測対象）と最適化の制約条件に基づいて目的関数を生成し、最適化する。そして、評価部４０が、最適化の結果を予測モデルの学習で用いなかったサンプル群を用いて評価する。よって、予測最適化における楽観的なバイアスを抑制した評価を行うことができる。

以下、本実施形態の推定システムによって、バイアスのない推定器が生成される理由を説明する。アルゴリズム投資における文脈では、ホールドアウト法と呼ばれる方法が知られている。以下の説明は、本質的には一般的な予測最適化問題に対するホールドアウト法の拡張とも言える。

値ｆ（ｚ＾，θ＾）にバイアスが含まれる理由の１つは、ｚ＾およびθ＾が、従属する確率変数のためである。実際、ｚ＾およびθ＾が独立の場合、以下に示す式７の関係は、θ＾がバイアスのないθ^＊の推定器であるという想定から直接的に成り立つ。

（機械学習における標準的な交差検証としての）交差検証法の主たるアイデアは、データｘ∈Ｘ^Ｎを２つの部分ｘ_１∈Ｘ^Ｎ１、ｘ_２∈Ｘ^Ｎ２（ただし、Ｎ_１＋Ｎ_２＝Ｎ）に分割することである。なお、ｘ_１およびｘ_２における各要素は、独立してｐに従うため、ｘ_１およびｘ_２は、独立した確率変数である。以下、ｘ_１に基づく推定器をθ_１＾と記し、ｘ_２に基づく推定器をθ_２＾と記す。

また、各推定器に基づく最適戦略を、以下に示す式８で表す。

このとき、ｚ_１＾とθ_２＾は独立であり、また、ｚ_２＾とθ_１＾も独立である。したがって、以下に示す式９が成り立つ。

さらに、Ｎ_１が十分大きい場合、

は

に近くなる。この考えは、データｘをＫ個の部分に分割するｋ−交差検証に拡張可能である。

ｚ_ｋ ^〜は、｛ｘ_１，...，ｘ_Ｋ｝＼｛ｘ_ｋ｝から計算され、θ_ｋ＾は、ｘ_ｋから計算される。このとき、以下の式１０に示す値ＣＶ_Ｋは、以下に示す式１１を満たす。式１１におけるｚ〜は、（Ｋ−１）Ｎ´個のサンプルから計算された戦略を表す。

図１０は、推定器ｆ（ｚ〜，θ^＊）を生成するアルゴリズムの例を示すフローチャートである。まず、学習部２０は、データｘ∈Ｘ^ＮをＫ個（ただし、Ｋ≧２）の部分ｘ_１，...ｘ_Ｋに分割する（ステップＳ２１）。次に、学習部２０は、ｘ_−ｋをｘ_ｋを除くｘの全てのサンプルと定義したとき、分割した各部分ｋについて、ｘ_ｋおよびｘ_−ｋからθ_ｋ＾およびθ_ｋ ^〜を計算する（ステップＳ２２）。最適化部３０は、以下の式１２に示す最適化問題を解く（ステップＳ２３）。

そして、評価部４０は、以下に示す式１３を計算することで、最適化結果を評価し（ステップＳ２４）、出力部５０は、評価結果を出力する（ステップＳ２５）。

すなわち、図１０に例示するアルゴリズムにより、以下に示す式１４が算出される。これは、上記式６に対応する。

次に、本発明の概要を説明する。図１１は、本発明による評価システムの概要を示すブロック図である。本発明による評価システム８０は、学習に用いるサンプルから複数のサンプル群を生成し、生成されたサンプル群のうち学習に用いるサンプル群が重複しないように複数の予測モデルを生成する学習部８１（例えば、学習部２０）と、予測モデルにより予測される被説明変数および最適化の制約条件に基づいて目的関数を生成し、生成された目的関数を最適化する最適化部８２（例えば、最適化部３０）と、最適化の結果を、その最適化の対象とした目的関数の生成に用いた予測モデルの学習で用いなかったサンプル群を用いて評価する評価部８３（例えば、評価部４０）とを備えている。

そのような構成により、予測最適化における楽観的なバイアスを抑制した評価を行うことができる。

また、最適化部８２は、生成された各予測モデルに基づいて目的関数を生成し、生成した各目的関数を最適化してもよい。そして、評価部８３は、最適化の結果を、各目的関数による最適化の結果を集計して評価してもよい。

具体的には、評価部８３は、最適化の結果として、各目的関数による最適化の結果の平均を算出してもよい。

また、学習部８１は、学習に用いるサンプルから２つのサンプル群を生成し、第１のサンプル群を用いて第１の予測モデルを生成し、第２のサンプル群を用いて第２の予測モデルを生成してもよい。また、最適化部８２は、第１の予測モデルにより予測される被説明変数に基づいて第１の目的関数を生成し、第２の予測モデルにより予測される被説明変数に基づいて第２の目的関数を生成し、生成された第１の目的関数および第２の目的関数を最適化してもよい。そして、評価部８３は、第１の目的関数の最適化の結果を第２のサンプル群を用いて評価し、第２の目的関数の最適化の結果を第１のサンプル群を用いて評価してもよい。

具体的には、学習部８１は、商品の売上数量を予測する予測モデルを複数生成してもよい。また、最適化部８２は、予測モデルに基づく売上数量と商品の売価に基づいて売上を算出する目的関数を生成し、生成された目的関数を最適化して総売上を最大にする商品の価格を特定してもよい。そして、評価部８３は、特定した価格に基づいて利益を算出することにより、最適化の結果を評価してもよい。

その際、最適化部８２は、各商品の取り得る売価を制約条件とする目的関数を生成してもよい。

図１２は、少なくとも１つの実施形態に係るコンピュータの構成を示す概略ブロック図である。コンピュータ１０００は、プロセッサ１００１、主記憶装置１００２、補助記憶装置１００３、インタフェース１００４を備える。

上述の評価システムは、コンピュータ１０００に実装される。そして、上述した各処理部の動作は、プログラム（評価プログラム）の形式で補助記憶装置１００３に記憶されている。プロセッサ１００１は、プログラムを補助記憶装置１００３から読み出して主記憶装置１００２に展開し、当該プログラムに従って上記処理を実行する。

なお、少なくとも１つの実施形態において、補助記憶装置１００３は、一時的でない有形の媒体の一例である。一時的でない有形の媒体の他の例としては、インタフェース１００４を介して接続される磁気ディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、半導体メモリ等が挙げられる。また、このプログラムが通信回線によってコンピュータ１０００に配信される場合、配信を受けたコンピュータ１０００が当該プログラムを主記憶装置１００２に展開し、上記処理を実行しても良い。

また、当該プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、当該プログラムは、前述した機能を補助記憶装置１００３に既に記憶されている他のプログラムとの組み合わせで実現するもの、いわゆる差分ファイル（差分プログラム）であっても良い。

以上、実施形態及び実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

この出願は、２０１７年１１月２日に出願された米国仮出願第６２／５８０，６７２号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

１０記憶部
２０学習部
３０最適化部
４０評価部
５０出力部

Claims

学習に用いるサンプルから複数のサンプル群を生成し、生成されたサンプル群のうち学習に用いるサンプル群が重複しないように複数の予測モデルを生成する学習部と、
前記予測モデルにより予測される被説明変数および最適化の制約条件に基づいて目的関数を生成し、生成された目的関数を最適化する最適化部と、
前記最適化の結果を、当該最適化の対象とした目的関数の生成に用いた予測モデルの学習で用いなかったサンプル群を用いて評価する評価部とを備えた
ことを特徴とする評価システム。
最適化部は、生成された各予測モデルに基づいて目的関数を生成し、生成した各目的関数を最適化し、
評価部は、最適化の結果を、各目的関数による最適化の結果を集計して評価する
請求項１記載の評価システム。
評価部は、最適化の結果として、各目的関数による最適化の結果の平均を算出する
請求項２記載の評価システム。
学習部は、学習に用いるサンプルから２つのサンプル群を生成し、第１のサンプル群を用いて第１の予測モデルを生成し、第２のサンプル群を用いて第２の予測モデルを生成し、
最適化部は、前記第１の予測モデルにより予測される被説明変数に基づいて第１の目的関数を生成し、前記第２の予測モデルにより予測される被説明変数に基づいて第２の目的関数を生成し、生成された前記第１の目的関数および前記第２の目的関数を最適化し、
評価部は、前記第１の目的関数の最適化の結果を前記第２のサンプル群を用いて評価し、前記第２の目的関数の最適化の結果を前記第１のサンプル群を用いて評価する
請求項１から請求項３のうちのいずれか１項に記載の評価システム。
学習部は、商品の売上数量を予測する予測モデルを複数生成し、
最適化部は、前記予測モデルに基づく売上数量と商品の売価に基づいて売上を算出する目的関数を生成し、生成された目的関数を最適化して総売上を最大にする商品の価格を特定し、
評価部は、特定した価格に基づいて利益を算出することにより、前記最適化の結果を評価する
請求項１から請求項４のうちのいずれか１項に記載の評価システム。
最適化部は、各商品の取り得る売価を制約条件とする目的関数を生成する
請求項５記載の評価システム。
学習に用いるサンプルから複数のサンプル群を生成し、
生成されたサンプル群のうち学習に用いるサンプル群が重複しないように複数の予測モデルを生成し、
前記予測モデルにより予測される被説明変数および最適化の制約条件に基づいて目的関数を生成し、
生成された目的関数を最適化し、
前記最適化の結果を、当該最適化の対象とした目的関数の生成に用いた予測モデルの学習で用いなかったサンプル群を用いて評価する
ことを特徴とする評価方法。
生成された各予測モデルに基づいて目的関数を生成し、生成した各目的関数を最適化し、
最適化の結果を、各目的関数による最適化の結果を集計して評価する
請求項７記載の評価方法。
コンピュータに、
学習に用いるサンプルから複数のサンプル群を生成し、生成されたサンプル群のうち学習に用いるサンプル群が重複しないように複数の予測モデルを生成する学習処理、
前記予測モデルにより予測される被説明変数および最適化の制約条件に基づいて目的関数を生成し、生成された目的関数を最適化する最適化処理、および、
前記最適化の結果を、当該最適化の対象とした目的関数の生成に用いた予測モデルの学習で用いなかったサンプル群を用いて評価する評価処理
を実行させるための評価プログラム。
コンピュータに、
最適化処理で、生成された各予測モデルに基づいて目的関数を生成させ、生成した各目的関数を最適化させ、
評価処理で、最適化の結果を、各目的関数による最適化の結果を集計して評価させる
請求項９記載の評価プログラム。