WO2019187289A1

WO2019187289A1 - 評価システム、評価方法および評価用プログラム

Info

Publication number: WO2019187289A1
Application number: PCT/JP2018/040117
Authority: WO
Inventors: 伸志伊藤; 遼平藤巻
Original assignee: 日本電気株式会社
Priority date: 2018-03-30
Filing date: 2018-10-29
Publication date: 2019-10-03
Also published as: US20210027109A1; JPWO2019187289A1; JP7044153B2

Abstract

学習部８１は、学習に用いるサンプルから、含まれるサンプルの少なくとも一部が異なるように複数のサンプル群を生成し、生成された各サンプル群を用いて複数の予測モデルを生成する。最適化部８２は、予測モデルにより予測される被説明変数および最適化の制約条件に基づいて、複数の関数の和で表される目的関数を生成し、生成された目的関数を最適化する。評価部８３は、最適化の結果を目的関数ごとに評価する。

Description

評価システム、評価方法および評価用プログラム

　本発明は、予測に基づく最適化の結果を評価する評価システム、評価方法および評価用プログラムに関する。

　近年、データ駆動型の意思決定は、大きな注目を集めており、多くの実用的なアプリケーションで使用されている。最も有望なアプローチの１つが、機械学習によって生成される予測モデルに基づく数理最適化である。近年の機械学習の進歩により、正確な予測モデルを作成することが容易になり、予測結果が数理最適化の問題を構築するために使用されている。以下の説明では、このような問題を、予測型数理最適化、または単に予測最適化と記す。

　これらのアプローチは、頻繁な試行錯誤プロセスが実用的とは言えない水分配最適化、エネルギー生成計画、小売価格最適化、サプライチェーン管理、ポートフォリオ最適化などのアプリケーションで使用される。

　予測最適化の重要な特徴の１つは、標準的な最適化とは異なり、目的関数が機械学習によって推定されることである。例えば、予測に基づく価格最適化では、将来の収益は本来未知であるため、収益を予測するための関数は製品価格の関数として、需要の回帰式により推定される。

　特許文献１には、商品の発注計画を決定する発注計画決定装置が記載されている。特許文献１記載の発注計画決定装置は、価格ごとの商品の需要を予測し、予測された需要を用いて価格と発注量とを入力とし且つ利益を出力とする目的関数の最適化問題を解くことにより、利益が最大となる商品の価格と発注量の組み合わせを算出する。

　なお、非特許文献１には、与えられたシャープ・レシオに対して適切な割引を決定する方法が記載されている。

特開２０１６－１１０５９１号公報

Harvey, Campbell R and Liu, Yan, "Backtesting", SSRN Electronic Journal, 2015

　予測に基づいて戦略を決める具体的な方法として、特許文献１に記載されているように、観測されたデータを元に予測モデルを作成し、予測モデルをもとに最適な戦略を計算するという手段が挙げられる。このとき最適化した結果の効果を見積もることが重要である。効果の単純な評価方法の一つは、最適化に用いた予測モデルを用いて最適解による効果を見積もるという方法である。ただし、特許文献１には、効果を見積もる具体的な方法は記載されていない。

　ここで、現実そのものを表す（真の）目的関数ｆ（ｚ，θ^＊）に対して推定された目的関数ｆ（ｚ，θ＾）を想定する。なお、本明細書において、上付き＾を、記号に併記して記すこともある。例えば、θの上付き＾を、θ＾と記すこともある。

　ｚとθは、決定変数とｆのパラメータをそれぞれ表す。また、推定された最適戦略をｚ＾とする。すなわち、

　
　である。ここで、Ｚはｚの動き得る範囲である。

　予測最適化において、推定された最適戦略の実際の効果は、ｆ（ｚ＾，θ^＊）に対応しているため、この値を見積もることが重要である。一方で、ｆ（ｚ＾，θ^＊）を観測するには、現実の環境において戦略ｚ＾を実行することが必要なため困難である。そのため、ｚ＾の効果を評価するため、一般にｆ（ｚ＾，θ＾）によってｆ（ｚ＾，θ^＊）が推定される。

　しかし、非特許文献１に記載されているように、アルゴリズム投資やポートフォリオ最適化において、ｆ（ｚ＾，θ＾）は、非常に楽観的になる傾向がある。言い換えると、推定に基づく最適値は、一般的に楽観的な方向に偏ってしまう。

　非特許文献１の記載によれば、トレーディング戦略を評価する際の一般的な方法は、推定目標を５０％割り引くという単純な発見的方法である。すなわち、非特許文献１では、０．５ｆ（ｚ＾，θ＾）をｆ（ｚ，θ^＊）の推定器とみなしている。また、最近の研究では、統計的に分析され、問題を緩和するアルゴリズムが提案されている。

　しかし、これらのアルゴリズムは、特定のアプリケーション（例えば、アルゴリズム投資）に限定されている。さらに、一般的な予測最適化問題において、ｆ（ｚ，θ^＊）のバイアスのない推定器のための正当性が保証されたアルゴリズムは存在しない。

　そこで、本発明は、予測最適化における楽観的なバイアスを抑制した評価を行うことができる評価システム、評価方法および評価システムを提供することを目的とする。

　本発明による評価システムは、学習に用いるサンプルから、含まれるサンプルの少なくとも一部が異なるように複数のサンプル群を生成し、生成された各サンプル群を用いて複数の予測モデルを生成する学習部と、予測モデルにより予測される被説明変数および最適化の制約条件に基づいて、複数の関数の和で表される目的関数を生成し、生成された目的関数を最適化する最適化部と、最適化の結果を目的関数ごとに評価する評価部とを備えたことを特徴とする。

　本発明による評価方法は、学習に用いるサンプルから、含まれるサンプルの少なくとも一部が異なるように複数のサンプル群を生成し、生成された各サンプル群を用いて複数の予測モデルを生成し、予測モデルにより予測される被説明変数および最適化の制約条件に基づいて、複数の関数の和で表される目的関数を生成し、生成された目的関数を最適化し、最適化の結果を目的関数ごとに評価することを特徴とする。

　本発明による評価用プログラムは、コンピュータに、学習に用いるサンプルから、含まれるサンプルの少なくとも一部が異なるように複数のサンプル群を生成し、生成された各サンプル群を用いて複数の予測モデルを生成する学習処理、予測モデルにより予測される被説明変数および最適化の制約条件に基づいて、複数の関数の和で表される目的関数を生成し、生成された目的関数を最適化する最適化処理、および、最適化の結果を目的関数ごとに評価する評価処理を実行させることを特徴とする。

　本発明によれば、予測最適化における楽観的なバイアスを抑制した評価を行うことができる。

本発明による評価システムの一実施形態の構成例を示すブロック図である。学習データの例を示す説明図である。外部要因データの例を示す説明図である。制約条件の例を示す説明図である。予測モデルの例を示す説明図である。最適化問題の例を示す説明図である。評価結果を出力する例を示す説明図である。評価結果を出力する例を示す説明図である。評価システムの動作例を示すフローチャートである。クロスバリデーション法を用いた評価方法の例を示すフローチャートである。ブートストラップ法を用いた評価方法の例を示すフローチャートである。本発明による評価システムの概要を示すブロック図である。少なくとも１つの実施形態に係るコンピュータの構成を示す概略ブロック図である。

　まず初めに、最適値における楽観的なバイアスについて具体例を用いて説明する。ここでは、説明を簡易化するために、コイントスゲームにおける儲けの期待値を見積もる場合について説明する。ここで説明するコイントスゲームは、コインを投げた時に表（Ｈ）または裏（Ｔ）のどちらが出るかを予想するものであり、予想が的中した場合に１ドル得られ、予想が外れた時には何も得られないものとする。

　ここで、３回試行した場合、（１）３回とも表（ＨＨＨ）、（２）２回は表で１回は裏（ＨＨＴ）、（３）１回は表で２回は裏（ＨＴＴ）、（４）３回とも裏（ＴＴＴ）の４パターンが存在する。この４パターンにおいて、表の出る確率は、それぞれ、（１）１、（２）２／３、（３）１／３、（４）０、と推定される。

　それぞれのパターンで表の出る確率を考慮すると、（１）および（２）のパターンでは、表に賭けるのが最適と考えられ、（３）および（４）のパターンでは裏に賭けるのが最適と考えられる。このように賭けた場合、（１）のパターンでの予想儲けは、１×１ドル＝１ドル、（２）のパターンでの予想儲けは、２／３×１ドル＝０．６７ドル、（３）のパターンでの予想儲けは、（１－１／３）×１ドル＝０．６７ドル、（４）のパターンでの予想儲けは、（１－０）×１ドル＝１ドルと算出される。表の確率が１／２ならば、これらのパターン（１）、（２）、（３）、（４）が観測される確率は、それぞれ１／８、３／８、３／８、１／８となるから、この４パターンの最適解を考慮した場合の予想儲けの期待値は１×１／８＋０．６７×３／８＋０．６７×３／８＋１×１／８＝０．７５ドルと算出される。これが、予測に基づいて最適解を選択した場合の儲けの推定値の期待値である。

　しかし、コインを投げた場合に表（または裏）の確率は１／２である。したがって、予想儲けは１／２×１ドル＝０．５ドルになるはずである。すなわち、予測に基づいて最適解を選択した場合の儲けの推定値の期待値（０．７５ドル）が、実際に想定される儲けの期待値（０．５ドル）よりも、楽観的なバイアスを含んでしまっていることが分かる。

　次に、θ＾がθ^＊の適切な推定器であったとしても、ｆ（ｚ＾，θ＾）がｆ（ｚ＾，θ^＊）の適切な推定器とは言えない理由を説明する。

　目的関数ｆ（ｚ，θ＾）は、真の目的関数ｆ（ｚ，θ^＊）の不偏推定量である、すなわち、以下に示す式１が成り立つとする。

　上記式１の等号関係から、Ｅ_ｘ［ｆ（ｚ＾，θ＾）］とｆ（ｚ＾，θ＾）が、それぞれＥ_ｘ［ｆ（ｚ＾，θ^＊）］とｆ（ｚ＾，θ^＊）の推定量であるとも考えられる。しかし、以下の定理が存在する。

　すなわち、式１を満たし、ｚ＾およびｚ^＊がそれぞれ以下を満たすとする。

　
　この場合、以下に示す式２が成り立つ。また、ｚ＾が、真の目的関数ｆ（ｚ，θ^＊）に関して最適でない場合が起こりうるとき、式２における右の不等式が不等号で成り立つ。

　この定理は、たとえ、推定された目的関数ｆ（ｚ，θ＾）が真の目的関数の不偏推定量だとしても、推定された最適値ｆ（ｚ＾，θ＾）は、ｆ（ｚ＾，θ^＊）の不偏推定量ではないことを意味する。

　この楽観的なバイアスは、ポートフォリオ最適化の文脈で経験的に知られている。この問題に対し、統計的検定に基づくバイアス補正方法が提案されているが、これは、目的関数がシャープ・レシオである場合にのみ適用可能である。しかし、これらの方法は、一般的な予測最適化問題に適用可能であるが、バイアスのない推定器を得ることは示されていない。

　この問題に対し、本発明者は、経験損失最小化（ＥＲＭ：Empirical Risk Minimization ）でのクロスバリデーションに基づく解決方法を見出した。具体的には、本発明者は、機械学習のオーバーフィッティングの解決法を利用して楽観的なバイアスの問題を解決する方法を見出した。

　教師あり機械学習では、学習器は、経験損失を最小化することによって予測ルールｈ＾∈Ｈを決定する。すなわち、以下に示す式３が成り立つ。

　式３におけるｘ_ｎは、分布Ｄから生成される観測データであり、ｌは損失関数である。以下の式４に示す経験損失

　
は、任意の決まった予測ルールｈにおける汎化誤差

　
のバイアスのない推定器である。すなわち、任意の決まったｈについて、以下に示す式５が成り立つ。

　上記式５にも関わらず、計算されたパラメータｈ＾の経験損失は、ほとんどの場合、ｈ＾の汎化誤差よりも小さい。これは、良く知られているように、ｈ＾が観測されたサンプルに過剰適合するためである。

　この状況に対し、発明者は、楽観的なバイアスおよび機械学習における過剰適合の問題の原因が、目的関数の評価および客観的価値の評価において、データセットを再利用することであることを見出した。

　表１に、経験損失最小化（ＥＲＭ）と予測最適化との比較を示す。

　表１に示すように、予測最適化のバイアスに関する問題は、経験損失を最小化する問題と同様の構造を有する。機械学習における汎化誤差を推定する典型的な方法は、クロスバリデーションと、ＡＩＣ（Akaike Information Criterion Akaike ：赤池情報量規準）のような漸近的なバイアス補正である。

　以上を考慮し、本実施形態では、計算された戦略における真の目的関数の値ｆ（ｚ＾，θ^＊）に対するバイアスのない推定器を生成する。すなわち、本実施形態では、以下に示す式６を満たす推定器ρ（Ｘ^ｎ→Ｒ）を生成する。なお、本実施形態では、θ^＊のバイアスのない推定器をθ＾と想定する。

　また、本発明者は、目的関数が複数の関数の和で表記できる場合も、上記と同様の問題が存在することを発見した。すなわち、単純に目的関数に含まれる各関数の値を推定するだけでは、個々の結果に対して過大評価（すなわち、楽観的に評価）されてしまう。そこで、本発明では、目的関数が、複数の関数の和で表記できる場合に、それらの関数ごとに最適化の結果を評価する方法を説明する。すなわち、以下の説明では、目的関数ｆ（ｚ，θ^＊）が、以下に例示する式７のように複数の関数で表すことができるとし、求められた最適解ｚ＾に対して、ｆ_１（ｚ＾，θ^＊），…，ｆ_ｍ（ｚ＾，θ^＊）の値を推定するものとする。

　以上の想定のもと、本発明の実施形態を図面を参照して説明する。以下では、予測に基づく価格最適化について具体例を挙げながら説明する。予測に基づく価格最適化の例では、予測利益が評価結果に対応する。一般に、総利益を最大化する価格最適化では、目的関数は複数の商品の販売利益の和で表される。本実施形態で示す方法を用いることで、楽観的なバイアスを抑制して、各商品から得られる利益をそれぞれ推定できる。

　図１は、本発明による評価システムの一実施形態の構成例を示すブロック図である。本実施形態の評価システム１００は、記憶部１０と、学習部２０と、最適化部３０と、評価部４０と、出力部５０とを備えている。

　記憶部１０は、後述する学習部２０が学習に用いる学習データ（以下、サンプルと記すこともある。）を記憶する。価格最適化の例の場合、学習データとして、過去の売上データや価格、売上に影響する因子を表すデータ（以下、外部要因データと記すこともある。）を記憶する。

　図２は、学習データの例を示す説明図である。図２に例示する学習データは、各商品の定価および実際に設定した売価、並びに各商品の売上数量を日付ごとに記憶している例を示す。

　また、図３は、外部要因データの例を示す説明図である。図３に例示する外部要因データは、日付ごとのカレンダ情報を記憶している例を示す。また、図３に例示するように、外部要因データが、気象予報などのデータを含んでいてもよい。

　また、記憶部１０は、後述する最適化部３０が最適化処理を行う際の制約条件を記憶する。図４は、制約条件の例を示す説明図である。図４に例示する制約条件は、各商品の定価に対する割引率に応じて、取り得る売価が定められることを示す。記憶部１０は、例えば、磁気ディスク等により実現される。

　学習部２０は、最適化の算出に用いられる変数を予測する予測モデルを生成する。例えば、総売上を最大にするための価格を最適化する問題の場合、売上は価格と売上数量の積で算出されることから、学習部２０は、売上数量を予測する予測モデルを生成してもよい。以下の説明では、説明変数とは、予測対象に影響を与え得る変数を意味する。例えば、予測対象が売上数量の場合、過去の商品の売価や売上数量、カレンダ情報などが説明変数に該当する。

　予測対象は、機械学習の分野では、「目的変数」とも呼ばれる。なお、後述する最適化処理で一般的に用いられる「目的変数」との混同を避けるため、以下の説明では、予測対象を表す変数を被説明変数と記す。したがって、予測モデルは、被説明変数を１つ以上の説明変数を用いて表したモデルということができる。

　具体的には、学習部２０は、学習に用いるサンプルから、含まれるサンプルの少なくとも一部が異なるように複数のサンプル群を生成し、生成された各サンプル群を用いて複数の予測モデルを生成する。以下、説明を簡略化するため、学習に用いるサンプルから、少なくとも一部のサンプルが異なる２つのサンプル群（以下、第１のサンプル群と第２のサンプル群と記す。）を生成する場合について説明する。ただし、生成するサンプル群の数は２つに限定されず、３つ以上であってもよい。

　具体的には、後述する評価部４０が、クロスバリデーションを用いて評価を行う場合、学習部２０は、学習に用いるサンプル群から複数のサンプル群を生成し、生成されたサンプル群のうち学習に用いるサンプル群が重複しないように複数の予測モデルを生成する。例えば、２つのサンプル群が生成された場合、学習部２０は、第１のサンプル群を用いて、商品の売上数量を予測する第１の予測モデルを生成し、第２のサンプル群を用いて、商品の売上数量を予測する第２の予測モデルを生成する。

　また、後述する評価部４０が、ブートストラップ法を用いて評価を行う場合、学習部２０は、学習に用いるサンプル群から復元抽出により複数のサンプル群を生成し、生成された各サンプル群を用いて複数の予測モデルを生成する。

　学習部２０が予測モデルを生成する方法は任意である。学習部２０は、ＦＡＢ（Factorized Asymptotic Bayesian inference）などの機械学習エンジンを用いて予測モデルを生成してもよい。図５は、予測モデルの例を示す説明図である。図５に例示する予測モデルは、各商品の売上数量を予測する予測モデルであり、説明変数の内容に応じて予測式が選択される。

　最適化部３０は、生成した予測モデルにより予測される被説明変数および最適化の制約条件に基づいて目的関数を生成する。具体的には、最適化部３０は、複数の関数の和で表される目的関数を生成する。そして、最適化部３０は、生成された目的関数を最適化する。例えば、２つの予測モデルが生成された場合、最適化部３０は、第１の予測モデルにより予測される被説明変数に基づいて第１の目的関数を生成し、第２の予測モデルにより予測される被説明変数に基づいて第２の目的関数を生成する。そして、最適化部３０は、生成された第１の目的関数および第２の目的関数を最適化する。

　なお、最適化部３０が最適化処理を行う方法は任意である。例えば、期待される総売上を最大化する問題の場合、最適化部３０は、予測モデルに基づいて予測される売上数量と図４に例示するような制約条件に基づく商品の価格との積の総和を目的関数として生成する。そして、最適化部３０は、生成された目的関数を最適化して総売上を最大にする商品の価格を特定してもよい。なお、最適化対象を総売上ではなく総利益としてもよい。

　図６は、最適化問題の例を示す説明図である。図６（ａ）に例示する目的関数は、商品売価と原価との差に、予測される売上数量を乗じた総和を純利益として算出するための関数である。具体的には、売上数量は、学習部２０により学習された予測モデルで予測される。そして、最適化部３０は、図６（ａ）に例示する価格の候補を示す制約条件に基づいて総利益を最大化するように目的関数を最適化する。

　また、図６（ｂ）に例示する目的関数は、総利益および総売上を最大化するための関数である。なお、最適化部３０も、図６（ａ）に例示する価格の候補を示す制約条件に基づいて総利益および総売上を最大化するように目的関数を最適化すればよい。

　評価部４０は、最適化部３０による最適化の結果を目的関数ごとに評価する。具体的には、クロスバリデーションを用いて評価が行われる場合、評価部４０は、最適化の対象とした目的関数を生成するために用いた予測モデルの学習において、その予測モデルの学習に用いられなかったサンプル群を特定する。そして、評価部４０は、特定したサンプル群を用いて、目的関数を表す複数の関数それぞれに対する最適化の結果を評価する。

　例えば、最適化部３０が、第１のサンプル群を用いて学習された第１の予測モデルを用いて第１の目的関数を生成したとする。このとき、評価部４０は、第２のサンプル群を用いて最適化の結果を評価する。同様に、最適化部３０が、第２のサンプル群を用いて学習された第２の予測モデルを用いて第２の目的関数を生成したとする。このとき、評価部４０は、第１のサンプル群を用いて最適化の結果を評価する。例えば、価格最適化の問題の場合、評価部４０は、特定した価格に基づいて利益を算出することにより、最適化の結果を評価してもよい。

　また、ブートストラップ法を用いて評価が行われる場合、評価部４０は、最適化に用いた目的関数ごとの最適化結果に基づいてバイアスを推定し、推定されたバイアスに基づいて最適化結果を補正する。

　さらに、評価部４０は、最適化の結果を、各目的関数による最適化の結果を集計して評価してもよい。具体的には、評価部４０は、最適化の結果として、各目的関数による最適化の結果の平均を算出してもよい。また、図６（ｂ）に示す例では、評価部４０は、特定した価格に基づいて総利益および総売上を算出することにより、最適化の結果を評価してもよい。

　価格最適化の場面では、本実施形態の評価システムを用いることで、楽観的なバイアスを抑制して、最適化時の利益と売上をそれぞれ推定できる。また、例えば、利益と売上の両方をできるだけ大きくしたい場合、最適化部３０は、利益＋売上と定義された目的関数の値を最大化する問題を解いてもよい。そして、評価部４０は、利益および売上のそれぞれについて評価を行ってもよい。また、例えば、売上よりも利益を重視する場合には、利益の関数により大きな重み付け（例えば、２×利益＋売上）を行った目的関数が定義されればよい。

　出力部５０は、最適化した結果を出力する。出力部５０は、最適化した結果とその結果に対する評価を出力してもよい。出力部５０は、最適化結果をディスプレイ装置（図示せず）に表示してもよいし、記憶部１０に記憶してもよい。

　図７および図８は、評価結果を出力する例を示す説明図である。図７に例示するように、出力部５０は、最適化結果に基づいて、商品別の売上額や総売上額をグラフ形式で表示してもよい。また、出力部５０は、利益と売上のように関数ごとの最適化結果を重畳させて表示してもよい。また、出力部５０は、図８に例示するように、設定した売価に対する売上予測を表形式で表示してもよい。その際、出力部５０は、定価と割引後の売価とを区別しうる態様で表示してもよい。

　学習部２０と、最適化部３０と、評価部４０と、出力部５０とは、プログラム（評価プログラム）に従って動作するコンピュータのプロセッサ（例えば、ＣＰＵ（Central Processing Unit ）、ＧＰＵ（Graphics Processing Unit）、ＦＰＧＡ（field-programmable gate array ））によって実現される。

　上記プログラムは、例えば、記憶部１０に記憶され、プロセッサは、そのプログラムを読み込み、プログラムに従って、学習部２０、最適化部３０、評価部４０および出力部５０として動作してもよい。また、評価システムの機能がＳａａＳ（Software as a Service ）形式で提供されてもよい。

　学習部２０と、最適化部３０と、評価部４０と、出力部５０とは、それぞれが専用のハードウェアで実現されていてもよい。また、各装置の各構成要素の一部又は全部は、汎用または専用の回路（circuitry ）、プロセッサ等やこれらの組合せによって実現されもよい。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。各装置の各構成要素の一部又は全部は、上述した回路等とプログラムとの組合せによって実現されてもよい。

　また、評価システムの各構成要素の一部又は全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は、集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。

　次に、本実施形態の評価システムの動作を説明する。図９は、本実施形態の評価システムの動作例を示すフローチャートである。

　学習部２０は、学習に用いるサンプルから複数のサンプル群を生成する（ステップＳ１１）。そして、学習部２０は、生成されたサンプル群のうち学習に用いるサンプル群が重複しないように複数の予測モデルを生成する（ステップＳ１２）。最適化部３０は、予測モデルにより予測される被説明変数および最適化の制約条件に基づいて目的関数を生成する（ステップＳ１３）。そして、最適化部３０は、生成された目的関数を最適化する（ステップＳ１４）。評価部４０は、最適化の結果を予測モデルの学習で用いなかったサンプル群を用いて評価する（ステップＳ１５）。

　以上のように、本実施形態では、学習部２０が複数のサンプル群を生成し、学習に用いるサンプル群が重複しないように複数の予測モデルを生成する。また、最適化部３０が、予測モデルにより予測される被説明変数（予測対象）と最適化の制約条件に基づいて複数の関数の和で表される目的関数を生成し、最適化する。そして、評価部４０が、予測モデルの学習で用いなかったサンプル群を用いて関数ごとに最適化の結果を評価する。よって、予測最適化における楽観的なバイアスを抑制した評価を行うことができる。

　なお、本実施形態では、総売上を最大化する価格最適化について説明した。他にも、本実施形態の評価システムを用いて、最適な投資方法を発見するポートフォリオ最適化問題の結果を評価することも可能である。

　ポートフォリオ最適化問題では、投資によって得られるリターン（すなわち、平均的な収益率や、期待収益率）をできるだけ大きくしつつ、リスク（すなわち、収益率のバラツキ、分散）をできるだけ小さくすることが目標になる。この問題に対して、例えば、目的関数を、（リターンの大きさ）－重み係数×（リスクの大きさ）と定義し、最適化部３０が、この目的関数を最大化する。本実施形態では、このリターンの大きさとリスクの大きさを、それぞれ楽観的なバイアスを抑制しながら推定できる。

　すなわち、上述するように、利益および売上の両方を大きくするような価格最適化問題や、リターンの大きさおよびリスクの大きさのトレードオフを検討するポートフォリオ最適化問題のように、複数の評価指標が存在する場合がある。このような複数の評価指標のトレードオフおよびバランスを考慮する必要がある場合、これら複数の評価指標の重み付和を目的関数として最適化する方法が考えられる。

　一般的な方法を用いた場合、この最適化結果を単純に推定した場合には、上述するような楽観的なバイアスが含まれてしまう恐れがある。本実施形態では、楽観的なバイアスを抑制したうえで、複数の評価指標それぞれの値を推定できる。

　以下、本実施形態の推定システムによって、バイアスのない推定器が生成される理由を説明する。ここでは、クロスバリデーション法およびブートストラップ法を用いて推定器を生成する方法を説明する。

　まず初めに、クロスバリデーション法を用いて、バイアスなく評価する方法を説明する。クロスバリデーション法の主たるアイデアは、データｘ∈Ｘ^Ｎを２つの部分ｘ_１∈Ｘ^Ｎ１、ｘ_２∈Ｘ^Ｎ２（ただし、Ｎ_１＋Ｎ_２＝Ｎ）に分割することである。なお、ｘ_１およびｘ_２における各要素は、独立してｐに従うため、ｘ_１およびｘ_２は、独立した確率変数である。以下、ｘ_１に基づく推定器をθ_１＾と記し、ｘ_２に基づく推定器をθ_２＾と記す。

　また、各推定器に基づく最適戦略を、以下に示す式８で表す。

　このとき、ｚ_１＾とθ_２＾は独立であり、また、ｚ_２＾とθ_１＾も独立である。したがって、それぞれの関数ｆ_ｉ（ｉ＝１，２，…，ｍ）に対して、以下に示す式９が成り立つ。

　さらに、Ｎ_１が十分大きい場合、以下に示す式１０は、式１１に近くなる。この考えは、データｘをＫ個の部分に分割するｋ－クロスバリデーションに拡張可能である。

　ｚ_ｋ ^～は、｛ｘ_１，...，ｘ_Ｋ｝＼｛ｘ_ｋ｝から計算され、θ_ｋ＾は、ｘ_ｋから計算される。このとき、各ｉ＝１，２，…，ｍに対して、以下の式１２に示す値ＣＶ_Ｋ ⁽ⁱ⁾は、以下に示す式１３を満たす。式１３におけるｚ～は、（Ｋ－１）Ｎ´個のサンプルから計算された戦略を表す。

　図１０は、クロスバリデーション法を用いた評価方法の例を示すフローチャートである。具体的には、図１０は、推定器ｆ（ｚ～，θ^＊）を生成するアルゴリズムの例を示す。まず、学習部２０は、データｘ∈Ｘ^ＮをＫ個（ただし、Ｋ≧２）の部分ｘ_１，...ｘ_Ｋに分割する（ステップＳ２１）。次に、学習部２０は、ｘ_－ｋをｘ_ｋを除くｘの全てのサンプルと定義したとき、分割した各部分ｋについて、ｘ_ｋおよびｘ_－ｋからθ_ｋ＾およびθ_ｋ ^～を計算する（ステップＳ２２）。最適化部３０は、以下の式１４に示す最適化問題を解く（ステップＳ２３）。

　そして、評価部４０は、各ｉ＝１，２，…，ｍについて上記に示す式１２を計算することで、最適化結果を評価し（ステップＳ２４）、出力部５０は、評価結果を出力する（ステップＳ２５）。

　次に、ブートストラップ法を用いて、バイアスなく評価する方法を説明する。図１１は、ブートストラップ法を用いた評価方法の例を示すフローチャートである。まず、評価システム１００に、Ｎ個のサンプルＸ＝｛ｘ_１，…，ｘ_Ｎ｝と、Ｍ∈｛１，２，…｝が入力される（ステップＳ３１）。ここで、ｊ＝１，…，Ｍについて、ブートストラップ法に基づくＸ_ｊをＸからのＮ個のランダムサンプルであるとする。

　学習部２０は、Ｘから漸近正規性をもつ推定値θ＾を計算する（ステップＳ３２）。学習部２０は、ＸからＮ個のランダム復元抽出を行い、Ｘ_ｊとする。これを、ｊ＝１，２，…，Ｍに対して行う（ステップＳ３３）。また、同様に、学習部２０は、Ｘ_ｊからθ_ｊ＾を計算する（ステップＳ３４）。そして、最適化部３０は、以下の式１５に示すｚを計算する（ステップＳ３５）。すなわち、最適化部３０は、ｚの計算をＭ回繰り返す。

　評価部４０は、各ｉ＝１，２，…，ｍについて以下の式１６で示すρ_iを計算し（ステップＳ３６）、出力部５０は、各ｉ＝１，２，…，ｍについてρ_iを出力する。

　このように、最適化部３０が、上記式１５に示すようなｚ_ｊを算出し、評価部４０がｆ（ｚ_ｊ，θ_０＾）とｆ（ｚ_ｊ，θ_ｊ＾）の差分（具体的には、差分の総和の平均）を、真のモデルと予測モデルとの評価値のバイアスとして算出する。よって、両者の間に生ずるバイアスを理論的に生じさせなくすることが可能になる。

　以上に示すように、本発明は、統計学や機械学習の分野で知られているクロスバリデーションやブートストラップ法などを用いている。さらに、本発明では、いわゆる数理計画やオペレーションズリサーチの手法も用いている。本発明では、このように、異なる領域の手法を融合させて、適切な評価方法を実現していると言える。

　次に、本発明の概要を説明する。図１２は、本発明による評価システムの概要を示すブロック図である。本発明による評価システム８０は、学習に用いるサンプルから、含まれるサンプルの少なくとも一部が異なるように複数のサンプル群を生成し、生成された各サンプル群を用いて複数の予測モデルを生成する学習部８１（例えば、学習部２０）と、予測モデルにより予測される被説明変数および最適化の制約条件に基づいて、複数の関数の和で表される目的関数を生成し、生成された目的関数を最適化する最適化部８２（例えば、最適化部３０）と、最適化の結果を目的関数ごとに評価する評価部８３（例えば、評価部４０）とを備えている。

　そのような構成により、予測最適化における楽観的なバイアスを抑制した評価を行うことができる。

　具体的には（例えば、クロスバリデーションにより評価が行われる場合）、学習部８１は、学習に用いるサンプルから複数のサンプル群を生成し、生成されたサンプル群のうち学習に用いるサンプル群が重複しないように複数の予測モデルを生成し、評価部８３は、最適化の対象とした目的関数の生成に用いた予測モデルの学習で用いなかったサンプル群を用いて、目的関数ごとに最適化の結果を評価してもよい。

　また、最適化部８２は、生成された各予測モデルに基づいて目的関数を生成し、生成した各目的関数を最適化してもよい。そして、評価部８３は、最適化の結果を、各目的関数による最適化の結果を集計して評価してもよい。

　具体的には、評価部８３は、最適化の結果として、各目的関数による最適化の結果の平均を算出してもよい。

　また、学習部８１は、学習に用いるサンプルから２つのサンプル群を生成し、第１のサンプル群を用いて第１の予測モデルを生成し、第２のサンプル群を用いて第２の予測モデルを生成してもよい。また、最適化部８２は、第１の予測モデルにより予測される被説明変数に基づいて第１の目的関数を生成し、第２の予測モデルにより予測される被説明変数に基づいて第２の目的関数を生成し、生成された第１の目的関数および第２の目的関数を最適化してもよい。そして、評価部８３は、第１の目的関数の最適化の結果を第２のサンプル群を用いて評価し、第２の目的関数の最適化の結果を第１のサンプル群を用いて評価してもよい。

　一方（例えば、ブートストラップ法による評価が行われる場合）、学習部８１は、学習に用いるサンプル群から復元抽出により複数のサンプル群を生成し、生成された各サンプル群を用いて複数の予測モデルを生成し、評価部８３は、最適化に用いた目的関数ごとの最適化結果に基づいてバイアスを推定し、推定されたバイアスに基づいて最適化結果を補正してもよい。

　また、学習部８１は、商品の売上数量を予測する予測モデルを複数生成してもよい。また、最適化部８２は、予測モデルに基づく売上数量と商品の売価とに基づいて総売上を算出する第一の関数と、予測モデルに基づく売上数量と売価から原価を減じた利益とに基づいて総利益を算出する第二の関数とを含む目的関数を生成し、生成された目的関数を最適化して総売上および総利益を最大にする商品の価格を特定してもよい。そして、評価部８３は、特定した価格に基づいて総利益および総売上を算出することにより、前記最適化の結果を評価してもよい。

　その際、最適化部８２は、各商品の取り得る売価を制約条件とする目的関数を生成してもよい。

　図１３は、少なくとも１つの実施形態に係るコンピュータの構成を示す概略ブロック図である。コンピュータ１０００は、プロセッサ１００１、主記憶装置１００２、補助記憶装置１００３、インタフェース１００４を備える。

　上述の評価システムは、コンピュータ１０００に実装される。そして、上述した各処理部の動作は、プログラム（評価プログラム）の形式で補助記憶装置１００３に記憶されている。プロセッサ１００１は、プログラムを補助記憶装置１００３から読み出して主記憶装置１００２に展開し、当該プログラムに従って上記処理を実行する。

　なお、少なくとも１つの実施形態において、補助記憶装置１００３は、一時的でない有形の媒体の一例である。一時的でない有形の媒体の他の例としては、インタフェース１００４を介して接続される磁気ディスク、光磁気ディスク、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、半導体メモリ等が挙げられる。また、このプログラムが通信回線によってコンピュータ１０００に配信される場合、配信を受けたコンピュータ１０００が当該プログラムを主記憶装置１００２に展開し、上記処理を実行しても良い。

　また、当該プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、当該プログラムは、前述した機能を補助記憶装置１００３に既に記憶されている他のプログラムとの組み合わせで実現するもの、いわゆる差分ファイル（差分プログラム）であっても良い。

　以上、実施形態及び実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

　この出願は、２０１８年３月３０日に出願された米国仮出願第６２／６５０，３８９号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

　１０　記憶部
　２０　学習部
　３０　最適化部
　４０　評価部
　５０　出力部

Claims

　学習に用いるサンプルから、含まれるサンプルの少なくとも一部が異なるように複数のサンプル群を生成し、生成された各サンプル群を用いて複数の予測モデルを生成する学習部と、
　前記予測モデルにより予測される被説明変数および最適化の制約条件に基づいて、複数の関数の和で表される目的関数を生成し、生成された目的関数を最適化する最適化部と、
　前記最適化の結果を前記目的関数ごとに評価する評価部とを備えた
　ことを特徴とする評価システム。
　学習部は、学習に用いるサンプルから複数のサンプル群を生成し、生成されたサンプル群のうち学習に用いるサンプル群が重複しないように複数の予測モデルを生成し、
　評価部は、最適化の対象とした目的関数の生成に用いた予測モデルの学習で用いなかったサンプル群を用いて、前記目的関数ごとに最適化の結果を評価する
　請求項１記載の評価システム。
　最適化部は、生成された各予測モデルに基づいて目的関数を生成し、生成した各目的関数を最適化し、
　評価部は、最適化の結果を、各目的関数による最適化の結果を集計して評価する
　請求項２記載の評価システム。
　評価部は、最適化の結果として、各目的関数による最適化の結果の平均を算出する
　請求項３記載の評価システム。
　学習部は、学習に用いるサンプルから２つのサンプル群を生成し、第１のサンプル群を用いて第１の予測モデルを生成し、第２のサンプル群を用いて第２の予測モデルを生成し、
　最適化部は、前記第１の予測モデルにより予測される被説明変数に基づいて第１の目的関数を生成し、前記第２の予測モデルにより予測される被説明変数に基づいて第２の目的関数を生成し、生成された前記第１の目的関数および前記第２の目的関数を最適化し、
　評価部は、前記第１の目的関数の最適化の結果を前記第２のサンプル群を用いて評価し、前記第２の目的関数の最適化の結果を前記第１のサンプル群を用いて評価する
　請求項１から請求項４のうちのいずれか１項に記載の評価システム。
　学習部は、学習に用いるサンプル群から復元抽出により複数のサンプル群を生成し、生成された各サンプル群を用いて複数の予測モデルを生成し、
　評価部は、最適化に用いた目的関数ごとの最適化結果に基づいてバイアスを推定し、推定されたバイアスに基づいて最適化結果を補正する
　請求項１記載の評価システム。
　学習部は、商品の売上数量を予測する予測モデルを複数生成し、
　最適化部は、前記予測モデルに基づく売上数量と商品の売価とに基づいて総売上を算出する第一の関数と、前記予測モデルに基づく売上数量と売価から原価を減じた利益とに基づいて総利益を算出する第二の関数とを含む目的関数を生成し、生成された目的関数を最適化して総売上および総利益を最大にする商品の価格を特定し、
　評価部は、特定した価格に基づいて総利益および総売上を算出することにより、前記最適化の結果を評価する
　請求項１から請求項６のうちのいずれか１項に記載の評価システム。
　最適化部は、各商品の取り得る売価を制約条件とする目的関数を生成する
　請求項７記載の評価システム。
　学習に用いるサンプルから、含まれるサンプルの少なくとも一部が異なるように複数のサンプル群を生成し、
　生成された各サンプル群を用いて複数の予測モデルを生成し、
　前記予測モデルにより予測される被説明変数および最適化の制約条件に基づいて、複数の関数の和で表される目的関数を生成し、
　生成された目的関数を最適化し、
　前記最適化の結果を前記目的関数ごとに評価する
　ことを特徴とする評価方法。
　コンピュータに、
　学習に用いるサンプルから、含まれるサンプルの少なくとも一部が異なるように複数のサンプル群を生成し、生成された各サンプル群を用いて複数の予測モデルを生成する学習処理、
　前記予測モデルにより予測される被説明変数および最適化の制約条件に基づいて、複数の関数の和で表される目的関数を生成し、生成された目的関数を最適化する最適化処理、および、
　前記最適化の結果を前記目的関数ごとに評価する評価処理
　を実行させるための評価プログラム。