JPWO2018154663A1 - 特徴選択システム、特徴選択方法および特徴選択プログラム - Google Patents

特徴選択システム、特徴選択方法および特徴選択プログラム Download PDF

Info

Publication number
JPWO2018154663A1
JPWO2018154663A1 JP2019500917A JP2019500917A JPWO2018154663A1 JP WO2018154663 A1 JPWO2018154663 A1 JP WO2018154663A1 JP 2019500917 A JP2019500917 A JP 2019500917A JP 2019500917 A JP2019500917 A JP 2019500917A JP WO2018154663 A1 JPWO2018154663 A1 JP WO2018154663A1
Authority
JP
Japan
Prior art keywords
feature
features
variable
feature set
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019500917A
Other languages
English (en)
Other versions
JP6708295B2 (ja
Inventor
顕大 矢部
顕大 矢部
遼平 藤巻
遼平 藤巻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2018154663A1 publication Critical patent/JPWO2018154663A1/ja
Application granted granted Critical
Publication of JP6708295B2 publication Critical patent/JP6708295B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Abstract

特徴選択システム90は、予測モデルを用いて表される目的関数を制約条件の下で最適化するための操作変数を算出する場合におけるその予測モデルの学習に用いられる特徴を選択する特徴選択システムであって、予測対象の指定と、操作変数の指定とを受け付ける受付部91と、予測対象に影響し得る特徴の集合から、その予測対象に影響する特徴の集合である第1特徴集合と、操作変数に影響する特徴の集合である第2特徴集合とを選択する特徴選択部92と、第1特徴集合と第2特徴集合とを出力する出力部93とを備えている。

Description

本発明は、予測に用いる特徴を選択する特徴選択システム、特徴選択方法および特徴選択プログラムに関する。
予測モデルや判別モデルを構築する際、複数の特徴の中から意味のある特徴を選択する特徴選択(Feature selection )処理が一般に行われる。特徴選択を行うことで、観測データのうち、どの特徴が重要であり、それらがどのように関係しているかを表すことが可能になる。
例えば、特許文献1には、マルウェア判定に用いられる特徴を選択する特徴選択装置が記載されている。特許文献1に記載された特徴選択装置は、マルウェアの実行ファイル中に含まれる可読文字列をあらかじめ機械学習し、マルウェアでよく用いられる語を抽出する。また、特許文献1に記載された特徴選択装置は、特徴の候補群のうち、検証用データにおいて組で出現する特徴群についてはいずれかの特徴で代表させ、代表以外の特徴(冗長特徴)を削除する。
特開2016−31629号公報
対象の予測ができれば、その予測に基づいて将来の最適化戦略を検討することが可能である。例えば、予測モデルが生成される場合、この予測モデルに基づく最適化をすることができる。予測モデルに基づく最適化とは、予測モデルで表される目的関数の値を最大にするように、その予測モデルに含まれる特徴を最適化することであると言える。このような最適化の例として、売上数の予測モデルを用いて価格を最適化することが挙げられる。
過去のデータに基づく一般的な学習方法を用いることで、上述する予測モデルを構築することが可能である。その際、一般的な学習方法では、特許文献1にも記載されているように、冗長な特徴は予測モデルから除外され、選択されないことが一般的である。冗長な特徴を除外することで、予測精度に大きな悪影響を与えることなく、次元の呪いの効果を緩和したり、学習を高速化させたり、モデルの可読性を向上させたりできる。また、冗長な特徴を除外することは、過学習を防ぐ観点からも有益である。
ここで、予測対象の最適化に用いられる一の特徴が、予測対象の予測に用いられる他の特徴の影響を受けている場合も存在する。言い換えると、一の特徴と他の特徴との間に因果関係が存在する場合も存在する。このような因果関係を考慮せずに特徴を選択した場合、予測精度には問題が生じなくとも、最適化において問題が生じる場合がある。以下、具体例を用いて、問題が生じる状況を説明する。
ここでは、傘の価格の最適化問題を考える。xが傘の価格、yが傘の売上数、zが天気を表す変数とし、売上数yを予測するとする。ここでx、zは、傘の売上数に影響を与えそうな特徴の一つである。過去のデータでは、雨の場合には傘の売上数が多いため、それを見越して店主が傘の価格を高く設定しており、逆に晴れの場合には傘の売上数が少ないため、それを見越して店主が傘の価格を低く設定しているとする。
この状況を上記変数を用いて表すと、雨の日は、(x,y,z)=(“高い”,“多い”,“雨”)となり、晴れ日は、(x,y,z)=(“低い”,“少ない”,“晴”)となる。このとき、xとzとを用いてyが予測される。一方、xとzには強い相関があるため、このような状況でyを予測する場合、xだけでyを説明するのは十分なため(すなわち、x=高い、の場合、z=雨が常に成り立つため)、特徴選択処理によりzは冗長な特徴であるとみなされる。すなわち、zは特徴選択処理により除外される。したがって、予測において、p(y=多い|x=高い)=1という確率が成り立つ。
特徴であるzが選択されていないため、上記確率の式からは、xを高くすればyは多くなると言えるため、yを高くするための最適化の結果が「常に傘を高い値段で売る」と判断され得る。この結果は、晴れの日にも、傘を高い値段で売ったほうが売上数が増える、ということを意味しており、明らかに直感に反する。これは、最適化による介入をした結果と予測との違いであり、上記の例では、価格が高い時に自然に売れる量と、自ら価格を高くしたときに売れる量とは異なる。すなわち、介入を行って得られた値をdo(変数)と表すと、以下に示す式1の関係が成り立つ。
p(y=多い|x=高い)≠p(y=多い|do(x=高い)) (式1)
式1に例示する予測式p(y=多い|x=高い)は、過去データにおいて高い精度を有する。ただし、「晴れの日に傘を高い値段で売った」という実績データがないということに注意する必要がある。この場合、最適化器は、(x=高い、z=晴れ)という戦略の組み合わせが過去データに存在しないにもかかわらず、高い予測精度を元に最適化を行っていることになる。これは、特徴量選択によって、リスクの高い戦略であるという情報が入力されず、最適化器が適切に判断できない、という現象ととらえることができる。式1に示すような状況を考慮せず最適化を行ってしまうと、最適化の戦略として危ういものを選択してしまう可能性がある。すなわち、予測の場面においては、観測されない状況における予測精度は保証されない一方、最適化の場面においては、過去に観測されない状況も考慮される。
予測の観点から適切な特徴選択、すなわち予測の観点から冗長な特徴を除外するような特徴選択を行い、選択された特徴のみを用いて学習された予測モデルがあるとする。この予測モデルは予測の目的に用いられる限り、良いパフォーマンスを発揮すると思われる。しかし、この予測モデルを最適化の目的に用いた場合、危うい戦略を選択しまう結果、適切な最適化ができない場合も存在する。予測の目的にのみ用いられる予測モデルを学習するために必要な特徴の集合と、予測に基づく最適化に用いられる予測モデルを学習するために必要な特徴の集合とは、必ずしも一致しない、ということを、本発明者は見出した。予測モデルに基づく最適化を行う際には、予測の目的では冗長である特徴であっても、適切な最適化に必要な特徴については漏れなく選択できることが好ましい。
そこで、本発明では、予測モデルの学習に用いられる特徴を選択する際、その予測モデルを用いて行われる適切な最適化に必要な特徴を知ることができる特徴選択システム、特徴選択方法および特徴選択プログラムを提供することを目的とする。
本発明による特徴選択システムは、予測モデルを用いて表される目的関数を制約条件の下で最適化するための操作変数を算出する場合におけるその予測モデルの学習に用いられる特徴を選択する特徴選択システムであって、予測対象の指定と、操作変数の指定とを受け付ける受付部と、予測対象に影響し得る特徴の集合から、その予測対象に影響する特徴の集合である第1特徴集合と、操作変数に影響する特徴の集合である第2特徴集合とを選択する特徴選択部と、第1特徴集合と第2特徴集合とを出力する出力部とを備えたことを特徴とする。
本発明による特徴選択方法は、予測モデルを用いて表される目的関数を制約条件の下で最適化するための操作変数を算出する場合におけるその予測モデルの学習に用いられる特徴を選択する特徴選択方法であって、予測対象の指定と、操作変数の指定とを受け付け、予測対象に影響し得る特徴の集合から、その予測対象に影響する特徴の集合である第1特徴集合と、操作変数に影響する特徴の集合である第2特徴集合とを選択し、第1特徴集合と第2特徴集合とを出力することを特徴とする。
本発明による特徴選択プログラムは、予測モデルを用いて表される目的関数を制約条件の下で最適化するための操作変数を算出する場合におけるその予測モデルの学習に用いられる特徴を選択するコンピュータに適用される特徴選択プログラムであって、コンピュータに、予測対象の指定と、操作変数の指定とを受け付ける受付処理、予測対象に影響し得る特徴の集合から、その予測対象に影響する特徴の集合である第1特徴集合と、操作変数に影響する特徴の集合である第2特徴集合とを選択する特徴選択処理、および、第1特徴集合と第2特徴集合とを出力する出力処理を実行させることを特徴とする。
本発明によれば、予測モデルの学習に用いられる特徴を選択する際、その予測モデルを用いて行われる適切な最適化に必要な特徴を知ることができる。
本発明による価格最適化システムの一実施形態を示すブロック図である。 価格最適化システムが価格最適化を行う場合の動作例を示すフローチャートである。 価格最適化システムが予測対象と操作変数の指定に応じて特徴を選択する処理の例を示すフローチャートである。 データベースに記録された店舗の売上記録の例を示す説明図である。 本発明による特徴選択システムの概要を示すブロック図である。 本発明による特徴選択システムに入力されるデータの一具体例を示す説明図である。 少なくとも1つの実施形態に係るコンピュータの構成を示す概略ブロック図である。
まず初めに、本願発明について用いられる用語を説明する。本実施形態で特徴(Feature)とは、属性名の意味で用いられる。また、その属性が示す具体的な値のことを、属性の値と記す。属性の例は価格であり、この場合の属性の値の例は、500円である。なお、以下の説明で、「特徴」と記載した場合、その役割は限定されず、属性名の意味の他、後述する説明変数、予測対象、または、操作変数を意味することもある。
説明変数とは、予測対象に影響を与え得る変数を意味する。上述する傘の価格の最適化問題の例では、「午前に雨であるか否か」、「午後に雨であるか否か」、などの他、「月末であるか否か」などが説明変数に該当する。本実施形態では、特徴選択を行う際の入力として、説明変数の候補が入力される。すなわち、特徴選択では、説明変数の候補の中から予測対象に影響を与え得る説明変数が特徴として選択され、結果として出力される。言い換えると、特徴選択において選択された説明変数は、説明変数の候補の部分集合である。
予測対象は、機械学習の分野では、「目的変数」とも呼ばれる。なお、後述する最適化処理で一般的に用いられる「目的変数」との混同を避けるため、以下の説明では、予測対象を表す変数を被説明変数と記す。したがって、予測モデルは、被説明変数を1つ以上の説明変数を用いて表したモデルということができる。なお、本実施形態では、学習処理の結果得られるモデルのことを学習済モデルと記すこともある。本実施形態において、予測モデルは、学習済モデルの具体的態様である。
操作変数とは、オペレーションの際に何らかの(例えば、人の)介入が入る変数を意味する。具体的には、最適化処理において最適化の対象になる変数のことを意味する。なお、操作変数は、最適化処理では一般に「目的変数」と呼ばれる変数であるが、上述するように、機械学習で用いられる目的変数との混同を避けるため、「目的変数」との用語を用いずに本願発明を説明する。上述する傘の価格の最適化問題の例では、「傘の価格」が操作変数に該当する。
なお、操作変数は説明変数の一部である。以下の説明では、説明変数と操作変数とを区別する必要がない場合、単に説明変数と記載し、説明変数と操作変数とを区別する場合、説明変数は、操作変数以外の変数を意味する。また、説明変数と操作変数とを区別する場合、操作変数以外の説明変数を外部変数 と表現することもある。
目的関数は、最適化処理において、与えられた制約条件の下、操作変数を最適化することにより最大または最小の値を求める対象の関数を意味する。上述する傘の価格の最適化問題の例では、売上高(売上数×価格)を算出する関数が目的関数に該当する。
以下、本発明の実施形態を図面を参照して説明する。
図1は、本発明による価格最適化システムの一実施形態を示すブロック図である。本実施形態の価格最適化システム100は、予測に基づく最適化を行うシステムであり、受付部10と、特徴選択部20と、学習部30と、最適化部40と、出力部50とを備えている。なお、本実施形態の価格最適化システム100は、具体的態様として特徴選択を行うことから、価格最適化システム100のことを特徴選択システムということができる。
すなわち、本実施形態の価格最適化システムは、予測対象の予測に用いられる予測モデルを学習するシステムであり、また、その予測モデルを用いて表される目的関数を制約条件の下で最適化するための操作変数を算出するシステムである。ここで、予測モデルを用いて表される目的関数は、予測モデルを用いて予測される予測値を引数として定義される目的関数、および、予測モデルのパラメータを引数として定義される目的関数のいずれをも意味する。
受付部10は、予測対象(言い換えると、被説明変数)と、その予測対象に影響し得る特徴の集合(言い換えると、説明変数の候補)と、最適化の対象(言い換えると、操作変数)とを受け付ける。具体的には、受付部10は、どの特徴が被説明変数yであるのかの指定と、どの特徴が操作変数xであるのかの指定とを受け付ける。また、受付部10は、説明変数zの候補を受け付ける。なお、価格最適化システム100が予め説明変数zの候補を保持している場合、受付部10は、被説明変数yである予測対象の指定と、操作変数xの指定の2種類を受け付けてもよい。
上述するように、操作変数xは説明変数zの一部であることから、受付部10は、説明変数zの候補と、その説明変数zの中に含まれる操作変数xの識別子を受け付けてもよい。上述する傘の価格の最適化問題の場合、被説明変数yが傘の売上数を表わし、操作変数xが傘の価格を表わし、説明変数zが天気を表わす。また。受付部10は、後続の処理で必要になる各種パラメータも受け付ける。
特徴選択部20は、予測モデルの学習に用いられる特徴を選択する。具体的には、特徴選択部20は、受付部10が受け付けた予測対象に影響し得る特徴の集合から、予測対象に影響する特徴の集合を選択する。以下、予測対象に影響する特徴の集合を第1特徴集合と記す。例えば、上述する傘の価格の最適化問題の場合、予測対象である傘(商品)の売上数に影響し得る特徴の集合から、売上数に影響する集合(第1特徴集合)として、価格が選ばれる。このとき、予測対象を説明するために互いに冗長であるような特徴が複数存在する場合、冗長な特徴のうちいくつかは第1特徴集合からは除外される。上述した例では、予測対象(売上数)を説明するための特徴として価格と天気とは互いに冗長な特徴とみなされ、価格と天気とのうち片方が第1特徴集合から除外される。上述した例では、天気が除外される。
さらに、本実施形態の特徴選択部20は、受付部10が受け付けた予測対象に影響し得る特徴の集合から、操作変数に影響する特徴の集合を選択する。以下、操作変数に影響する特徴の集合を第2特徴集合と記す。例えば、上述する傘の価格の最適化問題の場合、操作変数である価格に影響する集合(第2特徴集合)として、天気が選ばれる。このとき、操作変数を説明するために互いに冗長であるような特徴が複数ある場合、冗長な特徴のうちいくつかは第2特徴集合からは除外される。
このように、特徴選択部20は、予測対象である商品の売上数に影響し得る特徴の集合から、予測対象(売上数)に影響する第1特徴集合と、操作変数(商品の価格)に影響する第2特徴集合とを選択する。ここで、第1特徴集合は、予測の目的のみに用いる予測モデルを学習する際に必要十分な特徴集合である。第1特徴集合には含まれず且つ第2特徴集合に含まれる特徴は、予測の目的のみに用いる予測モデルを学習する際には必ずしも必要な特徴ではないが、予測に基づく最適化に用いられる予測モデルを学習する際には必要となる特徴である。なお、特徴選択部20は、操作変数自体は除外しないものとする(すなわち、操作変数が、必ず第1特徴集合と第2特徴集合のいずれかに残るようにする)。
上記では、具体例を用いて特徴が選択される場合を例示したが、特徴選択部20は、一般に知られた特徴選択技術を用いて第1特徴集合および第2特徴集合を選択すればよい。特徴選択技術として、例えば、L1正則化が挙げられる。ただし、特徴選択部20が特徴を選択する方法はL1正則化に限られない。
特徴選択には、例えば、matching orthogonal pursuit等の貪欲法的による特徴量選択や、様々な情報量基準による選択も含まれる。なお、正則化法は、多くの特徴量を選ぶごとにペナルティを加える方法である。貪欲法は、有力な特徴量から決められた数の特徴量を選択する方法である。情報量基準は、多くの特徴量を選ぶことによって生じる汎化誤差に基づくペナルティを課す方法である。L1正則化を用いた特徴選択の具体的な方法については、後述される。
学習部30は、第1特徴集合に含まれる特徴および第2特徴集合に含まれる特徴を説明変数とし、予測対象の特徴を被説明変数とする予測モデルを学習する。価格の例の場合、学習部30は、第1特徴集合に含まれる特徴および第2特徴集合に含まれる特徴を説明変数とし、売上数を予測対象とする予測モデルを学習する。その際、学習部30は、第2特徴集合には含まれるが第1特徴集合には含まれない少なくとも一つの特徴を説明変数として用いて、予測モデルを学習する。なお、学習部30は、第1特徴集合に含まれる特徴および第2特徴集合に含まれる特徴の全ての特徴を説明変数とすることが好ましい。
一般的な特徴選択では、第2特徴集合に含まれる特徴が選択されないため、後述する最適化処理に影響するような特徴を含めた学習をすることは困難である。一方、本実施形態では、学習部30が第2特徴集合には含まれるが第1特徴集合には含まれない特徴を説明変数としてモデルを学習するため、後処理である最適化処理を考慮したモデルを生成できる。
最適化部40は、学習部30によって生成された予測モデルを引数として定義される被説明変数の関数を最大化または最小化するように操作変数の値を最適化するする。売上の例の場合、最適化部40は、予測モデルを引数として定義される売上高が高くなるように、制約条件の下で商品の価格を最適化する。より具体的には、最適化部40は、予測モデルを用いて予測される売上数を引数として定義される売上高が高くなるように、制約条件の下で商品の価格を最適化する。
予測モデルを用いて最適化する際、最適化部40に予測誤差の分布を表す情報を入力し、それに基づく最適化を行うことができる。つまり、予測誤差が大きい戦略に対してペナルティを課すことで、リスクの高い戦略を避けるような最適化ができる。これは、予測誤差を用いない最適化と対比して、ロバスト最適化、確率最適化などと呼ばれる。例えば、予測モデルがy=a+bで表される場合、予測誤差の分布は、aおよびbに関する分布である。予測誤差の分布とは、例えば、分散共分散行列である。ここで入力される予測誤差の分布は、予測モデルの内容、より具体的には、第2特徴集合には含まれるが第1特徴集合には含まれない特徴に依存する。
例えば、操作変数をx、説明変数であって第1特徴集合に含まれる特徴をz、説明変数であって第2特徴集合には含まれるが第1特徴集合には含まれない特徴をz、被説明変数をyとする。第2特徴集合には含まれるが第1特徴集合には含まれない特徴(すなわち、z)を考慮しないような一般的な特徴選択が行われる場合、例えば、以下の式2に示す予測モデルが生成される。
y=a+a+b (式2)
一方、本実施形態のように、zを考慮した特徴選択が行われる場合、例えば、以下の式3に示す予測モデルが生成される。
y=a+a+a+b (式3)
このように予測モデルの生成には必ずしも必要がない特徴(z)であっても、予測モデルに含めるように特徴選択が行われているため、より適切な予測誤差の分布を最適化部40に入力できる。
上述する傘の価格の最適化問題では、上記式2は、天気に関する特徴量zが選択されなかった場合に対応し、上記式3は、天気に関する特徴量zが選択された場合に対応する。上記式2は、予測誤差の分布は、価格が高いときも低いときも予測精度が高いことを示す。一方、上記式3は、雨で価格が高い場合の予測精度はよいが、晴れで価格が高い場合の予測精度は低い、という情報を表す予測誤差分布を含む。よって、式3に示すような状況を踏まえて最適化を行うことにより、特徴量選択が原因でリスクの高い戦略が選択されてしまうという状況を避けることができる。
最適化部40が最適化処理を行う方法は任意であり、一般的な最適化問題を解く方法を用いて操作変数(価格)を最適化すればよい。
出力部50は、最適化結果を出力する。例えば、売上高を高くするように価格最適化を行った場合、出力部50は、最適な価格と、その時の売上高を出力してもよい。
また、出力部50は、最適化結果だけでなく、特徴選択部20が選択した第1特徴集合と第2特徴集合を出力してもよい。このとき、出力部50は、第1特徴集合に含まれる特徴と、第2特徴集合には含まれるが第1特徴集合には含まれない特徴とを、区別し得る態様で出力してもよい。区別し得る態様で出力する方法の例として、第2特徴集合には含まれるが第1特徴集合には含まれない特徴の色を変える方法、強調表示する方法、大きさを変える方法、斜体で表示する方法などが挙げられる。また、出力部50の出力先は任意であり、例えば、価格最適化システム100が備えるディスプレイ装置などの表示装置(図示せず)であってもよい。
第1特徴集合は一般的な特徴選択処理で選択された特徴であり、第2特徴集合は後処理である最適化処理を考慮して選択された特徴であって一般的な特徴選択処理では現れない特徴である。このような特徴を区別して表示することで、最適化処理を実行する際に用いる適切な特徴をユーザが把握し、選択することが可能になる。その結果、ユーザは表示された情報を閲覧し、ドメイン知識を生かした特徴の調整も可能になる。
受付部10と、特徴選択部20と、学習部30と、最適化部40と、出力部50とは、プログラム(価格最適化プログラム、特徴選択プログラム)に従って動作するコンピュータのCPUによって実現される。
例えば、プログラムは、価格最適化システム100が備える記憶部(図示せず)に記憶され、CPUは、そのプログラムを読み込み、プログラムに従って、受付部10と、特徴選択部20と、学習部30と、最適化部40とおよび出力部50として動作してもよい。
また、受付部10と、特徴選択部20と、学習部30と、最適化部40と、出力部50とは、それぞれが専用のハードウェアで実現されていてもよい。
次に、本実施形態の価格最適化システム100の動作例を説明する。図2は、価格最適化システム100が価格最適化を行う場合の動作例を示すフローチャートである。
特徴選択部20は、商品の売上数に影響し得る特徴の集合(すなわち、説明変数zの候補)から、売上数(すなわち、被説明変数y)に影響する第1特徴集合を選択する(ステップS11)。さらに、特徴選択部20は、商品の売上数に影響し得る特徴の集合から、商品の価格(すなわち、操作変数x)に影響する第2特徴集合を選択する(ステップS12)。
学習部30は、第1特徴集合と第2特徴集合に含まれる特徴を説明変数とし、売上数を予測対象とする予測モデルを学習する。その際、学習部30は、第2特徴集合には含まれるが第1特徴集合に含まれない少なくとも1つの特徴を説明変数とする予測モデルを学習する(ステップS13)。
最適化部40は、予測モデルを引数として定義される売上高が高くなるように、制約条件の下で商品の価格を最適化する(ステップS14)。
また、図3は、価格最適化システム100が予測対象と操作変数の指定に応じて特徴を選択する処理の例を示すフローチャートである。
受付部10は、予測対象(すなわち、被説明変数y)の指定と、操作変数(すなわち、操作変数x)の指定とを受け付ける(ステップS21)。特徴選択部20は、予測対象に影響し得る特徴の集合(すなわち、説明変数zの候補)から、その予測対象に影響する第1特徴集合と、操作変数に影響する第2特徴集合とを選択する(ステップS22)。特徴選択部20は、選択した第1特徴集合および第2特徴集合を学習部30に入力してもよい。
出力部50は、第1特徴集合と第2特徴集合とを出力する(ステップS23)。このとき、出力部50は、第1特徴集合に含まれる特徴と、第2特徴集合には含まれるが第1特徴集合には含まれない特徴とを、区別し得る態様にて出力してもよい。
以上のように、本実施形態では、特徴選択部20が、商品の売上数に影響し得る特徴の集合から、売上数に影響する第1特徴集合と、商品の価格に影響する第2特徴集合とを選択し、学習部30が、第1特徴集合と第2特徴集合に含まれる特徴を説明変数とし、売上数を予測対象とする予測モデルを学習し、最適化部40が、予測モデルを引数として定義される売上高が高くなるように、制約条件の下で商品の価格を最適化する。その際、学習部30は、第2特徴集合には含まれるが第1特徴集合に含まれない少なくとも1つの特徴を説明変数とする予測モデルを学習する。
よって、予測に基づいて価格を最適化する場合において、危うい戦略を回避できるように価格の最適化を行うための特徴を選択できる。
また、本実施形態では、受付部10が予測対象の指定と、操作変数の指定とを受け付け、特徴選択部20が、予測対象に影響し得る特徴の集合から、その予測対象に影響する第1特徴集合と、操作変数に影響する第2特徴集合とを選択して、出力部50が出力する。
よって、予測モデルの学習に用いられる特徴を選択する際、その予測モデルを用いて行われる適切な最適化に必要な特徴を知ることができる。
次に、本実施形態の価格最適化システム100が特徴を選択する処理を、L1正則化の具体例を用いて説明する。前述した通り、L1正則化は数ある特徴選択技術の一具体例に過ぎず、本発明に用いることができる特徴選択技術はL1正則化には限定されない。ここでは、雨の日の午後に傘が売れる、という例を考える。操作変数xが傘の価格を表わし、被説明変数yが傘の売上数を表わし、説明変数z〜zが、それぞれ「午前に雨であるか」、「午後に雨であるか」、「月末(15日以降)」であるか、を0−1変数で表すものとする。ここで、真の売上数yが、以下の式4として生成されているとする。
y=−7z+14z−x/50+15+ノイズ (式4)
式4では、午後に雨(すなわち、z=1)である場合には売り上げが伸びるが、午前に雨が降っていると(例えば、顧客が午前にすでに傘を買っているため)、売上が落ちる、というモデルを想定している。また、説明変数zは、説明変数の候補ではあるが、売上に関係しない変数であるといえる。なお、ノイズは、説明を簡略化するため、(0,1,2)の値をランダムにとるものとする。
一方で、雨の日に傘が売れることを知っている店主は、以下に示す式5に基づいて傘の値段を設定しているものとする。
x=−100z+200z+500 (式5)
図4は、データベースに記録された店舗の売上記録の例を示す説明図である。図4に示す例では、Idで識別される集計単位ごとに価格x、その集計時の午後の売上数y、および、その集計時の特徴の有無が記録されていることを示す。例えば、Id=1で識別される売上記録は、午前および午後のいずれも雨が降っていない月末に、価格を500円に設定した場合、午後の傘の売上数が6本であったことを示す。
このようなデータに基づき、予測のための特徴選択が行われるとする。以下の説明では、特徴選択部20は、L1正則化(Lasso)を用いて、以下に示す式6を最小化する非ゼロのwを選択することにより、特徴選択を行う。なお、式6において、Lassoのペナルティの係数を、後述する説明を簡易にするため、1/10としている。
Figure 2018154663
十分なデータが得られているとの前提のもと、以下の式7または式8に示す関係を満たすw(および、適切に選ばれたc)と、それらの線形結合(a×(式7に示すw)+(1−a)×(式8に示すw))とは、同様によくデータを説明し、式6における第一項が最小になる。しかし、式6における第二項のスパース性に対する制約から、式7に示すwの組が得られる。これは、式7に示すwの組では第二項から算出されるペナルティが1/200であるのに対し、式8に示すwの組では第二項から算出されるペナルティが1.5になるためである。したがって、特徴としてxが選択される。
=1/20,w=w=w=0 (式7)
=0,w=−5,w=10,w=0 (式8)
なお、本具体例では、理想的なwが明らかに小さい場合を例示しているが、wが大きい場合にも、特徴選択の設定においてwを必ず選ぶと指定することにより、同様の現象を観測できる。この設定は、特に、後処理の最適化を想定した場合で、価格を示す特徴に残ってほしい、と想定した場合になされる。
さらに、特徴選択部20は、式6に基づいて選択された特徴に加え、xを説明する特徴もさらに選択する。具体的には、特徴選択部20は、以下に示す式9を最小化する非ゼロのw´を選択することにより、特徴選択を行う。
Figure 2018154663
w´=−100,w´=−200のとき、式9における第一項が最小になる。例えば、5日に一度は午前および午後が独立に雨である、といったような雨の日の頻度が十分高い場合、第一項を最小化する効果は、第二項のペナルティに比べて十分大きくなる。結果して、w´=−100,w´=−200が解になるため、特徴としてzおよびzが選択される。以上、本実施形態にかかる発明を、L1正則化を用いて実行した具体例について説明した。本発明に用いることができる特徴選択技術は、L1正則化には限定されず、他の特徴選択技術を用いることも可能である。
以上の特徴選択処理により、すなわち、予測対象を説明する特徴に加えて、操作変数を説明する特徴もさらに選択する特徴選択処理により、x,zおよびzが特徴として選択される。言い換えると、最適化部40は、最適化に必要な特徴としてx,zおよびzを認識できることから、最適化には天気を考慮すべきと判断できるため、例えば、「晴れの日に傘を高い値段で売る」という、危うい戦略を選択することを回避できる。
ここで、上述する危うい戦略を選択することを回避できる理由を、より詳細に説明する。特徴x,zおよびzが正しく選択されたとして、以下の式10で示す予測式を作成し、wハット、wハットおよびwハット(ハットは、上付き^)を推定により得ることを考える。
Figure 2018154663
xベクトルおよびwハットベクトルを以下の式11で表すと、yハットは、以下の式12で表される。
Figure 2018154663
過去の戦略xは、上記式5に基づき、以下の式13のように生成されたとする。
x=−100z+200z+500+ε (式13)
なお、式10および式13において、ε〜N(0,σ )、ε〜N(0,σ )で、σ はσ およびデータ数nに比べて十分に小さいとする。なお、N(0,σ)は、平均0、分散σの正規分布を表す。
ここで、ベクトルv、v、vを規定する。まず、vを以下の式14のように規定する。vは、上記式13を満たす(x z)に対して、以下の式15を満たす。
Figure 2018154663
推定法として、最小二乗法が用いられるとする。このとき、真の係数w*T=(−1/50 −7 14 15)として、推定値は、近似的に以下の式16に示す確率分布に従う。ここでは、説明の簡略化のため、式17に示す近似式を想定する。
Figure 2018154663
式17において、σ´=0(σ)であり、γ,γ,γは定数である。また、v,v,vはvも含めて互いに直交な規格化されたベクトルである。
最適化の際、z,zの実現値チルダz,チルダz(チルダは上付き〜)が得られたとする。このとき、以下の式18に示す楕円状の不確実性領域におけるロバスト最適化法を考える。
Figure 2018154663
式18において、推定値wベクトルハットと、その予測誤差の分散共分散行列Σが得られていると仮定する。Σもその推定値で置き換えられてもよい。また、λは、適切に選ばれた正のパラメータである。このとき、以下に示す式19が成り立つ。
Figure 2018154663
いま、1/σ´がσ/√nに比べ十分に大きいことから、上記式15を満たさない価格戦略xは、上記式18において、大きなペナルティをうける。よって、以下に示す式20を満たす価格が選ばれやすい。
Figure 2018154663
上記式20は、上記式13を満たすことと等価である。よって、上記具体例では、「晴れの日には低い価格をつける」ということに相当する。
以上の内容は、以下のように一般化される。真のパラメータθに対する戦略xの最適化問題を以下に示す式21で定義する。
Figure 2018154663
式21において、Xはドメイン、vは関数である。ここで、θの代わりにその推定値θハットと誤差分布が得られた場合のロバスト最適化問題を考える。誤差に正規性を仮定すると、典型的には、誤差の分散共分散行列Σを用いて、以下の式22が定義される。なお、式22にとは異なる方法でロバスト最適化法を用いてもよい。式22では、第2項が、予測分散が大きい戦略に対するペナルティとして働く。
Figure 2018154663
以上、危うい戦略を選択することを回避できる理由を説明した。また、本実施形態の説明から、以下のことも説明される。上記式1に示すように、p(y=多い|x=高い)とp(y=多い|do(x=高い))とは等しくない。一方で、介入を行って得られた値(do(x=高い))が用いられる場合であっても、予測対象yを説明できる特徴量だけでなく、操作変数xを説明できる特徴量を残せばよい。これは、以下の式23で表す内容を意味する。
p(y=多い|x=高い,z=雨)=p(y=多い|do(x=高い),z=雨)
(式23)
次に、本発明の概要を説明する。図5は、本発明による特徴選択システムの概要を示すブロック図である。本発明による特徴選択システム90は、ユーザによる外部からのデータ(より具体的には、特徴の集合)の入力を受け付ける。図6は、図5に例示する特徴選択システムがユーザにより外部から受け付けるデータの具体例を示す説明図である。図6に例示するデータは、日ごとの傘の価格および傘の売上数、並びに、その日の状況(例えば、天気、最高気温、広告を出したか否か、祝日か否か、など)を示すデータである。
本発明による特徴選択システム90は、予測モデルを用いて表される目的関数を制約条件の下で最適化するための操作変数(例えば、操作変数x)を算出する場合におけるその予測モデルの学習に用いられる特徴を選択する特徴選択システムであって、予測対象(例えば、被説明変数y)の指定と、操作変数の指定とを受け付ける受付部91(例えば、受付部10)と、予測対象に影響し得る特徴(例えば、説明変数zの候補)の集合から、その予測対象に影響する特徴の集合である第1特徴集合と、操作変数に影響する特徴の集合である第2特徴集合とを選択する特徴選択部92(例えば、特徴選択部20)と、第1特徴集合と第2特徴集合とを出力する出力部93(例えば、出力部50)とを備えている。
そのような構成により、予測モデルの学習に用いられる特徴を選択する際、その予測モデルを用いて行われる適切な最適化に必要な特徴を知ることができる
例えば、傘の価格の最適化問題の場合、図6に示す例では、特徴選択システム90(より具体的には、受付部91)は、予測対象(被説明変数y)の指定に傘の売上数を受け付け、操作変数(操作変数x)の指定に傘の価格を受け付ける。また、特徴選択システム90(より具体的には、受付部91)は、予測対象に影響し得る特徴(説明変数zの候補)の集合の指定に、その日の状況(例えば、天気、最高気温、広告を出したか否か、祝日か否か、など)を受け付ける。なお、特徴選択システム90は、特徴の集合として、傘の価格およびその日の状況を受け付け、その特徴のうち、傘の価格が操作変数である旨の識別情報(それ以外は、説明変数zの候補である旨の情報)を併せて受け付けてもよい。
また、特徴選択システム90は、第2特徴集合には含まれるが第1特徴集合に含まれない少なくとも1つの特徴を説明変数とする予測モデルを学習する学習部(例えば、学習部30)を備えていてもよい。
そして、学習部は、第1特徴集合に含まれる特徴および第2特徴集合に含まれる特徴の全てを説明変数とし、予測対象である特徴を被説明変数とするモデルを学習してもよい。そのような構成により、最適化処理の入力として用いられる予測モデルを、後処理である最適化処理をも考慮して適切に学習することができる。
また、出力部93は、第1特徴集合に含まれる特徴と、第2特徴集合には含まれるが第1特徴集合には含まれない特徴とを、区別し得る態様にて表示装置に表示してもよい。そのような構成により、予測に特化した場合に選択される特徴と、後処理である最適化処理を考慮した場合にはじめて選択される特徴とを区別することができる。
また、特徴選択部92は、予測対象に影響し得る特徴の集合から、予測対象を被説明変数として特徴選択処理を行うことで第1特徴集合を取得し、予測対象に影響し得る特徴の集合から、操作変数を被説明変数として特徴選択処理を行うことで第2特徴集合を取得してもよい。そして、出力部93は、取得された第1特徴集合と第2特徴集合との和集合を出力してもよい。
なお、特徴選択部92は、操作変数として指定された特徴を第1特徴集合に含めるように選択する。このように、操作変数として指定された特徴を必ず残すことにより、後処理である最適化処理が可能になる。
特徴選択システム90は、例えば予測に基づく最適化に用いられる予測モデルを学習するための特徴選択機能を備えた、パッケージソフトウェアやAPI(Application Program Interface )として実装されてもよい。このような特徴選択機能がSaaS(Software as a Service)形式で提供されても良い。
図7は、少なくとも1つの実施形態に係るコンピュータの構成を示す概略ブロック図である。コンピュータ1000は、CPU1001、主記憶装置1002、補助記憶装置1003、インタフェース1004を備える。
上述の情報処理システムは、コンピュータ1000に実装される。そして、上述した各処理部の動作は、プログラム(特徴選択プログラム)の形式で補助記憶装置1003に記憶されている。CPU1001は、プログラムを補助記憶装置1003から読み出して主記憶装置1002に展開し、当該プログラムに従って上記処理を実行する。
なお、少なくとも1つの実施形態において、補助記憶装置1003は、一時的でない有形の媒体の一例である。一時的でない有形の媒体の他の例としては、インタフェース1004を介して接続される磁気ディスク、光磁気ディスク、CD−ROM、DVD−ROM、半導体メモリ等が挙げられる。また、このプログラムが通信回線によってコンピュータ1000に配信される場合、配信を受けたコンピュータ1000が当該プログラムを主記憶装置1002に展開し、上記処理を実行しても良い。
また、当該プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、当該プログラムは、前述した機能を補助記憶装置1003に既に記憶されている他のプログラムとの組み合わせで実現するもの、いわゆる差分ファイル(差分プログラム)であっても良い。
本発明は、予測に用いる特徴を選択する特徴選択システムに好適に適用される。例えば、本発明をホテルの価格を最適化に用いられる特徴を選択するようなシステムにも好適に適用される。また、本発明は、例えば、データベースと結合され、予測に基づいて最適化した結果(最適解)を出力するシステムに好適に適用される。この場合、例えば、特徴量の選択処理とそれ踏まえた最適化処理とを一まとめに行うシステムとして提供されてもよい。
10 受付部
20 特徴選択部
30 学習部
40 最適化部
50 出力部
100 価格最適化システム

Claims (10)

  1. 予測モデルを用いて表される目的関数を制約条件の下で最適化するための操作変数を算出する場合における当該予測モデルの学習に用いられる特徴を選択する特徴選択システムであって、
    予測対象の指定と、前記操作変数の指定とを受け付ける受付部と、
    前記予測対象に影響し得る特徴の集合から、当該予測対象に影響する特徴の集合である第1特徴集合と、前記操作変数に影響する特徴の集合である第2特徴集合とを選択する特徴選択部と、
    前記第1特徴集合と第2特徴集合とを出力する出力部とを備えた
    ことを特徴とする特徴選択システム。
  2. 第2特徴集合には含まれるが第1特徴集合に含まれない少なくとも1つの特徴を説明変数とする予測モデルを学習する学習部を備えた
    請求項1記載の特徴選択システム。
  3. 学習部は、第1特徴集合に含まれる特徴および第2特徴集合に含まれる特徴の全てを説明変数とし、予測対象である特徴を被説明変数とするモデルを学習する
    請求項2記載の特徴選択システム。
  4. 出力部は、第1特徴集合に含まれる特徴と、第2特徴集合には含まれるが第1特徴集合には含まれない特徴とを、区別し得る態様にて表示装置に表示する
    請求項1から請求項3のうちのいずれか1項に記載の特徴選択システム。
  5. 特徴選択部は、予測対象に影響し得る特徴の集合から、予測対象を被説明変数として特徴選択処理を行うことで第1特徴集合を取得し、予測対象に影響し得る特徴の集合から、操作変数を被説明変数として特徴選択処理を行うことで第2特徴集合を取得し、
    出力部は、取得された前記第1特徴集合と前記第2特徴集合との和集合を出力する
    請求項1から請求項4のうちのいずれか1項に記載の特徴選択システム。
  6. 特徴選択部は、操作変数として指定された特徴を第1特徴集合に含めるように選択する
    請求項1から請求項5のうちのいずれか1項に記載の特徴選択システム。
  7. 予測モデルを用いて表される目的関数を制約条件の下で最適化するための操作変数を算出する場合における当該予測モデルの学習に用いられる特徴を選択する特徴選択方法であって、
    予測対象の指定と、前記操作変数の指定とを受け付け、
    前記予測対象に影響し得る特徴の集合から、当該予測対象に影響する特徴の集合である第1特徴集合と、前記操作変数に影響する特徴の集合である第2特徴集合とを選択し、
    前記第1特徴集合と第2特徴集合とを出力する
    ことを特徴とする特徴選択方法。
  8. 第2特徴集合には含まれるが第1特徴集合に含まれない少なくとも1つの特徴を説明変数とする予測モデルを学習する
    請求項7記載の特徴選択方法。
  9. 予測モデルを用いて表される目的関数を制約条件の下で最適化するための操作変数を算出する場合における当該予測モデルの学習に用いられる特徴を選択するコンピュータに適用される特徴選択プログラムであって、
    前記コンピュータに、
    予測対象の指定と、前記操作変数の指定とを受け付ける受付処理、
    前記予測対象に影響し得る特徴の集合から、当該予測対象に影響する特徴の集合である第1特徴集合と、前記操作変数に影響する特徴の集合である第2特徴集合とを選択する特徴選択処理、および、
    前記第1特徴集合と第2特徴集合とを出力する出力処理
    を実行させるための特徴選択プログラム。
  10. コンピュータに、
    第2特徴集合には含まれるが第1特徴集合に含まれない少なくとも1つの特徴を説明変数とする予測モデルを学習する学習処理を実行させる
    請求項9記載の特徴選択プログラム。
JP2019500917A 2017-02-22 2017-02-22 特徴選択システム、特徴選択方法および特徴選択プログラム Active JP6708295B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2017/006647 WO2018154663A1 (ja) 2017-02-22 2017-02-22 特徴選択システム、特徴選択方法および特徴選択プログラム

Publications (2)

Publication Number Publication Date
JPWO2018154663A1 true JPWO2018154663A1 (ja) 2019-06-27
JP6708295B2 JP6708295B2 (ja) 2020-06-10

Family

ID=63253628

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019500917A Active JP6708295B2 (ja) 2017-02-22 2017-02-22 特徴選択システム、特徴選択方法および特徴選択プログラム

Country Status (2)

Country Link
JP (1) JP6708295B2 (ja)
WO (1) WO2018154663A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015138544A (ja) * 2014-01-21 2015-07-30 横河電機株式会社 工業プラントにおける多変数予測コントローラの制御変数を監視するための方法およびシステム
WO2016047118A1 (ja) * 2014-09-26 2016-03-31 日本電気株式会社 モデル評価装置、モデル評価方法、及び、プログラム記録媒体

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015138544A (ja) * 2014-01-21 2015-07-30 横河電機株式会社 工業プラントにおける多変数予測コントローラの制御変数を監視するための方法およびシステム
WO2016047118A1 (ja) * 2014-09-26 2016-03-31 日本電気株式会社 モデル評価装置、モデル評価方法、及び、プログラム記録媒体

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
潮田 幹生: "潜在変数を仮定した多次元線形回帰モデルにおけるベイズ基準のもと最適なデータ予測に関する一考察", 電子情報通信学会技術研究報告 VOL.115 NO.415, vol. 第115巻, JPN6020005810, 14 January 2016 (2016-01-14), JP, pages 269 - 273, ISSN: 0004213923 *
都築 遼馬: "潜在変数によって表現された線形回帰モデルにおけるベイズ基準の下で最適な予測", 第37回情報理論とその応用シンポジウム予稿集 [CD−ROM], JPN6020005809, 2 December 2014 (2014-12-02), ISSN: 0004213922 *

Also Published As

Publication number Publication date
WO2018154663A1 (ja) 2018-08-30
JP6708295B2 (ja) 2020-06-10

Similar Documents

Publication Publication Date Title
US10936947B1 (en) Recurrent neural network-based artificial intelligence system for time series predictions
US20160364783A1 (en) Systems and methods for vehicle purchase recommendations
US20180075360A1 (en) Accuracy-estimating-model generating system and accuracy estimating system
WO2017094207A1 (ja) 情報処理システム、情報処理方法および情報処理用プログラム
US10748072B1 (en) Intermittent demand forecasting for large inventories
US11436617B2 (en) Behavior pattern search system and behavior pattern search method
US20210103858A1 (en) Method and system for model auto-selection using an ensemble of machine learning models
US20150058078A1 (en) Rule to constraint translator for business application systems
US20180240037A1 (en) Training and estimation of selection behavior of target
KR102264540B1 (ko) 관계 분석 네트워크를 이용한 판매시스템 및 그 방법
JP6879357B2 (ja) 価格最適化システム、価格最適化方法および価格最適化プログラム
US20190385178A1 (en) Prediction system and prediction method
JP6558375B2 (ja) 説明変数表示優先順位決定システム、方法およびプログラム
US20220351051A1 (en) Analysis system, apparatus, control method, and program
Gallego et al. Online learning
Chandrashekhara et al. Smartphone price prediction in retail industry using machine learning techniques
JP2021043477A (ja) 需要予測装置、需要予測方法、及びプログラム
US20210117828A1 (en) Information processing apparatus, information processing method, and program
JP6708295B2 (ja) 特徴選択システム、特徴選択方法および特徴選択プログラム
JP7464115B2 (ja) 学習装置、学習方法および学習プログラム
JP7196933B2 (ja) 学習装置および学習方法
WO2021229625A1 (ja) 学習装置、学習方法および学習プログラム
US11042837B2 (en) System and method for predicting average inventory with new items
US20220398607A1 (en) Method for inverse reinforcement learning and information processing apparatus
JP7201001B2 (ja) 品揃え支援装置、品揃え支援方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200218

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200403

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200421

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200504

R150 Certificate of patent or registration of utility model

Ref document number: 6708295

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150