WO2022249335A1

WO2022249335A1 - 情報処理装置、情報処理方法、情報処理システム、およびプログラム

Info

Publication number: WO2022249335A1
Application number: PCT/JP2021/020000
Authority: WO
Inventors: 慧竹村
Original assignee: 日本電気株式会社
Priority date: 2021-05-26
Filing date: 2021-05-26
Publication date: 2022-12-01
Also published as: JPWO2022249335A1

Abstract

より好適な行動を決定するために、情報処理装置（１）は、状態を取得する取得部（１１）と、前記状態を参照して行動を決定する決定部（１２）と、前記状態と、前記決定部が決定した行動によって得られた報酬とを含む学習データを蓄積する蓄積部（１３）と、を備え、前記決定部は、状態と行動とから報酬和を予測する第１の関数を、前記学習データに対する重み付けを行うことによって算出し、当該第１の関数を用いて行動を決定する。

Description

情報処理装置、情報処理方法、情報処理システム、およびプログラム

　本発明は、行動を決定する情報処理装置、情報処理方法、情報処理システム、およびプログラムに関する。

　行動と報酬との関係が未知の状態において、報酬を観測しつつ、報酬の総和を最大化するような行動を逐次的に決定する技術が知られている。例えば、このような技術の一例として、非特許文献１には、所謂Upper-Confidence Bounds (UCB)アルゴリズムを用いた技術が開示されている。

Chi Jin et.al. "Provably Efficient Reinforcement Learning with Linear Function Approximation" arXiv:1907.05388v2 [cs.LG], Aug 8, 2019

　しかしながら、非特許文献１に記載の技術は、より好適な行動を決定するという観点で改善の余地がある。一般に行動を決定するために参照する学習データには、信頼性が高いデータと信頼性が低いデータとが混在し得るが、非特許文献１の技術ではこれらのデータを同列に扱っているためである。

　本発明の一態様は、上記の問題に鑑みてなされたものであり、その目的の一例は、より好適な行動を決定することのできる技術を提供することである。

　本発明の一態様に係る情報処理装置は、状態を取得する取得手段と、前記状態を参照して行動を決定する決定手段と、前記状態と、前記決定手段が決定した行動によって得られた報酬とを含む学習データを蓄積する蓄積手段と、を備え、前記決定手段は、状態と行動とから報酬和を予測する第１の関数を、前記学習データに対する重み付けを行うことによって算出し、当該第１の関数を用いて行動を決定する。

　本発明の一態様に係る情報処理方法は、情報処理装置が、状態を取得すること、前記状態を参照して行動を決定すること、及び、前記状態と、前記決定した行動によって得られた報酬とを含む学習データを蓄積すること、を繰り返し含み、前記行動を決定する工程では、状態と行動とから報酬和を予測する第１の関数であって、前記学習データに対する重み付けを行うことによって算出された第１の関数を用いて行動を決定する。

　本発明の一態様に係るプログラムは、コンピュータを情報処理装置として機能させるプログラムであって、前記プログラムは、前記コンピュータを、状態を取得する取得手段と、前記状態を参照して行動を決定する決定手段と、前記状態と、前記決定手段が決定した行動によって得られた報酬とを含む学習データを蓄積する蓄積手段と、して機能させ、前記決定手段は、状態と行動とから報酬和を予測する第１の関数を、前記学習データに対する重み付けを行うことによって算出し、当該第１の関数を用いて行動を決定する。

　本発明の一態様に係る情報処理システムは、情報処理装置と、端末装置とを含む情報処理システムであって、前記情報処理装置は、状態を取得する取得手段と、前記状態を参照して行動を決定する決定手段と、前記状態と、前記決定手段が決定した行動によって得られた報酬とを含む学習データを蓄積する蓄積手段と、を備え、前記決定手段は、状態と行動とから報酬和を予測する第１の関数を、前記学習データに対する重み付けを行うことによって算出し、当該第１の関数を用いて行動を決定し、前記端末装置は、状態を取得し前記情報処理装置に提供する状態情報提供手段と、前記情報処理装置が決定した行動を実行して得られた報酬を示す報酬情報を前記情報処理装置に提供する報酬情報提供手段と、を備えている。

　本発明の一態様に係る情報処理方法は、情報処理装置が、状態を取得する取得すること、
　前記状態を参照して行動を決定すること、及び、前記状態と、前記決定した行動によって得られた報酬とを含む学習データを蓄積すること、を繰り返し含み、前記行動を決定する工程では、状態と行動とから報酬和を予測する第１の関数であって前記学習データに対する重み付けを行うことによって算出された第１の関数を用いて行動を決定し、端末装置が、状態を取得し前記情報処理装置に提供すること、及び、前記情報処理装置が決定した行動を実行して得られた報酬を示す報酬情報を前記情報処理装置に提供すること、を含む。

　本発明の一態様によれば、より好適な行動を決定することができる。

本発明の例示的実施形態１に係る情報処理装置の構成を示すブロック図である。本発明の例示的実施形態１に係る情報処理装置が実行する情報処理方法の流れを示すフロー図である。本発明の例示的実施形態１に係る情報処理システムの構成を示すブロック図である。本発明の例示的実施形態１に係る情報処理システムが実行する情報処理方法の流れを示すフロー図である。本発明の例示的実施形態２に係る情報処理システムの構成を示すブロック図である。本発明の例示的実施形態２に係る情報処理装置の記憶部に格納される各種のデータの例を示す図である。本発明の例示的実施形態２に係る情報処理装置が実行する情報処理方法の流れを示すフロー図である。本発明の例示的実施形態３に係る情報処理装置の構成を示すブロック図である。本発明の例示的実施形態３に係る情報処理装置が表示する表示画面例を示す図である。本発明の各例示的実施形態における情報処理装置のハードウェア構成の一例を示すブロック図である。

　〔例示的実施形態１〕
　本発明の第１の例示的実施形態について、図面を参照して詳細に説明する。本例示的実施形態は、後述する例示的実施形態の基本となる形態である。

　＜情報処理装置１の概要＞
　本例示的実施形態に係る情報処理装置１は、概略的に言えば、与えられた状態において、ある種の予測関数の値を最大化するような行動を選択する装置である。ここで、当該予測関数とは、一例として、対象量の和の予測値を算出する関数である。より具体的に言えば、情報処理装置１は、一例として、
・過去の状態、
・過去に選択した行動、及び、
・過去の状態と過去の行動とによって得られた対象量の観測値
を逐次的に学習データとして蓄積し、当該学習データを参照して、対象量の和を予測する予測関数を逐次的に更新する。ここで、情報処理装置１は、与えられた状態において当該予測関数を最大化する行動を選択するよう構成される。

　換言すれば、情報処理装置１は、一例として、
・状態を取得
・取得した状態の下で予測関数を最大化する行動を選択
・選択した行動によって得られる対象量の観測値を取得
・上記状態、上記行動、及び上記対象量の観測値を学習データとして蓄積
・学習データを用いて予測関数を更新
というステップを繰り返すよう構成された装置である。

　なお、上記の対象量としては、一例として、行動によって得られる報酬を挙げることができる。また、上記の予測関数として、報酬の和の予測値を算出する報酬和関数を挙げることができる。ここで、本例示的実施形態において、「状態」「行動」及び「報酬」は、特にことわりのない限り、情報処理的な意味において特に限定を含まない概念として解釈される。

　また、本明細書において「学習データ」との表現は、予測関数を更新（学習）するために参照されるデータであるという以上の限定を有するものではない。本明細書における「学習データ」との表現に代えて「学習用データ」「教師データ」「参照用データ」等の表現を用いてもよい。

　＜情報処理装置１の構成＞
　本例示的実施形態に係る情報処理装置１の構成について、図１を参照して説明する。図１は、情報処理装置１の構成を示すブロック図である。

　図１に示すように、情報処理装置１は、取得部１１と、決定部１２と、蓄積部１３とを備えている。取得部１１は、本例示的実施形態において取得手段を実現する構成である。決定部１２は、本例示的実施形態において決定手段を実現する構成である。蓄積部１３は、本例示的実施形態において蓄積手段を実現する構成である。

　取得部１１は、状態を取得する。一例として、取得部１１は、状態に関する情報を含む状態情報を取得し、当該状態情報が示す状態を特定する。ここで、「状態」の具体例は本例示的実施形態を限定するものではないが、一例として、温度や天気等の環境の状態が挙げられる。

　決定部１２は、取得部１１が取得した状態を参照して行動を決定する。ここで、決定部１２は、状態と行動とから報酬和を予測する第１の関数を、後述する蓄積部１３が蓄積した学習データに対する重み付けを行うことによって算出し、当該第１の関数を用いて行動を決定する。ここで、上記第１の関数は、報酬和を予測する関数であるので報酬和関数と呼ぶこともある。また、上記第１の関数は、行動の価値を定量化する関数でもあるので行動価値関数と呼ぶこともある。

　また、決定部１２によって行われる学習データに対する重み付け処理の具体例は本例示的実施形態を限定するものではないが、一例として、決定部１２は、学習データに含まれる１又は複数の値から、ばらつきに関する指標を算出し、算出したばらつきに関する指標がより大きい程、より小さい重み係数を前記１又は複数の値に適用することによって、前記第１の関数を算出することができる。

　ここで、上記ばらつきに関する指標は、一例として、学習データに含まれる各値の信頼性を表現する指標として解釈できるものを用いることができる。また、上記ばらつきが大きい程、信頼性が低いとの解釈が成り立ち得る。したがって、決定部１２は、信頼性がより高い値に対してより高い重みを適用することによって前記第１の関数を算出するものであると表現することもできる。

　また、「行動」の具体例は本例示的実施形態を限定するものではないが、一例として、対象物の「価格」や「仕入れ量」等を挙げることができる。また、「報酬」の具体例は、本例示的実施形態を限定するものではないが、一例として、対象物に関する「売上げ」や「在庫量の逆数」又は「定数から在庫量を減算したもの」等を挙げることができる。

　なお、決定部１２は、一例として、取得部１１が取得した状態を引数として含む前記第１の関数を最大化するような行動を選択するよう構成することができるが、これは本例示的実施形態を限定するものではない。

　蓄積部１３は、取得部１１が取得した状態と、決定部１２が決定した行動によって得られた報酬とを含む学習データを蓄積する。

　＜情報処理装置１の効果＞
　本例示的実施形態に係る情報処理装置１によれば、状態と行動とから報酬和を予測する第１の関数を、前記学習データに対する重み付けを行うことによって算出し、当該第１の関数を用いて行動を決定するので、より好適な行動を決定することができる。

　＜情報処理装置１による情報処理方法の流れ＞
　以上のように構成された情報処理装置１が実行する情報処理方法Ｓ１の流れについて、図２を参照して説明する。図２は、情報処理方法Ｓ１の流れを示すフロー図である。情報処理装置１は、情報処理方法Ｓ１を繰り返すことによって、行動の選択を繰り返し行う。なお、すでに説明した内容については説明を省略する。

　図２に示すように、情報処理方法Ｓ１は、ステップＳ１１～Ｓ１３を含む。

　（ステップＳ１１）
　ステップＳ１１において、取得部１１は、状態を取得する。一例として、取得部１１は、状態に関する情報を含む状態情報を取得し、当該状態情報が示す状態を特定する。

　（ステップＳ１２）
　ステップＳ１２において、決定部１２は、ステップＳ１１において取得部１１が取得した状態を参照して行動を決定する。ここで、決定部１２は、状態と行動とから報酬和を予測する第１の関数であって、学習データに対する重み付けを行うことによって算出された第１の関数を用いて行動を決定する。

　ここで、繰り返しのｎ（ｎは自然数）回目において、決定部１２が第１の関数を算出するために参照する学習データとしては、一例として、ｎ－１回目までに蓄積された学習データが用いられる。

　（ステップＳ１３）
　ステップＳ１３において、蓄積部１３は、ステップＳ１２において取得部１１が取得した状態と、ステップＳ１２において決定部１２が決定した行動によって得られた報酬とを含む学習データを蓄積する。

　＜情報処理方法Ｓ１の効果＞
　本例示的実施形態に係る情報処理方法Ｓ１によれば、状態と行動とから報酬和を予測する第１の関数を、前記学習データに対する重み付けを行うことによって算出し、当該第１の関数を用いて行動を決定するので、より好適な行動を決定することができる。

　＜情報処理システムの構成＞
　続いて、本例示的実施形態に係る情報処理システム１００の構成について、図３を参照して説明する。図３は、情報処理システム１００の構成を示すブロック図である。

　図３に示すように、情報処理システム１００は、情報処理装置１と端末装置２とを備えている。情報処理装置１が備える各構成については既に説明したため、ここでは説明を省略する。

　端末装置２は、図３に示すように、状態情報提供部２１と、報酬情報提供部２２とを備えている。状態情報提供部２１は、本例示的実施形態において状態情報提供手段を実現する構成である。報酬情報提供部２２は、本例示的実施形態において報酬情報提供手段を実現する構成である。

　状態情報提供部２１は、状態を取得し情報処理装置１に提供する。一例として、状態情報提供部２１は、状態を表すデータを取得し、当該データを情報処理装置１に提供する。

　報酬情報提供部２２は、情報処理装置１が決定した行動を実行して得られた報酬を示す報酬情報を情報処理装置１に提供する。報酬情報提供部２２は、一例として、情報処理装置１が決定した行動を示す行動情報を取得する取得部、及び情報処理装置１が決定した行動を実行する実行部を備える構成としてもよい。

　＜情報処理システムの効果＞
　本例示的実施形態に係る情報処理システム１００によれば、状態と行動とから報酬和を予測する第１の関数を、前記学習データに対する重み付けを行うことによって算出し、当該第１の関数を用いて行動を決定するので、より好適な行動を決定することができる。

　＜情報処理システム１００による情報処理方法の流れ＞
　以上のように構成された情報処理システム１００が実行する情報処理方法Ｓ１００の流れについて、図４を参照して説明する。図４は、情報処理方法Ｓ１００の流れを示すフロー図である。情報処理システム１００は、情報処理方法Ｓ１００を実行することによって、行動の選択を繰り返し行う。なお、すでに説明した内容については説明を省略する。

　図４に示すように、情報処理方法Ｓ１００は、ステップＳ１１～Ｓ１３、及びＳ２１～Ｓ２２を繰り返し含む。ここで、図４における各ステップに付した符号において、繰り返しの次数を、ハイフン「－」の後の枝番として記載している。例えば、Ｓ２１－１は、繰り返しの１回目であることを表しており、Ｓ２１－２は、繰り返しの２回目であることを表している。他のステップについても同様である。

　（ステップＳ２１－１）
　ステップＳ２１－１において、端末装置２の状態情報提供部２１は、状態を表すデータを取得し、当該データを情報処理装置１に提供する。

　（ステップＳ１１－１）
　ステップＳ１１－１において、情報処理装置１の取得部１１は、端末装置２の状態情報提供部２１から提供された状態を取得する。

　（ステップＳ１２－１）
　ステップＳ１２－１において、情報処理装置１の決定部１２は、ステップＳ１１－１において取得部１１が取得した状態を参照して行動を決定する。そして、情報処理装置１は、決定した行動を示す行動情報を、端末装置２に提供する。

　（ステップＳ２２－１）
　ステップＳ２２－１において、端末装置２の報酬情報提供部２２は、ステップＳ１２－１において、情報処理装置１の決定部１２が決定した行動を実行して得られた報酬を示す報酬情報を情報処理装置１に提供する。

　（ステップＳ１３－１）
　ステップＳ１３－１において、情報処理装置１の蓄積部１３は、ステップＳ１２－１において取得部１１が取得した状態と、ステップＳ１２－１において決定部１２が決定した行動によって得られた報酬とを含む学習データを蓄積する。

　（ステップＳ２１－２）
　続いて、ステップＳ２１－２において、端末装置２の状態情報提供部２１は、状態を表すデータを取得し、当該データを情報処理装置１に提供する。本ステップにおいて取得する情報は、ステップＳ２１－１において取得した状態とは異なり得る。

　（ステップＳ１１－２）
　ステップＳ１１－１において、情報処理装置１の取得部１１は、端末装置２の状態情報提供部２１から提供された状態を取得する。

　（ステップＳ１２－２）
　ステップＳ１２－２において、情報処理装置１の決定部１２は、ステップＳ１１－２において取得部１１が取得した状態を参照して行動を決定する。ここで、決定部１２は、状態と行動とから報酬和を予測する第１の関数を、学習データに対する重み付けを行うことによって算出し、当該第１の関数を用いて行動を決定する。そして、情報処理装置１は、決定した行動を示す行動情報を、端末装置２に提供する。

　ここで、本ステップにおいて、決定部１２が第１の関数を算出するために参照する学習データとしては、一例として、ステップＳ１３－１までに蓄積された学習データが用いられる。

　（ステップＳ２２－２）
　ステップＳ２２－２において、端末装置２の報酬情報提供部２２は、ステップＳ１２－２において、情報処理装置１の決定部１２が決定した行動を実行して得られた報酬を示す報酬情報を情報処理装置１に提供する。

　（ステップＳ１３－２）
　ステップＳ１３－２において、情報処理装置１の蓄積部１３は、ステップＳ１２－２において取得部１１が取得した状態と、ステップＳ１２－２において決定部１２が決定した行動によって得られた報酬とを含む学習データを蓄積する。

　＜情報処理方法Ｓ１００の効果＞
　本例示的実施形態に係る情報処理システム１００によれば、状態と行動とから報酬和を予測する第１の関数を、前記学習データに対する重み付けを行うことによって算出し、当該第１の関数を用いて行動を決定するので、より好適な行動を決定することができる。

　〔例示的実施形態２〕
　本発明の第２の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態１にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付し、その説明を適宜省略する。

　＜情報処理システム１００Ａの構成＞
　本例示的実施形態に係る情報処理システム１００Ａの構成について、図５を参照して説明する。図５は、情報処理システム１００Ａの構成を示すブロック図である。図５に示すように、情報処理システム１００Ａは、情報処理装置１Ａと、端末装置２Ａとを含んでいる。また、図５に示すように、情報処理装置１Ａと端末装置２ＡとはネットワークＮを介して通信可能に構成されている。ここで、ネットワークＮの具体的構成は本例示的実施形態を限定するものではないが、一例として、無線ＬＡＮ（Local Area Network）、有線ＬＡＮ、ＷＡＮ（Wide Area Network）、公衆回線網、モバイルデータ通信網、又は、これらのネットワークの組み合わせを用いることができる。

　＜情報処理装置１Ａの構成＞
　本例示的実施形態に係る情報処理装置１Ａの構成について、図５を参照して説明する。図５は、情報処理装置１Ａの構成を示すブロック図である。

　図５に示すように、情報処理装置１Ａは、制御部１０Ａと、記憶部１７Ａと、通信部１９Ａとを備えている。

　通信部１９Ａは、情報処理装置１Ａの外部の装置と通信を行う。一例として通信部１９Ａは、端末装置２Ａと通信を行う。通信部１９Ａは、制御部１０Ａから供給されたデータを端末装置２Ａに送信したり、端末装置２Ａから受信したデータを制御部１０Ａに供給したりする。

　（制御部１０Ａ）
　制御部１０Ａは、図５に示すように、取得部１１、決定部１２、及び蓄積部１３を備えている。取得部１１は、本例示的実施形態において取得手段を実現する構成である。決定部１２は、本例示的実施形態において決定手段を実現する構成である。蓄積部１３は、本例示的実施形態において蓄積手段を実現する構成である。

　取得部１１は、例示的実施形態１と同様に、状態を取得する。一例として、取得部１１は、状態に関する情報を含む状態情報を、通信部１９Ａを介して端末装置２Ａの状態情報提供部２１から取得する。そして、取得部１１は、取得した状態情報が示す状態を特定する。ここで、「状態」の具体例は本例示的実施形態を限定するものではないが、一例として、例示的実施形態１と同様に、温度や天気等の環境の状態が挙げられる。

　決定部１２は、例示的実施形態１と同様に、取得部１１が取得した状態を参照して行動を決定する。ここで、決定部１２は、状態と行動とから報酬和を予測する第１の関数を、蓄積部１３が蓄積した学習データに対する重み付けを行うことによって算出し、当該第１の関数を用いて行動を決定する。ここで、上記第１の関数は、例示的実施形態１と同様に、報酬和を予測する関数であるので報酬和関数と呼ぶこともある。また、上記第１の関数は、行動の価値を定量化する関数でもあるので行動価値関数と呼ぶこともある。決定部１２によって行われる学習データに対する重み付け処理の具体例については後述するため、ここでは説明を省略する。

　なお、「行動」の具体例は本例示的実施形態を限定するものではないが、一例として、対象物の「価格」や「仕入れ量」等を挙げることができる。また、「報酬」の具体例は、本例示的実施形態を限定するものではないが、一例として、対象物に関する「売上げ」や「在庫量の逆数」又は「定数から在庫量を減算したもの」等を挙げることができる。

　蓄積部１３は、取得部１１が取得した状態と、決定部１２が決定した行動によって得られた報酬とを含む学習データを蓄積する。一例として、蓄積部１３は、取得部１１が取得した状態と、決定部１２が決定した行動によって得られた報酬とを含む学習データを記憶部１７Ａに格納する。

　記憶部１７Ａには、制御部１０Ａによって参照される各種のデータが格納される。一例として、記憶部１７Ａには、図５に示すように、状態情報ＳＩ、行動情報ＡＩ、報酬の観測値ＲＩ、及び報酬和関数ＲＳＦが格納される。記憶部１７Ａが格納する各種のデータについては参照する図面を代えて後述する。

　＜端末装置２Ａの構成＞
　端末装置２Ａは、図５に示すように、制御部２０Ａ、行動実行部２６Ａ、入力受付部２８Ａ、及び通信部２９Ａを備えている。端末装置は、一例として、店舗に配置された会計用端末、及び倉庫に配置された在庫管理用端末等として具体的に実現することができるが、これは本例示的実施形態を限定するものではない。

　通信部２９Ａは、通信部２９Ａは、端末装置２Ａの外部の装置と通信を行う。一例として通信部２９Ａは、情報処理装置１Ａと通信を行う。通信部２９Ａは、制御部２０Ａから供給されたデータを情報処理装置１Ａに送信したり、情報処理装置１Ａから受信したデータを制御部２０Ａに供給したりする。

　制御部２０Ａは、図５に示すように、状態情報提供部２１、及び報酬情報提供部２２を備えている。

　状態情報提供部２１は、状態を取得し情報処理装置１に提供する。一例として、状態情報提供部２１は、入力受付部２８Ａを介して状態を表すデータの入力を受け付け、当該データを情報処理装置１に提供する。

　報酬情報提供部２２は、情報処理装置１が決定した行動を実行して得られた報酬を示す報酬情報を情報処理装置１に提供する。ここで、報酬情報提供部２２は、情報処理装置１が決定した行動を実行して得られた報酬を示す報酬情報を、入力受付部２８Ａを介して取得する構成とすることができる。

　行動実行部２６Ａは、情報処理装置１が決定した行動を実行する。一例として、情報処理装置１が決定した行動が、「対象物の価格をある値に設定すること」である場合、行動実行部２６Ａは、当該対象物に関連付けられた価格を当該値に設定する。また、情報処理装置１が決定した行動が、「対象物の仕入れ量をある値に設定すること」である場合、行動実行部２６Ａは、当該対象物に関連付けられた仕入れ量を当該値に設定する。

　入力受付部２８Ａは、端末装置２Ａに対する各種の入力を受け付ける。入力受付部２８Ａの具体的構成は本例示的実施形態を限定するものではないが、一例として、入力受付部２８Ａは、キーボード及びタッチパッド等の入力デバイスを備える構成とすることができる。また、入力受付部２８Ａは、赤外線や電波等の電磁波を介してデータの読み取りを行うデータスキャナ、及び、環境の状態をセンシングするセンサ等を備える構成としてもよい。

　入力受付部２８Ａは、上述した入力デバイス、データスキャナ、及びセンサ等を介して、上述した状態情報、及び上述した報酬情報を取得し、取得した情報を制御部２０Ａに供給する。ここで、入力受付部２８Ａが取得する報酬情報には、対象物に関する「売上げ」や「在庫量に関連する情報」が含まれ得る。

　（記憶部１７Ａに格納されるデータの例）
　続いて、図６を参照して、情報処理装置１Ａの記憶部１７Ａに格納される各種のデータについて説明する。

　図６に示すように、格納部１７Ａには、
・状態情報ＳＩ
・行動情報ＡＩ
・報酬の観測値ＲＩ、及び
・報酬和関数ＲＳＦ
が格納されている。状態情報ＳＩ、行動情報ＡＩ、及び報酬の観測値ＲＩは、一例として本例示的実施形態において決定部１２によって参照される学習データを構成する。

　（状態情報ＳＩ）
　状態情報ＳＩは、より具体的には、図６に示すように、第１のインデックスｋ（ｋ＝１、２、・・・Ｋ：Ｋは自然数）及び第２のインデックスｈ（ｈ＝１、２、・・・Ｈ：Ｈは自然数）を有する状態パラメータｓ^ｋ _ｈによって表される。ここで、第１のインデックスｋは、一例として日付を表すインデックスであるとして説明を行うが、本例示的実施形態はこれに限定されるものではない。また、第２のインデックスｈは、一例として時間帯を表すインデックスであるとして説明を行うが、本例示的実施形態はこれに限定されるものではない。

　図６に示すように、状態情報ＳＩには、一例として、ｋ＝１の状態パラメータ群ｓ^１ _１～ｓ^１ _１２、ｋ＝２の状態パラメータ群ｓ^２ _１～ｓ^２ _１２が含まれている。また、図６に示す例では、状態情報ＳＩには、ｋ＝３の状態パラメータ群ｓ^３ _１～ｓ^３ _２が含まれている。

　状態情報ＳＩに含まれる状態パラメータｓ^ｋ _ｈの具体的な値は取得部１１によって取得され、記憶部１７Ａに格納される。例えば、状態として温度を用いる構成の場合、状態パラメータｓ^ｋ _ｈの各値は、温度の数値又はそれを所定の変換ルールによって変換して得られる値が用いられる。また、状態として天気を用いる構成の場合、状態パラメータｓ^ｋ _ｈの各値は、天気を数値化して得られる値が用いられる。なお、特に混乱のない限り、状態パラメータのことを単に状態と呼ぶことがある。

　（行動情報ＡＩ）
　行動情報ＡＩは、同様に、図６に示すように、第１のインデックスｋ及び第２のインデックスｈを有する行動パラメータа^ｋ _ｈによって表される。図６に示すように、行動情報ＡＩには、一例として、ｋ＝１の行動パラメータ群а^１ _１～а^１ _１２、ｋ＝２の行動パラメータ群а^２ _１～а^２ _１２が含まれている。また、図６に示す例では、状態情報ＡＩには、ｋ＝３の行動パラメータ群а^３ _１～а^３ _２が含まれている。

　行動情報ＡＩに含まれる行動パラメータа^ｋ _ｈの具体的な値は決定部１２によって決定され、記憶部１７Ａに格納される。例えば、行動パラメータа^ｋ _ｈの各値として、「価格」や「仕入れ量」を示す値が決定部１２によって決定され、記憶部１７Ａに格納される。特に混乱のない限り、行動パラメータのことを単に行動と呼ぶことがある。

　（報酬の観測値ＲＩ）
　報酬の観測値ＲＩは、図６に示すように、第１のインデックスｋ及び第２のインデックスｈによって表され、その各値が記憶部１７Ａに格納される。より具体的には、状態ｓ^ｋ _ｈの下で行動а^ｋ _ｈを実行して得られた報酬の観測値ＲＩは、図６に示すように、ｒ（ｓ^ｋ _ｈ，а^ｋ _ｈ）と表現され、その各値が記憶部１７Ａに格納される。図６に示すように、報酬の観測値ＲＩには、一例として、ｋ＝１の報酬の観測値群ｒ（ｓ^１ _１，а^１ _１）～ｒ（ｓ^１ _１２，а^１ _１２）、ｋ＝２の報酬の観測値群ｒ（ｓ^２ _１，а^２ _１）～ｒ（ｓ^２ _１２，а^２ _１２）が含まれている。また、図６に示す例では、報酬の観測値ＲＩには、ｋ＝３の行動パラメータ群報酬の観測値群ｒ（ｓ^３ _１，а^３ _１）～ｒ（ｓ^３ _２，а^３ _２）が含まれている。

　報酬の観測値ＲＩに含まれるｒ（ｓ^ｋ _ｈ，а^ｋ _ｈ）の各値は、一例として取得部１１によって取得され、記憶部１７Ａに格納される。例えば、ｒ（ｓ^ｋ _ｈ，а^ｋ _ｈ）の各値として、対象物に関する「売上げ」や「在庫量の逆数」又は「定数から在庫量を減算したもの」等を示す数値が取得部１１によって取得され、記憶部１７Ａに格納される。

　（報酬和関数ＲＳＦ）
　図６に示すように、記憶部１７Ａには、報酬和関数ＲＳＦの各関数形も格納されている。報酬和関数ＲＳＦの各関数形は、第１のインデックスｋ及び第２のインデックスｈを用いて、Ｑ^ｋ _ｈと表現される。Ｑ^ｋ _ｈは、２つの引数を入力とし報酬和の予測値を出力する関数であり、Ｑ^ｋ _ｈ（・，・）とも表記する。ここで報酬和とは、一例として、所定の期間における報酬の総和のことを指す。Ｑ^ｋ _ｈが引数にとる２つの変数は、一例として、状態と行動である。

　報酬和関数ＲＳＦのことを、報酬和関数Ｑ、Ｑ関数、又は行動価値関数と呼ぶこともある。報酬和関数ＲＳＦの各関数形は決定部１２によって決定され記憶部１７Ａに格納される。

　＜情報処理装置１Ａによる情報処理方法の流れ＞
　以上のように構成された情報処理装置１Ａが実行する情報処理方法Ｓ１Ａの流れについて、図７を参照して説明する。図７は、情報処理方法Ｓ１Ａの流れを示すフロー図である。情報処理装置１は、情報処理方法Ｓ１Ａを実行することによって、所定期間における報酬の観測値の和

を最大化するように、行動の選択を繰り返し行う。なお、すでに説明した内容については説明を省略する。

　また、以下の説明では、状態の集合を

と表現し、行動の集合を

と表現することがある。

　（ステップＳ１１）
　ステップＳ１０１において、決定部１２は、各種のパラメータの初期化を行う。一例として、決定部１２は、取得部１１を介してパラメータＨ及びｄに設定すべき値を取得し、取得した値をパラメータＨ及びｄの値に設定する。

　ここで、パラメータＨは、上述した通り、第２のインデックスｈの上限を規定するパラメータである。パラメータＨは、第１のインデックスｋの各々の値に対して取ることのできる第２のインデックスｈの総数であるとも言える。

　一方、パラメータｄは、状態と行動とを表現するベクトルの次元である。換言すれば、状態と行動とをベクトルとして表すための写像

が存在し、上式に示すように、パラメータｄは、当該ベクトルの次元である。

　ステップＳ１０１において、決定部１２は、更に、パラメータλとβとを、一例として、

と設定する。なお、パラメータｄ、Ｈ、λ、及びβの少なくとも何れかのことをハイパーパラメータと呼ぶこともある。

　また、ステップＳ１０１において、決定部１２は以下のような初期化処理を行う。

ここで、

及び

は、それぞれ行列であり、

及び

はそれぞれベクトルである。また、

との表現は、１からＨまでの自然数の集合を表している。

　また、ステップＳ１０１において、決定部１２は、Ｑ関数を以下のように初期化する。

ここで、

は、状態と行動とを表現するベクトル（特徴マップと呼ぶこともある）

に対して、以下で定義される演算

を適用して得られる。

　（ステップＳ１０２）
　ステップＳ１０２は、決定部１２による日付に関するループ処理の始端である。ここで、当該日付に関するループ処理におけるループ変数は、
　　ｋ＝１、２、・・・、Ｋ
である。

　（ステップＳ１１１）
　日付に関するループ中のステップＳ１１１において、決定部１２は、状態ｓ^ｋ _１を観測する。換言すれば、決定部１２は、取得部１１を介して状態ｓ^ｋ _１の値を取得する。

　（ステップＳ１０３）
　ステップＳ１０３は、決定部１２による時間帯に関する第１ループ処理の始端である。ここで、当該時間帯に関するループ処理におけるループ変数は、
　　ｈ＝１、２、・・・、Ｈ
である。

　（ステップＳ１２）
　時間帯に関する第１ループ中のステップＳ１２において、決定部１２は、行動а^ｋ _ｈを選択する。一例として、決定部１２は、

となる行動а^ｋ _ｈを選択する。換言すれば、決定部１２は、取得部１１が取得した状態を引数として含む報酬和関数を最大化するような行動を選択する。

　（ステップＳ１０４）
　続いて、時間帯に関する第１ループ中のステップＳ１０４において、決定部１２は、報酬ｒ（ｓ^ｋ _ｈ，а^ｋ _ｈ）を観測する。換言すれば、決定部１２は取得部１１を介して報酬ｒ（ｓ^ｋ _ｈ，а^ｋ _ｈ）の値を取得する。

　（ステップＳ１３）
　続いて、時間帯に関する第１ループ中のステップＳ１３において、蓄積部１３は、状態ｓ^ｋ _ｈ、行動а^ｋ _ｈ、及び報酬ｒ（ｓ^ｋ _ｈ，а^ｋ _ｈ）を含む学習データを記憶部１７Ａに蓄積する。

　（ステップＳ１１２）
　続いて、時間帯に関する第１ループ中のステップＳ１１２において、決定部１２は、状態ｓ^ｋ _ｈ＋１を観測する。換言すれば、決定部１２は取得部１１を介して状態ｓ^ｋ _ｈ＋１の値を取得する。

　（ステップＳ１０５）
　ステップＳ１０５は、決定部１２による時間帯に関する第１ループ処理の終端である。

　（ステップＳ１０６）
　ステップＳ１０６は、決定部１２による時間帯に関する第２ループ処理の始端である。当該時間帯に関するループ処理におけるループ変数は、
　　ｈ＝Ｈ、Ｈ－１、・・・、１
である。

　なお、当該時間帯に関する第２ループ処理に入る前に、決定部１２は、

によってＱ関数を初期化する構成としてもよい。

　（ステップＳ１０７）
　時間帯に関する第２ループ中のステップＳ１０７において、決定部１２は、各種パラメータの更新を行う。より具体的には、決定部１２は、以下の更新処理を行う。

そして、上記のように更新された各パラメータを用いて、

によってベクトル

及び

の値を更新する。

　また、ステップＳ１０７において、決定部１２は、

によって、分散値

を更新する。ここで、（数式Ａ２）の１行目及び２行目において

によって定義される内積を用いた。また、（数式Ａ２）の３行目における

は、状態ｓ^ｋ _ｈ及び行動а^ｋ _ｈを引数とする状態価値関数V^ｋ _ｈ＋１（ｓ^ｋ _ｈ，а^ｋ _ｈ）の平均としての意味を有し、

は、状態ｓ^ｋ _ｈ及び行動а^ｋ _ｈを引数とする状態価値関数V^ｋ _ｈ＋１（ｓ^ｋ _ｈ，а^ｋ _ｈ）の２乗平均としての意味を有する。したがって、上記のように求めた分散値

は、状態ｓ^ｋ _ｈ及び行動а^ｋ _ｈを参照して得られる状態価値関数の分散としての意味を有する。

　また、ステップＳ１０７において、決定部１２は、

によって行列

及び、ベクトル

を更新する。そして、上記のように更新された行列及びベクトルを用いて、ベクトル

を

によって更新する。

　（ステップＳ１０８）
　ステップＳ１０８において、決定部１２は、報酬和関数Ｑ^ｋ _ｈ（・，・）を決定する。より具体的には、ステップＳ１０７において更新された各種パラメータを用いて、

によって報酬和関数Ｑ^ｋ _ｈ（・，・）を決定する。

　（ステップＳ１０９）
　ステップＳ１０９は、決定部１２による時間帯に関する第２ループ処理の終端である。

　（ステップＳ１１０）
　ステップＳ１１０は、決定部１２による日付に関するループ処理の終端である。

　（情報処理方法Ｓ１Ａに関する詳細説明）
　情報処理方法Ｓ１Ａの流れは以上であるが、より踏み込んだ説明を行えば以下の通りである。

　まず、上述したように、情報処理方法Ｓ１Ａは、
　　状態を取得すること（ステップＳ１１１、ステップＳ１１２）
　　前記状態を参照して行動を決定すること（ステップＳ１２）、及び、
　　前記状態と、前記決定した行動によって得られた報酬とを含む学習データを蓄積すること（Ｓ１３）、を繰り返し含んでおり、
　　前記行動を決定する工程（ステップＳ１２）では、状態と行動とから報酬和を予測する第１の関数であって、前記学習データに対する重み付けを行うことによって算出された当該第１の関数を用いて行動を決定する。このため、情報処理方法Ｓ１Ａによれば、より好適な行動を決定することができる。

　また、（数式Ａ１）を参照して上述したように、決定部１２は、取得部１１が取得した状態を引数として含む報酬和関数を最大化するような行動を選択するので、所定期間における報酬の観測値が最大となるような行動を好適に選択することができる。

　また、（数式Ａ３）の１行目及び２行目における

との係数は、状態評価関数の分散値の逆数の２乗である。したがって、（数式Ａ３）の１行目は、状態評価関数の分散値が大きい程、
行列

に対するベクトル

の寄与が小さくなるよう更新処理を行うことを示している。

　また、（数式Ａ３）の２行目は、状態評価関数の分散値が大きい程、ベクトル

に対する報酬ｒ（ｓ^ｋ _ｈ，а^ｋ _ｈ）、報酬和関数、及びベクトル

　従って、情報処理方法Ｓ１Ａを実行する決定部１２は、
　　学習データに含まれる１又は複数の値から、ばらつきに関する指標を算出し、
　　算出したばらつきに関する指標がより大きい程、より小さい重み係数を前記１又は複数の値に適用することによって、報酬和関数（第１の関数とも呼ぶ）を算出するという構成である。

　また、上述したように、決定部１２は、ばらつきに関する指標として、状態と行動とを参照して得られる状態評価関数（第２の関数とも呼ぶ）の分散を算出する。

　ここで、状態評価関数の分散は、学習データに含まれる各値の信頼性を表現する指標として解釈できる。したがって、上記ばらつきが大きい程、信頼性が低いとの解釈が成り立ち得る。このため、決定部１２は、信頼性がより高い値に対してより高い重みを適用することによって報酬和関数を算出するものであると表現することもできる。

　したがって、上記の構成によれば、信頼性がより高い学習データの寄与をより大きく取り込むことによって、報酬の観測値の和を最大化するような行動を好適に決定することができる。

　また、上述したように、決定部１２は、状態と行動とをベクトルにマップする特徴マップ

を用いて、前記報酬和関数を算出する。このように、決定部１２は、状態と行動とをベクトルにマップする特徴マップを用いて、報酬和関数を算出するので、報酬の観測値の和を最大化するような行動を好適に決定することができる。

　なお、上記の例では、ばらつきに関する指標として、状態評価関数Vの分散値を例に挙げたが、これは本例示的実施形態を限定するものではなく、ばらつきに関する指標として、状態評価関数Vの標準偏差等、分散値以外の指標を用いてもよい。

　なお、情報処理装置１Ａは、行動として対象物の価格を決定する構成の場合、価格決定装置や対象物管理装置と表現してもよいし、行動として対象物の仕入れ量を決定する構成の場合、仕入れ量決定装置や在庫管理装置と表現してもよい。

　〔例示的実施形態３〕
　本発明の第３の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態１及び２にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付し、その説明を適宜省略する。

　＜情報処理装置１Ｂの構成＞
　本例示的実施形態に係る情報処理装置１Ｂの構成について、図８を参照して説明する。図８は、情報処理装置１Ｂの構成を示すブロック図である。

　図８に示すように、情報処理装置１Ｂは、例示的実施形態に係る情報処理装置１Ａが備える各構成に加えて、表示部１５Ｂ、及び入力受付部１６Ｂを備えている。表示部１５Ｂは、本例示的実施形態において表示手段を実現する構成である。入力受付部１６Ｂは、本例示的実施形態において入力受付手段を実現する構成である。

　（表示部１５Ｂ）
　表示部１５Ｂは、情報処理装置１Ｂの処理対象である各種のデータを表示可能に構成されている。表示部１５Ｂによる表示内容は、制御部１０Ａによって制御される。一例として表示部１５Ｂは、表示パネルと、表示パネルを駆動する駆動回路とを備えて構成される。

　表示部１５Ｂは、一例として、状態ｓ^ｋ _ｈ、行動а^ｋ _ｈ、報酬ｒ（ｓ^ｋ _ｈ，а^ｋ _ｈ）、及び報酬和関数Ｑの値の少なくとも何れかを、状態評価関数Vの分散と共に表示する。

　図９の上段は、表示部１５Ｂが表示する表示画面の一例を示す図である。図９の上段に示す例では、表示部１５Ｂは、ある日における報酬和関数Ｑの値とそれに対応する状態評価関数Vの分散とを、時間帯毎に表示している。

　図９の上段に示す例において、黒丸は報酬和関数Ｑの値であり、上下方向のバーは、状態評価関数Vの分散を示している。

　また、表示部１５は、一例として、状態ｓ^ｋ _ｈ、行動а^ｋ _ｈ、報酬ｒ（ｓ^ｋ _ｈ，а^ｋ _ｈ）、及び報酬和関数Ｑの値の少なくとも何れかのうち、対応する状態評価関数Vの分散が閾値以下である値を強調表示する構成としてもよい。

　図９の下段は、表示部１５Ｂが表示する表示画面の一例を示す図である。図９の下段に示す例では、表示部１５Ｂは、ある日における行動ａの値（価格）とそれに対応する状態評価関数Vの分散とを、時間帯毎に表示している。

　図９の下段に示す例において、黒丸は行動ａの値（価格）であり、上下方向のバーは、状態評価関数Vの分散を示している。また、状態評価関数Vの分散は、上述したようにデータの各値の信頼度を表現しているものと解釈することができる。

　表示部１５Ｂが上記のような表示を行うことによって、情報処理装置１Ｂの使用者に対して、各データの値を信頼度と共に視覚的に提示することができるので、情報処理装置１Ｂのユーザビリティや説明可能性が向上する。

　また、図９の下段に示す例では、対応する状態評価関数Vの分散が閾値以下である値を強調表示している。より具体的に言えば、対応する状態評価関数Vの分散が閾値以下である価格に対応する黒丸と、それに対応するバーとを、破線で囲むように表示することによって強調表示を行っている。

　情報処理装置１Ｂは、以上のような表示部１５Ｂを備えることによって、情報処理装置１Ｂの使用者に対して、状態評価関数Vの分散が閾値以下（換言すれば信頼度が閾値以上）のデータを視覚的に提示することができるので、情報処理装置１Ｂのユーザビリティや説明可能性が更に向上する。

　なお、本例示的実施形態において、情報処理装置１Ｂは、例示的実施形態２において説明したパラメータｄ、Ｈ、λ、及びβの少なくとも何れかの推奨値を算出する推奨値算出部を備え、算出した推奨値を情報処理装置１Ｂの使用者に対して表示部１５Ｂを介して提示する構成としてもよい。

　（入力受付部１６Ｂ）
　入力受付部１６Ｂは、情報処理装置１Ｂに対する各種の入力を受け付ける。入力受付部１６Ｂの具体的構成は本例示的実施形態を限定するものではないが、一例として、入力受付部１６Ｂは、キーボード及びタッチパッド等の入力デバイスを備える構成とすることができる。また、入力受付部１６Ｂは、赤外線や電波等の電磁波を介してデータの読み取りを行うデータスキャナ、及び、環境の状態をセンシングするセンサ等を備える構成としてもよい。

　入力受付部１６Ｂは、上述した入力デバイス、データスキャナ、及びセンサ等を介して、上述した状態や報酬の観測値を取得し、取得した情報を制御部１０Ａに供給する。

　なお、入力受付部１６Ｂが受け付ける情報は上記の例に限られない。一例として、決定部１２が決定した行動を補正するための補正情報を、情報処理装置１Ｂの使用者から受け付ける構成としてもよい。例えば、表示部１５Ｂが上記のような表示を行ったうえで、当該表示内容を認識した使用者が行動（価格）の補正を行うための補正情報を入力受付部１６Ｂに入力する構成としてもよい。

　上記のような構成の場合、決定部１２は、例示的実施形態２におけるステップＳ１２において決定した行動（価格）を、補正情報が示す補正量分だけ補正することによって補正後の行動を決定する。そして決定部１２は、補正後の行動を実行することによって得られた報酬を観測し、例示的実施形態２において説明した残りの処理を実行する。

　上記の構成によれば、決定部１２が決定した行動に対して使用者による補正を反映させることができるので、ユーザビリティ及び説明可能性を向上させることができる。

　（情報処理装置１Ｂの適用例）
　以下では、情報処理装置１Ｂの一適用例について説明する。以下の適用例は、情報処理装置１Ｂを、ある店舗における各社のビールの価格決定に用いる例である。より具体的には、ある店舗における各社のビールの割引率を行動（実行施策）として決定するものである。

　本例では、実行施策Ｘが
　　Ｘ＝［０、２，１、・・・］
として複数要素によって表現される。ここで、第１要素が０であることは、Ａ社のビール価格を定価とすることを示しており、第２要素が２であることは、Ｂ社のビール価格を定価から１０％割増とすることを示しており、第３要素が１であることは、Ｃ社のビール価格を定価から１０％割引とすることを示すものとする。

　本例における報酬和関数Ｑとして、Ａ社のビールの売上げ、Ｂ社のビールの売上げ、及びＣ社のビールの売上げに関する報酬和関数Ｑを個別に用意し、それぞれを個別に更新する構成としてもよい。あるいは、報酬和関数Ｑとして、Ａ社のビール、Ｂ社のビール、及びＣ社のビールのトータルの売り上げに関する報酬和関数を準備し更新する構成としてもよい。

　また、本例では、表示部１５Ｂによって、各社のビールの売上げを視覚的に提示する。

　本適用例によれば、上記店舗における各社のビールについて最適な価格設定を導出することができる。

　〔ソフトウェアによる実現例〕
　情報処理装置１，１Ａ，１Ｂの一部又は全部の機能は、集積回路（ＩＣチップ）等のハードウェアによって実現してもよいし、ソフトウェアによって実現してもよい。

　後者の場合、情報処理装置１，１Ａ，１Ｂは、例えば、各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータによって実現される。このようなコンピュータの一例（以下、コンピュータＣと記載する）を図１０に示す。コンピュータＣは、少なくとも１つのプロセッサＣ１と、少なくとも１つのメモリＣ２と、を備えている。メモリＣ２には、コンピュータＣを情報処理装置１，１Ａ，１Ｂとして動作させるためのプログラムＰが記録されている。コンピュータＣにおいて、プロセッサＣ１は、プログラムＰをメモリＣ２から読み取って実行することにより、情報処理装置１，１Ａ，１Ｂの各機能が実現される。

　プロセッサＣ１としては、例えば、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphic Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＭＰＵ（Micro Processing Unit）、ＦＰＵ（Floating point number Processing Unit）、ＰＰＵ（Physics Processing Unit）、マイクロコントローラ、又は、これらの組み合わせなどを用いることができる。メモリＣ２としては、例えば、フラッシュメモリ、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、又は、これらの組み合わせなどを用いることができる。

　なお、コンピュータＣは、プログラムＰを実行時に展開したり、各種データを一時的に記憶したりするためのＲＡＭ（Random Access Memory）を更に備えていてもよい。また、コンピュータＣは、他の装置との間でデータを送受信するための通信インタフェースを更に備えていてもよい。また、コンピュータＣは、キーボードやマウス、ディスプレイやプリンタなどの入出力機器を接続するための入出力インタフェースを更に備えていてもよい。

　また、プログラムＰは、コンピュータＣが読み取り可能な、一時的でない有形の記録媒体Ｍに記録することができる。このような記録媒体Ｍとしては、例えば、テープ、ディスク、カード、半導体メモリ、又はプログラマブルな論理回路などを用いることができる。コンピュータＣは、このような記録媒体Ｍを介してプログラムＰを取得することができる。また、プログラムＰは、伝送媒体を介して伝送することができる。このような伝送媒体としては、例えば、通信ネットワーク、又は放送波などを用いることができる。コンピュータＣは、このような伝送媒体を介してプログラムＰを取得することもできる。

　〔付記事項１〕
　本発明は、上述した実施形態に限定されるものでなく、請求項に示した範囲で種々の変更が可能である。例えば、上述した実施形態に開示された技術的手段を適宜組み合わせて得られる実施形態についても、本発明の技術的範囲に含まれる。

　〔付記事項２〕
　上述した実施形態の一部又は全部は、以下のようにも記載され得る。ただし、本発明は、以下の記載する態様に限定されるものではない。

　（付記１）
　状態を取得する取得手段と、
　前記状態を参照して行動を決定する決定手段と、
　前記状態と、前記決定手段が決定した行動によって得られた報酬とを含む学習データを蓄積する蓄積手段と、
を備え、
　前記決定手段は、
　　状態と行動とから報酬和を予測する第１の関数を、前記学習データに対する重み付けを行うことによって算出し、当該第１の関数を用いて行動を決定する
ことを特徴とする情報処理装置。

　上記の構成によれば、状態と行動とから報酬和を予測する第１の関数を、前記学習データに対する重み付けを行うことによって算出し、当該第１の関数を用いて行動を決定するので、より好適な行動を決定することができる。

　（付記２）
　前記決定手段は、
　　前記学習データに含まれる１又は複数の値から、ばらつきに関する指標を算出し、
　　算出したばらつきに関する指標がより大きい程、より小さい重み係数を前記１又は複数の値に適用することによって、前記第１の関数を算出する
ことを特徴とする付記１１に記載の情報処理装置。

　上記の構成によれば、ばらつきに関する指標がより大きい程、より小さい重み係数を前記１又は複数の値に適用することによって、前記第１の関数を算出するので、より好適な行動を決定することができる。

　（付記３）
　前記決定手段は、
　　前記ばらつきに関する指標として、前記状態と前記行動とを参照して得られる、第２の関数の分散を算出する
ことを特徴とする付記２に記載の情報処理装置。

　上記の構成によれば、前記ばらつきに関する指標として、前記状態と前記行動とを参照して得られる、第２の関数の分散を算出するので、より好適な行動を決定することができる。

　（付記４）
　前記状態、前記行動、前記報酬、及び前記第１の関数の値の少なくとも何れかと、前記ばらつきに関する指標とを表示する表示手段を備えていることを特徴とする付記２又は３に記載の情報処理装置。

　上記の構成によれば、ユーザビリティ及び説明可能性が向上する。

　（付記５）
　前記表示手段は、
　　前記状態、前記行動、前記報酬、及び前記第１の関数の値の前記少なくとも何れかのうち、ばらつきに関する指標が閾値以下である値を強調表示する
ことを特徴とする付記４に記載の情報処理装置。

　（付記６）
　前記決定手段は、
　　前記状態と前記行動とをベクトルにマップする特徴マップを用いて、前記第１の関数を算出する
ことを特徴とする付記１から５の何れか１項に記載の情報処理装置。

　上記の構成によれば、より好適な行動を決定することができる。

　（付記７）
　前記決定手段は、前記取得手段が取得した状態を引数として含む前記第１の関数を最大化するような行動を選択する
ことを特徴とする付記１から６の何れか１項に記載の情報処理装置。

　上記の構成によれば、前記取得手段が取得した状態を引数として含む前記第１の関数を最大化するような行動を選択するので、所定期間における報酬の観測値を最大にするような好適な行動を選択することができる。

　（付記８）
　前記状態と、前記報酬とを受け付ける入力デバイスを更に備えている
ことを特徴とする付記１から７の何れか１項に記載の情報処理装置。

　上記の構成によれば、前記状態と、前記報酬とを前記入力デバイスを介して好適に入力することができる。

　（付記９）
　情報処理装置が、
　状態を取得すること、
　前記状態を参照して行動を決定すること、及び
　前記状態と、前記決定した行動によって得られた報酬とを含む学習データを蓄積すること、
を繰り返し含み、
　前記行動を決定する工程では、
　　状態と行動とから報酬和を予測する第１の関数であって、前記学習データに対する重み付けを行うことによって算出された第１の関数を用いて行動を決定する
ことを特徴とする情報処理方法。

　上記の方法によれば、上述した情報処理装置と同様の効果を奏する。

　（付記１０）
　コンピュータを情報処理装置として機能させるプログラムであって、
　前記プログラムは、前記コンピュータを、
　状態を取得する取得手段と、
　前記状態を参照して行動を決定する決定手段と、
　前記状態と、前記決定手段が決定した行動によって得られた報酬とを含む学習データを蓄積する蓄積手段と、して機能させ、
　前記決定手段は、
　　状態と行動とから報酬和を予測する第１の関数を、前記学習データに対する重み付けを行うことによって算出し、当該第１の関数を用いて行動を決定する
ことを特徴とするプログラム。

　上記のプログラムによれば、上述した情報処理装置と同様の効果を奏する。

　（付記１１）
　情報処理装置と、端末装置とを含む情報処理システムであって、
　前記情報処理装置は、
　状態を取得する取得手段と、
　前記状態を参照して行動を決定する決定手段と、
　前記状態と、前記決定手段が決定した行動によって得られた報酬とを含む学習データを蓄積する蓄積手段と、
を備え、
　前記決定手段は、
　　状態と行動とから報酬和を予測する第１の関数を、前記学習データに対する重み付けを行うことによって算出し、当該第１の関数を用いて行動を決定し、
　前記端末装置は、
　状態を取得し前記情報処理装置に提供する状態情報提供手段と、
　前記情報処理装置が決定した行動を実行して得られた報酬を示す報酬情報を前記情報処理装置に提供する報酬情報提供手段と、
を備えている
ことを特徴とする情報処理システム。

　上記の情報処理システムによれば、上述した情報処理装置と同様の効果を奏する。

　（付記１２）
　情報処理装置が、
　状態を取得する取得すること、
　前記状態を参照して行動を決定すること、及び
　前記状態と、前記決定した行動によって得られた報酬とを含む学習データを蓄積すること、
を繰り返し含み、
　前記行動を決定する工程では、
　　状態と行動とから報酬和を予測する第１の関数であって、前記学習データに対する重み付けを行うことによって算出された第１の関数を用いて行動を決定し、
　端末装置が、
　状態を取得し前記情報処理装置に提供すること、及び
　前記情報処理装置が決定した行動を実行して得られた報酬を示す報酬情報を前記情報処理装置に提供すること、
を含む
ことを特徴とする情報処理方法。

　上記の情報処理方法によれば、上述した情報処理装置と同様の効果を奏する。

　〔付記事項３〕
　上述した実施形態の一部又は全部は、更に、以下のように表現することもできる。

　少なくとも１つのプロセッサを備え、前記プロセッサは、
　状態を取得する取得処理と、
　前記状態を参照して行動を決定する決定処理と、
　前記状態と、前記決定処理によって決定した行動によって得られた報酬とを含む学習データを蓄積する蓄積処理と、
を実行し、
　当該プロセッサは、
　　状態と行動とから報酬和を予測する第１の関数を、前記学習データに対する重み付けを行うことによって算出し、当該第１の関数を用いて行動を決定する。

　なお、この情報処理装置は、更にメモリを備えていてもよく、このメモリには、前記取得処理と、前記決定処理と、前記蓄積処理とを前記プロセッサに実行させるためのプログラムが記憶されていてもよい。また、このプログラムは、コンピュータ読み取り可能な一時的でない有形の記録媒体に記録されていてもよい。

　１，１Ａ，１Ｂ　　　情報処理装置
　１１　　　　　　　　取得部
　１２　　　　　　　　決定部
　１３　　　　　　　　蓄積部
　１５Ｂ　　　　　　　表示部
　１６Ｂ　　　　　　　入力受付部
　１７Ａ　　　　　　　記憶部
　１００，１００Ａ　　情報処理システム

Claims

　状態を取得する取得手段と、
　前記状態を参照して行動を決定する決定手段と、
　前記状態と、前記決定手段が決定した行動によって得られた報酬とを含む学習データを蓄積する蓄積手段と、
を備え、
　前記決定手段は、
　　状態と行動とから報酬和を予測する第１の関数を、前記学習データに対する重み付けを行うことによって算出し、当該第１の関数を用いて行動を決定する
ことを特徴とする情報処理装置。
　前記決定手段は、
　　前記学習データに含まれる１又は複数の値から、ばらつきに関する指標を算出し、
　　算出したばらつきに関する指標がより大きい程、より小さい重み係数を前記１又は複数の値に適用することによって、前記第１の関数を算出する
ことを特徴とする請求項１に記載の情報処理装置。
　前記決定手段は、
　　前記ばらつきに関する指標として、前記状態と前記行動とを参照して得られる、第２の関数の分散を算出する
ことを特徴とする請求項２に記載の情報処理装置。
　前記状態、前記行動、前記報酬、及び前記第１の関数の値の少なくとも何れかと、前記ばらつきに関する指標とを表示する表示手段を備えていることを特徴とする請求項２又は３に記載の情報処理装置。
　前記表示手段は、
　　前記状態、前記行動、前記報酬、及び前記第１の関数の値の前記少なくとも何れかのうち、ばらつきに関する指標が閾値以下である値を強調表示する
ことを特徴とする請求項４に記載の情報処理装置。
　前記決定手段は、
　　前記状態と前記行動とをベクトルにマップする特徴マップを用いて、前記第１の関数を算出する
ことを特徴とする請求項１から５の何れか１項に記載の情報処理装置。
　前記決定手段は、前記取得手段が取得した状態を引数として含む前記第１の関数を最大化するような行動を選択する
ことを特徴とする請求項１から６の何れか１項に記載の情報処理装置。
　前記状態と、前記報酬とを受け付ける入力デバイスを更に備えている
ことを特徴とする請求項１から７の何れか１項に記載の情報処理装置。
　情報処理装置が、
　状態を取得すること、
　前記状態を参照して行動を決定すること、及び
　前記状態と、前記決定した行動によって得られた報酬とを含む学習データを蓄積すること、
を繰り返し含み、
　前記行動を決定する工程では、
　　状態と行動とから報酬和を予測する第１の関数であって、前記学習データに対する重み付けを行うことによって算出された第１の関数を用いて行動を決定する
ことを特徴とする情報処理方法。
　コンピュータを情報処理装置として機能させるプログラムであって、
　前記プログラムは、前記コンピュータを、
　状態を取得する取得手段と、
　前記状態を参照して行動を決定する決定手段と、
　前記状態と、前記決定手段が決定した行動によって得られた報酬とを含む学習データを蓄積する蓄積手段と、して機能させ、
　前記決定手段は、
　　状態と行動とから報酬和を予測する第１の関数を、前記学習データに対する重み付けを行うことによって算出し、当該第１の関数を用いて行動を決定する
ことを特徴とするプログラム。
　情報処理装置と、端末装置とを含む情報処理システムであって、
　前記情報処理装置は、
　状態を取得する取得手段と、
　前記状態を参照して行動を決定する決定手段と、
　前記状態と、前記決定手段が決定した行動によって得られた報酬とを含む学習データを蓄積する蓄積手段と、
を備え、
　前記決定手段は、
　　状態と行動とから報酬和を予測する第１の関数を、前記学習データに対する重み付けを行うことによって算出し、当該第１の関数を用いて行動を決定し、
　前記端末装置は、
　状態を取得し前記情報処理装置に提供する状態情報提供手段と、
　前記情報処理装置が決定した行動を実行して得られた報酬を示す報酬情報を前記情報処理装置に提供する報酬情報提供手段と、
を備えている
ことを特徴とする情報処理システム。
　情報処理装置が、
　状態を取得する取得すること、
　前記状態を参照して行動を決定すること、及び
　前記状態と、前記決定した行動によって得られた報酬とを含む学習データを蓄積すること、
を繰り返し含み、
　前記行動を決定する工程では、
　　状態と行動とから報酬和を予測する第１の関数であって、前記学習データに対する重み付けを行うことによって算出された第１の関数を用いて行動を決定し、
　端末装置が、
　状態を取得し前記情報処理装置に提供すること、及び
　前記情報処理装置が決定した行動を実行して得られた報酬を示す報酬情報を前記情報処理装置に提供すること、
を含む
ことを特徴とする情報処理方法。