WO2019187548A1

WO2019187548A1 - 情報処理装置および情報処理方法

Info

Publication number: WO2019187548A1
Application number: PCT/JP2019/001989
Authority: WO
Inventors: 友哉木村
Original assignee: ソニー株式会社
Priority date: 2018-03-26
Filing date: 2019-01-23
Publication date: 2019-10-03
Also published as: US20210018882A1; EP3779809A4; EP3779809A1; JP7331837B2; CN111868760A; JPWO2019187548A1; CA3094427A1

Abstract

【課題】目的の変更に追従した最適な動作を実現する。【解決手段】動作部の振る舞いを決定する行動価値を計算する行動価値計算部、を備え、前記行動価値計算部は、異なる報酬に基づいて学習された複数の第１の行動価値と、取得された目的変化要因と、に基づいて、前記動作部に入力する第２の行動価値を動的に計算する、情報処理装置が提供される。また、異なる報酬に基づいて学習された複数の行動価値に基づく動的な振る舞いを行う動作部の動作結果に基づいて、複数の前記行動価値に係る過不足を判定し、前記過不足に係る情報通知を制御するフィードバック部、を備える、情報処理装置が提供される。

Description

情報処理装置および情報処理方法

　本開示は、情報処理装置および情報処理方法に関する。

　近年、機械学習技術を活用した種々の装置が開発されている。上記のような装置には、例えば、強化学習により取得した行動価値に基づいて自律的動作を行う種々の動作体が挙げられる。また、強化学習の性能や効率を向上させるための技術が盛んに研究されている。例えば、非特許文献１には、強化学習において行動価値を目的ごとに分割して学習し、得られた行動価値を足し合わせることで最終的な行動価値として利用する技術が開示されている。

Harm van Seijen、外５名、「Hybrid RewardArchitecture for Reinforcement Learning」、２０１７年６月１３日、［Online］、［平成３０年３月２１日検索］、インターネット<https://arxiv.org/pdf/1706.04208.pdf>

　しかし、非特許文献１に記載の技術では、上記の足し合わせにおける比率が一定であるため、目的が変化した場合であっても、動作体の挙動を柔軟に変化させることが困難である。

　そこで、本開示では、目的の変更に追従した最適な動作を実現することが可能な、新規かつ改良された情報処理装置および情報処理方法を提案する。

　本開示によれば、動作部の振る舞いを決定する行動価値を計算する行動価値計算部、を備え、前記行動価値計算部は、異なる報酬に基づいて学習された複数の第１の行動価値と、取得された目的変化要因と、に基づいて、前記動作部に入力する第２の行動価値を動的に計算する、情報処理装置が提供される。

　また、本開示によれば、異なる報酬に基づいて学習された複数の行動価値に基づく動的な振る舞いを行う動作部の動作結果に基づいて、複数の前記行動価値に係る過不足を判定し、前記過不足に係る情報通知を制御するフィードバック部、を備える、情報処理装置が提供される。

　また、本開示によれば、プロセッサが、動作部の振る舞いを決定する行動価値を計算すること、を含み、前記計算することは、異なる報酬に基づいて学習された複数の第１の行動価値と、取得された目的変化要因と、に基づいて、前記動作部に入力する第２の行動価値を動的に計算すること、をさらに含む、情報処理方法が提供される。

　また、本開示によれば、プロセッサが、異なる報酬に基づいて学習された複数の行動価値に基づく動的な振る舞いを行う動作部の動作結果に基づいて、複数の前記行動価値に係る過不足を判定し、前記過不足に係る情報通知を制御すること、を含む、情報処理方法が提供される。

　以上説明したように本開示によれば、目的の変更に追従した最適な動作を実現することが可能となる。

　なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

本開示の一実施形態の概要について説明するための図である。同実施形態に係る情報処理装置の機能構成例を示すブロック図である。行動価値と行動の違いについて説明するための図である。行動価値と行動の違いについて説明するための図である。本開示の一実施形態に係る目的に応じた重みを用いた第２の行動価値の算出について説明するための図である。同実施形態に係るユーザにより与えられる目的変更指示に基づく第２の行動価値の計算について説明するための図である。同実施形態に係るコンテクストから推定される所定環境と動作環境の一致について説明するための図である。同実施形態に係るユーザが目的動作を設定した所定環境と動作環境の一致について説明するための図である。同実施形態に係る目的変化要因と変化する振る舞いとに係る情報通知の制御について説明するための図である。同実施形態に係る情報処理装置の動作の流れを示すフローチャートである。同実施形態に係る情報処理装置がエージェント装置である場合の動作制御について説明するための図である。同実施形態に係る第１の行動価値の過剰性に係る通知制御について説明するための図である。同実施形態に係る第１の行動価値の過剰性に係る通知制御の流れを示すフローチャートである。同実施形態に係る第１の行動価値の不足性に係る通知制御について説明するための図である。同実施形態に係る第１の行動価値の不足性に係る通知制御について説明するための図である。同実施形態に係る第１の行動価値の不足性に係る通知制御の流れを示すフローチャートである。本開示の一実施形態に係る情報処理装置のハードウェア構成例を示す図である。

　以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

　なお、説明は以下の順序で行うものとする。
　１．実施形態
　　１．１．概要
　　１．２．情報処理装置１０の機能構成例
　　１．３．第２の行動価値の算出
　　１．４．第１の行動価値の過不足に係るフィードバック
　２．ハードウェア構成例
　３．まとめ

　＜１．実施形態＞
　＜＜１．１．概要＞＞
　まず、本開示の一実施形態の概要について述べる。上述したように、近年、強化学習により取得した行動価値に基づいて自律的動作を行う種々の動作体が開発されている。上記のような動作体は、学習時に定められた所定の目的を実現するための行動価値を学習し、当該行動価値に基づいて、種々の自律的動作を実現することが可能である。

　一方、上記の行動価値は、定められた目的に対してのみ利用可能である。このため、学習後に目的が変更された場合、動作体は変更された新たな目的に対応する新たな行動価値を再学習することが求められる。

　近年では、上記のような再学習を効率化するための手法も提案されているが、効率化を実現した場合であっても再学習に要するコストは決して少なくないことから、再学習自体を回避することが望ましい。

　また、上述した非特許文献１によれば、強化学習において行動価値を目的ごとに分割して学習し、得られた行動価値を足し合わせることで最終的な行動価値として利用する技術が提案されている。

　しかし、非特許文献１に記載の技術では、分割して学習した行動価値を常に所定の比率で足し合わせるため、目的の変更に対する柔軟な追従を実現することが困難である。

　本開示に係る技術思想は、上記の点に着目して発想されたものであり、目的の変更に追従した最適な動作を再学習を行わずに実現することを可能とする。このために、本開示の一実施形態に係る情報処理方法を実現する情報処理装置１０は、動作部１５０の振る舞いを決定する行動価値を計算する行動価値計算部１４０を備える。また、本実施形態に係る行動価値計算部１４０は、異なる報酬に基づいて学習された複数の第１の行動価値と、取得された目的変化要因と、に基づいて、動作部１５０に入力する第２の行動価値を動的に計算すること、を特徴の一つとする。

　図１は、本実施形態の概要について説明するための図である。図１では、本実施形態に係る情報処理装置１０が認識した環境Ｅに基づいて自律動作を行う自動運転車である場合の一例が示されている。

　図１の上段に示すように、本実施形態に係る情報処理装置１０は、学習時において、環境Ｅに対して実行する行動を通じて報酬Ｒが最も多く得られるような行動価値Ｑを学習する。この際、本実施形態に係る情報処理装置１０は、図示するように、複数の異なる報酬Ｒに基づいて複数の行動価値Ｑを学習することを特徴の一つとする。

　図１に示す一例の場合、情報処理装置１０は、複数の報酬Ｒ１～Ｒ５に基づいて、報酬Ｒ１～Ｒ５にそれぞれ対応する行動価値Ｑ１～Ｑ５を学習している。この際、複数の報酬Ｒ１～５は、異なる目的に対応して設定される。例えば、図１に示す一例の場合、報酬Ｒ１は、目的地に辿り着く、ことに対する報酬であり、報酬Ｒ２は、速い速度で目的地まで移動する、ことに対する報酬である。また、報酬Ｒ３は、障害物にぶつからない、ことに対する報酬であり、報酬Ｒ４は、障害物に近づかない、ことに対する報酬である。また、報酬Ｒ５は、急減速や急加速をしない、ことに対する報酬である。

　このように、本実施形態に係る情報処理装置１０は、異なる複数の目的に対応した複数の報酬Ｒ１～Ｒ５に基づいて、異なる複数の目的を実現する複数の行動価値Ｑ１～Ｑ５を学習することが可能である。本実施形態に係る情報処理装置１０は、上記のように学習した複数の行動価値Ｑを足し合わせることで、環境Ｅに対しより効果的な行動を実現することができる。

　一方、情報処理装置１０が実際に利用される際には、種々の要因により目的が変更されることも想定される。このために、本実施形態に係る情報処理装置１０は、変更された目的に応じて、行動価値Ｑ１～Ｑ５を足し合わせる際の比率を変更し、当該目的に対して最適化された行動価値Ｑを計算することで、目的の変更に追従した柔軟な動作を実現することが可能である。

　例えば、図１に示すように、ユーザＵ１ａが速く目的地に辿り着くことを目的とする場合、情報処理装置１０は、上記の目的に基づいて、速い速度で目的地まで移動することに対する報酬Ｒ２に基づいて学習した行動価値Ｑ２の比率を高く設定し、最終的な行動価値Ｑを計算してよい。図１に示す一例の場合、情報処理装置１０は、最終的な行動価値Ｑを、Ｑ＝Ｑ１＋５Ｑ２＋Ｑ３＋Ｑ４＋Ｑ５、として計算している。

　また、例えば、ユーザＵ１ｂが安全に目的地に辿り着くことを目的とする場合、情報処理装置１０は、上記の目的に基づいて、安全運転に対する報酬Ｒ３～Ｒ５に基づいて学習した行動価値Ｑ３～Ｑ５の比率を高く設定し、最終的な行動価値Ｑを計算してよい。図１に示す一例の場合、情報処理装置１０は、最終的な行動価値Ｑを、Ｑ＝Ｑ１＋Ｑ２＋５Ｑ３＋５Ｑ４＋３Ｑ５、として計算している。

　このように、本実施形態に係る情報処理装置１０によれば、変更された目的に応じて、行動価値Ｑ１～Ｑ５を足し合わせる際の比率を変更することで、目的の変更に追従した柔軟な動作を実現することが可能である。

　また、本実施形態に係る情報処理装置１０は、上述の機能に加え、学習済の行動価値の不足性や過剰性を検出し、当該不足性や過剰性に係る情報通知を制御する機能をさらに備えてよい。本実施形態に係る情報処理装置１０が有する上記の機能によれば、最適な動作を実現するために不足している行動価値や、過剰な行動価値を設計者が把握することができ、より効果的な強化学習を実現することが可能となる。

　以下、上記機能を実現する情報処理装置１０の構成について詳細に説明する。なお、以下の説明においては、異なる複数の報酬に基づいて学習された複数の行動価値を、第１の行動価値、と称する場合がある。例えば、本実施形態に係る第１の行動価値は、図１に示す行動価値Ｑ１～Ｑ５に対応する。

　また、以下の説明においては、複数の第１の行動価値に基づいて計算される最終的な行動価値を、第２の行動価値、と称する場合がある。例えば、本実施形態に係る第２の行動価値は、図１に示す行動価値Ｑに対応する。

　＜＜１．２．情報処理装置１０の機能構成例＞＞
　次に、本実施形態に係る情報処理装置１０の機能構成例について説明する。図２は、本実施形態に係る情報処理装置１０の機能構成例を示すブロック図である。図２を参照すると、本実施形態に係る情報処理装置１０は、強化学習部１１０、環境取得部１２０、比率計算部１３０、行動価値計算部１４０、動作部１５０、ログ保持部１６０、フィードバック部１７０、および出力部１８０を備える。

　（強化学習部１１０）
　本実施形態に係る強化学習部１１０は、複数の目的（行動指標）に対応する複数の報酬に基づいて、複数の第１の行動価値を学習する機能を有する。本実施形態に係る強化学習部１１０は、学習した複数の第１の行動価値と、対応する行動指標とを比率計算部１３０および行動価値計算部１４０に出力する。

　（環境取得部１２０）
　本実施形態に係る環境取得部１２０は、強化学習部１１０の学習結果の利用時に、情報処理装置１０の動作に係る種々の環境を取得する機能を有する。また、本実施形態に係る環境取得部１２０は、目的が変化する要因である目的変化要因を取得する。環境取得部１２０は、取得した環境や目的変化要因に係る種々の環境パラメータを比率計算部１３０に出力する。本実施形態に係る環境取得部１２０が有する機能の詳細については別途後述する。

　（比率計算部１３０）
　本実施形態に係る比率計算部１３０は、目的変化要因に基づいて、第２の行動価値の計算に用いられる比率を計算する機能を有する。具体的には、比率計算部１３０は、強化学習部１１０から入力された複数の第１の行動価値と、環境取得部１２０から入力された環境パラメータとに基づいて、複数の第１の行動価値のそれぞれに対する重みを計算する。比率計算部１３０は、計算した上記の重みを行動価値計算部１４０に出力する。

　（行動価値計算部１４０）
　本実施形態に係る行動価値計算部１４０は、動作部１５０の振る舞いを決定する行動価値を計算する機能を有する。この際、本実施形態に係る行動価値計算部１４０は、異なる報酬に基づいて学習された複数の第１の行動価値と、取得された目的変化要因と、に基づいて、動作部１５０に入力する第２の行動価値を動的に計算すること、を特徴の一つとする。

　本実施形態に係る行動価値計算部１４０は、比率計算部１３０が目的変化要因に基づいて計算した比率を用いて、第２の行動価値を動的に計算することができる。具体的には、本実施形態に係る行動価値計算部１４０は、比率計算部１３０が計算した上記の重みに基づいて、第１の行動価値を足し合わせることで、第２の行動価値を計算する。

　本実施形態に係る行動価値計算部１４０が有する上記の機能によれば、状況により変化する目的に対し最適化された第２の行動価値を動的に計算することができ、目的変化に追従した動作部１５０の柔軟な動作を実現することが可能となる。なお、本実施形態に係る行動価値計算部１４０が有する機能の詳細については別途後述する。

　（動作部１５０）
　本実施形態に係る動作部１５０は、行動価値計算部１４０が計算した第２の行動価値と、推定された動作環境とに基づいて、振る舞いを動的に変化させることを特徴の一つとする。なお、本実施形態に係る動作部１５０は、情報処理装置１０の特性に応じた種々の動作を行うことができる。動作部１５０は、例えば、第２の行動価値に基づいて自動運転を制御してもよいし、ゲームにおける次のアクションを探索してもよい。

　また、本実施形態に係る動作部１５０は、上記の目的変化要因に基づいて第２の行動価値が変化した場合、当該目的変化要因と変化する振る舞いとに係る情報を出力部１８０に出力させる機能を有する。

　（ログ保持部１６０）
　本実施形態に係るログ保持部１６０は、情報処理装置１０の動作に係る各種のログを保持する機能を有する。本実施形態に係るログ保持部１６０は、例えば、環境パラメータや、第１の行動価値に設定された重み、計算された第２の行動価値、第２の行動価値に基づく動作部１５０の動作結果などを保持してよい。

　（フィードバック部１７０）
　本実施形態に係るフィードバック部１７０は、行動価値計算部１４０による第２の行動価値に係る計算結果に基づいて、複数の第１の行動価値に係る過不足を判定し、当該過不足に係る情報通知を制御する機能を有する。本実施形態に係るフィードバック部１７０が有する機能の詳細については別途後述する。

　（出力部１８０）
　本実施形態に係る出力部１８０は、動作部１５０やフィードバック部１７０による制御に基づいて、種々の情報を出力する機能を有する。本実施形態に係る出力部１８０は、例えば、動作部１５０による制御に基づいて、目的変化要因と変化する振る舞いとに係る情報をユーザに対し通知する。また、出力部１８０は、例えば、フィードバック部１７０による制御に基づいて、第１の行動価値の過不足に係る情報を設計者などに通知する。

　このために、本実施形態に係る出力部１８０は、視覚情報を出力するための各種の表示装置や、音声を出力するためのスピーカなどを備える。

　以上、本実施形態に係る情報処理装置１０の機能構成例について述べた。なお、図２を用いて説明した上記の機能構成はあくまで一例であり、本実施形態に係る情報処理装置１０の機能構成は係る例に限定されない。例えば、上述した情報処理装置１０の機能は、複数の装置により分散されて実現されてもよい。例えば、行動価値計算部１４０、動作部１５０、フィードバック部１７０などが有する機能は、それぞれ別途の装置の機能として実現されてもよい。本実施形態に係る情報処理装置１０の機能構成は、仕様や運用に応じて柔軟に変形可能である。

　＜＜１．３．第２の行動価値の算出＞＞
　続いて、本実施形態に係る第２の行動価値の算出について詳細に説明する。上述したように、本実施形態に係る第２の行動価値とは、複数の報酬に基づいて学習された複数の第１の行動価値を足し合わせることで計算される行動価値である。

　また、ここで、行動価値とは、自身が選択し得るすべての行動に対して割り振られた評価値であり、行動そのものとは異なる概念である。

　図３Ａおよび図３Ｂは、行動価値と行動の違いについて説明するための図である。

　図３Ａには、動作体９０が行動そのものを足し合わせた場合の挙動の一例が示されている。図３Ａの左側には、自動運転車である動作体９０が、障害物Ｏ１およびＯ２が存在する環境下において、取り得る２つの行動ｂ１およびｂ２が示されている。行動ｂ１は、例えば、安全に走行するための行動であってよく、行動ｂ２は、速く目的地に到着するための行動であってもよい。

　ここで、動作体９０が行動ｂ１およびｂ２そのものを足し合わせた行動ｂ３を行おうとする場合、行動ｂ３は、図３Ａの右側に示すように、行動ｂ１およびｂ２に係る動作ベクトルを足し合わせたものとなり、目的に沿わない意味のない行動となるばかりか、障害物Ｏ１に衝突するなどの損害に繋がる可能性も生じることとなる。

　一方、図３Ｂには、本実施形態に係る情報処理装置１０が第１の行動価値を足し合わせた第２の行動価値に基づいて行動を行う場合の一例が示されている。図３Ｂの左側には、自動運転車である情報処理装置１０が、障害物Ｏ１およびＯ２が存在する環境下において、取り得る２つの行動ｂ１およびｂ２が示されている。

　ここで、図３Ｂにおける行動ｂ１およびｂ２は、第１の行動価値Ｑ１およびＱ２にそれぞれ基づいて実行される行動であってよい。図３Ｂの左側上方には、上記の環境下において情報処理装置１０が取り得る行動（左折、直進、または右折）と、当該行動に対する行動価値Ｑ１およびＱ２の値がグラフにより示されている。

　ここで、行動価値Ｑ１は、安全に走行することに対する報酬に基づいて学習された第１の行動価値であってよい。この場合、行動価値Ｑ１は、より障害物の少ない経路である左折において最も高くなることから、行動価値Ｑ１に基づいて行動ｂ１が決定される。

　一方、行動価値Ｑ２は、速く目的地に到着することに対する報酬に基づいて学習された第１の行動価値であってよい。この場合、行動価値Ｑ２は、障害物を避けながらもより直進に近い右折において最も高くなることから、行動価値Ｑ２に基づいて行動ｂ２が決定される。

　この際、本実施形態に係る情報処理装置１０は、行動ｂ１およびｂ２そのものではなく、図３Ｂの右側に示すように、本実施形態に係る第１の行動価値に対応する行動価値Ｑ１およびＱ２を足し合わせることで、第２の行動価値に対応する行動価値Ｑを計算し、行動価値Ｑが最も高くなる行動ｂ３を決定する。

　本実施形態に係る情報処理装置１０が有する上記の機能によれば、行動そのものを足し合わせた場合とは異なり、目的に沿わない行動を行うことなく、また安全性などの低下を防止することが可能である。

　さらには、本実施形態に係る情報処理装置１０の行動価値計算部１４０は、上記のような第１の行動価値の足し合わせに際し、目的に応じて算出された重みを用いて第２の行動価値を算出してよい。

　図４は、本実施形態に係る目的に応じた重みを用いた第２の行動価値の算出について説明するための図である。

　例えば、より安全性を重視する目的が検出された場合、本実施形態に係る比率計算部１３０は、当該目的に基づいて、安全性に係る行動価値Ｑ１に対する重みＷ１を２に、高速性に係る行動価値Ｑ２に対する重みＷ２を１として計算してもよい。

　この際、本実施形態に行動価値計算部１４０は、比率計算部１３０が計算した上記の重みＷ１およびＷ２を用いて、図４の左側に示すように、第２の行動価値に対応する行動価値Ｑを、Ｑ＝２Ｑ１＋Ｑ２、として算出する。

　また、動作部１５０は、行動価値計算部１４０が計算した上記の行動価値Ｑが最も高くなる左折に対応した行動ｂ３を実行する。

　また、例えば、高速性を重視する目的が検出された場合、本実施形態に係る比率計算部１３０は、当該目的に基づいて、安全性に係る行動価値Ｑ１に対する重みＷ１を１に、高速性に係る行動価値Ｑ２に対する重みＷ２を２として計算してもよい。

　この際、本実施形態に行動価値計算部１４０は、比率計算部１３０が計算した上記の重みＷ１およびＷ２を用いて、図４の右側に示すように、第２の行動価値に対応する行動価値Ｑを、Ｑ＝Ｑ１＋２Ｑ２、として算出する。

　また、動作部１５０は、行動価値計算部１４０が計算した上記の行動価値Ｑが最も高くなる直進に近い右折に対応した行動ｂ３を実行する。

　以上、本実施形態に係る第２の行動価値の算出について説明した。本実施形態に係る情報処理装置１０が有する上記の機能によれば、目的に応じて第１の行動価値に対する重みを変更することで多様な第２の行動価値を算出することができ、再学習を行わずに動作部１５０の振る舞いを変化させることが可能となる。

　続いて、本実施形態に係る目的変化要因について説明する。本実施形態に係る目的変化要因とは、情報処理装置１０の利用時において、動作部１５０の動作の目的の変化に繋がる種々の要因を指す。本実施形態に係る情報処理装置１０は、種々の目的変化要因を検出し、変更された目的に応じた比率を決定することで、当該目的に最適化された第２の行動価値を計算し、当該目的を満たす動作を実現することが可能である。

　本実施形態に係る目的変化要因は、例えば、ユーザにより与えられる目的変更指示を含む。図５は、本実施形態に係るユーザにより与えられる目的変更指示に基づく第２の行動価値の計算について説明するための図である。

　図５には、ユーザにより与えられる目的変更指示を受け付けるためのユーザインタフェースの表示例が示されている。本実施形態に係る環境取得部１２０は、図５に示すようなユーザインタフェースＵＩ１～ＵＩ３を出力部１８０に出力させ、目的変更指示の入力を促すことが可能である。

　例えば、情報処理装置１０が自動運転車である場合、環境取得部１２０は、車内に設置される出力部１８０にユーザインタフェースＵＩ～ＵＩ３を表示させ、安全性と高速性に関し、ユーザが重要視する度合いを問い合わせてもよい。

　この際、環境取得部１２０は、ユーザインタフェースＵＩ１～ＵＩ３において入力された値を検出し、当該値を環境パラメータの一部として比率計算部１３０に引き渡す。また、比率計算部１３０は、受け取った上記の環境パラメータに基づいて、第１の行動価値に対する重みを決定し、当該重みを行動価値計算部１４０に引き渡す。また、行動価値計算部１４０は、受け取った重みを用いて第１の行動価値を足し合わせ、第２の行動価値を計算することができる。

　例えば、図５に示すユーザインタフェースＵＩ１の場合、比率計算部１３０は、行動価値Ｑ１およびＱ２にそれぞれ対応するインジケータを用いて入力された値を環境取得部１２０から受け取り、当該値に基づいて、行動価値Ｑ１に対応する重みＷ１を５に決定し、行動価値Ｑ２に対応する重みＷ２を１に決定してよい。この際、行動価値計算部１４０は、決定された重みＷ１およびＷ２に基づいて、第２の行動価値Ｑを、Ｑ＝５Ｑ１＋Ｑ２、により計算することができる。

　また、例えば、図５に示すユーザインタフェースＵＩ２の場合、比率計算部１３０は、行動価値Ｑ１およびＱ２をそれぞれ縦軸および横軸に持つグラフを用いて入力された値を環境取得部１２０から受け取り、当該値に基づいて、行動価値Ｑ１に対応する重みＷ１を４．３に決定し、行動価値Ｑ２に対応する重みＷ２を０．６に決定してよい。この際、行動価値計算部１４０は、決定された重みＷ１およびＷ２に基づいて、第２の行動価値Ｑを、Ｑ＝４．３Ｑ１＋０．６Ｑ２、により計算することができる。

　また、例えば、図５に示すユーザインタフェースＵＩ３の場合、比率計算部１３０は、行動価値Ｑ１およびＱ２にそれぞれ対応する入力フィールドに入力された値を環境取得部１２０から受け取り、当該値に基づいて、行動価値Ｑ１に対応する重みＷ１を４．６に決定し、行動価値Ｑ２に対応する重みＷ２を１．５に決定してよい。この際、行動価値計算部１４０は、決定された重みＷ１およびＷ２に基づいて、第２の行動価値Ｑを、Ｑ＝４．６Ｑ１＋１．５Ｑ２、により計算することができる。

　以上、本実施形態に係るユーザにより与えられる目的変更指示について具体例を挙げて説明した。本実施形態に係る情報処理装置１０が有する上記の機能によれば、状況などに応じて変化するユーザの要望に沿った動作を再学習なしで実現することが可能である。

　なお、図５に示したユーザインタフェースＵＩ１～ＵＩ３は、あくまで一例であり、本実施形態に係る目的変更指示は、例えば、音声による問い合わせや入力により検出されてもよい。また、本実施形態に係る目的変更指示は、例えば、ユーザのジェスチャに基づいて検出されてもよい。上記のジェスチャには、例えば、ユーザがスマートフォンを振った場合には、高速性に係る重要度を増加させ、ユーザが座席の背もたれに体重を掛けた場合には、高速性に係る重要度を低減する、などの機器操作が含まれてもよい。

　また、本実施形態に係る目的変化要因には、動作部１５０の動作環境の変化が含まれる。本実施形態に係る環境取得部１２０は、例えば、コンテクストから推定される所定環境に動作環境が一致した場合、当該環境の一致を目的変化要因として検出してもよい。

　図６は、本実施形態に係るコンテクストから推定される所定環境と動作環境の一致について説明するための図である。図６には、自動運転車である情報処理装置１０が、ユーザＵ１による「１０時までには着いて」、という指示を受け取った場合における第２の行動価値の算出例が示されている。

　この際、環境取得部１２０は、現在時刻を環境パラメータの一部として取得し、現在時刻と目的地への到着設定時刻との差分、すなわち残り時間を計算し、当該差分を環境パラメータの一部として、比率計算部１３０に引き渡す。

　また、比率計算部１３０は、受け取った残り時間と変換関数Ｆに基づいて第１の行動価値に対する重みを決定し、当該重みを行動価値計算部１４０に引き渡す。また、行動価値計算部１４０は、受け取った重みに基づいて、第２の行動価値を計算することが可能である。

　例えば、現在時刻が９時１５分である場合、比率計算部１３０は、残り時間が４５分であり、まだ時間に余裕があることから、安全性に係る行動価値Ｑ１に対する重みＷ１を５に設定し、高速性に係る行動価値Ｑ２に対する重みＷ２を１に設定してもよい。この場合、行動価値計算部１４０は、決定された重みＷ１および重みＷ２に基づいて、第２の行動価値Ｑを、Ｑ＝５Ｑ１＋Ｑ２、により計算することができる。

　また、例えば、現在時刻が９時３０分である場合、比率計算部１３０は、残り時間が３０分であり、時間の余裕がなくなってきたことから、安全性に係る行動価値Ｑ１に対する重みＷ１を３に設定し、高速性に係る行動価値Ｑ２に対する重みＷ２を２に設定してもよい。この場合、行動価値計算部１４０は、決定された重みＷ１および重みＷ２に基づいて、第２の行動価値Ｑを、Ｑ＝３Ｑ１＋２Ｑ２、により計算することができる。

　また、例えば、現在時刻が９時４５分である場合、比率計算部１３０は、残り時間が１５分であり、時間の余裕がほぼないことから、安全性に係る行動価値Ｑ１に対する重みＷ１を１に設定し、高速性に係る行動価値Ｑ２に対する重みＷ２を５に設定してもよい。この場合、行動価値計算部１４０は、決定された重みＷ１および重みＷ２に基づいて、第２の行動価値Ｑを、Ｑ＝Ｑ１＋５Ｑ２、により計算することができる。

　また、本実施形態に係る環境取得部１２０は、例えば、ユーザが目的動作を設定した所定環境に動作環境が一致した場合、当該環境の一致を目的変化要因として検出してもよい。

　図７は、本実施形態に係るユーザが目的動作を設定した所定環境と動作環境の一致について説明するための図である。図７には、所定環境に対する目的動作の設定をユーザに促すためのユーザインタフェースＵＩの一例が示されている。

　図７に示す一例の場合、ユーザインタフェースＵＩ１には、ユーザに目的動作を設定させるための所定の環境状態Ｓ１～Ｓ３が表示されている。ここで、環境状態Ｓ１～Ｓ３はそれぞれ、走行路が直線の状態、走行路が緩やかにカーブしている状態、走行路が直角に曲がっている状態である。

　本実施形態に係る環境取得部１２０は、上記のように、例えば安全性や高速性など第１の行動価値の変化に影響し得る複数の環境状態ＳをユーザインタフェースＵＩを介してユーザに提示し、環境状態Ｓに対して、ユーザがどのような動作を望むのかを問い合わせることができる。

　また、環境取得部１２０は、入力された目的動作を環境パラメータとして取得し、当該環境パラメータを比率計算部１３０に引き渡す。なお、図７に示す一例では、ユーザＵ１が音声により目的動作を入力する場合が示されており、ここで、目的動作は、時速により示されている。

　また、比率計算部１３０は、環境状態Ｓごとに環境パラメータを受け取り、複数の環境状態Ｓの設置に対し最も合致する重みＷｎを線形回帰などを用いて計算する。また、本実施形態に係る行動価値計算部１４０は、上記のように計算された重みＷｎを用いて、第２の行動価値を算出することができる。図７に示す一例の場合、行動価値計算部１４０は、重みＷｎに基づいて、第２の行動価値Ｑを、Ｑ＝２．３Ｑ１＋Ｑ２、により算出している。

　以上、本実施形態に係る目的変化要因の検出に基づく第２の行動価値の算出について説明した。本実施形態に係る情報処理装置１０が有する上記の機能によれば、状況に応じて変化する目的に追従した最適な動作を、再学習を行うことなく実現することが可能である。

　続いて、本実施形態に係る目的変化要因と変化する振る舞いとに係る情報通知の制御について説明する。本実施形態に係る動作部１５０は、目的変化要因に基づいて第２の行動価値が変化した場合、当該目的変化要因と、第２の行動価値に基づいて変化する振る舞いとに係る情報をユーザに対し通知させる機能を有する。

　図８は、本実施形態に係る目的変化要因と変化する振る舞いとに係る情報通知の制御について説明するための図である。図８には、本実施形態に係る情報処理装置１０が自動運転車であり、天候を環境パラメータとして取得する場合の一例が示されている。

　例えば、図８の左側には、晴れた環境下で走行する情報処理装置１０が示されている。この際、比率計算部１３０は、晴れのため見通しがよいことから、速度を重視し、安全性に係る行動価値Ｑ１に対する重みＷ１を１に設定し、高速性に係る行動価値Ｑ２に対する重みＷ２を２に設定している。

　また、行動価値計算部１４０は、決定された重みＷ１およびＷ２を用いて第２の行動価値Ｑを、Ｑ＝Ｑ１＋２Ｑ２、により算出し、動作部１５０が、算出された第２の行動価値Ｑに基づいて、比較的速度を出した走行を行う。

　一方、図８の右側には、霧が発生している環境下で走行する情報処理装置１０が示されている。この際、比率計算部１３０は、環境取得部１２０がカメラ装置が撮像した画像に基づいて霧の発生を検出したことに基づいて、安全性を重視し、安全性に係る行動価値Ｑ１に対する重みＷ１を２に設定し、高速性に係る行動価値Ｑ２に対する重みＷ２を１に設定している。

　また、行動価値計算部１４０は、決定された重みＷ１およびＷ２を用いて第２の行動価値Ｑを、Ｑ＝２Ｑ１＋Ｑ２、により算出する。この際、本実施形態に係る動作部１５０は、第２の行動価値Ｑの値が変化したことに基づいて、目的変化要因と、第２の行動価値に基づいて変化する振る舞いとに係る情報をユーザＵ１に対し通知させる。

　図８に示す一例の場合、動作部１５０は、出力部１８０に、霧の発生を検知したことにより安全性を高めた運転を行う旨を通知する音声発話ＳＯ１を出力させている。

　このように、本実施形態に係る動作部１５０によれば、振る舞いの変化に先だって、振る舞いを変化させる理由をユーザに対し通知させることで、ユーザが振る舞いの変化に対し違和感や不信感を得ることを防止することが可能である。

　次に、本実施形態に係る情報処理装置１０の動作の流れについて詳細に説明する。図９は、本実施形態に係る情報処理装置１０の動作の流れを示すフローチャートである。

　図９を参照すると、まず、環境取得部１２０が、ユーザによる目的変更指示や、所定環境状態に対する目的動作を入力するためのユーザインタフェースＵＩを出力部１８０に表示させる（Ｓ１１０１）。

　続いて、環境取得部１２０は、ユーザインタフェースＵＩに対する入力内容に基づいて環境パラメータを取得する（Ｓ１１０２）。

　次に、比率計算部１３０は、ステップＳ１１０２において取得された環境パラメータに基づいて、第１の行動価値Ｑｎに対する重みＷｎを計算する（Ｓ１１０３）。

　次に、行動価値計算部１４０は、ステップＳ１１０３において計算された重みＷｎに基づいて、第２の行動価値Ｑを計算する（Ｓ１１０４）。

　次に、動作部１５０は、ステップＳ１１０４において計算された第２の行動価値Ｑに基づいて、目的変化要因や振る舞いの変化に係る情報を出力部１８０に出力させる（Ｓ１１０５）。

　次に、動作部１５０が、ステップＳ１１０４において計算された第２の行動価値Ｑに基づいて、目的に最適化された動作を実行する（Ｓ１１０６）。

　以上、本実施形態に係る情報処理装置１０が有する機能について詳細に説明した。なお、上記では、本実施形態に係る情報処理装置１０が自動運転車である場合を主な例として述べたが、本実施形態に係る情報処理装置１０は、係る例に限定されない。本実施形態に係る情報処理装置１０は、例えば、ユーザとの音声対話を行うエージェント装置であってもよい。

　図１０は、本実施形態に係る情報処理装置１０がエージェント装置である場合の動作制御について説明するための図である。

　図１０では、情報処理装置１０が、おしゃべりな対話を行うことに対する報酬Ｒ１に基づいて学習した行動価値Ｑ１と、落ち着いた対話を行うことに対する報酬Ｒ２に基づいて学習した行動価値Ｑ２と、に基づいて動作する場合が示されている。この際、情報処理装置１０は、ユーザＵの表情を環境パラメータとして取得し、当該環境パラメータに基づいて重みを決定し、当該重みに基づいて第２の行動価値を算出してよい。

　具体的には、情報処理装置１０は、ユーザＵ１の笑顔の度合いが高いほど、おしゃべりな対話に係る行動価値Ｑ１に対する重みＷ１を高く設定し、ユーザＵ１の顔が沈んだ表情をしているほど、落ち着いた対話に係る行動価値Ｑ２に対する重みＷ２を高く設定することができる。

　このように、本実施形態に係る情報処理装置１０によれば、ユーザＵ１の状態に応じて、エージェントの性格を柔軟に変化させ、より最適化された対話を実現することが可能である。

　また、本実施形態に係る情報処理装置１０は、例えば、ピッキングチャレンジや対戦ゲームなどにおいて、コンテクストに応じた戦略変化を実現することも可能である。

　例えば、ピッキングチャレンジの場合、情報処理装置１０は、精度の高いピッキングを行うことに対する報酬Ｒ１に基づいて学習した行動価値Ｑ１と、高速なピッキングを行うことに対する報酬Ｒ２に基づいて学習した行動価値Ｑ２とに基づいて動作を行う。

　この際、情報処理装置１０は、環境パラメータとして制限時間までの残り時間を取得し、残り時間が少なくなるほど高速性に係る行動価値Ｑ２に対する重みＷ２を高く設定することで、ピッキング戦略を時間に応じて動的に変化させることが可能である。

　また、例えば、麻雀ゲームの場合、情報処理装置１０は、点数の高い役で勝つことに対する報酬Ｒ１に基づいて学習した行動価値Ｑ１と、早く勝つことに対する報酬Ｒ２に基づいて学習した行動価値Ｑ２とに基づいて動作を行う。

　この際、情報処理装置１０は、環境パラメータとして対戦相手と自身との点差を取得し、点差が広がるほど高得点での勝利に係る行動価値Ｑ１に対する重みＷ１を高く設定することで、ゲームの状況に応じて戦略を動的に変化させることが可能である。また、情報処理装置１０は、対戦相手の心拍数や発汗量などのバイタル情報や発言を環境パラメータとして取得し、当該環境パラメータに基いて重みＷを計算することで戦略を動的に変化させることも可能である。

　＜＜１．４．第１の行動価値の過不足に係るフィードバック＞＞
　次に、本実施形態に係る第１の行動価値の過不足に係るフィードバックについて詳細に説明する。上述したように、本実施形態に係るフィードバック部１７０は、行動価値計算部１４０による第２の行動価値の計算結果に基づいて、第１の行動価値の過不足に係る情報通知を制御する機能を有する。

　まず、本実施形態に係るフィードバック部１７０による第１の行動価値の過剰性に係る通知制御について説明する。図１１は、本実施形態に係る第１の行動価値の過剰性に係る通知制御について説明するための図である。

　図１１には、本実施形態に係る情報処理装置１０が、ユーザとの音声対話を行うエージェント装置である場合の一例が示されている。図１１に示す一例の場合、情報処理装置１０は、おしゃべりな性格の対話を行うことに対する報酬Ｒ１に基づいて行動価値Ｑ１を、優しい性格の対話を行うことに対する報酬Ｒ２に基づいて行動価値Ｑ２を、おせっかいな性格の会話を行うことに対する報酬Ｒ３に基づいて行動価値Ｑ３を、それぞれ学習している。

　上記のような場合において、本実施形態に係るフィードバック部１７０は、複数の別の第１の行動価値の組み合わせで表現可能な第１の行動価値を検出した場合、検出された第１の行動価値の過剰性に係る情報通知を出力部１８０に実行させてよい。

　図１１に示す一例の場合、フィードバック部１７０は、おせっかいな性格に係る行動価値Ｑ３が、おしゃべりな性格に係る行動価値Ｑ１、および優しい性格に係る行動価値Ｑ２の組み合わせにより、Ｑ３＝ｘＱ１＋ｙＱ２、として表現できることを検出し、行動価値Ｑ３の過剰性を通知する音声発話ＳＯ２を出力部１８０に出力させている。

　このように、本実施形態に係るフィードバック部１７０によれば、設計者などに対し過剰な第１の行動価値Ｑｎを指摘することができ、設計者が行動価値Ｑｎに対応するネットワークを削除するなどしてメモリや計算量を削減することが可能となる。

　また、例えば、自動運転制御などにおいて、特定の行動価値Ｑｎに過剰性が検出された場合、設計者は当該知見を、ドローンなどの他のデバイスの運転制御学習にも応用することができ、学習時間を軽減させる効果などが期待される。

　続いて、図１２を参照して、第１の行動価値の過剰性に係る通知制御の流れについて詳細に説明する。図１２は、第１の行動価値の過剰性に係る通知制御の流れを示すフローチャートである。

　図１２を参照すると、フィードバック部１７０は、まず、ログ保持部１６０から、行動価値計算部１４０が算出した第２の行動価値Ｑの計算結果を取得する（Ｓ１２０１）。

　次に、フィードバック部１７０は、ステップＳ１２０１において取得した計算結果に基づいて、第１の行動価値Ｑｎ間の類似度を計算する（Ｓ１２０２）。この際、フィードバック部１７０は、第１の行動価値Ｑｎ間の相関値などに基づいて類似度を算出する。フィードバック部１７０は、例えば、Ｗ１Ｑ１＋Ｗ２Ｑ２とＱ３の類似度などを計算してよい。

　次に、フィードバック部１７０は、ステップＳ１２０２において計算した類似度が閾値を上回るか否かを判定する（Ｓ１２０３）。

　ここで、類似度が閾値を上回る場合（Ｓ１２０３：ＹＥＳ）、フィードバック部１７０は、該当する第１の行動価値Ｑｎの過剰性に係る通知を出力部１８０に出力させる（Ｓ１２０４）。

　一方、類似度が閾値以下である場合（Ｓ１２０３：ＮＯ）、フィードバック部１７０は、第１の行動価値Ｑｎの過剰性が認められない旨を出力部１８０に出力させる（Ｓ１２０５）。なお、ステップＳ１２０５における通知は必ずしも行われなくてよい。

　以上、本実施形態に係る第１の行動価値の過剰性に係る通知制御について説明した。次に、本実施形態に係る第１の行動価値の不足性に係る通知制御について説明する。

　図１３および図１４は、第１の行動価値の不足性に係る通知制御について説明するための図である。

　図１３には、本実施形態に係る情報処理装置１０がポーカーゲームにおいてコンテクストに応じた戦略を立案する場合の一例が示されている。この際、設計者Ｄ１は、まず、所定の環境状態（シーン）ごとに目的動作を設定する。図１３に示す一例の場合、設計者Ｄ１は、シーン１～１６に対して、それぞれ狙う役と捨てる札を設定している。

　次に、比率計算部１３０は、設定された目的動作を実現するための重みＷｎを計算し、行動価値計算部１４０は、重みＷｎに基づいて第２の行動価値Ｑを計算する。

　次に、本実施形態に係るフィードバック部１７０は、計算された第２の行動価値Ｑに対応する動作と、設計者が設定した目的動作との合致度を計算し、合致度が閾値を下回るシーンに係る動作を抽出し、当該動作に共通する特徴を抽出する。

　続いて、フィードバック部１７０は、抽出した特徴に基づいて第１の行動価値Ｑｎの不足性に係る通知を出力部１８０に出力させる。図１３に示す一例の場合、フィードバック部１７０は、点数の高い役を狙うための第１の行動価値が不足している旨を示す音声発話ＳＯ３を出力部１８０に出力させている。

　また、図１４には、本実施形態に係る情報処理装置１０が自動運転車である場合の一例が示されている。この際、設計者Ｄ１は、まず、所定の環境状態（シーン）ごとに目的動作を設定する。図１４に示す一例の場合、設計者Ｄ１は、環境状態Ｓ１～Ｓ３に対して、それぞれ時速を設定している。

　次に、比率計算部１３０は、設定された目的動作（時速）を実現するための重みＷｎを計算し、行動価値計算部１４０は、重みＷｎに基づいて第２の行動価値Ｑを計算する。

　次に、本実施形態に係るフィードバック部１７０は、計算された第２の行動価値Ｑに対応する動作と、設計者が設定した目的動作との合致度を計算し、合致度が閾値を下回る環境状態Ｓに係る動作を抽出し、当該動作に共通する特徴を抽出する。図１４に示す一例の場合、フィードバック部１７０は、環境状態Ｓ２およびＳ３において合致度が下回ることに基づいて、時速２０ｋｍでの走行および時速１０ｋｍでの走行に共通する特徴を抽出する。

　続いて、フィードバック部１７０は、抽出した特徴に基づいて第１の行動価値Ｑｎの不足性に係る通知を出力部１８０に出力させる。図１４に示す一例の場合、フィードバック部１７０は、低速で移動するための第１の行動価値が不足している旨を示す音声発話ＳＯ４を出力部１８０に出力させている。

　このように、本実施形態に係るフィードバック部１７０は、所定環境に対して設定された目的動作を実現する第２の行動価値Ｑが、第１の行動価値Ｑｎから計算不能な場合、第１の行動価値Ｑｎの不足性に係る情報通知を実行させることが可能である。

　本実施形態に係るフィードバック部１７０が有する上記の機能によれば、目的動作を実現するために不足している第１の行動価値Ｑｎの不足を設計者が明確に把握することができ、学習の設計に活用することが可能となる。

　次に、本実施形態に係る第１の行動価値の不足性に係る通知制御の流れについて詳細に説明する。図１５は、本実施形態に係る第１の行動価値の不足性に係る通知制御の流れを示すフローチャートである。

　図１５を参照すると、フィードバック部１７０は、まず、ログ保持部１６０から、環境状態（シーン）ごとに設定された目的動作と、第２の行動価値Ｑを取得する（Ｓ１３０１）。

　次に、フィードバック部１７０は、シーンごとに目的動作と第２の行動価値Ｑとの合致度を計算する（Ｓ１３０２）。

　続いて、フィードバック部１７０は、ステップＳ１３０２において算出した合致度が閾値を下回るシーンが存在するか否かを判定する（Ｓ１３０３）。

　ここで、合致度が閾値を下回るシーンが存在しない場合（Ｓ１３０３：ＮＯ）、フィードバック部１７０は、第１の行動価値Ｑｎに不足性が認められない旨を出力部１８０に通知させる（Ｓ１３０７）。なお、ステップＳ１３０７における通知は必ずしも行われなくてもよい。

　一方、合致度が閾値を下回るシーンが存在する場合（Ｓ１３０３：ＹＥＳ）、フィードバック部１７０は、抽出されたシーンに対応する目的動作に共通する特徴を抽出する（Ｓ１３０４）。

　次に、フィードバック部１７０は、ステップＳ１３０４において抽出した特徴に基づいて、不足する第１の行動価値Ｑｎを特定する（Ｓ１３０５）。

　次に、フィードバック部１７０は、ステップＳ１３０５において特定した第１の行動価値Ｑｎの不足性に係る通知を出力部１８０に出力させる（Ｓ１３０６）。

　＜２．ハードウェア構成例＞
　次に、本開示の一実施形態に係る情報処理装置１０のハードウェア構成例について説明する。図１６は、本開示の一実施形態に係る情報処理装置１０のハードウェア構成例を示すブロック図である。図１６を参照すると、情報処理装置１０は、例えば、プロセッサ８７１と、ＲＯＭ８７２と、ＲＡＭ８７３と、ホストバス８７４と、ブリッジ８７５と、外部バス８７６と、インターフェース８７７と、入力装置８７８と、出力装置８７９と、ストレージ８８０と、ドライブ８８１と、接続ポート８８２と、通信装置８８３と、を有する。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ここで示される構成要素以外の構成要素をさらに含んでもよい。

　（プロセッサ８７１）
　プロセッサ８７１は、例えば、演算処理装置又は制御装置として機能し、ＲＯＭ８７２、ＲＡＭ８７３、ストレージ８８０、又はリムーバブル記録媒体９０１に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。

　（ＲＯＭ８７２、ＲＡＭ８７３）
　ＲＯＭ８７２は、プロセッサ８７１に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。ＲＡＭ８７３には、例えば、プロセッサ８７１に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。

　（ホストバス８７４、ブリッジ８７５、外部バス８７６、インターフェース８７７）
　プロセッサ８７１、ＲＯＭ８７２、ＲＡＭ８７３は、例えば、高速なデータ伝送が可能なホストバス８７４を介して相互に接続される。一方、ホストバス８７４は、例えば、ブリッジ８７５を介して比較的データ伝送速度が低速な外部バス８７６に接続される。また、外部バス８７６は、インターフェース８７７を介して種々の構成要素と接続される。

　（入力装置８７８）
　入力装置８７８には、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力装置８７８としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ（以下、リモコン）が用いられることもある。また、入力装置８７８には、マイクロフォンなどの音声入力装置が含まれる。

　（出力装置８７９）
　出力装置８７９は、例えば、ＣＲＴ（Ｃａｔｈｏｄｅ　Ｒａｙ　Ｔｕｂｅ）、ＬＣＤ、又は有機ＥＬ等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。また、本開示に係る出力装置８７９は、触覚刺激を出力することが可能な種々の振動デバイスを含む。

　（ストレージ８８０）
　ストレージ８８０は、各種のデータを格納するための装置である。ストレージ８８０としては、例えば、ハードディスクドライブ（ＨＤＤ）等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。

　（ドライブ８８１）
　ドライブ８８１は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体９０１に記録された情報を読み出し、又はリムーバブル記録媒体９０１に情報を書き込む装置である。

　（リムーバブル記録媒体９０１）
リムーバブル記録媒体９０１は、例えば、ＤＶＤメディア、Ｂｌｕ－ｒａｙ（登録商標）メディア、ＨＤ　ＤＶＤメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体９０１は、例えば、非接触型ＩＣチップを搭載したＩＣカード、又は電子機器等であってもよい。

　（接続ポート８８２）
　接続ポート８８２は、例えば、ＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）ポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ（Ｓｍａｌｌ　Ｃｏｍｐｕｔｅｒ　Ｓｙｓｔｅｍ　Ｉｎｔｅｒｆａｃｅ）、ＲＳ－２３２Ｃポート、又は光オーディオ端子等のような外部接続機器９０２を接続するためのポートである。

　（外部接続機器９０２）
　外部接続機器９０２は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はＩＣレコーダ等である。

　（通信装置８８３）
　通信装置８８３は、ネットワークに接続するための通信デバイスであり、例えば、有線又は無線ＬＡＮ、Ｂｌｕｅｔｏｏｔｈ（登録商標）、又はＷＵＳＢ（Ｗｉｒｅｌｅｓｓ　ＵＳＢ）用の通信カード、光通信用のルータ、ＡＤＳＬ（Ａｓｙｍｍｅｔｒｉｃ　Ｄｉｇｉｔａｌ　Ｓｕｂｓｃｒｉｂｅｒ　Ｌｉｎｅ）用のルータ、又は各種通信用のモデム等である。

　＜３．まとめ＞
　以上説明したように、本開示の一実施形態に係る情報処理装置１０は、動作部１５０の振る舞いを決定する行動価値を計算する行動価値計算部１４０を備える。また、行動価値計算部１４０は、異なる報酬に基づいて学習された複数の第１の行動価値と、取得された目的変化要因と、に基づいて、動作部１５０に入力する第２の行動価値を動的に計算することを特徴の一つとする。また、本開示の一実施形態に係る情報処理装置１０は、異なる報酬に基づいて学習された複数の行動価値に基づく動的な振る舞いを行う動作部１５０の動作に関し、複数の上記行動価値に係る過不足を判定し、当該過不足に係る情報通知を制御するフィードバック部１７０を備える。係る構成によれば、目的の変更に追従した最適な動作を実現することが可能となる。

　以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

　また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

　また、コンピュータに内蔵されるＣＰＵ、ＲＯＭおよびＲＡＭなどのハードウェアに、情報処理装置１０が有する構成と同等の機能を発揮させるためのプログラムも作成可能であり、当該プログラムを記録した、コンピュータに読み取り可能な記録媒体も提供され得る。

　また、本明細書の情報処理装置１０の処理に係る各ステップは、必ずしもフローチャートに記載された順序に沿って時系列に処理される必要はない。例えば、情報処理装置１０の処理に係る各ステップは、フローチャートに記載された順序と異なる順序で処理されても、並列的に処理されてもよい。

　なお、以下のような構成も本開示の技術的範囲に属する。
（１）
　動作部の振る舞いを決定する行動価値を計算する行動価値計算部、
　を備え、
　前記行動価値計算部は、異なる報酬に基づいて学習された複数の第１の行動価値と、取得された目的変化要因と、に基づいて、前記動作部に入力する第２の行動価値を動的に計算する、
情報処理装置。
（２）
　前記行動価値計算部は、前記目的変化要因に基づいて決定された比率に基づいて、複数の前記第２の行動価値を動的に計算する、
前記（１）に記載の情報処理装置。
（３）
　前記行動価値計算部は、前記目的変化要因に基づいて決定された複数の前記第１の行動価値ごとの重みに基づいて、複数の前記第１の行動価値を足し合わせることで前記第２の行動価値を動的に計算する、
前記（１）または（２）に記載の情報処理装置。
（４）
　前記目的変化要因は、ユーザにより与えられる目的変更指示を含む、
前記（１）～（３）のいずれかに記載の情報処理装置。
（５）
　前記目的変化要因は、前記動作部の動作環境の変化を含む、
前記（１）～（４）のいずれかに記載の情報処理装置。
（６）
　前記目的変化要因は、コンテクストから推定される所定環境に前記動作環境が一致したこと、を含む、
前記（５）のいずれかに記載の情報処理装置。
（７）
　前記目的変化要因は、ユーザが目的動作を設定した所定環境に前記動作環境が一致したこと、を含む、
前記（５）または（６）に記載の情報処理装置。
（８）
　前記第２の行動価値と推定された動作環境とに基づいて振る舞いを動的に変化させる動作部、
　をさらに含む、
前記（１）～（７）のいずれかに記載の情報処理装置。
（９）
　前記動作部は、前記目的変化要因に基づいて前記第２の行動価値が変化した場合、前記目的変化要因と、前記第２の行動価値に基づいて変化する振る舞いとに係る情報をユーザに対し通知させる、
前記（８）に記載の情報処理装置。
（１０）
　取得された前記目的変化要因に基づいて、前記第２の行動価値の計算に用いられる比率を計算する比率計算部、
　をさらに含む、
前記（１）～（９）のいずれかに記載の情報処理装置。
（１１）
　異なる報酬に基づいて学習された複数の行動価値に基づく動的な振る舞いを行う動作部の動作に関し、複数の前記行動価値に係る過不足を判定し、前記過不足に係る情報通知を制御するフィードバック部、
　を備える、
情報処理装置。
（１２）
　前記動作部は、異なる報酬に基づいて学習された複数の第１の行動価値と、取得された環境に応じて決定された前記第１の行動価値ごとの重みと、に基づいて動的に計算された第２の行動価値に基づいて前記振る舞いを実行し、
　前記フィードバック部は、前記第２の行動価値に係る計算結果に基づいて、複数の前記第１の行動価値に係る過不足を判定する、
前記（１１）に記載の情報処理装置。
（１３）
　前記フィードバック部は、所定環境に対して設定された目的動作を実現する前記第２の行動価値が、複数の前記第１の行動価値から計算不能な場合、前記第１の行動価値の不足性に係る情報通知を実行させる、
前記（１２）に記載の情報処理装置。
（１４）
　前記フィードバック部は、前記所定環境に対応する前記目的動作と、前記所定環境において計算された前記第２の行動価値との合致度を計算し、前記合致度が閾値を下回る場合、前記第１の行動価値の不足性に係る情報通知を実行させる、
前記（１３）に記載の情報処理装置。
（１５）
　前記フィードバック部は、前記合致度が閾値を下回る前記所定環境に基づいて、不足する前記第１の行動価値を特定し、特定した前記第１の行動価値の不足性に係る情報通知を実行させる、
前記（１４）に記載の情報処理装置。
（１６）
　前記フィードバック部は、前記合致度が閾値を下回る複数の前記所定環境に対応する複数の前記目的動作に共通する特徴を抽出し、前記特徴に基づいて不足する前記第１の行動価値を特定する、
前記（１５）に記載の情報処理装置。
（１７）
　前記フィードバック部は、複数の別の前記第１の行動価値の組み合わせで表現可能な前記第１の行動価値を検出した場合、検出された前記第１の行動価値の過剰性に係る情報通知を実行させる、
前記（１２）～（１６）のいずれかに記載の情報処理装置。
（１８）
　前記フィードバック部は、複数の前記第１の行動価値と前記重みとに基づいて、複数の前記第１の行動価値の間の類似度を計算し、前記類似度が閾値を上回る前記第１の行動価値を検出した場合、検出された前記第１の行動価値の過剰性に係る情報通知を実行させる、
前記（１７）に記載の情報処理装置。
（１９）
　プロセッサが、動作部の振る舞いを決定する行動価値を計算すること、
　を含み、
　前記計算することは、異なる報酬に基づいて学習された複数の第１の行動価値と、取得された目的変化要因と、に基づいて、前記動作部に入力する第２の行動価値を動的に計算すること、
　をさらに含む、
情報処理方法。
（２０）
　プロセッサが、異なる報酬に基づいて学習された複数の行動価値に基づく動的な振る舞いを行う動作部の動作結果に基づいて、複数の前記行動価値に係る過不足を判定し、前記過不足に係る情報通知を制御すること、
　を含む、
情報処理方法。

　１０　　　情報処理装置
　１１０　　強化学習部
　１２０　　環境取得部
　１３０　　比率計算部
　１４０　　行動価値計算部
　１５０　　動作部
　１６０　　ログ保持部
　１７０　　フィードバック部
　１８０　　出力部

Claims

　動作部の振る舞いを決定する行動価値を計算する行動価値計算部、
　を備え、
　前記行動価値計算部は、異なる報酬に基づいて学習された複数の第１の行動価値と、取得された目的変化要因と、に基づいて、前記動作部に入力する第２の行動価値を動的に計算する、
情報処理装置。
　前記行動価値計算部は、前記目的変化要因に基づいて決定された比率に基づいて、複数の前記第２の行動価値を動的に計算する、
請求項１に記載の情報処理装置。
　前記行動価値計算部は、前記目的変化要因に基づいて決定された複数の前記第１の行動価値ごとの重みに基づいて、複数の前記第１の行動価値を足し合わせることで前記第２の行動価値を動的に計算する、
請求項１に記載の情報処理装置。
　前記目的変化要因は、ユーザにより与えられる目的変更指示を含む、
請求項１に記載の情報処理装置。
　前記目的変化要因は、前記動作部の動作環境の変化を含む、
請求項１に記載の情報処理装置。
　前記目的変化要因は、コンテクストから推定される所定環境に前記動作環境が一致したこと、を含む、
請求項５に記載の情報処理装置。
　前記目的変化要因は、ユーザが目的動作を設定した所定環境に前記動作環境が一致したこと、を含む、
請求項５に記載の情報処理装置。
　前記第２の行動価値と推定された動作環境とに基づいて振る舞いを動的に変化させる動作部、
　をさらに含む、
請求項１に記載の情報処理装置。
　前記動作部は、前記目的変化要因に基づいて前記第２の行動価値が変化した場合、前記目的変化要因と、前記第２の行動価値に基づいて変化する振る舞いとに係る情報をユーザに対し通知させる、
請求項８に記載の情報処理装置。
　取得された前記目的変化要因に基づいて、前記第２の行動価値の計算に用いられる比率を計算する比率計算部、
　をさらに含む、
請求項１に記載の情報処理装置。
　異なる報酬に基づいて学習された複数の行動価値に基づく動的な振る舞いを行う動作部の動作に関し、複数の前記行動価値に係る過不足を判定し、前記過不足に係る情報通知を制御するフィードバック部、
　を備える、
情報処理装置。
　前記動作部は、異なる報酬に基づいて学習された複数の第１の行動価値と、取得された環境に応じて決定された前記第１の行動価値ごとの重みと、に基づいて動的に計算された第２の行動価値に基づいて前記振る舞いを実行し、
　前記フィードバック部は、前記第２の行動価値に係る計算結果に基づいて、複数の前記第１の行動価値に係る過不足を判定する、
請求項１１に記載の情報処理装置。
　前記フィードバック部は、所定環境に対して設定された目的動作を実現する前記第２の行動価値が、複数の前記第１の行動価値から計算不能な場合、前記第１の行動価値の不足性に係る情報通知を実行させる、
請求項１２に記載の情報処理装置。
　前記フィードバック部は、前記所定環境に対応する前記目的動作と、前記所定環境において計算された前記第２の行動価値との合致度を計算し、前記合致度が閾値を下回る場合、前記第１の行動価値の不足性に係る情報通知を実行させる、
請求項１３に記載の情報処理装置。
　前記フィードバック部は、前記合致度が閾値を下回る前記所定環境に基づいて、不足する前記第１の行動価値を特定し、特定した前記第１の行動価値の不足性に係る情報通知を実行させる、
請求項１４に記載の情報処理装置。
　前記フィードバック部は、前記合致度が閾値を下回る複数の前記所定環境に対応する複数の前記目的動作に共通する特徴を抽出し、前記特徴に基づいて不足する前記第１の行動価値を特定する、
請求項１５に記載の情報処理装置。
　前記フィードバック部は、複数の別の前記第１の行動価値の組み合わせで表現可能な前記第１の行動価値を検出した場合、検出された前記第１の行動価値の過剰性に係る情報通知を実行させる、
請求項１２に記載の情報処理装置。
　前記フィードバック部は、複数の前記第１の行動価値と前記重みとに基づいて、複数の前記第１の行動価値の間の類似度を計算し、前記類似度が閾値を上回る前記第１の行動価値を検出した場合、検出された前記第１の行動価値の過剰性に係る情報通知を実行させる、
請求項１７に記載の情報処理装置。
　プロセッサが、動作部の振る舞いを決定する行動価値を計算すること、
　を含み、
　前記計算することは、異なる報酬に基づいて学習された複数の第１の行動価値と、取得された目的変化要因と、に基づいて、前記動作部に入力する第２の行動価値を動的に計算すること、
　をさらに含む、
情報処理方法。
　プロセッサが、異なる報酬に基づいて学習された複数の行動価値に基づく動的な振る舞いを行う動作部の動作結果に基づいて、複数の前記行動価値に係る過不足を判定し、前記過不足に係る情報通知を制御すること、
　を含む、
情報処理方法。