WO2018105412A1

WO2018105412A1 - 情報処理装置および方法、並びにプログラム

Info

Publication number: WO2018105412A1
Application number: PCT/JP2017/042153
Authority: WO
Inventors: 由幸小林; 泰史田中; 慎吾高松; 淳史野田
Original assignee: ソニー株式会社
Priority date: 2016-12-07
Filing date: 2017-11-24
Publication date: 2018-06-14
Also published as: EP3553711A4; US20200012237A1; US10795326B2; EP3553711A1

Abstract

本開示は、システムに人をコントロールする方法を効率的に学習させることができるようにする情報処理装置および方法、並びにプログラムに関する。制御学習システムは、入力されたコントロール対象の目的状態と、コントロール対象のセンシング結果に基づくコントロール対象の状態とに基づいて、報酬を算出する。制御学習システムは、算出された報酬とコントロール対象の状態とを用いて強化学習することで、コントロール対象を、目的状態に近づけるためのよりよいアクションを選択する。制御学習システムは、選択されたアクションを、コントロール対象に対して実行する。本開示は、例えば、端末とクラウドシステムとからなる制御学習システムに適用することができる。

Description

情報処理装置および方法、並びにプログラム

　本開示は、情報処理装置および方法、並びにプログラムに関し、特に、システムに人をコントロールする方法を効率的に学習させることができる情報処理装置および方法、並びにプログラムに関する。

　強化学習は、システム（ロボットなど）が、自分で賢い動きができるように、状態Ｓを観測して、他人も含め、自分以外のすべての環境から得られる報酬Ｒが高くなるように、環境に対してアクションＡを行う学習方法である（非特許文献１参照）。

Hado van Hasselt, Arthur Guez, David Silver,"Deep Reinforcement Learning with Double Q-learning".[online].22 Sep 2015.[平成28年11月25日検索].https://arxiv.org/abs/1509.06461

　いま、自分や他人をコントロールしたいといった要求がある。しかしながら、いままでの強化学習は、あくまでもシステムを賢く動作させるものであった。また、人間が人のコントロールに割ける労力には限界があった。

　本開示は、このような状況に鑑みてなされたものであり、システムに人をコントロールする方法を効率的に学習させることができるものである。

　本技術の一側面の情報処理装置は、入力されたコントロール対象の目的状態と、前記コントロール対象のセンシング結果に基づくコントロール対象の状態とに基づいて、報酬を算出する報酬算出部と、前記報酬算出部により算出された報酬と前記コントロール対象の状態とを用いて強化学習することで、前記コントロール対象を、前記目的状態に近づけるためのよりよいアクションを選択する強化学習部と、前記強化学習部により選択されたアクションを、前記コントロール対象に対して実行するアクション実行部とを備える。

　前記コントロール対象に対して行われたアクションの因果分析を行う因果分析部と、前記因果分析部により因果分析が行われた結果、前記コントロール対象を、前記目的状態に近づけるためのよりよいアクションを追加するアクション追加部とをさらに備えることができる。

　前記アクション追加部による前記アクションの追加に関することを通知する通知部をさらに備えることができる。

　前記アクション追加部により前記アクションが追加された後に、前記通知部は、前記アクション追加部による前記アクションの追加の完了を通知することができる。

　前記通知部は、前記アクション追加部による前記アクションの追加の推薦を通知し、前記通知に対して前記アクションの追加が指示された場合、前記アクション追加部は、前記コントロール対象を、前記目的状態に近づけるためのよりよいアクションを追加することができる。

　前記コントロール対象の目的状態をより細かい目的に分解する分解部をさらに備えることができる。

　前記アクション実行部により実行されたアクションの履歴を登録するアクション実行履歴DBをさらに備えることができる。

　画像の入力により、前記コントロール対象の目的状態を認識する入力受け付け部をさらに備えることができる。

　前記コントロール対象をセンシングするセンサ部をさらに備えることができる。

　前記コントロール対象に対して行われたアクションを入力するアクション入力部をさらに備える。

　本技術の一側面の情報処理方法は、情報処理装置が、入力されたコントロール対象の目的状態と、前記コントロール対象のセンシング結果に基づくコントロール対象の状態とに基づいて、報酬を算出し、算出された報酬と前記コントロール対象の状態とを用いて強化学習することで、前記コントロール対象を、前記目的状態に近づけるためのよりよいアクションを選択し、選択されたアクションを、前記コントロール対象に対して実行する。

　本技術の一側面のプログラムは、入力されたコントロール対象の目的状態と、前記コントロール対象のセンシング結果に基づくコントロール対象の状態とに基づいて、報酬を算出する報酬算出部と、前記報酬算出部により算出された報酬と前記コントロール対象の状態とを用いて強化学習することで、前記コントロール対象を、前記目的状態に近づけるためのよりよいアクションを選択する強化学習部と、前記強化学習部により選択されたアクションを、前記コントロール対象に対して実行するアクション実行部として、コンピュータを機能させる。

　本技術の一側面においては、入力されたコントロール対象の目的状態と、前記コントロール対象のセンシング結果に基づくコントロール対象の状態とに基づいて、報酬が算出され、算出された報酬と前記コントロール対象の状態とを用いて強化学習することで、前記コントロール対象を、前記目的状態に近づけるためのよりよいアクションが選択される。そして、選択されたアクションが、前記コントロール対象に対して実行される。

　本技術によれば、特に、システムに人をコントロールする方法を効率的に学習させることができる。

　なお、本明細書に記載された効果は、あくまで例示であり、本技術の効果は、本明細書に記載された効果に限定されるものではなく、付加的な効果があってもよい。

本技術を適用した制御学習システムについて説明する図である。制御学習システムの詳細な構成例を示すブロック図である。目的状態の設定について説明する図である。目的の分解に用いられるデータセットの例を示す図である。目的の分解について説明する図である。アクションの実行について説明する図である。ユーザ状態の監視について説明する図である。強化学習について説明する図である。負の報酬の例を説明する図である。制御学習コントロールシステムの制御学習処理を説明するフローチャートである。本技術を適用したパーソナルコンピュータの例を示すブロック図である。本技術を適用したクラウドサービスの例を示す図である。

　以下、本開示を実施するための形態（以下実施の形態とする）について説明する。なお、説明は以下の順序で行う。
１．第１の実施の形態（システム構成）
２．第２の実施の形態（機器構成）

＜１.第１の実施の形態＞
　＜制御学習システムの構成例＞
　図１は、本技術を適用した制御学習システムについて説明する図である。

　図１の例において、ユーザ２は、制御学習システム１を用いて、コントロール対象３をコントロールする。制御学習システム１は、例えば、ロボットや家電、多機能携帯電話機などの端末とクラウドサービスなどで構成される。コントロール対象３は、自分自身、または上司、部下、子ども、介護必要な老人、周囲の人などの他人である。なお、コントロール対象３としては、人のコントロールに限らず、ペットや植物、害虫などであってもよい。

　ユーザ２は、コントロール対象３である人（自分、他人）と、そのコントロール対象３をどのようにコントロールしたいかを示す目的状態の設定を、矢印Ａ１に示されるように、制御学習システム１に入力する。

　制御学習システム１は、ユーザ２が設定した目的状態を実現すべく、矢印Ａ２に示されるように、アクションを実行する。アクションとしては、例えば、発話、音や映像の再生、メッセージ送信、アプリケーション起動などがあげられる。制御学習システム１は、矢印Ａ３に示されるようにユーザ２の状態を監視する。また、制御学習システム１は、矢印Ａ４に示されるように、コントロール対象３の状態である対象状態をセンシングする。

　そして、制御学習システム１は、Ａ５に示されるように、ユーザ２の発話などを通して、強化学習を用い、コントロール対象３の状態に対して、どのようなアクションを行うと、コントロール対象３がユーザ２の設定した目的状態に近づけることができるのかを学習する。

　強化学習は、状態Ｓにおいて与えられた報酬Ｒを最大化するよう、機械（システム）自らが行動Ａを学習する学習方法である。図１の例においては、制御学習システム１は、制御学習システム１からの発話などに対して、コントロール対象３を意のままにコントロールするアルゴリズムを自動的に獲得する。すなわち、ここでは、「人を設定どおりにコントロールできたかどうか」＝報酬Ｒであり、「制御学習システム１からの発話など」＝アクションＡである。

　学習が進むと、制御学習システム１は、コントロール対象３をより効果的に目的状態に近づけるアクションを選択（自動追加、自動推薦）し、実行するようになっていく。

　以上のように、図１の制御学習システム１においては、強化学習を用いることで、制御学習システム１が自動的に、コントロール対象３のコントロール方法を獲得することができる。これにより、人とシステムが協調しながら、効率よく人をコントロールする方法を制御学習システム１に学習させることができる。

　図２は、制御学習システムの詳細な構成例を示している。

　図２の例においては、制御学習システム１は、入力部１１、出力部１２、センサ部１３、およびアクション実行部１４、コントロール設定入力部３１、分解部３２、コントロール設定DB３３、アクション追加入力部３４、アクション設定DB３５対象状態センシング部３６、報酬算出部３７、強化学習部３８、アクション制御部３９、アクション実行履歴DB４０、因果分析部４１、分析結果DB４２、フィードバック部４３、およびマニュアル実行要求入力部４４を含むように構成される。

　なお、制御学習システム１は、例えば、ロボットや家電、多機能携帯電話機などの端末だけで構成されてもよいし、端末とクラウドシステムとで構成されてもよい。複数で構成される場合、各装置には、ネットワークに接続される送信部、受信部が備えられ、操作入力部１１、出力部１２、センサ部１３、およびアクション実行部１４さえ端末側に構成されていれば、他の各部は、端末側であってもよいし、クラウドサービス側であってもよい。なお、制御学習システム１は、端末、ホームサーバ、クラウドシステムで構成されてもよい。この場合も、操作入力部１１、出力部１２、センサ部１３、およびアクション実行部１４さえ端末側に構成されていれば、他の各部は、端末側であってもよいし、ホームサーバ側であってもよいし、クラウドサービス側であってもよいが、各DBは、クラウドシステム側に備えられるのが好ましい。

　入力部１１は、タッチパネル、マウス、キーボード、マイクロホン、またはカメラなどで構成される。入力部１１は、画像や音声などから得られるユーザの行動（操作や発話）に対応して、コントロール設定入力（コントロール対象３、目標状態、達成日時、アクション、頻度、コストなど）をコントロール設定入力部３１に入力する。

　入力部１１は、ユーザの操作や発話、動きに対応して、アクション追加を、アクション追加入力部３４に入力する。入力部１１は、ユーザの操作や発話に対応して、マニュアル実行をマニュアル実行要求入力部４４に入力する。

　出力部１２は、LCDやスピーカなどで構成され、目標状態の操作画面やフィードバック部４３からのアクション実行の報告などが表示されたり、その報告に対応する音声が出力される。

　センサ部１３は、カメラや各種センサ（触覚センサ、加速度センサ、ジャイロ、マイクロホン）などで構成される。センサ部１３は、コントロール対象３の状態をセンシングし、センシング結果を、対象状態センシング部３６に供給する。

　アクション実行部１４は、コントロール対象３に対して、アクションを実行する。アクション実行部１４は、例えば、言語を話したり、映像を再生したり、音楽や音を鳴らしたり、メッセージを送信したり、他のアプリケーションを実行したりする。

　コントロール設定入力部３１は、ユーザ２により設定されたコントロール対象３と目標状態を受け取り、分解部３２またはコントロール設定DB３３に供給する。分解部３２は、コントロール対象３の特徴や目的状態に基づいて、目的状態を分解し、コントロール対象３と分解した目的状態とをコントロール設定DB３３に登録する。

　コントロール設定DB３３は、コントロール設定入力部３１または分解部３２からのコントロール対象３の特徴や目的状態と、それに対応して、アクション追加入力部３４からの追加されたアクションとを対応させて記憶する。

　アクション追加入力部３４は、入力部１１、または、因果分析部４１による因果分析後の分析結果DB４２からのアクション追加を、コントロール設定DB３３、アクション設定DB３５、および因果分析部４１に供給する。アクション設定DB３５は、アクション追加入力部３４からのアクション追加を記憶する。

　対象状態センシング部３６は、センサ部１３からのセンシング情報に基づく状態Ｓを報酬算出部および強化学習部３８に供給する。報酬算出部３７は、対象状態センシング部３６からの状態Ｓとコントロール設定DB３３に記憶されているコントロール対象３の特徴と目的状態に基づいて報酬Ｒを算出する。強化学習部３８は、報酬算出部３７により算出された報酬Ｒと対象状態センシング部３６からの状態Ｓとを用いて、強化学習を行い、よりよいと選択されたアクションＡをアクション制御部３９に供給する。

　アクション制御部３９は、強化学習部３８からのアクションＡ、アクション設定DB３５から読み出されたアクション、または、マニュアル実行要求入力部４４からのマニュアル実行要求に応じて、アクション実行部１４のアクションを制御する。また、アクション制御部３９は、アクションの実行履歴（アクションとその結果）を、アクション実行履歴DB４０に登録する。

　アクション実行履歴DB４０は、アクション制御部３９によりアクションの実行履歴が登録される。なお、同じアクションでもユーザ毎にフラグをつけるようにしてもよい。また、アクションの頻度をコントロール可能にすることもできる。

　因果分析部４１は、アクション追加入力部３４からのアクション、またはアクション実行履歴DB４０のアクションの実行履歴（アクションとその結果）から因果分析を行い、分析結果DB４２に登録させる。因果分析の手法としては、Max-min Hill Climbingまたは対象変数を除いて精度を見る方法があげられる。分析結果DB４２は、因果分析の結果を登録し、効果のあるアクションの追加を、アクション追加入力部３４に供給する。

　フィードバック部４３は、分析結果DB４２からの分析結果と、アクション実行履歴DB効果のあるアクションの通知やユーザへの推薦を出力部１２に出力する。

　マニュアル実行要求入力部４４は、ユーザ２により入力部１１を介して入力されるアクションのマニュアル実行要求を受付、アクション制御部３９に指示する。

　＜目的状態の設定＞
　以下、制御学習システム１の詳細について説明する。まず、上述した図１の矢印Ａ１で示された目的状態の設定について説明する。

　図３は、コントロール対象３に対しての目的状態を設定する設定画面の例である。

　例えば、ユーザ２は、コントロール対象３の画像（写真）を撮るなどして、出力部１２に表示される設定画面５１を見ながら、撮像した画像（コントロール対象３とその目的状態）を、制御学習システム１に入力する。

　設定画面５１には、目的状態として、「画像（赤ちゃんが寝ている）」が示され、達成日時として、「３時間毎に２時間以上継続」が示され、アクションとして、「発話、音楽」が示され、頻度として、「最大２０回／日」が示され、コストとして、「１００円／日」であることが示されている。設定画面５１の下部に設けられた追加ボタンを押すことで、ユーザ２は、これらの情報を目的状態として追加することができる。

　ここで、画像は、非常に少ないデータから適切な認識機の学習を可能にする機械学習のテクニックであるOne shot-learning技術により、ユーザ２は、１枚乃至数枚の写真（画像）を撮ることで、コントロール対象３の目的状態を制御学習システム１に入力することができる。

　設定画面５１においては、達成日時は、毎週（設定したい曜日）、毎日、達成したい時間、期間などから設定可能としてもよい。また、実行するアクションの種類、許容するコスト（有料API利用時など）、アクションの頻度も一日一回など設定可能とされる。

　さらに、ユーザ２は、例えば、「娘が３時間毎に２時間は寝るようにコントロール、アクションは、音楽か声かけ（発話）で、1日２０回まで」。「図書館では、静かにするようにコントロール」など発話により目的状態を設定してもよい。また、ユーザ２は、画像と発話の組み合わせにより目的状態を設定してもよい。

　また、他のユーザが作成したレシピから選択するようにしてもよい。なお、レシピとは、個人作成もしくは公に共有しているプロフィールであり、IFTTTなどのWebサービスで用いられている。また、達成までにステップ（段階）が必要なタスク（勉強など）は、分解部３２により、細かいタスクへ分解するようにしてもよい（例えば、試験に合格→毎日勉強など）。

　この場合、設計時に、図４に示されるような、目的と分解後の目的からなるテーブルがデータセット６１として用意される。例えば、目的が、○○試験に合格の場合、分解後の目的が毎日○○分勉強であるデータと、目的がダイエットで○○kg痩せるの場合、分解後の目的が毎日○○分運動であるデータからなるデータセット６１が用意されている。

　また、設計時に、図５に示されるように、分解部３２は、（目的＋コントロール対象３の特徴）７１を入力し、データセット６１を元に学習して分解後の目的７２を作成し、出力する。

　そして、運用時に、分解部３２は、｛ユーザ２の目的（子どもの歯磨きを習慣化したい）とコントロール対象３の特徴（３食に２回歯磨き、１回あたりに２０秒）｝７３を入力すると、学習されたデータセット６１を用いて分解を行い、分解後の目的（毎食後歯磨き１回あたり１分以上）７４を出力する。

　以上のようにして、目的の分解が行われる。

　＜アクションの実行＞
　次に、上述した図１の矢印Ａ２で示されたアクションの実行について説明する。

　制御学習システム１のアクション制御部３９（アクション実行部１４）は、図６に示されるように、コントロール対象３に対して、登録されている各種アクションとして、「眠くなってきたねー」などの発話８１や、「シューベルトの子守歌」などのコンテンツ再生８２を実行する。なお、図６の例においては、制御学習システム１は、ロボット（ロボット＋クラウドシステム）である例が示されている。

　最初は、ランダムに近い実行となるが、強化学習部３８による強化学習が進むと次第に目的状態達成のために効果の高いアクションが、効果の高いタイミングで実行されるようになっていく。

　制御学習システム１が目的達成のために行うアクションには、例えば、発話、コンテンツ再生（音楽、静止画、動画、本の読み上げなど）、物理動作（ロボット動作、振動、触覚再現など）、嗅覚の刺激（アロマなど）、メッセージ送信、アプリ起動、外部APIのキック、空調などの外部システムのコントロールなどがある。

　制御学習システム１が実行可能なアクションには、予めプリセットされているものの他、アクション追加入力部３４によりユーザが自由に登録したもの、マニュアル実行要求入力部４４によりユーザがマニュアル実行したものを含めることができる。これらのマニュアル実行やアクション追加は、発話によって行われてもよい。例えば、「今度、「おやすみなさい」というのも試してみて」という発話によって、「おやすみなさい」という発話がアクションとしてと登録される。

　＜ユーザ状態の監視＞
　次に、上述した図１の矢印Ａ３で示されたユーザ状態の監視について説明する。

　制御学習システム１は、ユーザ２や他の人、制御学習システム１がコントロール対象３に行っているアクションとその効果を監視し、それを自分のアクションとして取り込む。

　具体的には、図７の矢印Ｐ１に示されるように、ロボットである制御学習システム１は、ユーザ２がコントロール対象３に対して行っている発話「そろそろねんねしよっか～」とその効果を、様々な認識技術（画像認識、音声認識）で監視する。

　因果分析部４１は、矢印Ｐ２に示されるように、そのアクションと効果を用いて因果分析を行い、分析結果９１を分析結果DB４２に登録する。この際、制御学習システム１が代理実行可能なアクションを因果分析対象とする。分析結果９１においては、アクション「私も眠いな…」の分析結果は、「効果あり」で、アクション「おばけが出るよ」の分析結果は、「効果なし」で、アクション「いないいないばぁ～」の分析結果は、「逆効果」で、アクション「もう寝てよ…（泣）」の分析結果は、「逆効果」である。

　これらの分析結果のうち、「効果あり」や「効果が高い」と分析されたアクションについては、矢印Ｐ３に示されるように、アクション追加入力部３４により自動追加され、「発話：「私も眠いな…」をアクションとして自動追加しました」という通知９２がフィードバック部４３により出力部１２になされるようにすることができる。

　あるいは、「発話：「私も眠いな…」が、効果が高いことが確認されました。新しいアクションとして追加しますか？」とういう推薦９３がフィードバック部４３により出力部１２になされるようにしてもよい。この場合、推薦９３に設けられている「はい」ボタンを押すことで、「私も眠いな…」のアクションが登録される。

　なお、アクションについての表示としては、人が実行する（すなわち、システムではなく、人が実行するとよい）アクションを推薦するようにしてもよい。また、自動実行アクション一覧表示が表示されるようにし、アクションごとにON/OFFを設定できるようにしてもよい。

　＜強化学習＞
　次に、上述した図１の矢印Ａ４およびＡ５で示された強化学習について説明する。

　制御学習システム１は、コントロール対象３をセンシングし、コントロール対象３が目的状態になったかどうかを報酬とした強化学習を行うことで、意図通りにコントロールする術を徐々に学習していく。

　図８の矢印Ａ４に示されるように、ロボットである制御学習システム１は、対象状態のセンシングを行い、コントロール対象３が目的状態になったことを検出したとき、報酬（Reward）とする。また、Ａ２に示されるように、アクション（発話、音や映像の再生、メッセージ送信、アプリ起動など）を行う。

　具体的には、対象状態センシング部３６は、センサ部１３からのセンシング情報を取得し、それを、状態Ｓとして、報酬算出部３７と強化学習部３８に供給する。センサ部１３は、コントロール対象３に加え、コントロール対象３のおかれている状態（環境や場所）もセンシングする。

　報酬算出部３７は、対象が目的状態になったことを検出し、報酬Ｒとする。報酬算出部３７には、制御学習システム１を安定させるために、予めいくつかの報酬を組み込んでおく。例えば、図９を参照して後述するような負の報酬なども組み込まれる。負の報酬とは、コントロール対象３を不快にした場合の報酬であったり、コントロール対象３がユーザ２や制御学習システム１に対して負の感情を抱いた場合の報酬である。

　コントロール対象と似た対象に対する学習結果を流用し、学習速度を加速、コントロール精度を向上させることができる。なお、その際、Domain AdaptationやTransfer Learningが適用されてもよい。

　また、ユーザの発話（例：「いま、シューベルトの子守歌を再生してみて」）などを、マニュアル実行要求入力部４４が受けることで、意図的に制御学習システム１に特定のアクションを試させることも可能である。

　さらに、制御学習システム１は、アクション実行履歴DB４０に、どのアクションを何時に行ったかの履歴を保持しており、フィードバック部４３は、アクション実行履歴DB４０の履歴をリスト表示や読み上げを行い、ユーザに報告するUIも提供可能である。例えば、「今日は、○時に「私も眠いな」といいました。その３０分後にターゲットは目的状態に達しました」などの報告が行われる。

　図９は、負の報酬の例を説明する図である。

　ユーザ２は、ステップＳ１において、「８時までに旦那に帰ってきてほしい」と発話することで、制御学習システム１に、コントロール対象３「だんな」と目的状態「８時までに帰ってきてほしい」を入力する。

　制御学習システム１の入力部１１、コントロール設定入力部３１、コントロール設定DB３３を介して、報酬算出部３７に、コントロール対象３と目的状態が供給される。報酬算出部３７は、報酬Ｒを算出し、強化学習部３８に供給する。強化学習部３８は、報酬算出部３７からの報酬Ｒと対象状態センシング部３６からの状態Ｓに基づいて学習を行い、アクションＡをアクション制御部３９に供給する。

　ステップＳ２において、アクション制御部３９は、アクションＡ（例えば、「早く帰ってきてね」のメッセージ送信）を行う。

　これに対して、ステップＳ３において、センサ部１３は、コントロール対象３からの、制御学習システム１への反感をセンシングする（例えば、受信メッセージ「仕事中に何度もメッセージを送らないで！」を元に）。

　あるいは、ステップＳ４において、センサ部１３は、コントロール対象３からの、ユーザ２への反感をセンシングする（例えば、「さては、妻が、制御学習システム１を用いて、僕をコントロールしようとしているな？！」などの独り言をセンシングする）。

　以上のようにしてセンシングされた、制御学習システム１への負の感情（反感）、ユーザへの負の感情（反感）を、強化学習部３８は、強化学習の際、負の報酬とする。これにより、制御学習システム１を安定させることができる。

　＜システムの動作＞
　次に、図１０のフローチャートを参照して、制御学習システム１の制御学習処理を説明する。

　ステップＳ１１において、コントロール設定入力部３１は、入力部１１からのコントロール対象３と目的状態の入力を受け取る。受け取られたコントロール対象３と目的状態は、コントロール設定DB３３に登録されるとともに、分解部３２に供給される。

　ステップＳ１２において、分解部３２は、図４および図５を参照して上述したように、目的の分解を行う。分解後の目的は、コントロール設定DB３３に登録される。なお、目的が単純なものであった場合、分解は行われなくてもよい。

　ステップＳ１３において、アクション実行部１４は、アクション制御部３９の制御のもと、アクションを実行する。すなわち、アクション制御部３９は、強化学習部３８からのアクションＡ、アクション設定DB３５から読み出されたアクション、または、マニュアル実行要求入力部４４からのマニュアル実行要求に応じて、アクション実行部１４に、アクションを実行させる。アクション実行後、アクション制御部３９は、アクション実行履歴DB４０にアクションの履歴を登録する。

　ステップＳ１４において、アクション追加入力部３４は、入力部１１から入力される画像、音声、情報（ユーザの操作や発話、動き）に基づいて、ユーザ状態を監視する。

　ステップＳ１５において、対象状態センシング部３６は、コントロール対象３の対象状態をセンシングし、センシングの状態Ｓを報酬算出部３７と強化学習部３８に供給する。

　ステップＳ１６において、強化学習部３８は、ユーザ２の発話などを通して、強化学習を用い、コントロール対象３の状態に対して、どのようなアクションを行うと、コントロール対象３がユーザ２の設定した目的状態に近づけることができるのか、学習を行う。強化学習部３８は、報酬算出部３７により算出された報酬Ｒと対象状態センシング部３６からの状態Ｓとを用いて、強化学習を行い、よりよいと選択されたアクションＡをアクション制御部３９に供給する。

　そして、処理は、ステップＳ１３に戻り、コントロール対象３が目的の状態になるまで、あるいは、ユーザＡにより終了指示が行われるまで、それ以降の処理が繰り返される。

　最初は、ランダムに近い実行となるが、学習が進むと、制御学習システム１は、コントロール対象３をより効果的に目的状態に近づけるアクションを選択（自動追加、自動推薦）し、実行するようになっていく。すなわち、学習が進むと、目的状態達成のために効果の高いアクションが、効果の高いタイミングで実行されるようになっていく。

　以上、本技術によれば、人とシステムが協調しながら、効率よく人をコントロールさせる方法をシステムに学習させることができる。

　なお、本技術は、家電、ロボット、スマートフォンなどの端末に限らず、車両、手術用装置、工場の機械、病院、歯を削る歯科などの装置などにも適用することができる。

＜２.第２の実施の形態＞
　＜パーソナルコンピュータ＞
　上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な汎用のパーソナルコンピュータなどが含まれる。

　図１１は、上述した一連の処理の一部または全部をパーソナルコンピュータで構成する場合のプログラムにより実行するパーソナルコンピュータのハードウエアの構成例を示すブロック図である。

　パーソナルコンピュータ２００において、CPU（Central Processing Unit）２０１、ROM（Read Only Memory）２０２、RAM（Random Access Memory）２０３は、バス２０４により相互に接続されている。

　バス２０４には、さらに、入出力インタフェース２０５が接続されている。入出力インタフェース２０５には、入力部２０６、出力部２０７、記憶部２０８、通信部２０９、及びドライブ２１０が接続されている。

　入力部２０６は、キーボード、マウス、マイクロホンなどよりなる。出力部２０７は、ディスプレイ、スピーカなどよりなる。記憶部２０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部２０９は、ネットワークインタフェースなどよりなる。ドライブ２１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体２１１を駆動する。

　以上のように構成されるパーソナルコンピュータ２００では、CPU２０１が、例えば、記憶部２０８に記憶されているプログラムを、入出力インタフェース２０２及びバス２０４を介して、RAM２０３にロードして実行する。これにより、上述した一連の処理が行われる。

　コンピュータ（CPU２０１）が実行するプログラムは、リムーバブル記録媒体２１１に記録して提供することができる。リムーバブルメディア２１１は、例えば、磁気ディスク（フレキシブルディスクを含む）、光ディスク（CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等）、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディア等である。また、あるいは、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

　コンピュータにおいて、プログラムは、リムーバブル記録媒体２１１をドライブ２１０に装着することにより、入出力インタフェース２０５を介して、記憶部２０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部２０９で受信し、記憶部２０８にインストールすることができる。その他、プログラムは、ROM２０２や記憶部２０８に、あらかじめインストールしておくことができる。

　なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要な段階で処理が行われるプログラムであっても良い。

　また、本明細書において、記録媒体に記録されるプログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。

　また、本明細書において、システムとは、複数のデバイス（装置）により構成される装置全体を表すものである。

　例えば、本開示は、１つの機能を、ネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

　例えば、本技術は、複数の装置により構成されるネットワークシステムにも適用することもできる。図１２は、本技術を適用したネットワークシステムの概略的な構成の一例を示している。

　図１２に示されるネットワークシステム３００は、機器同士が、ネットワークを介して、コントロール対象を制御学習するシステムである。このネットワークシステム３００のクラウドサービス３０１は、自身に通信可能に接続される端末３０２やホームサーバ３０３などと一緒に、コントロール対象を制御学習するサービスを提供するシステムである。例えば、クラウドサービス３０１は、図２の制御学習システム１の点線部分を提供する。その場合、端末３０２は、図１の制御学習システム１の点線以外の入出力部分（操作入力部１１、出力部１２、センサ部１３、およびアクション実行部１４）を提供する。また、例えば、図２の制御学習システム１のコントロール設定入力部３１、分解部３２、コントロール設定DB３３のみは、ホームサーバ３０３に備えられるようにしてもよいし、ホームサーバ３０３はなくてもよい。このように、操作入力部１１、出力部１２、センサ部１３、およびアクション実行部１４さえ端末側に構成されていれば、他の各部は、端末（またはホームサーバ）側であってもよいし、クラウドサービス側であってもよい。なお、図２の制御学習システム１を複数の装置で構成する場合には、図示しないが、各装置には、ネットワークに接続される送信部、受信部が備えられる。

　クラウドサービス３０１の物理構成は任意である。例えば、クラウドサービス３０１は、コントロール対象を制御学習するサービスだけでなく、他のサーバや、インターネットやLAN等の任意のネットワークを有するようにしてもよい。

　端末３０２は、例えば、ロボット、冷蔵庫やエアーコンディショナーなどの家電、家具、テレビジョン受像機、ハードディスクレコーダ、ゲーム機器、カメラ等のAV機器、パーソナルコンピュータ、ノート型パーソナルコンピュータ、タブレット端末、携帯電話機、スマートフォン等のような携帯型の情報処理装置、眼鏡や時計などのウェアラブル機器などで構成される。

　以上のようなネットワークシステム３００に本技術を適用し、端末３０２とクラウドサービス３０１との間でコントロール対象を制御学習するようにすることで、端末３０２だけに負荷がかからず、クラウドサービス３０１のサーバで高速な処理を行うことができるため、ユーザに満足のいくサービスを提供することができる。

　また、クラウドサービス３０１において、ある目的状態のアクションセットを設けて課金したり、コントロール対象数やアクション登録数増で課金したりなどのサービスや、アクションコンテンツに広告を含めるなどのサービス、データ（コントロールニーズデータや人の行動パターンデータなど）を販売するなどのサービスを提供するようにしてもよい。

　なお、以上において、１つの装置（または処理部）として説明した構成を分割し、複数の装置（または処理部）として構成するようにしてもよい。逆に、以上において複数の装置（または処理部）として説明した構成をまとめて１つの装置（または処理部）として構成されるようにしてもよい。また、各装置（または各処理部）の構成に上述した以外の構成を付加するようにしてももちろんよい。さらに、システム全体としての構成や動作が実質的に同じであれば、ある装置（または処理部）の構成の一部を他の装置（または他の処理部）の構成に含めるようにしてもよい。つまり、本技術は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

　以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示はかかる例に限定されない。本開示の属する技術の分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

　なお、本技術は以下のような構成も取ることができる。
　（１）　入力されたコントロール対象の目的状態と、前記コントロール対象のセンシング結果に基づくコントロール対象の状態とに基づいて、報酬を算出する報酬算出部と、
　前記報酬算出部により算出された報酬と前記コントロール対象の状態とを用いて強化学習することで、前記コントロール対象を、前記目的状態に近づけるためのよりよいアクションを選択する強化学習部と、
　前記強化学習部により選択されたアクションを、前記コントロール対象に対して実行するアクション実行部と
　を備える情報処理装置。
　（２）　前記コントロール対象に対して行われたアクションの因果分析を行う因果分析部と、
　前記因果分析部により因果分析が行われた結果、前記コントロール対象を、前記目的状態に近づけるためのよりよいアクションを追加するアクション追加部と
　をさらに備える前記（１）に記載の情報処理装置。
　（３）　前記アクション追加部による前記アクションの追加に関することを通知する通知部を
　さらに備える前記（２）に記載の情報処理装置。
　（４）　前記アクション追加部により前記アクションが追加された後に、
　前記通知部は、前記アクション追加部による前記アクションの追加の完了を通知する
　前記（３）に記載の情報処理装置。
　（５）　前記通知部は、前記アクション追加部による前記アクションの追加の推薦を通知し、
　前記通知に対して前記アクションの追加が指示された場合、前記アクション追加部は、前記コントロール対象を、前記目的状態に近づけるためのよりよいアクションを追加する
　前記（３）に記載の情報処理装置。
　（６）　前記コントロール対象の目的状態をより細かい目的に分解する分解部を
　さらに備える前記（１）乃至（５）のいずれかに記載の情報処理装置。
　（７）　前記アクション実行部により実行されたアクションの履歴を登録するアクション実行履歴DBを
　さらに備える前記（１）乃至（６）のいずれかに記載の情報処理装置。
　（８）　画像の入力により、前記コントロール対象の目的状態を認識する入力受け付け部を
　さらに備える前記（１）乃至（７）のいずれかに記載の情報処理装置。
　（９）　前記コントロール対象をセンシングするセンサ部を
　さらに備える前記（１）乃至（８）のいずれかに記載の情報処理装置。
　（１０）　前記コントロール対象に対して行われたアクションを入力するアクション入力部を
　さらに備える前記（１）乃至（９）のいずれかに記載の情報処理装置。
　（１１）　情報処理装置が、
　入力されたコントロール対象の目的状態と、前記コントロール対象のセンシング結果に基づくコントロール対象の状態とに基づいて、報酬を算出し、
　算出された報酬と前記コントロール対象の状態とを用いて強化学習することで、前記コントロール対象を、前記目的状態に近づけるためのよりよいアクションを選択し、
　選択されたアクションを、前記コントロール対象に対して実行する
　情報処理方法。
　（１２）　振動を行う振動部を振動させるための振動の波形を含む触覚信号に、前記触覚信号を使用する振動部に関する情報が記載されたヘッダが付加された信号が時分割多重化された時分割多重化信号を受信する受信部と、
　前記受信部により受信された時分割多重化信号から、触覚信号とヘッダとを分離する分離部と、
　前記分離部により分離されたヘッダに応じて、前記分離部により分離された触覚信号を信号調整する信号調整部と、
　前記信号調整部により調整された触覚信号に基づく振動を行う前記振動部と
　して、コンピュータを機能させるプログラム。

　１　制御学習システム，　２　ユーザ，　３　コントロール対象，　１１　入力部，　１２　出力部，　１３　センサ部，　１４　アクション実行部，　３１　コントロール設定入力部，　３２　分解部，　３３　コントロール設定DB，　３４　アクション追加入力部，　３５　アクション設定DB，　３６　アクション制御部，　３７　対象状態センシング部，　３８　報酬算出部，　３９　強化学習部，　４０　アクション実行履歴部，　４１　因果分析部，　４２　分析結果DB，　４３　フィードバック部，　４４　マニュアル実行要求入力部，　５１　設定画面，　６１　データセット，　８１　発話，　８２　コンテンツ再生，　９１　分析結果，　９２　通知，　９３　推薦，　２００　パーソナルコンピュータ，　３００　ネットワークシステム，　３０１　クラウドサービス，　３０２　端末，　３０３　ホームサーバ

Claims

　入力されたコントロール対象の目的状態と、前記コントロール対象のセンシング結果に基づくコントロール対象の状態とに基づいて、報酬を算出する報酬算出部と、
　前記報酬算出部により算出された報酬と前記コントロール対象の状態とを用いて強化学習することで、前記コントロール対象を、前記目的状態に近づけるためのよりよいアクションを選択する強化学習部と、
　前記強化学習部により選択されたアクションを、前記コントロール対象に対して実行するアクション実行部と
　を備える情報処理装置。
　前記コントロール対象に対して行われたアクションの因果分析を行う因果分析部と、
　前記因果分析部により因果分析が行われた結果、前記コントロール対象を、前記目的状態に近づけるためのよりよいアクションを追加するアクション追加部と
　をさらに備える請求項１に記載の情報処理装置。
　前記アクション追加部による前記アクションの追加に関することを通知する通知部を
　さらに備える請求項２に記載の情報処理装置。
　前記アクション追加部により前記アクションが追加された後に、
　前記通知部は、前記アクション追加部による前記アクションの追加の完了を通知する
　請求項３に記載の情報処理装置。
　前記通知部は、前記アクション追加部による前記アクションの追加の推薦を通知し、
　前記通知に対して前記アクションの追加が指示された場合、前記アクション追加部は、前記コントロール対象を、前記目的状態に近づけるためのよりよいアクションを追加する
　請求項３に記載の情報処理装置。
　前記コントロール対象の目的状態をより細かい目的に分解する分解部を
　さらに備える請求項１に記載の情報処理装置。
　前記アクション実行部により実行されたアクションの履歴を登録するアクション実行履歴DBを
　さらに備える請求項１に記載の情報処理装置。
　画像の入力により、前記コントロール対象の目的状態を認識する入力受け付け部を
　さらに備える請求項１に記載の情報処理装置。
　前記コントロール対象をセンシングするセンサ部を
　さらに備える請求項１に記載の情報処理装置。
　前記コントロール対象に対して行われたアクションを入力するアクション入力部を
　さらに備える請求項１に記載の情報処理装置。
　情報処理装置が、
　入力されたコントロール対象の目的状態と、前記コントロール対象のセンシング結果に基づくコントロール対象の状態とに基づいて、報酬を算出し、
　算出された報酬と前記コントロール対象の状態とを用いて強化学習することで、前記コントロール対象を、前記目的状態に近づけるためのよりよいアクションを選択し、
　選択されたアクションを、前記コントロール対象に対して実行する
　情報処理方法。
　入力されたコントロール対象の目的状態と、前記コントロール対象のセンシング結果に基づくコントロール対象の状態とに基づいて、報酬を算出する報酬算出部と、
　前記報酬算出部により算出された報酬と前記コントロール対象の状態とを用いて強化学習することで、前記コントロール対象を、前記目的状態に近づけるためのよりよいアクションを選択する強化学習部と、
　前記強化学習部により選択されたアクションを、前記コントロール対象に対して実行するアクション実行部と
　して、コンピュータを機能させるプログラム。