WO2021070732A1

WO2021070732A1 - 情報処理装置、情報処理方法、並びにプログラム

Info

Publication number: WO2021070732A1
Application number: PCT/JP2020/037433
Authority: WO
Inventors: 卓青木; 竜太佐藤; 小川　哲; 至清水
Original assignee: ソニー株式会社
Priority date: 2019-10-11
Filing date: 2020-10-01
Publication date: 2021-04-15
Also published as: CN114503133A; US20220335292A1; JPWO2021070732A1

Abstract

本技術は、環境の変化があったとき、再学習を行えるようにする情報処理装置、情報処理方法、並びにプログラムに関する。所定の学習モデルに基づき、入力情報に対する行動を決定する決定部と、前記行動に対する報酬量の変化が、所定の基準を超える変化であった場合に、前記学習モデルの再学習を行う学習部とを備える。前記学習モデルは、強化学習により生成または更新される学習モデルである。本技術は、例えば所定の強化学習を行う情報処理装置に適用できる。

Description

情報処理装置、情報処理方法、並びにプログラム

　本技術は情報処理装置、情報処理方法、並びにプログラムに関し、例えば、学習している環境が変化したときに、新たな環境に対応した学習を行えるようにした情報処理装置、情報処理方法、並びにプログラムに関する。

　環境における価値(利益)が最大となるようにすることを目標にして、この目標を達成するための制御方法を試行錯誤しながら学習していくような機械学習は、広い意味で、強化学習と称されている。特許文献１では、強化学習にかかる時間を短縮する技術についての開示がある。

特開２００６－３１３５１２号公報

　しかしながら、一度学習がなされると、環境が学習した環境と異なる環境に変化したときに、新たな環境に適応するための再学習に時間がかかってしまう可能性があった。

　本技術は、このような状況に鑑みてなされたものであり、環境が変化したことを検知し、環境が変化したときにできるだけ早く新たな環境に対応できるようにするものである。

　本技術の一側面の情報処理装置は、所定の学習モデルに基づき、入力情報に対する行動を決定する決定部と、前記行動に対する報酬量の変化が、所定の基準を超える変化であった場合に、前記学習モデルの再学習を行う学習部とを備える。

　本技術の一側面の情報処理方法は、情報処理装置が、所定の学習モデルに基づき、入力情報に対する行動を決定し、前記行動に対する報酬量の変化が、所定の基準を超える変化であった場合に、前記学習モデルの再学習を行う。

　本技術の一側面のプログラムは、コンピュータに、所定の学習モデルに基づき、入力情報に対する行動を決定し、前記行動に対する報酬量の変化が、所定の基準を超える変化であった場合に、前記学習モデルの再学習を行うステップを含む処理を実行させる。

　本技術の一側面の情報処理装置、情報処理方法、並びにプログラムにおいては、所定の学習モデルに基づき、入力情報に対する行動が決定され、行動に対する報酬量の変化が、所定の基準を超える変化であった場合に、学習モデルの再学習が行われる。

　なお、情報処理装置は、独立した装置であっても良いし、１つの装置を構成している内部ブロックであっても良い。

　また、プログラムは、伝送媒体を介して伝送することにより、または、記録媒体に記録して、提供することができる。

本技術を適用した情報処理装置の一実施の形態の構成を示す図である。情報処理装置の機能構成例を示す図である。強化学習の一例について説明するための図である。学習処理について説明するためのフローチャートである。他の学習処理について説明するためのフローチャートである。複数の学習モデルを記憶する場合について説明するための図である。第１の適用例について説明するためのフローチャートである。第２の適用例について説明するためのフローチャートである。第３の適用例について説明するためのフローチャートである。第４の適用例について説明するためのフローチャートである。第５の適用例について説明するためのフローチャートである。第６の適用例について説明するためのフローチャートである。第７の適用例について説明するためのフローチャートである。第８の適用例について説明するためのフローチャートである。第９の適用例について説明するためのフローチャートである。第１０の適用例について説明するためのフローチャートである。

　以下に、本技術を実施するための形態（以下、実施の形態という）について説明する。

　本技術は、強化学習を行う情報処理装置に適用できる。強化学習としては、ＬＳＴＭ（Long Short Term Memory：長期短期記憶）を用いた学習法に対して、本技術を適用できる。ここでは、ＬＳＴＭに本技術を適用した場合を例に挙げて説明を行うが、他の方式による強化学習に対しても適用可能である。

　＜情報処理装置の構成＞
　図１は、本技術を適用した情報処理装置の一実施の形態の構成を示す図である。情報処理装置１０は、例えば、パーソナルコンピュータで構成することができる。

　情報処理装置１０は、主に、ＣＰＵ２１、ＲＯＭ２２、ＲＡＭ２３を備える。また、情報処理装置１０は、ホストバス２４、ブリッジ２５、外部バス２６、インタフェース２７、入力装置２８、出力装置２９、ストレージ装置３０、ドライブ３１、接続ポート３２、通信装置３３を備える。

　ＣＰＵ２１は、演算処理装置および制御装置として機能し、ＲＯＭ２２、ＲＡＭ２３、ストレージ装置３０またはリムーバブル記録媒体４１に記録された各種プログラムに従って、情報処理装置１０内の動作全般またはその一部を制御する。ＲＯＭ２２は、ＣＰＵ２１が使用するプログラムや演算パラメータ等を記憶する。ＲＡＭ２３は、ＣＰＵ２１が使用するプログラムや、プログラムの実行において適宜変化するパラメータ等を一次記憶する。これらはＣＰＵバス等の内部バスにより構成されるホストバス２４により相互に接続されている。

　ホストバス２４は、ブリッジ２５を介して、ＰＣＩ（Peripheral Component Interconnect）バスなどの外部バス２６に接続されている。また、外部バス２６には、インタフェース２７を介して、入力装置２８、出力装置２９、ストレージ装置３０、ドライブ３１、接続ポート３２、および通信装置３３が接続される。

　入力装置２８は、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、レバー、ペダル等、ユーザが操作する操作手段である。また、入力装置２８は、例えば、赤外線やその他の電波を利用したリモートコントロール手段（いわゆる、リモコン）であってもよいし、情報処理装置１０の操作に対応した携帯電話やＰＤＡ等の外部接続機器であってもよい。さらに、入力装置２８は、例えば、上記の操作手段を用いてユーザにより入力された情報に基づいて入力信号を生成し、ＣＰＵ２１に出力する入力制御回路などから構成されている。情報処理装置１０のユーザは、この入力装置２８を操作することにより、情報処理装置１０に対して各種のデータを入力したり処理動作を指示したりすることができる。

　また入力装置２８は、各種のセンサであっても良い。例えば、イメージセンサ、ジャイロセンサ、加速度センサ、温度センサ、気圧センサなどのセンサや、それらのセンサからの出力を入力する入力部として機能する装置であっても良い。

　出力装置２９は、取得した情報をユーザに対して視覚的または聴覚的に通知することが可能な装置で構成される。このような装置として、ＣＲＴディスプレイ装置、液晶ディスプレイ装置、プラズマディスプレイ装置、ＥＬディスプレイ装置およびランプ等の表示装置や、スピーカおよびヘッドホン等の音声出力装置や、プリンタ装置等がある。出力装置２９は、例えば、情報処理装置１０が行った各種処理により得られた結果を出力する。具体的には、表示装置は、情報処理装置１０が行った各種処理により得られた結果を、テキストまたはイメージで表示する。他方、音声出力装置は、再生された音声データや音響データ等からなるオーディオ信号をアナログ信号に変換して出力する。

　また出力装置２９は、情報処理装置１０が車両やロボットを制御する制御部の一部として機能する場合、移動制御のための情報を各部に出力する装置であっても良いし、移動制御を行うモータやブレーキなどであっても良い。

　ストレージ装置３０は、情報処理装置１０の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置３０は、例えば、ＨＤＤ（Hard Disk Drive）等の磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイスまたは光磁気記憶デバイス等により構成される。このストレージ装置３０は、ＣＰＵ２１が実行するプログラムや各種データ等を格納する。

　ドライブ３１は、記録媒体用リーダライタであり、情報処理装置１０に内蔵、あるいは外付けされる。ドライブ３１は、装着されている磁気ディスク、光ディスク、光磁気ディスクまたは半導体メモリ等のリムーバブル記録媒体４１に記録されている情報を読み出して、ＲＡＭ２３に出力する。また、ドライブ３１は、装着されている磁気ディスク、光ディスク、光磁気ディスクまたは半導体メモリ等のリムーバブル記録媒体４１に記録を書き込むことも可能である。リムーバブル記録媒体４１は、例えば、ＤＶＤメディア、ＨＤ－ＤＶＤメディアまたはＢｌｕ－ｒａｙ（登録商標）メディア等である。また、リムーバブル記録媒体４１は、コンパクトフラッシュ（登録商標）（CF：CompactFlash）、フラッシュメモリまたはＳＤメモリカード（Secure Digital memory card）等であってもよい。また、リムーバブル記録媒体４１は、例えば、非接触型ＩＣチップを搭載したＩＣカード（Integrated Circuit card）または電子機器等であってもよい。

　接続ポート３２は、情報処理装置１０に直接接続するためのポートである。接続ポート３２の一例として、ＵＳＢ（Universal Serial Bus）ポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ（Small Computer System Interface）ポート等がある。接続ポート３２の別の例として、ＲＳ－２３２Ｃポート、光オーディオ端子、ＨＤＭＩ（登録商標）（High-Definition Multimedia Interface）ポート等がある。この接続ポート３２に外部接続機器４２を接続することで、情報処理装置１０は、外部接続機器４２から直接各種のデータを取得したり、外部接続機器４２に各種のデータを提供したりする。

　通信装置３３は、例えば、通信網（ネットワーク）９１７に接続するための通信デバイス等で構成された通信インタフェースである。通信装置３３は、例えば、有線若しくは無線ＬＡＮ（Local Area Network）、Ｂｌｕｅｔｏｏｔｈ（登録商標）またはＷＵＳＢ（Wireless USB）用の通信カード等である。また、通信装置３３は、光通信用のルータ、ＡＤＳＬ（Asymmetric Digital Subscriber Line）用のルータまたは各種通信用のモデム等であってもよい。この通信装置３３は、例えば、インターネットや他の通信機器との間で、例えばＴＣＰ／ＩＰ等の所定のプロトコルに則して信号等を送受信することができる。また、通信装置３３に接続される通信網４３は、有線または無線によって接続されたネットワーク等により構成され、例えば、インターネット、家庭内ＬＡＮ、赤外線通信、ラジオ波通信または衛星通信等であってもよい。

　＜情報処理装置の機能＞
　図２は、情報処理装置１０の機能を示すブロック図である。情報処理装置１０は、事前学習部６１、学習部６２、学習モデル記憶部６３、認識情報取得部６４、出力情報生成部６５、報酬量設定部６６、変化情報生成部６７、および環境変化判定部６８を含む構成とされている。

　事前学習部６１と学習部６２は、所定の学習方法により学習を行い、学習モデルを生成、更新する。ここでは、事前学習部６１と学習部６２の２つの学習部を備えている場合を例に挙げて説明を行うが、１つの学習部であっても良い。ここでは、ユーザが情報処理装置１０を使用する前の学習（使用後の所定の期間内の学習）は、事前学習部６１が行い、使用を開始した後の学習は、学習部６２が行うとして説明を続ける。

　事前学習部６１は、情報処理装置１０が製造される段階、例えば、工場出荷段階（ユーザ使用前）において、情報処理装置１０の使用環境を模した疑似環境により学習を行い、学習モデル（以下、適宜、初期学習モデルと記述する）を生成する。生成された初期学習モデルは、学習モデル記憶部６３に記憶される。

　学習部６２は、後述する環境の変化が検知されたときに、再学習を行うことで、学習モデルを更新または新たに生成する。学習モデル記憶部６３は、初期学習モデルや、更新された学習モデルや、新たに生成された学習モデルを記憶する。

　認識情報取得部６４は、認識情報を取得する。認識情報は、情報処理装置１０に入力される入力情報であり、情報処理装置１０が提示する情報（出力する情報）を生成するのに用いられる情報である。認識情報は、ユーザに関する情報や、システムが関係する環境に関する情報であり、例えば、ユーザの行動履歴、天気に関する情報、渋滞情報などである。

　出力情報生成部６５は、認識情報と学習モデルに基づいて、行動を決定する。例えば、会話生成を行うシステムの場合、認識情報として、天気に関する情報が取得された場合、天気に関する話題をユーザに提供するという行動のための発話情報が生成される。

　報酬量設定部６６は、報酬量を設定する。報酬量は、例えば、情報処理装置１０が提示した情報に対するユーザの反応から得られる情報とすることができる。

　情報処理装置１０は、強化学習に基づく処理を行う。強化学習は、与えられた環境における価値(利益)が最大となるようにする学習であり、エージェント(行動主体)が行動した結果、起こる環境の変化を評価し、その変化を所定の評価関数に基づき報酬として転出し、当該報酬量を最大化するようなフィードバックを学習モデルに対して行う学習であると定義することができる。

　報酬量設定部６６が設定する報酬量は、ある状態においてエージェント（本実施の形態では情報処理装置１０）が行動を起こした結果、どれくらいの報酬(評価関数と称されることもある)が得られるのかを表す。また状態とは、環境が今どのような状態になっているのかを表す。また行動とは、エージェントが環境に対してどのような行動を起こすことができるのかを表す。

　なお、本技術を適用できる強化学習には、学習モデルが複数層の中間層のネットワークで構成される場合も含まれる。

　図２に示した情報処理装置において、認識情報取得部６４により取得された認識情報に対して報酬が得られる出力情報が、出力情報生成部６５により生成される。例えば、ユーザの反応を報酬量とするシステムにおいては、この生成された出力情報をユーザに提示したときに、ユーザの反応として好ましい反応が得られた場合、報酬が得られる。

　このように、ユーザの反応を報酬とした場合に、ユーザの反応が好まし反応ではなかった場合、報酬量が減るといった変化が起こる。このような報酬量の変化により、変化情報生成部６７は、変化情報を生成する。変化情報生成部６７は、報酬量の変化が大きいか否かを表すフラグを生成する。例えば、報酬量の変化が大きいと判定される場合には、変化情報として“１”という情報を生成し、報酬量の変化が小さい（変化がない）と判定される場合には、変化情報として“０”という情報を生成する。

　ここでは、報酬量が大きいときに“１”、小さいときに“０”として説明を続けるが、報酬量が大きいときに“０”、小さいときに“１”であってもよい。またここでは、変化情報は、０または１のフラグであるとして説明を続けるが、他の情報であっても良い。例えば、報酬量の大きさに応じた値であっても良い。例えば、報酬量の大きさに応じて、０乃至１０の値が割り振られるようにしても良い。

　環境変化判定部６８は、環境が変化したか否かを判定する。環境変化判定部６８は、変化情報が“０”の場合（報酬量の変化が小さい場合）、環境は変化していないと判定し、変化情報が“１”の場合（報酬量の変化が大きい場合）、環境は変化している判定する。環境変化判定部６８は、環境が変化していると判定した場合、学習部６２に指示を出し、再学習を開始させる。

　このように、本技術を適用した情報処理装置１０は、環境が変化したことを検知し、環境が変化したことが検知された場合、再学習を行う。

　＜ＬＳＴＭを適用した場合について＞
　情報処理装置１０が行う学習には、ＬＳＴＭを用いた学習法を適用できる。ＬＳＴＭは、ＲＮＮ（Recurrent Neural Network）を拡張した時系列データに対するモデルである。ＬＳＴＭは、長期依存の学習が可能であるという特徴を有する。

　図３に、ＬＳＴＭの構造の一例を示す。ＬＳＴＭ８１は、主に学習を行い、ＬＳＴＭ８２は、主に環境変化を検知する。ＬＳＴＭ８１には、１つ前の時刻t-1における変化情報（Volatility（t-1））、現時刻tの認識情報（Perceptual data（t））、および１つ前の時刻t-1における出力（Action（t-1））が入力される。

　ＬＳＴＭ８２には、現時刻tの認識情報（Perceptual data（t））、１つ前の時刻t-1における出力（Action（t-1）)、および１つ前の時刻t-1における報酬（Reward (t-1））が入力される。

　ＬＳＴＭ８２は、前回の出力（Action（t-1））について、認識情報（Perceptual data（t））と報酬（Reward (t-1））に基づき評価（State Value（t））を行う。また、ＬＳＴＭ８２は、報酬量に大きな変化があるか否かを判定し、報酬量に大きな変化はないとの判定の場合“０”という変化情報（Volatility（t-1））をＬＳＴＭ８１に出力し、報酬量に大きな変化があるとの判定の場合“１”という変化情報（Volatility（t-1））をＬＳＴＭ８１に出力する。

　ＬＳＴＭ８１は、認識情報（Perceptual data（t））に基づき、今回（時刻t）の出力（Action（t））を決定する。出力（Action（t））を決定する際、所定の条件の報酬に基づく学習済みの学習モデルが参照されても良い、そのような学習モデルではない学習モデルが参照されても良い。

　また、ＬＳＴＭ８１は、変化情報（Volatility（t-1））が“０”であり、環境変化は起きていないと判定される場合、その時点で参照している学習モデルに基づき、出力（Action（t））を決定する。一方で、ＬＳＴＭ８１は、変化情報（Volatility（t-1））が“１”であり、環境変化が起きていると判定される場合、認識情報（Perceptual data（t））と前回（時刻t-1）の出力（Action（t-1））に基づき、出力（Action（t））を変化させる。すなわち、環境変化が起きていると判定される場合、変化情報（Volatility）を報酬とした、環境変化後の条件に基づく再学習を行う。

　このように、ＬＳＴＭ８２は、報酬量の変化から、環境の変化を検知し、環境の変化が検知された場合、ＬＳＴＭ８１は再学習を開始する。なおここでは、環境の変化を検知したり、再学習を開始したりする強化学習の一例として、ＬＳＴＭを例に挙げて説明したが、情報処理装置１０は、他の強化学習を適用し、環境の変化を検知したり、再学習を開始したりするように構成することも可能である。

　＜情報処理装置の処理について＞
　このような学習を行う情報処理装置１０の処理について説明を加える。図４は、情報処理装置１０の処理について説明するためのフローチャートである。なお、各処理については、具体的な適用例を挙げ、後段で説明を加える。

　ステップＳ１１において、事前学習部６１（図２）により、事前学習が行われる。事前学習は、ユーザにより情報処理装置１０が使用される前、または／および、ユーザにより情報処理装置１０の使用が開始されてからの所定の期間に行われる。

　例えば、事前学習部６１は、情報処理装置１０が製造される段階、例えば、工場出荷段階において、情報処理装置１０の使用環境を模した疑似環境により学習を行い、初期学習モデルを生成する。生成された初期学習モデルは、学習モデル記憶部６３に記憶される。

　または情報処理装置１０がユーザにより使用開始された後の所定の期間を事前学習期間とし、その事前学習期間に初期学習モデルが生成され、学習モデル記憶部６３に記憶されるようにしても良い。

　また、工場出荷段階などで、ユーザが情報処理装置１０を使用する前に、初期学習モデルが生成され、その初期学習モデルがさらに、ユーザが情報処理装置１０の使用開始した所定の期間、ユーザの使用態様に合わせて最適化されるようにしても良い。

　事前学習期間の終了は、予め定められた期間、例えば、一ヶ月などの期間や、ユーザとやり取りした累積時間が所定の時間に達するまでの期間などとすることができる。また事前学習期間の終了は、変化情報が一定範囲内に収まったとき、ここでは、変化情報は、０または１とした場合を例に挙げて説明をしているため、０に設定されたときまでとすることができる。

　ステップＳ１２において、事前学習により形成された学習モデル（初期学習モデル）による動作が行われる。具体的には、認識情報取得部６４（図２）により、認識情報が取得され、出力情報生成部６５により、取得された認識情報と学習モデル記憶部６３に記憶されている学習モデルに基づき、出力情報が生成される。

　ステップＳ１３において、報酬量設定部６６により報酬量が設定される。報酬量は、出力情報に対するユーザの反応などを取得することで設定される。

　ステップＳ１４において、変化情報生成部６７により変化情報が生成される。変化情報生成部６７は、報酬量の急激な変化（報酬量の急激な増減）があった場合に、環境が変化したと検知する。

　環境の変化は、情報処理装置１０側で、例えば、予め閾値を設定しておき、報酬量の変動が、閾値以上になったとき、環境に変化があったと検知されるようにすることができる。この場合、報酬量の変動としては、報酬量が増加する変動と減少する変動を含み、その変動量が、閾値以上になったか否かが判定される。

　ユーザ側から環境に関する情報、例えば、使用者が変わった、設置場所が変わったなどの情報が提供され、そのような情報から、環境の変化が検知されるようにしても良い。もちろん、これらを組み合わせ、ユーザから提示される情報と、情報処理装置１０に設定されている条件に基づき、環境の変化が検知されるようにしても良い。

　変化情報生成部６７は、環境に変化があったと検知した場合、変化があったことを示す“１”という情報を生成し、環境変化判定部６８に供給し、環境に変化はないと検知した場合、変化がないことを示す“０”という情報を生成し、環境変化判定部６８に供給する。

　ステップＳ１５において、環境変化判定部６８は、環境の変化があったか否かを判定する。ステップＳ１５において、環境変化判定部６８は、変化情報生成部６７から供給された変化情報が、環境の変化がなかったことを表している場合、環境の変化はないと判定し、ステップＳ１２に処理が戻され、それ以降の処理が繰り返される。

　一方、ステップＳ１５において、環境変化判定部６８は、変化情報生成部６７から供給された変化情報が、環境の変化があったことを表している場合、環境の変化があったと判定し、ステップＳ１６に処理が進められる。

　ステップＳ１６において、再学習が行われる。環境変化判定部６８は、環境に変化があったと判定した場合には、学習部６２に対して再学習を開始するように指示を出す。このような指示が出されることで、学習部６２は学習を開始する。学習が開始されることで、新たな学習モデルが生成される、または学習モデルが更新される。

　学習部６２により再学習が行われることで、新たな学習モデルが生成された場合、または学習モデルの更新が終了された場合、ステップＳ１２に処理が戻され、それ以降の処理が繰り返される。

　再学習の終了は、予め定められた期間、例えば、一ヶ月などの期間や、ユーザとやり取りした累積時間が所定の時間に達するまでの期間などとすることができる。また再学習期間の終了は、変化情報が一定範囲内に収まったとき、ここでは、変化情報は、０または１とした場合を例に挙げて説明をしているため、０に設定されたときまでとすることができる。

　情報処理装置１０の学習の仕方として、環境の変化があったと判定されるまでは、学習モデルが更新されることなく処理が行われるようにすることができる。このような場合、再学習が指示された時点で、学習モデルの更新が開始される。再学習のとき、その時点で用いられている学習モデルが更新されるようにしても良い、新たに生成されるようにしても良い。

　情報処理装置１０の学習の仕方として、常に学習モデルが最適化されるように学習が継続的に行われているようにすることができる。このような場合、再学習が指示された場合も、学習モデルの更新自体は継続して行われるが、例えば報酬の種類や評価関数の定義を再定義することで、異なる方法での学習が開始される。または、新たに学習モデルが生成されるようにしても良い。

　なお、ここでは、図２に示したように、変化情報生成部６７と環境変化判定部６８がある場合を例に挙げて説明を続けるが、変化情報生成部６７と環境変化判定部６８を１つの機能としてまとめることも可能である。図３を参照して説明したように、ＬＳＴＭ８２により変化情報（Volatility）を生成し、ＬＳＴＭ８１に供給し、ＬＳＴＭ８１により環境の変化があったか否かを判定し、再学習が開始されるように構成した場合、ＬＳＴＭ８２が、変化情報生成部６７に該当し、ＬＳＴＭ８１が、環境変化判定部６８に該当する。

　このように、変化情報生成部６７と環境変化判定部６８を、別々に設けるようにした場合、図３ではＬＳＴＭ８１とＬＳＴＭ８２という同一の学習方法が用いられる場合を例示したが、異なる学習方法が用いられるようにしても良い。例えば、環境変化判定部６８は、ＬＳＴＭ８１とし、ＬＳＴＭによる学習を行い、変化情報生成部６７は、例えば、複数のセンサから得られる情報を解析し、環境の変化を検知したり、ユーザからの情報により環境の変化を検知したりする方法が適用されるようにしても良い。

　変化情報生成部６７と環境変化判定部６８を１つの機能としても良い。上記した説明では、変化情報生成部６７が、報酬量の変化から環境の変化を検知し、０または１の変化情報を、環境変化判定部６８に供給するとした。このように、変化情報生成部６７は、報酬量の変化から環境の変化を検知しているため、環境変化判定部６８と実質的に同一の処理を行っている。よって、変化情報生成部６７は、環境の変化を検知し、環境に変化があったと検知したとき、学習部６２に再学習の指示を出すように構成し、環境変化判定部６８を備えない構成とすることも可能である。

　＜情報処理装置の他の処理について＞
　上記したように、環境に変化があったときに再学習が行われ、学習モデルが新たに生成されるようにした場合、学習モデル記憶部６３に記憶されていた学習モデル、例えば初期学習モデルを削除して、新たに生成された学習モデルが記憶されるようにすることも可能であるし、学習モデル記憶部６３に追加記憶されるようにすることも可能である。

　学習モデル記憶部６３に複数の学習モデルが記憶されるように構成することも可能である。また、複数の学習モデルが、学習モデル記憶部６３に記憶されているようにし、学習モデルを切り替えて用いられる構成することも可能である。情報処理装置の他の処理として、学習モデルを生成し、追加し、切り替えて用いる場合について説明する。

　図５は、情報処理装置の他の処理について説明するためのフローチャートである。ステップＳ３１乃至Ｓ３５の処理は、ステップＳ１１乃至Ｓ１５（図４）と同様であるため、その説明は省略する。

　ステップＳ３５において、環境変化があったと判定された場合、ステップＳ３６に処理が進められる。ステップＳ３６において、学習モデル記憶部６３に、複数の学習モデルが記憶されているか否かが判定される。ここでは、図６の時刻t１に示すように、学習モデル記憶部６３には、学習モデル９１Ａのみが記憶されている場合を想定する。

　また、学習モデル記憶部６３以外に記憶されている学習モデルも検索されるようにしても良い。例えば、情報処理装置１０以外の装置で管理されている学習モデルであり、取得可能な学習モデルがあるか否かの判定が、ステップＳ３５において行われるようにしても良い。また、判定の結果、取得可能な学習モデルがあると判定された場合には、その学習モデルも、以下の処理の対象として用いられる。

　このような場合、ステップＳ３６において、学習モデル記憶部６３には、学習モデル９１Ａのみが記憶されているため、複数の学習モデルは記憶されていないと判定され、ステップＳ３７に処理が進められる。ステップＳ３７において、再学習が行われる。ステップＳ３７における処理は、ステップＳ１６（図４）における処理と同様に行うことができるため、説明は省略する。

　ただし、ステップＳ３７においては、再学習が行われることで、既に記憶されている学習モデル（例えば、学習モデル９１Ａ）とは異なる学習モデルが新たに生成される。換言すれば、学習モデル９１Ａが更新されるのではなく、また学習モデル９１Ａが更新されるとした場合でも、学習モデル９１Ａとは異なる学習モデル（学習モデル９１Ｂ）として生成され、学習モデル９１Ａ自体は、そのまま残しておく。

　ステップＳ３７において、再学習が行われることで新たに生成された学習モデルは、ステップＳ３８において、学習モデル記憶部６３に追加され、記憶される。例えば、図６の時刻ｔ２に示すように、ステップＳ３８の処理が行われることで、学習モデル記憶部６３には、学習モデル９１Ａと学習モデル９１Ｂが記憶されている状態となる。

　ステップＳ３８の処理後、処理は、ステップＳ３２に戻され、それ以降の処理が繰り返される。この場合、学習モデル９１Ｂを用いた処理が実行される。

　一方、ステップＳ３６において、学習モデル記憶部６３には複数の学習モデルが記憶されていると判定された場合、ステップＳ３９に処理が進められる。例えば、図６の時刻ｔ２に示したように学習モデル９１Ａと学習モデル９１Ｂが学習モデル記憶部６３に記憶されている場合、ステップＳ３６における判定において、学習モデル記憶部６３には複数の学習モデルが記憶されていると判定される。

　ステップＳ３９において、環境に合う学習モデルがあるか否かが判定される。例えば、環境Ａに最適化された学習モデルが、学習モデル９１Ａであり、環境Ｂに最適化された学習モデルが、学習モデル９１Ｂであるとする。環境変化があったと判定され、変化後の環境が環境Ａであると判定できる場合、ステップＳ３９においては、環境に合う学習モデルが、学習モデル記憶部６３に記憶されているとして、ステップＳ４０に処理が進められる。

　ステップＳ４０において、環境変化後の環境に合う学習モデルであると判定された学習モデルに、参照先の学習モデルが切り替えられ、その学習モデルを用いた処理が、ステップＳ３２に処理が戻されることで開始される。

　一方、環境変化があったと判定され、変化後の環境が環境Ａや環境Ｂとは異なる環境Ｃであると判定された場合、ステップＳ３９においては、環境に合う学習モデルが、学習モデル記憶部６３には記憶されていないとして、ステップＳ３７に処理が進められる。

　ステップＳ３７において、再学習が行われる。この場合、環境Ｃに最適化された学習モデルの学習が行われる。そして、ステップＳ３８の処理において、新たに生成された学習モデル９１Ｃが、学習モデル記憶部６３に追加され、記憶される（図６の時刻ｔ３に示した状態）。

　すなわち、環境変化があった場合に、変化後の環境に合う学習モデルがある場合、その学習モデルを用いた処理に切り替えられ、変化後の環境に合う学習モデルがない場合、変化後の環境に合う学習モデルが生成され、追加される。

　例えば、環境Ａは、ユーザＡとやり取りしている環境であり、学習モデル９１Ａは、ユーザＡに最適化された学習モデルであると仮定する。また、環境Ｂは、ユーザＢとやり取りしている環境であり、学習モデル９１Ｂは、ユーザＢに最適化された学習モデルであると仮定する。

　学習モデル９１Ａが参照されたやり取りがユーザＡと行われているときは、環境変化はないと判定されるため、学習モデル９１Ａが参照された処理が継続される。やり取りの相手が、ユーザＡからユーザＢに変わった場合、学習モデル９１Ａが参照されたやり取りでは、ユーザＢは満足せずに、報酬量が低下する可能性がある。報酬量が低下することで、環境が変わったと検知される。

　環境が変わったことが検知されると、環境に合う学習モデルが、学習モデル記憶部６３に記憶されていないかが探索される。この場合、ユーザＢに最適化された学習モデル９１Ｂが記憶されているため、探索の結果、学習モデル９１Ｂが記憶されていると判定される。この結果、学習モデル９１Ｂに参照先の学習モデルが切り替えられる。この後、学習モデル９１Ｂが参照されたやり取りがユーザＢとの間で開始される。よって、報酬量は元に戻り、環境変化があったと判定される前の状態に戻る。

　このように、複数の学習モデルを記憶しておき、最適な学習モデルが参照された処理が行われるようにすることができる。

　ステップＳ３９において、環境に合う学習モデルがあるか否かが判定されるが、この判定について説明を加える。１例として、センサから得られる情報を基に環境が判定されるようにすることができる。上記した例の場合、ユーザを撮影し、撮影した映像を解析し、ユーザを特定することができる。また、ユーザの音声を取得し、その音声を解析することで、ユーザを特定することができる。

　例えば、解析の結果、ユーザＢとやり取りしていると判定された場合には、ユーザＢ用の学習モデル９１Ｂに参照先の学習モデルが切り替えられる。また、映像や音声を解析した結果、登録されていないユーザが検出された場合には、そのユーザ用の学習モデルが生成されるように再学習が行われる。

　他の例として、学習モデル記憶部６３に記憶されている学習モデルを切り替え、その学習モデルにおける報酬量の変化を見ることで、環境に合う学習モデルであるか否かを判定する。上記した例のように、例えば、ユーザＡからユーザＢにやり取り相手が変わったために、環境が変化したことが検出された場合を考える。

　このとき、学習モデル９１Ａから学習モデル９１Ｂに切り替え、やり取りが行われると、報酬量は元に戻り、切り替え先の学習モデルが正しかった推定することができる。一方で、学習モデル９１Ａから学習モデル９１Ｃに切り替え、やり取りが行われると、報酬量は下がったままであり、切り替え先の学習モデルは正しくなかったと推定することができる。

　このように、学習モデル記憶部６３に記憶されている学習モデルを切り替え、報酬量の変化を観測することで、正しい学習モデルに切り替えられたか否かが判定されるようにしても良い。

　また学習モデルが切り替えられる環境変化として、例えば、時間帯の変化、時期の変化、天候の変化、位置の変化などでも良い。例えば、時間帯により参照される学習モデルが異なるようにし、所定の時間帯になったとき、環境の変化があったとして、学習モデルが切り替えられるようにしても良い。

　＜第１の適用例＞
　上述した情報処理装置１０の適用例について説明する。以下の説明においては、主に、図４に示したフローチャートの処理を行う場合、換言すれば、学習モデルを切り替えない場合を例に挙げて説明するが、学習モデルを切り替える図５に示したフローチャートの処理を行う場合にも適用できる。

　図７に示したフローチャートを参照し、第１の適用例について説明する。第１の適用例は、アプリケーションとして、会話や文章を生成するシステム、例えばチャットボット（chatbot）に本技術を適用した場合である。チャットボットは、人工知能を活用した自動会話プログラムであり、人工知能を組み込んだコンピュータが人間に代わって対話するものである。チャットボットのコンピュータ側に情報処理装置１０を適用することができる。

　チャットボットに係わる強化学習を行う場合、行動は、会話（文章）の生成やユーザに対する生成した会話（文章）の提示となり、報酬量は、会話(文章)の提示を受けた前記ユーザの反応などである。また再学習は、会話(文章)を生成する学習モデルの再学習となる。

　ステップＳ１０１において、事前学習が行われる。アプリケーションが、例えばＳＮＳ（Social Network Service）への投稿を自動的に生成するアプリケーションである場合、事前学習として、ターゲットとするユーザまたはユーザ群から高評価を得られる投稿が学習される。例えば、試験環境で複数の投稿を行い、特定のセグメントユーザに好評な文章の生成が学習される。特定のセグメントユーザとは、３０歳代、４０歳代といった所定の年齢層に属するユーザ、嗜好や行動傾向といった属性が共通する所定のグループに属するユーザ、所定の地域に住んでいるユーザなどである。

　事前学習により、初期学習モデルが生成され、学習モデル記憶部６３に記憶される。初期学習モデルが学習モデル記憶部６３に記憶されると、ステップＳ１０２において、初期学習モデルを参照した文章の生成と投稿が行われる。すなわち、学習モデルを参照した処理が実際に行われる。文章を生成するときに入力される認識情報（Perceptual data）として、例えば、投稿が閲覧された閲覧数、投稿に対して付けられたフォロワー数、投稿に対して付けられた良い悪いといった評価、投稿が転送された回数などが取得される。また、投稿が閲覧された時間帯などの時間情報、評価や転送したユーザのプロファイルなども取得されるようにしても良い。

　ステップＳ１０３において、文章の投稿が行われることで、その投稿に対する評価、即ちこの場合報酬量に該当する情報が取得される。特定セグメントユーザにより付けられた評価、転送、閲覧数などの情報から、報酬量が設定される。例えば、特定セグメントユーザが付けた評価が高い場合や、転送回数が多い場合や、閲覧数が多い場合など、高い報酬量が設定される。逆に、例えば、特定のセグメントユーザが付けた評価が低い場合や、転送回数が減った場合や、閲覧数が少なくなった場合など、低い報酬量が設定される。

　ステップＳ１０４において、報酬量の増減を観測することで、変化情報が生成される。報酬量が増加または減少したときには、変化があったことを表す変化情報（この場合、１という情報）が生成される。なお、閾値を設定しておき、設定されている閾値以上に報酬量が増加した場合、または減少した場合に、変化があったと判定されるようにすることができる。また、報酬量の増減は、所定の期間内での変動とし、報酬量の増減が観測される期間は、予め設定されているようにしても良い。

　基本的に、報酬量が大きくなるように、学習は行われるため、適した学習が行われていれば、報酬量は増加する。よって、単に、報酬量が増加した場合という条件ではなく、所定の期間に、所定の量だけ報酬量が増加した場合が観測されるようにする。例えば、短い期間に、報酬量が増えた場合、報酬量は急増したと判定でき、そのようなときには、環境に何らかの変化があったと推定できる。

　以下の説明において、急増とは、所定の期間内に所定の量（閾値）だけ報酬量が増加した場合を表す。換言すれば、単位時間あたりにおける報酬量の増加量または増加率が、所定の値以上となったときを急増と記述する。

　また急減とは、所定の期間内（単位時間）に所定の量（閾値）だけ報酬量が減少した場合を表す。換言すれば、単位時間あたりにおける報酬量の減少量または減少率が、所定の値以上となったときを急減と記述する。本実施の形態では、このような報酬量の急増または急減を検出し、学習が順調に進むことによる報酬量の増加や減少を検出するのではない。

　ステップＳ１０５において、環境変化があったか否かが判定される。変化情報が、環境変化があったことを表す情報（この場合、１）であった場合、ＹＥＳと判定され、環境変化はないことを表す情報（この場合、０）であった場合、ＮＯと判定される。

　ステップＳ１０５において、変化情報が、環境変化はないことを表す情報であった場合、ステップＳ１０２に処理が戻され、それ以降の処理が繰り返される。一方、ステップＳ１０５において、変化情報が、環境変化があったことを表す情報であった場合、ステップＳ１０６に処理が進められる。

　ステップＳ１０６において、再学習が行われる。

　報酬量が急増した場合、例えば、新たなセグメントユーザからの支持が高くなったなどの要因があったと推定できる。例えば、ターゲットとした特定セグメントユーザ層内での認知が拡大し、その拡大が何らかのきっかけにより、ターゲットとしていなかった特定セグメントユーザ層まで拡大したことにより、報酬量が急増することがあると推定できる。このような場合、その新たに得られた特定セグメントユーザ層に、ターゲットを変える再学習や、新たに得られた特定セグメントユーザ層（幅広いセグメント層）にも受け入れられる投稿を行えるような再学習が行われる。

　報酬量が急減した場合、例えば、不適切な投稿であったなどの要因があったと推定できる。例えば、ターゲットとした特定セグメントユーザを不快にする言葉や、共感できないような言葉などを含む文章を投稿したために、特定セグメントユーザからの支持が低下し、報酬量が急減したと推定できる。このような場合、原因となりうる投稿群（ユーザの支持が下がると推定される言葉を含む複数の投稿）や、投稿生成に用いる当該言葉に対する報酬は、ネガティブな報酬とする再学習が行われる。

　このように、環境変化の情報に応じて、報酬を再定義し、適切な報酬が与えられるように再学習が行われるようにすることができる。

　なおここでは、特定セグメントユーザをターゲットした投稿を行う場合を例に挙げて説明したが、特定セグメントユーザを設定しない投稿であっても、本技術を適用することはできる。

　例えば、報酬量が急増した場合には、報酬量が急増した投稿群に、ユーザが好ましいとする言葉や表現が含まれていたと推定し、そのような言葉や表現を用いた投稿がさらに行えるような再学習が行われるようにすることもできる。また、報酬量が急減した場合には、報酬量が急減した投稿群に、ユーザが不快と感じる言葉や表現が含まれていたと推定し、そのような言葉や表現を含む投稿に対する報酬を再定義した再学習が行われるようにすることもできる。

　このように、報酬量が急増したときに、再学習が行われる。換言すれば、報酬量が急増していないときには、再学習は開始されない。報酬量が急増していないときには、報酬量が増加するようにするための学習が継続して行われる。

　このことは以下の実施の形態においても同様である。また、以下の実施の形態においては、報酬量が急減したときに、再学習が行われ、報酬量が急減していないときには、報酬量が増加するようにするための学習が継続して行われる実施の形態もある。

　再学習が行われることにより、再学習前の学習モデルが適切な学習モデルに修正される、または新たに学習モデルが生成される。再学習は、再学習前の学習モデルを大きく変化させるための学習とされる。

　再学習後、再学習後の学習モデルが用いられ、報酬量が増加するような学習が継続して行われる。再学習後の学習モデルは、その時点での環境に適した学習モデルとなるため、再学習後の学習モデルは、報酬量の急増や急減が起こらない学習モデル、換言すれば報酬量の変動が所定の範囲内に収まった状態で、徐々に増えるような学習モデルとなる。本技術によれば、環境の変化があったときに、その環境に適した学習モデルを生成することができる。

　＜第２の適用例＞
　上述した情報処理装置１０の第２の適用例について説明する。

　図８に示したフローチャートを参照し、第２の適用例について説明する。第２の適用例は、アプリケーションとして、会話を生成するチャットボット（chatbot）に本技術を適用した場合であり、この点では、第１の適用例と同じであるが、第２の適用例では、雑談を生成する場合に適用している点が異なる。

　ステップＳ１２１において、事前学習が行われる。アプリケーションが、家庭用のＡＩエージェントの会話機能を実現するアプリケーションであり、例えば、当たり障りのない雑談を生成するアプリケーションである場合、事前学習として、ユーザとの擬似的な会話を行い、ユーザから高評価を得られる会話内容が学習される。

　例えば、試験環境で仮想のユーザとの会話が行われ、発話生成を行うことで学習が行われる。仮想のユーザとして、特定の条件を満たすユーザ、例えば、３０歳代、４０歳代といった所定の年齢層に属するユーザ、所定のグループに属するユーザ、所定の地域に住んでいるユーザを設定しても良い。または、このような特定の条件を設けずに、一般的な会話が成り立つようにするための学習が行われるようにしても良い。

　また、一般的（共通して用いられる）学習モデルが事前学習で生成され、さらに、実際にユーザが情報処理装置１０の使用を開始してからの所定の期間を、事前学習期間とし、学習が行われるようにしても良い。

　ステップＳ１２２において、学習モデルを参照した会話の生成と発話が行われる。すなわち、学習モデルを参照した処理が実際に行われる。会話が生成されるときに入力される認識情報（Perceptual data）は、例えば、時刻や温度などの環境情報、ユーザのプロファイル、ユーザの応答、ユーザの感情、イベント情報などである。

　ステップＳ１２３において、会話の発話が行われることで、その発話に対するユーザの反応が取得される。ユーザの反応は、報酬（Reward）として取得される。ユーザの反応としては、情動、感情、応答内容などである。ここで、ユーザの状態や情動、感情は、カメラによる表情認識や生体センシング、音声の韻律等に基づき推定することができ、情動にはストレス度合いや満足度などが含まれる。

　ステップＳ１２４において、報酬量の増減を観測することで、変化情報が生成される。報酬量は、例えば、ユーザの反応が悪化したときに急減する。例えば、ユーザの笑顔が少なくなった、同じような話題を振ってもいつもと違う反応であったなどのとき、ユーザの反応が悪化したと推定され、報酬量が少なくされる。報酬量が急増または急減したときには、変化があったことを表す変化情報が生成される。閾値と所定の期間を設定しておき、所定の期間内に、設定されている閾値以上に報酬量が増加した場合、または減少した場合に、変化があったと判定されるようにすることができる。

　ステップＳ１２５において、環境変化があったか否かが判定される。ステップＳ１２５において、変化情報が、環境変化はないことを表す情報であった場合、ステップＳ１２２に処理が戻され、それ以降の処理が繰り返される。一方、ステップＳ１２５において、変化情報が、環境変化があったことを表す情報であった場合、ステップＳ１２６に処理が進められる。ステップＳ１２６において、再学習が行われる。

　報酬量が急減した場合、例えば、不適切な話題を振ったなどの要因があったと推定できる。例えば、ユーザを不快にする会話や、悲しませるような会話を発話したために、ユーザの反応が悪化し、報酬量が急減したと推定できる。

　例えば、ユーザの身内に不幸があったような場合、身内に不幸があった前の時点では、身内の話題をユーザに振ったとき、良い反応であったが、身内に不幸があった後の時点では、身内の話題をユーザに振ると、悪い反応（笑顔がない、悲しい表情をする、声のトーンが落ちる、その話題はしないで欲しいといった返答があるなど）となると推定される。

　このような場合、身内に関する話題をユーザに振らないような再学習が行われる。換言すれば、ユーザの身辺の変化に対応するために、新たなユーザの環境に適応するための再学習が行われる。この場合、身内に関する話題の報酬量が小さくなるように、報酬が再定義され、再学習が行われる。

　また例えば、ユーザが地域Ａから地域Ｂに転居したような場合に、転居前には、地域Ａの話題をユーザに振ると良い反応であったが、転居後に地域Ａの話題を振っても興味ないといった反応になると推定される。このような場合、地域Ａに関する話題を振らないようにし、地域Ｂに関する話題を振るようにするための再学習が行われる。

　報酬量が急増した場合、例えば、ユーザの家族構成やライフスタイルに、ユーザにとって好ましい変化があったため、ユーザの気持ちが良くなったなどの要因があったと推定できる。例えば、ユーザに子供が生まれたような場合、子供が生まれる前の時点では、子供の話題をユーザに振っても興味ないような反応であったが、子供が生まれた後の時点では、子供の話題をユーザに振ると、興味がある反応に変わると推定される。

　このような場合、子供に関する話題をユーザに振るように再学習が行われる。この場合、子供に関する話題の報酬量が大きくなるように、報酬を再定義し、再学習が行われる。

　＜第３の適用例＞
　上述した情報処理装置１０の第３の適用例について説明する。

　図９に示したフローチャートを参照し、第３の適用例について説明する。第３の適用例は、ユーザに推薦を行うアプリケーションに適用した例である。また、第３の適用例では、例えば、ユーザの移動先の照明を点灯させたり、ユーザの行動を推測し、テレビジョン受像器の電源をオンにしたり、ユーザが快適と思う温度に室温を調整したりする制御を行うホームオートメーションを実現するアプリケーションである場合を第３の適用例として説明する。

　なお、ここでは、電化製品を制御する場合を例に挙げて説明を続けるが、電化製品には、窓やカーテンを開閉するための駆動装置なども含まれる。

　推薦に係わる強化学習を行う場合、行動は、ユーザに対する推薦となり、報酬量は、推薦の提示を受けた前記ユーザの反応などである。また再学習は、ユーザの状態の変化に応じた新たな推薦を行うための学習モデルの再学習となる。

　ステップＳ１４１において、事前学習が行われる。例えば工場での製造工程で事前学習により学習モデルを生成する。また、ホームオートメーションの場合、照明の位置や、ユーザの行動パターンなどは、ユーザにより異なる。よって、ユーザが情報処理装置１０の使用を開始してからの所定の期間も、事前学習期間として設定し、ユーザが実際に情報処理装置１０を使用している状態での学習も行われる。

　例えば、ユーザが家内を移動するとき、ユーザの行動をセンサなどでセンシングし、移動先を推定し、推定される移動先の照明を点灯するという学習が行われる。また、例えば、ユーザが帰宅する時間を学習し、帰宅する時間に玄関の照明を点灯するという学習が行われる。また、例えば、ユーザが起床したときに、テレビジョン受像器で所定のチャンネルの番組を閲覧するということを学習し、ユーザが起床する時間に、テレビジョン受像器の電源をオンにするという学習が行われる。

　このように、ユーザの行動を支援するような事前学習が行われ、学習モデルが生成される。

　ステップＳ１４２において、学習モデルを参照したユーザの行動支援が行われる。この場合、ユーザの行動支援として、電化製品の制御が行われる。行動支援を行うために入力される認識情報（Perceptual data）は、例えば、日々のユーザの行動や、電化製品から得られる情報などである。電化製品から得られる情報とは、例えば、照明をオンにした時刻やオフにした時刻、テレビジョン受像器の電源をオンにした時刻やオフにした時刻、空調設備をオンにしたときの室温や設定温度などである。

　ステップＳ１４３において、電化製品の制御が行われることで、その制御に対するユーザの反応が取得される。ユーザの反応は、報酬（Reward）として取得される。ユーザの反応としては、例えば、ユーザをセンシングして推定されるストレス量や満足度、制御したことに対してユーザがキャンセルした回数、ユーザの無駄と推定される行動の回数などである。

　制御したことに対してユーザがキャンセルした回数とは、例えば、照明を点灯したがすぐにユーザにより消灯されたり、照明を消灯したがすぐにユーザにより点灯されたりした回数であり、制御した内容と逆の内容の指示をユーザにより出された回数、すなわち、制御した内容を取り消すような趣旨の指示が出された回数である。

　ステップＳ１４４において、報酬量の増減を観測することで、変化情報が生成される。報酬量は、例えば、制御したことに対してユーザがキャンセルした回数が多いときに急減する。

　ステップＳ１４５において、環境変化があったか否かが判定される。ステップＳ１４５において、変化情報が、環境変化はないことを表す情報であった場合、ステップＳ１４２に処理が戻され、それ以降の処理が繰り返される。一方、ステップＳ１４５において、変化情報が、環境変化があったことを表す情報であった場合、ステップＳ１４６に処理が進められる。ステップＳ１４６において、再学習が行われる。

　報酬量が急減した場合、例えば、報酬量が急減する前の時点では、ユーザにとって好ましい電化製品の制御であったが、急減した後の時点では、ユーザにとって好ましくない電化製品の制御になった場合であると推定できる。例えば、転職、転居、気分転換、家族構成の変化などがあり、変化前の行動パターンではなくなったために、報酬量が急減したと推定できる。

　このような場合、ユーザの新たな生活パターンに適した再学習が行われる。また、再学習を行うとき、生活パターンが変化した要因が推定できる場合、その推定結果に基づき、再学習が行われるようにすることができる。例えば、子供が増えたことにより生活パターンが変化したと推定された場合、子供が増えたときの生活様式のモデルに当てはめて再学習が行われるようにすることができる。

　生活パターンが変化したとの推定は、例えば、報酬量が急減したとき（変化情報に変化があったことを表す情報となったとき）の、ユーザの行動パターンを観測することにより行われるようにすることができる。例えば、子供が夜泣きすることにより、夜の時間帯に照明が点灯されることが多くなったような場合、子供が増える前には点灯しなかった時間帯に点灯されることになり、報酬量が急減する。報酬量が急減したことと、夜間に照明が点灯されることが多くなったという行動パターンとから、子供が増えたと推定できる。

　このように、報酬や、あるいは報酬と環境変数により、環境変化が生じた状況が推定されるようにしても良い。また、このような推定が行えるようにするために、報酬は、スカラー値ではなく、ベクトル値であっても良い。

　＜第４の適用例＞
　上述した情報処理装置１０の第４の適用例について説明する。

　図１０に示したフローチャートを参照し、第４の適用例について説明する。第４の適用例は、ユーザに推薦を行うアプリケーションに適用した例である。またユーザにコンテンツの提示（推薦）を行うアプリケーションである場合を第４の適用例として説明する。

　ステップＳ１６１において、事前学習が行われる。ユーザにコンテンツの提示を行う場合、ユーザ毎に嗜好が異なるため、ユーザの嗜好を学習するために、ユーザが情報処理装置１０の使用を開始してから所定の期間を事前学習期間として設定し、ユーザが実際に情報処理装置１０を使用している状態で学習（最適化）が行われる。

　ステップＳ１６２において、学習モデルを参照したユーザへの推薦が行われる。コンテンツの推薦を行うために入力される認識情報（Perceptual data）は、例えば、ユーザのセグメント情報、ユーザの行動、ソーシャルグラフなどである。また、ユーザの行動としては、実社会での行動履歴だけではなく、Ｗｅｂ上での行動履歴、視聴履歴も含まれる。

　ステップＳ１６３において、コンテンツの推薦が行われることで、その推薦に対するユーザの反応が取得される。ユーザの反応は、報酬（Reward）として取得される。ユーザの反応は、例えば、推薦したコンテンツを視聴した、購入したなどの目的行動の有無や、ユーザセンシングによりユーザの満足度を推定することで取得される。

　ステップＳ１６４において、報酬量の増減を観測することで、変化情報が生成される。報酬量は、例えば、推定されるユーザの満足度が低下したときや、コンテンツの購入回数が減少したときに急減する。

　ステップＳ１６５において、環境変化があったか否かが判定される。ステップＳ１６５において、変化情報が、環境変化はないことを表す情報であった場合、ステップＳ１６２に処理が戻され、それ以降の処理が繰り返される。一方、ステップＳ１６５において、変化情報が、環境変化があったことを表す情報であった場合、ステップＳ１６６に処理が進められる。ステップＳ１６６において、再学習が行われる。

　報酬量が急減した場合、今まで推薦していたジャンルと異なるジャンルのコンテンツが推薦されるようにするといった再学習が行われるようにする。また、報酬量が急増した場合、その急増したときに推薦していたジャンルがユーザにとっての流行であるとし、そのジャンルのコンテンツが優先的に推薦されるようにするといった再学習が行われるようにする。

　また、コンテンツの推薦の場合、報酬量の増減が少ないとき、換言すれば、変化がないことを表す変化情報が所定の期間続いたとき、再学習が行われるようにしても良い。報酬量の増減が少ないときは、ユーザにとって最適な学習モデルでの推薦が行われていると推定できるが、意外性がない推薦が行われている可能性がある。

　そこで、意外性がある推薦が行われるように、再学習が行われるようにしても良い。この場合の再学習は、学習モデルを一度リセットして再学習を行うようにしても良い。この場合、再学習する前の学習モデルは、学習モデル記憶部６３に記憶したままにしておき、新たに作成された学習モデルとともに、学習モデル記憶部６３に記憶されているようにしても良い。図５、図６を参照して説明したように、複数の学習モデルが学習モデル記憶部６３に記憶されているようにし、新たに作成された学習モデルによる推薦によると、報酬量が減少する一方であるような場合、元の学習モデルに戻されるようにしても良い。

　このように、報酬量の増減が停滞したとき、換言すれば、変化がないことを表す変化情報が所定の期間連続して生成されたとき、類似する推定傾向、例えば、ユーザの反応が常に変わらない推薦であることが予想される。このようなとき、意外性やセレンディピティ（serendipity）を担保するために、学習モデルを変更するための再学習が行われるようにしても良い。

　このような再学習は、過学習に陥った状態から脱出する手段としても有効である。

　＜第５の適用例＞
　上述した情報処理装置１０の第５の適用例について説明する。

　図１１に示したフローチャートを参照し、第５の適用例について説明する。第５の適用例は、アプリケーションとして、車両などの移動体の制御に本技術を適用した場合である。また例えば、ユーザ（運転手）の運転支援を行うアプリケーションである場合を第５の適用例として説明する。運転支援とは、例えば、車両の制動制御、ハンドル操作制御、車室の環境設定などであり、運転手が快適な運転を行えるように支援することである。

　移動体の制御に係わる強化学習を行う場合、行動は、移動体(車両)の制御であり、報酬量は、制御された移動体を操作するユーザの感情などや、移動体に関連する環境情報などである。また再学習は、移動体を制御する学習モデルの再学習である。

　ステップＳ１８１において、事前学習が行われる。運転支援を行うアプリケーションの場合、走行コースの選択、加速度、ステアリングなど運転に関する好みや、車内の温度などの車内環境に関する好みは、個々のユーザにより異なるため、ユーザが実際に情報処理装置１０の使用を開始してからの所定の期間が、事前学習の期間とされ、事前学習が行われる。

　ステップＳ１８２において、学習モデルを参照した運転支援が行われる。すなわち、学習モデルを参照した処理が実際に行われる。運転支援が行われるときに入力される認識情報（Perceptual data）は、例えば、走行時に取得される種々のデータである。このデータは、ＣＡＮ（Controller Area Network）のデータを用いることできる。ＣＡＮは、自動車内部で電子制御装置（ＥＣＵ：Engine Control Unit）、エンジン、ブレーキなどの部品を繋ぎ、部品の状態を伝達したり、制御情報を送信したりするのに用いられるネットワークである。そのようなネットワークからの情報を認識情報とすることができる。

　ステップＳ１８３において、運転支援に対するユーザの満足度が取得される。ユーザの反応は、報酬（Reward）として取得される。例えば、運転手の心地よさを表現する変数を定義し、その定義に基づく変数を報酬量とすることができる。また車両の安定性や、ユーザの生体情報、生体情報等から推定される情動・感情情報を報酬量として取得されるようにしても良い。

　例えば、運転支援により加速したが、ユーザにより減速された場合や、車内の温度を上げる設定をしたが、ユーザにより設定温度が下げられた場合など、支援内容がキャンセルされるような操作がユーザによりなされた場合、報酬量は急減する。またユーザの生体情報として、汗をかいているとの情報が取得された場合、運転支援により設定した車内温度が高いためにユーザの反応は良くないと推定され、このような場合も報酬量は急減する。

　また、運転支援を行うことにより、車の揺れが小さくなった、急な加速や急な減速がなくなったなど、走行が安定したと判定されるような場合などには、報酬量は急増する。

　ステップＳ１８４において、報酬量の増減を観測することで、変化情報が生成される。報酬量は、例えば、安定走行が悪化した場合や、ユーザの反応が悪化したときに急減する。

　ステップＳ１８５において、環境変化があったか否かが判定される。ステップＳ１８５において、変化情報が、環境変化はないことを表す情報であった場合、ステップＳ１８２に処理が戻され、それ以降の処理が繰り返される。一方、ステップＳ１８５において、変化情報が、環境変化があったことを表す情報であった場合、ステップＳ１８６に処理が進められる。ステップＳ１８６において、再学習が行われる。

　例えば、運転者がけがし、それまでの運転とは異なる運転を行うようになったため、運転支援が運転者に適さなくなり、報酬量が急減した場合、けがした運転手に適した学習モデルを生成するための再学習が行われる。

　また例えば、運転者が変わった場合にも、運転支援が適さなくなり、報酬量が急減することがあると考えられる。このような場合、新たな運転者に適した運転支援となるように、再学習が行われる。

　運転支援は、安全に車両が走行するめの支援である。例えば、このような運転支援を行う情報処理装置１０を装着しているか否か（利用しているか否か）を、車両の保険料の推定が行われるようにしても良い。また、運転支援の内容、例えば、再学習を行うと決定されたときの環境の変化に関する情報が、保険料の推定に用いられるようにしても良い。

　＜第６の適用例＞
　上述した情報処理装置１０の第６の適用例について説明する。

　図１２に示したフローチャートを参照し、第６の適用例について説明する。第６の適用例は、アプリケーションとして、複数の車両の管理（車両群の制御）に本技術を適用した場合である。

　例えば、インターネットへの常時接続機能を装備した車であり、コネクティッドカー（Connected Car）などと称される車がある。このようなコネクティッドカーは、インターネットを介して情報を取得できるように構成されているため、例えば、交通情報に応じたナビゲーション、移動の制御、管理、などを行うことができる。第６の適用例におけるアプリケーション（に基づき動作する情報処理装置１０）は、コネクティッドカーにおいて、交通情報に応じたナビゲーション、移動の制御、管理、などを行う場合に適用できる。

　また例えば、第６の適用例におけるアプリケーション（に基づき動作する情報処理装置１０）は、バスやタクシーなどの公共交通機関の管理や、中央管理されるシェアカーの管理、特定サービス（例えば、レンタカー）に紐付けられる車両の管理などに適用できる。

　ステップＳ２０１において、事前学習が行われる。管理の仕方などは運用開始前にある程度設定することができるため、そのような設定が事前学習として行われる。また、管理する車、サービスなどにより学習内容が異なるため、運用開始後も継続的に学習は行われる。

　ステップＳ２０２において、学習モデルを参照した管理が行われる。すなわち、学習モデルを参照した処理が実際に行われる。車両管理が行われるときに入力される認識情報（Perceptual data）は、例えば、日々の環境情報、交通情報、天候情報などがある。また、イベントがある日などは渋滞が予測されるため、イベントの情報も認識情報として取得されるようにしても良い。

　また、管理している各種車両の位置情報や走行情報なども取得されるようにしても良い。さらに顧客情報も取得されるようにしても良い。

　ステップＳ２０３において、例えば、最適な走行であるか否かを表す情報が取得される。この情報は、報酬（Reward）として取得される。例えば、渋滞情報が取得され、渋滞を回避するためのナビゲーションが行われた場合、渋滞を回避し、短時間で目的地に到着すれば、その予測は正しかったと推定できる。このようなときには、報酬量が急増する。逆に、目的地に到着するまでの時間がかかった場合、報酬量は急減する。

　また、バスなどの場合、運行表に沿った運用が行われていれば報酬量は高く、運行表に沿った運用が行えなければ、報酬量は低くなる。また、管理している車両が走行するエリア（対象エリアとする）における渋滞量が減少した場合、管理している車両の管理が適切に行われた結果、個々の車両が渋滞に巻き込まれることなく、また対象エリアの渋滞も減ったと推定できる。このような場合、報酬量は高くなる。逆に、対象エリアの渋滞が増えたような場合、仮に、個々の車両が渋滞に巻き込まれるようなことがなかったとしても、報酬量が低くなるようにしても良い。

　ステップＳ２０４において、報酬量の増減を観測することで、変化情報が生成される。

　ステップＳ２０５において、環境変化があったか否かが判定される。ステップＳ２０５において、変化情報が、環境変化はないことを表す情報であった場合、ステップＳ２０２に処理が戻され、それ以降の処理が繰り返される。一方、ステップＳ２０５において、変化情報が、環境変化があったことを表す情報であった場合、ステップＳ２０６に処理が進められる。ステップＳ２０６において、再学習が行われる。

　例えば、工事による通行止めがあり、その付近において渋滞が発生しやすくなった環境に変化した場合、工事前の学習モデルによる管理では、渋滞に巻き込まれ、その結果、報酬量が低下する可能性がある。また、新規に商業施設やオフィスビルが建設されたことにより、その付近に人が多くなり、渋滞が発生しやすい環境に変化した場合や、その付近に公共機関で移動する人が増えたような場合、建物が新設される前の学習モデルによる管理では、報酬量が低下する可能性がある。

　このような場合、渋滞を回避する道や渋滞しやすい時間帯を避けるような再学習が行われる。また、公共機関の利用者が増えたと推定される場合、利用者が増えた区間の運行本数を増やすようにするための再学習が行われる。

　再学習は、一時的に、報酬に基づくフィードバックを強化することで、新たな環境に適応した迅速な再学習が促されるようにしても良い。学習は継続的に行い、環境の変化にも柔軟に対応できるようにしておくとともに、報酬量が劇的に変化したような場合には、そのフィードバックをより強化することで、より柔軟にかつ迅速な再学習を促すようにすることができる。

　なお、工事による通行止めなどは、一時的なことであり、工事が終われば元に戻ると考えられる。このような一時的な環境の変化に対応するために、環境が変化する前の学習モデル（再学習する前の学習モデル）を学習モデル記憶部６３に記憶したままにしておき、新たに作成された学習モデルとともに、学習モデル記憶部６３に記憶されているようにしても良い。図５、図６を参照して説明したように、複数の学習モデルが学習モデル記憶部６３に記憶されているようにし、工事が終了することで、環境が変わった場合、元の学習モデルに戻されるようにしても良い。

　＜第７の適用例＞
　上述した情報処理装置１０の第７の適用例について説明する。

　図１３に示したフローチャートを参照し、第７の適用例について説明する。第７の適用例は、アプリケーションとして、複数の車両の管理（車両群の制御）に本技術を適用した場合である。また例えば、モビリティ関連コンテンツを車両で提供するようなアプリケーションである場合を例に挙げて説明する。なお、ここでは、車両として主に、車を想定した記載を行うが、電車、船、飛行機などの乗り物も含まれる。

　例えば、第７の適用例におけるアプリケーション（に基づき動作する情報処理装置１０）は、バスやタクシーなどの公共交通機関、シェアカー、特定サービス（例えば、レンタカー）に紐付けられる車両などの車内において、そのような車を利用しているユーザに対して所定のコンテンツ、例えば、広告、車両利用のための割引チケット、周辺エリアにおける商業施設の割引チケットなどのコンテンツを提供する。

　ステップＳ２２１において、事前学習が行われる。ターゲットとする年齢層や、ユーザの嗜好などに合ったコンテンツが提供されると、コンテンツを提供した効果をより得られると考えられる。事前学習としては、運用開始前に、一般的な学習を行い、運用開始後に、車両を利用するユーザに最適化するための学習が行われる。

　ステップＳ２２２において、学習モデルを参照したコンテンツの提供が行われる。すなわち、学習モデルを参照した処理が実際に行われる。コンテンツの提供が行われるときに入力される認識情報（Perceptual data）は、例えば、日々の環境情報、交通情報、天候情報などがある。また、イベントがある日などはそのイベントに関する情報を提供することができるため、イベントの情報も認識情報として取得されるようにしても良い。

　また、管理している各種車両の位置情報や走行情報なども取得されるようにしても良い。さらに、顧客の情報も取得されるようにしても良い。顧客の情報としては、各種車両（例えば、バスやタクシーといった車両）の利用状況や、各種サービス（車両の利用以外のサービスであっても良い）の利用状況などが含まれていても良い。

　ステップＳ２２３において、ユーザに最適化されたコンテンツの提供が行われているか否かを表す情報が取得される。この情報は、報酬（Reward）として取得される。コンテンツとして広告を提供することを想定した場合、その広告による宣伝効果に関する情報が取得される。

　例えば、コンテンツで提示したサービスの利用率や売り上げ、そのサービスに対するリテンション（サービスを継続して利用している人の割合）といった情報が取得され、利用率、売り上げ、リテンションが向上すれば、ユーザに提示したコンテンツは最適であったと推定できる。このようなときには、報酬量が急増する。逆に、利用率、売り上げ、リテンションが下がったような場合、報酬量は急減する。

　また、コンテンツの視聴時間や、コンテンツを提供したときの反応に応じた報酬量が取得されるようにしても良い。例えば、コンテンツの視聴時間が長ければ、ユーザに適したコンテンツを提供したと推定することができ、逆にコンテンツの視聴時間が短ければ、ユーザに適したコンテンツを提供できなかった推定することができる。

　また、車両群の稼働効率に応じた報酬量が取得されるようにしても良い。例えば、割引のコンテンツを提供したことにより利用者が増えた場合、稼働効率が上がると推定できる。このような場合、報酬量が急増する。

　ステップＳ２２４において、報酬量の増減を観測することで、変化情報が生成される。ステップＳ２２５において、環境変化があったか否かが判定される。ステップＳ２２５において、変化情報が、環境変化はないことを表す情報であった場合、ステップＳ２２２に処理が戻され、それ以降の処理が繰り返される。一方、ステップＳ２２５において、変化情報が、環境変化があったことを表す情報であった場合、ステップＳ２２６に処理が進められる。ステップＳ２２６において、再学習が行われる。

　例えば、商業施設が建設された場合、その商業施設の広告を流すことにより、その付近に人が多くなり、宣伝効果があったと推定されるが、そのブームが去ると、宣伝効果が下がると推定される。宣伝効果が下がった場合、再度宣伝効果を上げるために、その商業施設の宣伝を他の宣伝よりも優先的に流すようにする再学習が行われる。

　再学習は、一時的に、報酬に基づくフィードバックを強化することで、新たな環境に適応した迅速な再学習が促されるようにしても良い。

　＜第８の適用例＞
　上述した情報処理装置１０の第８の適用例について説明する。

　図１４に示したフローチャートを参照し、第８の適用例について説明する。第８の適用例は、アプリケーションとして、ロボットの制御に本技術を適用した場合である。また例えば、商業施設の案内ロボットに適用されるアプリケーションである場合を例に挙げて説明する。

　例えば、第８の適用例におけるアプリケーション（に基づき動作する情報処理装置１０）は、商業施設において、ユーザ（客）の質問に対して答えたり、道案内をしたりすることで、ユーザをサポートする。

　ロボットの制御に係わる強化学習を行う場合、行動は、ユーザに対する何らかのサポートの提供であり、報酬量は、提供されたサポートに対するユーザの反応などである。また再学習は、環境変化に対応したサポートが行えるようにするための学習モデルの再学習である。

　ステップＳ２４１において、事前学習が行われる。事前学習は、設置予定の商業施設のテナントの配置情報やテナント情報などを用いた試験環境で、シミュレーションが行われることで行われる。また、運用開始後にも、実際にユーザとやり取りすることで学習が行われる。また例えば、ユーザの質問に対するナビゲーションや、ユーザに脅威を与えないような距離感の担保なども学習される。

　ステップＳ２４２において、学習モデルを参照した案内（サポート）が行われる。すなわち、学習モデルを参照した処理が実際に行われる。案内が行われるときに入力される認識情報（Perceptual data）は、例えば、商業施設が備える各種環境条件、現在の環境情報などの情報である。例えば、テナント数が減った、または増えたといった情報、テナントが入れ替わったといった情報、テナントの面積が変わったという情報などが取得される。また、テナントを利用する顧客の情報など、商業施設側から得られる情報であっても良いし、商業施設を利用する側から得られる情報であっても良い。

　ステップＳ２４３において、案内による効果があったか否かを判断できる情報が取得される。この情報は、報酬（Reward）として取得される。例えば、ユーザを案内した場合、その案内が成功したか否か、顧客の満足度などが取得される。

　案内が成功したか否かは、例えば、ユーザを追跡監視することにより、ユーザが所望としていた場所（テナント）に到達したか否かが判断されることで行われるようにすることができる。また顧客の満足度は、ユーザをセンシングし、そのセンシングに基づく反応、例えば、理解しているか否か（理解度）、満足しているか否か（満足度）が判定されるようにすることができる。あるいは、表情認識や生体センシングに基づく感情・情動推定によりストレス量などを推定して行われてもよい。

　また、案内により、ユーザが所望としていたテナントに到達した場合や、好感が持てるような案内であった場合など、ユーザの満足度が上がり、その結果、売り上げが増加するとも考えられる。よって、報酬として、売り上げが向上したか否かを用いることもできる。売り上げが伸びた場合、報酬量は上がり、売り上げが下がった場合、報酬量も下がる。

　ステップＳ２４４において、報酬量の増減を観測することで、変化情報が生成される。ステップＳ２４５において、環境変化があったか否かが判定される。ステップＳ２４５において、変化情報が、環境変化はないことを表す情報であった場合、ステップＳ２４２に処理が戻され、それ以降の処理が繰り返される。一方、ステップＳ２４５において、変化情報が、環境変化があったことを表す情報であった場合、ステップＳ２４６に処理が進められる。ステップＳ２４６において、再学習が行われる。

　例えば、テナントの変更や、テナントの変更に基づく客層の変化などにより、従来の案内方法では顧客が満足せずに、その結果報酬量が急減したと推定される場合、テナントの変更に対応するための再学習や、客層の変化に対応するための再学習が行われる。また、例えば、売り上げが落ちたような場合、売り上げが戻り、かつ上がるような再学習が行われる。

　＜第９の適用例＞
　上述した情報処理装置１０の第９の適用例について説明する。

　図１５に示したフローチャートを参照し、第９の適用例について説明する。第９の適用例は、アプリケーションとして、金融システムに本技術を適用した場合である。また例えば、ここでは投資に関する情報を提示するアプリケーションである場合を例に挙げて説明する。例えば、第９の適用例におけるアプリケーション（に基づき動作する情報処理装置１０）は、為替動向など各種の経済指標を監視し、最適な投資条件を算出する。

　ステップＳ２６１において、事前学習が行われる。事前学習は、ユーザに提示する予定の商品の情報、例えば株価や投資信託の価格などの情報を用いて行われる。

　ステップＳ２６２において、学習モデルを参照し、最適な投資条件の提示が行われる。すなわち、学習モデルを参照した処理が実際に行われる。投資条件を提示するときに入力される認識情報（Perceptual data）は、例えば、為替動向などの各種経済指標、ニュース、市場で話題になっている商品の情報などである。

　ステップＳ２６３において、投資結果が取得される。この情報は、報酬（Reward）として取得される。例えば、提示された投資条件に基づいて投資を行った結果、利益が得られれば報酬量は増え、利益が得られなければ（損益が出た場合）、報酬量は減る。換言すれば、提示された投資条件に基づいて投資を行った結果が、提示するときに予想していたリターン通りであれば、報酬量は増え、予想からずれていると報酬量は減る。

　ステップＳ２６４において、報酬量の増減を観測することで、変化情報が生成される。ステップＳ２６５において、環境変化があったか否かが判定される。ステップＳ２６５において、変化情報が、環境変化はないことを表す情報であった場合、ステップＳ２６２に処理が戻され、それ以降の処理が繰り返される。一方、ステップＳ２６５において、変化情報が、環境変化があったことを表す情報であった場合、ステップＳ２６６に処理が進められる。ステップＳ２６６において、再学習が行われる。

　例えば、景気の動向に影響を与えるイベント、例えば、政策の変更、経済に影響を与える事件などが発生した場合、投資条件を提示したときの状況とは変わり、予測されていたリターン通りの結果は得られない可能性がある。このようなときには、予測からずれるため、報酬量が急減（予測を下回った）または急増（予測を上回った）し、環境に変化があったと検知され、再学習が行われる。

　このようなときに実行される再学習は、発生したイベント（新たな環境）を考慮した再学習が行われる。予測が下回る場合には、予測通りに戻るようにするための再学習が行われ、予測より上回る場合には、より上回るような予測になるような再学習が行われる。

　本技術によれば、フラッシュクラッシュのような極めて短期的な変化に揺さぶられることなく、短期の変更に柔軟に対応することができる。すなわち、本技術によれば、一時的な変化で、提示される投資条件が急に変化することなく、安定した提示を行うことができる。一方で、長期にわたって影響を及ぼすような不都合な状況が発生したときには、その影響を考慮した再学習を行うことができ、影響に対して対応を取ることができる。

　＜第１０の適用例＞
　上述した情報処理装置１０の第１０の適用例について説明する。

　図１６に示したフローチャートを参照し、第１０の適用例について説明する。第１０の適用例は、アプリケーションとして、認識や認証を行うシステムに本技術を適用した場合である。また例えば、ここでは本人認証を行うアプリケーションである場合を例に挙げて説明する。

　例えば、第１０の適用例におけるアプリケーション（に基づき動作する情報処理装置１０）は、スマートフォンのカメラによる本人認証、公共施設やオフィス等におけるカメラによる本人確認、普段の行動傾向、例えば、Ｗｅｂ上における振る舞いや、現実社会における振る舞いから本人であるか否かの認証を行う。

　認証に係わる強化学習を行う場合、行動は、ユーザに対する認証の試行であり、報酬量は、認証の試行結果に基づく認証精度の評価情報である。また再学習は、ユーザの状態に適した学習モデルの再学習である。

　ステップＳ２８１において、事前学習が行われる。事前学習は、認識（認証）対象となるユーザの顔や、日常生活における行動傾向などの特徴量情報に基づく認識（認証）が行えるようにするための学習が行われる。

　例えば、ユーザの顔の特徴量情報に基づき認証が行われるようにする場合、ユーザの顔を、複数の角度で撮影し、特徴量情報を抽出する学習が行われる。また、日常生活における行動傾向などの特徴量情報に基づき認証が行われる場合、初期学習期間におけるユーザの行動傾向が蓄積される。

　ステップＳ２８２において、学習モデルを参照し、認証が行われる。すなわち、学習モデルを参照した処理が実際に行われる。認証が行われるときに入力される認識情報（Perceptual data）は、例えば、対象ユーザの外的特徴量（特に、多視点や動的な蓄積情報）や、対象ユーザの行動情報である。

　ステップＳ２８３において、認証結果が取得される。この情報は、報酬（Reward）として取得される。例えば、認証が成功した場合には、報酬量は高くなり、認証が失敗した場合には、報酬量は低くなる。すなわち認証を試行した結果に基づく認証精度の評価情報が、報酬量として取得される。

　認証が成功したときとは、認証対象と設定されていたユーザ(真のユーザと記述する)を、真のユーザとして認証できたときである。また認証が成功したときとは、真のユーザではないユーザを、真のユーザではないと認証できたときも含まれる。認証が成功した場合、すなわち認証精度が高い場合、報酬量は高くなる。

　一方で、認証が失敗したときとは、真のユーザが認証の試行対象とされていたにも係わらず真のユーザではないと認証されたときである。また認証が失敗したときとは、真のユーザではないユーザを、真のユーザであると認証してしまったときも含まれる。認証が失敗した場合、すなわち認証精度が低い場合、報酬量は低くなる。

　ステップＳ２８３において、例えば顔認証を行ったが、その認証結果が疑わしい場合、換言すれば認証精度が低く、報酬量が所定の値よりも低かったような場合、他の認証方法、例えば、パスワードの入力による認証が行われるようにしても良い。パスワードによる認証が行われ、そのパスワードによる認証結果が当初推定と同じであったか（当初推定は正しいかった）か否かが判定されるようにしても良い。

　例えば、顔認証で、真のユーザである可能性があるが、確定できないような場合、パスワード入力による認証を行う。その結果、真のユーザであると確定された場合、結果として顔認証での認証結果も正しかったことになるため、顔認証の精度は落ちていないと推定できる。一方で、真のユーザではないと確定された場合、結果として顔認証での認証結果は正しくなかったことになるため、顔認証の精度は落ちている推定できる。

　このように、認証の精度が落ちていると推定できるような状況のときに、再学習が行われるようにする。すなわち、報酬量が急減しているときに、再学習が行われるようにする。

　ステップＳ２８４において、報酬量の増減を観測することで、変化情報が生成される。ステップＳ２８５において、環境変化があったか否かが判定される。ステップＳ２８５において、変化情報が、環境変化はないことを表す情報であった場合、ステップＳ２８２に処理が戻され、それ以降の処理が繰り返される。一方、ステップＳ２８５において、変化情報が、環境変化があったことを表す情報であった場合、ステップＳ２８６に処理が進められる。ステップＳ２８６において、再学習が行われる。

　例えば、認証対象のユーザの髪型が変わった、目眼をかけるようになった、眼帯をしている、けがした、日焼けをしたなどにより、ユーザの外見に変化があったような場合、それまでの学習モデルだと、認証精度が低下してしまう可能性がある。このようなとき、ユーザの外見の変化に対応した再学習が行われる。この場合、ユーザの外見の変化が、環境の変化として扱われる。

　また例えば、認証対象のユーザが転職した、転居した、家族構成が変わったなど、ユーザのライフスタイルが変化し、学習済みの日常生活における行動傾向などの特徴量情報が合わなくなったような場合にも、変化後のライフスタイルに合う日常生活における行動傾向などの特徴量情報が再学習される。この場合、ユーザの行動傾向などの変化が、環境の変化として扱われる。

　また、他の認証方式を適用するために、他の認証方式にあった再学習が行われるようにしても良い。例えば、顔認証による認証を行っていたが、その制度が低下したと判断される場合、行動傾向による認証に移行すると決定し、その行動傾向による認証を実行するための学習が、再学習として実行されるようにしても良い。

　このように、第１０の実施の形態においては、認証アルゴリズムによる認証が失敗した場合、換言すれば、認証アルゴリズムによる認証精度が低下したような場合、適切な報酬量を設定しておくことで、そのような精度の低下を検出することができる。また、認証アルゴリズムの精度が低下したのは、ユーザに何らかの変化があった場合であるとして扱うこともできる。

　ここでは、第１乃至第１０の適用例として、具体的な適用例を挙げて説明したが、本技術の適用範囲は、上記した１０個の適用例に限定されるわけではない。上記した適用例以外にも適用可能である。

　本技術によれば、環境の変化を検知することができる。また県境の変化が検知されたとき、その時点で用いられている学習モデルを更新する、または新たに生成する再学習が行われるようにすることができる。

　＜記録媒体について＞
　上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

　上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成は、図１に示した情報処理装置１０の用に構成することができる。図１に示した情報処理装置１０のＣＰＵ２１が、例えば、ストレージ装置３０に記憶されているプログラムを、ＲＡＭ２３にロードして実行することにより、上述した一連の処理が行われる。

　コンピュータ（ＣＰＵ２１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体４１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

　コンピュータでは、プログラムは、リムーバブル記録媒体４１をドライブ３１に装着することにより、インタフェース２７を介して、ストレージ装置３０にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信装置３３で受信し、ストレージ装置３０にインストールすることができる。その他、プログラムは、ＲＯＭ２２やストレージ装置３０に、予めインストールしておくことができる。

　なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

　また、本明細書において、システムとは、複数の装置により構成される装置全体を表すものである。

　なお、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。

　なお、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

　なお、本技術は以下のような構成も取ることができる。
（１）
　所定の学習モデルに基づき、入力情報に対する行動を決定する決定部と、
　前記行動に対する報酬量の変化が、所定の基準を超える変化であった場合に、前記学習モデルの再学習を行う学習部と
　を備える情報処理装置。
（２）
　前記学習モデルは、強化学習により生成または更新される学習モデルである
　前記（１）に記載の情報処理装置。
（３）
　前記強化学習は、ＬＳＴＭ（Long Short Term Memory）を用いた強化学習である
　前記（２）に記載の情報処理装置。
（４）
　前記報酬量が変動したか否かを判定することで、環境に変化があったか否かを判定する
　前記（１）乃至（３）のいずれかに記載の情報処理装置。
（５）
　前記行動に対する報酬量の変化が、前記所定の基準を超えない変化であった場合には、前記学習モデルについて、前記再学習とは異なる他の再学習を行う
　前記（１）乃至（４）のいずれかに記載の情報処理装置。
（６）
　前記再学習は、前記他の再学習に対して、学習モデルをより大きく変化させる再学習である
　前記（５）に記載の情報処理装置。
（７）
　前記行動に対する報酬量の変化が、前記所定の基準を超えない変化であった場合には、前記学習モデルの再学習を行わない
　前記（１）乃至（６）のいずれかに記載の情報処理装置。
（８）
　前記再学習の結果得られる新たな学習モデルは、前記所定の学習モデルを前提として、新たに生成される
　前記（１）乃至（７）のいずれかに記載の情報処理装置。
（９）
　前記所定の基準を超える変化があった場合、当該情報処理装置が備える複数の学習モデル、または当該情報処理装置が外部から取得可能な学習モデルであって、前記所定の学習モデルとは異なる他の学習モデルに切り替える
　前記（１）乃至（８）のいずれかに記載の情報処理装置。
（１０）
　前記報酬量は、ユーザの反応に関する情報を含む
　前記（１）乃至（９）のいずれかに記載の情報処理装置。
（１１）
　前記行動は、文章の生成およびユーザに対する前記文章の提示であり、
　前記報酬量は、前記文章の提示を受けた前記ユーザによる反応を含み、
　前記再学習は、前記文章を生成する学習モデルの再学習である
　前記（１）乃至（１０）のいずれかに記載の情報処理装置。
（１２）
　前記行動はユーザに対する推薦であり、
　前記報酬量は、前記推薦の提示を受けた前記ユーザによる反応を含み、
　前記再学習は、ユーザ状態の変化に応じた新たな推薦を行うための再学習である
　前記（１）乃至（１０）のいずれかに記載の情報処理装置。
（１３）
　前記報酬量の変化が、所定の基準を超える変化であった場合に、当該変化が起こった要因の推定を行い、当該推定される要因に基づき、再学習を行う
　前記（１）乃至（１２）のいずれかに記載の情報処理装置。
（１４）
　前記報酬量が変動しない期間が所定の期間継続している場合、新たな学習モデルを生成する再学習を行う
　前記（１）乃至（１３）のいずれかに記載の情報処理装置。
（１５）
　前記行動は移動体の制御であり、
　前記報酬量は、前記移動体に関連する環境情報を含み、
　前記再学習は、前記移動体を制御する学習モデルの再学習である
　前記（１）乃至（１０）のいずれかに記載の情報処理装置。
（１６）
　前記行動は、ユーザ認証の試行であり、
　前記報酬量は、認証試行結果に基づく認証精度の評価情報であり、
　前記報酬量の変化が所定の基準を超える変化であった場合に、ユーザが所定の特定状態にあると判定し、当該特定状態に適した再学習を行う
　前記（１）乃至（１０）のいずれかに記載の情報処理装置。
（１７）
　情報処理装置が、
　所定の学習モデルに基づき、入力情報に対する行動を決定し、
　前記行動に対する報酬量の変化が、所定の基準を超える変化であった場合に、前記学習モデルの再学習を行う
　情報処理方法。
（１８）
　コンピュータに、
　所定の学習モデルに基づき、入力情報に対する行動を決定し、
　前記行動に対する報酬量の変化が、所定の基準を超える変化であった場合に、前記学習モデルの再学習を行う
　ステップを含む処理を実行させるためのプログラム。

　１０　情報処理装置，　２１　ＣＰＵ，　２２　ＲＯＭ，　２３　ＲＡＭ，　２４　ホストバス，　２５　ブリッジ，　２６　外部バス，　２７　インタフェース，　２８　入力装置，　２９　出力装置，　３０　ストレージ装置，　３１　ドライブ，　３２　接続ポート，　３３　通信装置，　４１　リムーバブル記録媒体，　４２　外部接続機器，　４３　通信網，　６１　事前学習部，　６２　学習部，　６３　学習モデル記憶部，　６４　認識情報取得部，　６５　出力情報生成部，　６６　報酬量設定部，　６７　変化情報生成部，　６８　環境変化判定部，　９１　学習モデル

Claims

　所定の学習モデルに基づき、入力情報に対する行動を決定する決定部と、
　前記行動に対する報酬量の変化が、所定の基準を超える変化であった場合に、前記学習モデルの再学習を行う学習部と
　を備える情報処理装置。
　前記学習モデルは、強化学習により生成または更新される学習モデルである
　請求項１に記載の情報処理装置。
　前記強化学習は、ＬＳＴＭ（Long Short Term Memory）を用いた強化学習である
　請求項２に記載の情報処理装置。
　前記報酬量が変動したか否かを判定することで、環境に変化があったか否かを判定する
　請求項１に記載の情報処理装置。
　前記行動に対する報酬量の変化が、前記所定の基準を超えない変化であった場合には、前記学習モデルについて、前記再学習とは異なる他の再学習を行う
　請求項１に記載の情報処理装置。
　前記再学習は、前記他の再学習に対して、学習モデルをより大きく変化させる再学習である
　請求項５に記載の情報処理装置。
　前記行動に対する報酬量の変化が、前記所定の基準を超えない変化であった場合には、前記学習モデルの再学習を行わない
　請求項１に記載の情報処理装置。
　前記再学習の結果得られる新たな学習モデルは、前記所定の学習モデルを前提として、新たに生成される
　請求項１に記載の情報処理装置。
　前記所定の基準を超える変化があった場合、当該情報処理装置が備える複数の学習モデル、または当該情報処理装置が外部から取得可能な学習モデルであって、前記所定の学習モデルとは異なる他の学習モデルに切り替える
　請求項１に記載の情報処理装置。
　前記報酬量は、ユーザの反応に関する情報を含む
　請求項１に記載の情報処理装置。
　前記行動は、文章の生成およびユーザに対する前記文章の提示であり、
　前記報酬量は、前記文章の提示を受けた前記ユーザによる反応を含み、
　前記再学習は、前記文章を生成する学習モデルの再学習である
　請求項１に記載の情報処理装置。
　前記行動はユーザに対する推薦であり、
　前記報酬量は、前記推薦の提示を受けた前記ユーザによる反応を含み、
　前記再学習は、ユーザ状態の変化に応じた新たな推薦を行うための再学習である
　請求項１に記載の情報処理装置。
　前記報酬量の変化が、所定の基準を超える変化であった場合に、当該変化が起こった要因の推定を行い、当該推定される要因に基づき、再学習を行う
　請求項１に記載の情報処理装置。
　前記報酬量が変動しない期間が所定の期間継続している場合、新たな学習モデルを生成する再学習を行う
　請求項１に記載の情報処理装置。
　前記行動は移動体の制御であり、
　前記報酬量は、前記移動体に関連する環境情報を含み、
　前記再学習は、前記移動体を制御する学習モデルの再学習である
　請求項１に記載の情報処理装置。
　前記行動は、ユーザ認証の試行であり、
　前記報酬量は、認証試行結果に基づく認証精度の評価情報であり、
　前記報酬量の変化が所定の基準を超える変化であった場合に、ユーザが所定の特定状態にあると判定し、当該特定状態に適した再学習を行う
　請求項１に記載の情報処理装置。
　情報処理装置が、
　所定の学習モデルに基づき、入力情報に対する行動を決定し、
　前記行動に対する報酬量の変化が、所定の基準を超える変化であった場合に、前記学習モデルの再学習を行う
　情報処理方法。
　コンピュータに、
　所定の学習モデルに基づき、入力情報に対する行動を決定し、
　前記行動に対する報酬量の変化が、所定の基準を超える変化であった場合に、前記学習モデルの再学習を行う
　ステップを含む処理を実行させるためのプログラム。