WO2000010098A1

WO2000010098A1 - Machine de traitement des donnees, technique de traitement des donnees et support correspondant

Info

Publication number: WO2000010098A1
Application number: PCT/JP1999/004306
Authority: WO
Inventors: Jun Tani
Original assignee: Sony Corporation
Priority date: 1998-08-12
Filing date: 1999-08-09
Publication date: 2000-02-24
Also published as: JP2000122992A

Description

明細 ^: 情報処理装置、情報処理方法及び提供媒体技術分野本発明は、情報処理装置、情報処理方法及び提供媒体に関し、特に、行動プランを生成する情報処理装置、情報処理方法、及び提供媒体に関する。背景技術ロボッ卜に適用される人工知能について、さまざまな研究がなされている。例えば、 Long-Ji L inは、その論文「Re inforcement Lea rning With Hidden Statesj においてリカレント型ニューラルネヅトワーク（R N N ) を用いて、予測と報酬学習を組み合わせる手法を提案している。

また、 R. S . Suttonは、 ¹ Learning to predict by the methods of temporal dif f erencesj ，Machine La ing, 3 : 9 - 44， 1988において. 内部モデルと報酬学習を組み合わせる手法を提案している。この手法では、内部モデルにより、リハーサルを通してアクションポリシ一の強化学習が行われる。

しかしながら、これらいずれの手法を用いても、将来のァクションのシーケンス、すなわち行動（アクション）プランを生成することができない。発明の開示本発明は、行動プランを生成することができる情報処理装置、情報処理方法及び情報提供媒体を提供することを目的とする。

本発明に係る情報処理装置は、上述の目的を達成するために、複数ステップ先に得られるリワードの内部モデルによる予測を最大にするァクションの変化分を演算する第 1の演算手段と、アクションポリシーに基づきアクションを演算する第 2の演算手段とを備える ₍ また、本発明に係る情報処理方法は、上述の目的を達成するために、複数ステップ先に得られるリヮードの内部モデルによる予測を最大にするアクションの変化分を演算する第 1の演算ステップと、アクションポリシ一に基づきアクションを演算する第 2の演算ステップとを有する。

また、本発明に係る提供媒体は、上述の目的を達成するために、複数ステツプ先に得られるリヮードの内部モデルによる予測を最大にするアクションの変化分を演算する第 1の演算ステップと、ァクシヨンポリシ一に基づきァクションを演算する第 2の演算ステヅプとを含む処理を情報処理装置に実行させるコンピュー夕が読みとり可能なプログラムを提供する。

本発明に係る情報処理装置、情報処理方法及び提供媒体によれば、複数ステップ先に得られるリヮ一ドの内部モデルによる予測を最大にするアクションの変化分が演算されるとともに、アクションポリシ一に基づきァクションが演算され、行動プランが生成される。図面の簡単な説明図 1は、本発明を適用したロボッ卜の外観を概略的に示す図である。

図 2は、図 1に示すロボッ卜の内部の構成を示すプロック図である。

図 3は、図 2に示すニューラルネット認識装置 2 3を構成するリカレント型ニューラルネットワークの構成例を示す図である。

図 4は、図 3に示すリカレント型ニューラルネットワークの動作を説明するフローチャートである。

図 5は、図 4のステップ S 1の処理を説明する図である。

図 6は、図 4のステップ S 2の処理を説明する図である。

図 7は、図 3のリカレント型ニューラルネットワークの動作を説明する図である。

図 8は、図 3のリカレント型ニューラルネットワークの学習処理を説明する図である。

図 9は、図 3のリカレント型ニューラルネットヮ一クの他の学習処理を説明する図である。

図 1 0は、図 9のリカレント型ニューラルネットワークの学習処理を説明するフローチャートである。

図 1 1は、図 9のリカレント型ニューラルネットワークの学習時におけるロボッ卜の移動軌跡を示す図である。

図 1 2は、図 9のリカレント型ニューラルネットワークの学習時におけるロボットの移動軌跡を示す図である。

図 1 3は、図 9のリカレント型ニューラルネットワークの学習時におけるロボットの移動軌跡を示す図である。

図 1 4は、図 9のリカレント型ニューラルネットワークの学習時における口ボットの移動軌跡を示す図である。

図 1 5は、図 9のリカレント型ニューラルネットワークの学習時におけるロボットの移動軌跡を示す図である。

図 1 6は、図 9のリカレント型ニューラルネットワークの予測誤差を示す図である。

図 1 7は、図 9のリカレント型ニューラルネットワークの予測誤差を示す図である。

図 1 8は、図 9のリカレント型ニューラルネヅトワークの予測誤差を示す図である。

図 1 9は、図 9のリカレント型ニューラルネヅトワークの学習時における発火の状態を示す図である。

図 2 0は、図 9のリカレント型ニューラルネットワークの学習時における発火の状態を示す図である。発明を実施するための最良の形態以下、本発明に係る情報処理装置、情報処理方法及び提供媒体について、図面を参照しながら詳細に説明する。

本発明を適用したロボット 1 1の外観を図 1に示す。ロボット 1 1は、センサの 1つとして上部に取り付けられたテレビカメラ 1 2 と、底部に取り付けられた車輪 1—3 と、側面に取り付けられたディスプレイ 1 4と、センサ 1 5 とを備える。テレビカメラ 1 2は、口ボット 1 1の周囲の画像を撮像する。車輪 1 3は、後述するような制御によりロボット 1 1を任意の位置に移動させる。ディスプレイ 1 4は、例えば陰極線管（ C R T ) 又は液晶表示装置（ L C D ) 等からなり、文字や画像などの所定の情報を表示する。センサ 1 5は、ロボット 1 1の周囲の情報を検出する。

図 2は、ロボット 1 1の内部構成を示すプロック図である。テレビカメラ 1 2は、ロボット 1 1の周囲の映像をカラ一画像として取り込み、取り込んだカラー画像データを制御回路 2 4 と量子化回路 2 5に供給する。量子化回路 2 5は、入力されたカラー画像デ一夕を量子化し、ニューラルネット認識装置 2 3に出力する。センサ 1 5は検出した各種の情報を制御回路 2 4に供給する。ニューラルネット認識装置 2 3は、量子化回路 2 5より入力されたカラー画像デ —夕を認識処理し、認識結果を示すデ一夕を制御回路 2 4に出力する。制御回路 2 4は、例えばマイクロコンピュー夕等により構成されており、ニューラルネット認識装置 2 3に対して、ロボットの移動方向を通知するとともに、ニューラルネット認識装置 2 3 より供給された予測結果をディスプレイ 1 4に供給する。ディスプレイ 1 4は、このようにして得られた予測結果を文字又は画像等の情報として表示する。

また、制御回路 2 4は、モ一夕 2 1を駆動し、テレビカメラ 1 2 を所定の方向に指向させる。さらに、制御回路 2 4はモー夕 2 2を駆動し、これにより車輪 1 3を回転させて、ロボヅト 1 1を所定の位置に移動させる。

図 3は、ニューラルネット認識装置 2 3を構成するリカレント型ニュ一ラルネットワーク（以下、 R N Nという。） 3 1 の構成例を示す図である。図 3に示すように、 R N N 3 1は、所定の数のニュ —ロンからなる入力層 4 1を有し、この入力層 4 1の各ニューロンには、テレビカメラ 1 2を含む各種のセンサ 1 5の状態に対応する信号（以下、単にセンサとも称する） S ( t ) 、リワード（報酬） R ( t ) 、およびアクション A ( t ) が、制御回路 2 4から入力される。入力層 4 1に入力されたデ一夕は、所定の数のニューロンからなる中間層 4 2を介して、所定の数のニューロンからなる出力層 4 3から出力される。

各ニューロンは、所定の学習を行うことにより、所定の重み付け係数を記憶し、入力に対して重み付け係数を乗算して、他のニュ一ロンに出力する。また、出力層 4 3の所定のニューロンの出力の一部、コンテキスト（context) C ( t + 1 ) は、入力層 4 1のニュ一ロンにフィ一ドノックされる。

R N N 3 1は、現在の時刻（ステップ） tでのセンサ S ( t ) 、リワード R ( t ) 、およびアクション A ( t ) を入力し、次の時刻 (ステップ） t + 1におけるセンサ S ( t + 1 ) 、リヮ一ド R ( t + 1 ) 、およびアクション A ( t + 1 ) を予測し、出力する。 R N N 3 1は、行動学習を行うことにより、現在時刻と次の時刻の関係を結合重みを徐々に変えることによって記憶する。すなわち、現時点におけるセンサ S ( t ) とアクション A ( t ) の入力に対して、次の時刻（ステップ）においては、どのようなセンサ S ( t + l ) 、およびリワード R ( t + 1 ) が得られるか、また、そのときのァクシヨン A ( t + 1 ) はどのようになるかを予測できるように学習する。

実際の学習時においては、高いリワード R ( t ) が得られたとき、そのアクション A ( t ) を強化する方向に学習が行われる。これは、 Prof it Sharing法といわれ、強化学習法の一種である。この Prof it Sharing法については、例えば、「強化学習における報酬割当ての理論的考察」人工知能学会誌 Vol . 9 No .4第 5 8 0ページ乃至第 5 8 6ページに紹介されている。

これにより、エージヱントであるロボット 1 1は、常に自分の行動（アクション）を高いリワードが得られる方向に持っていくようなアクションポリシ一を得ることができる。

しかしながら、強化学習には、その学習を収束させるために、多くの試行錯誤が必要であることが知られている。そこで、本発明においては、アクションポリシーの強化学習とともに、内部モデルの学習も行うようにすることで、学習の効率をあげるようにしている。ここで、内部モデルとは、 R N N 3 1において、次の時刻（ステツプ）でのセンサ入力およびリワードを、いまとる行動に対して予測できる機能を意味する。

実際には、この内部モデル（予測器）を用いて、将来得られるリワード（複数ステップでのリワード）の合計値が、最大になるようにアクションプラン（アクションシーケンスの組み合わせ）が求められる。このため、後述するように、： N N 3 1において順方向ダイナミクスと逆方向ダイナミクスの処理が繰り返し実行される。また、この時、アクションプラン（アクションの組み合わせ）のサーチ範囲（予測範囲）が組み合わせ的に広がらないように、すなわち、突飛なァクションプランが予測されないようにするために、サーチ範囲を強化学習で得られたァクションポリシ一に基づいて制約する、すなわちより高いリワードが得られる方向のみをサーチし、リヮ一ド全体を最適化するような行動プランを立てる。実際のプランにおいては、次式で示すエネルギ Eが最小となる方向にアクションプランを求める。

J (A (り- 0.5)2

t=0 ί=0

dE

dA(t)=- (2)

dA(t)

(3) 上記式において、 K Κ Κρ, ν , ひは係数であり、ァはリヮ一ド減衰率を表し、 R ( t ) はリワードを表し、 R_P ( t ) はリワードの予測値を表し、 A ( t ) はアクションを表し、 Af (t ) はァクシヨンの予測値を表し、 Noiseはノィズを表している。

上記した式（ 1 ) の第 1項は、リヮードの予測値を最大にする (負の符号が付加されているので、エネルギ Eを小さくする）ための項であり、第 2番目の項は、アクションを 0から 1の間の値ではなく、 0または 1の値とさせるための項であり、第 3番目の項は、アクションポリシーのための項である。エネルギ Eは、これらの 3 つの項の和として定義される。

式（ 1 ) における第 1番目の項を最小化するために、 RNN 3 1 は、図 4のフローチャートに示す処理を実行する。

すなわち、最初にステップ S 1において、順方向ダイナミクスによる予測処理が行われる。この予測処理は、例えば図 5に示すように、時刻 t = 0において、センサ S ( 0 ) 、リワード R ( 0 ) 、ァクシヨン A ( 0 ) 、コンテキスト C ( 0 ) の入力を与えたとき、時刻 t = 1におけるセンサ S ( 1 ) 、リワード R ( 1 ) 、アクション A ( 1 ) 、およびコンテキスト C ( 1 ) を予測生成する処理である。同様にして、時刻 t 二 1のセンサ S ( 1 ) 、リワード R ( 1 ) 、ァクシヨン A ( 1 ) 、およびコンテキスト C ( 1 ) を入力として、時刻 t = 2におけるセンサ S ( 2 ) 、リワード R ( 2 ) 、アクション A ( 2 ) 、およびコンテキスト C ( 2 ) が予測生成される。以下同様に、この例の場合、時刻 t = 3まで、予測生成処理が行われる。このようにして、リワード R ( 0 ) 乃至 R ( 3 ) を合計した値が最大となるように学習が行われる。

なお、図 5においては、 R N N 3 1が多段階に示されているが、実際の処理としては、 1個の R N N 3 1において、所定の時刻（ステツプ）における出力が、次の時刻（ステップ）における入力として帰還されることになる。

次に、ステップ S 2において、逆方向ダイナミクスによるプランの生成処理が実行される。この処理は、例えば、図 6に示すように行われる。すなわち、 0から 1 までの値をとるリヮ一ドの最大値 R max ( = 1 ) から、時刻 t = 3において得られたリワード R ( 3 ) を減算した差分値 d R ( 3 ) ( = Rmax- R ( 3 ) ) と、コンテキスト C ( 3 ) が、； N N 3 1に対してステップ S 1における場合と逆方向に伝搬され、差分アクション（アクションの変化分） Δ Α ( 2 ) とコンテキスト C ( 2 ) が生成される。差分ァクションを一般式で表すと、式（ 3 ) に示すようになる。

次のステップにおいては、同様にして、時刻 t 二 2におけるリヮ —ド R ( 2 ) をリワードの最大値 Rmaxから減算した差分 d R ( 2 ) ( = Rmax— R ( 2 ) ) とコンテキスト C ( 2 ) が、 RNN 3 1に逆方向から入力される。これにより、差分アクション△ A ( 1 ) が生成されるとともに、コンテキスト。（ 1 ) が生成される。

コンテキスト C ( 2 ) には、差分 d R ( 3 ) の成分が含まれており、アクションの変化分 ΔΑ ( 1 ) は、差分 d R ( 2 ) と差分 d R ( 3 ) の両方の成分に基づいて生成される。

さらに、同様にして、時刻 t = 1におけるリワード R ( 1 ) をりワードの最大値 Rmaxから減算した差分 dR ( 1 ) ( = Rmax— R ( 1 ) ) と、時刻 t = 1におけるコンテキスト C ( 1 ) を逆方向から入力して、差分アクション厶 A ( 0 ) とコンテキスト C ( 0 ) が生成される。

差分アクション（アクションの差分値） ΔΑ ( 2 ) 乃至 ΔΑ ( 0 ) が、アクションシーケンスの組み合わせ、すなわち、行動プランとなる。

次に、ステップ S 3に進み、所望の行動プランが得られ、処理を終了するか否かが判定され、まだ、処理を終了しない場合には、ステツプ S 1に戻り、それ以降の処理が繰り返し実行される。所望の行動プランが得られたとき、処理が終了される。

以上のようにして、式（ 1 ) における最初の項のリワードの予測値を最大にするための処理が行われる。図示は省略するが、 RNN 3 1においては、式（ 1 ) における第 2番目の項と第 3番目の項における処理も実行される。

これにより、図 7に模式的に示すように、 RNN 3 1の所定の時刻（図 7の例の場合、 t = 1 ) において RNN 3 1に対して入力されるアクション A ( 1 ) は、時刻 t 二 0からのアクションの予測値 A P ( 1 ) と、時刻 t = 2におけるリワード R ( 2 ) により逆ダイナミクスにより生成して得られた差分アクション△ A ( 1 ) に基づいて生成されたものとなる。

以上の処理における R N N 3 1の学習の過程を図 8に模式的に示す。すなわち、センサ入力からアクションポリシ一の決定処理により、所定のアクションが出力されるように強化学習が行われる。また、センサ、リワード、およびアクションの入力に基づいて、内部モデルが所定のセンサ予測とリヮ一ド予測を出力するように学習処理が行われる。すなわち、強化学習と予測に基づくモデル学習の両方が行われる。

以上の実施の形態では、強化学習のリヮードの仕方を予め外部からロボット 1 1に与える必要がある。このため、ロボット 1 1のァクシヨンは、与えられた枠（フィールド）の中で発達するだけであり、創造的、かつ自律的なアクションを生成することが困難である。これを解決するために、図 9に示すように、センサの予測値とセンサ 1 5の実際の出力とを減算器 5 1で減算して、その差の絶対値を予測誤差として求め、これをリワードとしてバックプロパケーシヨンにより、 R N N 3 1に学習させるようにすることができる。すなわち、この場合の学習処理は、図 1 0のフローチャートに示すようになる。最初に、ステップ S 1 1において、予測誤差生成処理が実行される。ここでは、減算器 5 1が出力層 4 3より出力されたセンサの予測値と、センサ 1 5が実際に周囲の状態を検出した結果の出力とを減算し、その絶対値から予測誤差を生成する。

次に、ステップ S 1 2において、ステップ S 1 1で生成された予測誤差をリワードとして、バックプロバケーションにより R N N 3 1において学習処理が行われる。

このように、センサの予測誤差による学習を行った場合の実験例について、以下に説明する。この実験では、ロボット 1 1において、予測誤差による学習処理を 2 0回行った。このときのロボット 1 1 の移動軌跡を図 1 1〜図 1 5に示す。図 1 1〜図 1 5に示す数字は、学習の順番を表している。すなわち、図 1 1は、第 0番目〜第 3番目の学習時におけるロボット 1 1の移動軌跡を表し、図 1 2は、第 4番目〜第 7番目の学習時におけるロボット 1 1の移動軌跡を表し、図 1 3は、第 8番目〜第 1 1番目の学習時におけるロボット 1 1の移動軌跡を表し、図 1 4は、第 1 2番目〜第 1 5番目の学習時におけるロボット 1 1の移動軌跡を表し、図 1 5は、第 1 6番目〜第 1 9番目の学習時におけるロボット 1 1の移動軌跡を表している。以上のような実験、すなわちロボット 1 1において予測誤差に基づく学習処理を 2 0回行わせる実験を 3回行った。それぞれの実験の結果を図 1 6〜図 1 8に示す。図 1 6は、第 1回目の実験の結果を表し、図 1 7は、第 2回目の実験の結果を表し、図 1 8は、第 3 回目の実験の結果を表している。これら図 1 6〜図 1 8において、横軸は学習の回数を表し、縦軸は 1ステツプ当たりの予測誤差の値、すなわち、各ステップでの予測誤差の自乗の和をステップの総数で割った値を表している。図 1 8に示す、第 3回目の実験の場合、誤差の値が学習回数が増加するにつれて徐々に減少しているが、第 1 6番目の学習時近傍において、誤差が一時的に増加している。これに対して、図 1 6 と図 1 7に示す第 1回目と第 2回目の実験の場合には、学習回数が増加するにともなって、予測誤差が次第に減少していることがわかる。

図 1 9 と図 2 0は、図 1 6に示す第 1回目の実験時における 2 0 回の学習の結果を表している。これら図 1 9 と図 2 0において、上 7行は入力を表し、下 6行は出力を表している。入力のうち、上 5 行はセンサの入力を表し、次の第 6行目はリワードの入力を表し、次の第 7行目はアクションの入力を表している。出力のうち、上 5 行はセンサの予測出力を表し、第 6行目はリワードの予測を表している。

また、各列は、学習時のステップを表している。例えば、第 0回目の学習時においては、数字 1乃至 7で示す 7ステツプの学習処理が行われている。

各ステップで 1つの長方形で示されるプロヅクは、 R N N 3 1における発火の量を表しており、白のプロックは発火のないことを表し、黒のブロックは全ての出力が発火したことを表している。従つて、黒い部分が多いほど、発火の量が多いことを意味する。

また、各回の学習時における入力と出力は、同じタイミングのものを表している。例えば、第 0回目に図示されている出力は、第 0 回目の学習時における出力を表しているが、その入力は、第 1回目の学習時における入力を表している。従って、第 0回目の図において、第 0回目における予測（出力）と、その直後の第 1回目の学習時における入力とを対比して比較することができる。予測が正確であれば、出力の発火のパターンと入力の発火のパターンとが一致することになる。換言すれば、各学習時における入力と出力のパ夕一ンの差が少ないほど、予測誤差が少ないことを意味する。図 1 9 と図 2 0から、学習回数が増加するほど、入力と出力のパターンが似てくること、すなわち、学習回数が進むに従って、予測誤差が少なくなつていることが判る。このことは、図 1 6において、予測誤差が、学習回数が増えるに従って次第に小さくなることに対応している。

以上においては、本発明をロボッ卜に適用した場合を例として説明したが、本発明は、その他の情報処理装置に適用することが可能である。

なお、上記したような処理を行うコンピュータプログラムを提供する提供媒体としては、磁気ディスク、 CD-R0M、固体メモリなどの記録媒体の他、ネットワーク、衛星などの通信媒体を利用することができる。産業上の利用可能性本発明に係る情報処理装置、情報処理方法及び提供媒体では、リヮードの内部モデルによる予測を最大にするァクションの変化分を演算するとともに、アクションポリシーに基づきアクションを演算するようにしたので、行動ブランを生成することができる。

Claims

請求の範囲

1 . 複数ステツプ先に得られるリヮードの内部モデルによる予測を最大にするアクションの変化分を演算する第 1の演算手段と、ァクションポリシ一に基づきァクションを演算する第 2の演算手段とを備える情報処理装置。

2 . 周囲の情報を入力する入力手段と、

上記周囲の情報を予測する予測手段と、

上記予測手段による予測結果と、上記入力手段からの実際の入力との差分を前記リワードとして演算する差分演算手段と、

上記差分演算手段の演算結果を学習する学習手段とを備えることを特徴とする請求の範囲第 1項に記載の情報処理装置。

3 . 複数ステツプ先に得られるリヮ一ドの内部モデルによる予測を最大にするアクションの変化分を演算する第 1の演算ステップと、アクションポリシ一に基づきアクションを演算する第 2の演算ステップとを有する情報処理方法。

4 . 複数ステツプ先に得られるリワードの内部モデルによる予測を最大にするアクションの変化分を演算する第 1の演算ステップと、アクションポリシ一に基づきアクションを演算する第 2の演算ステップとを有する処理を情報処理装置に実行させるコンピュー夕が読みとり可能なプログラムを提供することを特徴とする提供媒体。