WO2000010098A1 - Machine de traitement des donnees, technique de traitement des donnees et support correspondant - Google Patents

Machine de traitement des donnees, technique de traitement des donnees et support correspondant Download PDF

Info

Publication number
WO2000010098A1
WO2000010098A1 PCT/JP1999/004306 JP9904306W WO0010098A1 WO 2000010098 A1 WO2000010098 A1 WO 2000010098A1 JP 9904306 W JP9904306 W JP 9904306W WO 0010098 A1 WO0010098 A1 WO 0010098A1
Authority
WO
WIPO (PCT)
Prior art keywords
action
learning
calculating
prediction
reward
Prior art date
Application number
PCT/JP1999/004306
Other languages
English (en)
French (fr)
Inventor
Jun Tani
Original Assignee
Sony Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corporation filed Critical Sony Corporation
Publication of WO2000010098A1 publication Critical patent/WO2000010098A1/ja

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • G05B13/027Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only

Definitions

  • Item an information processing apparatus, information processing method and providing medium
  • the present invention relates to an information processing apparatus, an information processing method, and providing medium, in particular, the information processing apparatus, information processing method for generating an action plan, and a providing medium .
  • Background Art Various researches have been conducted on artificial intelligence applied to robots. For example, Long-Ji Lin proposed in his paper "Reinforcement Learning With Hidden Statesj" a method of combining prediction and reward learning using a recurrent neural network (RNN).
  • RNN recurrent neural network
  • R. S. Sutton in 1 Learning to predict by the methods of temporal differencesj, Machine Laing, 3: 9-44, 1988, proposes a method that combines internal models and reward learning. In this method, reinforcement learning of action policies is performed through rehearsals using an internal model.
  • An object of the present invention is to provide an information processing apparatus, an information processing method, and an information providing medium capable of generating an action plan.
  • an information processing apparatus comprises: a first calculating means for calculating a change in an action that maximizes a prediction based on an internal model of a reward obtained a plurality of steps ahead; A second calculating means for calculating an action based on a policy.
  • the information processing method according to the present invention in order to achieve the above-described object, maximizes prediction of leads obtained by a plurality of steps ahead using an internal model.
  • the providing medium includes: a first calculation step of calculating a change in an action that maximizes prediction by a internal model of a lead obtained in a plurality of steps;
  • a computer-readable program for causing an information processing apparatus to execute a process including a second operation step of calculating an action based on a policy is provided.
  • FIG. 1 is a diagram schematically showing the appearance of a robot to which the present invention is applied.
  • FIG. 2 is a block diagram showing the internal configuration of the robot shown in FIG.
  • FIG. 3 is a diagram showing a configuration example of a recurrent neural network constituting the neural network recognition device 23 shown in FIG.
  • FIG. 4 is a flowchart for explaining the operation of the recurrent neural network shown in FIG.
  • FIG. 5 is a diagram for explaining the process of step S1 in FIG.
  • FIG. 6 is a diagram for explaining the process of step S2 in FIG.
  • FIG. 7 is a diagram for explaining the operation of the recurrent neural network of FIG.
  • FIG. 8 is a diagram illustrating the learning process of the recurrent neural network of FIG.
  • FIG. 9 is a diagram for explaining another learning process of the recurrent neural network of FIG.
  • FIG. 10 is a flowchart illustrating a learning process of the recurrent neural network of FIG.
  • FIG. 11 is a diagram showing a locus of movement of the robot at the time of learning of the recurrent neural network of FIG.
  • FIG. 12 is a diagram illustrating a locus of movement of the robot during learning of the recurrent neural network of FIG.
  • FIG. 5 is a diagram showing a movement locus of a robot in FIG.
  • FIG. 14 is a diagram showing a locus of movement of the mouth bot when learning the recurrent neural network of FIG.
  • FIG. 15 is a diagram showing a locus of movement of the robot during learning of the recurrent neural network of FIG.
  • FIG. 16 is a diagram showing prediction errors of the recurrent neural network of FIG.
  • FIG. 17 is a diagram showing prediction errors of the recurrent neural network of FIG.
  • FIG. 18 is a diagram showing a prediction error of the recurrent neural network of FIG.
  • FIG. 19 is a diagram showing a firing state during learning of the recurrent neural network in FIG.
  • FIG. 20 is a diagram showing a firing state at the time of learning of the recurrent neural network of FIG. BEST MODE FOR CARRYING OUT THE INVENTION
  • FIG. 20 is a diagram showing a firing state at the time of learning of the recurrent neural network of FIG. BEST MODE FOR CARRYING OUT THE INVENTION
  • FIG. 1 shows the appearance of a robot 11 to which the present invention is applied.
  • the robot 11 has a television camera 12 mounted at the top as one of the sensors, wheels 1-3 mounted at the bottom, a display 14 mounted at the side, and a sensor 15. .
  • the TV camera 12 captures an image around the mouth bot 11.
  • Wheels 13 are Robot 11 is moved to an arbitrary position by control.
  • the display 14 is composed of, for example, a cathode ray tube (CRT) or a liquid crystal display (LCD), and displays predetermined information such as characters and images.
  • the sensor 15 detects information around the robot 11.
  • FIG. 2 is a block diagram showing the internal configuration of the robot 11.
  • the television camera 12 captures the video around the robot 11 as a color image, and supplies the captured color image data to the control circuit 24 and the quantization circuit 25.
  • the quantization circuit 25 quantizes the input color image data and outputs it to the neural network recognition device 23.
  • the sensor 15 supplies various kinds of detected information to the control circuit 24.
  • the neural network recognition device 23 performs recognition processing on the color image data input from the quantization circuit 25 and outputs data indicating the recognition result to the control circuit 24.
  • the control circuit 24 is composed of, for example, a microcomputer, etc., and notifies the neural network recognizing device 23 of the moving direction of the robot and provides the neural network recognizing device 23 with the same.
  • the supplied prediction result is supplied to the display 14.
  • the display 14 displays the prediction result thus obtained as information such as characters or images.
  • control circuit 24 drives the camera 21 and directs the television camera 12 in a predetermined direction. Further, the control circuit 24 drives the motor 22 and thereby rotates the wheel 13 to move the robot 11 to a predetermined position.
  • FIG. 3 is a diagram showing a configuration example of a current-type neural network (hereinafter, referred to as RNN) 31 constituting the neural network recognition device 23.
  • RNN 31 has a predetermined number of news items.
  • Each input neuron of the input layer 41 has a signal (hereinafter, also simply referred to as a sensor) corresponding to the state of various sensors 15 including the television camera 12 S ( t), a reward (reward) R (t), and an action A (t) are input from the control circuit 24.
  • the data input to the input layer 41 is output from an output layer 43 composed of a predetermined number of neurons via an intermediate layer 42 composed of a predetermined number of neurons.
  • Each neuron performs predetermined learning, stores a predetermined weighting coefficient, multiplies an input by the weighting coefficient, and outputs the result to another neuron. Also, a part of the output of a predetermined neuron of the output layer 43, context C (t + 1), is fed knocked to the neuron of the input layer 41.
  • RNN 31 inputs the sensor S (t) at the current time (step) t, the reward R (t), and the action A (t), and the sensor S (t) at the next time (step) t + 1. + 1), lead R (t + 1), and action A (t + 1) are predicted and output.
  • RN N31 stores the relationship between the current time and the next time by performing action learning by gradually changing the connection weight. That is, for the input of the sensor S (t) and the action A (t) at the current time, at the next time (step), what kind of sensor S (t + l) and reward R (t + 1) And learn how to predict what action A (t + 1) will be at that time.
  • the robot 11 as an agent can obtain an action policy that always brings its own actions (actions) in a direction in which a high reward can be obtained.
  • the internal model means a function in RNN31 that can predict the sensor input and reward at the next time (step) with respect to the current action.
  • an action plan (combination of action sequences) is determined so that the total value of rewards (rewards in multiple steps) obtained in the future is maximized. Therefore, as will be described later, the processing of the forward dynamics and the backward dynamics is repeatedly executed in NN31.
  • the search range is strengthened so that the search range (prediction range) of the action plan (combination of actions) does not widen in a combinatorial manner, that is, to prevent unexpected action plans from being predicted.
  • Constrain based on the action policy obtained by learning that is, search only the direction in which a higher reward can be obtained, and develop an action plan that optimizes the entire lead. In the actual plan, the action plan is determined in the direction that minimizes the energy E shown by the following equation. J (A (Ri-0.5) 2
  • the first term of the above equation (1) is a term for maximizing the predicted value of the lead (decreasing the energy E because a negative sign is added), and the second term is This is a term for the action to have a value of 0 or 1 instead of a value between 0 and 1, and the third term is for the action policy.
  • Energy E is defined as the sum of these three terms.
  • the RNN 31 executes the processing shown in the flowchart of FIG.
  • step S1 a prediction process based on forward dynamics is performed.
  • This prediction process is performed, for example, as shown in Fig. 5.
  • a reward R (2), an action A (2), and a context C (2) are predicted.
  • the RNN 31 is shown in multiple stages, but as an actual process, one RNN 31 outputs an output at a predetermined time (step) and outputs the next time (step). ) Will be fed back as input.
  • step S2 a plan generation process based on the backward dynamics is executed.
  • This process is performed, for example, as shown in FIG.
  • the difference function is represented by a general formula, it is as shown in formula (3).
  • the context C (2) contains the component of the difference dR (3), and the change ⁇ ⁇ (1) of the action is the value of both the difference dR (2) and the difference dR (3). Generated based on the components.
  • the difference action (difference value of the action) ⁇ (2) to ⁇ (0) is a combination of action sequences, that is, an action plan.
  • step S3 a desired action plan is obtained, and it is determined whether or not to end the processing. If the processing has not been ended yet, the process returns to step S1 and the subsequent processing is performed. It is executed repeatedly. When the desired action plan has been obtained, the process ends.
  • the processing for maximizing the predicted value of the reward of the first term in equation (1) is performed. Although illustration is omitted, in the RNN 31, the processing in the second and third terms in the equation (1) is also executed.
  • FIG. 8 schematically shows the process of learning RNN31 in the above processing. That is, the reinforcement learning is performed so that a predetermined action is output by the action policy determination process from the sensor input. Further, based on the input of the sensor, the reward, and the action, a learning process is performed so that the internal model outputs a predetermined sensor prediction and a lead prediction. That is, both reinforcement learning and model learning based on prediction are performed.
  • step S11 a prediction error generation process is performed.
  • the subtractor 51 subtracts the predicted value of the sensor output from the output layer 43 from the output of the result of the sensor 15 actually detecting the surrounding state, and calculates the prediction error from the absolute value.
  • step S12 the schedule generated in step S11 is generated.
  • the learning process is performed in RNN 31 by back vacation.
  • FIG. 11 shows the locus of the robot 11 during the 0th to 3rd learning
  • Fig. 12 shows the movement of the robot 11 during the 4th to 7th learning
  • Fig. 13 shows the trajectory of the robot 11 during the eighth to eleventh learning
  • Fig. 14 shows the trajectory during the learning of the 12th to 15th learning.
  • FIG. 15 shows the locus of the robot 11 at the time of the 16th to 19th learning operations.
  • Figures 16 to 18 show the results of each experiment.
  • Figure 16 shows the results of the first experiment
  • Figure 17 shows the results of the second experiment
  • Figure 18 shows the results of the third experiment.
  • the horizontal axis represents the number of times of learning
  • the vertical axis represents the value of the prediction error per step, that is, the sum of the square of the prediction error at each step divided by the total number of steps. Represents a value.
  • the error value gradually decreases as the number of learning increases, but the error temporarily increases near the time of the 16th learning. ing.
  • the prediction error gradually decreased as the number of learnings increased. You can see that it is.
  • FIGS. 19 and 20 show the results of 20 learning operations during the first experiment shown in FIG.
  • the upper 7 lines represent inputs and the lower 6 lines represent outputs.
  • the top five lines represent sensor inputs
  • the next six lines represent reward inputs
  • the next seven lines represent action inputs.
  • the top five rows represent the predicted output of the sensor
  • the sixth row represents the predicted reward.
  • Each column represents a step during learning. For example, at the time of the 0th learning, seven steps of learning processing indicated by numerals 1 to 7 are performed.
  • the block represented by one rectangle at each step, represents the amount of firing at RNN 31; white blocks indicate no firing; black blocks indicate that all outputs have fired. ing. Therefore, the more black parts, the greater the amount of ignition.
  • the input and output at each learning represent the same timing.
  • the output illustrated at the 0th time represents the output at the time of the 0th learning
  • the input represents the input at the time of the 1st learning. Therefore, in the diagram of the 0th time, the prediction (output) at the 0th time can be compared with the input at the time of the 1st learning immediately thereafter. If the prediction is accurate, the output firing pattern will match the input firing pattern. In other words, the smaller the difference between the input and output patterns at each learning, the smaller the prediction error. From Fig. 19 and Fig. 20, the input and output patterns become more similar as the number of learning increases. That is, as the number of learnings increases, the prediction error decreases. This corresponds to the fact that the prediction error in Fig. 16 gradually decreases as the number of times of learning increases.
  • a providing medium for providing a computer program for performing the above-described processing a recording medium such as a magnetic disk, a CD-R0M, a solid-state memory, and a communication medium such as a network and a satellite can be used.
  • a recording medium such as a magnetic disk, a CD-R0M, a solid-state memory, and a communication medium such as a network and a satellite can be used.
  • INDUSTRIAL APPLICABILITY The information processing apparatus, the information processing method and the providing medium according to the present invention calculate an action change based on an action policy while calculating a change in an action that maximizes a prediction based on an internal model of a lead. As a result, the action brand can be generated.

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)
  • Manipulator (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Description

明細 : 情報処理装置、 情報処理方法及び提供媒体 技術分野 本発明は、 情報処理装置、 情報処理方法及び提供媒体に関し、 特 に、 行動プランを生成する情報処理装置、 情報処理方法、 及び提供 媒体に関する。 背景技術 ロボッ 卜に適用される人工知能について、 さまざまな研究がなさ れている。 例えば、 Long-Ji L inは、 その論文 「Re inforcement Lea rning With Hidden Statesj においてリカレン ト型ニューラルネヅ トワーク (R N N ) を用いて、 予測と報酬学習を組み合わせる手法 を提案している。
また、 R. S . Suttonは、 1 Learning to predict by the methods of temporal dif f erencesj ,Machine La ing, 3 : 9 - 44, 1988において. 内部モデルと報酬学習を組み合わせる手法を提案している。 この手 法では、 内部モデルにより、 リハーサルを通してアクションポリシ 一の強化学習が行われる。
しかしながら、 これらいずれの手法を用いても、 将来のァクショ ンのシーケンス、 すなわち行動 (アクション) プランを生成するこ とができない。 発明の開示 本発明は、 行動プランを生成することができる情報処理装置、 情 報処理方法及び情報提供媒体を提供することを目的とする。
本発明に係る情報処理装置は、 上述の目的を達成するために、 複 数ステップ先に得られるリワードの内部モデルによる予測を最大に するァクションの変化分を演算する第 1の演算手段と、 アクション ポリシーに基づきアクションを演算する第 2の演算手段とを備える ( また、 本発明に係る情報処理方法は、 上述の目的を達成するため に、 複数ステップ先に得られる リヮードの内部モデルによる予測を 最大にするアクションの変化分を演算する第 1の演算ステップと、 アクションポリシ一に基づきアクションを演算する第 2の演算ステ ップとを有する。
また、 本発明に係る提供媒体は、 上述の目的を達成するために、 複数ステツプ先に得られるリヮードの内部モデルによる予測を最大 にするアクションの変化分を演算する第 1の演算ステップと、 ァク シヨンポリシ一に基づきァクションを演算する第 2の演算ステヅプ とを含む処理を情報処理装置に実行させるコンピュー夕が読みとり 可能なプログラムを提供する。
本発明に係る情報処理装置、 情報処理方法及び提供媒体によれば、 複数ステップ先に得られるリヮ一ドの内部モデルによる予測を最大 にするアクションの変化分が演算されるとともに、 アクションポリ シ一に基づきァクションが演算され、 行動プランが生成される。 図面の簡単な説明 図 1は、 本発明を適用したロボッ 卜の外観を概略的に示す図であ る。
図 2は、 図 1に示すロボッ 卜の内部の構成を示すプロック図であ る。
図 3は、 図 2に示すニューラルネッ ト認識装置 2 3を構成するリ カレン ト型ニューラルネッ トワークの構成例を示す図である。
図 4は、 図 3に示すリカレン ト型ニューラルネッ トワークの動作 を説明するフローチャートである。
図 5は、 図 4のステップ S 1の処理を説明する図である。
図 6は、 図 4のステップ S 2の処理を説明する図である。
図 7は、 図 3のリカレン ト型ニューラルネッ トワークの動作を説 明する図である。
図 8は、 図 3のリカレン ト型ニューラルネッ トワークの学習処理 を説明する図である。
図 9は、 図 3のリカレン ト型ニューラルネッ トヮ一クの他の学習 処理を説明する図である。
図 1 0は、 図 9のリカレン ト型ニューラルネッ トワークの学習処 理を説明するフローチャートである。
図 1 1は、 図 9のリカレン ト型ニューラルネッ トワークの学習時 におけるロボッ 卜の移動軌跡を示す図である。
図 1 2は、 図 9のリカレン ト型ニューラルネッ トワークの学習時 におけるロボッ トの移動軌跡を示す図である。
図 1 3は、 図 9のリカレン ト型ニューラルネッ トワークの学習時 におけるロボッ トの移動軌跡を示す図である。
図 1 4は、 図 9のリカレン ト型ニューラルネッ トワークの学習時 における口ボッ トの移動軌跡を示す図である。
図 1 5は、 図 9のリカレン ト型ニューラルネッ トワークの学習時 におけるロボッ トの移動軌跡を示す図である。
図 1 6は、 図 9のリカレン ト型ニューラルネッ トワークの予測誤 差を示す図である。
図 1 7は、 図 9のリカレン ト型ニューラルネッ トワークの予測誤 差を示す図である。
図 1 8は、 図 9のリカレン ト型ニューラルネヅ トワークの予測誤 差を示す図である。
図 1 9は、 図 9のリカレン ト型ニューラルネヅ トワークの学習時 における発火の状態を示す図である。
図 2 0は、 図 9のリカレン ト型ニューラルネッ トワークの学習時 における発火の状態を示す図である。 発明を実施するための最良の形態 以下、 本発明に係る情報処理装置、 情報処理方法及び提供媒体に ついて、 図面を参照しながら詳細に説明する。
本発明を適用したロボッ ト 1 1の外観を図 1に示す。 ロボッ ト 1 1は、 センサの 1つとして上部に取り付けられたテレビカメラ 1 2 と、 底部に取り付けられた車輪 1—3 と、 側面に取り付けられたディ スプレイ 1 4と、 センサ 1 5 とを備える。 テレビカメラ 1 2は、 口 ボッ ト 1 1の周囲の画像を撮像する。 車輪 1 3は、 後述するような 制御によりロボッ ト 1 1を任意の位置に移動させる。 ディスプレイ 1 4は、 例えば陰極線管 ( C R T ) 又は液晶表示装置 ( L C D ) 等 からなり、 文字や画像などの所定の情報を表示する。 センサ 1 5は、 ロボッ ト 1 1の周囲の情報を検出する。
図 2は、 ロボッ ト 1 1の内部構成を示すプロック図である。 テレ ビカメラ 1 2は、 ロボッ ト 1 1の周囲の映像をカラ一画像として取 り込み、 取り込んだカラー画像データを制御回路 2 4 と量子化回路 2 5に供給する。 量子化回路 2 5は、 入力されたカラー画像デ一夕 を量子化し、 ニューラルネッ ト認識装置 2 3に出力する。 センサ 1 5は検出した各種の情報を制御回路 2 4に供給する。 ニューラルネ ッ ト認識装置 2 3は、 量子化回路 2 5より入力されたカラー画像デ —夕を認識処理し、 認識結果を示すデ一夕を制御回路 2 4に出力す る。 制御回路 2 4は、 例えばマイクロコンピュー夕等により構成さ れており、 ニューラルネッ ト認識装置 2 3に対して、 ロボッ トの移 動方向を通知するとともに、 ニューラルネッ ト認識装置 2 3 より供 給された予測結果をディスプレイ 1 4に供給する。 ディスプレイ 1 4は、 このようにして得られた予測結果を文字又は画像等の情報と して表示する。
また、 制御回路 2 4は、 モ一夕 2 1を駆動し、 テレ ビカメ ラ 1 2 を所定の方向に指向させる。 さらに、 制御回路 2 4はモー夕 2 2を 駆動し、 これにより車輪 1 3を回転させて、 ロボヅ ト 1 1を所定の 位置に移動させる。
図 3は、 ニューラルネッ ト認識装置 2 3を構成するリ カレン ト型 ニュ一ラルネッ トワーク (以下、 R N Nという。 ) 3 1 の構成例を 示す図である。 図 3に示すように、 R N N 3 1は、 所定の数のニュ —ロンからなる入力層 4 1を有し、 この入力層 4 1の各ニューロン には、 テレビカメラ 1 2を含む各種のセンサ 1 5の状態に対応する 信号 (以下、 単にセンサとも称する) S ( t ) 、 リワー ド (報酬) R ( t ) 、 およびアクション A ( t ) が、 制御回路 2 4から入力さ れる。 入力層 4 1に入力されたデ一夕は、 所定の数のニューロンか らなる中間層 4 2を介して、 所定の数のニューロンからなる出力層 4 3から出力される。
各ニューロンは、 所定の学習を行うことにより、 所定の重み付け 係数を記憶し、 入力に対して重み付け係数を乗算して、 他のニュ一 ロンに出力する。 また、 出力層 4 3の所定のニューロンの出力の一 部、 コンテキス ト (context) C ( t + 1 ) は、 入力層 4 1のニュ一 ロンにフィ一ドノ ックされる。
R N N 3 1は、 現在の時刻 (ステップ) tでのセンサ S ( t ) 、 リワード R ( t ) 、 およびアクション A ( t ) を入力し、 次の時刻 (ステップ) t + 1におけるセンサ S ( t + 1 ) 、 リヮ一ド R ( t + 1 ) 、 およびアクション A ( t + 1 ) を予測し、 出力する。 R N N 3 1は、 行動学習を行うことによ り、 現在時刻と次の時刻の関係 を結合重みを徐々に変えることによって記憶する。 すなわち、 現時 点におけるセンサ S ( t ) とアクション A ( t ) の入力に対して、 次の時刻 (ステップ) においては、 どのようなセンサ S ( t + l ) 、 およびリワード R ( t + 1 ) が得られるか、 また、 そのときのァク シヨン A ( t + 1 ) はどのようになるかを予測できるように学習す る。
実際の学習時においては、 高いリワード R ( t ) が得られたとき、 そのアクション A ( t ) を強化する方向に学習が行われる。 これは、 Prof it Sharing法といわれ、 強化学習法の一種である。 この Prof it Sharing法については、 例えば、 「強化学習における報酬割当ての 理論的考察」 人工知能学会誌 Vol . 9 No .4第 5 8 0ページ乃至第 5 8 6ページに紹介されている。
これにより、 エージヱン トであるロボッ ト 1 1は、 常に自分の行 動 (アクション) を高いリワードが得られる方向に持っていく よう なアクションポリシ一を得ることができる。
しかしながら、 強化学習には、 その学習を収束させるために、 多 くの試行錯誤が必要であることが知られている。 そこで、 本発明に おいては、 アクションポリシーの強化学習とともに、 内部モデルの 学習も行うようにすることで、 学習の効率をあげるようにしている。 ここで、 内部モデルとは、 R N N 3 1において、 次の時刻 (ステツ プ) でのセンサ入力およびリワードを、 いまとる行動に対して予測 できる機能を意味する。
実際には、 この内部モデル (予測器) を用いて、 将来得られるリ ワード (複数ステップでのリワード) の合計値が、 最大になるよう にアクションプラン (アクションシーケンスの組み合わせ) が求め られる。 このため、 後述するように、 : N N 3 1において順方向ダ イナミクスと逆方向ダイナミクスの処理が繰り返し実行される。 また、 この時、 アクションプラン (アクションの組み合わせ) の サーチ範囲 (予測範囲) が組み合わせ的に広がらないように、 すな わち、 突飛なァクションプランが予測されないようにするために、 サーチ範囲を強化学習で得られたァクションポリシ一に基づいて制 約する、 すなわちより高いリワードが得られる方向のみをサーチし、 リヮ一ド全体を最適化するような行動プランを立てる。 実際のプランにおいては、 次式で示すエネルギ Eが最小となる方 向にアクションプランを求める。
Figure imgf000010_0001
J (A (り- 0.5)2
t=0 ί=0
Figure imgf000010_0002
dE
dA(t)=- (2)
dA(t)
Figure imgf000010_0003
(3) 上記式において、 K Κ Κρ, ν , ひは係数であり、 ァはリヮ一 ド減衰率を表し、 R ( t ) はリワードを表し、 RP ( t ) はリワード の予測値を表し、 A ( t ) はアクションを表し、 Af (t ) はァクシ ヨンの予測値を表し、 Noiseはノィズを表している。
上記した式 ( 1 ) の第 1項は、 リヮードの予測値を最大にする (負の符号が付加されているので、 エネルギ Eを小さくする) ため の項であり、 第 2番目の項は、 アクションを 0から 1の間の値では なく、 0または 1の値とさせるための項であり、 第 3番目の項は、 アクションポリシーのための項である。 エネルギ Eは、 これらの 3 つの項の和として定義される。
式 ( 1 ) における第 1番目の項を最小化するために、 RNN 3 1 は、 図 4のフローチャートに示す処理を実行する。
すなわち、 最初にステップ S 1において、 順方向ダイナミクスに よる予測処理が行われる。 この予測処理は、 例えば図 5に示すよう に、 時刻 t = 0において、 センサ S ( 0 ) 、 リワード R ( 0 ) 、 ァ クシヨン A ( 0 ) 、 コンテキス ト C ( 0 ) の入力を与えたとき、 時 刻 t = 1におけるセンサ S ( 1 ) 、 リワード R ( 1 ) 、 アクション A ( 1 ) 、 およびコンテキス ト C ( 1 ) を予測生成する処理である。 同様にして、 時刻 t 二 1のセンサ S ( 1 ) 、 リワード R ( 1 ) 、 ァ クシヨン A ( 1 ) 、 およびコンテキス ト C ( 1 ) を入力として、 時 刻 t = 2におけるセンサ S ( 2 ) 、 リワード R ( 2 ) 、 アクション A ( 2 ) 、 およびコンテキス ト C ( 2 ) が予測生成される。 以下同 様に、 この例の場合、 時刻 t = 3まで、 予測生成処理が行われる。 このようにして、 リワード R ( 0 ) 乃至 R ( 3 ) を合計した値が最 大となるように学習が行われる。
なお、 図 5においては、 R N N 3 1が多段階に示されているが、 実際の処理としては、 1個の R N N 3 1において、 所定の時刻 (ス テツプ) における出力が、 次の時刻 (ステップ) における入力とし て帰還されることになる。
次に、 ステップ S 2において、 逆方向ダイナミクスによるプラン の生成処理が実行される。 この処理は、 例えば、 図 6に示すように 行われる。 すなわち、 0から 1 までの値をとるリヮ一ドの最大値 R max ( = 1 ) から、 時刻 t = 3において得られたリワード R ( 3 ) を 減算した差分値 d R ( 3 ) ( = Rmax- R ( 3 ) ) と、 コンテキス ト C ( 3 ) が、 ; N N 3 1に対してステップ S 1における場合と逆方 向に伝搬され、 差分アクション (アクションの変化分) Δ Α ( 2 ) とコンテキス ト C ( 2 ) が生成される。 差分ァクションを一般式で 表すと、 式 ( 3 ) に示すようになる。
次のステップにおいては、 同様にして、 時刻 t 二 2における リヮ —ド R ( 2 ) をリワードの最大値 Rmaxから減算した差分 d R ( 2 ) ( = Rmax— R ( 2 ) ) とコンテキス ト C ( 2 ) が、 RNN 3 1に逆 方向から入力される。 これにより、 差分アクション△ A ( 1 ) が生 成されるとともに、 コンテキス ト 。 ( 1 ) が生成される。
コンテキス ト C ( 2 ) には、 差分 d R ( 3 ) の成分が含まれてお り、 アクションの変化分 ΔΑ ( 1 ) は、 差分 d R ( 2 ) と差分 d R ( 3 ) の両方の成分に基づいて生成される。
さらに、 同様にして、 時刻 t = 1におけるリワード R ( 1 ) をり ワードの最大値 Rmaxから減算した差分 dR ( 1 ) ( = Rmax— R ( 1 ) ) と、 時刻 t = 1におけるコンテキス ト C ( 1 ) を逆方向か ら入力して、 差分アクション厶 A ( 0 ) とコンテキス ト C ( 0 ) が 生成される。
差分アクション (アクションの差分値) ΔΑ ( 2 ) 乃至 ΔΑ ( 0 ) が、 アクションシーケンスの組み合わせ、 すなわち、 行動プ ランとなる。
次に、 ステップ S 3に進み、 所望の行動プランが得られ、 処理を 終了するか否かが判定され、 まだ、 処理を終了しない場合には、 ス テツプ S 1に戻り、 それ以降の処理が繰り返し実行される。 所望の 行動プランが得られたとき、 処理が終了される。
以上のようにして、 式 ( 1 ) における最初の項のリワードの予測 値を最大にするための処理が行われる。 図示は省略するが、 RNN 3 1においては、 式 ( 1 ) における第 2番目の項と第 3番目の項に おける処理も実行される。
これにより、 図 7に模式的に示すように、 RNN 3 1の所定の時 刻 (図 7の例の場合、 t = 1 ) において RNN 3 1に対して入力さ れるアクション A ( 1 ) は、 時刻 t 二 0からのアクションの予測値 A P ( 1 ) と、 時刻 t = 2におけるリワード R ( 2 ) により逆ダイナ ミクスにより生成して得られた差分アクション△ A ( 1 ) に基づい て生成されたものとなる。
以上の処理における R N N 3 1の学習の過程を図 8に模式的に示 す。 すなわち、 センサ入力からアクションポリシ一の決定処理によ り、 所定のアクションが出力されるように強化学習が行われる。 ま た、 センサ、 リワード、 およびアクションの入力に基づいて、 内部 モデルが所定のセンサ予測とリヮ一ド予測を出力するように学習処 理が行われる。 すなわち、 強化学習と予測に基づくモデル学習の両 方が行われる。
以上の実施の形態では、 強化学習のリヮードの仕方を予め外部か らロボッ ト 1 1に与える必要がある。 このため、 ロボッ ト 1 1のァ クシヨンは、 与えられた枠 (フィールド) の中で発達するだけであ り、 創造的、 かつ自律的なアクションを生成することが困難である。 これを解決するために、 図 9に示すように、 センサの予測値とセ ンサ 1 5の実際の出力とを減算器 5 1で減算して、 その差の絶対値 を予測誤差として求め、 これをリワードとしてバックプロパケーシ ヨンにより、 R N N 3 1に学習させるようにすることができる。 すなわち、 この場合の学習処理は、 図 1 0のフローチャートに示 すようになる。 最初に、 ステップ S 1 1において、 予測誤差生成処 理が実行される。 ここでは、 減算器 5 1が出力層 4 3より出力され たセンサの予測値と、 センサ 1 5が実際に周囲の状態を検出した結 果の出力とを減算し、 その絶対値から予測誤差を生成する。
次に、 ステップ S 1 2において、 ステップ S 1 1で生成された予 測誤差をリワードとして、 バックプロバケーションにより R N N 3 1において学習処理が行われる。
このように、 センサの予測誤差による学習を行った場合の実験例 について、 以下に説明する。 この実験では、 ロボッ ト 1 1において、 予測誤差による学習処理を 2 0回行った。 このときのロボッ ト 1 1 の移動軌跡を図 1 1〜図 1 5に示す。 図 1 1〜図 1 5に示す数字は、 学習の順番を表している。 すなわち、 図 1 1は、 第 0番目〜第 3番 目の学習時におけるロボッ ト 1 1の移動軌跡を表し、 図 1 2は、 第 4番目〜第 7番目の学習時におけるロボッ ト 1 1の移動軌跡を表し、 図 1 3は、 第 8番目〜第 1 1番目の学習時におけるロボッ ト 1 1の 移動軌跡を表し、 図 1 4は、 第 1 2番目〜第 1 5番目の学習時にお けるロボッ ト 1 1の移動軌跡を表し、 図 1 5は、 第 1 6番目〜第 1 9番目の学習時におけるロボッ ト 1 1の移動軌跡を表している。 以上のような実験、 すなわちロボッ ト 1 1において予測誤差に基 づく学習処理を 2 0回行わせる実験を 3回行った。 それぞれの実験 の結果を図 1 6〜図 1 8に示す。 図 1 6は、 第 1回目の実験の結果 を表し、 図 1 7は、 第 2回目の実験の結果を表し、 図 1 8は、 第 3 回目の実験の結果を表している。 これら図 1 6〜図 1 8において、 横軸は学習の回数を表し、 縦軸は 1ステツプ当たりの予測誤差の値、 すなわち、 各ステップでの予測誤差の自乗の和をステップの総数で 割った値を表している。 図 1 8に示す、 第 3回目の実験の場合、 誤 差の値が学習回数が増加するにつれて徐々に減少しているが、 第 1 6番目の学習時近傍において、 誤差が一時的に増加している。 これ に対して、 図 1 6 と図 1 7に示す第 1回目と第 2回目の実験の場合 には、 学習回数が増加するにともなって、 予測誤差が次第に減少し ていることがわかる。
図 1 9 と図 2 0は、 図 1 6に示す第 1回目の実験時における 2 0 回の学習の結果を表している。 これら図 1 9 と図 2 0において、 上 7行は入力を表し、 下 6行は出力を表している。 入力のうち、 上 5 行はセンサの入力を表し、 次の第 6行目はリワードの入力を表し、 次の第 7行目はアクションの入力を表している。 出力のうち、 上 5 行はセンサの予測出力を表し、 第 6行目はリワードの予測を表して いる。
また、 各列は、 学習時のステップを表している。 例えば、 第 0回 目の学習時においては、 数字 1乃至 7で示す 7ステツプの学習処理 が行われている。
各ステップで 1つの長方形で示されるプロヅクは、 R N N 3 1に おける発火の量を表しており、 白のプロックは発火のないことを表 し、 黒のブロックは全ての出力が発火したことを表している。 従つ て、 黒い部分が多いほど、 発火の量が多いことを意味する。
また、 各回の学習時における入力と出力は、 同じタイ ミングのも のを表している。 例えば、 第 0回目に図示されている出力は、 第 0 回目の学習時における出力を表しているが、 その入力は、 第 1回目 の学習時における入力を表している。 従って、 第 0回目の図におい て、 第 0回目における予測 (出力) と、 その直後の第 1回目の学習 時における入力とを対比して比較することができる。 予測が正確で あれば、 出力の発火のパターンと入力の発火のパターンとが一致す ることになる。 換言すれば、 各学習時における入力と出力のパ夕一 ンの差が少ないほど、 予測誤差が少ないことを意味する。 図 1 9 と 図 2 0から、 学習回数が増加するほど、 入力と出力のパターンが似 てく ること、 すなわち、 学習回数が進むに従って、 予測誤差が少な くなつていることが判る。 このことは、 図 1 6において、 予測誤差 が、 学習回数が増えるに従って次第に小さくなることに対応してい る。
以上においては、 本発明をロボッ 卜に適用した場合を例として説 明したが、 本発明は、 その他の情報処理装置に適用することが可能 である。
なお、 上記したような処理を行うコンピュータプログラムを提供 する提供媒体としては、 磁気ディスク、 CD-R0M、 固体メモリなどの 記録媒体の他、 ネッ トワーク、 衛星などの通信媒体を利用すること ができる。 産業上の利用可能性 本発明に係る情報処理装置、 情報処理方法及び提供媒体では、 リ ヮードの内部モデルによる予測を最大にするァクションの変化分を 演算するとともに、 アクションポリシーに基づきアクションを演算 するようにしたので、 行動ブランを生成することができる。

Claims

請求の範囲
1 . 複数ステツプ先に得られる リヮードの内部モデルによる予測 を最大にするアクションの変化分を演算する第 1の演算手段と、 ァクションポリシ一に基づきァクションを演算する第 2の演算手 段とを備える情報処理装置。
2 . 周囲の情報を入力する入力手段と、
上記周囲の情報を予測する予測手段と、
上記予測手段による予測結果と、 上記入力手段からの実際の入力 との差分を前記リワードとして演算する差分演算手段と、
上記差分演算手段の演算結果を学習する学習手段とを備えること を特徴とする請求の範囲第 1項に記載の情報処理装置。
3 . 複数ステツプ先に得られるリヮ一ドの内部モデルによる予測 を最大にするアクションの変化分を演算する第 1の演算ステップと、 アクションポリシ一に基づきアクションを演算する第 2の演算ス テップとを有する情報処理方法。
4 . 複数ステツプ先に得られるリワードの内部モデルによる予測 を最大にするアクションの変化分を演算する第 1の演算ステップと、 アクションポリシ一に基づきアクションを演算する第 2の演算ステ ップとを有する処理を情報処理装置に実行させるコンピュー夕が読 みとり可能なプログラムを提供することを特徴とする提供媒体。
PCT/JP1999/004306 1998-08-12 1999-08-09 Machine de traitement des donnees, technique de traitement des donnees et support correspondant WO2000010098A1 (fr)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP10/227951 1998-08-12
JP22795198 1998-08-12
JP11021791A JP2000122992A (ja) 1998-08-12 1999-01-29 情報処理装置および方法、並びに提供媒体
JP11/21791 1999-01-29

Publications (1)

Publication Number Publication Date
WO2000010098A1 true WO2000010098A1 (fr) 2000-02-24

Family

ID=26358892

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP1999/004306 WO2000010098A1 (fr) 1998-08-12 1999-08-09 Machine de traitement des donnees, technique de traitement des donnees et support correspondant

Country Status (2)

Country Link
JP (1) JP2000122992A (ja)
WO (1) WO2000010098A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002059384A (ja) * 2000-08-22 2002-02-26 Sony Corp ロボットのための学習システム及び学習方法
JP4525477B2 (ja) * 2005-02-23 2010-08-18 ソニー株式会社 学習制御装置および学習制御方法、並びに、プログラム
EP3075496B1 (en) * 2015-04-02 2022-05-04 Honda Research Institute Europe GmbH Method for improving operation of a robot
US11074480B2 (en) * 2019-01-31 2021-07-27 StradVision, Inc. Learning method and learning device for supporting reinforcement learning by using human driving data as training data to thereby perform personalized path planning
US20230162050A1 (en) * 2020-12-29 2023-05-25 Ineeji Method and device for predicting and controlling time series data based on automatic learning

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06324710A (ja) * 1993-05-12 1994-11-25 Yaskawa Electric Corp 学習制御装置
JPH07244502A (ja) * 1994-03-04 1995-09-19 Toshiba Corp 制御装置
US5608843A (en) * 1994-08-01 1997-03-04 The United States Of America As Represented By The Secretary Of The Air Force Learning controller with advantage updating algorithm
JPH09245012A (ja) * 1996-03-08 1997-09-19 Mitsubishi Electric Corp 学習制御方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06324710A (ja) * 1993-05-12 1994-11-25 Yaskawa Electric Corp 学習制御装置
JPH07244502A (ja) * 1994-03-04 1995-09-19 Toshiba Corp 制御装置
US5608843A (en) * 1994-08-01 1997-03-04 The United States Of America As Represented By The Secretary Of The Air Force Learning controller with advantage updating algorithm
JPH09245012A (ja) * 1996-03-08 1997-09-19 Mitsubishi Electric Corp 学習制御方法

Also Published As

Publication number Publication date
JP2000122992A (ja) 2000-04-28

Similar Documents

Publication Publication Date Title
US7082421B2 (en) Information processing apparatus and method, and recording medium
US20200090042A1 (en) Data efficient imitation of diverse behaviors
CN110114783B (zh) 利用辅助任务的强化学习
Van Baar et al. Sim-to-real transfer learning using robustified controllers in robotic tasks involving complex dynamics
JP3242950B2 (ja) 予測制御方法
JPH10254505A (ja) 自動制御装置
CN113807460B (zh) 智能体动作的确定方法和装置、电子设备和介质
US20210182620A1 (en) Systems and Methods for Training a Machine Learned Model for Agent Navigation
WO2000010098A1 (fr) Machine de traitement des donnees, technique de traitement des donnees et support correspondant
US6792413B2 (en) Data processing apparatus and method, recording medium, and program
JP2022521881A (ja) 車両のアクションの予測を取得するためのシステムおよび対応する方法
Sala et al. Adaptive polyhedral meshing for approximate dynamic programming in control
US6768927B2 (en) Control system
EP0434423A2 (en) A system for learning an external evaluation standard
JP2020095471A (ja) 推定装置、訓練装置、推定方法及び訓練方法
JP2009140454A (ja) データ処理装置、データ処理方法、及びプログラム
JPH09237260A (ja) 多層神経回路網学習装置
US7324980B2 (en) Information processing apparatus and method
Dewa et al. Integrating multiple policies for person-following robot training using deep reinforcement learning
Liu et al. AUV Adaptive PID Control Method Based on Deep Reinforcement Learning
Yang et al. Path-tracking controller design and implementation of a vision-based wheeled mobile robot
JP3250083B2 (ja) オプティカルフロー算出方式
JP3523325B2 (ja) ニューラルネットワーク及びこれを用いた信号処理装置、自律システム、自律型ロボット並びに移動システム
JPH05128082A (ja) 階層ネツトワーク構成データ処理装置とその学習処理方法
JPH05303645A (ja) 画像認識装置

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): CA US

WWE Wipo information: entry into national phase

Ref document number: 09509450

Country of ref document: US