WO2007063633A1 - 位相反応曲線学習方法及び装置、周期的運動制御方法及び装置、並びに歩行運動制御装置 - Google Patents

位相反応曲線学習方法及び装置、周期的運動制御方法及び装置、並びに歩行運動制御装置 Download PDF

Info

Publication number
WO2007063633A1
WO2007063633A1 PCT/JP2006/318504 JP2006318504W WO2007063633A1 WO 2007063633 A1 WO2007063633 A1 WO 2007063633A1 JP 2006318504 W JP2006318504 W JP 2006318504W WO 2007063633 A1 WO2007063633 A1 WO 2007063633A1
Authority
WO
WIPO (PCT)
Prior art keywords
response curve
phase
phase response
periodic motion
walking
Prior art date
Application number
PCT/JP2006/318504
Other languages
English (en)
French (fr)
Inventor
Jun Morimoto
Jun Nakanishi
Gen Endo
Gordon Cheng
Mitsuo Kawato
Original Assignee
Japan Science And Technology Agency
Advanced Telecommunications Research Institute International
Sony Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Science And Technology Agency, Advanced Telecommunications Research Institute International, Sony Corporation filed Critical Japan Science And Technology Agency
Publication of WO2007063633A1 publication Critical patent/WO2007063633A1/ja

Links

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B62LAND VEHICLES FOR TRAVELLING OTHERWISE THAN ON RAILS
    • B62DMOTOR VEHICLES; TRAILERS
    • B62D57/00Vehicles characterised by having other propulsion or other ground- engaging means than wheels or endless track, alone or in addition to wheels or endless track
    • B62D57/02Vehicles characterised by having other propulsion or other ground- engaging means than wheels or endless track, alone or in addition to wheels or endless track with ground-engaging propulsion means, e.g. walking members
    • B62D57/032Vehicles characterised by having other propulsion or other ground- engaging means than wheels or endless track, alone or in addition to wheels or endless track with ground-engaging propulsion means, e.g. walking members with alternately or sequentially lifted supporting base and legs; with alternately or sequentially lifted feet or skid
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B15/00Systems controlled by a computer
    • G05B15/02Systems controlled by a computer electric
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B5/00Anti-hunting arrangements
    • G05B5/01Anti-hunting arrangements electric

Definitions

  • Phase response curve learning method and device Phase response curve learning method and device, periodic motion control method and device, and walking motion control device
  • the present invention relates to a phase response curve learning method and device for updating a phase response curve effective for stability of periodic motion such as walking motion, a periodic motion control method and device using the same, and
  • the present invention relates to a walking motion control device.
  • FIG. 13 shows an example of the phase response curve 30.
  • the phase response curve 30 shows the amount of phase change with respect to a disturbance factor of periodic motion in which multiple events occur periodically. For example, when a disturbance is applied to an oscillator that is performing periodic motion, the period of the oscillator after a long time converges to the original period, but a phase shift (phase change) occurs.
  • This phase response curve shows the relationship between phase ⁇ and phase change ⁇ , with the timing of disturbance disturbance (phase ⁇ ) on the horizontal axis and phase change ⁇ on the vertical axis. 30.
  • Non-Patent Document 1 Taiga Yamazaki and 2 others (T. Yamasaki, T. Nomura, and S. Sato), Possiblesolutional roles of phase resetting during walki ng), “Biological Cybernetics”, 2003, Vol. 88, No. 6, ⁇ . 468 -496
  • Non-Patent Document 2 Kazuo Tsuchiya and 2 others (K.Tsuchiya, S.Aoi, and K. Tsujita), Locomotion control of biped locomotion rob ot using nonlinear oscillators), "In Proceedings of the IEEE / RSJ International Conference on Intelligent Robots and Systems” J, Las Vegas (USA), 2003, p. 1745— 1750
  • Non-Patent Document 3 Akira Nakanishi and 5 others (J. Nakanishi, J. Morimoto, G. Endo, G. Chen, S. Schaal, and nd M. Kawato), Demonstration of biped walking and learning from adaptation (Learning from demonstration and adaptation of biped locomotion), “Robotic s and Autonomous Systems”, 2004, 47th, p. 79—91
  • Non-Patent Document 4 RS Sutton, et al. (RSSutton and AGBarto), Reinforcement Learning: An Introduction), EM Press 1 ⁇ 'Press (MIT Press;, Cambridge, 1998)
  • Non-Patent Document 5 Kenji Doya (K. Doya), Reinforcement Learning in Continuous Time and bpace, "Neural Computation” ”2000, No.12, No.1, p. 219 ⁇ 245
  • Non-Patent Document 6 Masaaki Sato and 1 other author (M. Sato and S. Ishii), Reinforcement learning based on on-line EM algorithm. (In Mb Kearns, S. A. Solla, andD. A. Cohn editors )), "advances in neural information processing system (advances in neural information processing systems 11 ), Emuaiai 1 ⁇ ⁇ 'press (MIT Press), Cambridge, 1999, p. 1052- 1058
  • Non-patent document 7 Acquisition of stand-up behavior by a real robot using hierarchical reinforcement, written by Satoshi Morimoto and 1 other (J. Morimoto and K. Doya), Hierarchical reinforcement learning learning), “Robotic s and Autonomous Systems, 2001, Vol. 36, p. 37— 51
  • the present invention has been made in view of such circumstances. Success or failure is determined for each of a plurality of events in a periodic motion such as a walking motion, and each of the events is determined based on the determination result.
  • a periodic motion such as a walking motion
  • each of the events is determined based on the determination result.
  • the phase response curve is not designed by humans or in an exploratory manner.
  • the object is to provide a phase response curve learning method and a phase response curve learning device that are excellent in objectivity without design and that can realize the stability of periodic motion by updating the phase response curve.
  • the present invention realizes stable periodic motion by resetting the phase that defines the periodic motion based on the reinforcement-learned phase response curve to establish synchronization between the controller and the controlled object.
  • the purpose is to provide a periodic motion control method and a periodic motion control device capable of performing the same.
  • the present invention determines success or failure for each of a plurality of events in a periodic motion such as walking motion, sets the achievement level of each event based on the determination result, and sets each event While updating the parameters of the phase response curve so that the cumulative value of achievement is maximized, the pattern of the periodic motion is changed according to the disturbance factor, so that the phase response curve is not designed by humans and is also fully searched.
  • the objective is to provide a periodic motion control device and a walking motion control device that are superior in objectivity, can update the phase response curve, and can stabilize periodic motion and walking motion. To do.
  • the present invention is based on the reinforcement-learned phase response curve, and resets the phase that defines the periodic motion to establish synchronization between the controller and the controlled object, thereby stabilizing the periodic motion such as stable walking motion.
  • An object is to provide a periodic motion control device and a walking motion control device capable of realizing motion. Means for solving the problem
  • the phase response curve learning method is a phase response curve learning in which a phase response curve indicating a phase change amount with respect to a disturbance factor of a periodic motion in which a plurality of events occur periodically is updated by reinforcement learning. Determining the success or failure of each event, setting the achievement level of each event based on the determination result, and setting the parameter of the phase response curve so that the cumulative value of the achievement level of each set event is maximized It is characterized by updating.
  • a phase response curve learning device is a phase response curve learning device that updates a phase response curve indicating a phase change amount with respect to a disturbance factor of a periodic motion in which a plurality of events occur periodically by reinforcement learning.
  • Means to determine the success or failure of each event It is characterized by comprising means for setting the achievement level of each event and means for updating the parameters of the phase response curve so that the cumulative value of the achievement level of each set event is maximized.
  • the periodic motion control method according to the third invention is a periodic motion control method in which a controller controls a control object of a periodic motion in which a plurality of events occur periodically based on the state of the control object! And, based on the phase response curve updated by the phase response curve learning method of the first invention, resetting the phase defining the periodic motion to establish synchronization between the controller and the controlled object.
  • a periodic motion control device is a periodic motion control device that controls a control object of a periodic motion in which a plurality of events occur periodically based on the state of the control object. And a means for establishing synchronization with the controlled object by resetting the phase defining the periodic motion based on the phase response curve updated by the phase response curve learning method of the first invention.
  • a periodic motion control device is a controller that causes a controlled object to execute a periodic motion in which a plurality of events occur periodically, and a phase change amount with respect to a disturbance factor of the periodic motion.
  • the means to determine the success or failure of each event that updates the phase response curve shown by reinforcement learning, the means to set the achievement level of each event based on the determination result, and the cumulative value of the achievement level of each set event is the maximum
  • a phase response curve learning device comprising means for updating the parameters of the phase response curve so that It is characterized by changing the movement pattern.
  • the periodic motion control device resets the phase defining the periodic motion based on the phase response curve with updated parameters, and establishes synchronization with the controlled object. It is characterized by being.
  • the controlled object is a biped walking robot, and the reset is performed when the robot's legs are grounded.
  • the biped robot has five links, and performs a pattern change for displacing a hip joint angle and a Z joint angle to avoid a fall.
  • a periodic motion control device is characterized in that the biped robot has five links, and performs a pattern change in which the hip joint angle and the knee joint angle are displaced in the positive direction in order to avoid falling. To do.
  • the periodic motion control apparatus is characterized in that the biped robot has five links, and performs a pattern change for displacing the hip joint trajectory and the Z or knee joint trajectory in order to avoid falling.
  • the periodic motion control apparatus is directed to a change of pattern in which the biped robot has five links, and the hip joint trajectory is displaced in the negative direction and the knee joint trajectory is displaced in the positive direction to avoid falling. It is characterized by performing.
  • a walking motion control device is a walking motion control device that controls a two-link biped walking robot that performs periodic walking based on the state of the robot.
  • is a controller that causes the robot to follow the periodic trajectory represented by the phase, and the success or failure of the walking motion. Based on the determination result of the means, the means for setting the achievement degree of each walking, and the walking movement by the disturbance factor so that the cumulative value of the achievement degree set by the means is maximized.
  • a phase response curve learning device having means for updating a parameter of the phase response curve indicating the amount of phase change, and resets the phase defining the walking motion based on the phase response curve with the updated parameter. It is characterized in that synchronization is established with the robot.
  • a walking motion control device is characterized in that the reset is performed when the robot's foot is grounded.
  • success or failure is determined for each of a plurality of events in the periodic motion, and the achievement level of each event is set based on the determination result. Update the parameters of the phase response curve so that the cumulative value of elephant achievement is maximized.
  • the phase that defines the periodic motion is reset to establish synchronization with the controlled object.
  • success or failure is determined for each of a plurality of events in the periodic motion or the walking motion, and based on the determination result! First, set the achievement level of each event, and update the parameters of the phase response curve so that the cumulative value of the achievement level of each event is maximized.
  • the periodic motion pattern is changed according to the disturbance factor to ensure the stability of the motion.
  • the phase that defines the periodic motion is reset to establish synchronization with the controlled object.
  • synchronization between the control side and the non-control side is established with the time when the legs of the biped robot are touched as the reset timing.
  • the lowering and the raising are respectively performed in order to deal with whispering and to avoid falling.
  • the phase response curve is designed in a full search without human design. It has excellent objectivity and can stabilize the periodic motion by updating the phase response curve. Since the phase response curve is automatically updated by reinforcement learning, the intention of the designer is not added to the phase response curve.
  • the phase between the controller and the controlled object is established by resetting the phase that defines the periodic motion based on the reinforcement-learned phase response curve. Therefore, stable periodic motion can be realized. Therefore, for example, a walking experiment for each robot is not required, and the time required for robot development can be greatly shortened.
  • success / failure is determined for each of a plurality of events in a periodic motion such as walking motion, and the achievement level of each event is set based on the determination result.
  • the periodic pattern is changed in response to the disturbance factor, so that the phase response curve is designed in a full search without human design. It is excellent in objectivity, can update the phase response curve to achieve periodic motion stability, and can continue periodic motion such as walking motion without falling down against disturbance. Can do.
  • the intention of the designer is not influenced by the phase response curve.
  • phase that defines the periodic motion is reset to establish the synchronization between the controller and the controlled object, stable periodic motion can be realized. Can do. In biped robots, synchronization is established with physical identification and high stability.
  • the five-link biped walking robot does not fall over in response to whispering.
  • the controller and the control object are reset by performing phase reset that defines the periodic motion based on the reinforcement-learned phase response curve obtained by reinforcement learning in a two-link biped robot. Since it was decided to establish synchronization between the two, stable periodic movement can be realized. Thus, for example, the actual walking for each robot This eliminates the need for testing and greatly shortens the time required for robot development.
  • synchronization with the controller is established in a state where the biped walking robot is physically specified and the operation stability is high immediately.
  • FIG. 1 is a block diagram showing a configuration of a biped robot to which a phase response curve learning device according to the present invention is connected.
  • FIG. 2 is a schematic diagram showing a skeleton model of a two-link biped robot.
  • FIG. 3 is a diagram showing a phase response curve and a value function obtained by the phase response curve learning device according to the present invention.
  • FIG. 4 is a diagram showing a temporal change in the accumulated reward value as a learning process.
  • FIG. 5 is a diagram showing a walking trajectory when phase reset is not performed.
  • FIG. 6 is a diagram showing a walking trajectory when phase reset is performed according to a linear phase response curve designed in advance.
  • FIG. 7 is a diagram showing a walking trajectory when the phase is reset according to the phase response curve obtained by the phase response curve learning device according to the present invention.
  • FIG. 8 is a schematic diagram showing a skeleton model of a 5-link biped robot.
  • FIG. 9 is a diagram showing a phase response curve and a value function obtained by the phase response curve learning device according to the present invention.
  • FIG. 10 is a diagram showing a walking trajectory when phase reset is not performed.
  • FIG. 11 is a diagram showing a walking trajectory when phase reset is performed according to a linear phase response curve designed in advance.
  • FIG. 12 is a diagram showing a walking trajectory when the phase is reset according to the phase response curve obtained by the phase response curve learning device according to the present invention.
  • FIG. 13 is a diagram showing an example of a phase response curve.
  • FIG. 14 is a diagram showing a walking trajectory when only phase reset is performed.
  • FIG. 15 is a diagram showing a walking trajectory when the target trajectory is changed in addition to the phase reset.
  • FIG. 16 is a diagram showing a walking trajectory when only phase reset is performed.
  • FIG. 17 is a diagram showing a walking trajectory when another target trajectory change is performed in addition to the phase reset.
  • FIG. 1 is a block diagram showing a configuration of a biped robot to which a phase response curve learning device according to the present invention is connected.
  • a phase response curve learning device 1 is for updating a phase response curve 30 (see FIG. 13) used for posture control of a controlled object (biped robot) 5 by reinforcement learning.
  • the controller 3 as the periodic motion control device includes a controller 3 and a biped robot 5 by resetting the phase based on the phase response curve 30 optimized by the phase response curve learning device 1. Establish synchronization between them.
  • the two-link biped robot 5 includes actuators 51 and 52 as hip joints on the left and right of the waist 50 corresponding to the human hips.
  • Legs 53 and 54 corresponding to the legs are provided.
  • 0 L and 0 R indicate angles formed with the vertical axis A of the leg portions 53 and 54, respectively.
  • the phase response curve learning device 1 includes a control unit 10 configured with a CPU.
  • the control unit 10 is connected to the storage unit 11, the synchronization event detection unit 12, the success / failure determination unit 13, the reward setting unit 14, the curve parameter update unit 15, and the like, and is stored in the storage unit 11 in advance. According to the system, it performs various functions in cooperation with each part.
  • the storage unit 11 stores a curve parameter 1 la that defines the phase response curve 30.
  • the phase response curve learning device 1 optimizes the phase response curve 30 by updating the curve parameter 11 a according to the event that has occurred in the controlled object. It is to be noted that the curve parameter 1 la before the force learning which needs to store the curve parameter 11a in the storage unit 11 in advance before learning is appropriately determined by the user.
  • the storage unit 11 stores a value function l ib.
  • the synchronization event detection unit 12 determines whether or not an event (referred to as a synchronization event) that should establish synchronization between the controller 3 and the biped robot 5 such as ground contact of each leg in walking motion has occurred. Is detected.
  • a ground sensor is provided at the bottom of the legs 53 and 54 of the biped robot 5, and when the bottom of one of the legs 53 and 54 touches the ground, the ground sensor determines the ground.
  • the synchronization event detection unit 12 can determine that an event that should establish synchronization by determining the grounding of the leg has occurred.
  • the success / failure determination unit 13 determines the success / failure of the synchronization event.
  • the reward setting unit 14 sets the reward r as the achievement level of each event based on the determination result by the success / failure determination unit 13, and the curve parameter update unit 15 sets the reward for each event set by the reward setting unit 14. Update the curve parameter 11a so that the cumulative value of r is the maximum value.
  • the bipedal walking robot 5 may determine the success or failure of the synchronization event, and set the reward r for each event based on the determination result.
  • Equation (1) represents the state transition probability of phase 3 of controller 3 in the synchronous event (including the task failure event).
  • the phase reset amount ⁇ is determined according to the phase response curve 30. It is assumed that the reward r is given by the conditional probability of the phase ⁇ and the phase reset amount ⁇ of the controller 3 as shown in equation (2).
  • a constraint condition for the value function of Expression (4) is derived from the difference with respect to time on both sides of Expression (3).
  • ⁇ ⁇ ( ⁇ ( ⁇ )) ⁇ [ ⁇ ( ⁇ + 1) + ⁇ ⁇ ( ⁇ ( ⁇ + 1))]
  • Equation (5) is used as a predicted value of the value function.
  • the TD error is the time difference of the value function between the state sequences, and the state value at time t from the reward r (t + 1) and the state value estimate V (t + 1) at time t + 1.
  • V (t) is the difference.
  • the estimated value of state value V (t + 1) takes into account the discount rate ⁇ of the value function.
  • the TD error is an error between the state estimation and the state as an actual action result, and can be said to be an index indicating whether the state estimation is correct or not. For example, when the TD error is positive, it means that the reward was obtained more than estimated, and when the TD error is negative, it means that the reward was not obtained more than the estimate.
  • equation (7) the eligibility 'trace (eligibility t race) for the parameter of the value function and the equation for updating the parameter of the value function using the TD error are the equations (8) and (
  • phase ⁇ of the phase response curve is expressed as an actual value of a stochastic behavior law as shown in Equation (10).
  • the mean ⁇ is expressed by a normal ⁇ Gaussian function network (for example, see Non-Patent Document 5 and Non-Patent Document 7) (Equation (14)), and the standard deviation ⁇ is a sigmoid function and a normalized Gaussian function. Represented by the network (Equation (15)).
  • Equation 13 Equation (14) Equation (1 5)
  • CT W Basis function w, w: for defining the phase response curve (Equation (1 0))
  • Equation (16) the eligibility corresponding to the curve parameter for defining the phase response curve is derived as shown in Equation (16) and Equation (17).
  • the update rule of the phase response curve can be expressed as in Expression (18) and Expression (19).
  • the eligibility 'trace of the learning rate can be expressed as in Expression (20) and Expression (21).
  • phase response curve learning device 1 Using the phase response curve learning device 1 according to the present invention, the phase response curve 30 was updated for the two-link biped robot 5.
  • controller 3 a controller that follows the periodic orbit shown in equations (22) and (23) was used.
  • FIG. 3 is a diagram showing a phase response curve 30 and a value function obtained by the phase response curve learning device according to the present invention, where (a) is a value function and (b) is a stochastic phase response curve. And the broken line shows the standard deviation.
  • phase response curve indicates a phase response curve expressed stochastically. This is due to the use of a reinforcement learning framework that enables probabilistic expression.
  • FIG. 4 is a diagram showing a temporal change in the accumulated reward value, which is a learning process.
  • FIG. 5 is a diagram showing a walking trajectory without phase reset
  • FIG. 6 is a diagram showing a walking trajectory with phase reset according to a linear phase response curve designed in advance
  • FIG. FIG. 6 is a diagram showing a walking trajectory when the phase is reset according to the phase response curve obtained by the phase response curve learning device according to the present invention.
  • FIGS. 5, 6, and 7 (a) shows the phase response curve, and (b) shows the walking trajectory.
  • phase reset when phase reset is not performed at all, bipedal walking robot 5 falls over approximately 5 times.
  • Phase resetting causes controller 3 and biped robot 5 to It can be seen that the number of walks can be maintained up to approximately 10 by establishing synchronization.
  • the linear phase response curve is not suitable for practical use because the bipedal walking robot 5 falls over in about 10 walks.
  • phase response curve is updated by the reinforcement learning of the present invention, and a periodic motion such as a walking motion synchronized with the rhythm can be developed in a very short time.
  • phase response curve learning device was updated using a 5-link biped robot as a control target.
  • FIG. 8 is a schematic diagram showing a skeleton model of a 5-link biped robot.
  • the 5-link biped robot 6 has left and right hips 60 corresponding to the human hips, and hip joints 61 and 62 as hip joints, and the upper legs 63 and 64 corresponding to the human thighs Is provided.
  • a column part 65 corresponding to the human spinal cord is provided in the lumbar part 60.
  • 0 pitch indicates the angle formed with the vertical axis A of the column portion 65
  • 0 1_hip and 0 r_hip indicate the angle formed with the column portion 65 of the upper leg portions 63 and 64, respectively.
  • the upper legs 63 and 64 are provided with actuators 66 and 67, respectively.
  • 66 and 67 are provided with 69 lower leg heels corresponding to the human lower leg.
  • _knee 0 r_knee indicates the angle formed by the upper leg parts 63 and 64 of the lower leg parts 68 and 69, respectively.
  • FIG. 9 is a diagram showing a phase response curve and a value function obtained by the phase response curve learning device according to the present invention.
  • (A) is a value function
  • (b) is a stochastic phase response curve. Each broken line indicates the standard deviation.
  • phase response curve indicates a phase response curve expressed stochastically. This is due to the use of a reinforcement learning framework that enables probabilistic expression.
  • FIG. 10 is a diagram showing a walking trajectory when phase reset is not performed
  • FIG. 11 is a diagram showing a walking trajectory when phase reset is performed in accordance with a linear phase response curve designed in advance
  • FIG. It is a figure which shows the walk track
  • FIGS. 10, 11 and 12 (a) shows the phase response curve, and (b) shows the walking trajectory.
  • Embodiments 1 and 2 periodic movements such as walking movements are not performed stably without falling over by the phase response curve obtained by reinforcement learning. However, it may not be possible to avoid a fall if you are hit by an obstacle. The movement to avoid falling when a human hits
  • elevating strategy Raising the leg quickly by whispering: Avoiding strategy by raising the leg
  • lowering strategy
  • Example 3 is designed to perform the operations (1) and (2) observed by humans when a 5-link biped robot walks on an obstacle. The following numerical conditions were determined with reference to the results of human motion observation.
  • Each fall avoidance strategy is realized by changing the target trajectory as follows.
  • the lowering strategy was realized by moving the hip joint angle of the kneeling leg by 0.3 rad in the positive direction (clockwise in Fig. 8) and the knee joint angle by 0.1 lrad in the positive direction.
  • the elevating strategy was realized by shifting the hip joint trajectory of the crawled leg by 0.2 rad in the negative direction (counterclockwise in Fig. 8) and the knee joint trajectory by 0.3 rad in the positive direction.
  • FIG. 14 shows a walking trajectory when only phase reset is performed using a phase response curve
  • FIG. 15 shows a walking trajectory when an elevating strategy is executed in addition to phase reset using a phase response curve. While the former fell after rolling, the latter continued walking.
  • Fig. 16 shows the walking trajectory when only phase reset is performed using the phase response curve
  • Fig. 17 shows the walking trajectory when lowering strategy is executed in addition to phase reset based on the phase response curve. In the former, he fell after whispering, while in the latter he continued walking. Note that the elevating strategy and lowering strategy are switched according to the phase of the controller when you hit!

Abstract

 歩行運動のような周期運度の安定化に有効な位相反応曲線を更新させる位相反応曲線学習方法などを提供する。本発明に係る位相反応曲線学習装置1においては、同期事象検出部12にて、制御器3と2足歩行ロボット5との間で同期を確立すべき事象(同期事象という)が発生したか否かを検出する。同期事象検出部12にて同期事象の発生が検出された場合、成否判定部13は同期事象の成否を判定する。報酬設定部14は、成否判定部13による判定結果に基づいて各事象の達成度としての報酬を設定し、曲線パラメータ更新部15は、報酬設定部14にて設定された各事象の報酬の累計値が最大になるように曲線パラメータ11aを更新する。制御器3は、位相反応曲線学習装置1によって最適化された位相反応曲線に基づいて位相のリセットを行なうことによって制御器3と2足歩行ロボット5との間で同期を確立させる。

Description

明 細 書
位相反応曲線学習方法及び装置、周期的運動制御方法及び装置、並び に歩行運動制御装置
技術分野
[0001] 本発明は、歩行運動のような周期的運動の安定ィ匕に有効な位相反応曲線を更新さ せる位相反応曲線学習方法及び装置並びにこれらを用いた周期的運動制御方法及 び装置並びに歩行運動制御装置に関する。
背景技術
[0002] 近年、産業用のみならず、エンタテインメント性が高く玩具的要素を有するロボット、 住居の監視を行なうような実用的要素を有するロボットなど、様々なロボットが開発さ れている。なかでも、ヒトの動作をモデルにした 2足歩行ロボットは、姿勢制御が極め て困難である反面、動作の多様性に優れ、様々な用途での利用が考えられる。
[0003] ところで、歩行運動のような周期的運動においては、制御器と該制御器の制御対象 とを同期させることが重要であると考えられている。例えば、同期を確立すべき事象が 生じたタイミングにおける制御器の変化量 Δ φを位相 φの関数として表した位相反 応曲線を用いて位相をリセットすることにより、迅速に制御器と制御対象との間で同期 を確立させる技術が提案されている (例えば、非特許文献 1、非特許文献 2及び非特 許文献 3参照。 )0 2足歩行ロボットにおいては、各脚が接地するたびに、一方 (接地 側)の脚の位相 φを 0に、他方 (非接地側)の脚の位相 φを πにする。
[0004] 図 13は位相反応曲線 30の一例を示している。位相反応曲線 30は、複数の事象が 周期的に発生する周期的運動の外乱因子に対する位相の変化量を示したものであ る。例えば、周期的運動が行なわれている振動子に外乱を与えた場合、長時間経過 後の振動子の周期は元の周期に収束するが、位相ずれ (位相の変化)が生じる。外 乱をカ卩えたタイミング (位相 φ )を横軸に、位相の変化量 Δ φを縦軸に取って、位相 φと位相の変化量 Δ φとの関係を示したものがこの位相反応曲線 30である。
非特許文献 1 :山崎大河、他 2名(T.Yamasaki,T.Nomura,and S.Sato)著,歩行におけ る位相リセットの機能的役割(Possible fonctional roles of phase resetting during walki ng) , 「バイオロジカル 'サイバネティックス(Biological Cybernetics)」, 2003年,第 88 卷,第 6号 ,ρ. 468 -496
非特許文献 2 :土屋和雄、他 2名 (K.Tsuchiya,S.Aoi,and K.Tsujita)著,非線形振動 子を用いた 2足歩行ロボットの歩行制御(Locomotion control of biped locomotion rob ot using nonlinear oscillators) , 「IEEEZRSJ知的ロボット及びシステム国際会議予 稿集 (In Proceedings of the IEEE/RSJ International Conference on Intelligent Robot s and Systems] J ,ラス.ベガス(米国), 2003年, p. 1745— 1750
非特許文献 3 :中西淳、他 5名(J.Nakanishi,J.Morimoto,G.Endo,G.Cheng,S.Schaal,an d M.Kawato)著, 2足歩行のデモンストレーション及び適応からの学習(Learning from demonstration and adaptation of biped locomotion) , 「口ホット自律ンスアム (Robotic s and Autonomous Systems;)」, 2004年,第 47卷, p. 79— 91
非特許文献 4 :R. S.サットン、他 1名(R.S.Sutton and A.G.Barto)著,強化学習 Reinf orcement Learning: An Introduction) ,ェム イアイ1 ~~ 'プレス (MIT Press; ,ケンブリ ッジ, 1998年
非特許文献 5 :銅谷賢治著 (K.Doya)著,連続的な時間及び空間における強化学習( Reinforcement Learning in continuous Time and bpace) , 「二ュ ~~フノレ'コンヒユア' ~~ シヨン(Neural Computation)」, 2000年,第 12卷,第 1号, p. 219— 245
非特許文献 6 :佐藤雅昭、他 1名(M.Sato and S.Ishii)著,オンライン EMアルゴリズム に ¾つく強ィ匕学習 (Reinforcement learning based on on-line EM algorithm. (In M.b. Kearns , S . A. Solla, andD . A. Cohn editors)) , 「神経情報処理システムの進歩(Advances in Neural Information Processing Systems 11) ,ェムアイアイ1 ~~ 'プレス (MIT Press) , ケンブリッジ, 1999年, p. 1052- 1058
非特許文献 7 :森本淳、他 1名(J.Morimoto and K.Doya)著,階層的強化学習を用い たリアルロボットによる起き上がり動作の習得(Acquisition of stand-up behavior by a real robot using hierarchical reinforcement learning) , 「ロボット自律ンスアム (Robotic s and Autonomous Systems) , 2001年,第 36卷, p. 37— 51
発明の開示
発明が解決しょうとする課題 [0005] し力しながら、現状では位相反応曲線の設計方法が確立されていないことから、人 間が個々のロボットを実際に歩行させ、歩行実験を繰り返すことによって位相反応曲 線を設計しているのが実情である。したがって、新たにロボットを開発するたびに、個 々のロボットに応じて歩行実験を行なう必要があり、ロボット開発に膨大な時間を要す るという問題があった。また、設計者の意図が位相反応曲線に加味されることから、客 観性に欠けるという問題があった。
[0006] 本発明は斯力る事情に鑑みてなされたものであり、歩行運動のような周期的運動に おける複数の事象のそれぞれに対して成否を判定し、判定結果に基づ ヽて各事象 の達成度を設定し、設定した各事象の達成度の累計値が最大になるように位相反応 曲線のパラメータを更新することにより、位相反応曲線を人が設計することなぐまた 全探索的に設計することなぐ客観性に優れ、位相反応曲線を更新させて周期的運 動の安定ィヒを実現することができる位相反応曲線学習方法及び位相反応曲線学習 装置の提供を目的とする。
また本発明は、強化学習された位相反応曲線に基づいて、周期的運動を規定する 位相のリセットを行なって制御器及び制御対象の同期を確立させることにより、安定し た周期的運動を実現することができる周期的運動制御方法及び周期的運動制御装 置の提供を目的とする。
[0007] また本発明は、歩行運動のような周期的運動における複数の事象のそれぞれに対 して成否を判定し、判定結果に基づいて各事象の達成度を設定し、設定した各事象 の達成度の累計値が最大になるように位相反応曲線のパラメータを更新する一方、 外乱因子に応じて周期的運動のパターンを変更することにより、位相反応曲線を人 が設計することなぐまた全探索的に設計することなぐ客観性に優れ、位相反応曲 線を更新させ、また周期的運動及び歩行運動の安定化を実現することができる周期 的運動制御装置及び歩行運動制御装置の提供を目的とする。
また本発明は、強化学習された位相反応曲線に基づいて、周期的運動を規定する 位相のリセットを行なって制御器及び制御対象の同期を確立させることにより、安定し た歩行運動などの周期的運動を実現することができる周期的運動制御装置及び歩 行運動制御装置の提供を目的とする。 課題を解決するための手段
[0008] 第 1発明に係る位相反応曲線学習方法は、複数の事象が周期的に発生する周期 的運動の外乱因子に対する位相の変化量を示す位相反応曲線を強化学習によって 更新させる位相反応曲線学習方法であって、各事象の成否を判定し、判定結果に 基づいて各事象の達成度を設定し、設定した各事象の達成度の累計値が最大にな るように前記位相反応曲線のパラメータを更新することを特徴とする。
第 2発明に係る位相反応曲線学習装置は、複数の事象が周期的に発生する周期 的運動の外乱因子に対する位相の変化量を示す位相反応曲線を強化学習によって 更新させる位相反応曲線学習装置であって、各事象の成否を判定する手段と、判定
Figure imgf000006_0001
ヽて各事象の達成度を設定する手段と、設定した各事象の達成度の累 計値が最大になるように前記位相反応曲線のパラメータを更新する手段とを備えるこ とを特徴とする。
第 3発明に係る周期的運動制御方法は、複数の事象が周期的に発生する周期的 運動の制御対象を、制御器が該制御対象の状態に基づ!、て制御する周期的運動 制御方法であって、第 1発明の位相反応曲線学習方法によって更新された位相反応 曲線に基づ 、て、周期的運動を規定する位相のリセットを行なって制御器及び制御 対象の同期を確立させることを特徴とする。
第 4発明に係る周期的運動制御装置は、複数の事象が周期的に発生する周期的 運動の制御対象を、該制御対象の状態に基づ!、て制御する周期的運動制御装置で あって、第 1発明の位相反応曲線学習方法によって更新された位相反応曲線に基づ いて、周期的運動を規定する位相のリセットを行なって前記制御対象との間で同期を 確立させる手段を備えることを特徴とする。
[0009] 第 5発明に係る周期的運動制御装置は、複数の事象が周期的に発生する周期的 運動を制御対象に実行させる制御器と、前記周期的運動の外乱因子に対する位相 の変化量を示す位相反応曲線を強化学習によって更新させるベぐ各事象の成否を 判定する手段、判定結果に基づいて各事象の達成度を設定する手段、及び設定し た各事象の達成度の累計値が最大になるように前記位相反応曲線のパラメータを更 新する手段を備える位相反応曲線学習装置とを有し、外乱因子に対応して周期的 運動のパターンを変更するようにしてあることを特徴とする。
第 6発明に係る周期的運動制御装置は、パラメータを更新された位相反応曲線に 基づいて、周期的運動を規定する位相のリセットを行い、制御対象との間で同期を確 立するようにしてあることを特徴とする。
第 7発明に係る周期的運動制御装置は、前記制御対象は 2足歩行ロボットであり、 該ロボットの足の接地時に前記リセットを行うことを特徴とする。
[0010] 第 8発明に係る周期的運動制御装置は、前記 2足歩行ロボットは 5リンクを有し、転 倒回避のために股関節角及び Zまたは膝関節角を変位するパターン変更を行うこと を特徴とする。
第 9発明に係る周期的運動制御装置は、前記 2足歩行ロボットは 5リンクを有し、転 倒回避のために股関節角及び膝関節角を正方向に変位するパターン変更を行うこと を特徴とする。
第 10発明に係る周期的運動制御装置は、前記 2足歩行ロボットは 5リンクを有し、 転倒回避のために股関節軌道及び Zまたは膝関節軌道を変位するパターン変更を 行うことを特徴とする。
第 11発明に係る周期的運動制御装置は、前記 2足歩行ロボットは 5リンクを有し、 転倒回避のために股関節軌道を負方向に、膝関節軌道を正方向に各変位するバタ ーン変更を行うことを特徴とする。
[0011] 第 12発明に係る歩行運動制御装置は、周期的歩行を行う 2リンクの 2足歩行ロボッ トを、該ロボットの状態に基づ 、て制御する歩行運動制御装置であって、
[0012] [数 1] φ = ω ί
τ = Κρ(οο8 φ - θ) + Κ^ (-ω 8ΐη - θ ここで、 Kp ,Kd :サ一ボゲイン
τ :関節における出力トルク
Θ : リンク間の関節角度
[0013] φは位相で表される周期軌道をロボットに追従させる制御器と、歩行運動の成否を 判定する手段、該手段での判定結果に基づ!、て各歩行の達成度を設定する手段、 及び該手段で設定した達成度の累計値が最大になるように、外乱因子による歩行運 動の位相の変化量を示す位相反応曲線のパラメータを更新する手段を備える位相 反応曲線学習装置とを有し、パラメータを更新された位相反応曲線に基づいて、歩 行運動を規定する位相をリセットし、ロボットとの間で同期を確立させるようにしてある ことを特徴とする。
第 13発明に係る歩行運動制御装置は、前記ロボットの足の接地時に前記リセットを 行うことを特徴とする。
[0014] 第 1発明及び第 2発明にあっては、周期的運動における複数の事象のそれぞれに 対して成否を判定し、判定結果に基づいて各事象の達成度を設定し、設定した各事 象の達成度の累計値が最大になるように位相反応曲線のパラメータを更新する。 第 3発明及び第 4発明にあっては、上述のようにして更新された位相反応曲線に基 づいて、周期的運動を規定する位相のリセットを行なって制御対象との間で同期を確 立させる。
[0015] 第 5発明及び第 12発明にあっては、周期的運動または歩行運動における複数の 事象のそれぞれに対して成否を判定し、判定結果に基づ!ヽて各事象の達成度を設 定し、設定した各事象の達成度の累計値が最大になるように位相反応曲線のパラメ ータを更新する。そして第 5発明では外乱因子に応じて周期的運動のパターンも変 更し、運動の安定性を確保する。
第 6発明及び第 13発明にあっては、上述のようにして更新された位相反応曲線に 基づいて、周期的運動を規定する位相のリセットを行なって制御対象との間で同期を 確立させる。そして第 7発明及び第 13発明では 2足歩行ロボットの足の接地時をリセ ットタイミングとして制御側と非制御側との同期を確立する。
第 8乃至第 11発明にあっては、躓きに対処して転倒回避を図るべく足下げ (lowerin g)及び足上げ (elevating)をそれぞれ行う。
発明の効果
[0016] 第 1発明及び第 2発明によれば、歩行運動のような周期的運動における複数の事 象のそれぞれに対して成否を判定し、判定結果に基づ!/ヽて各事象の達成度を設定 し、設定した各事象の達成度の累計値が最大になるように位相反応曲線のパラメ一 タを更新することにしたので、位相反応曲線を人が設計することなぐまた全探索的 に設計することなぐ客観性に優れ、位相反応曲線を更新させて周期的運動の安定 化を実現することができる。強化学習によって自動的に位相反応曲線を更新すること から、設計者の意図が位相反応曲線に加味されることはない。
第 3発明及び第 4発明によれば、強化学習された位相反応曲線に基づいて、周期 的運動を規定する位相のリセットを行なって制御器と制御対象との間の同期を確立さ せることにしたので、安定した周期的運動を実現することができる。したがって、例え ば、個々のロボットごとの歩行実験が不要となり、ロボット開発に要する時間を大幅に 短縮することができる等、優れた効果を奏する。
第 5発明によれば、歩行運動のような周期的運動における複数の事象のそれぞれ に対して成否を判定し、判定結果に基づいて各事象の達成度を設定し、設定した各 事象の達成度の累計値が最大になるように位相反応曲線のパラメータを更新すると ともに、外乱因子に対応して周期的パターンを変更するので、位相反応曲線を人が 設計することなぐまた全探索的に設計することなぐ客観性に優れ、位相反応曲線 を更新させて周期的運動の安定ィ匕を実現することができ、外乱に対しても例えば転 倒することなく歩行運動などの周期的運動を継続することができる。また設計者の意 図が位相反応曲線にカ卩味されることはない。
第 6、 7発明によれば、周期的運動を規定する位相のリセットを行なって制御器と制 御対象との間の同期を確立させることにしたので、安定した周期的運動を実現するこ とができる。そして 2足歩行ロボットにおいては物理的に特定しやすぐまた動作の安 定性が高い状態で同期が確立される。
第 8乃至第 11発明によれば 5リンク 2足歩行ロボットが躓きに対処して転倒すること なくなる。
第 12発明によれば、 2リンクの 2足歩行ロボットにおいて強化学習によって獲得され た強化学習された位相反応曲線に基づいて、周期的運動を規定する位相のリセット を行なって制御器と制御対象との間の同期を確立させることにしたので、安定した周 期的運動を実現することができる。したがって、例えば、個々のロボットごとの歩行実 験が不要となり、ロボット開発に要する時間を大幅に短縮することができる等、優れた 効果を奏する。
第 13発明よれば、 2足歩行ロボットで物理的に特定しやすぐまた動作の安定性が 高い状態で制御器との同期が確立される。
図面の簡単な説明
[図 1]本発明に係る位相反応曲線学習装置が接続された 2足歩行ロボットの構成を示 すブロック図である。
[図 2]2リンクの 2足歩行ロボットの骨格モデルを示す模式図である。
[図 3]本発明に係る位相反応曲線学習装置によって得られた位相反応曲線及び価 値関数を示す図である。
[図 4]学習過程である累積報酬値の時間的変化を示す図である。
[図 5]位相リセットを行なわない場合の歩行軌道を示す図である。
[図 6]予め設計した線形の位相反応曲線に応じて位相リセットを行なった場合の歩行 軌道を示す図である。
[図 7]本発明に係る位相反応曲線学習装置によって得られた位相反応曲線に応じて 位相リセットした場合の歩行軌道を示す図である。
[図 8]5リンクの 2足歩行ロボットの骨格モデルを示す模式図である。
[図 9]本発明に係る位相反応曲線学習装置によって得られた位相反応曲線及び価 値関数を示す図である。
[図 10]位相リセットを行なわない場合の歩行軌道を示す図である。
[図 11]予め設計した線形の位相反応曲線に応じて位相リセットを行なった場合の歩 行軌道を示す図である。
[図 12]本発明に係る位相反応曲線学習装置によって得られた位相反応曲線に応じ て位相リセットした場合の歩行軌道を示す図である。
[図 13]位相反応曲線の一例を示す図である。
[図 14]位相リセットのみを行った場合の歩行軌道を示す図である。
[図 15]位相リセットに加えて目標軌道変更を行った場合の歩行軌道を示す図である [図 16]位相リセットのみを行った場合の歩行軌道を示す図である。
[図 17]位相リセットに加えて他の目標軌道変更を行った場合の歩行軌道を示す図で ある。
符号の説明
[0019] 1 位相反応曲線学習装置
3 制御器 (周期的運動制御装置)
5 2リンクの 2足歩行ロボット(制御対象)
6 5リンクの 2足歩行ロボット(制御対象)
10 制御部
11 記憶部
11a 曲線パラメータ
l ib 価値関数
12 同期事象検出部
13 成否判定部
14 報酬設定部
15 曲線パラメータ更新部
発明を実施するための最良の形態
[0020] 以下、本発明をその実施の形態を示す図面に基づいて詳述する。
[0021] 図 1は本発明に係る位相反応曲線学習装置が接続された 2足歩行ロボットの構成 を示すブロック図である。
本発明に係る位相反応曲線学習装置 1は、制御対象(2足歩行ロボット) 5の姿勢制 御に用いる位相反応曲線 30 (図 13参照)を強化学習により更新させるためのもので ある。
[0022] 周期的運動制御装置としての制御器 3は、位相反応曲線学習装置 1によって最適 化された位相反応曲線 30に基づいて位相のリセットを行なうことによって制御器 3と 2 足歩行ロボット 5との間で同期を確立させる。
[0023] 2リンクの 2足歩行ロボット 5は、図 2に示すように、ヒトの腰に対応する腰部 50の左 右に、股関節としてのァクチユエータ 51, 52を備え、ァクチユエータ 51, 52にヒトの 脚に対応する脚部 53, 54が設けられている。同図において、 0 L, 0 Rは、脚部 53, 54の垂直軸 Aとなす角度をそれぞれ示す。
[0024] 位相反応曲線学習装置 1は、 CPUで構成された制御部 10を備えている。制御部 1 0は、記憶部 11、同期事象検出部 12、成否判定部 13、報酬設定部 14、曲線パラメ ータ更新部 15などと接続され、記憶部 11に予め格納されているコンピュータプロダラ ムに従って、各部と協働して各種の機能を果たす。
[0025] 記憶部 11には位相反応曲線 30を規定する曲線パラメータ 1 laが記憶されて 、る。
位相反応曲線学習装置 1は、制御対象に生じた事象に応じて曲線パラメータ 11 aを 更新し、位相反応曲線 30の最適化を行なう。なお、学習前に予め曲線パラメータ 11 aを記憶部 11に記憶する必要がある力 学習前の曲線パラメータ 1 laはユーザにより 適宜決定しておく。また、記憶部 11には価値関数 l ibが記憶されている。
[0026] 同期事象検出部 12は、歩行運動における各脚の接地のような制御器 3と 2足歩行 ロボット 5との間で同期を確立すべき事象(同期事象という)が発生したか否かを検出 する。例えば、 2足歩行ロボット 5の脚部 53, 54の脚底に接地センサを設け、脚部 53 , 54のうちの一方の脚部の脚底が地面に接地した場合に接地センサで接地を判断 し、同期事象検出部 12へ通知信号を出力することにより、同期事象検出部 12は、脚 部の接地を判定して同期を確立させるべき事象が生じたと判断することができる。
[0027] 同期事象検出部 12にて同期事象の発生が検出された場合、成否判定部 13は同 期事象の成否を判定する。報酬設定部 14は、成否判定部 13による判定結果に基づ いて各事象の達成度としての報酬 rを設定し、曲線パラメータ更新部 15は、報酬設定 部 14にて設定された各事象の報酬 rの累計値が最大〖こなるように曲線パラメータ 11 aを更新する。なお、 2足歩行ロボット 5が、同期事象の成否を判定し、判定結果に基 づ ヽて各事象の報酬 rを設定するようにしてもょ 、。
[0028] [価値関数 ·時間差分誤差 (Temporal Difference誤差:以下、 TD誤差) ]
同期事象 (タスク失敗の事象を含む)における制御器 3の位相 φの状態遷移確率を 式 (1)で表す。
[0029] [数 2] 式 ( 1 )
[0030] 式(1)において、位相リセット量 Δ φは、位相反応曲線 30に応じて決定される。報 酬 rは、式(2)のように、制御器 3の位相 φ及び位相リセット量 Δ φの条件付確率によ つて与えられると仮定する。
[0031] [数 3] (r(t + l)| (t), A^(t)) … 式 (2 )
[0032] 位相反応曲線 30を生成する確率分布 π ( Δ (t) | φ (t) )のもとで、位相 φ (t)に おける価値関数を式(3)のように表す。
[0033] [数 4]
Figure imgf000013_0001
ここで、 y :価値関数の割引率
[0034] また、式(3)の両辺の時間に対する差分から、式 (4)の価値関数に対する拘束条 件が導出される。
[0035] [数 5]
( ― 1 … 式 (4 )
νπ (φ(ί)) = Ε[Γ(ί + 1) + γνπ (φ(ί + 1))]
[0036] そして、式(5)を価値関数の予測値とする。
[0037] [数 6] ν( (ή) =
Figure imgf000013_0002
… 式 (5 ) ここで、 wc :価値関数の予測値パラメ一タ [0038] ここで、状態予測が正当である場合、価値関数は式 (4)を満足することになるが、状 態予測が不当である場合、式 (6)のような TD誤差 (例えば、非特許文献 4参照)を減 少させるように価値関数の学習を行なう。
[0039] [数 7]
S(t) = r(t + l) + rV(t + l) ~ V(t) … 式 (6 )
[0040] TD誤差は、状態系列間の価値関数の時間的差分であって、時刻 t+ 1における報 酬 r (t + 1)及び状態価値の推定量 V (t+ 1)から時刻 tにおける状態価値 V (t)を差 分したものである。なお、状態価値の推定量 V (t+ 1)には価値関数の割引率 γを考 慮する。 TD誤差とは、状態の推定と、実際の行動結果としての状態との誤差であり、 その状態の推定が正し力つた力否かを示す指標といえる。例えば、 TD誤差が正の 時は、推定した以上に報酬が得られたということであり、負の時は推定よりも報酬が得 られな力つたということになる。
[0041] [位相反応曲線の更新]
上述では離散的な時間を対象とした価値関数について説明したが、連続状態にお ける価値関数を取り扱うためには、例えば、式(7)のような正規ィ匕ガウス関数ネットヮ ークを用いる(例えば、非特許文献 5及び非特許文献 6参照。 )0
[0042] [数 8] ν{φ{ί))
Figure imgf000014_0001
… 式 (7 )
i
ここで、 bf {( t、、:基底関数
wf :価値関数のパラメ一タ
[0043] 式(7)において、価値関数のパラメータに対するエリジビリティ'トレース(eligibility t race)と、 TD誤差を用いた価値関数のパラメータの更新式は式 (8)及び式(
9)のように表す。 [0044] [数 9]
Figure imgf000015_0001
- 式 (8) wf (t + l) = wf (t) + aS(t)e (t) … 式 (9) ここで、 ef :価値関数のパラメータ wfに対するエリジビリティ ■ トレース
a :価値関数の学習率
:エリジビリティ ■ トレースの時定数
[0045] [位相反応曲線の更新]
また、位相反応曲線の位相 φは、式(10)のように、確率的な行動則の実現値とし て表す。
[0046] [数 10] exp ( つ )2) 式 (1 0)
Figure imgf000015_0002
2 (wび) wa :パラメ一タ ■べクトル
μ :平均 び2 :分散
[0047] よって、その実現値は、式(11)のように表すことができる。
[0048] [数 11]
Α (ί) = μ( (ί); Λνμ ) + a(wa )n(t) … 式 (1 1)
ここで、 n(t)〜尋, 1)
N(0,1) :μ = ,σ2 =1の正規分布
[0049] 式(11)にお 、て、平均 μ及び標準偏差 σに関するエリジビリティ (eligibility) は、式( 12)及び式( 13)のように表すことができる。 [0050] [数 12]
式 (1 2) 式 (1 3)
Figure imgf000016_0001
[0051] さらに、平均 μを正規ィ匕ガウス関数ネットワーク (例えば、非特許文献 5及び非特許 文献 7参照。 )によって表し (式(14))、標準偏差 σをシグモイド関数及び正規化ガウ ス関数ネットワークによって表す (式( 15) )。
[0052] [数 13] 式 (14) 式 (1 5)
l + exp(-CTW) ここで、 CT W =
Figure imgf000016_0002
基底関数 w ,w :位相反応曲線 (式 (1 0)) を規定するための
曲線パラメータ
[0053] また、位相反応曲線を規定するための曲線パラメータに対応するエリジビリティは、 式(16)及び式(17)のように導出される。
[0054] [数 14] cln^- _ Sln^- δμ
式 (1 6)
dwf 8μ σ2
Figure imgf000017_0001
3びゾ
w da dwa ((Δ )2 ) (1 -び
σ ,) … 式 い 7)
[0055] 以上のようにして、位相反応曲線の更新則は式(18)及び式(19)のように表すこと ができる。
[0056] [数 15] nf(t + l) = (t) + ό(り (り … 式 ( 1 8) Wfit + ΐ) =
Figure imgf000017_0002
… 式 ( 1 9 ) ここで、 βμσ :学習率
(り, ef (t) :学習率のエリジビリティ . トレ一ス
[0057] また、学習率のエリジビリティ'トレースは、式(20)及び式(21)のように表せる。
[0058] [数 16] e (t + l) = A^^( + ^¾ … 式 (20) - 式 (2 1 )
Figure imgf000017_0003
ここで、 λμ :エリジビリティ ■ トレースの割引率
[0059] 上述のようにして、 TD誤差を用いて価値関数のパラメータの更新 (式 (8)、式(9) ) と、位相反応曲線の更新 (式(18)、式(19))とを行なうことによって、各事象の報酬 の累計値が最大になる。新たにロボットのような制御対象を開発するたびに位相反応 曲線を人が設計する必要はなぐ強化学習によって位相反応曲線を更新してリズム に同調する周期的運動を実現することができる。したがって、個々のロボットごとの歩 行実験が不要となり、ロボット開発に要する時間を大幅に短縮することができる。また 、強化学習によって自動的に位相反応曲線を更新することから、設計者の意図が位 相反応曲線に加味されることはない。
[0060] 実施例 1.
本発明に係る位相反応曲線学習装置 1を用いて、 2リンクの 2足歩行ロボット 5に対 して位相反応曲線 30の更新を行なった。制御器 3として、式(22)及び式(23)に示 す周期軌道を追従するようなものを用いた。なお、学習時の報酬として、転倒時に報 酬 r=— l、遊脚接地時に報酬 r=0. 1を与え、報酬の累計値が最大になるように強 化学習を行なうものとする。
[0061] [数 17] φ = ω ΐ … 式 ( 2 2 ) τ = Κρ(οοΒφ - θ) + Κά (-ω 8Ϊη φ - θ) … 式 (2 3 ) ここで、 Kp,Kd :サ一ボゲイン
τ :関節における出力トルク
Θ : リンク間の関節角度
[0062] 図 3は本発明に係る位相反応曲線学習装置によって得られた位相反応曲線 30及 び価値関数を示す図であり、(a)は価値関数、(b)は確率的な位相反応曲線をそれ ぞれ示し、破線は標準偏差を示す。
位相反応曲線は、確率的に表現された位相反応曲線を示している。これは、確率 的な表現を可能にする強化学習の枠組みを用いていることに起因する。
[0063] 図 4は学習過程である累積報酬値の時間的変化を示す図である。
図 4において、強化学習を略 70回繰り返すことによって、累積報酬値が所定値 (こ こでは 5)に収束 (最大化)していることがわかる。つまり、本発明の強化学習において は、強化学習を略 70回繰り返すことによって位相反応曲線を最適化することができる [0064] 次に、 2リンクの 2足歩行ロボット 5において、位相リセットを行なうことによる姿勢制 御への有用性を調べるために、位相リセット及び強化学習による歩行への影響につ いて調べた。
[0065] 図 5は位相リセットを行なわない場合の歩行軌道を示す図、図 6は予め設計した線 形の位相反応曲線に応じて位相リセットを行なった場合の歩行軌道を示す図、図 7 は本発明に係る位相反応曲線学習装置によって得られた位相反応曲線に応じて位 相リセットした場合の歩行軌道を示す図である。なお、図 5、図 6及び図 7において、( a)は位相反応曲線、(b)は歩行軌道をそれぞれ示す。
[0066] 図 5及び図 6より、位相リセットを全く行なわない場合、略 5回の歩行回数で 2足歩行 ロボット 5が転倒する力 位相リセットを行なって制御器 3と 2足歩行ロボット 5との同期 を確立することによって、歩行回数を略 10回まで維持できることがわかる。し力しなが ら、線形の位相反応曲線では、略 10回の歩行回数で 2足歩行ロボット 5が転倒するこ とから、実用化には不適である。
[0067] 図 6及び図 7より、強化学習によって位相反応曲線を最適化することによって、 2リン クの 2足歩行ロボット 5が転倒しな 、ように、ロボット自身で姿勢の制御ができたことが 分かる。このように、本発明の強化学習により位相反応曲線を更新し、リズムに同調 する歩行運動のような周期的運動を極めて短時間で開発することができる。
[0068] 実施例 2.
次に、さらに複雑な制御系でも本発明に係る位相反応曲線学習装置の有用性を調 ベるべく、 5リンクの 2足歩行ロボットを制御対象にして位相反応曲線の更新を行なつ た。
[0069] 図 8は 5リンクの 2足歩行ロボットの骨格モデルを示す模式図である。
5リンクの 2足歩行ロボット 6は、ヒトの腰に対応する腰部 60に左右に、股関節として のァクチユエータ 61, 62を備え、ァクチユエータ 61, 62にヒトの大腿に対応する上脚 部 63, 64が設けられている。また、腰部 60にヒトの脊髄に対応する柱部 65が設けら れている。同図において、 0 pitchは柱部 65の垂直軸 Aとなす角度を、 0 1_hip, 0 r_hi pは上脚部 63, 64の柱部 65となす角度をそれぞれ示す。
[0070] また、上脚部 63, 64には、それぞれァクチユエータ 66, 67を備え、ァクチユエータ 66, 67にヒトの下腿に対応する下脚咅 69力設けられている。同図において、 Θ 1
_knee, 0 r_kneeは、下脚部 68, 69の上脚部 63, 64となす角度をそれぞれ示す。
[0071] 図 9は本発明に係る位相反応曲線学習装置によって得られた位相反応曲線及び 価値関数を示す図であり、(a)は価値関数、(b)は確率的な位相反応曲線をそれぞ れ示し、破線は標準偏差を示す。
位相反応曲線は、確率的に表現された位相反応曲線を示している。これは、確率 的な表現を可能にする強化学習の枠組みを用いていることに起因する。
[0072] 次に、 5リンクの 2足歩行ロボット 6において、位相リセットを行なうことによる姿勢制 御への有用性を調べるために、位相リセット及び強化学習による歩行への影響につ いて調べた。
[0073] 図 10は位相リセットを行なわない場合の歩行軌道を示す図、図 11は予め設計した 線形の位相反応曲線に応じて位相リセットを行なった場合の歩行軌道を示す図、図 12は本発明に係る位相反応曲線学習装置によって得られた位相反応曲線に応じて 位相リセットした場合の歩行軌道を示す図である。なお、図 10、図 11及び図 12にお いて、(a)は位相反応曲線、(b)は歩行軌道をそれぞれ示す。
[0074] 図 10及び図 11より、位相リセットを全く行なわない場合も、位相リセットを行なって 制御器 3と 5リンクの 2足歩行ロボット 6との同期を確立する場合も、 3回の歩行回数で 、 5リンクの 2足歩行ロボット 6が転倒することがわかる。つまり、複雑な制御系になれ ばなるほど、姿勢制御に対する位相反応曲線の重要度が増すことになる。
[0075] 図 11及び図 12より、強化学習によって位相反応曲線を最適化することによって、 5 リンクの 2足歩行ロボット 6が転倒しな 、ように、ロボット自身で姿勢の制御ができたこ とが分かる。
[0076] 実施例 3.
実施例 1及び 2は強化学習で得た位相反応曲線によって歩行運動などの周期的運 動を、転倒などさせずに安定的にて行わせんとするものである。しかしながら障害物 などの存在によって躓いた場合には転倒を回避しきれないことがある。人間が躓いた 場合に転倒を回避せんとする動きは
(1) elevating strategy (躓きによって素早く脚を上げること:脚上げによる回避戦略) (2) lowering strategy (躓きによって素早く脚を下げること:足下げによる回避戦略
)
(3) elevating strategyに失敗して lowering strategyとな
の 3パターンに分類されることが知られている。実施例 3では、 5リンク 2足歩行ロボット が障害物に躓いた時に、人間に観察される (1)(2)の動作を行なうよう設計したもので ある。以下の数値的条件は人間の動作観察の結果を参考に決定した。
[0077] 具体的には,躓き時の位相が φ = 5. 4rad以降の場合は lowering strategy,それ 以前では elevating strategyを行なうようにした。それぞれの転倒回避戦略は以下のよ うに目標軌道の変化によって実現する。
lowering strategyについては躓いた脚の股関節角を正方向(図 8で時計回り方向) に 0. 3rad,膝関節角を正方向に 0. lrad変位させることにより実現した。
elevating strategyは、躓いた脚の股関節軌道を負方向(図 8で反時計方向) に 0. 2rad、膝関節軌道を正方向に 0. 3rad変位させること〖こより実現した。
[0078] 図 14は位相反応曲線による位相リセットのみを行った場合の歩行軌道を、図 15は 位相反応曲線による位相リセットにカ卩えて elevating strategyを実行した場合の歩行 軌道を示している。前者では躓きの後転倒しているのに対し、後者では歩行を継続し ている。図 16は位相反応曲線による位相リセットのみを行った場合の歩行軌道を、図 17は位相反応曲線による位相リセットに加えて lowering strategyを実行した場合の歩 行軌道を示している。前者では躓きの後転倒しているのに対し、後者では歩行を継 続している。なお、 elevating strategyおよび lowering strategyは躓いたときの制御器 の位相に応じて!/、ずれを用いるかを切り替えて 、る。
[0079] なお、実施の形態では、制御対象として 2足歩行ロボットに本発明を適用した形態 について説明したが、周期的運動一般について本発明を適用することができることは 言うまでもない。

Claims

請求の範囲
[1] 複数の事象が周期的に発生する周期的運動の外乱因子に対する位相の変化量を 示す位相反応曲線を強化学習によって更新させる位相反応曲線学習方法であって 各事象の成否を判定し、判定結果に基づいて各事象の達成度を設定し、設定した 各事象の達成度の累計値が最大になるように前記位相反応曲線のパラメータを更新 すること
を特徴とする位相反応曲線学習方法。
[2] 複数の事象が周期的に発生する周期的運動の外乱因子に対する位相の変化量を 示す位相反応曲線を強化学習によって更新させる位相反応曲線学習装置であって 各事象の成否を判定する手段と、
判定結果に基づ!ヽて各事象の達成度を設定する手段と、
設定した各事象の達成度の累計値が最大になるように前記位相反応曲線のパラメ ータを更新する手段と
を備えることを特徴とする位相反応曲線学習装置。
[3] 複数の事象が周期的に発生する周期的運動の制御対象を、制御器が該制御対象 の状態に基づいて制御する周期的運動制御方法であって、
請求項 1に記載の位相反応曲線学習方法によって更新された位相反応曲線に基 づいて、周期的運動を規定する位相のリセットを行なって制御器及び制御対象の同 期を確立させること
を特徴とする周期的運動制御方法。
[4] 複数の事象が周期的に発生する周期的運動の制御対象を、該制御対象の状態に 基づいて制御する周期的運動制御装置であって、
請求項 1に記載の位相反応曲線学習方法によって更新された位相反応曲線に基 づいて、周期的運動を規定する位相のリセットを行なって前記制御対象との間で同 期を確立させる手段を備えること
を特徴とする周期的運動制御装置。
[5] 複数の事象が周期的に発生する周期的運動を制御対象に実行させる制御器と、 前記周期的運動の外乱因子に対する位相の変化量を示す位相反応曲線を強化 学習によって更新させるベく、
各事象の成否を判定する手段、
判定結果に基づ!ヽて各事象の達成度を設定する手段、及び
設定した各事象の達成度の累計値が最大になるように前記位相反応曲線のパラメ ータを更新する手段
を備える位相反応曲線学習装置と
を有し、外乱因子に対応して周期的運動のパターンを変更するようにしてあることを 特徴とする周期的運動制御装置。
[6] パラメータを更新された位相反応曲線に基づいて、周期的運動を規定する位相の リセットを行い、制御対象との間で同期を確立するようにしてある請求項 5に記載の周 期的運動制御装置。
[7] 前記制御対象は 2足歩行ロボットであり、該ロボットの足の接地時に前記リセットを 行う請求項 6に記載の周期的運動制御装置。
[8] 前記 2足歩行ロボットは 5リンクを有し、転倒回避のために股関節角及び Zまたは膝 関節角を変位するパターン変更を行う請求項 7に記載の周期的運動制御装置。
[9] 前記 2足歩行ロボットは 5リンクを有し、転倒回避のために股関節角及び膝関節角 を正方向に変位するパターン変更を行う請求項 8に記載の周期的運動制御装置。
[10] 前記 2足歩行ロボットは 5リンクを有し、転倒回避のために股関節軌道及び Zまたは 膝関節軌道を変位するパターン変更を行う請求項 7乃至 9のいずれかに記載の周期 的運動制御装置。
[11] 前記 2足歩行ロボットは 5リンクを有し、転倒回避のために股関節軌道を負方向に、 膝関節軌道を正方向に各変位するパターン変更を行う請求項 7乃至 10のいずれか に記載の周期的運動制御装置。
[12] 周期的歩行を行う 2リンクの 2足歩行ロボットを、該ロボットの状態に基づいて制御す る歩行運動制御装置であって、
[数 1] φ = ωί
τ = Κρ ο ?,φ-θ)+Κ(ι -ω να.φ-θ) ここで、 Kp,Kd :サ一ボゲイン
τ :関節における出力トルク
Θ : リンク間の関節角度 φは位相で表される周期軌道をロボットに追従させる制御器と、
歩行運動の成否を判定する手段、
該手段での判定結果に基づ!/、て各歩行の達成度を設定する手段、及び 該手段で設定した達成度の累計値が最大になるように、外乱因子による歩行運動 の位相の変化量を示す位相反応曲線のパラメータを更新する手段
を備える位相反応曲線学習装置と
を有し、
ノ メータを更新された位相反応曲線に基づいて、歩行運動を規定する位相をリセ ットし、ロボットとの間で同期を確立させるようにしてあることを特徴とする歩行運動制 御装置。
前記ロボットの足の接地時に前記リセットを行う請求項 12に記載の歩行運動制御 装置。
PCT/JP2006/318504 2005-11-30 2006-09-19 位相反応曲線学習方法及び装置、周期的運動制御方法及び装置、並びに歩行運動制御装置 WO2007063633A1 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2005-346122 2005-11-30
JP2005346122 2005-11-30
JP2006-251704 2006-09-15
JP2006251704A JP2007175860A (ja) 2005-11-30 2006-09-15 位相反応曲線学習方法及び装置、周期的運動制御方法及び装置、並びに歩行運動制御装置

Publications (1)

Publication Number Publication Date
WO2007063633A1 true WO2007063633A1 (ja) 2007-06-07

Family

ID=38091973

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2006/318504 WO2007063633A1 (ja) 2005-11-30 2006-09-19 位相反応曲線学習方法及び装置、周期的運動制御方法及び装置、並びに歩行運動制御装置

Country Status (2)

Country Link
JP (1) JP2007175860A (ja)
WO (1) WO2007063633A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112472530A (zh) * 2020-12-01 2021-03-12 天津理工大学 一种基于步行比趋势变化的奖励函数建立方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05305583A (ja) * 1992-04-30 1993-11-19 Honda Motor Co Ltd 脚式移動ロボットの歩行制御装置
JP2004202652A (ja) * 2002-12-26 2004-07-22 Toyota Motor Corp 体幹を捩じって歩行する2足ロボットとそのための方法
JP2005096068A (ja) * 2003-08-25 2005-04-14 Sony Corp ロボット装置及びロボットの姿勢制御方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05305583A (ja) * 1992-04-30 1993-11-19 Honda Motor Co Ltd 脚式移動ロボットの歩行制御装置
JP2004202652A (ja) * 2002-12-26 2004-07-22 Toyota Motor Corp 体幹を捩じって歩行する2足ロボットとそのための方法
JP2005096068A (ja) * 2003-08-25 2005-04-14 Sony Corp ロボット装置及びロボットの姿勢制御方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112472530A (zh) * 2020-12-01 2021-03-12 天津理工大学 一种基于步行比趋势变化的奖励函数建立方法

Also Published As

Publication number Publication date
JP2007175860A (ja) 2007-07-12

Similar Documents

Publication Publication Date Title
Juang et al. Multiobjective evolution of biped robot gaits using advanced continuous ant-colony optimized recurrent neural networks
Gehring et al. Control of dynamic gaits for a quadrupedal robot
Matsubara et al. Learning CPG-based biped locomotion with a policy gradient method
US6580969B1 (en) Legged mobile robot and method and apparatus for controlling the operation thereof
US9073209B2 (en) Walking robot and control method thereof
Kryczka et al. Online regeneration of bipedal walking gait pattern optimizing footstep placement and timing
Christensen et al. A distributed and morphology-independent strategy for adaptive locomotion in self-reconfigurable modular robots
KR20040108526A (ko) 각식 이동 로봇의 동작 제어 장치 및 동작 제어 방법 및로봇 장치
Sugimoto et al. The eMOSAIC model for humanoid robot control
Oliveira et al. Multi-objective parameter CPG optimization for gait generation of a biped robot
Rodriguez et al. Combining simulations and real-robot experiments for Bayesian optimization of bipedal gait stabilization
Barfoot et al. Experiments in learning distributed control for a hexapod robot
Hitomi et al. Reinforcement learning for quasi-passive dynamic walking of an unstable biped robot
WO2007063633A1 (ja) 位相反応曲線学習方法及び装置、周期的運動制御方法及び装置、並びに歩行運動制御装置
Luo et al. Learning push recovery for a bipedal humanoid robot with dynamical movement primitives
Stitt et al. Distal learning applied to biped robots
Chen et al. A strategy for push recovery in quadruped robot based on reinforcement learning
Sacchi et al. Deep reinforcement learning of robotic prosthesis for gait symmetry in trans-femoral amputated patients
Chen et al. Neural fuzzy inference systems with knowledge-based cultural differential evolution for nonlinear system control
Jamisola et al. An approach to drastically reduce the required legs DOFs for bipedal robots and lower-limb exoskeletons
Duburcq et al. Reactive Stepping for Humanoid Robots using Reinforcement Learning: Application to Standing Push Recovery on the Exoskeleton Atalante
Kumar et al. Learning-Based Motion Planning of a 14-DOF Biped Robot on 3D Uneven Terrain Containing a Ditch
Kalamian et al. Stepping of biped robots over large obstacles using NMPC controller
Meerza et al. Self Modeling and Gait Control of Quadruped Robot Using Q-Learning Based Particle Swarm Optimization
Nahrendra et al. Robust recovery motion control for quadrupedal robots via learned terrain imagination

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application
DPE1 Request for preliminary examination filed after expiration of 19th month from priority date (pct application filed from 20040101)
NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 06810246

Country of ref document: EP

Kind code of ref document: A1