WO2007063633A1

WO2007063633A1 - 位相反応曲線学習方法及び装置、周期的運動制御方法及び装置、並びに歩行運動制御装置

Info

Publication number: WO2007063633A1
Application number: PCT/JP2006/318504
Authority: WO
Inventors: Jun Morimoto; Jun Nakanishi; Gen Endo; Gordon Cheng; Mitsuo Kawato
Original assignee: Japan Science And Technology Agency; Advanced Telecommunications Research Institute International; Sony Corporation
Priority date: 2005-11-30
Filing date: 2006-09-19
Publication date: 2007-06-07
Also published as: JP2007175860A

Abstract

　歩行運動のような周期運度の安定化に有効な位相反応曲線を更新させる位相反応曲線学習方法などを提供する。本発明に係る位相反応曲線学習装置１においては、同期事象検出部１２にて、制御器３と２足歩行ロボット５との間で同期を確立すべき事象（同期事象という）が発生したか否かを検出する。同期事象検出部１２にて同期事象の発生が検出された場合、成否判定部１３は同期事象の成否を判定する。報酬設定部１４は、成否判定部１３による判定結果に基づいて各事象の達成度としての報酬を設定し、曲線パラメータ更新部１５は、報酬設定部１４にて設定された各事象の報酬の累計値が最大になるように曲線パラメータ１１ａを更新する。制御器３は、位相反応曲線学習装置１によって最適化された位相反応曲線に基づいて位相のリセットを行なうことによって制御器３と２足歩行ロボット５との間で同期を確立させる。

Description

明細書

位相反応曲線学習方法及び装置、周期的運動制御方法及び装置、並びに歩行運動制御装置

技術分野

[0001] 本発明は、歩行運動のような周期的運動の安定ィ匕に有効な位相反応曲線を更新させる位相反応曲線学習方法及び装置並びにこれらを用いた周期的運動制御方法及び装置並びに歩行運動制御装置に関する。

背景技術

[0002] 近年、産業用のみならず、エンタテインメント性が高く玩具的要素を有するロボット、住居の監視を行なうような実用的要素を有するロボットなど、様々なロボットが開発されている。なかでも、ヒトの動作をモデルにした 2足歩行ロボットは、姿勢制御が極めて困難である反面、動作の多様性に優れ、様々な用途での利用が考えられる。

[0003] ところで、歩行運動のような周期的運動においては、制御器と該制御器の制御対象とを同期させることが重要であると考えられている。例えば、同期を確立すべき事象が生じたタイミングにおける制御器の変化量 Δ φを位相 φの関数として表した位相反応曲線を用いて位相をリセットすることにより、迅速に制御器と制御対象との間で同期を確立させる技術が提案されている (例えば、非特許文献 1、非特許文献 2及び非特許文献 3参照。 )₀ 2足歩行ロボットにおいては、各脚が接地するたびに、一方 (接地側）の脚の位相 φを 0に、他方 (非接地側）の脚の位相 φを πにする。

[0004] 図 13は位相反応曲線 30の一例を示している。位相反応曲線 30は、複数の事象が周期的に発生する周期的運動の外乱因子に対する位相の変化量を示したものである。例えば、周期的運動が行なわれている振動子に外乱を与えた場合、長時間経過後の振動子の周期は元の周期に収束するが、位相ずれ (位相の変化）が生じる。外乱をカ卩えたタイミング (位相 φ )を横軸に、位相の変化量 Δ φを縦軸に取って、位相 φと位相の変化量 Δ φとの関係を示したものがこの位相反応曲線 30である。

非特許文献 1 :山崎大河、他 2名（T.Yamasaki,T.Nomura,and S.Sato)著，歩行における位相リセットの機能的役割（Possible fonctional roles of phase resetting during walki ng) , 「バイオロジカル 'サイバネティックス（Biological Cybernetics)」， 2003年，第 88 卷，第 6号 ,ρ. 468 -496

非特許文献 2 :土屋和雄、他 2名 (K.Tsuchiya,S.Aoi,and K.Tsujita)著，非線形振動子を用いた 2足歩行ロボットの歩行制御（Locomotion control of biped locomotion rob ot using nonlinear oscillators) , 「IEEEZRSJ知的ロボット及びシステム国際会議予稿集 (In Proceedings of the IEEE/RSJ International Conference on Intelligent Robot s and Systems] J ,ラス.ベガス（米国）， 2003年, p. 1745— 1750

非特許文献 3 :中西淳、他 5名（J.Nakanishi,J.Morimoto,G.Endo,G.Cheng,S.Schaal,an d M.Kawato)著， 2足歩行のデモンストレーション及び適応からの学習（Learning from demonstration and adaptation of biped locomotion) , 「口ホット自律ンスアム (Robotic s and Autonomous Systems；)」， 2004年，第 47卷， p. 79— 91

非特許文献 4 :R. S.サットン、他 1名（R.S.Sutton and A.G.Barto)著，強化学習 Reinf orcement Learning: An Introduction) ,ェムイアイ¹ ~~ 'プレス (MIT Press; ,ケンブリッジ， 1998年

非特許文献 5 :銅谷賢治著 (K.Doya)著，連続的な時間及び空間における強化学習（ Reinforcement Learning in continuous Time and bpace) , 「二ュ ~~フノレ'コンヒユア' ~~ シヨン（Neural Computation)」， 2000年，第 12卷，第 1号， p. 219— 245

非特許文献 6 :佐藤雅昭、他 1名（M.Sato and S.Ishii)著，オンライン EMアルゴリズムに ¾つく強ィ匕学習 (Reinforcement learning based on on-line EM algorithm. (In M.b. Kearns , S . A. Solla, andD . A. Cohn editors)) , 「神経情報処理システムの進歩（Advances in Neural Information Processing Systems 11) ,ェムアイアイ¹ ~~ 'プレス (MIT Press) , ケンブリッジ， 1999年， p. 1052- 1058

非特許文献 7 :森本淳、他 1名（J.Morimoto and K.Doya)著，階層的強化学習を用いたリアルロボットによる起き上がり動作の習得（Acquisition of stand-up behavior by a real robot using hierarchical reinforcement learning) , 「ロボット自律ンスアム (Robotic s and Autonomous Systems) , 2001年，第 36卷， p. 37— 51

発明の開示

発明が解決しょうとする課題 [0005] し力しながら、現状では位相反応曲線の設計方法が確立されていないことから、人間が個々のロボットを実際に歩行させ、歩行実験を繰り返すことによって位相反応曲線を設計しているのが実情である。したがって、新たにロボットを開発するたびに、個々のロボットに応じて歩行実験を行なう必要があり、ロボット開発に膨大な時間を要するという問題があった。また、設計者の意図が位相反応曲線に加味されることから、客観性に欠けるという問題があった。

[0006] 本発明は斯力る事情に鑑みてなされたものであり、歩行運動のような周期的運動における複数の事象のそれぞれに対して成否を判定し、判定結果に基づヽて各事象の達成度を設定し、設定した各事象の達成度の累計値が最大になるように位相反応曲線のパラメータを更新することにより、位相反応曲線を人が設計することなぐまた全探索的に設計することなぐ客観性に優れ、位相反応曲線を更新させて周期的運動の安定ィヒを実現することができる位相反応曲線学習方法及び位相反応曲線学習装置の提供を目的とする。

また本発明は、強化学習された位相反応曲線に基づいて、周期的運動を規定する位相のリセットを行なって制御器及び制御対象の同期を確立させることにより、安定した周期的運動を実現することができる周期的運動制御方法及び周期的運動制御装置の提供を目的とする。

[0007] また本発明は、歩行運動のような周期的運動における複数の事象のそれぞれに対して成否を判定し、判定結果に基づいて各事象の達成度を設定し、設定した各事象の達成度の累計値が最大になるように位相反応曲線のパラメータを更新する一方、外乱因子に応じて周期的運動のパターンを変更することにより、位相反応曲線を人が設計することなぐまた全探索的に設計することなぐ客観性に優れ、位相反応曲線を更新させ、また周期的運動及び歩行運動の安定化を実現することができる周期的運動制御装置及び歩行運動制御装置の提供を目的とする。

また本発明は、強化学習された位相反応曲線に基づいて、周期的運動を規定する位相のリセットを行なって制御器及び制御対象の同期を確立させることにより、安定した歩行運動などの周期的運動を実現することができる周期的運動制御装置及び歩行運動制御装置の提供を目的とする。課題を解決するための手段

[0008] 第 1発明に係る位相反応曲線学習方法は、複数の事象が周期的に発生する周期的運動の外乱因子に対する位相の変化量を示す位相反応曲線を強化学習によって更新させる位相反応曲線学習方法であって、各事象の成否を判定し、判定結果に基づいて各事象の達成度を設定し、設定した各事象の達成度の累計値が最大になるように前記位相反応曲線のパラメータを更新することを特徴とする。

第 2発明に係る位相反応曲線学習装置は、複数の事象が周期的に発生する周期的運動の外乱因子に対する位相の変化量を示す位相反応曲線を強化学習によって更新させる位相反応曲線学習装置であって、各事象の成否を判定する手段と、判定

ヽて各事象の達成度を設定する手段と、設定した各事象の達成度の累計値が最大になるように前記位相反応曲線のパラメータを更新する手段とを備えることを特徴とする。

第 3発明に係る周期的運動制御方法は、複数の事象が周期的に発生する周期的運動の制御対象を、制御器が該制御対象の状態に基づ!、て制御する周期的運動制御方法であって、第 1発明の位相反応曲線学習方法によって更新された位相反応曲線に基づ、て、周期的運動を規定する位相のリセットを行なって制御器及び制御対象の同期を確立させることを特徴とする。

第 4発明に係る周期的運動制御装置は、複数の事象が周期的に発生する周期的運動の制御対象を、該制御対象の状態に基づ!、て制御する周期的運動制御装置であって、第 1発明の位相反応曲線学習方法によって更新された位相反応曲線に基づいて、周期的運動を規定する位相のリセットを行なって前記制御対象との間で同期を確立させる手段を備えることを特徴とする。

[0009] 第 5発明に係る周期的運動制御装置は、複数の事象が周期的に発生する周期的運動を制御対象に実行させる制御器と、前記周期的運動の外乱因子に対する位相の変化量を示す位相反応曲線を強化学習によって更新させるベぐ各事象の成否を判定する手段、判定結果に基づいて各事象の達成度を設定する手段、及び設定した各事象の達成度の累計値が最大になるように前記位相反応曲線のパラメータを更新する手段を備える位相反応曲線学習装置とを有し、外乱因子に対応して周期的運動のパターンを変更するようにしてあることを特徴とする。

第 6発明に係る周期的運動制御装置は、パラメータを更新された位相反応曲線に基づいて、周期的運動を規定する位相のリセットを行い、制御対象との間で同期を確立するようにしてあることを特徴とする。

第 7発明に係る周期的運動制御装置は、前記制御対象は 2足歩行ロボットであり、該ロボットの足の接地時に前記リセットを行うことを特徴とする。

[0010] 第 8発明に係る周期的運動制御装置は、前記 2足歩行ロボットは 5リンクを有し、転倒回避のために股関節角及び Zまたは膝関節角を変位するパターン変更を行うことを特徴とする。

第 9発明に係る周期的運動制御装置は、前記 2足歩行ロボットは 5リンクを有し、転倒回避のために股関節角及び膝関節角を正方向に変位するパターン変更を行うことを特徴とする。

第 10発明に係る周期的運動制御装置は、前記 2足歩行ロボットは 5リンクを有し、転倒回避のために股関節軌道及び Zまたは膝関節軌道を変位するパターン変更を行うことを特徴とする。

第 11発明に係る周期的運動制御装置は、前記 2足歩行ロボットは 5リンクを有し、転倒回避のために股関節軌道を負方向に、膝関節軌道を正方向に各変位するバターン変更を行うことを特徴とする。

[0011] 第 12発明に係る歩行運動制御装置は、周期的歩行を行う 2リンクの 2足歩行ロボットを、該ロボットの状態に基づ、て制御する歩行運動制御装置であって、

[0012] [数 1] φ = ω ί

τ = Κ_ρ(οο8 φ - θ) + Κ^ (-ω 8ΐη - θ ここで、 K_p ,K_d ：サ一ボゲイン

τ ：関節における出力トルク

Θ ：リンク間の関節角度

[0013] φは位相で表される周期軌道をロボットに追従させる制御器と、歩行運動の成否を判定する手段、該手段での判定結果に基づ!、て各歩行の達成度を設定する手段、及び該手段で設定した達成度の累計値が最大になるように、外乱因子による歩行運動の位相の変化量を示す位相反応曲線のパラメータを更新する手段を備える位相反応曲線学習装置とを有し、パラメータを更新された位相反応曲線に基づいて、歩行運動を規定する位相をリセットし、ロボットとの間で同期を確立させるようにしてあることを特徴とする。

第 13発明に係る歩行運動制御装置は、前記ロボットの足の接地時に前記リセットを行うことを特徴とする。

[0014] 第 1発明及び第 2発明にあっては、周期的運動における複数の事象のそれぞれに対して成否を判定し、判定結果に基づいて各事象の達成度を設定し、設定した各事象の達成度の累計値が最大になるように位相反応曲線のパラメータを更新する。第 3発明及び第 4発明にあっては、上述のようにして更新された位相反応曲線に基づいて、周期的運動を規定する位相のリセットを行なって制御対象との間で同期を確立させる。

[0015] 第 5発明及び第 12発明にあっては、周期的運動または歩行運動における複数の事象のそれぞれに対して成否を判定し、判定結果に基づ！ヽて各事象の達成度を設定し、設定した各事象の達成度の累計値が最大になるように位相反応曲線のパラメータを更新する。そして第 5発明では外乱因子に応じて周期的運動のパターンも変更し、運動の安定性を確保する。

第 6発明及び第 13発明にあっては、上述のようにして更新された位相反応曲線に基づいて、周期的運動を規定する位相のリセットを行なって制御対象との間で同期を確立させる。そして第 7発明及び第 13発明では 2足歩行ロボットの足の接地時をリセットタイミングとして制御側と非制御側との同期を確立する。

第 8乃至第 11発明にあっては、躓きに対処して転倒回避を図るべく足下げ (lowerin g)及び足上げ (elevating)をそれぞれ行う。

発明の効果

[0016] 第 1発明及び第 2発明によれば、歩行運動のような周期的運動における複数の事象のそれぞれに対して成否を判定し、判定結果に基づ!/ヽて各事象の達成度を設定し、設定した各事象の達成度の累計値が最大になるように位相反応曲線のパラメ一タを更新することにしたので、位相反応曲線を人が設計することなぐまた全探索的に設計することなぐ客観性に優れ、位相反応曲線を更新させて周期的運動の安定化を実現することができる。強化学習によって自動的に位相反応曲線を更新することから、設計者の意図が位相反応曲線に加味されることはない。

第 3発明及び第 4発明によれば、強化学習された位相反応曲線に基づいて、周期的運動を規定する位相のリセットを行なって制御器と制御対象との間の同期を確立させることにしたので、安定した周期的運動を実現することができる。したがって、例えば、個々のロボットごとの歩行実験が不要となり、ロボット開発に要する時間を大幅に短縮することができる等、優れた効果を奏する。

第 5発明によれば、歩行運動のような周期的運動における複数の事象のそれぞれに対して成否を判定し、判定結果に基づいて各事象の達成度を設定し、設定した各事象の達成度の累計値が最大になるように位相反応曲線のパラメータを更新するとともに、外乱因子に対応して周期的パターンを変更するので、位相反応曲線を人が設計することなぐまた全探索的に設計することなぐ客観性に優れ、位相反応曲線を更新させて周期的運動の安定ィ匕を実現することができ、外乱に対しても例えば転倒することなく歩行運動などの周期的運動を継続することができる。また設計者の意図が位相反応曲線にカ卩味されることはない。

第 6、 7発明によれば、周期的運動を規定する位相のリセットを行なって制御器と制御対象との間の同期を確立させることにしたので、安定した周期的運動を実現することができる。そして 2足歩行ロボットにおいては物理的に特定しやすぐまた動作の安定性が高い状態で同期が確立される。

第 8乃至第 11発明によれば 5リンク 2足歩行ロボットが躓きに対処して転倒することなくなる。

第 12発明によれば、 2リンクの 2足歩行ロボットにおいて強化学習によって獲得された強化学習された位相反応曲線に基づいて、周期的運動を規定する位相のリセットを行なって制御器と制御対象との間の同期を確立させることにしたので、安定した周期的運動を実現することができる。したがって、例えば、個々のロボットごとの歩行実験が不要となり、ロボット開発に要する時間を大幅に短縮することができる等、優れた効果を奏する。

第 13発明よれば、 2足歩行ロボットで物理的に特定しやすぐまた動作の安定性が高い状態で制御器との同期が確立される。

図面の簡単な説明

[図 1]本発明に係る位相反応曲線学習装置が接続された 2足歩行ロボットの構成を示すブロック図である。

[図 2]2リンクの 2足歩行ロボットの骨格モデルを示す模式図である。

[図 3]本発明に係る位相反応曲線学習装置によって得られた位相反応曲線及び価値関数を示す図である。

[図 4]学習過程である累積報酬値の時間的変化を示す図である。

[図 5]位相リセットを行なわない場合の歩行軌道を示す図である。

[図 6]予め設計した線形の位相反応曲線に応じて位相リセットを行なった場合の歩行軌道を示す図である。

[図 7]本発明に係る位相反応曲線学習装置によって得られた位相反応曲線に応じて位相リセットした場合の歩行軌道を示す図である。

[図 8]5リンクの 2足歩行ロボットの骨格モデルを示す模式図である。

[図 9]本発明に係る位相反応曲線学習装置によって得られた位相反応曲線及び価値関数を示す図である。

[図 10]位相リセットを行なわない場合の歩行軌道を示す図である。

[図 11]予め設計した線形の位相反応曲線に応じて位相リセットを行なった場合の歩行軌道を示す図である。

[図 12]本発明に係る位相反応曲線学習装置によって得られた位相反応曲線に応じて位相リセットした場合の歩行軌道を示す図である。

[図 13]位相反応曲線の一例を示す図である。

[図 14]位相リセットのみを行った場合の歩行軌道を示す図である。

[図 15]位相リセットに加えて目標軌道変更を行った場合の歩行軌道を示す図である [図 16]位相リセットのみを行った場合の歩行軌道を示す図である。

[図 17]位相リセットに加えて他の目標軌道変更を行った場合の歩行軌道を示す図である。

符号の説明

[0019] 1 位相反応曲線学習装置

3 制御器 (周期的運動制御装置）

5 2リンクの 2足歩行ロボット（制御対象）

6 5リンクの 2足歩行ロボット（制御対象）

10 制御部

11 記憶部

11a 曲線パラメータ

l ib 価値関数

12 同期事象検出部

13 成否判定部

14 報酬設定部

15 曲線パラメータ更新部

発明を実施するための最良の形態

[0020] 以下、本発明をその実施の形態を示す図面に基づいて詳述する。

[0021] 図 1は本発明に係る位相反応曲線学習装置が接続された 2足歩行ロボットの構成を示すブロック図である。

本発明に係る位相反応曲線学習装置 1は、制御対象（2足歩行ロボット） 5の姿勢制御に用いる位相反応曲線 30 (図 13参照）を強化学習により更新させるためのものである。

[0022] 周期的運動制御装置としての制御器 3は、位相反応曲線学習装置 1によって最適化された位相反応曲線 30に基づいて位相のリセットを行なうことによって制御器 3と 2 足歩行ロボット 5との間で同期を確立させる。

[0023] 2リンクの 2足歩行ロボット 5は、図 2に示すように、ヒトの腰に対応する腰部 50の左右に、股関節としてのァクチユエータ 51, 52を備え、ァクチユエータ 51, 52にヒトの脚に対応する脚部 53, 54が設けられている。同図において、 0 L, 0 Rは、脚部 53, 54の垂直軸 Aとなす角度をそれぞれ示す。

[0024] 位相反応曲線学習装置 1は、 CPUで構成された制御部 10を備えている。制御部 1 0は、記憶部 11、同期事象検出部 12、成否判定部 13、報酬設定部 14、曲線パラメータ更新部 15などと接続され、記憶部 11に予め格納されているコンピュータプロダラムに従って、各部と協働して各種の機能を果たす。

[0025] 記憶部 11には位相反応曲線 30を規定する曲線パラメータ 1 laが記憶されて、る。

位相反応曲線学習装置 1は、制御対象に生じた事象に応じて曲線パラメータ 11 aを更新し、位相反応曲線 30の最適化を行なう。なお、学習前に予め曲線パラメータ 11 aを記憶部 11に記憶する必要がある力学習前の曲線パラメータ 1 laはユーザにより適宜決定しておく。また、記憶部 11には価値関数 l ibが記憶されている。

[0026] 同期事象検出部 12は、歩行運動における各脚の接地のような制御器 3と 2足歩行ロボット 5との間で同期を確立すべき事象（同期事象という）が発生したか否かを検出する。例えば、 2足歩行ロボット 5の脚部 53, 54の脚底に接地センサを設け、脚部 53 , 54のうちの一方の脚部の脚底が地面に接地した場合に接地センサで接地を判断し、同期事象検出部 12へ通知信号を出力することにより、同期事象検出部 12は、脚部の接地を判定して同期を確立させるべき事象が生じたと判断することができる。

[0027] 同期事象検出部 12にて同期事象の発生が検出された場合、成否判定部 13は同期事象の成否を判定する。報酬設定部 14は、成否判定部 13による判定結果に基づいて各事象の達成度としての報酬 rを設定し、曲線パラメータ更新部 15は、報酬設定部 14にて設定された各事象の報酬 rの累計値が最大〖こなるように曲線パラメータ 11 aを更新する。なお、 2足歩行ロボット 5が、同期事象の成否を判定し、判定結果に基づヽて各事象の報酬 rを設定するようにしてもょ、。

[0028] [価値関数 ·時間差分誤差 (Temporal Difference誤差：以下、 TD誤差) ]

同期事象 (タスク失敗の事象を含む）における制御器 3の位相 φの状態遷移確率を式 (1)で表す。

[0029] [数 2] 式（ 1 )

[0030] 式（1)において、位相リセット量 Δ φは、位相反応曲線 30に応じて決定される。報酬 rは、式（2)のように、制御器 3の位相 φ及び位相リセット量 Δ φの条件付確率によつて与えられると仮定する。

[0031] [数 3] (r(t ₊ l)| (t), A^(t)) … 式（2 )

[0032] 位相反応曲線 30を生成する確率分布 π ( Δ (t) | φ (t) )のもとで、位相 φ (t)における価値関数を式（3)のように表す。

[0033] [数 4]

ここで、 y ：価値関数の割引率

[0034] また、式（3)の両辺の時間に対する差分から、式 (4)の価値関数に対する拘束条件が導出される。

[0035] [数 5]

( ― 1 … 式（4 )

ν^π (φ(ί)) = Ε[Γ(_{ί +} 1) ₊ γν^π (φ(ί ₊ 1))]

[0036] そして、式（5)を価値関数の予測値とする。

[0037] [数 6] ν( (ή) =

… 式（5 ) ここで、 w^c _:価値関数の予測値パラメ一タ [0038] ここで、状態予測が正当である場合、価値関数は式 (4)を満足することになるが、状態予測が不当である場合、式 (6)のような TD誤差 (例えば、非特許文献 4参照)を減少させるように価値関数の学習を行なう。

[0039] [数 7]

S(t) = r(t + l) + _rV(t + l) ~ V(t) … 式（6 )

[0040] TD誤差は、状態系列間の価値関数の時間的差分であって、時刻 t+ 1における報酬 r (t + 1)及び状態価値の推定量 V (t+ 1)から時刻 tにおける状態価値 V (t)を差分したものである。なお、状態価値の推定量 V (t+ 1)には価値関数の割引率 γを考慮する。 TD誤差とは、状態の推定と、実際の行動結果としての状態との誤差であり、その状態の推定が正し力つた力否かを示す指標といえる。例えば、 TD誤差が正の時は、推定した以上に報酬が得られたということであり、負の時は推定よりも報酬が得られな力つたということになる。

[0041] [位相反応曲線の更新]

上述では離散的な時間を対象とした価値関数について説明したが、連続状態における価値関数を取り扱うためには、例えば、式（7)のような正規ィ匕ガウス関数ネットヮークを用いる（例えば、非特許文献 5及び非特許文献 6参照。 )₀

[0042] [数 8] ν{φ{ί))

… 式（7 )

i

ここで、 bf {( t、、：基底関数

wf ：価値関数のパラメ一タ

[0043] 式（7)において、価値関数のパラメータに対するエリジビリティ'トレース（eligibility t race)と、 TD誤差を用いた価値関数のパラメータの更新式は式 (8)及び式（

9)のように表す。 [0044] [数 9]

- 式（8) wf (t + l) = wf (t) + aS(t)e (t) … 式（9) ここで、 ef ：価値関数のパラメータ wfに対するエリジビリティ ■ トレース

a ：価値関数の学習率

：エリジビリティ ■ トレースの時定数

[0045] [位相反応曲線の更新]

また、位相反応曲線の位相 φは、式（10)のように、確率的な行動則の実現値として表す。

[0046] [数 10] e_xp ( つ )²) 式（1 0)

2 (wび） w^a ：パラメ一タ ■べクトル

μ ：平均び² ：分散

[0047] よって、その実現値は、式（11)のように表すことができる。

[0048] [数 11]

Α (ί) = μ( (ί); Λν^μ ) + a(w^a )n(t) … 式（1 1)

ここで、 n(t)〜尋, 1)

N(0,1) :μ = ,σ² =1の正規分布

[0049] 式（11)にお、て、平均 μ及び標準偏差 σに関するエリジビリティ (eligibility) は、式（ 12)及び式（ 13)のように表すことができる。 [0050] [数 12]

式（1 2) 式（1 3)

[0051] さらに、平均 μを正規ィ匕ガウス関数ネットワーク (例えば、非特許文献 5及び非特許文献 7参照。 )によって表し (式（14))、標準偏差 σをシグモイド関数及び正規化ガウス関数ネットワークによって表す (式（ 15) )。

[0052] [数 13] 式（14) 式（1 5)

l + exp(-CT^W) ここで、 _CT ^W =

基底関数 w ,w ：位相反応曲線（式（1 0)) を規定するための

曲線パラメータ

[0053] また、位相反応曲線を規定するための曲線パラメータに対応するエリジビリティは、式（16)及び式（17)のように導出される。

[0054] [数 14] cln^- _ Sln^- δμ

式（1 6)

dwf 8μ σ²

3びゾ

w da dw^a ^((Δ )² ) ⁽¹ -び

σ ,) … 式い 7)

[0055] 以上のようにして、位相反応曲線の更新則は式（18)及び式（19)のように表すことができる。

[0056] [数 15] nf(t ₊ l) = (t) + ό(り (り … 式（ 1 8) Wfit ₊ ΐ) =

… 式（ 1 9 ) ここで、 β^μ,β^σ ：学習率

(り， ef (t) ：学習率のエリジビリティ . トレ一ス

[0057] また、学習率のエリジビリティ'トレースは、式（20)及び式（21)のように表せる。

[0058] [数 16] e (t ₊ l) = A^^( ₊ ^¾ … 式（²0) - 式（2 1 )

ここで、 λ^μ ：エリジビリティ ■ トレースの割引率

[0059] 上述のようにして、 TD誤差を用いて価値関数のパラメータの更新 (式 (8)、式（9) ) と、位相反応曲線の更新 (式（18)、式（19))とを行なうことによって、各事象の報酬の累計値が最大になる。新たにロボットのような制御対象を開発するたびに位相反応曲線を人が設計する必要はなぐ強化学習によって位相反応曲線を更新してリズムに同調する周期的運動を実現することができる。したがって、個々のロボットごとの歩行実験が不要となり、ロボット開発に要する時間を大幅に短縮することができる。また、強化学習によって自動的に位相反応曲線を更新することから、設計者の意図が位相反応曲線に加味されることはない。

[0060] 実施例 1.

本発明に係る位相反応曲線学習装置 1を用いて、 2リンクの 2足歩行ロボット 5に対して位相反応曲線 30の更新を行なった。制御器 3として、式（22)及び式（23)に示す周期軌道を追従するようなものを用いた。なお、学習時の報酬として、転倒時に報酬 r=— l、遊脚接地時に報酬 r=0. 1を与え、報酬の累計値が最大になるように強化学習を行なうものとする。

[0061] [数 17] φ = ω ΐ … 式（ 2 2 ) τ = Κ_ρ(οοΒφ - θ) + Κ_ά (-ω 8Ϊη φ - θ) … 式（2 3 ) ここで、 K_p,K_d ：サ一ボゲイン

τ ：関節における出力トルク

Θ ：リンク間の関節角度

[0062] 図 3は本発明に係る位相反応曲線学習装置によって得られた位相反応曲線 30及び価値関数を示す図であり、（a)は価値関数、（b)は確率的な位相反応曲線をそれぞれ示し、破線は標準偏差を示す。

位相反応曲線は、確率的に表現された位相反応曲線を示している。これは、確率的な表現を可能にする強化学習の枠組みを用いていることに起因する。

[0063] 図 4は学習過程である累積報酬値の時間的変化を示す図である。

図 4において、強化学習を略 70回繰り返すことによって、累積報酬値が所定値 (ここでは 5)に収束 (最大化）していることがわかる。つまり、本発明の強化学習においては、強化学習を略 70回繰り返すことによって位相反応曲線を最適化することができる [0064] 次に、 2リンクの 2足歩行ロボット 5において、位相リセットを行なうことによる姿勢制御への有用性を調べるために、位相リセット及び強化学習による歩行への影響について調べた。

[0065] 図 5は位相リセットを行なわない場合の歩行軌道を示す図、図 6は予め設計した線形の位相反応曲線に応じて位相リセットを行なった場合の歩行軌道を示す図、図 7 は本発明に係る位相反応曲線学習装置によって得られた位相反応曲線に応じて位相リセットした場合の歩行軌道を示す図である。なお、図 5、図 6及び図 7において、（ a)は位相反応曲線、（b)は歩行軌道をそれぞれ示す。

[0066] 図 5及び図 6より、位相リセットを全く行なわない場合、略 5回の歩行回数で 2足歩行ロボット 5が転倒する力位相リセットを行なって制御器 3と 2足歩行ロボット 5との同期を確立することによって、歩行回数を略 10回まで維持できることがわかる。し力しながら、線形の位相反応曲線では、略 10回の歩行回数で 2足歩行ロボット 5が転倒することから、実用化には不適である。

[0067] 図 6及び図 7より、強化学習によって位相反応曲線を最適化することによって、 2リンクの 2足歩行ロボット 5が転倒しな、ように、ロボット自身で姿勢の制御ができたことが分かる。このように、本発明の強化学習により位相反応曲線を更新し、リズムに同調する歩行運動のような周期的運動を極めて短時間で開発することができる。

[0068] 実施例 2.

次に、さらに複雑な制御系でも本発明に係る位相反応曲線学習装置の有用性を調ベるべく、 5リンクの 2足歩行ロボットを制御対象にして位相反応曲線の更新を行なつた。

[0069] 図 8は 5リンクの 2足歩行ロボットの骨格モデルを示す模式図である。

5リンクの 2足歩行ロボット 6は、ヒトの腰に対応する腰部 60に左右に、股関節としてのァクチユエータ 61, 62を備え、ァクチユエータ 61, 62にヒトの大腿に対応する上脚部 63, 64が設けられている。また、腰部 60にヒトの脊髄に対応する柱部 65が設けられている。同図において、 0 pitchは柱部 65の垂直軸 Aとなす角度を、 0 1_hip, 0 r_hi pは上脚部 63, 64の柱部 65となす角度をそれぞれ示す。

[0070] また、上脚部 63, 64には、それぞれァクチユエータ 66, 67を備え、ァクチユエータ 66, 67にヒトの下腿に対応する下脚咅 69力設けられている。同図において、 Θ 1

_knee, 0 r_kneeは、下脚部 68, 69の上脚部 63, 64となす角度をそれぞれ示す。

[0071] 図 9は本発明に係る位相反応曲線学習装置によって得られた位相反応曲線及び価値関数を示す図であり、（a)は価値関数、（b)は確率的な位相反応曲線をそれぞれ示し、破線は標準偏差を示す。

[0072] 次に、 5リンクの 2足歩行ロボット 6において、位相リセットを行なうことによる姿勢制御への有用性を調べるために、位相リセット及び強化学習による歩行への影響について調べた。

[0073] 図 10は位相リセットを行なわない場合の歩行軌道を示す図、図 11は予め設計した線形の位相反応曲線に応じて位相リセットを行なった場合の歩行軌道を示す図、図 12は本発明に係る位相反応曲線学習装置によって得られた位相反応曲線に応じて位相リセットした場合の歩行軌道を示す図である。なお、図 10、図 11及び図 12において、（a)は位相反応曲線、（b)は歩行軌道をそれぞれ示す。

[0074] 図 10及び図 11より、位相リセットを全く行なわない場合も、位相リセットを行なって制御器 3と 5リンクの 2足歩行ロボット 6との同期を確立する場合も、 3回の歩行回数で、 5リンクの 2足歩行ロボット 6が転倒することがわかる。つまり、複雑な制御系になればなるほど、姿勢制御に対する位相反応曲線の重要度が増すことになる。

[0075] 図 11及び図 12より、強化学習によって位相反応曲線を最適化することによって、 5 リンクの 2足歩行ロボット 6が転倒しな、ように、ロボット自身で姿勢の制御ができたことが分かる。

[0076] 実施例 3.

実施例 1及び 2は強化学習で得た位相反応曲線によって歩行運動などの周期的運動を、転倒などさせずに安定的にて行わせんとするものである。しかしながら障害物などの存在によって躓いた場合には転倒を回避しきれないことがある。人間が躓いた場合に転倒を回避せんとする動きは

(1) elevating strategy (躓きによって素早く脚を上げること:脚上げによる回避戦略） (2) lowering strategy (躓きによって素早く脚を下げること:足下げによる回避戦略

)

(3) elevating strategyに失敗して lowering strategyとな

の 3パターンに分類されることが知られている。実施例 3では、 5リンク 2足歩行ロボットが障害物に躓いた時に、人間に観察される (1)(2)の動作を行なうよう設計したものである。以下の数値的条件は人間の動作観察の結果を参考に決定した。

[0077] 具体的には，躓き時の位相が φ = 5. 4rad以降の場合は lowering strategy,それ以前では elevating strategyを行なうようにした。それぞれの転倒回避戦略は以下のように目標軌道の変化によって実現する。

lowering strategyについては躓いた脚の股関節角を正方向（図 8で時計回り方向）に 0. 3rad,膝関節角を正方向に 0. lrad変位させることにより実現した。

elevating strategyは、躓いた脚の股関節軌道を負方向（図 8で反時計方向）に 0. 2rad、膝関節軌道を正方向に 0. 3rad変位させること〖こより実現した。

[0078] 図 14は位相反応曲線による位相リセットのみを行った場合の歩行軌道を、図 15は位相反応曲線による位相リセットにカ卩えて elevating strategyを実行した場合の歩行軌道を示している。前者では躓きの後転倒しているのに対し、後者では歩行を継続している。図 16は位相反応曲線による位相リセットのみを行った場合の歩行軌道を、図 17は位相反応曲線による位相リセットに加えて lowering strategyを実行した場合の歩行軌道を示している。前者では躓きの後転倒しているのに対し、後者では歩行を継続している。なお、 elevating strategyおよび lowering strategyは躓いたときの制御器の位相に応じて!/、ずれを用いるかを切り替えて、る。

[0079] なお、実施の形態では、制御対象として 2足歩行ロボットに本発明を適用した形態について説明したが、周期的運動一般について本発明を適用することができることは言うまでもない。

Claims

請求の範囲

[1] 複数の事象が周期的に発生する周期的運動の外乱因子に対する位相の変化量を示す位相反応曲線を強化学習によって更新させる位相反応曲線学習方法であって各事象の成否を判定し、判定結果に基づいて各事象の達成度を設定し、設定した各事象の達成度の累計値が最大になるように前記位相反応曲線のパラメータを更新すること

を特徴とする位相反応曲線学習方法。

[2] 複数の事象が周期的に発生する周期的運動の外乱因子に対する位相の変化量を示す位相反応曲線を強化学習によって更新させる位相反応曲線学習装置であって各事象の成否を判定する手段と、

判定結果に基づ!ヽて各事象の達成度を設定する手段と、

設定した各事象の達成度の累計値が最大になるように前記位相反応曲線のパラメータを更新する手段と

を備えることを特徴とする位相反応曲線学習装置。

[3] 複数の事象が周期的に発生する周期的運動の制御対象を、制御器が該制御対象の状態に基づいて制御する周期的運動制御方法であって、

請求項 1に記載の位相反応曲線学習方法によって更新された位相反応曲線に基づいて、周期的運動を規定する位相のリセットを行なって制御器及び制御対象の同期を確立させること

を特徴とする周期的運動制御方法。

[4] 複数の事象が周期的に発生する周期的運動の制御対象を、該制御対象の状態に基づいて制御する周期的運動制御装置であって、

請求項 1に記載の位相反応曲線学習方法によって更新された位相反応曲線に基づいて、周期的運動を規定する位相のリセットを行なって前記制御対象との間で同期を確立させる手段を備えること

を特徴とする周期的運動制御装置。

[5] 複数の事象が周期的に発生する周期的運動を制御対象に実行させる制御器と、前記周期的運動の外乱因子に対する位相の変化量を示す位相反応曲線を強化学習によって更新させるベく、

各事象の成否を判定する手段、

判定結果に基づ!ヽて各事象の達成度を設定する手段、及び

設定した各事象の達成度の累計値が最大になるように前記位相反応曲線のパラメータを更新する手段

を備える位相反応曲線学習装置と

を有し、外乱因子に対応して周期的運動のパターンを変更するようにしてあることを特徴とする周期的運動制御装置。

[6] パラメータを更新された位相反応曲線に基づいて、周期的運動を規定する位相のリセットを行い、制御対象との間で同期を確立するようにしてある請求項 5に記載の周期的運動制御装置。

[7] 前記制御対象は 2足歩行ロボットであり、該ロボットの足の接地時に前記リセットを行う請求項 6に記載の周期的運動制御装置。

[8] 前記 2足歩行ロボットは 5リンクを有し、転倒回避のために股関節角及び Zまたは膝関節角を変位するパターン変更を行う請求項 7に記載の周期的運動制御装置。

[9] 前記 2足歩行ロボットは 5リンクを有し、転倒回避のために股関節角及び膝関節角を正方向に変位するパターン変更を行う請求項 8に記載の周期的運動制御装置。

[10] 前記 2足歩行ロボットは 5リンクを有し、転倒回避のために股関節軌道及び Zまたは膝関節軌道を変位するパターン変更を行う請求項 7乃至 9のいずれかに記載の周期的運動制御装置。

[11] 前記 2足歩行ロボットは 5リンクを有し、転倒回避のために股関節軌道を負方向に、膝関節軌道を正方向に各変位するパターン変更を行う請求項 7乃至 10のいずれかに記載の周期的運動制御装置。

[12] 周期的歩行を行う 2リンクの 2足歩行ロボットを、該ロボットの状態に基づいて制御する歩行運動制御装置であって、

[数 1] φ = ωί

τ = Κ_ρ ο ?,φ-θ)+Κ₍ι -ω να.φ-θ) ここで、 K_p,K_d ：サ一ボゲイン

τ ：関節における出力トルク

Θ ：リンク間の関節角度 φは位相で表される周期軌道をロボットに追従させる制御器と、

歩行運動の成否を判定する手段、

該手段での判定結果に基づ!/、て各歩行の達成度を設定する手段、及び該手段で設定した達成度の累計値が最大になるように、外乱因子による歩行運動の位相の変化量を示す位相反応曲線のパラメータを更新する手段

を備える位相反応曲線学習装置と

を有し、

ノメータを更新された位相反応曲線に基づいて、歩行運動を規定する位相をリセットし、ロボットとの間で同期を確立させるようにしてあることを特徴とする歩行運動制御装置。

前記ロボットの足の接地時に前記リセットを行う請求項 12に記載の歩行運動制御装置。