WO2019003495A1

WO2019003495A1 - 複数動作ユニット統合装置、およびその制御方法、並びに自律学習型ロボット装置

Info

Publication number: WO2019003495A1
Application number: PCT/JP2018/007966
Authority: WO
Inventors: 伊藤　洋; 山本　健次郎; 佑介日永田
Original assignee: 株式会社日立製作所
Priority date: 2017-06-30
Filing date: 2018-03-02
Publication date: 2019-01-03
Also published as: CN110621450A; US11440185B2; US20200055183A1; JP2019010701A; JP6811688B2; CN110621450B

Abstract

規模拡張性を備え、装置全体の最適動作を生成することができる複数動作ユニット統合装置、およびその制御方法、並びに自律学習型ロボット装置を提供することを目的とする。可動部を有する複数の動作ユニットと、統合モジュールから構成される複数動作ユニット統合装置であって、統合モジュールは、外部から入力される動作指示に基づいて複数の動作ユニットに対して、動作タイミング信号を与える動作タイミング器を備え、動作ユニットは、統合モジュールの動作タイミング器からの動作タイミング信号に応じて、可動部に与える制御信号を発生する複数の動作学習器と、制御信号に従って動作ユニットの可動部を駆動する駆動手段と、駆動手段によって駆動される可動部の状態量を検出するセンサを備えていることを特徴とする複数動作ユニット統合装置、さらには複数動作ユニット統合装置を制御部分として構成された自律学習型ロボット装置。

Description

複数動作ユニット統合装置、およびその制御方法、並びに自律学習型ロボット装置

　本発明は、複数動作ユニット統合装置、およびその制御方法、並びに自律学習型ロボット装置に係り、特にアクチュエータとセンサと学習器からなる動作ユニット、及び複数の動作ユニットを統合する統合モジュールにより構成された複数動作ユニット統合装置、およびその制御方法、並びに自律学習型ロボット装置に関する。

　従来のロボット装置の構築に際しては、膨大なプログラミングや高い専門知識が必要であり、ロボット装置導入の阻害要因になっている。そこで、ロボット装置に取り付けられた各種センサ情報に基づいて、ロボット装置自身で動作を決定する自律学習型ロボット装置が提案されている。

　この自律学習型ロボット装置は、ロボット装置自らの動作経験を記憶・学習することで多様な環境変化に対し柔軟な動作生成が可能ではないかと期待されている。なおロボット装置の動作経験とは、例えば、オペレータ又はユーザがロボット装置に動作を直接教え記憶させる方法や、人や他のロボット装置の動作を見て真似る方法などが挙げられる。

　一般的に、自律学習型ロボット装置には、学習器と呼ばれる学習装置が備えられており、動作経験時のセンサ情報の記憶と、動作を生成するためのパラメータ調整が行われている。この記憶された動作を学習データ、パラメータの調整を学習と呼び、学習データを用いて学習器の学習を行う。学習器は、あらかじめ入出力の関係を定義し、学習器への入力値に対し期待した出力値が出力されるように学習を繰り返し行う。

　例えば、ある動作経験時のロボット装置の関節角情報を時系列情報として記憶する。得られた学習データを用いて、学習器に、時刻（ｔ）の関節角情報を入力し、時刻（ｔ＋１）の関節角情報を予測するように時系列学習させたとする。そして、学習が完了した学習器にロボット装置の関節角情報を逐次入力することで、自律学習型ロボット装置は、自身の状態に応じて自動的に動作を生成することが可能になる。

　ロボット装置の学習に関し、非特許文献１は、複数のセンサ情報を統合して学習させることで、センサ情報に基づいて複数の動作パターンの生成が可能であり、環境の変化に応じて自動的に動作を生成する能力を獲得している。

　また特許文献１は、複数の動作ユニットから構成されるロボット装置において、動作ユニットの動作履歴を記憶手段に記憶することにより、動作ユニットを交換した場合でも、動作を決定することができ、従来と比較して使い勝手を向上し得るロボット装置を実現している。所定の基準に基づいて各動作ユニットの動作結果を評価し、動作の最適化を行うことで、外部から与えられる命令に適した動作を決定する能力を獲得している。

国際公開番号ＷＯ００／４１８５３

タイトル：深層学習を用いた多自由度ロボットによる柔軟物の折り畳み動作生成著者：鈴木彼方，高橋城志，ゴードンチェン，尾形哲也学会名：情報処理学会　第７８回全国大会発表日：２０１５年３月１０日場所：慶應義塾大学

　非特許文献１によれば、自律学習型ロボット装置は、多様な環境変化に対し柔軟な動作生成を実現することができる。しかしながら、学習が完了した自律学習型ロボット装置の構造を変更する場合、学習器への入出力数や入出力情報の種類が変化することから、再度学習データを記憶し、学習器を学習させなければならず、手間と時間がかかるという問題がある。そのため、獲得した学習器を異構造、異自由度のロボットへ適用することは困難であり、使い勝手が悪いという問題がある。

　特許文献１は、目的動作に対し、各動作ユニットの動作結果を所定の基準に基づいて更新するため、各動作ユニットの動作を最適化することは可能である。しかし、ロボット装置全体の動作の最適化が困難である。

　本発明は、以上の点を考慮してなされたもので、規模拡張性を備え、装置全体の最適動作を生成することができる装置全体の最適動作を生成することができる複数動作ユニット統合装置、およびその制御方法、並びに自律学習型ロボット装置を提供することを目的とする。

　以上のことから本発明は、「可動部を有する複数の動作ユニットと、統合モジュールから構成される複数動作ユニット統合装置であって、統合モジュールは、外部から入力される動作指示に基づいて複数の動作ユニットに対して、動作タイミング信号を与える動作タイミング器を備え、動作ユニットは、統合モジュールの動作タイミング器からの動作タイミング信号に応じて、可動部に与える制御信号を発生する複数の動作学習器と、制御信号に従って動作ユニットの可動部を駆動する駆動手段と、駆動手段によって駆動される可動部の状態量を検出するセンサを備えていることを特徴とする複数動作ユニット統合装置、さらには複数動作ユニット統合装置を制御部分として構成された自律学習型ロボット装置」としたものである。

　また本発明は、「可動部を有する複数の動作ユニットと、統合モジュールから構成される複数動作ユニット統合装置の制御方法であって、統合モジュールは、外部から入力される一連の動作指示を個別の動作指示に分解し、分解された動作指示を請け負う個別の動作ユニットを指定して、動作タイミング信号を与え、指定された動作ユニットは、統合モジュールからの動作タイミング信号に応じて、可動部を駆動することを特徴とする複数動作ユニット統合装置の制御方法」としたものである。

　本発明により、動作ユニットの交換が可能であり、自律学習型ロボット装置の規模拡張性と、自律学習型ロボット装置全体の最適動作の生成が可能になる。

自律学習型ロボット装置の典型的な構成例を示す図。自律学習型ロボット装置を構成する各動作ユニットの動作ユニット群を示す図。各動作ユニットの動作タイミングを管理する統合モジュールを備えた複数動作ユニット統合装置の構成例を示す図。自律学習型ロボット装置を構成する各動作ユニット群の変形例を示す図。

　本発明の実施例について図面を参照して説明する。

　図１に、自律学習型ロボット装置の典型的な構成例を示している。典型的な自律学習型ロボット装置１は、複数の動作ユニットにより構成されており、図１の例では上肢動作ユニット２と下肢動作ユニット３が連結されて自律学習型ロボット装置１が構成されている。またこの例では上肢動作ユニット２として選択された動作ユニット２Ａは、頭部と胴体と腕などから構成され、下肢動作ユニット３として選択された３Ａは膝や足などから構成され、動作ユニット２Ａと動作ユニット３Ａを連結することにより、人型の自律学習型ロボット装置１を構成したものである。各動作ユニット２，３には、自律的に動作を生成するためのセンサや動作学習器を備えている。なお、動作ユニットを配置する部位の単位としては、頭部と胴体と腕などの単位ごとに設定することが可能であるが、ここでは上下肢の２つについて動作ユニットを配置した例を示している。

　図２は、自律学習型ロボット装置を構成する各動作ユニットの動作ユニット群を示す図である。上下肢の動作ユニット２，３は、自律学習型ロボット装置１の上下肢として果たすべき機能に応じて、幾つかの機能のものが適用可能である。例えば図２に示すように、上肢動作ユニット２として、複数種類の動作ユニット２Ａ、２Ｂ，２Ｃからなる上肢動作ユニット群２の中から１つの上肢動作ユニット２Ａを選択し、下肢動作ユニット３として、複数種類の動作ユニット３Ａ、３Ｂからなる下肢動作ユニット群３の中から１つの下肢動作ユニット３Ａを選択して所定状態に連結することにより、自律学習型ロボット装置を構成することができる。このように、上下肢の２つの動作ユニットの組み合わせにより、多様な動作、多様な機能の自律学習型ロボット装置を実現することが可能である。

　そして自律学習型ロボット装置１においては、上肢動作ユニット２Ａを交換する必要が生じた場合、上肢動作ユニット群２から例えば上肢動作ユニット２Ｂを選択し、現在連結されている上肢動作ユニット２Ａと交換することにより、動作ユニットの変更が可能である。かくして、自律学習型ロボット装置の規模拡張性を実現することが可能である。

　次に、自律学習型ロボット装置の動作方法について説明する。図２に示す上肢動作ユニット群２内の各動作ユニットは、上肢動作ユニットとして果たすべき動作機能である物体把持動作や、ドア開け動作などの複数の動作ごとに、これらの動作を円滑に実行させるためのプログラム及び学習機能を上肢動作ユニット内の複数の動作学習器に備えている。また下肢動作ユニット群３内の各動作ユニットは、下肢動作ユニットとして果たすべき動作機能である目的地への移動や、障害物回避などの複数の動作ごとに、これらの動作を円滑に実行させるためのプログラム及び学習機能を下肢動作ユニット内の複数の動作学習器に備えている。

　動作指示を与えられた各動作ユニットは、複数の動作学習器の中から動作指示に対応した動作学習器を選択し、センサ情報に基づいて自律的に動作することが可能である。例えば上肢動作ユニット２Ａに対する動作指示が「ドア開け動作」である時、上肢動作ユニット２Ａは複数の動作学習器の中から、「ドア開け動作」についての動作学習器を選択し、センサ情報に基づいて自律的に動作することができる。また同様にして、例えば下肢動作ユニット３Ａに対する動作指示が「ドア通過動作」である時、下肢動作ユニット３Ａは複数の動作学習器の中から、「ドア通過動作」についての動作学習器を選択し、センサ情報に基づいて自律的に動作することができる。

　しかしながら自律学習型ロボット装置１は、単純に上肢動作ユニット２Ａと下肢動作ユニット３Ａを連結しても、上肢動作「ドア開け」と下肢動作「ドア通過」を組み合わせた、「ドア開け通過動作」を生成することができない。

　このことから本発明では、各動作ユニットが連携動作できるように、各動作ユニットの動作タイミングを管理する統合モジュールを備えることで、各動作ユニット間の連携動作を実現している。

　図３は、各動作ユニットの動作タイミングを管理する統合モジュールを備えた複数動作ユニット統合装置の構成例を示している。図３は、外部からの情報を基に動作する自律学習型ロボット装置を実現するための複数動作ユニット統合装置である。

　図３の複数動作ユニット統合装置は、複数の動作ユニットＵＮ（ＵＮ１・・ＵＮＮ）と統合モジュールＭにより構成されている。複数の動作ユニットＵＮのうちＵＮ１が例えば上肢動作ユニット２に対応し、ＵＮＮが例えば下肢動作ユニット３に対応している。また統合モジュールＭは、自律学習型ロボット装置の適宜の場所に配置されている。統合モジュールＭは、外部からの動作指示の情報ＯＰに応じて各動作ユニットＵＮ（ＵＮ１・・ＵＮＮ）に動作タイミング信号Ｔ（Ｔ１・・ＴＮ）を送り、各動作ユニットＵＮ（ＵＮ１・・ＵＮＮ）からのセンサ情報Ｓ（Ｓ１・・ＳＮ）を受信、監視する。

　統合モジュールＭは、ロボット装置の構成（例えば上下肢動作ユニット２，３の組み合わせ）と動作指示（例えば上下肢動作ユニット２，３の動作内容）ごとに複数の動作タイミング器ＭＴ（ＭＴ１・・ＭＴｍ）を備え、動作指示に基づいて適切な動作タイミング器を選択する。動作タイミング器ＭＴは、各動作ユニットＵＮ（ＵＮ１・・ＵＮＮ）のセンサ情報Ｓ（Ｓ１・・ＳＮ）に基づいて動作タイミング信号Ｔ（Ｔ１・・ＴＮ）を生成し、各動作ユニットＵＮ（ＵＮ１・・ＵＮＮ）に送出する。動作タイミング信号Ｔ（Ｔ１・・ＴＮ）とは、各動作ユニットＵＮ（ＵＮ１・・ＵＮＮ）の動作開始、動作終了のほかに、各動作ユニットの動作速度や動作停止、再開などを指示することが可能である。

　統合モジュールＭの典型的な動作事例は、ロボット装置の構成が上下肢動作ユニット２Ａ，３Ａの組み合わせであり、外部からの動作指示の情報ＯＰが「ドア開け通過動作」であるとき、この条件に適合する１つの動作タイミング器ＭＴを選択し、動作ユニットＵＮ１に対して上肢動作「ドア開け」の動作タイミング信号Ｔ１を送出し、動作ユニットＵＮＮに対して下肢動作「ドア通過」の動作タイミング信号ＴＮを送出するものである。また各動作のタイミングを定めるに当たり、動作ユニットＵＮ１、ＵＮＮのセンサ情報Ｓ１、ＳＮを参照し、センサ情報ＳＮから例えば下肢動作ユニット３Ａの立ち位置が、開放するドアとの関係で開放に支障のない位置であることを確認し、センサ情報Ｓ１から例えば上肢動作ユニット２Ａが、ドアの開放に至るまでの一連の動作を支障なく行える位置関係にあることを確認して、各タイミングの送出とする。

　この統合モジュールＭの機能は、与えられた一連の動作指示「ドア開け通過動作」を、動作ユニットごとの個別の動作指示「ドア開け」、「ドア通過」に分解して与えたものであり、分解された動作指示を請け負う個別の動作ユニットを指定したものということができる。

　他方動作ユニットＵＮについてみるとこれは、センサ１０の他に複数の動作学習器１２、記憶部１３、複数の可動部１１により構成されている。

　このうち複数の動作学習器１２は、例えば上肢動作ユニットＵＮ１（２）であれば、上肢動作ユニットとして果たすべき動作機能である物体把持動作や、ドア開け動作などの動作ごとに、これらの動作を円滑に実行させるためのプログラム及び学習機能を動作学習器内に備えている。また下肢動作ユニットＵＮ２（３）であれば、下肢動作ユニットとして果たすべき動作機能である目的地への移動や、障害物回避などの動作ごとに、これらの動作を円滑に実行させるためのプログラム及び学習機能を動作学習器内に備えている。可動部１１は、例えば上肢であれば、頭部と胴体と腕などの間の上肢の主要な節である部分、さらには手を構成するための節ごとに適宜設けられている。

　動作ユニットＵＮ（例えば上肢動作ユニットＵＮ１）においては、統合モジュールＭからの動作指示内容（例えばドア開け動作）についての動作タイミング信号Ｔに基づいて、複数の動作学習器１２の中からドア開け動作に特化された動作学習器１２を選択し、カメラ、ポテンショメータ、力覚センサ、触覚センサ等からなるセンサ１０を介して得られたセンサ情報を用いて可動部１１を動作させる。なお、ドア開け動作に特化された動作学習器１２は、この動作を複数の可動部１１の連係動作により実現するために、複数の各可動部１１に対するブレークダウンされた個別の動作指示情報として与えている。また図３には図示していないが、動作学習器１２は制御信号を発生して駆動手段に与え、駆動手段により可動部１１を操作している。また可動部１１を操作する際に、適宜センサ１０からのセンサ情報Ｓを帰還信号として用いて位置制御などに利用している。

　動作ユニットＵＮは単体で動作することが可能であるが、統合モジュールＭからの動作タイミング信号Ｔと動作指示に基づいて動作することも可能である。

　これにより、例えば、ドア開け動作を学習した上肢動作ユニットＵＮ１と、ドア通過動作を学習した下肢動作ユニットＵＮＮから構成される自律学習型ロボット装置において、動作タイミング器ＭＴが生成する動作タイミング信号Ｔに基づいて、各動作ユニットＵＮ（ＵＮ１・・ＵＮＮ）を動作させることで、下肢動作ユニットＵＮＮがドアへ接近し、上肢動作ユニットＵＮ１がドア開け動作を生成し、下肢動作ユニットＵＮＮがドアを押し開けるといった、一連のドア開け通過動作を生成することが可能である。このように自律学習型ロボット装置１は、外部から与えられる動作指示ＯＰとセンサ情報Ｓに基づいて、各動作ユニットを適切に動作することが可能である。

　次に、統合モジュールＭの動作タイミング器ＭＴにおける動作学習機能の獲得方法について説明する。動作タイミング器ＭＴは、各動作ユニットＵＮのセンサ情報Ｓを基に、ロボット装置自身の試行錯誤により最適な動作タイミングを獲得する教師なし学習法や、人が自律学習型ロボット装置に動作タイミングを数パターン教示した際のセンサ情報Ｓを基に、ロボット装置が動作タイミングを学習により自己組織化する教師あり学習法などを用いることで、動作タイミングの学習を行う。

　いずれの手法も、所定の評価基準、例えば動作効率やエネルギー効率などに関して評価を行い、評価が高くなるように学習を行う。所定の基準に基づいて学習された動作タイミング器ＭＴに、各動作ユニットＵＮのセンサ情報Ｓを入力することで、最適動作タイミングの生成を行う。

　以上の構成において、自律学習型ロボット装置１は、統合モジュールＭにて、動作指示を実行し達成するために適した動作ユニットの動作タイミングを、動作タイミング器ＭＴで学習し、生成することにより、自律学習型ロボット装置全体の最適動作の生成が可能になる。

　上記の実施例では、動作ユニットとして、上肢動作ユニット２と下肢動作ユニット３を用いたが、動作ユニットの単位を変更した例を図４に示す。図４は、自律学習型ロボット装置を構成する各動作ユニット群の変形例を示す図である。図４においては、ロボットアーム動作ユニット１０Ａと、複数種類のハンド動作ユニット群１１の中から、１つのハンド動作ユニット１１Ａを選択し、連結することにより自律学習型ロボットを構成したものである。

　また上記の実施例では、複数の動作ユニットＵＮと統合モジュールＭを用いて１台の自律学習型ロボット装置を構成していたが、１台の自律学習型ロボット装置を１つの動作ユニットとすることで、複数の自律学習型ロボット装置と統合モジュールによるロボットシステムを構成しても良い。

　以上説明した本発明によれば、複数の動作ユニットと、動作ユニットの動作生成タイミングを学習・生成する統合モジュールにより構成された複数動作ユニット統合装置による自律学習型ロボット装置とすることで、ロボット装置の構成を変化させても動作を生成することが可能である。

１：自律学習型ロボット装置、２：上肢動作ユニット、３：下肢動作ユニット、２Ａ、２Ｂ，２Ｃ、３Ａ、３Ｂ：動作ユニット、ＵＮ（ＵＮ１・・ＵＮＮ）：動作ユニット、M:統合モジュール、ＯＰ：動作指示の情報、Ｔ（Ｔ１・・ＴＮ）：動作タイミング信号、Ｓ（Ｓ１・・ＳＮ）：センサ情報、ＭＴ：動作タイミング器

Claims

　可動部を有する複数の動作ユニットと、統合モジュールから構成される複数動作ユニット統合装置であって、
　前記統合モジュールは、外部から入力される動作指示に基づいて複数の前記動作ユニットに対して、動作タイミング信号を与える動作タイミング器を備え、
　前記動作ユニットは、前記統合モジュールの前記動作タイミング器からの前記動作タイミング信号に応じて、前記可動部に与える制御信号を発生する複数の動作学習器と、前記制御信号に従って前記動作ユニットの可動部を駆動する駆動手段と、該駆動手段によって駆動される前記可動部の状態量を検出するセンサを備えていることを特徴とする複数動作ユニット統合装置。
　請求項１に記載の複数動作ユニット統合装置であって、
　前記統合モジュール内の複数の前記動作タイミング器は、外部から入力される前記動作指示に応じて選択され、選択された前記動作タイミング器は当該動作タイミング器で定まる前記動作ユニット内の前記動作学習器に対して前記動作タイミング信号を与えることを特徴とする複数動作ユニット統合装置。
　請求項１または請求項２に記載の複数動作ユニット統合装置であって、
　前記統合モジュールの前記動作タイミング信号は、前記動作ユニットの動作内容と動作開始あるいは停止のタイミングを定めたものであることを特徴とする複数動作ユニット統合装置。
　請求項１から請求項３のいずれか１項に記載の複数動作ユニット統合装置であって、
　前記動作ユニット内の複数の前記動作学習器は、前記動作タイミング器からの前記動作タイミング信号に応じて選択され、選択された前記動作学習器は当該動作学習器で定まる前記駆動手段に対して前記制御信号を与えることを特徴とする複数動作ユニット統合装置。
　請求項１から請求項４のいずれか１項に記載の複数動作ユニット統合装置であって、
　前記動作学習器は、前記動作タイミング信号と前記状態量のうち少なくとも１つに基づいて前記駆動手段に対する制御信号を得ることを特徴とする複数動作ユニット統合装置。
　請求項１から請求項５のいずれか１項に記載の複数動作ユニット統合装置であって、
　前記動作ユニットは、前記動作ユニットを駆動したときの前記動作タイミング信号と前記状態量を学習データとして記憶する記憶部を備えており、前記記憶部に記憶された前記学習データを基に、前記動作学習器のパラメータを調整することを特徴とする複数動作ユニット統合装置。
　請求項１から請求項６のいずれか１項に記載の複数動作ユニット統合装置であって、
　前記統合モジュールは、所定の動作を達成するように、前記動作タイミング器のパラメータを調整することを特徴とする複数動作ユニット統合装置。
　請求項１から請求項７のいずれか１項に記載の複数動作ユニット統合装置を制御部分として構成された自律学習型ロボット装置。
　可動部を有する複数の動作ユニットと、統合モジュールから構成される複数動作ユニット統合装置の制御方法であって、
　前記統合モジュールは、外部から入力される一連の動作指示を個別の動作指示に分解し、分解された動作指示を請け負う個別の動作ユニットを指定して、動作タイミング信号を与え、
　指定された前記動作ユニットは、前記統合モジュールからの前記動作タイミング信号に応じて、前記可動部を駆動することを特徴とする複数動作ユニット統合装置の制御方法。