WO2023037634A1

WO2023037634A1 - 指令値生成装置、方法、及びプログラム

Info

Publication number: WO2023037634A1
Application number: PCT/JP2022/015158
Authority: WO
Inventors: 将佳阿部; 真司川上; 聡庸金井; ゆみ齊藤
Original assignee: オムロン株式会社
Priority date: 2021-09-07
Filing date: 2022-03-28
Publication date: 2023-03-16
Also published as: JP2023038776A; CN117881507A; EP4400274A1

Abstract

取得部（３１）が、対象物への作業をロボット（４０）に実行させるための指令値と、その作業時のロボット（４０）の動作を手動により教示した際のロボット（４０）の状態を表す状態データであって、少なくとも、ロボット（４０）の動作を表す動作データ、ロボット（４０）と対象物との相対位置及び相対姿勢を表す位置姿勢データ、並びに、作業の間に対象物が受ける外力を表す外力データを含む複数種類の状態データとを取得し、生成部（３３）が、取得部（３１）により対応する時間に取得された指令値と状態データとに基づいて、入力された状態データに対応する動作をロボット（４０）に実行させるための指令値を生成する生成器を生成する。

Description

指令値生成装置、方法、及びプログラム

　本開示は、指令値生成装置、指令値生成方法、及び指令値生成プログラムに関する。

　従来、ロボットによる組立やピックアンドプレイスといった作業で、作業の対象物が様々な状態を取り得る場合などには、ロボットが作業を失敗しうる。このため、各種センサで取得されたデータをロボットの制御にフィードバックするフィードバック制御系を構成することが行われている。

　例えば、外力を制御可能なロボットアームの動作を手動で誘導し、その際のロボットの位置及び作用する外力を記録し、記録された情報を再現するように、ロボットアームの動作の指令値を出力する技術が提案されている（非特許文献１）。

　また、例えば、音声や画像等のセンサデータと、ロボットの動作から取得されるデータとをディープラーニングによりマルチモーダル統合したモデルを生成し、このモデルからロボットの動作の指令値を出力する技術が提案されている（非特許文献２）。

"Institute of Robotics and Mechatronics-SARA"，［online］，［２０２１年６月１８日検索］，インターネット　＜URL：https://www.dlr.de/rm/en/desktopdefault.aspx/tabid-11709/#gallery/29681＞ Kuniaki Noda, "MULTIMODAL INTEGRATION FOR ROBOT SYSTEMS USING DEEP LEARNING", Waseda University Doctoral Dissertation, ２０１５年７月.

　フィードバック制御系を構成するためには、センサ特徴量とそれに基づくロボットへの指令値の生成法とをユーザが自前で定義し実装する必要がある。また、その定義が正しいものであっても、センサ特徴量からロボットへの指令値へのゲイン調整が不適切な場合にはタスクが成功せず、定義、実装、又は調整の何れに問題があるのかを判断することも困難である。

　また、非特許文献１に記載の技術では、実行している力制御系が、人が手伝え教示した際の位置と力のロギングデータとをそのまま力制御系の指令値入力にしているため、ロバスト性が低い。

　また、非特許文献２に記載の技術では、力覚センサを使っておらず、組立やピックアンドプレイスといったアプリケーションをロバストに実行できない。

　本開示は、上記の点に鑑みてなされたものであり、様々な状態を取り得る対象物に対する作業をロボットにロバストに実行させるためのフィードバック制御系を構成することを目的とする。

　上記目的を達成するために、本開示に係る指令値生成装置は、対象物への作業をロボットに実行させるための指令値と、前記作業時の前記ロボットの動作を手動により教示した
際の前記ロボットの状態を表す状態データであって、少なくとも、前記ロボットの動作を表す動作データ、前記ロボットと前記対象物との相対位置及び相対姿勢を表す位置姿勢データ、並びに、前記作業の間に前記対象物が受ける外力を表す外力データを含む複数種類の状態データとを取得する取得部と、前記取得部により対応する時間に取得された前記指令値と前記状態データとに基づいて、入力された前記状態データに対応する動作を前記ロボットに実行させるための指令値を生成する生成器を生成する生成部と、を含んで構成される。これにより、様々な状態を取り得る対象物に対する作業をロボットにロバストに実行させるためのフィードバック制御系を構成することができる。

　また、前記生成部は、前記生成器内のパラメータを最適化に基づいて決定することにより前記生成器を生成してよい。これにより、ロバスト性をより高めることができる。

　また、本開示に係る指令値生成装置は、複数回の教示の各々について前記取得部により取得された前記状態データのうち、前記生成器の生成に利用する前記状態データの部分の選択を受け付ける受付部を含み、前記生成部は、選択された前記状態データの部分を利用して前記生成器を生成してもよい。これにより、生成器の生成に適さない状態データの部分を排除することができる。

　また、前記受付部は、前記取得部により取得された複数種類の前記状態データのうち、前記生成器の生成に利用する前記状態データの種類の選択を受け付け、前記生成部は、選択された種類の前記状態データと前記指令値とに基づいて、選択された種類の前記状態データが表す状態を再現可能な指令値を生成するためのパラメータを最適化することにより、前記生成器を生成してもよい。これにより、納得性の高い指令値を生成する生成器を生成することができる。

　また、前記生成部は、生成した前記生成器のパラメータの修正を受け付けてもよい。これにより、明らかに不適切なパラメータや、ユーザの意図に沿わないパラメータ等を事前に修正することができる。

　また、前記生成器のパラメータは、前記指令値の上限値、及び前記指令値に対する動作の目標値を含み、前記生成部は、前記上限値及び前記目標値を指定された値に固定すると共に、他のパラメータを最適化することにより前記生成器を生成してもよい。これにより、よりユーザが望むロボットの動作を実現するための指令値を出力可能な生成器を生成することができる。

　また、本開示に係る指令値生成装置は、前記生成部により生成された前記生成器に、前記作業においてばらつく可能性があるパラメータに摂動項を加味した前記状態データを入力した場合に生成される指令値に基づいて前記ロボットが動作可能か否か判定し、動作可能ではない場合、前記摂動項を加えた場合に生成される指令値及び前記状態データの取得を前記取得部に指示する指示部を含んで構成されてもよい。これにより、手動による教示で、生成器の生成に十分な状態データが取得されているか否かを自動で判定することができる。

　また、前記生成部は、前記生成器の生成に利用された前記状態データの一部の削除、及び新たに前記取得部により取得された前記状態データの追加の少なくとも一方を行って前記生成器の生成を再実行してもよい。これにより、生成された指令値に基づいて意図しない動作が実行される場合に、生成器の生成をやり直すことで、フィードバック制御系による動作の質を高めることができる。

　また、前記取得部は、前記教示の際に、前記対象物を含む作業領域を撮影した画像を取
得し、前記取得部により取得された前記画像に基づいて、前記作業領域を認識するためのパラメータを設定する設定部を含んで構成されてもよい。これにより、生成器の生成と共に、認識用のパラメータの設定も行うことができる。

　また、前記取得部は、予め設定された前記対象物のサイズと、前記画像から認識される前記対象物の画像上でのサイズとに基づいて算出される、前記画像を撮影するカメラと前記対象物との距離を取得してもよい。これにより、特殊なセンサを用いることなく、精度よく対象物との距離を取得することができる。

　また、前記ロボットの動作の手動による教示は、ダイレクトティーチング、コントローラからの遠隔操作、又は前記ロボットとバイラテラル制御で接続されたティーチング用機器を用いた遠隔操作により実行されてよい。

　また、本開示に係る指令値生成装置は、前記生成器により生成される指令値を出力して前記ロボットを制御する制御部を含んで構成されてもよい。

　また、本開示に係る指令値生成装置は、前記生成器により生成された指令値を前記生成器に入力して逆算することにより、前記状態データを推定し、推定された前記状態データと、前記取得部により取得される前記状態データとを比較して、前記ロボットによる作業中に発生する異常を検知する検知部を含んで構成されてもよい。

　また、本開示に係る指令値生成方法は、取得部が、対象物への作業をロボットに実行させるための指令値と、前記作業時の前記ロボットの動作を手動により教示した際の前記ロボットの状態を表す状態データであって、少なくとも、前記ロボットの動作を表す動作データ、前記ロボットと前記対象物との相対位置及び相対姿勢を表す位置姿勢データ、並びに、前記作業の間に前記対象物が受ける外力を表す外力データを含む複数種類の状態データとを取得し、生成部が、前記取得部により対応する時間に取得された前記指令値と前記状態データとに基づいて、入力された前記状態データに対応する動作を前記ロボットに実行させるための指令値を生成する生成器を生成する方法である。

　また、本開示に係る指令値生成プログラムは、コンピュータを、対象物への作業をロボットに実行させるための指令値と、前記作業時の前記ロボットの動作を手動により教示した際の前記ロボットの状態を表す状態データであって、少なくとも、前記ロボットの動作を表す動作データ、前記ロボットと前記対象物との相対位置及び相対姿勢を表す位置姿勢データ、並びに、前記作業の間に前記対象物が受ける外力を表す外力データを含む複数種類の状態データとを取得する取得部、及び、前記取得部により対応する時間に取得された前記指令値と前記状態データとに基づいて、入力された前記状態データに対応する動作を前記ロボットに実行させるための指令値を生成する生成器を生成する生成部として機能させるためのプログラムである。

　本開示に係る指令値生成装置、方法、及びプログラムによれば、様々な状態を取り得る対象物に対する作業をロボットにロバストに実行させるためのフィードバック制御系を構成することができる。

第１～第３及び第５実施形態に係るロボット制御システムの概略図である。手動によるロボットへの動作の教示の一例を説明するための図である。手動によるロボットへの動作の教示の他の例を説明するための図である。手動によるロボットへの動作の教示の他の例を説明するための図である。センサの要件を説明するための作業の一例を示す図である。指令値生成装置のハードウェア構成を示すブロック図である。第１及び第３実施形態に係る指令値生成装置の機能構成の例を示すブロック図である。センサデータから状態データへの変換を説明するための図である。部分選択画面の一例を示す図である。生成器を説明するための図である。生成器で生成された指令値を用いたフィードバック制御を説明するための図である。第１実施形態における学習処理の流れを示すフローチャートである。制御処理の流れを示すフローチャートである。第２実施形態に係る指令値生成装置の機能構成の例を示すブロック図である。第２実施形態における学習処理の流れを示すフローチャートである。種類選択画面の一例を示す図である。第３実施形態における生成器の概略構成の一例を示す図である。第３実施形態における学習処理の流れを示すフローチャートである。第４実施形態に係るロボット制御システムの概略図である。第４実施形態に係る指令値生成装置の機能構成の例を示すブロック図である。第４実施形態における学習処理の流れを示すフローチャートである。対象物までの距離に基づく動作目標の判定を説明するための図である。第５実施形態に係る指令値生成装置の機能構成の例を示すブロック図である。検知部の処理を説明するための図である。検知処理の流れを示すフローチャートである。

　以下、本開示の実施形態の一例を、図面を参照しつつ説明する。なお、各図面において同一又は等価な構成要素及び部分には同一の参照符号を付与している。また、図面の寸法及び比率は、説明の都合上誇張されており、実際の比率とは異なる場合がある。

＜第１実施形態＞
　図１に示すように、第１実施形態に係るロボット制御システム１は、指令値生成装置１０と、ロボット４０と、センサ群５０とを含んで構成される。

　ロボット４０は、ロボットアーム４２とハンド部４４とを含む。ロボットアーム４２は、リンクと、リンク間を接続すると共に、モータの駆動により回転又は直動伸縮するジョイントとを含んで構成される。ロボットアーム４２は、指令値生成装置１０から出力された指令値にしたがってモータが駆動されて、ジョイントの回転角度又は伸縮状態が変更される。これにより、ハンド部４４が３次元空間において指定された位置、及び指定された姿勢となるように制御される。

　ハンド部４４は、ロボットアーム４２の先端に設けられ、対象物９０を把持可能なツールである。ハンド部４４は、例えば、多関節多指型ロボットハンド、グリッパー型ロボットハンド、吸着パッド等としてよい。なお、ロボット４０により対象物に対する塗布作業を行う場合には、ロボット４０は、ハンド部４４に替えて、塗布材の吐出口となるノズルを備えるなど、作業に応じたツールとすればよい。

　また、ロボット４０は、手動による動作の教示が可能な構成である。手動による動作の
教示は、例えば、図２に示すように、ダイレクトティーチング、すなわち、人の手で動作を伝える手伝えによる教示としてよい。また、例えば、図３に示すように、人がコントローラ６０を操作して、ロボット４０の動作を遠隔操作することにより教示してもよい。また、例えば、図４に示すように、ロボット４０とバイラテラル制御で接続されたティーチング用機器６２を用いた遠隔操作により教示してもよい。バイラテラル制御により、ティーチング用機器６２が加えた力はロボット４０に伝わり、ロボット４０に作用した外力はティーチング用機器６２に伝わる。

　センサ群５０は、複数種類のセンサを含み、各センサで取得されたセンサデータは、時系列データとして指令値生成装置１０へ出力される。なお、図１では、センサ群５０を、ハンド部４４付近に１つのブロックで概念的に表現しているが、センサ群５０に含まれる各センサは、センサの種類及び機能に応じた位置にそれぞれ設けられる。

　各センサとしては、ロボット４０で行う作業に応じて必要なものを備えればよい。一例として、図５に示すような作業を想定した場合に必要な各種センサについて説明する。図５に示す作業は、ハンド部４４で主対象物９０Ａを把持し、主対象物９０Ａと副対象物９０Ｂとを嵌合する作業である。例えば、コネクタの挿入、筐体への基板挿入、基板への電解コンデンサの挿入等である。嵌合の実現方針としては、主対象物９０Ａと副対象物９０Ｂとの辺や面の接触により、主対象物９０Ａの位置及び姿勢を合わせる動作戦略を利用することを考える。このような接触を利用した嵌合により、センサやアクチュエータの分解能が粗い場合でも、嵌合位置へ主対象物９０Ａの位置及び姿勢を合わせ易くなる。

　ここで、「動作戦略」とは、「動作」を実行するための、「動作プリミティブ」の実行順序である。「動作」とは、その動き単体が目的を持つものであり、「動作戦略」により実現される、例えば、「掴む」、「移動する」、「嵌合する」等の目的のある動きである。「動作プリミティブ」とは、「持つ」、「移動させる」、「あてがう」等、ロボットの動きの最小単位である。ここでの「動作プリミティブ」は目標を設定したものであり、例えば、「斜めに寝かす」、「角が穴に入る位置に移動する」、「淵にあてがう」といったものである。図５の例では、破線で示す箇所の各々が「動作」、一点鎖線で示す箇所の各々が「動作戦略」、二点鎖線で示す箇所の各々が「動作プリミティブ」に相当する。また、「動作」の実行順序を「動作シーケンス」という。

　図５では、「１．掴む」、「２．移動させる」、及び「３．嵌合する」の各動作を含む動作シーケンスの例を示している。また、動作「１．掴む」の動作戦略では、「１．１．主対象物上へ粗位置決めで移動」及び「１．２．主対象物を把持」という動作プリミティブが定められている。「１．１．主対象物上へ粗位置決めで移動」は、主対象物９０Ａを把持可能な位置へハンド部４４を移動させる動きである。「１．２．主対象物を把持」は、ハンド部４４により主対象物９０Ａを把持する動きである。また、動作「２．移動させる」の動作戦略では、「２．１．穴の上へ粗位置決めで移動」という動作プリミティブが定められている。「２．１．穴の上へ粗位置決めで移動」は、嵌合位置に合わせて主対象物９０ＡをＸ軸方向及びＹ軸方向へ移動させる動きである。

　また、動作「３．嵌合する」の動作戦略では、「３．１．主対象物を斜めにする」、「３．２．主対象物を穴の方へ移動」、「３．３．探り動作」、「３．４．なぞりながらＸＹ姿勢補正」、「３．５．穴に挿入」、及び「３．６．噛みこみ解消動作」という動作プリミティブが定められている。「３．１．主対象物を斜めにする」は、主対象物９０Ａの姿勢が斜めになるように姿勢を変化させる動きである。「３．２．主対象物を穴の方へ移動」は、主対象物９０Ａを副対象物９０Ｂにあてがい、なぞりながら主対象物９０Ａを嵌合位置方向へ移動させる動きである。あてがうとは、主対象物９０Ａと副対象物９０Ｂとを一体化させる動きである。なぞるとは、副対象物９０Ｂ表面との拘束を保って主対象物
９０ＡをＸ軸方向及びＹ軸方向へ移動させる動きである。「３．３．探り動作」は、主対象物９０Ａで副対象物９０Ｂ表面をなぞりながら嵌合位置を探る動きである。「３．４．なぞりながらＸＹ姿勢補正」は、主対象物９０Ａの副対象物９０Ｂとのアライメントを利用して、主対象物９０ＡのＸ軸方向及びＹ軸方向の位置と姿勢とを補正する動きである。「３．５．穴に挿入」は、副対象物９０Ｂの嵌合位置（穴）の内周との拘束を保って主対象物９０ＡをＺ軸方向下方へ移動させる動きである。「３．６．噛みこみ解消動作」は、噛みこみを解消するように主対象物９０Ａの姿勢を変化させる動きである。

　上記の各動作プリミティブを実行するようにロボット４０を制御するために必要なセンサの要件は、以下のとおりである。「１．１．主対象物上へ粗位置決めで移動」については、Ｘ、Ｙ、Ｚの各軸方向、及びＺ軸を軸とする回転方向について、ハンド部４４と主対象物９０Ａとの位置姿勢誤差を認識可能なことである。「１．２．主対象物を把持」については、ハンド部４４による把持力を認識可能なことである。「２．１．穴の上へ粗位置決めで移動」については、Ｘ、Ｙ、Ｚの各軸方向、及びＺ軸を軸とする回転方向について、主対象物９０Ａと副対象物９０Ｂにおける嵌合位置との位置誤差を認識可能なことである。動作「３．嵌合する」の動作戦略である各動作プリミティブについては、主対象物９０Ａが副対象物９０Ｂの上面に接触したときに受ける各軸方向の反力を検知可能なこと、及び主対象物９０Ａの姿勢を認識可能なことである。

　上記のような要件を満たすセンサとしては、以下のようなものが挙げられる。例えば、位置誤差を認識可能なセンサとしては、物体の３次元空間における位置を検知可能なビジョンセンサや３Ｄセンサ等が適用可能である。把持力を認識可能なセンサとしては、力覚センサ、パッドセンサ、指令値とハンドエンコーダとの差分等が適用可能である。なお、パッドセンサとは対象物９０を吸着把持する形式のハンド部４４の場合において、吸着パッドの変形量を検知するためのセンサであり、例えば、近接センサや圧力センサ等である。各軸方向の反力を検知可能なセンサとしては、力覚センサやパッドセンサ等が適用可能である。また、主対象物９０Ａの姿勢を認識可能なセンサとしては、アームエンコーダ及びハンドエンコーダや、パッドセンサ等を適用可能である。なお、アームエンコーダとは、ロボットアーム４２の各関節の回転角度を検知するエンコーダであり、ハンドエンコーダとは、ハンド部４４の各関節の回転角度や、グリッパーの開度等を検知するエンコーダである。

　以下では、説明を簡単にするため、ハンド部４４が多指多関節型であり、１つの対象物９０を作業対象とする場合について説明する。また、センサ群５０に含まれるセンサが、ビジョンセンサ、アームエンコーダ、ハンドエンコーダ、及びハンド部４４の先端に設けられたパッドセンサである場合について説明する。なお、ビジョンセンサは、撮影方向がハンド部４４の座標系のＺ軸と平行になるように、ハンド部４４の先端に取り付けられる。これにより、ビジョンセンサと対象物との距離をハンド部４４の先端と対象物との距離とみなす。

　なお、センサ群５０に含まれるセンサはこの例に限定されず、対象物９０とハンド部４４との相対位置及び相対姿勢、主対象物９０Ａと副対象物９０Ｂとの相対位置、並びに、対象物９０に作用する外力を検知可能なセンサが含まれればよい。

　図６は、第１実施形態に係る指令値生成装置１０のハードウェア構成を示すブロック図である。図６に示すように、指令値生成装置１０は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）１２、メモリ１４、記憶装置１６、入出力Ｉ／Ｆ（Ｉｎｔｅｒｆａｃｅ）１８、入出力装置２０、記憶媒体読取装置２２、及び通信Ｉ／Ｆ２４を有する。各構成は、バス２６を介して相互に通信可能に接続されている。

　記憶装置１６には、後述する学習処理を実行するための学習プログラム、及び制御処理を実行するための制御プログラムを含む指令値生成プログラムが格納されている。ＣＰＵ１２は、中央演算処理ユニットであり、各種プログラムを実行したり、各構成を制御したりする。すなわち、ＣＰＵ１２は、記憶装置１６からプログラムを読み出し、メモリ１４を作業領域としてプログラムを実行する。ＣＰＵ１２は、記憶装置１６に記憶されているプログラムに従って、上記各構成の制御及び各種の演算処理を行う。

　メモリ１４は、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）により構成され、作業領域として一時的にプログラム及びデータを記憶する。記憶装置１６は、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、及びＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）、ＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）等により構成され、オペレーティングシステムを含む各種プログラム、及び各種データを格納する。

　入出力Ｉ／Ｆ１８は、ロボット４０及びセンサ群５０の各々と指令値生成装置１０とを接続するためのインタフェースである。センサ群５０に含まれるセンサの各々から出力されたセンサデータは、入出力Ｉ／Ｆ１８を介して指令値生成装置１０へ入力される。また、指令値生成装置１０で生成された指令値は、入出力Ｉ／Ｆ１８を介して、ロボット４０へ出力される。入出力装置２０は、例えば、キーボードやマウス等の、各種の入力を行うための入力装置、ディスプレイやプリンタ等の、各種の情報を出力するための出力装置である。出力装置として、タッチパネルディスプレイを採用することにより、入力装置として機能させてもよい。

　記憶媒体読取装置２２は、ＣＤ（Ｃｏｍｐａｃｔ　Ｄｉｓｃ）－ＲＯＭ、ＤＶＤ（Ｄｉｇｉｔａｌ　Ｖｅｒｓａｔｉｌｅ　Ｄｉｓｃ）－ＲＯＭ、ブルーレイディスク、ＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）メモリ等の各種記憶媒体に記憶されたデータの読み込みや、記憶媒体に対するデータの書き込み等を行う。通信Ｉ／Ｆ２４は、他の機器と通信するためのインタフェースであり、例えば、イーサネット（登録商標）、ＦＤＤＩ、Ｗｉ－Ｆｉ（登録商標）等の規格が用いられる。

　次に、第１実施形態に係る指令値生成装置１０の機能構成について説明する。

　図７は、指令値生成装置１０の機能構成の例を示すブロック図である。図７に示すように、指令値生成装置１０は、機能構成として、取得部３１と、受付部３２と、生成部３３と、制御部３８とを含む。各機能構成は、ＣＰＵ１２が記憶装置１６に記憶された指令値生成プログラムを読み出し、メモリ１４に展開して実行することにより実現される。

　取得部３１は、対象物９０への作業をロボット４０に実行させるための指令値と、その作業時のロボット４０の動作を手動により教示した際のロボット４０の状態を表す状態データを取得する。状態データは、例えば、上記教示の際の、ロボット４０の動作を表す動作データ、ロボット４０と対象物との相対位置及び相対姿勢を表す位置姿勢データ、作業の間に対象物が受ける外力を表す外力データ等の複数種類のデータを含む。具体的には、取得部３１は、センサ群５０に含まれるセンサの各々からセンサデータを取得し、センサデータを状態データに変換する。

　より具体的には、図８に示すように、取得部３１は、ビジョンセンサのセンサデータである画像を取得し、画像内、すなわちＸＹ平面での対象物９０の位置及び姿勢を算出する。また、取得部３１は、アームエンコーダのセンサデータを取得し、このセンサデータと、ロボットアーム４２のキネマティクス情報とに基づいて、ロボットアーム４２の先端（以下、「手先」という）の姿勢（ロール角、ピッチ角、ヨー角）を算出する。また、取得部３１は、ハンドエンコーダのセンサデータを取得し、このセンサデータと、ハンド部４
４のキネマティクス情報とに基づいて、手先に対するハンド部４４の先端（以下、「指先」という）の姿勢を算出する。また、取得部３１は、パッドセンサからセンサデータを取得し、このセンサデータから各指先に作用する外力を算出する。また、取得部３１は、このセンサデータから、ハンド部４４に把持された対象物９０の、指先に対する姿勢を算出する。

　また、取得部３１は、算出した画像内での対象物９０の位置と、手先の姿勢とに基づいて、手先から対象物９０までの距離をＸ、Ｙ、及びＺの各軸方向に分解した値を、手先に対する対象物９０の相対位置データとして取得する。また、取得部３１は、手先の姿勢と、手先に対する指先の姿勢とに基づいて、絶対座標系における指先の姿勢を算出する。また、取得部３１は、各指先に作用する外力を、絶対座標系における指先の姿勢に基づいて、Ｘ、Ｙ、及びＺの各軸方向に分解した値を、外力データとして取得する。また、取得部３１は、ハンド部４４に把持された対象物９０の、指先に対する姿勢と、手先の姿勢と、手先に対する指先の姿勢とに基づいて特定される対象物９０の姿勢を、手先に対する対象物９０の対象物の相対姿勢データとして取得する。

　また、取得部３１は、アームエンコーダ及びハンドエンコーダのセンサデータから、ロボットアーム４２及びハンド部４４の各関節の回転の角速度を算出する。また、取得部３１は、アームエンコーダのセンサデータと、ロボットアーム４２のヤコビアンとに基づいて、手先の速度を算出する。また、取得部３１は、ハンドエンコーダのセンサデータと、ハンド部４４のヤコビアンとに基づいて、指先の速度を算出する。取得部３１は、この手先及び指先の速度を動作データとして取得する。

　なお、各センサデータは時系列データであるため、変換された相対位置データ、相対姿勢データ、外力データ、及び動作データの各々も時系列データである。

　受付部３２は、複数回の手動による教示の各々について取得部３１により取得された状態データのうち、後述する生成器の生成に利用する状態データの部分の選択を受け付ける。状態データの部分とは、複数回の教示から選択された一部の教示の各々について取得された状態データ、及び１回の教示について取得された状態データにおける、指定された時間範囲に含まれる部分の両方を含む。

　例えば、受付部３２は、図９に示すような部分選択画面７０を表示し、生成器の生成に利用する状態データの部分として選択された情報（以下、「選択情報」という）を受け付ける。図９に示す部分選択画面７０は、状態データの種類を選択するための選択領域７３を含む。また、部分選択画面７０は、選択領域７３で選択された種類の状態データについて、複数の教示の各々についての状態データを、生成器の生成に利用する状態データとして採用するか否かを選択するための選択領域７１を含む。図９の例では、選択領域７１は、複数の教示の各々を識別する「試行回数」、その教示が実行された「時刻」、採用する場合にチェックされる「対象」、及び「部分採用」の各項目が含まれる。

　また、部分選択画面７０は、選択領域７３で選択された種類の状態データの各々がグラフ化されて表示される表示領域７２を含む。表示領域７２において、選択領域７１で選択された状態データのグラフが強調表示される。図９では、選択された状態データのグラフを実線、他の状態データのグラフを点線で表している。また、選択領域７１において選択された試行回数の教示を網掛で表している。

　また、表示領域７２には、選択する時間範囲の開始時間及び終了時間の各々を指定するためのスライドバー（図９中の破線）を含む。スライドバーをスライドさせることにより、時間範囲が選択される。また、部分選択画面７０は、表示領域７２内のスライドバーで
指定された時間範囲を表示する表示領域７４を含む。また、部分選択画面７０は、表示領域７２において指定された時間（図９中の黒三角）におけるビジョンセンサで取得された画像が表示される表示領域７５を含む。これにより、ユーザは、表示領域７５に表示された画像を参考にして、時間範囲を選択することができる。時間範囲が指定された状態データを含む試行回数の教示については、表示領域７１の「部分採用」が「あり」となり、時間範囲が指定されていない場合は「なし」となる。

　生成部３３は、取得部３１により取得された状態データのうち、受付部３２により受け付けられた選択情報が示す部分の状態データと、対応する時間の指令値とに基づいて、生成器を生成する。生成器は、入力された状態データに対応する動作をロボット４０に実行させるための指令値を生成し、出力する。

　具体的には、生成部３３は、例えば図１０の上図の学習フェーズに示すように、複数階層のニューラルネットワーク等のオートエンコーダで構成された生成器の入力及び出力を、時刻ｔの指令値Ｃｖ（ｔ）及び状態データＴ（ｔ）とする。状態データＴ（ｔ）は、相対位置データＴｐ（ｔ）、相対姿勢データＴθ（ｔ）、外力データＴｆ（ｔ）、及び動作データＴｖ（ｔ）である。学習フェーズでの指令値Ｃｖ（ｔ）は、動作データＴｖ（ｔ）としてよい。生成部３３は、指令値と状態データとの複数の組み合わせを用いて、ニューラルネットワークの各階層の重みをパラメータとして学習することにより、生成器を生成する。

　制御部３８は、生成部３３により生成された生成器により生成される指令値を出力してロボット４０の動作を制御する。具体的には、制御部３８は、取得部３１から状態データＴ（ｔ）を受け取り、図１０の下図の制御フェーズに示すように、生成器に入力する。これより、生成器から状態データＴ（ｔ）が示す現在の状態に応じた時刻ｔの指令値（ここでは、指令速度）Ｃｖ＾（図１０中では、「Ｃｖ」の上に「＾（ハット）」）（ｔ）が生成器から出力される。制御部３８は、この指令値Ｃｖ＾（ｔ）をロボット４０の各モータＭへ出力する。これにより、各モータが指令値に基づいて駆動されることにより、ロボット４０が動作する。

　これにより、図１１に示すように、生成器で生成された指令値を用いたロボット４０のフィードバック制御が実現される。具体的には、時刻ｔのセンサデータ群Ｓ（ｔ）が、時刻ｔの状態データＴ（ｔ）である相対位置データＴｐ（ｔ）、相対姿勢データＴθ（ｔ）、外力データＴｆ（ｔ）、及び動作データＴｖ（ｔ）に変換され、生成器に入力される。生成器は、入力された状態データＴ（ｔ）に基づいて、時刻ｔの指令値Ｃｖ＾（ｔ）を生成し、指令値Ｃｖ＾（ｔ）は、ロボット４０の各モータＭへ出力される。モータＭが指令値Ｃｖ＾（ｔ）に基づいて駆動されることにより、ロボット４０が動作する。ロボット４０が動作することにより、アームエンコーダ及びハンドエンコーダで実動作Ｓｅ（ｔ＋１）として、実角加速度Ｓｅａ（ｔ＋１）、実角速度Ｓｅω（ｔ＋１）、及び実角度Ｓｅｑ（ｔ＋１）が取得される。この実動作Ｓｅ（ｔ＋１）と、時刻ｔ＋１で取得されたビジョンセンサ及びパッドセンサのセンサデータとが、次時刻ｔ＋１のセンサデータ群Ｓ（ｔ＋１）となる。

　次に、第１実施形態に係るロボット制御システム１の作用について説明する。

　学習フェーズでは、ＣＰＵ１２が記憶装置１６から学習プログラムを読み出して、メモリ１４に展開して実行することにより、ＣＰＵ１２が指令値生成装置１０の各機能構成として機能し、学習処理が実行される。また、制御フェーズでは、ＣＰＵ１２が記憶装置１６から制御プログラムを読み出して、メモリ１４に展開して実行することにより、ＣＰＵ１２が指令値生成装置１０の各機能構成として機能し、制御処理が実行される。以下、学
習処理及び制御処理の各々について詳述する。

　図１２は、指令値生成装置１０のＣＰＵ１２により実行される学習処理の流れを示すフローチャートである。学習処理は、ロボット４０に実行させる動作シーケンス中の動作毎に実行される。

　ステップＳ１１で、制御部３８が、学習処理の対象の動作の開始位置及び姿勢となるようにロボット４０を制御する。例えば、制御部３８は、動作シーケンス中の動作のうち、前に学習処理を実行した動作の終了位置及び姿勢を、今回の学習処理の対象の動作の開始位置及び姿勢としてよい。

　次に、ステップＳ１２で、取得部３１が、ユーザにより教示開始を示すボタンが押下されるなどして、教示開始が指示されたか否かを判定する。教示開始が指示された場合には、ステップＳ１３へ移行し、指示されていない場合には、本ステップの判定を繰り返す。ユーザは、教示開始を指示した後、手動によりロボット４０に対象の動作を教示する。

　ステップＳ１３では、取得部３１が、教示する動作に対応する指令値を取得すると共に、センサ群５０に含まれる各センサからセンサデータを取得する。次に、ステップＳ１４で、取得部３１が、ユーザにより教示終了を示すボタンが押下されるなどして、教示終了が指示されたか否かを判定する。教示終了が指示された場合には、ステップＳ１５へ移行し、指示されていない場合には、ステップＳ１３に戻る。ステップＳ１５で、取得部３１が、上記ステップＳ１３で取得したセンサデータを状態データに変換する。

　次に、ステップＳ１６で、取得部３１が、所定回数分の教示が終了したか否かを判定する。所定回数分の教示が終了した場合には、ステップＳ１７へ移行し、終了していない場合には、ステップＳ１１に戻る。ステップＳ１７では、受付部３２が、部分選択画面７０を表示し、生成器の生成に利用する状態データの選択情報を受け付ける。次に、ステップＳ１８で、生成部３３が、選択情報が示す状態データの部分と、対応する指令値とを用いて生成器を生成し、学習処理は終了する。

　図１３は、指令値生成装置１０のＣＰＵ１２により実行される制御処理の流れを示すフローチャートである。

　ステップＳ２１で、取得部３１が、センサ群５０に含まれる各センサからセンサデータを取得する。次に、ステップＳ２２で、取得部３１が、上記ステップＳ２１で取得したセンサデータを状態データに変換する。次に、ステップＳ２３で、制御部３８が、取得部３１から状態データを受け取り、生成器に入力することにより、指令値を生成する。次に、ステップＳ２４で、制御部３８が、生成した指令値をロボット４０の各モータへ出力し、ステップＳ２１に戻る。

　以上説明したように、第１実施形態に係るロボット制御システムによれば、指令値生成装置が、対象物への作業をロボットに実行させるための指令値と、その作業時のロボットの動作を手動により教示した際の、ロボットの状態を表す状態データを取得する。状態データは、ロボットの動作を表す動作データ、ロボットと対象物との相対位置及び相対姿勢を表す位置姿勢データ、作業の間に対象物が受ける外力を表す外力データ等を含む複数種類のデータである。指令値生成装置は、対応する時間に取得された指令値と状態データとに基づいて、入力された状態データに対応する動作をロボットに実行させるための指令値を生成する生成器を生成する。これにより、様々な状態を取り得る対象物に対する作業をロボットにロバストに実行させるためのフィードバック制御系を構成することができる。

　また、非特許文献１に記載の技術では、実行している力制御系が、人が手伝え教示した際の位置と力のロギングデータとをそのまま力制御系の指令値入力にしているため、ロバスト性が低い。ロバスト性を高めるには、現在の状態を的確に表現する特徴量を内部的に推定し、その特徴量に基づいて指令値を生成する必要があるが、非特許文献１に記載の技術には、その構造が存在しない。特徴量を内部的に持てる構造となっているモデルにニューラルネットワークがある。ニューラルネットワークはネットワーク重みを変更することにより入力層からのデータを変換し、中間層に特徴量が現れるようにする。しかし、中間層の状態空間が広すぎると過学習することが知られており、それはロバスト性を担保できる能力を持ちながらも、ロバスト性が担保できないものにもなり得ることを示している。この問題に対し、状態空間を意図的に狭くする（次元を絞る）ことによってロバスト性を回復させるオートエンコーダという構造及び学習法が提案されている。上記実施形態における指令値生成装置は、生成器としてオートエンコーダを採用することにより、よりロバスト性を担保できるようなセンサフィードバック系を構成することができる。

　また、指令値生成装置は、複数回の教示により取得した状態データの各々を採用するか否か、及び、採用する状態データの時間範囲の選択を受け付け、選択された部分の状態データを用いて生成器を生成する。これにより、手動による教示の際に、誤って意図しない動作をロボットに教示した場合などに、その際に取得されたセンサデータに基づく状態データが生成器の生成に利用されることを防ぐことができる。

　なお、上記実施形態において、手動による教示として、ロボットとバイラテラル制御で接続されたティーチング用機器を用いた遠隔操作を行うことが可能である。この場合、指令値生成装置は、ティーチング用機器により作業を実行した際の外力データと共に、コンプライアンスパラメータを収集してもよい。そして、指令値生成装置は、収集した外力データとコンプライアンスパラメータとを用いて、上記実施形態のようなオートエンコーダで構成された生成器の各階層の重みをパラメータとして学習し、外力データを入力として、コンプライアンスパラメータを出力する生成器を生成してもよい。これにより、ハンド部のコンプライアンスパラメータを状況に応じて動的に変更する必要がある場合でも、自動で変更を実行することができる。

　また、上記実施形態において、指令値生成装置は、生成器の生成に利用された状態データの一部を削除、及び新たに取得された状態データの追加の少なくとも一方を行って生成器の生成を再実行してもよい。具体的には、状態データの一部を削除する場合は、生成器の生成後に、その生成器から出力された指令値に基づくロボットの動作をユーザが確認し、図９に示すような部分選択画面と同様の画面から削除する状態データを選択すればよい。また、状態データを追加する場合は、動作シーケンスの中で不自然な動作となっている部分について、改めて手動による教示を行うことにより、追加する状態データを取得すればよい。これにより、生成された指令値に基づいて意図しない動作が実行される場合に、生成器の生成をやり直すことで、フィードバック制御系による動作の質を高めることができる。

＜第２実施形態＞
　次に、第２実施形態について説明する。なお、第２実施形態に係るロボット制御システムにおいて、第１実施形態に係るロボット制御システム１と同様の構成については、同一符号を付して詳細な説明を省略する。

　図１に示すように、第２実施形態に係るロボット制御システム２は、指令値生成装置２１０と、ロボット４０と、センサ群５０とを含んで構成される。

　次に、第２実施形態に係る指令値生成装置２１０の機能構成について説明する。

　図１４は、指令値生成装置２１０の機能構成の例を示すブロック図である。図１４に示すように、指令値生成装置２１０は、機能構成として、取得部２３１と、生成部３３と、指示部２３４と、制御部３８とを含む。各機能構成は、ＣＰＵ１２が記憶装置１６に記憶された指令値生成プログラムを読み出し、メモリ１４に展開して実行することにより実現される。なお、指令値生成装置２１０のハードウェア構成は、図６に示す、第１実施形態に係る指令値生成装置１０のハードウェア構成と同様であるため、説明を省略する。

　指示部２３４は、生成部３３により生成された生成器に、摂動項を加味した状態データを入力した場合に生成される指令値に基づいてロボット４０が動作可能か否かを判定する。摂動項は、組立やピックアンドプレイスのアプリケーションでばらつく可能性があるパラメータに関するものである。例えば、ピックアンドプレイスの対象物９０の想定していた大きさや質量、初期位置、目標位置、対象物９０等の摩擦係数といったパラメータに関するものである。例えば、指示部２３４は、摂動項として、相対位置データ及び相対姿勢データの少なくとも一方に、対象物９０のサイズに応じた値を加算又は減算する。対象物９０のサイズに応じた値は、例えば、対象物９０のサイズに対する割合で指定してもよいし、例えば「１０ｍｍ」というように、具体的な数値で指定してもよい。指示部２３４は、摂動項を加味して生成された指令値に基づくロボット４０の動作のシミュレーションを実行し、動作可能か否かを判定する。動作可能か否かの判定としては、一連の動作シーケンスで実行される作業が完遂されるか否かを判定してもよいし、動作目標値を設定し、その動作目標値が達成されたか否かを判定してもよい。

　指示部２３４は、動作可能ではないと判定した場合、摂動項を加味した場合に生成される指令値及び状態データの取得を取得部２３１に指示する。具体的には、指示部２３４は、摂動項を加味したロボット４０の軌道を表示装置に表示するなどしてユーザに示し、かつ、その軌道の開始位置及び姿勢となるようにロボット４０を制御するように制御部３８へ指示する。

　次に、第２実施形態に係るロボット制御システム２の作用について説明する。

　図１５は、指令値生成装置２１０のＣＰＵ１２により実行される学習処理の流れを示すフローチャートである。ＣＰＵ１２が記憶装置１６から学習プログラムを読み出して、メモリ１４に展開して実行することにより、ＣＰＵ１２が指令値生成装置２１０の各機能構成として機能し、図１５に示す学習処理が実行される。なお、図１５に示す学習処理において、第１実施形態における学習処理（図１２）と同様の処理については、同一のステップ番号を付与して、詳細な説明を省略する。

　ステップＳ１１で、制御部３８が、学習処理の対象の動作の開始位置及び姿勢となるようにロボット４０を制御する。次に、ステップＳ２００で、取得処理が実行される。取得処理は、図１２に示す学習処理のステップＳ１２～Ｓ１５と同様である。次に、ステップＳ１６で、取得部２３１が、所定回数分の教示が終了したか否かを判定する。所定回数分の教示が終了した場合には、ステップＳ２１１へ移行し、終了していない場合には、ステップＳ１１に戻る。

　ステップＳ２１１では、生成部３３が、取得された状態データ及び指令値を用いて生成器を生成する。次に、ステップＳ２１２で、指示部２３４が、生成された生成器に、摂動項を加味した状態データを入力した場合に生成される指令値に基づいてロボット４０の動作をシミュレーションする。次に、ステップＳ２１３で、指示部２３４が、シミュレーションの結果、摂動項を加味した場合に、ロボット４０が動作可能か否かを判定する。動作可能な場合には、学習処理は終了し、動作可能ではない場合には、ステップＳ２１４へ移
行する。

　ステップＳ２１４では、指示部２３４が、摂動項を加味したロボット４０の軌道を表示装置に表示するなどしてユーザに示し、かつ、その軌道の開始位置及び姿勢となるようにロボット４０を制御するように制御部３８へ指示し、ステップＳ２００に戻る。

　制御処理については、第１実施形態と同様であるため、説明を省略する。

　以上説明したように、第２実施形態に係るロボット制御システムによれば、指令値生成装置が、生成された生成器に、摂動項を加味した状態データを入力した場合に生成される指令値に基づいてロボットが動作可能か否かを判定する。そして、指令値生成装置は、動作可能ではない場合、摂動項を加えた場合に生成される指令値及び状態データの取得を取得部に指示する。これにより、手動による教示で、生成器の学習に十分な状態データが取得されているか否かを自動で判定することができる。したがって、ロボットシステムに詳しくないユーザであっても、生成器の生成に必要なデータが集まっているか否かを判断することができる。

＜第３実施形態＞
　次に、第３実施形態について説明する。なお、第３実施形態に係るロボット制御システムにおいて、第１実施形態に係るロボット制御システム１と同様の構成については、同一符号を付して詳細な説明を省略する。

　図１に示すように、第３実施形態に係るロボット制御システム３は、指令値生成装置３１０と、ロボット４０と、センサ群５０とを含んで構成される。

　上記各実施形態では、複数種類の状態データを生成器に入力して指令値を生成しており、生成器内部はブラックボックスの状態であり、生成される指令値への納得感が低い場合がある。そこで、第３実施形態では、ユーザが選択した状態データとの関係で指令値を生成する生成器を生成する。また、第３実施形態では、生成器は、生成された指令値に基づいて目標動作を達成しているか否かの情報も生成する。

　図７は、指令値生成装置３１０の機能構成の例を示すブロック図である。図７に示すように、指令値生成装置３１０は、機能構成として、取得部３１と、受付部３３２と、生成部３３３と、制御部３８とを含む。各機能構成は、ＣＰＵ１２が記憶装置１６に記憶された指令値生成プログラムを読み出し、メモリ１４に展開して実行することにより実現される。なお、指令値生成装置３１０のハードウェア構成は、図６に示す、第１実施形態に係る指令値生成装置１０のハードウェア構成と同様であるため、説明を省略する。

　受付部３３２は、例えば図１６に示すような種類選択画面８０を表示し、取得部３１により取得された複数種類の状態データのうち、生成器の生成に利用する状態データの種類の選択を受け付ける。図１６の種類選択画面８０には、状態データの種類毎に、指令値の生成に採用する場合にチェックされる「指令値対象」、及び動作目標達成の判定に採用される場合にチェックされる「判定対象」の各項目が含まれる。

　生成部３３３は、選択された種類の状態データと指令値とに基づいて、指令値を生成する指令値生成器、及び動作目標の達成を判定する判定器を含む生成器のパラメータを学習する。具体的には、生成部３３３は、選択された種類の状態データと指令値とに基づいて、選択された種類の状態データが表す状態を再現可能な指令値を生成するためのパラメータを最適化することにより、指令値生成器を生成する。指令値生成器としては、例えば、選択された種類の状態データと指令値との関係を表す回帰式等としてよい。また、生成部
３３３は、指令値の上限値を生成器のパラメータに含めてもよい。

　また、生成部３３３は、選択された種類の状態データと、その状態データが示す状態が、目標動作が達成されていることを表すか否かのフラグ（以下、「動作目標達成フラグ」という）との関係を学習することにより、判定器を生成する。生成部３３３は、動作目標値を生成器のパラメータに含めてもよい。生成部３３３は、指令値生成器及び判定器の各々の内部のパラメータの最適化において、選択されていない状態データの係数を小さくすることにより、選択された状態データに応じた指令値生成器及び判定器を生成する。

　なお、生成部３３３は、指令値の上限値及び動作目標値の少なくとも一方がユーザにより指定された場合、指定された指令値の上限値及び動作目標値の少なくとも一方の値を指定された値に固定する。そのうえで、生成部３３３は、他のパラメータを最適化することにより生成器を生成する。これにより、よりユーザが望むロボットの動作を実現するための指令値を出力可能な生成器を生成することができる。

　図１７に、第３実施形態における生成器の概略構成の一例を示す。図１７に示すように、入力された状態データと、指令値の上限値とが指令値生成器に入力される。指令値生成器は、状態データに応じた指令値を生成し、出力する。また、入力された状態データと、動作目標値とが判定器に入力される。判定器は、状態データに応じた動作目標達成フラグを出力する。

　次に、第３実施形態に係るロボット制御システム３の作用について説明する。

　図１８は、指令値生成装置３１０のＣＰＵ１２により実行される学習処理の流れを示すフローチャートである。ＣＰＵ１２が記憶装置１６から学習プログラムを読み出して、メモリ１４に展開して実行することにより、ＣＰＵ１２が指令値生成装置３１０の各機能構成として機能し、図１８に示す学習処理が実行される。なお、図１８に示す学習処理において、第２実施形態における学習処理（図１５）と同様の処理については、同一のステップ番号を付与して、詳細な説明を省略する。

　ステップＳ１１、Ｓ２００、及びＳ１６を経て、ステップＳ３１１へ移行する。ステップＳ３１１では、受付部３３２が、種類選択画面８０を表示し、取得部３１により取得された複数種類の状態データのうち、指令値生成器の学習に利用する状態データ、及び判定器の学習に利用する状態データの種類の選択を受け付ける。

　次に、ステップＳ３１２で、生成部３３３が、指令値生成器の学習に利用する状態データとして選択された種類の状態データと、動作データに基づく指令値とに基づいて、指令値を生成する指令値生成器のパラメータを最適化する。次に、ステップＳ３１３で、生成部３３３が、判定器の学習に利用する状態データとして選択された種類の状態データに応じた動作目標達成フラグを生成する判定器のパラメータを最適化する。これにより、指令値生成器及び判定器を含む生成器が生成される。そして、学習処理は終了する。

　制御処理については、第１実施形態と同様であるため、詳細な説明を省略する。なお、制御フェーズにおいて、生成器から出力される動作目標達成フラグが、動作目標を達成していないことを示している場合には、ロボット４０の動作を停止するように制御してもよいし、動作目標値を達成する方向に指令値を補正するようにしてもよい。

　以上説明したように、第３実施形態に係るロボット制御システムによれば、指令値生成装置が、ユーザにより選択された種類の状態データを利用して生成器を生成する。これにより、中身がブラックボックスの生成器により生成される指令値に比べ、ユーザにとって
納得性の高い指令値を出力することができる。

　なお、第３実施形態においても、第１実施形態と同様に、図９に示すような部分選択画面を表示して、選択された種類の状態データについて、生成器の学習に利用する部分の選択を受け付けるようにしてもよい。これにより、手動による教示の際に、誤って意図しない動作をロボットに教示した場合などに、その際に取得されたセンサデータに基づく状態データが生成器の生成に利用されることを防ぐことができる。

　また、第３実施形態において、生成された生成器についてのパラメータを、ユーザが確認及び修正可能なユーザインタフェースを提供してもよい。このユーザインタフェースとしては、例えば、生成器のパラメータを直接修正可能な画面を表示してもよい。また、例えば、生成された生成器から出力される指令値に基づく動作のシミュレーション画像を表示するなどしてもよい。ユーザは、シミュレーション画像により動作を確認し、動作速度を遅くするなどの修正を加え、これに対応したパラメータの修正、例えば上限値を下げる等の修正を生成器に反映させればよい。また、パラメータ修正後の生成器から出力される指令値に基づく動作のシミュレーション画像を表示するなどして、修正内容を確認できるようにしてもよい。これにより、明らかに不適切なパラメータや、ユーザの意図に沿わないパラメータ等を事前に修正することができる。

＜第４実施形態＞
　次に、第４実施形態について説明する。なお、第４実施形態に係るロボット制御システムにおいて、第１実施形態に係るロボット制御システム１と同様の構成については、同一符号を付して詳細な説明を省略する。

　図１９に示すように、第４実施形態に係るロボット制御システム４は、指令値生成装置４１０と、ロボット４０と、センサ群５０とを含んで構成される。第４実施形態では、センサ群５０にはビジョンセンサが含まれる。なお、センサ群５０には、上記各実施形態と同様に、ビジョンセンサ以外のセンサも含まれるが、図１９では、センサ群５０に含まれるセンサとしてビジョンセンサのみを表している。

　図２０は、指令値生成装置４１０の機能構成の例を示すブロック図である。図２０に示すように、指令値生成装置４１０は、機能構成として、取得部４３１と、生成部３３と、設定部４３５と、制御部３８とを含む。各機能構成は、ＣＰＵ１２が記憶装置１６に記憶された指令値生成プログラムを読み出し、メモリ１４に展開して実行することにより実現される。なお、指令値生成装置４１０のハードウェア構成は、図６に示す、第１実施形態に係る指令値生成装置１０のハードウェア構成と同様であるため、説明を省略する。

　取得部４３１は、手動によるロボット４０の動作の教示の際に、対象物を含む作業領域を撮影した画像を取得する。具体的には、取得部４３１は、ビジョンセンサで取得された画像を取得する。

　また、取得部４３１は、予め設定された対象物９０のサイズと、取得した画像から認識される対象物９０の画像上でのサイズとに基づいて、ビジョンセンサと対象物９０との距離を算出する。取得部４３１は、算出したビジョンセンサと対象物９０との距離と、その距離の算出に利用した画像が取得された際のロボット４０の手先の位置座標とをセットで記憶する。そして、取得部４３１は、この記憶した情報と、手動による教示の際に取得される手先の位置座標の時系列データとに基づいて、対象物９０までの距離の時系列データを状態データの１つとして取得する。

　また、対象物９０や、対象物９０のプレイス場所等を、ビジョンセンサで取得された画
像から認識するために、事前にビジョンセンサによる画像に基づいて、認識用のパラメータを設定する必要がある。そこで、設定部４３５は、取得部４３１により取得された画像に基づいて、画像認識用のパラメータを設定する。画像認識用のパラメータの設定は、画像から対象物を認識するためのニューラルネットワーク等の認識モデルのパラメータの最適化と、ビジョンセンサのカメラの内部パラメータ及び外部パラメータのキャリブレーションとを含む。

　次に、第４実施形態に係るロボット制御システム４の作用について説明する。

　図２１は、指令値生成装置４１０のＣＰＵ１２により実行される学習処理の流れを示すフローチャートである。ＣＰＵ１２が記憶装置１６から学習プログラムを読み出して、メモリ１４に展開して実行することにより、ＣＰＵ１２が指令値生成装置４１０の各機能構成として機能し、図２１に示す学習処理が実行される。なお、図２１に示す学習処理において、第２実施形態における学習処理（図１５）と同様の処理については、同一のステップ番号を付与して、詳細な説明を省略する。

　ステップＳ１１及びＳ２００を経て、ステップＳ４１１へ移行する。ステップＳ４１１では、取得部４３１が、予め設定された対象物９０のサイズと、取得した画像とに基づいて、ビジョンセンサと対象物９０との距離を算出する。そして、取得部４３１が、算出した距離と、そのときのロボット４０の手先の位置座標とをセットで記憶する。この情報の記憶は、本ステップの最初の実行時のみに行えばよい。以降、本ステップが実行される際には、この記憶した情報と、手動による教示の際に取得される手先の位置座標とに基づいて、対象物までの距離を状態データの１つとして取得する。

　次に、ステップＳ１６及びステップＳ２１１を経て、ステップＳ４１２へ移行する。ステップＳ４１２では、設定部４３５は、取得部４３１により取得された画像に基づいて、画像認識用のパラメータを設定し、学習処理は終了する。

　制御処理については、第１実施形態と同様であるため、詳細な説明を省略する。

　以上説明したように、第４実施形態に係るロボット制御システムによれば、指令値生成装置が、ビジョンセンサの画像と、予め設定された対象物のサイズとに基づいて、対象物までの距離の時系列データを状態データの１つとして取得する。Ｚ軸方向の距離を認識するためには、深度センサ等の特殊なセンサを用いない場合、三角測量が必要となるが、基準となる情報が与えられていない場合には、三角測量では精度良く距離を認識することはできない。第４実施形態では、特殊なセンサを用いることなく、精度良く対象物までの距離を取得することができる。これにより、ハンド部により対象物を把持する動作等、Ｚ軸方向の距離の正確な把握が必要となる動作を適切に実行可能な指令値を生成することができる。

　なお、第３実施形態のように、動作目標を達成しているか否かを判定する判定器を含む生成器を生成する場合、判定器を生成するための状態データとして、対象物までの距離を選択してよい。この場合、図２２に示すように、対象物までの距離が、動作目標値として設定した閾値以下となった場合に、動作目標達成を示すフラグを出力する判定器を生成しておけばよい。これにより、ハンド部により対象物を把持する動作をロバストに実行可能になる。

　また、第４実施形態に係るロボット制御システムによれば、指令値生成装置が、ビジョンセンサで取得された画像に基づいて、画像認識用のパラメータの設定を行う。これにより、ロボット４０の動作を制御する指令値を生成する生成器の生成と共に、画像認識用の
パラメータの設定も行うことができ、ユーザの手間を削減することができる。また、副次的な効果として、設定したパラメータによる動作確認も容易に実行することができる。

＜第５実施形態＞
　次に、第５実施形態について説明する。なお、第５実施形態に係るロボット制御システムにおいて、第１実施形態に係るロボット制御システム１と同様の構成については、同一符号を付して詳細な説明を省略する。

　図１に示すように、第５実施形態に係るロボット制御システム５は、指令値生成装置５１０と、ロボット４０と、センサ群５０とを含んで構成される。

　図２３は、指令値生成装置５１０の機能構成の例を示すブロック図である。図２３に示すように、指令値生成装置５１０は、機能構成として、取得部３１と、生成部３３と、制御部３８と、検知部５３９とを含む。各機能構成は、ＣＰＵ１２が記憶装置１６に記憶された指令値生成プログラムを読み出し、メモリ１４に展開して実行することにより実現される。なお、指令値生成装置５１０のハードウェア構成は、図６に示す、第１実施形態に係る指令値生成装置１０のハードウェア構成と同様であるため、説明を省略する。ただし、第５実施形態に係る指令値生成プログラムは、学習プログラム及び制御プログラムに加え、後述する検知処理を実行するための検知プログラムを含む。

　検知部５３９は、生成器により生成された指令値を生成器に入力して逆算することにより状態データを推定し、推定された状態データと、取得部３１により取得される状態データとを比較して、ロボット４０による作業中に発生する異常を検知する。

　具体的には、図２４に示すように、検知部５３９は、制御フェーズにおいて、時系列データである時刻ｔ－ｎ～ｔ＋ｋの状態データを生成器に入力する。時刻ｔ－ｎ～時刻ｔは時刻ｔを基準にした過去の時刻、時刻ｔ～時刻ｔ＋ｋは時刻ｔを基準にした未来の時刻である。したがって、図２４中の網掛部分は、時刻ｔを基準にした未来のデータに相当する。検知部５３９は、生成器から出力される時刻ｔ～時刻ｔ＋ｋの指令値（図２４中の破線部）を生成器に入力して逆算することにより、時刻ｔ～時刻ｔ＋ｋの状態データ（図２４中の一点鎖線部）を生成する。そして、検知部５３９は、この生成した時刻ｔ～時刻ｔ＋ｋの状態データと、取得部３１により取得された実測値であるセンサデータから変換された時刻ｔ～時刻ｔ＋ｋの状態データ（図２４中の二点鎖線部）との差と、予め定めた閾値とを比較する。検知部５３９は、差が閾値以上の場合には、異常を検知し、動作戦略のフロー図における、異常発生時の状態遷移に進むように状態を制御する。動作戦略のフロー図で、異常発生時の状態遷移がない場合は、検知部５３９は、ユーザに異常の発生を報知する。

　次に、第５実施形態に係るロボット制御システム５の作用について説明する。

　学習処理及び制御処理については、上記各実施形態のいずれかと同様の学習処理及び制御処理が実行される。第５実施形態に係るロボット制御システム５では、制御処理と並行して、検知処理が実行される。図２５は、指令値生成装置５１０のＣＰＵ１２により実行される検知処理の流れを示すフローチャートである。ＣＰＵ１２が記憶装置１６から検知プログラムを読み出して、メモリ１４に展開して実行することにより、ＣＰＵ１２が指令値生成装置５１０の各機能構成として機能し、図２５に示す検知処理が実行される。

　ステップＳ５１１で、検知部５３９が、ロボット４０へ出力した指令値を生成器に入力して逆算することにより、状態データを推定する。次に、ステップＳ５１２で、検知部５３９が、推定した状態データと、取得部３１により取得された状態データとの差を算出す
る。次に、ステップＳ５１３で、検知部５３９が、上記ステップＳ５１２で算出した差が、予め定めた閾値以上か否かを判定する。差が閾値以上の場合には、ステップＳ５１４へ移行し、差が閾値未満の場合には、ステップＳ５１１に戻る。ステップＳ５１４では、動作戦略において、該当状態が、異常が発生した時に次の状態に遷移する状態であれば、検出部５３９が制御部３８にその動作の実行を完了するように伝え、異常が発生した場合の処理に進む。異常が発生した時の遷移先が決まっていない状態である場合は、検知部５３９が、異常が検知されたことをユーザに報知し、検知処理は終了する。

　以上説明したように、第５実施形態に係るロボット制御システムによれば、指令値生成装置が、状態データから指令値を生成する生成器に指令値を入力して逆算することにより推定した状態データと、実際の状態データとを比較する。そして、両者の差が大きい場合には、異常を検知する。これにより、複雑な異常の検知条件を作成することなく、異常を検知することができる。

　なお、上記各実施形態では、学習フェーズで機能する機能構成と、制御フェーズで機能する機能構成とを同一の装置で構成する場合について説明したが、それぞれを別の装置で構成するようにしてもよい。

　また、上記各実施形態でＣＰＵがソフトウェア（プログラム）を読み込んで実行した処理を、ＣＰＵ以外の各種のプロセッサが実行してもよい。この場合のプロセッサとしては、ＦＰＧＡ（Ｆｉｅｌｄ－Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）等の製造後に回路構成を変更可能なＰＬＤ（Ｐｒｏｇｒａｍｍａｂｌｅ　Ｌｏｇｉｃ　Ｄｅｖｉｃｅ）、及びＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎ　Ｓｐｅｃｉｆｉｃ　Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が例示される。また、これらの各種のプロセッサのうちの１つで処理を実行してもよいし、同種又は異種の２つ以上のプロセッサの組み合わせ（例えば、複数のＦＰＧＡ、及びＣＰＵとＦＰＧＡとの組み合わせ等）で実行してもよい。また、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子等の回路素子を組み合わせた電気回路である。

　また、上記各実施形態では、指令値生成プログラムが記憶装置に予め記憶（インストール）されている態様を説明したが、これに限定されない。プログラムは、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、ブルーレイディスク、ＵＳＢメモリ等の記憶媒体に記憶された形態で提供されてもよい。また、プログラムは、ネットワークを介して外部装置からダウンロードされる形態としてもよい。

１、２、３、４、５ロボット制御システム
１０、２１０、３１０、４１０、５１０指令値生成装置
１２ＣＰＵ
１４メモリ
１６記憶装置
１８入出力Ｉ／Ｆ
２０入出力装置
２２記憶媒体読取装置
２４通信Ｉ／Ｆ
２６バス
３１、２３１、４３１取得部
３２、３３２受付部
３３、３３３生成部
３８制御部
２３４指示部
４３５設定部
５３９検知部
４０ロボット
４２ロボットアーム
４４ハンド部
５０センサ群
６０コントローラ
６２ティーチング用機器
７０部分選択画面
８０種類選択画面
９０対象物
９０Ａ主対象物
９０Ｂ副対象物

Claims

　対象物への作業をロボットに実行させるための指令値と、前記作業時の前記ロボットの動作を手動により教示した際の前記ロボットの状態を表す状態データであって、少なくとも、前記ロボットの動作を表す動作データ、前記ロボットと前記対象物との相対位置及び相対姿勢を表す位置姿勢データ、並びに、前記作業の間に前記対象物が受ける外力を表す外力データを含む複数種類の状態データとを取得する取得部と、
　前記取得部により対応する時間に取得された前記指令値と前記状態データとに基づいて、入力された前記状態データに対応する動作を前記ロボットに実行させるための指令値を生成する生成器を生成する生成部と、
　を含む指令値生成装置。
　前記生成部は、前記生成器内のパラメータを最適化に基づいて決定することにより前記生成器を生成する請求項１に記載の指令値生成装置。
　複数回の教示の各々について前記取得部により取得された前記状態データのうち、前記生成器の生成に利用する前記状態データの部分の選択を受け付ける受付部を含み、
　前記生成部は、選択された前記状態データの部分を利用して前記生成器を生成する
　請求項１又は請求項２に記載の指令値生成装置。
　前記受付部は、前記取得部により取得された複数種類の前記状態データのうち、前記生成器の生成に利用する前記状態データの種類の選択を受け付け、
　前記生成部は、選択された種類の前記状態データと前記指令値とに基づいて、選択された種類の前記状態データが表す状態を再現可能な指令値を生成するためのパラメータを最適化することにより、前記生成器を生成する
　請求項３に記載の指令値生成装置。
　前記生成部は、生成した前記生成器のパラメータの修正を受け付ける請求項４に記載の指令値生成装置。
　前記生成器のパラメータは、前記指令値の上限値、及び前記指令値に対する動作の目標値を含み、
　前記生成部は、前記上限値及び前記目標値を指定された値に固定すると共に、他のパラメータを最適化することにより前記生成器を生成する
　請求項４又は請求項５に記載の指令値生成装置。
　前記生成部により生成された前記生成器に、前記作業においてばらつく可能性があるパラメータに摂動項を加味した前記状態データを入力した場合に生成される指令値に基づいて前記ロボットが動作可能か否か判定し、動作可能ではない場合、前記摂動項を加えた場合に生成される指令値及び前記状態データの取得を前記取得部に指示する指示部を含む請求項１～請求項６のいずれか１項に記載の指令値生成装置。
　前記生成部は、前記生成器の生成に利用された前記状態データの一部を削除、及び新たに前記取得部により取得された前記状態データの追加の少なくとも一方を行って前記生成器の生成を再実行する請求項１～請求項７のいずれか１項に記載の指令値生成装置。
　前記取得部は、前記教示の際に、前記対象物を含む作業領域を撮影した画像を取得し、
　前記取得部により取得された前記画像に基づいて、前記作業領域を認識するためのパラメータを設定する設定部を含む
　請求項１～請求項８のいずれか１項に記載の指令値生成装置。
　前記取得部は、予め設定された前記対象物のサイズと、前記画像から認識される前記対象物の画像上でのサイズとに基づいて算出される、前記画像を撮影するカメラと前記対象物との距離を取得する請求項９に記載の指令値生成装置。
　前記ロボットの動作の手動による教示は、ダイレクトティーチング、コントローラからの遠隔操作、又は前記ロボットとバイラテラル制御で接続されたティーチング用機器を用いた遠隔操作により実行される請求項１～請求項１０のいずれか１項に記載の指令値生成装置。
　前記生成器により生成される指令値を出力して前記ロボットを制御する制御部を含む請求項１～請求項１１のいずれか１項に記載の指令値生成装置。
　前記生成器により生成された指令値を前記生成器に入力して逆算することにより、前記状態データを推定し、推定された前記状態データと、前記取得部により取得される前記状態データとを比較して、前記ロボットによる作業中に発生する異常を検知する検知部を含む請求項１２に記載の指令値生成装置。
　取得部が、対象物への作業をロボットに実行させるための指令値と、前記作業時の前記ロボットの動作を手動により教示した際の前記ロボットの状態を表す状態データであって、少なくとも、前記ロボットの動作を表す動作データ、前記ロボットと前記対象物との相対位置及び相対姿勢を表す位置姿勢データ、並びに、前記作業の間に前記対象物が受ける外力を表す外力データを含む複数種類の状態データとを取得し、
　生成部が、前記取得部により対応する時間に取得された前記指令値と前記状態データとに基づいて、入力された前記状態データに対応する動作を前記ロボットに実行させるための指令値を生成する生成器を生成する
　指令値生成方法。
　コンピュータを、
　対象物への作業をロボットに実行させるための指令値と、前記作業時の前記ロボットの動作を手動により教示した際の前記ロボットの状態を表す状態データであって、少なくとも、前記ロボットの動作を表す動作データ、前記ロボットと前記対象物との相対位置及び相対姿勢を表す位置姿勢データ、並びに、前記作業の間に前記対象物が受ける外力を表す外力データを含む複数種類の状態データとを取得する取得部、及び、
　前記取得部により対応する時間に取得された前記指令値と前記状態データとに基づいて、入力された前記状態データに対応する動作を前記ロボットに実行させるための指令値を生成する生成器を生成する生成部
　として機能させるための指令値生成プログラム。