WO2022074824A1

WO2022074824A1 - 時相論理式生成装置、時相論理式生成方法及び記憶媒体

Info

Publication number: WO2022074824A1
Application number: PCT/JP2020/038297
Authority: WO
Inventors: 凜高野; 博之大山
Original assignee: 日本電気株式会社
Priority date: 2020-10-09
Filing date: 2020-10-09
Publication date: 2022-04-14
Also published as: JPWO2022074824A1; US20230364791A1; JP7435814B2

Abstract

時相論理式生成装置１Ｘは、主に、目標関係論理式生成手段３３１Ｘと、目標関係論理式統合手段３３２Ｘとを有する。目標関係論理式生成手段３３１Ｘは、ロボットの作業に関する目標状態における物体間の関係を表す物体間関係情報に基づき、関係が規定された物体の組の各々について目標状態における関係を表す時相論理式である目標関係論理式を生成する。目標関係論理式統合手段３３２Ｘは、目標関係論理式を統合した時相論理式を生成する。

Description

時相論理式生成装置、時相論理式生成方法及び記憶媒体

　本開示は、ロボットの動作計画に関する時相論理式を生成する時相論理式生成装置、時相論理式生成方法及び記憶媒体の技術分野に関する。

　ロボットに作業させるタスクが与えられた場合に、当該タスクを実行するために必要なロボットの制御を行う制御手法が提案されている。例えば、特許文献１には、ハンドを有するロボットにより複数の物品を把持して容器に収容する場合に、ハンドが物品を把持する順序の組み合わせを決定し、組み合わせ毎に算出した指標に基づき、収容する物品の順序を決定するロボット制御装置が開示されている。また、特許文献２には、シーケンスを示す順序情報に基づいて、システムの性質を表す時相論理式を生成するコンピュータプログラムが開示されている。

特開２０１８－５１６８４号公報国際公開ＷＯ２００８／１２３０２１

　部品の組み立て等の複数物体の接合、接触を伴うような複雑なタスクに対し、時相論理を用いたロボットの動作計画を行う場合、必要な動作を反映した時相論理式を的確に生成する必要がある。このような時相論理式の生成については、特許文献１及び特許文献２に何ら開示されていない。

　本開示の目的の１つは、上述した課題を鑑み、ロボットの動作計画に必要な時相論理式を好適に生成することが可能な時相論理式生成装置、時相論理式生成方法及び記憶媒体を提供することである。

　時相論理式生成装置の一の態様は、
　ロボットの作業に関する目標状態における物体間の関係を表す物体間関係情報に基づき、前記関係が規定された物体の組の各々について前記目標状態における関係を表す時相論理式である目標関係論理式を生成する目標関係論理式生成手段と、
　前記目標関係論理式を統合した時相論理式を生成する目標関係論理式統合手段と、
を有する時相論理式生成装置である。

　時相論理式生成方法の一の態様は、
　コンピュータにより、
　ロボットの作業に関する目標状態における物体間の関係を表す物体間関係情報に基づき、前記関係が規定された物体の組の各々について前記目標状態における関係を表す時相論理式である目標関係論理式を生成し、
　前記目標関係論理式を統合した時相論理式を生成する、
時相論理式生成方法。

　記憶媒体の一の態様は、
　ロボットの作業に関する目標状態における物体間の関係を表す物体間関係情報に基づき、前記関係が規定された物体の組の各々について前記目標状態における関係を表す時相論理式である目標関係論理式を生成し、
　前記目標関係論理式を統合した時相論理式を生成する処理をコンピュータに実行させるプログラムが格納された記憶媒体である。

　ロボットの動作計画に用いる時相論理式を好適に生成することができる。

第１実施形態におけるロボット制御システムの構成を示す。ロボットコントローラのハードウェア構成を示す。アプリケーション情報のデータ構造の一例を示す。ロボットコントローラの機能ブロックの一例である。目標状態におけるテーブルと、パーツとの状態を示す。目標関係統合論理式の生成に関する目標論理式生成部の機能的なブロック図である。スキル利用設定部の機能的なブロック図を示す。スキル利用設定部が実行するフローチャートの一例である。制御指令生成部の機能的な構成を表す機能ブロック図の一例である。制御指令生成部が実行するフローチャートの一例である。タイムステップと、第１スキルのスキル入力列と、第２スキルのスキル入力列と、サブ状態列の識別に用いるインデックスとの時系列での関係を示す。動作計画に関する処理手順を示すフローチャートの一例である。第２実施形態における時相論理式生成装置の概略構成を示す。第２実施形態において時相論理式生成装置が実行するフローチャートの一例である。第３実施形態における動作指令生成装置の概略構成を示す。第３実施形態において動作指令生成装置が実行するフローチャートの一例である。

　以下、図面を参照しながら、制御装置、制御方法及び記憶媒体の実施形態について説明する。

　＜第１実施形態＞
　（１）システム構成
　図１は、第１実施形態に係るロボット制御システム１００の構成を示す。ロボット制御システム１００は、主に、ロボットコントローラ１と、記憶装置４と、ロボット５と、計測装置７と、を備える。ロボット制御システム１００は、物体間の接合（接触を含む、以下同じ）又は接合解除の少なくともいずれかを伴うタスクを、ロボット５により好適に実行する。

　ロボットコントローラ１は、ロボット５の動作計画を策定し、計画した動作をロボット５に実行させるための制御指令「Ｓ１」を生成し、ロボット５に当該制御指令Ｓ１を供給する。この場合、ロボットコントローラ１は、ロボット５に実行させるタスク（「目的タスク」とも呼ぶ。）を、ロボット５が受付可能な単純なタスクのタイムステップ（時間刻み）毎のシーケンスに変換する。そして、ロボットコントローラ１は、生成したシーケンスの実行指令に相当する制御指令Ｓ１に基づき、ロボット５を制御する。本実施形態では、目的タスクは、物体間の接合又は接合解除の少なくともいずれか（単に「接合・解除」と呼ぶ。）を伴うタスクに設定される。なお、接合には、例えば、物体同士をねじ止めする、物体同士を嵌め合わせる、又は物体同士を積み重ねるなどの動作などが含まれる。

　また、ロボットコントローラ１は、記憶装置４、ロボット５、及び計測装置７と、通信網を介し、又は、無線若しくは有線による直接通信により、データ通信を行う。例えば、ロボットコントローラ１は、制御指令Ｓ１の生成に必要な情報を記憶装置４から受信する。また、ロボットコントローラ１は、計測装置７から計測信号「Ｓ２」を受信する。

　記憶装置４は、アプリケーション情報記憶部４１を有する。アプリケーション情報記憶部４１は、ロボット５の動作計画の策定（即ち、ロボット５が実行すべきシーケンスを生成）に必要なアプリケーション情報を記憶する。アプリケーション情報の詳細は、図３を参照しながら後述する。記憶装置４は、ロボットコントローラ１に接続又は内蔵されたハードディスクなどの外部記憶装置であってもよく、フラッシュメモリなどの記憶媒体であってもよい。また、記憶装置４は、ロボットコントローラ１と通信網を介してデータ通信を行うサーバ装置であってもよい。この場合、記憶装置４は、複数のサーバ装置から構成されてもよい。

　ロボット５は、ロボットコントローラ１から供給される制御指令Ｓ１に基づき目的タスクに関する作業を行う。ロボット５は、例えば、組み立て工場、食品工場などの各種工場、又は、物流の現場などで動作を行うロボットである。ロボット５は、垂直多関節型ロボット、水平多関節型ロボット、又はその他の任意の種類のロボットであってもよい。ロボット５は、ロボット５の状態を示す状態信号をロボットコントローラ１に供給してもよい。この状態信号は、ロボット５全体又は関節などの特定部位の状態（位置、角度等）を検出するセンサの出力信号であってもよく、ロボット５の動作の進捗状態を示す信号であってもよい。

　計測装置７は、目的タスクが実行される作業空間内の状態を検出するカメラ、測域センサ、ソナーまたはこれらの組み合わせとなる１又は複数のセンサである。計測装置７は、生成した計測信号Ｓ２をロボットコントローラ１に供給する。計測装置７は、作業空間内で移動する自走式又は飛行式のセンサ（ドローンを含む）であってもよい。また、計測装置７は、ロボット５に設けられたセンサ、及び作業空間内の他の物体に設けられたセンサなどを含んでもよい。また、計測装置７は、作業空間内の音を検出するセンサを含んでもよい。このように、計測装置７は、作業空間内の状態を検出する種々のセンサであって、任意の場所に設けられたセンサを含んでもよい。

　なお、図１に示すロボット制御システム１００の構成は一例であり、当該構成に種々の変更が行われてもよい。例えば、ロボット５は、複数台存在してもよく、ロボットアームなどの夫々が独立して動作する制御対象物を複数有してもよい。これらの場合であっても、ロボットコントローラ１は、ロボット５毎又は制御対象物毎に目的タスクを実行するための制御指令Ｓ１を、対象のロボット５に送信する。また、ロボット５は、作業空間内で動作する他のロボット、作業者又は工作機械と協働作業を行うものであってもよい。また、計測装置７は、ロボット５の一部であってもよい。また、ロボットコントローラ１は、複数の装置から構成されてもよい。この場合、ロボットコントローラ１を構成する複数の装置は、予め割り当てられた処理を実行するために必要な情報の授受を、これらの複数の装置間において行う。また、ロボットコントローラ１とロボット５とは、一体に構成されてもよい。

　（２）ハードウェア構成
　図２は、ロボットコントローラ１のハードウェア構成を示す。ロボットコントローラ１は、ハードウェアとして、プロセッサ１１と、メモリ１２と、インターフェース１３とを含む。プロセッサ１１、メモリ１２及びインターフェース１３は、データバス１０を介して接続されている。

　プロセッサ１１は、メモリ１２に記憶されているプログラムを実行することにより、ロボットコントローラ１の全体の制御を行うコントローラ（演算装置）として機能する。プロセッサ１１は、例えば、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＴＰＵ（Ｔｅｎｓｏｒ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）などのプロセッサである。プロセッサ１１は、複数のプロセッサから構成されてもよい。プロセッサ１１は、コンピュータの一例である。

　メモリ１２は、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、フラッシュメモリなどの各種の揮発性メモリ及び不揮発性メモリにより構成される。また、メモリ１２には、ロボットコントローラ１が実行する処理を実行するためのプログラムが記憶される。なお、メモリ１２が記憶する情報の一部は、ロボットコントローラ１と通信可能な１又は複数の外部記憶装置（例えば記憶装置４）により記憶されてもよく、ロボットコントローラ１に対して着脱自在な記憶媒体により記憶されてもよい。

　インターフェース１３は、ロボットコントローラ１と他の装置とを電気的に接続するためのインターフェースである。これらのインターフェースは、他の装置とデータの送受信を無線により行うためのネットワークアダプタなどのワイアレスインタフェースであってもよく、他の装置とケーブル等により接続するためのハードウェアインターフェースであってもよい。例えば、インターフェース１３は、例えば、タッチパネル、ボタン、キーボード、音声入力装置などのユーザの入力（外部入力）を受け付ける入力装置、ディスプレイ、プロジェクタ等の表示装置、スピーカなどの音出力装置等とのインターフェース動作を行ってもよい。

　なお、ロボットコントローラ１のハードウェア構成は、図２に示す構成に限定されない。例えば、ロボットコントローラ１は、表示装置、入力装置又は音出力装置の少なくともいずれかを内蔵してもよい。また、ロボットコントローラ１は、記憶装置４を含んで構成されてもよい。

　（３）アプリケーション情報
　次に、アプリケーション情報記憶部４１が記憶するアプリケーション情報のデータ構造について説明する。

　図３は、目的タスクを実行するためのロボット５の動作計画に必要なアプリケーション情報のデータ構造の一例を示す。図３に示すように、アプリケーション情報は、環境物体情報Ｉ１と、一般制約条件情報Ｉ２と、操作対象物情報Ｉ３と、スキルデータベースＩ４とを含む。

　環境物体情報Ｉ１は、作業空間内における環境として存在する物体（「環境物体」とも呼ぶ。）に関する情報である。具体的には、環境物体は、ロボット５により操作対象となる物体（「操作対象物」とも呼ぶ。）、ロボット５、及びロボットコントローラ１が扱う基準座標系として定義される基準物体（例えば作業台）のいずれにも該当しない物体（例えば障害物等）である。環境物体情報Ｉ１は、例えば、環境物体の種類、環境物体の位置姿勢などの環境物体の属性及び状態を示す種々の情報を含んでもよい。また、環境物体情報Ｉ１は、ユーザの入力（外部入力）に基づき予め生成された情報であってもよく、計測信号Ｓ２等に基づき認識された環境物体の最新の状態を表す情報であってもよい。なお、後者の場合の環境物体情報Ｉ１の生成又は更新は、ロボットコントローラ１により行われてもよく、他の装置により行われてもよい。

　一般制約条件情報Ｉ２は、目的タスクを実行する際の一般的な制約条件を示す情報である。一般制約条件情報Ｉ２は、例えば、目的タスクがピックアンドプレイスの場合、障害物にロボット５（ロボットアーム）が接触してはいけないという制約条件、ロボット５（ロボットアーム）同士が接触してはいけないという制約条件などを示す。

　操作対象物情報Ｉ３は、目的タスクにおいてロボット５による操作対象となる操作対象物に関する情報である。操作対象物情報Ｉ３は、例えば、操作対象物に関する属性及び状態を示す情報と、操作対象物を含む物体間の物理的な関係（「物体間関係」とも呼ぶ。）に関する情報と、を含んでいる。操作対象物に関する属性及び状態を示す情報は、ユーザによる入力（外部入力）に基づき予め生成された情報であってもよく、計測信号Ｓ２等に基づき認識された操作対象物の最新の状態を表す情報であってもよい。なお、後者の場合の操作対象物情報Ｉ３の生成又は更新は、ロボットコントローラ１により行われてもよく、他の装置により行われてもよい。また、物体間関係に関する情報は、例えば、ユーザによる入力（外部入力）に基づき予め生成され、記憶装置４に記憶されている。

　スキルデータベースＩ４は、ロボット５の特定の動作を動作毎にモジュール化したスキルに関するデータベースである。スキルデータベースＩ４に登録されたスキル毎の情報を「スキル情報」とも呼ぶ。スキル情報は、物体間の接合・解除の各種動作を抽象化して表現しており、スキルを実行するために必要な種々の情報を含んでいる。スキル情報は、主に、スキルを識別するラベル（「スキル識別ラベル」とも呼ぶ。）と、スキルの実行に関する情報（「スキル実行情報」とも呼ぶ。）と、スキルを実行するための制御指令を生成に関する情報（「スキル制御指令情報」とも呼ぶ。）と、を含んでいる。これの各情報については、「（８－１）スキル情報のデータ構造」のセクションにおいて詳しく説明する。なお、スキルデータベースＩ４には、スキル情報として、物体間の接合・解除を実行する各種動作に対応するスキルに加えて、物体の接合・解除以外のロボット５の基本動作（例えば、物体を掴む、物体を離す）に対応するスキルが登録されていてもよい。

　なお、アプリケーション情報は、上述した情報の他、ロボット５の動作計画に必要な種々の情報を含んでもよい。

　例えば、アプリケーション情報は、計測装置７が生成した計測信号Ｓ２から認識すべき各物体（例えば、ロボット５、操作対象物、環境物体、基準物体）の物体モデルに関する物体モデル情報を有してもよい。この場合、物体モデル情報は、上述した各物体の種類、位置、姿勢、現在実行中の動作などをロボットコントローラ１が認識するために必要な情報を含んでもよい。この場合、物体モデル情報は、例えば、ニューラルネットワークなどの機械学習における学習モデルを学習することで得られた推論器のパラメータを含む。この推論器は、例えば、画像が入力された場合に、当該画像において被写体となる物体の種類、位置、姿勢等を出力するように予め学習される。

　他の例では、アプリケーション情報は、ロボットコントローラ１が扱う基準座標系として定義されている作業台などの基準物体に関する情報（例えば、位置、範囲、傾き等に関する情報）を有してもよい。さらに別の例では、アプリケーション情報は、作業空間における物体の抽象的な状態を定めるために必要な情報を含んでもよい。さらに別の例では、アプリケーション情報は、ロボットコントローラ１により制御が行われるロボット５の動作限界（例えば、ロボット５の速度、加速度、又は角速度の上限）に関する情報を含んでもよい。動作限界に関する情報は、ロボット５の可動部位又は関節ごとに動作限界を規定する情報であってもよい。

　（４）処理概要
　次に、ロボットコントローラ１の処理概要について説明する。概略的には、ロボットコントローラ１は、接合・解除を伴う目的タスクにおいて、予め定義された物体間関係及びスキル情報等に基づき、目的タスクにおいて満たすべき制約条件及び評価関数を設定し、最適化処理を行うことで、制御指令Ｓ１を生成する。これにより、ロボットコントローラ１は、接合・解除を伴う目的タスクに対するロボット５の動作計画を好適に策定し、目的タスクを実行するようにロボット５を好適に制御する。

　図４は、ロボットコントローラ１の処理の概要を示す機能ブロックの一例である。ロボットコントローラ１のプロセッサ１１は、機能的には、抽象状態設定部３１と、ダイナミクス・拘束力設定部３２と、目標論理式生成部３３と、スキル利用設定部３４と、最適化処理部３５と、制御指令生成部３６とを有する。なお、図４では、各ブロック間で授受が行われるデータの一例が示されているが、これに限定されない。後述する他の機能ブロックの図においても同様である。

　抽象状態設定部３１は、環境物体情報Ｉ１及び操作対象物情報Ｉ３に基づき、作業空間内の物体の状態を抽象的に表した状態（「抽象状態」とも呼ぶ。）を設定する。また、抽象状態設定部３１は、操作対象物情報Ｉ３から、目的タスクが完了した状態を示す目標（ゴール）状態における物体間関係を表す情報（「物体間関係情報Ｉｒ」とも呼ぶ。）を取得する。なお、抽象状態設定部３１は、計測信号Ｓ２に基づき作業空間内の環境物体及び操作対象物の状態を認識し、その認識結果に基づいて、環境物体情報Ｉ１及び操作対象物情報Ｉ３を更新してもよい。

　ダイナミクス・拘束力設定部３２は、抽象状態設定部３１が設定した抽象状態と、物体間関係情報Ｉｒとに基づき、接合・解除の対象となる物体間の拘束に関する定義を行い、動作計画において抽象的なシステムダイナミクスのモデル（「システムモデルＭｂ」とも呼ぶ。）を設定する。

　目標論理式生成部３３は、システムモデルＭｂにおける目標状態を表す時相論理の論理式（「目標論理式」とも呼ぶ。）を生成する。この場合、目標論理式生成部３３は、物体間の接合・解除に関する目標論理式（「目標関係統合論理式φ１」とも呼ぶ。）と、物体間の接合・解除以外の動作に関する目標論理式（「一般目標論理式φ２」とも呼ぶ。）とを夫々表す時相論理の論理式を生成する。目標関係統合論理式φ１及び一般目標論理式φ２は、最適化処理部３５において設定される最適化問題における制約条件の一部または評価関数の一部として用いられる。

　スキル利用設定部３４は、スキルを用いた時相論理によるロボット５の動作指令（「スキル利用動作指令φ３」とも呼ぶ。）及びスキルの利用を考慮した評価関数（「スキル利用評価関数Ｆ_ｓ」とも呼ぶ。）を夫々設定する。この場合、スキル利用設定部３４は、物体間関係情報Ｉｒに基づき、スキルデータベースＩ４から動作指令の生成等に必要なスキル情報「Ｉｓｎ」を抽出する。スキル利用動作指令φ３は、最適化処理部３５において設定される最適化問題における制約条件又は評価関数（目的関数）のいずれかに反映され、スキル利用評価関数Ｆ_ｓは、上記の最適化問題における評価関数に反映される。

　最適化処理部３５は、目標関係統合論理式φ１、一般目標論理式φ２、スキル利用動作指令φ３及びスキル利用評価関数Ｆ_ｓ等に基づき、ロボット５の軌道計画問題を最適化問題の形で構成する。そして、最適化処理部３５は、構成した最適化問題を解くことによって、時系列の目標軌道を示す変数列「Ｚ」を生成する。

　制御指令生成部３６は、目標軌道を示す変数列Ｚと、スキル情報Ｉｓｎとに基づき、ロボット５の動作計画に相当する制御指令Ｓ１を生成する。そして、制御指令生成部３６は、生成した制御指令Ｓ１を、インターフェース１３を介してロボット５に供給する。

　ここで、抽象状態設定部３１、ダイナミクス・拘束力設定部３２、目標論理式生成部３３、スキル利用設定部３４、最適化処理部３５及び制御指令生成部３６の各構成要素は、例えば、プロセッサ１１がプログラムを実行することによって実現できる。また、必要なプログラムを任意の不揮発性記憶媒体に記録しておき、必要に応じてインストールすることで、各構成要素を実現するようにしてもよい。なお、これらの各構成要素の少なくとも一部は、プログラムによるソフトウェアで実現することに限ることなく、ハードウェア、ファームウェア、及びソフトウェアのうちのいずれかの組合せ等により実現してもよい。また、これらの各構成要素の少なくとも一部は、例えばＦＰＧＡ（Field-Programmable Gate Array）又はマイクロコントローラ等の、ユーザがプログラミング可能な集積回路を用いて実現してもよい。この場合、この集積回路を用いて、上記の各構成要素から構成されるプログラムを実現してもよい。また、各構成要素の少なくとも一部は、ＡＳＳＰ（Application Specific Standard Produce）、ＡＳＩＣ（Application Specific Integrated Circuit）又は量子コンピュータ制御チップにより構成されてもよい。このように、各構成要素は、種々のハードウェアにより実現されてもよい。以上のことは、後述する他の実施の形態においても同様である。さらに、これらの各構成要素は，例えば，クラウドコンピューティング技術などを用いて、複数のコンピュータの協働によって実現されてもよい。

　（５）抽象状態設定部の詳細
　まず、抽象状態設定部３１により取得される物体間関係情報Ｉｒについて具体的に説明する。

　例えば、物体「ｐ_ｉ」と物体「ｐ_ｊ」に対する物体間関係「Ｅ_ｉｊ」は、以下の形式により表される。
　　　　　　　Ｅ_ｉｊ＝（ｐ_ｉ，ｐ_ｊ，ＲＰＡ_ｉｊ，ｗａｙ）

　ここで、「ＲＰＡ_ｉｊ」は、物体「ｐ_ｉ」と物体「ｐ_ｊ」との相対位置姿勢を表す。また、「ｗａｙ」は、接合・解除の方法を表しており、後述するスキルを識別するためのラベル情報としても機能する。従って、この場合、上記のＥ_ｉｊは、
「物体ｐ_ｉに対して物体ｐ_ｊは、相対位置姿勢ＲＰＡ_ｉｊにおいて方法ｗａｙにより接合・解除されている」
ことを示す。なお、解除の場合には、相対位置姿勢ＲＰＡ_ｉｊはＥ_ｉｊにおいて指定されなくともよい。

　なお、相対位置姿勢ＲＰＡ_ｉｊは、物体ｐ_ｊの座標系「Σ_ｊ」にて表されている位置及び姿勢を、物体ｐ_ｉの座標系「Σ_ｉ」にて表すものであり、以下のように相対位置ベクトル「ｒ_ｐｉｊ」及び相対姿勢ベクトル「ｒ_Ｒｉｊ」の組により表される。
　　　　　　　ＲＰＡ_ｉｊ＝（ｒ_ｐｉｊ，ｒ_Ｒｉｊ）
　ただし、座標系Σ_ｉおよびΣ_ｊはそれぞれ物体ｐ_ｉ，ｐ_ｊのどこか一点に取り付けられた座標系であり、物体ｐ_ｉ，ｐ_ｊと共に移動するものである。なお、相対姿勢ベクトルはオイラー角やクォータニオンを利用した形で表現されてもよいし、姿勢を表す回転行列の列ベクトルを連結したベクトルとして表現されてもよい。

　また、方法ｗａｙは、スキルデータベースＩ４に登録されたスキル情報に含まれるスキル識別ラベルに相当し、物体間関係情報Ｉｒと対応するスキル情報とを紐付ける。従って、方法ｗａｙを実現するためのスキルのスキル情報には、方法ｗａｙと同一のスキル識別ラベルが設定されている。また、記憶装置４等には、方法ｗａｙごとに、対応する物体間の拘束式に関する情報が記憶されている。このように、方法ｗａｙには、対応する物体間の拘束式が紐付けられており、抽象状態設定部３１は、上記の拘束式に関する情報を含む物体間関係情報Ｉｒを取得する。

　図５は、目標状態におけるテーブル「Ｔ」と、パーツ「ｐ_Ａ」と、パーツ「ｐ_Ｂ」との状態を示す。ここでは、一例として、テーブルＴの上にパーツｐ_Ａが載置され、さらにパーツｐ_Ａの上にパーツｐ_Ｂが載置される状態が目標状態であるものとする。この場合、抽象状態設定部３１は、操作対象物であるパーツｐ_Ａ及びパーツｐ_Ｂの夫々に対応する操作対象物情報Ｉ３を参照することで、テーブルＴ及びパーツｐ_Ａの物体間関係「Ｅ_ＴＡ」と、パーツｐ_Ａ及びパーツｐ_Ｂの物体間関係「Ｅ_ＡＢ」とを以下のように定義する。

　　　　　　　Ｅ_ＴＡ＝（Ｔ，ｐ_Ａ，（ｒ_ｐＴＡ，ｒ_ＲＴＡ），ｐｕｔ＿ｏｎ）
　　　　　　　Ｅ_ＡＢ＝（ｐ_Ａ，ｐ_Ｂ，（ｒ_ｐＡＢ，ｒ_ＲＡＢ），ｐｕｔ＿ｏｎ）

　ここで、「（ｒ_ｐＴＡ，ｒ_ＲＴＡ）」は、テーブルＴの座標系からみたパーツｐ_Ａの座標系の位置及び姿勢を示し、「（ｒ_ｐＡＢ，ｒ_ＲＡＢ）」は、パーツｐ_Ａの座標系からみたパーツｐ_Ｂの座標系の位置及び姿勢を示す。また、「ｐｕｔ＿ｏｎ」は、「上に置く」という接合方法を指し示す方法ｗａｙの値である。

　そして、抽象状態設定部３１は、上述したような物体間関係を表す物体間関係情報Ｉｒを操作対象物情報Ｉ３から取得し、ダイナミクス・拘束力設定部３２、目標論理式生成部３３、スキル利用設定部３４などの各処理ブロックに供給する。

　次に、動作計画において抽象的に作業空間内の物体の状態を表した抽象状態を表す抽象状態ベクトルの生成について説明する。抽象状態設定部３１は、環境物体情報Ｉ１と、操作対象物情報Ｉ３とに基づき、抽象状態ベクトル「Ｘ」（単に状態Ｘとも呼ぶ。）を以下のように生成する。
　　　　　　　Ｘ＝［Ｘ_ｏ ^Ｔ，Ｘ_ｈ ^Ｔ，Ｘ_ｅ ^Ｔ］^Ｔ

　ここで、「Ｘ_ｏ」は、操作対象物の状態（例えば、位置、姿勢、速度等）を表すベクトル、「Ｘ_ｈ」は、操作可能なロボット５のエンドエフェクタの状態を表すベクトル、「Ｘ_ｅ」は、環境物体の状態を表すベクトルを表す。これらの状態ベクトルは、操作対象物の個数を「Ｎ_ｏ」、エンドエフェクタの個数を「Ｎ_ｈ」、環境物体の個数を「Ｎ_ｅ」とすると、以下のように表される。

　　　　　　　Ｘ_ｏ＝［Ｘ_ｏ，１ ^Ｔ，…，Ｘ_ｏ，Ｎｏ ^Ｔ］^Ｔ
　　　　　　　Ｘ_ｈ＝［Ｘ_ｈ，１ ^Ｔ，…，Ｘ_ｈ，Ｎｈ ^Ｔ］^Ｔ
　　　　　　　Ｘ_ｅ＝［Ｘ_ｅ，１ ^Ｔ，…，Ｘ_ｅ，Ｎｅ ^Ｔ］^Ｔ

　なお、これらの状態ベクトルにおいて各物体に対応する要素「Ｘ_ｏ，１」～「Ｘ_ｏ，Ｎｏ」、「Ｘ_ｈ，１」～「Ｘ_ｈ，Ｎｈ」、「Ｘ_ｅ，１」～「Ｘ_ｅ，Ｎｅ」は、各物体の状態（例えば、位置、姿勢、速度等）を表すベクトルを表す。このように、抽象空間では、ロボット５の状態は、エンドエフェクタの状態により抽象的（簡略的）に表されている。また、操作対象物または環境物体に該当する各物体の状態についても、例えば、基準座標系において抽象的に表されている。

　ここで、操作対象物及び環境物体は、動作計画前においてユーザによる外部入力に基づき定義された物体であってもよい。例えば、動作計画時において組み立てに必要なパーツが蓋つきの箱の中に入っている場合、蓋つきの箱の中に入っているパーツに対応する状態ベクトルＸ_ｏが外部入力等に基づき定義され、蓋つきの箱に対応する状態ベクトルＸ_ｅが外部入力等により定義されてもよい。このように定義された情報は、例えば、環境物体情報Ｉ１又は操作対象物情報Ｉ３として記憶装置４に予め記憶される。

　また、抽象状態設定部３１は、例えば、計測信号Ｓ２を解析することで認識した作業空間内の各物体の位置及び姿勢等の状態認識結果に基づき、作業前の抽象空間の状態を表す抽象状態ベクトルＸの初期値を定める。なお、環境物体情報Ｉ１及び操作対象物情報Ｉ３に予め各物体の位置及び姿勢等の作業前の初期状態を表す情報が含まれている場合には、抽象状態設定部３１は、環境物体情報Ｉ１及び操作対象物情報Ｉ３等を参照することで、抽象状態ベクトルＸの初期値を定めてもよい。

　（６）ダイナミクス・拘束力設定部の詳細
　次に、ダイナミクス・拘束力設定部３２が実行する処理の詳細について説明する。ダイナミクス・拘束力設定部３２は、抽象状態ベクトルＸを定義した抽象空間において生じる拘束の定義を行い、接合・解除に関する抽象空間のダイナミクスを設定する。

　ここでは、前提として、ロボット５のエンドエフェクタは、全ての物体（操作対象物及び環境物体）を把持可能とする。この場合、ダイナミクス・拘束力設定部３２は、物体間関係情報Ｉｒを参照し、各エンドエフェクタｈ_ｉと各操作対象物ｏ_ｊとの間の拘束力ベクトル「λ_ｈｉ，_ｏｊ」、拘束式「Ｃ_ｈｉ，_ｏｊＸ－Ｇ_ｈｉ，_ｏｊ（Ｘ）＝０」、及び拘束の有無を表すスカラー量である拘束スイッチ変数「η_ｈｉ，_ｏｊ」（各変数において、ｉ＝１，…，Ｎ_ｈかつｊ＝１，…，Ｎ_ｏ）を夫々定義する。なお、「Ｃ_ｈｉ，_ｏｊ」は拘束力 λ_ｈｉ，_ｏｊと同じ要素数の行要素を持つ拘束式係数行列、「Ｇ_ｈｉ，_ｏｊ」はあらかじめ定められた関数を示す。この拘束式はエンドエフェクタと各操作対象物の相対運動に対して拘束を与えるものである。一例として、この拘束式は、エンドエフェクタｈ_ｉと操作対象物ｏ_ｊの相対位置が時間の経過とともに指数的に０となるような拘束を示す。

　エンドエフェクタｈ_ｉの位置及び並進速度を「ｐ_ｘ，ｈｉ」、「ｐ_ｙ，ｈｉ」、「ｐ_ｚ，ｈｉ」、「ｐ^・ _ｘ，ｈｉ」、「ｐ^・ _ｙ，ｈｉ」、「ｐ^・ _ｚ，ｈｉ」とし，操作対象物ｏ_ｊの位置および並進速度を「ｐ_ｘ，ｏｊ」、「ｐ_ｙ，ｏｊ」、「ｐ_ｚ，ｏｊ」、「ｐ^・ _ｘ，ｏｊ」、「ｐ^・ _ｙ，ｏｊ」、「ｐ^・ _ｚ，ｏｊ」とすると，この拘束は次のような式として与えられる。

　ｐ^・ _ｘ，ｈｉ－ｐ^・ _ｘ，ｏｊ＝－（ｐ_ｘ，ｈｉ－ｐ_ｘ，ｏｊ）
　ｐ^・ _ｙ，ｈｉ－ｐ^・ _ｙ，ｏｊ＝－（ｐ_ｙ，ｈｉ－ｐ_ｙ，ｏｊ）
　ｐ^・ _ｚ，ｈｉ－ｐ^・ _ｚ，ｏｊ＝－（ｐ_ｚ，ｈｉ－ｐ_ｚ，ｏｊ）

この場合にはこれらの左辺が前述の拘束式「Ｃ_ｈｉ，_ｏｊＸ－Ｇ_ｈｉ，_ｏｊ（Ｘ）＝０」における「Ｃ_ｈｉ，_ｏｊＸ」に対応し，右辺が「Ｇ_ｈｉ，_ｏｊ（Ｘ）」に対応する形となっている．

　また、ダイナミクス・拘束力設定部３２は、物体間関係情報Ｉｒを参照し、各エンドエフェクタｈ_ｉと各環境物体ｅ_ｋとの間の拘束力ベクトル「λ_ｈｉ，_ｅｋ」、拘束式「Ｃ_ｈｉ，_ｅｋＸ－Ｇ_{ｈｉ，ｅｋ}（Ｘ）＝０」、及び拘束の有無を表すスカラー量である拘束スイッチ変数「η_ｈｉ，_ｅｋ」（各変数において、ｉ＝１，…，Ｎ_ｈかつｋ＝１，…，Ｎ_ｅ）を夫々定義する。なお、「Ｃ_ｈｉ，_ｅｋ」は拘束式係数行列を示す。また、「Ｇ_{ｈｉ，ｅｋ}（Ｘ）」はあらかじめ定められた関数である。

　また、ダイナミクス・拘束力設定部３２は、物体間関係情報Ｉｒを参照し、物体間関係情報Ｉｒにおいて関係が示されている物体間の拘束を定義する。ここで、物体間関係情報Ｉｒにおいて関係が示されている物体を「ｏ_ｍ」及び「ｏ_ｎ」とすると、ダイナミクス・拘束力設定部３２は、これらの物体間の拘束力「λ_ｏｍ，_ｏｎ」、拘束式「Ｃ_ｏｍ，_ｏｎＸ－Ｇ_ｏｍ，_ｏｎ（Ｘ）＝０」、及び拘束の有無を表す拘束スイッチ変数「η_ｏｍ，_ｏｎ」を夫々定義する。なお、「Ｃ_ｏｍ，_ｏｎ」は拘束式係数行列を示す。また、「Ｇ_ｏｍ，_ｏｎ（Ｘ）」はあらかじめ定められた関数である。

　さらに、ダイナミクス・拘束力設定部３２は、基準座標系として定義される作業台などの基準物体と各物体（操作対象物及び環境物体）の間の拘束を定義する。なお、これらの拘束については、例えば、物体間関係情報Ｉｒ又はこれに相当する情報として記憶装置４に予め記憶されている。ダイナミクス・拘束力設定部３２は、この場合、基準物体と各操作対象物との間の拘束力「λ_ｏｉ，_ｗ」、拘束式「Ｃ_ｏｉ，_ｗＸ－Ｇ_ｏｉ，_ｗ（Ｘ）＝０」、及び拘束の有無を表す拘束スイッチ変数「η_ｏｉ，_ｗ」（各変数において、ｉ＝１，…，Ｎ_ｏ）を夫々定義する。また、ダイナミクス・拘束力設定部３２は、基準物体と各環境物体との間の拘束力「λ_ｅｋ，_ｗ」、拘束式「Ｃ_ｅｋ，_ｗＸ－Ｇ_ｅｋ，_ｗ（Ｘ）＝０」、及び拘束の有無を表す拘束スイッチ変数「η_ｅｋ，_ｗ」（各変数において、ｉ＝１，…，Ｎ_ｈかつｋ＝１，…，Ｎ_ｅ）を夫々定義する。なお、「Ｃ_ｏｉ，_ｗ」、「Ｃ_ｅｋ，_ｗ」は拘束式係数行列を示し、「Ｇ_ｏｉ，_ｗ（Ｘ）」、「Ｇ_ｅｋ，_ｗ（Ｘ）」はあらかじめ定められた関数である。

　そして、ダイナミクス・拘束力設定部３２は、これらの抽象空間に関連する全ての拘束力、拘束式の、拘束スイッチ変数を合成した拘束力ベクトル「Λ」、拘束式係数行列「Ｃ_ａｌｌ」、拘束スイッチ行列「Ｈ」，そして拘束式内の関数をまとめた「Ｇ_ａｌｌ」を定義する。ただし、「Λ」は各拘束力ベクトルを縦に連結したベクトルであり、「Ｃ_ａｌｌ」は各拘束式係数行列を縦に連結した行列、「Ｇ_ａｌｌ」は各拘束式内の関数を縦に連結したベクトルを表す。
　　Λ＝［λ^Ｔ _ｈ１，_ｏ１，…，λ^Ｔ _ｅＮｅ，_ｗ］^Ｔ
　　Ｃ_ａｌｌ＝［Ｃ^Ｔ _ｈ１，_ｏ１，…，Ｃ^Ｔ _ｅＮｅ，_ｗ］^Ｔ
　　Ｇ_ａｌｌ＝［Ｇ^Ｔ _ｈ１，_ｏ１，…，Ｇ^Ｔ _ｅＮｅ，_ｗ］^Ｔ
　ここで上付きの「Ｔ」は行列の転置を表すとする。また、「Ｈ」は対角要素に各拘束スイッチ変数をもつ以下の対角行列を表す。
　　Ｈ＝ｂｌｋｄｉａｇ（η_ｈ１，_ｏ１ Iｎ_{ｈ１，ｏ１}，…，η_{ｅＮｅ，ｗ} Iｎ_{ｅＮｅ，ｗ}）
　ただし、「ｂｌｋｄｉａｇ」はブロック対角行列を生成する関数であり、「Ｉｎ」は「ｎ」行「ｎ」列の単位行列を表す。また、「ｎ_ｈｉ，_ｏｊ」は各拘束力ベクトル「λ_ｈｉ，_ｏｊ」の要素数を表すとする。そして、ダイナミクス・拘束力設定部３２は、定義したこれらの要素を用いて、接合・解除に関する抽象空間のダイナミクスを表すモデルであるシステムモデルＭｂを設定する。システムモデルＭｂは、例えば、以下に示される、ダイナミクスを表す差分方程式と、拘束式とにより表される。

　　Ｘ［ｋ＋１］＝Ｆ（Ｘ［ｋ］，Ｕ［ｋ］）＋Ｃ_ａｌｌ ^ＴＨ［ｋ］^ＴΛ［ｋ］
　　Ｈ［ｋ］(Ｃ_ａｌｌＸ［ｋ＋１］－Ｇ_ａｌｌ（Ｘ［ｋ］）)＝０

　ここで、１番目の式は、タイムステップ「ｋ」での抽象状態とタイムステップ「ｋ＋１」での抽象状態との関係を表した差分方程式である。また、「Ｕ」は、抽象空間における入力（例えば、ロボット５への入力）を示し、「Ｆ」は、予め定義された関数を示す。制御入力は、速度であってもよく、加速度であってもよい。なお、関数Ｆは、予め記憶装置４等に記憶されている。これらの式は、ロボット５全体の詳細なダイナミクスではなく、ロボット５のエンドエフェクタのダイナミクスのみを考慮している。これにより、最適化処理の計算量を好適に削減することができる。

　（７）目標論理式生成部の詳細
　まず、目標関係統合論理式φ１の生成方法について説明する。目標論理式生成部３３は、物体間関係情報Ｉｒと、ダイナミクス・拘束力設定部３２が設定したシステムモデルＭｂとに基づき、物体同士の接合・解除に関する目標関係統合論理式φ１を生成する。

　図６は、目標関係統合論理式φ１の生成に関する目標論理式生成部３３の機能的なブロック図である。目標論理式生成部３３は、機能的には、目標関係論理式生成部３３１と、目標関係論理式統合部３３２とを有する。

　目標関係論理式生成部３３１は、物体間関係情報Ｉｒにより関係が定義された任意の物体の組（ペア）の関係を個々に表した論理式（「目標関係論理式φｅ」とも呼ぶ。）を生成する。例えば、目標関係論理式生成部３３１は、物体間関係情報Ｉｒにおいて関係が示されている物体「ｏ_ｉ」と物体「ｏ_ｊ」との接合関係を表す目標関係論理式φｅを、以下の式に定める。

　　φｅ_{ｏｉ，ｏｊ}＝◇□（（η_{ｏｉ，ｏｊ}＝１）∧（ｇ_{ｏｉ，ｏｊ}（Ｘ，ＲＰＡ_{ｏｉ，ｏｊ}）＝０））

　上記の式では、線形論理式（ＬＴＬ：Ｌｉｎｅａｒ　Ｔｅｍｐｏｒａｌ　Ｌｏｇｉｃ）の「eventually」に相当する演算子「◇」、論理積「∧」、論理和「∨」、always「□」を用いている。なお、目標論理式生成部３３は、これらの演算子の他、否定「￢」、論理包含「⇒」、next「○」、until「Ｕ」などを用いて論理式を表してもよい。例えば、上記の式は、記憶装置４等に予め記憶されている。

　そして、上記の式は、「物体ｏ_ｉと物体ｏ_ｉの間に拘束が存在し、２つの物体の相対的な最終状態はＲＰＡ_{ｏｉ，ｏｊ}である」ことを表している。なお、解除を表す場合には、拘束スイッチ変数η_{ｏｉ，ｏｊ}を０に設定する。ここで、「ｇ_{ｏｉ，ｏｊ}（Ｘ，ＲＰＡ_{ｏｉ，ｏｊ}）＝０」は、システムモデルＭｂに基づき定まる拘束式であって、状態Ｘにおいて相対位置姿勢ＲＰＡ_{ｏｉ，ｏｊ}を満たす拘束式を表す。

　上記の式を用いることで、目標関係論理式生成部３３１は、任意の２つの物体間の関係を個別に表した目標関係論理式φｅを好適に生成することができる。

　なお、目標関係論理式生成部３３１は、線形時相論理に限らず、ＭＴＬ（Ｍｅｔｒｉｃ　Ｔｅｍｐｏｒａｌ　Ｌｏｇｉｃ）やＳＴＬ（Ｓｉｇｎａｌ　Ｔｅｍｐｏｒａｌ　Ｌｏｇｉｃ）などの任意の時相論理を用いて論理式を表現してもよい。

　例えば、ＳＴＬを用いる場合には、拘束スイッチ変数η_ｓとして、０または１の離散変数に代えて、連続変数を利用することも可能である。この場合、ある定数「ε」を用いて拘束のＯＮ及びＯＦＦを次のように表すことができる。
　　　　　　　ＯＮ　：η_ｓ≧ε
　　　　　　　ＯＦＦ：η_ｓ＜ε
　この表現を用いた場合、物体間関係情報Ｉｒにおいて関係が示されている物体ｏ_ｉと物体ｏ_ｊとの接合関係を表す目標関係論理式φｅは以下のように表すことができる。

　φｅ_{ｏｉ，ｏｊ}＝◇□（（η_{ｏｉ，ｏｊ}≧ε）∧（ｇ_{ｏｉ，ｏｊ}（Ｘ，ＲＰＡ_{ｏｉ，ｏｊ}）＝０））

　目標関係論理式統合部３３２は、目標関係論理式生成部３３１が生成した目標関係論理式φｅを統合することで、目標関係統合論理式φ１を生成する。この場合、目標関係論理式生成部３３１が２つの物体間において個別に生成した全ての目標関係論理式φｅを、論理積により結合した目標関係統合論理式φ１を生成する。

　図６（Ｂ）は、目標論理式生成部３３が実行する目標関係統合論理式φ１の生成処理の手順を示すフローチャートの一例である。

　目標関係論理式生成部３３１は、物体間関係情報Ｉｒにより関係が定義された任意の２つの物体間の関係を個別に表した目標関係論理式φｅを生成する（ステップＳ０１）。そして、目標関係論理式統合部３３２は、目標関係論理式生成部３３１が生成した目標関係論理式φｅを統合した目標関係統合論理式φ１を生成する（ステップＳ０２）。

　次に、一般目標論理式φ２の生成方法について説明する。目標論理式生成部３３は、一般制約条件情報Ｉ２に基づき、接合・解除以外の制約を含む一般目標論理式φ２を生成する。なお、一般制約条件情報Ｉ２は、目的タスクにおいて一般的に満たすべき制約に関する情報の他、ユーザが指定した任意の制約に関する情報を含んでもよい。

　一般制約条件情報Ｉ２に基づく制約の一例として、障害物回避のための制約がある。ここで、作業空間内に障害物が存在し、抽象空間として考慮している物体及びエンドエフェクタが障害物の領域内に入らないという制約が「Ａｏ（Ｘ）≧０」として表現されるとする。この場合、目標論理式生成部３３は、一般目標論理式φ２を、以下のように設定する。
　　φ２＝□（Ａｏ（Ｘ）≧０）　又は　φ２＝□￢（Ａｏ（Ｘ）＜０）

　（８）スキル利用設定部の詳細
　（８－１）スキル情報のデータ構造
　まず、スキル利用設定部３４が参照するスキルデータベースＩ４に含まれるスキル情報のデータ構造について説明する。

　スキル情報は、スキル識別ラベルと、スキル実行情報と、スキル制御指令情報とを含んでおり、詳細には以下の８個の要素を有する。
　　（ｗａｙ，χ_ｓ ^－，χ_ｓ ^＋，ｔ_ｓ，Ｊ_ｓ，ψ_ｓ，ｆ_ｓ，Γ_ｓ）

　ここで、スキル情報の各要素を表す各記号は以下のように定義される。
　　ｗａｙ：スキル識別ラベル
　　χ_ｓ ^－：スキルの実行可能状態集合
　　χ_ｓ ^＋：スキル実行後の状態集合
　　ｔ_ｓ：スキルの所要時間長
　　Ｊ_ｓ：スキルに設定するコスト
　　ψ_ｓ：スキルの実行に伴う抽象空間での動作指令
　　ｆ_ｓ：軌道生成関数
　　Γ_ｓ：軌道生成関数に基づく軌道を実現するための制御器

　スキルの実行可能状態集合χ_ｓ ^－、スキル実行後の状態集合χ_ｓ ^＋、スキルの所要時間長t_ｓ、コストＪ_ｓ、動作指令ψ_ｓはスキル実行情報に相当し、軌道生成関数ｆ_ｓ及び制御器Γ_ｓはスキル制御指令情報に相当する。ここで、スキルの実行可能状態集合χ_ｓ ^－及びスキル実行後の状態集合χ_ｓ ^＋は、作業空間における物体の実際のダイナミクスにおける状態「ｘ」だけではなく、作業空間における物体の実際のダイナミクスにおける拘束力λやロボット５に対する入力ｕ等を含めた集合としてもよい。即ち、スキルの実行可能状態集合χ_ｓ ^－及びスキル実行後の状態集合χ_ｓ ^＋は、スキルの実行可能条件と、スキルを実行した場合の事後条件とを示す情報に相当する。

　動作指令ψ_ｓは、スキルの実行可能状態集合χ_ｓ ^－からスキル実行後の状態集合χ_ｓ ^＋へ遷移する動作を記述した時相論理式であり、任意の形式の時相論理命題により表されてもよい。例えば、動作指令ψ_ｓは、状態空間と時間をグリッド分割し，それらのグリッドを利用してシステムのおおまかな動き方（軌道等）を指定する時相論理命題であるＧｒｉｄ　ＴＬＩ（Ｇｒｉｄ－Ｂａｓｅｄ　Ｔｅｍｐｏｒａｌ　Ｌｏｇｉｃ　Ｉｎｔｅｒｆａｃｅ）により表されてもよい。

　軌道生成関数ｆ_ｓ及び制御器Γ_ｓは、スキル制御指令情報に相当し、任意のスキル学習により事前に学習される。軌道生成関数ｆ_ｓと制御器Γ_ｓは夫々、以下のように表される。
　　ｘ（ｔ）＝ｆ_ｓ（ｔ，ｘ_０），　ｔ∈［０，t_ｓ］
　　ｕ＝Γ_ｓ（ｔ，x）

　ここで、「ｘ_０」は状態ｘの初期状態を表し、「ｕ」はシステム（主にロボット５）への実際の入力を表す。なお，軌道生成関数ｆ_ｓ及び制御器Γ_ｓはｆ_ｓ（ｔ，ｘ_０,α_１）、Γ_ｓ（ｔ，x,α_２）のようにパラメータα_１，α_２によってパラメトライズされる形でもよい．

　なお、このような軌道生成関数及び制御器の学習として、例えば、運動学習プリミティブ（ＤＭＰ：Ｄｙｎａｍｉｃ　Ｍｏｖｅｍｅｎｔ　Ｐｒｉｍｉｔｉｖｅ）などの手法が用いられる。ＤＭＰによれば、与えられたロボットの運動軌道の時系列データから、その運動を再現するような軌道生成関数及び軌道生成関数に基づく軌道を実現するための制御器を学習することが可能となる。

　ここで、コストＪ_ｓについて補足説明する。あるスキルを実行する際、抽象空間で表現される動作と実際のロボットにおいて実現される動作は異なる。例えば物体のねじ止めという動作は抽象空間では、単純にねじ止めする物体同士の相対距離を小さくして拘束スイッチ変数をＯＮの状態にする、という形でモデル化される。しかしながら、これを実際のロボットで行おうとすると物体の位置を操作した後にドライバーでねじを回転させる等の複雑な動作が必要となる。以上を勘案し、本実施形態では、実際のロボットにおいてそのスキルを実行するためにはどれぐらいの入力が必要であるかという情報を表すコストＪ_ｓが定義されている。これにより、抽象空間における動作計画であっても実際のロボットを動かす際に必要なエネルギー等を好適に考慮できるようになる。

　（８－２）スキル情報を利用した処理概要
　次に、スキル情報を用いたスキル利用設定部３４の処理の詳細について説明する。図７は、スキル利用設定部３４の機能的なブロック図を示す。図７に示すように、スキル利用設定部３４は、機能的には、スキル情報取得部３４１と、スキルタプル生成部３４２と、スキル利用動作指令生成部３４３と、スキル利用評価関数生成部３４４とを有する。また、図８は、スキル利用設定部３４が実行するフローチャートの一例である。ここで、スキル情報取得部３４１は、ステップＳ１１の処理を行い、スキルタプル生成部３４２は、ステップＳ１２の処理を行い、スキル利用動作指令生成部３４３は、ステップＳ１３の処理を行い、スキル利用評価関数生成部３４４は、ステップＳ１４の処理を行う。

　まず、スキル情報取得部３４１は、物体間関係情報Ｉｒにおいて定義されている拘束に関する情報を参照し、スキルデータベースＩ４から必要なスキル情報Ｉｓｎを取得する（ステップＳ１１）。具体的には、スキル情報取得部３４１は、物体間関係情報Ｉｒに含まれる「ｗａｙ」と同一のスキル識別ラベルとするスキル情報を、スキルデータベースＩ４からスキル情報Ｉｓｎとして抽出する。

　次に、スキルタプル生成部３４２は、スキル情報取得部３４１が取得したスキル情報ＩｓｎとシステムモデルＭｂとに基づき、スキルタプルを生成する（ステップＳ１２）。ここで、スキルタプルは、スキル情報Ｉｓｎと関連するシステムモデルＭｂの変数をまとめた組であり、具体的には、対応するスキルのＯＮ（有効）又はＯＦＦ（無効）を表すスキル入力「ｕ_ｓ」と拘束のＯＮ又はＯＦＦを表す拘束スイッチ変数「η_ｓ」の組を表す。従って、スキルタプル生成部３４２は、スキル情報Ｉｓｎ毎に、スキル入力ｕ_ｓ及び拘束スイッチ変数η_ｓの組を表すスキルタプルを生成する。なお、スキルタプルは、スキル入力ｕ_ｓ及び拘束スイッチ変数η_ｓに加えて、拘束力「λ_ｓ」を含んでもよい。このように、スキルタプル生成部３４２は、スキル情報Ｉｓｎを、システムモデルＭｂに対応するように再定義する。

　次に、スキル利用動作指令生成部３４３は、ステップＳ１２において生成されたスキルタプルの各々に対応する接合・解除動作を時相論理により表したスキル利用動作指令φ３を生成する（ステップＳ１３）。また、スキル利用評価関数生成部３４４は、ステップＳ１２において生成されたスキルタプルに対応する接合・解除動作を考慮したスキル利用評価関数Ｆ_ｓを生成する（ステップＳ１４）。なお、ステップＳ１３とステップＳ１４は順不同であり、同時に行われてもよく、ステップＳ１４が先に実行されてもよい。

　（８－３）スキル利用動作指令の詳細
　次に、ステップＳ１３において生成するスキル利用動作指令φ３について具体的に説明する。

　例えば、スキル利用動作指令生成部３４３は、抽象空間におけるスキル実行による接合動作に関し、スキル利用動作指令φ３として、以下の（Ａ）～（Ｃ）の動作を実現する時相論理指令を生成する。

　　（Ａ）スキル実行可能集合χ_ｓ ^－において、スキル入力をＯＦＦからＯＮの値に変更
　　（Ｂ）スキルに定義された動作指令ψ_ｓ及び所要時間長t_ｓに沿って、抽象空間における状態をスキル実行後の状態集合χ_ｓ ^＋へ移動
　　（Ｃ）状態がスキル実行後の状態集合χ_ｓ ^＋に到達した場合、実行したスキルに対応する拘束スイッチ変数η_ｓをＯＦＦからＯＮの値へ変更．かつ，スキル入力ｕ_ｓはスキル入力をＯＮにした時刻ステップの次の時刻ステップにおいてＯＮからＯＦＦの値へ変更する。

　また、スキル利用動作指令生成部３４３は、抽象空間におけるスキル実行による接合解除動作に関し、スキル利用動作指令φ３として、例えば以下の（Ｄ）～（Ｆ）の動作を実現する時相論理指令を生成する。

　　（Ｄ）スキル実行可能集合χ_ｓ ^－内でスキル入力ｕ_ｓをＯＦＦからＯＮの値へ変更
　　（Ｅ）スキルに定義された動作指令ψ_ｓ及び所要時間長t_ｓに沿って状態をスキル実行後の状態集合χ_ｓ ^＋へ移動
　　（Ｆ）状態がスキル実行後状態集合χ_ｓ ^＋に到達した場合、実行したスキルに対応する拘束スイッチ変数η_ｓをＯＮからＯＦＦの値へ変更、かつ，スキル入力ｕ_ｓはスキル入力をONにした時刻ステップの次の時刻ステップにおいてＯＮからＯＦＦの値へ変更する。

　ここで、スキル利用動作指令φ３の論理命題の具体例である第１論理命題例と第２論理命題例について順に説明する。以後では、代表例として、ＬＴＬを利用する場合における（Ａ）～（Ｃ）の接合動作について夫々説明する。

　まず、第１論理命題例について説明する。第１論理命題例では、動作（Ａ）に相当する動作指令「φ_３１」は、ＯＮを「１」、ＯＦＦを「０」により表すスキル入力「ｕ_ｓ，ｏｎ」を用いて、以下の式（１）により表される。

　また、動作（Ｂ）に関する動作指令「φ_３２」は、以下の式（２）により表される。

　式（２）において、動作指令φ_ｓは、スキルの実行可能状態集合χ_ｓ ^－からスキル実行後の状態集合χ_ｓ ^＋へ遷移する動作を記述した時相論理式であり、例えば、Ｇｒｉｄ　ＴＬＩなどにより、ステップ「ｋ」からステップ「ｋ＋ｎ_ｓ」までの動き方を指定する論理式である。ただし、「ｎ_ｓ」は、スキルに定義された所要時間長ｔｓを離散化した場合に対応するステップ数を表す。

　また、動作（Ｃ）に関する動作指令「φ_３３」は、以下の式（３）により表される。

　なお、式（３）では、スキル入力ｕ_ｓ，ｏｎと拘束スイッチ変数η_ｓの時間的な関係を論理命題として表している。なお、動作指令φ_３３を等式制約として与える例については、第２論理命題例として後述する。

　そして、第１論理命題例では、スキル利用動作指令生成部３４３は、動作（Ａ）～（Ｃ）に対応する動作指令φ_３１～φ_３3を論理積により統合したスキル利用動作指令φ３を設定する。この場合、スキル利用動作指令φ３は、以下のように表される。
　　φ_３＝φ_３１∧φ_３２∧φ_３３

　なお、接合解除における動作（Ｄ）～（Ｆ）についても、式（１）～（３）と同等の論理式により表すことができる。

　次に、第２論理命題例について説明する。第２論理命題例は、接合および解除動作における動作（Ｃ）に関し、スキル入力ｕ_ｓと拘束スイッチ変数η_ｓの時間的な関係を、等式制約を用いて表す。例えば、スキル利用動作指令生成部３４３は、以下の式（４）に示される等式制約を設定する。

　ここで、スキル入力「ｕ_{ｓ，ｏｆｆ}」は、ＯＦＦの場合に「０」、ＯＮの場合に「１」となる。式（４）は、スキル入力の値によって拘束スイッチ変数がどのように変化するかを表す離散時間ダイナミクスを表している。

　式（４）に示される等式制約を用いることで、動作（Ｃ）の論理式（第１論理命題例では式（３））は等式制約に置き換えることができる。よって、スキル利用動作指令生成部３４３は、第２論理命題例では、スキル利用動作指令φ３として、動作（Ａ）に相当する式（１）及び動作（Ｂ）に相当する式（２）を統合した時相論理指令を生成する。この場合、スキル利用動作指令φ３は、以下のように設定される。
　　φ_３＝φ_３１∧φ_３２

　そして、この場合、式（４）に相当する等式制約は、最適化処理部３５が解く最適化問題における制約条件として考慮される。

　（８－４）スキル利用評価関数の詳細
　次に、スキル利用評価関数生成部３４４によるスキル利用評価関数Ｆ_ｓの生成について具体的に説明する。スキル利用評価関数生成部３４４は、生成したスキルタプルに対応するスキル情報Ｉｓｎに含まれるコストＪ_ｓを反映したスキル利用評価関数Ｆ_ｓを設定する。ここで、スキル利用評価関数Ｆ_ｓは、例えば、生成されたスキルタプルに対応するコストＪ_ｓとスキル入力ｕ_ｓを引数とする関数である。スキル利用評価関数Ｆ_ｓの具体的な形状については、目的タスクに応じて予め設定される。

　スキル利用評価関数Ｆ_ｓを用いて、動作計画内において利用する評価関数「Ｊ」は、例えば、以下の式（５）により表される。

　ここで、「ｋ」はタイムステップ（時刻）を表し、「Ｎ」は、目的タスク全体の所要時間長に相当するタイムステップ数を表す。また、「Ｌ（Ｘ［ｋ］，Ｕ［ｋ］）」は、抽象空間の状態Ｘ及び入力Ｕを引数とし、接合・解除動作以外を評価する評価関数である。評価関数Ｌは、任意の動作計画において用いられる評価関数であってもよい。例えば、評価関数Ｌは、ロボット５の制御入力を最小化（即ちロボット５が費やすエネルギーを最小化）又は／及び実行時間長を最小化する評価関数である。

　ロボットコントローラ１は、このようなスキル利用評価関数Ｆ_ｓを含む評価関数Ｊを用いることにより、スキルの実行回数を減らし、かつ、効率の良い動作を計画することが可能となる。また、評価関数Ｊは、スキル利用評価関数Ｆ_ｓに加えて接合・解除動作以外を評価する評価関数Ｌも含むことから、ロボットコントローラ１は、抽象空間における入力の最小化等を考慮した目的タスクの全体の最適化を行うこともできる。

　（９）最適化処理部の詳細
　最適化処理部３５は、システムモデルＭｂ、目標関係統合論理式φ１及び一般目標論理式φ２、スキル利用評価関数Ｆ_ｓ及びスキル利用動作指令φ３を用いて、評価関数Ｊを最小化する軌道計画問題である最適化問題を構成する。そして、最適化処理部３５は、構成した最適化問題を解くことによって最適な目標軌道を表す変数列Ｚを算出する。この場合、最適化処理部３５は、以下の式（６）に示す最適化問題を構成する。

　式（６）において、変数列Ｚは、抽象空間の状態列Ｘ［ｋ］・スキル入力列Ｕ_ｓ［ｋ］、拘束スイッチ変数列η［ｋ］等の最適化に必要な変数を全てまとめたベクトルを表す。ここで、「Ｇ（Ｚ）」は、目標関係統合論理式φ１、一般目標論理式φ２、スキル利用動作指令φ３、システムモデルＭｂを制約条件としてまとめたベクトルを表す。

　ここで、線形論理式又はＳＴＬを用いて目標関係統合論理式φ１、一般目標論理式φ２、スキル利用動作指令φ３などの時相論理式を表した場合、最適化処理部３５は、これらの時相論理式を制約条件に変換して利用することができる。具体的には、最適化処理部３５は、この場合、任意の等式・不等式制約条件への変換アルゴリズムを用いてこれらの時相論理式を等式・不等式制約条件に変換し、変換した等式・不等式制約条件をＧ（Ｚ）の要素として取り扱う。

　一方、目標関係統合論理式φ１、一般目標論理式φ２、スキル利用動作指令φ３などの時相論理式をＭＴＬやＳＴＬにより表した場合、最適化処理部３５は、これらの時相論理式を、評価関数Ｊ（Ｚ）に組み込むことも可能である。なお、どの種類の時相論理を用いるか（及びＧ（Ｚ）の要素とするか評価関数Ｊ（Ｚ）に組み込むか）については、例えば、設定された目的タスクに応じて決定される。

　そして、最適化処理部３５は、式（６）に示される最適化問題を解くことで、目標軌道における変数列Ｚを算出する。

　（１０）制御指令生成部の詳細
　制御指令生成部３６は、最適化処理部３５が算出した変数列Ｚから、抽象空間の状態軌道を表す状態列Ｘ［ｋ］及び時系列のスキル入力を表すスキル入力列Ｕ_ｓ［ｋ］を抽出する。そして、制御指令生成部３６は、状態列Ｘ［ｋ］と、スキル入力列Ｕ_ｓ［ｋ］と、スキル情報Ｉｓｎとに基づき、実際のロボットシステムにおいてスケジューリングされた制御器に相当する制御指令Ｓ１を生成する。

　図９は、制御指令生成部３６の機能的な構成を表す機能ブロック図の一例である。図９に示すように、制御指令生成部３６は、機能的には、状態列分解部３６１と、制御器構成部３６２と、制御指令統合部３６３とを有する。また、図１０は、制御指令生成部３６が実行するフローチャートの一例である。ここで、状態列分解部３６１は、ステップＳ２１の処理を行い、制御器構成部３６２は、ステップＳ２２の処理を行い、制御指令統合部３６３は、ステップＳ２３の処理を行う。

　まず、状態列分解部３６１は、スキル入力列Ｕ_ｓ［ｋ］に基づき、状態列Ｘ［ｋ］を分解する（ステップＳ２１）。この場合、状態列分解部３６１は、スキル入力列Ｕ_ｓ［ｋ］から各時刻（タイムステップ）でどのスキルを利用しているかを判断し、状態列Ｘ［ｋ］を、実行される各スキルに対応する状態列（「状態部分列」とも呼ぶ。）に分解する。

　次に、制御器構成部３６２は、対応するスキル毎に状態列Ｘ［ｋ］を分解した状態部分列の各々に対して制御器を構成する（ステップＳ２２）。この場合、制御器構成部３６２は、スキル情報Ｉｓｎに含まれる制御器Γ_ｓを用い、サブ状態列の各々に対する制御器を構成する。そして、制御指令統合部３６３は、ステップＳ２２で構成した制御器を統合し、目的タスクに対してスケジューリングされた全体の制御指令Ｓ１を生成する（ステップＳ２３）。

　まず、状態列分解部３６１の処理の具体例について説明する。ここでは、一例として、各スキル入力列Ｕ_ｓ［ｋ］のＯＮ及びＯＦＦに基づくインデックス列を利用する方法について説明する。

　図１１は、実行するスキルが２個（第１スキル、第２スキル）である場合のタイムステップ「ｋ」と、第１スキルのスキル入力列「Ｕ_ｓ１［ｋ］」と、第２スキルのスキル入力列「Ｕ_ｓ２［ｋ］」と、サブ状態列の識別に用いるインデックス「Ｉｄｘ」との時系列の関係を示す。ただし、ここではそれぞれのスキルの所要時間ステップ数ｎ_ｓは３ステップであると仮定する。

　この場合、まず、状態列分解部３６１は、スキル入力列Ｕ_ｓ１［ｋ］、Ｕ_ｓ２［ｋ］およびスキルの所要時間ステップ数ｎ_ｓの情報を用いてインデックス列Ｉｄｘ［ｋ］を生成する。インデックス列Ｉｄｘ［ｋ］は、ｋ（ここでは０～９）ステップ目にどのスキルを利用しているかを示すインデックス列となる。ここでは、状態列分解部３６１は、スキル入力列Ｕ_ｓ１［ｋ］がＯＮとなり、以後スキルを実行しているタイムステップ（ｋ＝１～３）に対応するインデックス列Ｉｄｘ［ｋ］を「１」とし、スキル入力列Ｕ_ｓ２［ｋ］がＯＮとなり，以後スキルを実行しているタイムステップ（ｋ＝７～９）に対応するインデックス列Ｉｄｘ［ｋ］を「２」とする。また、状態列分解部３６１は、スキル実行に関連しないタイムステップでのインデックス列Ｉｄｘ［ｋ］を「０」としている。

　そして、状態列分解部３６１は、得られたインデックス列Ｉｄｘ［ｋ］から状態列Ｘ［ｋ］を分解する。具体的には、状態列分解部３６１は、インデックス列Ｉｄｘ［ｋ］の変化に基づいて状態列Ｘ［ｋ］の各まとまりを特定する。この場合、状態列分解部３６１は、目的タスクの開始時刻又は直前に特定したまとまりの終了時刻から次にインデックスが変化する時刻までを１つのまとまりとしてまとまりを順次特定する。そして、状態列分解部３６１は、特定した各まとまりを状態部分列として抽出する。また、状態列分解部３６１は、各状態部分列には、インデックス変化の情報を付加する。

　例えば、図９の例では、インデックス列Ｉｄｘ［ｋ］の変化に基づいて、４つの状態部分列（第１部分列～第４部分列）を生成する。
　　第１部分列（Ｉｄｘ＝０→１）：｛Ｘ［０］，Ｘ［１］｝
　　第２部分列（Ｉｄｘ＝１→０）：｛Ｘ［１］，Ｘ［２］，Ｘ［３］，Ｘ［４］｝
　　第３部分列（Ｉｄｘ＝０→２）：｛Ｘ［４］，Ｘ［５］，Ｘ［６］，Ｘ［７］｝
　　第４部分列（Ｉｄｘ＝２）：｛Ｘ［７］，Ｘ［８］，Ｘ［９］｝

　このように、状態列分解部３６１は、スキル入力列Ｕ_ｓ［ｋ］に基づき、スキルの実行タイミングに応じて状態列Ｘ［ｋ］を分解することができる。

　次に、制御器構成部３６２の処理の詳細について引き続き説明する。制御器構成部３６２は、状態列分解部３６１が生成した状態部分列の各々に対して制御器を構成する。

　ここで、制御器構成部３６２は、インデックスＩｄｘが０から変化する（即ちスキルを利用していない状態に対応する）状態部分列については、状態部分列の情報に基づき、実際のシステムのための滑らかな目標軌道を生成し、生成された目標軌道に追従するための制御器を構成する。この場合の目標軌道の生成及び制御器の構成は、任意のロボット制御において用いられている方法に基づき行われてもよい。なお、図１１に示す具体例では、制御器構成部３６２は、第１部分列と第３部分列に対して上述した目標軌道の生成及び制御器の構成を行う。

　一方、制御器構成部３６２は、インデックスＩｄｘが０以外から変化（即ちスキルの利用状態に対応）する状態部分列については、対応するスキル情報から抽出した制御器Γ_ｓ（「（８－１）スキル情報のデータ構造」のセクションを参照）を用いる。そして、制御器構成部３６２は、この制御器Γ_ｓに対して設定する初期値・終端値のパラメータを、対象の状態部分列の最初の状態と最後の状態を用いて設定する。図１１に示す具体例では、制御器構成部３６２は、第２部分列と第４部分列に対してスキル情報を利用した制御器の構成を行う。

　このように、制御器構成部３６２は、任意の状態部分列に対する制御器を好適に構成することができる。

　次に、制御指令統合部３６３の処理の詳細について説明する。制御指令統合部３６３は、制御器構成部３６２が状態部分列毎に生成した制御器から、スケジューリングされた全体の制御指令Ｓ１を生成する。図９の例では、制御指令統合部３６３は、第１部分列～第４部分列に夫々対応する以下の第１制御ステップ～第４制御ステップを含む制御指令Ｓ１を生成する。

　第１制御ステップは、生成された目標軌道(即ちＸ［０］からＸ［１］に至る軌道)に対する追従制御器を利用する制御ステップである。この場合、第１制御ステップは、目標状態Ｘ［１］を設定し、当該目標状態に到達することを第２制御ステップへの遷移条件（即ち第１制御ステップの終了条件）とする。そして、計測信号Ｓ２による状態認識結果等に基づき第２制御ステップへの遷移条件が満たされたと判定された場合、第１制御ステップから第２制御ステップへ遷移する。

　第２制御ステップは、第１スキルに対応するスキル情報に含まれる制御器を利用する制御ステップである。第２制御ステップは、目標状態Ｘ［４］を設定し、当該目標状態に到達することを第３制御ステップへの遷移条件（即ち第２制御ステップの終了条件）とする。そして、第３制御ステップへの遷移条件が満たされた場合、第２制御ステップから第３制御ステップへ遷移する。

　第３制御ステップは、生成された目標軌道(即ちＸ［４］からＸ［７］に至る軌道)に対する追従制御器を利用する制御ステップである。この場合、第３制御ステップは、目標状態Ｘ［７］を設定し、当該目標状態に到達することを第４制御ステップへの遷移条件（即ち第３制御ステップの終了条件）とする。そして、第４制御ステップへの遷移条件が満たされた場合、第３制御ステップから第４制御ステップへ遷移する。

　第４制御ステップは、第２スキルに対応するスキル情報に含まれる制御器を利用する制御ステップである。第４制御ステップは、目標状態Ｘ［９］を設定し、当該目標状態に到達することを第４制御ステップの終了条件とする。そして、計測信号Ｓ２等に基づき第２制御ステップへの遷移条件が満たされた場合、第４制御ステップが終了する。

　このように、制御指令生成部３６は、最適化処理部３５が変数列Ｚから抽出した抽象空間の状態軌道を表す状態列Ｘ［ｋ］及び時系列のスキル入力を表すスキル入力列Ｕ_ｓ［ｋ］及びスキル情報Ｉｓｎから、制御指令Ｓ１を好適に生成することができる。

　（１１）全体処理フロー
　図１２は、ロボットコントローラ１が実行するロボット５の動作計画に関する処理手順を示すフローチャートの一例である。

　まず、ロボットコントローラ１の抽象状態設定部３１は、記憶装置４に記憶された操作対象物情報Ｉ３から物体間関係情報Ｉｒを抽出する（ステップＳ３１）。そして、抽象状態設定部３１は、ロボット５のエンドエフェクタ、操作対象物、環境物体を含む作業空間内の各物体の抽象状態を設定する（ステップＳ３２）。

　そして、ダイナミクス・拘束力設定部３２は、ステップＳ３１で抽出された物体間関係情報Ｉｒに基づき、物体間の拘束を考慮した抽象システムダイナミクスであるシステムモデルＭｂを設定する（ステップＳ３３）。そして、目標論理式生成部３３は、物体間関係情報Ｉｒに基づき、図６（Ｂ）に示すフローチャートを実行することで、接合・解除に関する最終状態を表す目標関係統合論理式φ１を生成する（ステップＳ３４）。また、目標論理式生成部３３は、一般制約条件情報Ｉ２に基づき、接合・解除以外に満たすべき状態（例えば障害物回避等の制約条件）を表す一般目標論理式φ２を生成する（ステップＳ３５）。

　次に、スキル利用設定部３４は、スキルデータベースＩ４からスキル情報Ｉｓｎを抽出し、スキル利用動作指令φ３を生成する（ステップＳ３６）。また、スキル利用設定部３４は、スキル情報Ｉｓｎに基づき、スキル利用評価関数Ｆ_ｓを生成する（ステップＳ３７）。具体的には、スキル利用設定部３４は、ステップＳ３６及びステップＳ３７において、図８に示すフローチャートを実行することで、スキル利用動作指令φ３及びスキル利用評価関数Ｆ_ｓを生成する。

　次に、最適化処理部３５は、ステップＳ３３～ステップＳ３７の処理結果に基づき最適化問題を構成し、これを解くことによって抽象空間における目標軌道を算出する（ステップＳ３８）。この場合、最適化処理部３５は、式（６）に示される最適化問題を構成する。そして、最適化処理部３５は、算出した目標軌道を示す変数列Ｚから、状態列Ｘ［ｋ］及びスキル入力列Ｕ_ｓ［ｋ］を抽出する。

　次に、制御指令生成部３６は、ステップＳ３８で算出された目標軌道に基づき、制御指令Ｓ１を生成する（ステップＳ３９）。この場合、例えば、図１０に示すフローチャートに従い、制御指令生成部３６は、状態列Ｘ［ｋ］と、時系列のスキル入力を表すスキル入力列Ｕ_ｓ［ｋ］と、スキル情報Ｉｓｎとに基づき、実際のロボットシステムにおける制御指令Ｓ１を生成する。

　（１２）技術的効果
　次に、第１実施形態におけるロボット制御システム１００に基づく技術的効果について補足説明する。

　部品の組み立て等の複数物体の接合（接触を含む）を伴うような複雑なタスクにロボットを導入する場合、タスク分解し作業工程を作成する工程設計と、作業工程から実際の動作計画を生成する動作設計のシステムインテグレーションがボトルネックとなっている。例えば、物体同士の接合を伴うロボットの動作計画を行う際に必要となる物体の弾性や嵌め合いを考慮したモデリングは困難である。また、そのような接合等を考慮した物体のモデルが得られたとしても，そうしたモデルはしばしば複雑な性質（非線形性・ハイブリッド性）を有するため，動作計画に利用しにくい。また、与えられたタスクが複数のサブタスクによって構成されており、それらの実行順序が陽に与えられていない場合，各サブタスクを実行するための動作計画とサブタスクの順序自体の両方を計算しなければならない。特に，上記のような接合等を考慮した複雑なモデルを利用してロボットの動作計画を策定する場合には，実用的な時間長により動作計画を策定することができない可能性がある。このように、動作計画に用いるモデル・アルゴリズムの構造を如何に簡便なものにできるかが実用化における重要な課題となる。

　以上を勘案し、第１実施形態に係るロボットコントローラ１は、物体同士の接合等を考慮した計算コストの低い動作計画手法を実行する。このとき、ロボットコントローラ１は、抽象空間において時相論理とスキルを利用することで、抽象的な物体の接合表現を行い、接合等を伴う動作を含むマルチステージタスクにおいても計算コストを抑えた計画を行う。そして、ロボットコントローラ１は、抽象空間での動作計画結果およびスキル情報を用い、実際のシステムにおける制御指令Ｓ１を好適に算出する。

　例えば、物体のピック＆プレイスでは、一般に、マニピュレータのエンドエフェクタ形状と把持対象パーツの幾何形状から動作計画にはマニピュレータの把持位置・姿勢および把持対象物体の物体特性を考慮した厳密な計算が必要となる。これに対し、第１実施形態によれば、抽象空間において「把持可能領域におけるスキル実行」によって把持対象物体の把持を実現できるとし、この表現を用いて動作計画を策定する。このように、第１実施形態では、物体の接合等に関する動作をモジュール化したスキルを抽象空間において表現することで、動作計画問題を簡易化することができる。

　＜第２実施形態＞
　図１３は、第２実施形態における時相論理式生成装置１Ｘの概略構成図を示す。時相論理式生成装置１Ｘは、主に、目標関係論理式生成手段３３１Ｘと、目標関係論理式統合手段３３２Ｘとを有する。なお、時相論理式生成装置１Ｘは、複数の装置から構成されてもよい。時相論理式生成装置１Ｘは、例えば、第１実施形態におけるロボットコントローラ１とすることができる。

　目標関係論理式生成手段３３１Ｘは、ロボットの作業に関する目標状態における物体間の関係を表す物体間関係情報に基づき、関係が規定された物体の組の各々について目標状態における関係を表す時相論理式である目標関係論理式を生成する。目標関係論理式生成手段３３１Ｘは、例えば、第１実施形態における目標関係論理式生成部３３１とすることができる。

　目標関係論理式統合手段３３２Ｘは、目標関係論理式を統合した時相論理式を生成する。目標関係論理式統合手段３３２Ｘは、例えば、第１実施形態における目標関係論理式統合部３３２とすることができる。

　目標関係論理式統合手段３３２Ｘの処理後、例えば、時相論理式生成装置１Ｘ又は統合された目標関係論理式が時相論理式生成装置１Ｘから供給された他の装置は、統合された目標関係論理式を、最適化処理に用いる制約条件又は評価関数に反映する。そして、制約条件と評価関数を用いた最適化によりロボットに関する目標軌道を算出し、さらに、当該目標軌道に基づき、ロボットに対する制御指令を生成する。この場合、例えば、第１実施形態のようにスキルデータベースＩ４から抽出したスキル情報Ｉｓｎによりスキルを抽象空間において表現することで、物体間の接合・解除動作を実現してもよい。他の例では、スキルを用いることなく、拘束スイッチ変数ηのＯＮ及びＯＦＦの切り替えにより、物体間の接合・解除動作を表現してもよい。また、時相論理式生成装置１Ｘが生成する時相論理式は、ロボットの作業のみを規定するものに限られず、人手の作業に関する内容を含んでいてもよい。

　図１４は、第２実施形態におけるフローチャートの一例である。目標関係論理式生成手段３３１Ｘは、ロボットの作業に関する目標状態における物体間の関係を表す物体間関係情報に基づき、関係が規定された物体の組の各々について目標状態における関係を表す時相論理式である目標関係論理式を生成する（ステップＳ４１）。目標関係論理式統合手段３３２Ｘは、目標関係論理式を統合した時相論理式を生成する（ステップＳ４２）。

　第２実施形態によれば、時相論理式生成装置１Ｘは、ロボットの作業に関する目標状態における物体間の関係を表す時相論理式を好適に生成することができる。そして、時相論理式生成装置１Ｘが生成した時相論理式は、ロボットの動作計画に好適に用いられる。

　＜第３実施形態＞
　図１５は、第３実施形態における動作指令生成装置１Ｙの概略構成図を示す。動作指令生成装置１Ｙは、主に、スキル情報取得手段３４１Ｙと、スキルタプル生成手段３４２Ｙと、スキル利用動作指令生成手段３４３Ｙとを有する。なお、動作指令生成装置１Ｙは、複数の装置から構成されてもよい。動作指令生成装置１Ｙは、例えば、第１実施形態におけるロボットコントローラ１とすることができる。

　スキル情報取得手段３４１Ｙは、ロボットの動作計画に用いるスキルに関するスキル情報を取得する。スキル情報取得手段３４１Ｙは、例えば、第１実施形態におけるスキル情報取得部３４１とすることができる。

　スキルタプル生成手段３４２Ｙは、スキル情報に基づき、動作計画において設定したシステムモデルにおいてスキルと関連する変数の組であるスキルタプルを生成する。上記のシステムモデルは、例えば、第１実施形態におけるシステムモデルＭｂとすることができる。また、スキルタプル生成手段３４２Ｙは、例えば、第１実施形態におけるスキルタプル生成部３４２とすることができる。

　スキル利用動作指令生成手段３４３Ｙは、スキルタプルに対応する動作を表す時相論理指令であるスキル利用動作指令を生成する。スキル利用動作指令生成手段３４３Ｙは、例えば、第１実施形態におけるスキル利用動作指令生成部３４３とすることができる。

　図１６は、第３実施形態におけるフローチャートの一例である。スキル情報取得手段３４１Ｙは、ロボットの動作計画に用いるスキルに関するスキル情報を取得する（ステップＳ５１）。スキルタプル生成手段３４２Ｙは、スキル情報に基づき、動作計画において設定したシステムモデルにおいてスキルと関連する変数の組であるスキルタプルを生成する（ステップＳ５２）。スキル利用動作指令生成手段３４３Ｙは、スキルタプルに対応する動作を表す時相論理指令であるスキル利用動作指令を生成する（ステップＳ５３）。

　第３実施形態によれば、動作指令生成装置１Ｙは、物体間の接合等の複雑な動作を要するタスクにおいても、スキル表現を用いた動作計画のための動作指令を好適に生成することができる。

　なお、上述した各実施形態において、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体（Non-Transitory Computer Readable Medium）を用いて格納され、コンピュータであるプロセッサ等に供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記憶媒体（Tangible Storage Medium）を含む。非一時的なコンピュータ可読媒体の例は、磁気記憶媒体（例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記憶媒体（例えば光磁気ディスク）、ＣＤ－ＲＯＭ（Read Only Memory）、ＣＤ－Ｒ、ＣＤ－Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（Programmable ROM）、ＥＰＲＯＭ（Erasable PROM）、フラッシュＲＯＭ、ＲＡＭ（Random Access Memory））を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（Transitory Computer Readable Medium）によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。

　その他、上記の各実施形態の一部又は全部は、以下の付記のようにも記載され得るが以下には限られない。

　以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。すなわち、本願発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。また、引用した上記の特許文献等の各開示は、本書に引用をもって繰り込むものとする。

　１　ロボットコントローラ
　１Ｘ　時相論理式生成装置
　１Ｙ　動作指令生成装置
　４　記憶装置
　５　ロボット
　７　計測装置
　４１　アプリケーション情報記憶部
　１００　ロボット制御システム

Claims

　ロボットの作業に関する目標状態における物体間の関係を表す物体間関係情報に基づき、前記関係が規定された物体の組の各々について前記目標状態における関係を表す時相論理式である目標関係論理式を生成する目標関係論理式生成手段と、
　前記目標関係論理式を統合した時相論理式を生成する目標関係論理式統合手段と、
を有する時相論理式生成装置。
　前記物体間関係情報は、前記目標状態における物体間の接触、接合、又はこれらの解除に関する関係を表し、
　前記目標関係論理式生成手段は、前記目標状態における接触、接合、又はこれらの解除に関する前記関係を表す時相論理式を、前記目標関係論理式として生成する、請求項１に記載の時相論理式生成装置。
　前記目標関係論理式生成手段は、前記組を構成する物体間の拘束の有無を表す論理式を含む前記目標関係論理式を生成する、請求項１または２に記載の時相論理式生成装置。
　前記物体間関係情報は、前記目標状態における物体間の相対位置関係に関する情報を含み、
　前記目標関係論理式生成手段は、前記相対位置関係を満たす拘束式を表す論理式を含む前記目標関係論理式を生成する、請求項１～３のいずれか一項に記載の時相論理式生成装置。
　作業空間に存在する物体の抽象状態を設定する抽象状態設定手段をさらに有し、
　前記目標関係論理式生成手段は、前記抽象状態における拘束式を表す論理式を含む前記目標関係論理式を生成する、請求項１～４のいずれか一項に記載の時相論理式生成装置。
　前記ロボットの作業に関する制約条件及び評価関数を用いた最適化により前記ロボットの動作計画を決定する最適化処理手段をさらに有し、
　前記目標関係論理式を統合した時相論理式は、前記制約条件又は前記評価関数の生成に用いられる、請求項１～５のいずれか一項に記載の時相論理式生成装置。
　前記動作計画として前記最適化処理手段が生成した前記ロボットの目標軌道に基づき、前記ロボットに対する制御指令を生成する制御指令生成手段をさらに有する、請求項６に記載の時相論理式生成装置。
　コンピュータが、
　ロボットの作業に関する目標状態における物体間の関係を表す物体間関係情報に基づき、前記関係が規定された物体の組の各々について前記目標状態における関係を表す時相論理式である目標関係論理式を生成し、
　前記目標関係論理式を統合した時相論理式を生成する、
時相論理式生成方法。
　ロボットの作業に関する目標状態における物体間の関係を表す物体間関係情報に基づき、前記関係が規定された物体の組の各々について前記目標状態における関係を表す時相論理式である目標関係論理式を生成し、
　前記目標関係論理式を統合した時相論理式を生成する処理をコンピュータに実行させるプログラムが格納された記憶媒体。