WO2022180785A1

WO2022180785A1 - 学習装置、学習方法及び記憶媒体

Info

Publication number: WO2022180785A1
Application number: PCT/JP2021/007341
Authority: WO
Inventors: 凜高野; 博之大山
Original assignee: 日本電気株式会社
Priority date: 2021-02-26
Filing date: 2021-02-26
Publication date: 2022-09-01
Also published as: JPWO2022180785A1; EP4300224A1; US20240123614A1; EP4300224A4

Abstract

学習装置１Ｘは、主に、最適化問題計算手段５１Ｘと、実行可能状態集合学習手段５２Ｘとを有する。最適化問題計算手段５１Ｘは、ロボットが作業を行うシステムに関する抽象システムモデル及び詳細システムモデル、ロボットに関する制御器、並びにロボットの動作に関する目標パラメータに基づき、目標状態に対する可到達性を評価する評価関数を用いた最適化問題における解となる関数値を計算する。実行可能状態集合学習手段５２Ｘは、関数値に基づき、制御器によって実行されるロボットの動作の実行可能状態集合を学習する。

Description

学習装置、学習方法及び記憶媒体

　本開示は、ロボットの動作に関する学習を行う学習装置、学習方法及び記憶媒体の技術分野に関する。

　タスクを実行するために必要なロボットの制御を行う場合に、ロボットの動作をモジュール化したスキルを設けてロボット制御を行うシステムが提案されている。例えば、特許文献１には、多関節ロボットが所与のタスクを実行するシステムにおいて、タスクに応じて選択可能なロボットスキルがタプルとして定義されており、タプルに含まれるパラメータを学習により更新する技術が開示されている。また、非特許文献１には、ベイズ最適化の考え方に基づくガウス過程回帰を用いた推定法であるレベルセット推定法（ＬＳＥ：Ｌｅｖｅｌ　Ｓｅｔ　Ｅｓｔｉｍａｔｉｏｎ）が開示されている。また、非特許文献２には、レベルセット関数を推定する別の手法であるｔｒｕｎｃａｔｅｄ　ｖａｒｉａｎｃｅ　ｒｅｄｕｃｔｉｏｎ（ＴＲＵＶＡＲ）が開示されている。

国際公開ＷＯ２０１８／２１９９４３

A. Gotovos, N. Casati, G. Hitz, and A. Krause, "Active learning for level set estimation," in Int. Joint. Conf. Art. Intel., 2013. Ilija Bogunovic, Jonathan Scarlett, Andreas Krause, and Volkan Cevher. Truncated variance reduction: A unified approach to Bayesian optimization and level-set estimation. In Advances in Neural Information Processing Systems (NIPS), pages 1507-1515, 2016.

　ロボット動作をスキルとしてモジュール化し、それらを用いたロボットの動作計画を行う場合には、予めスキルを獲得しておきデータベースとして保持しておく必要がある。この場合、システムがどのような状態のときにそのスキルを実行できるかという情報が得られていることが必要である。

　本開示の目的の１つは、上述した課題を鑑み、ロボット動作の実行可能状態に関する学習を好適に実行可能な学習装置、学習方法及び記憶媒体を提供することである。

　学習装置の一の態様は、
　ロボットが作業を行うシステムに関する抽象システムモデル及び詳細システムモデル、前記ロボットに関する制御器、並びに前記ロボットの動作に関する目標パラメータに基づき、目標状態に対する可到達性を評価する評価関数を用いた最適化問題を設定し、当該最適化問題における解となる前記評価関数の関数値を計算する最適化問題計算手段と、
　前記関数値に基づき、前記制御器によって実行される前記ロボットの動作の実行可能状態集合を学習する実行可能状態集合学習手段と、
を有する学習装置である。

　学習方法の一の態様は、
　コンピュータが、
　ロボットが作業を行うシステムに関する抽象システムモデル及び詳細システムモデル、前記ロボットに関する制御器、並びに前記ロボットの動作に関する目標パラメータに基づき、目標状態に対する可到達性を評価する評価関数を用いた最適化問題を設定し、
　当該最適化問題における解となる前記評価関数の関数値を計算し、
　前記関数値に基づき、前記制御器によって実行される前記ロボットの動作の実行可能状態集合を学習する、
学習方法である。

　また、学習方法の一の態様は、
　コンピュータが、
　制御パラメータに従い動作するロボットによって状態が変化するシステムについて、第１状態から第２状態に至るまでの前記制御パラメータを、複数の前記状態と前記制御パラメータとの関係性を表す第１モデルを用いて決定し、
　前記システムのある所望状態に対して到達可能な初期状態を評価する第２モデルを、前記第１状態と、決定した前記制御パラメータとに基づき決定する
　学習方法である。

　記憶媒体の一の態様は、
　ロボットが作業を行うシステムに関する抽象システムモデル及び詳細システムモデル、前記ロボットに関する制御器、並びに前記ロボットの動作に関する目標パラメータに基づき、目標状態に対する可到達性を評価する評価関数を用いた最適化問題を設定し、
　当該最適化問題における解となる前記評価関数の関数値を計算し、
　前記関数値に基づき、前記制御器によって実行される前記ロボットの動作の実行可能状態集合を学習する処理をコンピュータに実行させるプログラムが格納された記憶媒体である。

　ロボット動作の実行可能状態に関する学習を好適に実行することができる。

第１実施形態におけるロボット制御システムの構成を示す。（Ａ）学習装置のハードウェア構成を示す。（Ｂ）ロボットコントローラのハードウェア構成を示す。（Ａ）物体の把持を行うロボット（マニピュレータ）と、把持対象物体とを実空間おいて表した図である。（Ｂ）図３（Ａ）に示す状態を抽象空間において表した図である。スキルの実行に関する制御系を表すブロック構成図である。スキルデータベースの更新に関する学習装置の機能ブロックの一例である。スキル学習部の機能ブロックの一例である。学習装置によるスキルデータベースの更新処理を表すフローチャートの一例である。変形例におけるスキル学習部の機能ブロックの一例である。第２実施形態における学習装置の概略構成を示す。第２実施形態において学習装置が実行するフローチャートの一例である。

　以下、図面を参照しながら、学習装置、学習方法及び記憶媒体の実施形態について説明する。なお、任意の文字「Ａ」の上に任意の記号「ｘ」が付された文字を、本明細書では便宜上、「Ａ^ｘ」と表す。

　＜第１実施形態＞　　
　（１）システム構成
　図１は、第１実施形態に係るロボット制御システム１００の構成を示す。ロボット制御システム１００は、主に、学習装置１と、記憶装置２と、ロボットコントローラ３と、計測装置４と、ロボット５とを有する。学習装置１は、通信網を介し、又は、無線若しくは有線による直接通信により、記憶装置２とデータ通信を行う。また、ロボットコントローラ３は、記憶装置２、計測装置４及びロボット５と、通信網を介し、又は、無線若しくは有線による直接通信により、データ通信を行う。

　学習装置１は、与えられたタスクを実行するためのロボット５の動作を自己教師学習によって求め、かつ、当該動作が実行可能な状態集合を学習する。この場合、学習装置１は、ロボット５の特定の動作を動作毎にモジュール化したスキルに関する学習（スキルを実行可能な状態集合の学習を含む）を行う。そして、学習装置１は、学習したスキルに関する情報のタプル（「スキルタプル」とも呼ぶ。）を、記憶装置２が記憶するスキルデータベース２４に登録する。スキルタプルは、モジュール化したい動作を実行するために必要な種々の情報を含んでいる。この場合、学習装置１は、記憶装置２が記憶する詳細システムモデル情報２１、ローレベル制御器情報２２、及び目標パラメータ情報２３に基づき、スキルタプルを生成する。

　記憶装置２は、学習装置１及びロボットコントローラ３が参照する情報を記憶する。記憶装置２は、少なくとも、詳細システムモデル情報２１と、ローレベル制御器情報２２と、目標パラメータ情報２３と、スキルデータベース２４とを記憶する。なお、記憶装置２は、学習装置１又はロボットコントローラ３に接続又は内蔵されたハードディスクなどの外部記憶装置であってもよく、フラッシュメモリなどの記憶媒体であってもよく、学習装置１及びロボットコントローラ３とデータ通信を行うサーバ装置などであってもよい。また、記憶装置２は、複数の記憶装置から構成され、上述した各記憶部を分散して保有してもよい。

　詳細システムモデル情報２１は、ロボット５が動作する実際のシステムにおける詳細なロボット５及び動作環境のモデル（「詳細システムモデル」とも呼ぶ。）を表す情報である。詳細システムモデル情報２１は、詳細システムモデルを表す微分又は差分方程式であってもよく、物理シミュレータであってもよい。

　ローレベル制御器情報２２は、ハイレベル制御器が出力するパラメータに基づき実際のロボット５の動作を制御する入力を生成するローレベル制御器に関する情報である。ローレベル制御器は、例えば、ハイレベル制御器がロボット５の軌道を生成した場合に、当該軌道に従ってロボット５の動作を追従する制御入力を生成するものであってもよく、ハイレベル制御器の出力するパラメータに基づきＰＩＤ（Proportional Integral Differential）によるサーボ制御を行うものであってもよい。

　目標パラメータ情報２３は、学習するスキル毎に満たすべき状態又は条件に関するパラメータを表す情報である。目標パラメータ情報２３は、目標状態を表す目標状態情報（例えば把持動作の場合にはフォーム・クロージャ、フォース・クロージャなどの安定把持条件に関する情報を含む）、実行時間長の制限（制限時間）に関する実行時間情報、その他の一般制約条件（例えば、ロボット５の可動範囲の制限、速度の制限、入力の制限に関する条件等）を表す一般制約条件情報などを含む。

　スキルデータベース２４は、スキルごとに用意されるスキルタプルのデータベースである。スキルタプルは、対象のスキルを実行するためのハイレベル制御器に関する情報と、対象のスキルを実行するためのローレベル制御器に関する情報と、対象のスキルを実行可能な状態集合（実行可能状態集合）に関する情報とを少なくとも含んでいる。実行可能状態集合は、実際の空間を抽象化した抽象空間において定義される。実行可能状態集合は、たとえば、ガウス過程回帰や、レベルセット推定法により推定されたレベルセット関数の近似関数を用いて表すことができる。言い換えると、実行可能状態集合がある状態を含んでいるか否かを、該ある状態に対するガウス過程回帰の値（たとえば、平均値）や、該ある状態に対する近似関数の値が、実行可能性について判定する制約条件を満たしているか否かによって判定することができる。

　ロボットコントローラ３は、学習装置１による学習処理後に、計測装置４が供給する計測信号、及び、スキルデータベース２４等に基づき、ロボット５の動作計画を策定し、計画した動作をロボット５に実行させるための制御指令（制御入力）を生成し、ロボット５に当該制御指令を供給する。この場合、ロボットコントローラ３は、ロボット５に実行させるタスクを、ロボット５が受付可能なタスクのタイムステップ（時間刻み）毎のシーケンスに変換する。そして、ロボットコントローラ３は、生成したシーケンスの実行指令に相当する制御指令に基づき、ロボット５を制御する。制御指令は、ローレベル制御器が出力する制御入力に相当する。

　計測装置４は、ロボット５によるタスクが実行される作業空間内の状態を検出するカメラ、測域センサ、ソナーまたはこれらの組み合わせとなる１又は複数のセンサである。計測装置４は、生成した計測信号をロボットコントローラ３に供給する。計測装置４は、作業空間内で移動する自走式又は飛行式のセンサ（ドローンを含む）であってもよい。また、計測装置４は、ロボット５に設けられたセンサ、及び作業空間内の他の物体に設けられたセンサなどを含んでもよい。また、計測装置４は、作業空間内の音を検出するセンサを含んでもよい。このように、計測装置４は、作業空間内の状態を検出する種々のセンサであって、任意の場所に設けられたセンサを含んでもよい。

　ロボット５は、ロボットコントローラ３から供給される制御指令に基づき指定されたタスクに関する作業を行う。ロボット５は、例えば、組み立て工場、食品工場などの各種工場、又は、物流の現場などで動作を行うロボットである。ロボット５は、垂直多関節型ロボット、水平多関節型ロボット、又はその他の任意の種類のロボットであってもよい。ロボット５は、ロボット５の状態を示す状態信号をロボットコントローラ３に供給してもよい。この状態信号は、ロボット５全体又は関節などの特定部位の状態（位置、角度等）を検出するセンサの出力信号であってもよく、ロボット５の動作の進捗状態を示す信号であってもよい。

　なお、図１に示すロボット制御システム１００の構成は一例であり、当該構成に種々の変更が行われてもよい。例えば、ロボットコントローラ３とロボット５とは、一体に構成されてもよい。他の例では、学習装置１と記憶装置２とロボットコントローラ３のうち少なくともいずれか２つは一体に構成されてもよい。

　（２）ハードウェア構成
　図２（Ａ）は、学習装置１のハードウェア構成を示す。学習装置１は、ハードウェアとして、プロセッサ１１と、メモリ１２と、インターフェース１３とを含む。プロセッサ１１、メモリ１２及びインターフェース１３は、データバス１０を介して接続されている。

　プロセッサ１１は、メモリ１２に記憶されているプログラムを実行することにより、学習装置１の全体の制御を行うコントローラ（演算装置）として機能する。プロセッサ１１は、例えば、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＴＰＵ（Ｔｅｎｓｏｒ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）などのプロセッサである。プロセッサ１１は、複数のプロセッサから構成されてもよい。プロセッサ１１は、コンピュータの一例である。

　メモリ１２は、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、フラッシュメモリなどの各種の揮発性メモリ及び不揮発性メモリにより構成される。また、メモリ１２には、学習装置１が実行する処理を実行するためのプログラムが記憶される。なお、メモリ１２が記憶する情報の一部は、学習装置１と通信可能な１又は複数の外部記憶装置（例えば記憶装置２）により記憶されてもよく、学習装置１に対して着脱自在な記憶媒体により記憶されてもよい。

　インターフェース１３は、学習装置１と他の装置とを電気的に接続するためのインターフェースである。これらのインターフェースは、他の装置とデータの送受信を無線により行うためのネットワークアダプタなどのワイアレスインタフェースであってもよく、他の装置とケーブル等により接続するためのハードウェアインターフェースであってもよい。例えば、インターフェース１３は、タッチパネル、ボタン、キーボード、音声入力装置などのユーザの入力（外部入力）を受け付ける入力装置、ディスプレイ、プロジェクタ等の表示装置、スピーカなどの音出力装置等とのインターフェース動作を行ってもよい。

　なお、学習装置１のハードウェア構成は、図２（Ａ）に示す構成に限定されない。例えば、学習装置１は、表示装置、入力装置又は音出力装置の少なくともいずれかを内蔵してもよい。また、学習装置１は、記憶装置２を含んで構成されてもよい。

　図２（Ｂ）は、ロボットコントローラ３のハードウェア構成を示す。ロボットコントローラ３は、ハードウェアとして、プロセッサ３１と、メモリ３２と、インターフェース３３とを含む。プロセッサ３１、メモリ３２及びインターフェース３３は、データバス３０を介して接続されている。

　プロセッサ３１は、メモリ３２に記憶されているプログラムを実行することにより、ロボットコントローラ３の全体の制御を行うコントローラ（演算装置）として機能する。プロセッサ３１は、例えば、ＣＰＵ、ＧＰＵ、ＴＰＵなどのプロセッサである。プロセッサ３１は、複数のプロセッサから構成されてもよい。

　メモリ３２は、ＲＡＭ、ＲＯＭ、フラッシュメモリなどの各種の揮発性メモリ及び不揮発性メモリにより構成される。また、メモリ３２には、ロボットコントローラ３が実行する処理を実行するためのプログラムが記憶される。なお、メモリ３２が記憶する情報の一部は、ロボットコントローラ３と通信可能な１又は複数の外部記憶装置（例えば記憶装置２）により記憶されてもよく、ロボットコントローラ３に対して着脱自在な記憶媒体により記憶されてもよい。

　インターフェース３３は、ロボットコントローラ３と他の装置とを電気的に接続するためのインターフェースである。これらのインターフェースは、他の装置とデータの送受信を無線により行うためのネットワークアダプタなどのワイアレスインタフェースであってもよく、他の装置とケーブル等により接続するためのハードウェアインターフェースであってもよい。

　なお、ロボットコントローラ３のハードウェア構成は、図２（Ｂ）に示す構成に限定されない。例えば、ロボットコントローラ３は、表示装置、入力装置又は音出力装置の少なくともいずれかを内蔵してもよい。また、ロボットコントローラ３は、記憶装置２を含んで構成されてもよい。

　（３）抽象空間
　ロボットコントローラ３は、スキルタプルに基づき、抽象空間においてロボット５の動作計画の策定を行う。そこで、ロボット５の動作計画において対象とする抽象空間について説明する。

　図３（Ａ）は、物体の把持を行うロボット（マニピュレータ）５と、把持対象物体６とを実空間において表した図である。図３（Ｂ）は、図３（Ａ）に示す状態を抽象空間において表した図である。

　一般的に、ピックアンドプレイスをタスクとするロボット５の動作計画を策定するには、ロボット５のエンドエフェクタ形状、把持対象物体６の幾何形状、ロボット５の把持位置・姿勢及び把持対象物体６の物体特性等を考慮した厳密な計算が必要となる。一方、本実施形態では、ロボットコントローラ３は、ロボット５、把持対象物体６などの各物体の状態が抽象的に（簡略的に）表された抽象空間において動作計画を策定する。図３（Ｂ）の例では、抽象空間では、ロボット５のエンドエフェクタに対応する抽象モデル５ｘと、把持対象物体６に対応する抽象モデル６ｘと、ロボット５による把持対象物体６の把持動作実行可能領域（破線枠６０参照）とが定義される。このように、抽象空間におけるロボットの状態は、エンドエフェクタの状態等を抽象的（簡略的）に表される。また、操作対象物または環境物体に該当する各物体の状態についても、例えば、作業台などの基準物体を基準とする座標系等において抽象的に表される。

　そして、本実施形態におけるロボットコントローラ３は、スキルを利用し、実際のシステムを抽象化した抽象空間において動作計画を策定する。これにより、マルチステージタスクにおいても動作計画に要する計算コストを好適に抑制する。図３（Ｂ）の例では、ロボットコントローラ３は、抽象空間において定義される把持可能領域（破線枠６０）において、把持を実行するためのスキルを実行する動作計画を策定し、策定した動作計画に基づきロボット５の制御指令を生成する。

　以後では、実空間におけるシステムの状態を「ｘ」、抽象空間におけるシステムの状態を「ｘ’」と表記する。状態ｘ’は、ベクトル（抽象状態ベクトル）として表され、例えば、ピックアンドプレイスなどのタスクの場合、操作対象物の状態（例えば、位置、姿勢、速度等）を表すベクトル、操作可能なロボット５のエンドエフェクタの状態を表すベクトル、環境物体の状態を表すベクトルを含む。このように、状態ｘ’は、実システムにおける一部の要素の状態を抽象的に表した状態ベクトルとして定義される。

　（４）スキル実行に関する制御系
　図４は、スキルの実行に関する制御系を表すブロック構成図である。ロボットコントローラ３のプロセッサ３１は、機能的には、動作計画部３４と、ハイレベル制御部３５と、ローレベル制御部３６とを有する。また、システム５０は、実際のシステムに相当する。また、図４では、説明便宜上、動作計画部３４において対象とする抽象空間を例示した図（図３（Ｂ）参照）を表す吹き出しを動作計画部３４に対応付けて表示すると共に、システム５０に対応する実システムを例示した図（図３（Ａ）参照）を表す吹き出しをシステム５０に対応付けて表示している。同様に、図４では、スキルの実行可能状態集合に関する情報を表す吹き出しをハイレベル制御部３５に対応付けて表示している。

　動作計画部３４は、抽象システムにおける状態ｘ’とスキルデータベース２４とに基づき、ロボット５の動作計画を策定する。この場合、動作計画部３４は、例えば、目標状態を時相論理に基づく論理式により表現する。この場合、例えば、動作計画部３４は、線形時相論理、ＭＴＬ（Ｍｅｔｒｉｃ　Ｔｅｍｐｏｒａｌ　Ｌｏｇｉｃ）、ＳＴＬ（Ｓｉｇｎａｌ　Ｔｅｍｐｏｒａｌ　Ｌｏｇｉｃ）などの任意の時相論理を用いて論理式を表現してもよい。そして、動作計画部３４は、生成した論理式をタイムステップごとのシーケンス（動作シーケンス）に変換する。この動作シーケンスには、例えば、各タイムステップにおいて使用するスキルに関する情報が含まれている。

　ハイレベル制御部３５は、動作計画部３４が生成した動作シーケンスに基づき、タイムステップごとに実行すべきスキルを認識する。そして、ハイレベル制御部３５は、現在のタイムステップにおいて実行すべきスキルに対応するスキルタプルに含まれるハイレベル制御器「π_Ｈ」に基づき、ローレベル制御部３６への入力となるパラメータ「α」を生成する。この場合、ハイレベル制御部３５は、実行すべきスキルの実行開始時の抽象空間での状態（「初期状態」とも呼ぶ。）「ｘ_０’」が当該スキルの実行可能状態集合「χ_０’」に属する場合に、以下の式（１）に示されるように制御パラメータαを生成する。
　　　　　　　α＝π_Ｈ（ｘ_０’）　　（１）

　また、スキルの実行可能状態集合χ_０’に属するか否かを判定可能なレベルセット関数の近似関数を「ｇ＾」と定義すると、ロボットコントローラ３は、状態ｘ_０’が実行可能状態集合χ_０’に属するか否かを、
　　　　　　　ｇ＾（ｘ_０’）≦０
が満たされるか否か判定することで判定することが可能となる。言い換えると、該条件は、ある状態についての実行可能性を判定する制約条件を表しているということもできる。あるいは、関数「ｇ＾」は、ある初期状態ｘ_０’から与えられた目標状態に到達できるかどうかを評価することができるモデルであるということもできる。この場合、対象のスキルの実行後の抽象空間での目標状態の集合である目標状態集合を「χ’_ｄ」、対象のスキルの実行に要する時間長（実行時間長）を「Ｔ」、初期状態ｘ_０’からＴ時間長経過時点の状態を「ｘ’（Ｔ）」とすると、ローレベル制御器３６を利用することによってｘ’（Ｔ）∈χ’_ｄが実現可能である。近似関数ｇ＾は、後述するように、学習装置１が学習することで求められる。

　ローレベル制御部３６は、ハイレベル制御部３５が生成した制御パラメータαと、システム５０から得られる現在の実システムでの状態ｘとに基づき、入力「ｕ」を生成する。この場合、ローレベル制御部３６は、スキルタプルに含まれるローレベル制御器「π_Ｌ」に基づき、以下の式に示されるように入力ｕを制御指令として生成する。
　　　　　　　ｕ＝π_Ｌ（ｘ，α）
　なお、ローレベル制御器π_Ｌは、上記の式の形式に限定されず、種々の形式を有する制御器であってもよい。

　なお、ローレベル制御部３６は、状態ｘを、計測装置４が出力する計測信号（ロボット５からの信号を含んでもよい）等に基づき任意の状態認識技術を用いて認識したロボット５及び環境の状態を、状態ｘとして取得する。図４では、システム５０は、ロボット５への入力ｕと、状態ｘとを引数とする関数「ｆ」を用いた状態方程式「ｘ^・＝ｆ（ｘ，ｕ）」により表されている。演算子「^・」は、時刻についての微分、または、時刻についての差分を表す。

　（５）スキルデータベースの更新の概要
　図５は、スキルデータベースの更新に関する学習装置１の機能ブロックの一例である。学習装置１のプロセッサ１１は、機能的には、抽象システムモデル設定部１４と、スキル学習部１５と、スキルタプル生成部１６とを有する。なお、図５では、各ブロック間で授受が行われるデータの一例が示されているが、これに限定されない。後述する他の機能ブロックの図においても同様である。

　抽象システムモデル設定部１４は、詳細システムモデル情報２１に基づき、抽象システムモデルを設定する。この抽象システムモデルは、詳細システムモデル情報２１により特定される詳細システムモデル（図４のシステム５０に相当するモデル）の状態ｘを基に構成される抽象状態ベクトルｘ’を状態として持つ、動作計画のための簡易なモデルである。この場合、抽象システムモデル設定部１４は、例えば、予め記憶装置２等に記憶されたアルゴリズムに基づき、詳細システムモデルから抽象システムモデルを算出する。なお、抽象システムモデルに関する情報が予め記憶装置２等に記憶されている場合には、抽象システムモデル設定部１４は、記憶装置２等から抽象システムモデルに関する情報を取得してもよい。抽象システムモデル設定部１４は、設定した抽象システムモデルに関する情報を、スキル学習部１５及びスキルタプル生成部１６に夫々供給する。

　スキル学習部１５は、抽象システムモデル設定部１４が設定した抽象システムモデルと、詳細システムモデル情報２１と、ローレベル制御器情報２２と、目標パラメータ情報２３（目標状態情報、実行時間情報及び一般制約条件情報を含む）とに基づき、生成するスキルに関する学習を行う。この場合、スキル学習部１５は、ローレベル制御器π_Ｌによって実行されるスキルの実行可能状態集合χ_０’の学習と、学習された実行可能状態集合χ_０’に含まれる状態を入力としてローレベル制御器π_Ｌの制御パラメータαの値（適しているという判定条件を満たす値、たとえば、最適値）を出力するハイレベル制御器π_Ｈの学習とを行う。スキル学習部１５の詳細な処理については後述する。

　スキルタプル生成部１６は、スキル学習部１５が学習した実行可能状態集合χ_０’に関する情報と、ハイレベル制御器π_Ｈに関する情報と、抽象システムモデル設定部１４が設定した抽象システムモデルに関する情報と、ローレベル制御器情報２２と，目標パラメータ情報２３を含む組（タプル）をスキルタプルとして生成する。そして、スキルタプル生成部１６は、生成したスキルタプルを、スキルデータベース２４に登録する。

　ここで、抽象システムモデル設定部１４、スキル学習部１５及びスキルタプル生成部１６の各構成要素は、例えば、プロセッサ１１がプログラムを実行することによって実現できる。また、必要なプログラムを任意の不揮発性記憶媒体に記録しておき、必要に応じてインストールすることで、各構成要素を実現するようにしてもよい。なお、これらの各構成要素の少なくとも一部は、プログラムによるソフトウェアで実現することに限ることなく、ハードウェア、ファームウェア、及びソフトウェアのうちのいずれかの組合せ等により実現してもよい。また、これらの各構成要素の少なくとも一部は、例えばＦＰＧＡ（Field-Programmable Gate Array）又はマイクロコントローラ等の、ユーザがプログラミング可能な集積回路を用いて実現してもよい。この場合、この集積回路を用いて、上記の各構成要素から構成されるプログラムを実現してもよい。また、各構成要素の少なくとも一部は、ＡＳＳＰ（Application Specific Standard Produce）、ＡＳＩＣ（Application Specific Integrated Circuit）又は量子コンピュータ制御チップにより構成されてもよい。このように、各構成要素は、種々のハードウェアにより実現されてもよい。以上のことは、後述する他の実施の形態においても同様である。さらに、これらの各構成要素は，例えば，クラウドコンピューティング技術などを用いて、複数のコンピュータの協働によって実現されてもよい。

　（６）スキル学習部の詳細
　次に、図５に示すスキル学習部１５が実行する処理の詳細について説明する。

　（６－１）機能ブロック
　図６は、スキル学習部１５の機能ブロックの一例である。スキル学習部１５は、機能的には、最適制御問題計算部５１と、レベルセット学習部５２と、レベルセット近似部５３と、ハイレベル制御器学習部５４とを有する。

　最適制御問題計算部５１は、詳細システムモデル、抽象システムモデル、ローレベル制御器、及び目標パラメータに基づき、抽象状態における初期状態をｘ_０’とする解の目標状態集合χ’_ｄへの可到達性を判定する。この場合、初期状態ｘ_０’からＴ時間長経過時点の状態を「ｘ’（Ｔ）」とし、目標状態集合χ’_ｄがｇ(ｘ’)≦０を満たす状態集合として与えられているとすると、制御問題計算部５１は、評価関数ｇ(ｘ’（Ｔ）)を最小化する最適制御問題（最適化問題）を設定する。そして、最適制御問題計算部５１は、最適制御問題に従い求められる解である、制御パラメータαの値（解として適していることを判定する条件を満たしている値、たとえば、最適値、以降「最適制御パラメータα^＊」とも呼ぶ。）及び関数値「ｇ^＊」を求める。そして、最適制御問題計算部５１は、関数値ｇ^＊が「ｇ^＊≦０」を満たす場合、初期状態ｘ_０’から目標状態集合χ’_ｄへの遷移は実現可能であると判定する。ここで、初期状態ｘ_０’は、後述するように、レベルセット学習部５２及びハイレベル制御器学習部５４によって指定される。最適制御問題計算部５１の処理の詳細については、「（６－２）最適制御問題計算部の詳細」のセクションにおいてさらに説明する。

　レベルセット学習部５２は、対象のスキルのローレベル制御器の抽象空間における実行可能状態集合χ_０’を表すレベルセット関数の学習を行う。この場合、レベルセット学習部５２は、状態ｘ’の初期状態ｘ_０’を指定した最適制御問題の計算要求を最適制御問題計算部５１に対して行い、指定した初期状態ｘ_０’と、最適制御問題計算部５１から応答として供給される関数値ｇ^＊との複数の組み合わせに基づき、レベルセット関数の学習を行う。この場合、レベルセット学習部５２は、レベルセット推定法を利用することにより、ガウス過程回帰を通じて得られるレベルセット関数「ｇ_ＧＰ」との一例としてレベルセット関数の近似関数を同定する。レベルセット学習部５２の処理の詳細については「（６－３）レベルセット学習部の詳細」のセクションにおいてさらに説明する。

　レベルセット近似部５３は、動作計画におけるレベルセット関数の計算コストを勘案し、レベルセット関数を多項式近似等により簡略化した近似関数ｇ＾（「レベルセット近似関数ｇ＾」とも呼ぶ。）を決定する。この場合、レベルセット近似部５３は、次式を満たす任意の形式のレベルセット近似関数ｇ＾（ｘ_０’）の内部集合とレベルセット関数ｇ_ＧＰの内部集合「ｇ_ＧＰ（ｘ_０’）≦０」とが以下に示す関係を満たすようレベルセット近似関数ｇ＾を決定する。
　　　　　　　ｇ_ＧＰ（ｘ_０’）≦ｇ＾（ｘ_０’）≦０

　ハイレベル制御器学習部５４は、近似関数ｇ＾により特定される実行可能状態集合χ_０’に属する初期状態ｘ_０’と最適制御パラメータα^＊との複数の組に基づき、「α＝π_Ｈ（ｘ_０’）」（式（１）参照）を満たすハイレベル制御器π_Ｈを学習する。ハイレベル制御器学習部５４の処理の詳細については、「（６－４）ハイレベル制御器学習部の詳細」のセクションにおいてさらに説明する。

　（６－２）最適制御問題計算部の詳細
　最適制御問題計算部５１による最適制御問題の計算について具体的に説明する。最適制御問題計算部５１は、最適制御問題による抽象状態における目標状態集合χ’_ｄへの可到達性を判定する。この場合、目標状態集合χ’_ｄは、評価関数ｇを用いて以下の式により表される。

　ここで、「ｘ’＝γ（ｘ）」（γは詳細システムモデルの状態から抽象システムモデルの状態への写像）とすると、実際のシステムの状態ｘにおける目標状態集合「χ_ｄ」は、以下の式により表される。

　そして、最適制御問題計算部５１は、抽象システムにおける初期状態ｘ_０’から目標状態集合χ’_ｄへの遷移は、実際のシステムでは実現できるかという問題を最適制御問題として設定する。具体的には、最適制御問題計算部５１は、評価関数ｇを最小化する制御パラメータαを求める以下の式（２）に示される最適制御問題を設定する。

　ここで、「ｃ」は、制約条件を表す関数であり、目標パラメータ情報２３に基づき特定される関数である。また、Ｔは実行時間長を表し、「ｘ（ｔ）」は、初期状態ｘ_０’に対応する実システムでの状態ｘ_０からｔ時間長経過時点での状態ｘを表す。そして、最適制御問題計算部５１は、式（２）に示される最適制御問題の解として得られる関数値ｇ^＊が「ｇ^＊≦０」を満たしていれば、指定された初期状態ｘ_０’から目標状態集合χ’_ｄへの遷移は実現可能であると判定し、（ｘ_０’，α^＊，ｇ^＊）の組を取得する。（ｘ_０’，α^＊，ｇ^＊）の組は、その後に実行される学習に用いられる。

　言い換えると、式（２）に示される問題は、第１状態（ｘ_０’）、第２状態（Ｘ（Ｔ））、及び、制御パラメータ（α）との関係性を表すモデルであるということもできる。そして、関数値ｇ^＊を求める処理は、状態変化についての制約条件等を含むモデル（式（２））を用いて関数値ｇ^＊を決定する処理であるということもできる。ただし、式（２）に示されるモデルの解は、数学的な最適解でなくともよく、解であることを判定する判定条件を満たしている値であればよい。

　ここで、式（２）に示される最適制御問題について、詳細システムモデルを表す関数ｆが解析的に得られている場合には、最適制御問題計算部５１は、例えば、Ｄｉｒｅｃｔ　Ｃｏｌｌｏｃａｔｉｏｎ法、微分動的計画法（ＤＤＰ：Ｄｉｆｆｅｒｅｎｔｉａｌ　Ｄｙｎａｍｉｃ　Ｐｒｏｇｒａｍｍｉｎｇ）などの任意の最適制御アルゴリズムを用いて解くことができる。また、詳細システムモデルを表す関数ｆが解析的に得られていない場合（例えば物理シミュレータ等を用いた場合）には、最適制御問題計算部５１は、Ｐａｔｈ　Ｉｎｔｅｇｒａｌ　Ｃｏｎｔｒｏｌなどのモデルフリーな最適制御手法を用いて式（２）に示される最適制御問題を解くことが可能である。この場合、最適制御問題計算部５１は、制約条件を表す関数ｃに基づき、評価関数ｇを最小化する問題に従い制御パラメータαを求める。

　ここで、図３（Ａ）に示されるピックアンドプレイスのタスクにおいて把持動作のスキルを生成する場合に、式（２）において用いられる目標パラメータ情報２３及びローレベル制御器π_Ｌの具体例について説明する。

　この場合、詳細モデルは状態ｘ、入力ｕ及び把持対象物体６を把持する力である接触力Ｆの情報を取得可能な物理シミュレータを用いる。また、目標パラメータ情報２３の目標状態情報は、フォーム・クロージャ、フォース・クロージャなどの安定把持条件に関する情報であり、以下の式により表される。
　　　　　　　ｇ（ｘ，Ｆ）≦０

　また、目標パラメータ情報２３の実行時間情報には、スキルの実行時間長Ｔの上限値「Ｔ_ｍａｘ」（Ｔ≦Ｔ_ｍａｘ）を指定する情報が含まれている。また、目標パラメータ情報２３の一般制約条件情報には、状態ｘ、入力ｕ、及び接触力Ｆに関する以下の制約式を表す情報が含まれている。
　　　　　　　ｃ（ｘ，ｕ，Ｆ）≦０
　例えば、この制約式は、接触力Ｆの上限「Ｆ_ｍａｘ」（Ｆ≦Ｆ_ｍａｘ）、可動範囲（又は速度）の制限「ｘ_ｍａｘ」（｜ｘ｜≦ｘ_ｍａｘ）、入力ｕの上限「ｕ_ｍａｘ」（｜ｕ｜≦ｕ_ｍａｘ）などを包括的に表す式となっている。

　また、ローレベル制御器π_Ｌは、例えば、ＰＩＤによるサーボ制御器である。ここで、ロボット５の状態を「ｘ_ｒ」、ロボット５の状態の目標軌道を「ｘ_ｒｄ」とすると、入力ｕ及び目標軌道ｘ_ｒｄ（ここでは多項式とする）は以下の式により表される。

　従って、この場合、最適制御パラメータにて決定すべき制御パラメータαは、目標軌道多項式の係数及びＰＩＤ制御のゲインであり、以下のように表される。

　そして、最適制御問題では、このような制御パラメータαの最適値α^＊が算出される。

　（６－３）レベルセット学習部の詳細
　次に、レベルセット学習部５２による学習について説明する。抽象状態ｘ_０’に対して対応する最適制御問題の解ｇ^＊を出力する関数をｇ^＊（ｘ_０’）とすると、対象となるスキルの実行可能状態集合χ_０’は、以下のように定義される。

　従って、レベルセット学習部５２は、様々な初期状態ｘ_０’に対する最適制御問題を解くことで得られる初期状態ｘ_０’と関数値ｇ^＊の複数の組から、ローレベル制御器の実行可能状態集合χ_０’を表すレベルセット関数を学習する。本実施形態では、レベルセット学習部５２は、ベイズ最適化の考え方に基づくガウス過程回帰を用いた推定法であるレベルセット推定法を用いて、実行可能状態集合χ_０’について判定する処理手順を表すレベルセット関数ｇ_ＧＰを算出する。なお、このレベルセット関数ｇ_ＧＰは前記レベルセット推定法を通じて得られるガウス過程の平均値関数を利用して定義されてもよいし、平均値関数と分散関数の組み合わせとして定義されてもよい。レベルセット学習部５２は、最適制御問題計算部５１に対して初期状態ｘ_０’を指定した最適制御問題の計算指示を行い、指定した初期状態ｘ_０’と最適制御問題の解である関数値ｇ^＊との組に基づきレベルセット関数を更新する。ここで、レベルセット学習部５２は、指定する初期状態ｘ_０’を最初はランダムに指定した後、次に指定すべき初期状態ｘ_０’をガウス過程回帰に基づき決定する。これにより、レベルセット関数を効率的に学習することが可能となる。レベルセット推定法の詳細については、例えば、非特許文献１に開示されている。この手法によれば、レベルセット関数の推定に効果的な初期状態ｘ_０’のサンプリングを行い、少ない初期状態ｘ_０’のサンプリング数により、レベルセット関数の近似関数を好適に算出することができる。

　なお、レベルセット推定法と同様にガウス過程回帰を用いた推定法であるＴＲＵＶＡＲなどを用いてレベルセット関数を求めてもよい。ＴＲＵＶＡＲについては、非特許文献２に開示されている。

　上述したように、レベルセット関数は、所望状態に対して到達可能な初期状態を評価するモデルであればよい。また、該モデルにおけるパラメータは、初期状態ｘ_０’と最適制御問題の解である関数値ｇ^＊との組に基づき決定されるということもできる。そして、該モデルを決定することによって、ある所望状態に対して到達可能な初期状態を評価することができるため，システムについての所望状態を達成可能な制御パラメータを決定することができるという効果を奏する。

　さらに、該モデルに従い、ある状態から所望状態に到達可能であるか否かを判定し、到達可能である場合に、該ある状態にて施した動作を表す制御パラメータに従い動作するようロボットを制御してもよい。

　（６－４）ハイレベル制御器学習部の詳細
　次に、ハイレベル制御器学習部５４によるハイレベル制御器π_Ｈの学習について説明する。

　ハイレベル制御器学習部５４は、機械学習において用いられる任意の学習モデルを用いてハイレベル制御器π_Ｈの学習を行う。この場合、ハイレベル制御器学習部５４は、初期状態ｘ_０’と最適制御パラメータα^＊との複数の組（ｘ_０ｉ’，α^＊ _ｉ）（ｉ＝１～Ｎ）を学習サンプルとして使用して学習モデルの学習を行う。この場合、ハイレベル制御器学習部５４は、ｘ_０ｉ’を入力データとした場合にα^＊ _ｉを出力するように学習モデルを学習する。この場合の学習モデルは、ニューラルネットワーク、ガウス過程回帰、又はサポートベクター回帰などの任意の機械学習のモデルであってもよい。

　この場合、ハイレベル制御器学習部５４は、学習サンプルとして使用する組（ｘ_０ｉ’，α^＊ _ｉ）を、レベルセット学習部５２がレベルセット関数の学習において最適制御問題計算部５１に指定した初期状態ｘ_０’とその最適制御問題の解である最適制御パラメータα^＊の組み合わせから選択するとよい。この場合、ハイレベル制御器学習部５４は、レベルセット近似部５３から供給される近似関数ｇ＾を用いて「ｇ＾（ｘ_０’）≦０」が満たされる初期状態ｘ_０’と最適制御パラメータα^＊の組み合わせを、学習サンプルとして選択する。

　また、ハイレベル制御器学習部５４は、学習サンプルを増やすため、実行可能状態集合χ_０’からさらに選択した初期状態ｘ_０’を指定した最適制御問題の計算指示を最適制御問題計算部５１に対して行い、当該初期状態ｘ_０’に基づく最適制御問題の解である最適制御パラメータα^＊を最適制御問題計算部５１から取得してもよい。そして、この場合、ハイレベル制御器学習部５４は、指定した初期状態ｘ_０’と最適制御問題計算部５１から取得した最適制御パラメータα^＊の組を、学習サンプルに加え、式（１）に示されるハイレベル制御器π_Ｈの学習を行う。

　（７）処理フロー
　図７は、学習装置１によるスキルデータベース２４の更新処理を表すフローチャートの一例である。学習装置１は、フローチャートの処理を、生成するスキルの各々に対して実行する。

　まず、学習装置１の抽象システムモデル設定部１４は、詳細システムモデル情報２１に基づき、抽象システムモデルを設定する（ステップＳ１１）。次に、スキル学習部１５の最適制御問題計算部５１は、詳細システムモデル情報２１が示す詳細システムモデル、ステップＳ１１で設定された抽象システムモデル、ローレベル制御器情報２２が示すローレベル制御器及び目標パラメータ情報２３が示す目標パラメータに基づき、式（２）に示される最適制御問題を設定し、最適制御問題の解を算出する（ステップＳ１２）。この場合、最適制御問題計算部５１は、レベルセット学習部５２及びレベルセット近似部５３から指定された初期状態ｘ_０’に対して夫々最適制御問題を設定し、その解である関数値ｇ^＊及び最適制御パラメータα^＊を算出する。

　次に、スキル学習部１５のレベルセット学習部５２は、ステップＳ１２で算出された最適制御問題の解に基づき、対象のスキルのローレベル制御器の実行可能状態集合χ_０’のレベルセット関数を推定する（ステップＳ１３）。この場合、レベルセット学習部５２は、最適制御問題計算部５１に初期状態ｘ_０’を指定した最適制御問題の計算の指示を行い、その応答として得られる関数値ｇ^＊と指定した初期状態ｘ_０’との複数の組により、レベルセット関数ｇ_ＧＰを算出する。

　次に、スキル学習部１５のレベルセット近似部５３は、ステップＳ１３で推定したレベルセット関数を近似したレベルセット近似関数ｇ＾を算出する（ステップＳ１４）。

　そして、スキル学習部１５のハイレベル制御器学習部５４は、レベルセット近似関数により特定されるレベルセット内の状態要素に基づき、ハイレベル制御器π_Ｈを学習する（ステップＳ１５）。この場合、近似関数ｇ＾により特定される実行可能状態集合χ_０’に属する初期状態ｘ_０’と最適制御パラメータα^＊との複数の組に基づき、式（１）の関係を満たすハイレベル制御器π_Ｈを学習する。

　次に、スキルタプル生成部１６は、抽象システムモデル、ハイレベル制御器、ローレベル制御器、目標パラメータ情報、及びレベルセット近似関数の組をスキルタプルとして生成し、生成したスキルタプルをスキルデータベース２４に格納する（ステップＳ１６）。

　以上のように、学習装置１は、対象のスキルのローレベル制御器の実行可能状態集合χ_０’を好適に学習し、かつ、対象のスキルの実行に必要なハイレベル制御器π_Ｈの学習を好適に実行することができる。これにより、学習装置１は、スキル実行の制御器とスキルの実行可能領域に関する情報を同時に獲得し、ロボット５の動作計画に活用可能なスキルデータベース２４を好適に構築することができる。そして、スキルデータベース２４は、組み立てや道具利用といった複雑な動作を含むタスクの実行を行う場合に好適に利用可能となる。

　（８）変形例
　次に、上述した実施形態の変形例について説明する。以下の変形例は、任意に組み合わせて上述の実施形態に適用してもよい。

　（変形例１）
　図６に示すスキル学習部１５の機能ブロックにおいてレベルセット近似部５３は存在しなくともよい。

　図８は、変形例におけるスキル学習部１５Ａの機能ブロックの一例である。図８に示す例では、スキル学習部１５Ａは、最適制御問題計算部５１と、レベルセット学習部５２と、ハイレベル制御器学習部５４とを有する。レベルセット学習部５２は、レベルセット関数ｇ_ＧＰを、ハイレベル制御器学習部５４に供給すると共に、スキル学習部１５Ａが出力するレベルセット関数としてスキルタプル生成部１６に出力する。そして、ハイレベル制御器学習部５４は、レベルセット学習部５２が出力するレベルセット関数ｇ_ＧＰを用いて、ｇ_ＧＰ（ｘ_０’）≦０を満たす初期状態ｘ_０’を学習サンプルとして特定し、ハイレベル制御器π_Ｈを学習する。

　このように、学習装置１は、レベルセット学習部５２で学習したレベルセット関数ｇ_ＧＰの近似関数ｇ＾を算出することなく、スキルタプルを生成してもよい。

　（変形例２）
　学習装置１は、ローレベル制御器のパラメータが定まっている場合に、最適制御問題計算部５１及びレベルセット学習部５２（及びレベルセット近似部５３）の処理に基づき、実行可能状態集合χ_０’を判定する際の処理手順を表す関数ｇ_ＧＰ（又はｇ＾）を算出してもよい。本変形例では、ローレベル制御器のパラメータを定めるハイレベル制御器が存在しなくともよい。

　この場合、最適制御問題計算部５１は、システムモデル、ローレベル制御器に対応する制御器、目標パラメータ、及びレベルセット学習部５２が指定する初期状態ｘ_０’に関する情報に基づき評価関数ｇを最小化する最適制御問題（最適化問題）を設定し、設定した最適制御問題の解である関数値ｇ^＊を算出する。そして、レベルセット学習部５２は、初期状態ｘ_０’と関数値ｇ^＊の組に基づき、レベルセット関数ｇ_ＧＰを算出する。この場合においても、学習装置１は、好適に実行可能状態集合χ_０’に関する情報を生成し、スキルデータベース２４に登録するスキルタプルに含めることができる。

　＜第２実施形態＞
　図９は、第２実施形態における学習装置１Ｘの概略構成図を示す。学習装置１Ｘは、主に、最適化問題計算手段５１Ｘと、実行可能状態集合学習手段５２Ｘとを有する。なお、学習装置１Ｘは、複数の装置から構成されてもよい。

　最適化問題計算手段５１Ｘは、ロボットが作業を行うシステムに関する抽象システムモデル及び詳細システムモデル、ロボットに関する制御器、並びにロボットの動作に関する目標パラメータに基づき、目標状態に対する可到達性を評価する評価関数を用いた最適化問題を設定し、当該最適化問題における解となる評価関数の関数値を計算する。ここで、「制御器」は、例えば、第１実施形態（変形例を含む、以下同じ）におけるローレベル制御器である。また、「目標状態に対する可到達性を評価する評価関数」は、例えば、第１実施形態（変形例を含む、以下同じ）における評価関数ｇである。「関数値」は、例えば、第１実施形態における関数値ｇ^＊である。最適化問題計算手段５１Ｘは、例えば、第１実施形態における最適制御問題計算部５１とすることができる。

　実行可能状態集合学習手段５２Ｘは、関数値に基づき、制御器によって実行されるロボットの動作の実行可能状態集合を学習する。ここで、実行可能状態集合は、関数（例えば、第１実施形態におけるレベルセット関数）として学習されてもよい。実行可能状態集合学習手段５２Ｘは、例えば、第１実施形態におけるレベルセット学習部５２とすることができる。

　図１０は、第２実施形態におけるフローチャートの一例である。最適化問題計算手段５１Ｘは、ロボットが作業を行うシステムに関する抽象システムモデル及び詳細システムモデル、ロボットに関する制御器、並びにロボットの動作に関する目標パラメータに基づき、目標状態に対する可到達性を評価する評価関数を用いた最適制御問題を設定する（ステップＳ２１）。そして、最適化問題計算手段５１Ｘは、当該最適化問題における解となる評価関数の関数値を計算する（ステップＳ２２）。実行可能状態集合学習手段５２Ｘは、最適制御問題の解となる関数の関数値に基づき、制御器によって実行されるロボットの動作の実行可能状態集合を学習する（ステップＳ２３）。

　第２実施形態によれば、学習装置１Ｘは、制御器によって実行されるロボットの動作をスキルとしてモジュール化する場合などにおいて、スキルの実行可能状態集合を学習により好適に同定することができる。

　その他、上記の各実施形態（変形例を含む、以下同じ）の一部又は全部は、以下の付記のようにも記載され得るが以下には限られない。

　［付記１］
　ロボットが作業を行うシステムに関する抽象システムモデル及び詳細システムモデル、前記ロボットに関する制御器、並びに前記ロボットの動作に関する目標パラメータに基づき、目標状態に対する可到達性を評価する評価関数を用いた最適化問題を設定し、当該最適化問題における解となる前記評価関数の関数値を計算する最適化問題計算手段と、
　前記関数値に基づき、前記制御器によって実行される前記ロボットの動作の実行可能状態集合を学習する実行可能状態集合学習手段と、
を有する学習装置。
　［付記２］
　前記実行可能状態集合学習手段は、前記関数値と、前記最適化問題において設定した初期状態との複数の組に基づき、前記実行可能状態集合を表すレベルセット関数を学習する、付記１に記載の学習装置。
　［付記３］
　前記レベルセット関数に近似するレベルセット近似関数を算出するレベルセット近似手段をさらに有する、付記２に記載の学習装置。
　［付記４］
　前記実行可能状態集合学習手段は、ガウス過程回帰に基づくサンプリングにより前記初期状態を指定し、指定された前記初期状態に基づく前記最適化問題における解となる前記関数値と前記初期状態とに基づき、前記レベルセット関数の学習を行う、付記２または３に記載の学習装置。
　［付記５］
　前記制御器は、前記ロボットの制御指令を生成するローレベル制御器と、前記ローレベル制御器を動作させるための制御パラメータを出力するハイレベル制御器とを含み、
　前記最適化問題計算手段は、前記抽象システムモデル、前記詳細システムモデル、前記ローレベル制御器、及び前記目標パラメータに基づき設定した最適制御問題の解となる前記制御パラメータ及び前記関数値を計算し、
　前記学習装置は、学習された前記実行可能状態集合に含まれる状態に基づき、前記ハイレベル制御器を学習するハイレベル制御器学習手段をさらに有する、付記１～４のいずれか一項に記載の学習装置。
　［付記６］
　前記ハイレベル制御器学習手段は、前記実行可能状態集合に含まれる状態と、当該状態を前記最適制御問題における初期状態とした場合の前記最適制御問題の解となる前記制御パラメータとの組に基づき、前記ハイレベル制御器を学習する、付記５に記載の学習装置。
　［付記７］
　前記評価関数は、抽象空間における状態に対する前記可到達性を評価する関数であり、
　前記実行可能状態集合学習手段は、前記抽象空間における前記実行可能状態集合を学習する、付記１～６のいずれか一項に記載の学習装置。
　［付記８］
　学習された前記実行可能状態集合に基づき、前記ロボットの動作に対するスキルタプルを生成するスキルタプル生成手段をさらに有する、付記１～７のいずれか一項に記載の学習装置。
　［付記９］
　コンピュータが、
　ロボットが作業を行うシステムに関する抽象システムモデル及び詳細システムモデル、前記ロボットに関する制御器、並びに前記ロボットの動作に関する目標パラメータに基づき、目標状態に対する可到達性を評価する評価関数を用いた最適化問題を設定し、
　当該最適化問題における解となる前記評価関数の関数値を計算し、
　前記関数値に基づき、前記制御器によって実行される前記ロボットの動作の実行可能状態集合を学習する、
学習方法。
　［付記１０］
　ロボットが作業を行うシステムに関する抽象システムモデル及び詳細システムモデル、前記ロボットに関する制御器、並びに前記ロボットの動作に関する目標パラメータに基づき、目標状態に対する可到達性を評価する評価関数を用いた最適化問題を設定し、
　当該最適化問題における解となる前記評価関数の関数値を計算し、
　前記関数値に基づき、前記制御器によって実行される前記ロボットの動作の実行可能状態集合を学習する処理をコンピュータに実行させるプログラムが格納された記憶媒体。
　［付記１１］
　コンピュータが、
　制御パラメータに従い動作するロボットによって状態が変化するシステムについて、第１状態から第２状態に至るまでの前記制御パラメータを、複数の前記状態と前記制御パラメータとの関係性を表す第１モデルを用いて決定し、
　前記システムのある所望状態に対して到達可能な初期状態を評価する第２モデルを、前記第１状態と、決定した前記制御パラメータとに基づき決定する
　学習方法。

　なお、上述した各実施形態において、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体（Non-Transitory Computer Readable Medium）を用いて格納され、コンピュータであるプロセッサ等に供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記憶媒体（Tangible Storage Medium）を含む。非一時的なコンピュータ可読媒体の例は、磁気記憶媒体（例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記憶媒体（例えば光磁気ディスク）、ＣＤ－ＲＯＭ（Read Only Memory）、ＣＤ－Ｒ、ＣＤ－Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（Programmable ROM）、ＥＰＲＯＭ（Erasable PROM）、フラッシュＲＯＭ、ＲＡＭ（Random Access Memory））を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（Transitory Computer Readable Medium）によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。

　以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。すなわち、本願発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。また、引用した上記の文献等（特許文献、非特許文献を含む）の各開示は、本書に引用をもって繰り込むものとする。

　１、１Ｘ　学習装置
　２　記憶装置
　３　ロボットコントローラ
　４　計測装置
　５　ロボット
　１００　ロボット制御システム

Claims

　ロボットが作業を行うシステムに関する抽象システムモデル及び詳細システムモデル、前記ロボットに関する制御器、並びに前記ロボットの動作に関する目標パラメータに基づき、目標状態に対する可到達性を評価する評価関数を用いた最適化問題を設定し、当該最適化問題における解となる前記評価関数の関数値を計算する最適化問題計算手段と、
　前記関数値に基づき、前記制御器によって実行される前記ロボットの動作の実行可能状態集合を学習する実行可能状態集合学習手段と、
を有する学習装置。
　前記実行可能状態集合学習手段は、前記関数値と、前記最適化問題において設定した初期状態との複数の組に基づき、前記実行可能状態集合を表すレベルセット関数を学習する、請求項１に記載の学習装置。
　前記レベルセット関数に近似するレベルセット近似関数を算出するレベルセット近似手段をさらに有する、請求項２に記載の学習装置。
　前記実行可能状態集合学習手段は、ガウス過程回帰に基づくサンプリングにより前記初期状態を指定し、指定された前記初期状態に基づく前記最適化問題における解となる前記関数値と前記初期状態とに基づき、前記レベルセット関数の学習を行う、請求項２または３に記載の学習装置。
　前記制御器は、前記ロボットの制御指令を生成するローレベル制御器と、前記ローレベル制御器を動作させるための制御パラメータを出力するハイレベル制御器とを含み、
　前記最適化問題計算手段は、前記抽象システムモデル、前記詳細システムモデル、前記ローレベル制御器、及び前記目標パラメータに基づき設定した最適制御問題の解となる前記制御パラメータ及び前記関数値を計算し、
　前記学習装置は、学習された前記実行可能状態集合に含まれる状態に基づき、前記ハイレベル制御器を学習するハイレベル制御器学習手段をさらに有する、請求項１～４のいずれか一項に記載の学習装置。
　前記ハイレベル制御器学習手段は、前記実行可能状態集合に含まれる状態と、当該状態を前記最適制御問題における初期状態とした場合の前記最適制御問題の解となる前記制御パラメータとの組に基づき、前記ハイレベル制御器を学習する、請求項５に記載の学習装置。
　前記評価関数は、抽象空間における状態に対する前記可到達性を評価する関数であり、
　前記実行可能状態集合学習手段は、前記抽象空間における前記実行可能状態集合を学習する、請求項１～６のいずれか一項に記載の学習装置。
　学習された前記実行可能状態集合に基づき、前記ロボットの動作に対するスキルタプルを生成するスキルタプル生成手段をさらに有する、請求項１～７のいずれか一項に記載の学習装置。
　コンピュータが、
　ロボットが作業を行うシステムに関する抽象システムモデル及び詳細システムモデル、前記ロボットに関する制御器、並びに前記ロボットの動作に関する目標パラメータに基づき、目標状態に対する可到達性を評価する評価関数を用いた最適化問題を設定し、
　当該最適化問題における解となる前記評価関数の関数値を計算し、
　前記関数値に基づき、前記制御器によって実行される前記ロボットの動作の実行可能状態集合を学習する、
学習方法。
　ロボットが作業を行うシステムに関する抽象システムモデル及び詳細システムモデル、前記ロボットに関する制御器、並びに前記ロボットの動作に関する目標パラメータに基づき、目標状態に対する可到達性を評価する評価関数を用いた最適化問題を設定し、
　当該最適化問題における解となる前記評価関数の関数値を計算し、
　前記関数値に基づき、前記制御器によって実行される前記ロボットの動作の実行可能状態集合を学習する処理をコンピュータに実行させるプログラムが格納された記憶媒体。
　コンピュータが、
　制御パラメータに従い動作するロボットによって状態が変化するシステムについて、第１状態から第２状態に至るまでの前記制御パラメータを、複数の前記状態と前記制御パラメータとの関係性を表す第１モデルを用いて決定し、
　前記システムのある所望状態に対して到達可能な初期状態を評価する第２モデルを、前記第１状態と、決定した前記制御パラメータとに基づき決定する
　学習方法。