WO2021033486A1

WO2021033486A1 - モデル生成装置、モデル生成方法、制御装置及び制御方法

Info

Publication number: WO2021033486A1
Application number: PCT/JP2020/028446
Authority: WO
Inventors: 洋平大川; 剣之介林; 義也柴田
Original assignee: オムロン株式会社
Priority date: 2019-08-22
Filing date: 2020-07-22
Publication date: 2021-02-25
Also published as: JP7295421B2; US20220258336A1; CN114096968A; EP4019207A4; JP2021030360A; EP4019207A1

Abstract

本発明の一側面に係るモデル生成装置は、２つの対象物の間の位置関係を示す訓練データ及びその位置関係において２つの対象物が互いに接触するか否かを示す正解データの組み合わせによりそれぞれ構成される複数の学習データセットを使用して、判定モデルの機械学習モデルを実施する。機械学習を実施することは、各学習データセットについて、訓練データの入力に対して、対応する正解データに適合する出力値を出力するように判定モデルを訓練することにより構成される。

Description

モデル生成装置、モデル生成方法、制御装置及び制御方法

　本発明は、モデル生成装置、モデル生成方法、制御装置及び制御方法に関する。

　製品を生産する生産ラインでは、マニピュレータ等のロボット装置が利用されている。マニピュレータの機構、エンドエフェクタ、ワーク等の構成要素は、遂行する作業（タスク）等に応じて多くのバリエーションを有しており、それらすべてに対応したロボット装置の動作手順を人手で作成して、ロボット装置に対象の作業を教示するのは困難である。そのため、従来、機構、エンドエフェクタ、ワーク等の構成要素の種類を決定した後、ロボット装置を人手で動かして、実行させる一連の動作における姿勢をレコードしながら、遂行する作業を直接的にティーチングする方法が採用されている。

　しかしながら、この方法では、機構、エンドエフェクタ、ワーク等の構成要素が変更される度に、遂行する作業をロボット装置に教示することになる。したがって、遂行する作業をロボット装置に教示するのにあまりにコストがかかってしまう。そこで、近年、機械学習を利用して、遂行する作業をロボット装置に習得させる方法が研究されている。例えば、非特許文献１では、カメラから得られる画像データに基づいて対象物を把持する動作を強化学習によりロボット装置に習得させる方法が提案されている。この方法によれば、対象物を把持する動作をロボット装置に教示する一連の処理の少なくとも一部を自動化することができる。よって、ロボット装置に作業を教示するコストを低減することができる。

Dmitry Kalashnikov, et al. "QT-Opt: Scalable Deep Reinforcement Learning for Vision-Based Robotic Manipulation" arXiv preprint arXiv:1806.10293, 2018.

　本件発明者らは、上記のようなロボット装置の従来の制御方法には、次のような問題点があることを見出した。例えば、エンドエフェクタ、ワーク、障害物等の対象物の移動を座標空間内で表現することがある。この場合に、２つの対象物が互いに接触するか否かを示す値を座標点毎に保持することで、２つの対象物が接触する境界を表現することができる。しかしながら、この表現方法では、対象物の組み合わせ、座標の次元数及び解像度（分解能）に応じて、２つの対象物が接触する境界を表現する情報のデータ量が爆発的に増加してしまう。例えば、対象物の座標を３次元位置及び３次元姿勢で表現したと想定する。この場合、対象物の座標は６次元で表現される。そのため、接触の境界を表現する情報の解像度（分解能）を上げると、６乗のオーダでデータ量が増加してしまう。そのため、上記の表現方法では、組み込みシステム等の比較的に記憶容量の小さいシステムには、接触の境界を表現する情報を格納するのが困難である。なお、この問題点は、ロボット装置の動作を規定する場面に限られず、２つの対象物の接触を取り扱うあらゆる場面に生じ得る。

　本発明は、一側面では、このような実情を鑑みてなされたものであり、その目的は、２つの対象物が接触する境界を表現する情報のデータ量を低減するための技術を提供することである。

　本発明は、上述した課題を解決するために、以下の構成を採用する。

　すなわち、本発明の一側面に係るモデル生成装置は、２つの対象物の間の位置関係を示す訓練データ及び前記位置関係において前記２つの対象物が互いに接触するか否かを示す正解データの組み合わせによりそれぞれ構成される複数の学習データセットを取得するデータ取得部と、取得された前記複数の学習データセットを使用して、判定モデルの機械学習を実施する機械学習部であって、前記機械学習を実施することは、前記各学習データセットについて、前記訓練データの入力に対して、対応する前記正解データに適合する出力値を出力するように前記判定モデルを訓練することにより構成される、機械学習部と、を備える。

　当該構成に係るモデル生成装置は、機械学習により、対象の位置関係において２つの対象物が接触するか否かを判定するための判定モデルを生成する。機械学習により生成された学習済みの判定モデルによれば、対象の位置関係（例えば、座標）が連続値で与えられても、判定モデルのデータ量の大きな増加を伴うことなく、その位置関係で２つの対象物が互いに接触するか否かを判定することができる。そのため、当該構成によれば、２つの対象物が接触する境界を表現する情報のデータ量を大幅に低減することができる。

　なお、対象物は、実空間又は仮想空間内で取り扱い可能なあらゆる種類の物体を含んでもよい。対象物は、例えば、エンドエフェクタ、ワーク、障害物等のロボット装置の動作に関連し得る物体であってよい。この場合、ロボット装置は、例えば、マニピュレータ等の産業用ロボット、自動的に移動可能な移動体等を含んでよい。産業用ロボットは、例えば、垂直多関節ロボット、スカラロボット、パラレルリンクロボット、直交ロボット、協調ロボット等を含んでよい。自動的に移動可能な移動体は、例えば、ドローン、自度運転可能に構成された車両、モバイルロボット等を含んでよい。

　１つの対象物は、複数の物体により構成されてもよい。３つ以上の物体が存在する場合、複数の物体を１つの対象物とみなし、複数の物体と他の物体との間で接触が生じるか否かを判定するように判定モデルを構成してもよいし、或いは、個々の物体を１つの対象物とみなして、それぞれの物体間で接触が生じるか否かを判定するように判定モデルを構成してもよい。それぞれ異なる対象物の間で接触が生じるか否かを判定する複数の判定モデルが用意されてもよいし、或いは、判定モデルは、対象物の種類等の条件を示す情報の入力を更に受け付け、入力された条件に対応する２つの対象物の間で接触が生じるか否かを判定するように構成されてもよい。

　判定モデルを構成する機械学習モデルの種類は、特に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。判定モデルには、例えば、ニューラルネットワーク、サポートベクタマシン、回帰モデル、決定木等の機械学習モデルが採用されてよい。２つの対象物が互いに接触するか否かは、実空間又は仮想空間を対象に判定されてよい。

　上記一側面に係るモデル生成装置において、前記２つの対象物の間の前記位置関係は、相対座標により表現されてよい。相対座標は、一方の対象物から他方の対象物を見たときの座標である。２つの対象物のうちのいずれを相対座標の基準に選択してよい。当該構成によれば、２つの対象物の間の物理的かつ相対的な位置関係を適切かつ端的に表現することができる。ただし、位置関係の表現方法は、このような例に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。２つの対象物の間の位置関係は、例えば、各々の絶対座標により表現されてもよい。なお、「座標」は、位置及び姿勢の少なくとも一方を含んでよい。３次元空間上では、位置は、前後、左右、及び上下の３つの軸により表現されてよく、姿勢は、各軸の回転（ロール、ピッチ、ヨー）で表現されてよい。

　上記一側面に係るモデル生成装置において、前期２つの対象物のうちの少なくともいずれかは、ロボット装置の動作により移動する対象であってよい。当該構成によれば、ロボット装置の動作を規定する場面で、２つの対象物が接触する境界を表現する情報のデータ量を低減することができる。なお、ロボット装置の動作により移動する対象物は、例えば、エンドエフェクタ等のロボット装置の構成要素であってもよいし、ロボット装置自身であってもよいし、例えば、エンドエフェクタにより保持されたワーク等のロボット装置の構成要素以外の物体であってもよい。

　また、本発明の一側面に係る制御装置は、第１対象物及び第２対象物の存在する環境下で、第１対象物を移動するタスクを遂行するロボット装置の動作を制御するための制御装置であって、前記ロボット装置の現在のタスク状態を取得する状態取得部であって、タスク状態は、前記第１対象物及び前記第２対象物の間の位置関係により規定される、状態取得部と、最終目標のタスク状態に近付くように、取得された前記現在のタスク状態に対して次に遷移する目標のタスク状態を決定する行動決定部と、前記第１対象物及び前記第２対象物の対象のタスク状態を学習済みの判定モデルに与えることで、対象のタスク状態において前記第１対象物及び前記第２対象物が互いに接触するか否かを判定する接触判定部であって、前記学習済みの判定モデルは、機械学習により、前記第１対象物及び前記第２対象物の位置関係を示す訓練データの入力に対して、当該位置関係において前記第１対象物及び前記第２対象物が互いに接触するか否かを示す正解データに適合する出力値を出力するように訓練されている、接触判定部と、前記ロボット装置のタスク状態を前記現在のタスク状態から前記目標のタスク状態に変化させるように、前記ロボット装置に与える制御指令を決定する指令決定部と、決定された前記制御指令を前記ロボット装置に与えることで、前記ロボット装置を駆動する駆動部と、を備える。

　当該構成では、機械学習により生成された学習済みの判定モデルを利用することで、第１対象物及び第２対象物の接触する境界を表現する情報のデータ量を大幅に低減することができる。そのため、当該構成によれば、組込みシステム等の比較的に性能の低いコンピュータでも、第１対象物及び第２対象物の無用な接触を避けるようにロボット装置を適切に駆動可能な制御装置を実現することができる。

　また、従来の制御方法では、遂行するタスクに対して、ロボット装置に与える時系列の制御指令を直接的に関連付けていた。そのため、タスクを遂行する環境及び対象物の少なくとも一方が少しでも変化した場合に、学習結果がその変化に対応することができず、そのタスクを適切に遂行できなくなる可能性があった。これに対して、当該構成では、ロボット装置に与えられる制御指令の系列は、タスクに直接的に関連付けられるのではなく、対象物間の位置関係（タスク状態）の変化量に関連付けられる。すなわち、タスクの内容に依存せずに、位置関係の変化量に対して、時系列の制御指令を生成又は教示することができる。したがって、当該構成によれば、習得されるタスクを遂行する能力の汎用性を高めることができ、これによって、ロボット装置にタスクを教示するのにかかるコストを低減することができる。

　なお、ロボット装置は、例えば、マニピュレータ等の産業用ロボット、自動的に移動可能な移動体等を含んでよい。ロボット装置がマニピュレータである場合、第１対象物は、マニピュレータのエンドエフェクタであってよく、第２対象物は、エンドエフェクタにより保持する対象となるワークであってよい。この場合、マニピュレータにより遂行するタスクは、エンドエフェクタによりワークを保持することであってよい。また、エンドエフェクタがワークを保持した後には、第１対象物はワークであってよく、第２対象物は、ワークを配置する他のワークであってよい。この場合、マニピュレータによる遂行するタスクは、エンドエフェクタにより保持されたワークを他のワークに配置することであってよい。エンドエフェクタ、ワーク、及び他のワークの種類はそれぞれ、特に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。エンドエフェクタは、例えば、グリッパ、吸引器、ドライバ等であってよい。ワークは、例えば、コネクタ、ペグ等であってよい。他のワークは、例えば、ソケット、ホール等であってよい。

　タスクは、ロボット装置に遂行させる作業であり、その種類は、特に限定されなくてよく、実施の形態に応じて適宜選択されてよい。タスクは、例えば、部品運搬、部品嵌合、ネジ回し等であってよい。タスクは、例えば、ワークの保持、ワークの解放等の単純な作業であってもよい。タスクは、例えば、対象のワークを保持し、指定の座標（位置及び姿勢）に対象のワークを配置すること等の対象のワークの座標を変更することであってよい。タスクは、例えば、エンドエフェクタとしてスプレーを用いて、指定の相対座標から当該スプレーによりワークに塗料を噴霧することであってよい。また、タスクは、例えば、エンドエフェクタに取り付けられたカメラを指定の座標に配置することであってもよい。タスクは、予め与えられてもよいし、オペレータの指定により与えられてもよい。

　「最終目標」は、終着点（ゴール）であり、タスクの遂行を完了した時点に実現され、与えられたタスクに応じて設定される。「目標」は、最終目標を含み、タスクの遂行を達成するために適宜設定されてよい。設定される目標の数は、１つであってもよいし（この場合、最終目標だけが設定される）、複数であってもよい。最終目標以外の目標は、開始点から終着点に到達するまでに経由する経由点である。そのため、最終目標を単に「目標（ゴール）」と称し、最終目標以外の目標を「下位目標（サブゴール）」と称してもよい。下位目標は、「経由点」と称してもよい。

　上記一側面に係る制御装置において、前記第１対象物及び前記第２対象物の間の位置関係は、相対座標により表現されてよい。当該構成によれば、第１対象物及び第２対象物の間の物理的かつ相対的な位置関係を適切かつ端的に表現することができる。ただし、位置関係の表現方法は、このような例に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。第１対象物及び第２対象物の間の位置関係は、例えば、各々の絶対座標により表現されてもよい。

　上記一側面に係る制御装置は、前記学習済みの判定モデルによる前記判定の結果を利用して、前記第１対象物が前記第２対象物に接触しないように、前記現在のタスク状態及び前記最終目標のタスク状態から次に遷移する前記目標のタスク状態を推論するための推論モデルを生成するモデル生成部を更に備えてもよい。前記行動決定部は、生成された前記推論モデルを利用して、前記現在のタスク状態に対して次に遷移する前記目標のタスク状態を決定してもよい。

　学習済みの判定モデルによれば、第１対象物及び第２対象物が互いに接触するか否かを判定することができる。そのため、学習済みの判定モデルの判定結果を利用することで、第１対象物及び第２対象物の無用な接触を避けるように、現在のタスク状態及び最終目標のタスク状態から目標のタスク状態を推論可能な推論モデルを構築することができる。当該構成によれば、ロボット装置の動作を制御する運用時にこの推論モデルを利用することで、判定モデルの演算処理を伴わなくても、第１対象物及び第２対象物が互いに接触しないように目標のタスク状態を決定することができる。そのため、制御処理の演算コストを低減することができる。

　なお、第１対象物が第２対象物に接触しないように目標のタスク状態を推論することは、第１対象物及び第２対象物の間で意図しない接触が生じるのを避けて目標のタスク状態を決定することであり、例えば、エンドエフェクタがワークを保持する等の第１対象物が第２対象物に適正に接触するタスク状態を目標のタスク状態として決定することを含んでもよい。

　上記一側面に係る制御装置において、前記モデル生成部は、機械学習を実施することで、前記推論モデルを生成してもよい。当該構成によれば、タスクの遂行に利用可能な推論モデルを適切に生成することができる。なお、推論モデルを構成する機械学習モデルの種類は、特に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。推論モデルは、例えば、関数式、データテーブル等により表現されてよい。関数式で表現される場合、推論モデルは、例えば、ニューラルネットワーク、サポートベクタマシン、回帰モデル、決定木等により構成されてよい。また、機械学習の方法も、特に限定されなくてもよく、推論モデルの構成に応じて適宜選択されてよい。推論モデルの機械学習には、例えば、教師あり学習、強化学習等が採用されてよい。

　上記一側面に係る制御装置において、前記機械学習は、対象のタスク状態において前記第１対象物及び前記第２対象物が互いに接触するか否かを前記学習済みの判定モデルにより判定した結果、並びに当該対象のタスク状態及び前記最終目標のタスク状態の間の距離に応じて報酬が設定された強化学習により構成されてよい。前記報酬は、前記第１対象物及び前記第２対象物が互いに接触せず、かつ前記距離が短いほど多く設定され、前記第１対象物及び前記第２対象物が互いに接触する、又は前記距離が長いほど少なく設定されてよい。前記機械学習を実施することは、前記報酬が多く得られるように前記推論モデルを構成する演算パラメータの値の修正を繰り返すことを含んでよい。当該構成によれば、第１対象物及び第２対象物の無用な接触を避けると共に、前記ロボット装置のタスク状態が最終目標のタスク状態に早く到達するように目標のタスク状態を決定可能な推論モデルを生成することができる。これにより、タスクを適切に遂行するようにロボット装置を制御可能な制御装置を実現することができる。

　上記一側面に係る制御装置において、前記推論モデルは、前記タスク状態の集合を表現するタスク空間内の各座標のポテンシャルを規定するポテンシャル場により構成されてよい。前記モデル生成部は、前記タスク空間内で、前記学習済みの判定モデルを利用して、前記第１対象物が前記第２対象物に接触しないように、パスプランニングを実施することで、それぞれ開始点として与えられた複数のタスク状態それぞれから前記最終目標のタスク状態までの経路を生成してもよく、生成された各経路の通過する頻度に応じて、前記各座標のポテンシャルを設定することで、前記ポテンシャル場を生成してもよい。前記行動決定部は、生成された前記ポテンシャル場における、前記現在のタスク状態に対応する座標に設定されたポテンシャルの勾配に応じて、次に遷移する前記目標のタスク状態を決定してもよい。当該構成によれば、タスクの遂行に利用可能な推論モデルを適切に生成することができる。

　なお、ポテンシャル場における各座標のポテンシャルは、最終目標に到達することに対する、各座標における第１対象物及び第２対象物の位置関係の評価値を示す。すなわち、ポテンシャルが高いほど、その座標における位置関係が最終目標に到達する可能性が高いことを示し、ポテンシャルが低いほど、その座標における位置関係が最終目標に到達する可能性が低いことを示す。そのため、ポテンシャルの勾配の高い方に遷移することで、開始点となる任意のタスク状態から最終目標のタスク状態に適切に到達することができる。

　上記各形態に係るモデル生成装置及び制御装置の別の態様として、本発明の一側面は、以上のモデル生成装置又は制御装置の各構成を実現する情報処理方法であってもよいし、プログラムであってもよいし、このようなプログラムを記憶した、コンピュータ等が読み取り可能な記憶媒体であってもよい。コンピュータ等が読み取り可能な記憶媒体とは、プログラム等の情報を、電気的、磁気的、光学的、機械的、又は、化学的作用によって蓄積する媒体である。また、本発明の一側面に係る制御システムは、上記いずれかの形態に係るモデル生成装置及び上記いずれかの形態に係る制御装置により構成されてよい。また、本発明の一側面に係るモデル生成装置は、上記制御装置のモデル生成部に関する部分により構成されてよい。

　例えば、本発明の一側面に係るモデル生成方法は、コンピュータが、２つの対象物の間の位置関係を示す訓練データ及び前記位置関係において前記２つの対象物が互いに接触するか否かを示す正解データの組み合わせによりそれぞれ構成される複数の学習データセットを取得するステップと、取得された前記複数の学習データセットを使用して、判定モデルの機械学習を実施するステップであって、前記機械学習を実施することは、前記各学習データセットについて、前記訓練データの入力に対して、対応する前記正解データに適合する出力値を出力するように前記判定モデルを訓練することにより構成される、ステップと、を実行する、情報処理方法である。

　また、例えば、本発明の一側面に係るモデル生成プログラムは、コンピュータに、２つの対象物の間の位置関係を示す訓練データ及び前記位置関係において前記２つの対象物が互いに接触するか否かを示す正解データの組み合わせによりそれぞれ構成される複数の学習データセットを取得するステップと、取得された前記複数の学習データセットを使用して、判定モデルの機械学習を実施するステップであって、前記機械学習を実施することは、前記各学習データセットについて、前記訓練データの入力に対して、対応する前記正解データに適合する出力値を出力するように前記判定モデルを訓練することにより構成される、ステップと、を実行させるためのプログラムである。

　また、例えば、本発明の一側面に係る制御方法は、第１対象物及び第２対象物の存在する環境下で、第１対象物を移動するタスクを遂行するロボット装置の動作を制御するための情報処理方法であって、コンピュータが、前記第１対象物及び前記第２対象物の現在のタスク状態を取得するステップであって、タスク状態は、前記第１対象物及び前記第２対象物の間の位置関係により規定される、ステップと、最終目標のタスク状態に近付くように、取得された前記現在のタスク状態に対して次に遷移する目標のタスク状態を決定するステップと、前記第１対象物及び前記第２対象物の対象のタスク状態を学習済みの判定モデルに与えることで、対象のタスク状態において前記第１対象物及び前記第２対象物が互いに接触するか否かを判定するステップであって、前記学習済みの判定モデルは、機械学習により、前記第１対象物及び前記第２対象物の位置関係を示す訓練データの入力に対して、当該位置関係において前記第１対象物及び前記第２対象物が互いに接触するか否かを示す正解データに適合する出力値を出力するように訓練されている、ステップと、前記ロボット装置のタスク状態を前記現在のタスク状態から前記目標のタスク状態に変化させるように、前記ロボット装置に与える制御指令を決定するステップと、決定された前記制御指令を前記ロボット装置に与えることで、前記ロボット装置の動作を制御するステップと、を実行する、情報処理方法である。

　また、例えば、本発明の一側面に係る制御プログラムは、第１対象物及び第２対象物の存在する環境下で、第１対象物を移動するタスクを遂行するロボット装置の動作を制御するためのプログラムであって、コンピュータに、前記第１対象物及び前記第２対象物の現在のタスク状態を取得するステップであって、タスク状態は、前記第１対象物及び前記第２対象物の間の位置関係により規定される、ステップと、最終目標のタスク状態に近付くように、取得された前記現在のタスク状態に対して次に遷移する目標のタスク状態を決定するステップと、前記第１対象物及び前記第２対象物の対象のタスク状態を学習済みの判定モデルに与えることで、対象のタスク状態において前記第１対象物及び前記第２対象物が互いに接触するか否かを判定するステップであって、前記学習済みの判定モデルは、機械学習により、前記第１対象物及び前記第２対象物の位置関係を示す訓練データの入力に対して、当該位置関係において前記第１対象物及び前記第２対象物が互いに接触するか否かを示す正解データに適合する出力値を出力するように訓練されている、ステップと、前記ロボット装置のタスク状態を前記現在のタスク状態から前記目標のタスク状態に変化させるように、前記ロボット装置に与える制御指令を決定するステップと、決定された前記制御指令を前記ロボット装置に与えることで、前記ロボット装置の動作を制御するステップと、を実行させるためのプログラムである。

　本発明によれば、２つの対象物が接触する境界を表現する情報のデータ量を低減することができる。

図１は、本発明が適用される場面の一例を模式的に例示する。図２Ａは、実施の形態に係る２つの対象物の間の位置関係の一例を模式的に例示する。図２Ｂは、実施の形態に係る２つの対象物の間の位置関係の一例を模式的に例示する。図３は、２つの対象物が接触するか否かを示す値を座標点毎に保持する形態の一例を模式的に例示する。図４は、実施の形態に係るモデル生成装置のハードウェア構成の一例を模式的に例示する。図５は、実施の形態に係る制御装置のハードウェア構成の一例を模式的に例示する。図６は、実施の形態に係るロボット装置の一例を模式的に例示する。図７は、実施の形態に係るモデル生成装置のソフトウェア構成の一例を模式的に例示する。図８は、実施の形態に係る制御装置のソフトウェア構成の一例を模式的に例示する。図９は、実施の形態に係るモデル生成装置の処理手順の一例を例示する。図１０は、実施の形態に係る制御装置による推論モデルの生成に関する処理手順の一例を例示する。図１１Ａは、実施の形態に係るタスク空間の一例を模式的に例示する。図１１Ｂは、実施の形態に係るタスク空間の一例を模式的に例示する。図１１Ｃは、実施の形態に係るタスク空間の一例を模式的に例示する。図１２は、実施の形態に係る推論モデルの構成及び生成方法の一例を模式的に例示する。図１３は、実施の形態に係る推論モデルの構成及び生成方法の一例を模式的に例示する。図１４Ａは、実施の形態に係る学習データの一例を模式的に例示する。図１４Ｂは、実施の形態に係る推論モデルの構成の一例を模式的に例示する。図１５Ａは、実施の形態に係る制御装置によるロボット装置の動作の制御に関する処理手順の一例を例示する。図１５Ｂは、実施の形態に係る制御装置によるロボット装置の動作の制御に関する処理手順の一例を例示する。図１６は、実施の形態に係る各要素の計算過程の一例を例示する。図１７は、実施の形態に係る各対象物の位置関係を模式的に例示する。図１８Ａは、エンドエフェクタがワークを保持していない時における各関節と手先との関係の一例を模式的に示す。図１８Ｂは、エンドエフェクタがワークを保持している時における各関節と手先との関係の一例を模式的に示す。図１９は、変形例に係る制御装置による目標決定に関するサブルーチンの処理手順の一例を例示する。図２０は、変形例に係るモデル生成装置のソフトウェア構成の一例を模式的に例示する。

　以下、本発明の一側面に係る実施の形態（以下、「本実施形態」とも表記する）を、図面に基づいて説明する。ただし、以下で説明する本実施形態は、あらゆる点において本発明の例示に過ぎない。本発明の範囲を逸脱することなく種々の改良や変形を行うことができることは言うまでもない。つまり、本発明の実施にあたって、実施形態に応じた具体的構成が適宜採用されてもよい。なお、本実施形態において登場するデータを自然言語により説明しているが、より具体的には、コンピュータが認識可能な疑似言語、コマンド、パラメータ、マシン語等で指定される。

　§１　適用例
　まず、図１を用いて、本発明が適用される場面の一例について説明する。図１は、本発明の適用場面の一例を模式的に例示する。図１に示されるとおり、本実施形態に係る制御システム１００は、モデル生成装置１及び制御装置３を備えている。モデル生成装置１及び制御装置３は、ネットワークを介して互いに接続されてよい。ネットワークの種類は、例えば、インターネット、無線通信網、移動通信網、電話網、専用網等から適宜選択されてよい。

　＜モデル生成装置＞
　本実施形態に係るモデル生成装置１は、対象の位置関係において２つの対象物が互いに接触するか否かを判定するための判定モデル５０を生成するように構成されたコンピュータである。具体的には、本実施形態に係るモデル生成装置１は、２つの対象物の間の位置関係を示す訓練データ１２２及び当該位置関係において２つの対象物が互いに接触するか否かを示す正解データ１２３の組み合わせによりそれぞれ構成される複数の学習データセット１２１を取得する。

　本実施形態では、２つの対象物の間の位置関係は、相対座標により表現される。相対座標は、一方の対象物から他方の対象物を見たときの座標である。２つの対象物のうちのいずれを相対座標の基準に選択してよい。「座標」は、位置及び姿勢の少なくとも一方を含んでよい。３次元空間上では、位置は、前後、左右、及び上下の３つの軸により表現されてよく、姿勢は、各軸の回転（ロール、ピッチ、ヨー）で表現されてよい。本実施形態では、相対座標は、３次元の相対位置及び３次元の相対姿勢の６次元で表現されてよい。なお、相対座標の次元数は、６次元に限られなくてよく、適宜削減されてよい。

　そして、本実施形態に係るモデル生成装置１は、取得された複数の学習データセット１２１を使用して、判定モデル５０の機械学習を実施する。機械学習を実施することは、各学習データセット１２１について、訓練データ１２２の入力に対して、対応する正解データ１２３に適合する出力値を出力するように判定モデル５０を訓練することにより構成される。この機械学習により、対象の位置関係において２つの対象物が互いに接触するか否かを判定する能力を習得した学習済みの判定モデル５０を構築することができる。

　本実施形態では、学習済みの判定モデル５０は、エンドエフェクタＴを備えるマニピュレータ４、ワークＷ、及び他のワークＧが存在する空間で、ワークＷ及びエンドエフェクタＴの間で接触が生じるか否か、並びにワークＷ及び他のワークＧの間で接触が生じるか否かを判定するのに利用される。マニピュレータ４は、「ロボット装置」の一例である。エンドエフェクタＴ、ワークＷ、及び他のワークＧは、「対象物」の一例である。エンドエフェクタＴ、ワークＷ、及び他のワークＧの種類はそれぞれ、特に限定されなくてもよく、タスクに応じて適宜選択されてよい。エンドエフェクタＴは、例えば、グリッパ、吸引器、ドライバ等であってよい。ワークＷは、例えば、コネクタ、ペグ等であってよい。他のワークＧは、例えば、ソケット、ホール等であってよい。他のワークＧは、ワークＷの組付け先の対象物の一例である。エンドエフェクタＴによりワークＷを保持することは、例えば、グリッパによりワークを把持すること、吸引器によりワークを吸引保持すること、ドライバの先端にワークを保持すること等であってよい。

　より詳細には、本実施形態に係るマニピュレータ４は、一例として、エンドエフェクタＴによりワークＷを保持し、保持したワークＷを他のワークＧに組み付けるタスクを遂行する。このタスクは、エンドエフェクタＴによりワークＷを保持する第１タスク及び保持されたワークＷを他のワークＧに運搬する第２タスクの２つに分けることができる。エンドエフェクタＴを移動させて、ワークＷを保持する第１タスクを遂行する場面で、学習済みの判定モデル５０は、ワークＷ及びエンドエフェクタＴの間で無用な接触が生じるか否かを判定するのに利用される。また、ワークＷを保持した後、エンドエフェクタＴを移動させて、保持されたワークＷを他のワークＧに運搬する第２タスクを遂行する場面で、学習済みの判定モデル５０は、ワークＷ及び他のワークＧの間で無用な接触が生じるか否かを判定するのに利用される。

　つまり、本実施形態では、学習済みの判定モデル５０により接触が生じるか否かを判定する２つの対象物のうちの少なくともいずれかは、ロボット装置（マニピュレータ４）の動作により移動する対象である。２つの対象物のうちのいずれか一方のみが、ロボット装置の動作により移動する対象であってもよいし、或いは、２つの対象物のうちの両方が、ロボット装置の動作により移動する対象であってもよい。ただし、本発明の適用対象は、このような例に限定されなくてもよい。本発明は、２つの対象物の接触を判定するあらゆる場面に適用されてよい。

　なお、上記のように、接触するか否かを判定する対象が複数存在する場合、それぞれ異なる対象物の間で接触が生じるか否かを判定する複数の学習済みの判定モデル５０が用意されてもよい。或いは、学習済みの判定モデル５０は、例えば、対象物の種類、対象物の識別子等の対象物の条件を示す情報の入力を更に受け付け、入力された条件に対応する２つの対象物の間で接触が生じるか否かを判定するように構成されてもよい。いずれの方法が採用されてもよい。以下では、説明の便宜のため、学習済みの判定モデル５０の判定対象を区別せずに説明する。

　＜制御装置＞
　本実施形態に係る制御装置３は、第１対象物及び第２対象物の存在する環境下で、第２対象物に対して第１対象物を移動するタスクを遂行するロボット装置の動作を制御するように構成されたコンピュータである。上記第１タスク及び第２タスクは、この「第２対象物に対して第１対象物を移動するタスク」の一例である。第１タスクを遂行する場面では、エンドエフェクタＴが第１対象物の一例であり、ワークＷが第２対象物の一例である。また、第２タスクを遂行する場面では、ワークＷが第１対象物の一例であり、他のワークＧが第２対象物の一例である。上記のとおり、マニピュレータ４が、ロボット装置の一例である。

　まず、本実施形態に係る制御装置３は、第１対象物及び第２対象物の現在のタスク状態を示す情報を取得する。タスク状態は、第１対象物及び第２対象物（すなわち、２つの対象物）の間の位置関係により規定される。本実施形態では、タスク状態を観測する視覚系のセンサとしてカメラＳ１が用いられる。また、後述するとおり、マニピュレータ４の各関節の角度を測定するためにエンコーダが用いられ、エンドエフェクタＴによるワークＷの保持状態を測定するために触覚センサが用いられる。本実施形態では、これらのセンサにより、現在のタスク状態を観測することができる。

　ここで、図２Ａ及び図２Ｂを更に用いて、第１対象物及び第２対象物の間の位置関係によりタスク状態を規定する方法の具体例について説明する。図２Ａは、上記第１タスクを遂行する場面におけるエンドエフェクタＴ及びワークＷの間の位置関係の一例を模式的に例示する。図２Ｂは、上記第２タスクを遂行する場面におけるワークＷ及び他のワークＧの間の位置関係の一例を模式的に例示する。上記のとおり、本実施形態では、２つの対象物の間の位置関係は、相対座標により表現される。

　本実施形態では、図２Ａに示されるとおり、第１タスクを遂行する場面等のように、エンドエフェクタＴがワークＷを保持していない間は、エンドエフェクタＴの注目点Ｔ０がマニピュレータ４の手先として取り扱われる。第１タスクでは、ワークＷが、エンドエフェクタＴの移動の目標物である。エンドエフェクタＴとワークＷとの間の位置関係は、エンドエフェクタＴに対するワークＷの相対座標ＲＣ１により表現される。相対座標ＲＣ１は、エンドエフェクタＴの注目点Ｔ０を原点とするローカル座標系ＣＴから見た、ワークＷの注目点Ｗ０を原点とするローカル座標系ＣＷを表す。本実施形態では、第１タスクを遂行する場面におけるマニピュレータ４のタスク状態は、この相対座標ＲＣ１により規定される。

　一方、図２Ｂに示されるとおり、第２タスクを遂行する場面等のように、エンドエフェクタＴがワークＷを保持している間、ワークＷの注目点Ｗ０がマニピュレータ４の手先として取り扱われる。第２タスクでは、他のワークＧが、エンドエフェクタＴの移動の目標物である。ワークＷと他のワークＧとの間の位置関係は、ワークＷに対する他のワークＧの相対座標ＲＣ２により表現される。相対座標ＲＣ２は、ワークＷの注目点Ｗ０を原点とするローカル座標系ＣＷから見た、他のワークＧの注目点Ｇ０を原点とするローカル座標系ＣＧを表す。本実施形態では、第２タスクを遂行する場面におけるマニピュレータ４のタスク状態は、この相対座標ＲＣ２により規定される。

　すなわち、本実施形態では、第１タスク及び第２タスクを遂行する両方の場面で、タスク状態は、マニピュレータ４の手先及び目標物の間の位置関係（本実施形態では、相対座標）により規定される。マニピュレータ４の手先が第１対象物に相当し、目標物が第２対象物に相当する。これにより、第１タスク及び第２タスクを共に、マニピュレータ４の手先を目標物に対して移動するタスクとして捉えることができる。したがって、本実施形態によれば、マニピュレータ４の制御処理を単純化することができ、これによって、マニピュレータ４の動作を生成又は教示するコストを低減することができる。

　なお、各注目点（Ｔ０、Ｗ０、Ｇ０）は任意に設定されてよい。また、相対座標の与え方は、上記のような例に限定されなくてもよく、実施の形態に応じて適宜決定されてよい。例えば、相対座標ＲＣ１は、ワークＷの注目点Ｗ０を原点とするローカル座標系ＣＷから見た、エンドエフェクタＴの注目点Ｔ０を原点とするローカル座標系ＣＴを表す等のように、各相対座標（ＲＣ１、ＲＣ２）の関係は反転されてもよい。また、手先を移動することは、目標物に手先を近付けることに限られなくてもよく、実施の形態に応じて適宜決定されてよい。手先を移動することは、例えば、目標物から手先を遠ざけること、目標物を基準にして所定の位置に手先を移動すること等であってよい。

　次に、本実施形態に係る制御装置３は、最終目標のタスク状態に近付くように、取得された情報により示される現在のタスク状態に対して、次に遷移する目標のタスク状態を決定する。第１タスクを遂行する場面では、エンドエフェクタＴによりワークＷを保持した状態が、最終目標のタスク状態の一例である。また、第２タスクを遂行する場面では、ワークＷを他のワークＧの所望の位置に配置した状態が、最終目標のタスク状態の一例である。

　また、本実施形態に係る制御装置３は、第１対象物及び第２対象物の対象のタスク状態を示す情報を学習済みの判定モデル５０に与えることで、対象のタスク状態において第１対象物及び第２対象物が互いに接触するか否かを判定する。学習済みの判定モデル５０は、上記機械学習により、第１対象物及び第２対象物の位置関係を示す訓練データ（訓練データ１２２）の入力に対して、当該位置関係において第１対象物及び第２対象物が互いに接触するか否かを示す正解データ（正解データ１２３）に適合する出力値を出力するように訓練されている。

　本実施形態に係る制御装置３は、ロボット装置（マニピュレータ４）のタスク状態を現在のタスク状態から目標のタスク状態に変化させるように、ロボット装置（マニピュレータ４）に与える制御指令を決定する。そして、制御装置３は、決定された制御指令をロボット装置に与えることで、ロボット装置を駆動する。これにより、本実施形態に係る制御装置３は、第２対象物に対して第１対象物を移動するタスクを遂行するロボット装置の動作を制御することができる。

　＜作用効果＞
　以上のとおり、本実施形態に係るモデル生成装置１は、機械学習により、対象の位置関係において２つの対象物が接触するか否かを判定するための判定モデル５０を生成する。機械学習により生成された学習済みの判定モデル５０によれば、対象の位置関係（本実施形態では、相対座標）が連続値で与えられても、判定モデル５０のデータ量の大きな増加を伴うことなく、その位置関係で２つの対象物が互いに接触するか否かを判定することができる。そのため、本実施形態によれば、２つの対象物が接触する境界を表現する情報のデータ量を大幅に低減することができる。

　ここで、図３を更に用いて、この作用効果の具体例について説明する。図３は、２つの対象物が互いに接触するか否かを示す値を座標点毎に保持する形態の一例を模式的に例示する。白丸が、その座標に対応する位置関係において２つの対象物が互いに接触しないことを示し、黒丸が、その座標に対応する位置関係において２つの対象物が互いに接触することを示す。図３では、２次元により各座標点を表現しているが、上記６次元の相対座標の空間では、各座標点は、６次元で表現される。この場合、空間の解像度（分解能）を上げると、６乗のオーダでデータ量が増加してしまう。例えば、実空間での運用に利用可能な解像度で座標点を設定すると、当該情報のデータ量は、簡単に、ギガバイト単位になり得る。

　これに対して、本実施形態では、対象の位置関係において２つの対象物が互いに接触するか否かを示す情報を学習済みの判定モデル５０により保持する。この学習済みの判定モデル５０の演算パラメータの数は、相対座標の次元数に依存し得るものの、この演算パラメータの数を増やすことなく、連続値を取り扱うことができる。そのため、例えば、後述するとおり、３層構造のニューラルネットワークにより判定モデル５０を構成した場合には、学習済みの判定モデル５０のデータ量を数メガバイト程度に抑えることができる。そのため、本実施形態によれば、２つの対象物が接触する境界を表現する情報のデータ量を大幅に低減することができる。これにより、組込みシステム等の比較的に性能の低いコンピュータでも、第１対象物及び第２対象物の無用な接触を避けるようにロボット装置を適切に駆動可能な制御装置３を実現することができる。

　また、ロボット装置の従来の制御方法では、遂行するタスクに対して、ロボット装置に与える時系列の制御指令を直接的に関連付けていた。すなわち、従来の制御方法では、遂行するタスクを制御指令の系列により直接的に記述していた。そのため、タスクを遂行する環境及び対象物の少なくとも一方が少しでも変化した場合に、学習結果がその変化に対応することができず、そのタスクを適切に遂行できなくなる可能性があった。

　例えば、エンドエフェクタによりワークを保持するタスクをロボット装置に教示する場面を想定する。この場合に、ワークが対象の地点に正確に配置されていれば、ロボット装置は、学習結果に基づいて、エンドエフェクタによりワークを保持することができる。一方、ワークの姿勢が学習時とは異なっていたり、ワークが学習時と異なる位置に配置されたりした場合には、エンドエフェクタによりワークを保持する座標が変化する。これにより、ロボット装置がこの場面で遂行すべきタスクの内容が実質的に変化してしまう。そのため、学習結果により得た制御指令の系列では、ロボット装置は、エンドエフェクタによりワークを適切に保持できない可能性がある。

　このように、従来の制御方法では、タスクを遂行する環境及び対象物の少なくとも一方が少しでも変化した場合に、学習結果がその変化に対応できず、そのタスクを新たに学習させなければ、ロボット装置が、そのタスクを適切に遂行できない可能性があるという問題点があった。これに起因して、ロボット装置を汎用的に動作させるためには、同じタスクでも異なる状態毎に制御指令を学習させることになり、ロボット装置にタスクを教示するのにかかるコストが依然として高かった。

　これに対して、本実施形態では、マニピュレータ４により実行するタスクの状態が、エンドエフェクタＴ、ワークＷ、他のワークＧ等の対象物間の相対的な関係、具体的には、対象物間の位置関係により表現される。これにより、マニピュレータ４に与えられる制御指令は、タスクに直接的に関連付けられるのではなく、対象物間の相対的な位置関係の変化量に関連付けられる。すなわち、タスクの内容に依存せずに、対象物の相対的な位置関係を変化させることに対して、マニピュレータ４に与える時系列の制御指令を生成又は教示することができる。例えば、上記の例では、ワークの座標が変化しても、エンドエフェクタとワークとの間の位置関係を把握する際に、そのワークの座標の変化が考慮される。そのため、ロボット装置は、学習結果に基づいて、ワークを適切に保持することができる。したがって、本実施形態によれば、習得されるタスクを遂行する能力の汎用性を高めることができ、これによって、マニピュレータ４にタスクを教示するのにかかるコストを低減することができる。

　§２　構成例
　［ハードウェア構成］
　＜モデル生成装置＞
　次に、図４を用いて、本実施形態に係るモデル生成装置１のハードウェア構成の一例について説明する。図４は、本実施形態に係るモデル生成装置１のハードウェア構成の一例を模式的に例示する。

　図４に示されるとおり、本実施形態に係るモデル生成装置１は、制御部１１、記憶部１２、通信インタフェース１３、外部インタフェース１４、入力装置１５、出力装置１６、及びドライブ１７が電気的に接続されたコンピュータである。なお、図４では、通信インタフェース及び外部インタフェースを「通信Ｉ／Ｆ」及び「外部Ｉ／Ｆ」と記載している。

　制御部１１は、ハードウェアプロセッサであるＣＰＵ（Central Processing Unit）、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）等を含み、プログラム及び各種データに基づいて情報処理を実行するように構成される。記憶部１２は、メモリの一例であり、例えば、ハードディスクドライブ、ソリッドステートドライブ等で構成される。本実施形態では、記憶部１２は、モデル生成プログラム８１、ＣＡＤ（computer-aided design）データ１２０、複数の学習データセット１２１、学習結果データ１２５等の各種情報を記憶する。

　モデル生成プログラム８１は、判定モデル５０の機械学習に関する後述の情報処理（図９）をモデル生成装置１に実行させるためのプログラムである。モデル生成プログラム８１は、当該情報処理の一連の命令を含む。ＣＡＤデータ１２０は、各対象物（エンドエフェクタＴ、ワークＷ、他のワークＧ）のモデル（例えば、３次元モデル）等の幾何学的な構成を示す構成情報を含む。ＣＡＤデータ１２０は、公知のソフトウェアにより生成されてよい。複数の学習データセット１２１は、判定モデル５０の機械学習に使用される。学習結果データ１２５は、機械学習により生成された学習済みの判定モデル５０に関する情報を示す。学習結果データ１２５は、モデル生成プログラム８１を実行した結果として得られる。詳細は後述する。

　通信インタフェース１３は、例えば、有線ＬＡＮ（Local Area Network）モジュール、無線ＬＡＮモジュール等であり、ネットワークを介した有線又は無線通信を行うためのインタフェースである。モデル生成装置１は、この通信インタフェース１３を利用することで、ネットワークを介したデータ通信を他の情報処理装置（例えば、制御装置３）と行うことができる。

　外部インタフェース１４は、例えば、ＵＳＢ（Universal Serial Bus）ポート、専用ポート等であり、外部装置と接続するためのインタフェースである。外部インタフェース１４の種類及び数は、接続される外部装置の種類及び数に応じて適宜選択されてよい。モデル生成装置１は、実空間において対象物が接触するか否かを判定するために、外部インタフェース１４を介して、マニピュレータ４及びカメラＳ１と接続されてもよい。

　入力装置１５は、例えば、マウス、キーボード等の入力を行うための装置である。また、出力装置１６は、例えば、ディスプレイ、スピーカ等の出力を行うための装置である。オペレータは、入力装置１５及び出力装置１６を利用することで、モデル生成装置１を操作することができる。

　ドライブ１７は、例えば、ＣＤドライブ、ＤＶＤドライブ等であり、記憶媒体９１に記憶されたプログラムを読み込むためのドライブ装置である。ドライブ１７の種類は、記憶媒体９１の種類に応じて適宜選択されてよい。上記モデル生成プログラム８１、ＣＡＤデータ１２０、及び複数の学習データセット１２１の少なくともいずれかは、この記憶媒体９１に記憶されていてもよい。

　記憶媒体９１は、コンピュータその他装置、機械等が、記憶されたプログラム等の情報を読み取り可能なように、当該プログラム等の情報を、電気的、磁気的、光学的、機械的又は化学的作用によって蓄積する媒体である。モデル生成装置１は、この記憶媒体９１から、上記モデル生成プログラム８１、ＣＡＤデータ１２０、及び複数の学習データセット１２１の少なくともいずれかを取得してもよい。

　ここで、図４では、記憶媒体９１の一例として、ＣＤ、ＤＶＤ等のディスク型の記憶媒体を例示している。しかしながら、記憶媒体９１の種類は、ディスク型に限定される訳ではなく、ディスク型以外であってもよい。ディスク型以外の記憶媒体として、例えば、フラッシュメモリ等の半導体メモリを挙げることができる。

　なお、モデル生成装置１の具体的なハードウェア構成に関して、実施形態に応じて、適宜、構成要素の省略、置換及び追加が可能である。例えば、制御部１１は、複数のハードウェアプロセッサを含んでもよい。ハードウェアプロセッサは、マイクロプロセッサ、ＦＰＧＡ（field-programmable gate array）、ＤＳＰ（digital signal processor）等で構成されてよい。記憶部１２は、制御部１１に含まれるＲＡＭ及びＲＯＭにより構成されてもよい。通信インタフェース１３、外部インタフェース１４、入力装置１５、出力装置１６及びドライブ１７の少なくともいずれかは省略されてもよい。モデル生成装置１は、複数台のコンピュータで構成されてもよい。この場合、各コンピュータのハードウェア構成は、一致していてもよいし、一致していなくてもよい。また、モデル生成装置１は、提供されるサービス専用に設計された情報処理装置の他、汎用のサーバ装置、ＰＣ（Personal Computer）等であってもよい。

　＜制御装置＞
　次に、図５を用いて、本実施形態に係る制御装置３のハードウェア構成の一例について説明する。図５は、本実施形態に係る制御装置３のハードウェア構成の一例を模式的に例示する。

　図５に示されるとおり、本実施形態に係る制御装置３は、制御部３１、記憶部３２、通信インタフェース３３、外部インタフェース３４、入力装置３５、出力装置３６、及びドライブ３７が電気的に接続されたコンピュータである。なお、図５では、図４と同様に、通信インタフェース及び外部インタフェースを「通信Ｉ／Ｆ」及び「外部Ｉ／Ｆ」と記載している。

　制御装置３の制御部３１～ドライブ３７はそれぞれ、上記モデル生成装置１の制御部１１～ドライブ１７それぞれと同様に構成されてよい。すなわち、制御部３１は、ハードウェアプロセッサであるＣＰＵ、ＲＡＭ、ＲＯＭ等を含み、プログラム及びデータに基づいて各種情報処理を実行するように構成される。記憶部３２は、例えば、ハードディスクドライブ、ソリッドステートドライブ等で構成される。記憶部３２は、制御プログラム８３、ＣＡＤデータ３２０、ロボットデータ３２１、学習結果データ１２５、学習データ３２３、推論モデルデータ３２５等の各種情報を記憶する。

　制御プログラム８３は、目標のタスク状態を推論するための推論モデルの生成に関する後述の情報処理（図１０）及びロボット装置（マニピュレータ４）の動作の制御に関する後述の情報処理（図１５Ａ及び図１５Ｂ）を制御装置３に実行させるためのプログラムである。制御プログラム８３は、これらの情報処理の一連の命令を含む。ＣＡＤデータ３２０は、上記ＣＡＤデータ１２０と同様に、各対象物（エンドエフェクタＴ、ワークＷ、他のワークＧ）のモデル等の幾何学的な構成を示す構成情報を含む。ロボットデータ３２１は、各関節のパラメータ等のマニピュレータ４の構成を示す構成情報を含む。学習結果データ１２５は、学習済みの判定モデル５０の設定に利用される。学習データ３２３は、推論モデルの生成に使用される。推論モデルデータ３２５は、生成された推論モデルに関する情報を示す。詳細は後述する。

　通信インタフェース３３は、例えば、有線ＬＡＮモジュール、無線ＬＡＮモジュール等であり、ネットワークを介した有線又は無線通信を行うためのインタフェースである。制御装置３は、この通信インタフェース３３を利用することで、ネットワークを介したデータ通信を他の情報処理装置（例えば、モデル生成装置１）と行うことができる。

　外部インタフェース３４は、例えば、ＵＳＢポート、専用ポート等であり、外部装置と接続するためのインタフェースである。外部インタフェース３４の種類及び数は、接続される外部装置の種類及び数に応じて適宜選択されてよい。制御装置３は、外部インタフェース３４を介して、カメラＳ１及びマニピュレータ４と接続されてよい。本実施形態では、マニピュレータ４は、各関節の角度を測定するエンコーダＳ２、及びエンドエフェクタＴに作用する力を測定する触覚センサＳ３を備える。

　カメラＳ１、エンコーダＳ２、及び触覚センサＳ３それぞれの種類は、特に限定されなくてもよく、実施の形態に応じて適宜決定されてよい。カメラＳ１は、例えば、ＲＧＢ画像を取得するよう構成された一般的なデジタルカメラ、深度画像を取得するように構成された深度カメラ、赤外線量を画像化するように構成された赤外線カメラ等であってよい。触覚センサＳ３は、例えば、タクタイルセンサ等であってよい。

　制御装置３は、外部インタフェース３４を介して、各センサ（カメラＳ１、各エンコーダＳ２、触覚センサＳ３）からセンシングデータ（画像データ、角度データ、圧力分布データ）を取得することができる。なお、カメラＳ１及びマニピュレータ４との接続方法は、このような例に限定されなくてもよい。例えば、カメラＳ１及びマニピュレータ４が通信インタフェースを備える場合、制御装置３は、通信インタフェース３３を介して、カメラＳ１及びマニピュレータ４に接続されてもよい。

　入力装置３５は、例えば、マウス、キーボード等の入力を行うための装置である。また、出力装置３６は、例えば、ディスプレイ、スピーカ等の出力を行うための装置である。オペレータは、入力装置３５及び出力装置３６を利用することで、制御装置３を操作することができる。

　ドライブ３７は、例えば、ＣＤドライブ、ＤＶＤドライブ等であり、記憶媒体９３に記憶されたプログラムを読み込むためのドライブ装置である。記憶媒体９３の種類は、上記記憶媒体９１と同様に、ディスク型であってもよいし、或いはディスク型以外であってもよい。上記制御プログラム８３、ＣＡＤデータ３２０、ロボットデータ３２１、学習結果データ１２５、及び学習データ３２３のうちの少なくともいずれかは、記憶媒体９３に記憶されていてもよい。また、制御装置３は、記憶媒体９３から、上記制御プログラム８３、ＣＡＤデータ３２０、ロボットデータ３２１、学習結果データ１２５、及び学習データ３２３のうちの少なくともいずれかを取得してもよい。

　なお、制御装置３の具体的なハードウェア構成に関して、実施形態に応じて、適宜、構成要素の省略、置換及び追加が可能である。例えば、制御部３１は、複数のハードウェアプロセッサを含んでもよい。ハードウェアプロセッサは、マイクロプロセッサ、ＦＰＧＡ、ＤＳＰ等で構成されてよい。記憶部３２は、制御部３１に含まれるＲＡＭ及びＲＯＭにより構成されてもよい。通信インタフェース３３、外部インタフェース３４、入力装置３５、出力装置３６、及びドライブ３７の少なくともいずれかは省略されてもよい。制御装置３は、複数台のコンピュータで構成されてもよい。この場合、各コンピュータのハードウェア構成は、一致していてもよいし、一致していなくてもよい。また、制御装置３は、提供されるサービス専用に設計された情報処理装置の他、汎用のサーバ装置、汎用のＰＣ、ＰＬＣ（programmable logic controller）等であってもよい。

　＜マニピュレータ＞
　次に、図６を用いて、本実施形態に係るマニピュレータ４のハードウェア構成の一例について説明する。図６は、本実施形態に係るマニピュレータ４のハードウェア構成の一例を模式的に例示する。

　本実施形態に係るマニピュレータ４は、６軸の垂直多関節型の産業用ロボットであり、台座部４０及び６つの関節部４１～４６を備えている。各関節部４１～４６は、サーボモータ（不図示）を内蔵していることで、各軸を中心に回転可能に構成されている。第１関節部４１は、台座部４０に接続されており、先端側の部分を台座の軸周りに回転させる。第２関節部４２は、第１関節部４１に接続されており、先端側の部分を前後方向に回転させる。第３関節部４３は、リンク４９１を介して第２関節部４２に接続されており、先端側の部分を上下方向に回転させる。第４関節部４４は、リンク４９２を介して第３関節部４３に接続されており、先端側の部分をリンク４９２の軸周りに回転させる。第５関節部４５は、リンク４９３を介して第４関節部４４に接続されており、先端側の部分を上下方向に回転させる。第６関節部４６は、リンク４９４を介して第５関節部４５に接続されており、先端側の部分をリンク４９４の軸周りに回転させる。第６関節部４６の先端側には、触覚センサＳ３と共にエンドエフェクタＴが取り付けられている。

　各関節部４１～４６には、エンコーダＳ２が更に内蔵されている。各エンコーダＳ２は、各関節部４１～４６の角度（制御量）を測定するように構成される。各エンコーダＳ２の測定データ（角度データ）は、各関節部４１～４６の角度の制御に利用することができる。また、触覚センサＳ３は、エンドエフェクタＴに作用する力を検出するように構成される。触覚センサＳ３の測定データ（圧力分布データ）は、エンドエフェクタＴに保持されたワークＷの位置及び姿勢を推定したり、エンドエフェクタＴに異常な力が作用しているか否かを検知したりするために利用されてよい。

　なお、マニピュレータ４のハードウェア構成は、このような例に限定されなくてもよい。マニピュレータ４の具体的なハードウェア構成に関して、実施の形態に応じて適宜、構成要素の省略、置換及び追加が可能である。例えば、マニピュレータ４は、制御量又はその他の属性を観測するために、エンコーダＳ２及び触覚センサＳ３以外のセンサを備えてもよい。例えば、マニピュレータ４は、トルクセンサを更に備えてもよい。この場合、マニピュレータ４は、エンドエフェクタＴに作用する力をトルクセンサにより測定し、トルクセンサの測定値に基づいて、エンドエフェクタＴに過剰な力が作用しないように制御されてよい。また、マニピュレータ４の軸数は、６軸に限られなくてもよい。マニピュレータ４には、公知の産業用ロボットが採用されてよい。

　［ソフトウェア構成］
　＜モデル生成装置＞
　次に、図７を用いて、本実施形態に係るモデル生成装置１のソフトウェア構成の一例について説明する。図７は、本実施形態に係るモデル生成装置１のソフトウェア構成の一例を模式的に例示する。

　モデル生成装置１の制御部１１は、記憶部１２に記憶されたモデル生成プログラム８１をＲＡＭに展開する。そして、制御部１１は、ＲＡＭに展開されたモデル生成プログラム８１に含まれる命令をＣＰＵにより解釈及び実行して、各構成要素を制御する。これにより、図７に示されるとおり、本実施形態に係るモデル生成装置１は、データ取得部１１１、機械学習部１１２、及び保存処理部１１３をソフトウェアモジュールとして備えるコンピュータとして動作する。すなわち、本実施形態では、モデル生成装置１の各ソフトウェアモジュールは、制御部１１（ＣＰＵ）により実現される。

　データ取得部１１１は、複数の学習データセット１２１を取得する。各学習データセット１２１は、２つの対象物の間の位置関係を示す訓練データ１２２及び当該位置関係において２つの対象物が互いに接触するか否かを示す正解データ１２３の組み合わせにより構成される。訓練データ１２２は、機械学習の入力データとして利用される。正解データ１２３は、機械学習の教師信号（ラベル）として利用される。訓練データ１２２及び正解データ１２３の形式は、特に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。例えば、訓練データ１２２には、２つの対象物の間の相対座標がそのまま利用されてもよいし、或いは、相対座標を特徴量に変換することで得られた値が利用されてもよい。ＣＡＤデータ１２０により、対象の位置関係において対象の２つの対象物が互いに接触するか否かを判定することができる。そのため、ＣＡＤデータ１２０を利用することで、各学習データセット１２１を生成することができる。

　機械学習部１１２は、取得された複数の学習データセット１２１を使用して、判定モデル５０の機械学習を実施する。機械学習を実施することは、各学習データセット１２１について、訓練データ１２２の入力に対して、対応する正解データ１２３に適合する出力値を出力するように判定モデル５０を訓練することにより構成される。この機械学習により、２つの対象物が互いに接触するか否かを判定する能力を習得した学習済みの判定モデル５０を構築することができる。保存処理部１１３は、構築された学習済みの判定モデル５０に関する情報を学習結果データ１２５として生成し、生成された学習結果データ１２５を所定の記憶領域に保存する。

　（判定モデルの構成）
　次に、判定モデル５０の構成の一例について説明する。本実施形態に係る判定モデル５０は、深層学習に用いられる多層構造のニューラルネットワークにより構成される。図７の例では、判定モデル５０は、３層構造の全結合型ニューラルネットワークにより構成されている。判定モデル５０は、入力層５０１、中間（隠れ）層５０２、及び出力層５０３を備えている。ただし、判定モデル５０の構造は、このような例に限定されなくてもよく、実施の形態に応じて適宜決定されてよい。例えば、判定モデル５０の備える中間層の数は、１つに限られなくてもよく、２つ以上であってもよい。或いは、中間層５０２は、省略されてもよい。

　各層５０１～５０３に含まれるニューロン（ノード）の数は、実施の形態に応じて適宜決定されてよい。例えば、入力層５０１のニューロンの数は、２つの対象物の間の位置関係を表現する相対座標の次元数に応じて決定されてよい。また、出力層５０３のニューロンの数は、２つの対象物が互いに接触するか否かを表現する方法に応じて決定されてよい。例えば、２つの対象物が互いに接触するか否かを１つの数値で表現する（例えば、［０、１］の範囲の数値で表現する）場合、出力層５０３のニューロンの数は１つであってよい。また、例えば、接触する確率を示す第１の数値及び接触していない確率を示す第２の数値の２つの数値により２つの対象物が互いに接触するか否かを表現する場合、出力層５０３のニューロンの数は２つであってよい。

　隣接する層のニューロン同士は適宜結合される。本実施形態では、各ニューロンは、隣接する層の全てのニューロンと結合されている。しかしながら、各ニューロンの結合関係は、このような例に限定されなくてもよく、実施の形態に応じて適宜設定されてよい。各結合には、重み（結合荷重）が設定されている。各ニューロンには閾値が設定されており、基本的には、各入力と各重みとの積の和が閾値を超えているか否かによって各ニューロンの出力が決定される。閾値は、活性化関数により表現されてもよい。この場合、各入力と各重みとの積の和を活性化関数に入力し、活性化関数の演算を実行することで、各ニューロンの出力が決定される。活性化関数の種類は、特に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。各層５０１～５０３に含まれる各ニューロン間の結合の重み及び各ニューロンの閾値は、判定モデル５０の演算パラメータの一例である。

　本実施形態では、機械学習部１１２は、複数の学習データセット１２１を使用して、上記ニューラルネットワークにより構成された判定モデル５０の機械学習を実施する。具体的に、機械学習部１１２は、判定モデル５０の演算パラメータの値を調整することで、各学習データセット１２１について、訓練データ１２２を入力層５０１に入力すると、正解データ１２３に適合する出力値が出力層５０３から出力されるように判定モデル５０の演算パラメータを訓練する。これにより、機械学習部１１２は、２つの対象物が互いに接触するか否かを判定する能力を習得した学習済みの判定モデル５０を生成することができる。

　保存処理部１１３は、構築された学習済みの判定モデル５０の構造及び演算パラメータを示す情報を学習結果データ１２５として生成する。そして、保存処理部１１３は、生成された学習結果データ１２５を所定の記憶領域に保存する。なお、学習結果データ１２５の内容は、学習済みの判定モデル５０を再生可能であれば、このような例に限定されなくてもよい。例えば、各装置間で判定モデル５０の構造が共通化されている場合、学習結果データ１２５において判定モデル５０の構造を示す情報は省略されてよい。

　＜制御装置＞
　次に、図８を用いて、本実施形態に係る制御装置３のソフトウェア構成の一例について説明する。図８は、本実施形態に係る制御装置３のソフトウェア構成の一例を模式的に例示する。

　制御装置３の制御部３１は、記憶部３２に記憶された制御プログラム８３をＲＡＭに展開する。そして、制御部３１は、ＲＡＭに展開された制御プログラム８３に含まれる命令をＣＰＵにより解釈及び実行して、各構成要素を制御する。これにより、図８に示されるとおり、本実施形態に係る制御装置３は、目標設定部３１１、状態取得部３１２、行動決定部３１３、接触判定部３１４、指令決定部３１５、駆動部３１６、データ収集部３１７、モデル生成部３１８、及び保存処理部３１９をソフトウェアモジュールとして備えるコンピュータとして動作する。すなわち、本実施形態では、上記モデル生成装置１と同様に、制御装置３の各ソフトウェアモジュールは、制御部３１（ＣＰＵ）により実現される。

　目標設定部３１１は、遂行するタスクに応じて、最終目標のタスク状態を設定する。タスク状態は、遂行するタスクにおける第１対象物及び第２対象物の間の位置関係により規定される。本実施形態では、位置関係は、上記相対座標により表現される。「最終目標」は、終着点（ゴール）であり、タスクの遂行を完了した時点に実現される。状態取得部３１２は、ロボット装置（マニピュレータ４）の現在のタスク状態を示す情報を取得する。「現在」は、ロボット装置の動作を制御する時点であって、ロボット装置に与える制御指令を決定する直前の時点である。第１対象物及び第２対象物は、遂行するタスクに応じて適宜設定されてよい。一例として、第１タスクを遂行する場面では、第１対象物は、エンドエフェクタＴであり、第２対象物は、ワークＷである。第２タスクを遂行する場面では、第１対処物は、エンドエフェクタＴにより保持されたワークＷであり、第２対象物は、他のワークＧである。

　行動決定部３１３は、最終目標のタスク状態に近付くように、取得された情報により示される現在のタスク状態に対して、次に遷移する目標のタスク状態を決定する。「目標」は、最終目標を含み、タスクの遂行を達成するために適宜設定されてよい。最終目標までに設定される目標の数は、１つであってもよいし（この場合、最終目標だけが設定される）、複数であってもよい。最終目標以外の目標は、タスクの開始点から終着点に到達するまでに経由する経由点である。そのため、最終目標を単に「目標（ゴール）」と称し、最終目標以外の目標を「下位目標（サブゴール）」と称してもよい。下位目標は、「経由点」と称してもよい。「次に遷移する目標」は、現在のタスク状態から次に目指すタスク状態（最終目標以外の目標であれば暫定的なタスク状態）であり、例えば、最終目標に向かって、現在のタスク状態に最も近い目標である。

　接触判定部３１４は、学習結果データ１２５を保持することで、学習済みの判定モデル５０を備えている。接触判定部３１４は、学習結果データ１２５を参照して、学習済みの判定モデル５０の設定を行う。学習済みの判定モデル５０は、上記機械学習により、第１対象物及び第２対象物が互いに接触するか否かを判定する能力を習得している。接触判定部３１４は、第１対象物及び第２対象物の対象のタスク状態を示す情報を学習済みの判定モデル５０に与えることで、対象のタスク状態において第１対象物及び第２対象物が互いに接触するか否かを判定する。

　指令決定部３１５は、ロボット装置（マニピュレータ４）のタスク状態を現在のタスク状態から目標のタスク状態に変化させるように、ロボット装置（マニピュレータ４）に与える制御指令を決定する。駆動部３１６は、決定された制御指令をロボット装置に与えることで、ロボット装置を駆動する。本実施形態では、これらの一連の処理により、マニピュレータ４の動作が制御される。

　学習済みの判定モデル５０による接触するか否かの判定結果は、上記ロボット装置の動作を制御する場面に直接的に利用されてもよい。或いは、学習済みの判定モデル５０による接触するか否かの判定結果は、現在のタスク状態及び最終目標のタスク状態から次に遷移する目標のタスク状態を推論するための推論モデル５５を生成するのに利用されてよい。これにより、学習済みの判定モデル５０の判定結果は、上記ロボット装置の動作を制御する場面に間接的に利用されてよい。本実施形態では、学習済みの判定モデル５０の判定結果の利用方法として後者の利用方法が選択される。

　すなわち、データ収集部３１７及びモデル生成部３１８は、学習済みの判定モデル５０による判定の結果を利用して、第１対象物が第２対象物に接触しないように、次に遷移する目標のタスク状態を決定するように構成された推論モデル５５を生成する。データ収集部３１７は、学習済みの判定モデル５０による判定の結果を利用して、推論モデル５５の生成に使用する学習データ３２３を収集する。学習データ３２３の収集には、ＣＡＤデータ３２０が更に利用されてよい。モデル生成部３１８は、収集された学習データ３２３を使用して、推論モデル５５を生成する。学習データ３２３及び推論モデル５５の詳細は後述する。

　保存処理部３１９は、生成された推論モデル５５に関する情報を推論モデルデータ３２５として生成し、生成された推論モデルデータ３２５を所定の記憶領域に保存する。本実施形態では、行動決定部３１３は、推論モデルデータ３２５を保持することで、生成された推論モデル５５を備えている。行動決定部３１３は、生成された推論モデル５５を利用して、現在のタスク状態に対して次に遷移する目標のタスク状態を決定する。

　＜その他＞
　モデル生成装置１及び制御装置３の各ソフトウェアモジュールに関しては後述する動作例で詳細に説明する。なお、本実施形態では、モデル生成装置１及び制御装置３の各ソフトウェアモジュールがいずれも汎用のＣＰＵによって実現される例について説明している。しかしながら、以上のソフトウェアモジュールの一部又は全部が、１又は複数の専用のプロセッサにより実現されてもよい。また、モデル生成装置１及び制御装置３それぞれのソフトウェア構成に関して、実施形態に応じて、適宜、ソフトウェアモジュールの省略、置換及び追加が行われてもよい。

　§３　動作例
　［モデル生成装置］
　次に、図９を用いて、モデル生成装置１の動作例について説明する。図９は、本実施形態に係るモデル生成装置１による判定モデル５０の機械学習に関する処理手順の一例を示すフローチャートである。以下で説明する処理手順は、本発明の「モデル生成方法」の一例である。ただし、以下で説明する各処理手順は一例に過ぎず、各ステップは可能な限り変更されてよい。更に、以下で説明する各処理手順について、実施の形態に応じて、適宜、ステップの省略、置換、及び追加が可能である。

　（ステップＳ１０１）
　ステップＳ１０１では、制御部１１は、データ取得部１１１として動作し、判定モデル５０の機械学習に使用する複数の学習データセット１２１を取得する。各学習データセット１２１は、２つの対象物の間の位置関係を示す訓練データ１２２及び当該位置関係において２つの対象物が互いに接触するか否かを示す正解データ１２３の組み合わせにより構成される。

　各学習データセット１２１を生成する方法は、特に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。例えば、ＣＡＤデータ１２０を利用して、仮想空間上で、２つの対象物を様々な位置関係に配置する。本実施形態では、位置関係は、相対座標により表現される。また、本実施形態では、２つの対象物のうちの少なくともいずれかは、ロボット装置（マニピュレータ４）の動作により移動する対象である。上記第１タスクを遂行する場面を想定する場合、エンドエフェクタＴ及びワークＷがそれぞれ各対象物の一例である。また、上記第２タスクを遂行する場面を想定する場合、エンドエフェクタＴにより保持されたワークＷ及び他のワークＧがそれぞれ各対象物の一例である。２つの対象物のうちの一方がマニピュレータ４の手先であり、他方が目標物である。各対象物の配置は、オペレータにより指定されてもよいし、ランダムに決定されてもよい。或いは、一方の対象物の位置を固定し、他方の対象物を規則に従って位置を変更することで、様々な位置関係が実現されてもよい。他方の対象物の配置を与える規則は適宜設定されてよい。これにより、各位置関係における相対座標を各学習データセット１２１の訓練データ１２２として取得することができる。また、ＣＡＤデータ１２０には、各対象物のモデルが含まれている。そのため、ＣＡＤデータ１２０により、対象の位置関係において対象の２つの対象物が互いに接触するか否かを判定することができる。ＣＡＤデータ１２０を利用して、各位置関係において２つの対象物が互いに接触するか否かを判定した結果を正解データ１２３として対応する訓練データ１２２に関連付ける。これにより、各学習データセット１２１を生成することができる。なお、各学習データセット１２１を生成する方法は、このような例に限定されなくてもよい。実空間上において、各対象物の実物を利用することで、各学習データセット１２１が生成されてもよい。

　各学習データセット１２１は、コンピュータの動作により自動的に生成されてもよいし、少なくとも部分的にオペレータの操作を含むことで手動的に生成されてもよい。また、各学習データセット１２１の生成は、モデル生成装置１により行われてもよいし、モデル生成装置１以外の他のコンピュータにより行われてもよい。各学習データセット１２１をモデル生成装置１が生成する場合、制御部１１は、自動的又はオペレータの入力装置１５を介した操作により手動的に上記一連の処理を実行することで、複数の学習データセット１２１を取得する。一方、各学習データセット１２１を他のコンピュータが生成する場合、制御部１１は、例えば、ネットワーク、記憶媒体９１等を介して、他のコンピュータにより生成された複数の学習データセット１２１を取得する。この場合、ＣＡＤデータ１２０はモデル生成装置１から省略されてもよい。一部の学習データセット１２１がモデル生成装置１により生成され、その他の学習データセット１２１が１又は複数の他のコンピュータにより生成されてもよい。

　取得される学習データセット１２１の件数は、特に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。複数の学習データセット１２１を取得すると、制御部１１は、次のステップＳ１０２に処理を進める。

　（ステップＳ１０２）
　ステップＳ１０２では、制御部１１は、機械学習部１１２として動作し、取得された複数の学習データセット１２１を使用して、判定モデル５０の機械学習を実施する。本実施形態では、制御部１１は、機械学習により、各学習データセット１２１について、訓練データ１２２を入力層５０１に入力すると、対応する正解データ１２３に適合する出力値が出力層５０３から出力されるように判定モデル５０を訓練する。これにより、制御部１１は、対象の位置関係において２つの対象物が互いに接触するか否かを判定する能力を習得した学習済みの判定モデル５０を構築する。

　機械学習の処理手順は、実施の形態に応じて適宜決定されてよい。一例として、制御部１１は、まず、処理対象となる判定モデル５０を用意する。用意する判定モデル５０の構造（例えば、層の数、各層に含まれるニューロンの数、隣接する層のニューロン同士の結合関係等）、各ニューロン間の結合の重みの初期値、及び各ニューロンの閾値の初期値は、テンプレートにより与えられてもよいし、オペレータの入力により与えられてもよい。また、再学習を行う場合には、制御部１１は、過去の機械学習を行うことで得られた学習結果データに基づいて、判定モデル５０を用意してもよい。

　次に、制御部１１は、各学習データセット１２１に含まれる訓練データ１２２を入力データとして利用し、正解データ１２３を教師信号として利用して、判定モデル５０（ニューラルネットワーク）の学習処理を実行する。この学習処理には、バッチ勾配降下法、確率的勾配降下法、ミニバッチ勾配降下法等が用いられてよい。

　例えば、第１のステップでは、制御部１１は、各学習データセット１２１について、訓練データ１２２を判定モデル５０に入力し、判定モデル５０の演算処理を実行する。すなわち、制御部１１は、訓練データ１２２を入力層５０１に入力し、入力側から順に各層５０１～５０３に含まれる各ニューロンの発火判定を行う（すなわち、順伝播の演算を行う）。この演算処理により、制御部１１は、判定モデル５０の出力層５０３から、訓練データ１２２により示される位置関係において２つの対象物が接触するか否かを判定した結果に対応する出力値を取得する。

　第２のステップでは、制御部１１は、出力層５０３から取得された出力値と正解データ１２３との誤差（損失）を損失関数に基づいて算出する。損失関数は、学習モデルの出力と正解との差分（すなわち、相違の程度）を評価する関数であり、出力層５０３から取得された出力値と正解データ１２３との差分値が大きいほど、損失関数により算出される誤差の値は大きくなる。誤差の計算に利用する損失関数の種類は、特に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。

　第３のステップでは、制御部１１は、誤差逆伝播（Back propagation）法により、算出された出力値の誤差の勾配を用いて、判定モデル５０の各演算パラメータ（各ニューロン間の結合の重み、各ニューロンの閾値等）の値の誤差を算出する。第４のステップでは、制御部１１は、算出された各誤差に基づいて、判定モデル５０の演算パラメータの値を更新する。演算パラメータの値を更新する程度は、学習率により調節されてよい。学習率は、オペレータの指定により与えられてもよいし、プログラム内の設定値として与えられてもよい。

　制御部１１は、上記第１～第４のステップを繰り返すことで、各学習データセット１２１について、出力層５０３から出力される出力値と正解データ１２３との誤差の和が小さくなるように、判定モデル５０の演算パラメータの値を調整する。例えば、制御部１１は、当該誤差の和が閾値以下になるまで、上記第１～第４のステップの処理を繰り返してもよい。閾値は、実施の形態に応じて適宜設定されてよい。この機械学習の結果により、制御部１１は、各学習データセット１２１について、訓練データ１２２を入力層５０１に入力すると、対応する正解データ１２３に適合する出力値を出力層５０３から出力するように訓練された学習済みの判定モデル５０を構築することができる。この「適合する」ことは、閾値等により許容可能な差異が、出力層５０３の出力値と教師信号（正解データ１２３）との間に生じることを含んでもよい。判定モデル５０の機械学習が完了すると、制御部１１は、次のステップＳ１０３に処理を進める。

　（ステップＳ１０３）
　ステップＳ１０３では、制御部１１は、保存処理部１１３として動作し、機械学習により構築された学習済みの判定モデル５０に関する情報を学習結果データ１２５として所定の記憶領域に保存する。本実施形態では、制御部１１は、ステップＳ１０２により構築された学習済みの判定モデル５０の構造及び演算パラメータを示す情報を学習結果データ１２５として生成する。そして、制御部１１は、生成された学習結果データ１２５を所定の記憶領域に保存する。

　所定の記憶領域は、例えば、制御部１１内のＲＡＭ、記憶部１２、外部記憶装置、記憶メディア又はこれらの組み合わせであってよい。記憶メディアは、例えば、ＣＤ、ＤＶＤ等であってよく、制御部１１は、ドライブ１７を介して記憶メディアに学習結果データ１２５を格納してもよい。外部記憶装置は、例えば、ＮＡＳ（Network Attached Storage）等のデータサーバであってよい。この場合、制御部１１は、通信インタフェース１３を利用して、ネットワークを介してデータサーバに学習結果データ１２５を格納してもよい。また、外部記憶装置は、例えば、モデル生成装置１に接続された外付けの記憶装置であってもよい。

　これにより、学習結果データ１２５の保存が完了すると、制御部１１は、学習済みの判定モデル５０の生成に関する一連の処理を終了する。

　なお、生成された学習結果データ１２５は、任意のタイミングで制御装置３に提供されてよい。例えば、制御部１１は、ステップＳ１０３の処理として又はステップＳ１０３の処理とは別に、学習結果データ１２５を制御装置３に転送してもよい。制御装置３は、この転送を受信することで、学習結果データ１２５を取得してもよい。また、例えば、制御装置３は、通信インタフェース３３を利用して、モデル生成装置１又はデータサーバにネットワークを介してアクセスすることで、学習結果データ１２５を取得してもよい。また、例えば、制御装置３は、記憶媒体９３を介して、学習結果データ１２５を取得してもよい。また、例えば、学習結果データ１２５は、制御装置３に予め組み込まれてもよい。

　更に、制御部１１は、上記ステップＳ１０１～ステップＳ１０３の処理を定期又は不定期に繰り返すことで、学習結果データ１２５を更新又は新たに生成してもよい。この繰り返しの際には、複数の学習データセット１２１の少なくとも一部の変更、修正、追加、削除等が適宜実行されてよい。そして、制御部１１は、更新した又は新たに生成した学習結果データ１２５を学習処理の実行毎に制御装置３に提供することで、制御装置３の保持する学習結果データ１２５を更新してもよい。

　［制御装置］
　（Ａ）推論モデルの生成
　次に、図１０を用いて、制御装置３の推論モデル５５の生成に関する動作例について説明する。図１０は、本実施形態に係る制御装置３による推論モデル５５の生成に関する処理手順の一例を示すフローチャートである。なお、以下で説明する各処理手順は一例に過ぎず、各ステップは可能な限り変更されてよい。更に、以下で説明する各処理手順について、実施の形態に応じて、適宜、ステップの省略、置換、及び追加が可能である。

　（ステップＳ２０１）
　ステップＳ２０１では、制御部３１は、マニピュレータ４の遂行するタスクに関して、最終目標のタスク状態の指定を受け付ける。タスク状態は、第１対象物及び第２対象物の間の位置関係により表現される。本実施形態では、位置関係は、相対座標により表現される。

　最終のタスク状態における相対座標を指定する方法は、特に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。例えば、最終のタスク状態における相対座標は、入力装置３５を介したオペレータの入力により直接的に指定されてもよい。また、例えば、オペレータの入力により、遂行するタスクが選択され、選択されたタスクに応じて、最終のタスク状態における相対座標が指定されてもよい。また、例えば、ＣＡＤデータ３２０を利用して、仮想空間上で各対象物のモデルを最終目標の位置関係に配置することで、最終目標における相対座標が指定されてもよい。各対象物のモデルの配置は、シミュレータにより自動的に行われてもよいし、オペレータの入力により手動的に行われてもよい。最終目標のタスク状態が指定されると、制御部３１は、次のステップＳ２０２に処理を進める。

　（ステップＳ２０２～ステップＳ２０４）
　ステップＳ２０２では、制御部３１は、任意のタスク状態を開始点に設定する。開始点に設定されるタスク状態は、タスクの遂行を開始する時点におけるタスク状態に相当する。開始点となるタスク状態は、ランダムに設定されてもよいし、或いは、オペレータの入力により指定されてもよい。オペレータによる開始点の指定方法は、上記最終目標の指定方法と同様であってよい。また、開始点となるタスク状態は、任意のアルゴリズムにより決定されてよい。一例として、各対象物の実物を実空間に配置し、カメラにより各対象物を撮影することで、各対象物の写る画像データを取得してもよい。そして、得られた画像データに対して画像処理（例えば、ＣＡＤデータ３２０によるマッチング）を行うことで、開始点となるタスク状態が決定されてもよい。その他、開始点となるタスク状態は、ＣＡＤデータ３２０を利用して適宜決定されてもよい。

　ステップＳ２０３では、制御部３１は、接触判定部３１４として動作し、学習済みの判定モデル５０を利用して、開始点に設定されたタスク状態において２つの対象物が互いに接触するか否かを判定する。具体的には、制御部３１は、学習結果データ１２５を参照して、学習済みの判定モデル５０の設定を行う。続いて、制御部３１は、ステップＳ２０２で設定されたタスク状態の相対座標を学習済みの判定モデル５０の入力層５０１に入力する。そして、制御部３１は、学習済みの判定モデル５０の演算処理として、入力側から順に各層５０１～５０３に含まれる各ニューロンの発火判定を行う。これにより、制御部３１は、開始点に設定されたタスク状態において２つの対象物が互いに接触するか否かを判定した結果に対応する出力値を学習済みの判定モデル５０の出力層５０３から取得する。

　ステップＳ２０４では、制御部３１は、ステップＳ２０３の判定結果に基づいて、処理の分岐先を決定する。ステップＳ２０３において、開始点に設定されたタスク状態において２つの対象物が互いに接触すると判定された場合、制御部３１は、ステップＳ２０２に処理を戻し、開始点のタスク状態を再度設定する。一方、開始点に設定されたタスク状態において２つの対象物が互いに接触しないと判定された場合、制御部３１は、設定された開始点のタスク状態をマニピュレータ４の現在のタスク状態として認定し、次のステップＳ２０５に処理を進める。

　図１１Ａは、タスク空間ＳＰにおいて、上記ステップＳ２０１～ステップＳ２０４の処理により開始点及び最終目標のタスク状態が設定された場面の一例を模式的に例示する。タスク空間ＳＰは、タスク状態を規定する相対座標の集合を表現する。タスク空間ＳＰを示す情報は、制御装置３に保持されていてもよいし、保持されていなくてもよい。タスク空間ＳＰに属する各ノード（点）は、２つの対象物の間の相対座標に対応する。図１１Ａの例では、ノードＮｓが、開始点のタスク状態における相対座標に対応し、ノードＮｇが、最終目標のタスク状態における相対座標に対応する。本実施形態では、タスク空間ＳＰにおける２つの対象物が接触するか否かの境界面（接触境界面）は、学習済みの判定モデル５０による判定結果に基づいて導出される。

　（ステップＳ２０５～ステップＳ２０７）
　ステップＳ２０５では、制御部３１は、最終目標のタスク状態に近付くように、現在のタスク状態に対して次に遷移する目標のタスク状態を決定する。

　目標のタスク状態を決定する方法は、特に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。例えば、目標のタスク状態における相対座標は、オペレータの入力により決定されてもよい。開始点となるタスク状態の設定と同様に、目標のタスク状態における相対座標は、任意のアルゴリズムにより決定されてもよいし、ＣＡＤデータ３２０を利用して適宜決定されてもよい。また、例えば、制御部３１は、開始点のタスク状態における相対座標をランダムに変更することで、目標のタスク状態における相対座標を決定してもよい。また、例えば、制御部３１は、タスク空間ＳＰ内で、ノードＮｇに近付くように、ノードＮｓから所定距離だけ離れたノードを選択してもよい。制御部３１は、選択されたノードに対応するタスク状態を目標のタスク状態として取得してもよい。また、例えば、後述する強化学習により推論モデル５５を生成する場合には、強化学習の過程における推論モデル５５を利用して、目標のタスク状態が決定されてよい。

　また、例えば、目標のタスク状態の決定には、パスプランニング等の公知の方法が採用されてよい。一例として、制御部３１は、タスク空間ＳＰにおいて、目標のタスク状態の候補となるノードを設定してもよい。ノードの設定は、ランダムサンプリング等の方法で自動的に行われてもよいし、オペレータの入力により手動的に行われてもよい。一部のノードの設定が自動的に行われ、残りのノードの設定が手動的に行われてもよい。目標のタスク状態の候補となるノードの設定が行われた後、制御部３１は、遷移可能なノードの組み合わせを適宜選択してよい。遷移可能なノードの組み合わせを選択する方法には、例えば、最近傍法等が採用されてよい。タスク空間ＳＰ内において、遷移可能なノードの組み合わせは、ノードを連結するエッジにより表現されてよい。次に、制御部３１は、開始点のノードＮｓから最終目標のノードＮｇまでの経路を探索する。経路探索の方法には、ダイクストラ法等が採用されてよい。制御部３１は、探索により得られた経路に含まれるノードに対応するタスク状態を目標のタスク状態として取得してもよい。

　ステップＳ２０６では、制御部３１は、接触判定部３１４として動作し、学習済みの判定モデル５０を利用して、決定された目標のタスク状態において２つの対象物が互いに接触するか否かを判定する。開始点のタスク状態から目標のタスク状態に判定の対象が置き換わる点を除き、制御部３１は、上記ステップＳ２０３と同様に、ステップＳ２０６の処理を実行してよい。すなわち、制御部３１は、目標のタスク状態の相対座標を学習済みの判定モデル５０に入力し、学習済みの判定モデル５０の演算処理を実行する。これにより、制御部３１は、目標のタスク状態において２つの対象物が互いに接触するか否かを判定した結果に対応する出力値を学習済みの判定モデル５０から取得する。

　ステップＳ２０７では、制御部３１は、ステップＳ２０６の判定結果に基づいて、処理の分岐先を決定する。ステップＳ２０６において、目標のタスク状態において２つの対象物が互いに接触すると判定された場合、制御部３１は、ステップＳ２０５に処理を戻し、目標のタスク状態を再度決定する。一方、目標のタスク状態において２つの対象物が互いに接触しないと判定された場合、制御部３１は、次のステップＳ２０８に処理を進める。

　なお、ステップＳ２０７における分岐先は、このような例に限定されなくてもよい。例えば、目標のタスク状態において２つの対象物が互いに接触すると判定された場合、制御部３１は、ステップＳ２０２に処理を戻し、開始点の設定から処理をやり直してもよい。また、例えば、目標のタスク状態を複数回決定した後に、最後に決定された目標のタスク状態において２つの対象物が互いに接触すると判定された場合、制御部３１は、ステップＳ２０５に処理を戻し、次に遷移する目標のタスク状態の決定を開始点から再度行ってもよい。接触までに決定された目標のタスク状態の系列は、最終目標のタスク状態まで到達不能な失敗事例として収集されてもよい。

　図１１Ｂは、タスク空間ＳＰにおいて、上記ステップＳ２０５～ステップＳ２０７の処理により、目標のタスク状態が決定された場面の一例を模式的に例示する。図１１Ｂの例では、ノードＮ１が、開始点のタスク状態（ノードＮｓ）の次に遷移する目標のタスク状態として決定されたタスク状態における相対座標に対応する。なお、図１１Ｂの例では、ステップＳ２０５において、１回の遷移分の目標のタスク状態が決定されたことを想定している。ただし、ステップＳ２０５において決定する目標のタスク状態の数は、１つに限られなくてもよい。ステップＳ２０５では、制御部３１は、最終目標のタスク状態に向けて、複数回の遷移分の目標のタスク状態（目標のタスク状態の系列）を決定してもよい。

　（ステップＳ２０８）
　ステップＳ２０８では、制御部３１は、ステップＳ２０５により決定された目標のタスク状態にマニピュレータ４の現在のタスク状態を遷移させる。そして、制御部３１は、マニピュレータ４のタスク状態が最終目標のタスク状態に到達したか否か、すなわち、遷移先のタスク状態が最終目標のタスク状態であるか否かを判定する。タスク状態の遷移は、シミュレーションにより仮想空間上で行われてよい。最終目標のタスク状態に到達したと判定した場合、制御部３１は、次のステップＳ２０９に処理を進める。一方、最終目標のタスク状態に到達していないと判定した場合、制御部３１は、ステップＳ２０５に処理を戻し、更なる目標のタスク状態を決定する。

　図１１Ｃは、タスク空間ＳＰにおいて、上記ステップＳ２０８までの処理により、開始点のタスク状態から最終目標のタスク状態までの遷移するタスク状態の系列が決定された場面の一例を模式的に例示する。各ノードＮ１～Ｎ４が、開始点のノードＮｓから最終目標のノードＮｇに到達するまでに、目標のタスク状態として決定されたタスク状態における相対座標に対応する。ノードＮ（ｋ＋１）は、ノードＮ（ｋ）の次に遷移する目標のタスク状態を示す（ｋは、１～３）。図１１Ｃに例示されるとおり、ステップＳ２０８までの処理により、制御部３１は、開始点から最終目標までに遷移する目標のタスク状態の系列を得ることができる。

　（ステップＳ２０９）
　ステップＳ２０９では、制御部３１は、ステップＳ２０２～ステップＳ２０８の処理を繰り返すか否かを判定する。処理を繰り返す基準は、実施の形態に応じて適宜決定されてよい。

　例えば、処理を繰り返す規定回数が設定されていてもよい。規定回数は、例えば、設定値により与えられてもよいし、オペレータの指定により与えられてもよい。この場合、制御部３１は、ステップＳ２０２～ステップＳ２０８の処理を実行した回数が規定回数に到達したか否かを判定する。実行回数が規定回数に到達していないと判定した場合、制御部３１は、ステップＳ２０２に処理を戻し、ステップＳ２０２～ステップＳ２０８の処理を繰り返す。一方、実行回数が規定回数に到達していると判定した場合には、制御部３１は、次のステップＳ２１０に処理を進める。

　また、例えば、制御部３１は、処理を繰り返すか否かをオペレータに問い合わせてもよい。この場合、制御部３１は、オペレータの回答に応じて、ステップＳ２０２～ステップＳ２０８の処理を繰り返すか否かを判定する。オペレータが処理を繰り返すと回答した場合、制御部３１は、ステップＳ２０２に処理を戻し、ステップＳ２０２～ステップＳ２０８の処理を繰り返す。一方、オペレータが処理を繰り返さないと回答した場合、制御部３１は、次のステップＳ２１０に処理を進める。

　ステップＳ２０９までの処理により、図１１Ｃに例示される開始点から最終目標までに遷移する目標のタスク状態の１つ以上の系列を得ることができる。制御部３１は、データ収集部３１７として動作し、この開始点から最終目標までに遷移する目標のタスク状態の１つ以上の系列を収集する。そして、制御部３１は、収集された系列により学習データ３２３を生成する。制御部３１は、収集された系列をそのまま学習データ３２３として取得してもよいし、収集された系列に対して何らかの情報処理を実行することで学習データ３２３を生成してもよい。学習データ３２３の構成は、推論モデル５５を生成する方法に応じて適宜決定されてよい。学習データ３２３の構成については後述する。

　（ステップＳ２１０及びステップＳ２１１）
　ステップＳ２１０では、制御部３１は、モデル生成部３１８として動作する。すなわち、制御部３１は、学習済みの判定モデル５０による判定の結果を利用して得られた学習データ３２３を使用して、第１対象物が第２対象物に接触しないように、現在のタスク状態及び最終目標のタスク状態から次に遷移する目標のタスク状態を推論するための推論モデル５５を生成する。推論モデル５５を生成する方法については後述する。

　ステップＳ２１１では、制御部３１は、保存処理部３１９として動作する。すなわち、制御部３１は、生成された推論モデル５５に関する情報を推論モデルデータ３２５として生成し、生成された推論モデルデータ３２５を所定の記憶領域に保存する。所定の記憶領域は、例えば、制御部３１内のＲＡＭ、記憶部３２、外部記憶装置、記憶メディア又はこれらの組み合わせであってよい。記憶メディアは、例えば、ＣＤ、ＤＶＤ等であってよく、制御部３１は、ドライブ３７を介して記憶メディアに推論モデルデータ３２５を格納してもよい。外部記憶装置は、例えば、ＮＡＳ等のデータサーバであってよい。この場合、制御部３１は、通信インタフェース３３を利用して、ネットワークを介してデータサーバに推論モデルデータ３２５を格納してもよい。また、外部記憶装置は、例えば、制御装置３に接続された外付けの記憶装置であってもよい。

　これにより、推論モデルデータ３２５の保存が完了すると、制御部３１は、推論モデル５５の生成に関する一連の処理を終了する。

　＜推論モデルの生成方法＞
　次に、上記ステップＳ２１０における推論モデル５５の生成方法の具体例について説明する。本実施形態では、制御部３１は、以下の２つの方法のうちの少なくともいずれかの方法により、推論モデル５５を生成することができる。

　（１）第１の方法
　第１の方法では、制御部３１は、機械学習を実施することで、推論モデル５５を生成する。この場合、推論モデル５５は、機械学習モデルにより構成される。機械学習モデルの種類は、特に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。推論モデル５５は、例えば、関数式、データテーブル等により表現されてよい。関数式で表現される場合、推論モデル５５は、例えば、ニューラルネットワーク、サポートベクタマシン、回帰モデル、決定木等により構成されてよい。また、機械学習の方法も、特に限定されなくてもよく、推論モデル５５の構成に応じて適宜選択されてよい。推論モデル５５の機械学習の方法には、例えば、教師あり学習、強化学習等が採用されてよい。以下、推論モデル５５を構成する機械学習モデル及び機械学習の方法それぞれの２つの例について説明する。

　（１－１）第１の例
　図１２は、推論モデル５５を構成する機械学習モデル及び機械学習の方法の第１の例を模式的に示す。第１の例では、推論モデル５５にニューラルネットワーク、機械学習の方法に教師あり学習を採用する。なお、図１２の例では、説明の便宜上、推論モデル５５、学習データ３２３、及び推論モデルデータ３２５それぞれの一例を、推論モデル５５１、学習データ３２３１、及び推論モデルデータ３２５１と表記する。

　（１－１－１）推論モデルの構成例
　第１の例では、推論モデル５５１は、３層構造の再帰型ニューラルネットワークにより構成されている。具体的に、推論モデル５５１は、入力層Ｎ５１、ＬＳＴＭ（長期短期記憶：Long short-term memory）ブロックＮ５２、及び出力層Ｎ５３を備えている。ＬＳＴＭブロックＮ５２は、中間層に対応する。

　ＬＳＴＭブロックＮ５２は、入力ゲート及び出力ゲートを備え、情報の記憶及び出力のタイミングを学習可能に構成されたブロックである（S.Hochreiter and J.Schmidhuber, “Long short-term memory” Neural Computation, 9(8):1735-1780, November 15, 1997）。ＬＳＴＭブロックＮ５２は、情報の忘却のタイミングを調節する忘却ゲートを更に備えてもよい（Felix A. Gers, Jurgen Schmidhuber and Fred Cummins, "Learning to Forget: Continual Prediction with LSTM" Neural Computation, pages 2451-2471, October 2000）。ＬＳＴＭブロックＮ５２の構成は、実施の形態に応じて適宜設定されてよい。

　なお、推論モデル５５１の構造は、このような例に限定されなくてもよく、実施の形態に応じて適宜決定されてよい。推論モデル５５１は、異なる構造の再帰型ニューラルネットワークにより構成されてもよい。或いは、推論モデル５５１は、再帰型ではなく、上記判定モデル５０と同様に全結合型ニューラルネットワーク、又は畳み込みニューラルネットワークにより構成されてもよい。或いは、推論モデル５５１は、複数種類のニューラルネットワークの組み合わせにより構成されてもよい。また、推論モデル５５１の備える中間層の数は、１つに限られなくてもよく、２つ以上であってもよい。或いは、中間層は、省略されてもよい。その他、推論モデル５５１の構成は、上記判定モデル５０と同様であってよい。

　（１－１－２）学習データの構成例
　推論モデル５５１の教師あり学習に利用される学習データ３２３１は、訓練データ（入力データ）及び正解データ（教師信号）の組み合わせを含む複数の学習データセットＬ３０により構成される。訓練データは、訓練用の現在のタスク状態Ｌ３１における相対座標及び訓練用の最終目標のタスク状態Ｌ３２における相対座標により構成されてよい。正解データは、訓練用の目標のタスク状態Ｌ３３における相対座標により構成されてよい。なお、訓練データ及び正解データの形式は、特に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。例えば、訓練データには、相対座標がそのまま利用されてもよいし、或いは、相対座標を特徴量に変換することで得られた値が利用されてもよい。

　制御部３１は、ステップＳ２０９までの処理により得られた目標のタスク状態の１つ以上の系列から各学習データセットＬ３０を生成することができる。例えば、ノードＮｇにより示される最終目標のタスク状態を、訓練用の最終目標のタスク状態Ｌ３２として利用することができる。また、制御部３１は、ノードＮｓにより示される開始点のタスク状態を訓練用の現在のタスク状態Ｌ３１に設定した場合、対応する正解データにおける訓練用の目標のタスク状態Ｌ３３に、ノードＮ１により示されるタスク状態を設定してよい。同様に、制御部３１は、ノードＮ（ｋ）により示されるタスク状態を訓練用の現在のタスク状態Ｌ３１に設定した場合、対応する正解データにおける訓練用の目標のタスク状態Ｌ３３に、ノードＮ（ｋ＋１）により示されるタスク状態を設定してよい。制御部３１は、ノードＮ４により示されるタスク状態を訓練用の現在のタスク状態Ｌ３１に設定した場合、対応する正解データにおける訓練用の目標のタスク状態Ｌ３３に、ノードＮｇにより示される最終目標のタスク状態を設定してよい。これにより、得られた目標のタスク状態の１つ以上の系列から各学習データセットＬ３０を生成することができる。

　（１－１－３）ステップＳ２１０について
　上記ステップＳ２１０では、制御部３１は、取得された複数の学習データセットＬ３０を使用して、推論モデル５５１の機械学習（教師あり学習）を実施する。第１の例では、制御部３１は、機械学習により、各学習データセットＬ３０について、訓練データを入力層Ｎ５１に入力すると、正解データに適合する出力値を出力層Ｎ５３から出力するように推論モデル５５１を訓練する。これにより、現在のタスク状態及び最終目標のタスク状態から次に遷移する目標のタスク状態を推論する能力を獲得した学習済みの推論モデル５５１を生成することができる。

　推論モデル５５１の機械学習の方法は、上記判定モデル５０の機械学習の方法と同様であってよい。すなわち、第１のステップでは、制御部３１は、各学習データセットＬ３０について、推論モデル５５１の入力層Ｎ５１に訓練データを入力し、推論モデル５５１の演算処理を実行する。これにより、制御部３１は、現在のタスク状態に対して次に遷移する目標のタスク状態を推論した結果に対応する出力値を推論モデル５５１の出力層Ｌ５３から取得する。第２のステップでは、制御部３１は、出力層Ｌ５３の出力値と正解データとの誤差を損失関数に基づいて算出する。

　続いて、第３のステップでは、制御部３１は、誤差逆伝播法により、算出された出力値の誤差の勾配を用いて、推論モデル５５１の各演算パラメータの値の誤差を算出する。制御部３１は、算出された誤差の勾配を用いて、推論モデル５５１の各演算パラメータ（例えば、各ニューロン間の結合の重み、各ニューロンの閾値等）の値の誤差を算出する。第４のステップでは、制御部３１は、算出された各誤差に基づいて、推論モデル５５１の演算パラメータの値を更新する。更新の程度は、学習率により調節されてよい。学習率は、オペレータの指定により与えられてもよいし、プログラム内の設定値として与えられてもよい。

　制御部３１は、上記第１～第４のステップを繰り返すことで、各学習データセットＬ３０について、出力層Ｎ５３から出力される出力値と正解データとの誤差の和が小さくなるように、推論モデル５５１の演算パラメータの値を調整する。例えば、制御部３１は、誤差の和が閾値以下になるまで、上記第１～第４のステップの処理を繰り返してもよい。閾値は、実施の形態に応じて適宜設定されてよい。或いは、制御部３１は、上記第１～第４のステップを所定回数繰り返してもよい。調整を繰り返す回数は、例えば、プログラム内の設定値で指定されてもよいし、オペレータの入力により指定されてもよい。

　この機械学習（教師あり学習）の結果により、制御部３１は、各学習データセットＬ３０について、訓練データを入力層Ｎ５１に入力すると、対応する正解データに適合する出力値を出力層Ｎ５３から出力するように訓練された学習済みの推論モデル５５１を構築することができる。すなわち、現在のタスク状態及び最終目標のタスク状態から次に遷移する目標のタスク状態を推論する能力を獲得した学習済みの推論モデル５５１を構築することができる。

　ステップＳ２１１では、制御部３１は、教師あり学習により構築された学習済みの推論モデル５５１の構造及び演算パラメータを示す情報を推論モデルデータ３２５１として生成する。そして、制御部３１は、生成された推論モデルデータ３２５１を所定の記憶領域に保存する。なお、推論モデルデータ３２５１の内容は、学習済みの推論モデル５５１を再生可能であれば、このような例に限定されなくてもよい。例えば、各装置間で推論モデル５５１の構造が共通化されている場合、推論モデルデータ３２５１において推論モデル５５１の構造を示す情報は省略されてよい。

　（１－１－４）その他
　なお、機械学習の方法に教師あり学習を採用する場合、推論モデル５５１の構成は、ニューラルネットワークに限られなくてよい。ニューラルネットワーク以外の機械学習モデルが推論モデル５５１として採用されてもよい。推論モデル５５１を構成する機械学習モデルには、例えば、サポートベクタマシン、回帰モデル、決定木等が採用されてもよい。教師あり学習の方法は、上記の例に限定されなくてよく、機械学習モデルの構成に応じて適宜選択されてよい。

　（１－２）第２の例
　図１３は、推論モデル５５を構成する機械学習モデル及び機械学習の方法の第２の例を模式的に示す。第２の例では、機械学習の方法に強化学習を採用する。なお、図１３の例では、説明の便宜上、推論モデル５５、学習データ３２３、及び推論モデルデータ３２５それぞれの一例を、推論モデル５５２、学習データ３２３２、及び推論モデルデータ３２５２と表記する。

　（１－２－１）推論モデルの構成例
　第２の例では、推論モデル５５２には、価値ベース、方策ベース、又はその両方が採用されてよい。価値ベースを採用する場合、推論モデル５５２は、例えば、状態価値関数、行動価値関数（Ｑ関数）等の価値関数により構成されてよい。状態価値関数は、与えられた状態の価値を出力するように構成される。行動価値関数は、与えられた状態に対して各行動の価値を出力するように構成される。方策ベースを採用する場合、推論モデル５５２は、例えば、方策関数により構成されてよい。方策関数は、与えられた状態に対して各行動を選択する確率を出力するように構成される。両方を採用する場合、推論モデル５５２は、例えば、価値関数（Critic）及び方策関数（Actor）により構成されてよい。各関数は、例えば、データテーブル、関数式等により表現されてよい。関数式により表現する場合、各関数は、ニューラルネットワーク、線形関数、決定木等により構成されてよい。なお、中間（隠れ）層が複数存在する多層構造のニューラルネットワークにより各関数を構成することで、深層強化学習が実施されてよい。

　（１－２－２）学習データの構成例
　強化学習では、基本的に、方策に従って行動することで、学習の環境と相互作用するエージェントが仮定される。エージェントの実体は、例えば、ＣＰＵである。推論モデル５５２は、上記の構成により、行動を決定する方策として動作する。エージェントは、与えられた学習の環境内で、強化する行動に関する状態を観測する。本実施形態では、観測対象となる状態は、相対座標により規定されるタスク状態であり、実行される行動は、現在のタスク状態から目標のタスク状態への遷移である。方策は、現在のタスク状態及び最終目標のタスク状態から次に遷移する目標のタスク状態を決定（推論）するように構成される。

　エージェントは、観測された現在のタスク状態（入力データ）を推論モデル５５２に与えて、次に遷移する目標のタスク状態を推論してよい。エージェントは、この推論の結果に基づいて、目標のタスク状態を決定してもよい。或いは、目標のタスク状態は、ランダムに決定されてよい。これにより、エージェントは、採用する行動を決定することができる。決定された目標のタスク状態に遷移する行動をエージェントが実行すると、観測されるタスク状態は次のタスク状態に遷移する。場合によって、エージェントは、学習の環境から即時報酬を得ることができる。

　この行動の決定及び実行の試行錯誤を繰り返しながら、エージェントは、即時報酬の総和（すなわち、価値）を最大化するように、推論モデル５５２を更新する。これにより、最適な行動、すなわち、高い価値の取得を期待可能な行動が強化され、そのような行動の選択を可能にする方策（学習済みの推論モデル５５２）を得ることができる。

　したがって、強化学習では、学習データ３２３２は、この試行錯誤により得られる状態遷移データであって、実行された行動により現在のタスク状態から次のタスク状態に遷移し、場合によって即時報酬が得られるという状態遷移を示す状態遷移データにより構成される。１件の状態遷移データは、１エピソード全ての状態遷移の軌跡を示すデータにより構成されてもよいし、或いは、所定回数（１回以上）分の状態遷移を示すデータにより構成されてもよい。上記ステップＳ２０２～ステップＳ２０９の処理過程において、制御部３１は、訓練中の推論モデル５５２を利用して、上記試行錯誤を実行することで、上記状態遷移データを取得することができる。

　また、状態遷移に応じて即時報酬を算出するのには報酬関数が用いられてよい。報酬関数は、データテーブル、関数式、又はルールにより表現されてよい。関数式により表現する場合、報酬関数は、ニューラルネットワーク、線形関数、決定木等により構成されてよい。報酬関数は、オペレータ等により、手動的に設定されてもよい。

　或いは、報酬関数は、遷移する対象のタスク状態において第１対象物及び第２対象物が互いに接触するか否かを上記学習済みの判定モデル５０により判定した結果、並びに当該対象のタスク状態及び最終目標のタスク状態の間の距離に応じて即時報酬を与えるように設定されてよい。具体的には、即時報酬は、第１対象物及び第２対象物が互いに接触せず、かつ対象のタスク状態及び最終目標のタスク状態の間の距離が短いほど多く設定され、第１対象物及び第２対象物が互いに接触する、又は当該距離が長いほど少なく設定されてよい。以下の式１は、このように即時報酬を与える報酬関数の一例を例示する。

　ｓ_cは、方策により決定された目標のタスク状態を示す。ｓ_gは、最終目標のタスク状態を示す。Ｆ（ｓ_c）は、タスク状態ｓ_cにおいて第１対象物及び第２対象物が互いに接触するか否かを学習済みの判定モデル５０により判定した結果を示す。互いに接触すると判定された場合、Ｆ（ｓ_c）の値は小さくなり（例えば、０）、互いに接触しないと判定された場合に、Ｆ（ｓ_c）の値は大きくなる（例えば、１）ように設定されてよい。学習済みの判定モデル５０の出力値が当該設定に対応している場合には、学習済みの判定モデル５０の出力値がそのままＦ（ｓ_c）として使用されてもよい。

　或いは、報酬関数は、エキスパートにより得られた事例データから逆強化学習により推定されてよい。事例データは、エキスパートによる実演（の軌跡）を示すデータにより構成されてよい。本実施形態では、事例データは、例えば、任意の開始点のタスク状態から最終目標のタスク状態に到達するように第１対象物を実際に移動した経路を示すデータにより構成されてよい。事例データを生成する方法は、特に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。事例データは、例えば、エキスパートによる実演の軌跡をセンサ等により記録することにより生成されてよい。

　逆強化学習の方法は、特に限定されなくてよく、実施の形態に応じて適宜選択されてよい。逆強化学習には、例えば、最大エントロピー原理による方法、相対エントロピーの最小化による方法、敵対的生成ネットワークを利用した方法（例えば、Justin Fu, et al., "Learning Robust Rewards with Adversarial Inverse Reinforcement Learning", arXiv:1710.11248, 2018）等が用いられてよい。逆強化学習により報酬関数を得る場合、学習データ３２３２は、逆強化学習に利用する事例データを更に備えてよい。

　（１－２－３）ステップＳ２１０について
　上記ステップＳ２１０では、制御部３１は、得られた状態遷移データに基づいて、価値を最大化するように推論モデル５５２の演算パラメータの値を更新する。推論モデル５５２の演算パラメータの値を調整する方法は、推論モデル５５２の構成に応じて適宜選択されてよい。例えば、推論モデル５５２がニューラルネットワークにより構成される場合、推論モデル５５２の演算パラメータの値は、誤差逆伝播法等により、上記第１の例と同様の方法で調整されてよい。

　制御部３１は、得られる価値（の期待値）が最大化されるように（例えば、更新量が閾値以下になるまで）、推論モデル５５２の演算パラメータの値を調整する。すなわち、推論モデル５５２を訓練することは、所定の条件（例えば、更新量が閾値以下になること）を満たすまで報酬が多く得られるように推論モデル５５２を構成する演算パラメータの値の修正を繰り返すことを含む。これにより、制御部３１は、現在のタスク状態及び最終目標のタスク状態から次に遷移する目標のタスク状態を推論する能力を獲得した学習済みの推論モデル５５２を生成することができる。

　なお、制御部３１は、ステップＳ２０２～ステップＳ２０９の処理により学習データ３２３２を収集し終えた後に、上記推論モデル５５２の演算パラメータの値の調整を実行してもよい。或いは、制御部３１は、ステップＳ２０２～ステップＳ２１０の処理を繰り返しながら、上記推論モデル５５２の演算パラメータの値の調整を実行してもよい。

　推論モデル５５２が価値ベースで構成される場合、上記強化学習の方法には、ＴＤ（temporal difference）法、ＴＤ（λ）法、モンテカルロ法、動的計画法等が用いられてよい。試行錯誤における行動の決定は、オンポリシであってもよいし、オフポリシであってもよい。具体例として、強化学習の方法には、Ｑ学習、Ｓａｒｓａ等が用いられてよい。試行錯誤の際には、確率εでランダムな行動を採用してもよい（ε－グリーディ法）。

　また、推論モデル５５２が方策ベースで構成される場合、上記強化学習の方法には、方策勾配法、ＴＲＰＯ（trust region policy optimization）、ＰＰＯ（proximal policy optimization）等が用いられてよい。この場合、制御部３１は、得られる価値が増加する方向に方策関数の演算パラメータの勾配を算出し、算出された勾配に基づいて、方策関数の演算パラメータの値を更新する。方策関数の勾配の算出には、例えば、ＲＥＩＮＦＯＲＣＥアルゴリズム等が用いられてよい。

　また、推論モデル５５が両方で構成される場合、上記強化学習の方法には、Actor Critic法、Ａ２Ｃ（Advantage Actor Critic）、Ａ３Ｃ（Asynchronous Advantage Actor Critic）等が用いられてよい。

　更に、逆強化学習を実施する場合には、上記強化学習の処理を実行する前に、制御部３１は、事例データを更に取得する。事例データは、制御装置３により生成されてもよいし、他のコンピュータにより生成されてもよい。他のコンピュータにより生成される場合、制御部３１は、ネットワーク、記憶媒体９３等を介して、他のコンピュータにより生成された事例データを取得してもよい。次に、制御部３１は、取得された事例データを利用して、逆強化学習を実行することで、報酬関数を設定する。そして、制御部３１は、逆強化学習により設定された報酬関数を利用して、上記強化学習の処理を実行する。これにより、制御部３１は、逆強化学習により設定された報酬関数を利用して、現在のタスク状態及び最終目標のタスク状態から次に遷移する目標のタスク状態を推論する能力を獲得した学習済みの推論モデル５５２を生成することができる。

　ステップＳ２１１では、制御部３１は、強化学習により構築された学習済みの推論モデル５５２を示す情報を推論モデルデータ３２５２として生成する。学習済みの推論モデル５５２を示す情報には、例えば、データテーブルの各項目の値、関数式の係数の値等の演算パラメータを示す情報が含まれてよい。そして、制御部３１は、生成された推論モデルデータ３２５２を所定の記憶領域に保存する。第２の例によれば、第１対象物及び第２対象物の無用な接触を避けると共に、ロボット装置のタスク状態が最終目標のタスク状態に早く到達するように目標のタスク状態を決定可能な推論モデル５５を生成することができる。

　（１－３）小括
　本実施形態では、機械学習モデルにより推論モデル５５を構成する場合、推論モデル５５の構成には、上記２つの例の少なくともいずれかが採用されてもよい。制御部３１は、上記２つの機械学習の方法の少なくともいずれかを採用することで、第１対象物が第２対象物に接触しないように、現在のタスク状態及び最終目標のタスク状態から次に遷移する目標のタスク状態を推論する能力を獲得した学習済みの推論モデル５５を生成することができる。よって、第１の方法によれば、タスクの遂行に利用可能な推論モデル５５を適切に生成することができる。

　（２）第２の方法
　図１４Ａは、第２の方法における学習データ３２３の一例を模式的に例示する。図１４Ｂは、第２の方法における推論モデル５５の構成の一例を模式的に例示する。第２の方法では、推論モデル５５は、タスク状態の集合を表現するタスク空間ＳＰ内の各座標のポテンシャルを規定するポテンシャル場により構成される。なお、図１４Ａ及び図１４Ｂでは、説明の便宜上、推論モデル５５、学習データ３２３、及び推論モデルデータ３２５それぞれの一例を、推論モデル５５３、学習データ３２３３、及び推論モデルデータ３２５３と表記する。

　制御部３１は、上記ステップＳ２０２～ステップＳ２０９の処理により、タスク空間ＳＰ内で、学習済みの判定モデル５０を利用して、第１対象物が第２対象物に接触しないように、パスプランニングを実施する。これにより、図１４Ａに例示されるとおり、制御部３１は、それぞれ開始点（ノードＮｓ）として与えられた複数のタスク状態それぞれから最終目標のタスク状態までの経路Ｈｂを示す学習データ３２３３を生成することができる。各開始点（ノードＮｓ）は、ランダムに与えられてよい。

　上記ステップＳ２１０では、制御部３１は、生成された学習データ３２３３により示される各経路Ｈｂの通過する頻度に応じて、各座標のポテンシャルを設定することで、ポテンシャル場を生成する。ポテンシャル場を導出する方法は、特に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。制御部３１は、例えば、カーネル密度推定、混合ガウスモデル（ＧＭＭ：Gaussian Mixture Model）を用いた推定により、学習データ３２３３からポテンシャル場を導出してもよい。これにより、図１４Ｂに例示されるポテンシャル場（推論モデル５５３）を得ることができる。

　ポテンシャル場における各座標のポテンシャルは、最終目標に到達することに対する、各座標における第１対象物及び第２対象物の位置関係の評価値を示す。すなわち、ポテンシャルが高いほど、その座標における位置関係が最終目標に到達する可能性が高いことを示し、ポテンシャルが低いほど、その座標における位置関係が最終目標に到達する可能性が低いことを示す。そのため、ポテンシャルの勾配の高い方に遷移することで、開始点となる任意のタスク状態から最終目標のタスク状態に適切に到達することができる。よって、第２の方法によれば、タスクの遂行に利用可能な推論モデル５５を適切に生成することができる。

　ステップＳ２１１では、制御部３１は、生成されたポテンシャル場を示す情報を推論モデルデータ３２５３として生成する。ポテンシャル場は、データテーブル、関数式等により表現されてよい。そして、制御部３１は、生成された推論モデルデータ３２５３を所定の記憶領域に保存する。

　（３）小括
　本実施形態では、推論モデル５５を生成する方法として、上記２つの方法のうちの少なくともいずれかが採用されてよい。制御部３１は、上記２つの方法のうちの少なくともいずれかを採用することで、第１対象物が第２対象物に接触しないように、現在のタスク状態及び最終目標のタスク状態から次に遷移する目標のタスク状態を推論するように構成された推論モデル５５を生成することができる。

　なお、第１対象物が第２対象物に接触しないように目標のタスク状態を推論することは、第１対象物及び第２対象物の間で意図しない接触が生じるのを避けて目標のタスク状態を決定することであり、例えば、エンドエフェクタＴがワークＷを保持する等の第１対象物が第２対象物に適正に接触するタスク状態を目標のタスク状態として決定することを含んでもよい。すなわち、避ける対象となる「接触する」状態は、例えば、第１対象物及び第２対象物の間で過度な力が作用する、第１対象物及び第２対象物の一方が他方に正しい姿勢で組付けられる以外の状態で接触する等の不適正に接触する状態である。したがって、「第１対象物が第２対象物に接触しない」ことは、「第１対象物が第２対象物に不適正な状態で接触するのを避ける」ことに置き換えられてよい。

　（Ｂ）ロボット装置の動作制御
　次に、図１５Ａ、図１５Ｂ及び図１６を用いて、本実施形態に係る制御装置３のロボット装置（マニピュレータ４）の動作制御に関する動作例について説明する。図１５Ａ及び図１５Ｂは、本実施形態に係る制御装置３によるロボット装置（マニピュレータ４）の動作制御に関する処理手順の一例を示すフローチャートである。図１６は、動作制御の過程における各要素の計算処理のフローの一例を示す。上記推論モデル５５の生成に関する処理手順を含め、以下で説明する処理手順は、本発明の「制御方法」の一例である。ただし、以下で説明する各処理手順は一例に過ぎず、各ステップは可能な限り変更されてよい。更に、以下で説明する各処理手順について、実施の形態に応じて、適宜、ステップの省略、置換、及び追加が可能である。なお、以下で説明するロボット装置（マニピュレータ４）の動作の制御は、実空間上で実施されてもよいし、或いは仮想空間上で実施されてもよい。

　（ステップＳ３０１及びステップＳ３０２）
　ステップＳ３０１では、制御部３１は、遂行するタスクの指定を受け付ける。タスクの指定を受け付ける方法は、特に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。例えば、制御部３１は、入力装置３５を介したタスクの名称の入力により、遂行するタスクの指定を受け付けてもよい。また、例えば、制御部３１は、遂行するタスクの候補を示すリストを出力装置３６に出力し、オペレータに遂行するタスクをリストから選択させることで、遂行するタスクの指定を受け付けてもよい。

　本実施形態では、制御部３１は、第１対象物及び第２対象物の存在する環境下で、第２対象物に対して第１対象物を移動するタスクの遂行を受け付ける。具体的には、マニピュレータ４を駆動して、エンドエフェクタＴによりワークＷを保持し、保持したワークＷを他のワークＧに組み付ける一連の作業が、指定されるタスクの一例である。本実施形態では、ワークＷを保持しに行く第１タスクの過程では、エンドエフェクタＴの注目点Ｔ０がマニピュレータ４の手先として取り扱われ、ワークＷが、手先の移動の目標物である。一方、ワークＷを保持した後、ワークＷを他のワークＧに組み付ける第２タスクの過程では、エンドエフェクタＴに保持されたワークＷの注目点Ｗ０がマニピュレータ４の手先として取り扱われ、ワークＷの組付け先である他のワークＷが、手先の移動の目標物である。各タスクでは、マニピュレータ４の手先が第１対象物に相当し、目標物が第２対象物に相当する。

　ステップＳ３０２では、制御部３１は、目標設定部３１１として動作し、指定されたタスクに応じて最終目標のタスク状態ｓ_gを設定する。上記のとおり、本実施形態では、タスク状態は、マニピュレータ４の手先及び目標物の間の位置関係により規定される。また、位置関係は、相対座標により表現される。最終目標のタスク状態ｓ_gにおける相対座標は、ＣＡＤ等のシミュレータにより与えられてもよいし、オペレータの指定により与えられてもよい。最終目標のタスク状態ｓ_gにおける相対座標は、上記ステップＳ２０１と同様の方法により設定されてよい。最終目標のタスク状態ｓ_gを設定すると、制御部３１は、次のステップＳ３０３に処理を進める。

　（ステップＳ３０３）
　ステップＳ３０３では、制御部３１は、タスクを遂行する環境を観測する各センサからセンシングデータを取得する。

　本実施形態では、タスクを遂行する環境を観測する視覚系のセンサとしてカメラＳ１が用いられている。また、マニピュレータ４は、各関節（関節部４１～４６）の角度を測定するエンコーダＳ２及びエンドエフェクタＴに作用する力を測定する触覚センサＳ３を備えている。そのため、制御部３１は、センシングデータとして、タスクを遂行する環境の写る画像データをカメラＳ１から取得することができる。また、制御部３１は、センシングデータとして、マニピュレータ４における各関節の角度の現在値ｑ_(j)（すなわち、現在の測定値）を各エンコーダＳ２から取得することができる。なお、以下では、説明の便宜のため、「現在」等のタイミングを特に区別する場合に（ｊ）等のタイミングを表す符号を付し、そうではない場合には当該符号を省略する。更に、制御部３１は、センシングデータとして、エンドエフェクタＴに作用する力の測定データを触覚センサＳ３から取得することができる。制御部３１は、各センサ（カメラＳ１、エンコーダＳ２、触覚センサＳ３）からセンシングデータを直接的に取得してもよいし、或いは、例えば、他のコンピュータを経由する等して、センシングデータを間接的に取得してもよい。カメラＳ１及び触覚センサＳ３はそれぞれ、エンドエフェクタＴに対するワークＷの状態を観測するセンサの一例である。センシングデータを取得すると、制御部３１は、次のステップＳ３０４に処理を進める。

　（ステップＳ３０４）
　ステップＳ３０４では、制御部３１は、取得されたセンシングデータに基づいて、エンドエフェクタＴがワークＷを保持しているか否かを判定する。判定方法は、特に限定されなくてもよく、センシングデータに応じて適宜決定されてよい。

　例えば、本実施形態では、センシングデータとして、タスクの環境が写る画像データをカメラＳ１から取得することができる。そこで、制御部３１は、ＣＡＤデータ３２０を利用して、取得された画像データに対してエンドエフェクタＴ及びワークＷのモデルをマッチングしてもよい。そして、制御部３１は、当該マッチングの結果により特定されたエンドエフェクタＴ及びワークＷの位置関係に基づいて、エンドエフェクタＴがワークＷを保持しているか否かを判定してもよい。マッチングの方法には、公知の画像処理方法が用いられてよい。

　また、例えば、本実施形態では、センシングデータとして、エンドエフェクタＴに作用する力の測定データを取得することができる。そこで、制御部３１は、測定データにより表れる力の分布に基づいて、エンドエフェクタＴがワークＷを保持しているか否かを判定してもよい。エンドエフェクタＴがワークＷを保持していると認められる力がエンドエフェクタＴに作用していると測定データから推定される場合、制御部３１は、エンドエフェクタＴがワークＷを保持していると判定してもよい。一方、そうではない場合、制御部３１は、エンドエフェクタＴはワークＷを保持していないと判定してもよい。

　センシングデータに基づいて、エンドエフェクタＴがワークＷを保持しているか否かの判定が完了すると、制御部３１は、次のステップＳ３０５に処理を進める。

　（ステップＳ３０５）
　ステップＳ３０５では、制御部３１は、ステップＳ３０４の判定の結果に基づいて、マニピュレータ４の動作モードを設定する。具体的には、エンドエフェクタＴがワークＷを保持していないと判定した場合、制御部３１は、エンドエフェクタＴの注目点Ｔ０をマニピュレータ４の手先に設定し、エンドエフェクタＴによりワークＷを保持する第１タスクを遂行するモードに動作モードを設定する。一方、エンドエフェクタＴがワークＷを保持していると判定した場合、制御部３１は、ワークＷの注目点Ｗ０をマニピュレータ４の手先に設定し、エンドエフェクタＴにより保持されたワークＷを他のワークＧに組み付ける第２タスクを遂行するモードに動作モードを設定する。動作モードの設定が完了すると、制御部３１は、次のステップＳ３０６に処理を進める。

　（ステップＳ３０６）
　ステップＳ３０６では、制御部３１は、状態取得部３１２として動作し、マニピュレータ４の現在のタスク状態ｓ_(j)を取得する。

　上記のとおり、本実施形態では、エンドエフェクタＴがワークＷを保持していない場合、タスク状態ｓは、エンドエフェクタＴに対するワークＷの相対座標により規定される。一方、エンドエフェクタＴがワークＷを保持している場合、タスク状態ｓは、ワークＷに対する他のワークＧの相対座標により規定される。本実施形態では、制御部３１は、ＣＡＤデータ３２０を利用して、カメラＳ１により得られた画像データに対して各対象物をマッチングする。制御部３１は、このマッチングの結果から、現在のタスク状態ｓ_(j)を取得することができる。

　ここで、図１７を更に用いて、現在のタスク状態ｓ_(j)を取得する方法の一例について説明する。図１７は、各対象物の位置関係の一例を模式的に例示する。図１７の例では、マニピュレータ４の台座部４０に観測空間の原点が設定されている。ただし、原点の位置は、このような例に限定されなくてもよく、実施の形態に応じて決定されてよい。原点に対するカメラＳ１の同次座標（Ｔ_C）は、以下の式２により表現することができる。

　Ｒ_rcは、原点の座標系からカメラＳ１の座標系を見た回転成分を示し、ｔ_rcは、平行移動成分を示す。以下では、説明の便宜上、原点の同次座標（Ｔ_R）は、以下の式３を満たすようにカメラＳ１がキャリブレーションされていると想定する。

　Ｉは、単位行列を示す。図１７の例では、原点に対するエンドエフェクタＴの注目点Ｔ０の相対座標がエンドエフェクタＴの座標（Ｔ_t）である。原点に対するワークＷの注目点Ｗ０の相対座標がワークＷの座標（Ｔ_w）である。原点に対する他のワークＧの注目点Ｇ０の相対座標が他のワークＧの座標（Ｔ_g）である。制御部３１は、ＣＡＤデータ３２０を利用して、画像データに対して各対象物のモデルをマッチングすることで、各座標（Ｔ_t、Ｔ_w、Ｔ_g）の値を得ることができる。

　エンドエフェクタＴがワークＷを保持していない場合には、タスク状態ｓとエンドエフェクタＴ及びワークＷの各座標（Ｔ_t、Ｔ_w）との関係は、上記式４により表現することができる。そのため、制御部３１は、マッチングの結果により得られたエンドエフェクタＴ及びワークＷの各座標の現在値（Ｔ_t(j)、Ｔ_w(j)）を上記式４に代入し、上記式４の演算処理を実行することで、現在のタスク状態ｓ_(j)を算出することができる。

　一方、エンドエフェクタＴがワークＷを保持している場合には、タスク状態ｓとワークＷ及び他のワークＧの各座標（Ｔ_w、Ｔ_g）との関係は、上記式５により表現することができる。そのため、制御部３１は、マッチングの結果により得られたワークＷ及び他のワークＧの各座標の現在値（Ｔ_w(j)、Ｔ_g(j)）を上記式５に代入し、上記式５の演算処理を実行することで、現在のタスク状態ｓ_(j)を算出することができる。なお、各座標（Ｔ_t、Ｔ_w、Ｔ_g）の表現は、適宜選択されてよい。各座標（Ｔ_t、Ｔ_w、Ｔ_g）の表現には、例えば、同次座標系が用いられてよい。以下についても同様である。

　カメラＳ１がキャリブレーションされていない場合、制御部３１は、カメラＳ１により得られる画像データ内で原点の座標（Ｔ_R）を更に算出してもよい。原点の検出には、マーカ等の目印が用いられてよい。すなわち、画像データ内で目印をマッチングすることで、原点の座標（Ｔ_R）が算出されてよい。制御部３１は、算出された原点の座標（Ｔ_R）を上記各演算に適用することで、現在のタスク状態ｓ_(j)を算出することができる。以降のステップで、ＣＡＤデータ３２０によるマッチングを実行するケースも同様に処理されてよい。

　現在のタスク状態ｓ_(j)を取得すると、制御部３１は、次のステップＳ３０７に処理を進める。なお、ステップＳ３０６の処理を実行するタイミングは、このような例に限定されなくてもよい。ステップＳ３０６の処理は、後述するステップＳ３０８を実行する前の任意のタイミングで実行されてよい。例えば、上記ステップＳ３０４でもＣＡＤデータ３２０によるマッチングを行う場合、当該ステップＳ３０６の処理は、上記ステップＳ３０４の処理と共に実行されてよい。

　（ステップＳ３０７）
　ステップＳ３０７では、制御部３１は、取得されたセンシングデータからマニピュレータ４の手先の座標の現在値ｘ_(j)を算出する。本実施形態では、手先座標の現在値ｘ_(j)の算出には、カメラＳ１、各エンコーダＳ２、及び触覚センサＳ３の少なくともいずれかにより得られるセンシングデータが利用されてよい。制御部３１は、以下の２つの方法のうちの少なくともいずれかにより手先座標の現在値ｘ_(j)を算出することができる。

　（１）第１の方法
　図１６に示されるとおり、第１の方法では、制御部３１は、順運動学計算により、各エンコーダＳ２により得られる関節空間におけるマニピュレータ４の各関節の角度の現在値ｑ_(j)から、観測空間におけるマニピュレータ４の手先の座標の現在値ｘ_(j)を導出する。以下、エンドエフェクタＴがワークＷを保持していない場合とワークＷを保持している場合とに分けて説明する。

　（１－１）ワークＷを保持していない場合
　エンドエフェクタＴがワークＷを保持していない場合、エンドエフェクタＴの注目点Ｔ０が手先に設定されている。この場合、制御部３１は、各関節の第１同次変換行列により導出される第１変換行列群（φ）を変換関数として用いた順運動学計算により、各関節の角度の現在値ｑ_(j)から設定された手先座標の現在値ｘ_(j)を算出する。

　具体的には、順運動学により、エンドエフェクタＴの注目点Ｔ０の座標（ｘ_t）と各関節の角度（ｑ）との関係は、上記式６により表現することができる。角度（ｑ）は、関節数に応じた次元数を有する変数である。また、各関節の第１同次変換行列（_m-1Ｔ^m）と第１変換行列群（φ）との関係は、上記式７により与えられる（ｍは、０～ｎ。ｎは、関節数）。第１同次変換行列は、対象の関節よりも手元側の座標系から見た対象の関節の座標系の相対座標を表し、手元側の座標系から対象の関節の座標系に座標を変換するのに利用される。

　各関節の第１同次変換行列のパラメータの値は、各関節の角度を除いて既知であり、本実施形態では、ロボットデータ３２１に含まれている。当該パラメータは、ＤＨ（Denavit-Hartenberg）記法、修正ＤＨ記法等の公知の方法で設定されてよい。制御部３１は、ロボットデータ３２１を参照することで、上記式７に示される第１変換行列群（φ）を導出する。そして、制御部３１は、上記式６のとおり、導出された第１変換行列群（φ）に各関節の角度の現在値ｑ_(j)を代入し、第１変換行列群（φ）の演算処理を実行する。この順運動学計算の結果により、制御部３１は、エンドエフェクタＴ（の注目点Ｔ０）の座標の現在値ｘ_t(j)を算出することができる。制御部３１は、算出された現在値ｘ_t(j)を手先座標の現在値ｘ_(j)として取得する。

　（１－２）ワークＷを保持している場合
　一方、エンドエフェクタＴがワークＷを保持している場合、ワークＷの注目点Ｗ０が手先に設定されている。この場合、まず、制御部３１は、エンドエフェクタＴの注目点Ｔ０の座標系からワークＷの注目点Ｗ０の座標系に座標を変換するための第２同次変換行列（_tＴ^w）を取得する。

　第２同次変換行列（_tＴ^w）を取得する方法は、特に限られなくてもよく、実施の形態に応じて適宜選択されてよい。例えば、エンドエフェクタＴにワークＷが保持されると、エンドエフェクタＴに対するワークＷの位置及び姿勢が一定になるケースが存在する。そこで、第２同次変換行列（_tＴ^w）は、定数で与えられてもよい。

　或いは、制御部３１は、ステップＳ３０３において取得されたセンシングデータから第２同次変換行列（_tＴ^w）を導出してもよい。導出方法の一例として、制御部３１は、ＣＡＤデータ３２０を利用して、カメラＳ１により得られた画像データに対してエンドエフェクタＴ及びワークＷのモデルをマッチングしてもよい。制御部３１は、このマッチングの結果により、エンドエフェクタＴの座標（Ｔ_t）及びワークＷの座標（Ｔ_w）を得ることができる。上記と同様に、カメラＳ１がキャリブレーションされていると想定すると、制御部３１は、以下の式８により、エンドエフェクタＴの座標（Ｔ_t）及びワークＷの座標（Ｔ_w）から第２同次変換行列（_tＴ^w）を算出することができる。

　ＣＡＤデータ３２０によるマッチングは、上記順運動学計算により算出されるエンドエフェクタＴの注目点Ｔ０の座標（ｘ_t）付近で実施されてもよい。このマッチング及び上記順運動学計算がそれぞれ正確である場合、マッチングにより得られるエンドエフェクタＴの座標（Ｔ_t）は、順運動学計算により算出される座標（ｘ_t）と一致する。そこで、制御部３１は、順運動学計算により算出される座標（ｘ_t）を座標（Ｔ_t）として利用してもよい。これにより、制御部３１は、第２同次変換行列（_tＴ^w）を導出することができる。なお、上記ステップＳ３０６の上記式４の演算処理でも同様に、マッチングにより得られたエンドエフェクタＴの座標の現在値（Ｔ_t(j)）の代わりに、順運動学計算により算出された座標の現在値（ｘ_t(j)）が用いられてよい。

　また、導出方法の他の例として、触覚センサＳ３により測定されるエンドエフェクタＴに作用する力の分布は、エンドエフェクタＴに対するワークＷの位置及び姿勢に依存し得る。そこで、制御部３１は、触覚センサＳ３により得られた測定データに基づいて、エンドエフェクタＴに対するワークＷの相対座標（相対位置及び相対姿勢）を推定してもよい。制御部３１は、この推定の結果から第２同次変換行列（_tＴ^w）を導出することができる。

　なお、センシングデータから第２同次変換行列（_tＴ^w）を導出する方法は、上記の解析的な方法に限られなくてもよい。第２同次変換行列（_tＴ^w）の導出には、例えば、判定モデル５０、推論モデル５５１等と同様に、機械学習により、センシングデータから第２同次変換行列（_tＴ^w）を推定する能力を習得した学習済みの機械学習モデルが利用されてもよい。この場合、制御部３１は、取得されたセンシングデータを学習済みの機械学習モデルに与えて、学習済みの機械学習モデルの演算処理を実行する。これにより、制御部３１は、第２同次変換行列（_tＴ^w）を推定した結果に対応する出力値を学習済みの機械学習モデルから取得することができる。

　次に、制御部３１は、得られた第２同次変換行列（_tＴ^w）を第１変換行列群（φ）に掛けることで、第２変換行列群（φ（ｑ）・_tＴ^w）を算出する。第２変換行列群は、以下の式９により表現することができる。なお、第１同次変換行列は、第１変換式の一例であり、第２同次変換行列は、第２変換式の一例である。第１変換行列群（φ）は、第１変換式群の一例であり、第２変換行列群（φ（ｑ）・_tＴ^w）は、第２変換式群の一例である。各変換式の形式は、手先座標の演算に利用可能であれば、特に限定されなくてもよい。例えば、各変換式は、同次座標系以外の形式の変換行列で表現されてもよいし、或いは、行列以外の形式の数式で表現されてもよい。

　制御部３１は、算出された第２変換行列群を変換関数として用いた順運動学計算により、各関節の角度の現在値ｑ_(j)から設定された手先座標の現在値ｘ_(j)を算出する。すなわち、制御部３１は、第２変換行列群（φ（ｑ）・_tＴ^w）に各関節の角度の現在値ｑ_(j)を代入し、第２変換行列群（φ（ｑ）・_tＴ^w）の演算処理を実行する。この順運動学計算の結果により、制御部３１は、ワークＷ（の注目点Ｗ０）の座標の現在値を算出することができる。制御部３１は、算出されたワークＷの座標の現在値を手先座標の現在値ｘ_(j)として取得する。

　なお、上記において、第２同次変換行列（_tＴ^w）をセンシングデータから導出することにより、エンドエフェクタＴにおけるワークＷの保持状態が変動しても、その変動が反映された第２同次変換行列（_tＴ^w）を取得することができる。これにより、エンドエフェクタＴにおけるワークＷの保持状態が変動し得る場合でも、ワークＷの座標の現在値、すなわち、マニピュレータ４の手先座標の現在値を適切に算出することができる。

　（２）第２の方法
　第２の方法では、制御部３１は、ＣＡＤデータ３２０を利用して、カメラＳ１により得られた画像データに対して各対象物のモデルをマッチングすることで、マニピュレータ４の手先の座標の現在値ｘ_(j)を導出する。この場合、制御部３１は、上記ステップＳ３０６によりタスク空間で取得された現在のタスク状態ｓ_(j)から、マニピュレータ４の手先の座標の現在値ｘ_(j)を導出してもよい。

　図１７に示される各対象物の位置関係に基づいて、エンドエフェクタＴがワークＷを保持していない場合におけるタスク状態ｓ及び手先の座標ｘの間の関係は、上記式１０により表現することができる。この場合には、タスク空間から観測空間への変換関数（ψ）は、ワークＷの座標（Ｔ_w）により与えられる。制御部３１は、上記ステップＳ３０６により取得された現在のタスク状態ｓ_(j)及びマッチングにより得られたワークＷの座標の現在値（Ｔ_w(j)）を式１０に代入し、上記式１０の演算処理を実行することで、マニピュレータ４の手先の座標の現在値ｘ_(j)を算出することができる。

　同様に、エンドエフェクタＴがワークＷを保持している場合におけるタスク状態ｓ及び手先の座標ｘの間の関係は、上記式１１により表現することができる。この場合には、タスク空間から観測空間への変換関数（ψ）は、他のワークＧの座標（Ｔ_g）により与えられる。制御部３１は、上記ステップＳ３０６により取得された現在のタスク状態ｓ_(j)及びマッチングにより得られた他のワークＧの座標の現在値（Ｔ_g(j)）を式１１に代入し、上記式１１の演算処理を実行することで、マニピュレータ４の手先の座標の現在値ｘ_(j)を算出することができる。

　なお、ＣＡＤデータ３２０を用いたマッチングによりマニピュレータ４の手先の座標の現在値ｘ_(j)を導出する方法はこのような例に限定されなくてもよい。エンドエフェクタＴがワークＷを保持していない場合、制御部３１は、上記マッチングにより、エンドエフェクタＴの座標の現在値（Ｔ_t(j)）を算出し、算出された現在値（Ｔ_t(j)）を手先の座標の現在値ｘ_(j)として取得してもよい。同様に、エンドエフェクタＴがワークＷを保持している場合、制御部３１は、上記マッチングにより、ワークＷの座標の現在値（Ｔ_w(j)）を算出し、算出された現在値（Ｔ_w(j)）を手先の座標の現在値ｘ_(j)として取得してもよい。すなわち、制御部３１は、上記マッチングにより、マニピュレータ４の手先の座標の現在値ｘ_(j)を直接的に導出してもよい。

　（３）小括
　本実施形態では、制御部３１は、上記２つの方法のうちの少なくともいずれかを採用することにより、マニピュレータ４の手先の座標の現在値ｘ_(j)を算出することができる。マニピュレータ４の手先の座標の現在値ｘ_(j)を算出すると、制御部３１は、次のステップＳ３０８に処理を進める。なお、ステップＳ３０７の処理を実行するタイミングは、このような例に限定されなくてもよい。ステップＳ３０７の処理は、後述するステップＳ３１０の処理を実行する前の任意のタイミングで実行されてよい。例えば、ステップＳ３０７の処理は、上記ステップＳ３０６よりも前に実行されてよい。また、例えば、ＣＡＤデータ３２０を用いたマッチングを行うケースでは、ステップＳ３０７の処理は、上記ステップＳ３０６又はステップＳ３０４の処理と共に実行されてよい。

　（ステップＳ３０８）
　ステップＳ３０８では、制御部３１は、行動決定部３１３として動作し、最終目標のタスク状態ｓ_gに近付くように、取得された現在のタスク状態ｓ_(j)に対して次に遷移する目標のタスク状態ｓ_s(j)を決定する。本実施形態では、制御部３１は、推論モデルデータ３２５を参照し、上記ステップＳ２１０の処理により生成された推論モデル５５を利用して、現在のタスク状態ｓ_(j)に対して次に遷移する目標のタスク状態ｓ_s(j)を決定する。

　次に遷移する目標のタスク状態ｓ_s(j)を推論するための推論モデル５５の演算処理は、当該推論モデル５５の構成に応じて適宜実行されてよい。推論モデル５５が上記第１の方法により生成されており、推論モデル５５が関数式により構成される場合、制御部３１は、現在のタスク状態ｓ_(j)及び最終目標のタスク状態ｓ_gを関数式に代入し、当該関数式の演算処理を実行する。推論モデル５５がニューラルネットワークにより構成される場合、制御部３１は、現在のタスク状態ｓ_(j)及び最終目標のタスク状態ｓ_gを入力層に入力し、入力側から順に各層に含まれる各ニューロンの発火判定を行う。推論モデル５５がデータテーブルにより構成される場合、制御部３１は、現在のタスク状態ｓ_(j)及び最終目標のタスク状態ｓ_gをデータテーブルに照合する。これにより、制御部３１は、推論モデル５５の出力として、次に遷移する目標のタスク状態ｓ_s(j)を推論した結果を取得する。制御部３１は、この推論結果により、次に遷移する目標のタスク状態ｓ_s(j)を決定することができる。

　また、推論モデル５５が上記第２の方法により生成される、すなわち、推論モデル５５がポテンシャル場により構成される場合、制御部３１は、生成されたポテンシャル場における、現在のタスク状態ｓ_(j)に対応する座標に設定されたポテンシャルの値を参照する。そして、制御部３１は、現在のタスク状態ｓ_(j)に対応する座標に設定されたポテンシャルの勾配に応じて、次に遷移する目標のタスク状態ｓ_s(j)を決定する。具体的には、制御部３１は、ポテンシャルの勾配の高い方に遷移する（例えば、勾配の最も高い方に所定の距離分だけ遷移する）ように目標のタスク状態ｓ_s(j)を決定する。

　決定する目標のタスク状態の数は、１つに限られなくてもよい。ステップＳ３０８では、制御部３１は、決定した目標のタスク状態を現在のタスク状態として用いて、更に次に遷移する目標のタスク状態を決定してもよい。制御部３１は、この処理を繰り返すことで、目標のタスク状態を複数回決定してもよい。次に遷移する目標のタスク状態ｓ_s(j)を決定すると、制御部３１は、次のステップＳ３０９に処理を進める。

　（ステップＳ３０９）
　ステップＳ３０９では、制御部３１は、指令決定部３１５として動作し、決定された目標のタスク状態ｓ_s(j)から手先の座標の目標値ｘ_s(j)を算出する。図１６に示されるとおり、制御部３１は、上記変換関数（ψ）を利用することで、タスク空間における目標のタスク状態ｓ_s(j)を観測空間における手先の座標の目標値ｘ_s(j)に変換することができる。

　すなわち、エンドエフェクタＴがワークＷを保持していない場合におけるタスク空間から観測空間への変換関数（ψ）は、上記式１０により与えられる。制御部３１は、決定された目標のタスク状態ｓ_s(j)を上記式１０に代入し、上記式１０の演算処理を実行することで、手先の座標の目標値ｘ_s(j)を算出することができる。一方、エンドエフェクタＴがワークＷを保持している場合におけるタスク空間から観測空間への変換関数（ψ）は、上記式１１により与えられる。制御部３１は、決定された目標のタスク状態ｓ_s(j)を上記式１１に代入し、上記式１１の演算処理を実行することで、手先の座標の目標値ｘ_s(j)を算出することができる。手先の座標の目標値ｘ_s(j)を算出すると、制御部３１は、次のステップＳ３１０に処理を進める。

　（ステップＳ３１０）
　ステップＳ３１０では、制御部３１は、指令決定部３１５として動作し、手先座標の現在値ｘ_(j)及び手先座標の目標値ｘ_s(j)から手先座標の変化量（Δｘ_(j)）を決定する。具体的には、図１６に示されるとおり、制御部３１は、手先座標の現在値（ｘ_(j)）及び目標値（ｘ_s(j)）の偏差に基づいて手先座標の変化量（Δｘ_(j)）を決定する。例えば、手先座標の現在値及び目標値の偏差（ｘ_s－ｘ）と変化量（Δｘ）との関係は、以下の式１２により与えられてよい。なお、手先座標の変化量（Δｘ）は、手先座標の現在値及び目標値の差分の一例である。

　αは任意の係数である。例えば、αの値は、１以下でかつ０を超える範囲内で適宜決定されてよい。αは省略されてよい。制御部３１は、ステップＳ３０７及びステップＳ３０９により得られた手先座標の現在値ｘ_(j)及び手先座標の目標値ｘ_s(j)を上記式１２に代入し、上記式１２の演算処理を実行することで、手先座標の変化量（Δｘ_(j)）を決定することができる。手先座標の変化量（Δｘ_(j)）を決定すると、制御部３１は、次のステップＳ３１１に処理を進める。

　（ステップＳ３１１）
　ステップＳ３１１では、制御部３１は、指令決定部３１５として動作し、上記順運動学計算における変換関数の逆関数を用いた逆運動学計算により、決定された手先座標の変化量（Δｘ_(j)）から各関節の角度の変化量（Δｑ_(j)）を算出する。具体的には、手先座標の変化量（Δｘ）と各関節の角度の変化量（Δｑ）とは、以下の式１３により表現することができる。

　Ｊは、上記順運動学計算における変換関数から導出されるヤコビ行列である。ｊ_iは、ｉ番目の関節の行列成分を示し、Δｑ_iは、ｉ番目の関節の変化量を示す。

　ここで、図１８Ａ及び図１８Ｂを更に用いて、ヤコビ行列の計算方法の一例について説明する。図１８Ａは、エンドエフェクタＴがワークＷを保持していない時における各関節と手先との関係の一例を模式的に例示する。図１８Ｂは、エンドエフェクタＴがワークＷを保持している時における各関節と手先との関係の一例を模式的に例示する。

　図１８Ａに示されるとおり、エンドエフェクタＴがワークＷを保持していない時には、ヤコビ行列の各関節の成分は、各関節とエンドエフェクタＴとの位置関係に基づいて算出される。例えば、制御部３１は、以下の式１４により、各関節の成分を算出することができる。一方、図１８Ｂに示されるとおり、エンドエフェクタＴがワークＷを保持しているときには、ヤコビ行列の各関節の成分は、各関節とワークＷとの位置関係に基づいて算出される。例えば、制御部３１は、以下の式１５により、各関節の成分を算出することができる。

　ｚ_iは、ｉ番目の関節の同次座標における回転軸の成分を示し、ａ_iは、ｉ番目の関節の同次座標における平行移動成分を示す。ｚ_i及びａ_iは、ｉ番目の関節の第１同次変換行列から抽出される。ａ_tは、エンドエフェクタＴの同次座標における平行移動成分を示す。ａ_wは、ワークＷの同次座標における平行移動成分を示す。ａ_tは、エンドエフェクタＴの座標（Ｔ_t）から抽出される。ａ_wは、ワークＷの座標（Ｔ_w）から抽出される。ヤコビ行列の各成分ｊ_iは、各関節の第１同次変換行列の微分成分を示す。

　制御部３１は、上記式１４及び式１５に従って、動作モードに応じてヤコビ行列を算出する。なお、本実施形態では、エンドエフェクタＴがワークＷを保持していない場合とエンドエフェクタＴがワークＷを保持している場合との間で、ヤコビ行列の各成分において、エンドエフェクタＴの成分（ａ_t）及びワークＷの成分（ａ_w）が入れ替わるに過ぎない。そのため、制御部３１は、単純な計算処理により、それぞれの場合におけるヤコビ行列を算出することができる。

　次に、制御部３１は、算出されたヤコビ行列の逆行列（Ｊ^-1）を算出する。制御部３１は、算出された逆行列（Ｊ^-1）を用いて、逆運動学計算を実行する。具体的には、各変化量（Δｘ、Δｑ）と逆行列（Ｊ^-1）との関係は、上記式１３から以下の式１６のとおり導出される。

　制御部３１は、算出された逆行列（Ｊ^-1）及び手先座標の変化量（Δｘ_(j)）を式１６に代入し、上記式１６の演算処理を実行することで、各関節の角度の変化量（Δｑ_(j)）を算出することができる。各関節の角度の変化量（Δｑ_(j)）を算出すると、制御部３１は、次のステップＳ３１２に処理を進める。

　（ステップＳ３１２）
　ステップＳ３１２では、制御部３１は、指令決定部３１５として動作し、算出された各関節の角度の変化量に基づいて、各関節に対する指令値を決定する。指令値を決定する方法には、例えば、ＰＩＤ（Proportional-Integral-Differential）制御、ＰＩ制御等の公知の方法が採用されてよい。各関節に対する指令値は、ロボット装置に与える制御指令の一例である。本実施形態では、制御部３１は、ステップＳ３０９～ステップＳ３１２の処理により、マニピュレータ４のタスク状態を現在のタスク状態ｓ_(j)から目標のタスク状態ｓ_s(j)に変化させるように、マニピュレータ４に与える制御指令を決定することができる。制御指令を決定すると、制御部３１は、次のステップＳ３１３に処理を進める。

　（ステップＳ３１３）
　ステップＳ３１３では、制御部３１は、駆動部３１６として動作し、決定された制御指令をマニピュレータ４に与えることで、マニピュレータ４を駆動する。本実施形態では、制御部３１は、決定された各指令値により、マニピュレータ４の各関節を駆動する。なお、駆動方法は、特に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。例えば、制御部３１は、マニピュレータ４の各関節を直接的に駆動してもよい。或いは、マニピュレータ４は、コントローラ（不図示）を備えてもよい。この場合、制御部３１は、各関節に対する指令値をコントローラに与えることで、マニピュレータ４の各関節を間接的に駆動してもよい。決定された制御指令に従って、マニピュレータ４を駆動すると、制御部３１は、次のステップＳ３１４に処理を進める。

　（ステップＳ３１４～ステップＳ３１６）
　ステップＳ３１４～ステップＳ３１６の処理は、サイクルが（ｊ）から（ｊ＋１）に進んでいる点を除き、上記ステップＳ３０３、ステップＳ３０６及びステップＳ３０７の処理と同様である。すなわち、ステップＳ３１４では、制御部３１は、各センサからセンシングデータを取得する。ステップＳ３１５では、制御部３１は、状態取得部３１２として動作し、マニピュレータ４の現在のタスク状態ｓ_(j+1)を取得する。ステップＳ３１６では、制御部３１は、取得されたセンシングデータからマニピュレータ４の手先の座標の現在値ｘ_(j+1)を算出する。手先座標の現在値ｘ_(j+1)を算出すると、制御部３１は、次のステップＳ３１７に処理を進める。

　（ステップＳ３１７）
　ステップＳ３１７では、制御部３１は、ステップＳ３１３による駆動の結果、マニピュレータ４のタスク状態が目標のタスク状態ｓ_s(j)に遷移したか否かを判定する。

　判定方法は、特に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。例えば、図１６に示されるとおり、駆動後の各関節の角度（ｑ_(j+1)）と駆動前の各関節の角度（ｑ_(j)）との関係は、以下の式１７により表現することができる。

　そこで、制御部３１は、ステップＳ３１４において各エンコーダＳ２により得られた各関節の角度の値が、駆動前に各エンコーダＳ２により得られた各関節の角度の値（ｑ_(j)）及びステップＳ３１１において算出された変化量（Δｑ_(j)）の和と一致するか否かを判定してもよい。駆動後の各関節の角度が駆動前の各関節の角度及び算出された変化量の和（ｑ_(j)＋Δｑ_(j)）と一致する場合、制御部３１は、マニピュレータ４のタスク状態が目標のタスク状態ｓ_s(j)に遷移したと判定してもよい。一方、そうではない場合、制御部３１は、マニピュレータ４のタスク状態が目標のタスク状態ｓ_s(j)に遷移していないと判定してもよい。

　また、例えば、順運動学計算における変換関数と同様に、変換関数（ψ）に関しても、ヤコビ行列Ｊ_ψが導出されてよい。ヤコビ行列Ｊ_ψは変換関数（ψ）の微分成分を示す。導出されたヤコビ行列Ｊ_ψから逆行列（Ｊ_ψ ^-1）が算出されてよい。手先座標の変化量（Δｘ）及びタスク状態の変化量（Δｓ）と逆行列（Ｊ_ψ ^-1）との関係は、以下の式１８により表現することができる。

　制御部３１は、算出された逆行列（Ｊ_ψ ^-1）及び手先座標の変化量（Δｘ_(j)）を式１８に代入し、上記式１８の演算処理を実行することで、タスク状態の変化量（Δｓ_(j)）を算出することができる。駆動後のタスク状態ｓ_(j+1)と駆動前のタスク状態ｓ_(j)との関係との関係は、上記式１７と同様に、以下の式１９により表現することができる。

　そこで、制御部３１は、ステップＳ３１５により駆動後に得られた現在のタスク状態が、ステップＳ３０６により駆動前に得られた現在のタスク状態ｓ_(j)及び上記により算出された変化量（Δｓ_(j)）の和と一致するか否かを判定してもよい。駆動後に得られた現在のタスク状態が、駆動前に得られた現在のタスク状態及び算出された変化量の和（ｓ_(j)＋Δｓ_(j)）と一致する場合、制御部３１は、マニピュレータ４のタスク状態が目標のタスク状態ｓ_s(j)に遷移したと判定してもよい。一方、そうではない場合、制御部３１は、マニピュレータ４のタスク状態が目標のタスク状態ｓ_s(j)に遷移していないと判定してもよい。なお、本実施形態では、タスク空間は２つの対象物間の相対座標で規定されるため、タスク空間及び観測空間は互いに共通の次元で表現可能である。そのため、場合によっては、式１８の逆行列（Ｊ_ψ ^-1）は、単位行列に置き換えられ、手先座標の変化量（Δｘ）がそのままタスク状態の変化量（Δｓ）として取り扱われてもよい。一例として、他のワークＧから見たワークＷの相対座標によりタスク状態を規定した場合、式１８の逆行列（Ｊ_ψ ^-1）は、単位行列に置き換えられてよい。

　或いは、制御部３１は、ステップＳ３１５により得られた現在のタスク状態がステップＳ３０８により決定された目標のタスク状態ｓ_s(j)と一致するか否かを判定してもよい。得られた現在のタスク状態が目標のタスク状態ｓ_s(j)と一致する場合、制御部３１は、マニピュレータ４のタスク状態が目標のタスク状態ｓ_s(j)に遷移したと判定してもよい。一方、そうではない場合、制御部３１は、マニピュレータ４のタスク状態が目標のタスク状態ｓ_s(j)に遷移していないと判定してもよい。

　また、例えば、駆動後の手先座標の現在値（ｘ_(j+1)）と駆動前の手先座標の現在値（ｘ_(j)）との関係は、上記式１７と同様に、以下の式２０により表現することができる。

　そこで、制御部３１は、ステップＳ３１６により算出された駆動後の手先座標の現在値が、ステップＳ３０７により算出された駆動前の手先座標の現在値（ｘ_(j)）とステップＳ３１０により決定された変化量（Δｘ_(j)）の和と一致するか否かを判定してもよい。駆動後の手先座標の現在値が駆動前の手先座標の現在値及び算出された変化量の和（ｘ_(j)＋Δｘ_(j)）と一致する場合、制御部３１は、マニピュレータ４のタスク状態が目標のタスク状態ｓ_s(j)に遷移したと判定してもよい。一方、そうではない場合、制御部３１は、マニピュレータ４のタスク状態が目標のタスク状態ｓ_s(j)に遷移していないと判定してもよい。

　或いは、制御部３１は、ステップＳ３１６により算出された手先座標の現在値が、ステップＳ３０９により算出された手先座標の目標値（ｘ_s(j)）と一致するか否かを判定してもよい。駆動後の手先座標の現在値が駆動前に算出された手先座標の目標値（ｘ_s(j)）と一致する場合、制御部３１は、マニピュレータ４のタスク状態が目標のタスク状態ｓ_s(j)に遷移したと判定してもよい。一方、そうではない場合、制御部３１は、マニピュレータ４のタスク状態が目標のタスク状態ｓ_s(j)に遷移していないと判定してもよい。

　以上のいずれかの方法により、制御部３１は、マニピュレータ４のタスク状態が目標のタスク状態ｓ_s(j)に遷移したか否かを判定することができる。なお、以上の各判定において「一致すること」は、両者の値が完全に一致することの他、両者の値の差分が閾値（許容誤差）以下であることを含んでよい。マニピュレータ４のタスク状態が目標のタスク状態ｓ_s(j)に遷移したと判定した場合、制御部３１は、次のステップＳ３１８に処理を進める。一方、そうではない場合、制御部３１は、ステップＳ３１０に戻って、マニピュレータ４の駆動を再度実行する。このとき、制御部３１は、ステップＳ３１６で算出された手先座標の現在値を現在値ｘ_(j)としてを利用して、ステップＳ３１０以降の処理を実行してもよい。

　（ステップＳ３１８）
　ステップＳ３１８では、制御部３１は、最終目標のタスク状態ｓ_gを実現することができたか否かを判定する。

　判定方法は、特に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。例えば、制御部３１は、ステップＳ３１５により得られた現在のタスク状態ｓ_(j+1)が最終目標のタスク状態ｓ_gと一致するか否かを判定してもよい。現在のタスク状態ｓ_(j+1)が最終目標のタスク状態ｓ_gと一致する場合、制御部３１は、最終目標のタスク状態ｓ_gを実現することができたと判定する。一方、そうではない場合、制御部３１は、最終目標のタスク状態ｓ_gを実現することができていないと判定する。上記と同様に、当該判定における「一致すること」も、両者の値が完全に一致することの他、両者の値の差分が閾値（許容誤差）以下であることを含んでよい。

　最終目標のタスク状態ｓ_gを実現することができたと判定した場合、制御部３１は、マニピュレータ４の動作制御に関する一連の処理を終了する。一方、最終目標のタスク状態ｓ_gを実現することができていないと判定した場合、制御部３１は、ステップＳ３０８に処理を戻す。そして、制御部３１は、ステップＳ３１５及びステップＳ３１６の結果を利用して、ステップＳ３０８～ステップＳ３１３の処理を再度実行する。制御部３１は、上記一連の処理を繰り返すことで、最終目標のタスク状態ｓ_gを実現する。これにより、本実施形態に係る制御装置３は、指定されたタスクを遂行するようにマニピュレータ４の動作を制御することができる。

　なお、最終目標のタスク状態ｓ_gを実現することができていないと判定した場合の分岐先は、上記ステップＳ３０８に限られなくてもよい。例えば、複数のタスクにより構成される一連のタスクをマニピュレータ４に遂行させる場合に、最終目標のタスク状態ｓ_gには、最後に遂行されるタスクにおける最終目標のタスク状態が設定されてよい。本実施形態では、エンドエフェクタＴによりワークＷを保持し、保持したワークＷを他のワークＧに組み付けるタスクを遂行する場合に、最終目標のタスク状態ｓ_gには、ワークＷを他のワークＧに組み付けた状態が採用されてよい。この場合に、一連のタスクの遂行は、最初のタスクの開始点から開始されてよい。これに応じて、最終目標のタスク状態ｓ_gを実現することができていないと判定した場合の分岐先は、上記ステップＳ３０８ではなく、上記ステップＳ３０３であってよい。これにより、制御部３１は、ステップＳ３０４及びステップＳ３０５の処理により、動作モードを確認しながら、マニピュレータ４を駆動することができる。その結果、各タスクの切り替えをスムーズに行いながら、一連のタスクを遂行することができる。本実施形態では、エンドエフェクタＴによりワークＷを保持した際に、ワークＷを他のワークＧに運搬するタスクに動作モードをスムーズに切り替えることができる。

　［特徴］
　以上のとおり、本実施形態に係るモデル生成装置１は、上記ステップＳ１０１及びステップＳ１０２の処理により、機械学習を実施することで、対象の位置関係において２つの対象物が接触するか否かを判定するための判定モデル５０を生成する。機械学習により生成された学習済みの判定モデル５０によれば、対象の位置関係が連続値で与えられても、判定モデル５０のデータ量の大きな増加を伴うことなく、その位置関係で２つの対象物が互いに接触するか否かを判定することができる。したがって、本実施形態によれば、２つの対象物が接触する境界を表現する情報のデータ量を大幅に低減することができる。

　また、本実施形態では、学習済みの判定モデル５０により接触が生じるか否かを判定する２つの対象物のうちの少なくともいずれかは、マニピュレータ４の動作により移動する対象である。そのため、マニピュレータ４の動作を規定する場面で、２つの対象物が接触する境界を表現する情報のデータ量を大幅に低減することができる。制御装置３では、ＲＡＭ、ＲＯＭ、及び記憶部３２の容量が比較的に小さくても、学習済みの判定モデル５０を利用することができ、これによって、目標物に手先が無用に接触しないようにマニピュレータ４を適切に駆動することができる。

　また、本実施形態では、ステップＳ２０１～ステップＳ２１０の処理により、学習済みの判定モデル５０を利用して、第１対象物が第２対象物に接触しないように目標のタスク状態を決定するための推論モデル５５を生成する。マニピュレータ４の動作を制御する場面では、ステップＳ３０８において、生成された推論モデル５５を利用して、目標のタスク状態を決定する。これにより、マニピュレータ４の動作を制御する場面において、学習済みの判定モデル５０の演算処理を伴わなくても、第１対象物が第２対象物に接触しない、すなわち、マニピュレータ４の手先が目標物に無用に接触しないように目標のタスク状態を決定することができる。そのため、マニピュレータ４の動作制御の演算コストを低減することができる。

　また、本実施形態では、マニピュレータ４により実行するタスクの状態が、エンドエフェクタＴ（エンドエフェクタ）、ワークＷ、他のワークＧ等の対象物間の相対的な位置関係により表現される。これにより、制御指令は、タスクに直接的に関連付けられるのではなく、対象物間の相対的な位置関係の変化量に関連付けられる。すなわち、タスクの内容に依存せずに、対象物の相対的な位置関係を変化させることに対してマニピュレータ４に与える時系列の制御指令を生成又は教示することができる。例えば、ワークＷの座標が変化しても、上記ステップＳ３０６及びステップＳ３１５において、エンドエフェクタＴとワークＷとの間の位置関係（タスク状態）を把握する際に、そのワークＷの座標の変化が考慮される。そのため、マニピュレータ４は、学習結果に基づいて、エンドエフェクタＴによりワークＷを適切に保持することができる。したがって、本実施形態によれば、習得されるタスクを遂行する能力の汎用性を高めることができ、これによって、マニピュレータ４にタスクを教示するのにかかるコストを低減することができる。

　また、本実施形態では、対象物間の位置関係は、相対座標により表現される。これにより、２つの対象物の間の位置関係を適切かつ端的に表現することができる。そのため、２つの対象物の間の位置関係（制御の場面では、タスク状態）を把握し易くすることができる。

　また、本実施形態では、上記ステップＳ３０７及びステップＳ３１６において、マニピュレータ４の手先の座標を算出する方法として、順運動学計算による第１の方法を採用することができる。第１の方法では、エンドエフェクタＴがワークＷを保持していない場合、エンドエフェクタＴが手先に設定され、順運動学計算には、各関節（関節部４１～４６）の第１同次変換行列により導出される第１変換行列群（φ）が変換関数として用いられる。一方、エンドエフェクタＴがワークＷを保持している場合、ワークＷが手先に設定され、順運動学計算に用いる変換関数が拡張される。具体的には、順運動学計算には、エンドエフェクタＴの座標系からワークＷの座標系に座標を変換するための第２同次変換行列（_tＴ^w）を第１変換行列群（φ）に掛けることで得られる第２変換行列群（φ（ｑ）・_tＴ^w）が変換関数として用いられる。すなわち、本実施形態では、エンドエフェクタＴによりワークＷを保持した時に、エンドエフェクタＴからワークＷに運動学の基準点を変更する。

　これにより、エンドエフェクタＴがワークＷを保持していない場合とワークＷを保持している場合とで、ステップＳ３０７及びステップＳ３１６の順運動学計算、並びにステップＳ３１１の逆運動学計算をほぼ同様に処理することができる。つまり、エンドエフェクタＴによりワークＷを保持する第１タスク及びエンドエフェクタＴにより保持されたワークＷを他のワークＧに組み付ける第２タスクを「マニピュレータ４の手先を目標物に対して移動する」共通のタスクとして取り扱うことができる。したがって、本実施形態によれば、エンドエフェクタＴがワークＷを保持していない場合とエンドエフェクタＴがワークＷを保持している場合とを区別することなく汎用的かつ統一的に制御処理を規定することができる。そのため、制御処理を単純化することができ、これによって、マニピュレータ４の動作を生成又は教示するコストを低減することができる。

　§４　変形例
　以上、本発明の実施の形態を詳細に説明してきたが、前述までの説明はあらゆる点において本発明の例示に過ぎない。本発明の範囲を逸脱することなく種々の改良又は変形を行うことができることは言うまでもない。例えば、以下のような変更が可能である。なお、以下では、上記実施形態と同様の構成要素に関しては同様の符号を用い、上記実施形態と同様の点については、適宜説明を省略した。以下の変形例は適宜組み合わせ可能である。

　＜４．１＞
　上記実施形態では、エンドエフェクタＴ、ワークＷ、及び他のワークＧそれぞれが対象物の一例である。ただし、接触するか否かを判定する対象となる対象物は、このような例に限定されなくてもよい。対象物は、実空間又は仮想空間内で取り扱い可能なあらゆる種類の物体を含んでもよい。対象物は、上記エンドエフェクタＴ、ワークＷ、及び他のワークＧの他、例えば、障害物等のロボット装置の動作に関連し得る物体であってもよい。

　なお、１つの対象物は、１つの物体で構成されてもよいし、或いは複数の物体により構成されてもよい。３つ以上の物体が存在する場合、判定モデル５０は、複数の物体を１つの対象物とみなし、複数の物体と他の物体との間で接触が生じるか否かを判定するように構成されてもよい。或いは、判定モデル５０は、個々の物体を１つの対象物とみなして、それぞれの物体間で接触が生じるか否かを判定するように構成されてもよい。

　また、上記実施形態では、２つの対象物のうちの少なくともいずれかはロボット装置の動作により移動する対象である。ロボット装置の動作により移動する対象物は、例えば、エンドエフェクタ等のロボット装置の構成要素であってもよいし、ロボット装置自身であってもよいし、例えば、エンドエフェクタにより保持されたワーク等のロボット装置の構成要素以外の物体であってもよい。ただし、対象物の種類は、このような例に限定されなくてもよい。２つの対象物は共に、ロボット装置の動作により移動する対象以外の物体であってもよい。

　また、上記実施形態では、マニピュレータ４がロボット装置の一例である。しかしながら、ロボット装置の種類は、このような例に限定されなくてもよい。マニピュレータ４等の産業用ロボットの他、ロボット装置は、例えば、自動的に移動可能な移動体、自律型ロボット等であってよい。自動的に移動可能な移動体は、例えば、ドローン、自度運転可能に構成された車両、モバイルロボット等を含んでよい。また、上記実施形態では、マニピュレータ４は、垂直多関節型ロボットである。しかしながら、産業用ロボットの種類は、このような例に限定されなくてもよい。産業用ロボットは、上記垂直多関節ロボットの他、スカラロボット、パラレルリンクロボット、直交ロボット、協調ロボット等を含んでよい。

　また、上記実施形態では、エンドエフェクタＴによりワークＷを保持する作業及び保持されたワークＷを他のワークＧに組み付ける作業それぞれがロボット装置の遂行するタスクの一例である。タスクは、ロボット装置に遂行させる作業であり、その種類は、特に限定されなくてよく、実施の形態に応じて適宜選択されてよい。タスクは、上記ワークＷの保持、及びワークＷの運搬の他、例えば、部品嵌合、ネジ回し等であってよい。タスクは、例えば、ワークの保持、ワークの解放等の単純な仕事であってもよい。タスクは、例えば、対象のワークを保持し、指定の座標（位置及び姿勢）に対象のワークを配置すること等の対象のワークの座標を変更することであってよい。タスクは、例えば、エンドエフェクタとしてスプレーを用いて、指定の相対座標から当該スプレーによりワークに塗料を噴霧することであってよい。また、タスクは、例えば、エンドエフェクタに取り付けられたカメラを指定の座標に配置することであってもよい。タスクは、予め与えられてもよいし、オペレータの指定により与えられてもよい。

　また、上記実施形態では、タスクを遂行する環境を観測するセンサとして、カメラＳ１、エンコーダＳ２、触覚センサＳ３が用いられている。カメラＳ１及び触覚センサＳ３が、エンドエフェクタＴに対するワークＷの状態を観測するセンサの一例である。しかしながら、利用可能なセンサの種類は、このような例に限定されなくてもよい。センサには、カメラ、エンコーダ、及び触覚センサの他、例えば、近接センサ、力覚センサ、トルクセンサ、圧力センサ等が用いられてよい。近接センサは、エンドエフェクタＴの周囲を観測可能な範囲に配置され、エンドエフェクタＴに近接する物体の有無を観測するのに利用されてよい。また、力覚センサ、トルクセンサ及び圧力センサは、上記触覚センサＳ３と同様に、エンドエフェクタＴに作用する力を測定可能な範囲に配置され、エンドエフェクタＴに作用する力を観測するのに利用されてよい。近接センサ、力覚センサ、トルクセンサ及び圧力センサの少なくともいずれかは、エンドエフェクタＴに対するワークＷの状態を観測するセンサとして利用されてよい。なお、カメラＳ１は、マニピュレータ４又は他のロボット装置により、任意に移動可能に構成されてよい。この場合、カメラＳ１の座標は、適宜キャリブレーションされてよい。これにより、カメラＳ１により観測する範囲を任意に制御することができる。

　また、上記実施形態において、ワークＷを保持しているか否かに応じたマニピュレータ４の手先の設定は省略されてよい。この場合、マニピュレータ４の手先は適宜設定されてよい。例えば、ワークＷを保持しているか否かを問わず、エンドエフェクタＴがマニピュレータ４の手先に設定されてよい。

　＜４．２＞
　上記実施形態では、制御装置３は、推論モデル５５を生成する際に、学習済みの判定モデル５０を利用している。しかしながら、学習済みの判定モデル５０の利用形態は、このような例に限定されなくてもよい。制御装置３は、マニピュレータ４の動作を制御する際に、学習済みの判定モデル５０を利用してもよい。

　図１９は、本変形例に係る目標のタスク状態の決定に関するサブルーチンの処理手順の一例を例示する。上記ステップＳ３０８の目標のタスク状態を決定する処理は、図１９に例示されるサブルーチンの処理に置き換えられてもよい。

　ステップＳ５０１では、制御部３１は、行動決定部３１３として動作し、最終目標のタスク状態に近付くように、取得された現在のタスク状態に対して次に遷移する目標のタスク状態を決定する。ステップＳ５０１は、上記ステップＳ３０８と同様に処理されてよい。

　ステップＳ５０２では、制御部３１は、、接触判定部３１４として動作し、学習済みの判定モデル５０を利用して、決定された目標のタスク状態において２つの対象物が互いに接触するか否かを判定する。ステップＳ５０２は、上記ステップＳ２０３及びステップＳ２０６と同様に処理されてよい。

　ステップＳ５０３では、制御部３１は、ステップＳ５０２の判定結果に基づいて、処理の分岐先を決定する。ステップＳ５０２において、目標のタスク状態において２つの対象物が互いに接触すると判定された場合、制御部３１は、ステップＳ５０１に処理を戻し、目標のタスク状態を再度決定する。一方、目標のタスク状態において２つの対象物が互いに接触しないと判定された場合、制御部３１は、次のステップＳ３０９の処理を実行する。これにより、制御装置３は、マニピュレータ４の動作を制御する際に、学習済みの判定モデル５０を利用して、第１対象物が第２対象物に無用に接触しないように、マニピュレータ４の動作を決定することができる。

　＜４．３＞
　上記実施形態では、制御装置３は、上記ステップＳ３０８において、推論モデル５５を利用して、目標のタスク状態を決定している。しかしながら、目標のタスク状態を決定する方法は、このような例に限定されなくてもよい。目標のタスク状態の決定には、推論モデル５５が利用されなくてもよい。例えば、上記ステップＳ３０８では、上記ステップＳ２０５と同様に、目標のタスク状態が決定されてよい。一例として、制御部３１は、パスプランニング等の公知の方法により、目標のタスク状態を決定してもよい。また、例えば、目標のタスク状態の系列は予め与えられてもよい。この場合、上記ステップＳ３０８では、制御部３１は、当該系列を示すデータを参照することで、次に遷移する目標のタスク状態を決定してもよい。上記ステップＳ５０１も同様である。

　また、上記実施形態では、学習データ２２３を収集するのに、学習済みの判定モデル５０の判定結果が利用されている。しかしながら、学習データ２２３の収集は、このような例に限定されなくてもよい。例えば、各対象物の実物を利用する等して、学習済みの判定モデル５０を利用せずに、学習データ２２３が収集されてよい。これにより、推論モデル５５は、学習済みの判定モデル５０を利用せずに生成されてよい。

　また、上記実施形態において、推論モデル５５を生成する一連の処理（ステップＳ２０１～ステップＳ２１１）が制御装置３の処理手順から省略されてよい。この場合、制御装置３のソフトウェア構成からデータ収集部３１７、モデル生成部３１８、及び保存処理部３１９は省略されてよい。更には、推論モデル５５の生成に関する情報処理及びマニピュレータ４の動作制御に関する情報処理は別々のコンピュータに実行されてもよい。マニピュレータ４の動作制御に関するソフトウェアモジュールを省略し、推論モデル５５の生成に関するソフトウェアモジュールを抽出することで、新たなモデル生成装置を構築してもよい。

　図２０は、本変形例に係るモデル生成装置３Ａのソフトウェア構成の一例を模式的に例示する。モデル生成装置３Ａのハードウェア構成は、上記実施形態に係る制御装置３と同様であってよい。モデル生成装置３Ａは、接触判定部３１４、データ収集部３１７、モデル生成部３１８、及び保存処理部３１９をソフトウェアモジュールとして備えるコンピュータとして動作する。これにより、モデル生成装置３Ａは、上記ステップＳ２０１～ステップＳ２１１の処理を実行し、推論モデル５５を生成することができる。制御プログラム８３のうちこの推論モデル５５の生成に関する命令を与えるプログラム部分は、モデル生成プログラムと称されてよい。

　なお、上記実施形態及び本変形例において、ステップＳ２０１～ステップＳ２０９までの学習データ３２３の収集に関する処理は、他のコンピュータにより行われてもよい。この場合、上記実施形態に係る制御装置３及びモデル生成装置３Ａは、他のコンピュータにより生成された学習データ３２３を取得し、取得された学習データ３２３を使用して、ステップＳ２１０及びステップＳ２１１を実行してもよい。

　＜４．４＞
　上記実施形態では、２つの対象物の間の位置関係は相対座標により表現される。しかしながら、位置関係を表現する方法は、このような例に限定されなくてもよい。例えば、２つの対象物それぞれの絶対座標により位置関係が表現されてもよい。この場合、各絶対座標を相対座標に変換され、上記各情報処理が実行されてもよい。

　＜４．５＞
　また、上記実施形態では、制御装置３は、ステップＳ３０７及びステップＳ３０９～ステップＳ３１２において、マニピュレータ４の手先座標の目標値から解析的に各関節に与える指令値（制御指令）を決定している。しかしながら、制御指令を決定する方法は、このような例に限定されなくてもよい。ロボット装置のタスク状態を現在のタスク状態から目標のタスク状態に変化させるように、ロボット装置に与える制御指令が適宜決定されてよい。

　例えば、制御指令は、現在のタスク状態及び目標のタスク状態から直接的に決定されてよい。一例として、制御指令の決定には、データテーブル等の参照データが利用されてよい。この場合、制御部３１は、現在のタスク状態及び目標のタスク状態を参照データに対して照合することで、参照データから制御指令を取得することができる。その他の例として、例えば、判定モデル５０、推論モデル５５１等と同様に、機械学習により、現在のタスク状態及び目標のタスク状態から制御指令を決定する能力を習得した学習済みの機械学習モデルが利用されてもよい。この場合、制御部３１は、現在のタスク状態及び目標のタスク状態を学習済みの機械学習モデルに与えて、学習済みの機械学習モデルの演算処理を実行する。これにより、制御部３１は、制御指令を決定した結果に対応する出力値を学習済みの機械学習モデルから取得することができる。なお、上記実施形態では、制御指令は、各関節に対する角度の指令値により構成されている。しかしながら、制御指令の構成は、このような例に限定されなくてもよく、ロボット装置の種類等に応じて適宜決定されてよい。

　また、上記実施形態において、例えば、最終目標のタスク状態が予め設定されている場合等、最終目標のタスク状態が他の方法により設定される場合には、制御装置３の処理手順からステップＳ３０１及びステップＳ３０２の処理は省略されてよい。この場合、制御装置３のソフトウェア構成から目標設定部３１１は省略されてよい。

　＜４．６＞
　上記実施形態では、判定モデル５０は、全結合型ニューラルネットワークにより構成されている。しかしながら、判定モデル５０を構成するニューラルネットワークの種類は、このような例に限定されなくてもよい。判定モデル５０は、全結合型ニューラルネットワークの他、例えば、畳み込みニューラルネットワーク、再帰型ニューラルネットワーク等により構成されてもよい。また、判定モデル５０は、複数種類のニューラルネットワークの組み合わせにより構成されてもよい。

　また、判定モデル５０を構成する機械学習モデルの種類は、ニューラルネットワークに限られなくてもよく、実施の形態に応じて適宜選択されてよい。判定モデル５０には、ニューラルネットワークの他、例えば、サポートベクタマシン、回帰モデル、決定木等の機械学習モデルが採用されてよい。２つの対象物が互いに接触するか否かは、実空間又は仮想空間を対象に判定されてよい。

　上記実施形態において、推論モデル５５は、マニピュレータ４の遂行するタスクの種類毎に用意されてよい。すなわち、それぞれ異なるタスクにおける目標のタスク状態を推論するよう訓練された複数の推論モデル５５が用意されてよい。この場合、制御装置３の制御部３１は、上記ステップＳ３０５で設定した動作モードに応じて、用意された複数の推論モデル５５の中から推論に利用する推論モデル５５を選択してもよい。これにより、制御部３１は、動作モードに応じて、推論モデル５５を切り替えてもよい。或いは、推論モデル５５は、例えば、対象物の種類、対象物の識別子、タスクの識別子、タスクの種類等のタスクの条件を示す情報の入力を更に受け付け、入力された条件に対応するタスクにおける目標のタスク状態を推論するように構成されてもよい。この場合、制御部３１は、次に遷移する目標のタスク状態を決定する際に、上記ステップＳ３０５で設定した動作モードを示す情報を推論モデル５５に更に入力して、上記ステップＳ３０８の演算処理を実行してもよい。

　また、上記実施形態において、判定モデル５０及び推論モデル５５に対する入力及び出力の形式は、特に限定されなくてもよく、実施の形態に応じて適宜決定されてよい。例えば、判定モデル５０は、タスク状態を示す情報以外の情報の入力を更に受け付けるように構成されてもよい。同様に、推論モデル５５は、現在のタスク状態及び最終目標のタスク状態以外の情報の入力を更に受け付けるように構成されてもよい。最終目標のタスク状態が一定である場合、推論モデル５５の入力から最終目標のタスク状態を示す情報は省略されてよい。判定モデル５０及び推論モデル５５の出力形式は、識別及び回帰のいずれであってもよい。

　１…モデル生成装置、
　１１…制御部、１２…記憶部、１３…通信インタフェース、
　１４…外部インタフェース、
　１５…入力装置、１６…出力装置、１７…ドライブ、
　９１…記憶媒体、８１…モデル生成プログラム、
　１１１…データ取得部、１１２…機械学習部、
　１１３…保存処理部、
　１２０…ＣＡＤデータ、
　１２１…学習データセット、
　１２２…訓練データ、１２３…正解データ、
　１２５…学習結果データ、
　３…制御装置、
　３１…制御部、３２…記憶部、３３…通信インタフェース、
　３４…外部インタフェース、
　３５…入力装置、３６…出力装置、３７…ドライブ、
　９３…記憶媒体、８３…制御プログラム、
　３１１…目標設定部、３１２…状態取得部、
　３１３…行動決定部、３１４…接触判定部、
　３１５…指令決定部、３１６…駆動部、
　３１７…データ収集部、３１８…モデル生成部、
　３１９…保存処理部、
　３２０…ＣＡＤデータ、３２１…ロボットデータ、
　３２３…学習データ、３２５…推論モデルデータ、
　４…マニピュレータ（ロボット装置）、
　４０…台座部、
　４１～４６…関節部、４９１～４９４…リンク、
　Ｔ…エンドエフェクタ、
　Ｔ０…注目点、ＣＴ…ローカル座標系、
　Ｗ…ワーク、
　Ｗ０…注目点、ＣＷ…ローカル座標系、
　Ｇ…他のワーク、ＣＧ…ローカル座標系、
　ＲＣ１・ＲＣ２…相対座標、
　Ｓ１…カメラ、Ｓ２…エンコーダ、Ｓ３…触覚センサ、
　５０…判定モデル、
　５０１…入力層、５０２…中間（隠れ）層、
　５０３…出力層、
　５５…推論モデル

Claims

　２つの対象物の間の位置関係を示す訓練データ及び前記位置関係において前記２つの対象物が互いに接触するか否かを示す正解データの組み合わせによりそれぞれ構成される複数の学習データセットを取得するデータ取得部と、
　取得された前記複数の学習データセットを使用して、判定モデルの機械学習を実施する機械学習部であって、前記機械学習を実施することは、前記各学習データセットについて、前記訓練データの入力に対して、対応する前記正解データに適合する出力値を出力するように前記判定モデルを訓練することにより構成される、機械学習部と、
を備える、
モデル生成装置。
　前記２つの対象物の間の前記位置関係は、相対座標により表現される、
請求項１に記載のモデル生成装置。
　前記２つの対象物のうちの少なくともいずれかは、ロボット装置の動作により移動する対象である、
請求項１又は２に記載のモデル生成装置。
　コンピュータが、
　２つの対象物の間の位置関係を示す訓練データ及び前記位置関係において前記２つの対象物が互いに接触するか否かを示す正解データの組み合わせによりそれぞれ構成される複数の学習データセットを取得するステップと、
　取得された前記複数の学習データセットを使用して、判定モデルの機械学習を実施するステップであって、前記機械学習を実施することは、前記各学習データセットについて、前記訓練データの入力に対して、対応する前記正解データに適合する出力値を出力するように前記判定モデルを訓練することにより構成される、ステップと、
を実行する、
モデル生成方法。
　第１対象物及び第２対象物の存在する環境下で、第１対象物を移動するタスクを遂行するロボット装置の動作を制御するための制御装置であって、
　前記ロボット装置の現在のタスク状態を取得する状態取得部であって、タスク状態は、前記第１対象物及び前記第２対象物の間の位置関係により規定される、状態取得部と、
　最終目標のタスク状態に近付くように、取得された前記現在のタスク状態に対して次に遷移する目標のタスク状態を決定する行動決定部と、
　前記第１対象物及び前記第２対象物の対象のタスク状態を学習済みの判定モデルに与えることで、対象のタスク状態において前記第１対象物及び前記第２対象物が互いに接触するか否かを判定する接触判定部であって、前記学習済みの判定モデルは、機械学習により、前記第１対象物及び前記第２対象物の位置関係を示す訓練データの入力に対して、当該位置関係において前記第１対象物及び前記第２対象物が互いに接触するか否かを示す正解データに適合する出力値を出力するように訓練されている、接触判定部と、
　前記ロボット装置のタスク状態を前記現在のタスク状態から前記目標のタスク状態に変化させるように、前記ロボット装置に与える制御指令を決定する指令決定部と、
　決定された前記制御指令を前記ロボット装置に与えることで、前記ロボット装置を駆動する駆動部と、
を備える、
制御装置。
　前記第１対象物及び前記第２対象物の間の位置関係は、相対座標により表現される、
請求項５に記載の制御装置。
　前記学習済みの判定モデルによる前記判定の結果を利用して、前記第１対象物が前記第２対象物に接触しないように、前記現在のタスク状態及び前記最終目標のタスク状態から次に遷移する前記目標のタスク状態を推論するための推論モデルを生成するモデル生成部を更に備え、
　前記行動決定部は、生成された前記推論モデルを利用して、前記現在のタスク状態に対して次に遷移する前記目標のタスク状態を決定する、
請求項５又は６に記載の制御装置。
　前記モデル生成部は、機械学習を実施することで、前記推論モデルを生成する、
請求項７に記載の制御装置。
　前記機械学習は、対象のタスク状態において前記第１対象物及び前記第２対象物が互いに接触するか否かを前記学習済みの判定モデルにより判定した結果、並びに当該対象のタスク状態及び前記最終目標のタスク状態の間の距離に応じて報酬が設定された強化学習により構成され、
　前記報酬は、前記第１対象物及び前記第２対象物が互いに接触せず、かつ前記距離が短いほど多く設定され、前記第１対象物及び前記第２対象物が互いに接触する、又は前記距離が長いほど少なく設定され、
　前記機械学習を実施することは、前記報酬が多く得られるように前記推論モデルを構成する演算パラメータの値の修正を繰り返すことを含む、
請求項８に記載の制御装置。
　前記推論モデルは、前記タスク状態の集合を表現するタスク空間内の各座標のポテンシャルを規定するポテンシャル場により構成され、
　前記モデル生成部は、
　　前記タスク空間内で、前記学習済みの判定モデルを利用して、前記第１対象物が前記第２対象物に接触しないように、パスプランニングを実施することで、それぞれ開始点として与えられた複数のタスク状態それぞれから前記最終目標のタスク状態までの経路を生成し、
　　生成された各経路の通過する頻度に応じて、前記各座標のポテンシャルを設定することで、前記ポテンシャル場を生成し、
　前記行動決定部は、生成された前記ポテンシャル場における、前記現在のタスク状態に対応する座標に設定されたポテンシャルの勾配に応じて、次に遷移する前記目標のタスク状態を決定する、
請求項７に記載の制御装置。
　第１対象物及び第２対象物の存在する環境下で、第１対象物を移動するタスクを遂行するロボット装置の動作を制御するための制御方法であって、
　コンピュータが、
　前記第１対象物及び前記第２対象物の現在のタスク状態を取得するステップであって、タスク状態は、前記第１対象物及び前記第２対象物の間の位置関係により規定される、ステップと、
　最終目標のタスク状態に近付くように、取得された前記現在のタスク状態に対して次に遷移する目標のタスク状態を決定するステップと、
　前記第１対象物及び前記第２対象物の対象のタスク状態を学習済みの判定モデルに与えることで、対象のタスク状態において前記第１対象物及び前記第２対象物が互いに接触するか否かを判定するステップであって、前記学習済みの判定モデルは、機械学習により、前記第１対象物及び前記第２対象物の位置関係を示す訓練データの入力に対して、当該位置関係において前記第１対象物及び前記第２対象物が互いに接触するか否かを示す正解データに適合する出力値を出力するように訓練されている、ステップと、
　前記ロボット装置のタスク状態を前記現在のタスク状態から前記目標のタスク状態に変化させるように、前記ロボット装置に与える制御指令を決定するステップと、
　決定された前記制御指令を前記ロボット装置に与えることで、前記ロボット装置の動作を制御するステップと、
を実行する、
制御方法。