WO2023067972A1

WO2023067972A1 - 動作指令生成装置および動作指令生成方法

Info

Publication number: WO2023067972A1
Application number: PCT/JP2022/035100
Authority: WO
Inventors: 秀行一藁; 洋伊藤; 健次郎山本
Original assignee: 株式会社日立製作所
Priority date: 2021-10-21
Filing date: 2022-09-21
Publication date: 2023-04-27
Also published as: JP2023062361A

Abstract

動作指令生成装置（１００）は、ロボットが作業する対象物の候補を含む画像およびセンサ情報を取得する取得部（１１１）と、機械学習モデル（指令生成モデル（１４０））を用いて、前記画像および前記センサ情報を入力として前記ロボットの動作指令を出力する指令生成部（１１３）とを備える。機械学習モデルは、対象物の候補の位置または領域を算出する際に参照されるパラメータを含む位置抽出ブロックと、対象物に対するロボットの作業の動作指令を算出する際に参照されるパラメータを含む動作指令生成ブロックとを含み、説明変数が画像およびセンサ情報を含み、目的変数が動作指令を含む学習データ（１３０）を用いて生成される。

Description

動作指令生成装置および動作指令生成方法

　本発明は、ロボットの動作指令を生成する動作指令生成装置および動作指令生成方法に関する。

　生産効率向上や人件費削減のため、工業製品の組み立て、溶接、搬送などの人が行っていた作業をロボットに代替させる取り組みが増えている。しかし、これまでのロボットシステムは、膨大なプログラミングや高い専門知識が必要であり、ロボット導入の阻害要因になっていた。

　このような状況に対応するために、ロボットに取り付けられた各種センサ情報に基づいてロボット自身で動作を決定する自律学習型ロボット制御システムが提案されている。これまでのロボットシステムに比べると膨大なプログラミングや高い専門知識が不要であり、ロボットを容易に導入できることが期待される。さらに、この自律学習型ロボット制御システムは、ロボット自らが動作経験を記憶・学習することで多様な環境変化に対し柔軟な動作生成（動作指令の生成）が可能であると期待されている。

　ロボットの動作経験とは、例えば、ロボットの操作者／管理者がロボットに動作を直接教えて記憶させる手法や、操作者／管理者や他のロボットの動作を見て真似る手法などがある。また、一般的に自律学習型ロボット制御システムには、学習器と呼ばれる学習装置が備えられており、動作経験時のセンサ情報の記憶と、動作を生成するためのパラメータ調整とが行われている。この記憶された動作は学習データ、パラメータ調整は学習と呼ばれ、学習データを用いて学習器の学習を行う。学習器は、予め入出力の関係を定義し、学習器への入力値に対し期待した出力値が出力されるように学習（パラメータ調整）を繰り返し行う。

　学習データの例として、ある動作経験時のロボットの関節角情報と作業の撮像画像との時系列データがある。物体を把持する作業を含む場合、撮影画像には把持の対象物やロボットアーム、ロボットハンドが映っている。この学習データを用いて、学習器に時刻（ｔ）の関節角情報と画像を入力し、時刻（ｔ＋１）の関節角情報と画像を予測するように時系列学習させたとする。すると、学習が完了した学習器にロボット関節角情報と画像を逐次入力することで、自律学習型ロボット制御システムは、作業の状態に応じて自動的に動作を生成することが可能になる。

　このような手法は、ある時刻のセンサ情報から物体認識などを陽に介さず、直接ロボットの動作を生成するため、自律学習型のエンドツーエンドの動作生成手法と呼ばれる。これらの手法では、学習時に作業対象とした物体や類似の物体が撮像画像中に得られた場合に、その物体に対して自律的に作業を開始する。しかし、作業対象の物体が同時に複数存在する場合については想定されておらず、作業ができない、もしくはどの物体に作業を行うかが分からない可能性があった。

　一方で、自律化が求められるロボットの作業として、作業対象物体が同時に複数存在するケースがある。このような作業として例えば、廃炉作業における瓦礫撤去作業や、プラントにおけるバルブ開閉作業、段ボールの搬送作業などがある。瓦礫撤去作業では、類似形状・テクスチャの瓦礫が散らばっていることが想定され、順番によらず撤去すればよい場合や、瓦礫が重なるなどしているために適切な順番で撤去しなければならない場合がある。また、バルブ開閉作業では、適切な順番でバルブを開閉する必要がある。このため、自律学習型のエンドツーエンドの動作生成手法において、対象物を指定し、その物体に作業を行うことが求められている。
　作業の対象物を指定する技術として、特許文献１に記載のロボット装置があり、ロボット装置が撮像した画像内の対象物の位置や姿勢（向き）を操作者が指定する。

特開２０１３－１７３２０９号公報

　特許文献１に記載のロボット装置は、位置や姿勢が指定された対象物を把持するための腕部の軌道を計画し、この軌道に従って動作を制御する。自律学習型のエンドツーエンドの動作生成では、物体認識（物体の位置や姿勢の認識）を陽に介さず、直接ロボットの動作（動作指令）を生成している。このため、特許文献１に記載のロボット装置のように対象物の位置や姿勢を指定することができない。
　本発明は、このような背景を鑑みてなされたものであり、自律学習型のエンドツーエンドの動作指令生成において対象物の選択を可能とする動作指令生成装置および動作指令生成方法を提供することを課題とする。

　上記した課題を解決するため、本発明に係る動作指令生成装置は、ロボットが作業する対象物の候補を含む画像およびセンサ情報を取得する取得部と、機械学習モデルを用いて、前記画像および前記センサ情報を入力として前記ロボットの動作指令を出力する指令生成部とを備え、前記機械学習モデルは、前記対象物の候補の位置または領域を算出する際に参照されるパラメータを含む位置抽出ブロックと、前記対象物に対する前記ロボットの作業の動作指令を算出する際に参照されるパラメータを含む動作指令生成ブロックとを含み、説明変数が前記画像および前記センサ情報を含み、目的変数が前記動作指令を含む学習データを用いて生成される。

　本発明によれば、自律学習型のエンドツーエンドの動作指令生成において対象物の選択を可能とする動作指令生成装置および動作指令生成方法を提供することができる。上記した以外の課題、構成および効果は、以下の実施形態の説明により明らかにされる。

第１実施形態に係るロボット制御システムの全体構成図である。第１実施形態に係る動作指令生成装置の機能ブロック図である。第１実施形態に係る指令生成モデルの構成図である。第１実施形態に係る動作指令生成処理のフローチャートである。第１実施形態の変形例に係る撮影画像である。第１実施形態の変形例に係るマスク用の画像である。第１実施形態の変形例に係る撮影画像が画像でマスクされた撮影画像である。第２実施形態に係る動作指令生成処理のフローチャートである。第３実施形態に係る動作指令生成処理のフローチャートである。

≪動作指令生成装置の概要≫
　以下に本発明を実施するための形態（実施形態）における動作指令生成装置を説明する。動作指令生成装置は、作業対象を含む撮影画像を入力として、学習済みの機械学習モデルである指令生成モデル（後記する図３参照）を用いてロボットに対する動作指令を生成する。

　指令生成モデルは、位置抽出ブロックと動作指令生成ブロックとを含む。位置抽出ブロックは、撮影画像にある１つ以上の作業対象（物体）を認識する処理に用いられるパラメータを含む。換言すれば位置抽出ブロックは、作業対象（作業の対象物の候補）の位置または領域を算出する際に参照されるパラメータを含む。動作指令生成ブロックは、１つの作業対象を把持するためのロボットの動作を指示する動作指令を生成する処理に用いられるパラメータを含む。換言すれば動作指令生成ブロックは、対象物に対するロボットの作業の動作指令を算出する際に参照されるパラメータを含む。

　なお、指令生成モデルや位置抽出ブロック、動作指令生成ブロックは、機械学習技術を用いた認識や推論などの処理に用いるパラメータであるが、以下ではパラメータ自体がパラメータを用いて処理する主体であるかのように記載する場合もある。例えば、「指令生成モデルが動作指令を算出する」、「位置抽出ブロックの入力である撮影画像」などと記す場合がある。

　動作指令生成装置は、位置抽出ブロックと動作指令生成ブロックとを含む構成の機械学習モデルを、学習データを用いて訓練して学習済み機械学習モデルである指令生成モデルを生成する。学習データの説明変数（入力）は撮影画像を含み、目的変数（出力、正解）は撮影画像にある１つの物体（作業対象、対象物）を把持するロボットの動作指令を含む。

　学習データは、人がロボットを操作して物体を把持する様子の撮影画像と、把持するときのロボットの操作を示す動作指令とを含む教示型の学習データであってもよい。人が操作せず、物体に対する最適な把持動作を、例えば機械学習技術を用いて算出して、算出された動作を動作指令として記録した学習データであってもよい。なお教示型学習データの撮影画像に映る作業対象の物体は、１つであってもよい。

　動作指令生成装置は、指令生成モデル（の位置抽出ブロック）を用いて撮影画像から１つ以上の作業対象（の位置情報）を取得する。次に動作指令生成装置は、操作者に問い合わせて１つ以上の作業対象から１つの作業対象を選択する。続いて動作指令生成装置は、指令生成モデル（の動作指令生成ブロック）を用いて選択された作業対象を把持するロボットの動作命令を生成する。換言すれば、動作指令生成装置は、指令生成モデル（の位置抽出ブロック）を用いて取得された１つ以上の作業対象を１つの作業対象に置き換えて、当該１つの作業対象を把持する動作指令を生成する。

　このような動作指令生成装置によれば、取得しやすい教示型／自律学習型の学習データを用いて生成された指令生成モデルを用いて、複数の作業対象のなかで作業者が指定した作業対象を把持する動作指令が生成される。従来までの教示型の学習データを用いて生成された機械学習モデルを用いる場合には、複数の作業対象があった場合の動作が保証できなかった（どのように動作するか不明だった）。動作指令生成装置によれば、作業する作業対象の順番を保証することができる。例えば、作業順序が決まった作業に対してロボットを使用することができるようになる。

≪ロボット制御システムの全体構成≫
　図１は、第１実施形態に係るロボット制御システム１０の全体構成図である。ロボット制御システム１０は、ロボット３００、制御装置３１０、カメラ３７１，３７２、および動作指令生成装置１００を含んで構成される。
　ロボット３００は、物体である作業対象３８０のハンドリングが可能であり、部品の組み立てや搬送など所定の作業を行う。ロボット３００の構成は問わず、ロボットアーム単体でもよく、クローラや車輪などの移動装置を備えてもよい。

　制御装置３１０は、動作指令生成装置１００から入力されたロボット３００の関節角やエンドエフェクタ３０１（ロボットハンド）の姿勢（位置）、力（トルク）などの動作指令を基に、ロボット３００に制御指令を出力してロボット３００の動作を制御する装置である。制御指令は、例えばロボット３００に備わるロボットアームの関節やエンドエフェクタ３０１などに設けられたアクチュエータ（モータなど）に対する電流値や電圧値などを示す信号である。ロボット３００は、制御装置３１０から制御指令を受信すると内蔵の駆動回路が該当するアクチュエータに駆動信号を供給する。

　カメラ３７１，３７２は、ロボット３００の作業環境や周辺環境を撮像するための撮像装置である。図１では、２台のカメラ３７１，３７２が設置されているが、１台であっても３台以上であってもよい。カメラ３７１はロボットアーム３０２に取り付けられており、カメラ３７２はロボット３００の周辺（例えば作業室や建物の壁）に設置されている。ここで作業環境はロボット３００の可動領域（作業エリア）に相当し、周辺環境はロボットの可動領域外の周辺領域に相当する。

　動作指令生成装置１００は、カメラ３７１，３７２により撮影された画像（撮影画像）、ロボット３００や作業環境、周辺環境に配置されたセンサから得られた情報（以下、センサ情報と記す）に基づいて、ロボット３００の動作を計画し、制御装置３１０にロボット３００の関節角や力などの動作指令を送信する装置である。ここで、ロボット３００やセンサ情報の種類は問わない。例えば、センサ情報は、ロボット３００の関節に備わっているアクチュエータの電流値、ロボット３００に外付けされている触覚センサや慣性センサの出力信号などでもよい。さらにセンサ情報は、作業環境や周辺環境を計測している温度センサなどでもよい。このように、各センサは、ロボット３００の状態や環境の状態を検出し、検出内容に応じた検出信号を出力する。

≪動作指令生成装置の構成≫
　図２は、第１実施形態に係る動作指令生成装置１００の機能ブロック図である。動作指令生成装置１００はコンピュータであり、制御部１１０、記憶部１２０、および入出力部１８０を備える。
　入出力部１８０には、ディスプレイやキーボード、マウスなどのユーザインターフェイス機器が接続される。例えば入出力部１８０にはタッチパネルディスプレイが接続され、カメラ３７１，３７２の撮影画像が表示される。ロボットの操作者は、ロボット３００が把持する作業対象３８０の１つをタッチパネルディスプレイ上で指定する。また、入出力部１８０は通信デバイスを備え、制御装置３１０やカメラ３７１，３７２などの装置とのデータ（信号）の送受信が可能である。

　記憶部１２０は、ＲＯＭ（Read Only Memory）やＲＡＭ（Random Access Memory）、ＳＳＤ（Solid State Drive）などの記憶機器を含んで構成される。記憶部１２０には、学習データ１３０、指令生成モデル１４０、およびプログラム１２８が記憶される。プログラム１２８は、動作指令生成処理（後記する図４参照）の記述を含む。

≪動作指令生成装置：学習データ≫
　学習データ１３０は、機械学習モデルである指令生成モデル１４０の学習に用いる学習用データである。学習データ１３０の説明変数（入力）は、ロボット３００が作業対象３８０を把持する作業時に時系列に取得した、ロボット３００の作業環境や周辺環境の撮影画像、および、ロボット３００や作業環境、周辺環境のセンサ情報である。学習データ１３０の目的変数（出力）は、ロボット３００が作業対象３８０を把持する作業時に時系列に取得したロボット３００への動作指令である。

　この作業は、ロボット３００の操作者が、例えばジョイスティックなどの操作部を入出力部１８０に接続して、ロボット３００を操作（制御）する作業である。操作部は操作者の入力を受け付けて、その内容に応じた動作指令を制御装置３１０に送信する装置である。操作者が操作する替わりに、予め計画されたロボット３００の動作をロボット３００に再生させてもよい。なお、ロボット３００の運用時に作業対象３８０が複数あることが予想されるとしても、学習データ１３０の取得時には、作業対象３８０は１つであってもよい。

≪動作指令生成装置：指令生成モデル≫
　図３は、第１実施形態に係る指令生成モデル１４０の構成図である。指令生成モデル１４０は機械学習モデルであって、位置抽出ブロック１４１と動作指令生成ブロック１４２とを含む。
　位置抽出ブロック１４１は、撮影画像にある１つ以上の作業対象３８０やエンドエフェクタ３０１を認識する処理に用いられるパラメータを含む。位置抽出ブロック１４１は、例えば画像の特徴量を抽出するＣＮＮ（Convolutional Neural Network）、および得られた特徴マップから一番強度の大きい位置の座標情報を抽出するSpatial Softmaxに係るパラメータを含み、撮影画像から作業対象３８０の位置情報を抽出する処理をするときに参照される。Spatial Softmaxは、機械学習で用いられるsoftmax関数やtanh関数、sigmoid関数などの関数の一種であり、soft argmaxとも称される。Spatial Softmaxで抽出される位置座標の数は、直前のＣＮＮのチャンネル数に基づいて決定される。

　動作指令生成ブロック１４２は、作業対象を把持するためのロボット３００の動作を指示する動作指令を生成する処理に用いられるパラメータを含む。動作指令生成ブロック１４２は、例えば全結合層やRecurrent Neural Network（ＲＮＮ）などを用いて、位置抽出ブロックから得られた作業対象の位置情報とセンサ情報とから、動作指令を生成する。

≪動作指令生成装置：制御部≫
　図２に戻って制御部１１０の説明を続ける。制御部１１０は、ＣＰＵ（Central Processing Unit）を含んで構成され、取得部１１１、学習部１１２、および指令生成部１１３が備わる。取得部１１１は、カメラ３７１，３７２の撮影画像、およびロボット３００や作業環境、周辺環境に備わるセンサのセンサ情報を取得する。

　学習部１１２は、学習データ１３０を用いて指令生成モデル１４０を訓練する（指令生成モデル１４０に学習データ１３０を学習させる）。訓練／学習の結果として指令生成モデル１４０に含まれるパラメータが調整され、撮影画像とセンサ情報とに基づいて誤差が最小となるような作業対象３８０を把持する動作指令が出力されるようになる。

　動作指令の誤差を最小化することは、学習データ１３０に示されている作業を達成することに等しいため、位置抽出ブロック１４１の出力として作業を達成するために重要な位置情報が得られることが期待できる。例えば、作業対象３８０やエンドエフェクタ３０１などの位置情報が得られると考えられる。なお学習データ１３０は、撮影画像とセンサ情報と動作指令とを含むが、位置情報は含んでおらず、陽に訓練／学習されたものではない。

　また、学習の結果として得られたＣＮＮの各チャンネルは、特定の形状に反応する。例えば、第１のチャンネルは作業対象３８０に、第２のチャンネルはエンドエフェクタ３０１に反応するなどである。動作指令生成ブロック１４２は、各チャンネルから得られる座標に基づいて動作指令を予測するため、第１のチャンネルの座標が変わることは作業対象の位置が変わることと等しい。なお、どのチャンネルが作業対象に反応するかは、訓練／学習後に学習データを入力して、作業対象の位置座標を出力しているチャンネルを調べることで決定できる。このように、位置抽出ブロック１４１の出力となる位置情報は、撮影画像に含まれる個々の作業対象３８０やエンドエフェクタ３０１の位置座標を含む。

　指令生成部１１３は、指令生成モデル１４０を用いて、撮影画像と、センサ情報と、操作者が指定した作業対象物の位置情報とに基づいて推論（予測）を行い、ロボット３００の動作指令を出力する。この動作指令は、制御装置３１０に送信され、ロボット３００が動作する。

　操作者が指定した作業対象物の位置情報は、機械学習モデルとしての指令生成モデル１４０の入力（説明変数）ではない。指令生成部１１３は、位置抽出ブロック１４１を用いて算出された作業対象の位置情報を操作者が指定した作業対象物の位置情報に置き換えて、動作指令生成ブロック１４２を用いて動作指令を算出する。

≪動作指令生成処理≫
　図４は、第１実施形態に係る動作指令生成処理のフローチャートである。以下の動作指令生成処理の説明において主作業とは、ロボット３００が１つ以上の作業対象３８０（例えば瓦礫）を１つずつエンドエフェクタ３０１で把持して、所定の容器（不図示）に移す（撤去する）作業である。１つの作業対象３８０を把持して容器に移すのが、１つの副作業である。第１実施形態では、撤去する作業対象３８０をロボット３００の操作者が指示して、生成された動作命令に従ってロボット３００が指示された作業対象３８０を把持して容器に移す。

　ステップＳ１１において指令生成部１１３は、副作業ごとにステップＳ１２～Ｓ１７を繰り返す処理を開始する。詳しくは、指令生成部１１３は、位置抽出ブロック１４１を用いて、撮影画像から位置情報を算出し、位置情報に作業対象３８０の位置情報がなければ動作指令生成処理を終え、作業対象３８０があればステップＳ１２に進む。

　ステップＳ１２において指令生成部１１３は、作業対象３８０が映っているカメラ３７１，３７２の撮影画像をタッチパネルディスプレイに表示し、どの作業対象３８０が把持するかを操作者に問い合わせる。操作者が把持する作業対象３８０の１つをタッチして指示すると、指令生成部１１３はその位置を取得する。換言すれば、指令生成部１１３は作業対象となる対象物の候補のなかでロボット３００の作業対象となる対象物を指定する作業対象指定情報を取得する。以下では指示された１つの作業対象３８０を作業対象物体と記す。

　ステップＳ１３において指令生成部１１３は、副作業が終了する（ステップＳ１２で指示された作業対象物体をロボットが把持して容器に移す）までステップＳ１４～Ｓ１７の処理を繰り返す。
　ステップＳ１４において指令生成部１１３は、撮像画像を位置抽出ブロック１４１に入力して位置情報を取得する。詳しくは、指令生成部１１３は位置抽出ブロック１４１を用いて撮影画像から位置情報を算出する。位置情報には、個々の作業対象３８０やエンドエフェクタ３０１の位置座標が含まれる。

　ステップＳ１５において指令生成部１１３は、位置情報に含まれる作業対象物体の位置座標を、ステップＳ１２で取得した位置情報に置き換える。なお、指令生成部１１３がステップＳ１４～Ｓ１７を繰り返して、ロボット３００が作業対象物体を把持して移動することで、作業対象物体の位置は変化する。指令生成部１１３は、ステップＳ１２で指示された作業対象物体の位置を追跡して、追跡結果である作業対象物体の位置に置き換える。把持した後の作業対象物体の位置は、後記するステップＳ１６で取得される動作指令から算出されるエンドエフェクタ３０１の位置から取得可能である。

　ステップＳ１６において指令生成部１１３は、置き換えた位置情報とセンサ情報とを動作指令生成ブロック１４２に入力して、動作指令を取得する。詳しくは、指令生成部１１３は動作指令生成ブロック１４２を用いて置き換えた位置情報とセンサ情報とから動作指令を算出する。
　ステップＳ１７において指令生成部１１３は、ステップＳ１６で算出した動作指令を制御装置３１０に送信する。

≪動作指令生成装置の特徴≫
　動作指令生成装置１００は、指令生成モデル１４０を用いて、撮影画像とセンサ情報とからロボット３００の動作指令を生成する。指令生成モデル１４０は機械学習モデルであって、その学習データは、操作者がロボット３００を操作した作業から取得可能なデータであって、低コストで作成可能である。

　指令生成モデル１４０は、位置抽出ブロック１４１と、動作指令生成ブロック１４２とを含み、動作指令を生成する際に作業対象の位置を算出する構成となっている。動作指令生成装置１００は動作指令を生成する際に、作業対象の位置を操作者が指定した作業対象の位置に置き換える。このようにすることで、複数の作業対象となる物体があった場合でも、操作者が指示した物体に対してロボット３００は作業を行うようになる。
　学習データを作成（操作者がロボット３００を操作）するときの作業対象の物体は１つであってもよい。複数の作業対象がある場合の学習データを準備して、訓練／学習するのに比べて低コスト・短時間に学習データを作成できる。

≪変形例：位置情報≫
　上記した第１実施形態では、指令生成モデル１４０を用いて動作指令を算出する際に、作業対象の位置情報（位置座標）が算出されている（図３参照）。位置抽出ブロック１４１においてSpatial Softmax関数の替わりにsigmoid関数を用いてヒートマップを得ることで、位置情報の替わりに作業対象やエンドエフェクタ３０１の領域情報が算出されるようにしてもよい。

≪変形例：位置情報の置き換え≫
　上記した第１実施形態において指令生成部１１３は、位置抽出ブロック１４１の出力である作業対象の位置情報を、操作者が指定した作業対象の位置情報に置き換えている（図４のステップＳ１５参照）。入力となる撮影画像が作業対象のみを含むようにしてもよい。

　図５は、第１実施形態の変形例に係る撮影画像５１０である。撮影画像５１０の右下にある３つの作業対象のなかで、操作者が右の作業対象５１１を把持するように指定したとする。すると指令生成部１１３は、作業対象５１１を含む領域を残して他をマスクする画像であり、作業対象５１１以外の操作者が指定しなかった作業対象をマスクする画像であるマスク用の画像５２０（後記する図６参照）を生成する。

　図６は、第１実施形態の変形例に係るマスク用の画像５２０である。領域５２１は、作業対象５１１を含む領域で、作業対象５１１以外の操作者が指定しなかった作業対象を含まない領域である。画像５２０において領域５２１以外がマスクされている。

　図７は、第１実施形態の変形例に係る撮影画像５１０が画像５２０でマスクされた撮影画像５３０である。指令生成部１１３は、位置情報を置き換えるのではなく、指定された作業対象５１１を残して他がマスクされた撮影画像５３０を指令生成モデル１４０（位置抽出ブロック１４１）の入力として、動作指令を算出する。このような作業対象５１１のみが撮影されている画像を入力とすることで、位置抽出ブロック１４１の出力である位置情報には作業対象５１１の位置情報のみが含まれ、作業対象５１１を把持する動作指令が生成される。

≪変形例：作業種別の選択≫
　上記した第１実施形態では、操作者が作業対象を選択している（図４記載のステップＳ１２参照）が、さらに複数ある作業種別の１つを選択するようにしてもよい。瓦礫撤去作業における作業種別とは、例えば選択されてロボット３００が把持した作業対象の瓦礫をどの容器に移す作業かということである。またバルブ開閉作業における作業種別とは、例えば選択されたバルブを開く作業か、閉じる作業かということである。

　指令生成モデル１４０は、作業種別に応じて複数あり、それぞれ作業種別に応じた動作指令を生成するように訓練／学習されている。ステップＳ１２において指令生成部１１３は、作業対象の位置情報とともに、作業種別を取得する。ステップＳ１４～Ｓ１７において指令生成部１１３は、作業種別に対応した指令生成モデル１４０を用いて動作指令を算出する。
　このようにすることでロボット３００は、作業対象に対して操作者が指示した作業種別の作業を行うことができるようになる。

≪第２実施形態≫
　上記した第１実施形態では、把持する作業対象を操作者に問い合わせている（図４のステップＳ１２参照）。把持する作業対象が１つに特定できる場合には、操作者への問い合わせることなく、作業を行ってもよい。例えば、撮影画像において作業対象が一カ所にあると見なせる場合には、操作者に問い合わせることなく、作業を行ってもよい。これは、位置抽出ブロック１４１が算出した位置情報（位置座標）が１つ以上あるが、その位置の散らばり（分散）が小さく、一カ所と見なせる場合である。

　第２実施形態に係る動作指令生成装置１００の機能構成は、指令生成部１１３（動作指令生成処理）を除いて第１実施形態と同様である。第２実施形態の指令生成部を指令生成部１１３Ａと記す。図８は、第２実施形態に係る動作指令生成処理のフローチャートである。
　ステップＳ３１において指令生成部１１３Ａは、副作業ごとにステップＳ３２～Ｓ４０を繰り返す処理を開始する。
　ステップＳ３２において指令生成部１１３Ａは、撮像画像を位置抽出ブロック１４１に入力して位置情報を取得して、位置情報の分散を算出する。分散は、例えば作業対象の位置を示すＸ座標とＹ座標それぞれの分散の和である。

　ステップＳ３３において指令生成部１１３Ａは、ステップＳ３２で算出した分散が所定値より大きければ（ステップＳ３３→ＹＥＳ）ステップＳ３４に進み、所定値以下であれば（ステップＳ３３→ＮＯ）ステップＳ３５に進む。
　ステップＳ３４は、図４記載のステップＳ１２と同様の処理である。
　ステップＳ３５において指令生成部１１３Ａは、ステップＳ３４で指示された作業対象物体をロボットが把持して容器に移すまでステップＳ３６～Ｓ４０の処理を繰り返す。ステップＳ３４がスキップされた（ステップＳ３３→ＮＯ）場合の作業対象物体は、分散が小さく一カ所と見なせる位置情報の位置にある作業対象の物体である。

　ステップＳ３６は、ステップＳ１４と同様の処理である。
　ステップＳ３７において指令生成部１１３Ａは、ステップＳ３４（ステップＳ１２参照）において操作者の指示である作業対象物体の位置を取得したならば（ステップＳ３７→ＹＥＳ）ステップＳ３８に進み、取得していないならば（ステップＳ３７→ＮＯ）ステップＳ３９に進む。
　ステップＳ３８～Ｓ４０は、ステップＳ１５～Ｓ１７とそれぞれ同様の処理である。

≪第２実施形態の特徴≫
　撮影画像において作業対象が一カ所にあると見なせる場合には、操作者に問い合わせることなく、ロボット３００は作業を行うので、作業効率が向上する。
　なおステップＳ３７でＮＯに分岐してステップＳ３８をスキップすることなく、ステップＳ３６に続いてステップＳ３８を実行するようにしてもよい。この場合、ステップＳ３８において指令生成部１１３Ａは、作業対象物体の位置座標を把持された作業対象物体の移動に応じた位置情報に置き換えてもよい（ステップＳ１５参照）。

≪第３実施形態≫
　第１実施形態では、作業対象の順番が決まっている。順番が決まっていない場合には、操作者に問い合わせることなく、次々と作業を行ってもよい。例えば、瓦礫撤去作業において、類似形状・見た目の瓦礫が散らばっており、順番によらず撤去すればよい場合は、次々と瓦礫を把持して容器に移せばよい。

　第３実施形態に係る動作指令生成装置１００の機能構成は、指令生成部（動作指令生成処理）を除いて第１実施形態と同様である。第３実施形態の指令生成部を指令生成部１１３Ｂと記す。図９は、第３実施形態に係る動作指令生成処理のフローチャートである。
　ステップＳ５１において指令生成部１１３Ｂは、副作業ごとにステップＳ５２～Ｓ５８を繰り返す処理を開始する。
　ステップＳ５２において指令生成部１１３Ｂは、撮像画像を位置抽出ブロック１４１に入力して作業対象の位置情報を取得する。

　ステップＳ５３において指令生成部１１３Ｂは、ステップＳ５２で取得した位置情報にある作業対象の１つをランダムに選択する。以下、この選択された作業対象を作業対象物体と記す。
　ステップＳ５４～Ｓ５８は、ステップＳ１３～Ｓ１７とそれぞれ同様である。但し、ステップＳ５６では、位置情報に含まれる作業対象物体の位置座標を、ステップＳ５３で選択した作業対象物体の位置情報に置き換える。

≪第３実施形態の特徴≫
　操作者への問い合わせることなく、ロボット３００は作業を行うので、作業効率が向上する。

≪変形例≫
　以上、本発明のいくつかの実施形態について説明したが、これらの実施形態は、例示に過ぎず、本発明の技術的範囲を限定するものではない。例えば、ロボット３００の作業として瓦礫の撤去（瓦礫を把持して容器に移動）を例にしたが、これに限らず他の作業であってもよい。例えば、プラントにおける順番が決められた複数のバルブの開閉作業や物体（箱）の搬送作業などの作業であってもよい。バルブの開閉作業の場合、副作業は１つのバルブの開閉作業である。

　上記した第１実施形態では、作業対象となる物体をロボット３００の操作者が選択しているが、これに限らない。作業対象の順番を決めるシステムがあり、このシステムが作業対象を選択するようにしてもよい。
　上記した第１実施形態では、作業対象３８０（の位置情報）の有無を、位置情報を基に指令生成部１１３が判断しているが（図４のステップＳ１１参照）操作者が撮影画像を基に判断するようにしてもよい。また、副作業の終了（ステップＳ１３参照）を操作者が判断するようにしてもよい。

　上記した実施形態における動作指令生成装置１００は、学習部１１２と指令生成部１１３，１１３Ａ，１１３Ｂとを備えており、指令生成モデル１４０を生成し、当該指令生成モデル１４０を用いて動作指令を出力している。指令生成モデル１４０を生成する装置と、動作指令を出力する装置とを分けてもよい。例えば、学習部１１２を備えるモデル生成装置が指令生成モデル１４０を生成して、複数の動作指令装置に送信し、それぞれの動作指令装置がそれぞれのロボットの制御装置に動作指令を出力するようにしてもよい。他にも動作指令生成装置１００と制御装置３１０とが一体となる形態であってもよい。

　本発明はその他の様々な実施形態を取ることが可能であり、さらに、本発明の要旨を逸脱しない範囲で、省略や置換等種々の変更を行うことができる。これら実施形態やその変形は、本明細書等に記載された発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１００　動作指令生成装置
１１１　取得部
１１２　学習部
１１３，１１３Ａ，１１３Ｂ　指令生成部
１２８　プログラム
１３０　学習データ
１４０　指令生成モデル（機械学習モデル）
１４１　位置抽出ブロック
１４２　動作指令生成ブロック
３００　ロボット
３８０　作業対象（対象物）

Claims

　ロボットが作業する対象物の候補を含む画像およびセンサ情報を取得する取得部と、
　機械学習モデルを用いて、前記画像および前記センサ情報を入力として前記ロボットの動作指令を出力する指令生成部とを備え、
　前記機械学習モデルは、
　前記対象物の候補の位置または領域を算出する際に参照されるパラメータを含む位置抽出ブロックと、前記対象物に対する前記ロボットの作業の動作指令を算出する際に参照されるパラメータを含む動作指令生成ブロックとを含み、
　説明変数が前記画像および前記センサ情報を含み、目的変数が前記動作指令を含む学習データを用いて生成される
　ことを特徴とする動作指令生成装置。
　前記指令生成部は、
　前記対象物の候補のなかで前記ロボットの作業対象となる対象物を指定する作業対象指定情報を取得し、
　前記位置抽出ブロックを用いて算出された前記対象物の候補の位置または領域の情報を、前記作業対象指定情報が示す対象物の位置または領域の情報に置き換えて前記動作指令を出力する
　ことを特徴とする請求項１に記載の動作指令生成装置。
　前記機械学習モデルは、
　作業種別ごとの複数の機械学習モデルであり、
　前記指令生成部は、
　前記対象物の候補のなかで前記ロボットの作業対象となる対象物を指定する作業対象指定情報、および当該対象物に対する前記ロボットが行う前記作業種別を取得し、
　前記複数の機械学習モデルのなかで当該作業種別に対応した機械学習モデルを用いて、前記画像および前記センサ情報を入力として前記ロボットの動作指令を出力する
　ことを特徴とする請求項１に記載の動作指令生成装置。
　前記指令生成部は、
　前記対象物の候補のなかで前記ロボットの作業対象となる対象物を指定する作業対象指定情報を取得し、
　前記機械学習モデルを用いて、前記作業対象指定情報が示す対象物の領域とは異なる領域をマスクした画像を入力として前記動作指令を出力する
　ことを特徴とする請求項１に記載の動作指令生成装置。
　前記指令生成部は、
　前記位置抽出ブロックを用いて算出された前記対象物の候補の位置または領域の情報から算出される分散が所定値より大きい場合に、
　前記対象物の候補のなかで前記ロボットの作業対象となる対象物を指定する作業対象指定情報を取得し、
　前記位置抽出ブロックを用いて算出された前記対象物の候補の位置または領域の情報を、前記作業対象指定情報が示す対象物の位置または領域の情報に置き換えて前記動作指令を出力する
　ことを特徴とする請求項１に記載の動作指令生成装置。
　前記指令生成部は、
　前記画像を表示装置に表示し、表示された前記対象物の候補のなかで指定された対象物の候補の前記画像における位置または領域の情報を前記作業対象指定情報とする
　ことを特徴とする請求項２～５の何れか１項に記載の動作指令生成装置。
　前記指令生成部は、
　前記位置抽出ブロックを用いて算出された前記対象物の候補の位置または領域の情報のなかの何れか１つを作業対象指定情報として選択し、
　前記位置抽出ブロックを用いて算出された前記対象物の候補の位置または領域の情報を、前記作業対象指定情報が示す対象物の位置または領域の情報に置き換えて前記動作指令を出力する
　ことを特徴とする請求項１に記載の動作指令生成装置。
　動作指令生成装置が、
　ロボットが作業する対象物の候補を含む画像およびセンサ情報を取得するステップと、
　機械学習モデルを用いて、前記画像および前記センサ情報を入力として前記ロボットの動作指令を出力するステップとを実行し、
　前記機械学習モデルは、
　前記対象物の候補の位置または領域を算出する際に参照されるパラメータを含む位置抽出ブロックと、前記対象物に対する前記ロボットの作業の動作指令を算出する際に参照されるパラメータを含む動作指令生成ブロックとを含み、
　説明変数が前記画像および前記センサ情報を含み、目的変数が前記動作指令を含む学習データを用いて生成される
　ことを特徴とする動作指令生成方法。