WO2021033315A1

WO2021033315A1 - ロボット制御システム、ロボット制御方法、及び、記録媒体

Info

Publication number: WO2021033315A1
Application number: PCT/JP2019/032847
Authority: WO
Inventors: 小川　雅嗣; 永哉若山; 伸治加美
Original assignee: 日本電気株式会社
Priority date: 2019-08-22
Filing date: 2019-08-22
Publication date: 2021-02-25
Also published as: EP4019206A4; EP4019206A1; JP7334784B2; JPWO2021033315A1; US20220281105A1

Abstract

ロボット制御システムにおいて、記憶部は、ロボットに実行させるタスクに応じた複数のプログラムを記憶する。受付部は、ロボットに実行させるタスクと、複数のプログラムのうち、そのタスクを実行させるためのプログラムに関する属性情報と、のユーザによる選択を受け付ける。取得部は、タスク及び属性情報に基づいて、記憶部から複数のプログラムのうち、そのタスクを実行させるためのプログラムを取得する。ロボット制御部は、取得したプログラムに基づいてロボットを制御する。

Description

ロボット制御システム、ロボット制御方法、及び、記録媒体

　本発明は、ロボットを様々な環境で、簡便にかつローコストで使用するためのロボット制御システムに関する。

　近年、深刻な人手不足を背景に、自動車工場などの大量生産を行う工場だけでなく、あらゆる業種において、ロボットの導入が検討されている。例えば、物流の現場では、ＡＧＶ（Ａｕｔｏｍａｔｅｄ　Ｇｕｉｄｅｄ　Ｖｅｈｉｃｌｅ）と呼ばれる自動搬送車を使い、搬送の自動化が検討されている。また、電子部品の組み立て工場では、ロボットアームという腕型のロボットの導入が検討されている。今後、食品工場、外食、ホテル、病院、介護といった業種でもロボット導入の検討が加速すると考えられる。

　一般的に、ロボットは特注品である。ロボットを使用する環境と、ロボットを使用するタスク（モノを運ぶ、ネジを締めるなど）を予め設定し、その環境とそのタスクに合わせて高度に調整したロボットを構築する。この調整は、従来は人手でのプログラミングで行っており、大きな手間であったが、近年はディープラーニングなどのデータを用いた学習による自動化が進み始めている。例えば、特許文献１～３には、学習を利用したロボットの調整について開示されている。但し、いずれの方法で調整したとしても、その調整は、調整に使用したロボット、調整時の環境、調整したタスクという調整時の条件に限定したものであり、そのいずれの条件が変わっても調整のやり直しをする必要がある。

特開平９－８１２０５号公報特開２００５－７８５１９号公報特開２００７－６６２４２号公報

　上述のように、ロボット導入の検討が様々な業種で行われているが、ユーザが満足するレベルで導入が進んでいるとは言い難い。特に、食品工場、外食、ホテル、病院、介護などでは想定ほど導入が進んでいない。その要因はいくつか存在する。

　これらの業界は、ロボットを固定の環境で使用することが難しい。例えば、食品工場では作るものが週単位で変わり、作る量に合わせてラインを変更しなければならない。ラインが変わればロボットの配置も変えなければならない。しかし、ロボットにとって配置変更は、環境が変わったことに他ならない。したがって、ロボットを再度調整する必要が発生する。現場でユーザがロボットを調整するのは困難であり、ロボットインテグレーターにその都度、調整作業を発注することになる。ディープラーニングなどの技術で調整の自動化は進んでいるものの、ディープラーニングで調整を行うには膨大なサンプルデータが必要であり、調整に数か月を要することもざらである。つまり、週単位で変更が起きる現場で、その都度、発注、調整が行われるという状況は、実質的にロボットが使用できないのと同じである。これがロボット導入の進まない第一の要因である。

　また、人間が見たら同じタスクと思われるタスクもロボットにとっては同じではない。例えば、食品工場で働く人にとって、「から揚げを掴む」というタスクと「エビフライを掴む」というタスクは、おかずを弁当に入れるという意味で同じタスクである。しかし、ロボットにとって、これらのタスクは別物である。弁当に入れるおかずは毎日のように変わり、恒久的ではない。したがって、おかずの種類が変わるたびに頻繁にロボットが実行するべきタスクが変わり、タスク変更の調整をロボットインテグレーターに発注する必要が生じる。これも環境変化の話と同様に非現実的な話であり、タスクが頻繁に変わる場合、ロボット導入が進まない。これが、第二の原因である。

　本発明の１つの目的は、ロボット導入時に生じる膨大な調整作業を不要とし、ロボットの導入を容易にすることが可能なロボット制御システムを提供することにある。

　上記の課題を解決するため、本発明の一つの観点は、ロボット制御システムであって、
　ロボットに実行させるタスクに応じた複数のプログラムを記憶する記憶部と、
　前記ロボットに実行させるタスクと、前記複数のプログラムのうち前記タスクを実行させるためのプログラムに関する属性情報と、のユーザによる選択を受け付ける受付部と、
　前記タスク及び前記属性情報に基づいて、前記記憶部から前記複数のプログラムのうち前記タスクを実行させるためのプログラムを取得する取得部と、
　取得したプログラムに基づいて前記ロボットを制御するロボット制御部と、を備える。

　本発明の他の観点は、ロボット制御方法であって、
　ロボットに実行させるタスクと、複数のプログラムのうち前記タスクを実行させるためのプログラムに関する属性情報と、のユーザによる選択を受け付け、
　前記タスク及び前記属性情報に基づいて、ロボットに実行させるタスクに応じた複数のプログラムを記憶する記憶部から、前記複数のプログラムのうち前記タスクを実行させるためのプログラムを取得し、
　取得したプログラムに基づいて前記ロボットを制御する。

　本発明の他の観点は、記録媒体であって、
　ロボットに実行させるタスクと、複数のプログラムのうち前記タスクを実行させるためのプログラムに関する属性情報と、のユーザによる選択を受け付け、
　前記タスク及び前記属性情報に基づいて、ロボットに実行させるタスクに応じた複数のプログラムを記憶する記憶部から、前記複数のプログラムのうち前記タスクを実行させるためのプログラムを取得し、
　取得したプログラムに基づいて前記ロボットを制御する処理をコンピュータに実行させるプログラムを記録する。

　本発明の他の観点は、クラウド装置であって、
　ロボットに実行させるタスクに応じた複数のプログラムを記憶する記憶部と、
　ユーザにより選択された、前記ロボットに実行させるタスクと、前記複数のプログラムのうち前記タスクを実行させるためのプログラムに関する属性情報と、を受信する受信部と、
　前記タスク及び前記属性情報に基づいて、前記記憶部から、前記複数のプログラムのうち前記タスクを実行させるためのプログラムを取得する取得部と、
　取得したプログラムを送信する送信部と、を備える。

　本発明によれば、ロボット導入時に生じる膨大な調整作業を不要とし、ロボットの導入を容易にすることが可能なロボット制御システムを提供することが可能となる。

ロボット制御システムの全体構成を示すブロック図である。クラウド装置及びコントローラのハードウェア構成を示すブロック図である。第１実施形態に係るロボット制御システムの機能構成を示すブロック図である。第２実施形態に係るロボット制御システムの機能構成を示すブロック図である。インタフェース部の表示例を示す。タスク学習部による学習のシーケンスを示す。タスク生成モードにおけるインタフェース部の表示例を示す。第３実施形態に係るロボット制御システムの機能構成を示すブロック図である。実施例に係るロボットの作業場の概略を示す平面図である。

　以下、図面を参照して、本発明の好適な実施形態について説明する。
　［システム構成］
　（全体構成）
　図１は、本発明の実施形態に係るロボット制御システムの全体構成を示すブロック図である。ロボット制御システム１は、クラウド装置１００と、コントローラ２００と、インタフェース部３００とを備える。クラウド装置１００と、コントローラ２００と、インタフェース部３００とは、有線又は無線により相互に通信可能である。クラウド装置１００は、クラウド側に設置されるサーバ装置である。一方、コントローラ２００及びインタフェース部３００は、ロボットによる作業が行われる実環境に設置される。コントローラ２００は、ロボットを制御する装置である。インタフェース部３００は、ロボットを制御するために必要な情報を入力するためにユーザにより操作される。なお、図１では、便宜上、１組のコントローラ２００及びインタフェース部３００を図示しているが、実際には、１つのクラウド装置１００に対して、複数のコントローラ２００及びインタフェース部３００が共通して使用される。

　（クラウド装置のハードウェア構成）
　図２（Ａ）は、クラウド装置１００のハードウェア構成を示すブロック図である。図示のように、クラウド装置１００は、通信部１０２と、プロセッサ１０３と、メモリ１０４と、記録媒体１０５と、データベース（ＤＢ）１０６と、を備える。

　通信部１０２は、有線又は無線のネットワークにより、コントローラ２００及びインタフェース部３００と通信する。具体的に、通信部１０２は、インタフェース部３００から、ユーザが指定したタスク及びその属性情報を受信する。また、通信部１０２は、ユーザが指定したタスク及び属性情報に対応するプログラムをコントローラ２００へ送信する。

　プロセッサ１０３は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）などのコンピュータであり、予め用意されたプログラムを実行することにより、クラウド装置１００の全体を制御する。具体的に、プロセッサ１０３は、ユーザにより指定されたタスク及び属性情報に対応するプログラムをコントローラ２００に送信したり、プログラムの使用により発生する料金を算出したりする処理を実行する。

　メモリ１０４は、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）などにより構成される。メモリ１０４は、プロセッサ１０３により実行される各種のプログラムを記憶する。また、メモリ１０４は、プロセッサ１０３による各種の処理の実行中に作業メモリとしても使用される。

　記録媒体１０５は、ディスク状記録媒体、半導体メモリなどの不揮発性で非一時的な記録媒体であり、クラウド装置１００に対して着脱可能に構成される。記録媒体１０５は、プロセッサ１０３が実行する各種のプログラムを記録している。クラウド装置１００が各種の処理を実行する際には、記録媒体１０５に記録されているプログラムがメモリ１０４にロードされ、プロセッサ１０３により実行される。

　データベース１０６は、複数のタスクごとに用意されたプログラム（以下、「タスク別プログラム」とも呼ぶ。）を記憶する。また、データベース１０６は、ユーザによるタスク別プログラムの使用履歴を記憶する。なお、上記に加えて、クラウド装置１００は、ユーザが指示や入力を行うためのキーボード、マウスなどの入力機器や、表示装置を備えていても良い。

　（コントローラのハードウェア構成）
　図２（Ｂ）は、コントローラ２００のハードウェア構成を示すブロック図である。図示のように、コントローラ２００は、通信部２０２と、プロセッサ２０３と、メモリ２０４と、記録媒体２０５と、データベース（ＤＢ）２０６と、を備える。

　通信部２０２は、有線又は無線のネットワークにより、クラウド装置１００及びインタフェース部３００と通信する。具体的に、通信部２０２は、クラウド装置１００からタスク別プログラムを受信する。また、必要に応じて、通信部２０２は、コントローラ２００において学習されたタスク別プログラムや、コントローラ２００において生成された新たなタスク別プログラムをクラウド装置１００へ送信する。

　プロセッサ２０３は、ＣＰＵ、又はＣＰＵとＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｉｔ）などのコンピュータであり、予め用意されたプログラムを実行することにより、コントローラ２００の全体を制御する。具体的に、プロセッサ２０３は、タスク別プログラムを実行することによりロボットを制御する処理、タスク別プログラムを学習する処理、新たなタスク別プログラムを生成する処理などを実行する。

　メモリ２０４は、ＲＯＭ、ＲＡＭなどにより構成される。メモリ２０４は、プロセッサ２０３により実行される各種のプログラムを記憶する。また、メモリ２０４は、プロセッサ２０３による各種の処理の実行中に作業メモリとしても使用される。

　記録媒体２０５は、ディスク状記録媒体、半導体メモリなどの不揮発性で非一時的な記録媒体であり、コントローラ２００に対して着脱可能に構成される。記録媒体２０５は、プロセッサ２０３が実行する各種のプログラムを記録している。コントローラ２００が各種の処理を実行する際には、記録媒体２０５に記録されているプログラムがメモリ２０４にロードされ、プロセッサ２０３により実行される。

　データベース２０６は、コントローラ２００においてタスク別プログラムを学習する際に使用されるデータを記憶する。なお、上記に加えて、コントローラ２００は、キーボード、マウスなどの入力機器や、表示装置などを備えていても良い。

　［第１実施形態］
　図３は、第１実施形態に係るロボット制御システム１Ａの機能構成を示す。図示のように、ロボット制御システム１Ａは、記憶部１１１と、受付部１１２と、取得部１１３と、ロボット制御部２１１と、を備える。

　本実施形態では、ロボットを制御するプログラムが、タスクごとに分割され、タスク別プログラムとしてロボット制御部２１１に供給される点が１つの特徴である。「タスク」とは、ロボットが動作の完了により実現する目標である。例えば、アーム型のロボット（以下、「ロボットアーム」とも呼ぶ。）であれば、タスクとして「対象物を運ぶ」、「ネジを締める」などがある。この場合、「対象物を運ぶ」とは、ある地点から別の地点へ対象物を動かすことを意味する。「対象物を運ぶ」は、一般的に、「ピック＆プレイス」と呼ばれるロボットアームの基本動作である。「対象物」としては様々なものが挙げられ、例えば食品工場の場合では、「から揚げ」、「エビフライ」などロボットが運ばなくてはいけない対象物が挙げられる。システム上、タスクは動詞として定義され、その動詞の目的語を属性情報として定義する。

　先に述べたように、ロボットにとって、タスク「エビフライを運ぶ」と、タスク「から揚げを運ぶ」は異なるタスクである。したがって、これらのタスクを実行するためのプログラムは、異なるプログラムとして構築される。一方、システム上は、ユーザの使い勝手を考え、これらのタスクを、同一タスクで属性情報が違うものとして扱う。即ち、システム上は、タスク「エビフライを運ぶ」と、タスク「から揚げを運ぶ」は、同一の「対象物を運ぶ（ピック＆プレイス）」というタスクであり、その属性情報である「エビフライ」と「から揚げ」が異なるものとして取り扱う。

　記憶部１１１は、複数のタスクについて、上記のようなタスク別プログラムを記憶している。受付部１１２は、ユーザによるタスク及び属性情報の選択を受け付ける。例えば、ユーザは、インタフェース部３００を操作して、ロボットに実行させるタスクと、そのタスクを実行するタスク別プログラムに関する属性情報とを指定する。受付部１１２は、インタフェース部３００から、ユーザによるタスク及び属性情報の選択を受け取る。

　取得部１１３は、ユーザが選択したタスク及び属性情報に基づいて、記憶部１１１からそのタスクを実行するためのタスク別プログラムを取得し、ロボット制御部２２１に提供する。ロボット制御部２１１は、提供されたタスク別プログラムを実行して、ロボットを制御する。こうして、タスクごとに用意されたプログラムと、属性情報とを選択することにより、所望のタスクをロボットに実行させることが可能となる。

　なお、１つの好適な例では、記憶部１１１、受付部１１２及び取得部１１３はクラウド装置１００内にあり、ロボット制御部２１１はコントローラ２００にある。この場合、取得部１１３は、記憶部１１１から取得したタスク別プログラムをコントローラ２００のロボット制御部２１１へ送信することになる。一方、他の好適な例では、記憶部１１１、受付部１１２、取得部１１３及びロボット制御部２１１のすべてがコントローラ２００の内部にあってもよい。この場合には、コントローラ２００内の記憶部１１１には、予めクラウド装置１００からダウンロードされたタスク別プログラムが記憶されていることになる。

　［第２実施形態］
　次に、本発明の第２実施形態について説明する。図４は、第２実施形態に係るロボット制御システム１Ｂの機能構成を示すブロック図である。図示のように、クラウド装置１００は、プログラム記憶部１２１と、送受信部１２２とを備える。また、コントローラ２００は、ロボット制御部２２１と、送受信部２２２と、タスク学習部２２３と、タスク生成部２２４と、を備える。

　クラウド装置１００において、プログラム記憶部１２１は、第１実施形態における記憶部１１１と同様に、複数のタスクについてタスク別プログラムを記憶している。送受信部１２２は、インタフェース部３００から、ユーザによるタスク及び属性情報の指定を受信する。そして、送受信部１２２は、ユーザが指定したタスクに対応するタスク別プログラムをプログラム記憶部１２１から取得し、コントローラ２００へ送信する。

　インタフェース部３００は、ユーザの希望を取得するための装置である。ユーザは、インタフェース部３００の表示を見て、所望のタスクと属性情報を、指、専用ペン、マウスなどの入力機器を用いて選択する。ユーザが入力した情報は、通信ネットワークを介し、クラウド装置１００へ送られる。

　図５は、インタフェース部３００の一例を示す。この例では、インタフェース部３００は、タブレット端末により構成されている。インタフェース部３００は、少なくとも、タスクと属性情報を表示する。図５の例では、タブレット端末の表示部２０に、タスクウィンドウ２１と、属性情報ウィンドウ２２と、操作部２３とが表示されている。ユーザは、操作部２３を操作し、タスクウィンドウ２１に表示されているアイコンを指定してタスクを選択するとともに、属性情報ウィンドウ２２に表示されている属性情報を選択する。この例では、ユーザがタスクとして「ピック＆プレイス」を選択しているため、属性情報ウィンドウ２２にはピック＆プレイスの対象物である「エビフライ」、「コロッケ」などが表示されている。ユーザがタスク及び属性情報を選択し、送信指示を行うと、インタフェース部３００は、ユーザが選択したタスク及び属性情報をクラウド装置１００へ送信する。

　ロボット制御部２２１は、ロボットに運動指示を与える。図４の例では、ロボットとして、ロボットアームを例示している。コントローラ２００の送受信部２２２は、インタフェース部３００でユーザが選択したタスク及び属性情報に紐づけられたタスク別プログラムを、クラウド装置１００のから通信ネットワークを介してダウンロードする。なお、基本的には、コントローラ２００は、必要なタスク別プログラムをその都度ダウンロードする形態をとる。但し、その代わりに、コントローラ２００は、クラウド装置１００のプログラム記憶部１２１に記憶されている全てのタスク別プログラムを予めコントローラ２００にインプリメント又はダウンロードしておき、インタフェース部３００からユーザが選択したタスク及び属性情報を取得し、対応するタスク別プログラムをアクティベートする形態を取っても良い。

　コントローラ２００において、ロボット制御部２２１は、タスク別プログラムが算出した運動指示を出力し、ロボット（本実施形態では、ロボットアーム）を最終的に動作させる。運動指示は、一般的に、ロボットアームの姿勢、アクチュエータ（モータなど）のトルクなどである。運動指示は、ロボットを動かすための信号と考えて良い。ロボット制御部２２１は、運動指示を、ロボットアームを形成するアクチュエータに直接出力しても良い。また、ロボットアームが独自のコントローラを持っている場合、ロボット制御部２２１は、タスク別プログラムが算出した運動指示を、独自のコントローラ用の出力に変換し、その独自のコントローラに出力しても良い。

　上述の仕組みで組み込まれたタスク別プログラムは、様々な環境に置かれたロボットで実行されることになる。この場合、ロボットが置かれた環境でプログラムを調整した方が良い。そのため、本実施形態では、ロボットが置かれた環境でタスク別プログラムを調整するタスク学習部２２３を備える。

　タスク学習部２２３により学習が行われたタスク別プログラムは、適宜、ロボット制御部２２１に送信され、アップデートされる。本実施形態におけるタスク学習部２２３の特徴は、ロボットが障害物にぶつかるのを回避しながら学習をする機能を備えていることである。一般的な学習アルゴリズムでは、ロボットは周りにある障害物（即ち、周囲の環境にあるオブジェクト）とぶつかりながら、適切な動作を学習していく。このため、ロボットが現場に投入されて作業を行っている環境下では再学習をすることは難しい。なぜなら、衝突により、ロボットが周囲にあるオブジェクト傷つけたり、オブジェクトが他のロボットアームである場合には他のロボットアームの作業を邪魔したりすることになるからである。ましてや、周りに人がいる環境であれば、ロボットが人を傷つけたり、人の作業を邪魔したりすることとなる。

　本実施形態では、この点を改良するため、障害物を回避しながら学習を遂行できるタスク学習部２２３を備える。これにより、ロボットが実際に動作する環境で、事前に調整しなくても、必要なタスク別プログラムをロボットにダウンロードするだけで、ロボットを活用できるという新たな仕組みが提供できる。

　具体的に、障害物を回避しながら学習する仕組みとして、タスク学習部２２３は以下のようなアルゴリズムを使用する。いま、干渉関数Ｂ（ｘ）として以下の関数を定義する。

　ここで、「制御対象機器」とは、制御されるロボットや無人機であり、図４の例ではロボットアームである。「ｘ」は、制御対象機器の状態ベクトルである。ロボットのアクチュエータへの入力ベクトルを「ｕ」とすると、障害物を避けて動くロボットの入力ベクトルは、以下の最適化計算によって求められる。

　ここで、「ｕ^＊」は最適な入力ベクトル、「Ｐ」はｕに関する評価関数を作成するための行列、ΔＢ（ｘ，ｕ）は単位ステップ当たりのＢ（ｘ）の変化、「γ」は係数である。タスク学習部２２３は、「ｕ^ＴＰｕ」で記述された評価関数（この場合、ｕの２次形式）を最小にする最適入力ベクトルｕ^＊を求め、ロボットに最適入力ベクトルｕ^＊を入力すれば、ロボットは障害物を回避して動作する。行列Ｐは様々に設定可能だが、タスクの達成度に関連するように設定されることが多い。

　上記アルゴリズムでは、ロボットの動きは行列Ｐ次第である。しかし行列Ｐそのものが最初から好適であるかどうかはわからない場合も多い。そこで、学習のメカニズムも導入する。

　学習するためには、学習のための報酬が必要であり、報酬は定義しなければならない。例えば、ロボットアームが「障害物とできるだけ距離を保ちながら、ロボットアームの手先をある地点Ａまで延ばす」というタスクを実行する場合、ロボットアームの手先がＡ地点に近づくほど、かつ、障害物との物理距離が大きいほど、高い報酬を定義すれば良い。なお、ここでは報酬の値が高い方が良いという報酬の与え方をしているが、当然、報酬の値が低い方が良いという報酬の与え方もある。

　図６は、タスク学習部２２３による学習のシーケンスを示す。まず、タスク学習部２２３は、タスクを実行する（ステップＳ１０）。次に、タスク学習部２２３は、タスクの実行による報酬を計算する（ステップＳ１１）。上記の例では、タスク学習部２２３は、ロボットアームの手先とＡ地点との距離、及び、ロボットアームの手先と障害物との距離に基づいて報酬を計算する。

　次に、タスク学習部２２３は、計算された報酬が予め決められた規定値以上であるか否かを判定する（ステップＳ１２）。報酬が規定値以上であれば（ステップＳ１２：Ｙｅｓ）、タスク学習部２２３は学習を終了する。一方、報酬が規定値以上でない場合（ステップＳ１２：Ｎｏ）、タスク学習部２２３は、行列Ｐをある更新則で更新することにより評価関数を更新し（ステップＳ１３）、ステップＳ１０へ戻ってステップＳ１０～Ｓ１２を繰り返す。このループを回すことにより、その環境にあったタスクを実行できる行列Ｐが学習され、ロボットは最適な動作でタスクを実行することができるようになる。

　行列Ｐの更新とは、行列Ｐを構成する要素（パラメータ）を何らかの更新則で更新するという意味である。更新則をうまく設計すると、学習時間が速くなる。但し、学習時間を気にしないのであれば、ランダムにパラメータを微小量ずつ動かすという手法でも良い。パラメータを更新し、報酬が改善されれば、更新されたパラメータを採用するということを繰り返せばよい。

　コントローラ２００は、タスク学習部２２３の学習により得られた行列Ｐをクラウド装置１００にアップロードし、クラウド装置１００は受信した行列Ｐをプログラム記憶部１２１に保存しても良い。その場合、行列Ｐは、ユーザ名とともにタスクの属性情報として記憶される。また、この情報を他のユーザが閲覧したり、ダウンロードしたりできるようにしてもよい。

　タスク生成部２２４は、ユーザが新たに定義したタスクを作成するために使用される。ユーザは、インタフェース部３００を通じてロボットの運動を規定する。これには、多くのロボットアームで採用されている姿勢のティーチングの手法を用いれば良い。複雑なタスクの場合、まず、タスク生成部２２４が基本動作を作成し、その後、タスク学習部２２３を起動して、ロボット自らが学習しても良い。そうすることで、最適なタスクを定義できる。ユーザは、新たに作成されたタスクに関するタスク別プログラムや属性情報を、クラウド装置１００にアップロードし、プログラム記憶部１２１に記憶して、他のユーザと共有することもできる。

　例えば、ユーザは、インタフェース部３００として機能する端末の音声入力受付部に対して音声を入力する。タスク生成部２２４は、入力された音声に対して自然言語処理を行い、タスクと属性情報を認識することで、タスク及び属性情報を作成することができる。インタフェース部３００に、ユーザの使用する自然言語を選択するためのタブも表示し、ユーザは所望の言語を選択したうえで音声を入力するようにしてもよい。

　また、例えば、ユーザは、図７に例示するように、インタフェース部３００の表示画面におけるタスク記入欄及び属性情報記入欄に、作成したいタスク及び属性情報を自然言語の文で記入し、指やタッチペンで入力完了ボタンを押下することで、タスクを作成することができる。使用する自然言語を選択するためのタブも表示し、ユーザは所望の言語を選択したうえで入力するようにしてもよい。

　以上述べたように、本実施形態では、タスク別にプログラムを分割する、及び、障害物を避けて自分と周りを破壊しないで学習するメカニズムを持つという特徴を持つことにより、ユーザは自身が必要とするタスクのみに使用料を払うだけで、ロボットを活用できるようになる。また、ユーザが改良したり、新規に作ったタスク別プログラムをクラウド装置１００にアップロードして他人と共有したりすることができるため、特定メーカーがプログラムを供給するスピードを凌駕するスピードでタスク別プログラムを生成することができる。こうして、ロボット活用のすそ野が大きく広がり、人材不足に悩む様々な業界で省人化ロボットが導入できるようになる。

　［第３実施形態］
　次に、本発明の第３実施形態について説明する。図８は、第３実施形態に係るロボット制御システム１Ｃの機能構成を示すブロック図である。図示のように、クラウド装置１００は、プログラム記憶部１２１と、送受信部１２２と、使用履歴蓄積部１２３と、料金算出部１２４と、を備える。なお、コントローラ２００の構成は第２実施形態と同様である。

　第３実施形態では、ユーザがクラウド装置１００からタスク別プログラムをダウンロードして使用した際に、クラウド装置１００が課金を行う機能を備える。使用履歴蓄積部１２３は、ユーザ毎に、タスク別プログラムの使用履歴を記録する。具体的に、使用履歴としては、プログラムのダウンロード回数、プログラムの使用時間などが考えられる。プログラムのダウンロード回数は、プログラム記憶部１２１から取得することができる。また、プログラムの使用時間は、コントローラ２００のロボット制御部２２１から通信により取得することができる。なお、図８の例では、使用履歴蓄積部１２３はクラウド装置１００上に実装されているが、ローカルサーバに実装されていても良い。

　料金算出部１２４は、使用履歴蓄積部１２３に蓄積された、ユーザ毎のプログラム使用履歴をもとに、ユーザ毎に請求する料金の計算を行う。料金の課金方法としては、ダウンロード回数やプログラム使用時間の量に比例した従量課金でも良いし、ダウンロード回数やプログラム使用時間が所定の範囲であれば定額にする定額料金でも良い。料金算出部１２４は、ある数式、ロジックを内部に保持し、ユーザ毎に請求すべき料金の計算を行う。計算された料金を示す情報は、インタフェース部３００に送信し、ユーザに表示することができる。

　また、ユーザがタスク生成部２２４の機能を利用して新たなタスク別プログラムを生成し、クラウド装置１００に提供した場合には、使用履歴蓄積部１２３にその履歴情報を記録し、料金算出部１２４はその履歴情報を考慮して料金を算出してもよい。例えば、料金算出部１２４は、新たなタスク別プログラムをアップロードしたユーザには、料金を割り引く、あるいは金銭的な報酬などのインセンティブを与えるなどしても良い。インセンティブとしては、例えば、金銭的報酬や割引券、無料券などが挙げられる。

　［変形例］
　上記の実施形態については、以下の変形例を適用することが可能である。
　（変形例１）
　図５に示すインタフェース部３００は一例であり、本発明の適用はこれには限られない。例えば、図５では、インタフェース部３００がタブレット端末で実装された例を示しているが、インタフェース部３００は、パーソナルコンピュータやスマートフォンなどで実装されていても良い。

　また、図５では、表示画面に表示された十字キーを操作部２３の一例として記載しているが、ユーザからの選択操作は十字キーによる操作に限定されない。例えば、ユーザは、画面に表示されたマウスポインタで選択操作を行うことができる。また、インタフェース部３００がタッチパネルを有する場合、ユーザは指やタッチペンで選択操作を行うことができる。

　（変形例２）
　図４などはロボットとしてロボットアームを例示しているが、ロボットは、ロボットアームだけでなく何でも良い。例えば、ロボットとしては、ビークル型の無人機（車や船のような無人機）やドローンなども使用できる。ビークル型のロボットの場合、タスクとしては、「○○を移動」というものが考えられる。ここで、「○○」には、舗装道路、でこぼこ道などの属性情報が入る。ロボットにとって、舗装道路とでこぼこ道を移動するのでは、運動指示が変わるからである。この場合、ロボット制御部の出力は、車輪のトルクでも良いし、車のスピード、加速度などでも良い。ロボット制御部は、それぞれのロボットのインタフェースに合わせた出力を行い、ロボットを動作させればよい。

　（変形例３）
　タスク学習部２２３は、すべてのタスクに関して使用できるため、図４に示すように、コントローラ２００に実装されていることが通常である。しかし、タスクの学習をクラウド装置側で行うことも可能であり、タスク学習部をクラウド装置に構築しても良い。その場合、クラウド装置に設けられたタスク学習部は、通信ネットワークを介してロボット制御部から学習用の情報を入手し、学習を行えばよい。

　［実施例］
　次に、本発明を適用した具体的な実施例を説明する。本実施例では、図８に示した第３実施形態によるロボット制御システムを構築し、食品工場のユーザ３社（Ａ社、Ｂ社、Ｃ社）への導入を行った。ユーザ３社のそれぞれがコントローラ２００とインタフェース部３００を所有し、共通の１つのクラウド装置１００を利用するものとする。

　サービスリリース時には、食品工場Ａ社は、エビフライのピッキングのみにロボットを使用することを希望した。食品工場Ｂ社とＣ社は、エビフライとコロッケのピッキングにロボットを使用することを希望した。したがって、ロボット制御システムとしては、ロボットアームによる「ピック＆プレイス」というタスクをクラウド装置１００に用意し、属性情報として「エビフライ」および「コロッケ」を用意した。タスク別プログラムとしては、「エビフライのピック＆プレイス」および「コロッケのピック＆プレイス」の２種類を用意した。

　ロボットアームは、各社１台を月額１０万円でリースした。また、タスク別プログラムを使用する料金プランとしては、月額５万円で５プログラムまで使用可能な定額料金と、１プログラム３万円／月という従量課金の２種類を用意した。Ａ社は従量課金を選択し、Ｂ社とＣ社は定額料金を選択した。

　各社とも、ロボットアームが設置された後、タスク別プログラムをダウンロードし、エビフライおよびコロッケのピッキング作業を実施した。図９にピック＆プレイスの作業場の概略図を示す。図９は、作業場を上側から見た平面図である。ロボットアーム３７は、オーブン３２で温められた具材３４、即ちエビフライまたはコロッケを、オーブン３２の横のテーブル３５上のホテルパン３６に並べていく。各社とも、作業場の概略は同じで、テーブル３５はほぼホテルパン３６と同じ大きさであり、ホテルパン３６のオーブン３２と反対側には壁３８があるため、ロボット制御部２２１は、ロボットアーム３７の壁３８との衝突に気をつけなければならない。但し、各社のホテルパン３６は大きさが異なる。Ａ社は６５４ｍｍ×５３０ｍｍのホテルパン３６を２つ並べており、Ｂ社は６５４ｍｍ×５３０ｍｍのホテルパン３６を１つ置いており、Ｃ社は３２７×２６５ｍｍのホテルパン３６を１つ置いている。

　クラウド装置１００からプログラムをダウンロードした後、各社とも、問題なくエビフライまたはコロッケの「ピック＆プレイス」作業を、壁にぶつかることなく、すぐに実施することができた。また、作業を開始直後のロボットアーム３７は障害物をさける姿勢は取るものの壁３８ぎりぎりまで近づくなど不安のある姿勢をとったが、徐々にオンライン学習を行い、数十回後の作業では、壁３８から適切な距離を保って作業を完了するようになった。学習の報酬としては、対象物を置くべき位置に近づき、壁から１００ｍｍ離れると高くなる報酬関数を設定した。

　Ｃ社はその後、唐揚げを「ピック＆プレイス」するタスクを、インタフェース部３００を操作してタスク生成部２２４を用いて作成した。Ｃ社はさらに、Ｃ社の環境で唐揚げの「ピック＆プレイス」作業を実行し、タスク学習部２２３を用いて最適なロボットアームの動作を実現した。そして、Ｃ社は、自身が作ったプログラムと学習情報をクラウド装置１００のプログラム記憶部１２１にアップロードした。

　Ａ社ではその後、唐揚げを「ピック＆プレイス」する必要が生じた。まず、Ａ社は契約を従量課金から定額制に変更した。その上で、Ａ社は、Ｃ社が作成してクラウド装置１００に提供した唐揚げの「ピック＆プレイス」のタスク別プログラムをダウンロードし、作業を追加した。Ａ社においても、Ｃ社が作成した、唐揚げの「ピック＆プレイス」のタスク別プログラムは良好に動作した。

　Ｃ社がアップロードした、唐揚げの「ピック＆プレイス」のタスク別プログラムが他社によりダウンロードされたことから、インセンティブとして、Ｃ社に５万円がキャッシュバックされた。

　以上のように、実施形態に係るロボット制御システムを使って、複数の企業が簡単にロボットを導入することが可能となった。通常、ロボットアームを導入すると調整システムインテグレーション込みで５００万円～１０００万円かかり、その期間も半年から１年かかると言われている。本システムでは、導入コストおよび時間が大幅に短縮された。また、本システムでは、システムの利用会社間でタスク別プログラムを共有できる仕組みとインセンティブがあるため、多くの他社に使用されるタスク別プログラムをアップロードすれば収益源としても利用できる。本システムに参加する会社が増えれば増えるほど、参加企業が享受できるメリットは増大する。

　なお、上記の実施例では、タスクとして「ピック＆プレイス」のみについて記述しているが、「食品を切る」など他のタスクでも汎用的に使用できる。また、上記の実施例では、食品工場を示したが、組立工場など他の業種でも汎用的に使用することができ、組立工場特有の「ネジ閉め」タスクなども扱える。なお、上記の実施例で示した、料金体系、インセンティブは一例であり、様々な料金体系、インセンティブが考えられる。例えば、料金体系としては、サービスの利用回数（例えば、プログラムのダウンロード回数やプログラムの使用時間）に応じて料金を請求する体系や、利用期間に応じた料金を支払う体系（サブスクリプション方式）などが考えられる。

　上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。

　（付記１）
　ロボットに実行させるタスクに応じた複数のプログラムを記憶する記憶部と、
　前記ロボットに実行させるタスクと、前記複数のプログラムのうち前記タスクを実行させるためのプログラムに関する属性情報と、のユーザによる選択を受け付ける受付部と、
　前記タスク及び前記属性情報に基づいて、前記記憶部から前記複数のプログラムのうち前記タスクを実行させるためのプログラムを取得する取得部と、
　取得したプログラムに基づいて前記ロボットを制御するロボット制御部と、
　を備えるロボット制御システム。

　（付記２）
　前記複数のプログラムは、前記タスクごとに用意されている付記１に記載のロボット制御システム。

　（付記３）
　前記ロボット制御部は、評価関数を用いて、前記ロボットに対する制御を決定する付記１又は２に記載のロボット制御システム。

　（付記４）
　ユーザ毎に、前記取得したプログラムの使用履歴を蓄積する使用履歴蓄積部と、
　前記使用履歴に基づき、前記ユーザ毎に前記取得したプログラムの使用料金を算出する料金算出部と、
　を備える付記１乃至３のいずれか一項に記載のロボット制御システム。

　（付記５）
　前記料金算出部は、料金算出に用いる量が所定の範囲以内の場合、予め定められた料金を算出する付記４に記載のロボット制御システム。

　（付記６）
　前記料金算出部は、利用期間に応じた定額料金を算出する付記４に記載のロボット制御システム。

　（付記７）
　前記取得したプログラムを実行することにより制御した前記ロボットの周囲の環境を学習し、前記取得したプログラムを更新する学習部を備える付記１乃至６のいずれか一項に記載のロボット制御システム。

　（付記８）
　前記学習部は、障害物にぶつかることを回避しながら前記ロボットを動作させることで前記タスクの実行レベルを向上させる付記７に記載のロボット制御システム。

　（付記９）
　前記記憶部は、前記学習部で学習したプログラムを記憶する付記７又は８に記載のロボット制御システム。

　（付記１０）
　前記記憶部は、前記ユーザが作成したタスクについてのプログラムを記憶する付記１乃至９のいずれか一項に記載のロボット制御システム

　（付記１１）
　前記料金算出部は、前記ユーザが作成したタスクについてのプログラムが前記記憶部に記憶されると、前記ユーザに請求する料金を減額するか、又は、前記ユーザにインセンティブを与える付記４乃至６のいずれか一項に記載のロボット制御システム。

　（付記１２）
　前記記憶手段がクラウド上に存在し、
　前記記憶部と前記ロボット制御部とは、通信可能に接続されている付記１記載のロボット制御システム。

　（付記１３）
　ロボットに実行させるタスクと、複数のプログラムのうち前記タスクを実行させるためのプログラムに関する属性情報と、のユーザによる選択を受け付け、
　前記タスク及び前記属性情報に基づいて、ロボットに実行させるタスクに応じた複数のプログラムを記憶する記憶部から、前記複数のプログラムのうち前記タスクを実行させるためのプログラムを取得し、
　取得したプログラムに基づいて前記ロボットを制御するロボット制御方法。

　（付記１４）
　ロボットに実行させるタスクと、複数のプログラムのうち前記タスクを実行させるためのプログラムに関する属性情報と、のユーザによる選択を受け付け、
　前記タスク及び前記属性情報に基づいて、ロボットに実行させるタスクに応じた複数のプログラムを記憶する記憶部から、前記複数のプログラムのうち前記タスクを実行させるためのプログラムを取得し、
　取得したプログラムに基づいて前記ロボットを制御する処理をコンピュータに実行させるプログラムを記録した記録媒体。

　（付記１５）
　ロボットに実行させるタスクに応じた複数のプログラムを記憶する記憶部と、
　ユーザにより選択された、前記ロボットに実行させるタスクと、前記複数のプログラムのうち前記タスクを実行させるためのプログラムに関する属性情報と、を受信する受信部と、
　前記タスク及び前記属性情報に基づいて、前記記憶部から、前記複数のプログラムのうち前記タスクを実行させるためのプログラムを取得する取得部と、
　取得したプログラムを送信する送信部と、
　を備えるクラウド装置。

　以上、実施形態及び実施例を参照して本発明を説明したが、本発明は上記実施形態及び実施例に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

　１、１Ａ、１Ｂ、１Ｃ　ロボット制御システム
　１００　クラウド装置
　１２１　プログラム記憶部
　１２２　送受信部
　１２３　使用履歴蓄積部
　１２４　料金算出部
　２００　コントローラ
　２２１　ロボット制御部
　２２２　送受信部
　２２３　タスク学習部
　２２４　タスク生成部
　３００　インタフェース部

Claims

　ロボットに実行させるタスクに応じた複数のプログラムを記憶する記憶部と、
　前記ロボットに実行させるタスクと、前記複数のプログラムのうち前記タスクを実行させるためのプログラムに関する属性情報と、のユーザによる選択を受け付ける受付部と、
　前記タスク及び前記属性情報に基づいて、前記記憶部から前記複数のプログラムのうち前記タスクを実行させるためのプログラムを取得する取得部と、
　取得したプログラムに基づいて前記ロボットを制御するロボット制御部と、
　を備えるロボット制御システム。
　前記複数のプログラムは、前記タスクごとに用意されている請求項１に記載のロボット制御システム。
　前記ロボット制御部は、評価関数を用いて、前記ロボットに対する制御を決定する請求項１又は２に記載のロボット制御システム。
　ユーザ毎に、前記取得したプログラムの使用履歴を蓄積する使用履歴蓄積部と、
　前記使用履歴に基づき、前記ユーザ毎に前記取得したプログラムの使用料金を算出する料金算出部と、
　を備える請求項１乃至３のいずれか一項に記載のロボット制御システム。
　前記料金算出部は、料金算出に用いる量が所定の範囲以内の場合、予め定められた料金を算出する請求項４に記載のロボット制御システム。
　前記料金算出部は、利用期間に応じた定額料金を算出する請求項４に記載のロボット制御システム。
　前記取得したプログラムを実行することにより制御した前記ロボットの周囲の環境を学習し、前記取得したプログラムを更新する学習部を備える請求項１乃至６のいずれか一項に記載のロボット制御システム。
　前記学習部は、障害物にぶつかることを回避しながら前記ロボットを動作させることで前記タスクの実行レベルを向上させる請求項７に記載のロボット制御システム。
　前記記憶部は、前記学習部で学習したプログラムを記憶する請求項７又は８に記載のロボット制御システム。
　前記記憶部は、前記ユーザが作成したタスクについてのプログラムを記憶する請求項１乃至９のいずれか一項に記載のロボット制御システム。
　前記料金算出部は、前記ユーザが作成したタスクについてのプログラムが前記記憶部に記憶されると、前記ユーザに請求する料金を減額するか、又は、前記ユーザにインセンティブを与える請求項４乃至６のいずれか一項に記載のロボット制御システム。
　ロボットに実行させるタスクと、複数のプログラムのうち前記タスクを実行させるためのプログラムに関する属性情報と、のユーザによる選択を受け付け、
　前記タスク及び前記属性情報に基づいて、ロボットに実行させるタスクに応じた複数のプログラムを記憶する記憶部から、前記複数のプログラムのうち前記タスクを実行させるためのプログラムを取得し、
　取得したプログラムに基づいて前記ロボットを制御するロボット制御方法。
　ロボットに実行させるタスクと、複数のプログラムのうち前記タスクを実行させるためのプログラムに関する属性情報と、のユーザによる選択を受け付け、
　前記タスク及び前記属性情報に基づいて、ロボットに実行させるタスクに応じた複数のプログラムを記憶する記憶部から、前記複数のプログラムのうち前記タスクを実行させるためのプログラムを取得し、
　取得したプログラムに基づいて前記ロボットを制御する処理をコンピュータに実行させるプログラムを記録した記録媒体。
　ロボットに実行させるタスクに応じた複数のプログラムを記憶する記憶部と、
　ユーザにより選択された、前記ロボットに実行させるタスクと、前記複数のプログラムのうち前記タスクを実行させるためのプログラムに関する属性情報と、を受信する受信部と、
　前記タスク及び前記属性情報に基づいて、前記記憶部から、前記複数のプログラムのうち前記タスクを実行させるためのプログラムを取得する取得部と、
　取得したプログラムを送信する送信部と、
　を備えるクラウド装置。