WO2023037443A1

WO2023037443A1 - ロボット制御装置、学習装置および推論装置

Info

Publication number: WO2023037443A1
Application number: PCT/JP2021/032995
Authority: WO
Inventors: 泰憲櫻本
Original assignee: 三菱電機株式会社
Priority date: 2021-09-08
Filing date: 2021-09-08
Publication date: 2023-03-16
Also published as: JP7098080B1; CN117377561A; JPWO2023037443A1; US20240123627A1

Abstract

ロボット制御装置（３０）は、人と作業領域を共有して動作するロボット（１０）を制御する。ロボット制御装置（３０）は、画像認識処理部（３３）と、ロボット制御処理部（３２）と、監視処理部（３６）と、を備える。画像認識処理部（３３）は、ビジョンセンサ（２０）から得られる監視領域における計測データを基に、監視領域に存在する人に関する情報である第１情報を認識する。ロボット制御処理部（３２）は、ロボット（１０）を動作させる動作プログラムに従ってロボット（１０）の動作を制御する。監視処理部（３６）は、周辺物体データと、画像認識処理部（３３）から得られる第１情報と、を基に、ロボット（１０）と周辺物体との間への人の挟み込みの可能性を判定する。周辺物体データは、監視領域におけるロボット（１０）およびロボット（１０）以外の物体である周辺物体の３次元的な配置状態を示すデータである。

Description

ロボット制御装置、学習装置および推論装置

　本開示は、人と作業空間を共有しつつ動作するロボットを制御するロボット制御装置、学習装置および推論装置に関する。

　産業用ロボット等の分野において、人である作業者とロボットとが安全柵で仕切られることなく作業空間を共有した人協調ロボットシステムの開発が進められている。人協調ロボットシステムでは、作業者がロボットの可動範囲に侵入し、両者が干渉してしまう可能性がある。そこで、作業者とロボットとの干渉を防止するための技術が提案されている。

　特許文献１には、カメラで撮像した画像情報から認識したロボットの近傍に存在する作業者とロボットとの距離を測定し、測定した距離が作業者に干渉する距離である場合に、ロボットが作業者のどの部位に、どのように干渉するかを推測し、その結果に基づいてロボットの動作を制限するロボットの制御方法が開示されている。

特開２００８－１３７１２７号公報

　しかしながら、上記従来の技術によれば、画像情報のみから作業者とロボットとの干渉を推測しているが、作業者およびロボットの周辺に配置されている物体である周辺物体については考慮されていない。すなわち、従来の技術では、ロボットと周辺物体との間への作業者の挟み込みの可能性が考慮されていないという問題があった。例えば、ロボットと周辺物体との間に作業者の体の一部が存在する状態で、作業者とロボットとの距離から作業者とロボットとの干渉の態様を推測した結果、ロボットの動作を低速にした場合に、周辺物体の存在を考慮していないために、ロボットと周辺物体との間に作業者の体の一部が挟まれてしまう可能性がある。

　本開示は、上記に鑑みてなされたものであって、ロボットと周辺物体との間への人の挟み込みの発生を抑制することができるロボット制御装置を得ることを目的とする。

　上述した課題を解決し、目的を達成するために、本開示は、人と作業領域を共有して動作するロボットを制御するロボット制御装置であって、画像認識処理部と、ロボット制御処理部と、監視処理部と、を備える。画像認識処理部は、ビジョンセンサから得られる監視領域における計測データを基に、監視領域に存在する人に関する情報である第１情報を認識する。ロボット制御処理部は、ロボットを動作させる動作プログラムに従ってロボットの動作を制御する。監視処理部は、周辺物体データと、画像認識処理部から得られる第１情報と、を基に、ロボットと周辺物体との間への人の挟み込みの可能性を判定する。周辺物体データは、監視領域におけるロボットおよびロボット以外の物体である周辺物体の３次元的な配置状態を示すデータである。

　本開示にかかるロボット制御装置は、ロボットと周辺物体との間への人の挟み込みの発生を抑制することができるという効果を奏する。

実施の形態１に係るロボット制御装置を含むロボットシステムの構成の一例を示すブロック図人体影響度情報の一例を示す図実施の形態１に係るロボット制御方法の手順の一例を示すフローチャート実施の形態１に係るロボット制御方法の手順の一例を示すフローチャート人とロボットと周辺物体との関係を示す図実施の形態２に係るロボット制御装置を含むロボットシステムの構成の一例を示すブロック図アクセス頻度マップの生成方法を説明するための図アクセス頻度マップの一例を示す図実施の形態２に係るロボット制御装置における学習装置の構成の一例を示すブロック図実施の形態２に係るロボット制御装置が有する学習装置の学習処理の手順の一例を示すフローチャート実施の形態２に係るロボット制御装置における推論装置の構成の一例を示すブロック図実施の形態２に係るロボット制御装置が有する推論装置の推論処理の手順の一例を示すフローチャート実施の形態１，２にかかるロボット制御装置のハードウェア構成の一例を示すブロック図

　以下に、本開示の実施の形態にかかるロボット制御装置、学習装置および推論装置を図面に基づいて詳細に説明する。

実施の形態１．
　図１は、実施の形態１に係るロボット制御装置を含むロボットシステムの構成の一例を示すブロック図である。ロボットシステム１は、ロボット１０と、ビジョンセンサ２０と、ロボット制御装置３０と、を備える。

　ロボット１０は、一例では、複数のアームと、各アームの結合点である各関節に設けられ、関節角度を制御する駆動部と、を有する。ロボット１０は、ロボット制御装置３０からの動作指令に応じて、様々な姿勢をとることが可能である。様々な姿勢をとることで、ロボット１０の固定位置を中心とした、予め定められた範囲の位置で動作が可能となる。駆動部の一例は、サーボモータもしくはステッピングモータに代表される電動モータ、または空気圧もしくは油圧を利用したシリンダである。

　ビジョンセンサ２０は、ロボット１０を含む予め定められた領域、すなわちロボットシステム１の監視領域を撮像する。ビジョンセンサ２０は、監視領域における物体の奥行きを含む距離画像と、人と人以外の周辺物とを区別するカラー画像と、を含む計測データを取得することができるセンサである。ビジョンセンサ２０の一例は、２次元カメラまたは３次元カメラである。２次元カメラでカラー情報を取得することができ、３次元カメラで位置情報を取得することができる。３次元カメラの撮像方式に、ステレオ方式、飛行時間（Time　of　Flight：ＴｏＦ）方式またはプロジェクタ方式を用いることができる。

　ロボットシステム１の監視領域には、ロボット１０の他にも周辺物体が配置されているものとする。周辺物体の一例は、テーブル、壁、棚、扉、加工機である。

　ロボット制御装置３０は、予め定められたロボット１０を動作させるプログラムである動作プログラムに従ってロボット１０の動作を制御する。ロボット制御装置３０は、ロボット１０の制御処理中に、ビジョンセンサ２０での撮像結果に基づいて、ロボット１０の周辺に人が存在する場合に、ロボット１０と人とが接触しないようにロボット１０の動作を制御する。ロボット制御装置３０は、動作プログラム記憶部３１と、ロボット制御処理部３２と、画像認識処理部３３と、人体影響度情報記憶部３４と、周辺物体データ記憶部３５と、監視処理部３６と、を備える。

　動作プログラム記憶部３１は、ロボット１０の動作を記述した動作プログラムを記憶する。

　ロボット制御処理部３２は、動作プログラム記憶部３１から動作プログラムをロードして実行し、実行結果に従ってロボット１０を制御する。また、ロボット制御処理部３２は、動作プログラムに従ってロボット１０を制御しているときに、監視処理部３６によってロボット１０の動作の制限の指令が出された場合に、指令に従ってロボット１０を制御する。

　画像認識処理部３３は、ビジョンセンサ２０から得られる監視領域における計測データを基に、監視領域に存在する人に関する情報である第１情報を認識する。計測データの一例は、距離画像またはカラー画像である。一例では、画像認識処理部３３は、計測データのうちのカラー画像を用いて、人が監視領域に存在するかを判定し、人が監視領域に存在する場合に、人体部位を認識する。人体部位は、頭、胴体、上腕、前腕、手、大腿、下腿、足等である。画像認識処理部３３は、人体部位を予め記憶したデータと計測データとを照らし合わせることで、人体部位を認識することができる。画像認識処理部３３は、人が監視領域に存在する場合に、計測データのうちの距離画像を用いて、認識された人の位置および姿勢、より具体的には人体部位についての位置および姿勢を含む情報である第１位置姿勢情報と、人の状態を含む情報である第１状態情報と、を認識する。第１位置姿勢情報は、ビジョンセンサ２０で計測された計測データで使用される座標系であるカメラ座標系における、人および人体部位の位置および姿勢を示す。第１状態情報は、人体部位がどのような動作をしているかを示す情報であり、一例では人体部位の移動方向および速度を含む情報である。停止している場合には、移動方向および速度は「０」となる。第１位置姿勢情報および第１状態情報は、第１情報に含まれる。また、画像認識処理部３３は、ロボット１０についても同様に、ロボットに関する情報である第２情報をさらに認識してもよい。第２情報は、ロボット１０の部位について、位置および姿勢を含む情報である第２位置姿勢情報と、状態を含む情報である第２状態情報である第２状態情報を含む。

　人体影響度情報記憶部３４は、ロボット１０と人とが接触した場合の人体への影響の度合を示す情報である人体影響度情報を記憶する。人体影響度情報は、人体部位毎にロボット１０と接触した場合の人体へ与える影響度が規定される。図２は、人体影響度情報の一例を示す図である。人体影響度情報は、一例では、人とロボット１０との接触の状態を入力データとし、人体へ与える影響度を出力データとする情報である。図２の例では、入力データは、人の接触部位、人の状態、ロボット１０の接触部位およびロボット１０の状態の項目を有する。なお、図２の入力データの項目は一例であり、これらに限られるものではない。出力データは、人体へ与える影響度の項目を有する。入力データを構成する各項目は、画像認識処理部３３による認識処理の結果と、監視処理部３６による特定処理の結果得られる情報である。人体へ与える影響度の一例は、人体へ与える衝撃の度合、人体の負傷または損傷の度合である。例えば、人体に損傷を与える場合には、人体へ与える影響度は「高い」とされ、人体に損傷を与えない場合には、人体へ与える影響度は「低い」とされる。図２の例では、人の接触部位が「頭」であり、人の状態が「移動中」であり、ロボット１０の接触部位が「全ての部位」であり、ロボット１０の状態が「移動速度＞０．０ｍ／ｓ」である場合には、人体へ与える影響度が「高い」となる。人体影響度情報は、一例では、ＩＳＯ／ＴＳ（International　Organization　for　Standardization/Technical　Specifications）　１５０６６：２０１６の表Ａ．２に示される「Biomechanical　limits」である。

　周辺物体データ記憶部３５は、監視領域に存在するロボット１０と、ロボット１０以外の物体である周辺物体と、についての３次元的な配置状態を含む情報である周辺物体データを記憶する。周辺物体データは、物体の形状および大きさを示す３次元ＣＡＤ（Computer-Aided　Design）データと、物体が設置されている位置および姿勢を示す位置姿勢データと、を含む。位置姿勢データは、一例では、ロボット１０の据付位置を基準にした位置および姿勢を示すデータである。周辺物体データは、監視領域におけるロボット１０を含む物体の配置状態を３次元で再現することが可能なデータある。周辺物体データは、周辺物体データで使用される座標系であるロボット座標系を用いて表現される。

　監視処理部３６は、画像認識処理部３３での認識結果を用いて、人とロボット１０との距離、接触の可能性の有無および接触時の影響度を考慮して、ロボット１０が人に影響を与える可能性がある場合に、ロボット１０の動作を制限する指令をロボット制御処理部３２に出力する。具体的な各処理を、以下に説明する。

　監視処理部３６は、画像認識処理部３３での認識結果に基づいて、人とロボット１０との間の距離である計測距離を計測する。監視処理部３６は、計測距離がロボット１０の動作によってロボット１０と人とが接触しない距離である非接触距離であるかを判定する。非接触距離は、ビジョンセンサ２０で撮像された時点からロボット１０を停止させるにはどの方向にどのくらいの距離が必要なのかを示すデータである動作停止データから取得される。これによって、監視処理部３６は、ロボット１０が停止するまでに惰走する距離も含めた人とロボット１０との間の計測距離を計測する。監視処理部３６は、計測距離が非接触距離である場合には、ロボット１０に対する制限を行わず、現状の運転を継続させる。監視処理部３６は、計測距離が非接触距離ではない場合には、ロボット１０の動作速度が遅くなるように変更する指令をロボット制御処理部３２に送信する。

　監視処理部３６は、計測距離が非接触距離ではない場合、すなわち人とロボット１０とが接触する可能性のある距離である場合には、ロボット１０が人と接触する動作であるかを判定する。一例では、監視処理部３６は、画像認識処理部３３での認識結果である人の第１情報と、ロボット１０の第２情報と、からロボット１０が人と接触するか否かを判定する。上記したように、第１情報は、人体部位の第１位置姿勢情報および第１状態情報を含み、第２情報は、ロボット１０の部位の第２位置姿勢情報および第２状態情報を含む。また、監視処理部３６は、ロボット１０が人と接触する場合には、人体部位の予測した動作と、ロボット１０の予測した動作と、から、ロボット１０と人体部位との接触部位および接触の状態を予測する。一例では、監視処理部３６は、接触する人体部位およびロボット１０の部位、並びに姿勢を含む接触時位置姿勢情報と、接触する人体部位およびロボット１０の状態である接触時状態情報と、を特定する。接触時位置姿勢情報は、一例では、ロボット１０と接触する人体部位および接触角度と、人と接触するロボット１０の部位および接触角度と、を含む。接触時状態情報は、接触時に人体およびロボット１０の部位の移動方向および速度を含む。接触時状態情報において、移動方向および速度がともに「０」である場合には、停止している場合を示している。

　ロボット１０が人と接触する動作を判定する際に、ロボット１０の部位の第２位置姿勢情報および第２状態情報は、画像認識処理部３３での認識結果ではなく、ロボット制御処理部３２で動作プログラムに従ってロボット１０を動作させたシミュレーションの結果を用いてもよい。監視処理部３６は、ロボット１０が人と接触しない場合には、ロボット１０の動作に対する制限が行われたままで動作を継続させる。

　監視処理部３６は、ロボット１０が人と接触する場合に、特定したロボット１０および人の接触する部位と状態とから、人体影響度情報記憶部３４の人体影響度情報を参照して、人体へ与える影響度を抽出する。すなわち、監視処理部３６は、接触時位置姿勢情報および接触時状態情報との組み合わせに対応する人体影響度情報を抽出する。そして、監視処理部３６は、取得した人体へ与える影響度に応じてロボット１０の動作の指令をロボット制御処理部３２に出力する。一例では、監視処理部３６は、人体へ与える影響度が高い場合には、ロボット１０の動作をさらに制限する指令をロボット制御処理部３２に送信する。ロボット１０の動作の制限の一例は、ロボット１０の停止、人から離れる方向へのロボット１０の動作等である。

　また、監視処理部３６は、ロボット１０と人との接触が人体へ与える影響度が高くないものである場合に、監視領域におけるロボット１０および周辺物体の３次元的な配置状態を示す周辺物体データと、画像認識処理部３３から得られる第１情報と、を基に、ロボット１０と周辺物体との間への人の挟み込みの可能性を判定し、ロボット１０の動作のさらなる制限または警告音の出力が必要であるか否かを判定する。ロボット１０と周辺物体との間への人の挟み込みの可能性については、監視処理部３６が、監視領域におけるロボット１０および周辺物体の位置、形状および大きさを含む周辺物体データ上に、第１情報に基づいて人の位置情報を追加し、第１情報に基づいて人とロボット１０との動作を予測することによって行われる。また、監視処理部３６は、第１情報だけでなく第２情報を含めて、ロボット１０と周辺物体との間への人の挟み込みの可能性を判定してもよい。この場合には、監視処理部３６は、第２位置姿勢情報および第２状態情報を含む第２情報から、ロボット１０の動作を予測する。

　具体的には、監視処理部３６は、画像認識処理部３３で認識したカメラ座標系の人の位置情報、すなわち人体の各部位の位置情報を、ロボット座標系の周辺物体データ上に追加し、人の動作およびロボット１０の動作をシミュレーションして、ロボット１０と周辺物体との間への人の挟み込みが発生するかを判定する。このとき、カメラ座標系とロボット座標系とのキャリブレーションが事前に実施される。これによって、カメラ座標系とロボット座標系との座標変換行列が算出される。この座標変換行列を用いることで、ビジョンセンサ２０で認識したカメラ座標系における人の位置を、ロボット座標系に変換することができる。また、周辺物体の位置および姿勢についても、ロボット１０を基準にした座標を用いて表される。したがって、監視処理部３６は、ロボット１０と周辺物体と人との位置関係をロボット座標系で把握することができ、この位置関係から人が挟み込まれてしまう位置にいるかどうかを判定する。人の動作のシミュレーションは、第１情報に基づいて行うことができる。また、ロボット１０の動作のシミュレーションは、動作プログラムを用いて、または第２情報に基づいて行うことができる。

　監視処理部３６は、人の挟み込みの可能性がない場合には、ロボット１０の動作に対する制限が行われたままで動作を継続させる。すなわち、監視処理部３６は、さらなる動作制限を行わない。また、監視処理部３６は、人の挟み込みの可能性がある場合には、ロボット１０の停止、人から離れる方向へのロボット１０の動作等のロボット１０の動作を制限する指令をロボット制御処理部３２に出力したり、警告音を出力したりする。

　次に、このような構成を有するロボットシステム１におけるロボット制御装置３０の動作について説明する。図３および図４は、実施の形態１に係るロボット制御方法の手順の一例を示すフローチャートである。なお、ここでは、監視領域内に人が存在することを前提とした処理について説明する。

　まず、ビジョンセンサ２０は、監視領域を撮像し、撮像したデータを計測データとしてロボット制御装置３０に送信する。ロボット制御装置３０の画像認識処理部３３は、受信した計測データから、監視領域に存在する人の人体部位の第１位置姿勢情報および第１状態情報を認識する（ステップＳ１１）。第１位置姿勢情報は、人体部位の位置と姿勢を含む情報であり、第１状態情報は、人体部位の状態を含む情報である。次いで、監視処理部３６は、画像認識処理部３３で認識された人体部位の第１位置姿勢情報および第１状態情報を用いて、認識された人とロボット１０との計測距離を計測する（ステップＳ１２）。

　その後、監視処理部３６は、計測距離が人とロボット１０とが接触しない非接触距離であるかを判定する（ステップＳ１３）。一例では、非接触距離は、ビジョンセンサ２０で撮像された状態から、ロボット１０が停止信号を受けて、ロボット１０が停止するまでに移動する距離である。計測距離が非接触距離よりも大きい場合には、ロボット１０は人と接触せず、計測距離が非接触距離よりも小さい場合には、ロボット１０は人と接触する可能性がある。

　計測距離が非接触距離よりも大きい場合（ステップＳ１３でＹｅｓの場合）には、ロボット１０が人と接触する可能性がないので、監視処理部３６は、ロボット１０の動作を制限せず、現在の動作プログラムでの動作を継続し、処理が終了する。

　また、計測距離が非接触距離よりも小さい場合（ステップＳ１３でＮｏの場合）には、監視処理部３６は、ロボット１０の動作速度を変更する指令をロボット制御処理部３２に出力する（ステップＳ１４）。ロボット制御処理部３２は、指令を受信すると、ロボット１０の動作速度を指令に従って変更する（ステップＳ１５）。具体的には、監視処理部３６は、ロボット１０の動作速度を減速させるために、ロボット制御処理部３２に減速指令を出力する。減速指令に含まれるロボット１０の動作速度は、ロボット１０が人と接触しても、接触した部位で人体にほとんど影響を与えない程度の動作速度であり、一例では、０．２５ｍ／ｓである。

　次いで、監視処理部３６は、画像認識処理部３３での認識結果を用いて、ロボット１０の動作が人と接触する可能性があるかを判定する（ステップＳ１６）。一例では、ステップＳ１１で画像認識処理部３３はロボット１０の部位の第２位置姿勢情報および第２状態情報を認識し、人体部位の第１位置姿勢情報および第１状態情報と、ロボット１０の部位の第２位置姿勢情報および第２状態情報と、を用いて人およびロボット１０の動作を予測し、ロボット１０と人との接触の可能性を判定する。あるいは他の例では、ロボット１０を動作プログラムに従って動作させるシミュレーションと、人体部位の第１位置姿勢情報および第１状態情報を用いた予測と、を合わせてロボット１０と人との接触の可能性を判定する。

　ロボット１０の動作が人と接触する可能性がないと判定された場合（ステップＳ１６でＮｏの場合）には、監視処理部３６は、ステップＳ１５で変更されたロボット１０の動作速度を維持した状態で、ロボット１０の動作を継続させ、処理が終了する。また、ロボット１０の動作が人と接触する可能性があると判定された場合（ステップＳ１６でＹｅｓの場合）には、監視処理部３６は、画像認識処理部３３での認識結果を用いてロボット１０および人体部位の接触時位置姿勢情報を特定する（ステップＳ１７）。また、監視処理部３６は、画像認識処理部３３での認識結果を用いてロボット１０および人体の接触時状態情報を取得する（ステップＳ１８）。人体の接触時状態情報の一例は、頭の向きと移動速度、肩の向きと移動速度等である。同様にロボット１０の接触時状態情報の一例は、アーム先端部の向きと移動速度等である。

　その後、監視処理部３６は、ロボット１０および人体の接触時位置姿勢情報と接触時状態情報とから、人体影響度情報を参照して人体へ与える影響度を取得する（ステップＳ１９）。具体的には、監視処理部３６は、ロボット１０および人体の接触時位置姿勢情報と接触時状態情報との組み合わせを入力データとし、人体影響度情報から入力データに対応する人体へ与える影響度である出力データを取得する。監視処理部３６は、人体へ与える影響度が予め定められた基準値よりも高いかを判定する（ステップＳ２０）。人体へ与える影響度が基準値よりも高い場合には、人体に対する損傷等の影響が大きく、人体へ与える影響度が基準値以下である場合には、人体に対する損傷等の影響が軽微である。人体へ与える影響度は、ロボット１０が接触する人体部位が急所であるか否か、およびロボット１０の動作速度、接触する可能性がある人体部位、位置、状態等の情報に関連付けられている。

　人体へ与える影響度が基準値以下の場合（ステップＳ２０のＮｏの場合）には、監視処理部３６は、画像認識処理部３３で認識された人の位置情報を、周辺物体データに追加し（ステップＳ２１）、周辺物体を含めた環境下でロボット１０および人の動作を予測する（ステップＳ２２）。監視処理部３６は、一例では、周辺物体データを用いて、ロボット１０と人との動作をシミュレーションする。このとき、ロボット１０並びに人体の接触時位置姿勢情報および接触時状態情報、動作プログラム等を使用することができる。

　監視処理部３６は、予測の結果、人とロボット１０と周辺物体との３つの関係性から、ロボット１０と周辺物体との間への人の挟み込みの可能性があるかを判定する（ステップＳ２３）。図５は、人とロボットと周辺物体との関係を示す図である。この図では、ロボット１０と周辺物体である作業台５１０との間の領域が挟み込み可能性領域Ｒ１となり、挟み込み可能性領域Ｒ１に人５００の手５０１が存在する場合を示している。このような場合には、ロボット１０と作業台５１０との間に人５００の手５０１が挟み込まれる可能性があると判定される。

　ロボット１０と周辺物体との間への人の挟み込みの可能性がある場合（ステップＳ２３でＹｅｓの場合）、またはステップＳ２０で人体へ与える影響度が基準値よりも高い場合（ステップＳ２０のＹｅｓの場合）には、監視処理部３６は、人とロボット１０とが接触しないようにロボット１０の動作を制限する指令を、ロボット制御処理部３２へ出力する（ステップＳ２４）。ロボット制御処理部３２は、指令を受けると、指令に基づいてロボット１０の動作を制限する（ステップＳ２５）。ロボット１０の動作の制限には、ロボット１０の動作の停止、さらなる減速、人から離れる方向へのロボット１０の動作等がある。なお、ステップＳ２４，Ｓ２５では、監視処理部３６は、ロボット１０の動作を制限する指令をロボット制御処理部３２へ出力し、ロボット制御処理部３２は、ロボット１０の動作を制限する場合を示したが、ステップＳ２４で、監視処理部３６が、警告音を出力してもよい。以上で、処理が終了する。

　ロボット１０と周辺物体との間への人の挟み込みの可能性がない場合（ステップＳ２３でＮｏの場合）には、人体への影響がそれほど重大ではないと認識し、ロボット１０の動作を現状のままとして、処理が終了する。

　実施の形態１のロボット制御装置３０によれば、画像認識処理部３３でビジョンセンサ２０からの測定データを用いて、監視領域に存在する人の人体部位の第１位置姿勢情報および第１状態情報を取得する。監視処理部３６は、ロボット１０と周辺物体とについての３次元的な配置状態、形状および大きさを含む周辺物体データに人の位置を加え、人およびロボット１０の動作を予測し、ロボット１０と周辺物体との間への人の挟み込みの可能性があるか判定する。ロボット１０と周辺物体との間への人の挟み込みの可能性がある場合には、ロボット１０と周辺物体との間に人が挟み込まれないように、ロボット１０の動作を制限する指令をロボット制御処理部３２に出力する。これによって、ロボット１０による人への接触の影響度が小さい場合でも、ロボット１０と周辺物体との間で、ロボット１０の動作の継続によって人が挟み込まれ、人体へ与える影響度を大きくしまう可能性を抑制することができる。また、ロボット１０の人への接触によって人に大きな被害を与えることがなくなるので、人と近い距離で使用することができ、汎用性の高いロボット１０を実現することができる。

実施の形態２．
　従来では、ロボット１０と周辺物体とが配置される領域に人が存在する場合に、ロボット１０が人と接触する可能性、およびロボット１０と周辺物体との間への人の挟み込みの可能性を低減しながら、目的位置までのロボット１０の動作経路をなるべく短くする技術については提案されていなかった。実施の形態２では、ロボット１０が人と接触する可能性、およびロボット１０と周辺物体との間への人の挟み込みの可能性を低減しながら、目的位置までのロボット１０の動作経路をなるべく短くすることができるロボット制御装置について説明する。

　図６は、実施の形態２に係るロボット制御装置を含むロボットシステムの構成の一例を示すブロック図である。なお、実施の形態１と同一の構成要素には同一の符号を付して、その説明を省略する。ロボット制御装置３０は、実施の形態１の構成に、人分析処理部３７と、アクセス頻度マップ記憶部３８と、学習装置３９と、学習済モデル記憶部４０と、推論装置４１と、をさらに備える。

　人分析処理部３７は、画像認識処理部３３での認識結果から、予め定められた期間における監視領域内での人のアクセス状況を示す情報であるアクセス頻度マップを生成する。図７は、アクセス頻度マップの生成方法を説明するための図である。図７には、ビジョンセンサ２０で撮像された監視領域の画像データ６００が示されている。ここでは、監視領域を上方から撮像した画像データ６００が示されている。監視領域の画像データ６００は、矩形状の複数の小領域６０１に分割されている。図７の画像データ６００では、略下半分がロボット１０および周辺物体５２０が配置される領域であり、略上半分が人５００が移動可能な領域６１０である。また、ロボット１０の位置を中心とした円状の領域がロボット１０の部位が動作することができる範囲であるロボット動作領域６２０である。

　初期状態では、各小領域６０１のアクセス頻度は０である。人分析処理部３７は、画像認識処理部３３で認識された人５００の位置がどの小領域６０１に属するかを判定し、人５００が属する小領域６０１のアクセス頻度に「１」を加算する。人分析処理部３７は、この処理を、予め定められた期間について行うことによってアクセス頻度マップを生成する。

　図８は、アクセス頻度マップの一例を示す図である。図８では、図７の監視領域の画像データ６００からアクセス頻度マップが生成されたものとする。図８に示されるように、上記の処理を行うことによって、各小領域６０１に人５００が属した頻度が表される。アクセス頻度マップを参照することで、監視領域において、どの位置に人５００が存在する可能性が高いかを知ることができる。

　アクセス頻度マップ記憶部３８は、人分析処理部３７で生成された監視領域におけるアクセス頻度マップを記憶する。アクセス頻度マップは、機械学習のために準備されるデータである。

　学習装置３９は、ロボット１０の動作経路と、人５００、ロボット１０および周辺物体５２０の状態と、に基づいて、ロボット１０の動作が減速または停止されることを抑制し、かつロボット１０の人５００への接触およびロボット１０と周辺物体５２０との間への人５００の挟み込みを抑制したロボット１０の動作経路を学習する学習済モデルを生成する。

　学習済モデル記憶部４０は、学習装置３９によって学習された学習済モデルを記憶する。

　推論装置４１は、学習済モデル記憶部４０に記憶されている学習済モデルに、ロボット１０の目的位置と、ロボット１０、人５００および周辺物体５２０の状態と、を入力することで、ロボット１０、人５００および周辺物体５２０の状態に適したロボット１０の動作経路を推論する。

　以下に、学習装置３９での学習と推論装置４１での推論について、詳しく説明する。

＜学習フェーズ＞
　図９は、実施の形態２に係るロボット制御装置における学習装置の構成の一例を示すブロック図である。学習装置３９は、データ取得部３９１と、モデル生成部３９２と、を備える。

　データ取得部３９１は、ロボット１０の動作経路と、人５００、ロボット１０および周辺物体の状態を示す状態データと、を学習用データとして取得する。状態データは、人５００の第１情報、ロボット１０の目的位置および第２情報、並びに周辺物体データを含む。ここでは、第１情報が、第１位置姿勢情報であり、第２情報が、第２位置姿勢情報である場合を説明する。ロボット１０の動作経路および目的位置は、動作プログラムをシミュレーションすることで得ることができる。ロボット１０の動作経路は、人５００、ロボット１０および周辺物体５２０の状態における、すなわち人５００の第１位置姿勢情報、ロボット１０の目的位置および第２位置姿勢情報、および周辺物体データの組み合わせにおける動作経路である。

　モデル生成部３９２は、ロボット１０の動作経路と、状態データと、を含む学習用データに基づいて、ロボット１０、人５００および周辺物体５２０の状態からロボット１０の動作が減速または停止されることを抑制し、かつロボット１０の人５００への接触およびロボット１０と周辺物体５２０との間への人５００の挟み込みを抑制したロボット１０の動作経路を学習する。すなわち、人５００、ロボット１０および周辺物体５２０の状態から人５００への接触および人５００の挟み込みの可能性を低減したロボット１０の動作経路を推論するための学習済モデルを生成する。

　モデル生成部３９２が用いる学習アルゴリズムは教師あり学習、教師なし学習、強化学習等の公知のアルゴリズムを用いることができる。一例として、強化学習（Reinforcement　Learning）を適用した場合について説明する。強化学習では、ある環境内における行動主体であるエージェントが、現在の状態である環境のパラメータを観測し、取るべき行動を決定する。エージェントの行動により環境が動的に変化し、エージェントには環境の変化に応じて報酬が与えられる。エージェントはこれを繰り返し、一連の行動を通じて報酬が最も多く得られる行動方針を学習する。強化学習の代表的な手法として、Ｑ学習（Q-learning）、ＴＤ学習（TD-learning）等が知られている。例えば、Ｑ学習の場合、行動価値関数Ｑ（ｓ，ａ）の一般的な更新式は次式（１）で表される。

　（１）式において、ｓ_tは時刻ｔにおける環境の状態を表し、ａ_tは時刻ｔにおける行動を表す。行動ａ_tにより、状態はｓ_t+1に変わる。ｒ_t+1はその状態の変化によってもらえる報酬を表し、γは割引率を表し、αは学習係数を表す。なお、γは０＜γ≦１の範囲とし、αは０＜α≦１の範囲とする。ロボット１０の動作経路が行動ａ_tとなり、人５００、ロボット１０および周辺物体５２０の状態が状態ｓ_tとなり、時刻ｔの状態ｓ_tにおける最良の行動ａ_tを学習する。

　（１）式で表される更新式は、時刻ｔ＋１における最もＱ値の高い行動ａの行動価値Ｑが、時刻ｔにおいて実行された行動ａの行動価値Ｑよりも大きければ、行動価値Ｑを大きくし、逆の場合には、行動価値Ｑを小さくする。換言すれば、時刻ｔにおける行動ａの行動価値Ｑを、時刻ｔ＋１における最良の行動価値Ｑに近づけるように、行動価値関数Ｑ（ｓ，ａ）を更新する。それにより、或る環境における最良の行動価値Ｑが、それ以前の環境における行動価値Ｑに順次伝播していくようになる。

　上記のように、強化学習によって学習済モデルを生成する場合、モデル生成部３９２は、報酬計算部３９３と、関数更新部３９４と、を備えている。

　報酬計算部３９３は、ロボット１０の動作経路と、人５００、ロボット１０および周辺物体５２０の状態と、に基づいて報酬を計算する。報酬計算部３９３は、ロボット１０の動作時間と、ロボット１０が人５００に接触した場合の人体へ与える影響度と、ロボット動作領域６２０内における人５００のアクセス頻度と、のうちの少なくとも１つの報酬基準に基づいて、報酬ｒを計算する。ロボット１０の動作時間は、一例では、ある位置Ａから目的位置である別の位置Ｂへと移動するまでにかかる時間である。ロボット１０の動作時間は短いほど、生産性が高くなるため、短い方が好ましい。動作時間を短くする方法として、ロボット１０の動作速度を上げる方法、ロボット１０の動作経路を短くする方法が考えられる。

　例えば、ロボット１０の動作時間が減少する場合、接触時の人体へ与える影響度が低い場合、あるいは人５００のアクセス頻度が低い場合には、報酬計算部３９３は報酬ｒを増大させる。一例では、報酬計算部３９３は、報酬の値である「１」を与えることによって報酬ｒを増大させる。なお、報酬の値は「１」に限られない。他方、ロボット１０の動作時間が増加する場合、接触時の人体へ与える影響度が高い場合、あるいは人５００のアクセス頻度が高い場合には、報酬計算部３９３は報酬ｒを低減させる。一例では、報酬計算部３９３は、報酬の値である「－１」を与えることによって報酬ｒを低減させる。なお、報酬の値は「－１」に限られない。

　また、報酬基準として、ロボット１０の動作時間と、ロボット１０が人５００に接触した場合の人体へ与える影響度と、ロボット動作領域６２０内における人５００のアクセス頻度と、を組み合わせることによって、効率的な学習が可能である。

　関数更新部３９４は、報酬計算部３９３によって計算される報酬に従って、ロボット１０の動作経路を決定するための関数を更新し、学習済モデル記憶部４０に出力する。例えばＱ学習の場合、（１）式で表される行動価値関数Ｑ（ｓ_t，ａ_t）がロボット１０の動作経路を算出するための関数として用いられる。以上のような学習を繰り返し実行する。

　学習済モデル記憶部４０は、関数更新部３９４によって更新された行動価値関数Ｑ（ｓ_t，ａ_t）、すなわち、学習済モデルを記憶する。

　次に、学習装置３９が学習する処理について説明する。図１０は、実施の形態２に係るロボット制御装置が有する学習装置の学習処理の手順の一例を示すフローチャートである。

　まず、データ取得部３９１は、ロボット１０の動作経路と、人５００、ロボット１０および周辺物体５２０の状態を示す状態データと、を学習用データとして取得する（ステップＳ５１）。状態データは、一例では、人５００の第１位置姿勢情報、ロボット１０の目的位置および第２位置姿勢情報、並びに周辺物体データを含む。

　ついで、モデル生成部３９２は、ロボット１０の動作経路と、人５００、ロボット１０および周辺物体５２０の状態を示す状態データと、に基づいて報酬を計算し、報酬を増大させるかを判定する（ステップＳ５２）。具体的には、報酬計算部３９３は、ロボット１０の動作経路と、人５００、ロボット１０および周辺物体５２０の状態と、を取得し、ロボット１０の動作時間、ロボット１０が人５００に接触した場合の人体へ与える影響度、およびロボット動作領域６２０内における人５００のアクセス頻度のうちの少なくとも１つである予め定められた報酬基準に基づいて報酬を増加させるかまたは報酬を減じるかを判定する。

　ステップＳ５２で報酬を増大させると判定した場合には、報酬計算部３９３は、報酬を増大させる（ステップＳ５３）。一方、ステップＳ５２で報酬を減少させると判定した場合には、報酬計算部３９３は、報酬を減少させる（ステップＳ５４）。

　ステップＳ５３またはＳ５４の後、関数更新部３９４は、報酬計算部３９３によって計算された報酬に基づいて、学習済モデル記憶部４０が記憶する（１）式で表される行動価値関数Ｑ（ｓ_t，ａ_t）を更新する（ステップＳ５５）。

　学習装置３９は、以上のステップＳ５１からＳ５５までの処理を繰り返し実行し、生成された行動価値関数Ｑ（ｓ_t，ａ_t）を学習済モデルとして学習済モデル記憶部４０に記憶する。

　実施の形態２に係る学習装置３９は、学習済モデルを学習装置３９の外部に設けられた学習済モデル記憶部４０に記憶するものとしたが、学習済モデル記憶部４０を学習装置３９の内部に備えていてもよい。

＜活用フェーズ＞
　図１１は、実施の形態２に係るロボット制御装置における推論装置の構成の一例を示すブロック図である。推論装置４１は、データ取得部４１１と、推論部４１２と、を備える。

　データ取得部４１１は、人５００、ロボット１０および周辺物体５２０の状態を示す状態データを取得する。状態データは、一例では、人５００の第１位置姿勢情報、ロボット１０の目的位置および第２位置姿勢情報、並びに周辺物体データを含む。

　推論部４１２は、学習済モデルを利用してロボット１０の動作経路を推論する。すなわち、この学習済モデルに、データ取得部４１１が取得した状態データ、すなわち人５００、ロボット１０および周辺物体５２０の状態を入力することで、ロボット１０の動作経路、より具体的には人５００、ロボット１０および周辺物体５２０の状態に適したロボット１０の動作経路を推論することができる。

　なお、ここでは、ロボット制御装置３０の学習装置３９のモデル生成部３９２で学習した学習済モデルを用いてロボット１０の動作経路を出力するものとして説明したが、他のロボットシステム１から学習済モデルを取得し、この学習済モデルに基づいてロボット１０の動作経路を出力するようにしてもよい。

　次に、推論装置４１がロボット１０の動作経路を得るための処理を説明する。図１２は、実施の形態２に係るロボット制御装置が有する推論装置の推論処理の手順の一例を示すフローチャートである。

　まず、データ取得部４１１は、人５００、ロボット１０および周辺物体５２０の状態を示す状態データを推論用データとして取得する（ステップＳ７１）。

　ついで、推論部４１２は、学習済モデル記憶部４０に記憶された学習済モデルに、推論用データである状態データ、すなわち人５００、ロボット１０および周辺物体５２０の状態を入力し（ステップＳ７２）、ロボット１０の動作経路を得る。その後、推論部４１２は、データである得られたロボット１０の動作経路をロボット制御処理部３２に出力する（ステップＳ７３）。

　そして、ロボット制御処理部３２は、出力されたロボット１０の動作経路を用いて、ロボット１０を制御する（ステップＳ７４）。これによって、ロボット１０の動作が減速または停止されることが抑制され、かつ人体へ与える影響度が低減され、人５００の人体へ与える影響度および人５００の挟み込みの抑制とロボット１０の稼働率の向上とを両立したロボット１０の制御が可能となり、汎用性の高いロボットシステム１を実現することができる。

　なお、実施の形態２では、推論部４１２が用いる学習アルゴリズムに強化学習を適用した場合について説明したが、これに限られるものではない。学習アルゴリズムについては、強化学習以外にも、教師あり学習、教師なし学習、または半教師あり学習等を適用することも可能である。

　また、モデル生成部３９２に用いられる学習アルゴリズムとしては、特徴量そのものの抽出を学習する、深層学習（Deep　Learning）を用いることもでき、他の公知の方法、例えばニューラルネットワーク、遺伝的プログラミング、機能論理プログラミング、サポートベクターマシンなどに従って機械学習を実行してもよい。

　なお、図６では、学習装置３９および推論装置４１は、ロボット制御装置３０に内蔵されている場合を示したが、学習装置３９および推論装置４１は、例えば、ネットワークを介してロボット制御装置３０に接続され、このロボット制御装置３０とは別個の装置であってもよい。また、学習装置３９および推論装置４１は、クラウドサーバ上に存在していてもよい。

　さらに、モデル生成部３９２は、複数のロボット制御装置３０から取得される学習用データを用いて、ロボット１０の動作経路を学習するようにしてもよい。なお、モデル生成部３９２は、同一のエリアで使用される複数のロボット制御装置３０から学習用データを取得してもよいし、異なるエリアで独立して動作する複数のロボット制御装置３０から収集される学習用データを利用してロボット１０の動作経路を学習してもよい。また、学習用データを収集するロボット制御装置３０を途中で対象に追加したり、対象から除去したりすることも可能である。さらに、あるロボット制御装置３０に関してロボット１０の動作経路を学習した学習装置３９を、これとは別のロボット制御装置３０に適用し、当該別のロボット制御装置３０に関してロボット１０の動作経路を再学習して更新するようにしてもよい。

　実施の形態２では、学習装置３９が、ロボット１０の動作経路と、状態データと、を含む学習用データに基づいて、人５００、ロボット１０および周辺物体５２０の状態からロボット１０の動作が減速または停止されることを抑制し、かつ人５００への接触および人５００の挟み込みを抑制したロボット１０の動作経路を学習する。これによって、人５００、ロボット１０および周辺物体５２０の状態からロボット１０の動作が減速または停止されてしまうことを抑制し、かつ人体へ与える影響度を低減したロボット１０の動作経路を学習することができるという効果を有する。

　また、実施の形態２では、推論装置４１が、学習済モデルを用いて、人５００、ロボット１０および周辺物体５２０の状態からロボット１０の動作が減速または停止されることを抑制し、かつ人体へ与える影響度を低減したロボット１０の動作経路を推論し、ロボット制御処理部３２に出力する。これによって、人体へ与える影響度の低減とロボット１０の可動率の向上とを両立した汎用性の高いロボットシステム１を実現することができる。

　ここで、図１および図６に示したロボット制御装置３０のハードウェア構成について説明する。図１３は、実施の形態１，２にかかるロボット制御装置３０のハードウェア構成の一例を示すブロック図である。

　ロボット制御装置３０は、演算装置３０１および記憶装置３０２を含むハードウェア構成によって実現することができる。演算装置３０１の例は、ＣＰＵ（Central　Processing　Unit、中央処理装置、処理装置、マイクロプロセッサ、マイクロコンピュータ、プロセッサ、ＤＳＰ（Digital　Signal　Processor）ともいう）またはシステムＬＳＩ（Large　Scale　Integration）である。記憶装置３０２の例は、ＲＡＭ（Random　Access　Memory）またはＲＯＭ（Read　Only　Memory）である。

　ロボット制御装置３０は、演算装置３０１が、記憶装置３０２で記憶されている、ロボット制御装置３０の動作を実行するためのプログラムを読み出して実行することで実現される。また、このプログラムは、ロボット制御装置３０の手順または方法、一例では、図３および図４に示されるロボット制御方法をコンピュータに実行させるものであるともいえる。

　記憶装置３０２は、動作プログラム、人体影響度情報、周辺物体データ、アクセス頻度マップおよび学習済モデルを記憶する。記憶装置３０２は、演算装置３０１が各種処理を実行する際の一時メモリにも使用される。

　演算装置３０１が実行するプログラムは、インストール可能な形式または実行可能な形式のファイルで、コンピュータが読み取り可能な記憶媒体に記憶されてコンピュータプログラムプロダクトとして提供されてもよい。また、演算装置３０１が実行するプログラムは、インターネットなどのネットワーク経由でロボット制御装置３０に提供されてもよい。

　また、ロボット制御装置３０は専用のハードウェアで実現してもよい。また、ロボット制御装置３０の機能について、一部を専用のハードウェアで実現し、一部をソフトウェアまたはファームウェアで実現するようにしてもよい。

　以上の実施の形態に示した構成は、一例を示すものであり、別の公知の技術と組み合わせることも可能であるし、実施の形態同士を組み合わせることも可能であるし、要旨を逸脱しない範囲で、構成の一部を省略、変更することも可能である。

　１　ロボットシステム、１０　ロボット、２０　ビジョンセンサ、３０　ロボット制御装置、３１　動作プログラム記憶部、３２　ロボット制御処理部、３３　画像認識処理部、３４　人体影響度情報記憶部、３５　周辺物体データ記憶部、３６　監視処理部、３７　人分析処理部、３８　アクセス頻度マップ記憶部、３９　学習装置、４０　学習済モデル記憶部、４１　推論装置、３９１，４１１　データ取得部、３９２　モデル生成部、３９３　報酬計算部、３９４　関数更新部、４１２　推論部、５００　人、５０１　手、５１０　作業台、５２０　周辺物体、６００　画像データ、６０１　小領域、６２０　ロボット動作領域。

Claims

　人と作業領域を共有して動作するロボットを制御するロボット制御装置であって、
　ビジョンセンサから得られる監視領域における計測データを基に、前記監視領域に存在する人に関する情報である第１情報を認識する画像認識処理部と、
　前記ロボットを動作させる動作プログラムに従って前記ロボットの動作を制御するロボット制御処理部と、
　前記監視領域における前記ロボットおよび前記ロボット以外の物体である周辺物体の３次元的な配置状態を示す周辺物体データと、前記画像認識処理部から得られる前記第１情報と、を基に、前記ロボットと前記周辺物体との間への前記人の挟み込みの可能性を判定する監視処理部と、
　を備えることを特徴とするロボット制御装置。
　前記監視処理部は、前記監視領域における前記ロボットおよび前記周辺物体の位置、形状および大きさを含む前記周辺物体データ上に、前記第１情報に基づいて前記人の位置情報を追加し、前記第１情報に基づいて前記人と前記ロボットとの動作を予測して、前記ロボットと前記周辺物体との間への前記人の挟み込みの可能性を判定することを特徴とする請求項１に記載のロボット制御装置。
　前記画像認識処理部は、前記ロボットに関する情報である第２情報をさらに認識し、
　前記監視処理部は、前記第１情報および前記第２情報に基づいて、前記ロボットと前記周辺物体との間への前記人の挟み込みの可能性を判定することを特徴とする請求項２に記載のロボット制御装置。
　前記第２情報は、前記ロボットの位置および姿勢を含む第２位置姿勢情報と、前記ロボットの移動方向および速度を含む第２状態情報と、を含み、
　前記監視処理部は、前記第２位置姿勢情報および前記第２状態情報から前記ロボットの動作を予測することを特徴とする請求項３に記載のロボット制御装置。
　前記監視処理部は、前記第１情報から前記人の動作を予測し、前記動作プログラムから前記ロボットの動作を予測し、前記ロボットと前記周辺物体との間への前記人の挟み込みの可能性を判定することを特徴とする請求項２に記載のロボット制御装置。
　前記第１情報は、前記人の位置および姿勢を含む第１位置姿勢情報と、前記人の移動方向および速度を含む第１状態情報と、を含み、
　前記監視処理部は、前記第１位置姿勢情報および前記第１状態情報から前記人の動作を予測することを特徴とする請求項３から５のいずれか１つに記載のロボット制御装置。
　前記第１位置姿勢情報は、人体部位の位置および姿勢を含み、
　前記第１状態情報は、前記人体部位の移動方向および速度を含み、
　前記ロボットの動作によって前記人に接触した場合の前記人体部位毎における人体へ与える影響度を示す人体影響度情報を記憶する人体影響度情報記憶部をさらに備え、
　前記監視処理部は、前記人体部位の予測した動作と、前記ロボットの予測した動作と、から、前記ロボットと前記人体部位との接触部位および接触の状態を予測し、前記予測した前記接触部位および前記接触の状態に対応する前記人体へ与える影響度を前記人体影響度情報から取得し、取得した前記人体へ与える影響度に応じて前記ロボットの動作の指令を前記ロボット制御処理部に出力することを特徴とする請求項６に記載のロボット制御装置。
　前記ロボットの動作を制限する指令は、前記ロボットの停止、減速、または前記人から離れる方向への前記ロボットの動作であることを特徴とする請求項１から７のいずれか１つに記載のロボット制御装置。
　前記監視処理部は、前記人の挟み込みの可能性がある場合に、前記ロボットの動作を制限する指令を前記ロボット制御処理部に出力する、あるいは警告音を出力することを特徴とする請求項１から８のいずれか１つに記載のロボット制御装置。
　前記人、前記ロボットおよび前記周辺物体の状態を示す状態データと、前記人、前記ロボットおよび前記周辺物体の状態における前記ロボットの動作経路と、を含む学習用データを取得するデータ取得部と、
　前記学習用データを用いて、前記状態データから前記ロボットの動作が減速または停止されることを抑制し、かつ前記人への接触および前記ロボットと前記周辺物体との間への前記人の挟み込みの可能性を低減した前記ロボットの動作経路を推論するための学習済モデルを生成するモデル生成部と、
　を有する学習装置をさらに備え、
　前記状態データは、前記第１情報、前記ロボットの目的位置、前記ロボットに関する情報である第２情報、および前記周辺物体データを含むことを特徴とする請求項１，２，５のいずれか１つに記載のロボット制御装置。
　前記人、前記ロボットおよび前記周辺物体の状態を示す状態データと、前記人、前記ロボットおよび前記周辺物体の状態における前記ロボットの動作経路と、を含む学習用データを取得するデータ取得部と、
　前記学習用データを用いて、前記状態データから前記ロボットの動作が減速または停止されることを抑制し、かつ前記人への接触および前記ロボットと前記周辺物体との間への前記人の挟み込みの可能性を低減した前記ロボットの動作経路を推論するための学習済モデルを生成するモデル生成部と、
　を有する学習装置をさらに備え、
　前記状態データは、前記第１情報、前記ロボットの目的位置、前記第２情報、および前記周辺物体データを含むことを特徴とする請求項３または４に記載のロボット制御装置。
　前記モデル生成部は、
　前記ロボットの動作時間、前記ロボットが前記人に接触した場合の人体へ与える影響度、および前記ロボットの動作領域内における前記人のアクセス頻度のうちの少なくとも１つの報酬基準に基づいて、報酬を計算する報酬計算部と、
　前記報酬計算部によって計算される報酬に従って、前記ロボットの動作経路を決定するための関数を更新する関数更新部と、
　を有することを特徴とする請求項１０または１１に記載のロボット制御装置。
　前記人、前記ロボットおよび前記周辺物体の状態を示す状態データを取得するデータ取得部と、
　前記人、前記ロボットおよび前記周辺物体の状態から前記ロボットの動作が減速または停止されることを抑制し、かつ前記人への接触および前記ロボットと前記周辺物体との間への前記人の挟み込みの可能性を低減した前記ロボットの動作経路を推論するための学習済モデルを用いて、前記データ取得部で取得した前記状態データから前記ロボットの動作経路を出力する推論部と、
　を有する推論装置をさらに備え、
　前記状態データは、前記第１情報、前記ロボットの目的位置、前記ロボットに関する情報である第２情報、および前記周辺物体データを含むことを特徴とする請求項１，２，５，１０のいずれか１つに記載のロボット制御装置。
　前記人、前記ロボットおよび前記周辺物体の状態を示す状態データを取得するデータ取得部と、
　前記人、前記ロボットおよび前記周辺物体の状態から前記ロボットの動作が減速または停止されることを抑制し、かつ前記人への接触および前記ロボットと前記周辺物体との間への前記人の挟み込みの可能性を低減した前記ロボットの動作経路を推論するための学習済モデルを用いて、前記データ取得部で取得した前記状態データから前記ロボットの動作経路を出力する推論部と、
　を有する推論装置をさらに備え、
　前記状態データは、前記第１情報、前記ロボットの目的位置、前記第２情報、および前記周辺物体データを含むことを特徴とする請求項３，４，１１のいずれか１つに記載のロボット制御装置。
　ロボット、前記ロボットを含む監視領域に存在する人および前記ロボット以外の物体である周辺物体の状態を示す状態データと、前記人、前記ロボットおよび前記周辺物体の状態における前記ロボットの動作経路と、を含む学習用データを取得するデータ取得部と、
　前記学習用データを用いて、前記状態データから前記ロボットの動作が減速または停止されることを抑制し、かつ前記人への接触および前記ロボットと前記周辺物体との間への前記人の挟み込みの可能性を低減した前記ロボットの動作経路を推論するための学習済モデルを生成するモデル生成部と、
　を備え、
　前記状態データは、前記人に関する情報である第１情報、前記ロボットの目的位置、前記ロボットに関する情報である第２情報、および前記監視領域における前記ロボットおよび前記ロボット以外の物体である周辺物体の３次元的な配置状態を示す周辺物体データを含むことを特徴とする学習装置。
　ロボット、前記ロボットを含む監視領域に存在する人および前記ロボット以外の物体である周辺物体の状態を示す状態データを取得するデータ取得部と、
　前記人、前記ロボットおよび前記周辺物体の状態から前記ロボットの動作が減速または停止されることを抑制し、かつ前記人への接触および前記ロボットと前記周辺物体との間への前記人の挟み込みの可能性を低減した前記ロボットの動作経路を推論するための学習済モデルを用いて、前記データ取得部で取得した前記状態データから前記ロボットの動作経路を出力する推論部と、
　を備え、
　前記状態データは、前記人に関する情報である第１情報、前記ロボットの目的位置、前記ロボットに関する情報である第２情報、および前記監視領域における前記ロボットおよび前記ロボット以外の物体である周辺物体の３次元的な配置状態を示す周辺物体データを含むことを特徴とする推論装置。