WO2021161374A1

WO2021161374A1 - 制御装置及び学習装置

Info

Publication number: WO2021161374A1
Application number: PCT/JP2020/005098
Authority: WO
Inventors: 沙織松永; 卓爾森本; 利貞毬山
Original assignee: 三菱電機株式会社
Priority date: 2020-02-10
Filing date: 2020-02-10
Publication date: 2021-08-19
Also published as: TW202132932A; US20220234195A1; JPWO2021161374A1; CN115039048A; JP6896179B1

Abstract

制御装置（１００）は、自律移動体（１）の移動速度（Ｖ１）を示す移動速度情報、自律移動体（１）に対する動的障害物（Ｏ）の相対位置（Ｐ）を示す相対位置情報及び自律移動体（１）に対する動的障害物（Ｏ）の相対速度（Ｖ２）を示す相対速度情報を含む推論用データ（Ｄ１）を取得するデータ取得部（２１）と、推論用データ（Ｄ１）又は推論用データ（Ｄ１）に対応する前処理済み推論用データ（Ｄ２）を用いて、自律移動体（１）の動きを動的障害物（Ｏ）の動きに応じて制御するための制御量（Ａ）を算出する制御量算出部（２３）と、制御量（Ａ）を用いて自律移動体（１）の動きを制御する制御部（２４）と、を備え、制御量算出部（２３）は、機械学習による学習済みモデル（Ｍ）を用いるものであり、学習済みモデル（Ｍ）は、推論用データ（Ｄ１）又は前処理済み推論用データ（Ｄ２）の入力を受け付けて制御量（Ａ）を出力するものである。

Description

制御装置及び学習装置

　本開示は、制御装置及び学習装置に関する。

　従来、自律移動体の動きを制御する技術が開発されている。より具体的には、動く障害物（以下「動的障害物」という。）の動きを予測することにより、動的障害物を回避するように自律移動体の動きを制御する技術が開発されている。特許文献１には、かかる技術が開示されている。

国際公開第２０１５／０６８１９３号

　従来技術は、センサ類により収集された情報を用いて、所定のルールに基づき動的障害物の動きを予測するものである。すなわち、従来技術は、いわゆる「ルールベース」により動的障害物の動きを予測するものである。このため、予測用のルールを設定することが求められる。

　従来技術においては、動的障害物の動きがルールの設定時に想定された動きと異なるものである場合、動的障害物の動きを正確に予測することが困難である。このため、例えば、動的障害物の動きが複雑であるとき、又は動的障害物の動きが多様であるとき、動的障害物の動きを正確に予測することが困難である。これにより、自律移動体の動きを動的障害物の動きに応じて正しく制御することが困難であるという問題があった。この結果、例えば、自律移動体による動的障害物に対する進路妨害が発生したり、又は自律移動体及び動的障害物による衝突が発生したりするという問題があった。

　本開示は、上記のような課題を解決するためになされたものであり、自律移動体の動きを動的障害物の動きに応じて正しく制御することを目的とする。

　本開示に係る制御装置は、自律移動体の移動速度を示す移動速度情報、自律移動体に対する動的障害物の相対位置を示す相対位置情報及び自律移動体に対する動的障害物の相対速度を示す相対速度情報を含む推論用データを取得するデータ取得部と、推論用データ又は推論用データに対応する前処理済み推論用データを用いて、自律移動体の動きを動的障害物の動きに応じて制御するための制御量を算出する制御量算出部と、制御量を用いて自律移動体の動きを制御する制御部と、を備え、制御量算出部は、機械学習による学習済みモデルを用いるものであり、学習済みモデルは、推論用データ又は前処理済み推論用データの入力を受け付けて制御量を出力するものである。

　本開示によれば、上記のように構成したので、自律移動体の動きを動的障害物の動きに応じて正しく制御することができる。

実施の形態１に係る制御装置の要部を示すブロック図である。実施の形態１に係る学習装置の要部を示すブロック図である。俯瞰画像の例を示す説明図である。ニューラルネットワークの例を示す説明図である。実施の形態１に係る制御装置の要部のハードウェア構成を示すブロック図である。実施の形態１に係る制御装置の要部の他のハードウェア構成を示すブロック図である。実施の形態１に係る制御装置の要部の他のハードウェア構成を示すブロック図である。実施の形態１に係る学習装置の要部のハードウェア構成を示すブロック図である。実施の形態１に係る学習装置の要部の他のハードウェア構成を示すブロック図である。実施の形態１に係る学習装置の要部の他のハードウェア構成を示すブロック図である。実施の形態１に係る制御装置の動作を示すフローチャートである。実施の形態１に係る学習装置の動作を示すフローチャートである。実施の形態１に係る他の制御装置の要部を示すブロック図である。実施の形態１に係る他の学習装置の要部を示すブロック図である。実施の形態１に係る他の学習装置の要部を示すブロック図である。実施の形態１に係る他の学習装置の要部を示すブロック図である。

　以下、この開示をより詳細に説明するために、この開示を実施するための形態について、添付の図面に従って説明する。

実施の形態１．
　図１は、実施の形態１に係る制御装置の要部を示すブロック図である。図２は、実施の形態１に係る学習装置の要部を示すブロック図である。図１を参照して、実施の形態１に係る制御装置について説明する。また、図２を参照して、実施の形態１に係る学習装置について説明する。

　図１に示す如く、制御装置１００は、データ取得部２１、データ前処理部２２、制御量算出部２３及び制御部２４を有している。

　データ取得部２１は、自律移動体１の移動速度Ｖ１を示す情報（以下「移動速度情報」という。）、自律移動体１に対する個々の動的障害物Ｏの相対位置Ｐを示す情報（以下「相対位置情報」という。）及び自律移動体１に対する個々の動的障害物Ｏの相対速度Ｖ２を示す情報（以下「相対速度情報」という。）を含むデータ（以下「推論用データ」という。）Ｄ１を取得するものである。

　より具体的には、推論用データＤ１は、連続する複数個の時刻Ｔに対応する複数個の移動速度Ｖ１を示す移動速度情報、連続する複数個の時刻Ｔに対応する複数個の相対位置Ｐを示す相対位置情報及び連続する複数個の時刻Ｔに対応する複数個の相対速度Ｖ２を示す相対速度情報を含むものである。すなわち、推論用データＤ１は、複数個の移動速度Ｖ１、複数個の相対位置Ｐ及び複数個の相対速度Ｖ２を時系列的に対応付けてなるものである。換言すれば、推論用データＤ１は、時系列データにより構成されている。

　推論用データＤ１は、情報源２を用いて取得されるものである。情報源２は、例えば、レーザレーダ、カメラ、ミリ波レーダ、ソナー、慣性センサ、ＧＰＳ（Ｇｌｏｂａｌ　Ｐｏｓｉｔｉｏｎｉｎｇ　Ｓｙｓｔｅｍ）受信機及び車輪速センサを含むものである。すなわち、情報源２は、自律移動体１に搭載されているものであっても良い。

　自律移動体１は、例えば、工場内を走行する無人搬送車である。これに対して、個々の動的障害物Ｏは、例えば、同一の工場内を走行する作業用の有人移動体又は同一の工場内を移動する作業者である。作業用の有人移動体は、例えば、フォークリフトである。以下、自律移動体１が無人搬送車であり、かつ、個々の動的障害物Ｏが作業用の有人移動体又は作業者である場合の例を中心に説明する。

　データ前処理部２２は、推論用データＤ１に対する前処理を実行することにより、前処理済みのデータ（以下「前処理済み推論用データ」という。）Ｄ２を生成するものである。前処理済み推論用データＤ２は、自律移動体１を含む領域Ｒの俯瞰画像Ｉ１を示す画像データＤ３を含むものである。

　より具体的には、画像データＤ３は、連続する複数個の時刻Ｔに対応する複数個の俯瞰画像Ｉ１を示すものである。すなわち、画像データＤ３は、時系列データにより構成されている。これにより、画像データＤ３は、個々の動的障害物Ｏについて、相対位置Ｐの時間変化を示すとともに、相対速度Ｖ２の時間変化を示すものである。換言すれば、画像データＤ３は、個々の動的障害物Ｏの動きを示すものである。

　ここで、俯瞰画像Ｉ１の生成方法について説明する。

　まず、データ前処理部２２は、推論用データＤ１を用いて、以下のような画像Ｉ２を生成する。すなわち、データ前処理部２２は、自律移動体１の位置を中心とする画像Ｉ２であって、自律移動体１が移動する平面を真上から見下ろしてなるアングルによる画像Ｉ２を生成する。

　画像Ｉ２において、自律移動体１は、抽象的なイラストｉ１により表現されるものであっても良い。画像Ｉ２において、個々の動的障害物Ｏは、抽象的なイラストｉ２により表現されるものであっても良い。画像Ｉ２における個々の画素は、色値を有するものであっても良く、輝度値を有するものであっても良く、又は色値及び輝度値を有するものであっても良い。すなわち、画像Ｉ２は、カラー画像であっても良く、又はモノクロ画像であっても良い。

　次いで、データ前処理部２２は、画像Ｉ２のうちの領域Ｒに対応する部分を切り抜くことにより、俯瞰画像Ｉ１を生成する。このとき、切り抜かれる範囲は、移動速度Ｖ１及び相対速度Ｖ２に応じて設定される。すなわち、領域Ｒのサイズは、移動速度Ｖ１及び相対速度Ｖ２に応じて設定される。

　図３は、このようにして生成された俯瞰画像Ｉ１の例を示している。図３に示す例においては、自律移動体１が四角形状のイラストｉ１により表現されている。また、１個の動的障害物Ｏが円形状のイラストｉ２により表現されている。

　このようにして生成された画像データＤ３を用いることにより、自律移動体１の周囲に複数個の動的障害物Ｏが存在する場合であっても、個々の動的障害物Ｏの相対位置Ｐ及び個々の動的障害物Ｏの相対速度Ｖ２を簡潔に表現することができる。

　制御量算出部２３は、前処理済み推論用データＤ２を用いて、自律移動体１の動きを動的障害物Ｏの動きに応じて制御するための制御量Αを算出するものである。より具体的には、制御量算出部２３は、自律移動体１による動的障害物Ｏに対する進路妨害の発生を回避するための制御量Α、又は自律移動体１及び動的障害物Ｏによる衝突の発生を回避するための制御量Αを算出するものである。これにより、自律移動体１による動的障害物Ｏに対する作業妨害の発生を回避するための制御量Αが算出される。

　ここで、制御量算出部２３は、機械学習による学習済みモデルＭを用いるものである。学習済みモデルＭは、記憶装置３の学習済みモデル記憶部１１に記憶されている。記憶装置３は、メモリにより構成されている。学習済みモデルＭは、前処理済み推論用データＤ２の入力を受け付けて、上記のような制御量Αを出力するものである。

　学習済みモデルＭは、例えば、ニューラルネットワークＮにより構成されている。図４は、ニューラルネットワークＮの例を示している。

　図４に示す如く、ニューラルネットワークＮは、入力層Ｘ、中間層（いわゆる「隠れ層」）Ｙ及び出力層Ｚを有している。入力層Ｘは、複数個のノードｘ＿１～ｘ＿３を有している。中間層Ｙは、複数個のノードｙ＿１，ｙ＿２を有している。出力層Ｚは、複数個のノードｚ＿１～ｚ＿３を有している。入力層Ｘと中間層Ｙ間のリンクＬ＿１は、重みＷ＿１に対応している。より具体的には、複数本のリンクＬ＿１＿１～Ｌ＿１＿６が複数個の重みＷ＿１＿１～Ｗ＿１＿６にそれぞれ対応している。中間層Ｙと出力層Ｚ間のリンクＬ＿２は、重みＷ＿２に対応している。より具体的には、複数本のリンクＬ＿２＿１～Ｌ＿２＿６が複数個の重みＷ＿２＿１～Ｗ＿２＿６にそれぞれ対応している。

　個々のノードｘ，ｙ，ｚは、入力された値を足し合わせる演算に対応している。また、個々のリンクＬは、対応する重みＷを掛け合わせる演算に対応している。したがって、入力層Ｘに入力される値と出力層Ｚにより出力される値との対応関係は、個々の重みＷに応じて異なるものとなる。なお、ニューラルネットワークＮは、複数個の中間層Ｙを有するものであっても良い。

　制御部２４は、制御量算出部２３により算出された制御量Α（すなわち学習済みモデルＭにより出力された制御量Α）を用いて、自律移動体１の動きを制御するものである。これにより、自律移動体１の動きが動的障害物Ｏの動きに応じて制御される。

　具体的には、例えば、制御部２４は、制御量Αに基づき自律移動体１におけるステアリングを操作する制御を実行する。または、例えば、制御部２４は、制御量Αに基づき自律移動体１におけるブレーキを操作する制御を実行する。これにより、自律移動体１による動的障害物Ｏに対する進路妨害の発生を回避するように、又は自律移動体１及び動的障害物Ｏによる衝突の発生を回避するように自律移動体１の動きが制御される。この結果、自律移動体１による動的障害物Ｏに対する作業妨害の発生を回避するように自律移動体１の動きが制御される。

　なお、制御装置１００は、自律移動体１に搭載されているものであっても良い。または、制御装置１００は、自律移動体１外に設けられており、かつ、自律移動体１と通信自在なものであっても良い。すなわち、制御装置１００は、例えば、自律移動体１と通信自在なサーバにより構成されているものであっても良い。かかるサーバは、クラウドサーバを用いたものであっても良い。記憶装置３についても同様である。

　図２に示す如く、学習装置２００は、データ取得部３１、データ前処理部３２、データ選別部３３及びモデル生成部３４を有している。データ取得部３１は、第１データ取得部４１及び第２データ取得部４２を有している。モデル生成部３４は、学習用モデルＭ’及び学習器４３を有している。

　第１データ取得部４１は、自律移動体１の移動速度Ｖ１’を示す情報（すなわち移動速度情報）、自律移動体１に対する個々の動的障害物Ｏ’の相対位置Ｐ’を示す情報（すなわち相対位置情報）及び自律移動体１に対する個々の動的障害物Ｏ’の相対速度Ｖ２’を示す情報（すなわち相対速度情報）を含むデータ（以下「第１学習用データ」という。）Ｄ１１を取得するものである。

　より具体的には、第１学習用データＤ１１は、連続する複数個の時刻Ｔ’に対応する複数個の移動速度Ｖ１’を示す移動速度情報、連続する複数個の時刻Ｔ’に対応する複数個の相対位置Ｐ’を示す相対位置情報及び連続する複数個の時刻Ｔ’に対応する複数個の相対速度Ｖ２’を示す相対速度情報を含むものである。すなわち、第１学習用データＤ１１は、複数個の移動速度Ｖ１’、複数個の相対位置Ｐ’及び複数個の相対速度Ｖ２’を時系列的に対応付けてなるものである。換言すれば、第１学習用データＤ１１は、時系列データにより構成されている。

　第２データ取得部４２は、第１学習用データＤ１１に対応する状態における制御量Α’の正解値を含むデータ（以下「第２学習用データ」という。）Ｄ１２を取得するものである。より具体的には、第２学習用データＤ１２は、自律移動体１の動きを動的障害物Ｏ’の動きに応じて制御するための制御量Α’の正解値を含むものである。すなわち、第２学習用データＤ１２は、自律移動体１による動的障害物Ｏ’に対する進路妨害の発生を回避するための制御量Α’の正解値、又は自律移動体１及び動的障害物Ｏ’による衝突の発生を回避するための制御量Α’の正解値を含むものである。換言すれば、第２学習用データＤ１２は、自律移動体１による動的障害物Ｏ’に対する作業妨害の発生を回避するための制御量Α’の正解値を含むものである。

　第１学習用データＤ１１は、例えば、自律移動体１の実機を用いて収集されたものである。または、第１学習用データＤ１１は、例えば、専用のシミュレータを用いて収集されたものである。これに対して、第２学習用データＤ１２は、例えば、人により入力されたものである。

　データ前処理部３２は、第１学習用データＤ１１に対する前処理を実行することにより、前処理済みのデータ（以下「前処理済み学習用データ」という。）Ｄ１３を生成するものである。前処理済み学習用データＤ１３は、自律移動体１を含む領域Ｒの俯瞰画像Ｉ１１を示す画像データＤ１４を含むものである。

　より具体的には、画像データＤ１４は、連続する複数個の時刻Ｔ’に対応する複数個の俯瞰画像Ｉ１１を示すものである。すなわち、画像データＤ１４は、時系列データにより構成されている。これにより、画像データＤ１４は、個々の動的障害物Ｏ’について、相対位置Ｐ’の時間変化を示すとともに、相対速度Ｖ２’の時間変化を示すものである。換言すれば、画像データＤ１４は、個々の動的障害物Ｏ’の動きを示すものである。

　データ前処理部３２による俯瞰画像Ｉ１１の生成方法は、データ前処理部２２による俯瞰画像Ｉ１の生成方法と同様である。このため、詳細な説明は省略する。

　データ選別部３３は、前処理済み学習用データＤ１３のうちの不要なデータ（以下「不要データ」という。）Ｄ１５を選別するものである。ここで、不要データＤ１５は、自律移動体１による動的障害物Ｏ’に対する作業妨害が発生し得ない状態（以下「非発生状態」という。）に対応するデータを含むものである。具体的には、例えば、不要データＤ１５は、動的障害物Ｏ’を１個も含まない俯瞰画像Ｉ１１を示す画像データＤ１４を含むものである。

　データ選別部３３は、前処理済み学習用データＤ１３のうちの不要データＤ１５を除くデータ（以下「選別済み学習用データ」ということがある。）Ｄ１６を出力する。当該出力された選別済み学習用データＤ１６は、記憶装置４の学習用データ記憶部１２に記憶される。記憶装置４は、メモリにより構成されている。

　学習用モデルＭ’は、選別済み学習用データＤ１６の入力を受け付けるものである。学習用モデルＭ’は、かかる入力に対して、制御量Α’を出力するものである。学習用モデルＭ’は、例えば、ニューラルネットワークＮにより構成されている。

　ここで、学習用モデルＭ’は、機械学習により学習自在なものである。より具体的には、学習用モデルＭ’は、いわゆる「模倣学習」により学習自在なものである。学習器４３は、第２学習用データＤ１２及び制御量Α’を用いて、学習用モデルＭ’の学習をするものである。

　すなわち、学習器４３は、学習用モデルＭ’により出力された制御量Α’を第２学習用データＤ１２が示す正解値と比較する。学習器４３は、かかる比較の結果に応じて、学習用モデルＭ’における複数個のパラメータのうちの１個以上のパラメータを選択して、当該選択されたパラメータの値を更新する。学習用モデルＭ’における個々のパラメータは、例えば、ニューラルネットワークＮにおける重みＷに対応するものである。

　このとき、学習器４３は、学習用モデルＭ’により出力される制御量Α’が正解値に次第に近づくようにパラメータの値を更新する。かかる学習により、上記のような学習済みモデルＭが生成される。すなわち、推論用データＤ１の入力を受け付けて、自律移動体１による動的障害物Ｏに対する作業妨害の発生を回避するための制御量Αを出力するような学習済みモデルＭが生成される。学習器４３は、当該生成された学習済みモデルＭを出力する。当該出力された学習済みモデルＭは、記憶装置３の学習済みモデル記憶部１１に記憶される。

　なお、学習装置２００は、自律移動体１に搭載されているものであっても良い。または、学習装置２００は、自律移動体１外に設けられており、かつ、自律移動体１と通信自在なものであっても良い。すなわち、学習装置２００は、例えば、自律移動体１と通信自在なサーバにより構成されているものであっても良い。かかるサーバは、クラウドサーバを用いたものであっても良い。記憶装置４についても同様である。

　以下、データ取得部２１の機能に「Ｆ１」の符号を用いることがある。また、データ前処理部２２の機能に「Ｆ２」の符号を用いることがある。また、制御量算出部２３の機能に「Ｆ３」の符号を用いることがある。また、制御部２４の機能に「Ｆ４」の符号を用いることがある。

　以下、データ取得部３１の機能に「Ｆ１１」の符号を用いることがある。また、データ前処理部３２の機能に「Ｆ１２」の符号を用いることがある。また、データ選別部３３の機能に「Ｆ１３」の符号を用いることがある。また、モデル生成部３４の機能に「Ｆ１４」の符号を用いることがある。

　以下、データ取得部２１により実行される処理を総称して「データ取得処理」ということがある。また、データ前処理部２２により実行される処理を総称して「データ前処理」ということがある。また、制御量算出部２３により実行される処理を総称して「制御量算出処理」ということがある。また、制御部２４により実行される処理及び制御を総称して「移動体制御」ということがある。

　以下、データ取得部３１により実行される処理を総称して「データ取得処理」ということがある。また、データ前処理部３２により実行される処理を総称して「データ前処理」ということがある。また、データ選別部３３により実行される処理を総称して「データ選別処理」ということがある。また、モデル生成部３４により実行される処理を総称して「モデル生成処理」ということがある。

　次に、図５～図７を参照して、制御装置１００の要部のハードウェア構成について説明する。

　図５に示す如く、制御装置１００は、プロセッサ５１及びメモリ５２を有している。メモリ５２には、複数個の機能Ｆ１～Ｆ４に対応するプログラムが記憶されている。プロセッサ５１は、メモリ５２に記憶されているプログラムを読み出して実行する。これにより、複数個の機能Ｆ１～Ｆ４が実現される。

　または、図６に示す如く、制御装置１００は、処理回路５３を有している。処理回路５３は、複数個の機能Ｆ１～Ｆ４に対応する処理を実行する。これにより、複数個の機能Ｆ１～Ｆ４が実現される。

　または、図７に示す如く、制御装置１００は、プロセッサ５１、メモリ５２及び処理回路５３を有している。メモリ５２には、複数個の機能Ｆ１～Ｆ４のうちの一部の機能に対応するプログラムが記憶されている。プロセッサ５１は、メモリ５２に記憶されているプログラムを読み出して実行する。これにより、かかる一部の機能が実現される。また、処理回路５３は、複数個の機能Ｆ１～Ｆ４のうちの残余の機能に対応する処理を実行する。これにより、かかる残余の機能が実現される。

　プロセッサ５１は、１個以上のプロセッサにより構成されている。個々のプロセッサは、例えば、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、マイクロプロセッサ、マイクロコントローラ又はＤＳＰ（Ｄｉｇｉｔａｌ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｏｒ）を用いたものである。

　メモリ５２は、１個以上の不揮発性メモリにより構成されている。または、メモリ５２は、１個以上の不揮発性メモリ及び１個以上の揮発性メモリにより構成されている。すなわち、メモリ５２は、１個以上のメモリにより構成されている。個々のメモリは、例えば、半導体メモリ、磁気ディスク、光ディスク、光磁気ディスク、磁気テープ又は磁気ドラムを用いたものである。より具体的には、個々の揮発性メモリは、例えば、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）を用いたものである。また、個々の不揮発性メモリは、例えば、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、フラッシュメモリ、ＥＰＲＯＭ（Ｅｒａｓａｂｌｅ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ＥＥＰＲＯＭ（Ｅｌｅｃｔｒｉｃａｌｌｙ　Ｅｒａｓａｂｌｅ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ソリッドステートドライブ、ハードディスクドライブ、フレキシブルディスク、コンパクトディスク、ＤＶＤ（Ｄｉｇｉｔａｌ　Ｖｅｒｓａｔｉｌｅ　Ｄｉｓｃ）、ブルーレイディスク又はミニディスクを用いたものである。

　処理回路５３は、１個以上のデジタル回路により構成されている。または、処理回路５３は、１個以上のデジタル回路及び１個以上のアナログ回路により構成されている。すなわち、処理回路５３は、１個以上の処理回路により構成されている。個々の処理回路は、例えば、ＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎ　Ｓｐｅｃｉｆｉｃ　Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）、ＰＬＤ（Ｐｒｏｇｒａｍｍａｂｌｅ　Ｌｏｇｉｃ　Ｄｅｖｉｃｅ）、ＦＰＧＡ（Ｆｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）、ＳｏＣ（Ｓｙｓｔｅｍ　ｏｎ　ａ　Ｃｈｉｐ）又はシステムＬＳＩ（Ｌａｒｇｅ　Ｓｃａｌｅ　Ｉｎｔｅｇｒａｔｉｏｎ）を用いたものである。

　ここで、プロセッサ５１が複数個のプロセッサにより構成されているとき、複数個の機能Ｆ１～Ｆ４と複数個のプロセッサとの対応関係は任意である。すなわち、複数個のプロセッサの各々は、複数個の機能Ｆ１～Ｆ４のうちの対応する１個以上の機能に対応するプログラムを読み出して実行するものであっても良い。

　また、メモリ５２が複数個のメモリにより構成されているとき、複数個の機能Ｆ１～Ｆ４と複数個のメモリとの対応関係は任意である。すなわち、複数個のメモリの各々は、複数個の機能Ｆ１～Ｆ４のうちの対応する１個以上の機能に対応するプログラムを記憶するものであっても良い。

　また、処理回路５３が複数個の処理回路により構成されているとき、複数個の機能Ｆ１～Ｆ４と複数個の処理回路との対応関係は任意である。すなわち、複数個の処理回路の各々は、複数個の機能Ｆ１～Ｆ４のうちの対応する１個以上の機能に対応する処理を実行するものであっても良い。

　次に、図８～図１０を参照して、学習装置２００の要部のハードウェア構成について説明する。

　図８に示す如く、学習装置２００は、プロセッサ６１及びメモリ６２を有している。メモリ６２には、複数個の機能Ｆ１１～Ｆ１４に対応するプログラムが記憶されている。プロセッサ６１は、メモリ６２に記憶されているプログラムを読み出して実行する。これにより、複数個の機能Ｆ１１～Ｆ１４が実現される。

　または、図９に示す如く、学習装置２００は、処理回路６３を有している。処理回路６３は、複数個の機能Ｆ１１～Ｆ１４に対応する処理を実行する。これにより、複数個の機能Ｆ１１～Ｆ１４が実現される。

　または、図１０に示す如く、学習装置２００は、プロセッサ６１、メモリ６２及び処理回路６３を有している。メモリ６２には、複数個の機能Ｆ１１～Ｆ１４のうちの一部の機能に対応するプログラムが記憶されている。プロセッサ６１は、メモリ６２に記憶されているプログラムを読み出して実行する。これにより、かかる一部の機能が実現される。また、処理回路６３は、複数個の機能Ｆ１１～Ｆ１４のうちの残余の機能に対応する処理を実行する。これにより、かかる残余の機能が実現される。

　プロセッサ６１の具体例は、プロセッサ５１の具体例と同様である。メモリ６２の具体例は、メモリ５２の具体例と同様である。処理回路６３の具体例は、処理回路５３の具体例と同様である。このため、詳細な説明は省略する。

　ここで、プロセッサ６１が複数個のプロセッサにより構成されているとき、複数個の機能Ｆ１１～Ｆ１４と複数個のプロセッサとの対応関係は任意である。すなわち、複数個のプロセッサの各々は、複数個の機能Ｆ１１～Ｆ１４のうちの対応する１個以上の機能に対応するプログラムを読み出して実行するものであっても良い。

　また、メモリ６２が複数個のメモリにより構成されているとき、複数個の機能Ｆ１１～Ｆ１４と複数個のメモリとの対応関係は任意である。すなわち、複数個のメモリの各々は、複数個の機能Ｆ１１～Ｆ１４のうちの対応する１個以上の機能に対応するプログラムを記憶するものであっても良い。

　また、処理回路６３が複数個の処理回路により構成されているとき、複数個の機能Ｆ１１～Ｆ１４と複数個の処理回路との対応関係は任意である。すなわち、複数個の処理回路の各々は、複数個の機能Ｆ１１～Ｆ１４のうちの対応する１個以上の機能に対応する処理を実行するものであっても良い。

　次に、図１１のフローチャートを参照して、制御装置１００の動作について説明する。

　まず、データ取得部２１がデータ取得処理を実行する（ステップＳＴ１）。次いで、データ前処理部２２がデータ前処理を実行する（ステップＳＴ２）。次いで、制御量算出部２３が制御量算出処理を実行する（ステップＳＴ３）。次いで、制御部２４が移動体制御を実行する（ステップＳＴ４）。

　なお、ステップＳＴ２にて生成された全ての俯瞰画像Ｉ１に動的障害物Ｏが１個も含まれていない場合、制御装置１００は、ステップＳＴ３，ＳＴ４の処理の実行をキャンセルするものであっても良い。この場合、制御装置１００の処理は、ステップＳＴ１に戻るものであっても良い。

　次に、図１２のフローチャートを参照して、学習装置２００の動作について説明する。

　まず、データ取得部３１がデータ取得処理を実行する（ステップＳＴ１１）。次いで、データ前処理部３２がデータ前処理を実行する（ステップＳＴ１２）。次いで、データ選別部３３がデータ選別処理を実行する（ステップＳＴ１３）。次いで、モデル生成部３４がモデル生成処理を実行する（ステップＳＴ１４）。

　なお、第１学習用データＤ１１及び第２学習用データＤ１２は、互いに異なるタイミングにて取得されるものであっても良い。すなわち、第１学習用データＤ１１及び第２学習用データＤ１２は、互いに異なるステップにて取得されるものであっても良い。

　また、ステップＳＴ３にて前処理済み学習用データＤ１３に含まれる全てのデータが不要データＤ１５として選別された場合、学習装置２００は、ステップＳＴ１４の処理の実行をキャンセルするものであっても良い。

　次に、制御装置１００及び学習装置２００の効果について説明する。

　従来の制御装置は、ルールベースによるものであった。すなわち、従来の制御装置は、所定のルールに基づき動的障害物の動きを予測して、当該予測された動きに応じて自律移動体の動きを制御するものであった。このため、予測用のルールを設定することが求められるという問題があった。

　また、ルールベースにおいては、動的障害物の動きがルールの設定時に想定された動きと異なるものである場合、動的障害物の動きを正確に予測することが困難である。特に、例えば、動的障害物の動きが複雑であるとき、又は動的障害物の動きが多様であるとき、動的障害物の動きを正確に予測することが困難である。このため、自律移動体の動きを動的障害物の動きに応じて正しく制御することが困難であるという問題があった。この結果、例えば、自律移動体による動的障害物に対する進路妨害が発生したり、又は自律移動体及び動的障害物による衝突が発生したりするという問題があった。

　これに対して、制御装置１００は、学習装置２００による学習済みモデルＭを用いるものである。このため、予測用のルールの設定を不要とすることができる。

　また、動的障害物Ｏの動きが想定外の動きであるときも、自律移動体１の動きを動的障害物Ｏの動きに応じて正しく制御することができる。このため、例えば、動的障害物Ｏの動きが複雑であるとき、又は動的障害物Ｏの動きが多様であるときも、自律移動体１の動きを動的障害物Ｏの動きに応じて正しく制御することができる。

　これにより、自律移動体１による動的障害物Ｏに対する進路妨害が発生するのを回避することができる。また、自律移動体１及び動的障害物Ｏによる衝突が発生するのを回避することができる。この結果、自律移動体１による動的障害物Ｏに対する作業妨害が発生するのを回避することができる。したがって、作業用の有人移動体（例えばフォークリフト）又は作業者による作業効率の向上を図ることができる。

　次に、制御装置１００及び学習装置２００の変形例について説明する。

　自律移動体１は、工場内を走行する無人搬送車に限定されるものではない。自律移動体１は、１個以上の動的障害物Ｏを含む環境内を自律的に移動するものであれば良い。例えば、自律移動体１は、自動運転車、ロボット掃除機、サービスロボット又はロボットアームであっても良い。ロボットアームは、ＦＡ（Ｆａｃｔｏｒｙ　Ａｕｔｏｍａｔｉｏｎ）機器に設けられているものであっても良い。

　ここで、ＦＡ機器による自動作業及び作業者による手動作業が行われる工場において、ＦＡ機器のロボットアームが自律移動体１であり、かつ、作業者の腕が動的障害物Ｏであっても良い。これにより、ロボットアームによる作業者に対する作業妨害の発生を回避することができる。この結果、作業者による作業効率の向上を図ることができる。換言すれば、ＦＡ機器による自動作業に対して作業者による手動作業を優先させることができる。

　次に、制御装置１００及び学習装置２００の他の変形例について説明する。

　推論用データＤ１は、移動速度情報、相対位置情報及び相対速度情報に加えて、個々の動的障害物Ｏによる作業に関する他の情報、又は個々の動的障害物Ｏの移動経路に関する他の情報を含むものであっても良い。また、第１学習用データＤ１１は、これらの情報に相当する情報を含むものであっても良い。これらの情報を追加的に用いることにより、自律移動体１による作業妨害の発生を更に確実に回避することができる。

　例えば、自律移動体１が無人搬送車であり、かつ、動的障害物Ｏがフォークリフトであるとき、推論用データＤ１は、フォークリフトにおける乗員の有無を示す情報、フォークリフトにおけるフォークの位置を示す情報、及びフォークリフト用の灯体類の位置を示す情報などを含むものであっても良い。第１学習用データＤ１１は、これらの情報に相当する情報を含むものであっても良い。

　また、例えば、自律移動体１がＦＡ機器のロボットアームであり、かつ、動的障害物Ｏが作業者の腕であるとき、推論用データＤ１は、作業者の腕の姿勢を示す情報などを含むものであっても良い。第１学習用データＤ１１は、これらの情報に相当する情報を含むものであっても良い。

　画像データＤ３が示す画像は、相対位置Ｐ及び相対速度Ｖ２を示すものであれば良い。すなわち、画像データＤ３が示す画像は、俯瞰画像Ｉ１に限定されるものではない。画像データＤ３が示す画像は、如何なるアングルによるものであっても良い。画像データＤ１４についても同様である。

　例えば、自律移動体１がＦＡ機器のロボットアームであり、かつ、動的障害物Ｏが作業者の腕であるとき、画像データＤ３が示す画像は、当該画像がロボットアーム及び作業者の腕を含むものとなるようなアングルによるものであっても良い。画像データＤ１４についても同様である。

　次に、学習装置２００の他の変形例について説明する。

　学習器４３による学習用モデルＭ’の学習方法は、上記の具体例に限定されるものではない。学習用モデルＭ’の学習には、機械学習に係る公知の種々の技術を用いることができる。例えば、教師あり学習、教師なし学習又は強化学習に係る公知の種々の技術を用いることができる。これらの技術についての詳細な説明は省略する。

　次に、図１３及び図１４を参照して、制御装置１００及び学習装置２００の他の変形例について説明する。

　図１３に示す如く、制御装置１００は、データ前処理部２２を有しないものであっても良い。この場合、制御量算出部２３は、推論用データＤ１を用いて制御量Αを算出するものであっても良い。すなわち、学習済みモデルＭは、推論用データＤ１の入力を受け付けて制御量Αを出力するものであっても良い。

　図１４に示す如く、学習装置２００は、データ前処理部３２を有しないものであっても良い。この場合、データ選別部３３は、第１学習用データＤ１１に含まれる不要データＤ１５を選別するものであっても良い。選別済み学習用データＤ１６は、第１学習用データＤ１１のうちの不要データＤ１５を除くデータを含むものであっても良い。

　次に、図１５を参照して、学習装置２００の他の変形例について説明する。

　図１５に示す如く、学習装置２００は、データ選別部３３を有しないものであっても良い。この場合、学習用モデルＭ’は、前処理済み学習用データＤ１３の入力を受け付けて制御量Α’を出力するものであっても良い。ただし、不要データＤ１５が学習用モデルＭ’の学習に用いられるのを回避する観点から、データ選別部３３を設けるのがより好適である。

　次に、図１６を参照して、学習装置２００の他の変形例について説明する。

　図１６に示す如く、学習装置２００は、データ前処理部３２及びデータ選別部３３を有しないものであっても良い。この場合、学習用モデルＭ’は、第１学習用データＤ１１の入力を受け付けて制御量Α’を出力するものであっても良い。ただし、不要データＤ１５が学習用モデルＭ’の学習に用いられるのを回避する観点から、データ選別部３３を設けるのがより好適である。

　以上のように、実施の形態１に係る制御装置１００は、自律移動体１の移動速度Ｖ１を示す移動速度情報、自律移動体１に対する動的障害物Ｏの相対位置Ｐを示す相対位置情報及び自律移動体１に対する動的障害物Ｏの相対速度Ｖ２を示す相対速度情報を含む推論用データＤ１を取得するデータ取得部２１と、推論用データＤ１又は推論用データＤ１に対応する前処理済み推論用データＤ２を用いて、自律移動体１の動きを動的障害物Ｏの動きに応じて制御するための制御量Αを算出する制御量算出部２３と、制御量Αを用いて自律移動体１の動きを制御する制御部２４と、を備え、制御量算出部２３は、機械学習による学習済みモデルＭを用いるものであり、学習済みモデルＭは、推論用データＤ１又は前処理済み推論用データＤ２の入力を受け付けて制御量Αを出力するものである。これにより、自律移動体１の動きを動的障害物Ｏの動きに応じて正しく制御することができる。特に、動的障害物Ｏの動きが複雑であるとき、又は動的障害物Ｏの動きが多様であるときも、自律移動体１の動きを正しく制御することができる。

　また、動的障害物Ｏは、作業用の有人移動体又は作業者を含み、学習済みモデルＭは、自律移動体１による有人移動体又は作業者に対する作業妨害の発生を回避するための制御量Αを出力するものである。これにより、自律移動体１による作業妨害の発生を回避することができる。この結果、作業用の有人移動体（例えばフォークリフト）又は作業者による作業効率の向上を図ることができる。

　また、制御装置１００は、推論用データＤ１に対する前処理を実行することにより前処理済み推論用データＤ２を生成するデータ前処理部２２を備え、前処理済み推論用データＤ２は、自律移動体１を含む領域Ｒの俯瞰画像Ｉ１を示す画像データＤ３を含む。これにより、画像データＤ３を学習済みモデルＭに対する入力に用いることができる。

　また、自律移動体１は、ＦＡ機器に設けられており、動的障害物Ｏは、ＦＡ機器を有する工場における作業者の腕を含み、学習済みモデルＭは、自律移動体１による作業者に対する作業妨害の発生を回避するための制御量Αを出力するものである。これにより、自律移動体１（例えばロボットアーム）による作業妨害の発生を回避することができる。この結果、作業者による作業効率の向上を図ることができる。

　また、学習済みモデルＭは、自律移動体１による動的障害物Ｏに対する進路妨害の発生を回避するための制御量Αを出力するものである。これにより、例えば、上記のような作業妨害の発生を回避することができる。

　また、学習済みモデルＭは、自律移動体１及び動的障害物Ｏによる衝突の発生を回避するための制御量Αを出力するものである。これにより、例えば、上記のような作業妨害の発生を回避することができる。

　また、実施の形態１に係る学習装置２００は、自律移動体１の移動速度Ｖ１’を示す移動速度情報、自律移動体１に対する動的障害物Ｏ’の相対位置Ｐ’を示す相対位置情報及び自律移動体１に対する動的障害物Ｏ’の相対速度Ｖ２’を示す相対速度情報を含む第１学習用データＤ１１を取得するとともに、自律移動体１の動きを動的障害物Ｏ’の動きに応じて制御するための制御量Α’の正解値を含む第２学習用データＤ１２を取得するデータ取得部３１と、第１学習用データＤ１１又は第１学習用データＤ１１に対応する前処理済み学習用データＤ１３の入力を受け付けて制御量Α’を出力する学習用モデルＭ’と、第２学習用データＤ１２を用いて学習用モデルＭ’の学習をすることにより学習済みモデルＭを生成する学習器４３と、を有するモデル生成部３４と、を備え、学習済みモデルＭは、移動速度情報、相対位置情報及び相対速度情報を含む推論用データＤ１又は推論用データＤ１に対応する前処理済み推論用データＤ２の入力を受け付けて制御量Αを出力するものである。これにより、制御装置１００を実現することができる。この結果、自律移動体１の動きを動的障害物Ｏの動きに応じて正しく制御することができる。

　また、動的障害物Ｏ’は、作業用の有人移動体又は作業者を含み、正解値は、自律移動体１による有人移動体又は作業者に対する作業妨害の発生を回避するための制御量Α’を示すものである。これにより、自律移動体１による作業妨害の発生を回避することができる。この結果、作業用の有人移動体（例えばフォークリフト）又は作業者による作業効率の向上を図ることができる。

　また、学習装置２００は、第１学習用データＤ１１又は前処理済み学習用データＤ１３に含まれる不要データＤ１５を選別するデータ選別部３３を備え、不要データＤ１５は、学習用モデルＭ’の学習から除外されるものである。これにより、不要データＤ１５が学習に用いられるのを回避することができる。この結果、学習の安定化を図ることができる。また、記憶装置４に記憶されるデータの容量を低減することができる。

　また、不要データＤ１５は、作業妨害の非発生状態に対応するデータを含む。これにより、かかるデータが学習に用いられるのを回避することができる。

　また、学習装置２００は、第１学習用データＤ１１に対する前処理を実行することにより前処理済み学習用データＤ１３を生成するデータ前処理部３２を備え、前処理済み学習用データＤ１３は、自律移動体１を含む領域Ｒの俯瞰画像Ｉ１１を示す画像データＤ１４を含む。これにより、画像データＤ１４を学習用モデルＭ’に対する入力に用いることができる。

　また、自律移動体１は、ＦＡ機器に設けられており、動的障害物Ｏ’は、ＦＡ機器を有する工場における作業者の腕を含み、正解値は、自律移動体１による作業者に対する作業妨害の発生を回避するための制御量Α’を示すものである。これにより、自律移動体１（例えばロボットアーム）による作業妨害の発生を回避することができる。この結果、作業者による作業効率の向上を図ることができる。

　また、正解値は、自律移動体１による動的障害物Ｏ’に対する進路妨害の発生を回避するための制御量Α’を示すものである。これにより、例えば、上記のような作業妨害の発生を回避することができる。

　また、正解値は、自律移動体１及び動的障害物Ｏ’による衝突の発生を回避するための制御量Α’を示すものである。これにより、例えば、上記のような作業妨害の発生を回避することができる。

　なお、本願開示はその開示の範囲内において、実施の形態の任意の構成要素の変形、もしくは実施の形態の任意の構成要素の省略が可能である。

　本開示に係る制御装置及び学習装置は、自律移動体の制御に用いることができる。

　１　自律移動体、２　情報源、３　記憶装置、４　記憶装置、１１　学習済みモデル記憶部、１２　学習用データ記憶部、２１　データ取得部、２２　データ前処理部、２３　制御量算出部、２４　制御部、３１　データ取得部、３２　データ前処理部、３３　データ選別部、３４　モデル生成部、４１　第１データ取得部、４２　第２データ取得部、４３　学習器、５１　プロセッサ、５２　メモリ、５３　処理回路、６１　プロセッサ、６２　メモリ、６３　処理回路、１００　制御装置、２００　学習装置。

Claims

　自律移動体の移動速度を示す移動速度情報、前記自律移動体に対する動的障害物の相対位置を示す相対位置情報及び前記自律移動体に対する前記動的障害物の相対速度を示す相対速度情報を含む推論用データを取得するデータ取得部と、
　前記推論用データ又は前記推論用データに対応する前処理済み推論用データを用いて、前記自律移動体の動きを前記動的障害物の動きに応じて制御するための制御量を算出する制御量算出部と、
　前記制御量を用いて前記自律移動体の動きを制御する制御部と、を備え、
　前記制御量算出部は、機械学習による学習済みモデルを用いるものであり、
　前記学習済みモデルは、前記推論用データ又は前記前処理済み推論用データの入力を受け付けて前記制御量を出力するものである
　ことを特徴とする制御装置。
　前記動的障害物は、作業用の有人移動体又は作業者を含み、
　前記学習済みモデルは、前記自律移動体による前記有人移動体又は前記作業者に対する作業妨害の発生を回避するための前記制御量を出力するものである
　ことを特徴とする請求項１記載の制御装置。
　前記推論用データに対する前処理を実行することにより前記前処理済み推論用データを生成するデータ前処理部を備え、
　前記前処理済み推論用データは、前記自律移動体を含む領域の俯瞰画像を示す画像データを含む
　ことを特徴とする請求項２記載の制御装置。
　前記自律移動体は、ＦＡ機器に設けられており、
　前記動的障害物は、前記ＦＡ機器を有する工場における作業者の腕を含み、
　前記学習済みモデルは、前記自律移動体による前記作業者に対する作業妨害の発生を回避するための前記制御量を出力するものである
　ことを特徴とする請求項１記載の制御装置。
　前記学習済みモデルは、前記自律移動体による前記動的障害物に対する進路妨害の発生を回避するための前記制御量を出力するものであることを特徴とする請求項１記載の制御装置。
　前記学習済みモデルは、前記自律移動体及び前記動的障害物による衝突の発生を回避するための前記制御量を出力するものであることを特徴とする請求項１記載の制御装置。
　自律移動体の移動速度を示す移動速度情報、前記自律移動体に対する動的障害物の相対位置を示す相対位置情報及び前記自律移動体に対する前記動的障害物の相対速度を示す相対速度情報を含む第１学習用データを取得するとともに、前記自律移動体の動きを前記動的障害物の動きに応じて制御するための制御量の正解値を含む第２学習用データを取得するデータ取得部と、
　前記第１学習用データ又は前記第１学習用データに対応する前処理済み学習用データの入力を受け付けて前記制御量を出力する学習用モデルと、前記第２学習用データを用いて前記学習用モデルの学習をすることにより学習済みモデルを生成する学習器と、を有するモデル生成部と、を備え、
　前記学習済みモデルは、前記移動速度情報、前記相対位置情報及び前記相対速度情報を含む推論用データ又は前記推論用データに対応する前処理済み推論用データの入力を受け付けて前記制御量を出力するものである
　ことを特徴とする学習装置。
　前記動的障害物は、作業用の有人移動体又は作業者を含み、
　前記正解値は、前記自律移動体による前記有人移動体又は前記作業者に対する作業妨害の発生を回避するための前記制御量を示すものである
　ことを特徴とする請求項７記載の学習装置。
　前記第１学習用データ又は前記前処理済み学習用データに含まれる不要データを選別するデータ選別部を備え、
　前記不要データは、前記学習用モデルの学習から除外されるものである
　ことを特徴とする請求項８記載の学習装置。
　前記不要データは、前記作業妨害の非発生状態に対応するデータを含むことを特徴とする請求項９記載の学習装置。
　前記第１学習用データに対する前処理を実行することにより前記前処理済み学習用データを生成するデータ前処理部を備え、
　前記前処理済み学習用データは、前記自律移動体を含む領域の俯瞰画像を示す画像データを含む
　ことを特徴とする請求項８記載の学習装置。
　前記自律移動体は、ＦＡ機器に設けられており、
　前記動的障害物は、前記ＦＡ機器を有する工場における作業者の腕を含み、
　前記正解値は、前記自律移動体による前記作業者に対する作業妨害の発生を回避するための前記制御量を示すものである
　ことを特徴とする請求項７記載の学習装置。
　前記正解値は、前記自律移動体による前記動的障害物に対する進路妨害の発生を回避するための前記制御量を示すものであることを特徴とする請求項７記載の学習装置。
　前記正解値は、前記自律移動体及び前記動的障害物による衝突の発生を回避するための前記制御量を示すものであることを特徴とする請求項７記載の学習装置。