WO2021095463A1

WO2021095463A1 - 自己位置推定モデル学習方法、自己位置推定モデル学習装置、自己位置推定モデル学習プログラム、自己位置推定方法、自己位置推定装置、自己位置推定プログラム、及びロボット

Info

Publication number: WO2021095463A1
Application number: PCT/JP2020/039553
Authority: WO
Inventors: 真衣黒瀬; 竜米谷
Original assignee: オムロン株式会社
Priority date: 2019-11-13
Filing date: 2020-10-21
Publication date: 2021-05-20
Also published as: EP4060445A1; EP4060445A4; JP7322670B2; CN114698388A; JP2021077287A; US20220397903A1

Abstract

自己位置推定モデル学習装置（１０）は、動的な環境において自己位置推定対象からの視点で撮影された局所画像と、自己位置推定対象を俯瞰した位置から撮影された俯瞰画像であって、前記局所画像と同期した俯瞰画像と、を時系列で取得する取得部（３０）と、時系列で取得された局所画像及び俯瞰画像を入力として、自己位置推定対象の位置を出力する自己位置推定モデルを学習する学習部（３２）と、を含む。

Description

自己位置推定モデル学習方法、自己位置推定モデル学習装置、自己位置推定モデル学習プログラム、自己位置推定方法、自己位置推定装置、自己位置推定プログラム、及びロボット

　開示の技術は、自己位置推定モデル学習方法、自己位置推定モデル学習装置、自己位置推定モデル学習プログラム、自己位置推定方法、自己位置推定装置、自己位置推定プログラム、及びロボットに関する。

　従来の特徴点ベースの自己位置推定（Ｓｉｍｕｌｔａｎｅｏｕｓｌｙ　Ｌｏｃａｌｉｚａｔｉｏｎ　ａｎｄ　Ｍａｐｐｉｎｇ：ＳＬＡＭ）アルゴリズム（例えば非特許文献１「ORB-SLAM2: an Open-Source {SLAM} System for Monocular, Stereo and {RGB-D} Cameras https://128.84.21.199/pdf/1610.06475.pdf」参照）では、３次元空間における静的な特徴点を複数の視点で観測することにより、回転や並進のような移動情報を算出する。

　しかし、群衆シーンなど動物体及び遮蔽が多く含まれる環境下では幾何制約が破綻し、安定した位置復元ができず、マップ上での自己位置を頻繁に見失ってしまう（例えば非特許文献２「Getting Robots Unfrozen and Unlost in Dense Pedestrian Crowds https://arxiv.org/pdf/1810.00352.pdf」参照）。

　この他に動物体を扱う方法として、動物体の動きを陽にモデル化する方法や、動物体に相当する箇所の影響を低減するような誤差関数を用いるロバスト推定手法があるが、何れも群衆のような複雑かつ密な動的環境では適用することができない。

　また、非特許文献１記載の技術に代表される特徴点ベースのＳＬＡＭでは、シーンの特徴点からＶｉｓｕａｌ　Ｖｏｃａｂｒａｒｙを作成し、それをデータベースに保存することで同一なシーンを認識することができる。

　また、非特許文献３（[N.N+,ECCV’16] Localizing and Orienting Street Views Using Overhead Imagery https://lugiavn.github.io/gatech/crossview_eccv2016/nam_eccv2016.pdf）、非特許文献４（[S.Workman+,ICCV’15] Wide-Area Image Geolocalization with Aerial Reference Imagery https://www.cv-foundation.org/openaccess/content_iccv_2015/papers/Workman_Wide-Area_Image_Geolocalization_ICCV_2015_paper.pdf）には、俯瞰画像と局所画像からそれぞれ特徴抽出を行い、局所画像がそれぞれ俯瞰画像のどのブロックに対応するかを検索可能にする技術が開示されている。

　しかしながら、上記非特許文献３、４記載の技術では、何れも静的なシーン間での画像類似度のみをマッチングの手がかりとするため、マッチング精度は低く、候補領域が大量に出てきてしまう。

　開示の技術は、上記の点に鑑みてなされたものであり、自己位置推定対象の自己位置を推定するのが従来困難であった動的な環境においても、自己位置推定対象の自己位置を推定することができる自己位置推定モデル学習方法、自己位置推定モデル学習装置、自己位置推定モデル学習プログラム、自己位置推定方法、自己位置推定装置、自己位置推定プログラム、及びロボットを提供することを目的とする。

　開示の第１態様は、自己位置推定モデル学習方法であって、コンピュータが、動的な環境において自己位置推定対象からの視点で撮影された局所画像と、前記自己位置推定対象を俯瞰した位置から撮影された俯瞰画像であって、前記局所画像と同期した俯瞰画像と、を時系列で取得する取得工程と、時系列で取得された前記局所画像及び前記俯瞰画像を入力として、前記自己位置推定対象の位置を出力する自己位置推定モデルを学習する学習工程と、を含む処理を実行する。

　上記第１態様において、前記学習工程は、前記局所画像に基づいて第１の軌跡情報を算出すると共に、前記俯瞰画像に基づいて第２の軌跡情報を算出する軌跡情報算出工程と、前記第１の軌跡情報に基づいて第１の特徴量を算出すると共に、前記第２の軌跡情報に基づいて第２の特徴量を算出する特徴量算出工程と、前記第１の特徴量と前記第２の特徴量との距離を算出する距離算出工程と、前記距離に基づいて前記自己位置推定対象の位置を推定する推定工程と、前記第１の特徴量と前記第２の特徴量との類似度が高いほど距離が小さくなるように前記自己位置推定モデルのパラメータを更新する更新工程と、を含むようにしてもよい。

　上記第１態様において、前記特徴量算出工程は、前回推定された前記自己位置推定対象の位置の近傍の領域から選択された複数の部分領域における前記第２の軌跡情報に基づいて前記第２の特徴量を算出し、前記距離算出工程は、前記複数の部分領域毎に前記距離を算出し、前記推定工程は、前記複数の部分領域毎に算出した前記距離のうち、最も距離が小さい部分領域の予め定めた位置を前記自己位置推定対象の位置として推定してもよい。

　開示の第２態様は、自己位置推定モデル学習装置であって、動的な環境において自己位置推定対象からの視点で撮影された局所画像と、前記自己位置推定対象を俯瞰した位置から撮影された俯瞰画像であって、前記局所画像と同期した俯瞰画像と、を時系列で取得する取得部と、時系列で取得された前記局所画像及び前記俯瞰画像を入力として、前記自己位置推定対象の位置を出力する自己位置推定モデルを学習する学習部と、を含む。

　開示の第３態様は、自己位置推定モデル学習プログラムであって、コンピュータに、動的な環境において自己位置推定対象からの視点で撮影された局所画像と、前記自己位置推定対象を俯瞰した位置から撮影された俯瞰画像であって、前記局所画像と同期した俯瞰画像と、を時系列で取得する取得工程と、時系列で取得された前記局所画像及び前記俯瞰画像を入力として、前記自己位置推定対象の位置を出力する自己位置推定モデルを学習する学習工程と、を含む処理を実行させるためのプログラムである。

　開示の第４態様は、自己位置推定方法であって、コンピュータが、動的な環境において自己位置推定対象からの視点で撮影された局所画像と、前記自己位置推定対象を俯瞰した位置から撮影された俯瞰画像であって、前記局所画像と同期した俯瞰画像と、を時系列で取得する取得工程と、時系列で取得された前記局所画像及び前記俯瞰画像と、上記第１態様に記載の自己位置推定モデル学習方法により学習された自己位置推定モデルと、に基づいて、前記自己位置推定対象の自己位置を推定する推定工程と、を含む処理を実行する。

　開示の第５態様は、自己位置推定装置であって、動的な環境において自己位置推定対象からの視点で撮影された局所画像と、前記自己位置推定対象を俯瞰した位置から撮影された俯瞰画像であって、前記局所画像と同期した俯瞰画像と、を時系列で取得する取得部と、時系列で取得された前記局所画像及び前記俯瞰画像と、上記第２態様に記載の自己位置推定モデル学習装置により学習された自己位置推定モデルと、に基づいて、前記自己位置推定対象の自己位置を推定する推定部と、を含む。

　開示の第６態様は、自己位置推定プログラムであって、コンピュータに、動的な環境において自己位置推定対象からの視点で撮影された局所画像と、前記自己位置推定対象を俯瞰した位置から撮影された俯瞰画像であって、前記局所画像と同期した俯瞰画像と、を時系列で取得する取得工程と、時系列で取得された前記局所画像及び前記俯瞰画像と、上記第１態様に記載の自己位置推定モデル学習方法により学習された自己位置推定モデルと、に基づいて、前記自己位置推定対象の自己位置を推定する推定工程と、を含む処理を実行させるためのプログラムである。

　開示の第７態様は、ロボットであって、動的な環境においてロボットからの視点で撮影された局所画像と、前記ロボットを俯瞰した位置から撮影された俯瞰画像であって、前記局所画像と同期した俯瞰画像と、を時系列で取得する取得部と、時系列で取得された前記局所画像及び前記俯瞰画像と、上記第２態様に記載の自己位置推定モデル学習装置により学習された自己位置推定モデルと、に基づいて、前記ロボットの自己位置を推定する推定部と、前記ロボットを自律走行させる自律走行部と、前記推定部により推定された位置に基づいて、前記ロボットが目的地に移動するように前記自律走行部を制御する制御部と、を含む。

　開示の技術によれば、自己位置推定対象の自己位置を推定するのが従来困難であった動的な環境においても、自己位置推定対象の自己位置を推定することができる。

自己位置推定モデル学習システムの概略構成を示す図である。自己位置推定モデル学習装置のハードウェア構成を示すブロック図である。自己位置推定モデル学習装置の機能構成を示すブロック図である。ロボットが群衆の中を目的地まで移動する様子を示す図である。自己位置推定モデル学習装置の学習部の機能構成を示すブロック図である。部分領域について説明するための図である。自己位置推定モデル学習装置による自己位置推定モデル学習処理の流れを示すフローチャートである。自己位置推定装置の機能構成を示すブロック図である。自己位置推定装置のハードウェア構成を示すブロック図である。自己位置推定装置によるロボット制御処理の流れを示すフローチャートである。

　以下、開示の技術の実施形態の一例を、図面を参照しつつ説明する。なお、各図面において同一又は等価な構成要素及び部分には同一の参照符号を付与している。また、図面の寸法比率は、説明の都合上誇張されている場合があり、実際の比率とは異なる場合がある。

　図１は、自己位置推定モデル学習システム１の概略構成を示す図である。

　図１に示すように、自己位置推定モデル学習システム１は、自己位置推定モデル学習装置１０及びシミュレータ２０を備える。シミュレータ２０については後述する。

　次に、自己位置推定モデル学習装置１０について説明する。

　図２は、自己位置推定モデル学習装置１０のハードウェア構成を示すブロック図である。

　図２に示すように、自己位置推定モデル学習装置１０は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）１１、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）１２、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）１３、ストレージ１４、入力部１５、モニタ１６、光ディスク駆動装置１７及び通信インタフェース１８を有する。各構成は、バス１９を介して相互に通信可能に接続されている。

　本実施形態では、ストレージ１４には、自己位置推定モデル学習プログラムが格納されている。ＣＰＵ１１は、中央演算処理ユニットであり、各種プログラムを実行したり、各構成を制御したりする。すなわち、ＣＰＵ１１は、ストレージ１４からプログラムを読み出し、ＲＡＭ１３を作業領域としてプログラムを実行する。ＣＰＵ１１は、ストレージ１４に記録されているプログラムに従って、上記各構成の制御及び各種の演算処理を行う。

　ＲＯＭ１２は、各種プログラム及び各種データを格納する。ＲＡＭ１３は、作業領域として一時的にプログラム又はデータを記憶する。ストレージ１４は、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）又はＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）により構成され、オペレーティングシステムを含む各種プログラム、及び各種データを格納する。

　入力部１５は、キーボード１５１、及びマウス１５２等のポインティングデバイスを含み、各種の入力を行うために使用される。モニタ１６は、例えば、液晶ディスプレイであり、各種の情報を表示する。モニタ１６は、タッチパネル方式を採用して、入力部１５として機能してもよい。光ディスク駆動装置１７は、各種の記録媒体(ＣＤ－ＲＯＭ又はブルーレイディスクなど)に記憶されたデータの読み込みや、記録媒体に対するデータの書き込み等を行う。

　通信インタフェース１８は、シミュレータ２０等の他の機器と通信するためのインタフェースであり、例えば、イーサネット（登録商標）、ＦＤＤＩ又はＷｉ－Ｆｉ（登録商標）等の規格が用いられる。

　次に、自己位置推定モデル学習装置１０の機能構成について説明する。

　図３は、自己位置推定モデル学習装置１０の機能構成の例を示すブロック図である。

　図３に示すように、自己位置推定モデル学習装置１０は、機能構成として、取得部３０及び学習部３２を有する。各機能構成は、ＣＰＵ１１がストレージ１４に記憶された自己位置推定プログラムを読み出し、ＲＡＭ１３に展開して実行することにより実現される。

　取得部３０は、シミュレータ２０から目的地情報、局所画像、及び俯瞰画像を取得する。シミュレータ２０は、例えば図４に示すように、自律走行型のロボットＲＢが、目的地情報で表される目的地ｐ_ｇまで移動する場合における局所画像と、局所画像と同期した俯瞰画像と、を時系列で出力する。

　なお、本実施形態では、図４に示すように、ロボットＲＢは、周囲に存在する人間ＨＢ等のように、移動する物体を含む動的な環境を目的地ｐ_ｇまで移動する。本実施形態では、移動する物体が人間ＨＢである場合、すなわち動的な環境が群衆である場合について説明するが、これに限られるものではない。例えば、動的な環境の他の例としては、自動車、自律走行型ロボット、ドローン、航空機、及び艦船等が存在する環境等が挙げられる。

　ここで、局所画像とは、図４に示すような動的な環境において、自己位置推定対象としてのロボットＲＢからの視点で撮影された画像である。なお、以下では、局所画像が光学カメラで撮像された画像である場合について説明するが、これに限られるものではない。すなわち、ロボットＲＢの視界の範囲内に存在する物体がどのように動いたのかを表す動作情報を取得できればよく、例えばイベントカメラ（Event Based Camera）で取得された動作情報を用いてもよいし、オプティカルフロー（Ｏｐｔｉｃａｌ　ｆｌｏｗ）等の公知の手法により局所画像を画像処理した後の動作情報を用いても良い。

　また、俯瞰画像とは、ロボットＲＢを俯瞰した位置から撮影された画像である。具体的には、俯瞰画像は、例えばロボットＲＢを含む範囲をロボットＲＢの上方から撮影した画　像であり、局所画像で表される範囲よりも広い範囲を撮影した画像である。なお、俯瞰画像は、ＲＡＷ（Raw image format）画像を用いても良いし、画像処理後の映像等の動画を用いてもよい。

　学習部３２は、取得部３０により時系列で取得された局所画像及び俯瞰画像を入力として、ロボットＲＢの位置を出力する自己位置推定モデルを学習する。

　次に、学習部３２について詳細に説明する。

　図５に示すように、学習部３２は、第１の軌跡情報算出部３３－１、第２の軌跡情報算出部３３－２、第１の特徴ベクトル算出部３４－１、第２の特徴ベクトル算出部３４－２、距離算出部３５、及び自己位置推定部３６を含む。

　第１の軌跡情報算出部３３－１は、取得部３０から入力された、時間的に連続するＮ個（Ｎは複数）の局所画像Ｉ１（＝｛Ｉ１_１、Ｉ１_２、・・・、Ｉ１_Ｎ｝）に基づいて、人間ＨＢの第１の軌跡情報ｔ_１を算出する。第１の軌跡情報ｔ_１の算出には、例えば前述したオプティカルフローやＭＯＴ（Multi Object Tracking）等の公知の手法を用いることができるが、これに限られるものではない。

　第２の軌跡情報算出部３３－２は、取得部３０から入力された、時間的に連続し、且つ、局所画像Ｉ１と同期したＮ個の俯瞰画像Ｉ２（＝｛Ｉ２_１、Ｉ２_２、・・・、Ｉ２_Ｎ｝）に基づいて、人間ＨＢの第２の軌跡情報ｔ_２を算出する。第２の軌跡情報ｔ_２の算出には、第１の軌跡情報の算出と同様に、オプティカルフロー等の公知の手法を用いることができるが、これに限られるものではない。

　第１の特徴ベクトル算出部３４－１は、第１の軌跡情報ｔ_１のＫ_１次元の第１の特徴ベクトルφ_１（ｔ_１）を算出する。具体的には、第１の特徴ベクトル算出部３４－１は、例えば第１の畳み込みニューラルネットワーク（ＣＮＮ：Ｃｏｎｖｏｌｕｔｉｏｎａｌ　ｎｅｕｒａｌ　ｎｅｔｗｏｒｋ）に第１の軌跡情報ｔ_１を入力することにより、Ｋ_１次元の第１の特徴ベクトルφ_１（ｔ_１）を算出する。なお、第１の特徴ベクトルφ_１（ｔ_１）は、第１の特徴量の一例であり、特徴ベクトルに限らず、他の特徴量を算出してもよい。

　第２の特徴ベクトル算出部３４－２は、第２の軌跡情報ｔ_２のＫ_２次元の第２の特徴ベクトルφ_２（ｔ_２）を算出する。具体的には、第２の特徴ベクトル算出部３４－２は、第１の特徴ベクトル算出部３４－１と同様に、例えば第１の特徴ベクトル算出部３４－１で用いる第１の畳み込みニューラルネットワークとは別の第２の畳み込みニューラルネットワークに第２の軌跡情報ｔ_２を入力することにより、Ｋ_２次元の第２の特徴ベクトルφ_２（ｔ_２）を算出する。なお、第２の特徴ベクトルφ_２（ｔ_２）は、第２の特徴量の一例であり、特徴ベクトルに限らず、他の特徴量を算出してもよい。

　ここで、第２の畳み込みニューラルネットワークに入力する第２の軌跡情報ｔ_２は、図６に示すように、俯瞰画像Ｉ２全体の軌跡情報ではなく、前回検出されたロボットＲＢの位置ｐ_ｔ－１の近傍のローカル領域Ｌの中からランダムに選択したＭ個（Ｍは複数）の部分領域Ｗ_１～Ｗ_Ｍにおける第２の軌跡情報ｔ_２１～ｔ_２Ｍとする。これにより、部分領域Ｗ_１～Ｗ_Ｍの各々について第２の特徴ベクトルφ_２（ｔ_２１）～φ_２（ｔ_２Ｍ）が算出される。以下では、第２の軌跡情報ｔ_２１～ｔ_２Ｍを区別しない場合は、単に第２の軌跡情報ｔ_２と称する場合がある。同様に、第２の特徴ベクトルφ_２（ｔ_２１）～φ_２（ｔ_２Ｍ）を区別しない場合は、単に第２の特徴ベクトルφ_２（ｔ_２）と称する場合がある。

　なお、ローカル領域Ｌは、ロボットＲＢが前回検出されたロボットＲＢの位置ｐ_ｔ－１から移動可能な範囲を含むように設定される。また、部分領域Ｗ_１～Ｗ_Ｍの位置は、ローカル領域Ｌの中からランダムに選択される。また、部分領域Ｗ_１～Ｗ_Ｍの数及び部分領域Ｗ_１～Ｗ_Ｍのサイズは、処理速度及び自己位置の推定精度に影響を及ぼす。従って、部分領域Ｗ_１～Ｗ_Ｍの数及び部分領域Ｗ_１～Ｗ_Ｍのサイズは、所望の処理速度及び自己位置の推定精度に応じて任意の値に設定される。以下では、部分領域Ｗ_１～Ｗ_Ｍを特に区別しない場合は、単に部分領域Ｗと称する場合がある。なお、本実施形態では、部分領域Ｗ_１～Ｗ_Ｍがローカル領域Ｌの中からランダムに選択される場合について説明するが、これに限られない。例えばローカル領域Ｌを均等分割して部分領域Ｗ_１～Ｗ_Ｍを設定してもよい。

　距離算出部３５は、第１の特徴ベクトルφ_１（ｔ_１）と、部分領域Ｗ_１～Ｗ_Ｍの第２の特徴ベクトルφ_２（ｔ_２１）～φ_２（ｔ_２Ｍ）の各々との類似度を表す距離ｇ（φ_１（ｔ_１）、φ_２（ｔ_２１））～ｇ（φ_１（ｔ_１）、φ_２（ｔ_２Ｍ））を、例えばニューラルネットワークを用いて算出する。そして、このニューラルネットワークは、第１の特徴ベクトルφ_１（ｔ_１）と第２の特徴ベクトルφ_２（ｔ_２）との類似度が高いほど、距離ｇ（φ_１（ｔ_１）、φ_２（ｔ_２））が小さくなるように学習される。

　なお、第１の特徴ベクトル算出部３４－１、第２の特徴ベクトル算出部３４－２、及び距離算出部３５は、例えばＣｏｎｔｒａｓｔｉｖｅ　ｌｏｓｓを用いたＳｉａｍｅｓｅ　Ｎｅｔｗｏｒｋや、ｔｒｉｐｌｅｔ　ｌｏｓｓ等の公知の学習モデルを用いることができる。この場合、第１の特徴ベクトルφ_１（ｔ_１）と第２の特徴ベクトルφ_２（ｔ_２）との類似度が高いほど、距離ｇ（φ_１（ｔ_１）、φ_２（ｔ_２））が小さくなるように、第１の特徴ベクトル算出部３４－１、第２の特徴ベクトル算出部３４－２、及び距離算出部３５で用いられるニューラルネットワークのパラメータが学習される。また、距離の算出方法としては、ニューラルネットワークを用いる場合に限らず、距離学習（Metric Learning）手法の一例であるマハラノビス距離学習を用いても良い。

　自己位置推定部３６は、距離算出部３５により算出された距離ｇ（φ_１（ｔ_１）、φ_２（ｔ_２１））～ｇ（φ_１（ｔ_１）、φ_２（ｔ_２Ｍ））のうち、最も小さい距離に対応する第２の特徴ベクトルφ_２（ｔ_２）の部分領域Ｗの予め定めた位置、例えば中心位置を自己位置ｐ_ｔとして推定する。

　このように、自己位置推定モデル学習装置１０は、機能的には、局所画像と俯瞰画像とに基づいて、自己位置を推定して出力する自己位置推定モデルを学習する装置と言える。

　次に、自己位置推定モデル学習装置１０の作用について説明する。

　図７は、自己位置推定モデル学習装置１０による自己位置推定モデル学習処理の流れを示すフローチャートである。ＣＰＵ１１がストレージ１４から自己位置推定モデル学習プログラムを読み出して、ＲＡＭ１３に展開し実行することにより、自己位置推定モデル学習処理が行なわれる。

　ステップＳ１００では、ＣＰＵ１１が、取得部３０として、目的地ｐ_ｇの位置情報をシミュレータ２０から取得する。

　ステップＳ１０２では、ＣＰＵ１１が、取得部３０として、時系列のＮ個の局所画像Ｉ１（＝｛Ｉ１_１、Ｉ１_２、・・・、Ｉ１_Ｎ｝）をシミュレータ２０から取得する。

　ステップＳ１０４では、ＣＰＵ１１が、取得部３０として、局所画像Ｉ１と同期した時系列のＮ個の俯瞰画像Ｉ２（＝｛Ｉ２_１、Ｉ２_２、・・・、Ｉ２_Ｎ｝）をシミュレータ２０から取得する。

　ステップＳ１０６では、ＣＰＵ１１が、第１の軌跡情報算出部３３－１として、局所画像Ｉ１に基づいて、第１の軌跡情報ｔ_１を算出する。

　ステップＳ１０８では、ＣＰＵ１１が、第２の軌跡情報算出部３３－２として、俯瞰画像Ｉ２に基づいて、第２の軌跡情報ｔ_２を算出する。

　ステップＳ１１０では、ＣＰＵ１１が、第１の特徴ベクトル算出部３４－１として、第１の軌跡情報ｔ_１に基づいて、第１の特徴ベクトルφ_１（ｔ_１）を算出する。

　ステップＳ１１２では、ＣＰＵ１１が、第２の特徴ベクトル算出部３４－２として、第２の軌跡情報ｔ_２のうち、部分領域Ｗ_１～Ｗ_Ｍの第２の軌跡情報ｔ_２１～ｔ_２Ｍに基づいて、第２の特徴ベクトルφ_２（ｔ_２１）～φ_２（ｔ_２Ｍ）を算出する。

　ステップＳ１１４では、ＣＰＵ１１が、距離算出部３５として、第１の特徴ベクトルφ_１（ｔ_１）と、第２の特徴ベクトルφ_２（ｔ_２１）～φ_２（ｔ_２Ｍ）の各々と、の類似度を表す距離ｇ（φ_１（ｔ_１）、φ_２（ｔ_２１））～ｇ（φ_１（ｔ_１）、φ_２（ｔ_２Ｍ））を算出する。すなわち、部分領域Ｗ毎に距離を算出する。

　ステップＳ１１６では、ＣＰＵ１１が、自己位置推定部３６として、ステップＳ１１４で算出された距離ｇ（φ_１（ｔ_１）、φ_２（ｔ_２１））～ｇ（φ_１（ｔ_１）、φ_２（ｔ_２Ｍ））のうち、最も小さい距離に対応する第２の特徴ベクトルφ_２（ｔ_２）の部分領域Ｗの代表位置、例えば中心位置を自己位置ｐ_ｔとして推定し、シミュレータ２０に出力する。

　ステップＳ１１８では、ＣＰＵ１１が、学習部３２として、自己位置推定モデルのパラメータを更新する。すなわち、自己位置推定モデルに含まれる学習モデルとしてＳｉａｍｅｓｅ　Ｎｅｔｗｏｒｋを用いた場合であれば、Ｓｉａｍｅｓｅ　Ｎｅｔｗｏｒｋのパラメータを更新する。

　ステップＳ１２０では、ＣＰＵ１１が、自己位置推定部３６として、ロボットＲＢが目的地ｐ_ｇに到達したか否かを判定する。すなわち、ステップＳ１１６で推定したロボットＲＢの位置ｐ_ｔが、目的地ｐ_ｇと一致するか否かを判定する。そして、ロボットＲＢが目的地ｐ_ｇに到達したと判定した場合は、ステップＳ１２２へ移行する。一方、ロボットＲＢが目的地ｐ_ｇに到達していないと判定した場合は、ステップＳ１０２へ移行し、ロボットＲＢが目的地ｐ_ｇに到達したと判定されるまでステップＳ１０２～Ｓ１２０の処理を繰り返す。すなわち、学習モデルを学習する。なお、ステップＳ１０２、Ｓ１０４の処理は取得工程の一例である。また、ステップＳ１０８～Ｓ１１８の処理は、学習工程の一例である。

　ステップＳ１２２では、ＣＰＵ１１が、自己位置推定部３６として、学習を終了する終了条件を満たすか否かを判定する。終了条件は、本実施形態では、例えばロボットＲＢがスタート地点から目的地ｐ_ｇに到着するまでを１エピソードとして、予め定めた数（例えば１００）のエピソードが終了した場合である。ＣＰＵ１１は、終了条件を満たすと判定した場合は本ルーチンを終了する。一方、終了条件を満たさない場合はステップＳ１００へ移行し、目的地ｐ_ｇを変えて、ステップＳ１００～Ｓ１２２までの処理を、終了条件を満たすまで繰り返す。

　このように、本実施形態では、動的な環境においてロボットＲＢからの視点で撮影された局所画像と、ロボットＲＢを俯瞰した位置から撮影された俯瞰画像であって、局所画像と同期した俯瞰画像と、を時系列で取得し、時系列で取得された局所画像及び俯瞰画像を入力として、ロボットＲＢの位置を出力する自己位置推定モデルを学習する。これにより、ロボットＲＢの自己位置を推定するのが従来困難であった動的な環境においても、ロボットＲＢの位置を推定することができる。

　なお、前述したステップＳ１１６において算出した最も小さい距離が大きすぎる場合、すなわち自己位置の推定が不可能となる場合もあり得る。そこで、ステップＳ１１６において、算出した最も小さい距離が予め定めた閾値以上の場合は自己位置の推定が不可能であると判断し、前回検出されたロボットＲＢの位置ｐ_ｔ－１の近傍のローカル領域Ｌの中から部分領域Ｗ_１～Ｗ_Ｍを選択し直して、再度ステップＳ１１２～Ｓ１１６の処理を実行するようにしてもよい。

　また、自己位置の推定が不可能となる場合の他の例として、軌跡情報を算出できない場合がある。例えば、ロボットＲＢの周囲に人間ＨＢが全く存在せず、完全に静的な環境となっている場合等である。このような場合においても、再度ステップＳ１１２～Ｓ１１６の処理を実行することにより自己位置推定をやり直しても良い。

　次に、自己位置推定モデル学習装置１０により学習された自己位置推定モデルにより自己位置を推定するロボットＲＢについて説明する。

　図８には、ロボットＲＢの概略構成を示した。図８に示すように、ロボットＲＢは、自己位置推定装置４０、カメラ４２、ロボット情報取得部４４、報知部４６、及び自律走行部４８を備える。自己位置推定装置４０は、取得部５０及び制御部５２を備える。

　カメラ４２は、スタート地点から目的地ｐ_ｇに移動するまでの間、ロボットＲＢの周囲を予め定めた間隔で撮影し、撮影した局所画像を自己位置推定装置４０の取得部５０に出力する。

　取得部５０は、ロボットＲＢを俯瞰した位置から撮影された俯瞰画像を図示しない外部装置に無線通信により要求して取得する。

　制御部５２は、自己位置推定モデル学習装置１０で学習された自己位置推定モデルの機能を有する。すなわち、制御部５２は、取得部５０により取得された時系列の同期した局所画像及び俯瞰画像に基づいて、ロボットＲＢの位置を推定する。

　ロボット情報取得部４４は、ロボットＲＢの速度をロボット情報として取得する。ロボットＲＢの速度は、例えば速度センサを用いて取得する。ロボット情報取得部４４は、取得したロボットＲＢの速度を取得部５０に出力する。

　取得部５０は、カメラ４２が撮影した局所画像に基づいて人間ＨＢの状態を取得する。具体的には、公知の手法を用いて撮影画像を解析し、ロボットＲＢの周囲に存在する人間ＨＢの位置及び速度を算出する。

　制御部５２は、ロボットＲＢを目的地ｐ_ｇまで自律走行するように制御するための学習済みのロボット制御モデルの機能を有する。

　ロボット制御モデルは、例えばロボットＲＢの状態に関するロボット情報、ロボットＲＢの周囲の環境に関する環境情報、及びロボットＲＢが到達すべき目的地に関する目的地情報を入力として、ロボットＲＢの状態に応じた行動を選択して出力するモデルであり、例えば強化学習によって学習済みのモデルが用いられる。ここで、ロボット情報は、ロボットＲＢの位置及び速度の情報を含む。また、環境情報は、動的な環境に関する情報、具体的には、例えばロボットＲＢの周囲に存在する人間ＨＢの位置及び速度の情報を含む。

　制御部５２は、目的地情報、ロボットＲＢの位置及び速度、及び人間ＨＢの状態情報を入力として、ロボットＲＢの状態に応じた行動を選択し、選択した行動に基づいて報知部４６及び自律走行部４８の少なくとも一方を制御する。

　報知部４６は、音声を出力したり、警告音を出力したりすることにより、ロボットＲＢの存在を周囲の人間ＨＢに報知する機能を有する。

　自律走行部４８は、タイヤ及びタイヤを駆動するモータ等のロボットＲＢを自律走行させる機能を有する。

　制御部５２は、選択された行動が、指定された方向及び速度でロボットＲＢを移動させる行動であった場合は、指定された方向及び速度でロボットＲＢが移動するように自律走行部４８を制御する。

　また、制御部５２は、選択された行動が介入行動であった場合には、「道を空けてください」等のメッセージを音声出力したり、警告音を鳴らすよう報知部４６を制御する。

　次に、自己位置推定装置４０のハードウェア構成について説明する。

　図９に示すように、自己位置推定装置４０は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）６１、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）６２、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）６３、ストレージ６４、及び通信インタフェース６５を有する。各構成は、バス６６を介して相互に通信可能に接続されている。

　本実施形態では、ストレージ６４には、自己位置推定プログラムが格納されている。ＣＰＵ６１は、中央演算処理ユニットであり、各種プログラムを実行したり、各構成を制御したりする。すなわち、ＣＰＵ６１は、ストレージ６４からプログラムを読み出し、ＲＡＭ６３を作業領域としてプログラムを実行する。ＣＰＵ６１は、ストレージ６４に記録されているプログラムに従って、上記各構成の制御及び各種の演算処理を行う。

　ＲＯＭ６２は、各種プログラム及び各種データを格納する。ＲＡＭ６３は、作業領域として一時的にプログラム又はデータを記憶する。ストレージ６４は、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）又はＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）により構成され、オペレーティングシステムを含む各種プログラム、及び各種データを格納する。

　通信インタフェース６５は、他の機器と通信するためのインタフェースであり、例えば、イーサネット（登録商標）、ＦＤＤＩ又はＷｉ－Ｆｉ（登録商標）等の規格が用いられる。

　次に、自己位置推定装置４０の作用について説明する。

　図１０は、自己位置推定装置４０による自己位置推定処理の流れを示すフローチャートである。ＣＰＵ５１がストレージ６４から自己位置推定プログラムを読み出して、ＲＡＭ６３に展開し実行することにより、自己位置推定処理が行なわれる。

　ステップＳ２００では、ＣＰＵ６１が、取得部５０として、目的地ｐ_ｇの位置情報を図示しない外部装置から無線通信により取得する。

　ステップＳ２０２では、ＣＰＵ６１が、取得部５０として、時系列のＮ個の局所画像Ｉ１（＝｛Ｉ１_１、Ｉ１_２、・・・、Ｉ１_Ｎ｝）をカメラ４２から取得する。

　ステップＳ２０４では、ＣＰＵ６１が、取得部５０として、局所画像Ｉ１と同期した時系列のＮ個の俯瞰画像Ｉ２（＝｛Ｉ２_１、Ｉ２_２、・・・、Ｉ２_Ｎ｝）を図示しない外部装置に要求して取得する。このとき、本ルーチンを前回実行して推定したロボットＲＢの位置ｐ_ｔ－１を外部装置に送信し、前回推定したロボットＲＢの位置ｐ_ｔ－１の周辺を含む俯瞰画像を外部装置から取得する。

　ステップＳ２０６では、ＣＰＵ６１が、制御部５２として、局所画像Ｉ１に基づいて、第１の軌跡情報ｔ_１を算出する。

　ステップＳ２０８では、ＣＰＵ６１が、制御部５２として、俯瞰画像Ｉ２に基づいて、第２の軌跡情報ｔ_２を算出する。

　ステップＳ２１０では、ＣＰＵ６１が、制御部５２として、第１の軌跡情報ｔ_１に基づいて、第１の特徴ベクトルφ_１（ｔ_１）を算出する。

　ステップＳ２１２では、ＣＰＵ６１が、制御部５２として、第２の軌跡情報ｔ_２のうち、部分領域Ｗ_１～Ｗ_Ｍの第２の軌跡情報ｔ_２１～ｔ_２Ｍに基づいて、第２の特徴ベクトルφ_２（ｔ_２１）～φ_２（ｔ_２Ｍ）を算出する。

　ステップＳ２１４では、ＣＰＵ６１が、制御部５２として、第１の特徴ベクトルφ_１（ｔ_１）と、第２の特徴ベクトルφ_２（ｔ_２１）～φ_２（ｔ_２Ｍ）の各々と、の類似度を表す距離ｇ（φ_１（ｔ_１）、φ_２（ｔ_２１））～ｇ（φ_１（ｔ_１）、φ_２（ｔ_２Ｍ））を算出する。すなわち、部分領域Ｗ毎に距離を算出する。

　ステップＳ２１６では、ＣＰＵ６１が、制御部５２として、ステップＳ２１４で算出された距離ｇ（φ_１（ｔ_１）、φ_２（ｔ_２１））～ｇ（φ_１（ｔ_１）、φ_２（ｔ_２Ｍ））のうち、最も小さい距離に対応する第２の特徴ベクトルφ_２（ｔ_２）の部分領域Ｗの代表位置、例えば中心位置を自己位置ｐ_ｔとして推定する。

　ステップＳ２１８では、ＣＰＵ６１が、取得部５０として、ロボットＲＢの状態としてロボットの速度をロボット情報取得部４４から取得する。また、ステップＳ２０２で取得した局所画像を公知の手法を用いて解析し、ロボットＲＢの周囲に存在する人間ＨＢの状態に関する状態情報、すなわち人間ＨＢの位置及び速度を算出する。

　ステップＳ２２０では、ＣＰＵ６１が、制御部５２として、ステップＳ２００で取得した目的地情報、ステップＳ２１６で推定したロボットＲＢの位置、ステップＳ２１８で取得したロボットＲＢの速度、及びステップＳ２１８で取得した人間ＨＢの状態情報に基づいて、ロボットＲＢの状態に応じた行動を選択し、選択した行動に基づいて報知部４６及び自律走行部４８の少なくとも一方を制御する。

　ステップＳ２２２では、ＣＰＵ６１が、制御部５２として、ロボットＲＢが目的地ｐ_ｇに到達したか否かを判定する。すなわち、ロボットＲＢの位置ｐ_ｔが、目的地ｐ_ｇと一致するか否かを判定する。そして、ロボットＲＢが目的地ｐ_ｇに到達したと判定した場合は、本ルーチンを終了する。一方、ロボットＲＢが目的地ｐ_ｇに到達していないと判定した場合は、ステップＳ２０２へ移行し、ロボットＲＢが目的地ｐ_ｇに到達したと判定されるまでステップＳ２０２～Ｓ２２２の処理を繰り返す。なお、ステップＳ２０２、Ｓ２０４の処理は取得工程の一例である。また、ステップＳ２０６～Ｓ２１６の処理は、推定工程の一例である。

　このように、ロボットＲＢは、自己位置推定モデル学習装置１０によって学習された自己位置推定モデルに基づいて自己位置を推定しながら目的地まで自律走行する。

　なお、本実施形態では、ロボットＲＢが自己位置推定装置４０を備えた場合について説明したが、自己位置推定装置４０の機能を外部サーバに設けてもよい。この場合、ロボットＲＢは、カメラ４２で撮影した局所画像を外部サーバに送信する。外部サーバは、ロボットＲＢから送信された局所画像及び俯瞰画像を提供する装置から取得した俯瞰画像に基づいてロボットＲＢの位置を推定し、ロボットＲＢに送信する。そして、ロボットＲＢは、外部サーバから受信した自己位置に基づいて行動を選択し、目的地まで自律走行する。

　また、本実施形態では、自己位置推定対象が自律走行型のロボットＲＢの場合について説明したが、これに限らず、自己位置推定対象が、人間が携帯する携帯端末装置であってもよい。この場合、携帯端末装置に自己位置推定装置４０の機能を設ける。

　また、上記各実施形態でＣＰＵがソフトウェア（プログラム）を読み込んで実行したロボット制御処理を、ＣＰＵ以外の各種のプロセッサが実行してもよい。この場合のプロセッサとしては、ＦＰＧＡ（Ｆｉｅｌｄ－Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）等の製造後に回路構成を変更可能なＰＬＤ（Ｐｒｏｇｒａｍｍａｂｌｅ　Ｌｏｇｉｃ　Ｄｅｖｉｃｅ）、及びＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎ　Ｓｐｅｃｉｆｉｃ　Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が例示される。また、自己位置推定モデル学習処理及び自己位置推定処理を、これらの各種のプロセッサのうちの１つで実行してもよいし、同種又は異種の２つ以上のプロセッサの組み合わせ（例えば、複数のＦＰＧＡ、及びＣＰＵとＦＰＧＡとの組み合わせ等）で実行してもよい。また、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子等の回路素子を組み合わせた電気回路である。

　また、上記各実施形態では、自己位置推定モデル学習プログラムがストレージ１４に予め記憶され、自己位置推定プログラムがストレージ６４に予め記憶されている態様を説明したが、これに限定されない。プログラムは、ＣＤ－ＲＯＭ（Ｃｏｍｐａｃｔ　Ｄｉｓｃ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ＤＶＤ－ＲＯＭ（Ｄｉｇｉｔａｌ　Ｖｅｒｓａｔｉｌｅ　Ｄｉｓｃ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、及びＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）メモリ等の記録媒体に記録された形態で提供されてもよい。また、プログラムは、ネットワークを介して外部装置からダウンロードされる形態としてもよい。

　本明細書に記載された全ての文献、特許出願、及び技術規格は、個々の文献、特許出願、及び技術規格が参照により取り込まれることが具体的かつ個々に記された場合と同程度に、本明細書中に参照により取り込まれる。

１自己位置推定モデル学習システム
１０自己位置推定モデル学習装置
２０シミュレータ
３０取得部
３２学習部
３３軌跡情報算出部
３４特徴ベクトル算出部
３５距離算出部
３６自己位置推定部
４０自己位置推定装置
４２カメラ
４４ロボット情報取得部
４６報知部
４８自律走行部
５０取得部
５２制御部
ＨＢ人間
ＲＢロボット

Claims

　コンピュータが、
　動的な環境において自己位置推定対象からの視点で撮影された局所画像と、前記自己位置推定対象を俯瞰した位置から撮影された俯瞰画像であって、前記局所画像と同期した俯瞰画像と、を時系列で取得する取得工程と、
　時系列で取得された前記局所画像及び前記俯瞰画像を入力として、前記自己位置推定対象の位置を出力する自己位置推定モデルを学習する学習工程と、
　を含む処理を実行する自己位置推定モデル学習方法。
　前記学習工程は、
　前記局所画像に基づいて第１の軌跡情報を算出すると共に、前記俯瞰画像に基づいて第２の軌跡情報を算出する軌跡情報算出工程と、
　前記第１の軌跡情報に基づいて第１の特徴量を算出すると共に、前記第２の軌跡情報に基づいて第２の特徴量を算出する特徴量算出工程と、
　前記第１の特徴量と前記第２の特徴量との距離を算出する距離算出工程と、
　前記距離に基づいて前記自己位置推定対象の位置を推定する推定工程と、
　前記第１の特徴量と前記第２の特徴量との類似度が高いほど距離が小さくなるように前記自己位置推定モデルのパラメータを更新する更新工程と、
　を含む請求項１記載の自己位置推定モデル学習方法。
　前記特徴量算出工程は、前回推定された前記自己位置推定対象の位置の近傍の領域から選択された複数の部分領域における前記第２の軌跡情報に基づいて前記第２の特徴量を算出し、
　前記距離算出工程は、前記複数の部分領域毎に前記距離を算出し、
　前記推定工程は、前記複数の部分領域毎に算出した前記距離のうち、最も距離が小さい部分領域の予め定めた位置を前記自己位置推定対象の位置として推定する
　請求項２記載の自己位置推定モデル学習方法。
　動的な環境において自己位置推定対象からの視点で撮影された局所画像と、前記自己位置推定対象を俯瞰した位置から撮影された俯瞰画像であって、前記局所画像と同期した俯瞰画像と、を時系列で取得する取得部と、
　時系列で取得された前記局所画像及び前記俯瞰画像を入力として、前記自己位置推定対象の位置を出力する自己位置推定モデルを学習する学習部と、
　を含む自己位置推定モデル学習装置。
　コンピュータに、
　動的な環境において自己位置推定対象からの視点で撮影された局所画像と、前記自己位置推定対象を俯瞰した位置から撮影された俯瞰画像であって、前記局所画像と同期した俯瞰画像と、を時系列で取得する取得工程と、
　時系列で取得された前記局所画像及び前記俯瞰画像を入力として、前記自己位置推定対象の位置を出力する自己位置推定モデルを学習する学習工程と、
　を含む処理を実行させるための自己位置推定モデル学習プログラム。
　コンピュータが、
　動的な環境において自己位置推定対象からの視点で撮影された局所画像と、前記自己位置推定対象を俯瞰した位置から撮影された俯瞰画像であって、前記局所画像と同期した俯瞰画像と、を時系列で取得する取得工程と、
　時系列で取得された前記局所画像及び前記俯瞰画像と、請求項１～３の何れか１項に記載の自己位置推定モデル学習方法により学習された自己位置推定モデルと、に基づいて、前記自己位置推定対象の自己位置を推定する推定工程と、
　を含む処理を実行する自己位置推定方法。
　動的な環境において自己位置推定対象からの視点で撮影された局所画像と、前記自己位置推定対象を俯瞰した位置から撮影された俯瞰画像であって、前記局所画像と同期した俯瞰画像と、を時系列で取得する取得部と、
　時系列で取得された前記局所画像及び前記俯瞰画像と、請求項４記載の自己位置推定モデル学習装置により学習された自己位置推定モデルと、に基づいて、前記自己位置推定対象の自己位置を推定する推定部と、
　を含む自己位置推定装置。
　コンピュータに、
　動的な環境において自己位置推定対象からの視点で撮影された局所画像と、前記自己位置推定対象を俯瞰した位置から撮影された俯瞰画像であって、前記局所画像と同期した俯瞰画像と、を時系列で取得する取得工程と、
　時系列で取得された前記局所画像及び前記俯瞰画像と、請求項１～３の何れか１項に記載の自己位置推定モデル学習方法により学習された自己位置推定モデルと、に基づいて、前記自己位置推定対象の自己位置を推定する推定工程と、
　を含む処理を実行させるための自己位置推定プログラム。
　動的な環境においてロボットからの視点で撮影された局所画像と、前記ロボットを俯瞰した位置から撮影された俯瞰画像であって、前記局所画像と同期した俯瞰画像と、を時系列で取得する取得部と、
　時系列で取得された前記局所画像及び前記俯瞰画像と、請求項４記載の自己位置推定モデル学習装置により学習された自己位置推定モデルと、に基づいて、前記ロボットの自己位置を推定する推定部と、
　前記ロボットを自律走行させる自律走行部と、
　前記推定部により推定された位置に基づいて、前記ロボットが目的地に移動するように前記自律走行部を制御する制御部と、
　を含むロボット。