WO2023013126A1

WO2023013126A1 - 情報処理装置、学習モデル、及び情報処理方法

Info

Publication number: WO2023013126A1
Application number: PCT/JP2022/009057
Authority: WO
Inventors: キリルファンヘールデン; 良寺澤; 康宏松田
Original assignee: ソニーグループ株式会社
Priority date: 2021-08-02
Filing date: 2022-03-03
Publication date: 2023-02-09

Abstract

ニューラルネットワークのサイズを小さくすることにより、学習時間及び推測時間を短縮すること。　被制御装置の現在の位置情報、前記被制御装置の移動先の位置情報を含む目標位置情報、及び前記被制御装置から最も近い障害物までの距離と方向を含む障害物情報が入力され、前記被制御装置が前記障害物を回避して前記移動先に移動するように更新された前記位置情報を出力する学習モデルを備える、情報処理装置を提供する。

Description

情報処理装置、学習モデル、及び情報処理方法

　本技術は、情報処理装置、学習モデル、及び情報処理方法に関する。

　従来、例えばロボットなどの被制御装置のモーションプランニングにニューラルネットワークが用いられている。

　例えば特許文献１、特許文献２、非特許文献１、及び非特許文献２において開示されている技術では、ロボットの周囲の環境に関するマップデータをニューラルネットワークに入力することにより、ニューラルネットワークに機械学習させることが開示されている。

国際公開第２０１９／２３９６８０号特開２０１８－１９０２４１号公報

L.Bouhalassa，L.Benchikh，Z.Ahmed-Foitih，K.Bouzgou，"Path Planning of the Manipulator Arm FANUC Based on Soft Computing Techniques"，International Review of Automatic Control，2020，13 (4) ，pp.171-181 A. H. Qureshi，J. Dong，A. Choe，M.C.Yip，"Neural Manipulation Planning on Constraint Manifolds"，IEEE Robotics and Automation Letters，2020，Vol.5，No.4，pp.6089-6096

　しかし、上記の特許文献１、特許文献２、非特許文献１、及び非特許文献２においては、環境全体をマップデータとしてニューラルネットワークに入力している。そのため、環境を把握するためのニューロンが多くなる傾向にある。ニューロンが多くなると、ニューラルネットワークが学習したり推測したりする処理時間が長くなるという問題が生じる。非特許文献２では、環境全体の特徴量である３Ｄボクセルマップをデータセットに圧縮しているが、環境全体を把握することには変わりがないため、上記の問題が解決されていない。

　そこで、本技術は、ニューラルネットワークのサイズを小さくすることにより、学習時間及び推測時間を短縮する情報処理装置、学習モデル、及び情報処理方法を提供することを主目的とする。

　本技術は、被制御装置の現在の位置情報、前記被制御装置の移動先の位置情報を含む目標位置情報、及び前記被制御装置から最も近い障害物までの距離と方向を含む障害物情報が入力され、前記被制御装置が前記障害物を回避して前記移動先に移動するように更新された前記位置情報を出力する学習モデルを備える、情報処理装置を提供する。
　前記学習モデルは、前記被制御装置が移動するステップ毎に前記位置情報を出力してよい。
　前記位置情報は、前記被制御装置が位置する座標情報を含んでよい。
　前記位置情報は、前記被制御装置の姿勢情報を含んでよい。
　前記学習モデルは、ニューラルネットワークであってよい。
　前記被制御装置は、ロボットであってよい。
　前記障害物情報は、前記ロボットが備える複数のリンクのそれぞれから最も近い障害物までの距離と方向を含んでよい。
　前記被制御装置の周囲の環境に関する環境情報を取得し、前記障害物情報を生成する障害物情報生成部をさらに備えてよい。
　前記障害物情報生成部は、符号付き距離場を用いて前記障害物情報を生成してよい。
　前記障害物情報生成部は、占有グリッドをボロノイグリッドに変換し、前記ボロノイグリッドに基づいて、前記障害物情報を生成してよい。
　前記情報処理装置は、前記障害物情報を記憶する記憶部をさらに備えており、前記学習モデルは、前記記憶部に記憶されている前記障害物情報が入力され、前記位置情報を出力してよい。
　また、本技術は、被制御装置の現在の位置情報、前記被制御装置の移動先の位置情報を含む目標位置情報、及び前記被制御装置から最も近い障害物までの距離と方向を含む障害物情報が入力され、前記被制御装置が前記障害物を回避して前記移動先に移動するように更新された前記位置情報を出力する学習モデルを提供する。
　また、本技術は、コンピュータが、学習モデルを用いて学習すること、を含み、前記学習モデルは、被制御装置の現在の位置情報、前記被制御装置の移動先の位置情報を含む目標位置情報、及び前記被制御装置から最も近い障害物までの距離と方向を含む障害物情報が入力され、前記被制御装置が前記障害物を回避して前記移動先に移動するように更新された前記位置情報を出力する、情報処理方法を提供する。

　本技術によれば、ニューラルネットワークのサイズを小さくすることにより、学習時間及び推測時間を短縮する情報処理装置、学習モデル、及び情報処理方法を提供できる。なお、ここに記載された効果は、必ずしも限定されるものではなく、本技術について説明されているいずれかの効果であってもよい。

本技術の一実施形態に係る情報処理装置が備える学習モデル１１について説明する概念図である。本技術の一実施形態に係る情報処理装置の処理を説明する概略図である。本技術の一実施形態に係る情報処理装置の構成例を示すブロック図である。本技術の一実施形態に係る情報処理装置のハードウェア構成例を示すブロック図である。本技術の一実施形態に係る情報処理装置の構成例を示すブロック図である。本技術の一実施形態に係る障害物情報生成部の処理の一例を示す概略図である。本技術の一実施形態に係る障害物情報生成部の処理の一例を示す概略図である。本技術の一実施形態に係る情報処理装置の構成例を示すブロック図である。本技術の一実施形態に係る情報処理方法の一例を示すフローチャートである。

　以下、本技術を実施するための好適な実施形態について図面を参照して説明する。なお、以下に説明する実施形態は、本技術の代表的な実施形態の一例を示したものであり、これにより本技術の範囲が限定されることはない。また、本技術は、下記の実施例及びその変形例のいずれかを組み合わせることができる。

　特に断りがない限り、図面において、「上」とは図中の上方向又は上側を意味し、「下」とは、図中の下方向又は下側を意味し、「左」とは図中の左方向又は左側を意味し、「右」とは図中の右方向又は右側を意味する。また、図面を用いた説明においては、同一又は同等の要素又は部材には同一の符号を付し、重複する説明は省略する。

　説明は以下の順序で行う。
　１．本技術の概要
　２．第１の実施形態（情報処理装置の例１）
　３．第２の実施形態（情報処理装置の例２）
　４．第３の実施形態（情報処理装置の例３）
　５．第４の実施形態（学習モデルの例）
　６．第５の実施形態（情報処理方法の例）

＜１．本技術の概要＞
　従来、例えばロボットなどの被制御装置のモーションプランニングに、ニューラルネットワークが用いられている。このニューラルネットワークには、被制御装置の周囲の環境に関する３Ｄ又は２Ｄのマップデータが入力される。マップデータとして、例えば、ボクセルデータ、ポリゴンデータ、又はピクセルデータなどが用いられている。

　このマップデータには環境全体に関する情報が含まれていることが一般的である。環境の多くの特徴を高解像度でとらえるために、大きなサイズのマップデータが必要となっている。環境全体に関する情報がニューラルネットワークに入力されるため、入力層のニューロンが多くなり、それに応じてニューラルネットワークのサイズが大きくなるという問題がある。その結果、ニューラルネットワークが学習したり推測したりする処理時間が長くなる。

　本技術では、環境全体に関する情報が含まれるマップデータではなく、例えばロボットなどの被制御装置から最も近い障害物までの距離と方向を含む障害物情報が学習モデルに入力される。これにより、学習モデルのサイズが大幅に小さくなる。その結果、学習モデルによる学習時間及び推測時間が大幅に短縮される。また、学習及び推測などの処理に用いられるリソースが限られる小型ロボットにおいても、高速な処理が可能となる。

＜２．第１の実施形態（情報処理装置の例１）＞
　本技術は、被制御装置の現在の位置情報、前記被制御装置の移動先の位置情報を含む目標位置情報、及び前記被制御装置から最も近い障害物までの距離と方向を含む障害物情報が入力され、前記被制御装置が前記障害物を回避して前記移動先に移動するように更新された前記位置情報を出力する学習モデルを備える、情報処理装置を提供する。

　本技術の一実施形態に係る情報処理装置が備える学習モデルについて、図１を参照しつつ説明する。図１は、本技術の一実施形態に係る情報処理装置が備える学習モデル１１について説明する概念図である。図１に示されるとおり、本技術の一実施形態に係る情報処理装置が備える学習モデル１１は、被制御装置の現在の位置情報Ｉ１、前記被制御装置の移動先の位置情報を含む目標位置情報Ｉ２、及び前記被制御装置から最も近い障害物までの距離と方向を含む障害物情報Ｉ３が入力される。そして、学習モデル１１は、前記被制御装置が前記障害物を回避して前記移動先に移動するように更新された前記位置情報Ｏ１を出力する。

　学習モデル１１に入力され、学習モデル１１が出力する位置情報Ｉ１、Ｉ２、及びＯ１は、前記被制御装置が位置する座標情報を含む。前記座標情報は、３Ｄ空間におけるＸ、Ｙ、及びＺ座標でありうるし、２Ｄ空間におけるＸ及びＹ座標でありうる。

　あるいは、位置情報Ｉ１、Ｉ２、及びＯ１は、前記被制御装置の姿勢情報を含む。前記姿勢情報は、例えば、被制御装置が備える複数の関節のそれぞれのクォータニオンなどでありうる。

　学習モデル１１に入力される目標位置情報Ｉ２は、被制御装置の移動先の位置情報を含む。被制御装置は、この移動先に向かって移動する。目標位置情報Ｉ２は、ユーザによって入力されてもよいし、被制御装置が自律的に決定してもよい。

　前記被制御装置は、例えばロボットであってよい。前記ロボットには、例えば、産業用ロボット、掃除用ロボット、自律ロボットエージェント、自動運転ロボット、自動運転車などが含まれる。その他、ロボットには、障害物を回避して移動するあらゆるロボットが含まれる。

　学習モデル１１に入力される障害物情報Ｉ３は、前記ロボットが備える複数のリンクのそれぞれから最も近い障害物までの距離と方向を含む。このことについて図２を参照しつつ説明する。図２は、本技術の一実施形態に係る情報処理装置の処理を説明する概略図である。図２に示されるとおり、ロボットＲが備える複数のリンクＬのそれぞれから最も近い障害物Ｏの表面までの距離と方向が距離ベクトルＶで示されている。この距離ベクトルＶが、障害物情報Ｉ３として学習モデル１１に入力されることができる。

　さらに、学習モデル１１は、被制御装置が移動するステップ毎に位置情報を出力することができる。つまり、学習モデル１１は、複数のステップからなる一連の移動経路を出力するのではなく、ステップ毎に、障害物情報Ｉ３が入力され、更新された位置情報Ｏ１を出力する。この障害物情報Ｉ３の入力と、ステップ毎の位置情報Ｏ１の出力が繰り返されることにより、被制御装置は障害物を回避して移動先に移動する。複数のステップからなる一連の移動経路を出力しないため、出力データのサイズが小さくなる。その結果、学習モデル１１のサイズがさらに小さくなる。

　このように、被制御装置の現在の位置情報、前記被制御装置の移動先の位置情報を含む目標位置情報、前記被制御装置から最も近い障害物までの距離と方向を含む障害物情報、及び前記被制御装置が前記障害物を回避して前記移動先に移動するように更新された前記位置情報を含むデータを用いて、学習モデル１１を生成することができる。学習モデル１１の生成方法は特に限定されないが、例えば、障害物情報Ｉ３と位置情報Ｏ１とが関連付けられている教師データを用いた教師あり学習が用いられてよい。あるいは、障害物を回避して移動したときに報酬を与える強化学習が用いられてもよい。強化学習として、例えばバンディットアルゴリズム、Ｑ学習、サルサ、モンテカルロ法などが用いられることができる。

　学習モデル１１の様態は特に限定されないが、例えば、人工ニューラルネットワーク（ＡＮＮ：Artificial Neural Network）、ディープニューラルネットワーク（ＤＮＮ：Deep Neural Network）、畳み込みニューラルネットワーク（ＣＮＮ：Convolutional Neural Network）、再帰型ニューラルネットワーク（ＲＮＮ：Recurrent Neural Network）など、各種のニューラルネットワークが用いられてよい。ＩＤ３やランダムフォレストなどの決定木学習、相関ルール学習などが用いられてもよい。あるいは、あるいは、遺伝的プログラミング（ＧＰ：Genetic Programming）、帰納論理プログラミング（ＩＬＰ：Inductive Logic Programming）、ファジィアルゴリズム、進化的アルゴリズム（ＥＡ：Evolutionary Algorithm）、強化学習（Reinforcement Learning）、サポートベクターマシン（ＳＶＭ：Support Vector Machine）、クラスタリング（Clustering）、ベイジアンネットワーク（Bayesian Network）などが用いられてよい。さらには、これらの手法を組み合わせたものや、これらを深層学習（Deep Learning）の技術を用いて発展させたものであってもよい。

　本技術の一実施形態に係る情報処理装置の構成例について図３を参照しつつ説明する。図３は、本技術の一実施形態に係る情報処理装置１００の構成例を示すブロック図である。図３に示されるとおり、本技術の一実施形態に係る情報処理装置１００は、入力部２０、学習部１０、及び出力部３０を備える。なお、この構成はあくまで一例であり、仕様や運用に応じて柔軟に変形されることができる。

　入力部２０は、学習モデル１１に入力する情報を受け付ける。この情報には、例えば、被制御装置の位置情報、ユーザによる操作情報、障害物情報、画像情報などが含まれる。

　学習部１０は、学習モデルを用いて、位置情報を学習する機能を有する。学習部１０は、被制御装置から最も近い障害物までの距離と方向を含む障害物情報に基づく学習を行い、前記被制御装置が前記障害物を回避して前記移動先に移動するように更新された前記位置情報を出力する。

　出力部３０は、学習モデル１１が出力した位置情報Ｏ１に基づいて、被制御装置を駆動させる。これにより、被制御装置は、位置や姿勢を変更する。

　図示を省略するが、情報処理装置１００は、それぞれの構成要素を制御する制御部を備えていてよい。この制御部は、例えばＣＰＵやＧＰＵなどが用いられることにより実現できる。

　本技術の一実施形態に係る情報処理装置１００は、プログラム及びハードウェアを利用することによって実現できる。情報処理装置１００のハードウェア構成について図４を参照しつつ説明する。図４は、本技術の一実施形態に係る情報処理装置１００のハードウェア構成例を示すブロック図である。図４に示されるとおり、情報処理装置１００は、構成要素として、ＧＰＵ１０１、ＲＡＭ１０２、ストレージ１０３、表示部１０４、通信部１０５、入力部２０、及び出力部３０などを備えることができる。それぞれの構成要素は、例えばデータの伝送路としてのバスで接続されている。

　ＧＰＵ１０１は、情報処理装置１００のそれぞれの構成要素を制御する。ＧＰＵ１０１は、学習部１０として機能することもできる。学習モデル１１は、例えばプログラムにより実現される。ＧＰＵ１０１はこのプログラムを読み込むことにより学習部１０として機能する。

　ＲＡＭ１０２は、例えば、ＧＰＵ１０１により実行されるプログラム等を一時的に記憶する。

　ストレージ１０３は、学習モデルなど、ＧＰＵ１０１の処理に必要な様々なデータを記憶する。ストレージ１０３は、例えばストレージデバイス等を利用することにより実現されうる。

　表示部１０４は、ユーザに対して情報を表示する。表示部１０４は、例えばＬＣＤ（Liquid Crystal Display）またはＯＬＥＤ（Organic Light-Emitting Diode）等により実現される。

　通信部１０５は、被制御装置から送信された情報を受信する。通信部１０５は、例えばＷｉ－Ｆｉ、Ｂｌｕｅｔｏｏｔｈ（登録商標）、ＬＴＥ（Long Term Evolution）等の通信技術を利用して、情報通信ネットワークを介して通信する機能を有する。

　入力部２０は、例えば、センサ、カメラ、キーボード、マウス、タッチパネル、ジョイスティックなどが用いられることにより実現できる。センサには、例えば、撮像センサや赤外線センサを含む光センサ、加速度センサ、ジャイロセンサ、地磁気センサ、熱センサ、振動センサ、ＧＮＳＳ（Global Navigation Satellite System）信号受信機などが含まれる。

　出力部３０は、例えばモータなどが用いられることにより実現できる。

　本技術の一実施形態に係る情報処理装置１００は、例えば、ロボット、スマートフォン端末、タブレット端末、携帯電話端末、ＰＤＡ（Personal Digital Assistant）、ＰＣ（Personal Computer）、サーバ、またはウェアラブル端末（ＨＭＤ：Head Mounted Display、メガネ型ＨＭＤ、時計型端末、バンド型端末等）などのコンピュータでありうる。

　また、本技術の一実施形態に係る情報処理装置は、被制御装置に備えられていてよい。つまり、学習モデルは、被制御装置の一例であるロボットに備えられることができる。

　本技術の第１の実施形態に係る情報処理装置について説明した上記の内容は、技術的な矛盾が特にない限り、本技術の他の実施形態に適用できる。

＜３．第２の実施形態（情報処理装置の例２）＞
　本技術の一実施形態に係る情報処理装置は、前記被制御装置の周囲の環境に関する環境情報を取得し、前記障害物情報を生成する障害物情報生成部をさらに備えることができる。このことについて図５を参照しつつ説明する。図５は、本技術の一実施形態に係る情報処理装置１００の構成例を示すブロック図である。図５に示されるとおり、本技術の一実施形態に係る情報処理装置１００は、障害物情報生成部４０をさらに備えている。障害物情報生成部４０は、入力部２０が得た前記被制御装置の周囲の環境に関する環境情報を取得し、前記障害物情報を生成する。障害物情報生成部４０は、例えばＧＰＵなどが用いられることにより実現できる。

　障害物情報を生成する手段は特に限定されないが、例えば、障害物情報生成部４０は、符号付き距離場（ＳＤＦ：Signed Distance Field）を用いて前記障害物情報を生成することができる。

　ＳＤＦは、３Ｄ空間における距離グリッド（Distance grid）を記憶している。距離グリッドは、最も近い障害物までの距離を含む。例えば以下の非特許文献３において説明されている技術を用いて、３Ｄのメッシュデータに基づいて、距離グリッドを算出できる。

　＜非特許文献３＞
　“Generating Signed Distance Fields From Triangle Meshes”, IMM-TECHNICAL REPORT, 2002

　あるいは、障害物情報生成部４０は、占有グリッド（Occupancy grid）をボロノイグリッド（Voronoi grid）に変換し、前記ボロノイグリッドに基づいて、前記障害物情報を生成することができる。

　このことについて図６を参照しつつ説明する。図６は、本技術の一実施形態に係る障害物情報生成部４０の処理の一例を示す概略図である。

　障害物情報生成部４０は、例えば深度センサ付きカメラやＬｉＤＥＲなどから得られた占有グリッド（図６Ａ）を、ボロノイグリッド（図６Ｂ）に変換する。

　図６Ａに示される占有グリッドでは、障害物Ｏを含むセルが黒く塗りつぶされている。

　図６Ｂに示されるボロノイグリッドは、障害物Ｏを含むセルに一意の番号が付与されている。この図では、３つのセルが障害物Ｏを含んでおり、上から順に一意の番号が付与されている。

　障害物を含まない自由空間セルには、障害物Ｏを含むセルに付与された番号のうち、最も近いセルに付与された番号が付与されている。

　例えば以下の非特許文献４において説明されている技術を用いて、占有グリッドをボロノイグリッドに変換できる。

　＜非特許文献４＞
　T.Cao, K.Tang, A.Mohamed, T.Tan, “Parallel Banding Algorithm to Compute Exact Distance Transform with the GPU”, Association for Computing Machinery, 2010, pp.83-90

　障害物情報生成部４０は、このボロノイグリッドに基づいて、それぞれの自由空間セルと、このセルに付与された番号が示す、最も近い障害物を含むセルと、の距離を算出することにより、距離グリッド（図６Ｃ）を生成できる。

　距離グリッドが生成されると、距離グリッド内の任意のポイントから障害物までの距離を算出できる。この算出方法は特に限定されないが、２Ｄ空間では、例えばバイリニア補完法（Bilinear Interpolation）などが用いられることができる。３Ｄ空間では、例えばトリリニア補完法（Trilinear Interpolation）などが用いられることができる。

　バイリニア補完法を用いて距離を算出した結果について図７を参照しつつ説明する。図７は、本技術の一実施形態に係る障害物情報生成部４０の処理の一例を示す概略図である。図７に示されるとおり、ポイントＰから最も近い障害物までの距離は２．５と算出されている。

　距離グリッド内の任意のポイントから最も近い障害物までの距離と方向を示す距離ベクトルは、そのポイントの勾配の算出により得られる。距離ベクトルは、距離及び正規化（勾配）の乗算により得られる。ここで正規化とは、長さを１に等しくするためのベクトル長の正規化をいう。差分法（Finite difference method）及び勾配式（gradient formula）が用いられることにより、勾配が得られる。

　本技術の第２の実施形態に係る情報処理装置について説明した上記の内容は、技術的な矛盾が特にない限り、本技術の他の実施形態に適用できる。

＜４．第３の実施形態（情報処理装置の例３）＞
　本技術の一実施形態に係る情報処理装置は、前記障害物情報を記憶する記憶部をさらに備えており、前記学習モデルは、前記記憶部に記憶されている前記障害物情報が入力され、前記位置情報を出力することができる。このことについて図８を参照しつつ説明する。図８は、本技術の一実施形態に係る情報処理装置１００の構成例を示すブロック図である。図８に示されるとおり、本技術の一実施形態に係る情報処理装置１００は、障害物情報を記憶する記憶部５０を備えている。学習モデル１１は、記憶部５０に記憶されている障害物情報が入力され、前記障害物情報に基づいて更新された位置情報を出力することができる。記憶部５０は、例えばストレージデバイスなどが用いられることにより実現できる。

　被制御装置の周囲の環境に関する環境情報を取得する必要がないため、情報処理装置１００の処理速度が向上する。例えば、コの字型の障害物があるとき、この障害物全体の形状を記憶部５０が記憶できる。これにより、入力部２０からの障害物情報の入力が省略される。その結果、情報処理装置１００の処理速度が向上する。

　本技術の第３の実施形態に係る情報処理装置について説明した上記の内容は、技術的な矛盾が特にない限り、本技術の他の実施形態に適用できる。

＜５．第４の実施形態（学習モデルの例）＞
　本技術は、被制御装置の現在の位置情報、前記被制御装置の移動先の位置情報を含む目標位置情報、及び前記被制御装置から最も近い障害物までの距離と方向を含む障害物情報が入力され、前記被制御装置が前記障害物を回避して前記移動先に移動するように更新された前記位置情報を出力する学習モデルを提供する。この学習モデルについては、第１の実施形態などにおいて説明したため、再度の説明を省略する。

　本技術の一実施形態に係る学習モデルは、プログラムにより実現できる。このプログラムは、ほかのコンピュータ又はコンピュータシステムに格納されてもよい。この場合、コンピュータは、このプログラムが有する機能を提供するクラウドサービスを利用することができる。このクラウドサービスとして、例えばＳａａＳ（Software as a Service）、ＩａａＳ（Infrastructure as a Service）、ＰａａＳ（Platform as a Service）等が挙げられる。

　あるいは、学習モデルは、エッジサーバに格納されてもよい。クラウドで学習した学習済みモデルがエッジサーバに格納されてもよいし、エッジサーバに格納された学習モデルが学習してもよい。

　さらにこのプログラムは、様々なタイプの非一時的なコンピュータ可読媒体（non-transitory computer readable medium）を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体（tangible storage medium）を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記録媒体（例えば光磁気ディスク）、Compact Disc Read Only Memory（CD-ROM）、CD-R、CD-R/W、半導体メモリ（例えば、マスクROM、Programmable ROM（PROM）、Erasable PROM（EPROM）、フラッシュROM、Random Access Memory（RAM））を含む。また、上記プログラムは、様々なタイプの一時的なコンピュータ可読媒体（transitory computer readable medium）によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、上記プログラムをコンピュータに供給できる。

　本技術の第４の実施形態に係る学習モデルについて説明した上記の内容は、技術的な矛盾が特にない限り、本技術の他の実施形態に適用できる。

＜６．第５の実施形態（情報処理方法の例）＞
　本技術は、コンピュータが、学習モデルを用いて学習すること、を含み、前記学習モデルは、被制御装置の現在の位置情報、前記被制御装置の移動先の位置情報を含む目標位置情報、及び前記被制御装置から最も近い障害物までの距離と方向を含む障害物情報が入力され、前記被制御装置が前記障害物を回避して前記移動先に移動するように更新された前記位置情報を出力する、情報処理方法を提供する。

　本技術の一実施形態に係る情報処理方法について図９を参照しつつ説明する。図９は、本技術の一実施形態に係る情報処理方法の一例を示すフローチャートである。図９に示されるとおり、本技術の一実施形態に係る情報処理方法は、コンピュータが、学習モデルを用いて学習すること（ステップＳ１）を含む。前記学習モデルは、被制御装置の現在の位置情報、前記被制御装置の移動先の位置情報を含む目標位置情報、及び前記被制御装置から最も近い障害物までの距離と方向を含む障害物情報が入力され、前記被制御装置が前記障害物を回避して前記移動先に移動するように更新された前記位置情報を出力する、情報処理方法を提供する。

　本技術の一実施形態に係る情報処理方法は、上述した他の実施形態に係る技術を利用できる。そのため、再度の説明を省略する。

　本技術の第５の実施形態に係る情報処理方法について説明した上記の内容は、技術的な矛盾が特にない限り、本技術の他の実施形態に適用できる。

　なお、本技術に係る実施形態は、上述した各実施形態及に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

　また、本明細書に記載された効果はあくまでも例示であって限定されるものではなく、また他の効果があってもよい。

　また、本技術は、以下のような構成を取ることもできる。
［１］
　被制御装置の現在の位置情報、前記被制御装置の移動先の位置情報を含む目標位置情報、及び前記被制御装置から最も近い障害物までの距離と方向を含む障害物情報が入力され、前記被制御装置が前記障害物を回避して前記移動先に移動するように更新された前記位置情報を出力する学習モデルを備える、情報処理装置。
［２］
　前記学習モデルは、前記被制御装置が移動するステップ毎に前記位置情報を出力する、
　［１］に記載の情報処理装置。
［３］
　前記位置情報は、前記被制御装置が位置する座標情報を含む、
　［１］又は［２］に記載の情報処理装置。
［４］
　前記位置情報は、前記被制御装置の姿勢情報を含む、
　［１］から［３］のいずれか一つに記載の情報処理装置。
［５］
　前記学習モデルは、ニューラルネットワークである、
　［１］から［４］のいずれか一つに記載の情報処理装置。
［６］
　前記被制御装置は、ロボットである、
　［１］から［５］のいずれか一つに記載の情報処理装置。
［７］
　前記障害物情報は、前記ロボットが備える複数のリンクのそれぞれから最も近い障害物までの距離と方向を含む、
　［６］に記載の情報処理装置。
［８］
　前記被制御装置の周囲の環境に関する環境情報を取得し、前記障害物情報を生成する障害物情報生成部をさらに備える、
　［１］から［７］のいずれか一つに記載の情報処理装置。
［９］
　前記障害物情報生成部は、符号付き距離場を用いて前記障害物情報を生成する、
　［８］に記載の情報処理装置。
［１０］
　前記障害物情報生成部は、占有グリッドをボロノイグリッドに変換し、前記ボロノイグリッドに基づいて、前記障害物情報を生成する、
　［８］に記載の情報処理装置。
［１１］
　前記障害物情報を記憶する記憶部をさらに備えており、
　前記学習モデルは、前記記憶部に記憶されている前記障害物情報が入力され、前記位置情報を出力する、
　［１］から［１０］のいずれか一つに記載の情報処理装置。
［１２］
　被制御装置の現在の位置情報、前記被制御装置の移動先の位置情報を含む目標位置情報、及び前記被制御装置から最も近い障害物までの距離と方向を含む障害物情報が入力され、前記被制御装置が前記障害物を回避して前記移動先に移動するように更新された前記位置情報を出力する学習モデル。
［１３］
　コンピュータが、学習モデルを用いて学習すること、を含み、
　前記学習モデルは、被制御装置の現在の位置情報、前記被制御装置の移動先の位置情報を含む目標位置情報、及び前記被制御装置から最も近い障害物までの距離と方向を含む障害物情報が入力され、前記被制御装置が前記障害物を回避して前記移動先に移動するように更新された前記位置情報を出力する、情報処理方法。
［１４］
　被制御装置の現在の位置情報、前記被制御装置の移動先の位置情報を含む目標位置情報、前記被制御装置から最も近い障害物までの距離と方向を含む障害物情報、及び前記被制御装置が前記障害物を回避して前記移動先に移動するように更新された前記位置情報を含むデータを用いて、学習モデルを生成する学習モデル生成方法。

　Ｉ１　現在の位置情報
　Ｉ２　目標位置情報
　Ｉ３　障害物情報
　Ｏ１　位置情報
　１００　情報処理装置
　１０　学習部
　１１　学習モデル
　２０　入力部
　３０　出力部
　４０　障害物情報生成部
　５０　記憶部
　Ｓ１　学習モデルを用いて学習すること

Claims

　被制御装置の現在の位置情報、前記被制御装置の移動先の位置情報を含む目標位置情報、及び前記被制御装置から最も近い障害物までの距離と方向を含む障害物情報が入力され、前記被制御装置が前記障害物を回避して前記移動先に移動するように更新された前記位置情報を出力する学習モデルを備える、情報処理装置。
　前記学習モデルは、前記被制御装置が移動するステップ毎に前記位置情報を出力する、
　請求項１に記載の情報処理装置。
　前記位置情報は、前記被制御装置が位置する座標情報を含む、
　請求項１に記載の情報処理装置。
　前記位置情報は、前記被制御装置の姿勢情報を含む、
　請求項１に記載の情報処理装置。
　前記学習モデルは、ニューラルネットワークである、
　請求項１に記載の情報処理装置。
　前記被制御装置は、ロボットである、
　請求項１に記載の情報処理装置。
　前記障害物情報は、前記ロボットが備える複数のリンクのそれぞれから最も近い障害物までの距離と方向を含む、
　請求項６に記載の情報処理装置。
　前記被制御装置の周囲の環境に関する環境情報を取得し、前記障害物情報を生成する障害物情報生成部をさらに備える、
　請求項１に記載の情報処理装置。
　前記障害物情報生成部は、符号付き距離場を用いて前記障害物情報を生成する、
　請求項８に記載の情報処理装置。
　前記障害物情報生成部は、占有グリッドをボロノイグリッドに変換し、前記ボロノイグリッドに基づいて、前記障害物情報を生成する、
　請求項８に記載の情報処理装置。
　前記障害物情報を記憶する記憶部をさらに備えており、
　前記学習モデルは、前記記憶部に記憶されている前記障害物情報が入力され、前記位置情報を出力する、
　請求項１に記載の情報処理装置。
　被制御装置の現在の位置情報、前記被制御装置の移動先の位置情報を含む目標位置情報、及び前記被制御装置から最も近い障害物までの距離と方向を含む障害物情報が入力され、前記被制御装置が前記障害物を回避して前記移動先に移動するように更新された前記位置情報を出力する学習モデル。
　コンピュータが、学習モデルを用いて学習すること、を含み、
　前記学習モデルは、被制御装置の現在の位置情報、前記被制御装置の移動先の位置情報を含む目標位置情報、及び前記被制御装置から最も近い障害物までの距離と方向を含む障害物情報が入力され、前記被制御装置が前記障害物を回避して前記移動先に移動するように更新された前記位置情報を出力する、情報処理方法。