WO2024057505A1

WO2024057505A1 - 移動体支援装置および移動体システム

Info

Publication number: WO2024057505A1
Application number: PCT/JP2022/034631
Authority: WO
Inventors: 直希細見; 真規義平; アニルドレッディコンダパッレィ
Original assignee: 本田技研工業株式会社
Priority date: 2022-09-15
Filing date: 2022-09-15
Publication date: 2024-03-21

Abstract

目的場所を基準とした空間指定が曖昧な指示に潜在している指示者の意図に鑑みて、当該指示にしたがって移動体が指定状態を実現するために適当なエリアを目的場所の周辺で探索しうる移動体を提供する。ユーザの指示、ならびに、移動体２０の位置および指定場所を臨む方向に応じた環境画像に基づいて作成されたシーングラフＳＧ１～ＳＧ３が入力データとして用いられてモデルが構築される。状態シーングラフＳＧ１を構成する１次ノードの特徴量が、移動体２０の位置を基準とした各オブジェクトとの相対配置関係（距離および角度）に応じて定義されている。状態シーングラフＳＧ１を構成する１次ノードの特徴量が、各オブジェクトの空間占有態様に応じて定義されている。

Description

移動体支援装置および移動体システム

　本発明は、移動体支援装置と、当該移動体支援装置および移動機能を有する移動体により構成されている移動体システムに関する。

　画像からシーングラフを生成する手法が提案されている（例えば、非特許文献１および２参照）。当該手法によれば、画像を入力するステップと、ディープラーニングに基づくオブジェクト検出方法を用いて画像からオブジェクトを検出するステップと、ＰＬＳＩを利用して、画像内のコンテキスト状況を検出するステップと、ディープラーニングに基づく関係検出およびオントロジ方法を用いて、オブジェクト同士の関係を検出するステップと、入力画像に対するシーングラフを生成するステップと、が実行される。

Ｌｅａｒｎｉｎｇ　３Ｄ　Ｓｅｍａｎｔｉｃ　Ｓｃｅｎｅ　Ｇｒａｐｈｓ　ｆｒｏｍ　３Ｄ　Ｉｎｄｏｏｒ　Ｒｅｃｏｎｓｔｒｕｃｔｉｏｎｓ，　ＣＶＰＲ２０２０（ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ｐｄｆ／２００４．０３９６７ｖ１．ｐｄｆ）Ｍｕｌｔｉ－Ｌａｙｅｒ　Ｓｅｍａｎｔｉｃ　ａｎｄ　Ｇｅｏｍｅｔｒｉｃ　Ｍｏｄｅｌｉｎｇ　ｗｉｔｈ　Ｎｅｕｒａｌ　Ｍｅｓｓａｇｅ　Ｐａｓｓｉｎｇ　ｉｎ　３Ｄ　Ｓｃｅｎｅ　Ｇｒａｐｈｓ　ｆｏｒ　Ｈｉｅｒａｒｃｈｉｃａｌ　Ｍｅｃｈａｎｉｃａｌ　Ｓｅａｒｃｈ，　ＩＣＲＡ２０２０（ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ｐｄｆ／２０１２．０４０６０．ｐｄｆ）

　しかし、従来技術によれば、ユーザがロボットなどの移動体に対して「〇〇（例えば、店舗または施設などの名称）の右に停めて」と指示しても、ユーザが意図する「〇〇の右」に該当するエリアに当該移動体を停止させることが困難であった。これは、移動体を停止させるためには一点の座標が必要であるものの、ユーザの指示に含まれる「右」という表現によって点が一義的に表現されていないためである。そもそも、ユーザは「右」という表現を一義的に定まる点の座標として意識しておらず、右という「空間」を指している場合が多い。このため、ユーザの指示に含まれている単語と空間とを紐づける必要ある。また、「右」という空間には、移動体が停止可能な空間およびそうではない空間がある。例えば、「〇〇の右」が空地だったら停まれるし、横断歩道であれば停止できない。

　そこで、本発明は、目的場所を基準とした空間指定が曖昧な指示に潜在している指示者の意図に鑑みて、当該指示にしたがって移動体が指定状態を実現するために適当なエリアを目的場所の周辺で探索しうる移動体システムを提供することを目的とする。

　本発明の移動体支援装置は、
　指定場所の周辺の指定空間における指定状態の実現に関する移動体への指示と、
　前記移動体の位置情報と、
　前記移動体と前記指定場所との位置関係に基づき取得された前記指定場所の周辺の画像に基づき作成された複数のシーングラフと、を学習済みモデルに入力することにより、前記指定場所を基準とした複数の周辺空間に存在する複数のエリア候補のうち一つのエリア候補を出力する。

学習装置および移動体支援装置の構成に関する説明図。学習済みモデルの生成機能に関する説明図。複数のオブジェクトが含まれている画像に関する説明図。３次元高精細マップが２次元マップに投影された結果に関する説明図。状態シーングラフの例示説明図。レイアウトシーングラフの例示説明図。指示シーングラフの例示説明図。シーングラフの逐次的な畳み込みおよびプーリングの概念的な説明図。グラフニューラルネットワークに関する説明図。グラフニューラルネットワークに入力されるシーングラフの逐次的な畳み込みおよびプーリングの概念的な説明図。異なる走行シーンにおける正解データに関する説明図。障害物の存在態様が異なる走行シーンにおける正解データに関する説明図。移動体支援システムのエリア候補出力機能に関する説明図。

　（構成）
　図１に示されている本発明の一実施形態としての学習装置１００および移動体支援装置２００のそれぞれは、移動体２０の指定状態の実現を支援するためにデータベース１０２にネットワークを介してアクセス可能なデバイスに構成されている。移動体２０および移動体支援装置２００が「移動体システム」を構成する。

　データベース１０２は、移動体２０の周辺の様子を表わす環境画像（本発明の「画像」に相当する。）、３次元高精細地図（地図情報）、グラフニューラルネットグラフおよび学習済みモデルなどを記憶保持する。本実施形態では、データベース１０２が、学習装置１００および移動体支援装置２００とは別個のデバイスまたはデータベースサーバにより構成されているが、学習装置１００および／または移動体支援装置２００の構成要素であってもよい。

　学習装置１００は、第１シーングラフ作成要素１１０および学習済みモデル生成要素１２０を備えている。第１シーングラフ作成要素１１０および学習済みモデル生成要素１２０のそれぞれは、ＣＰＵおよび／またはプロセッサコアなどの演算処理要素、ＲＯＭおよび／またはＲＡＭなどの記憶要素、ならびに、入力・出力インターフェース回路等により構成されている。第１シーングラフ作成要素１１０および学習済みモデル生成要素１２０のそれぞれは、後述するシーングラフ作成および学習済みモデル生成のそれぞれなどの指定タスクを実行するように構成されている。機能要素が指定タスクを実行するように構成されている、とは、当該機能要素を構成するハードウェアが、ソフトウェアおよび必要に応じてデータを記憶要素から読み取り、当該ソフトウェアにしたがって当該データまたはその他のデータを対象として演算処理を実行することにより当該指定タスクを実行することを意味する。

　移動体支援装置２００は、第２シーングラフ作成要素２１０およびエリア候補出力要素２２０を備えている。第２シーングラフ作成要素２１０およびエリア候補出力要素２２０のそれぞれは、ＣＰＵおよび／またはプロセッサコアなどの演算処理要素、ＲＯＭおよび／またはＲＡＭなどの記憶要素、ならびに、入力・出力インターフェース回路等により構成されている。第２シーングラフ作成要素２１０およびエリア候補出力要素２２０のそれぞれは、後述するシーングラフ作成および学習済みモデル生成のそれぞれなどの指定タスクを実行するように構成されている。

　学習装置１００および移動体支援装置２００が同一のデバイスにより構成されていてもよい。この場合、第１シーングラフ作成要素１１０および第２シーングラフ作成要素２１０が単一のシーングラフ作成要素により構成されていてもよい。

　移動体２０は、自律移動機能、測位機能および無線通信機能を有する車両またはロボットにより構成されている。移動体２０は、移動体制御装置２１および撮像装置２２を備えている。移動体２０が、ユーザにより携帯されることで、当該ユーザの移動に伴って受動的に移動する情報処理端末（例えば、スマートホン）により構成されていてもよい。移動体支援装置２００は、移動体２０に搭載されているデバイス（例えば、移動体制御装置２１）により構成されていてもよい。

　移動体制御装置２１は、ＣＰＵおよび／またはプロセッサコアなどの演算処理要素、ＲＯＭおよび／またはＲＡＭなどの記憶要素、ならびに、入力・出力インターフェース回路等により構成されている。移動体制御装置２１は、移動体２０の自律移動機能、測位機能および無線通信機能を制御するように構成されている。撮像装置２２は、移動体２０の進行方向または前方の様子を撮像するように移動体２０に搭載されている。移動体２０は、撮像装置２２の撮像方向（光軸方向）を調節する機能および／または撮像方向を測定する機能を有していてもよい。

　（学習済みモデル生成機能）
　学習済みモデル生成機能により、指定場所の周辺の指定空間における移動体２０の指定状態に関する指示と、移動体２０の位置および指定場所を臨む方向に応じて取得された当該指定場所およびその周囲の状態が表わされている環境画像と、に基づいて学習済みモデルが生成される。

　具体的には、ユーザが所有するデバイスの入力インターフェースを通じた移動体２０に対する当該ユーザによる指示が、当該デバイスから学習装置１００に対して送信され、第１シーングラフ作成要素１１０により認識される（図２／ＳＴＥＰ１００）。当該環境画像はデータベース１０２に記憶保持されてもよく、当該デバイスから学習装置１００に対して直接的に送信されてもよい。

　「指示」は、指定場所の周辺の指定空間における移動体２０の指定状態に関する指示である。これにより、例えば「Ｘの右に停まってください」という指示が、単語Ｘにより表わされる指定場所の周辺における指定空間としての右側の空間において、移動体２０の指定状態としての停止している状態の実現に関する指示として認識される。また「Ｙの手前で減速してください」という指示が、単語Ｙにより表わされる指定場所の周辺における指定空間としての前側の空間において、移動体２０の指定状態としての減速を開始する状態の実現に関する指示として認識される。さらに「Ｚの左を通過してください」という指示が、単語Ｚにより表わされる指定場所の周辺における指定空間としての左側の空間において、移動体２０の指定状態としての通過している状態の実現に関する指示として認識される。

　指示を発するユーザは、移動体２０に搭乗しているユーザのほか、移動体２０とは異なる場所にいるユーザであってもよい。ユーザの指示は、音声による指示であってもよく、ジェスチャーによる指示であってもよい。

　移動体２０に搭載されている撮像装置２２により、当該移動体２０の位置および指定場所を臨む方向（撮像装置２２の撮像方向）に応じて取得された指定場所およびその周囲の状態が表わされている環境画像が取得される（図２／ＳＴＥＰ１０２）。当該環境画像はデータベース１０２に記憶保持されてもよく、移動体２０から学習装置１００に対して直接的に送信されてもよい。

　これにより、例えば、図３に示されているように、建造物Ｘ₀（ビル）、建造物Ｘ₀の２つの側面下端縁に沿って延在する歩道グリッドＸ₁₁、Ｘ₁₂、建造物Ｘ₀からみて歩道グリッドＸ₁₁、Ｘ₁₂の外側に広がっている車道グリッドＸ₂₁～Ｘ₂₆、ならびに、歩道グリッドＸ₁₂および車道グリッドＸ₂₄の境界に立っている樹木Ｘ₄₁、Ｘ₄₂が含まれている環境画像が取得される。建造物Ｘ₀の一の側面には店舗の看板Ｘ₀₁および窓Ｘ₀₂があり、他の側面には窓Ｘ₀３がある。図３に例示されている環境画像には、交通参加者としての車両Ｘ₅および歩行者Ｘ₆₁～Ｘ₆₄がさらに含まれている。

　移動体２０の（環境画像が取得された時点における）位置、環境画像および地図情報に基づき、第１シーングラフ作成要素１１０により状態シーングラフＳＧ１が作成される（図２／ＳＴＥＰ１１１）。

　地図情報は例えば３次元高精細マップであり、３次元構造物、路面情報および車線情報などの静的情報を含み、そこではオブジェクトまたは事物の種類および／または属性がラベルにより区別されるように定義されている。例えば、地面から一定以上の高さがあるオブジェクトおよび地形に沿って広がっているオブジェクトのそれぞれがラベルによって区別されている。ラベルは、ラベル面積（ラベルが付されたオブジェクトの環境画像における占有面積）およびラベルＩＤにより定義されている。

　第１位オブジェクトである「地面から一定以上の高さがあるオブジェクト」は、例えば、建造物、柱状構造物および樹木などの第２位オブジェクトに分類されている。第２位オブジェクトである「建造物」は、例えば、側壁、店舗看板、窓および人または車両の出入口など第３位オブジェクトに分類されている。第２位オブジェクトである「柱状構造物」は、例えば、交通信号機柱、交通標識柱および通信機柱など第３位オブジェクトに分類されている。第３位オブジェクト以降、オブジェクトがさらに細かく分類されていてもよい。

　第１位オブジェクトである「地形に沿って広がっているオブジェクト」は、例えば、車道および歩道などの第２位オブジェクトに分類されている。第２位オブジェクトである「車道」は、第３位オブジェクトとしての複数の車道グリッドに分割され、各車道グリッドが個別のオブジェクトとして定義されている。第３位オブジェクトである「車道グリッド」は、横断歩道、中央線、車線境界線およびゼブラゾーン等の道路標示などの第４位オブジェクトに分類されている。第２位オブジェクトである「歩道」は、例えば、複数の歩道グリッドに分割され、各歩道グリッドが個別のオブジェクトとして定義されている。第３位オブジェクトである「歩道グリッド」は、点字ブロックなどの道路標示等の第４位オブジェクトに分類されている。第４位オブジェクト以降、オブジェクトがさらに細かく分類されていてもよい。

　環境画像に映り込んでいるオブジェクトのそれぞれに対して、３次元高精細マップにおいて定義されているラベルが割り当てられる。車道に存在する車両、歩道または車道（横断歩道）に存在する歩行者など、動的情報に該当するオブジェクトに対してもラベルが割り当てられる。状態シーングラフＳＧ１において、ラベルが割り当てられた各オブジェクト（またはそのラベル）が１次ノードとして定義されている。

　図４には、３次元高精細地図の静的オブジェクト（建造物、歩道グリッドおよび車道グリッド）が２次元マップとして投影された結果が示されている。図４に例示されている２次元マップには、図３に示されている環境画像に含まれているオブジェクトのうち、静的オブジェクトとしての建造物Ｘ₀（ビル）、建造物Ｘ０の２つの側面下端縁に沿って延在する歩道グリッドＸ₁₁、Ｘ₁₂、ならびに、車道グリッドＸ₂₁～Ｘ₂₆が含まれている。２次元マップの利用により、各オブジェクトの隣接関係、ならびに、移動体２０を基準とした各オブジェクトとの相対配置関係の認識精度の向上が図られる。

　状態シーングラフＳＧ１において、各オブジェクトの隣接関係がエッジとして定義されている。オブジェクトの隣接関係は、一のオブジェクトを基準として、これに隣接する他のオブジェクトがいずれの方向（例えば、前後左右方向）に存在しているかを表わしている。

　１次ノードの特徴量がオブジェクトと移動体２０との相対配置関係およびオブジェクトの空間占有態様に応じて定義されている。オブジェクトと移動体２０との相対配置関係は、オブジェクト（またはラベル）の中心または重心と、移動体２０（または撮像装置２２）とオブジェクトとの相対距離、および、移動体２０の進行方向または姿勢に応じた方位を基準としたオブジェクトが存在する方向の方位角により定義されている。

　１次ノードおよびその特徴量を特定可能な情報が含まれている環境画像（例えば、撮像装置２２からの距離を画素値として有する測距画像）が得られた場合、３次元高精細マップは使用されなくてもよい。

　オブジェクトの空間占有態様は、例えば、静的オブジェクト（建造物、柱状構造物、樹木など）が移動体２０の通行を許容しえない形態でエリアを占有しているか否か（地面から一定以上の高さがあるオブジェクトに該当するか否か）を表わす占有フラグ（０‥非占有、１‥占有）により定義されている。さらに、オブジェクトの空間占有態様は、指定オブジェクトとしての動的オブジェクト（車両、歩行者など）が移動体２０と干渉しうる形態でエリアに存在しているか否かを表わす干渉フラグ（０‥不存在、１‥存在）により定義されている。

　例えば、１次ノードに相当するオブジェクトが「道路グリッド」であって、当該道路グリッドに他の車両等が存在している場合、当該オブジェクトに相当するエリアを移動体２０は通行可能であるものの、当該他の車両等に干渉する可能性があるので、占有フラグは「０」であるものの、干渉フラグは「１」であると定義される。ただし、道路標示（例：横断歩道、駐停車禁止）に鑑みて停止が許容されていない車道グリッドに関しては、移動体２０の指定状態が停止状態に該当する場合に占有フラグとして「１」が定義または付与されている。１次ノードの特徴量は、さらに「ラベル面積」および「ラベルＩＤ」により定義されていてもよい。

　図５に模式的に示されているように、状態シーングラフＳＧ１において、特徴量ｃ１（ｘ）を有している複数の１次ノードｎ_1(x)（ｘは各オブジェクトまたはそのラベルを表わしている。）がエッジにより関係付けられている。図５に例示されているシーングラフＳＧ１には、指定場所（例：指定店舗またはこれが入っているビル）の状態を表わすオブジェクトｏ₀₁、ｏ₀₂およびｏ₀₃、指定場所を基準とした第１周辺空間（例：ビルの南側の空間）の状態を表わすオブジェクトｏ₁₁、ｏ₁₂およびｏ₁₃、指定場所を基準とした第１周辺空間（例：ビルの東側の空間）の状態を表わすオブジェクトｏ₂₁、ｏ₂₂、ｏ₂₃およびｏ₂₄、エリア候補（例：道路グリッド）の状態を表わすオブジェクトｏ_a1、ｏ_a2およびｏ_a3、ならびに、指定オブジェクト（例：交通参加者）の状態を表わすオブジェクトｏ_b1、ｏ_b2、ｏ_b3およびｏ_b4が含まれている。

　続いて、第１シーングラフ作成要素１１０により状態シーングラフＳＧ１が畳み込まれ、かつ、プーリングされることによってレイアウトシーングラフＳＧ２が作成される（図２／ＳＴＥＰ１１２）。これにより、例えば、図５に模式的に示されている状態シーングラフＳＧ１が畳み込まれた結果として、図６に模式的に示されているレイアウトシーングラフＳＧ２が作成される。レイアウトシーングラフＳＧ２の粒度は、畳み込み前の状態シーングラフＳＧ１の粒度よりも低い。

　図６に示されているレイアウトシーングラフＳＧ２を定義する２次ノードｎ_2(o0)、ｎ_2(o1)、ｎ_2(o2)、ｎ_2(oa)およびｎ_2(ob)のそれぞれにより、「指定場所」、「第１周辺空間」および「第２周辺空間」、「複数の周辺空間におけるエリア候補」ならびに「指定オブジェクト」のそれぞれに対応する１次ノードクラスタのそれぞれが表わされている。例えば、指定場所に対応する１次ノードクラスタは、図５に示されている状態シーングラフＳＧ１における当該指定場所（例：指定店舗またはこれが入っているビル）の状態を表わす１次ノードｎ_1(o01)、ｎ_1(o02)およびｎ_1(o03)により構成されている。図６に示されているレイアウトシーングラフＳＧ２を定義するエッジにより、２次ノードｎ_2(o0)、ｎ_2(o1)、ｎ_2(o2)、ｎ_2(oa)およびｎ_2(ob)のそれぞれにより表わされている１次ノードクラスタに相当するオブジェクトクラスタの隣接関係が表わされている。例えば、「指定場所」に相当する２次ノードｎ_2(o0)および「第２周辺空間」に相当するｎ_2(o2)の間のエッジは、第２周辺空間が指定場所の東側にあることを表わしている。２次ノードｎ_2(o0)、ｎ_2(o1)、ｎ_2(o2)、ｎ_2(oa)およびｎ_2(ob)のそれぞれは、畳み込み対象になった１次ノードクラスタの特徴量に応じて定まる（１次ノードクラスタの特徴量が集約された結果としての）特徴量を有している。

　さらに、第１シーングラフ作成要素１１０によりレイアウトシーングラフＳＧ２が畳み込まれ、かつ、プーリングされることによって指示シーングラフＳＧ３が作成される（図２／ＳＴＥＰ１１３）。これにより、例えば、図６に模式的に示されているレイアウトシーングラフＳＧ２が畳み込まれた結果として、図７に模式的に示されている指示シーングラフＳＧ３が作成される。指示シーングラフＳＧ３の粒度は、畳み込み前のレイアウトシーングラフＳＧ２の粒度よりも低い。

　図７に示されている指示シーングラフＳＧ３を定義する３次ノードｎ_3(w0)、ｎ_3(w1)およびｎ_3(w2)のそれぞれにより、ユーザの指示に含まれている「指定場所」、「指定空間」および「指定状態」のそれぞれに関する単語に対応する２次ノードクラスタが表わされている。例えば、指定空間に対応する２次ノードクラスタは、図６に示されているレイアウトシーングラフＳＧ２における第１周辺空間および第２周辺空間の状態を表わす２次ノードｎ_2(o1)およびｎ_2(o2)ならびにこれらにエッジで関連付けられている２次ノードにより構成されている。図７に示されている指示シーングラフＳＧ３を定義するエッジにより、単語の隣接関係が表わされている。３次ノードｎ_3(w0)、ｎ_3(w1)およびｎ_3(w2)のそれぞれは、畳み込み対象になった２次ノードクラスタの特徴量に応じて定まる特徴量を有している。

　図８には、初期シーングラフＳＧ０が畳み込まれかつプーリングされることにより状態シーングラフＳＧ１（１次シーングラフ）が生成され、状態シーングラフＳＧ１が畳み込まれかつプーリングされることによりレイアウトシーングラフＳＧ２（２次シーングラフ）が生成され、かつ、レイアウトシーングラフＳＧ２が畳み込まれかつプーリングされることにより指示シーングラフＳＧ３（３次シーングラフ）が生成される手順が概念的に示されている。例えば、畳み込み手法としては汎用的な「Ａｇｇｒｅｇａｔｅ」、「Ｕｐｄａｔｅ」または「Ｒｅａｄｏｕｔ」が採用され、プーリング手法としては「ａｖｅｒａｇｅ　ｐｏｏｌｉｎｇ」が採用される。

　図８に示されているシーングラフＳＧ０、ＳＧ１、ＳＧ２およびＳＧ２のそれぞれには、三差路（またはＴ字路）に面した目的地または指定場所としての建造物Ｘ０と、当該三差路における（道路グリッドとしての）駐停車スペースＸ₂₁、Ｘ₂₂およびＸ₂₄と、が含まれている。図８に示されているように、駐停車スペースＸ₂₂は、建造物Ｘ₀の前（図＋の下方向）に存在し、駐停車スペースＸ₂₄は、建造物Ｘ₀の横（図８の左方向）に存在し、駐停車スペースＸ₂₁は建造物Ｘ₀に面していない道路に存在している。このシーンでは、駐停車スペースＸ₂₁に障害物が存在している。

　図８に示されている初期シーングラフＳＧ０には、左側から三差路に接近している車両が走行可能なレーンに沿って配置されている複数の初期ノードｎ_0(k)が含まれている。ゴールとする建造物Ｘ₀がノードとみなされている。３次元地図（高解像度地図）に記述された経路情報が不等間隔で離散化された位置情報がノードとされている。ノードを中心に定義された所定サイズのグリッドは占有・非占有・駐車禁止のアトリビュートを有している。グリッドのアトリビュートについて、横断歩道や交差点内および／または路駐禁止のような場所では駐車禁止として扱う。

　図８に示されている状態シーングラフＳＧ１には、建造物Ｘ₀に相当する１次ノードｎ₀₍₁₎のほか、道路グリッドに相当する複数の初期ノードｎ_0(k)が畳み込みかつプーリングされた結果としての、当該複数の初期ノードｎ_0(k)よりも疎に配置された複数の１次ノードｎ_k(1)が含まれている。複数の１次ノードｎ_1(k)には、三差路において駐停車スペースＸ₂₁、Ｘ₂₂およびＸ₂₄のそれぞれに対応する１次ノードｎ₁₍₁₎、ｎ₁₍₂₎およびｎ₁₍₄₎が含まれている。

　図８に示されているレイアウトシーングラフＳＧ２には、建造物Ｘ₀に相当する２次ノードｎ₀₍₂₎のほか、道路グリッドに相当する複数の１次ノードｎ_1(k)が畳み込みかつプーリングされた結果としての、三差路における駐停車スペースＸ₂₁、Ｘ₂₂およびＸ₂₄のそれぞれに対応する２次ノードｎ₂₍₁₎、ｎ₂₍₂₎およびｎ₂₍₄₎が含まれている。すなわち、２次ノードｎ₂₍₁₎、ｎ₂₍₂₎およびｎ₂₍₄₎のそれぞれは、三差路を構成する３本の道路のそれぞれにおける駐停車スペースＸ₂₁、Ｘ₂₂およびＸ₂₄のそれぞれおよびその近傍に存在する複数の１次ノードｎ_1(k)が畳み込みかつプーリングされた結果である。

　図８に示されている指示シーングラフＳＧ３には、建造物Ｘ₀に相当する３次ノードｎ₃₍₀₎のほか、駐停車スペースＸ₂₁、Ｘ₂₂およびＸ₂₄のうち、障害物が存在する駐停車スペースＸ₂₁に相当する２次ノードｎ₂₍₁₎と同一の３次ノードｎ₃₍₁₎、ならびに、障害物が存在しない駐停車スペースＸ₂₂およびＸ₂₄のそれぞれに相当する２次ノードｎ₂₍₂₎およびｎ₂₍₄₎が畳み込みかつプーリングされた結果としての３次ノードｎ₃₍₂₎が含まれている。

　次に、学習済みモデル生成要素１２０により、状態シーングラフＳＧ１、レイアウトシーングラフＳＧ２および指示シーングラフＳＧ３が、移動体２０の指定状態が実現されたエリアとともに入力データとしてグラフニューラルネットワークＧＮＮに入力されることによって学習済みモデルが生成または構築される（図２／ＳＴＥＰ１２０）。例えば、図９に示されているように、グラフニューラルネットワークＧＮＮは、入力層ＮＬ０、中間層ＮＬ１および出力層ＮＬ２により構成されている。グラフニューラルネットワークＧＮＮから出力される一のエリア候補と、入力データ（入力データ）が指す正解エリアとが一致するように、グラフニューラルネットワークＧＮＮを構成する各ノードの重み係数などのパラメータの値が調整されることによりモデルが構築される。

　図１０には、初期シーングラフＳＧ０が畳み込まれかつプーリングされることにより状態シーングラフＳＧ１（１次シーングラフ）が生成され、状態シーングラフＳＧ１が畳み込まれかつプーリングされることによりレイアウトシーングラフＳＧ２（２次シーングラフ）が生成され、かつ、レイアウトシーングラフＳＧ２が畳み込まれかつプーリングされることにより指示シーングラフＳＧ３（３次シーングラフ）が生成される手順が概念的に示されている。図１０において、「ＧＣＮ」はグラフ畳み込みニューラルネットワークによる畳み込み処理を表わし、「Ｐｏｏｌ」はプーリング処理を表わしている。

　図１１には、車両の異なる走行シーンのそれぞれにおける正解データが例示されている。図１１（１）に示されているように、左右に延びる道路に沿って図の左側から車両が当該道路に面している建造物Ｘ₀に対して接近している走行シーンについて説明する。この走行シーンでは、例えば「建造物Ｘ₀の前に停めて」、「建造物Ｘ₀の横に停めて」および「建造物Ｘ₀のそばに停めて」という指示に対して、当該道路の走行可能レーンにおいて、建造物Ｘ₀の前（図の下方向）の駐停車スペースＸ_2i-1、Ｘ_2iおよびＸ_2i+1のいずれかに車両を駐停車させることが正解として定義されている。

　図１１（２）に示されているように、左右に延びる道路に沿って図の右側から車両が当該道路に面している建造物Ｘ₀に対して接近している走行シーンについて説明する。この走行シーンでは、同様の指示に対して、当該道路の走行可能レーン（図１１（１）とは反対側のレーン）において、建造物Ｘ₀の前の駐停車スペースＸ_2j-1、Ｘ_2jおよびＸ_2j+1のいずれかに車両を駐停車させることが正解として定義されている。

　図１１（３）に示されているように、車両が図の左側から三差路に面している建造物Ｘ₀に対して接近している走行シーンについて説明する。この走行シーンでは、例えば「建造物Ｘ₀の前に停めて」、「建造物Ｘ₀の横に停めて」および「建造物Ｘ₀のそばに停めて」という指示に対して、当該三差路の走行可能レーンにおいて、建造物Ｘ₀の前（図の下方向）の駐停車スペースＸ_2i+1、建造物Ｘ₀の横（図の左方向）の駐停車スペースＸ_2iおよび建造物Ｘ₀から少し離れた駐停車スペースＸ_2i-1のそれぞれに車両を駐停車させることが正解として定義されている。

　図１１（４）に示されているように、車両が図の上側から三差路に面している建造物Ｘ₀に対して接近している走行シーンについて説明する。この走行シーンでは、例えば「建造物Ｘ₀の前に停めて」、「建造物Ｘ₀の横に停めて」および「建造物Ｘ₀のそばに停めて」という指示に対して、当該三差路の走行可能レーンにおいて、建造物Ｘ₀の横（図の左方向）の駐停車スペースＸ_2j、建造物Ｘ₀の前（図の下方向）の駐停車スペースＸ_2j+1および建造物Ｘ₀から少し離れた駐停車スペースＸ_2j-1のそれぞれに車両を駐停車させることが正解として定義されている。

　図１１（５）に示されているように、車両が図の左側から十字路に面している建造物Ｘ₀に対して接近している走行シーンについて説明する。この走行シーンでは、例えば「建造物Ｘ₀の前に停めて」、「建造物Ｘ₀の横に停めて」および「建造物Ｘ₀のそばに停めて」という指示に対して、当該十字路の走行可能レーンにおいて、建造物Ｘ₀の前（図の下方向）の駐停車スペースＸ_2i+1、建造物Ｘ₀の横（図の左方向）の駐停車スペースＸ_2iおよび建造物Ｘ₀から少し離れた駐停車スペースＸ_2i-1またはＸ_2i+2のそれぞれに車両を駐停車させることが正解として定義されている。

　図１１（６）に示されているように、車両が図の上側から十字路に面している建造物Ｘ₀に対して接近している走行シーンについて説明する。この走行シーンでは、例えば「建造物Ｘ₀の前に停めて」、「建造物Ｘ₀の横に停めて」および「建造物Ｘ₀のそばに停めて」という指示に対して、当該十字路の走行可能レーンにおいて、建造物Ｘ₀の横（図の左方向）の駐停車スペースＸ_2j、建造物Ｘ₀の前（図の下方向）の駐停車スペースＸ_2j+1および建造物Ｘ₀から少し離れた駐停車スペースＸ_2j-1またはＸ_2j+2のそれぞれに車両を駐停車させることが正解として定義されている。

　図１２には、図１１（３）に示されているように、車両が図の左側から三差路に面している建造物Ｘ₀に対して接近している走行シーンにおける正解データが例示されている。図１２（１）～（３）のそれぞれに示されているように、駐停車スペースＸ_2i-1、Ｘ_2iおよびＸ_2i+1のうち、障害物Ｘ₅₀が存在しない２つの駐停車スペースのうちいずれかに車両を駐停車させることが正解として定義されている。図１２（４）～（６）のそれぞれに示されているように、駐停車スペースＸ_2i-1、Ｘ_2iおよびＸ_2i+1のうち、障害物Ｘ₅₁およびＸ₅₂のそれぞれが存在しない１つの駐停車スペースに車両を駐停車させることが正解として定義されている。図１２（７）に示されているように、障害物が存在しない駐停車スペースＸ_2i-1、Ｘ_2iおよびＸ_2i+1のいずれかに車両を駐停車させることが正解として定義されている。図１２（８）のそれぞれに示されているように、障害物Ｘ₅₀、Ｘ₅₁およびＸ₅₂のそれぞれが存在する駐停車スペースＸ_2i-1、Ｘ_2iおよびＸ_2i+1のいずれにも車両を駐停車させないことが正解として定義されている。

　入力層ＮＬ０を構成するノードＮ３０、Ｎ２０およびＮ１０のそれぞれにおいて、３つのシーングラフＳＧ１～ＳＧ３のそれぞれを構成する１次、２次および３次ノードのそれぞれの特徴量がベクトル化される。

　中間層ＮＬ１において、ノード間で下から上に重み係数が伝搬され（ノードＮ１１０→Ｎ２１０→Ｎ３１０、ノードＮ１１２→Ｎ２１２→Ｎ３１２、ノードＮ１１４→Ｎ２１４→Ｎ３１４）、これに連続してノード間で上から下に重み係数が伝搬される（ノードＮ３１０→Ｎ２１１→Ｎ１１２、ノードＮ３１２→Ｎ２１３→Ｎ１１４）。中間層ＮＬ１において、ノードＮ２１０、Ｎ２１２およびＮ２１４の順で、中間のノードＮ２１１およびＮ２１３を飛ばして重み係数が伝搬される。

　出力層ＮＬ２には、３つのシーングラフＳＧ１～ＳＧ３のそれぞれに対応する１次判定結果を出力する３つのノードＮ３２、Ｎ２２およびＮ１２と、当該１次結果を統合することにより２次判定結果として一のエリア候補を出力するノードＮ４０と、が含まれている。グラフアテンションネットワーク（ＧＡＮ）が、グラフニューラルネットワークＧＮＮとして採用されてもよい。この場合、例えば、アテンションが導入されることにより、当該３つのノードＮ３２、Ｎ２２およびＮ１２の関係に重要度のスコア（重み係数）が付され、出力結果の柔軟な変更が図られる。

　（エリア候補出力機能）
　前記のように学習済みモデルが生成または構築されたうえで、ユーザによる指示に応じて一のエリア候補が出力される。具体的には、ユーザが所有するデバイスの入力インターフェースを通じた移動体２０（学習済みモデル生成の際に用いられた移動体２０と異なる移動体であってもよく、当該移動体２０と同一の移動体であってもよい。）に対する当該ユーザによる指示が、当該デバイスから学習装置１００に対して送信され、第１シーングラフ作成要素１１０により認識される（（図１３／ＳＴＥＰ２００）。当該環境画像はデータベース１０２に記憶保持されてもよく、当該デバイスから移動体支援装置２００に対して直接的に送信されてもよい。

　移動体２０に搭載されている撮像装置２２により、当該移動体２０の位置および指定場所を臨む方向（撮像装置２２の撮像方向）に応じて取得された指定場所およびその周囲の状態が表わされている環境画像（図３参照）が取得される（図１３／ＳＴＥＰ２０２）。当該環境画像はデータベース１０２に記憶保持されてもよく、移動体２０から移動体支援装置２００に対して直接的に送信されてもよい。

　移動体２０の（環境画像が取得された時点における）位置、環境画像および３次元高精細マップに基づき、第２シーングラフ作成要素２１０により状態シーングラフＳＧ１（図５参照）が作成される（図１３／ＳＴＥＰ２１１）。続いて、第２シーングラフ作成要素２１０により状態シーングラフＳＧ１が畳み込まれることによってレイアウトシーングラフＳＧ２（図６参照）が作成される（図１３／ＳＴＥＰ２１２）。さらに、第２シーングラフ作成要素２１０によりレイアウトシーングラフＳＧ２が畳み込まれることによって指示シーングラフＳＧ３（図７参照）が作成される（図１３／ＳＴＥＰ２１３）。

　次に、エリア候補出力要素２２０により、状態シーングラフＳＧ１、レイアウトシーングラフＳＧ２および指示シーングラフＳＧ３が、グラフニューラルネットワークＧＮＮ（図８参照）に基づいて生成された学習済みモデルに入力される（図１３／ＳＴＥＰ２２０）。そして、当該学習済みモデルの出力として一のエリア候補が出力される（図１３／ＳＴＥＰ２３０）。学習済みモデルの当該出力結果に基づき、移動体制御装置２１により、当該出力結果としての一のエリア候補における移動体２０の指定状態が実現されるように、当該移動体２０の動作が制御される。学習済みモデルの出力結果がデバイスを構成する出力インターフェースに出力されてもよい。

　（効果）
　前記機能を発揮する学習装置１００によれば、ユーザの指示、ならびに、移動体２０の位置および指定場所を臨む方向に応じた環境画像に基づいて作成されたシーングラフＳＧ１～ＳＧ３が入力データとして用いられて学習済みモデルが構築される（図２参照）。

　状態シーングラフＳＧ１を構成する１次ノードの特徴量が、移動体２０の位置を基準とした各オブジェクトとの相対配置関係（距離および角度）に応じて定義されている。このため、状態シーングラフＳＧ１が畳み込まれた結果としてのレイアウトシーングラフＳＧ２を構成する２次ノードの特徴量にも移動体２０の位置を基準とした各オブジェクトとの相対配置関係が反映されている。さらに、レイアウトシーングラフＳＧ２が畳み込まれた結果としての指示シーングラフＳＧ３を構成する、指示に含まれている単語を表わす３次ノードの特徴量にも移動体２０の位置を基準とした各オブジェクトとの相対配置関係が反映されている。

　これらの結果、ユーザの任意の指示が「右」「手前」または「左」などのあいまいな空間指定であっても、当該ユーザが意図する空間に存在するエリア（例：車道グリッド）が一のエリア候補として出力される確率の向上が図られる（図１３参照）。

　また、状態シーングラフＳＧ１を構成する１次ノードの特徴量が、各オブジェクトの空間占有態様、具体的には、主に静的オブジェクトの空間占有状態を表わす占有フラグおよび主に動的オブジェクトの空間占有状態を表わす干渉フラグに応じて定義されている。これは、レイアウトシーングラフＳＧ２を構成する２次ノードの特徴量、および、指示シーングラフＳＧ３を構成する３次ノードの特徴量についても同様である。

　これにより、移動体２０が、静的オブジェクトおよび動的オブジェクトとの干渉を回避しながら、指定状態を実現するために適当な一のエリア候補が、移動体支援装置２００によって学習済みモデルから出力されうる。

　例えば、「Ｘ₀（指定場所）の右に停まってください」というユーザの指示に応じて、図４に示されている車道グリッドＸ₂₁～Ｘ₂₆のうち横断歩道に該当する車道グリッドＸ₂₂を除くいずれか１つ車道グリッドＸ₂₁またはＸ₂₄が、移動体２０の停止状態（指定状態）を実現するための一のエリア候補として、学習済みモデルから出力されうる。また「Ｘ₀の手前で減速してください」というユーザの指示に応じて、図４に示されている車道グリッドＸ₂₁～Ｘ₂₆のうちいずれか１つの車道グリッドＸ₂₁またはＸ₂₃が、移動体２０の減速開始状態（指定状態）を実現するための一のエリア候補として、学習済みモデルから出力されうる。さらに「Ｘ₀の左を通過してください」というユーザの指示に応じて、図４に示されている車道グリッドＸ₂₁～Ｘ₂₆のうちいずれか１つの車道グリッドＸ₂₂が、移動体２０の通行状態（指定状態）を実現するための一のエリア候補として、学習済みモデルから出力されうる。

　（本発明の他の実施形態）
　前記実施形態によれば、移動体２０に搭載されている撮像装置２２を通じて環境画像が取得されたが、グローバル座標系またはマップ座標系における移動体２０の位置および進行方向の測定結果に基づき、３次元高精細マップまたは２次元マップ（地図情報）が用いられて、当該移動体２０に搭載されている仮想的な撮像装置を通じて取得された仮想的な画像が環境画像として取得されてもよい。

　２０‥移動体
　２２‥撮像装置
１００‥学習装置
１０２‥データベース
１１０‥第１シーングラフ作成要素
１２０‥学習済みモデル生成要素
２００‥移動体支援装置
２１０‥第２シーングラフ作成要素
２２０‥エリア候補出力要素。

Claims

　指定場所の周辺の指定空間における指定状態の実現に関する移動体への指示と、
　前記移動体の位置情報と、
　前記移動体と前記指定場所との位置関係に基づき取得された前記指定場所の周辺の画像に基づき作成された複数のシーングラフと、を学習済みモデルに入力することにより、前記指定場所を基準とした複数の周辺空間に存在する複数のエリア候補のうち一つのエリア候補を出力する
移動体支援装置。
　請求項１に記載の移動体支援装置において、
　前記移動体の位置、前記画像および地図情報に基づき作成された、前記画像に含まれている複数のオブジェクトのそれぞれを表わす１次ノード、前記複数のオブジェクトの隣接関係を表わすエッジ、ならびに、前記移動体を基準とした前記オブジェクトとの相対配置関係および前記オブジェクトの空間占有状態に応じた前記１次ノードの特徴量によって定義されている状態シーングラフと、
　前記状態シーングラフを畳み込むことにより作成された、一または複数の前記１次ノードにより構成され、前記指定場所、前記指定場所を基準とした複数の周辺空間、前記複数の周辺空間におけるエリア候補、および、指定オブジェクトのそれぞれに対応する１次ノードクラスタのそれぞれを表わす２次ノード、前記１次ノードクラスタに相当する一または複数の前記オブジェクトにより構成されているオブジェクトクラスタの隣接関係を表わすエッジ、ならびに、前記１次ノードクラスタの特徴量に応じて定まる前記２次ノードの特徴量によって定義されているレイアウトシーングラフと、が前記複数のシーングラフに含まれている
移動体支援装置。
　請求項２に記載の移動体支援装置において、
　前記レイアウトシーングラフを畳み込むことにより作成された、一または複数の前記２次ノードにより構成され、前記指示に含まれている前記指定場所、前記指定空間および前記指定状態に関する単語のそれぞれに対応する２次ノードクラスタを表わす３次ノードとし、前記単語の隣接関係を表わすエッジ、および、前記２次ノードクラスタの特徴量に応じて定まる前記３次ノードの特徴量によって定義されている指示シーングラフが前記複数のシーングラフに含まれている
移動体支援装置。
　請求項１に記載の移動体支援装置において、
　中間層を構成するノード間で上から下に重みが伝搬し、かつ、下から上に重みが伝搬するように定義されているグラフニューラルネットワークが用いられて生成された前記学習済みモデルに対して前記複数のシーングラフを入力することにより、前記指定場所を基準とした複数の周辺空間に存在する複数のエリア候補のうち一のエリア候補を出力する
移動体支援装置。
　請求項４に記載の移動体支援装置において、
　一の中間層を構成するノードから、当該一の中間層との間に一または複数の中間層を挟んで存在する他の中間層を構成するノードに重みが伝搬するように定義されている前記グラフニューラルネットワークが用いられて生成された前記学習済みモデルに対して前記複数のシーングラフを入力することにより、前記指定場所を基準とした複数の周辺空間に存在する複数のエリア候補のうち一のエリア候補を出力する
移動体支援装置。
　請求項１に記載の移動体支援装置において、
　前記画像が前記移動体に搭載されている撮像装置により撮像された画像である
移動体支援装置。
　請求項１に記載の移動体支援装置において、
　前記移動体の前記指定状態が、前記移動体の停止状態を含んでいる
移動体支援装置。
　移動体を支援するための請求項１～７のうちいずれか１項に記載の移動体支援装置と、当該移動体と、により構成されている移動体システム。