WO2022024663A1

WO2022024663A1 - モデル生成装置、経路探索装置、モデル生成方法、及びモデル生成プログラム

Info

Publication number: WO2022024663A1
Application number: PCT/JP2021/025066
Authority: WO
Inventors: 竜米谷
Original assignee: オムロン株式会社
Priority date: 2020-07-30
Filing date: 2021-07-02
Publication date: 2022-02-03
Also published as: US20230342614A1; CN115803587A; JP2022026106A; JP7341387B2; JP2023164805A; EP4191203A1

Abstract

本発明の一側面に係るモデル生成装置は、機械学習により、各学習データセットについて、訓練マップを入力マップとして与えることで探索モジュールにより探索される経路が正解情報により示される推奨経路に適合するように探索モジュールを訓練する。モデル生成装置は、機械学習の間、順伝播のフェーズでは、抽出する演算及び選択する演算をそのまま計算するのに対して、逆伝播のフェーズでは、抽出する演算及び選択する演算それぞれを微分可能な代替演算に置き換え、置き換えられた代替演算の微分計算により、抽出する演算及び選択する演算それぞれの微分計算に対応する近似勾配を算出する。

Description

モデル生成装置、経路探索装置、モデル生成方法、及びモデル生成プログラム

　本発明は、モデル生成装置、経路探索装置、モデル生成方法、及びモデル生成プログラムに関する。

　マップ（グラフ）上の開始ノードから目標ノード（ゴール）までの推奨経路を探索する問題（経路探索問題）が存在する。推奨経路は、例えば、最短経路であり、経路探索問題は、例えば、移動体が移動するのに推奨される経路、ロボット装置が動作するのに推奨される経路等を探索する目的で解かれる。この経路探索問題を解く方法として、ダイクストラ法、最良優先探索法、Ａ^*探索アルゴリズム等の古典的なアルゴリズムが広く知られている。

　コスト最小の経路を探索する方法の基本的な考え方は次のとおりである。
（１）探索空間は、Ｎ個（Ｎは自然数）のノードの集合Ｖ（Ｖ＝｛Ｖ₁、・・・、Ｖ_N｝）で構成されており、そのうちの１つが開始（起点）ノード（ｖ_s∈Ｖ）であり、別の１つが目標ノード（ｖ_g∈Ｖ）である。
（２）推奨経路を構成するか否かを確認する対象となる候補ノードの集合Ｏ（Ｏ⊂Ｖ）、及び確認済みのノードの集合Ｃ（Ｃ⊂Ｖ）を用意する。初期状態では、集合Ｏには、開始ノードｖ_sのみが属しており（Ｏ＝｛ｖ_s｝）、集合Ｃは空である。
（３）目標ノードｖ_gが集合Ｏに含まれるまで以下の（Ａ）（Ｂ）の手続きを繰り返す。
（Ａ）集合Ｏの中からコストが最小となるノードｖ^*（ｖ^*∈Ｏ）を１つ選択し、選択したノードｖ^*を集合Ｃに追加すると共に、集合Ｏからノードｖ^*を取り除く。
（Ｂ）ノードｖ^*に近接する（例えば、隣接する）ノード（集合Ｖ_SUCC⊂Ｖ）をＶから抽出し、抽出されたノードを集合Ｏに追加する。
（４）目標ノードｖ_gが集合Ｏに含まれたならば、目標ノードｖ_gを選択して、探索を終了する。

　上記（３）（Ａ）においてノードｖ^*を選択するためのコスト関数ｆ（ｖ）は、一般的に上記式１により表現することができる。ｇ（ｖ，ｖ_s）は、開始ノードｖ_sからノードｖまで移動するのに実際にかかるコスト（例えば、実際の移動距離）を示す。ｈ（ｖ，ｖ_g）は、ノードｖから目標ノードｖ_gまで移動するのにかかると予想されるコスト（例えば、直線距離）を示す。ａ及びｂは、それぞれをノードの選択に反映する程度を規定する定数である。コストは、そのノードを経由することを推奨する（コスト小）又は推奨しない（コスト大）程度に対応する。推奨の程度を評価する指標は、例えば、距離、時間、費用、危険度、混雑度、魅力度等であってよい。一例として、距離を指標に採用した場合には、上記方法により最短経路が探索される。

　ａ＝１及びｂ＝０のとき、上記探索アルゴリズムはダイクストラ法となる。ダイクストラ法によれば、実際にかかるコストが最小となる最適な推奨経路を確実に見つけ出すことができる。ただし、ダイクストラ法は、実際にかかるコストｇが最小となる経路を虱潰しに探索する。そのため、探索効率は良くなく、探索には時間がかかる。ａ＝０及びｂ＝１のとき、上記探索アルゴリズムは最良優先探索法となる。最良優先探索法の探索は、目標ノードまでのコストが最小であるノードを優先的に探索する（すなわち、目標ノードに近付く方向に進み続ける）ため、ダイクストラ法と比較して、しばしば効率的である。しかしながら、開始ノードから目標ノードまでの間に障害物がある等の理由に起因して、最適な推奨経路が得られない（すなわち、得られる経路が最適経路にならない）可能性がある。ａ＝１及びｂ＝１のとき、上記探索アルゴリズムはＡ^*探索アルゴリズムとなる。Ａ^*探索アルゴリズムの探索効率は、ダイクストラ法と比較して良く、最良優先探索法と比較して悪くなるが、許容的なヒューリスティック関数（コスト）を適宜設計することで、最適な推奨経路を確実に見つけ出すことができる。

　つまり、最良優先探索法及びＡ^*探索アルゴリズムによれば、ダイクストラ法と比較して探索の効率化を図ることができる。しかしながら、マップには、進行を妨げる障害物が存在する場合があり、最良優先探索法又はＡ^*探索アルゴリズムを採用しても、その障害物の形態によって、探索の効率が悪化する可能性があることが知られている。

　図１は、探索の効率を悪化させる障害物を含むマップの一例を模式的に例示する。図１のマップには、開始ノード及び目標ノードの間にコの字型の障害物が存在しており、障害物の凹部が開始ノードの方を向いている。最良優先探索法又はＡ^*探索アルゴリズムによりこのマップの推奨経路を探索した場合、開始ノードから目標ノードに近付くために、凹部の内側に探索が進む可能性がある。この場合、凹部の内部で探索が障害物に衝突した後、迂回経路を求めて凹部の内部及び周辺を探索することになり、結果として探索の効率性は悪化する。

　図１のマップのケースでは、凹部の内部を探索している限り、目標ノードに到達することはできない。そのため、どの探索アルゴリズムを採用した場合でも、この凹部の内部を探索する限り、探索の効率性は悪化する。このケースでは、凹部の内部を回避して探索（例えば、図１の点線の矢印）を進めることができれば、いずれの探索アルゴリズムを採用しても（ダイクストラ法を採用した場合でも）、探索の効率性を改善することができそうである。すなわち、進行を妨げる障害物がマップ上に存在し、その障害物により探索の効率性を悪化させるエリアが形成された場合に、そのエリアの探索を避けることができれば、いずれの探索アルゴリズムを採用しても、探索の効率性を改善することができる。

　非特許文献１には、最良優先探索法においてコストを計算するためのヒューリスティック関数のパラメータを機械学習により調整することが提案されている。非特許文献１の方法によれば、探索の効率性を悪化させるエリアのコストが高くなるようにヒューリスティック関数を訓練することができる。そのため、訓練されたヒューリスティック関数を使用することにより、そのようなエリアの探索をできるだけ避けることができ、これによって、探索の効率性を改善することができる。

Mohak Bhardwaj, Sanjiban Choudhury, Sebastian Scherer, "Learning Heuristic Search via Imitation", CoRL 2017, 271-280.

　本件発明者は、非特許文献１等で提案されるコスト関数を機械学習により直接的に訓練する方法には、次のような問題点があることを見出した。すなわち、探索の効率性を悪化させる障害物の形態は、上記コの字型に限られず、多様に存在する。それぞれのケースに対応するためには、多様な訓練マップについてコスト関数を訓練することが望ましい。しかしながら、コスト関数を直接的に訓練するためには、訓練マップに含まれる全てのノードについてコストの真値を示す正解情報を訓練マップ毎に用意することになる。探索アルゴリズムに応じて全てのノードのコストの真値を特定する（すなわち、正解情報を作成する）のには、訓練マップに含まれるノードの数に比例して時間がかかってしまい、その結果、経路の探索モジュールの生成にかかる手間が大きくなってしまう。更に、非特許文献１の方法では、最良優先探索法を採用しているため、コストが最小となる経路の探索をしばしば失敗してしまう。

　本発明は、一側面では、このような事情を鑑みてなされたものであり、その目的は、経路探索の効率を改善すると共に、探索モジュールの生成にかかる手間の低減を図る技術を提供することである。

　本発明は、上述した課題を解決するために、以下の構成を採用する。

　すなわち、本発明の一側面に係るモデル生成装置は、訓練マップ、及び前記訓練マップにおける推奨経路を示す正解情報の組み合わせによりそれぞれ構成される複数の学習データセットを取得するデータ取得部と、前記複数の学習データセットを使用して、探索モジュールの機械学習を実施する学習処理部であって、前記探索モジュールは、入力マップに含まれる複数のノードそれぞれのコストを推定するように構成されるニューラルネットワーク、経由ノードに近接する１つ以上の候補ノードを入力マップに含まれる複数のノードから抽出する演算、及び前記ニューラルネットワークの推定結果に基づいて、コストの総和が最小となるように、抽出された１つ以上の候補ノードから次の経由ノードを選択する演算、を含み、前記探索モジュールは、開始ノードを最初の経由ノードに設定し、目標ノードが経由ノードとして選択されるまで、前記抽出する演算及び選択する演算を繰り返すことで、開始ノードから目標ノードまでの経路を探索するように構成され、前記機械学習は、前記各学習データセットについて、前記訓練マップを前記入力マップとして与えることで前記探索モジュールにより探索される経路が前記正解情報により示される推奨経路に適合するように前記探索モジュールを訓練することにより構成され、前記機械学習の間、順伝播のフェーズでは、前記抽出する演算及び前記選択する演算をそのまま計算するのに対して、逆伝播のフェーズでは、前記抽出する演算及び前記選択する演算それぞれを微分可能な代替演算に置き換え、置き換えられた前記代替演算の微分計算により、前記抽出する演算及び前記選択する演算それぞれの微分計算に対応する近似勾配を算出する、学習処理部と、を備える。

　当該構成では、探索モジュール（探索モデル）は、各ノードのコストを推定する演算を実行するように構成される第１計算モジュール、及び推定されたコストに基づき、コストの総和が最小となる経路を探索する演算を実行するように構成される第２計算モジュールを備える。第１計算モジュールは、ニューラルネットワークにより構成される。第２計算モジュールは、経由ノードに近接する１つ以上の候補ノードを抽出する演算、及び抽出された１つ以上の候補ノードから次の経由ノードを選択する演算により構成される。第１計算モジュールのみを機械学習の対象として取り扱う場合、訓練マップ毎にコストの真値を用意することになり、上記のとおり、探索モジュールの生成にかかる手間が大きくなってしまう。これに対して、当該構成では、第１計算モジュール及び第２計算モジュールの両方を機械学習の処理対象として取り扱う。これにより、当該構成では、訓練マップ毎にコストの真値を用意するのではなく、推奨経路そのものを示す正解情報を用意すればよいようになる。その結果、訓練マップに含まれる全てのノードを探索する必要はなく、例えば、既存のアルゴリズムの探索結果、実績等をそのまま推奨経路として採用することができる。そのため、訓練マップに含まれる全てのノードのコストの真値を特定するのに比べて、正解情報の用意にかかる作業時間及び負担を抑えることができる。したがって、当該構成によれば、探索モジュールの生成にかかる手間の低減を図ることができる。また、機械学習の過程で、探索モジュールは推奨経路を最適に探索するように訓練されていくため、探索の効率性を悪化させるエリアのコストが高くなるように、正解情報により示される推奨経路からニューラルネットワークを間接的に訓練することができる。その結果、訓練されたニューラルネットワークによるコストの推定結果を使用することで、経路探索の効率の改善を適切に図ることができる。

　しかしながら、ニューラルネットワークを含む探索モジュールの機械学習を実施する際には、順伝播の演算により経路を探索した結果と正解情報との間の誤差の勾配を出力側から順番に逆伝播することになる。この逆伝播の演算を実行するためには、誤差の勾配を逆伝播する全ての演算が微分可能であることが求められるが、ニューラルネットワークによるコストの推定結果を使用して経路探索を行う第２計算モジュールの演算（すなわち、１つ以上の候補ノードを抽出する演算及び抽出された１つ以上の候補ノードから次の経由ノードを選択する演算）は、集合に対して条件に該当する要素を取り出す操作であり、微分不可能である。そのため、単純な方法では、探索モジュールの機械学習を実施することはできない。つまり、第２計算モジュールを機械学習の処理対象とすることで、最終結果を正解情報として取り扱うことができるようになり、その結果、上記のとおり、探索モジュールの生成にかかる手間を低減することができるが、既知の方法ではその機械学習を実施することが困難であるという新たな問題が生じてしまう。

　そこで、当該構成では、機械学習の間、順伝播のフェーズでは、抽出する演算及び選択する演算をそのまま計算するのに対して、逆伝播のフェーズでは、抽出する演算及び選択する演算それぞれを微分可能な代替演算に置き換え、置き換えられた代替演算の微分計算により、抽出する演算及び選択する演算それぞれの微分計算に対応する近似勾配を算出する。これにより、微分不可能な演算を含む探索モジュールであっても、機械学習を適切に実施することができる。したがって、当該構成によれば、経路探索の効率を改善すると共に、訓練済みの探索モジュール（学習済み探索モデル）を適切に生成し、その生成にかかる手間の低減を図ることができる。

　上記一側面に係るモデル生成装置において、前記選択する演算は、前記ニューラルネットワークの推定結果に基づいて、所定の探索アルゴリズムによりコストの総和が最小となるように、抽出された１つ以上の候補ノードから次の経由ノードを選択するように構成されてよい。当該構成によれば、所定の探索アルゴリズムを遂行するよう構成される探索モジュールの生成にかかる手間を低減することができる。また、所定の探索アルゴリズムとして既存の探索アルゴリズムを利用することで、探索モジュールの生成にかかる手間を更に低減することができる。

　上記一側面に係るモデル生成装置において、前記所定の探索アルゴリズムは、ダイクストラ法、最良優先探索法、又はＡ^*探索アルゴリズムであってよい。当該構成によれば、探索モジュールを簡易に構成可能であるため、探索モジュールの生成にかかる手間を更に低減することができる。なお、各アルゴリズムは、オリジナルのアルゴリズムの他に、変形アルゴリズムを含んでよい。

　上記一側面に係るモデル生成装置において、前記訓練マップは、移動体の移動を許容する範囲を含んでよく、前記正解情報により示される前記推奨経路は、前記移動体が移動するのに推奨される経路であってよい。当該構成によれば、移動体の移動計画に使用可能な探索モジュールを生成する形態において、経路探索の効率を改善すると共に、探索モジュールの生成にかかる手間を低減することができる。

　上記一側面に係るモデル生成装置において、前記訓練マップは、ロボット装置の駆動を許容する範囲を含んでよく、前記正解情報により示される前記推奨経路は、前記ロボット装置が動作するのに推奨される経路であってよい。当該構成によれば、ロボットの動作計画に使用可能な探索モジュールを生成する形態において、経路探索の効率を改善すると共に、探索モジュールの生成にかかる手間を低減することができる。

　上記一側面に係るモデル生成装置は、任意の指標により評価されるコストが最小となる経路を探索する能力を獲得した訓練済みの探索モジュールを生成することができる。上記一側面に係るモデル生成装置において、この評価指標に距離を採用することで、前記推奨経路は、最短経路であってよい。当該構成によれば、最短経路を探索する効率を改善すると共に、最短経路を探索する能力を獲得した探索モジュールの生成にかかる手間を低減することができる。

　上記一側面に係るモデル生成装置において、前記訓練マップは、画像により構成されてよく、前記ノードは、画素により構成されてよい。当該構成によれば、画像内の経路を探索する形態において、経路探索の効率を改善すると共に、探索モジュールの生成にかかる手間を低減することができる。

　上記一側面に係るモデル生成装置において、前記画像は、実画像又はバイナリ画像により構成されてよい。当該構成によれば、実画像又はバイナリ画像を用いる形態において、経路探索の効率を改善すると共に、探索モジュールの生成にかかる手間を低減することができる。

　また、本発明の形態は、上記モデル生成装置の形態に限られなくてもよい。本発明の一側面は、上記モデル生成装置により生成された訓練済みの探索モジュールを利用する経路探索装置であってもよい。例えば、本発明の一側面は、対象マップを取得するマップ取得部と、訓練済みの探索モジュールを使用して、取得された前記対象マップにおける開始ノードから目標ノードまでの経路を探索する探索部と、前記対象マップに対して前記経路を探索した結果に関する情報を出力する出力部と、を備えるように構成された経路探索装置であってよい。この経路探索装置は、適用場面におけるタスクの種類に応じて、例えば、計画装置、移動計画装置、案内装置、動作計画装置、制御装置等と読み替えられてよい。

　上記一側面に係る経路探索装置において、前記対象マップは、移動体の移動を許容する範囲を含んでよい。これに応じて、前記探索部は、前記訓練済みの探索モジュールを使用して、取得された前記対象マップにおける前記開始ノードから前記目標ノードまで前記移動体が移動するのに推奨される経路を探索してもよい。或いは、上記一側面に係る経路探索装置において、前記対象マップは、ロボット装置の駆動を許容する範囲を含んでよい。これに応じて、前記探索部は、前記訓練済みの探索モジュールを使用して、取得された前記対象マップにおける前記開始ノードから前記目標ノードまで前記ロボット装置が動作するのに推奨される経路を探索してもよい。

　上記一側面に係る経路探索装置において、前記経路を探索した結果に関する情報は、探索された経路に従ったナビゲーションにより構成されてよい。当該構成によれば、推奨経路を効率的に探索可能であると共に、その探索結果（すなわち、探索された推奨経路）に従って、移動案内又は動作制御を実行することができる。

　また、上記各形態に係るモデル生成装置及び経路探索装置それぞれの別の態様として、本発明の一側面は、以上の各構成の全部又はその一部を実現する情報処理方法であってもよいし、プログラムであってもよいし、このようなプログラムを記憶した、コンピュータその他装置、機械等が読み取り可能な記憶媒体であってもよい。ここで、コンピュータ等が読み取り可能な記憶媒体とは、プログラム等の情報を、電気的、磁気的、光学的、機械的、又は、化学的作用によって蓄積する媒体である。また、本発明の一側面は、上記いずれかの形態に係るモデル生成装置及び経路探索装置により構成される経路探索システムであってもよい。

　例えば、本発明の一側面に係るモデル生成方法は、コンピュータが、訓練マップ、及び前記訓練マップにおける推奨経路を示す正解情報の組み合わせによりそれぞれ構成される複数の学習データセットを取得するステップと、前記複数の学習データセットを使用して、探索モジュールの機械学習を実施するステップであって、前記探索モジュールは、入力マップに含まれる複数のノードそれぞれのコストを推定するように構成されるニューラルネットワーク、経由ノードに近接する１つ以上の候補ノードを入力マップに含まれる複数のノードから抽出する演算、及び前記ニューラルネットワークの推定結果に基づいて、コストの総和が最小となるように、抽出された１つ以上の候補ノードから次の経由ノードを選択する演算、を含み、前記探索モジュールは、開始ノードを最初の経由ノードに設定し、目標ノードが経由ノードとして選択されるまで、前記抽出する演算及び選択する演算を繰り返すことで、開始ノードから目標ノードまでの経路を探索するように構成され、前記機械学習は、前記各学習データセットについて、前記訓練マップを前記入力マップとして与えることで前記探索モジュールにより探索される経路が前記正解情報により示される推奨経路に適合するように前記探索モジュールを訓練することにより構成され、前記機械学習の間、順伝播のフェーズでは、前記抽出する演算及び前記選択する演算をそのまま計算するのに対して、逆伝播のフェーズでは、前記抽出する演算及び前記選択する演算それぞれを微分可能な代替演算に置き換え、置き換えられた前記代替演算の微分計算により、前記抽出する演算及び前記選択する演算それぞれの微分計算に対応する近似勾配を算出する、ステップと、を実行する、情報処理方法である。

　また、例えば、本発明の一側面に係るモデル生成プログラムは、コンピュータに、訓練マップ、及び前記訓練マップにおける推奨経路を示す正解情報の組み合わせによりそれぞれ構成される複数の学習データセットを取得するステップと、前記複数の学習データセットを使用して、探索モジュールの機械学習を実施するステップであって、前記探索モジュールは、入力マップに含まれる複数のノードそれぞれのコストを推定するように構成されるニューラルネットワーク、経由ノードに近接する１つ以上の候補ノードを入力マップに含まれる複数のノードから抽出する演算、及び前記ニューラルネットワークの推定結果に基づいて、コストの総和が最小となるように、抽出された１つ以上の候補ノードから次の経由ノードを選択する演算、を含み、前記探索モジュールは、開始ノードを最初の経由ノードに設定し、目標ノードが経由ノードとして選択されるまで、前記抽出する演算及び選択する演算を繰り返すことで、開始ノードから目標ノードまでの経路を探索するように構成され、前記機械学習は、前記各学習データセットについて、前記訓練マップを前記入力マップとして与えることで前記探索モジュールにより探索される経路が前記正解情報により示される推奨経路に適合するように前記探索モジュールを訓練することにより構成され、前記機械学習の間、順伝播のフェーズでは、前記抽出する演算及び前記選択する演算をそのまま計算するのに対して、逆伝播のフェーズでは、前記抽出する演算及び前記選択する演算それぞれを微分可能な代替演算に置き換え、置き換えられた前記代替演算の微分計算により、前記抽出する演算及び前記選択する演算それぞれの微分計算に対応する近似勾配を算出する、ステップと、を実行させるための、プログラムである。

　本発明によれば、経路探索の効率を改善すると共に、探索モジュールの生成コストの低減を図ることができる。

図１は、探索の効率を悪化させる障害物を含むマップの一例を模式的に例示する。図２は、本発明が適用される場面の一例を模式的に例示する。図３は、実施の形態に係るモデル生成装置のハードウェア構成の一例を模式的に例示する。図４は、実施の形態に係る経路探索装置のハードウェア構成の一例を模式的に例示する。図５は、実施の形態に係るモデル生成装置のソフトウェア構成の一例を模式的に例示する。図６は、実施の形態に係る経路探索装置のソフトウェア構成の一例を模式的に例示する。図７は、実施の形態に係るモデル生成装置の処理手順の一例を示すフローチャートである。図８は、実施の形態に係る経路探索装置の処理手順の一例を示すフローチャートである。図９は、本発明が適用される他の場面の一例を模式的に例示する。図１０は、本発明が適用される他の場面の一例を模式的に例示する。図１１Ａは、評価に使用した対象マップを示す。図１１Ｂは、評価に使用した対象マップを示す。図１１Ｃは、評価に使用した対象マップを示す。図１２Ａは、Ａ^*探索アルゴリズム（比較例）により図１１Ａの対象マップにおける経路を探索した結果及び探索の対象となったノードを示す。図１２Ｂは、Ａ^*探索アルゴリズム（比較例）により図１１Ｂの対象マップにおける経路を探索した結果及び探索の対象となったノードを示す。図１２Ｃは、Ａ^*探索アルゴリズム（比較例）により図１１Ｃの対象マップにおける経路を探索した結果及び探索の対象となったノードを示す。図１３Ａは、実施例のニューラルネットワークにより図１１Ａの対象マップの各ノードのコストを推定した結果を示す。図１３Ｂは、実施例のニューラルネットワークにより図１１Ｂの対象マップの各ノードのコストを推定した結果を示す。図１３Ｃは、実施例のニューラルネットワークにより図１１Ｃの対象マップの各ノードのコストを推定した結果を示す。図１４Ａは、実施例の探索モジュールにより図１１Ａの対象マップにおける経路を探索した結果及び探索の対象となったノードを示す。図１４Ｂは、実施例の探索モジュールにより図１１Ｂの対象マップにおける経路を探索した結果及び探索の対象となったノードを示す。図１４Ｃは、実施例の探索モジュールにより図１１Ｃの対象マップにおける経路を探索した結果及び探索の対象となったノードを示す。

　以下、本発明の一側面に係る実施の形態（以下、「本実施形態」とも表記する）を、図面に基づいて説明する。ただし、以下で説明する本実施形態は、あらゆる点において本発明の例示に過ぎない。本発明の範囲を逸脱することなく種々の改良や変形を行うことができることは言うまでもない。つまり、本発明の実施にあたって、実施形態に応じた具体的構成が適宜採用されてもよい。なお、本実施形態において登場するデータを自然言語により説明しているが、より具体的には、コンピュータが認識可能な疑似言語、コマンド、パラメータ、マシン語等で指定される。

　§１　適用例
　図２は、本発明を適用した場面の一例を模式的に例示する。図２に示されるとおり、本実施形態に係る経路探索システム１００は、モデル生成装置１及び経路探索装置２を備えている。

　本実施形態に係るモデル生成装置１は、機械学習により訓練済みの探索モジュール５（学習済み探索モデル）を生成するように構成されたコンピュータである。本実施形態に係るモデル生成装置１は、訓練マップ３１、及び訓練マップ３１における推奨経路を示す正解情報３２の組み合わせによりそれぞれ構成される複数の学習データセット３を取得する。本実施形態に係るモデル生成装置１は、取得された複数の学習データセット３を使用して、探索モジュール５の機械学習を実施する。

　本実施形態に係る探索モジュール５は、入力マップに含まれる複数のノードそれぞれのコストを推定する演算を実行するように構成される第１計算モジュール、及び推定されたコストに基づき、コストの総和が最小となる経路を探索する演算を実行するように構成される第２計算モジュールを備える。第１計算モジュールは、ニューラルネットワーク５０により構成される。第２計算モジュールは、経由ノードに近接する１つ以上の候補ノードを入力マップに含まれる複数のノードから抽出する演算（以下、単に「抽出演算」とも記載する）５１、及びニューラルネットワーク５０の推定結果に基づいて、開始ノードから目標ノードまでのコストの総和が最小となるように、抽出された１つ以上の候補ノードから次の経由ノードを選択する演算（以下、単に「選択演算」とも記載する）５２により構成される。

　探索モジュール５は、開始ノードを最初の経由ノードに設定し、目標ノードが経由ノードとして選択されるまで、抽出演算５１及び選択演算５２を繰り返すことで、開始ノードから目標ノードまでの経路を探索するように構成される。すなわち、探索モジュール５は、第１計算モジュール及び第２計算モジュールを使用して、上記（１）－（４）の演算を実行することで、コストが最小となる経路を探索するように構成される。ニューラルネットワーク５０の推定結果は、上記式１の計算に利用される。抽出演算５１は、上記（３）（Ｂ）の演算に対応する。開始ノードを最初の経由ノードに設定すること及び選択演算５２は、上記（３）（Ａ）の演算に対応する。

　機械学習は、各学習データセット３について、訓練マップ３１を入力マップとして与えることで探索モジュール５により探索される経路が正解情報３２により示される推奨経路に適合するように探索モジュール５を訓練することにより構成される。具体的には、ニューラルネットワーク５０は、例えば、各ニューロン間の結合の重み、各ニューロンの閾値等の複数の演算パラメータを備える。まず、モデル生成装置１は、探索モジュール５を使用して、各学習データセット３の訓練マップ３１に対する経路探索を試行する。この試行処理において、モデル生成装置１は、ニューラルネットワーク５０を使用して、各学習データセット３の訓練マップ３１に含まれる各ノードのコストを推定する。すなわち、モデル生成装置１は、ニューラルネットワーク５０に訓練マップ３１を入力して、ニューラルネットワーク５０の順伝播の演算処理を実行する。この演算により、モデル生成装置１は、訓練マップ３１に含まれる各ノードのコストの推定結果６０を得ることができる。続いて、モデル生成装置１は、開始ノードＳ１を最初の経由ノードに設定する。そして、モデル生成装置１は、得られた推定結果６０を利用し、目標ノードＧ１が経由ノードとして選択されるまで、抽出演算５１及び選択演算５２を繰り返す。これらの一連の順伝播の演算により、モデル生成装置１は、探索の試行結果、すなわち、訓練マップ３１に対して経路を探索した結果（以下、「探索結果」とも記載する）６２を得ることができる。次に、モデル生成装置１は、この探索結果６２と正解情報３２により示される推奨経路（正解）との間の誤差を算出する。モデル生成装置１は、誤差逆伝播法により、算出された誤差の勾配を逆伝播することで、ニューラルネットワーク５０の各演算パラメータの値を調整する。探索モジュール５を訓練することは、この一連の処理（すなわち、順伝播による探索の試行処理及び逆伝播による演算パラメータの調整処理）により、正解情報３２に適合する探索結果６２が得られるようにニューラルネットワーク５０の各演算パラメータの値を調整することにより構成される。

　モデル生成装置１は、この機械学習の間、順伝播（探索の試行）フェーズでは、抽出演算５１及び選択演算５２をそのまま計算するのに対して、逆伝播（演算パラメータの調整）のフェーズでは、抽出演算５１及び選択演算５２それぞれを微分可能な代替演算に置き換え、置き換えられた代替演算の微分計算により、抽出演算５１及び選択演算５２それぞれの微分計算に対応する近似勾配を算出する。すなわち、モデル生成装置１は、機械学習の処理過程のうち、探索を試行するフェーズでは、抽出演算５１及び選択演算５２をそのまま採用して、各学習データセット３の訓練マップ３１に対する探索結果６２を得る。これに対して、抽出演算５１及び選択演算５２は共に微分不可能であり、そのままでは誤差の勾配を逆伝播することができない。そこで、試行フェーズにより導出された誤差の勾配を逆伝播するフェーズでは、モデル生成装置１は、それぞれ代替演算の微分計算により算出される近似勾配を抽出演算５１及び選択演算５２それぞれの微分計算の結果として採用して、誤差の勾配を逆伝播し、ニューラルネットワーク５０の各演算パラメータの値を調整する。

　抽出演算５１の代替演算は、抽出演算５１の近似勾配を計算可能な演算であれば、その内容は、特に限定されなくてよく、実施の形態に応じて適宜決定されてよい。抽出演算５１の代替演算は、例えば、固定サイズの矩形フィルタを用いた線形の畳み込み関数、固定サイズのグラフを用いたグラフ畳み込み演算又はこれらに類似する関数で構成されてよく抽出演算５１の近似勾配は、当該関数の勾配であってよい。抽出演算５１の代替演算は、当該関数に対応するルックアップテーブルにより構成されてよい。同様に、選択演算５２の代替演算は、選択演算５２の近似勾配を計算可能な演算であれば、その内容は、特に限定されなくてよく、実施の形態に応じて適宜決定されてよい。選択演算５２の代替演算は、例えば、straight-through soft-min関数、straight-through soft-min with temperature、weighted straight-through soft-min、straight-through Gumbel softmin関数、又はこれらに類似する関数で構成されてよく、選択演算５２の近似勾配は、当該関数の勾配であってよい。この機械学習の結果、モデル生成装置１は、入力マップに対してコスト最小となる推奨経路を探索する能力を獲得した訓練済みの探索モジュール５を生成することができる。

　一方、本実施形態に係る経路探索装置２は、訓練済みの探索モジュール５を使用して、与えられたマップに対して経路探索を遂行するように構成されたコンピュータである。まず、経路探索装置２は、経路探索の対象となる対象マップ２２１を取得する。次に、経路探索装置２は、訓練済みの探索モジュール５を使用して、取得された対象マップ２２１における開始ノードＳ２から目標ノードＧ２までの経路を探索する。

　すなわち、経路探索装置２は、上記モデル生成装置１の試行フェーズと同様に、訓練済みのニューラルネットワーク５０に対象マップ２２１を入力し、訓練済みのニューラルネットワーク５０の順伝播の演算処理を実行する。経路探索装置２は、この演算処理により、対象マップ２２１に含まれる各ノードのコストの推定結果２２３を得ることができる。続いて、経路探索装置２は、開始ノードＳ２を最初の経由ノードに設定する。そして、経路探索装置２は、得られた推定結果２２３を利用し、目標ノードＧ２が経由ノードとして選択されるまで、抽出演算５１及び選択演算５２を繰り返す。この第２計算モジュールの演算では、経路探索装置２は、上記モデル生成装置１の試行フェーズと同様に、抽出演算５１及び選択演算５２をそのまま採用する。

　これらの一連の演算により、経路探索装置２は、対象マップ２２１に対して経路を探索した結果（以下、「探索結果」とも記載する）２２５を得ることができる。そして、経路探索装置２は、対象マップ２２１に対する経路の探索結果２２５に関する情報を出力する。なお、本実施形態に係る経路探索装置２は、適用場面におけるタスクの種類に応じて、計画装置、移動計画装置、案内装置、動作計画装置、制御装置等と読み替えられてよい。

　なお、本実施形態で取り扱われるマップ（訓練マップ３１、対象マップ２２１）は、複数のノードを含み、経路探索の処理対象となるように適宜構成されていれば、マップのデータ形式は、特に限定されなくてよく、実施の形態に応じて適宜選択されてよい。一例では、マップ（訓練マップ３１、対象マップ２２１）は、リスト形式、グラフ形式等で表現されてよい。障害物（移動不能な領域）は、ノード間の接続の有無、ノードに与える情報等により表現されてよい。

　グラフ形式の一例として、マップ（訓練マップ３１、対象マップ２２１）は、画像（画像データ）により構成されてよい。この場合、ノードは、画素により構成されてよい。画像は、４つ又は８つの近接ノードが各ノードに接続されることで構成された２次元グリッドのグラフとして取り扱うことができる。なお、４つの近接ノードは、対象画素の上下左右に配置された４つの画素である。８つの近接ノードは、対象画素の周囲を囲む８つの画素である。この画像は、実画像又はバイナリ画像により構成されてよい。移動体の経路を探索する場合、実画像は、例えば、航空写真、ドローンにより撮影した写真等の移動体の移動が許容される範囲を撮影することで生成された画像であってよい。ロボットの動作経路を探索する場合、実画像は、例えば、作業現場等のロボットの動作する範囲を撮影することで生成された画像であってよい。バイナリ画像の各画素は、移動可能な領域及び移動不能な領域を２値で表現するように適宜構成されてよい。バイナリ画像は、実画像を適宜２値化することで生成されてよい。本実施形態に係るモデル生成装置１では、画像をマップとして用いることで、上記機械学習により、画像内の経路を探索する能力を獲得した訓練済みの探索モジュール５を生成することができる。

　正解情報３２は、訓練マップ３１における推奨経路の正解を示すように適宜構成されてよい。正解情報３２のデータ形式は、経路の探索結果の表現に応じて適宜選択されてよい。経路の探索結果が画像で構成される場合、正解情報３２の一例は、推奨経路の正解を示す画像により構成されてよい（図２では、その画像の一例が示される）。

　また、コストは、任意の指標によりそのノードを経由することを推奨する又は推奨しない程度に対応するように構成されていれば、コストの数値表現は、適宜設定されてよい。一例では、コストは、数値に比例する（すなわち、数値が大きいほどコストが高い）ように表現されてもよい。その他の一例では、コストは、数値に反比例する（すなわち、数値が小さいほどコストが高い）ように表現されてもよい。推奨しないことに着目して、コストは、例えば、負荷、ペナルティ等と読み替えられてよい。反対に、推奨することに着目して、コストは、例えば、推奨度、報酬等と読み替えられてよい。この場合、コストの最小化は、推奨度等の最大化と置き換えられてよい。コストを評価する指標は、いずれの観点で設計されてよい。本実施形態では、コストは、便宜上、推奨しない程度が高いほど値が高くなるように設計されているものとして説明する。推奨する程度が高いほど値が高くなるようにコストを設計する場合は、上記選択演算５２は、値が最小の要素を選択することから値が最大の要素を選択することに置き換えられてよく、上記選択演算５２の代替演算も適宜置き換えられてよい。具体例として、上記選択演算５２の代替演算は、例えば、straight-through soft-max関数、straight-through soft-max with temperature、weighted straight-through soft-max、straight-through Gumbel softmax関数又はこれらに類似する関数で構成されてよい。

　上記推奨の程度を評価する指標は、例えば、距離、時間、費用、危険度、混雑度、魅力度等であってよい。一例として、距離を評価指標として採用してもよい。コストは、距離が長くなるほど高くなるように設定されてよい。このケースでは、探索される推奨経路は、開始ノードから目標ノードまでの最短経路（距離が最小となる経路）である。

　その他の一例として、時間を評価指標として採用してもよい。コストは、時間がかかるほど高くなるように設定されてよい。このケースでは、探索される推奨経路は、開始ノードから目標ノードまでの移動にかかる時間が最小となる経路である。

　その他の一例として、費用を評価指標として採用してもよい。コストは、費用がかかるほど高くなるように設定されてよい。このケースでは、探索される推奨経路は、開始ノードから目標ノードまでの移動にかかる費用が最小となる経路である。費用は、例えば、燃料費、電気代、交通機関の利用料、高速料金等であってよい。

　その他の一例として、危険度を評価指標として採用してもよい。コストは、危険度が高くなるほど高くなるように設定されてよい。このケースでは、探索される推奨経路は、開始ノードから目標ノードまでの移動のリスクが最小である（すなわち、安全性が最も高い）経路である。移動体の経路を探索する場合、危険度は、例えば、事故、犯罪等のアクシデントに移動体が遭遇するリスクに応じて設定されてよい。ロボットの経路を探索する場合、危険度は、例えば、衝突、破壊等の故障リスクに応じて設定されてよい。

　その他の一例として、混雑度を評価指標として採用してもよい。コストは、混雑度が高くなるほど高くなるように設定されてよい。このケースでは、探索される推奨経路は、混雑した場所を避けた経路である。混雑した場所は、例えば、人の密度の高い場所（人の移動経路を探索する場合）、渋滞の生じている場所（車両の移動経路を探索する場合）、障害物が密集している場所（ロボット装置の動作経路を探索する場合）等である。

　その他の一例として、魅力度を評価指標として採用してもよい。コストは、魅力度が低くなるほど高くなるように設定されてよい。このケースでは、探索される推奨経路は、魅力度の高い場所を経由する経路である。魅力度は、例えば、景観の良し悪し（移動体の移動経路を探索する場合）、動作の華麗さ（ロボット装置の動作経路を探索する場合）等の人為的な指標に応じて与えられてよい。

　これらのケースは、例えば、移動体（例えば、人、車両、ドローン等）の移動する経路を計画する場面、ロボットの動作する経路を計画する場面等に適用可能である。コストは、適用する場面に応じて適宜設計されてよい。コストは、上記の複数の指標を複合的に用いて設計されてもよい。本実施形態に係るモデル生成装置１では、上記機械学習により、設計されたコストに応じた推奨経路を探索する能力を獲得した訓練済みの探索モジュール５を生成することができる。

　以上のとおり、本実施形態に係るモデル生成装置１は、第１計算モジュール（ニューラルネットワーク５０）のみを機械学習の対象として取り扱うのではなく、第１計算モジュール及び第２計算モジュール（抽出演算５１及び選択演算５２）の両方を機械学習の対象として取り扱う。これにより、本実施形態では、訓練マップ３１毎にコストの真値を用意しなくてよく、推奨経路そのものを示す正解情報３２を用意すればよいようになる。そのため、訓練マップ３１に含まれる全てのノードを探索しなくてよく、例えば、既存のアルゴリズムの探索結果、実績等をそのまま推奨経路として採用することができる。その結果、訓練マップ３１に含まれる全てのノードのコストの真値を特定するのに比べて、正解情報３２の用意にかかる作業時間及び負担を抑えることができる。したがって、本実施形態によれば、訓練済みの探索モジュール５の生成にかかる手間の低減を図ることができる。

　また、機械学習の過程で、探索モジュール５は推奨経路を最適に探索するように訓練されていくため、探索の効率性を悪化させるエリアのコストが高くなるように、正解情報３２に示される推奨経路からニューラルネットワーク５０を間接的に訓練することができる。その結果、経路探索装置２では、訓練済みのニューラルネットワーク５０によるコストの推定結果２２３を使用することで、経路探索の効率の改善を適切に図ることができる。

　更には、本実施形態に係るモデル生成装置１は、機械学習の処理において、順伝播のフェーズでは、抽出演算５１及び選択演算５２をそのまま計算するのに対して、逆伝播のフェーズでは、抽出演算５１及び選択演算５２それぞれを微分可能な代替演算に置き換える。そして、モデル生成装置１は、置き換えられた代替演算の微分計算により、抽出する演算及び選択する演算それぞれの微分計算に対応する近似勾配を算出する。これにより、微分不可能な演算（抽出演算５１及び選択演算５２）を含んでいても、探索モジュール５の機械学習（特に、ニューラルネットワーク５０の演算パラメータの調整）を適切に実施することができる。

　なお、図２の例では、モデル生成装置１及び経路探索装置２は、ネットワークを介して互いに接続されている。ネットワークの種類は、例えば、インターネット、無線通信網、移動通信網、電話網、専用網等から適宜選択されてよい。ただし、モデル生成装置１及び経路探索装置２の間でデータをやり取りする方法は、このような例に限定されなくてもよく、実施の形態に応じて適宜選択されてよい。例えば、モデル生成装置１及び経路探索装置２の間では、記憶媒体を利用して、データがやり取りされてよい。

　また、図２の例では、モデル生成装置１及び経路探索装置２は、それぞれ別個のコンピュータにより構成されている。しかしながら、本実施形態に係る経路探索システム１００の構成は、このような例に限定されなくてもよく、実施の形態に応じて適宜決定されてよい。たとえば、モデル生成装置１及び経路探索装置２は一体のコンピュータであってもよい。また、例えば、モデル生成装置１及び経路探索装置２のうちの少なくとも一方は、複数台のコンピュータにより構成されてもよい。

　§２　構成例
　［ハードウェア構成］
　＜モデル生成装置＞
　図３は、本実施形態に係るモデル生成装置１のハードウェア構成の一例を模式的に例示する。図３に示されるとおり、本実施形態に係るモデル生成装置１は、制御部１１、記憶部１２、通信インタフェース１３、外部インタフェース１４、入力装置１５、出力装置１６、及びドライブ１７が電気的に接続されたコンピュータである。なお、図３では、通信インタフェース及び外部インタフェースを「通信Ｉ／Ｆ」及び「外部Ｉ／Ｆ」と記載している。

　制御部１１は、ハードウェアプロセッサであるＣＰＵ（Central Processing Unit）、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）等を含み、プログラム及び各種データに基づいて情報処理を実行するように構成される。記憶部１２は、メモリの一例であり、例えば、ハードディスクドライブ、ソリッドステートドライブ等で構成される。本実施形態では、記憶部１２は、モデル生成プログラム８１、複数の学習データセット３、学習結果データ１２５等の各種情報を記憶する。

　モデル生成プログラム８１は、訓練済みの探索モジュール５を生成する後述の機械学習の情報処理（図７）をモデル生成装置１に実行させるためのプログラムである。モデル生成プログラム８１は、当該情報処理の一連の命令を含む。複数の学習データセット３は、訓練済みの探索モジュール５の生成に使用される。学習結果データ１２５は、生成された訓練済みの探索モジュール５に関する情報を示す。本実施形態では、学習結果データ１２５は、モデル生成プログラム８１を実行した結果として生成される。詳細は後述する。

　通信インタフェース１３は、例えば、有線ＬＡＮ（Local Area Network）モジュール、無線ＬＡＮモジュール等であり、ネットワークを介した有線又は無線通信を行うためのインタフェースである。モデル生成装置１は、通信インタフェース１３を利用して、他の情報処理装置との間で、ネットワークを介したデータ通信を実行することができる。外部インタフェース１４は、例えば、ＵＳＢ（Universal Serial Bus）ポート、専用ポート等であり、外部装置と接続するためのインタフェースである。外部インタフェース１４の種類及び数は任意に選択されてよい。モデル生成装置１は、通信インタフェース１３及び外部インタフェース１４の少なくとも一方を介して、訓練マップ３１を得るためのデバイス（例えば、カメラ、他のコンピュータ等）に接続されてよい。

　入力装置１５は、例えば、マウス、キーボード等の入力を行うための装置である。また、出力装置１６は、例えば、ディスプレイ、スピーカ等の出力を行うための装置である。ユーザ等のオペレータは、入力装置１５及び出力装置１６を利用することで、モデル生成装置１を操作することができる。

　ドライブ１７は、例えば、ＣＤドライブ、ＤＶＤドライブ等であり、記憶媒体９１に記憶されたプログラム等の各種情報を読み込むためのドライブ装置である。記憶媒体９１は、コンピュータその他装置、機械等が、記憶されたプログラム等の各種情報を読み取り可能なように、当該プログラム等の情報を、電気的、磁気的、光学的、機械的又は化学的作用によって蓄積する媒体である。上記モデル生成プログラム８１及び複数の学習データセット３の少なくともいずれかは、記憶媒体９１に記憶されていてもよい。モデル生成装置１は、この記憶媒体９１から、上記モデル生成プログラム８１及び複数の学習データセット３の少なくともいずれかを取得してもよい。なお、図３では、記憶媒体９１の一例として、ＣＤ、ＤＶＤ等のディスク型の記憶媒体を例示している。しかしながら、記憶媒体９１の種類は、ディスク型に限られなくてもよく、ディスク型以外であってもよい。ディスク型以外の記憶媒体として、例えば、フラッシュメモリ等の半導体メモリを挙げることができる。ドライブ１７の種類は、記憶媒体９１の種類に応じて任意に選択されてよい。

　なお、モデル生成装置１の具体的なハードウェア構成に関して、実施形態に応じて、適宜、構成要素の省略、置換及び追加が可能である。例えば、制御部１１は、複数のハードウェアプロセッサを含んでもよい。ハードウェアプロセッサは、マイクロプロセッサ、ＦＰＧＡ（field-programmable gate array）、ＤＳＰ（digital signal processor）等で構成されてよい。記憶部１２は、制御部１１に含まれるＲＡＭ及びＲＯＭにより構成されてもよい。通信インタフェース１３、外部インタフェース１４、入力装置１５、出力装置１６及びドライブ１７の少なくともいずれかは省略されてもよい。モデル生成装置１は、複数台のコンピュータで構成されてもよい。この場合、各コンピュータのハードウェア構成は、一致していてもよいし、一致していなくてもよい。また、モデル生成装置１は、提供されるサービス専用に設計された情報処理装置の他、汎用のサーバ装置、ＰＣ（Personal Computer）等であってもよい。

　＜経路探索装置＞
　図４は、本実施形態に係る経路探索装置２のハードウェア構成の一例を模式的に例示する。図４に示されるとおり、本実施形態に係る経路探索装置２は、制御部２１、記憶部２２、通信インタフェース２３、外部インタフェース２４、入力装置２５、出力装置２６、及びドライブ２７が電気的に接続されたコンピュータである。

　経路探索装置２の制御部２１～ドライブ２７及び記憶媒体９２はそれぞれ、上記モデル生成装置１の制御部１１～ドライブ１７及び記憶媒体９１それぞれと同様に構成されてよい。制御部２１は、ハードウェアプロセッサであるＣＰＵ、ＲＡＭ、ＲＯＭ等を含み、プログラム及びデータに基づいて各種情報処理を実行するように構成される。記憶部２２は、例えば、ハードディスクドライブ、ソリッドステートドライブ等で構成される。本実施形態では、記憶部２２は、経路探索プログラム８２、学習結果データ１２５等の各種情報を記憶する。

　経路探索プログラム８２は、訓練済みの探索モジュール５を使用して経路探索タスクを遂行する後述の情報処理（図８）を経路探索装置２に実行させるためのプログラムである。経路探索プログラム８２は、当該情報処理の一連の命令を含む。経路探索プログラム８２及び学習結果データ１２５の少なくともいずれかは、記憶媒体９２に記憶されていてもよい。また、経路探索装置２は、経路探索プログラム８２及び学習結果データ１２５の少なくともいずれかを記憶媒体９２から取得してもよい。

　経路探索装置２は、通信インタフェース２３及び外部インタフェース２４の少なくとも一方を介して、対象マップ２２１を得るためのデバイス（例えば、カメラ、他のコンピュータ等）に接続されてよい。

　なお、経路探索装置２の具体的なハードウェア構成に関して、実施形態に応じて、適宜、構成要素の省略、置換及び追加が可能である。例えば、制御部２１は、複数のハードウェアプロセッサを含んでもよい。ハードウェアプロセッサは、マイクロプロセッサ、ＦＰＧＡ、ＤＳＰ等で構成されてよい。記憶部２２は、制御部２１に含まれるＲＡＭ及びＲＯＭにより構成されてもよい。通信インタフェース２３、外部インタフェース２４、入力装置２５、出力装置２６、及びドライブ２７の少なくともいずれかは省略されてもよい。経路探索装置２は、複数台のコンピュータで構成されてもよい。この場合、各コンピュータのハードウェア構成は、一致していてもよいし、一致していなくてもよい。また、経路探索装置２は、提供されるサービス専用に設計された情報処理装置の他、汎用のサーバ装置、汎用のＰＣ、携帯端末（例えば、スマートフォン）、タブレットＰＣ、ＰＬＣ（programmable logic controller）等であってもよい。

　［ソフトウェア構成］
　＜モデル生成装置＞
　図５は、本実施形態に係るモデル生成装置１のソフトウェア構成の一例を模式的に例示する。モデル生成装置１の制御部１１は、記憶部１２に記憶されたモデル生成プログラム８１をＲＡＭに展開する。そして、制御部１１は、ＲＡＭに展開されたモデル生成プログラム８１に含まれる命令をＣＰＵにより解釈及び実行して、各構成要素を制御する。これにより、図５に示されるとおり、本実施形態に係るモデル生成装置１は、データ取得部１１１、学習処理部１１２、及び保存処理部１１３をソフトウェアモジュールとして備えるコンピュータとして動作する。すなわち、本実施形態では、モデル生成装置１の各ソフトウェアモジュールは、制御部１１（ＣＰＵ）により実現される。

　データ取得部１１１は、複数の学習データセット３を取得するように構成される。各学習データセット３は、訓練マップ３１及び正解情報３２の組み合わせにより構成される。訓練マップ３１は、複数のノードを含むように構成される。各ノードは、実空間又は仮想空間上の任意の位置に対応してよい。一例として、移動体の移動する経路を探索するケースでは、各ノードは、移動体の移動を許容する空間領域の任意の地点に対応してよい。他の一例として、ロボット装置の動作する経路を探索するケースでは、各ノードは、ロボット装置の作業エリアの任意の地点に対応してよい。他の一例として、交通機関の利用経路を探索するケースでは、各ノードは、交通機関の拠点等の地理上の任意の地点に対応してよい。訓練マップ３１は、画像により構成されてよく、各ノードは、画像に含まれる各画素により構成されてよい。画像は、実画像又はバイナリ画像であってよい。正解情報３２は、訓練マップ３１における開始ノードＳ１から目標ノードＧ１までの推奨経路の正解を示すように構成される。

　学習処理部１１２は、取得された複数の学習データセット３を使用して、探索モジュール５の機械学習を実施するように構成される。探索モジュール５は、ニューラルネットワーク５０、抽出演算５１、及び選択演算５２を含むように構成される。ニューラルネットワーク５０は、入力マップに含まれる複数のノードそれぞれのコストを推定するように構成される。抽出演算５１は、経由ノードに近接する１つ以上の候補ノードを入力マップに含まれる複数のノードから抽出するように構成される。選択演算５２は、ニューラルネットワーク５０の推定結果に基づいて、開始ノードから目標ノードまでのコストの総和が最小となるように、抽出された１つ以上の候補ノードから次の経由ノードを選択するように構成される。探索モジュール５は、開始ノードを最初の経由ノードに設定し、目標ノードが経由ノードとして選択されるまで、抽出演算５１及び選択演算５２を繰り返すことで、開始ノードから目標ノードまでの経路を探索するように構成される。

　機械学習は、誤差逆伝播法によって、各学習データセット３について、訓練マップ３１を入力マップとして与えることで探索モジュール５により探索される経路が正解情報３２により示される推奨経路の正解に適合するように探索モジュール５を訓練することにより構成される。学習処理部１１２は、機械学習の間、順伝播（探索の試行）のフェーズでは、抽出演算５１及び選択演算５２をそのまま計算するのに対して、逆伝播のフェーズでは、抽出演算５１及び選択演算５２それぞれを微分可能な代替演算に置き換え、置き換えられた代替演算の微分計算により、抽出演算５１及び選択演算５２それぞれの微分計算に対応する近似勾配を算出するように構成される。

　保存処理部１１３は、機械学習により生成された訓練済みの探索モジュール５に関する情報を学習結果データ１２５として生成し、生成された学習結果データ１２５を所定の記憶領域に保存するように構成される。学習結果データ１２５は、訓練済みの探索モジュール５を再生するための情報を含むように適宜構成されてよい。

　（探索モジュール）
　図５に示されるとおり、本実施形態に係る探索モジュール５に含まれるニューラルネットワーク５０は、全結合型ニューラルネットワークであり、入力層５０１、１つ以上の中間（隠れ）層５０２、及び出力層５０３を備えている。

　入力層５０１は、各ノードのコストを推定する対象となるマップの入力を受け付けるように構成される。コストは、マップ内の障害物等の配置の他、開始ノード及び目標ノードの位置にも影響を受け得る。そのため、入力層５０１は、マップと共に、開始ノード及び目標ノードの少なくとも一方の情報の入力を更に受け付けるように構成されてよい。出力層５０３は、入力マップに含まれる各ノードのコストの推定結果を出力するように構成される。中間層５０２の数は、実施の形態に応じて適宜決定されてよい。

　各層５０１～５０３は、１又は複数のニューロン（ノード）を備えている。各層５０１～５０３に含まれるニューロンの数は、実施の形態に応じて適宜決定されてよい。入力層５０１のニューロンの数は、例えば、上記入力の次元数等の入力形態に応じて適宜決定されてよい。出力層５０３のニューロンの数は、例えば、上記出力の次元数等の出力形態に応じて適宜決定されてよい。本実施形態では、各層５０１～５０３に含まれる各ニューロンは、隣接する層の全てのニューロンと結合される。

　各層５０１～５０３の各結合には、重み（結合荷重）が設定される。各ニューロンには閾値が設定されており、基本的には、各入力と各重みとの積の和が閾値を超えているか否かによって各ニューロンの出力が決定される。閾値は、活性化関数により表現されてよい。この場合、各入力と各重みとの積の和を活性化関数に入力し、活性化関数の演算を実行することで、各ニューロンの出力が決定される。活性化関数の種類は任意に選択されてよい。各層５０１～５０３に含まれる各ニューロン間の結合の重み及び各ニューロンの閾値は、演算パラメータの一例である。

　上記機械学習では、学習処理部１１２は、各学習データセット３の訓練マップ３１を訓練データ（入力データ）として使用し、正解情報３２を正解データ（教師信号、ラベル）として使用する。

　すなわち、探索の試行フェーズでは、まず、学習処理部１１２は、各学習データセット３の訓練マップ３１を入力層５０１に入力し、ニューラルネットワーク５０の順伝播の演算処理を実行する。この演算により、学習処理部１１２は、訓練マップ３１に含まれる各ノードのコストの推定結果６０を出力層５０３から取得する。学習処理部１１２は、開始ノードＳ１を最初の経由ノードに設定する。そして、学習処理部１１２は、得られた推定結果６０を利用し、目標ノードＧ１が経由ノードとして選択されるまで、抽出演算５１及び選択演算５２を繰り返す。この順伝播の演算過程では、学習処理部１１２は、抽出演算５１及び選択演算５２をそのまま計算する。これらの一連の順伝播の演算（探索の試行）を実行した結果として、学習処理部１１２は、訓練マップ３１に対する経路の探索結果６２を取得する。

　学習処理部１１２は、得られた探索結果６２と入力した訓練マップ３１に関連付けられた正解情報３２により示される正解との間の誤差を算出する。そして、学習処理部１１２は、誤差の勾配を算出し、誤差逆伝播法により、算出された誤差の勾配を逆伝播して、各演算パラメータの値を調整する。この逆伝播の演算過程では、学習処理部１１２は、代替演算の微分計算により算出される近似勾配それぞれを抽出演算５１及び選択演算５２それぞれの微分計算の結果として採用する。

　学習処理部１１２は、各学習データセット３について、算出される誤差の和が小さくなるように各演算パラメータの値を調整する上記一連の処理を繰り返す。この機械学習の結果として、入力マップに対してコスト最小となる推奨経路を探索する能力を獲得した訓練済みの探索モジュール５を生成することができる。

　保存処理部１１３は、上記機械学習により生成された訓練済みの探索モジュール５を再生するための学習結果データ１２５を生成する。訓練済みの探索モジュール５を再生可能であれば、学習結果データ１２５の構成は、特に限定されなくてよく、実施の形態に応じて適宜決定されてよい。一例として、学習結果データ１２５は、上記機械学習の調整により得られた各演算パラメータの値を示す情報を含んでよい。場合によって、学習結果データ１２５は、ニューラルネットワーク５０の構造、抽出演算５１の内容、及び選択演算５２の内容の少なくともいずれかを示す情報を含んでよい。ニューラルネットワーク５０の構造は、例えば、入力層から出力層までの層の数、各層の種類、各層に含まれるニューロンの数、隣接する層のニューロン同士の結合関係等により特定されてよい。保存処理部１１３は、生成された学習結果データ１２５を所定の記憶領域に保存する。

　＜経路探索装置＞
　図６は、本実施形態に係る経路探索装置２のソフトウェア構成の一例を模式的に例示する。経路探索装置２の制御部２１は、記憶部２２に記憶された経路探索プログラム８２をＲＡＭに展開する。そして、制御部２１は、ＲＡＭに展開された経路探索プログラム８２に含まれる命令をＣＰＵにより解釈及び実行して、各構成要素を制御する。これにより、図６に示されるとおり、本実施形態に係る経路探索装置２は、マップ取得部２１１、探索部２１２、及び出力部２１３をソフトウェアモジュールとして備えるコンピュータとして動作する。すなわち、本実施形態では、経路探索装置２の各ソフトウェアモジュールも、モデル生成装置１と同様に、制御部２１（ＣＰＵ）により実現される。

　マップ取得部２１１は、経路探索タスクの対象となる対象マップ２２１を取得するように構成される。探索部２１２は、学習結果データ１２５を保持していることで、訓練済みの探索モジュール５を備えている。探索部２１２は、訓練済みの探索モジュール５を使用して、取得された対象マップ２２１における開始ノードＳ２から目標ノードＧ２までの経路を探索するように構成される。すなわち、探索部２１２は、訓練済みのニューラルネットワーク５０の入力層５０１に取得された対象マップ２２１を入力し、訓練済みのニューラルネットワーク５０の順伝播の演算処理を実行する。この演算処理により、探索部２１２は、対象マップ２２１に含まれる各ノードのコストの推定結果２２３を出力層５０３から取得することができる。続いて、探索部２１２は、得られた推定結果２２３を利用し、目標ノードＧ２が経由ノードとして選択されるまで、抽出演算５１及び選択演算５２を繰り返す。この第２計算モジュールの演算では、探索部２１２は、上記機械学習の順伝播のフェーズ（探索の試行フェーズ）と同様に、抽出演算５１及び選択演算５２をそのまま採用する。これらの一連の演算処理の実行結果として、探索部２１２は、対象マップ２２１に対する経路の探索結果２２５を取得するように構成される。出力部２１３は、得られた探索結果２２５に関する情報を出力するように構成される。

　＜その他＞
　モデル生成装置１及び経路探索装置２の各ソフトウェアモジュールに関しては後述する動作例で詳細に説明する。なお、本実施形態では、モデル生成装置１及び経路探索装置２の各ソフトウェアモジュールがいずれも汎用のＣＰＵによって実現される例について説明している。しかしながら、上記ソフトウェアモジュールの一部又は全部が、１又は複数の専用のプロセッサ（例えば、グラフィックスプロセッシングユニット）により実現されてもよい。上記各モジュールは、ハードウェアモジュールとして実現されてもよい。また、モデル生成装置１及び経路探索装置２それぞれのソフトウェア構成に関して、実施形態に応じて、適宜、ソフトウェアモジュールの省略、置換及び追加が行われてもよい。

　§３　動作例
　［モデル生成装置］
　図７は、本実施形態に係るモデル生成装置１による機械学習に関する処理手順の一例を示すフローチャートである。以下で説明するモデル生成装置１の処理手順は、モデル生成方法の一例である。ただし、以下で説明するモデル生成装置１の処理手順は一例に過ぎず、各ステップは可能な限り変更されてよい。また、以下の処理手順について、実施の形態に応じて、適宜、ステップの省略、置換、及び追加が行われてよい。

　（ステップＳ１０１）
　ステップＳ１０１では、制御部１１は、データ取得部１１１として動作し、複数の学習データセット３を取得する。

　各学習データセット３は適宜生成されてよい。一例として、まず、探索空間を構成する複数のノードを含む訓練マップ３１を生成する。探索空間は、例えば、移動体の移動計画、ロボット装置の動作計画、交通機関の乗り換え計画等のタスクの目的に応じて設定されてよい。また、探索空間は、実空間又は仮想空間上に設定されてよい。訓練マップ３１は人手により適宜生成されてもよい。探索空間の少なくとも一部を変更することで、複数の異なる訓練マップ３１が生成されてよい。マップに実画像を利用する場合、経路探索の対象となり得る空間領域をカメラにより撮影することで、訓練マップ３１を生成してもよい。マップにバイナリ画像を利用する場合、カメラにより得られた実画像の各画素を任意の方法で二値化することにで、訓練マップ３１を生成してもよい。バイナリ画像は人手で生成されてもよい。訓練マップ３１は、複数の画像により構成されてもよい。

　次に、生成された訓練マップ３１に対して、開始ノードから目標ノードまでの推奨経路の正解を示す正解情報３２を生成する。推奨経路は、適宜得られてよい。一例として、推奨経路は、オペレータの手作業により与えられてもよい。その他の一例として、推奨経路は、例えば、ダイクストラ法、最良優先探索法、Ａ^*探索アルゴリズム等の既存の探索アルゴリズムを訓練マップ３１に対して実行することで得られてもよい。更にその他の一例として、実空間上に探索空間が設定される場合、その探索空間において開始ノードから目標ノードまで実際に移動する又はその計画を立てることで得られた実績を推奨経路として利用してもよい。コストの総和が最小となる経路を推奨経路の正解として取り扱うことが望ましいが、少なくとも一部の正解情報３２により示される正解は、必ずしもコストの総和が最小となる経路でなくてもよい。コストは、例えば、距離、時間、費用、危険度、混雑度、魅力度等に応じて評価されてよい。一例として、コストの評価指標として距離を採用することで、正解情報３２は、推奨経路の正解として最短距離を示すように構成されてよい。なお、推奨経路を表現可能であれば、正解情報３２のデータ形式は、特に限定されなくてよく、実施の形態に応じて適宜選択されてよい。一例として、訓練マップ３１が画像で構成される場合、正解情報３２も画像で構成されてよく、推奨経路は、その画像上で示されてよい。

　そして、生成された正解情報３２を訓練マップ３１に関連付ける。これにより、各学習データセット３を生成することができる。なお、同一の訓練マップ３１に対して、開始ノード及び目標ノードの少なくとも一方が異なるように開始ノード及び目標ノードの複数のペアを生成してもよい。生成された各ペアに対して正解情報３２を生成し、各ペアの生成された正解情報３２を訓練マップ３１に関連付けてもよい。これにより、同一の訓練マップ３１から複数の異なる学習データセット３を生成してもよい。

　各学習データセット３は、コンピュータの動作により自動的に生成されてもよいし、或いは少なくとも部分的にオペレータの操作を含むことで手動的に生成されてもよい。また、各学習データセット３の生成は、モデル生成装置１により行われてもよいし、モデル生成装置１以外の他のコンピュータにより行われてもよい。各学習データセット３をモデル生成装置１が生成する場合、制御部１１は、自動的に又は入力装置１５を介したオペレータの操作により手動的に上記生成処理を実行することで、各学習データセット３を取得してよい。一方、各学習データセット３を他のコンピュータが生成する場合、制御部１１は、例えば、ネットワーク、記憶媒体９１等を介して、他のコンピュータにより生成された各学習データセット３を取得してよい。複数の学習データセット３の一部がモデル生成装置１により生成され、その他が１又は複数の他のコンピュータにより生成されてもよい。

　取得する学習データセット３の件数は、特に限定されなくてよく、機械学習を実施可能なように実施の形態に応じて適宜決定されてよい。複数の学習データセット３を取得すると、制御部１１は、次のステップＳ１０２に処理を進める。

　（ステップＳ１０２）
　ステップＳ１０２では、制御部１１は、学習処理部１１２として動作し、取得された複数の学習データセット３を使用して、探索モジュール５の機械学習を実施する。

　機械学習の処理の一例として、まず、機械学習の処理対象となる探索モジュール５の初期設定を行う。探索モジュール５のうちニューラルネットワーク５０の初期設定では、ニューラルネットワーク５０の構造（例えば、層の数、各層の種類、各層に含まれるニューロンの数、隣接する層のニューロン同士の結合関係等）及び各演算パラメータの初期値を適宜与える。ニューラルネットワーク５０の構造及び各演算パラメータの初期値は、テンプレートにより与えられてもよいし、オペレータの入力により与えられてもよい。再学習を行う場合、過去の機械学習により得られた学習結果データに基づいて、ニューラルネットワーク５０の初期設定が行われてよい。

　また、抽出演算５１及び選択演算５２は、適宜構築されてよい。抽出演算５１により抽出される候補ノード（すなわち、経由ノードに近接するノード）は、経由ノードの次に経由する候補となるノードであって、典型的には、経由ノードに隣接するノードである。抽出演算５１により抽出される候補ノードは、この経由ノードに物理的に隣接するノードの他、例えば、経由ノードから一定のコスト以内で移動（遷移）可能なノードを含んでよい。上記（３）（Ｂ）のとおり、抽出演算５１は、経由ノード（ｖ^*）が指定されると、指定された経由ノード（ｖ^*）に近接する１つ以上の候補ノード（集合Ｖ_SUCC⊂Ｖ）を入力マップに含まれるノードの集合（Ｖ）から抽出し、抽出された候補ノードを集合Ｏに追加するように適宜構成されてよい。

　一方、上記（３）（Ａ）のとおり、選択演算５２は、ニューラルネットワーク５０によるコストの推定結果に基づいて、コストが最小となる次の経由ノードを集合Ｏから選択し、選択したノードを集合Ｃに追加すると共に、集合Ｏから取り除くように適宜構成されてよい。コストを計算するためのコスト関数ｆ（ｖ）（式１）は任意に設定されてよい。すなわち、ノードの抽出及び選択により経路を探索するものであれば、探索モジュール５で採用する探索アルゴリズムは、特に限定されなくてよく、実施の形態に応じて適宜選択されてよい。

　一例として、選択演算５２は、所定の探索アルゴリズムによりコストの総和が最小となるように、抽出された１つ以上の候補ノードから次の経由ノードを選択するように構成されてよい。所定の探索アルゴリズムは、例えば、ダイクストラ法、最良優先探索法、又はＡ^*探索アルゴリズムであってよい。つまり、選択演算５２は、既存の探索アルゴリズムを利用して構築されてよい。これにより、探索モジュール５の構築にかかる手間を低減することができる。なお、各アルゴリズムは、オリジナルのアルゴリズムの他に、変形アルゴリズム（オリジナルのアルゴリズムから派生したアルゴリズム）を含んでよい。例えば、所定の探索アルゴリズムは、変形ダイクストラ法、変形最良優先探索法、及び変形Ａ^*探索アルゴリズムを含んでよい。例えば、Ａ^*探索アルゴリズムは、オリジナルのＡ^*探索アルゴリズムの他に、weighted A*（上記式１のａ＝１、ｂ＞１）、bidirectional A*（開始ノード及び目標ノードの双方から経路を探索する）等の変形Ａ^*探索アルゴリズムを含んでよい。

　これに応じて、ニューラルネットワーク５０の出力（すなわち、推定結果６０）は、入力マップに含まれる各ノードについて、上記式１のコスト関数ｆ（ｖ）の値を導出可能に構成されてよい。一例として、各ノードの評価関数ｆ（ｖ）（上記式１）は、以下の式２に置き換えられてよい。

φ（ｎ）は、ニューラルネットワーク５０により推定されるノードｎのコストを示す。Ｐ（ｖ，ｖ_s）は、開始ノードｖ_sからノードｖまでのコストが最小となるノードの系列（集合）を示す。このノードの系列（Ｐ（ｖ，ｖ_s））は、選択演算５２により経由ノードを選択した後、抽出演算５１により候補ノードを抽出する際に、候補ノードの親ノードとして経由ノードの情報を連結リスト等の形式で保持することで、逐次的に更新されてよい。ａ及びｂの値は、採用するアルゴリズムに応じて適宜決定されてよい。ｈ（ｖ，ｖ_g）は、上記のとおり、ノードｖから目標ノードｖ_gまで移動するのにかかると予想されるコストである。ａが０ではない場合、ｈ（ｖ，ｖ_g）は、ニューラルネットワーク５０の推定結果を利用せずに算出されてよい。例えば、ｈ（ｖ，ｖ_g）は、ノードｖから目標ノードｖ_gまでのユークリッド距離、マンハッタン距離等の既存の指標により算出されてよい。その他の一例では、ｈ（ｖ，ｖ_g）も、φ（ｍ）の項と同様に、ニューラルネットワーク５０の推定結果を利用して算出されてよい。この場合、ｈ（ｖ，ｖ_g）の算出方法の一例として、ノードｖから目標ノードｖ_gまでの直線上にあるノードについてのコストφ（ｍ）の総和をｈ（ｖ，ｖ_g）として算出してもよい。算出方法のその他の一例として、ノードｖから目標ノードｖ_gまでの直線上にあるノードについてのコストφ（ｍ）の最大値、最小値又は中央値をｈ（ｖ，ｖ_g）として算出してもよい。これにより、探索モジュール５は、ニューラルネットワーク５０により得られる推定結果を利用し、抽出演算５１及び選択演算５２を実行することで、コスト最小となる経路を探索可能に構成される。なお、以下の説明では、簡略化のため、探索アルゴリズムには、オリジナルのＡ^*探索アルゴリズム又は変形Ａ^*探索アルゴリズムを採用するものとし、ｈ（ｖ，ｖ_g）の算出方法には、ニューラルネットワーク５０の推定結果を用いない例を採用するものとする。

　探索モジュール５の一例として、２次元のバイナリ画像によりマップが構成され、コストの値が［０，１］の範囲で与えられる場合、ニューラルネットワーク５０は、例えば、出力層にシグモイド関数を用いることで、各ノード（各画素）のコストの推定結果を二次元画像（各画素の値は［０，１］）で出力するように構成されてよい。マップ（バイナリ画像）は、障害物のノードの値が０であり、移動可能なノードの値が１であるように構成されてよい。開始ノードｖ_sは、開始ノードｖ_sの値が１であり、それ以外の値が０であるバイナリ画像により表現されてよい。同様に、目標ノードｖ_gは、目標ノードｖ_gの値が１であり、それ以外の値が０であるバイナリ画像により表現されてよい。上記集合Ｃ及び集合Ｏも、集合に属するノードの値が１であり、それ以外の値が０であるバイナリ画像により表現されてよい。この場合に、選択演算５２は、以下の式３により与えられてよい。

Ｏ（ｎ）（∈｛０，１｝）は、集合Ｏにおけるノードｎの値を示す。τは、温度パラメータであり、マップのサイズによって適応的に決定されてよい。一例では、τには、マップサイズＳの平方根が代入されてよい。式３の演算により、集合Ｏに属するノードの中からｆが最小となるノードを選択することができる。なお、式３のｖ^*は、argmaxにより選択されるノードの値が１であり、それ以外のノードの値が０であるバイナリ画像（one-hot map）により表現可能である。この選択演算５２により、集合Ｃは、以下の式４により更新されてよい。また、集合Ｏは、以下の式５により更新されてよい。

なお、探索を開始する前に、集合Ｃを表現するバイナリ画像は、全てのノードの値を０に初期化されており、集合Ｏを表現するバイナリ画像は、開始ノードｖ_sを表現するバイナリ画像により与えられる。上記式４の更新により、集合Ｃは、探索されたノードの値が１であり、探索されなかったノードの値が０であるバイナリ画像により表現されることになる。つまり、探索終了後の集合Ｃは、探索過程で得られるｖ^*を全て加算した合計のバイナリ画像により表現されることになる。一方、抽出演算５１は、以下の式６により与えられてよく、この抽出演算５２により、集合Ｏは、以下の式７により更新されてよい。

Ｎは、「近接」を表現するフィルタを示す。例えば、４つの近接ノードをフィルタリングする場合、Ｎは、［［０，１，０］，［１，０，１］，［０，１，０］］であってよく、８つの近接ノードをフィルタリングする場合、Ｎは、［［１，１，１］，［１，０，１］，［１，１，１］］であってよい。演算子「＊」は、畳み込み演算を示す。Ｉは、入力マップ（障害物のノードの値が０であり、移動可能なノードの値が１であるように構成されたバイナリ画像）を示す。演算子「\odot」は、アダマール積（要素積）を示す。式７の抽出演算５１により、次の経由ノードとして選択されたノードｖ^*に近接するノードのうち、探索候補（集合Ｏ）にも探索済み（集合Ｃ）にもなっていないノードを抽出し、集合Ｏに追加することができる。

　上記抽出演算５１及び選択演算５２により構成される第２計算モジュールの順伝播の演算は、次の（ｉ）－（ｉｉｉ）の処理として表現することができる。
（ｉ）選択演算５２（式３）を実行する。
（ｉｉ）式４により、集合Ｃを更新する。集合Ｃに追加するノードｖ^*が目標ノードｖ_gである場合、経路探索を終了する。
（ｉｉｉ）抽出演算５１（式６）、並びに式５及び式７による集合Ｏの更新を実行し、（ｉ）に戻る。
この第２計算モジュールの順伝播の演算は、ニューラルネットワーク５０（第１計算モジュール）の順伝播の演算が完了した後に実行される。バイナリ画像をマップに用いる場合、初期設定により、ニューラルネットワーク５０、抽出演算５１、及び選択演算５２は、以上のように構成されてよい。

　次に、制御部１１は、各学習データセット３について、各学習データセット３について、訓練マップ３１を入力マップとして与えることで探索モジュール５により探索される経路が正解情報３２により示される推奨経路の正解に適合するように探索モジュール５を訓練する。この訓練処理には、確率的勾配降下法、ミニバッチ勾配降下法等が用いられてよい。

　訓練処理の一例として、まず、制御部１１は、探索モジュール５を使用して、各学習データセット３の訓練マップ３１に対する経路探索を試行する。すなわち、制御部１１は、各学習データセット３の訓練マップ３１をニューラルネットワーク５０の入力層５０１に入力する。ニューラルネットワーク５０が、開始ノード及び目標ノードの少なくとも一方の情報の入力を更に受け付けるように構成されている場合、制御部１１は、訓練マップ３１と共に、訓練マップ３１の開始ノードＳ１及び目標ノードＧ１の少なくとも一方の情報を入力層５０１に更に入力する。そして、制御部１１は、ニューラルネットワーク５０（第１計算モジュール）の順伝播の演算処理を実行する。この演算処理の結果として、制御部１１は、訓練マップ３１に含まれる各ノードのコストの推定結果６０を出力層５０３から取得する。続いて、制御部１１は、ニューラルネットワーク５０によるコストの推定結果６０を利用して、第２計算モジュールの順伝播の演算を実行する。具体的には、制御部１１は、上記（１）（２）のとおり、集合Ｏ及び集合Ｃを用意し、それぞれを空にする（すなわち、初期化する）。制御部１１は、開始ノードＳ１を集合Ｏに追加することで、開始ノードＳ１を最初の経由ノードに設定する。そして、制御部１１は、得られた推定結果６０を上記のとおりに利用し、目標ノードＧ１が経由ノードとして選択されるまで、抽出演算５１及び選択演算５２を繰り返す。例えば、探索モジュール５が上記バイナリ画像を用いる一例のとおり構成される場合、制御部１１は、上記（ｉ）－（ｉｉｉ）の処理の処理を実行する。これら一連の順伝播の演算（探索の試行）を実行した結果として、制御部１１は、訓練マップ３１に対する経路の探索結果６２（すなわち、集合Ｃ）を得るこができる。この順伝播の演算過程では、制御部１１は、抽出演算５１及び選択演算５２をそのまま計算する。

　次に、制御部１１は、得られた探索結果６２（集合Ｃ）と入力した訓練マップ３１に関連付けられた正解情報３２により示される推奨経路の正解との間の誤差を算出する。誤差（損失）の算出には、損失関数が用いられてよい。誤差の計算に利用する損失関数の種類は、実施の形態に応じて適宜選択されてよい。一例として、探索結果６２及び正解情報３２が共に画像により構成される場合、制御部１１は、例えば、ハミング距離、Ｌ１距離、Ｌ２距離等の画像の同一性を評価する指標を損失関数として用いて、両画像間の誤差（差分）を算出してよい。すなわち、損失関数は、推奨経路上のノードが探索結果６２に含まれていないこと、及び推奨経路以外のノードが探索結果６２に含まれていることを誤差として評価可能に構成されればよい。具体例として、探索モジュール５が上記バイナリ画像を用いる一例のとおり構成され、正解情報３２及び探索結果６２がバイナリ画像で表現される場合、誤差Ｌは、以下の式８により与えられてよい。

Ｃ（ｎ）（∈｛０，１｝）は、集合Ｃにおけるノードｎの値を示す。Ｙ（ｎ）は、正解情報３２を表現するバイナリ画像におけるノードｎの値を示す。このバイナリ画像は、推奨経路上のノードの値が１、それ以外のノードの値が０になるように構成されてよい。

　続いて、制御部１１は、算出された誤差の勾配を算出する。そして、制御部１１は、誤差逆伝播法により、算出された誤差の勾配を用いて、各演算パラメータの値の誤差を出力側から順に算出する。探索モジュール５が上記バイナリ画像を用いる一例のとおり構成される場合、集合Ｃは、以下の式９のように表現することができる。これに応じて、誤差の勾配を逆伝播する演算は、以下の式１０により与えられてよい。

ｖ^* _tは、上記（ｉ）－（ｉｉｉ）による探索中のｔステップ目で選択されたノードを示す。θは、ニューラルネットワーク５０の各演算パラメータを示す。

　この誤差を逆伝播する演算過程では、制御部１１は、抽出演算５１及び選択演算５２をそれぞれ微分可能な代替演算に置き換える。制御部１１は、置き換えられた代替演算の微分計算により、抽出演算５１及び選択演算５２それぞれの微分計算に対応する近似勾配を算出する。一例では、抽出演算５１の代替演算は、フィルタＮをカーネルとした畳み込み演算であってよい。また、選択演算５２の代替演算Ｖ^*は、式１１（straight-through soft-min with temperatureを利用した一例）の演算であってよい。

　式１１の代替演算をargmax_n(F(-f(n)))と表現すると、式１０におけるδｖ^* _t（ｎ）／δｆ（ｎ）は、δＦ／δｆ（ｎ）と表現することができる。Ｖ^*は、選択されたノードの値が１であり、それ以外のノードの値が０である配列と捉えることができる。Ｖ^*のｎ番目の要素について、ｆのｍ番目の要素に対する勾配は、上記式１２のとおり算出することができる。また、式２のφ（ｍ）の項を式１のｇの項と捉えると、δｆ（ｎ）／δφ（ｎ）は、δｆ（ｎ）／δｇ（ｎ）及びδｇ（ｎ）／δφ（ｎ）の積により表現することができる。このうち、Ｐの経路を辿る際に、抽出演算５１を上記代替演算に置き換えていることで、近似勾配（すなわち、δｇ（ｎ）／δφ（ｎ）の項）を算出することができる。したがって、これらの置き換えにより、制御部１１は、代替演算に置き換えなければ微分不能な上記式１０におけるδｖ^* _t（ｎ）／δｆ（ｎ）の項及びδｆ（ｎ）／δφ（ｎ）の項の近似勾配を算出することができる。これにより、勾配（δＬ／δθ）を算出することができる。そして、制御部１１は、算出された勾配（δＬ／δθ）を用いて、各層５０１～５０３の各演算パラメータの値の誤差を算出することができる。

　制御部１１は、算出された各誤差に基づいて、各層５０１～５０３の各演算パラメータの値を更新する。各演算パラメータの値を更新する程度は、学習率により調節されてよい。学習率は、オペレータの指定により与えられてもよいし、プログラム内の設定値として与えられてもよい。

　制御部１１は、上記一連の更新処理により、各学習データセット３について、算出される誤差の和が小さくなるように（上記の例では、誤差Ｌを最小化するように）、各層５０１～５０３の各演算パラメータの値を調整する。例えば、規定回数実行する、算出される誤差の和が閾値以下になる等の所定の条件を満たすまで、制御部１１は、上記一連の更新処理による各演算パラメータの値の調整を繰り返してもよい。

　この機械学習の処理結果（一例として、上記誤差Ｌを最小化するように各パラメータの値を最適化した結果）として、制御部１１は、使用した学習データセット３に応じた所望の経路探索タスクを遂行する能力を獲得した訓練済みの探索モジュール５を生成することができる。換言すると、上記機械学習により、探索モジュール５に推奨経路を探索する能力を獲得させると共に、冗長な探索を低減するように各ノードのコストを推定する能力をニューラルネットワーク５０に獲得させることができる。機械学習の処理が完了すると、制御部１１は、次のステップＳ１０３に処理を進める。

　（ステップＳ１０３）
　ステップＳ１０３では、制御部１１は、保存処理部１１３として動作し、機械学習により生成された訓練済みの探索モジュール５に関する情報を学習結果データ１２５として生成する。そして、制御部１１は、生成された学習結果データ１２５を所定の記憶領域に保存する。

　所定の記憶領域は、例えば、制御部１１内のＲＡＭ、記憶部１２、外部記憶装置、記憶メディア又はこれらの組み合わせであってよい。記憶メディアは、例えば、ＣＤ、ＤＶＤ等であってよく、制御部１１は、ドライブ１７を介して記憶メディアに学習結果データ１２５を格納してもよい。外部記憶装置は、例えば、ＮＡＳ（Network Attached Storage）等のデータサーバであってよい。この場合、制御部１１は、通信インタフェース１３を利用して、ネットワークを介してデータサーバに学習結果データ１２５を格納してもよい。また、外部記憶装置は、例えば、外部インタフェース１４を介してモデル生成装置１に接続された外付けの記憶装置であってもよい。

　学習結果データ１２５の保存が完了すると、制御部１１は、本動作例に係るモデル生成装置１の処理手順を終了する。

　なお、生成された学習結果データ１２５は、任意のタイミングで経路探索装置２に提供されてよい。例えば、制御部１１は、ステップＳ１０３の処理として又はステップＳ１０３の処理とは別に、学習結果データ１２５を経路探索装置２に転送してもよい。経路探索装置２は、この転送を受信することで、学習結果データ１２５を取得してもよい。また、例えば、経路探索装置２は、通信インタフェース２３を利用して、モデル生成装置１又はデータサーバにネットワークを介してアクセスすることで、学習結果データ１２５を取得してもよい。また、例えば、経路探索装置２は、記憶媒体９２を介して、学習結果データ１２５を取得してもよい。また、例えば、学習結果データ１２５は、経路探索装置２に予め組み込まれてもよい。

　更に、制御部１１は、上記ステップＳ１０１～ステップＳ１０３の処理を定期又は不定期に繰り返すことで、学習結果データ１２５を更新又は新たに生成してもよい。この繰り返しの際に、機械学習に使用する学習データセット３の少なくとも一部の変更、修正、追加、削除等が適宜実行されてよい。そして、制御部１１は、更新した又は新たに生成した学習結果データ１２５を任意の方法で経路探索装置２に提供することで、経路探索装置２の保持する学習結果データ１２５を更新してもよい。

　［経路探索装置］
　図８は、本実施形態に係る経路探索装置２による経路探索タスクの遂行に関する処理手順の一例を示すフローチャートである。以下で説明する経路探索装置２の処理手順は、経路探索方法の一例である。ただし、以下で説明する経路探索装置２の処理手順は一例に過ぎず、各ステップは可能な限り変更されてよい。また、以下の処理手順について、実施の形態に応じて、適宜、ステップの省略、置換、及び追加が行われてよい。

　（ステップＳ２０１）
　ステップＳ２０１では、制御部２１は、マップ取得部２１１として動作し、対象マップ２２１を取得する。

　対象マップ２２１は、訓練マップ３１と同種のデータである。場合によっては、対象マップ２２１は、訓練マップ３１と同一であってもよい。対象マップ２２１の取得には、任意のデバイスが用いられてよい。一例として、画像によりマップが構成される場合、対象マップ２２１の取得には、カメラが用いられてよい。制御部２１は、外部インタフェース２４等を介して、このデバイスから直接的に対象マップ２２１を取得してもよい。或いは、制御部２１は、他のコンピュータを介して当該デバイスから間接的に対象マップ２２１を取得してもよい。

　対象マップ２２１と共に、制御部２１は、開始ノードＳ２及び目標ノードＧ２の情報を適宜取得する。各ノード（Ｓ２、Ｇ２）の情報は、対象マップ２２１に含まれていてもよい。或いは、各ノード（Ｓ２、Ｇ２）の情報は、ユーザの指定、任意の情報処理の結果（例えば、現在地の測定結果）等から得られてよい。対象マップ２２１及び各ノード（Ｓ２、Ｇ２）の情報を取得すると、制御部２１は、次のステップＳ２０２に処理を進める。

　（ステップＳ２０２）
　ステップＳ２０２では、制御部２１は、探索部２１２として動作し、学習結果データ１２５を参照して、訓練済みの探索モジュール５の設定を行う。そして、制御部２１は、訓練済みの探索モジュール５を使用して、取得された対象マップ２２１における開始ノードＳ２から目標ノードＧ２までのコスト最小となる推奨経路を探索する。

　この探索の演算処理は、上記機械学習の訓練処理における探索試行フェーズの演算処理と同様であってよい。すなわち、制御部２１は、取得された対象マップ２２１を訓練済みのニューラルネットワーク５０の入力層５０１に入力する。ニューラルネットワーク５０が、開始ノード及び目標ノードの少なくとも一方の情報の入力を更に受け付けるように構成されている場合、制御部２１は、開始ノードＳ２及び目標ノードＧ２の少なくとも一方の情報を入力層５０１に更に入力する。そして、制御部２１は、訓練済みのニューラルネットワーク５０の順伝播の演算処理を実行する。この演算処理の結果として、制御部２１は、対象マップ２２１に含まれる各ノードのコストの推定結果２２３を出力層５０３から取得する。続いて、制御部２１は、上記（１）（２）のとおり、集合Ｏ及び集合Ｃを用意し、それぞれを空にする。制御部２１は、開始ノードＳ２を集合Ｏに追加することで、開始ノードＳ２を最初の経由ノードに設定する。そして、制御部２１は、得られた推定結果２２３を利用して、目標ノードＧ２が経由ノードとして選択されるまで、抽出演算５１及び選択演算５２を繰り返す。

　これらの一連の演算処理の実行結果として、制御部２１は、対象マップ２２１に対するコスト最小となる推奨経路の探索結果２２５を取得することができる。一例では、制御部２１は、集合Ｃを参照して、目標ノードＧ２から親ノード（以前の経由ノード）を順に開始ノードＳ２まで辿ることで、コスト最小となる推奨経路を得ることができる。探索結果２２５を取得すると、制御部２１は、次のステップＳ２０３に処理を進める。

　（ステップＳ２０３）
　ステップＳ２０３では、制御部２１は、出力部２１３として動作し、推奨経路の探索結果２２５に関する情報を出力する。

　出力先及び出力する情報の内容はそれぞれ、実施の形態に応じて適宜決定されてよい。例えば、制御部２１は、ステップＳ２０２により得られた探索結果２２５をそのまま出力装置２６に出力してもよい。出力形式は、例えば、画像、音声等から適宜選択されてよい。また、例えば、制御部２１は、得られた探索結果２２５に基づいて、何らかの情報処理を実行してもよい。そして、制御部２１は、その情報処理を実行した結果を、探索結果２２５に関する情報として出力してもよい。この情報処理を実行した結果の出力には、探索結果２２５に応じて制御対象装置の動作を制御することなどが含まれてよい。出力先は、例えば、出力装置２６、他のコンピュータの出力装置、制御対象装置等であってよい。

　一例として、経路の探索結果２２５に関する情報は、探索された経路に従ったナビゲーションにより構成されてよい。ナビゲーションは、例えば、画像、音声等により、探索された経路に沿った移動をユーザに促すことであってよい。或いは、ナビゲーションは、探索された経路に沿って駆動するように制御対象装置の動作を制御することであってよい。これにより、得られた探索結果２２５に従って、移動案内又は動作制御を実行することができる。

　探索結果２２５に関する情報の出力が完了すると、制御部２１は、本動作例に係る経路探索装置２の処理手順を終了する。経路探索装置２は、ステップＳ２０１～ステップＳ２０３の一連の情報処理を任意のタイミング（例えば、ユーザからの指示を受け付けた時点、制御対象装置の動作を制御する時点等）で実行するように構成されてよい。また、経路探索装置２は、ステップＳ２０１～ステップＳ２０３の一連の情報処理を繰り返し実行することで、上記経路探索タスクを繰り返し遂行するように構成されてよい。

　［特徴］
　以上のとおり、本実施形態に係るモデル生成装置１は、ステップＳ１０２において、第１計算モジュール（ニューラルネットワーク５０）のみを機械学習の対象として取り扱うのではなく、第１計算モジュール及び第２計算モジュール（抽出演算５１及び選択演算５２）の両方を機械学習の対象として取り扱う。これにより、ステップＳ１０１で取得する各学習データセット３の正解情報３２の用意にかかる作業時間及び負担を抑えることができる。したがって、本実施形態によれば、訓練済みの探索モジュール５の生成にかかる手間の低減を図ることができる。

　また、ステップＳ１０２の機械学習の過程で、探索モジュール５は推奨経路を最適に探索するように訓練されていくのに応じて、ニューラルネットワーク５０は、探索の効率性を悪化させるエリアのコストを高く推定するように、正解情報３２に示される推奨経路から間接的に訓練される。本実施形態に係る経路探索装置２は、ステップＳ２０２の処理において、この訓練済みのニューラルネットワーク５０によるコストの推定結果２２３を使用することで、経路探索タスクを効率的に遂行することができる。探索モジュール５の探索アルゴリズムにＡ^*探索アルゴリズムを採用した場合には、コストが最小となる経路を得るための効率性を高めることができる。また、探索モジュール５の探索アルゴリズムに最良優先探索法を採用した場合には、訓練済みのニューラルネットワーク５０による各ノードのコストの推定結果を利用することで、コストが最小となる経路を得る確率を高めることができる。

　更には、本実施形態に係るモデル生成装置１は、ステップＳ１０２の機械学習の逆伝播のフェーズにおいて、探索モジュール５に含まれる抽出演算５１及び選択演算５２それぞれを代替演算に置き換え、代替演算の微分計算により算出されるそれぞれの近似勾配を抽出演算５１及び選択演算５２それぞれの勾配として採用する。この置き換えにより、微分不可能な第２計算モジュールを含む探索モジュール５の機械学習を適切に実施することができる。その結果、上記経路探索タスクを効率的に遂行可能な訓練済みの探索モジュール５を機械学習により適切に生成することができる。

　§４　変形例
　以上、本発明の実施の形態を詳細に説明してきたが、前述までの説明はあらゆる点において本発明の例示に過ぎない。本発明の範囲を逸脱することなく種々の改良又は変形を行うことができることは言うまでもない。例えば、以下のような変更が可能である。なお、以下では、上記実施形態と同様の構成要素に関しては同様の符号を用い、上記実施形態と同様の点については、適宜説明を省略した。以下の変形例は適宜組み合わせ可能である。

　＜４．１＞
　上記実施形態に係る経路探索システム１００は、与えられたマップにおいて経路を探索するあらゆる場面に適用されてよい。具体例として、上記実施形態に係る経路探索システム１００は、移動体に推奨する経路を探索する場面、ロボット装置に推奨する動線を探索する場面等に適用されてよい。以下、適用場面を限定した一具体例を示す。

　（Ａ）移動体に推奨する経路を探索する場面
　図９は、第１具体例に係る案内システム１００Ａの適用場面の一例を模式的に例示する。第１具体例は、移動体に推奨する経路を探索する場面に上記実施形態を適用した例である。第１具体例に係る案内システム１００Ａは、モデル生成装置１及び案内装置２Ａを備える。案内装置２Ａは、上記経路探索装置２の一例である。

　第１具体例におけるマップ（訓練マップ、対象マップ）は、移動体の移動を許容する範囲を含むように構成される。マップに含まれる各ノードは、移動体の移動を許容する空間領域（例えば、道路、広場、建物内のスペース等）の任意の地点に対応してよい。このマップは、画像により構成されてよい。この場合、マップは、カメラにより適宜得られてよい。カメラの種類は任意に選択されてよい。カメラには、例えば、一般的なＲＧＢカメラ、赤外線カメラ、深度カメラ等が用いられてよい。その他、カメラには、Lidar（Light Detection And Ranging）センサ等の距離センサが用いられてもよい。一例として、航空写真、ドローン撮影写真等、移動体の移動可能な空間領域を撮影することで得られた実画像がマップとして用いられてよい。或いは、地図、見取り図等、当該空間領域を表現する画像がマップとして用いられてよい。或いは、当該空間領域の移動可能な領域及び移動不能な領域を二値で表現するバイナリ画像がマップとして用いられてよい。移動体は、例えば、車両、ドローン等の移動するように構成された機械であってよい。或いは、移動体は、人であってよい。図９の例では、移動体は、車両である。これらの点を除き、第１具体例の構成は、上記実施形態と同様であってよい。

　（モデル生成装置）
　第１具体例において、モデル生成装置１は、上記実施形態と同様の処理手順により、移動体が移動するのに推奨される経路を探索する能力を獲得した訓練済みの探索モジュール５を生成することができる。

　すなわち、ステップＳ１０１では、制御部１１は、訓練マップ及び正解情報の組み合わせによりそれぞれ構成される複数の学習データセットを取得する。訓練マップは、移動体の移動を許容する範囲を含むように構成される。正解情報は、移動体が移動するのに推奨される経路を推奨経路として示すように構成される。ステップＳ１０２では、制御部１１は、取得された複数の学習データセットを使用して、探索モジュール５の機械学習を実施する。上記実施形態と同様に、機械学習の逆伝播のフェーズでは、制御部１１は、代替演算の微分計算により算出されるそれぞれの近似勾配を抽出演算５１及び選択演算５２それぞれの微分計算の結果として採用する。この機械学習により、移動体に対する推奨経路を探索する能力を獲得した訓練済みの探索モジュール５を生成することができる。ステップＳ１０３では、制御部１１は、生成された訓練済みの探索モジュール５を示す学習結果データを所定の記憶領域に保存する。学習結果データは、任意のタイミングで案内装置２Ａに提供されてよい。

　（案内装置）
　案内装置２Ａのハードウェア構成及びソフトウェア構成は、上記実施形態に係る経路探索装置２と同様であってよい。第１具体例において、案内装置２Ａは、上記経路探索装置２と同様の処理手順により、移動体が移動するのに推奨される経路を探索することができる。

　すなわち、ステップＳ２０１では、案内装置２Ａの制御部は、マップ取得部として動作し、移動体の移動を許容する（すなわち、移動体の移動対象となる）範囲を含む対象マップ２２１Ａを取得する。対象マップ２２１Ａを取得する方法は、特に限定されなくてよく、実施の形態に応じて適宜選択されてよい。一例として、地上を移動する移動体の移動計画を立てるために、その移動体の存在する領域及びその周囲の領域をドローンで撮影することで得られる画像を対象マップ２２１Ａとして用いてよい。

　また、制御部は、開始ノードＳＡ２及び目標ノードＧＡ２の情報を適宜取得する。開始ノードＳＡ２は、移動体の現在地又は所望の開始地点に対応してよい。目標ノードＧＡ２は、移動体の目的地に対応してよい。一例として、各ノード（ＳＡ２、ＧＡ２）の情報は、ユーザの指定により得られてよい。その他の一例として、案内装置２Ａが、ＧＰＳ（Global Positioning System）等の測定器を備える場合、開始ノードＳＡ２の情報は、測定器による現在地の測定結果から得られてよい。対象マップ２２１Ａが画像であり、対象マップ２２１Ａに写る目的物（例えば、特定の建物、地点等）に向けて移動体が移動する場合、目標ノードＧＡ２の情報は、対象マップ２２１Ａに対する画像識別の結果から得られてよい。画像識別の方法は任意でよい。対象マップ２２１Ａは、開始ノードＳＡ２及び目標ノードＧＡ２が特定された後に、それぞれを含むように適宜取得されてもよい。

　ステップＳ２０２では、制御部は、探索部として動作し、訓練済みの探索モジュール５を使用して、取得された対象マップ２２１Ａにおいて開始ノードＳＡ２から目標ノードＧＡ２まで移動体が移動するのに推奨される経路を探索する。具体的に、制御部は、訓練済みのニューラルネットワーク５０を使用して、対象マップ２２１Ａに含まれる各ノードのコストを推定する。訓練済みのニューラルネットワーク５０の演算処理の結果、制御部は、各ノードのコストの推定結果２２３Ａを取得する。制御部は、集合Ｏ及び集合Ｃを用意し、それぞれを空にする。制御部は、開始ノードＳＡ２を集合Ｏに追加することで、開始ノードＳＡ２を最初の経由ノードに設定する。そして、制御部は、得られた推定結果２２３Ａを利用して、目標ノードＧＡ２が経由ノードとして選択されるまで、抽出演算５１及び選択演算５２を繰り返す。これにより、制御部は、開始ノードＳＡ２から目標ノードＧＡ２までのコスト最小となる推奨経路の探索結果２２５Ａを得ることができる。

　ステップＳ２０３では、制御部は、出力部として動作し、推奨経路の探索結果２２５Ａに関する情報を出力する。一例として、制御部は、得られた推奨経路をそのまま出力してもよい。その他の一例として、制御部は、得られた探索結果２２５Ａに基づいて、探索された推奨経路に沿った移動をナビゲートしてもよい。ナビゲートは、例えば、画像、音声等により行われてよい。移動体が、例えば、車両、ドローン等の機械である場合、ナビゲートは、ユーザの手動操作により推奨経路に沿った移動を促すようにメッセージ等の情報をユーザに対して出力することであってよい。或いは、案内装置２Ａが当該機械の動作を制御可能に構成されている場合、ナビゲートは、探索された推奨経路に沿って移動するように当該機械の動作を制御することであってよい。移動体が、人である場合、ナビゲートは、推奨経路に沿った移動を促すようにメッセージなどの情報を人に対して出力することであってよい。

　（特徴）
　第１具体例のモデル生成装置１によれば、移動体に推奨する経路を探索する能力を獲得した訓練済みの探索モジュール５の生成にかかる手間の低減を図ることができる。また、案内装置２Ａでは、訓練済みの探索モジュール５を使用することで、移動体に推奨する経路を効率的に探索することができる。更に、モデル生成装置１では、機械学習の逆伝播フェーズにおける抽出演算５１及び選択演算５２の置き換えにより、探索モジュール５の機械学習を適切に実施することができる。その結果、移動体に推奨する経路を探索するタスクを効率的に遂行可能な訓練済みの探索モジュール５を適切に生成することができる。

　（Ｂ）ロボット装置に推奨する動線を探索する場面
　図１０は、第２具体例に係る制御システム１００Ｂの適用場面の一例を模式的に例示する。第２具体例は、ロボット装置ＲＢに推奨する経路を探索する場面に上記実施形態を適用した例である。第２具体例に係る制御システム１００Ｂは、モデル生成装置１及び制御装置２Ｂを備える。制御装置２Ｂは、上記経路探索装置２の一例である。

　第２具体例におけるマップ（訓練マップ、対象マップ）は、ロボット装置ＲＢの駆動を許容する範囲を含むように構成される。マップに含まれる各ノードは、ロボット装置ＲＢの作業エリアの任意の地点に対応してよい。このマップは、画像により構成されてよい。この場合、マップは、カメラにより適宜得られてよい。カメラの種類は任意に選択されてよい。一例として、ロボット装置ＲＢの駆動可能な空間領域を撮影することで得られた実画像がマップとして用いられてよい。或いは、当該空間領域の移動可能な領域及び移動不能な領域を二値で表現するバイナリ画像がマップとして用いられてよい。マップは、ロボット装置ＲＢの作業環境をモデル化することで得られてもよい。ロボット装置ＲＢは、例えば、産業用ロボット（例えば、ロボットアーム等）、自律型ロボット等であってよい。これらの点を除き、第２具体例の構成は、上記実施形態と同様であってよい。

　（モデル生成装置）
　第２具体例において、モデル生成装置１は、上記実施形態と同様の処理手順により、ロボット装置ＲＢが動作するのに推奨される経路を探索する能力を獲得した訓練済みの探索モジュール５を生成することができる。

　すなわち、ステップＳ１０１では、制御部１１は、訓練マップ及び正解情報の組み合わせによりそれぞれ構成される複数の学習データセットを取得する。訓練マップは、ロボット装置ＲＢの駆動を許容する範囲を含むように構成される。正解情報は、ロボット装置ＲＢが動作するのに推奨される経路を推奨経路として示すように構成される。ステップＳ１０２では、制御部１１は、取得された複数の学習データセットを使用して、探索モジュール５の機械学習を実施する。上記実施形態と同様に、機械学習の逆伝播のフェーズでは、制御部１１は、代替演算の微分計算により算出されるそれぞれの近似勾配を抽出演算５１及び選択演算５２それぞれの微分計算の結果として採用する。この機械学習により、ロボット装置ＲＢに対して推奨経路を探索する能力を獲得した訓練済みの探索モジュール５を生成することができる。ステップＳ１０３では、制御部１１は、生成された訓練済みの探索モジュール５を示す学習結果データを所定の記憶領域に保存する。学習結果データは、任意のタイミングで制御装置２Ｂに提供されてよい。

　（制御装置）
　制御装置２Ｂのハードウェア構成及びソフトウェア構成は、上記実施形態に係る経路探索装置２と同様であってよい。駆動対象となるロボット装置ＲＢは、通信インタフェース又は外部インタフェースを介して制御装置２Ｂに接続されてよい。第２具体例において、制御装置２Ｂは、上記経路探索装置２と同様の処理手順により、ロボット装置ＲＢが動作するのに推奨される経路を探索することができる。

　すなわち、ステップＳ２０１では、制御装置２Ｂの制御部は、マップ取得部として動作し、ロボット装置ＲＢの駆動を許容する範囲を含む対象マップ２２１Ｂを取得する。対象マップ２２１Ｂを取得する方法は、特に限定されなくてよく、実施の形態に応じて適宜選択されてよい。一例として、ロボット装置ＲＢに設けられた又はその周囲に配置されたカメラでロボット装置ＲＢの作業範囲を撮影することにより得られる画像を対象マップ２２１Ｂとして用いてよい。その他の一例として、ロボット装置ＲＢの周辺環境をモデル化することで生成された環境情報を対象マップ２２１Ｂとして用いてよい。

　制御部は、開始ノードＳＢ２及び目標ノードＧＢ２の情報を適宜取得する。開始ノードＳＢ２は、ロボット装置ＲＢの現在位置又は所望の開始位置に対応してよい。ロボット装置ＲＢがエンドエフェクタを備える場合、開始ノードＳＢ２は、エンドエフェクタの現在位置又は所望の開始位置に対応してよい。目標ノードＧＢ２は、ロボット装置ＲＢの目標位置に対応してよい。ロボット装置ＲＢの目標位置は、例えば、ワーク等の目標物の配置された位置であってよい。一例として、各ノード（ＳＢ２、ＧＢ２）の情報は、オペレータの指定により得られてよい。その他の一例として、開始ノードＳＢ２の情報は、自装置の情報（例えば、エンドエフェクタの現在位置）から得られてよい。目標ノードＧＢ２の情報は、目標位置の設定情報から得られてよい。更にその他の一例として、対象マップ２２１Ｂが画像であり、ロボット装置ＲＢ及び目標物が画像に写っている場合、各ノード（ＳＢ２、ＧＢ２）の情報は、対象マップ２２１Ｂに対する画像識別の結果から得られてよい。画像識別の方法は任意でよい。対象マップ２２１Ｂは、開始ノードＳＢ２及び目標ノードＧＢ２が特定された後に、それぞれを含むように適宜取得されてもよい。

　ステップＳ２０２では、制御部は、探索部として動作し、訓練済みの探索モジュール５を使用して、取得された対象マップ２２１Ｂにおいて開始ノードＳＢ２から目標ノードＧＢ２までロボット装置ＲＢが動作するのに推奨される経路を探索する。具体的に、制御部は、訓練済みのニューラルネットワーク５０を使用して、対象マップ２２１Ｂに含まれる各ノードのコストを推定する。訓練済みのニューラルネットワーク５０の演算処理の結果、制御部は、各ノードのコストの推定結果２２３Ｂを取得する。制御部は、集合Ｏ及び集合Ｃを用意し、それぞれを空にする。制御部は、開始ノードＳＢ２を集合Ｏに追加することで、開始ノードＳＢ２を最初の経由ノードに設定する。そして、制御部は、得られた推定結果２２３Ｂを利用して、目標ノードＧＢ２が経由ノードとして選択されるまで、抽出演算５１及び選択演算５２を繰り返す。これにより、制御部は、開始ノードＳＢ２から目標ノードＧＢ２までのコスト最小となる推奨経路の探索結果２２５Ｂを得ることができる。

　ステップＳ２０３では、制御部は、出力部として動作し、推奨経路の探索結果２２５Ｂに関する情報を出力する。一例として、制御部は、得られた推奨経路をそのまま出力してもよい。その他の一例として、制御部は、得られた探索結果２２５Ｂに基づいて、探索された推奨経路に沿ってロボット装置ＲＢを駆動するようにナビゲートしてもよい。ナビゲートは、例えば、画像、音声等により行われてよい。ナビゲートは、オペレータの手動操作により推奨経路に沿ったロボット装置ＲＢの駆動を促す（すなわち、動作を指示する）ようにメッセージ等の情報をオペレータに対して出力することであってよい。或いは、制御装置２Ｂがロボット装置ＲＢの動作を制御可能に構成されている場合、ナビゲートは、探索された推奨経路に沿って駆動するようにロボット装置ＲＢの動作を制御することであってよい。

　（特徴）
　第２具体例のモデル生成装置１によれば、ロボット装置ＲＢに推奨する経路を探索する能力を獲得した訓練済みの探索モジュール５の生成にかかる手間の低減を図ることができる。また、制御装置２Ｂでは、訓練済みの探索モジュール５を使用することで、ロボット装置ＲＢに推奨する経路を効率的に探索することができる。更に、モデル生成装置１では、機械学習の逆伝播フェーズにおける抽出演算５１及び選択演算５２の置き換えにより、探索モジュール５の機械学習を適切に実施することができる。その結果、ロボット装置ＲＢに推奨する経路を探索するタスクを効率的に遂行可能な訓練済みの探索モジュール５を適切に生成することができる。

　（Ｃ）その他
　以上、２つの具体例を示したが、上記実施形態を適用可能な場面はこれらに限定されるものではない。他の一例として、上記実施形態に係る経路探索システム１００は、交通機関（例えば、航空、鉄道、バス等）を利用する経路を探索する場面に適用されてよい。この場合、マップ（訓練マップ、対象マップ）は、交通機関により形成される交通網の任意の範囲を含むように構成される。マップに含まれる各ノードは、交通機関の拠点（例えば、駅）等の地理上の任意の地点に対応してよい。正解情報は、交通機関を利用して移動するのに推奨される経路を推奨経路として示すように構成されてよい。これにより、モデル生成装置１は、交通機関を利用して移動するのに推奨される経路を探索する能力を獲得した訓練済みの探索モジュール５を生成することができる。また、経路探索装置２は、訓練済みの探索モジュール５を使用して、交通機関を利用して移動するのに推奨される経路を探索することができる。

　＜４．２＞
　ニューラルネットワーク５０の構成は、上記実施形態の例に限定されなくてよく、実施の形態に応じて適宜変更されてよい。例えば、各ニューロンは、隣接する層の特定のニューロンと接続されたり、隣接する層以外の層のニューロンと接続されたりしてもよい。各ニューロンの結合関係は、実施の形態に応じて適宜決定されてよい。中間層５０２は、省略されてもよい。ニューラルネットワーク５０は、例えば、畳み込み層、プーリング層、正規化層、ドロップアウト層等の他の種類の層を含んでもよい。ニューラルネットワーク５０は、畳み込みニューラルネットワーク、再帰型ニューラルネットワーク、グラフニューラルネットワーク等の他の形式のニューラルネットワークにより構成されてよい。

　また、上記実施形態において、ニューラルネットワーク５０の入力及び出力の形式は、特に限定されなくてよく、実施の形態に応じて適宜決定されてよい。例えば、ニューラルネットワーク５０は、マップ以外の情報の入力を更に受け付けるように構成されてもよい。また、例えば、ニューラルネットワーク５０は、各ノードのコストの推定結果以外の情報を出力するように構成されてもよい。

　また、上記実施形態において、抽出演算５１及び選択演算５２は、実施の形態に応じて適宜変更されてよい。例えば、選択演算５２は、以下の式１３又は式１４により与えられてよい。これに応じて、選択演算５２の代替演算は、式３及び式１１の関係と同様に、式１３及び式１４それぞれからＯ（ｎ）を削除した演算により構成されてよい。

なお、ｗ（ｎ）は、非負（０以上）の重みである。

　§５　実験例
　逆伝播フェーズの置き換え及びニューラルネットワークにより得られるコストの推定結果を利用した探索の有効性を検証するために、以下の実施例及び比較例に係る探索モジュールを生成した。ただし、本発明は、以下の実施例に限定されるものではない。

　まず、上記実施形態と同様の方法により、バイナリ画像により構成されたマップにおいて開始ノードから目標ノードまでの最短経路を探索する能力を獲得した実施例に係る訓練済みの探索モジュールを生成した。ニューラルネットワークには、ＶＧＧ－１６　Ｎｅｔｗｏｒｋ（参考文献＜URL: https://pytorch.org/hub/pytorch#vision#vgg/＞で公開されているネットワーク）の入力側の１０層により構成されたＵ－Ｎｅｔを使用した。入力には、入力マップ（障害物のノードの値が０であり、それ以外のノードの値が１である）、並びに開始ノード及び目標ノードの値が１であり、それ以外のノードの値が０であるマップを結合することで得られる２チャンネルのマップを用いた。また、出力層の活性化関数にシグモイド関数を用いて、［０，１］の範囲で正規化された値を各ノードのコストの推定値として出力するようにニューラルネットワークを構成した。学習データセットには、参考文献＜URL: https://github.com/mohakbhardwaj/motion#planning#datasets＞で公開されているサンプルを使用した。マップのサイズは、３２×３２であった。障害物の種類毎に８００個のサンプルを取得し、かつ探索モジュールを用意した。そして、障害物の種類毎に各探索モジュールの機械学習を実行した。機械学習の最適化アルゴリズムには、Ａｄａｍを用いた。学習率は０．００１に設定した。バッチサイズは１００に設定した。エポック数は１００に設定した。抽出演算の代替演算には、［［０，１，０］，［１，０，１］，［０，１，０］］をカーネルとした畳み込み演算を使用した。選択演算の探索アルゴリズムには、Ａ＊探索アルゴリズムを用いた。ノードｖから目標ノードｖ_gまでの直線距離（マンハッタン距離）をコストとして算出する関数をｈ（ｖ，ｖ_g）として採用した。選択演算の代替演算には、上記式１１（straight-through soft-min with temperature）を使用した。τには、３２の平方根を代入した。一方、ニューラルネットワークを省略し、上記（１）～（４）の手順でＡ＊探索アルゴリズムにより最短経路を探索するように構成された比較例に係る探索モジュールを作成した。実施例の選択演算と同様に、比較例でも、ノードｖから目標ノードｖ_gまでの直線距離（マンハッタン距離）をコストとして算出する関数をｈ（ｖ，ｖ_g）として採用した。そして、実施例及び各比較例に係る探索モジュールに３つの評価用の対象マップを与えて、各対象マップにおいて開始ノードから目標ノードまでの最短経路の探索を実行させた。

　図１１Ａ、図１１Ｂ及び図１１Ｃは、評価に使用した対象マップを示す。図１２Ａ、図１２Ｂ及び図１２Ｃは、比較例に係る探索モジュールにより図１１Ａ、図１１Ｂ及び図１１Ｃの対象マップにおいて経路を探索した結果（濃い灰色）及び探索の対象となったノード（集合Ｃ、薄い灰色）を示す。図１３Ａ、図１３Ｂ及び図１３Ｃは、実施例に係る探索モジュールのニューラルネットワークにより図１１Ａ、図１１Ｂ及び図１１Ｃの対象マップに含まれる各ノードのコストを推定した結果を示す。図１４Ａ、図１４Ｂ及び図１４Ｃは、実施例に係る探索モジュールにより図１１Ａ、図１１Ｂ及び図１１Ｃの対象マップにおいて経路を探索した結果（濃い灰色）及び探索の対象となったノード（薄い灰色）を示す。

　図１４Ａ、図１４Ｂ及び図１４Ｃに示されるとおり、実施例に係る訓練済みの探索モジュールによれば、評価用の対象マップにおいて開始ノードから目標ノードまでの最短経路を適切に発見することができた。この結果から、上記逆伝播フェーズの置き換えにより、微分不可能な演算を含んでいても、探索モジュールの機械学習を適切に実行することができ、これにより、推奨経路を探索する能力を獲得した訓練済みの探索モジュールを適切に生成可能であることが分かった。また、図１２Ａ、図１２Ｂ、図１２Ｃ、図１４Ａ、図１４Ｂ及び図１４Ｃに示されるとおり、比較例に比べて、実施例では、探索の対象となるノードの数を低減することができた。図１３Ａ、図１３Ｂ及び図１３Ｃに示されるとおり、訓練済みのニューラルネットワークによれば、探索の効率を悪化させる領域のコストが高くなるように（すなわち、この領域のノードの探索を回避するように）各ノードのコストを推定することができた。この結果から、上記機械学習において間接的に訓練されたニューラルネットワークにより得られる各ノードのコストの推定結果を使用することで、経路探索の効率の改善を適切に図ることができることが分かった。

　１…モデル生成装置、
　１１…制御部、１２…記憶部、１３…通信インタフェース、
　１４…外部インタフェース、
　１５…入力装置、１６…出力装置、１７…ドライブ、
　８１…モデル生成プログラム、９１…記憶媒体、
　１１１…データ取得部、１１２…学習処理部、
　１１３…保存処理部、
　１２５…学習結果データ、
　２…経路探索装置、
　２１…制御部、２２…記憶部、２３…通信インタフェース、
　２４…外部インタフェース、
　２５…入力装置、２６…出力装置、２７…ドライブ、
　８２…経路探索プログラム、９２…記憶媒体、
　２１１…マップ取得部、２１２…探索部、２１３…出力部、
　２２１…対象マップ、
　３…学習データセット、
　３１…訓練マップ、３２…正解情報、
　５…探索モジュール、
　５０…ニューラルネットワーク、
　５０１…入力層、５０２…中間（隠れ）層、
　５０３…出力層、
　５１…抽出する演算、５２…選択する演算

Claims

　訓練マップ、及び前記訓練マップにおける推奨経路を示す正解情報の組み合わせによりそれぞれ構成される複数の学習データセットを取得するデータ取得部と、
　前記複数の学習データセットを使用して、探索モジュールの機械学習を実施する学習処理部であって、
　　前記探索モジュールは、
　　　入力マップに含まれる複数のノードそれぞれのコストを推定するように構成されるニューラルネットワーク、
　　　経由ノードに近接する１つ以上の候補ノードを入力マップに含まれる複数のノードから抽出する演算、及び
　　　前記ニューラルネットワークの推定結果に基づいて、コストの総和が最小となるように、抽出された１つ以上の候補ノードから次の経由ノードを選択する演算、を含み、
　　前記探索モジュールは、開始ノードを最初の経由ノードに設定し、目標ノードが経由ノードとして選択されるまで、前記抽出する演算及び選択する演算を繰り返すことで、開始ノードから目標ノードまでの経路を探索するように構成され、
　　前記機械学習は、前記各学習データセットについて、前記訓練マップを前記入力マップとして与えることで前記探索モジュールにより探索される経路が前記正解情報により示される推奨経路に適合するように前記探索モジュールを訓練することにより構成され、
　　前記機械学習の間、順伝播のフェーズでは、前記抽出する演算及び前記選択する演算をそのまま計算するのに対して、逆伝播のフェーズでは、前記抽出する演算及び前記選択する演算それぞれを微分可能な代替演算に置き換え、置き換えられた前記代替演算の微分計算により、前記抽出する演算及び前記選択する演算それぞれの微分計算に対応する近似勾配を算出する、
学習処理部と、
を備える、
モデル生成装置。
　前記選択する演算は、前記ニューラルネットワークの推定結果に基づいて、所定の探索アルゴリズムによりコストの総和が最小となるように、抽出された１つ以上の候補ノードから次の経由ノードを選択するように構成される、
請求項１に記載のモデル生成装置。
　前記所定の探索アルゴリズムは、ダイクストラ法、最良優先探索法、又はＡ^*探索アルゴリズムである、
請求項２に記載のモデル生成装置。
　前記訓練マップは、移動体の移動を許容する範囲を含み、
　前記正解情報により示される前記推奨経路は、前記移動体が移動するのに推奨される経路である、
請求項１から３のいずれか１項に記載のモデル生成装置。
　前記訓練マップは、ロボット装置の駆動を許容する範囲を含み、
　前記正解情報により示される前記推奨経路は、前記ロボット装置が動作するのに推奨される経路である、
請求項１から３のいずれか１項に記載のモデル生成装置。
　前記推奨経路は、最短経路である、
請求項１から５のいずれか１項に記載のモデル生成装置。
　前記訓練マップは、画像により構成され、
　前記ノードは、画素により構成される、
請求項１から６のいずれか１項に記載のモデル生成装置。
　前記画像は、実画像又はバイナリ画像により構成される、
請求項７に記載のモデル生成装置。
　対象マップを取得するマップ取得部と、
　訓練済みの探索モジュールを使用して、取得された前記対象マップにおける開始ノードから目標ノードまでの経路を探索する探索部であって、
　　前記訓練済みの探索モジュールは、訓練マップ、及び前記訓練マップにおける推奨経路を示す正解情報の組み合わせによりそれぞれ構成される複数の学習データセットを使用した機械学習により生成されたものであり、
　　前記探索モジュールは、
　　　入力マップに含まれる複数のノードそれぞれのコストを推定するように構成されるニューラルネットワーク、
　　　経由ノードに近接する１つ以上の候補ノードを入力マップに含まれる複数のノードから抽出する演算、及び
　　　前記ニューラルネットワークの推定結果に基づいて、コストの総和が最小となるように、抽出された１つ以上の候補ノードから次の経由ノードを選択する演算、を含み、
　　前記探索モジュールは、開始ノードを最初の経由ノードに設定し、目標ノードが経由ノードとして選択されるまで、前記抽出する演算及び選択する演算を繰り返すことで、開始ノードから目標ノードまでの経路を探索するように構成され、
　　前記機械学習は、前記各学習データセットについて、前記訓練マップを前記入力マップとして与えることで前記探索モジュールにより探索される経路が前記正解情報により示される推奨経路に適合するように前記探索モジュールを訓練することにより構成され、
　　前記機械学習の間、順伝播のフェーズでは、前記抽出する演算及び前記選択する演算はそのまま計算されたのに対して、逆伝播のフェーズでは、前記抽出する演算及び前記選択する演算それぞれは微分可能な代替演算に置き換えられ、置き換えられた前記代替演算の微分計算により、前記抽出する演算及び前記選択する演算それぞれの微分計算に対応する近似勾配が算出される、
探索部と、
　前記対象マップに対して前記経路を探索した結果に関する情報を出力する出力部と、
を備える、
経路探索装置。
　前記対象マップは、移動体の移動を許容する範囲を含み、
　前記探索部は、前記訓練済みの探索モジュールを使用して、取得された前記対象マップにおける前記開始ノードから前記目標ノードまで前記移動体が移動するのに推奨される経路を探索する、
請求項９に記載の経路探索装置。
　前記対象マップは、ロボット装置の駆動を許容する範囲を含み、
　前記探索部は、前記訓練済みの探索モジュールを使用して、取得された前記対象マップにおける前記開始ノードから前記目標ノードまで前記ロボット装置が動作するのに推奨される経路を探索する、
請求項９に記載の経路探索装置。
　前記経路を探索した結果に関する情報は、探索された経路に従ったナビゲーションにより構成される、
請求項９から１１に記載の経路探索装置。
　コンピュータが、
　訓練マップ、及び前記訓練マップにおける推奨経路を示す正解情報の組み合わせによりそれぞれ構成される複数の学習データセットを取得するステップと、
　前記複数の学習データセットを使用して、探索モジュールの機械学習を実施するステップであって、
　　前記探索モジュールは、
　　　入力マップに含まれる複数のノードそれぞれのコストを推定するように構成されるニューラルネットワーク、
　　　経由ノードに近接する１つ以上の候補ノードを入力マップに含まれる複数のノードから抽出する演算、及び
　　　前記ニューラルネットワークの推定結果に基づいて、コストの総和が最小となるように、抽出された１つ以上の候補ノードから次の経由ノードを選択する演算、を含み、
　　前記探索モジュールは、開始ノードを最初の経由ノードに設定し、目標ノードが経由ノードとして選択されるまで、前記抽出する演算及び選択する演算を繰り返すことで、開始ノードから目標ノードまでの経路を探索するように構成され、
　　前記機械学習は、前記各学習データセットについて、前記訓練マップを前記入力マップとして与えることで前記探索モジュールにより探索される経路が前記正解情報により示される推奨経路に適合するように前記探索モジュールを訓練することにより構成され、
　　前記機械学習の間、順伝播のフェーズでは、前記抽出する演算及び前記選択する演算をそのまま計算するのに対して、逆伝播のフェーズでは、前記抽出する演算及び前記選択する演算それぞれを微分可能な代替演算に置き換え、置き換えられた前記代替演算の微分計算により、前記抽出する演算及び前記選択する演算それぞれの微分計算に対応する近似勾配を算出する、
ステップと、
を実行する、
モデル生成方法。
　コンピュータに、
　訓練マップ、及び前記訓練マップにおける推奨経路を示す正解情報の組み合わせによりそれぞれ構成される複数の学習データセットを取得するステップと、
　前記複数の学習データセットを使用して、探索モジュールの機械学習を実施するステップであって、
　　前記探索モジュールは、
　　　入力マップに含まれる複数のノードそれぞれのコストを推定するように構成されるニューラルネットワーク、
　　　経由ノードに近接する１つ以上の候補ノードを入力マップに含まれる複数のノードから抽出する演算、及び
　　　前記ニューラルネットワークの推定結果に基づいて、コストの総和が最小となるように、抽出された１つ以上の候補ノードから次の経由ノードを選択する演算、を含み、
　　前記探索モジュールは、開始ノードを最初の経由ノードに設定し、目標ノードが経由ノードとして選択されるまで、前記抽出する演算及び選択する演算を繰り返すことで、開始ノードから目標ノードまでの経路を探索するように構成され、
　　前記機械学習は、前記各学習データセットについて、前記訓練マップを前記入力マップとして与えることで前記探索モジュールにより探索される経路が前記正解情報により示される推奨経路に適合するように前記探索モジュールを訓練することにより構成され、
　　前記機械学習の間、順伝播のフェーズでは、前記抽出する演算及び前記選択する演算をそのまま計算するのに対して、逆伝播のフェーズでは、前記抽出する演算及び前記選択する演算それぞれを微分可能な代替演算に置き換え、置き換えられた前記代替演算の微分計算により、前記抽出する演算及び前記選択する演算それぞれの微分計算に対応する近似勾配を算出する、
ステップと、
を実行させるための、
モデル生成プログラム。