WO2022091305A1

WO2022091305A1 - 挙動推定装置、挙動推定方法、経路生成装置、経路生成方法、及びコンピュータ読み取り可能な記録媒体

Info

Publication number: WO2022091305A1
Application number: PCT/JP2020/040670
Authority: WO
Inventors: 宏彰猪爪
Original assignee: 日本電気株式会社
Priority date: 2020-10-29
Filing date: 2020-10-29
Publication date: 2022-05-05
Also published as: JPWO2022091305A1; JP7444277B2; US20240019250A1

Abstract

挙動推定装置１０は、第一の環境において移動体の実際の挙動を表す第一の挙動解析データを生成する、挙動解析部１１と、第一の環境の状態を表す環境状態データに基づいて第一の環境について解析をし、環境解析データを生成する、環境解析部１３と、環境解析データを、第一の環境における移動体の挙動を推定するためのモデルに入力して、第一の環境における移動体の挙動を推定する、推定部１４と、モデルにより推定された挙動推定結果データに基づいて信頼区間を設定し、設定した信頼区間に第一の挙動解析データが存在する場合、モデルを学習する学習部１２に、モデルを再学習させるための指示をする、学習指示部１５と、を有する。

Description

挙動推定装置、挙動推定方法、経路生成装置、経路生成方法、及びコンピュータ読み取り可能な記録媒体

　本発明は、移動体の挙動を推定するために用いる挙動推定装置、挙動推定方法、経路生成装置、経路生成方法に関し、更には、これらを実現するためのプログラムを記録しているコンピュータ読み取り可能な記録媒体に関する。

　近年、自然災害が多発しており、被災地では、危険な環境での作業を余儀なくされている。そこで、危険な環境で利用されている作業車両などを自動化する取り組みが進められている。

　ところが、被災地などの危険な環境では、作業車両の挙動を精度よく推定することは困難である。すなわち、危険な環境に対応して、作業車両を自律して走行させたり、作業車両に作業を実行させたりすることは困難である。

　その理由は、被災地などの危険な環境、すなわち整備されていない屋外の不整地などの未知の環境に関するデータを事前に取得することが難しいからである。

　そこで、未知の環境において取得した作業車両の挙動解析データを、作業車両の挙動を推定するモデルに入力して、未知の環境における作業車両の挙動を推定する技術が知られている。

　また、関連する技術として特許文献１には、挙動予測モデルデータベースの更新の要否を判定する挙動予測装置が開示されている。その挙動予測装置によれば、作業車両（自車両）の周囲に存在する移動体の実際の挙動と、挙動予測モデルによる予測した移動体の挙動との間に乖離が生じていると判定した場合、乖離が発生した理由を推定し、推定した理由に基づいて挙動予測モデルデータベースを更新する。

特開２０１９－１８２０９３号公報

　しかしながら、上述した未知の環境における作業車両の挙動を推定する技術では、作業車両が走行又は作業をしているときに、新たな挙動解析データを取得すると、作業車両はモデルを再学習するモードに移行してしまう。

　そのため、新たな挙動解析データを取得するたびに、挙動推定の精度の向上と作業車両の安全を確保するため、走行又は作業を停止しなくてはならない。したがって、作業車両を効率よく運用することができない。

　また、特許文献１に開示されている挙動予測装置は、作業車両（自車両）の周囲に存在する移動体の挙動を予測する装置であるため、未知の環境における作業車両の挙動を推定できない。

　一つの側面として、未知の環境におけるモデルの再学習の回数を低減することで、移動体の運用効率を向上させる、挙動推定装置、挙動推定方法、経路生成装置、経路生成方法、及びコンピュータ読み取り可能な記録媒体を提供することを目的とする。

　上記目的を達成するため、一つの側面における挙動推定装置は、
　第一の環境において移動体の実際の挙動を表す第一の挙動解析データを生成する、挙動解析部と、
　前記第一の環境の状態を表す環境状態データに基づいて前記第一の環境について解析をし、環境解析データを生成する、環境解析部と、
　前記環境解析データを、前記第一の環境における移動体の挙動を推定するためのモデルに入力して、前記第一の環境における前記移動体の挙動を推定する、推定部と、
　前記モデルにより推定された挙動推定結果データに基づいて信頼区間を設定し、設定した前記信頼区間に前記第一の挙動解析データが存在する場合、前記モデルを学習する学習部に、前記モデルを再学習させるための指示をする、学習指示部と、
　を有することを特徴とする。

　また、上記目的を達成するため、一つの側面における経路生成装置は、
　第一の環境において移動体の実際の挙動を表す第一の挙動解析データを生成する、挙動解析部と、
　前記第一の環境の状態を表す環境状態データに基づいて前記第一の環境について解析をし、環境解析データを生成する、環境解析部と、
　前記環境解析データを、前記第一の環境における移動体の挙動を推定するためのモデルに入力して、前記第一の環境における前記移動体の挙動を推定する、推定部と、
　前記モデルにより推定された挙動推定結果データに基づいて信頼区間を設定し、設定した前記信頼区間に前記第一の挙動解析データが存在する場合、前記モデルを学習する学習手段に、前記モデルを再学習させるための指示をする、学習指示部と、
　前記モデルが再学習された場合、再学習された前記モデルを用いて生成された挙動推定結果データに基づいて、現在位置から目的地までの移動経路を表す移動経路データを再生成する、移動経路生成部と、
　を有することを特徴とする。

　また、上記目的を達成するため、一つの側面における挙動推定方法は、
　第一の環境において移動体の実際の挙動を表す第一の挙動解析データを生成する、挙動解析ステップと、
　前記第一の環境の状態を表す環境状態データに基づいて前記第一の環境について解析をし、環境解析データを生成する、環境解析ステップと、
　前記環境解析データを、前記第一の環境における移動体の挙動を推定するためのモデルに入力して、前記第一の環境における前記移動体の挙動を推定する、推定ステップと、
　前記モデルにより推定された挙動推定結果データに基づいて信頼区間を設定し、設定した前記信頼区間に前記第一の挙動解析データが存在する場合、前記モデルを学習する学習部に、前記モデルを再学習させるための指示をする、学習指示ステップと、
　を有することを特徴とする。

　また、上記目的を達成するため、一つの側面における経路生成方法は、
　第一の環境において移動体の実際の挙動を表す第一の挙動解析データを生成する、挙動解析ステップと、
　前記第一の環境の状態を表す環境状態データに基づいて前記第一の環境について解析をし、環境解析データを生成する、環境解析ステップと、
　前記環境解析データを、前記第一の環境における移動体の挙動を推定するためのモデルに入力して、前記第一の環境における前記移動体の挙動を推定する、推定ステップと、
　前記モデルにより推定された挙動推定結果データに基づいて信頼区間を設定し、設定した前記信頼区間に前記第一の挙動解析データが存在する場合、前記モデルを学習する学習手段に、前記モデルを再学習させるための指示をする、学習指示ステップと、
　前記モデルが再学習された場合、再学習された前記モデルを用いて生成された挙動推定結果データに基づいて、現在位置から目的地までの移動経路を表す移動経路データを再生成する、移動経路生成ステップと、
　を有することを特徴とする。

　また、上記目的を達成するため、本発明の一側面におけるプログラムを記録したコンピュータ読み取り可能な記録媒体は、
　コンピュータに、
　第一の環境において移動体の実際の挙動を表す第一の挙動解析データを生成する、挙動解析ステップと、
　前記第一の環境の状態を表す環境状態データに基づいて前記第一の環境について解析をし、環境解析データを生成する、環境解析ステップと、
　前記環境解析データを、前記第一の環境における移動体の挙動を推定するためのモデルに入力して、前記第一の環境における前記移動体の挙動を推定する、推定ステップと、
　前記モデルにより推定された挙動推定結果データに基づいて信頼区間を設定し、設定した前記信頼区間に前記第一の挙動解析データが存在する場合、前記モデルを学習する学習部に、前記モデルを再学習させるための指示をする、学習指示ステップと、
　を実行させる命令を含むプログラムを記録していることを特徴とする。

　さらに、上記目的を達成するため、本発明の一側面におけるプログラムを記録したコンピュータ読み取り可能な記録媒体は、
　コンピュータに、
　第一の環境において移動体の実際の挙動を表す第一の挙動解析データを生成する、挙動解析ステップと、
　前記第一の環境の状態を表す環境状態データに基づいて前記第一の環境について解析をし、環境解析データを生成する、環境解析ステップと、
　前記環境解析データを、前記第一の環境における移動体の挙動を推定するためのモデルに入力して、前記第一の環境における前記移動体の挙動を推定する、推定ステップと、
　前記モデルにより推定された挙動推定結果データに基づいて信頼区間を設定し、設定した前記信頼区間に前記第一の挙動解析データが存在する場合、前記モデルを学習する学習手段に、前記モデルを再学習させるための指示をする、学習指示ステップと、
　前記モデルが再学習された場合、再学習された前記モデルを用いて生成された挙動推定結果データに基づいて、現在位置から目的地までの移動経路を表す移動経路データを再生成する、移動経路生成ステップと、
　を実行させる命令を含むプログラムを記録していることを特徴とする。

　一つの側面として、未知の環境におけるモデルの再学習の回数を低減することで、移動体の運用効率を向上させることができる。

図１は、未知の環境における傾斜角とスリップとの関係について説明するための図である。図２は、未知の環境における急斜面におけるスリップの推定について説明するための図である。図３は、挙動推定装置の一例を説明するための図である。図４は、モデルの再学習を説明するための図である。図５は、挙動推定装置を有するシステムの一例を説明するための図である。図６は、移動経路データの生成を説明するための図である。図７は、地形形状に関する情報の一例を説明するための図である。図８は、格子とスリップとの関係を説明するための図である。図９は、格子と通行可能・不可能との関係を説明するための図である。図１０は、移動経路の一例を説明するための図である。図１１は、移動経路の一例を説明するための図である。図１２は、挙動推定装置の動作の一例を説明するための図である。図１３は、経路生成装置の動作の一例を説明するための図である。図１４は、挙動推定装置又は経路生成装置を有するシステムを実現するコンピュータの一例を示すブロック図である。

　はじめに、以降で説明する実施形態の理解を容易にするために概要を説明する。
　従来、被災地、建設現場、山林、惑星などの未知の環境において作業をする自律型の作業車両は、作業車両に搭載された撮像装置から未知の環境を撮像した画像データを取得し、取得した画像データに対して画像処理をし、画像処理の結果に基づいて未知の環境の状態を推定している。

　しかしながら、画像データだけでは、未知の環境の状態を精度よく推定できない。そのため、未知の環境において、作業車両の挙動を推定し、作業車両を走行させたり、作業車両に作業をさせたりすることは困難である。

　ここで、未知の環境の状態とは、例えば、地形、地面の種類、地面の状態などが不明な環境である。地面の種類とは、例えば、レキ、砂、粘土、シルトなどの含有割合により、分類される土の種類などである。また、地面の種類として、植物が育成している地面、コンクリート、岩盤などの地面、障害物が存在する地面などを含めてもよい。地面の状態とは、例えば、地面の水分含有量、地面の緩さ（又は固さ）、地層などである。

　また、近年では、過去に様々な環境において撮像された画像データを訓練データとし、車両が走行する経路を推定するモデルを学習させ、学習させたモデルを用いて車両が走行する経路を推定する提案がされている。

　しかし、訓練データには、未知の環境の画像データ、急斜面や水たまりなどの作業車両にとってリスクが高い地形に関するデータが不足している。そのため、モデルの学習が不十分になる。そのため、学習が不十分なモデルを用いても、作業車両の走行を精度よく推定することは困難である。

　そこで、未知の環境において生成された挙動解析データと、過去に走行した環境ごとに生成された挙動解析データとを用いてモデルを学習する。そして、未知の環境の状態を解析した環境解析データを、生成したモデルに入力して、未知の環境における作業車両の挙動を推定することで、未知の環境における作業車両の挙動を精度よく推定する提案がされている。

　しかし、上述した提案では、推定精度を向上させるために、作業車両が挙動解析データを取得するごとにモデルを再学習するので、作業車両を効率よく運用することができない。具体的には、作業車両が走行しているとき、又は、作業車両が作業をしているときに、作業車両が挙動解析データを取得した場合、挙動推定の精度の向上と作業車両の安全を確保するために、作業車両の走行又は作業を停止して、モデルを再学習しなくてはならない。

　このようなプロセスを経て、発明者は、上述したような方法では、未知の環境において作業車両の挙動を精度よく推定すると、作業車両の運用効率が低下するという課題を見出した。また、それとともに係る課題を解決する手段を導出するに至った。

　すなわち、発明者は、未知の環境におけるモデルの再学習の回数を低減する手段を導出するに至った。その結果、作業車両などの移動体の挙動を精度よく推定でき、更に、作業車両の運用効率の低下を抑制できる。

　以下、図面を参照して移動体の挙動の推定について説明する。なお、以下で説明する図面において、同一の機能又は対応する機能を有する要素には同一の符号を付し、その繰り返しの説明は省略することもある。

　図１、図２を用いて移動体の挙動（作業車両１のスリップ）の推定について説明する。図１は、未知の環境における傾斜角とスリップとの関係について説明するための図である。図２は、未知の環境における急斜面におけるスリップの推定について説明するための図である。

　まず、図１に示す移動体である作業車両１は、未知の環境を走行中に、作業車両１の状態を計測するセンサから移動体の状態を表す移動体状態データを取得し、取得した移動体状態データを作業車両１の内部又は外部に設けられた記憶装置に記憶する。

　次に、作業車両１は、未知の環境においてリスクが低い低斜面において、センサから取得した移動体状態データを解析して、低斜面における傾斜角と作業車両１のスリップとの関係を表す挙動解析データを求める。挙動解析データのイメージは、図１、図２のグラフに示したようなイメージである。

　次に、作業車両１は、図１に示す急斜面における作業車両１のスリップを推定するために、急斜面におけるスリップに関するモデルを学習する。具体的には、作業車両１のスリップを推定するためのモデルを、未知の環境のリスクの低い低斜面における挙動解析データと、過去の複数の挙動解析データとを用いて学習する。

　過去の複数の挙動解析データは、図２のグラフに示したようなイメージで表すことができる。例えば、既知の環境がＳ_１（粘性土）、Ｓ_２（砂地）、Ｓ_３（岩盤）である場合、過去の複数の挙動解析データは、それぞれの環境において移動体状態データを解析し、生成された傾斜角とスリップとの関係を表すデータである。なお、過去の複数の挙動解析データは記憶装置に記憶されている。

　図２の例では、未知の環境の低斜面で計測された移動体状態データに基づいて生成された挙動解析データと、既知の環境Ｓ_１、Ｓ_２、Ｓ_３それぞれにおいて生成された過去の挙動解析データとを用いてモデルを学習する。

　次に、学習済みのモデルを用いて、未知の環境の急斜面におけるスリップの推定をする。具体的には、作業車両１は、未知の環境のリスクの低い低斜面において、作業車両１がセンサから取得した急斜面の状態を表す環境状態データを解析して、地形形状など表す環境解析データを生成する。

　次に、作業車両１は、環境解析データを、対象環境における移動体の挙動を推定するためのモデルに入力して、対象環境における急斜面における作業車両１のスリップを推定する。

　このようにすることで、未知の環境において移動体の挙動を精度よく推定することができる。したがって、未知の環境においても移動体を精度よく制御ができる。

（実施形態）
　以下、図面を参照して実施形態について説明する。図３を用いて、本実施形態における挙動推定装置１０の構成について説明する。図３は、挙動推定装置の一例を説明するための図である。

［挙動推定装置の構成］
　図３に示す挙動推定装置１０は、未知の環境において、移動体の挙動を精度よく推定するために用いるモデルを学習する装置である。また、図３に示すように、挙動推定装置１０は、挙動解析部１１と、学習部１２と、環境解析部１３と、推定部１４と、学習指示部１５とを有する。

　挙動推定装置１０は、例えば、ＣＰＵ（Central Processing Unit）、又はＦＰＧＡ（Field-Programmable Gate Array）などのプログラマブルなデバイス、又はＧＰＵ（Graphics Processing Unit）、又はそれらすべて、又はいずれか二つ以上を搭載した回路や情報処理装置である。

　挙動解析部１１は、対象環境（第一の環境：未知の環境）において移動体の実際の挙動を表す挙動解析データ（第一の挙動解析データ）を生成する。具体的には、挙動解析部１１は、移動体の状態を表す移動体状態データに基づいて、移動体の挙動を解析し、移動体の挙動を表す挙動解析データを生成する。

　対象環境は、例えば、被災地、建設現場、山林、惑星などにおいて、移動体が移動する未知の環境である。

　移動体は、例えば、自律型の車両、船舶、航空機、ロボットなどである。移動体が作業車両の場合、作業車両は、例えば、被災地、建設現場、山林での作業に用いられる建設車両や、惑星での探査に用いられる探査車両などである。

　移動体状態データは、移動体の状態を計測するための複数のセンサから取得した移動体の状態を表すデータである。移動体の状態を計測するセンサは、移動体が車両である場合、例えば、車両の位置を計測する位置センサ、ＩＭＵ（Inertial Measurement Unit：三軸ジャイロセンサ＋三軸角速度センサ）、車輪エンコーダ、消費電力を計測する計器、燃料の消費量を計測する計器などである。

　挙動解析データは、移動体状態データを用いて生成された、移動体の移動速度、姿勢角などを表すデータである。移動体が車両である場合、挙動解析データは、例えば、車両の走行速度、車両の車輪回転速度、車両の姿勢角、走行時のスリップ、走行時の車両の振動、消費電力、燃料の消費量などを表すデータである。

　環境解析部１３は、対象環境の状態を表す環境状態データに基づいて対象環境について解析をし、環境解析データを生成する。

　環境状態データは、移動体の周辺環境（対象環境）の状態を計測するための複数のセンサから取得した対象環境の状態を表すデータである。対象環境の状態を計測するセンサは、移動体が車両である場合、例えば、ＬｉＤＡＲ（Light Detection and Ranging、Laser Imaging Detection and Ranging）、撮像装置などである。

　ＬｉＤＡＲは、例えば、車両の周辺の三次元点群データを生成する。撮像装置は、例えば、対象環境を撮像するカメラなどで、画像データ（動画又は静止画）を出力する。また、対象環境の状態を計測するセンサは、移動体以外に設けられたセンサ、例えば、航空機、ドローン、人工衛星などに設けられたセンサを用いてもよい。

　環境解析データは、環境状態データを用いて生成された、対象環境の状態を表すデータである。移動体が車両である場合、環境状態データは、例えば、傾斜角、凹凸などの地形形状を表すデータである。なお、環境状態データとして、三次元点群データ、画像データ、三次元地図データなどを用いてもよい。

　推定部１４は、環境解析データを、対象環境における移動体の挙動を推定するためのモデルに入力して、対象環境における移動体の挙動を推定する。モデルは、後述する学習部１２により生成された未知の環境において作業車両１などの移動体の挙動を推定するためのモデルである。

　学習部１２は、対象環境において生成された挙動解析データ（第一の挙動解析データ）と、過去に既知の環境（第二の環境）において、既知の環境ごとに生成された挙動解析データ（第二の挙動解析データ）とを用いて、対象環境と既知の環境の類似度を算出する。その後、学習部１２は、算出した類似度と既知の環境ごとに学習済みのモデルとを用いて、対象環境における移動体の挙動を推定するためのモデルを学習する。

　モデルの生成について説明する。
　モデルは、未知の環境において作業車両１などの移動体の挙動を推定するために用いるモデルである。モデルは、数１に示すような関数で表すことができる。

　数１を適用したモデルの一例として、数２に示すＮ個のガウス過程回帰モデルｆ_Ｇ ^(Si)を重み付き線形和で結合したモデルがある。各ガウス過程回帰モデルは、挙動解析データに基づいてモデルを構築する。また、数２に示す重みｗ_ｉを学習する。重みｗ_ｉは、対象環境に対応する挙動解析データと既知の環境に対応する挙動解析データとの類似度を表すモデルパラメータである。

　さらに、他のモデルの例として、数３に示すＮ個の線形回帰モデルｆ_Ｇ ^(Si)を重み付き線形和で結合したモデルがある。線形回帰モデルは、過去の複数の既知の環境ごとに生成された学習済みモデルに基づいてモデルを構築する。

　学習指示部１５は、モデルにより推定された挙動推定結果データに基づいて信頼区間を設定し、設定した信頼区間に第一の挙動解析データが存在する場合、学習部１２にモデルを再学習させるための指示をする。

　図４を用いて具体的に説明する。図４は、モデルの再学習を説明するための図である。図４では、学習指示部１５は、まず、推定部１４によりモデルを用いて推定された作業車両１のスリップに関する挙動推定結果データを取得する。次に、学習指示部１５は、取得した挙動推定結果データに基づいて信頼区間を設定する。

　図４の例では、信頼区間は、挙動推定結果データ（実線）を中心として、信頼線１、２（点線）により設定されている。信頼区間の幅（挙動推定結果データを含む信頼線１と信頼線２との間隔）は、例えば、実験、シミュレーションなどにより決定し、あらかじめ記憶部に記憶しておく。なお、挙動推定結果データと信頼線１との幅と、挙動推定結果データと信頼線２との幅は、同じでなくてもよい。

　なお、ガウス過程に基づいてモデル化した場合、図４の実線に対応する推定の平均値の他に、分散値も推定できる。その場合、平均±ａ＊分散を信頼区間と設定する。ａは事前に規定する係数である。例えば、ａ＝１．９６としたとすると予測モデルが正しい場合、信頼区間に９５［％］の挙動推定データが収まる。

　具体的には、ａ＝１．６４なら信頼区間に９０［％］に設定する。ａ＝２．５８なら信頼区間として９９［％］に設定する。なお、係数ａの決める方法として、例えば、専門家による知見、実験、シミュレーションなどにより決定する。

　次に、学習指示部１５は、設定した信頼区間に挙動解析データが存在するか否かを判定する。設定した信頼区間に挙動解析データが存在しない場合、学習指示部１５は、学習部１２にモデルを再学習させるための指示をする。また、設定した信頼区間に挙動解析データが存在する場合、学習指示部１５は、学習部１２にモデルを再学習させるための指示をしない。

　図４の例では、対象環境において生成された移動体の実際の挙動解析データ１（点線）が、信頼区間に存在しているので、学習指示部１５は、学習部１２にモデルを再学習させるための指示をださない。対して、信頼区間に、挙動解析データ２（点線）が存在していない場合、学習指示部１５は、学習部１２にモデルを再学習（更新）させるための指示をする。

　なお、信頼区間に挙動解析データが存在するか否かの判定は、単一時刻におけるデータだけで判定するのではなく、所定期間（例えば、直近１０［ｍ］）において解析された挙動解析データのうち９０［％］以上が信頼区間に含まれるか否かを判定してもよい。

［システム構成］
　続いて、図５を用いて、本実施形態におけるシステム１００の構成について説明する。図５は、挙動推定装置を有するシステムの一例を説明するための図である。

　図５に示すシステム１００は、未知の環境における移動体の移動経路の計画及び移動制御するためのシステムである。図５に示すように、経路生成装置２０と、計測部３０と、記憶装置４０と、移動体制御部５０とを有する。経路生成装置２０は、挙動推定装置１０と、移動経路生成部１６と、再計画指示部１７とを有する。

　計測部３０は、センサ３１とセンサ３２を有する。センサ３１は、上述した移動体の状態を計測するためのセンサである。センサ３２は、上述した移動体の周辺環境（対象環境）の状態を計測するためのセンサである。

　センサ３１は、移動体の状態を計測し、計測した移動体状態データを挙動解析部１１に出力する。センサ３１は複数のセンサを有する。移動体が車両である場合、センサ３１は、例えば、車両の位置を計測する位置センサ、ＩＭＵ、車輪エンコーダ、消費電力を計測する計器、燃料の消費量を計測する計器などである。位置センサは、例えば、ＧＰＳ（Global Positioning System）受信機などである。ＩＭＵは、例えば、車両の三軸（ＸＹＺ軸）方向の加速度、車両の三軸周りの角速度を計測する。車輪エンコーダは、車輪の回転速度を計測する。

　センサ３２は、移動体の周辺環境（対象環境）の状態を計測し、計測した環境状態データを環境解析部１３に出力する。センサ３２は複数のセンサを有する。移動体が車両である場合、センサ３２は、例えば、ＬｉＤＡＲ、撮像装置などである。また、対象環境の状態を計測するセンサは、移動体以外に設けられたセンサ、例えば、航空機、ドローン、人工衛星などに設けられたセンサでもよい。

　挙動解析部１１は、まず、対象環境においてセンサ３１に含まれるセンサそれぞれが計測した移動体状態データを取得する。次に、挙動解析部１１は、取得した移動体状態データを解析して、移動体の挙動を表す挙動解析データ（第一の挙動解析データ）を生成する。次に、挙動解析部１１は、生成した第一の挙動解析データを学習部１２に出力する。

　学習部１２は、まず、挙動解析部１１から出力された第一の挙動解析データと、記憶装置４０に記憶されている既知の環境ごとに生成された第二の挙動解析データとを取得する。次に、学習部１２は、取得した第一の挙動解析データと第二の挙動解析データとを用いて、数２、数３などに示したモデルを用いて学習する。次に、学習部１２は、学習により生成されたモデルパラメータを記憶装置４０に記憶する。

　また、学習部１２は、第一の挙動解析データと、第二の環境ごとに生成された第二の挙動解析データと、第一の環境及び第二の環境それぞれにおける位置ごとの地質特性の類似度とを用いてモデルを学習してもよい。

　地質特性は、近い位置の地質特性は近似しているが、遠い位置の地質特性は異なる可能性が高い。そこで、モデルの学習に、更に、地質特性の類似度を用いて学習をすることで、挙動推定の精度を向上することができる。モデルは、数４に示すような関数で表すことができる。

　数４に示すように、地形情報に基づいた挙動推定モデルｆ_Ｇと、位置と地質特性（挙動）の関係モデルｆ_Ｐとを明示的に分けてモデル化を行うことで、走行する場所における挙動推定の精度を向上させることができる。具体的には、挙動推定モデルｆ_Ｇには地形情報に関する情報を入力して挙動推定をする。また、モデルｆ_Ｐは、位置情報として位置、地質特性を入力して挙動推定をする。

　挙動推定モデルｆ_Ｇに、地形情報として傾斜角、凹凸に関する情報が入力された場合に、入力前方の地形が同一であれば、同じ走行をするとして挙動推定をする。ところが、例えば入力値である傾斜角ｘ_Ｇが同じ場合でも、実際には、学習に使用した挙動解析データを取得した場所からどれだけ離れた位置であるかにより走行挙動に違いがでる可能性がある。

　しかし、モデルｆ_Ｐを用いることで、上述したような位置による走行挙動の違いを補完できるため、更に、精度よく挙動推定ができる。

　なお、モデルｆ_Ｇとモデルｆ_Ｐは、例えば、ガウス過程回帰や線形回帰などによりモデル化する。また、モデルｆ_Ｇとモデルｆ_Ｐそれぞれを別々に学習した後に、各モデルの推定結果を掛け合わせてもよい。また、ｆ_Ｇ・ｆ_Ｐの形で学習してもよい。また、数４では一例としてｆ_Ｇとｆ_Ｐの積の形でモデル化しているが、これらの和の形でモデル化してもよい。

　環境解析部１３は、まず、対象環境においてセンサ３２に含まれるセンサそれぞれが計測した環境状態データを取得する。次に、環境解析部１３は、取得した環境状態データを解析して、環境の状態を表す環境解析データを生成する。次に、環境解析部１３は、生成した環境解析データを推定部１４に出力する。また、環境解析部１３は、環境解析データを記憶装置４０に記憶してもよい。

　推定部１４は、まず、環境解析部１３から出力された環境解析データ、記憶装置４０に記憶されているモデルパラメータやハイパーパラメータなどを取得する。次に、推定部１４は、取得した環境解析データ、モデルパラメータ、ハイパーパラメータなどを、対象環境における移動体の挙動を推定するためのモデルに入力して、対象環境における移動体の挙動を推定する。次に、推定部１４は、挙動推定結果データを記憶装置４０に記憶してもよい。

　記憶装置４０は、システム１００で取り扱う各種のデータを記憶するメモリである。各種のデータは、モデル、モデルパラメータ、ハイパーパラメータ、第一の挙動解析データ（例えば、未知の環境において解析した新しい挙動解析データ）、第二の挙動解析データ（例えば、既知の環境において過去に解析した複数の挙動解析データ）、環境解析データ、挙動推定結果データなどである。図５の例では、記憶装置４０は、システム１００に設けられているが、システム１００と別に設けてもよい。その場合、記憶装置４０は、データベース、サーバコンピュータなどの記憶装置などが考えられる。

　学習指示部１５は、まず、推定部１４から挙動推定結果データを取得する。次に、学習指示部１５は、取得した挙動推定結果データに基づいて信頼区間を設定する。次に、学習指示部１５は、設定した信頼区間に挙動解析データが存在するか否かを判定する。設定した信頼区間に挙動解析データが存在する場合、学習指示部１５は、学習部１２にモデルを再学習させるための指示をしない。設定した信頼区間に挙動解析データが存在しない場合、学習指示部１５は、学習部１２にモデルを再学習させるための指示をする。

　移動経路生成部１６は、対象環境における移動体の挙動を推定した結果（挙動推定結果データ）に基づいて、現在位置から目的地までの経路を表す移動経路データを生成する。移動経路データの生成については後述する。

　また、移動経路生成部１６は、再計画指示部１７から、再計画をするための指示を取得した場合、再学習されたモデルの挙動推定結果データに基づいて、現在位置から目的地までの移動経路を表す移動経路データを生成する。

　再計画指示部１７は、推定部１４から挙動推定結果データを取得する。次に、再計画指示部１７は、取得した挙動推定結果データに基づいて移動経路データ（再計画）を生成するか否かを判定する。再計画をすると判定した場合、再計画指示部１７は、移動経路生成部１６に対して移動経路データを生成するための指示をする。また、再計画をしないと判定した場合、再計画指示部１７は、移動経路生成部１６に対して移動経路データを生成するための指示をしない。

　具体的には、再計画指示部１７は、モデルが再学習をした場合、移動経路生成部１６に対して移動経路データを生成するための指示をする。また、再計画指示部１７は、モデルが再学習していなくても、経路修正が必要な場合には、移動経路生成部１６に対して移動経路データを生成するための指示をする。例えば、計画された経路上に障害物が検出されたとき、移動体が計画された経路から大きく逸脱したときなどに、再計画指示部１７は移動経路生成部１６に対して移動経路データを生成するための指示をする。

　なお、モデルを再学習した場合でも、経路を修正しなくてもよい。具体的には、再学習したモデルに基づいて走行挙動を推定した結果、元の経路のまま走行した場合でもリスクが高くないと判断される場合には、移動経路生成部１６に移動経路データを生成するための指示をしない。

　図６は、移動経路データの生成を説明するための図である。図６に示すように、現在位置において、経路前方におけるスリップについて推定をし、スリップの推定値がリスク閾値より高くなると判定された場合（リスク大の場合）には、経路を修正するため、移動経路生成部１６に対して移動経路データを生成するための指示をする。

　対して、現在位置において、経路前方におけるスリップの推定値がリスク閾値以下と判定された場合（リスク小の場合）には、経路を修正しないため、移動経路生成部１６に対して移動経路データを生成するための指示をする。

　移動体制御部５０は、挙動推定結果データと移動経路データとに基づいて移動体を制御して移動させる。

　具体的には、移動体制御部５０は、まず、挙動推定結果データと移動経路データとを取得する。次に、移動体制御部５０は、挙動推定結果データと移動経路データとに基づいて、移動体の移動に関係する各部を制御する情報を生成する。そして、移動体制御部５０は、移動体を制御して、現在位置から目標地まで移動させる。

［実施例１］
　挙動推定装置１０と経路生成装置２０について具体的に説明する。実施例１では、未知の環境における作業車両１の斜面走行時のスリップ（挙動）を、低斜面を走行時に取得したデータから推定する場合について説明する。実施例１では、スリップを推定するので、スリップを、対象環境の地形形状（傾斜角、凹凸）の関数としてモデル化する。

［実施例１における学習動作］
　実施例１の学習において、挙動解析部１１は、作業車両１を、対象環境のリスクの低いなだらかな地形を一定速度で走行させ、一定間隔で、計測部３０のセンサ３１から移動体状態データを取得する。挙動解析部１１は、例えば、０．１［秒］間隔、又は０．１［ｍ］間隔などで移動体状態データを取得する。

　次に、挙動解析部１１は、取得した移動体状態データを用いて、作業車両１のＸＹＺ方向の移動速度Ｖｘ、Ｖｙ、Ｖｚと、作業車両１の車輪回転速度ωと、作業車両１のＸＹＺ軸周りの姿勢角（ロール角θx、ピッチ角θy、ヨー角θz）を算出する。

　移動速度は、例えば、二点間のＧＰＳ緯度・経度・高度の差から、それらの点間の時刻の差を割ることにより算出する。姿勢角は、例えば、ＩＭＵの角速度を積分することにより算出する。

　なお、移動速度と姿勢角は、ＧＰＳとＩＭＵにより計測された移動体状態データの両方を使用して、カルマンフィルタに基づいて算出してもよい。又は、移動速度と姿勢角は、ＧＰＳ、ＩＭＵ、ＬｉＤＡＲのデータに基づいて、ＳＬＡＭ（Simultaneous Localization and Mapping：移動体の位置の推定と周辺地図の構築を同時に行う技術）に基づいて算出してもよい。

　次に、挙動解析部１１は、数５に示すように、作業車両１の速度と車輪回転速度に基づいてスリップを算出する。なお、スリップは連続値である。

　作業車両１が目標速度と同じ速度で移動している場合にはスリップslip＝０になる。また、作業車両１が全く進んでいない場合にはスリップslip＝１になる。また、作業車両１が目標速度より速い速度で移動している場合にはスリップは負の値になる。

　次に、挙動解析部１１は、ロール角θx、ピッチ角θy、スリップを一組のデータ点とする、複数のデータ点（第一の挙動解析データ）を学習部１２に出力する。

　次に、学習部１２は、挙動解析部１１からデータ点（第一の挙動解析データ）と、記憶装置４０に記憶されている過去に既知の環境において生成されたデータ点（第二の挙動解析データ）との間の類似度に基づいて、対象環境におけるロール角θx、ピッチ角θy、スリップに関係するモデルを学習する。

　又は、学習部１２は、挙動解析部１１からデータ点（第一の挙動解析データ）と、記憶装置４０に記憶されている過去に既知の環境において生成されたデータ点（第二の挙動解析データ）に基づいて生成されたモデルとの間の類似度に基づいて、対象環境におけるロール角θx・ピッチ角θy、スリップに関係するモデルを学習する。

　具体例として、図２に示すように三つの既知環境データが得られている場合に、数２のｆ^（Ｓｉ）にガウス過程回帰を適用し、Ｓ_ｉの挙動解析データと、対象環境の挙動解析データとを用いて、ｆ^（Ｓｉ）のパラメータとハイパーパラメータを学習する例について説明する。

　数２のｗ_ｉには、ｆ^（Ｓｉ）でモデル化した際の対象環境における挙動解析データの尤度を使用する。尤度は、既知の環境のモデルそれぞれが対象環境におけるスリップ現象を表すと仮定したときに、対象環境におけるデータ点がどの程度そのモデルに対して尤もらしいかを表す確率である。

　数２のｇ（ｗ_ｉ）はｗ_ｉ／Σｗ_ｉとする。このとき、ｉ＝１、２、３について、対象環境における挙動解析データの尤度ｐ_ｉが、それぞれｐ_１＝０．５、ｐ_２＝０．２、ｐ_３＝０．１だったとすると、重みｗ_ｉそれぞれは、ｗ_１＝０．５、ｗ_２＝０．２、ｗ_３＝０．１となる。そして、重みｗ_ｉの合計は、Σｗ_ｉ＝０．５＋０．２＋０．１＝０．８となる。

　したがって、ｇ（ｗ_１）＝０．５／０．８＝０．６２５、ｇ（ｗ_２）＝０．２／０．８＝０．２５、ｇ（ｗ_３）＝０．１／０．８＝０．１２５となる。このように、ｇ（ｗ_ｉ）を重みとしたｆ^（Ｓｉ）の重み和として、数２のｆ^（Ｔ）のモデルを構築する。

　また、例えば、既知の環境それぞれについて、多項式回帰でスリップがモデル化されている場合、対象環境におけるデータが、それぞれの既知の環境におけるモデルで、どの程度表現可能かという指標に基づいて重みｗ_ｉを決定する。

　重みｗ_ｉは、例えば、既知の環境それぞれにおけるモデルを用いて対象環境におけるスリップを推定した際の平均二乗誤差（ＭＳＥ）の逆数を重みｗ_ｉに設定する。又は、既知の環境それぞれにおけるモデルを用いて対象環境におけるスリップを推定した際の決定係数（Ｒ^２）を重みｗ_ｉに設定する。

　さらに、例えば、既知の環境それぞれについて、ガウス過程回帰でスリップがモデル化されている場合、ガウス過程回帰を用いると、平均的な推定だけでなく、推定の不確実性を確率分布で表すことができる。この場合、重みｗ_ｉとして、既知の環境それぞれのモデルを用いて対象環境におけるスリップを推定した際の、対象環境におけるデータの尤度を用いる。

　なお、平均二乗誤差（ＭＳＥ）、決定係数（Ｒ^２）、尤度いずれかの指標を類似度とする場合においても、類似度が低い知識を組み合わせると、対象環境における推定精度が低下する可能性が高い。そのため、類似度（１／ＭＳＥ、Ｒ^２、尤度）に対して閾値を設定しておき、類似度が閾値以上となる既知の環境のモデルのみ使用することとしてもよい。さらに、類似度が最大のモデルのみ使用してもよいし、類似度が高い順に規定個のモデルを使用してもよい。

　なお、上述した多項式回帰やガウス過程回帰以外の手法でモデル化を行ってもよい。他の機械学習手法としては、サポートベクトルマシン、ニューラルネットワークなどがある。また、機械学習手法のように、入力と出力の間の関係をブラックボックスとしてモデル化するのではなく、物理モデルに基づいてホワイトボックス的にモデリングしてもよい。

　上述したいずれのモデル化手法を用いる場合にも、記憶装置４０に記憶しているモデルパラメータをそのまま使用してもよいし、対象環境を走行中に取得したデータを使用してモデルパラメータを再学習（更新）してもよい。

　また、類似度が低い知識を組み合わせると、対象環境における推定精度が低下する可能性が高い。そのため、類似度（１／ＭＳＥ、Ｒ^２、尤度）に対して閾値を設定しておき、類似度が閾値以上となる既知の環境のモデルのみ使用してもよい。

　なお、記憶装置４０に記憶する複数の既知の環境におけるモデルは、実世界で取得したデータに基づいて学習したものでもよいし、物理シミュレーションにより取得したデータに基づいて学習したものでもよい。

［実施例１における推定動作］
　推定において、作業車両１がこれから走行する地形形状を計測し、学習したモデルに基づいて対象環境におけるスリップを推定する。

　具体的には、環境解析部１３は、まず、計測部３０のセンサ３２から環境状態データを取得する。環境解析部１３は、例えば、作業車両１に搭載したＬｉＤＡＲを用いて前方の対象環境を計測して生成された三次元点群（環境状態データ）を取得する。

　次に、環境解析部１３は、三次元点群を処理して地形形状に関する地形形状データ（環境解析データ）を生成する。

　地形形状に関する情報の生成について具体的に説明する。
　環境解析部１３は、まず、図７に示すように、対象環境（空間）を格子に区切り、格子それぞれに点群を割り振る。図７は、地形形状に関する情報の一例を説明するための図である。

　次に、環境解析部１３は、格子それぞれについて、格子自身とその周辺８方向の格子に含まれる点群から、点群の平均距離誤差が最小となるような近似平面を算出し、その近似平面の最大傾斜角と傾斜方向を算出する。

　次に、環境解析部１３は、格子ごとに、格子の位置を表す座標と、近似平面の最大傾斜角と、傾斜方向とを関連付けて地形形状データ（環境解析データ）を生成して記憶装置４０に記憶する。

　次に、推定部１４は、環境解析部１３が生成した地形形状データと、学習済みのスリップのモデルとに基づいて、格子それぞれにおけるスリップを推定する。

　格子それぞれにおけるスリップの推定方法について具体的に説明する。
（１）格子の最大傾斜角のみをモデルに入力してスリップを推定する。ただし、実際には、作業車両１のスリップは、斜面に対して作業車両１がどの向きを向いているかどうかによって決まる。例えば、最大傾斜角方向（一番傾斜が急な向き）を作業車両１が向いている場合、最もスリップが大きくなるので、最大傾斜角を使用してスリップを推定することは、保守的に予測を行うことを意味する。なお、作業車両１のピッチ角＝最大傾斜角、ロール角＝０として、スリップを推定してもよい。

（２）各格子に格納された最大傾斜角と斜面方向の情報から、その格子を通る際の作業車両１の進行方向に応じてスリップを推定する。その場合、作業車両１のロール角とピッチ角は、最大傾斜角と斜面方向、作業車両１の進行方向に基づいて算出する。また、格子ごとに、複数の作業車両１の進行方向（例えば１５度間隔など）に対してスリップを推定する。

（３）ガウス過程回帰などにより、不確実性も考慮した推定を表現可能な場合、スリップの平均値と分散値を推定する。急斜面や凹凸の激しい地形では、作業車両１の挙動が複雑になるため、スリップのばらつきが大きくなる可能性が高くなるので、平均だけでなく分散を推定することにより、更に、安全な作業車両１の運用が可能となる。

　次に、推定部１４は、図８に示すように、格子それぞれに、推定したスリップ（最大傾斜角方向のスリップの連続値）を関連付けて挙動推定結果データを生成して記憶装置４０に記憶する。図８は、格子とスリップとの関係を説明するための図である。

　又は、推定部１４は、格子それぞれに、推定したスリップと、車両進行方向とを関連付けて挙動推定結果データを生成して記憶装置４０に記憶する。車両進行方向は、例えば、あらかじめ決められた方向に対する角度を用いて表す。

　又は、推定部１４は、格子それぞれに、推定したスリップの平均と、スリップの分散と、車両進行方向とを関連付けて挙動推定結果データを生成して記憶装置４０に記憶する。

　又は、推定部１４は、あらかじめ設定したスリップに対する閾値に基づいて、通行可能か通行不可能かを判定し、判定結果を表す情報を格子に関連付けて挙動推定結果データを生成して記憶装置４０に記憶する。図９は、格子と通行可能・不可能との関係を説明するための図である。図９に示す「〇」は通行可能を示し、「×」は通行不可能を示している。

　なお、上述したように実施例１では、地形形状のみを特徴量としてスリップのモデル化をしたが、作業車両１がカメラなどの撮像装置を搭載している場合、地形形状に加えて画像データ（例えば、各画素の輝度値やテクスチャ）を、モデルの入力データ（特徴量）に加えてもよい。

　また、現在の位置に近い場所での挙動は近くなる可能性が高いので、移動体状態データを取得した位置も特徴量に使用してもよい。さらに、移動速度、ステアリング操作量、作業車両１の積載物の増減による重量や重量バランスの変化、作業車両１の形状がサスペンションなどによるパッシブ／アクティブの変化などを、特徴量に加えてもよい。

　実施例１では、スリップについて説明したが、他の推定対象の挙動として、例えば、作業車両１の振動がある。基本的な処理の流れは、上述したスリップの場合と同様である。ただし、振動の場合、ＩＭＵで計測した加速度の時系列情報を、例えば、フーリエ変換により振動の大きさと周波数に変換し、それを地形形状の関数としてモデル化する。

　さらに、他の推定対象の挙動として、例えば、消費電力、燃料の消費燃料、車両の姿勢角などがある。いずれの挙動も基本的な学習と推定の流れは、上述したスリップと同様である。

　消費電力や燃料の消費燃料は、対応する計器の計測値と地形形状のデータとを用いて、モデル化をする。

　姿勢角は、多くの場合地面の傾斜角とほぼ同じになるが、地質特性や凹凸の激しさによっては、地面傾斜角以上に車体が傾いて危険な状態になる。そこで、例えば、事前にＬｉＤＡＲで計測した点群から推定した地形形状と、その地形を実際に走行した際の車両姿勢角（ＩＭＵで計測した角速度を用いて算出した車両の姿勢角）とをペアの入出力データとして、対象環境の地形を表す関数として姿勢角をモデル化する。

［実施例２］
　実施例２では、未知の環境における移動体の移動経路の計画及び移動制御の方法について説明する。具体的には、実施例２では、実施例１で求めた推定結果に基づいて移動経路を求め、求めた移動経路にしたがって移動体を移動させる。

　推定部１４でのスリップの推定に基づいて、作業車両１の現在位置から目標位置までの移動経路を計画する例について説明する。

　スリップの値が大きいほど、作業車両１の移動効率が低下するだけでなく、作業車両１が足を取られて身動きできなくなる可能性が高い。そこで、スリップの値が高いと推定された格子に対応する場所を避けて移動経路を生成する。

　図９に示した最大傾斜角に基づいて推定したスリップから通行可能か通行不可能を判定した例を用いて移動経路を計画する場合について説明する。

　ここで、移動経路を計画するアルゴリズムについては、任意のアルゴリズムを用いることができる。例えば、一般的に用いられているＡ＊（エースター）アルゴリズムを使用する。Ａ＊アルゴリズムでは、現在位置から隣接するノードを順次探索していき、現在の探索ノードと、隣接ノードの間の移動コストと、隣接ノードから目標位置までの移動コストに基づき、効率的に経路を探索する。

　また、格子ごとの中心位置（座標）を一つのノードとし、各ノードは１６方向の隣接ノードに移動可能とする。移動コストは、ノード間のユークリッド距離とする。

　ノードが通行可能と判定されている場合、別のノードからそのノードへ移動が可能として移動経路を探索する。その結果、図１０に示すような、現在位置から目標位置Ｇまでの移動経路（図１０の実線矢印）が生成される。図１０は、移動経路の一例を説明するための図である。

　なお、移動経路生成部１６は、移動経路上の一連のノードを表す情報を移動体制御部５０に出力する。

　また、実際には、作業車両１の位置に加え、作業車両１の向きを含めて移動経路を生成する。理由は、作業車両１が真横に移動できないこと、ステアリング角に制限があることなど、作業車両１の移動方向に制限があるため、車両の向きも考慮しなければならないからである。

　次に、図８に示した連続的なスリップを格子に割り当てた例を用いて移動経路を計画する場合について説明する。

　ここで、格子ごとの中心位置（座標）を一つのノードとし、各ノードは１６方向の隣接ノードに移動可能とする。移動コストは、推定したスリップを経路探索に反映するため、例えば、ノード間の移動コストを単なるユークリッド距離ではなく、数６に示す距離とスリップの重み和とする。図１１は、移動経路の一例を説明するための図である。

（数６）
　Cost ＝ａ * Ｌ＋ｂ * Slip
　Cost  ：ノード間の移動コスト
　Ｌ    ：ユークリッド距離
　Slip  ：スリップ
　ａ，ｂ：移動経路を生成に用いる重み（０以上の値）

　図１１の例では、重みｂに対して重みａを大きくすると、ユークリッド距離Ｌが比較的短い移動経路（図１１の実線矢印）が生成される。対して、重みａに対して重みｂを大きくすると、ユークリッド距離は長くなるが、スリップの値が高いノードを避けた移動経路（図１１の破線矢印）が生成される。

　なお、ガウス過程回帰などにより不確実性も考慮した推定を表現可能な場合、すなわち格子ごとにスリップの平均値と分散値を推定した場合には、例えば、平均値が小さくても、分散値（予測の不確実性）が大きい格子を避けように移動経路を生成する。

［装置動作］
　次に、本発明の実施形態、実施例１、実施例２における挙動推定装置１０、経路生成装置２０の動作について図を用いて説明する。

　図１２は、挙動推定装置の動作の一例を説明するための図である。図１３は、経路生成装置の動作の一例を説明するための図である。

　以下の説明においては、適宜図を参照する。また、実施形態、実施例１、実施例２における挙動推定装置１０、経路生成装置２０、システム１００を動作させることによって、挙動推定方法、経路生成方法が実施される。よって、実施形態、実施例１、実施例２における挙動推定方法、経路生成方法の説明は、以下の挙動推定装置１０、経路生成装置２０、システム１００の動作説明に代える。

［挙動推定装置の動作］
　図１２に示すように、まず、挙動解析部１１は、センサ３１から移動体状態データを取得する（ステップＡ１）。次に、挙動解析部１１は、移動体の状態を表す移動体状態データに基づいて、移動体の挙動を解析し、移動体の挙動を表す第一の挙動解析データを生成する（ステップＡ２）。

　次に、環境解析部１３は、センサ３２から環境状態データを取得する（ステップＡ３）。次に、環境解析部１３は、対象環境の状態を表す環境状態データに基づいて対象環境について解析をし、環境解析データを生成する（ステップＡ４）。

　なお、ステップＡ１、Ａ３又はステップＡ３、Ａ１の処理をした後、ステップＡ２、Ａ４又はステップＡ４、Ａ２の順で処理をしてもよい。また、ステップＡ３、Ａ４の処理をした後、ステップＡ１、Ａ２の処理をしてもよい。さらに、ステップＡ１、Ａ２の処理とステップＡ３、Ａ４の処理を並列に処理してもよい。

　次に、推定部１４は、環境解析データを、対象環境における移動体の挙動を推定するためのモデルに入力して、対象環境における移動体の挙動を推定する（ステップＡ５）。

　次に、学習指示部１５は、モデルにより推定された挙動推定結果データに基づいて信頼区間を設定し、設定した信頼区間に第一の挙動解析データが存在するか否かの判定をする（ステップＡ６）。信頼区間に第一の挙動解析データが存在する場合（再学習をしない場合）、学習部１２にモデルを再学習させるための指示をださない（ステップＡ７：Ｎｏ）。なお、信頼区間に第一の挙動解析データが存在しない場合（再学習をする場合）、学習部１２にモデルを再学習させるための指示をする（ステップＡ７：Ｙｅｓ）。

　次に、学習部１２は、対象環境において生成された第一の挙動解析データと、過去に既知の環境において、既知の環境ごとに生成された第二の挙動解析データとを用いて、対象環境における移動体の挙動を推定するためのモデルを学習する（ステップＡ８）。

　次に、挙動推定装置１０が挙動推定処理を終了する指示を受信した場合（ステップＡ９：Ｙｅｓ）には、挙動推定処理を終了する。挙動推定処理を継続する場合（ステップＡ９：Ｎｏ）には、ステップＡ１に移行して挙動推定処理を継続する。

［経路生成装置の動作］
　図１３に示すように、まず、ステップＡ１からＡ８の挙動推定処理を実行する。次に、推定部１４は、環境解析データを、再学習したモデルに入力して、新たに対象環境における移動体の挙動を推定する（ステップＢ１）。

　次に、再計画指示部１７は、推定部１４から再学習したモデルを用いて生成された挙動推定結果データを取得し、取得した挙動推定結果データに基づいて移動経路データ（再計画）を生成するか否かを判定する。（ステップＢ２）。

　次に、再計画指示部１７は、再計画をすると判定した場合、再計画指示部１７は、移動経路生成部１６に対して移動経路データを生成するための指示をする（ステップＢ３：Ｙｅｓ）。また、再計画をしないと判定した場合、再計画指示部１７は、移動経路生成部１６に対して移動経路データを生成するための指示をしない（ステップＢ３：Ｎｏ）。

　次に、移動経路生成部１６は、挙動推定結果データに基づいて、現在位置から目的地までの移動経路を表す移動経路データを生成する（ステップＢ４）。

　具体的には、ステップＢ４において、移動経路生成部１６は、推定部１４から、図８、図９に示すような対象環境における移動体の挙動推定結果データを取得する。次に、ステップＢ４において、移動経路生成部１６は、移動体の挙動推定結果データに一般的な経路計画処理を適用して移動経路データを生成する。次に、移動経路生成部１６は、移動経路データを移動体制御部５０に出力する。

　具体的には、移動体制御部５０は、まず、挙動推定結果データと移動経路データとを取得する。次に、移動体制御部５０は、挙動推定結果データと移動経路データとに基づいて、移動体の移動に関係する各部を制御する情報を生成する。そして、移動体制御部５０は、現在位置から目標地まで、移動体を制御して移動させる。

　次に、経路生成装置２０が経路生成処理を終了する指示を受信した場合（ステップＢ５：Ｙｅｓ）には、経路生成処理を終了する。経路生成処理を継続する場合（ステップＢ５：Ｎｏ）には、ステップＡ１に移行して経路生成処理を継続する。

［本実施形態の効果］
　以上のように実施形態、実施例１、実施例２によれば、未知の環境におけるモデルの再学習の回数を低減できる。その結果、作業車両などの移動体の挙動を精度よく推定でき、更に、作業車両の運用効率の低下を抑制できる。

［プログラム］
　実施形態、実施例１、実施例２におけるプログラムは、コンピュータに、図１２、図１３に示すステップＡ１からＡ９、ステップＢ１からＢ５を実行させるプログラムであればよい。このプログラムをコンピュータにインストールし、実行することによって、実施形態、実施例１、実施例２における挙動推定装置１０、経路生成装置２０、システム１００とそれらの方法を実現することができる。この場合、コンピュータのプロセッサは、挙動解析部１１、学習部１２、環境解析部１３、推定部１４、学習指示部１５、移動経路生成部１６、再計画指示部１７、移動体制御部５０として機能し、処理を行なう。

　また、実施形態、実施例１、実施例２におけるプログラムは、複数のコンピュータによって構築されたコンピュータシステムによって実行されてもよい。この場合は、例えば、各コンピュータが、それぞれ、挙動解析部１１、学習部１２、環境解析部１３、推定部１４、学習指示部１５、移動経路生成部１６、再計画指示部１７、移動体制御部５０のいずれかとして機能してもよい。

［物理構成］
　ここで、実施形態、実施例１、実施例２におけるプログラムを実行することによって、挙動推定装置１０、経路生成装置２０、システム１００を実現するコンピュータについて図１４を用いて説明する。図１４は、挙動推定装置又は経路生成装置を有するシステムを実現するコンピュータの一例を示すブロック図である。

　図１４に示すように、コンピュータ１１０は、ＣＰＵ（Central Processing Unit）１１１と、メインメモリ１１２と、記憶装置１１３と、入力インターフェイス１１４と、表示コントローラ１１５と、データリーダ／ライタ１１６と、通信インターフェイス１１７とを備える。これらの各部は、バス１２１を介して、互いにデータ通信可能に接続される。なお、コンピュータ１１０は、ＣＰＵ１１１に加えて、又はＣＰＵ１１１に代えて、ＧＰＵ（Graphics Processing Unit）、又はＦＰＧＡ（Field-Programmable Gate Array）を備えていてもよい。

　ＣＰＵ１１１は、記憶装置１１３に格納された、本実施形態におけるプログラム（コード）をメインメモリ１１２に展開し、これらを所定順序で実行することにより、各種の演算を実施する。メインメモリ１１２は、典型的には、ＤＲＡＭ（Dynamic Random Access Memory）などの揮発性の記憶装置である。また、本実施形態におけるプログラムは、コンピュータ読み取り可能な記録媒体１２０に格納された状態で提供される。なお、本実施形態におけるプログラムは、通信インターフェイス１１７を介して接続されたインターネット上で流通するものであってもよい。なお、記録媒体１２０は、不揮発性記録媒体である。

　また、記憶装置１１３の具体例としては、ハードディスクドライブの他、フラッシュメモリなどの半導体記憶装置があげられる。入力インターフェイス１１４は、ＣＰＵ１１１と、キーボード及びマウスといった入力機器１１８との間のデータ伝送を仲介する。表示コントローラ１１５は、ディスプレイ装置１１９と接続され、ディスプレイ装置１１９での表示を制御する。

　データリーダ／ライタ１１６は、ＣＰＵ１１１と記録媒体１２０との間のデータ伝送を仲介し、記録媒体１２０からのプログラムの読み出し、及びコンピュータ１１０における処理結果の記録媒体１２０への書き込みを実行する。通信インターフェイス１１７は、ＣＰＵ１１１と、他のコンピュータとの間のデータ伝送を仲介する。

　また、記録媒体１２０の具体例としては、ＣＦ（Compact Flash（登録商標））及びＳＤ（Secure Digital）などの汎用的な半導体記憶デバイス、フレキシブルディスク（Flexible Disk）などの磁気記録媒体、又はＣＤ－ＲＯＭ（Compact Disk Read Only Memory）などの光学記録媒体があげられる。

　なお、実施形態、実施例１、実施例２における挙動推定装置１０、経路生成装置２０、システム１００は、プログラムがインストールされたコンピュータではなく、各部に対応したハードウェアを用いることによっても実現可能である。さらに、挙動推定装置１０、経路生成装置２０、システム１００は、一部がプログラムで実現され、残りの部分がハードウェアで実現されていてもよい。

［付記］
　以上の実施形態に関し、更に以下の付記を開示する。上述した実施形態の一部又は全部は、以下に記載する（付記１）から（付記１２）により表現することができるが、以下の記載に限定されるものではない。

（付記１）
　第一の環境において移動体の実際の挙動を表す第一の挙動解析データを生成する、挙動解析部と、
　前記第一の環境の状態を表す環境状態データに基づいて前記第一の環境について解析をし、環境解析データを生成する、環境解析部と、
　前記環境解析データを、前記第一の環境における移動体の挙動を推定するためのモデルに入力して、前記第一の環境における前記移動体の挙動を推定する、推定部と、
　前記モデルにより推定された挙動推定結果データに基づいて信頼区間を設定し、設定した前記信頼区間に前記第一の挙動解析データが存在する場合、前記モデルを学習する学習部に、前記モデルを再学習させるための指示をする、学習指示部と、
　を有する挙動推定装置。

（付記２）
　付記１に記載の挙動推定装置であって、
　前記学習部は、前記第一の挙動解析データと、第二の環境ごとに生成された第二の挙動解析データと、前記第一の環境及び前記第二の環境それぞれにおける位置ごとの地質特性の類似度とを用いて、前記モデルを学習する
　挙動推定装置。

（付記３）
　第一の環境において移動体の実際の挙動を表す第一の挙動解析データを生成する、挙動解析部と、
　前記第一の環境の状態を表す環境状態データに基づいて前記第一の環境について解析をし、環境解析データを生成する、環境解析部と、
　前記環境解析データを、前記第一の環境における移動体の挙動を推定するためのモデルに入力して、前記第一の環境における前記移動体の挙動を推定する、推定部と、
　前記モデルにより推定された挙動推定結果データに基づいて信頼区間を設定し、設定した前記信頼区間に前記第一の挙動解析データが存在する場合、前記モデルを学習する学習部に、前記モデルを再学習させるための指示をする、学習指示部と、
　前記モデルが再学習された場合、再学習された前記モデルを用いて生成された挙動推定結果データに基づいて、現在位置から目的地までの移動経路を表す移動経路データを再生成する、移動経路生成部と、
　を有する経路生成装置。

（付記４）
　付記３に記載の経路生成装置であって、
　前記学習部は、前記第一の挙動解析データと、第二の環境ごとに生成された第二の挙動解析データと、前記第一の環境及び前記第二の環境それぞれにおける位置ごとの地質特性の類似度とを用いて、前記モデルを学習する
　経路生成装置。

（付記５）
　第一の環境において移動体の実際の挙動を表す第一の挙動解析データを生成する、挙動解析ステップと、
　前記第一の環境の状態を表す環境状態データに基づいて前記第一の環境について解析をし、環境解析データを生成する、環境解析ステップと、
　前記環境解析データを、前記第一の環境における移動体の挙動を推定するためのモデルに入力して、前記第一の環境における前記移動体の挙動を推定する、推定ステップと、
　前記モデルにより推定された挙動推定結果データに基づいて信頼区間を設定し、設定した前記信頼区間に前記第一の挙動解析データが存在する場合、前記モデルを再学習させるための指示をする、学習指示ステップと、
　を有する挙動推定方法。

（付記６）
　付記５に記載の挙動推定方法であって、
　前記第一の挙動解析データと、第二の環境ごとに生成された第二の挙動解析データと、前記第一の環境及び前記第二の環境それぞれにおける位置ごとの地質特性の類似度とを用いて、前記モデルを学習する
　挙動推定方法。

（付記７）
　第一の環境において移動体の実際の挙動を表す第一の挙動解析データを生成する、挙動解析ステップと、
　前記第一の環境の状態を表す環境状態データに基づいて前記第一の環境について解析をし、環境解析データを生成する、環境解析ステップと、
　前記環境解析データを、前記第一の環境における移動体の挙動を推定するためのモデルに入力して、前記第一の環境における前記移動体の挙動を推定する、推定ステップと、
　前記モデルにより推定された挙動推定結果データに基づいて信頼区間を設定し、設定した前記信頼区間に前記第一の挙動解析データが存在する場合、前記モデルを学習する学習部に、前記モデルを再学習させるための指示をする、学習指示ステップと、
　前記モデルが再学習された場合、再学習された前記モデルを用いて生成された挙動推定結果データに基づいて、現在位置から目的地までの移動経路を表す移動経路データを再生成する、移動経路生成ステップと、
　を有する経路生成方法。

（付記８）
　付記７に記載の経路生成方法であって、
　前記第一の挙動解析データと、第二の環境ごとに生成された第二の挙動解析データと、前記第一の環境及び前記第二の環境それぞれにおける位置ごとの地質特性の類似度とを用いて、前記モデルを学習する
　経路生成方法。

（付記９）
　コンピュータに、
　第一の環境において移動体の実際の挙動を表す第一の挙動解析データを生成する、挙動解析ステップと、
　前記第一の環境の状態を表す環境状態データに基づいて前記第一の環境について解析をし、環境解析データを生成する、環境解析ステップと、
　前記環境解析データを、前記第一の環境における移動体の挙動を推定するためのモデルに入力して、前記第一の環境における前記移動体の挙動を推定する、推定ステップと、
　前記モデルにより推定された挙動推定結果データに基づいて信頼区間を設定し、設定した前記信頼区間に前記第一の挙動解析データが存在する場合、前記モデルを再学習させるための指示をする、学習指示ステップと、
　処理を実行させる命令を含む、プログラムを記録しているコンピュータ読み取り可能な記録媒体。

（付記１０）
　付記９に記載のコンピュータ読み取り可能な記録媒体であって、
　前記第一の挙動解析データと、第二の環境ごとに生成された第二の挙動解析データと、前記第一の環境及び前記第二の環境それぞれにおける位置ごとの地質特性の類似度とを用いて、前記モデルを学習する
　コンピュータ読み取り可能な記録媒体。

（付記１１）
　コンピュータに、
　第一の環境において移動体の実際の挙動を表す第一の挙動解析データを生成する、挙動解析ステップと、
　前記第一の環境の状態を表す環境状態データに基づいて前記第一の環境について解析をし、環境解析データを生成する、環境解析ステップと、
　前記環境解析データを、前記第一の環境における移動体の挙動を推定するためのモデルに入力して、前記第一の環境における前記移動体の挙動を推定する、推定ステップと、
　前記モデルにより推定された挙動推定結果データに基づいて信頼区間を設定し、設定した前記信頼区間に前記第一の挙動解析データが存在する場合、前記モデルを学習する学習部に、前記モデルを再学習させるための指示をする、学習指示ステップと、
　前記モデルが再学習された場合、再学習された前記モデルを用いて生成された挙動推定結果データに基づいて、現在位置から目的地までの移動経路を表す移動経路データを再生成する、移動経路生成ステップと、
　処理を実行させる命令を含む、プログラムを記録しているコンピュータ読み取り可能な記録媒体。

（付記１２）
　付記１１に記載のコンピュータ読み取り可能な記録媒体であって、
　前記第一の挙動解析データと、第二の環境ごとに生成された第二の挙動解析データと、前記第一の環境及び前記第二の環境それぞれにおける位置ごとの地質特性の類似度とを用いて、前記モデルを学習する
　コンピュータ読み取り可能な記録媒体。

　以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

　以上のように本発明によれば、未知の環境におけるモデルの再学習の回数を低減できる。その結果、作業車両などの移動体の挙動を精度よく推定でき、更に、作業車両の運用効率の低下を抑制できる。本発明は、移動体の挙動を推定が必要な分野において有用である。

　　１　作業車両
　１０　挙動推定装置
　１１　挙動解析部
　１２　学習部
　１３　環境解析部
　１４　推定部
　１５　学習指示部
　１６　移動経路生成部
　１７　再計画指示部
　２０　経路生成装置
　３０　計測部
　３１、３２　センサ
　４０　記憶装置
　５０　移動体制御部
１００　システム
１１０　コンピュータ
１１１　ＣＰＵ
１１２　メインメモリ
１１３　記憶装置
１１４　入力インターフェイス
１１５　表示コントローラ
１１６　データリーダ／ライタ
１１７　通信インターフェイス
１１８　入力機器
１１９　ディスプレイ装置
１２０　記録媒体
１２１　バス

Claims

　第一の環境において移動体の実際の挙動を表す第一の挙動解析データを生成する、挙動解析手段と、
　前記第一の環境の状態を表す環境状態データに基づいて前記第一の環境について解析をし、環境解析データを生成する、環境解析手段と、
　前記環境解析データを、前記第一の環境における移動体の挙動を推定するためのモデルに入力して、前記第一の環境における前記移動体の挙動を推定する、推定手段と、
　前記モデルにより推定された挙動推定結果データに基づいて信頼区間を設定し、設定した前記信頼区間に前記第一の挙動解析データが存在する場合、前記モデルを学習する学習手段に、前記モデルを再学習させるための指示をする、学習指示手段と、
　を有する挙動推定装置。
　請求項１に記載の挙動推定装置であって、
　前記学習手段は、前記第一の挙動解析データと、第二の環境ごとに生成された第二の挙動解析データと、前記第一の環境及び前記第二の環境それぞれにおける位置ごとの地質特性の類似度とを用いて、前記モデルを学習する
　挙動推定装置。
　第一の環境において移動体の実際の挙動を表す第一の挙動解析データを生成する、挙動解析手段と、
　前記第一の環境の状態を表す環境状態データに基づいて前記第一の環境について解析をし、環境解析データを生成する、環境解析手段と、
　前記環境解析データを、前記第一の環境における移動体の挙動を推定するためのモデルに入力して、前記第一の環境における前記移動体の挙動を推定する、推定手段と、
　前記モデルにより推定された挙動推定結果データに基づいて信頼区間を設定し、設定した前記信頼区間に前記第一の挙動解析データが存在する場合、前記モデルを学習する学習手段に、前記モデルを再学習させるための指示をする、学習指示手段と、
　前記モデルが再学習された場合、再学習された前記モデルを用いて生成された挙動推定結果データに基づいて、現在位置から目的地までの移動経路を表す移動経路データを再生成する、移動経路生成手段と、
　を有する経路生成装置。
　請求項３に記載の経路生成装置であって、
　前記学習手段は、前記第一の挙動解析データと、第二の環境ごとに生成された第二の挙動解析データと、前記第一の環境及び前記第二の環境それぞれにおける位置ごとの地質特性の類似度とを用いて、前記モデルを学習する
　経路生成装置。
　第一の環境において移動体の実際の挙動を表す第一の挙動解析データを生成し、
　前記第一の環境の状態を表す環境状態データに基づいて前記第一の環境について解析をし、環境解析データを生成し、
　前記環境解析データを、前記第一の環境における移動体の挙動を推定するためのモデルに入力して、前記第一の環境における前記移動体の挙動を推定し、
　前記モデルにより推定された挙動推定結果データに基づいて信頼区間を設定し、設定した前記信頼区間に前記第一の挙動解析データが存在する場合、前記モデルを再学習させるための指示をする
　挙動推定方法。
　請求項５に記載の挙動推定方法であって、
　前記第一の挙動解析データと、第二の環境ごとに生成された第二の挙動解析データと、前記第一の環境及び前記第二の環境それぞれにおける位置ごとの地質特性の類似度とを用いて、前記モデルを学習する
　挙動推定方法。
　第一の環境において移動体の実際の挙動を表す第一の挙動解析データを生成し、
　前記第一の環境の状態を表す環境状態データに基づいて前記第一の環境について解析をし、環境解析データを生成し、
　前記環境解析データを、前記第一の環境における移動体の挙動を推定するためのモデルに入力して、前記第一の環境における前記移動体の挙動を推定し、
　前記モデルにより推定された挙動推定結果データに基づいて信頼区間を設定し、設定した前記信頼区間に前記第一の挙動解析データが存在する場合、前記モデルを再学習させるための指示をし、
　前記モデルが再学習された場合、再学習された前記モデルを用いて生成された挙動推定結果データに基づいて、現在位置から目的地までの移動経路を表す移動経路データを再生成する
　経路生成方法。
　請求項７に記載の経路生成方法であって、
　前記第一の挙動解析データと、第二の環境ごとに生成された第二の挙動解析データと、前記第一の環境及び前記第二の環境それぞれにおける位置ごとの地質特性の類似度とを用いて、前記モデルを学習する
　経路生成方法。
　コンピュータに、
　第一の環境において移動体の実際の挙動を表す第一の挙動解析データを生成し、
　前記第一の環境の状態を表す環境状態データに基づいて前記第一の環境について解析をし、環境解析データを生成し、
　前記環境解析データを、前記第一の環境における移動体の挙動を推定するためのモデルに入力して、前記第一の環境における前記移動体の挙動を推定し、
　前記モデルにより推定された挙動推定結果データに基づいて信頼区間を設定し、設定した前記信頼区間に前記第一の挙動解析データが存在する場合、前記モデルを再学習させるための指示をする
　処理を実行させる命令を含む、プログラムを記録しているコンピュータ読み取り可能な記録媒体。
　請求項９に記載のコンピュータ読み取り可能な記録媒体であって、
　前記第一の挙動解析データと、第二の環境ごとに生成された第二の挙動解析データと、前記第一の環境及び前記第二の環境それぞれにおける位置ごとの地質特性の類似度とを用いて、前記モデルを学習する
　コンピュータ読み取り可能な記録媒体。
　コンピュータに、
　第一の環境において移動体の実際の挙動を表す第一の挙動解析データを生成し、
　前記第一の環境の状態を表す環境状態データに基づいて前記第一の環境について解析をし、環境解析データを生成し、
　前記環境解析データを、前記第一の環境における移動体の挙動を推定するためのモデルに入力して、前記第一の環境における前記移動体の挙動を推定し、
　前記モデルにより推定された挙動推定結果データに基づいて信頼区間を設定し、設定した前記信頼区間に前記第一の挙動解析データが存在する場合、前記モデルを再学習させるための指示をし、
　前記モデルが再学習された場合、再学習された前記モデルを用いて生成された挙動推定結果データに基づいて、現在位置から目的地までの移動経路を表す移動経路データを再生成する
　処理を実行させる命令を含む、プログラムを記録しているコンピュータ読み取り可能な記録媒体。
　請求項１１に記載のコンピュータ読み取り可能な記録媒体であって、
　前記第一の挙動解析データと、第二の環境ごとに生成された第二の挙動解析データと、前記第一の環境及び前記第二の環境それぞれにおける位置ごとの地質特性の類似度とを用いて、前記モデルを学習する
　コンピュータ読み取り可能な記録媒体。