WO2024042586A1

WO2024042586A1 - 交通分散制御システム、方法、及びプログラム

Info

Publication number: WO2024042586A1
Application number: PCT/JP2022/031586
Authority: WO
Inventors: 健太丹羽; 宏澤田; 昭典藤野; 修功上田
Original assignee: 日本電信電話株式会社
Priority date: 2022-08-22
Filing date: 2022-08-22
Publication date: 2024-02-29

Abstract

本開示の一態様による交通分散制御システムは、複数の移動体が含まれる交通分散制御システムであって、前記複数の移動体の時刻ｔ_ｋおける状態ｈ'（ｔ_ｋ）を用いて、仮想空間上に前記複数の移動体の状態模擬として表現された前記複数の移動体の次の時刻ｔ_ｋ＋１における最適状態ｈ（ｔ_ｋ＋１）を予測するように構成されている状態予測部と、前記複数の移動体の時刻ｔ_ｋ＋１における状態ｈ'（ｔ_ｋ＋１）が、前記最適状態ｈ（ｔ_ｋ＋１）に近付くように前記複数の移動体を制御するように構成されている制御部と、を有する。

Description

交通分散制御システム、方法、及びプログラム

　本発明は、複数の車両により自律的に交通制御を行う技術に関連するものである。

　従来、道路の各交差点等に設置された信号機により、車両が衝突することなく安全に走行するための交通制御（交通整流と称されてもよい。）が行われている。一方で、このような交通制御は、信号待ちによる頻繁な停止、合流や右左折に伴う一時停止等によって、特に都市部では慢性的な渋滞が発生してしまう、という課題がある。これに対して、近年では、実世界の対象を仮想空間上に模擬したデジタルツインを介して、仮想空間上で最適化された交通制御を実世界の対象にフィードバックすることが検討されている（例えば、非特許文献１参照）。

Digital twin computing white paper (ver. 2.0.0), 2019, インターネット＜ＵＲＬ：https://www.rd.ntt/dtc/DTC_Whitepaper_jp_2_0_0.pdf＞

　今後、自律走行車両の普及に伴って、従来の信号機を用いた集中制御システムから信号機を使わない交通分散制御システム（シグナルフリー交通制御）への置き換えが行われると考えられる。このため、デジタルツインを介した交通分散制御システムにより、上記の課題を解決していくことが想定される。

　本開示は、上記の点に鑑みてなされたもので、デジタルツインを介して、信号機を使用しない交通分散制御を実現するための技術を提供することを目的とする。

　開示の技術によれば、デジタルツインを介した交通分散制御システムにより、信号機を使用しない交通分散制御を実現するための技術が提供される。

グラフ構造を示す図である。実施の形態の概要を説明するための図である。推論の概要を説明するための図である。学習の概要を説明するための図である。システム構成例を示す図である。処理フロー例を示す図である。システム構成の変形例１を示す図である。システム構成の変形例２を示す図である。コンピュータのハードウェア構成例を示す図である。

　以下、図面を参照して本発明の実施の形態（本実施の形態）を説明する。以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下の実施の形態に限られるものではない。

　（実施の形態の概要）
　図１に本実施の形態における交通分散制御システムに含まれる各車両のグラフ構造の一例を示す。図１に示すように、本交通分散制御システムに含まれる各車両は、車両をノード、近隣の車両間で無線通信を行うための接続をエッジとしたグラフ構造で表現される。本交通分散制御システムにおいて、車両は互いに衝突しないように移動することができる。

　図１に示す例では、ノードは車両としたが、ノードは特定の物に限定されるものではない。ノードは、車両以外の移動体、例えば、航空機、船舶、ロボット、ドローン等といった移動体であってもよい。以下では、ノードは「車両」であるものとして説明する。

　本実施の形態では、車両や道路等といった実世界のデジタルツインを仮想空間上に構成した上で、デジタルツインと実世界の車両との間のフィードバックループにより交通を制御する。より具体的には、実世界から実際の車両の状態（例えば、車両の速度、位置等）を収集すると共に、これらの状態を用いてデジタルツイン上で各車両の最適な状態を求め、その最適な状態（つまり、最適な速度、位置等）を実際の車両にフィードバックする。これを繰り返すことで、実世界の車両の最適な交通分散制御が実現される。

　上記のフィードバックループの様子（イメージ）を図２に示す。図２に示すように、実世界の車両の状態（速度、位置等）を収集し、デジタルツイン上では、これらの状態と、近隣車両との間で衝突を抑止するための無線通信とを考慮して各車両の状態予測（これは状態更新と呼ばれてもよい。）を行って次の時刻の最適な状態を求める。この最適な状態は実世界の車両にフィードバックされ、実世界の各車両は、その最適な状態に近付くように制御（自律制御）を実行する。これにより、各車両が他の車両と衝突すること（例えば、交通事故等）が抑止され、かつ、所望の目的（例えば、速度の向上、目的地への移動時間・輸送時間の短縮、加減速の削減等）を満たすような交通分散制御が実現される。

　なお、本実施の形態では、状態として速度や位置を使用しているが、これは一例である。状態として速度や位置以外の何等かの状態、例えば、ルート、車線、ステアリング方向等を含めることも可能である。また、状態として１つの情報のみ（例えば、速度のみ、位置のみ）を用いてもよいし、複数の情報（例えば、速度と位置の両方）を用いてもよい。

　ここで、デジタルツイン上の各車両の状態予測は、状態更新ダイナミクスを表現した常微分方程式（ＯＤＥ：ordinary differential equation）により実現される。この常微分方程式は、例えば、以下の式（１）のように表すことができる。

　ｄｈ／ｄｔ＝Ｍ（ｈ，ｘ，ｔ，θ，Ｇ）
　　　　　　＝Ｍ_１（ｈ，ｘ，ｔ，θ，Ｇ）＋Ｍ_２（ｈ，ｘ，Ａ，ｂ，Ｇ）　　　（１）
　ただし、上記の式（１）は、車両間が一定以上の距離を保つことを表す制約条件を持つ。

　ここで、各記号の意味は以下の通りである。

　Ｍ：ダイナミクス
　Ｍ_１：各車両の状態を更新する（サブ）ダイナミクス
　Ｍ_２：車両間の関係（制約関係）を表す（サブ）ダイナミクス
　ｔ：時刻（離散時刻）
　ｈ＝ｈ（ｔ）：状態
　ｘ＝ｘ（ｔ）：外部制御入力
　θ：学習対象パラメータ
　Ｇ＝Ｇ（ｔ）：グラフ
　Ａ，ｂ：制約パラメータ
　外部制御入力ｘとは、他の車両との衝突を抑止するために近隣の車両との無線通信により交換される情報のことであり、例えば、車両の走行位置、目的方向等を表す情報のことである。外部制御入力の具体例としては、例えば、車両に搭載される車載カメラの映像、ＧＰＳ（Global Positioning System）受信機で測位した位置情報、その他の各種センサで計測されたセンサ情報等が挙げられる。例えば、車両数がＮ、車両に搭載された外部入力装置（例えば、車載カメラ、ＧＰＳ受信機、各種センサ等）の台数がＬである場合、外部制御入力ｘはＮ×Ｌの行列で表され、（ｉ，ｊ）要素がｉ番目の車両に搭載されているｊ番目の外部入力装置の情報を表している。

　時刻ｔは離散時刻を表しており、以下では、時刻ｔのインデックスをｋで表し、離散時刻をｔ_ｋ（ｋ＝０，・・・，Ｋ）で表すものとする。つまり、上記の式（１）に示す常微分方程式は、離散化された常微分方程式である。なお、予め設定された或る時間幅をΔｔとすれば、各ｋ＝１，・・・，Ｋに対して、ｔ_ｋ－ｔ_ｋ－１＝Δｔである。Δｔとしては、例えば、１ミリ秒～１秒程度とすることが考えられる。

　グラフＧは、車両をノード、近隣の車両間で無線通信を行うための接続をエッジとするグラフ情報である。車両の移動により近隣の車両との接続関係は時々刻々と変化し得るため、Ｇ＝Ｇ（ｔ）と表される。

　状態ｈは、上述したように、例えば、速度や位置等である。各車両の状態は時々刻々と変化し得るため、ｈ＝ｈ（ｔ）と表される。例えば、車両数がＮである場合は、状態ｈはＮ次元のベクトルで表され、ｉ番目の要素がｉ番目の車両の状態を表している。

　制約パラメータＡ，ｂは、車両間が一定以上の距離を保つことを表す制約条件を表すためのパラメータである。制約条件としては、例えば、Ａｈ＋ｂ≦０等の不等式制約条件、Ａｈ＋ｂ＝０等の等式制約条件、又は不等式制約条件と等式制約条件の両方が含まれる条件、等が挙げられる。なお、Ａｈ＋ｂ≦０等の不等式制約条件は車両間の距離を一定の距離以上とするための斥力又は車両間の距離を一定の距離以内とするための引力を表現したものであり、Ａｈ＋ｂ＝０等の等式制約条件は車両間の距離を一定の距離に保つ合意形成力を表現したものである。これらの斥力や合意形成力により車両同士の衝突が防止される。

　学習対象パラメータθは、交通制御モデルを表すパラメータである。このθが適切に学習されることにより、上記の式（１）によって最適な状態ｈが得られ、その結果、各車両が他の車両と衝突することなく、所定の目的（速度の向上、目的地への移動時間・輸送時間の短縮、加減速の削減等）を達成するような交通制御が実現される。この学習対象パラメータθは、ニューラルネットワーク等の機械学習モデルを想定し、誤差逆伝播法（ＢＰ：Backpropagation）等の一般的に用いられている手法により更新・学習される。以下、一例として、機械学習モデルはニューラルネットワークであるものとして説明するが、本実施形態で利用可能な機械学習モデルはニューラルネットワークに限られるものではない。

　（推論の概要）
　図３に、推論時（つまり、各車両の最適な状態をリアルタイムで予測する時）の概要を示す。図３に示すように、各時刻ｔ_ｋ（ｔ＝１，・・・，Ｋ）において、実世界の車両の状態が収集され、これらの状態がデジタルツイン内に蓄積されると共に、１つ前の時刻ｔ_ｋ－１で予測された最適状態ｈ＝ｈ（ｔ_ｋ）が実世界の車両にフィードバックされる。また、デジタルツイン上では各車両間で無線通信が行われた後、蓄積されている状態と無線通信で交換された情報とを用いて上記の式（１）により次の最適状態ｈ＝ｈ（ｔ_ｋ＋１）が予測される。一方で、実世界では、デジタルツインからフィードバックされた最適状態ｈ＝ｈ（ｔ_ｋ）に近付くように各車両が制御される。このように、デジタルツイン上で最適状態の予測を行って、それを実世界の車両にフィードバックすること各時刻ｔ_ｋ（ｔ＝１，・・・，Ｋ）で繰り返す（つまり、フィードバックループする。）。これにより、デジタルツインを介した各車両の状態の最適な交通分散制御が実現される。

　（学習の概要）
　図４に、学習時（つまり、学習対象パラメータθを学習する時）の概要を示す。図４に示すように、実世界の車両から収集された状態を用いて、予め設計された評価関数を最適化することで、パラメータθを学習する。より具体的には、式（１）を解くためのソルバ（ＯＤＥソルバ）としてグラフ構造の再帰型ニューラルネットワークを利用して学習対象パラメータθを学習する。例えば、グラフ構造の再帰型ニューラルネットワークをｆとして、ｈ（ｔ_ｋ＋１）＝ｆ（ｈ（ｔ_ｋ），ｘ（ｔ_ｋ），Ｇ（ｔ_ｋ），Ａ，ｂ；θ）と表現できるものとする。このとき、例えば、グラフ構造の再帰型ニューラルネットワークｆに対して誤差逆伝播法等を利用して学習対象パラメータθを更新・学習すればよい。また、評価関数としては、例えば、状態ｈが速度である場合、速度の平均値の逆数を返す関数をＪ（・）、観測モデルを表す関数をＨとしたときＪ（Ｈ（ｈ））とすればよい。この場合、評価関数Ｊ（Ｈ（ｈ））を最小化するように学習対象パラメータθが更新される。なお、観測モデルとは、或る状態に近付くように実際の車両を制御したときに、実際に観測される状態を返すシステムのことである。

　（システム構成例）
　図５に、本実施の形態における交通分散制御システムの構成例を示す。図５に示すように、本実施の形態における交通分散制御システムには、デジタルツインシステム１０と、複数の車両２０とが含まれる。また、デジタルツインシステム１０と各車両２０は、インターネット等を含む通信ネットワーク３０を介して通信可能に接続される。

　デジタルツインシステム１０は、仮想空間内に実世界を模擬したデジタルツインを構成し、このデジタルツイン上で上記の推論と学習を実行するコンピュータ又はコンピュータシステムである。ここで、デジタルツインシステム１０は、上記の推論（つまり、デジタルツイン上で各車両２０の最適状態の予測）を行う推論部１１０と、学習対象パラメータθの学習を行う学習部１２０とを有している。なお、推論部１１０及び学習部１２０は、例えば、デジタルツインシステム１０が有する１以上のプログラムが、ＣＰＵ（Central Processing Unit）等のプロセッサに実行させる処理により実現される。

　車両２０は、実世界の移動する移動体である。各車両２０には、車載器等のコンピュータ又はコンピュータシステムが搭載されている。ここで、各車両２０は、デジタルツインシステム１０からフィードバックされた最適状態に近付くように当該車両２０の状態を制御（例えば、エンジンやブレーキ等の制御によって状態を制御）する制御部２００を有している。なお、制御部２００は、例えば、車両２０の車載器等が有する１以上のプログラムが、ＣＰＵ等のプロセッサに実行させる処理により実現される。制御部２００を実現する１以上のプログラムを有する車載器等は、例えば、制御装置等を称されてもよい。

　以下、車両の台数はＮであるものとして、各車両２０の各々を区別するときは「車両２０_１」、「車両２０_２」、・・・、「車両２０_Ｎ」等と表記する。また、車両２０_ｉ（ｉ＝１，・・・，Ｎ）の制御部２００を「制御部２００_ｉ」と表記する。

　（処理フロー）
　本実施の形態における交通分散制御システムの処理フロー例について、図６を参照しながら説明する。ここで、図６のＳ１０１～Ｓ１０６は、予め設定された所定の終了条件を満たすまで繰り返し実行される。このような終了条件としては、例えば、交通分散制御を終了する指示が与えられた場合等が挙げられる。

　まず、時刻ｔ＝ｔ_０，・・・，ｔ_Ｋに対して、Ｓ１０１～Ｓ１０５が繰り返し実行される。以下、或る時刻ｔ＝ｔ_ｋに関するＳ１０１～Ｓ１０５について説明する。

　デジタルツインシステム１０の推論部１１０は、各車両２０_ｉ（ｉ＝１，・・・，Ｎ）から時刻ｔ_ｋの状態ｈ（ｔ_ｋ）＝（ｈ_１（ｔ_ｋ），・・・，ｈ_Ｎ（ｔ_ｋ））を収集する（Ｓ１０１）。以下、時刻ｔ_ｋにおける各車両２０の状態（つまり、実世界の各車両２０の状態）ｈ（ｔ_ｋ）をｈ'＝ｈ'（ｔ_ｋ）＝（ｈ_１'（ｔ_ｋ），・・・，ｈ_Ｎ'（ｔ_ｋ））と表すことにする。なお、ｈ_ｉ'（ｔ_ｋ）は時刻ｔ_ｋにおける車両２０_ｉの状態を表す。これらの状態ｈ'＝ｈ'（ｔ_ｋ）は、例えば、デジタルツインシステム１０が備える記憶装置の記憶領域に格納される。

　次に、デジタルツインシステム１０の推論部１１０は、１つ前の時刻ｔ_ｋ－１で予測された時刻ｔ_ｋの最適状態＾ｈ＝＾ｈ（ｔ_ｋ）＝（＾ｈ_１（ｔ_ｋ），・・・，＾ｈ_Ｎ（ｔ_ｋ））を各車両２０_ｉ（ｉ＝１，・・・，Ｎ）に送信する（Ｓ１０２）。ここで、＾ｈ_ｉ（ｔ_ｋ）は時刻ｔ_ｋにおける車両２０_ｉの最適状態を表す。なお、推論部１１０は、例えば、＾ｈ_ｉ（ｔ_ｋ）のみを車両２０_ｉに送信してもよい。

　各車両２０の制御部２００は、時刻ｔ_ｋの最適状態に近付くように当該車両２０を制御する（Ｓ１０３）。すなわち、車両２０_ｉの制御部２００_ｉは、最適状態＾ｈ_ｉ（ｔ_ｋ）に近付くように当該車両２０_ｉの状態を制御する。

　ただし、ｔ＝ｔ_０のときは、上記のＳ１０２～Ｓ１０３は実行されなくてもよい。１つ前の時刻で予測されたｔ_０の最適状態が存在しないためである。

　デジタルツインシステム１０の推論部１１０は、デジタルツイン上で各車両が近隣の車両と無線通信を行う（Ｓ１０４）。これにより、時刻ｔ_ｋにおける外部制御入力ｘ＝ｘ（ｔ_ｋ）が得られる。なお、これらの外部制御入力ｘ＝ｘ（ｔ_ｋ）は、例えば、デジタルツインシステム１０が備える記憶装置の記憶領域に格納される。

　そして、デジタルツインシステム１０の推論部１１０は、実世界の車両２０_ｉ（ｉ＝１，・・・，Ｎ）の状態ｈ'と外部制御入力ｘとを用いて、上記の式（１）により次の時刻ｔ_ｋ＋１の最適状態ｈ＝ｈ（ｔ_ｋ＋１）＝（ｈ_１（ｔ_ｋ＋１），・・・，ｈ_Ｎ（ｔ_ｋ＋１））を予測する（Ｓ１０５）。本ステップで予測された最適状態ｈ＝ｈ（ｔ_ｋ＋１）を＾ｈ＝＾ｈ（ｔ_ｋ＋１）＝（＾ｈ_１（ｔ_ｋ＋１），・・・，＾ｈ_Ｎ（ｔ_ｋ＋１））と表す。

　時刻ｔ＝ｔ_０，・・・，ｔ_Ｋに関してＳ１０１～Ｓ１０５が繰り返し実行された後、学習対象パラメータθを学習する場合、デジタルツインシステム１０の学習部１２０は、当該学習パラメータθを学習する（Ｓ１０６）。すなわち、学習部１２０は、例えば、グラフ構造の再帰型ニューラルネットワークｆに対して誤差逆伝播法等を利用し、評価関数Ｊ（Ｈ（ｈ））を最小化するように学習対象パラメータθを更新・学習する。

　なお、学習対象パラメータθを更新する場合としては、例えば、予め設定された期間（例えば、１日、１週間等）が経過した場合等が挙げられる。ただし、これ以外にも、例えば、予め設定された何等かの条件を満たした場合に、学習対象パラメータθを更新してもよい。

　（変形例）
　以下、本実施の形態における交通分散制御システムの変形例について説明する。

　・変形例１
　本実施の形態では、デジタルツインシステム１０が推論部１１０及び学習部１２０を有しているものとしたが、例えば、図７に示すように、推論部１１０は各車両２０が有しており、学習部１２０を有する学習装置４０が存在してもよい。この場合、車両２０_ｉの推論部１１０_ｉは、自身の状態ｈ_ｉ'と他の車両２０_ｊ（ｊ≠ｉ，ｊ∈｛１，・・・，Ｎ｝）から収集した状態ｈ_ｊ'とを用いて、デジタルツイン上で次の時刻の最適状態ｈ（又は、最適状態ｈ_ｉ）を推論する。一方で、学習装置４０の学習部１２０は、上記のＳ１０６と同様に学習対象パラメータθを学習する。ただし、学習に必要な情報は、各時刻において、各車両２０_ｉから学習装置４０に送信される。

　なお、各車両２０_ｉが他の車両２０_ｊ（ｊ≠ｉ，ｊ∈｛１，・・・，Ｎ｝）から状態ｈ_ｊ'を収集する際は、車両２０間で直接無線通信してもよいし、何等かの中継機器を介して無線通信してもよい。

　・変形例２
　本実施の形態では、デジタルツインシステム１０が推論部１１０及び学習部１２０を有しているものとしたが、例えば、図８に示すように、推論部１１０及び学習部１２０を各車両２０が有していており、デジタルツインシステム１０はなくてもよい。この場合、変形例１と同様に、車両２０_ｉの推論部１１０_ｉは、自身の状態ｈ_ｉ'と他の車両２０_ｊ（ｊ≠ｉ，ｊ∈｛１，・・・，Ｎ｝）から収集した状態ｈ_ｊ'とを用いて、デジタルツイン上で次の時刻の最適状態ｈ（又は、最適状態ｈ_ｉ）を推論する。一方で、車両２０_ｉの学習部１２０_ｉは、上記のＳ１０６と同様に学習対象パラメータθを学習する。

　（ハードウェア構成例）
　図９に、上記のデジタルツインシステム１０、車両２０に搭載されている車載器、学習装置４０を実現可能なコンピュータ５００のハードウェア構成例を示す。図９に示すように、コンピュータ５００は、入力装置５０１と、表示装置５０２と、外部Ｉ／Ｆ５０３と、通信Ｉ／Ｆ５０４と、ＲＡＭ（Random Access Memory）５０５と、ＲＯＭ（Read Only Memory）５０６と、補助記憶装置５０７と、プロセッサ５０８とを有する。これらの各ハードウェアは、それぞれがバス５０９を介して通信可能に接続されている。

　入力装置５０１は、例えば、キーボード、マウス、タッチパネル、物理ボタン等である。表示装置５０２は、例えば、ディスプレイ、表示パネル等である。なお、コンピュータ５００は、例えば、入力装置５０１及び表示装置５０２のうちの少なくとも一方を有していなくてもよい。

　外部Ｉ／Ｆ５０３は、記録媒体５０３ａ等の外部装置とのインタフェースである。コンピュータ５００は、外部Ｉ／Ｆ５０３を介して、記録媒体５０３ａの読み取りや書き込み等を行うことができる。なお、記録媒体５０３ａとしては、例えば、フレキシブルディスク、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disk）、ＳＤメモリカード（Secure Digital memory card）、ＵＳＢ（Universal Serial Bus）メモリカード等が挙げられる。

　通信Ｉ／Ｆ５０４は、コンピュータ５００が他の機器や装置等と通信するためのインタフェースである。ＲＡＭ５０５は、プログラムやデータを一時保持する揮発性の半導体メモリ（記憶装置）である。ＲＯＭ５０６は、電源を切ってもプログラムやデータを保持することができる不揮発性の半導体メモリ（記憶装置）である。補助記憶装置５０７は、例えば、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、フラッシュメモリ等のストレージ装置（記憶装置）である。プロセッサ５０８は、例えば、ＣＰＵやＧＰＵ（Graphics Processing Unit）等の演算装置である。

　なお、図９に示すコンピュータ５００のハードウェア構成は一例であって、これに限られるものではない。例えば、コンピュータ５００は、複数の補助記憶装置５０７や複数のプロセッサ５０８を有していてもよいし、図示したハードウェアの一部を有していなくてもよいし、図示したハードウェア以外の様々なハードウェアを有していてもよい。

　（まとめ）
　以上のように、本実施の形態における交通分散制御システムは、各時刻において、実世界の各移動体の状態を収集すると共に、それらの状態を用いてデジタルツイン上で次の時刻における各移動体の最適な状態を予測して実世界の各移動体にフィードバックする。これにより、移動体の最適な交通分散制御（シグナルフリー交通制御）が行われ、その結果、各移動体が互いに衝突せずに、速度向上や移動時間・輸送時間の短縮等といった所定の目的を達成するような自律的な交通制御を実現することができる。

　本発明は、具体的に開示された上記の実施形態に限定されるものではなく、請求の範囲の記載から逸脱することなく、種々の変形や変更、既知の技術との組み合わせ等が可能である。

　１０　　　　デジタルツインシステム
　２０　　　　車両
　３０　　　　通信ネットワーク
　４０　　　　学習装置
　１１０　　　推論部
　１２０　　　学習部
　２００　　　制御部

Claims

　複数の移動体が含まれる交通分散制御システムであって、
　前記複数の移動体の時刻ｔ_ｋおける状態ｈ'（ｔ_ｋ）を用いて、仮想空間上に前記複数の移動体の状態模擬として表現された前記複数の移動体の次の時刻ｔ_ｋ＋１における最適状態ｈ（ｔ_ｋ＋１）を予測するように構成されている状態予測部と、
　前記複数の移動体の時刻ｔ_ｋ＋１における状態ｈ'（ｔ_ｋ＋１）が、前記最適状態ｈ（ｔ_ｋ＋１）に近付くように前記複数の移動体を制御するように構成されている制御部と、
　を有する交通分散制御システム。
　前記状態予測部は、
　前記複数の移動体の状態模擬として表現された前記複数の移動体のうち、時刻ｔ_ｋで互いに近隣にある移動体間で送受信された情報も用いて、前記最適状態ｈ（ｔ_ｋ＋１）を予測するように構成されている、請求項１に記載の交通分散制御システム。
　前記互いに近隣にある移動体間で送受信された情報は、前記互いに近隣にある移動体の衝突を防止するための情報であり、カメラ映像、位置情報、センサ情報の少なくとも１つが含まれる、請求項２に記載の交通分散制御システム。
　前記状態予測部は、
　所定の目的を達成するための交通制御モデルのパラメータも用いて、前記最適状態ｈ（ｔ_ｋ＋１）を予測するように構成されており、
　前記交通分散制御システムは、
　前記目的に応じた評価関数により前記パラメータを学習するように構成されている学習部、を更に有する、請求項１乃至３の何れか一項に記載の交通分散制御システム。
　前記学習部は、
　状態ｈ（ｔ_ｋ）を少なくとも入力として次の時刻の状態ｈ（ｔ_ｋ＋１）を出力し、かつ、前記パラメータθを持つニューラルネットワークに対する誤差逆伝播に基づいて、前記評価関数を最適化する前記パラメータを学習するように構成されている、請求項４に記載の交通分散制御システム。
　複数の移動体が含まれる交通分散制御システムが、
　前記複数の移動体の時刻ｔ_ｋおける状態ｈ'（ｔ_ｋ）を用いて、仮想空間上に前記複数の移動体の状態模擬として表現された前記複数の移動体の次の時刻ｔ_ｋ＋１における最適状態ｈ（ｔ_ｋ＋１）を予測する状態予測手順と、
　前記複数の移動体の時刻ｔ_ｋ＋１における状態ｈ'（ｔ_ｋ＋１）が、前記最適状態ｈ（ｔ_ｋ＋１）に近付くように前記複数の移動体を制御する制御手順と、
　を実行する方法。
　複数の移動体が含まれる交通分散制御システムに、
　前記複数の移動体の時刻ｔ_ｋおける状態ｈ'（ｔ_ｋ）を用いて、仮想空間上に前記複数の移動体の状態模擬として表現された前記複数の移動体の次の時刻ｔ_ｋ＋１における最適状態ｈ（ｔ_ｋ＋１）を予測する状態予測手順と、
　前記複数の移動体の時刻ｔ_ｋ＋１における状態ｈ'（ｔ_ｋ＋１）が、前記最適状態ｈ（ｔ_ｋ＋１）に近付くように前記複数の移動体を制御する制御手順と、
　を実行させるプログラム。