WO2024042586A1 - 交通分散制御システム、方法、及びプログラム - Google Patents

交通分散制御システム、方法、及びプログラム Download PDF

Info

Publication number
WO2024042586A1
WO2024042586A1 PCT/JP2022/031586 JP2022031586W WO2024042586A1 WO 2024042586 A1 WO2024042586 A1 WO 2024042586A1 JP 2022031586 W JP2022031586 W JP 2022031586W WO 2024042586 A1 WO2024042586 A1 WO 2024042586A1
Authority
WO
WIPO (PCT)
Prior art keywords
state
control system
moving bodies
time
vehicle
Prior art date
Application number
PCT/JP2022/031586
Other languages
English (en)
French (fr)
Inventor
健太 丹羽
宏 澤田
昭典 藤野
修功 上田
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2022/031586 priority Critical patent/WO2024042586A1/ja
Publication of WO2024042586A1 publication Critical patent/WO2024042586A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/09Arrangements for giving variable traffic instructions
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16YINFORMATION AND COMMUNICATION TECHNOLOGY SPECIALLY ADAPTED FOR THE INTERNET OF THINGS [IoT]
    • G16Y10/00Economic sectors
    • G16Y10/40Transportation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16YINFORMATION AND COMMUNICATION TECHNOLOGY SPECIALLY ADAPTED FOR THE INTERNET OF THINGS [IoT]
    • G16Y20/00Information sensed or collected by the things
    • G16Y20/20Information sensed or collected by the things relating to the thing itself
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16YINFORMATION AND COMMUNICATION TECHNOLOGY SPECIALLY ADAPTED FOR THE INTERNET OF THINGS [IoT]
    • G16Y40/00IoT characterised by the purpose of the information processing
    • G16Y40/60Positioning; Navigation

Definitions

  • the present invention relates to technology for autonomously controlling traffic by multiple vehicles.
  • traffic controls also referred to as traffic rectification
  • traffic lights installed at each intersection on a road so that vehicles can travel safely without colliding.
  • this type of traffic control has the problem of chronic traffic jams, especially in urban areas, due to frequent stops due to waiting at traffic lights, temporary stops associated with merging, left/right turns, etc.
  • consideration has been given to feeding back traffic control optimized in virtual space to real-world objects via digital twins that simulate real-world objects in virtual space ( For example, see Non-Patent Document 1).
  • the present disclosure has been made in view of the above points, and aims to provide a technology for realizing traffic distributed control without using traffic lights via a digital twin.
  • a traffic distribution control system is a traffic distribution control system that includes a plurality of moving bodies, and uses states h'(t k ) of the plurality of moving bodies at time t k to create a virtual space.
  • a state prediction unit configured to predict an optimal state h(t k+1 ) of the plurality of moving bodies at the next time t k+1 expressed as a state simulation of the plurality of moving bodies; and a control unit configured to control the plurality of moving bodies so that a state h'(t k+1 ) of the moving bodies at time t k+1 approaches the optimum state h(t k+1 ).
  • a traffic distributed control system via a digital twin provides a technology for realizing traffic distributed control without using traffic lights.
  • FIG. 3 is a diagram showing a graph structure.
  • FIG. 2 is a diagram for explaining an overview of an embodiment.
  • FIG. 2 is a diagram for explaining an overview of inference.
  • FIG. 2 is a diagram for explaining an overview of learning.
  • FIG. 1 is a diagram showing an example of a system configuration.
  • FIG. 3 is a diagram illustrating an example of a processing flow. It is a figure which shows the modification 1 of a system configuration. It is a figure which shows the modification 2 of a system configuration. 1 is a diagram showing an example of a hardware configuration of a computer.
  • FIG. 1 shows an example of the graph structure of each vehicle included in the traffic distribution control system in this embodiment.
  • each vehicle included in this traffic distributed control system is represented by a graph structure in which the vehicle is a node and the connection for wireless communication between neighboring vehicles is an edge.
  • vehicles can move without colliding with each other.
  • the node is a vehicle, but the node is not limited to a specific object.
  • the node may be a mobile object other than a vehicle, such as an aircraft, a ship, a robot, a drone, or the like. In the following description, the node is assumed to be a "vehicle.”
  • a digital twin of the real world such as a vehicle or a road
  • traffic is controlled by a feedback loop between the digital twin and the vehicle in the real world.
  • actual vehicle states e.g. vehicle speed, position, etc.
  • the current state i.e., optimal speed, position, etc.
  • optimal traffic distribution control for vehicles in the real world is achieved.
  • FIG. 2 shows an image of the above feedback loop.
  • the state of the vehicle in the real world speed, position, etc.
  • these states and wireless communication to prevent collisions with neighboring vehicles are taken into account.
  • the state of each vehicle is predicted (this may also be called state updating) to determine the optimal state at the next time.
  • This optimal state is fed back to the vehicles in the real world, and each vehicle in the real world executes control (autonomous control) to approach the optimal state.
  • control autonomous control
  • traffic distribution control that satisfies (reduction of traffic, etc.) is realized.
  • speed and position are used as the state, but this is just an example. It is also possible to include some other states other than speed and position, such as route, lane, steering direction, etc., as the state. Further, only one piece of information (for example, only speed, only position) may be used as the state, or a plurality of pieces of information (for example, both speed and position) may be used.
  • the above equation (1) has a constraint condition that indicates that the distance between vehicles is maintained at a certain distance or more.
  • External control input x means collision with another vehicle This refers to information exchanged by wireless communication with nearby vehicles in order to prevent accidents, such as information indicating the vehicle's driving position, destination direction, etc.
  • Specific examples of external control input include, for example, images from an on-vehicle camera mounted on a vehicle, position information measured by a GPS (Global Positioning System) receiver, sensor information measured by various other sensors, and the like.
  • the external control input x is represented by an N x L matrix.
  • (i, j) represents information on the j-th external input device mounted on the i-th vehicle.
  • Time t represents a discrete time
  • the index of time t will be represented by k
  • the constraint parameters A and b are parameters representing a constraint condition that indicates that the distance between vehicles is maintained at a certain distance or more.
  • Equality constraints such as the following express the ability to form a consensus that maintains the distance between vehicles at a constant distance. These repulsive forces and consensus-building forces prevent collisions between vehicles.
  • the learning target parameter ⁇ is a parameter representing a traffic control model.
  • the optimum state h can be obtained according to the above equation (1), and as a result, each vehicle can achieve the predetermined purpose (improvement of speed, purpose) without colliding with other vehicles. Traffic control that achieves shortening of travel time to the ground, reduction of transportation time, reduction of acceleration and deceleration, etc.) will be realized.
  • This learning target parameter ⁇ is updated and learned by a commonly used method such as error backpropagation (BP), assuming a machine learning model such as a neural network.
  • BP error backpropagation
  • the machine learning model will be described as a neural network, but the machine learning model that can be used in this embodiment is not limited to the neural network.
  • FIG. 3 shows an overview of inference (that is, when predicting the optimal state of each vehicle in real time).
  • the states of the vehicle in the real world are collected, these states are accumulated in the digital twin, and the state of the vehicle from the previous one is collected.
  • This enables optimal traffic distribution control of the status of each vehicle via the digital twin.
  • FIG. 4 shows an overview of learning (that is, learning the learning target parameter ⁇ ).
  • the parameter ⁇ is learned by optimizing a pre-designed evaluation function using conditions collected from vehicles in the real world. More specifically, the learning target parameter ⁇ is learned using a graph-structured recurrent neural network as a solver (ODE solver) for solving equation (1).
  • ODE solver a solver for solving equation (1).
  • the learning target parameter ⁇ may be updated and learned using an error backpropagation method or the like for the graph-structured recurrent neural network f.
  • an evaluation function for example, when state h is velocity, J( ⁇ ) is a function that returns the reciprocal of the average value of velocity, and J(H(h)) is a function representing the observation model. do it.
  • the learning target parameter ⁇ is updated so as to minimize the evaluation function J(H(h)).
  • the observation model is a system that returns the actually observed state when the actual vehicle is controlled so as to approach a certain state.
  • FIG. 5 shows a configuration example of the traffic distribution control system in this embodiment.
  • the traffic distribution control system in this embodiment includes a digital twin system 10 and a plurality of vehicles 20. Further, the digital twin system 10 and each vehicle 20 are communicably connected via a communication network 30 including the Internet.
  • the digital twin system 10 is a computer or computer system that configures a digital twin that simulates the real world in a virtual space and executes the above inference and learning on this digital twin.
  • the digital twin system 10 includes an inference unit 110 that performs the above inference (that is, predicting the optimal state of each vehicle 20 on the digital twin), and a learning unit 120 that performs learning of the learning target parameter ⁇ . ing.
  • the inference unit 110 and the learning unit 120 are realized, for example, by a process in which one or more programs included in the digital twin system 10 are caused to be executed by a processor such as a CPU (Central Processing Unit).
  • a processor such as a CPU (Central Processing Unit).
  • the vehicle 20 is a moving object that moves in the real world.
  • Each vehicle 20 is equipped with a computer or computer system such as an onboard device.
  • each vehicle 20 includes a control unit 200 that controls the state of the vehicle 20 (for example, controls the state by controlling the engine, brakes, etc.) so as to approach the optimal state fed back from the digital twin system 10. ing.
  • the control unit 200 is realized, for example, by a process in which one or more programs included in an on-vehicle device of the vehicle 20 are executed by a processor such as a CPU.
  • An on-vehicle device or the like having one or more programs that implements the control unit 200 may be referred to as a control device or the like, for example.
  • each vehicle 20 will be expressed as “vehicle 20 1 ", “vehicle 20 2 " , .
  • S101 to S106 in FIG. 6 are repeatedly executed until a predetermined end condition set in advance is met.
  • termination conditions include, for example, a case where an instruction to terminate traffic distribution control is given.
  • the state of each vehicle 20 at time t k that is, the state of each vehicle 20 in the real world
  • h i '(t k ) represents the state of the vehicle 20 i at time t k .
  • ⁇ h i (t k ) represents the optimal state of the vehicle 20 i at time t k .
  • the inference unit 110 may, for example, transmit only ⁇ h i (t k ) to the vehicle 20 i .
  • the control unit 200 of each vehicle 20 controls the vehicle 20 so as to approach the optimal state at time tk (S103). That is, the control unit 200 i of the vehicle 20 i controls the state of the vehicle 20 i so as to approach the optimal state ⁇ h i (t k ).
  • the learning unit 120 of the digital twin system 10 learns the learning parameter ⁇ ( S106). That is, the learning unit 120 updates the learning target parameter ⁇ so as to minimize the evaluation function J(H(h)) by using, for example, an error backpropagation method for the graph-structured recurrent neural network f. ⁇ learn.
  • the learning target parameter ⁇ may be updated, for example, when a preset period (for example, one day, one week, etc.) has elapsed. However, in addition to this, the learning target parameter ⁇ may be updated, for example, when some preset condition is satisfied.
  • a preset period for example, one day, one week, etc.
  • the digital twin system 10 has the inference section 110 and the learning section 120, but for example, as shown in FIG. 7, the inference section 110 is included in each vehicle 20, A learning device 40 having a learning section 120 may be present.
  • the inference unit 110 i of the vehicle 20 i uses its own state h i ′ and the state h j ′ collected from the other vehicles 20 j (j ⁇ i, j ⁇ 1,...,N ⁇ ). is used to infer the optimal state h (or optimal state h i ) at the next time on the digital twin.
  • the learning unit 120 of the learning device 40 learns the learning target parameter ⁇ similarly to S106 above. However, information necessary for learning is transmitted from each vehicle 20i to the learning device 40 at each time.
  • each vehicle 20 i collects the state h j ' from another vehicle 20 j (j ⁇ i, j ⁇ 1,...,N ⁇ ), direct wireless communication between the vehicles 20 is not possible. Alternatively, wireless communication may be performed via some relay device.
  • the digital twin system 10 has the inference section 110 and the learning section 120, but for example, as shown in FIG. 8, each vehicle 20 has the inference section 110 and the learning section 120.
  • the digital twin system 10 is not necessary.
  • the inference unit 110 i of the vehicle 20 i calculates the result from its own state h i ′ and the other vehicles 20 j (j ⁇ i, j ⁇ 1,...,N ⁇ ). Using the collected state h j ', the optimal state h (or optimal state h i ) at the next time is inferred on the digital twin.
  • the learning unit 120 i of the vehicle 20 i learns the learning target parameter ⁇ similarly to S106 above.
  • each vehicle 20 i collects the state h j ' from another vehicle 20 j (j ⁇ i, j ⁇ 1,...,N ⁇ ), direct wireless communication between the vehicles 20 is not possible. Alternatively, wireless communication may be performed via some relay device.
  • FIG. 9 shows an example of the hardware configuration of a computer 500 that can realize the digital twin system 10, the on-vehicle device installed in the vehicle 20, and the learning device 40.
  • the computer 500 includes an input device 501, a display device 502, an external I/F 503, a communication I/F 504, a RAM (Random Access Memory) 505, and a ROM (Read Only Memory) 506. , an auxiliary storage device 507, and a processor 508.
  • Each of these pieces of hardware is communicably connected via a bus 509.
  • the input device 501 is, for example, a keyboard, mouse, touch panel, physical button, or the like.
  • the display device 502 is, for example, a display, a display panel, or the like. Note that the computer 500 may not include at least one of the input device 501 and the display device 502, for example.
  • the external I/F 503 is an interface with an external device such as a recording medium 503a.
  • the computer 500 can read from and write to the recording medium 503a via the external I/F 503.
  • the recording medium 503a include a flexible disk, a CD (Compact Disc), a DVD (Digital Versatile Disk), an SD memory card (Secure Digital memory card), a USB (Universal Serial Bus) memory card, and the like.
  • the communication I/F 504 is an interface for the computer 500 to communicate with other devices, devices, etc.
  • the RAM 505 is a volatile semiconductor memory (storage device) that temporarily holds programs and data.
  • the ROM 506 is a nonvolatile semiconductor memory (storage device) that can retain programs and data even when the power is turned off.
  • the auxiliary storage device 507 is, for example, a storage device such as an HDD (Hard Disk Drive), an SSD (Solid State Drive), or a flash memory.
  • the processor 508 is, for example, an arithmetic device such as a CPU or a GPU (Graphics Processing Unit).
  • the hardware configuration of the computer 500 shown in FIG. 9 is an example, and is not limited to this.
  • the computer 500 may include multiple auxiliary storage devices 507 and multiple processors 508, may not include some of the illustrated hardware, or may include various hardware other than the illustrated hardware. It may also have additional hardware.
  • the traffic distributed control system in this embodiment collects the status of each moving body in the real world at each time, and uses those statuses to display each mobile body at the next time on the digital twin. predicts the optimal state of the vehicle and feeds it back to each moving object in the real world.
  • optimal traffic distribution control signal-free traffic control
  • each moving body can achieve the specified objectives such as increasing speed and shortening travel time and transportation time without colliding with each other. autonomous traffic control can be realized.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Business, Economics & Management (AREA)
  • Operations Research (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Traffic Control Systems (AREA)

Abstract

本開示の一態様による交通分散制御システムは、複数の移動体が含まれる交通分散制御システムであって、前記複数の移動体の時刻tおける状態h'(t)を用いて、仮想空間上に前記複数の移動体の状態模擬として表現された前記複数の移動体の次の時刻tk+1における最適状態h(tk+1)を予測するように構成されている状態予測部と、前記複数の移動体の時刻tk+1における状態h'(tk+1)が、前記最適状態h(tk+1)に近付くように前記複数の移動体を制御するように構成されている制御部と、を有する。

Description

交通分散制御システム、方法、及びプログラム
 本発明は、複数の車両により自律的に交通制御を行う技術に関連するものである。
 従来、道路の各交差点等に設置された信号機により、車両が衝突することなく安全に走行するための交通制御(交通整流と称されてもよい。)が行われている。一方で、このような交通制御は、信号待ちによる頻繁な停止、合流や右左折に伴う一時停止等によって、特に都市部では慢性的な渋滞が発生してしまう、という課題がある。これに対して、近年では、実世界の対象を仮想空間上に模擬したデジタルツインを介して、仮想空間上で最適化された交通制御を実世界の対象にフィードバックすることが検討されている(例えば、非特許文献1参照)。
Digital twin computing white paper (ver. 2.0.0), 2019, インターネット<URL:https://www.rd.ntt/dtc/DTC_Whitepaper_jp_2_0_0.pdf>
 今後、自律走行車両の普及に伴って、従来の信号機を用いた集中制御システムから信号機を使わない交通分散制御システム(シグナルフリー交通制御)への置き換えが行われると考えられる。このため、デジタルツインを介した交通分散制御システムにより、上記の課題を解決していくことが想定される。
 本開示は、上記の点に鑑みてなされたもので、デジタルツインを介して、信号機を使用しない交通分散制御を実現するための技術を提供することを目的とする。
 本開示の一態様による交通分散制御システムは、複数の移動体が含まれる交通分散制御システムであって、前記複数の移動体の時刻tおける状態h'(t)を用いて、仮想空間上に前記複数の移動体の状態模擬として表現された前記複数の移動体の次の時刻tk+1における最適状態h(tk+1)を予測するように構成されている状態予測部と、前記複数の移動体の時刻tk+1における状態h'(tk+1)が、前記最適状態h(tk+1)に近付くように前記複数の移動体を制御するように構成されている制御部と、を有する。
 開示の技術によれば、デジタルツインを介した交通分散制御システムにより、信号機を使用しない交通分散制御を実現するための技術が提供される。
グラフ構造を示す図である。 実施の形態の概要を説明するための図である。 推論の概要を説明するための図である。 学習の概要を説明するための図である。 システム構成例を示す図である。 処理フロー例を示す図である。 システム構成の変形例1を示す図である。 システム構成の変形例2を示す図である。 コンピュータのハードウェア構成例を示す図である。
 以下、図面を参照して本発明の実施の形態(本実施の形態)を説明する。以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下の実施の形態に限られるものではない。
 (実施の形態の概要)
 図1に本実施の形態における交通分散制御システムに含まれる各車両のグラフ構造の一例を示す。図1に示すように、本交通分散制御システムに含まれる各車両は、車両をノード、近隣の車両間で無線通信を行うための接続をエッジとしたグラフ構造で表現される。本交通分散制御システムにおいて、車両は互いに衝突しないように移動することができる。
 図1に示す例では、ノードは車両としたが、ノードは特定の物に限定されるものではない。ノードは、車両以外の移動体、例えば、航空機、船舶、ロボット、ドローン等といった移動体であってもよい。以下では、ノードは「車両」であるものとして説明する。
 本実施の形態では、車両や道路等といった実世界のデジタルツインを仮想空間上に構成した上で、デジタルツインと実世界の車両との間のフィードバックループにより交通を制御する。より具体的には、実世界から実際の車両の状態(例えば、車両の速度、位置等)を収集すると共に、これらの状態を用いてデジタルツイン上で各車両の最適な状態を求め、その最適な状態(つまり、最適な速度、位置等)を実際の車両にフィードバックする。これを繰り返すことで、実世界の車両の最適な交通分散制御が実現される。
 上記のフィードバックループの様子(イメージ)を図2に示す。図2に示すように、実世界の車両の状態(速度、位置等)を収集し、デジタルツイン上では、これらの状態と、近隣車両との間で衝突を抑止するための無線通信とを考慮して各車両の状態予測(これは状態更新と呼ばれてもよい。)を行って次の時刻の最適な状態を求める。この最適な状態は実世界の車両にフィードバックされ、実世界の各車両は、その最適な状態に近付くように制御(自律制御)を実行する。これにより、各車両が他の車両と衝突すること(例えば、交通事故等)が抑止され、かつ、所望の目的(例えば、速度の向上、目的地への移動時間・輸送時間の短縮、加減速の削減等)を満たすような交通分散制御が実現される。
 なお、本実施の形態では、状態として速度や位置を使用しているが、これは一例である。状態として速度や位置以外の何等かの状態、例えば、ルート、車線、ステアリング方向等を含めることも可能である。また、状態として1つの情報のみ(例えば、速度のみ、位置のみ)を用いてもよいし、複数の情報(例えば、速度と位置の両方)を用いてもよい。
 ここで、デジタルツイン上の各車両の状態予測は、状態更新ダイナミクスを表現した常微分方程式(ODE:ordinary differential equation)により実現される。この常微分方程式は、例えば、以下の式(1)のように表すことができる。
 dh/dt=M(h,x,t,θ,G)
      =M(h,x,t,θ,G)+M(h,x,A,b,G)   (1)
 ただし、上記の式(1)は、車両間が一定以上の距離を保つことを表す制約条件を持つ。
 ここで、各記号の意味は以下の通りである。
 M:ダイナミクス
 M:各車両の状態を更新する(サブ)ダイナミクス
 M:車両間の関係(制約関係)を表す(サブ)ダイナミクス
 t:時刻(離散時刻)
 h=h(t):状態
 x=x(t):外部制御入力
 θ:学習対象パラメータ
 G=G(t):グラフ
 A,b:制約パラメータ
 外部制御入力xとは、他の車両との衝突を抑止するために近隣の車両との無線通信により交換される情報のことであり、例えば、車両の走行位置、目的方向等を表す情報のことである。外部制御入力の具体例としては、例えば、車両に搭載される車載カメラの映像、GPS(Global Positioning System)受信機で測位した位置情報、その他の各種センサで計測されたセンサ情報等が挙げられる。例えば、車両数がN、車両に搭載された外部入力装置(例えば、車載カメラ、GPS受信機、各種センサ等)の台数がLである場合、外部制御入力xはN×Lの行列で表され、(i,j)要素がi番目の車両に搭載されているj番目の外部入力装置の情報を表している。
 時刻tは離散時刻を表しており、以下では、時刻tのインデックスをkで表し、離散時刻をt(k=0,・・・,K)で表すものとする。つまり、上記の式(1)に示す常微分方程式は、離散化された常微分方程式である。なお、予め設定された或る時間幅をΔtとすれば、各k=1,・・・,Kに対して、t-tk-1=Δtである。Δtとしては、例えば、1ミリ秒~1秒程度とすることが考えられる。
 グラフGは、車両をノード、近隣の車両間で無線通信を行うための接続をエッジとするグラフ情報である。車両の移動により近隣の車両との接続関係は時々刻々と変化し得るため、G=G(t)と表される。
 状態hは、上述したように、例えば、速度や位置等である。各車両の状態は時々刻々と変化し得るため、h=h(t)と表される。例えば、車両数がNである場合は、状態hはN次元のベクトルで表され、i番目の要素がi番目の車両の状態を表している。
 制約パラメータA,bは、車両間が一定以上の距離を保つことを表す制約条件を表すためのパラメータである。制約条件としては、例えば、Ah+b≦0等の不等式制約条件、Ah+b=0等の等式制約条件、又は不等式制約条件と等式制約条件の両方が含まれる条件、等が挙げられる。なお、Ah+b≦0等の不等式制約条件は車両間の距離を一定の距離以上とするための斥力又は車両間の距離を一定の距離以内とするための引力を表現したものであり、Ah+b=0等の等式制約条件は車両間の距離を一定の距離に保つ合意形成力を表現したものである。これらの斥力や合意形成力により車両同士の衝突が防止される。
 学習対象パラメータθは、交通制御モデルを表すパラメータである。このθが適切に学習されることにより、上記の式(1)によって最適な状態hが得られ、その結果、各車両が他の車両と衝突することなく、所定の目的(速度の向上、目的地への移動時間・輸送時間の短縮、加減速の削減等)を達成するような交通制御が実現される。この学習対象パラメータθは、ニューラルネットワーク等の機械学習モデルを想定し、誤差逆伝播法(BP:Backpropagation)等の一般的に用いられている手法により更新・学習される。以下、一例として、機械学習モデルはニューラルネットワークであるものとして説明するが、本実施形態で利用可能な機械学習モデルはニューラルネットワークに限られるものではない。
 (推論の概要)
 図3に、推論時(つまり、各車両の最適な状態をリアルタイムで予測する時)の概要を示す。図3に示すように、各時刻t(t=1,・・・,K)において、実世界の車両の状態が収集され、これらの状態がデジタルツイン内に蓄積されると共に、1つ前の時刻tk-1で予測された最適状態h=h(t)が実世界の車両にフィードバックされる。また、デジタルツイン上では各車両間で無線通信が行われた後、蓄積されている状態と無線通信で交換された情報とを用いて上記の式(1)により次の最適状態h=h(tk+1)が予測される。一方で、実世界では、デジタルツインからフィードバックされた最適状態h=h(t)に近付くように各車両が制御される。このように、デジタルツイン上で最適状態の予測を行って、それを実世界の車両にフィードバックすること各時刻t(t=1,・・・,K)で繰り返す(つまり、フィードバックループする。)。これにより、デジタルツインを介した各車両の状態の最適な交通分散制御が実現される。
 (学習の概要)
 図4に、学習時(つまり、学習対象パラメータθを学習する時)の概要を示す。図4に示すように、実世界の車両から収集された状態を用いて、予め設計された評価関数を最適化することで、パラメータθを学習する。より具体的には、式(1)を解くためのソルバ(ODEソルバ)としてグラフ構造の再帰型ニューラルネットワークを利用して学習対象パラメータθを学習する。例えば、グラフ構造の再帰型ニューラルネットワークをfとして、h(tk+1)=f(h(t),x(t) ,G(t),A,b;θ)と表現できるものとする。このとき、例えば、グラフ構造の再帰型ニューラルネットワークfに対して誤差逆伝播法等を利用して学習対象パラメータθを更新・学習すればよい。また、評価関数としては、例えば、状態hが速度である場合、速度の平均値の逆数を返す関数をJ(・)、観測モデルを表す関数をHとしたときJ(H(h))とすればよい。この場合、評価関数J(H(h))を最小化するように学習対象パラメータθが更新される。なお、観測モデルとは、或る状態に近付くように実際の車両を制御したときに、実際に観測される状態を返すシステムのことである。
 (システム構成例)
 図5に、本実施の形態における交通分散制御システムの構成例を示す。図5に示すように、本実施の形態における交通分散制御システムには、デジタルツインシステム10と、複数の車両20とが含まれる。また、デジタルツインシステム10と各車両20は、インターネット等を含む通信ネットワーク30を介して通信可能に接続される。
 デジタルツインシステム10は、仮想空間内に実世界を模擬したデジタルツインを構成し、このデジタルツイン上で上記の推論と学習を実行するコンピュータ又はコンピュータシステムである。ここで、デジタルツインシステム10は、上記の推論(つまり、デジタルツイン上で各車両20の最適状態の予測)を行う推論部110と、学習対象パラメータθの学習を行う学習部120とを有している。なお、推論部110及び学習部120は、例えば、デジタルツインシステム10が有する1以上のプログラムが、CPU(Central Processing Unit)等のプロセッサに実行させる処理により実現される。
 車両20は、実世界の移動する移動体である。各車両20には、車載器等のコンピュータ又はコンピュータシステムが搭載されている。ここで、各車両20は、デジタルツインシステム10からフィードバックされた最適状態に近付くように当該車両20の状態を制御(例えば、エンジンやブレーキ等の制御によって状態を制御)する制御部200を有している。なお、制御部200は、例えば、車両20の車載器等が有する1以上のプログラムが、CPU等のプロセッサに実行させる処理により実現される。制御部200を実現する1以上のプログラムを有する車載器等は、例えば、制御装置等を称されてもよい。
 以下、車両の台数はNであるものとして、各車両20の各々を区別するときは「車両20」、「車両20」、・・・、「車両20」等と表記する。また、車両20(i=1,・・・,N)の制御部200を「制御部200」と表記する。
 (処理フロー)
 本実施の形態における交通分散制御システムの処理フロー例について、図6を参照しながら説明する。ここで、図6のS101~S106は、予め設定された所定の終了条件を満たすまで繰り返し実行される。このような終了条件としては、例えば、交通分散制御を終了する指示が与えられた場合等が挙げられる。
 まず、時刻t=t,・・・,tに対して、S101~S105が繰り返し実行される。以下、或る時刻t=tに関するS101~S105について説明する。
 デジタルツインシステム10の推論部110は、各車両20(i=1,・・・,N)から時刻tの状態h(t)=(h(t),・・・,h(t))を収集する(S101)。以下、時刻tにおける各車両20の状態(つまり、実世界の各車両20の状態)h(t)をh'=h'(t)=(h'(t),・・・,h'(t))と表すことにする。なお、h'(t)は時刻tにおける車両20の状態を表す。これらの状態h'=h'(t)は、例えば、デジタルツインシステム10が備える記憶装置の記憶領域に格納される。
 次に、デジタルツインシステム10の推論部110は、1つ前の時刻tk-1で予測された時刻tの最適状態^h=^h(t)=(^h(t),・・・,^h(t))を各車両20(i=1,・・・,N)に送信する(S102)。ここで、^h(t)は時刻tにおける車両20の最適状態を表す。なお、推論部110は、例えば、^h(t)のみを車両20に送信してもよい。
 各車両20の制御部200は、時刻tの最適状態に近付くように当該車両20を制御する(S103)。すなわち、車両20の制御部200は、最適状態^h(t)に近付くように当該車両20の状態を制御する。
 ただし、t=tのときは、上記のS102~S103は実行されなくてもよい。1つ前の時刻で予測されたtの最適状態が存在しないためである。
 デジタルツインシステム10の推論部110は、デジタルツイン上で各車両が近隣の車両と無線通信を行う(S104)。これにより、時刻tにおける外部制御入力x=x(t)が得られる。なお、これらの外部制御入力x=x(t)は、例えば、デジタルツインシステム10が備える記憶装置の記憶領域に格納される。
 そして、デジタルツインシステム10の推論部110は、実世界の車両20(i=1,・・・,N)の状態h'と外部制御入力xとを用いて、上記の式(1)により次の時刻tk+1の最適状態h=h(tk+1)=(h(tk+1),・・・,h(tk+1))を予測する(S105)。本ステップで予測された最適状態h=h(tk+1)を^h=^h(tk+1)=(^h(tk+1),・・・,^h(tk+1))と表す。
 時刻t=t,・・・,tに関してS101~S105が繰り返し実行された後、学習対象パラメータθを学習する場合、デジタルツインシステム10の学習部120は、当該学習パラメータθを学習する(S106)。すなわち、学習部120は、例えば、グラフ構造の再帰型ニューラルネットワークfに対して誤差逆伝播法等を利用し、評価関数J(H(h))を最小化するように学習対象パラメータθを更新・学習する。
 なお、学習対象パラメータθを更新する場合としては、例えば、予め設定された期間(例えば、1日、1週間等)が経過した場合等が挙げられる。ただし、これ以外にも、例えば、予め設定された何等かの条件を満たした場合に、学習対象パラメータθを更新してもよい。
 (変形例)
 以下、本実施の形態における交通分散制御システムの変形例について説明する。
 ・変形例1
 本実施の形態では、デジタルツインシステム10が推論部110及び学習部120を有しているものとしたが、例えば、図7に示すように、推論部110は各車両20が有しており、学習部120を有する学習装置40が存在してもよい。この場合、車両20の推論部110は、自身の状態h'と他の車両20(j≠i,j∈{1,・・・,N})から収集した状態h'とを用いて、デジタルツイン上で次の時刻の最適状態h(又は、最適状態h)を推論する。一方で、学習装置40の学習部120は、上記のS106と同様に学習対象パラメータθを学習する。ただし、学習に必要な情報は、各時刻において、各車両20から学習装置40に送信される。
 なお、各車両20が他の車両20(j≠i,j∈{1,・・・,N})から状態h'を収集する際は、車両20間で直接無線通信してもよいし、何等かの中継機器を介して無線通信してもよい。
 ・変形例2
 本実施の形態では、デジタルツインシステム10が推論部110及び学習部120を有しているものとしたが、例えば、図8に示すように、推論部110及び学習部120を各車両20が有していており、デジタルツインシステム10はなくてもよい。この場合、変形例1と同様に、車両20の推論部110は、自身の状態h'と他の車両20(j≠i,j∈{1,・・・,N})から収集した状態h'とを用いて、デジタルツイン上で次の時刻の最適状態h(又は、最適状態h)を推論する。一方で、車両20の学習部120は、上記のS106と同様に学習対象パラメータθを学習する。
 なお、各車両20が他の車両20(j≠i,j∈{1,・・・,N})から状態h'を収集する際は、車両20間で直接無線通信してもよいし、何等かの中継機器を介して無線通信してもよい。
 (ハードウェア構成例)
 図9に、上記のデジタルツインシステム10、車両20に搭載されている車載器、学習装置40を実現可能なコンピュータ500のハードウェア構成例を示す。図9に示すように、コンピュータ500は、入力装置501と、表示装置502と、外部I/F503と、通信I/F504と、RAM(Random Access Memory)505と、ROM(Read Only Memory)506と、補助記憶装置507と、プロセッサ508とを有する。これらの各ハードウェアは、それぞれがバス509を介して通信可能に接続されている。
 入力装置501は、例えば、キーボード、マウス、タッチパネル、物理ボタン等である。表示装置502は、例えば、ディスプレイ、表示パネル等である。なお、コンピュータ500は、例えば、入力装置501及び表示装置502のうちの少なくとも一方を有していなくてもよい。
 外部I/F503は、記録媒体503a等の外部装置とのインタフェースである。コンピュータ500は、外部I/F503を介して、記録媒体503aの読み取りや書き込み等を行うことができる。なお、記録媒体503aとしては、例えば、フレキシブルディスク、CD(Compact Disc)、DVD(Digital Versatile Disk)、SDメモリカード(Secure Digital memory card)、USB(Universal Serial Bus)メモリカード等が挙げられる。
 通信I/F504は、コンピュータ500が他の機器や装置等と通信するためのインタフェースである。RAM505は、プログラムやデータを一時保持する揮発性の半導体メモリ(記憶装置)である。ROM506は、電源を切ってもプログラムやデータを保持することができる不揮発性の半導体メモリ(記憶装置)である。補助記憶装置507は、例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)、フラッシュメモリ等のストレージ装置(記憶装置)である。プロセッサ508は、例えば、CPUやGPU(Graphics Processing Unit)等の演算装置である。
 なお、図9に示すコンピュータ500のハードウェア構成は一例であって、これに限られるものではない。例えば、コンピュータ500は、複数の補助記憶装置507や複数のプロセッサ508を有していてもよいし、図示したハードウェアの一部を有していなくてもよいし、図示したハードウェア以外の様々なハードウェアを有していてもよい。
 (まとめ)
 以上のように、本実施の形態における交通分散制御システムは、各時刻において、実世界の各移動体の状態を収集すると共に、それらの状態を用いてデジタルツイン上で次の時刻における各移動体の最適な状態を予測して実世界の各移動体にフィードバックする。これにより、移動体の最適な交通分散制御(シグナルフリー交通制御)が行われ、その結果、各移動体が互いに衝突せずに、速度向上や移動時間・輸送時間の短縮等といった所定の目的を達成するような自律的な交通制御を実現することができる。
 本発明は、具体的に開示された上記の実施形態に限定されるものではなく、請求の範囲の記載から逸脱することなく、種々の変形や変更、既知の技術との組み合わせ等が可能である。
 10    デジタルツインシステム
 20    車両
 30    通信ネットワーク
 40    学習装置
 110   推論部
 120   学習部
 200   制御部

Claims (7)

  1.  複数の移動体が含まれる交通分散制御システムであって、
     前記複数の移動体の時刻tおける状態h'(t)を用いて、仮想空間上に前記複数の移動体の状態模擬として表現された前記複数の移動体の次の時刻tk+1における最適状態h(tk+1)を予測するように構成されている状態予測部と、
     前記複数の移動体の時刻tk+1における状態h'(tk+1)が、前記最適状態h(tk+1)に近付くように前記複数の移動体を制御するように構成されている制御部と、
     を有する交通分散制御システム。
  2.  前記状態予測部は、
     前記複数の移動体の状態模擬として表現された前記複数の移動体のうち、時刻tで互いに近隣にある移動体間で送受信された情報も用いて、前記最適状態h(tk+1)を予測するように構成されている、請求項1に記載の交通分散制御システム。
  3.  前記互いに近隣にある移動体間で送受信された情報は、前記互いに近隣にある移動体の衝突を防止するための情報であり、カメラ映像、位置情報、センサ情報の少なくとも1つが含まれる、請求項2に記載の交通分散制御システム。
  4.  前記状態予測部は、
     所定の目的を達成するための交通制御モデルのパラメータも用いて、前記最適状態h(tk+1)を予測するように構成されており、
     前記交通分散制御システムは、
     前記目的に応じた評価関数により前記パラメータを学習するように構成されている学習部、を更に有する、請求項1乃至3の何れか一項に記載の交通分散制御システム。
  5.  前記学習部は、
     状態h(t)を少なくとも入力として次の時刻の状態h(tk+1)を出力し、かつ、前記パラメータθを持つニューラルネットワークに対する誤差逆伝播に基づいて、前記評価関数を最適化する前記パラメータを学習するように構成されている、請求項4に記載の交通分散制御システム。
  6.  複数の移動体が含まれる交通分散制御システムが、
     前記複数の移動体の時刻tおける状態h'(t)を用いて、仮想空間上に前記複数の移動体の状態模擬として表現された前記複数の移動体の次の時刻tk+1における最適状態h(tk+1)を予測する状態予測手順と、
     前記複数の移動体の時刻tk+1における状態h'(tk+1)が、前記最適状態h(tk+1)に近付くように前記複数の移動体を制御する制御手順と、
     を実行する方法。
  7.  複数の移動体が含まれる交通分散制御システムに、
     前記複数の移動体の時刻tおける状態h'(t)を用いて、仮想空間上に前記複数の移動体の状態模擬として表現された前記複数の移動体の次の時刻tk+1における最適状態h(tk+1)を予測する状態予測手順と、
     前記複数の移動体の時刻tk+1における状態h'(tk+1)が、前記最適状態h(tk+1)に近付くように前記複数の移動体を制御する制御手順と、
     を実行させるプログラム。
PCT/JP2022/031586 2022-08-22 2022-08-22 交通分散制御システム、方法、及びプログラム WO2024042586A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/031586 WO2024042586A1 (ja) 2022-08-22 2022-08-22 交通分散制御システム、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/031586 WO2024042586A1 (ja) 2022-08-22 2022-08-22 交通分散制御システム、方法、及びプログラム

Publications (1)

Publication Number Publication Date
WO2024042586A1 true WO2024042586A1 (ja) 2024-02-29

Family

ID=90012681

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/031586 WO2024042586A1 (ja) 2022-08-22 2022-08-22 交通分散制御システム、方法、及びプログラム

Country Status (1)

Country Link
WO (1) WO2024042586A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002163748A (ja) * 2000-11-27 2002-06-07 Natl Inst For Land & Infrastructure Management Mlit 交通流模擬装置による交通流予測制御システム
JP2017211913A (ja) * 2016-05-27 2017-11-30 日本電信電話株式会社 行動決定装置、未来予測モデル学習装置、ネットワーク学習装置、方法、及びプログラム
JP2020009428A (ja) * 2018-06-13 2020-01-16 トヨタ自動車株式会社 デジタル行動ツインに基づくコネクティッド車両のための衝突回避
JP2020013557A (ja) * 2018-06-13 2020-01-23 トヨタ自動車株式会社 車両リスク評価用のデジタルツイン
US20200065443A1 (en) * 2017-05-02 2020-02-27 The Regents Of The University Of Michigan Simulated vehicle traffic for autonomous vehicles
WO2021090413A1 (ja) * 2019-11-06 2021-05-14 日本電信電話株式会社 制御装置、制御システム、制御方法及びプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002163748A (ja) * 2000-11-27 2002-06-07 Natl Inst For Land & Infrastructure Management Mlit 交通流模擬装置による交通流予測制御システム
JP2017211913A (ja) * 2016-05-27 2017-11-30 日本電信電話株式会社 行動決定装置、未来予測モデル学習装置、ネットワーク学習装置、方法、及びプログラム
US20200065443A1 (en) * 2017-05-02 2020-02-27 The Regents Of The University Of Michigan Simulated vehicle traffic for autonomous vehicles
JP2020009428A (ja) * 2018-06-13 2020-01-16 トヨタ自動車株式会社 デジタル行動ツインに基づくコネクティッド車両のための衝突回避
JP2020013557A (ja) * 2018-06-13 2020-01-23 トヨタ自動車株式会社 車両リスク評価用のデジタルツイン
WO2021090413A1 (ja) * 2019-11-06 2021-05-14 日本電信電話株式会社 制御装置、制御システム、制御方法及びプログラム

Similar Documents

Publication Publication Date Title
CN111923905B (zh) 对轨迹进行估计的系统和方法
EP3776512B1 (en) Joint control of vehicles traveling on different intersecting roads
US10239529B2 (en) Autonomous vehicle operation based on interactive model predictive control
US11840256B2 (en) Global multi-vehicle decision making system for connected and automated vehicles in dynamic environment
JP2022513808A (ja) 軌道検証を用いた衝突回避システム
CN111833597B (zh) 具有规划控制的交通情形中的自主决策
Wang et al. Predictive maneuver planning for an autonomous vehicle in public highway traffic
Yu et al. Model predictive control for autonomous ground vehicles: a review
CN113844461A (zh) 归纳用于自动车辆行为预测的安全驾驶经验的技术
CN116323353A (zh) 基于相交的概率对安全系统资源的分配
KR20220102395A (ko) 자율주행 차량 군집 운행을 위한 비신호 교차로에서의 강화학습기반 통행 개선을 위한 장치 및 방법
JP2020037339A (ja) 衝突回避装置
US11353877B2 (en) Blocked region guidance
CN117794803A (zh) 使用具有响应型代理预测的树搜索和/或代理滤波进行车辆轨迹控制
Guney et al. Scheduling‐Based Optimization for Motion Coordination of Autonomous Vehicles at Multilane Intersections
Goulet et al. Distributed maneuver planning with connected and automated vehicles for boosting traffic efficiency
US20230020503A1 (en) Machine control
Biswas et al. State-of-the-art review on recent advancements on lateral control of autonomous vehicles
WO2022232546A1 (en) Methods and systems to assess vehicle capabilities
KR20210068449A (ko) 자동차의 경로 및/또는 궤적을 계획하는 장치
WO2024042586A1 (ja) 交通分散制御システム、方法、及びプログラム
WO2023187121A1 (en) Simulation-based testing for robotic systems
US11970164B1 (en) Adverse prediction planning
Yang et al. Distributed Model Predictive Control for Heterogeneous Platoon With Leading Human-Driven Vehicle Acceleration Prediction
US20240211731A1 (en) Generating object representations using a variable autoencoder

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22956414

Country of ref document: EP

Kind code of ref document: A1