WO2022214414A1 - Computerimplementiertes verfahren, computerprogramm und anordnung zum vorhersagen und planen von trajektorien - Google Patents

Computerimplementiertes verfahren, computerprogramm und anordnung zum vorhersagen und planen von trajektorien Download PDF

Info

Publication number
WO2022214414A1
WO2022214414A1 PCT/EP2022/058831 EP2022058831W WO2022214414A1 WO 2022214414 A1 WO2022214414 A1 WO 2022214414A1 EP 2022058831 W EP2022058831 W EP 2022058831W WO 2022214414 A1 WO2022214414 A1 WO 2022214414A1
Authority
WO
WIPO (PCT)
Prior art keywords
embedding
stat
features
tensor
static
Prior art date
Application number
PCT/EP2022/058831
Other languages
English (en)
French (fr)
Inventor
Georg Schneider
Nils MURZYN
Vijay PARSI
Firas MUALLA
Original Assignee
Zf Friedrichshafen Ag
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zf Friedrichshafen Ag filed Critical Zf Friedrichshafen Ag
Priority to EP22720428.6A priority Critical patent/EP4320408A1/de
Publication of WO2022214414A1 publication Critical patent/WO2022214414A1/de

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/38Electronic maps specially adapted for navigation; Updating thereof
    • G01C21/3863Structures of map data
    • G01C21/387Organisation of map data, e.g. version management or database structures
    • G01C21/3878Hierarchical structures, e.g. layering
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W10/00Conjoint control of vehicle sub-units of different type or different function
    • B60W10/04Conjoint control of vehicle sub-units of different type or different function including control of propulsion units
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W10/00Conjoint control of vehicle sub-units of different type or different function
    • B60W10/18Conjoint control of vehicle sub-units of different type or different function including control of braking systems
    • B60W10/184Conjoint control of vehicle sub-units of different type or different function including control of braking systems with wheel brakes
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W10/00Conjoint control of vehicle sub-units of different type or different function
    • B60W10/20Conjoint control of vehicle sub-units of different type or different function including control of steering systems
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W30/00Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
    • B60W30/08Active safety systems predicting or avoiding probable or impending collision or attempting to minimise its consequences
    • B60W30/095Predicting travel path or likelihood of collision
    • B60W30/0956Predicting travel path or likelihood of collision the prediction being responsive to traffic or environmental parameters
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W50/0097Predicting future conditions
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • B60W60/0015Planning or execution of driving tasks specially adapted for safety
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • B60W60/0027Planning or execution of driving tasks using trajectory prediction for other traffic participants
    • B60W60/00272Planning or execution of driving tasks using trajectory prediction for other traffic participants relying on extrapolation of current movement
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • B60W60/0027Planning or execution of driving tasks using trajectory prediction for other traffic participants
    • B60W60/00276Planning or execution of driving tasks using trajectory prediction for other traffic participants for two or more other traffic participants
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0125Traffic data processing
    • G08G1/0129Traffic data processing for creating historical data or processing based on historical data
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0137Measuring and analyzing of parameters relative to traffic conditions for specific applications
    • G08G1/0145Measuring and analyzing of parameters relative to traffic conditions for specific applications for active traffic flow control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2554/00Input parameters relating to objects
    • B60W2554/20Static objects
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2554/00Input parameters relating to objects
    • B60W2554/40Dynamic objects, e.g. animals, windblown objects
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2556/00Input parameters relating to data
    • B60W2556/10Historical data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]

Definitions

  • the invention relates to a computer-implemented method, a computer program and an arrangement for predicting and planning trajectories.
  • German patent application with the file number 10 2020210 379.8 discloses a hybrid scene representation that models interactions between static and dynamic objects and/or information.
  • claims 1, 13 and 14 each solve this problem in that the interaction modeling of road users comprehensively automated driving systems over the entire traffic area and over a predetermined time in the past with the merging of the history of the road users with all static and dynamic Sharing the scene allows prediction of all road users for a specific time in the future.
  • One aspect of the invention relates to a computer-implemented method for predicting and planning trajectories.
  • the procedure includes the steps
  • a first machine learning model which receives the hybrid scene representation as input and is trained or is trained using reference predictions conditions to determine interactions between the static and dynamic environment features, with a function of the first machine learning model on the first layer, the applying the second layer and the third layer and creating an embedding of the rigid static environment features, the state-changing static environment features, and the dynamic environment features, and the embedding being output from the machine learning model; • Determining road user-specific interactions from the common embedding and fusing these with the road user-specific dynamic environment features for each of the road users and obtaining a road user-specific embedding for each of the road users;
  • the computer program includes instructions that cause a computer, including a computer of a control unit of a driving system for automated driving functions, to carry out the steps of the method according to the invention when the computer program runs on the computer.
  • a further aspect of the invention relates to an arrangement for predicting and planning trajectories.
  • the arrangement includes
  • an RNN encoder that encodes dynamic environment features including trajectory histories of road users based on real driving data and/or virtual data
  • an interaction tensor pooling module that merges the encodings of the RNN and CNN encoders and a hybrid scene representation comprising at least a first layer comprising the rigid static environment features, a second layer comprising the state-changing static environment features and a third layer comprising dynamic environment features comprising the trajectory histories generated;
  • a CNN interaction network which determines interactions between the static, dynamic and between the static and dynamic environment features based on the hybrid scene representation, with the CNN interaction network providing a first tensor embedding of the rigid static generating environment features, a second tensor embedding of the state-changing static environment features, and a third tensor embedding of the dynamic environment features, and merging the first, second, and third tensor embeddings into a multi-agent scene tensor;
  • an interaction vector extraction module that extracts per traffic participant the features of the multi-agent scene tensor at the location corresponding to the traffic participant's coordinates, merges them with the third tensor embedding of the traffic participant and produces a multi per traffic participant and per scene -Generated agent scene embed;
  • an RNN probability decoder that decodes the multi-agent scene embedding and compares the probabilities of the predicted trajectories for each road user and outputs a corresponding value.
  • Road users include interactors in scenes of an environment, for example in scenes of a traffic area.
  • Road users are, for example, people, such as pedestrians, vehicles, driving systems, and cyclists.
  • Driving systems include automated driving systems from automated to autonomous vehicles, road vehicles, people movers, shuttles, robots and drones.
  • Road users also include intelligent agents, such as self-driving vehicles or robots.
  • Spatial merging means, for example, that spatial coordinates of road users and/or environmental features are represented in pixels of the hybrid scene representation, with one pixel in each of the layers of the hybrid scene representation corresponding to the same route length.
  • the environmental features are in pixels Layers and / or represented by feature vectors with spatial anchor points or relative to a reference point.
  • the feature vectors have a predetermined spatial anchor point.
  • the environmental features are interpreted as pixel values.
  • a spatial position of the environmental features is recorded in each layer via a corresponding position on a map. This is advantageous for a spatially corresponding arrangement of the environmental features.
  • Surrounding features include houses, streets, in particular street geometry and/or the condition, signs, lane markings, vegetation, mobile road users, vehicles, pedestrians, cyclists.
  • Static environmental characteristics are divided into two further categories. Elements that do not change at all or only after a long period of time do not change their status in the short term and are referred to as rigid.
  • the rigid static surrounding features are arranged in the first layer.
  • the state-changing rigid environment features are placed in the second layer.
  • Dynamic environment features affect the moving road users in a scene.
  • the coordinates of the road users are used comprehensively positions and/or orientations over a certain period of time in order to generate trajectory histories.
  • parameters of a vehicle dynamics or motion dynamics model are used here, for example using a Kalman filter.
  • the road users are arranged spatially based on the last coordinate and form the third layer of the dynamic environment features.
  • the hybrid scene representation layers a scenario into several layers.
  • a real scenario is presented as a hybrid of static and dynamic information.
  • the environmental scene according to the invention Representation also called Hybrid Scene Representation for Prediction, abbreviated HSRV.
  • the scenario is, for example, an image with i pixels in the x-direction and j pixels in the y-direction, in which the spatial coordinates of the road users are represented in pixels.
  • the individual layers can also be represented as images and are arranged congruently with one another, for example the layers are spatially congruently one on top of the other.
  • the hybrid scene representation according to the invention can be imagined as a stack of digital photos lying one on top of the other, for example taken from a bird's eye view of an intersection. On the other hand, this stack of images is combined with additional layers of partly purely semantic information that is represented, for example, as pure feature vectors.
  • the advantage of the hybrid scene representation according to the invention is that a very large and very flexible amount of information is provided which the first machine learning model can access.
  • the variable parameters/weights of the first machine learning model are adjusted, the use of the specific information that is best suited to solving the prediction task then emerges.
  • the hybrid scene representation comprises a first layer comprising the regional information on the behavior of the road users and/or weather information, a second layer comprising map information for determining the positions of the road users, a third layer comprising traffic regulation information, and a fourth layer comprising the traffic signs, a fifth layer comprising anchor trajectories, a sixth layer comprising semantically explicit information, a seventh layer comprising semantically latent information and an eighth layer comprising the movement information.
  • the first through third layers include the rigid static environmental features.
  • Regional information and/or weather information improve the forecast quality. For example, the behavior of road users differs depending on the region. For example, in Germany traffic rules are relatively strictly observed, in Italy rather mildly, in Great Britain people overtake from the right, etc.
  • Position data of the road user and/or the environment features are recorded via map information.
  • a map section is formed by assigning a value to each pixel of the layer of the representation of the surrounding scene that corresponds to the map information. The values are based on discrete labels on the map, for example numeric codes for street, pedestrian walkway, broken line, double line, etc.
  • the rules of right of way are shown next to the map via the traffic regulation information.
  • a line is drawn in the middle of each lane. Additional lines are drawn at intersections, which represent all permissible manoeuvres.
  • implicitly regulated information such as "Right before left" is overlaid on the signage. Any conflicting rule information is aggregated in this layer to form a consistent rule, so that the rules then in force are treated as having priority.
  • the fourth to fifth layers include the state-changing static environment features.
  • Traffic advisors include state-changing and stateful traffic advisors.
  • Status-changing traffic signs are usually used to summarize signals that are passed on to the driver visually and that can change their status several times in the course of a day. Examples of this category are traffic lights, variable message signs on motorways and entry signs at toll booths. These traffic signs are represented as a pixel value representing the current state in the spatial context of the local scene representation. For reasons of redundancy, such pixel regions are generally not limited to one pixel, but are mapped to a larger number of pixels. The exact size of the expansion is mostly learned from data to an optimum.
  • the anchor trajectories combine information from the right of way rules and from the traffic signs that change status.
  • the anchor trajectories determined in this way are brought into line with the rules of the status-changing traffic indicators and prioritized accordingly.
  • the layer of anchor trajectories can, according to one aspect of the invention, depending on the time required by the traffic participants, for example the driving system, supplement or replace the layers of traffic information and/or traffic regulation information.
  • the sixth to eighth layers contain the dynamic environment characteristics.
  • Semantically explicit information includes vehicle class, for example trucks, cars, motorcycles, buses, shuttles, bicycles, pedestrians, height and/or width of the objects and/or states of the blinking lights.
  • Semantic-latent information cannot be interpreted directly by humans, but is in a certain way implicitly contained in the data.
  • the latent information is, for example, continuous numbers with which the robustness against noise signals of discrete classes is increased, for example when a discrete classification varies between truck and car.
  • the movement information of the eighth layer includes the trajectory histories.
  • Determining the interactions includes predicting possible future interactions, according to one aspect of the invention, based on the eight layers of the hybrid scene representation.
  • Interactions concern any interaction between static and static, static and dynamic and dynamic and dynamic environmental features.
  • a car is located at an intersection.
  • the right of way is regulated by a traffic light.
  • One interaction is the traffic light switch. For example, if the traffic light switch shows the car the green traffic light phase and the pedestrian the red traffic light phase, then the other interactions, learned or present in the trajectory histories, are that the pedestrian stops and the car drives into the junction.
  • the first machine learning model is used with data pairs of the form
  • HSRV_T, GT_T trained. T indicates the number of training data pairs.
  • HSRV is the respective hybrid scene representation, on the basis of which the interactions and thus the trajectories are predicted.
  • GT is the respective reference prediction, also called ground truth, i.e. the target prediction.
  • the optimal parameters for the first machine learning model comprising values for weights are then determined by an optimization method, for example gradient descent. The parameters are optimal when the deviation of the actual predictions output from the first machine learning model from the target predictions is minimized.
  • the advantage of processing the hybrid scene representation according to the invention is that information in the second layer changes more frequently than in the first layer.
  • the inference time of the first machine learning model is reduced. In this way, the joint embedding, ie a kind of final scene embedding, is generated more quickly.
  • the embedding is, for example, embedding in a feature space in which each road user can be identified via coordinates. Since the embedding has the same dimensionality as the hybrid scene representation in terms of spatial resolution, the coordinates used for classification in the hybrid scene representation can be used for each road user in order to obtain the information relevant to the road user from the common embedding.
  • the road user-specific interactions are determined from the embedding, for example, in that for each of the road users, characteristics, also called features, of the common embedding are extracted at the point corresponding to the coordinates of the respective road user. These features include all interactions relevant to the respective road user. By fusing these features with the respective road user-specific dynamic features, the prediction of trajectories for the respective road user is calculated based on all interactions of the common embedding.
  • each of the trajectory histories are decoded into a plurality of possible predicted trajectories, a large number of possible future modes are calculated, ie a one-to-many mapping is produced.
  • the first machine learning model learns probability density functions of the different modes. This makes the one-to-many mapping explicit estimated by learning from multiple modes as opposed to implicit estimation using generative adversarial networks. This is advantageous for a training method of the first machine learning model, since otherwise the mode collapse problem would affect the training.
  • the commands of the computer program according to the invention include machine commands, source text or object code written in assembly language, an object-oriented programming language, for example C++, or in a procedural programming language, for example C.
  • the computer program is a hardware-independent application program, for example is provided via a data carrier or a data carrier signal using software over the air technology.
  • the interaction tensor pooling module and the interaction vector extraction module comprise software and/or hardware components.
  • the arrangement relates to computing units that execute the individual encoders, decoders, networks and modules.
  • the decoders of the arrangement comprise an attention mechanism.
  • the arrangement executes the method according to the invention or the computer program according to the invention.
  • a first function of the first machine learning model is applied to the first layer and a first embedding of the rigid static environment features is created.
  • a second function is applied to the second layer and a second embedding of the state-changing static environment features is created.
  • a third function is applied to the third layer and a third embedding of the dynamic environment features is created.
  • the first, second and third embedding will be merged and output as a common embedding from the machine learning model.
  • the term embedding refers both to the embedding created with the function applied to all layers together and to the common embedding.
  • the rigid static environmental features are processed by layers of a first artificial neural network and embedded in a first tensor.
  • the state-changing static environment features are processed by layers of a second artificial neural network and embedded in a second tensor.
  • the dynamic environment features are processed by layers of a third artificial neural network and embedded in a third tensor.
  • the common embedding is a fourth tensor obtained from a spatial concatenation of the first, second, and third tensors.
  • Processing the layers of the first, second and third artificial neural networks is an embodiment of the first, second and third function.
  • Activation functions of neuron connections are, for example, non-linear functions.
  • the processing of the layers of the first, second and third artificial neural network thus represent non-linear functions.
  • the first, second and third tensors differ in a semantic depth.
  • the fourth tensor represents a multi-agent scene tensor, where the agents correspond to the road users and include the driving systems.
  • the multi-agent scene tensor is calculated based on the hybrid scene representation with the first machine learning model and models the entire interactions of a scenario.
  • the first machine learning model is also called the interaction network.
  • the multi-agent scene tensor has the same dimensionality as the hybrid scene representation in terms of spatial resolution, the coordinates used to classify the respective tensors in the hybrid scene representation can be used for each road user in order to to obtain information relevant to road users from the joint embedding. Furthermore, the features of the multi-agent scene tensor are used at the point corresponding to these coordinates and thus form a multi-agent scene embedding for each road user. Since for each road user all interactions relevant to the respective road user can be managed by means of the multi- agent-scene tensors are considered, multi-agent scene embedding is also called joint multi-agent scene embedding, abbreviated to JoMASE.
  • the multi-agent scene tensor is used to generate a multi-agent scene embedding for each road user in a scene.
  • the features of the multi-agent scene tensor are extracted at the point corresponding to the road user's coordinates and merged with the third embedding of the road user.
  • the fusion can take place earlier. This extraction is also called interaction vector extraction. Every road user, in particular every driving system, corresponds to a vector in the multi-agent scene tensor. In this way, the road user, in particular the driving system-specific embeddings are preserved.
  • the encoded dynamic bird's-eye view environmental features are placed in a spatial tensor that is initialized to 0 and has the same shape, such as width and height, as the image of the encoded static environmental features.
  • the encoded dynamic environmental features comprising the trajectory histories are placed in the spatial tensor in relation to their positions in the last time step of their past trajectories.
  • This tensor is then concatenated with the image of the encoded static environmental features and the hybrid scene representation is obtained as a combined tensor.
  • This information combination is a tensor pooling method and is called interaction tensor pooling.
  • This combined tensor is processed by the first machine learning model, which, according to the invention, determines the interactions between the road users and between the road users and the static environmental features while maintaining the locality and outputs the multi-agent scene tensor.
  • the first machine learning model comprises skip connections, through which layers are skipped when the machine learning model is processed, for example a double or triple layer jump. Jump connections are also called skip-connections.
  • the Hop connections advantageously expose high-level features of interaction.
  • the hop connections comprise residual connections that a residual function learns with respect to the layer inputs, such as used in residual neural networks.
  • the hop connections comprise chained hop connections. A chained hop connection attempts to reuse features by chaining them into new layers so that more information from previous layers of the network is preserved. This is in contrast to, for example, the residual connections, which instead use element-wise summation to carry over information from earlier layers.
  • the fourth tensor is processed by layers of a fourth artificial neural network.
  • the fourth artificial neural network outputs an output volume equal in size to the hybrid scene representation.
  • the road users are positioned in the output volume based on their actual spatial arrangement.
  • the information contained in the fourth tensor, for example in the multi-agent scene tensor, is merged by the fourth artificial neural network.
  • the embeddings are generated with convolution networks.
  • the first machine learning model is a convolutional network.
  • the first, second, third and fourth artificial neural networks are separate convolution networks or individual function blocks in the first machine learning model implemented as a convolution network.
  • Convolutional networks also called convolutional neural networks, abbreviated CNN, are particularly advantageous for processing large amounts of data and data that can be represented as images.
  • the road user-specific embeddings of past time steps of the trajectory histories of the road users in individual time steps of the decoding weighted differently uses an attention mechanism.
  • One aspect of the invention provides an attention module or attention layer in which outputs from the encoder are accumulated.
  • the attention module executes an attention algorithm, by means of which the influence of each past time step of the trajectory histories on the current or future trajectories is evaluated during decoding and the most relevant of the past time steps of the trajectory histories are provided to the decoder.
  • a further aspect of the invention provides a transformer architecture with self-attention based on sequential encoder and decoder blocks with a similar architecture.
  • Each of the encoder blocks includes, for example, a self-attention layer and a feedforward layer.
  • Each of the decoder blocks comprises, for example, a self-attention layer, a feedforward layer and an encoder-decoder self-attention layer arranged in between.
  • the self-attention algorithm is, for example, in D. Gizlyk, Neural Networks Made Easy (Part 8): Attention Mechanisms, February 8, 2021, https://www.mql5.com/de/artic- Ies/8765#para2 , described.
  • Transformer architectures are based, for example, on Bidirectional Encoder Representations from Transformers, abbreviated BERT, or on Generative Pre-trained Transformer, abbreviated GPT.
  • the attentional mechanisms improve predictions, especially long-term predictions, and solve the problem of information morphing.
  • An advantage of attentional mechanism decoding is better long-term prediction.
  • Another advantage of decoding with an attention mechanism is better explainability, since it is possible to find out at each time step of the decoding time which time steps in the past were more influential for the prediction.
  • the road user-specific embeddings in a first data stream which predicts various plausible trajectories, and in a second data stream, evaluates the probabilities of the predicted trajectories against each other and outputs a corresponding value, decoded.
  • the probabilities are based on the trajectory histories and the calculated interactions.
  • the rigid static environment features including map information and the status-changing static environment features including traffic signs and/or anchor trajectories from real data from environment recognition sensors and/or from maps and/or from virtual data with a second machine learning model including layers of a convolution network coded.
  • the second machine learning model encodes the static environmental features mentioned, for example, in a semantic feature map, also known as a feature map, in which the individual features are stacked according to the layer structure of the hybrid scene representation.
  • the second machine learning model is thus a scene information coder, in particular a CNN coder. Convolution networks are particularly well suited for this.
  • Data from environment recognition sensors include raw data and/or data preprocessed, for example with filters, amplifiers, serializers, compression and/or conversion units, from cameras, radar sensors, lidar sensors, ultrasonic sensors, acoustic sensors, Car2X units and/or real-time /Offline Maps.
  • the virtual data is generated, for example, using software, hardware, model and/or vehicle-in-the-loop methods. According to a further aspect of the invention, the real data is virtually augmented and/or varied.
  • the dynamic environment features including the trajectory histories of the road users, based on real driving data and/or virtual data are coded using a third machine learning model including layers of a recurrent network.
  • Recurrent neural networks also known as RNN for short, recognize the time-coded data in the trajectory histories.
  • that is recurrent network as a long short-term memory network, abbreviated LSTM, or implemented as a gated recurrent unit network.
  • the third machine learning model is thus an RNN encoder.
  • the coding of the third machine learning model is overlaid with the semantic feature map of the second machine learning model.
  • the road user-specific embeddings are decoded by a fourth machine learning model comprising layers of a recurrent network.
  • the fourth machine learning model is thus an RNN decoder.
  • the first data stream predicting different plausible trajectories is decoded by a first RNN decoder.
  • the first RNN decoder is called a probability decoder.
  • the second data stream which compares the probabilities of the predicted trajectories and outputs a corresponding value, is decoded by a second RNN decoder.
  • the second RNN decoder is called a trajectory decoder.
  • a control unit of one of the driving systems for automated driving functions determines regulation and/or control signals based on the predicted trajectories and provides these signals to actuators for longitudinal and/or lateral guidance of the driving system.
  • FIG. 4 shows a representation of road user-specific embeddings according to the invention and 5 shows a flow chart of the method according to the invention.
  • FIG. 1 shows an example of a hybrid scene representation HSRV according to the invention.
  • a car as an example of a road user R at a junction.
  • the car for example, is the ego driving system.
  • a pedestrian W At the junction there is a pedestrian W.
  • the right of way is controlled by a traffic light L.
  • the traffic light circuit L shows the car R the green traffic light phase and the pedestrian W the red one. Above the depiction of this situation from a bird's eye view, the various layers that are essential for predicting the trajectories of road users are shown.
  • Layer A shows the regional information.
  • Layer B uses the map information, layer C the traffic regulation information.
  • the stateful traffic signs and the anchor trajectories are contained in layer D and layer E.
  • Layer F describes the semantic characteristics of the individual road users.
  • Layer G and layer H contain latent information, with this information in layer G being based on properties that describe the road user and in layer H on the dynamic movement behavior.
  • the layers A to E are static layers and describe static environmental features stat of the environmental scene U.
  • the layers A to C describe rigid static environmental features stat_1 and the layers D and E state-changing static environmental features stat_2.
  • the layers F to H are dynamic layers and describe dynamic environment features dyn of the environment scene U.
  • FIG. 2 shows an illustration of the method according to the invention.
  • the static environment characteristics stat and the dynamic environment characteristics dyn were included in the hybrid Scene representation HSRV merged.
  • the machine learning models according to the invention receive this hybrid scene representation HSRV as input and calculate a specific embedding JoMASE for each road user R. Future trajectories with associated probabilities are decoded from the road user-specific embeddings JoMASE.
  • FIG 3 shows an arrangement of a network architecture according to the invention.
  • FIG. 4 shows a representation of the road user-specific embeddings JoMASE according to the invention.
  • a third machine learning model RNN encoder encodes the trajectory histories TH of road users based on real driving data and/or virtual data.
  • a second machine learning model CNN encoder encodes scene information comprising the rigid static environment features stat_1 and the state-changing static environment features stat_2.
  • An interaction tensor pooling module ITPM combines the encodings of the RNN and CNN encoders and uses them to generate the hybrid scene representation HSRV as shown in FIG.
  • a first machine learning model IntCNN in the form of a convolutional network CNN determines the interactions between the static stat, dynamic dyn and between the static stat and dynamic environment features dyn based on the hybrid scene representation HSRV and merges these interactions.
  • the first machine learning model IntCNN creates a first embedding of the rigid static environment features stat_1 in the form of a first tensor embedding, a second embedding of the state-changing static environment features stat_2 in the form of a second tensor embedding and a third embedding of the dynamic environment features dyn in Form of a third tensor embedding.
  • the first, second and third embedding are merged into a common embedding M in the form of a multi-agent scene tensor.
  • An interaction vector extraction module IVEM extracts the features of the multi-agent scene tensor M for each road user R at the coordinates of the The point corresponding to the point of traffic participant R and merges this with the third tensor embedding of traffic participant R.
  • the multi-agent scene embedding JoMASE is generated for each traffic participant R and for each scene.
  • a fourth machine learning model RNN trajectory decoder decodes the multi-agent scene embedding JoMASE in a first strand and outputs R predicted trajectories for each road user.
  • An RNN probability decoder of the fourth machine learning model decodes the multi-agent scene embedding JoMASE in a second strand and evaluates R probabilities of the predicted trajectories against each other for each road user and outputs a corresponding value in each case.
  • the decoders of the fourth machine learning model include, for example, recurrent networks RNN.
  • FIG. 5 shows the method according to the invention as a flow chart.
  • the provided encoded static stat and dynamic environment features dyn are spatially combined by the interaction tensor pooling module ITPM.
  • the hybrid scene representation FISRV is obtained by means of the interaction tensor pooling module ITPM.
  • the hybrid scene representation FISRV is processed by the first machine learning model IntCNN.
  • the first machine learning model IntCNN determines the first embedding of the rigid static environment features stat_1, the second embedding of the state-changing static environment features stat_2 and the third embedding of the dynamic environment features dyn.
  • the first, second and third embedding are merged and output as a common embedding M from the first machine learning model IntCNN.
  • the traffic participants R-specific interactions are determined from the common embedding M and with the traffic participants mer R-specific dynamic environment features dyn for each of the Road users R merged. From the fusion, the road user R-specific embedding JoMASE is generated for each of the road users R.
  • a method step V5 the road users R-specific embeddings JoMASE are decoded and the predicted trajectories for each of the road users R are obtained, with individual trajectory histories TH being mapped onto a plurality of possible predicted trajectories.
  • stat_1 rigid static environment characteristics
  • stat_2 state-changing static environment characteristics

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mechanical Engineering (AREA)
  • Transportation (AREA)
  • Automation & Control Theory (AREA)
  • General Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Combustion & Propulsion (AREA)
  • Molecular Biology (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Remote Sensing (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Analytical Chemistry (AREA)
  • Databases & Information Systems (AREA)
  • Traffic Control Systems (AREA)

Abstract

Computerimplementiertes Verfahren zum Vorhersagen und Planen von Trajektorien umfassend die Schritte: Prozessieren eines ersten Maschinenlernmodells (IntCNN) (V3), das als Eingabe die hybride Szenen-Repräsentation (HSRV) erhält und trainiert ist oder mittels Referenz-Vorhersagen trainiert wird, Interaktionen zwischen den statischen (stat) und dynamischen(dyn) Umfeldmerkmalen zu bestimmen, wobei eine Funktion des ersten Maschinenlernmodells (IntCNN) auf die erste Schicht (A,B, C), die zweite Schicht (D, E) und die dritte Schicht (F, G, H) angewendet wird und eine Einbettung (M) der starren statischen Umfeldmerkmale (stat_1), der zustandswechselnden statischen Umfeldmerkmale (stat_2) und der dynamischen Umfeldmerkmale (dyn) erzeugt wird und die Einbettung (M) von dem Maschinenlernmodell (IntCNN) ausgegeben wird.

Description

Computerimplementiertes Verfahren, Computerproqramm und Anordnung zum
Vorhersagen und Planen von Trajektorien
Die Erfindung betrifft ein computerimplementiertes Verfahren, ein Computerpro gramm und eine Anordnung zum Vorhersagen und Planen von Trajektorien.
Im Rahmen von AD/ADAS-Anwendungen, aber auch im Umfeld von Industrie 4.0 und kollaborativer Mensch -Roboter-Interaktion, reicht eine reine sensorielle Erfas sung der Umwelt nicht aus. Vielmehr wird die zeitliche Vorhersage der Weiterent wicklung der dynamischen Szene mit all ihren eigenständigen Interakteuren, zum Beispiel Personen, Fahrzeuge, Radfahrer, immer wichtiger, um intelligente Entschei dungen für beispielsweise automatisierte Fahrzeuge treffen zu können. H ierbei ist nicht nur die Interaktion aller Interakteure, beispielsweise Verkehrsteilnehmer, unter einander wichtig, sondern auch die Interaktion dieser mit ihrer direkten Umwelt, zum Beispiel dem Verkehrsraum und/oder der Infrastruktur.
Um eine verlässliche und leistungsstarke Szenen-Vorhersage gewährleisten zu kön nen, müssen alle diese expliziten, impliziten, regional geprägten und ereignisgepräg ten Regeln/Informationen in Betracht gezogen werden und zur zeitlichen Vorhersage herangezogen werden. Die deutsche Patentanmeldung mit dem Aktenzeichen 10 2020210 379.8 offenbart eine hybride Szenen-Repräsentation, die Interaktionen zwi schen statischen und dynamischen Objekten und/oder Informationen modelliert.
Weiterer Stand der Technik ist in
• Yibiao Zhao, Yizhou Wang, and Ying Nian Wu: Multi-agent tensor fusion for contextual trajectory prediction, IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2019 und
• Nachiket Deo and Mohan M. Trivedi: Convolutional social pooling for vehicle trajectory prediction, IEEE Conference on Computer Vision and Pattern Recognition (CVPR) Workshops, June 2018 offenbart. Der Erfindung lag die Aufgabe zugrunde, wie eine auf die hybride Szenen-Repräsen- tation aufbauende Verarbeitung verbessert werden kann, um eine verbesserte Bewe gungsplanung für Verkehrsteilnehmer, beispielsweise automatisierte Fahrsysteme, zu ermöglichen, beispielsweise eine zeitliche Vorhersage von allen Verkehrsteilneh mern über mehrere Zeitschritte in die Zukunft.
Die Gegenstände der Ansprüche 1 , 13 und 14 lösen jeweils diese Aufgabe dadurch, dass die Interaktions-Modellierung von Verkehrsteilnehmern umfassend automati sierte Fahrsysteme über den gesamten Verkehrsraum und über eine vorgegebene Zeit in der Vergangenheit mit der Fusionierung der Historie der Verkehrsteilnehmer mit allen statischen und dynamischen Teilen der Szene die Vorhersage von allen Verkehrsteilnehmern für eine bestimmte Zeit in die Zukunft ermöglicht.
Ein Aspekt der Erfindung betrifft ein computerimplementiertes Verfahren zum Vorher sagen und Planen von Trajektorien. Das Verfahren umfasst die Schritte
• räumliches Zusammenführen von bereitgestellten kodierten statischen und dy namischen Umfeldmerkmalen und Erhalten einer hybriden Szenen-Repräsen- tation umfassend wenigstens eine erste Schicht umfassend starre statische Umfeldmerkmale, eine zweite Schicht umfassend zustandswechselnde stati sche Umfeldmerkmale und eine dritte Schicht umfassend die dynamischen Umfeldmerkmale umfassend Trajektorienhistorien von Verkehrseilnehmern umfassend jeweils wenigstens Positionen der Verkehrsteilnehmer in Abhän gigkeit der Zeit;
• Prozessieren eines ersten Maschinenlernmodells, das als Eingabe die hybride Szenen-Repräsentation erhält und trainiert ist oder mittels Referenz-Vorhersa gen trainiert wird, Interaktionen zwischen den statischen und dynamischen Umfeldmerkmalen zu bestimmen, wobei eine Funktion des ersten Maschinen lernmodells auf die erste Schicht, die zweite Schicht und die dritte Schicht an gewendet wird und eine Einbettung der starren statischen Umfeldmerkmale, der zustandswechselnden statischen Umfeldmerkmale und der dynamischen Umfeldmerkmale erzeugt wird und die Einbettung von dem Maschinenlernmo dell ausgegeben wird; • Bestimmen von Verkehrsteilnehmer-spezifischen Interaktionen aus der ge meinsamen Einbettung und Fusionieren dieser mit den Verkehrsteilnehmer spezifischen dynamischen Umfeldmerkmalen für jeden der Verkehrsteilneh mer und Erhalten einer Verkehrsteilnehmer-spezifischen Einbettung für jeden der Verkehrsteilnehmer;
• Dekodieren der Verkehrsteilnehmer-spezifischen Einbettungen und Erhalten von vorhergesagten Trajektorien für jeden der Verkehrsteilnehmer, wobei ein zelne der Trajektorienhistorien jeweils auf mehrere mögliche vorhergesagte Trajektorien abgebildet werden.
Ein weiterer Aspekt der Erfindung betrifft ein Computerprogramm zum Vorhersagen und Planen von Trajektorien. Das Computerprogramm umfasst Befehle, die bewir ken, dass ein Computer, umfassend einen Computer eines Steuergeräts eines Fahr systems für automatisierte Fahrfunktionen, die Schritte des erfindungsgemäßen Ver fahrens ausführt, wenn das Computerprogramm auf dem Computer läuft.
Ein weiterer Aspekt der Erfindung betrifft eine Anordnung zum Vorhersagen und Pla nen von Trajektorien. Die Anordnung umfasst
• einen RNN-Kodierer, der dynamische Umfeldmerkmale umfassend Trajektori enhistorien von Verkehrsteilnehmern basierend auf realen Fahrdaten und/oder auf virtuellen Daten kodiert;
• einen CNN-Kodierer, der Szenen-Informationen umfassend starre statische Umfeldmerkmale und zustandswechselnde statische Umfeldmerkmale kodiert;
• ein Interaktions-Tensor-Pooling-Modul, das die Kodierungen des RNN- und CNN-Kodierers zusammenführt und eine hybride Szenen-Repräsentation um fassend wenigstens eine erste Schicht umfassend die starren statische Um feldmerkmale, eine zweite Schicht umfassend die zustandswechselnden stati sche Umfeldmerkmale und eine dritte Schicht umfassend dynamische Umfeld merkmale umfassend die Trajektorienhistorien erzeugt;
• ein CNN-Interaktionsnetzwerk, das basierend auf der hybriden Szenen-Reprä sentation Interaktionen zwischen den statischen, dynamischen und zwischen den statischen und dynamischen Umfeldmerkmalen bestimmt, wobei das CNN-Interaktionsnetzwerk eine erste Tensor-Einbettung der starren statischen Umfeldmerkmale, eine zweite Tensor-Einbettung der zustandswechselnden statischen Umfeldmerkmale und eine dritte Tensor-Einbettung der dynami schen Umfeldmerkmale erzeugt und die erste, zweite und dritte Tensor-Ein bettung in einen Multi-Agenten-Szenen-Tensor zusammengeführt;
• ein Interaktions-Vektor-Extraktions-Modul, das pro Verkehrsteilnehmer die Merkmale des Multi-Agenten-Szenen-Tensors an der den Koordinaten des Verkehrsteilnehmers entsprechenden Stelle extrahiert, mit der dritten Tensor- Einbettung des Verkehrsteilnehmers fusioniert und pro Verkehrsteilnehmer und pro Szene eine Multi-Agenten-Szenen-Einbettung erzeugt;
• einen RNN-Trajektorien-Dekodierer, der die Multi-Agenten-Szenen-Einbettung dekodiert und pro Verkehrsteilnehmer Trajektorien vorhersagt und ausgibt;
• einen RNN- Wahrscheinlichkeits-Dekodierer, der die Multi-Agenten-Szenen- Einbettung dekodiert und pro Verkehrsteilnehmer Wahrscheinlichkeiten der vorhergesagten Trajektorien gegeneinander bewertet und einen entsprechen den Wert ausgibt.
Vorteilhafte Ausgestaltungen der Erfindung ergeben sich aus den Definitionen, den Unteransprüchen, den Zeichnungen und der Beschreibung bevorzugter Ausfüh rungsbeispiele.
Verkehrsteilnehmer umfassen Interakteure in Szenen einer Umwelt, beispielsweise in Szenen eines Verkehrsraus. Verkehrsteilnehmer sind beispielsweise Personen, wie etwa Fußgänger, Fahrzeuge, Fahrsysteme, und Fahrradfahrer. Fahrsysteme umfas sen automatisierte Fahrsysteme von automatisierte bis autonome Fahrzeuge, Stra ßenfahrzeuge, People Mover, Shuttles, Roboter und Drohnen. Zu Verkehrsteilneh mern zählen auch intelligente Agenten, beispielsweise selbstfahrende Fahrzeuge o- der Roboter.
Räumliches Zusammenführen bedeutet beispielsweise, dass räumliche Koordinaten der Verkehrsteilnehmer und/oder der Umfeldmerkmale in Pixeln der hybriden Sze- nen-Repräsentation dargestellt werden, wobei ein Pixel in jeder der Schichten der hybriden Szenen-Repräsentation einer gleichen Streckenlänge entspricht. Nach ei nem weiteren Aspekt der Erfindung werden die Umfeldmerkmale in Pixeln der Schichten und/oder über Merkmalsvektoren mit räumlichen Ankerpunkten oder relativ zu einem Referenzpunkt dargestellt. Die Merkmalsvektoren haben einen vorgegebe nen räumlichen Ankerpunkt. Nach einem weiteren Aspekt der Erfindung werden die Umfeldmerkmale als Pixelwerte interpretiert. Nach einem weiteren Aspekt der Erfin dung wird in jeder Schicht eine räumliche Lage der Umfeldmerkmale über eine kor respondierende Position in einer Karte erfasst. Dies ist vorteilhaft für eine räumlich korrespondierende Anordnung der Umfeldmerkmale.
Umfeldmerkmale umfassen Häuser, Straßen, insbesondere Straßengeometrie und/o der -zustand, Schilder, Spurmarkierungen, Vegetation, bewegliche Verkehrsteilneh mer, Fahrzeuge, Fußgänger, Fahrradfahrer.
Statische Umfeldmerkmale werden in zwei weitere Kategorien unterteilt. Elemente, die sich quasi nicht oder nur nach längeren Zeiträumen ändern, wechseln ihren Zu stand kurzfristig nicht und werden als starr bezeichnet. Die starren statischen Um feldmerkmale werden in der ersten Schicht angeordnet. Im Gegensatz dazu stehen Elemente, die den Zustand häufig wechseln können und somit zustandswechselnd sind. In die letztere Kategorie werden zum Beispiel Ampeln oder Wechselverkehrs zeichen eingeordnet. Die zustandswechselnden starren Umfeldmerkmale werden in der zweiten Schicht angeordnet.
Dynamische Umfeldmerkmale betreffen die beweglichen Verkehrsteilnehmer einer Szene. Hierbei werden die Koordinaten der Verkehrsteilnehmer umfassend Positio nen und/oder Orientierungen über einen bestimmten Zeitraum genutzt, um Trajektori- enhistorien zu generieren. Nach einem Aspekt der Erfindung werden hier Parameter eines Fahrdynamik- oder Bewegungsdynamikmodells verwendet, beispielsweise mit tels Kalman-Filter. Die Verkehrsteilnehmer werden basierend auf der letzten Koordi nate räumlich angeordnet und bilden die dritte Schicht der dynamischen Umfeldmerk male.
Die hybride Szenen-Repräsentation schichtet ein Szenario in mehrere Schichten. Ein reales Szenario wird als Hybrid von statischen und dynamischen Informationen dar gestellt. In diesem Zusammenhang wird die erfindungsgemäße Umfeldszenen- Repräsentation auch hybride Szenen-Repräsentation zur Vorhersage, abgekürzt HSRV, genannt. Das Szenario ist beispielsweise ein Bild mit i Pixeln in x-Richtung und j Pixeln in y-Richtung, in dem die räumlichen Koordinaten der Verkehrsteilneh mer in Pixeln dargestellt werden. Die einzelnen Schichten können ebenfalls als Bilder dargestellt werden und sind deckungsgleich zueinander angeordnet, beispielsweise liegen die Schichten deckungsgleich räumlich übereinander. Die erfindungsgemäße hybride Szenen-Repräsentation ist als ein Stapel übereinander liegender digitaler Fo tos, beispielsweise von einer Kreuzungssituation aufgenommen aus der Vogelper spektive, vorstellbar. Andererseits wird dieser Stapel mit Bildern kombiniert mit weite ren Schichten von zum Teil rein semantischen Informationen, die zum Beispiel als reine Merkmalsvektoren repräsentiert sind.
Der Vorteil der erfindungsgemäßen hybriden Szenen-Repräsentation besteht darin, dass eine sehr große und sehr flexible Menge an Informationen bereitgestellt wird, auf die das erste Maschinenlernmodell zugreifen kann. Innerhalb der Trainingsphase, in der die variablen Parameter/Gewichte des ersten Maschinenlernmodells eingestellt werden, bildet sich dann die Verwendung der speziellen Informationen heraus, die am besten dazu geeignet ist, die Aufgabe der Vorhersage zu lösen.
Nach einem Aspekt der Erfindung umfasst die hybride Szenen-Repräsentation eine erste Schicht umfassend die regionalen Informationen zum Verhalten der Verkehrs teilnehmer und/oder Wetterinformationen, eine zweite Schicht umfassend Kartenin formationen zur Bestimmung der Positionen der Verkehrsteilnehmer, eine dritte Schicht umfassend Verkehrsregelinformationen, eine vierte Schicht umfassend die Verkehrsweiser, eine fünfte Schicht umfassend Ankertrajektorien, eine sechste Schicht umfassend semantisch-explizite Informationen, eine siebte Schicht umfas send semantisch-latente Informationen und eine achte Schicht umfassend die Bewe gungsinformationen. Damit werden unter anderem explizite, implizite, regional ge prägte und Ereignis geprägte Informationen berücksichtigt und damit die Vorhersage und weitere Planung von Trajektorien verbessert, wie beispielsweise in den folgen den drei Absätzen detailliert beschrieben ist. Die erste bis dritte Schicht umfassen die starren statischen Umfeldmerkmale. Regio nale Informationen und/oder Wetterinformationen verbessern die Vorhersagegüte. Je nach der Region unterscheidet sich beispielsweise das Verhalten der Verkehrsteil nehmer. Beispielsweise werden in Deutschland Verkehrsregeln relativ stark eingehal ten, in Italien eher mild, in Großbritannien wird von rechts überholt, usw. Positionsda ten des Verkehrsteilnehmer und/oder der Umfeldmerkmale werden über Karteninfor mationen erfasst. Ein Kartenausschnitt wird gebildet, indem jedem Pixel der Kartenin formation entsprechenden Schicht der Umfeldszenen-Repräsentation ein Wert zuge ordnet wird. Die Werte basieren auf diskreten Labein der Karte, beispielsweise Zah lencodes für Straße, Fußgängerweg, unterbrochene Linie, Doppellinie, usw. Neben der Karte werden die Vorfahrtsregeln über die Verkehrsregelinformationen abgebil det. Hierzu wird in der Mitte einer jeden Fahrbahn eine Linie gezogen. An Kreuzun gen werden zusätzlich Linien gezogen, die alle zulässigen Manöver darstellen. Nach einem Aspekt der Erfindung werden implizit geregelte Information wie beispielsweise “Rechts vor Links” mit der Beschilderung überlagert. Gegebenenfalls widersprüchli che Regelinformationen werden in dieser Schicht zu einer konsistenten Regel aggre giert, so dass die dann geltenden Regeln als vorrangig behandelt werden.
Die vierte bis fünfte Schicht umfassen die zustandswechselnden statischen Umfeld merkmale. Verkehrsweiser umfassen zustandswechselnde und zustandsbehaftende Verkehrsweiser. Mit zustandswechselnden Verkehrsweisern werden meist optisch an den Fahrer übergebene Signale, die ihren Zustand im Laufe eines Tages mehrmals wechseln können, zusammengefasst. Beispiele dieser Kategorie sind Ampeln, Wech selverkehrszeichen auf Autobahnen und Einfahrtsanzeigen an Mautstellen. Diese Verkehrsweiser werden als den aktuellen Zustand repräsentierender Pixelwert in dem räumlichen Kontext der Umfeldszenen-Repräsentation dargestellt. Aus Gründen der Redundanz werden solche Pixelregionen in der Regel nicht auf ein Pixel be schränkt, sondern auf eine größere Anzahl von Pixel abgebildet. Die genaue Größe der Ausdehnung wird zumeist auch aus Daten auf ein Optimum angelernt. Die Anker- trajektorien kombinieren Information aus den Vorfahrtsregeln und aus den zustands wechselnden Verkehrsweisern. Die so ermittelten Ankertrajektorien werden nach ei nem Aspekt der Erfindung mit den Regeln der zustandswechselnden Verkehrsweiser in Einklang gebracht und entsprechend priorisiert. Die Schicht der Ankertrajektorien kann nach einem Aspekt der Erfindung je nach zeitlicher Anforderung an den Ver kehrsteilnehmer, beispielsweise an das Fahrsystem, die Schichten der Verkehrswei ser und/oder der Verkehrsregelinformationen ergänzen oder ersetzen.
Die sechste bis achte Schicht umfassen die dynamischen Umfeldmerkmale. Seman tisch-explizite Informationen umfassen Fahrzeugklasse, beispielsweise LKW, PKW, Motorrad, Bus, Shuttle, Fahrrad, Fußgänger, Höhe und/oder Breite der Objekte und/oder Zustände der Blinklichter. Semantisch-latente Informationen sind vom Men schen nicht direkt interpretierbar, sondern in gewisser Weise implizit in den Daten enthalten. Die latenten Informationen sind beispielsweise kontinuierliche Zahlen, mit denen die Robustheit gegenüber Rauschsignalen diskreter Klassen erhöht wird, bei spielsweise wenn eine diskrete Klassifizierung zwischen LKW und PKW schwankt. Die Bewegungsinformationen der achten Schicht umfassen die Trajektorienhistorien.
Das Bestimmen der Interaktionen umfasst ein Vorhersagen von möglichen zukünfti gen Interaktionen, nach einem Aspekt der Erfindung basierend auf den acht Schich ten der hybriden Szenen-Repräsentation. Interaktionen betreffen jegliche Wechsel wirkungen zwischen statischen und statischen, statischen und dynamischen und dy namischen und dynamischen Umfeldmerkmalen. In einem beispielhaften Szenario mit Interaktionen befindet sich ein PKW an einer Einmündung. An der Einmündung befindet sich ein Fußgänger. Die Vorfahrt wird über eine Ampel geregelt. Eine Inter aktion ist die Ampelschaltung. Zeigt die Ampelschaltung beispielsweise dem PKW die grüne Ampelphase an und dem Fußgänger die rote Ampelphase, dann sind die weiteren, gelernten oder in den Trajektorienhistorien vorhandenen, Interaktionen, dass der Fußgänger stehen bleibt und der PKW in die Einmündung einfährt.
Das erste Maschinenlernmodell wird beispielsweise mit Datenpaaren der Form
(HSRV_1 , GT_1 ), (HSRV_2, GT_2) . (HSRV_T, GT_T) trainiert. T gibt die Anzahl der Trainingsdatenpaare an. HSRV ist die jeweilige hybride Szenen-Repräsentation, auf deren Basis die Interaktionen und damit die Trajektorien vorhergesagt werden.
GT ist die jeweilige Referenz-Vorhersage, auch ground truth genannt, das heißt die Soll-Vorhersage. Die optimalen Parameter für das erste Maschinenlernmodell umfas send Werte für Gewichte werden dann durch ein Optimierungsverfahren, beispielsweise Gradient Descent, bestimmt. Die Parameter sind optimal, wenn die Abweichung der Ist-Vorhersagen, ausgegeben von dem ersten Maschinenlernmo dell, von den Soll-Vorhersagen minimiert ist.
Der Vorteil des erfindungsgemäßen Prozessierens der hybriden Szenen-Repräsenta- tion besteht darin, dass sich Informationen in der zweiten Schicht häufiger ändern als in der ersten Schicht. Durch die Erzeugung der ersten und zweiten Einbettung, wobei die erste und zweite Funktion unterschiedliche Aktualisierungsraten zur Laufzeit ha ben, wird die Inferenzzeit des ersten Maschinenlernmodells reduziert. Damit wird die gemeinsame Einbettung, das heißt eine Art endgültige Szenen Einbettung, schneller erzeugt.
Die Einbettung ist beispielsweise eine Einbettung in einen Merkmalsraum, in dem je der der Verkehrsteilnehmer über Koordinaten identifizierbar ist. Da die Einbettung hinsichtlich der räumlichen Auflösung die gleiche Dimensionalität aufweist wie die hybride Szenen-Repräsentation, können pro Verkehrsteilnehmer die zur Einordnung in die hybride Szenen-Repräsentation verwendeten Koordinaten genutzt werden, um die für den Verkehrsteilnehmer relevanten Informationen aus der gemeinsamen Ein bettung zu erhalten. Die Verkehrsteilnehmer-spezifischen Interaktionen werden aus der Einbettung beispielsweise dadurch bestimmt, dass für jeden der Verkehrsteilneh mer Merkmale, auch features genannt, der gemeinsamen Einbettung an der den Ko ordinaten des jeweiligen Verkehrsteilnehmers entsprechenden Stelle extrahiert wer den. Diese Merkmale umfassen alle für den jeweiligen Verkehrsteilnehmer relevan ten Interaktionen. Durch Fusionieren dieser Merkmale mit den jeweiligen Verkehrs teilnehmer-spezifischen dynamischen Merkmale wird die Vorhersage von Trajekto- rien für den jeweiligen Verkehrsteilnehmer basierend auf allen Interaktionen der ge meinsamen Einbettung berechnet.
Dadurch, dass einzelne, nach einem Aspekt der Erfindung jede, der Trajektorienhis- torien auf mehrere mögliche vorhergesagte Trajektorien dekodiert werden, wird eine Vielzahl von möglichen Zukunftsmodi berechnet, das heißt es entsteht ein one-to- many-mapping. Das erste Maschinenlernmodell lernt Wahrscheinlichkeitsdichtefunk tionen der unterschiedlichen Modi. Damit wird das one-to-many-mapping explizit durch Lernen von mehreren Modi abgeschätzt im Gegensatz zu einer impliziten Ab schätzung mittels generativen adversariellen Netzwerken. Das ist vorteilhaft für ein Trainingsverfahren des ersten Maschinenlernmodells, da sonst das Mode-Collapse- Problem das Training beeinträchtigen würde.
Die Befehle des erfindungsgemäßen Computerprogramms umfassen Maschinenbe fehle, Quelltext oder Objektcode geschrieben in Assemblersprache, einer objektori entierten Programmiersprache, beispielsweise C++, oder in einer prozeduralen Pro grammiersprache, beispielsweise C. Das Computerprogramm ist nach einem Aspekt der Erfindung ein Hardware unabhängiges Anwendungsprogramm, das beispiels weise über einen Datenträger oder ein Datenträgersignal mittels Software Over The Air Technologie bereitgestellt wird.
Das Interaktions-Tensor-Pooling-Modul und das Interaktions-Vektor-Extraktions-Mo- dul umfassen Software- und/oder Hardwarekomponenten. Nach einem Aspekt der Erfindung bezieht sich die Anordnung auf Recheneinheiten, die die einzelnen Kodie rer, Dekodierer, Netzwerke und Module ausführen. Nach einem weiteren Aspekt der Erfindung umfassen die Dekodierer der Anordnung einen Aufmerksamkeitsmecha nismus. Nach einem weiteren Aspekt der Erfindung führt die Anordnung das erfin dungsgemäße Verfahren oder das erfindungsgemäße Computerprogramm aus.
Nach einem weiteren Aspekt der Erfindung wird eine erste Funktion des ersten Ma schinenlernmodells auf die erste Schicht angewendet und eine erste Einbettung der starren statischen Umfeldmerkmale wird erzeugt. Eine zweite Funktion wird auf die zweite Schicht angewendet und eine zweite Einbettung der zustandswechselnden statischen Umfeldmerkmale wird erzeugt. Eine dritte Funktion wird auf die dritte Schicht angewendet wird und eine dritte Einbettung der dynamischen Umfeldmerk male wird erzeugt. Die erste, zweite und dritte Einbettung werden zusammengeführt werden und als eine gemeinsame Einbettung von dem Maschinenlernmodell ausge geben. Der Begriff Einbettung bezieht sich sowohl auf die Einbettung, die mit der Funktion erzeugt wird, die auf alle Schichten gemeinsam angewendet wird, als auch auf die gemeinsame Einbettung. Nach einem weiteren Aspekt der Erfindung werden die starren statischen Umfeld merkmale durch Schichten eines ersten künstlichen neuronalen Netzwerks prozes siert und in einen ersten Tensor eingebettet werden. Die zustandswechselnden stati schen Umfeldmerkmale werden durch Schichten eines zweiten künstlichen neurona len Netzwerks prozessiert und in einen zweiten Tensor eingebettet. Die dynamischen Umfeldmerkmale werden durch Schichten eines dritten künstlichen neuronalen Netz werks prozessiert und in einen dritten Tensor eingebettet. Die gemeinsame Einbet tung ist ein vierter Tensor erhalten aus einer räumlichen Konkatenation des ersten, zweiten und dritten Tensors.
Das Prozessieren der Schichten des ersten, zweiten und dritten künstlichen neurona len Netzwerks ist eine Ausführungsform der ersten, zweiten und dritten Funktion. Ak tivierungsfunktionen von Neuronenverbindungen sind beispielsweise nicht-lineare Funktionen. Damit stellen das Prozessieren der Schichten des ersten, zweiten und dritten künstlichen neuronalen Netzwerks nicht-lineare Funktionen dar.
Tensoren umfassen beispielsweise Skalare, Vektoren, Kovektoren und Matrizen. Nach einem Aspekt der Erfindung unterscheiden sich der erste, zweite und dritte Tensor in einer semantischen Tiefe. Der vierte Tensor stellt einen Multi-Agenten-Sze- nen-Tensor dar, wobei die Agenten den Verkehrsteilnehmern entsprechen und die Fahrsysteme umfassen. Der Multi-Agenten-Szenen-Tensor wird also basierend auf der hybriden Szenen-Repräsentation mit dem ersten Maschinenlernmodell berechnet und modelliert die gesamten Interaktionen eines Szenarios. In diesem Zusammen hang wir das erste Maschinenlernmodell auch Interaktionsnetzwerk genannt. Da der Multi-Agenten-Szenen-Tensor hinsichtlich der räumlichen Auflösung die gleiche Di- mensionalität aufweist wie die hybride Szenen-Repräsentation, können pro Verkehrs teilnehmer die zur Einordnung der jeweiligen Tensoren in die hybride Szenen-Reprä sentation verwendeten Koordinaten genutzt werden, um die für die Verkehrsteilneh mer relevanten Informationen aus der gemeinsamen Einbettung zu erhalten. Flierzu werden die Merkmale oder features des Multi-Agenten-Szenen-Tensors an eben der diesen Koordinaten entsprechenden Stelle genutzt und bilden so pro Verkehrsteil nehmer eine Multi-Agenten-Szenen-Einbettung. Da für jeden Verkehrsteilnehmer alle für den jeweiligen Verkehrsteilnehmer relevanten Interaktionen mittels des Multi- Agenten-Szenen-Tensors betrachtet werden, wird die Multi-Agenten-Szenen-Einbet- tung auch joint multi agent scene embedding genannt, abgekürzt JoMASE.
Erfindungsgemäß wird der Multi-Agenten-Szenen-Tensor genutzt, um pro Verkehrs teilnehmer einer Szene eine Multi-Agenten-Szenen-Einbettung zu generieren. Hier bei werden pro Verkehrsteilnehmer die Merkmale des Multi-Agenten-Szenen-Ten- sors an der den Koordinaten des Verkehrsteilnehmers entsprechenden Stelle extra hiert und mit der dritten Einbettung des Verkehrsteilnehmers fusioniert. Nach einem Aspekt der Erfindung kann die Fusion früher stattfinden. Dieses Extrahieren wird auch Interaktions-Vektor-Extraktion genannt. Jeder Verkehrsteilnehmer, insbeson dere jedes Fahrsystem, entspricht einem Vektor in dem Multi-Agenten-Szenen-Ten- sor. Damit werden die Verkehrsteilnehmer-, insbesondere die Fahrsystem-spezifi schen Einbettungen erhalten.
Nach einem Aspekt der Erfindung werden die kodierten dynamischen Umfeldmerk male aus der Vogelperspektive in einem räumlichen Tensor platziert, der mit 0 initiali siert ist und die gleiche Form, beispielsweise Breite und Höhe, hat wie das Bild der kodierten statischen Umfeldmerkmale. Dabei werden die kodierten dynamischen Um feldmerkmale umfassend die Trajektorienhistorien in den räumlichen Tensor in Be zug auf ihre Positionen im letzten Zeitschritt ihrer vergangenen Trajektorien platziert. Dieser Tensor wird dann mit dem Bild der kodierten statischen Umfeldmerkmale kon- kateniert und die hybride Szenen-Repräsentation wird als ein kombinierter Tensor er halten. Diese Informationskombination ist ein Tensor-Pooling-Verfahren und wird In- teraktions-Tensor-Pooling genannt. Dieser kombinierte Tensor wird von dem ersten Maschinenlernmodell prozessiert, das die Interaktionen zwischen den Verkehrsteil nehmern und zwischen den Verkehrsteilnehmern und den statischen Umfeldmerkma len erfindungsgemäß unter Beibehaltung der Lokalität bestimmt und den Multi-Agen- ten-Szenen-Tensor ausgibt.
Nach einem weiteren Aspekt der Erfindung umfasst das erste Maschinenlernmodell Sprungverbindungen, durch die Schichten beim Prozessieren des Maschinenlernmo dells übersprungen werden, beispielsweise zwei- oder dreifacher Schichtensprung. Die Sprungverbindungen werden auch skip-connections genannt. Die Sprungverbindungen machen vorteilhafterweise high-level features der Interaktion zugänglich. Nach einem Aspekt der Erfindung umfassen die Sprungverbindungen re siduale Verbindungen, die eine Restfunktion in Bezug auf die Schichteingänge lernt, wie beispielsweise in residualen neuronalen Netzwerken verwendet. Nach einem weiteren Aspekt der Erfindung umfassen die Sprungverbindungen verkettete Sprung verbindung. Eine verkettete Sprungverbindung versucht, Merkmale wiederzuverwen den, indem sie zu neuen Schichten verkettet werden, so dass mehr Informationen aus vorherigen Schichten des Netzwerks erhalten bleiben. Dies steht im Gegensatz zu beispielsweise den residualen Verbindungen, bei denen stattdessen eine ele mentweise Summierung verwendet wird, um Informationen aus früheren Schichten zu übernehmen.
Nach einem weiteren Aspekt der Erfindung wird der vierte Tensor durch Schichten eines vierten künstlichen neuronalen Netzwerks prozessiert. Das vierte künstliche neuronale Netzwerk gibt ein Ausgabevolumen aus, dessen Größe gleich der hybri den Szenen-Repräsentation ist. In dem Ausgabevolumen sind die Verkehrsteilneh mer basierend auf ihrer realen räumlichen Anordnung positioniert. Durch das vierte künstliche neuronale Netzwerk werden die in dem vierten Tensor, beispielsweise in dem Multi-Agenten-Szenen-Tensor, enthaltenen Informationen fusioniert.
Nach einem weiteren Aspekt der Erfindung werden die Einbettungen mit Faltungs netzwerken erzeugt. Nach einem weiteren Aspekt der Erfindung ist das erste Maschi nenlernmodell ein Faltungsnetzwerk. Nach einem weiteren Aspekt der Erfindung sind das erste, zweite, dritte und vierte künstliche neuronale Netzwerk separate Faltungs netzwerke oder einzelne Funktionsblöcke in dem als Faltungsnetzwerk realisiertem ersten Maschinenlernmodell. Faltungsnetzwerke, auch convolutional neural networks genannt, abgekürzt CNN, sind besonders vorteilhaft zum Verarbeiten von großen Da tenmengen und von als Bilder darstellbaren Daten.
Nach einem weiteren Aspekt der Erfindung werden für jeden der Verkehrsteilnehmer die Verkehrsteilnehmer-spezifischen Einbettungen von vergangen Zeitschritten der Trajektorienhistorien der Verkehrsteilnehmer in einzelnen Zeitschritten des Dekodierens unterschiedlich gewichtet. Damit wird ein Aufmerksamkeitsmechanis mus angewendet.
Ein Aspekt der Erfindung sieht ein Aufmerksamkeitsmodul oder attention layer vor, in dem Ausgaben des Enkoders akkumuliert werden. Das Aufmerksamkeitsmodul führt einen Aufmerksamkeitsalgorithmus aus, durch den während der Dekodierung der Einfluss jedes vergangenen Zeitschrittes der Trajektorienhistorien auf die aktuellen oder zukünftigen Trajektorien bewertet wird und dem Dekoder die relevantesten der vergangenen Zeitschritte der Trajektorienhistorien bereitgestellt werden.
Ein weiterer Aspekt der Erfindung sieht eine Transformer-Architektur mit self-at- tention vor, die auf sequentiellen Enkoder- und Dekoder-Blöcken mit einer ähnlichen Architektur basiert. Jeder der Enkoder-Blöcke umfasst beispielsweise eine self-at- tention Schicht und eine feed forward Schicht. Jeder der Dekoder-Blöcke umfasst beispielsweise eine self-attention Schicht, eine feed forward Schicht und eine dazwi schen angeordnete Enkoder-Dekoder-self-attention Schicht. Der self-attention Algo rithmus ist beispielsweise in D. Gizlyk, Neuronale Netze leicht gemacht (Teil 8): At tention Mechanismen, 8. Februar 2021 , https://www.mql5.com/de/artic- Ies/8765#para2, beschrieben. Transformer Architekturen basieren beispielsweise auf Bidirectional Encoder Representations from Transformers, abgekürzt BERT, oder auf Generative Pre-trained Transformer, abgekürzt GPT.
Die Aufmerksamkeitsmechanismen verbessern die Vorhersagen, insbesondere lang fristige Vorhersagen, und löst das Problem des Information morphing. Ein Vorteil des Dekodierens mit Aufmerksamkeitsmechanismus ist eine bessere Langzeitvorher sage. Ein weiterer Vorteil des Dekodierens mit Aufmerksamkeitsmechanismus ist eine bessere Erklärbarkeit, da es ermöglicht wird, zu jedem Zeitschritt der Dekodier- Zeit herauszufinden, welche Zeitschritte in der Vergangenheit für die Vorhersage ein flussreicher waren.
Nach einem weiteren Aspekt der Erfindung werden für jeden der Verkehrsteilnehmer die Verkehrsteilnehmer-spezifischen Einbettungen in einen ersten Datenstrom, der verschiedene plausible Trajektorien vorhersagt, und in einen zweiten Datenstrom, der Wahrscheinlichkeiten der vorhergesagten Trajektorien gegeneinander bewertet und einen entsprechenden Wert ausgibt, dekodiert. Die Wahrscheinlichkeiten basie ren auf den Trajektorienhistorien und den berechneten Interaktionen.
Nach einem weiteren Aspekt der Erfindung werden die starren statischen Umfeld merkmale umfassend Karteninformationen und die zustandswechselnden statischen Umfeldmerkmale umfassend Verkehrsweiser und/oder Ankertrajektorien aus realen Daten von Umfelderkennungssensoren und/oder von Karten und/oder aus virtuellen Daten mit einem zweiten Maschinenlernmodell umfassend Schichten eines Faltungs netzwerks kodiert. Damit wird eine umfangreiche Datenbasis bereitgestellt, die ein Training der Maschinenlernmodelle verbessert. Das zweite Maschinenlernmodell ko diert die genannten statischen Umfeldmerkmale beispielsweise in eine semantische Merkmalskarte, auch feature map, genannt, in der die einzelnen Merkmale entspre chend dem Schichtaufbau der hybriden Szenen-Repräsentation, gestapelt angeord net sind. Das zweite Maschinenlernmodell ist damit ein Szenen-Informations-Kodie- rer, insbesondere ein CNN-Kodierer. Hierfür eignen sich Faltungsnetzwerke beson ders gut.
Daten von Umfelderkennungssensoren umfassen Roh- und/oder beispielsweise mit Filtern, Verstärkern, Serializern, Komprim ierungs- und/oder Konvertierungseinheiten vorverarbeitete Daten von an dem Fahrsystem angeordneten Kameras, Radarsenso ren, Lidarsensoren, Ultraschallsensoren, Akustiksensoren, Car2X-Einheiten und/oder Echtzeit-/Offlinekarten. Die virtuellen Daten werden beispielsweise mittels Software-, Hardware-, Model- und/oder Vehicle-in-the-Loop Verfahren erzeugt. Nach einem wei teren Aspekt der Erfindung werden die realen Daten virtuell augmentiert und/oder va riiert.
Nach einem weiteren Aspekt der Erfindung werden die dynamischen Umfeldmerk male umfassend die Trajektorienhistorien der Verkehrsteilnehmer, basierend auf rea len Fahrdaten und/oder auf virtuellen Daten, mit einem dritten Maschinenlernmodell umfassend Schichten eines rekurrenten Netzwerks kodiert. Rekurrente Netzwerke, auch recurrent neural networks genannt, abgekürzt RNN, erkennen die zeitlich ko dierten Daten in den Trajektorienhistorien. Nach einem Aspekt der Erfindung ist das rekurrente Netzwerk als ein long short-term memory Netzwerk, abgekürzt LSTM, o- der als ein gated recurrent unit Netzwerk umgesetzt. Das dritte Maschinenlernmodell ist damit ein RNN-Kodierer. Nach einem Aspekt der Erfindung wird die Kodierung des dritten Maschinenlernmodells mit der semantischen Merkmalskarte des zweiten Maschinenlernmodells überlagert.
Nach einem weiteren Aspekt der Erfindung werden die Verkehrsteilnehmer-spezifi schen Einbettungen von einem vierten Maschinenlernmodell umfassend Schichten eines rekurrenten Netzwerks dekodiert. Das vierte Maschinenlernmodell ist damit ein RNN-Dekodierer. Nach einem Aspekt der Erfindung wird der erste Datenstrom, der verschiedene plausible Trajektorien vorhersagt, von einem ersten RNN-Dekodierer dekodiert. Der erste RNN-Dekodierer wird Wahrscheinlichkeits-Dekodierer genannt. Der zweite Datenstrom, der die Wahrscheinlichkeiten der vorhergesagten Trajekto rien gegeneinander bewertet und einen entsprechenden Wert ausgibt, wird von ei nem zweiten RNN-Dekodierer dekodiert. Der zweite RNN-Dekodierer wird Trajekto- rien-Dekodierer genannt.
Nach einem weiteren Aspekt der Erfindung bestimmt ein Steuergerät eines der Fahr systeme für automatisierte Fahrfunktionen Regel- und/oder Steuersignale basierend auf den vorhergesagten Trajektorien und stellt diese Signale Aktuatoren für Längs und/oder Querführung des Fahrsystems bereit.
Die Erfindung wird in den folgenden Ausführungsbeispielen verdeutlicht. Es zeigen:
Fig. 1 eine Darstellung einer erfindungsgemäßen hybriden Szenen-Repräsentation,
Fig. 2 eine Darstellung des erfindungsgemäßen Verfahrens,
Fig. 3 eine Darstellung der erfindungsgemäßen Netzwerkarchitektur,
Fig. 4 eine Darstellung von erfindungsgemäßen Verkehrsteilnehmer-spezifischen Einbettungen und Fig. 5 eine Flussdiagramm des erfindungsgemäßen Verfahrens.
In den Figuren bezeichnen gleiche Bezugszeichen gleiche oder funktionsähnliche Bezugsteile. Übersichtshalber werden in den einzelnen Figuren nur die jeweils rele vanten Bezugsteile hervorgehoben.
Fig. 1 zeigt beispielhaft eine erfindungsgemäße hybride Szenen-Repräsentation HSRV. In der dargestellten Umfeldszene U befindet sich ein PKW als Beispiel eines Verkehrsteilnehmers R an einer Einmündung. Der PKW ist beispielsweise das Ego- Fahrsystem. An der Einmündung befindet sich ein Fußgänger W. Die Vorfahrt wird über eine Ampel L geregelt. Die Ampelschaltung L zeigt dem PKW R die grüne Ampelphase an und dem Fußgänger W die rote. Über der Darstellung dieser Situation aus der Vogelperspektive werden die verschiedenen Schichten, die für die Vorhersage der T rajektorien der Verkehrsteilnehmer wesentlich sind, abgebildet.
In Schicht A wird die regionale Information dargestellt. Schicht B bedient sich der Karteninformation, Schicht C der Verkehrsregelinformation. Die zustandsbehafteten Verkehrsweiser und die Ankertrajektorien sind in Schicht D und Schicht E enthalten. In Schicht F werden semantische Merkmale der einzelnen Verkehrsteilnehmer beschrieben. Schicht G und Schicht H enthalten latente Information, wobei diese Information in Schicht G auf Eigenschaften, die den Verkehrsteilnehmer beschrieben, und in Schicht H auf dem dynamischen Bewegungsverhalten basiert.
Die Schichten A bis E sind statische Schichten und beschreiben statische Umfeldmerkmale stat der Umfeldszene U. Dabei beschreiben die Schichten A bis C starre statische Umfeldmerkmale stat_1 und die Schichten D und E zustandswechselnde statische Umfeldmerkmale stat_2.
Die Schichten F bis H sind dynamische Schichten und beschreiben dynamische Umfeldmerkmale dyn der Umfeldszene U.
Fig. 2 zeigt eine Darstellung des erfindungsgemäßen Verfahrens. Die statischen Umfeldmerkmale stat und die dynamischen Umfeldmerkmale dyn wurden in die hybride Szenen-Repräsentation HSRV zusammengeführt. Die erfindungsgemäßen Maschinenlernmodelle erhalten diese hybride Szenen-Repräsentation HSRV als Eingabe und berechnen für jeden Verkehrsteilnehmer R eine spezifische Einbettung JoMASE. Aus den Verkehrsteilnehmer-spezifischen Einbettungen JoMASE werden zukünftige Trajektorien mit zugehörigen Wahrscheinlichkeiten dekodiert.
Fig. 3 zeigt eine Anordnung einer erfindungsgemäßen Netzwerkarchitektur.
Fig. 4 zeigt eine Darstellung der erfindungsgemäßen Verkehrsteilnehmer-spezifi schen Einbettungen JoMASE.
Ein drittes Maschinenlernmodell RNN-Kodierer kodiert die Trajektorienhistorien TH von Verkehrsteilnehmern basierend auf realen Fahrdaten und/oder auf virtuellen Da ten. Ein zweites Maschinenlernmodell CNN-Kodierer kodiert Szenen-Informationen umfassend die starren statischen Umfeldmerkmale stat_1 und die zustandswech selnden statischen Umfeldmerkmale stat_2. Ein Interaktions-Tensor-Pooling-Modul ITPM führt die Kodierungen des RNN- und CNN-Kodierers zusammen und erzeugt daraus die hybride Szenen-Repräsentation HSRV wie in Fig. 1 gezeigt.
Ein erstes Maschinenlernmodell IntCNN in Form eines Faltungsnetzwerks CNN be stimmt basierend auf der hybriden Szenen-Repräsentation HSRV die Interaktionen zwischen den statischen stat, dynamischen dyn und zwischen den statischen stat und dynamischen Umfeldmerkmalen dyn und fusioniert diese Interaktionen. Dabei er zeugt das erste Maschinenlernmodell IntCNN eine erste Einbettung der starren stati schen Umfeldmerkmale stat_1 in Form einer ersten Tensor-Einbettung, eine zweite Einbettung der zustandswechselnden statischen Umfeldmerkmale stat_2 in Form ei ner zweiten Tensor-Einbettung und eine dritte Einbettung der dynamischen Umfeld merkmale dyn in Form einer dritten Tensor-Einbettung. Die erste, zweite und dritte Einbettung werden in eine gemeinsame Einbettung M in Form eines Multi-Agenten- Szenen-Tensors zusammengeführt.
Ein Interaktions-Vektor-Extraktions-Modul IVEM extrahiert pro Verkehrsteilnehmer R die Merkmale des Multi-Agenten-Szenen-Tensors M an der den Koordinaten des Verkehrsteilnehmers R entsprechenden Stelle und fusioniert diese mit der dritten Tensor-Einbettung des Verkehrsteilnehmers R. Pro Verkehrsteilnehmer R und pro Szene wird die Multi-Agenten-Szenen-Einbettung JoMASE erzeugt.
Ein viertes Maschinenlernmodell RNN-Trajektorien-Dekodierer dekodiert in einem ersten Strang die Multi-Agenten-Szenen-Einbettung JoMASE und gibt pro Verkehrs teilnehmer R vorhergesagte Trajektorien aus. Ein RNN- Wahrscheinlichkeits-Deko dierer des vierten Maschinenlernmodells dekodiert in einem zweiten Strang die Multi- Agenten-Szenen-Einbettung JoMASE und bewertet pro Verkehrsteilnehmer R Wahr scheinlichkeiten der vorhergesagten Trajektorien gegeneinander und gibt jeweils ei nen entsprechenden Wert aus. Die Dekodierer des vierten Maschinenlernmodells umfassen beispielsweise rekurrente Netzwerke RNN.
Fig. 5 zeigt das erfindungsgemäße Verfahren als Flussdiagramm.
In einem Verfahrensschritt V1 werden die bereitgestellten kodierten statischen stat und dynamischen Umfeldmerkmalen dyn von dem Interaktions-Tensor-Pooling-Mo- dul ITPM räumlich zusammengeführt.
In einem Verfahrensschritt V2 wird die mittels des Interaktions-Tensor-Pooling-Modul ITPM die hybriden Szenen-Repräsentation FISRV erhalten.
In einem Verfahrensschritt V3 wird die hybride Szenen-Repräsentation FISRV von dem ersten Maschinenlernmodell IntCNN prozessiert. Das erste Maschinenlernmo dell IntCNN bestimmt dabei die erste Einbettung der starren statischen Umfeldmerk male stat_1 , die zweite Einbettung der zustandswechselnden statischen Umfeld merkmale stat_2 und die dritte Einbettung der dynamischen Umfeldmerkmale dyn. Die erste, zweite und dritte Einbettung werden zusammengeführt und als eine ge meinsame Einbettung M von dem ersten Maschinenlernmodell IntCNN ausgegeben.
In einem Verfahrensschritt V4 werden aus der gemeinsamen Einbettung M die Ver kehrsteilnehmer R spezifischen Interaktionen bestimmt und mit den Verkehrsteilneh mer R spezifischen dynamischen Umfeldmerkmalen dyn für jeden der Verkehrsteilnehmer R fusioniert. Aus der Fusion wird die Verkehrsteilnehmer R spe zifische Einbettung JoMASE für jeden der Verkehrsteilnehmer R erzeugt.
In einem Verfahrensschritt V5 werden die Verkehrsteilnehmer R spezifischen Einbet tungen JoMASE dekodiert und die vorhergesagten Trajektorien für jeden der Ver kehrsteilnehmer R erhalten, wobei einzelne der Trajektorienhistorien TH jeweils auf mehrere mögliche vorhergesagte Trajektorien abgebildet werden.
Bezuqszeichen
R Verkehrsteilnehmer
L Ampel
W Fußgänger
U Umfeldszene
TH Trajektorienhistorie dyn dynamische Umfeldmerkmale stat statische Umfeldmerkmale stat_1 starre statische Umfeldmerkmale stat_2 zustandswechselnde statische Umfeldmerkmale
Map Karteninformation
HSRV hybriden Szenen-Repräsentation
A-H Schichten der HSRV
IntCNN erstes Maschinenlernmodell
CNN Faltungsnetzwerk
M gemeinsame Einbettung
JoMASE Verkehrsteilnehmer-spezifische Einbettung CNN-Kodierer zweites Maschinenlernmodell
RNN-Kodierer drittes Maschinenlernmodell
RNN rekurrentes Netzwerk
RNN-Trajektorien-Dekodierer viertes Maschinenlernmodell RNN- Wahrscheinlichkeits-Dekodierer viertes Maschinenlernmodell ITPM Interaktions-Tensor-Pooling-Modul IVEM Interaktions-Vektor-Extraktions-Modul V1 -V5 Verfahrensschritte

Claims

Patentansprüche
1. Computerimplementiertes Verfahren zum Vorhersagen und Planen von Trajekto- rien umfassend die Schritte
• räumliches Zusammenführen von bereitgestellten kodierten statischen (stat) und dynamischen (dyn) Umfeldmerkmalen (V1) und Erhalten einer hybriden Szenen-Repräsentation (HSRV) umfassend wenigstens eine erste Schicht (A, B, C) umfassend starre statische Umfeldmerkmale (stat_1), eine zweite (D, E) Schicht umfassend zustandswechselnde statische Umfeldmerkmale (stat_2) und eine dritte Schicht (F, G, H) umfassend die dynamischen Umfeldmerk male (dyn) umfassend Trajektorienhistorien (TH) von Verkehrsteilnehmern (R) umfassend jeweils wenigstens Positionen des Verkehrsteilnehmers (R) in Ab hängigkeit der Zeit (V2);
• Prozessieren eines ersten Maschinenlernmodells (IntCNN) (V3), das als Ein gabe die hybride Szenen-Repräsentation (HSRV) erhält und trainiert ist oder mittels Referenz-Vorhersagen trainiert wird, Interaktionen zwischen den stati schen (stat) und dynamischen(dyn) Umfeldmerkmalen zu bestimmen, wobei eine Funktion des ersten Maschinenlernmodells (IntCNN) auf die erste Schicht (A,B, C), die zweite Schicht (D, E) und die dritte Schicht (F, G, H) angewendet wird und eine Einbettung (M) der starren statischen Umfeldmerkmale (stat_1), der zustandswechselnden statischen Umfeldmerkmale (stat_2) und der dyna mischen Umfeldmerkmale (dyn) erzeugt wird und die Einbettung (M) von dem Maschinenlernmodell (IntCNN) ausgegeben wird;
• Bestimmen von Verkehrsteilnehmer (R) spezifischen Interaktionen aus der ge meinsamen Einbettung (M) und Fusionieren dieser mit den Verkehrsteilneh mer (R) spezifischen dynamischen Umfeldmerkmalen (dyn) für jeden der Ver kehrsteilnehmer (R) und Erhalten einer Verkehrsteilnehmer (R) spezifischen Einbettung (JoMASE) für jeden der Verkehrsteilnehmer (R) (V4);
• Dekodieren der Verkehrsteilnehmer (R) spezifischen Einbettungen (JoMASE) und Erhalten von vorhergesagten Trajektorien für jeden der Verkehrsteilneh mer (R), wobei einzelne der Trajektorienhistorien (TH) jeweils auf mehrere mögliche vorhergesagte Trajektorien abgebildet werden (V5).
2. Verfahren nach Anspruch 1 , wobei eine erste Funktion des ersten Maschinenlern modells (IntCNN) auf die erste Schicht (A,B, C) angewendet wird und eine erste Ein bettung der starren statischen Umfeldmerkmale (stat_1 ) erzeugt, eine zweite Funk tion auf die zweite Schicht (D, E) angewendet wird und eine zweite Einbettung der zustandswechselnden statischen Umfeldmerkmale (stat_2) erzeugt, eine dritte Funk tion auf die dritte Schicht (F, G, Fl) angewendet wird und eine dritte Einbettung der dynamischen Umfeldmerkmale (dyn) erzeugt und die erste, zweite und dritte Einbet tung zusammengeführt werden und als eine gemeinsame Einbettung (M) von dem Maschinenlernmodell (IntCNN) ausgegeben werden.
3. Verfahren nach einem der vorangehenden Ansprüche, wobei die starren stati schen Umfeldmerkmale (stat_1 ) durch Schichten eines ersten künstlichen neurona len Netzwerks prozessiert und in einen ersten Tensor eingebettet werden, die zu standswechselnden statischen Umfeldmerkmale (stat_2) durch Schichten eines zwei ten künstlichen neuronalen Netzwerks prozessiert und in einen zweiten Tensor ein gebettet werden, die dynamischen Umfeldmerkmale (dyn) durch Schichten eines drit ten künstlichen neuronalen Netzwerks prozessiert und in einen dritten Tensor einge bettet werden, und die gemeinsame Einbettung ein vierter Tensor ist erhalten aus ei ner räumlichen Konkatenation des ersten, zweiten und dritten Tensors.
4. Verfahren nach einem der vorangehenden Ansprüche, wobei das erste Maschi nenlernmodell (IntCNN) Sprungverbindungen umfasst, durch die Schichten beim Pro zessieren des Maschinenlernmodells (IntCNN) übersprungen werden.
5. Verfahren nach einem der vorangehenden Ansprüche, wobei der vierte Tensor durch Schichten eines vierten künstlichen neuronalen Netzwerks prozessiert wird und das vierte künstliche neuronale Netzwerk ein Ausgabevolumen, dessen Größe gleich der hybriden Szenen-Repräsentation (FISRV) ist, ausgibt, und in dem Ausga bevolumen die Verkehrsteilnehmer (R) basierend auf ihrer realen räumlichen Anord nung positioniert sind.
6. Verfahren nach einem der vorangehenden Ansprüche, wobei die Einbettungen (M, JoMASE) mit Faltungsnetzwerken (CNN) erzeugt werden.
7. Verfahren nach einem der vorangehenden Ansprüche, wobei für jeden der Ver kehrsteilnehmer (R) die Verkehrsteilnehmer (R) spezifischen Einbettungen von ver gangen Zeitschritten der Trajektorienhistorien (TH) der Verkehrsteilnehmer (R) in ein zelnen Zeitschritten des Dekodierens unterschiedlich gewichtet werden.
8. Verfahren nach einem der vorangehenden Ansprüche, wobei für jeden der Ver kehrsteilnehmer (R) die Verkehrsteilnehmer (R) spezifischen Einbettungen in einen ersten Datenstrom, der verschiedene plausible Trajektorien vorhersagt, und in einen zweiten Datenstrom, der Wahrscheinlichkeiten der Trajektorien gegeneinander be wertet und einen entsprechenden Wert ausgibt, dekodiert werden.
9. Verfahren nach einem der vorangehenden Ansprüche, wobei die starren stati schen Umfeldmerkmale (stat_1 ) umfassend Karteninformationen (Map) und die zu standswechselnden statischen Umfeldmerkmale (stat_2) umfassend Verkehrsweiser und/oder Ankertrajektorien aus realen Daten von Umfelderkennungssensoren und/o der von Karten und/oder aus virtuellen Daten mit einem zweiten Maschinenlernmo dell (CNN-Kodierer) umfassend Schichten eines Faltungsnetzwerks (CNN) kodiert werden.
10. Verfahren nach einem der vorangehenden Ansprüche, wobei die dynamischen Umfeldmerkmale (dyn) umfassend die Trajektorienhistorien (TH) der Verkehrsteilneh mer (R), basierend auf realen Fahrdaten und/oder auf virtuellen Daten, mit einem dritten Maschinenlernmodell (RNN-Kodierer) umfassend Schichten eines rekurrenten Netzwerks (RNN) kodiert werden.
11 . Verfahren nach einem der vorangehenden Ansprüche, wobei die Verkehrsteil nehmer (R) spezifischen Einbettungen von einem vierten Maschinenlernmodell (RNN-Trajektorien-Dekodierer, RNN- Wahrscheinlichkeits-Dekodierer) umfassend Schichten eines rekurrenten Netzwerks (RNN) dekodiert werden.
12. Verfahren nach einem der vorangehenden Ansprüche, wobei ein Steuergerät ei nes der Fahrsysteme (R) für automatisierte Fahrfunktionen basierend auf den vorhergesagten Trajektorien Regel- und/oder Steuersignale bestimmt und diese Ak tuatoren für Längs- und/oder Querführung des Fahrsystems bereitstellt.
13. Computerprogramm zum Vorhersagen und Planen von Trajektorien umfassend Befehle, die bewirken, dass ein Computer, umfassend einen Computer eines Steuer geräts eines Fahrsystems für automatisierte Fahrfunktionen, die Schritte eines Ver fahrens nach einem der vorangehenden Ansprüche ausführt, wenn das Computer programm auf dem Computer läuft.
14. Anordnung zum Vorhersagen und Planen von Trajektorien umfassend
• einen RNN-Kodierer, der dynamische Umfeldmerkmale (dyn) umfassend Trajektorienhistorien (TH) von Verkehrsteilnehmer (R) basierend auf realen Fahrdaten und/oder auf virtuellen Daten kodiert;
• einen CNN-Kodierer, der Szenen-Informationen umfassend starre statische Umfeldmerkmale (stat_1) und zustandswechselnde statische Umfeldmerkmale (stat_2) kodiert;
• ein Interaktions-Tensor-Pooling-Modul (ITPM), das die Kodierungen des RNN- und CNN-Kodierers zusammenführt und eine hybride Szenen-Repräsentation (HSRV) umfassend wenigstens eine erste Schicht (A, B, C) umfassend die starren statische Umfeldmerkmale (stat_1), eine zweite Schicht (D, E) umfas send die zustandswechselnden statische Umfeldmerkmale (stat_2) und eine dritte Schicht (F, G, H) umfassend dynamische Umfeldmerkmale (dyn) umfas send die Trajektorienhistorien (TH) erzeugt;
• ein CNN-Interaktionsnetzwerk (IntCNN), das basierend auf der hybriden Sze nen-Repräsentation (HSRV) Interaktionen zwischen den statischen (stat), dy namischen (dyn) und zwischen den statischen (stat) und dynamischen Um feldmerkmalen (dyn) bestimmt, wobei das CNN-Interaktionsnetzwerk (IntCNN) eine erste Tensor-Einbettung der starren statischen Umfeldmerkmale (stat_1 ), eine zweite Tensor-Einbettung der zustandswechselnden statischen Umfeld merkmale (stat_2) und eine dritte Tensor-Einbettung der dynamischen Um feldmerkmale (dyn) erzeugt und die erste, zweite und dritte Tensor-Einbettung in einen Multi-Agenten-Szenen-Tensor zusammengeführt; • ein Interaktions-Vektor-Extraktions-Modul (IVEM), das pro Verkehrsteilnehmer (R) die Merkmale des Multi-Agenten-Szenen-Tensors an der den Koordinaten des Verkehrsteilnehmers (R) entsprechenden Stelle extrahiert, mit der dritten Tensor-Einbettung des Verkehrsteilnehmers (R) fusioniert und pro Verkehrs teilnehmer (R) und pro Szene eine Multi-Agenten-Szenen-Einbettung (JoMASE) erzeugt;
• einen RNN-Trajektorien-Dekodierer, der die Multi-Agenten-Szenen-Einbettung (JoMASE) dekodiert und pro Verkehrsteilnehmer (R) Trajektorien vorhersagt und ausgibt;
• einen RNN- Wahrscheinlichkeits-Dekodierer, der die Multi-Agenten-Szenen- Einbettung (JoMASE) dekodiert und pro Verkehrsteilnehmer (R) Wahrschein lichkeiten der vorhergesagten Trajektorien gegeneinander bewertet und einen entsprechenden Wert ausgibt.
PCT/EP2022/058831 2021-04-07 2022-04-04 Computerimplementiertes verfahren, computerprogramm und anordnung zum vorhersagen und planen von trajektorien WO2022214414A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
EP22720428.6A EP4320408A1 (de) 2021-04-07 2022-04-04 Computerimplementiertes verfahren, computerprogramm und anordnung zum vorhersagen und planen von trajektorien

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102021203440.3A DE102021203440A1 (de) 2021-04-07 2021-04-07 Computerimplementiertes Verfahren, Computerprogramm und Anordnung zum Vorhersagen und Planen von Trajektorien
DE102021203440.3 2021-04-07

Publications (1)

Publication Number Publication Date
WO2022214414A1 true WO2022214414A1 (de) 2022-10-13

Family

ID=81454611

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2022/058831 WO2022214414A1 (de) 2021-04-07 2022-04-04 Computerimplementiertes verfahren, computerprogramm und anordnung zum vorhersagen und planen von trajektorien

Country Status (3)

Country Link
EP (1) EP4320408A1 (de)
DE (1) DE102021203440A1 (de)
WO (1) WO2022214414A1 (de)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116341721A (zh) * 2023-03-02 2023-06-27 石家庄铁道大学 一种基于车辆轨迹的运行目的地预测方法及系统
CN116540701A (zh) * 2023-04-19 2023-08-04 广州里工实业有限公司 一种路径规划方法、系统、装置及存储介质
CN116558541A (zh) * 2023-07-11 2023-08-08 新石器慧通(北京)科技有限公司 模型训练方法和装置、轨迹预测方法和装置
DE102024001594A1 (de) 2024-05-16 2024-07-11 Mercedes-Benz Group AG Verfahren und Vorrichtung zur Modellierung von dynamischen Objekten und statischen Obiekten beim assistierten und automatisierten Fahren

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102022201127A1 (de) 2022-02-03 2023-08-03 Zf Friedrichshafen Ag Verfahren und Computerprogramm zum Charakterisieren von zukünftigen Trajektorien von Verkehrsteilnehmern
CN117010265A (zh) * 2023-04-14 2023-11-07 北京百度网讯科技有限公司 能够进行自然语言交互的自动驾驶模型及其训练方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200110416A1 (en) * 2018-10-04 2020-04-09 Zoox, Inc. Trajectory prediction on top-down scenes

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102019209736A1 (de) 2019-07-03 2021-01-07 Robert Bosch Gmbh Verfahren zur Bewertung möglicher Trajektorien
DE102020210379A1 (de) 2020-08-14 2022-02-17 Zf Friedrichshafen Ag Computerimplementiertes Verfahren und Computerprogrammprodukt zum Erhalten einer Umfeldszenen-Repräsentation für ein automatisiertes Fahrsystem, computerimplementiertes Verfahren zum Lernen einer Prädiktion von Umfeldszenen für ein automatisiertes Fahrsystem und Steuergerät für ein automatisiertes Fahrsystem

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200110416A1 (en) * 2018-10-04 2020-04-09 Zoox, Inc. Trajectory prediction on top-down scenes

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
D. GIZLYK: "Neuronale Netze leicht gemacht", ATTENTION MECHANISMEN, 8 February 2021 (2021-02-08), Retrieved from the Internet <URL:https:/Iwww.mqI5.com/de/articles/8765#para2>
NACHIKET DEOMOHAN M. TRIVEDI: "Convolutional social pooling for vehicle trajectory prediction", IEEE CONFERENCE ON COMPUTER VISION AND PATTERN, June 2018 (2018-06-01)
TIANYANG ZHAO ET AL: "Multi-Agent Tensor Fusion for Contextual Trajectory Prediction", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 9 April 2019 (2019-04-09), XP081167172 *
YIBIAO ZHAOYIZHOU WANGYING NIAN WU: "Multi-agent tensor fusion for contextual trajectory prediction", IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR, June 2019 (2019-06-01)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116341721A (zh) * 2023-03-02 2023-06-27 石家庄铁道大学 一种基于车辆轨迹的运行目的地预测方法及系统
CN116341721B (zh) * 2023-03-02 2023-10-31 石家庄铁道大学 一种基于车辆轨迹的运行目的地预测方法及系统
CN116540701A (zh) * 2023-04-19 2023-08-04 广州里工实业有限公司 一种路径规划方法、系统、装置及存储介质
CN116540701B (zh) * 2023-04-19 2024-03-05 广州里工实业有限公司 一种路径规划方法、系统、装置及存储介质
CN116558541A (zh) * 2023-07-11 2023-08-08 新石器慧通(北京)科技有限公司 模型训练方法和装置、轨迹预测方法和装置
CN116558541B (zh) * 2023-07-11 2023-09-22 新石器慧通(北京)科技有限公司 模型训练方法和装置、轨迹预测方法和装置
DE102024001594A1 (de) 2024-05-16 2024-07-11 Mercedes-Benz Group AG Verfahren und Vorrichtung zur Modellierung von dynamischen Objekten und statischen Obiekten beim assistierten und automatisierten Fahren

Also Published As

Publication number Publication date
DE102021203440A1 (de) 2022-10-13
EP4320408A1 (de) 2024-02-14

Similar Documents

Publication Publication Date Title
EP4320408A1 (de) Computerimplementiertes verfahren, computerprogramm und anordnung zum vorhersagen und planen von trajektorien
EP4196379A1 (de) Computerimplementiertes verfahren und computerprogrammprodukt zum erhalten einer umfeldszenen-repräsentation für ein automatisiertes fahrsystem, computerimplementiertes verfahren zum lernen einer prädiktion von umfeldszenen für ein automatisiertes fahrsystem und steuergerät für ein automatisiertes fahrsystem
DE112020005577T5 (de) Simulieren diverser langfristiger zukünftiger Trajektorien in Strassenszenen
EP2961644B1 (de) Gridbasierte vorhersage der position eines objektes
DE102019209736A1 (de) Verfahren zur Bewertung möglicher Trajektorien
DE102018203583B4 (de) Verfahren, Fahrerassistenzsystem sowie Kraftfahrzeug zur Prädiktion einer Position oder einer Trajektorie mittels eines graphbasierten Umgebungsmodells
DE102021109395A1 (de) Verfahren, systeme und vorrichtungen für benutzerverständliche erklärbare lernmodelle
WO2020094534A1 (de) Verfahren zum trainieren eines künstlichen neuronalen netzes, künstliches neuronales netz, verwendung eines künstlichen neuronalen netzes sowie entsprechendes computerprogramm, maschinenlesbares speichermedium und entsprechende vorrichtung
DE102022003079A1 (de) Verfahren zu einer automatisierten Generierung von Daten für rasterkartenbasierte Prädiktionsansätze
DE112021006846T5 (de) Systeme und Verfahren zur szenarioabhängigen Trajektorienbewertung
DE112022002869T5 (de) Verfahren und System zur Verhaltensprognose von Akteuren in einer Umgebung eines autonomen Fahrzeugs
DE102019114626A1 (de) System und Verfahren zur Hardware-Überprüfung in einem Kraftfahrzeug
DE102021000792A1 (de) Verfahren zum Betrieb eines Fahrzeuges
DE102023001698A1 (de) Verfahren zu einer automatisierten Generierung von Daten für rasterkartenbasierte Prädiktionsansätze
DE102019204187A1 (de) Klassifizierung und temporale Erkennung taktischer Fahrmanöver von Verkehrsteilnehmern
DE102021213344A1 (de) Verfahren zum Ermitteln von Agenten-Trajektorien in einem Multi-Agenten-Szenario
DE102021200643B3 (de) Verfahren zur Umfelderkennung für teilautonome oder autonome Fahrfunktionen eines Kraftfahrzeugs mittels eines neuronalen Netzes
DE102022000849A1 (de) Verfahren zur Erzeugung einer Umgebungsrepräsentation für ein Fahrzeug
WO2021249677A1 (de) Verfahren zum koordinieren von verkehrsteilnehmern durch eine servervorrichtung sowie eine servervorrichtung und eine steuerschaltung zum durchführen des verfahrens
DE102019215141B4 (de) Verfahren zum Prognostizieren einer zukünftigen Verkehrssituation in einer Umgebung eines Kraftfahrzeugs durch Bestimmen mehrerer in sich konsistenter Gesamtszenarios für unterschiedliche Verkehrsteilnehmer; Kraftfahrzeug
DE102021117227A1 (de) Analysieren eines Kreisverkehrs
EP4224436A1 (de) Verfahren und computerprogramm zum charakterisieren von zukünftigen trajektorien von verkehrsteilnehmern
DE112020006532T5 (de) Computersystem und verfahren mit ende-zu-ende modellierung für einen simulierten verkehrsagenten in einer simulationsumgebung
DE102022131178B3 (de) Verfahren zum automatisierten Führen eines Fahrzeugs sowie Verfahren zum Erzeugen eines hierzu fähigen Modells des Maschinellen Lernens sowie Prozessorschaltung und Fahrzeug
DE102022115189B4 (de) Verfahren, Prozessorschaltung und computerlesbares Speichermedium zum Betreiben einer Passantendetektion mittels einer Prozessorschaltung eines Kraftfahrzeugs

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22720428

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2022720428

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 2022720428

Country of ref document: EP

Effective date: 20231107