WO2022263079A1 - Method for predicting a behaviour of road users - Google Patents

Method for predicting a behaviour of road users Download PDF

Info

Publication number
WO2022263079A1
WO2022263079A1 PCT/EP2022/063249 EP2022063249W WO2022263079A1 WO 2022263079 A1 WO2022263079 A1 WO 2022263079A1 EP 2022063249 W EP2022063249 W EP 2022063249W WO 2022263079 A1 WO2022263079 A1 WO 2022263079A1
Authority
WO
WIPO (PCT)
Prior art keywords
neural network
vehicle
video sequences
road users
predicted
Prior art date
Application number
PCT/EP2022/063249
Other languages
German (de)
French (fr)
Inventor
Steven Peters
Christian Drescher
Original Assignee
Mercedes-Benz Group AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mercedes-Benz Group AG filed Critical Mercedes-Benz Group AG
Publication of WO2022263079A1 publication Critical patent/WO2022263079A1/en

Links

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/16Anti-collision systems
    • G08G1/166Anti-collision systems for active traffic, e.g. moving vehicles, pedestrians, bikes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle

Definitions

  • the invention relates to a method for predicting the behavior of road users in a vehicle environment.
  • the invention is based on the object of specifying a novel method for predicting the behavior of road users in a vehicle environment.
  • video sequences of the vehicle environment are recorded using a sensor system, the behavior of road users identified in the video sequences being predicted using a neural network based on the video sequences.
  • the neural network is updated in each time step with the data of a further neural network, the further neural network being trained in each time step with video sequences of the vehicle surroundings that were recorded in previous time steps and temporarily stored in a ring memory.
  • the behavior of the road users is predicted by means of a neural network based on environmental data recorded by sensors (for example video frames).
  • a driver warning is preferably issued and/or a driving maneuver is carried out to minimize the dangerous situation.
  • FIG. 1 shows a schematic block diagram of a device for predicting the behavior of road users in a vehicle environment
  • Fig. 2 shows a schematic detail of a driver's field of vision with an augmented display of information
  • FIG. 3 shows a schematic of the section of the driver's field of vision according to FIG. 2 with a further augmented representation of information
  • FIG. 4 shows a schematic of the section of the driver's field of vision according to FIG. 2 with a further augmented representation of information.
  • video sequences of the vehicle environment are recorded in a vehicle using at least one camera and/or at least one lidar sensor and/or at least one radar sensor.
  • a neural network that has already been pre-trained is trained further at any point in time with video sequences from previous time segments or time units.
  • the trained network can then be used to make predictions about the near future. These predictions are in the form of frames, ie images, and are evaluated. Will in one of the frames recognizes a risk of collision, a warning is issued for a driver of the vehicle.
  • the neural network can be trained with a video sequence that shows the swaying of a trailer of a vehicle to be overtaken, for example on a freeway. In the next few frames, the neural network then predicts that the trailer will swing into its own lane and the driver is warned accordingly.
  • a child follows a rolling ball.
  • a cyclist stretches out an arm and turns.
  • the driver is supported and relieved by the described method and thus an increase in safety is achieved.
  • Figure 1 shows a schematic block diagram of a device 1 for predicting the behavior of road users in a vehicle environment, comprising a vehicle 2 and an OEM backend 3.
  • the vehicle 2 comprises at least one camera 4, a ring memory 5 for the camera 4 detected Video sequences VS of the vehicle environment, a first control unit SG1, a second control unit SG2, a third control unit SG3 and a fourth control unit SG4.
  • the first control unit SG1 receives a time-delayed video sequence VS txy .. tx from the ring memory 5 and trains a first neural network NN1 at each point in time t and thus overwrites a second neural network NN2 in the second control unit SG2 after each time step.
  • the input vector is the video sequence VS txy .. tx of images from the camera 4 from the ring memory 5 over a period of time from txy to tx.
  • the output vector (so-called label) is a video sequence VS tx .. t of images from the camera 4 over a period of time from tx to t.
  • the second control unit SG2 uses the second neural network NN2 to predict a video sequence VS t .. t+x for a future time period t to t+x based on a video sequence VS ty .. t of images from the camera 4 of the time period ty to t.
  • the third control unit SG3 uses a third neural network NN3 to carry out an object classification on the frames of the video sequence VS t . . t+x from the second Control unit SG2 for the future time period t to t+x and checks whether a relevant object (for example a truck, a car, a pedestrian%) collides with a current and/or planned travel trajectory in at least one frame. If this is the case, then the fourth control unit SG 4 is prompted to issue a warning.
  • a relevant object for example a truck, a car, a pedestrian
  • the first and second control units SG1 and SG2 use informer and/or transformer neural networks to generate the video sequence VS t .. t+x specified time interval back to an initial status, which corresponds either to a neural network NNO with a pre-trained status from the development of the vehicle or to a neural network NN* continuously trained in the OEM backend 3 from field data, for example video sequences collected from customer vehicles.
  • the third control unit SG3 uses the semantic segmentation on the video sequence VS t . . . t+c generated by the second control unit SG2 for the future time period t to t+x by means of neural networks for object classification. In this way, road users are recognized as objects and each is assigned to a predefined object class. Furthermore, the third control unit SG3 can validate the video sequence VS t .. t+c generated by the second control unit SG2 for the future time period t to t+x by comparing the movements of the objects with predefined, possible movements per object class. For example, a truck cannot suddenly reverse.
  • the fourth control unit SG4 can also receive the relevant object and the predicted frame with the collision and its time stamp from the third control unit SG3. This would make it possible, for example, to use an augmented reality head-up display in vehicle 2 to visually highlight and/or mark the object for the driver and, if necessary, to display the predicted frame with the risk of collision as a transparent overlay, so that the driver can identify a potential risk. Provision can also be made to illuminate the object with which there is a risk of collision with high-resolution headlight systems such as digital light, particularly in the dark. In addition, a driver observation camera can be used to check whether the driver already has the object in view, so that a warning is not necessary.
  • a semantic segmentation of the future frames can be directly predicted to reduce the training effort, the resolution of which can be lower.
  • the algorithm for the semantic segmentation would have to be carried out as preparation before the use of the neural networks NN1 and NN2 and the neural networks NNO, NN1, NN2 would have to have been trained with semantically segmented images and/or video sequences. Only the collision detection would then take place in the third control unit SG3.
  • FIG. 2 is a schematic illustration of a section of a driver's field of vision with an augmented representation of information, with a predicted direction of movement R of a vehicle V driving ahead being displayed.
  • FIG. 3 is a schematic illustration of the section of the driver's field of vision according to FIG. 2 with a further augmented representation of information, the vehicle V driving ahead being illuminated with digital light DL.
  • FIG. 4 is a schematic view of the section of the driver's field of vision according to FIG. 2 with a further augmented representation of information, wherein a frame F predicted for the future with a predicted position of the vehicle driving ahead V is displayed by overlay.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Traffic Control Systems (AREA)
  • Image Analysis (AREA)

Abstract

The invention relates to a method for predicting a behaviour of road users in a vehicle environment of a vehicle (2), wherein: video sequences (VS) of the vehicle environment are captured by means of a sensor system; the behaviour of road users that are identified in the video sequences (VS) is predicted into the future by means of a neural network (NN2) on the basis of the video sequences; the neural network (NN2) is updated at each time step with data from a further neural network (NN1); the further neural network (NN1) is trained at each time step using video sequences (VSt-x-y...t-x) of the vehicle environment that have been captured in previous time steps and have been temporarily stored in a circular buffer (5).

Description

Verfahren zur Prädiktion eines Verhaltens von Verkehrsteilnehmern Procedure for predicting the behavior of road users
Die Erfindung betrifft ein Verfahren zur Prädiktion eines Verhaltens von Verkehrsteilnehmern in einer Fahrzeugumgebung. The invention relates to a method for predicting the behavior of road users in a vehicle environment.
Unter anderem in "S. Oprea, et al. : A Review on Deep Learning Techniques for Video Prediction; In IEEE Transactions on Pattern Analysis & Machine Intelligence, vol. no. 01, pp. 1-1, 5555; doi: 10.1109/TPAMI.2020.3045007" ist beschrieben, dass Videoframes mittels maschinellen Lernens prädizierbar sind. Among others in "S. Oprea, et al.: A Review on Deep Learning Techniques for Video Prediction; In IEEE Transactions on Pattern Analysis & Machine Intelligence, vol. no. 01, pp. 1-1, 5555; doi: 10.1109/ TPAMI.2020.3045007" describes that video frames can be predicted using machine learning.
Der Erfindung liegt die Aufgabe zu Grunde, ein neuartiges Verfahren zur Prädiktion eines Verhaltens von Verkehrsteilnehmern in einer Fahrzeugumgebung anzugeben. The invention is based on the object of specifying a novel method for predicting the behavior of road users in a vehicle environment.
Die Aufgabe wird erfindungsgemäß gelöst durch ein Verfahren, welches die im Anspruch 1 angegebenen Merkmale aufweist. The object is achieved according to the invention by a method which has the features specified in claim 1.
Vorteilhafte Ausgestaltungen der Erfindung sind Gegenstand der Unteransprüche. Advantageous configurations of the invention are the subject matter of the dependent claims.
Bei einem erfindungsgemäßen Verfahren zur Prädiktion eines Verhaltens von Verkehrsteilnehmern in einer Fahrzeugumgebung eines Fahrzeugs werden Videosequenzen der Fahrzeugumgebung mittels einer Sensorik aufgenommen, wobei das Verhalten von in den Videosequenzen erkannten Verkehrsteilnehmern mittels eines neuronalen Netzes anhand der Videosequenzen prädiziert wird. Erfindungsgemäß wird das neuronale Netz in jedem Zeitschritt mit den Daten eines weiteren neuronalen Netzes aktualisiert, wobei das weitere neuronale Netz in jedem Zeitschritt mit Videosequenzen der Fahrzeugumgebung trainiert wird, die in zurückliegenden Zeitschritten erfasst wurden und in einem Ringspeicher zwischengespeichert wurden. Erfindungsgemäß wird das Verhalten der Verkehrsteilnehmer mittels eines neuronalen Netzes anhand von sensorisch aufgenommenen Umgebungsdaten (beispielsweise Videoframes) prädiziert. In a method according to the invention for predicting the behavior of road users in the vehicle environment of a vehicle, video sequences of the vehicle environment are recorded using a sensor system, the behavior of road users identified in the video sequences being predicted using a neural network based on the video sequences. According to the invention, the neural network is updated in each time step with the data of a further neural network, the further neural network being trained in each time step with video sequences of the vehicle surroundings that were recorded in previous time steps and temporarily stored in a ring memory. According to the invention, the behavior of the road users is predicted by means of a neural network based on environmental data recorded by sensors (for example video frames).
Wenn anhand des prädizierten Verhaltens eine Gefahrensituation erkannt wird, wird vorzugsweise eine Fahrerwarnung ausgegeben und/oder ein Fahrmanöver zur Minimierung der Gefahrensituation ausgeführt. If a dangerous situation is identified on the basis of the predicted behavior, a driver warning is preferably issued and/or a driving maneuver is carried out to minimize the dangerous situation.
Ausführungsbeispiele der Erfindung werden im Folgenden anhand von Zeichnungen näher erläutert. Exemplary embodiments of the invention are explained in more detail below with reference to drawings.
Dabei zeigen: show:
Fig. 1 schematisch ein Blockschaltbild einer Vorrichtung zur Prädiktion eines Verhaltens von Verkehrsteilnehmern in einer Fahrzeugumgebung, 1 shows a schematic block diagram of a device for predicting the behavior of road users in a vehicle environment,
Fig. 2 schematisch ein Ausschnitt eines Sichtfelds eines Fahrers mit einer augmentierten Darstellung von Informationen, Fig. 2 shows a schematic detail of a driver's field of vision with an augmented display of information,
Fig. 3 schematisch den Ausschnitt des Sichtfelds des Fahrers gemäß Figur 2 mit einerweiteren augmentierten Darstellung von Informationen, und 3 shows a schematic of the section of the driver's field of vision according to FIG. 2 with a further augmented representation of information, and
Fig. 4 schematisch den Ausschnitt des Sichtfelds des Fahrers gemäß Figur 2 mit einerweiteren augmentierten Darstellung von Informationen. FIG. 4 shows a schematic of the section of the driver's field of vision according to FIG. 2 with a further augmented representation of information.
Einander entsprechende Teile sind in allen Figuren mit den gleichen Bezugszeichen versehen. Corresponding parts are provided with the same reference symbols in all figures.
Bei einem erfindungsgemäßen Verfahren zur Prädiktion eines Verhaltens von Verkehrsteilnehmern in einer Fahrzeugumgebung werden in einem Fahrzeug Videosequenzen der Fahrzeugumgebung mittels mindestens einer Kamera und/oder mindestens eines Lidarsensors und/oder mindestens eines Radarsensors erfasst. Ein bereits vortrainiertes neuronales Netz wird zu jedem Zeitpunkt mit Videosequenzen vorhergehender Zeitabschnitte oder Zeiteinheiten weitertrainiert. Mit dem trainierten Netz können dann Prädiktionen über die nahe Zukunft gemacht werden. Diese Prädiktionen liegen in Form von Frames, das heißt Bildern, vor und werden ausgewertet. Wird in einem der Frames eine Kollisionsgefahr erkannt, so wird eine Warnung für einen Fahrer des Fahrzeugs ausgegeben. In a method according to the invention for predicting the behavior of road users in a vehicle environment, video sequences of the vehicle environment are recorded in a vehicle using at least one camera and/or at least one lidar sensor and/or at least one radar sensor. A neural network that has already been pre-trained is trained further at any point in time with video sequences from previous time segments or time units. The trained network can then be used to make predictions about the near future. These predictions are in the form of frames, ie images, and are evaluated. Will in one of the frames recognizes a risk of collision, a warning is issued for a driver of the vehicle.
Beispielsweise kann das neuronale Netz mit einer Videosequenz trainiert werden, die das Schlingern eines Anhängers eines zu überholenden Fahrzeugs, beispielsweise auf einer Autobahn, zeigt. Das neuronale Netz prädiziert dann in den nächsten Frames ein Pendeln des Anhängers auf die eigene Fahrspur und der Fahrer wird entsprechend gewarnt. For example, the neural network can be trained with a video sequence that shows the swaying of a trailer of a vehicle to be overtaken, for example on a freeway. In the next few frames, the neural network then predicts that the trailer will swing into its own lane and the driver is warned accordingly.
Es folgen weitere typische Beispiele, die insbesondere für das Vortraining geeignet sind: Ein Fahrzeug zieht von einem Beschleunigungsstreifen ganz nach links über zwei Spuren. Other typical examples follow, which are particularly suitable for pre-training: A vehicle pulls from an acceleration lane to the far left across two lanes.
Ein Kind folgt einem rollenden Ball. A child follows a rolling ball.
Ein Fahrradfahrer streckt einen Arm aus und biegt ab. A cyclist stretches out an arm and turns.
Durch das beschriebene Verfahren wird der Fahrer unterstützt und entlastet und somit wird eine Erhöhung der Sicherheit erzielt. The driver is supported and relieved by the described method and thus an increase in safety is achieved.
In Figur 1 ist ein schematisches Blockschaltbild einer Vorrichtung 1 zur Prädiktion eines Verhaltens von Verkehrsteilnehmern in einer Fahrzeugumgebung, umfassend ein Fahrzeug 2, und ein OEM-Backend 3. Das Fahrzeug 2 umfasst mindestens eine Kamera 4, einen Ringspeicher 5 für von der Kamera 4 erfasste Videosequenzen VS der Fahrzeugumgebung, ein erstes Steuergerät SG1 , ein zweites Steuergerät SG2, ein drittes Steuergerät SG3 und ein viertes Steuergerät SG4. Figure 1 shows a schematic block diagram of a device 1 for predicting the behavior of road users in a vehicle environment, comprising a vehicle 2 and an OEM backend 3. The vehicle 2 comprises at least one camera 4, a ring memory 5 for the camera 4 detected Video sequences VS of the vehicle environment, a first control unit SG1, a second control unit SG2, a third control unit SG3 and a fourth control unit SG4.
Das erste Steuergerät SG1 erhält eine zeitlich versetzte Videosequenz VSt-x-y.. t-x aus dem Ringspeicher 5 und trainiert ein erstes neuronales Netz NN1 zu jedem Zeitpunkt t und überschreibt nach jedem Zeitschritt damit ein zweites neuronales Netz NN2 im zweiten Steuergerät SG2. Für das Training gilt: Der Inputvektor ist die Videosequenz VSt-x-y.. t-x von Bildern der Kamera 4 aus dem Ringspeicher 5 eines Zeitraums von t-x-y bis t-x. Der Outputvektor (sogenanntes Label) ist eine Videosequenz VSt-x.. t von Bildern der Kamera 4 eines Zeitraum von t-x bis t. The first control unit SG1 receives a time-delayed video sequence VS txy .. tx from the ring memory 5 and trains a first neural network NN1 at each point in time t and thus overwrites a second neural network NN2 in the second control unit SG2 after each time step. The following applies to the training: The input vector is the video sequence VS txy .. tx of images from the camera 4 from the ring memory 5 over a period of time from txy to tx. The output vector (so-called label) is a video sequence VS tx .. t of images from the camera 4 over a period of time from tx to t.
Das zweite Steuergerät SG2 sagt mittels des zweiten neuronalen Netzes NN2 eine Videosequenz VSt.. t+x für einen zukünftigen Zeitraum t bis t+x ausgehend von einer Videosequenz VSt-y.. t von Bildern der Kamera 4 des Zeitraums t-y bis t voraus. The second control unit SG2 uses the second neural network NN2 to predict a video sequence VS t .. t+x for a future time period t to t+x based on a video sequence VS ty .. t of images from the camera 4 of the time period ty to t.
Das dritte Steuergerät SG3 führt mittels eines dritten neuronalen Netzes NN3 eine Objektklassifikation auf den Frames der Videosequenz VSt.. t+x aus dem zweiten Steuergerät SG2 für den zukünftigen Zeitraum t bis t+x durch und prüft, ob in mindestens einem Frame ein relevantes Objekt (beispielsweise ein LKW, ein PKW, ein Fußgänger...) mit einer aktuellen und/oder geplanten Fahrtrajektorie kollidiert. Wenn dies der Fall ist, dann wird das vierte Steuergerät SG 4 aufgefordert, eine Warnung auszugeben. The third control unit SG3 uses a third neural network NN3 to carry out an object classification on the frames of the video sequence VS t . . t+x from the second Control unit SG2 for the future time period t to t+x and checks whether a relevant object (for example a truck, a car, a pedestrian...) collides with a current and/or planned travel trajectory in at least one frame. If this is the case, then the fourth control unit SG 4 is prompted to issue a warning.
In einer Ausführungsform nutzen das erste und das zweite Steuergerät SG1 und SG2 Informer- und/oder Transformer-Neural-Networks zur Generierung der Video- Sequenz VSt.. t+x· Das neuronale Netz NN1 wird regelmäßig zum Beispiel zum Fahrtbeginn oder nach einem festgelegten Zeitintervall wieder auf einen initialen Stand zurückgesetzt, der entweder einem neuronalen Netz NNO mit einem vortrainierten Stand aus der Entwicklung des Fahrzeugs entspricht oder einem kontinuierlich im OEM- Backend 3 aus Felddaten, beispielsweise gesammelten Videosequenzen aus Kundenfahrzeugen, weitertrainierten neuronalen Netz NN* entspricht. In one embodiment, the first and second control units SG1 and SG2 use informer and/or transformer neural networks to generate the video sequence VS t .. t+x specified time interval back to an initial status, which corresponds either to a neural network NNO with a pre-trained status from the development of the vehicle or to a neural network NN* continuously trained in the OEM backend 3 from field data, for example video sequences collected from customer vehicles.
In einer Ausführungsform nutzt das dritte Steuergerät SG3 die semantische Segmentation auf der vom zweiten Steuergerät SG2 generierten Videosequenz VSt.. t+c für den zukünftigen Zeitraum t bis t+x mittels neuronaler Netze zur Objektklassifikation. Damit werden Verkehrsteilnehmer als Objekte erkannt und jeweils einer vorgegebenen Objektklasse zugeordnet. Ferner kann das dritte Steuergerät SG3 die vom zweiten Steuergerät SG2 generierte Videosequenz VSt.. t+c für den zukünftigen Zeitraum t bis t+x plausibilisieren, indem die Bewegungen der Objekte mit vorabdefinierten, möglichen Bewegungen pro Objektklasse abgeglichen werden. Beispielsweise kann ein LKW nicht schlagartig rückwärtsfahren. In one embodiment, the third control unit SG3 uses the semantic segmentation on the video sequence VS t . . . t+c generated by the second control unit SG2 for the future time period t to t+x by means of neural networks for object classification. In this way, road users are recognized as objects and each is assigned to a predefined object class. Furthermore, the third control unit SG3 can validate the video sequence VS t .. t+c generated by the second control unit SG2 for the future time period t to t+x by comparing the movements of the objects with predefined, possible movements per object class. For example, a truck cannot suddenly reverse.
In einer Ausführungsform kann das vierte Steuergerät SG4 vom dritten Steuergerät SG3 zusätzlich das relevante Objekt und den prädizierten Frame mit der Kollision sowie dessen Zeitstempel erhalten. Damit wäre es beispielsweise möglich, mittels eines Augmented-Reality-Head-Up-Displays im Fahrzeug 2 das Objekt für den Fahrer optisch hervorzuheben und/oder zu markieren sowie gegebenenfalls den prognostizierten Frame mit der Kollisionsgefahr als transparente Überlagerung anzuzeigen, so dass der Fahrer frühzeitig ein potentielles Risiko erkennt. Ferner kann vorgesehen sein, das Objekt, mit dem eine Kollisionsgefahr besteht, mit hochauflösenden Scheinwerfersystemen wie Digital Light anzustrahlen, insbesondere bei Dunkelheit. Zusätzlich kann mit einer Fahrerbeobachtungskamera geprüft werden, ob der Fahrer das Objekt bereits im Blick hat, so dass eine Warnung nicht nötig ist. Ferner kann vorgesehen sein, ein Ausweichmanöver und/oder ein Bremsmanöver zu planen, falls der Fahrer nicht rechtzeitig reagiert. In einer alternativen Ausführungsform kann statt eines realistischen Bildes zur Reduktion des Trainingsaufwands direkt eine semantische Segmentation der zukünftigen Frames prädiziert werden, deren Auflösung geringer sein kann. Dazu müsste der Algorithmus zur semantischen Segmentation vor dem Einsatz der neuronalen Netze NN1 und NN2 als Vorbereitung durchgeführt werden und die neuronalen Netze NNO, NN1, NN2 mit semantisch segmentierten Bildern und/oder Videosequenzen trainiert worden sein. Im dritten Steuergerät SG3 würde dann nur noch die Kollisionserkennung erfolgen. In one embodiment, the fourth control unit SG4 can also receive the relevant object and the predicted frame with the collision and its time stamp from the third control unit SG3. This would make it possible, for example, to use an augmented reality head-up display in vehicle 2 to visually highlight and/or mark the object for the driver and, if necessary, to display the predicted frame with the risk of collision as a transparent overlay, so that the driver can identify a potential risk. Provision can also be made to illuminate the object with which there is a risk of collision with high-resolution headlight systems such as digital light, particularly in the dark. In addition, a driver observation camera can be used to check whether the driver already has the object in view, so that a warning is not necessary. Provision can also be made to plan an evasive maneuver and/or a braking maneuver if the driver does not react in good time. In an alternative embodiment, instead of a realistic image, a semantic segmentation of the future frames can be directly predicted to reduce the training effort, the resolution of which can be lower. For this purpose, the algorithm for the semantic segmentation would have to be carried out as preparation before the use of the neural networks NN1 and NN2 and the neural networks NNO, NN1, NN2 would have to have been trained with semantically segmented images and/or video sequences. Only the collision detection would then take place in the third control unit SG3.
Figur 2 ist eine schematische Abbildung eines Ausschnitts eines Sichtfelds eines Fahrers mit einer augmentierten Darstellung von Informationen, wobei eine prädizierte Bewegungsrichtung R eines vorausfahrenden Fahrzeugs V angezeigt wird. FIG. 2 is a schematic illustration of a section of a driver's field of vision with an augmented representation of information, with a predicted direction of movement R of a vehicle V driving ahead being displayed.
Figur 3 ist eine schematische Abbildung des Ausschnitts des Sichtfelds des Fahrers gemäß Figur 2 mit einer weiteren augmentierten Darstellung von Informationen, wobei das vorausfahrende Fahrzeug V mit digitalem Licht DL angestrahlt wird. FIG. 3 is a schematic illustration of the section of the driver's field of vision according to FIG. 2 with a further augmented representation of information, the vehicle V driving ahead being illuminated with digital light DL.
Figur 4 ist eine schematische Ansicht des Ausschnitts des Sichtfelds des Fahrers gemäß Figur 2 mit einerweiteren augmentierten Darstellung von Informationen, wobei ein für die Zukunft prädiziertes Frame F mit einer prädizierten Position des vorausfahrenden Fahrzeugs V per Überblendung angezeigt wird. FIG. 4 is a schematic view of the section of the driver's field of vision according to FIG. 2 with a further augmented representation of information, wherein a frame F predicted for the future with a predicted position of the vehicle driving ahead V is displayed by overlay.

Claims

Patentansprüche patent claims
1. Verfahren zur Prädiktion eines Verhaltens von Verkehrsteilnehmern in einer Fahrzeugumgebung eines Fahrzeugs (2), wobei Videosequenzen (VS) der Fahrzeugumgebung mittels einer Sensorik aufgenommen werden, wobei das Verhalten von in den Videosequenzen (VS) erkannten Verkehrsteilnehmern mittels eines neuronalen Netzes (NN2) anhand der Videosequenzen prädiziert wird, dadurch gekennzeichnet, dass das neuronale Netz (NN2) in jedem Zeitschritt mit den Daten eines weiteren neuronalen Netzes (NN1) aktualisiert wird, wobei das weitere neuronale Netz (NN1) in jedem Zeitschritt mit Videosequenzen (VSt-x-y.. t-x) der Fahrzeugumgebung trainiert wird, die in zurückliegenden Zeitschritten erfasst wurden und in einem Ringspeicher (5) zwischengespeichert wurden. 1. Method for predicting the behavior of road users in a vehicle environment of a vehicle (2), video sequences (VS) of the vehicle environment being recorded using a sensor system, the behavior of road users identified in the video sequences (VS) being recorded using a neural network (NN2) is predicted on the basis of the video sequences, characterized in that the neural network (NN2) is updated with the data of a further neural network (NN1) in each time step, the further neural network (NN1) being updated with video sequences (VS txy.. tx ) of the vehicle environment is trained, which were recorded in previous time steps and temporarily stored in a ring memory (5).
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass dann, wenn anhand des prädizierten Verhaltens eine Gefahrensituation erkannt wird, im Fahrzeug (2) eine Warnung ausgegeben und/oder ein Fahrmanöver zur Minimierung der Gefahrensituation ausgeführt wird. 2. The method as claimed in claim 1, characterized in that if a dangerous situation is identified on the basis of the predicted behavior, a warning is issued in the vehicle (2) and/or a driving maneuver is carried out to minimize the dangerous situation.
3. Verfahren nach einem der Ansprüche 1 oder 2, dadurch gekennzeichnet, dass ein Informer- und/oder Transformer-Neural-Network als das neuronale Netz (NN2) und/oder als das weitere neuronale Netz (NN1, NNO, NN*) verwendet wird. 3. The method as claimed in one of claims 1 or 2, characterized in that an informer and/or transformer neural network is used as the neural network (NN2) and/or as the further neural network (NN1, NNO, NN*). will.
4. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das weitere neuronale Netz (NN1) auf einen initialen Stand zurückgesetzt wird, der entweder einem neuronalen Netz (NNO) mit einem vortrainierten Stand aus der Entwicklung des Fahrzeugs (2) entspricht oder einem kontinuierlich in einem OEM-Backend (3) aus Felddaten weitertrainierten neuronalen Netz (NN*) entspricht. 4. The method according to any one of the preceding claims, characterized in that the further neural network (NN1) is reset to an initial status, which corresponds to either a neural network (NNO) with a pre-trained status from the development of the vehicle (2) or a corresponds to a neural network (NN*) continuously trained from field data in an OEM backend (3).
5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, dass das Zurücksetzen des weiteren neuronalen Netzes (NN1) auf den initialen Stand regelmäßig erfolgt. 5. The method as claimed in claim 4, characterized in that the reset of the further neural network (NN1) to the initial status takes place regularly.
6. Verfahren nach Anspruch 4 oder 5, dadurch gekennzeichnet, dass das Zurücksetzen des weiteren neuronalen Netzes (NN1) auf den initialen Stand zu Fahrtbeginn und/oder nach einem festgelegten Zeitintervall erfolgt. 6. The method as claimed in claim 4 or 5, characterized in that the further neural network (NN1) is reset to the initial status at the start of the journey and/or after a specified time interval.
7. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Verkehrsteilnehmer in den Videosequenzen (VS) mittels eines neuronalen Netzes (NN3) zur Objektklassifikation erkannt werden, wobei semantische Segmentation angewandt wird. 7. The method as claimed in one of the preceding claims, characterized in that the road users in the video sequences (VS) are recognized by means of a neural network (NN3) for object classification, with semantic segmentation being used.
8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, dass das prädizierte Verhalten der Verkehrsteilnehmer plausibilisiert wird, indem die Bewegungen der Verkehrsteilnehmer mit vorabdefinierten, möglichen Bewegungen eines Verkehrsteilnehmers der erkannten Objektklasse abgeglichen werden. 8. The method as claimed in claim 7, characterized in that the predicted behavior of the road users is checked for plausibility by the movements of the road users being compared with predefined, possible movements of a road user of the recognized object class.
9. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass in einem Augmented-Reality-Head-Up-Display des Fahrzeugs (2) eine Bewegungsrichtung (R) des erkannten Verkehrsteilnehmers und optional eine Hervorhebung des erkannten Verkehrsteilnehmers und/oder eine transparente Überlagerung des erkannten Verkehrsteilnehmers an einer prognostizierten Position angezeigt wird. 9. The method according to any one of the preceding claims, characterized in that in an augmented reality head-up display of the vehicle (2) a direction of movement (R) of the identified road user and optionally a highlighting of the identified road user and / or a transparent overlay of the detected road user is displayed at a predicted position.
10. Verfahren nach einem der Ansprüche 2 bis 9, dadurch gekennzeichnet, dass mit einer Fahrerbeobachtungskamera geprüft wird, ob der Fahrer das Objekt bereits im Blick hat, und dass in diesem Fall eine Warnung unterbleibt. 10. The method according to any one of claims 2 to 9, characterized in that it is checked with a driver observation camera whether the driver already has the object in view, and that in this case no warning is given.
PCT/EP2022/063249 2021-06-18 2022-05-17 Method for predicting a behaviour of road users WO2022263079A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102021003159.8A DE102021003159A1 (en) 2021-06-18 2021-06-18 Procedure for predicting the behavior of road users
DE102021003159.8 2021-06-18

Publications (1)

Publication Number Publication Date
WO2022263079A1 true WO2022263079A1 (en) 2022-12-22

Family

ID=82067535

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2022/063249 WO2022263079A1 (en) 2021-06-18 2022-05-17 Method for predicting a behaviour of road users

Country Status (2)

Country Link
DE (1) DE102021003159A1 (en)
WO (1) WO2022263079A1 (en)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210064044A1 (en) * 2019-08-30 2021-03-04 Waymo Llc Determining respective impacts of agents

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004521028A (en) 2001-07-11 2004-07-15 ローベルト ボッシュ ゲゼルシャフト ミット ベシュレンクテル ハフツング Method and apparatus for operating and decelerating a vehicle
DE102015206200A1 (en) 2015-04-08 2016-10-13 Robert Bosch Gmbh Method and device for attention recognition of a driver
DE102017204347A1 (en) 2017-03-15 2018-09-20 Audi Ag Method and system for determining a kinematic property of an object, method for controlling an assistance system of a motor vehicle and motor vehicle
DE102018218098A1 (en) 2018-10-23 2020-04-23 Volkswagen Aktiengesellschaft Method and device for abstracting a data record
DE102019218256A1 (en) 2019-11-26 2021-05-27 Volkswagen Aktiengesellschaft Safety device and procedure for warning objects outside the vehicle
DE102019134048A1 (en) 2019-12-11 2020-03-26 FEV Group GmbH Procedure for predicting pedestrian behavior

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210064044A1 (en) * 2019-08-30 2021-03-04 Waymo Llc Determining respective impacts of agents

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MOZAFFARI SAJJAD ET AL: "Deep Learning-Based Vehicle Behavior Prediction for Autonomous Driving Applications: A Review", IEEE TRANSACTIONS ON INTELLIGENT TRANSPORTATION SYSTEMS, IEEE, PISCATAWAY, NJ, USA, vol. 23, no. 1, 4 August 2020 (2020-08-04), pages 33 - 47, XP011896189, ISSN: 1524-9050, [retrieved on 20211227], DOI: 10.1109/TITS.2020.3012034 *
S. OPREA ET AL.: "A Review on Deep Learning Techniques for Video Prediction", IEEE TRANSACTIONS ON PATTERN ANALYSIS & MACHINE INTELLIGENCE, vol. 01, no. 5555, pages 1 - 1

Also Published As

Publication number Publication date
DE102021003159A1 (en) 2022-12-22

Similar Documents

Publication Publication Date Title
EP1145186B1 (en) Method and apparatus for increasing the power of a traffic sign recognition system
DE102014201159A1 (en) Method and device for classifying a behavior of a pedestrian when crossing a roadway of a vehicle and personal protection system of a vehicle
WO2007096308A1 (en) Assistance system for assisting a driver
DE102012022563B4 (en) Method and system for collecting and processing vehicle-relevant information
DE102012204948A1 (en) Method for assisting driver when driving vehicle at changing lanes, involves assigning vehicle and detected objects to tracks of roadway, and generating warning signal when detected object regarding vehicle is located on relevant track
DE102006058308A1 (en) Method and device for detecting an obstacle in a surrounding area of a motor vehicle and motor vehicle
DE102017111468A1 (en) A vehicle system and method for determining whether a vehicle occupant has sensed an off-vehicle object
DE102017207960A1 (en) METHOD AND DEVICE FOR LOCALLY DETECTED DETECTION FROM A VEHICLE-EXTINGUISHED OBJECT USING A SENSOR BUILT IN A VEHICLE
WO2018215242A2 (en) Method for determining a driving instruction
DE102017211387A1 (en) System and method for automated maneuvering of an ego vehicle
DE102007021580B4 (en) Method and device for determining vehicle-relevant traffic signs
DE102016002232B4 (en) Method for operating a motor vehicle
DE102018213378B4 (en) Driver assistance system for a vehicle, vehicle with the same and driver assistance method for a vehicle
DE102016220450A1 (en) Apparatus, means of transport and method for estimating a collision probability between a means of locomotion and an environment object
WO2019120709A1 (en) Method and control unit for controlling a function of a vehicle driven at least partially in an automated manner
DE102018209388A1 (en) Detection of driving-relevant situations at a greater distance
DE102016214599A1 (en) Method for detecting traffic signs in motor vehicles
WO2022263079A1 (en) Method for predicting a behaviour of road users
DE102022210507A1 (en) Alarm system to warn vulnerable road users in a given road section
DE102019204187A1 (en) Classification and temporal recognition of tactical driving maneuvers by road users
DE102007021579A1 (en) Traffic sign i.e. circular traffic sign, classifying method, involves classifying object in dependence of classification process and/or classification result, by another different classification process for classification of traffic sign
DE102017010513A1 (en) A method for detecting an attention of a person detected in an environment of a vehicle
DE102016120166A1 (en) Controlling a vehicle depending on the environment
WO2020260477A1 (en) Detection device and vehicle sensor system
DE102010018333A1 (en) Method for evaluating information of image that is captured by optical camera in driver assisting system in e.g. passenger car, involves evaluating information that contains in determined image region, which comprises track course portion

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22730673

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 22730673

Country of ref document: EP

Kind code of ref document: A1