WO2022263488A1 - Verfahren zur erkennung von objekten gesuchter typen in kamerabildern - Google Patents

Verfahren zur erkennung von objekten gesuchter typen in kamerabildern Download PDF

Info

Publication number
WO2022263488A1
WO2022263488A1 PCT/EP2022/066260 EP2022066260W WO2022263488A1 WO 2022263488 A1 WO2022263488 A1 WO 2022263488A1 EP 2022066260 W EP2022066260 W EP 2022066260W WO 2022263488 A1 WO2022263488 A1 WO 2022263488A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
machine learning
learning model
semantic segmentation
objects
Prior art date
Application number
PCT/EP2022/066260
Other languages
English (en)
French (fr)
Inventor
Denis Tananaev
Original Assignee
Robert Bosch Gmbh
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch Gmbh filed Critical Robert Bosch Gmbh
Publication of WO2022263488A1 publication Critical patent/WO2022263488A1/de

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2178Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor
    • G06F18/2185Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor the supervisor being an automated module, e.g. intelligent oracle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations

Definitions

  • the present invention relates to the detection of objects of searched types, such as specific traffic-relevant objects, in camera images of an area, such as a vehicle environment.
  • DE 102019 213506 A1 discloses a method for characterizing moving objects from physical measurement data, such as images. This method allows objects to be recognized, classified and tracked simultaneously.
  • a method for detecting objects in an area that is observed by one or more cameras was developed.
  • a specific search is made for objects of one or more specified types.
  • the method begins with at least one image recorded by a camera being compared with at least one machine learning model Depth map and a semantic segmentation according to types of objects are determined.
  • a machine learning model is considered to be a model that embodies a function parameterized with adjustable parameters with great power to generalize.
  • the parameters can be adapted in particular in such a way that when learning inputs are entered into the model, the associated learning outputs are reproduced as well as possible.
  • This type of training is called supervised training.
  • the parameters can also be adapted, for example, in such a way that the machine learning model maps learning inputs to outputs which, in combination with the learning inputs, meet any consistency conditions.
  • This type of training is called semi-supervised training.
  • the machine learning model can include an artificial neural network, ANN, and/or it can be an ANN.
  • a depth map associates each pixel of a two-dimensional image with a distance of a visible surface of an object to which that pixel belongs from a reference point or plane.
  • a semantic segmentation assigns each pixel of the image to one of several classes of a given classification.
  • One or more of these classes can represent types of objects, such as traffic signs, vehicles, pedestrians, lane boundaries, obstacles, or other traffic-related objects.
  • one or more of these classes may also represent certain types of image backgrounds, such as the sky.
  • Pixels of the image are selected which, according to the semantic segmentation, belong to objects of at least one of the searched types.
  • a virtual scenery is determined in which the locations specified by the selected pixels and the associated depth from the depth map each relate to an object of a type specified by the semantic segmentation belong.
  • This scenery can be understood, for example, as a point cloud in which the said locations are each assigned an object type as an attribute.
  • a virtual image is created that shows this virtual scenery from a given perspective.
  • This virtual image is searched for objects of at least one of the searched types using at least one object recognition module.
  • filtering according to object types improves the detection of objects that are small in relation to the entire observed area.
  • this means that such objects can be recognized at a point in time when they are still comparatively far away from the vehicle and therefore appear small in the image. Accordingly, these objects can be reacted to earlier.
  • cyclists, e-scooter drivers, pedestrians and other vulnerable road users are particularly relevant.
  • Said filtering suppresses the tendency for the part of the image signal originating from these objects to be drowned out by image parts such as the sky or trees in the background of the image, which occupy a much larger area in the image.
  • a machine learning model is particularly advantageous in this context because, unlike, for example, classic photogrammetry based on the triangulation of camera positions, a machine learning model can also determine a depth map if the area in which objects are to be detected , can only be observed from one or a few perspectives. This is regularly the case in particular when observing traffic situations from a vehicle.
  • the image is pre-processed into at least one intermediate product in the machine learning model.
  • This at least one intermediate then becomes two branches of the model forwarded.
  • the first branch determines the depth map
  • the second branch determines the semantic segmentation.
  • the machine learning model is then a so-called multitask model.
  • such a multitask model can get by with significantly fewer hardware resources and/or significantly less computing time than an arrangement of two machine learning models, each of which independently determines the depth map or the semantic segmentation from the image, since in particular the results obtained at the beginning of the processing can be used both for determining the depth map and for the semantic segmentation.
  • the two branches of the model can work completely independently of each other. However, there can also be optional cross-connections between the two branches. This means that one branch can also use the work results of the other branch. In this way, for example, ambiguities and/or contradictions in the depth map can be resolved by knowing which object a specific location specified by the image and depth map belongs to. In particular, for example, information can be supplemented when an object is partially covered.
  • a plausibility is determined for the selected pixels in each case for the fact that these pixels belong to objects of the types specified in each case by the semantic segmentation.
  • the selected pixels are filtered using these plausibilities.
  • any consistency conditions or statistical conditions can be used for the plausibility check.
  • a point cloud of locations that have been identified as belonging to the scanned object can also be cleaned up using statistical criteria in classical photogrammetry in order to improve the quality of the reconstruction ultimately obtained.
  • the selected pixels can be filtered based on the spatial density of locations defined by selected pixels, each in conjunction with associated depths from the depth map. If, for example, a single pixel supposedly belongs to an object, but the location in the point cloud defined by the pixel and the associated depth stands alone, there is a high probability that it is an outlier.
  • a top view from a bird's-eye view is selected as the specified perspective for creating the virtual image.
  • this is the perspective in which the most complete overview is given and the fewest objects are covered by other objects.
  • the object recognition module can contain, for example, another machine learning model, and/or it can cluster the pixels of the virtual image.
  • object recognition modules are best suited to recognize objects based on incomplete representations. For example, if a vehicle is only partially visible in the originally recorded image because it is covered by other objects, then only the visible portion of the vehicle generates associated locations in the virtual scenery. Accordingly, the representation of the vehicle in the virtual image is also incomplete. A machine learning model can still recognize such a "bitten off" vehicle.
  • an area in the surroundings of a vehicle is particularly advantageously selected as the monitored area.
  • a control signal is formed from the output of the object recognition module.
  • the vehicle is controlled with the control signal.
  • the method has the effect that, as a result of the actuation, the vehicle reacts earlier to the presence of the detected object.
  • it is possible to prevent a collision of the vehicle with the object with a higher probability.
  • the invention also provides a method for training a machine learning model for use in the method described above.
  • This The method is based on a large number of training images. However, these training images do not necessarily have to be "labeled" with target information on which they should ideally be mapped by the machine learning model.
  • a first training image is mapped onto a depth map using the machine learning model. At least a subset of the pixels of the first training image is selected. For example, all pixels of the first training image can be selected.
  • the machine learning model to be trained can be, for example, a multitask model in which mapping to a depth map takes place in one branch and in which there is another branch that creates the semantic segmentation.
  • the machine learning model to be trained can also be trained, for example, in tandem with another machine learning model responsible for the semantic segmentation. The training can then be specifically focused on those parts of the training image that relate to the objects to be found later.
  • the locations indicated by the selected pixels and the associated depth from the depth map are combined into a virtual scene.
  • a virtual image is determined that shows this scenery from a perspective from which a second training image was recorded. If, for example, a vehicle that carries at least one camera moves between the recording of the first training image and the recording of the second training image, this changes the perspective from which the vehicle's surroundings are observed.
  • a predetermined cost function is used to assess the extent to which the virtual image is consistent with the second training image. Parameters that characterize the behavior of the machine learning model are optimized with with the aim that further processing of training images by the machine learning model will presumably improve the evaluation by the cost function.
  • the cost function for said consistency check can, for example, have the form
  • I t is the image captured at the current time t.
  • I t ⁇ tl is image taken at time t' and warped to match image I t :
  • I t ⁇ t I t ⁇ proj(P t ,T t ⁇ t "K)).
  • proj denotes the coordinates of a back-projection from the perspective at time t' to the perspective at time t. These coordinates depend on the depth map D t for the image I t , on the transformation T t ⁇ t , on the perspective at time t on the perspective at time t' and on calibration parameters K of the camera at time t.
  • the operator ⁇ > designates the sampling. The following then applies:
  • SSIM designates the structural similarity and a a weighting between this structural similarity on the one hand and an L1 norm on the other hand.
  • a disparity between corresponding locations that are specified by a first training image and the depth map determined therefrom or by a second training image and the depth map determined therefrom is also determined.
  • a comparison value for this disparity is provided from lidar measurements of the scenery shown in the two training images.
  • a deviation between the disparity and the comparison value is included in the cost function.
  • the cost function can, for example, have an additional term LGT of the form
  • L GT
  • disp is the disparity
  • d sp is the comparison value determined from lidar measurements.
  • the smoothness of the virtual image is also included in the cost function.
  • the cost function can, for example, have an additional term Ls of the form obtain.
  • L D L GT + ML p + L s
  • M is an optional mask. With this mask M, such pixels can be hidden from the evaluation of the reprojection that are to be regarded as invalid for any reason. For example, pixels can be considered invalid if they belong to a moving object or to parts of the vehicle from which the surroundings of this vehicle are observed.
  • a semantic segmentation of the training image is additionally created with the machine learning model.
  • the machine learning model is then a multitask model.
  • the semantic segmentation is compared with a target segmentation belonging to the training image.
  • a deviation of the semantic segmentation from the target segmentation is included in the cost function.
  • the cost function L seg for the semantic segmentation can be of the form L se g softmax(l, T).
  • l are the class labels that the machine learning model assigns to the pixels
  • are the target labels (“ground truth”) determined from lidar measurements.
  • the overall cost function L muiti for the multitask model can then be expressed as a weighted sum composed of the contributions L seg and L D .
  • the parameter w determines the relative weighting of these contributions to each other.
  • the invention therefore also relates to a computer program with machine-readable instructions which, when executed on one or more computers, cause the computer or computers to carry out the method described for training the neural network.
  • control devices for vehicles and embedded systems for technical devices that are also able to execute machine-readable instructions are also to be regarded as computers.
  • the invention also relates to a machine-readable data carrier and/or a download product with the computer program.
  • a downloadable product is a digital product that can be transmitted over a data network, i.e. can be downloaded by a user of the data network and that can be offered for sale in an online shop for immediate download, for example.
  • a computer can be equipped with the computer program, with the machine-readable data carrier or with the downloadable product.
  • FIG. 1 exemplary embodiment of the method 100 for detecting objects 2;
  • FIG. 2 Schematic illustration of an exemplary processing of an image 4 to identify objects 2;
  • Figure 3 embodiment of the method 200 for training a machine learning model 5.
  • FIG. 1 is a schematic flow chart of an exemplary embodiment of the method 100 for detecting objects 2 in an area 1 which is observed by one or more cameras 3. Objects of 2 specific types are sought.
  • step 105 an area 1 in the vicinity of a vehicle 50 is selected.
  • a depth map 4a and a semantic segmentation 4b according to types of objects 2 are determined for at least one image 4 recorded by a camera 3 with at least one machine learning model 5.
  • the image 4 can be preprocessed into at least one intermediate product 4*.
  • This intermediate product 4* can then be fed to a first branch 5a of the model 5 according to block 111 and to a second branch 5b of the model 5 according to block 112.
  • the first branch 5a determines the depth map 4a.
  • the second branch 5b determines the semantic segmentation 4b.
  • step 120 pixels 4c of image 4 are selected which, according to semantic segmentation 4b, belong to objects 2 of at least one of the types sought.
  • step 130 a plausibility 4d is determined for each of the selected pixels 4c for the fact that these pixels belong to objects 2 of the types specified in each case by the semantic segmentation 4b.
  • the selected pixels 4c are filtered on the basis of these plausibility 4d.
  • the selected pixels 4c can be filtered based on the spatial density of locations that are defined by selected pixels 4c in each case in connection with associated depths from the depth map 4a.
  • a virtual scenery 6 is determined in which the locations specified by the selected pixels 4c and the associated depth from the depth map 4a each belong to an object 2 of a type specified by the semantic segmentation 4b. This means that the respective locations are annotated with the respective object type as an attribute.
  • a virtual image 7 is created that shows this virtual scenery 6 from a specified perspective 6a.
  • a top view from a bird's-eye view can be selected as the predefined perspective.
  • step 170 the virtual image 7 is searched with at least one object recognition module 8 for objects 2 of at least one of the types sought.
  • step 180 a control signal 9 is formed from the output of the object recognition module 8 .
  • step 190 the vehicle 50 is controlled with the control signal 9 .
  • FIG 2 schematically illustrates the exemplary processing of an image 4 according to the method 100.
  • the image 4 is taken from the perspective of a moving vehicle and contains a road 61, two pedestrians 62, a tree 63 and a sky 64. Only the road is relevant to traffic here 61 and the pedestrians 62 who can step onto the street 61.
  • the tree 63 and the sky 64 does not affect the traffic situation, but takes up a comparatively large amount of space in Figure 4.
  • the pedestrians 62 on the other hand, appear very small in image 4 since they are still quite far away.
  • a virtual scenery 6 is generated, in which only those locations that belong to the road 61 and the pedestrians 62 are noted using the image 4 and the depth map 4a determined therefrom.
  • a virtual image 7 of this virtual scenery 6 from a bird's-eye view is determined. This virtual image only contains the street 61 and the pedestrians 62 as clearly recognizable objects 2.
  • FIG. 3 is a schematic flowchart of an embodiment of the method 200 for training a machine learning model 5 for use in the method 100 described above.
  • the method works on the basis of a large number of training images 4#.
  • step 210 a first training image 4# is mapped onto a depth map 4a using the machine learning model 5.
  • step 220 at least a subset 4c of the pixels of the first training image 4# is selected.
  • step 230 the locations specified by the selected pixels 4c and the associated depth from the depth map 4a are combined to form a virtual scenery 6.
  • step 240 a virtual image 7 is determined, which shows this virtual scenery 6 from a perspective from which a second training image 4## was recorded.
  • step 250 a predetermined cost function 10 is used to assess the extent to which the virtual image 7 is consistent with the second training image 4##.
  • step 260 parameters 5a, which characterize the behavior of the machine learning model 5, are optimized with the aim that during further processing of training images 4#, 4## by the machine learning model 5, the evaluation 10a by the cost function 10 is expected to be improved.
  • the fully trained state of the parameters 5a is denoted by the reference symbol 5a*.
  • step 270 a disparity 11 between corresponding locations, which are indicated by a first training image 4# and the depth map 4a determined therefrom or by a second training image 4## and the depth map 4a determined therefrom, can be determined.
  • a comparison value 11a for this disparity 11 from lidar measurements of the scenery shown in the two training images 4#, 4## is then provided in step 275.
  • a deviation between the disparity 11 and the comparison value 11a is then included in the cost function 10.
  • the smoothness of the virtual image 7 can also be included in the cost function 10.
  • step 280 the machine learning model 5 can be used to create a semantic segmentation 4b of the training image 4#.
  • This semantic segmentation 4b is compared in step 285 with a target segmentation 4b* belonging to the training image 4#.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

Verfahren (100) zur Erkennung von Objekten (2) eines oder mehrerer vorgegebener Typen in einem Bereich (1), der von einer oder mehreren Kameras (3) beobachtet wird, mit den Schritten: • zu mindestens einem von einer Kamera (3) aufgenommenen Bild (4) werden mit mindestens einem Machine Learning-Modell (5) eine Tiefenkarte (4a) sowie eine semantische Segmentierung (4b) nach Typen von Objekten (2) ermittelt (110); • es werden Pixel (4c) des Bildes (4) ausgewählt (120), die gemäß der semantischen Segmentierung (4b) zu Objekten (2) mindestens eines der gesuchten Typen gehören; • es wird eine virtuelle Szenerie (6) ermittelt (150), in der die durch die ausgewählten Pixel (4c) und die zugehörige Tiefe aus der Tiefenkarte (4a) angegebenen Orte jeweils zu einem Objekt (2) eines durch die semantische Segmentierung (4b) angegebenen Typs gehören; • es wird ein virtuelles Bild (7) erstellt (160), das diese virtuelle Szenerie (6) aus einer vorgegebenen Perspektive (6a) zeigt; • dieses virtuelle Bild (7) wird mit mindestens einem Objekterkennungsmodul (8) auf Objekte (2) mindestens eines der gesuchten Typen durchsucht (170).

Description

Beschreibung
Titel:
Verfahren zur Erkennung von Objekten gesuchter Typen in Kamerabildern
Die vorliegende Erfindung betrifft die Erkennung von Objekten gesuchter Typen, wie etwa bestimmter verkehrsrelevanter Objekte, in Kamerabildern eines Bereichs, wie etwa eines Fahrzeugumfelds.
Stand der Technik
Beim Führen eines Fahrzeugs im Verkehr durch einen menschlichen Fahrer sind optische Informationen aus dem Fahrzeugumfeld die wichtigste Informationsquelle. Ein wesentlicher Teil der Fahraufgabe ist, Objekte im Fahrzeugumfeld sowie deren Absichten zu erkennen und eine entsprechende Reaktion des eigenen Fahrzeugs einzuleiten.
Die DE 102019 213506 Al offenbart ein Verfahren zur Charakterisierung bewegter Objekte aus physikalischen Messdaten, wie etwa Bildern. Dieses Verfahren erlaubt eine simultane Erkennung, Klassifikation und Verfolgung von Objekten.
Offenbarung der Erfindung
Im Rahmen der Erfindung wurde ein Verfahren zur Erkennung von Objekten in einem Bereich, der von einer oder mehreren Kameras beobachtet wird, entwickelt. Hierbei wird konkret nach Objekten eines oder mehrerer vorgegebener Typen gesucht.
Das Verfahren beginnt damit, dass zu mindestens einem von einer Kamera aufgenommene Bild mit mindestens einem Machine Learning-Modell eine Tiefenkarte sowie eine semantische Segmentierung nach Typen von Objekten ermittelt werden.
Unter einem Machine Learning-Modell wird insbesondere ein Modell angesehen, das eine mit anpassbaren Parametern parametrierte Funktion mit großer Kraft zur Verallgemeinerung verkörpert. Die Parameter können beim Training eines Machine Learning-Modells insbesondere dergestalt angepasst werden, dass bei Eingabe von Lern-Eingaben in das Modell die zugehörigen Lern-Ausgaben möglichst gut reproduziert werden. Diese Art von Training wird überwachtes Training genannt. Alternativ oder auch in Kombination hierzu können die Parameter auch beispielsweise dergestalt angepasst werden, dass das Machine Learning-Modell Lern-Eingaben auf Ausgaben abbildet, die in der Zusammenschau mit den Lern-Eingaben beliebige Konsistenzbedingungen erfüllen. Diese Art von Training wird semi-überwachtes Training genannt. Das Machine Learning-Modell kann insbesondere ein künstliches neuronales Netzwerk, KNN, beinhalten, und/oder es kann ein KNN sein.
Eine Tiefenkarte ordnet jedem Pixel eines zweidimensionalen Bildes eine Entfernung einer sichtbaren Oberfläche eines Objekts, zu der das jeweilige Pixel gehört, von einem Bezugspunkt oder einer Bezugsebene zu.
Eine semantische Segmentierung ordnet jedem Pixel des Bildes eine von mehreren Klassen einer vorgegebenen Klassifikation zu. Eine oder mehrere dieser Klassen können Typen von Objekten repräsentieren, wie beispielsweise Verkehrszeichen, Fahrzeuge, Fußgänger, Fahrbahnbegrenzungen, Hindernisse oder sonstige verkehrsrelevante Objekte. Eine oder mehrere dieser Klassen können beispielsweise auch bestimmte Typen von Bildhintergründen repräsentieren, wie beispielsweise den Himmel.
Es werden Pixel des Bildes ausgewählt, die gemäß der semantischen Segmentierung zu Objekten mindestens eines der gesuchten Typen gehören.
Es wird eine virtuelle Szenerie ermittelt, in der die durch die ausgewählten Pixel und die zugehörige Tiefe aus der Tiefenkarte angegebenen Orte jeweils zu einem Objekt eines durch die semantische Segmentierung angegebenen Typs gehören. Diese Szenerie kann beispielsweise als Punktwolke verstanden werden, in der die besagten Orte jeweils mit einem Objekttyp als Attribut belegt sind.
Es wird ein virtuelles Bild erstellt, das diese virtuelle Szenerie aus einer vorgegebenen Perspektive zeigt. Dieses virtuelle Bild wird mit mindestens einem Objekterkennungsmodul auf Objekte mindestens eines der gesuchten Typen durchsucht.
Es wurde erkannt, dass durch die Filterung nach Objekttypen insbesondere die Erkennung von im Verhältnis zum gesamten beobachteten Bereich kleinen Objekten verbessert. Das bedeutet insbesondere beispielsweise bei der Beobachtung des Verkehrs von einem fahrenden Fahrzeug aus, dass solche Objekte zu einem Zeitpunkt erkannt werden können, zu dem sie noch vergleichsweise weit von dem Fahrzeug entfernt sind und daher im Bild klein erscheinen. Dementsprechend früher kann auf diese Objekte früher reagiert werden. Relevant sind in diesem Zusammenhang insbesondere beispielsweise Radfahrer, E-Scooter-Fahrer, Fußgänger und andere schwächere Verkehrsteilnehmer. Durch die besagte Filterung wird die Tendenz unterdrückt, dass der von diesen Objekten herrührende Anteil des Bildsignals durch Bildanteile wie den Himmel oder Bäume im Bildhintergrund übertönt wird, die im Bild eine viel größere Fläche einnehmen.
Die Nutzung eines Machine Learning-Modells ist in diesem Zusammenhang besonders vorteilhaft, weil ein Machine Learning-Modell anders als beispielsweise die klassische, auf der Triangulation von Kamerapositionen basierende Photogrammetrie eine Tiefenkarte auch dann ermitteln kann, wenn der Bereich, in dem Objekte erkannt werden sollen, nur aus einer oder einigen wenigen Perspektiven beobachtet werden kann. Dies ist insbesondere bei der Beobachtung von Verkehrssituationen von einem Fahrzeug aus regelmäßig der Fall.
In einer besonders vorteilhaften Ausgestaltung wird in dem Machine Learning- Modell das Bild zu mindestens einem Zwischenprodukt vorverarbeitet. Dieses mindestens eine Zwischenprodukt wird dann zwei Zweigen des Modells zugeleitet. Der erste Zweig ermittelt die Tiefenkarte, und der zweite Zweig ermittelt die semantische Segmentierung. Das Machine Learning-Modell ist dann ein sogenanntes Multitask-Modell. Je nach konkreter Anwendung kann ein solches Multitask-Modell mit deutlich weniger Hardwareressourcen, und/oder mit deutlich weniger Rechenzeit, auskommen als eine Anordnung aus zwei Machine Learning-Modellen, die jeweils unabhängig voneinander aus dem Bild die Tiefenkarte bzw. die semantische Segmentierung ermitteln, da insbesondere die zu Beginn der Verarbeitung erarbeiteten Ergebnisse sowohl für die Ermittlung der Tiefenkarte als auch für die semantische Segmentierung brauchbar sind.
Die beiden Zweige des Modells können völlig voneinander unabhängig arbeiten. Es kann jedoch auch optional Querverbindungen zwischen den beiden Zweigen geben. Somit kann ein Zweig auch Arbeitsergebnisse des jeweils anderen Zweiges nutzen. Auf diese Weise können beispielsweise Mehrdeutigkeiten und/oder Widersprüche in der Tiefenkarte durch die Kenntnis, zu welchem Objekt ein bestimmter durch Bild und Tiefenkarte angegebener Ort gehört, aufgelöst werden. Es können insbesondere beispielsweise Informationen ergänzt werden, wenn ein Objekt teilweise verdeckt ist.
In einer weiteren vorteilhaften Ausgestaltung wird für die ausgewählten Pixel jeweils eine Plausibilität dafür ermittelt, dass diese Pixel zu Objekten der jeweils durch die semantische Segmentierung angegebenen Typen gehören. Die ausgewählten Pixel werden anhand dieser Plausibilitäten gefiltert. Hiermit kann die Qualität der virtuellen Szenerie, und damit auch die Qualität des für die letztendliche Erkennung genutzten virtuellen Bildes, noch einmal verbessert werden.
Für die Plausibilisierung können beispielsweise beliebige Konsistenzbedin gungen oder statistische Bedingungen verwendet werden. Dies ist ein Stück weit analog dazu, dass auch bei der klassischen Photogrammetrie eine Punktwolke von Orten, die als zum eingescannten Objekt zugehörig identifiziert wurden, anhand statistischer Kriterien bereinigt werden kann, um die Qualität der letztendlich erhaltenen Rekonstruktion zu verbessern. Beispielsweise können die ausgewählten Pixel anhand der räumlichen Dichte von Orten, die durch ausgewählte Pixel jeweils in Verbindung mit zugehörigen Tiefen aus der Tiefenkarte festgelegt sind, gefiltert werden. Wenn etwa ein einzelnes Pixel angeblich zu einem Objekt gehört, aber der durch Pixel und zugehörige Tiefe festgelegte Ort in der Punktwolke allein auf weiter Flur steht, handelt es sich mit hoher Wahrscheinlichkeit um einen Ausreißer.
In einer besonders vorteilhaften Ausgestaltung wird eine Aufsicht aus der Vogelperspektive als vorgegebene Perspektive für die Erstellung des virtuellen Bildes gewählt. Dies ist insbesondere für die Analyse von Verkehrssituationen diejenige Perspektive, in der der vollständigste Überblick gegeben ist und am wenigsten Objekte durch andere Objekte verdeckt sind.
Das Objekterkennungsmodul kann insbesondere beispielsweise ein weiteres Machine Learning-Modell beinhalten, und/oder es kann die Pixel des virtuellen Bildes clustern. Derartige Objekterkennungsmodule sind am besten geeignet, um Objekte auch anhand unvollständiger Darstellungen zu erkennen. Wenn beispielsweise ein Fahrzeug im ursprünglich aufgenommenen Bild nur teilweise sichtbar ist, weil es durch andere Objekte verdeckt ist, dann erzeugt nur der sichtbare Anteil des Fahrzeugs zugehörige Orte in der virtuellen Szenerie. Dementsprechend ist die Darstellung des Fahrzeugs im virtuellen Bild ebenfalls unvollständig. Ein Machine Learning-Modell kann auch ein solches „abgebissenes“ Fahrzeug noch erkennen.
Wie zuvor erläutert, wird besonders vorteilhaft ein Bereich in einem Umfeld eines Fahrzeugs als überwachter Bereich gewählt. Aus der Ausgabe des Objekterkennungsmoduls wird ein Ansteuersignal gebildet. Das Fahrzeug wird mit dem Ansteuersignal angesteuert. In diesem Kontext hat das Verfahren die Wirkung, dass das Fahrzeug infolge der Ansteuerung früher auf das Vorhandensein des erkannten Objekts reagiert. Somit kann es insbesondere mit einer höheren Wahrscheinlichkeit gelingen, eine Kollision des Fahrzeugs mit dem Objekt zu verhindern.
Die Erfindung stellt auch ein Verfahren zum Trainieren eines Machine Learning- Modells für den Einsatz in dem zuvor beschriebenen Verfahren bereit. Dieses Verfahren geht von einer Vielzahl von Trainingsbildern aus. Diese Trainingsbilder müssen aber nicht notwendigerweise mit Soll-Information, auf die sie vom Machine Learning-Modell idealerweise abgebildet werden sollten, „gelabelt“ sein.
Im Rahmen des Verfahrens wird ein erstes Trainingsbild mit dem Machine Learning-Modell auf eine Tiefenkarte abgebildet. Es wird mindestens eine Teilmenge der Pixel des ersten Trainingsbildes ausgewählt. Beispielsweise können alle Pixel des ersten Trainingsbildes ausgewählt werden.
Wenn eine semantische Segmentierung des ersten Trainingsbildes zur Verfügung steht, können vorteilhaft diejenigen Pixel des ersten Trainingsbildes ausgewählt werden, die gemäß dieser semantischen Segmentierung zu Objekten vorgegebener Typen gehören. Das zu trainierende Machine Learning-Modell kann beispielsweise ein Multitask-Modell sein, in dem in einem Zweig die Abbildung auf eine Tiefenkarte stattfindet und in dem es noch einen weiteren Zweig gibt, der die semantische Segmentierung erstellt. Das zu trainierende Machine Learning-Modell kann auch beispielsweise im Tandem mit einem weiteren, für die semantische Segmentierung zuständigen Machine Learning- Modell trainiert werden. Das Training kann dann speziell auf diejenigen Teile der Trainingsbildes fokussiert werden, die sich auf die später zu suchenden Objekte beziehen.
Die durch die ausgewählten Pixel und die zugehörige Tiefe aus der Tiefenkarte angegebenen Orte werden zu einer virtuellen Szenerie zusammengefasst.
Es wird ein virtuelles Bild ermittelt, das diese Szenerie aus einer Perspektive zeigt, aus der ein zweites Trainingsbild aufgenommen wurde. Wenn sich beispielsweise ein Fahrzeug, das mindestens eine Kamera trägt, zwischen der Aufnahme des ersten Trainingsbildes und der Aufnahme des zweiten Trainingsbildes fortbewegt, ändert sich hierdurch die Perspektive, aus der das Fahrzeugumfeld beobachtet wird.
Anhand einer vorgegebenen Kostenfunktion wird bewertet, inwieweit das virtuelle Bild mit dem zweiten Trainingsbild im Einklang steht. Parameter, die das Verhalten des Machine Learning-Modells charakterisieren, werden optimiert mit dem Ziel, dass bei weiterer Verarbeitung von Trainingsbildern durch das Machine Learning-Modell die Bewertung durch die Kostenfunktion voraussichtlich verbessert wird.
Eine in dieser Weise durchgeführte Optimierung macht lediglich von der Annahme Gebrauch, dass die Trainingsbilder untereinander konsistent sind. Diese Annahme ist insbesondere dann sinnvoll, wenn die Trainingsbilder in einer zeitlichen Sequenz aufgenommen wurden. Ein „Labein“ der Trainingsbilder mit Tiefeninformation ist nicht erforderlich.
Die Kostenfunktion für die besagte Konsistenzprüfung kann beispielsweise die Form
Figure imgf000009_0001
Hierin ist pe der photometrische Rekonstruktionsfehler. It ist das zum aktuellen Zeitpunkt t aufgenommene Bild. It^tl ist Bild, das zum Zeitpunkt t' aufgenommen und verzerrt wurde mit dem Ziel, es in Übereinstimmung mit dem Bild It zu bringen:
It^t, = It{proj(Pt,Tt^t„K)).
Hierin bezeichnet „proj“ die Koordinaten einer Rückprojektion von der Perspektive zum Zeitpunkt t' auf die Perspektive zum Zeitpunkt t. Diese Koordinaten hängen ab von der Tiefenkarte Dt für das Bild It, von der Transformation Tt^t, von der Perspektive zum Zeitpunkt t auf die Perspektive zum Zeitpunkt t' sowie von Kalibrierungsparametern K der Kamera zum Zeitpunkt t. Der Operator <> bezeichnet das Sampling. Es gilt dann:
Figure imgf000009_0002
Hierin bezeichnet SSIM die strukturelle Ähnlichkeit und a eine Gewichtung zwischen dieser strukturellen Ähnlichkeit einerseits und einer Ll-Norm andererseits.
In einer vorteilhaften Ausgestaltung wird zusätzlich eine Disparität zwischen korrespondierenden Orten, die durch ein erstes Trainingsbild und die hieraus ermittelte Tiefenkarte bzw. durch ein zweites Trainingsbild und die hieraus ermittelte Tiefenkarte angegeben werden, ermittelt. Es wird ein Vergleichswert für diese Disparität aus Lidar-Messungen der in den beiden Trainingsbildern gezeigten Szenerie bereitgestellt. Eine Abweichung zwischen der Disparität und dem Vergleichswert wird in die Kostenfunktion einbezogen. Auf diese Weise kann eine Zusatzinformation anhand von Lidar-Messungen in dem Umfang, in dem sie verfügbar ist, mit eingebracht werden. Hiermit kann insbesondere die Genauigkeit bei der Erkennung bewegter Objekte verbessert werden.
Die Kostenfunktion kann hierzu beispielsweise einen Zusatzterm LGT der Form
LGT = | disp — disp | erhalten. Hierin ist disp die Disparität und d sp der aus Lidar-Messungen ermittelte Vergleichswert.
In einer weiteren vorteilhaften Ausgestaltung wird zusätzlich die Glätte des virtuellen Bildes in die Kostenfunktion einbezogen. Hiermit wird insbesondere das Glätten homogener Bildbereiche begünstigt. Die Kostenfunktion kann hierzu beispielsweise einen Zusatzterm Ls der Form
Figure imgf000010_0001
erhalten. Hierin bezeichnet dt * = <^i/= die mittlere normierte inverse Tiefe. Die
/ df gesamte Kostenfunktion Lü für die Tiefe kann dann als
LD = LGT + M Lp + Ls gebildet werden, worin M eine optionale Maske ist. Mit dieser Maske M können solche Pixel aus der Bewertung der Reprojektion ausgeblendet werden, die aus irgendeinem Grund als ungültig anzusehen sind. Pixel können beispielsweise als ungültig angesehen werden, wenn sie zu einem bewegten Objekt oder zu Teilen des Fahrzeugs, von dem aus das Umfeld dieses Fahrzeugs beobachtet wird, gehören.
In einer weiteren vorteilhaften Ausgestaltung wird mit dem Machine Learning- Modell zusätzlich eine semantische Segmentierung des Trainingsbildes erstellt. Das Machine Learning-Modell ist dann ein Multitask-Modell. Die semantische Segmentierung wird mit einer zu dem Trainingsbild gehörenden Soll- Segmentierung verglichen. Eine Abweichung der semantischen Segmentierung von der Soll-Segmentierung wird in die Kostenfunktion einbezogen. Auf diese Weise kann das Multitask-Modell gleichzeitig auf die Erstellung besserer Tiefenkarten und auf die Erstellung besserer semantischer Segmentierungen trainiert werden. Die Kostenfunktion Lseg für die semantische Segmentierung kann beispielsweise die Form Lseg softmax(l, T) haben. Hierin sind l die Klassen-Labels, die das Machine Learning-Modell den Pixeln jeweils zuordnet, und ΐ sind die aus Lidar-Messungen ermittelten Soll- Labels („ground truth“). Die Gesamt-Kostenfunktion Lmuiti für das Multitask-Model kann sich dann als gewichtete Summe
Figure imgf000011_0001
aus den Beiträgen Lseg und LD zusammensetzen. Der Parameter w bestimmt die relative Gewichtung dieser Beiträge zueinander.
Die Verfahren können insbesondere ganz oder teilweise computerimplementiert sein. Daher bezieht sich die Erfindung auch auf ein Computerprogramm mit maschinenlesbaren Anweisungen, die, wenn sie auf einem oder mehreren Computern ausgeführt werden, den oder die Computer dazu veranlassen, das beschriebenen Verfahren zum Trainieren des neuronalen Netzwerks auszuführen. In diesem Sinne sind auch Steuergeräte für Fahrzeuge und Embedded-Systeme für technische Geräte, die ebenfalls in der Lage sind, maschinenlesbare Anweisungen auszuführen, als Computer anzusehen.
Ebenso bezieht sich die Erfindung auch auf einen maschinenlesbaren Datenträger und/oder auf ein Downloadprodukt mit dem Computerprogramm. Ein Downloadprodukt ist ein über ein Datennetzwerk übertragbares, d.h. von einem Benutzer des Datennetzwerks downloadbares, digitales Produkt, das beispielsweise in einem Online-Shop zum sofortigen Download feilgeboten werden kann.
Weiterhin kann ein Computer mit dem Computerprogramm, mit dem maschinenlesbaren Datenträger bzw. mit dem Downloadprodukt ausgerüstet sein.
Weitere, die Erfindung verbessernde Maßnahmen werden nachstehend gemeinsam mit der Beschreibung der bevorzugten Ausführungsbeispiele der Erfindung anhand von Figuren näher dargestellt.
Ausführungsbeispiele Es zeigt:
Figur 1 Ausführungsbeispiel des Verfahrens 100 zur Erkennung von Objekten 2;
Figur 2 Schematische Veranschaulichung einer beispielhaften Verarbeitung eines Bildes 4 zu einer Erkennung von Objekten 2;
Figur 3 Ausführungsbeispiel des Verfahrens 200 zum Trainieren eines Machine Learning-Modells 5.
Figur 1 ist ein schematisches Ablaufdiagramm eines Ausführungsbeispiels des Verfahrens 100 zur Erkennung von Objekten 2 in einem Bereich 1, der von einer oder mehreren Kameras 3 beobachtet wird. Es werden Objekte 2 bestimmter Typen gesucht.
In Schritt 105 wird ein Bereich 1 im Umfeld eines Fahrzeugs 50 gewählt.
In Schritt 110 werden zu mindestens einem von einer Kamera 3 aufgenommenen Bild 4 mit mindestens einem Machine Learning-Modell 5 eine Tiefenkarte 4a sowie eine semantische Segmentierung 4b nach Typen von Objekten 2 ermittelt.
Hierbei kann insbesondere beispielweise gemäß Block 111 das Bild 4 zu mindestens einem Zwischenprodukt 4* vorverarbeitet werden. Dieses Zwischenprodukt 4* kann dann gemäß Block 111 einem ersten Zweig 5a des Modells 5 und gemäß Block 112 einem zweiten Zweig 5b des Modells 5 zugeleitet werden. Der erste Zweig 5a ermittelt die Tiefenkarte 4a. Der zweite Zweig 5b ermittelt die semantische Segmentierung 4b.
In Schritt 120 werden Pixel 4c des Bildes 4 ausgewählt, die gemäß der semantischen Segmentierung 4b zu Objekten 2 mindestens eines der gesuchten Typen gehören. In Schritt 130 wird für die ausgewählten Pixel 4c jeweils eine Plausibilität 4d dafür ermittelt, dass diese Pixel zu Objekten 2 der jeweils durch die semantische Segmentierung 4b angegebenen Typen gehören.
In Schritt 140 werden die ausgewählten Pixel 4c anhand dieser Plausibilitäten 4d gefiltert. Hierbei können insbesondere beispielsweise gemäß Block 141 die ausgewählten Pixel 4c anhand der räumlichen Dichte von Orten, die durch ausgewählte Pixel 4c jeweils in Verbindung mit zugehörigen Tiefen aus der Tiefenkarte 4a festgelegt sind, gefiltert werden.
In Schritt 150 wird eine virtuelle Szenerie 6 ermittelt, in der die durch die ausgewählten Pixel 4c und die zugehörige Tiefe aus der Tiefenkarte 4a angegebenen Orte jeweils zu einem Objekt 2 eines durch die semantische Segmentierung 4b angegebenen Typs gehören. Das heißt, die jeweiligen Orte sind mit dem jeweiligen Objekttyp als Attribut annotiert.
In Schritt 160 wird ein virtuelles Bild 7 erstellt, das diese virtuelle Szenerie 6 aus einer vorgegebenen Perspektive 6a zeigt. Hierbei kann insbesondere beispielsweise gemäß Block 161 eine Aufsicht aus der Vogelperspektive als vorgegebene Perspektive gewählt werden.
In Schritt 170 wird das virtuelle Bild 7 mit mindestens einem Objekterkennungsmodul 8 auf Objekte 2 mindestens eines der gesuchten Typen durchsucht.
In Schritt 180 wird aus der Ausgabe des Objekterkennungsmoduls 8 ein Ansteuersignal 9 gebildet.
In Schritt 190 wird das Fahrzeug 50 mit dem Ansteuersignal 9 angesteuert.
Figur 2 veranschaulicht schematisch die beispielhafte Verarbeitung eines Bildes 4 nach dem Verfahren 100. Das Bild 4 ist aus der Perspektive eines fahrenden Fahrzeugs aufgenommen und enthält eine Straße 61, zwei Fußgänger 62, einen Baum 63 sowie einen Himmel 64. Verkehrsrelevant sind hier nur die Straße 61 und die Fußgänger 62, die auf die Straße 61 treten können. Der Baum 63 und der Himmel 64 beeinflussen das Verkehrsgeschehen nicht, nehmen aber vergleichsweise viel Raum im Bild 4 ein. Die Fußgänger 62 hingegen erscheinen im Bild 4 sehr klein, da sie noch recht weit weg sind.
Im Laufe des Verfahrens 100 wird eine virtuelle Szenerie 6 erzeugt, in der anhand des Bildes 4 und der hieraus ermittelten Tiefenkarte 4a nur diejenigen Orte vermerkt sind, die zu der Straße 61 und den Fußgängern 62 gehören. Es wird ein virtuelles Bild 7 dieser virtuellen Szenerie 6 aus der Vogelperspektive ermittelt. Dieses virtuelle Bild enthält nur noch die Straße 61 sowie die Fußgänger 62 als klar erkennbare Objekte 2.
Figur 3 ist ein schematisches Ablaufdiagramm eines Ausführungsbeispiels des Verfahrens 200 zum Trainieren eines Machine Learning-Modells 5 für den Einsatz in dem zuvor beschriebenen Verfahren 100. Das Verfahren arbeitet auf der Basis einer Vielzahl von Trainingsbildern 4#.
In Schritt 210 wird ein erstes Trainingsbild 4# wird mit dem Machine Learning- Modell 5 auf eine Tiefenkarte 4a abgebildet.
In Schritt 220 wird mindestens eine Teilmenge 4c der Pixel des ersten Trainingsbildes 4# ausgewählt.
In Schritt 230 werden die durch die ausgewählten Pixel 4c und die zugehörige Tiefe aus der Tiefenkarte 4a angegebenen Orte zu einer virtuellen Szenerie 6 zusammengefasst.
In Schritt 240 wird ein virtuelles Bild 7 ermittelt, das diese virtuelle Szenerie 6 aus einer Perspektive zeigt, aus der ein zweites Trainingsbild 4## aufgenommen wurde.
In Schritt 250 wird anhand einer vorgegebenen Kostenfunktion 10 bewertet, inwieweit das virtuelle Bild 7 mit dem zweiten Trainingsbild 4## im Einklang steht.
In Schritt 260 werden Parameter 5a, die das Verhalten des Machine Learning- Modells 5 charakterisieren, optimiert mit dem Ziel, dass bei weiterer Verarbeitung von Trainingsbildern 4#, 4## durch das Machine Learning-Modell 5 die Bewertung 10a durch die Kostenfunktion 10 voraussichtlich verbessert wird. Der fertig trainierte Zustand der Parameter 5a ist mit dem Bezugszeichen 5a* bezeichnet.
In Schritt 270 kann eine Disparität 11 zwischen korrespondierenden Orten, die durch ein erstes Trainingsbild 4# und die hieraus ermittelte Tiefenkarte 4a bzw. durch ein zweites Trainingsbild 4## und die hieraus ermittelte Tiefenkarte 4a angegeben werden, ermittelt werden. Es wird dann in Schritt 275 ein Vergleichswert 11a für diese Disparität 11 aus Lidar-Messungen der in den beiden Trainingsbildern 4#, 4## gezeigten Szenerie bereitgestellt. Gemäß Block 251 wird dann eine Abweichung zwischen der Disparität 11 und dem Vergleichswert 11a in die Kostenfunktion 10 einbezogen.
Gemäß Block 252 kann zusätzlich die Glätte des virtuellen Bildes 7 in die Kostenfunktion 10 einbezogen werden.
In Schritt 280 kann mit dem Machine Learning-Modell 5 eine semantische Segmentierung 4b des Trainingsbildes 4# erstellt werden. Diese semantische Segmentierung 4b wird in Schritt 285 mit einer zu dem Trainingsbild 4# gehörenden Soll-Segmentierung 4b* verglichen. Gemäß Block 253 wird dann eine Abweichung | 4b-4b* | der semantischen Segmentierung 4b von der Soll- Segmentierung 4b* in die Kostenfunktion 10 einbezogen.

Claims

Ansprüche
1. Verfahren (100) zur Erkennung von Objekten (2) eines oder mehrerer vorgegebener Typen in einem Bereich (1), der von einer oder mehreren Kameras (3) beobachtet wird, mit den Schritten:
• zu mindestens einem von einer Kamera (3) aufgenommenen Bild (4) werden mit mindestens einem Machine Learning-Modell (5) eine Tiefenkarte (4a) sowie eine semantische Segmentierung (4b) nach Typen von Objekten (2) ermittelt (110);
• es werden Pixel (4c) des Bildes (4) ausgewählt (120), die gemäß der semantischen Segmentierung (4b) zu Objekten (2) mindestens eines der gesuchten Typen gehören;
• es wird eine virtuelle Szenerie (6) ermittelt (150), in der die durch die ausgewählten Pixel (4c) und die zugehörige Tiefe aus der Tiefenkarte (4a) angegebenen Orte jeweils zu einem Objekt (2) eines durch die semantische Segmentierung (4b) angegebenen Typs gehören;
• es wird ein virtuelles Bild (7) erstellt (160), das diese virtuelle Szenerie (6) aus einer vorgegebenen Perspektive (6a) zeigt;
• dieses virtuelle Bild (7) wird mit mindestens einem Objekterkennungsmodul (8) auf Objekte (2) mindestens eines der gesuchten Typen durchsucht (170).
2. Verfahren (100) nach Anspruch 1, wobei in dem Machine Learning- Modell (5)
• das Bild (4) zu mindestens einem Zwischenprodukt (4*) vorverarbeitet wird (111) und dieses mindestens eine Zwischenprodukt (4*)
• einem ersten Zweig (5a) des Modells (5), der die Tiefenkarte (4a) ermittelt, zugeleitet wird (112) und
• einem zweiten Zweig (5b) des Modells (5), der die semantische Segmentierung (4b) ermittelt, zugeleitet wird (113).
3. Verfahren (100) nach einem der Ansprüche 1 bis 2, wobei für die ausgewählten Pixel (4c) jeweils eine Plausibilität (4d) dafür ermittelt wird (130), dass diese Pixel zu Objekten (2) der jeweils durch die semantische Segmentierung (4b) angegebenen Typen gehören, und wobei die ausgewählten Pixel (4c) anhand dieser Plausibilitäten (4d) gefiltert werden (140).
4. Verfahren (100) nach Anspruch 3, wobei die ausgewählten Pixel (4c) anhand der räumlichen Dichte von Orten, die durch ausgewählte Pixel (4c) jeweils in Verbindung mit zugehörigen Tiefen aus der Tiefenkarte (4a) festgelegt sind, gefiltert werden (141).
5. Verfahren (100) nach einem der Ansprüche 1 bis 4, wobei eine Aufsicht aus der Vogelperspektive als vorgegebene Perspektive (6a) gewählt wird (161).
6. Verfahren (100) nach einem der Ansprüche 1 bis 5, wobei ein Objekterkennungsmodul (8) gewählt wird, das ein weiteres Machine Learning- Modell beinhaltet, und/oder die Pixel des virtuellen Bildes (7) clustert.
7. Verfahren (100) nach einem der Ansprüche 1 bis 6, wobei
• ein Bereich (1) in einem Umfeld eines Fahrzeugs (50) gewählt wird (105),
• aus der Ausgabe des Objekterkennungsmoduls (8) ein Ansteuersignal (9) gebildet wird (180) und
• das Fahrzeug (50) mit dem Ansteuersignal (9) angesteuert wird (190).
8. Verfahren (200) zum Trainieren eines Machine Learning-Modells (5) für den Einsatz in dem Verfahren (100) nach einem der Ansprüche 1 bis 7 anhand einer Vielzahl von Trainingsbildern (4#) mit den Schritten:
• ein erstes Trainingsbild (4#) wird mit dem Machine Learning-Modell (5) auf eine Tiefenkarte (4a) abgebildet (210);
• es wird mindestens eine Teilmenge (4c) der Pixel des ersten Trainingsbildes (4#) ausgewählt (220);
• die durch die ausgewählten Pixel (4c) und die zugehörige Tiefe aus der Tiefenkarte (4a) angegebenen Orte werden zu einer virtuellen Szenerie (6) zusammengefasst (230); • es wird ein virtuelles Bild (7) ermittelt (240), das diese Szenerie (6) aus einer Perspektive zeigt, aus der ein zweites Trainingsbild (4##) aufgenommen wurde;
• anhand einer vorgegebenen Kostenfunktion (10) wird bewertet (250), inwieweit das virtuelle Bild (7) mit dem zweiten Trainingsbild (4##) im Einklang steht;
• Parameter (5a), die das Verhalten des Machine Learning-Modells (5) charakterisieren, werden optimiert (260) mit dem Ziel, dass bei weiterer Verarbeitung von Trainingsbildern (4#, 4##) durch das Machine Learning- Modell (5) die Bewertung (10a) durch die Kostenfunktion (10) voraussichtlich verbessert wird.
9. Verfahren (200) nach Anspruch 8, wobei zusätzlich
• eine Disparität (11) zwischen korrespondierenden Orten, die durch ein erstes Trainingsbild (4#) und die hieraus ermittelte Tiefenkarte (4a) bzw. durch ein zweites Trainingsbild (4##) und die hieraus ermittelte Tiefenkarte (4a) angegeben werden, ermittelt wird (270);
• ein Vergleichswert (11a) für diese Disparität (11) aus Lidar-Messungen der in den beiden Trainingsbildern (4#, 4##) gezeigten Szenerie bereitgestellt wird (275); und
• eine Abweichung zwischen der Disparität (11) und dem Vergleichswert (11a) in die Kostenfunktion (10) einbezogen wird (251).
10. Verfahren (200) nach einem der Ansprüche 8 bis 9, wobei zusätzlich die
Glätte des virtuellen Bildes (7) in die Kostenfunktion (10) einbezogen wird (252).
11. Verfahren (200) nach einem der Ansprüche 8 bis 9, wobei zusätzlich
• mit dem Machine Learning-Modell (5) eine semantische Segmentierung (4b) des Trainingsbildes (4#) erstellt wird (280);
• diese semantische Segmentierung (4b) mit einer zu dem Trainingsbild (4#) gehörenden Soll-Segmentierung (4b*) verglichen wird (285) und
• eine Abweichung der semantischen Segmentierung (4b) von der Soll- Segmentierung (4b*) in die Kostenfunktion (10) einbezogen wird (253).
12. Computerprogramm, enthaltend maschinenlesbare Anweisungen, die, wenn sie auf einem oder mehreren Computern ausgeführt werden, den oder die Computer dazu veranlassen, ein Verfahren (100, 200) nach einem der Ansprüche 1 bis 11 auszuführen.
13. Maschinenlesbarer Datenträger und/oder Downloadprodukt mit dem Computerprogramm nach Anspruch 12.
14. Ein oder mehrere Computer mit dem Computerprogramm nach Anspruch 12, und/oder mit dem maschinenlesbaren Datenträger und/oder
Download produkt nach Anspruch 13.
PCT/EP2022/066260 2021-06-17 2022-06-15 Verfahren zur erkennung von objekten gesuchter typen in kamerabildern WO2022263488A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102021206190.7 2021-06-17
DE102021206190.7A DE102021206190A1 (de) 2021-06-17 2021-06-17 Verfahren zur Erkennung von Objekten gesuchter Typen in Kamerabildern

Publications (1)

Publication Number Publication Date
WO2022263488A1 true WO2022263488A1 (de) 2022-12-22

Family

ID=82385591

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2022/066260 WO2022263488A1 (de) 2021-06-17 2022-06-15 Verfahren zur erkennung von objekten gesuchter typen in kamerabildern

Country Status (2)

Country Link
DE (1) DE102021206190A1 (de)
WO (1) WO2022263488A1 (de)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102019213506A1 (de) 2019-09-05 2021-03-11 Robert Bosch Gmbh Simultane Erkennung, Klassifikation und Verfolgung von Objekten
US20210150203A1 (en) * 2019-11-14 2021-05-20 Nec Laboratories America, Inc. Parametric top-view representation of complex road scenes

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102019213506A1 (de) 2019-09-05 2021-03-11 Robert Bosch Gmbh Simultane Erkennung, Klassifikation und Verfolgung von Objekten
US20210150203A1 (en) * 2019-11-14 2021-05-20 Nec Laboratories America, Inc. Parametric top-view representation of complex road scenes

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YUNZE MAN ET AL: "GroundNet: Monocular Ground Plane Normal Estimation with Geometric Consistency", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 17 November 2018 (2018-11-17), XP081459200 *

Also Published As

Publication number Publication date
DE102021206190A1 (de) 2022-12-22

Similar Documents

Publication Publication Date Title
DE112019001310T5 (de) Systeme und verfahren zum reduzieren der menge an datenspeicher beim maschinellen lernen
DE102017220307B4 (de) Vorrichtung und Verfahren zum Erkennen von Verkehrszeichen
DE102021002798A1 (de) Verfahren zur kamerabasierten Umgebungserfassung
WO2016177371A1 (de) Verfahren und vorrichtung zur erkennung und bewertung von fahrbahnreflexionen
DE102021203020A1 (de) Generative-adversarial-network-modelle zur detektion kleiner strassenobjekte
WO2022053505A1 (de) Computerimplementiertes verfahren zur umfelderkennung für ein automatisiertes fahrsystem, maschinenlernverfahren, steuergerät für ein automatisiertes fahrsystem und computerprogramm für ein derartiges steuergerät
DE112020002874T5 (de) Szenenattributkommentierung komplexer Straßentypographien
DE102019127283A1 (de) System und Verfahren zum Erfassen eines Objekts in einer dreidimensionalen Umgebung eines Trägerfahrzeugs
WO2021122338A1 (de) Verfahren und vorrichtung zum robustifizieren von sensordaten gegen adversariale störungen
EP3748454A1 (de) Verfahren und vorrichtung zum automatischen ausführen einer steuerfunktion eines fahrzeugs
WO2022263488A1 (de) Verfahren zur erkennung von objekten gesuchter typen in kamerabildern
DE102022209528A1 (de) Visuelle Analysesysteme zur Diagnose und Verbesserung von Deep-Learning-Modellen für bewegbare Objekte beim autonomen Fahren
DE102020200876B4 (de) Verfahren zum Verarbeiten von Sensordaten einer Sensorik eines Fahrzeugs
WO2022043203A1 (de) Training eines generators zur erzeugung realistischer bilder mit einem semantisch segmentierenden diskriminator
DE102021200568A1 (de) Computerimplementiertes verfahren zur analyse der relevanz visueller parameter zum trainieren eines computer-vision -modells
EP3754544A1 (de) Erkennungssystem, arbeitsverfahren und trainingsverfahren
EP3895415A1 (de) Transfer von zusatzinformation zwischen kamerasystemen
DE102022127884A1 (de) System und verfahren zur verdeckungsrekonstruktion in umgebenden ansichten unter verwendung zeitlicher informationen
DE102022214331A1 (de) Verfahren zum Detektieren von Informationen über mindestens ein Objekt und/oder mindestens einen Teil des freien Raums in einer Darstellung der Umgebung eines Systems
DE102022212374A1 (de) Computerimplementiertes Verfahren zum Erkennen von Objekten
DE102021129832A1 (de) Fahrzeugerkennung unter Verwendung eines Computer-Vision Algorithmus
DE102020116794A1 (de) Verfahren zum Bestimmen eines Objekts in einer Umgebung eines Kraftfahrzeugs mittels eines Assistenzsystems, Computerprogrammprodukt, computerlesbares Speichermedium sowie Assistenzsystem
DE112021002170T5 (de) Bildverarbeitungsvorrichtung und Bildverarbeitungsverfahren
DE102021118311A1 (de) Automatische Wahrnehmung und zumindest teilweise automatisches Führen eines Fahrzeugs
DE102022208714A1 (de) Computerimplementiertes System und Verfahren zur semantischen Analyse einer Szene

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22737377

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 22737377

Country of ref document: EP

Kind code of ref document: A1