WO2022117399A1 - Verfahren zur klassifikation von bilddaten - Google Patents

Verfahren zur klassifikation von bilddaten Download PDF

Info

Publication number
WO2022117399A1
WO2022117399A1 PCT/EP2021/082611 EP2021082611W WO2022117399A1 WO 2022117399 A1 WO2022117399 A1 WO 2022117399A1 EP 2021082611 W EP2021082611 W EP 2021082611W WO 2022117399 A1 WO2022117399 A1 WO 2022117399A1
Authority
WO
WIPO (PCT)
Prior art keywords
image data
extracted
subsets
subset
pixel
Prior art date
Application number
PCT/EP2021/082611
Other languages
English (en)
French (fr)
Inventor
Jens Eric Markus MEHNERT
Original Assignee
Robert Bosch Gmbh
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch Gmbh filed Critical Robert Bosch Gmbh
Publication of WO2022117399A1 publication Critical patent/WO2022117399A1/de

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/588Recognition of the road, e.g. of lane markings; Recognition of the vehicle driving pattern in relation to the road

Definitions

  • the present invention relates to a method for classifying image data, in particular for recognizing road boundaries, in particular for an at least partially automated vehicle.
  • Methods for the classification of image data are u. a. in the automotive sector for applications in the field of at least partially automated vehicles, such as driver assistance systems.
  • Methods of machine learning and artificial neural networks are used.
  • these methods are used e.g. executed on so-called Field Programmable Gate Arrays (FPGA).
  • FPGA Field Programmable Gate Arrays
  • the present invention creates a method for classifying image data, in particular for recognizing road boundaries, in particular for a vehicle that is at least partially automatically controlled.
  • the procedure has the following steps:
  • the extracted subset can have a second dimension, which can then be smaller than the first dimension.
  • image data can be understood to mean data that represent an image of the recorded reality or an artificially generated image of reality.
  • the image data can be data that is recorded for a vehicle using an optical recording device, such as a camera, radar or lidar system.
  • the vehicle can be an at least partially automated vehicle.
  • dimensioning can be understood to mean the size of the image data.
  • an image is a two-dimensional depiction of reality.
  • the color or brightness information can span further dimensions. It is also conceivable that the image data were created from a fusion of data from a number of sensor systems and accordingly further dimensions are provided in order to represent the information obtained through the fusion.
  • the other dimensions can represent, for example, depth or distance information.
  • a smaller dimensioning can be understood to mean that only a real subset of the information represented in the dimensions is represented in comparison to the larger dimensioning.
  • a machine learning system can be understood to mean an artificial intelligence module, for example an artificial neural network or the like.
  • the application of an ML system to a subset of the image data can be understood to mean that the subset is fed to a corresponding ML system as input data.
  • the result of applying an ML system to the subset of image data is a classification of the image data.
  • This classification can be used, for example, to identify road boundaries.
  • a vehicle can be controlled or the systems provided for controlling a vehicle can be activated.
  • the invention has the advantage that the application of an ML system to a subset of the image data generally requires fewer computer resources than the application of an ML system to the entire image data. Faster processing of the image data can thus be achieved given the same computing resource.
  • the image data is received or converted in pixel form and the subset is extracted pixel by pixel in the extraction step.
  • each dimension is typically represented in a so-called feature map.
  • the more than two-dimensional image data is then represented as a set of feature maps.
  • the subset can be extracted depending on a pixel increment and a line increment per feature map. For example, it is conceivable that every second pixel of every second line is extracted, starting with the first pixel. Accordingly, the subset comprises only a quarter of the original feature map.
  • the selection of the pixel increment and the line increment and, if applicable, the increment in the other dimensions can be chosen arbitrarily and is essentially dependent on the ML system, that is to be applied to the extracted subset or from the computing device on which the ML system is to be applied to the extracted subset.
  • the computing device can be, for example, a so-called Field Programmable Gate Array (FPGA), an integrated circuit into which a logic circuit can be loaded.
  • FPGA Field Programmable Gate Array
  • the embodiment has the advantage that subsets optimized for the ML system or the computing device are extracted in order to optimally use or utilize the ML system or the computing device.
  • the extracting step at least two subsets are extracted.
  • the at least two subsets have the empty set as the intersection.
  • the content of the subsets is disjoint and represents different portions of the original image data. in particular, wherein the extraction of the at least two subsets begins at different starting pixels of the image data.
  • the subsets can be extracted in such a way that, beginning with the first pixel (0, 0), every second pixel of every second line is extracted line by line.
  • the other subsets are extracted according to the same scheme. Just each starting with a different starting pixel, (0, 1), (1, 0), (1, 1).
  • the set of received image data is a subset of the union of the extracted subsets. i.e. the extracted subsets include at least the received image data.
  • This embodiment is based on the knowledge that the entire scope of the image data can be processed within the framework of the application of the corresponding ML system to the extracted subsets.
  • the method comprises a discarding step after the extracting step, wherein subsets extracted in the discarding step are discarded.
  • This embodiment has the advantage that computing resources can be saved by discarding (pruning) subsets.
  • an evaluation step takes place in the discarding step, with subsets extracted in the evaluating step being evaluated and discarded depending on their evaluation.
  • the extracted subsets are supplied to at least two different ML systems in the application step, in particular in each case as a feature map.
  • This embodiment has the advantage that by using at least two different ML systems, either the extracted subsets are processed several times or—and thus more efficiently—the subsets are processed with different ML systems—not necessarily each subset with its own ML system. As a result, it can be achieved in a simple manner that more context is generated for the image data. This improves the classification of the image data.
  • the step of applying produces at least two result feature maps. Further, this embodiment includes a merging step after the applying step.
  • the result feature maps as a result of applying the ML system to the input extracted subsets can be merged in the manner outlined below.
  • the resulting feature maps are concatenated to form a composite of feature maps and are further processed. For example, by feeding the network to another ML system.
  • This variant is advantageous in order to save computing resources or in cases where few computing resources are available.
  • a merged result feature map is formed by taking over the maxima from the resulting at least two result feature maps. It is also conceivable for the at least two resulting feature maps to be fed back into the image data according to their extracted subsets.
  • This variant is advantageous in cases where full dimensioning of the image data is required.
  • a further aspect of the present invention is a computer program which is set up to carry out all the steps of the method according to the present invention claims.
  • Another aspect of the present invention is a machine-readable storage medium on which the computer program according to the present invention is stored.
  • Another aspect of the present invention is an electronic control unit that is set up to carry out all steps of the method according to the present invention.
  • FIG. 1 shows a flowchart of an embodiment of the method according to the present invention
  • FIG 2 schematically shows the classification of image data according to an embodiment of the present invention.
  • FIG. 1 shows a flow chart of an embodiment of the method 100 according to the present invention.
  • image data is received for classification.
  • the received image data can be individual images, ie essentially a two-dimensional image of the recorded reality or an artificially generated image of reality; the image data can also be a series of images or an image stream. It is also conceivable that image data is merged data, ie data that arises when recorded measured variables from different, possibly different, sensor systems and possibly artificially generated images are mapped into a common result space.
  • the received image data are usually available in a first dimensioning.
  • image data is typically in pixel form.
  • step 102 at least a subset of the image data is extracted.
  • the extracted subset can have a second dimensioning.
  • the second dimension can be smaller than the first dimension. In such a case, the dimensioning of the first dimensioning of the received image data is reduced.
  • the extraction can take place pixel by pixel. For example, starting with the first starting pixel, every second pixel of every second line is extracted line by line. A quarter of the available information from two-dimensional image data or feature maps is thus taken over into the subset extracted in this way.
  • step 103 at least one ML system is applied to the at least one extracted subset for classifying the image data.
  • the present invention makes use of the knowledge that in the Subset of information extracted from the original image data is sufficient to achieve a sufficient classification of the image data with reduced use of computing resources.
  • FIG. 2 schematically shows the classification of image data 20 according to an embodiment of the present invention.
  • the image data 20 is in pixel form.
  • the differently hatched boxes represent the individual pixels.
  • the displayed image data 20 has dimensions of 8 ⁇ 8.
  • subsets 21 , 22 , 23 , 24 are extracted from the image data 20 to be processed.
  • the subsets 21, 22, 23, 24 are extracted in such a way that starting with the first pixel (0, 0), every second pixel of every second line is extracted line by line. In the illustration, these are the pixels with the vertical hatching.
  • the other subsets 22, 23, 24 are extracted using the same scheme. Just each starting with a different starting pixel, (0, 1), (1, 0), (1, 1).
  • This procedure distributes the entire content of the original image data 20 to subsets 21, 22, 23, 24.
  • the subsets 21, 22, 23, 24 created in this way are supplied to an ML system 25 in the present example.
  • the illustrated ML system 25 has an input layer (unfilled nodes), a hidden layer (hatched nodes), and an output layer (filled nodes).
  • the ML system 25 shown is only intended to represent a correspondingly set up and trained ML system as an example.
  • the subsets 21, 22, 23, 24 could also be supplied to different ML systems 25 or to different ML systems 25 several times. Furthermore, only three of the four subsets 21, 22, 23, 24 are fed to the ML system 25 in the illustrated embodiment. Subset 24 is discarded in a discard step.
  • the ML system 25 shown is set up and trained in such a way that the image data 20 is classified based on the supplied subsets 21, 22, 23.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

Verfahren (100) zur Klassifikation von Bilddaten (20), insbesondere zur Erkennung von Straßengrenzen, insbesondere für ein zumindest teilweise automatisiert betriebenes Fahrzeug, aufweisend die Schritte: - Empfangen (101) von Bilddaten (20), insbesondere mit einer ersten Dimensionierung - Extrahieren (102) mindestens einer Teilmenge (21, 22, 23, 24) der Bilddaten (20) insbesondere wobei die Teilmenge (21, 22, 23, 24) eine zweite Dimensionierung aufweist, insbesondere wobei die zweite Dimensionierung kleiner ist als die erste Dimensionierung; - Anwenden (103) mindestens eines ML-System (25) auf die mindestens eine extrahierte Teilmenge (21, 22, 23, 24) zur Klassifikation der Bilddaten (20).

Description

Beschreibung
Titel
Verfahren zur Klassifikation von Bilddaten
Die vorliegende Erfindung betrifft ein Verfahren zur Klassifikation von Bilddaten, insbesondere zur Erkennung von Straßengrenzen, insbesondere für ein zumindest teilweise automatisiert betriebenes Fahrzeug.
Stand der Technik
Verfahren zur Klassifikation von Bilddaten werden u. a. im Automobilbereich für Anwendungen im Bereich der zumindest teilweise automatisiert betriebenen Fahrzeuge, wie bspw. der Fahrerassistenzsysteme eingesetzt. Dabei kommen Verfahren des maschinellen Lernens und der künstlichen neuronalen Netze zum Einsatz. Zur Inferenzzeit werden diese Verfahren u. a. auf sogenannten Field Programmable Gate Arrays (FPGA) ausgeführt. Diese Art von Hardware zeichnet sich durch eine hohe Flexibilität bei geringerer Spezialisierung aus. Dementsprechend sind Verfahren erforderlich, die die vorhandenen Rechenressourcen optimal einsetzen.
Offenbarung der Erfindung
Vor diesem Hintergrund schafft die vorliegende Erfindung ein Verfahren zur Klassifikation von Bilddaten, insbesondere zur Erkennung von Straßengrenzen, insbesondere für ein zumindest teilweise automatisiert gesteuertes Fahrzeug. Das Verfahren weist die nachfolgenden Schritte auf:
Empfangen von Bilddaten, insbesondere mit einer ersten Dimensionierung Extrahieren mindestens einer Teilmenge der Bilddaten
Die extrahierte Teilmenge kann dabei eine zweite Dimensionierung aufweisen, die dann kleiner sein kann als die erste Dimensionierung.
Anwenden mindestens eines Systems des maschinellen Lernens (ML-System) auf die mindestens eine extrahierte Teilmenge.
Unter Bilddaten können dabei vorliegend Daten verstanden werden, die ein Abbild der aufgezeichneten Wirklichkeit oder ein künstlich erzeugtes Abbild der Wirklichkeit repräsentieren. Dabei kann es sich bei den Bilddaten um Daten handeln, die mittels einer optischen Aufnahmevorrichtung, wie bspw. einer Kamera-, einem Radar oder einem Lidar-System, für ein Fahrzeug erfasst werden. Bei dem Fahrzeug kann es sich um ein zumindest teilweise automatisiert betriebenes Fahrzeug handeln.
Unter einer Dimensionierung kann vorliegend die Größe der Bilddaten verstanden werden. Typischerweise handelt es sich bei einem Bild um eine zweidimensionale Abbildung der Wirklichkeit. Insbesondere bei digitalen Bilddaten können die Färb- bzw. Helligkeitsinformationen weitere Dimensionen aufspannen. Ferner ist es denkbar, dass die Bilddaten aus einer Fusion von Daten mehrerer Sensorsysteme entstanden sind und dementsprechend weitere Dimensionen vorgesehen sind, um die durch die Fusion erhaltenen Informationen zu repräsentieren. Die weiteren Dimensionen kann dabei bspw. Tiefen- bzw. Entfernungsinformationen repräsentieren.
Unter einer kleineren Dimensionierung kann vorliegend verstanden werden, dass im Vergleich zu der größeren Dimensionierung nur eine echte Teilmenge der in den Dimensionen repräsentierten Informationen repräsentiert wird.
Unter einem System des maschinellen Lernens (ML-Systems) kann vorliegend ein Modul der künstlichen Intelligenz, bspw. ein künstliches neuronales Netz oder ähnliches verstanden werden. Unter der Anwendung eines ML-System auf eine Teilmenge der Bilddaten kann vorliegend verstanden werden, dass die Teilmenge einem entsprechenden ML- System als Eingangsdaten zugeführt wird.
Das Ergebnis der Anwendung eines ML-System auf die Teilmenge der Bilddaten ist eine Klassifikation der Bilddaten. Diese Klassifikation kann bspw. zum Erkennen von Straßengrenzen genutzt werden.
Abhängig von dem Ergebnis der Anwendung, mithin in Abhängigkeit von der Klassifikation der Bilddaten kann ein Fahrzeug gesteuert bzw. die für die Steuerung eines Fahrzeugs vorgesehenen Systeme angesteuert werden.
Vorteile der Erfindung
Die Erfindung weist den Vorteil auf, dass für die Anwendung eines ML-System auf eine Teilmenge der Bilddaten im Allgemeinen weniger Rechnerressourcen erforderlich sind als bei der Anwendung eines ML-System auf die gesamten Bilddaten. Somit kann bei Vorliegen der gleichen Rechenressource eine schnellere Verarbeitung der Bilddaten erreicht werden.
Nach einer Ausführungsform des Verfahrens gemäß der vorliegenden Erfindung werden die Bilddaten in Pixelform empfangen bzw. umgewandelt und die Extraktion der Teilmenge erfolgt im Schritt des Extrahierens pixelweise. Weisen in diesem Fall die Bilddaten mehr als zwei Dimensionen auf, werden typischerweise jeweils Dimensionen in einer sog. Featuremap repräsentiert. Die mehr als zweidimensionalen Bilddaten werden dann als eine Menge von Featuremaps repräsentiert.
Die Extraktion der Teilmenge kann in Abhängigkeit von einer Pixelschrittweite und einer Zeilenschrittweite je Featuremap erfolgt. So ist bspw. denkbar, dass beginnend mit dem ersten Pixel jeder zweite Pixel jeder zweiten Zeile extrahiert wird. Die Teilmenge umfasst dementsprechend lediglich ein Viertel der ursprünglichen Featuremap. Die Auswahl der Pixelschrittweite und der Zeilenschrittweite sowie ggf. der Schrittweite in den weiteren Dimensionen kann beliebig gewählt werden und ist im Wesentlichen von dem ML-System abhängig, das auf die extrahierte Teilmenge angewendet werden soll bzw. von der Rechenvorrichtung, auf der die Anwendung des ML-System auf die extrahierte Teilmenge erfolgen soll.
Bei der Rechenvorrichtung kann es sich bspw. um ein sog. Field Programmable Gate Array (FPGA), einem integrierten Schaltkreis, in den eine logische Schaltung geladen werden kann.
Die Ausführungsform hat den Vorteil, dass für das ML-System bzw. die Rechenvorrichtung optimierte Teilmengen extrahiert werden, um das ML-System bzw. die Rechenvorrichtung optimal anzuwenden bzw. auszulasten.
Nach einer Ausführungsform des Verfahrens der vorliegenden Erfindung werden im Schritt des Extrahierens mindestens zwei Teilmengen extrahiert. Dabei weisen die mindestens zwei Teilmengen die leere Menge als Schnittmenge auf.
D. h., dass der Inhalt der Teilmengen disjunkt ist und unterschiedliche Anteile der ursprünglichen Bilddaten repräsentiert. insbesondere, wobei die Extrahierung der mindestens zwei Teilmengen an unterschiedlichen Startpixeln der Bilddaten beginnt.
So können bspw. beim Vorliegen der Bilddaten in einer zweidimensionalen Featuremap die Teilmengen derart extrahiert werden, dass beginnend beim ersten Pixel (0, 0), zeilenweise jeder zweite Pixel jeder zweiten Zeile extrahiert wird.
Die weiteren Teilmengen werden nach demselben Schema extrahiert. Lediglich jeweils beginnend mit einem anderen Startpixel, (0, 1), (1, 0), (1, 1).
Durch dieses Vorgehen wird der gesamte Inhalt der ursprünglichen Featuremap bzw. Bilddaten auf vier Teilmengen verteilt, die jeweils nur ein Viertel der Größe der ursprünglichen Featuremap bzw. Bilddaten aufweist. Die Schnittmenge der vier Teilmengen ist dabei die leere Menge. Nach einer Ausführungsform des Verfahrens der vorliegenden Erfindung ist nach dem Schritt des Extrahierens die Menge der empfangen Bilddaten Teilmenge der Vereinigung der extrahierten Teilmengen. D. h. die extrahierten Teilmengen umfassen mindestens die empfangenen Bilddaten.
Diese Ausführungsform basiert auf der Erkenntnis, dass der gesamte Umfang der Bilddaten im Rahmen der Anwendung von entsprechenden ML-System auf die extrahierten Teilmengen verarbeitet werden kann.
Dadurch geht einerseits bei der Anwendung von ML-System keine Informationen verloren, die in den Bilddaten vorliegen, anderseits entsteht der Vorteil, dass mehr Kontext entsteht als bei der Anwendung eines einzelnen ML-System auf die gesamten Bilddaten.
Nach einer Ausführungsform des Verfahrens der vorliegenden Erfindung umfasst das Verfahren einen Schritt des Verwerfens nach dem Schritt des Extrahierens, wobei im Schritt des Verwerfens extrahierte Teilmengen verworfen werden.
Diese Ausführungsform weist den Vorteil auf, dass durch das Verwerfen (eng. Pruning) von Teilmengen Rechenressourcen eingespart werden können.
Hierdurch ist es möglich die erforderlichen Rechenressourcen bedarfsgerecht zuzuteilen.
Nach einer Ausführungsform des Verfahrens der vorliegenden Erfindung erfolgt im Schritt des Verwerfens ein Schritt des Bewertens, wobei im Schritt des Bewertens extrahierte Teilmengen bewertet werden und in Abhängigkeit von ihrer Bewertung verworfen werden.
Diese Ausführungsform weist den Vorteil auf, dass die Auswahl der zu verwerfenden Teilmengen auf Basis einer Bewertung und damit einer Abschätzung des möglichen Informationsverlustes getroffenen werden. Dadurch können die erforderlichen Rechenressourcen effizient zugeteilt werden Nach einer Ausführungsform des Verfahrens der vorliegenden Erfindung werden die extrahierten Teilmengen im Schritt des Anwendens, insbesondere jeweils als Featuremap, mindestens zwei unterschiedlichen ML-System zugeführt.
Diese Ausführungsform weist den Vorteil auf, dass durch die Anwendung von mindestens zwei unterschiedlichen ML-System entweder die extrahierten Teilmengen mehrmals verarbeitet werden oder - und damit effizienter - die Teilmengen mit unterschiedlichen - nicht zwingend jede Teilmenge mit einem eigenen ML-System - verarbeitet werden. Dadurch kann auf einfache Art und Weise erreicht werden, dass für die Bilddaten mehr Kontext erzeugt wird. Dies verbessert die Klassifikation der Bilddaten.
Nach einer Ausführungsform des Verfahrens der vorliegenden Erfindung entstehen durch den Schritt des Anwendens mindestens zwei Ergebnisfeaturemaps. Ferner weist diese Ausführungsform einen Schritt des Zusammenführens nach dem Schritt des Anwendens auf.
In diesem Schritt des Zusammenführens können die Ergebnisfeaturemaps als Ergebnis der Anwendung des ML-System auf die zugeführten extrahierten Teilmengen in nachstehend aufgeführten Weise zusammengeführt werden.
So ist es denkbar, dass die Ergebnisfeaturemaps zu einem Verbund aus Featuremaps konkateniert werden und weiterverarbeitet werden. Bspw. durch Zuführung des Verbunds zu einem weiteren ML-System.
Diese Variante ist vorteilhaft, um Rechenressourcen einzusparen oder in Fällen, in denen wenig Rechenressourcen zur Verfügung stehen.
Ferner ist es denkbar, die entstandenen mindestens zwei Ergebnisfeaturemaps zu einer zusammengeführten Ergebnisfeaturemap zu summieren.
Ebenso ist es denkbar, dass eine zusammengeführte Ergebnisfeaturemap durch Übernahme der Maxima aus den entstandenen mindestens zwei Ergebnisfeaturemaps gebildet wird. Auch ist es denkbar, dass die mindestens zwei entstandenen Ergebnisfeaturemaps entsprechend ihrer extrahierten Teilmengen in die Bilddaten zurückgeführt werden.
Diese Variante ist vorteilhaft, in Fällen, in denen auf die volle Dimensionierung der Bilddaten benötigt wird.
Ein weiterer Aspekt der vorliegenden Erfindung ist ein Computerprogramm, welches eingerichtet ist, alle Schritte des Verfahrens gemäß der vorliegenden Erfindung Ansprüche auszuführen.
Ein weiterer Aspekt der vorliegenden Erfindung ist ein maschinenlesbares Speichermedium, auf dem das Computerprogramm gemäß der vorliegenden Erfindung gespeichert ist.
Ein weiterer Aspekt der vorliegenden Erfindung ist eine elektronische Steuereinheit, die eingerichtet ist, alle Schritte des Verfahrens gemäß der vorliegenden Erfindung auszuführen.
Zeichnungen
Weitere Merkmale und Vorteile der Aspekte der vorliegenden Erfindung werden nachfolgend anhand von Ausführungsformen mit Bezug auf die Figuren erläutert.
Es zeigen:
Fig. 1 ein Ablaufdiagramm einer Ausführungsform des Verfahrens gemäß der vorliegenden Erfindung;
Fig. 2 schematisch die Klassifikation von Bilddaten gemäß einer Ausführungsform der vorliegenden Erfindung.
Figur 1 zeigt ein Ablaufdiagramm einer Ausführungsform des Verfahrens 100 gemäß der vorliegenden Erfindung. In Schritt 101 werden Bilddaten zur Klassifikation empfangen. Bei den empfangenen Bilddaten kann es sich um einzelne Bilder, d. h. im Wesentlichen um eine zweidimensionale Abbildung der aufgezeichneten Wirklichkeit oder ein künstlich erzeugtes Abbild der Wirklichkeit handeln, ferner kann es sich bei den Bilddaten um eine Serie von Bildern bzw. einem Bildstrom handeln. Ferner ist denkbar, dass es sich bei Bilddaten, um fusionierte Daten handelt, d. h. um Daten, die entstehen, wenn erfasste Messgrößen verschiedener, ggf. unterschiedlicher, Sensoriken und ggf. künstlich erzeugter Abbilder in einen gemeinsamen Ergebnisraum abgebildet werden.
Die empfangenen Bilddaten liegen dabei im Regelfall in einer ersten Dimensionierung vor.
In einem digitalen System liegen die Bilddaten typischerweise in Pixelform vor.
In Schritt 102 wird mindestens eine Teilmenge der Bilddaten extrahiert.
Die extrahierte Teilmenge kann dabei eine zweite Dimensionierung aufweisen. Die zweite Dimensionierung kann kleiner sein als die erste Dimensionierung. In einem solchen Fall findet damit eine Reduktion der Dimensionierung der ersten Dimensionierung der empfangenen Bilddaten statt.
Liegen die Bilddaten in Pixelform vor, so kann die Extrahierung pixelweise erfolgen. Bspw. dadurch, dass angefangenen beim ersten Startpixel zeilenweise jeder zweite Pixel jeder zweiten Zeile extrahiert wird. Aus zweidimensionalen Bilddaten bzw. Featuremaps wird dadurch ein Viertel der vorhandenen Informationen in die so extrahierte Teilmenge übernommen.
Durch die Extrahierung von vier Teilmenge auf diese Art und Weise, die jeweils bei dem ersten noch nicht berücksichtigten Pixel beginnt, kann die gesamte Bildinformation in vier disjunkte Teilmengen übernommen werden.
In Schritt 103 wird auf die mindestens eine extrahierte Teilmenge zur Klassifikation der Bilddaten mindestens ein ML-System angewendet. Dabei macht sich die vorliegende Erfindung die Erkenntnis zu Nutze, dass die in der Teilmenge aus den ursprünglichen Bilddaten extrahierte Information ausreicht, um unter verringertem Einsatz von Rechenressourcen eine ausreichende Klassifikation der Bilddaten zu erreichen.
Figur 2 zeigt schematisch die Klassifikation von Bilddaten 20 gemäß einer Ausführungsform der vorliegenden Erfindung. In der dargestellten Ausführungsform liegen die Bilddaten 20 in Pixelform vor. Die unterschiedlich schraffierten Kästchen repräsentieren dabei die einzelnen Pixel. Die dargestellten Bilddaten 20 haben eine Dimensionierung von 8 x 8.
Aus den zu verarbeitenden Bilddaten 20 werden in einem Schritt des Extrahierens 102 Teilmengen 21, 22, 23, 24 extrahiert. Die Teilmengen 21, 22, 23, 24 werden dabei derart extrahiert, dass beginnend beim ersten Pixel (0, 0), zeilenweise jeder zweite Pixel jeder zweiten Zeile extrahiert wird. In der Darstellung sind dies die Pixel mit der senkrechten Schraffierung.
Die weiteren Teilmengen 22, 23, 24 werden nach demselben Schema extrahiert. Lediglich jeweils beginnend mit einem anderen Startpixel, (0, 1), (1, 0), (1, 1).
Durch dieses Vorgehen wird der gesamte Inhalt der ursprünglichen Bilddaten 20 auf Teilmengen 21, 22, 23, 24 verteilt.
Die so entstandenen Teilmengen 21, 22, 23, 24 werden im vorliegenden Beispiel einem ML-System 25 zugeführt.
Das dargestellt ML-System 25 weist eine Eingabeschicht (ungefüllte Knoten), eine verborgene Schicht (schraffierte Knoten) und eine Ausgabeschicht (gefüllter Knoten) auf. Das dargestellte ML-System 25 soll lediglich beispielhaft ein entsprechend eingerichtetes und trainiertes ML-System repräsentieren.
Die Teilmengen 21, 22, 23, 24 könnten auch jeweils unterschiedlichen ML- System 25 oder mehrmals unterschiedlichen ML-System 25 zugeführt werden. Ferner werden in der dargestellten Ausführungsform nur drei der vier Teilmengen 21, 22, 23, 24 dem ML-System 25 zugeführt. Teilmenge 24 wird in einem Schritt des Verwerfens verworfen. Das dargestellt ML-System 25 ist derart eingerichtet und trainiert, dass basierend auf den zugeführten Teilmengen 21, 22, 23 eine Klassifikation der Bilddaten 20 erfolgt.

Claims

Ansprüche
1. Verfahren (100) zur Klassifikation von Bilddaten (20), insbesondere zur Erkennung von Straßengrenzen, insbesondere für ein zumindest teilweise automatisiert betriebenes Fahrzeug, aufweisend die Schritte:
- Empfangen (101) von Bilddaten (20), insbesondere mit einer ersten Dimensionierung
- Extrahieren (102) mindestens einer Teilmenge (21, 22, 23, 24) der Bilddaten (20) insbesondere wobei die Teilmenge (21, 22, 23, 24) eine zweite Dimensionierung aufweist, insbesondere wobei die zweite Dimensionierung kleiner ist als die erste Dimensionierung;
- Anwenden (103) mindestens eines ML-System (25) auf die mindestens eine extrahierte Teilmenge (21, 22, 23, 24) zur Klassifikation der Bilddaten (20).
2. Verfahren (100) nach Anspruch 1, wobei die Bilddaten (20) in Pixelform empfangen und/oder umgewandelt werden und wobei im Schritt des Extrahierens (102) die Extrahierung der Teilmenge (21, 22, 23, 24) pixelweise erfolgt, insbesondere indem die Extraktion der Teilmenge (21, 22, 23, 24) in Abhängigkeit von einer Pixelschrittweite und einer Zeilenschrittweite erfolgt.
3. Verfahren (100) nach Anspruch 2, wobei im Schritt des Extrahierens (102) mindestens zwei Teilmengen (21, 22, 23, 24) extrahiert werden, wobei die mindestens zwei Teilmengen (21, 22, 23, 24) die leere Menge als Schnittmenge aufweisen, insbesondere, wobei die Extrahierung der mindestens zwei Teilmengen (21, 22, 23, 24) an unterschiedlichen Startpixeln ((0,0), (0,1), (1,0), (1,1)) der Bilddaten (20) beginnt.
4. Verfahren (100) nach einem der vorhergehenden Ansprüche, wobei nach dem Schritt des Extrahierens (102) die Menge der empfangenen Bilddaten (20) Teilmenge der Vereinigung der extrahierten Teilmengen (21, 22, 23, 24) ist.
5. Verfahren (100) nach einem der vorhergehenden Ansprüche, mit einem Schritt des Verwerfens nach dem Schritt des Extrahierens (102), wobei im Schritt des Verwerfens extrahierte Teilmengen (21, 22, 23, 24) verworfen werden.
6. Verfahren (100) nach Anspruch 5, wobei im Schritt des Verfahrens ein Schritt des Bewertens erfolgt, wobei im Schritt des Bewertens extrahierte Teilmengen (21, 22, 23, 24) bewertet werden und in Abhängigkeit von ihrer Bewertung verworfen werden.
7. Verfahren (100) nach einem der vorhergehenden Ansprüche, wobei die extrahierten Teilmengen (21, 22, 23, 24) im Schritt des Anwendens (103), insbesondere jeweils als Featuremap, mindestens zwei unterschiedlichen ML- System (25) zugeführt werden.
8. Verfahren (100) nach einem der vorhergehenden Ansprüche, durch den Schritt des Anwendens (103) mindestens zwei Ergebnisfeaturemaps entstehen und mit einem Schritt des Zusammenführens nach dem Schritt des Anwendens (103).
9. Verfahren (100) nach Anspruch 8, wobei im Schritt des Zusammenführens die entstandenen mindestens zwei Ergebnisfeaturemaps konkateniert werden.
10. Verfahren (100) nach Anspruch 8, wobei im Schritt des Zusammenführens die entstandenen mindestens zwei Ergebnisfeaturemaps zu einer zusammengeführten Ergebnisfeaturemap summiert werden.
11. Verfahren (100) nach Anspruch 8, wobei im Schritt des Zusammenführens eine zusammengeführte Ergebnisfeaturemap durch Übernahme der Maxima aus den entstandenen mindestens zwei Ergebnisfeaturemaps gebildet wird.
12. Verfahren (100) nach Anspruch 8, wobei im Schritt des Zusammenführens die mindestens zwei entstandenen Ergebnisfeaturemaps entsprechend ihrer extrahierten Teilmengen in die Bilddaten (20) zurückgeführt werden.
13. Computerprogramm, welches eingerichtet ist, alle Schritte des Verfahrens (100) nach einem der vorhergehenden Ansprüche auszuführen.
14. Maschinenlesbares Speichermedium, auf dem das Computerprogramm nach Anspruch 8 gespeichert ist.
15. Elektronische Steuereinheit, die eingerichtet ist, alle Schritte des Verfahrens (100) nach einem der Ansprüche 1 bis 7 auszuführen.
PCT/EP2021/082611 2020-12-03 2021-11-23 Verfahren zur klassifikation von bilddaten WO2022117399A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102020215315.9 2020-12-03
DE102020215315.9A DE102020215315A1 (de) 2020-12-03 2020-12-03 Verfahren zur Klassifikation von Bilddaten

Publications (1)

Publication Number Publication Date
WO2022117399A1 true WO2022117399A1 (de) 2022-06-09

Family

ID=78821032

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2021/082611 WO2022117399A1 (de) 2020-12-03 2021-11-23 Verfahren zur klassifikation von bilddaten

Country Status (2)

Country Link
DE (1) DE102020215315A1 (de)
WO (1) WO2022117399A1 (de)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200327338A1 (en) * 2019-04-11 2020-10-15 Jonah Philion Instance segmentation imaging system

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200327338A1 (en) * 2019-04-11 2020-10-15 Jonah Philion Instance segmentation imaging system

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YANG WEI-JONG ET AL: "Improved Lane Detection With Multilevel Features in Branch Convolutional Neural Networks", IEEE ACCESS, vol. 7, 31 December 2019 (2019-12-31), pages 173148 - 173156, XP011759164, DOI: 10.1109/ACCESS.2019.2957053 *

Also Published As

Publication number Publication date
DE102020215315A1 (de) 2022-06-09

Similar Documents

Publication Publication Date Title
EP3785177B1 (de) Verfahren und vorrichtung zum ermitteln einer netzkonfiguration eines neuronalen netzes
DE102018216413A1 (de) Vorrichtung und Verfahren zur automatischen Bildverbesserung bei Fahrzeugen
DE102017213247A1 (de) Wissenstransfer zwischen verschiedenen Deep-Learning Architekturen
DE102018217090A1 (de) Verfahren, künstliches neuronales Netz, Vorrichtung, Computerprogramm und maschinenlesbares Speichermedium zur semantischen Segmentierung von Bilddaten
EP0645037A1 (de) Verfahren zur detektion von änderungen in bewegtbildern
DE102018217091A1 (de) Verfahren, künstliches neuronales Netz, Vorrichtung, Computerprogramm und maschinenlesbares Speichermedium zur semantischen Segmentierung von Bilddaten
WO2020069964A1 (de) Verfahren, künstliches neuronales netz, vorrichtung, computerprogramm und maschinenlesbares speichermedium zur semantischen segmentierung von bilddaten
DE10017551C2 (de) Verfahren zur zyklischen, interaktiven Bildanalyse sowie Computersystem und Computerprogramm zur Ausführung des Verfahrens
WO2022117399A1 (de) Verfahren zur klassifikation von bilddaten
DE102020207449A1 (de) Verfahren, Computerprogramm und Vorrichtung zum Verarbeiten von Signalen
DE102020109364A1 (de) Verfahren und Vorrichtung zum Ermitteln und Klassifizieren wenigstens eines Objekts in einem Erfassungsbereich eines Sensors
DE102019213061A1 (de) Klassifizierung von KI-Modulen
WO2021175615A1 (de) Verfahren und vorrichtung zum komprimieren eines neuronalen netzes
DE102020133626A1 (de) Verfahren zum Erkennen von für ein neuronales Netz schwierig korrekt zu klassifizierenden Szenen, Assistenzeinrichtung und Kraftfahrzeug
DE102019217951A1 (de) Verfahren und Vorrichtung zum Bestimmen einer Domänendistanz zwischen mindestens zwei Datendomänen
DE102019213459A1 (de) Verfahren zum Komprimieren eines Neuronalen Netzes
DE102023207319B3 (de) Computer-implementiertes Verfahren und System zum Bestimmen eines Objekts in einer Aufnahme
DE202021102338U1 (de) Steuergerät zum Erzeugen von Trainingsdaten zum Trainieren eines Algorithmus des maschinellen Lernens
DE102021204343A1 (de) Steuergerät zum Erzeugen von Trainingsdaten zum Trainieren eines Algorithmus des maschinellen Lernens
EP4078980A1 (de) Verfahren zum erstellen zumindest einer codiervorschrift zum codieren eines von einem optischen sensor aufgenommenen bildes, verfahren zum codieren eines von einem optischen sensor aufgenommenen bildes und informationsverarbeitungseinheit
DE102021200614A1 (de) Domänenunabhängiges Training von Bildklassifikatoren
DE10160295B4 (de) Verfahren und Vorrichtung zum Ermitteln von Kartendaten für eine Anzeige eines Fahrerinformationssystems
DE102021208610A1 (de) Verfahren, Computerprogramm und Vorrichtung zum Verarbeiten von Signalen
DE102020203817A1 (de) Verfahren und System zum Bereitstellen mindestens eines komprimierten und spezialisierten Neuronalen Netzes für ein Fahrzeug
DE102021109169A1 (de) Verfahren zum Trainieren eines neuronalen Netzes

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21819408

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21819408

Country of ref document: EP

Kind code of ref document: A1