WO2020069964A1 - Verfahren, künstliches neuronales netz, vorrichtung, computerprogramm und maschinenlesbares speichermedium zur semantischen segmentierung von bilddaten - Google Patents

Verfahren, künstliches neuronales netz, vorrichtung, computerprogramm und maschinenlesbares speichermedium zur semantischen segmentierung von bilddaten

Info

Publication number
WO2020069964A1
WO2020069964A1 PCT/EP2019/076032 EP2019076032W WO2020069964A1 WO 2020069964 A1 WO2020069964 A1 WO 2020069964A1 EP 2019076032 W EP2019076032 W EP 2019076032W WO 2020069964 A1 WO2020069964 A1 WO 2020069964A1
Authority
WO
WIPO (PCT)
Prior art keywords
neural network
tensor
artificial neural
slice
image data
Prior art date
Application number
PCT/EP2019/076032
Other languages
English (en)
French (fr)
Inventor
Masato Takami
Uwe Brosch
Dimitrios Bariamis
Ferran DIEGO ANDILLA
Original Assignee
Robert Bosch Gmbh
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch Gmbh filed Critical Robert Bosch Gmbh
Priority to US17/282,372 priority Critical patent/US11908142B2/en
Priority to CN201980080536.XA priority patent/CN113168558A/zh
Publication of WO2020069964A1 publication Critical patent/WO2020069964A1/de

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Definitions

  • Convolutional Neural Networks are strong artificial neural networks for processing visual data, which can produce a semantic feature hierarchy of the visual data.
  • the document discloses the approach of using a "fully convolutional network” that can accept input data of any size and output a correspondingly sized output with efficient derivation of the features.
  • the architecture of the network includes a "Contracting Path” (encoder path) to capture the context of the input data and symmetrically to it an “Expanding Path” (decoder path), which enables precise localization of the captured context.
  • This artificial neural network can be trained with a comparatively small number of training data. Disclosure of the invention
  • CNN convolutional neural networks
  • Semantic segmentation of pixel-based image data when using artificial neural networks especially when using CNN, more memory resources, i.e. more memory bandwidth, memory access and memory space during the training phase and the use of the network.
  • GPU clusters graphical processing unit clusters
  • embedded computing units such as embedded hardware or the like.
  • the present invention uses a method, an artificial neural network, a device, a computer program and a machine-readable storage medium for semantic
  • image data can be understood to mean data from an imaging sensor. This primarily means the data from a video sensor, i.e. a camera. Due to the similarity of the data, data from a radar, ultrasound, lidar sensor or the like can also be processed as image data by means of the present invention. Thus, in With reference to the present invention, radar, ultrasound, lidar sensors or the like can be understood as imaging sensors.
  • image data of an imaging sensor or the like suitable for use in a vehicle, and consequently an automotive image sensor.
  • Semantic segmentation in the present case means the processing of image data with the aim of determining both the semantic classes of the objects contained in the image and their localization in the image. It should be noted that global information in the picture
  • One aspect of the invention is a method for semantic segmentation of image data using an artificial neural network, in particular a convolutional neural network (CNN).
  • the artificial neural network has an encoder path for determining the semantic classes in the image data and a decoder path for localizing the determined classes in the image data.
  • the process includes the steps:
  • Output of the output tensor to the encoder path of the artificial neural network Under an artificial neural network there is a network of artificial neurons for information processing, for example for semantic segmentation of image data, in particular for the localization and classification of
  • CNN convolutional neural network
  • the basic structure of a CNN consists of any sequence of convolutional layers and pooling layers, which are completed by one or more fully-connected layers. The respective layers are made up of artificial neurons.
  • an encoder path is to be understood as the path from processing the image data to classifying features, such as objects, in the image data.
  • a decoder path is to be understood as the path that follows the encoder path and, based on the classification, the
  • connection component is to be understood as an architectural component in a semantically segmenting artificial neural network, which provides information from the encoder path to a corresponding point on the decoder path.
  • Connection components appear as skip connections or as skip modules.
  • a tensor is to be understood as a data representation during processing in an artificial neural network.
  • the data record includes a processed status of the image data and associated feature maps.
  • a tensor of the i-th step in the artificial neural network is represented more typically than x, e ⁇ nxniXf with n rows, m columns and f feature maps.
  • An input tensor is a data representation before processing by the method of the present invention.
  • a slice tensor is a data representation after the dividing step according to the method of the present invention.
  • An output tensor is a data representation for further processing on the encoder path of the artificial neural network.
  • a division function can be understood to mean any function which is suitable for selecting a suitable set from the input tensor and the set of the associated feature maps. This can be done after
  • connection function can be understood to mean any function which is suitable for connecting the at least one first slice tensor to the at least one second slice tensor. This can be done by
  • the advantage of the method of the present invention lies in the dividing step. Through this step it is possible to have an exact semantic
  • the dividing function in the dividing step is designed such that only a subset of the feature maps of the input tensor is selected to form the at least one first slice tensor.
  • a feature map is to be understood as the output of a layer of an artificial neural network.
  • a CNN is typically the result of processing by a convolutional layer followed by the associated pooling layer and can serve as input data for the subsequent layer or - if provided - the fully connected layer.
  • connection function (merge) in the connection step is designed such that the dimension of the input tensor is retained.
  • This embodiment has the advantage that one can continue to use the computation resources to be used with less use of resources and therefore cheaper information from different layers of the artificial neural network, in particular the convolutional neural network (CNN).
  • CNN convolutional neural network
  • the method has the previous step of receiving, the input tensor and the dividing function being received in the step of receiving.
  • This embodiment of the method has the advantage that the artificial neural network is more flexible at lower costs compared to a parallel implementation of a conventional artificial neural network and can react to the respective input tensors in a more granular manner on the respective layers.
  • a first function of an artificial neural network is applied to the at least one first slice tensor and a second function of an artificial neural network is applied to the at least one second slice tensor.
  • any function of a neuron layer of an artificial neural network can be present be understood.
  • This can convolution - also in the form of a convolutional block - ie multiple use of convolution, depth-wise convolution, squeeze, residual value (residual), density (dense),
  • activation activation, act
  • normalization normalization
  • collection collection or the like.
  • the division function in the dividing step is designed such that the division function includes the number of feature maps to be calculated and the respective functions of an artificial neural network or calculation graph for calculating the at least one first slice tensor and the comprises at least a second slice tensor.
  • This embodiment of the method of the present invention has the advantage that different functions of an artificial neural network can be applied in a simple manner to the at least one first slice tensor and the at least one second slice tensor.
  • the artificial neural network becomes more flexible at a lower cost compared to a parallel implementation of a conventional artificial neural network, and the artificial neural network can react more precisely to the respective input tensors.
  • Another aspect of the present invention is an artificial neural network for the semantic segmentation of image data, the artificial neural network having an encoder path for classifying the image data, a decoder path for localizing the image data and being set up in accordance with the method to carry out the present invention.
  • An artificial neural network set up in this way is preferably used in a technical system, in particular in a robot, a vehicle, a tool or a machine tool, in order to determine output variables as a function of input variables.
  • Sensor data or variables that are dependent on sensor data can be considered as input variables of the artificial neural network.
  • the sensor data can originate from sensors of the technical system or can be received externally by the technical system.
  • At least one actuator of the technical system is controlled with a control signal by a control device of the technical system.
  • a control device of the technical system For example, a movement of a robot or vehicle can be controlled or a tool or a machine tool can be controlled.
  • the artificial neural network can be designed as a convolutional neural network.
  • Another aspect of the present invention is an apparatus which is set up to carry out steps of the method according to the present invention.
  • Another aspect of the present invention is a computer program which is set up to carry out steps of the method according to the present invention.
  • Another aspect of the present invention is a machine-readable storage medium on which the artificial neural network according to the present invention or the computer program according to the present invention is stored.
  • FIG. 2 shows a block diagram of the U-Net architecture of a convolutional network from the prior art
  • FIG. 3 is a block diagram of part of an embodiment of an artificial neural network in accordance with the present invention.
  • FIG. 4 is a block diagram of part of another embodiment of an artificial neural network in accordance with the present invention.
  • FIG. 5 flow chart of the method according to the present invention.
  • FIG. 1 shows a block diagram of a fully convolutional network from “Evan Shelhamer, Jonathan Long, Trevor Darreil. Fully Convolutional Models for Semantic Segmentation. PAMI 2016. ”
  • the figure summarizes parts of the process shown in blocks in an artificial neural network.
  • the processing steps based on image data as input data 111 over several layers are one
  • CNN Convolutional Neural Networks
  • Deconvolutioned results 121, 122, 123 of the CNN are shown in block decoder 120. Deconvolution can be achieved by reversing the convolution steps. Here is an illustration of the
  • connections are higher-level
  • FIG. 2 shows a block diagram of the U-Net architecture of a convolutional network from “Olaf Ronneberger, Philipp Fischer, Thomas Brox.
  • U-Net
  • the processing steps based on image data as input data 211 are one over several layers
  • CNN Convolutional Neural Networks
  • the “unfolding steps (upconvolution)” are shown starting from the deepest classification level via a corresponding number of deconvolutional layers (layers) to a semantically segmented map 221 with localized and classified features of the input data 211.
  • FIG. 3 shows a block diagram of part of an embodiment of an artificial neural network according to the present invention. According to this embodiment, the artificial neural network or the method according to the present invention is operated in a so-called “tensor mode”.
  • An input tensor *, ⁇ e M wxmxf 310 with a number of rows n, a number of columns m and a number of feature maps f is shown in the i-th step of an artificial neural network.
  • the input tensor is divided into at least one first slice tensor 330 and into at least one second slice tensor 350.
  • the division can take place according to any division function (slice) 320. Subdivisions are also conceivable
  • the at least one first slice tensor 330 is intended to be supplied to the decoder path 340 of the artificial neural network in order to be linked there with coarse, abstract feature representations.
  • the at least one second slice tensor 350 is fed together with the at least one first slice tensor 330 to a connection function (merge) 360 in order to generate an output tensor 370.
  • connection function (merge) 360 any regulation can be applied, which is suitable for connecting the first slice tensor 320 with the second slice tensor 350.
  • the output tensor 370 is intended to be processed further along the encoder path 380 through the artificial neural network.
  • FIG. 4 shows a block diagram of part of a further embodiment of an artificial neural network according to the present invention.
  • the artificial neural network or the method according to the present invention is operated in a so-called “function mode” 400.
  • the input data of the function mode 400 also include the division function (slice) 420.
  • the division function (slice) 420 is applied to the input tensor 310 by a first slice tensor 330 and a second slice tensor 350 to obtain.
  • any function of an artificial neural network 421, 422 is also applied to the first slice tensor 330 and the second slice tensor 350.
  • Conceivable include convolution, residual value, density, inception, activation, normalization,
  • the first slice tensor 330 is subsequently fed to the decoder path 340 of the artificial neural network in order to be linked there with coarse, abstract feature representations.
  • the at least one second slice tensor 350 is fed together with the at least one first slice tensor 330 to a connection function (merge) 360 in order to generate an output tensor 370.
  • connection function (merge) 360 any regulation can be applied, which is suitable for connecting the first slice tensor 330 with the second slice tensor 350.
  • the output tensor 370 is intended to be processed further along the encoder path 380 through the artificial neural network.
  • FIG. 5 shows a flow chart of the method according to the present invention.
  • Step 510 is shown in dashed lines. This indicates that step 510 is to be considered an optional step.
  • an input tensor 310 and a division function 320, 420 are received.
  • step 520 the input tensor 310 is converted into at least one first slice tensor 330 and at least one depending on the division function 320, 420 divides second slice tensor ge350, the input tensor 310 being dependent on the image data 111, 211.
  • the division function 320, 430 is predetermined and the input tensor 310 is available as the input date of the method.
  • the at least one first slice tensor 330 is output to the decoder path 120, 220 of the neural network.
  • the at least one first slice tensor 330 can be linked to a rough, abstract feature representation.
  • step 540 the at least one first slice tensor 320 with the at least one second slice tensor 350 is dependent on one
  • Connection function (merge) 360 connected to obtain an output tensor 370.
  • the output tensor 370 is intended to be processed on the encoder path 110, 210 of the artificial neural network.
  • step 550 the output tensor 370 is output to the encoder path 110, 210 of the neural network in order to be processed further by the artificial neural network.
  • the present invention is preferably suitable for use in an automotive system, in particular in connection with
  • Image streams that represent the surroundings of a vehicle are captured.
  • Such image data or image streams can be captured by imaging sensors of a vehicle.
  • the detection can take place by means of a single sensor. It is conceivable to fuse image data or image streams from several sensors, possibly from several sensors, with different ones
  • Image data or image streams are of particular importance. These features can be determined by processing image data or image streams using an artificial neural network according to the present invention. Based on this information, the control system for the vehicle longitudinal or lateral control
  • a further field of application of the present invention can be seen in that for a camera-based vehicle control system, an exact pre-labeling of image data or image data streams
  • the identifiers to be assigned represent object classes that are to be recognized in image data or image streams.
  • the invention is also in all areas, for example. Automotive, robotics,
  • Health, surveillance, etc. can be used, which require precise pixel-based object recognition (pixel-wise prediction) using artificial neural networks. Examples include: optical flow, depth from mono image data, numbers, boundary detection, key cards, object detection etc.

Abstract

Verfahren (500) zur berechnungs-und speicherressourcenschonenden semantischen Segmentierung von Bilddaten (111, 211) eines bildgebenden Sensors mittels eines künstlichen neuronalen Netzes, insbesondere eines Convolutional Neural Networks, wobei das künstliche neuronale Netz einen Encoder-Pfad (110, 210, 380), einen Decoder-Pfad (120, 220, 340) aufweist, umfassend die Schritte: -Teilen (520) eines Input-Tensors (310) in Abhängigkeit von einer Teilungsfunktion (320, 420) in mindestens einen ersten Slice-Tensor (330) und mindestens einen zweiten Slice-Tensor (350), wobei der Input-Tensor (310) abhängig von den Bilddaten (111, 211) ist; -Ausgeben (530) des mindestens einen ersten Slice-Tensors (330) an den Decoder-Pfad (120, 220, 340) des neuronalen Netzes; -Verbinden (540) des mindestens einen ersten Slice-Tensors (330) mit dem mindestens einen zweiten Slice-Tensor (350) in Abhängigkeit von einer Verbindungsfunktion (360) um einen Output-Tensor (370) zu erhalten; -Ausgeben (550) des Output-Tensors (370) an den Encoder-Pfad (110, 210, 380) des neuronalen Netzes.

Description

Beschreibung
Titel
Verfahren, künstliches neuronales Netz, Vorrichtung, Computerprogramm und maschinenlesbares Speichermedium zur semantischen Segmentierung von
Bilddaten
Stand der Technik
„Evan Shelhamer, Jonathan Long, Trevor Darreil. Fully Convolutional Models for Semantic Segmentation. PAMI 2016.” offenbart eine Weiterentwicklung von Convolutional Neural Networks. Convolutional Neural Networks sind starke künstliche neuronale Netze zur Verarbeitung von visuellen Daten, die eine semantische Merkmalshierachie der visuellen Daten hervorbringen können. Die Schrift offenbart den Ansatz ein„Fully Convolutional Network“ einzusetzen, das Eingangsdaten eines beliebigen Umfangs aufnehmen und eine in Größe korrespondiere Ausgabe mit effizienter Ableitung der Merkmale ausgeben kann.
„Olaf Ronneberger, Philipp Fischer, Thomas Brox. U-Net: Convolutional Networks for Biomedical Image Segmentation. Medical Image Computing and Computer-Assisted Intervention (MICCAI), Springer, LNCS, Vol.9351” offenbart eine Architektur eines künstlichen neuronalen Netzes und eine
Trainingsstrategie, für dieses Netz, die auf der Nutzung von erweiterten
(augmented) Trainingsdaten basiert, um die vorhandenen annotierten Beispiele effizienter zu nutzen. Die Architektur des Netzes umfasst einen„Contracting Path“ (Encoder- Pfad) um den Kontext der Eingangsdaten zu erfassen und symmetrisch dazu einen„Expanding Path“ (Decoder-Pfad), der eine präzise Lokalisierung des erfassten Kontextes ermöglicht. Dieses künstliche neuronale Netz lässt sich mit einer vergleichbar geringen Anzahl an Trainingsdaten trainieren. Offenbarung der Erfindung
Künstliche neuronale Netze, insbesondere sog. Convolutional Neural Networks (CNN), zur semantischen Segmentierung, insbesondere zur Lokalisierung und Klassifizierung von Merkmalen in Bilddaten weisen einen hohen Bedarf an Berechnungsressourcen auf. Durch das Hinzufügen einer Decoder- bzw.
Upsampling-Komponente und einer Verbindungskomponente (Skip-Component), durch die nach der semantischen Analyse in der Encoder- Komponente, die Bilddaten bis zur ursprünglichen Auflösung wiederhergestellt werden, steigt der Bedarf an Berechnungsressource weiter stark an. In manchen Umsetzungen kann dies zu einem exponentiellen Anstieg der Berechnungsressourcen führen.
Zusätzlich zu dem Anstieg der Berechnungsressourcen benötigt eine
semantische Segmentierung von Bilddaten auf Pixelbasis beim Einsatz von künstlichen neuronalen Netzen, insbesondere beim Einsatz von CNN, mehr Speicherressourcen, d.h. mehr Speicherbandbreite, Speicherzugriffe und Speicherplatz während der Trainingsphase und der Anwendung des Netzes.
Der Nachteil dieses zusätzlichen Bedarfs an Berechnungs- und
Speicherressourcen verstärkt sich, sobald die Anwendung nicht auf
speicherstarken und verteilt rechnenden Spezialrecheneinheiten, wie Graphical Processing Units Clustern (GPU-Clustern) erfolgt, sondern auf eingebetteten Recheneinheiten, wie embedded Hardware oder dergleichen laufen soll.
Vor diesem Hintergrund setzt die vorliegende Erfindung eines Verfahrens, eines künstlichen neuronalen Netzes, einer Vorrichtung, eines Computerprogramms und eines maschinenlesbaren Speichermediums zur semantischen
Segmentierung von Bilddaten eines bildgebenden Sensors an.
Unter Bilddaten können vorliegend Daten eines bildgebenden Sensors verstanden werden. In erster Linie sind darunter die Daten eines Videosensors, mithin einer Kamera, zu verstehen. Aufgrund der Ähnlichkeit der Daten können ebenso Daten eines Radar-, Ultraschall-, Lidar-Sensor oder dergleichen als Bilddaten mittels der vorliegenden Erfindung verarbeitet werden. Somit können in Bezug auf die vorliegende Erfindung Radar-, Ultraschall-, Lidar-Sensoren oder dergleichen als bildgebende Sensoren verstanden werden.
Von besonderer Bedeutung für diese Erfindung sind dabei Bilddaten eines für den Einsatz in einem Fahrzeug geeigneten bildgebenden Sensors oder dergleichen, mithin ein Automotive Bildsensor.
Unter semantischer Segmentierung ist vorliegend die Bearbeitung von Bilddaten mit dem Ziel, sowohl die semantischen Klassen der in dem Bild enthaltenen Objekte als auch deren Lokalisierung in dem Bild zu ermitteln, zu verstehen. Dabei ist zu berücksichtigen, dass globale Informationen in dem Bild
Rückschlüsse auf die semantische Klasse der Objekte erlauben, hingegen lokale Information in dem Bild Rückschlüsse auf die Lokalisierung der Objekte in dem Bild dem erlauben.
Ein Aspekt der Erfindung ist ein Verfahren zur semantischen Segmentierung von Bilddaten mittels eines künstlichen neuronalen Netzes, insbesondere eines Convolutional Neural Networks (CNN). Das künstliche neuronale Netz weist einen Encoder-Pfad zur Ermittlung der semantischen Klassen in den Bilddaten und einen Decoder-Pfad zur Lokalisierung der ermittelten Klassen in den Bilddaten auf. Das Verfahren umfasst die Schritte:
Teilen eines Input-Tensors in Abhängigkeit von einer Teilungsfunktion in mindestens einen ersten Slice-Tensor und mindestens einen zweiten Slice- Tensor, wobei der Input-Tensor abhängig von den Bilddaten ist;
Ausgeben des mindestens einen ersten Slice-Tensors an den Decoder-Pfad des künstlichen neuronalen Netzes;
Verbinden des mindestens einen ersten Slice-Tensors mit dem mindestens einen zweiten Slice-Tensor in Abhängigkeit von einer Verbindungsfunktion, um einen Output-Tensor zu erhalten;
Ausgeben des Output-Tensors an den Encoder-Pfad des künstlichen neuronalen Netzes. Unter einem künstlichen neuronalen Netz ist vorliegend ein Netz aus künstlichen Neuronen zur Informationsverarbeitung, bspw. zur semantischen Segmentierung von Bilddaten, insbesondere zur Lokalisierung und Klassifizierung von
Merkmalen in Bilddaten zu verstehen.
Unter einem Convolutional Neural Network (CNN) ist vorliegend eine Klasse von künstlichen neuronalen Netzen zu verstehen, die im Bereich der Klassifizierung als„State of the Art“ (Stand der Technik) gelten. Der grundsätzliche Aufbau eines CNN besteht aus einer beliebigen Abfolge aus Convolutional Layern und Pooling Layern, die von einem oder mehreren Fully-connected Layern abgeschlossen werden. Die jeweiligen Layers sind aus künstlichen Neuronen aufgebaut.
Unter einem Encoder-Pfad ist vorliegend der Pfad der Verarbeitung der Bilddaten bis zur Klassifizierung von Merkmalen, wie bspw. Objekten, in den Bilddaten zu verstehen.
Unter einem Decoder-Pfad ist vorliegend der Pfad zu verstehen, der sich an den Encoder-Pfad anschließt und ausgehend von der Klassifizierung die
ursprünglichen Bilddaten zur Lokalisierung der klassifizierten Merkmale wiederherstellt.
Unter einer Verbindungskomponente ist vorliegend eine Architekturkomponente in einem semantisch segmentierenden künstlichen neuronalen Netz zu verstehen, die Informationen aus dem Encoder-Pfad einer korrespondierenden Stelle des Decoder-Pfads zur Verfügung stellt. Verbindungskomponenten treten als Skip-Connections oder als Skip-Module auf.
Unter einem Tensor ist vorliegend eine Datenrepräsentation während der Verarbeitung in einem künstlichen neuronalen Netz zu verstehen. Der Datensatz umfasst einen verarbeiteten Stand der Bilddaten und zugehörige Feature Maps. Ein Tensor des i-ten Schritts im künstlichen neuronalen Netzwerk wird typischer repräsentiert als x, e Ä nxniXf mit n Zeilen, m Spalten und f Feature Maps. Ein Input-Tensor ist eine Datenrepräsentation vor der Verarbeitung durch das Verfahren der vorliegenden Erfindung.
Ein Slice-Tensor ist eine Datenrepräsentation nach dem Schritt des Teilens gemäß dem Verfahren der vorliegenden Erfindung.
Ein Output-Tensor ist eine Datenrepräsentation zur weiteren Verarbeitung auf dem Encoder-Pfad des künstlichen neuronalen Netzes.
Unter einer Teilungsfunktion kann vorliegend jede Funktion verstanden werden, die dazu geeignet ist, aus dem Input Tensor und der Menge der zugehörigen Feature Maps eine geeignete Menge auszuwählen. Dies kann nach
Teilungsfaktoren, nach Indizes oder dergleichen erfolgen.
Unter einer Verbindungsfunktion kann vorliegend jede Funktion verstanden werden, die dazu geeignet ist, den mindestens einen erste Slice-Tensor mit dem mindestens einen zweiten Slice-Tensor zu verbinden. Dies kann durch
Konkatenation, Summation, Ersetzung, Reproduktion oder dergleichen erfolgen.
Der Vorteil des Verfahrens der vorliegenden Erfindung liegt in dem Schritt des Teilens. Durch diesen Schritt ist es möglich eine genaue semantische
Segmentierung der Bilddaten zu erreichen und gleichzeitig die notwendigen Berechnungsressourcen und die notwendigen Speicherressourcen zu minimieren, indem die Berechnungen, die in dem Encoder-Pfad durchgeführt werden, optimal ausgenutzt werden.
Dies erlaubt die Durchführung des Verfahrens der vorliegenden Erfindung auf eingebetteten Recheneinheiten (sog. Embedded Hardware), wie typischerweise im Automotive Umfeld zum Einsatz kommen.
Nach einer Ausführungsform des Verfahrens der vorliegenden Erfindung ist die Teilungsfunktion im Schritt des Teilens derart ausgestaltet, dass nur eine Teilmenge der Feature Maps des Input-Tensors zur Bildung des mindestens einen ersten Slice-Tensors ausgewählt wird. Unter einer Feature Map ist vorliegend die Ausgabe einer Schicht (Layer) eines künstlichen neuronalen Netzes zu verstehen. Bei einem CNN handelt es sich typischerweise um das Ergebnis der Verarbeitung durch ein Convolutional Layer gefolgt von dem zugehörigen Pooling Layer und kann als Eingangsdaten für die Folgeschicht (Layer) oder - falls vorgesehen - den Fully-connected Layer dienen.
Nach einer Ausführungsform des Verfahrens der vorliegenden Erfindung ist die Verbindungsfunktion (Merge) im Schritt des Verbindens derart ausgestaltet ist, dass die Dimension des Input-Tensors erhalten bleibt.
Diese Ausführungsform weist den Vorteil auf, dass man in Bezug auf die einzusetzenden Berechnungsressourcen mit weniger Ressourceneinsatz und damit günstiger Informationen aus verschiedenen Layern des künstlichen neuronalen Netzes, insbesondere des Convolutional Neural Networks (CNN) weiterverwenden kann.
Nach einer Ausführungsform des Verfahrens der vorliegenden Erfindung weist das Verfahren den vorhergehenden Schritt des Empfangens auf, wobei im Schritt des Empfangens der Input-Tensor und die Teilungsfunktion empfangen werden.
Diese Ausführungsform des Verfahrens weist den Vorteil auf, dass das künstliche neuronale Netz bei geringeren Kosten im Vergleich zu einer parallelen Ausführung eines konventionellen künstlichen neuronalen Netzes flexibler ist und feingranularer auf den jeweiligen Schichten (Layern) auf die jeweiligen Input- Tensoren reagieren kann.
Nach einer Ausführungsform des Verfahrens der vorliegenden Erfindung wird im Schritt des Teilens eine erste Funktion eines künstlichen neuronalen Netzes auf den mindestens einen ersten Slice-Tensor angewendet wird und eine zweite Funktion eines künstlichen neuronalen Netzes auf den mindestens einen zweiten Slice-Tensor angewendet wird.
Unter einer Funktion eines künstlichen neuronalen Netzes kann vorliegend eine beliebige Funktion einer Neuronenschicht eines künstlichen neuronalen Netzes verstanden werden. Dies kann Faltung (Convolution) - auch in der Ausprägung eines Convolutional Blocks - d.h. einer mehrfachen Anwendung von Faltungen, Depth-wise Convolution, Squeeze, Restwert (Residual), Dichte (Dense),
Inception, Aktivierung (Activation, Act), Normalisierung, Sammlung (Pooling) oder dergleichen sein.
Unter Inception ist vorliegende eine Architekturvariation eines künstlichen neuronalen Netzes, insbesondere eines Convolutional Neural Networks, wie sie zuerst in Szegedy et al. Going deeper with convolutions. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,
S. 1 - 9, 2015 beschrieben wurde, zu verstehen.
Nach einer Ausführungsform des Verfahrens der vorliegenden Erfindung ist die Teilungsfunktion im Schritt des Teilens derart gestaltet, dass die Teilungsfunktion die zu berechnende Anzahl an Feature Maps und den jeweiligen Funktionen eines künstlichen neuronalen Netzes bzw. Berechnungsgraphen zur Berechnung des mindestens einen ersten Slice-Tensors und des mindestens einen zweiten Slice-Tensors umfasst.
Diese Ausführungsform des Verfahrens der vorliegenden Erfindung weist den Vorteil auf, dass auf einfache Art und Weise auf den mindestens einen ersten Slice-Tensor und den mindestens einen zweiten Slice-Tensor unterschiedliche Funktionen eines künstlichen neuronalen Netzes angewendet werden können. Dadurch wird das künstliche neuronale Netz bei geringeren Kosten im Vergleich zu einer parallelen Ausführung eines konventionellen künstlichen neuronalen Netzes flexibler und das künstliche neuronale Netz kann feingranularer auf die jeweiligen Input-Tensoren reagieren.
Ein weiterer Aspekt der vorliegenden Erfindung ist ein künstliches neuronales Netz zur semantischen Segmentierung von Bilddaten, wobei das künstliche neuronale Netz einen Encoder-Pfad zur Klassifizierung der Bilddaten, einen Decoder- Pfad zur Lokalisierung der Bilddaten aufweist und derart eingerichtet ist, Schritte des Verfahren gemäß der vorliegenden Erfindung auszuführen. Ein derart eingerichtetes künstliches neuronales Netz wird vorzugsweise in einem technischen System, insbesondere in einem Roboter, einem Fahrzeug, einem Werkzeug oder einer Werkmaschine eingesetzt, um abhängig von Eingangsgrößen Ausgangsgrößen zu bestimmen. Als Eingangsgrößen des künstlichen neuronalen Netzes kommen Sensordaten oder Größen, die von Sensordaten abhängig sind, in Frage. Die Sensordaten können von Sensoren des technischen Systems stammen oder von dem technischen System von extern empfangen werden. Abhängig von den Ausgangsgrößen des künstlichen neuronalen Netzes wird durch eine Steuereinrichtung des technischen Systems mindestens ein Aktor des technischen Systems mit einem Ansteuersignal angesteuert. So kann bspw. eine Bewegung eines Roboters oder Fahrzeugs gesteuert werden oder ein Werkzeug bzw. eine Werkmaschine angesteuert werden.
In einer Ausführungsform des künstlichen neuronalen Netzes gemäß der vorliegenden Erfindung kann das künstliche neuronale Netz als Convolutional Neural Network ausgestaltet sein.
Ein weiterer Aspekt der vorliegenden Erfindung ist eine Vorrichtung, die eingerichtet ist, Schritte des Verfahren gemäß der vorliegenden Erfindung auszuführen.
Ein weiterer Aspekt der vorliegenden Erfindung ist ein Computerprogramm, welches eingerichtet ist, Schritte des Verfahrens gemäß der vorliegenden Erfindung auszuführen.
Ein weiterer Aspekt der vorliegenden Erfindung ist ein maschinenlesbares Speichermedium, auf dem das künstliche neuronale Netz gemäß der vorliegenden Erfindung bzw. das Computerprogramm gemäß der vorliegenden Erfindung gespeichert ist.
Nachfolgend werden Einzelheiten und Ausführungsformen der Erfindung anhand mehrerer Figuren näher erläutert.
Es zeigen: Fig. 1 ein Blockdiagramm eines Fully Convolutional Network aus dem Stand der Technik;
Fig. 2 ein Blockdiagramm der U-Net Architektur eines Convolutional Network aus dem Stand der Technik;
Fig. 3 ein Blockdiagramm eines Teils eines Ausführungsform eines künstlichen neuronalen Netzwerks gemäß der vorliegenden Erfindung;
Fig. 4 ein Blockdiagramm eines Teils eines weiteren Ausführungsform eines künstlichen neuronalen Netzwerks gemäß der vorliegenden Erfindung;
Fig. 5 Ablaufdiagramm des Verfahrens gemäß der vorliegenden Erfindung.
Figur 1 zeigt ein Blockdiagramm eines Fully Convolutional Network aus“Evan Shelhamer, Jonathan Long, Trevor Darreil. Fully Convolutional Models for Semantic Segmentation. PAMI 2016.”
Die Abbildung fasst Teile des dargestellten Ablaufs in einem künstlichen neuronalen Netz in Blöcke zusammen.
In dem Block Encoder 110 sind die Verarbeitungsschritte ausgehend von Bilddaten als Eingabedaten 111 über mehrere Schichten (Layer) eines
Convolutional Neural Networks (CNN) dargestellt. Der Abbildung sind deutlich die Convolutional Layer 112a und die Pooling Layer 112b zu entnehmen.
In dem Block Decoder 120 sind„entfaltete (deconvolutioned)“ Ergebnisse 121, 122, 123 des CNN dargestellt. Deconvolution kann dabei durch Umkehr der Convolutionsschritte erreicht werden. Dabei ist eine Abbildung des
grobgranularen Klassifizierungsergebnisses auf die ursprünglichen Bilddaten möglich, um so eine Lokalisierung der klassifizierten Merkmale zu erreichen.
In dem Block Skip Module 130 sind Verbindungen höher-leveliger
Klassifizierungszwischenergebnisse des CNN zu den„entfalteten (deconvolutioned)“ Ergebnissen dargestellt. So sind in Zeile 2 die
Zwischenergebnisse des 4. Pools mit den Endergebnissen 122 verknüpft worden und in Zeile 3 die Zwischenergebnisse des 3. und des 4. Pools mit den
Endergebnissen 123.
Der Vorteil dieser Verknüpfungen liegt in der Möglichkeit feinere Details zu bestimmen und gleichzeitig eine höher-levelige semantische Information zu erhalten.
Figur 2 zeigt ein Blockdiagramm der U-Net Architektur eines Convolutional Network aus“Olaf Ronneberger, Philipp Fischer, Thomas Brox. U-Net:
Convolutional Networks for Biomedical Image Segmentation. Medical Image Computing and Computer-Assisted Intervention (MICCAI), Springer, LNCS, Vol.9351”
In dem Block Encoder 210 sind die Verarbeitungsschritte ausgehend von Bilddaten als Eingabedaten 211 über mehrere Schichten (Layer) eines
Convolutional Neural Networks (CNN) zur Klassifizierung der Eingabedaten 211 dargestellt.
In dem Block Decoder 220 sind die„Entfaltungsschritte (Upconvolution)“ ausgehend von der tiefsten Klassifizierungsebene über eine korrespondierende Anzahl an Deconvolutional Schichten (Layer) hin zu einer semantisch segmentierten Karte 221 mit lokalisierten und klassifizierten Merkmalen der Eingabedaten 211 dargestellt.
In dem Block 230 sind Verbindungen (Skip Connections) zwischen den
Schichten (Layern) des Blocks Encoder 210 und den korrespondierenden Schichten (Layern) des Blocks Decoder 220 dargestellt. Diese Verbindungen stellen den Informationsfluss in dem künstlichen neuronalen Netz zwischen der Klassifizierungsaufgabe und der Lokalisierungsaufgabe dar. Dadurch ist es möglich grobgranulare semantische Segmentierung mit einem höheren Grad der Wiederherstellung der Eingangsdaten in Übereinstimmung zu bringen. Figur 3 zeigt ein Blockdiagramm eines Teils eines Ausführungsform eines künstlichen neuronalen Netzwerks gemäß der vorliegenden Erfindung. Nach dieser Ausführungsform wird das künstliche neuronale Netz bzw. das Verfahren gemäß der vorliegenden Erfindung im einem sog.„Tensor Mode“ betrieben.
Vorliegend ist ein Input Tensor *,· e Mwxmxf 310 mit einer Anzahl Zeilen n, einer Anzahl Spalten m und einer Anzahl Feature Maps f im i-ten Schritt eines künstlichen neuronalen Netzes dargestellt. Ferner liegt eine Teilungsfunktion (Slice) 320 vor. Der Input-Tensor wird gemäß der Teilungsfunktion (Slice) 320 in mindestens einen ersten Slice-Tensor 330 und in mindestens einen zweiten Slice-Tensor 350 aufgeteilt. Die Aufteilung kann dabei nach einer beliebigen Teilungsfunktion (Slice) 320 erfolgen. Denkbar sind u. a. Teilung nach
Teilungsfaktoren (Splitting facto r), nach Indizes oder dergleichen.
Der mindestens eine erste Slice-Tensor 330 ist dafür vorgesehen dem Decoder- Pfad 340 des künstlichen neuronalen Netzes zugeführt zu werden, um dort mit grober, abstrakter Merkmalsrepräsentationen verknüpft zu werden.
Der mindestens eine zweite Slice-Tensor 350 wird zusammen mit dem mindestens einen ersten Slice-Tensor 330 einer Verbindungsfunktion (Merge) 360 zugeführt, um einen Output-Tensor 370 zu generieren. Als
Verbindungsfunktion (Merge) 360 kann jede Vorschrift angewendet werden, die dazu geeignet ist den ersten Slice-Tensor 320 mit dem zweiten Slice-Tensor 350 zu verbinden. Denkbar sind u. a. die Konkatenation, die Summation, die
Ersetzung, die Replikation oder dergleichen. Der Output-Tensor 370 ist vorgesehen weiter entlang des Encoder-Pfads 380 durch das künstliche neuronale Netz verarbeitet zu werden.
Figur 4 zeigt ein Blockdiagramm eines Teils eines weiteren Ausführungsform eines künstlichen neuronalen Netzwerks gemäß der vorliegenden Erfindung. Nach dieser Ausführungsform wird das künstliche neuronale Netz bzw. das Verfahren gemäß der vorliegenden Erfindung im einem sog.„Function Mode“ 400 betrieben. Die Eingabedaten des Function Mode 400 umfassen neben dem Input-Tensor 310 auch die Teilungsfunktion (Slice) 420. Die Teilungsfunktion (Slice) 420 wird auf den Input-Tensor 310 angewendet, um einen ersten Slice-Tensor 330 und einen zweiten Slice-Tensor 350 zu erhalten. Im Unterschied zum„Tensor Mode“ 300 wird zudem auf den ersten Slice-Tensor 330 und den zweiten Slice-Tensor 350 eine beliebige Funktion eines künstlichen neuronalen Netzes 421, 422 angewendet. Denkbar sind u. a. Faltung (Convolution), Restwert (Residual), Dichte (Dense), Inception, Aktivierung (Activation, Act), Normalisierung,
Sammlung (Pooling) oder dergleichen. Auf den ersten Slice-Tensor 330 und den zweiten Slice-Tensor 350 können unterschiedliche Funktionen eines künstlichen neuronalen Netzes 421, 422 angewendet werden.
Nachfolgend wird der erste Slice-Tensor 330 dem Decoder- Pfad 340 des künstlichen neuronalen Netzes zugeführt, um dort mit grober, abstrakter Merkmalsrepräsentationen verknüpft zu werden.
Der mindestens eine zweite Slice-Tensor 350 wird zusammen mit dem mindestens einen ersten Slice-Tensor 330 einer Verbindungsfunktion (Merge) 360 zugeführt, um einen Output-Tensor 370 zu genieren. Als
Verbindungsfunktion (Merge) 360 kann jede Vorschrift angewendet werden, die dazu geeignet ist den ersten Slice-Tensor 330 mit dem zweiten Slice-Tensor 350 zu verbinden. Denkbar sind u. a. die Konkatenation, die Summation, die
Ersetzung, die Replikation oder dergleichen. Der Output-Tensor 370 ist vorgesehen weiter entlang des Encoder-Pfads 380 durch das künstliche neuronale Netz verarbeitet zu werden.
Figur 5 zeigt ein Ablaufdiagramm des Verfahrens gemäß der vorliegenden Erfindung.
Schritt 510 ist gestrichelt dargestellt. Dies gibt an, dass Schritt 510 als optionaler Schritt anzusehen ist. In Schritt 510 werden ein Input-Tensor 310 und eine Teilungsfunktion 320, 420 empfangen.
In Schritt 520 wird der Input-Tensor 310 in Abhängigkeit von der Teilungsfunktion 320, 420 in mindestens einen ersten Slice-Tensor 330 und mindestens einen zweiten Slice-Tensor ge350 teilt, wobei der Input-Tensor 310 abhängig von den Bilddaten 111, 211 ist.
Findet der optionale Schritt 510 nicht statt, ist die Teilungsfunktion 320, 430 vorgegeben und der Input-Tensor 310 liegt als Eingangsdatum des Verfahrens vor.
In Schritt 530 wir der mindestens eine erste Slice-Tensors 330 an den Decoder- Pfad 120, 220 des neuronalen Netzes ausgegeben. Im Decoder-Pfad 120, 220 kann der mindestens eine erste Slice-Tensor 330 mit einer groben, abstrakten Merkmalsrepräsentation verknüpft zu werden.
In Schritt 540 wird der mindestens einen ersten Slice-Tensors 320 mit dem mindestens einen zweiten Slice-Tensor 350 in Abhängigkeit von einer
Verbindungsfunktion (Merge) 360 verbunden, um einen Output-Tensor 370 zu erhalten. Der Output-Tensor 370 ist dafür vorgesehen auf dem Encoder-Pfad 110, 210 des künstlichen neuronalen Netzes verarbeitet zu werden.
In Schritt 550 wird der Output-Tensors 370 an den Encoder-Pfad 110, 210 des neuronalen Netzes ausgegeben, um weitere durch das künstliche neuronale Netz verarbeitet zu werden.
Die vorliegende Erfindung eignet sich bevorzugt für den Einsatz in einem Automotive System, insbesondere im Zusammenhang mit
Fahrerassistenzsystemen bis hin zum teil- bzw. vollautomatisierten Fahren.
Von besonderem Interesse ist dabei die Verarbeitung von Bilddaten bzw.
Bildströmen, die das Umfeld eines Fahrzeugs repräsentieren.
Solche Bilddaten bzw. Bildströme können von bildgebenden Sensoren eines Fahrzeugs erfasst werden. Die Erfassung kann dabei mittels eines einzelnen Sensors erfolgen. Denkbar ist die Fusionierung von Bilddaten bzw. Bildströmen mehrerer Sensoren ggf. von mehreren Sensoren, mit unterschiedlichen
Erfassungstechnologien, wie bspw. Video-, Radar, Ultraschall-, Lidar-Sensoren. Dabei kommt der Ermittlung von freien Räumen (Free Space Detection) und der semantischen Unterscheidung von Vordergrund und Hintergrund in den
Bilddaten bzw. Bildströmen eine besondere Bedeutung zu. Diese Merkmale können durch die Verarbeitung von Bilddaten bzw. Bildströmen durch die Anwendung eines künstlichen neuronalen Netzes gemäß der vorliegenden Erfindung ermittelt werden. Basierend auf dieser Information kann das Steuerungssystem für die Fahrzeuglängs- bzw. -quersteuerung
entsprechend angesteuert werden, sodass das Fahrzeug zu einer
angemessenen Reaktion auf die Erfassung dieser Merkmale in den Bilddaten bzw. Bildströmen angesteuert werden kann.
Ein weiteres Anwendungsfeld der vorliegenden Erfindung kann darin gesehen werden für ein Kamera-basierte Fahrzeugsteuerungssystem eine genaue Vorbezeichnung (pre-labeling) von Bilddaten bzw. Bilddatenströmen
durchzuführen.
Dabei stellen die zu vergebenden Bezeichner (Label) Objektklassen dar, die in Bilddaten bzw. Bildströmen erkannt werden sollen.
Die Erfindung ist ferner in allen Gebieten, bspw. Automotive, Robotik,
Gesundheit, Überwachung, etc. einsetzbar, die eine genaue Pixel-basierte Objekteerkennung (pixel-wise prediction) mittels künstlichen neuronalen Netzen erfordern. Beispielhaft können dabei genannt werden: Optischer Fluss, Tiefe aus Monobilddaten, Zahlen, Grenzerkennung, Schlüsselkarten, Objektdetektion etc.

Claims

Ansprüche
1. Verfahren (500) zur berechnungs- und speicherressourcenschonenden semantischen Segmentierung von Bilddaten (111, 211) eines
bildgebenden Sensors mittels eines künstlichen neuronalen Netzes, insbesondere eines Convolutional Neural Networks, wobei das künstliche neuronale Netz einen Encoder-Pfad (110, 210, 380), einen Decoder-Pfad (120, 220, 340) aufweist, umfassend die Schritte:
- Teilen (520) eines Input-Tensors (310) in Abhängigkeit von einer Teilungsfunktion (320, 420) in mindestens einen ersten Slice-Tensor (330) und mindestens einen zweiten Slice-Tensor (350), wobei der Input-Tensor (310) abhängig von den Bilddaten (111, 211) ist;
- Ausgeben (530) des mindestens einen ersten Slice-Tensors (330) an den Decoder-Pfad (120, 220, 340) des neuronalen Netzes;
- Verbinden (540) des mindestens einen ersten Slice-Tensors (330) mit dem mindestens einen zweiten Slice-Tensor (350) in Abhängigkeit von einer Verbindungsfunktion (360) um einen Output-Tensor (370) zu erhalten;
- Ausgeben (550) des Output-Tensors (370) an den Encoder- Pfad (110, 210, 380) des neuronalen Netzes.
2. Verfahren (500) nach Anspruch 1, wobei im Schritt des Teilens die
Teilungsfunktion (320, 430) derart ausgestaltet ist, dass nur eine
Teilmenge der Feature Maps des Input-Tensors (310) zur Bildung des mindestens einen ersten Slice-Tensors (330) ausgewählt wird.
3. Verfahren (500) nach Anspruch 1 oder 2, wobei die Verbindungsfunktion (360) derart ausgestaltet ist, dass die Dimension des Input-Tensors (310) erhalten bleibt.
4. Verfahren (500) nach einem der vorhergehenden Ansprüche mit dem vorhergehenden Schritt des Empfangens (510), wobei im Schritt des Empfangens (510) der Input-Tensor (310) und die Teilungsfunktion (320, 420) empfangen werden.
5. Verfahren (500) nach einem der vorhergehenden Ansprüche, wobei im Schritt des Teilens (520) eine erste Funktion (421) eines neuronalen Netzes auf den mindestens einen ersten Slice-Tensor (330) angewendet wird und eine zweite Funktion (422) eines neuronalen Netzes auf den mindestens einen zweiten Slice-Tensor (350) angewendet wird.
6. Verfahren (500) nach Anspruch 5, wobei die Teilungsfunktion (420) derart gestaltet ist, dass sie die zu berechnende Anzahl an Feature Maps und die jeweiligen Funktionen (421, 422) eines künstlichen neuronalen Netzes zur Berechnung des mindestens einen ersten Slice-Tensors (330) und des mindestens einen zweiten Slice-Tensors (350) umfasst.
7. Künstliches neuronales Netz, insbesondere Convolutional Neural
Network, zur semantischen Segmentierung von Bilddaten eines bildgebenden Sensors, wobei das künstliche neuronale Netz einen Encoder-Pfad (110, 210) zur Klassifizierung der Bilddaten (111, 211), einen Decoder-Pfad (120, 220) zur Lokalisierung der Bilddaten (111, 211) aufweist und derart eingerichtet ist, Schritte des Verfahrens (500) nach einem der Ansprüche 1 bis 6 auszuführen.
8. Vorrichtung, insbesondere aufweisend ein künstliches neuronales Netz gemäß Anspruch 7, die eingerichtet ist, Schritte des Verfahrens (500) nach einem der Ansprüche 1 bis 6 auszuführen.
9. Computerprogramm, welches eingerichtet ist, alle Schritte des Verfahrens (500) nach einem der Ansprüche 1 bis 6 auszuführen.
10. Maschinenlesbares Speichermedium, auf dem das künstliche neuronale Netz nach Anspruch 7 und/oder das Computerprogramm nach Anspruch 9 gespeichert ist.
PCT/EP2019/076032 2018-10-05 2019-09-26 Verfahren, künstliches neuronales netz, vorrichtung, computerprogramm und maschinenlesbares speichermedium zur semantischen segmentierung von bilddaten WO2020069964A1 (de)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US17/282,372 US11908142B2 (en) 2018-10-05 2019-09-26 Method, artificial neural network, device, computer program, and machine-readable memory medium for the semantic segmentation of image data
CN201980080536.XA CN113168558A (zh) 2018-10-05 2019-09-26 用于图像数据的语义分割的方法、人工神经网络、设备、计算机程序和机器可读存储介质

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102018217092.4A DE102018217092A1 (de) 2018-10-05 2018-10-05 Verfahren, künstliches neuronales Netz, Vorrichtung, Computerprogramm und maschinenlesbares Speichermedium zur semantischen Segmentierung von Bilddaten
DE102018217092.4 2018-10-05

Publications (1)

Publication Number Publication Date
WO2020069964A1 true WO2020069964A1 (de) 2020-04-09

Family

ID=68172167

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2019/076032 WO2020069964A1 (de) 2018-10-05 2019-09-26 Verfahren, künstliches neuronales netz, vorrichtung, computerprogramm und maschinenlesbares speichermedium zur semantischen segmentierung von bilddaten

Country Status (4)

Country Link
US (1) US11908142B2 (de)
CN (1) CN113168558A (de)
DE (1) DE102018217092A1 (de)
WO (1) WO2020069964A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113065551A (zh) * 2021-03-19 2021-07-02 杭州迪英加科技有限公司 利用深度神经网络模型执行图像分割的方法

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11507831B2 (en) 2020-02-24 2022-11-22 Stmicroelectronics International N.V. Pooling unit for deep learning acceleration
DE102021100765A1 (de) 2021-01-15 2022-07-21 Dr. Ing. H.C. F. Porsche Aktiengesellschaft Verfahren, System und Computerprogrammprodukt zur Bestimmung von sicherheitskritischen Ausgabewerten einer technischen Entität
WO2023122854A1 (zh) * 2021-12-27 2023-07-06 华为技术有限公司 数据处理的方法和装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8494285B2 (en) * 2010-12-09 2013-07-23 The Hong Kong University Of Science And Technology Joint semantic segmentation of images and scan data
CN107851195B (zh) * 2015-07-29 2022-02-11 诺基亚技术有限公司 利用神经网络进行目标检测
US10303979B2 (en) * 2016-11-16 2019-05-28 Phenomic Ai Inc. System and method for classifying and segmenting microscopy images with deep multiple instance learning
CN107226087B (zh) * 2017-05-26 2019-03-26 西安电子科技大学 一种结构化道路自动驾驶运输车及控制方法
CN107644426A (zh) * 2017-10-12 2018-01-30 中国科学技术大学 基于金字塔池化编解码结构的图像语义分割方法
CN108053027B (zh) * 2017-12-18 2021-04-30 中山大学 一种加速深度神经网络的方法及装置
CN108256527A (zh) * 2018-01-23 2018-07-06 深圳市唯特视科技有限公司 一种基于端到端全卷积网络的皮肤病变多类语义分割方法
DE102018217091A1 (de) * 2018-10-05 2020-04-09 Robert Bosch Gmbh Verfahren, künstliches neuronales Netz, Vorrichtung, Computerprogramm und maschinenlesbares Speichermedium zur semantischen Segmentierung von Bilddaten
US20230156341A1 (en) * 2020-04-02 2023-05-18 Koito Manufacturing Co., Ltd. Gating camera, sensing system for vehicle, and lighting unit for vehicle
CN113920213B (zh) * 2021-09-27 2022-07-05 深圳技术大学 基于长距离注意力模型重建的多层磁共振成像方法及装置
US20230153601A1 (en) * 2021-11-15 2023-05-18 International Business Machines Corporation Global neural transducer models leveraging sub-task networks

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
EVAN SHELHAMERJONATHAN LONGTREVOR DARRELL: "Fully Convolutional Models for Semantic Segmentation", PAMI, 2016
JINDONG JIANG ET AL: "RedNet: Residual Encoder-Decoder Network for indoor RGB-D Semantic Segmentation", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 4 June 2018 (2018-06-04), XP081182198 *
OLAF RONNEBERGERPHILIPP FISCHERTHOMAS BROX: "LNCS", vol. 9351, SPRINGER, article "U-Net: Convolutional Networks for Biomedical Image Segmentation. Medical Image Computing and Computer-Assisted Intervention (MICCAI"
SZEGEDY ET AL.: "Going deeper with convolutions", PROCEEDINGS OF THE IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, 2015, pages 1 - 9, XP055536247, doi:10.1109/CVPR.2015.7298594
TRAN MINH QUAN ET AL: "FusionNet: A deep fully residual convolutional neural network for image segmentation in connectomics", 15 December 2016 (2016-12-15), XP055654703, Retrieved from the Internet <URL:https://arxiv.org/ftp/arxiv/papers/1612/1612.05360.pdf> *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113065551A (zh) * 2021-03-19 2021-07-02 杭州迪英加科技有限公司 利用深度神经网络模型执行图像分割的方法
CN113065551B (zh) * 2021-03-19 2023-08-08 杭州迪英加科技有限公司 利用深度神经网络模型执行图像分割的方法

Also Published As

Publication number Publication date
CN113168558A (zh) 2021-07-23
US20210343019A1 (en) 2021-11-04
DE102018217092A1 (de) 2020-04-09
US11908142B2 (en) 2024-02-20

Similar Documents

Publication Publication Date Title
WO2020069964A1 (de) Verfahren, künstliches neuronales netz, vorrichtung, computerprogramm und maschinenlesbares speichermedium zur semantischen segmentierung von bilddaten
DE102018217090A1 (de) Verfahren, künstliches neuronales Netz, Vorrichtung, Computerprogramm und maschinenlesbares Speichermedium zur semantischen Segmentierung von Bilddaten
DE102018217091A1 (de) Verfahren, künstliches neuronales Netz, Vorrichtung, Computerprogramm und maschinenlesbares Speichermedium zur semantischen Segmentierung von Bilddaten
EP3785177B1 (de) Verfahren und vorrichtung zum ermitteln einer netzkonfiguration eines neuronalen netzes
WO2019001649A1 (de) Wissenstransfer zwischen verschiedenen deep-learning architekturen
EP3788552A1 (de) Verfahren und vorrichtung zum ermitteln eines tiefeninformationsbilds aus einem eingangsbild
DE102020107868A1 (de) Objektdetektionssystem für die detektion eines objekts mit hilfe einer hierarchie-pyramide und objektdetektionsverfahren
DE102021103200B3 (de) Verfahren zum Bestimmen eines Degradationsgrads eines aufgenommenen Bilds, Computerprogrammprodukt, computerlesbares Speichermedium sowie Assistenzsystem
DE102019205085A1 (de) Selbstüberwachung einer auf künstlicher Intelligenz basierenden Funktion
DE102017128082A1 (de) Meta-Architektur-Design für ein CNN-Netzwerk
EP3736742A1 (de) Maschinelles lernsystem, sowie ein verfahren, ein computerprogramm und eine vorrichtung zum erstellen des maschinellen lernsystems
EP3857455A1 (de) Maschinelles lernsystem, sowie ein verfahren, ein computerprogramm und eine vorrichtung zum erstellen des maschinellen lernsystems
DE102018132627A1 (de) Verfahren zum Erfassen einer Umgebung eines Kraftfahrzeugs mittels zeitlicher Fusion von Bildern durch ein künstliches neuronales Netz; Steuereinheit, Fahrerassistenzsystem; Computerprogrammprodukt
DE202019102260U1 (de) Vorrichtung zum Erstellen eines neuronalen Netzes
DE102021200643B3 (de) Verfahren zur Umfelderkennung für teilautonome oder autonome Fahrfunktionen eines Kraftfahrzeugs mittels eines neuronalen Netzes
DE202017105656U1 (de) Prädiktives Messsystem, Aktorsteuerungssystem und Vorrichtung zum Betreiben des prädiktiven Messsystems und/oder des Aktorsteuerungssystems
WO2022089837A1 (de) System und verfahren zur erfassung des umfelds eines fahrzeugs
WO2022053505A1 (de) Computerimplementiertes verfahren zur umfelderkennung für ein automatisiertes fahrsystem, maschinenlernverfahren, steuergerät für ein automatisiertes fahrsystem und computerprogramm für ein derartiges steuergerät
DE102020126690A1 (de) Verfahren zum Bestimmen eines Bewegungsmodells eines Objekts in einer Umgebung eines Kraftfahrzeugs, Computerprogrammprodukt, computerlesbares Speichermedium sowie Assistenzsystem
DE102020105070A1 (de) Verfahren zum Erkennen eines befahrbaren Bereichs in einer Umgebung eines Fahrzeugs mithilfe eines binären künstlichen neuronalen Netzes, Recheneinrichtung sowie Fahrerassistenzsystem
DE102020132028A1 (de) Bestimmung einer optimierten Struktur für Neuronale Netze, insbesondere für Verwendung in einem Embedded System
DE102022200353A1 (de) Verfahren zum Erzeugen von Daten zum Trainieren eines auf künstlicher Intelligenz basierenden Objekterkennungsverfahrens
DE202020107031U1 (de) Kombinierte Vorhersage von Merkmal und Merkmalsbewegung
DE102021119951A1 (de) Verfahren, System und Computerprogrammprodukt zur Erkennung der Umgebung eines Kraftfahrzeugs
DE102021118311A1 (de) Automatische Wahrnehmung und zumindest teilweise automatisches Führen eines Fahrzeugs

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19783993

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19783993

Country of ref document: EP

Kind code of ref document: A1