WO2023098955A1 - Verfahren zum fusionieren von sensordaten im kontext eines künstlichen neuronalen netzwerks - Google Patents

Verfahren zum fusionieren von sensordaten im kontext eines künstlichen neuronalen netzwerks Download PDF

Info

Publication number
WO2023098955A1
WO2023098955A1 PCT/DE2022/200256 DE2022200256W WO2023098955A1 WO 2023098955 A1 WO2023098955 A1 WO 2023098955A1 DE 2022200256 W DE2022200256 W DE 2022200256W WO 2023098955 A1 WO2023098955 A1 WO 2023098955A1
Authority
WO
WIPO (PCT)
Prior art keywords
feature map
output
output feature
area
representation
Prior art date
Application number
PCT/DE2022/200256
Other languages
English (en)
French (fr)
Inventor
Tobias Bund
Mario Rometsch
Robert Thiel
Original Assignee
Continental Autonomous Mobility Germany GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Continental Autonomous Mobility Germany GmbH filed Critical Continental Autonomous Mobility Germany GmbH
Priority to KR1020247015566A priority Critical patent/KR20240076833A/ko
Publication of WO2023098955A1 publication Critical patent/WO2023098955A1/de

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle

Definitions

  • the invention relates to a method and a system for fusing sensor data, for example in an environment sensor-based ADAS/AD system for a vehicle in the context of an artificial neural network.
  • DE 102015208889 A1 shows a camera device for imaging the surroundings of a motor vehicle, having an image sensor device for recording a pixel image and a processor device which is designed to combine neighboring pixels of the pixel image in an adapted pixel image.
  • Different matched pixel images can be generated at different resolutions by aggregating the pixel values of neighboring pixels in the form of a 2-x-2 image pyramid or an n ⁇ n image pyramid.
  • US 10798319 B2 describes a camera device for capturing an area surrounding a host vehicle with wide-angle optics and a high-resolution image recording sensor. For an image of the image sequence, an image of the entire detection area or a partial area of the detection area with reduced resolution by means of pixel binning can be recorded with maximum resolution.
  • technologies that use artificial neural networks are increasingly used in environment sensor-based ADAS/AD systems to better recognize, classify and at least partially understand road users and the scene.
  • Deep neural networks such as a CNN (convolutional neural network) have clear advantages over classic methods. Classic methods tend to use hand-made features (histogram of oriented gradients, local binary patterns, Gabor filters, etc.) with trained classifiers such as support vector machines or AdaBoost.
  • AdaBoost support vector machines
  • multi-level CNNs the feature extraction is achieved algorithmically by machine (deep) learning, thereby significantly increasing the dimensionality and depth of the feature space, which ultimately leads to significantly better performance, e.g. in the form of an increased recognition rate
  • Processing poses a challenge, especially when merging sensor data with different, even overlapping, detection ranges and different resolutions.
  • EP 3686798 A1 shows a CNN-based method for learning parameters of an object detector.
  • Object regions are estimated in a camera image and sections of these regions are generated from different image pyramid levels.
  • the cutouts have an identical height and are laterally filled and concatenated using "zero padding" (zero areas).
  • This form of concatenation can be loosely described as a kind of collage: the sections of identical height are "glued next to each other".
  • the synthetic image generated is thus composed of different resolution levels of areas of the same original camera image.
  • the CNN is trained in such a way that the object detector detects objects using the synthetic image and is therefore able to detect objects that are further away.
  • An advantage of such a procedure compared to separate processing of the individual image areas one after the other using a CNN is that the weights for the synthetic image only have to be loaded once.
  • the disadvantage here is that the image areas in the synthetic image are viewed next to one another and, in particular, independently of one another by the CNN with the object detector. Objects in the overlap area that are in a Image areas that may be incomplete must be identified in a non-trivial way as belonging to one and the same object.
  • One aspect of the invention relates to an efficient implementation of object recognition on input data from at least one image acquisition sensor, which a) acquires a large image area b) acquires relevant image reports, such as distant objects in the center of the image, with high resolution.
  • a lower-resolution overview image and a higher-resolution central image section could be processed separately by two independent inferences (two CNNs each trained for this).
  • weights of the trained CNNs have to be reloaded for the different images.
  • Features from different pyramid levels are not considered combined.
  • the processing could take place as in EP 3686798 A1 for an image composed of different resolution levels. It would therefore generate a composite image from different partial images/resolution levels and run an inference or a trained CNN over it. This can be somewhat more efficient since each weight is only loaded once for all images and not for each sub-image. The remaining disadvantages, such as the lack of a combination of features from different resolution levels, remain.
  • the method for fusing sensor data comprises the steps: a) Receiving input sensor data, the input sensor data comprising
  • a second representation comprising a second area of the scene, where the first and second areas overlap but are not identical. b) determining a first feature map having a first height and width based on the first representation and determining a second feature map having a second height and width based on the second representation. c) calculating a first output feature map using a first convolution of the first feature map, and calculating a second output feature map using a second convolution of the second feature map.
  • a representation may be a two-dimensional representation of a scene captured by a sensor.
  • the representation can be a grid, a map, or an image.
  • a point cloud or a depth map are examples of three-dimensional representations that e.g. a lidar sensor or a stereo camera can capture as a sensor.
  • a three-dimensional representation can be transformed into a two-dimensional representation for many purposes, e.g. by a plane section or a projection.
  • a feature map can be determined by a convolution or convolutional layer/convolution kernel/convolution kernel from a representation or another (pre-existing) feature map.
  • the height and width of a feature map is related to the height and width of the underlying representation (or incoming feature map) and the operation.
  • the position of the first and second area in relation to one another is taken into account in particular in order to add the appropriate elements of the first and second output feature map for the fusion.
  • the position of the overlapping area can be defined by starting values (x s , y s ) which, for example, specify the position of the second output feature map in the vertical and horizontal direction within the merged feature map.
  • the elements of the first and second Output Feature Map are added in the overlapping area. Outside the area of overlap, the elements of the output feature map can be transferred to the merged feature map covering that area. If neither of the two output feature maps covers an area of the merged feature map, it can be filled with zero.
  • the method is performed, for example, in the context of an artificial neural network, preferably a convolutional neural network (CNN).
  • an artificial neural network preferably a convolutional neural network (CNN).
  • CNN convolutional neural network
  • ADAS/AD functionalities at least one artificial neural network or CNN is often used (especially on the perception side), which is trained using a machine learning method to assign output data relevant to sensor input data for the ADAS/AD functionality.
  • ADAS stands for advanced systems for assisted driving
  • AD stands for automated driving (English: Advanced Driver Assistance Systems or Automated Driving).
  • the trained artificial neural network can be implemented on a processor of an ADAS/AD control device in a vehicle.
  • the processor can be configured to evaluate sensor data through the trained artificial neural network (inference).
  • the processor may include a hardware accelerator for the artificial neural network.
  • the processor or the inference can be configured, for example, to detect or determine relevant information from input sensor data from one or more environmental sensor(s) ADAS/AD.
  • Relevant Information is, for example, objects and/or environmental information for an ADAS/AD system or an ADAS/AD control device.
  • ADAS/AD-relevant objects and/or environmental information are, for example, objects, markings, traffic signs, road users, as well as distances, relative speeds of objects, etc., which represent important input variables for ADAS/AD systems.
  • Examples of functions for detecting relevant information are lane recognition, object recognition, depth recognition (3D estimation of the image components), semantic recognition, traffic sign recognition or the like.
  • the first and second output feature maps have the same height and width in the overlapping area.
  • adjacent elements in the overlap area of the output feature maps are equidistant from each other in real space. This can be the case because the first and second feature maps already have the same height and width in the overlapping area.
  • the first and second representations also have the same height and width in the overlapping area.
  • the height and width of the merged feature map are determined by the rectangle that encloses (exactly encloses) the first and second output feature maps.
  • the first area is an overview area of the scene and the second area is a partial area of the overview area of the scene.
  • the overview area contained in the first representation can correspond to an overall area, ie a maximum detection area of the sensor.
  • the portion of the scene included in the second representation may correspond to a region of interest (ROI) also included in the first representation.
  • ROI region of interest
  • the first representation has a first resolution and the second representation has a second resolution.
  • the second resolution is higher than the first resolution.
  • the resolution of the second representation can be the maximum resolution of a sensor are equivalent to.
  • the higher resolution may provide more detail about a portion or ROI that is content of the second representation.
  • the resolution of a representation can correspond to an accuracy or a data depth, eg a minimum distance between two adjacent data points of a sensor.
  • the first and/or second output feature map can thus be enlarged or adapted that they acquire the width and height of the merged feature map and that the position of the first and second output feature map in relation to one another is retained.
  • Both adapted output feature maps have the overlap area in the same position.
  • the newly added areas of the respective (adapted) output feature map due to the enlargement are filled with zeros (zero padding).
  • the two adapted output feature maps can then be added element by element.
  • a template output feature map is first created, the width and height of which result from the height and width of the first and second output feature map and the position of the overlapping area (cf. last section: enclosing rectangle).
  • the Template Output Feature Map is filled with zeros.
  • the elements from the first output feature map are taken over in the area covered by the first output feature map.
  • start values can be used, which specify the position of the first output feature map in vertical and horizontal direction within the template output feature map.
  • the adapted second output feature map is formed accordingly.
  • the two adapted output feature maps can then be added element by element.
  • the second output feature map contains the entire overlap area (i.e. a real part of the first output feature map, which includes an overview area)
  • an adaptation of the different height and width of the second output feature map can be omitted.
  • the first output feature map does not have to be adapted either, because the merged feature map will have the same height and width as the first output feature map.
  • the element-by-element addition of the second output feature map to the first output feature map can only be carried out in the overlapping area using suitable starting values.
  • the starting values specify from where (namely in the overlapping area) the elements of the second output feature map are added to the elements of the first output feature map in order to generate the merged feature map.
  • the feature maps have a depth dependent on the resolution of the representation.
  • a higher resolution representation e.g. image section
  • a processor may include a hardware artificial neural network accelerator that generates a stack of multiple sensor channel data "packets" during one clock cycle, or period.
  • Arithmetic cycle (English: clock cycle) can further process.
  • the sensor data or representations or feature (map) layers can be fed into the hardware accelerator as stacked sensor channel data packets.
  • ADAS/AD-relevant features are detected using the merged feature map.
  • the method is implemented in a hardware accelerator for an artificial neural network (CNN).
  • CNN artificial neural network
  • the merged feature map is generated in an encoder of an artificial neural network or CNN, which is set up or trained to determine ADAS/AD-relevant information.
  • the artificial neural network or CNN which is set up or trained to determine ADAS/AD-relevant information, comprises a number of decoders for different ADAS/AD detection functions.
  • a representation (of a scene) includes or contains image data from an image capture sensor.
  • the image detection sensor can include one or more representatives from the following group: a monocular camera, in particular with a wide-angle detection range (e.g. at least 100°) and high maximum resolution (e.g. at least 5 megapixels), a stereo camera, satellite cameras, individual cameras of an all-round vision system, lidar sensors, laser scanners or other 3D cameras.
  • the first and second representations include image data of at least one image capture sensor.
  • the (single) image capture sensor is a monocular camera. Both the first and the second representation can be provided by the (same) image capture sensor.
  • the first representation (or the first image) can correspond to a wide-angle captured overview image with reduced resolution and the second representation (or the second image) can correspond to a partial image with higher resolution.
  • the first and second images correspond to different image pyramid levels of an image captured by an image capture sensor.
  • the input sensor data ie the input image data
  • each channel has the same height and width.
  • two monocular cameras with an overlapping detection area are used as image detection sensor(s).
  • the two monocular cameras can be part of a stereo camera.
  • the two monoculars Cameras can have different opening angles and/or resolutions (“hybrid stereo camera”).
  • the two monocular cameras can be satellite cameras independently mounted on the vehicle.
  • a plurality of cameras in an all-round view camera system are used as image detection sensors.
  • four monocular cameras with fisheye optics detection angle of e.g. 180° and more
  • detection angle of e.g. 180° and more
  • Every two adjacent cameras have an overlapping area of approx. 90°.
  • a further aspect of the invention relates to a system or a device for fusing sensor data.
  • the device comprises an input interface, a data processing unit and an output interface.
  • the input interface is configured to receive input sensor data.
  • the input sensor data includes a first and a second representation.
  • the first representation includes or contains a first area of a scene.
  • the second representation contains a second area of the scene.
  • the first and second areas overlap each other.
  • the first and second areas are not identical.
  • the data processing unit is configured to perform the following steps b) to d): b) determining a first feature map having a first height and width based on the first representation and determining a second feature map having a second height and width based on the second representation . c) calculating a first output feature map using a first convolution of the first feature map, and calculating a second output feature map using a second convolution of the second feature map. d) Calculating a merged feature map by adding the first and the second output feature map element by element. The position of the first and the second area to each other is taken into account in the element-by-element addition, so that the elements (of the first and second Output Feature Map) are added in the overlapping area.
  • the output interface is configured to output the merged feature map.
  • the output can be sent to a downstream ADAS/AD system or to downstream layers of a "big" ADAS/AD-CNN or other artificial neural networks.
  • the system includes a CNN hardware accelerator.
  • the input interface, the data processing unit and the output interface are implemented in the CNN hardware accelerator.
  • the system includes a convolutional neural network with an encoder.
  • the input interface, the data processing unit and the output interface are implemented in the encoder, so that the encoder is configured to generate the fused feature map.
  • the convolutional neural network includes multiple decoders.
  • the decoders are configured to implement different ADAS/AD detection functions at least based on the merged feature map.
  • Several CNN decoders can therefore use the input sensor data encoded by a common encoder.
  • ADAS/AD detection functions are, for example, a semantic segmentation of the representation(s), free space detection, lane detection, object detection or object classification.
  • the system includes an ADAS/AD controller, wherein the ADAD/AD controller is configured to implement ADAS/AD functions at least based on the results of the ADAS/AD detection functions.
  • the system can include the at least one sensor.
  • One or more camera, radar, lidar, ultrasonic sensor(s), for example, can be used as the sensor(s).
  • Localization sensor and/or a V2X system Vehicle-to-X, i.e. a telematics system can be used.
  • a further aspect of the invention relates to a vehicle with at least one sensor and a corresponding system for fusing sensor data.
  • the system or the data processing unit can in particular a microcontroller or processor, a central processing unit (CPU), a graphics processing unit (GPU, graphics processing unit), a tensor processing unit (TPU, tensor processing unit), a neural / AI processing unit (NPU, neural processing unit) include a Digital Signal Processor (DSP), an ASIC (Application Specific Integrated Circuit), an FPGA (Field Programmable Gate Array) and the like more and software for performing the appropriate method steps.
  • DSP Digital Signal Processor
  • ASIC Application Specific Integrated Circuit
  • FPGA Field Programmable Gate Array
  • the system or the data processing unit is implemented in a hardware-based sensor data pre-processing stage (e.g. an image signal processor, Image Signal Processor, ISP).
  • a hardware-based sensor data pre-processing stage e.g. an image signal processor, Image Signal Processor, ISP.
  • the invention further relates to a computer program element or
  • Program product which, when a processor of a system for data fusion is programmed with it, instructs the processor to carry out a corresponding method for merging input sensor data.
  • the invention further relates to a computer-readable storage medium on which such a program element is stored.
  • the present invention can thus be implemented in digital electronic circuitry, computer hardware, firmware or software.
  • FIG. 1 shows a system for fusing data from at least one sensor
  • FIG. 2 shows the extent and position of a first and second detection area of a sensor or of two different sensors, from which a first and second representation of a scene can be determined
  • Figure 3 shows an overall high resolution image
  • FIG. 6 shows an alternative arrangement of a first (overview) detection area and a second central detection area
  • FIG. 7 shows an example of how corresponding digital images appear as a greyscale image
  • 8 shows a way in which such images can basically be merged
  • Fig. 1 schematically shows a system 10 for merging data from at least one sensor 1 with an input interface 12, a data processing unit 14 with a fusion module 16 and an output interface 18 for outputting fused data to a further unit 20.
  • a sensor 1 is a camera sensor with wide-angle optics and a high-resolution image acquisition sensor, eg a CCD or CMOS sensor. Further examples of sensors 1 can be radar, lidar or ultrasonic sensors, localization sensors or V2X systems. The resolution and/or detection ranges of the sensors often differ. Data pre-processing is useful for a fusion, which enables the fusion of features from data from the sensors.
  • An exemplary embodiment which is discussed in more detail below, is the processing of a first image of a camera sensor and a second image of the camera sensor, the second image having (only) a partial area of the first image and a higher resolution compared to the resolution of the first picture.
  • ADAS/AD control unit can be provided by an ADAS/AD control unit as an example for the additional unit 20, e.g , construction site assistance, a highway pilot, a cruising chauffeur function and/or an autopilot.
  • the overall system 10, 20 can include an artificial neural network, for example a CNN. So that the artificial neural network can process the image data in real time, for example in a vehicle, the overall system 10, 20 can include a hardware accelerator for the artificial neural network. Such hardware modules can accelerate the essentially software-implemented neural network in a dedicated manner, so that real-time operation of the neural network is possible.
  • the data processing unit 14 can process the image data in a “stacked” format, ie it is able to read in and process a stack of a plurality of input channels within one computing cycle (clock cycle). In a concrete example, it is possible for a data processing unit 14 to read in four image channels with a resolution of 576 ⁇ 320 pixels.
  • a fusion of at least two image channels would offer the advantage for a later CNN detection that the channels do not have to be processed individually by corresponding CNNs, but channel information or feature maps that have already been fused can be processed by a CNN.
  • Such a fusion can be carried out by a fusion module 16 . The details of the fusion are explained in more detail below with reference to the following figures.
  • the fusion may be implemented in CNN's encoder.
  • the merged data can then be processed by one or more CNN decoders, from which detections or other ADAS/AD-relevant information can be obtained.
  • the encoder in FIG. 1 would be represented by block 10, and the decoder(s) by block 20.
  • the CNN would comprise blocks 10 and 20, hence the term "overall system”.
  • FIGS. 3 to 5 show examples of which images can be captured with a camera sensor.
  • FIG. 3 schematically shows an overview or overall image 300 with high resolution.
  • a scene with a nearby and a more distant road user (304 and 303) on a road 305 or roadway that leads past a house 306 is recorded.
  • the camera sensor is able to capture such an overall image with maximum width, height and resolution (or number of pixels).
  • processing this large amount of data e.g. in the range of 5 to 10 megapixels
  • AD or ADAS system which is why reduced image data is processed further.
  • FIG. 4 schematically shows the overall image or overview image with reduced resolution 401 .
  • Half a resolution reduces the number of pixels by a factor of four.
  • the overview image with reduced resolution 401 is referred to below as wfov-(wide field of view) labeled image.
  • the nearby road user 404 (the vehicle) can also be detected from the wfov image with reduced resolution.
  • the distant road user 403 (the pedestrian) cannot be detected from this wfov image due to the limited resolution.
  • FIG. 5 schematically shows a central image section with high (or maximum) resolution 502.
  • the image section with high resolution 502 is referred to below as the center image.
  • the center image enables the distant pedestrian 503 to be detected.
  • the nearby vehicle 504 is not or almost not (i.e. only to a small extent) contained in the detection range of the center image 502.
  • FIG. 6 shows an alternative arrangement of a first (overview) detection area 601 and a central detection area 602.
  • This central detection area 602 is “below”, i.e. starting vertically at the same height as the overall detection area 601.
  • the position of the central detection area 602 in the horizontal and vertical directions within the overall or overview detection area can be specified by starting values xo, yo.
  • the first image below is a wfov image 701 captured by a front camera of a vehicle.
  • the vehicle is approaching an intersection.
  • a large, possibly multi-lane road runs perpendicular to the direction of travel.
  • a bike path runs parallel to the main road.
  • a traffic light regulates the right of way for road users. Buildings and trees line the street and sidewalks.
  • the central image section 702 is shown bleached out in the wfov image 701 in order to make it clear that this image section as a second image (center image) 7020 with a higher resolution corresponds exactly to this image section 702 of the first image 701 .
  • the second image 7020 is shown above and here it is easier for the human viewer to see that the traffic light for the own vehicle is red indicating that a bus is crossing the intersection from left to right crossed and other details of the captured scene. Because of the higher resolution in the second image 7020, objects or road users that are further away can also be reliably detected by image processing.
  • the image pyramid could have 2304 x 1280 pixels at the highest level for the second (center) image, 1152 x 640 pixels at the second level, 576 x 320 pixels at the third level, 288 x 160 pixels at the fourth level, and 288 x 160 pixels at the fifth level Level 144 x 80 pixels, etc.
  • the image pyramid for the first (wfov) image naturally has more pixels with the same resolution (i.e. on the same level in relation to the center image).
  • the center image is adjusted to the resolution of the wfov image using resolution-reducing operations.
  • the number of channels is typically increased in the feature map of the center image (higher information content per pixel).
  • Resolution-reducing operations are e.g. striding or pooling. With striding, only every second (or fourth or nth) pixel is read out. With pooling, several pixels are combined into one, e.g. with MaxPooling, the maximum value of a pixel pool (e.g. of two pixels or 2x2 pixels) is taken over.
  • each pixel corresponds to an element in an output feature map.
  • 133 zeros per line one for each pixel
  • the channels of the adapted second Output Feature Map element by element correspond to the channels of the can be added to the first output feature map.
  • the starting values xo, yo are determined from the position of the (second) representation of the partial area within the (first) representation of the overview area. They indicate the displacement or extension in the horizontal and vertical directions.
  • Fig. 8 schematically shows a way in which such images (e.g. the first or wfov image 701 and the second or center image 7020 from Fig. 7) can basically be merged:
  • the wfov image is passed as input sensor data to a first convolutional layer c1 of an artificial neural network (e.g. CNN).
  • an artificial neural network e.g. CNN
  • the center image is passed as input sensor data to a second convolution layer c2 of the CNN.
  • Each convolution layer has an activation function and optional pooling.
  • the center image is padded using a 'large' zero-padding ZP region so that the height and width match those of the wfov image while maintaining spatial relation.
  • the area 701 without the central image section 702 i.e. in Fig. 7 below the area from the wfov image 701 that is not shown bleached out - i.e. shown darker
  • the higher resolution of the center image 7020 leads to a higher depth of the (second) feature map that the second convolution layer c2 generates.
  • the height and width of the second feature map corresponds to the height and width of the central image section 702 of the wfov image 701 .
  • An adaptation of the different height and width of the first and second feature map takes place here through the zero padding ZP of the second feature map.
  • the wfov and center image features are concatenated cc.
  • the concatenated features are passed to a third convolution layer c3, which generates the merged feature map.
  • Fig. 9 schematically shows an alternative second way: Wfov and center features are merged via appropriate element-by-element addition (+) (instead of concatenation cc of the two feature maps), with the center image having previously been used for feature extraction by the second convolution layer c2, in turn, the height and width can be adjusted using zero padding ZP.
  • the feature map with the features added element by element is transferred to the third convolution layer c3.
  • Fig. 10 schematically shows an advantageous way:
  • a convolution layer produces a 3-dimensional tensor with Feature layers (channels), n is a natural number
  • a concatenation with a subsequent convolution layer (cf. Fig. 8) is converted into two reduced convolutions ⁇ 34 and ⁇ 3ß with subsequent element-by-element addition (+):
  • a zero-padding ZP with subsequent addition is equivalent to summing up the center features at an adjusted starting position.
  • the center feature map can be written to a larger area previously initialized to zero. The zero padding ZP then takes place implicitly.
  • An activation function / pooling following c3 cannot be split and is applied after addition. In particular, no convolution operations over large padding areas consisting of zeros are calculated.
  • this embodiment offers the following particular advantages: a) an integrated feature consideration of different (image) pyramid levels for optimal overall performance with a large viewing angle/detection area of the sensor using high-resolution ROIs, e.g. for distant objects b) with simultaneous runtime-efficient implementation.
  • FIG. 11 schematically shows a concatenation of two feature maps 1101, 1102, which are processed by a convolution core 1110, resulting in a merged feature map 1130 that can be output.
  • both feature maps 1101, 1102 have an identical width w and height h. Both are shown in simplified form as two rectangular areas.
  • the concatenation means hanging one behind the other "in depth” and is shown schematically in such a way that the second feature map 1102 is spatially arranged behind the first feature map.
  • the convolution kernel 1110 is shown here in a comparable manner with opposite hatching, which is intended to illustrate that a first part, i.e. a "first convolution 2d kernel" shown with thin hatching, samples the first feature map 1101 and a second (shown with thick hatching) convolution 2d kernel the second feature map 1102.
  • the result is a merged output feature map 1130.
  • the merged feature map 1130 can no longer be separated with regard to the first and second feature map 1101, 1102 as a result of the folding.
  • the depth d of a feature map can correspond to the number of channels or depend on the resolution.
  • the first feature map 1201 is sampled by a first convolution 2d kernel 1211, resulting in the first output feature map 1221
  • the second feature map 1202 is sampled by a second convolution 2d kernel 1212, resulting in the second output feature map 1222.
  • a convolution 2d kernel 1211, 1212 can have a dimension of 3 x 3 x “number of input channels” and generates an output layer.
  • the depth of the output feature maps can be defined by the number of convolution 2d kernels 1211 , 1212 .
  • the merged feature map 1230 can be calculated from the two output feature maps 1221, 1222 by element-by-element addition (+).
  • FIG. 13 schematically shows the procedure for merging two feature maps of different width and height—corresponding to the procedure shown in FIG.
  • the first feature map 1301 (calculated from the wfov image) has a larger width w and height h, while the depth d is smaller.
  • the second feature map 1302 (calculated from the high-resolution center image section) has a smaller width w and height h, but a greater depth d.
  • a first convolution 2d kernel 1311 samples the first feature map 1301, resulting in a first output feature map 1321 with an increased depth d.
  • the second feature map is sampled by a second convolution 2d kernel 1312, resulting in the second output feature map 1322 (diagonally hatched cuboid area).
  • the depth d of the second output feature map is identical to the depth of the first output feature map.
  • Starting values in width and height for the adaptation can be determined, for example, from FIG. 6 or FIG. 7 by specifying the position of the central Area 602 or 702 in the entire overview area 601 or 701, for example in the form of start values xo, yo or width and height start values x s , y s derived therefrom of the feature map.
  • the areas missing in the second output feature map 1322 are filled with zeros (zero padding).
  • the second output feature map adapted in this way can now be merged with the first output feature map 1321 simply by element-by-element addition.
  • the feature map 1330 merged in this way is shown in FIG. 13 below.
  • a first step S1 input data from at least one sensor are received.
  • the input sensor data may have been generated by two forward-looking ADAS sensors of a vehicle, e.g., radar and lidar, with partially overlapping coverage.
  • the lidar sensor could have a wide detection range (e.g. greater than 100° or 120° opening angle), which results in an initial representation of the scene.
  • the radar sensor only captures a (central) part of the scene (e.g. less than 90° or 60° detection angle), but can detect objects that are further away, resulting in a second representation of the scene.
  • raw sensor data can be mapped to representations that show a bird's eye view of the road ahead of the vehicle.
  • Representations or also feature maps determined from them can be created, for example, in the form of occupancy grids.
  • Lidar and radar data exist in the overlapping area, only lidar data in the lateral edge areas and only radar data in the far front area.
  • a first feature map is determined from the input data. From the (first) representation of the lidar sensor, the first feature map can be generated with a first height and width (or roadway depth and width in a bird's-eye view).
  • a second feature map is determined from the input data.
  • a second feature map with a second height and width can be generated from the (second) representation of the detection area of the radar sensor.
  • the width of the second feature map is less than that of the first feature map and the height (distance in the direction of travel) of the second feature map is greater than that of the first feature map.
  • a first output feature map is determined on the basis of the first feature map.
  • the first output feature map is calculated by means of a first convolution of the first feature map.
  • a second output feature map is determined on the basis of the second feature map.
  • the second output feature map is calculated by means of a second convolution of the second feature map.
  • the second convolution is limited in height and width to the height and width of the second feature map.
  • a sixth step S6 the different dimensions of the first and second output feature maps are adapted, in particular the height and/or width are adapted.
  • the height of the first output feature map can be increased in such a way that it corresponds to the height of the second output feature map.
  • the width of the second Output Feature Map is increased to match the width of the first Output Feature Map.
  • the newly added areas of the respective (adapted) output feature map due to the enlargement are filled with zeros (zero padding).
  • a template output feature map is first created, the width and height of which result from the height and width of the first and second output feature map and the position of the overlapping area.
  • the Template Output Feature Map is filled with zeros.
  • the Template Output Feature Map has the width of the first Output Feature Map and the height of the second Output Feature Map.
  • start values can be used, which specify the position of the first output feature map in vertical and horizontal direction within the template output feature map.
  • the lidar output feature map spans the entire width of the template output feature map, but an area of large distances is blank.
  • a start value y s can be specified, from which the Template Output Feature Map is "filled".
  • the adapted second Output Feature Map is generated: by inserting the elements of the second Output Feature Map from the appropriate starting position.
  • the radar output feature map is only transmitted from a horizontal starting position x s and extends vertically over the entire height.
  • the adapted first and second output feature maps are merged by adding them element by element.
  • element-by-element addition of the two output feature maps for typical CNN accelerators is immediately possible.
  • the result is the merged feature map.
  • the second Output Feature Map contains the entire overlap area (i.e. a real sub-area of the first Output Feature Map, which includes an overview area - see Fig. 13)
  • an adaptation of the different height and width of the second Output Feature Map can be omitted, in that the element-by-element addition of the second output feature map to the first output feature map is carried out using suitable starting values only in the overlapping area.
  • the height and width of the merged feature map is then identical to the height and width of the first output feature map (see FIG. 13).
  • the merged feature map is output.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)

Abstract

Die Erfindung betrifft ein Verfahren und ein System (10) zum Fusionieren von Daten mindestens eines Sensors (1). Das Verfahren umfasst die Schritte: a) Empfangen von Eingangs-Sensordaten, wobei die Eingangs-Sensordaten umfassen: - eine erste Repräsentation (401, 701), welche einen ersten Bereich (101, 601) einer Szene umfasst, und eine zweite Repräsentation (502, 702), welche einen zweiten Bereich (102, 602) der Szene umfasst, wobei der erste und zweite Bereich einander überlappen, jedoch nicht identisch sind (S1); b) Bestimmen einer ersten Feature Map (1301) mit einer ersten Höhe und Breite auf Basis der ersten Repräsentation (401, 701) (S2) und Bestimmen einer zweiten Feature Map (1302) mit einer zweiten Höhe und Breite auf Basis der zweiten Repräsentation (502, 702) (S3); c) Berechnen einer ersten Output Feature Map (1321) mittels einer ersten Convolution der ersten Feature Map (1301) (S4), und Berechnen einer zweiten Output Feature Map (1322) mittels einer zweiten Convolution der zweiten Feature Map (1302) (S5); und d) Berechnen einer fusionierten Feature Map (1330) durch elementweises Addieren der ersten und der zweiten Output Feature Map (1321, 1322), wobei die Lage des ersten und des zweiten Bereichs zueinander berücksichtigt wird, so dass die Elemente im Überlappungsbereich addiert werden (S7) und e) Ausgeben der fusionierten Feature Map (1330) (S8). Das Verfahren ist sehr laufzeiteffizient und kann zur Fusion von Daten eines oder mehrerer Umfeldsensoren für ein ADAS/AD-System eines Fahrzeugs eingesetzt werden.

Description

Beschreibung
Verfahren zum Fusionieren von Sensordaten im Kontext eines künstlichen neuronalen Netzwerks
Die Erfindung betrifft ein Verfahren und ein System zum Fusionieren von Sensordaten, beispielsweise in einem umfeldsensorbasierten ADAS/AD-System für ein Fahrzeug im Kontext eines künstlichen neuronalen Netzwerks.
Bei Umfeldsensoren für ADAS/AD-Systeme (insbesondere Kamerasensoren) wird die Auflösung permanent gesteigert. Das erlaubt die Erkennung kleinerer Objekte, sowie die Erkennung von Unterobjekten und z.B. das Lesen von kleinem Text in großer Entfernung. Ein Nachteil der höheren Auflösung liegt in der erforderlichen deutlich höheren Rechenleistung für die Verarbeitung der entsprechend großen Sensordaten. Daher werden häufig verschiedene Auflösungsstufen von Sensordaten für die Verarbeitung benutzt. Große Reichweiten bzw. hohe Auflösungen werden z.B. häufig im Bildzentrum benötigt, am Randbereich dagegen nicht (ähnlich wie beim menschlichen Auge).
DE 102015208889 A1 zeigt eine Kameravorrichtung zum Abbilden eines Umfeldes für ein Kraftfahrzeug mit einer Bildsensoreinrichtung zur Aufnahme eines Pixelbildes und einer Prozessoreinrichtung, die dazu ausgelegt ist, benachbarte Pixel des Pixelbildes in einem angepassten Pixelbild zusammenzufassen.
Unterschiedliche angepasste Pixelbilder können in unterschiedlichen Auflösungen generiert werden durch ein Zusammenfassen der Pixelwerte der benachbarten Pixel in Form einer 2-x-2 Bild-Pyramide oder einer n- -n Bild-Pyramide.
US 10742907 B2 und US 10757330 B2 zeigen Fahrerassistenzsysteme mit einer Aufnahme von Bildern mit variablen Auflösungen.
US 10798319 B2 beschreibt eine Kameravorrichtung zur Erfassung eines Umgebungsbereichs eines eigenen Fahrzeugs mit einer Weitwinkeloptik und einem hochauflösenden Bildaufnahmesensor. Für ein Bild der Bildfolge kann ein mittels Pixelbinnings auflösungsreduziertes Bild des gesamten Erfassungsbereichs der oder ein Teilbereich des Erfassungsbereichs mit maximaler Auflösung erfasst werden. Technologien, die künstliche neuronale Netzwerke einsetzen, werden immer häufiger in umfeldsensorbasierten ADAS/AD-Systemen verwendet, um die Straßenteilnehmer und die Szene besser zu erkennen, klassifizieren und zumindest teilweise verstehen zu können. Tiefe neuronalen Netze, wie z.B. ein CNN (Convolutional neural network, auf Deutsch etwa „faltungsbasiertes neuronales Netzwerk“ oder „Faltungsnetzwerk“), haben dabei eindeutige Vorteile gegenüber klassischen Methoden. Klassische Methoden verwenden eher handgefertigte Merkmale (Histogram of oriented Gradients, Local Binary Patterns, Gabor Filter usw.) mit angelernten Klassifikatoren wie Support Vector Machines oder AdaBoost. Bei (mehrstufigen) CNNs wird die Merkmalextraktion algorithmisch durch maschinelles (tiefes) Lernen erzielt und dadurch wird die Dimensionalität und Tiefe des Merkmalsraums deutlich erhöht, was letztendlich zu einer deutlich besseren Performance z.B. in Form einer erhöhten Erkennungsrate führt.
Eine Herausforderung stellt die Verarbeitung, insbesondere bei einer Zusammenführung von Sensordaten mit unterschiedlichem, auch überlappendem, Erfassungsbereich und unterschiedlicher Auflösung dar.
EP 3686798 A1 zeigt ein CNN-basiertes Verfahren zum Lernen von Parametern eines Objektdetektors. In einem Kamerabild werden Objektregionen geschätzt und aus unterschiedlichen Bildpyramidenstufen Ausschnitte dieser Regionen erzeugt. Die Ausschnitte weisen z.B. eine identische Höhe auf und werden mittels „Zero Padding“ (Nullbereichen) seitlich aufgefüllt und konkateniert (englisch: concatenated, miteinander verkettet). Diese Form der Konkatenierung kann salopp als eine Art Collage beschrieben werden: die Ausschnitte identischer Höhe werden „nebeneinander geklebt“. Das generierte synthetische Bild ist somit aus unterschiedlichen Auflösungsstufen von Bereichen desselben ursprünglichen Kamerabildes zusammengesetzt. Das CNN wird dahingehend trainiert, dass der Objektdetektor Objekte anhand des synthetischen Bildes detektiert und ist dadurch in der Lage auch weiter entfernte Objekte zu detektieren.
Ein Vorteil einer solchen Vorgehensweise gegenüber einer separaten Verarbeitung der einzelnen Bildbereiche mittels eines CNNs nacheinander ist, dass die Gewichte für das synthetische Bild nur einmal geladen werden müssen.
Nachteilig ist hierbei, dass die Bildbereiche im synthetischen Bild nebeneinander und insbesondere unabhängig voneinander durch das CNN mit dem Objektdetektor betrachtet werden. Im Überlappungsbereich befindliche Objekte, die in einem Bildbereich möglicherweise unvollständig enthalten sind, müssen in nichttrivialer Weise als zu ein und demselben Objekt gehörig identifiziert werden.
Es ist eine Aufgabe der Erfindung, eine verbesserte Sensordatenfusionsmethode im Kontext eines künstlichen neuronalen Netzwerks bereitzustellen, die Eingangssensordaten mit unterschiedlichem Erfassungsbereich und unterschiedlicher Auflösung effizient fusioniert und für eine anschließende Prozessierung bereitstellt.
Ein Aspekt der Erfindung betrifft eine effiziente Umsetzung einer Objekterkennung auf Eingangsdaten mindestens eines Bilderfassungssensors, die a) einen großen Bildbereich erfasst b) relevante Bildberichte, wie beispielsweise entfernte Objekte in Zentrum des Bildes, hochaufgelöst erfasst.
Bei der Entwicklung der Lösung werden folgende Überlegungen vorangestellt.
Zur Verwendung mehrerer Stufen einer Bildpyramide in einem neuronalen Netz könnte eine separate Verarbeitung eines geringer aufgelösten Übersichtsbildes und eine höher aufgelösten zentralen Bildausschnitts durch zwei unabhängige Inferenzen (zwei jeweils dafür trainierte CNNs) erfolgen.
Dies bedeutet einen großen Rechen- /Laufzeitaufwand. Unter anderem müssen Gewichte der trainierten CNNs für die unterschiedlichen Bilder neu geladen werden. Features verschiedener Pyramidenstufen werden nicht kombiniert betrachtet.
Alternativ könnte die Prozessierung wie bei EP 3686798 A1 für ein aus verschiedenen Auflösungsstufen zusammengesetztes Bild erfolgen. Es würde also ein zusammengesetztes Bild aus verschiedenen Teilbildern/Auflösungsstufen generieren und eine Inferenz bzw. ein trainiertes CNN drüber laufen gelassen. Das kann etwas effizienter sein, da jedes Gewicht nur einmal für alle Bilder geladen wird und nicht für jedes Teilbild neu. Die restlichen Nachteile wie die fehlender Kombination von Features unterschiedlicher Auflösungsstufen bleiben aber bestehen. Das Verfahren zum Fusionieren von Sensordaten umfasst die Schritte: a) Empfangen von Eingangs-Sensordaten, wobei die Eingangs-Sensordaten umfassen
- eine erste Repräsentation, welche einen ersten Bereich einer Szene umfasst, und
- eine zweite Repräsentation, welche einen zweiten Bereich der Szene umfasst, wobei der erste und zweite Bereich einander überlappen, jedoch nicht identisch sind. b) Bestimmen einer ersten Feature Map mit einer ersten Höhe und Breite auf Basis der ersten Repräsentation und Bestimmen einer zweiten Feature Map mit einer zweiten Höhe und Breite auf Basis der zweiten Repräsentation. c) Berechnen einer ersten Output Feature Map mittels einer ersten Convolution der ersten Feature Map, und Berechnen einer zweiten Output Feature Map mittels einer zweiten Convolution der zweiten Feature Map. d) Berechnen einer fusionierten Feature Map durch elementweises Addieren der ersten und der zweiten Output Feature Map, wobei die Lage des ersten und des zweiten Bereichs zueinander berücksichtigt wird, so dass die Elemente (der ersten und zweiten Output Feature Map) im Überlappungsbereich addiert werden; und e) Ausgeben der fusionierten Feature Map.
Eine Repräsentation kann beispielsweise eine zweidimensionale Repräsentation einer Szene sein, die von einem Sensor erfasst wird. Die Repräsentation kann beispielsweise ein Grid (Gitter), eine Karte oder ein Bild sein.
Eine Punktwolke oder eine Tiefenkarte sind Beispiele von dreidimensionalen Repräsentationen, die z.B. ein Lidarsensor oder eine Stereokamera als Sensor erfassen können. Eine dreidimensionale Repräsentation kann für viele Zwecke in eine zweidimensionale Repräsentation überführt werden, z.B. durch einen ebenen Schnitt oder eine Projektion.
Eine Feature Map (Merkmalskarte) kann durch eine Convolution (Faltung) bzw. einen Convolutional Layer/Faltungslayer/Faltungskern/Faltungskernel aus einer Repräsentation oder einer anderen (bereits existierenden) Feature Map bestimmt werden. Die Höhe und Breite einer Feature Map hängt mit der Höhe und Breite der zugrundeliegenden Repräsentation (bzw. eingehenden Feature Map) und der Operation zusammen.
Die Lage des ersten und zweiten Bereichs zueinander wird insbesondere berücksichtigt, um für die Fusion die passenden Elemente der ersten und zweiten Output Feature Map zu addieren. Die Lage des Überlappungsbereichs kann durch Startwerte (xs, ys) definiert werden, die beispielsweise die Lage der zweiten Output Feature Map in vertikaler und horizontaler Richtung innerhalb der fusionierten Feature Map angeben. Im Überlappungsbereich werden die Elemente der ersten und der zweiten Output Feature Map addiert. Außerhalb des Überlappungsbereichs können die Elemente der Output Feature Map in die fusionierte Feature Map übertragen werden, die diesen Bereich abdeckt. Sofern keine der beiden Output Feature Maps einen Bereich der fusionierten Feature Map abdeckt, kann dieser mit Null befüllt werden.
Das Verfahren wird z.B. im Kontext eines künstlichen neuronalen Netzwerks, vorzugsweise eines Convolutional Neural Networks (CNN) durchgeführt.
Für ADAS/AD Funktionalitäten wird häufig (vor allem perzeptionsseitig) mindestens ein künstliches neuronales Netzwerk bzw. CNN eingesetzt, welches mittels einem maschinellen Lernverfahren dazu trainiert wird, Sensor-Eingangsdaten für die ADAS/AD Funktionalität relevante Ausgangsdaten zuzuordnen. ADAS steht für fortschrittliche Systeme zum assistierten Fahren und AD steht für automatisiertes Fahren (Englisch: Advanced Driver Assistance Systems bzw. Automated Driving).
Das trainierte künstliche Neuronale Netzwerk kann auf einem Prozessor eines ADAS/AD Steuergeräts in einem Fahrzeug implementiert sein. Der Prozessor kann zur Auswertung von Sensordaten durch das trainierte künstliche neuronale Netzwerk (Inferenz) konfiguriert sein. Der Prozessor kann einen Hardware-Beschleuniger für das künstliche neuronale Netzwerk umfassen.
Der Prozessor bzw. die Inferenz kann beispielsweise dazu konfiguriert sein, um aus Eingangs-Sensordaten eines oder mehrerer Umfeldsensors/-en ADAS/AD relevante Informationen zu detektieren bzw. näher zu bestimmen. Relevante Informationen sind z.B. Objekte und/oder Umgebungsinformationen für ein ADAS/AD-System bzw. ein ADAS/AD-Steuergerät. ADAS/AD-relevante Objekte und/oder Umgebungsinformationen sind z.B. Gegenstände, Markierungen, Verkehrsschilder, Verkehrsteilnehmer sowie Abstände, Relativgeschwindigkeiten von Objekten etc., die für ADAS/AD-Systeme wichtige Eingangsgrößen darstellen. Beispiele für Funktionen zur Detektion relevanter Informationen sind eine Fahrspurerkennung, eine Objekterkennung, eine Tiefenerkennung (3D-Schätzung der Bildbestandteile), semantische Erkennung, Verkehrszeichenerkennung oder dergleichen mehr.
In einer Ausführungsform weisen die erste und die zweite Output Feature Map im Überlappungsbereich dieselbe Höhe und Breite auf. Mit anderen Worten sind benachbarte Elemente im Überlappungsbereich der Output Feature Maps im realen Raum gleich weit voneinander entfernt. Dies kann deshalb der Fall sein, da bereits die erste und zweite Feature Map im Überlappungsbereich dieselbe Höhe und Breite aufweisen. Beispielsweise weisen (auch) die erste und zweite Repräsentation im Überlappungsbereich dieselbe Höhe und Breite auf.
Gemäß einem Ausführungsbeispiel sind Höhe und Breite der fusionierten Feature Map durch das Rechteck bestimmt sind, welches die erste und die zweite Output Feature Map umschließt (genau einschließt).
In einer Ausführungsform ist der erste Bereich ein Übersichtsbereich der Szene und der zweite Bereich ein Teilbereich des Übersichtsbereichs der Szene. Der Übersichtsbereich, der in der ersten Repräsentation enthalten ist, kann einem Gesamtbereich, also einem maximalen Erfassungsbereich des Sensors entsprechen. Der Teilbereich der Szene, der in der zweiten Repräsentation enthalten ist, kann einer Region-of-interest (ROI) entsprechen, die auch in der ersten Repräsentation enthalten ist.
Gemäß einem Ausführungsbeispiel hat die erste Repräsentation eine erste Auflösung und die zweite Repräsentation eine zweite Auflösung. Die zweite Auflösung ist beispielsweise höher als die erste Auflösung. Die Auflösung der zweiten Repräsentation kann der maximalen Auflösung eines Sensors entsprechen. Beispielsweise kann die höhere Auflösung mehr Details über einen Teilbereich bzw. eine ROI bieten, welche(r) Inhalt der zweiten Repräsentation ist. Die Auflösung einer Repräsentation kann einer Genauigkeit oder einer Datentiefe entsprechen, z.B. einem minimalen Abstand zwischen zwei benachbarten Datenpunkten eines Sensors.
In einer Ausführungsform können, nachdem die Höhe und Breite der fusionierten Feature Map durch das Rechteck bestimmt worden sind, welches die erste und die zweite Output Feature Map umschließt (genau einschließt), die erste und/oder zweite Output Feature Map so vergrößert bzw. adaptiert werden, dass sie die Breite und Höhe der fusionierten Feature Map erlangen und die Lage von erster und zweiter Output Feature Map zueinander erhalten bleibt. Bei beiden adaptierten Output Feature Maps ist der Überlappungsbereich an derselben Position. Die durch die Vergrößerung neu hinzugekommenen Bereiche der jeweiligen (adaptierten) Output Feature Map werden mit Nullen aufgefüllt (Zero Padding). Die beiden adaptierten Output Feature Maps können anschließend elementweise addiert werden.
Gemäß einem Ausführungsbeispiel wird zunächst eine Template (Vorlage) Output Feature Map erstellt, deren Breite und Höhe sich aus der Höhe und Breite von erster und zweiter Output Feature Map und der Lage des Überlappungsbereichs ergibt (vgl. letzter Abschnitt: umschließendes Rechteck). Die Template Output Feature Map ist mit Nullen befüllt.
Für die adaptierte erste Output Feature Map werden die Elemente aus der ersten Output Feature Map in dem Bereich übernommen, den die erste Output Feature Map abdeckt. Dazu können Startwerte verwendet werden, die die Lage der ersten Output Feature Map in vertikaler und horizontaler Richtung innerhalb der Template Output Feature Map angeben. Entsprechend wird die adaptierte zweite Output Feature Map gebildet. Die beiden adaptierten Output Feature Maps können anschließend wiederum elementweise addiert werden.
In einer Ausführungsform für den Spezialfall, dass die zweite Output Feature Map den gesamten Überlappungsbereich enthält (also einen echten Teilbereich der ersten Output Feature Map, die einen Übersichtsbereich umfasst), kann eine Adaption der unterschiedlichen Höhe und Breite der zweiten Output Feature Map entfallen. In diesem Fall muss auch die erste Output Feature Map nicht adaptiert werden, denn die fusionierte Feature Map wird dieselbe Höhe und Breite wie die erste Output Feature Map aufweisen. In diesem Fall kann die elementweise Addition der zweiten Output Feature Map zur ersten Output Feature Map mittels geeigneter Startwerten nur im Überlappungsbereich durchgeführt werden. Die Startwerte geben innerhalb der ersten Output Feature Map vor, ab wo (nämlich im Überlappungsbereich) die Elemente der zweiten Output Feature Map zu den Elementen der ersten Output Feature Map addiert werden, um die fusionierte Feature Map zu erzeugen.
In einer Ausführungsform weisen die Feature Maps eine Tiefe auf, die von der Auflösung der Repräsentation abhängen. Eine höher aufgelöste Repräsentation (z.B. Bildausschnitt) entspricht einer Feature Map mit größerer Tiefe, z.B. enthält die Feature Map mehr Kanäle.
Beispielsweise kann ein Prozessor einen Hardware-Beschleuniger für das künstliche Neuronale Netzwerk umfassen, der einen Stapel (Englisch: stack) von mehreren Sensorkanaldaten-“Paketen“ während eines Taktzyklus bzw.
Rechenzyklus (Englisch: clock cycle) weiterverarbeiten kann. Die Sensordaten bzw. Repräsentationen bzw. Feature- (Map-) Schichten können als gestapelte Sensorkanaldatenpakete am Hardware-Beschleuniger eingespeist werden.
Gemäß einem Ausführungsbeispiel erfolgt eine Detektion von ADAS/AD relevanten Features anhand der fusionierten Feature Map.
In einer Ausführungsform wird das Verfahren in einem Hardware-Beschleuniger für ein künstliches neuronale Netzwerk bzw. CNN implementiert.
Gemäß einem Ausführungsbeispiel wird die fusionierte Feature Map in einem Encoder eines künstlichen neuronalen Netzwerks bzw. CNN erzeugt, welches zur Bestimmung ADAS/AD relevanter Informationen eingerichtet bzw. trainiert ist. In einer Ausführungsform umfasst das künstliche neuronale Netzwerk bzw. CNN, welches zur Bestimmung ADAS/AD relevanter Informationen eingerichtet bzw. trainiert ist, mehrere Decoder für unterschiedliche ADAS/AD Detektionsfunktionen. In einer Ausführungsform umfasst oder enthält eine Repräsentation (einer Szene) Bilddaten eines Bilderfassungssensors. Der Bilderfassungssensor kann ein oder mehrere Vertreter aus der folgenden Gruppe umfassen: eine monokulare Kamera, insbesondere mit weitwinkligem Erfassungsbereich (z.B. mindestens 100°) und hoher maximaler Auflösung (z.B. mindestens 5 Megapixeln), eine Stereokamera, Satellitenkameras, Einzelkameras eines Rundumsichtsystems, Lidarsensoren, Laserscanner oder sonstige 3D-Kameras.
Gemäß einem Ausführungsbeispiel umfassen die erste und zweite Repräsentation Bilddaten mindestens eines Bilderfassungssensors.
In einer Ausführungsform ist der (einzige) Bilderfassungssensor eine monokulare Kamera. Es kann sowohl die erste als auch die zweite Repräsentation durch den(-selben) Bilderfassungssensor bereitgestellt werden. Die erste Repräsentation (bzw. das erste Bild) kann einem weitwinklig erfassten Übersichtsbild mit reduzierter Auflösung und die zweite Repräsentation (bzw. das zweite Bild) einem Teilbild mit höherer Auflösung entsprechen.
Gemäß einem Ausführungsbeispiel entsprechen erstes und zweites Bild unterschiedlichen Bildpyramidenstufen eines von einem Bilderfassungssensor erfassten Bildes.
Die Eingangs-Sensordaten also die Eingangs-Bilddaten können je nach Auflösung in mehrere Kanäle kodiert sein bzw. kodiert werden. Beispielsweise weist jeder Kanal dieselbe Höhe und Breite auf.
Innerhalb jedes Kanals kann dabei die räumliche Beziehung der enthaltenen Pixel aufrechterhalten werden. Für Details hierzu wird auf die DE 102020204840 A1 verwiesen, deren Inhalt vollumfänglich in diese Anmeldung mit aufgenommen wird.
In einer Ausführungsform werden als Bilderfassungssensor(en) zwei monokulare Kameras mit überlappendem Erfassungsbereich eingesetzt. Die zwei monokularen Kameras können Bestandteil einer Stereokamera sein. Die zwei monokularen Kameras können unterschiedliche Öffnungswinkel und/oder Auflösungen aufweisen („hybride Stereokamera“). Die beiden monokularen Kameras können Satellitenkameras sein, die unabhängig voneinander am Fahrzeug befestigt sind.
Gemäß einem Ausführungsbeispiel werden als Bilderfassungssensoren mehrere Kameras eine Rundumsichtkamerasystems eingesetzt. Beispielsweise können vier monokulare Kameras mit Fischaugenoptik (Erfassungswinkel von z.B. 180° und mehr), die Umgebung eines Fahrzeugs vollständig erfassen. Je zwei benachbarte Kameras weisen einen Überlappungsbereich von ca. 90° auf. Hier ist es möglich, aus den vier Einzelbildern (vier Repräsentationen) eine fusionierte Feature Map für die 360° Umgebung des Fahrzeugs zu erstellen.
Ein weiterer Aspekt der Erfindung betrifft ein System bzw. eine Vorrichtung zum Fusionieren von Sensordaten. Die Vorrichtung umfasst eine Eingangsschnittstelle, eine Datenverarbeitungseinheit und eine Ausgabeschnittstelle.
Die Eingangsschnittstelle ist konfiguriert zum Empfangen von Eingangs-Sensordaten. Die Eingangs-Sensordaten umfassen eine erste und eine zweite Repräsentation. Die erste Repräsentation umfasst bzw. enthält einen ersten Bereich einer Szene.
Die zweite Repräsentation enthält einen zweiten Bereich der Szene. Der erste und der zweite Bereich überlappen einander. Der erste und der zweite Bereich sind nicht identisch.
Die Datenverarbeitungseinheit ist zum Durchführen der folgenden Schritte b) bis d) konfiguriert: b) Bestimmen einer ersten Feature Map mit einer ersten Höhe und Breite auf Basis der ersten Repräsentation und Bestimmen einer zweiten Feature Map mit einer zweiten Höhe und Breite auf Basis der zweiten Repräsentation. c) Berechnen einer ersten Output Feature Map mittels einer ersten Convolution der ersten Feature Map, und Berechnen einer zweiten Output Feature Map mittels einer zweiten Convolution der zweiten Feature Map. d) Berechnen einer fusionierten Feature Map durch elementweises Addieren der ersten und der zweiten Output Feature Map. Die Lage des ersten und des zweiten Bereichs zueinander wird bei der elementweisen Addition berücksichtigt, so dass die Elemente (der ersten und zweiten Output Feature Map) im Überlappungsbereich addiert werden.
Die Ausgabeschnittstelle ist konfiguriert zum Ausgeben der fusionierten Feature Map.
Die Ausgabe kann an ein nachgeordnetes ADAS/AD-System erfolgen oder an nachgelagerte Schichten eines „großen“ ADAS/AD-CNN oder weiterer künstlicher neuronaler Netzwerke.
Gemäß einem Ausführungsbeispiel umfasst das System einen CNN-Hardwarebeschleuniger. Die Eingangsschnittstelle, die Datenverarbeitungseinheit und die Ausgabeschnittstelle sind in dem CNN-Hardwarebeschleuniger implementiert.
In einer Ausführungsform umfasst das System ein Convolutional Neural Network mit einem Encoder. Die Eingangsschnittstelle, die Datenverarbeitungseinheit und die Ausgabeschnittstelle sind im Encoder implementiert, so dass der Encoder dazu konfiguriert ist, die fusionierte Feature Map zu erzeugen.
Gemäß einem Ausführungsbeispiel umfasst das Convolutional Neural Network mehrere Decoder. Die Decoder sind dazu konfiguriert, unterschiedliche ADAS/AD- Detektionsfunktionen zumindest auf Basis der fusionierten Feature Map zu realisieren. Mehrere Decoder des CNN können sich also der durch einen gemeinsamen Encoder codierten Eingangs-Sensordaten bedienen.
Unterschiedliche ADAS/AD-Detektionsfunktionen sind beispielsweise eine semantischen Segmentierung der Repräsentation(en), eine Freiraumerkennung, eine Fahrspurdetektion, eine Objektdetektion oder eine Objektklassifikation.
In einer Ausführungsform umfasst das System ein ADAS/AD-Steuergerät, wobei das ADAD/AD-Steuergerät dazu konfiguriert ist, ADAS/AD-Funktionen zu realisieren zumindest auf Basis der Ergebnisse der ADAS/AD-Detektionsfunktionen.
Das System kann den mindestens einen Sensor umfassen. Als Sensor(en) kann beispielsweise ein oder mehrere Kamera-, Radar-, Lidar-, Ultraschallsensor(en), ein Lokalisierungssensor und/oder ein V2X-System (Vehicle-to-X, also ein Telematiksystem) verwendet werden.
Ein weiterer Aspekt der Erfindung betrifft ein Fahrzeug mit mindestens einem Sensor und einem entsprechenden System zum Fusionieren von Sensordaten.
Das System bzw. die Datenverarbeitungseinheit kann insbesondere einen Mikrocontroller oder -Prozessor, eine Zentrale Verarbeitungseinheit (CPU, central processing unit), eine Grafische Verarbeitungseinheit (GPU, graphics processing unit), eine Tensor-Verarbeitungseinheit (TPU, tensor processing unit), eine neuronale/KI- Verarbeitungseinheit (NPU, neural processing unit) einen Digital Signal Processor (DSP), einen ASIC (Application Specific Integrated Circuit), einen FPGA (Field Programmable Gate Array) und dergleichen mehr sowie Software zur Durchführung der entsprechenden Verfahrensschritte umfassen.
Gemäß einer Ausführungsform ist das System bzw. die Datenverarbeitungseinheit in eine hardwarebasierte Sensordatenvorverarbeitungsstufe (z.B. einen Bildsignalprozessor, Image Signal Processor, ISP) implementiert.
Die Erfindung betrifft weiterhin ein Computer Programmelement bzw.
Programm produkt, welches, wenn damit ein Prozessor eines Systems zur Datenfusion programmiert wird, den Prozessor dazu anweist, ein entsprechendes Verfahren zur Fusion von Eingangs-Sensordaten durchzuführen.
Die Erfindung betrifft weiterhin ein Computerlesbares Speichermedium, auf dem ein solches Programmelement gespeichert ist.
Die vorliegende Erfindung kann somit in digitalen elektronischen Schaltkreisen, Computer-Hardware, Firmware oder Software implementiert sein.
Im Folgenden werden Ausführungsbeispiele und Figuren im Kontext der Erfindung beschrieben.
Dabei zeigen: Fig. 1 ein System zum Fusionieren von Daten mindestens eines Sensors;
Fig. 2 Ausdehnung und Lage eines ersten und zweiten Erfassungsbereichs eines Sensors oder zweier verschiedener Sensoren, aus denen eine erste und zweite Repräsentation einer Szene ermittelt werden kann;
Fig. 3 ein Gesamtbild mit hoher Auflösung;
Fig. 4 das Gesamtbild bzw. Übersichtsbild mit reduzierter Auflösung;
Fig. 5 einen zentralen Bildausschnitt mit hoher Auflösung;
Fig. 6 eine alternative Anordnung eines ersten (Übersichts-) Erfassungsbereichs und eines zweiten zentralen Erfassungsbereichs;
Fig. 7 ein Beispiel, wie entsprechende digitale Bilder als Graustufenbild aussehen; Fig. 8 einen Weg, wie derartige Bilder grundsätzlich fusioniert werden können;
Fig. 9 einen alternativen zweiten Weg zur Fusion;
Fig. 10 einen vorteilhaften dritten Weg zur Fusion;
Fig. 11 eine Konkatenierung zweier Feature Maps, die anschließend von einem Faltungskern verarbeitet (und dadurch fusioniert) werden;
Fig. 12 einen alternativen Ablauf, bei dem zwei Feature Maps von zwei separaten Faltungskernen verarbeitet werden und anschließend eine elementweise Addition erfolgt;
Fig. 13 einen Ablauf zur Fusion zweier Feature Maps unterschiedlicher Breite und Höhe; und
Fig. 14 einen möglichen Verfahrensablauf.
Fig. 1 zeigt schematisch ein System 10 zum Fusionieren von Daten mindestens eines Sensors 1 mit einer Eingangsschnittstelle 12, einer Datenverarbeitungseinheit 14 mit einem Fusionsmodul 16 und einer Ausgabeschnittstelle 18 zum Ausgeben von fusionierten Daten an eine weitere Einheit 20.
Ein Beispiel eines Sensors 1 ist ein Kamerasensor mit einer Weitwinkeloptik und einem hochauflösenden Bilderfassungssensor, z.B. einem CCD oder CMOS-Sensor. Weitere Beispiele für Sensoren 1 können Radar-, Lidar- oder Ultraschallsensoren, Lokalisierungssensoren oder V2X-Systeme sein. Häufig unterscheiden sich Auflösung und/oder Erfassungsbereiche der Sensoren. Für eine Fusion ist eine Datenvorverarbeitung nützlich, die die Fusion von Merkmalen aus Daten der Sensoren ermöglicht.
Ein Ausführungsbeispiel, auf das im Folgenden näher eingegangen wird, sind die Verarbeitung von einem ersten Bild eines Kamerasensors und einem zweiten Bild des Kamerasensors, wobei das zweite Bild (nur) einen Teilbereich des ersten Bildes aufweist und eine höhere Auflösung verglichen mit der Auflösung des ersten Bildes. Basierend auf den Bilddaten des Kamerasensors können mehrere ADAS- oder AD-Funktionen durch ein ADAS/AD-Steuergerät als Beispiel für die weitere Einheit 20 bereitgestellt werden, z.B. eine Fahrspurerkennung, Spurhalteunterstützung, Verkehrszeichenerkennung, Tempolimit-Assistenz, Verkehrsteilnehmererkennung, Kollisionswarnung, Notbremsassistenz, Abstandsfolgeregelung, Baustellenassistenz, ein Autobahnpilot, eine Cruising-Chauffeurfunktion und/oder ein Autopilot.
Das Gesamtsystem 10, 20 kann ein künstliches neuronales Netzwerk umfassen, beispielsweise ein CNN. Damit das künstliche neuronale Netzwerk die Bilddaten beispielsweise in einem Fahrzeug in Echtzeit prozessieren kann, kann das Gesamtsystem 10, 20 einen Hardwarebeschleuniger für das künstliche neuronale Netzwerk umfassen. Derartige Hardwarebausteine können das im Wesentlichen softwareimplementierte neuronale Netzwerk dediziert beschleunigen, so dass ein Echtzeitbetrieb des neuronalen Netzwerks möglich ist.
Die Datenverarbeitungseinheit 14 kann die Bilddaten in einem „gestapelten“ Format verarbeiten, ist also in der Lage einen Stapel (Stack) von mehreren Eingangskanälen innerhalb eines Rechenzyklus (clock cycle) einzulesen und zu verarbeiten. In einem konkreten Beispiel ist es einer Datenverarbeitungseinheit 14 möglich, vier Bildkanäle einer Auflösung von 576 x 320 Pixeln einzulesen.
Eine Fusion von mindestens zwei Bildkanälen würde für eine spätere CNN-Detektion den Vorteil bieten, dass die Kanäle nicht einzeln durch entsprechende CNNs prozessiert werden müssen, sondern bereits fusionierte Kanalinformationen bzw. Feature Maps durch ein CNN prozessiert werden können. Eine solche Fusion kann durch ein Fusionsmodul 16 erfolgen. Die Details der Fusion werden anhand der nachfolgenden Figuren weiter unten näher erläutert.
Die Fusion kann im Encoder des CNN implementiert sein. Die fusionierten Daten können anschließend von einem oder mehreren Decodern des CNN prozessiert werden, woraus Detektionen oder sonstige ADAS/AD relevante Informationen gewonnen werden. Im Falle einer solchen Aufteilung wäre der Encoder in Fig. 1 durch den Block 10 repräsentiert, der bzw. die Decoder durch den Block 20. Das CNN würde die Blöcke 10 und 20 umfassen, daher die Bezeichnung „Gesamtsystem“.
Fig. 2 zeigt schematisch Ausdehnung und Lage eines ersten 101 und zweiten 102 Erfassungsbereichs eines Sensors oder zweier verschiedener Sensoren, aus denen eine erste und zweite Repräsentation einer Szene ermittelt werden kann. Bei einem Kamerasensor entspricht dies einem ersten Bilderfassungsbereichs 101 , zu dem ein Übersichts- oder Gesamtbild als erste Repräsentation erfasst werden kann und einem zweiten Bilderfassungsbereich 102, z.B. einen zentralen Bildbereich für die zweite Repräsentation, der einen Ausschnitt des ersten Bilderfassungsbereichs 101 enthält. Die Fig. 3 bis 5 zeigen Beispiele, welche Bilder mit einem Kamerasensor erfasst werden können.
Fig. 3 zeigt schematisch ein Übersichts- bzw. Gesamtbild 300 mit hoher Auflösung. Erfasst ist eine Szene mit einem nahen und einem weiter entferntem Verkehrsteilnehmer (304 und 303) auf einer Straße 305 bzw. Fahrbahn, die an einem Haus 306 vorbeiführt. Der Kamerasensor ist in der Lage ein solches Gesamtbild mit maximaler Breite, Höhe und Auflösung (bzw. Pixelzahl) zu erfassen. Die Verarbeitung dieser hohen Datenmenge (z.B. im Bereich von 5 bis 10 Megapixeln) ist jedoch in Echtzeit in einem AD- oder ADAS System typischerweise nicht möglich, weshalb reduzierte Bilddaten weiterverabeitet werden.
Fig. 4 zeigt schematisch das Gesamtbild bzw. Übersichtsbild mit reduzierter Auflösung 401 . Eine halbe Auflösung reduziert die Pixelzahl um einen Faktor vier. Das Übersichtsbild mit reduzierter Auflösung 401 wird im Folgenden als wfov- (wide field of view) Bild bezeichnet. Der nahe Verkehrsteilnehmer 404 (das Fahrzeug) kann auch bei reduzierter Auflösung aus dem wfov-Bild detektiert werden.
Der entfernte Verkehrsteilnehmer 403 (der Fußgänger) ist jedoch aufgrund der begrenzten Auflösung aus diesem wfov-Bild nicht detektierbar.
Fig. 5 zeigt schematisch einen zentralen Bildausschnitt mit hoher (bzw. maximaler) Auflösung 502. Der Bildausschnitt mit hoher Auflösung 502 wird im Folgenden als center-Bild bezeichnet.
Das center-Bild ermöglicht aufgrund der hohen Auflösung die Detektion des entfernten Fußgängers 503. Dagegen ist das nahegelegene Fahrzeug 504 nicht oder fast nicht (d.h. nur zu einem geringen Teil) im Erfassungsbereich des center-Bildes 502 enthalten.
Fig. 6 zeigt eine alternative Anordnung eines ersten (Übersichts-) Erfassungsbereichs 601 und eines zentralen Erfassungsbereichs 602. Dieser zentrale Erfassungsbereich 602 liegt „unten“, d.h. vertikal beginnend auf derselben Höhe wie der Gesamterfassungsbereich 601 . Durch Startwerte xo, yo kann die Lage des zentralen Erfassungsbereichs 602 in horizontaler und vertikaler Richtung innerhalb des Gesamt- bzw. Übersichtserfassungsbereichs angeben werden.
Fig. 7 zeigt ein Beispiel, wie entsprechende digitale Bilder als Graustufenbild aussehen könnten. Unten ist als erstes Bild ein wfov-Bild 701 zu sehen, das eine Frontkamera eines Fahrzeugs erfasst hat. Das Fahrzeug fährt auf eine Straßenkreuzung zu. Senkrecht zur Fahrtrichtung verläuft eine große, möglicherweise mehrspurige, Straße. Parallel zu der großen Straße verläuft ein Radweg. Eine Ampel regelt die Vorfahrtsberechtigung der Verkehrsteilnehmer. Gebäude und Bäume säumen die Straße und Bürgersteige.
Der zentrale Bildausschnitt 702 ist im wfov-Bild 701 ausgebleicht dargestellt, um zu verdeutlichen, dass dieser Bildausschnitt als zweites Bild (center-Bild) 7020 mit höherer Auflösung genau diesem Bildausschnitt 702 des ersten Bildes 701 entspricht. Das zweite Bild 7020 ist oben dargestellt und hier ist für den menschlichen Betrachter leichter zu erkennen, dass die Ampel für das eigene Fahrzeug rot anzeigt, dass ein Bus die Kreuzung gerade von links nach rechts überquert hat, und weitere Details der erfassten Szene. Aufgrund der höheren Auflösung im zweiten Bild 7020 können auch weiter entfernte Objekte bzw. Verkehrsteilnehmer durch eine Bildverarbeitung robust detektiert werden.
Die Bildpyramide könnte z.B. auf der höchsten Stufe für das zweite (center-) Bild 2304 x 1280 Pixel aufweisen, auf der zweiten Stufe 1152 x 640 Pixel, auf der dritten Stufe 576 x 320, auf der vierten Stufe 288 x 160, auf der fünften Stufe 144 x 80 Pixel, usw. Die Bildpyramide für das erste (wfov) Bild weist bei gleicher Auflösung (also auf derselben Stufe bezogen auf das center-Bild) natürlich mehr Pixel auf.
Da das wfov- und das center-Bild typischerweise aus unterschiedlichen Pyramidenstufen abgeleitet werden, wird das center-Bild durch auflösungsreduzierende Operationen an die Auflösung des wfov-Bildes angepasst. Dabei wird bei der Feature Map des center-Bilds typischerweise die Anzahl der Kanäle erhöht (höherer Informationsgehalt pro Pixel). Auflösungsreduzierende Operationen sind z.B. Striding oder Pooling. Beim Striding wird nur jeder zweite (oder vierte oder n-te) Pixel ausgelesen. Beim Pooling werden mehrere Pixel zu einem zusammengefasst, z.B. beim MaxPooling wird der maximale Wert eines Pixelpools (z.B. von zwei Pixeln oder 2x2 Pixeln) übernommen.
Angenommen, das Übersichtsbild der Stufe 5 weist 400 x 150 Pixel auf und das center-Bild der Stufe 5 liegt xo = 133 Pixel in horizontaler Richtung vom linken Rand des Übersichtsbildes und erstreckt sich yo= 80 Pixel in vertikaler Richtung vom unteren Rand des Übersichtbildes. Angenommen jeder Pixel entspricht einem Element in einer Output Feature Map. Dann müssten zur Adaption der zweiten Output Feature Map links 133 Nullen pro Zeile (eine für jeden Pixel), oben 70 Nullen pro Spalte und rechts auch 133 Pixel pro Zeile hinzugefügt werden, damit die Kanäle der adaptierten zweiten Output Feature Map elementweise mit den Kanälen der ersten Output Feature Map addiert werden können. Die Startwerte xo, yo werden aus der Lage der (zweiten) Repräsentation des Teilbereichs innerhalb der (ersten) Repräsentation des Übersichtsbereichs bestimmt. Sie geben die Verschiebung bzw. Erstreckung in horizontaler und vertikaler Richtung an. Fig. 8 zeigt schematisch einen Weg, wie derartige Bilder (z.B. das erste bzw. wfov-Bild 701 und das zweite bzw. center-Bild 7020 aus Fig. 7) grundsätzlich fusioniert werden können:
Das wfov-Bild wird als Eingangs-Sensordaten an einen ersten Faltungslayer c1 eines künstlichen neuronalen Netzwerks (z.B. CNN) übergeben.
Das center-Bild wird als Eingangs-Sensordaten an einen zweiten Faltungslayer c2 des CNN übergeben. Jeder Faltungslayer weist eine Aktivierungsfunktion und optional Pooling auf.
Das center-Bild wird unter Verwendung eines .großen' Zero-Padding ZP Bereiches aufgefüllt, so dass Höhe und Breite mit der des wfov-Bildes übereinstimmen, wobei die räumliche Relation beibehalten wird. Anhand von Fig. 7 kann man sich das so vorstellen, dass der Bereich 701 ohne den zentralen Bildausschnitt 702 (d.h. in Fig. 7 unten der nicht ausgebleicht dargestellte - also dunkler dargestellte - Bereich aus dem wfov-Bild 701 ) für das center-Bild 7020 mit Nullen aufgefüllt wird. Die höhere Auflösung des center-Bilds 7020 führt zu einer höheren Tiefe der (zweiten) Feature Map, die der zweite Faltungslayer c2 erzeugt. Die Höhe und Breite der zweiten Feature Map entspricht der Höhe und Breite des zentralen Bildausschnitts 702 des wfov-Bildes 701 . Eine Adaptierung der unterschiedlichen Höhe und Breite von erster und zweiter Feature Map findet hierbei durch das Zero-Padding ZP der zweiten Feature-Map statt.
Die Features von wfov- und center-Bild werden konkateniert cc.
Die konkatenierten Features werden an einen dritten Faltungslayer c3 übergeben, der die fusionierte Feature Map generiert.
Im Rahmen der Faltung mit der zweiten mittels Zero-Padding ZP aufgefüllten Feature Map sind viele Multiplikationen mit Null erforderlich. Diese Berechnungen von ,0‘-Multiplikanden des Zero-Padding ZP Bereiches im Faltungslayer c3 sind unnötig und somit nicht von Vorteil. Ein Aussetzen dieser Bereiche ist jedoch nicht immer möglich, da z.B. bekannte CNN-Beschleuniger eine räumliche Steuerung des Anwendungsbereiches von Faltungskerneln nicht erlauben. Vorteilhaft ist dagegen, dass die Tiefe der beiden Feature Maps unterschiedlich sein darf. Die Konkatenierung hängt ja beide Feature Maps „in der Tiefe aneinander“. Dies ist für den Fall, wo das center-Bild eine höhere Auflösung aufweist als das wfov-Bild, weshalb aus dem center-Bild mehr Informationen extrahiert werden können, von besonderem Vorteil. Insofern ist dieser Weg vergleichsweise flexibel.
Fig. 9 zeigt schematisch einen alternativen zweiten Weg: Wfov- und center-Features werden über passende elementweise Addition (+) (anstatt Konkatenation cc der beiden Feature Maps) zusammengeführt, wobei zuvor für das center-Bild nach Feature-Extraktion durch den zweiten Faltungslayer c2 wiederum Höhe und Breite angepasst werden mittels Zero-Padding ZP. Die Feature Map mit den elementweise addierten Features wird an den dritten Faltungslayer c3 übergeben.
Auch bei diesem Weg wird eine Performancedegradation in Kauf genommen, da durch die Addition Features unterschiedlicher semantischer Bedeutung zusammengefasst werden. Zudem ist es nicht von Vorteil, dass die Tensoren dieselbe Dimension aufweisen müssen.
Der Vorteil besteht darin, dass die Addition von Nullen (im Zero Padding ZP Bereich) wesentlich weniger Rechenzeit erfordert als die Multiplikationen mit Null.
Beide zuvor geschilderten Wege bieten jeweils Vor- und Nachteile. Erstrebenswert wäre ein Ausnutzen der jeweiligen Vorteile, was bei einer geschickten Kombination möglich ist.
Fig. 10 zeigt schematisch einen vorteilhaften Weg:
Ausgehend von der ersten Alternative, die in Fig. 8 dargestellt ist, also einer Zusammenführung von Features durch Konkatenieren, wird im Folgenden eine mathematische Zerlegung von c3 beschrieben, welche die verzichtbare Multiplikation der Nullen des Zero-Padding ZP Bereichs obsolet macht:
• Ein Faltungslayer
Figure imgf000021_0002
produziert einen 3-dimensionalen Tensor
Figure imgf000021_0001
mit
Figure imgf000021_0003
Feature-Schichten (channels), n ist eine natürliche Zahl
• Für eine konventionelle 2D-Faltung gilt:
Figure imgf000022_0001
wobei i, j natürliche Zahlen sind.
• Für den Faltungslayer c3 aus Fig. 8 gilt
Figure imgf000022_0002
da die Faltung für konkatenierte Eingangsdaten linear ist.
Eine Konkatenierung mit anschließendem Faltungslayer (vgl. Fig. 8) wird überführt in zwei reduzierte Faltungen ^34 und ^3ß mit anschließender elementweisen Addition (+):
Figure imgf000022_0003
Die Anpassung der unterschiedlichen Höhe und Breite der aus den beiden reduzierten Faltungen
Figure imgf000022_0004
und ^3B erzeugten Feature Maps erfolgt vor der elementweisen Addition (+).
Durch die Aufspaltung des Faltungskernels
Figure imgf000022_0005
in ^3$ und ^33 wird die Faltung ^3S laufzeiteffizient auf die reduzierte Größe des Center-Bildes angewandt. Diese elementweise Addition (+) ist bei aktuell einsetzbaren Beschleunigern für künstliche neuronale Netzwerke laufzeitneutral.
Ein Zero-Padding ZP mit anschließender Addition ist äquivalent mit dem Aufsummieren der Center-Features an angepasster Startposition. Alternativ kann die Center-Feature-Map in einen größeren Bereich geschrieben werden, welcher zuvor mit Null initialisiert wurde. Das Zero-Padding ZP findet dann implizit statt.
Eine Aktivierungsfunktion / Pooling im Anschluss an c3 kann nicht aufgespalten werden und wird nach der Addition angewandt. Insbesondere werden keine Faltungsoperationen über große Füllbereiche, welche aus Nullen bestehen, gerechnet.
Insgesamt bietet diese Ausführungsform als besondere Vorteile: a) eine integrierte Feature-Betrachtung verschiedener (Bild-) Pyramidenstufen für eine optimale Gesamtperformance bei einem großen Betrachtungswinkel / Erfassungsbereich des Sensors unter Ausnutzung hochaufgelöster ROIs z.B. für entfernte Objekte b) bei gleichzeitig laufzeiteffizienter Umsetzung.
In den Fig. 11 bis 13 wird die Vorgehensweise nochmal auf andere Weise bildlich dargestellt.
Fig. 11 zeigt schematisch eine Konkatenierung zweier Feature Maps 1101 , 1102, die von einem Faltungskern 1110 verarbeitet werden, woraus eine fusionierte Feature Map 1130 entsteht, die ausgegeben werden kann. Im Unterschied zu der ähnlichen Situation der Fig. 8, weisen hier beide Feature Maps 1101 , 1102 eine identische Breite w und Höhe h auf. Beide sind vereinfacht als zwei rechteckige Flächen dargestellt. Die Konkatenierung bedeutet ein Hintereinanderhängen „in der Tiefe“ und ist schematisch so dargestellt, dass die zweite Feature Map 1102 räumlich hinter der ersten Feature Map angeordnet ist.
Der Faltungskern 1110 ist hier in vergleichbarer Weise entgegengesetzt schraffiert dargestellt, wodurch veranschaulicht werden soll, dass ein erster Teil, d.h. ein dünn schraffiert dargestellter „erster Convolution 2d Kemel“ die erste Feature Map 1101 abtastet und ein zweiter (dick schraffiert dargestellter) Convolution 2d Kemel die zweite Feature Map 1102.
Das Ergebnis besteht in einer fusionierten Ausgabe Feature Map 1130. Die fusionierte Feature Map 1130 kann infolge der Faltung nicht mehr hinsichtlich erster und zweiter Feature Map 1101 , 1102 aufgetrennt werden.
Fig. 12 zeigt schematisch einen alternativen Ablauf zur Fusion zweier Feature Maps identischer Breite w, Höhe h und Tiefe d. Die Tiefe d einer Feature Map kann der Anzahl von Kanälen entsprechen bzw. von der Auflösung abhängen. Vorliegend wird die erste Feature Map 1201 von einem ersten Convolution 2d Kernel 1211 abgetastet, was die erste Output Feature Map 1221 ergibt und die zweite Feature Map 1202 von einem zweiten Convolution 2d Kemel 1212, was die zweite Output Feature Map 1222 ergibt. Ein Convolution 2d Kernel 1211 , 1212 kann beispielsweise eine Dimension von 3 x 3 x „Anzahl der Eingangskanäle“ aufweisen und erzeugt einen Output Layer. Die Tiefe der Output Feature Maps kann durch die Anzahl an Convolution 2d Kerneln 1211 , 1212 definiert werden.
Die fusionierte Feature Map 1230 kann aus den beiden Output Feature Maps 1221 , 1222 durch elementweise Addition (+) berechnet werden.
Der Ablauf hier, also zwei separate Faltungen für je eine Feature Map durchzuführen und diese anschließend einfach zu addieren, ist äquivalent zum Ablauf gemäß Fig. 11 , wo die zwei Feature Maps konkateniert werden und anschließend eine Faltung durchgeführt wird.
Fig. 13 zeigt schematisch den Ablauf zur Fusion zweier Feature Maps unterschiedlicher Breite und Höhe - korrespondierend zu dem in Fig. 10 dargestellten Ablauf.
Die erste Feature Map 1301 (berechnet aus dem wfov-Bild) weist eine größere Breite w und Höhe h auf, dagegen ist die Tiefe d geringer. Wohingegen die zweite Feature Map 1302 (berechnet aus dem hochaufgelösten center-Bildausschnitt) eine geringere Breite w und Höhe h aufweist, jedoch eine größere Tiefe d.
Ein erster Convolution 2d Kemel 1311 tastet die erste Feature Map 1301 ab, woraus sich eine erste Output Feature Map 1321 ergibt mit einer vergrößerten Tiefe d. Die zweite Feature Map wird durch einen zweiten Convolution 2d Kemel 1312 abgetastet, woraus sich die zweite Output Feature Map 1322 (diagonal schraffierter quaderförmiger Bereich) ergibt. Die Tiefe d der zweiten Output Feature Map ist identisch mit der Tiefe der ersten Output Feature Map. Um eine Fusion von erster und zweiter Output Feature Map 1321 , 1322 durchzuführen, ist es zweckmäßig, die Lage des Teilbereichs innerhalb des Übersichtsbereichs zu berücksichtigen. Entsprechend wird die Höhe und Breite der zweiten Output Feature Map 1322 vergrößert, so dass sie der Höhe und Breite der ersten Output Feature Map 1321 entspricht. Startwerte in Breite und Höhe für die Adaptierung können beispielsweise aus Fig. 6 oder Fig. 7 bestimmt werden durch Angabe der Lage des zentralen Bereichs 602 bzw. 702 im gesamten Übersichtsbereich 601 bzw. 701 , z.B. in Form von Startwerten xo, yo oder daraus abgeleiteten Breiten- und Höhenstartwerten xs, ys der Feature Map. Die bei der zweiten Output Feature Map 1322 fehlenden Bereiche (links, rechts und oben) werden mit Nullen aufgefüllt (Zero Padding). Die somit adaptierte zweite Output Feature Map kann nun mit der ersten Output Feature Map 1321 einfach durch elementweises Addieren fusioniert werden. Die derart fusionierte Feature Map 1330 ist in Fig. 13 unten dargestellt.
Fig. 14 zeigt schematisch einen möglichen Verfahrensablauf.
In einem ersten Schritt S1 werden Eingangsdaten mindestens eines Sensors empfangen. Die Eingangs-Sensordaten können beispielsweise von zwei vorwärtsgerichteten ADAS-Sensoren eines Fahrzeugs, z.B. Radar und Lidar mit teilweise überlappendem Erfassungsbereich, erzeugt worden sein. Der Lidar-Sensor könnte einen breiten Erfassungsbereich (z.B. größer 100° oder 120° Öffnungswinkel) aufweisen, woraus sich eine erste Repräsentation der Szene ergibt. Der Radar-Sensor erfasst nur einen (zentralen) Teilbereich der Szene (z.B. kleiner 90° oder 60° Erfassungswinkel), kann dafür aber weiter entfernte Objekte detektieren, woraus sich eine zweite Repräsentation der Szene ergibt.
Um die Eingangsdaten von Lidar- und Radar-Sensor fusionieren zu können, können Sensorrohdaten gemappt werden auf Repräsentationen, die eine Vogelperspektive auf die Fahrbahnebene vor dem Fahrzeug wiedergeben. Repräsentationen oder auch daraus ermittelte Feature Maps können beispielsweise in Form von Belegungsgittern erstellt werden.
Im Überlappungsbereich existieren Lidar- und Radar-Daten, in den seitlichen Randbereichen nur Lidar-Daten und im weit entfernten vorderen Bereich nur Radar-Daten.
Im zweiten Schritt S2 wird eine erste Feature Map aus den Eingangsdaten bestimmt. Aus der (ersten) Repräsentation des Lidar-Sensors kann die erste Feature Map mit einer ersten Höhe und Breite (bzw. Fahrbahnebenentiefe und -breite in der Vogelperspektive) generiert werden. Im dritten Schritt S3 wird eine zweite Feature Map aus den Eingangsdaten bestimmt. Aus der (zweiten) Repräsentation des Erfassungsbereichs des Radar-Sensors kann einer zweite Feature Map mit einer zweiten Höhe und Breite generiert werden. Hierbei ist die Breite der zweiten Feature Map geringer als die der ersten Feature Map und die Höhe (Entfernung in Fahrtrichtung) der zweiten Feature Map größer als die der ersten Feature Map.
Im vierten Schritt S4 wird auf Grundlage der ersten Feature Map eine erste Output Feature Map bestimmt. Dabei erfolgt das Berechnen der ersten Output Feature Map mittels einer ersten Convolution der ersten Feature Map.
Im fünften Schritt S5 wird auf Grundlage der zweiten Feature Map eine zweite Output Feature Map bestimmt. Das Berechnen der zweiten Output Feature Map erfolgt mittels einer zweiten Convolution der zweiten Feature Map. Die zweite Convolution beschränkt sich in Höhe und Breite auf die Höhe und Breite der zweiten Feature Map.
In einem sechsten Schritt S6 wird eine Adaption der unterschiedlichen Dimensionen von erster und zweiten Output Feature Map durchgeführt, insbesondere eine Anpassung der Höhe und/oder Breite.
Dazu kann entsprechend einer ersten Variante die Höhe der ersten Output Feature Map so vergrößert werden, dass sie der Höhe der zweiten Output Feature Map entspricht. Die Breite der zweiten Output Feature Map wird so vergrößert, dass sie der Breite der ersten Output Feature Map entspricht. Die durch die Vergrößerung neu hinzugekommenen Bereiche der jeweiligen (adaptierten) Output Feature Map werden mit Nullen aufgefüllt (Zero Padding).
Entsprechend einer zweiten Variante wird zunächst eine Template Output Feature Map erstellt, deren Breite und Höhe sich aus der Höhe und Breite von erster und zweiter Output Feature Map und der Lage des Überlappungsbereichs ergibt. Die Template Output Feature Map ist mit Nullen befüllt. Im vorliegenden Fall hat die Template Output Feature Map die Breite der ersten Output Feature Map und die Höhe der zweiten Output Feature Map. Für die adaptierte erste Output Feature Map werden die Elemente aus der ersten Output Feature Map in dem Bereich übernommen, den die erste Output Feature Map abdeckt. Dazu können Startwerte verwendet werden, die die Lage der ersten Output Feature Map in vertikaler und horizontaler Richtung innerhalb der Template Output Feature Map angeben.
Die Lidar-Output Feature Map erstreckt sich z.B. über die gesamte Breite der Template Output Feature Map, jedoch ist ein Bereich großer Entfernungen leer. In vertikaler Richtung kann also ein Startwert ys vorgegeben werden, ab dem die Template Output Feature Map „befüllt wird“.
In gleicher Weise wird ausgehend von der mit Nullen vorbefüllten Template Output Feature Map die adaptierte zweite Output Feature Map erzeugt: durch Einfügen der Elemente der zweiten Output Feature Map ab der geeigneten Startposition.
Die Radar-Output Feature Map wird beispielsweise erst ab einer horizontalen Startposition xs übertragen und erstreckt sich in vertikaler Richtung über die gesamte Höhe.
Im siebten Schritt S7 werden die adaptierte erste und zweite Output Feature Map fusioniert durch elementweises Addieren. Durch die Adaption von Höhe und Breite ist das elementweise Addieren der beiden Output Feature Maps für typische CNN-Beschleuniger unmittelbar möglich. Das Ergebnis ist die fusionierte Feature Map.
Im Spezialfall, dass die zweite Output Feature Map den gesamten Überlappungsbereich enthält (also einen echten Teilbereich der ersten Output Feature Map, die einen Übersichtsbereich umfasst - vgl. Fig. 13) kann eine Adaption der unterschiedlichen Höhe und Breite der zweiten Output Feature Map entfallen, indem die elementweise Addition der zweiten Output Feature Map zur ersten Output Feature Map mittels geeigneten Startwerten nur im Überlappungsbereich durchgeführt wird. Die Höhe und Breite der fusionierten Feature Map ist dann identisch mit der Höhe und Breite der ersten Output Feature Map (vgl. Fig. 13). Im achten Schritt S8 wird die fusionierte Feature Map ausgegeben.
Bezuqszeichenliste
1 Sensor
10 System
12 Eingangsschnittstelle
14 Datenverarbeitungseinheit
16 Fusionsmodul
18 Ausgabeschnittstelle
20 Steuereinheit
101 Übersichtsbereich
102 Teilbereich
300 Übersichtsbild mit hoher Auflösung
303 Fußgänger bzw. weiter entfernter Verkehrsteilnehmer
304 Fahrzeug bzw. naher Verkehrsteilnehmer
305 Straße bzw. Fahrbahn
306 Haus
401 Übersichtsbild mit reduzierter Auflösung
403 Fußgänger (nicht detektierbar)
404 Fahrzeug
502 zentralen Bildausschnitt mit hoher Auflösung
503 Fußgänger
504 Fahrzeug (nicht bzw. unvollständig detektierbar)
601 Übersichtsbereich
602 Teilbereich
701 Übersichtsbild mit reduzierter Auflösung
702 Erfassungsbereich für Bildausschnitt mit hoher Auflösung
7020 (zentraler) Bildausschnitt mit hoher Auflösung
1101 erste Feature Map
1102 zweite Feature Map
1110 Convolution Kemel
1130 fusionierte Feature Map
1201 erste Feature Map
1202 zweite Feature Map
1211 erster Convolution 2d Kemel 1212 zweiter Convolution 2d Kernel
1221 erste Output Feature Map
1222 zweite Output Feature Map
1230 fusionierte Feature Map
1301 erste Feature Map
1302 zweite Feature Map
1311 erster Convolution 2d Kemel
1312 zweiter Convolution 2d Kemel
1321 erste Output Feature Map
1322 zweite Output Feature Map
1330 fusionierte Feature Map xo Startwert in horizontaler Richtung yo Startwert bzw. Erstreckungswert in vertikaler Richtung wfov Übersichtsbild mit reduzierter Auflösung center (zentraler) Bildausschnitt mit hoher Auflösung
Ck Faltungslayer k; k e N (mit Aktivierungsfunktion und optionalem
Pooling)
ZP zero-Padding cc Konkatenierung
® Elementweise Addition w Breite h Höhe d Tiefe

Claims

29 Patentansprüche
1. Verfahren zum Fusionieren von Sensordaten mit den Schritten a) Empfangen von Eingangs-Sensordaten, wobei die Eingangs-Sensordaten umfassen:
- eine erste Repräsentation (401 , 701 ), welche einen ersten Bereich (101 , 601 ) einer Szene umfasst, und
- eine zweite Repräsentation (502, 702), welche einen zweiten Bereich (102, 602) der Szene umfasst, wobei der erste und zweite Bereich einander überlappen, aber nicht identisch sind (S1 ); b) Bestimmen einer ersten Feature Map (1301 ) mit einer ersten Höhe und Breite auf Basis der ersten Repräsentation (401 , 701 ) (S2) und Bestimmen einer zweiten Feature Map (1302) mit einer zweiten Höhe und Breite auf Basis der zweiten Repräsentation (502, 702) (S3); c) Berechnen einer ersten Output Feature Map (1321 ) mittels einer ersten Convolution der ersten Feature Map (1301 ) (S4), und Berechnen einer zweiten Output Feature Map (1322) mittels einer zweiten Convolution der zweiten Feature Map (1302) (S5); d) Berechnen einer fusionierten Feature Map (1330) durch elementweises Addieren der ersten und der zweiten Output Feature Map (1321 , 1322), wobei die Lage des ersten und des zweiten Bereichs zueinander berücksichtigt wird, so dass die Elemente im Überlappungsbereich addiert werden (S7), und e) Ausgeben der fusionierten Feature Map (1330) (S8).
2. Verfahren nach Anspruch 1 , wobei die erste und zweite Output Feature Map (1321 , 1322) im Überlappungsbereich dieselbe Höhe und Breite aufweisen.
3. Verfahren nach Anspruch 1 oder 2, wobei Höhe und Breite der fusionierten Feature Map (1330) durch das Rechteck bestimmt sind, welches die erste und die zweite Output Feature Map (1321 , 1322) umschließt.
4. Verfahren nach einem der vorhergehenden Ansprüche, wobei der erste Bereich (101 , 601 ) ein Übersichtsbereich der Szene und der zweite Bereich (502, 702) ein Teilbereich des Übersichtsbereichs der Szene ist. 30
5. Verfahren nach einem der vorhergehenden Ansprüche, wobei die erste Repräsentation eine erste Auflösung und die zweite Repräsentation eine zweite Auflösung haben, wobei die zweite Auflösung höher als die erste Auflösung ist.
6. Verfahren nach einem der Ansprüche 3 bis 5, wobei die erste und/oder die zweite Output Feature Map (1321 , 1322) so vergrößert werden, dass sie die Breite und Höhe der fusionierten Feature Map (1330) erlangen und die Lage von erster und zweiter Output Feature Map (1321 , 1322) zueinander erhalten bleibt, und wobei die durch die Vergrößerung neu hinzugekommenen Bereiche der jeweiligen adaptierten Output Feature Map mit Nullen aufgefüllt (ZP) werden.
7. Verfahren nach einem der Ansprüche 1 bis 5, wobei zunächst eine Template Output Feature Map erstellt wird, deren Breite und Höhe sich aus der Höhe und Breite von erster und zweiter Output Feature Map (1321 , 1322) und der Lage des Überlappungsbereichs ergibt, wobei die Template Output Feature Map mit Nullen befüllt ist, wobei für die adaptierte erste Output Feature Map die Elemente aus der ersten Output Feature Map (1321 ) in dem Bereich übernommen, den die erste Output Feature Map (1321 ) abdeckt, und für die adaptierte zweite Output Feature Map die Elemente aus der zweiten Output Feature Map (1322) in dem Bereich übernommen werden, den die zweite Output Feature Map abdeckt (1322).
8. Verfahren nach Anspruch 4 oder 5, wobei die zweite Output Feature Map (1322) den gesamten Überlappungsbereich enthält und wobei die fusionierte Feature Map (1330) berechnet wird, indem zur ersten Output Feature Map (1321 ) mittels geeigneter Startwerte nur im Überlappungsbereich eine elementweise Addition der zweiten Output Feature Map (1322) durchgeführt wird.
9. Verfahren nach einem der vorhergehenden Ansprüche, wobei die Feature Maps (1301 , 1302, 1321 , 1322) jeweils eine Tiefe aufweisen, die von der Auflösung der Repräsentation (401 ; 502; 701 ; 702) abhängt.
10. Verfahren nach einem der vorhergehenden Ansprüche, wobei eine Bestimmung von ADAS/AD relevanten Informationen anhand der fusionierten Feature Map (1330) erfolgt.
11 . Verfahren nach einem der vorhergehenden Ansprüche, wobei das Verfahren in einem Hardware-Beschleuniger für ein künstliches neuronale Netzwerk implementiert wird.
12. Verfahren nach einem der vorhergehenden Ansprüche, wobei die fusionierte Feature Map in einem Encoder eines künstlichen neuronalen Netzwerks erzeugt wird, welches zur Bestimmung ADAS/AD relevanter Informationen eingerichtet ist.
13. Verfahren nach Anspruch 12, wobei das künstliche neuronale Netzwerk, welches zur Bestimmung ADAS/AD relevanter Informationen eingerichtet ist, mehrere Decoder für unterschiedliche ADAS/AD Detektionsfunktionen umfasst.
14. System (10) zum Fusionieren von Sensordaten umfassend eine Eingangsschnittstelle (12), eine Datenverarbeitungseinheit (14) und eine Ausgabeschnittstelle (18), wobei a) die Eingangsschnittstelle (12) konfiguriert ist zum Empfangen von Eingangs-Sensordaten, wobei die Eingangs-Sensordaten umfassen
- eine erste Repräsentation (401 , 701 ), welche einen ersten Bereich (101 , 601 ) einer Szene umfasst, und
- eine zweite Repräsentation (502, 702), welche einen zweiten Bereich (102, 602) der Szene umfasst, wobei der erste und zweite Bereich einander überlappen, jedoch nicht identisch sind; die Datenverarbeitungseinheit (14) konfiguriert ist zum b) Bestimmen einer ersten Feature Map (1301 ) mit einer ersten Höhe und Breite auf Basis der ersten Repräsentation (401 , 701 ) und Bestimmen einer zweiten Feature Map (1302) mit einer zweiten Höhe und Breite auf Basis der zweiten Repräsentation (502, 702); c) Berechnen einer ersten Output Feature Map (1321 ) mittels einer ersten Convolution der ersten Feature Map (1301 ), und Berechnen einer zweiten Output Feature Map (1322) mittels einer zweiten Convolution der zweiten Feature Map (1302); und d) Berechnen einer fusionierten Feature Map durch elementweises Addieren der ersten und der zweiten Output Feature Map (1321 , 1322), wobei die Lage des ersten und des zweiten Bereichs zueinander berücksichtigt wird, so dass die Elemente im Überlappungsbereich addiert werden; und e) die Ausgabeschnittstelle (18) konfiguriert ist zum Ausgeben der fusionierten Feature Map (1330).
15. System nach Anspruch 14, wobei das System (10) einen CNN-Hardwarebeschleuniger umfasst, wobei die Eingangsschnittstelle (12), die Datenverarbeitungseinheit (14) und die Ausgabeschnittstelle (18) in dem CNN-Hardwarebeschleuniger implementiert sind.
16. System nach Anspruch 14 oder 15, wobei das System (10) ein Convolutional Neural Network mit einem Encoder umfasst und wobei die Eingangsschnittstelle (12), die Datenverarbeitungseinheit (14) und die Ausgabeschnittstelle (18) im Encoder implementiert sind, so dass der Encoder dazu konfiguriert ist, die fusionierte Feature Map zu erzeugen.
17. System nach Anspruch 16, wobei das Convolutional Neural Network mehrere Decoder umfasst, die dazu konfiguriert sind, unterschiedliche ADAS/AD- Detektionsfunktionen zumindest auf Basis der fusionierten Feature Map zu realisieren.
18. System nach Anspruch 17 umfassend ein ADAS/AD-Steuergerät, wobei das ADAD/AD-Steuergerät dazu konfiguriert ist, ADAS/AD-Funktionen zu realisieren zumindest auf Basis der Ergebnisse der ADAS/AD-Detektionsfunktionen.
PCT/DE2022/200256 2021-12-03 2022-11-03 Verfahren zum fusionieren von sensordaten im kontext eines künstlichen neuronalen netzwerks WO2023098955A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020247015566A KR20240076833A (ko) 2021-12-03 2022-11-03 인공 신경망의 맥락에서 센서 데이터를 융합하는 방법

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102021213756.3A DE102021213756B3 (de) 2021-12-03 2021-12-03 Verfahren zum Fusionieren von Sensordaten im Kontext eines künstlichen neuronalen Netzwerks
DE102021213756.3 2021-12-03

Publications (1)

Publication Number Publication Date
WO2023098955A1 true WO2023098955A1 (de) 2023-06-08

Family

ID=84357957

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/DE2022/200256 WO2023098955A1 (de) 2021-12-03 2022-11-03 Verfahren zum fusionieren von sensordaten im kontext eines künstlichen neuronalen netzwerks

Country Status (3)

Country Link
KR (1) KR20240076833A (de)
DE (1) DE102021213756B3 (de)
WO (1) WO2023098955A1 (de)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102015208889A1 (de) 2015-05-13 2016-11-17 Conti Temic Microelectronic Gmbh Kameravorrichtung und Verfahren zum Abbilden eines Umfeldes für ein Kraftfahrzeug
EP3686798A1 (de) 2019-01-22 2020-07-29 StradVision, Inc. Lernverfahren und lernvorrichtung für einen objektdetektor auf cnn-basis
US10742907B2 (en) 2016-07-22 2020-08-11 Conti Temic Microelectronic Gmbh Camera device and method for detecting a surrounding area of a driver's own vehicle
US10757330B2 (en) 2016-04-04 2020-08-25 Conti Temic Microelectronic Gmbh Driver assistance system with variable image resolution
US10798319B2 (en) 2016-12-06 2020-10-06 Conti Temic Microelectronic Gmbh Camera device and method for capturing a surrounding region of a vehicle in a situation-adapted manner
DE102020204840A1 (de) 2020-04-16 2021-10-21 Conti Temic Microelectronic Gmbh Prozessierung von Mehrkanal-Bilddaten einer Bildaufnahmevorrichtung durch einen Bilddatenprozessor

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102015208889A1 (de) 2015-05-13 2016-11-17 Conti Temic Microelectronic Gmbh Kameravorrichtung und Verfahren zum Abbilden eines Umfeldes für ein Kraftfahrzeug
US10757330B2 (en) 2016-04-04 2020-08-25 Conti Temic Microelectronic Gmbh Driver assistance system with variable image resolution
US10742907B2 (en) 2016-07-22 2020-08-11 Conti Temic Microelectronic Gmbh Camera device and method for detecting a surrounding area of a driver's own vehicle
US10798319B2 (en) 2016-12-06 2020-10-06 Conti Temic Microelectronic Gmbh Camera device and method for capturing a surrounding region of a vehicle in a situation-adapted manner
EP3686798A1 (de) 2019-01-22 2020-07-29 StradVision, Inc. Lernverfahren und lernvorrichtung für einen objektdetektor auf cnn-basis
DE102020204840A1 (de) 2020-04-16 2021-10-21 Conti Temic Microelectronic Gmbh Prozessierung von Mehrkanal-Bilddaten einer Bildaufnahmevorrichtung durch einen Bilddatenprozessor

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ANDREJ KARPATHY ET AL: "Large-Scale Video Classification with Convolutional Neural Networks", 2014 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, 1 June 2014 (2014-06-01), pages 1725 - 1732, XP055560536, ISBN: 978-1-4799-5118-5, DOI: 10.1109/CVPR.2014.223 *
KIM HYUNWOO ET AL: "Binarized Encoder-Decoder Network and Binarized Deconvolution Engine for Semantic Segmentation", IEEE ACCESS, IEEE, USA, vol. 9, 31 December 2020 (2020-12-31), pages 8006 - 8027, XP011835782, DOI: 10.1109/ACCESS.2020.3048375 *
LUUSUA EMIL, MASTER'S THESIS, 26 June 2020 (2020-06-26), pages 1 - 57, XP055851271, Retrieved from the Internet <URL:https://liu.diva-portal.org/smash/get/diva2:1447580/FULLTEXT01.pdf> [retrieved on 20211014] *

Also Published As

Publication number Publication date
DE102021213756B3 (de) 2023-02-02
KR20240076833A (ko) 2024-05-30

Similar Documents

Publication Publication Date Title
DE102018101318A1 (de) Objekterkennung unter verwendung eines rekurrenten neuronalen netzwerks und einer verketteten merkmalsabbildung
DE102017100198A1 (de) Fixierungserzeugung für maschinenlernen
DE102017120112A1 (de) Tiefenkartenschätzung mit stereobildern
DE102015201951A1 (de) System und Verfahren zum Kartieren, Lokalisieren und Korrigieren einer Raumlage
DE102009012441B4 (de) Verfahren zur Reduktion des Speicherbedarfs bei der Bestimmung von Disparitätswerten für mindestens zwei stereoskopisch aufgenommene Bilder
DE102017203276B4 (de) Verfahren und Vorrichtung zur Ermittlung einer Trajektorie in Off-road-Szenarien
DE102014207802B3 (de) Verfahren und System zum proaktiven Erkennen einer Aktion eines Verkehrsteilnehmers
WO2007107315A1 (de) Multisensorieller hypothesen-basierter objektdetektor und objektverfolger
DE102019114622A1 (de) Erfassung und planare darstellung dreidimensionaler fahrspuren in einer strassenszene
DE112020001103T5 (de) Multitasking-Wahrnehmungsnetzwerk mit Anwendungen für ein Szenenverständnis und ein fortschrittliches Fahrerassistenzsystem
DE102018121008B4 (de) System zum fahren eines autonomen fahrzeugs sowie damit ausgestattetes fahrzeugs
DE112020000590T5 (de) Karte und verfahren zum erstellen einer karte
DE102020110379A1 (de) Fahrassistenzsystem, elektronische vorrichtung und betriebsverfahren dafür
DE112021005357T5 (de) System und Verfahren zur Ausrichtung dreidimensionalen Scannens
DE112016005947B4 (de) Fahrzeugbestimmungsvorrichtung, Fahrzeugbestimmungsverfahren und Fahrzeugbestimmungsprogramm
DE102016208056A1 (de) Verfahren und Vorrichtung zur Verarbeitung von Bilddaten und Fahrerassistenzsystem für ein Fahrzeug
DE102007013664A1 (de) Multisensorieller Hypothesen-basierter Objektdetektor und Objektverfolger
DE102021002798A1 (de) Verfahren zur kamerabasierten Umgebungserfassung
DE102018100909A1 (de) Verfahren zum Rekonstruieren von Bildern einer Szene, die durch ein multifokales Kamerasystem aufgenommen werden
DE102021131176A1 (de) Transformieren von Sensordaten zum Trainieren von Modellen, die mit verschiedenen Sensorkonfigurationen verwendet werden
DE102020129096A1 (de) Erzeugung dreidimensionaler punktwolken mittels einer polarimetrischen kamera in einem mit einem fahrassistenzsystem ausgestatteten fahrzeug
DE102021129544A1 (de) Systeme und verfahren zur tiefenabschätzung in einem fahrzeug
DE102020100230A1 (de) Rekonstruktion von landmarkenpositionen in autonomen maschinenanwendungen
DE102020107868A1 (de) Objektdetektionssystem für die detektion eines objekts mit hilfe einer hierarchie-pyramide und objektdetektionsverfahren
DE102017221765A1 (de) Trainieren und Betreiben eines Maschinen-Lern-Systems

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22802507

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 20247015566

Country of ref document: KR

Kind code of ref document: A