WO2024041833A1 - Visuelle wahrnehmung mit einem fahrzeug basierend auf einem kamerabild und einer ultraschallkarte - Google Patents

Visuelle wahrnehmung mit einem fahrzeug basierend auf einem kamerabild und einer ultraschallkarte Download PDF

Info

Publication number
WO2024041833A1
WO2024041833A1 PCT/EP2023/070793 EP2023070793W WO2024041833A1 WO 2024041833 A1 WO2024041833 A1 WO 2024041833A1 EP 2023070793 W EP2023070793 W EP 2023070793W WO 2024041833 A1 WO2024041833 A1 WO 2024041833A1
Authority
WO
WIPO (PCT)
Prior art keywords
ultrasound
camera image
feature map
map
ultrasonic
Prior art date
Application number
PCT/EP2023/070793
Other languages
English (en)
French (fr)
Inventor
Niko Moritz Scholz
Akhilesh Kumar MALVIYA
Ganesh Sistu
Original Assignee
Valeo Schalter Und Sensoren Gmbh
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Valeo Schalter Und Sensoren Gmbh filed Critical Valeo Schalter Und Sensoren Gmbh
Publication of WO2024041833A1 publication Critical patent/WO2024041833A1/de

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S7/00Details of systems according to groups G01S13/00, G01S15/00, G01S17/00
    • G01S7/52Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S15/00
    • G01S7/523Details of pulse systems
    • G01S7/526Receivers
    • G01S7/527Extracting wanted echo signals
    • G01S7/5273Extracting wanted echo signals using digital techniques
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S15/00Systems using the reflection or reradiation of acoustic waves, e.g. sonar systems
    • G01S15/003Bistatic sonar systems; Multistatic sonar systems
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S15/00Systems using the reflection or reradiation of acoustic waves, e.g. sonar systems
    • G01S15/02Systems using the reflection or reradiation of acoustic waves, e.g. sonar systems using reflection of acoustic waves
    • G01S15/06Systems determining the position data of a target
    • G01S15/08Systems for measuring distance only
    • G01S15/10Systems for measuring distance only using transmission of interrupted, pulse-modulated waves
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S15/00Systems using the reflection or reradiation of acoustic waves, e.g. sonar systems
    • G01S15/02Systems using the reflection or reradiation of acoustic waves, e.g. sonar systems using reflection of acoustic waves
    • G01S15/06Systems determining the position data of a target
    • G01S15/42Simultaneous measurement of distance and other co-ordinates
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S15/00Systems using the reflection or reradiation of acoustic waves, e.g. sonar systems
    • G01S15/02Systems using the reflection or reradiation of acoustic waves, e.g. sonar systems using reflection of acoustic waves
    • G01S15/06Systems determining the position data of a target
    • G01S15/46Indirect determination of position data
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S15/00Systems using the reflection or reradiation of acoustic waves, e.g. sonar systems
    • G01S15/86Combinations of sonar systems with lidar systems; Combinations of sonar systems with systems not using wave reflection
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S15/00Systems using the reflection or reradiation of acoustic waves, e.g. sonar systems
    • G01S15/87Combinations of sonar systems
    • G01S15/876Combination of several spaced transmitters or receivers of known location for determining the position of a transponder or a reflector
    • G01S15/878Combination of several spaced transmitters or receivers of known location for determining the position of a transponder or a reflector wherein transceivers are operated, either sequentially or simultaneously, both in bi-static and in mono-static mode, e.g. cross-echo mode
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S15/00Systems using the reflection or reradiation of acoustic waves, e.g. sonar systems
    • G01S15/88Sonar systems specially adapted for specific applications
    • G01S15/93Sonar systems specially adapted for specific applications for anti-collision purposes
    • G01S15/931Sonar systems specially adapted for specific applications for anti-collision purposes of land vehicles
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S7/00Details of systems according to groups G01S13/00, G01S15/00, G01S17/00
    • G01S7/52Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S15/00
    • G01S7/523Details of pulse systems
    • G01S7/526Receivers
    • G01S7/53Means for transforming coordinates or for evaluating data, e.g. using computers
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S7/00Details of systems according to groups G01S13/00, G01S15/00, G01S17/00
    • G01S7/52Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S15/00
    • G01S7/539Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S15/00 using analysis of echo signal for target characterisation; Target signature; Target cross-section
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S15/00Systems using the reflection or reradiation of acoustic waves, e.g. sonar systems
    • G01S15/02Systems using the reflection or reradiation of acoustic waves, e.g. sonar systems using reflection of acoustic waves
    • G01S15/06Systems determining the position data of a target
    • G01S15/46Indirect determination of position data
    • G01S2015/465Indirect determination of position data by Trilateration, i.e. two transducers determine separately the distance to a target, whereby with the knowledge of the baseline length, i.e. the distance between the transducers, the position data of the target is determined
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S15/00Systems using the reflection or reradiation of acoustic waves, e.g. sonar systems
    • G01S15/88Sonar systems specially adapted for specific applications
    • G01S15/93Sonar systems specially adapted for specific applications for anti-collision purposes
    • G01S15/931Sonar systems specially adapted for specific applications for anti-collision purposes of land vehicles
    • G01S2015/937Sonar systems specially adapted for specific applications for anti-collision purposes of land vehicles sensor installation details
    • G01S2015/938Sonar systems specially adapted for specific applications for anti-collision purposes of land vehicles sensor installation details in the bumper area

Definitions

  • the present invention is directed to a method for automatic visual perception using a vehicle, wherein a camera image representing an environment of the vehicle is generated by a camera of the vehicle.
  • the invention is further directed to an electronic vehicle guidance system for a vehicle, which has at least a computing unit, a storage device that stores a trained artificial neural network, and a camera that is set up to generate a camera image that represents the surroundings of the vehicle , contains.
  • the invention is further directed to a vehicle that has such an electronic vehicle guidance system and to a computer program product.
  • Typical visual perception tasks include object recognition tasks, object bounding box recognition, semantic segmentation tasks, object size regression, object height regression, etc.
  • Algorithms for automatic visual perception can, for example, be based on trained artificial neural networks, in particular convolutional neural networks, CNN.
  • CNN convolutional neural networks
  • the authors describe a method for estimating bird's-eye maps of the environment of autonomous vehicles directly from monocular images using a single end-to-end deep learning architecture.
  • the architecture consists of a base network, a feature pyramid network, a bird's-eye transformation network and a downstream network.
  • the base network which can be based on ResNet-50 for example, extracts multi-resolution image features from the input image and the feature pyramid network adds high-resolution features with the spatial context of lower pyramid layers.
  • a stack of dense transformation layers of the bird's-eye view transformation network maps the features into the bird's-eye view on an image basis, and the downstream network processes the bird's-eye view features and predicts the final semantic occupancy probabilities.
  • the feature pyramid network is based on the publication T. Lin et al.: “Feature Pyramid Networks for Object Detection”, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017 or the corresponding preprint arXiv:1612.03144v2 (hereinafter " Lin et al.”).
  • the invention is based on the idea of using a trained artificial neural network to extract features from a camera image and an ultrasound map To extract the environment and perform a visual perception task depending on the extracted features.
  • a method for automatic visual perception using a vehicle is specified.
  • a camera image that represents an environment of the vehicle is generated using a camera of the vehicle.
  • Ultrasonic pulses are emitted into the environment by at least one ultrasonic transmitter of the vehicle and at least one ultrasonic sensor signal is generated by at least one ultrasonic detector of the vehicle depending on reflected components of the emitted ultrasonic pulses.
  • An ultrasound map, in particular a spatial ultrasound map, is generated in a top view perspective depending on the at least one ultrasound sensor signal.
  • At least one feature map is created by applying at least one encoder module of a trained artificial neural network to input data derived from the camera image and the
  • each of the at least one encoder module having at least one convolution layer.
  • a visual perception task is carried out by the neural network depending on the at least one feature map.
  • the method for automatic visual perception according to the invention can also be considered as a method that includes the described steps of generating the camera image and the at least one ultrasonic sensor signal as well as applying an algorithm for automatic visual perception to the input data.
  • the visual perception algorithm which can also be referred to as a computer vision algorithm or machine vision algorithm, includes the trained artificial neural network.
  • the algorithm for automatic visual perception and, in general, all computing steps of the method for automatic visual perception can be carried out by at least one computing unit, in particular of the vehicle.
  • An automatic visual perception algorithm can be viewed as a computer-implemented algorithm for automatically performing one or more visual perception tasks.
  • a visual perception task, also referred to as a computer vision task can be understood, for example, as a task for extracting visually perceptible information from image data.
  • the visual perception task can in principle be carried out by a person who is able to visually perceive an image according to the image data.
  • visual perception tasks however, carried out automatically without the need for human assistance.
  • the method and the algorithm for automatic visual perception are executed not exclusively based on the camera image as sensor input, but also based on the at least one ultrasonic sensor signal or the ultrasonic map. Ultrasonic waves are not visible to humans. Nevertheless, the algorithm used here is referred to as an algorithm for visual automatic perception and consequently the method is referred to as a method for automatic visual perception.
  • the method can be understood as a method for automatic visual perception with the vehicle.
  • the trained artificial neural network can be provided in a computer-readable manner, for example stored on a storage medium of the vehicle, in particular the at least one computing unit.
  • the neural network includes several modules including the at least one encoder module and one or more modules that are applied to the at least one feature map in order to perform the visual perception task depending on the at least one feature map, for example one or more decoder modules, regression modules or other visual perception modules, etc cetera.
  • Modules can be understood as software modules or parts of the neural network.
  • a software module can be understood as software code that is functionally connected and combined into a single unit.
  • a software module can contain or implement several processing steps and/or data structures.
  • modules themselves can represent neural networks or sub-networks.
  • a module of the neural network can be understood as a trainable and in particular trained module of the neural network.
  • the neural network and consequently all of its trainable modules can be trained in an end-to-end manner before the method automatic visual perception is carried out.
  • different modules may be individually trained or pre-trained.
  • the method according to the invention corresponds to an application phase of the neural network.
  • the training itself can be carried out using conventional methods for training neural networks, in particular convolutional neural networks, CNN (English: “Convolutional Neural Networks”), such as supervised training methods.
  • a further software module can be applied to the at least one ultrasound sensor signal, the further software module not necessarily being part of the neural network.
  • the further software module is not necessarily a trained or trainable module. In other implementations, however, the further software module can also be a trainable or trained module of the neural network.
  • the at least one encoder module may include one or more convolution layers that extract the features of the at least one first feature map from the camera image.
  • the spatial dimensions of the at least one first feature map can generally differ from the spatial dimensions of the camera image depending on the architecture of the at least one encoder and in particular the convolution layers, for example the convolution kernels involved or used.
  • the camera image can be viewed as a three-dimensional tensor of size H x W x C.
  • H x W denotes the spatial size of the camera image, namely its height H and width W with regard to pixels of the camera image.
  • C is the channel dimension and, in the case of the camera image, can correspond to different color channels, for example. However, it is also possible for C to be 1 for the camera image.
  • Each feature map i of the at least one first feature map is also characterized by a respective spatial size Hi x Wi and a channel number Ci, which, however, can differ from the sizes and channel numbers of the camera image.
  • the exact height Hi and width Wi as well as the channel number Ci of one of the first feature maps depends on the number of convolution layers used by the encoder module and the size and number of convolution kernels used.
  • the features of the at least one feature map can still be considered to be given in the same camera image plane perspective as the camera image.
  • Directions that correspond to the height and width of the feature maps of the at least one first feature map correspond to the height and width directions in the original camera image, even if there can be no one-to-one pixel correspondence between the features and the pixels of the camera image.
  • the camera image is generated and provided in the camera image plane.
  • the camera image plane is, for example, perpendicular to a predefined longitudinal direction of the camera coordinate system, which can be, for example, parallel to an optical axis of the camera.
  • the top view perspective corresponds to a perspective according to a top view plane that is perpendicular to a predefined height axis.
  • the height axis can, for example, be perpendicular to a road surface of a road on which the vehicle is positioned or, in other words, parallel to a vehicle vertical axis of the vehicle. In some cases, this can be parallel to another coordinate axis of the camera coordinate system. In general, however, the camera coordinate system can also be tilted or rotated.
  • All of the ultrasonic pulses can be emitted, for example, with the at least one ultrasonic transmitter according to a predefined wavelength spectrum of the ultrasonic waves involved or, in other words, according to a predefined transmission band.
  • all ultrasonic transmitters of the at least one ultrasonic transmitter work with the same transmission band.
  • all detectors of the at least one ultrasonic detector can be adapted such that they can detect ultrasonic waves according to the same predefined detection band, the detection band matching the transmission band.
  • all of the ultrasonic detectors are, in principle, capable of detecting ultrasonic waves generated by any of the ultrasonic transmitters.
  • additional ultrasonic sensor signals can be generated by the additional ultrasonic detectors based on reflected components of ultrasonic pulses that were emitted by the additional ultrasonic transmitters.
  • the ultrasound map can also be generated depending on the other ultrasound sensor signals.
  • each of the at least one ultrasonic transmitter can emit corresponding ultrasonic pulses repeatedly, in particular in a periodic manner, and the at least one ultrasonic sensor signal can be viewed as at least one time series of measurements.
  • each ultrasonic sensor signal can be viewed as representing an envelope of an ultrasonic wave, which corresponds to the reflected components of the correspondingly emitted ultrasonic pulses.
  • Each ultrasonic sensor signal is then given by an amplitude of the corresponding envelope as a function of time.
  • the amplitude as a function of time can be converted directly into an amplitude as a function of distance, which is a sum of the distances from the corresponding ultrasonic transmitter to a reflected object in the environment and back to the corresponding ultrasonic detector.
  • the at least one ultrasonic transmitter and the at least one ultrasonic detector can be combined as an ultrasonic transceiver or they can be implemented separately from one another.
  • reflected portions of an ultrasonic pulse emitted by an ultrasonic transceiver can be detected by the same ultrasonic transceiver, which is referred to as a direct signal path, or by another ultrasonic transceiver, which is referred to as an indirect signal path.
  • a field of view of the camera can partially overlap with a field of view of the at least one ultrasound detector or the at least one ultrasound transmitter. Consequently, the camera image and the at least one ultrasonic sensor signal at least partially represent the same spatial region in the surroundings of the vehicle.
  • the ultrasound map can be understood, for example, as an ultrasound image.
  • the ultrasound map can be given by a plurality of grid values, each grid value corresponding to a corresponding grid cell of a predefined spatial grid in the top view perspective. Each grid cell then corresponds to a corresponding pixel in the ultrasound map, where the grid value can be interpreted as a corresponding pixel value. Consequently, the ultrasound map can be treated by the neural network in the same way as for camera images, for example by passing it through one or more convolution layers of the at least one encoder module. Although the content of the ultrasound map cannot be directly interpreted by a human, the trained neural network is able to automatically interpret the encoded information, similar to camera images.
  • the at least one feature map is generated based on both the ultrasound map and the camera image, the reliability of the visual perception task and its output can be significantly improved, especially for low-light scenarios.
  • the ultrasonic sensor signals represent reflective objects in the surroundings of the vehicle regardless of the lighting conditions.
  • the ultrasound map is given by a plurality of grid values, each grid value corresponding to a corresponding grid cell of a predefined spatial grid in the plan view perspective, for each of the grid cells and for each transmitter-detector pair of the at least an ultrasound transmitter and the at least one ultrasound detector, a corresponding distance is calculated and a signal value is calculated depending on the distance.
  • the grid value of the corresponding grid cell is calculated depending on the signal value.
  • the distance is a distance from a position of the ultrasound in the transmitter of the transmitter-detector pair via the position of the grid cell to a position of the ultrasound detector of the transmitter-detector pair.
  • the signal value is a signal value of the ultrasonic sensor signal generated by the ultrasonic detector of the transmitter-detector pair.
  • the transmitter-detector pairs can be understood, for example, to mean that each detector of the at least one ultrasonic detector forms a transmitter-detector pair with each of the at least one ultrasonic transmitter, regardless of whether they form a common ultrasonic transceiver. With n ultrasonic transmitters and m ultrasonic detectors, there are n*m transmitter-detector pairs.
  • the grid is in particular a two-dimensional grid.
  • the grid cells can be arranged in an array of rows and columns and can therefore be viewed as a Cartesian or rectangular grid.
  • a polar grid where each grid cell is given by an interval of a radial distance and an angular interval.
  • each value of the ultrasonic sensor signals corresponds to a specific time traveled and consequently a specific distance. Therefore, the ultrasound signal can be evaluated at the calculated distance from the position of the ultrasound transmitter to the grid cell back to the ultrasound detector. Since the resolution of the ultrasonic sensor signals is finite, an interpolation of the corresponding values can be carried out in order to evaluate the ultrasonic sensor signal over the calculated distance. It is noted that the spatial grid in the top view perspective is defined in a real-world coordinate system, for example a camera or vehicle coordinate system. The signal value calculated depending on the distance traveled can therefore be understood as indicating the presence or absence of an object at the position in the vehicle's surroundings given by the grid cell.
  • each grid cell and each transmitter-detector pair can be understood to mean that a specific grid cell is selected and a specific ultrasound detector of the at least one ultrasound detector is selected. The distance is then calculated for the selected grid cell and the selected ultrasonic detector for each of the at least one ultrasonic transmitter and then the corresponding signal value is calculated. These steps are then repeated for the same grid cell and all other ultrasound detectors of the at least one ultrasound detector. These steps are then repeated again for all other grid cells.
  • ultrasonic detectors and ultrasonic transmitters with mismatched transmit and receive bands will not be paired.
  • a corresponding angle weighting function is provided for each transmitter-detector pair.
  • each signal value is multiplied by the corresponding angular weighting function evaluated at the position of the grid cell to obtain a corresponding weighted signal value.
  • the grid value is calculated depending on a sum of the weighted signal values obtained for the corresponding grid cell. For example, if, apart from the at least one ultrasonic transmitter and the at least one ultrasonic detector, no further ultrasonic transmitters and ultrasonic detectors are involved with suitable transmission or detection bands, the grid value for a given grid cell can be given by the sum of the weighted signal values as described above.
  • further weighted signal values can be calculated analogously for each set of further ultrasound transmitters and further ultrasound detectors with suitable transmission or detection bands.
  • the grid value is then given by a sum of all weighted signal values and all other weighted signal values that were calculated for this grid cell.
  • the angle weighting function describes, for example, how the amplitude of the at least one ultrasonic sensor signal typically differs for different angles, in particular polar angles in the top view perspective. Empirical, experimental or heuristic knowledge can be used to define the corresponding angular weighting functions. In this way, the two-dimensional information of the ultrasound map can be obtained with increased accuracy from the at least one ultrasound sensor signal.
  • the angle weighting functions may be different for different ultrasonic sensor signals and, accordingly, for different ultrasonic detectors.
  • the angular weighting function can, for example, depend on at least one beta distribution.
  • the corresponding angular weighting function may be given by a single beta distribution centered at the associated ultrasonic transceiver.
  • two such beta distributions centered at different positions corresponding to the two different ultrasonic transceivers involved may be combined together to obtain the angular weighting function.
  • the minimum of the two beta distributions at the corresponding position can be used, or an average value, and so on.
  • x represents a quantity that depends on the polar angle in the top view perspective, in particular with respect to a longitudinal axis of the corresponding ultrasonic transceiver, and is in particular proportional thereto. It was found that the actual characteristics of ultrasonic transceivers can be modeled well in this way.
  • a first feature map of the at least one feature map is generated by a first encoder module of the at least one encoder module depending on the camera image.
  • a second feature map of the at least one feature map is generated by applying a second encoder module of the at least one encoder module to the ultrasound map.
  • a fused feature map is generated depending on the first feature map and the second feature map.
  • the visual perception task is performed by the neural network depending on the fused feature map.
  • the first feature map is generated by applying the first encoder module to the camera image or to a modified or pre-processed version of the camera image. Consequently, the input data includes the ultrasound card and the camera image or the modified or pre-processed camera image.
  • Generating the merged feature map may include fusing the first feature map and the second feature map.
  • the first feature map and/or the second feature map may be further processed by one or more modules or steps of the neural network before being fused accordingly.
  • Fusing may involve using a known mechanism for fusing feature maps, as well as concatenating the corresponding feature maps.
  • the feature maps may also be upsampled or downsampled to obtain the desired spatial dimensions for further processing.
  • the creation of the merged feature map can be done by a Fusion module of the neural network can be carried out, which is, for example, not trainable or not trained.
  • one or more decoder modules and/or one or more regression modules of the neural network can be applied to the fused feature map.
  • one or more additional network modules of the neural network may be applied to the fused feature map, and the one or more decoder modules and the one or more regression modules may then be applied to a corresponding output of the one or more additional network modules.
  • the first feature map is generated by applying the first encoder module to the camera image, and a neural network feature transformation module is applied to the first feature map to transform the first feature map from the camera image plane perspective to the top view perspective.
  • the fused feature map is generated by fusing the transformed first feature map and the second feature map.
  • Algorithms for converting a camera image from the camera image plane perspective into a top view perspective are known per se. According to the implementations mentioned, however, it is not the camera image that is transformed from the camera image plane perspective into the top view perspective, but rather the first feature map. In this way, it is achieved that the transformed first feature map and the second feature map are given in the same perspective, which can improve the performance or training efficiency of the network.
  • the feature transformation module can be designed, for example, as described in the publication by Roddick and Cipolla regarding the multiscale dense transformers or the stack of dense transformer layers.
  • the first feature map is generated by applying the first encoder module to the camera image and another feature transformation module of the neural network is applied to the second feature map to create the second feature map from the top view perspective to transform into the camera image plane perspective of the camera.
  • the fused feature map is generated by fusing the first feature map and the transformed second feature map.
  • a camera image transformation module which may be part of the neural network or may be a preprocessing module, particularly an untrained preprocessing module, is applied to the camera image to transform the camera image from the camera image plane perspective to the top view perspective.
  • the first feature map is generated by applying the first encoder module to the transformed camera image, and the fused feature map is generated by merging the first feature map and the second feature map.
  • the feature transformation module is a trainable module
  • the camera image transformation module can be based on a predefined projective transformation. This has the advantage that training the neural network is simplified.
  • the use of the trainable and trained feature transformation module in the above alternative implementations has the advantage that the exact projection, which may generally depend on the type or model of the camera, does not need to be known.
  • an intermediate feature map is generated by applying a top-down neural network module to the fused feature map.
  • the visual perception task is generated by applying the one or more decoder modules and/or the one or more regression modules to the intermediate feature map.
  • the architecture of the top-down network described in the Roddick and Cipolla paper can be used.
  • the top-down network module does not fully perform the visual perception task.
  • the top-down network module may be viewed as a task-independent processing block or task-independent decoder block, while the one or more decoder modules and/or the one or more regression modules may be task-dependent modules.
  • the visual perception task includes an object height regression task, a semantic segmentation task, a bounding box detection task, and/or an object recognition task. If the visual perception task includes the object height regression task, an output of a corresponding regression module for performing the object height regression task includes a height map, for example in the top view perspective.
  • the height map contains a predicted object height of one or more objects in the environment.
  • the height map may correspond to a height grid, where each grid cell of the height grid corresponds to a corresponding two-dimensional spatial position in the top view perspective and the height map includes a predicted or estimated height value for each of the grid cells of the height map.
  • the height map can be calculated in a particularly reliable and accurate manner.
  • the elevation map can be used as valuable input for driver assistance functions or other automatic or semi-automatic driving functions for the vehicle.
  • the output of the corresponding decoder module includes a semantically segmented image, for example in the top view perspective or in the camera image plane perspective.
  • the semantically segmented image can be understood as a rectangular array of pixels, with one object class of a plurality of predefined object classes assigned to each of the pixels.
  • the semantically segmented image can be calculated in a particularly reliable and accurate manner.
  • the semantically segmented image can be used as valuable input for driver assistance functions or other automatic or semi-automatic driving functions of the vehicle.
  • the output of the corresponding decoder module includes a corresponding position and size of at least one bounding box for one or more objects in the environment of the vehicle and a corresponding object class associated with each of the bounding boxes.
  • the position and size and object class of the corresponding bounding boxes can be calculated in a particularly reliable and accurate manner.
  • the object classes and the bounding boxes can be used as valuable input for driver assistance functions or other automatic or semi-automatic driving functions of the vehicle.
  • the first encoder module is designed as described in the Roddick and Cipolla publication.
  • the feature transformation module for transforming the first feature map from the camera image plane perspective to the top view perspective includes a transformer pyramid network, such as described in the Roddick and Cipolla publication.
  • the feature map is generated by applying the first endocer module of the at least one encoder module to the camera image and an ultrasound map transformation module is applied to the ultrasound map to transform the ultrasound map from the top view perspective to the camera image plane perspective of the camera.
  • a second feature map is generated by applying a second encoder module of the at least one encoder module to the transformed ultrasound map, and the merged feature map is generated by fusing the first feature map and the second feature map.
  • the input data therefore includes the camera image and the transformed ultrasound map.
  • the ultrasound map transformation module may be a non-trainable preprocessing module and, for example, not part of the neural network.
  • a predefined camera model can be used for the camera.
  • Corresponding functions are known in image processing. For example, corresponding functions of the openCV library, such as the fisheye function of the openCV library, can be used.
  • an input image is generated by combining the camera image and the ultrasound map and the at least one feature map is generated by applying the at least one encoder module to the input image.
  • the input image represents the input data.
  • the combination of the camera image and the ultrasound map can be accomplished in various ways.
  • the camera image and the ultrasound card can be linked or one or more channels of the camera image can be replaced by the ultrasound card.
  • the ultrasound map can be transformed from the top view perspective into the camera image plane perspective, in particular by applying the ultrasound map transformation module to the ultrasound map, and the camera image can be concatenated with the transformed ultrasound map or one or more channels of the camera image can be replaced by the transformed ultrasound map.
  • the camera image may be transformed from the camera image plane perspective to the top view perspective, and to combine the camera image and the ultrasound map, the transformed camera image may be concatenated with the ultrasound map, or one or more channels of the transformed camera image may be replaced by the ultrasound map.
  • a method for at least partially automatic guidance of a vehicle in particular a motor vehicle, is specified.
  • the method includes carrying out a method for automatic visual perception according to the invention.
  • the method further includes generating at least one control signal for at least partially automatic Guidance of the vehicle depends on the result of the visual perception task.
  • the at least one control signal can, for example, be provided to one or more actuators of the vehicle, which can automatically or partially automatically influence or carry out lateral and/or longitudinal control of the vehicle.
  • an electronic vehicle guidance system for a vehicle includes at least one computing unit, a storage device that stores a trained artificial neural network, and a camera that is set up to generate a camera image that represents an environment of the vehicle.
  • the electronic vehicle guidance system includes at least one ultrasonic transmitter, which is set up to send ultrasonic pulses into the environment of the vehicle, and at least one ultrasonic detector, which is set up to generate at least one ultrasonic sensor signal depending on reflected components of the transmitted ultrasonic pulses.
  • the at least one computing unit is set up to generate a spatial ultrasound map in a top view perspective depending on the at least one ultrasound sensor signal.
  • the at least one computing unit is set up to generate at least one feature map by applying at least one encoder module of the trained artificial neural network to input data that depends on the camera image and the ultrasound map, each of the at least one encoder module containing at least one convolution layer.
  • the at least one computing unit is set up to use the neural network to carry out a visual perception task depending on the at least one feature map.
  • the at least one computing unit is set up to generate at least one control signal for at least partially automatic guidance of the vehicle depending on the result of the visual perception task.
  • An electronic vehicle guidance system can be understood as an electronic system that is designed to guide a vehicle in a fully automated or a fully autonomous manner and in particular without requiring manual intervention or control by a driver or user of the vehicle.
  • the vehicle automatically carries out all necessary functions, such as steering maneuvers, deceleration maneuvers and/or acceleration maneuvers, as well as monitoring and recording road traffic and corresponding reactions.
  • the electronic vehicle guidance system can implement a fully automatic or fully autonomous driving mode in accordance with level 5 of the SAE J3016 classification.
  • An electronic vehicle guidance system may also be implemented as an advanced driver assistance system, ADAS, which supports a driver for partially automatic or partially autonomous driving.
  • ADAS advanced driver assistance system
  • the electronic vehicle guidance system can implement a partially automatic or partially autonomous driving mode according to levels 1 to 4 of the SAE J3016 classification.
  • SAE J3016 refers to the respective standard dated June 2018.
  • At least partially automatically driving the vehicle may include driving the vehicle according to a fully automatic or fully autonomous driving mode according to level 5 of the SAE J3016 classification.
  • Driving the vehicle at least partially automatically may also include driving the vehicle in accordance with a partially automatic or partially autonomous driving mode in accordance with levels 1 to 4 of the SAE J3016 classification.
  • a computing unit can be understood in particular as a data processing device that has a processing circuit.
  • the computing unit can therefore process data in particular in order to carry out computing operations. This may also include operations to perform indexed accesses to a data structure, such as a lookup table, LUT.
  • the computing unit can have one or more computers, one or more microcontrollers and/or one or more integrated circuits, for example one or more application-specific integrated circuits, ASIC, one or more field-programmable gate arrays, FPGA, and/or one or more inputs.
  • Chip systems, SoC include.
  • the computing unit can also have one or more processors, for example one or more microprocessors, one or more central processing units, CPU, one or more graphics processing units, GPU and/or one or more signal processors, in particular one or more digital signal processors, DSP.
  • the computing unit may also include a physical or a virtual cluster of computers or other of the units.
  • the computing unit includes one or more hardware and/or software interfaces and/or one or more storage units.
  • a memory unit can be used as a volatile data memory, for example dynamic random access memory, DRAM, or static random access memory, SRAM, or as a non-volatile data memory, for example read-only memory, ROM, programmable read-only memory, PROM, erasable programmable read-only memory, EPROM, electrically erasable programmable read-only memory, EEPROM, flash memory or flash EEPROM, ferroelectric random access memory, FRAM, magnetoresistive random access memory, MRAM, or phase change random access memory, PCRAM.
  • ROM read-only memory
  • PROM programmable read-only memory
  • PROM erasable programmable read-only memory
  • EPROM electrically erasable programmable read-only memory
  • EEPROM electrically erasable programmable read-only memory
  • flash memory or flash EEPROM ferroelectric random access memory
  • FRAM magnetoresistive random access memory
  • MRAM magnetoresistive random access memory
  • PCRAM phase change random access memory
  • a component of the electronic vehicle guidance system according to the invention in particular the at least one computing unit of the electronic vehicle guidance system, is designed, set up or designed and so on to perform or realize a specific function, a specific effect achieve or serve a particular purpose, this may be understood to mean that the component, apart from being usable or suitable in principle or theory for that function, effect or purpose, can be achieved through appropriate adaptation, programming, physical construction and so on is specifically and actually capable of carrying out or realizing the function, achieving the effect or serving the purpose.
  • the electronic vehicle guidance system is in accordance with of the invention designed or programmed to carry out the method according to the invention.
  • the electronic vehicle guidance system according to the invention carries out the method according to the invention.
  • a vehicle in particular a motor vehicle, which contains an electronic vehicle guidance system according to the invention.
  • the camera, the at least one ultrasound transmitter and the at least one ultrasound detector are mounted on the vehicle.
  • a computer program product with instructions is provided. If the instructions are executed by an electronic vehicle guidance system according to the invention, in particular by the at least one computing unit of the electronic vehicle guidance system, the instructions cause the electronic vehicle guidance system to implement a method for automatic visual perception according to the invention or a method for at least partially automatically guiding a vehicle Vehicle according to the invention executes.
  • a computer-readable storage medium stores a computer program according to the invention.
  • the computer program and the computer-readable storage medium may be referred to as respective computer program products with the instructions.
  • Fig. 1 shows schematically an exemplary embodiment of a vehicle according to the invention
  • FIG. 2 shows a schematic block diagram of a neural network for use in an exemplary embodiment of a method for automatic visual perception according to the invention
  • FIG. 3 shows a schematic block diagram of a neural network for use in another exemplary embodiment of a method for automatic visual perception according to the invention
  • FIG. 4 shows a schematic block diagram of a neural network for use in another exemplary embodiment of a method for automatic visual perception according to the invention
  • FIG. 5 shows a schematic illustration of the generation of an ultrasound map according to a further exemplary embodiment of a method for automatic visual perception according to the invention
  • Figure 6 shows an illustrative example of a structure in a top view perspective
  • Fig. 7 shows an illustration of the structure from Fig. 6 transformed into a camera image plane perspective.
  • the vehicle 1 shows an exemplary implementation of a vehicle 1 according to the invention.
  • the vehicle 1 includes an exemplary implementation of an electronic vehicle guidance system 2 according to the invention.
  • the electronic vehicle guidance system 2 includes a camera 4 mounted on the vehicle 1, for example a rear-facing camera.
  • the electronic vehicle guidance system 2 further includes an ultrasonic sensor system that includes one or more ultrasonic transceivers 5a, 5b, 5c, 5d, 5e.
  • Each ultrasonic transceiver 5a, 5b, 5c, 5d, 5e can include an ultrasonic transmitter, an ultrasonic transmitter and an ultrasonic detector.
  • the ultrasonic transceivers 5a, 5b, 5c, 5d, 5e are mounted, for example, at a rear end of the vehicle 1, for example on or in a rear bumper of the vehicle 1.
  • the electronic vehicle guidance system 2 further includes a storage device (not shown) which stores a trained artificial neural network 12. Exemplary block diagrams of the neural network 12 are shown in FIGS. 2, 3 and 4, respectively.
  • the electronic vehicle guidance system also includes a computing unit 3 that can apply the neural network 12 to input data that depends on the camera image 6 and an ultrasound map 7 to perform one or more predefined visual perception tasks.
  • the computing unit 3 can then generate at least one control signal for one or more actuators (not shown) of the vehicle 1 in order to at least partially automatically guide the vehicle 1 depending on the corresponding results or outputs of the at least one visual perception task.
  • the electronic vehicle guidance system 2 can carry out an exemplary implementation of a method for automatic visual perception according to the invention.
  • the camera 4 generates the camera image 6, which represents an environment of the vehicle 1, and the ultrasound transceivers 5a, 5b, 5c, 5d, 5e send out corresponding ultrasound pulses into the environment and detect reflected components of the emitted ultrasonic pulses and generate at least one ultrasonic sensor signal 16 (see FIG. 5) depending on the detected reflected components.
  • the computing unit 3 generates the ultrasound map 7 in a top view perspective depending on the at least one ultrasonic sensor signal 16.
  • the computing unit 3 applies at least one encoder module 8, 9, 15 (see FIGS. 2 to 4) to the input data in order to generate at least one feature map.
  • the one or more visual perception tasks are achieved, for example, by applying one or more decoder modules 10 (see FIGS. 2 to 4) of the neural network 12 to the at least one feature map or to one or more further feature maps that result from certain intermediate processing steps which at least one feature card is applied.
  • the computing unit 3 can apply a software module 10, which can also be stored on the storage device, to the at least one sensor signal 16.
  • a software module 10 which can also be stored on the storage device, to the at least one sensor signal 16.
  • FIG. 2 to 4 depict schematic block diagrams of the neural network 12 according to various implementations of the method.
  • the examples of Figures 2 to 4 cannot be construed as an exhaustive list.
  • a first feature map is generated by applying a first encoder module 8 to the camera image 6.
  • a second feature map is generated by applying a second encoder module 9 to the ultrasound map 7.
  • a feature transformation module 11 of the neural network 12 is applied to the first feature map to transform the first feature map from the camera image plane perspective to the top view perspective.
  • a fused feature map is generated by fusing the transformed first feature map and the second feature map, and the visual perception task is performed by applying the decoder module 10 to the fused feature map or to data dependent on the fused feature map.
  • an encoder module 8, 9, 15 of the neural network 12 may include a series of convolutional layers for deep feature extraction. Roughly speaking, the deeper the encoder, the better or more detailed the features are.
  • the type of Encoders can be chosen based on the limitations of the embedded platform. Standard encoder families such as ResNet, VGG, Inception can be used, for example.
  • the ultrasound map 7 is, for example, a single-channel top view map of the immediate surroundings of the vehicle 1. For example, on a grid with a size of the order of meters, for example 6mx12m, there may be a cell side length of the order of centimeters, for example one centimeter.
  • the maximum detection range of the ultrasonic transceivers 5a, 5b, 5c, 5d, 5e which is, for example, approximately 5m, can be covered, also taking into account their relative position to the camera 4, which determines the center of the coordinate system by projection onto the ground surface are defined.
  • the ultrasound card 7 can therefore be comparatively large and relatively sparsely populated, which means that only a small area has a high amplitude.
  • the second encoder module 9 is therefore used to bring the ultrasound map 7 into the feature space, where it can be brought together with the transformed first feature map obtained from the camera image 6.
  • the ultrasound map is converted into the second feature map by passing it through the convolution layers of the second encoder module 9 in such a way that it outputs the features in the same dimension, namely height and width, as the output of the feature transformation module 11.
  • the feature maps are then stacked on top of each other along the depth or channel direction.
  • the second encoder module 9 transforms the sparse ultrasound information contained by the ultrasound map 7 into density information in the top view perspective, namely the second feature map, which is then further processed.
  • the first encoder module 8 may include a sequence of convolution layers with different output scalings and may include regularization techniques. It can be designed as a feature pyramid network or contain one. The first encoder module 8 can take the camera image 6 as input and generate corresponding feature maps at different scales, which then form the first feature map.
  • a camera image transformation module 13 is applied to the camera image 6 to do this Transform camera image 6 from the camera image plane perspective into the top view perspective before the neural network 12, in particular the first encoder module 8, is applied to generate the first feature map.
  • the first feature map and the second feature map are then merged.
  • the neural network 12 only includes an encoder module 15 that is applied to an input image.
  • the input image is generated by combining the camera image 6 and the ultrasound card 7.
  • the ultrasound map 7 can be transformed from the top view perspective into the camera image plane perspective by applying an ultrasound map transformation module 14 to the ultrasound map 7.
  • the camera image and the transformed ultrasound map can be concatenated or one or more channels of the camera image 6 can be replaced by the transformed ultrasound map to generate the input image.
  • FIG. 6 shows a pattern 18 with different contours 19, 20, 21, 22 in a top view perspective.
  • 7 shows a transformed pattern 18', with the contours 19, 20, 21, 22 being imaged in the camera image plane perspective of a fisheye camera, which results in distorted contours 19', 20', 21', 22'.
  • the at least one ultrasonic sensor signal 16 can come from time series measurements and therefore represent the ultrasonic echo amplitude that was recorded over a specified period of time.
  • peaks in the at least one ultrasonic sensor signal 16 derive from an object in the vicinity of the vehicle, which transmits the ultrasonic pulse emitted by an ultrasonic transceiver 5a, 5b, 5c, 5d, 5e back to the same or another ultrasonic transceiver 5a, 5b, 5c, 5d, 5e reflected. Consequently, the entire path of the ultrasound pulse can be calculated, taking into account, for example, the ambient temperature in order to determine the exact speed of sound.
  • the distance of the echo can be on the longitudinal sensor axis of the ultrasonic transceiver 5a, 5b, 5c, 5d, 5e, but due to its large field of view it could also be at a large angle away from the longitudinal sensor axis. Can be up to 70 degrees be possible as long as the object is positioned such that it reflects back to the sensor before the echo amplitude drops so much that it can no longer be distinguished from random noise.
  • FIG. 5 shows schematically how the ultrasound map 7, which represents the surroundings of the vehicle 1, is calculated in the top view perspective, in particular in a vehicle coordinate system, the center of the rear axle of the vehicle 1 being at the origin of the coordinate system.
  • the corresponding positions and orientations of the ultrasound transceivers 5a, 5b, 5c, 5d, 5e are predetermined and known.
  • square grid cells with a side length of one cm can be used.
  • a signal value of the ultrasonic sensor signal 16, which is generated by the corresponding ultrasonic detector, is calculated depending on the distance.
  • a corresponding angle weighting function 17 is provided for each transmitter-emitter pair.
  • each signal value is multiplied by the corresponding angle weighting function 17 evaluated at the position of the grid cell to obtain a corresponding weighted signal value.
  • a grid value is calculated as the sum of the weighted signal values obtained for that corresponding grid cell.
  • the grid values of all grid cells provide the ultrasound map 7.
  • a first angle weighting function which is assigned to the first ultrasonic transceiver (E1, D1), can be given by F1 at the position G and a second angle weighting function, which is assigned to the second ultrasonic transceiver (E2, D2), at the position of G by F2 be given.
  • the grid value at G can then be, for example, as
  • the invention can achieve improved reliability and/or accuracy of automatic visual perception by applying a neural network to input data that depends on a camera image as well as ultrasonic sensor signals.

Landscapes

  • Engineering & Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

Gemäß einem Verfahren zur automatischen visuellen Wahrnehmung mit einem Fahrzeug (1) wird eine Umgebung des Fahrzeugs (1) darstellendes Kamerabild (6) erzeugt, Ultraschallimpulse in die Umgebung ausgesendet und abhängig von reflektierten Anteilen der ausgesendeten Ultraschallimpulse mindestens ein Sensorsignal (16) erzeugt. Abhängig von den Ultraschallsensorsignalen (16) wird eine räumliche Ultraschallkarte (7) in einer Draufsichtperspektive erzeugt, mindestens eine Merkmalskarte wird durch Anwendung mindestens eines Encodermoduls (8, 9, 15) eines trainierten künstlichen neuronalen Netzwerks (12) auf Eingabedaten erzeugt, die von dem Kamerabild (6) und der Ultraschallkarte (7) abhängen, wobei jedes der mindestens einen Encodermodule (8, 9, 15) mindestens eine Faltungsschicht beinhaltet, und eine visuelle Wahrnehmungsaufgabe wird durch das neuronale Netzwerk (12) abhängig von der mindestens einen Merkmalskarte durchgeführt.

Description

Visuelle Wahrnehmung mit einem Fahrzeug basierend auf einem Kamerabild und einer Ultraschallkarte
Die vorliegende Erfindung ist auf ein Verfahren zur automatischen visuellen Wahrnehmung mit einem Fahrzeug gerichtet, wobei ein Kamerabild, das eine Umgebung des Fahrzeugs darstellt, durch eine Kamera des Fahrzeugs erzeugt wird. Die Erfindung ist ferner auf ein elektronisches Fahrzeugführungssystem für ein Fahrzeug gerichtet, das wenigstens eine Recheneinheit, ein Speichergerät, das ein trainiertes künstliches neuronales Netzwerk speichert, und eine Kamera, die dazu eingerichtet ist, ein Kamerabild, das die Umgebung des Fahrzeugs darstellt, zu erzeugen, beinhaltet. Die Erfindung ist ferner auf ein Fahrzeug gerichtet, das ein solches elektronisches Fahrzeugführungssystem aufweist und auf ein Computerprogrammprodukt.
Für teilweise automatische oder vollautomatische Fahrfunktionen ist die zuverlässige automatische Erkennung von Objekten in der Umgebung eines Egofahrzeugs sehr wichtig. Es ist bekannt, Algorithmen zur automatischen visuellen Wahrnehmung, auch als Computer-Vision-Algorithmen, basierend auf Kamerabildern der Kameras des Egofahrzeugs zum Detektieren, Lokalisieren und/oder Charakterisieren von Objekten in der Umgebung des Egofahrzeugs zu verwenden. Typische visuelle Wahrnehmungsaufgaben beinhalten Objekterkennungsaufgaben, die Erkennung von Begrenzungsboxen für Objekte, semantische Segmentierungsaufgaben, Größenregression von Objekten, Höhenregression von Objekten et cetera.
Für bestimmte Umweltbedingungen ist die zuverlässige Wahrnehmung und Charakterisierung von Objekten jedoch eine schwierige Aufgabe für bekannte Algorithmen zur automatischen visuellen Wahrnehmung, was in einer reduzierten Zuverlässigkeit und/oder Genauigkeit der entsprechenden Ausgaben resultiert. Solche Umweltbedingungen beinhalten beispielsweise Szenarien mit wenig Licht sowie Dämmerungs- oder Nachtszenarien, wo die Information, die in den Kamerabildern beinhaltet ist, sehr begrenzt ist. Darüber hinaus können die Detektion und Charakterisierung von Objekten in der Umgebung des Fahrzeugs, die eine besonders geringe Höhe vom Untergrund aufweisen, so wie Randsteine, niedrige Wände, Pfosten oder unklassifizierte oder unbekannte Objekte besonders herausfordernd sein. Dies gilt umso mehr, falls solche Objekte bei Szenarien mit wenig Licht charakterisiert und erkannt werden sollen.
Algorithmen zur automatischen visuellen Wahrnehmungen können beispielsweise auf trainierten künstlichen neuronalen Netzwerken, insbesondere faltenden neuronalen Netzwerken, CNN, basieren. Im Dokument T. Roddick und R. Cipolla “Predicting Semantic Map Representations from Images using Pyramid Occupancy Networks“, 2020 IEEE / CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2020 oder in dem entsprechenden Vorabdruck arXiv:2003.13402v1 (im Folgenden "Roddick und Cipolla") beschreiben die Autoren eine Methode zum Schätzen von Vogelperspektivenkarten des Umfeldes von autonomen Fahrzeugen direkt aus monokularen Bildern unter Verwendung einer einzelnen Ende-zu-Ende Architektur zum tiefen Lernen. Die Architektur besteht aus einem Basisnetzwerk, einem Merkmalspyramidennetzwerk, einem Vogelperspektiventransformationsnetzwerk und einem Abwärtsnetzwerk. Das Basisnetzwerk, das beispielsweise auf ResNet-50 basieren kann, extrahiert Bildmerkmale mit mehreren Auflösungen aus dem Eingabebild und das Merkmalspyramidennetzwerk fügt Merkmale mit hoher Auflösung mit dem räumlichen Kontext von niedrigeren Pyramidenschichten hinzu. Ein Stapel von dichten Transformationsschichten des Vogelperspektiventransformationsnetzwerks bildet die Merkmale auf Bildbasis in die Vogelperspektive ab und das Abwärtsnetzwerk verarbeitet die Vogelperspektivenmerkmale und sagt die finalen semantischen Belegungswahrscheinlichkeiten vorher.
Das Merkmalspyramidennetzwerk basiert auf der Veröffentlichung T. Lin et al.: “Feature Pyramid Networks for Object Detection”, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017 oder dem entsprechenden Vorabdruck arXiv:1612.03144v2 (im Folgenden "Lin et al.").
Es ist ein Ziel der vorliegenden Erfindung, die Zuverlässigkeit und/oder Genauigkeit der automatischen visuellen Wahrnehmung mit einem Fahrzeug zu verbessern.
Dieses Ziel wird durch den jeweiligen Gegenstand der unabhängigen Ansprüche erreicht. Weitere Implementierungen und bevorzugte Ausführungsformen sind ein Gegenstand der abhängigen Ansprüche.
Die Erfindung beruht auf der Idee, ein trainiertes künstliches neuronales Netzwerk zu verwenden, um Merkmale aus einem Kamerabild und aus einer Ultraschallkarte der Umgebung zu extrahieren und eine visuelle Wahrnehmungsaufgabe abhängig von den extrahierten Merkmalen durchzuführen.
Gemäß einem Aspekt der Erfindung wird ein Verfahren zur automatischen visuellen Wahrnehmung mit einem Fahrzeug angegeben. Dabei wird ein Kamerabild, das eine Umgebung des Fahrzeugs darstellt, mittels einer Kamera des Fahrzeugs erzeugt. Ultraschallimpulse werden in die Umgebung durch wenigstens einen Ultraschallsender des Fahrzeugs ausgesendet und wenigstens ein Ultraschallsensorsignal wird von wenigstens einem Ultraschalldetektor des Fahrzeugs abhängig von reflektierten Anteilen der ausgesendeten Ultraschallimpulse erzeugt. Eine Ultraschallkarte, insbesondere eine räumliche Ultraschallkarte, wird in einer Draufsichtperspektive abhängig von dem wenigstens einen Ultraschallsensorsignal erzeugt. Wenigstens eine Merkmalskarte wird durch Anwendung wenigstens eines Encodermoduls eines trainierten künstlichen neuronalen Netzwerks auf Eingabedaten, die von dem Kamerabild und der
Ultraschall karte abhängen, erzeugt, wobei jedes des wenigstens einen Encodermoduls mindestens eine Faltungsschicht aufweist. Eine visuelle Wahrnehmungsaufgabe wird durch das neuronale Netzwerk abhängig von der wenigstens einen Merkmalskarte ausgeführt.
Das Verfahren zur automatischen visuellen Wahrnehmung gemäß der Erfindung kann auch als Verfahren erachtet werden, das die beschriebenen Schritte des Erzeugens des Kamerabilds und des wenigstens einen Ultraschallsensorsignals beinhaltet sowie das Anwenden eines Algorithmus zur automatischen visuellen Wahrnehmung auf die Eingabedaten. Der Algorithmus zur visuellen Wahrnehmung, der auch als Computer- Vision-Algorithmus oder Maschinen-Vision-Algorithmus bezeichnet werden kann, beinhaltet das trainierte künstliche neuronale Netzwerk. Der Algorithmus zur automatischen visuellen Wahrnehmung und, im Allgemeinen, alle Rechenschritte des Verfahrens zur automatischen visuellen Wahrnehmung, können durch wenigstens eine Recheneinheit, insbesondere des Fahrzeugs, ausgeführt werden. Ein Algorithmus zur automatischen visuellen Wahrnehmung kann als computerimplementierter Algorithmus zur automatischen Durchführung einer oder mehrerer visueller Wahrnehmungsaufgaben betrachtet werden. Eine visuelle Wahrnehmungsaufgabe, die auch als Computer- Vision- Aufgabe bezeichnet wird, kann beispielsweise als Aufgabe zur Extraktion visuell wahrnehmbarer Informationen aus Bilddaten verstanden werden. Insbesondere kann die visuelle Wahrnehmungsaufgabe in vielen Fällen prinzipiell durch einen Menschen ausgeführt werden, der in der Lage dazu ist, ein Bild entsprechend der Bilddaten visuell wahrzunehmen. Im vorliegenden Kontext werden visuelle Wahrnehmungsaufgaben jedoch automatisch ohne die Notwendigkeit einer Unterstützung durch einen Menschen durchgeführt.
Im Kontext der vorliegenden Erfindung werden das Verfahren und der Algorithmus zur automatischen visuellen Wahrnehmung nicht ausschließlich basierend auf dem Kamerabild als Sensoreingabe ausgeführt, sondern auch basierend auf dem wenigstens einen Ultraschallsensorsignal beziehungsweise der Ultraschallkarte. Ultraschallwellen sind für Menschen nicht sichtbar. Nichtsdestotrotz wird der vorliegend verwendete Algorithmus als Algorithmus zur visuellen automatischen Wahrnehmung bezeichnet und folglich das Verfahren als Verfahren zur automatischen visuellen Wahrnehmung bezeichnet.
Da die involvierten Sensoreingaben, insbesondere das Kamerabild und das wenigstens eine Ultraschallsensorsignal, durch Sensorsysteme des Fahrzeugs erzeugt werden, insbesondere die Kamera- und die Ultraschallsender und -detektoren, kann das Verfahren als Verfahren zur automatischen visuellen Wahrnehmung mit dem Fahrzeug aufgefasst werden.
Beispielsweise kann das trainierte künstliche neuronale Netzwerk in einer computerlesbaren Weise bereitgestellt werden, beispielsweise gespeichert auf einem Speichermedium des Fahrzeugs, insbesondere der wenigstens einen Recheneinheit.
Das neuronale Netzwerk beinhaltet mehrere Module inklusive des wenigstens einen Encodermoduls und ein oder mehrere Module, die auf die wenigstens eine Merkmalskarte angewendet werden, um die visuelle Wahrnehmungsaufgabe abhängig von der wenigstens einen Merkmalskarte durchzuführen, beispielsweise eines oder mehrere Decodermodule, Regressionsmodule oder sonstige visuelle Wahrnehmungsmodule et cetera. Module können als Softwaremodule oder Teile des neuronalen Netzwerks verstanden werden. Ein Softwaremodul kann als Softwarecode verstanden werden, der funktional verbunden und zu einer Einheit kombiniert ist. Ein Softwaremodul kann mehrere Verarbeitungsschritte und/oder Datenstrukturen beinhalten oder implementieren.
Die Module können insbesondere selbst neuronale Netzwerke oder Unternetzwerke darstellen. Sofern nicht anders angegeben, kann ein Modul des neuronalen Netzwerks als trainierbares und insbesondere trainiertes Modul des neuronalen Netzwerks verstanden werden. Beispielsweise kann das neuronale Netzwerk und folglich alle seine trainierbaren Module in einer Ende-zu-Ende-Weise trainiert werden, bevor das Verfahren zur automatischen visuellen Wahrnehmung ausgeführt wird. In anderen Implementierungen können jedoch verschiedene Module individuell trainiert oder vortrainiert werden. Mit anderen Worten entspricht das Verfahren gemäß der Erfindung einer Anwendungsphase des neuronalen Netzwerks.
Das Training selbst kann durch Verwendung konventioneller Methoden zum Trainieren neuronaler Netzwerke, insbesondere faltender neuronaler Netzwerke, CNN (englisch: „Convolutional Neuronal Networks“), wie etwa überwachte Trainingsverfahren, durchgeführt werden.
Zum Erzeugen der Ultraschall karte abhängig von dem wenigstens einen Ultraschallsensorsignal kann ein weiteres Softwaremodul auf das wenigstens eine Ultraschallsensorsignal angewendet werden, wobei das weitere Softwaremodul nicht notwendigerweise ein Teil des neuronalen Netzwerks ist. Insbesondere ist das weitere Softwaremodul nicht notwendigerweise ein trainiertes oder trainierbares Modul. In anderen Implementierungen kann das weitere Softwaremodul jedoch auch ein trainierbares oder trainiertes Modul des neuronalen Netzwerks sein.
Das wenigstens eine Encodermodul kann eine oder mehrere Faltungsschichten beinhalten, die die Merkmale der wenigstens einen ersten Merkmalskarte aus dem Kamerabild extrahieren. Die räumlichen Dimensionen der wenigstens einen ersten Merkmalskarte können sich im Allgemeinen von den räumlichen Dimensionen des Kamerabildes in Abhängigkeit von der Architektur des wenigstens einen Encoders und insbesondere den Faltungsschichten, beispielsweise den beteiligten oder verwendeten Faltungskernen, unterscheiden. Im Allgemeinen kann das Kamerabild als dreidimensionaler Tensor der Größe H x W x C betrachtet werden. Dabei bezeichnet H x W die räumliche Größe des Kamerabildes, nämlich seine Höhe H und Breite W hinsichtlich Bildpunkten des Kamerabildes. C ist die Kanaldimension und kann im Fall des Kamerabildes beispielsweise verschiedenen Farbkanälen entsprechen. Es ist jedoch auch möglich, dass C für das Kamerabild gleich 1 ist. Jede Merkmalskarte i der wenigstens einen ersten Merkmalskarte ist auch durch eine jeweilige räumliche Größe Hi x Wi und eine Kanalzahl Ci charakterisiert, die sich jedoch von den Größen und Kanalzahlen des Kamerabildes unterscheiden können. Die exakte Höhe Hi und Breite Wi sowie die Kanalzahl Ci von einer der ersten Merkmalskarten hängt von der Anzahl von Faltungsschichten, die durch das Encodermodul verwendet werden, und der Größe und Anzahl von verwendeten Faltungskernen ab. Die Merkmale der wenigstens einen Merkmalskarte können jedoch immer noch als in derselben Kamerabildebenenperspektive wie das Kamerabild gegeben betrachtet werden. Mit anderen Worten, Richtungen, die der Höhe und Breite der Merkmalskarten der wenigstens einen ersten Merkmalskarte entsprechen, entsprechen den Höhen- und Breitenrichtungen im ursprünglichen Kamerabild, selbst wenn keine Eins-zu-Eins-Bildpunktentsprechung zwischen den Merkmalen und den Bildpunkten des Kamerabildes bestehen kann.
Das Kamerabild wird in der Kamerabildebene erzeugt und bereitgestellt. Die Kamerabildebene ist beispielsweise senkrecht zu einer vordefinierten Längsrichtung des Kamerakoordinatensystems, die beispielsweise parallel zu einer optischen Achse der Kamera sein kann. Die Draufsichtperspektive entspricht einer Perspektive gemäß einer Draufsichtebene, die senkrecht auf eine vordefinierte Höhenachse ist. Die Höhenachse kann beispielsweise senkrecht zu einer Straßenoberfläche einer Straße sein, auf der das Fahrzeug positioniert ist oder, mit anderen Worten, parallel zu einer Fahrzeughochachse des Fahrzeugs. Diese kann in manchen Fällen parallel zu einer weiteren Koordinatenachse des Kamerakoordinatensystems sein. Im Allgemeinen kann das Kamerakoordinatensystem jedoch auch gekippt oder gedreht sein.
Alle der Ultraschallimpulse können beispielsweise mit dem wenigstens einen Ultraschallsender gemäß einem vordefinierten Wellenlängenspektrum der involvierten Ultraschallwellen ausgesendet werden oder, in anderen Worten, gemäß einem vordefinierten Sendeband. Insbesondere arbeiten alle Ultraschallsender des wenigstens einen Ultraschallsenders mit demselben Sendeband. Analog können alle Detektoren des wenigstens einen Ultraschalldetektors derart angepasst sein, dass sie Ultraschallwellen gemäß demselben vordefinierten Detektionsband detektieren können, wobei das Detektionsband zu dem Sendeband passt. Mit anderen Worten sind alle der Ultraschalldetektoren im Prinzip dazu in der Lage, Ultraschallwellen, die von irgendeinem der Ultraschallsender erzeugt werden, zu detektieren.
Dies schließt es jedoch nicht aus, dass das Fahrzeug weitere Ultraschallsender aufweist, die bei unterschiedlichen Sendebändern arbeiten sowie zugehörige weitere Ultraschalldetektoren. In diesem Fall können weitere Ultraschallsensorsignale von den weiteren Ultraschalldetektoren basierend auf reflektierten Anteilen von Ultraschallimpulsen, die von den weiteren Ultraschallsendern ausgesendet wurden, erzeugt werden. Die Ultraschallkarte kann in diesem Fall auch abhängig von den weiteren Ultraschallsensorsignalen erzeugt werden. Im Folgenden wird die Diskussion, sofern nichts anderes angegeben, auf den wenigstens einen Ultraschallsender und den wenigstens einen Ultraschalldetektor, die in dem genannten passenden Sendeband beziehungsweise Detektionsband arbeiten, begrenzt. Alle der Ausführungen können jedoch auf die weiteren Ultraschallsender und die weiteren Ultraschalldetektoren entsprechend übertragen werden.
Es wird darüber hinaus festgehalten, dass jeder der wenigstens einen Ultraschallsender entsprechende Ultraschallimpulse wiederholt, insbesondere in einer periodischen Weise, aussenden kann, und das wenigstens eine Ultraschallsensorsignal als wenigstens eine Zeitreihe von Messungen betrachtet werden kann. Beispielsweise kann jedes Ultraschallsensorsignal als eine Einhüllende einer Ultraschallwelle darstellend aufgefasst werden, die den reflektierten Anteilen der entsprechend ausgesendeten Ultraschallimpulse entspricht. Jedes Ultraschallsensorsignal ist dann durch eine Amplitude der entsprechenden Einhüllenden als Funktion der Zeit gegeben. Da die Schallgeschwindigkeit bekannt ist oder abgeschätzt werden kann, insbesondere für eine gegebene Lufttemperatur oder eine geschätzte Lufttemperatur in der Umgebung, kann die Amplitude als Funktion der Zeit direkt in eine Amplitude als Funktion einer Wegstrecke konvertiert werden, die einer Summe der Entfernungen von dem entsprechenden Ultraschallsender zu einem reflektierten Objekt in der Umgebung und zurück zu dem entsprechenden Ultraschalldetektor entspricht.
Der wenigstens eine Ultraschallsender und der wenigstens eine Ultraschalldetektor können als Ultraschallsendeempfänger kombiniert sein oder sie können separat voneinander implementiert sein. Insbesondere können reflektierte Anteile eines Ultraschallimpulses, der von einem Ultraschallsendeempfänger ausgesendet wurde, von demselben Ultraschallsendeempfänger detektiert werden, was als direkter Signalpfad bezeichnet wird, oder von einem anderen Ultraschallsendeempfänger, was als indirekter Signalpfad bezeichnet wird.
Insbesondere kann ein Sichtfeld der Kamera teilweise mit einem Sichtfeld des wenigstens einen Ultraschalldetektors beziehungsweise des wenigstens einen Ultraschallsenders überlappen. Folglich stellen das Kamerabild und das wenigstens eine Ultraschallsensorsignal wenigstens teilweise dieselbe räumliche Region in der Umgebung des Fahrzeugs dar.
Die Ultraschallkarte kann beispielsweise als Ultraschallbild verstanden werden. Insbesondere kann die Ultraschallkarte durch eine Vielzahl von Gitterwerten gegeben sein, wobei jeder Gitterwert einer entsprechenden Gitterzelle eines vordefinierten räumlichen Gitters in der Draufsichtperspektive entspricht. Jede Gitterzelle entspricht dann einem entsprechenden Pixel in der Ultraschallkarte, wobei der Gitterwert als entsprechender Pixelwert interpretiert werden kann. Folglich kann die Ultraschall karte analog wie für Kamerabilder von dem neuronalen Netzwerk behandelt werden, beispielsweise indem es durch eine oder mehrere Faltungsschichten des wenigstens einen Encodermoduls gereicht wird. Obwohl der Inhalt der Ultraschallkarte nicht unmittelbar für einen Menschen interpretierbar sein kann, ist das trainierte neuronale Netzwerk dazu in der Lage, die codierte Information automatisch zu interpretieren, ähnlich wie für Kamerabilder. Da die wenigstens eine Merkmalskarte basierend auf beiden, der Ultraschall karte sowie dem Kamerabild, erzeugt wird, kann die Zuverlässigkeit der visuellen Wahrnehmungsaufgabe und ihre Ausgabe signifikant verbessert werden, insbesondere für Szenarios mit wenig Licht. Insbesondere stellen die Ultraschallsensorsignale reflektierende Objekte in der Umgebung des Fahrzeugs unabhängig von den Beleuchtungsbedingungen dar.
Gemäß verschiedener Implementierungen des Verfahrens zur automatischen visuellen Wahrnehmung ist die Ultraschall karte durch eine Vielzahl von Gitterwerten gegeben, wobei jeder Gitterwert einer entsprechenden Gitterzelle eines vordefinierten räumlichen Gitters in der Draufsichtperspektive entspricht, wobei für jede der Gitterzellen und für jedes Sender-Detektor-Paar des wenigstens einen Ultraschallsenders und des wenigstens einen Ultraschalldetektors eine entsprechende Wegstrecke berechnet wird und ein Signalwert abhängig von der Wegstrecke berechnet wird. Der Gitterwert der entsprechenden Gitterzelle wird abhängig von dem Signalwert berechnet. Dabei ist die Wegstrecke eine Wegstrecke von einer Position des Ultraschalls im Sender des Sender- Detektor-Paars über die Position der Gitterzelle zu einer Position des Ultraschalldetektors des Sender-Detektor-Paars. Der Signalwert ist ein Signalwert des Ultraschallsensorsignals, welches durch den Ultraschalldetektor des Sender-Detektor- Paars erzeugt wird.
Die Sender-Detektor-Paare können beispielsweise so verstanden werden, dass jeder Detektor des wenigstens einen Ultraschalldetektors mit jedem des mindestens einen Ultraschallsenders ein Sender-Detektor-Paar bildet, unabhängig davon, ob sie einen gemeinsamen Ultraschallsendeempfänger bilden. Bei n Ultraschallsendern und m Ultraschalldetektoren ergeben sich n*m Sender-Detektor-Paare.
Das Gitter ist insbesondere ein zweidimensionales Gitter. Beispielsweise können die Gitterzellen in einem Array von Zeilen und Spalten angeordnet sein und demzufolge als kartesisches oder rechteckiges Gitter aufgefasst werden. Es sind jedoch auch andere Umsetzungen möglich, zum Beispiel die Verwendung eines Polargitters, wobei jede Gitterzelle durch ein Intervall eines radialen Abstands und ein Winkelintervall gegeben ist.
Insbesondere entspricht, wie oben beschrieben, jeder Wert der Ultraschallsensorsignale einer bestimmten zurückgelegten Zeit und folglich einer bestimmten Wegstrecke. Daher kann das Ultraschallsignal bei der berechneten Wegstrecke von der Position des Ultraschallsenders zu der Gitterzelle zurück zu dem Ultraschalldetektor ausgewertet werden. Da die Auflösung der Ultraschallsensorsignale endlich ist, kann eine Interpolation der entsprechenden Werte durchgeführt werden, um das Ultraschallsensorsignal bei der berechneten Wegstrecke auszuwerten. Es wird angemerkt, dass das räumliche Gitter in der Draufsichtperspektive in einem Real-Welt-Koordinatensystem, beispielsweise einem Koordinatensystem der Kamera oder des Fahrzeugs, definiert ist. Der Signalwert, der abhängig von der Wegstrecke berechnet wurde, kann daher derart verstanden werden, dass er das Vorhandensein oder die Abwesenheit eines Objekts an der Position in der Umgebung des Fahrzeugs, die durch die Gitterzelle gegeben ist, anzeigt. Dass die beschriebenen Schritte für jede Gitterzelle und jedes Sender-Detektor-Paar durchgeführt werden, kann derart verstanden werden, dass eine bestimmte Gitterzelle ausgewählt wird und ein bestimmter Ultraschalldetektor des wenigstens einen Ultraschalldetektors ausgewählt wird. Die Wegstrecke wird dann für die ausgewählte Gitterzelle und den ausgewählten Ultraschalldetektor für jeden des wenigstens einen Ultraschallsenders berechnet und dann wird der entsprechende Signalwert berechnet. Diese Schritte werden dann für dieselbe Gitterzelle und alle anderen Ultraschalldetektoren des wenigstens einen Ultraschalldetektors wiederholt. Sodann werden diese Schritte erneut für alle anderen Gitterzellen wiederholt.
Falls weitere Ultraschallsender und weitere Ultraschalldetektoren involviert sind, die bei weiteren Sende- und Detektionsbändern arbeiten, können dieselben Schritte auch für diese ausgeführt werden. Ultraschalldetektoren und Ultraschallsender mit nicht passenden Sende- und Empfangsbändern werden jedoch nicht gepaart.
Gemäß mehrerer Implementierungen wird für jedes Sender-Detektor-Paar eine entsprechende Winkelgewichtungsfunktion bereitgestellt. Für jede Gitterzelle wird jeder Signalwert mit der entsprechenden Winkelgewichtungsfunktion ausgewertet an der Position der Gitterzelle multipliziert, um einen entsprechenden gewichteten Signalwert zu erhalten. Für jede Gitterzelle wird der Gitterwert abhängig von einer Summe der gewichteten Signalwerte, die für die entsprechende Gitterzelle erhalten wurden, berechnet. Falls beispielsweise, abgesehen von dem wenigstens einen Ultraschallsender und dem wenigstens einen Ultraschalldetektor, mit passenden Sende- beziehungsweise Detektionsbändern keine weiteren Ultraschallsender und Ultraschalldetektoren involviert sind, kann der Gitterwert für eine gegebene Gitterzelle durch die Summe der gewichteten Signalwerte wie oben beschrieben gegeben sein. Andererseits, wenn weitere Ultraschallsender und Ultraschalldetektoren mit anderen Sende- beziehungsweise Detektionsbändern involviert sind, können weitere gewichtete Signalwerte für jeden Satz von weiteren Ultraschallsendern und weiteren Ultraschalldetektoren mit passenden Sende- beziehungsweise Detektionsbändern analog berechnet werden. Der Gitterwert ist dann durch eine Summe aller gewichteten Signalwerte und aller weiteren gewichteten Signalwerte gegeben, die für diese Gitterzelle berechnet wurden.
Die Winkelgewichtungsfunktion beschreibt zum Beispiel, wie sich die Amplitude des wenigstens einen Ultraschallsensorsignals typischerweise für verschiedene Winkel, insbesondere Polarwinkel in der Draufsichtperspektive, unterscheidet. Empirisches, experimentelles oder heuristisches Wissen kann verwendet werden, um die entsprechenden Winkelgewichtungsfunktionen zu definieren. Auf diese Weise kann die zweidimensionale Information der Ultraschallkarte aus dem wenigstens einen Ultraschallsensorsignal mit erhöhter Genauigkeit erhalten werden. Im Allgemeinen können die Winkelgewichtungsfunktionen für unterschiedliche Ultraschallsensorsignale und dementsprechend für unterschiedliche Ultraschalldetektoren verschieden sein. Die Winkelgewichtungsfunktion kann beispielsweise von wenigstens einer Beta-Verteilung abhängen.
Beispielsweise für einen direkten Signalpfad kann die entsprechende Winkelgewichtungsfunktion durch eine einzelne Beta-Verteilung gegeben sein, die bei dem zugehörigen Ultraschallsendeempfänger zentriert ist. Im Falle eines indirekten Signalpfads können zwei solche Beta-Verteilungen, die an unterschiedlichen Positionen entsprechend der zwei verschiedenen involvierten Ultraschallsendeempfängern zentriert sind, miteinander kombiniert werden, um die Winkelgewichtungsfunktion zu erhalten. Beispielsweise kann das Minimum der beiden Beta-Verteilungen an der entsprechenden Position verwendet werden oder ein Durchschnittswert und so weiter.
Die Beta-Verteilung kann beispielsweise gegeben sein durch
Figure imgf000012_0001
Insbesondere mit p = q = 2, sodass f2,2M ~ (l - x), mit einem geeigneten Normierungsfaktor. Dabei stellt x eine Größe dar, die von dem Polarwinkel in der Draufsichtperspektive, insbesondere bezüglich einer Längsachse des entsprechenden Ultraschallsendeempfängers, abhängt, insbesondere dazu proportional ist. Es wurde herausgefunden, dass auf diese Weise die tatsächliche Charakteristik von Ultraschallsendeempfängern gut modelliert werden kann.
Gemäß verschiedener Implementierungen wird eine erste Merkmalskarte der wenigstens einen Merkmalskarte durch ein erstes Encodermodul des wenigstens einen Encodermoduls abhängig von dem Kamerabild erzeugt. Eine zweite Merkmalskarte der wenigstens einen Merkmalskarte wird durch Anwendung eines zweiten Encodermoduls des wenigstens einen Encodermoduls auf die Ultraschall karte erzeugt. Eine fusionierte Merkmalskarte wird abhängig von der ersten Merkmalskarte und der zweiten Merkmalskarte erzeugt. Die visuelle Wahrnehmungsaufgabe wird von dem neuronalen Netzwerk abhängig von der fusionierten Merkmalskarte durchgeführt.
Mit anderen Worten wird die erste Merkmalskarte durch Anwendung des ersten Encodermoduls auf das Kamerabild oder auf eine modifizierte oder vorverarbeitete Version des Kamerabilds erzeugt. Folglich beinhalten die Eingabedaten die Ultraschall karte und das Kamerabild oder das modifizierte oder vorverarbeitete Kamerabild.
Das Erzeugen der fusionierten Merkmalskarte kann das Fusionieren der ersten Merkmalskarte und der zweiten Merkmalskarte beinhalten. Alternativ können die erste Mekrmalskarte und/oder die zweite Merkmalskarte durch eines oder mehrere Module oder Schritte des neuronalen Netzwerks weiter verarbeitet werden, bevor sie entsprechend fusioniert werden.
Fusionieren kann die Anwendung eines bekannten Mechanismus zum Fusionieren von Merkmalskarten beinhalten, sowie das Verketten der entsprechenden Merkmalskarten. In manchen Implementierungen können die Merkmalskarten auch upgesampelt oder downgesampelt werden, um die erwünschten räumlichen Dimensionen zur weiteren Verarbeitung zu erhalten. Die Erzeugung der fusionierten Merkmalskarte kann durch ein Fusionierungsmodul des neuronalen Netzwerks durchgeführt werden, das beispielsweise nicht trainierbar oder nicht trainiert ist.
Zum Ausführen der wenigstens einen visuellen Wahrnehmungsaufgabe können eines oder mehrere Decodermodule und/oder eines oder mehrere Regressionsmodule des neuronalen Netzwerks auf die fusionierte Merkmalskarte angewendet werden. In anderen Implementierungen können eines oder mehrere weitere Netzwerkmodule des neuronalen Netzwerks auf die fusionierte Merkmalskarte angwendet werden und das eine oder die mehreren Decodermodule und das eine oder die mehreren Regressionsmodule können dann auf eine entsprechende Ausgabe des einen oder der mehreren weiteren Netzwerkmodule angewendet werden.
Gemäß verschiedener Implementierungen wird die erste Merkmalskarte durch Anwendung des ersten Encodermoduls auf das Kamerabild erzeugt und ein Merkmals- Transformationsmodul des neuronalen Netzwerks wird auf die erste Merkmalskarte angewendet, um die erste Merkmalskarte von der Kamerabildebenenperspektive in die Draufsichtperspektive zu transformieren. Die fusionierte Merkmalskarte wird durch Fusionieren der transformierten ersten Merkmalskarte und der zweiten Merkmalskarte erzeugt.
Algorithmen zur Konversion eines Kamerabilds aus der Kamerabildebenenperspektive in eine Draufsichtperspektive sind an sich bekannt. Gemäß der genannten Implementierungen wird jedoch nicht das Kamerabild von der Kamerabildebenenperspektive in die Draufsichtperspektive transformiert, sondern die erste Merkmalskarte. Auf diese Weise wird es erreicht, dass die transformierte erste Merkmalskarte und die zweite Merkmalskarte in derselben Perspektive gegeben sind, was die Leistungsfähigkeit oder Trainingseffizienz des Netzwerks verbessern kann.
Das Merkmalstransformationsmodul kann beispielsweise ausgestaltet sein, wie es in der Veröffentlichung von Roddick und Cipolla bezüglich der Multiskalen dichten Transformatoren beziehungsweise des Stapels dichter Transformatorschichten beschrieben wird.
In alternativen Implementierungen wird die erste Merkmalskarte durch Anwendung des ersten Encodermoduls auf das Kamerabild erzeugt und ein weiteres Merkmalstransformationsmodul des neuronalen Netzwerks wird auf die zweite Merkmalskarte angewendet, um die zweite Merkmalskarte aus der Draufsichtperspektive in die Kamerabildebenenperspektive der Kamera zu tranformieren. Die fusionierte Merkmalskarte wird durch Fusionieren der ersten Merkmalskarte und der transformierten zweiten Merkmalskarte erzeugt.
In noch anderen Implementierungen wird ein Kamerabild-Transformationsmodul, das Teil des neuronalen Netzwerks sein kann oder ein Vorverarbeitungsmodul sein kann, insbesondere ein untrainiertes Vorverarbeitungsmodul, auf das Kamerabild angewendet, um das Kamerabild aus der Kamerabildebenenperspektive in die Draufsichtperspektive zu transformieren. Die erste Merkmalskarte wird durch Anwendung des ersten Encodermoduls auf das transformierte Kamerabild erzeugt und die fusionierte Merkmalskarte wird erzeugt, indem die erste Merkmalskarte und die zweite Merkmalskarte fusioniert werden.
Während das Merkmalstransformationsmodul ein trainierbares Modul ist, kann das Kamerabildtransformationsmodul auf einer vordefinierten projektiven Transformation basieren. Dies hat den Vorteil, dass das Trainieren des neuronalen Netzwerks vereinfacht wird. Auf der anderen Seite hat die Verwendung des trainierbaren und trainierten Merkmalstransformationsmodul in den oben genannten alternativen Implementierungen den Vorteil, dass die exakte Projektion, die im Allgemeinen von dem Typ oder Modell der Kamera abhängen kann, nicht bekannt sein muss.
Gemäß mehrerer Implementierungen wird eine Zwischenmerkmalskarte durch Anwendung eines Top-Down-Netzwerkmoduls des neuronalen Netzwerks auf die fusionierte Merkmalskarte erzeugt. Die visuelle Wahrnehmungsaufgabe wird durch Anwendung des einen oder der mehreren Decodermoduls und/oder des einen oder der mehreren Regressionsmodule auf die Zwischenmerkmalskarte erzeugt.
Beispielsweise kann die Architektur des Top-Down-Netzwerks, das in der Veröffentlichung von Roddick und Cipolla beschrieben ist, verwendet werden. Gemäß entsprechender Implementierungen der Erfindung führt das Top-Down-Netzwerkmodul jedoch die visuelle Wahrnehmungsaufgabe nicht vollständig aus. Stattdessen kann das Top-Down- Netzwerkmodul als ein aufgabenunabhängiger Verarbeitungsblock oder aufgabenunabhängiger Decoderblock betrachtet werden, während das eine oder die mehreren Decodermodule und/oder das eine oder die mehreren Regressionsmodule aufgabenabhängige Module sein können. Gemäß verschiedener Implementierungen beinhaltet die visuelle Wahrnehmungsaufgabe eine Objekthöhenregressionsaufgabe, eine semantische Segmentierungsaufgabe, eine Begrenzungsboxerkennungsaufgabe und/oder eine Objekterkennungsaufgabe. Wenn die visuelle Wahrnehmungsaufgabe die Objekthöhenregressionsaufgabe beinhaltet, beinhaltet eine Ausgabe eines entsprechenden Regressionsmoduls zur Ausführung der Objekthöhenregressionsaufgabe eine Höhenkarte, beispielsweise in der Draufsichtperspektive. Die Höhenkarte beinhaltet eine vorhergesagte Objekthöhe eines oder mehrerer Objekte in der Umgebung.
Beispielsweise kann die Höhenkarte einem Höhengitter entsprechen, wobei jede Gitterzelle des Höhengitters einer entsprechenden zweidimensionalen räumlichen Position in der Draufsichtperspektive entspricht und die Höhenkarte einen vorhergesagten oder geschätzten Höhenwert für jede der Gitterzellen der Höhenkarte beinhaltet.
Durch die Fusionierung der Informationen, die aus dem wenigstens einen Ultraschallsensorsignal erhalten werden und der Informationen, die aus dem Kamerabild erhalten werden, kann die Höhenkarte in einer besonders zuverlässigen und genauen Art und Weise berechnet werden. Die Höhenkarte kann als wertvolle Eingabe für Fahrerassistenzfunktionen oder andere automatische oder halbautomatische Fahrfunktionen für das Fahrzeug verwendet werden.
Falls die visuelle Wahrnehmungsaufgabe die semantische Segmentierungsaufgabe enthält, beinhaltet die Ausgabe des entsprechenden Decodermoduls ein semantisch segmentiertes Bild, beispielsweise in der Draufsichtperspektive oder in der Kamerabildebenenperspektive.
Das semantisch segmentierte Bild kann als rechteckiges Array von Pixeln verstanden werden, wobei eine Objektklasse einer Vielzahl vordefinierter Objektklassen jedem der Pixel zugeordnet ist.
Durch die Fusionierung der Informationen, die von dem wenigstens einen Ultraschallsensorsignal erhalten werden, und den Informationen, die von dem Kamerabild erhalten werden, kann das semantisch segmentierte Bild in einer besonders zuverlässigen und genauen Weise berechnet werden. Das semantisch segmentierte Bild kann als wertvolle Eingabe für Fahrerassistenzfunktionen oder sonstige automatische oder halbautomatische Fahrfunktionen des Fahrzeugs verwendet werden. Falls die visuelle Wahrnehmungsaufgabe die Objekterkennungsaufgabe beinhaltet, beinhaltet die Ausgabe des entsprechenden Decodermoduls eine entsprechende Postiioni und Größe von wenigstens einer Begrenzungsbox für eines oder mehrere Objekte in der Umgebung des Fahrzeugs sowie eine entsprechende Objektklasse, die jeder der Begrenzungsboxen zugeordnet ist.
Durch die Fusionierung der Informationen, die aus dem wenigstens einen Ultraschallsensorsignal erhalten werden und der Informationen, die aus dem Kamerabild erhalten werden, können die Position und Größe und Objektklasse der entsprechenden Begrenzungsboxen in einer besonders zuverlässigen und genauen Weise berechnet werden. Die Objektklassen und die Begrenzungsboxen können als wertvolle Eingabe für Fahrerassistenzfunktionen oder sonstige automatische oder halbautomatische Fahrfunktionen des Fahrzeugs verwendet werden.
Gemäß mehrerer Implementierungen ist das erste Encodermodul ausgestaltet, wie es in der Veröffentlichung von Roddick und Cipolla beschrieben ist.
Gemäß verschiedener Implementierungen beinhaltet das Merkmalstransformationsmodul zur Transformation der ersten Merkmalskarte aus der Kamerabildebenenperspektive in die Draufsichtperspektive ein Transformator-Pyramidennetzwerk, wie es beispielsweise in der Veröffentlichung von Roddick und Cipolla beschrieben ist.
Gemäß mehrerer Implementierungen wird die Merkmalskarte durch Anwendung des ersten Endocermoduls des wenigstens einen Encodermoduls auf das Kamerabild erzeugt und ein Ultraschallkarten-Transformationsmodul wird auf die Ultraschallkarte angwendet, um die Ultraschallkarte von der Draufsichtperspektive in die Kamerabildebenenperspektive der Kamera zu transformieren. Eine zweite Merkmalskarte wird durch Anwendung eines zweiten Encodermoduls des wenigstens einen Encodermoduls auf die transformierte Ultraschall karte erzeugt und die fusionierte Merkmalskarte wird durch Fusionieren der ersten Merkmalskarte und der zweiten Merkmalskarte erzeugt.
In solchen Implementierungen beinhalten die Eingabedaten daher das Kamerabild und die transformierte Ultraschall karte. Das Ultraschallkartentransformationsmodul kann ein nicht trainierbares Vorverarbeitungsmodul sein und beispielsweise nicht Teil des neuronalen Netzwerks. Um die Ultraschall karte von der Draufsichtperspektive in die Kamerabildebenenperspektive zu transformieren, kann ein vordefiniertes Kameramodell für die Kamera verwendet werden. Entsprechende Funktionen sind in der Bildverarbeitung bekannt. Beispielsweise können entsprechende Funktionen der openCV-Bibliothek, wie beispielsweise die Fisheyefunktion der openCV-Bibliothek, verwendet werden.
Entsprechende Modelle für verschiedene Arten von Fisheyekameras oder Lochkameras oder andere Arten von Kameras sind verfügbar.
Gemäß zumindest einer Implementierung wird ein Eingabebild erzeugt, in dem das Kamerabild und die Ultraschallkarte kombiniert werden und die wenigstens eine Merkmalskarte wird durch Anwendung des wenigstens einen Encodermoduls auf das Eingabebild erzeugt.
In diesem Fall stellt das Eingabebild die Eingabedaten dar. Die Kombination des Kamerabilds und der Ultraschallkarte kann auf verschiedene Weisen bewerkstelligt werden. Beispielsweise können das Kamerabild und die Ultraschallkarte verkettet werden oder einer oder mehrere Kanäle des Kamerabilds kann durch die Ultraschall karte ersetzt werden.
Alternativ kann die Ultraschallkarte aus der Draufsichtperspektive in die Kamerabildebenenperspektive transformiert werden, insbesondere durch Anwendung des Ultraschallkartentransformationsmoduls auf die Ultraschallkarte, und das Kamerabild kann mit der transformierten Ultraschallkarte verkettet werden oder einer oder mehrere Kanäle des Kamerabilds können durch die transformierte Ultraschallkarte ersetzt werden.
In wieder anderen Implementierungen kann das Kamerabild aus der Kamerabildebenenperspektive in die Draufsichtperspektive transformiert werden und zum Kombinieren des Kamerabilds und der Ultraschallkarte kann das transformierte Kamerabild mit der Ultraschall karte verkettet werden oder einer oder mehrere Kanäle des transformierten Kamerabilds können durch die Ultraschall karte ersetzt werden.
Gemäß einem weiteren Aspekt der Erfindung wird ein Verfahren zur wenigstens teilweise automatischen Führung eines Fahrzeugs, insbesondere eines Kraftfahrzeugs, angegeben. Das Verfahren beinhaltet das Ausführen eines Verfahrens zur automatischen visuellen Wahrnehmung gemäß der Erfindung. Das Verfahren beinhaltet ferner das Erzeugen wenigstens eines Steuersignals zur wenigstens teilweise automatischen Führung des Fahrzeugs abhängig von dem Ergebnis der visuellen Wahrnehmungsaufgabe.
Das wenigstens eine Steuersignal kann beispielsweise einem oder mehreren Aktuatoren des Fahrzeugs bereitgestellt werden, der eine Quer- und/oder Längssteuerung des Fahrzeugs automatisch oder teilweise automatisch beeinflussen oder ausführen kann.
Für Anwendungsfälle oder Situationen, die in dem Verfahren auftreten können und die nicht ausdrücklich hier beschrieben sind, kann vorgesehen sein, dass gemäß dem Verfahren eine Fehlernachricht und/oder eine Aufforderung für eine Benutzerrückmeldung ausgegeben wird und/oder eine Standardeinstellung und/oder ein vordefinierter Initialzustand eingestellt wird.
Gemäß einem weiteren Aspekt der Erfindung wird ein elektronisches Fahrzeugführungssystem für ein Fahrzeug angegeben. Das elektronische Fahrzeugführungssystem beinhaltet mindestens eine Recheneinheit, ein Speichergerät, das ein trainiertes künstliches neuronales Netzwerk speichert, und eine Kamera, die dazu eingerichtet ist, ein Kamerabild, welches eine Umgebung des Fahrzeugs darstellt, zu erzeugen. Das elektronische Fahrzeugführungssystem beinhaltet wenigstens einen Ultraschallsender, der dazu eingerichtet ist, Ultraschallimpulse in die Umgebung des Fahrzeugs zu senden, und wenigstens einen Ultraschalldetektor, der dazu eingerichtet ist, wenigstens ein Ultraschallsensorsignal abhängig von reflektierten Anteilen der gesendeten Ultraschallimpulse zu erzeugen. Die wenigstens eine Recheneinheit ist dazu eingerichtet, eine räumliche Ultraschallkarte in einer Draufsichtperspektive abhängig von dem wenigstens einen Ultraschallsensorsignal zu erzeugen. Die wenigstens eine Recheneinheit ist dazu eingerichtet, wenigstens eine Merkmalskarte durch Anwendung wenigstens eines Encodermoduls des trainierten künstlichen neuronalen Netzwerks auf Eingabedaten, die von dem Kamerabild und der Ultraschallkarte abhängen, zu erzeugen, wobei jedes des wenigstens einen Encodermoduls mindestens eine Faltungsschicht beinhaltet. Die wenigstens eine Recheneinheit ist dazu eingerichtet, das neuronale Netzwerk zu verwenden, um eine visuelle Wahrnehmungsaufgabe abhängig von der wenigstens einen Merkmalskarte auszuführen. Die wenigstens eine Recheneinheit ist dazu eingerichtet, wenigstens ein Steuersignal zum wenigstens teilweise automatischen Führen des Fahrzeugs abhängig von dem Ergebnis der visuellen Wahrnehmungsaufgabe zu erzeugen. Ein elektronisches Fahrzeugführungssystem kann als elektronisches System verstanden werden, das dazu eingerichtet ist, ein Fahrzeug in einer vollständig automatisierten oder einer vollständig autonomen Weise und insbesondere ohne, dass ein manueller Eingriff oder eine Steuerung durch einen Fahrer oder Benutzer des Fahrzeugs erforderlich ist, zu führen. Das Fahrzeug führt alle erforderlichen Funktionen, wie zum Beispiel Lenkmanöver, Verlangsamungsmanöver und/oder Beschleunigungsmanöver, sowie die Überwachung und Aufzeichnung des Straßenverkehrs und entsprechende Reaktionen automatisch aus. Insbesondere kann das elektronische Fahrzeugführungssystem einen vollständig automatischen oder vollständig autonomen Fahrmodus gemäß der Stufe 5 der Klassifikation SAE J3016 implementieren. Ein elektronisches Fahrzeugführungssystem kann auch als fortschrittliches Fahrerassistenzsystem, ADAS, implementiert sein, das einen Fahrer zum teilweise automatischen oder teilweise autonomen Fahren unterstützt. Insbesondere kann das elektronische Fahrzeugführungssystem einen teilweise automatischen oder teilweise autonomen Fahrmodus gemäß den Stufen 1 bis 4 der Klassifikation SAE J3016 implementieren. Hier und im Folgenden bezieht sich SAE J3016 auf den jeweiligen Standard mit Datum von Juni 2018.
Daher kann das wenigstens teilweise automatische Führen des Fahrzeugs das Führen des Fahrzeugs gemäß einem vollständig automatischen oder vollständig autonomen Fahrmodus gemäß der Stufe 5 der Klassifikation SAE J3016 beinhalten. Das wenigstens teilweise automatische Führen des Fahrzeugs kann auch das Führen des Fahrzeugs gemäß einem teilweise automatischen oder teilweise autonomen Fahrmodus gemäß den Stufen 1 bis 4 der Klassifikation SAE J3016 beinhalten.
Eine Recheneinheit kann insbesondere als Datenverarbeitungsvorrichtung verstanden werden, die einen Verarbeitungsschaltkreis aufweist. Die Recheneinheit kann daher insbesondere Daten verarbeiten, um Rechenoperationen durchzuführen. Dies kann auch Operationen beinhalten, um indizierte Zugriffe auf eine Datenstruktur, beispielsweise eine Nachschlagetabelle, LUT, durchzuführen.
Insbesondere kann die Recheneinheit einen oder mehrere Computer, einen oder mehrere Mikrocontroller und/oder einen oder mehrere integrierte Schaltkreise, beispielsweise einen oder mehrere anwendungsspezifische integrierte Schaltkreise, ASIC, ein oder mehrere feldprogrammierbare Gate-Arrays, FPGA, und/oder ein oder mehrere Ein-Chip- Systeme, SoC, beinhalten. Die Recheneinheit kann auch einen oder mehrere Prozessoren, beispielsweise einen oder mehrere Mikroprozessoren, eine oder mehrere Zentraleinheiten, CPU, eine oder mehrere Graphikverarbeitungseinheiten, GPU und/oder einen oder mehrere Signalprozessoren, insbesondere einen oder mehrere Digitalsignalprozessoren, DSP, beinhalten. Die Recheneinheit kann auch einen physikalischen oder einen virtuellen Cluster von Computern oder anderen der Einheiten beinhalten.
In verschiedenen Ausführungsformen beinhaltet die Recheneinheit eine oder mehrere Hardware- und/oder Softwareschnittstellen und/oder eine oder mehrere Speichereinheiten.
Eine Speichereinheit kann als flüchtiger Datenspeicher, beispielsweise dynamischer Direktzugriffsspeicher, DRAM, oder statischer Direktzugriffsspeicher, SRAM, oder als nichtflüchtiger Datenspeicher, beispielsweise Festwertspeicher, ROM, programmierbarer Festwertspeicher, PROM, löschbarer programmierbarer Festwertspeicher, EPROM, elektrisch löschbarer programmierbarer Festwertspeicher, EEPROM, Flash-Speicher oder Flash-EEPROM, ferroelektrischer Direktzugriffsspeicher, FRAM, magnetoresistiver Direktzugriffsspeicher, MRAM, oder Phasenänderungsdirektzugriffsspeicher, PCRAM, implementiert werden.
Wenn in der vorliegenden Offenbarung erwähnt ist, dass eine Komponente des elektronischen Fahrzeugführungssystems gemäß der Erfindung, insbesondere die wenigstens eine Recheneinheit des elektronischen Fahrzeugführungssystems, dazu ausgelegt, eingerichtet oder entworfen und so weiter ist, eine bestimmte Funktion durchzuführen oder zu realisieren, einen bestimmten Effekt zu erreichen oder einem bestimmten Zweck zu dienen, kann dies derart verstanden werden, dass die Komponente, abgesehen davon, dass sie für diese Funktion, diesen Effekt oder diesen Zweck im Prinzip oder theoretisch verwendbar oder geeignet ist, durch eine entsprechende Anpassung, Programmierung, physikalische Konstruktion und so weiter konkret und tatsächlich in der Lage ist, die Funktion auszuführen oder zu realisieren, den Effekt zu erreichen oder dem Zweck zu dienen.
Weitere Implementierungen des elektronischen Fahrzeugführungssystems gemäß der Erfindung folgen direkt aus den verschiedenen Ausführungsformen des Verfahrens gemäß der Erfindung und umgekehrt. Insbesondere können individuelle Merkmale und entsprechende Erläuterungen sowie Vorteile in Bezug auf die verschiedenen Implementierungen des Verfahrens gemäß der Erfindung analog auf entsprechende Implementierungen des elektronischen Fahrzeugführungssystems gemäß der Erfindung übertragen werden. Insbesondere ist das elektronische Fahrzeugführungssystem gemäß der Erfindung dazu ausgelegt oder programmiert, das Verfahren gemäß der Erfindung auszuführen. Insbesondere führt das elektronische Fahrzeugführungssystem gemäß der Erfindung das Verfahren gemäß der Erfindung aus.
Gemäß einem weiteren Aspekt der Erfindung wird ein Fahrzeug, insbesondere ein Kraftfahrzeug, angegeben, das ein elektronisches Fahrzeugführungssystem gemäß der Erfindung beinhaltet. Dabei sind die Kamera, der wenigstens eine Ultraschallsender und der wenigstens eine Ultraschalldetektor an dem Fahrzeug montiert.
Gemäß einem weiteren Aspekt der Erfindung wird ein Computerprogrammprodukt mit Anweisungen bereitgestellt. Wenn die Anweisungen durch ein elektronisches Fahrzeugführungssystem gemäß der Erfindung, insbesondere durch die wenigstens eine Recheneinheit des elektronischen Fahrzeugführungssystems, ausgeführt werden, bewirken die Anweisungen, dass das elektronische Fahrzeugführungssystem ein Verfahren zur automatischen visuellen Wahrnehmung gemäß der Erfindung oder ein Verfahren zum wenigstens teilweise automatischen Führen eines Fahrzeugs gemäß der Erfindung ausführt.
Gemäß einem weiteren Aspekt der Erfindung wird ein computerlesbares Speichermedium bereitgestellt. Das computerlesbare Speichermedium speichert ein Computerprogramm gemäß der Erfindung.
Das Computerprogramm und das computerlesbare Speichermedium können als jeweilige Computerprogrammprodukte mit den Anweisungen bezeichnet werden.
Weitere Merkmale der Erfindung sind aus den Ansprüchen, den Figuren und der Figurenbeschreibung ersichtlich. Die vorstehend in der Beschreibung erwähnten Merkmale und Kombinationen von Merkmalen sowie die nachstehend in der Figurenbeschreibung erwähnten und/oder in den Figuren gezeigten Merkmale und Kombinationen von Merkmalen können von der Erfindung nicht nur in der jeweiligen angegebenen Kombination, sondern auch in anderen Kombinationen enthalten sein. Insbesondere können Ausführungsformen und Kombinationen von Merkmalen, die nicht alle Merkmale eines ursprünglich formulierten Anspruchs aufweisen, auch von der Erfindung enthalten sein. Überdies können Ausführungsformen und Kombinationen von Merkmalen, die über die in den Rezitationen der Ansprüche dargelegten Kombinationen von Merkmalen hinausgehen oder von diesen abweichen, von der Erfindung enthalten sein. Im Folgenden wird die Erfindung mit Bezug auf spezifische beispielhafte Implementierungen und entsprechende schematische Zeichnungen im Einzelnen erläutert. In den Zeichnungen können identische oder funktional identische Elemente mit denselben Bezugszeichen bezeichnet sein. Die Beschreibung von identischen oder funktional identischen Elementen wird mit Bezug auf verschiedene Figuren nicht notwendigerweise wiederholt.
In den Figuren gilt:
Fig. 1 zeigt schematisch eine beispielhafte Ausführungsform eines Fahrzeugs gemäß der Erfindung;
Fig. 2 zeigt ein schematisches Blockdiagramm eines neuronalen Netzwerks zur Verwendung in einer beispielhaften Ausführungsform eines Verfahrens zur automatischen visuellen Wahrnehmung gemäß der Erfindung;
Fig. 3 zeigt ein schematisches Blockdiagramm eines neuronalen Netzwerks zur Verwendung in einer weiteren beispielhaften Ausführungsform eines Verfahrens zur automatischen visuellen Wahrnehmung gemäß der Erfindung;
Fig. 4 zeigt ein schematisches Blockdiagramm eines neuronalen Netzwerks zur Verwendung in einer weiteren beispielhaften Ausführungsform eines Verfahrens zur automatischen visuellen Wahrnehmung gemäß der Erfindung;
Fig. 5 zeigt eine schematische Illustration der Erzeugung einer Ultraschallkarte gemäß einer weiteren beispielhaften Ausführungsform eines Verfahrens zur automatischen visuellen Wahrnehmung gemäß der Erfindung;
Fig. 6 zeigt ein illustratives Beispiel einer Struktur in einer Draufsichtperspektive; und Fig. 7 zeigt eine Illustration der Struktur aus Fig. 6 transformiert in eine Kamerabildebenenperspektive.
Fig. 1 zeigt eine beispielhafte Implementierung eines Fahrzeugs 1 gemäß der Erfindung. Das Fahrzeug 1 beinhaltet eine beispielhafte Implementierung eines elektronischen Fahrzeugführungssystems 2 gemäß der Erfindung.
Das elektronische Fahrzeugführungssystem 2 beinhaltet eine Kamera 4, die an dem Fahrzeug 1 montiert ist, beispielsweise eine rückwärtsgewandte Kamera. Das elektronische Fahrzeugführungssystem 2 beinhaltet ferner ein Ultraschallsensorsystem, das einen oder mehrere Ultraschallsendeempfänger 5a, 5b, 5c, 5d, 5e beinhaltet. Jeder Ultraschallsendeempfänger 5a, 5b, 5c, 5d, 5e kann einen Ultraschallsender kann einen Ultraschallsender und einen Ultraschalldetektor beinhalten. Es sind jedoch auch andere Implementierungen denkbar. Die Ultraschallsendeempfänger 5a, 5b, 5c, 5d, 5e sind beispielsweise an einem rückwärtigen Ende des Fahrzeugs 1 montiert, beispielsweise an oder in einer hinteren Stoßstange des Fahrzeugs 1 . Insbesondere überlappt ein gesamtes Sichtfeld der Ultraschallsendeempfänger 5a, 5b, 5c, 5d, 5e wenigstens teilweise mit dem Sichtfeld der Kamera 4. Das elektronische Fahrzeugführungssystem 2 beinhaltet ferner ein Speichergerät (nicht gezeigt), das ein trainiertes künstliches neuronales Netzwerk 12 speichert. Beispielhafte Blockdiagramme des neuronalen Netzwerks 12 sind in Fig. 2, Fig. 3 beziehungsweise Fig. 4 abgebildet.
Das elektronische Fahrzeugführungssystem beinhaltet auch eine Recheneinheit 3, die das neuronale Netzwerk 12 auf Eingabedaten anwenden kann, die von dem Kamerabild 6 und einer Ultraschall karte 7 abhängen, um eine oder mehrere vordefinierte visuelle Wahrnehmungsaufgaben durchzuführen. Die Recheneinheit 3 kann dann wenigstens ein Steuersignal für einen oder mehrere Aktuatoren (nicht gezeigt) des Fahrzeugs 1 erzeugen, um das Fahrzeug 1 wenigstens teilweise automatisch abhängig von den entsprechenden Ergebnissen oder Ausgaben der wenigstens einen visuellen Wahrnehmungsaufgabe zu führen.
Insbesondere kann das elektronische Fahrzeugführungssystem 2 eine beispielhafte Implementierung eines Verfahrens zur automatischen visuellen Wahrnehmung gemäß der Erfindung durchführen. Gemäß dem Verfahren erzeugt die Kamera 4 das Kamerabild 6, das eine Umgebung des Fahrzeugs 1 darstellt, und die Ultraschallsendeempfänger 5a, 5b, 5c, 5d, 5e ausgesendeten entsprechende Ultraschallimpulse in die Umgebung und detektieren reflektiere Anteile der ausgesendeten Ultraschallimpulse und erzeugen wenigstens ein Ultraschallsensorsignal 16 (siehe Fig. 5) abhängig von den detektierten reflektierten Anteilen.
Die Recheneinheit 3 erzeugt die Ultraschall karte 7 in einer Draufsichtperspektive abhängig von dem wenigstens einen Ultraschallsensorsignal 16. Die Recheneinheit 3 wendet wenigstens ein Encodermodul 8, 9, 15 (siehe Fig. 2 bis 4) auf die Eingabedaten, um wenigstens eine Merkmalskarte zu erzeugen. Die eine oder die mehreren visuellen Wahrnehmungsaufgaben werden beispielsweise durch Anwendung eines oder mehrerer Decodermodule 10 (siehe Fig. 2 bis 4) des neuronalen Netzwerks 12 auf die wenigstens eine Merkmalskarte oder auf eine oder mehrere weitere Merkmalskarten, die aus bestimmten zwischengeschalteten Verarbeitungsschritten resultieren, die auf die wenigstens eine Merkmalskarte angwendet werden.
Dazu kann die Recheneinheit 3 ein Softwaremodul 10, das auch auf dem Speichergerät gespeichert sein kann, auf das wenigstens eine Sensorsignal 16 anwenden. Für weitere Einzelheiten wird auf die Erläuterungen bezüglich Fig. 5 weiter unten verwiesen.
Fig. 2 bis 4 bilden schematische Blockdiagramme des neuronalen Netzwerks 12 gemäß verschiedener Implementierungen des Verfahrens ab. Die Beispiele von Fig. 2 bis 4 können jedoch nicht als erschöpfende Liste aufgefasst werden.
In dem Beispiel von Fig. 2 wird eine erste Merkmalskarte durch Anwendung eines ersten Encodermoduls 8 auf das Kamerabild 6 erzeugt. Eine zweite Merkmalskarte wird durch Anwenden eines zweiten Encodermoduls 9 auf die Ultraschall karte 7 erzeugt. Ein Merkmalstransformationsmodul 11 des neuronalen Netzwerks 12 wird auf die erste Merkmalskarte angewendet, um die erste Merkmalskarte aus der Kamerabildebenenperspektive in die Draufsichtperspektive zu transformieren. Eine fusionierte Merkmalskarte wird durch Fusionieren der transformierten ersten Merkmalskarte und der zweiten Merkmalskarte erzeugt und die visuelle Wahrnehmungsaufgabe wird durch Anwendung des Decodermoduls 10 auf die fusionierte Merkmalskarte oder auf Daten, die von der fusionierten Merkmalskarte abhängen, durchgeführt.
Im Allgemeinen kann ein Encodermodul 8, 9, 15 des neuronalen Netzwerks 12 eine Reihe von Faltungsschichten zur Tiefenmerkmalsextraktion beinhalten. Grob gesprochen, umso tiefer der Encoder, umso besser oder detaillierter sind die Merkmale. Die Art des Encoders kann basierend auf den Einschränkungen der eingebetteten Plattform gewählt werden. Standardencoderfamilien wie ResNet, VGG, Inception können zum Beispiel verwendet werden.
Die Ultraschallkarte 7 ist beispielsweise eine Einkanaldraufsichtkarte der näheren Umgebung des Fahrzeugs 1 . Beispielsweise kann es auf einem Gitter mit einer Größe in der Größenordnung von Metern, beispielsweise 6mx12m, einer Zellseitenlänge in der Größenordnung von Zentimetern, beispielsweise ein Zentimeter, gegeben sein. Auf diese Weise kann die maximale Detektionsreichweite der Ultraschallsendeempfänger 5a, 5b, 5c, 5d, 5e, die beispielsweise ungefähr 5m ist, abgedeckt werden, wobei auch deren relative Position zu der Kamera 4 berücksichtigt wird, die den Mittelpunkt des Koordinatensystems durch Projektion auf die Bodenoberfläche definiert. Die Ultraschall karte 7 kann daher vergleichsweise groß und relativ dünn besetzt sein, das heißt dass nur ein kleiner Bereich eine hohe Amplitude hat. Das zweite Encodermodul 9 wird daher verwendet, um die Ultraschall karte 7 in den Merkmalsraum zu bringen, wo es mit der transformierten ersten Merkmalskarte, die aus dem Kamerabild 6 erhalten wurde, zusammengebracht werden kann.
Insbesondere wird die Ultraschallkarte in die zweite Merkmalskarte umgewandelt, indem sie durch die Faltungsschichten des zweiten Encodermoduls 9 durchgereicht wird, in einer Weise, dass es die Merkmale in derselben Dimension ausgibt, nämlich Höhe und Breite, wie die Ausgabe des Merkmalstransformationsmoduls 11 . Die Merkmalskarten werden dann entlang der Tiefen- oder Kanalrichtung übereinander gestapelt. Insbesondere transformiert das zweite Encodermodul 9 die dünn besetzten Ultraschallinformationen, die von der Ultraschallkarte 7 enthalten sind, in Dichteinformationen in der Draufsichtperspektive, nämlich die zweite Merkmalskarte, die dann weiterverarbeitet wird.
Das erste Encodermodul 8 kann eine Sequenz von Faltungsschichten mit verschiedenen Ausgangsskalierungen beinhalten und kann Regularisierungstechniken beinhalten. Es kann als Merkmalspyramidennetzwerk ausgestaltet sein oder ein solches beinhalten. Das erste Encodermodul 8 kann das Kamerabild 6 als Eingabe nehmen und entsprechende Merkmalskarten auf verschiedenen Skalen erzeugen, die dann die erste Merkmalskarte bilden.
In dem Beispiel von Fig. 3 wird, anstatt das Merkmalstransformationsmodul 11 zu verwenden, um die erste Merkmalskarte in die Draufsichtperspektive zu transformieren, ein Kamerabildtransformationsmodul 13 auf das Kamerabild 6 angewendet, um das Kamerabild 6 aus der Kamerabildebenenperspektive in die Draufsichtperspektive zu transformieren, bevor das neuronale Netzwerk 12, insbesondere das erste Encodermodul 8, angewendet wird, um die erste Merkmalskarte zu erzeugen. Die erste Merkmalskarte und die zweite Merkmalskarte werden dann fusioniert.
Im Beispiel der Fig. 3 beinhaltet das neuronale Netzwerk 12 nur ein Encodermodul 15, das auf ein Eingabebild angewendet wird. Das Eingabebild wird durch Kombination des Kamerabilds 6 und der Ultraschallkarte 7 erzeugt. Insbesondere kann die Ultraschall karte 7 aus der Draufsichtperspektive in die Kamerabildebenenperspektive durch Anwendung eines Ultraschallkartentransformationsmoduls 14 auf die Ultraschall karte 7 transformiert werden. Das Kamerabild und die transformierte Ultraschallkarte können verkettet werden oder einer oder mehrere Kanäle des Kamerabilds 6 kann durch die transformierte Ultraschall karte ersetzt werden, um das Eingabebild zu erzeugen.
Die Transformation von der Draufsichtperspektive in die Kamerabildebenenperspektive ist in Fig. 6 und Fig. 7 illustriert. Fig. 6 zeigt ein Muster 18 mit verschiedenen Konturen 19, 20, 21 , 22 in der Draufsichtperspektive. Fig. 7 zeigt ein transformiertes Muster 18‘, wobei die Konturen 19, 20, 21 , 22 in die Kamerabildebenenperspektive einer Fisheyekamera abgebildet werden, was in verzerrten Konturen 19‘, 20‘, 21 ‘, 22‘ resultiert.
Das wenigstens eine Ultraschallsensorsignal 16 kann aus Zeitreihenmessungen stammen und daher die Ultraschallechoamplitude darstellen, die über eine festgelegte Zeitdauer aufgenommen wurde. Für gewöhnlich leiten sich Spitzen in dem wenigstens einen Ultraschallsensorsignal 16 von einem Objekt in der Umgebung des Fahrzeugs ab, welches den Ultraschallimpuls, der von einem Ultraschallsendeempfänger 5a, 5b, 5c, 5d, 5e ausgesendet wurde, zurück zu demselben oder einem anderen Ultraschallsendeempfänger 5a, 5b, 5c, 5d, 5e reflektiert. Folglich kann die gesamte Wegstrecke des Ultraschallimpulses berechnet werden, wobei beispielsweise die Umgebungstemperatur berücksichtigt werden kann, um die genaue Schallgeschwindigkeit zu bestimmen.
Um die 1 D-Amplitudendaten als Funktion der Zeit in die räumliche Domäne zu transformieren, kann man die Wegstrecke des Echos berechnen und zusätzlich die Unwissenheit über die Winkelposition des Objekts, welches das Echo reflektiert, berücksichtigen. Es könnte auf der Längssensorachse des Ultraschallsendeempfängers 5a, 5b, 5c, 5d, 5e liegen, aber aufgrund seines großen Sichtfelds könnte es auch um einen großen Winkel abseits von der Längssensorachse liegen. Bis zu 70 Grad können möglich sein, solange das Objekt derart positioniert ist, dass es zu dem Sensor zurückreflektiert, bevor die Echoamplitude so stark abfällt, dass sie nicht weiter von Zufallsrauschen unterscheidbar ist.
Fig. 5 zeigt schematisch, wie die Ultraschallkarte 7, welche die Umgebung des Fahrzeugs 1 darstellt, in der Draufsichtperspektive berechnet wird, insbesondere in einem Fahrzeugkoordinatensystem, wobei der Mittelpunkt der hinteren Achse des Fahrzeugs 1 im Ursprung des Koordinatensystems liegt. Die entsprechenden Positionen und Orientierungen der Ultraschallsendeempfänger 5a, 5b, 5c, 5d, 5e sind vorbestimmt und bekannt.
Ein Gitter mit näherungsweise der Größe des Sichtfelds der Ultraschallsendeempfänger 5a, 5b, 5c, 5d, 5e und mit einer Gitterzellengröße, die klein genug ist, um eine ausreichend hohe Auflösung zu bieten, und noch mit der Abstandsauflösung gemäß dem wenigstens einen Ultraschallsensorsignal 16 vergleichbar ist, erzeugt werden. Beispielsweise können quadratische Gitterzellen mit einer Seitenlänge von einem cm genutzt werden. Für jede der Gitterzellen und für jedes Sender-Detektor-Paar des wenigstens einen Ultraschallsendeempfängers 5a, 5b, 5c, 5d, 5e wird eine entsprechende Wegstrecke von einer Position des entsprechenden Ultraschallsenders über eine Position der Gitterzelle zu einer Position des entsprechenden Ultraschalldetektors berechnet. Ein Signalwert des Ultraschallsensorsignals 16, das von dem entsprechenden Ultraschalldetektor erzeugt wird, wird abhängig von der Wegstrecke berechnet. Für jedes Sender-Emitter-Paar wird eine entsprechende Winkelgewichtungsfunktion 17 bereitgestellt. Für jede Gitterzelle wird jeder Signalwert mit der entsprechenden Winkelgewichtungsfunktion 17 multipliziert, die an der Position der Gitterzelle ausgewertet ist, um einen entsprechenden gewichteten Signalwert zu erhalten. Für jede Gitterzelle wird ein Gitterwert als Summe der gewichteten Signalwerte, welche für diese entsprechende Gitterzelle erhalten wurden, berechnet. Die Gitterwerte aller Gitterzellen liefern die Ultraschallkarte 7.
In einem vereinfachten erläuternden Beispiel kann man annehmen, dass es nur zwei Ultraschallsendeempfänger gibt. Man hat einen ersten Ultraschallempfänger (E1 , D1) mit einem ersten Ultraschallsender E1 und einem ersten Ultraschalldetektor D1 sowie einen zweiten Ultraschallsendeempfänger (E2, D2) mit einem zweiten Ultraschallsender E2 und einem zweiten Ultraschalldetektor D2. Dann erzeugt D1 ein erstes Ultraschallsignal S1 und D2 erzeugt ein zweites Ultraschallsignal S2. Betrachtet man eine Gitterzelle G, hat man im Prinzip vier Wegstrecken, nämlich r11 von E1 zu G zu D1 , r12 von E1 zu G zu D2, r21 von E2 zu G zu D1 und r22 von E2 zu G zu D2.
Dann wird S1 bei r11 und bei r21 ausgewertet, was entsprechende Signalwerte S1 (r11 ),
51 (r21 ) liefert, wobei die verfügbaren Werte von S1 entsprechend interpoliert werden können. Analog wird S2 bei rt 2 und bei r22 ausgewertet, was entsprechende Signalwerte
52 (r12), S2 (r22) liefert, wobei die verfügbaren Werte von S2 entsprechend interpoliert werden können. Weiterhin kann eine erste Winkelgewichtungsfunktion, die dem ersten Ultraschallsendeempfänger (E1 , D1) zugeordnet ist, an der Position G durch F1 gegeben sein und eine zweite Winkelgewichtungsfunktion, die dem zweiten Ultraschallsendeempfänger (E2, D2) zugeordnet ist, an der Position von G durch F2 gegeben sein.
Der Gitterwert bei G kann dann beispielsweise als
S1 (r11 )*F1 + S1 (r21 )*min(F1 ,F2) + S2(r22)*F2 + S2(r12)*min(F1 ,F2), berechnet werden, wobei „min“ den Minimalwert der beiden Winkelgewichtungsfunktionen bezeichnet. Alternativ kann man die Winkelgewichtungsfunktionen in einer anderen Art und Weise kombinieren, beispielsweise resultierend in dem Gitterwert bei G
S1 (r11 )*F1 + S1 (r21 )*F11/2 * F21/2 + S2(r22)*F2 + S2(r12)* F11/2 * F21/2.
Die beschrieben, insbesondere bezüglich der Figuren, kann die Erfindung eine verbesserte Zuverlässigkeit und/oder Genauigkeit der automatischen visuellen Wahrnehmung erreichen, indem ein neuronales Netzwerk auf Eingabedaten angewendet wird, das von einem Kamerabild sowie von Ultraschallsensorsignalen abhängt.

Claims

Patentansprüche Verfahren zur automatischen visuellen Wahrnehmung mit einem Fahrzeug (1), wobei ein Kamerabild (6), das eine Umgebung des Fahrzeugs (1 ) darstellt, von einer Kamera (4) des Fahrzeugs (1) erzeugt wird, dadurch gekennzeichnet, dass durch mindestens einen Ultraschallsender (5a, 5b, 5c, 5d, 5e) des Fahrzeugs (1) Ultraschallimpulse in die Umgebung ausgesendet werden und von mindestens einem Ultraschalldetektor (5a, 5b, 5c, 5d, 5e) des Fahrzeugs (1) in Abhängigkeit von reflektierten Anteilen der ausgesendeten Ultraschallimpulse mindestens ein Ultraschallsensorsignal (16) erzeugt wird; eine Ultraschallkarte (7) in Abhängigkeit von dem mindestens einen Ultraschallsensorsignal (16) in einer Draufsichtperspektive erzeugt wird; mindestens eine Merkmalskarte erzeugt wird, indem mindestens ein Encodermodul (8, 9, 15) eines trainierten künstlichen neuronalen Netzwerks (12) auf Eingabedaten angewendet wird, die von dem Kamerabild (6) und der Ultraschallkarte (7) abhängen, wobei jedes des mindestens einen Encodermoduls (8, 9, 15) mindestens eine Faltungsschicht umfasst; und durch das neuronale Netzwerk (12) eine visuelle Wahrnehmungsaufgabe in Abhängigkeit von der mindestens einen Merkmalskarte ausgeführt wird. Verfahren nach einem der Ansprüche 1 , dadurch gekennzeichnet, dass die Ultraschall karte (7) durch eine Vielzahl von Gitterwerten gegeben ist, wobei jeder Gitterwert einer jeweiligen Gitterzelle eines vordefinierten räumlichen Gitters in der Draufsichtperspektive entspricht, wobei für jede der Gitterzellen und für jedes Sender-Detektor-Paar des mindestens einen Ultraschallsenders (5a, 5b, 5c, 5d, 5e) und des mindestens einen Ultraschalldetektors (5a, 5b, 5c, 5d, 5e) eine entsprechende Wegstrecke von einer Position des Ultraschallsenders (5a, 5b, 5c, 5d, 5e) des Sender-Detektor-Paares über eine Position der Gitterzelle zu einer Position des Ultraschalldetektors (5a, 5b, 5c, 5d, 5e) des Sender-Detektor-Paares berechnet wird; ein Signalwert des Ultraschallsensorsignals (16), das von dem Ultraschalldetektor (5a, 5b, 5c, 5d, 5e) des Sender-Detektor-Paares erzeugt wird, in Abhängigkeit von der Wegstrecke berechnet wird; und der Gitterwert der Gitterzelle in Abhängigkeit von dem Signalwert berechnet wird.
3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass für jedes Sender-Detektor-Paar jeweils eine Winkelgewichtungsfunktion (17) bereitgestellt wird; für jede Gitterzelle jeder Signalwert mit der jeweiligen Winkelgewichtungsfunktion (17), ausgewertet an der Position der Gitterzelle, multipliziert wird, um einen jeweiligen gewichteten Signalwert zu erhalten; und für jede Gitterzelle wird der Gitterwert in Abhängigkeit von einer Summe der für die jeweilige Gitterzelle erhaltenen gewichteten Signalwerte berechnet.
4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass die Winkelgewichtungsfunktion (17) von mindestens einer Beta-Verteilung abhängt.
5. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass eine erste Merkmalskarte der mindestens einen Merkmalskarte von einem ersten Encodermodul (8) des mindestens einen Encodermoduls (8, 9, 15) in Abhängigkeit von dem Kamerabild (6) erzeugt wird; eine zweite Merkmalskarte der mindestens einen Merkmalskarte durch Anwendung eines zweiten Encodermoduls (9) des mindestens einen Encodermoduls (8, 9, 15) auf die Ultraschallkarte (7) erzeugt wird; eine fusionierte Merkmalskarte in Abhängigkeit von der ersten Merkmalskarte und der zweiten Merkmalskarte erzeugt wird; und die visuelle Wahrnehmungsaufgabe von dem neuronalen Netzwerk (12) in Abhängigkeit von der fusionierten Merkmalskarte ausgeführt wird.
6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass die erste Merkmalskarte durch Anwendung des ersten Encodermoduls (8) auf das Kamerabild (6) erzeugt wird; ein Merkmals-T ransformationsmodul (11) des neuronalen Netzes (12) auf die erste Merkmalskarte angewendet wird, um die erste Merkmalskarte von einer Kamerabildebenenperspektive in die Draufsichtperspektive zu transformieren; und die fusionierte Merkmalskarte durch Fusionieren der transformierten ersten Merkmalskarte und der zweiten Merkmalskarte erzeugt wird.
7. Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass ein Kamerabild-Transformationsmodul (13) auf das Kamerabild (6) angewendet wird, um das Kamerabild (6) von einer Kamerabildebenenperspektive in die Draufsichtperspektive zu transformieren; die erste Merkmalskarte erzeugt wird, indem das erste Encodermodul (8) auf das transformierte Bild angewendet wird; und die fusionierte Merkmalskarte wird durch Fusionieren der ersten Merkmalskarte und der zweiten Merkmalskarte erzeugt.
8. Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass eine erste Merkmalskarte erzeugt wird, indem ein erstes Encodermodul (8) des mindestens einen Encodermoduls (8, 9, 15) auf das Kamerabild (6) angewendet wird; ein Ultraschallkarten-Transformationsmodul (14) auf die Ultraschall karte (7) angewendet wird, um die Ultraschallkarte (7) von der Draufsichtperspektive in eine Kamerabildebenenperspektive der Kamera (4) zu transformieren; eine zweite Merkmalskarte wird erzeugt, indem ein zweites Encodermodul (9) des mindestens einen Encodermoduls (8, 9, 15) auf die transformierte Ultraschallkarte angewendet wird; die fusionierte Merkmalskarte wird durch Fusionieren der ersten Merkmalskarte und der zweiten Merkmalskarte erzeugt.
9. Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass ein Eingabebild durch Kombination des Kamerabildes (6) und der Ultraschallkarte (7) erzeugt wird; und die mindestens eine Merkmalskarte erzeugt wird, indem das mindestens eine Encodermodul (8, 9, 15) auf das Eingabebild angewendet wird.
10. Verfahren nach Anspruch 9, dadurch gekennzeichnet, dass das Kombinieren des Kamerabildes (6) und der Ultraschallkarte (7) umfasst Verketten des Kamerabildes (6) und der Ultraschallkarte (7) oder Ersetzen eines oder mehrerer Kanäle des Kamerabildes (6) durch die Ultraschall karte (7); oder Transformieren der Ultraschallkarte (7) von der Draufsichtperspektive in eine Kamerabildebenenperspektive der Kamera (4) und Verketten des Kamerabildes (6) und der transformierten Ultraschall karte oder Ersetzen eines oder mehrerer Kanäle des Kamerabildes (6) durch die transformierte Ultraschallkarte.
11 . Verfahren nach Anspruch 9, dadurch gekennzeichnet, dass das Kombinieren des Kamerabildes (6) und der Ultraschallkarte (7) umfasst Transformieren des Kamerabildes (6) aus einer Kamerabildebenenperspektive der Kamera (4) in die Draufsichtperspektive; und
Verketten des transformierten Kamerabildes (6) und der Ultraschall karte (7) oder Ersetzen eines oder mehrerer Kanäle des transformierten Kamerabildes (6) durch die Ultraschall karte (7).
12. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die visuelle Wahrnehmungsaufgabe eine Objekthöhenregressionsaufgabe umfasst und eine Ausgabe des neuronalen Netzes (12) eine Höhenkarte in der Draufsichtperspektive umfasst, die eine vorhergesagte Objekthöhe von einem oder mehreren Objekten in der Umgebung enthält; oder die visuelle Wahrnehmungsaufgabe eine Objektpositionsregressionsaufgabe umfasst und eine Ausgabe des neuronalen Netzes (12) eine vorhergesagte Objektposition von einem oder mehreren Objekten in der Umgebung umfasst; oder die visuelle Wahrnehmungsaufgabe eine semantische Segmentierungsaufgabe umfasst und eine Ausgabe des neuronalen Netzes (12) ein semantisch segmentiertes Bild umfasst; oder die visuelle Wahrnehmungsaufgabe eine Begrenzungsbox-Erkennungsaufgabe umfasst und eine Ausgabe des neuronalen Netzes (12) eine jeweilige Position und Größe mindestens einer Begrenzungsbox für mindestens ein Objekt in der Umgebung umfasst; oder die visuelle Wahrnehmungsaufgabe eine Objekterkennungsaufgabe umfasst und eine Ausgabe des neuronalen Netzes (12) eine jeweilige Position und Größe mindestens einer Begrenzungsbox für mindestens ein Objekt in der Umgebung sowie eine vorhergesagte Objektklasse für jedes der mindestens einen Objekts umfasst. Elektronisches Fahrzeugführungssystem (2) für ein Fahrzeug (1) aufweisend mindestens eine Recheneinheit (3), eine Speichervorrichtung, die ein trainiertes künstliches neuronales Netzwerk (12) speichert, und eine Kamera (4), die dazu eingerichtet ist, ein Kamerabild (6) zu erzeugen, das eine Umgebung des Fahrzeugs (1) darstellt, dadurch gekennzeichnet, dass das elektronische Fahrzeugführungssystem (2) mindestens einen Ultraschallsender (5a, 5b, 5c, 5d, 5e) umfasst, der dazu eingerichtet ist, Ultraschallimpulse in die Umgebung des Fahrzeugs (1) auszusenden, und mindestens einen Ultraschalldetektor (5a, 5b, 5c, 5d, 5e), der dazu eingerichtet ist, mindestens ein Ultraschallsensorsignal (16) in Abhängigkeit von reflektierten Anteilen der ausgesendeten Ultraschallimpulse zu erzeugen; die mindestens eine Recheneinheit (3) dazu eingerichtet ist, eine Ultraschallkarte (7) in einer Draufsichtperspektive in Abhängigkeit von dem mindestens einen Ultraschallsensorsignal (16) zu erzeugen; die mindestens eine Recheneinheit (3) dazu eingerichtet ist, mindestens eine Merkmalskarte zu erzeugen, indem mindestens ein Encodermodul (8, 9, 15) des trainierten künstlichen neuronalen Netzes (12) auf Eingabedaten angewendet wird, die von dem Kamerabild (6) und der Ultraschall karte (7) abhängen, wobei jedes des mindestens einen Encodermoduls (8, 9, 15) mindestens eine Faltungsschicht umfasst; die mindestens eine Recheneinheit (3) dazu eingerichtet ist, das neuronale Netzwerk (12) zu verwenden, um eine visuelle Wahrnehmungsaufgabe in Abhängigkeit von der mindestens einen Merkmalskarte auszuführen; und die mindestens eine Recheneinheit (3) dazu eingerichtet ist, mindestens ein Steuersignal zum zumindest teilweise automatischen Führen des Fahrzeugs (1) in Abhängigkeit von einem Ergebnis der visuellen Wahrnehmungsaufgabe zu erzeugen. Fahrzeug (1 ) mit einem elektronischen Fahrzeugführungssystem (2) nach Anspruch 13, wobei die Kamera (4), der mindestens eine Ultraschallsender (5a, 5b, 5c, 5d,
5e) und der mindestens eine Ultraschalldetektor (5a, 5b, 5c, 5d, 5e) an dem Fahrzeug (1 ) montiert sind. Computerprogrammprodukt mit Befehlen, die bei Ausführung durch ein elektronisches Fahrzeugführungssystem (2) nach Anspruch 13 das elektronische Fahrzeugführungssystem (2) veranlassen, ein Verfahren nach einem der Ansprüche 1 bis 12 auszuführen.
PCT/EP2023/070793 2022-08-22 2023-07-27 Visuelle wahrnehmung mit einem fahrzeug basierend auf einem kamerabild und einer ultraschallkarte WO2024041833A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102022121109.6 2022-08-22
DE102022121109.6A DE102022121109A1 (de) 2022-08-22 2022-08-22 Visuelle Wahrnehmung mit einem Fahrzeug basierend auf einem Kamerabild und einer Ultraschallkarte

Publications (1)

Publication Number Publication Date
WO2024041833A1 true WO2024041833A1 (de) 2024-02-29

Family

ID=87517134

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2023/070793 WO2024041833A1 (de) 2022-08-22 2023-07-27 Visuelle wahrnehmung mit einem fahrzeug basierend auf einem kamerabild und einer ultraschallkarte

Country Status (2)

Country Link
DE (1) DE102022121109A1 (de)
WO (1) WO2024041833A1 (de)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021226776A1 (zh) * 2020-05-11 2021-11-18 华为技术有限公司 一种车辆可行驶区域检测方法、系统以及采用该系统的自动驾驶车辆
DE112021000135T5 (de) * 2020-06-25 2022-06-30 Nvidia Corporation Sensorfusion für anwendungen autonomer maschinen durch maschinelles lernen

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102016210534A1 (de) 2016-06-14 2017-12-14 Bayerische Motoren Werke Aktiengesellschaft Verfahren zum Klassifizieren einer Umgebung eines Fahrzeugs
DE102017101476B3 (de) 2017-01-26 2018-03-22 Valeo Schalter Und Sensoren Gmbh Lokalisieren eines Objekts in einer Umgebung eines Kraftfahrzeugs durch ein Ultraschallsensorsystem
KR102168753B1 (ko) 2020-03-17 2020-10-22 한국과학기술원 카메라와 레이더 센서 융합 기반 3차원 객체 검출을 위한 전자 장치 및 그의 동작 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021226776A1 (zh) * 2020-05-11 2021-11-18 华为技术有限公司 一种车辆可行驶区域检测方法、系统以及采用该系统的自动驾驶车辆
DE112021000135T5 (de) * 2020-06-25 2022-06-30 Nvidia Corporation Sensorfusion für anwendungen autonomer maschinen durch maschinelles lernen

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
DUTTA PRAMIT ET AL: "ViT-BEVSeg: A Hierarchical Transformer Network for Monocular Birds-Eye-View Segmentation", 2022 INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS (IJCNN), IEEE, 18 July 2022 (2022-07-18), pages 1 - 7, XP034198914, DOI: 10.1109/IJCNN55064.2022.9891987 *
T. LIN ET AL.: "Feature Pyramid Networks for Object Detection", PROCEEDINGS OF THE IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR, 2017
T. RODDICKR. CIPOLLA: "Predicting Semantic Map Representations from Images using Pyramid Occupancy Networks", 2020 IEEE / CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR, 2020

Also Published As

Publication number Publication date
DE102022121109A1 (de) 2024-02-22

Similar Documents

Publication Publication Date Title
DE112018000899T5 (de) Gemeinsame 3D-Objekterfassung und Ausrichtungsabschätzung über multimodale Fusion
DE102020214283A1 (de) Vorrichtung zur erkennung von hindernissen, fahrzeugsystem mit dieser und verfahren dafür
EP3430423B1 (de) Verfahren zur verbesserung einer erfassung zumindest eines objekts in einer umgebung eines kraftfahrzeugs durch eine indirekte messung mit sensoren, steuereinrichtung, fahrerassistenzsystem sowie kraftfahrzeug
DE102017203276A1 (de) Verfahren und Vorrichtung zur Ermittlung einer Trajektorie in Off-road-Szenarien
DE102019131100A1 (de) Vorrichtung und verfahren zum erkennen eines objektes unter verwendung eines bildes
DE102018119467B4 (de) Verfahren zum durchführen eines autonomen betriebs eines fahrzeugs durch tiefes räumlich-zeitliches lernen
DE102021129544A1 (de) Systeme und verfahren zur tiefenabschätzung in einem fahrzeug
WO2021190922A1 (de) Vorrichtung, system und verfahren zur erkennung von objekten in einem umfeld eines automatisierten fahrsystems
DE102020214596A1 (de) Verfahren zum Erzeugen von Trainingsdaten für ein Erkennungsmodell zum Erkennen von Objekten in Sensordaten einer Umfeldsensorik eines Fahrzeugs, Verfahren zum Erzeugen eines solchen Erkennungsmodells und Verfahren zum Ansteuern einer Aktorik eines Fahrzeugs
EP3809316A1 (de) Vorhersage eines strassenverlaufs auf basis von radardaten
DE102016105022A1 (de) Verfahren zum Erfassen zumindest eines Objekts in einer Umgebung eines Kraftfahrzeugs durch eine indirekte Messung mit Sensoren, Steuereinrichtung, Fahrerassistenzsystem sowie Kraftfahrzeug
WO2024041833A1 (de) Visuelle wahrnehmung mit einem fahrzeug basierend auf einem kamerabild und einer ultraschallkarte
DE102022121111A1 (de) Automatische visuelle Wahrnehmung mit einem Fahrzeug unter Verwendung einer Kamera und eines Ultraschallsensorsystems
DE102022100545A1 (de) Verbesserte objekterkennung
DE102020208765A1 (de) Bildklassifikator mit variablen rezeptiven Feldern in Faltungsschichten
DE102020215333A1 (de) Computerimplementiertes Verfahren und Computerprogramm zum schwach überwachten Lernen von 3D-Objektklassifizierungen für Umfeldwahrnehmung, Regelung und/oder Steuerung eines automatisierten Fahrsystems, Klassifizierungsmodul und Klassifizierungssystem
DE102019130484A1 (de) Verfahren und Vorrichtung zum Anlernen eines Ensembles von neuronalen Netzen
DE102018121317A1 (de) Verfahren und Vorrichtung zur Schätzung einer durch eine Freiraumgeste vermittelten Richtungsinformation zur Bestimmung einer Benutzereingabe an einer Mensch-Maschine-Schnittstelle
DE102022121839A1 (de) Texterkennung basierend auf einem verzeichneten Kamerabild
DE102021124325A1 (de) Fahrspurbegrenzerklassifizierung
DE102022121778A1 (de) Erkennen einer Anhängerkupplung in einer Umgebung eines Fahrzeugs
DE102022124384A1 (de) Automatische Umfeldwahrnehmung auf der Basis von multimodalen Sensordaten eines Fahrzeugs
DE102022124085A1 (de) Darstellung von Bilddaten in einem Fahrzeug abhängig von Sensordaten
DE102021213756B3 (de) Verfahren zum Fusionieren von Sensordaten im Kontext eines künstlichen neuronalen Netzwerks
DE102021110056A1 (de) Automatische visuelle Wahrnehmung mit globaler Aufmerksamkeit

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23748269

Country of ref document: EP

Kind code of ref document: A1