WO2020049154A1 - Verfahren und vorrichtung zur klassifizierung von objekten - Google Patents

Verfahren und vorrichtung zur klassifizierung von objekten Download PDF

Info

Publication number
WO2020049154A1
WO2020049154A1 PCT/EP2019/073828 EP2019073828W WO2020049154A1 WO 2020049154 A1 WO2020049154 A1 WO 2020049154A1 EP 2019073828 W EP2019073828 W EP 2019073828W WO 2020049154 A1 WO2020049154 A1 WO 2020049154A1
Authority
WO
WIPO (PCT)
Prior art keywords
modality
sensor
feature
features
measurement data
Prior art date
Application number
PCT/EP2019/073828
Other languages
English (en)
French (fr)
Inventor
Julia Nitsch
Max Schmidt
Original Assignee
Ibeo Automotive Systems GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ibeo Automotive Systems GmbH filed Critical Ibeo Automotive Systems GmbH
Priority to KR1020217006494A priority Critical patent/KR102625493B1/ko
Priority to EP19765470.0A priority patent/EP3847578A1/de
Priority to IL281302A priority patent/IL281302B2/en
Priority to CA3110387A priority patent/CA3110387A1/en
Priority to CN201980058249.9A priority patent/CN112655001A/zh
Priority to JP2021512490A priority patent/JP7164708B2/ja
Publication of WO2020049154A1 publication Critical patent/WO2020049154A1/de
Priority to US17/181,096 priority patent/US11645848B2/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Definitions

  • the invention relates to a method and a device for classifying objects.
  • the data extracted from the measurement data are modality-dependent, so that it is necessary for a separate classification module to be available for each sensor modality and thus also to be trained.
  • This is extremely time-consuming, especially when it is not about image data, since annotating lidar or radar data sets for teaching classification modules is very time-consuming and prone to errors.
  • the reason for this is that the measured data is difficult for people to understand and people who annotate corresponding data records have to be trained in a time-consuming manner before they can start the task.
  • the existing annotated data sets are much smaller compared to image data sets. Presentation of the invention: task, solution, advantages
  • the invention is based on the object of improving a method and a device for classifying objects in such a way that, in comparison to the prior art, a classification unit for classifying the features does not have to be trained separately for the measurement data of different sensor modalities, but one time on the basis of measurement data single sensor modality can be learned.
  • the above-mentioned object is achieved by the method according to the invention for classifying objects.
  • the method comprises the provision of measurement data from a sensor for a feature extraction unit. Furthermore, the method comprises extracting features that are independent of modality, in particular by means of the feature extraction unit, from the measurement data.
  • the modality-independent features are independent of a sensor modality of the sensor, so that it is not possible to draw conclusions about the sensor modality from the modality-independent features.
  • the method can also include the extraction of modality-dependent features.
  • the term “sensor modality” is in particular the German term of the English term “sensor modality”.
  • the sensor modality is a sensor category or a sensor type. Sensors therefore differ in particular in terms of the sensor modality, that is to say the sensor type or the sensor category.
  • the sensor modality determines the measurement method with which the measurement data are generated.
  • the sensor modality is preferably lidar, radar, image or ultrasound. This preferably means that the corresponding modality sensor is a lidar sensor, a radar sensor, an image sensor, in particular a camera, or an ultrasound sensor.
  • features means in particular characteristic properties from the measurement data. In particular, these are so-called “features” that are typically dependent on the sensor modality of the sensor that recorded the measurement data.
  • Modality-independent features are, however, independent of the sensor modality of the sensor that recorded the measurement data. In in other words, modality-independent features can be recognized in the measurement data of at least two sensor modalities from the same object. Therefore, these can also be called common features. These are general, in other words sensor-independent, features. It is not possible to draw any conclusions about the sensor modality of the sensor based on modality-independent features.
  • the modality-independent features are independent of the type of measurement method from which the measurement data result.
  • the method is able to extract features that are independent of modality from the measurement data and that are independent of the sensor modality of the sensor.
  • a classification unit for classifying the features no longer has to be provided and trained separately for each sensor modality. It is sufficient to provide a single classification unit for all measurement data from different sensor modalities.
  • the method is designed to extract features independent of modality from measurement data of a sensor of the first sensor modality in such a way that measurement data of a sensor of the second measurement modality can be reconstructed.
  • the method is preferably designed to extract modality-independent features from measurement data of the second sensor modality in such a way that measurement data of the first modality can be reconstructed.
  • Reconstructible means that if a decoder were provided for each sensor modality, ie a decoder for the first sensor modality and a decoder for the second measurement modality, these would be able to generate measurement data of the corresponding modality from the modality-independent features.
  • the first sensor modality is lidar
  • the second modality is image.
  • the feature extraction unit can extract modality-independent features from the lidar measurement data. These modality-independent features can be used to create an image, i.e. measurement data of the second sensor standard modality can be reconstructed, although the modality-independent features only come from lidar measurement data.
  • the sensor modality preferably determines the type of measurement data, the type of measurement data being radar measurement data, lidar measurement data, image data or ultrasonic I measurement data.
  • the measurement data can be point clouds and / or image data.
  • the point clouds are unsorted point clouds.
  • the method is preferably designed to extract features that are independent of modality from point clouds and / or image data in such a way that measurement data of the respective other measurement modality can be reconstructed.
  • the feature extraction unit is designed to extract modality-independent features from a point cloud and / or image data, so that measurement data of the respective other sensor modality, that is to say an image and / or a point cloud, can be reconstructed from modality-independent features.
  • the senor has a first sensor modality, which preferably means that the sensor corresponds to a specific sensor modality.
  • a sensor can preferably have only a single sensor modality.
  • the method includes in particular the generation of the measurement data, in particular measurement data for classification, which are subsequently passed on to the feature extraction unit.
  • the measurement data are lidar measurement data, so that the sensor of the first sensor modality is a lidar sensor.
  • the method comprises, in particular, sending out a large number of measurement pulses, in particular for generating lidar measurement data.
  • the measurement data of different sensor modalities mainly come from the same scene.
  • a measuring pulse is in particular an optical, in particular electromagnetic, signal.
  • the measuring pulse preferably has a wavelength that does not come from the range visible to the human eye. For security reasons, invisible infrared is preferably used.
  • a measuring pulse preferably has a pulse width, so that the measuring pulse is considered to be limited in time Portion of electromagnetic radiation can understand. Since the measuring pulse is an electromagnetic signal and the speed of the measuring pulse is known, the running time of a measuring pulse can be used to determine the distance the measuring pulse has traveled in the running time using the speed of light.
  • the method comprises performing a large number of scans. This means that measuring pulses or a measuring pulse sequence are sent out sequentially in different directions.
  • the method is a scanning lidar method. After sending the measurement pulses into an area to be measured, a respective scan is completed and a new scan can begin.
  • modality-independent features are extracted from the measurement data after each completed scan using the feature extraction unit in order to classify objects.
  • the method comprises generating measurement data of a sensor of a second sensor modality, the method comprising providing the measurement data for the feature extraction unit.
  • the second sensor modality and the first sensor modality preferably differ.
  • the method preferably includes generating measurement data of a sensor of a second sensor modality and measurement data of a sensor of a first sensor modality, the method comprising providing the measurement data of both sensor modalities for the feature extraction unit.
  • the method can include the generation of measurement data of a sensor of a third sensor modality, which are also provided for the feature extraction unit.
  • the third sensor modality, the second sensor modality and the first sensor modality preferably differ.
  • the method can include the generation of measurement data of a sensor of a fourth sensor modality, which are also provided for the feature extraction unit.
  • the first sensor modality and / or the second sensor modality and / or the third sensor modality and / or the fourth sensor modality can be lidar, radar, image or ultrasound.
  • the sensor modalities differ.
  • the method therefore includes in particular the generation of measurement data of different sensor modalities and a modality-independent feature extraction, so that it takes advantage of being able to use other sensor data to teach the classification unit.
  • the feature extraction unit preferably comprises at least one feature extractor per sensor modality, the feature extractor extracting features from the measurement data.
  • the feature extraction unit in each case comprises one feature extractor per sensor modality of the sensors which generate measurement data.
  • the feature extraction unit comprises a feature extractor for the first sensor modality, that is to say preferably for lidar measurement data, the feature extractor being designed to extract lidar features from the lidar measurement data.
  • Features extracted from the feature extractors include both those that can only be seen in the measurement data of one sensor modality, that is, modality-dependent features, and those that can be seen in several sensor modalities, that is, modality-independent features.
  • the feature extractors cannot distinguish these features from one another. In other words, the feature extractor does not know which features are modality-dependent and which are modality-independent.
  • the preferably feature extraction unit preferably comprises a respective corresponding feature extractor for the second sensor modality and / or the third sensor modality and / or the fourth sensor modality, which is designed to extract features from corresponding measurement data, for example radar measurement data corresponding to radar -Features or image features corresponding from image data.
  • the feature extractor is, in particular, an "encoder", preferably a lidar encoder, radar encoder, image encoder or ultrasound encoder, depending on the sensor modality.
  • the encoder can preferably be a point encoder. Act as cloud encoders, especially if the measurement data are lidar measurement data.
  • the feature extractors in particular each comprise a neural network.
  • the feature extractor is a neural network.
  • a neural network is advantageously used for each sensor modality, which optimally extracts the features to be recognized therein.
  • the feature extractor for the second sensor modality ie preferably for image data, furthermore preferably comprises a convolutional neural network (CNN) which comprises at least one convolutional layer. Each layer contains a large number of artificial neurons.
  • CNN convolutional neural network
  • Each layer of the CNN can be designed as a convolutional layer.
  • a convolutional layer performs a convolution in particular.
  • the CNN comprises at least 5, preferably at least 10, in particular at least 15, layers.
  • a ReLU function is a “rectified linear unit”. In other words, it is a function that is linear in the positive x-value range, but is zero in the negative x-value range, where x stands for an input value of a neuron
  • the last layer preferably has no activation function in order to allow all numerical values as the last step.
  • the CNN is able to process input in the form of an image, especially a matrix.
  • the CNN extracts simple features, such as straight lines, and the deeper the network becomes, the more complex the features that are extracted (eg L features, circle features, star features, highly dimensional features) .
  • Output of the network are therefore characteristics, particularly in the form of vectors.
  • the output is also called image code.
  • This image code is also referred to below as a "real image code" in order to distinguish it from a re-generated image code of a feature reverse transformation unit.
  • the feature extractor for the first sensor modality comprises a “multi layer perceptron” (MLP) network, which comprises at least one “multi layer perceptron” as a layer (MLP layer).
  • MLP multi layer perceptron
  • Each layer contains a large number of artificial neurons.
  • the MLP network comprises a large number of MLP layers.
  • the MLP layers are preferably each activated by a non-linear function, in particular a so-called ReLU function.
  • the MLP preferably has at least 3, in particular at least 5, layers which can comprise several sublayers.
  • the MLP network can comprise at least one fully connected layer, which can also be activated by a non-linear function, in particular a so-called ReLU function.
  • the MLP network is able to process input in the form of point clouds.
  • the output of the network is therefore characteristics, in particular in the form of vectors.
  • the output is also referred to as point cloud code.
  • This point cloud code is also referred to below as a “real point cloud code” in order to distinguish it from a point cloud code of a feature reverse transformation unit that is generated again.
  • the feature extraction unit preferably includes a feature transformation unit that extracts features that are independent of the modality from the features of at least two feature extractors.
  • the term “transform” is to be understood in particular to mean finding features that are independent of modality, and these are stored in a common feature space. In other words, the features are found and mapped in a common space. In other words, a unit is therefore under the feature transformation unit.
  • all the features that extract the feature extractor are provided for the feature transformation unit, the feature transformation unit extracting features that are independent of the modality from these.
  • the feature extraction unit outputs a feature vector as a result of the extraction and transformation, which is mode-independent.
  • the feature extraction unit provides feature vectors for the classification unit for classification.
  • the feature transformation unit primarily comprises a neural network for each sensor modality.
  • the networks are used to find the modality-independent features and optionally modality-dependent features and to store them in a common feature space.
  • the feature transformation unit is trained as input to process features, in particular feature vectors that come from the feature extractor.
  • each neural network of the feature transformation unit comprises at least one fully connected layer.
  • the network preferably comprises at least 2, preferably at least 3, fully connected layers.
  • the fully connected layers are preferably each activated by a non-linear function, in particular a so-called ReLU function.
  • the network can comprise at least one dropout layer.
  • the network is constructed in such a way that a dropout layer is arranged between two fully connected layers.
  • the network mainly comprises 5 layers. The last layer cannot have an activation.
  • all neural networks of the different sensor modalities of the feature transformation unit are constructed identically.
  • the output of the networks of the feature transformation unit are features that are independent of modality, in particular in the form of vectors. Furthermore, the feature transformation unit could also output modality-dependent features. In other words, the feature transformation unit searches for features that can be recognized in all measurement data of the different sensor modalities, i.e. that all sensor modalities have in common. These modality-independent characteristics are output. However, the features that only appear in one sensor modality can also be output, i.e. the modality dependent features.
  • the neural network of the first sensor modality gives in particular modality-independent, i.e. common features and, optionally, lidar-specific features.
  • the neural network of the second sensor modality gives in particular modality-independent, i.e. common features and optionally image-specific features.
  • Common features are features that are contained in the lidar measurement data and image data of the same scene.
  • the output is also called feature code. If the network also outputs modality-dependent features, the network can in particular be specified at which point, in other words at which indices of its output, the modality-dependent and modality-independent features are to be arranged. This allows the output to be split.
  • a concrete example would be a striped wall, of which lidar measurement data and image data are available. The stripes cannot be seen in the lidar measurement data, but they can be seen in the image data. It is the other way around for the depth information of the wall. This can be derived from the lidar measurement data, but not from the image data. The stripe would thus be an image-specific feature, while the depth information would be a lidar-specific feature.
  • the contour of the wall which can be seen in both the image data and the lidar measurement data, would be a common feature.
  • the extracted features of the at least one feature extractor are preferably a vector, a so-called feature vector.
  • the respective feature extractors extract the features, especially in the form of vectors, but in separate rooms, depending on the sensor modality. In other words, the characteristics from the different sensor modalities live in separate rooms.
  • the feature transformation unit can be designed to transform features of the separate spaces into a common space, the so-called feature space.
  • the feature space is in particular a vector space, preferably a metric space.
  • all features from the different sensor modalities in other words the output of all feature extractors, are fed to the feature transformation unit.
  • This space depicts the features that both modalities have in common.
  • These features, which both modalities have in common, are the modality-independent features, in other words common features.
  • the method can preferably include the prior teaching of the feature extraction unit, in particular the feature transformation unit and / or the respective feature extractor.
  • the term “previous” is also intended preferably to mean that the teaching is carried out before the generation of measurement data for classification.
  • the feature extraction unit is provided with at least one data record for learning.
  • the unsupervised learning is used in particular
  • the feature transformation unit preferably the feature transformation unit and / or the respective feature extractor, has been taught in with the aid of unsupervised learning in order to learn features that are independent of modality.
  • the feature extraction unit in particular the feature transformation unit and / or the respective feature extractor, can be taught.
  • the feature transformation unit can be learned with the help of deep learning, so-called deep learning.
  • the feature transformation unit and / or the respective feature extractors are taught in by means of unsupervised learning.
  • the respective neural network that is being learned comprises weights that are determined by the learning.
  • the feature extractors are preferably learned first.
  • the feature extractors which are referred to as encoders, are preferably learned together with the respective decoders. This is advantageous because they represent the outer layer of the various units.
  • the encoder and decoder of each sensor modality is learned separately from the other sensor modalities so that they can be learned on different data sets. In particular, one is therefore not reliant on data records which are produced in a complex manner and which comprise measurement data of several sensor modalities.
  • the input is particularly sensor-specific.
  • the input for the feature extractor for the first sensor modality is lidar measurement data, in other words point clouds, while the input for the second sensor modality is image data.
  • the input is preferably plugged into the feature extractor, which outputs features as output.
  • the feature extractor for the first sensor modality outputs a point cloud of code, while the feature extractor for the second sensor modality outputs an image code.
  • This 'real' code is inserted directly into the respective decoder, which in turn generates sensor-dependent output.
  • the decoder again generates a point cloud for the first sensor modality, while the decoder generates an image again, in particular a gray-scale image, for the second sensor modality.
  • This sensor modality-specific output of the decoders is compared with the respective sensor modality-specific input that was inserted into the respective encoder.
  • the condition is that the output of the decoder should be the same as the input that was given to the encoder. Based on this condition, the weights of the corresponding neural networks are determined so that the similarity is as high as possible.
  • the decoder preferably outputs gray values of the “re-generated” image, which are compared with the gray values of the original input image. If the image is a color image, the R , G, B values of each pixel and subsequent division by 3 produces a gray value image of the input. For comparison, a loss function is used above all, which means the "mean squared error" of the gray values of the generated gray value image of the decoder and the gray values of the real gray value image of the input. The loess is said to be zero.
  • the decoder preferably outputs a “regenerated” point cloud for the first sensor modality, which is compared with the point cloud that was provided to the feature extractor.
  • the Chamfer distance between the point clouds is preferably determined Every point of one point cloud determines the distance to the closest point of the other point cloud. The distances are summed. The same is carried out analogously for each point of the other point cloud. The sum of all distances is the Chamfer distance.
  • the feature transformation unit can be learned.
  • the feature transformation unit is preferably learned together with a feature reverse transformation unit.
  • the feature reverse transformation unit preferably also has one neural network per sensor modality.
  • the corresponding encoders and decoders of the different sensor modalities are also used for teaching, although their weights are fixed, since their teaching has already been completed.
  • the neural network of the feature reverse transformation unit has at least one fully connected layer.
  • the neural network has in particular two sub-units, a unit in which the modality-dependent features are processed and a unit in which the modality-independent features can be processed.
  • the network preferably comprises at least 2, preferably at least 3 fully connected layers.
  • the fully connected layers are preferably each activated by a non-linear function, in particular a so-called ReLU function.
  • the network can comprise at least one dropout layer.
  • the network is constructed in such a way that a dropout layer is arranged between two fully connected layers. The last layer has no activation.
  • the feature extractor becomes more dependent on sensor modality, i.e. modality-specific input of the same scene provided.
  • the input for the feature extractor for the first sensor modality is lidar measurement data, in other words point clouds, while the input for the second sensor modality is image data.
  • the input is preferably plugged into the feature extractor, which outputs features as output.
  • the feature extractor for the first sensor modality outputs a point cloud of code
  • the feature extractor for the second sensor modality outputs an image code.
  • This code is now plugged into the corresponding neural network of the feature transformation unit, which extracts modality-independent features and optionally modality-dependent features from it.
  • the output of the neural networks is plugged into the corresponding neural network of the feature re-transformation unit, which generates code from the features again, depending on the sensor modality.
  • the neural network of the feature reverse transformation unit again generates a point cloud code for the first sensor modality
  • the neural network of the feature reverse transformation unit generates an image code again for the second sensor modality.
  • the main condition is that the common characteristics of the different networks or the different modalities are the same.
  • the common features that the neural network of the feature transformation unit has generated for the first sensor modality and the common features that the neural network has generated for the second sensor modality are compared.
  • the cosine similarity of the same feature, which can be seen in both modalities, should be zero. This serves to find the common characteristics.
  • the code of the respective neural networks of the feature reverse transformation unit is compared with the 'real' code of the corresponding feature extractor, i.e. the output of the feature extractor. It is set as a secondary condition in a first step that the round-trip transformation has the same code, i.e. the same features.
  • the secondary condition is that the mean squared error should be zero. This serves in particular to learn the initial weights of the neural networks of the feature transformation unit.
  • a loss function is preferably used which has the following conditions in the first, preferably at least 100, at most 300, most preferably 200, epochs:
  • the common loess of the above-mentioned conditions which should result in zero, is determined and optimized by adjusting the weights.
  • the output of the neural networks of the feature inverse transformation unit is plugged into the respective decoder and then the output of the decoders is compared with the input that was plugged into the feature extractor.
  • the main condition then no longer relates to the identity of the features or the codes, but to the identity of the original modality-dependent inputs of the feature extractors and the outputs of the decoders.
  • the decoder preferably outputs gray values of the “again generated” image, which are compared with the gray values of the original input image. For comparison, the “mean squared error” of the gray values of the generated gray value image of the Decoders and the gray values of the real gray value image of the input compared.
  • the decoder preferably outputs a “re-generated” point cloud for the first sensor modality, which is compared with the point cloud. For comparison, the Chamfer distance is preferably determined.
  • the common loess of the above conditions is determined and optimized by adjusting the weights.
  • the method comprises classifying the modality-independent features, in particular the feature vectors obtained from the feature extraction unit, by means of a classification unit.
  • the method uses a single classification unit for the classification of all features of the sensors of all sensor modalities, from which measurement data are generated and provided.
  • the method does not include the use of a separate classification unit for each sensor modality.
  • the method can include the prior teaching of the classification unit with the aid of monitored learning.
  • the classification unit is provided with at least one data set for learning.
  • the classification unit is taught on the basis of annotated image data.
  • the term “previous” should also preferably mean that the teaching is carried out before the generation of measurement data for classification.
  • the classification unit is learned in particular with the aid of monitored learning in order to classify features that are independent of modality.
  • the classification unit is particularly advantageous because annotated image data sets currently make up the largest amount of annotated data.
  • the feature extraction unit is designed to extract modality-independent features that are independent of a sensor modality
  • a single classification unit can be used that is trained on the basis of data records of a single sensor modality.
  • the classification unit was preferably trained on annotated image data sets, due to the fact that the extracted features are independent of the modality, it is equally able to classify features from lidar measurement data, although it has never been learned from lidar measurement data. This is a major advantage of the present method over the prior art.
  • the method primarily includes the transfer of at least one feature vector from the feature extraction unit to the classification unit.
  • This feature vector can only contain the modality-independent features or also additional modality-dependent features.
  • the classification comprises the comparison of the feature vector obtained with a previously determined average feature vector per class, with a corresponding class label being output if the deviation falls below a predetermined limit.
  • the teaching of the classification unit can include the determination of classes.
  • the classification unit uses the at least one data record that has been made available to it for learning to determine the classes for which it is to assign so-called class labels after the training has been completed. For example, one class can affect cars while another class can affect pedestrians.
  • the at least one teaching data set preferably comprises a plurality of feature vectors, it being possible for a plurality of feature vectors to be assigned to each class.
  • Training can also include determining an average feature vector per class.
  • the average feature vector of a class is primarily determined by averaging the feature vectors of this class.
  • the method involves storing the average feature vectors.
  • the method can include the transfer of at least one feature vector from the feature extraction unit to the classification unit, which is to be classified by means of the classification unit.
  • the feature vector is first processed using the classification unit.
  • the result is a processed feature vector, especially a bottle-neck vector.
  • the main purpose of the processing is to make clear dividing lines between different classes recognizable.
  • the classification unit comprises a neural network, the ses preferably comprising at least 3, preferably at least 4, in particular 5, layers.
  • the neural network comprises at least one fully connected layer.
  • the network preferably comprises at least 2, preferably at least 3, fully connected layers.
  • the fully connected layers are preferably activated by a non-linear function, in particular a so-called ReLU function.
  • the network mainly comprises 5 layers.
  • the last layer has no activation.
  • the last layer is called the bottle neck vector.
  • the neural network of the classification unit is used to process the feature vectors. As a result, a bottle-neck vector is preferably obtained.
  • the classification unit can comprise a decision module, which carries out a comparison of the feature vector obtained with the average feature vectors.
  • the average feature vectors are in particular also average bottle neck vectors.
  • the revised feature vectors are compared with the average feature vectors.
  • the average feature vectors represent the safe learned knowledge of the classification unit.
  • the cosine similarity between the feature vector obtained, preferably the processed feature vector, and the average feature vectors is determined in each case.
  • deviation limits so-called thresholds, are defined beforehand. This is used to determine the similarity with which a certain class should be recognized or the deviation from which a class label should no longer be assigned for this class. If the deviation from an average feature vector falls below the limit, a corresponding class label is output.
  • the classification module recognizes an object of this class if it is sufficiently similar to the average feature vector of a class and outputs the corresponding class label.
  • the decision module can output as a result that no object of the classes was recognized. In particular, no class label is issued.
  • the comparison and the output is primarily carried out by a decision module of the classification unit. The decision module thus decides to what extent a class label should be output in the event of a deviation from the reliable knowledge of the classification unit.
  • the invention comprises a method for optical distance measurement comprising an above-described method for classifying objects.
  • optical distance measurement is characterized in particular by the fact that distances are determined using optical signals, here optical measuring pulses become.
  • the term “distance” is to be understood as a distance.
  • the distance covered by the measuring pulse is the distance between a device for carrying out the method, which has transmitted the measuring pulse, and the object that reflected it, plus the distance between the object and the device which has received the corresponding reflected measuring pulse
  • the reflected measuring pulses each represent backscatter signals of the transmitted measuring pulses.
  • the measuring pulses reflected on an object are previously with the aid of the transmitting unit
  • the optical distance measurement is preferably based on the time-of-flight principle.
  • the method is used to classify objects and / or the method to measure distance for navigation of a driverless vehicle.
  • the invention comprises a device for classifying objects, which is designed to carry out a method for classifying objects described above.
  • the device comprises in particular a transmitter unit and a receiver unit.
  • the receiving unit in each case comprises at least one sensor per sensor modality, with the transmitting unit in each case having the corresponding transmission modules for generating the measurement data for transmitting the signals for generating the measurement data for the respective sensor modality.
  • the device comprises a sensor of a first sensor modality, preferably a sensor of a second sensor modality and / or a sensor of a third sensor modality and / or a sensor of a fourth sensor modality.
  • the device is thus designed to generate measurement data from at least two sensor modalities, preferably three or four sensor modalities.
  • the device is a scanning lidar sensor, which can preferably comprise further sensors of other sensor modalities.
  • the device can also be designed to carry out a method for distance measurement described above.
  • the device comprises a feature extraction unit, which in turn has a feature extractor for each sensor modality of the sensors used.
  • the feature extraction unit comprises a feature transformation unit for extracting features which are independent of modality and optionally features which are dependent on modality from the extracted features of the feature extractor.
  • the feature transformation unit is learned in particular with the aid of unsupervised learning, the classification unit being further preferably taught in, in particular with the aid of monitored learning.
  • the device is used for navigation of a driverless vehicle.
  • the invention comprises a computer program product, which comprises a computer-readable storage medium, on which a program is stored, which enables a computer after it has been loaded into the memory of the computer, a method for classifying objects and / or described above for distance measurement, possibly in conjunction with a device described above.
  • the invention relates to a computer-readable storage medium on which a program is stored which enables a computer, after it has been loaded into the memory of the computer, to a method described above for classifying objects and / or for distance measurement, possibly in addition play together with a device described above.
  • FIG. 1 shows a process diagram of a method according to the invention
  • Figure 2 shows an inventive device
  • FIG. 3 shows a schematic illustration of a feature extraction unit
  • FIG. 4 feature extractor and decoder for the first and the second sensor modality for teaching the feature extractor
  • FIG. 5 shows an arrangement for teaching the feature transformation unit comprising a feature extraction unit, a feature reverse transformation unit and decoder for teaching the feature transformation unit.
  • FIG. 1 A method diagram of a method (100) according to the invention is shown in FIG.
  • the method (100) according to the invention can preferably include the prior teaching (112) of the feature extractor and the previous teaching (101) of a feature transformation unit (17) of a feature extraction unit (13). Furthermore, the method (100) according to the invention can preferably include prior teaching (102) of a classification unit (18).
  • the teaching (102) of the classification unit (18) can include, in particular, the determination (102a) of classes, in particular on the basis of the at least one data record that was made available to the classification unit (18) for teaching.
  • the classes for which the classification unit (18) is to assign so-called class labels after the training has been completed are determined.
  • the teaching (102) can include the determination (102b) and storage of an average feature vector per class.
  • the method includes, in particular, the provision (106) of measurement data for the feature extraction unit.
  • the method can previously generate (103) measurement data from a sensor of a first sensor modality, further preferably also generate (104) measurement data from a sensor of a second sensor modality and / or generate (105) measurement data from a sensor of a third sensor - include standard modality.
  • Steps 103 to 105 can preferably be carried out simultaneously.
  • the method comprises performing scans, with measurement data of all sensor modalities being available after completion of a scan and being able to be provided for the feature extraction unit (13).
  • the method further comprises extracting (107) modality-independent features. For this purpose, features are preferably extracted (108) by means of a respective feature extractor.
  • features that are independent of modality are extracted from the features of at least two feature extractors by means of the feature transformation unit (17) in (109). Furthermore, the method can include the classification (110) of the modality-independent features by means of the classification unit (18), so that an object classification (111) can be carried out.
  • the classification (110) can include that at least one feature vector is passed on from the feature extraction unit (13) to the classification unit (18) (110a), the classification unit (18) preferably processing (110b) the feature vector.
  • a bottle-neck vector is preferably obtained.
  • the feature vector, the one obtained or preferably the revised one is compared in each case with the previously determined average feature vectors (110c).
  • limits of deviation from the average feature vectors can be set for comparison (llOd).
  • the respective cosine similarity between the feature vector and the average feature vectors is preferably determined (llOe).
  • the corresponding class label is output (HOf), while if all previously defined deviation limits are exceeded, the output (110g) shows that no object of the classes was recognized. This is done primarily by means of a decision module (18a) of the classification unit (18).
  • FIG. 2 shows a schematic view of a device (10) according to the invention.
  • the device (10) comprises a transmitting unit (11) and a receiving unit (12).
  • the receiving unit (12) comprises at least one sensor per sensor modality, the transmission unit (11) each having the corresponding transmission modules for generating the measurement data for transmitting the signals for generating the measurement data of the respective sensor modality.
  • the transmission unit (11) can each have a source for transmitting lidar and radar measurement data.
  • the measurement data received in the receiving unit (12) are made available to the feature extraction unit (13).
  • the feature extraction unit (13) comprises a feature extractor (14) for measurement data of the sensor of the first sensor modality, one Feature extractors (15) for measurement data of the sensor of the second sensor modality and a feature extractor (16) for measurement data of the sensor of the third sensor modality.
  • the respective feature extractors (14, 15, 16) extract features that are made available to the feature transformation unit (17), which uses them to generate features that are independent of modality.
  • the device also has a classification unit (18) which classifies the modality-independent features of the feature transformation unit (17).
  • the classification unit (18) comprises a decision module (18a).
  • FIG. 3 shows a schematic illustration of a feature extraction unit (13).
  • the feature extraction unit (13) comprises a feature extractor (14) for measurement data of the sensor of the first sensor modality and a feature extractor (15) for measurement data of the sensor of the second sensor modality.
  • the feature extractors receive modality-dependent input (19).
  • the feature extractor (14) for the measurement data of the first sensor modality is designed to generate a point cloud code (23) from measurement data of the first sensor modality, namely from a lidar point cloud (21).
  • the feature extractor (15) for the measurement data of the second sensor modality is designed to generate an image code (22) from measurement data of the second sensor modality, namely from image data (20).
  • the feature extraction unit (13) further comprises a feature transformation unit (17).
  • the feature transformation unit (17) comprises a neural network (17a) for the measurement data of the first sensor modality and a neural network (17b) for the measurement data of the second sensor modality. As input, they receive the respective code of the feature extractor.
  • the feature transformation unit (17) is designed to recognize modality-independent features (24). They live in a common feature room (26). Furthermore, the feature transformation unit (17) can output modality-dependent features (25) that live in their own feature rooms, namely in a feature room (27) for modality-dependent features of the first sensor modality and a feature room (28) for modality-dependent features of the second sensor modality.
  • FIG. 4 shows a feature extractor (14) and decoder (30) for the first sensor modality and a feature extractor (15) and a decoder (31) for the second sensor modality for teaching the feature extractor.
  • the decoder (30) for the first sensor modality outputs an ouput (30a), namely a point cloud, which is compared with the modality-dependent input (19) of the feature extractor (14) for teaching the feature extractor (14) .
  • the decoder (31) for the second sensor modality outputs an output (31a), namely image data, which is compared with the modality-dependent input (19) of the feature extractor (15) in order to teach the feature extractor (15).
  • FIG. 5 shows an arrangement for teaching the feature transformation unit (17), comprising a feature extraction unit (13) according to FIG. 3, a feature reverse transformation unit (29) and decoder, namely a decoder (30) for the first sensor modality and a decoder (31 ) for the second sensor modality.
  • the feature reverse transformation unit (29) comprises a neural network (29a) for the first sensor modality and a neural network (29b) for the second sensor modality. As input, they receive the modality-independent features (24) and optionally the modality-dependent features (25) of the feature transformation unit (17).
  • the feature reverse transformation unit (29) is designed to generate code again from the input, specifically an image code (32) and a point cloud code (33).
  • the respective decoders can again generate modality-dependent data from the corresponding codes.
  • the decoder (31) for the second sensor modality generates an output (31a) which corresponds to the image data generated again.
  • the decoder (30) for the first sensor modality generates an output (30a) which corresponds to a regenerated lidar point cloud.
  • the feature extractor for the second sensor modality can be structured as follows:
  • transposed convolution is not to be understood as a transposition of a matrix in the mathematical sense, but rather upsampling is learned. In other words, a "zooming" to the original image size is learned.
  • the teaching of the feature extractor and the decoder can be determined by the following parameters:
  • the learning rate decreases like a step function. After 200,000 steps, it decreases by half. until it reaches a minimum of 0.00001. after which it remains constant
  • the feature extractor for the first sensor modality can be structured as follows:
  • the decoder for the first sensor modality can be constructed as follows:
  • the teaching of the feature extractor and the decoder for the first sensor modality can be determined by the following parameters:
  • the learning rate decreases like a step function. After 200,000 steps, it decreases by half until it reaches a minimum of 0.00001, after which it remains constant
  • the networks of the feature transformation unit can all be constructed as follows:
  • the networks of the feature re-transformation unit can all be structured as follows:
  • the teaching of the feature transformation unit can be determined by the following parameters:
  • the learning rate decreases like a step function. After 200000 steps it decreases by a factor of 0.3 until it has reached a minimum of 0.00001, then it remains constant
  • the neural network of the classification unit can be constructed as follows:
  • the teaching of the classification unit can be determined by the following parameters:

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)
  • Traffic Control Systems (AREA)

Abstract

Es wird ein Verfahren (100) zur Klassifizierung von Objekten vorgeschlagen, das das Bereitstellen (106) von Messdaten von einem Sensor für eine Merkmalsextraktionseinheit (13) sowie das Extrahieren (107) von modalitätsunabhängigen Merkmalen mittels der Merkmalsextraktionseinheit (13) aus den Messdaten umfasst, wobei die modalitätsunabhängigen Merkmale unabhängig von einer Sensormodalität des Sensors sind, sodass aus den modalitätsunabhängigen Merkmalen kein Rückschluss auf die Sensormodalität des Sensors möglich ist.

Description

Verfahren und Vorrichtung zur Klassifizierung von Objekten
Technisches Gebiet
Die Erfindung betrifft ein Verfahren sowie eine Vorrichtung zur Klassifizierung von Objekten.
Stand der Technik
Für die Anwendung in der fahrerlosen Navigation von Fahrzeugen ist es essenziell zu wissen, welche Arten von Verkehrsteilnehmern das Fahrzeug umgeben sowie welche Arten von Infrastrukturen sich in der Umgebung befinden. In anderen Worten ist es essentiell Objekte zu klassifizieren. Aus dem Stand der Technik ist es bekannt, Mess- daten verschiedener Sensormodalitäten zur Objektklassifizierung oder Objekterken- nung zu verwenden. Dies ist insbesondere daher vorteilhaft, da die Messdaten der verschiedenen Sensormodalitäten teilweise komplementäre Informationen über die Umgebung liefern können. Typischerweise werden dabei die Daten der einzelnen Sen- soren separat verarbeitet und anschießend auch separat zu klassifiziert. Erst im An- schluss können die Daten wieder zusammengeführt und weiter verarbeitet werden.
Ferner sind nach dem Stand der Technik die aus den Messdaten extrahierten Daten modalitätsabhängig, sodass es notwendig ist, dass ein separates Klassifizierungsmodul für jede Sensormodalität vorhanden und somit auch trainiert werden muss. Dies ist gerade dann, wenn es sich nicht um Bilddaten handelt, mit extremem Aufwand ver- bunden, da das Annotieren von Lidar- oder Radar-Datensätzen zum Anlernen von Klassifizierungsmodulen sehr zeitaufwendig und fehlerbehaftet ist. Der Grund dafür ist, dass die gemessenen Daten für die Menschen schwer verständlich sind und Perso- nen, die entsprechende Datensätze annotieren, zeitaufwändig geschult werden müs- sen, bevor sie mit der Aufgabe beginnen können. Ferner kommt hinzu, dass im Hin- blick auf Lidar und Radar die vorhandenen annotierten Datensätze im Vergleich zu Bilddatensätzen viel kleiner sind. Darstellung der Erfindung: Aufgabe, Lösung, Vorteile
Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren sowie eine Vorrichtung zur Klassifizierung von Objekten derart zu verbessern, dass im Vergleich zum Stand der Technik eine Klassifizierungseinheit zum Klassifizieren der Merkmale nicht separat für die Messdaten verschiedener Sensormodalitäten trainiert werden muss, sondern einmalig anhand von Messdaten einer einzigen Sensormodalität angelernt werden kann.
Gelöst wird die oben genannte Aufgabe durch das erfindungsgemäße Verfahren zur Klassifizierung von Objekten. Das Verfahren umfasst das Bereitstellen von Messdaten von einem Sensor für eine Merkmalsextraktionseinheit. Ferner umfasst das Verfahren das Extrahieren von modalitätsunabhängigen Merkmalen, insbesondere mittels der Merkmalsextraktionseinheit, aus den Messdaten. Die modalitätsunabhängigen Merkmale sind unabhängig von einer Sensormodalität des Sensors, sodass aus den modalitätsunabhängigen Merkmalen kein Rückschluss auf die Sensormodalität mög- lich ist. Ferner kann das Verfahren auch das Extrahieren modalitätsabhängiger Merk- male umfassen.
Bei dem Begriff „Sensormodalität" handelt es sich insbesondere um den deutschen Begriff des englischen Begriffs„sensor modality". In anderen Worten handelt es sich bei der Sensormodalität um eine Sensorkategorie oder einen Sensortyp. Sensoren unterscheiden sich somit insbesondere durch die Sensormodalität, das heißt den Sen- sortyp oder der Sensorkategorie. Insbesondere bestimmt die Sensormodalität das Messverfahren, mit dem die Messdaten erzeugt werden. Bei der Sensormodalität handelt es sich vorzugsweise um Lidar, Radar, Bild oder Ultraschall. Das heißt vor- zugsweise, dass es sich bei dem entsprechenden Sensor der Modalität um einen Lidar- Sensor, einen Radar-Sensor, einen Bildsensor, insbesondere eine Kamera, oder einen Ultraschallsensor handelt.
Unter dem Begriff„Merkmale" sind insbesondere charakteristische Eigenschaften aus den Messdaten gemeint. Es handelt sich insbesondere um sogenannte„Features", die typischerweise abhängig von der Sensormodalität des Sensors, der die Messdaten aufgenommen hat, sind. Modalitätsunabhängige Merkmale sind allerdings unabhän- gig von der Sensormodalität des Sensors, der die Messdaten aufgenommen hat. In anderen Worten sind modalitätsunabhängige Merkmale in den Messdaten von min- destens zwei Sensormodalitäten von demselben Objekt zu erkennen. Daher kann man diese auch als gemeinsame Merkmale bezeichnen. Es handelt sich um generelle, in anderen Worten sensorunabhängige, Merkmale. Ein Rückschluss auf die Sensormoda- lität des Sensors ist anhand von modalitätsunabhängigen Merkmalen nicht möglich. Insbesondere sind die modalitätsunabhängigen Merkmale unabhängig von der Art des Messverfahrens, aus dem die Messdaten resultieren.
In anderen Worten ist das Verfahren dazu in der Lage, modalitätsunabhängige Merk- male aus den Messdaten zu extrahieren, die unabhängig von der Sensormodalität des Sensors sind. Dadurch muss eine Klassifizierungseinheit zur Klassifizierung der Merk- male nicht mehr für jede Sensormodalität separat vorgesehen und trainiert werden. Es genügt, eine einzige Klassifizierungseinheit für sämtliche Messdaten unterschiedli- cher Sensormodalitäten zur Verfügung zu stellen.
Vorzugsweise gibt es mindestens eine erste und eine zweite Sensormodalität, wobei das Verfahren dazu ausgebildet ist, aus Messdaten eines Sensors der ersten Sensor- modalität derart modalitätsunabhängige Merkmale zu extrahieren, dass Messdaten eines Sensors der zweiten Messmodalität rekonstruierbar sind. Ferner ist das Verfah- ren bevorzugterweise dazu ausgebildet aus Messdaten der zweiten Sensormodalität modalitätsunabhängige Merkmale zu extrahieren und zwar derart, dass Messdaten der ersten Modalität rekonstruierbar sind. Insbesondere gibt es mehr als zwei Sen- sormodalitäten, vor allem drei oder vier, wobei das Verfahren derart modalitätsunab- hängige Merkmale extrahiert, dass aus diesen Merkmalen Messdaten jeder Sensor- modalität rekonstruierbar sind.
Rekonstruierbar bedeutet, dass bei Vorsehung eines Decoders für jede Sensormodali- tät, also eines Decoders für die erste Sensormodalität und eines Decoders für die zweite Messmodalität diese in der Lage wären, aus den modalitätsunabhängigen Merkmalen Messdaten der entsprechenden Modalität zu erzeugen. Beispielsweise handelt es sich bei der ersten Sensormodalität um Lidar, während es sich bei der zwei- ten Modalität um Bild handelt. Die Merkmalsextraktionseinheit kann aus den Lidar- Messdaten modalitätsunabhängige Merkmale extrahieren. Dabei kann aus diesen modalitätsunabhängigen Merkmalen ein Bild, das heißt Messdaten der zweiten Sen- sormodalität, rekonstruiert werden, obwohl die modalitätsunabhängigen Merkmale nur aus Lidar-Messdaten stammen.
Die Sensormodalität bestimmt vorzugsweise die Art der Messdaten, wobei es sich bei der Art der Messdaten um Radar-Messdaten, Lidar-Messdaten, Bilddaten oder Ultra schal I-Messdaten handelt.
Insbesondere kann es sich bei den Messdaten um Punktwolken und/oder Bilddaten handeln. Insbesondere handelt es sich bei den Punktwolken um unsortierte Punkt- wolken. Vorzugsweise ist das Verfahren dazu ausgebildet, derart modalitätsunabhän- gige Merkmale aus Punktwolken und/oder Bilddaten zu extrahieren, dass Messdaten der jeweils anderen Messmodalität rekonstruierbar sind. Insbesondere ist die Merk- malsextraktionseinheit dazu ausgebildet aus einer Punktwolke und/oder Bilddaten modalitätsunabhängige Merkmale zu extrahieren, sodass aus modalitätsunabhängi- gen Merkmalen Messdaten der jeweiligen anderen Sensormodalität, das heißt ein Bild und/oder eine Punktwolke, rekonstruiert werden können.
Insbesondere weist der Sensor eine erste Sensormodalität auf, wobei damit bevorzug- terweise gemeint ist, dass der Sensor einer bestimmten Sensormodalität entspricht. Ein Sensor kann bevorzugterweise nur eine einzige Sensormodalität aufweisen.
Das Verfahren umfasst insbesondere das Erzeugen der Messdaten, insbesondere von Messdaten zum Klassifizieren, die anschließend an die Merkmalsextraktionseinheit weitergegeben werden. Insbesondere handelt sich bei den Messdaten um Lidar- Messdaten, sodass es sich bei dem Sensor der ersten Sensormodalität um einen Lidar- Sensor handelt. Zum Erzeugen der Messdaten umfasst das Verfahren insbesondere das Aussenden einer Vielzahl von Messpulsen, insbesondere zum Erzeugen von Lidar- Messdaten. Die Messdaten verschiedener Sensormodalitäten stammen vor allem von derselben Szene.
Bei einem Messpuls handelt es sich insbesondere um ein optisches, insbesondere elektromagnetisches, Signal. Der Messpuls hat vorzugsweise eine Wellenlänge, die nicht aus dem für das menschliche Auge sichtbaren Bereich stammt. Vorzugsweise wird aus Sicherheitsgründen unsichtbares Infrarot verwendet. Bevorzugterweise weist ein Messpuls eine Pulsbreite auf, sodass man den Messpuls als eine zeitlich begrenzte Portion elektromagnetischer Strahlung verstehen kann. Da es sich beim Messpuls um ein elektromagnetisches Signal handelt und somit die Geschwindigkeit des Messpul- ses bekannt ist, kann aus der Laufzeit eines Messpulses mithilfe der Lichtgeschwindig- keit darauf geschlossen werden, welche Strecke der Messpuls in der Laufzeit hinter sich gebracht hat.
Insbesondere umfasst das Verfahren das Durchführen einer Vielzahl von Scans. Dies bedeutet, dass Messpulse oder eine Messpulsfolge unter unterschiedlichen Richtun- gen sequentiell ausgesandt werden. Insbesondere handelt es sich bei dem Verfahren um ein scannendes Lidar-Verfahren. Nach Aussenden der Messpulse in einen auszu- messenden Bereich ist ein jeweiliger Scan abgeschlossen und ein neuer Scan kann be- ginnen. Insbesondere werden nach jedem abgeschlossenen Scan mittels der Merk- malsextraktionseinheit modalitätsunabhängige Merkmale aus den Messdaten extra- hiert, um Objekte zu klassifizieren.
Insbesondere umfasst das Verfahren das Erzeugen von Messdaten eines Sensors einer zweiten Sensormodalität, wobei das Verfahren das Bereitstellen der Messdaten für die Merkmalsextraktionseinheit umfasst. Die zweite Sensormodalität und die erste Sensormodalität unterscheiden sich vorzugweise. In anderen Worten umfasst das Ver- fahren vorzugsweise das Erzeugen von Messdaten eines Sensors einer zweiten Sen- sormodalität sowie von Messdaten eines Sensors einer ersten Sensormodalität, wobei das Verfahren das Bereitstellen der Messdaten beider Sensormodalitäten für die Merkmalsextraktionseinheit umfasst. Ferner kann das Verfahren das Erzeugen von Messdaten eines Sensors einer dritten Sensormodalität umfassen, die ebenfalls für die Merkmalsextraktionseinheit bereitgestellt werden. Die dritte Sensormodalität, die zweite Sensormodalität und die erste Sensormodalität unterscheiden sich vorzugs- weise. Ferner kann das Verfahren das Erzeugen von Messdaten eines Sensors einer vierten Sensormodalität umfassen, die ebenfalls für die Merkmalsextraktionseinheit bereitgestellt werden. Bei der ersten Sensormodalität und/oder der zweiten Sensor- modalität und/oder der dritten Sensormodalität und/oder der vierten Sensormodali- tät kann es sich um Lidar, Radar, Bild oder Ultraschall handeln. Insbesondere unter- scheiden sich die Sensormodalitäten.
Das Verfahren umfasst somit insbesondere das Erzeugen von Messdaten unterschied- licher Sensormodalitäten und eine modalitätsunabhängige Merkmalsextraktion, so- dass ein Vorteil daraus gezogen wird, auf andere Sensordaten zum Anlernen der Klas- sifizierungseinheit zurückgreifen zu können.
Vorzugsweise umfasst die Merkmalsextraktionseinheit mindestens einen Feature- Extractor pro Sensormodalität, wobei der Feature-Extractor Merkmale aus den Mess- daten extrahiert. Insbesondere umfasst die Merkmalsextraktionseinheit jeweils einen Feature-Extractor pro Sensormodalität der Sensoren, die Messdaten erzeugen. Insbe- sondere umfasst die Merkmalsextraktionseinheit einen Feature-Extractor für die erste Sensormodalität, das heißt vorzugsweise für Lidar-Messdaten, wobei der Feature- Extractor dazu ausgebildet ist, aus den Lidar-Messdaten Lidar-Merkmale zu extrahie- ren. Dabei sind unter den von den Feature-Extractoren extrahierten Merkmale so- wohl welche, die nur in den Messdaten einer Sensormodalität zu sehen sind, sprich modalitätsabhängige Merkmale, als auch welche, die in mehreren Sensormodalitäten zu sehen sind, sprich modalitätsunabhängige Merkmale. Die Feature-Extractor können diese Merkmale allerdings nicht voneinander unterscheiden. In anderen Worten weiß der Feature-Extractor nicht, welche Merkmale modalitätsabhängig und welche moda- litätsunabhängig sind.
Ferner bevorzugt umfasst die vorzugsweise Merkmalsextraktionseinheit einen jeweili gen entsprechenden Feature-Extractor für die zweite Sensormodalität und/oder die dritte Sensormodalität und/oder die vierte Sensormodalität, der dazu ausgebildet ist, aus entsprechenden Messdaten Merkmale zu extrahieren, bspw. aus Radar- Messdaten entsprechende Radar-Merkmale oder aus Bilddaten entsprechende Bild- Merkmale.
Bei dem Feature-Extractor handelt es sich insbesondere um einen„Encoder", vor- zugsweise je nach Sensormodalität um einen Lidar-Encoder, Radar-Encoder, Image- Encoder oder Ultraschall-Encoder. Vorzugsweise kann es sich bei dem Encoder um einen Point-Cloud-Encoder handeln, insbesondere wenn es sich bei den Messdaten um Lidar-Messdaten handelt.
Die Feature-Extractor umfassen insbesondere jeweils ein neuronales Netzwerk. Insbe- sondere handelt es sich bei den Feature-Extractor um neuronale Netzwerke. Vorteil- hafterweise wird pro Sensormodalität ein neuronales Netzwerk verwendet, das opti- mal die darin zu erkennenden Merkmale extrahiert. Ferner bevorzugt umfasst der Feature-Extractor für die zweite Sensormodalität, d.h. vorzugsweise für Bilddaten, ein Convolutional Neural Network (CNN), das mindestens ein Convolutional Layer umfasst. Jedes Layer enthält eine Vielzahl von künstlichen Neuronen.
Jedes Layer des CNN kann als Convolutional Layer ausgebildet sein. Ein Convolutional Layer führt insbesondere eine Faltung durch. Insbesondere umfasst das CNN mindes- tens 5, vorzugsweise mindestens 10, insbesondere mindestens 15, Layer.
Aktiviert sind alle Layer (bis auf den letzten Layer) jeweils vor allem durch eine nicht- lineare Funktion, insbesondere eine sogenannte ReLU-Funktion. Dabei handelt es sich bei einer ReLU-Funktion um eine„Rectified Linear Unit". In anderen Worten handelt es sich um eine Funktion, die im positiven x-Werte Bereich linear ausgebildet ist, je- doch im negativen x-Werte Bereich Null ist, wobei x für einen Eingangswert eines Neurons steht. Das letzte Layer hat vorzugsweise keine Aktivierungsfunktion um als letzten Schritt sämtliche Zahlenwerte zuzulassen.
Das CNN ist in der Lage Input in Form eines Bildes, insbesondere einer Matrix, zu ver- arbeiten. Das CNN extrahiert in den ersten Layern einfache Merkmale, wie bspw. ge- rade Striche, und je tiefer das Netzwerk wird, desto komplexer werden die Merkmale, die extrahiert werden (z.B. L Features, Kreis Features, Stern Features, hochdimensio- nale Features). Output des Netzwerks sind somit Merkmale, insbesondere in Form von Vektoren. Der Output wird auch als Image Code bezeichnet. Dieser Image Code wird im Folgenden auch als , echter Image Code' bezeichnet, um ihn von einem wieder erzeugten Image Code einer Merkmalsrücktransformationseinheit zu unterscheiden.
Insbesondere umfasst der Feature-Extractor für die erste Sensormodalität, d.h. vor- zugsweise für Lidar-Messdaten, ein„multi layer perceptron" (MLP-) Netzwerk, das mindestens ein„multi layer perceptron" als Layer (MLP Layer) umfasst. Jedes Layer enthält eine Vielzahl von künstlichen Neuronen. Insbesondere umfasst das MLP- Netzwerk eine Vielzahl von MLP Layern. Die MLP Layer sind vorzugsweise alle jeweils durch eine nicht-lineare Funktion, insbesondere eine sogenannte ReLU-Funktion, akti viert. Das MLP hat vorzugsweise mindestens 3, insbesondere mindestens 5, Layer, die mehrere Unterschichten umfassen können. Ferner kann das MLP Netzwerk mindestens ein fully connected Layer umfassen, das auch durch eine nicht-lineare Funktion, insbesondere eine sogenannte ReLU-Funktion, aktiviert sein kann.
Das MLP Netzwerk ist in der Lage Input in Form von Punktwolken zu verarbeiten. Out- put des Netzwerks sind somit Merkmale, insbesondere in Form von Vektoren. Der Output wird auch als Punktwolken Code bezeichnet. Dieser Punktwolken Code wird im Folgenden auch als , echter Punktwolken Code' bezeichnet, um ihn von einem wie- der erzeugten Punktwolken Code einer Merkmalsrücktransformationseinheit zu un- terscheiden.
Ferner bevorzugt umfasst die Merkmalsextraktionseinheit eine Merkmalstransforma- tionseinheit, die aus den Merkmalen mindestens zweier Feature-Extractor modali- tätsunabhängige Merkmale extrahiert. Unter dem Begriff „transformieren" ist insbe- sondere ein Auffinden modalitätsunabhängiger Merkmale zu verstehen, wobei diese in einen gemeinsamen Feature Raum abgelegt werden. Anders gesagt werden die Merkmale aufgefunden und in einen gemeinsamen Raum abgebildet. In anderen Worten ist unter der Merkmalstransformationseinheit somit eine Einheit zum Auffin- den modalitätsunabhängiger Merkmale zu verstehen. Insbesondere werden sämtliche Merkmale, die die Feature-Extractor extrahieren, für die Merkmalstransformations- einheit bereitgestellt, wobei die Merkmalstransformationseinheit aus diesen modali- tätsunabhängige Merkmale extrahiert.
Der Vorteil liegt darin, dass anhand der modalitätsunabhängigen Merkmale kein Rück- schluss mehr auf die Sensormodalität des Sensors, von dem die Merkmale stammen, gezogen werden kann. Insbesondere gibt die Merkmalsextraktionseinheit als Ergebnis der Extraktion und Transformation einen Feature-Vektor aus, der modalitätsunabhän- gig ist. Vor allem stellt die Merkmalsextraktionseinheit Feature-Vektoren für die Klas- sifizierungseinheit zur Klassifizierung zur Verfügung.
Die Merkmalstransformationseinheit umfasst vor allem pro Sensormodalität ein neu- ronales Netzwerk. Die Netzwerke dienen dem Auffinden der modalitätsunabhängigen Merkmale und optionalerweise von modalitätsabhängigen Merkmalen und dem Able- gen in einem gemeinsamen Feature Raum. Die Merkmalstranformationseinheit ist dazu ausgebildet als Input Merkmale, insbesondere Feature Vektoren, die aus den Feature-Extractor stammen, zu verarbeiten.
Insbesondere umfasst jedes neuronales Netzwerk der Merkmalstransformationsein- heit mindestens ein fully connected layer. Vorzugsweise umfasst das Netzwerk min- destens 2, vorzugsweise mindestens 3, fully connected Layer. Die fully connected Lay- er sind vorzugsweise jeweils durch eine nicht-lineare Funktion, insbesondere eine so- genannte ReLU-Funktion, aktiviert. Ferner kann das Netzwerk mindestens ein dropout Layer umfassen. Insbesondere ist das Netzwerk derart aufgebaut, dass zwischen zwei fully connected Layern ein dropout Layer angeordnet ist. Das Netzwerk umfasst vor allem 5 Layer. Dabei kann die letzte Layer keine Aktivierung aufweisen. Insbesondere sind alle neuronalen Netzwerke der verschiedenen Sensormodalitäten der Merkmals- transformationseinheit gleich aufgebaut.
Output der Netzwerke der Merkmalstransformationseinheit sind modalitätsunabhän- gige Merkmale, insbesondere in Form von Vektoren. Ferner könnte die Merkmals- transformationseinheit zusätzlich auch modalitätsabhängige Merkmale ausgeben. In anderen Worten sucht die Merkmalstranformationseinheit Merkmale, die in allen Messdaten der verschiedenen Sensormodalitäten zu erkennen sind, d.h. die alle Sen- sormodalitäten gemeinsam haben. Diese modalitätsunabhängigen Merkmale werden ausgegeben. Es können aber auch zusätzlich die Merkmale ausgegeben werden, die nur in einer Sensormodalität auftauchen, d.h. die modalitätsabhängigen Merkmale.
Das neuronale Netzwerk der ersten Sensormodalität gibt insbesondere modalitätsun- abhängige d.h. gemeinsame Merkmale und optionalerweise Lidar-spezifische Merk- male aus. Das neuronale Netzwerk der zweiten Sensormodalität gibt insbesondere modalitätsunabhängige d.h. gemeinsame Merkmale und optionalerweise Bild- spezifische Merkmale aus. Gemeinsame Merkmale sind Merkmale, die in den Lidar- Messdaten und Bilddaten derselben Szene enthalten sind.
Der Output wird auch als Feature Code bezeichnet. Gibt das Netzwerk auch modali- tätsabhängige Merkmale aus, kann dem Netzwerk insbesondere vorgegeben werden, an welcher Stelle, in anderen Worten an welchen Indizes ihres Outputs die modali- tätsabhängigen und modalitätsunabhängigen Merkmale angeordnet sein sollen. Dadurch kann das Output gesplittet werden. Ein konkretes Beispiel wäre eine gestreifte Wand, von der Lidar-Messdaten und Bild- daten vorliegen. Die Streifen sind in den Lidar-Messdaten nicht zu erkennen, hingegen in den Bilddaten schon. Anders herum verhält es sich für die Tiefeninformation der Wand. Diese lässt sich aus den Lidar-Messdaten ableiten, aus den Bilddaten nicht. Die Streifen wäre somit ein Bild-spezifisches Merkmal, während die Tiefeninformationen ein Lidar-spezifisches Merkmal sind. Die Kontur der Wand, die sowohl in den Bildda ten als auch in den Lidar-Messdaten zu erkennen ist, wäre ein gemeinsames Merkmal. Bei den extrahierten Merkmalen des mindestens einen Feature-Extractors handelt es sich vorzugsweise um einen Vektor, einen sogenannten Feature-Vektor. Insbesondere extrahieren die jeweiligen Feature-Extractor die Merkmale, vor allem in Form von Vektoren, jedoch in jeweils separaten Räumen, je nach Sensormodalität. In anderen Worten leben die Merkmale aus den verschiedenen Sensormodalitäten in separaten Räumen.
Die Merkmalstransformationseinheit kann dazu ausgebildet sein, Merkmale der sepa- raten Räume in einen gemeinsamen Raum, den sogenannten Feature Raum, zu trans- formieren. Bei dem Feature Raum handelt es sich insbesondere um einen Vektor- raum, vorzugsweise einen metrischen Raum.
Insbesondere werden alle Merkmale aus den verschiedenen Sensormodalitäten, in anderen Worten der Output aller Feature-Extractor, der Merkmalstransformations- einheit zugeführt. Diese transformiert die Merkmale so, dass ein erster Anteil der Merkmale in einem gemeinsamen Feature Raum leben. Dieser Raum bildet die Merkmale ab, die beide Modalitäten gemeinsam haben. Diese Merkmale, die beide Modalitäten gemeinsam haben, sind die modalitätsunabhängigen Merkmale, in ande- ren Worten gemeinsame Merkmale.
Ferner können andere Anteile der Merkmale in unterschiedlichen, in anderen Worten modalitätsabhängigen bzw. modalitätsspezifischen, Feature Räumen leben. Ein zwei- ter Anteil lebt bspw. in einem Feature Raum, der der ersten Sensormodalität zuge- ordnet ist, und ein dritter Anteil in einem der zweiten Sensormodalität zugeordneten Feature Raum. Gleiches kann für eine dritte und vierte Sensormodalität gelten. Diese speziellen Räume beinhalten jeweils Merkmale ab, die nur in einer spezifischen Moda- lität gesehen werden. Vorzugsweise kann das Verfahren das vorherige Anlernen der Merkmalsmalsextrakti- onseinheit, insbesondere der Merkmalstransformationseinheit und/oder der jeweili gen Feature-Extractor, umfassen. Der Begriff„vorherig" soll ferner bevorzugt bedeu- ten, dass das Anlernen vor dem Erzeugen von Messdaten zum Klassifizieren, durchge- führt wird. Vor allem wird hierfür der Merkmalsextraktionseinheit mindestens ein Da- tensatz zum Lernen bereitgestellt. Das unüberwachte Lernen wird insbesondere an- hand mindestens eines nicht annotierten Datensatzes durchgeführt. Insbesondere ist die Merkmalstransformationseinheit, vorzugsweise die Merkmalstransformationsein- heit und/oder die jeweiligen Feature-Extractor, mit Hilfe von unüberwachtem Lernen angelernt, um modalitätsunabhängige Merkmale zu lernen.
Insbesondere kann die Merkmalsmalsextraktionseinheit, insbesondere die Merkmals- transformationseinheit und/oder die jeweiligen Feature-Extractor angelernt werden. Ferner kann die Merkmalstransformationseinheit mit Hilfe von tiefgehendem Lernen, sogenanntem Deep-Learning, angelernt werden.
Insbesondere werden die Merkmalstransformationseinheit und/oder die jeweiligen Feature-Extractor mittels unüberwachten Lernens angelernt. Dabei umfasst das jewei- lige neuronale Netzwerk, das gelernt wird, Gewichte, die durch das Lernen festgelegt werden.
Vorzugweise werden zuerst die Feature-Extractor gelernt. Vorzugsweise werden die Feature-Extractor, die als Encoder bezeichnet werden, zusammen mit den jeweils ent- sprechenden Decodern gelernt. Dies ist vorteilhaft, da diese die äußere Schicht der verschiedenen Einheiten darstellen. Dabei wird der Encoder und Decoder jeder Sen- sormodalität separat von den anderen Sensormodalitäten gelernt, sodass diese auf unterschiedlichen Datensätzen gelernt werden können. Insbesondere ist man somit nicht auf aufwendig erzeugte Datensätze angewiesen, die Messdaten mehrerer Sen- sormodalitäten umfassen.
Das Anlernen der Feature-Extractor umfasst das Bereitstellen eines Inputs. Der Input ist insbesondere sensormodalitätsspezifisch. In anderen Worten ist der Input für den Feature-Extractor für die erste Sensormodalität Lidar-Messdaten, in anderen Worten Punktwolken, während der Input für die zweite Sensormodalität Bilddaten sind. Der Input wird vorzugsweise in den Feature-Extractor gesteckt, der als Output Merk- male ausgibt. Der Feature-Extractor für die erste Sensormodalität gibt einen Punkt- wolken Code aus, während der Feature-Extractor für die zweite Sensormodalität ei- nen Image Code ausgibt. Dieser , echte' Code wird direkt in den jeweiligen Decoder gesteckt, der daraus wieder sensormodalitätsabhängigen Output generiert. In ande- ren Worten generiert der Decoder für die erste Sensormodalität wieder eine Punkt- wolke, während der Decoder für die zweite Sensormodalität wieder ein Bild, insbe- sondere ein Grauwert-Bild, erzeugt.
Dieser sensormodalitätsspezifische Output der Decoder wird mit dem jeweiligen sen- sormodalitätsspezifischen Input, der in den jeweiligen Encoder gesteckt wurde, vergli chen. Als Bedingung wird gesetzt, dass der Output des Decoders gleich sein soll mit dem Input, der dem Encoder gegeben wurde. Anhand dieser Bedingung werden die Gewichte der entsprechenden neuronalen Netzwerke festgelegt, damit die Ähnlich- keit möglichst hoch ist.
Vorzugsweise gibt der Decoder für die zweite Sensormodalität Grauwerte des„wieder erzeugten" Bildes aus, die mit den Grauwerten des ursprünglichen Input-Bildes vergli- chen werden. Wenn es sich um ein farbiges Bild als Input handelt, kann durch einfa- che Aufsummierung der R,G,B Werte eines jeden Pixels und anschließender Division durch 3 ein Grauwert Bild des Inputs erzeugt. Zum Vergleich wird vor allem eine Loss- funktion eingesetzt, die den„mean squared error" der Grauwerte des generierten Grauwert-Bildes des Decoders und der Grauwerte des echten Grauwertbildes des In- puts vergleicht. Der Löss soll Null ergeben.
Vorzugsweise gibt der Decoder für die erste Sensormodalität eine„wieder erzeugte" Punktwolke aus, die mit der Punktwolke, die dem Feature-Extractor bereitgestellt wurde, verglichen wird. Zum Vergleich wird vorzugsweise die Chamfer Distanz zwi- schen den Punktwolken ermittelt. Dabei wird bevorzugterweise für jeden Punkt der einen Punktwolke die Distanz zum nahesten Punkt der anderen Punktwolke bestimmt. Die Distanzen werden summiert. Das Gleiche wird analog für jeden Punkt der anderen Punktwolke durchgeführt. Die Summe aller Distanzen ist die Chamfer Distanz. Je ähn- licher sich Punktwolken sind, desto kleiner ist diese. Es wird vor allem eine Lossfunkti- on eingesetzt, die die Chamfer Distanz zwischen der generierten Punktwolke des De- coders und der ursprünglichen Punktwolke vergleicht. Der Löss soll Null ergeben. Als zweiter Schritt kann die Merkmalstranformationseinheit gelernt werden. Vor- zugsweise wird die Merkmalstranformationseinheit zusammen mit einer Merkmals- rücktransformationseinheit gelernt. Die Merkmalsrücktransformationseinheit weist vorzugsweise ebenfalls ein neuronales Netzwerk pro Sensormodalität auf. Dabei wer- den zum Anlernen auch die entsprechenden Encoder und Decoder der verschiedenen Sensormodalitäten verwendet, wobei deren Gewichte allerdings festgelegt sind, da deren Anlernen zu dem Zeitpunkt bereits abgeschlossen ist.
Das neuronale Netzwerk der Merkmalsrücktransformationseinheit weist mindestens ein fully connected layer auf. Das neuronale Netzwerk hat insbesondere zwei Un- tereineiten, eine Einheit, in der die modalitätsabhängigen Merkmale verarbeitet wer- den, und eine Einheit, in der die modalitätsunabhängigen Merkmale verarbeitet wer- den können.
Vorzugsweise umfasst das Netzwerk mindestens 2, vorzugsweise mindestens 3 fully connected Layer. Die fully connected Layer sind vorzugsweise jeweils durch eine nicht-lineare Funktion, insbesondere eine sogenannte ReLU-Funktion, aktiviert. Ferner kann das Netzwerk mindestens ein dropout Layer umfassen. Insbesondere ist das Netzwerk derart aufgebaut, dass zwischen zwei fully connected Layern ein dropout Layer angeordnet ist. Der letzte Layer weist keine Aktivierung.
Zum Anlernen der Merkmalstranformationseinheit wird den Feature-Extractor jeweils sensormodalitätsabhängiger, d.h. modalitätsspezifischer Input derselben Szene be- reitgestellt. In anderen Worten sind der Input für den Feature-Extractor für die erste Sensormodalität Lidar-Messdaten, in anderen Worten Punktwolken, während der In- put für die zweite Sensormodalität Bilddaten sind.
Der Input wird vorzugsweise in den Feature-Extractor gesteckt, der als Output Merk- male ausgibt. Der Feature-Extractor für die erste Sensormodalität gibt einen Punkt- wolken Code aus, während der Feature-Extractor für die zweite Sensormodalität ei- nen Image Code ausgibt. Dieser Code wird nun in das entsprechende neuronale Netzwerk der Merkmalstranformationseinheit gesteckt, das daraus modalitätsunab- hängige Merkmale und optionalerweise modalitätsabhängige Merkmale extrahiert. Der Output der neuronalen Netzwerke wird in das entsprechende neuronale Netz- werk der Merkmalsrücktransformationseinheit gesteckt, die aus den Merkmalen wie- der sensormodalitätsabhängigen Code generieren. In anderen Worten generiert das neuronale Netzwerk der Merkmalsrücktransformationseinheit für die erste Sensor- modalität wieder einen Punktwolken Code, während das neuronale Netzwerk der Merkmalsrücktransformationseinheit für die zweite Sensormodalität wieder einen Image Code erzeugt.
Als Hauptbedingung wird gesetzt, dass die gemeinsamen Merkmale der verschiede- nen Netzwerke bzw. der verschiedenen Modalitäten gleich sind. Dazu werden die ge- meinsamen Merkmale, die das neuronalen Netzwerk der Merkmalstranformations- einheit für die erste Sensormodalität erzeugt hat, und die gemeinsamen Merkmale, die das neuronale Netzwerk für die zweite Sensormodalität erzeugt hat, verglichen. Insbesondere soll die Kosinusähnlichkeit (Cosine Similarity) desselben Merkmals, das in beiden Modalitäten zu erkennen ist, Null sein. Dies dient dazu die gemeinsamen Merkmale zu finden.
Ferner wird der Code der jeweiligen neuronalen Netzwerke der Merkmalsrücktrans- formationseinheit mit dem , echten' Code des entsprechenden Feature-Extractors, d.h. dem Output des Feature-Extractors, verglichen. Es wird als Nebenbedingung in einem ersten Schritt gesetzt, dass die Hin- und Rücktransformation denselben Code, d.h. die- selben Merkmale, erhalten soll. In anderen Worten wird als Nebenbedingung festge- legt, dass der mean squared error Null ergeben soll. Dies dient insbesondere dazu die initialen Gewichte der neuronalen Netzwerke der Merkmalstransformationseinheit zu lernen.
Vorzugsweise wird eine Lossfunktion eingesetzt, die auf den ersten, vorzugsweise mindestens 100, höchstens 300, am meisten bevorzugt 200, Epochen folgende Bedin- gungen hat:
• Kosinusähnlichkeit der gemeinsamen Merkmale von beiden Modalitäten
• Mean squared error zwischen 'echtem Image Code' des Feature-Extractor und dem wieder zurücktransformierten Image Code der Merkmalsrücktransforma- tionseinheit • Mean squared error zwischen 'echtem Punktwolken Code' des Feature- Extractor und wieder zurücktransformierten Punktwolken Code der Merkmals- rücktransformationseinheit
Es wird der gemeinsame Löss der oben genannten Bedingungen ermittelt, der Null ergeben soll, und durch Anpassung der Gewichte optimiert.
In einem zweiten Schritt wird der Output der neuronalen Netzwerke der Merkmals- rücktransformationseinheit in den jeweiligen Decoder gesteckt und dann der Output der Decoder mit dem Input, der in die Feature-Extractor gesteckt wurde, verglichen. Die Flauptbedingung bezieht sich dann nicht mehr auf die Identität der Merkmale bzw. der Codes, sondern auf die Identität des ursprünglichen modalitätsabhängigen Inputs der Feature-Extractor und des Outputs der Decoder.
Vorzugsweise gibt der Decoder für die zweite Sensormodalität Grauwerte des„wieder erzeugten" Bildes aus, die mit den Grauwerten des ursprünglichen Input-Bildes vergli- chen werden. Zum Vergleich wird der„mean squared error" der Grauwerte des gene- rierten Grauwert-Bildes des Decoders und der Grauwerte des echten Grauwertbildes des Inputs verglichen.
Vorzugsweise gibt der Decoder für die erste Sensormodalität eine„wieder erzeugte" Punktwolke aus, die mit der Punktwolke verglichen wird. Zum Vergleich werden vor- zugsweise die Chamfer Distanz ermittelt.
Auf den letzten, vorzugsweise mindestens 100, höchstens 300, am meisten bevorzugt 200, Epochen werden folgende Bedingungen aufgestellt:
• Kosinusähnlichkeit der gemeinsamen Merkmale von beiden Modalitäten
• Mean squared error zwischen 'echten Bilddaten' und generierten Bilddaten
• Chamfer Distanz zwischen 'echter Punktwolke' und generierter Punktwolke
Es wird der gemeinsame Löss der oben genannten Bedingungen ermittelt und durch Anpassung der Gewichte optimiert. Insbesondere umfasst das Verfahren das Klassifizieren der modalitätsunabhängigen Merkmale, insbesondere der von der Merkmalsextraktionseinheit erhaltenen Feature- Vektoren, mittels einer Klassifizierungseinheit. Insbesondere verwendet das Verfah- ren eine einzige Klassifizierungseinheit für die Klassifizierung aller Merkmale der Sen- soren sämtlicher Sensormodalitäten, von denen Messdaten erzeugt und bereitgestellt werden. Das Verfahren umfasst insbesondere nicht die Verwendung einer separaten Klassifizierungseinheit pro Sensormodalität.
Ferner kann das Verfahren das vorherige Anlernen der Klassifizierungseinheit mit Hilfe von überwachtem Lernen umfassen. Vor allem wird hierfür der Klassifizierungseinheit mindestens ein Datensatz zum Lernen bereitgestellt. Insbesondere wird die Klassifizie- rungseinheit anhand annotierter Bilddaten angelernt. Der Begriff „vorherig" soll fer- ner bevorzugt bedeuten, dass das Anlernen vor dem Erzeugen von Messdaten zum Klassifizieren durchgeführt wird. Die Klassifizierungseinheit wird insbesondere mit Hilfe von überwachtem Lernen angelernt, um modalitätsunabhängige Merkmale zu klassifizieren.
Das Anlernen der Klassifizierungseinheit anhand annotierter Bilddatensätze ist insbe- sondere deshalb besonders vorteilhaft, da annotierte Bilddatensätze zurzeit die größ- te Masse an annotierten Daten ausmachen. Dadurch, dass die Merkmalsextraktions- einheit dazu ausgebildet ist, modalitätsunabhängige Merkmale zu extrahieren, die unabhängig von einer Sensormodalität sind, kann eine einzige Klassifizierungseinheit verwendet werden, die anhand von Datensätzen einer einzigen Sensormodalität trai niert wird. Obwohl die Klassifizierungseinheit vorzugsweise an annotierten Bilddaten- sätzen angelernt wurde, ist sie aufgrund der Modalitätsunabhängigkeit der extrahier- ten Merkmale gleichermaßen in der Lage, Merkmale aus Lidar-Messdaten zu klassifi- zieren, obwohl sie niemals an Lidar-Messdaten angelernt wurde. Darin besteht ein wesentlicher Vorteil des vorliegenden Verfahrens gegenüber dem Stand der Technik.
Das Verfahren umfasst vor allem das Weitergeben mindestens eines Feature-Vektors von der Merkmalsextraktionseinheit zur Klassifizierungseinheit. Dieser Feature-Vektor kann nur die modalitätsunabhängigen Merkmale oder auch zusätzlich modalitätsab- hängige Merkmale enthalten. Das Klassifizieren umfasst den Vergleich des erhaltenen Feature-Vektors mit jeweils einem zuvor ermittelten Durchschnitts-Feature-Vektor pro Klasse, wobei bei Unterschreiten einer zuvor festgelegten Abweichungsgrenze ein entsprechendes Klassenlabel ausgegeben wird.
Das Anlernen der Klassifizierungseinheit kann vor allem das Bestimmen von Klassen umfassen. Insbesondere ermittelt die Klassifizierungseinheit anhand des mindestens einen Datensatz, der ihr zum Anlernen zur Verfügung gestellt wurde, die Klassen, für die es, nachdem das Anlernen abgeschlossen ist, sogenannte Klassenlabels vergeben soll. Ein Klasse kann beispielsweise Autos betreffen, während eine weitere Klasse Fußgänger betrifft.
Der mindestens eine Datensatz zum Anlernen umfasst bevorzugterweise eine Vielzahl von Feature-Vektoren, wobei jeder Klasse eine Mehrzahl von Feature-Vektoren zuge- ordnet werden kann. Das Anlernen kann ferner das Ermitteln eines Durschnitts- Feature-Vektors pro Klasse umfassen. Der Durchschnitts-Feature-Vektor einer Klasse wird vor allem durch Mitteln der Feature-Vektoren dieser Klasse ermittelt. Das Ver- fahren umfasst das Abspeichern der Durchschnitt-Feature-Vektoren.
Insbesondere kann das Verfahren das Weitergeben mindestens eines Feature-Vektors von der Merkmalsextraktionseinheit zur Klassifizierungseinheit umfassen, der mittels der Klassifizierungseinheit klassifiziert werden soll. Insbesondere findet zunächst eine Verarbeitung des Feature-Vektors mittels der Klassifizierungseinheit statt. Als Ergeb- nis wird ein verarbeiteter Feature-Vektor, vor allem ein Bottle-Neck-Vektor, erhalten. Die Verarbeitung dient vor allem dafür, dass klarere Trennlinien zwischen unter- schiedlichen Klassen erkennbar sind.
Insbesondere umfasst die Klassifizierungseinheit ein neuronales Netzwerk, wobei die ses vorzugsweise mindestens 3, vorzugsweise mindestens 4, insbesondere 5, Layer umfasst. Insbesondere umfasst das neuronale Netzwerk mindestens ein fully connec- ted layer. Vorzugsweise umfasst das Netzwerk mindestens 2, vorzugsweise mindes- tens 3, fully connected Layer. Die fully connected Layer sind vorzugsweise jeweils durch eine nicht-lineare Funktion, insbesondere eine sogenannte ReLU-Funktion, akti viert. Das Netzwerk umfasst vor allem 5 Layer. Dabei weist der letzte Layer keine Akti- vierung auf. Der letzte Layer wird Bottle-Neck-Vektor genannt. Das neuronale Netzwerk der Klassifizierungseinheit dient zur Verarbeitung der Fea- ture-Vektoren. Als Ergebnis wird vorzugsweise ein Bottle-Neck-Vektor erhalten.
Ferner kann die Klassifizierungseinheit ein Entscheidungsmodul umfassen, wobei die ses einen Vergleich des erhaltenen Feature-Vektors mit den Durchschnitts-Feature- Vektoren durchführt. Bei den Durchschnitts-Feature-Vektoren handelt es sich insbe- sondere auch um Durchschnitts-Bottle-Neck-Vektoren. Insbesondere werden die überarbeiteten Feature-Vektoren mit den Durchschnitts-Feature-Vektoren verglichen. Dabei stellen die Durchschnitts-Feature-Vektoren das sichere angelernte Wissen der Klassifizierungseinheit dar.
Zum Vergleich wird vor allem jeweils die Kosinusähnlichkeit zwischen dem erhaltenen Feature-Vektor, bevorzugterweise des verarbeiteten Feature-Vektors, und den Durch- schnitts-Feature-Vektoren ermittelt. Insbesondere werden zuvor Abweichungsgren- zen, sogenannte Thresholds, festgelegt. Dies dient dazu festzulegen, bei welcher Ähn- lichkeit eine bestimmte Klasse erkannt werden soll bzw. ab welcher Abweichung kein Klassenlabel für diese Klasse mehr vergeben werden soll. Bei Unterschreiten der Ab- weichungsgrenze zu einem Durchschnitts-Feature-Vektor wird ein entsprechendes Klassenlabel ausgegeben. In anderen Worten erkennt das Klassifizierungsmodul bei genügender Ähnlichkeit zum Durchschnitts-Feature-Vektor einer Klasse ein Objekt dieser Klasse und gibt das entsprechende Klassenlabel aus.
Bei Überschreiten aller zuvor festgelegten Abweichungsgrenzen von den Durch- schnitts-Feature-Vektoren kann das Entscheidungsmodul als Ergebnis ausgeben, dass kein Objekt der Klassen erkannt wurde. Insbesondere wird kein Klassenlabel ausgege- ben. Den Vergleich sowie die Ausgabe wird vor allem durch ein Entscheidungsmodul der Klassifizierungseinheit durchgeführt. Das Entscheidungsmodul entscheidet somit, inwiefern ein Klassenlabel bei Abweichung von dem sicheren Wissen der Klassifizie- rungseinheit ausgegeben werden soll.
Ferner umfasst die Erfindung ein Verfahren zur optischen Distanzmessung umfassend ein oben beschriebenes Verfahren zur Klassifizierung von Objekten.
Eine optische Distanzmessung zeichnet sich insbesondere dadurch aus, dass unter Ausnutzung von optischen Signalen, hier optischen Messpulsen, Distanzen bestimmt werden. Unter dem Begriff„Distanz" ist eine Entfernung zu verstehen. Unter der vom Messpuls zurückgelegten Distanz ist die Strecke zwischen einer Vorrichtung zur Durch- führung des Verfahrens, die den Messpuls ausgesandt hat, und dem Objekt, das die sen reflektiert hat, plus der Strecke zwischen dem Objekt und der Vorrichtung, die den entsprechenden reflektierten Messpuls empfangen hat, zu verstehen. Die reflek- tierten Messpulse stellen jeweils Rückstreusignale der ausgesandten Messpulse dar. In anderen Worten handelt es sich bei den an einem Objekt reflektierten Messpulsen um zuvor mit Hilfe der Sendeeinheit ausgesandte Messpulse. Die optische Distanz- messung beruht vorzugsweise auf dem Time-of-Flight-Prinzip.
Insbesondere dient das Verfahren zur Klassifizierung von Objekten und/oder das Ver- fahren zur Distanzmessung zur Navigation eines fahrerlosen Fahrzeuges.
In einem weiteren Aspekt umfasst die Erfindung eine Vorrichtung zur Klassifizierung von Objekten, die zur Durchführung eines oben beschriebenen Verfahrens zur Klassifi zierung von Objekten ausgebildet ist.
Die Vorrichtung umfasst insbesondere eine Sendeeinheit und eine Empfangseinheit. Insbesondere umfasst die Empfangseinheit jeweils mindestens einen Sensor pro Sen- sormodalität, wobei die Sendeeinheit jeweils die entsprechenden Sendemodule zur Erzeugung der Messdaten zum Aussenden der Signale zur Erzeugung der Messdaten der jeweiligen Sensormodalität aufweisen kann.
Insbesondere umfasst die Vorrichtung einen Sensor einer ersten Sensormodalität, vorzugsweise einen Sensor einer zweiten Sensormodalität und/oder einen Sensor ei- ner dritten Sensormodalität und/oder einen Sensor einer vierten Sensormodalität. Insbesondere ist somit die Vorrichtung dazu ausgebildet, Messdaten von mindestens zwei Sensormodalitäten, vorzugsweise drei oder vier Sensormodalitäten, zu erzeugen.
Insbesondere handelt es sich bei der Vorrichtung um einen scannenden Lidar-Sensor, wobei dieser vorzugsweise weitere Sensoren anderer Sensormodalitäten umfassen kann. Vor allem kann die Vorrichtung ferner dazu ausgebebildet sein ein oben be- schriebenes Verfahren zur Distanzmessung durchzuführen. Ferner umfasst die Vorrichtung eine Merkmalsextraktionseinheit, die wiederum pro Sensormodalität der verwendeten Sensoren einen Feature-Extractor aufweist. Ferner umfasst die Merkmalsextraktionseinheit eine Merkmalstransformationseinheit zum Extrahieren von modalitätsunabhängigen Merkmalen und optionalerweise modali- tätsabhängigen Merkmalen aus den extrahierten Merkmalen der Feature-Extractor. Die Merkmalstransformationseinheit ist insbesondere mit Hilfe von unüberwachtem Lernen angelernt, wobei die Klassifizierungseinheit weiter bevorzugt, insbesondere mit Hilfe von überwachtem Lernen angelernt ist.
Insbesondere dient die Vorrichtung zur Navigation eines fahrerlosen Fahrzeuges.
Ferner umfasst die Erfindung ein Computerprogrammprodukt, das ein computerles- bares Speichermedium umfasst, auf dem ein Programm gespeichert ist, dass es einem Computer ermöglicht, nachdem es in den Speicher des Computers geladen worden ist, ein oben beschriebenes Verfahren zur Klassifizierung von Objekten und/oder zur Distanzmessung, gegebenenfalls in Zusammenspiel mit einer oben beschriebenen Vorrichtung, durchzuführen.
Zudem betrifft die Erfindung ein computerlesbares Speichermedium, auf dem ein Programm gespeichert ist, das es einem Computer ermöglicht, nachdem es in den Speicher des Computers geladen worden ist, ein oben beschriebenes Verfahren zur Klassifizierung von Objekten und/oder zur Distanzmessung, gegebenenfalls in Zu- sammenspiel mit einer oben beschriebenen Vorrichtung, durchzuführen.
Kurze Beschreibung der Zeichnungen
Es zeigen schematisch:
Figur 1 ein Verfahrensschema eines erfindungsgemäßen Verfahren;
Figur 2 eine erfindungsgemäße Vorrichtung;
Figur 3 eine schematische Darstellung einer Merkmalsextraktionseinheit; und Figur 4 Feature-Extractor und Decoder für die erste und die zweite Sensormoda- lität zum Anlernen der Feature-Extractor; und Figur 5 eine Anordnung zum Anlernen der Merkmalstransformationseinheit um- fassend eine Merkmalsextraktionseinheit, eine Merkmalsrücktransfor- mationseinheit und Decoder zum Anlernen der Merkmalstransformati- onseinheit.
Bevorzugte Ausführungsformen der Erfindung
In Figur 1 ist ein Verfahrensschema eines erfindungsgemäßen Verfahrens (100) darge- stellt.
Das erfindungsgemäße Verfahren (100) kann vorzugsweise das vorherige Anlernen (112) der Feature-Extractor und das vorherige Anlernen (101) einer Merkmalstrans- formationseinheit (17) einer Merkmalsextraktionseinheit (13) umfassen. Ferner be- vorzugt kann das erfindungsgemäße Verfahren (100) das vorherige Anlernen (102) einer Klassifizierungseinheit (18) umfassen.
Das Anlernen (102) der Klassifizierungseinheit (18) kann vor allem das Bestimmen (102a) von Klassen umfassen, insbesondere anhand des mindestens einen Datensatz, der der Klassifizierungseinheit (18) zum Anlernen zur Verfügung gestellt wurde. Es werden die Klassen bestimmt, für die die Klassifizierungseinheit (18), nachdem das Anlernen abgeschlossen ist, sogenannte Klassenlabels vergeben soll. Ferner kann das Anlernen (102) kann das Ermitteln (102b) und Abspeichern eines Durschnitts-Feature- Vektors pro Klasse umfassen.
Das Verfahren umfasst insbesondere das Bereitstellen (106) von Messdaten für die Merkmalsextraktionseinheit. Insbesondere kann das Verfahren zuvor das Erzeugen (103) von Messdaten eines Sensors einer ersten Sensormodalität, ferner bevorzugt ebenfalls das Erzeugen (104) von Messdaten eines Sensors einer zweiten Sensormo- dalität und/oder das Erzeugen (105) von Messdaten eines Sensors einer dritten Sen- sormodalität umfassen. Schritte 103 bis 105 können vorzugsweise gleichzeitig durch- geführt werden. Insbesondere umfasst das Verfahren das Durchführen von Scans, wobei nach dem Abschluss eines Scans Messdaten aller Sensormodalitäten vorliegen und für die Merkmalsextraktionseinheit (13) bereitgestellt werden können. Ferner umfasst das Verfahren das Extrahieren (107) von modalitätsunabhängigen Merkmalen. Dazu werden vorzugsweise Merkmale mittels eines jeweiligen Feature- Extractors extrahiert (108). Aus den Merkmalen mindestens zweier Feature-Extractor werden modalitätsunabhängige Merkmale mittels der Merkmalstransformationsein- heit (17) in extrahiert (109). Ferner kann das Verfahren das Klassifizieren (110) der modalitätsunabhängigen Merkmale mittels der Klassifizierungseinheit (18) umfassen, sodass eine Objektklassifizierung (111) durchgeführt werden kann.
Das Klassifizieren (110) kann umfassen, dass mindestens ein Feature-Vektor von der Merkmalsextraktionseinheit (13) zur Klassifizierungseinheit (18) weitergegeben wird (110a), wobei die Klassifizierungseinheit (18) den Feature-Vektor vorzugsweise verar- beitet (110b). Als Ergebnis wird vorzugsweise ein Bottle-Neck-Vektor erhalten. Der Feature-Vektor, der erhaltene oder bevorzugterweise der überarbeitete, wird jeweils mit den zuvor ermittelten Durchschnitts-Feature-Vektoren verglichen (110c). Ferner können zum Vergleich Abweichungsgrenzen zu den Durchschnitts-Feature-Vektoren festgelegt werden (llOd). Vorzugweise werden die jeweilige Kosinusähnlichkeit zwi- schen dem Feature-Vektor und den Durchschnitts-Feature-Vektoren ermittelt (llOe). Bei Unterschreiten einer der zuvor festgelegten Abweichungsgrenzen erfolgt insbe- sondere die Ausgabe (HOf) des entsprechenden Klassenlabels, während bei Über- schreiten aller zuvor festgelegten Abweichungsgrenzen die Ausgabe (110g) erfolgt, dass kein Objekt der Klassen erkannt wurde. Dies geschieht vor allem mittels eines Entscheidungsmoduls (18a) der Klassifizierungseinheit (18).
Figur 2 zeigt eine schematische Ansicht einer erfindungsgemäßen Vorrichtung (10). Die Vorrichtung (10) umfasst eine Sendeeinheit (11) und eine Empfangseinheit (12). Insbesondere umfasst die Empfangseinheit (12) jeweils mindestens einen Sensor pro Sensormodalität, wobei die Sendeeinheit (11) jeweils die entsprechenden Sendemo- dule zur Erzeugung der Messdaten zum Aussenden der Signale zur Erzeugung der Messdaten der jeweiligen Sensormodalität aufweisen kann. Beispielsweise kann die Sendeeinheit (11) jeweils eine Quelle zum Aussenden von Lidar- und Radar- Messdaten aufweisen.
Die in der Empfangseinheit (12) empfangenen Messdaten werden der Merkmalsext- raktionseinheit (13) bereitgestellt. Die Merkmalsextraktionseinheit (13) umfasst einen Feature-Extractor (14) für Messdaten des Sensors der ersten Sensormodalität, einen Feature-Extractors (15) für Messdaten des Sensors der zweiten Sensormodalität und einen Feature-Extractors (16) für Messdaten des Sensors der dritten Sensormodalität. Die jeweiligen Feature-Extractor (14, 15, 16) extrahieren Merkmale, die der Merk- malstransformationseinheit (17) bereitgestellt werden, die daraus modalitätsunab- hängige Merkmale generiert. Ferner weist die Vorrichtung eine Klassifizierungseinheit (18) auf, die die modalitätsunabhängigen Merkmale der Merkmalstransformations- einheit (17) klassifiziert. Die Klassifizierungseinheit (18) umfasst ein Entscheidungs- modul (18a).
In Figur 3 ist eine schematische Darstellung einer Merkmalsextraktionseinheit (13) gezeigt. Die Merkmalsextraktionseinheit (13) umfasst einen Feature-Extractor (14) für Messdaten des Sensors der ersten Sensormodalität und einen Feature-Extractor (15) für Messdaten des Sensors der zweiten Sensormodalität.
Die Feature-Extractor erhalten modalitätsabhängigen Input (19). Der Feature- Extractor (14) für die Messdaten der ersten Sensormodalität ist dazu ausgebildet aus Messdaten der ersten Sensormodalität, nämlich aus einer Lidar Punktwolke (21), ei- nen Punktwolken Code (23) zu erzeugen. Der Feature-Extractor (15) für die Messda- ten der zweiten Sensormodalität ist dazu ausgebildet aus Messdaten der zweiten Sen- sormodalität, nämlich aus Bilddaten (20) einen Image Code (22) zu erzeugen.
Die Merkmalsextraktionseinheit (13) umfasst ferner eine Merkmalstransformations- einheit (17). Die Merkmalstransformationseinheit (17) umfasst ein neuronales Netz- werk (17a) für die Messdaten der ersten Sensormodalität und ein neuronales Netz- werk (17b) für die Messdaten der zweiten Sensormodalität. Als Input erhalten diese den jeweiligen Code der Feature-Extractor.
Die Merkmalstransformationseinheit (17) ist dazu ausgebildet modalitätsunabhängige Merkmale (24) zu erkennen. Diese leben in einem gemeinsamen Feature Raum (26). Ferner kann die Merkmalstransformationseinheit (17) modalitätsabhängige Merkmale (25) ausgeben, die in eigenen Feature Räumen leben, und zwar in einem Feature Raum (27) für modalitätsabhänge Merkmale der ersten Sensormodalität und einen Feature Raum (28) für modalitätsabhänge Merkmale der zweiten Sensormodalität. In Figur 4 ist ein Feature-Extractor (14) und Decoder (30) für die erste Sensormodalität und ein Feature-Extractor (15) und ein Decoder (31) für die zweite Sensormodalität zum Anlernen der Feature-Extractor gezeigt. Der Decoder (30) für die erste Sensor- modalität gibt einen Ouput (30a), nämlich eine Punktwolke, aus, die zum Anlernen des Feature-Extractors (14) mit dem modalitätsabhängigen Input (19) des Feature- Extractors (14) verglichen wird. Der Decoder (31) für die zweite Sensormodalität gibt einen Ouput (31a), nämlich Bilddaten, aus, die zum Anlernen des Feature-Extractors (15) mit dem modalitätsabhängigen Input (19) des Feature-Extractors (15) verglichen wird.
Figur 5 stellt eine Anordnung zum Anlernen der Merkmalstransformationseinheit (17) dar, umfassend eine Merkmalsextraktionseinheit (13) gemäß Figur 3 dar, eine Merk- malsrücktransformationseinheit (29) und Decoder, nämlich eine Decoder (30) für die erste Sensormodalität und einen Decoder (31) für die zweite Sensormodalität. Die Merkmalsrücktransformationseinheit (29) umfasst ein neuronales Netzwerk (29a) für die erste Sensormodalität und ein neuronales Netzwerk (29b) für die zweite Sensor- modalität. Als Input erhalten diese die modalitätsunabhängigen Merkmale (24) und optional die modalitätsabhängigen Merkmale (25) der Merkmalstransformationsein- heit (17).
Die Merkmalsrücktransformationseinheit (29) ist dazu ausgebildet aus dem Input er- neut Code zu erzeugen und zwar einen Image Code (32) und einen Punktwolken Code (33). Aus den entsprechenden Codes können die jeweiligen Decoder wieder modali- tätsabhängige Daten erzeugen. Der Decoder (31) für die zweite Sensormodalität er- zeugt einen Output (31a), der wieder generierten Bilddaten entspricht. Der Decoder (30) für die erste Sensormodalität erzeugt einen Output (30a), der einer wieder gene- rierten Lidar Punktwolke entspricht.
Zum Anlernen der Merkmalstransformationseinheit (17) werden sowohl die Ähnlich- keit der modalitätsunabhängigen Merkmale (24) als auch eine Ähnlichkeit der wieder generierten Codes als auch der erneut generierten modalitätsabhängigen Daten be- rücksichtigt. Beispiele der neuronalen Netzwerke
Der Feature-Extractor für die zweite Sensormodalität kann wie folgt aufgebaut sein:
• Input <- Bild (batchsize x 192 x 256 x 3)
• Layer 1: Convolution Layer (Faltungslayer)
o Kernelsize: 3x3
o Stride: lxl
o Anzahl Output Featuremaps: 16
o Aktivierungsfunktion: Rectified Linear Unit (ReLU)
o Batchnormalisierung
o Padding: Zero-padding
• Layer 2: Convolution Layer (Faltungslayer)
o Kernelsize: 3x3
o Stride: lxl
o Anzahl Output Featuremaps: 16
o Aktivierungsfunktion: ReLU
o Batchnormalisierung
o Padding: Zero-padding
• Layer 3: Convolution Layer (Faltungslayer)
o Kernelsize: 3x3
o Stride: 2x2
o Anzahl Output Featuremaps: 32
o Aktivierungsfunktion: ReLU
o Batchnormalisierung
o Padding: Zero-padding
• Layer 4: Convolution Layer (Faltungslayer)
o Kernelsize: 3x3
o Stride: lxl
o Anzahl Output Featuremaps: 32
o Aktivierungsfunktion: ReLU
o Batchnormalisierung
o Padding: Zero-padding
• Layer 5: Convolution Layer (Faltungslayer)
o Kernelsize: 3x3 o Stride: lxl
o Anzahl Output Featuremaps: 32 o Aktivierungsfunktion: ReLU o Batchnormalisierung
o Padding: Zero-padding
• Layer 6: Convolution Layer (Faltungslayer) o Kernelsize: 3x3
o Stride: 2x2
o Anzahl Output Featuremaps: 64 o Aktivierungsfunktion: ReLU o Batchnormalisierung
o Padding: Zero-padding
• Layer 7: Convolution Layer (Faltungslayer) o Kernelsize: 3x3
o Stride: lxl
o Anzahl Output Featuremaps: 64 o Aktivierungsfunktion: ReLU o Batchnormalisierung
o Padding: Zero-padding
• Layer 8: Convolution Layer (Faltungslayer) o Kernelsize: 3x3
o Stride: lxl
o Anzahl Output Featuremaps: 64 o Aktivierungsfunktion: ReLU o Batchnormalisierung
o Padding: Zero-padding
• Layer 9: Convolution Layer (Faltungslayer) o Kernelsize: 3x3
o Stride: 2x2
o Anzahl Output Featuremaps: 128 o Aktivierungsfunktion: ReLU o Batchnormalisierung
o Padding: Zero-padding
• Layer 10: Convolution Layer (Faltungslayer) o Kernelsize: 3x3 o Stride: lxl
o Anzahl Output Featuremaps: 128 o Aktivierungsfunktion: ReLU o Batchnormalisierung
o Padding: Zero-padding
• Layer 11: Convolution Layer (Faltungslayer) o Kernelsize: 3x3
o Stride: lxl
o Anzahl Output Featuremaps: 128 o Aktivierungsfunktion: ReLU o Batchnormalisierung
o Padding: Zero-padding
• Layer 12: Convolution Layer (Faltungslayer) o Kernelsize: 5x5
o Stride: 2x2
o Anzahl Output Featuremaps: 256 o Aktivierungsfunktion: ReLU o Batchnormalisierung
o Padding: Zero-padding
• Layer 13: Convolution Layer (Faltungslayer) o Kernelsize: 3x3
o Stride: lxl
o Anzahl Output Featuremaps: 256 o Aktivierungsfunktion: ReLU o Batchnormalisierung
o Padding: Zero-padding
• Layer 14: Convolution Layer (Faltungslayer) o Kernelsize: 3x3
o Stride: lxl
o Anzahl Output Featuremaps: 256 o Aktivierungsfunktion: ReLU o Batchnormalisierung
o Padding: Zero-padding
• Layer 15: Convolution Layer (Faltungslayer) o Kernelsize: 5x5 o Stride: 2x2
o Anzahl Output Featuremaps: 512 o Aktivierungsfunktion: ReLU
o Batchnormalisierung
o Padding: Zero-padding
• Layer 16: Convolution Layer (Faltungslayer) o Kernelsize: 3x3
o Stride: lxl
o Anzahl Output Featuremaps: 512 o Aktivierungsfunktion: ReLU
o Batchnormalisierung
o Padding: Zero-padding
• Layer 17: Convolution Layer (Faltungslayer) o Kernelsize: 3x3
o Stride: lxl
o Anzahl Output Featuremaps: 256 o Aktivierungsfunktion: ReLU
o Batchnormalisierung
o Padding: Zero-padding
• Layer 18: Convolution Layer (Faltungslayer) o Kernelsize: 3x3
o Stride: lxl
o Anzahl Output Featuremaps: 256 o Aktivierungsfunktion: ReLU
o Batchnormalisierung
o Padding: Zero-padding
• Layer 19: Convolution Layer (Faltungslayer) o Kernelsize: 5x5
o Stride: 2x2
o Anzahl Output Featuremaps: 128 o Aktivierungsfunktion: Keine
o Batchnormalisierung
o Padding: Zero-padding
• Output: Batchsize x code (= Batchsize x 1536) Ein entsprechender Decoder für das Anlernen des Feature-Extractors kann wie folgt aufgebaut sein:
• Input <- Batchsize x code
• Layer 1: Reshapen zu Batchsize x 3 x 4 x 128
• Layer 2: .Transponierte Convolution' = gelerntes upsampling
o Kernel Size: 5x5
o Padding: zero padding
o Stride: 2x2
o Feature Maps: 256
o Aktivierungsfunktion: ReLU
• Layer 3: Convolution
o Kernel Size: 3x3
o Padding: zero padding
o Stride: lxl
o Feature Maps: 256
o Aktivierungsfunktion: ReLU
• Layer 4: Convolution
o Kernel Size: 3x3
o Padding: zero padding
o Stride: lxl
o Feature Maps: 512
o Aktivierungsfunktion: ReLU
• Layer 5: .Transponierte Convolution'
o Kernel Size: 5x5
o Padding: zero padding
o Stride: 2x2
o Feature Maps: 512
o Aktivierungsfunktion: ReLU
• Layer 6: Convolution
o Kernel Size: 3x3
o Padding: zero padding
o Stride: lxl
o Feature Maps: 256
o Aktivierungsfunktion: ReLU • Layer 7: Convolution o Kernel Size: 3x3
o Padding: zero padding o Stride: lxl
o Feature Maps: 256
o Aktivierungsfunktion: ReLU
• Layer 8: .Transponierte Convolution' o Kernel Size: 5x5
o Padding: zero padding o Stride: 2x2
o Feature Maps: 256
o Aktivierungsfunktion: ReLU
• Layer 9: Convolution
o Kernel Size: 3x3
o Padding: zero padding o Stride: lxl
o Feature Maps: 128
o Aktivierungsfunktion: ReLU
• Layer 10: .Transponierte Convolution' o Kernel Size: 5x5
o Padding: zero padding o Stride: 2x2
o Feature Maps: 128
o Aktivierungsfunktion: ReLU
• Layer 11: Convolution
o Kernel Size: 3x3
o Padding: zero padding o Stride: lxl
o Feature Maps: 64
o Aktivierungsfunktion: ReLU
• Layer 12: .Transponierte Convolution' o Kernel Size: 5x5
o Padding: zero padding o Stride: 2x2
o Feature Maps: 64 o Aktivierungsfunktion: ReLU
• Layer 13: Convolution
o Kernel Size: 3x3
o Padding: zero padding
o Stride: lxl
o Feature Maps: 32
o Aktivierungsfunktion: ReLU
• Layer 14: .Transponierte Convolution'
o Kernel Size: 3x3
o Padding: zero padding
o Stride: 2x2
o Feature Maps: 32
o Aktivierungsfunktion: ReLU
• Layer 15: Convolution
o Kernel Size: 3x3
o Padding: zero padding
o Stride: lxl
o Feature Maps: 1
o Aktivierungsfunktion: Keine
• Output: Batchsize x 192 x 256 x 1 (= Grauwertbild des Input Bildes)
Dabei ist unter dem Begriff „Transponierte Convolution" keine Transposition einer Matrix im mathematischen Sinne zu verstehen, sondern es wird ein upsampling ge- lernt. In anderen Worten wird ein .Zoomen' auf Originalbildgröße gelernt.
Das Anlernen des Feature-Extractors und des Decoders kann durch folgende Parame- ter bestimmt sein:
• Optimizer: AdamOptimizer
• LearningRate: 0.0001
o Exponentielles decay: Staircase
Die Learningrate nimmt wie eine Stufenfunktion ab. Nach 200000 Schritten nimmt sie um die Hälfte ab. bis sie ein Minimum von 0.00001 erreicht hat. wonach sie konstant bleibt
• Batchsize: 32 • Initialisierung von allen Variablen: Xavier Initialisierung
• Lossfunktion: mean squared error
• Gesamt Epochen zu lernen: 550
Der Feature-Extractor für die erste Sensormodalität kann wie folgt aufgebaut sein:
• Input <- Batchsize x 2048 x 3
• Layer 0:
o Layer 0.1: Multi Layer Perceptrons (MLP)
Anzahl Funktionen: 64
Kernel 1x3
Batchnormalisierung
Aktivierungsfunktion: ReLU
o Layer 0.2: MLPs
Anzahl Funktionen: 128
Kernel lxl
Batchnormalisierung
Aktivierungsfunktion: ReLU
o Layer 0.3: MLPs
Anzahl Funktionen: 1024
Kernel lxl
Batchnormalisierung
Aktivierungsfunktion: ReLU
o Layer 0.4: Fully Connected
Output: 512
Batchnormalisierung
Aktivierungsfunktion: ReLU
o Layer 0.5: Fully Connected
Output: 256
Batchnormalisierung
Aktivierungsfunktion: ReLU
o Layer 0.5: Fully Connected
Output: 9
Keine Aktivierungsfunktion
Initialisierung der Variablen mit 0 o Layer 0.6: Addition mit Einheitsmatrix [1 00 0 1 0 0 0 1] o Output: Batchsize x 3 x 3
• Layer 1: Input * Output Layer 0
• Layer 2: MLPs
o Anzahl Funktionen: 64
o Kernel 1x3
o Batchnormalisierung
o Aktivierungsfunktion: ReLU
• Layer 3: MLPs
o Anzahl Funktionen: 64
o Kernel lxl
o Batchnormalisierung
o Aktivierungsfunktion: ReLU
• Layer 4: Lernen von Matrix für Multiplikation
o Layer 4.1: MLP
Anzahl Funktionen: 64
Kernel lxl
Batchnormalisierung
Aktivierungsfunktion: ReLU
o Layer 4.2: MLPs
Anzahl Funktionen: 128
Kernel lxl
Batchnormalisierung
Aktivierungsfunktion: ReLU
o Layer 4.3: MLPs
Anzahl Funktionen: 1024
Kernel lxl
Batchnormalisierung
Aktivierungsfunktion: ReLU
o Layer 4.4: Fully Connected
Output: 512
Batchnormalisierung
Aktivierungsfunktion: ReLU
o Layer 4.5: Fully Connected
Output: 256 Batchnormalisierung
Aktivierungsfunktion: ReLU
o Layer 4.5: Fully Connected
Output: 4096
Keine Aktivierungsfunktion
Initialisierung der Variablen mit 0
o Layer 4.6: Addition mit Einheitsmatrix (Größe 64) o Output: Batchsize x 64 x 64
• Layer 5: Layer 3 * Output Layer 4
• Layer 6: MLPs
o Anzahl Funktionen: 64
o Kernel lxl
o Batchnormalisierung
o Aktivierungsfunktion: ReLU
• Layer 7: MLPs
o Anzahl Funktionen: 128
o Kernel lxl
o Batchnormalisierung
o Aktivierungsfunktion: ReLU
• Layer 8: MLPs
o Anzahl Funktionen: 1536
o Kernel lxl
o Batchnormalisierung
o Aktivierungsfunktion: ReLU
• Output: Batchsize x code (= 1536)
Der Decoder für die erste Sensormodalität kann wie folgt aufgebaut sein:
• Input <- Batchsize x code
• Layer 1: Fully Connected
o Output: 2048
o Aktivierungsfunktion: ReLU
• Layer 2: Dropout
o Drop out rate: 0.2
• Layer 3: Fully Connected o Output: 2048
o Aktivierungsfunktion: ReLU
• Layer 4: Dropout
o Drop out rate: 0.2
• Layer 5: Fully Connected
o Output : 6144 (=2048 * 3)
o Aktivierungsfunktion: Keine
• Output: Batchsize x 2048 x 3 (= gleiche Größe der Input Punktwolke)
Das Anlernen des Feature-Extractors und des Decoders für die erste Sensormodalität kann durch folgende Parameter bestimmt sein:
• Optimizer: AdamOptimizer
• LearningRate: 0.0001
o Exponentielles decay: Staircase
Die Learningrate nimmt wie eine Stufenfunktion ab. Nach 200000 Schritten nimmt sie um die Hälfte ab, bis sie ein Minimum von 0.00001 erreicht hat, wonach sie konstant bleibt
• Batchsize: 32
• Initialisierung von allen Variablen (ausgenommen Initialisierung mit 0): Xavier Initialisierung
• Lossfunktion: Chamfer Distanz zwischen der Input Punktwolke und generierten Output Punktwolke des Decoders
• Gesamt Epochen zu lernen: 550
Die Netzwerke der Merkmalstranformationseinheit können alle wie folgt aufgebaut sein:
• Input <- Batchsize x code (= entweder Image Code oder Punktwolken Code) = Batchsize x 1536
• Layer 1: Fully Connected
o Output: 2048
o Aktivierungsfunktion: ReLU
• Layer 2: Dropout
o Drop out rate: 0.2 • Layer 3: Fully Connected
o Output: 1400
o Aktivierungsfunktion: ReLU
• Layer 4: Dropout
o Drop out rate: 0.2
• Layer 5: Fully Connected:
o Output: 1400
o Aktivierungsfunktion: keine
• Output: Code Batchsize x 1400
o Code für Modalitätenspezifische Features: Batchsize x [0:700] o Code für gemeinsame Features: Batchsize x [700:1400]
Die Netzwerke der Merkmalsrücktranformationseinheit können alle wie folgt aufge- baut sein:
• Optional: l_spec =lnput Code für Modalitätenspezifische Features
• l_common = Code für gemeinsame Features
• Optional: l_spec:
o Layer.l: Fully connected (input modalitätsspezifisch)
Output: 512
Aktivierungsfunktion: ReLU
o Layer 2: Dropout
Drop out rate: 0.2
o Layer 3: Fully Connected
Output: 1024
Aktivierungsfunktion: ReLU
o Layer 4: Dropout
Drop out rate: 0.2
o Layer 5: Fully Connected:
Output: 1536
Aktivierungsfunktion: keine
o Output modalitätenspezifische features: Batchsize x 1536
• l_common:
o Layer.l: Fully connected (input gemeinsame Features)
Output: 512 Aktivierungsfunktion: ReLU
o Layer 2: Dropout
Drop out rate: 0.2
o Layer 3: Fully Connected
Output: 1024
Aktivierungsfunktion: ReLU
o Layer 4: Dropout
Drop out rate: 0.2
o Layer 5: Fully Connected:
Output: 1536
Aktivierungsfunktion: keine
o Output gemeinsame features: Batchsize x 1536
• Output = Output gemeinsame features + optional Output spezifische features
Das Anlernen der Merkmalstranformationseinheit kann durch folgende Parameter bestimmt sein:
• Optimizer: AdamOptimizer
• LearningRate: 0.001
o Exponentielles decay: Staircase
Die Learningrate nimmt wie eine Stufenfunktion ab. Nach 200000 Schritten nimmt sie um den Faktor 0.3 ab, bis sie ein Minimum von 0.00001 erreicht hat, dann bleibt sie konstant
• Batchsize: 32
• Initialisierung von allen Variablen: Xavier Initialisierung
• Gesamt Epochen zu lernen: 400
• Lossfunktion:
o Löss auf den ersten 200 Epochen
1) Kosinusähnlichkeit der gemeinsamen Merkmale von beiden Modalitäten
2) Mean squared error zwischen 'echtem Image Code' und wieder zurücktransformierten Image Code
3) Mean squared error zwischen 'echtem Punktwolken Code' und wieder zurücktransformierten Punktwolken Code
LÖSS = 1) + 2) + 3) o Löss auf den letzten 200 Epochen
1) Kosinusähnlichkeit der gemeinsamen Merkmale von beiden Modalitäten
2) Mean squared error zwischen 'echten Bilddaten' und generier- ten Bilddaten
3) Chamfer Distanz zwischen 'echter Punktwolke' und generierter Punktwolke
LÖSS = 1) + 2) + 3)
Das neuronale Netzwerk der Klassifizierungseinheit kann wie folgt aufgebaut sein:
• Layer 1: Fully Connected
o Output: 1024
o Aktivierungsfunktion: ReLU
• Layer 2: Fully Connected
o Output: 1024
o Aktivierungsfunktion: ReLU
• Layer 3: Fully Connected
o Output: 2048
o Aktivierungsfunktion: ReLU
• Layer 3: Fully Connected = bottle neck vector
o Output: #Anzahl zu klassifizierender Klassen
o Aktivierungsfunktion: Keine
o Von diesem Vektor wird der Durchschnittswert der einzelnen Klassen abgespeichert und als Vergleich herangezogen
Das Anlernen der Klassifizierungseinheit kann durch die folgenden Parameter be- stimmt sein:
• Lossfunktion: Softmax Cross Entropy
• Optimizer: AdamOptimizer
• LearningRate: 0.01
o Exponentielles decay: Die Learningrate nimmt wie eine Stufenfunktion ab. Nach 200000 Schritten schrumpft sie um den Faktor 0.7, bis sie ein Minimum von 0.00001 erreicht hat, dann bleibt sie konstant. • Batchsize: 32
• Initialisierung von allen Variablen: Xavier Initialisierung
• Gesamt Epochen zu lernen: 50
Bezugszeichenliste
101 Anlernen der Merkmalstransformationseinheit
102 Anlernen der Klassifizierungseinheit
102a Bestimmen von Klassen
102b Ermitteln und Abspeichern eines Durschnitts-Feature-Vektors pro Klasse
103 Erzeugen von Messdaten eines Sensors einer ersten Sensormodalität
104 Erzeugen von Messdaten eines Sensors einer zweiten Sensormodalität
105 Erzeugen von Messdaten eines Sensors einer dritten Sensormodalität
106 Bereitstellen von Messdaten für die Merkmalsextraktionseinheit
107 Extrahieren von modalitätsunabhängigen Merkmalen
108 Extrahieren von Merkmalen mittels eines jeweiligen Feature-Extractors
109 Extrahieren von modalitätsunabhängigen Merkmale mittels der Merkmals- transformationseinheit
110 Klassifizieren der modalitätsunabhängigen Merkmale mittels der Klassifizie- rungseinheit
110a Weitergeben mindestens eines Feature-Vektors von der Merkmalsextraktions- einheit zur Klassifizierungseinheit
110b Verarbeitung des Feature-Vektors mittels der Klassifizierungseinheit
110c jeweiliger Vergleich des Feature-Vektors mit einem zuvor ermittelten Durch- schnitts-Feature-Vektor pro Klasse
llOd Festlegen von Abweichungsgrenzen
llOe Ermitteln der jeweiligen Kosinusähnlichkeit zwischen dem Feature-Vektor und den Durchschnitts-Feature-Vektoren
HOf bei Unterschreiten einer zuvor festgelegten Abweichungsgrenze Ausgabe des entsprechendes Klassenlabels
110g bei Überschreiten aller zuvor festgelegten Abweichungsgrenzen Ausgabe, dass kein Objekt der Klassen erkannt wurde
111 Objektklassifizierung
112 Anlernen der Feature-Extractoren
10 Vorrichtung
11 Sendeeinheit
12 Empfangseinheit
13 Merkmalsextraktionseinheit Feature-Extractor für Messdaten des Sensors der ersten Sensormodalität
Feature-Extractor für Messdaten des Sensors der zweiten Sensormodalität
Feature-Extractor für Messdaten des Sensors der dritten Sensormodalität
Merkmalstransformationseinheit
a neuronales Netzwerk für die erste Sensormodalität
b neuronales Netzwerk für die zweite Sensormodalität
Klassifizierungseinheit
a Entscheidungsmodul
modalitätsabhängiger Input
Bild
Lidar Punktwolke
Image Code des Feature-Extractors
Punktwolken Code des Feature-Extractors
modalitätsunabängige Merkmale
modalitätsabhängige Merkmale
gemeinsamer Feature Raum
Feature Raum für modalitätsabhänge Merkmale für die erste Sensormodalität
Feature Raum für modalitätsabhänge Merkmale für die zweite Sensormodalität
Merkmalsrücktransformationseinheit
a neuronales Netzwerk für die erste Sensormodalität
b neuronales Netzwerk für die zweite Sensormodalität
Decoder für die erste Sensormodalität
a Output des Decoders für die erste Sensormodalität
Decoder für die zweite Sensormodalität
a Output des Decoders für die zweite Sensormodalität
Image Code der Merkmalsrücktransformationseinheit
Punktwolken Code der Merkmalsrücktransformationseinheit

Claims

Ansprüche
1. Verfahren (100) zur Klassifizierung von Objekten,
wobei das Verfahren (100) das Bereitstellen (106) von Messdaten von einem Sensor für eine Merkmalsextraktionseinheit (13) umfasst,
dadurch gekennzeichnet, dass
das Verfahren (100) das Extrahieren (107) von modalitätsunabhängigen Merk- malen (24) aus den Messdaten umfasst,
wobei die modalitätsunabhängigen Merkmale (24) unabhängig von einer Sen- sormodalität des Sensors sind, sodass aus den modalitätsunabhängigen Merk- malen kein Rückschluss auf die Sensormodalität des Sensors möglich ist.
2. Verfahren (100) nach Anspruch 1,
dadurch gekennzeichnet, dass
es mindestens eine erste Sensormodalität und eine zweite Sensormodalität gibt,
wobei das Verfahren (100) dazu ausgebildet ist, aus Messdaten eines Sensors der ersten Sensormodalität derart modalitätsunabhängige Merkmale (24) zu extrahieren, dass Messdaten eines Sensors der zweiten Messmodalität rekon- struierbar sind.
3. Verfahren (100) nach einem der vorherigen Ansprüche,
dadurch gekennzeichnet, dass
die Merkmalsextraktionseinheit (13) mindestens einen Feature-Extractor (14, 15, 16) pro Sensormodalität umfasst,
wobei der Feature-Extractor (14, 15, 16) Merkmale aus den Messdaten extra- hiert (108).
4. Verfahren (100) nach Anspruch 3,
dadurch gekennzeichnet, dass
es sich bei dem Feature-Extractor (14, 15, 16) um ein neuronales Netzwerk handelt.
5. Verfahren (100) nach Anspruch 4,
dadurch gekennzeichnet, dass
es sich bei der ersten Sensormodalität um Lidar handelt,
wobei es sich bei dem Feature-Extractor (14) der ersten Sensormodalität um ein Muli Layer Peceptron (MLP) Netzwerk handelt.
6. Verfahren (100) nach einem der Ansprüche 3 oder 4,
dadurch gekennzeichnet, dass
es sich bei der zweiten Sensormodalität um Bild handelt,
wobei es sich bei dem Feature-Extractor (14) der zweiten Sensormodalität um ein Convolutional Neural Network handelt.
7. Verfahren (100) nach einem der Ansprüche 3 bis 6,
dadurch gekennzeichnet, dass
die Merkmalsextraktionseinheit (13) eine Merkmalstransformationseinheit (17) umfasst,
wobei die Merkmalstransformationseinheit (17) ein neuronales Netzwerk pro Sensormodalität umfasst und
wobei die Merkmalstransformationseinheit (17) aus den Merkmalen von min- destens zwei Feature-Extractor modalitätsunabhängige Merkmale (24) extra- hiert (109).
8. Verfahren (100) nach einem der vorherigen Ansprüche,
dadurch gekennzeichnet, dass
das Verfahren das vorherige Anlernen (101) der Merkmalsextraktionseinheit (13) mithilfe von unüberwachtem Lernen umfasst.
9. Verfahren (100) nach einem der vorherigen Ansprüche,
dadurch gekennzeichnet, dass
das Verfahren (100) das Klassifizieren (110) der modalitätsunabhängigen Merkmale (24) mittels einer Klassifizierungseinheit (18) umfasst.
10. Verfahren (100) nach Anspruch 9,
dadurch gekennzeichnet, dass
das Verfahren (102) das vorherige Anlernen (102) der Klassifizierungseinheit (18) mithilfe von überwachtem Lernen umfasst.
11. Verfahren (100) nach einem der Ansprüche 9 oder 10,
dadurch gekennzeichnet, dass
das Verfahren (100) das Weitergeben (110a) mindestens eines Feature-Vektors von der Merkmalsextraktionseinheit (13) zur Klassifizierungseinheit (18) um- fasst,
wobei das Klassifizieren (110) den Vergleich (110c) des erhaltenen Feature- Vektors mit jeweils einem zuvor ermittelten Durchschnitts-Feature-Vektor pro Klasse umfasst, und
wobei bei Unterschreiten (HOf) einer zuvor festgelegten Abweichungsgrenze ein entsprechendes Klassenlabel ausgegeben wird.
12. Verfahren zur optischen Distanzmessung,
dadurch gekennzeichnet, dass
das Verfahren zur optischen Distanzmessung ein Verfahren zur Klassifizierung von Objekten (100) umfasst.
13. Vorrichtung (10) zur Klassifizierung von Objekten,
wobei die Vorrichtung (10) zur Durchführung eines Verfahrens (100) nach ei- nem der Ansprüche 1 bis 12 ausgebildet ist.
14. Computerprogrammprodukt, das ein computerlesbares Speichermedium um- fasst, auf dem ein Programm gespeichert ist, das es einem Computer ermög- licht, nachdem es in den Speicher des Computers geladen worden ist, ein Ver- fahren (100) gemäß einem der Ansprüche 1 bis 12, gegebenenfalls im Zusam- menspiel mit einer Vorrichtung (10) gemäß Anspruch 13, durchzuführen.
15. Computerlesbares Speichermedium, auf dem ein Programm gespeichert ist, das es einem Computer ermöglicht, nachdem es in den Speicher des Compu- ters geladen worden ist, ein Verfahren gemäß einem der Ansprüche 1 bis 12, gegebenenfalls im Zusammenspiel mit einer Vorrichtung (10) gemäß Anspruch 13, durchzuführen.
PCT/EP2019/073828 2018-09-07 2019-09-06 Verfahren und vorrichtung zur klassifizierung von objekten WO2020049154A1 (de)

Priority Applications (7)

Application Number Priority Date Filing Date Title
KR1020217006494A KR102625493B1 (ko) 2018-09-07 2019-09-06 객체 분류 방법 및 디바이스
EP19765470.0A EP3847578A1 (de) 2018-09-07 2019-09-06 Verfahren und vorrichtung zur klassifizierung von objekten
IL281302A IL281302B2 (en) 2018-09-07 2019-09-06 Method and device for classifying objects
CA3110387A CA3110387A1 (en) 2018-09-07 2019-09-06 Method and device for classifying objects
CN201980058249.9A CN112655001A (zh) 2018-09-07 2019-09-06 分类对象的方法和装置
JP2021512490A JP7164708B2 (ja) 2018-09-07 2019-09-06 オブジェクトを分類するための方法およびデバイス
US17/181,096 US11645848B2 (en) 2018-09-07 2021-02-22 Method and device for classifying objects

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
EP18193125 2018-09-07
EP18193125.4 2018-09-07
EP18194448.9A EP3620978A1 (de) 2018-09-07 2018-09-14 Verfahren und vorrichtung zur klassifizierung von objekten
EP18194448.9 2018-09-14

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/181,096 Continuation US11645848B2 (en) 2018-09-07 2021-02-22 Method and device for classifying objects

Publications (1)

Publication Number Publication Date
WO2020049154A1 true WO2020049154A1 (de) 2020-03-12

Family

ID=67436794

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2019/073828 WO2020049154A1 (de) 2018-09-07 2019-09-06 Verfahren und vorrichtung zur klassifizierung von objekten

Country Status (8)

Country Link
US (1) US11645848B2 (de)
EP (2) EP3620978A1 (de)
JP (1) JP7164708B2 (de)
KR (1) KR102625493B1 (de)
CN (1) CN112655001A (de)
CA (1) CA3110387A1 (de)
IL (1) IL281302B2 (de)
WO (1) WO2020049154A1 (de)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3929807A1 (de) * 2020-06-26 2021-12-29 NXP USA, Inc. System und verfahren für ein sensorfusionssystem mit verteiltem faltungsneuronalem netzwerk
DE102022205674A1 (de) 2022-06-02 2023-12-07 Zf Friedrichshafen Ag Verfahren und Steuereinrichtung zum Steuern eines Flurförderzeugs
DE102022121868A1 (de) 2022-08-30 2024-02-29 Bayerische Motoren Werke Aktiengesellschaft Verfahren und Assistenzeinrichtung zum Klassifizieren von Sensordetektionen basierend auf Punktwolken und entsprechend eingerichtetes Kraftfahrzeug
JP7573325B2 (ja) 2020-10-14 2024-10-25 マイクロビジョン,インク. センサデータを分類するための方法及び装置

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7130190B2 (ja) * 2018-12-27 2022-09-05 オムロン株式会社 画像判定装置、学習方法及び画像判定プログラム
KR20210061839A (ko) * 2019-11-20 2021-05-28 삼성전자주식회사 전자 장치 및 그 제어 방법
US11501107B2 (en) 2020-05-07 2022-11-15 Adobe Inc. Key-value memory network for predicting time-series metrics of target entities
US11972348B2 (en) 2020-10-30 2024-04-30 Apple Inc. Texture unit circuit in neural network processor
CN112418129B (zh) * 2020-11-30 2024-04-12 上海商汤临港智能科技有限公司 一种点云数据处理的方法、装置、电子设备及存储介质
KR102651012B1 (ko) * 2021-11-24 2024-03-25 (주)스마트레이더시스템 4차원 레이더 신호처리 장치
CN116229097B (zh) * 2023-01-09 2024-06-07 钧捷科技(北京)有限公司 基于图像传感器的图像处理方法
CN115880337B (zh) * 2023-02-16 2023-05-30 南昌工程学院 基于重参数卷积和特征过滤器的目标跟踪方法与系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9612123B1 (en) * 2015-11-04 2017-04-04 Zoox, Inc. Adaptive mapping to navigate autonomous vehicles responsive to physical environment changes

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08131403A (ja) * 1994-11-09 1996-05-28 Toshiba Medical Eng Co Ltd 医用画像処理装置
JP4874701B2 (ja) 2006-04-18 2012-02-15 富士フイルム株式会社 類似画像検索装置および方法並びにプログラム
WO2013105108A1 (en) * 2011-11-09 2013-07-18 Tata Consultancy Services Limited A system and method for enhancing human counting by fusing results of human detection modalities
JP5789211B2 (ja) 2012-03-23 2015-10-07 富士フイルム株式会社 類似画像検索装置、方法及びプログラム
US9405893B2 (en) * 2014-02-05 2016-08-02 International Business Machines Corporation Biometric authentication
JP6365035B2 (ja) 2014-07-10 2018-08-01 株式会社デンソー 交通オブジェクト検出装置
US9922272B2 (en) * 2014-09-25 2018-03-20 Siemens Healthcare Gmbh Deep similarity learning for multimodal medical images
EP3156942A1 (de) * 2015-10-16 2017-04-19 Thomson Licensing Szenenmarkierung von rgb-d-daten mit interaktiver option
CN106650709A (zh) * 2017-01-22 2017-05-10 深圳市唯特视科技有限公司 一种基于传感器数据的深度学习脚步检测方法
KR101907883B1 (ko) * 2017-05-10 2018-10-16 국방과학연구소 객체 검출 및 분류 방법
CN107463952B (zh) * 2017-07-21 2020-04-03 清华大学 一种基于多模态融合深度学习的物体材质分类方法
CN107944490B (zh) * 2017-11-22 2020-11-27 中南大学 一种基于半多模态融合特征约简框架的图像分类方法
CN108230329B (zh) * 2017-12-18 2021-09-21 孙颖 基于多尺度卷积神经网络的语义分割方法
CN108052911B (zh) * 2017-12-20 2021-12-07 上海海洋大学 基于深度学习的多模态遥感影像高层特征融合分类方法
CN108182441B (zh) * 2017-12-29 2020-09-18 华中科技大学 平行多通道卷积神经网络、构建方法及图像特征提取方法
US10893228B2 (en) * 2018-08-02 2021-01-12 GM Global Technology Operations LLC System and method for displaying information in a vehicle

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9612123B1 (en) * 2015-11-04 2017-04-04 Zoox, Inc. Adaptive mapping to navigate autonomous vehicles responsive to physical environment changes

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JIQUAN NGIAM ET AL: "Multimodal Deep Learning", INTERNATIONAL CONFERENCE ON MACHINE LEARNING (ICML), 28 June 2011 (2011-06-28), XP055565988, Retrieved from the Internet <URL:https://people.csail.mit.edu/khosla/papers/icml2011_ngiam.pdf> [retrieved on 20190307] *
KUAN LIU ET AL: "Learn to Combine Modalities in Multimodal Deep Learning", 29 May 2018 (2018-05-29), XP055565979, Retrieved from the Internet <URL:https://arxiv.org/pdf/1805.11730.pdf> [retrieved on 20190307] *
NITSCH JULIA ET AL: "Object Classification Based on Unsupervised Learned Multi-Modal Features For Overcoming Sensor Failures", 2019 INTERNATIONAL CONFERENCE ON ROBOTICS AND AUTOMATION (ICRA), IEEE, 20 May 2019 (2019-05-20), pages 4369 - 4375, XP033593585, DOI: 10.1109/ICRA.2019.8793628 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3929807A1 (de) * 2020-06-26 2021-12-29 NXP USA, Inc. System und verfahren für ein sensorfusionssystem mit verteiltem faltungsneuronalem netzwerk
US11605228B2 (en) 2020-06-26 2023-03-14 Nxp Usa, Inc. System and method for sensor fusion system having distributed convolutional neural network
JP7573325B2 (ja) 2020-10-14 2024-10-25 マイクロビジョン,インク. センサデータを分類するための方法及び装置
DE102022205674A1 (de) 2022-06-02 2023-12-07 Zf Friedrichshafen Ag Verfahren und Steuereinrichtung zum Steuern eines Flurförderzeugs
WO2023232500A1 (de) 2022-06-02 2023-12-07 Zf Friedrichshafen Ag Verfahren und steuereinrichtung zum steuern eines flurförderzeugs
DE102022121868A1 (de) 2022-08-30 2024-02-29 Bayerische Motoren Werke Aktiengesellschaft Verfahren und Assistenzeinrichtung zum Klassifizieren von Sensordetektionen basierend auf Punktwolken und entsprechend eingerichtetes Kraftfahrzeug

Also Published As

Publication number Publication date
EP3620978A1 (de) 2020-03-11
IL281302A (en) 2021-04-29
IL281302B1 (en) 2024-05-01
US11645848B2 (en) 2023-05-09
JP7164708B2 (ja) 2022-11-01
KR20210040415A (ko) 2021-04-13
CN112655001A (zh) 2021-04-13
EP3847578A1 (de) 2021-07-14
US20210174133A1 (en) 2021-06-10
KR102625493B1 (ko) 2024-01-15
CA3110387A1 (en) 2020-03-12
IL281302B2 (en) 2024-09-01
JP2021536634A (ja) 2021-12-27

Similar Documents

Publication Publication Date Title
EP3847578A1 (de) Verfahren und vorrichtung zur klassifizierung von objekten
DE102018128531A1 (de) System und Verfahren zum Analysieren einer durch eine Punktwolke dargestellten dreidimensionalen Umgebung durch tiefes Lernen
DE102019218613B4 (de) Objektklassifizierungsverfahren, Objektklassifizierungsschaltung, Kraftfahrzeug
DE102017220307A1 (de) Vorrichtung und Verfahren zum Erkennen von Verkehrszeichen
EP3557487B1 (de) Generieren von validierungsdaten mit generativen kontradiktorischen netzwerken
EP3701434A1 (de) Verfahren und vorrichtung zum automatischen erzeugen eines künstlichen neuronalen netzes
EP3853778B1 (de) Verfahren und vorrichtung zum betreiben eines steuerungssystems
DE102020200503A1 (de) Verfahren zum Generieren von gelabelten Daten, insbesondere für das Training eines neuronalen Netzes, mittels Verbesserung initialer Label
DE102019205085A1 (de) Selbstüberwachung einer auf künstlicher Intelligenz basierenden Funktion
DE102021207613A1 (de) Verfahren zur Qualitätssicherung eines Systems
DE102022201679A1 (de) Verfahren und Vorrichtung zum Trainieren eines neuronalen Netzes
DE102021204040A1 (de) Verfahren, Vorrichtung und Computerprogramm zur Erstellung von Trainingsdaten im Fahrzeug
EP4000011A1 (de) Komponentenbasierte verarbeitung von eingangsgrössen
DE102019220615A1 (de) Verfahren und Vorrichtung zum Erkennen und Klassifizieren von Objekten
DE102019217951A1 (de) Verfahren und Vorrichtung zum Bestimmen einer Domänendistanz zwischen mindestens zwei Datendomänen
DE102019114049A1 (de) Verfahren zur Validierung eines Fahrerassistenzsystems mithilfe von weiteren generierten Testeingangsdatensätzen
DE102018121317A1 (de) Verfahren und Vorrichtung zur Schätzung einer durch eine Freiraumgeste vermittelten Richtungsinformation zur Bestimmung einer Benutzereingabe an einer Mensch-Maschine-Schnittstelle
EP0469315B1 (de) Verfahren zur visuellen Inspektion zwei- oder dreidimensionaler Bilder
DE102019202747A1 (de) Verfahren und Vorrichtung zur Klassifizierung von Eingangsdaten
DE102022208718A1 (de) Verfahren zum Trainieren eines computer- implementierten Systems zur semantischen Analyse einer Szene und computer- implementiertes System zur Durchführung eines solchen Trainingsverfahrens
DE102016200035A1 (de) Verfahren zur Erkennung von Bewegungen mindestens eines bewegten Objektes im dreidimensionalen Raum
DE102022208714A1 (de) Computerimplementiertes System und Verfahren zur semantischen Analyse einer Szene
DE102022204263A1 (de) Verfahren und Vorrichtung zum Trainieren eines neuronalen Netzes
DE102021212731A1 (de) Überprüfen von test- und/oder trainings-datensätzen für ein computerbasiertes maschinenlernmodul
DE102022212374A1 (de) Computerimplementiertes Verfahren zum Erkennen von Objekten

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19765470

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 3110387

Country of ref document: CA

ENP Entry into the national phase

Ref document number: 2021512490

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2019765470

Country of ref document: EP

Effective date: 20210407