WO2022243357A1 - Transfer of semantic information to point clouds - Google Patents

Transfer of semantic information to point clouds Download PDF

Info

Publication number
WO2022243357A1
WO2022243357A1 PCT/EP2022/063407 EP2022063407W WO2022243357A1 WO 2022243357 A1 WO2022243357 A1 WO 2022243357A1 EP 2022063407 W EP2022063407 W EP 2022063407W WO 2022243357 A1 WO2022243357 A1 WO 2022243357A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
point cloud
image
semantic
sensor
Prior art date
Application number
PCT/EP2022/063407
Other languages
German (de)
French (fr)
Inventor
Jens HONER
Original Assignee
Valeo Schalter Und Sensoren Gmbh
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Valeo Schalter Und Sensoren Gmbh filed Critical Valeo Schalter Und Sensoren Gmbh
Publication of WO2022243357A1 publication Critical patent/WO2022243357A1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/803Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Definitions

  • the present invention relates to a method for generating information about the surroundings of a vehicle with a driving support system that has at least one surroundings sensor and a detection device, for example a flash lidar or an optical camera.
  • the method comprises the steps of capturing image information around the vehicle with the optical camera, capturing a point cloud around the vehicle with a plurality of surrounding points using the at least one environment sensor, and generating a semantic image of the environment around the vehicle based on the image information that is fed to a neural network, in particular a convolutional neural network, particularly preferably a completely convolutional neural network, FCN, with a reduced number of pixels compared to the image information.
  • a neural network in particular a convolutional neural network, particularly preferably a completely convolutional neural network, FCN, with a reduced number of pixels compared to the image information.
  • the present invention also relates to a driving support system for generating information about the surroundings of a vehicle with at least one surroundings sensor, an optical camera, a control unit, and a data connection via which the at least one surroundings sensor, the optical camera and the control unit are connected to one another, the Driving support system is designed to carry out the above method.
  • Driving support systems are becoming more and more important in current vehicles in order to increase driving safety when driving the vehicle. This applies both to driver assistance systems that assist a human driver in driving the vehicle and to the provision of functionalities for carrying out autonomous or semi-autonomous driving functions.
  • a basis for this is a reliable detection of environmental information of an environment of a vehicle.
  • Geometric information relates to a desertification of objects and structures in the environment, and semantic information to an assignment of different categories to the objects and structures.
  • semantic information can be derived more easily from camera data. Accordingly, the effort involved in semantics on point clouds is typically higher and the results are worse.
  • the invention described here attempts to use the sensors according to their respective strengths.
  • environment sensors such as LiDAR-based environment sensors or radar sensors are known in the prior art, which can determine a geometric structure of the environment reliably and with a high level of accuracy.
  • These surroundings sensors typically provide a point cloud of the surroundings of the vehicle with a plurality of surrounding points.
  • Each of the environmental points is defined by its angular position with respect to the environmental sensor, its elevation angle, and an associated distance value.
  • the environmental points thus indicate the positions of the objects and structures in the area surrounding the vehicle.
  • discrete laser pulses are emitted at an angular spacing of about 0.1 degrees in the horizontal direction.
  • Reflections of the emitted laser pulses are received by the LiDAR-based environmental sensor, and the corresponding distance value can be determined from a runtime from the emission of the laser pulse to the receipt of the associated reflection.
  • the LiDAR-based environmental sensor can emit the laser pulses in one or more scan planes, with the angular distance in the vertical direction being greater than in the horizontal direction when used on vehicles. The details regarding angular distances in horizontal and vertical directions as well as a total number of scan planes depend on the LiDAR-based environmental sensor used in each case.
  • semantic information about the environment can be determined from the point cloud recorded in this way, the semantic information obtained in this way is not very reliable due to the relatively large angular distances and the lack of detailed information in relation to the objects and structures, such as color information from a camera.
  • additional information can be provided for each of the environmental points, for example as intensity values of the received reflections. This allows the determination of semantic information of the environment improved, but this information is still not reliable enough.
  • an optical camera provides image information as dense information with small angular distances between individual pixels.
  • the pixels are defined by a chip area of the image sensor and a distance between the pixels on the image sensor is very small, gaps between the pixels tend to zero.
  • a camera generates dense information in this sense as an undetected area tends to zero, while LiDAR-based environmental sensors emit discrete laser pulses that have a small expansion, leaving gaps between adjacent laser pulses that LiDAR-based environmental sensors do not detect are, and thus do not contribute to the detection of the environment.
  • Camera systems typically realize higher resolution, and the passiveness of a camera compared to the active exposure in lidar creates a more even distribution of information on a "pixel".
  • optical cameras can provide the image information with color information for the individual pixels, which represent additional information for the semantic processing. This higher amount of information to be processed and the density of the image information leads to a good performance of the semantic segmentation of the image information provided with the optical camera.
  • depth estimates based on the image information of individual cameras are also known. However, the depth estimates are mostly derived from semantics. Either implicitly via semantics, or stereo or pseudo-stereo by means of different poses of the moving vehicle.
  • image information 100 with a resolution Fl * B is provided by an optical camera (not shown).
  • the image information 100 contains in this Exemplary embodiment information from three color channels K.
  • the image information 100 is processed with a neural network 102 in a first processing step.
  • a semantic image 104 is generated, which has a lower resolution H/N * B/M than the image information 100 and contains semantic information for K classes for each pixel. Details on this are shown in FIG.
  • the neural network 102 is shown there, which has a plurality of layers 106 which process the image information 100 in stages.
  • the neural network 102 has been previously trained for semantic segmentation.
  • a highly sampled semantic image 108 is generated from the semantic image 104 by bilinear upsampling, which has the resolution Fl * B of the image information 100 in order to generate a semantic mask for the entire image information 100 .
  • Bilinear upsampling is an example here, but there are other methods as well.
  • the semantic image 104 as well as the upsampled semantic image 108 contain semantic information for 21 classes.
  • An exemplary representation 110 in which the respective class with the highest confidence value is transferred to the image information 100 allows individual objects 112 to be identified.
  • the upsampling is shown in FIG. 3 as an example.
  • the semantic image 104 with the resolution H/N * B/M is processed in an upsampling layer 114 and enlarged to the resolution Fl * B of the image information 100 .
  • a point cloud 116 is provided by an environment sensor (not shown) in sensor coordination of the environment sensor.
  • the surrounding points contained in the point cloud 116 are transformed into image coordinates, as a result of which the point cloud is provided in image coordinates 118 .
  • the point cloud in image coordinates 118 and the upsampled semantic image 108 are merged into the environment information 120 by pixel mapping.
  • the environmental information 120 is a semantic point cloud, i.e. each environmental point of the point cloud 116 is assigned the semantic information of the pixel of the upsampled semantic image 108, which corresponds to its position in image coordinates.
  • the invention is therefore based on the object of specifying a method for generating information about the surroundings of a vehicle with a driving assistance system that has at least one surroundings sensor and an optical camera, as well as such a driving assistance system that provides an efficient and enable reliable generation of environment information with geometric and semantic information.
  • a method for generating information about the surroundings of a vehicle with a driving support system that has at least one surroundings sensor and an optical camera comprising the steps of capturing image information of the surroundings of the vehicle with the optical camera, capturing a point cloud of the environment of the vehicle with a plurality of surrounding points with the at least one surrounding sensor, generating a semantic image of the surrounding of the vehicle based on the image information that is supplied to a neural network, in particular a convolutional neural network, particularly preferably a fully convolutional neural network, FCN, with a compared to the image information reduced number of pixels, mapping the surrounding points of the point cloud directly to positions in the semantic image, and generating the environment information by assigning the semantic information for each environment point of the point cloud based on the mapping of the respective surrounding point to the corresponding position in the semantic image.
  • a neural network in particular a convolutional neural network, particularly preferably a fully convolutional neural network, FCN
  • a driving support system for generating information about the surroundings of a vehicle is also specified, with at least one surroundings sensor, an optical camera, a control unit, and a data connection via which the at least one surroundings sensor, the optical camera and the control unit are connected to one another, the driving support system is designed to carry out the above method.
  • the basic idea of the present invention is therefore to carry out an efficient determination of the semantic information for all surrounding points of the point cloud by mapping the surrounding points to the positions in the semantic image, without upsampling of the semantic image being necessary.
  • this is advantageous because the image information typically contains significantly more picture elements (pixels) than surrounding points are contained in the point cloud, and thus only the small number of surrounding points is processed instead of generating a larger number of picture elements for a highly sampled semantic image.
  • the upsampling of the semantic image represents a resource-intensive processing step.
  • the entire captured image information can be used to generate the semantic information.
  • parts of the image information that are not required for assigning the semantic information to the surrounding points cannot be processed further in order to save resources.
  • upsampling does not generate any additional information, but merely represents the existing information differently.
  • the environment information refers to information that defines the environment, in particular to discover obstacles or potential dangers for the vehicle.
  • the environmental information is formed with geometric information and with semantic information.
  • Geometric information relates to a desertification of objects and structures in the environment, and semantic information to an assignment of different categories to the objects and structures.
  • the surroundings of the vehicle is an area that is captured by the optical camera and the at least one surroundings sensor.
  • the environment can be recorded in full, i.e. 360° around the vehicle, or only in a partial area, for example in a field of view with 90° to 180° in driving direction.
  • the range typically extends to a distance of 100 or 200 meters from the vehicle, but can also be greater or lesser in extent. In particular, the extent is not greater than a range of the at least one environmental sensor or the optical camera.
  • the driving support system can be designed to provide any support functions for driving the vehicle or with the vehicle. This can involve driver assistance systems that assist a human driver in driving the vehicle, as well as the provision of functionalities for carrying out autonomous or semi-autonomous driving functions.
  • driver assistance systems are known, for example, under the term ADAS (Advanced Driver Assistance Systems).
  • Capturing the image information of the surroundings of the vehicle with the optical camera includes generating a two-dimensional matrix with image points, which are also referred to as pixels. Typical resolutions of optical cameras are in the range of one megapixel or more per image. Typically, the image information is continuously provided anew, for example in the manner of a Video streams with consecutive frames, which each form the image information. The image information is preferably provided by the optical camera with color information for the individual pixels. Optical cameras typically have a viewing angle of less than 180°, so that in order to monitor the surroundings at an angle of more than 360°, image information from a number of optical cameras must be processed together.
  • the driving support system can comprise a plurality of optical cameras, for example one camera being arranged on each side of the vehicle.
  • Capturing a point cloud surrounding the vehicle provides the point cloud with a plurality of surrounding points.
  • Each of the environmental points is defined by its angular position with respect to the environmental sensor and an associated distance value.
  • the environmental points thus indicate the positions of objects or structures in the area surrounding the vehicle.
  • the point cloud is transmitted from the at least one environmental sensor to the control unit via the data connection.
  • discrete laser pulses are emitted at an angular spacing of, for example, approximately 0.1 degrees in the horizontal direction.
  • lidar technologies that work with continuous illumination. The invention described here can be applied in both cases.
  • Reflections of the emitted laser pulses are received by the LiDAR-based environmental sensor, and the distance value for the respective environmental point can be determined from a transit time from the emission of the laser pulse to the receipt of the associated reflection.
  • the LiDAR-based environmental sensor can emit the laser pulses in one or more scan planes, with the angular distance in the vertical direction being greater than in the horizontal direction when used on vehicles. The details regarding angular distances in horizontal and vertical directions as well as a total number of scan planes depends on the respective LiDAR-based environmental sensor. With current LiDAR-based environmental sensors, additional information can be provided for each of the environmental points, for example as intensity values of the received reflections.
  • a semantic image of the surroundings of the vehicle is generated based on the image information that is supplied to the neural network, in particular a convolutional neural network, particularly preferably one Completely convolutional neural network, FCN, with a reduced number of pixels compared to the image information.
  • the image information is transmitted from the optical camera to the control unit via the data connection and processed there automatically.
  • Corresponding implementations for the semantic segmentation of image information are known as such and can be implemented, for example, using the neural network, the neural network having to be trained accordingly in advance in order to recognize relevant semantic information for driving the vehicle and the driving support by the driving support system .
  • the resolution is typically reduced, so that the semantic image has fewer pixels than the image information that is supplied to the neural network.
  • the semantic image typically includes confidence values for different classes of objects that are to be recognized in the image information, for example cars, trucks, pedestrians, bicycles, trees, traffic lights or the like.
  • the mapping of the surrounding points of the point cloud directly to positions in the semantic image takes place in the control unit.
  • a position in the semantic image is determined for each surrounding point.
  • the position is defined by a two-dimensional vector.
  • the surrounding points can in principle be assigned to individual pixels of the semantic image.
  • the position in the semantic image is preferably specified for each surrounding point with real values, i.e. positions between centers of the individual pixels of the semantic image are determined, for example as floating point values.
  • the environmental information is generated by assigning semantic information of the semantic image to each environmental point of the point cloud based on the mapping of the respective environmental point to the corresponding position in the semantic image. A mapping of the semantic information is therefore carried out at the determined position of each environmental point relative to this environmental point.
  • the semantic information of a surrounding point can be formed by the semantic information of a single pixel of the semantic image or by the semantic information of a plurality of pixels of the semantic image in combination.
  • the control unit includes at least one processor and one memory in order to execute a program for carrying out a support function of the driving support system.
  • the control unit processes the point cloud captured by the at least one environment sensor and the image information captured by the optical camera and generates the environment information based thereon.
  • the data connection is designed, for example, in the manner of a bus system that is customary in the automotive sector.
  • bus systems such as CAN, FlexRay, LIN or others are known in this context.
  • BR Ethernet or LVDS for cameras is usually used.
  • the method includes a step for temporally synchronizing the acquisition of the image information with the optical camera and the acquisition of the point cloud with the at least one environmental sensor.
  • the temporal synchronization ensures that the image information and the point cloud contain information that corresponds to one another, so that the semantic information can be correctly assigned for each point surrounding the point cloud.
  • the temporal synchronization of the capturing of the image information with the optical camera and the capturing of the point cloud with the at least one environmental sensor can be implemented in different ways.
  • the optical camera and the at least one environmental sensor can be operated in a synchronized manner, so that the image information and the point cloud are generated essentially simultaneously.
  • the temporal synchronization can include providing a common time base, so that a time stamp can be assigned to the image information and the point cloud.
  • a time stamp can be assigned to the image information and the point cloud.
  • fundamental differences can have to be taken into account when capturing the image information with the optical camera and when capturing the point cloud with the at least one environmental sensor.
  • the optical camera captures the image information over a period of time that is classically referred to as the "exposure time" in order to capture a sufficient amount of light with its sensor.
  • the point cloud can be recorded in different ways.
  • LiDAR-based environmental sensors are known which, as flash LiDAR, enable the entire point cloud or areas of the point cloud to be recorded simultaneously.
  • LiDAR-based environmental sensors are known which allow the point cloud to be recorded in columns or rows.
  • LiDAR-based environmental sensors with an individual detection of each environmental point of the point cloud are known.
  • the acquisition of the point cloud can extend over time intervals of different lengths. The same applies in principle to radar sensors.
  • the method includes a step for determining a fixed mapping rule for the points surrounding the point cloud to positions in the semantic image, and mapping the points surrounding the point cloud directly to positions in the semantic image includes mapping the points surrounding the point cloud to the positions in the semantic image with the fixed mapping rule of the surrounding points of the point cloud to positions in the semantic image.
  • the mapping of the surrounding points of the point cloud to the positions in the semantic image using the fixed mapping rule can be carried out very efficiently and with little computational effort compared to individually implemented mapping of the surrounding points of the point cloud to the positions in the semantic image. In addition, little storage space is required for mapping. It is only necessary to determine the fixed mapping rule once in advance.
  • the fixed mapping rule can be in the form of a “look-up table” (Lut) in the Control unit of the driving support system to be stored.
  • the use of the look-up table enables the surrounding points of the point cloud to be mapped quickly and efficiently directly to the positions in the semantic image.
  • a fixed mapping rule is thus stored in the look-up table for all surrounding points.
  • the acquisition of the image information with the optical camera and the acquisition of the point cloud with the at least one environmental sensor are preferably synchronized in time. This further reduces imaging errors.
  • the mapping of the surrounding points of the point cloud directly to positions in the semantic image includes an interpolation of the positions in the semantic image to pixels of the semantic image.
  • the interpolation enables an exact determination of the semantic information for each point in the surrounding area.
  • Soft transitions are also made possible for the semantic information of neighboring surrounding points.
  • the interpolation of the positions in the semantic image to pixels of the semantic image includes bilinear interpolation, nearest neighbor classification, use of a support vector machine or application of a Gaussian process.
  • Corresponding methods for interpolation are known as such in the prior art.
  • the mapping of the points surrounding the point cloud directly to positions in the semantic image includes mapping the points surrounding the point cloud directly to positions in the semantic image based on one or more parameters from an extrinsic calibration of the optical camera, an intrinsic calibration of the optical camera, a position of the at least one environmental sensor, a pose of the at least one environmental sensor and a distance of the corresponding environmental points of the point cloud from the at least one environmental sensor.
  • the surrounding points as detected by the surrounding sensor in sensor coordination, can first be transformed into image coordinates, so that the surrounding points can then be simply mapped in image coordinates to the positions in the semantic image.
  • the method includes an additional step for generating an environment map based on the environment information with the semantic information for each environment point of the point cloud.
  • the environment map covers an area around the vehicle and can easily be used by various driving support functions of the vehicle.
  • the environment points are marked with the semantic information in the environment of the vehicle.
  • the surroundings map can be generated, for example, in the manner of a grid occupancy map, in which individual grid elements are covered with their semantic information based on the surrounding points.
  • the at least one environmental sensor is designed as a LiDAR-based environmental sensor and/or as a radar sensor.
  • Corresponding environmental sensors are known as such and are already widely used.
  • a combination of a plurality of environment sensors and/or a plurality of optical cameras can also be carried out in order, for example, to capture a large area of the vehicle's surroundings.
  • sensor-dependent parameters such as spatial uncertainty of radar sensors when mapping the environmental points of the point cloud directly to positions in the semantic image.
  • the at least one environment sensor and the optical camera are designed as a sensor unit for joint attachment as a sensor unit on the vehicle.
  • the joint provision of the at least one environmental sensor and the optical camera enables simple and quick assembly in one assembly step.
  • a compact provision of the at least one environmental sensor with the optical camera is made possible.
  • the provision of the at least one environment sensor and the optical camera as a sensor unit typically causes the at least one environment sensor and the optical camera to be arranged at a small distance from one another, which simplifies processing of the point cloud together with the image information.
  • the at least one environment sensor and the optical camera are designed to be attached to the vehicle at a small distance
  • the driving support system is designed to use the above method with a step for determining a fixed mapping rule of the surrounding points of the point cloud to positions in the to perform the semantic image, and to perform the mapping of the points surrounding the point cloud directly to positions in the semantic image with a mapping of the points surrounding the point cloud to the positions in the semantic image with the fixed mapping rule of the points surrounding the point cloud to positions in the semantic image.
  • control unit has a plurality of data processing units and is designed to operate in parallel to map the surrounding points of the point cloud directly to positions in the semantic image and/or to generate the surrounding information by assigning the semantic information for each surrounding point of the point cloud on the mapping of the respective environmental point to the corresponding position in the semantic image.
  • the individual surrounding points of the point cloud are independent of one another and can also be processed independently of one another.
  • Graphics processors GPU with a number of parallel computing cores have proven their worth for parallel information processing. Since the mapping of the surrounding points of the point cloud directly to positions in the semantic image is also a graphic function, the mapping can be carried out particularly efficiently with graphics processors. The same applies in detail, for example, to a transformation of the surrounding points into sensor coordinates into image coordinates.
  • FIG. 1 shows a view of a diagram for generating environmental information based on a combination of image information of the environment from an optical camera and a point cloud of the environment with a plurality of environmental points from an environment sensor from the prior art
  • FIG. 2 shows a schematic representation of processing of the image information for generating a semantic image with a neural network and for upsampling in accordance with FIG. 1 ,
  • FIG. 3 shows a schematic representation of a processing of the semantic image for upsampling in accordance with FIG. 1 ,
  • Fig. 4 is a schematic view of a vehicle with a
  • Driving support system with a sensor unit comprising a LiDAR-based environment sensor and an optical camera and with a control unit, which are connected to one another via a data connection, according to a first preferred embodiment,
  • FIG. 5 shows a view of a diagram for generating environmental information based on a combination of image information of the environment from the optical camera and a point cloud of the environment with a plurality of environmental points from the environmental sensor with the driving support system from FIG. 4,
  • FIG. 6 shows a schematic representation of processing of the image information to generate a semantic image in accordance with FIG. 5
  • 7 shows a schematic representation of image information with a depiction of surrounding points of the point cloud and a highlighting of identified objects in the image information
  • FIG. 8 shows a detailed view of a mapping of a point surrounding the point cloud from FIG. 7 onto a semantic image
  • FIG. 9 shows a flow chart for generating the environmental information based on a combination of image information of the environment from the optical camera and a point cloud of the environment with a plurality of environmental points from the environmental sensor in accordance with the illustration from FIG. 5.
  • FIG. 1 shows a vehicle 10 with a driving support system 12 according to a first preferred embodiment.
  • the driving support system 12 can be designed to provide any support functions for driving the vehicle 10 or with the vehicle 10 . This can involve driver assistance systems that assist a human driver in driving the vehicle 10, as well as the provision of functionalities for carrying out autonomous or semi-autonomous driving functions.
  • driver assistance systems are known, for example, under the term ADAS (Advanced Driver Assistance Systems).
  • the driving assistance system 12 includes a sensor unit 14 with a LiDAR-based surroundings sensor 16 and an optical camera 18.
  • the driving assistance system 12 also comprises a control unit 20 and a data connection 22 via which the LiDAR-based surroundings sensor 16, the optical camera 18 and the control unit 20 are connected to each other.
  • the sensor unit 14 is designed for joint attachment of the LiDAR-based surroundings sensor 16 and the optical camera 18 to the vehicle 10.
  • the LiDAR-based surroundings sensor 16 and the optical camera 18 are attached to the vehicle 10 at a small distance from one another.
  • the LiDAR-based environment sensor 16 is designed to capture an environment 24 of the vehicle 10 .
  • the surroundings 24 are recorded as a point cloud 26 with a plurality of surrounding points 28 which are arranged in a plurality of scan planes 30, as can be seen from FIG.
  • the surrounding points 28 are generated in that laser pulses are emitted and reflections of the emitted laser pulses are received, so that a distance value can be determined from the resulting propagation time.
  • Each of the environmental points 28 is defined by its angular position in relation to the LiDAR-based environmental sensor 16 and the associated distance value.
  • the laser pulses are emitted with a uniform angular spacing.
  • Optical camera 18 is also designed to capture surroundings 24 of vehicle 10 .
  • the detection takes place in a known manner based on a dot matrix with individual image points, which are also referred to as pixels and each include brightness information and/or color information.
  • the optical camera 18 provides corresponding image information 32, as shown in FIGS. 6 and 7 by way of example.
  • the environment 24 of the vehicle 10 is an area captured by the optical camera 18 and the LiDAR-based environment sensor 16 .
  • Environment 24 should have a field of view of 90° to 180° in the direction of travel and extend up to a distance of 100 or 200 meters from vehicle 10, as is generally the case in accordance with the illustration in FIG.
  • the control unit 20 includes a processor and a memory for executing a program for performing a support function of the driving support system 12 as well as for performing the method described below.
  • the control unit 20 controls the LiDAR-based surroundings sensor 16 and/or the optical camera 16 and receives and processes point clouds 26 provided by the LiDAR-based surroundings sensor 16 and image information 32 provided by the optical camera 18.
  • the data connection 22 is designed, for example, in the manner of a bus system that is customary in the automotive sector. Various bus systems such as CAN, FlexRay, LIN or others are known in this context.
  • FIG. 9 shows a flow chart of the method.
  • step S100 the method starts with the determination of a fixed mapping rule of the surrounding points 28 of the point cloud 26 generated by the LiDAR-based surrounding sensor 16 on positions in a semantic image.
  • the mapping rule is calculated dynamically, since the cameras and lidars are usually installed at different positions, and this can result in imaging errors that are too large. But this also depends on the specific application.
  • the fixed mapping rule can be stored in the control unit 20 of the driving support system 12 in the form of a “look-up table” (Lut), for example.
  • the fixed mapping rule can be determined once for the driving support system 12, for example during installation or as part of a calibration. Details on the content of the look-up table result from step S150 described below.
  • Step S110 relates to capturing the image information 32 of the surroundings 24 of the vehicle 10 with the optical camera 18. Details on the function of the optical camera 18 have already been explained above.
  • the image information 32 is transmitted from the optical camera 18 to the control unit 20 via the data connection 22 .
  • Step S120 relates to capturing the point cloud 26 of the surroundings 24 of the vehicle 10 with the plurality of surrounding points 28 using the LiDAR-based surroundings sensor 16. Details on the function of the LiDAR-based surroundings sensor 16 have already been explained above.
  • the point cloud 26 is transmitted from the LiDAR-based environment sensor 16 to the control unit 20 via the data connection 22 .
  • Step S130 relates to a temporal synchronization of the acquisition of the image information 32 with the optical camera 18 and the acquisition of the point cloud 26 with the LiDAR based environment sensor 16.
  • the temporal synchronization of the acquisition of the image information 32 and the point cloud 26 can be carried out, for example, by synchronized operation of the optical camera 18 and the LiDAR-based environment sensor 16, so that the image information 32 and the point cloud 26 are generated essentially simultaneously .
  • the temporal synchronization can include providing a common time base for the optical camera 18 and the LiDAR-based environment sensor 16, with which the image information 32 and the point cloud 26 is assigned a time stamp.
  • a temporal interpolation of the detections in image space can achieve an approximate interpolation as long as the time bases are synchronous.
  • Steps S110 and S120 can thus be carried out at the same time or with a slight time offset in any sequence.
  • Step S140 relates to generating the semantic image 34 of the surroundings 24 of the vehicle 10 based on the image information 32, which is fed to a neural network 36, in particular a convolutional neural network, particularly preferably a fully convolutional neural network, FCN, with an opposite of the image information 32 reduced number of pixels 38.
  • the semantic image 34 is shown schematically (in part) with a plurality of pixels 38 in FIG.
  • Semantic image 34 of environment 24 of vehicle 10 is generated based on processing of image information 32 captured by optical camera 18.
  • image information 32 is fed to neural network 36, which processes image information 32 in a plurality of layers 40 .
  • the semantic image 34 is created by semantic segmentation of image content.
  • the semantic image 34 thus includes the objects 42 shown by way of example as animals in the image information 32 in FIG. Vehicles are recorded as objects 42 in the exemplary image information 32 from FIG.
  • the objects 42 are marked with an object frame in FIG. 7, but this is not necessary.
  • Starting from the Image information 32 from FIG. 7 includes the semantic image 34 for each of its pixels 38 confidence values for different classes of objects 42 that are to be recognized in the image information 32, for example cars, trucks, pedestrians, bicycles, trees, traffic lights or the like.
  • Step S150 relates to mapping the surrounding points 28 of the point cloud 26 directly onto positions 44 in the semantic image 34.
  • the surrounding points 28 of the point cloud 26 are first transformed into surrounding points in image coordination 46 starting from their sensor coordinates.
  • the transformation is based on one or more parameters from an extrinsic calibration of the optical camera 18, an intrinsic calibration of the optical camera 18, a position of the LiDAR-based environmental sensor 16, a pose of the LiDAR-based environmental sensor 16 and a distance between the corresponding environmental points 28 the point cloud 26 from the LiDAR-based environment sensor 16.
  • the transformation of the point cloud 26 into sensor coordinates into image coordinates of the optical camera 18 is essentially independent of the distance measurement of the respective surrounding points 28 due to the joint design of the optical camera 18 and the LiDAR based environment sensor 16 in the sensor unit 14 and the resulting positioning close together.
  • the surrounding points in image coordination 46 are then mapped directly to positions 44 in the semantic image 34 for the point cloud 26 by determining an associated position 44 in the semantic image 34 for each surrounding point 28, as shown by way of example in FIG.
  • the position 44 is defined by a two-dimensional vector with real values, i.e. positions between centers of the individual pixels 38 of the semantic image 34 are determined, for example as floating point values.
  • the imaging of the surrounding points 28 directly onto the positions 44 in the semantic image 34 thus takes place independently of the distance value of each surrounding point.
  • the illustration is as described here in the Stored look-up table so that the position 44 can be determined for each surrounding point 28 with the fixed mapping rule.
  • the position 44 is therefore independent of its distance value for each surrounding point 28 .
  • the mapping of the surrounding points 28 of the point cloud 26 directly to positions 44 in the semantic image 34 includes an interpolation of the positions 44 in the semantic image 34 to pixels 38 of the semantic image 34.
  • the interpolation is carried out as bilinear interpolation.
  • the local position 44 of the corresponding surrounding point 28 is in a corner area of the pixel 38, so that the semantic information of the surrounding point 28 for this position 44 is based on the semantic information of all the adjacent pixels 38 that are there in addition denoted by a, b, c, d is formed in combination.
  • the interpolation can also be defined in advance.
  • Step S160 relates to generating surrounding information 48 by assigning the semantic information for each surrounding point 28 of the point cloud 26 based on the mapping of the respective surrounding point 28 to the corresponding position 44 in the semantic image 34. It is therefore each surrounding point 28 of the point cloud 26 based on the mapping of the respective surrounding point 28 to the corresponding position 44 in the semantic image 34, a mapping of the semantic information at the determined position 44 of each surrounding point 28 is carried out in order to assign the semantic information at the corresponding position 44 to this.
  • control unit 20 has a plurality of data processing units (not shown individually) and is designed to operate in parallel to map surrounding points 28 of point cloud 26 directly to positions 44 in semantic image 34 and to generate surrounding information 48 by assigning the semantic information for to carry out each surrounding point 28 of the point cloud 26 based on the mapping of the respective surrounding point 28 to the corresponding position 44 in the semantic image 34 .
  • Graphics processors (GPU) with a number of parallel computing cores have proven their worth for parallel information processing.
  • Step S170 relates to generating an environment map based on the environment information 48 with the semantic information for each environment point 28 of the point cloud 26.
  • the environment map includes an area around the vehicle 10 for use by various driving support functions of the vehicle 10.
  • the environment map is, for example, according to the type generates a grid occupancy map in which individual grid elements based on the surrounding points 28 are covered with their semantic information.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Traffic Control Systems (AREA)

Abstract

The invention relates to a method for generating surroundings information (48) of the surroundings (24) of a vehicle (10) comprising a driving assistance system (12) which has at least one surroundings sensor (16) and an optical camera (18), said method comprising the steps of: using the optical camera (18) to acquire image information (32) of the surroundings (24) of the vehicle (10); using the at least one surroundings sensor (16) to acquire a point cloud (26) of the surroundings (24) of the vehicle (10) having a plurality of surroundings points (28); generating a semantic image (34) of the surroundings (24) of the vehicle (10) based on the image information (32) which is fed to a neural network, in particular a convolutional neural network, particularly preferably a fully convolutional neural network, FCN, having a reduced number of pixels (38) compared with the image information (32); mapping the surroundings points (28) of the point cloud (26) directly onto positions (44) in the semantic image (34); and generating the surroundings information (48) by assigning the semantic information for each surroundings point (28) of the point cloud (26) to the corresponding position (44) in the semantic image (34) based on the mapping of the associated surroundings point (28). The invention also relates to a driving assistance system (12) which is designed to perform the above method.

Description

Übertragen von semantischen Informationen auf Punktwolken Transferring semantic information to point clouds
Die vorliegende Erfindung betrifft ein Verfahren zum Erzeugen von Umgebungsinformation einer Umgebung eines Fahrzeugs mit einem Fahrunterstützungssystem, das wenigstens einen Umgebungssensor und eine Detektionseinrichtung, zum Beispiel ein Flash Lidar oder eine optische Kamera, aufweist. Das Verfahren umfasst die Schritte Erfassen von Bildinformation der Umgebung des Fahrzeugs mit der optischen Kamera, Erfassen von einer Punktwolke der Umgebung des Fahrzeugs mit einer Mehrzahl Umgebungspunkte mit dem wenigstens einen Umgebungssensor, und Erzeugen eines semantischen Bildes der Umgebung des Fahrzeugs basierend auf der Bildinformation, die einem neuronalen Netz zugeführt wird, insbesondere einem konvolutioneilen Neuronalen Netz, besonders bevorzugt einem vollständig konvolutioneilen Neuronalen Netz, FCN, mit einer gegenüber der Bildinformation reduzierten Anzahl Bildpunkten. FIELD OF THE INVENTION The present invention relates to a method for generating information about the surroundings of a vehicle with a driving support system that has at least one surroundings sensor and a detection device, for example a flash lidar or an optical camera. The method comprises the steps of capturing image information around the vehicle with the optical camera, capturing a point cloud around the vehicle with a plurality of surrounding points using the at least one environment sensor, and generating a semantic image of the environment around the vehicle based on the image information that is fed to a neural network, in particular a convolutional neural network, particularly preferably a completely convolutional neural network, FCN, with a reduced number of pixels compared to the image information.
Auch betrifft die vorliegende Erfindung ein Fahrunterstützungssystem zum Erzeugen von Umgebungsinformation einer Umgebung eines Fahrzeugs mit wenigstens einen Umgebungssensor, einer optischen Kamera, einer Steuereinheit, und einer Datenverbindung, über die der wenigstens eine Umgebungssensor, die optische Kamera und die Steuereinheit miteinander verbunden sind, wobei das Fahrunterstützungssystem ausgeführt ist, das obige Verfahren durchzuführen. The present invention also relates to a driving support system for generating information about the surroundings of a vehicle with at least one surroundings sensor, an optical camera, a control unit, and a data connection via which the at least one surroundings sensor, the optical camera and the control unit are connected to one another, the Driving support system is designed to carry out the above method.
Fahrunterstützungssysteme gewinnen in aktuellen Fahrzeugen mehr und mehr an Bedeutung, um die Fahrsicherheit beim Fahren mit dem Fahrzeug zu erhöhen. Das betrifft sowohl Fahrerassistenzsysteme, die einem menschlichen Fahrer beim Führen des Fahrzeugs assistieren, wie auch eine Bereitstellung von Funktionalitäten zur Durchführung von autonomen oder teilautonomen Fahrfunktionen. Driving support systems are becoming more and more important in current vehicles in order to increase driving safety when driving the vehicle. This applies both to driver assistance systems that assist a human driver in driving the vehicle and to the provision of functionalities for carrying out autonomous or semi-autonomous driving functions.
Eine Basis dafür ist eine zuverlässige Erfassung von Umgebungsinformation einer Umgebung eines Fahrzeugs. Dabei sind sowohl geometrische als auch semantische Informationen der Umgebung essentiell. Geometrische Informationen betreffen eine Verödung von Objekten und Strukturen in der Umgebung, und semantische Informationen eine Zuordnung von verschiedenen Kategorien zu den Objekten und Strukturen. Es gibt Ansätze zur Klassifikation der Semantik direkt auf Punktwolken. Allerdings ist es so, dass gerade auf Kameradaten einfacher eine Semantik abgeleitet werden kann. Entsprechend ist typischerweise sowohl der Aufwand bei Semantik auf Punktwolken höher, sowie die Ergebnisse schlechter. Die hier beschriebene Erfindung versucht, die Sensoren ihren jeweiligen Stärken entsprechend einzusetzen. A basis for this is a reliable detection of environmental information of an environment of a vehicle. Both geometric and semantic information about the environment are essential. Geometric information relates to a desertification of objects and structures in the environment, and semantic information to an assignment of different categories to the objects and structures. There are approaches to classifying the semantics directly on point clouds. However, it is the case that semantics can be derived more easily from camera data. Accordingly, the effort involved in semantics on point clouds is typically higher and the results are worse. The invention described here attempts to use the sensors according to their respective strengths.
Im Stand der Technik sind beispielsweise Umgebungssensoren wie LiDAR-basierte Umgebungssensoren oder Radarsensoren bekannt, die eine geometrische Struktur der Umgebung zuverlässig und mit einer hohen Genauigkeit ermitteln können. Diese Umgebungssensoren stellen typischerweise eine Punktwolke der Umgebung des Fahrzeugs mit einer Mehrzahl Umgebungspunkten bereit. Jeder der Umgebungspunkte ist durch seine Winkelposition in Bezug auf den Umgebungssensor, seinen Höhenwinkel (auf Englisch "Elevation Angle") und einen dazugehörigen Entfernungswert definiert. Die Umgebungspunkte geben somit Positionen der Objekte und Strukturen in der Umgebung des Fahrzeugs an. Bei LiDAR-basierten Umgebungssensoren werden beispielsweise diskrete Laserpulse in einem Winkelabstand von etwa 0,1 Grad in der horizontalen Richtung ausgesendet. Reflektionen der ausgesendeten Laserpulse werden von dem LiDAR-basierten Umgebungssensor empfangen, und aus einer Laufzeit vom Aussenden des Laserpulses bis zum Empfang der dazugehörigen Reflektion kann der entsprechende Entfernungswert bestimmt werden. Der LiDAR- basierte Umgebungssensor kann die Laserpulse in einer oder in mehreren Scanebenen aussenden, wobei der Winkelabstand in vertikaler Richtung bei der Verwendung an Fahrzeugen größer ist als in horizontaler Richtung. Die Details in Bezug auf Winkelabstände in horizontaler und vertikaler Richtung wie auch eine Gesamtzahl von Scanebenen sind abhängig vom jeweils verwendeten LiDAR-basierten Umgebungssensor. For example, environment sensors such as LiDAR-based environment sensors or radar sensors are known in the prior art, which can determine a geometric structure of the environment reliably and with a high level of accuracy. These surroundings sensors typically provide a point cloud of the surroundings of the vehicle with a plurality of surrounding points. Each of the environmental points is defined by its angular position with respect to the environmental sensor, its elevation angle, and an associated distance value. The environmental points thus indicate the positions of the objects and structures in the area surrounding the vehicle. For example, in LiDAR-based environmental sensors, discrete laser pulses are emitted at an angular spacing of about 0.1 degrees in the horizontal direction. Reflections of the emitted laser pulses are received by the LiDAR-based environmental sensor, and the corresponding distance value can be determined from a runtime from the emission of the laser pulse to the receipt of the associated reflection. The LiDAR-based environmental sensor can emit the laser pulses in one or more scan planes, with the angular distance in the vertical direction being greater than in the horizontal direction when used on vehicles. The details regarding angular distances in horizontal and vertical directions as well as a total number of scan planes depend on the LiDAR-based environmental sensor used in each case.
Aus der so erfassten Punktwolke können zwar semantische Informationen der Umgebung bestimmt werden, aufgrund der relativ großen Winkelabstände sowie fehlender Detail-Informationen in Bezug auf die Objekte und Strukturen, wie beispielsweise Farbinformation einer Kamera, sind die so gewonnenen semantischen Informationen jedoch nicht sehr zuverlässig. Bei aktuellen LiDAR-basierten Umgebungssensoren kann für jeden der Umgebungspunkte zusätzliche Information bereitgestellt werden, beispielsweise als Intensitätswerte der empfangenen Reflektionen. Damit kann die Bestimmung von semantischer Information der Umgebung zwar verbessert werden, allerdings ist diese Information immer noch nicht zuverlässig genug. Although semantic information about the environment can be determined from the point cloud recorded in this way, the semantic information obtained in this way is not very reliable due to the relatively large angular distances and the lack of detailed information in relation to the objects and structures, such as color information from a camera. With current LiDAR-based environmental sensors, additional information can be provided for each of the environmental points, for example as intensity values of the received reflections. This allows the determination of semantic information of the environment improved, but this information is still not reliable enough.
Im Gegensatz dazu liefert eine optische Kamera Bildinformation als dichte Informationen mit geringen Winkelabständen zwischen einzelnen Pixeln. Zusätzlich gehen Zwischenräume zwischen den Pixeln gegen null, da die Pixel durch eine Chipfläche des Bildsensors definiert werden und ein Abstand der Pixel auf dem Bildsensor sehr gering ist. Entsprechend generiert eine Kamera in diesem Sinne dichte Informationen, da ein nicht erfasster Bereich gegen Null geht, während LiDAR-basierte Umgebungssensoren diskrete Laserpulse aussenden, die eine geringe Ausdehnung aufweisen, so dass zwischen benachbarten Laserpulsen Zwischenräume verbleiben, die mit LiDAR- basierten Umgebungssensoren nicht erfasst werden, und die somit nicht zur Erfassung der Umgebung beitragen. Kamerasystemen realisieren typischerweise eine höhere Auflösung, und die Passivität einr Kamera im Vergleich zur aktiven Belichtung beim Lidar erzeugt eine gleichmäßigere Informationsverteilung auf einen „Pixel“. Optische Kameras können darüber hinaus die Bildinformation mit Farbinformationen für die einzelnen Pixel bereitstellen, die zusätzliche Information für die semantische Verarbeitung darstellen. Diese höhere Menge an zu verarbeitender Information und die Dichte der Bildinformation führt zu einer guten Leistung der semantischen Segmentierung der mit der optischen Kamera bereitgestellten Bildinformationen. Jedoch kann aufgrund der fehlenden Tiefeninformation die geometrische Struktur nur schlecht bestimmt werden. Zwar sind auch Tiefenschätzungen basierend auf der Bildinformation einzelner Kameras (Mono-Kameras) bekannt. Allerdings sind die Tiefenschätzungen meist aus der Semantik abgeleitet. Entweder implizit über Semantik, oder Stereo bzw. Pseudo-Stereo mittels verschiedener Posen des fahrenden Fahrzeugs. In contrast, an optical camera provides image information as dense information with small angular distances between individual pixels. In addition, since the pixels are defined by a chip area of the image sensor and a distance between the pixels on the image sensor is very small, gaps between the pixels tend to zero. Correspondingly, a camera generates dense information in this sense as an undetected area tends to zero, while LiDAR-based environmental sensors emit discrete laser pulses that have a small expansion, leaving gaps between adjacent laser pulses that LiDAR-based environmental sensors do not detect are, and thus do not contribute to the detection of the environment. Camera systems typically realize higher resolution, and the passiveness of a camera compared to the active exposure in lidar creates a more even distribution of information on a "pixel". In addition, optical cameras can provide the image information with color information for the individual pixels, which represent additional information for the semantic processing. This higher amount of information to be processed and the density of the image information leads to a good performance of the semantic segmentation of the image information provided with the optical camera. However, due to the lack of depth information, the geometric structure can only be determined poorly. It is true that depth estimates based on the image information of individual cameras (mono cameras) are also known. However, the depth estimates are mostly derived from semantics. Either implicitly via semantics, or stereo or pseudo-stereo by means of different poses of the moving vehicle.
Entsprechend ist eine Kombination der geometrischen Information der Punktwolke mit der semantischen Information basierend auf der Bildinformation wünschenswert, um Umgebungsinformation für eine effektive und zuverlässige Erfassung der Umgebung des Fahrzeugs zu erhalten. Eine solche Kombination aus dem Stand der Technik ist in dem Diagramm in Figur 1 mit zusätzlichem Bezug auf die Figuren 2 und 3 schematisch dargestellt. Accordingly, a combination of the geometric information of the point cloud with the semantic information based on the image information is desirable in order to obtain environment information for an effective and reliable detection of the environment of the vehicle. Such a prior art combination is shown schematically in the diagram in Figure 1 with additional reference to Figures 2 and 3.
Gemäß Figur 1 wird von einer nicht dargestellten optischen Kamera Bildinformation 100 mit einer Auflösung Fl * B bereitgestellt. Die Bildinformation 100 enthält in diesem Ausführungsbeispiel Information von drei Farbkanälen K. Die Bildinformation 100 wird in einem ersten Verarbeitungsschritt mit einem neuronalen Netz 102 verarbeitet. Als Ergebnis wird ein semantisches Bild 104 erzeugt, das eine geringere Auflösung H/N * B/M als die Bildinformation 100 aufweist und für jeden Bildpunkt semantische Information für K Klassen enthält. Details dazu sind in Figur 2 dargestellt. Dort ist das neuronale Netz 102 dargestellt, das mehrere Schichten 106 aufweist, die die Bildinformation 100 stufenweise verarbeiten. Das neuronale Netz 102 wurde vorab zur semantischen Segmentierung trainiert. According to FIG. 1, image information 100 with a resolution Fl * B is provided by an optical camera (not shown). The image information 100 contains in this Exemplary embodiment information from three color channels K. The image information 100 is processed with a neural network 102 in a first processing step. As a result, a semantic image 104 is generated, which has a lower resolution H/N * B/M than the image information 100 and contains semantic information for K classes for each pixel. Details on this are shown in FIG. The neural network 102 is shown there, which has a plurality of layers 106 which process the image information 100 in stages. The neural network 102 has been previously trained for semantic segmentation.
Aus dem semantischen Bild 104 wird durch bilineares Upsampling ein hochgesampeltes semantisches Bild 108 erzeugt, welches die Auflösung Fl * B der Bildinformation 100 aufweist, um eine semantische Maske für die gesamte Bildinformation 100 zu erzeugen. Bilineares Upsampling ist hier ein Beispiel aber es gibt auch andere Methoden. In diesem Ausführungsbeispiel enthalten das semantisches Bild 104 wie auch das hochgesampelte semantische Bild 108 semantische Information für 21 Klassen. Eine beispielhafte Darstellung 110, in der die jeweilige Klasse mit dem höchsten Konfidenzwert auf die Bildinformation 100 übertragen ist, lässt einzelne Objekte 112 erkennen. Das Upsampling ist beispielhaft in Figur 3 dargestellt. Dort wird das semantische Bild 104 mit der Auflösung H/N * B/M in einer Upsampling-Schicht 114 verarbeitet und auf die Auflösung Fl * B der Bildinformation 100 vergrößert. A highly sampled semantic image 108 is generated from the semantic image 104 by bilinear upsampling, which has the resolution Fl * B of the image information 100 in order to generate a semantic mask for the entire image information 100 . Bilinear upsampling is an example here, but there are other methods as well. In this exemplary embodiment, the semantic image 104 as well as the upsampled semantic image 108 contain semantic information for 21 classes. An exemplary representation 110 in which the respective class with the highest confidence value is transferred to the image information 100 allows individual objects 112 to be identified. The upsampling is shown in FIG. 3 as an example. There, the semantic image 104 with the resolution H/N * B/M is processed in an upsampling layer 114 and enlarged to the resolution Fl * B of the image information 100 .
Außerdem wird gemäß Figur 1 von einem nicht dargestellten Umgebungssensor eine Punktwolke 116 in Sensorkoordination des Umgebungssensors bereitgestellt. Die in der Punktwolke 116 enthaltenen Umgebungspunkte werden in Bildkoordinaten transformiert, wodurch die Punktwolke in Bildkoordinaten 118 bereitgestellt wird. In addition, according to FIG. 1, a point cloud 116 is provided by an environment sensor (not shown) in sensor coordination of the environment sensor. The surrounding points contained in the point cloud 116 are transformed into image coordinates, as a result of which the point cloud is provided in image coordinates 118 .
Die Punktwolke in Bildkoordinaten 118 und das hochgesampelte semantische Bild 108 werden durch Pixel-Mapping zu der Umgebungsinformation 120 zusammengeführt. Die Umgebungsinformation 120 ist eine semantische Punktwolke, d.h. jedem Umgebungspunkt der Punktwolke 116 wird die semantische Information des Pixels des hochgesampelten semantischen Bildes 108 zugeordnet, der seiner Position in Bildkoordinaten entspricht. The point cloud in image coordinates 118 and the upsampled semantic image 108 are merged into the environment information 120 by pixel mapping. The environmental information 120 is a semantic point cloud, i.e. each environmental point of the point cloud 116 is assigned the semantic information of the pixel of the upsampled semantic image 108, which corresponds to its position in image coordinates.
Das Upsampling ist dabei ressourcenintensiv, da dieser Schritt mit der Anzahl der Pixel (= Fl * B) der Bildinformation 100 skaliert. Weiterhin ist das Übertragen großer Datenmengen aufgrund vieler Schreib-Operationen ressourcenintensiv, und erzeugt oft Latenzen, welche unerwünscht sind. Aber nicht nur Schreib-Operationen, sondern auch die Datenstruktur muss in Pakete verpackt werden, siehe zum Beispiel TCP/IP Protokoll, und auf der Gegenseite, meist der ECU, wieder dekodiert und zur Orginal- Datenstruktur zusammengesetzt werden. Auch das lesen, sowie die verwendeten Netzwerk- Ressourcen, können das System limitieren. The upsampling is resource-intensive, since this step scales with the number of pixels (=Fl * B) of the image information 100 . Furthermore, the transfer is great Amounts of data are resource-intensive due to many write operations and often generate latencies that are undesirable. But not only write operations, but also the data structure has to be packed in packets, see TCP/IP protocol for example, and decoded again on the opposite side, usually the ECU, and assembled to form the original data structure. Reading and the network resources used can also limit the system.
Ausgehend von dem oben genannten Stand der Technik liegt der Erfindung somit die Aufgabe zugrunde, ein Verfahren zum Erzeugen von Umgebungsinformation einer Umgebung eines Fahrzeugs mit einem Fahrunterstützungssystem, das wenigstens einen Umgebungssensor und eine optische Kamera aufweist, sowie ein solches Fahrunterstützungssystem anzugeben, die eine effiziente und zuverlässige Erzeugung von Umgebungsinformation mit geometrischen und semantischen Informationen ermöglichen. Proceeding from the above-mentioned prior art, the invention is therefore based on the object of specifying a method for generating information about the surroundings of a vehicle with a driving assistance system that has at least one surroundings sensor and an optical camera, as well as such a driving assistance system that provides an efficient and enable reliable generation of environment information with geometric and semantic information.
Die Lösung der Aufgabe erfolgt erfindungsgemäß durch die Merkmale der unabhängigen Ansprüche. Vorteilhafte Ausgestaltungen der Erfindung sind in den Unteransprüchen angegeben. The object is achieved according to the invention by the features of the independent claims. Advantageous refinements of the invention are specified in the dependent claims.
Erfindungsgemäß ist somit ein Verfahren zum Erzeugen von Umgebungsinformation einer Umgebung eines Fahrzeugs mit einem Fahrunterstützungssystem, das wenigstens einen Umgebungssensor und eine optische Kamera aufweist, angegeben, umfassend die Schritte Erfassen von Bildinformation der Umgebung des Fahrzeugs mit der optischen Kamera, Erfassen von einer Punktwolke der Umgebung des Fahrzeugs mit einer Mehrzahl Umgebungspunkte mit dem wenigstens einen Umgebungssensor, Erzeugen eines semantischen Bildes der Umgebung des Fahrzeugs basierend auf der Bildinformation, die einem neuronalen Netz zugeführt wird, insbesondere einem konvolutioneilen Neuronalen Netz, besonders bevorzugt einem vollständig konvolutioneilen Neuronalen Netz, FCN, mit einem gegenüber der Bildinformation reduzierten Anzahl Bildpunkten, Abbilden der Umgebungspunkte der Punktwolke unmittelbar auf Positionen in dem semantischen Bild, und Erzeugen der Umgebungsinformation durch Zuordnen der semantischen Information für jeden Umgebungspunkt der Punktwolke basierend auf der Abbildung des jeweiligen Umgebungspunkts auf die entsprechende Position in dem semantischen Bild. Erfindungsgemäß ist außerdem ein Fahrunterstützungssystem zum Erzeugen von Umgebungsinformation einer Umgebung eines Fahrzeugs angegeben mit wenigstens einen Umgebungssensor, einer optischen Kamera, einer Steuereinheit, und einer Datenverbindung, über die der wenigstens eine Umgebungssensor, die optische Kamera und die Steuereinheit miteinander verbunden sind, wobei das Fahrunterstützungssystem ausgeführt ist, das obige Verfahren durchzuführen. According to the invention, a method for generating information about the surroundings of a vehicle with a driving support system that has at least one surroundings sensor and an optical camera is specified, comprising the steps of capturing image information of the surroundings of the vehicle with the optical camera, capturing a point cloud of the environment of the vehicle with a plurality of surrounding points with the at least one surrounding sensor, generating a semantic image of the surrounding of the vehicle based on the image information that is supplied to a neural network, in particular a convolutional neural network, particularly preferably a fully convolutional neural network, FCN, with a compared to the image information reduced number of pixels, mapping the surrounding points of the point cloud directly to positions in the semantic image, and generating the environment information by assigning the semantic information for each environment point of the point cloud based on the mapping of the respective surrounding point to the corresponding position in the semantic image. According to the invention, a driving support system for generating information about the surroundings of a vehicle is also specified, with at least one surroundings sensor, an optical camera, a control unit, and a data connection via which the at least one surroundings sensor, the optical camera and the control unit are connected to one another, the driving support system is designed to carry out the above method.
Grundidee der vorliegenden Erfindung ist es also, durch eine Abbildung der Umgebungspunkte auf die Positionen in dem semantischen Bild eine effiziente Bestimmung der semantischen Information für alle Umgebungspunkte der Punktwolke durchzuführen, ohne dass ein Upsampling des semantischen Bildes erforderlich wäre. Dies ist einerseits vorteilhaft, weil die Bildinformation typischerweise deutlich mehr Bildpunkte (Pixel) enthält als Umgebungspunkte in der Punktwolke enthalten sind, und somit nur eine Verarbeitung für die geringe Anzahl Umgebungspunkte erfolgt, anstatt eine größere Anzahl Bildpunkte für ein hochgesampeltes semantisches Bild zu erzeugen. Außerdem stellt das Upsampling des semantischen Bildes einen ressourcenintensiven Verarbeitungsschritt dar. The basic idea of the present invention is therefore to carry out an efficient determination of the semantic information for all surrounding points of the point cloud by mapping the surrounding points to the positions in the semantic image, without upsampling of the semantic image being necessary. On the one hand, this is advantageous because the image information typically contains significantly more picture elements (pixels) than surrounding points are contained in the point cloud, and thus only the small number of surrounding points is processed instead of generating a larger number of picture elements for a highly sampled semantic image. In addition, the upsampling of the semantic image represents a resource-intensive processing step.
Dabei kann die gesamte erfasste Bildinformation verwendet werden, um die semantischen Informationen zu erzeugen. Gleichzeitig können Teile der Bildinformation, die nicht für die Zuordnung der semantischen Information zu den Umgebungspunkten erforderlich sind, nicht weiter verarbeitet werden, um Ressourcen zu sparen. Dabei ist auch zu berücksichtigen, dass ein Upsampling, wie es im Stand der Technik durchgeführt wird, keine zusätzliche Information generiert, sondern die vorhandene Information nur anders darstellt. Durch das Abbilden der Umgebungspunkte der Punktwolke unmittelbar auf Positionen in dem semantischen Bild können somit die in dem semantischen Bild enthaltenen Informationen vollständig genutzt werden, ohne dass ein Nachteil gegenüber dem im Stand der Technik verwendeten Mapping auf das hochgesampelte semantische Bild entsteht. Aufgrund der Winkelabstände zwischen den Umgebungspunkten und der daraus resultierenden geringen Anzahl von Umgebungspunkten verglichen mit den Pixeln der Bildinformation ist die meiste Information eines hochgesampelten semantischen Bildes redundant und wird für eine Übertragung der semantischen Information auf die Umgebungspunkte der Punktwolke nicht benötigt. Auch ist alleine die Datenmenge des hochgesampelten semantischen Bildes mit der Dimension (Fl * B * max(K)) verglichen mit dem „originalen“ semantischen Bild mit der Dimension (H/N * B/M * max(K)) wesentlich größer, was erfindungsgemäß zu einer Reduktion des Speicherbedarfs um einen Faktor 1 / (N * M) führt. In this case, the entire captured image information can be used to generate the semantic information. At the same time, parts of the image information that are not required for assigning the semantic information to the surrounding points cannot be processed further in order to save resources. In this context, it must also be taken into account that upsampling, as is carried out in the prior art, does not generate any additional information, but merely represents the existing information differently. By mapping the surrounding points of the point cloud directly to positions in the semantic image, the information contained in the semantic image can thus be fully used without a disadvantage arising compared to the mapping to the highly sampled semantic image used in the prior art. Due to the angular distances between the surrounding points and the resulting small number of surrounding points compared to the pixels of the image information, most of the information in a highly sampled semantic image is redundant and is not required for transferring the semantic information to the surrounding points of the point cloud. Also, the amount of data of the upsampled semantic image with the dimension (Fl * B * max(K)) alone is compared with the "original" semantic Image with the dimension (H/N * W/M * max(K)) is significantly larger, which, according to the invention, leads to a reduction in memory requirements by a factor of 1/(N * M).
Die Umgebungsinformation betrifft Information, welche die Umgebung definiert, um insbesondere Hindernisse oder potentielle Gefahren für das Fahrzeug zu entdecken. Dazu wird die Umgebungsinformation mit geometrischen Informationen und mit semantischen Informationen gebildet. Geometrische Informationen betreffen eine Verödung von Objekten und Strukturen in der Umgebung, und semantische Informationen eine Zuordnung von verschiedenen Kategorien zu den Objekten und Strukturen. The environment information refers to information that defines the environment, in particular to discover obstacles or potential dangers for the vehicle. For this purpose, the environmental information is formed with geometric information and with semantic information. Geometric information relates to a desertification of objects and structures in the environment, and semantic information to an assignment of different categories to the objects and structures.
Die Umgebung des Fahrzeugs ist ein Bereich, der von der optischen Kamera und dem wenigstens einen Umgebungssensor erfasst wird. Die Umgebung kann somit abhängig von der Art und Anzahl der an dem Fahrzeug angebrachten optischen Kameras und Umgebungssensoren und deren Ausrichtung vollumfänglich erfasst werden, d.h. 360° um das Fahrzeug, oder nur in einem Teilbereich, beispielsweise in einem Blickfeld mit 90° bis 180° in Fahrtrichtung. Der Bereich erstreckt sich typischerweise bis zu einer Entfernung von 100 oder 200 Metern von dem Fahrzeug, kann aber auch eine größere oder geringere Erstreckung aufweisen. Die Erstreckung ist insbesondere nicht größer als eine Reichweite des wenigstens einen Umgebungssensors bzw. der optischen Kamera. The surroundings of the vehicle is an area that is captured by the optical camera and the at least one surroundings sensor. Depending on the type and number of optical cameras and environmental sensors attached to the vehicle and their orientation, the environment can be recorded in full, i.e. 360° around the vehicle, or only in a partial area, for example in a field of view with 90° to 180° in driving direction. The range typically extends to a distance of 100 or 200 meters from the vehicle, but can also be greater or lesser in extent. In particular, the extent is not greater than a range of the at least one environmental sensor or the optical camera.
Das Fahrunterstützungssystem kann ausgeführt sein, beliebige Unterstützungsfunktionen für das Fahren des Fahrzeugs bzw. mit dem Fahrzeug bereitzustellen. Dabei kann es sich um Fahrerassistenzsysteme, die einem menschlichen Fahrer beim Führen des Fahrzeugs assistieren, wie auch eine Bereitstellung von Funktionalitäten zur Durchführung von autonomen oder teilautonomen Fahrfunktionen handeln. Verschiedene Fahrerassistenzsysteme sind beispielsweise unter dem Begriff ADAS (Advanced Driver Assistance Systems) bekannt. The driving support system can be designed to provide any support functions for driving the vehicle or with the vehicle. This can involve driver assistance systems that assist a human driver in driving the vehicle, as well as the provision of functionalities for carrying out autonomous or semi-autonomous driving functions. Various driver assistance systems are known, for example, under the term ADAS (Advanced Driver Assistance Systems).
Das Erfassen der Bildinformation der Umgebung des Fahrzeugs mit der optischen Kamera umfasst ein Erzeugen von einer zweidimensionalen Matrix mit Bildpunkten, die auch als Pixel bezeichnet werden. Typische Auflösungen der optischen Kameras liegen im Bereich von einem Megapixel oder mehr pro Bild. Typischerweise wird die Bildinformation laufend neu bereitgestellt, beispielsweise nach der Art eines Videostreams mit aufeinanderfolgenden Einzelbildern, welche jeweils die Bildinforamtion bilden. Die Bildinformation wird von der optischen Kamera vorzugsweise mit Farbinformationen für die einzelnen Pixel bereitgestellt. Optische Kameras haben typischerweise einen Blickwinkel von weniger als 180°, so dass zur Überwachung der Umgebung in einem Winkel von mehr als 360° Bildinformation von mehreren optischen Kameras gemeinsam verarbeitet werden muss. Entsprechend kann das Fahrunterstützungssystem mehrere optische Kameras umfassen, wobei beispielsweise eine Kamera an jeder Seite des Fahrzeugs angeordnet ist. Capturing the image information of the surroundings of the vehicle with the optical camera includes generating a two-dimensional matrix with image points, which are also referred to as pixels. Typical resolutions of optical cameras are in the range of one megapixel or more per image. Typically, the image information is continuously provided anew, for example in the manner of a Video streams with consecutive frames, which each form the image information. The image information is preferably provided by the optical camera with color information for the individual pixels. Optical cameras typically have a viewing angle of less than 180°, so that in order to monitor the surroundings at an angle of more than 360°, image information from a number of optical cameras must be processed together. Correspondingly, the driving support system can comprise a plurality of optical cameras, for example one camera being arranged on each side of the vehicle.
Das Erfassen von einer Punktwolke der Umgebung des Fahrzeugs stellt die Punktwolke mit einer Mehrzahl Umgebungspunkten bereit. Jeder der Umgebungspunkte ist durch seine Winkelposition in Bezug auf den Umgebungssensor und einen dazugehörigen Entfernungswert definiert. Die Umgebungspunkte geben somit Positionen von Objekten oder Strukturen in der Umgebung des Fahrzeugs an. Die Punktwolke wird von dem wenigstens einen Umgebungssensor über die Datenverbindung an die Steuereinheit übertragen. Bei LiDAR-basierten Umgebungssensoren werden beispielsweise diskrete Laserpulse in einem Winkelabstand von beispielsweise etwa 0,1 Grad in der horizontalen Richtung ausgesendet. Aber es gibt auch andere Lidar-Technologien, welche mit kontinuierlicher Beleuchtung arbeiten. Die hier beschriebene Erfindung kann in beiden Fällen angewendet werden. Reflektion der ausgesendeten Laserpulse werden von dem LiDAR-basierten Umgebungssensor empfangen, und aus einer Laufzeit vom Aussenden des Laserpulses bis zum Empfang der dazugehörigen Reflektion kann der Entfernungswert für den jeweiligen Umgebungspunkt bestimmt werden. Der LiDAR- basierte Umgebungssensor kann die Laserpulse in einer oder mehreren Scanebenen aussenden, wobei der Winkelabstand in vertikaler Richtung bei der Verwendung an Fahrzeugen größer ist als in horizontaler Richtung. Die Details in Bezug auf Winkelabstände in horizontaler und vertikaler Richtung wie auch eine Gesamtzahl von Scanebenen ist abhängig vom jeweiligen LiDAR-basierten Umgebungssensor. Bei aktuellen LiDAR-basierten Umgebungssensoren kann für jeden der Umgebungspunkte zusätzliche Information bereitgestellt werden, beispielsweise als Intensitätswerte der empfangenen Reflektionen. Capturing a point cloud surrounding the vehicle provides the point cloud with a plurality of surrounding points. Each of the environmental points is defined by its angular position with respect to the environmental sensor and an associated distance value. The environmental points thus indicate the positions of objects or structures in the area surrounding the vehicle. The point cloud is transmitted from the at least one environmental sensor to the control unit via the data connection. In the case of LiDAR-based environmental sensors, for example, discrete laser pulses are emitted at an angular spacing of, for example, approximately 0.1 degrees in the horizontal direction. But there are other lidar technologies that work with continuous illumination. The invention described here can be applied in both cases. Reflections of the emitted laser pulses are received by the LiDAR-based environmental sensor, and the distance value for the respective environmental point can be determined from a transit time from the emission of the laser pulse to the receipt of the associated reflection. The LiDAR-based environmental sensor can emit the laser pulses in one or more scan planes, with the angular distance in the vertical direction being greater than in the horizontal direction when used on vehicles. The details regarding angular distances in horizontal and vertical directions as well as a total number of scan planes depends on the respective LiDAR-based environmental sensor. With current LiDAR-based environmental sensors, additional information can be provided for each of the environmental points, for example as intensity values of the received reflections.
Das Erzeugen eines semantischen Bildes der Umgebung des Fahrzeugs erfolgt basierend auf der Bildinformation, die dem neuronalen Netz zugeführt wird, insbesondere einem konvolutioneilen Neuronalen Netz, besonders bevorzugt einem vollständig konvolutioneilen Neuronalen Netz, FCN, mit einer gegenüber der Bildinformation reduzierten Anzahl Bildpunkten. Die Bildinformation wird von der optischen Kamera über die Datenverbindung an die Steuereinheit übertragen und dort automatisch verarbeitet. Entsprechende Implementierungen zur semantischen Segmentierung von Bildinformation sind als solche bekannt und können beispielsweise unter Verwendung des neuronalen Netzes implementiert werden, wobei das neuronale Netz vorab entsprechend trainiert werden muss, um für das Fahren mit dem Fahrzeug und die Fahrunterstützung durch das Fahrunterstützungssystem relevante semantische Informationen zu erkennen. Bei der Verarbeitung der Bildinformation in dem neuronalen Netz wird typischerweise die Auflösung reduziert, so dass das semantische Bild weniger Bildpunkte aufweist als die Bildinformation, die dem neuronalen Netz zugeführt wird.A semantic image of the surroundings of the vehicle is generated based on the image information that is supplied to the neural network, in particular a convolutional neural network, particularly preferably one Completely convolutional neural network, FCN, with a reduced number of pixels compared to the image information. The image information is transmitted from the optical camera to the control unit via the data connection and processed there automatically. Corresponding implementations for the semantic segmentation of image information are known as such and can be implemented, for example, using the neural network, the neural network having to be trained accordingly in advance in order to recognize relevant semantic information for driving the vehicle and the driving support by the driving support system . When processing the image information in the neural network, the resolution is typically reduced, so that the semantic image has fewer pixels than the image information that is supplied to the neural network.
Das semantische Bild umfasst typischerweise für jeden Bildpunkt Konfidenzwerte für verschiedene Klassen von Objekten, die in der Bildinformation erkannt werden sollen, beispielsweise PKW, LKW, Fußgänger, Fahrrad, Baum, Ampel oder ähnliche. For each pixel, the semantic image typically includes confidence values for different classes of objects that are to be recognized in the image information, for example cars, trucks, pedestrians, bicycles, trees, traffic lights or the like.
Das Abbilden der Umgebungspunkte der Punktwolke unmittelbar auf Positionen in dem semantischen Bild erfolgt in der Steuereinheit. Für jeden Umgebungspunkt wird eine Position in dem semantischen Bild bestimmt. Die Position ist bei zweidimensionalen Bilder durch einen zweidimensionalen Vektor definiert. Dabei kann abhängig von der Auflösung des semantischen Bildes prinzipiell eine Zuordnung der Umgebungspunkte zu einzelnen Bildpunkten des semantischen Bildes erfolgen. Vorzugsweise wird jedoch für jeden Umgebungspunkt die Position in dem semantischen Bild mit reellen Werten angegeben, d.h. es werden Positionen zwischen Mittelpunkten der einzelnen Bildpunkte des semantischen Bildes bestimmt, beispielsweise als Fließkommawerte. The mapping of the surrounding points of the point cloud directly to positions in the semantic image takes place in the control unit. A position in the semantic image is determined for each surrounding point. In the case of two-dimensional images, the position is defined by a two-dimensional vector. Depending on the resolution of the semantic image, the surrounding points can in principle be assigned to individual pixels of the semantic image. However, the position in the semantic image is preferably specified for each surrounding point with real values, i.e. positions between centers of the individual pixels of the semantic image are determined, for example as floating point values.
Das Erzeugen der Umgebungsinformation erfolgt durch Zuordnen von semantischer Information des semantischen Bildes zu jedem Umgebungspunkt der Punktwolke basierend auf der Abbildung des jeweiligen Umgebungspunkts auf die entsprechende Position in dem semantischen Bild. Es wird also ein Mapping der semantischen Information an der ermittelten Position jedes Umgebungspunkts zu diesem Umgebungspunkt durchgeführt. Die semantische Information eines Umgebungspunkts kann durch die semantische Information eines einzelnen Bildpunkts des semantischen Bildes oder durch die semantische Information mehrerer Bildpunkte des semantischen Bildes in Kombination gebildet werden. Die Steuereinheit umfasst wenigstens einen Prozessor und einen Speicher, um ein Programm zur Durchführung einer Unterstützungsfunktion des Fahrunterstützungssystems auszuführen. Die Steuereinheit verarbeitet die von dem wenigstens einen Umgebungssensor erfasste Punktwolke und die von der optischen Kamera erfasste Bildinformation und erzeugt darauf basierend die Umgebungsinformation. The environmental information is generated by assigning semantic information of the semantic image to each environmental point of the point cloud based on the mapping of the respective environmental point to the corresponding position in the semantic image. A mapping of the semantic information is therefore carried out at the determined position of each environmental point relative to this environmental point. The semantic information of a surrounding point can be formed by the semantic information of a single pixel of the semantic image or by the semantic information of a plurality of pixels of the semantic image in combination. The control unit includes at least one processor and one memory in order to execute a program for carrying out a support function of the driving support system. The control unit processes the point cloud captured by the at least one environment sensor and the image information captured by the optical camera and generates the environment information based thereon.
Die Datenverbindung ist beispielsweise nach der Art eines im Automobilbereich üblichen Bussystems ausgeführt. Verschiedene Bussysteme wie CAN, FlexRay, LIN oder andere sind in diesem Zusammenhang bekannt. Für die typischen Datenmengen wird allerdings meist BR Ethernet bzw. LVDS für Kameras verwendet. The data connection is designed, for example, in the manner of a bus system that is customary in the automotive sector. Various bus systems such as CAN, FlexRay, LIN or others are known in this context. For the typical amounts of data, however, BR Ethernet or LVDS for cameras is usually used.
In vorteilhafter Ausgestaltung der Erfindung umfasst das Verfahren einen Schritt zum zeitlichen Synchronisieren des Erfassens der Bildinformation mit der optischen Kamera und des Erfassens der Punktwolke mit dem wenigstens einen Umgebungssensor. Die zeitliche Synchronisation stellt sicher, dass die Bildinformation und die Punktwolke zueinander korrespondiere Information enthalten, so dass eine korrekte Zuordnung der semantischen Information für jeden Umgebungspunkt der Punktwolke durchgeführt werden kann. Das zeitliche Synchronisieren des Erfassens der Bildinformation mit der optischen Kamera und des Erfassens der Punktwolke mit dem wenigstens einen Umgebungssensor kann auf unterschiedliche Arten realisiert werden. So kann beispielsweise ein synchronisierter Betrieb der optischen Kamera und des wenigstens einen Umgebungssensors durchgeführt werden, so dass die Bildinformation und die Punktwolke im Wesentlichen gleichzeitig erzeugt werden. Alternativ oder zusätzlich kann das zeitliche Synchronisieren eine Bereitstellung einer gemeinsamen Zeitbasis umfassen, so dass der Bildinformation und der Punktwolke ein Zeitstempel zugeordnet werden kann. Dabei können prinzipielle Unterschiede beim Erfassen der Bildinformation mit der optischen Kamera und beim Erfassen der Punktwolke mit dem wenigstens einen Umgebungssensor zu berücksichtigen sein. So erfasst die optische Kamera die Bildinformation über eine Zeitdauer, die klassischerweise als „Belichtungszeit“ bezeichnet wird, um eine ausreichende Lichtmenge mit ihrem Sensor zu erfassen. Demgegenüber kann die Punktwolke auf unterschiedliche Weise erfasst werden. Beispielsweise sind LiDAR-basierte Umgebungssensoren bekannt, die als Flash-LiDAR eine gleichzeitige Erfassung der gesamten Punktwolke oder von Bereichen der Punktwolke ermöglichen. Weiterhin sind LiDAR-basierte Umgebungssensoren bekannt, die eine Erfassung der Punktwolke in Spalten oder Zeilen ermöglichen. Außerdem sind noch LiDAR-basierte Umgebungssensoren mit einer individuellen Erfassung jedes Umgebungspunkts der Punktwolke bekannt. Somit kann sich die Erfassung der Punktwolke über unterschiedlich lange Zeitintervalle erstrecken. Entsprechendes gilt prinzipiell für Radarsensoren. In an advantageous embodiment of the invention, the method includes a step for temporally synchronizing the acquisition of the image information with the optical camera and the acquisition of the point cloud with the at least one environmental sensor. The temporal synchronization ensures that the image information and the point cloud contain information that corresponds to one another, so that the semantic information can be correctly assigned for each point surrounding the point cloud. The temporal synchronization of the capturing of the image information with the optical camera and the capturing of the point cloud with the at least one environmental sensor can be implemented in different ways. For example, the optical camera and the at least one environmental sensor can be operated in a synchronized manner, so that the image information and the point cloud are generated essentially simultaneously. Alternatively or additionally, the temporal synchronization can include providing a common time base, so that a time stamp can be assigned to the image information and the point cloud. In this case, fundamental differences can have to be taken into account when capturing the image information with the optical camera and when capturing the point cloud with the at least one environmental sensor. In this way, the optical camera captures the image information over a period of time that is classically referred to as the "exposure time" in order to capture a sufficient amount of light with its sensor. In contrast, the point cloud can be recorded in different ways. For example, LiDAR-based environmental sensors are known which, as flash LiDAR, enable the entire point cloud or areas of the point cloud to be recorded simultaneously. Furthermore, LiDAR-based environmental sensors are known which allow the point cloud to be recorded in columns or rows. In addition, LiDAR-based environmental sensors with an individual detection of each environmental point of the point cloud are known. Thus, the acquisition of the point cloud can extend over time intervals of different lengths. The same applies in principle to radar sensors.
Außerdem kann es vorteilhaft sein, eine zeitliche Interpolation durchzuführen, um die Bildinformation und die Punktwolke ausgehend von realen Zeitpunkten der jeweiligen Erfassung auf einen gemeinsamen Zeitpunkt zurückzurechnen und so synchrone Bildinformationen und Punktwolken bereitzustellen. In addition, it can be advantageous to carry out a temporal interpolation in order to calculate the image information and the point cloud back to a common point in time, starting from real times of the respective acquisition, and in this way to provide synchronous image information and point clouds.
In vorteilhafter Ausgestaltung der Erfindung umfasst das Verfahren einen Schritt zum Ermitteln einer festen Abbildungsregel der Umgebungspunkte der Punktwolke auf Positionen in dem semantischen Bild, und das Abbilden der Umgebungspunkte der Punktwolke unmittelbar auf Positionen in dem semantischen Bild umfasst ein Abbilden der Umgebungspunkte der Punktwolke auf die Positionen in dem semantischen Bild mit der festen Abbildungsregel der Umgebungspunkte der Punktwolke auf Positionen in dem semantischen Bild. Das Abbilden der Umgebungspunkte der Punktwolke auf die Positionen in dem semantischen Bild mit der festen Abbildungsregel kann sehr effizient und mit einem geringen Rechenaufwand verglichen mit einem jeweils individuell durchgeführten Abbilden der Umgebungspunkte der Punktwolke auf die Positionen in dem semantischen Bild durchgeführt werden. Zusätzlich wird auch wenig Speicherplatz für das Abbilden benötigt. Es ist lediglich erforderlich, die feste Abbildungsregel einmal vorab zu bestimmen. Je geringer der Abstand zwischen dem wenigstens einen Umgebungssensor und der optischen Kamera ist, desto geringer ist typischerweise ein Abbildungsfehler der festen Abbildungsregel gegenüber einem jeweils individuell durchgeführten Abbilden der Umgebungspunkte der Punktwolke auf die Positionen in dem semantischen Bild. Daher ist es bevorzugt, dass der wenigstens eine Umgebungssensor und die optische Kamera mit einem geringen Abstand zueinander angebracht sind. Dadurch kann beispielsweise eine Transformation der Punktwolke in Sensorkoordinaten in Bildkoordinaten der optischen Kamera im Wesentlichen unabhängig von der Distanzmessung der jeweiligen Umgebungspunkte angenommen werden, so dass die Transformation bei einem typischerweise statischen Erfassungs- Muster des wenigstens einen Umgebungssensors näherungsweise konstant wird. Die feste Abbildungsregel kann beispielsweise in Form einer „Look-up-Table“ (Lut) in der Steuereinheit des Fahrunterstützungssystems gespeichert sein. Die Verwendung der Look-up-Table ermöglicht ein schnelles und effizientes Abbilden der Umgebungspunkte der Punktwolke unmittelbar auf die Positionen in dem semantischen Bild. In der Look- up-Table ist somit für alle Umgebungspunkte eine feste Abbildungsregel gespeichert. Vorzugsweise erfolgt ein zeitliches Synchronisieren des Erfassens der Bildinformation mit der optischen Kamera und des Erfassens der Punktwolke mit dem wenigstens einen Umgebungssensor. Dadurch werden Abbildungsfehler weiter reduziert. In an advantageous embodiment of the invention, the method includes a step for determining a fixed mapping rule for the points surrounding the point cloud to positions in the semantic image, and mapping the points surrounding the point cloud directly to positions in the semantic image includes mapping the points surrounding the point cloud to the positions in the semantic image with the fixed mapping rule of the surrounding points of the point cloud to positions in the semantic image. The mapping of the surrounding points of the point cloud to the positions in the semantic image using the fixed mapping rule can be carried out very efficiently and with little computational effort compared to individually implemented mapping of the surrounding points of the point cloud to the positions in the semantic image. In addition, little storage space is required for mapping. It is only necessary to determine the fixed mapping rule once in advance. The smaller the distance between the at least one environment sensor and the optical camera, the smaller typically is a mapping error of the fixed mapping rule compared to a respectively individually implemented mapping of the points around the point cloud to the positions in the semantic image. It is therefore preferred that the at least one environment sensor and the optical camera are mounted at a small distance from one another. As a result, for example, a transformation of the point cloud into sensor coordinates into image coordinates of the optical camera can be assumed essentially independently of the distance measurement of the respective surrounding points, so that the transformation is approximately constant for a typically static detection pattern of the at least one surrounding sensor. The fixed mapping rule can be in the form of a “look-up table” (Lut) in the Control unit of the driving support system to be stored. The use of the look-up table enables the surrounding points of the point cloud to be mapped quickly and efficiently directly to the positions in the semantic image. A fixed mapping rule is thus stored in the look-up table for all surrounding points. The acquisition of the image information with the optical camera and the acquisition of the point cloud with the at least one environmental sensor are preferably synchronized in time. This further reduces imaging errors.
In vorteilhafter Ausgestaltung der Erfindung umfasst das Abbilden der Umgebungspunkte der Punktwolke unmittelbar auf Positionen in dem semantischen Bild ein Interpolieren der Positionen in dem semantischen Bild auf Bildpunkte des semantischen Bildes. Die Interpolation ermöglicht eine exakte Bestimmung der semantischen Information für jeden Umgebungspunkt. Auch werden weiche Übergänge für die semantische Information benachbarter Umgebungspunkte ermöglicht. In an advantageous embodiment of the invention, the mapping of the surrounding points of the point cloud directly to positions in the semantic image includes an interpolation of the positions in the semantic image to pixels of the semantic image. The interpolation enables an exact determination of the semantic information for each point in the surrounding area. Soft transitions are also made possible for the semantic information of neighboring surrounding points.
In vorteilhafter Ausgestaltung der Erfindung umfasst das Interpolieren der Positionen in dem semantischen Bild auf Bildpunkte des semantischen Bildes ein bilineares Interpolieren, eine Nächste Nachbar Klassifikation, eine Verwendung einer Support Vector Maschine oder ein Anwenden eines Gauß-Prozesses. Entsprechende Verfahren zur Interpolation sind als solche im Stand der Technik bekannt. In an advantageous embodiment of the invention, the interpolation of the positions in the semantic image to pixels of the semantic image includes bilinear interpolation, nearest neighbor classification, use of a support vector machine or application of a Gaussian process. Corresponding methods for interpolation are known as such in the prior art.
In vorteilhafter Ausgestaltung der Erfindung umfasst das Abbilden der Umgebungspunkte der Punktwolke unmittelbar auf Positionen in dem semantischen Bild ein Abbilden der Umgebungspunkte der Punktwolke unmittelbar auf Positionen in dem semantischen Bild basierend auf einem oder mehreren Parametern aus einer extrinsischen Kalibrierung der optischen Kamera, einer intrinsischen Kalibrierung der optischen Kamera, einer Position des wenigstens einen Umgebungssensors, einer Pose des wenigstens einen Umgebungssensors und einem Abstand der entsprechenden Umgebungspunkte der Punktwolke von dem wenigstens einen Umgebungssensor. Es kann beispielsweise zunächst eine Transformation der Umgebungspunkte, wie sie von dem Umgebungssensor in Sensorkoordination erfasst werden, in Bildkoordinaten erfolgen, so dass nachfolgend ein einfaches Abbilden der Umgebungspunkte in Bildkoordinaten auf die Positionen in dem semantischen Bild erfolgen kann. Durch die Berücksichtigung der verschiedenen Parameter kann ein zuverlässiges Abbilden der Umgebungspunkte der Punktwolke unmittelbar auf Positionen in dem semantischen Bild erfolgen. In an advantageous embodiment of the invention, the mapping of the points surrounding the point cloud directly to positions in the semantic image includes mapping the points surrounding the point cloud directly to positions in the semantic image based on one or more parameters from an extrinsic calibration of the optical camera, an intrinsic calibration of the optical camera, a position of the at least one environmental sensor, a pose of the at least one environmental sensor and a distance of the corresponding environmental points of the point cloud from the at least one environmental sensor. For example, the surrounding points, as detected by the surrounding sensor in sensor coordination, can first be transformed into image coordinates, so that the surrounding points can then be simply mapped in image coordinates to the positions in the semantic image. By considering the various parameters, a reliable mapping of the Surrounding points of the point cloud take place directly on positions in the semantic image.
In vorteilhafter Ausgestaltung der Erfindung umfasst das Verfahren einen zusätzlichen Schritt zum Erzeugen einer Umgebungskarte basierend auf der Umgebungsinformation mit der semantischen Information für jeden Umgebungspunkt der Punktwolke. Die Umgebungskarte umfasst einen Bereich um das Fahrzeug und kann einfach von verschiedenen Fahrunterstützungsfunktionen des Fahrzeugs verwendet werden. Die Umgebungspunkte werden mit der semantischen Information in der Umgebung des Fahrzeugs markiert. Dadurch kann die Umgebungskarte beispielsweise nach der Art einer Gitterbelegungskarte erzeugt werden, in der einzelne Gitterelemente basierend auf den Umgebungspunkten mit deren semantischen Information belegt werden. In an advantageous embodiment of the invention, the method includes an additional step for generating an environment map based on the environment information with the semantic information for each environment point of the point cloud. The environment map covers an area around the vehicle and can easily be used by various driving support functions of the vehicle. The environment points are marked with the semantic information in the environment of the vehicle. As a result, the surroundings map can be generated, for example, in the manner of a grid occupancy map, in which individual grid elements are covered with their semantic information based on the surrounding points.
In vorteilhafter Ausgestaltung der Erfindung ist der wenigstens eine Umgebungssensor als LiDAR-basierter Umgebungssensor und/oder als Radarsensor ausgeführt. Entsprechende Umgebungssensoren sind als solche bekannt und werden bereits vielfach verwendet. Auch eine Kombination von mehreren Umgebungssensoren und/oder mehreren optischen Kameras kann durchgeführt werden, um beispielsweise einen großen Bereich der Umgebung des Fahrzeugs zu erfassen. Abhängig von der Art der Umgebungssensoren kann es vorteilhaft sein, sensorabhängige Parameter wie beispielsweise eine räumliche Unsicherheit von Radarsensoren beim Abbilden der Umgebungspunkte der Punktwolke unmittelbar auf Positionen in dem semantischen Bild zu berücksichtigen. In an advantageous embodiment of the invention, the at least one environmental sensor is designed as a LiDAR-based environmental sensor and/or as a radar sensor. Corresponding environmental sensors are known as such and are already widely used. A combination of a plurality of environment sensors and/or a plurality of optical cameras can also be carried out in order, for example, to capture a large area of the vehicle's surroundings. Depending on the type of environmental sensors, it can be advantageous to take into account sensor-dependent parameters such as spatial uncertainty of radar sensors when mapping the environmental points of the point cloud directly to positions in the semantic image.
In vorteilhafter Ausgestaltung der Erfindung sind der wenigstens eine Umgebungssensor und die optische Kamera als Sensoreinheit ausgeführt zur gemeinsamen Anbringung als Sensoreinheit an dem Fahrzeug. Die gemeinsame Bereitstellung des wenigstens einen Umgebungssensors und der optischen Kamera ermöglicht eine einfache und schnelle Montage in einem Montageschritt. Außerdem wird eine kompakte Bereitstellung des wenigstens einen Umgebungssensors mit der optischen Kamera ermöglicht. Die Bereitstellung des wenigstens einen Umgebungssensors und der optischen Kamera als Sensoreinheit bewirkt typischerweise eine Anordnung des wenigstens einen Umgebungssensors und der optischen Kamera mit einem geringen Abstand zueinander, wodurch eine Verarbeitung der Punktwolke zusammen mit der Bildinformation vereinfacht wird. In vorteilhafter Ausgestaltung der Erfindung sind der wenigstens eine Umgebungssensor und die optische Kamera zur Anbringung mit einem geringen Abstand an dem Fahrzeug ausgeführt, und das Fahrunterstützungssystem ist ausgeführt, das obige Verfahren mit einem Schritt zum Ermitteln einer festen Abbildungsregel der Umgebungspunkte der Punktwolke auf Positionen in dem semantischen Bild durchzuführen, und das Abbilden der Umgebungspunkte der Punktwolke unmittelbar auf Positionen in dem semantischen Bild mit einem Abbilden der Umgebungspunkte der Punktwolke auf die Positionen in dem semantischen Bild mit der festen Abbildungsregel der Umgebungspunkte der Punktwolke auf Positionen in dem semantischen Bild durchzuführen. Je geringer der Abstand, desto geringere Abbildungsfehler treten auf bei der Verwendung der festen Abbildungsregel zum Abbilden der Umgebungspunkte der Punktwolke unmittelbar auf Positionen in dem semantischen Bild. In an advantageous embodiment of the invention, the at least one environment sensor and the optical camera are designed as a sensor unit for joint attachment as a sensor unit on the vehicle. The joint provision of the at least one environmental sensor and the optical camera enables simple and quick assembly in one assembly step. In addition, a compact provision of the at least one environmental sensor with the optical camera is made possible. The provision of the at least one environment sensor and the optical camera as a sensor unit typically causes the at least one environment sensor and the optical camera to be arranged at a small distance from one another, which simplifies processing of the point cloud together with the image information. In an advantageous embodiment of the invention, the at least one environment sensor and the optical camera are designed to be attached to the vehicle at a small distance, and the driving support system is designed to use the above method with a step for determining a fixed mapping rule of the surrounding points of the point cloud to positions in the to perform the semantic image, and to perform the mapping of the points surrounding the point cloud directly to positions in the semantic image with a mapping of the points surrounding the point cloud to the positions in the semantic image with the fixed mapping rule of the points surrounding the point cloud to positions in the semantic image. The smaller the distance, the fewer mapping errors occur when using the fixed mapping rule for mapping the points surrounding the point cloud directly onto positions in the semantic image.
In vorteilhafter Ausgestaltung der Erfindung weist die Steuereinheit eine Mehrzahl Datenverarbeitungseinheiten auf und ist ausgeführt, einen parallelen Betrieb zum Abbilden der Umgebungspunkte der Punktwolke unmittelbar auf Positionen in dem semantischen Bild und/oder zum Erzeugen der Umgebungsinformation durch Zuordnen der semantischen Information für jeden Umgebungspunkt der Punktwolke basierend auf der Abbildung des jeweiligen Umgebungspunkts auf die entsprechende Position in dem semantischen Bild durchzuführen. Die einzelnen Umgebungspunkte der Punktwolke sind unabhängig voneinander und können auch unabhängig voneinander verarbeitet werden. Für die parallele Informationsverarbeitung haben sich Grafikprozessoren (GPU) mit einer Mehrzahl paralleler Rechenkerne bewährt. Da es sich bei dem Abbilden der Umgebungspunkte der Punktwolke unmittelbar auf Positionen in dem semantischen Bild ebenfalls um eine grafische Funktion handelt, kann das Abbilden besonders effizient mit Grafikprozessoren durchgeführt werden. Entsprechendes gilt beispielsweise im Detail für eine Transformation der Umgebungspunkte in Sensorkoordinaten in Bildkoordination. In an advantageous embodiment of the invention, the control unit has a plurality of data processing units and is designed to operate in parallel to map the surrounding points of the point cloud directly to positions in the semantic image and/or to generate the surrounding information by assigning the semantic information for each surrounding point of the point cloud on the mapping of the respective environmental point to the corresponding position in the semantic image. The individual surrounding points of the point cloud are independent of one another and can also be processed independently of one another. Graphics processors (GPU) with a number of parallel computing cores have proven their worth for parallel information processing. Since the mapping of the surrounding points of the point cloud directly to positions in the semantic image is also a graphic function, the mapping can be carried out particularly efficiently with graphics processors. The same applies in detail, for example, to a transformation of the surrounding points into sensor coordinates into image coordinates.
Nachfolgend wird die Erfindung unter Bezugnahme auf die anliegende Zeichnung anhand bevorzugter Ausführungsformen näher erläutert. Die dargestellten Merkmale können sowohl jeweils einzeln als auch in Kombination einen Aspekt der Erfindung darstellen. Merkmale verschiedener Ausführungsbeispiele sind übertragbar von einemThe invention is explained in more detail below with reference to the attached drawing based on preferred embodiments. The features shown can be an aspect of the invention both individually and in combination represent. Features of different embodiments can be transferred from one
Ausführungsbeispiel auf ein anderes. embodiment to another.
Es zeigt It shows
Fig. 1 eine Ansicht eines Diagramms zur Erzeugung von Umgebungsinformation basierend auf einer Kombination von Bildinformation der Umgebung von einer optischen Kamera und einer Punktwolke der Umgebung mit einer Mehrzahl Umgebungspunkte von einem Umgebungssensor aus dem Stand der Technik, 1 shows a view of a diagram for generating environmental information based on a combination of image information of the environment from an optical camera and a point cloud of the environment with a plurality of environmental points from an environment sensor from the prior art,
Fig. 2 eine schematische Darstellung einer Verarbeitung der Bildinformation zur Erzeugung eines semantischen Bildes mit einem neuronalen Netz und zum Upsampling in Übereinstimmung mit Fig. 1 , FIG. 2 shows a schematic representation of processing of the image information for generating a semantic image with a neural network and for upsampling in accordance with FIG. 1 ,
Fig. 3 eine schematische Darstellung einer Verarbeitung des semantischen Bildes zum Upsampling in Übereinstimmung mit Fig. 1 , 3 shows a schematic representation of a processing of the semantic image for upsampling in accordance with FIG. 1 ,
Fig. 4 eine schematische Ansicht eines Fahrzeugs mit einemFig. 4 is a schematic view of a vehicle with a
Fahrunterstützungssystem mit einer Sensoreinheit umfassend einen LiDAR- basierten Umgebungssensor sowie eine optische Kamera sowie mit einer Steuereinheit, die über eine Datenverbindung miteinander verbunden sind, gemäß einer ersten, bevorzugten Ausführungsform, Driving support system with a sensor unit comprising a LiDAR-based environment sensor and an optical camera and with a control unit, which are connected to one another via a data connection, according to a first preferred embodiment,
Fig. 5 eine Ansicht eines Diagramms zur Erzeugung von Umgebungsinformation basierend auf einer Kombination von Bildinformation der Umgebung von der optischen Kamera und einer Punktwolke der Umgebung mit einer Mehrzahl Umgebungspunkte von dem Umgebungssensor mit dem Fahrunterstützungssystem aus Fig. 4, 5 shows a view of a diagram for generating environmental information based on a combination of image information of the environment from the optical camera and a point cloud of the environment with a plurality of environmental points from the environmental sensor with the driving support system from FIG. 4,
Fig. 6 eine schematische Darstellung einer Verarbeitung der Bildinformation zur Erzeugung eines semantischen Bildes in Übereinstimmung mit Fig. 5, Fig. 7 eine schematische Darstellung von Bildinformation mit einer Abbildung von Umgebungspunkten der Punktwolke und einer Hervorhebung identifizierter Objekte in der Bildinformation, 6 shows a schematic representation of processing of the image information to generate a semantic image in accordance with FIG. 5, 7 shows a schematic representation of image information with a depiction of surrounding points of the point cloud and a highlighting of identified objects in the image information,
Fig. 8 eine Detailansicht einer Abbildung eines Umgebungspunkts der Punktwolke aus Fig. 7 auf ein semantisches Bild, und FIG. 8 shows a detailed view of a mapping of a point surrounding the point cloud from FIG. 7 onto a semantic image, and
Fig. 9 ein Ablaufdiagramm zur Erzeugung der Umgebungsinformation basierend auf einer Kombination von Bildinformation der Umgebung von der optischen Kamera und einer Punktwolke der Umgebung mit einer Mehrzahl Umgebungspunkte von dem Umgebungssensor in Übereinstimmung mit der Darstellung aus Fig. 5. 9 shows a flow chart for generating the environmental information based on a combination of image information of the environment from the optical camera and a point cloud of the environment with a plurality of environmental points from the environmental sensor in accordance with the illustration from FIG. 5.
Die Figur 1 zeigt ein Fahrzeug 10 mit einem Fahrunterstützungssystem 12 gemäß einer ersten, bevorzugten Ausführungsform. FIG. 1 shows a vehicle 10 with a driving support system 12 according to a first preferred embodiment.
Das Fahrunterstützungssystem 12 kann ausgeführt sein, beliebige Unterstützungsfunktionen für das Fahren des Fahrzeugs 10 bzw. mit dem Fahrzeug 10 bereitzustellen. Dabei kann es sich um Fahrerassistenzsysteme, die einem menschlichen Fahrer beim Führen des Fahrzeugs 10 assistieren, wie auch eine Bereitstellung von Funktionalitäten zur Durchführung von autonomen oder teilautonomen Fahrfunktionen handeln. Verschiedene Fahrerassistenzsysteme sind beispielsweise unter dem Begriff ADAS (Advanced Driver Assistance Systems) bekannt. The driving support system 12 can be designed to provide any support functions for driving the vehicle 10 or with the vehicle 10 . This can involve driver assistance systems that assist a human driver in driving the vehicle 10, as well as the provision of functionalities for carrying out autonomous or semi-autonomous driving functions. Various driver assistance systems are known, for example, under the term ADAS (Advanced Driver Assistance Systems).
Das Fahrunterstützungssystem 12 umfasst eine Sensoreinheit 14 mit einem LiDAR- basierten Umgebungssensor 16 und einer optischen Kamera 18. Das Fahrunterstützungssystem 12 umfasst weiterhin eine Steuereinheit 20 und eine Datenverbindung 22, über die der LiDAR-basierte Umgebungssensor 16, die optische Kamera 18 und die Steuereinheit 20 miteinander verbunden sind. The driving assistance system 12 includes a sensor unit 14 with a LiDAR-based surroundings sensor 16 and an optical camera 18. The driving assistance system 12 also comprises a control unit 20 and a data connection 22 via which the LiDAR-based surroundings sensor 16, the optical camera 18 and the control unit 20 are connected to each other.
Die Sensoreinheit 14 ist ausgeführt zur gemeinsamen Anbringung des LiDAR-basierten Umgebungssensors 16 und der optischen Kamera 18 an dem Fahrzeug 10. Dadurch sind der LiDAR-basierte Umgebungssensor 16 und die optische Kamera 18 mit einem geringen Abstand zueinander an dem Fahrzeug 10 angebracht. Der LiDAR-basierte Umgebungssensor 16 ist ausgeführt, eine Umgebung 24 des Fahrzeugs 10 zu erfassen. Die Erfassung der Umgebung 24 erfolgt als Punktwolke 26 mit einer Mehrzahl Umgebungspunkten 28, die in mehreren Scanebenen 30 angeordnet sind, wie sich aus Figur 7 ergibt. Die Umgebungspunkte 28 werden erzeugt, indem Laserpulse ausgesendet und Reflektionen der ausgesendeten Laserpulse empfangen werden, so dass aus der sich ergebenden Laufzeit ein Entfernungswert bestimmt werden kann. Jeder der Umgebungspunkte 28 ist durch seine Winkelposition in Bezug auf den LiDAR-basierten Umgebungssensor 16 und den dazugehörigen Entfernungswert definiert. In jeder Scanebene 30 werden die Laserpulse mit einem gleichmäßigen Winkelabstand ausgesendet. Es gibt aber auch LiDAR basierte Umgebungssensoren die in der Mitte einen Beriech besitzen, der höher auflöst. Zum Beispiel 0.125 Grad im Vergleich zu 0.25 Grad in den Außenbereichen. The sensor unit 14 is designed for joint attachment of the LiDAR-based surroundings sensor 16 and the optical camera 18 to the vehicle 10. As a result, the LiDAR-based surroundings sensor 16 and the optical camera 18 are attached to the vehicle 10 at a small distance from one another. The LiDAR-based environment sensor 16 is designed to capture an environment 24 of the vehicle 10 . The surroundings 24 are recorded as a point cloud 26 with a plurality of surrounding points 28 which are arranged in a plurality of scan planes 30, as can be seen from FIG. The surrounding points 28 are generated in that laser pulses are emitted and reflections of the emitted laser pulses are received, so that a distance value can be determined from the resulting propagation time. Each of the environmental points 28 is defined by its angular position in relation to the LiDAR-based environmental sensor 16 and the associated distance value. In each scan plane 30, the laser pulses are emitted with a uniform angular spacing. But there are also LiDAR-based environmental sensors that have an area in the middle that has a higher resolution. For example 0.125 degrees compared to 0.25 degrees in the outdoor areas.
Auch die optische Kamera 18 ist ausgeführt, die Umgebung 24 des Fahrzeugs 10 zu erfassen. Die Erfassung erfolgt in bekannter Weise basierend auf einer Punktmatrix mit einzelnen Bildpunkten, die auch als Pixel bezeichnet werden und jeweils eine Helligkeitsinformation und/oder Farbinformation umfassen. Die optische Kamera 18 stellt eine entsprechende Bildinformation 32 bereit, wie beispielhaft in den Figuren 6 und 7 dargestellt ist. Optical camera 18 is also designed to capture surroundings 24 of vehicle 10 . The detection takes place in a known manner based on a dot matrix with individual image points, which are also referred to as pixels and each include brightness information and/or color information. The optical camera 18 provides corresponding image information 32, as shown in FIGS. 6 and 7 by way of example.
Die Umgebung 24 des Fahrzeugs 10 ist ein Bereich, der von der optischen Kamera 18 und dem LiDAR-basierten Umgebungssensor 16 erfasst wird. Die Umgebung 24 soll hier beispielhaft ein Blickfeld mit 90° bis 180° in Fahrtrichtung aufweisen und sich bis zu einer Entfernung von 100 oder 200 Metern von dem Fahrzeug 10 erstrecken, wie sich allgemein in Übereinstimmung mit der Darstellung in Figur 7 ergibt. The environment 24 of the vehicle 10 is an area captured by the optical camera 18 and the LiDAR-based environment sensor 16 . Environment 24 should have a field of view of 90° to 180° in the direction of travel and extend up to a distance of 100 or 200 meters from vehicle 10, as is generally the case in accordance with the illustration in FIG.
Die Steuereinheit 20 umfasst einen Prozessor und einen Speicher, um ein Programm zur Durchführung einer Unterstützungsfunktion des Fahrunterstützungssystems 12 auszuführen, wie auch um das nachstehend beschriebene Verfahren durchzuführen.The control unit 20 includes a processor and a memory for executing a program for performing a support function of the driving support system 12 as well as for performing the method described below.
Die Steuereinheit 20 führt eine Ansteuerung des LiDAR-basierten Umgebungssensors 16 und/oder der optischen Kamera 16 durch und empfängt und verarbeitet von dem LiDAR-basierten Umgebungssensor 16 bereitgestellte Punktwolken 26 und von der optischen Kamera 18 bereitgestellte Bildinformation 32. Die Datenverbindung 22 ist beispielsweise nach der Art eines im Automobilbereich üblichen Bussystems ausgeführt. Verschiedene Bussysteme wie CAN, FlexRay, LIN oder andere sind in diesem Zusammenhang bekannt. The control unit 20 controls the LiDAR-based surroundings sensor 16 and/or the optical camera 16 and receives and processes point clouds 26 provided by the LiDAR-based surroundings sensor 16 and image information 32 provided by the optical camera 18. The data connection 22 is designed, for example, in the manner of a bus system that is customary in the automotive sector. Various bus systems such as CAN, FlexRay, LIN or others are known in this context.
Nachstehend wird unter Bezug auf die Figuren 5 bis 9 ein Verfahren zum Erzeugen von Umgebungsinformation 48 der Umgebung 24 des Fahrzeugs 10 mit dem oben unter Bezug auf Figur 4 beschriebenen Fahrunterstützungssystem 12 gemäß der ersten Ausführungsform beschrieben. Figur 9 zeigt ein Ablaufdiagramm des Verfahrens. A method for generating environmental information 48 of the environment 24 of the vehicle 10 with the driving support system 12 described above with reference to FIG. 4 according to the first specific embodiment is described below with reference to FIGS. FIG. 9 shows a flow chart of the method.
In Schritt S100 beginnt das Verfahren mit dem Ermitteln einer festen Abbildungsregel der Umgebungspunkte 28 der von dem LiDAR-basierten Umgebungssensor 16 erzeugten Punktwolke 26 auf Positionen in einem semantischen Bild. Im Allgemeinen wird man die Abbildungsregel dynamisch berechnen, da meist die Kameras und Lidare an unterschiedlichen Positionen eingebaut sind, und hierbei zu große Abbildungsfehler auftreten können. Dies kommt aber auch die spezielle Anwendung an. In step S100 the method starts with the determination of a fixed mapping rule of the surrounding points 28 of the point cloud 26 generated by the LiDAR-based surrounding sensor 16 on positions in a semantic image. In general, the mapping rule is calculated dynamically, since the cameras and lidars are usually installed at different positions, and this can result in imaging errors that are too large. But this also depends on the specific application.
Die feste Abbildungsregel kann beispielsweise in Form einer „Look-up-Table“ (Lut) in der Steuereinheit 20 des Fahrunterstützungssystems 12 gespeichert sein. Die feste Abbildungsregel kann für das Fahrunterstützungssystem 12 einmalig bestimmt werden, beispielsweise bei der Montage oder im Rahmen einer Kalibrierung. Details zum Inhalt der Look-up-Table ergeben sich aus dem nachfolgend beschriebenen Schritt S150. The fixed mapping rule can be stored in the control unit 20 of the driving support system 12 in the form of a “look-up table” (Lut), for example. The fixed mapping rule can be determined once for the driving support system 12, for example during installation or as part of a calibration. Details on the content of the look-up table result from step S150 described below.
Schritt S110 betrifft ein Erfassen der Bildinformation 32 der Umgebung 24 des Fahrzeugs 10 mit der optischen Kamera 18. Details zur Funktion der optischen Kamera 18 wurden bereits oben erläutert. Die Bildinformation 32 wird von der optischen Kamera 18 über die Datenverbindung 22 an die Steuereinheit 20 übertragen. Step S110 relates to capturing the image information 32 of the surroundings 24 of the vehicle 10 with the optical camera 18. Details on the function of the optical camera 18 have already been explained above. The image information 32 is transmitted from the optical camera 18 to the control unit 20 via the data connection 22 .
Schritt S120 betrifft ein Erfassen von der Punktwolke 26 der Umgebung 24 des Fahrzeugs 10 mit der Mehrzahl Umgebungspunkte 28 mit dem LiDAR-basierten Umgebungssensor 16. Details zur Funktion des LiDAR-basierten Umgebungssensors 16 wurden bereits oben erläutert. Die Punktwolke 26 wird von dem LiDAR-basierten Umgebungssensor 16 über die Datenverbindung 22 an die Steuereinheit 20 übertragen. Step S120 relates to capturing the point cloud 26 of the surroundings 24 of the vehicle 10 with the plurality of surrounding points 28 using the LiDAR-based surroundings sensor 16. Details on the function of the LiDAR-based surroundings sensor 16 have already been explained above. The point cloud 26 is transmitted from the LiDAR-based environment sensor 16 to the control unit 20 via the data connection 22 .
Schritt S130 betrifft ein zeitliches Synchronisieren des Erfassens der Bildinformation 32 mit der optischen Kamera 18 und des Erfassens der Punktwolke 26 mit dem LiDAR- basierten Umgebungssensor 16. Das zeitliche Synchronisieren des Erfassens der Bildinformation 32 und der Punktwolke 26 kann beispielsweise durch einen synchronisierten Betrieb der optischen Kamera 18 und des LiDAR-basierten Umgebungssensors 16 durchgeführt werden, so dass die Bildinformation 32 und die Punktwolke 26 im Wesentlichen gleichzeitig erzeugt werden. Alternativ oder zusätzlich kann das zeitliche Synchronisieren eine Bereitstellung einer gemeinsamen Zeitbasis für die optische Kamera 18 und den LiDAR-basierten Umgebungssensor 16 umfassen, mit welcher der Bildinformation 32 und der Punktwolke 26 ein Zeitstempel zugeordnet wird. Dadurch können zeitliche Unterschiede beim Erfassen der Bildinformation 32 mit der optischen Kamera 18 und beim Erfassen der Punktwolke 26 mit dem LiDAR-basierten Umgebungssensor 16 ausgeglichen werden. Eine zeitliche Interpolation der Detektionen im Bildraum kann eine approximative Interpolation erreichen, solange die Zeitbasen synchron sind. Step S130 relates to a temporal synchronization of the acquisition of the image information 32 with the optical camera 18 and the acquisition of the point cloud 26 with the LiDAR based environment sensor 16. The temporal synchronization of the acquisition of the image information 32 and the point cloud 26 can be carried out, for example, by synchronized operation of the optical camera 18 and the LiDAR-based environment sensor 16, so that the image information 32 and the point cloud 26 are generated essentially simultaneously . Alternatively or additionally, the temporal synchronization can include providing a common time base for the optical camera 18 and the LiDAR-based environment sensor 16, with which the image information 32 and the point cloud 26 is assigned a time stamp. As a result, differences in time when capturing the image information 32 with the optical camera 18 and when capturing the point cloud 26 with the LiDAR-based surroundings sensor 16 can be compensated for. A temporal interpolation of the detections in image space can achieve an approximate interpolation as long as the time bases are synchronous.
Somit könne die Schritte S110 und S120 zeitgleich oder mit einem geringen zeitlichen Versatz in beliebiger Abfolge durchgeführt werden. Steps S110 and S120 can thus be carried out at the same time or with a slight time offset in any sequence.
Schritt S140 betrifft ein Erzeugen des semantischen Bildes 34 der Umgebung 24 des Fahrzeugs 10 basierend auf der Bildinformation 32, die einem neuronalen Netz 36 zugeführt wird, insbesondere einem konvolutioneilen Neuronalen Netz, besonders bevorzugt einem vollständig konvolutioneilen Neuronalen Netz, FCN, mit einer gegenüber der Bildinformation 32 reduzierten Anzahl Bildpunkten 38. Das semantische Bild 34 ist mit einer Mehrzahl Bildpunkten 38 schematisch (teilweise) in Figur 8 dargestellt. Step S140 relates to generating the semantic image 34 of the surroundings 24 of the vehicle 10 based on the image information 32, which is fed to a neural network 36, in particular a convolutional neural network, particularly preferably a fully convolutional neural network, FCN, with an opposite of the image information 32 reduced number of pixels 38. The semantic image 34 is shown schematically (in part) with a plurality of pixels 38 in FIG.
Das Erzeugen des semantischen Bildes 34 der Umgebung 24 des Fahrzeugs 10 erfolgt basierend auf einer Verarbeitung der von der optischen Kamera 18 erfassten Bildinformation 32. Die Bildinformation 32 wird in diesem Ausführungsbeispiel dem neuronalen Netz 36 zugeführt, das die Bildinformation 32 in einer Mehrzahl Schichten 40 verarbeitet. Im Zuge dieser Verarbeitung wird das semantische Bild 34 erstellt, indem eine semantische Segmentierung von Bildinhalten erfolgt. Das semantische Bild 34 umfasst somit die in der Bildinformation 32 in Figur 6 beispielhaft als Tiere dargestellten Objekte 42 entsprechend. In der beispielhaften Bildinformation 32 aus Figur 7 werden Fahrzeuge als Objekte 42 erfasst. Die Objekte 42 sind in Figur 7 mit einem Objektrahmen markiert, der jedoch nicht erforderlich ist. Ausgehend von der Bildinformation 32 aus Figur 7 umfasst das semantische Bild 34 für jeden seiner Bildpunkte 38 Konfidenzwerte für verschiedene Klassen von Objekten 42, die in der Bildinformation 32 erkannt werden sollen, beispielsweise PKW, LKW, Fußgänger, Fahrrad, Baum, Ampel oder ähnliche. Semantic image 34 of environment 24 of vehicle 10 is generated based on processing of image information 32 captured by optical camera 18. In this exemplary embodiment, image information 32 is fed to neural network 36, which processes image information 32 in a plurality of layers 40 . In the course of this processing, the semantic image 34 is created by semantic segmentation of image content. The semantic image 34 thus includes the objects 42 shown by way of example as animals in the image information 32 in FIG. Vehicles are recorded as objects 42 in the exemplary image information 32 from FIG. The objects 42 are marked with an object frame in FIG. 7, but this is not necessary. Starting from the Image information 32 from FIG. 7 includes the semantic image 34 for each of its pixels 38 confidence values for different classes of objects 42 that are to be recognized in the image information 32, for example cars, trucks, pedestrians, bicycles, trees, traffic lights or the like.
Schritt S150 betrifft ein Abbilden der Umgebungspunkte 28 der Punktwolke 26 unmittelbar auf Positionen 44 in dem semantischen Bild 34. Step S150 relates to mapping the surrounding points 28 of the point cloud 26 directly onto positions 44 in the semantic image 34.
Dazu werden zunächst, wie in Figur 5 dargestellt, die Umgebungspunkte 28 der Punktwolke 26 ausgehend von ihren Sensorkoordinaten in Umgebungspunkte in Bildkoordination 46 transformiert. Die Transformation erfolgt basierend auf einem oder mehreren Parametern aus einer extrinsischen Kalibrierung der optischen Kamera 18, einer intrinsischen Kalibrierung der optischen Kamera 18, einer Position des LiDAR- basierten Umgebungssensors 16, einer Pose des LiDAR-basierten Umgebungssensors 16 und einem Abstand der entsprechenden Umgebungspunkte 28 der Punktwolke 26 von dem LiDAR-basierten Umgebungssensor 16. In diesem Ausführungsbeispiel ist die Transformation der Punktwolke 26 in Sensorkoordinaten in Bildkoordinaten der optischen Kamera 18 im Wesentlichen unabhängig von der Distanzmessung der jeweiligen Umgebungspunkte 28 aufgrund der gemeinsamen Ausführung der optischen Kamera 18 und der LiDAR-basierten Umgebungssensors 16 in der Sensoreinheit 14 und der daraus resultierenden Positionierung nah beieinander. For this purpose, as shown in FIG. 5, the surrounding points 28 of the point cloud 26 are first transformed into surrounding points in image coordination 46 starting from their sensor coordinates. The transformation is based on one or more parameters from an extrinsic calibration of the optical camera 18, an intrinsic calibration of the optical camera 18, a position of the LiDAR-based environmental sensor 16, a pose of the LiDAR-based environmental sensor 16 and a distance between the corresponding environmental points 28 the point cloud 26 from the LiDAR-based environment sensor 16. In this exemplary embodiment, the transformation of the point cloud 26 into sensor coordinates into image coordinates of the optical camera 18 is essentially independent of the distance measurement of the respective surrounding points 28 due to the joint design of the optical camera 18 and the LiDAR based environment sensor 16 in the sensor unit 14 and the resulting positioning close together.
Die Umgebungspunkte in Bildkoordination 46 werden für die Punktwolke 26 dann unmittelbar auf Positionen 44 in dem semantischen Bild 34 abgebildet, indem für jeden Umgebungspunkt 28 eine dazugehörige Position 44 in dem semantischen Bild 34 bestimmt wird, wie beispielhaft in Figur 8 dargestellt ist. Die Position 44 ist durch einen zweidimensionalen Vektor mit reellen Werten definiert, d.h. es werden Positionen zwischen Mittelpunkten der einzelnen Bildpunkte 38 des semantischen Bildes 34 bestimmt, beispielsweise als Fließkommawerte. The surrounding points in image coordination 46 are then mapped directly to positions 44 in the semantic image 34 for the point cloud 26 by determining an associated position 44 in the semantic image 34 for each surrounding point 28, as shown by way of example in FIG. The position 44 is defined by a two-dimensional vector with real values, i.e. positions between centers of the individual pixels 38 of the semantic image 34 are determined, for example as floating point values.
Das Abbilden der Umgebungspunkte 28 unmittelbar auf die Positionen 44 in dem semantischen Bild 34 erfolgt somit unabhängig von dem Entfernungswert jedes Umgebungspunktes. Die Abbildung ist wie hier beschrieben in der Look-up Table gespeichert, so dass die Position 44 für jeden Umgebungspunkt 28 mit der festen Abbildungsregel bestimmt werden kann. Die Position 44 ist also für jeden Umgebungspunkt 28 unabhängig von seinem Entfernungswert. The imaging of the surrounding points 28 directly onto the positions 44 in the semantic image 34 thus takes place independently of the distance value of each surrounding point. The illustration is as described here in the Stored look-up table so that the position 44 can be determined for each surrounding point 28 with the fixed mapping rule. The position 44 is therefore independent of its distance value for each surrounding point 28 .
Das Abbilden der Umgebungspunkte 28 der Punktwolke 26 unmittelbar auf Positionen 44 in dem semantischen Bild 34 umfasst in diesem Ausführungsbeispiel ein Interpolieren der Positionen 44 in dem semantischen Bild 34 auf Bildpunkte 38 des semantischen Bildes 34. Das Interpolieren wird in diesem Ausführungsbeispiel als bilineares Interpolieren durchgeführt. Wie sich beispielhaft aus Figur 8 ergibt, befindet sich die dortige Position 44 des entsprechenden Umgebungspunkts 28 in einem Eckbereich des Bildpunkts 38, so dass die semantische Information des Umgebungspunkts 28 für diese Position 44 basierend auf der semantischen Information aller angrenzenden Bildpunkte 38, die dort zusätzlich mit a, b, c, d gekennzeichnet sind, in Kombination gebildet wird. Aufgrund der aus der Look-up Table vorgegebenen Position 44 kann auch die Interpolation vorab definiert sein. In this exemplary embodiment, the mapping of the surrounding points 28 of the point cloud 26 directly to positions 44 in the semantic image 34 includes an interpolation of the positions 44 in the semantic image 34 to pixels 38 of the semantic image 34. In this exemplary embodiment, the interpolation is carried out as bilinear interpolation. As can be seen from Figure 8, for example, the local position 44 of the corresponding surrounding point 28 is in a corner area of the pixel 38, so that the semantic information of the surrounding point 28 for this position 44 is based on the semantic information of all the adjacent pixels 38 that are there in addition denoted by a, b, c, d is formed in combination. Based on the position 44 specified from the look-up table, the interpolation can also be defined in advance.
Schritt S160 betrifft ein Erzeugen von Umgebungsinformation 48 durch Zuordnen der semantischen Information für jeden Umgebungspunkt 28 der Punktwolke 26 basierend auf der Abbildung des jeweiligen Umgebungspunkts 28 auf die entsprechende Position 44 in dem semantischen Bild 34. Es wird also jedem Umgebungspunkt 28 der Punktwolke 26 basierend auf der Abbildung des jeweiligen Umgebungspunkts 28 auf die entsprechende Position 44 in dem semantischen Bild 34 ein Mapping der semantischen Information an der ermittelten Position 44 jedes Umgebungspunkts 28 durchgeführt, um diesem die semantische Information an der entsprechenden Position 44 zuzuordnen. Step S160 relates to generating surrounding information 48 by assigning the semantic information for each surrounding point 28 of the point cloud 26 based on the mapping of the respective surrounding point 28 to the corresponding position 44 in the semantic image 34. It is therefore each surrounding point 28 of the point cloud 26 based on the mapping of the respective surrounding point 28 to the corresponding position 44 in the semantic image 34, a mapping of the semantic information at the determined position 44 of each surrounding point 28 is carried out in order to assign the semantic information at the corresponding position 44 to this.
In diesem Ausführungsbeispiel weist die Steuereinheit 20 eine Mehrzahl nicht einzeln dargestellte Datenverarbeitungseinheiten auf und ist ausgeführt, einen parallelen Betrieb zum Abbilden der Umgebungspunkte 28 der Punktwolke 26 unmittelbar auf Positionen 44 in dem semantischen Bild 34 und zum Erzeugen der Umgebungsinformation 48 durch Zuordnen der semantischen Information für jeden Umgebungspunkt 28 der Punktwolke 26 basierend auf der Abbildung des jeweiligen Umgebungspunkts 28 auf die entsprechende Position 44 in dem semantischen Bild 34 durchzuführen. Für die parallele Informationsverarbeitung haben sich Grafikprozessoren (GPU) mit einer Mehrzahl paralleler Rechenkerne bewährt. Schritt S170 betrifft ein Erzeugen einer Umgebungskarte basierend auf der Umgebungsinformation 48 mit der semantischen Information für jeden Umgebungspunkt 28 der Punktwolke 26. Die Umgebungskarte umfasst einen Bereich um das Fahrzeug 10 für die Verwendung durch verschiedenen Fahrunterstützungsfunktionen des Fahrzeugs 10. Die Umgebungskarte wird beispielsweise nach der Art einer Gitterbelegungskarte erzeugt, in der einzelne Gitterelemente basierend auf den Umgebungspunkten 28 mit deren semantischer Information belegt werden. In this exemplary embodiment, control unit 20 has a plurality of data processing units (not shown individually) and is designed to operate in parallel to map surrounding points 28 of point cloud 26 directly to positions 44 in semantic image 34 and to generate surrounding information 48 by assigning the semantic information for to carry out each surrounding point 28 of the point cloud 26 based on the mapping of the respective surrounding point 28 to the corresponding position 44 in the semantic image 34 . Graphics processors (GPU) with a number of parallel computing cores have proven their worth for parallel information processing. Step S170 relates to generating an environment map based on the environment information 48 with the semantic information for each environment point 28 of the point cloud 26. The environment map includes an area around the vehicle 10 for use by various driving support functions of the vehicle 10. The environment map is, for example, according to the type generates a grid occupancy map in which individual grid elements based on the surrounding points 28 are covered with their semantic information.
Bezugszeichenliste 10 Fahrzeug List of Reference Numbers 10 Vehicle
12 Fahrunterstützungssystem 12 driving support system
14 Sensoreinheit 14 sensor unit
16 Umgebungssensor, LiDAR-basierter Umgebungssensor16 environmental sensor, LiDAR-based environmental sensor
18 optische Kamera 18 optical camera
20 Steuereinheit 20 control unit
22 Datenverbindung 22 data connection
24 Umgebung 24 environment
26 Punktwolke 26 point cloud
28 Umgebungspunkt 28 environment point
30 Scanebene 30 scan plane
32 Bildinformation 32 image information
34 semantisches Bild 34 semantic picture
36 neuronales Netz 36 neural network
38 Bildpunkt (semantisches Bild) 38 pixels (semantic image)
40 Schicht 40 layer
42 Objekt 42 object
44 Position 44 positions
46 Umgebungspunkte in Bildkoordination 46 environment points in image coordination
48 Umgebungsinformation 48 environment information
100 Bildinformation (Stand der T echnik) 100 Image information (state of the art)
102 neuronales Netz (Stand der T echnik) 102 neural network (state of the art)
104 semantisches Bild (Stand der T echnik) 104 semantic image (state of the art)
106 Schicht (Stand der Technik) 106 layer (prior art)
108 hochgesampeltes semantisches Bild (Stand der Technik) 110 Darstellung (Stand der Technik) 108 upsampled semantic image (prior art) 110 representation (prior art)
112 Objekt (Stand der Technik) 112 object (state of the art)
114 Upsampling-Schicht (Stand der Technik) 114 upsampling layer (prior art)
116 Punktwolke (Stand der Technik) 116 point cloud (prior art)
118 Punktwolke in Bildkoordinaten (Stand der Technik) 118 point cloud in image coordinates (state of the art)
120 Umgebungsinformation (Stand der Technik) 120 environment information (state of the art)

Claims

Patentansprüche patent claims
1. Verfahren zum Erzeugen von Umgebungsinformation (48) einer Umgebung (24) eines Fahrzeugs (10) mit einem Fahrunterstützungssystem (12), das wenigstens einen Umgebungssensor (16) und eine optische Kamera (18) aufweist, umfassend die Schritte 1. A method for generating environmental information (48) of an environment (24) of a vehicle (10) with a driving support system (12) having at least one environmental sensor (16) and an optical camera (18), comprising the steps
Erfassen von Bildinformation (32) der Umgebung (24) des Fahrzeugs (10) mit der optischen Kamera (18), Capturing image information (32) of the surroundings (24) of the vehicle (10) with the optical camera (18),
Erfassen von einer Punktwolke (26) der Umgebung (24) des Fahrzeugs (10) mit einer Mehrzahl Umgebungspunkte (28) mit dem wenigstens einen Umgebungssensor (16), Detection of a point cloud (26) of the surroundings (24) of the vehicle (10) with a plurality of surrounding points (28) with the at least one surrounding sensor (16),
Erzeugen eines semantischen Bildes (34) der Umgebung (24) des Fahrzeugs (10) basierend auf der Bildinformation (32), die einem neuronalen Netz zugeführt wird, insbesondere einem konvolutioneilen Neuronalen Netz, besonders bevorzugt einem vollständig konvolutioneilen Neuronalen Netz, FCN, mit einer gegenüber der Bildinformation (32) reduzierten Anzahl Bildpunkten (38),Generating a semantic image (34) of the surroundings (24) of the vehicle (10) based on the image information (32), which is supplied to a neural network, in particular a convolutional neural network, particularly preferably a fully convolutional neural network, FCN, with a compared to the image information (32) reduced number of pixels (38),
Abbilden der Umgebungspunkte (28) der Punktwolke (26) unmittelbar auf Positionen (44) in dem semantischen Bild (34), und mapping the surrounding points (28) of the point cloud (26) directly to positions (44) in the semantic image (34), and
Erzeugen der Umgebungsinformation (48) durch Zuordnen der semantischen Information für jeden Umgebungspunkt (28) der Punktwolke (26) basierend auf der Abbildung des jeweiligen Umgebungspunkts (28) auf die entsprechende Position (44) in dem semantischen Bild (34). Generating the environmental information (48) by assigning the semantic information for each environmental point (28) of the point cloud (26) based on the mapping of the respective environmental point (28) to the corresponding position (44) in the semantic image (34).
2. Verfahren nach Anspruch 1 , dadurch gekennzeichnet, dass das Verfahren einen Schritt zum zeitlichen Synchronisieren des Erfassens der Bildinformation (32) mit der optischen Kamera (18) und des Erfassens der Punktwolke (26) mit dem wenigstens einen Umgebungssensor (16) umfasst. 2. The method according to claim 1, characterized in that the method comprises a step for temporally synchronizing the acquisition of the image information (32) with the optical camera (18) and the acquisition of the point cloud (26) with the at least one environment sensor (16).
3. Verfahren nach einem der Ansprüche 1 oder 2, dadurch gekennzeichnet, dass das Verfahren einen Schritt zum Ermitteln einer festen Abbildungsregel der Umgebungspunkte (28) der Punktwolke (26) auf Positionen in dem semantischen Bild (34) umfasst, und das Abbilden der Umgebungspunkte (28) der Punktwolke (26) unmittelbar auf Positionen (44) in dem semantischen Bild (34) ein Abbilden der Umgebungspunkte (28) der Punktwolke (26) auf die Positionen (44) in dem semantischen Bild (34) mit der festen Abbildungsregel der Umgebungspunkte (28) der Punktwolke (26) auf Positionen (44) in dem semantischen Bild (34) umfasst. 3. The method according to any one of claims 1 or 2, characterized in that the method comprises a step for determining a fixed mapping rule of the surrounding points (28) of the point cloud (26) to positions in the semantic image (34), and mapping the surrounding points (28) of the point cloud (26) directly to positions (44) in the semantic image (34) mapping the surrounding points (28) of the point cloud (26) to the positions (44) in the semantic image (34) with the fixed mapping rule of the surrounding points (28) of the point cloud (26) to positions (44) in the semantic image (34).
4. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das Abbilden der Umgebungspunkte (28) der Punktwolke (26) unmittelbar auf Positionen (44) in dem semantischen Bild (34) ein Interpolieren der Positionen (44) in dem semantischen Bild (34) auf Bildpunkte (38) des semantischen Bildes (34) umfasst. 4. The method according to any one of the preceding claims, characterized in that the mapping of the surrounding points (28) of the point cloud (26) directly to positions (44) in the semantic image (34) an interpolation of the positions (44) in the semantic image ( 34) to pixels (38) of the semantic image (34).
5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, dass das Interpolieren der Positionen (44) in dem semantischen Bild (34) auf Bildpunkte (38) des semantischen Bildes (34) ein bilineares Interpolieren, eine Nächste Nachbar Klassifikation, eine Verwendung einer Support Vector Maschine oder ein Anwenden eines Gauß-Prozesses umfasst. 5. The method according to claim 4, characterized in that the interpolation of the positions (44) in the semantic image (34) to pixels (38) of the semantic image (34) is bilinear interpolating, nearest neighbor classification, use of a support vector Machine or applying a Gaussian process includes.
6. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das Abbilden der Umgebungspunkte (28) der Punktwolke (26) unmittelbar auf Positionen (44) in dem semantischen Bild (34) ein Abbilden der Umgebungspunkte (28) der Punktwolke (26) unmittelbar auf Positionen (44) in dem semantischen Bild (34) basierend auf einem oder mehreren Parametern aus einer extrinsischen Kalibrierung der optischen Kamera (18), einer intrinsischen Kalibrierung der optischen Kamera (18), einer Position des wenigstens einen Umgebungssensors (16), einer Pose des wenigstens einen Umgebungssensors (16) und einem Abstand der entsprechenden Umgebungspunkte der Punktwolke von dem wenigstens einen Umgebungssensor (16) umfasst. 6. The method according to any one of the preceding claims, characterized in that the mapping of the surrounding points (28) of the point cloud (26) directly to positions (44) in the semantic image (34) means a mapping of the surrounding points (28) of the point cloud (26) directly to positions (44) in the semantic image (34) based on one or more parameters from an extrinsic calibration of the optical camera (18), an intrinsic calibration of the optical camera (18), a position of the at least one environmental sensor (16), a pose of the at least one environmental sensor (16) and a distance of the corresponding environmental points of the point cloud from the at least one environmental sensor (16).
7. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das Verfahren einen zusätzlichen Schritt zum Erzeugen einer Umgebungskarte basierend auf der Umgebungsinformation (48) mit der semantischen Information für jeden Umgebungspunkt (28) der Punktwolke (26) umfasst. 7. The method according to any one of the preceding claims, characterized in that the method comprises an additional step for generating an environment map based on the environment information (48) with the semantic information for each environment point (28) of the point cloud (26).
8. Fahrunterstützungssystem (12) zum Erzeugen von Umgebungsinformation (48) einer Umgebung (24) eines Fahrzeugs (10) mit wenigstens einen Umgebungssensor (16), einer optischen Kamera (18), einer Steuereinheit (20), und einer Datenverbindung (22), über die der wenigstens eine Umgebungssensor (16), die optische Kamera (20) und die Steuereinheit (20) miteinander verbunden sind, dadurch gekennzeichnet, dass das Fahrunterstützungssystem (12) ausgeführt ist, das Verfahren nach einem der Ansprüche 1 bis 7 durchzuführen. 8. Driving support system (12) for generating environmental information (48) of an environment (24) of a vehicle (10) with at least one environmental sensor (16), an optical camera (18), a control unit (20) and a data connection (22) , via which the at least one environment sensor (16), the optical camera (20) and the control unit (20) are connected to one another, characterized in that the driving support system (12) is designed to carry out the method according to one of claims 1 to 7.
9. Fahrunterstützungssystem (12) nach Anspruch 8, dadurch gekennzeichnet, dass der wenigstens eine Umgebungssensor (16) als LiDAR-basierter Umgebungssensor (16) und/oder als Radarsensor ausgeführt ist. 9. Driving support system (12) according to claim 8, characterized in that the at least one environment sensor (16) is designed as a LiDAR-based environment sensor (16) and/or as a radar sensor.
10. Fahrunterstützungssystem (12) nach einem der Ansprüche 8 oder 9, dadurch gekennzeichnet, dass der wenigstens eine Umgebungssensor (16) und die optische Kamera (18) als Sensoreinheit (14) ausgeführt sind zur gemeinsam Anbringung als Sensoreinheit (14) an dem Fahrzeug (10). 10. Driving support system (12) according to one of claims 8 or 9, characterized in that the at least one environment sensor (16) and the optical camera (18) are designed as a sensor unit (14) for joint attachment as a sensor unit (14) on the vehicle (10).
11 . Fahrunterstützungssystem (12) nach einem der Ansprüche 8 bis 10, dadurch gekennzeichnet, dass der wenigstens eine Umgebungssensor (16) und die optische Kamera (18) zur Anbringung mit einem geringen Abstand an dem Fahrzeug (10) ausgeführt sind, und das Fahrunterstützungssystem (12) ausgeführt ist, das Verfahren nach Anspruch 3 durchzuführen. 11 . Driving support system (12) according to one of Claims 8 to 10, characterized in that the at least one environment sensor (16) and the optical camera (18) are designed to be attached to the vehicle (10) at a small distance, and the driving support system (12 ) is designed to carry out the method according to claim 3.
12. Fahrunterstützungssystem (12) nach einem der Ansprüche 8 bis 11 , dadurch gekennzeichnet, dass die Steuereinheit (20) eine Mehrzahl Datenverarbeitungseinheiten aufweist und ausgeführt ist, einen parallelen Betrieb zum Abbilden der Umgebungspunkte (28) der Punktwolke (26) unmittelbar auf Positionen (44) in dem semantischen Bild (34) und/oder zum Erzeugen der Umgebungsinformation (48) durch Zuordnen der semantischen Information für jeden Umgebungspunkt (28) der Punktwolke (26) basierend auf der Abbildung des jeweiligen Umgebungspunkts (28) auf die entsprechende Position (44) in dem semantischen Bild (34) durchzuführen. 12. Driving support system (12) according to one of claims 8 to 11, characterized in that the control unit (20) has a plurality of data processing units and is designed to carry out a parallel operation for mapping the surrounding points (28) of the point cloud (26) directly to positions ( 44) in the semantic image (34) and/or for generating the environmental information (48) by assigning the semantic information for each environmental point (28) of the point cloud (26) based on the mapping of the respective environmental point (28) to the corresponding position ( 44) in the semantic image (34).
PCT/EP2022/063407 2021-05-20 2022-05-18 Transfer of semantic information to point clouds WO2022243357A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102021113052.2A DE102021113052A1 (en) 2021-05-20 2021-05-20 Transferring semantic information to point clouds
DE102021113052.2 2021-05-20

Publications (1)

Publication Number Publication Date
WO2022243357A1 true WO2022243357A1 (en) 2022-11-24

Family

ID=82067716

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2022/063407 WO2022243357A1 (en) 2021-05-20 2022-05-18 Transfer of semantic information to point clouds

Country Status (2)

Country Link
DE (1) DE102021113052A1 (en)
WO (1) WO2022243357A1 (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180232947A1 (en) * 2017-02-11 2018-08-16 Vayavision, Ltd. Method and system for generating multidimensional maps of a scene using a plurality of sensors of various types
US20200142421A1 (en) * 2018-11-05 2020-05-07 GM Global Technology Operations LLC Method and system for end-to-end learning of control commands for autonomous vehicle
CN112801124A (en) * 2019-11-14 2021-05-14 动态Ad有限责任公司 Sequential fusion for 3D object detection

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180232947A1 (en) * 2017-02-11 2018-08-16 Vayavision, Ltd. Method and system for generating multidimensional maps of a scene using a plurality of sensors of various types
US20200142421A1 (en) * 2018-11-05 2020-05-07 GM Global Technology Operations LLC Method and system for end-to-end learning of control commands for autonomous vehicle
CN112801124A (en) * 2019-11-14 2021-05-14 动态Ad有限责任公司 Sequential fusion for 3D object detection
US20220080999A1 (en) * 2019-11-14 2022-03-17 Motional Ad Llc Sequential fusion for 3d object detection

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LONG JONATHAN ET AL: "Fully convolutional networks for semantic segmentation", 2015 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), IEEE, 7 June 2015 (2015-06-07), pages 3431 - 3440, XP032793793, DOI: 10.1109/CVPR.2015.7298965 *

Also Published As

Publication number Publication date
DE102021113052A1 (en) 2022-11-24

Similar Documents

Publication Publication Date Title
DE112018000899T5 (en) Joint 3D object detection and orientation estimation via multimodal fusion
DE102018121008B4 (en) SYSTEM FOR DRIVING AN AUTONOMOUS VEHICLE AND VEHICLE EQUIPPED THEREFROM
EP3117399B1 (en) Method for assembling single images that have been taken from different positions by a camera system to form a joint image
DE102016203710B4 (en) Distance and direction estimation of a target point from a vehicle using a monocular video camera
DE102021103151A1 (en) SYSTEMS AND METHODS FOR IMAGE BLUR REMOVAL IN A VEHICLE
DE102016208056A1 (en) Method and device for processing image data and driver assistance system for a vehicle
DE102019131971A1 (en) An image processing module
DE112020004301T5 (en) OBJECT RECOGNITION DEVICE
DE102018212049A1 (en) Method for three-dimensional image reconstruction of a vehicle
DE10141055B4 (en) Method for determining movement information
DE102021124986A1 (en) IMAGE COLORING FOR VEHICLE CAMERA IMAGES
DE102020127000A1 (en) GENERATION OF COMPOSITE PICTURES USING INTERMEDIATE SURFACES
DE102016124978A1 (en) Virtual representation of an environment of a motor vehicle in a driver assistance system with a plurality of projection surfaces
DE112015001088T5 (en) Vehicle environment image display device and vehicle environment image display method
EP1460454A2 (en) Method for combined processing of high resolution images and video images
DE112015000763T5 (en) Vehicle environment image display device and vehicle environment image display method
DE102018108751A1 (en) Method, system and device of obtaining 3D information of objects
WO2020001838A1 (en) Method for sensor and memory-based depiction of an environment, display apparatus and vehicle having the display apparatus
DE102011082881A1 (en) Method for representing surroundings of vehicle e.g. motor vehicle e.g. car, involves transforming primary image information into secondary image information corresponding to panoramic view using spatial information
WO2022243357A1 (en) Transfer of semantic information to point clouds
DE112020006935T5 (en) METHOD AND DEVICE FOR PARKING DETECTION, AND DEVICE AND STORAGE MEDIUM
DE102014201409A1 (en) PARKING - TRACKING DEVICE AND METHODS THEREOF
WO2021180679A1 (en) Determining a current focus area of a camera image on the basis of the position of the vehicle camera on the vehicle and on the basis of a current motion parameter
WO2020119996A1 (en) Transfer of additional information between camera systems
DE102020134584A1 (en) SPATIAL AND TIME-COHERENT MULTI-LIDAR POINT CLOUD FUSION

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22730682

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 22730682

Country of ref document: EP

Kind code of ref document: A1