WO2023165815A1 - Fusion von mit einem aktiven messprinzip gewonnenen roh-messdaten und bildern zu einer repräsentation mit tiefen- und/oder abstandsinformation - Google Patents

Fusion von mit einem aktiven messprinzip gewonnenen roh-messdaten und bildern zu einer repräsentation mit tiefen- und/oder abstandsinformation Download PDF

Info

Publication number
WO2023165815A1
WO2023165815A1 PCT/EP2023/053833 EP2023053833W WO2023165815A1 WO 2023165815 A1 WO2023165815 A1 WO 2023165815A1 EP 2023053833 W EP2023053833 W EP 2023053833W WO 2023165815 A1 WO2023165815 A1 WO 2023165815A1
Authority
WO
WIPO (PCT)
Prior art keywords
measurement
points
image
measurement data
sight
Prior art date
Application number
PCT/EP2023/053833
Other languages
English (en)
French (fr)
Inventor
Michael David Warren
Oliver Lange
Original Assignee
Robert Bosch Gmbh
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch Gmbh filed Critical Robert Bosch Gmbh
Publication of WO2023165815A1 publication Critical patent/WO2023165815A1/de

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S17/00Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
    • G01S17/86Combinations of lidar systems with systems other than lidar, radar or sonar, e.g. with direction finders
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S13/00Systems using the reflection or reradiation of radio waves, e.g. radar systems; Analogous systems using reflection or reradiation of waves whose nature or wavelength is irrelevant or unspecified
    • G01S13/86Combinations of radar systems with non-radar systems, e.g. sonar, direction finder
    • G01S13/867Combination of radar systems with cameras
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S13/00Systems using the reflection or reradiation of radio waves, e.g. radar systems; Analogous systems using reflection or reradiation of waves whose nature or wavelength is irrelevant or unspecified
    • G01S13/88Radar or analogous systems specially adapted for specific applications
    • G01S13/93Radar or analogous systems specially adapted for specific applications for anti-collision purposes
    • G01S13/931Radar or analogous systems specially adapted for specific applications for anti-collision purposes of land vehicles
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S15/00Systems using the reflection or reradiation of acoustic waves, e.g. sonar systems
    • G01S15/86Combinations of sonar systems with lidar systems; Combinations of sonar systems with systems not using wave reflection
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S15/00Systems using the reflection or reradiation of acoustic waves, e.g. sonar systems
    • G01S15/88Sonar systems specially adapted for specific applications
    • G01S15/93Sonar systems specially adapted for specific applications for anti-collision purposes
    • G01S15/931Sonar systems specially adapted for specific applications for anti-collision purposes of land vehicles
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S17/00Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
    • G01S17/88Lidar systems specially adapted for specific applications
    • G01S17/93Lidar systems specially adapted for specific applications for anti-collision purposes
    • G01S17/931Lidar systems specially adapted for specific applications for anti-collision purposes of land vehicles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S13/00Systems using the reflection or reradiation of radio waves, e.g. radar systems; Analogous systems using reflection or reradiation of waves whose nature or wavelength is irrelevant or unspecified
    • G01S13/88Radar or analogous systems specially adapted for specific applications
    • G01S13/93Radar or analogous systems specially adapted for specific applications for anti-collision purposes
    • G01S13/931Radar or analogous systems specially adapted for specific applications for anti-collision purposes of land vehicles
    • G01S2013/9323Alternative operation using light waves
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S13/00Systems using the reflection or reradiation of radio waves, e.g. radar systems; Analogous systems using reflection or reradiation of waves whose nature or wavelength is irrelevant or unspecified
    • G01S13/88Radar or analogous systems specially adapted for specific applications
    • G01S13/93Radar or analogous systems specially adapted for specific applications for anti-collision purposes
    • G01S13/931Radar or analogous systems specially adapted for specific applications for anti-collision purposes of land vehicles
    • G01S2013/9324Alternative operation using ultrasonic waves
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10012Stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle
    • G06T2207/30261Obstacle

Definitions

  • the present invention relates to the evaluation of measurement data from a number of measurement modalities in order to generate a representation of an observed area that is as precise and reliable as possible, for example for the purposes of at least partially automated driving.
  • An at least partially automated vehicle must react to objects and events in its environment.
  • the vehicle environment is monitored with various sensors, such as cameras, radar sensors or lidar sensors.
  • the measurement data recorded with these different measurement modalities are often merged into a final determination of which objects are present in the vehicle's surroundings.
  • WO 2018/188 877 A1 discloses an exemplary method for fusing measurement data across a number of measurement modalities.
  • the invention provides a method for creating a representation of an area containing depth and/or distance information.
  • the method uses measurement data obtained by observing the area with at least two different measurement modalities. Measurement data from both measurement modalities are therefore provided.
  • the first measurement modality sends an electromagnetic or acoustic wave into the observed area and receives a reflected wave from this area. At least one property of interest, such as amplitude or frequency in the case of frequency modulation, of this reflected wave is measured.
  • the reflected wave can also be assigned a direction from which it is incident on the sensor used for the measurement from the observed area. In a geometric approximation, the reflected wave can therefore be interpreted as a line of sight that strikes the sensor in a straight line from the point of reflection.
  • the property of interest of the reflected wave can then be plotted along the line of sight as a function of the distance between the point of reflection and the sensor used for the measurement.
  • Such spatial and/or temporal profiles of the property of interest are the raw data that are typically recorded in active measurements of this type.
  • the first measurement modality can be, for example, a radar measurement, a lidar measurement or an ultrasound measurement. Such measurements are often used in particular to detect objects in the vicinity of a vehicle or robot.
  • the second measurement modality provides at least one image of the observed area.
  • Camera images, video images or thermal images, for example, are particularly suitable here.
  • Such images can be recorded, for example, with structured lighting or time-of-flight techniques, which also directly measure depth information.
  • Such an image can be encoded, for example, as an RGBD image, which also contains the depth (depth) in addition to the RGB color information.
  • RGBD image which also contains the depth (depth) in addition to the RGB color information.
  • At least one moving camera can also be used and depth information can be obtained using a structure from motion technique.
  • the images may be in the form of intensity values arranged in a two- or three-dimensional grid.
  • images can also exist, for example, in the form of point clouds in which those points that are assigned intensity values do not form a coherent area.
  • Correspondences are determined from the geometric arrangement of the sensors used for the two measurement modalities relative to one another as to which points of the at least one image on the one hand and points along visual beams on the other hand refer to the same location in the area.
  • Such a correspondence can indicate, for example, that a specific location X on a line of sight between the sensor used for the first measurement modality and an object that is also in the field of view of two stereoscopically arranged cameras, in the image of the first camera by a pixel x ci and is represented by another pixel x C 2 in the image of the second camera.
  • the at least one image and/or the determined correspondences are set up for one and the same location in the area.
  • the complete raw signal is used here. As explained above, this raw signal includes temporal and/or spatial profiles of an interesting property of the wave reflected from the observed area.
  • the hypotheses can, for example, relate selectively to the depth and/or distance information of the location, but also, for example, to the coordinates of the position of the location as a whole.
  • the different hypotheses can be based, for example, on depth and/or distance information that originates from different sources.
  • a first hypothesis can be based on depth and/or distance information that originates from the active measurement with the electromagnetic or acoustic wave.
  • a second hypothesis on the other hand, can be based on depth and/or distance information, for example, which originates from a stereoscopic combination of two images.
  • the hypotheses are aggregated to provide depth and/or distance information for the respective location.
  • This aggregation can in particular include, for example, depth and/or distance information on which one of the hypotheses was based being corrected in such a way that a correspondingly updated hypothesis is then as consistent as possible with the one or more further hypotheses.
  • the depth and/or distance information in the representation can in particular include at least one coordinate of the position of the location in space, for example.
  • the depth and/or distance information can also relate, for example, selectively to a distance between the location and a predefined reference point, for example the position of the sensor used for the first measurement modality.
  • depth and/or distance information in the representation can be significantly improved by aggregating.
  • distances to objects in the observed area can be determined more precisely.
  • the shape of peaks in a radar or lidar signal, for example, can also be evaluated more precisely. For example, information about surface normals and roughness can be determined from this form.
  • the depth and/or distance information is also more reliable insofar as it is always based on at least two independent measurements with at least two different measurement modalities. If one of these measurements delivers completely nonsensical results, for example because a sensor is defective, dirty or out of adjustment, this will be noticed during aggregation at the latest.
  • objects that are hidden in the noise of a lidar signal can be raised above the noise level by merging them with additional information from one or more camera images and thus made recognizable.
  • a lidar signal can shape the shape more extensively, but only slightly textured Measure objects that are difficult and imprecise to determine from images of these objects much more precisely.
  • the probability that both measurement modalities will detect a "ghost object" at the same point due to measurement artifacts is very low due to the fundamental physical differences between the measurement modalities.
  • the method can significantly increase the safety integrity of the environment detection, particularly in safety-relevant systems. Any depth information fused from the raw signals of at least two independent measurements is more accurate, more reliable and less likely to be wrong.
  • At least one hypothesis can be set up using measurement data from the first measurement modality on the one hand and information from the at least one image on the other hand, which, according to the correspondence, relates to the same location. For example, for a location on the line of sight between the sensor used for the first measurement modality and an object, the correspondence can be used to determine which pixels in one or more camera images contain information about precisely this location. Due to the known geometric arrangement of the sensors used for the two measurement modalities relative to one another, correspondences of this type already contain a hypothesis as to where exactly the said location lies in three-dimensional space. Those of the first measurement modality The property of interest provided, such as amplitude and/or frequency, on the one hand and the image information relating to this location on the other hand can then be used, for example, to test the hypothesis.
  • At least one hypothesis can be set up using images recorded by two or more cameras in a stereoscopic camera arrangement and/or by at least one moving camera using structure-from-motion technology.
  • the known geometric arrangement of the cameras shows where in space a location that produces a specific intensity signal at two different points in the respective camera images should be located.
  • a hypothesis can also be obtained from this depth information as to where a location addressed by a specific image pixel should physically lie.
  • additional depth information can be determined, for example, with a correspondingly trained artificial neural network, ANN.
  • a profile of intensity values and/or correlation values along the visual beam is determined from the stereoscopic recorded images, or from the image and the additional depth information, in connection with the geometry of the visual beam and the correspondences.
  • Correlation values can be determined, for example, from two stereoscopically recorded images as a correlation between image areas (“patches”) that correspond to one and the same point on the line of sight in the two images.
  • Distance information in the measurement data of the first measurement modality is then corrected in such a way that the profile of this measurement data along the line of sight is as consistent as possible with the determined profile of the intensity values and/or correlation values.
  • the fusion of the measurement data from both measurement modalities is then centered on the first measurement modality in the sense that • the comparison with the image data of the second measurement modality takes place in the space of the measurement curves typical for the first measurement modality and
  • points along the line of sight can be sampled. Points in the at least one image that correspond to the sampled points can then be determined on the basis of the geometric arrangement of the sensors used for the two measurement modalities in relation to one another.
  • a plurality of hypotheses regarding the positions of sampled points in space can be set up and aggregated.
  • the points to be sampled can be selected from the discrete measurement points for which measurement data were actually recorded during the measurement using the first measurement modality.
  • a distribution of intensity values in a correlation volume is determined from the stereoscopically recorded images, or from the image and the additional depth information.
  • the measurement data along the line of sight are projected into the correlation volume.
  • the depth information obtained from the stereoscopically recorded images, or the additional depth information, is then corrected in such a way that the distribution of the intensity values in the correlation volume is as consistent as possible with the measurement data of the first measurement modality. This results in an improved depth estimate for the locations specified by the stereoscopically recorded image or by the individual image and additional depth information.
  • the fusion of the measurement data from both measurement modalities is then centered on the second measurement modality in the sense that • the comparison with the measurement data of the first measurement modality takes place in a correlation volume spanned by images of the second measurement modality and
  • points can be sampled from the at least one image. Based on the geometric arrangement of the sensors used for the two measurement modalities, points along the line of sight that correspond to the sampled points can then be determined. As an alternative or in combination with this, a plurality of hypotheses regarding the positions of sampled points in space can be set up and aggregated.
  • a corresponding point in the at least one image is determined for a point on the line of sight, or vice versa, a point on the line of sight corresponding to a point in the image is determined, it is not guaranteed that the image or the line of sight at the respective by the correspondence actually contains measured values or intensity values.
  • measurements with the first measurement modality on the one hand and images on the other hand are scanned with different resolutions.
  • the pixel resolution of images is typically much finer than the distance resolution of lidar measurements, for example.
  • One possibility of supplementing missing measurement values or intensity values consists in fitting a parameterized approach for the measurement values or intensity values to the points in the at least one image or to the measurement points of the first measurement modality. This parameterized approach is then explained everywhere. The corresponding points and associated measured values or intensity values can then be retrieved from this approach.
  • a second possibility of supplementing missing measured values or intensity values is to enter the corresponding points and the associated measured values or intensity values between points in the at least one image or between measurement points of the first measurement modality.
  • the interpolation thus also makes it possible to obtain corresponding points in the image, or along the line of sight, on a finer scale than specified by the scanning of the image, or of the line of sight.
  • the surroundings of a vehicle or robot are selected as the observed area.
  • the multimodal observation of the environment for example with radar or lidar on the one hand and with one or more cameras on the other hand, creates an increased level of safety, because objects with which the vehicle or robot could collide are less likely to be overlooked .
  • a control signal is determined from the representation.
  • the vehicle or the robot is controlled with this control signal.
  • the probability is then advantageously increased that the reaction of the vehicle, or of the robot, triggered by the control signal to a traffic situation detected in the surrounding area is appropriate to this traffic situation.
  • the method can be fully or partially computer-implemented.
  • the invention therefore also relates to a computer program with machine-readable instructions which, when executed on one or more computers, cause the computer or computers to carry out the method described.
  • control devices for vehicles and embedded systems for technical devices that are also able to execute machine-readable instructions are also to be regarded as computers.
  • the invention also relates to a machine-readable data carrier and/or a download product with the computer program.
  • a download product is a digital product that can be transmitted over a data network, ie can be downloaded by a user of the data network, and which can be offered for sale in an online shop for immediate download, for example.
  • a computer can be equipped with the computer program, with the machine-readable data carrier or with the downloadable product.
  • the method manages with just one sensor for the first measurement modality and a monocular camera. However, the results get better as more cameras are used.
  • the times at which the sensor of the first measurement modality on the one hand and the cameras on the other hand record data are coordinated in such a way that the measurement data of the first measurement modality on the one hand and the images on the other hand relate to exactly the same points in time and time periods.
  • systematic errors are minimized when observing dynamic situations.
  • a flash lidar can be used in combination with a synchronized global shutter camera that images the entire scene at once.
  • a scanning lidar can also be combined with a camera with a rolling shutter.
  • the geometric properties of the sensor of the first measurement modality on the one hand and of the cameras on the other hand are matched to one another.
  • the observation areas, orientations and spatial resolutions of the respective sensors can be coordinated with one another, so that on the one hand the required distance range can be covered and on the other hand no excess data can be recorded for which there is no suitable "counterpart" of the other measurement modality for merging .
  • the coordinate origins of the lidar sensor on the one hand and the cameras on the other hand are also arranged along a line, analogous to a perfect stereo configuration, the projections of lidar visual beams run along image lines.
  • the corresponding memory accesses to image content can then run faster.
  • the lidar scans can also advantageously correspond to columns and/or rows of the images, in that the rotating mirrors of the lidar sensor are controlled accordingly.
  • FIG. 1 embodiment of the method 100 for creating a representation 2 containing depth information of a region 1;
  • FIG. 2 basic sketch of the merging of lidar measurement data 3 with camera images 4, 4';
  • FIG. 3 exemplary correction of distances in lidar measurement data 3 using camera images 4, 4';
  • Figure 4 Exemplary correction of depth information from camera images 4, 4' using lidar measurement data 3.
  • Figure 1 is a schematic flow chart of an embodiment of the method 100 for creating a representation 2 containing depth and/or distance information of a region 1.
  • step 110 measurement data 3 of a first measurement modality are provided, which sends an electromagnetic or acoustic wave into the observed area 1 and receives a reflected wave from this area (1).
  • This measurement data 3 contains an interesting property of the reflected wave, such as an amplitude and/or a frequency, which depends on the Distance between the location of the reflection and the sensor used for the measurement along a line of sight S depends.
  • This measured variable can therefore be the distance directly, for example.
  • the distance can also be encoded, for example, in the signal propagation time.
  • step 120 at least one image 4 of the observed region 1 recorded with a second measurement modality is provided.
  • correspondences 6 to one another are determined from the geometric arrangement 5 of the sensors used for the two measurement modalities to the effect which points 4a of the at least one image 4 on the one hand and points 3a along visual beams S on the other hand relate to the same location la in area 1.
  • a number of hypotheses 7a-7c are now set up with regard to the position of said location 1a in space.
  • Each of these hypotheses 7a-7c can be based on the measurement data 3 of the first measurement modality, the at least one image 4, the determined correspondences 6 and any combination thereof. All of the hypotheses 7a-7c that have been set up preferably make use of all of these data sources, ie measurement data 3, image 4 and correspondence 6.
  • step 150 the hypotheses 7a-7c in the representation 2 sought are aggregated to form depth and/or distance information 2a in relation to the location 1a.
  • an environment of a vehicle 50 or robot 60 can be selected as observed area 1.
  • a control signal 160a can then be determined from representation 2 in step 160 .
  • the vehicle 50 or the robot 60 can then be controlled in step 170 with this control signal 160a.
  • the additional depth information 4b in relation to the image 4 can be determined with a trained artificial neural network, ANN.
  • a profile of intensity values and/or correlation values 8 along the visual beam S can be determined from the stereoscopic recorded images 4, or from the image and the additional depth information 4b, in connection with the geometry of the visual beam S and the correspondences 6.
  • New hypotheses 7a-7c relating to the position of locations 1a are in this course, about which the measurement data 3 of the first measurement modality already make a statement.
  • distance information in the measurement data 3 of the first measurement modality can be corrected such that the course of this measurement data 3 along the line of sight S is as consistent as possible with the determined course of the intensity values and/or correlation values 8.
  • a distribution 9 of intensity values in a correlation volume can be determined from the stereoscopically recorded images 4, or from the image 4 and the additional depth information 4b.
  • this distribution 9 there are hypotheses 7a-7c relating to the position of places la. These hypotheses 7a-7c can be combined with further hypotheses 7a-7c which provide the measurement data 3 with regard to the same locations la.
  • the measurement data 3 can be projected along the line of sight S into the correlation volume.
  • the depth information 4b obtained from the stereoscopically recorded images 4, or the depth information 4b provided in addition to the image 4, can then be corrected such that in the correlation volume the Distribution 9 of the intensity values is as consistent as possible with the measurement data 3 of the first measurement modality.
  • points 3a along the line of sight S can be sampled.
  • points 4a corresponding to the sampled points 3a in the at least one image 4 can then be determined on the basis of the geometric arrangement 5 of the sensors used for the two measurement modalities.
  • a plurality of hypotheses 7a-7c with regard to the positions of sampled points 3a in space can be set up in order to then be aggregated in step 150.
  • points 4a from the at least one image 4 can be sampled.
  • points 3a corresponding to the sampled points 4a along the line of sight S can then be determined on the basis of the geometric arrangement 5 of the sensors used for the two measurement modalities.
  • a plurality of hypotheses 7a-7c with regard to the positions of sampled points 4a in space can be set up in order to then be aggregated in step 150.
  • the determination of corresponding points 4a, 3a according to block 145a or 148a can each include fitting a parameterized approach to the points in the at least one image 4 or to measuring points 3 of the first measuring modality.
  • the corresponding points 4a, 3a can then be retrieved from this approach according to block 145b or 148b.
  • the determination of corresponding points 4a, 3a can each include interpolating the corresponding points 4a, 3a between points in the at least one image 4, or between measuring points 3 of the first measuring modality.
  • FIG. 2 illustrates how lidar measurement data 3 can be combined with images 4, 4'.
  • a lidar sensor 10 sends a electromagnetic wave to an example drawn object 13 in a region 1, which reflects the electromagnetic wave. This reflection is regarded as a line of sight ray S in a geometric approximation.
  • the object 13 is also observed by two stereoscopically arranged cameras 11 and 12, which provide images 4 and 4', respectively. Due to the different perspectives from which the cameras 11 and 12 observe the object 13, the object 13 appears in the images 4 and 4' at different locations 13a and 13a'.
  • FIG. 3 illustrates how the distances determined in a lidar measurement can be corrected by additionally using the images 4, 4′ (“lidar-centric approach”).
  • the geometry of the line of sight S which also defines the points 3a lying on it, is extracted from the lidar measurement data 3.
  • the line of sight S is projected into the images 4, 4' and from the correspondence 6 it follows which points 4a, 4a' in the images 4, 4' correspond to a given point 3a on the line of sight S.
  • image portions are extracted from the images 4, 4′ around these points 4a, 4a′, and correlations 8 between these patches are calculated.
  • This correlation 8 is a numerical value assigned to the point 3a on the line of sight S. It can be merged with the original lidar measurement data 3 according to block 151 .
  • a first peak P which relates to the object 13 shown in FIG. 2
  • two further ghost peaks G which do not relate to any real object, can also be seen in the original lidar measurement data 3 .
  • the correlation 8 does not have these ghost peaks G, but the peak P to the real object 13 is broadened.
  • the merging of both pieces of information according to block 151 results in improved depth information 2a in relation to the locations la to which the points 3a on the line of sight S relate.
  • this improved depth information 2a has the form of an improved lidar spectrum.
  • the ghost peaks G disappear.
  • the peak P which relates to the real object 13, is significantly sharper. If this peak P is recognized according to block 22 and the distance of the object 13 to the lidar sensor 10 specified by it is included according to block 23 in the representation 2 of the area 1 ultimately sought, the accuracy and quality of this representation 2 is improved overall.
  • FIG. 4 illustrates how depth information 4b obtained from images 4, 4′ due to the stereoscopic arrangement of cameras 11 and 12 can be corrected by additionally using lidar measurement data 3 (“camera-centric approach”).
  • the depth information 4b is converted into a distribution 9 of intensity values in a correlation volume.
  • the line of sight S extracted from the lidar measurement data 3 in block 21 analogously to FIG. 3 is projected into the correlation volume using the correspondence 6, where it assumes the form S".
  • the lidar measurement data 3 in the correlation volume are plotted along this projected line of sight S". , so that they can be merged with the intensity values entered there.
  • the lidar measurement data 3 can, for example, be introduced as an additional layer and taken into account when recalculating the depth information 4b.
  • the lidar measurement data 3 can also be calculated in any other way with the image information in the correlation volume, for example as weighting factors for image information.
  • the lidar measurement data 3 also have the ghost peaks G, which do not relate to any real object, in addition to the peak P, which relates to the real object 13 . Nevertheless, taking them into account in the Recalculation of the depth information 4b in block 24 to result in updated depth information 2a with a significantly improved accuracy. If this updated depth information 2a is taken over into the representation 2 of the region 1, the accuracy and quality of this representation 2 is improved overall.

Landscapes

  • Engineering & Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Electromagnetism (AREA)
  • Acoustics & Sound (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Length Measuring Devices By Optical Means (AREA)

Abstract

Verfahren (100) zur Erstellung einer Tiefen- und/oder Abstandsinformation beinhaltenden Repräsentation (2) eines Bereichs (1) aus Messdaten (3, 4), die durch Beobachtung dieses Bereichs gewonnen wurden, mit den Schritten: - es werden Messdaten (3) einer ersten Messmodalität, die eine elektromagnetische oder akustische Welle in den beobachteten Bereich (1) sendet und eine reflektierte Welle aus diesem Bereich (1) empfängt, bereitgestellt (110), wobei diese Messdaten (3) eine interessierende Eigenschaft der reflektierten Welle, die von der Entfernung zwischen dem Ort der Reflexion und dem für die Messung verwendeten Sensor entlang eines Sichtstrahls (S) abhängt, enthalten; - es wird mindestens ein mit einer zweiten Messmodalität aufgenommenes Bild (4) des beobachteten Bereichs (1) bereitgestellt (120); - aus der geometrischen Anordnung (5) der für die beiden Messmodalitäten verwendeten Sensoren zueinander werden Korrespondenzen (6) dahingehend ermittelt (130), welche Punkte (4a) des mindestens einen Bildes (4) einerseits und Punkte (3a) entlang von Sichtstrahlen (S) andererseits sich auf den gleichen Ort (1a) im Bereich (1) beziehen; - unter Heranziehung der Messdaten (3) der ersten Messmodalität, des mindestens einen Bildes (4) und/oder der ermittelten Korrespondenzen (6) werden jeweils für ein und denselben Ort (1a) im Bereich (1) mehrere Hypothesen (7a-7c) bezüglich der Position dieses Orts (1a) im Raum aufgestellt (140); - diese Hypothesen (7a-7c) werden in der gesuchten Repräsentation (2) zu Tiefen- und/oder Abstandsinformation (2a) in Bezug auf diesen Ort (1a) aggregiert (150).

Description

Beschreibung
Titel:
Fusion von mit einem aktiven Messprinzip gewonnenen Roh- Messdaten und Bildern zu einer Repräsentation mit Tiefen- und/oder Abstandsinformation
Die vorliegende Erfindung betrifft die Auswertung von Messdaten mehrerer Messmodalitäten zur Erzeugung einer möglichst genauen und sicheren Repräsentation eines beobachten Bereichs, beispielsweise für die Zwecke des zumindest teilweise automatisierten Fahrens.
Stand der Technik
Ein zumindest teilweise automatisiert fahrendes Fahrzeug muss auf Objekte und Ereignisse in seiner Umgebung reagieren. Hierzu wird das Fahrzeugumfeld mit verschiedenen Sensoren, wie etwa Kameras, Radarsensoren oder Lidar- Sensoren, überwacht. Die Messdaten, die mit diesen verschiedenen Messmodalitäten aufgenommen wurden, werden häufig zu einer finalen Feststellung fusioniert, welche Objekte in der Umgebung des Fahrzeugs vorhanden sind. Die WO 2018/188 877 Al offenbart ein beispielhaftes Verfahren zur Fusionierung von Messdaten über mehrere Messmodalitäten.
Offenbarung der Erfindung
Die Erfindung stellt ein Verfahren zur Erstellung einer Tiefen- und/oder Abstandsinformation beinhaltenden Repräsentation eines Bereichs bereit. Das Verfahren verwendet Messdaten, die durch Beobachtung des Bereichs mit mindestens zwei verschiedenen Messmodalitäten gewonnen wurden. Es werden also Messdaten beider Messmodalitäten bereitgestellt. Die erste Messmodalität sendet eine elektromagnetische oder akustische Welle in den beobachteten Bereich und empfängt eine reflektierte Welle aus diesem Bereich. Mindestens eine interessierende Eigenschaft, wie beispielsweise die Amplitude oder im Falle von Frequenzmodulation die Frequenz, dieser reflektierten Welle wird gemessen. Zusätzlich kann der reflektierten Welle auch eine Richtung zugewiesen werden, aus der sie aus dem beobachteten Bereich auf den für die Messung verwendeten Sensor einfällt. In geometrischer Näherung kann die reflektierte Welle also als Sichtstrahl interpretiert werden, der vom Ort der Reflexion in gerader Linie auf den Sensor einfällt. Die interessierende Eigenschaft der reflektierten Welle kann dann in Abhängigkeit der Entfernung zwischen dem Ort der Reflexion und dem für die Messung verwendeten Sensor entlang des Sichtstrahls dargestellt werden. Derartige räumliche und/oder zeitliche Verläufe der interessierenden Eigenschaft sind die Rohdaten, die bei aktiven Messungen dieser Art typischerweise erfasst werden. Die erste Messmodalität kann insbesondere beispielsweise eine Radarmessung, eine Lidar-Messung oder eine Ultraschallmessung sein. Derartige Messungen werden insbesondere vielfach eingesetzt, um Objekte im Umfeld eines Fahrzeugs oder Roboters zu erkennen.
Die zweite Messmodalität liefert mindestens ein Bild des beobachteten Bereichs. Geeignet sind hierbei insbesondere beispielsweise Kamerabilder, Videobilder oder Wärmebilder. Derartige Bilder können beispielsweise mit strukturierter Beleuchtung oder Time-of-Flight-Techniken aufgenommen werden, die unmittelbar auch Tiefeninformation mitmessen. Ein derartiges Bild kann beispielsweise als RGBD-Bild kodiert sein, in dem zusätzlich zu der RGB- Farbinformation auch die Tiefe (Depth) enthalten ist. Es können insbesondere beispielsweise auch mehrere Kameras stereoskopisch kombiniert werden, so dass zeitgleich mehrere Bilder des beobachteten Bereichs aus verschiedenen Perspektiven entstehen. Es kann auch mindestens eine bewegte Kamera verwendet werden, und Tiefeninformation kann mit einer Structure from Motion- Technik ermittelt werden. Die Bilder können beispielsweise in der Form von Intensitätswerten vorliegen, die in einem zwei- oder dreidimensionalen Raster angeordnet sind. Bilder können aber auch beispielsweise in Form von Punktwolken vorliegen, in denen diejenigen Punkte, die mit Intensitätswerten belegt sind, kein zusammenhängendes Gebiet bilden. Aus der geometrischen Anordnung der für die beiden Messmodalitäten verwendeten Sensoren zueinander werden Korrespondenzen dahingehend ermittelt, welche Punkte des mindestens einen Bildes einerseits und Punkte entlang von Sichtstrahlen andererseits sich auf den gleichen Ort im Bereich beziehen. Eine solche Korrespondenz kann beispielsweise angeben, dass ein bestimmter Ort X auf einem Sichtstrahl zwischen dem für die erste Messmodalität verwendeten Sensor und einem Objekt, der sich auch im Sichtfeld von zwei stereoskopisch angeordneten Kameras befindet, im Bild der ersten Kamera durch ein Pixel xci und im Bild der zweiten Kamera durch ein anderes Pixel xC2 dargestellt wird.
Unter Heranziehung der Messdaten der ersten Messmodalität, des mindestens einen Bildes und/oder der ermittelten Korrespondenzen werden jeweils für ein und denselben Ort im Bereich mehrere Hypothesen bezüglich der Position dieses Orts im Raum aufgestellt. Hierbei wird im Unterschied zu bekannten Verfahren, die ein stark verdichtetes Verarbeitungsergebnis der Messdaten (beispielsweise in Form eines oder mehrerer Peaks) weiter berücksichtigen, das vollständige Rohsignal genutzt. Wie zuvor erläutert, umfasst dieses Rohsignal zeitliche und/oder räumliche Verläufe einer interessierenden Eigenschaft der aus dem beobachteten Bereich reflektierten Welle.
Die Hypothesen können sich beispielsweise selektiv auf die Tiefen- und/oder Abstandsinformation des Orts beziehen, aber auch beispielsweise auf die Koordinaten der Position des Orts insgesamt. Die verschiedenen Hypothesen können insbesondere beispielsweise auf Tiefen- und/oder Abstandsinformation beruhen, die aus verschiedenen Quellen stammt. So kann beispielsweise eine erste Hypothese auf Tiefen- und/oder Abstandsinformation beruhen, die von der aktiven Messung mit der elektromagnetischen oder akustischen Welle herrührt. Eine zweite Hypothese kann hingegen beispielsweise auf Tiefen- und/oder Abstandsinformation beruhen, die von einer stereoskopischen Kombination zweier Bilder herrührt.
Die Hypothesen werden in der gesuchten Repräsentation zu Tiefen- und/oder Abstandsinformationen auf den jeweiligen Ort aggregiert. Dieses Aggregieren kann insbesondere beispielsweise beinhalten, dass Tiefen- und/oder Abstandsinformation, die einer der Hypothesen zu Grunde lag, so korrigiert wird, dass eine entsprechend aktualisierte Hypothese dann bestmöglich im Einklang mit der oder den weiteren Hypothesen steht.
Die Tiefen- und/oder Abstandsinformation in der Repräsentation kann insbesondere beispielsweise mindestens eine Koordinate der Position des Orts im Raum umfassen. Die Tiefen- und/oder Abstandsinformation kann sich aber auch beispielsweise selektiv auf eine Entfernung zwischen dem Ort und einem vorgegebenen Bezugspunkt, beispielsweise der Position des für die erste Messmodalität verwendeten Sensors, beziehen.
Es wurde erkannt, dass durch das Aggregieren die Genauigkeit der letztendlich erhaltenen Tiefen- und/oder Abstandsinformation in der Repräsentation deutlich verbessert werden kann. Insbesondere können Entfernungen zu Objekten in dem beobachteten Bereich genauer bestimmt werden. Auch kann beispielsweise die Form von Peaks in einem Radar- oder Lidar-Signal genauer ausgewertet werden. Aus dieser Form können beispielsweise Informationen über Oberflächennormalen und Rauigkeiten ermittelt werden.
Die Tiefen- und/oder Abstandsinformation wird auch insoweit verlässlicher, als sie immer auf mindestens zwei unabhängigen Messungen mit mindestens zwei verschiedenen Messmodalitäten beruht. Wenn eine dieser Messungen völlig unsinnige Ergebnisse liefert, beispielsweise weil ein Sensor defekt, verschmutzt oder dejustiert ist, fällt dies spätestens beim Aggregieren auf.
Indem sich die aktive Messung mit der elektromagnetischen oder akustischen Welle einerseits und die Abbildung mit mindestens einer Kamera andererseits ergänzen, ist weiterhin die Wahrscheinlichkeit vermindert, dass in der Repräsentation Objekte gänzlich fehlen oder umgekehrt die Repräsentation „Geisterobjekte“ enthält, die in der Realität gar nicht vorhanden sind. So können Objekte, die im Rauschen eines Lidar-Signals verborgen sind, durch die Fusion mit zusätzlicher Information aus einem oder mehreren Kamerabildern über den Rauschpegel gehoben und so erkennbar gemacht werden. Ebenso kann ein Lidar-Signal die Formgebung ausgedehnter, aber nur schwach texturierter Objekte, die aus Bildern dieser Objekte nur schwierig und ungenau zu ermitteln ist, deutlich genauer messen. Umgekehrt ist die Wahrscheinlichkeit, dass beide Messmodalitäten auf Grund von Messartefakten ein „Geisterobjekt“ an der gleichen Stelle erkennen, auf Grund der prinzipiellen physikalischen Unterschiede zwischen den Messmodalitäten sehr gering.
Insgesamt kann das Verfahren insbesondere bei sicherheitsrelevanten Systemen die Sicherheitsintegrität der Umgebungserfassung signifikant erhöhen. Jede Tiefeninformation, die aus den Rohsignalen mindestens zweier unabhängiger Messungen fusioniert wurde, ist genauer, verlässlicher und weniger wahrscheinlich falsch.
Fusionen zwischen Radar- oder Lidar- Messdaten einerseits und Bildern andererseits hat es schon gegeben. Im Unterschied zu früheren Ansätzen wird im Rahmen des hier beschriebenen Verfahrens jedoch das vollständige Rohsignal der ersten Messmodalität genutzt. Es wird also für jeden betrachteten Sichtstrahl die komplette Kurve der interessierenden Eigenschaft in Abhängigkeit der Entfernung zwischen dem Sensor und dem Ort der Reflexion entlang dieses Sichtstrahls berücksichtigt. In früheren Ansätzen wurden hingegen lediglich Peaks aus dem Rohsignal extrahiert und weiter verarbeitet. Hierbei wurde das Rohsignal sehr stark verdichtet. Dies ist in etwa damit vergleichbar, dass aus einem Bild beispielsweise Bounding-Boxen um sichtbare Objekte herum als Merkmale extrahiert werden.
Mindestens eine Hypothese kann unter Heranziehung von Messdaten der ersten Messmodalität einerseits und Informationen aus dem mindestens einen Bild andererseits, die sich ausweislich der Korrespondenzen auf den gleichen Ort beziehen, aufgestellt werden. Beispielsweise kann für einen Ort auf dem Sichtstrahl zwischen dem für die erste Messmodalität verwendeten Sensor und einem Objekt anhand der Korrespondenzen ermittelt werden, welche Pixel in einem oder mehreren Kamerabildern Informationen über genau diesen Ort beinhalten. Auf Grund der bekannten geometrischen Anordnung der für die beiden Messmodalitäten verwendeten Sensoren zueinander steckt in Korrespondenzen dieser Art bereits eine Hypothese dergestalt, wo genau der besagte Ort im dreidimensionalen Raum liegt. Die von der ersten Messmodalität gelieferte interessierende Eigenschaft, etwa Amplitude und/oder Frequenz, einerseits und die Bildinformation in Bezug auf diesen Ort andererseits können dann beispielsweise verwendet werden, um die Hypothese zu prüfen.
Alternativ oder auch in Kombination hierzu kann mindestens eine Hypothese unter Heranziehung von Bildern, die von zwei oder mehr Kameras einer stereoskopischen Kameraanordnung, und/oder von mindestens einer bewegten Kamera mit einer Structure from Motion-Technik, aufgenommen wurden, aufgestellt werden. Aus der bekannten geometrischen Anordnung der Kameras ergibt sich, wo ein Ort, der an zwei verschiedenen Punkten in den jeweiligen Kamerabildern jeweils ein bestimmtes Intensitätssignal hervorruft, im Raum liegen sollte.
Wenn für ein Kamerabild zusätzliche Tiefeninformation verfügbar ist, kann auch aus dieser Tiefeninformation eine Hypothese dahingehend gewonnen werden, wo ein durch ein bestimmtes Bildpixel adressierter Ort physisch liegen sollte. Eine derartige zusätzliche Tiefeninformation kann insbesondere beispielsweise mit einem entsprechend trainierten künstlichen neuronalen Netzwerk, KNN, ermittelt werden.
In einer besonders vorteilhaften Ausgestaltung wird aus den stereoskopischen aufgenommenen Bildern, bzw. aus dem Bild und der zusätzlichen Tiefeninformation, in Verbindung mit der Geometrie des Sichtstrahls und den Korrespondenzen ein Verlauf von Intensitätswerten und/oder Korrelationswerten entlang des Sichtstrahls ermittelt. Korrelationswerte können beispielsweise aus zwei stereoskopisch aufgenommenen Bildern als Korrelation zwischen Bildbereichen („Patches“) ermittelt werden, die in den beiden Bildern jeweils zu ein und demselben Punkt auf dem Sichtstrahl korrespondieren.
Entfernungsinformation in den Messdaten der ersten Messmodalität wird dann so korrigiert, dass der Verlauf dieser Messdaten entlang des Sichtstrahls bestmöglich mit dem ermittelten Verlauf der Intensitätswerte und/oder Korrelationswerte in Einklang stehen. Die Fusion der Messdaten beider Messmodalitäten ist dann in dem Sinne auf die erste Messmodalität zentriert, dass • der Abgleich mit den Bilddaten der zweiten Messmodalität im Raum der für die erste Messmodalität typischen Messkurven stattfindet und
• eine verbesserte Messkurve dieser Art als Ergebnis dieses Abgleichs erhalten wird.
Auf diese Weise können insbesondere beispielsweise „Geisterobjekte“, die in den Messdaten der ersten Messmodalität als Begleiterscheinung zur Erkennung eines echten Objekts auftreten können, unterdrückt werden, da das Auftreten von „Geisterobjekten“ an die konkrete erste Messmodalität gebunden ist.
Beispielsweise können anhand einer geometrischen Beschreibung des Sichtstrahls Punkte entlang des Sichtstrahls gesampelt werden. Anhand der geometrischen Anordnung der für die beiden Messmodalitäten verwendeten Sensoren zueinander können dann zu den gesampelten Punkten korrespondierende Punkte in dem mindestens einen Bild ermittelt werden. Alternativ oder auch in Kombination hierzu können jeweils mehrere Hypothesen bezüglich der Positionen von gesampelten Punkten im Raum aufgestellt und aggregiert werden. Insbesondere können die zu sampelnden Punkte aus den diskreten Messpunkten ausgewählt werden, für die bei der Messung mit der ersten Messmodalität tatsächlich Messdaten aufgenommen wurden.
In einer weiteren besonders vorteilhaften Ausgestaltung wird aus den stereoskopisch aufgenommenen Bildern, bzw. aus dem Bild und der zusätzlichen Tiefeninformation, eine Verteilung von Intensitätswerten in einem Korrelationsvolumen ermittelt. Die Messdaten entlang des Sichtstrahls werden in das Korrelationsvolumen projiziert. Die aus den stereoskopisch aufgenommenen Bildern gewonnene Tiefeninformation, bzw. die zusätzliche Tiefeninformation, wird dann so korrigiert, dass in dem Korrelationsvolumen die Verteilung der Intensitätswerte bestmöglich mit den Messdaten der ersten Messmodalität in Einklang steht. Es entsteht also eine verbesserte Tiefenschätzung für die durch das stereoskopisch aufgenommene Bild, bzw. durch das einzelne Bild und eine zusätzliche Tiefeninformation, angegebenen Orte. Die Fusion der Messdaten beider Messmodalitäten ist dann in dem Sinne auf die zweite Messmodalität zentriert, dass • der Abgleich mit den Messdaten der ersten Messmodalität in einem durch Bilder der zweiten Messmodalität aufgespannten Korrelationsvolumen stattfindet und
• verbesserte Tiefeninformation, die sich auf Bilder der zweiten Messmodalität bezieht, also beispielsweise eine Tiefenkarte, als Ergebnis dieses Abgleichs erhalten wird.
Beispielsweise können Punkte aus dem mindestens einen Bild gesampelt werden. Es können dann anhand der geometrischen Anordnung der für die beiden Messmodalitäten verwendeten Sensoren zueinander zu den gesampelten Punkten korrespondierende Punkte entlang des Sichtstrahls ermittelt werden. Alternativ oder auch in Kombination hierzu können jeweils mehrere Hypothesen bezüglich der Positionen von gesampelten Punkten im Raum aufgestellt und aggregiert werden.
Wenn zu einem Punkt auf dem Sichtstrahl ein korrespondierender Punkt in dem mindestens einen Bild ermittelt wird, oder umgekehrt zu einem Punkt im Bild ein korrespondierender Punkt auf dem Sichtstrahl ermittelt wird, ist nicht garantiert, dass das Bild, bzw. der Sichtstrahl, an der jeweils durch die Korrespondenzen angegebenen Stelle tatsächlich Messwerte bzw. Intensitätswerte enthält. Insbesondere werden Messungen mit der ersten Messmodalität einerseits und Bilder andererseits mit unterschiedlichen Auflösungen abgetastet. Die Pixelauflösung von Bildern ist dabei typischerweise wesentlich feiner als die Entfernungsauflösung etwa von Lidar-Messungen.
Eine Möglichkeit, fehlende Messwerte bzw. Intensitätswerte zu ergänzen, besteht darin, einen parametrisierten Ansatz für die Messwerte bzw. Intensitätswerte an die Punkte in dem mindestens einen Bild, bzw. an die Messpunkte der ersten Messmodalität, zu fitten. Dieser parametrisierte Ansatz ist dann überall erklärt. Somit können dann die korrespondierenden Punkte und zugehörigen Messwerte bzw. Intensitätswerte aus diesem Ansatz abgerufen werden.
Eine zweite Möglichkeit, fehlende Messwerte bzw. Intensitätswerte zu ergänzen, besteht darin, die korrespondierenden Punkte sowie die zugehörigen Messwerte bzw. Intensitätswerte zwischen Punkten in dem mindestens einen Bild, bzw. zwischen Messpunkten der ersten Messmodalität, zu interpolieren. Auch die Interpolation ermöglicht es somit, korrespondierende Punkte im Bild, bzw. entlang des Sichtstrahls, auf einer feineren Skala zu erhalten als durch die Abtastung des Bildes, bzw. des Sichtstrahls, vorgegeben.
In einer besonders vorteilhaften Ausgestaltung wird ein Umfeld eines Fahrzeugs oder Roboters als beobachteter Bereich gewählt. Gerade bei Fahrzeugen und Robotern schafft die multimodale Beobachtung des Umfelds beispielsweise mit Radar oder Lidar einerseits und mit einer oder mehreren Kameras andererseits ein erhöhtes Sicherheitsniveau, weil Objekte, mit denen das Fahrzeug, bzw. der Roboter, kollidieren könnte, mit einer geringeren Wahrscheinlichkeit übersehen werden.
Daher wird in einer weiteren vorteilhaften Ausgestaltung aus der Repräsentation ein Ansteuersignal ermittelt. Das Fahrzeug, bzw. der Roboter, wird mit diesem Ansteuersignal angesteuert. Es ist dann vorteilhaft die Wahrscheinlichkeit erhöht, dass die mit dem Ansteuersignal ausgelöste Reaktion des Fahrzeugs, bzw. des Roboters, auf eine im Umfeld erfasste Verkehrssituation dieser Verkehrssituation angemessen ist.
Das Verfahren kann insbesondere ganz oder teilweise computerimplementiert sein. Daher bezieht sich die Erfindung auch auf ein Computerprogramm mit maschinenlesbaren Anweisungen, die, wenn sie auf einem oder mehreren Computern ausgeführt werden, den oder die Computer dazu veranlassen, das beschriebene Verfahren auszuführen. In diesem Sinne sind auch Steuergeräte für Fahrzeuge und Embedded-Systeme für technische Geräte, die ebenfalls in der Lage sind, maschinenlesbare Anweisungen auszuführen, als Computer anzusehen.
Ebenso bezieht sich die Erfindung auch auf einen maschinenlesbaren Datenträger und/oder auf ein Downloadprodukt mit dem Computerprogramm. Ein Downloadprodukt ist ein über ein Datennetzwerk übertragbares, d.h. von einem Benutzer des Datennetzwerks downloadbares, digitales Produkt, das beispielsweise in einem Online-Shop zum sofortigen Download feilgeboten werden kann. Weiterhin kann ein Computer mit dem Computerprogramm, mit dem maschinenlesbaren Datenträger bzw. mit dem Downloadprodukt ausgerüstet sein.
Das Verfahren kommt im einfachsten Fall mit nur einem Sensor für die erste Messmodalität und einer monokularen Kamera aus. Die Ergebnisse werden jedoch umso besser, je mehr Kameras verwendet werden.
Idealerweise werden die Zeiten, zu denen der Sensor der ersten Messmodalität einerseits und die Kameras andererseits Daten aufnehmen, so aufeinander abgestimmt, dass sich die Messdaten der ersten Messmodalität einerseits und die Bilder andererseits auf genau gleiche Zeitpunkte und Zeiträume beziehen. Das heißt, es sollten sowohl der Beginn als auch die Dauer der Datenaufnahme abgestimmt sein. Auf diese Weise werden bei der Beobachtung dynamischer Situationen systematische Fehler minimiert. Beispielsweise kann ein Blitz-Lidar in Kombination mit einer hierzu synchronisierten globalen Shutter- Kamera, die die ganze Szene auf einmal abbildet, verwendet werden. Es kann auch beispielsweise ein scannendes Lidar mit einer Kamera mit Rolling-Shutter kombiniert werden.
Idealerweise werden die geometrischen Eigenschaften des Sensors der ersten Messmodalität einerseits und der Kameras andererseits aufeinander abgestimmt. Es können also insbesondere beispielsweise die Beobachtungsbereiche, Orientierungen und räumlichen Auflösungen der jeweiligen Sensoren aufeinander abgestimmt werden, so dass einerseits der benötigte Entfernungsbereich abgedeckt werden kann und andererseits keine überschüssigen Daten aufgenommen werden, für die es kein passendes „Gegenstück“ der anderen Messmodalität zum Fusionieren gibt.
Wenn zusätzlich die Koordinatenursprünge des Lidar-Sensors einerseits und der Kameras andererseits noch entlang einer Linie angeordnet werden, analog zu einer perfekten Stereo-Konfiguration, verlaufen die Projektionen von Lidar- Sichtstrahlen entlang von Bildzeilen. Die entsprechenden Speicherzugriffe auf Bildinhalte können dann schneller ablaufen. Auch die Lidar-Scans können vorteilhaft zu Spalten und/oder Zeilen der Bilder korrespondieren, indem die rotierenden Spiegel des Lidar-Sensors entsprechend angesteuert werden.
Weitere, die Erfindung verbessernde Maßnahmen werden nachstehend gemeinsam mit der Beschreibung der bevorzugten Ausführungsbeispiele der Erfindung anhand von Figuren näher dargestellt.
Ausführungsbeispiele
Es zeigt:
Figur 1 Ausführungsbeispiel des Verfahrens 100 zur Erstellung einer Tiefeninformation beinhaltenden Repräsentation 2 eines Bereichs 1;
Figur 2 Prinzipskizze des Zusammenführens von Lidar- Messdaten 3 mit Kamerabildern 4, 4';
Figur 3 Beispielhafte Korrektur von Entfernungen in Lidar- Messdaten 3 anhand von Kamerabildern 4, 4';
Figur 4 Beispielhafte Korrektur von Tiefeninformation aus Kamerabildern 4, 4' anhand von Lidar- Messdaten 3.
Figur 1 ist ein schematisches Ablaufdiagramm eines Ausführungsbeispiels des Verfahrens 100 zur Erstellung einer Tiefen- und/oder Abstandsinformation beinhaltenden Repräsentation 2 eines Bereichs 1.
In Schritt 110 werden Messdaten 3 einer ersten Messmodalität, die eine elektromagnetische oder akustische Welle in den beobachteten Bereich 1 sendet und eine reflektierte Welle aus diesem Bereich (1) empfängt, bereitgestellt. Diese Messdaten 3 enthalten eine interessierende Eigenschaft der reflektierten Welle, wie beispielsweise eine Amplitude und/oder eine Frequenz, die von der Entfernung zwischen dem Ort der Reflexion und dem für die Messung verwendeten Sensor entlang eines Sichtstrahls S abhängt. Diese Messgröße kann also beispielsweise unmittelbar die Entfernung sein. Die Entfernung kann aber auch beispielsweise in der Signallaufzeit kodiert sein.
In Schritt 120 wird mindestens ein mit einer zweiten Messmodalität aufgenommenes Bild 4 des beobachteten Bereichs 1 bereitgestellt.
In Schritt 130 werden aus der geometrischen Anordnung 5 der für die beiden Messmodalitäten verwendeten Sensoren zueinander Korrespondenzen 6 dahingehend ermittelt, welche Punkte 4a des mindestens einen Bildes 4 einerseits und Punkte 3a entlang von Sichtstrahlen S andererseits sich auf den gleichen Ort la im Bereich 1 beziehen.
Es werden nun in Schritt 140 mehrere Hypothesen 7a-7c bezüglich der Position des besagten Orts la im Raum aufgestellt. Jede dieser Hypothesen 7a-7c kann für sich genommen auf den Messdaten 3 der ersten Messmodalität, dem mindestens einen Bild 4, den ermittelten Korrespondenzen 6 sowie beliebigen Kombinationen hierauf basieren. Die Gesamtheit aller aufgestellten Hypothesen 7a-7c macht vorzugsweise von all diesen Datenquellen, also Messdaten 3, Bild 4 und Korrespondenzen 6, Gebrauch.
In Schritt 150 werden die Hypothesen 7a-7c in der gesuchten Repräsentation 2 zu Tiefen-und/oder Abstandsinformation 2a in Bezug auf den Ort la aggregiert.
Gemäß Block 105 kann ein Umfeld eines Fahrzeugs 50 oder Roboters 60 als beobachteter Bereich 1 gewählt werden. Es kann dann in Schritt 160 aus der Repräsentation 2 ein Ansteuersignal 160a ermittelt werden. Das Fahrzeug 50, bzw. der Roboter 60, kann dann in Schritt 170 mit diesem Ansteuersignal 160a angesteuert werden.
Gemäß Block 141 kann mindestens eine Hypothese 7a-7c
• unter Heranziehung von Messdaten 3 der ersten Messmodalität einerseits und Informationen aus dem mindestens einen Bild 4 andererseits, die sich ausweislich der Korrespondenzen 6 auf den gleichen Ort beziehen, und/oder
• unter Heranziehung von Bildern 4, die von zwei oder mehr Kameras einer stereoskopischen Kameraanordnung, und/oder von mindestens einer bewegten Kamera mit einer Structure from Motion-Technik, aufgenommen wurden, und/oder
• unter Heranziehung eines Bildes 4 in Kombination mit zusätzlicher Tiefeninformation 4b in Bezug auf dieses Bild 4 aufgestellt werden. Hierbei kann insbesondere beispielsweise gemäß Block 141a die zusätzliche Tiefeninformation 4b in Bezug auf das Bild 4 mit einem trainierten künstlichen neuronalen Netzwerk, KNN, ermittelt werden.
Gemäß Block 142 kann aus den stereoskopischen aufgenommenen Bildern 4, bzw. aus dem Bild und der zusätzlichen Tiefeninformation 4b, in Verbindung mit der Geometrie des Sichtstrahls S und den Korrespondenzen 6 ein Verlauf von Intensitätswerten und/oder Korrelationswerten 8 entlang des Sichtstrahls S ermittelt werden. In diesem Verlauf stecken neue Hypothesen 7a-7c bezüglich der Position von Orten la, zu denen auch die Messdaten 3 der ersten Messmodalität bereits eine Aussage machen. Demenentsprechend kann dann gemäß Block 151 Entfernungsinformation in den Messdaten 3 der ersten Messmodalität so korrigiert werden, dass der Verlauf dieser Messdaten 3 entlang des Sichtstrahls S bestmöglich mit dem ermittelten Verlauf der Intensitätswerte und/oder Korrelationswerte 8 in Einklang steht.
Gemäß Block 143 kann aus den stereoskopisch aufgenommenen Bildern 4, bzw. aus dem Bild 4 und der zusätzlichen Tiefeninformation 4b, eine Verteilung 9 von Intensitätswerten in einem Korrelationsvolumen ermittelt werden. In dieser Verteilung 9 stecken Hypothesen 7a-7c bezüglich der Position von Orten la. Diese Hypothesen 7a-7c können mit weiteren Hypothesen 7a-7c zusammengeführt werden, die die Messdaten 3 bezüglich der gleichen Orte la bereitstellen. Zu diesem Zweck können gemäß Block 152 die Messdaten 3 entlang des Sichtstrahls S in das Korrelationsvolumen projiziert werden. Gemäß Block 153 kann dann die aus den stereoskopisch aufgenommenen Bildern 4 gewonnene Tiefeninformation 4b, bzw. die zusätzlich zum Bild 4 bereitgestellte Tiefeninformation 4b, so korrigiert werden, dass in dem Korrelationsvolumen die Verteilung 9 der Intensitätswerte bestmöglich mit den Messdaten 3 der ersten Messmodalität in Einklang steht.
Gemäß Block 144 können anhand einer geometrischen Beschreibung des Sichtstrahls S Punkte 3a entlang des Sichtstrahls S gesampelt werden. Gemäß Block 145 können dann anhand der geometrischen Anordnung 5 der für die beiden Messmodalitäten verwendeten Sensoren zueinander zu den gesampelten Punkten 3a korrespondierende Punkte 4a in dem mindestens einen Bild 4 ermittelt werden. Alternativ oder in Kombination hierzu können gemäß Block 146 jeweils mehrere Hypothesen 7a-7c bezüglich der Positionen von gesampelten Punkten 3a im Raum aufgestellt werden, um dann in Schritt 150 aggregiert zu werden.
Gemäß Block 147 können Punkte 4a aus dem mindestens einen Bild 4 gesampelt werden. Gemäß Block 148 können dann anhand der geometrischen Anordnung 5 der für die beiden Messmodalitäten verwendeten Sensoren zueinander zu den gesampelten Punkten 4a korrespondierende Punkte 3a entlang des Sichtstrahls S ermittelt werden. Alternativ oder in Kombination hierzu können gemäß Block 149 jeweils mehrere Hypothesen 7a-7c bezüglich der Positionen von gesampelten Punkten 4a im Raum aufgestellt werden, um dann in Schritt 150 aggregiert zu werden.
Hierbei kann das Ermitteln von korrespondierenden Punkten 4a, 3a gemäß Block 145a bzw. 148a jeweils umfassen, einen parametrisierten Ansatz an die Punkte in dem mindestens einen Bild 4, bzw. an Messpunkte 3 der ersten Messmodalität, zu fitten. Es können dann gemäß Block 145b bzw. 148b die korrespondierenden Punkte 4a, 3a aus diesem Ansatz abgerufen werden.
Alternativ oder in Kombination hierzu kann gemäß Block 145c bzw. 148c das Ermitteln von korrespondierenden Punkten 4a, 3a jeweils umfassen, die korrespondierenden Punkte 4a, 3a zwischen Punkten in dem mindestens einen Bild 4, bzw. zwischen Messpunkten 3 der ersten Messmodalität, zu interpolieren.
Figur 2 veranschaulicht, wie Lidar- Messdaten 3 mit Bildern 4, 4' zusammengeführt werden können. Ein Lidar-Sensor 10 sendet eine elektromagnetische Welle zu einem beispielhaft eingezeichneten Objekt 13 in einem Bereich 1, das die elektromagnetische Welle reflektiert. Diese Reflexion wird in geometrischer Näherung als Sichtstrahl S betrachtet. Das Objekt 13 wird weiterhin von zwei stereoskopisch angeordneten Kameras 11 und 12 beobachtet, die Bilder 4 bzw. 4' liefern. Auf Grund der unterschiedlichen Perspektiven, aus denen die Kameras 11 und 12 das Objekt 13 beobachten, erscheint das Objekt 13 in den Bildern 4 und 4' an unterschiedlichen Orten 13a und 13a'.
Aus der geometrischen Anordnung 5 des Lidar-Sensors 10 sowie der beiden Kameras 11 und 12 zueinander folgen Korrespondenzen 6, 6' dahingehend, welche Punkte 4a, 4a' im Bild 4 bzw. 4' sich auf den gleichen Ort la im Bereich 1 beziehen wie der Punkt 3a auf dem Sichtstrahl S. Die durch den Punkt 3a gelieferte Positionsangabe dieses Orts la ist eine Hypothese 7a-7c zur Position dieses Orts la, die noch mit weiteren Hypothesen 7a-7c zusammenzuführen ist. Solche weiteren Hypothesen 7a-7c können beispielsweise aus der Zusammenschau der Bilder 4 und 4' gewonnen werden. Die Punkte 4a, 4a', die zum Punkt 3a korrespondieren, liegen auf einer Projektion S' des Sichtstrahls S in die Bilder 4 und 4'.
Figur 3 verdeutlicht, wie die in einer Lidar- Messung ermittelten Entfernungen durch das zusätzliche Heranziehen der Bilder 4, 4' korrigiert werden können („Lidar-zentrischer Ansatz“). In Block 21 wird aus den Lidar- Messdaten 3 die Geometrie des Sichtstrahls S, die auch die auf ihm liegenden Punkte 3a festlegt, extrahiert. Der Sichtstrahl S wird in die Bilder 4, 4' projiziert, und aus der Korrespondenz 6 folgt, welche Punkte 4a, 4a' in den Bildern 4, 4' zu einem gegebenen Punkt 3a auf dem Sichtstrahl S korrespondieren.
Gemäß Block 142 werden aus den Bildern 4, 4'um diese Punkte 4a, 4a' jeweils Bildanteile (Patches) extrahiert, und es werden Korrelationen 8 zwischen diesen Patches berechnet. Diese Korrelation 8 ist ein Zahlenwert, der dem Punkt 3a auf dem Sichtstrahl S zugeordnet wird. Sie kann gemäß Block 151 mit den ursprünglichen Lidar- Messdaten 3 zusammengeführt werden. In den ursprünglichen Lidar- Messdaten 3 sind neben einem ersten Peak P, der sich auf das in Figur 2 gezeigte Objekt 13 bezieht, auch zwei weitere Geister- Peaks G zu erkennen, die sich auf kein reales Objekt beziehen. Die Korrelation 8 weist diese Geister-Peaks G nicht auf, dafür ist der Peak P zum realen Objekt 13 verbreitert. Durch die Fusion beider Informationen gemäß Block 151 entsteht verbesserte Tiefeninformation 2a in Bezug auf die Orte la, auf die sich die Punkte 3a auf dem Sichtstrahl S beziehen. Diese verbesserte Tiefeninformation 2a hat in dem in Figur 3 gezeigten Beispiel die Form eines verbesserten Lidar- Spektrums. Die Geister-Peaks G verschwinden. Gleichzeitig ist der Peak P, der sich auf das reale Objekt 13 bezieht, deutlich schärfer. Wenn also dieser Peak P gemäß Block 22 erkannt und die durch ihn angegebene Entfernung des Objekts 13 zum Lidar-Sensor 10 gemäß Block 23 in die letztendlich gesuchte Repräsentation 2 des Bereichs 1 aufgenommen wird, wird die Genauigkeit und Qualität dieser Repräsentation 2 insgesamt verbessert.
Figur 4 verdeutlicht, wie Tiefeninformation 4b, die aus den Bildern 4, 4' auf Grund der stereoskopischen Anordnung der Kameras 11 und 12 gewonnen wurde, durch das zusätzliche Heranziehen der Lidar- Messdaten 3 korrigiert werden kann („Kamera-zentrischer Ansatz“). Die Tiefeninformation 4b wird gemäß Block 143 in eine Verteilung 9 von Intensitätswerten in einem Korrelationsvolumen überführt. Der analog zu Figur 3 in Block 21 aus den Lidar- Messdaten 3 extrahierte Sichtstrahl S wird anhand der Korrespondenz 6 in das Korrelationsvolumen projiziert, wo er die Form S" annimmt. Entlang dieses projizierten Sichtstrahls S" werden die Lidar- Messdaten 3 im Korrelationsvolumen aufgetragen, so dass sie mit den dort eingetragenen Intensitätswerten fusioniert werden können. Die Lidar- Messdaten 3 können beispielsweise als zusätzlicher Layer eingeführt und bei der Neuberechnung der Tiefeninformation 4b mitberücksichtigt werden. Die Lidar- Messdaten 3 können aber auch in beliebiger anderer Weise mit den Bildinformationen im Korrelationsvolumen verrechnet werden, beispielsweise als Gewichtungsfaktoren für Bildinformationen.
Die Lidar- Messdaten 3 weisen analog zu Figur 3 neben dem Peak P, der sich auf das reale Objekt 13 bezieht, noch die Geister-Peaks G auf, die sich auf kein reales Objekt beziehen. Dennoch führt ihre Berücksichtigung bei der Neuberechnung der Tiefeninformation 4b in Block 24 dazu, dass aktualisierte Tiefeninformation 2a mit einer deutlich verbesserten Genauigkeit entsteht. Wenn diese aktualisierte Tiefeninformation 2a in die Repräsentation 2 des Bereichs 1 übernommen wird, wird die Genauigkeit und Qualität dieser Repräsentation 2 insgesamt verbessert.

Claims

Ansprüche
1. Verfahren (100) zur Erstellung einer Tiefen- und/oder Abstandsinformation beinhaltenden Repräsentation (2) eines Bereichs (1) aus Messdaten (3, 4), die durch Beobachtung dieses Bereichs gewonnen wurden, mit den Schritten:
• es werden Messdaten (3) einer ersten Messmodalität, die eine elektromagnetische oder akustische Welle in den beobachteten Bereich (1) sendet und eine reflektierte Welle aus diesem Bereich (1) empfängt, bereitgestellt (110), wobei diese Messdaten (3) eine interessierende Eigenschaft der reflektierten Welle, die von der Entfernung zwischen dem Ort der Reflexion und dem für die Messung verwendeten Sensor entlang eines Sichtstrahls (S) abhängt, enthalten;
• es wird mindestens ein mit einer zweiten Messmodalität aufgenommenes Bild (4) des beobachteten Bereichs (1) bereitgestellt (120);
• aus der geometrischen Anordnung (5) der für die beiden Messmodalitäten verwendeten Sensoren zueinander werden Korrespondenzen (6) dahingehend ermittelt (130), welche Punkte (4a) des mindestens einen Bildes (4) einerseits und Punkte (3a) entlang von Sichtstrahlen (S) andererseits sich auf den gleichen Ort (la) im Bereich (1) beziehen;
• unter Heranziehung der Messdaten (3) der ersten Messmodalität, des mindestens einen Bildes (4) und/oder der ermittelten Korrespondenzen (6) werden jeweils für ein und denselben Ort (la) im Bereich (1) mehrere Hypothesen (7a-7c) bezüglich der Position dieses Orts (la) im Raum aufgestellt (140);
• diese Hypothesen (7a-7c) werden in der gesuchten Repräsentation (2) zu Tiefen- und/oder Abstandsinformation (2a) in Bezug auf diesen Ort (la) aggregiert (150).
2. Verfahren (100) nach Anspruch 1, wobei die Tiefen- und/oder Abstandsinformation (2a) mindestens eine Koordinate der Position des Orts (la) im Raum, und/oder eine Entfernung zwischen dem Ort (la) und einem vorgegebenen Bezugspunkt, umfasst.
3. Verfahren (100) nach einem der Ansprüche 1 bis 2, wobei eine Radarmessung, eine Lidar- Messung oder eine Ultraschallmessung als erste Messmodalität gewählt wird.
4. Verfahren (100) nach einem der Ansprüche 1 bis 3, wobei mindestens eine Hypothese (7a-7c)
• unter Heranziehung von Messdaten (3) der ersten Messmodalität einerseits und Informationen aus dem mindestens einen Bild (4) andererseits, die sich ausweislich der Korrespondenzen (6) auf den gleichen Ort beziehen, und/oder
• unter Heranziehung von Bildern (4), die von zwei oder mehr Kameras einer stereoskopischen Kameraanordnung, und/oder von mindestens einer bewegten Kamera mit einer Structure from Motion-Technik, aufgenommen wurden, und/oder
• unter Heranziehung eines Bildes (4) in Kombination mit zusätzlicher Tiefeninformation (4b) in Bezug auf dieses Bild (4) aufgestellt wird (141).
5. Verfahren (100) nach Anspruch 4, wobei die zusätzliche Tiefeninformation (4b) in Bezug auf das Bild (4) mit einem trainierten künstlichen neuronalen Netzwerk, KNN, ermittelt wird (141a).
6. Verfahren (100) nach einem der Ansprüche 4 bis 5, wobei
• aus den stereoskopischen aufgenommenen Bildern (4), bzw. aus dem Bild und der zusätzlichen Tiefeninformation (4b), in Verbindung mit der Geometrie des Sichtstrahls (S) und den Korrespondenzen (6) ein Verlauf von Intensitätswerten und/oder Korrelationswerten (8) entlang des Sichtstrahls (S) ermittelt wird (142); und
• Entfernungsinformation in den Messdaten (3) der ersten Messmodalität so korrigiert wird (151), dass der Verlauf dieser Messdaten (3) entlang des Sichtstrahls (S) bestmöglich mit dem ermittelten Verlauf der Intensitätswerte und/oder Korrelationswerte (8) in Einklang steht.
7. Verfahren (100) nach einem der Ansprüche 4 bis 5, wobei
• aus den stereoskopisch aufgenommenen Bildern (4), bzw. aus dem Bild (4) und der zusätzlichen Tiefeninformation (4b), eine Verteilung (9) von Intensitätswerten in einem Korrelationsvolumen ermittelt wird (143);
• die Messdaten (3) entlang des Sichtstrahls (S) in das Korrelationsvolumen projiziert werden (152), und
• die aus den stereoskopisch aufgenommenen Bildern (4) gewonnene Tiefeninformation (4b), bzw. die zusätzliche Tiefeninformation (4b), so korrigiert wird (153), dass in dem Korrelationsvolumen die Verteilung (9) der Intensitätswerte bestmöglich mit den Messdaten (3) der ersten Messmodalität in Einklang steht.
8. Verfahren (100) nach einem der Ansprüche 1 bis 7, wobei anhand einer geometrischen Beschreibung des Sichtstrahls (S) Punkte (3a) entlang des Sichtstrahls (S) gesampelt werden (144) und
• anhand der geometrischen Anordnung (5) der für die beiden Messmodalitäten verwendeten Sensoren zueinander zu den gesampelten Punkten (3a) korrespondierende Punkte (4a) in dem mindestens einen Bild (4) ermittelt werden (145), und/oder
• jeweils mehrere Hypothesen (7a-7c) bezüglich der Positionen von gesampelten Punkten (3a) im Raum aufgestellt (146) und aggregiert (150) werden.
9. Verfahren (100) nach einem der Ansprüche 1 bis 7, wobei Punkte (4a) aus dem mindestens einen Bild (4) gesampelt werden (147) und
• anhand der geometrischen Anordnung (5) der für die beiden Messmodalitäten verwendeten Sensoren zueinander zu den gesampelten Punkten (4a) korrespondierende Punkte (3a) entlang des Sichtstrahls (S) ermittelt werden (148), und/oder
• jeweils mehrere Hypothesen (7a-7c) bezüglich der Positionen von gesampelten Punkten (4a) im Raum aufgestellt (149) und aggregiert (150) werden.
10. Verfahren (100) nach einem der Ansprüche 8 bis 9, wobei das Ermitteln von korrespondierenden Punkten (4a, 3a) jeweils umfasst,
• einen parametrisierten Ansatz an die Punkte in dem mindestens einen Bild (4), bzw. an Messpunkte (3) der ersten Messmodalität, zu fitten (145a, 148a) und
• die korrespondierenden Punkte (4a, 3a) aus diesem Ansatz abzurufen (145b, 148b).
11. Verfahren (100) nach einem der Ansprüche 8 bis 10, wobei das Ermitteln von korrespondierenden Punkten (4a, 3a) jeweils umfasst, die korrespondierenden Punkte (4a, 3a) zwischen Punkten in dem mindestens einen Bild (4), bzw. zwischen Messpunkten (3) der ersten Messmodalität, zu interpolieren (145c, 148c).
12. Verfahren (100) nach einem der Ansprüche 1 bis 11, wobei ein Umfeld eines Fahrzeugs (50) oder Roboters (60) als beobachteter Bereich (1) gewählt wird (105).
13. Verfahren (100) nach Anspruch 12, wobei
• aus der Repräsentation (2) ein Ansteuersignal (160a) ermittelt wird (160) und
• das Fahrzeug (50), bzw. der Roboter (60), mit diesem Ansteuersignal (160a) angesteuert wird (170).
14. Computerprogramm, enthaltend maschinenlesbare Anweisungen, die, wenn sie auf einem oder mehreren Computern ausgeführt werden, den oder die Computer dazu veranlassen, das Verfahren (100) nach einem der Ansprüche 1 bis 13 auszuführen.
15. Maschinenlesbarer Datenträger und/oder Downloadprodukt mit dem Computerprogramm nach Anspruch 14.
16. Ein oder mehrere Computer mit dem Computerprogramm nach Anspruch 14, und/oder mit dem maschinenlesbaren Datenträger und/oder Downloadprodukt nach Anspruch 15.
PCT/EP2023/053833 2022-03-03 2023-02-16 Fusion von mit einem aktiven messprinzip gewonnenen roh-messdaten und bildern zu einer repräsentation mit tiefen- und/oder abstandsinformation WO2023165815A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102022202174.6 2022-03-03
DE102022202174.6A DE102022202174A1 (de) 2022-03-03 2022-03-03 Fusion von mit einem aktiven Messprinzip gewonnenen Roh-Messdaten und Bildern zu einer Repräsentation mit Tiefen- und/oder Abstandsinformation

Publications (1)

Publication Number Publication Date
WO2023165815A1 true WO2023165815A1 (de) 2023-09-07

Family

ID=85283832

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2023/053833 WO2023165815A1 (de) 2022-03-03 2023-02-16 Fusion von mit einem aktiven messprinzip gewonnenen roh-messdaten und bildern zu einer repräsentation mit tiefen- und/oder abstandsinformation

Country Status (2)

Country Link
DE (1) DE102022202174A1 (de)
WO (1) WO2023165815A1 (de)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180136660A1 (en) * 2016-11-17 2018-05-17 GM Global Technology Operations LLC Automated Co-Pilot Control For Autonomous Vehicles
WO2018188877A1 (de) 2017-04-10 2018-10-18 Robert Bosch Gmbh Fusion von daten mehrerer sensoren zur objekterkennung
US20180314921A1 (en) * 2017-05-01 2018-11-01 Mentor Graphics Development (Deutschland) Gmbh Training of machine learning sensor data classification system

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3525000B1 (de) 2018-02-09 2021-07-21 Bayerische Motoren Werke Aktiengesellschaft Verfahren und vorrichtungen zur objektdetektion in einer szene auf basis von lidar-daten und radar-daten der szene
DE102019200197A1 (de) 2019-01-10 2020-07-16 Robert Bosch Gmbh Fusion von Sensorinformationen von Sensoren für ein Kraftfahrzeug

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180136660A1 (en) * 2016-11-17 2018-05-17 GM Global Technology Operations LLC Automated Co-Pilot Control For Autonomous Vehicles
WO2018188877A1 (de) 2017-04-10 2018-10-18 Robert Bosch Gmbh Fusion von daten mehrerer sensoren zur objekterkennung
US20180314921A1 (en) * 2017-05-01 2018-11-01 Mentor Graphics Development (Deutschland) Gmbh Training of machine learning sensor data classification system

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DAVID EIGEN ET AL: "Depth Map Prediction from a Single Image using a Multi-Scale Deep Network", 9 June 2014 (2014-06-09), XP055566498, Retrieved from the Internet <URL:https://papers.nips.cc/paper/5539-depth-map-prediction-from-a-single-image-using-a-multi-scale-deep-network.pdf> *

Also Published As

Publication number Publication date
DE102022202174A1 (de) 2023-09-07

Similar Documents

Publication Publication Date Title
DE102016104463B4 (de) Mehrdimensionale Verschmelzung von Bildern in Echtzeit
DE102009023896B4 (de) Vorrichtung und Verfahren zum Erfassen einer Pflanze
DE102016107959B4 (de) Auf strukturiertem Licht basierende Multipfadlöschung bei ToF-Bilderzeugung
DE102020206759A1 (de) Verfahren und Verarbeitungssystem zur Aktualisierung eines ersten Bildes, das von einer ersten Kamera erzeugt wird, basierend auf einem zweiten Bild, das von einer zweiten Kamera erzeugt wird
DE102014101587B4 (de) Registrierung einer Szene mit Konsistenzprüfung
WO2017206999A1 (de) Verfahren zur auswertung von bilddaten einer fahrzeugkamera
EP1628141B1 (de) Triangulationsverfahren mit Laserdioden und einer Mono-Kamera zur Abstandsbestimmung für Stop-and-Go Anwendungen für Kraftfahrzeuge
CN108592876A (zh) 基于激光扫描成像原理的隧道外观病害检测机器人
DE102010051207B4 (de) Vorrichtung sowie Verfahren zur dreidimensionalen Abbildung eines relativ zur Sensoranordnung bewegten Objekts
EP1405100A1 (de) Korrekturverfahren für daten mehrerer optoelektronischer sensoren
EP3775767B1 (de) Verfahren und system zur vermessung eines objekts mittels stereoskopie
DE102014110992A1 (de) Registrierung einer in Cluster zerfallenden Szene mit Standortverfolgung
EP1460454B1 (de) Verfahren zur gemeinsamen Verarbeitung von tiefenaufgelösten Bildern und Videobildern
EP1531342A1 (de) Verfahren zur Erkennung von Fussgängern
DE102019215903A1 (de) Verfahren und Vorrichtung zum Erzeugen von Trainingsdaten für ein Erkennungsmodell zum Erkennen von Objekten in Sensordaten eines Sensors insbesondere eines Fahrzeugs, Verfahren zum Trainieren und Verfahren zum Ansteuern
DE102019103519B4 (de) Vorrichtung zum Bestimmen von dimensionalen und/oder geometrischen Eigenschaften eines Messobjekts
EP3907466A1 (de) 3d-sensor und verfahren zur erfassung von dreidimensionalen bilddaten eines objekts
EP4139709A1 (de) Verfahren und vorrichtung zum erkennen von blooming in einer lidarmessung
DE10148062A1 (de) Verfahren zur Verarbeitung eines tiefenaufgelösten Bildes
DE102018211913A1 (de) Vorrichtung und Verfahren zum Erfassen einer Objektoberfläche mittels elektromagnetischer Strahlung
EP3663881B1 (de) Verfahren zur steuerung eines autonomen fahrzeugs auf der grundlage von geschätzten bewegungsvektoren
WO2023165815A1 (de) Fusion von mit einem aktiven messprinzip gewonnenen roh-messdaten und bildern zu einer repräsentation mit tiefen- und/oder abstandsinformation
DE102020003662A1 (de) Verfahren zur Bestimmung einer Eigenbewegung mittels Lidar-Odometrie und Fahrzeug
DE102014116904B4 (de) Verfahren zum optischen Abtasten und Vermessen einer Szene und zur automatischen Erzeugung einesVideos
EP3663800B1 (de) Verfahren zur objekterfassung mit einer 3d-kamera

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23705992

Country of ref document: EP

Kind code of ref document: A1