WO2022042903A1 - Method for identifying three-dimensional objects, computer program, machine-readable storage medium, control unit, vehicle and video monitoring system - Google Patents

Method for identifying three-dimensional objects, computer program, machine-readable storage medium, control unit, vehicle and video monitoring system Download PDF

Info

Publication number
WO2022042903A1
WO2022042903A1 PCT/EP2021/068017 EP2021068017W WO2022042903A1 WO 2022042903 A1 WO2022042903 A1 WO 2022042903A1 EP 2021068017 W EP2021068017 W EP 2021068017W WO 2022042903 A1 WO2022042903 A1 WO 2022042903A1
Authority
WO
WIPO (PCT)
Prior art keywords
camera
segment
determined
pixels
dimensional object
Prior art date
Application number
PCT/EP2021/068017
Other languages
German (de)
French (fr)
Inventor
Emil Schreiber
Fabian GIGENGACK
Original Assignee
Robert Bosch Gmbh
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch Gmbh filed Critical Robert Bosch Gmbh
Publication of WO2022042903A1 publication Critical patent/WO2022042903A1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle

Definitions

  • the present invention relates to a method for detecting three-dimensional objects in a field of view of a camera.
  • the invention also relates to a computer program that is set up to carry out this method, and a machine-readable storage medium on which the computer program is stored.
  • the invention also relates to a control unit that is set up to carry out the method according to the invention, and a vehicle with this control unit, and also a video surveillance system with this control unit.
  • the acquisition of camera images on a vehicle by means of a mono or stereo camera is known, with the vehicle camera capturing, for example, the area to the rear or to the front in the direction of travel of an area surrounding the vehicle.
  • a learned machine recognition method can be used, for example, to carry out a semantic segmentation and/or an object recognition.
  • the recognized segments and/or objects in the surroundings of the vehicle are used in driver assistance methods or partially or fully autonomous guidance of a vehicle and/or for display in a virtual three-dimensional environment model, for example a driving maneuver is carried out depending on a recognized object.
  • distance data is recorded detected objects, for example to follow another vehicle or to avoid an object or to be able to carry out a driving maneuver.
  • Machine recognition methods are, for example, neural networks, in particular those with a large number of layers, each of which includes so-called neurons.
  • a neuron of each layer is typically associated with neurons of a previous layer and neurons of a subsequent layer.
  • the links between the neurons each have associated weights.
  • Machine recognition methods are advantageously trained with a large number of data, in particular this data includes a large number of images which each have an assigned label or an expected output of the recognition method for at least a partial area of a respective image.
  • a machine recognition method can be trained with data of only one known output. During training, at least the weights of the links are typically adjusted.
  • Each of the layers of the neural network advantageously represents an abstraction level of the image.
  • a machine recognition method can learn, for example, in particular by adjusting the weights of the connections between the neurons, to distinguish a vehicle in an image from a person or a tree or to recognize the vehicle, with the machine recognition method typically providing a probability for the Presence of the object determined.
  • the result is a computationally efficient, trained machine recognition method.
  • Both the structure of the machine recognition process or the number of layers and neurons per layer and the training or the training data of the machine recognition process have a major influence on the recognition quality.
  • a resulting principle of the machine recognition method in the application often remains unclear for a user.
  • a machine recognition method can be described as a non-analytical method.
  • Semantic segmentation is known as a learned machine recognition method.
  • a method for semantic segmentation delivers as a result a classification of a pixel of a camera image into semantic categories (eg person, car, street, . . . ), with all pixels of the image being classified in particular but not necessarily. This corresponds in particular to a rough classification of the image content mapped by the pixels.
  • semantic segmentation an image can be divided into two classes or sub-areas, for example a sub-area that depicts a person and another sub-area that depicts the background of the person depicted.
  • stereo cameras allow, in a known manner, the determination of distance data between surrounding objects in the field of view of a camera and the camera using two cameras arranged at a fixed distance using a triangulation method.
  • a stereo camera comprising two cameras
  • distance data between objects and a vehicle or the camera can be recorded by means of an ultrasonic sensor, by means of a radar sensor or by means of a lidar sensor.
  • a sensor placed in addition to a camera increases the costs of the overall system, for example the vehicle, and in the case of a sensor data fusion requires a complex and possibly regular calibration between the sensor and the camera as well as a more powerful computing unit for the sensor data fusion.
  • the object of the present invention is to improve the detection of static and/or dynamic objects compared to the prior art.
  • the present invention relates to a method for detecting three-dimensional objects in a field of view of a camera.
  • the camera is in particular a vehicle camera, which preferably captures at least part of the surroundings of the vehicle.
  • a vehicle camera is arranged on the vehicle at an elevated position behind the windshield.
  • at least one camera image is captured using at least the camera.
  • Provision can advantageously be made for multiple camera images to be captured approximately simultaneously by means of one camera each, with the cameras having different fields of view or perspectives or capturing a different partial area of the environment.
  • provision can be made for multiple camera images to be captured by multiple vehicle cameras, which are each advantageously part of a surround view system of the vehicle.
  • the camera or vehicle camera is advantageously set up to capture an area of an environment of the vehicle that is at the front in the direction of travel.
  • the camera or vehicle camera is preferably a mono camera, in particular for cost reasons, it being possible for the mono camera to have wide-angle optics.
  • the camera or vehicle camera is advantageously part of a stereo camera, in particular in order to achieve increased reliability or accuracy of the method.
  • a semantic segmentation of the at least one camera image is carried out using a first learned machine recognition method. At least one image region that depicts a static and/or moving object class, for example, is advantageously recognized in at least one partial area of the camera image other vehicles detected in the camera image.
  • segment information is assigned to the pixels of the camera image as a function of the semantic segmentation, with the respective pixels in particular imaging the recognized object.
  • the pixels of the camera image that depict a vehicle are assigned a value as segment information that represents vehicles.
  • At least one image section of the camera image is then determined as a segment, which has adjacent pixels with the same assigned segment information.
  • adjacent pixels of the camera image are grouped into a segment depending on the respectively assigned segment information. All pixels of a camera image that have a connection to the respective pixel through pixels with the same segment information are advantageously understood as neighboring pixels.
  • a single segment can consequently in particular include more than one vehicle or more than one person.
  • the distance data is then determined between surrounding objects in the camera's field of view and the camera, in particular between objects in the vicinity of the vehicle and the vehicle.
  • the distance data are preferably determined as a function of the captured camera image.
  • the distance data are particularly preferably determined as a function of the captured camera image by a second, learned machine recognition method, see publication by C. Godard et al. or D. Eigen et al.
  • the distance data can be determined by a stereo vision method and/or a structure-from-motion method.
  • the distance data can be determined by an ultrasonic sensor, a radar sensor and/or a lidar sensor.
  • distance information is assigned to the pixels of at least part of the camera image as a function of the determined distance data.
  • the associated distance information of the respective pixel advantageously represents a distance of an object in the surroundings, which is imaged by the pixel, from the vehicle.
  • an optical flow or a movement relative to at least some of the pixels of the captured camera image is determined.
  • an optical flow of the pixels of a determined segment is determined.
  • the optical flow to at least some of the pixels of the camera image is determined as a function of the captured camera image and at least one other previously and/or subsequently captured camera image.
  • At least one three-dimensional object hypothesis is determined in a determined segment, with pixels of the determined segment are advantageously subgrouped or grouped into a segment excerpt depending on the respectively assigned distance information.
  • the grouping of the pixels in a segment to form a three-dimensional object hypothesis takes place in particular when a difference between the associated distance information of these pixels or at least a predetermined number of these pixels is less than or equal to a distance tolerance value.
  • a segment section of the segment is advantageously determined as a three-dimensional object hypothesis as a function of the assigned distance information of the pixels of the segment, this segment section advantageously having at least a defined number of pixels whose assigned distance information each have a difference that is less than or equal to a distance tolerance value.
  • the at least one three-dimensional object hypothesis is determined as a segment section of a determined segment depending on the determined optical flow of the pixels of the segment.
  • the pixels of a determined segment are advantageously additionally or alternatively combined or grouped into a segment excerpt depending on the determined optical flow.
  • those pixels of the segment whose optical flow vectors are approximately the same and/or whose change in flow vectors are approximately the same and/or whose optical flow vectors point in approximately the same direction are additionally or alternatively combined to form the segment section.
  • the pixels grouped into a three-dimensional object hypothesis are adjacent.
  • the method has the advantage that the object hypotheses are reliably determined because the machine recognition method or methods that have been learned are linked to a physical model. In other words, errors in object recognition and/or in a determined object extension are avoided, especially when two objects cover each other, since mutually covering objects have a different distance from the camera and/or a different direction of movement and/or a different speed.
  • the physical model used states that in an image section of the camera image or in a segment that depicts the same semantic content, there can be no significantly different distances to the camera or vehicle and/or no significantly different speeds or directions of movement if this would represent only one object. In other words can in advantageously different segment excerpts are identified in a segment, which represent different three-dimensional object hypotheses.
  • the first learned machine recognition method can advantageously be trained more robustly, since it can generate a more abstract output compared to classic object recognition methods, for example static and moving objects or vehicle classes do not initially have to be differentiated.
  • the method is preferably carried out using only one camera or vehicle camera or using a mono camera or using a stereo camera and additional active sensors which emit electromechanical radiation or pressure or ultrasound are dispensed with. As a result, the method can be carried out in a cost-effective and very computationally efficient manner.
  • the object hypothesis is only determined if the distance information assigned to the pixels of the segment excerpt is less than or equal to a distance threshold value for at least a predetermined number of pixels. This makes the method more computationally efficient and more reliable.
  • the three-dimensional object hypothesis is only determined if the number of pixels in the segment section is greater than or equal to a minimum value. This avoids unrealistically small extensions of object hypotheses or unimportant object hypotheses.
  • the distance tolerance value when determining the three-dimensional object hypothesis, is adjusted as a function of the assigned segment information, the assigned distance information and/or a detected speed of the vehicle.
  • the distance tolerance value can advantageously be adapted to an expected extent of an object class and/or to an expected orientation of an object class, for example vehicles or people who are hiding, and/or to an accuracy of the determined distance data that changes as the vehicle speed changes.
  • At least one object in the ascertained segment is recognized by a further learned machine recognition method. For example, a person's head or a license plate is recognized.
  • the object hypothesis in a segment is then determined as a function of the detected object, for example the number of object hypotheses is determined as a function of the number of vehicles or people depicted in the segment.
  • object hypotheses for example, are determined as a function of the number of vehicles or people depicted in the segment.
  • object information is assigned to the respective pixels of the determined segment, which depict the detected object, depending on the detected object.
  • the at least one three-dimensional object hypothesis is then determined as a segment section of a determined segment, additionally as a function of the object information assigned to at least some pixels in the segment section.
  • the determination of the at least one three-dimensional object hypothesis as a segment section of a determined segment is optionally carried out additionally as a function of the object information assigned to the pixels.
  • a distance tolerance value can be adjusted as a function of the number of objects detected if the number of object hypotheses determined does not correspond to the number of objects detected.
  • the number of object hypotheses determined is carried out as a function of the determined number of objects recognized.
  • an object hypothesis for an object located in the foreground in the camera's field of view is thus advantageously determined if, for example, a necessary condition, such as a number plate of a vehicle or a person's head, is detected.
  • a necessary condition such as a number plate of a vehicle or a person's head
  • the number of determined three-dimensional object hypotheses is advantageously checked and, if necessary, a parameter of the method is adjusted if the number of determined object hypotheses does not correlate to the number of objects recognized.
  • Texture information and/or color information of the pixels in the determined segment to determine.
  • the determined texture information and/or the determined color information is then assigned to the respective pixels of the determined segment which map the determined texture information and/or the determined color information.
  • the at least one three-dimensional object hypothesis is then determined as a segment section of a determined segment, additionally depending on the assigned texture information and/or the assigned color information.
  • the pixels of a determined segment are also combined or grouped depending on the determined texture information and/or the determined color information to form a three-dimensional object hypothesis or a segment section, with in particular those pixels of the segment being combined whose determined or assigned texture information and/or their determined or assigned color information are approximately the same.
  • the distance data between the surroundings of the vehicle and the vehicle, determined by means of a vehicle camera are corrected by means of an ultrasonic sensor, a lidar sensor and/or a radar sensor.
  • an ultrasonic sensor e.g., a lidar sensor
  • a radar sensor e.g., a radar sensor
  • a validation of the three-dimensional object hypothesis can preferably be carried out, the method being carried out repeatedly based on another camera image previously or later captured by the camera or vehicle camera.
  • the determination of the object hypotheses is advantageously checked for temporal consistency.
  • it is checked whether a person or a vehicle has been detected before and after in the camera image and has already been determined as an object hypothesis, since the person or the vehicle cannot suddenly disappear or appear.
  • the three-dimensional object hypothesis can optionally be validated, with the method being carried out on the basis of another camera image captured earlier or later or at the same time using a different camera from a different perspective.
  • the determination of the object hypotheses is advantageously checked for perspective consistency.
  • the other camera and the camera or the vehicle camera in this embodiment are part of a stereo camera, so that the distance data can also be precisely recorded or determined.
  • the method is particularly accurate and reliable.
  • the at least one specific three-dimensional object hypothesis is then displayed in a virtual three-dimensional environment model.
  • the environment model is advantageously displayed or represented from a bird's-eye view.
  • the three-dimensional object hypothesis for the vehicle is displayed as a function of the distance information assigned to the pixels, which represents the respective determined object hypothesis.
  • the three-dimensional object hypothesis is additionally displayed as a function of an orientation of the specific object hypothesis determined based on another learned machine recognition method.
  • the invention also relates to a computer program which is set up to carry out a method according to the invention for recognizing three-dimensional objects in a field of view of a camera.
  • the invention also relates to a machine-readable storage medium on which the computer program product according to the invention is stored.
  • control unit is set up to be connected to at least one camera, the camera being in particular a vehicle camera.
  • the control unit is Also set up to carry out a method according to the invention for detecting three-dimensional objects in a field of view of a camera.
  • the invention relates to a vehicle with a control device according to the invention.
  • the invention relates to a video surveillance system with a control unit according to the invention.
  • FIG. 5 determined distance data for the captured camera image
  • a vehicle 100 is shown schematically in FIG.
  • Vehicle 100 has a camera 111 or vehicle camera, which is advantageously designed as a mono camera for reasons of cost.
  • the camera 111 captures a partial area 191 of the surroundings 190 which is in the field of view 191 of the camera.
  • Camera 111 is set up to capture at least one camera image of partial area 191 in field of view 191 of surroundings 190 of vehicle 100 or a sequence of camera images of surroundings 190 .
  • camera 111 captures a field of view 191 or a partial area of surroundings 190 in the direction of travel of vehicle 100 or front surroundings 190 of vehicle 100 .
  • Camera 120 also captures a rear portion of surroundings 190 of vehicle 100, with each camera 111 being able to be designed as a wide-angle camera. Furthermore, provision can be made for several wide-angle cameras 120 of a surround view camera system to be arranged as cameras 111 on the vehicle as an alternative or in addition.
  • Vehicle 100 optionally includes a stereo vision system 110 which includes camera 111 or vehicle camera and a further camera 112 .
  • Camera 111 and the additional camera 112 can be used to capture a sequence of camera images or camera images and, using a triangulation method based on simultaneously captured camera images from camera 111 and the additional camera 112, distances or distance data between camera 111 or the vehicle and surroundings 190 or Objects 180 in the area 190 of the vehicle 100 are determined.
  • Surrounding objects 180 are, for example, other vehicles or third-party vehicles that are driving ahead or behind vehicle 100, for example on a common lane 182, or other vehicles that are approaching vehicle 100, for example on another lane 182, or people who are, for example, on move on a sidewalk 181 next to the roadway.
  • vehicle 100 can have at least one radar sensor 130, a lidar sensor (not shown) and/or an ultrasonic sensor 140 as an optional sensor in addition to camera 111 for detecting or determining distance data.
  • the vehicle 100 also has a display device 150 which is set up to display information which is based on the detected sensor data of the various sensors 111 , 112 , 120 , 130 , 140 to a user or driver of the vehicle 100 .
  • the vehicle 100 can optionally be set up by means of a control unit to support a guidance of the vehicle 100 .
  • Vehicle 100 can also optionally be set up by means of a control unit to carry out some driving situations semi-autonomously or fully autonomously, for example a parking maneuver or driving on a freeway.
  • FIG. 2 shows a sequence of the method for detecting three-dimensional objects 180 in a field of view 191 of a camera 111 as a block diagram.
  • the method begins with acquisition 210 of at least one camera image using camera 111, 112 and/or 120, with camera 111, 112 and/or 120 being arranged in particular on a vehicle 100 or with camera 111, 112 and/or 120 in particular the vehicle camera according to FIG.
  • the camera 111, 112 and/or 120 can be part of a surveillance system, with the surveillance system being stationary in particular.
  • a semantic segmentation of the camera image is carried out using a first learned machine recognition method.
  • the first learned machine recognition method or the semantic segmentation subareas of the camera image that depict semantic categories, such as at least one person, a vehicle or a car and/or a road and/or a vehicle for driving or monitoring unimportant background of the environment detected.
  • all pixels of the camera image are classified by the semantic segmentation 220, with the semantic segmentation 220 representing a rough classification of the camera image into the respective categories shown, for example the categories include a background of the camera image or moving objects.
  • all objects in the vicinity of the camera 111 that are in the field of view 191 of the camera are preferably classified by the semantic segmentation 220 and, in particular, a partial area of the camera image is also recognized or classified as the background.
  • segment information is assigned 221 to those pixels of the respective partial area of the camera image for which a category was recognized.
  • the segment information assigned in step 221 to a respective pixel of the camera image or a representation of the camera image represents the recognized semantic category which is mapped by the pixel.
  • adjacent pixels of the camera image are grouped into a segment 410, 420 depending on the respectively associated semantic segment information.
  • at least one image section is determined as a segment 410, 420 depending on the semantic segment information assigned to the pixels, with a segment 410, 420 preferably only having pixels that are adjacent to one another.
  • the neighborhood of pixels can be determined in a number of ways according to the prior art.
  • pixels can be considered to be adjacent to one another if only pixels with the same assigned semantic segment information are arranged between two pixels or if a direct connection through pixels with the same assigned semantic segment information is possible between two pixels.
  • a segment 410, 420 can have one or more objects that at least partially cover one another, for example a number of people or a number of vehicles.
  • optical flow vectors or an optical Flow to at least part of the pixels of the captured camera image is determined, see below.
  • optical flow vectors for the pixels of each determined segment 410, 420 are determined as a function of the camera image and at least one other previously and/or subsequently captured camera image, in particular if the segment 410, 420 or the partial area of the camera image contains at least one moving and/or or non-moving environmental object. Furthermore, a determination 240 of at least one item of texture information and/or one item of color information of the pixels in the determined segment 410, 420 can optionally be carried out. In this optional refinement, an assignment 241 of the ascertained texture information and/or the ascertained color information to the respective pixels of the ascertained segment 410, 420 is then carried out.
  • step 250 of the method that is an alternative or additional to step 230, distance data 501 to 507 between surrounding objects 180 in the camera field of view 191 or the partial area of the surroundings and camera 111, 112 and/or 120 captured by camera 111, 112 and/or 120 determined.
  • the distance data 501 to 507 are determined in step 250, preferably using a trained second machine recognition method based on the camera image 300 of a mono camera as camera 111 or using a stereo camera 110.
  • the distance data between surrounding objects 180 in the camera field of view 191 and the camera 111, 112 and/or 120 can be determined at least by means of an ultrasonic sensor, a lidar sensor and/or a radar sensor. It can be provided in an optional step 251 that in step 250 camera-based distance data is corrected and/or validated by distance data determined by means of an ultrasonic sensor, lidar sensor and/or radar sensor. Then, in step 252, pixels of at least part of the camera image are assigned a respective distance information item depending on the distance data determined in step 250 or in step 251.
  • At least one object or detail object in the determined segment 410, 420 is recognized by a further trained machine recognition method, with the detected detail object in the segment 410, 420 having a lower degree of abstraction than the assigned segment information or the recognized semantic category of the Segments 410, 420.
  • a number plate is determined for the determined segment vehicles or moving object. This is done in an optional step 261, not shown in Figure 2 recognized detailed object assigned to the respective pixels of the determined or associated or superordinate segment 410, 420.
  • at least one three-dimensional object hypothesis is determined as a segment section of a determined segment 410, 420 depending on the distance information assigned to the pixels of the segment.
  • an object hypothesis is determined in step 270 if the distance information assigned to neighboring pixels is approximately the same or the assigned distance information of the pixels has a difference that is less than or equal to a distance tolerance value.
  • the object hypothesis is advantageously determined in step 270 if the distance information assigned to the pixels of a segment section of segment 410, 420, in particular for at least a predefined number of pixels, is approximately the same or the assigned distance information of the pixels in at least one segment section is in each case to one another have a difference less than or equal to a distance tolerance value.
  • the determination 270 of the object hypothesis is set up to separate two different objects that are imaged in the same segment 410, 420 and that in particular cover one another, since they are at a different distance from the camera, which is represented by the distance information. It can optionally be provided in step 270 that the object hypothesis is only determined if the distance information assigned to the pixels of a segment section of segment 410, 420 is less than or equal to a distance threshold value for at least a predetermined number of pixels. In other words, three-dimensional object hypotheses are advantageously determined in step 270 only within a closer environment to the camera or to the vehicle, with this closer environment being defined by the distance threshold value.
  • the three-dimensional object hypothesis is determined 270 only if the number of pixels of the segment section is greater than or equal to a minimum value. It can also be provided in step 270 that when determining 260 the three-dimensional object hypothesis, a distance tolerance value is adjusted depending on the segment information assigned to the pixels of the segment, depending on the distance information assigned to the pixels of the segment and/or depending on a detected speed of the vehicle will.
  • the at least one three-dimensional object hypothesis is determined 270 as a segment section of a determined segment additionally or alternatively in Dependency of the determined optical flow.
  • the determination 270 of the at least one three-dimensional object hypothesis as a segment section of a determined segment is additionally carried out as a function of the detected object or the detected detailed object.
  • a vehicle driving ahead is advantageously recognized when a number plate is recognized in the segment detail.
  • the determination 270 of the three-dimensional object hypothesis as a segment excerpt of a determined segment can also take place depending on the assigned texture information and/or the assigned color information, so that a green vehicle can be separated or differentiated more easily from a red vehicle.
  • the method is first repeatedly carried out on the basis of another camera image previously or later captured by the vehicle camera. Then, in optional step 280, the consistency of the object hypothesis is checked with object hypotheses determined earlier or later, or the specific object hypothesis is validated or discarded as a function of the object hypothesis determined at a different point in time. Furthermore, in another optional step 281, the method can be carried out repeatedly based on a camera image captured from a different perspective. Then, in optional step 281, the consistency of the determined three-dimensional object hypothesis is checked with an object hypothesis determined from a different perspective or the determined object hypothesis is validated or rejected depending on the object hypothesis determined from a different perspective. Finally, in an optional method step 290, the at least one specific three-dimensional object hypothesis can be displayed in a virtual three-dimensional environment model.
  • a captured camera image 300 is shown schematically in FIG.
  • the camera image 300 depicts the partial area of the surroundings captured in the field of view 191 of the camera 111 , 112 and/or 120 .
  • a roadway or lane 182 with a vehicle driving ahead 320 as a moving object 180 and pedestrians 310 partially covering one another as further moving objects 180 are shown on one Sidewalk 181 and a vehicle 330 parked on a sidewalk 181 as a stationary moving object 180, the parked vehicle 330 being partially covered by the vehicle 320 driving ahead.
  • FIG. 4 shows a categorized representation or rough classification 400, determined according to steps 220, 221 and 222, of the captured camera image 300 from FIG.
  • moving objects 180 are initially recognized as a semantic category, for example people and vehicles, by a first learned machine recognition method.
  • the semantic segmentation 220 recognizes a background in the camera image 300 that is not relevant to the driving of the vehicle. Provision can be made for recognizing further semantic categories, for example the roadway 182.
  • the respective pixels which depict the vehicles and people are assigned the moving object category 180 as segment information in step 221.
  • segments 410 and 420 are formed or determined by grouping adjacent pixels with the same assigned segment information, in particular moving object 180.
  • the semantic segmentation 220 of the captured camera image consequently results in the steps 221 and 222 in the rough division 400 of the camera image 300 shown in Figure 4 into segments 410, 420 and 430 and 440, with this rough division 400 in particular separating adjacent pixels with different assigned segment information from one another .
  • a segment 410, 420 of the camera image can represent or include a number of people and/or vehicles.
  • distance data from the captured camera image 300 from FIG. 3 determined by means of the second learned machine recognition method are shown schematically.
  • the areas 501 to 507 which in part but not necessarily run in the form of a ring, each represent a different distance between the surroundings with the surrounding objects 180, 310, 320, 330 and the camera 111, 112 and/or 120 or the vehicle 100. It can be seen that that based on the detected or determined distance data 501 to 507, at least a large number of pixels of the camera image 300 can be assigned determined distance information.
  • the distance data 501 to 507 are advantageously very computationally efficient due to the second learned machine
  • the detection method is estimated or determined or detected or, not shown in FIG.
  • the distance data can be recorded or determined by an ultrasonic, radar or lidar sensor, with distance data advantageously resulting in high quality or reliability.
  • the person 510 in the foreground for example, can be easily determined or distinguished from the people 511, 512 located behind as a separate three-dimensional object hypothesis in the segment 410 based on the determined distance data.
  • vehicles driving in front of each other that are concealing one another can be determined well from one another as separate three-dimensional object hypotheses (not shown).
  • Vehicles 320 and 330 depicted in camera image 300 cannot be clearly distinguished from each other based on distance data, despite the different distances at their respective rears, since vehicles 320 and 330 have different and sometimes the same distances to the camera due to their respective spatial depth.
  • the optical flow vectors for vehicles 320 and 330 have very different magnitudes because vehicle 320 is driving and vehicle 330 is parked or stationary.
  • Vehicles 320 and 330 can therefore advantageously be determined very reliably as different three-dimensional object hypotheses in the same segment 420 if the three-dimensional object hypothesis is determined as a function of the optical flow or the optical flow vectors of the respective pixels of a segment.

Abstract

The invention relates to a method for identifying three-dimensional objects (180) in a field of view (191) of a camera (111, 112, 120), comprising the following steps: capturing (210) at least one camera image (300) by means of the at least one camera (111, 112, 120); semantic segmenting (220) of the camera image (300) by a first learned machine identification method; allocating (221) a piece of segment information to the pixels of the camera image (300) according to the semantic segmenting; determining (222) at least one image detail as a segment (410, 420, 430, 440), wherein adjacent pixels of the camera image (300) are grouped into a segment (410, 420, 430, 440) according to the allocated semantic piece of segment information; determining (250) distance data (501 to 507) between surroundings objects (180) in the camera field of view (191) and the camera (111, 112, 120) and allocating (252) a piece of distance information to the pixels of at least one part of the camera image (300) according to the determined distance data (501 to 507), and/or determining (230) an optical flow to at least one part of the pixels of the captured camera image according to the camera image (300) and at least one additional camera image captured previously and/or afterward; and determining (270) at least one three-dimensional object hypothesis (510, 511, 512, 520, 530) as a segment section of a determined segment (410, 420, 430, 440) according to the a piece of distance information allocated to the pixels of the segment and/or according to the determined optical flow.

Description

Beschreibung description
Titel title
Verfahren zur Erkennung dreidimensionaler Objekte, Computerprogramm, Maschinenlesbares Speichermedium, Steuergerät, Fahrzeug und Videoüberwachungssystem Method for detecting three-dimensional objects, computer program, machine-readable storage medium, control unit, vehicle and video surveillance system
Die vorliegende Erfindung betrifft ein Verfahren zur Erkennung dreidimensionaler Objekte in einem Blickfeld einer Kamera. Die Erfindung betrifft ferner auch ein Computerprogramm, welches dazu eingerichtet ist, dieses Verfahren auszuführen, sowie ein maschinenlesbares Speichermedium, auf welchem das Computerprogramm gespeichert ist. Die Erfindung betrifft des Weiteren ein Steuergerät, welches dazu eingerichtet ist, das erfindungsgemäße Verfahren durchzuführen, und ein Fahrzeug mit diesem Steuergerät sowie ferner ein Videoüberwachungssystem mit diesem Steuergerät. The present invention relates to a method for detecting three-dimensional objects in a field of view of a camera. The invention also relates to a computer program that is set up to carry out this method, and a machine-readable storage medium on which the computer program is stored. The invention also relates to a control unit that is set up to carry out the method according to the invention, and a vehicle with this control unit, and also a video surveillance system with this control unit.
Stand der Technik State of the art
Die Erfassung von Kamerabildern an einem Fahrzeug mittels einer Mono- oder Stereokamera ist bekannt, wobei die Fahrzeugkamera beispielsweise den rückwärtigen oder den in Fahrrichtung vorne liegenden Bereich einer Umgebung des Fahrzeugs erfasst. Basierend auf wenigstens einem erfassten Kamerabild kann beispielsweise durch ein angelerntes maschinelles Erkennungsverfahren eine semantische Segmentierung und/oder eine Objekterkennung durchgeführt werden. Die erkannten Segmente und/oder Objekte in der Umgebung des Fahrzeugs werden in Fahrassistenzverfahren oder einer teil- oder vollautonomen Führung eines Fahrzeugs und/oder zur Anzeige in einem virtuellen dreidimensionalen Umgebungsmodell verwendet, beispielsweise wird ein Fahrmanöver in Abhängigkeit eines erkannten Objektes durchgeführt. Zusätzlich wird für Fahrassistenzverfahren oder einer teil- oder vollautonomen Führung eines Fahrzeugs eine Erfassung von Abstandsdaten zu erkannten Objekten benötigt, beispielsweise um einem Fremdfahrzeug folgen oder um einem Objekt ausweichen oder um ein Fahrmanöver durchführen zu können. The acquisition of camera images on a vehicle by means of a mono or stereo camera is known, with the vehicle camera capturing, for example, the area to the rear or to the front in the direction of travel of an area surrounding the vehicle. Based on at least one recorded camera image, a learned machine recognition method can be used, for example, to carry out a semantic segmentation and/or an object recognition. The recognized segments and/or objects in the surroundings of the vehicle are used in driver assistance methods or partially or fully autonomous guidance of a vehicle and/or for display in a virtual three-dimensional environment model, for example a driving maneuver is carried out depending on a recognized object. In addition, for driver assistance methods or partially or fully autonomous guidance of a vehicle, distance data is recorded detected objects, for example to follow another vehicle or to avoid an object or to be able to carry out a driving maneuver.
Maschinelle Erkennungsverfahren sind beispielsweise neuronale Netzwerke, insbesondere solche mit einer Vielzahl an Schichten, welche jeweils sogenannte Neuronen umfassen. Ein Neuron jeder Schicht ist typischerweise mit Neuronen einer vorherigen Schicht und Neuronen einer nachfolgenden Schicht verknüpft. Die Verknüpfungen zwischen den Neuronen weisen beispielsweise jeweils zugeordnete Gewichte auf. Maschinelle Erkennungsverfahren werden vorteilhafterweise mit einer Vielzahl an Daten trainiert, insbesondere umfassen diese Daten eine Vielzahl von Bildern, welche jeweils ein zugeordnetes Label beziehungsweise eine erwartete Ausgabe des Erkennungsverfahrens zu wenigstens einem Teilbereich eines jeweiligen Bildes aufweisen. Alternativ oder zusätzlich kann ein maschinelles Erkennungsverfahren mit Daten nur einer bekannten Ausgabe trainiert werden. Im Training werden typischerweise zumindest die Gewichte der Verknüpfungen angepasst. Jede der Schichten des neuronalen Netzes repräsentiert dabei vorteilhafterweise eine Abstraktionsebene des Bildes. Durch das Training kann ein maschinelles Erkennungsverfahren beispielsweise lernen, insbesondere durch die Anpassung der Gewichte der Verknüpfungen zwischen den Neuronen, ein Fahrzeug in einem Bild von einer Person oder einem Baum zu unterscheiden beziehungsweise das Fahrzeug zu erkennen, wobei das maschinelles Erkennungsverfahren typischerweise eine Wahrscheinlichkeit für das Vorliegen des Objektes ermittelt. Es resultiert ein recheneffizientes angelerntes maschinelles Erkennungsverfahren. Sowohl der Aufbau des maschinellen Erkennungsverfahrens beziehungsweise die Anzahl an Schichten und Neuronen pro Schicht als auch das Training beziehungsweise die Trainingsdaten des maschinellen Erkennungsverfahrens haben großen Einfluss auf die Erkennungsqualität. Für einen Anwender bleibt allerdings aufgrund der Vielzahl an Schichten und Neuronen ein resultierendes Prinzip des maschinellen Erkennungsverfahrens in der Anwendung häufig unklar. Mit anderen Worden kann ein maschinelles Erkennungsverfahren als nicht analytisches Verfahren beschrieben werden. Mit wiederum anderen Worten weiß ein Anwender häufig nicht genau, warum ein neuronales Netz beispielsweise ein Fahrzeug als Fahrzeug und eine Person als Person erkennt. Entsprechend können maschinelle Erkennungsverfahren, beispielsweise zur Objektdetektion unzuverlässige Ergebnisse liefern, da in der Regel keine physikalischen Modelle beziehungsweise kein abstrahiertes Modellwissen implementiert ist. Eine semantische Segmentierung ist als angelerntes maschinelles Erkennungsverfahren bekannt. Ein Verfahren zur semantischen Segmentierung liefert als Ergebnis eine Klassifikation eines Pixels eines Kamerabildes in semantische Kategorien (z.B. Person, Auto, Straße, ...), wobei insbesondere aber nicht notwendigerweise alle Pixel des Bildes klassifiziert werden. Dies entspricht insbesondere einer Grobeinteilung der durch die Pixel abgebildeten Bildinhalte. Als einfaches Beispiel für die semantische Segmentierung kann eine Aufteilung eines Bilds in zwei Klassen beziehungsweise Teilbereiche erfolgen, zum Beispiel einen Teilbereich, welcher eine Person abbildet, und einen anderen Teilbereich, welcher den Hintergrund zur dargestellten Person abbildet. Machine recognition methods are, for example, neural networks, in particular those with a large number of layers, each of which includes so-called neurons. A neuron of each layer is typically associated with neurons of a previous layer and neurons of a subsequent layer. For example, the links between the neurons each have associated weights. Machine recognition methods are advantageously trained with a large number of data, in particular this data includes a large number of images which each have an assigned label or an expected output of the recognition method for at least a partial area of a respective image. Alternatively or additionally, a machine recognition method can be trained with data of only one known output. During training, at least the weights of the links are typically adjusted. Each of the layers of the neural network advantageously represents an abstraction level of the image. Through the training, a machine recognition method can learn, for example, in particular by adjusting the weights of the connections between the neurons, to distinguish a vehicle in an image from a person or a tree or to recognize the vehicle, with the machine recognition method typically providing a probability for the Presence of the object determined. The result is a computationally efficient, trained machine recognition method. Both the structure of the machine recognition process or the number of layers and neurons per layer and the training or the training data of the machine recognition process have a major influence on the recognition quality. However, due to the large number of layers and neurons, a resulting principle of the machine recognition method in the application often remains unclear for a user. In other words, a machine recognition method can be described as a non-analytical method. In other words, a user often does not know exactly why a neural network, for example, recognizes a vehicle as a vehicle and a person as a person. Accordingly, machine recognition methods, for example for object detection, can deliver unreliable results since no physical models or no abstract model knowledge is generally implemented. Semantic segmentation is known as a learned machine recognition method. A method for semantic segmentation delivers as a result a classification of a pixel of a camera image into semantic categories (eg person, car, street, . . . ), with all pixels of the image being classified in particular but not necessarily. This corresponds in particular to a rough classification of the image content mapped by the pixels. As a simple example of semantic segmentation, an image can be divided into two classes or sub-areas, for example a sub-area that depicts a person and another sub-area that depicts the background of the person depicted.
Die Detektion statischer und/oder dynamischer Objekte auf Basis von dreidimensionalen Punktwolken ist ebenfalls bekannt, beispielsweise durch die Veröffentlichung von Y.Zhou und O. Tuzel „VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection“ (CVPR 2018). The detection of static and/or dynamic objects based on three-dimensional point clouds is also known, for example through the publication by Y.Zhou and O. Tuzel "VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection" (CVPR 2018) .
C. Godard et al. offenbaren in ihrer Veröffentlichung mit dem Titel „Unsupervised Monocular Depth Estimation with Left- Right Consistency“ (arXiv:1609.03677v3) eine Tiefenschätzung mittels eines angelernten maschinellen Erkennungsverfahrens. C. Godard et al. disclose in their paper entitled “Unsupervised Monocular Depth Estimation with Left-Right Consistency” (arXiv:1609.03677v3) a depth estimation using a learned machine recognition method.
D. Eigen et al. offenbaren in ihrer Veröffentlichung mit dem Titel „Depth Map Prediction from a Single Imageusing a Multi-Scale Deep Network“ eine Tiefenschätzung mittels eines anderen angelernten maschinellen Erkennungsverfahrens, wobei ein angelerntes maschinelles Erkennungsverfahren eine Grobschätzung der Tiefe für größere Bereiche eines Bildes durchführt und ein anderes angelerntes maschinelles Erkennungsverfahren lokal eine genauere Schätzung der Tiefe der Pixel des Bildes durchführt (http://papers.nips.cc/paper/5539-depth-map-prediction-from-a-single- image-using-a-multi-scale-deep-network.pdf.). D. Eigen et al. in their paper titled "Depth Map Prediction from a Single Imageusing a Multi-Scale Deep Network" disclose depth estimation using a different trained machine recognition method, with one trained machine recognition method performing a rough estimate of depth for larger areas of an image and another trained machine recognition method locally performs a more accurate estimate of the depth of the image's pixels (http://papers.nips.cc/paper/5539-depth-map-prediction-from-a-single-image-using-a-multi-scale- deep-network.pdf.).
Des Weiteren ermöglichen Stereokameras in bekannter Art und Weise die Ermittlung von Abstandsdaten zwischen Umgebungsobjekten im Blickfeld einer Kamera und der Kamera mittels zweier in einem festen Abstand angeordneter Kameras durch ein Triangulationsverfahren. Solche eine Stereokamera, umfassend zwei Kameras, kann beispielsweise an einem Fahrzeug angeordnet sein. Abstandsdaten zwischen Objekten und einem Fahrzeug oder der Kamera können alternativ oder zusätzlich mittels eines Ultraschallsensors, mittels eines Radarsensors oder mittels eines Lidarsensors erfasst werden. Ein zusätzlich zu einer Kamera angeordnete Sensor erhöht allerdings die Kosten des Gesamtsystems, beispielsweise des Fahrzeugs, und erfordert bei einer Sensordatenfusion eine aufwändige und gegebenenfalls regelmäßige Kalibrierung zwischen dem Sensor und der Kamera sowie eine leistungsstärkere Recheneinheit zur Sensordatenfusion. Furthermore, stereo cameras allow, in a known manner, the determination of distance data between surrounding objects in the field of view of a camera and the camera using two cameras arranged at a fixed distance using a triangulation method. Such a stereo camera, comprising two cameras, can be arranged on a vehicle, for example. Alternatively or additionally, distance data between objects and a vehicle or the camera can be recorded by means of an ultrasonic sensor, by means of a radar sensor or by means of a lidar sensor. A sensor placed in addition to a camera however, increases the costs of the overall system, for example the vehicle, and in the case of a sensor data fusion requires a complex and possibly regular calibration between the sensor and the camera as well as a more powerful computing unit for the sensor data fusion.
Die Aufgabe der vorliegenden Erfindung ist es, die Detektion statischer und/oder dynamischer Objekte gegenüber dem Stand der Technik zu verbessern. The object of the present invention is to improve the detection of static and/or dynamic objects compared to the prior art.
Offenbarung der Erfindung Disclosure of Invention
Die vorstehende Aufgabe wird erfindungsgemäß entsprechend der unabhängigen Ansprüche 1 und 11 bis 15 gelöst. The above object is achieved according to the invention according to independent claims 1 and 11 to 15.
Die vorliegende Erfindung betrifft ein Verfahren zur Erkennung dreidimensionaler Objekte in einem Blickfeld einer Kamera. Die Kamera ist insbesondere eine Fahrzeugkamera, welche bevorzugt zumindest einen Teil einer Umgebung des Fahrzeugs erfasst. Eine Fahrzeugkamera ist beispielsweise an einer erhöhten Position hinter der Windschutzscheibe an dem Fahrzeug angeordnet. In einem ersten Schritt wird wenigstens ein Kamerabild mittels wenigstens der Kamera erfasst. Es kann vorteilhafterweise vorgesehen sein, näherungsweise gleichzeitig mehrere Kamerabilder mittels jeweils einer Kamera zu erfassen, wobei die Kameras unterschiedliche Blickfelder beziehungsweise Perspektiven aufweisen beziehungsweise einen anderen Teilbereich der Umgebung erfassen. Mit anderen Worten kann es vorgesehen sein, dass mehrere Kamerabilder mehrerer Fahrzeugkameras erfasst werden, welche vorteilhafterweise jeweils Teil eines Surround View-Systems des Fahrzeugs sind. Vorteilhafterweise ist die Kamera beziehungsweise Fahrzeugkamera dazu eingerichtet, einen in Fahrrichtung vorne liegenden Bereich einer Umgebung des Fahrzeugs zu erfassen. Die Kamera beziehungsweise Fahrzeugkamera ist, insbesondere aus Kostengründen, bevorzugt eine Monokamera, wobei die Monokamera eine Weitwinkeloptik aufweisen kann. Alternativ ist die Kamera beziehungsweise Fahrzeugkamera vorteilhafterweise Teil einer Stereokamera, insbesondere um eine erhöhte Zuverlässigkeit oder Genauigkeit des Verfahrens zu erreichen. In einem zweiten Verfahrensschritt wird eine semantische Segmentierung des wenigstens einen Kamerabildes durch ein erstes angelerntes maschinelles Erkennungsverfahren durchgeführt. Dabei wird vorteilhafterweise in wenigstens einem Teilbereich des Kamerabildes wenigstens eine Bildregion erkannt, welche eine statische und/oder bewegte Objektklasse abbildet, beispielsweise werden andere Fahrzeuge in dem Kamerabild erkannt. Anschließend wird in einem weiteren Verfahrensschritt in Abhängigkeit der semantischen Segmentierung eine Segmentinformation zu den Pixeln des Kamerabildes zugeordnet, wobei die jeweiligen Pixel insbesondere das erkannte Objekt abbilden. Beispielsweise wird den Pixeln des Kamerabildes, welche ein Fahrzeug abbilden, als Segmentinformation ein Wert zugeordnet, welcher Fahrzeuge repräsentiert. Anschließend wird wenigstens ein Bildausschnitt des Kamerabildes als Segment ermittelt, welcher benachbarte Pixel mit der gleichen zugeordneten Segmentinformation aufweist. Mit anderen Worten werden benachbarte Pixel des Kamerabildes in Abhängigkeit der jeweils zugeordneten Segmentinformation zu einem Segment gruppiert. Als benachbarte Pixel werden dabei vorteilhafterweise alle Pixel eines Kamerabildes verstanden, welche eine Verbindung zu dem jeweiligen Pixel durch Pixel mit der gleichen Segmentinformation aufweisen. Ein einzelnes Segment kann folglich insbesondere mehr als ein Fahrzeug oder mehr als eine Person umfassen. Anschließend erfolgt eine Ermittlung von Abstandsdaten zwischen Umgebungsobjekten im Kamerablickfeld und der Kamera, insbesondere zwischen Objekten in der Umgebung des Fahrzeugs und dem Fahrzeug. Bevorzugt werden die Abstandsdaten in Abhängigkeit des erfassten Kamerabilds ermittelt. Besonders bevorzugt werden die Abstandsdaten in Abhängigkeit des erfassten Kamerabilds durch ein zweites angelerntes maschinelles Erkennungsverfahren ermittelt, siehe Veröffentlichung von C. Godard et al. oder D. Eigen et al.. Alternativ oder zusätzlich können die Abstandsdaten durch ein Stereovision-Verfahren und/oder ein structure-from-motion-Verfahren ermittelt werden. Alternativ oder zusätzlich können die Abstandsdaten durch einen Ultraschallsensor, einen Radarsensor und/oder einen Lidarsensor ermittelt werden. In einem weiteren Schritt des Verfahrens wird eine Abstandsinformation zu den Pixeln zumindest eines Teils des Kamerabildes in Abhängigkeit der ermittelten Abstandsdaten zugeordnet. Die zugeordnete Abstandsinformation des jeweiligen Pixels repräsentiert vorteilhafterweise einen Abstand eines von dem Pixel abgebildeten Objektes der Umgebung zum Fahrzeug. Alternativ oder zusätzlich zur Ermittlung von Abstandsdaten zwischen Umgebungsobjekten im Kamerablickfeld und der Kamera wird eine Ermittlung eines optischen Flusses beziehungsweise einer Relativbewegung zu wenigstens einem Teil der Pixel des erfassten Kamerabilds durchgeführt. Insbesondere wird ein optischer Fluss der Pixel eines ermittelten Segments bestimmt. Die Ermittlung des optischen Flusses zu wenigstens einem Teil der Pixel des Kamerabildes erfolgt in Abhängigkeit des erfassten Kamerabildes sowie mindestens eines weiteren vorher und/oder nachher erfassten Kamerabildes. In einem weiteren Schritt wird wenigstens eine dreidimensionale Objekthypothese in einem ermittelten Segment bestimmt, wobei Pixel des ermittelten Segments vorteilhafterweise in Abhängigkeit der jeweils zugeordneten Abstandsinformationen zu einem Segmentausschnitt untergruppiert beziehungsweise gruppiert werden. Die Gruppierung der Pixel in einem Segment zu einer dreidimensionalen Objekthypothese erfolgt insbesondere wenn eine Differenz zwischen den zugeordneten Abstandsinformationen dieser Pixel oder zumindest einer vorbestimmten Anzahl dieser Pixel kleiner oder gleich einem Abstandstoleranzwert ist. Mit anderen Worten wird ein Segmentausschnitt des Segments als dreidimensionale Objekthypothese vorteilhafterweise in Abhängigkeit der zugeordneten Abstandsinformationen der Pixel des Segments bestimmt, wobei dieser Segmentausschnitt vorteilhafterweise zumindest eine definierte Anzahl an Pixeln aufweist, deren zugeordnete Abstandsinformationen jeweils zueinander eine Differenz kleiner oder gleich einem Abstandstoleranzwert aufweisen. Alternativ oder zusätzlich wird die Bestimmung der wenigstens einen dreidimensionalen Objekthypothese als Segmentausschnitt eines ermittelten Segments in Abhängigkeit des ermittelten optischen Flusses der Pixel des Segments durchgeführt. Mit anderen Worten werden vorteilhafterweise bei der Bestimmung der dreidimensionalen Objekthypothese zusätzlich oder alternativ die Pixel eines ermittelten Segments in Abhängigkeit des ermittelten optischen Flusses zu einem Segmentausschnitt zusammengefasst beziehungsweise gruppiert. Dabei werden insbesondere zusätzlich oder alternativ diejenigen Pixel des Segments zum Segmentausschnitt zusammengefasst, deren optische Flussvektoren näherungsweise gleich sind und/oder deren Änderung der Flussvektoren näherungsweise gleich sind und/oder deren optische Flussvektoren in die näherungsweise gleiche Richtung zeigen. Vorteilhafterweise sind die zu einer dreidimensionalen Objekthypothese gruppierten Pixel benachbart. Das Verfahren weist den Vorteil auf, dass eine zuverlässige Ermittlung der Objekthypothesen erfolgt, weil das oder die angelernte(n) maschinellen Erkennungsverfahren mit einem physikalischen Modell verknüpft werden. Mit anderen Worten werden Fehler in der Objekterkennung und/oder in einer ermittelten Objektausdehnung vermieden, insbesondere, wenn zwei Objekte einander verdecken, da sich gegenseitig verdeckende Objekte einen unterschiedlichen Abstand zur Kamera und/oder eine unterschiedliche Bewegungsrichtung und/oder einen unterschiedliche Geschwindigkeit aufweisen. Das dabei angewendete physikalische Modell besagt, dass in einem Bildausschnitt des Kamerabildes bzw. in einem Segment, welches einen gleichem semantischen Inhalt abbildet, insbesondere keine signifikant unterschiedlichen Abstände zur Kamera beziehungsweise zum Fahrzeug und/oder keine signifikant unterschiedlichen Geschwindigkeiten oder Bewegungsrichtungen vorliegen können, wenn dieses nur ein Objekt repräsentieren würde. Mit anderen Worten können in einem Segment vorteilhafterweise unterschiedliche Segmentausschnitte identifiziert werden, welche unterschiedliche dreidimensionale Objekthypothesen repräsentieren. Dies ist beispielsweise von Vorteil, wenn ein Fahrzeug in dem erfassten Kamerabild von einem anderen Fahrzeug oder eine Person in dem erfassten Kamerabild von einer anderen Person verdeckt wird. Darüber hinaus lässt sich das erste angelernte maschinelle Erkennungsverfahren vorteilhafterweise robuster trainieren, da es gegenüber klassischen Objekterkennungsverfahren eine abstrahiertere Ausgabe erzeugen kann, beispielsweise müssen statische und bewegte Objekte oder Fahrzeugklassen zunächst nicht unterschieden werden. Bevorzugt wird das Verfahren mittels nur einer Kamera beziehungsweise Fahrzeugkamera beziehungsweise mittels einer Monokamera oder mittels einer Stereokamera durchgeführt und auf zusätzliche aktive Sensoren, welche elektromechanische Strahlung oder Druck bzw. Ultraschall aussenden, verzichtet. Dadurch kann das Verfahren kostengünstig und sehr recheneffizient durchgeführt werden. The present invention relates to a method for detecting three-dimensional objects in a field of view of a camera. The camera is in particular a vehicle camera, which preferably captures at least part of the surroundings of the vehicle. For example, a vehicle camera is arranged on the vehicle at an elevated position behind the windshield. In a first step, at least one camera image is captured using at least the camera. Provision can advantageously be made for multiple camera images to be captured approximately simultaneously by means of one camera each, with the cameras having different fields of view or perspectives or capturing a different partial area of the environment. In other words, provision can be made for multiple camera images to be captured by multiple vehicle cameras, which are each advantageously part of a surround view system of the vehicle. The camera or vehicle camera is advantageously set up to capture an area of an environment of the vehicle that is at the front in the direction of travel. The camera or vehicle camera is preferably a mono camera, in particular for cost reasons, it being possible for the mono camera to have wide-angle optics. Alternatively, the camera or vehicle camera is advantageously part of a stereo camera, in particular in order to achieve increased reliability or accuracy of the method. In a second method step, a semantic segmentation of the at least one camera image is carried out using a first learned machine recognition method. At least one image region that depicts a static and/or moving object class, for example, is advantageously recognized in at least one partial area of the camera image other vehicles detected in the camera image. Subsequently, in a further method step, segment information is assigned to the pixels of the camera image as a function of the semantic segmentation, with the respective pixels in particular imaging the recognized object. For example, the pixels of the camera image that depict a vehicle are assigned a value as segment information that represents vehicles. At least one image section of the camera image is then determined as a segment, which has adjacent pixels with the same assigned segment information. In other words, adjacent pixels of the camera image are grouped into a segment depending on the respectively assigned segment information. All pixels of a camera image that have a connection to the respective pixel through pixels with the same segment information are advantageously understood as neighboring pixels. A single segment can consequently in particular include more than one vehicle or more than one person. Distance data is then determined between surrounding objects in the camera's field of view and the camera, in particular between objects in the vicinity of the vehicle and the vehicle. The distance data are preferably determined as a function of the captured camera image. The distance data are particularly preferably determined as a function of the captured camera image by a second, learned machine recognition method, see publication by C. Godard et al. or D. Eigen et al. Alternatively or additionally, the distance data can be determined by a stereo vision method and/or a structure-from-motion method. Alternatively or additionally, the distance data can be determined by an ultrasonic sensor, a radar sensor and/or a lidar sensor. In a further step of the method, distance information is assigned to the pixels of at least part of the camera image as a function of the determined distance data. The associated distance information of the respective pixel advantageously represents a distance of an object in the surroundings, which is imaged by the pixel, from the vehicle. Alternatively or in addition to determining distance data between surrounding objects in the camera's field of view and the camera, an optical flow or a movement relative to at least some of the pixels of the captured camera image is determined. In particular, an optical flow of the pixels of a determined segment is determined. The optical flow to at least some of the pixels of the camera image is determined as a function of the captured camera image and at least one other previously and/or subsequently captured camera image. In a further step, at least one three-dimensional object hypothesis is determined in a determined segment, with pixels of the determined segment are advantageously subgrouped or grouped into a segment excerpt depending on the respectively assigned distance information. The grouping of the pixels in a segment to form a three-dimensional object hypothesis takes place in particular when a difference between the associated distance information of these pixels or at least a predetermined number of these pixels is less than or equal to a distance tolerance value. In other words, a segment section of the segment is advantageously determined as a three-dimensional object hypothesis as a function of the assigned distance information of the pixels of the segment, this segment section advantageously having at least a defined number of pixels whose assigned distance information each have a difference that is less than or equal to a distance tolerance value. Alternatively or additionally, the at least one three-dimensional object hypothesis is determined as a segment section of a determined segment depending on the determined optical flow of the pixels of the segment. In other words, when determining the three-dimensional object hypothesis, the pixels of a determined segment are advantageously additionally or alternatively combined or grouped into a segment excerpt depending on the determined optical flow. In particular, those pixels of the segment whose optical flow vectors are approximately the same and/or whose change in flow vectors are approximately the same and/or whose optical flow vectors point in approximately the same direction are additionally or alternatively combined to form the segment section. Advantageously, the pixels grouped into a three-dimensional object hypothesis are adjacent. The method has the advantage that the object hypotheses are reliably determined because the machine recognition method or methods that have been learned are linked to a physical model. In other words, errors in object recognition and/or in a determined object extension are avoided, especially when two objects cover each other, since mutually covering objects have a different distance from the camera and/or a different direction of movement and/or a different speed. The physical model used states that in an image section of the camera image or in a segment that depicts the same semantic content, there can be no significantly different distances to the camera or vehicle and/or no significantly different speeds or directions of movement if this would represent only one object. In other words can in advantageously different segment excerpts are identified in a segment, which represent different three-dimensional object hypotheses. This is advantageous, for example, when a vehicle in the captured camera image is covered by another vehicle or a person in the captured camera image is covered by another person. In addition, the first learned machine recognition method can advantageously be trained more robustly, since it can generate a more abstract output compared to classic object recognition methods, for example static and moving objects or vehicle classes do not initially have to be differentiated. The method is preferably carried out using only one camera or vehicle camera or using a mono camera or using a stereo camera and additional active sensors which emit electromechanical radiation or pressure or ultrasound are dispensed with. As a result, the method can be carried out in a cost-effective and very computationally efficient manner.
In einer vorteilhaften Weiterbildung der Erfindung wird die Objekthypothese nur bestimmt, wenn die den Pixeln des Segmentausschnitts zugeordnete Abstandsinformation für zumindest eine vorgegebene Anzahl an Pixeln jeweils kleiner oder gleich einem Abstandsschwellenwert ist. Dadurch wird das Verfahren recheneffizienter und zuverlässiger. In an advantageous development of the invention, the object hypothesis is only determined if the distance information assigned to the pixels of the segment excerpt is less than or equal to a distance threshold value for at least a predetermined number of pixels. This makes the method more computationally efficient and more reliable.
In einer Ausführung des Verfahren erfolgt die Bestimmung der dreidimensionalen Objekthypothese nur, wenn die Anzahl der Pixel des Segmentausschnitts größer oder gleich einem Mindestwert ist. Dadurch werden unrealistisch kleine Ausdehnungen von Objekthypothesen oder unwichtige Objekthypothesen vermieden. In one embodiment of the method, the three-dimensional object hypothesis is only determined if the number of pixels in the segment section is greater than or equal to a minimum value. This avoids unrealistically small extensions of object hypotheses or unimportant object hypotheses.
In einer Weiterführung des Verfahrens wird bei der Bestimmung der dreidimensionalen Objekthypothese der Abstandstoleranzwert in Abhängigkeit der zugeordneten Segmentinformation, der zugeordneten Abstandsinformation und/oder einer erfassten Geschwindigkeit des Fahrzeugs angepasst. Dadurch kann der Abstandstoleranzwert vorteilhafterweise an eine zu erwartende Ausdehnung einer Objektklasse und/oder an eine zu erwartende Ausrichtung einer Objektklasse, beispielsweise von Fahrzeugen oder Personen, welche sich verdecken, und/oder an eine sich mit wechselnder Fahrzeuggeschwindigkeit ändernde Genauigkeit der ermittelten Abstandsdaten angepasst werden. Vorteilhafterweise ist beispielsweise der Abstandstoleranzwert zur Trennung von Objekthypothesen in einem Segment für eine zugeordnete Segmentinformation, welche Personen repräsentiert, kleiner als für eine zugeordnete Segmentinformation, welche Fahrzeuge repräsentiert. In a further development of the method, when determining the three-dimensional object hypothesis, the distance tolerance value is adjusted as a function of the assigned segment information, the assigned distance information and/or a detected speed of the vehicle. As a result, the distance tolerance value can advantageously be adapted to an expected extent of an object class and/or to an expected orientation of an object class, for example vehicles or people who are hiding, and/or to an accuracy of the determined distance data that changes as the vehicle speed changes. Advantageously, for example, the distance tolerance value for separating object hypotheses in a segment for an assigned Segment information representing people smaller than for associated segment information representing vehicles.
In einer anderen Ausführung wird vor der Bestimmung der dreidimensionalen Objekthypothese wenigstens ein Objekt in dem ermittelten Segment durch ein weiteres angelerntes maschinelles Erkennungsverfahren erkannt. Beispielsweise wird ein Kopf einer Person oder ein Nummernschild erkannt. Anschließend wird die Objekthypothese in einem Segment in Abhängigkeit des erkannten Objektes ermittelt, beispielsweise wird die Anzahl der Objekthypothesen in Abhängigkeit der Anzahl der in dem Segment abgebildeten Fahrzeuge oder der Personen ermittelt. Mit anderen Worten werden beispielsweise Objekthypothesen in Abhängigkeit der Anzahl der in dem Segment abgebildeten Fahrzeuge oder der Personen ermittelt. Optional erfolgt in einem weiteren Schritt vor der Bestimmung der dreidimensionalen Objekthypothese eine Zuordnung einer Objektinformation zu den jeweiligen Pixeln des ermittelten Segments, welche das erkannte Objekt abbilden, in Abhängigkeit des erkannten Objektes. Danach wird in dieser optionalen Ausgestaltung die Bestimmung der wenigstens einen dreidimensionalen Objekthypothese als Segmentausschnitt eines ermittelten Segments zusätzlich in Abhängigkeit der zumindest einigen Pixeln im Segmentausschnitt zugeordneten Objektinformation durchgeführt. Optional wird mit anderen Worten die Bestimmung der wenigstens einen dreidimensionalen Objekthypothese als Segmentausschnitt eines ermittelten Segments zusätzlich in Abhängigkeit der den Pixeln zugeordneten Objektinformation durchgeführt. In dieser Ausführung kann beispielsweise ein Abstandstoleranzwert in Abhängigkeit der Anzahl der erkannten Objekte angepasst werden, falls die Anzahl der ermittelten Objekthypothesen nicht der ermittelten Anzahl der erkannten Objekte entspricht. Alternativ oder zusätzlich wird die Anzahl der bestimmten Objekthypothesen in Abhängigkeit der ermittelten Anzahl der erkannten Objekte durchgeführt. In dieser Ausführung wird somit vorteilhafterweise eine Objekthypothese für ein sich im Vordergrund befindliches Objekt im Blickfeld der Kamera bestimmt, wenn beispielsweise eine notwendige Bedingung, wie ein Nummernschild eines Fahrzeugs oder ein Kopf einer Person, erkannt wird. Alternativ oder zusätzlich wird vorteilhafterweise die Anzahl der ermittelten dreidimensionalen Objekthypothesen überprüft und gegebenenfalls ein Parameter des Verfahrens angepasst, wenn die Anzahl der ermittelten Objekthypothesen nicht zur Anzahl der erkannten Objekte korreliert. In another embodiment, before the three-dimensional object hypothesis is determined, at least one object in the ascertained segment is recognized by a further learned machine recognition method. For example, a person's head or a license plate is recognized. The object hypothesis in a segment is then determined as a function of the detected object, for example the number of object hypotheses is determined as a function of the number of vehicles or people depicted in the segment. In other words, object hypotheses, for example, are determined as a function of the number of vehicles or people depicted in the segment. Optionally, in a further step before the three-dimensional object hypothesis is determined, object information is assigned to the respective pixels of the determined segment, which depict the detected object, depending on the detected object. In this optional refinement, the at least one three-dimensional object hypothesis is then determined as a segment section of a determined segment, additionally as a function of the object information assigned to at least some pixels in the segment section. In other words, the determination of the at least one three-dimensional object hypothesis as a segment section of a determined segment is optionally carried out additionally as a function of the object information assigned to the pixels. In this embodiment, for example, a distance tolerance value can be adjusted as a function of the number of objects detected if the number of object hypotheses determined does not correspond to the number of objects detected. Alternatively or additionally, the number of object hypotheses determined is carried out as a function of the determined number of objects recognized. In this embodiment, an object hypothesis for an object located in the foreground in the camera's field of view is thus advantageously determined if, for example, a necessary condition, such as a number plate of a vehicle or a person's head, is detected. Alternatively or additionally, the number of determined three-dimensional object hypotheses is advantageously checked and, if necessary, a parameter of the method is adjusted if the number of determined object hypotheses does not correlate to the number of objects recognized.
In einer weiteren Ausführung kann es vorgesehen sein, wenigstens eineIn a further embodiment it can be provided at least one
Texturinformation und/oder eine Farbinformation der Pixel in dem ermittelten Segment zu ermitteln. Anschließend wird die ermittelte Texturinformation und/oder die ermittelte Farbinformation den jeweiligen Pixeln des ermittelten Segments zugeordnet, welche die ermittelte Texturinformation und/oder die ermittelte Farbinformation abbilden. Danach erfolgt die Bestimmung der wenigstens einen dreidimensionalen Objekthypothese als Segmentausschnitt eines ermittelten Segments zusätzlich in Abhängigkeit der zugeordneten Texturinformation und/oder der zugeordneten Farbinformation. Mit anderen Worten werden die Pixel eines ermittelten Segments zusätzlich in Abhängigkeit der ermittelten Texturinformation und/oder der ermittelten Farbinformation zu einer dreidimensionalen Objekthypothese beziehungsweise einem Segmentausschnitt zusammengefasst beziehungsweise gruppiert, wobei insbesondere diejenigen Pixel des Segments zusammengefasst werden, deren ermittelte beziehungsweise zugeordnete Texturinformation und/oder deren ermittelte beziehungsweise zugeordnete Farbinformation näherungsweise gleich sind. Dadurch resultiert der Vorteil, dass einander teilweise verdeckende und/oder nebeneinanderfahrende unterschiedliche Fahrzeuge oder einander teilweise verdeckende und/oder nebeneinander gehende Personen als unterschiedliche dreidimensionale Objekthypothesen leichter ermittelt werden können. Texture information and/or color information of the pixels in the determined segment to determine. The determined texture information and/or the determined color information is then assigned to the respective pixels of the determined segment which map the determined texture information and/or the determined color information. The at least one three-dimensional object hypothesis is then determined as a segment section of a determined segment, additionally depending on the assigned texture information and/or the assigned color information. In other words, the pixels of a determined segment are also combined or grouped depending on the determined texture information and/or the determined color information to form a three-dimensional object hypothesis or a segment section, with in particular those pixels of the segment being combined whose determined or assigned texture information and/or their determined or assigned color information are approximately the same. This results in the advantage that different vehicles partially covering one another and/or driving next to each other or people partially covering one another and/or walking next to each other can be more easily determined as different three-dimensional object hypotheses.
In einer anderen Weiterführung werden die mittels einer Fahrzeugkamera ermittelten Abstandsdaten zwischen der Umgebung des Fahrzeugs und dem Fahrzeug mittels eines Ultraschallsensors, eines Lidarsensors und/oder eines Radarsensors korrigiert. Dadurch resultiert der Vorteil, dass die ermittelten Abstandsdaten genau erfasst beziehungsweise ermittelt werden. Dies ermöglicht eine genauere Ermittlung von dreidimensionalen Objekthypothesen, so dass vorteilhafterweise beispielsweise in einer Ansammlung von Menschen an einer Ampel mehrere neben- oder hintereinanderstehender und/oder einander teilweise verdeckender Personen als dreidimensionale Objekthypothesen leichter ermittelt werden können. In another development, the distance data between the surroundings of the vehicle and the vehicle, determined by means of a vehicle camera, are corrected by means of an ultrasonic sensor, a lidar sensor and/or a radar sensor. This results in the advantage that the determined distance data is recorded or determined precisely. This enables three-dimensional object hypotheses to be determined more precisely, so that advantageously, for example in a crowd of people at a traffic light, a number of people standing next to or behind one another and/or partially covering one another can be more easily determined as three-dimensional object hypotheses.
Bevorzugt kann des Weiteren nach der Bestimmung der dreidimensionalen Objekthypothese eine Validierung der dreidimensionalen Objekthypothese durchgeführt werden, wobei das Verfahren basierend auf einem anderen vorher oder später mittels der Kamera beziehungsweise Fahrzeugkamera erfassten Kamerabild wiederholt durchgeführt wird. Dadurch wird vorteilhafterweise die Ermittlung der Objekthypothesen auf zeitliche Konsistenz überprüft. Mit anderen Worten wird in dieser Ausgestaltung überprüft, ob eine Person oder ein Fahrzeug vorher und nachher im Kamerabild erfasst und als Objekthypothese bereits ermittelt wurde, da die Person oder das Fahrzeug nicht plötzlich verschwinden oder auftauchen kann. Darüber hinaus kann optional eine Validierung der dreidimensionalen Objekthypothese erfolgen, wobei das Verfahren basierend auf einem anderen vorher oder später oder zeitgleich mittels einer anderen Kamera aus einer anderen Perspektive erfassten Kamerabild durchgeführt wird. Dadurch wird vorteilhafterweise die Ermittlung der Objekthypothesen auf perspektivische Konsistenz überprüft. Vorteilhafterweise sind die andere Kamera und die Kamera beziehungsweise die Fahrzeugkamera in dieser Ausführung Teil einer Stereokamera, so dass die Abstandsdaten zusätzlich genau erfasst beziehungsweise ermittelt werden können. In dieser Weiterführung ist das Verfahren besonders genau und zuverlässig. Furthermore, after the determination of the three-dimensional object hypothesis, a validation of the three-dimensional object hypothesis can preferably be carried out, the method being carried out repeatedly based on another camera image previously or later captured by the camera or vehicle camera. As a result, the determination of the object hypotheses is advantageously checked for temporal consistency. In other words, in this embodiment it is checked whether a person or a vehicle has been detected before and after in the camera image and has already been determined as an object hypothesis, since the person or the vehicle cannot suddenly disappear or appear. In addition, the three-dimensional object hypothesis can optionally be validated, with the method being carried out on the basis of another camera image captured earlier or later or at the same time using a different camera from a different perspective. As a result, the determination of the object hypotheses is advantageously checked for perspective consistency. Advantageously, the other camera and the camera or the vehicle camera in this embodiment are part of a stereo camera, so that the distance data can also be precisely recorded or determined. In this development, the method is particularly accurate and reliable.
In einer optionalen Ausgestaltung des Verfahrens wird die wenigstens eine bestimmte dreidimensionale Objekthypothese anschließend in einem virtuellen dreidimensionalen Umgebungsmodell angezeigt. Vorteilhafterweise wird das Umgebungsmodell aus einer Vogelperspektive angezeigt beziehungsweise dargestellt. Es kann vorgesehen sein, dass die dreidimensionale Objekthypothese mittels eines in Abhängigkeit der dreidimensionalen Objekthypothese geladenen synthetisches Modells angezeigt beziehungsweise dargestellt wird, wobei das synthetische Modell die Objekthypothese repräsentiert. Dabei wird insbesondere die dreidimensionale Objekthypothese zum Fahrzeug in Abhängigkeit der den Pixeln zugeordneten Abstandsinformation angezeigt, welche die jeweilige ermittelte Objekthypothese darstellen. Es kann vorteilhafterweise des Weiteren vorgesehen sein, dass die dreidimensionale Objekthypothes zusätzlich in Abhängigkeit einer basierend auf einem anderen angelernten maschinellen Erkennungsverfahren ermittelten Ausrichtung der bestimmten Objekthypothese angezeigt wird. In an optional refinement of the method, the at least one specific three-dimensional object hypothesis is then displayed in a virtual three-dimensional environment model. The environment model is advantageously displayed or represented from a bird's-eye view. Provision can be made for the three-dimensional object hypothesis to be displayed or represented by means of a synthetic model loaded as a function of the three-dimensional object hypothesis, with the synthetic model representing the object hypothesis. In this case, in particular, the three-dimensional object hypothesis for the vehicle is displayed as a function of the distance information assigned to the pixels, which represents the respective determined object hypothesis. Furthermore, it can advantageously be provided that the three-dimensional object hypothesis is additionally displayed as a function of an orientation of the specific object hypothesis determined based on another learned machine recognition method.
Die Erfindung betrifft auch ein Computerprogramm, welches dazu eingerichtet ist, ein erfindungsgemäßes Verfahren zur Erkennung dreidimensionaler Objekte in einem Blickfeld einer Kamera durchzuführen. The invention also relates to a computer program which is set up to carry out a method according to the invention for recognizing three-dimensional objects in a field of view of a camera.
Die Erfindung betrifft des Weiteren ein maschinenlesbares Speichermedium, auf welchem das erfindungsgemäße Computerprogrammprodukt gespeichert ist. The invention also relates to a machine-readable storage medium on which the computer program product according to the invention is stored.
Des Weiteren betrifft die Erfindung ein Steuergerät. Das erfindungsgemäße Steuergerät ist dazu eingerichtet, mit wenigstens einer Kamera verbunden zu sein, wobei die Kamera insbesondere eine Fahrzeugkamera ist. Das Steuergerät ist des Weiteren dazu eingerichtet, ein erfindungsgemäßes Verfahren zur Erkennung dreidimensionaler Objekte in einem Blickfeld einer Kamera durchzuführen. Furthermore, the invention relates to a control unit. The control unit according to the invention is set up to be connected to at least one camera, the camera being in particular a vehicle camera. The control unit is Also set up to carry out a method according to the invention for detecting three-dimensional objects in a field of view of a camera.
Ferner betrifft die Erfindung ein Fahrzeug mit einem erfindungsgemäßen Steuergerät. Furthermore, the invention relates to a vehicle with a control device according to the invention.
Darüber hinaus betrifft die Erfindung ein Videoüberwachungssystem mit einem erfindungsgemäßen Steuergerät. In addition, the invention relates to a video surveillance system with a control unit according to the invention.
Weitere Vorteile ergeben sich aus der nachfolgenden Beschreibung von Ausführungsbeispielen mit Bezug zu den Figuren. Further advantages result from the following description of exemplary embodiments with reference to the figures.
Figur 1: Fahrzeug Figure 1: vehicle
Figur 2: Verfahren Figure 2: Procedure
Figur 3: erfasstes Kamerabild Figure 3: Captured camera image
Figur 4: Grobeinteilung des erfassten Kamerabilds zu Segmenten Figure 4: Rough division of the captured camera image into segments
Figur 5: ermittelte Abstandsdaten zu dem erfassten Kamerabild FIG. 5: determined distance data for the captured camera image
Ausführungsbeispiele exemplary embodiments
In Figur 1 ist ein Fahrzeug 100 schematisch dargestellt, welches verschiedene Sensoren 111, 112, 120, 130, 140 zur Erfassung der Umgebung des Fahrzeugs 100 aufweist. Das Fahrzeug 100 weist eine Kamera 111 beziehungsweise Fahrzeugkamera auf, welche aus Kostengründen vorteilhafterweise als Monokamera ausgestaltet ist. Die Kamera 111 erfasst einen Teilbereich 191 der Umgebung 190, welcher im Blickfeld 191 der Kamera liegt. Die Kamera 111 ist dazu eingerichtet, wenigstens ein Kamerabild des Teilbereichs 191 im Blickfeld 191 von der Umgebung 190 des Fahrzeugs 100 bzw. einer Abfolge von Kamerabildern der Umgebung 190 zu erfassen. Insbesondere wird von der Kamera 111 ein Blickfeld 191 beziehungsweise ein Teilbereich der Umgebung 190 in Fahrtrichtung des Fahrzeugs 100 beziehungsweise die vordere Umgebung 190 des Fahrzeugs 100 erfasst. Es kann vorgesehen sein, dass alternativ mittels der Kamera 111 oder mittels einer weiteren Kamera 120 zusätzlich ein rückwärtiger Teilbereich der Umgebung 190 des Fahrzeugs 100 erfasst wird, wobei die jeweilige Kamera 111 als Weitwinkelkamera ausgestaltet sein kann. Des Weiteren kann vorgesehen sein, dass alternativ oder zusätzlich mehrere Weitwinkelkameras 120 eines Surround- View- Kamerasystems als Kameras 111 am Fahrzeug angeordnet sind. Optional umfasst das Fahrzeug 100 ein Stereovision-System 110, welches die Kamera 111 beziehungsweise Fahrzeugkamera und eine weitere Kamera 112 umfasst. Mittels der Kamera 111 und der weiteren Kamera 112 können jeweils einer Abfolge von Kamerabildern beziehungsweise Kamerabilder erfasst und durch ein Triangulationsverfahren basierend auf gleichzeitig erfassten Kamerabildern der Kamera 111 und der weiteren Kamera 112 Abstände beziehungsweise Abstandsdaten zwischen der Kamera 111 beziehungsweise dem Fahrzeug und der Umgebung 190 beziehungsweise Objekten 180 in der Umgebung 190 des Fahrzeugs 100 ermittelt werden. Umgebungsobjekte 180 sind beispielsweise andere Fahrzeuge beziehungsweise Fremdfahrzeuge, welche beispielsweise dem Fahrzeug 100, beispielsweise auf einer gemeinsamen Fahrbahn 182, voraus- oder nachfahren, oder andere Fahrzeuge, welche dem Fahrzeug 100 beispielsweise auf einer anderen Fahrbahn 182 entgegenkommen, oder Personen, welche sich beispielsweise auf einem Bürgersteig 181 neben der Fahrbahn bewegen. Alternativ oder zusätzlich kann das Fahrzeug 100 zusätzlich zur Kamera 111 zur Erfassung bzw. Ermittlung von Abstandsdaten beispielsweise wenigstens einen Radarsensor 130, einen Lidarsensor (nicht dargestellt) und/oder einen Ultraschallsensor 140 als optionalen Sensor aufweisen. Das Fahrzeug 100 weist ferner eine Anzeigevorrichtung 150 auf, welche dazu eingerichtet ist, einem Nutzer beziehungsweise Fahrer des Fahrzeugs 100 Informationen, welche auf den erfassten Sensordaten der verschiedene Sensoren 111, 112, 120, 130, 140 basieren, anzuzeigen. Das Fahrzeug 100 kann mittels eines Steuergeräts optional dazu eingerichtet sein, eine Führung des Fahrzeugs 100 zu unterstützen. Das Fahrzeug 100 kann ferner optional dazu mittels eines Steuergeräts eingerichtet sein, manche Fahrsituationen teilautonom oder vollautonomen durchzuführen, beispielsweise einen Einparkvorgang oder eine Fahrt auf einer Autobahn. A vehicle 100 is shown schematically in FIG. Vehicle 100 has a camera 111 or vehicle camera, which is advantageously designed as a mono camera for reasons of cost. The camera 111 captures a partial area 191 of the surroundings 190 which is in the field of view 191 of the camera. Camera 111 is set up to capture at least one camera image of partial area 191 in field of view 191 of surroundings 190 of vehicle 100 or a sequence of camera images of surroundings 190 . In particular, camera 111 captures a field of view 191 or a partial area of surroundings 190 in the direction of travel of vehicle 100 or front surroundings 190 of vehicle 100 . It can be provided that alternatively by means of the camera 111 or by means of another Camera 120 also captures a rear portion of surroundings 190 of vehicle 100, with each camera 111 being able to be designed as a wide-angle camera. Furthermore, provision can be made for several wide-angle cameras 120 of a surround view camera system to be arranged as cameras 111 on the vehicle as an alternative or in addition. Vehicle 100 optionally includes a stereo vision system 110 which includes camera 111 or vehicle camera and a further camera 112 . Camera 111 and the additional camera 112 can be used to capture a sequence of camera images or camera images and, using a triangulation method based on simultaneously captured camera images from camera 111 and the additional camera 112, distances or distance data between camera 111 or the vehicle and surroundings 190 or Objects 180 in the area 190 of the vehicle 100 are determined. Surrounding objects 180 are, for example, other vehicles or third-party vehicles that are driving ahead or behind vehicle 100, for example on a common lane 182, or other vehicles that are approaching vehicle 100, for example on another lane 182, or people who are, for example, on move on a sidewalk 181 next to the roadway. Alternatively or additionally, vehicle 100 can have at least one radar sensor 130, a lidar sensor (not shown) and/or an ultrasonic sensor 140 as an optional sensor in addition to camera 111 for detecting or determining distance data. The vehicle 100 also has a display device 150 which is set up to display information which is based on the detected sensor data of the various sensors 111 , 112 , 120 , 130 , 140 to a user or driver of the vehicle 100 . The vehicle 100 can optionally be set up by means of a control unit to support a guidance of the vehicle 100 . Vehicle 100 can also optionally be set up by means of a control unit to carry out some driving situations semi-autonomously or fully autonomously, for example a parking maneuver or driving on a freeway.
In Figur 2 ist ein Ablauf des Verfahrens zur Erkennung dreidimensionaler Objekte 180 in einem Blickfeld 191 einer Kamera 111 als Blockschaltbild schematisch dargestellt. Das Verfahren beginnt mit einer Erfassung 210 wenigstens eines Kamerabildes mittels der Kamera 111, 112 und/oder 120, wobei die Kamera 111, 112 und/oder 120 insbesondere an einem Fahrzeug 100 angeordnet ist beziehungsweise wobei die Kamera 111, 112 und/oder 120 insbesondere die Fahrzeugkamera gemäß Figur 1 ist. Alternativ kann die Kamera 111, 112 und/oder 120 Teil eines Überwachungssystems sein, wobei das Überwachungssystem insbesondere ortsfest ist. Anschließend wird im Schritt 220 eine semantische Segmentierung des Kamerabildes durch ein erstes angelerntes maschinelles Erkennungsverfahren durchgeführt. Beispielsweise werden im Schritt 220 durch das erste angelernte maschinelles Erkennungsverfahren beziehungsweise die semantische Segmentierung Teilbereiche des Kamerabildes, welche semantische Kategorien abbilden, wie zum Beispiel wenigstens eine Person, ein Fahrzeug beziehungsweise ein Auto und/oder eine Straße und/oder ein für die Fahrt beziehungsweise Überwachung unwichtiger Hintergrund der Umgebung, erkannt. Durch die semantische Segmentierung 220 werden insbesondere alle Pixel des Kamerabildes klassifiziert, wobei die semantische Segmentierung 220 eine Grobeinteilung des Kamerabildes in die jeweiligen abgebildeten Kategorien repräsentiert, beispielsweise umfassen die Kategorien einen Hintergrund des Kamerabildes oder bewegte Objekte. Mit anderen Worten werden bevorzugt durch die semantische Segmentierung 220 alle Objekte in der Umgebung der Kamera 111, welche sich im Blickfeld 191 der Kamera befinden, klassifiziert und insbesondere zusätzlich beispielsweise auch ein Teilbereich des Kamerabildes als Hintergrund erkannt beziehungsweise klassifiziert. Anschließend erfolgt eine Zuordnung 221 einer Segmentinformation zu denjenigen Pixeln des jeweiligen Teilbereichs des Kamerabildes für welchen eine Kategorie erkannt wurde. Die im Schritt 221 einem jeweiligen Pixel des Kamerabildes oder einer Repräsentation des Kamerabildes zugeordnete Segmentinformation repräsentiert die erkannte semantische Kategorie, welche durch das Pixel abgebildet wird. Danach werden im Schritt 222 benachbarte Pixel des Kamerabildes in Abhängigkeit der jeweils zugeordneten semantischen Segmentinformation zu einem Segment 410, 420 gruppiert. Mit anderen Worten wird im Schritt 222 wenigstens ein Bildausschnitt als Segment 410, 420 in Abhängigkeit der den Pixeln zugeordneten semantischen Segmentinformationen ermittelt, wobei ein Segment 410, 420 bevorzugt nur einander benachbarte Pixel aufweist. Die Nachbarschaft von Pixeln kann auf verschiedene Art und Weise entsprechend des Standes der Technik ermittelt werden. Beispielsweise können Pixel als zueinander benachbart gelten, wenn zwischen zwei Pixeln nur Pixel mit der gleichen zugeordneten semantischen Segmentinformation angeordnet sind oder, wenn zwischen zwei Pixeln eine direkte Verbindung durch Pixel mit der gleichen zugeordneten semantischen Segmentinformation möglich ist. Ein Segment 410, 420 kann ein oder mehrere einander zumindest teilweise verdeckende Objekte, beispielsweise mehrere Personen oder mehrere Fahrzeuge, aufweisen. In einem zum Schritt 250 alternativen oder zusätzlichen Schritt 230 werden optische Flussvektoren beziehungsweise ein optischer Fluss zu wenigstens einem Teil der Pixel des erfassten Kamerabilds ermittelt, siehe unten. Im Schritt 230 werden insbesondere optische Flussvektoren zu den Pixeln jedes ermittelten Segments 410, 420 in Abhängigkeit des Kamerabildes sowie mindestens eines weiteren vorher und/oder nachher erfassten Kamerabildes ermittelt, insbesondere wenn das Segment 410, 420 beziehungsweise der Teilbereich des Kamerabildes mindestens ein bewegtes und/oder nicht bewegtes Umgebungsobjekt abbildet. Des Weiteren kann optional eine Ermittlung 240 wenigstens einer Texturinformation und/oder einer Farbinformation der Pixel in dem ermittelten Segment 410, 420 durchgeführt werden. Anschließend wird in dieser optionalen Ausgestaltung eine Zuordnung 241 der ermittelten Texturinformation und/oder der ermittelten Farbinformation zu den jeweiligen Pixeln des ermittelten Segments 410, 420 durchgeführt. Die jeweiligen Pixel, welche die ermittelte Texturinformation und/oder die ermittelte Farbinformation zugeordnet wird, bilden die ermittelte Texturinformation und/oder die ermittelte Farbinformation ab. In einem zum Schritt 230 alternativen oder zusätzlichen weiteren Schritt 250 des Verfahrens werden Abstandsdaten 501 bis 507 zwischen Umgebungsobjekten 180 im Kamerablickfeld 191 beziehungsweise dem von der Kamera 111, 112 und/oder 120 erfassten Teilbereich der Umgebung und der Kamera 111, 112 und/oder 120 ermittelt. Die Abstandsdaten 501 bis 507 werden im Schritt 250 bevorzugt mittels eines angelernten zweiten maschinellen Erkennungsverfahrens basierend auf dem Kamerabild 300 einer Monokamera als Kamera 111 oder mittels einer Stereokamera 110 ermittelt. Alternativ können die Abstandsdaten zwischen Umgebungsobjekten 180 im Kamerablickfeld 191 und der Kamera 111, 112 und/oder 120 wenigstens mittels eines Ultraschallsensors, eines Lidarsensors und/oder eines Radarsensors ermittelt werden. Es kann in einem optionalen Schritt 251 vorgesehen sein, dass im Schritt 250 kamerabasiert ermittelte Abstandsdaten durch mittels Ultraschallsensor, Lidarsensor und/oder Radarsensor ermittelte Abstandsdaten korrigiert und/oder validiert werden. Danach wird im Schritt 252 Pixeln zumindest eines Teils des Kamerabildes in Abhängigkeit der im Schritt 250 oder der im Schritt 251 ermittelten Abstandsdaten jeweils eine Abstandsinformation zugeordnet. In einem optionalen Schritt 260 wird wenigstens ein Objekt beziehungsweise Detailobjekt in dem ermittelten Segment 410, 420 durch ein weiteres angelerntes maschinelles Erkennungsverfahren erkannt, wobei das erkannte Detailobjekt in dem Segment 410, 420 einen niedrigeren Abstraktionsgrad aufweist als die zugeordnete Segmentinformation beziehungsweise die erkannte semantische Kategorie des Segments 410, 420. Beispielsweise wird im optionalen Schritt 260 ein Nummernschild zu dem ermittelten Segment Fahrzeuge beziehungsweise bewegliches Objekt ermittelt. In einem in Figur 2 nicht dargestellten optionalen Schritt 261 wird das erkannte Detailobjekt zu den jeweiligen Pixeln des ermittelten beziehungsweise zugehörigen beziehungsweise übergeordneten Segments 410, 420 zugeordnet. Im nächsten Schritt 270 wird wenigstens eine dreidimensionale Objekthypothese als Segmentausschnitt eines ermittelten Segments 410, 420 in Abhängigkeit der den Pixeln des Segments zugeordneten Abstandsinformationen bestimmt. Eine Objekthypothese wird insbesondere im Schritt 270 bestimmt, wenn die benachbarten Pixel zugeordnete Abstandsinformationen näherungsweise gleich sind beziehungsweise die zugeordnete Abstandsinformationen der Pixel jeweils zueinander eine Differenz kleiner oder gleich einen Abstandstoleranzwert aufweisen. Mit anderen Worten wird die Objekthypothese vorteilhafterweise im Schritt 270 bestimmt, wenn die den Pixeln eines Segmentausschnitts des Segments 410, 420 zugeordneten Abstandsinformationen, insbesondere für zumindest eine vorgegebene Anzahl an Pixeln, näherungsweise gleich sind beziehungsweise die zugeordneten Abstandsinformationen der Pixel in zumindest einem Segmentausschnitt jeweils zueinander eine Differenz kleiner oder gleich einen Abstandstoleranzwert aufweisen. Die Bestimmung 270 der Objekthypothese ist dazu eingerichtet, zwei unterschiedliche im gleichen Segment 410, 420 abgebildete Objekte, welche sich insbesondere gegenseitig verdecken, voneinander zu trennen, da diese einen unterschiedlichen Abstand zur Kamera aufweisen, welcher durch die Abstandsinformationen repräsentiert wird. Es kann im Schritt 270 optional vorgesehen sein, dass die Objekthypothese nur bestimmt wird, wenn die den Pixeln eines Segmentausschnitts des Segments 410, 420 zugeordnete Abstandsinformation für zumindest eine vorgegebene Anzahl an Pixeln jeweils kleiner oder gleich einem Abstandsschwellenwert ist. Mit anderen Worten werden dreidimensionale Objekthypothesen im Schritt 270 vorteilhafterweise nur innerhalb einer näheren Umgebung zur Kamera beziehungsweise zum Fahrzeug bestimmt, wobei dieser nähere Umgebungsbereich durch den Abstandsschwellenwert definiert ist. Die Bestimmung 270 der dreidimensionalen Objekthypothese erfolgt des Weiteren in einer optionalen Weiterführung nur, wenn die Anzahl der Pixel des Segmentausschnitts größer oder gleich einem Mindestwert ist. Es kann darüber hinaus im Schritt 270 vorgesehen sein, dass bei der Bestimmung 260 der dreidimensionalen Objekthypothese ein Abstandstoleranzwert in Abhängigkeit der den Pixeln des Segments zugeordneten Segmentinformation, in Abhängigkeit der den Pixeln des Segments zugeordneten Abstandsinformation und/oder in Abhängigkeit einer erfassten Geschwindigkeit des Fahrzeugs angepasst wird. Vorteilhafterweise erfolgt die Bestimmung 270 der wenigstens einen dreidimensionalen Objekthypothese als Segmentausschnitt eines ermittelten Segments zusätzlich oder alternativ in Abhängigkeit des ermittelten optischen Flusses. Ferner kann es vorgesehen sein, dass die Bestimmung 270 der wenigstens einen dreidimensionalen Objekthypothese als Segmentausschnitt eines ermittelten Segments zusätzlich in Abhängigkeit des erkannten Objektes beziehungsweise des erkannten Detailobjektes durchgeführt wird. Beispielsweise wird vorteilhafterweise ein vorausfahrendes Fahrzeuges erkannt, wenn ein Nummernschild in dem Segmentausschnitt erkannt wird. Es kann des Weiteren im Schritt 270 vorgesehen sein, dass die dreidimensionale Objekthypothese in Abhängigkeit einer ermittelten Anzahl an Objekten in dem Segment ermittelt wird, beispielsweise durch Anpassung des Abstandstoleranzwertes. Ferner kann die Bestimmung 270 der dreidimensionalen Objekthypothese als Segmentausschnitt eines ermittelten Segments zusätzlich in Abhängigkeit der zugeordneten Texturinformation und/oder der zugeordneten Farbinformation erfolgen, so dass ein grünes Fahrzeug leichter von einem roten Fahrzeug getrennt beziehungsweise unterschieden werden kann. In einem weiteren optionalen Verfahrensschritt 280 wird das Verfahren zunächst basierend auf einem anderen vorher oder später mittels der Fahrzeugkamera erfassten Kamerabild wiederholt durchgeführt. Anschließend wird im optionalen Schritt 280 die Konsistenz der Objekthypothese mit früher oder später ermittelten Objekthypothesen überprüft beziehungsweise die bestimmte Objekthypothese in Abhängigkeit der zu einem anderen Zeitpunkt ermittelten Objekthypothese validiert oder verworfen. Des Weiteren kann in einem anderen optionalen Schritt 281 das Verfahren basierend auf einem aus einer anderen Perspektive erfassten Kamerabild wiederholt durchgeführt werden. Anschließend wird im optionalen Schritt 281 die Konsistenz der bestimmten dreidimensionalen Objekthypothese mit einer aus einer anderen Perspektive ermittelten Objekthypothesen überprüft beziehungsweise die bestimmte Objekthypothese in Abhängigkeit der aus einer anderen Perspektive ermittelten Objekthypothese validiert oder verworfen. Schließlich kann in einem optionalen Verfahrensschritt 290 vorgesehen sein, die wenigstens eine bestimmten dreidimensionalen Objekthypothese in einem virtuellen dreidimensionalen Umgebungsmodel darzustellen. FIG. 2 shows a sequence of the method for detecting three-dimensional objects 180 in a field of view 191 of a camera 111 as a block diagram. The method begins with acquisition 210 of at least one camera image using camera 111, 112 and/or 120, with camera 111, 112 and/or 120 being arranged in particular on a vehicle 100 or with camera 111, 112 and/or 120 in particular the vehicle camera according to FIG. Alternatively, the camera 111, 112 and/or 120 can be part of a surveillance system, with the surveillance system being stationary in particular. Subsequently, in step 220, a semantic segmentation of the camera image is carried out using a first learned machine recognition method. For example, in step 220, the first learned machine recognition method or the semantic segmentation subareas of the camera image that depict semantic categories, such as at least one person, a vehicle or a car and/or a road and/or a vehicle for driving or monitoring unimportant background of the environment, detected. In particular, all pixels of the camera image are classified by the semantic segmentation 220, with the semantic segmentation 220 representing a rough classification of the camera image into the respective categories shown, for example the categories include a background of the camera image or moving objects. In other words, all objects in the vicinity of the camera 111 that are in the field of view 191 of the camera are preferably classified by the semantic segmentation 220 and, in particular, a partial area of the camera image is also recognized or classified as the background. Subsequently, segment information is assigned 221 to those pixels of the respective partial area of the camera image for which a category was recognized. The segment information assigned in step 221 to a respective pixel of the camera image or a representation of the camera image represents the recognized semantic category which is mapped by the pixel. Thereafter, in step 222, adjacent pixels of the camera image are grouped into a segment 410, 420 depending on the respectively associated semantic segment information. In other words, in step 222 at least one image section is determined as a segment 410, 420 depending on the semantic segment information assigned to the pixels, with a segment 410, 420 preferably only having pixels that are adjacent to one another. The neighborhood of pixels can be determined in a number of ways according to the prior art. For example, pixels can be considered to be adjacent to one another if only pixels with the same assigned semantic segment information are arranged between two pixels or if a direct connection through pixels with the same assigned semantic segment information is possible between two pixels. A segment 410, 420 can have one or more objects that at least partially cover one another, for example a number of people or a number of vehicles. In an alternative or additional step 230 to step 250, optical flow vectors or an optical Flow to at least part of the pixels of the captured camera image is determined, see below. In step 230, in particular optical flow vectors for the pixels of each determined segment 410, 420 are determined as a function of the camera image and at least one other previously and/or subsequently captured camera image, in particular if the segment 410, 420 or the partial area of the camera image contains at least one moving and/or or non-moving environmental object. Furthermore, a determination 240 of at least one item of texture information and/or one item of color information of the pixels in the determined segment 410, 420 can optionally be carried out. In this optional refinement, an assignment 241 of the ascertained texture information and/or the ascertained color information to the respective pixels of the ascertained segment 410, 420 is then carried out. The respective pixels to which the determined texture information and/or the determined color information is assigned map the determined texture information and/or the determined color information. In a further step 250 of the method that is an alternative or additional to step 230, distance data 501 to 507 between surrounding objects 180 in the camera field of view 191 or the partial area of the surroundings and camera 111, 112 and/or 120 captured by camera 111, 112 and/or 120 determined. The distance data 501 to 507 are determined in step 250, preferably using a trained second machine recognition method based on the camera image 300 of a mono camera as camera 111 or using a stereo camera 110. Alternatively, the distance data between surrounding objects 180 in the camera field of view 191 and the camera 111, 112 and/or 120 can be determined at least by means of an ultrasonic sensor, a lidar sensor and/or a radar sensor. It can be provided in an optional step 251 that in step 250 camera-based distance data is corrected and/or validated by distance data determined by means of an ultrasonic sensor, lidar sensor and/or radar sensor. Then, in step 252, pixels of at least part of the camera image are assigned a respective distance information item depending on the distance data determined in step 250 or in step 251. In an optional step 260, at least one object or detail object in the determined segment 410, 420 is recognized by a further trained machine recognition method, with the detected detail object in the segment 410, 420 having a lower degree of abstraction than the assigned segment information or the recognized semantic category of the Segments 410, 420. For example, in optional step 260, a number plate is determined for the determined segment vehicles or moving object. This is done in an optional step 261, not shown in Figure 2 recognized detailed object assigned to the respective pixels of the determined or associated or superordinate segment 410, 420. In the next step 270, at least one three-dimensional object hypothesis is determined as a segment section of a determined segment 410, 420 depending on the distance information assigned to the pixels of the segment. In particular, an object hypothesis is determined in step 270 if the distance information assigned to neighboring pixels is approximately the same or the assigned distance information of the pixels has a difference that is less than or equal to a distance tolerance value. In other words, the object hypothesis is advantageously determined in step 270 if the distance information assigned to the pixels of a segment section of segment 410, 420, in particular for at least a predefined number of pixels, is approximately the same or the assigned distance information of the pixels in at least one segment section is in each case to one another have a difference less than or equal to a distance tolerance value. The determination 270 of the object hypothesis is set up to separate two different objects that are imaged in the same segment 410, 420 and that in particular cover one another, since they are at a different distance from the camera, which is represented by the distance information. It can optionally be provided in step 270 that the object hypothesis is only determined if the distance information assigned to the pixels of a segment section of segment 410, 420 is less than or equal to a distance threshold value for at least a predetermined number of pixels. In other words, three-dimensional object hypotheses are advantageously determined in step 270 only within a closer environment to the camera or to the vehicle, with this closer environment being defined by the distance threshold value. Furthermore, in an optional development, the three-dimensional object hypothesis is determined 270 only if the number of pixels of the segment section is greater than or equal to a minimum value. It can also be provided in step 270 that when determining 260 the three-dimensional object hypothesis, a distance tolerance value is adjusted depending on the segment information assigned to the pixels of the segment, depending on the distance information assigned to the pixels of the segment and/or depending on a detected speed of the vehicle will. Advantageously, the at least one three-dimensional object hypothesis is determined 270 as a segment section of a determined segment additionally or alternatively in Dependency of the determined optical flow. Furthermore, it can be provided that the determination 270 of the at least one three-dimensional object hypothesis as a segment section of a determined segment is additionally carried out as a function of the detected object or the detected detailed object. For example, a vehicle driving ahead is advantageously recognized when a number plate is recognized in the segment detail. Provision can furthermore be made in step 270 for the three-dimensional object hypothesis to be determined as a function of a determined number of objects in the segment, for example by adjusting the distance tolerance value. Furthermore, the determination 270 of the three-dimensional object hypothesis as a segment excerpt of a determined segment can also take place depending on the assigned texture information and/or the assigned color information, so that a green vehicle can be separated or differentiated more easily from a red vehicle. In a further optional method step 280, the method is first repeatedly carried out on the basis of another camera image previously or later captured by the vehicle camera. Then, in optional step 280, the consistency of the object hypothesis is checked with object hypotheses determined earlier or later, or the specific object hypothesis is validated or discarded as a function of the object hypothesis determined at a different point in time. Furthermore, in another optional step 281, the method can be carried out repeatedly based on a camera image captured from a different perspective. Then, in optional step 281, the consistency of the determined three-dimensional object hypothesis is checked with an object hypothesis determined from a different perspective or the determined object hypothesis is validated or rejected depending on the object hypothesis determined from a different perspective. Finally, in an optional method step 290, the at least one specific three-dimensional object hypothesis can be displayed in a virtual three-dimensional environment model.
In Figur 3 ist ein erfasstes Kamerabild 300 schematisch dargestellt, welches mittels einer an einem Fahrzeug 100 angeordneten und in Vorwärtsrichtung ausgerichteten Kamera 111, 112 und/oder 120 erfasst wurde. Das Kamerabild 300 bildet den im Blickfeld 191 der Kamera 111, 112 und/oder 120 erfassten Teilbereich der Umgebung ab. Abgebildet sind beispielsweise eine Fahrbahn beziehungsweise Fahrspur 182 mit einem vorausfahrendes Fahrzeug 320 als bewegliches Objekt 180 und einander teilweise verdeckende Fußgänger 310 als weitere bewegliche Objekte 180 auf einem Bürgersteig 181 sowie ein auf einem Bürgersteig 181 parkendes Fahrzeug 330 als stehendes bewegliches Objekt 180, wobei das parkende Fahrzeug 330 teilweise von dem vorausfahrenden Fahrzeug 320 verdeckt wird. A captured camera image 300 is shown schematically in FIG. The camera image 300 depicts the partial area of the surroundings captured in the field of view 191 of the camera 111 , 112 and/or 120 . For example, a roadway or lane 182 with a vehicle driving ahead 320 as a moving object 180 and pedestrians 310 partially covering one another as further moving objects 180 are shown on one Sidewalk 181 and a vehicle 330 parked on a sidewalk 181 as a stationary moving object 180, the parked vehicle 330 being partially covered by the vehicle 320 driving ahead.
In Figur 4 ist eine nach den Schritten 220, 221 und 222 ermittelte kategorisierte Darstellung beziehungsweise Grobeinteilung 400 des erfassten Kamerabilds 300 aus Figur 3 dargestellt, wobei benachbarter Pixel des Kamerabildes zu Segmenten 410, 420 und 430 und 440 gruppiert wurden. In dem Kamerabild 300 werden zunächst durch ein erstes angelerntes maschinelles Erkennungsverfahren bewegliche Objekte 180 als semantische Kategorie erkannt, beispielsweise Personen und Fahrzeuge. Des Weiteren wird durch die semantische Segmentierung 220 ein für die Fahrt des Fahrzeugs nicht relevanter Hintergrund im Kamerabild 300 erkannt. Es kann vorgesehen sein, weitere semantische Kategorien zu erkennen, beispielsweise die Fahrbahn 182. Den jeweiligen Pixeln, welche die Fahrzeuge und Personen abbilden, werden als Segmentinformation im Schritt 221 die Kategorie bewegliches Objekt 180 zugeordnet. Anschließend werden im Schritt 222 beispielsweise die Segmente 410 und 420, sowie vorteilhafterweise wenigstens ein Segment 430 zur Fahrbahn 182 und wenigstens ein Segment 440 zum Hintergrund, durch Gruppierung benachbarter Pixel mit der gleichen zugeordneten Segmentinformation, insbesondere bewegliches Objekt 180, gebildet beziehungsweise ermittelt. Die semantische Segmentierung 220 des erfassten Kamerabilds resultiert folglich durch die Schritte 221 und 222 in der in Figur 4 dargestellten Grobeinteilung 400 des Kamerabildes 300 in Segmente 410, 420 und 430 und 440, wobei diese Grobeinteilung 400 insbesondere benachbarte Pixel mit einer unterschiedlichen zugeordneten Segmentinformation voneinander trennt. Ein Segment 410, 420 des Kamerabildes kann dabei mehrere Personen und/oder Fahrzeuge repräsentieren beziehungsweise umfassen. FIG. 4 shows a categorized representation or rough classification 400, determined according to steps 220, 221 and 222, of the captured camera image 300 from FIG. In the camera image 300, moving objects 180 are initially recognized as a semantic category, for example people and vehicles, by a first learned machine recognition method. Furthermore, the semantic segmentation 220 recognizes a background in the camera image 300 that is not relevant to the driving of the vehicle. Provision can be made for recognizing further semantic categories, for example the roadway 182. The respective pixels which depict the vehicles and people are assigned the moving object category 180 as segment information in step 221. Subsequently, in step 222, segments 410 and 420, for example, and advantageously at least one segment 430 for roadway 182 and at least one segment 440 for background, are formed or determined by grouping adjacent pixels with the same assigned segment information, in particular moving object 180. The semantic segmentation 220 of the captured camera image consequently results in the steps 221 and 222 in the rough division 400 of the camera image 300 shown in Figure 4 into segments 410, 420 and 430 and 440, with this rough division 400 in particular separating adjacent pixels with different assigned segment information from one another . A segment 410, 420 of the camera image can represent or include a number of people and/or vehicles.
In Figur 5 sind mittels des zweiten angelernten maschinelles Erkennungsverfahrens ermittelte Abstandsdaten zu dem erfassten Kamerabild 300 aus Figur 3 schematisch dargestellt. Die Bereiche 501 bis 507, welche teilweise aber nicht notwendigerweise ringförmig verlaufen, repräsentieren jeweils einen unterschiedlichen Abstand der Umgebung mit den Umgebungsobjekten 180, 310, 320, 330 zur Kamera 111, 112 und/oder 120 beziehungsweise zum Fahrzeug 100. Es lässt sich erkennen, dass basierend auf den erfassten beziehungsweise ermittelten Abstandsdaten 501 bis 507 zumindest einer Vielzahl an Pixeln des Kamerabilds 300 eine ermittelte Abstandsinformation zugeordnet werden kann. Die Abstandsdaten 501 bis 507 werden vorteilhafterweise sehr recheneffizient durch das zweite angelernte maschinelle Erkennungsverfahren abgeschätzt beziehungsweise ermittelt beziehungsweise erkannt oder, nicht dargestellt in Figur 5, technisch bevorzugt durch ein Stereokameraverfahren ermittelt, da mittels eines Stereokameraverfahrens ermittelte Abstandsdaten eine hohe Güte beziehungsweise Zuverlässigkeit aufweisen. Alternativ können die Abstandsdaten durch einen Ultraschall-, Radar- oder Lidarsensor erfasst beziehungsweise ermittelt werden, wobei vorteilhafterweise Abstandsdaten mit einer hohen Güte beziehungsweise Zuverlässigkeit resultieren. Im Schritt 270 lässt sich in dem Segment 410 basierend auf den ermittelten Abstandsdaten beispielsweise die Person 510 im Vordergrund leicht von den dahinter befindlichen Personen 511, 512 als separate dreidimensionale Objekthypothese bestimmen beziehungsweise unterscheiden. Analog können sich verdeckende voreinander herfahrende Fahrzeuge mit dem erfindungsgemäßen Verfahren gut voneinander als getrennte dreidimensionale Objekthypothesen bestimmt werden (nicht dargestellt). Die im Kamerabild 300 abgebildeten Fahrzeuge 320 und 330 sind trotz der unterschiedlichen Abstände an deren jeweiligem Heck nicht eindeutig basierend auf Abstandsdaten voneinander zu unterscheiden, da die Fahrzeuge 320 und 330 aufgrund ihrer jeweiligen räumlichen Tiefenausdehnung unterschiedliche und teils gleiche Abstände zur Kamera aufweisen. Allerdings weisen die optischen Flussvektoren für die Fahrzeuge 320 und 330 sehr unterschiedliche Beträge auf, da das Fahrzeug 320 fährt und das Fahrzeug 330 parkt beziehungsweise steht. Die Fahrzeuge 320 und 330 können demnach im gleichen Segment 420 vorteilhafterweise sehr zuverlässig als unterschiedliche dreidimensionale Objekthypothesen bestimmt werden, wenn die Bestimmung der dreidimensionale Objekthypothese in Abhängigkeit des optischen Flusses beziehungsweise der optischen Flussvektoren der jeweiligen Pixel eines Segments durchgeführt wird. In FIG. 5, distance data from the captured camera image 300 from FIG. 3 determined by means of the second learned machine recognition method are shown schematically. The areas 501 to 507, which in part but not necessarily run in the form of a ring, each represent a different distance between the surroundings with the surrounding objects 180, 310, 320, 330 and the camera 111, 112 and/or 120 or the vehicle 100. It can be seen that that based on the detected or determined distance data 501 to 507, at least a large number of pixels of the camera image 300 can be assigned determined distance information. The distance data 501 to 507 are advantageously very computationally efficient due to the second learned machine The detection method is estimated or determined or detected or, not shown in FIG. 5, preferably determined technically by a stereo camera method, since distance data determined by means of a stereo camera method have a high quality or reliability. Alternatively, the distance data can be recorded or determined by an ultrasonic, radar or lidar sensor, with distance data advantageously resulting in high quality or reliability. In step 270, the person 510 in the foreground, for example, can be easily determined or distinguished from the people 511, 512 located behind as a separate three-dimensional object hypothesis in the segment 410 based on the determined distance data. Similarly, with the method according to the invention, vehicles driving in front of each other that are concealing one another can be determined well from one another as separate three-dimensional object hypotheses (not shown). Vehicles 320 and 330 depicted in camera image 300 cannot be clearly distinguished from each other based on distance data, despite the different distances at their respective rears, since vehicles 320 and 330 have different and sometimes the same distances to the camera due to their respective spatial depth. However, the optical flow vectors for vehicles 320 and 330 have very different magnitudes because vehicle 320 is driving and vehicle 330 is parked or stationary. Vehicles 320 and 330 can therefore advantageously be determined very reliably as different three-dimensional object hypotheses in the same segment 420 if the three-dimensional object hypothesis is determined as a function of the optical flow or the optical flow vectors of the respective pixels of a segment.

Claims

Ansprüche Expectations
1. Verfahren zur Erkennung dreidimensionaler Objekte (180) in einem Blickfeld (191) einer Kamera (111, 112, 120), wobei die Kamera (111, 112, 120) insbesondere zumindest einen Teil einer Umgebung (190) eines Fahrzeugs (100) erfasst, umfassend die folgenden Schritte 1. Method for detecting three-dimensional objects (180) in a field of view (191) of a camera (111, 112, 120), wherein the camera (111, 112, 120) in particular at least a part of an environment (190) of a vehicle (100) recorded, comprising the following steps
• Erfassung (210) wenigstens eines Kamerabildes (300) mittels der mindestens einen Kamera (111, 112, 120), wobei die Kamera (111, 112, 120) insbesondere an dem Fahrzeug (100) angeordnet ist, • Acquisition (210) of at least one camera image (300) by means of the at least one camera (111, 112, 120), the camera (111, 112, 120) being arranged in particular on the vehicle (100),
• semantische Segmentierung (220) des Kamerabildes (300) durch ein erstes angelerntes maschinelles Erkennungsverfahren, • semantic segmentation (220) of the camera image (300) by a first learned machine recognition method,
• Zuordnung (221) einer Segmentinformation zu den Pixeln des Kamerabildes (300) in Abhängigkeit der semantischen Segmentierung, • Allocation (221) of segment information to the pixels of the camera image (300) depending on the semantic segmentation,
• Ermittlung (222) von wenigstens einem Bildausschnitt als Segment (410, 420, 430, 440), wobei benachbarte Pixel des Kamerabildes (300) in Abhängigkeit der jeweils zugeordneten semantischen Segmentinformation zu einem Segment (410, 420, 430, 440) gruppiert werden, • Determination (222) of at least one image section as a segment (410, 420, 430, 440), with adjacent pixels of the camera image (300) being grouped into a segment (410, 420, 430, 440) depending on the respectively assigned semantic segment information ,
• Ermittlung (250) von Abstandsdaten (501 bis 507) zwischen Umgebungsobjekten (180) im Kamerablickfeld (191) und der Kamera (111, 112, 120) und Zuordnung (252) einer Abstandsinformation zu den Pixeln zumindest eines Teils des Kamerabildes (300) in Abhängigkeit der ermittelten Abstandsdaten (501 bis 507), und/oder • Determination (250) of distance data (501 to 507) between surrounding objects (180) in the camera field of view (191) and the camera (111, 112, 120) and assignment (252) of distance information to the pixels of at least part of the camera image (300) depending on the determined distance data (501 to 507), and/or
• Ermittlung (230) eines optischen Flusses zu wenigstens einem Teil der Pixel des erfassten Kamerabilds, insbesondere des ermittelten Segments, in Abhängigkeit des Kamerabildes (300) sowie mindestens eines weiteren vorher und/oder nachher erfassten Kamerabildes, und • determining (230) an optical flow to at least some of the pixels of the captured camera image, in particular the determined segment, depending on the camera image (300) and at least one other camera image captured beforehand and/or afterwards, and
• Bestimmung (270) wenigstens einer dreidimensionalen Objekthypothese (510, 511, 512, 520, 530) als Segmentausschnitt eines ermittelten Segments (410, 420, 430, 440) in Abhängigkeit der den Pixeln des Segments zugeordneten Abstandsinformationen und/oder in Abhängigkeit des ermittelten optischen Flusses der Pixel des Segments. • Determining (270) at least one three-dimensional object hypothesis (510, 511, 512, 520, 530) as a segment section of a determined segment (410, 420, 430, 440) depending on the distance information assigned to the pixels of the segment and/or depending on the determined optical flow of the pixels of the segment.
2. Verfahren nach Anspruch 1, wobei die Bestimmung (270) der dreidimensionalen Objekthypothese (510, 511, 512, 520, 530) nur erfolgt, wenn die den Pixeln des Segmentausschnitts zugeordnete Abstandsinformation für zumindest eine vorgegebene Anzahl an Pixeln jeweils kleiner oder gleich einem Abstandsschwellenwert ist. Verfahren nach einem der vorhergehenden Ansprüche, wobei die Bestimmung (270) der dreidimensionalen Objekthypothese (510, 511, 512, 520, 530) nur erfolgt, wenn die Anzahl der Pixel des Segmentausschnitts größer oder gleich einem Mindestwert ist. Verfahren nach einem der vorhergehenden Ansprüche, wobei bei der Bestimmung (270) der dreidimensionalen Objekthypothese (510, 511, 512, 520, 530) ein Abstandstoleranzwert in Abhängigkeit der zugeordneten Segmentinformation, der zugeordneten Abstandsinformation und/oder einer erfassten Geschwindigkeit des Fahrzeugs (100) angepasst wird. Verfahren nach einem der vorhergehenden Ansprüche, wobei folgender Schritt vor der Bestimmung (270) der dreidimensionalen Objekthypothese (510, 511, 512, 520, 530) durchgeführt wird 2. The method of claim 1, wherein the determination (270) of the three-dimensional object hypothesis (510, 511, 512, 520, 530) only takes place if the distance information associated with the pixels of the segment section for at least one predetermined number of pixels is less than or equal to a distance threshold. Method according to one of the preceding claims, in which the three-dimensional object hypothesis (510, 511, 512, 520, 530) is only determined (270) if the number of pixels in the segment section is greater than or equal to a minimum value. Method according to one of the preceding claims, wherein when determining (270) the three-dimensional object hypothesis (510, 511, 512, 520, 530) a distance tolerance value depending on the assigned segment information, the assigned distance information and/or a detected speed of the vehicle (100) is adjusted. Method according to one of the preceding claims, wherein the following step is performed before the determination (270) of the three-dimensional object hypothesis (510, 511, 512, 520, 530).
• Erkennung (240) wenigstens eines Detailobjektes in dem ermittelten Segment durch ein weiteres angelerntes maschinelles Erkennungsverfahren, wobei• Recognition (240) of at least one detail object in the determined segment by a further learned machine recognition method, wherein
• die Bestimmung (270) der wenigstens einen dreidimensionalen Objekthypothese als Segmentausschnitt eines ermittelten Segments zusätzlich in Abhängigkeit des erkannten Detailobjektes erfolgt. Verfahren nach einem der vorhergehenden Ansprüche, wobei folgender Schritt vor der Bestimmung der dreidimensionalen Objekthypothese (510, 511, 512, 520, 530) durchgeführt wird • the determination (270) of the at least one three-dimensional object hypothesis as a segment section of a determined segment is additionally carried out as a function of the detected detailed object. Method according to one of the preceding claims, wherein the following step is carried out before the determination of the three-dimensional object hypothesis (510, 511, 512, 520, 530).
• Ermittlung (260) wenigstens einer Texturinformation und/oder einer Farbinformation der Pixel in dem ermittelten Segment, und • determination (260) of at least one piece of texture information and/or one piece of color information of the pixels in the determined segment, and
• Zuordnung (261) der ermittelten Texturinformation und/oder der ermittelten Farbinformation zu den jeweiligen Pixeln des ermittelten Segments, welche die ermittelte Texturinformation und/oder die ermittelte Farbinformation abbilden, wobei • Allocation (261) of the ascertained texture information and/or the ascertained color information to the respective pixels of the ascertained segment, which map the ascertained texture information and/or the ascertained color information, wherein
• die Bestimmung (270) der wenigstens einen dreidimensionalen Objekthypothese (510, 511, 512, 520, 530) als Segmentausschnitt eines ermittelten Segments zusätzlich in Abhängigkeit der zugeordneten Texturinformation und/oder der zugeordneten Farbinformation erfolgt. Verfahren nach einem der vorhergehenden Ansprüche, wobei die ermittelten Abstandsdaten zwischen Umgebungsobjekten (180) im Kamerablickfeld (191) und der Kamera (111, 112, 120) wenigstens mittels eines Ultraschallsensors (140), eines Lidarsensors und/oder eines Radarsensors (130) ermittelt oder korrigiert werden. Verfahren nach einem der vorhergehenden Ansprüche, wobei folgender Schritt nach der Bestimmung (270) der dreidimensionalen Objekthypothese (510, 511, 512, 520, 530) durchgeführt wird • the determination (270) of the at least one three-dimensional object hypothesis (510, 511, 512, 520, 530) as a segment section of a determined segment also takes place as a function of the assigned texture information and/or the assigned color information. Method according to one of the preceding claims, wherein the determined distance data between surrounding objects (180) in the camera field of view (191) and the camera (111, 112, 120) is determined at least by means of an ultrasonic sensor (140), a lidar sensor and/or a radar sensor (130). or be corrected. Method according to one of the preceding claims, wherein the following step is performed after the determination (270) of the three-dimensional object hypothesis (510, 511, 512, 520, 530).
• Validierung (280) der bestimmten dreidimensionalen Objekthypothese (510, 511, 512, 520, 530), wobei das Verfahren basierend auf einem anderen vorher und/oder später mittels der Kamera (111, 112, 120) erfassten Kamerabild wiederholt durchgeführt und eine vorher und/oder später ermittelte dreidimensionale Objekthypothese mit der bestimmten dreidimensionalen Objekthypothese (510, 511, 512, 520, 530) verglichen wird. Verfahren nach einem der vorhergehenden Ansprüche, wobei folgender Schritt nach der Bestimmung (270) der dreidimensionalen Objekthypothese (510, 511, 512, 520, 530) durchgeführt wird • Validation (280) of the determined three-dimensional object hypothesis (510, 511, 512, 520, 530), the method being carried out repeatedly based on another previously and/or later camera image captured by the camera (111, 112, 120) and one before and/or comparing the three-dimensional object hypothesis determined later with the determined three-dimensional object hypothesis (510, 511, 512, 520, 530). Method according to one of the preceding claims, wherein the following step is performed after the determination (270) of the three-dimensional object hypothesis (510, 511, 512, 520, 530).
• Validierung (281) der dreidimensionalen Objekthypothese (510, 511, 512, 520, 530), wobei das Verfahren basierend auf einem anderen vorher oder später oder zeitgleich mittels einer anderen Kamera (112) aus einer anderen Perspektive erfassten Kamerabild wiederholt durchgeführt und eine aus anderer Perspektive ermittelte dreidimensionale Objekthypothese mit der bestimmten dreidimensionalen Objekthypothese (510, 511, 512, 520, 530) verglichen wird. Verfahren nach einem der vorhergehenden Ansprüche, wobei folgender Schritt durchgeführt wird • Validation (281) of the three-dimensional object hypothesis (510, 511, 512, 520, 530), the method being carried out repeatedly based on another previously or later or at the same time by means of another camera (112) from a different perspective and a camera image three-dimensional object hypothesis determined from another perspective is compared with the determined three-dimensional object hypothesis (510, 511, 512, 520, 530). Method according to one of the preceding claims, wherein the following step is carried out
• Anzeige (290) der wenigstens einen bestimmten dreidimensionalen Objekthypothese (510, 511, 512, 520, 530) in einem virtuellen dreidimensionalen Umgebungsmodel. Computerprogramm, welches dazu eingerichtet ist, ein Verfahren zur Erkennung dreidimensionaler Objekte nach einem der Ansprüche 1 bis 10 durchzuführen. Maschinenlesbares Speichermedium, auf dem das Computerprogrammprodukt nach Anspruch 11 gespeichert ist. - 22 - Steuergerät, wobei das Steuergerät dazu eingerichtet ist, mit wenigstens einer Kamera (111, 112, 120) verbunden zu sein und ein Verfahren zur Erkennung dreidimensionaler Objekte nach einem der Ansprüche 1 bis 10 durchzuführen. Fahrzeug (100) mit einem Steuergerät nach Anspruch 13. Videoüberwachungssystem mit einem Steuergerät nach Anspruch 13. • Display (290) of the at least one specific three-dimensional object hypothesis (510, 511, 512, 520, 530) in a virtual three-dimensional environment model. Computer program which is set up to carry out a method for recognizing three-dimensional objects according to one of Claims 1 to 10. Machine-readable storage medium on which the computer program product according to claim 11 is stored. - 22 - Control unit, the control unit being set up to be connected to at least one camera (111, 112, 120) and to carry out a method for recognizing three-dimensional objects according to one of Claims 1 to 10. Vehicle (100) with a control unit according to Claim 13. Video surveillance system with a control unit according to Claim 13.
PCT/EP2021/068017 2020-08-27 2021-06-30 Method for identifying three-dimensional objects, computer program, machine-readable storage medium, control unit, vehicle and video monitoring system WO2022042903A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102020210816.1A DE102020210816A1 (en) 2020-08-27 2020-08-27 Method for detecting three-dimensional objects, computer program, machine-readable storage medium, control unit, vehicle and video surveillance system
DE102020210816.1 2020-08-27

Publications (1)

Publication Number Publication Date
WO2022042903A1 true WO2022042903A1 (en) 2022-03-03

Family

ID=76859603

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2021/068017 WO2022042903A1 (en) 2020-08-27 2021-06-30 Method for identifying three-dimensional objects, computer program, machine-readable storage medium, control unit, vehicle and video monitoring system

Country Status (2)

Country Link
DE (1) DE102020210816A1 (en)
WO (1) WO2022042903A1 (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110311108A1 (en) * 2009-02-16 2011-12-22 Daimler Ag Method for detecting objects
US20160133054A1 (en) * 2014-11-12 2016-05-12 Canon Kabushiki Kaisha Information processing apparatus, information processing method, information processing system, and storage medium

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102018123518A1 (en) 2017-09-26 2019-03-28 Nvidia Corporation Learning affinity via a neural network with spatial propagation
DE102018220024B3 (en) 2018-11-22 2020-03-12 Audi Ag Method for fusing sensor data from several sensors and fusion device for fusing sensor data from several sensors
DE102018132805A1 (en) 2018-12-19 2020-06-25 Valeo Schalter Und Sensoren Gmbh Procedure for improved object detection
DE102020003008A1 (en) 2020-05-19 2020-07-16 Daimler Ag Automatic visual perception by means of an environment sensor arrangement

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110311108A1 (en) * 2009-02-16 2011-12-22 Daimler Ag Method for detecting objects
US20160133054A1 (en) * 2014-11-12 2016-05-12 Canon Kabushiki Kaisha Information processing apparatus, information processing method, information processing system, and storage medium

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
C.GODARD ET AL.: "Unsupervised Monocular Depth Estimation with Left-Right Consistency", ARXIV:1609.03677V3
D.EIGEN ET AL., DEPTH MAP PREDICTION FROM A SINGLE IMAGEUSING A MULTI-SCALE DEEP NETWORK
MA WEI-CHIU ET AL: "Deep Rigid Instance Scene Flow", 18 April 2019 (2019-04-18), pages 1 - 10, XP055848639, Retrieved from the Internet <URL:https://arxiv.org/pdf/1904.08913.pdf> [retrieved on 20211006] *

Also Published As

Publication number Publication date
DE102020210816A1 (en) 2022-03-03

Similar Documents

Publication Publication Date Title
EP3292510B1 (en) Method and apparatus for detecting and assessing road reflections
DE112018007287T5 (en) VEHICLE SYSTEM AND METHOD FOR DETECTING OBJECTS AND OBJECT DISTANCE
WO2019174682A1 (en) Method and device for detecting and evaluating roadway conditions and weather-related environmental influences
WO2018177484A1 (en) Method and system for predicting sensor signals from a vehicle
DE102009050505A1 (en) Clear path detecting method for vehicle i.e. motor vehicle such as car, involves modifying clear path based upon analysis of road geometry data, and utilizing clear path in navigation of vehicle
DE102009048699A1 (en) Travel&#39;s clear path detection method for motor vehicle i.e. car, involves monitoring images, each comprising set of pixels, utilizing texture-less processing scheme to analyze images, and determining clear path based on clear surface
DE102009048892A1 (en) Clear traveling path detecting method for vehicle e.g. car, involves generating three-dimensional map of features in view based upon preferential set of matched pairs, and determining clear traveling path based upon features
EP3631677A1 (en) Method for detecting objects in an image of a camera
EP3044727B1 (en) Method and device for detecting objects from depth-resolved image data
WO2020025091A1 (en) Detecting the movement intention of a pedestrian on the basis of camera images
DE102014112797A1 (en) Vehicle exterior environment recognition device
WO2016177372A1 (en) Method and device for detecting and evaluating environmental influences and road condition information in the vehicle surroundings
DE102007013664A1 (en) Tool e.g. blade, measuring and/or adjusting device, has rolling nut designed as roller ring transmission comprising set of roller-supported roller rings with variable upward gradient
EP3782117A1 (en) Method, device and computer-readable storage medium having instructions for processing sensor data
DE102018133441A1 (en) Method and system for determining landmarks in the surroundings of a vehicle
DE102018100909A1 (en) Method of reconstructing images of a scene taken by a multifocal camera system
DE102021002798A1 (en) Process for camera-based environment detection
EP3642758A1 (en) Method for evaluating an optical appearance in the surroundings of a vehicle, and vehicle
DE102018100667A1 (en) Computer vision pre-fusion and spatiotemporal tracking
EP3655299B1 (en) Method and device for determining an optical flow on the basis of an image sequence captured by a camera of a vehicle
DE102019214558A1 (en) PROJECTION INFORMATION RECOGNITION DEVICE BASED ON AN ARTIFICIAL NEURAL NETWORK AND PROCESSES OF THE SAME
WO2020104551A1 (en) Object recognition using the sensor system of vehicles
DE102011082477A1 (en) Method and system for creating a digital image of a vehicle environment
DE102013021840A1 (en) Method for generating an environment model of a motor vehicle, driver assistance system and motor vehicle
DE102007024641A1 (en) Vehicle surrounding representing method for tracing of e.g. animal, involves determining measuring range based on object hypotheses, commonly analyzing sensor signal flow in ranges and processing flows in unadjusted manner

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21739993

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21739993

Country of ref document: EP

Kind code of ref document: A1