WO2017161401A1 - Verfahren zur selbstlokalisierung von fahrzeugen - Google Patents

Verfahren zur selbstlokalisierung von fahrzeugen Download PDF

Info

Publication number
WO2017161401A1
WO2017161401A1 PCT/AT2017/060076 AT2017060076W WO2017161401A1 WO 2017161401 A1 WO2017161401 A1 WO 2017161401A1 AT 2017060076 W AT2017060076 W AT 2017060076W WO 2017161401 A1 WO2017161401 A1 WO 2017161401A1
Authority
WO
WIPO (PCT)
Prior art keywords
disparity
depth
images
image
information
Prior art date
Application number
PCT/AT2017/060076
Other languages
English (en)
French (fr)
Inventor
Bernhard PESCHAK
Wilfried WÖBER
Richard OTREBSKI
Original Assignee
Pas Gmbh
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pas Gmbh filed Critical Pas Gmbh
Publication of WO2017161401A1 publication Critical patent/WO2017161401A1/de

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads

Definitions

  • the present invention relates to a method for self-localization of vehicles based on stereo vision, in which successively recorded and read images of at least two cameras fixed to the vehicle static, in which disparity or depth information are calculated from the recorded images and in which from the Distance difference of the same objects in different images on the proper motion is closed.
  • Self-localization should be understood in this context to mean the calculation of the movement or position of a vehicle without the aid of external signals such as GPS over a time course.
  • Odometry calculates movements based on sensor values. In the simplest case, the wheel speeds are read out and integrated. Many of the basic algorithms of robotics are still not suitable for use in highly dynamic environments (dirt road, forest, ). The problem is shown by drift over time or the complete failure of localization. The desire for a system stable over time is therefore very high for the application of autonomous systems.
  • the subject method is a camera-based approach using Stereovision - a technology for calculating depth information based on at least two camera images.
  • the previously known such methods record a camera image of at least two cameras and extract therefrom the image features, which are representative features such as, for example, SIFT features. Thereafter (e.g., one second or several seconds later), images are again taken and, in turn, image features extracted. Finally, an attempt is made to retrieve image features from the first images in the second images, after which the distance difference can be determined based on the calibration information.
  • image features which are representative features such as, for example, SIFT features.
  • the disparity or depth information are interpreted as images that it disparity or depth clusters are extracted and that these disparity or depth clusters are found again in the subsequent images ,
  • disparity or depth information clusters ie contiguous disparity contours in the disparity image in which the disparity value is within a predetermined value
  • ground information should be removed from the disparity image. A description of the floor area is therefore necessary. By subtracting the ground level creates an "obstacle image". Positive pixel values after this subtraction mean elevations and negative values holes. As a result, the soil level containing hardly usable information is "hidden" as it were. Masking the original disparity image with the obstacle image creates an obstacle image with undistorted disparity values.
  • the calculation may be limited to clearly outstanding obstacles.
  • FIG. 1 shows a possible arrangement of three cameras-two stereo cameras designed for different working spaces;
  • Fig. 2 shows these three cameras with fictitious objects; and
  • FIG. 3 shows the disparity of a ground plane.
  • the basic structure of the system can be seen in FIG.
  • the camera head 10 shown in FIG. 1 consists of three cameras 11, 12 and 13. These form in conjunction with the left and middle camera 11 and 12 and left and right camera 11 and 13, two stereo camera systems. Since the accuracy of depth information decreases with distance, two systems designed for different distances can be used to minimize the error (11 and 12 for near objects, 11 and 13 for distant objects).
  • the sensors of the cameras 11, 12 and 13 all have the same number of pixels; In the following, m denotes the number of pixel columns and n the number of pixel rows in each of the sensors. The sensors therefore have a resolution of m ⁇ n pixels.
  • the signals of the sensors are output via a line 14.
  • the camera head 10 must be calibrated. During calibration, on the one hand, internal camera parameters (eg distortion) and external parameters (transformation between cameras) are determined. There is software for the calibration.
  • internal camera parameters eg distortion
  • external parameters transformation between cameras
  • each camera is read out at the same time and the images are rectified (equalized and transformed) with the calibration information.
  • the same optical information can now be seen in all camera pictures in different places, in the same line of pictures.
  • the position difference is called disparity.
  • the depth in front of the camera in three-dimensional space is due to the context
  • T describes the depth
  • B the length of the baseline (distance of the cameras)
  • f the focal length
  • D the disparity
  • ground information - i. a disparity image of an ideal soil - to be calculated.
  • a disparity image is represented as a grayscale image (bright dots indicate high disparity, dark dots low disparity), then the ground level narrows as the distance increases (as the disparity decreases) until it turns black in the horizon (no disparity at infinity).
  • the baseline of the camera head 10 is parallel to the ground plane, it can be assumed that the disparity value of an ideal ground plane in the disparity image is independent of the horizontal pixel position and depends only on the vertical pixel position. Therefore, only a sample of the ground level has to be taken. If the camera head 10 is aimed directly at a long straight road, then this sample may be a line exactly in the middle of the image from bottom to top.
  • the measured values D (disparity) as a function of the line Z (lines of the image) of the sample are represented by a thick line, in this figure, the lines away from the horizon (if the camera head is not inclined, ie from the Middle of the picture). In line 0 (horizon), therefore, the disparity is 0. It can be seen that the dependence is approximately linear due to the assumption of an ideal bottom surface, but the extracted sample does not behave optimally due to noise. Therefore, this noisy line must be linearly interpolated (thin, solid line). This is done by customizing the model
  • the ground level Since only objects that are clearly above the ground level should be detected, the ground level must be raised slightly further (dashed line) so that the noise is completely below this dashed line. Since the sample does not cover the entire image, the calculated linear model of the soil must interpolate and calculate a probable soil level.
  • the disparity image of the raised ground plane should have exactly the same number of lines as the actual image material so that the following calculations can be performed easily.
  • the matrix can now be loaded in different applications.
  • a disparity image with exclusively relevant information (obstacles) is created. If we calculate with disparity values and subtract the soil disparity image from the (real) disparity image (and not vice versa), then obstacles have a positive sign. In this case, set all negative values to zero. Similarly one could also evaluate holes in the soil.
  • obstacle detection is thus based on a real disparity picture and an ideal ground disparity picture.
  • a disparity image calculated by the stereo engine is sent to the obstacle detection.
  • the obstacle recognition now calculates an obstacle image by subtracting and masking the soil disparity image from the real disparity image.
  • disparity clusters can be extracted and defined as obstacles.
  • the actual values of the pixels in the obstacle image H (H is an n ⁇ m matrix) depend on the distance between the camera head and the object. The closer the object is to the camera, the higher the pixel value. With this interpretation, the obstacle image can be interpreted as a three-dimensional representation of the environment.
  • the obstacle image is now divided into slices in the z-direction (the distance to the front). If the "slices” e.g. three disparity values are "thick", all pixel values are determined where Hjk are 0 to 2; 3 to 5 are; 6 to 8 are; 9 to 11 are; etc. In Fig. 2 this is illustrated. (Fig. 2 shows disparities - no distances)
  • the camera head 10 is directed to three objects 21, 22, 23.
  • "slices" 31 to 34 are shown, which correspond to disparity ranges 36 to 39 to 46 to 48.
  • each slice 30 includes a range of three disparity values 3n through 3n + 2.
  • disparity cluster By analyzing only the disparity values of the slices in the obstacle image, images for the individual slices can be calculated. By dividing the disparity information into slices, contours of objects can be recognized in each slice. For this purpose algorithms are used to extract contours. Each extracted contour is called a disparity cluster in the following process. Each disparity cluster is now described by:
  • Cluster i ⁇ disparity i, max , offset i , width i ⁇ (2)
  • offset is the x coordinate of the obstacle (measured from the center of the image) and "width” is the real, maximum object width in the extracted disparity cluster. Furthermore, the maximum disparity value is stored. This is a measure of the camera point next point.
  • the disparity according to formula (1) can be converted into meters at any time.
  • this method can be extended by a feature extraction.
  • features are understood to be diverse information from the depth clusters.
  • the cluster will be extended with this information:
  • Cluster i ' ⁇ disparity i, max , offset i , width i , M i ⁇ (3)
  • the feature Mi is a vector, and can represent any amount of information.
  • Mi contains representative information for the cluster. This information can be extracted deep features or the matrix of the cluster itself.
  • Self-localization is based on the fact that similar disparity clusters can be found in consecutive disparity images. By comparing the movement of the clusters in the image or the pixel values and the associated three-dimensional interpretation, the real movement of the vehicle can be calculated. A prerequisite for this is a stationary environment.
  • motion models are used. These models can predict movements of clusters and thus significantly improve the motion calculation.
  • the self-localization itself is based on the analysis of extracted disparity clusters.
  • disparity clusters are extracted. Since the camera pixels and thus the disparity information rush, a simple triangulation is excluded. It would create a drift, which is not compensated without external signals or optical landmarks. Therefore, a statistical framework must be used that takes into account the noise of the sensors and may be easily expandable. For this an algorithm, called extended Kalman filter, can be used.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Image Processing (AREA)

Abstract

Zur Selbstlokalisierung von Fahrzeugen auf Basis von Stereovision werden nacheinander Bilder von mindestens zwei statisch am Fahrzeug befestigten Kameras aufgenommen und ausgelesen, wobei aus den aufgenommenen Bildern Disparitäts- bzw. Tiefeninformationen berechnet werden und aus dem Entfernungsunterschied gleicher Objekte in verschiedenen Bildern auf die Eigenbewegung geschlossen wird. Erfindungsgemäß werden die Disparitäts- bzw. Tiefeninformationen als Bilder aufgefasst, daraus Disparitäts- bzw. Tiefencluster extrahiert und diese Disparitäts- bzw. Tiefencluster in den darauffolgenden Bildern wieder gefunden. Es ist dabei zweckmäßig, eine Bodenebene als Disparitäts- bzw. Tiefenwertbild zu berechnen, diese mathematisch etwas anzuheben und die Differenz zwischen der Bodenebene als Disparitäts- bzw. Tiefenwertbild und den Disparitäts- bzw. Tiefeninformationen zu bilden, bevor die Disparitäts- bzw. Tiefeninformationen verglichen werden. Damit wird die Bodenebene, in der keine brauchbaren Informationen vorhanden sind, ausgeblendet.

Description

VERFAHREN ZUR SELBSTLOKALISIERUNG VON FAHRZEUGEN Technisches Gebiet
Die vorliegende Erfindung betrifft ein Verfahren zur Selbstlokalisierung von Fahrzeugen auf Basis von Stereovision, bei dem nacheinander Bilder von mindestens zwei statisch am Fahrzeug befestigten Kameras aufgenommen und ausgelesen werden, bei dem aus den aufgenommenen Bildern Disparitäts- bzw. Tiefeninformationen berechnet werden und bei dem aus dem Entfernungsunterschied gleicher Objekte in verschiedenen Bildern auf die Eigenbewegung geschlossen wird.
Stand der Technik
Unter Selbstlokalisierung soll in diesem Zusammenhang die Berechnung der Bewegung bzw. Position eines Fahrzeuges ohne Hilfe äußerer Signale wie GPS über einen zeitlichen Verlauf verstanden werden.
Lokalisierung autonomer Systeme basierend auf internen Signalen ist kein neuer Gedanke. Die grundlegenden Ansätze dazu sind unter dem Begriff Odometrie bekannt. Durch Odometrie werden Bewegungen basierend auf Sensorwerten errechnet. Im einfachsten Fall werden die Radgeschwindigkeiten ausgelesen und integriert. Viele der grundlegenden Algorithmen der Robotik sind bis zum heutigen Tage noch nicht für den Einsatz in hochdynamischer Umgebung (Feldweg, Wald, …) geeignet. Die Problematik zeigt sich durch Drift über die Zeit oder das komplette Versagen der Lokalisierung. Das Verlangen nach einem über die Zeit stabilen System ist für die Anwendung autonomer Systeme daher sehr hoch.
Das gegenständliche Verfahren ist eine kamerabasierte Lösung, und zwar verwendet es Stereovision - eine Technologie zur Berechnung von Tiefeninformation basierend auf mindestens zwei Kamerabildern.
Die bisher bekannten derartigen Verfahren nehmen ein Kamerabild von mindestens zwei Kameras auf und extrahieren daraus die Bildfeatures, das sind repräsentative Merkmale wie beispielhaft SIFT-Features. Danach (z.B. eine Sekunde oder einige Sekunden später) werden wiederum Bilder aufgenommen und daraus wiederum Bildfeatures extrahiert. Schließlich wird versucht, Bildfeatures aus den ersten Bildern in den zweiten Bildern wiederzufinden, wonach der Entfernungsunterschied basierend auf den Kalibrierinformationen ermittelt werden kann.
Problematisch sind solche Systeme z.B. im Wald. Hier ändern sich die Gegebenheiten ständig durch Wind, Blattbewegung, etc. Es sind daher keine repräsentativen Bildfeatures extrahierbar.
Darstellung der Erfindung
Es ist Aufgabe der vorliegenden Erfindung, ein System der eingangs genannten Art zu schaffen, das die erwähnten Nachteile nicht aufweist, also auch bei dynamischen Verhältnissen in nicht strukturierter Umgebung zuverlässig funktioniert.
Diese Aufgabe wird durch ein Verfahren der eingangs genannten Art erfindungsgemäß dadurch gelöst, dass die Disparitäts- bzw. Tiefeninformationen als Bilder aufgefasst werden, dass daraus Disparitäts- bzw. Tiefencluster extrahiert werden und dass diese Disparitäts- bzw. Tiefencluster in den darauffolgenden Bildern wieder gefunden werden.
Erfindungsgemäß werden also nicht (aufeinanderfolgende) Bilder miteinander verglichen, sondern es werden Disparitäts- bzw. Tiefeninformationscluster (das sind zusammenhängende Disparitätskonturen im Disparitätsbild, in denen der Disparitätswert innerhalb eines vorgegebenen Werts ist) in den Bildern ermittelt. Dies hat sich als ganz wesentlich zuverlässiger herausgestellt als der direkte Vergleich der Bilder, denn das Aussehen eines Objekts kann sich rasch ändern, seine Entfernung bleibt aber bei stationären Objekten bis auf die Eigenbewegung konstant. Die Selbstlokalisierung basiert daher ausschließlich auf den Disparitäts- und damit Tiefeninformationen von Objekten.
Um die Disparitätscluster von Objekten überhaupt berechnen zu können, sollte Bodeninformation aus dem Disparitätsbild entfernt werden. Eine Beschreibung der Bodenfläche ist daher nötig. Durch Subtraktion der Bodenebene entsteht ein "Hindernisbild". Positive Pixelwerte nach dieser Subtraktion bedeuten dabei Erhebungen und negative Werte Löcher. Dadurch wird die kaum brauchbare Informationen enthaltende Bodenebene sozusagen "ausgeblendet". Maskiert man das ursprüngliche Disparitätsbild mit dem Hindernisbild entsteht ein Hindernisbild mit unverzerrten Disparitätswerten.
Wird die Bodenebene angehoben, kann sich die Berechnung auf deutlich herausragende Hindernisse beschränken.
Kurze Beschreibung der Zeichnungen
Ein konkretes Ausführungsbeispiel der vorliegenden Erfindung wird an Hand der beiliegenden Zeichnungen näher erläutert. Es zeigt: Fig. 1 eine mögliche Anordnung von drei Kameras – zwei auf unterschiedliche Arbeitsräume ausgelegte Stereokameras; Fig. 2 diese drei Kameras mit fiktiven Objekten; und Fig. 3 die Disparität einer Bodenebene.
Bester Weg zur Ausführung der Erfindung
Der Grundaufbau des Systems ist in Fig. 1 zu sehen. Der in Fig. 1 gezeigte Kamerakopf 10 besteht aus drei Kameras 11, 12 und 13. Diese bilden im Zusammenspiel der linken und mittleren Kamera 11 und 12 bzw. linken und rechten Kamera 11 und 13 zwei Stereokamerasysteme. Da die Genauigkeit der Tiefeninformation mit der Distanz abnimmt, können zwei für unterschiedliche Distanzen ausgelegte Systeme verwendet werden, um den Fehler zu minimieren (11 und 12 für nahe Objekte, 11 und 13 für entfernte Objekte).
Die Sensoren der Kameras 11, 12 und 13 haben alle gleich viele Pixel; im Folgenden bezeichnet m die Anzahl von Pixelspalten und n die Anzahl von Pixelzeilen in jedem der Sensoren. Die Sensoren haben also eine Auflösung von m · n Pixeln. Die Signale der Sensoren werden über eine Leitung 14 ausgegeben.
Der Kamerakopf 10 muss kalibriert werden. Bei der Kalibrierung werden einerseits interne Kameraparameter (z.B.: Verzerrung) und externe Parameter (Transformation zwischen Kameras) bestimmt. Für die Kalibrierung gibt es Software.
In der realen Anwendung wird jede Kamera zeitgleich ausgelesen und die Bilder werden mit den Kalibrierinformationen rektifiziert (entzerrt und transformiert). Die gleiche optische Information ist nun in allen Kamerabildern an verschiedenen Stellen, in derselben Zeile der Bilder zu sehen. Der Positionsunterschied wird als Disparität bezeichnet. Die Tiefe vor der Kamera im dreidimensionalen Raum ist durch den Zusammenhang
T = B·f/D (1)
gegeben. T beschreibt dabei die Tiefe, B die Länge der Baseline (Abstand der Kameras), f die Brennweite und D die Disparität.
Da B und f konstant sind, ist in den T-Werten (Tiefeninformationswerten) und in den D-Werten (Disparitätswerten) dieselbe Information vorhanden, es handelt sich bis auf eine Konstante um Reziprokwerte.
Würde man an jeder möglichen Stelle im Bild die Disparität bestimmen und anschließend mit Formel (1) die Tiefe errechnen, würde man ein Tiefenbild erhalten. Da die Tiefeninformation allerdings keinen Mehrwert bringt, wird man zweckmäßiger Weise diese Berechnung einsparen und ausschließlich ein Disparitätsbild verwenden.
Im Disparitätsbild sind wie bereits erwähnt Objektinformationen mit Bodeninformationen vermischt. Um diese separieren zu können, muss die Bodeninformation – d.h. ein Disparitätsbild eines idealen Bodens - berechnet werden.
Wenn man ein Disparitätsbild als Graustufenbild darstellt (helle Punkte bedeuten hohe Disparität, dunkle Punkte geringe Disparität), dann wird die Bodenebene mit zunehmendem Abstand dünkler (da die Disparität geringer wird), bis sie im Horizont schwarz wird (keine Disparität im Unendlichen). Wenn sich die Baseline des Kamerakopfes 10 parallel zur Bodenebene befindet, kann davon ausgegangen werden, dass der Disparitätswert einer idealen Bodenebene im Disparitätsbild von der horizontalen Pixelposition unabhängig ist und nur von der vertikalen Pixelposition abhängt. Daher muss nur eine Stichprobe der Bodenebene genommen werden. Wenn der Kamerakopf 10 direkt auf eine lange gerade Straße gerichtet ist, dann kann diese Stichprobe eine Linie genau in der Mitte des Bildes von unten nach oben sein.
In Fig. 3 sind die Messwerte D (Disparität) in Abhängigkeit von der Zeile Z (Zeilen des Bildes) der Stichprobe durch eine dicke Linie dargestellt, wobei in dieser Figur die Zeilen vom Horizont weg (wenn der Kamerakopf nicht geneigt ist, also von der Bildmitte weg) gezählt werden. In Zeile 0 (Horizont) ist daher die Disparität 0. Man sieht, dass die Abhängigkeit aufgrund der Annahme einer idealen Bodenfläche annähernd linear ist, sich die extrahierte Stichprobe durch Rauschen aber nicht optimal verhält. Daher muss diese verrauschte Linie linear interpoliert werden (dünne, durchgezogene Linie). Dies geschieht durch die Anpassung des Modells
d=k·z+o
wobei z die Zeile des Bildes darstellt, d den dazu gehörenden Disparitätswert, o einen Offset und k die Steigung der Disparität zwischen zwei Zeilen.
Da nur Objekte, die eindeutig oberhalb der Bodenebene liegen, erkannt werden sollen, muss die Bodenebene noch etwas angehoben werden (strichlierte Linie), sodass das Rauschen vollständig unterhalb dieser strichlierten Linie liegt. Da die Stichprobe nicht das komplette Bild abdeckt, muss das errechnete lineare Modell des Bodens interpolieren und eine vermutliche Bodenebene errechnen. Das Disparitätsbild der angehobenen Bodenebene soll exakt gleich viele Zeilen haben wie das tatsächliche Bildmaterial, damit die folgenden Berechnungen einfach durchgeführt werden können. Um ein Disparitätsbild der errechneten Bodenebene zu erhalten, wird die angehobene Bodeninformation als Vektor dj angesehen, von dem jede Komponente dem Disparitätswert entsprechend der vertikalen Pixelposition entspricht (j=1…n). (Für Pixel entsprechend Objekten oberhalb des Horizonts setzt man dj = 0.) Da wie oben erwähnt der Disparitätswert von der horizontalen Pixelposition unabhängig ist, ergibt sich das Disparitätsbild der idealen Bodenebene als Matrix D mit Djk=dj, j = 1…n, k = 1…m.
Der Vorgang zur Berechnung der Bodeninformation ist also folgendermaßen:
  • Aufnehmen eines Disparitätsbildes, wenn der Kamerakopf 10 auf eine möglichst ebene Fläche (z.B. eine lange gerade Straße) gerichtet ist; dieses Bild muss viel Bodeninformation zeigen.
  • Über Parameter der Software wird eine Linie zur Extraktion definiert. Diese Linie im Bild soll nur Bodeninformation zeigen. (Stichprobe)
  • Die Disparitätswerte auf dieser Linie werden in einem Vektor mit den Bilddimensionen (Pixelpositionen) abgespeichert. Diese Information beschreibt die Disparitätswerte des Bodens.
  • Der beschriebene Vektor wird interpoliert.
  • Die Disparitätswerte werden mit einem Offset versehen (Bodenebene wird mathematisch angehoben).
  • Aus der neuen Bodeninformation wird ein Bodendisparitätsbild erzeugt.
  • Abspeichern der Information als Matrix (Disparitätswert für jedes Kamerapixel), beispielhaft als csv-Datei.
Die Matrix kann nun in unterschiedlichen Applikationen geladen werden. Durch Bildung der Differenz eines realen Disparitätsbilds und des berechneten Bodendisparitätsbilds entsteht ein Disparitätsbild mit ausschließlich relevanter Information (Hindernissen). Wenn man mit Disparitätswerten rechnet und man das Bodendisparitätsbild vom (realen) Disparitätsbild abzieht (und nicht umgekehrt), haben Hindernisse positives Vorzeichen. In diesem Fall setzt man alle negativen Werte auf null. Analog könnte man auch Löcher im Boden auswerten.
Zusammengefasst basiert die Hinderniserkennung somit auf einem realen Disparitätsbild und einem idealen Bodendisparitätsbild. Ein durch die Stereoengine berechnetes Disparitätsbild wird an die Hinderniserkennung gesendet. Die Hinderniserkennung errechnet nun durch Subtraktion und Maskierung des Bodendisparitätsbilds vom realen Disparitätsbildes ein Hindernisbild.
Da nun das Hindernisbild vorliegt, können Disparitätscluster extrahiert und als Hindernisse definiert werden.
Die tatsächlichen Werte der Pixel im Hindernisbild H (H ist eine n x m-Matrix) sind abhängig von der Distanz zwischen Kamerakopf und Objekt. Je näher das Objekt zur Kamera, desto höher ist der Pixelwert. Mit dieser Interpretation lässt sich das Hindernisbild als dreidimensionale Darstellung der Umgebung interpretieren.
Das Hindernisbild wird nun in z-Richtung (dem Abstand nach vorne) in Scheiben unterteilt. Wenn die "Scheiben" z.B. drei Disparitätswerte "dick" sind, so werden alle Pixelwerte ermittelt, bei denen Hjk 0 bis 2 sind; 3 bis 5 sind; 6 bis 8 sind; 9 bis 11 sind; usw. In Fig. 2 ist dies veranschaulicht. (Fig. 2 zeigt Disparitäten – keine Distanzen)
Der Kamerakopf 10 ist auf drei Objekte 21, 22, 23 gerichtet. In Fig. 2 sind "Scheiben" 31 bis 34 eingezeichnet, die Disparitätsbereichen 36…39 bis 46…48 entsprechen. Allgemein umfasst jede Scheibe 30 einen Bereich von drei Disparitätswerten 3n bis 3n+2.
Durch Analyse ausschließlich der Disparitätswerte der Scheiben im Hindernisbild lassen sich Bilder für die einzelnen Scheiben errechnen. Durch das Aufteilen der Disparitätsinformation in Scheiben lassen sich in jeder Scheibe Konturen von Objekten erkennen. Dazu werden Algorithmen zur Extraktion von Konturen verwendet. Jede extrahierte Kontur wird im folgenden Verlauf als Disparitätscluster bezeichnet. Jeder Disparitätscluster wird nun beschrieben durch:
Clusteri = {Disparitäti,max, Versatzi, Breitei} (2)
Dabei bedeutet "Versatz" die x-Koordinate des Hindernisses (gemessen von der Bildmitte aus) und "Breite" die reale, maximale Objektbreite im extrahierten Disparitätscluster. Weiters wird der maximale Disparitätswert abgespeichert. Dies ist ein Maß für den zum Kamerakopf nächsten Punkt.
Da die Parameter des Kamerakopfes (Baseline, Brennweite) bekannt sind, kann die Disparität nach Formel (1) jederzeit in Meter umgerechnet werden.
Um eine zuverlässige Lokalisierung durchführen zu können, kann dieses Verfahren um eine Merkmalsextraktion erweitert werden. Als Merkmale werden in diesem Zusammenhang diverse Informationen aus den Tiefenclustern verstanden. Der Cluster wird erweitert um diese Informationen:
Clusteri' = {Disparitäti,max, Versatzi, Breitei, Mi}(3)
Das Merkmal Mi ist ein Vektor, und kann beliebig viel Information wiedergeben. Mi beinhaltet für den Cluster repräsentative Informationen. Diese Informationen können extrahierte sogenannte Tiefenfeatures sein oder die Matrix des Clusters selbst.
Die Selbstlokalisierung basiert auf der Tatsache, dass ähnliche Disparitätscluster in aufeinanderfolgenden Disparitätsbildern gefunden werden können. Durch den Abgleich der Bewegung der Cluster im Bild bzw. der Pixelwerte und der dazu gehörenden dreidimensionalen Interpretation kann die reale Bewegung des Fahrzeuges berechnet werden. Eine Voraussetzung dafür ist eine stillstehende Umgebung.
Um die Bewegung robust berechnen zu können, sich bewegende Objekte zu ignorieren und Datenrauschen zu minimieren, kommen Bewegungsmodelle zum Einsatz. Diese Modelle können Bewegungen von Clustern vorhersagen und damit die Bewegungsberechnung signifikant verbessern.
Im einfachsten Fall: Wenn sich das Fahrzeug zuletzt mit z.B. 20 km/h bewegt hat, kann man davon ausgehen, dass sich das Fahrzeug in den nächsten Sekunden mit einer sehr ähnlichen Geschwindigkeit bewegen wird, und auf dieser Basis und des letzten Stereobildes berechnen, wo sich die Disparitätscluster beim nächsten Stereobild ungefähr befinden werden. Damit können die Disparitätscluster verschiedener Stereobilder einander viel leichter zugeordnet werden. Es gibt hier natürlich auch wesentlich bessere Modelle, man kann z.B. Beschleunigungen in jeder Richtung berücksichtigen.
Die Selbstlokalisierung selbst basiert auf der Analyse von extrahierten Disparitätsclustern. In einem ersten Disparitätsbild werden Disparitätscluster extrahiert. Da die Kamerapixel und dadurch die Disparitätsinformation rauschen, ist eine simple Triangulation ausgeschlossen. Es würde ein Drift entstehen, welcher ohne externe Signale bzw. optische Landmarken nicht kompensierbar ist. Daher muss ein statistisches Framework verwendet werden, welches das Rauschen der Sensoren berücksichtigt und gegebenenfalls leicht erweiterbar ist. Dazu kann ein Algorithmus, genannt extended Kalmanfilter, verwendet werden.

Claims (3)

  1. Verfahren zur Selbstlokalisierung von Fahrzeugen auf Basis von Stereovision, bei dem nacheinander Bilder von mindestens zwei statisch am Fahrzeug befestigten Kameras aufgenommen und ausgelesen werden, bei dem aus den aufgenommenen Bildern Disparitäts- bzw. Tiefeninformationen berechnet werden und bei dem aus dem Entfernungsunterschied gleicher Objekte in verschiedenen Bildern auf die Eigenbewegung geschlossen wird, dadurch gekennzeichnet, dass die Disparitäts- bzw. Tiefeninformationen als Bilder aufgefasst werden, dass daraus Disparitäts- bzw. Tiefencluster extrahiert werden und dass diese Disparitäts- bzw. Tiefencluster in den darauffolgenden Bildern wieder gefunden werden.
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass eine Bodenebene als Disparitäts- bzw. Tiefenwertbild berechnet wird und die Differenz zwischen der Bodenebene als Disparitäts- bzw. Tiefenwertbild und den Disparitäts- bzw. Tiefeninformationen gebildet wird, bevor die Disparitäts- bzw. Tiefeninformationen verglichen werden.
  3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass die Bodenebene mathematisch angehoben wird, bevor die Differenz gebildet wird, und nur Werte mit jenem Vorzeichen berücksichtigt werden, die Hindernissen entsprechen.
PCT/AT2017/060076 2016-03-24 2017-03-24 Verfahren zur selbstlokalisierung von fahrzeugen WO2017161401A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
ATA50240/2016 2016-03-24
ATA50240/2016A AT518438A1 (de) 2016-03-24 2016-03-24 Verfahren zur Selbstlokalisierung von Fahrzeugen

Publications (1)

Publication Number Publication Date
WO2017161401A1 true WO2017161401A1 (de) 2017-09-28

Family

ID=58544658

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/AT2017/060076 WO2017161401A1 (de) 2016-03-24 2017-03-24 Verfahren zur selbstlokalisierung von fahrzeugen

Country Status (2)

Country Link
AT (1) AT518438A1 (de)
WO (1) WO2017161401A1 (de)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103123722B (zh) * 2011-11-18 2016-04-27 株式会社理光 道路对象检测方法和系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
DAVID J BRAUNEGG: "Location Recognition using stereo vision", 1 October 1989 (1989-10-01), XP055377059, Retrieved from the Internet <URL:ftp://publications.ai.mit.edu/ai-publications/pdf/AIM-1186.pdf> [retrieved on 20170530] *
R TERRY DUNLAY ET AL: "Obstacle avoidance on roadways using range data", 1 January 1986 (1986-01-01), XP055377821, Retrieved from the Internet <URL:http://spie.org/Publications/Proceedings/Paper/10.1117/12.937789> [retrieved on 20170601] *
WEI BAO ET AL: "Self-localization of Mobile Robot Based on Binocular Camera and Unscented Kalman Filter", AUTOMATION AND LOGISTICS, 2007 IEEE INTERNATIONAL CONFERENCE ON, IEEE, PISCATAWAY, NJ, USA, 1 August 2007 (2007-08-01), pages 277 - 281, XP031138778, ISBN: 978-1-4244-1531-1 *
ZHONGEI ZHANG ET AL: "Qualitative obstacle detection", IEEE COMPUTER SOCIETY CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION. PROCEED, IEEE COMPUTER SOCIETY, US, 21 June 1994 (1994-06-21), pages 554 - 559, XP010099330, ISSN: 1063-6919, DOI: 10.1109/CVPR.1994.323881 *

Also Published As

Publication number Publication date
AT518438A1 (de) 2017-10-15

Similar Documents

Publication Publication Date Title
EP3497476A1 (de) Kraftfahrzeug und verfahren zur 360°-umfelderfassung
DE102007001649A1 (de) Verfahren, Vorrichtung und Computerprogramm zur Selbstkalibrierung einer Überwachungskamera
WO2013029722A2 (de) Verfahren zur umgebungsrepräsentation
DE102018108027A1 (de) Objekterfassungsvorrichtung
DE102016225595A1 (de) Verfahren und Anordnung zur Kalibrierung mindestens eines Sensors eines Schienenfahrzeugs
DE102016119626A1 (de) Automatische dreidimensionale Geolokation von SAR-Targets und gleichzeitige Schätzung troposphärischer Ausbreitungsverzögerungen mittels zweier SAR-Bilder mit langer Apertur
DE102020129096A1 (de) Erzeugung dreidimensionaler punktwolken mittels einer polarimetrischen kamera in einem mit einem fahrassistenzsystem ausgestatteten fahrzeug
DE102017109445A1 (de) Kalibration einer Fahrzeug-Kameraeinrichtung in Fahrzeuglängsrichtung oder Fahrzeugquerrichtung
DE102018123393A1 (de) Erkennung von Parkflächen
EP2577614B1 (de) Vorrichtung zur darstellung von gelände auf einer anzeigevorrichtung eines flugkörpers
DE102015122172A1 (de) Scheinwerferbasierte Projetion von Mustern zur Vermessung räumlicher Eigenschaften einer Fahrzeugumgebung
WO2015173005A1 (de) Umfeldkarte für fahrflächen mit beliebigem höhenverlauf
DE102017129609A1 (de) Erkennen von Veränderungen in einem Erfassungsbereich
DE102009054214B4 (de) Verfahren und Vorrichtung zum Erzeugen einer Darstellung einer Umgebung
DE4113992A1 (de) Verfahren zur automatischen dreidimensionalen ueberwachung von gefahrenraeumen
EP3921819B1 (de) Überwachungsvorrichtung und verfahren zur man-overboard-überwachung eines schiffsabschnitts
EP3663881B1 (de) Verfahren zur steuerung eines autonomen fahrzeugs auf der grundlage von geschätzten bewegungsvektoren
WO2020160874A1 (de) Kalibriereinrichtung für eine überwachungsvorrichtung, überwachungsvorrichtung zur man-overboard-überwachung sowie verfahren zur kalibrierung
DE102020200728A1 (de) Rekonstruieren von Elevationsinformationen aus Radardaten
WO2017161401A1 (de) Verfahren zur selbstlokalisierung von fahrzeugen
DE102022202548B3 (de) Verfahren zum Trainieren eines Computerprogrammprodukts
DE102019220616B4 (de) Verfahren zur simultanen lokalisierung und abbildung
DE102008055932A1 (de) Verfahren zur modellbasierten Simulation eines Verhaltens eines Sensors
DE112022002520T5 (de) Verfahren zur automatischen Kalibrierung von Kameras und Erstellung von Karten
EP3663800B1 (de) Verfahren zur objekterfassung mit einer 3d-kamera

Legal Events

Date Code Title Description
NENP Non-entry into the national phase

Ref country code: DE

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17717064

Country of ref document: EP

Kind code of ref document: A1

122 Ep: pct application non-entry in european phase

Ref document number: 17717064

Country of ref document: EP

Kind code of ref document: A1