WO2017161401A1

WO2017161401A1 - Verfahren zur selbstlokalisierung von fahrzeugen

Info

Publication number: WO2017161401A1
Application number: PCT/AT2017/060076
Authority: WO
Inventors: Bernhard PESCHAK; Wilfried WÖBER; Richard OTREBSKI
Original assignee: Pas Gmbh
Priority date: 2016-03-24
Filing date: 2017-03-24
Publication date: 2017-09-28
Also published as: AT518438A1

Abstract

Zur Selbstlokalisierung von Fahrzeugen auf Basis von Stereovision werden nacheinander Bilder von mindestens zwei statisch am Fahrzeug befestigten Kameras aufgenommen und ausgelesen, wobei aus den aufgenommenen Bildern Disparitäts- bzw. Tiefeninformationen berechnet werden und aus dem Entfernungsunterschied gleicher Objekte in verschiedenen Bildern auf die Eigenbewegung geschlossen wird. Erfindungsgemäß werden die Disparitäts- bzw. Tiefeninformationen als Bilder aufgefasst, daraus Disparitäts- bzw. Tiefencluster extrahiert und diese Disparitäts- bzw. Tiefencluster in den darauffolgenden Bildern wieder gefunden. Es ist dabei zweckmäßig, eine Bodenebene als Disparitäts- bzw. Tiefenwertbild zu berechnen, diese mathematisch etwas anzuheben und die Differenz zwischen der Bodenebene als Disparitäts- bzw. Tiefenwertbild und den Disparitäts- bzw. Tiefeninformationen zu bilden, bevor die Disparitäts- bzw. Tiefeninformationen verglichen werden. Damit wird die Bodenebene, in der keine brauchbaren Informationen vorhanden sind, ausgeblendet.

Description

VERFAHREN ZUR SELBSTLOKALISIERUNG VON FAHRZEUGEN

Technisches Gebiet

Die vorliegende Erfindung betrifft ein Verfahren zur Selbstlokalisierung von Fahrzeugen auf Basis von Stereovision, bei dem nacheinander Bilder von mindestens zwei statisch am Fahrzeug befestigten Kameras aufgenommen und ausgelesen werden, bei dem aus den aufgenommenen Bildern Disparitäts- bzw. Tiefeninformationen berechnet werden und bei dem aus dem Entfernungsunterschied gleicher Objekte in verschiedenen Bildern auf die Eigenbewegung geschlossen wird.

Stand der Technik

Unter Selbstlokalisierung soll in diesem Zusammenhang die Berechnung der Bewegung bzw. Position eines Fahrzeuges ohne Hilfe äußerer Signale wie GPS über einen zeitlichen Verlauf verstanden werden.

Lokalisierung autonomer Systeme basierend auf internen Signalen ist kein neuer Gedanke. Die grundlegenden Ansätze dazu sind unter dem Begriff Odometrie bekannt. Durch Odometrie werden Bewegungen basierend auf Sensorwerten errechnet. Im einfachsten Fall werden die Radgeschwindigkeiten ausgelesen und integriert. Viele der grundlegenden Algorithmen der Robotik sind bis zum heutigen Tage noch nicht für den Einsatz in hochdynamischer Umgebung (Feldweg, Wald, …) geeignet. Die Problematik zeigt sich durch Drift über die Zeit oder das komplette Versagen der Lokalisierung. Das Verlangen nach einem über die Zeit stabilen System ist für die Anwendung autonomer Systeme daher sehr hoch.

Das gegenständliche Verfahren ist eine kamerabasierte Lösung, und zwar verwendet es Stereovision - eine Technologie zur Berechnung von Tiefeninformation basierend auf mindestens zwei Kamerabildern.

Die bisher bekannten derartigen Verfahren nehmen ein Kamerabild von mindestens zwei Kameras auf und extrahieren daraus die Bildfeatures, das sind repräsentative Merkmale wie beispielhaft SIFT-Features. Danach (z.B. eine Sekunde oder einige Sekunden später) werden wiederum Bilder aufgenommen und daraus wiederum Bildfeatures extrahiert. Schließlich wird versucht, Bildfeatures aus den ersten Bildern in den zweiten Bildern wiederzufinden, wonach der Entfernungsunterschied basierend auf den Kalibrierinformationen ermittelt werden kann.

Problematisch sind solche Systeme z.B. im Wald. Hier ändern sich die Gegebenheiten ständig durch Wind, Blattbewegung, etc. Es sind daher keine repräsentativen Bildfeatures extrahierbar.

Darstellung der Erfindung

Es ist Aufgabe der vorliegenden Erfindung, ein System der eingangs genannten Art zu schaffen, das die erwähnten Nachteile nicht aufweist, also auch bei dynamischen Verhältnissen in nicht strukturierter Umgebung zuverlässig funktioniert.

Diese Aufgabe wird durch ein Verfahren der eingangs genannten Art erfindungsgemäß dadurch gelöst, dass die Disparitäts- bzw. Tiefeninformationen als Bilder aufgefasst werden, dass daraus Disparitäts- bzw. Tiefencluster extrahiert werden und dass diese Disparitäts- bzw. Tiefencluster in den darauffolgenden Bildern wieder gefunden werden.

Erfindungsgemäß werden also nicht (aufeinanderfolgende) Bilder miteinander verglichen, sondern es werden Disparitäts- bzw. Tiefeninformationscluster (das sind zusammenhängende Disparitätskonturen im Disparitätsbild, in denen der Disparitätswert innerhalb eines vorgegebenen Werts ist) in den Bildern ermittelt. Dies hat sich als ganz wesentlich zuverlässiger herausgestellt als der direkte Vergleich der Bilder, denn das Aussehen eines Objekts kann sich rasch ändern, seine Entfernung bleibt aber bei stationären Objekten bis auf die Eigenbewegung konstant. Die Selbstlokalisierung basiert daher ausschließlich auf den Disparitäts- und damit Tiefeninformationen von Objekten.

Um die Disparitätscluster von Objekten überhaupt berechnen zu können, sollte Bodeninformation aus dem Disparitätsbild entfernt werden. Eine Beschreibung der Bodenfläche ist daher nötig. Durch Subtraktion der Bodenebene entsteht ein "Hindernisbild". Positive Pixelwerte nach dieser Subtraktion bedeuten dabei Erhebungen und negative Werte Löcher. Dadurch wird die kaum brauchbare Informationen enthaltende Bodenebene sozusagen "ausgeblendet". Maskiert man das ursprüngliche Disparitätsbild mit dem Hindernisbild entsteht ein Hindernisbild mit unverzerrten Disparitätswerten.

Wird die Bodenebene angehoben, kann sich die Berechnung auf deutlich herausragende Hindernisse beschränken.

Kurze Beschreibung der Zeichnungen

Ein konkretes Ausführungsbeispiel der vorliegenden Erfindung wird an Hand der beiliegenden Zeichnungen näher erläutert. Es zeigt: Fig. 1 eine mögliche Anordnung von drei Kameras – zwei auf unterschiedliche Arbeitsräume ausgelegte Stereokameras; Fig. 2 diese drei Kameras mit fiktiven Objekten; und Fig. 3 die Disparität einer Bodenebene.

Bester Weg zur Ausführung der Erfindung

Der Grundaufbau des Systems ist in Fig. 1 zu sehen. Der in Fig. 1 gezeigte Kamerakopf 10 besteht aus drei Kameras 11, 12 und 13. Diese bilden im Zusammenspiel der linken und mittleren Kamera 11 und 12 bzw. linken und rechten Kamera 11 und 13 zwei Stereokamerasysteme. Da die Genauigkeit der Tiefeninformation mit der Distanz abnimmt, können zwei für unterschiedliche Distanzen ausgelegte Systeme verwendet werden, um den Fehler zu minimieren (11 und 12 für nahe Objekte, 11 und 13 für entfernte Objekte).

Die Sensoren der Kameras 11, 12 und 13 haben alle gleich viele Pixel; im Folgenden bezeichnet m die Anzahl von Pixelspalten und n die Anzahl von Pixelzeilen in jedem der Sensoren. Die Sensoren haben also eine Auflösung von m · n Pixeln. Die Signale der Sensoren werden über eine Leitung 14 ausgegeben.

Der Kamerakopf 10 muss kalibriert werden. Bei der Kalibrierung werden einerseits interne Kameraparameter (z.B.: Verzerrung) und externe Parameter (Transformation zwischen Kameras) bestimmt. Für die Kalibrierung gibt es Software.

In der realen Anwendung wird jede Kamera zeitgleich ausgelesen und die Bilder werden mit den Kalibrierinformationen rektifiziert (entzerrt und transformiert). Die gleiche optische Information ist nun in allen Kamerabildern an verschiedenen Stellen, in derselben Zeile der Bilder zu sehen. Der Positionsunterschied wird als Disparität bezeichnet. Die Tiefe vor der Kamera im dreidimensionalen Raum ist durch den Zusammenhang

T = B·f/D (1)

gegeben. T beschreibt dabei die Tiefe, B die Länge der Baseline (Abstand der Kameras), f die Brennweite und D die Disparität.

Da B und f konstant sind, ist in den T-Werten (Tiefeninformationswerten) und in den D-Werten (Disparitätswerten) dieselbe Information vorhanden, es handelt sich bis auf eine Konstante um Reziprokwerte.

Würde man an jeder möglichen Stelle im Bild die Disparität bestimmen und anschließend mit Formel (1) die Tiefe errechnen, würde man ein Tiefenbild erhalten. Da die Tiefeninformation allerdings keinen Mehrwert bringt, wird man zweckmäßiger Weise diese Berechnung einsparen und ausschließlich ein Disparitätsbild verwenden.

Im Disparitätsbild sind wie bereits erwähnt Objektinformationen mit Bodeninformationen vermischt. Um diese separieren zu können, muss die Bodeninformation – d.h. ein Disparitätsbild eines idealen Bodens - berechnet werden.

Wenn man ein Disparitätsbild als Graustufenbild darstellt (helle Punkte bedeuten hohe Disparität, dunkle Punkte geringe Disparität), dann wird die Bodenebene mit zunehmendem Abstand dünkler (da die Disparität geringer wird), bis sie im Horizont schwarz wird (keine Disparität im Unendlichen). Wenn sich die Baseline des Kamerakopfes 10 parallel zur Bodenebene befindet, kann davon ausgegangen werden, dass der Disparitätswert einer idealen Bodenebene im Disparitätsbild von der horizontalen Pixelposition unabhängig ist und nur von der vertikalen Pixelposition abhängt. Daher muss nur eine Stichprobe der Bodenebene genommen werden. Wenn der Kamerakopf 10 direkt auf eine lange gerade Straße gerichtet ist, dann kann diese Stichprobe eine Linie genau in der Mitte des Bildes von unten nach oben sein.

In Fig. 3 sind die Messwerte D (Disparität) in Abhängigkeit von der Zeile Z (Zeilen des Bildes) der Stichprobe durch eine dicke Linie dargestellt, wobei in dieser Figur die Zeilen vom Horizont weg (wenn der Kamerakopf nicht geneigt ist, also von der Bildmitte weg) gezählt werden. In Zeile 0 (Horizont) ist daher die Disparität 0. Man sieht, dass die Abhängigkeit aufgrund der Annahme einer idealen Bodenfläche annähernd linear ist, sich die extrahierte Stichprobe durch Rauschen aber nicht optimal verhält. Daher muss diese verrauschte Linie linear interpoliert werden (dünne, durchgezogene Linie). Dies geschieht durch die Anpassung des Modells

d=k·z+o

wobei z die Zeile des Bildes darstellt, d den dazu gehörenden Disparitätswert, o einen Offset und k die Steigung der Disparität zwischen zwei Zeilen.

Da nur Objekte, die eindeutig oberhalb der Bodenebene liegen, erkannt werden sollen, muss die Bodenebene noch etwas angehoben werden (strichlierte Linie), sodass das Rauschen vollständig unterhalb dieser strichlierten Linie liegt. Da die Stichprobe nicht das komplette Bild abdeckt, muss das errechnete lineare Modell des Bodens interpolieren und eine vermutliche Bodenebene errechnen. Das Disparitätsbild der angehobenen Bodenebene soll exakt gleich viele Zeilen haben wie das tatsächliche Bildmaterial, damit die folgenden Berechnungen einfach durchgeführt werden können. Um ein Disparitätsbild der errechneten Bodenebene zu erhalten, wird die angehobene Bodeninformation als Vektor dj angesehen, von dem jede Komponente dem Disparitätswert entsprechend der vertikalen Pixelposition entspricht (j=1…n). (Für Pixel entsprechend Objekten oberhalb des Horizonts setzt man dj = 0.) Da wie oben erwähnt der Disparitätswert von der horizontalen Pixelposition unabhängig ist, ergibt sich das Disparitätsbild der idealen Bodenebene als Matrix D mit Djk=dj, j = 1…n, k = 1…m.

Der Vorgang zur Berechnung der Bodeninformation ist also folgendermaßen:

Aufnehmen eines Disparitätsbildes, wenn der Kamerakopf 10 auf eine möglichst ebene Fläche (z.B. eine lange gerade Straße) gerichtet ist; dieses Bild muss viel Bodeninformation zeigen.
Über Parameter der Software wird eine Linie zur Extraktion definiert. Diese Linie im Bild soll nur Bodeninformation zeigen. (Stichprobe)
Die Disparitätswerte auf dieser Linie werden in einem Vektor mit den Bilddimensionen (Pixelpositionen) abgespeichert. Diese Information beschreibt die Disparitätswerte des Bodens.
Der beschriebene Vektor wird interpoliert.
Die Disparitätswerte werden mit einem Offset versehen (Bodenebene wird mathematisch angehoben).
Aus der neuen Bodeninformation wird ein Bodendisparitätsbild erzeugt.
Abspeichern der Information als Matrix (Disparitätswert für jedes Kamerapixel), beispielhaft als csv-Datei.

Die Matrix kann nun in unterschiedlichen Applikationen geladen werden. Durch Bildung der Differenz eines realen Disparitätsbilds und des berechneten Bodendisparitätsbilds entsteht ein Disparitätsbild mit ausschließlich relevanter Information (Hindernissen). Wenn man mit Disparitätswerten rechnet und man das Bodendisparitätsbild vom (realen) Disparitätsbild abzieht (und nicht umgekehrt), haben Hindernisse positives Vorzeichen. In diesem Fall setzt man alle negativen Werte auf null. Analog könnte man auch Löcher im Boden auswerten.

Zusammengefasst basiert die Hinderniserkennung somit auf einem realen Disparitätsbild und einem idealen Bodendisparitätsbild. Ein durch die Stereoengine berechnetes Disparitätsbild wird an die Hinderniserkennung gesendet. Die Hinderniserkennung errechnet nun durch Subtraktion und Maskierung des Bodendisparitätsbilds vom realen Disparitätsbildes ein Hindernisbild.

Da nun das Hindernisbild vorliegt, können Disparitätscluster extrahiert und als Hindernisse definiert werden.

Die tatsächlichen Werte der Pixel im Hindernisbild H (H ist eine n x m-Matrix) sind abhängig von der Distanz zwischen Kamerakopf und Objekt. Je näher das Objekt zur Kamera, desto höher ist der Pixelwert. Mit dieser Interpretation lässt sich das Hindernisbild als dreidimensionale Darstellung der Umgebung interpretieren.

Das Hindernisbild wird nun in z-Richtung (dem Abstand nach vorne) in Scheiben unterteilt. Wenn die "Scheiben" z.B. drei Disparitätswerte "dick" sind, so werden alle Pixelwerte ermittelt, bei denen Hjk 0 bis 2 sind; 3 bis 5 sind; 6 bis 8 sind; 9 bis 11 sind; usw. In Fig. 2 ist dies veranschaulicht. (Fig. 2 zeigt Disparitäten – keine Distanzen)

Der Kamerakopf 10 ist auf drei Objekte 21, 22, 23 gerichtet. In Fig. 2 sind "Scheiben" 31 bis 34 eingezeichnet, die Disparitätsbereichen 36…39 bis 46…48 entsprechen. Allgemein umfasst jede Scheibe 30 einen Bereich von drei Disparitätswerten 3n bis 3n+2.

Durch Analyse ausschließlich der Disparitätswerte der Scheiben im Hindernisbild lassen sich Bilder für die einzelnen Scheiben errechnen. Durch das Aufteilen der Disparitätsinformation in Scheiben lassen sich in jeder Scheibe Konturen von Objekten erkennen. Dazu werden Algorithmen zur Extraktion von Konturen verwendet. Jede extrahierte Kontur wird im folgenden Verlauf als Disparitätscluster bezeichnet. Jeder Disparitätscluster wird nun beschrieben durch:

Cluster_i = {Disparität_i,max, Versatz_i, Breite_i} (2)

Dabei bedeutet "Versatz" die x-Koordinate des Hindernisses (gemessen von der Bildmitte aus) und "Breite" die reale, maximale Objektbreite im extrahierten Disparitätscluster. Weiters wird der maximale Disparitätswert abgespeichert. Dies ist ein Maß für den zum Kamerakopf nächsten Punkt.

Da die Parameter des Kamerakopfes (Baseline, Brennweite) bekannt sind, kann die Disparität nach Formel (1) jederzeit in Meter umgerechnet werden.

Um eine zuverlässige Lokalisierung durchführen zu können, kann dieses Verfahren um eine Merkmalsextraktion erweitert werden. Als Merkmale werden in diesem Zusammenhang diverse Informationen aus den Tiefenclustern verstanden. Der Cluster wird erweitert um diese Informationen:

Cluster_i' = {Disparität_i,max, Versatz_i, Breite_i, M_i}(3)

Das Merkmal Mi ist ein Vektor, und kann beliebig viel Information wiedergeben. Mi beinhaltet für den Cluster repräsentative Informationen. Diese Informationen können extrahierte sogenannte Tiefenfeatures sein oder die Matrix des Clusters selbst.

Die Selbstlokalisierung basiert auf der Tatsache, dass ähnliche Disparitätscluster in aufeinanderfolgenden Disparitätsbildern gefunden werden können. Durch den Abgleich der Bewegung der Cluster im Bild bzw. der Pixelwerte und der dazu gehörenden dreidimensionalen Interpretation kann die reale Bewegung des Fahrzeuges berechnet werden. Eine Voraussetzung dafür ist eine stillstehende Umgebung.

Um die Bewegung robust berechnen zu können, sich bewegende Objekte zu ignorieren und Datenrauschen zu minimieren, kommen Bewegungsmodelle zum Einsatz. Diese Modelle können Bewegungen von Clustern vorhersagen und damit die Bewegungsberechnung signifikant verbessern.

Im einfachsten Fall: Wenn sich das Fahrzeug zuletzt mit z.B. 20 km/h bewegt hat, kann man davon ausgehen, dass sich das Fahrzeug in den nächsten Sekunden mit einer sehr ähnlichen Geschwindigkeit bewegen wird, und auf dieser Basis und des letzten Stereobildes berechnen, wo sich die Disparitätscluster beim nächsten Stereobild ungefähr befinden werden. Damit können die Disparitätscluster verschiedener Stereobilder einander viel leichter zugeordnet werden. Es gibt hier natürlich auch wesentlich bessere Modelle, man kann z.B. Beschleunigungen in jeder Richtung berücksichtigen.

Die Selbstlokalisierung selbst basiert auf der Analyse von extrahierten Disparitätsclustern. In einem ersten Disparitätsbild werden Disparitätscluster extrahiert. Da die Kamerapixel und dadurch die Disparitätsinformation rauschen, ist eine simple Triangulation ausgeschlossen. Es würde ein Drift entstehen, welcher ohne externe Signale bzw. optische Landmarken nicht kompensierbar ist. Daher muss ein statistisches Framework verwendet werden, welches das Rauschen der Sensoren berücksichtigt und gegebenenfalls leicht erweiterbar ist. Dazu kann ein Algorithmus, genannt extended Kalmanfilter, verwendet werden.

Claims

Verfahren zur Selbstlokalisierung von Fahrzeugen auf Basis von Stereovision, bei dem nacheinander Bilder von mindestens zwei statisch am Fahrzeug befestigten Kameras aufgenommen und ausgelesen werden, bei dem aus den aufgenommenen Bildern Disparitäts- bzw. Tiefeninformationen berechnet werden und bei dem aus dem Entfernungsunterschied gleicher Objekte in verschiedenen Bildern auf die Eigenbewegung geschlossen wird, dadurch gekennzeichnet, dass die Disparitäts- bzw. Tiefeninformationen als Bilder aufgefasst werden, dass daraus Disparitäts- bzw. Tiefencluster extrahiert werden und dass diese Disparitäts- bzw. Tiefencluster in den darauffolgenden Bildern wieder gefunden werden.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass eine Bodenebene als Disparitäts- bzw. Tiefenwertbild berechnet wird und die Differenz zwischen der Bodenebene als Disparitäts- bzw. Tiefenwertbild und den Disparitäts- bzw. Tiefeninformationen gebildet wird, bevor die Disparitäts- bzw. Tiefeninformationen verglichen werden.
Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass die Bodenebene mathematisch angehoben wird, bevor die Differenz gebildet wird, und nur Werte mit jenem Vorzeichen berücksichtigt werden, die Hindernissen entsprechen.