WO2007107315A1

WO2007107315A1 - Multisensorieller hypothesen-basierter objektdetektor und objektverfolger

Info

Publication number: WO2007107315A1
Application number: PCT/EP2007/002411
Authority: WO
Inventors: Otto Löhlein; Werner Ritter; Axel Roth; Roland Schweiger
Original assignee: Daimler Ag
Priority date: 2006-03-22
Filing date: 2007-03-19
Publication date: 2007-09-27
Also published as: US20090103779A1; EP2005361A1

Abstract

Es wird ein Verfahren zur multisensoriellen Objekterkennung gezeigt, welches Sensorinformationen aus mehreren unterschiedlichen Sensorsignalströmen mit unterschiedlichen Sensorsignaleigenschaften gemeinsam auswertet. Zur Auswertung werden die wenigstens zwei Sensorsignalströme dabei nicht aneinander angepasst und/oder aufeinander abgebildet, sondern in jedem der wenigstens zwei Sensorsignalströme Objekthypothesen generiert und auf der Grundlage dieser Objekthypothesen Merkmale für wenigstens einen Klassifikator generiert. Die Objekthypothesen werden anschließend mittels eines Klassifikators bewertet und einer oder mehreren Klassen zugeordnet, wobei wenigstens zwei Klassen definiert sind und einer der beiden Klassen Objekte zuzuordnen sind,

Description

MuItisensorieller Hypothesen-basierter Objektdetektor und Objektverfolger

[0001] Die Erfindung betrifft ein Verfahren zur multisensoriellen Objekterkennung .

[0002] Die rechnerbasierte Auswertung von Sensorsignalen zur Objekterkennung und Objektverfolgung ist bereits aus dem Stand der Technik bekannt. Beispielsweise sind Fahrerassistenzsysteme für Straßenfahrzeuge erhältlich, welche vorausfahrende Fahrzeuge mittels Radar erkennen und nach verfolgen, um z.B. die Geschwindigkeit und den Abstand des eigenen Fahrzeugs zum vorausfahrenden Verkehr automatisch zu regeln. Für den Einsatz im Fahrzeugumfeld sind darüber hinaus unterschiedlichste Arten von Sensoren, wie z.B. Radar, Laser- und Kamerasensoren bereits bekannt . Diese Sensoren sind in ihren Eigenschaften sehr unterschiedlich und besitzen unterschiedliche Vor- und Nachteile. Beispielsweise unterscheiden sich derartige Sensoren in ihrem Auflösungsvermögen oder in der spektralen Empfindlichkeit. Besonders vorteilhaft wäre es daher, falls mehrere unterschiedliche Sensoren gleichzeitig in einem Fahrerassistenzsystem zum Einsatz kommen würden. Ein multisensorieller Einsatz ist derzeit jedoch kaum möglich, da sich mittels unterschiedlicher Arten von Sensoren erfasste Größen nur mit erheblichem Aufwand bei der Signalauswertung direkt vergleichen oder in geeigneter Weise kombinieren lassen. [0003] Bei den aus dem Stand der Technik bekannten Systemen werden daher die einzelnen Sensorströme zunächst aneinander angepasst, bevor diese miteinander fusioniert werden. Beispielsweise werden die Bilder zweier Kameras mit unterschiedlichem Auflösungsvermögen zunächst in aufwendiger Weise pixelgenau aufeinander abgebildet und erst dann miteinander fusioniert.

[0004] Der Erfindung liegt daher die Aufgabe zu Grunde ein Verfahren zur multisensoriellen Objekterkennung zu schaffen, womit Objekte auf eine einfache und zuverlässige Weise erkannt und verfolgt werden können.

[0005] Die Aufgabe wird gemäß der Erfindung durch ein Verfahren mit den Merkmalen des Patentanspruchs 1 gelöst . Vorteile Ausgestaltungen und Weiterbildungen werden in den Unteransprüchen aufgezeigt .

[0006] Gemäß der Erfindung wird ein Verfahren zur multisensoriellen Objekterkennung bereitgestellt, wobei Sensorinformationen aus wenigstens zwei unterschiedlichen Sensorsignalströmen mit unterschiedlichen

Sensorsignaleigenschaften zur gemeinsamen Auswertung herangezogen werden. Die Sensorsignalströme werden dabei zur Auswertung nicht aneinander angepasst und/oder aufeinander abgebildet. Anhand der wenigstens zwei Sensorsignalströme werden zunächst Objekthypothesen generiert und auf der Grundlage dieser Objekthypothesen werden sodann Merkmale für wenigstens einen Klassifikator generiert. Die Objekthypothesen werden anschließend mittels dem wenigstens einen Klassifikator bewertet und einer oder mehreren Klassen zugeordnet. Dabei sind wenigstens zwei Klassen definiert, wobei einer der beiden Klassen Objekte zuzuordnen sind. Mit dem erfindungsgemäßen Verfahren wird somit eine einfache und zuverlässige Objekterkennung erst möglich. Eine aufwendige Anpassung unterschiedlicher Sensorsignalströme aneinander bzw. eine Abbildung aufeinander entfällt hierbei in besonders gewinnbringender Weise komplett . Im Rahmen des erfindungsgemäßen Verfahrens werden die Sensorinformationen aus den wenigstens zwei Sensorsignalströmen vielmehr direkt miteinander kombiniert bzw. miteinander fusioniert. Dadurch wird die Auswertung deutlich vereinfacht und kürzere Rechenzeiten sind möglich. Dadurch dass keine zusätzlichen Schritte für die Anpassung der einzelnen Sensorsignalströme benötigt werden, wird die Anzahl möglicher Fehlerquellen bei der Auswertung minimiert .

[0007] Die Objekthypothesen können entweder eindeutig einer Klasse zugeordnet werden, oder sie werden mehreren Klassen zugeordnet, wobei die jeweilige Zuordnung mit einer Wahrscheinlichkeit belegt ist.

[0008] In einer gewinnbringenden Weise werden die Objekthypothesen unabhängig voneinander einzeln in jedem Sensorsignalstrom generiert, wobei die Objekthypothesen unterschiedlicher Sensorsignalströme sodann über Zuordnungsvorschriften einander zuordenbar sind. Zunächst werden dabei in jedem Sensorsignalstrom mittels Suchfenstern in einem zuvor definierten 3D-Zustandsraum, welcher durch physikalische Größen Aufgespannt wird, die Objekthypothesen generiert. Aufgrund des definierten 3D-Zustandsraums sind die in den einzelnen Sensorsignalströmen generierten Objekthypothesen später einander zuordenbar. Beispielsweise werden die Objekthypothesen aus zwei unterschiedlichen Sensorsignalströmen später bei der sich anschließenden Klassifikation paarweise klassifiziert, wobei eine Obj-ekt-hypot-hese—aus—einem—Such-fens-terpaar—gebildet—wird— Falls mehr als zwei Sensorsignalströme vorhanden sind, wird dem entsprechend aus jedem Sensorsignalstrom jeweils ein Suchfenster herangezogen und daraus eine Objekthypothese gebildet, welche sodann zur gemeinsamen Auswertung an den Klassifikator übergeben wird. Bei den physikalischen Größen zum Aufspannen des 3D-Zustandsraums kann es sich beispielsweise um eine oder mehrere Komponente (n) der Objektausdehnung, einen Geschwindigkeits- und/oder Beschleunigungsparameter, um eine Zeitangabe usw. handeln. Der Zustandsraum kann dabei auch höher dimensional ausgestaltet sein.

[0009] In einer weiteren gewinnbringenden Weise der Erfindung werden Objekthypothesen in einem Sensorsignalstrom (Primärstrom) generiert und die Objekthypothesen des Primärstroms sodann in andere Bildströme (Sekundärströme) projiziert, wobei eine Objekthypothese des Primärstroms eine oder mehrere Objekthypothesen im Sekundärstrom erzeugt. Bei der Verwendung eines Kamerasensors werden die Objekthypothesen im Primärstrom dabei beispielsweise anhand eines Suchfensters innerhalb der mittels des Kamerasensors aufgezeichneten Bildaufnahmen generiert . Die im Primärstrom generierten Objekthypothesen werden anschließend rechnerisch in einen oder mehrere andere Sensorströme projiziert. In einer weiteren vorteilhaften Weise basiert die Projektion von Objekthypothesen des Primärstroms in einen Sekundärstrom dabei auf den verwendeten Sensormodellen und/oder der Positionen von Suchfenstern innerhalb des Primärstroms bzw. auf der Epipolargeometrie der verwendeten Sensoren. Bei der Projektion können in diesem Zusammenhang auch Mehrdeutigkeiten entstehen. Eine Objekthypothese/Suchfenster des Primärstroms generiert, z.B. aufgrund unterschiedlicher Objektabstände der einzelnen Sensoren, mehrere -Ob^~j^~e^~kthypot-hesen-/-Suchfenst_e_r im Sekundärstrom. Die damit generierten Objekthypothesen werden sodann vorzugsweise paarweise dem Klassifikator übergeben. Wobei jeweils Paare aus der Objekthypothese des Primärstroms und jeweils einer Objekthypothese des Sekundärstroms gebildet werden und sodann dem Klassifikator übergeben werden. Es besteht aber auch die Möglichkeit, dass neben der Objekthypothese des Primärstroms auch alle in den Sekundärströmen generierten Objekthypothesen oder Teile davon dem Klassifikator übergeben werden.

[0010] Im Zusammenhang mit der Erfindung werden Objekthypothesen in gewinnbringender Weise durch deren Objekttyp, Objektposition, Objektausdehnung, Objektorientierung, Objektbewegungsparameter wie Bewegungsrichtung und Geschwindigkeit,

Objektgefahrenpotential oder einer beliebigen Kombination daraus beschrieben werden. Es kann sich darüber hinaus auch um beliebige weitere Parameter handeln, welche die Objekteigenschaften beschreiben. Beispielsweise einem Objekt zugeordnete Geschwindigkeits- und/oder Beschleunigungswerte. Dies ist insbesondere dann von Vorteil, falls das erfindungsgemäße Verfahren neben der reinen Objekterkennung zusätzlich zur Objektnachverfolgung eingesetzt wird und die Auswertung ein Tracking mit umfasst .

[0011] In einer weiteren vorteilhaften Weise der Erfindung werden Objekthypothesen in einem physikalischen Suchraum zufällig gestreut oder in einem Raster erzeugt. Beispielsweise werden Suchfenster mit einer vorgegebenen Schrittweite innerhalb des Suchraums anhand eines Rasters variiert. Es besteht aber auch die Möglichkeit, dass Suchfenster nur innerhalb von vorbestimmten Bereichen des Zustandsraums an denen Objekte mit hoher Wahrscheinlichkeit auftreten eingesetzt werde und damit Objekthypothesen generieri werden. Außerdem können die Objekthypothesen in einem physikalischen Suchraum auch durch ein physikalisches Modell entstanden sein. Der Suchraum kann durch externe Vorgaben wie Öffnungswinkel, Entfernungsbereiche, statistische Kenngrößen, die lokal im Bild gewonnen werden, und/oder Messungen anderer Sensoren adaptiv eingeschränkt werden .

[0012] Im Zusammenhang mit der Erfindung basieren die unterschiedlichen Sensorsignaleigenschaften in den Sensorsignalströmen im Wesentlichen auf unterschiedlichen Positionen und/oder Orientierungen und/oder Sensorgrößen der verwendeten Sensoren. Neben Positions- und/oder Orientierungsabweichungen oder einzelnen Komponenten davon verursachen hauptsächlich Abweichungen bei den verwendeten Sensorgrößen unterschiedliche Sensorsignaleigenschaften in den einzelnen Sensorsignalströmen. Beispielsweise verursachen Kamerasensoren mit einem unterschiedlichen Auflösungsvermögen unterschiede in den Größen bei den Bildaufnahmen. Auch werden häufig aufgrund unterschiedlicher Kameraoptiken unterschiedlich große Bildbereiche erfasst . Weiterhin können z.B. die physikalischen Eigenschaften der Kamerachips völlig unterschiedlich sein, sodass beispielsweise eine Kamera Umgebungsinformationen im sichtbaren Wellenlängenspektrum und eine weitere Kamera Umgebungsinformationen im Infraroten Spektrum erfasst, wobei die Bildaufnahmen ein völlig unterschiedliches Auflösungsvermögen aufweisen können.

[0013] Im Rahmen der Auswertung besteht in vorteilhafter Weise die Möglichkeit, dass jede Objekthypothese einzeln für sich klassifiziert wird und die Ergebnisse der einzelnen Klassifikationen kombiniert werden, wobei wenigstens ein Klassifikator vorgesehen ist. Falls mehrere Klassifikatoren zum Einsatz kommen, kann dabei z.B. für jede unterschiedliche

Art—von—Θbj-ekt—-j-ewe-i-1-s—ein—K-lassif-ikat.or viox.ge.sjehen sein.

Falls lediglich ein Klassifikator vorgesehen ist, wird zunächst jede Objekthypothese mittels des Klassifikators klassifiziert und sodann die Ergebnisse mehrerer einzelner Klassifikationen zu einem Gesamtergebnis kombiniert. Hierzu sind dem Fachmann auf dem Gebiet der Mustererkennung und Klassifikation unterschiedliche Auswertestrategien bekannt. Bei einer weiteren vorteilhaften Weise der Erfindung ist es jedoch auch möglich, dass in dem wenigstens einen Klassifikator Merkmale von Objekthypothesen unterschiedlicher Sensorsignalströme gemeinsam bewertet und zu einem Klassifikationsergebnis zusammengefasst werden. Für die zuverlässige Erkennung eines bestimmten Objekts muss hierbei beispielsweise eine vorbestimmte Anzahl an Objekthypothesen eine Mindestwahrscheinlichkeit bei der Klassenzugehörigkeit zu dieser bestimmten Objektklasse erreichen. Auch sind dem Fachmann auf dem Gebiet der Mustererkennung und Klassifikation in diesem Zusammenhang unterschiedlichste Auswertestrategien bekannt .

[0014] Weiterhin ist es von großem Vorteil, falls das Raster, in welchem die Objekthypothesen erzeugt werden, in Abhängigkeit des Klassifikationsergebnisses adaptiv angepasst wird. Beispielsweise wird die Rasterweite in Abhängigkeit des Klassifikationsergebnisses adaptiv angepasst, wobei Objekthypothesen nur an den Rasterpunkten generiert werden bzw. Suchfenster nur an Rasterpunkten positioniert werden. Falls Objekthypothesen zunehmend keiner Objektklasse zugeordnet werden oder gar keine Objekthypothesen generiert werden, wird die Rasterweite vorzugsweise kleiner gewählt. Im Gegensatz dazu wird die Rasterweite größer gewählt falls Objekthypothesen zunehmend einer Objektklasse zugeordnet werden bzw. die Wahrscheinlichkeit für eine Objektklassenzugehörigkeit steigt. Auch ist in diesem Zusammenhang ein Einsatz einer hierarehi.s.chen. Struktur—f-ür- das Hypothesenraster möglich. Außerdem kann das Raster in Abhängigkeit des Klassifikationsergebnisses eines vorangegangenen ZeitSchrittes adaptiv angepasst werden, eventuell unter Berücksichtigung eines dynamischen Systemmodells .

[0015] In einer weiteren vorteilhaften Weise wird das Auswerteverfahren, mittels welchem die Objekthypothesen bewertet werden, in Abhängigkeit von wenigstens einer vorangegangenen Bewertung automatisch angepasst wird. Hierbei wird beispielsweise lediglich das zuletzt vorangegangene Klassifikationsergebnis oder aber mehrere vorangegangene Klassifikationsergebnisse berücksichtigt. Beispielsweise werden hierbei lediglich einzelne Parameter eines Auswerteverfahren und/oder aus mehreren Auswerteverfahren ein geeignetes Auswerteverfahren ausgewählt. Grundsätzlich sind in diesem Zusammenhang die unterschiedlichsten Auswerteverfahren möglich, welche beispielsweise auf statistischen und/oder modellbasierten Ansätzen beruhen können. Die Art der für die Auswahl zur Verfügung gestellten Auswerteverfahren hängt dabei auch von der Art der eingesetzten Sensoren ab.

[0016] Weiterhin besteht auch die Möglichkeit, dass in Abhängigkeit des Klassifikationsergebnisses sowohl das Raster adaptiv angepasst wird, als auch das für die Bewertung herangezogene Auswerteverfahren angepasst wird. Das Raster wird in einer gewinnbringenden Weise nur an den Positionen im Suchraum verfeinert, wo die Wahrscheinlichkeit oder Bewertung für das Vorhandensein von Objekten hoch genug ist, wobei die Bewertung aus den letzten Rasterstufen abgeleitet wird.

[0017] Die unterschiedlichen Sensorsignalströme können zei-tgie-i-eh-₇—a-be-r—auch_zei_tv_ers_e£,zt verwendet werden. Genauso kann in vorteilhafter Weise auch ein einzelner Sensorsignalstrom gemeinsam mit wenigstens einer zeitversetzten Version desselben verwendet werden.

[0018] Das erfindungsgemäße Verfahren kann außer zur Objekterkennung auch zur Verfolgung von erkannten Objekten verwendet werden.

[0019] Das erfindungsgemäße Verfahren kann insbesondere zur Umgebungserfassung und/oder Objektverfolgung bei einem Straßenfahrzeug verwendet werden. Beispielsweise eignet sich für den Einsatz bei einem Straßenfahrzeug eine Kombination aus einer im sichtbaren Wellenlängenspektrum empfindlichen Farbkamera und einer im infraroten Wellenlängenspektrum empfindlichen Kamera. Damit können bei Nacht einerseits Personen und andererseits die farbigen Signalleuchten von Verkehrsampeln im Umfeld des Straßenfahrzeugs auf zuverlässige Weise erfasst werden. Die von den beiden Sensoren gelieferten Informationen werden dabei mit dem erfindungsgemäßen Verfahren zur multisensoriellen Objekterkennung ausgewertet, um beispielsweise darin enthaltene Personen zu erkennen und nachzuverfolgen. Die Sensorinformationen werden dem Fahrer dabei vorzugsweise auf einer im Fahrzeugcockpit angeordneten Anzeigeeinheit in der Form von Bilddaten präsentiert, wobei Personen und Signalleuchten von Ampelanlagen in den angezeigten Bildinformationen hervorgehoben sind. Für den Einsatz bei einem Straßenfahrzeug eignen sich im Zusammenhang mit dem erfindungsgemäßen Verfahren als Sensoren neben Kameras vor allem auch Radar- und Lidarsensoren. Das Erfindungsgemäße verfahren ist darüber hinaus für den Einsatz unterschiedlichster Arten von Bildsensoren und beliebigen anderen aus dem Stand der Technik bekannten Sensoren g^eϊgϊτet^~ [0020] Weitere Merkmale und Vorteile der Erfindung ergeben sich aus der folgenden Beschreibung von bevorzugten Ausführungsbeispielen anhand der Figuren. Dabei zeigen:

Fig. 1 links eine mittels einer NIR-Kamera und rechts eine mittels einer FIR-Kamera erfasste Umgebungsszene Fig. 2 eine suboptimale Zuordnung zweier Sensorsignalströme Fig. 3 die Merkmalsbildung im Zusammenhang mit einem

Multistrom-Detektor

Fig. 4 die geometrische Bestimmung des Suchraumes Fig. 5 eine resultierende Hypothesenmenge bei einem

Einzelstrom-Hypothesengenerator

Fig. 6 die Epipolargeometrie eines Zweikamerasystems Fig. 7 die Epipolargeometrie am Beispiel einer

Fußgängerdetektion Fig. 8 die Ursache für Skalierungsunterschiede in

Korrespondenzsuchfenstern Fig. 9 resultierende Korrespondenzen im NIR-BiId für ein

Suchfenster im FIR-BiId

Fig. 10 die Relaxation der Korrespondenzbedingung Fig. 11 Korrespondenzfehler zwischen Label- und

Korrespondenzsuchfenster

Fig. 12 wie Multistrom-Hypothesen entstehen Fig. 13 Vergleich von Detektionsraten bei unterschiedlicher

Rasterweite Fig. 14 die Detektorantwort in Abhängigkeit der erreichten

Detektionsstufe

Fig. 15 eine Grob-Zu-Fein-Suche im eindimensionalen Fall Fig. 16 beispielhaft die Nachbarschaftsdefinition Fig. 17 einen Hypothesenbaum

[0021] In der Figur 1 ist links eine mittels einer NIR-Kamera

_und rechts- e-i-ne- -mi-trfee-1-s- einer FTR-^Kamera erf^'a^~s^~ste^"~

Umgebungsszene dargestellt. Die beiden Kamerasensoren und die damit aufgezeichneten Intensitätsbilder unterscheiden sich dabei stark. Das auf der linken Seite gezeigte NIR-BiId weist eine hohe Varianz in Abhängigkeit der Beleuchtungsverhältnisse und Oberflächeneigenschaften auf. Dem entgegen sind die von der FIR-Kamera erfassten Wärmestrahlen, welche im rechten Teilbild dargestellt sind, fast ausschließlich direkte Emissionen der Objekte. Gerade Fußgänger erzeugen durch ihre Eigenwärme eine ausgeprägte Signatur in Wärmebildern und heben sich in Landstraßenszenarien stark vom Hintergrund ab. Diesem offensichtlichen Vorteil des FIR-Sensors steht aber dessen Auflösung gegenüber: Sie ist in X- und Y-Richtung jeweils um den Faktor 4 kleiner als die der NIR-Kamera. Durch diese grobe Abtastung gehen wichtige hochfrequente Signalanteile verloren. Beispielsweise hat ein Fußgänger in 50m Entfernung im FIR-BiId nur noch eine Höhe von 10 Pixeln. Auch die Quantisierung unterscheidet sich dabei, wobei beide Kameras zwar 12 Bit Grauwertbilder liefern, jedoch erstreckt sich der für die Detektionsaufgäbe relevante Dynamikbereich bei der NIR-Kamera auf 9 Bit und bei der FIR-Kamera auf nur 6 Bit. Daraus resultiert ein 8-fach größerer Quantisierungsfehler. Bei dem NIR-Kamerabild sind Objektstrukturen gut zu erkennen, die Abbildung ist dabei abhängig von Beleuchtung und Oberflächenstruktur und es weist eine hohe Intensitätsvarianz auf. Im Gegensatz dazu sind bei dem FIR-Kamerabild Objektstrukturen schlecht zu erkennen, die Abbildung ist hierbei von Emissionen abhängig, wobei sich der Fußgänger vom kalten Hintergrund deutlich abhebt. Aufgrund der Tatsache, dass beide Sensoren verschiedenartige Vorteile aufweisen, und zwar geradeso, dass die Stärken des einen die Schwächen des anderen sind, ist der Einsatz dieser Sensoren im Zusammenhang bei dem erfindungsgemäßen Verfahren besonders vorteilhaft. Dabei lassen sich die Vorteile beider Sensoren in einem. Klassifikator vereinen, welcher die Detektionsleistung von Einzelstrom-Klassifikatoren deutlich übertrifft.

[0022] Der Begriff Sensorfusion bezeichnet die Nutzung mehrerer Sensoren und die Erzeugung einer gemeinsamen Repräsentation. Das Ziel ist dabei, die Genauigkeit der gewonnenen Informationen zu erhöhen. Bezeichnend ist hierbei die Vereinigung von Messdaten in einem perzeptuellen System. Die Sensorintegration dagegen bezeichnet die Nutzung verschiedener Sensoren für mehrere Teilaufgaben, wie etwa Bilderkennung zur Lokalisierung und haptische Sensorik zur nachfolgenden Manipulation mit Aktoren.

[0023] Fusionsansätzen lassen sich anhand ihrer resultierenden Repräsentationen in Kategorien einteilen. Es werden dabei beispielsweise folgende vier Fusionsebenen unterschieden :

• Fusion auf Signalebene: Hierbei werden direkt die Rohsignale betrachtet. Ein Beispiel ist die Lokalisierung von akustischen Quellen aufgrund von Phasenverschiebungen.

• Fusion auf Pixelebene: Im Gegensatz zur Signalebene wird der räumliche Bezug von Pixeln zu Objekten im Raum betrachtet. Beispiele sind Extraktion von Tiefeninformation mit Stereokameras oder auch die Berechnung des optischen Flusses in Bildfolgen.

• Fusion auf Merkmalsebene: Bei der Fusion auf Merkmalsebene werden unabhängig Merkmale beider Sensoren extrahiert. Diese werden z.B. in einem Klassifikator oder einem Lokalisierungsverfahren kombiniert . • Fusion auf Symbolebene: Symbolische Repräsentationen sind beispielsweise Wörter oder Sätze bei der Spracherkennung. Durch Grammatiken entstehen logische Beziehungen zwischen Wörtern. Diese wiederum können die Interpretation von akustischen und visuellen Signalen steuern.

[0024] Eine weitere Form der Fusion ist die Klassifikatorfusion. Hierbei werden die Ergebnisse mehrerer Klassifikatoren vereint . Dabei sind die Datenquellen oder die Sensoren nicht zwingend verschieden. Das Ziel ist es hierbei, den Klassifikationsfehler durch Redundanz zu verkleinern. Entscheidend ist, dass die Einzelklassifikatoren möglichst unkorrelierte Fehler aufweisen. Einige Methoden zur Fusion von Klassifikatoren sind beispielsweise:

• Gewichtete Mehrheitsentscheidung: Ein einfaches Prinzip ist die Mehrheitsentscheidung, also die Wahl der Klasse die von den meisten Klassifikatoren ausgegeben wurde. Jeder Klassifikator kann entsprechend seiner Zuverlässigkeit gewichtet werden. Mittels Lerndaten können ideale Gewichte ermittelt werden.

• Bayes-Kombination: Für jeden Klassifikator kann eine Konfusionsmatrix berechnet werden. Das ist eine Verwechslungsmatrix, die die Häufigkeit von allen Klassifikatorergebnissen für jede tatsächliche Klasse angibt. Mit ihr können bedingte Wahrscheinlichkeiten für resultierende Klassen approximiert werden. Nun werden alle Klassifikationen mit Hilfe des Bayes-Theorems auf Wahrscheinlichkeiten für Klassenzugehörigkeiten abgebildet. Als Endresultat wird sodann das Maximum gewählt.

• Stacked Generalizatioju_j3le__I_dee_j3_eji. di.esem_Ansatz_ist—die_

Verwendung der Klassifikatorergebnisse als Eingänge bzw. Merkmale eines weiteren Klassifikators . Der weitere Klassifikator kann dabei mit dem Vektor der Ergebnisse und dem Label des ersten Klassifikators trainiert werden.

[0025] Mögliche Fusionskonzepte bei der Detektion von Fußgängern sind die Detektorfusion und eine Fusion auf Merkmalsebene. Es existieren bereits akzeptable Lösungen für das Detektionsproblem mit nur einem Sensor, daher ist eine Kombination durch Klassifikatorfusion möglich. Bei dem hier betrachteten Fall mit zwei Klassifikatoren und einem Zweiklassenproblem führt eine Fusion durch gewichtete Mehrheitsentscheidung oder Bayes-Kombination entweder zu einer einfachen Und-Operation oder zu einer Oder-Operation der Einzeldetektoren. Die Und-Verknüpfung hat zur Folge, dass sich (bei gleicher Parametrisierung) die Zahl der Detektionen und damit die Detektionsrate nur verkleinern können. Bei einer Oder-Verknüpfung kann die Falschalarmrate nicht besser werden. Wie sinnvoll die jeweiligen Verknüpfungen sind, kann mit der Bestimmung der Konfusionsmatrizen und Analyse der Korrelationen ermittelt werden. Es kann aber eine Aussage über den entstehenden Aufwand gemacht werden: Im Falle der Oder-Verknüpfung müssen die Bilder beider Ströme abgetastet werden, der Aufwand ist mindestens die Summe des Aufwands beider Einzelstrom-Detektoren. Alternativ zur Und- bzw. Oder- Verknüpfung kann das Detektorergebnis des Kaskadenklassifikators als Rückschlusswahrscheinlichkeit interpretiert werden, indem die erreichte Stufe und die letzte Aktivierung auf eine Detektionswahrscheinlichkeit abgebildet werden. Damit lässt sich eine Entscheidungsfunktion auf nicht -binären Werten definieren. Eine andere Möglichkeit sieht vor, den einen Klassifikator zur Aufmerksamkeitssteuerung und den anderen Klassifikator zur_ Detektion zu nutzen. Ersterer sollte so parametrisiert sein, dass die Detektionsrate (zu Lasten de^~r^~Fa-1-sch-aia-rmr-ate-)— hoch ist. Dadurch reduziert sich möglicherweise die Datenmenge des detektierenden Klassifikators, sodass diese leichter zu klassifizieren ist. Eine Fusion auf Merkmalsebene bietet sich hauptsächlich wegen der Verfügbarkeit von Boosting-Verfahren an. Die konkrete Kombination von Merkmalen aus beiden Strömen kann also mit der bereits genutzten Methode automatisiert auf Basis der Trainingsdaten geschehen. Das Resultat stellt näherungsweise eine optimale Wahl und Gewichtung der Merkmale aus beiden Strömen dar. Ein Vorteil ist hierbei der erweiterte Merkmalsraum. Sind bestimmte Teilmengen der Daten jeweils nur in einem der Einzelstrom- Merkmalsräume leicht zu trennen, dann kann durch die Kombination eine Trennung aller Daten vereinfacht werden. Beispielsweise ist im NIR-BiId die Fußgängersilhouette gut zu erkennen, dagegen ist im FIR-BiId ein beleuchtungsunabhängiger Kontrast zwischen Fußgänger und Hintergrund abgebildet. In der Praxis hat sich gezeigt, dass mit der Fusion auf Merkmalsebene die Zahl der notwendigen Merkmale drastisch gesenkt werden kann.

[0026] Nachfolgend wird die Architektur des verwendeten MuItistromklassifikators beschrieben. Für die Erweiterung des Einzelstrom-Klassifikators zum Multistrom-Klassifikator ist es erforderlich, dass viele Teile der Klassifikatorarchitektur überarbeitet werden. Eine Ausnahme ist dabei der Kernalgorithmus z.B. AdaBoost, welcher nicht notwendigerweise modifiziert werden muss. Dennoch können einige implementierungstechnische Optimierungen vorgenommen werden, welche die Dauer eines NIR-Trainingslaufes mit einer vorbestimmten Parametrisierung um ein Vielfaches senken. Es wird dabei die vollständige Tabelle der Merkmalswerte für alle Beispiele im Speicher gehalten. Ein weiterer Punkt ist die Optimierungen bei der Beispielgenerierung . Damit konnten beim praktischen Einsatz TrainingsTäufe πdrt 1^"& Sequen-z-en i-n ca. 24 Stunden beendet werden. Vor dieser Optimierung dauerte ein Training mit nur drei Sequenzen zwei Wochen. Die Integration von weiteren Strömen in die Anwendung erfolgt im Zuge eines Redesigns der Implementierungen. Bei der Erweiterung des Hypothesengenerators sind dabei die meisten Modifikationen und Innovationen nötig.

[0027] Im Folgenden werden die wesentlichen Erweiterungen hinsichtlich der Datenvorverarbeitung beschrieben. Der resultierende Detektor soll in Form eines Echtzeitsystems und mit Live-Daten der beiden Kameras zur Anwendung kommen. Für das Training werden gelabelte Daten herangezogen. Dafür steht eine umfangreiche Datenbank mit Sequenzen und Labels zur Verfügung, welche Landstraßenszenen mit am Straßenrand laufenden Fußgängern, Autos und Radfahrern beinhalten. Zwar zeichnen die Beiden verwendeten Sensoren ca. 25 Bildern pro Sekunde auf, die zeitliche Abtastung erfolgt dabei jedoch hardwarebedingt asynchron, die Zeitpunkte beider Aufnahmen sind dabei unabhängig. Wegen Schwankungen .bei den Aufnahmezeitpunkten ist sogar eine deutliche Differenz der Bilderanzahl der beiden Kameras für eine Sequenz üblich. Eine Anwendung des Detektors ist nicht möglich, sobald auch nur ein Merkmal nicht zur Verfügung steht . Würde man beispielsweise bei fehlenden Merkmalen die jeweiligen Terme in der Stronglearnergleichung durch Nullen ersetzen, ist das Verhalten Undefiniert. Dies macht das sequenzielle Abarbeiten der einzelnen Bilder der Multistrom-Daten unmöglich und verlangt sowohl für das Training als auch für die Anwendung eines Mulistrom-Detektors eine Synchronisierung der Sensordatenströme. In diesem Fall müssen also Bildpaare gebildet werden. Da die Aufnahmezeitpunkte der Bilder eines Paares nicht exakt gleich sind, ist jeweils ein anderer Zustand der Umgebung abgejoildet__i__p_._h die- Bos-i-fe-i-βn—des^¬ Fahrzeugs und die des Fußgängers ist jeweils eine andere. Um jeglichen Einfluss der Umgebungsdynamik zu minimieren, müssen die Bildpaare so gebildet werden, dass die Differenzen der beiden ZeitStempel minimal werden. Wegen der erwähnten unterschiedlichen Anzahl Messungen pro Zeiteinheit müssen entweder Bilder aus einem Strom mehrmals verwendet werden, oder es werden Bilder ausgelassen. Zwei Gründe sprechen für die letztere Methode: Erstens minimiert sie die durchschnittliche Zeitstempeldifferenz und zweitens würde die Mehrfachverwendung im Onlinebetrieb zu gelegentlichen Spitzen beim Rechenaufwand führen. Der nachfolgende Algorithmus beschreibt die Datensynchronisierung:

I Gegeben : 2

3 Bildsequenzen I_s(i) für jeden Strom s ^e {l, 2}

4

5 Zeitstempel t_s(i) für alle Bilder für jeden Strom s

6

7 Erwartete Zeitstempeldifferenz E(t_s(i + l)-t_s(i)) für jeden Strom s 8 9 Größte erwartete Zeitstempeldifferenz-Abweichung ^ε _s für jeden Strom s 10

II Initialisierung : 12

13 Beginne mit den ersten Bildern der Ströme: 14

15 i = 1

16 j = 1 17 P = O 18

19 Algorithmus : -20 21 Solange die Bilder I l ( i) und 12 (j ) existieren : 22

23 Wenn It₁(D - t₂(j)| > min_s ( ^~ (E (t_s (i+1) -t_s (i) ) + ^₈))

24

25 Wenn t₁(±) < t2 (j)

26 i = i + 1

27 Sonst

28 j = j + 1

29 Sonst 30

31 Bilde ein Paar (i,j) : 32

33 P = P^ (i, j)

34 i = i + 1

35 j = j + 1 36

37 Ergebnis :

38

39 Bildpaare P

Hierbei sollte ^ε ₃ in Abhängigkeit der Verteilung von t_s (i+1) -t_s (i) gewählt werden und etwa 3^σ betragen. Bei kleinen ^₃ besteht die Möglichkeit, dass manche Bildpaare nicht gefunden werden, für große ^ε _s steigt die erwartete Zeitstempeldifferenz. Die Zuordnungsvorschrift entspricht einer Greedy-Strategie und ist damit im Allgemeinen suboptimal bezüglich der Minimierung der mittleren Zeitstempeldifferenz. Sie ist dadurch aber sowohl im Training als auch im Online-Betrieb der Anwendung einsetzbar. Für den Fall V ar(t_a(i + 1) - t_a(i)) = 0 und ^ε _s = 0 V₃ ist sie in vorteilhafter Weise optimal .

[-0Θ2-8-]—I-n—der E-igur__2__wird__beispielhaft eine suboptimale

Zuordnung zweier Sensorsignalströme gezeigt. Hierbei ist insbesondere das Ergebnis des zuvor gezeigten Zuordnungsalgorithmus dargestellt. In diesem Beispiel ist die Zuordnung suboptimal bezüglich der Minimierung der mittleren Zeitstempeldifferenz. Der Zuordnungsalgorithmus ist in dieser Form für die Anwendung einsetzbar, es entstehen in vorteilhafter Weise keine Verzögerungen durch Warten auf potentielle Zuordnungskandidaten.

[0029] Das Konzept für das Suchfenster spielt bei der Merkmalsbildung eine zentrale Rolle, insbesondere bei der Erweiterung des Detektors für den multisensoriellen Einsatz, wobei mehrere Sensorsignalströme vorhanden sind. Bei einem Einzelstrom-Detektor besteht die Lokalisation aller Objekte in einem Bild aus der Untersuchung einer Menge an Hypothesen. Eine Hypothese steht dabei für eine Position und Skalierung des Objekts im Bild. Daraus ergibt sich das Suchfenster, also der Bildausschnitt, welcher für die Merkmalsberechnung herangezogen wird. Im Multistrom-Fall besteht eine Hypothese aus einem Suchfenster-Paar, also aus je einem Suchfenster in jedem Strom. Dabei ist zu beachten, dass für ein einzelnes Suchfenster im einen Strom aufgrund des Parallaxenproblems verschiedene Kombinationen mit Suchfenstern im anderen Strom auftreten können. Somit kann sich eine sehr große Anzahl an Multistrom-Hypothesen ergeben. Eine Hypothesengenerierung für beliebige Kameraanordnungen wird im weiteren Verlauf noch aufgezeigt. Die Klassifikation basiert auf Merkmalen aus zwei Suchfenstern, wie dies anhand der Figur 3 verdeutlicht wird. Die Figur 3 zeigt dabei die Merkmalsbildung im Zusammenhang mit einem Multistrom-Detektor . Eine Multistrom-Merkmalsmenge entspricht der Vereinigung der beiden Merkmalsmengen, die sich für die Einzelstrom-Detektoren ergeben. Ein Multistrom- Merkmal ist definiert durch Filtertyp, Position, Skalierung und Sensorström. Im NIR-Suchfenster können aufgrund der höheren Bildauflösung kleinere Filter verwendet werden—ais—i-m- PIR-Suchfenster . Die Zahl der NIR-Merkmale ist somit höher als die Zahl der FIR-Merkmale . Bei diesem Ausführungsbeispiel wurden ca. 7000 NIR-Merkmale und ca. 3000 FIR-Merkmale verwendet .

[0030] In einer vorteilhaften Weise werden während des Trainingsprozesses kontinuierlich neue Trainingsbeispiele gewählt. Vor dem Training mittels jeder Klassifikatorstufe wird unter Verwendung aller bereits trainierten Stufen eine neue Beispielmenge erzeugt. Im Multistrom-Training bestehen die Trainingsbeispiele wie die Hypothesen aus einem Suchfenster in jedem Strom. Positivbeispiele ergeben sich aus Labels, welche in jedem Strom vorhanden sind. Im Zusammenhang mit automatisch generierten Negativbeispielen kommt hierbei ein Zuordnungsproblem auf: Die zufällig gewählten Suchfenster müssen konsistent bezüglich der Projektionsgeometrie des Kamerasystems sein, sodass die Trainingsbeispiele mit den Multistrom-Hypothesen der späteren Anwendung übereinstimmen. Um dies zu erreichen, wird ein spezieller Hypothesengenerator, welcher nachfolgend noch detailliert beschrieben wird, bei der Bestimmung der Negativbeispiele verwendet . Anstatt wie bisher die Position und Größe des Suchfensters von Negativbeispielen unabhängig und zufällig zu wählen, wird nun zufällig in eine Hypothesenmenge gegriffen. Dabei weist die Hypothesenmenge neben konsistenten Suchfensterpaaren eine intelligentere, auf Weltmodellen basierende Verteilung der Hypothesen im Bild auf. Auch für das Einzelstrom-Training kann dieser Hypothesengenerator eingesetzt werden. Hierbei werden die Negativbeispiele mit der gleichen Suchstrategie bestimmt, welche später bei der Anwendung des Detektors zur Hypothesengenerierung dient . Die Beispielsmenge für das Multistrom-Training besteht also aus Positiv- und Negativbeispi_el_en., welche—wiede-r-um—j-eweüs—ern- Suchfenster in beiden Strömen beinhalten. Für das Training wird beispielsweise AdaBoost eingesetzt, wobei alle Merkmale aller Beispiele berechnet werden. Bei der Merkmalsselektion ändert sich gegenüber dem Einzelstrom-Training lediglich die Zahl der Merkmale, da aufgrund ihrer Definition und der damit verbundenen Multistrom-Datenquelle abstrahiert wird.

[0031] Die Architektur einer Multistrom-Detektoranwendung ist der eines Einzelstrom-Detektors sehr ähnlich. Die erforderlichen Modifikationen am System sind zum einen Anpassungen für das generelle Handling von mehreren Sensorsignalströmen, wodurch an fast allen Stellen der Implementierung Änderungen erforderlich sind. Zum anderen wird der Hypothesengenerator erweitert . Für die Generierung von Multistrom-Hypothesen ist eine Korrespondenzbedingung für Suchfenster beider Ströme notwendig, welche auf Welt- und Kameramodellen basiert. Somit muss eine Multistrom- Kamerakalibration in die Hypothesengenerierung integriert werden. Die für Einzelstrom-Detektoren verwendete Brüte- Force-Suche im Hypothesenraum lässt sich zwar auf Multistrom- Detektoren übertragen, sie erweist sich dann aber häufig als zu ineffizient. Der Suchraum vergrößert sich dabei deutlich und die Zahl der Hypothesen vervielfacht sich. Um dennoch echtzeitfähig zu bleiben, muss die Hypothesenmenge wieder verkleinert werden und es sind intelligentere Suchstrategien erforderlich. Der im Zusammenhang mit diesem Ausführungsbeispiel verfolgte Fusionsansatz entspricht einer Fusion auf Merkmalsebene. Mittels Ada-Boost wird dabei eine Kombination aus Merkmalen beider Ströme gewählt. Auch andere Verfahren könnten hier zur Merkmalsauswahl und Fusion herangezogen werden. Die erforderlichen Änderungen am Detektor ist eine erweiterte Merkmalsmenge, eine Synchronisierung der Daten sowie die Erzeugung einer Hypothesenmenge, welche geometrische Zusammenhänge der Kameramodelle mit berücksicncig€ . [0032] Nachfolgend wird die Herleitung einer Korrespondenzvorschrift, die Suchraumabtastung und weitere gewinnbringende Optimierungen vorgestellt. Mit dem trainierten Einzelstrom-Kaskadenklassifikator werden nacheinander einzelne Suchfenster evaluiert . Der Klassifikator liefert als Ergebnis eine Aussage, ob ein Objekt in genau dieser Position und Skalierung detektiert wurde. In jedem Bild können Fußgänger an unterschiedlichen Positionen mit verschiedenen Skalierungen erscheinen. Deshalb muss bei der Verwendung des Klassifikators als Detektor in jedem Bild eine große Menge an Positionen bzw. Hypothesen geprüft werden. Diese Hypothesenmenge kann durch Unterabtastung und Suchbereichseinschränkungen reduziert werden. Damit kann der Berechnungsaufwand ohne Beeinträchtigung der Detektionsleistung vermindert werden. Aus dem Stand der Technik sind hierfür Hypothesengeneratoren für Einzelstrom-Anwendungen bereit bekannt. Bei dem im Zusammenhang mit diesem Ausführungsbeispiel vorgestellten Multistrom-Detektor werden Hypothesen über ein Suchfensterpaar, also über ein Suchfenster in jedem Strom definiert . Die Suchfenster lassen sich zwar in beiden Strömen mit zwei Einzelstrom-Hypothesengeneratoren erzeugen, die Verknüpfung zur Multistrom-Hypothesenmenge ist aber aufgrund der Parallaxe nicht trivial. Die Zuordnung von zwei Suchfenstern aus verschiedenen Strömen zu einer Multistrom- Hypothese muss dabei bestimmte geometrische Bedingungen erfüllen. Um eine Robustheit gegen Kalibrationsfehler und Dynamikeinflüsse zu erreichen, werden des Weiteren Relaxationen dieser geometrischen Korrespondenzbedingungen eingeführt. Schließlich wird eine konkrete Abtast- und Zuordnungsstrategie gewählt. Es entstehen hierbei sehr viel mehr Hypothesen als bei___Einz.els-trom=-Detek-feo-ren— Um- d±e^~ Echtzeitfähigkeit des Multistrom-Detektors zu gewährleisten, werden nachfolgend weitere Optimierungsstrategien aufgezeigt, unter anderem auch eine sehr effektive Methode zur Hypothesenreduktion über eine dynamische lokale Steuerung der Hypothesendichte, welche gleichsam auch im Zusammenhang mit Einzelstrom-Detektoren einsetzbar ist. Die einfachste Suchstrategie zum Auffinden von Objekten an allen Positionen im Bild ist das pixelweise Abtasten des gesamten Bildes in allen möglichen Suchfenstergrößen. Das ergibt bei einem Bild mit 640 x 480 Pixeln eine Hypothesenmenge mit ca. 64 Millionen Elementen. Diese Hypothesenmenge wird im Folgenden als vollständiger Suchraum des Einzelstrom-Detektors bezeichnet. Mit Hilfe einer im Folgenden beschriebenen Bereichseinschränkung auf Basis eines einfachen Weltmodells sowie einer skalierungsabhängigen Unterabtastung des Suchraums, kann die Zahl der zu untersuchenden Hypothesen in besonders vorteilhafter Weise auf ca. 320.000 reduziert werden. Grundlage für die Bereichsbeschränkung ist zum einen die sogenannte "Ground-Plane-Assumption" , die Annahme, dass die Welt eben ist, wobei sich die zu detektierenden Objekte und das Fahrzeug auf gleicher Ebene befinden. Zum anderen kann aufgrund der Objektgröße im Bild und einer Annahme bezüglich der realen Objektgröße eine eindeutige Position im Raum abgeleitet werden. Damit liegen alle Hypothesen einer Skalierung im Bild auf einer waagrechten Geraden. Beide Annahmen, also die "Ground-Plane-Assumption" sowie die bzgl . einer festen realen Objektgröße treffen in der Regel nicht zu. Die Einschränkungen werden deswegen relaxiert, so dass für die Objektposition als auch für deren Größe im Raum ein gewisser Toleranzbereich zugelassen wird, dieser Sachverhalt ist in der Figur 4 veranschaulicht. Die Relaxation der "Ground-Plane-Assumption" wird dabei durch einen Winkel ^ε angegeben, der bei diesem Ausführungsbeispiel z.B. 1° beträgt . Damit werden auch Or-i-enfe-i-erungsfehl^~e^~f iπT

Kameramodell kompensiert, welche beispielsweise durch Nickbewegungen des Fahrzeugs entstehen können. Neben der beschriebenen Bereichsbeschränkung wird durch eine skalierungsabhängige Unterabtastung die Anzahl der zu untersuchenden Hypothesen weiter reduziert. Die Schrittweite der Abtastung in u- und v-Richtung in der Figur 4 werden dabei proportional zur Hypothesenhöhe, also der Skalierung, gewählt und beträgt in diesem Beispiel etwa 5% der Hypothesenhöhe. Die Suchfensterhöhen selbst ergeben sich aus einer Reihe von Skalierungen, die beginnend mit 25 Pixeln im NIR-BiId (8 Pixel in FIR-BiId) jeweils um 5% größer werden. Diese Art der Quantisierung lässt sich mit einer Eigenschaft des Detektors motivieren, nämlich der Tatsache, dass mit der Größenskalierung der Merkmale auch die Unscharfe ihrer Lokalisation im Bild zunimmt, wie dies z.B. bei einem Haarwavelet oder ähnlichen Filtern der Fall ist. Die Merkmale sind hierbei in einem festen Raster definiert und werden entsprechend der Größe der Hypothese mitskaliert. Mit der beschriebenen Hypothesengenerierung ergibt sich in diesem Fall im NIR-BiId eine Reduktion der 64 Millionen Hypothesen des vollständigen Suchraumes auf 320.000. Im FIR-BiId sind es aufgrund der niedrigen Bildauflösung 50.000 Hypothesen, hierzu wird auch auf Figur 5 verwiesen. Für die Berücksichtigung der im dreidimensionalen Raum definierten Einschränkungen ist eine Transformation zwischen Bildkoordinaten und Weltkoordinaten notwendig. Basis dafür sind die durch die Kalibration ermittelten intrinsischen und extrinsischen Kameraparameter. Die geometrischen Zusammenhänge für die Projektion eines 3D-Punktes auf die Bildebene sind dem Fachmann auf dem Gebiet der Bildauswertung bekannt. Aufgrund der geringen Verzeichnungen bei beiden Kameras kann in diesem Ausführungsbeispiel ein Lochkameramodell verwendet werden. [0033] Die Figur 4 veranschaulicht die geometrische Bestimmung des Suchraumes. Es wird hierbei der Suchbereich dargestellt, der sich für eine feste Skalierung ergibt. Berechnet wird eine Ober- und Untergrenze für die obere Suchfensterkante im Bild. Die Grenzen (v_mi_n und v_max) ergeben sich, wenn das Objekt einmal mit der kleinsten und einmal mit der größten erwarteten Objektgröße (obj_mi_n bzw. obj_maχ) auf die Bildebene projiziert wird. Hierbei wird der Abstand (z_mi_n und Zma_x) so gewählt, dass die richtige Skalierung im Bild entsteht. Durch die relaxierte Einschränkung der Ground- Plane-Assumption liegt die räumliche Position zwischen den gestrichelt eingezeichneten Ebenen. Das kleinste und das größte Objekt werden für die Berechnung der Grenzen dabei entsprechend nach oben und unten verschoben.

[0034] In der Figur 5 wird die resultierende Hypothesenmenge des Einzelstrom-Hypothesengenerators gezeigt . Es werden hierbei Suchfenster mit quadratgitterartiger Anordnung generiert. Für verschiedene Skalierungen entstehen unterschiedliche Quadratgitter mit angepassten Gitterabständen und eigenen Bereichsbeschränkungen. Im Sinne einer übersichtlichen Darstellung wird in der Figur 5 nur ein Suchfenster für jede Skalierung sowie die Mittelpunkte aller anderen Hypothesen visualisiert . Die Darstellung ist exemplarisch, es wurden dabei große Skalierungs- und Positionsschrittweiten gewählt.

[0035] Aus den Einzelstrom-Hypothesen entstehen somit durch geeignete Paarbildung Multistrom-Hypothesen. Die Epipolargeometrie ist dabei Grundlage für die Paarbildung, womit die geometrischen Zusammenhänge beschrieben werden. In der Figur 6 wird die Epipolargeometrie eines Zweikamerasystems gezeigt Die Epipolargeomefe-rie—beschreltnr die Menge der möglichen Korrespondenzpunkte für einen Punkt in einer Bildebene. Für jeden Punkt p im Bild lassen sich Epipolarlinien und eine Epipolarebene konstruieren. Die möglichen Korrespondenzpunkte für Punkte einer Epipolarlinie in einem Bild sind dabei genau die auf der entsprechenden Epipolarlinie der anderen Bildebene. In der Figur 6 wird insbesondere die Geometrie eines Multikamerasystems mit zwei beliebig angeordneten Kameras mit den Zentren Oi ^e R³ und O₂ ^e R³ und einem beliebigen Punkt P ^e R³ gezeigt. Oi, O₂ und P spannen dabei die sogenannte Epipolarebene auf. Sie schneidet die Bildebenen in den Epipolarlinien. Die Epipole sind die Schnittpunkte der Bildebenen mit der Geraden OiO₂. 0i0₂ ist in allen Epipolarebenen aller möglichen Punkte P enthalten. Alle auftretenden Epipolarlinien schneiden sich also im jeweiligen Epipol . Die Epipolarlinien haben bei der Korrespondenzfindung die folgende Bedeutung: Für jeden Punkt p im Bild lassen sich Epipolarlinien und eine Epipolarebene konstruieren. Die möglichen Korrespondenzpunkte für Punkte einer Epipolarlinie in einem Bild sind genau die auf der entsprechenden Epipolarlinie der anderen Bildebene.

[0036] Es sei nun Punkt P ^e R³ ein Punkt im Raum. Pl, P2 ^e R³ sei die Darstellung von P in den Kamerakbordinatensystemen mit Ursprung O₁ bzw. O₂. Dann gibt es eine Rotationsmatrix R ^e R^3x3 und einen Translationsvektor T ^e R³ für die gilt:

P₂=R[P_x-T). (5.1)

R und T sind dabei durch die relativen extrinsischen Parameter des Kamerasystems eindeutig festgelegt. Pi, T und Pi- T sind koplanar, d.h.

(P₁ -T)^τ ■ (TxP,)= 0. (5.2) Mit Gleichung (5.1) und der Orthonormalität der Rotationsmatrix ergibt sich:

,(5.1)

O = (P₁-T)^7"(TxP₁) = (A-¹Pj(T-XP₁J=(^^pJ(TxP₁). (5.3)

Das Kreuzprodukt kann nun in ein Skalarprodukt umgeschrieben werden :

Damit ergibt sich aus Gleichung (5.3)

o = (RV₂ J (SP₁ ) = (PfRXsP₁ ) = Pl (RS)P₁ = P₂ ^TEP_X , '.5.5)

mit E : = RS der Essentiellen Matrix. Nun ist eine Beziehung zwischen Pi und P2, hergestellt. Projiziert man sie mittels

so ergibt sich:

0 = plEpl (5.6)

Hierbei ist fi,2 die fokale Länge und Zi,2 die Z-Komponente von P₁^. Damit ist die Menge aller möglichen Bildpunkte p2 im zweiten Bild, die mit einem Punkt pi des ersten Bildes korrespondieren können genau die, für die die Gleichung (5.6) e-r-f-ü-1-l-t ist . Mrt dieser Korrespondenzbedingung für einzelne Bildpunkte können nun konsistente Suchfensterpaare aus den Einzelstrom-Hypothesen wie folgt gebildet werden: Das Seitenverhältnis der Suchfenster ist vorzugsweise per Definition fest, d.h. ein Suchfenster lässt sich eindeutig durch die Mittelpunkte der oberen und unteren Kante beschreiben. Mit der Korrespondenzbedingung für Bildpunkte ergeben sich so zwei Epipolarlinien im Bild der zweiten Kamera für die möglichen Mittelpunkte der Ober- und Unterkanten aller korrespondierenden Suchfenster, wie dies z.B. in der Figur 7 dargestellt wird. Die Figur 7 zeigt die Epipolargeometrie am Beispiel einer Fußgängerdetektion. Hierbei findet eine mehrdeutige Projektion eines Suchfensters vom Bild der rechten Kamera in das der linken Kamera statt. Die Korrespondenzsuchfenster ergeben sich dabei aus den Epipolarlinien der Mittelpunkte der Suchfensterunter- und -Oberkanten. Die Darstellung ist im Sinne der Übersichtlichkeit hier nur illustrativ. Die Menge an möglichen Suchfensterpaaren soll all diejenigen Suchfensterpaaren beinhalten, welche Objekte mit realistischer Größe beschreiben. Berechnet man die Rückprojektion der Objekte in den Raum, kann mittels Triangulation Position und Größe des Objektes bestimmt werden. Der Bereich der Epipolarlinien wird dann auf Korrespondenzen mit gültiger Objektgröße reduziert, wie dies anhand der gepunkteten Linie in Abbildung 7 gezeigt ist.

[0037] Es wird nun die Optimierung des Korrespondenzraumes beschrieben, wobei sich bei der Projektion eines Suchfensters von einem Sensorstrom in den anderen Sensorstrom mehrere Korrespondenzsuchfenster mit unterschiedlicher Skalierung ergeben. Dieser Skalierungsunterschied verschwindet jedoch, falls die Kamerapositionen und -ausrichtungen bis auf einen lateralen Versatz gleich sind. Für die Skalierung ist also nur___ein Versatz d zwischen den Zentren Oi und O₂ in Längsrichtung des Kamerasystems relevant, wie i-i-e-s—i-n—der. Figur 8 gezeigt wird. Der Orientierungsunterschied beider Kameras ist in diesem Beispiel vernachlässigbar. In der Figur 8 wird dabei insbesondere die Ursache für die in den Korrespondenzsuchfenstern entstehenden Skalierungsunterschiede gezeigt und wobei bei der Projektion eines Suchfensters vom ersten in den zweiten Sensorstrom sich mehrere Korrespondenzsuchfenster mit unterschiedlicher Skalierung ergeben. Hierbei ist der geometrische Zusammenhang zwischen Kameraanordnung, Objektgrößen und Skalierungsunterschieden detailliert dargestellt.

[0038] Es ist eine feste Suchfenstergröße hi im ersten Bild vorgegeben. Im Folgenden soll das Verhältnis

T min H₂

untersucht werden, wobei h₂ ^min bzw. h₂ ^max die minimale bzw. maximale auftretende Skalierung der Korrespondenzsuchfenster im zweiten Sensorstrom zum Suchfenster h_x im ersten Sensorstrom ist. Es seien H^min = Im die Höhe eines nahen Fußgängers und H^max = 2m die Höhe eines weit entfernten Fußgängers, wobei hier nur Fußgänger betrachtet werden, welche eine minimale Größe von Im und eine maximale Größe von 2m aufweisen. Beide Fußgänger seien so weit entfernt, dass sie im Bild der ersten Kamera die Höhe h_x aufweisen. Seien weiterhin Z_λ ^mxn, Z₁ ¹"**, Z₂ ^min und Z₂ ^max die Objektabstände beider Objekte zu beiden Kameras, dann folgt

Z min.max •-_/ min.max j

' 2₂ = ^Zi ^~ d ( 5 . 7 ) und

Das Skalierungsverhältnis ergibt sich dann aus

Λ x rr min H ma

(5 8) ^ mm Z y

A₂ ^max z >j,₂ min y max rr min (57) 2'^mω T T mm r r min _ ^Λ 2

Λ y min

A₇ ^mm T T man y min T T man. y mm £^■ max (5.9)

Tj max ^■^ 1 z y,₂ max

Für große Entfernungen geht das Skalierungsverhältnis gegen 1. Für eine Anwendung des Klassifikators als Frühwarnsystem in Landstraßenszenarien, kann man sich bei der Wahl von Zi^min auf Werte größer 20m beschränken. Der Versatz der Kameras ist im Versuchsträger ca. 2m. Zusammen mit den oben vorgeschlagenen Werten für die Fußgängergrößen ergibt sich, dass

.max

gilt. Es lässt sich somit der Korrespondenzraum für ein Suchfenster im ersten Strom, also die Menge der korrespondierenden Suchfenster im zweiten Strom folgendermaßen vereinfachen: Die Skalierung aller korrespondierenden Suchfenster wird vereinheitlicht. Die verwendete Skalierung h₂ für alle Korrespondenzen ist der Mittelwert der minimal und maximal auftretenden Skalierung:

max

K= ₂ • (5.10)

Der verursachte Skalierungsfehler beträgt dabei maximal 2,75%. In der Figur 9 werden Resultierende Korrespondenzen im NIR-BiId für ein Suchfenster im FIR-BiId gezeigt. Es wird dabei eine vereinheitlichte Skalierung für alle Korrespondierenden Suchfenster verwendet . [0039] Zur Modellierung des Korrespondenzfehlers ist in realen Anwendungen die oben beschriebene Paarbildung zur Erzeugung von Multistrom-Hypothesen häufig unzureichend. In gewinnbringender Weise werden folgende Faktoren darüber hinaus mit berücksichtigt:

• Fehler in den extrinsischen und intrinsischen Kameraparametern, verursacht durch Messfehler während der Kamerakalibrierung.

• Einflüsse der Umgebungsdynamik.

[0040] Es besteht also ein unbekannter Fehler im Kameramodell. Dadurch entsteht eine Unscharfe sowohl für die Position als auch die Skalierung der korrelierenden Suchfenster, sie wird im Folgenden als Korrespondenzfehler bezeichnet. Der Skalierungsfehler wird aus folgenden Gründen vernachlässigt: Erstens ist der Einfluss der Dynamik auf die Skalierung sehr gering, wenn das Objekt mindestens 20m entfernt ist. Zweitens ist eine deutliche Unempfindlichkeit der Detektorantwort zu erkennen, was die Exaktheit der Hypothesenskalierung betrifft. Dies wird anhand von Mehrfachdetektionen sichtbar, deren Mittelpunkte zwar kaum variieren, jedoch variieren die Skalierungen dabei stark. Zur Kompensation des translativen Fehlers wird eine Relaxation der Korrespondenzbedingung eingeführt . Hierfür wird ein Toleranzbereich für die Position der korrelierenden Suchfenster definiert. Für jede dieser Korrespondenzen wird im Bild ein ellipsenförmiger Toleranzbereich mit den Radien e_x und e_y definiert, in dem weitere Korrespondenzen entstehen, wie dies anhand der Figur 10 gezeigt wird. Dabei ist der Korrespondenzfehler für jede Suchfensterskalierung identisch. Der resultierende Toleranzbereich wird daher für jede Skalierung glejLc_h__gewähl-t-. [0041] In der Figur 10 wird die Relaxation der Korrespondenzbedingung gezeigt. Die Positionen der korrelierenden Suchfenster sind hierbei nicht nur auf eine Strecke beschränkt . Sie können nun innerhalb eines elliptischen Bereiches um diese Strecke herum liegen. Im NIR- BiId sind dabei nur die Mittelpunkte der Suchfenster eingezeichnet. In Bezug auf diesen Korrespondenzfehler werden zur Bestimmung der Radien gelabelte Daten herangezogen. Die Radien des elliptischen Toleranzbereichs werden folgendermaßen bestimmt :

• Für jedes Multistrom-Label werden die Suchfenster in beiden Strömen bestimmt .

• Zu dem jeweiligen Suchfenster im ersten Strom werden alle möglichen Korrespondenzsuchfenster im zweiten Strom berechnet. Dabei wird eine nicht-relaxierte Korrespondenzbedingung verwendet .

• Das Korrespondenzsuchfenster, das dem Labelsuchfenster im zweiten Strom am nächsten kommt, wird für die Fehlerbestimmung herangezogen. Die Nähe zweier Suchfenster kann hier entweder durch die Überdeckung definiert sein, insbesondere durch das Verhältnis der Schnittfläche zweier Rechtecke zu deren Vereinigungsfläche (auch Coverage genannt) oder durch den Abstand der Suchfenstermittelpunkte. Letztere Definition wurde bei diesem Ausführungsbeispiel gewählt, da so der für die Detektorantwort unkritische Skalierungsfehler vernachlässigt wird.

• Für alle Labels wird der Abstand in X- und Y-Richtung zwischen dem Labelsuchfenster und dem am nächsten gelegenen Korrespondenzsuchfenster bestimmt. Es entsteht dabei eine Häufigkeitsverteilung für die X- und Y-Abstände. Ein Histogramm über den Abstand in X- und Y-Richtung ist in der Figur 11 dargestellt . • Nun werden die Radien e_x und e_y von der Verteilung der Abstände abgeleitet. In dieser Arbeit wurde e_x = 2^σx und e_y = 2^ery gewählt. Der nächste Schritt nach der Definition des Korrespondenzraumes für ein Suchfenster ist die Suchraumabtastung. Wie bei der Einzelstrom-Unterabtastung soll auch hier die Hypothesenzahl bei möglichst geringen Einbußen bei der Detektionsleistung minimiert werden.

[0042] Figur 11 zeigt den Korrespondenzfehler zwischen Label - und Korrespondenzsuchfenster. Der dargestellte Korrespondenzfehler ist dabei der kleinste Pixelabstand eines Labelsuchfensters zu den Korrespondenzsuchfenstern des korrespondierenden Labels, also zum projizierten Label des anderen Sensorsignalstroms. Bei der dargestellten Messung werden FIR-Labels ins NIR-BiId projiziert und ein Histogramm über die Abstände der Suchfenstermittelpunkte gebildet.

[0043] Das Verfahren für die Suchraumabtastung läuft folgendermaßen ab: In beiden Strömen werden mit dem Einzelstrom-Hypothesengenerator Einzelstrom-Hypothesen, also Suchfenster gestreut . Es müssen dabei die entstehenden Skalierungsstufen aufeinander abgestimmt werden, wobei im ersten Strom die Skalierungen mit dem Hypothesengenerator bestimmt werden. Für jede dieser Skalierungsstufen wird sodann der Korrespondenzraum eines prototypischen Suchfensters bestimmt. Die Skalierungen des zweiten Stromes ergeben sich aus den Skalierungen der Korrespondenzräume aller prototypischen Suchfenster. Dadurch entsteht in beiden Strömen die gleiche Anzahl an Skalierungsstufen. Nun werden Suchfensterpaare gebildet, wodurch die Multistrom-Hypothesen entstehen. Es kann anschließend einer der beiden Ströme gewählt werden, um für jedes Suchfenster den jeweiligen

Korresponden-z-be-r-eich im__anderen Strom zu bestimmen. Alle

Suchfenster des zweiten Stromes, welche die ricntige Skalierung aufweisen, die innerhalb dieses Bereiches liegen, werden zusammen mit dem festen Suchfenster des ersten Stromes zur Paarbildung herangezogen, dies wird anhand der Figur 12 verdeutlicht. Dabei zeigt die Figur 12 die entstehenden Multistrom-Hypothesen. Es sind hierbei drei Suchfenster im FIR-BiId und ihre Korrespondenzbereiche im NIR-BiId eingezeichnet. Mit den von Einzelstrom-hypothesengeneratoren gestreuten Suchfenstern werden Paare gebildet. Eine Multistrom-Hypothese entspricht dabei einem Suchfensterpaar.

[0044] Wählt man für die intern verwendeten Einzelstrom- Hpothesengeneratoren Positions- und Skalierungsschrittweiten von 5% der Suchfensterhöhe, so ergeben sich im NIR-BiId ca. 400.000 Einzelstrom-Hypothesen, im FIR-BiId ca. 50.000. Es ergeben sich dabei jedoch ca. 1,2 Millionen Multistrom- Hypothesen. Im praktischen Einsatz konnte eine Verarbeitungsgeschwindigkeit mit 2 Bildern pro Sekunde erzielt werden. Um die Echtzeitfähigkeit der Anwendung zu gewährleisten, werden nachfolgend weitere Optimierungen vorgestellt. Zum einen wird ein sogenannter Weaklearner-Cache beschrieben, der die Zahl der notwendigen Merkmalsberechnungen vermindert. Darüber hinaus wird ein Verfahren zur dynamischen Reduktion der Hypothesenmenge vorgestellt, im Folgenden mit Multiraster-Hypothesenbaum bezeichnet. Die dritte Optimierung, welche mit Backtracking bezeichnet wird, reduziert im Falle einer Detektion unnötigen Aufwand in Zusammenhang mit Mehrfachdetektionen.

[0045] Das Evaluieren von mehreren Multistrom-Hypothesen, die ein Suchfenster gemeinsam haben, führt dazu, dass Weaklearner mehrmals auf den gleichen Daten berechnet werden. Zur Vermeidung aller redundanten Berechnungen wird nun ein Cachingverfahren_e,ing.esetzt—Dabei—w-i-r-d—f-ü-r—jedes^~Such^'feTϊs^~ter^~ in beiden Strömen und für jeden Stronglearner partielle Summen der Stronglearner-Berechnung in Tabellen abgelegt. Ein Stronglearner H^k der Kaskadenstufe k ist definiert durch:

"'WH | — ! 1 : ^: s ^So^tn^{s^xt^{)≥ @t »}«s'M-i "XtfM (5.1D

k mit den Weaklearnern h, ^e{-l, l} und Hypothese x.

S^k (x) kann aufgetrennt werden in zwei Summen, die nur

Weaklearner mit Merkmalen eines Stromes beinhalten:

mit W_s =\t I Af ist Weaklearner im Strom s\.

Falls mehrere Hypothesen xi in einem Strom s das gleiche Suchfenster besitzen, dann ist in jeder Stufe k für den Strom s die Summe S₅ (xi) gleich für alle xi . Das Ergebnis wird vorzugsweise zwischengespeichert und mehrmals verwendet. Sofern für eine Stronglearner-Berechnung auf bereits berechnete Werte zurückgegriffen werden kann, reduziert sich der Aufwand in gewinnbringender Weise auf eine Summen- und eine Schwellwertoperation. Was die Größe der Tabellen betrifft, ergeben sich bei diesem Ausführungsbeispiel für insgesamt 500.000 Suchfenster und 25 Kaskadenstufen 12,5 Millionen Einträge. Mit 64Bit-Fließkommazahlen werden 100 MB dabei Speicher benötigt. Für eine Aufwandsabschätzung kann die Zahl der Merkmalsberechnungen sowohl mit als auch ohne Weaklearner-Cache betrachtet werden. Im ersteren Fall ist die Zahl der Hypothesen pro Bild und die Anzahl aller Merkmale ausschlaggebend. Die Zahl der Hypothesen kann durch die Anzahl der Suchfenster R₃ in den Strömen, s abgesc-hä-t-z-t—we-rderr mit O(R1-R2). Der in der O-Notation versteckte Faktor ist hier allerdings sehr klein, da der Korrespondenzbereich klein gegenüber der gesamten Bildfläche ist. Die Zahl der berechneten Merkmale ist dann im schlechtesten Fall O(R1-R2-(M1 +M2)) wobei Ms die Zahl der Merkmale in jedem Strom s ist. Im zweiten Fall wird jedes Merkmal in jedem Suchfenster höchstens einmal pro Bild berechnet . Somit ist die Zahl der berechneten Merkmale höchstens O (Rl -M1+R2 -M2) . Der Aufwand wird im schlechtesten Fall um den Faktor min(Rl,R2) reduziert. Eine Komplexitätsanalyse für den durchschnittlichen Fall ist dagegen aufwändiger, da der Zusammenhang zwischen der mittleren Zahl berechneter Merkmale pro Hypothese bzw. Suchfenster im ersten Fall und im zweiten Fall nicht linear ist.

[0046] Es folgen Ausführungen zum Multiraster-Hypothesenbaum. Der Suchraum des Multistrom-Detektors wurde bei diesem Beispiel mit zwei Einzelstrom-Hypothesengeneratoren und einer relaxierten Korrespondenzbeziehung erfasst . Hierbei ist es jedoch schwierig eine optimale Parametrisierung zu finden, speziell das Finden der geeigneten Abtast-Schrittweiten. Sie haben zum einen großen Einfluss auf die Detektionsleistung und zum anderen auf den entstehenden Rechenaufwand. Für die Einzelstrom-Detektoren konnten bei einem praktischen Versuch akzeptable Kompromisse gefunden werden, die im FIR-FaIl wegen der geringeren Bildauflösung eine Echtzeitfähigkeit gewährleisten konnten, im NIR-FaIl war dies mit der eingesetzten Hardware allerdings nicht möglich. Die Leistung des verwendeten Versuchsrechners war auch beim Einsatz eines Fusionsdetektors mit Weaklearner-Cache nicht ausreichend und führte in komplexen Szenen zu längeren Reaktionszeiten. Diese Probleme lassen sich aber natürlich mit leistungsfähigerer Hardware lösen.

F0047_1 Beim. praktischen- 3-i-nsa-fe-z- wurden- ve-rschi-edene- Parametrisierungen des Hypothesengenerators und des Detektors getestet. Mehrere Suchrasterdichten und verschiedene Stufenbeschränkungen wurden dabei evaluiert . Es hat sich gezeigt, dass auch bei sehr grober Abtastung jeder zu detektierende Fußgänger bereits mit den ersten Stufen des Detektors erkannt wird. Hierbei wurden die hinteren Kaskadenstufen sukzessive abgeschaltet, was eine hohe Falschalarmrate zur Folge hat. Die beim praktischen Einsatz aufgezeichneten Messwerte sind in der Abbildung 13 dargestellt. Die Zahl der Hypothesen waren beginnend mit der feinsten Rasterdichte: ca. 1.200.000, 200.000, 7.000 und 2.000.

[0048] Die Figur 13 zeigt dabei den Vergleich der Detektionsraten verschiedener Rasterweiten, wobei vier verschiedene Hypothesenrasterdichten verglichen werden. Für jede Rasterweite ist die Detektionsrate eines Fusionsdetektors über die Zahl der verwendeten Stufen aufgetragen. Die Detektionsrate ist definiert durch die Zahl der gefundenen Fußgänger dividiert durch die Zahl aller Fußgänger. Der Grund für das aufgetretene Phänomen ist folgende Eigenschaft des Detektors: Die Detektorantwort, also die erreichte Kaskadenstufe, ist maximal für eine Hypothese, welche exakt auf dem Fußgänger positioniert ist. Schiebt man die Hypothese nun schrittweise vom Fußgänger weg, fällt das Detektorergebnis nicht abrupt auf null ab, sondern es existiert ein Bereich, indem das Detektorergebnis stark variiert und tendenziell absinkt. Dieses Verhalten des Kaskadendetektors wird im Folgenden als charakteristische Detektorantwort bezeichnet. Ein Experiment, bei dem ein Bild in Pixelschritten abgetastet wird, ist in der Figur 14 visualisiert . Dabei werden ein Multistrom-Detektor und Hypothesen mit fixer Skalierung verwendet. Man kann den

Bereich, für den—d-ie—Defeekfeoranfewort—verzögert—abfä^~l^~ϊt^~; gut^" erkennen. Weiterhin hat sich gezeigt, dass der Detektor ähnliche Charakteristiken bei einem Experiment mit fixer Position und variierender Skalierung aufweist. Damit ist die Detektionsleistung des verkürzten Detektors angewandt auf ein grobes Hypothesenraster zu erklären, denn die "Trefferfläche" für einen Fußgänger vergrößert sich für niedrigere Stufen.

[0049] In der Figur 14 wird die Detektorantwort in Abhängigkeit der erreichten Detektionsstufe gezeigt. Dabei wird ein Multistrom-Detektor auf eine Hypothesenmenge in einer Skalierung mit pixelgenauem Raster angewandt. Die letzte erreichte Kaskadenstufe ist für jede Hypothese an ihrem Mittelpunkt eingezeichnet. Während des Trainings werden keine zu einem Label leicht versetzten Trainingsbeispiele verwendet. Es werden ausschließlich exakte Positivbeispiele verwendet sowie Negativbeispiele, welche einen großen Abstand zu jedem Positivbeispiel aufweisen. Somit ist das Verhalten des Detektors Undefiniert bei Hypothesen, die zu einem Objekt leicht versetzt sind. Es wird daher für jeden Detektor experimentell die charakteristische Detektorantwort untersucht. Die zentrale Idee zur Reduktion der Hypothesenzahl ist dabei eine Grob-Zu-Fein-Suche, wobei jedes Bild im ersten Schritt mit einer grob aufgelösten Hypothesenmenge abgesucht wird. In Abhängigkeit des Detektorergebnisses werden nun weitere Hypothesen mit höherer Dichte im Bild gestreut . Außerdem wird die lokale Nachbarschaft derjenigen Hypothesen durchsucht, die ein Objekt in ihrer Nähe vermuten lassen. Durch das oben beschriebene Verhalten des Detektors, kann die erreichte Stufenzahl als Kriterium für die Verfeinerung der Suche genommen werden. Nach dem gleichen Prinzip kann sodann erneut die lokale Nachbarschaft der neuen Hypothesen durchsucht werden, bis das feinste Hypothesenraster erreicht ist. Für ieden Verfeinerungsschritt wird ein Schwellwert verwendet, mit dem die erreichte Kaskadenstufe jeder Hypothese verglichen wird.

[0050] Figur 15 zeigt eine Grob-Zu-Fein-Suche im eindimensionalen Fall. Hierfür wurde eine Bildzeile aus der in Figur 14 gezeigten Bildaufnahme herangezogen, welche in der Form einer Funktion in der Figur 15 dargestellt ist. Von links nach rechts sind die Schritte des Suchverfahrens zu sehen. Senkrecht sind die Hypothesenresultate und waagerecht die Schwellwerte zur lokalen Verfeinerung eingezeichnet. Für die Schwellwertbestimmung kann das eingangs beschriebene Experiment verwendet werden. Die Detektionsrate jeder Rasterdichte ist für die ersten Stufen des Detektors fast identisch. Als Schwellwert wird die maximale Stufe gewählt, für die die betroffene Rasterdichte immer noch beinahe die gleiche Detektionsrate hat wie die maximal erreichbare. Für die Schwellwertstufe k einer Rasterdichte L wird eine

L

Detektionsrate D t gefordert , sodass

≥a-D?.

D"

Ok kennzeichnet hierbei die Detektionsrate der feinsten Rasterdichte H in Stufe k. Wenn n die Zahl der Verfeinerungen ist, dann ergibt sich für die letzte Stufe K des Detektors eine Detektionsrate

D_κ=a"-D_K ^H

Für α sind in diesem Beispiel hauptsächlich Werte zwischen 0,98 und 0,999 geeignet. [0051] Bei der Definition der Nachbarschaft wird der Hypothesenrautn betrachtet. Der Hypothesenraum ist nun nicht eindimensional sondern im Falle des Einzelstrom-Detektors dreidimensional oder sechsdimensional beim Fusionsdetektor. Das Problem einer Schrittweisen Verfeinerung in allen Dimensionen wird mit dem Hypothesengenerator gelöst. Zur Definition der Nachbarschaft gibt es dabei zwei Möglichkeiten, von denen in diesem Ausführungsbeispiel die zweite verwendet wird. Zum einen kann ein Minimalwert für die Überdeckung (Coverage) zweier benachbarter Suchfenster festgelegt werden. In diesem Fall ist jedoch nicht klar, wie der Minimalwert zu wählen ist, da in den verfeinerten Hypothesenmengen Lücken entstehen können, also Bereiche, die keiner Hypothese der groben Hypothesenmenge nahe genug sind. Es müssen daher verschiedene Schwellwerte für jede Rasterdichte festgelegt werden. Zum anderen kann die Nachbarschaft mit einer modifizierten Schachbrett -Distanz definiert werden. Damit werden die erwähnten Lücken vermieden und es kann ein einheitlicher Schwellwert für alle Rasterdichten definiert werden. Die Schachbrett -Distanz ist definiert durch

dύt(p_ι,p₂)=max\p_lιX-p_2ιX\,\p_Uy-p_2ty\) mit p_λ,p₂ e <R². (5.13)

Die Rasterdichte für einen Strom ist durch r_x,r_y,r_h ^eR definiert . Die Rasterabstände sind für eine Suchfensterhöhe h dann in X-Richtung r_x • h und in Y-Richtung r_y ^• h. Für eine Suchfensterhöhe hi ist die nächst größere Suchfensterhöhe h₂ hi- (1 + rh) . Das Nachbarschaftskriterium für ein Suchfenster mit Position S₁ ^e R² und Suchfensterhöhe Ia₁ zu einem Suchfenster S₂ ^e R² einer feineren Hypothesenmenge mit Höhe h? ist mit _einem_Skalar <? definier-t^ max

< δ Λ h₂ e [h_x{\ ₊ r_h)-^δ,hfi ₊ r_hy^δ}. r_x ' K (5.14)

A,

Die entstehenden Intervallgrenzen sind in der Figur 16 visualisiert . Im Multistrom-Fall gilt in jedem Strom ein dreidimensionales Nachbarschaftskriterium. Für benachbarte Multistrom-Hypothesen muss die Nachbarschaftsbedingung in beiden Strömen erfüllt sein. Wählt man r_x = r_y und δ = 0,5, so sind alle Nachbarschaftsbereiche bis auf die Ränder disjunkt. Sofern die Schrittweiten r_* und für die

Verfeinerungs-Hypothesenmengen sukzessive halbiert werden und die hinzukommenden Hypothesen genau auf die Grenzen der

Nachbarschaftsbereiche fallen, ist dieser Wert für δ sinnvoll, da die feineren Hypothesen mit allen angrenzenden gröberen Hypothesen verknüpft werden. Dies gilt jedoch nicht, falls die verfeinerten Hypothesenmengen beliebige

Rasterabstände aufweisen. Dann muss durch Wahl von ^>0,5 erreicht werden, dass sich die Nachbarschaftsbereiche von benachbarten Hypothesen der groben Menge überlappen und die Hypothesen des feinen Rasters mehreren Hypothesen des groben

Rasters zugeordnet werden. Der erforderliche Wert für δ muss durch Experimente ermittelt werden, d.h. er muss an die charakteristische Detektorantwort angepasst werden.

[0052] In der Figur 16 wird die Nachbarschaftsdefinition gezeigt : Die Nachbarschaft ist für drei der Hypothesen gleicher Skalierungsstufe eingezeichnet, außerdem sind rechts drei verschiedene Skalierungen und deren resultierende

Skalierungs-Nachbarschaft abgebildet. Für δ wurde hierbei 0,75 gewählt .

[0053] Die Erzeugung der verfeinerten Hypothesen wanrenα αer Anwendung wäre zu zeitintensiv und kann genauso gut als Vorverarbeitungsschritt erfolgen. Das Generieren aller verfeinerten Hypothesenmengen erfolgt mittels des Hypothesengenerators . Es wird zunächst die Hypothesenmenge für jede Verfeinerungsstufe generiert. Anschließend werden die Hypothesen mit dem Nachbarschaftskriterium verknüpft, wobei Jede Hypothese mit jeder Hypothese der nächsten feineren Hypothesenmenge verglichen wird. Sind diese sich nahe, werden sie verknüpft. Es entsteht hierbei eine baumartige Struktur, deren Wurzeln den Hypothesen der gröbsten Stufe entsprechen. In der Figur 17 stellen die Kanten die berechneten Nachbarschaftsbeziehungen dar. Da mit der Generierung des Hypothesenbaumes ein gewisser Suchaufwand verbunden ist, werden die dafür erforderlichen Berechnungen vorzugsweise über ein separates Tool realisiert und in Form einer Datei gespeichert .

[0054] Figur 17 zeigt den resultierenden Hypothesenbaum. Der Hypothesenbaum/Suchbaum weist dabei mehrere Wurzeln auf und wird von den Wurzeln aus bis auf die Blattebene abgesucht, sofern das Detektionsergebnis eines Knotens größer als der Schwellwert ist. Bei der Verarbeitung eines Bildes (bzw. Bildpaares beim Multistrom-Detektor) wird der Hypothesenbaum durchlaufen. Beginnend mit der ersten Baumwurzel wird der Baum mit einer Tiefen- oder Breitensuche abgesucht. Die Hypothese der Wurzel wird dabei evaluiert . Solange der entsprechende Schwellwert überschritten ist, wird im Baum abgestiegen und die jeweiligen Kindknoten-Hypothesen untersucht . Dann wird die Suche bei der nächsten Baumwurzel fortgesetzt. Zusammen mit dem nachfolgend beschriebenen Backtracking-Verfahren ist die Tiefensuche am effektivsten. Da Knoten mehrere Vaterknoten aufweisen können, muss darauf geachtet werden, dass jeder Knoten nur einmal untersucht wird._ Durch den Einsatz eines Multiraster-Hypothesenbaum resultiert dabei in gewinnbringender Weise eine Reduktion d^~er^~ Hypothesenzahl, welche sich auf die Detektionsleistung auswirkt .

[0055] Die Zahl der Mehrfachdetektionen ist beim Multistrom- Detektor und beim FIR-Detektor sehr hoch. Mehrfachdetektionen haben daher großen Einfluss auf die Rechenzeit, da sie die gesamte Kaskade durchlaufen. Es wird daher ein sogenanntes Backtracking-Verfahren eingesetzt. Mit einer Änderung der Suchstrategie kann dabei ein Großteil der Mehrfachdetektionen vermieden werden, wobei im Falle einer Detektion die Suche in dem Hypothesenbaum abgebrochen und bei der nächsten Baumwurzel fortgesetzt wird. Dadurch wird die Hypothesendichte lokal vermindert, sobald ein Objekt gefunden wird. Um keinen systematischen Fehler zu erzeugen, werden alle Kindknoten zufällig permutiert, so dass ihre Reihenfolge nicht mit ihrer Anordnung im Bild korreliert. Wenn die ersten Kind-Hypothesen beispielsweise immer links oben im Nachbarschaftsbereich liegen, so kann die Detektion tendenziell in diese Richtung verschoben werden.

[0056] Anhand dieses Ausführungsbeispiels wurde somit ausgehend vom Einzelstrom-Hyothesengenerator, durch Modellierung eines relaxierten Korrespondenzbereiches und schließlich durch verschiedene Optimierungen ein Verfahren entwickelt, welches trotz des komplexen Suchraumes der Multistrom-Daten sehr wenig Rechenzeit erfordert . Einen wichtigen Beitrag leistet dabei der Multiraster- Hypothesenbaum .

[0057] Die Verwendung des Multiraster-Hypothesenbaums ist nicht nur im Rahmen der Multisensorfusion von großem Vorteil, sondern eignet sich in besonderer Weise auch zum Zusammenspiel mit Kaskadenklassifikatoren im Allgemeinen und führt hierbei zu signifikant besseren Klassifikationsergebnissen.

Claims

DaimlerChrysler AG BöpplePatentansprüche

1. Verfahren zur multisensoriellen Objekterkennung, wobei Sensorinformationen aus wenigstens zwei unterschiedlichen Sensorsignalströmen mit unterschiedlichen Sensorsignaleigenschaften zur gemeinsamen Auswertung herangezogen werden, wobei die wenigstens zwei Sensorsignalströme zur Auswertung nicht aneinander angepasst und/oder aufeinander abgebildet werden, wobei hierbei in jedem der wenigstens zwei Sensorsignalströme Objekthypothesen generiert werden, wobei auf der Grundlage dieser Objekthypothesen Merkmale für wenigstens einen Klassifikator generiert werden und wobei die Objekthypothesen mittels dem wenigstens einen Klassifikator bewertet und einer oder mehreren Klassen zugeordnet werden, wobei wenigstens zwei Klassen definiert sind und einer der beiden Klassen Objekte zuzuordnen sind.

2. Verfahren nach Anspruch 1 , dadurch gekennzeichnet, dass die Objekthypothesen eindeutig einer Klasse zugeordnet werden.

3. Verfahren nach Anspruch 1 , dadurch gekennzeichnet, dass die Objekthypothesen mehreren Klassen zugeordnet werden, wobei die jeweilige Zuordnung mit einer Wahrscheinlichkeit belegt ist.

4. Verfahren nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, dass die Objekthypothesen unabhängig voneinander in jedem Sensorsignalstrom einzeln generiert werden, wobei die Objekthypothesen unterschiedlicher Sensorsignalströme sodann über Zuordnungsvorschriften einander zuordenbar sind.

5. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass Objekthypothesen in einem Sensorsignalstrom (Primärstrom) generiert werden und Objekthypothesen des

Primärstroms in andere Sensorsignalströme (Sekundärströme) projiziert werden, wobei eine

Objekthypothese des Primärstroms eine oder mehrere

Objekthypothesen im Sekundärstrom erzeugt.

6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass die Projektion von Objekthypothesen des Primärstroms in einen Sekundärstrom auf den verwendeten Sensormodellen und/oder der Positionen von Suchfenstern innerhalb des Primärstroms bzw. auf der Epipolargeometrie basiert.

7. Verfahren nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, dass Objekthypothesen durch deren Objektt_yp_,_ Objektposition, Objektausdehnung, ObjektOrientierung, Objektbewegungsparameter wie Bewegungsrichtung und Geschwindigkeit, Objektgefahrenpotential oder einer beliebigen Kombination daraus beschrieben werden.

8. Verfahren nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, dass Objekthypothesen in einem physikalischen Suchraum zufällig gestreut oder in einem Raster erzeugt werden oder durch ein physikalisches Modell erzeugt werden.

9. Verfahren nach Anspruch 8, dadurch gekennzeichnet, dass der Suchraum durch externe Vorgaben wie Öffnungswinkel, Entfernungsbereiche, statistische Kenngrößen, die lokal im Bild gewonnen werden, und/oder Messungen anderer Sensoren adaptiv eingeschränkt wird.

10. Verfahren nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, dass die unterschiedlichen Sensorsignaleigenschaften in den Sensorsignalströmen auf unterschiedlichen Positionen und/oder Orientierungen und/oder Sensorgrößen der verwendeten Sensoren basieren.

11. Verfahren nach Anspruch 10, dadurch gekennzeichnet, dass jede Objekthypothese einzeln für sich klassifiziert wird und die Ergebnisse der einzelnen Klassifikationen kombiniert werden, wobei wenigstens ein Klassifikator vorgesehen ist .

12. Verfahren nach Anspruch 10, dadurch gekennzeichnet, dass in dem wenigstens einen Klassifikator Merkmale von Objekthypothesen unterschiedlicher Sensorsignalströme gemeinsam bewertet und zu einem Klassifikationsergebnis zusammengefasst werden.

13. Verfahren nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, dass das Raster, in welchem die Objekthypothesen erzeugt werden, in Abhängigkeit des Klassifikationsergebnisses adaptiv angepasst wird.

14. Verfahren nach einem der Ansprüche 1 bis 12, dadurch gekennzeichnet, dass das Raster, in welchem die Objekthypothesen erzeugt werden, in Abhängigkeit des Klassifikationsergebnisses eines vorangegangenen Zeitschrittes adaptiv angepasst wird .

15. Verfahren nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, dass das Auswerteverfahren, mittels welchem die Objekthypothesen bewertet werden, in Abhängigkeit von wenigstens einer vorangegangenen Bewertung automatisch angepasst wird.

16. Verfahren nach einem der vorstehenden Ansprüche, dadurch gekennzeichnet, dass mindestens zwei unterschiedliche Sensorsignalströme zeitversetzt verwendet werden oder dass ein einzelner Sensorsignalstrom gemeinsam mit wenigstens einer zeitversetzten Version desselben verwendet wird.

17. Verwendung des Verfahrens nach ejnem__der_jv:ors-teh.enden- Ansprüche zur Verfolgung von erkannten Objekten.

8. Verwendung des Verfahrens nach einem oder mehreren der Ansprüche 1 bis 16 zur Umgebungserfassung und/oder Objektverfolgung bei einem Straßenfahrzeug.