WO2002093931A2

WO2002093931A2 - Verfahren und vorrichtung zum ermitteln von bewegung in zeitlich aufeinander folgenden digitalen bildern

Info

Publication number: WO2002093931A2
Application number: PCT/DE2002/001585
Authority: WO
Inventors: Axel Techmer
Original assignee: Infineon Technologies Ag
Priority date: 2001-05-14
Filing date: 2002-05-02
Publication date: 2002-11-21
Also published as: US20050008073A1; EP1396153A2; DE10123365A1; WO2002093931A3

Abstract

Unter Verwendung der Codierungsinformation wird in einem ersten Bild mindestens eine Kontur mit einer Vielzahl von auf der Kontur sich befindenden Kontur-Bildpunkten ermittelt und unter Verwendung der Kontur-Bildpunkte wird eine Bewegungsermittlung durchgeführt bezüglich einer in einem zweiten Bild enthaltenen Referenz-Kontur mit Referenz-Kontur-Bildpunkten.

Description

Beschreibung

Verfahren und Vorrichtung zum Ermitteln von Bewegung in mindestens zwei zeitlich aufeinander folgenden digitalen Bildern, Computerlesbares Speichermedium und Computerprogramm-Element

Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur Ermittlung von Bewegung in mindestens zwei zeitlich aufeinander folgenden digitalen Bildern, ein Computerlesbares Speichermedium sowie ein Computerprogramm-Element .

Im Rahmen der digitalen Bildverarbeitung ist die Ermittlung von Bewegung in zeitlich aufeinander folgenden Bildern, üblicherweise auch als Bewegungsschätzung bezeichnet, eine wesentliche Information zum Ermitteln des Inhalts von digitalen Bildern. So wird beispielsweise auch im visuellen System eines Menschen die Bestimmung der Bewegung von wahrgenommenen Objekten als ein früher Verarbeitungsschritt in der menschlichen Sinneswahrnehmung ausgeführt.

In der digitalen Bildverarbeitung ist jedoch die Bestimmung de Bildbewegung ein sehr reehenintensiver und somit kostenintensiver Prozess.

Insbesondere um eine Ermittlung der Bildbewegung in Echtzeit durchführen zu können und damit die Anwendung von Bildverarbeitungsverfahren in Echtzeitanwendungen verlässlich gewährleisten zu können, müssen gemäß dem Stand der Technik aufgrund der Komplexität der bekannten Verfahren sehr kostenintensive Hardwareelemente eingesetzt werden, beispielsweise spezielle Grafikprozessoren oder Grafikkarten (vor allem auch Bildverarbeitungskarten) . Alternativ ist es bekannt, die Bestimmung der Bildbewegung lediglich anhand einiger weniger Bildpunkte in dem digitalen Bild durchzuführen, um somit die entsprechende Rechenzeit einzusparen. Auf den oben genannten Prinzipien beruhende Verfahren zur Ermittlung der Bildbewegung in einer zeitlichen Folge digitaler Bilder sind in [1], [2] und [3] beschrieben.

Der Einsatz kostenintensiver Hardware ist jedoch sehr nachteilig und ferner nur in bestimmten Anwendungen überhaupt möglich.

Ferner führt die Beschränkung auf einzelne Bildpunkte bei der Ermittlung der Bildbewegung dazu, dass lediglich ein kleines Feld von Bildpunkten mit den Bildpunkten zugeordneten Codierungsinformationen bei der Bewegungsermittlung berücksichtigt werden, wobei die einzelnen Bildpunkte spärlich über das gesamte Bild verteilt sind.

Unter Codierungsinformation ist im Weiteren eine Helligkeitsinformation ( uminanzinformation) und/oder eine Farbinformation (Chrominanzinformation) zu verstehen, die jeweils einem oder mehreren Bildpunkten zugeordnet ist/sind.

Diese geringe berücksichtigte Informationsmenge macht jedoch die an-s-ehliefrende Auswertung der Bildinformation schwierig und fehlerbehaftet, beispielsweise wenn es darum geht, ein Fahrzeug als ein zusammenhängendes Objekt anhand der

BewegungsInformation in einer Folge digitaler Bilder zu ermitteln und dessen Bewegung über mehrere digitale Bilder hinweg zu beschreiben.

Üblicherweise werden die ausgewählten Bildpunkte, die im Rahmen der Bewegungsermittlung in zeitlich aufeinander folgenden digitalen Bildern berücksichtigt werden, über Grauwertecken definiert, das heißt über Bildpunkte, die sich in einem Eckbereich von sprunghaften Übergängen in den den jeweiligen Bildpunkten zugeordneten uminanzwerten befinden. Diese Grauwertecken sind jedoch nicht notwendigerweise objektspezifisch. Dies gilt vor allen an den Objektgrenzen, da an den Objektgrenzen die Grauwertecken durch den Grauwertverlauf von Hintergrund und Objekt bestimmt werden. Da der Hintergrund jedoch nicht gleichförmig im Bild sein muss, führt in diesem Fall die zeitliche Zuordnung der Grauwertecken zu falschen Bewegungsinformationen.

In [4] und [5] sind Verfahren zur Ermittlung einer Kontur mit Kontur-Bildpunkten in einem digitalen Bild mit Bildpunkten, denen Codierungsinformation zugeordnet ist, beschrieben.

In [6] ist ferner eine Distanztransformation als morphologische Operation zur Bestimmung minimaler Abstände von Punkten einer betrachteten örtlichen Umgebung zu einer Kontur mit Kontur-Bildpunkten bekannt. In [7] und [8] sind zwei alternative Implementierungen der Distanztransformation aus [6] beschrieben.

Weiterhin ist es aus [9] bekannt, dass es möglich ist, lediglich aus einer Konturrepräsentation eines digitalen Bildes das gesamte digitale Bild wieder zu rekonstruieren.

Ferner ist in [10] ein Verfahren zum Segmentieren einer Bildfolge beschrieben, bei dem Konturinformation aus Segmentierungsinformationen von schon zuvor segmentierten Objekten ermittelt wird. Eine Berechnung von

Bewegungsinformation erfolgt auf der Grundlage der Objekt- bezogenen Konturinformation.

Bei dem in [11] beschriebenen Verfahren zur Ermittlung der Bewegung von Objekten in einer Folge digitalisierter Bilder wird ein statistisches Modell mit zwei Komponenten verwendet, einer Statik-Komponente (zum Beschreiben des Hintergrunds) und einer Bewegt -Komponente (zum Beschreiben von bewegten Objekten) .

Der Erfindung liegt das Problem zugrunde, eine vereinfachte und somit schnellere und kostengünstigere Ermittlung der Bewegung in einer Folge zeitlich aufeinander folgender Bilder anzugeben.

Das Problem wird durch das Verfahren und die Vorrichtung zur Ermittlung der Bewegung in mindestes zwei zeitlich aufeinander folgenden digitalen Bildern, das Computerlesbare Speichermedium und das Computerprogramm-Element mit den Merkmalen gemäß den unabhängigen Patentansprüchen gelöst.

Bei einem Verfahren zur Ermittlung der Bewegung in mindestens zwei zeitlich aufeinander folgenden Bildern sind in den digitalen Bildern Bildpunkte vorhanden, denen jeweils Codierungsinformation zugeordnet ist . Unter Verwendung der Codierungsinformationen wird in einem ersten Bild mindestens eine Kontur mit einer Vielzahl von auf der Kontur sich befindenden Kontur-Bildpunkten ermittelt. Unter Verwendung der auf der ermittelten Kontur des ersten Bildes sich befindenden Kontur-Bildpunkten wird eine Ermittlung der Bewegung bezüglich einer in einem zweiten Bild enthaltenen Referenz-Kontur mit Referenz-Kontur-Bildpunkten durchgeführt.

Eine Vorrichtung zur Ermittlung der Bewegung in mindestens zwei zeitlich aufeinander folgenden dig-italen Bildern weist einen Prozessor auf, der derart eingerichtet ist, dass die oben beschriebenen Verfahrensschritte durchführbar sind.

Auf einem computerlesbaren Speichermedium ist ein Programm gespeichert, das es einem Computer ermöglicht, nachdem es in einen Speicher des Computers geladen worden ist, die oben beschriebenen Verfahrensschritte durchzuführen zur Ermittlung der Bewegung in mindestens zwei zeitlich aufeinander folgenden digitalen Bildern.

Ein Computerprogramm-Element weist die oben beschriebenen Verfahrensschritte auf, nachdem es in einem Speicher des

Computer geladen worden ist und von dem Computer ausgeführt wird zur Ermittlung der Bewegung in mindestens zwei zeitlich aufeinander folgenden digitalen Bildern.

Anschaulich kann die Erfindung darin gesehen werden, dass die Ermittlung der Bewegung anhand der ermittelten, das heißt aus einem digitalen Bild extrahierten, Kontur in einem digitalen Bild bestimmt wird bezüglich einer Referenzkontur in einem zeitlich vorangegangenen oder zeitlich nachfolgenden Bild. Die Konturinformation wird erfindungsgemäß direkt aus der den Bildpunkten zugeordneten Codierungsinformation ermittelt.

Im Weiteren wird unter einer Kontur eine zusammenhängende, das heißt eine Folge von in einem Bild örtlich benachbarter Kontur-Bildpunkten bezeichnet. Anders ausgedrückt sind Bildpunkte zusammenhängend und bilden somit eine Kontur, wenn sie auf dem Bildraster, das heißt in dem digitalen Bild, unmittelbar benachbart zueinander angeordnet sind.

Die Verwendung der ermittelten Konturen und der sich darin befindenden Kontur-Bildpunkte im Rahmen der

Bewegungsermittlung in einer Folge digitaler Bilder erlaubt eine zeitliche Stabilisierung der ermittelten Bewegungsinformation und außerdem auch die Ermittlung und Erfassung selbst kleiner Bewegungen in der Folge zeitlich aufeinander folgender digitaler Bilder. Dies wird insbesondere dadurch ermöglicht, dass mittels der Ermittlung der Konturen und der Berücksichtigung der Konturen in der Bewegungsermittlung üblicherweise eine zeitliche Integration über die im Weiteren erläuterte anschaulich definierte Fläche durchgeführt wird, die durch die Verschiebung von Konturen in zeitlich aufeinander folgenden digitalen Bildern zwischen den beiden berücksichtigten Konturen gebildet wird.

Dies ist insbesondere vorteilhaft für die Bewegungsbestimmung im Fernfeld einer Videosequenz, das heißt insbesondere im Bildhintergrund einer Folge digitaler Bilder. Aufgrund der Perspektive liegen Bewegungen im Fernfeld einer Videosequenz, das heißt Bewegungen zwischen zwei aufeinander folgenden digitalen Bildern, üblicherweise unterhalb der Bildauflösung und können somit mit den üblicherweise durchgeführten Verfahren häufig gar nicht erst ermittelt werden.

Weiterhin führt die sehr gezielte Auswahl von im Rahmen der Bewegungsermittlung berücksichtigten Bildpunkten, nämlich die Berücksichtigung von zuvor in einem ersten Extraktionsschritt ermittelten Kontu -Bildpunkten, dazu, dass eine Ermittlung der Bewegung selbst in Echzeitanwendungen bei Einsatz üblicher Personal Computer ohne zusätzliche aufwendige Spezial-Hardware ermöglicht wird.

In diesem Zusammenhang ist anzumerken, dass Echtzeit kein eindeutig definierter Leistungsbegriff ist. Im Weiteren wird unter Echtzeit eine Verarbeitungszeit verstanden, die im Wesentlich kleiner als 40 ms beträgt. Ein Zeitintervall von 40 ms entspricht dem Zeitversatz zweier digitaler Einzelbilder einer analogen Videosequenz.

Bevorzugte Weiterbildungen der Erfindung ergeben sich aus den abhängigen Ansprüchen.

Die im Weiteren beschriebenen Ausgestaltungen der Erfindung gelten für das Verfahren, die Vorrichtung, das Computerprogramm-Element als auch für das computerlesbare Speichermedium.

Gemäß einer Ausgestaltung der Erfindung wird unter Verwendung der Codierungsinformation in dem zweiten Bild mindestens eine Referenzkontur mit einer Vielzahl von auf der Kontur sich befindenden Referenz-Kontur-Bildpunkten ermittelt.

Die Bewegungsermittlung kann sowohl ausgehend von einem zeitlich vorangegangenen Bild als auch von einem zeitlich nachfolgenden Bild durchgeführt werden, das heißt es kann sowohl eine Bewegungsprädiktion als auch eine Bewegungsermittlung in zeitlich rückschauender Betrachtung durchgeführt werden.

Anders ausgedrückt bedeutet dies, dass das zweite Bild als Referenzbild mit der Referenz-Kontur das gegenüber dem ersten Bild mit der extrahierten, bei der Bildbewegung berücksichtigten Kontur, zeitlich vorangegangene oder auch zeitlich nachfolgende Bild sein kann.

Bei der Ermittlung der Bildbewegung kann für die Referenz- Kontur und die sich auf der Referenz-Kontur befindenden Referenz-Kontur-Bildpunkten mittels einer morphologischen Operation ein Minimal-Abstandsbild ermittelt werden, das heißt anschaulich ein Feld von Werten, mit denen jeweils ein Minimal -Abstand eines Bildpunktes in dem Minimal-Abstandsbild zu einem Referenz-Kontur-Bildpunkt angegeben wird.

Als morphologische Operation kann eine Distanztransformation eingesetzt werden, wobei es sich herausgestellt hat, dass insbesondere die in [6] beschriebene Distanztransformation sehr geeignet ist und zu sehr guten Ergebnissen führt.

Ein Minimal -Abstandswert für einen Referenz -Kontur-Bildpunkt zu einem Zeitpunkt t zu einem Bildpunkt in einem Abstandsbild wird gemäß einer Ausgestaltung der Erfindung gemäß folgender Vorschrift ermittelt:

D_γ(ι)(x, y, t) = min [x, y]^τ - v' (l, t)

wobei mit

• ^Dv(l)(^x' Y' t) ^eiⁿ Minimal -Abstandswert zwischen dem

Bildpunkt [x, y] und einem Referenz-Kontur-Bildpunkts auf der Referenz-Kontur in dem zweiten Bild, • [x, y] ein Bildpunkt in dem Abstandsbild, • v¹ (l, t) ein Referenz-Kontur-Bildpunkt in dem zweiten Bild,

• 1 ein Referenz-Kontur-Bildpunktindex zur eindeutigen Identifizierung eines Referenz-Kontur-Bildpunkts auf der Referenz-Kontur in dem zweiten Bild,

• t ein Zeitpunkt, zu dem die Ermittlung durchgeführt wird, bezeichnet wird.

Gemäß einer weiteren Ausgestaltung der Erfindung ist es vorteilhaft, zusätzlich die Konturrichtung, das heißt die Richtung, in welcher die Kontrastveränderung entlang einer Kontur verläuft, zu berücksichtigen.

Durch diese Ausgestaltung der Erfindung wird die

Verlässlichkeit der ermittelten Bewegung weiter erhöht.

Die Erfindung eignet sich insbesondere zum Einsatz im Bereich der Erfassung von bewegten Objekten in einem Szenario, in dem es gilt, eine Vielzahl von bewegten Objekten voneinander und von nicht bewegten Objekten zu unterscheiden.

Ein sehr geeignetes Einsatzgebiet ist insbesondere die Verkehrsüberwachung bzw. die Ermittlung der Bewegung in Szenen, die von einer in einem fahrenden Fahrzeug installierten digitalen Kamera aufgenommen werden.

Ein Ausführungsbeispiel der Erfindung ist in den Figuren dargestellt und wird im Weiteren näher erläutert.

Es zeigen

Figur 1 ein Blockdiagramm, in dem die einzelnen

Verfahrensschritte der Bestimmung der Bildbewegung gemäß einem Ausführungsbeispiel der Erfindung dargestellt sind; Figur 2 ein Ablaufdiagramm, in dem die Verfahrensschritte zur Ermittlung der Bildbewegung gemäß einem Ausführungsbeispiel der Erfindung im Detail dargestellt sind;

Figur 3 eine Darstellung eines Abstandsbildes mit einer

Referenz-Kontur, mit der Referenz-Kontur zugeordneten Höhenlinien, sowie mit einer Kontur;

Figuren 4a bis 4c Ergebnisse der erfindungsgemäßen konturbasierten Bewegungsbestimmung für unterschiedliche Szenen.

Gemäß dem Ausführungsbeispiel ist eine Digitalkamera an einem Fahrzeug installiert und nimmt in Fahrtrichtung des sich bewegenden Fahrzeuges einen Aufnahmebereich auf .

Es wird somit mittels der Digitalkamera eine Folge digitaler Bilder erzeugt, wobei jedes digitale Bild eine Vielzahl von Bildpunkten und den Bildpunkten zugeordneten

Codierungsinformationen, gemäß diesem Ausführungsbeispiel den Bildpunkten zugeordnete Helligkeitswerte, aufweist.

Ein Helligkeitswert, der einem Bildpunkt, gekennzeichnet durch zwei Koordinaten x und y zu einem Zeitpunkt t identifizierten digitalen Bild zugeordnet ist, wird mit l(x, y, t) bezeichnet (vgl. Fig.l).

Gemäß diesem Ausführungsbeispiel wird für jeweils ein digitales Bild, gemäß diesem Ausführungsbeispiel im Weiteren bezeichnet als erstes digitales Bild, mit den Helligkeitswerten l(x, y, t) eine Konturextraktion durchgeführt. Anders ausgedrückt werden für das erste Bild Konturen ermittelt (Block 101 in dem Blockdiagramm 100 in Fig.l). Dies erfolgt dadurch, dass Kanten in dem digitalen Bild detektiert werden. Kanten markieren Kontrastsprünge in dem Verlauf der Helligkeitsinformation in dem digitalen Bild.

Wie oben schon dargelegt, werden im Weiteren zusammenhängende Ketten von Konturpunkten, das heißt als zusammenhängende Kanten, das heißt als eine zusammenhängende Folge von örtlich unmittelbar benachbarten Konturpunkten als Konturen bezeichnet .

Gemäß diesem Ausführungsbeispiel der Erfindung wird zur Konturextraktion das in [4], alternativ dazu das in [5] beschriebene Verfahren, durchgeführt.

Fig.2 zeigt den Schritt der Konturextraktion 101 für ein digitales Bild 201 im Detail in einem Ablaufdiagramm 200.

Für das digitale Bild 201 wird gemäß dem in Fig.2 dargestellten Ablaufdiagramm 200 eine Gradientenfilterung (Schritt 202) und anschließend eine gradientenbasierte Linienverdünnung (Schritt 203) durchgeführt.

In einem weiteren Schritt werden ermittelte Kanten-Bildpunkte e(x,y,t) von ermittelten Linien in dem digitalen Bild 201 miteinander verknüpft und es wird eine Kontur, im allgemeinen Fall eine Vielzahl von N Konturen in jedem digitalen Bild 201 ermittelt (Schritt 205) .

Als Ergebnis der Konturextraktion 101 liegt somit gemäß diesem Ausführungsbeispiel der Erfindung eine Datenstruktur v (t) vor, in der die N extrahierten Konturen in dem berücksichtigten digitalen Bild 201 enthalten und gespeichert sind, auf die im Folgenden direkt zugegriffen werden kann.

In einem weiteren Schritt erfolgt die Konturzuordnung (Schritt 102 in Fig.l) . Im Rahmen der Konturzuordnung 102 wird für jeden ermittelten Konturpunkt einer Kontur v (t) ein korrespondierender Punkt in einer Referenz-Kontur in einem zeitlich vorangegangenen digitalen Bild, das heißt ein Referenz-Kontur-Bildpunkt, ermittelt. Der Referenz-Kontur-Bildpunkt befindet sich auf einer Referenzkontur in dem zeitlich vorangegangenen Bild, v (t - l) bezeichnet somit die in dem vorangegangenen Zeitschritt ermittelte Konturstruktur.

Allgemein wird die Korrespondenz für jeden Kontur-Bildpunkt der Kontur über einen Verschiebungsvektor, auch Translationsvektor genannt, ausgedrückt.

Für den Translationsvektor soll gelten, dass mittels des jeweiligen Translationsvektors die Konturumgebung möglichst gut auf Referenz-Kontur-Bildpunkte aus dem vorangegangenen digitalen Bild abgebildet werden können.

Es wird die Annahme verwendet, dass die zeitliche Veränderung von Konturen näherungsweise durch eine Translation beschrieben wird. Die Verschiebung ist dann optimal, wenn die Summe der minimalen Abstände zwischen Punkten der betrachteten Konturumgebung und Referenz-Kontur-Bildpunkten der Referenz-Kontur v^M(t - l) minimal wird.

Zur Bestimmung der minimalen Abstände wird erfindungsgemäß eine morphologische Operation, gemäß diesem Ausführungsbeispiel die in [6] beschriebene Distanztransformation, eingesetzt .

Fig.3 zeigt zur weiteren Veranschaulichung das Prinzip der Zuordnung für zwei zeitlich aufeinander folgende Konturen, das heißt für Konturen aus zwei zeitlich aufeinander folgenden Bildern, für die jeweils eine Bewegungsbestimmung durchgeführt wird. Fig.3 zeigt ein Abstandsbild 300 mit einer Referenz-Kontur 301, sowie mit Höhenlinien 302, die mittels der in [6] beschriebenen Distanztransformation gebildet werden. Unter Höhenlinien werden im Weiteren diejenigen Linien in dem Abstandsbild verstanden, die einen konstanten minimalen Abstand zu der Referenz-Kontur, d.h. zu einem Referenz-Kontur-Bildpunkt auf der Referenz-Kontur aufweisen.

Die Distanztransformation wird für jede Referenz-Kontur, die im Rahmen der Bewegungsermittlung berücksichtigt wird, durchgeführt. Ergebnis der im Weiteren im Detail erläuterten Distanztransformation angewendet auf die Referenz-Kontur v' (l, t - l) ist in Fig.3 mittels der Höhenlinien 302 verdeutlicht .

Die Umgebung v^(k, t) eines Bildpunktes in dem mittels der

Distanztransformation gebildeten und in Fig.3 dargestellten Minimal-Abstandsbild 300 wird zur Bewegungsermittlung bezüglich einer Kontur 303, für welche die Bewegung ermittelt werden soll, verschoben.

Für jede dieser Verschiebungen kann an jedem Konturpunkt der minimale Abstand zu der Referenz-Kontur v' (l, t - l) anhand der

Höhenlinie 302 angegeben werden.

Die minimale Summe dieser ermittelten Abstände führt dann auf die optimale Verschiebung, näherungsweise auf die optimale Translation, in Fig.3 symbolisiert dargestellt mittels Translationsvektoren 304.

Dieses Prinzip der Konturzuordnung hat gegenüber einem direkten Vergleich von Konturen den Vorteil, dass Fehler bei der Konturdetektion einen geringeren Einfluss auf die Qualität der Bewegungsermittlung besitzen. Dies ist insbesondere dann von Bedeutung, wenn Konturen unvollständig oder in ihrem Verlauf unterbrochen sind.

Im Weiteren wird die Konturzuordnung 102 im Detail näher erläutert. In dem in Fig.2 dargestellten zweiten Block, das heißt der in dem Block der Konturzuordnung 102, wird die eigentliche Bewegung entlang der Konturen berechnet.

Um eine effiziente Verarbeitung der Konturen im Rahmen der digitalen Bildverarbeitung zu ermöglichen, wird im Weiteren die Bildrepräsentation in eine Datenstruktur überführt, die den direkten Zugriff auf Konturen als eine Kette von Konturpunkten ermöglicht.

Zur Konturrepräsentation wird somit jede Kontur mit vⁿ(t) bezeichnet. Der Konturindex n ist eine natürliche Zahl im Bereich von zwischen 1 und N, wobei mit N die Anzahl der in der Datenstruktur enthaltenen Konturen bezeichnet wird.

Nach der Generierung der Konturstruktur folgt in einem weiteren Schritt die zeitliche Zuordnung der Konturen.

Im Rahmen der Konturzuordnung wird für jeden Konturpunkt eine optimale Zuordnung bestimmt.

Werden zwei zeitlich aufeinander folgende Konturen, das heißt eine Kontur in einem ersten Bild v(k, t) und eine Referenz- Kontur v(l, t - l) betrachtet, so wird das oben beschriebene Optimierungskriterium gemäß folgender Energieminimierung formuliert:

it

Efei) = min v'(l)- ( ^ + T ² (1) k=k_i0 ¹

wobei mit • i ein Translationsvektor- Index zur eindeutigen

Identifizierung eines Translationsvektors,

• T_j_ ein i-ter Translationsvektor,

• Y_j_(k) ein Kontur-Bildpunkt in dem ersten Bild, • k ein Kontur-Bildpunktindex zur eindeutigen Identifizierung eines Kontur-Bildpunkts in dem ersten

Bild,

• v¹ (l) ein Referenz-Kontur-Bildpunkt in dem zweiten Bild, • 1 ein Referenz-Kontur-Bildpunktindex zur eindeutigen

Identifizierung eines Referenz-Kontur-Bildpunkts auf der Referenz-Kontur in dem zweiten Bild,

• k-j_o ein erster Referenz-Kontur-Bildpunkt,

• *j_t ein zweiter Referenz-Kontur-Bildpunkt, und • ^Et_jι) ein minimaler Energiewert, bezeichnet wird.

Gemäß Vorschrift (1) wird die Differenzfläche zwischen zwei Konturen, das heißt zwischen der Kontur v(k, t) und der Referenz-Kontur v(l, t - l) mittels der Summe der minimalen Abstände approximiert.

Die optimale Translation ergibt sich aus der minimalen Energie E(T.J_) ZU:

T._j_ = arg inE^), (2)

T,

wobei mit T_j_ eine optimale Translation bezeichnet wird.

Mit Hilfe der Distanztransformation, wie Sie im Weiteren näher erläutert wird, erfolgt die Bestimmung der minimalen Abstände sehr effizient.

Mittels der Distanztransformation, welche auf die Referenz- Kontur v(l, t - l) gemäß dem in [6] beschriebenen Verfahren angewendet wird, wird ein Minimal -Abstandsbild 300 mit Minimal -Abstandswerten D_v(_)(x, y, t - l) erzeugt, wie es in

Fig.3 beispielhaft dargestellt ist.

Jeder Bildwert, d.h. jeder Minimal -Abstandswert

^Dv(l)(^x< Y> ^{fc ~} !) iⁿ dem Abstandsbild 300 enthält die Information des minimalen Abstandes, das heißt anders ausgedrückt den minimalen Abstandswert D_VΛL")(X, y, t - l) eines

Bildpunkts in dem Minimal -Anstandsbild 300 zu einem Referenz- Kontur-Bildpunkt der Referenz-Kontur v(l, t - l) .

Die Distanztransformation wird gemäß folgender Vorschrift auf jeden Referenz-Konturpunkt und den entsprechenden Bildpunkt in dem Abstandsbild D_v )(x, y, t - l) 300 angewendet gemäß:

D (ι)(x, y, t - l) = min [x, y]^τ - v' (1, t - l) (3)

wobei mit

• ^Dv(l)(^x' Yι ^{fc ~~} !) ^ei-ⁿ Minimal -Abstandswert zwischen dem Bildpunkt [x, y] und einem Referenz-Kontur-Bildpunkts auf der Referenz-Kontur in dem zweiten Bild,

• [x, y] ein Bildpunkt in einem Distanztransformations-

Bild,

• t ein Zeitpunkt,

• v' (l) ein Referenz-Kontur-Bildpunkt in dem zweiten Bild, und

• 1 ein Referenz-Kontur-Bildpunktindex zur eindeutigen Identifizierung eines Referenz-Kontur-Bildpunkts auf der Referenz-Kontur in dem zweiten Bild, bezeichnet wird.

Damit lässt sich Vorschrift (1) umwandeln in folgende Vorschrift :

K-l Efo) = ∑ (D_v'(_l)t(k) + τ_±)f . (4) k=0

Dies bedeutet anschaulich, dass die Energien bestimmt werden, indem die Kontur, für welche die Bestimmung unter Berücksichtigung bezüglich der Referenz-Kontur bestimmt werden soll, über das Abstandsbild 300, das heißt über die Funktion, das heißt die minimalen Abstandswerte ^Dv(i)(^x' Y/ t - l) n dem Abstandsbild 300 verschoben wird und für jede Verschiebung, das heißt Translation, die Abstandswerte (Distanzwerte) aus dem Abstandsbild gelesen, das heißt ermittelt und aufsummiert werden.

In Vorschrift (4) wird die minimale Distanz somit nur einmal bei der Erzeugung des Abstandsbildes 300 berechnet.

Dies ist gegenüber der für jeden Bildpunkt zu ermittelnden Approximation gemäß Vorschrift (1) eine erhebliche

Vereinfachung, da m (1) die Ermittlung der Distanz für jede Translation erforderlich ist.

Um die Bewegungsinformation entlang der jeweiligen Kontur bzw. der Kontur-Bildpunkte zeitlich zu stabilisieren, wird eine eindeutige Zuordnung von Vorgangerkontur und Nachfolgerkontur ermittelt .

Dies erfolgt erfmdungsgemaß durch eine Modifikation von Vorschrift (4), so dass sich zur Ermittlung der jeweiligen Energie erfmdungsgemaß folgende Vorschrift ergibt:

E(T

Anschaulich bedeutet Vorschrift (5) , dass Energien nur bestimmt werden, wenn der Translationsvektor T-_ auf einen

Konturpunkt in dem Vorgangerbild, das heißt auf einem Referenz-Kontur-Bildpunkt zeigt. Sonst wird der jeweilige Energiewert auf einen maximalen, vorgegebenen Wert (MAX_VALUE) gesetzt.

Nachdem für jeden Kontur-Bildpunkt ein Referenz-Kontur- Bildpunkt und damit ein entsprechender optimaler Translationsvektor ermittelt worden ist (Schritt 206) , wird für die einzelnen Kontur-Bildpunkte eine neue, stabilisierte Bewegung errechnet (Schritt 207) .

Dies ist möglich, indem die Translationswerte aus der Vergangenheit, das heißt aus vorangegangenen Bewegungsermittlungen gespeichert werden.

Mit T^L(t) werden die L-vergangenen Translationen bezeichnet, die über die Vorganger-Referenz-Kontur-Bildpunkte bekannt sind.

Die neue Bewegung wird dann beispielsweise mittels einer Mittelwertbildung bestimmt. Anders ausgedrückt erfolgt eine zeitliche Rückkopplung bei der Bestimmung der jeweiligen Translationen.

Zur Mittelwertbildung werden folgende Verfahrensschritte durchgeführt. In einem ersten Schritt wird die mittlere Verschiebung

üfr⁾ = n ^■ + ϊ?e- - ¹⁾ + + _TL-1

(t " 1))

berechnet .

Ferner werden die neuen vergangenen Translationsschätzungen, das heißt die neuen Translationsvektoren gemäß folgender Vorschrift abgespeichert :

τj(t) = [r_i# τ?(t - l), ... , τj^"2(t - l)j. (7)

Alternativ kann die Bewegung dadurch ermittelt werden, dass die ermittelten Translationsvektoren rekursiv gemäß folgender Vorschrift gefiltert werden:

π_i(t) = m_i(t - l) + α • ( ^t - l) - τ_±) . (8) Die rekursive Filterung hat den Vorteil, dass sie weniger Speicherplatz benötigt.

Als letzter Verarbeitungsschritt wird gemäß dieser Ausgestaltung der Erfindung die Kontur in das Abstandsbild überführt, so dass der Wert an jedem Bildpunkt in dem Abstandsbild dem minimalen Abstand zu einem Kontur-Bildpunkt entspricht gemäß folgender Vorschrift:

D*v(i)(x, y, t - l) = min [x, y]^T - v(l, t - l) (8)

Alternativ kann die Distanztransformation gemäß den in [7] und [8] beschriebenen Verfahren implementiert sein.

Im Weiteren wird das in [6] beschriebene Verfahren kurz dargestellt .

Die Darstellung dient insbesondere dazu, den numerischen Aufwand bei der Implementierung des oben beschriebenen Verfahrens darzulegen.

Zur Bestimmung der Distanztransformation müssen mitunter Abstandswerte zwischen den jeweiligen Bildpunkten betrachtet werden, die auf dem Bildraster, das heißt in dem jeweiligen betrachteten digitalen Bild relativ weit voneinander örtlich entfernt sind.

Die Berechnung der Distanzwerte ist damit eine relativ numerisch aufwendige Operation.

Anstatt für einen Bildpunkte alle möglichen Abstandswerte zu Kontur-Bildpunkten zu bestimmen und in Relation zueinander zu setzen, werden bei der Distanztransformation ausschließlich lokale Abstände betrachtet.

Auf diese Weise kann der wahre euklidische Abstand jedoch nur approximiert werden. Die in [6] beschriebene parallele Variante der Distanztransformation besitzt folgende formale Struktur.

Zunächst wird iterativ eine lokale Maske über das Abstandsbild geschoben. An der Position des Maskenzentrums wird der neue Distanzwert in dem Abstandsbild zu der Referenz-Kontur gemäß folgender Vorschrift berechnet:

Dⁿ(x, y) = min (p^{n 1}(x, y) + mask(u, v)j. .9⁾

UjVemask¹

Dabei wird mit n jeweils ein Iterationsschritt eindeutig identifiziert. Mit D (x, y) wird das invertierte Abstandsbild bezeichnet .

Auf diese Weise wird erreicht, dass initial an den

Konturbildpunkten der Bildwert, der dem Abstandswert entspricht, mit dem Wert „0" vorliegt und alle restlichen Bildwerte einen konstanten Wert größer als die zu erwartende maximale Distanz aufweisen.

Mit mask(u, v) wird die lokale Maske bezeichnet. Die

Maskenwerte entsprechen den lokalen Abstandswerten der Bildpunkte an den jeweiligen Maskenpositionen zum Maskenzentrum.

Gemäß [6] werden für verschiedene Maskengrößen die optimalen lokalen Abstandswerte bestimmt, so dass die resultierenden Abstandswerte möglichst wenig von der wahren euklidischen Distanz abweichen.

Dabei gilt prinzipiell, dass je größer die Maske ist, desto geringer ist die Abweichung, das heißt der numerische Fehler.

Abhängig von der Distanztransformation, das heißt von dem Abstandsbild, erfolgt in einem letzten Schritt die zeitlich rückgekoppelte Bewegungsbestimmung 103, die das Ergebnis der Konturzuordnung über mehrere zeitlich aufeinander folgende Bilder verwendet. Im Rahmen der Ermittlung der Bildbewegung wird die Konturzuordnung 102 genutzt, um die Bewegung der Konturen zeitlich zu stabilisieren. Als Ergebnis dieses Schrittes wird zu jedem Kontur-Bildpunkt ein Bewegungsvektor angegeben.

Mit M (k, t) wird die Menge aller Bewegungsvektoren an jedem Kontur-Bildpunkt zu einem Zeitpunkt t bezeichnet.

In den Fig.4a bis Fig.4c werden Ergebnisse der oben dargestellten Implementierung der Bewegungsermittlung gezeigt. Die gesamte Verarbeitungszeit auf einem Pentium III mit 650 MHz beträgt für eine Bildgröße von 128 Zeilen zu 128 Spalten ca. 20 ms.

Die genaue Verarbeitungszeit hängt jedoch mit der Anzahl der zu bearbeitenden Kontur-Bildpunkte zusammen.

Im Weiteren werden einige Alternativen zu dem oben dargelegten Ausführungsbeispiel erläutert.

Es ist anzumerken, dass die Objektkonturen vom Eintritt eines Objektes in einen überwachten, das heißt von einer Digitalkamera aufgenommenen Aufnahmebereich bis zu seinem

Verlassen hin durchgängig verfolgt werden kann. Damit können beispielsweise für eine automatische Erfassung von Verkehrsdaten direkt die Verweil Zeiten von Fahrzeugen in dem Aufnahmebereich bestimmt werden und beispielsweise in der Stauprognose oder auch im Rahmen der Kollisionsvermeidung von

Fahrzeugen berücksichtigt werden.

Die KonturZuordnung, wie sie oben beschrieben wurde, beruht zunächst nur auf dem Auswerten der Abstandswerte und damit auf der Form der Kontur selbst. Bei vielen technischen Objekten, beispielsweise bei Fahrbahnmarkierungen oder Verkehrsschildern treten jedoch häufig parallele Konturverläufe auf. Die Form allein kann somit nicht immer ein eindeutiges Kriterium darstellen. Somit wird alternativ der Konturform eine zusätzliche Information beigefügt, nämlich die Konturrichtung, mittels der angegeben wird, in welcher Richtung der Kontrastsprung in der jeweiligen Kontur erfolgt.

Die Konturrichtung wird automatisch mit der Konturgenerierung bestimmt. Bei einer weißen Fahrbahnmarkierung erfolgt ein Grauwertwechsel von dunkel zu hell und wieder zurück zu dunkel. Der linke und rechte Rand der jeweiligen Kontur verlaufen dann parallel, aber ihre Konturrichtung ist entgegengesetzt.

Um die Konturrichtung als zusätzliches Merkmal zu nutzen, wird wie folgt vorgegangen:

• Ähnlich der Distanztransformation wird die Richtungsinformation von v^Mt - 1 dilatiert.

• Bei der Summation der Abstandswerte werden die Fälle in einer Kostenfunktion bestraft, das heißt negativ bewertet, bei der die Richtung des aktuellen Konturpunkts mit der dilatierten Richtung nicht übereinstimmt.

Anschaulich wird durch die Erfindung ein sehr vorteilhafter Kompromiss zwischen Datenreduktion und Erhaltung der wesentlichen Bildinformation in einer Folge digitaler Bilder angegeben.

Wie in [9] beschrieben, ist es sogar möglich, aus einer Konturrepräsentation das gesamte digitale Bild wieder zu rekonstruieren .

Anschaulich stellt die Erfindung aufgrund der Verwendung von Konturen zur Bewegungsermittlung einen korrelationsbasierten Ansatz dar, der insbesondere hinsichtlich Segmentierungsfehlern wesentlich robuster ist als die bekannten lediglich bildpunktbasierten Verfahren.

Außerdem ist aufgrund mittels der Distanztransformation eine sehr effiziente Implementierung der Erfindung angegeben.

In diesem Dokument sind folgende Veröffentlichungen zitiert:

[1] S. M. Smith, ASSET-2 : Real-Time Motion Segmentation and Shape Tracking, IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 17, No . 8,

Seite 814-820, 1995

[2] W. Enkelmann et al, Obstacle Detection by Real-Time Optical Flow Evaluation, Intelligent Vehicles 1994, Seite 97-102, 1994

[3] D. Beymer, P. McLauchlan et al , A Real-Time Computer

Vision System for Measuring Traffic Parameters,

CVPR'97, 1997

[4] J. Canny, A Computational Approach to Edge Detection,

IEEE Transactions on Pattern Analysis and Machine

Intelligence, Vol. 6, 1998

[5] R. Nevatia, K. R. Babu, Linear Feature Extraction and Description, Computer Graphics and Image Processing, Seite 257-269, 1980

[β] G. Borgefors, Distance Transformation in Digital Images, Computer Vision, Graphics and Image

Processing, Vol. 34, Seite 344-371, 1986

[7] P.E. Danielsson, Euclidean Distance Mapping, Computer

Graphics and Image Processing, Vol. 14, Seite 227 - 248, 1980

[8] P. Soille, Morphologische Bildverarbeitung, Springer- Verlag, 1998

[9] Y. Itoh, An Edge-Oriented Progressive Image Coding, IEEE Transactions on Circuits and Systems for Video Technology, Vol. 6, 1996 [10] US 7,137,913

[11] N. Paragios und R. Deriche, Geodesic Active Contours and Level Sets for the Detection and Tracking of Moving Objects, IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 22, Nr. 3, S. 266 - 280, März 2000

Bezugszeichenliste

100 Blockdiagramm

101 Konturextraktion

102 KonturZuordnung

103 Bewegungsbestimmung

200 Ablaufdiagramm

201 Digitales Bild

202 Gradientenausdünnung

203 Gradientenfilterung

204 Eckpunkt-Verknüpfung

205 Bilden der Konturstruktur

206 Bewegungsermittlung

207 Distanztransformation

300 Abstandsbild

301 Referenz-Kontur

302 Höhenlinien

303 Referenz-Kontur

304 Translationsvektor

Claims

Patentansprüche

1. Verfahren zur Ermittlung der Bewegung in mindestens zwei zeitlich aufeinander folgenden digitalen Bildern mit Bildpunkten, denen Codierungsinformation zugeordnet ist,

• bei dem unter Verwendung der Codierungsinformation in einem ersten Bild mindestens eine Kontur mit einer Vielzahl von auf der Kontur sich befindenden Kontur- Bildpunkten ermittelt wird, und • bei dem unter Verwendung der auf der ermittelten Kontur des ersten Bildes sich befindenden Kontur-Bildpunkte die Bewegungsermittlung durchgeführt wird bezüglich einer in einem zweiten Bild enthaltenen Referenz-Kontur mit Referenz-Kontur-Bildpunkten.

2. Verfahren nach Anspruch 1, bei dem unter Verwendung der Codierungsinformation in dem zweiten Bild mindestens eine Referenz-Kontur mit einer Vielzahl von auf der Kontur sich befindenden Referenz-Kontur- Bildpunkten ermittelt wird.

3. Verfahren nach Anspruch 1 oder 2,

• bei dem im Rahmen der Bewegungsermittlung Minimal - Abstandswerte zwischen Bildpunkten eines Abstandsbildes und der Referenz-Kontur mittels einer morphologischen Operation bestimmt werden, und

• bei dem die Minimal -Abstandswerte gespeichert werden.

4. Verfahren nach Anspruch 3 , bei dem als morphologische Operation eine Distanztransformation verwendet wird.

5. Verfahren nach Anspruch 3 oder 4 , bei dem ein Minimal -Abstandswert D_v(]_")(x, y, t - l) für einen Kontur-Bildpunkt v' (l, t) zu einem Zeitpunk t zu einem

Bildpunkt (x, y) gemäß folgender Vorschrift ermittelt wird: ^Dv(l)(^x< y- t) = min [x, y]^T - v' (l, t)

wobei mit

• ^Dv(l)(^x' ' ^fc) ^e^-ⁿ Minimal -Abstandswert zwischen dem Bildpunkt [x, y] und einem Referenz-Kontur-Bildpunkts auf der Referenz-Kontur in dem zweiten Bild,

• [^χ y] ^e*iⁿ Bildpunkt in dem Abstandsbild,

• v' (l, t) ein Referenz-Kontur-Bildpunkt in dem zweiten

Bild, • 1 ein Referenz-Kontur-Bildpunktindex zur eindeutigen

• t ein Zeitpunkt, zu dem die Ermittlung durchgeführt wird, bezeichnet wird.

6. Verfahren nach einem der Ansprüche 1 bis 5, bei dem die Kontrastrichtung, in welcher die Kontrastveränderung entlang einer Kontur verläuft, bei der Bewegungsermittlung berücksichtigt wird.

7. Vorrichtung zur Ermittlung der Bewegung in mindestens zweit zeitlich aufeinander folgenden digitalen Bilder mit Bildpunkten, denen Codierungsinformation zugeordnet ist, mit einem Prozessor, der derart eingerichtet ist, dass folgende Verfahrensschritte durchführbar sind

• unter Verwendung der Codierungsinformation wird in einem ersten Bild mindestens eine Kontur mit einer Vielzahl von auf der Kontur sich befindenden Kontur-Bildpunkten ermittelt und

• unter Verwendung der auf der ermittelten Kontur des ersten Bildes sich befindenden Kontur-Bildpunkte wird eine Bewegung durchgeführt bezüglich einer in einem zweiten Bild enthaltenen Referenz-Kontur mit Referenz- Kontur-Bildpunkten.