WO2005062256A1

WO2005062256A1 - Verfahren zum automatisierten, nachträglichen entfernen von bewegten objekten aus einem mit einem bildaufzeichnenden gerät aufgenommenen bild, bildverarbeitungssystem und computerprogrammprodukt

Info

Publication number: WO2005062256A1
Application number: PCT/EP2004/053510
Authority: WO
Inventors: Gero BÄSE; Robert Kutka; Norbert Oertel
Original assignee: Siemens Aktiengesellschaft
Priority date: 2003-12-19
Filing date: 2004-12-15
Publication date: 2005-07-07
Also published as: DE10359928A1

Abstract

Es wird ein Verfahren zum automatisierten, nachträglichen Entfernen von bewegten Objekten (3) aus einem mit einem Bildaufzeichnenden Gerät aufgenommenen Bild beschrieben, bei dem eine Folge von Bildern (1a, 1b, …, 1n) mit zumindest einem unbewegten oder statischen Gegenstand (2), der von zumindest einem bewegten Objekt (3) zeitweilig und/oder teilweise verdeckt ist, aufgenommen wird, korrespondierende Bildbereiche (6a, 6b, …, 6n) der Folge von Bildern (1a, 1b, …, 1n) mit jeweils einem Bildwert (a) bewertet werden, und die ermittelten Bildwerte (a) mit einer Statistikfunktion beaufschlagt werden, um aus der Folge von Bildern (1a, 1b, ...1n) die Bildbereiche mit ausschliesslich unbewegten Gegenständen (2) ausfindig zu machen und zu einem Bild zusammenzusetzen, das um die bewegten Objekte bereinigt ist.

Description

Beschreibung

Verfahren zum automatisierten, nachträglichen Entfernen von bewegten Objekten aus einem mit einem Bildaufzeichnenden Ge- rät aufgenommenen Bild, Bildverarbeitungssystem und Computer- programrnprodukt

Die Erfindung betrifft ein Verfahren zum automatisierten, nachträglichen Entfernen von bewegten Objekten aus einem mit einem Bildaufzeichnenden Gerät aufgenommenen Bild. Die Erfindung betrifft weiterhin ein Bildverarbeitungssystem zur Durchführung des erfindungsgemäßen Verfahrens sowie ein Computerprogrammprodukt .

Bei einer Aufnahme eines Bildes eines unbewegten oder statischen Gegenstandes, wie z.B. eines Gebäudes, mit einem Bildaufzeichnenden Gerät, z.B. einer Kamera oder einem Videohandy, kommt es häufig vor, dass der unbewegte Gegenstand durch ein oder mehrere bewegte Objekte, wie z.B. Menschen oder vor- überfahrende Fahrzeuge, verdeckt ist. In vielen Fällen wäre es wünschenswert, den unbewegten Gegenstand ohne diesen verdeckende Objekte aufzunehmen. Die Überdeckung erschwert z.B. die Weiterverarbeitung des Bildes, wenn dieses zur Konstruktion einer virtuellen Umgebung herangezogen wird.

Der Benutzer des Bildaufzeichnenden Gerätes ist deshalb bislang gezwungen, so lange zu warten, bis der aufzunehmende unbewegte Gegenstand frei von einer Überdeckung eines oder mehrerer bewegter Objekte ist. Gerade an belebten Orten oder un- ter Zeitdruck ist dies jedoch nur schwer möglich.

Die Aufgabe der vorliegenden Erfindung ist es daher, ein Verfahren anzugeben, mit dem bewegte Objekte aus einem mit einem Bildaufzeichnenden Gerät aufgenommenen Bild nachträglich auf einfache Weise und kostengünstig entfernt werden können. Eine weitere Aufgabe besteht darin, ein Bildverarbeitungssystem anzugeben, mit dem das Verfahren ausgeführt werden kann. Diese Aufgaben werden mit einem Verfahren mit den Merkmalen des Patentanspruches 1 sowie mit einem Bildverarbeitungssystem mit den Merkmalen des Patentanspruches 15 gelöst.

Das erfindungsgemäße Verfahren zum automatisierten, nachträglichen Entfernen von bewegten Objekten aus einem mit einem Bildaufzeichnenden Gerät aufgenommenen Bild umfasst zunächst die Aufnahme einer Folge von Bildern mit zumindest einem un- bewegten oder statischen Gegenstand, der von zumindest einem bewegten Objekten zeitweilig und/oder teilweise verdeckt ist. Es erfolgt ein Bewerten korrespondierender Bildbereiche der Folge von Bildern mit jeweils einem Bildwert. Anschließend werden die ermittelten Bildwerte mit einer Statistikfunktion beaufschlagt, um aus der Folge von Bildern die Bildbereiche mit ausschließlich unbewegten Gegenständen ausfindig zu machen und zu einem Ergebnisbild zusammenzusetzen, das um die bewegten Objekte bereinigt ist.

Mit anderen Worten schlägt die Erfindung vor, den gewünschten, unbewegten Gegenstand mit Hilfe eines vorzugsweise digitalen Bildaufzeichnenden Gerätes, wie z.B. einem Videohandy, einem PDA (Personal Digital Assistant) , einer Digitalkamera, usw., aufzunehmen, um aus der Mehrzahl an vorliegenden Auf- nahmen automatisch die bewegten von den unbewegten Objekten zu unterscheiden und auszufiltern. Damit kann aus verschiedenen Einzelbilder heraus ein lückenloses Bild des unbewegten, statischen Gegenstandes konstruiert werden.

Das erfindungsgemäße Bildverarbeitungssystem weist ein Bildaufzeichnendes Gerät, einen mit diesem gekoppelten Speicher zur Speicherung einer Mehrzahl an Bildern und eine Auswerteeinheit auf, die auf die in dem Speicher gespeicherten Daten zugreifen kann und die dazu eingerichtet ist, das erfindungs- gemäße Verfahren auszuführen. Gemäß einer bevorzugten Ausgestaltung erfolgt das Bewerten korrespondierender Bildbereiche mit einem jeweiligen Bildwert iterativ. Zu diesem Zweck wird jedes Bild der Folge von Bildern in eine Anzahl an Blöcke unterteilt, die vorzugsweise regelmäßig in einem Koordinatensystem angeordnet sind. Jeder dieser Blöcke entspricht einem Bildbereich. Zum Bewerten der Bildbereiche der Folge von Bildern wird beispielsweise in dem ersten Bild ein Bildbereich ausgesucht und mit den korrespondierenden Bildbereiche der übrigen Bilder der Folge von Bil- dern bewertet. Im nächsten Schritt, wird beispielweise der zu dem gerade bewerteten Bildbereich benachbarte Bildbereich ausgesucht. Es erfolgt wiederum eine Bewertung mit korrespondierenden Bildbereichen der übrigen Bilder der Folge von Bildern. Diese Vorgehen wird iterativ fortgesetzt bis alle kor- respondierenden Bildbereiche der Folge von Bildern bewertet wurden .

In einer bevorzugten Ausgestaltung entspricht dabei ein Bildbereich einem Bildpunkt oder Pixel. Hierdurch lässt sich eine größtmögliche Genauigkeit beim Ausfiltern der bewegten Objekte erzielen.

Gemäß einer bevorzugten Ausgestaltung greift die Statistikfunktion auf einen aus der Statistik bekannten Median- Operator zurück. Der Median-Operator wird dabei bildbereichs- weise ausgeführt. Sind beispielsweise aj,j,ι , ... , a_±,j,_n die Werte der Bildbereiche an der Position i,j in dem Koordinatensystem für insgesamt n Bilder und sind ei,-, die Werte der Bildpunkte an der Position i,j für das zu errechnende Ergeb- nisbild, so errechnet sich das Ergebnisbild wie folgt:

ei, j = med(aj.,j,ι, ... ,a_{if rn})

wobei "med" stellvertretend für den Median-Operator steht. Diese Vorgehensweise ist unempfindlich gegenüber kleinen, durch Rauschen hervorgerufenen Werteänderungen der Bildwerte. Bei dieser Ausgestaltung sind insgesamt so viele Aufnahmen erforderlich, dass samtliche Bildbereiche unbewegter Gegenstande häufiger als bewegte Objekte auftreten.

Gemäß einer anderen bevorzugten Ausgestaltung greift die Sta- tistikfunktion auf einen Histogramm-Operator an Stelle des Median-Operators zurück. Der Histogramm-Operator gibt den häufigsten Bildwert "jeweiliger korrespondierender Bildbereiche an. Das Ergebnisbild errechnet sich in diesem Fall gemäß

e_1(] = h(a_lfD,ι, ... , a_lr-,,_n) •

Zweckmaßigerweise wird dabei eine Häufigkeitsverteilung der Bildwerte korrespondierender Bildbereiche erstellt, wobei der Bildwert mit dem häufigsten Vorkommnis als Ergebniswert aus- gewählt wird.

Als Bildwert und damit als Kriterium für die Entscheidung können zweckmaßigerweise entweder die Helligkeit eines Bildbereiches oder ein oder mehrere Farbwerte eines Bildbereiches bewertet und im Falle mehrerer Farbwerte überlagert werden.

Zweckmaßigerweise erfolgt als weiterer Verfahrensschritt für jedes Bild der Folge von Bildern eine Reduktion des Bildrauschens, um die Genauigkeit des erfindungsgemäßen Verfahrens zu verbessern. Durch das bei digitalen Bildaufzeichnenden Geraten übliche Bildrauschen ist es unwahrscheinlich, dass zwei Bildwerte exakt gleich sind, so dass eine Auswertung mittels der Statistikfunktion erschwert wird. Es ist deshalb zweckmäßig, vor dem Beaufschlagen der Bildwerte mit der Statistik- funktion das Bildrauschen zu reduzieren. Dies kann gemäß einer Ausgestaltung der Erfindung mittels einer Tiefpassfilterung erfolgen. Alternativ ist die Quantisierung der Bildbereiche denkbar.

Bevorzugt erfolgt die Aufnahme der Folge von Bildern aus der gleichen Perspektive. Stimmt die Perspektive jedoch nicht genau überein, so erfolgt nach der Aufnahme der Folge von Bildern zunächst das Bestimmen übereinstimmender Bildausschnitte der Folge von Bildern, so dass korrespondierende Bildbereiche aus unterschiedlichen Bildern in einem Koordinatensystem an der gleichen Position zum Liegen kommen. Für diesen Verfahrensschritt sind sogenannte Blockmatching-Verfahren bekannt, die die Verschiebung des Bildhintergrundes, der die statischen oder unbewegten Gegenstände umfasst, erfasst und kompensiert. Nach diesem Ver- fahrensschritt liegt eine Folge von Bildern vor, wobei korrespondierende Bildbereiche aus den verschiedenen Bildern der Folge von Bildern an der gleichen Position in einem Koordinatensystem zum Liegen kommen.

Das erfindungsgemäße Verfahren lässt sich bereits durchführen, wenn korrespondierende Bildbereiche des statischen bzw. unbewegten Gegenstandes in nur zwei Bildern sichtbar sind. Die Folge von Bildern umfasst damit wenigstens drei Bilder. Bevorzugt wird die Anzahl der Bilder der Folge von Bildern jedoch in Abhängigkeit der bewegten Objekte vor dem unbewegten Gegenstand oder den unbewegten Gegenständen gewählt . Anders ausgedrückt bedeutet dies, je mehr bewegte Objekte den unbewegten Gegenstand zeitweise und/oder teilweise verdecken, desto größer muss die Anzahl der Bilder der Folge von Bildern sein, um zu einem zuverlässigen Ergebnis zu gelangen.

Die Erfindung und deren Vorteile werden nachfolgend anhand der Figuren näher erläutert. Es zeigen:

Figur la bis lc eine Folge von Aufnahmen mit einem statischen Gegenstand und einem bewegten Objekt,

Figur 2a bis 2c der jeweiligen Bildern zugeordnete Bildwerte, die einer weiteren statistischen Aus- wertung unterzogen werden, Figur 3 das mit dem erfindungsgemäßen Verfahren ermittelte Ergebnisbild aus der Folge von Bildern, und

Figur 4 ein Bildverarbeitungssystem.

Figur 1 zeigt eine Folge von Bildern, die aus der gleichen Perspektive zu unterschiedlichen Zeitpunkten hintereinander aufgenommen wurden. In jeder der Figuren la bis lc ist ein statischer Gegenstand 2 in Form von drei nebeneinander angeordneten Häusern zu erkennen. Im Vordergrund bewegt sich ein Kraftfahrzeug, welches ein bewegtes Objekt 3 darstellt, vom linken Bildrand in Richtung des rechten Bildrandes.

Die Anzahl n der Folge von Bildern ist prinzipiell beliebig, darf jedoch nicht geringer als 3 sein. Die Anzahl der Folge von Bildern bestimmt sich im Wesentlichen nach der Anzahl der bewegten Objekte, die einen statischen Gegenstand zeitweilig und/oder teilweise verdecken.

Die Figuren la bis lc zeigen, wie erwähnt, den Idealfall, in dem die Aufnahme der Folge von n Bildern aus der gleichen Perspektive erfolgt. Ist dies aus bestimmten Gründen nicht möglich, so müssen zunächst, z.B. mittels eines Blockmat- ching-Verfahrens zur Verschiebungs- oder Disparitätsschätzung übereinstimmende Bildausschnitte ausfindig gemacht werden. Zu diesem Zweck erfassen die Blockmatching-Verfahren die Verschiebung der statischen Gegenstände, oder allgemeiner des Bildhintergrundes, um die Verschiebung zu kompensieren. Nach Durchführung dieser aus dem Stand der Technik hinlänglich bekannten Verfahren liegen Bildausschnitte übereinstimmender Größe vor. Wird, wie dies in den Figuren la bis lc ersichtlich ist, ein Raster mit gleich großen Bildbereichen über ein jeweiliges Bild gelegt, so befinden sich korrespondierende Bildbereiche 5 der Folge von Bildern an der gleichen Position in dem Koordinatensystem. Jeder der Bildbereiche 5, die prinzipiell von beliebiger Größe sein können, wird mit einem Bildwert bewertet. Bevorzugt beträgt die Größe eines Bildbereiches einen Bildpunkt (Pixel) , da das Verfahren hierdurch die größte Genauigkeit er- zeugt. Der Bildwert kann die Helligkeit eines Bildbereiches darstellen. Als Alternative zur Luminanz können als Bildwert ein oder mehrere Farbwerte eines Bildbereiches bewertet und im Falle mehrerer Farbwerte überlagert werden.

Eine solche Bewertung mit einem Bildwert an der Stelle j längs der x-Achse jeweiliger Bilder ist in den Figuren 2a bis 2c dargestellt. Die dargestellten Bildwert-Verläufe sind lediglich beispielhaft für die Erklärung gewählt. Es wird dabei davon ausgegangen, dass der Bildwert bei einem Bild mit aus- schließlich statischen Gegenständen einen in etwa gleichmäßigen Verlauf aufweist. Durch das von links nach rechts sich bewegende Fahrzeug wird durch das Bildaufzeichnende Gerät ein geringerer Helligkeitswert verzeichnet. Die Bewegung des Fahrzeuges oder allgemein des bewegten Gegenstandes kann des- halb in der Bildwert-Verlaufskurve durch den von links nach rechts verlaufenden topfförmigen Abfall nachvollzogen werden.

Derartige Bildwert-Verläufe werden nicht nur an der Stelle j, sondern über die gesamte y-Achse ermittelt, so dass sich im Ergebnis statt einer Kurve eine Fläche in einem x-y- Koordinatensystem ergeben würde.

Die nun vorliegenden ermittelten Bildwerte werden schließlich mit einer Statistikfunktion - entweder einem Median-Operator oder einem Histogramm-Operator - beaufschlagt. Zu diesem

Zweck werden die Bildwerte aι,_j eines jeden Bildbereiches 6a, 6b,... 6n der Folge von Bildern miteinander verglichen. Dieser Vergleich findet für jeden der Bildbereiche 5 der Folge von Bildern statt.

Aus den Figuren 2a bis 2c lässt sich nun gut erkennen, dass der Bildwert a(j) an der Stelle i zweimal den Wert des stati- sehen Gegenstandes und einmal den Wert des bewegten Objektes (Figur 2b) annimmt. Mit beiden genannten Statistik-Funktionen würde deshalb der in Figur 2a oder 2c dargestellte Bildwert a(j) als Ergebniswert e_lf-, verwendet werden.

Beim Verwenden eines Median-Operators werden die Bildwerte a-,,1, ... a-,,_n der Größe nach geordnet und der Bildwert mit dem mittleren Index als Ergebniswert verwendet.

Im Gegensatz dazu wird bei einem Histogramm-Operator der häufigste Bildwert als Ergebnis weiter verarbeitet.

Aufgrund des unvermeidlichen Bildrauschens digitaler Bildaufzeichnender Geräte ist es dabei vorteilhaft als Vorverarbei- tungsschritt für jedes Bild der Folge von Bildern zunächst eine Reduktion des Bildrauschens, z.B. mittels einer Tiefpassfilterung oder einer Quantisierung, vorzunehmen.

Wird das beschriebene Vorgehen für jeden Bildbereich bzw. die korrespondierenden Bildbereiche der Folge von Bildern durchgeführt, so ergibt sich im Ergebnis das in Figur 3 gezeigte Bild, das um das bewegte Objekt des Fahrzeuges 3 bereinigt ist. Hierbei sei angemerkt, dass mit der in den Figuren la - lc und Figur 3 gezeigten Rasterung 4 die dargestellte Genau- igkeit sich nicht erreichen ließe. Dies ist lediglich dann möglich, wenn als Bildbereich ein Bildpunkt (Pixel) gewählt ist und jeder Bildpunkt mit Bildpunkten an korrespondierender Stelle der anderen Bilder der Folge von Bildern bewertet wird.

Das erfindungsgemäße Verfahren erzeugt somit aus verschiedenen Einzelbildern heraus ein lückenloses Bild des statischen Gegenstandes. Das erfindungsgemäße Verfahren kann beispielsweise in mobilen bildgebenden Endgeräten, wie z.B. Videohan- dy, PDAs, digitalen Kameras und dergleichen angewendet werden. Das Verfahren ermöglicht das Ausblenden verdeckter Ob- jekte, wie z.B. von Personen oder Fahrzeugen, vor den gewünschten aufzunehmenden statischen Gegenstand.

Ein Anwendungsgebiet betrifft z.B. die sogenannte "Augmented Reality", die eine Kombination realer und künstlicher Objekte ist. Zur Erstellung der virtuellen Welten ist es erforderlich, Panoramen natürlicher Umgebungen aufzunehmen, die dann als Bildhintergründe für diese dienen. In der natürlichen Umgebung befindliche Personen oder sonstige bewegliche Objekte können auf einfache Weise entfernt bzw. ausgefiltert werden.

Figur 4 zeigt in schematischer Form ein Bildverarbeitungssystem 10. Dieses weist ein Bildaufzeichnendes Gerät, wie z.B. eine Kamera, auf, die mit einem Speicher 12 verbunden ist. Der Speicher 12, der von beliebiger Art sein kann, dient zur Speicherung der Folge von Bildern, die mit dem Bildaufzeichnenden Gerät 11 aufgenommen wurden. Mit dem Speicher 12 ist weiterhin eine Auswerteeinheit 13 verbunden, die die in dem Speicher 12 abgelegten Bildern auslesen kann. Die Auswerte- einheit ist eingerichtet zur Durchführung des oben beschriebenen Verfahrens und gibt als Ergebnis z.B. an einem Monitor oder auch den Speicher 12 das um die bewegten Objekte bereinigte Ergebnisbild zurück. Bildaufzeichnendes Gerät und Auswerteeinheit 13 müssen nicht notwendigerweise, wie in der Fi- gur 4 dargestellt, unterschiedliche Geräte sein. Die Auswerteeinheit 13 kann vielmehr ebenso in dem Bildaufzeichnenden Gerät 11 selbst, wie auch der Speicher 12, enthalten sein.

Claims

Patentansprüche

1. Verfahren zum automatisierten, nachträglichen Entfernen von bewegten Objekten (3) aus einem mit einem Bildaufzeich- nenden Gerät aufgenommenen Bild, mit den Schritten: Aufnahme einer Folge von Bildern (la, lb, ..., In) mit zumindest einem unbewegten oder statischen Gegenstand (2) , der von zumindest einem bewegten Objekt (3) zeitweilig und/oder teilweise verdeckt ist, Bewerten korrespondierender Bildbereiche (6a, 6b, ..., 6n) der Folge von Bildern (la, lb, ..., In) mit jeweils einem Bildwert (a) , und Beaufschlagen der ermittelten Bildwerte (a) mit einer

Statistikfunktion, um aus der Folge von Bildern (la, lb,...ln) die Bildbereiche mit ausschließlich unbewegten Gegenständen

(2) ausfindig zu machen und zu einem Ergebnisbild zusammenzusetzen, das um die bewegten Objekte bereinigt ist.

2. Verfahren nach Anspruch 1, d a d u r c h g e k e n n z e i c h n e t, dass das Bewerten korrespondierender Bildbereiche (la, lb,..., In) mit einem jeweiligen Bildwert (a) iterativ erfolgt.

3. Verfahren nach Anspruch 1 oder 2, d a d u r c h g e k e n n z e i c h n e t, dass die Statistikfunktion auf einen Median-Operator zurückgreift.

4. Verfahren nach Anspruch 1 oder 2, d a d u r c h g e k e n n z e i c h n e t, dass die Statistikfunktion auf einen Histogramm-Operator zurückgreift.

5. Verfahren nach einem der vorhergehenden Ansprüche, d a d u r c h g e k e n n z e i c h n e t, dass als Bildwert die Helligkeit eines Bildbereichs (6) verwendet wird.

6. Verfahren nach einem der Ansprüche 1 bis 4, d a d u r c h g e k e n n z e i c h n e t, dass als Bildwert ein oder mehrere Farbwerte eines Bildbereichs (6) bewertet und im Falle mehrerer Farbwerte überlagert wer- den.

7. Verfahren nach einem der vorhergehenden Ansprüche, d a d u r c h g e k e n n z e i c h n e t, dass die Aufnahme der Folge von Bildern (la, lb,..., In) aus der glei- chen Perspektive erfolgt.

8. Verfahren nach einem der vorhergehenden Ansprüche, d a d u r c h g e k e n n z e i c h n e t, dass nach der Aufnahme der Folge von Bildern (la, lb,..., In) das Bestimmen übereinstimmender Bildausschnitte der Folge von

Bildern erfolgt, so dass korrespondierende Bildbereiche aus unterschiedlichen Bildern in einem Koordinatensystem an der gleichen Position zum Liegen kommen.

9. Verfahren nach einem der vorhergehenden Ansprüche, d a d u r c h g e k e n n z e i c h n e t, dass als weiterer Verfahrensschritt für jedes Bild der Folge von Bildern (la, lb,..., In) eine Reduktion des Bildrauschens erfolgt .

10. Verfahren nach Anspruch 9, d a d u r c h g e k e n n z e i c h n e t, dass die Reduktion des Bildrauschens mittels einer Tiefpassfilterung erfolgt.

11. Verfahren nach Anspruch 9 oder 10, d a d u r c h g e k e n n z e i c h n e t, dass die Reduktion des Bildrauschens mittels einer Quantisierung der Bildbereiche erfolgt.

12. Verfahren nach einem der vorhergehenden Ansprüche, d a d u r c h g e k e n n z e i c h n e t, dass der Bildbereich (5) einen Bildpunkt (Pixel) darstellt.

13. Verfahren nach einem der vorhergehenden Ansprüche, d a d u r c h g e k e n n z e i c h n e t, dass die Anzahl der Bilder der Folge von Bildern (la, lb,...ln) in Abhängigkeit der bewegten Objekte (3) vor dem oder den unbewegten Gegenstand oder Gegenständen (2) gewählt wird,

14. Verfahren nach einem der vorhergehenden Ansprüche, d a d u r c h g e k e n n z e i c h n e t, dass die Folge von Bildern (la, lb, ...In) wenigstens drei Bilder umfasst.

15. Bildverarbeitungssystem (10) mit einem Bildaufzeichnenden Gerät (11) , einem mit diesem gekoppelten Speicher (12) zur

Speicherung einer Mehrzahl an Bildern, und einer Auswerteeinheit (13) , die auf die in dem Speicher gespeicherten Daten zugreifen kann, und die dazu eingerichtet ist, das Verfahren gemäß einem der vorhergehenden Ansprüche auszuführen.

16. Computerprogrammprodukt, das Codes zur Ausführung eines Verfahrens nach einem der Ansprüche 1 bis 11 enthält.