WO2021180547A1

WO2021180547A1 - Verfahren und vorrichtung zum verarbeiten von bildern

Info

Publication number: WO2021180547A1
Application number: PCT/EP2021/055366
Authority: WO
Inventors: Stephan Simon
Original assignee: Robert Bosch Gmbh
Priority date: 2020-03-09
Filing date: 2021-03-03
Publication date: 2021-09-16
Also published as: EP4118620A1; DE102020202973A1

Abstract

Verfahren, insbesondere computerimplementiertes Verfahren, zum Verarbeiten von, insbesondere digitalen, Bildern, aufweisend die folgenden Schritte: Bereitstellen eines ersten Bilds und eines zweiten Bilds, Transformieren des ersten Bilds in ein erstes Deskriptorbild und des zweiten Bilds in ein zweites Deskriptorbild, Ermitteln eines Distanzbildes basierend auf einem Vergleich des ersten Deskriptorbilds mit dem zweiten Deskriptorbild, Bilden eines Detektionsbilds basierend auf dem Distanzbild.

Description

Beschreibung

Titel

Verfahren und Vorrichtung zum Verarbeiten von Bildern

Stand der Technik

Die Offenbarung betrifft ein, insbesondere computerimplementiertes, Verfahren zum Verarbeiten von, insbesondere digitalen, Bildern.

Die Offenbarung betrifft ferner eine Vorrichtung zum Verarbeiten von, insbesondere digitalen, Bildern.

Offenbarung der Erfindung

Bevorzugte Ausführungsformen beziehen sich auf ein Verfahren, insbesondere computerimplementiertes Verfahren, zum Verarbeiten von, insbesondere digitalen, Bildern, aufweisend die folgenden Schritte: Bereitstellen eines ersten Bilds und eines zweiten Bilds, Transformieren des ersten Bilds in ein erstes Deskriptorbild und des zweiten Bilds in ein zweites Deskriptorbild, Ermitteln eines Distanzbildes basierend auf einem Vergleich des ersten Deskriptorbilds mit dem zweiten Deskriptorbild, und, optional, Bilden eines Detektionsbilds basierend auf dem Distanzbild. Dadurch ist z.B. eine besonders effiziente Erkennung von Änderungen bezüglich der Bilder möglich, z.B. eine Erkennung einer Bewegung wenigstens eines auf wenigstens einem der Bilder abgebildeten Objekts.

Unter einem Bild kann im Rahmen der vorliegenden Erfindung ein codierter Datensatz verstanden werden, welcher eine Darstellung des Bildes bzw. eine Bilddarstellung beschreibt bzw. repräsentiert. Unter Verwendung einer Dekodierungsvorschrift ist aus dem das Bild repräsentierenden Datensatz eine Ansteuervorschrift für eine Anzeigeeinrichtung mittels eines Computers derart bestimmbar, dass die Anzeigeeinrichtung unter Anwendung der Ansteuervorschrift das kodierte Bild darstellt. Die Anzeigeeinrichtung kann bspw. eine Displayeinheit oder eine Projektoreinheit sein. Die Anzeigeeinrichtung kann bspw. an oder in einer Fahrerkabine eines Fahrzeugs angeordnet sein.

Bei weiteren bevorzugten Ausführungsformen wird für das Transformieren in die Deskriptorbilder eine Transformation verwendet, die das Umfeld eines Bildelements ("Pixels") des ersten bzw. zweiten Bilds im jeweiligen Bild in einen Deskriptor umwandelt, der dieses Umfeld, bevorzugt in kompakter Weise, beschreibt, das heißt mit wenigen Bits, insbesondere mit weniger Bits, als es dem Informationsgehalt des Umfelds des Pixels entspricht. Bei weiteren bevorzugten Ausführungsformen wird der Wert des Deskriptors als Signatur bezeichnet. Bei weiteren bevorzugten Ausführungsformen hat die Signatur eine feste Länge, insbesondere Wortlänge, von z. B. 8 bit bis z.B. 32 bit, kann bei weiteren bevorzugten Ausführungsformen aber auch länger als 32 bit oder kürzer als 8 bit sein.

Bei weiteren bevorzugten Ausführungsformen weist das Transformieren das Ausführen der Transformation für eine jeweilige Umgebung einer Vielzahl von Pixeln auf, z.B. jedes Pixels im (ersten bzw. zweiten) Bild, so dass als Ergebnis ein jeweiliges (erstes bzw. zweites) "Bild von Deskriptoren", also das bzw. die bereits genannten Deskriptorbilder, entsteht. Bei weiteren bevorzugten Ausführungsformen kann ein Deskriptorbild auch aufgefasst werden als eine Vielzahl von Deskriptorwerten bzw. Signaturen, die bevorzugt in einer matrixförmigen Anordnung von Reihen und Spalten organisiert sind, entsprechend der Position der für Ihre Bildung ausgewerteten Pixel bzw. der jeweiligen Umgebung eines betrachteten Pixels. Insoweit ist ein Deskriptorbild z.B. mit dem ersten oder zweiten Bild vergleichbar, wobei jedoch anstelle der regulären Bildinformationen (wie z.B. Helligkeits- bzw. Intensitätswerte von einem oder mehreren Graustufen- oder Farbkanälen) jedem Bildelement des Deskriptorbilds die jeweilige Signatur zugeordnet ist.

Bei weiteren bevorzugten Ausführungsformen können Pixel am Bildrand des ersten und/oder zweiten Bilds für die Transformation zu den Deskriptorbildern unberücksichtigt bleiben, weil dort z.B. der Rahmen für die Transformation über das Bild hinausragt, die "Pixelwerte" mithin Undefiniert sind. Bei weiteren bevorzugten Ausführungsformen können Pixel am Bildrand des ersten und/oder zweiten Bilds für die Transformation zu den Deskriptorbildern berücksichtigt werden, wobei ggf. am Rand fehlende bzw. Undefinierte Pixelwerte gemäß einer vorgebbaren Regel ergänzt werden, z.B. durch Kopieren der Pixelwerte vorhandener Pixel und/oder Setzen der zuvor Undefinierten Werte auf einen vorgebbaren Wert.

Bei weiteren bevorzugten Ausführungsformen kann für das Transformieren wenigstens eines der nachstehend aufgeführten Verfahren verwendet werden: SIFT (skaleninvariante Merkmalstransformation), SURF (Speeded Up Robust Features, z.B. gemäß Bay H., Tuytelaars T., Van Gool L. (2006) SURF: Speeded Up Robust Features. In: Leonardis A., Bischof H., Pinz A. (eds) Computer Vision - ECCV 2006. ECCV 2006. Lecture Notes in Computer Science, vol 3951. Springer, Berlin, Heidelberg, https://doi.org/10.1007/11744023_32), ORB (E. Rublee, V. Rabaud, K. Konolige and G. Bradski, "ORB: An efficient alternative to SIFT or SURF," 2011 International Conference on Computer Vision, Barcelona, 2011, pp. 2564-2571; DOI: 10.1109/ICCV.2011.6126544), BRISK (Leutenegger, Stefan & Chli, Margarita & Siegwart, Roland. (2011). BRISK: Binary Robust invariant scalable keypoints. Proceedings of the IEEE International Conference on Computer Vision. 2548-2555. 10.1109/ICCV.2011.6126542.), BRIEF (Binary Robust Independent Elementary Features, DOI: 10.1007/978-3-642-15561- 1_56), DAISY (E. Tola, V. Lepetit and P. Fua, "DAISY: An Efficient Dense Descriptor Applied to Wide-Baseline Stereo," in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 32, no. 5, pp. 815-830, May 2010.), LATCH (https://arxiv.org/pdf/1501.03719.pdf).

Bei weiteren bevorzugten Ausführungsformen ist für den zur Bildung der Deskriptorbilder gewählten Deskriptor ein Distanzmaß vorhanden bzw. vorgebbar, das es z.B. erlaubt, eine Unterschiedlichkeit zweier Deskriptorwerte zu ermitteln bzw. zu bewerten.

Bei weiteren bevorzugten Ausführungsformen kann alternativ zu dem Distanzmaß auch ein Ähnlichkeitsmaß verwendet werden, wobei insbesondere beide Maße ineinander überführbar sein können. Daher wird nachfolgend beispielhaft und ohne Beschränkung der Allgemeingültigkeit nur das Distanzmaß betrachtet, wobei alle beispielhaft beschriebenen Schritte und Ausführungsformen entsprechend auch bei Verwendung eines Ahnlichkeitsmaßes - anstelle eines Distanzmaßes - zur Bewertung eines Unterschieds der Deskriptorbilder, also z.B. zur Charakterisierung eines Ergebnisses des Vergleichens des ersten Deskriptorbilds mit dem zweiten Deskriptorbild, nutzbar sind.

Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass für das Transformieren ein Deskriptor verwendet wird, für den ein Distanzmaß und/oder ein Ähnlichkeitsmaß definierbar und/oder definiert ist, wobei insbesondere das Vergleichen des ersten Deskriptorbilds mit dem zweiten Deskriptorbild basierend auf dem Distanzmaß und/oder dem Ähnlichkeitsmaß ausgeführt wird.

Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass als Distanzmaß für das Vergleichen die Hamming-Distanz oder ein auf der Hamming-Distanz basierendes Distanzmaß verwendet wird, wobei insbesondere die Hamming-Distanz mit einem vorgebbaren Schwellwert verglichen wird und basierend auf dem Vergleich ein, insbesondere binärer, Vergleichswert ermittelt wird.

Bei weiteren bevorzugten Ausführungsformen wird unter Anwendung der Hamming-Distanz als Distanzmaß ein bitweiser Vergleich zweier Deskriptorwerte miteinander ausgeführt, wobei die Hamming-Distanz die Anzahl der unterschiedlichen Bits der miteinander verglichenen Deskriptorwerte angibt. Bei einer Wortlänge von N bit des Deskriptors hat die Hamming-Distanz D_H einen Wertebereich D_M t (0, 1,2,

Dabei bedeutet der Wert D_H = 0, dass die beiden miteinander verglichenen Deskriptorwerte identisch sind, während sie bei D_H = N maximal unterschiedlich sind. Vergleicht man z.B. zwei zufällig ausgewählte Deskriptorwerte miteinander und treten alle darstellbaren Deskriptorwerte 0, 1, ... , 2^N_1 etwa gleichwahrscheinlich auf, so ist z.B. im statistischen Mittel eine Hamming-Distanz von etwa N/2 zu erwarten. Für eine Änderungsdetektion gemäß weiteren bevorzugten Ausführungsformen bedeutet dies, dass bei im Wesentlichen übereinstimmenden Bildbereichen Distanzwerte nahe 0 zu erwarten sind - und für nicht übereinstimmende Bildbereiche, z. B. aufgrund bewegter Objekte, Distanzwerte deutlich größer als 0, und dann z. B. etwa um N/2 liegen. Das Distanzmaß kann gemäß weiteren bevorzugten Ausführungsformen optional weiter vereinfacht werden, beispielsweise durch Binarisierung. Z.B. kann die Hamming-Distanz hierzu mit einer Schwelle L verglichen und eine binäre

Distanz D_B erhalten werden, g aemäß D B_B = ! l^ö 1 sonst

Bei weiteren bevorzugten Ausführungsformen kann alternativ oder ergänzend zu einer zumindest zeitweisen Speicherung von Deskriptorwerten in dem ersten und/oder zweiten Deskriptorbild auch eine Ermittlung der Deskriptorwerte bei Bedarf, z.B. „on-the-fly“ erfolgen. Mit anderen Worten kann bei weiteren bevorzugten Ausführungsformen das Transformieren des ersten Bilds in das erste Deskriptorbild und/oder das Transformieren des zweiten Bilds in das zweite Deskriptorbild auch dynamisch, d.h. z.B. bei Bedarf und/oder in Echtzeit, insbesondere z.B. auch in direktem zeitlichen Zusammenhang mit dem Ermitteln des Distanzbilds, ausgeführt werden.

Bei weiteren bevorzugten Ausführungsformen kann das Transformieren des ersten Bilds in das erste Deskriptorbild und/oder das Transformieren des zweiten Bilds in das zweite Deskriptorbild zumindest zeitweise auch parallelisiert werden, z.B. wenn mehrere Rechenkerne zur Ausführung der jeweiligen Transformation(en) verfügbar sind.

Bei weiteren bevorzugten Ausführungsformen ist auch denkbar, die Transformation zur Bildung des jeweiligen (ersten und/oder zweiten) Deskriptorbilds zeitgleich oder zumindest zeitlich teilweise überlappend auf einen ersten Teil des (ersten und/oder zweiten) Bilds auszuführen. Mit anderen Worten ist bei weiteren bevorzugten Ausführungsformen auch denkbar, die Transformation des ersten Bilds in das erste Deskriptorbild zu parallelisieren, wobei z.B. ein erster Teil des ersten Bilds in einen ersten Teil des ersten Deskriptorbilds transformiert wird, und wobei gleichzeitig hierzu z.B. ein zweiter Teil des ersten Bilds in einen zweiten Teil des ersten Deskriptorbilds transformiert wird.

Bei weiteren bevorzugten Ausführungsformen wird das einem ersten Zeitpunkt, z.B. dem aktuellen Zeitpunkt, gehörige erste Deskriptorbild mit einem zweiten Deskriptorbild verglichen, das zu einem zweiten, insbesondere früheren, Zeitpunkt gehört. Bei weiteren bevorzugten Ausführungsformen kann sowohl das Transformieren zu den Deskriptorbildern als auch das Ermitteln des Distanzbilds jeweils z.B. nur auf einem vorgebbaren Teilbereich der ersten und zweiten Bilder bzw. der daraus ableitbaren Deskriptorbilder ausgeführt werden. Die Auswahl von Teilbereichen kann bei weiteren bevorzugten Ausführungsformen z.B. auch dynamisch, also zur Laufzeit des Verfahrens bzw. einer das Verfahren ausführenden Vorrichtung, erfolgen, z.B. basierend auf einem aktuellen Inhalt der Bilder und/oder zuvor erkannten Änderungen und/oder Objekten.

Bei weiteren bevorzugten Ausführungsformen erfolgt das Vergleichen des ersten Deskriptorbilds mit dem zweiten Deskriptorbild, also das Bilden des Distanzmaßes, Pixel für Pixel, es wird also jeweils ein Bildelement des ersten Deskriptorbilds mit einem entsprechenden Bildelement des zweiten Deskriptorbilds verglichen und dabei ein entsprechender Wert für das Distanzmaß ("Distanzwert") erhalten. Mit anderen Worten wird bei weiteren bevorzugten Ausführungsformen jeweils ein Deskriptorwert an einer bestimmten Koordinate des ersten Deskriptorbilds mit dem Deskriptorwert an der entsprechenden (selben) Koordinate des zweiten Deskriptorbilds verglichen. Der dabei ermittelte Distanzwert wird bei weiteren bevorzugten Ausführungsformen in ein bzw. das Distanzbild an der entsprechenden Koordinate eingetragen. Es ist ersichtlich, dass das Distanzbild dieselbe Größe (Anzahl der Pixel, z.B. charakterisierbar durch Breite und Höhe) aufweist wie die zu vergleichenden Deskriptorbilder. Bei weiteren bevorzugten Ausführungsformen kann das Distanzbild (also jedes Bildelement) z.B. Werte im Bereich 0 bis N aufweisen, die das Vergleichsergebnis zwischen erstem Deskriptorbild und zweitem Deskriptorbild charakterisieren.

Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass das Verfahren weiter aufweist: Filtern des Distanzbilds, wodurch ein gefiltertes Distanzbild erhalten wird, wobei insbesondere das Bilden des Detektionsbilds basierend auf dem gefilterten Distanzbild erfolgt.

Bei weiteren bevorzugten Ausführungsformen wird das Filtern so ausgeführt, dass das Distanzbild umgewandelt wird in ein gefiltertes Bild, das Änderungen in kompakter Form anzeigt, was z.B. für eine Funktionsschnittstelle gemäß weiteren bevorzugten Ausführungsformen nützlich ist.

Bei weiteren bevorzugten Ausführungsformen weist das Detektionsbild ein oder mehrere zusammenhängende Regionen, die gemäß weiteren bevorzugten Ausführungsformen auch als "Blobs" bezeichnet werden, für diejenigen Bildbereiche auf, in denen, insbesondere signifikante, Änderungen zwischen den betrachteten (ersten und zweiten) Bildern bzw. den hiermit korrespondierenden Deskriptorbildern vorliegen.

Bei weiteren bevorzugten Ausführungsformen kann alternativ oder ergänzend zu einer zumindest zeitweisen vollständigen oder teilweisen Speicherung des Distanzbilds und/oder des Detektionsbilds auch eine (zumindest teilweise) Ermittlung des Distanzbilds und/oder des Detektionsbilds bei Bedarf, z.B. „on- the-fly“, erfolgen. Mit anderen Worten ist bei weiteren bevorzugten Ausführungsformen denkbar, (auch) das Distanzbild und/oder das Detektionsbild zumindest nicht vollständig zu speichern, sondern es bzw. sie z.B., insbesondere umgehend, weiterzuverarbeiten, z.B. um Speicher zu sparen oder um Zwischenergebnisse (z.B. Teile des Distanzbilds und/oder Detektionsbilds) schneller bereitstellen zu können.

Bei weiteren bevorzugten Ausführungsformen kann das Detektionsbild in einem optionalen weiteren oder alternativen Schritt in eine andere Form überführt werden, z. B. um es effizienter über eine Schnittstelle übermitteln zu können. Dazu werden bei weiteren bevorzugten Ausführungsformen beispielsweise die Konturen wenigstens eines Blobs angenähert, z.B. als Polygone beschrieben.

Alternativ oder ergänzend kann das Detektionsbild bei weiteren bevorzugten Ausführungsformen auch komprimiert werden, z.B. mit einer Lauflängencodierung oder einer anderen Entropiecodierung, z.B. mit einer gängigen Codierung für Segment-Bilder.

Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass das Filtern das Anwenden eines Majoritätsfilters und/oder eines Schwellwertfilters aufweist. Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass das Verfahren weiter aufweist: Weiterverarbeiten des Detektionsbilds, insbesondere Bilden von Ausgabeinformationen, basierend auf wenigstens einem der folgenden Elemente: a) Detektionsbild, b) erstes Bild, c) zweites Bild.

Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass die Ausgabeinformationen wenigstens eines der folgenden Elemente aufweisen: a) akustisches Signal, b) haptisches Signal, c) optisches Signal, d) Bild, insbesondere Digitalbild, mit wenigstens einem grafisch hervorgehobenen Bildbereich, insbesondere einem basierend auf dem Detektionsbild grafisch hervorgehobenen Bildbereich. Dadurch kann eine mittels des Verfahrens detektierte Änderung bezüglich des ersten und zweiten Bilds effizient einem Benutzer zur Kenntnis gebracht werden, z.B. einem Fahrer eines Gabelstaplers. Auf diese Weise kann der Fahrer zuverlässig und leicht wahrnehmbar z.B. über Änderungen in dem Umfeld seines Fahrzeugs informiert werden, wodurch z.B. Unfälle mit sich dem Fahrzeug nähernden Personen vermieden werden können.

Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass das Verfahren weiter aufweist: Zuweisen eines Bewertungsmaßes zu wenigstens einem Deskriptor des ersten Deskriptorbilds und/oder des zweiten Deskriptorbilds, und, optional, Berücksichtigen des Bewertungsmaßes bei der Ermittlung des Distanzbildes, wobei insbesondere das Bewertungsmaß ein Rauschen bzw. ein Signal-zu-Rausch-Verhältnis, insbesondere eines mit dem jeweiligen Deskriptor assoziierten Bereichs des ersten Bilds und/oder des zweiten Bilds, charakterisiert.

Bei weiteren bevorzugten Ausführungsformen kann somit z.B. bei der Bildung der Deskriptoren bzw. der Deskriptorbilder das Rauschen mitberücksichtigt werden, beispielsweise gemäß dem in DE 102017212 339 beschriebenen Verfahren.

Bei weiteren bevorzugten Ausführungsformen kann somit zumindest manchen, insbesondere jedem, gebildeten Deskriptor(en) eine von der Stärke des Rauschens bzw. des Signal-zu-Rausch-Verhältnisses (SNR) abhängige Bewertung mitgegeben werden: bei manchen bevorzugten Ausführungsformen z.B. in Form einer binären Zusatzinformation (z.B. als zusätzliches Bit codiert), die bei weiteren bevorzugten Ausführungsformen auch als Eignung des Deskriptors für die Weiterverarbeitung interpretiert werden kann.

Bei weiteren bevorzugten Ausführungsformen erlaubt es die Zusatzinformation z.B., aufgrund des Rauschens weniger gut (z.B. für eine nachfolgend Weiterverarbeitung) geeignete Deskriptoren zu kennzeichnen, z. B. als „ungeeignet“, um sie z.B. bei einer Änderungsdetektion anders zu behandeln, als solche Deskriptoren, die z.B. aufgrund eines geringeren Rauschens bzw. höheren SNR besser geeignet sind für die Weiterverarbeitung.

Bei weiteren bevorzugten Ausführungsformen kann diese Zusatzinformation bei der Ermittlung des Distanzbilds ("Distanzberechnung") z.B. nach folgender Regel berücksichtigt werden: Ist zumindest einer der zu vergleichenden Deskriptoren als „ungeeignet“ gekennzeichnet, so wird die Distanz nicht nach der üblichen Regel gebildet, sondern eine andere Regel angewandt, wonach z.B. die tatsächliche Distanz durch einen vorgebbaren, insbesondere festen, Wert ersetzt wird. Bei weiteren bevorzugten Ausführungsformen kann im Beispiel der Hamming-Distanz als Distanzmaß der Wert dann z.B. auf "0" gesetzt werden, was z.B. bedeutet, dass vom Rauschen dominierte Bildregionen so behandelt werden, als wären sie unbewegt.

Bei weiteren bevorzugten Ausführungsformen kann die Hamming-Distanz aber auch auf einen anderen Wert gesetzt werden, z. B. "1" oder "2", damit z.B. aufgrund von Rauschen ausgeschlossene Bereiche nicht anders behandelt (z.B. bessergestellt) werden als nicht ausgeschlossene unbewegte Bereiche. Diese Betrachtung kann bei weiteren bevorzugten Ausführungsformen insbesondere relevant sein aufgrund einer optionalen nachfolgenden Filterung des Distanzbilds, bei der z.B. ein gleitendes Fenster für die Filterung gleichzeitig sowohl ausgeschlossene als auch nicht ausgeschlossene Pixel enthalten kann.

Bei weiteren bevorzugten Ausführungsformen wird die Bewertung des Rauschens nicht als binäre Information weitergegeben, sondern es werden mehr als zwei Stufen vorgesehen, beispielsweise drei oder vier (oder mehr) Stufen. Wenn z.B. gemäß weiteren bevorzugten Ausführungsformen drei Stufen vorgesehen sind, könnten diese bei weiteren bevorzugten Ausführungsformen folgende Bedeutungen haben: Stufe 0: Aufgrund von Rauschen sollte der Deskriptor nicht verwendet werden. Stufe 1: Aufgrund von Rauschen ist der Deskriptor zwar für "Anwendung A" geeignet, nicht jedoch für "Anwendung B".

Stufe 2: Der Deskriptor ist für die "Anwendungen A" und "B" geeignet, das Rauschen ist somit z.B. nicht signifikant.

Dabei können bei weiteren bevorzugten Ausführungsformen "Anwendungen A" und "B" stehen für zwei Anwendungen aus z.B.: Optischer Fluss, Änderungsdetektion, Korrespondenzbildung, Disparitätsschätzung, Tracking, usw..

Bei weiteren bevorzugten Ausführungsformen sind weitere Ausgestaltungen ebenfalls denkbar. Beispielsweise kann das lokale Signal-zu-Rausch-Verhältnis einer betrachteten (z.B. mit einem Deskriptor assoziierten, also z.B. bei der Bildung des Deskriptors berücksichtigten) Bildregion an den jeweiligen Deskriptor als Zusatzinformation angehängt (z.B. im Sinne einer Konkatenation) werden, z. B. als Zahl. Bei weiteren bevorzugten Ausführungsformen kann eine Distanzberechnung diese Zusatzinformationen verwerten und weitergeben, z.B. als Minimum oder Maximum oder Mittelwert der beiden Zahlen der bei der Distanzberechnung beteiligten Deskriptoren. Diese Zusatzinformation kann bei weiteren bevorzugten Ausführungsformen z.B. auch in einem nachfolgenden optionalen Filterungsschritt weiter berücksichtigt und ggf. auch weitergegeben werden, z.B. als Konfidenz einer getroffenen Entscheidung über das Vorhandensein eines Objekts in dem ersten und/oder zweiten Bild.

Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass das Verfahren weiter aufweist: zumindest zeitweises Speichern des ersten Deskriptorbilds und/oder des zweiten Deskriptorbilds, z.B. für einen nachfolgenden Gebrauch. Beispielsweise kann bei einer aufeinanderfolgenden Ermittlung von zwei Distanzbildern ein beteiligtes Deskriptorbild zweimal für die Distanzberechnung verwendet werden, nämlich einmal im Sinne des ersten Deskriptorbilds, und ein zweites Mal im Sinne des zweiten Deskriptorbilds.

Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass das Verfahren weiter aufweist: Kompensieren einer mit dem ersten Bild und/oder dem zweiten Bild assoziierten Bewegung, insbesondere einer Eigenbewegung einer das erste Bild und/oder das zweite Bild bereitstellenden Kamera, für wenigstens eine Fläche, insbesondere Oberfläche.

Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass das erste Bild und das zweite Bild jeweils Teil eines selben Videodatenstroms wenigstens einer Kamera ist.

Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass in dem Videodatenstrom zeitlich zwischen dem ersten Bild und dem zweiten Bild wenigstens ein weiteres Bild vorhanden ist. Mit anderen Worten kann bei weiteren bevorzugten Ausführungsformen ein zeitlicher Abstand zwischen dem ersten Bild und dem zweiten Bild z.B. dadurch verändert werden, dass als erstes und zweites Bild nicht zeitlich direkt aufeinanderfolgende Bilder z.B. des Videodatenstroms verwendet werden, sondern dass z.B. ein oder mehrere Bilder z.B. des Videodatenstroms zwischen dem ersten Bild und dem zweiten Bild ausgelassen werden.

Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass das Verfahren (insbesondere die Schritte des Bereitstellens und/oder des Transformierens in die Deskriptorbilder und/oder des Ermitteln des Distanzbilds, und, optional, Ermitteln des Detektionsbilds) auf mehrere jeweils ein erstes und zweites Bild aufweisende Bildpaare angewandt wird, wobei das erste Bild eines ersten Bildpaars ein erstes Bild des Videodatenstroms ist, wobei das zweite Bild des ersten Bildpaars ein n-tes Bild, mit n > 2 (z.B. n=5), des Videodatenstroms ist, wobei das erste Bild eines zweiten Bildpaars ein zweites Bild des Videodatenstroms ist, wobei das zweite Bild des zweiten Bildpaars ein (n+1)-tes Bild des Videodatenstroms ist, usw..

Dadurch kann, trotz "Auslassen" von Bildern (bezüglich des jeweilig betrachteten Bildpaars) schnell reagiert werden, und es können insbesondere auch Detektionen (z.B. in Form des Detektionsbilds) in schneller zeitlicher Folge ausgegeben werden, was z.B. wichtig für eine grafische Anzeige für einen Benutzer sein kann (damit diese nicht ruckelt).

Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass das Verfahren, insbesondere zeitlich parallel, auf jeweils unterschiedlichen Bildpaaren (erstes Bild, zweites Bild) eines selben bzw. desselben Videodatenstroms ausgeführt wird, wobei ein jeweiliges erstes Bild und ein jeweiliges zweites Bild jeweils einen unterschiedlichen zeitlichen Abstand zueinander aufweisen.

Weitere bevorzugte Ausführungsformen beziehen sich auf eine Vorrichtung zur Verarbeitung von, insbesondere digitalen, Bildern, wobei die Vorrichtung zur Ausführung des Verfahrens gemäß den Ausführungsformen ausgebildet ist.

Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass die Vorrichtung aufweist: eine wenigstens einen Rechenkern aufweisende Recheneinrichtung ("Computer"), eine der Recheneinrichtung zugeordnete Speichereinrichtung zur zumindest zeitweisen Speicherung wenigstens eines der folgenden Elemente: a) Daten, b) Computerprogramm, insbesondere zur Ausführung des Verfahrens gemäß den Ausführungsformen.

Bei weiteren bevorzugten Ausführungsformen können die Daten DAT zumindest zeitweise und/oder teilweise den wenigstens einen Videodatenstrom und/oder das erste Bild und/oder das zweite Bild und/oder daraus ableitbare Daten, z.B. das erste Deskriptorbild und/oder das zweite Deskriptorbild bzw. das Distanzbild bzw. das Detektionsbild bzw. zumindest Teile hiervon aufweisen.

Bei weiteren bevorzugten Ausführungsformen weist die Speichereinrichtung einen flüchtigen Speicher (z.B. Arbeitsspeicher (RAM)) auf, und/oder einen nichtflüchtigen Speicher (z.B. Flash-EEPROM).

Bei weiteren bevorzugten Ausführungsformen kann die Recheneinrichtung auch wenigstens eines der folgenden Elemente aufweisen: Mikroprozessor (mR), Mikrocontroller (pC), anwendungsspezifischer integrierter Schaltkreis (ASIC), System on Chip (SoC), programmierbarer Logikbaustein (z.B. FPGA, field programmable gate array), Hardwareschaltung, Grafikprozessor (GPU, graphics Processing unit), oder beliebige Kombinationen hieraus.

Weitere bevorzugte Ausführungsformen beziehen sich auf ein computerlesbares Speichermedium, umfassend Befehle, die bei der Ausführung durch einen Computer diesen veranlassen, das Verfahren gemäß den Ausführungsformen auszuführen. Weitere bevorzugte Ausführungsformen beziehen sich auf ein Computerprogramm, umfassend Befehle, die bei der Ausführung des Programms durch einen Computer diesen veranlassen, das Verfahren gemäß den Ausführungsformen auszuführen.

Weitere bevorzugte Ausführungsformen beziehen sich auf ein Datenträgersignal, das das Computerprogramm gemäß den Ausführungsformen charakterisiert und/oder überträgt. Das Datenträgersignal ist beispielsweise über eine optionale Datenschnittstelle der Vorrichtung empfangbar.

Weitere bevorzugte Ausführungsformen beziehen sich auf eine Verwendung des Verfahrens gemäß den Ausführungsformen und/oder der Vorrichtung gemäß den Ausführungsformen und/oder des computerlesbaren Speichermediums gemäß den Ausführungsformen und/oder des Computerprogramms gemäß den Ausführungsformen und/oder des Datenträgersignals gemäß den Ausführungsformen für wenigstens eines der folgenden Elemente: a) Erfassung a1) eines Umfelds eines Systems, insbesondere eines Fahrzeugs, insbesondere Flurförderzeugs wie z.B. Gabelstapler und/oder Hubstapler, und/oder a2) einer Szene, b) Ermitteln von Änderungen bezüglich des ersten Bilds und des zweiten Bilds, insbesondere robuste Änderungsdetektion bezüglich des ersten Bilds und des zweiten Bilds, c) Ermitteln von Hindernissen, insbesondere bewegten Objekten, d) Vermeidung von Unfällen, insbesondere im Bereich eines bzw. des Systems bzw. in dem Umfeld, insbesondere bei vergleichsweise geringen Geschwindigkeiten des Systems, insbesondere kleiner gleich einer Schrittgeschwindigkeit eines Menschen, weiter insbesondere bei einem Übergang zwischen einem Stillstand und einer Bewegung oder umgekehrt, e) Anwendung sowohl beim Stillstand des Systems als auch bei einer Bewegung des Systems, f) Visualisieren von Änderungen bezüglich des ersten Bilds und des zweiten Bilds, insbesondere Einblenden von die Änderungen charakterisierenden Informationen bzw. Zusatzinformationen bzw. Hervorheben von wenigstens einem Bereich des ersten Bilds und/oder des zweiten Bilds, der mit den Änderungen assoziiert ist, insbesondere in Echtzeit ("Echtzeit- Visualisierung").

Weitere Merkmale, Anwendungsmöglichkeiten und Vorteile der Erfindung ergeben sich aus der nachfolgenden Beschreibung von Ausführungsbeispielen der Erfindung, die in den Figuren der Zeichnung dargestellt sind. Dabei bilden alle beschriebenen oder dargestellten Merkmale für sich oder in beliebiger Kombination den Gegenstand der Erfindung, unabhängig von ihrer Zusammenfassung in den Ansprüchen oder deren Rückbeziehung sowie unabhängig von ihrer Formulierung bzw. Darstellung in der Beschreibung bzw. in der Zeichnung.

In der Zeichnung zeigt:

Fig. 1 schematisch ein vereinfachtes Blockdiagramm gemäß bevorzugten Ausführungsformen,

Fig. 2A schematisch ein vereinfachtes Flussdiagramm von Verfahren gemäß weiteren bevorzugten Ausführungsformen,

Fig. 2B,

2C, 2D,

2E, 2F jeweils schematisch ein vereinfachtes Flussdiagramm von Verfahren gemäß weiteren bevorzugten Ausführungsformen,

Fig. 3A schematisch ein beispielhaftes Bild gemäß weiteren bevorzugten Ausführungsformen,

Fig. 3B schematisch ein mit dem Bild gemäß Fig. 3A assoziiertes Deskriptorbild gemäß weiteren bevorzugten Ausführungsformen,

Fig. 4A schematisch ein beispielhaftes Distanzbild gemäß weiteren bevorzugten Ausführungsformen,

Fig. 4B schematisch ein mit dem Distanzbild gemäß Fig. 4A assoziiertes Detektionsbild gemäß weiteren bevorzugten Ausführungsformen,

Fig. 5 schematisch eine Anwendung eines Majoritätsfilters gemäß weiteren bevorzugten Ausführungsformen,

Fig. 6 schematisch beispielhafte Gewichtungen für eine Filterung gemäß weiteren bevorzugten Ausführungsformen, Fig. 7 schematisch ein beispielhaftes Bild gemäß weiteren bevorzugten Ausführungsformen,

Fig. 8, 9,

10 jeweils schematisch ein vereinfachtes Blockdiagramm gemäß weiteren bevorzugten Ausführungsformen,

Fig. 11 schematisch ein vereinfachtes Blockdiagramm einer Vorrichtung gemäß weiteren bevorzugten Ausführungsformen,

Fig. 12 schematisch Aspekte einer Verwendung gemäß weiteren bevorzugten Ausführungsformen,

Fig. 13 schematisch beispielhafte Bildfolgen gemäß weiteren bevorzugten Ausführungsformen,

Fig. 14A,

14B, 14C,

14D, 14E,

14F jeweils schematisch ein Bild gemäß weiteren bevorzugten Ausführungsformen,

Fig. 15A,

15B, 15C,

15D jeweils schematisch ein Bild gemäß weiteren bevorzugten Ausführungsformen,

Fig. 16A,

16B, 16C,

16D jeweils schematisch ein Bild gemäß weiteren bevorzugten Ausführungsformen, und

Fig. 17A,

17B, 17C,

17D jeweils schematisch ein Bild gemäß weiteren bevorzugten Ausführungsformen. Figur 1 zeigt schematisch ein vereinfachtes Blockdiagramm eines Systems 10 zur Verwendung mit einem Verfahren zum Verarbeiten von Bildern gemäß bevorzugten Ausführungsformen. Das System 10 ist beispielsweise als Fahrzeug, insbesondere Flurförderzeug (z.B. Gabelstapler und/oder Hubstapler) ausgebildet und weist wenigstens eine Kamera 12 auf, die mehrere Bilder B1,

B2, insbesondere in Form eines Videodatenstroms VDS bzw. ableitbar aus wenigstens einem Videodatenstrom VDS, bereitstellt. Optional kann das System 10 auch wenigstens eine weitere Kamera 12' aufweisen, die ihrerseits z.B. ein oder mehrere Bilder bzw. einen entsprechenden Videodatenstrom (nicht gezeigt) bereitstellen kann. Das System 10 kann sich selbst z.B. in einer Umgebung U, beispielsweise auf einer Referenzfläche RF wie z.B. einer Bodenfläche (z.B. einer Fertigungseinrichtung), bewegen. Des Weiteren können ein oder mehrere Objekte OBJ, die insbesondere auch Hindernisse H für das System 10 darstellen können, zumindest zeitweise in der Umgebung U vorhanden sein.

Bei weiteren bevorzugten Ausführungsformen stellt das System 10 kein Fahrzeug dar bzw. weist das System 10 kein Fahrzeug auf, sondern z.B. die Kamera 12, die wie vorstehend beschrieben z.B. den Videodatenstrom VDS bzw. die Bilder B1, B2 liefert bzw. eine die Kamera 12 enthaltende stationäre Einrichtung. Beispielsweise kann die Kamera 12 dazu vorgesehen sein, eine Szene SZ in der Umgebung U zu beobachten, z.B. also als Überwachungskamera verwendet werden.

Weitere bevorzugte Ausführungsformen beziehen sich auf ein Verfahren, insbesondere computerimplementiertes Verfahren, vgl. Figur 2A, zum Verarbeiten von, insbesondere digitalen, Bildern B1, B2 (Fig. 1), aufweisend die folgenden Schritte: Bereitstellen 100 eines ersten Bilds B1 und eines zweiten Bilds B2 (insbesondere jeweils als Digitalbild), Transformieren 102 des ersten Bilds B1 in ein erstes Deskriptorbild DB1 und des zweiten Bilds B2 in ein zweites Deskriptorbild DB2, Ermitteln 104 eines Distanzbildes DISTB basierend auf einem Vergleich des ersten Deskriptorbilds DB1 mit dem zweiten Deskriptorbild DB1, und, optional, Bilden 106 eines Detektionsbilds DETB basierend auf dem Distanzbild DISTB. Dadurch ist z.B. eine besonders effiziente Erkennung von Änderungen bezüglich der Bilder B1, B2 möglich, z.B. eine Erkennung einer Bewegung wenigstens eines auf wenigstens einem der Bilder B1, B2 abgebildeten Objekts. Insbesondere charakterisiert das Distanzbild DISTB bzw. die in dem Distanzbild DISTB enthaltenen Informationen wenigstens teilweise Änderungen bezüglich der Bilder B1, B2 bzw. der daraus ableitbaren Deskriptorbilder DB1, DB2 zueinander.

Bei weiteren bevorzugten Ausführungsformen kann das Distanzbild DISTB als Detektionsbild DETB verwendet werden, wobei insbesondere der optionale Schritt 106 entfällt. Bei weiteren bevorzugten Ausführungsformen kann das Detektionsbild DETB basierend auf dem Distanzbild DISTB gebildet werden, was z.B. in dem optionalen Schritt 106 erfolgen kann.

Die Figuren 14A bis 14F zeigen beispielhaft unterschiedliche, weiter unten näher beschriebene, Detektionsbilder, wie sie z.B. gemäß bevorzugten Ausführungsformen, z.B. basierend auf dem beispielhaften Ablauf gemäß Fig.

2A, erhalten werden können.

Bei weiteren bevorzugten Ausführungsformen wird für das Transformieren 102 in die Deskriptorbilder DB1, DB2 wenigstens eine Transformation verwendet, die das Umfeld eines Bildelements ("Pixels") des ersten bzw. zweiten Bilds B1, B2 im jeweiligen Bild in einen Deskriptor umwandelt, der dieses Umfeld, bevorzugt in kompakter Weise, beschreibt, das heißt mit wenigen Bits, insbesondere mit weniger Bits, als es dem Informationsgehalt des Umfelds des Pixels in dem Bild B1, B2 selbst entspricht. Bei weiteren bevorzugten Ausführungsformen wird der Wert des Deskriptors als Signatur bezeichnet. Bei weiteren bevorzugten Ausführungsformen hat die Signatur eine feste Länge, insbesondere Wortlänge, von z. B. 8 bit bis z.B. 32 bit, kann bei weiteren bevorzugten Ausführungsformen aber auch länger als 32 bit oder kürzer als 8 bit sein.

Bei weiteren bevorzugten Ausführungsformen weist das Transformieren 102 das Ausführen der Transformation für eine jeweilige Umgebung einer Vielzahl von Pixeln auf, z.B. jedes Pixels im ersten Bild B1 bzw. im zweiten Bild B2, so dass als Ergebnis ein jeweiliges erstes bzw. zweites "Bild von Deskriptoren", also das bzw. die bereits genannten Deskriptorbilder DB1, DB2, entsteht. Bei weiteren bevorzugten Ausführungsformen kann ein Deskriptorbild DB1, DB2 auch aufgefasst werden als eine Vielzahl von Deskriptorwerten bzw. Signaturen, die bevorzugt in einer matrixförmigen Anordnung von Reihen und Spalten organisiert sind, entsprechend der Position der für Ihre Bildung ausgewerteten Pixel bzw. der jeweiligen Umgebung eines betrachteten Pixels. Insoweit ist ein Deskriptorbild DB1, DB2 z.B. mit dem ersten oder zweiten Bild B1, B2 vergleichbar, wobei jedoch anstelle der regulären Bildinformationen (wie z.B. Helligkeits- bzw. Intensitätswerte von einem oder mehreren Graustufen- oder Farbkanälen) jedem Bildelement des Deskriptorbilds die jeweilige Signatur zugeordnet ist, mithin Informationen über das Umfeld des Ausgangsbilds B1, B2 aufweist, die bei der Bildung des Deskriptors bzw. der Signatur mit eingeflossen sind.

In diesem Zusammenhang zeigt Figur 3A ein beispielhaftes Bild bzw. Ausgangsbild B1a, und Figur 3A zeigt ein daraus mittels der Transformation 102 (Fig. 2A) ableitbares zugehöriges Deskriptorbild DB1a. Fig. 3A, B veranschaulicht beispielhaft, wie das Umfeld U1 um den Fuß des Leitpfostens des Ausgangsbilds B1a in einen Deskriptor D gewandelt wird, s. den Pfeil A1. Das zugehörige Deskriptorbild DB1a (Fig. 3B), das nicht mehr wie das Ausgangsbild B1a aussieht (und i.d.R. auch nicht zum Anschauen gedacht ist), weist Informationen über die einzelnen Pixel des Ausgangsbilds B1a und deren jeweiliges Umfeld ("Kontext") auf. In dem Deskriptorbild DB1a sind pixelweise Deskriptorwerte gespeichert, die vorliegend z.B. Intensitätswerten (schwarz/weiß bzw. Graustufen) entsprechen. Die Deskriptorwerte, s. z.B. den bezeichneten Deskriptor D, beschreiben eine jeweilige Umgebung U des Ausgangsbilds B1a an entsprechender Stelle in (verglichen zu der Umgebung U des Ausgangsbilds B1a) kompakterer Form.

Anstatt die Deskriptorwerte wie beispielhaft in Fig. 3B gezeigt in dem Deskriptorbild DB1a zu speichern, können sie bei weiteren bevorzugten Ausführungsformen auch „on-the-fly“, also z.B. erst bei Bedarf, gebildet werden.

Bei weiteren bevorzugten Ausführungsformen können Pixel am Bildrand des ersten und/oder zweiten Bilds B1, B2 für die Transformation 102 (Fig. 2A) zu den Deskriptorbildern DB1, DB2 unberücksichtigt bleiben, weil dort z.B. der Rahmen für die Transformation 102 über das Bild B1, B2 hinausragt, die "Pixelwerte" mithin Undefiniert sind. Bei weiteren bevorzugten Ausführungsformen können Pixel am Bildrand des ersten und/oder zweiten Bilds B1 , B2 für die Transformation 102 zu den Deskriptorbildern DB1, DB2 berücksichtigt werden, wobei ggf. am Rand fehlende bzw. Undefinierte Pixelwerte gemäß einer vorgebbaren Regel ergänzt werden, z.B. durch Kopieren der Pixelwerte (z.B. benachbarter) vorhandener Pixel und/oder Setzen der zuvor Undefinierten Werte auf einen vorgebbaren Wert bzw. vorgebbare Werte.

Bei weiteren bevorzugten Ausführungsformen kann für das Transformieren 102 wenigstens eines der nachstehend aufgeführten Verfahren oder Teile daraus oder Kombinationen davon verwendet werden: SIFT (skaleninvariante Merkmalstransformation, vgl. z.B. US 6,711,293), SURF (Speeded Up Robust Features, z.B. gemäß Bay H., Tuytelaars T., Van Gool L. (2006) SURF: Speeded Up Robust Features. In: Leonardis A., Bischof H., Pinz A. (eds) Computer Vision - ECCV 2006. ECCV 2006. Lecture Notes in Computer Science, vol 3951. Springer, Berlin, Heidelberg, https://doi.org/10.1007/11744023_32), ORB (E. Rublee, V. Rabaud, K. Konolige and G. Bradski, "ORB: An efficient alternative to SIFT or SURF," 2011 International Conference on Computer Vision, Barcelona, 2011, pp. 2564-2571; DOI: 10.1109/ICCV.2011.6126544), BRISK (Leutenegger, Stefan & Chli, Margarita & Siegwart, Roland. (2011). BRISK: Binary Robust invariant scalable keypoints. Proceedings of the IEEE International Conference on Computer Vision. 2548-2555. 10.1109/ICCV.2011.6126542.), BRIEF (Binary Robust Independent Elementary Features, DOI: 10.1007/978-3-642-15561- 1_56), DAISY (E. Tola, V. Lepetit and P. Fua, "DAISY: An Efficient Dense Descriptor Applied to Wide-Baseline Stereo," in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 32, no. 5, pp. 815-830, May 2010.), LATCH (https://arxiv.org/pdf/1501.03719.pdf). Bei weiteren bevorzugten Ausführungsformen kann für das Transformieren 102 auch ein anderes, vorstehend nicht genanntes Verfahren, verwendet werden.

Bei weiteren bevorzugten Ausführungsformen ist für den zur Bildung der Deskriptorbilder DB1, DB2 (Fig. 2A) gewählten Deskriptor ein Distanzmaß vorhanden bzw. vorgebbar, das es z.B. erlaubt, eine Unterschiedlichkeit zweier Deskriptorwerte zu ermitteln bzw. zu bewerten. Bei weiteren bevorzugten Ausführungsformen kann alternativ zu dem Distanzmaß auch ein Ähnlichkeitsmaß verwendet werden, wobei insbesondere beide Maße ineinander überführbar sein können. Daher wird nachfolgend beispielhaft und ohne Beschränkung der Allgemeingültigkeit nur das Distanzmaß betrachtet, wobei alle beispielhaft beschriebenen Schritte und Ausführungsformen entsprechend auch bei Verwendung eines Ähnlichkeitsmaßes - anstelle eines Distanzmaßes - zur Bewertung eines Unterschieds des Deskriptorbilder DB1, DB2, also z.B. zur Charakterisierung eines Ergebnisses des Vergleichens 104 des ersten Deskriptorbilds DB1 mit dem zweiten Deskriptorbild DB2, nutzbar sind.

Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass für das Transformieren ein Deskriptor verwendet wird, für den ein Distanzmaß und/oder ein Ähnlichkeitsmaß definierbar und/oder definiert ist, wobei insbesondere das Vergleichen 104 des ersten Deskriptorbilds DB1 mit dem zweiten Deskriptorbild DB2 basierend auf dem Distanzmaß und/oder dem Ähnlichkeitsmaß ausgeführt wird.

Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass als Distanzmaß für das Vergleichen 104 die Hamming-Distanz oder ein auf der Hamming-Distanz basierendes Distanzmaß verwendet wird, wobei insbesondere die Hamming-Distanz mit einem vorgebbaren Schwellwert verglichen wird und basierend auf dem Vergleich ein, insbesondere binärer, Vergleichswert ermittelt wird.

Dabei bedeutet der Wert D_H = 0, dass die beiden miteinander verglichenen Deskriptorwerte identisch sind, während sie bei D_H = N maximal unterschiedlich sind. Vergleicht man z.B. zwei zufällig ausgewählte Deskriptorwerte miteinander und treten alle darstellbaren Deskriptorwerte 0, 1, ... , 2^N_1 etwa gleichwahrscheinlich auf, so ist z.B. im statistischen Mittel eine Hamming-Distanz von etwa N/2 zu erwarten. Für eine Anderungsdetektion gemäß weiteren bevorzugten Ausführungsformen bedeutet dies, dass bei im Wesentlichen übereinstimmenden Bildbereichen Distanzwerte nahe 0 zu erwarten sind - und für nicht übereinstimmende Bildbereiche, z. B. aufgrund bewegter Objekte, Distanzwerte deutlich größer als 0, und dann z. B. etwa um N/2 liegen.

Das Distanzmaß kann gemäß weiteren bevorzugten Ausführungsformen optional weiter vereinfacht werden, beispielsweise durch Binarisierung. Z.B. kann die Hamming-Distanz hierzu mit einer Schwelle L verglichen und eine binäre

Distanz D_B erhalten werden, g aemäß D B_B = ! l^ö 1 sonst

Figur 4A zeigt beispielhaft ein Distanzbild DISTB1 gemäß weiteren bevorzugten Ausführungsformen, das z.B. unter Verwendung der Hamming-Distanz mit nachfolgender Binarisierung erhalten worden ist.

Die Figuren 15A bis 15D zeigen beispielhaft Bilder der Kamera 12 (Fig. 1), in denen ein Flurförderfahrzeug FFF und eine Person (nicht bezeichnet) gemäß weiteren bevorzugten Ausführungsformen erfolgreich detektiert worden sind, und in denen entsprechende Bereiche gemäß weiteren bevorzugten Ausführungsformen grafisch hervorgehoben sind, also z.B. eine Änderung bezüglich der Bilder B1, B2 erkannt worden ist. Ferner zeigen Fig. 15A bis 15D eine Auswirkung einer Variation der vorstehend beschriebenen Schwelle L bei der optionalen Binarisierung des Distanzbilds DISTB (Fig. 2A) auf ein daraus ableitbares Detektionsbild DETB, vgl. die Ausdehnung der Blobs bzw. Hervorhebungen H1, H2, H3 (Bereich der Person), H4 (Bereich des Flurförderfahrzeugs FFF). Mit anderen Worten entsprechen die Bilder der Fig. 15A, 15B, 15C, 15D jeweils einem gemäß weiteren bevorzugten Ausführungsformen ermittelbaren Detektionsbild DETB, das im Wesentlichen z.B. auf dem ersten Bild B1 und/oder dem zweiten Bild B2 beruht, und in dem die genannten Hervorhebungen H1, H2, H3, H4 basierend auf einem gemäß der Schwelle L binarisierten Distanzbild enthalten sind. Zur Ermittlung des Detektionsbilds DETBa gemäß Fig. 15A ist bei der Binarisierung eine Schwelle L=0 verwendet worden, für das Detektionsbild DETBb gemäß Fig. 15B eine Schwelle L=1, für das Detektionsbild DETBc gemäß Fig. 15C eine Schwelle L=2, und für das Detektionsbild DETBd gemäß Fig. 15D eine Schwelle L=4. In den Bildern von Fig. 15 sind u.a. in Form der Hervorhebungen H1, H2 z.B. Lichtprojektionen zu sehen, die das ebenfalls abgebildete Flurförderfahrzeug FFF auf den Boden RF projiziert, z.B. um Personen und/oder andere Fahrer auf sich bzw. die mit Ihnen zusammenhängende mögliche Gefahr aufmerksam zu machen. Diese Projektionen H1, H2 sind bevorzugt klar berandet und bewegen sich z.B. mit dem Fahrzeug FFF mit. Sie werden bei weiteren bevorzugten Ausführungsformen von einer Änderungsdetektion (ebenfalls) detektiert, was bei weiteren bevorzugten Ausführungsformen auch so gewünscht ist.

Anhand z.B. der Hervorhebungen H1, H2 in Fig. 15 ist ersichtlich, wie sich die Variation der Schwelle L auf das Detektionsbild DETB (Fig. 2A) auswirken kann. Es ist zu beobachten, dass L bei weiteren bevorzugten Ausführungsformen nicht zu klein gewählt sein sollte (siehe Fig. 15A, L = 0), denn sonst könnten Kamerarauschen und/oder Artefakte, z.B. aufgrund einer Bildkompression ("Kompressionsartefakte"), bereits zu Fehldetektionen führen. Andererseits sollte L bei weiteren bevorzugten Ausführungsformen aber auch nicht zu groß gewählt sein (siehe Fig. 15D, L = 4), sonst wird die Detektion zu unempfindlich, so dass kleine Objekte H2 oder langsam bewegte Objekte übersehen werden könnten. Es gelingt bei weiteren bevorzugten Ausführungsformen aber, einen sinnvollen Kompromiss für die Wahl der Schwelle L zu finden. Diese ist bei weiteren bevorzugten Ausführungsformen insbesondere von der Qualität des Kamerabilds bzw. des Bildsensors abhängig sowie von der Wortlänge N des Deskriptors. Bei weiteren bevorzugten Ausführungsformen beträgt die Schwelle z.B. L = 2.

Bei weiteren bevorzugten Ausführungsformen kann alternativ oder ergänzend zu einer zumindest zeitweisen Speicherung von Deskriptorwerten in dem ersten und/oder zweiten Deskriptorbild DB1, DB2 (Fig. 2A) auch eine Ermittlung der Deskriptorwerte bei Bedarf, z.B. „on-the-fly“ erfolgen. Mit anderen Worten kann bei weiteren bevorzugten Ausführungsformen das Transformieren 102 des ersten Bilds B1 in das erste Deskriptorbild DB1 und/oder das Transformieren 102 des zweiten Bilds B2 in das zweite Deskriptorbild DB2 auch dynamisch, d.h. z.B. bei Bedarf und/oder in Echtzeit, insbesondere z.B. auch in direktem zeitlichen Zusammenhang mit dem Ermitteln 104 des Distanzbilds DISTB, ausgeführt werden. Bei weiteren bevorzugten Ausführungsformen kann das Transformieren 102 des ersten Bilds B1 in das erste Deskriptorbild DB1 und/oder das Transformieren 102 des zweiten Bilds B2 in das zweite Deskriptorbild DB2 zumindest zeitweise auch parallelisiert werden, z.B. wenn mehrere Rechenkerne 202a einer Vorrichtung 200 (s.u. zu Figur 11) zur Ausführung der jeweiligen Transformation(en) 102 verfügbar sind.

Bei weiteren bevorzugten Ausführungsformen ist auch denkbar, die Transformation 102 zur Bildung des jeweiligen (ersten und/oder zweiten) Deskriptorbilds DB1, DB2 zeitgleich oder zumindest zeitlich teilweise überlappend auf einen ersten Teil des (ersten und/oder zweiten) Bilds B1, B2 auszuführen. Mit anderen Worten ist bei weiteren bevorzugten Ausführungsformen auch denkbar, die Transformation 102 des ersten Bilds B1 in das erste Deskriptorbild DB1 zu parallelisieren, wobei z.B. ein erster Teil des ersten Bilds B1 in einen ersten Teil des ersten Deskriptorbilds DB1 transformiert wird, und wobei gleichzeitig hierzu z.B. ein zweiter Teil des ersten Bilds B1 in einen zweiten Teil des ersten Deskriptorbilds DB1 transformiert wird.

Bei weiteren bevorzugten Ausführungsformen wird das einem ersten Zeitpunkt, z.B. dem aktuellen Zeitpunkt, gehörige erste Deskriptorbild DB1 mit einem zweiten Deskriptorbild DB2 verglichen, das zu einem zweiten, insbesondere früheren, Zeitpunkt gehört.

Bei weiteren bevorzugten Ausführungsformen kann sowohl das Transformieren 102 zu den Deskriptorbildern DB1, DB2 als auch das Ermitteln 104 des Distanzbilds DISTB jeweils z.B. nur auf einem vorgebbaren Teilbereich der ersten und zweiten Bilder B1, B2 bzw. der daraus ableitbaren Deskriptorbilder DB1, DB2 ausgeführt werden. Die Auswahl von Teilbereichen kann bei weiteren bevorzugten Ausführungsformen z.B. auch dynamisch, also zur Laufzeit des Verfahrens bzw. einer das Verfahren ausführenden Vorrichtung 200 (Fig. 11), erfolgen, z.B. basierend auf einem aktuellen Inhalt der Bilder B1, B2 und/oder (zuvor) erkannten Änderungen und/oder Objekten und/oder einen Zustand des Systems 10, z.B. seiner aktuellen Fahrtrichtung.

Bei weiteren bevorzugten Ausführungsformen erfolgt das Vergleichen 104 (Fig. 2A) des ersten Deskriptorbilds DB1 mit dem zweiten Deskriptorbild DB2, also das Bilden des Distanzmaßes, Pixel für Pixel, es wird also jeweils ein Bildelement des ersten Deskriptorbilds DB1 mit einem entsprechenden Bildelement des zweiten Deskriptorbilds DB2 verglichen und dabei ein entsprechender Wert für das Distanzmaß ("Distanzwert") erhalten. Mit anderen Worten wird bei weiteren bevorzugten Ausführungsformen jeweils ein Deskriptorwert an einer bestimmten Koordinate des ersten Deskriptorbilds DB1 mit dem Deskriptorwert an der entsprechenden (selben) Koordinate des zweiten Deskriptorbilds DB2 verglichen. Der dabei ermittelte Distanzwert wird bei weiteren bevorzugten Ausführungsformen in ein bzw. das Distanzbild DISTB an der entsprechenden Koordinate eingetragen. Es ist ersichtlich, dass das Distanzbild DISTB dieselbe Größe (Anzahl der Pixel, z.B. charakterisierbar durch Breite und Höhe) aufweist wie die zu vergleichenden Deskriptorbilder DB1, DB2. Bei weiteren bevorzugten Ausführungsformen kann das Distanzbild DISTB (also jedes Bildelement) z.B. Werte im Bereich 0 bis N aufweisen, die das Vergleichsergebnis zwischen erstem Deskriptorbild DB1 und zweitem Deskriptorbild DB2 charakterisieren.

Bei weiteren bevorzugten Ausführungsformen, vgl. Figur 2B, ist vorgesehen, dass das Verfahren weiter aufweist: Filtern 105 des Distanzbilds DISTB, wodurch ein gefiltertes Distanzbild DISTB' erhalten wird, wobei insbesondere das Bilden 106 des Detektionsbilds DETB basierend auf dem gefilterten Distanzbild DISTB' erfolgt. Ansonsten kann der Ablauf gemäß Fig. 2B z.B. dem Ablauf gemäß Fig.

2A entsprechen.

Bei weiteren bevorzugten Ausführungsformen wird das Filtern 105 (Fig. 2B) so ausgeführt, dass das Distanzbild DISTB umgewandelt wird in ein gefiltertes Bild DISTB', das Änderungen in kompakter Form anzeigt, was z.B. für eine Funktionsschnittstelle gemäß weiteren bevorzugten Ausführungsformen nützlich ist. Figur 4B zeigt beispielhaft ein gefiltertes Distanzbild DISTBT, wie es mittels der Filterung 105 basierend auf dem Distanzbild DISTB1 gemäß Fig. 4A erhalten worden ist.

Beispielsweise kann basierend auf dem gefilterten Distanzbild DISTBT gemäß Fig. 4B und einem der Bildung des gefilterten Distanzbilds DISTBT zugrundeliegenden Bild (nicht gezeigt) ein Detektionsbild ähnlich zu den beispielhaft in Fig. 14 gezeigten Bildern erhalten werden, wobei die Informationen des gefilterten Distanzbilds DISTBT z.B. dazu verwendet werden, entsprechende Regionen des zugrundeliegenden Bilds grafisch hervorzuheben.

Auf diese Weise ist bei dem Detektionsbild DETB_1 gemäß Fig. 14A beispielsweise eine Person P1 mit einem Warenträger P1a durch die Hervorhebung HP1 kenntlich gemacht. In vergleichbarer Weise sind in Fig. 14B zwei Personen P1, P2 mittels entsprechender Hervorhebungen HP1, HP2, die z.B. auf Informationen aus einem gefilterten Distanzbild ähnlich dem gefilterten Distanzbild DISTB1' gemäß Fig. 4B beruhen, kenntlich gemacht.

In vergleichbarer Weise sind in den nachfolgend einzeln aufgeführten Figuren 14C bis 14F die jeweils stichwortartig genannten Objekte bzw. Personen kenntlich gemacht: Fig. 14C: eine Person P1, Fig. 14D: ein Fahrzeug F1, Fig. 14E: ein Radfahrer R1, Fig. 14F: eine Person P1 und ein Gabelstapler G1,

Bei weiteren bevorzugten Ausführungsformen weist das Detektionsbild ein oder mehrere zusammenhängende Regionen, die gemäß weiteren bevorzugten Ausführungsformen auch als "Blobs" bezeichnet werden, für diejenigen Bildbereiche auf, in denen, insbesondere signifikante, Änderungen zwischen den betrachteten (ersten und zweiten) Bildern bzw. den hiermit korrespondierenden Deskriptorbildern vorliegen. Bei weiteren bevorzugten Ausführungsformen können die Blobs z.B. basierend auf dem gefilterten Distanzbild DISTBT, wie es z.B. in Schritt 105 gemäß Fig. 2B erhalten wird, ermittelt werden.

Bei weiteren bevorzugten Ausführungsformen kann alternativ oder ergänzend zu einer zumindest zeitweisen vollständigen oder teilweisen Speicherung des (gefilterten) Distanzbilds DISTB, DISTB' und/oder des Detektionsbilds DETB auch eine (zumindest teilweise) Ermittlung des (gefilterten) Distanzbilds DISTB, DISTB' und/oder des Detektionsbilds DETB bei Bedarf, z.B. „on-the-fly“, erfolgen. Mit anderen Worten ist bei weiteren bevorzugten Ausführungsformen denkbar, (auch) das Distanzbild und/oder das Detektionsbild zumindest nicht vollständig zu speichern, z.B. im Rahmen von Schritt 104 bzw. 105 bzw. 106, sondern es bzw. sie z.B., insbesondere umgehend, weiterzuverarbeiten, z.B. um Speicher zu sparen oder um Zwischenergebnisse (z.B. Teile des Distanzbilds und/oder Detektionsbilds) schneller bereitstellen zu können. Bei weiteren bevorzugten Ausführungsformen kann das Detektionsbild DETB (Fig. 2A, 2B) in einem optionalen weiteren oder alternativen Schritt in eine andere Form überführt werden, z. B. um es effizienter über eine Schnittstelle übermitteln zu können. Dazu werden bei weiteren bevorzugten Ausführungsformen beispielsweise die Konturen wenigstens eines Blobs angenähert, z.B. als Polygone beschrieben.

Bei weiteren bevorzugten Ausführungsformen, vgl. Fig. 2B, ist vorgesehen, dass das Filtern 105 das Anwenden eines Majoritätsfilters und/oder eines Schwellwertfilters aufweist.

Bei weiteren bevorzugten Ausführungsformen kann das Distanzbild DISTB, vgl. auch Bezugszeichen DISTB1 gemäß Fig. 4A, an sich einen hohen Detaillierungsgrad aufweisen und daher z.B. nicht gut geeignet sein, um an eine Funktionsschnittstelle weitergegeben und/oder in sonstiger Weise übertragen zu werden.

Daher ist bei weiteren bevorzugten Ausführungsformen der vorstehend bereits beschriebene optionale Schritt 105 (Fig. 2B) der Filterung vorgesehen, der bei weiteren bevorzugten Ausführungsformen die im Distanzbild DISTB, DISTB1 enthaltene Information „kondensiert“, also verdichtet, und somit das Distanzbild z.B. für eine Weitergabe z.B. an eine optionale nachfolgende Funktion (z.B. Ermittlung des Detektionsbilds DETB) geeignet aufbereitet.

Wie bereits erwähnt ist in Fig. 4A beispielhaft ein Distanzbild DISTB1 als Eingangsbild für eine optionale Filterung abgebildet, und in Fig. 4B das gefilterte Distanzbild DISTBT als Ausgangsbild des Filterungsschritts 105 (Fig. 2B). In diesem beispielhaften Ausführungsbeispiel handelt es sich sowohl bei den Eingangs- als auch bei den Ausgangsdaten um Binärbilder DISTB1, DISTBT, die vorliegend beispielhaft schwarz-weiß dargestellt sind. Schwarz steht dabei beispielhaft für „verändert“ bzw. „bewegt“, weiß für das Gegenteil. Bei weiteren bevorzugten Ausführungsformen wird für die Filterung 105 ein Majoritätsfilter verwendet, dessen Arbeitsweise anhand der beispielhaften Illustration gemäß Figur 5 leicht nachzuvollziehen ist. Bezugszeichen BA1 aus Fig. 5 bezeichnet dabei einen beispielhaften Teil des Distanzbilds DISTB1 z.B. gemäß Fig. 4A, und Bezugszeichen BA2 aus Fig. 5 bezeichnet einen beispielhaften Teil des gefilterten Distanzbilds DISTBT gemäß Fig. 4B.

Mittels des Majoritätsfilters wird z.B. in dem gleitenden Fenster GF, das vorliegend 3 x 3 Pixel des Distanzbilds DISTB1 abdeckt, ermittelt, ob die schwarzen oder die weißen Pixel in der in dem Fenster GF in der Mehrheit (Majorität) sind. Da sich vorliegend (aufgrund der beispielhaft angenommenen ungeraden Kantenlängen mit dem Wert "3" - bei anderen Beispielen sind auch andere, insbesondere auch geradzahlige Kantenlängen möglich) eine ungerade Anzahl von Pixeln in dem Fenster GF befindet, ist das Ergebnis des Majoritätsfilters eindeutig. Das Ausgabepixel AP, das mit dem Fenster GF an der aktuellen Position in dem Distanzbild DISTB1 korrespondiert, erhält die Farbe der Mehrheit, hier also beispielhaft schwarz, denn in dem Fenster GF ist das Ergebnis "5 : 4" zu Gunsten von schwarz.

Für die weiteren acht Ergebnispixel des Bereichs BA2 kann in vergleichbarer Weise die Auswertung des Majoritätsfilters nachvollzogen werden.

Bei weiteren bevorzugten Ausführungsformen kann, anstatt die Mehrheit zu überprüfen, was vorliegend beispielhaft einem Vergleich mit einer Schwelle von 9/2 = 4,5 gleichkommt, auch mit einer anderen Schwelle verglichen werden.

Aus Fig. 4B, ist deutlich zu erkennen, dass aufgrund der optionalen Filterung gemäß bevorzugten Ausführungsformen (vorliegend beispielhaft mit einem Majoritätsfilter und einem Filterradius von R = 15, abweichend von der vereinfachten Darstellung gemäß Fig. 5) das gefilterte Distanzbild DISTBT, weitaus weniger Rauschen (im Sinne einer Variation der binären Entscheidung von Pixel zu Pixel) aufweist, was z.B. eine zuverlässige Detektion von eigenbewegten Objekten OBJ1, OBJ2 ermöglicht. Bei weiteren bevorzugten Ausführungsformen ist ein (gefiltertes) Ergebnisbild DISTB1' (Fig. 4B) bei einer Kantenlänge des Filters von 2R + 1 um 2R viele Pixel kürzer (schmaler bzw. niedriger) als das Eingangsbild DISTB1 (Fig. 4A).

Bei weiteren bevorzugten Ausführungsformen arbeitet das Filter für die Filterung 105 (Fig. 2B), welches ein zweidimensionales Filter ist, auf einem quadratischen Fenster GF mit Kantenlänge 3 x 3 (Fig. 5).

Bei weiteren bevorzugten Ausführungsformen kann das Filterfenster GF aber auch rechteckig und nicht quadratisch sein, oder eine andere Form aufweisen (z. B. Kreis oder Polygon). Bei weiteren bevorzugten Ausführungsformen ist der Filterradius R größer als in Fig. 5 zur besseren Übersichtlichkeit dargestellt, z.B. mit Werten zwischen 2 und 30.

Bei weiteren bevorzugten Ausführungsformen stimmen alle beteiligten Pixel des Filterfensters GF, Fig. 5, mit demselben Stimmgewicht ab: jeder hat eine Stimme.

Bei weiteren bevorzugten Ausführungsformen kann das Stimmgewicht SGW in der Mitte des Fensters GF ein Maximum haben und z.B. zum Rand des Fensters GF hin abnehmen, was in Fig. 6 für eine Dimension entlang der Koordinatenachse x beispielhaft gezeigt ist, vgl. Kurve K1. Demgegenüber entspricht Kurve K2 z.B. einer Filterung mit konstantem Stimmgewicht. Kurve K1 kann bei weiteren bevorzugten Ausführungsformen auch als "Dreiecksfilter" mit dem Filterradius R bezeichnet werden, die eine mittenbetonte Gewichtung bewirkt, und Kurve K2 auch als "Rechteckfilter".

Bei weiteren bevorzugten Ausführungsformen kann die Verteilung der Stimmgewichte entlang der anderen, nicht in Fig. 5 abgebildeten Dimension (z.B. senkrecht zur Zeichenebene der Fig. 6, wegen des zweidimensionalen Filters/Filterfensters GF) identisch zur Verteilung entlang der Dimension bzw. Achse x sein. Das resultierende Stimmgewicht kann dann sich z.B. als Produkt oder als Summe der Stimmgewichte der ersten Dimension und der zweiten Dimension ergeben.

Bei weiteren bevorzugten Ausführungsformen können zur Ausführung der Filterung 105 (Fig. 2B) z.B. Integralfilter oder Integralbilder oder eine Darstellung des Dreiecksfilters K1 als Faltung von zwei Rechteckfiltern oder eine geeignete Hintereinanderschaltung mehrerer Integralfilter verwendet werden.

Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, insbesondere bei der mittenbetonten Gewichtung (Kurve K1 gemäß Fig. 6) eine geeignete Entscheidungsschwelle festzulegen. Hierbei kann man sich wieder von dem Gedanken des Majoritätsfilters gemäß weiteren bevorzugten Ausführungsformen leiten lassen: Man stelle sich vor, dass im Fenster mit ungerader Kantenlänge entweder die schwarzen oder die weißen Elemente gerade mit einem Element in der Mehrheit sind, und dass die Farben gleichmäßig verteilt sind (z.B. schachbrettartig Pixel für Pixel abwechselnd). Die Schwelle ist dann bei weiteren bevorzugten Ausführungsformen so zu wählen, dass mit dieser einfachen Mehrheit gerade die Entscheidung umkippt.

Figur 7 zeigt in der linken Hälfte LH beispielhaft ein binärwertiges Muster (hier ein Schachbrett als willkürlich gewähltes Beispiel), das in Fig. 7 von oben nach unten immer stärker mit Binärrauschen (sog. Salz- und Pfeffer-Rauschen) verrauscht wird. Das Signal-zu-Rausch-Verhältnis variiert hierbei z.B. von unendlich bis 1/3. Dieses verrauschte "Eingangsbild" LH wird mit einem Majoritätsfilter, hier als Dreiecksfilter mit Radius R = 7, gefiltert. Das Ergebnis der Filterung ist in der rechten Hälfte RH dargestellt.

Beispielsweise kann die linke Bildhälfte LH gemäß Fig. 7 dem Distanzbild DISTB gemäß Fig. 2B entsprechen, und in der rechten Bildhälfte BH ist das Ergebnis der Filterung dem Majoritätsfilter mit mittenbetonter Gewichtung (Dreiecksfilter K1) und Radius R = 7 dargestellt. Die rechte Bildhälfte RH entspricht dann z.B. dem gefilterten Distanzbild DISTB' (Fig. 2B), das bei weiteren bevorzugten Ausführungsformen z.B. direkt als Detektionsbild DETB nutzbar ist, oder auf dessen Basis das Detektionsbild DETB ermittelbar ist, vgl. Schritt 106 aus Fig.

2B.

Wie man beispielhaft aus Fig. 7 sieht, führt der Schritt 105 (Fig. 2B) der Filterung zu einem für viele Anwendungen gemäß weiteren bevorzugten Ausführungsformen angemessenen Grad von (nicht zu hoher) Detaillierung.

Figur 17A bis 17D stellt den Einfluss der Wahl des Radius R für die optionale Filterung 105 (Fig. 2B) auf den erhaltenen Grad der Detaillierung für ein reales Beispiel dar. Beispielhaft laufen zwei Personen P1, P2 durch das Bild der Kamera eines Gabelstaplers. Bei weiteren bevorzugten Ausführungsformen ist es für eine angestrebte Funktion wichtig, die Personen P1, P2 zu detektieren, z.B. damit der Fahrer des Gabelstaplers darauf hingewiesen werden kann oder damit ein autonomes oder ferngesteuertes Transportsystem angemessen auf die Personen P1, P2 reagieren kann. In Fig. 17A, 17B sind die Ergebnisse der Filterung gemäß weiteren bevorzugten Ausführungsformen zu detailliert (Fig. 17A: Radius R=0, Fig. 17B: R=5). In Fig. 17C liegen bei R = 15 zwei Detektionen vor, die den beiden Personen P1, P2 entsprechen, vgl. die beiden zugeordneten Hervorhebungen H1, H2. Dieser Detaillierungsgrad ist z.B. für eine Änderungsdetektion gemäß weiteren bevorzugten Ausführungsformen gut geeignet. Erhöht man den Filterradius weiter, z. B. auf R = 50, vgl. Fig. 17D, so verschmelzen die Hervorhebungen H1, H2 der beiden Personen P1, P2 zu einem einzigen Blob H12 und die Details der Personen P1, P2 (z.B. Füße, Köpfe) werden weniger genau wiedergegeben. Je nach Anwendung kann gemäß weiteren bevorzugten Ausführungsformen auch diese gröbere Detaillierungsstufe ausreichen.

Bei weiteren bevorzugten Ausführungsformen, vgl. Fig. 2C, ist vorgesehen, dass das Verfahren weiter aufweist: Weiterverarbeiten 108 des Detektionsbilds, insbesondere Bilden von Ausgabeinformationen AI, basierend auf wenigstens einem der folgenden Elemente: a) Detektionsbild, b) erstes Bild, c) zweites Bild.

Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass die Ausgabeinformationen AI wenigstens eines der folgenden Elemente aufweisen: a) akustisches Signal, b) haptisches Signal, c) optisches Signal, d) Bild, insbesondere Digitalbild, mit wenigstens einem grafisch hervorgehobenen Bildbereich, insbesondere einem basierend auf dem Detektionsbild (bzw. dem gefilterten) Distanzbild DISTB, DISTB') grafisch hervorgehobenen Bildbereich, vgl. z.B. die Hervorhebungen HP1, HP2, F1, R1, P1, G1 gern. Fig. 14 und/oder die Hervorhebungen H1, H2 gern. Fig. 15 und/oder die Hervorhebungen H1, H2, H12 gemäß Fig. 17. Dadurch kann eine mittels des Verfahrens (vgl. z.B. Fig. 2A) detektierte Änderung bezüglich des ersten und zweiten Bilds B1, B2 effizient einem Benutzer zur Kenntnis gebracht werden, z.B. einem Fahrer eines Gabelstaplers. Auf diese Weise kann der Fahrer zuverlässig und leicht wahrnehmbar z.B. über Änderungen in dem Umfeld seines Fahrzeugs informiert werden, wodurch z.B. Unfälle mit sich dem Fahrzeug nähernden Personen vermieden werden können.

Bei weiteren bevorzugten Ausführungsformen, vgl. Fig. 2D, ist vorgesehen, dass das Verfahren weiter aufweist: Zuweisen 110 eines Bewertungsmaßes BM zu wenigstens einem Deskriptor des ersten Deskriptorbilds DB1 (Fig. 2A, 2B) und/oder des zweiten Deskriptorbilds DB2, und, optional, Berücksichtigen 112 des Bewertungsmaßes BM bei der Ermittlung des Distanzbildes DISTB, wobei insbesondere das Bewertungsmaß BM ein Rauschen bzw. ein Signal-zu- Rausch-Verhältnis, insbesondere eines mit dem jeweiligen Deskriptor assoziierten Bereichs des ersten Bilds B1 und/oder des zweiten Bilds B2, charakterisiert.

Bei weiteren bevorzugten Ausführungsformen kann somit z.B. bei der Bildung der Deskriptoren bzw. der Deskriptorbilder DB1, DB2 das Rauschen mitberücksichtigt werden, beispielsweise gemäß dem in DE 102017212 339 beschriebenen Verfahren.

Bei weiteren bevorzugten Ausführungsformen kann diese Zusatzinformation bei der Ermittlung des Distanzbilds ("Distanzberechnung") DISTB (Fig. 2A) z.B. nach folgender Regel berücksichtigt werden: Ist zumindest einer der zu vergleichenden Deskriptoren als „ungeeignet“ gekennzeichnet, so wird die Distanz nicht nach der üblichen Regel gebildet, sondern eine andere Regel angewandt, wonach z.B. die tatsächliche Distanz durch einen vorgebbaren, insbesondere festen, Wert ersetzt wird. Bei weiteren bevorzugten Ausführungsformen kann im Beispiel der Hamming-Distanz als Distanzmaß der Wert dann z.B. auf "0" gesetzt werden, was z.B. bedeutet, dass vom Rauschen dominierte Bildregionen so behandelt werden, als wären sie unbewegt.

Bei weiteren bevorzugten Ausführungsformen wird die Bewertung des Rauschens nicht als binäre Information weitergegeben, sondern es werden mehr als zwei Stufen vorgesehen, beispielsweise drei oder vier (oder mehr) Stufen. Wenn z.B. gemäß weiteren bevorzugten Ausführungsformen drei Stufen vorgesehen sind, könnten diese bei weiteren bevorzugten Ausführungsformen folgende Bedeutungen haben:

Stufe 0: Aufgrund von Rauschen sollte der Deskriptor nicht verwendet werden. Stufe 1: Aufgrund von Rauschen ist der Deskriptor zwar für "Anwendung A" geeignet, nicht jedoch für "Anwendung B".

Dabei können bei weiteren bevorzugten Ausführungsformen "Anwendungen A" und "B" stehen für zwei Anwendungen aus z.B.: Optischer Fluss, Änderungsdetektion, Korrespondenzbildung, Disparitätsschätzung, Tracking, usw.. Bei weiteren bevorzugten Ausführungsformen sind weitere, hiervon abweichende Ausgestaltungen ebenfalls denkbar. Beispielsweise kann das lokale Signal-zu- Rausch-Verhältnis einer betrachteten (z.B. mit einem Deskriptor assoziierten, also z.B. bei der Bildung des Deskriptors berücksichtigten) Bildregion an den jeweiligen Deskriptor als Zusatzinformation angehängt (z.B. im Sinne einer Konkatenation) werden, z. B. als Zahl. Bei weiteren bevorzugten Ausführungsformen kann eine Distanzberechnung diese Zusatzinformationen verwerten und weitergeben, z.B. als Minimum oder Maximum oder Mittelwert der beiden Zahlen der bei der Distanzberechnung beteiligten Deskriptoren. Diese Zusatzinformation kann bei weiteren bevorzugten Ausführungsformen z.B. auch in einem nachfolgenden optionalen Filterungsschritt 105 (Fig. 2B) weiter berücksichtigt und ggf. auch weitergegeben werden, z.B. als Konfidenz einer getroffenen Entscheidung über das Vorhandensein eines Objekts OBJ1, OBJ2 (Fig. 4B) in dem ersten und/oder zweiten Bild.

Bei weiteren bevorzugten Ausführungsformen, vgl. Fig. 2E, ist vorgesehen, dass das Verfahren weiter aufweist: zumindest zeitweises Speichern 114 des ersten Deskriptorbilds DB1 und/oder des zweiten Deskriptorbilds DB2, z.B. für einen nachfolgenden Gebrauch (vgl. z.B. Schritt 104 gemäß Fig. 2A). Beispielsweise kann bei einer aufeinanderfolgenden Ermittlung von zwei Distanzbildern ein beteiligtes Deskriptorbild zweimal für die Distanzberechnung verwendet werden, nämlich einmal im Sinne des ersten Deskriptorbilds, und ein zweites Mal im Sinne des zweiten Deskriptorbilds.

Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass das Verfahren weiter aufweist: Kompensieren 116 einer mit dem ersten Bild B1 (Fig. 1) und/oder dem zweiten Bild B2 assoziierten Bewegung, insbesondere einer Eigenbewegung einer das erste Bild B1 und/oder das zweite Bild B2 bereitstellenden Kamera 12, für wenigstens eine Fläche RF, insbesondere Oberfläche, z.B. eine Homographie-Kompensation bezüglich der Bodenebene RF.

Figur 8 zeigt schematisch ein vereinfachtes Blockdiagramm gemäß weiteren bevorzugten Ausführungsformen. Die Bezeichner B101 bis B503 haben gemäß weiteren bevorzugten Ausführungsformen folgende Bedeutung:

B101: erstes Kamerabild, vgl. auch Bild B1 gemäß Fig. 2A, B105: zweites Kamerabild, vgl. auch Bild B2 gemäß Fig. 2A, wobei Bild B105 zu einem früheren Zeitpunkt erfasst wurde als das erste Kamerabild B101,

B200: Transformation, die ein Kamerabild in ein Deskriptorbild wandelt, s. z.B. auch Schritt 102 gemäß Fig. 2A, 2B

B201: erstes Deskriptorbild, vgl. auch Bezugszeichen DB1 gemäß Fig. 2A, 2B, B205: zweites Deskriptorbild, vgl. auch Bezugszeichen DB2 gemäß Fig. 2A, 2B, B300: Schritt des Vergleichens (vgl. auch Bezugszeichen 104 gemäß Fig. 2A,

2B) der beiden Deskriptorbilder, dabei entsteht ein Distanzbild B303,

B400: optionaler Filterungsschritt (vgl. auch Schritt 105 gern. Fig. 2B), z.B. um im Falle bewegter Objekte OBJ (Fig. 1) wenige(r) zusammenhängende Regionen zu erhalten,

B403: Detektionsbild, das z.B. gemäß weiteren bevorzugten Ausführungsformen direkt in Form des mittels Schritt B400 gefilterten Distanzbilds erhalten wird,

B500: optionaler Schritt der Weiterverarbeitung des Detektionsbilds B403,

B503 weiterverarbeitete Form des Detektionsbilds, die z.B. geeignet ist für eine Übertragung über eine Schnittstelle, z. B. an ein Warnsystem oder eine Aktuatorik (nicht gezeigt), oder zur Ausgabe auf einer Anzeigevorrichtung (nicht gezeigt), z.B. für den Fahrer des Fahrzeugs 10 (Fig. 1).

Figur 9 zeigt schematisch ein vereinfachtes Blockdiagramm gemäß weiteren bevorzugten Ausführungsformen. Im Vergleich zu Fig. 8 kommen folgende Elemente hinzu:

B250: Zwischenspeicher für Deskriptorbilder. Dieser stellt z.B. ältere Deskriptorbilder B205 bereit und bewahrt sie dafür so lange auf, bis sie nicht mehr benötigt werden. Somit werden erneute Berechnungen eingespart. Es kann pro neuem Eingangsbild B101 also z.B. eine Transformation B200 ausreichend sein, im Gegensatz zu doppelt so vielen bei Fig. 8, bei deren Konfiguration der optionale Zwischenspeicher B250 nicht vorgesehen ist. Durch den optionalen Speicher B250 gemäß Fig. 9 kann bei weiteren bevorzugten Ausführungsformen auch ein (hier nicht dargestellter) Speicher zum Aufbewahren von Kamerabildern B101, z.B. bis diese gebraucht werden, B105, entfallen.

Figur 10 zeigt schematisch ein vereinfachtes Blockdiagramm gemäß weiteren bevorzugten Ausführungsformen. Im Vergleich zu Fig. 8 kommen folgende Elemente hinzu: B150 optionaler Schritt der Kompensation einer Eigenbewegung in einem Bild, für eine Oberfläche RF (Fig. 1). Zum Beispiel eine Homographie-Kompensation bezüglich der Bodenebene RF,

B151: Parameter zur Ansteuerung der Kompensation B150 für das erste Bild B101 ,

B155 Parameter zur Ansteuerung der Kompensation B150 für das zweite Bild B105,

B111 optional kompensiertes, erstes Kamerabild,

B115 optional kompensiertes, zweites Kamerabild,

Bei weiteren bevorzugten Ausführungsformen genügt es bereits, eine Kompensation B150 nur im oberen Zweig Z1 oder im unteren Zweig Z2 vorzusehen. Sie in beiden Zweigen Z1, Z2 vorzusehen und die Arbeit z.B. hälftig aufzuteilen kann bei weiteren bevorzugten Ausführungsformen numerische Vorteile haben.

Wenn die Kompensation B150 gemäß weiteren bevorzugten Ausführungsformen nur z.B. im unteren Zweig Z2 stattfindet, also für das zweite Kamerabild B105, so wird dieses z.B. so kompensiert, dass es (bezüglich der gewählten Oberfläche RF) zum ersten und damit neuesten Kamerabild B101 passt. Diese Variante ist bei weiteren bevorzugten Ausführungsformen meistens die bevorzugte, da dann das resultierende Detektionsbild B403 auch in den Koordinaten des neuesten Kamerabilds B101 vorliegt. Dies ist insbesondere für eine Echtzeit- Visualisierung gemäß weiteren bevorzugten Ausführungsformen von Vorteil.

Weitere bevorzugte Ausführungsformen, vgl. Figur 11, beziehen sich auf eine Vorrichtung 200 zur Verarbeitung von, insbesondere digitalen, Bildern B1, B2, wobei die Vorrichtung 200 zur Ausführung des Verfahrens gemäß den Ausführungsformen (vgl. z.B. Fig. 2) ausgebildet ist.

Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass die Vorrichtung 200 aufweist: eine wenigstens einen Rechenkern 202a aufweisende Recheneinrichtung 202 ("Computer"), eine der Recheneinrichtung 202 zugeordnete Speichereinrichtung 204 zur zumindest zeitweisen Speicherung wenigstens eines der folgenden Elemente: a) Daten DAT, b) Computerprogramm PRG, insbesondere zur Ausführung des Verfahrens gemäß den Ausführungsformen.

Bei weiteren bevorzugten Ausführungsformen können die Daten DAT zumindest zeitweise und/oder teilweise den wenigstens einen Videodatenstrom VDS (bzw. einen Teil davon) und/oder das erste Bild B1 und/oder das zweite Bild B2 und/oder daraus ableitbare Daten, z.B. das erste Deskriptorbild DB1 und/oder das zweite Deskriptorbild DB2 bzw. das Distanzbild DISTB (bzw. DISTB') bzw. das Detektionsbild DETB bzw. zumindest Teile hiervon aufweisen.

Bei weiteren bevorzugten Ausführungsformen weist die Speichereinrichtung 204 einen flüchtigen Speicher 204a (z.B. Arbeitsspeicher (RAM)) auf, und/oder einen nichtflüchtigen Speicher 204b (z.B. Flash-EEPROM).

Bei weiteren bevorzugten Ausführungsformen kann die Recheneinrichtung 202 auch wenigstens eines der folgenden Elemente aufweisen: Mikroprozessor (mR), Mikrocontroller (pC), anwendungsspezifischer integrierter Schaltkreis (ASIC), System on Chip (SoC), programmierbarer Logikbaustein (z.B. FPGA, field programmable gate array), Hardwareschaltung, Grafikprozessor (GPU, graphics Processing unit), oder beliebige Kombinationen hieraus.

Weitere bevorzugte Ausführungsformen beziehen sich auf ein computerlesbares Speichermedium SM, umfassend Befehle PRG, die bei der Ausführung durch einen Computer 202 diesen veranlassen, das Verfahren gemäß den Ausführungsformen auszuführen.

Weitere bevorzugte Ausführungsformen beziehen sich auf ein Computerprogramm PRG, umfassend Befehle, die bei der Ausführung des Programms PRG durch einen Computer 202 diesen veranlassen, das Verfahren gemäß den Ausführungsformen auszuführen.

Weitere bevorzugte Ausführungsformen beziehen sich auf ein Datenträgersignal DCS, das das Computerprogramm PRG gemäß den Ausführungsformen charakterisiert und/oder überträgt. Das Datenträgersignal DCS ist beispielsweise über eine optionale Datenschnittstelle 206, 208 der Vorrichtung 200 empfangbar. Bei weiteren bevorzugten Ausführungsformen sind auch der Videodatenstrom VDS bzw. die Bilder B1, B2 über eine optionale Datenschnittstelle 206 empfangbar.

Die Vorrichtung 200 bzw. Komponenten 202, PRG hiervon können bei weiteren bevorzugten Ausführungsformen z.B. auch dazu ausgebildet sein, zumindest zeitweise die Konfiguration gemäß Fig. 8 und/oder 9 und/oder 10 zu implementieren.

Weitere bevorzugte Ausführungsformen, vgl. Fig. 12, beziehen sich auf eine Verwendung 300 des Verfahrens gemäß den Ausführungsformen und/oder der Vorrichtung 200 gemäß den Ausführungsformen und/oder des computerlesbaren Speichermediums SM gemäß den Ausführungsformen und/oder des Computerprogramms PRG gemäß den Ausführungsformen und/oder des Datenträgersignals DCS gemäß den Ausführungsformen für wenigstens eines der folgenden Elemente: a) Erfassung 302 a1) eines Umfelds U (Fig. 1) eines Systems 10, insbesondere eines Fahrzeugs, insbesondere Flurförderzeugs wie z.B. Gabelstapler und/oder Hubstapler, und/oder a2) einer Szene SZ, b)

Ermitteln 304 von Änderungen bezüglich des ersten Bilds B1 und des zweiten Bilds B2, insbesondere robuste Änderungsdetektion bezüglich des ersten Bilds und des zweiten Bilds, c) Ermitteln 306 von Hindernissen OBJ, H (Fig. 1), insbesondere bewegten Objekten, d) Vermeidung 308 von Unfällen, insbesondere im Bereich eines bzw. des Systems 10 bzw. in dem Umfeld U, insbesondere bei vergleichsweise geringen Geschwindigkeiten des Systems 10, insbesondere kleiner gleich einer Schrittgeschwindigkeit eines Menschen, weiter insbesondere bei einem Übergang zwischen einem Stillstand und einer Bewegung oder umgekehrt, e) Anwendung 309 sowohl beim Stillstand des Systems als auch bei einer Bewegung des Systems, f) Visualisieren (nicht gezeigt) von Änderungen bezüglich des ersten Bilds und des zweiten Bilds, insbesondere Einblenden von die Änderungen charakterisierenden Informationen bzw. Zusatzinformationen bzw. Hervorheben von wenigstens einem Bereich des ersten Bilds und/oder des zweiten Bilds, der mit den Änderungen assoziiert ist, vgl. die Hervorhebungen HP1, HP2 gemäß Fig. 14B.

Robuste Änderungsdetektion 304 bedeutet gemäß weiteren bevorzugten Ausführungsformen z.B. keine bzw. eine unter einem vorgebbaren Schwellwert liegende Zahl von Fehldetektionen (Fehlalarme), z. B. weil sich die Beleuchtung plötzlich ändert (z.B. durch Blinklichter, Warnlichter, vorbeiziehende Lichtkegel usw.), aber gleichzeitig eine zuverlässige Erkennung relevanter Fälle, insbesondere aller relevanten Fälle.

Figur 13 zeigt schematisch beispielhafte Bildfolgen BF1, BF2 gemäß weiteren bevorzugten Ausführungsformen, wie sie z.B. mittels der Kamera 12 (Fig. 1) bzw. basierend auf dem Videodatenstrom VDS erhalten werden können. Bei der Bildfolge BF1 wird periodisch mit der Periodendauer AT - 1t ein Bild B1, B2, B3, .. bereitgestellt, wobei t einen zeitlichen Abstand zweier direkt aufeinanderfolgender Bilder charakterisiert, z.B. 1/30 Sekunde. Beispielsweise können nach ΐt das erste Bild B1 und das dann auch bereits vorliegende zweite Bild B2 gemäß Fig. 2A, 2B usw. ausgewertet werden, z.B. um ein erstes Detektionsbild DETB zu ermitteln. Beispielsweise können nach 2T das Bild B2 und das dann auch bereits vorliegende Bild B3 gemäß Fig. 2A, 2B (im Sinne der Bilder B1, B2) usw. ausgewertet werden, z.B. um ein zweites Detektionsbild DETB zu ermitteln, usw.

Bei weiteren bevorzugten Ausführungsformen, vgl. die Bildfolge BF2 gemäß Fig. 13, ist vorgesehen, dass in dem Videodatenstrom zeitlich zwischen dem ersten Bild B1 und dem zweiten Bild B2 wenigstens ein (vorliegend drei) weitere(s) Bild(er) B' vorhanden ist bzw. sind. Mit anderen Worten kann bei weiteren bevorzugten Ausführungsformen ein zeitlicher Abstand AT zwischen dem ersten Bild B1 und dem zweiten Bild B2 z.B. dadurch verändert werden, dass zwischen als erstes und zweites Bild nicht zeitlich direkt aufeinanderfolgende Bilder z.B. des Videodatenstroms verwendet werden, sondern dass z.B. ein oder mehrere Bilder B' z.B. des Videodatenstroms zwischen dem ersten Bild und dem zweiten Bild ausgelassen werden, vgl. den Pfeil B12, für den gilt: AT - 4T.

Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass das Verfahren (insbesondere die Schritte des Bereitstellens 100 und/oder des Transformierens 102 in die Deskriptorbilder und/oder des Ermittelns 104 des Distanzbilds, und, optional, des Ermittelns 106 des Detektionsbilds) auf mehrere jeweils ein erstes und zweites Bild B1 , B2 aufweisende Bildpaare angewandt wird, wobei das erste Bild B1 eines ersten Bildpaars ein erstes Bild des Videodatenstroms VDS ist, wobei das zweite Bild B2 des ersten Bildpaars ein n- tes Bild, mit n > 2 (z.B. n=5), des Videodatenstroms VDS ist, wobei das erste Bild eines zweiten Bildpaars ein zweites Bild des Videodatenstroms ist, wobei das zweite Bild des zweiten Bildpaars ein (n+1)-tes Bild des Videodatenstroms VDS ist.

Bei weiteren bevorzugten Ausführungsformen kann ein m-tes (m=1, 2, 3, ..) Bildpaar als erstes Bild das m-te Bild eines Videodatenstroms aufweisen, und als zweites Bild ein (m+k)-tes Bild (mit k > 1) des Videodatenstroms. Dies ist in Fig. 13 für die Bildfolge BF2 durch die (mit Ausnahme von Pfeil B12) nicht bezeichneten Pfeile symbolisiert, wobei ein Ursprung eines Pfeils mit dem jeweils ersten Bild B1 eines betrachteten Bildpaars korrespondiert, und wobei eine Spitze desselben Pfeils auf das jeweils zweite Bild des betrachteten Bildpaars deutet. Das erste Bildpaar entspricht somit z.B. dem Pfeil B12, und das zweite und alle weiteren Bildpaare den in Fig. 13 bei der Bildfolge BF2 weiter rechts liegenden, nicht einzeln bezeichneten Pfeilen.

Dadurch kann, trotz "Auslassen" von Bildern (bezüglich des jeweilig betrachteten Bildpaars, entsprechend dem Wert des Parameters k) schnell reagiert werden, und es können insbesondere auch Detektionen (z.B. in Form des Detektionsbilds DETB) in schneller zeitlicher Folge ausgegeben werden, was z.B. wichtig für eine grafische Anzeige für einen Benutzer sein kann (z.B. damit diese nicht ruckelt).

Figur 16 zeigt hierzu unterschiedliche Detektionsbilder, die basierend auf Kamerabildern mit jeweils unterschiedlichem zeitlichen Abstand &T erhalten worden sind, wobei für Fig. 16A &T - 1t gilt, für Fig. 16B DT — 2T, für Fig. 16C DT — 4T, und für Fig. 16D &T - 8T, S. auch Fig. 13. Es ist zu erkennen, dass die unterschiedlichen zeitlichen Abstände zwischen den Kamerabildern zu unterschiedlichen Detektionsergebnissen führen. Insbesondere kann der zeitliche Abstand DG zwischen den beiden Kamerabildern B1, B1 (vgl. auch B101, B105 aus Fig. 8) einen erheblichen Einfluss auf das Detektionsergebnis haben. Ist der Zeitabstand klein (Fig. 16A), werden nur vergleichsweise schnelle Bewegungen detektiert, vgl. die Füße PF der Person P. Ist er groß, vgl. Fig. 16D ist die Detektion möglicherweise zu empfindlich.

Bei weiteren bevorzugten Ausführungsformen ist es daher nützlich, für einen geeigneten Zeitabstand &T zu sorgen, der bei weiteren bevorzugten Ausführungsformen ggf. auch dynamisch angepasst werden kann. Dazu gehört bei weiteren bevorzugten Ausführungsformen z.B. auch die Möglichkeit einer getriggerten Kameraaufnahme, bei der die Kamera die Bilder nicht in einem festen zeitlichen Raster aufnimmt bzw. bereitstellt, sondern in einem steuerbaren veränderlichen Zeitabstand.

Bei weiteren bevorzugten Ausführungsformen kann der Zeitabstand AT z.B. wie folgt vorgegeben werden: a) Wahl des Zeitabstands t zwischen aufeinanderfolgenden Bildern B1, B2; B2, B3, ..., b) Überspringen von Bildern. Beim Überspringen durch Auslassen von Bildern könnte z.B. der Fall eintreten, dass das Verfahren bzw. System zu träge auf Veränderungen reagiert.

Daher ist anhand der Bildfolge BF2 gemäß Fig. 13 eine Lösung für das Überspringen ohne Auslassen von Bildern gemäß weiteren bevorzugten Ausführungsformen dargestellt. Hier wird beispielhaft jedes neueste Bild B101 verwendet und die Änderungsdetektion z.B. jeweils mit dem viertletzten Bild B105 durchgeführt. Der mögliche Nachteil einer trägen Reaktion entfällt somit. Trotzdem ist der zeitliche Abstand AT ausreichend groß (hier z.B. 4/30 s), um auch langsam bewegte Objekte zuverlässig detektieren zu können.

Bei weiteren bevorzugten Ausführungsformen ist es auch möglich, parallel mit unterschiedlichen zeitlichen Abständen AT zu arbeiten, um sowohl (z.B. mit kleinem AT) schnell bewegte oder große Objekte als auch (z.B. mit großem AT) langsam bewegte oder kleine Objekte zu detektieren. Die Detektionsergebnisse können bei weiteren bevorzugten Ausführungsformen kombiniert bzw. fusioniert werden.

Bei weiteren bevorzugten Ausführungsformen ist mit anderen Worten somit vorgesehen, dass das Verfahren, insbesondere zeitlich parallel, auf jeweils unterschiedlichen Bildern eines selben bzw. desselben Videodatenstroms ausgeführt wird, vgl. auch Schritt 118 gemäß Fig. 2F, wobei ein jeweiliges erstes Bild und ein jeweiliges zweites Bild jeweils einen unterschiedlichen zeitlichen Abstand zueinander aufweisen.

Das Prinzip gemäß bevorzugten Ausführungsformen ermöglicht u.a. eine, insbesondere robuste, Änderungsdetektion in Kamerabildern B1, B2 bei vergleichsweise geringem Rechenaufwand. Robust bedeutet insbesondere, dass sie keine Fehldetektionen (Fehlalarme) liefert, z. B. weil sich die Beleuchtung plötzlich ändert (durch Blinklichter, Warnlichter, vorbeiziehende Lichtkegel usw.), aber gleichzeitig relevante Fälle zuverlässig erkennt.

Die Detektionen können gemäß bevorzugten Ausführungsformen in einer für die nachfolgende Funktion angemessenen Kompaktheit geliefert werden. Das bedeutet z.B., wenn sich eine Person durch das Bild bewegt, sollte gemäß weiteren bevorzugten Ausführungsformen möglichst ein Objekt an eine Schnittstelle (z.B. eines Systems zur Visualisierung, also z.B. Ausgabe der Bilder B1, B2, ggf. mit Hervorhebungen basierend auf den detektierten Objekten OBJ, OBJ1, OBJ2) geliefert werden.

Wenn eine Gruppe von Personen sich gemeinsam und in engem Abstand untereinander durch das Bild bewegt, so genügt es gemäß weiteren bevorzugten Ausführungsformen ebenfalls, ein zusammenhängendes Objekt an die Schnittstelle zu liefern, das die Gruppe umfasst, da gemäß weiteren bevorzugten Ausführungsformen (zumindest zunächst) auf die Gruppe reagiert werden muss - nicht auf jede Person einzeln.

Das Ausbleiben von Fehldetektionen und angemessene (nicht unnötig nervende) Reaktionen auf relevante Fälle gemäß weiteren bevorzugten Ausführungsformen sind von nicht zu unterschätzender Wichtigkeit für eine Nutzer-Akzeptanz des Systems.

Diese Anforderungen können zumindest zeitweise zumindest manche bevorzugten Ausführungsformen erfüllen. Gleichzeitig ist der (zusätzliche) Rechenaufwand zur Realisierung der Änderungsdetektion gemäß weiteren bevorzugten Ausführungsformen sehr gering.

Claims

Ansprüche

1. Verfahren, insbesondere computerimplementiertes Verfahren, zum Verarbeiten von, insbesondere digitalen, Bildern (B1, B2), aufweisend die folgenden Schritte: Bereitstellen (100) eines ersten Bilds (B1) und eines zweiten Bilds (B2), Transformieren (102) des ersten Bilds (B1) in ein erstes Deskriptorbild (DB1) und des zweiten Bilds (B2) in ein zweites Deskriptorbild (DB2), Ermitteln (104) eines Distanzbildes (DISTB) basierend auf einem Vergleich des ersten Deskriptorbilds (DB1) mit dem zweiten Deskriptorbild (DB2), und, optional, Bilden (106) eines Detektionsbilds (DETB) basierend auf dem Distanzbild (DISTB).

2. Verfahren nach Anspruch 1, weiter aufweisend: Filtern (105) des Distanzbilds (DISTB), wodurch ein gefiltertes Distanzbild (DISTB¹) erhalten wird, wobei insbesondere das Bilden (106) des Detektionsbilds (DETB) basierend auf dem gefilterten Distanzbild (DISTB¹) erfolgt.

3. Verfahren nach Anspruch 2, wobei das Filtern (105) das Anwenden eines Majoritätsfilters und/oder eines Schwel Iwertfilters aufweist.

4. Verfahren nach wenigstens einem der vorstehenden Ansprüche, weiter aufweisend: Weiterverarbeiten (108) des Detektionsbilds (DETB), insbesondere Bilden von Ausgabeinformationen (AI), basierend auf wenigstens einem der folgenden Elemente: a) Detektionsbild (DETB), b) erstes Bild (B1), c) zweites Bild (B2).

5. Verfahren nach Anspruch 4, wobei die Ausgabeinformationen (AI) wenigstens eines der folgenden Elemente aufweisen: a) akustisches Signal, b) haptisches Signal, c) optisches Signal, d) Bild, insbesondere Digitalbild, mit wenigstens einem grafisch hervorgehobenen Bildbereich, insbesondere einem basierend auf dem Detektionsbild (DETB) grafisch hervorgehobenen Bildbereich.

6. Verfahren nach wenigstens einem der vorstehenden Ansprüche, wobei für das Transformieren (102) ein Deskriptor verwendet wird, für den ein Distanzmaß und/oder ein Ähnlichkeitsmaß definierbar und/oder definiert ist, wobei insbesondere das Vergleichen (104) des ersten Deskriptorbilds (DB1) mit dem zweiten Deskriptorbild (DB2) basierend auf dem Distanzmaß und/oder dem Ähnlichkeitsmaß ausgeführt wird.

7. Verfahren nach wenigstens einem der vorstehenden Ansprüche, wobei als Distanzmaß für das Vergleichen (104) die Hamming-Distanz oder ein auf der Hamming-Distanz basierendes Distanzmaß verwendet wird, wobei insbesondere die Hamming-Distanz mit einem vorgebbaren Schwellwert verglichen wird und basierend auf dem Vergleich ein, insbesondere binärer, Vergleichswert ermittelt wird.

8. Verfahren nach wenigstens einem der vorstehenden Ansprüche, weiter aufweisend: Zuweisen (110) eines Bewertungsmaßes (BM) zu wenigstens einem Deskriptor des ersten Deskriptorbilds (DB1) und/oder des zweiten Deskriptorbilds (DB2), und, optional, Berücksichtigen (112) des Bewertungsmaßes (BM) bei der Ermittlung (104) des Distanzbildes (DISTB), wobei insbesondere das Bewertungsmaß (BM) ein Rauschen bzw. ein Signal-zu-Rausch-Verhältnis, insbesondere eines mit dem jeweiligen Deskriptor assoziierten Bereichs des ersten Bilds (B1) und/oder des zweiten Bilds (B2), charakterisiert.

9. Verfahren nach wenigstens einem der vorstehenden Ansprüche, weiter aufweisend: zumindest zeitweises Speichern (114) des ersten Deskriptorbilds (DB1) und/oder des zweiten Deskriptorbilds (DB2).

10. Verfahren nach wenigstens einem der vorstehenden Ansprüche, weiter aufweisend: Kompensieren (116) einer mit dem ersten Bild (B1) und/oder dem zweiten Bild (B2) assoziierten Bewegung, insbesondere einer Eigenbewegung einer das erste Bild (B1) und/oder das zweite Bild (B2) bereitstellenden Kamera (12), für wenigstens eine Fläche (RF), insbesondere Oberfläche.

11. Verfahren nach wenigstens einem der vorstehenden Ansprüche, wobei das erste Bild (B1) und das zweite Bild (B2) jeweils Teil eines selben Videodatenstroms (VDS) wenigstens einer Kamera (12) ist.

12. Verfahren nach Anspruch 11, wobei in dem Videodatenstrom (VDS) zeitlich zwischen dem ersten Bild (B1) und dem zweiten Bild (B2) wenigstens ein weiteres Bild (B') vorhanden ist, und/oder wobei insbesondere das Verfahren auf mehrere jeweils ein erstes und zweites Bild aufweisende Bildpaare angewandt wird, wobei das erste Bild eines ersten Bildpaars ein erstes Bild des Videodatenstroms (VDS) ist, wobei das zweite Bild des ersten Bildpaars ein n-tes Bild, mit n > 2, des Videodatenstroms (VDS) ist, wobei das erste Bild eines zweiten Bildpaars ein zweites Bild des Videodatenstroms (VDS) ist, wobei das zweite Bild des zweiten Bildpaars ein (n+1)-tes Bild des Videodatenstroms (VDS) ist.

13. Verfahren nach wenigstens einem der vorstehenden Ansprüche, wobei das Verfahren, insbesondere zeitlich parallel, auf jeweils unterschiedlichen Bildern eines selben bzw. desselben Videodatenstroms (VDS) ausgeführt (118) wird, wobei ein jeweiliges erstes Bild und ein jeweiliges zweites Bild jeweils einen unterschiedlichen zeitlichen Abstand zueinander aufweisen.

14. Vorrichtung (200) zur Verarbeitung von, insbesondere digitalen, Bildern (B1, B2), wobei die Vorrichtung (200) zur Ausführung des Verfahrens nach wenigstens einem der vorstehenden Ansprüche ausgebildet ist.

15. Computerlesbares Speichermedium (SM), umfassend Befehle (PRG), die bei der Ausführung durch einen Computer (202) diesen veranlassen, das Verfahren nach wenigstens einem der Ansprüche 1 bis 13 auszuführen.

16. Computerprogramm (PRG), umfassend Befehle, die bei der Ausführung des Programms (PRG) durch einen Computer (202) diesen veranlassen, das Verfahren nach wenigstens einem der Ansprüche 1 bis 13 auszuführen.

17. Datenträgersignal (DCS), das das Computerprogramm nach Anspruch 16 überträgt und/oder charakterisiert.

18. Verwendung (300) des Verfahrens nach wenigstens einem der Ansprüche 1 bis 13 und/oder der Vorrichtung (200) nach Anspruch 14 und/oder des computerlesbaren Speichermediums (SM) nach Anspruch 15 und/oder des Computerprogramms (PRG) nach Anspruch 16 und/oder des Datenträgersignals (DCS) nach Anspruch 17 für wenigstens eines der folgenden Elemente: a) Erfassung (302) a1) eines Umfelds (U) eines Systems (10), insbesondere eines Fahrzeugs, insbesondere Flurförderzeugs wie z.B. Gabelstapler und/oder Hubstapler, und/oder a2) einer Szene (SZ), b) Ermitteln (304) von Änderungen bezüglich des ersten Bilds (B1) und des zweiten Bilds (B2), insbesondere robuste Änderungsdetektion bezüglich des ersten Bilds (B1) und des zweiten Bilds (B2), c) Ermitteln (306) von Hindernissen (H), insbesondere bewegten Objekten, d) Vermeidung (308) von Unfällen, insbesondere im Bereich eines bzw. des Systems (10) bzw. in dem Umfeld (U), insbesondere bei vergleichsweise geringen Geschwindigkeiten des Systems (10), insbesondere kleiner gleich einer Schrittgeschwindigkeit eines Menschen, weiter insbesondere bei einem Übergang zwischen einem Stillstand und einer Bewegung oder umgekehrt, e) Anwendung (309) sowohl beim Stillstand des Systems (10) als auch bei einer Bewegung des Systems (10).