WO2021165077A1

WO2021165077A1 - Verfahren und vorrichtung zur bewertung eines bildklassifikators

Info

Publication number: WO2021165077A1
Application number: PCT/EP2021/052931
Authority: WO
Inventors: Michael Rittel; Jens Oehlerking; Christoph Gladisch; Konrad Groh; Oliver WILLERS; Sebastian SUDHOLT; Matthias Woehrle; Christian Heinzemann
Original assignee: Robert Bosch Gmbh
Priority date: 2020-02-17
Filing date: 2021-02-08
Publication date: 2021-08-26
Also published as: JP7473663B2; JP2023513385A; US20230038337A1; DE102020201939A1; CN115104132A

Abstract

Computerimplementiertes Verfahren zur Bewertung eines Bildklassifikators (60), wobei eine Klassifikatorausgabe (y) des Bildklassifikators (60) zur Ansteuerung eines zumindest teilweise autonomen Roboters (100, 220) verwendet wird, wobei das Verfahren zur Bewertung folgende Schritte umfasst: • Ermittlung (300) eines ersten Datensatzes, wobei der erste Datensatz Bilddaten enthält, wobei den Bilddaten Annotationen zugewiesen sind, wobei die Annotationen Informationen über die im jeweiligen Bild abgebildete Szene und/oder über zu klassifizierende Bildbereiche und/oder über Bewegungsinformationen des Roboters (100, 220) enthalten; • Ermittlung (301) von durch den Roboter (100, 220) erreichbaren Bereichen (212) der Szenen basierend auf den Annotationen; • Ermittlung (302) von Relevanzwerten für vom Bildklassifikator zu klassifizierenden Bildbereiche; • Klassifizierung (303) der Bilddaten des ersten Bilddatensatzes mittels des Bildklassifikators; • Bewertung (304) des Bildklassifikators basierend auf durch den Bildklassifikator (60) korrekt klassifizierten Bildbereichen und falsch klassifizierten Bildbereichen, sowie den berechneten Relevanzwerten der entsprechenden Bildbereiche.

Description

Beschreibung

Titel

Verfahren und Vorrichtung zur Bewertung eines Bildklassifikators

Die Erfindung betrifft einen Verfahren zum Bewerten eines Bildklassifikators, ein Verfahren zum Trainieren eines Bildklassifikators, ein Verfahren zum Betreiben eines Bildklassifikators, eine Trainingsvorrichtung, ein Computerprogramm, ein Ansteuersystem und ein maschinenlesbares Speichermedium.

Stand der Technik

"Reachability Analysis and its Application to the Safety Assessment of Auto- nomous Cars", Matthias Althoff, Dissertation, Technische Universität München, 2010 offenbart ein Verfahren zum Bestimmen von erreichbaren Bereichen eines autonomen Fahrzeugs.

Vorteile der Erfindung

Bildklassifikatoren stellen eine Schlüsseltechnologie zum Betreiben von zumin dest teilweise autonomen und/oder mobilen Robotern da. Es hat sich gezeigt, dass aus Daten gelernte Bildklassifikatoren, insbesondere Neuronale Netze, der zeit die besten Klassifikationsleistungen erbringen.

Die Untersuchung dieser machine-learning-basierten Bildklassifikatoren gestaltet sich jedoch schwierig, da oftmals nicht offensichtlich ist, wie ein Bildklassifikator zu seiner Klassifikation gelangt. Insbesondere bei sicherheitskritischen Anwen dungen macht es diese Eigenschaft schwer mit Sicherheit zu bestimmen, dass ein Produkt, welches einen machine-learning-basierten Bildklassifikator enthält, in seiner Umgebung sicher agiert. Der Vorteil des Verfahrens mit Merkmalen gemäß dem unabhängigen Anspruch 1 liegt darin, einen Einblick in die Funktionsweise eines Bildklassifikators zu er halten. Insbesondere ermöglicht das Verfahren die Ermittlung von unter Sicher heitsaspekten relevanten Elementen eines Bildes, die der Bildklassifikator erken nen soll. Dies erlaubt einen Einblick in die Genauigkeit der Klassifikationen des Klassifikators. Im Umkehrschluss kann das Verfahren verwendet werden, um be stimmen zu können, ob ein mobiler Roboter, der seine Navigation basierend auf Ausgaben eines Bildklassifikators vornimmt, sicher genug ist, um ihn betreiben zu können.

Offenbarung der Erfindung

In einem ersten Aspekt beschäftigt sich die Erfindung mit einem computerimple mentierten Verfahren zur Bewertung eines Bildklassifikators, wobei eine Klassifi katorausgabe des Bildklassifikators zur Ansteuerung eines zumindest teilweise autonomen Roboters (100, 220) bereitgestellt wird, wobei das Verfahren zur Be wertung folgende Schritte umfasst:

• Ermittlung (300) eines ersten Datensatzes, wobei der erste Datensatz Bilder enthält, wobei den Bildern Annotationen zugewiesen sind, wo bei die Annotationen Informationen über die im jeweiligen Bild abge bildete Szene und/oder über zu klassifizierende Bildbereiche und/o der über Bewegungsinformationen des Roboters (100, 220) enthal ten;

• Ermittlung (301) von durch den Roboter (100, 220) erreichbaren Be reichen (212) der Szenen basierend auf den Annotationen;

• Ermittlung (302) von Relevanzwerten für vom Bildklassifikator zu klassifizierenden Bildbereiche;

• Klassifizierung (303) der Bilder des ersten Bilddatensatzes mittels des Bildklassifikators;

• Bewertung (304) des Bildklassifikators basierend auf durch den Bild klassifikator (60) korrekt klassifizierten Bildbereichen und falsch klas sifizierten Bildbereichen, sowie den berechneten Relevanzwerten der entsprechenden Bildbereiche. Unter einem Bildklassifikator kann eine Vorrichtung verstanden werden, die da hingehend ausgeprägt ist, dass sie Bilder (auch: Bilddaten) entgegennehmen kann und eine Klassifikationsausgabe erzeugen kann, die die Bilddaten oder Teile davon charakterisiert. Zum Beispiel kann ein Bildklassifikator verwendet werden, um zu bestimmen, in welchen Teilen eines Eingabebildes sich Objekte befinden. Bei einem mobilen Roboter, wie beispielsweise einem autonomen Fahrzeug, kann ein Bildklassifikator so verwendet werden, dass er andere Stra ßenteilnehmer detektiert. Die entsprechende Klassifikatorausgabe kann dann verwendet werden, um den Roboter anzusteuern. Zum Beispiel kann mit Hilfe der Klassifikatorausgabe eine Trajektorie bestimmt werden, auf der der Roboter kollisionsfrei durch seine Umwelt bewegt. D.h. vorzugsweise zeigen die Bilddaten eine Umgebung des Roboters.

Neben der Objektdetektion kann ein Bildklassifikator auch für andere Klassifikati onsaufgaben verwendet werden, zum Beispiel für semantische Segmentierung. Hierbei klassifiziert der Bildklassifikator jeden gewünschten Punkt in einem Ein gabebild, zum Beispiel jeden Pixel eines Kamerabildes, in eine gewünschte Klasse. Dies kann zum Beispiel dafür verwendet werden, dass ein mobiler Robo ter basierend auf einem Eingabebild die Grenzen des fahrbaren Bereichs der Umgebung erkennt und basierend darauf eine Trajektorie plant.

Ein Bildklassifikator kann ein Modell aus dem Bereich des Machine Learning, wie etwa ein neuronales Netz, enthalten. Das Modell kann verwendet werden, um die Eingabe des Bildklassifikators zu klassifizieren. Des Weiteren kann der Bildklas sifikator Vor- und/oder Nachverarbeitungsverfahren. Im Falle einer Objektdetek tion kann ein Nachverarbeitungsverfahren zum Beispiel eine Non-Maximum Suppresion sein, die verwendet werden kann, um verschiedene Bounding Boxen gleicher Objekte zu fusionieren.

Für einen Bildklassifikator können unterschiedliche Arten von Bildern als Einga bedaten verwendet werden, insbesondere Sensordaten, beispielsweise von ei nem Kamerasensor, einem Radarsensor, einem LIDAR-Sensor, einem Ultra schallsensor oder einem Infrarotkamerasensor. Auch Audioaufnahmen von Mik rofonen können als Bilddaten dargestellt und als Eingabe für einen Bildklassifika tor verwendet werden, zum Beispiel in Form von Spektralbildern. Es ist weiterhin vorstellbar, dass mehrere Arten von Sensordaten kombiniert werden können, um ein Eingabedatum für den Bildklassifikator zu erhalten.

Alternativ können Bilddaten mit Hilfe von computergestützten Maßnahmen syn thetisch erzeugt werden. Zum Beispiel können Bilder basierend auf physikali schen Modellen berechnet bzw. gerendert werden.

Die Bilder, die zur Eingabe für den Bildklassifikator verwendet werden, können von einem Sensor direkt aufgenommen und an den Bildklassifikator weitergege ben werden. Alternativ können Bilddaten vor der Klassifikation aufgenommen bzw. erzeugt werden und anschließend vorzugsweise auf einem Speicherme dium zwischengespeichert werden, bevor sie an den Bildklassifikator weitergege ben werden. Als Speichermedium können hierbei insbesondere Festplatten,

Flash Drives oder Solid State Disks verwendet werden. Auch können Bilddaten in einem dynamischen Speicher vorgehalten werden.

Basierend auf der Ausgabe des Bildklassifikators kann ein Ansteuersignal ermit telt werden, mit dem ein zumindest teilweise autonomer Roboter angesteuert werden kann. Unter einem zumindest teilweise autonomen Roboter kann ein Ro boter verstanden werden, der zumindest zeitweise ohne Steuerung eines Men schen eine Aufgabe selbständig durchführt. Hierfür kann er zum Beispiel Senso ren und Aktuatoren verwenden. Ein teilweise autonomer Roboter kann zum Bei spiel ein autonom fahrendes Fahrzeug, ein Rasenmähroboter, ein Saugroboter oder eine Drohne sein. Im Folgenden wird unter dem Begriff Roboter ein zumin dest teilweise autonomer Roboter verstanden.

Das Verfahren benötigt einen ersten Bilddatensatz, mit dessen Hilfe die Bewer tung durchgeführt werden kann. Unter einem Bilddatensatz kann eine Menge von Bilddaten verstanden werden, wobei den Bilddaten spezifische Informationen in Form von Annotationen zugeordnet sein können. Unter Annotation eines Bildda tums kann hierbei eine Menge von Informationen verstanden werden, die das Bilddatum oder Teile davon beschreiben oder weitere zusätzliche Informationen über das Bild beinhalten. Bilddaten können Szenen abbilden, wobei Szenen Objekte enthalten können. Im Falle von mit einem oder mehreren Sensoren aufgenommenen Bilddaten kann unter einer Szene eine Situation der realen Welt, insbesondere der Umgebung des Roboters, verstanden werden. Zum Beispiel kann eine Szene eine Menge von Objekten in einer Straßensituation darstellen. Unter Objekten können in die sem Fall zum Beispiel andere Straßenteilnehmer verstanden werden.

Im Falle von synthetische erzeugten Bilddaten kann unter einer Szene die virtu elle Welt verstanden werden, auf deren Basis ein Bilddatum synthetisiert wurde.

In diesem Fall können die Objekte als virtuelle Elemente der Szene verstanden werden.

Bilddaten können Annotationen zugeordnet werden, wobei Annotationen Infor mationen über die jeweils abgebildete Szene und/oder Bildbereiche umfassen können. Zum Beispiel kann eine Annotation eine Menge von Bounding Boxen enthalten, die die Position vom im Bilddatum abgebildeten Objekten beschreiben. Alternativ oder zusätzlich ist vorstellbar, dass die Annotation pixelgenaue Infor mationen bezüglich der Klasse eines Pixels (d.h. eine semantische Segmentie rung) des Bilddatums beinhaltet.

Alternativ oder zusätzlich ist vorstellbar, dass eine Annotation Informationen von Wetter- und/oder Umwelteinflüssen beinhaltet, die bei der Aufnahme des spezifi schen Bilddatums Vorlagen, z.B. Regen, Sonneneinstrahlung, Tageszeit oder Bo denbeschaffenheit.

Alternativ oder zusätzlich ist vorstellbar, dass eine Annotation Informationen über die Szene enthält, in der das Bild aufgenommen wurde. Für den Fall einer realen Szene, kann die Annotation zum Beispiel Informationen über die relative Position des Sensors im Verhältnis zu anderen Objekten der Szene enthalten. Diese In formation kann später beispielsweise genutzt werden, um die 3-dimensionale Po sition eines Objekts zu bestimmen, das in einem Bilddatum (z.B. einem Kamera bild) 2-dimensional abgebildet ist. Alternativ ist auch denkbar, dass die 3-dimen- sionalen Positionsinformationen von Objekten in der Szene direkt in der Annota tion enthalten sind, zum Beispiel in Form eines relativen Vektors vom Sensor zum Objekt. Der erste Bilddatensatz kann für das Verfahren vorzugsweise so gewählt wer den, dass zur Aufzeichnung ein System verwendet wird, das dem späteren Ro boter entspricht oder ähnelt. Zum Beispiel kann zur Bewertung des Bildklassifika tors, der in einem autonomen Fahrzeug verwendet werden soll, der erste Bildda tensatz so aufgenommen werden, dass ein Testfahrer das Fahrzeug derart steu ert, dass gewünschte Bilddaten von den Sensoren des Fahrzeugs aufgezeichnet werden können. Alternativ ist vorstellbar, dass der erste Datensatz von einem Fahrzeug aufgenommen wird, das von der Sensorik baugleich zu dem Fahrzeug ist, für den der Bildklassifikator bewertet werden soll.

Alternativ ist vorstellbar, dass der erste Bilddatensatz synthetisch mit Hilfe eines computergestützten Modells erzeugt wird. Hierbei kann das Modell vorzugsweise so gewählt werden, dass es dem Roboter in Form, physikalischen Eigenschaften und Sensorik zumindest ähnelt. Die Szene kann in diesem Fall als die Kombina tion von Anordnung und Eigenschaften von virtuellen Objekten verstanden wer den, mit deren Hilfe synthetische Bilddaten erzeugt werden können.

Alternativ kann der erste Bilddatensatz auch aus bestehenden Quellen gewon nen werden. Zum Beispiel existiert eine Reihe von frei zugänglichen Datensätzen im Internet, die zum Zwecke der Beurteilung eines Bildklassifikators benutzt wer den können.

Die für das Verfahren benötigten Annotationen können entweder manuell oder zumindest teilautomatisiert für die verschiedenen Bilddaten erzeugt werden. Vor zugsweise enthalten die Annotationen relative Informationen bezüglich der zu klassifizierenden Element eines Bilddatums und dem System, was zur Aufzeich nung verwendet wird/wurde. Zum Beispiel kann ein Fahrzeug derart ausgeprägt sein, dass es einen kamerabasierten Bilddatensatz aufnehmen kann, der im An schluss zur Bewertung eines Bildklassifikators verwendet werden kann, der im Fahrzeug oder einem baugleichen Fahrzeug später verwendet werden soll. Die Annotationen der Bilddaten können in diesem Fall zum Beispiel Bounding Boxen von in der Umgebung des Fahrzeugs zu detektierenden Objekten beinhalten. Zu sätzlich können sie Informationen darüber enthalten, welche Position die in ei- nem spezifischen Bilddatum zu erkennenden Objekte im Verhältnis zum Fahr zeug haben. Diese Informationen können später genutzt werden, um den Rele vanzwert eines Objekts zu bestimmen.

Alternativ können bei synthetisch erzeugten Bilddaten die Modelldaten des syn thetischen Modells direkt als Informationen in die Annotationen aufgenommen werden. Zum Beispiel können die im vorherigen Absatz beschriebenen Daten mit Hilfe eines Computers entsprechende simuliert werden. Hierfür wird ein virtuelles Modell des Sensors benötigt, sowie seine Position in der simulierten Szene.

Diese Position und/oder Positionen von simulierten Objekten, die später vom Bildklassifikator erkannt werden sollen, können in diesem Fall direkt in die Anno tation mit aufgenommen werden.

Vorzugsweise enthalten die Annotationen darüber hinaus Informationen bezüg lich z.B. der Geschwindigkeit des Roboters, der Beschleunigung, der Lenkwinkel, der Antriebsstellungen oder der geplanten Trajektorie, wobei jede dieser Informa tionen Werte abbildet, die zum Zeitpunkt der Aufnahme eines Bilddatums vorlie gen oder Vorlagen. Diese Informationen sind vorzugsweise, soweit sinnvoll, auch für die Objekte der Szene in der Annotation enthalten.

Mit Hilfe der Bewegungsinformationen können dann Bereiche einer Szene ermit telt werden, die der Roboter zum Zeitpunkt der Aufnahme in einer bestimmten Zeit erreichen hätte können. Diese Bereiche können z.B. mit Hilfe der Time-To- Collision mit anderen Objekten und/oder der Time-To-React und/oder Time-To- Brake und/oder Time-To-Steer und/oder Time-To-Kickdown ermittelt werden. Die Bereiche können als sicherheitskritische Bereich verstanden werden, in denen der Roboter andere Objekte mit hoher Genauigkeit und Zuverlässigkeit erkennen können muss, um zum Beispiel eine sichere Trajektorie zu planen.

Ein zu klassifizierender Bildbereich kann als zumindest Teil eines Bilddatums verstanden werden, für den der Bildklassifikator ein bestimmtes Objekt oder eine bestimmte Klasse prädizieren soll, was durch den Bildbereich abgebildet ist. Im Falle einer Objektdetektion können die zu klassifizierenden Bereiche als Abbil dungen der Objekte verstanden werden, die vom Bildklassifikator detektiert wer den sollen. Im Falle einer semantischen Segmentierung können die Bildbereiche als die Pixel eines Bildes verstanden werden, wobei jeder Pixel einem Objekt zu geordnet werden kann.

Den zu klassifizierenden Bildbereichen können dann Relevanzwerte zugeordnet werden. Vorzugsweise erhält jeder zu klassifizierende Bereich einen Relevanz wert. Unter Relevanzwert kann hier ein Wert verstanden werden, der angibt, in wie weit eine Fehlklassifikation des Bildklassifikators für diesen Bildbereich kri tisch für das Verhalten des Roboters werden kann, der den Bildklassifikator ver wendet. Zum Beispiel können Bildbereichen, die sehr weit vom Roboter entfernte Objekte abbilden, kleine Relevanzwerte zugeordnet werden. Bildbereichen, die dem Roboter nahgelegene Objekte abbilden, können hingehen hohen Relevanz wert erhalten, da eine Fehlklassifikation von ihnen größeren Einfluss auf den Ro boter hätte.

Relevanzwerte können durch skalare Werte abgebildet werden. Dabei kann ein Relevanzwert binär oder reellwertig sein.

Für alle oder Teile der zu klassifizierenden Bildbereiche kann dann bestimmt werden, ob sie vom Bildklassifikator korrekt klassifiziert wurden. Die Bewertung des Bildklassifikators kann dann vorzugsweise auf Basis der Relevanzwerte der falsch klassifizierten Bildbereiche erfolgen. Zum Beispiel kann die Bewertung in Form einer Summe oder eines Durchschnitts der Relevanzwerte der falsch klas sifizierten Bereiche erfolgen.

Der Vorteil dieser Herangehensweise ist, dass ein numerischer und objektiver Wert bestimmt werden kann, der verwendet werden kann, um eine Entscheidung zu treffen, ob der Bildklassifikator als Teil der Ansteuerung des Roboters verwen det werden kann. Dies ermöglicht einen differenzierten Einblick in die Funktions weise eines wie oben beschriebenen Bildklassifikators. Dies ist eine erhebliche Verbesserung, da insbesondere machine-learning-basierte Bildklassifikatoren Black Box Verhalten aufweisen, das anderweitig nicht befriedigend einsehbar ist.

Im ersten Aspekt der Erfindung ist weiterhin vorstellbar, dass die zu klassifizie renden Bildbereiche jeweils einem Objekt zugeordnet sind. Der Vorteil dieser Herangehensweise ist, dass die Relevanz eines Bildbereichs die Relevanz des Objekts wiederspiegeln kann. Dies erlaubt die Bewertung der Relevanz von Objekten in einer Szene basierend auf den Bildbereichen. Im Ge genzug erlaubt dies einen detaillierten Einblick in das Verhalten des Bildklassifi kators zur Erkennung von Objekten in einer Szene.

Im ersten Aspekt der Erfindung ist weiterhin vorstellbar, dass der Schritt der Er mittlung der durch den Roboter erreichbaren Bereiche auf Bewegungsinformatio nen des Roboters basiert.

Die Bewegungsinformationen des Roboters, wie etwa Geschwindigkeit oder Be schleunigung, erlauben eine Bestimmung, in welche Bereiche der Szene der Ro boter sich überhaupt plausiblerweise bewegen kann. Objekte in diesen Berei chen sollten daher mit hoher Genauigkeit vorhergesagt werden können, um den Roboter so anzusteuern, dass er zum Beispiel nicht mit den Objekten kollidiert. Die Bewegungsinformationen können, falls vorhanden, aus der Annotation extra hiert werden oder mit Hilfe der Bilddaten geschätzt werden. Zum Beispiel können mehrere aufeinanderfolgende Bilder des ersten Bilddatensatzes verwendet wer den, um die Geschwindigkeit des Roboters zu schätzen. Im Falle von beispiels weise stationären Fertigungsroboter können Informationen über die erreichbaren Bereiche des Roboters auch aus Datenblättern des Roboters gewonnen werden.

Der Vorteil dieser Herangehensweise ist daher, dass Bereiche bestimmt werden können, in denen der Bildklassifikator Objekte zuverlässig erkennen können sollte. Da andere Bereiche der Szene weniger oder nicht relevant sein können, erlaubt dieses Verfahren daher einen detaillierten und zielgerichteten Einblick in die Arbeitsweise des Bildklassifikators und die Bewertung erlaubt eine bessere Abschätzung der Erkennungsleistung (auch: Performanz) des Bildklassifikators. Dies liegt daran, da in bekannten Verfahren die Erkennungsleistung eines Bild klassifikators auf allen Bildbereichen eines Bildes geschätzt werden. Über die er mittelten erreichbaren Bereiche lässt sich daher die Erkennungsleistung des Ro boters in Bezug auf einen sicheren und fehlerfreien Betrieb viel besser bewerten.

Im ersten Aspekte der Erfindung ist weiterhin vorstellbar, dass der Schritt der Er mittlung der Relevanzwerte folgende Schritte umfasst: • Ermittlung von Tiefeninformationen der Objekte;

• Bestimmung eines Verhältnisses von Objektpositionen zu erreichba ren Bereichen basierend auf den ermittelten Tiefeninformationen;

• Ermittlung der Relevanzwerte basierend auf dem Verhältnis.

Der Vorteil dieser Herangehensweise ist, dass Bildbereichen beispielsweise nur dann ein Relevanzwert ungleich Null zugewiesen werden kann, wenn die ent sprechenden Objekte tatsächlich mit dem Roboter sicherheitskritisch interagieren können. Beispielsweise ist die Erkennung eines Fußgängers für die Trajektorien- planung eines Roboters unter sicherheitskritischen Maßstäben irrelevant, falls der Roboter zum Beispiel nicht schneller als 30 km/h fahren kann und der zu er kennende Fußgänger zum Beispiel mehr als 500m entfernt ist. Im Umkehr schluss kann das Verhalten des Bildklassifikators in Bezug zur Sicherheit des Roboters durch das vorgestellte Verfahren viel genauer bewertet werden.

Im ersten Aspekt der Erfindung ist weiterhin vorstellbar, dass der Schritt der Be wertung des Bildklassifikators das Bestimmen eines Bewertungsmaßes umfasst, weiter wobei das Verfahren zur Bewertung des Bildklassifikators folgenden zu sätzlichen Schritt enthält:

• Nachtrainieren des Bildklassifikators basierend auf einem zweiten Bildda tensatz, falls das Bewertungsmaß schlechter ist als ein vorgegebener Be wertungsschwellenwert.

Beispielsweise kann das Bewertungsmaß derart gewählt sein, dass es umso grö ßer ist, je schlechter die Performanz des Bildklassifikators ist. In diesem Fall würde also nachtrainiert werden, wenn das Bewertungsmaß größer als der Be wertungsschwellenwert ist.

Das Bewertungsmaß kann, wie oben beschrieben, beispielsweise die Summe o- der der Durchschnitt der Relevanzwerte aller fehlklassifizierten Bildbereiche sein.

Unter nachtrainieren des Bildklassifikators kann ein Verfahren verstanden wer den, das die Parameter des Bildklassifikator mit Hilfe des zweiten Bilddatensat zes so anpasst, dass die Erkennungsgenauigkeit des Bildklassifikators mit Hilfe des zweiten Bilddatensatz weiter verbessert wird. Hierzu kann der zweite Bildda tensatz wiederum Annotationen enthalten, die zur Anpassung der Parameter mit Hilfe eines überwachten Lernverfahrens verwendet werden können. Der zweite Bilddatensatz kann hierbei mit den gleichen Verfahren wie der erste Bilddaten satz ermittelt werden. Weiterhin ist denkbar, dass der zweite Bilddatensatz zu mindest Teile der Bilddaten und/oder Annotationen des ersten Bilddatensatzes enthält.

Der Vorteil dieser Herangehensweise ist, dass durch die verbesserte Erken nungsgenauigkeit die Sicherheit und damit die Erkennungsleistung des Roboters wesentlich gesteigert werden kann. Dies bedingt ein besseres Gesamtsystem, das in der realen Welt besser und zuverlässiger funktioniert.

Im ersten Aspekt der Erfindung ist weiterhin vorstellbar, dass die beschriebenen Schritte iterativ wiederholt werden, bis eine vorgegebene Anzahl von Iterationen durchgeführt wurde und/oder der vorgegebene Bewertungsschwellenwert unter schritten wurde.

Der Vorteil dieser Herangehensweise ist, dass die Erkennungsleistung des Bild klassifikators so lange verbessert werden kann, bist die Erkennungsleistung aus reichend ist, um ihn in einem realen Produkt betreiben zu können. Zusätzlich bie tet diese Herangehensweise auch den Vorteil, dass ein gerade genügendes Be wertungsergebnis weiter verbessert werden kann und so ein gewisser Sicher heitspuffer bezüglich der Erkennungsgenauigkeit des Bildklassifikators erzielt werden kann. Weiterhin ist denkbar, dass der Bildklassifikator mit zwischen den Iterationen unterschiedlichen zweiten Bilddatensätzen nachtrainiert wird, um die Erkennungsleistung weiter zu steigern.

Bei dem vorgestellten iterativen Vorgehen können Bilddaten des ersten Bildda tensatzes für zumindest einen Teil des zweiten Bilddatensatz verwendet werden. Vorzugsweise können in jeder Iteration Bilder aus dem ersten Bilddatensatz ent fernt oder ausgetauscht werden. Des Weiteren können in jeder Iteration Bilder aus dem zweiten Bilddatensatz entfernt oder ausgetauscht werden. Findet ein Austausch von Bilddaten beim ersten und/oder zweiten Bilddatensatz statt, kön nen vorzugsweise die Annotationen so abgeändert werden, dass sie Informatio nen über die neuen Bilddaten enthalten.

Im ersten Aspekt der Erfindung ist weiterhin vorstellbar, dass das Nachtrainieren des Bildklassifikators basierend auf Relevanzwerten von Bildbereichen des zwei ten Bilddatensatzes durchgeführt wird.

Der Vorteil dieser Herangehensweise ist, dass aus Bewertungssicht weniger o- der nicht-relevante Bildbereiche im Training derart gewichtet werden können, dass sie einen geringen oder keinen Einfluss auf das Training des Bildklassifika tors haben. Dies führt zu einem einfacheren Training des Bildklassifikators, was im Umkehrschluss die Erkennungsleistung des Bildklassifikators erheblich stei gert. Dies führt zu einer Steigerung der Performanz des Gesamtsystems, wenn ein so trainierter Bildklassifikator als Teil der Steuerung eines Roboters verwen det wird.

Nachfolgend werden Ausführungsformen der Erfindung unter Bezugnahme auf die beiliegenden Zeichnungen näher erläutert. In den Zeichnungen zeigen:

Figur 1 schematisch das Ablaufdiagramm des Verfahrens einer Bewertung eines Bildklassifikators;

Figur 2 schematisch ein Steuersystem;

Figur 3 schematisch ein autonomes Fahrzeug, das vom Steuersystem ge steuert wird;

Figur 4 schematisch einen Fertigungsroboter, der vom Steuersystem gesteu ert wird.

Beschreibung der Ausführungsbeispiele

Figur 1 zeigt ein Ablaufdiagramm eines Verfahrens zum Bewerten eines Bildklas sifikators (60). In diesem Ausführungsbeispiel ist der Bildklassifikator (60) derart ausgeprägt, dass er Fahrzeuge in Autobahnsituationen erkennen kann, wobei die Klassifikatorausgabe (y) Bounding Boxes beinhaltet.

In einem ersten Schritt (300) wird ein Bilddatensatz ermittelt. Dies kann zum Bei spiel unter Zuhilfenahme eines Testfahrzeugs geschehen, in dem eine Kamera installiert ist, die zur Aufnahme von Bilddaten geeignet ist. In diesem Ausfüh rungsbeispiel zeigt der Bilddatensatz Bilddaten von Autobahnsituationen, auf de nen Fahrzeuge zu erkennen sind. Weiter werden in diesem Ausführungsbeispiel während der Aufnahme des Bilddatensatzes den Bilddaten jeweils Fahrzeugda ten wie Geschwindigkeit und Lenkwinkel zugeordnet, die zum jeweiligen Aufnah mezeitpunkt eines Bildes vorliegen. Alternativ können diese Fahrzeugdaten auch nach der Aufnahme aus den aufgenommenen Bilddaten geschätzt werden.

Der so ermittelte Bilddatensatz wird anschließend manuell von einem Menschen mit Annotationen versehen. Alternativ kann anstelle der manuellen Annotation hier auch eine halbautomatische Annotation mit Hilfe eines zweiten Bildklassifika tors durchgeführt werden. In diesem Fall kann der zweite Bildklassifikator Anno tationen vorschlagen, die von einem Menschen überprüft und gegebenenfalls ab geändert werden können. Alternativ ist weiterhin denkbar, dass der zweite Bild klassifikator die Annotation vollautomatisiert durchführt, indem die Vorschläge des zweiten Bildklassifikators direkt als Annotationen verwendet werden.

Die erzeugten Annotationen enthalten in diesem Ausführungsbeispiel Informatio nen bezüglich der anderen Fahrzeuge in den jeweils aufgenommenen Bilddaten, Bounding Boxers der Fahrzeuge im Bild, sowie Einbauposition und Orientierung des Kamerasensors. In weiteren Ausführungsbeispielen ist vorstellbar, dass die Annotationen zusätzlich 3-dimensionale Informationen, wie Position, Orientie rung, Geschwindigkeit und/oder Fahrtrichtung der entsprechend zu detektieren- den Fahrzeuge enthalten.

In einem zweiten Schritt (301) wird dann für die Bilder des Bilddatensatzes je weils bestimmt, welche Bereiche das Testfahrzeug in einer festgelegten Zeit zum Zeitpunkt der Aufnahme des Bildes hätte erreichen können. Als Zeit kann hier beispielsweise die Time-To-React verwendet werden. Alternativ ist vorstellbar, dass anstelle der Time-To-React die Time-To-Collision, Time-To-Brake, Time- To-Steer oder Time-To-Kickdown oder Kombinationen dieser Zeiten verwendet werden können.

Die Berechnung der erreichbaren Berieche geschieht unter Zuhilfenahme der Geschwindigkeitsinformationen in den Annotationen, sowie Informationen über die Position des Fahrzeugs. Das Ergebnis ist eine Information darüber, welche Bereiche das Fahrzeug zum Zeitpunkt der Aufnahme eines Bilddatums in der Szene, in der das Bilddatum aufgenommen wurde, in einer bestimmten Zeit hätte erreichen können.

In einem dritten Schritt (302) wird für die anderen Fahrzeuge der Bilddaten ein Relevanzwert bestimmt. Hierfür werden auf Basis der annotierten Bounding Bo- xes und der Einbauposition des Kamerasensors die 3-dimensionale Position der anderen Fahrzeuge ermittelt. Alternativ können diese Informationen auch direkt aus der Annotation extrahiert werden, falls sie vorhanden sind.

Der Relevanzwert kann für alle Fahrzeuge als 1 definiert werden, die sich in ei nem der im vorherigen Schritt bestimmten Bereiche befinden, und andernfalls als 0. Alternativ ist möglich, dass den Fahrzeugen ein Wert zwischen 0 und 1 zuge wiesen wird, falls sie sich außerhalb eines im vorherigen Schritt bestimmten Be reiches befinden. Alternativ ist weiterhin vorstellbar, dass auch Fahrzeuge in ei nem der im vorherigen Schritt bestimmten Bereiche einen Wert zwischen 0 und 1 zugewiesen bekommen. Weiterhin ist denkbar, dass der Relevanzwert eines Ob jekts auch von der Geschwindigkeit und Trajektorie des Objekts abhängt. Bei spielsweise können auch Objekte außerhalb der erreichbaren Bereiche einen Relevanzwert größer 0 erhalten, falls sie sich zum Beispiel auf die entsprechen den erreichbaren Bereiche zubewegen.

In einem vierten Schritt (303) werden die Bilddaten des ersten Bilddatensatzes durch den Bildklassifikator (60) klassifiziert. Bei der Klassifikation kann ein Fahr zeug in einem Bilddatum entweder detektiert, also korrekt klassifiziert, werden oder nicht.

In einem fünften Schritt (304) wird die Erkennungsgenauigkeit des Bildklassifika tors (60) bewertet. Als Bewertungsmaß kann eine Summe der Relevanzwerte verwendet werden, die zu Fahrzeugen gehören, die nicht detektiert wurden. Al ternativ ist vorstellbar, dass auch der Mittelwert oder der Median der Relevanz werte als Bewertungsmaß verwendet werden kann.

Falls das Bewertungsmaß schlechter ist als ein vorgegebener Bewertungs schwellenwert, kann in einem sechsten Schritt (306) der Bildklassifikator (60) un ter Zuhilfenahme eines zweiten Bilddatensatzes nachtrainiert werden. In diesem Ausführungsbeispiel ist beispielsweise vorstellbar, dass der Bewertungsschwel lenwert als 0 definiert wird. Dies ist gleichbedeutend mit der Aussage, dass alle Fahrzeuge mit einer Relevanz größer 0 erkannt werden müssen. Für den Fall, dass dies nicht Eintritt wird der Bildklassifikator nachtrainiert. Der zweite Bildda tensatz kann in diesem Fall nach einem der Verfahren ermittelt werden, die auch zur Ermittlung des ersten Bilddatensatzes verwendet werden können. Falls das Bewertungsmaß dem Bewertungsschwellenwert genügt, kann der Bildklassifika tor (60) freigegeben werden.

In weiteren Ausführungsbeispielen ist vorstellbar, dass die Schritte der Bewer tung des Bildklassifikators (300, 301, 302, 303, 304, 305) so lange iterativ wie derholt werden, bis das Bewertungsmaß dem Schwellenwert genügt.

In weiteren Ausführungsbeispielen ist vorstellbar, dass die Schritte der Bewer tung des Bildklassifikators (300, 301, 302, 303, 304, 305) so lange iterativ wie derholt werden, bis eine vorher definierte Anzahl von Iterationen absolviert wurde.

Figur 2 zeigt einen Aktor (10) in seiner Umgebung (20) in Interaktion mit einem Steuerungssystem (40). In vorzugsweise regelmäßigen zeitlichen Abständen wird die Umgebung (20) mit einem Sensor (30), insbesondere einem bildgeben den Sensor wie einem Videosensor, erfasst, der auch durch eine Mehrzahl von Sensoren gegeben sein kann, beispielsweise eine Stereokamera. Das Sensor signal (S) - bzw. im Fall mehrerer Sensoren je ein Sensorsignal (S) - des Sen sors (30) wird an das Steuerungssystem (40) übermittelt. Das Steuerungssystem (40) empfängt somit eine Folge von Sensorsignalen (S). Das Steuerungssystem (40) ermittelt hieraus Ansteuersignale (A), welche an den Aktor (10) übertragen werden. Das Steuerungssystem (40) empfängt die Folge von Sensorsignalen (S) des Sensors (30) in einer optionalen Empfangseinheit (50), die die Folge von Sensor signalen (S) in eine Folge von Eingangsbildern (x) umwandelt (alternativ kann auch unmittelbar je das Sensorsignal (S) als Eingangsbild (x) übernommen wer den). Das Eingangsbild (x) kann beispielsweise ein Ausschnitt oder eine Weiter verarbeitung des Sensorsignals (S) sein. Das Eingangsbild (x) umfasst einzelne Frames einer Videoaufzeichnung. Mit anderen Worten wird Eingangsbild (x) ab hängig von Sensorsignal (S) ermittelt. Die Folge von Eingangsbildern (x) wird ei nem Bildklassifikator (60) zugeführt, der zum Beispiel wie im ersten Ausführungs beispiel bewertet wurde und dessen Bewertungsmaß unter dem Bewertungs schwellenwert lag.

Der Bildklassifikator (60) wird vorzugsweise parametriert durch Parameter (f), die in einem Parameterspeicher (P) hinterlegt sind und von diesem bereitgestellt werden.

Der Bildklassifikator (60) ermittelt aus den Eingangsbildern (x) Klassifikatoraus gaben (y). Die Klassifikatorausgaben (y) werden einer optionalen Umformeinheit (80) zugeführt, die hieraus Ansteuersignale (A) ermittelt, welche dem Aktor (10) zugeführt werden, um den Aktor (10) entsprechend anzusteuern. Die Klassifi katorausgabe (y) umfasst Informationen über Objekte, die der Sensor (30) er fasst hat.

Der Aktor (10) empfängt die Ansteuersignale (A), wird entsprechend angesteuert und führt eine entsprechende Aktion aus. Der Aktor (10) kann hierbei eine (nicht notwendigerweise baulich integrierte) Ansteuerlogik umfassen, welches aus dem Ansteuersignal (A) ein zweites Ansteuersignal ermittelt, mit dem dann der Aktor (10) angesteuert wird.

In weiteren Ausführungsformen umfasst das Steuerungssystem (40) den Sensor (30). In noch weiteren Ausführungsformen umfasst das Steuerungssystem (40) alternativ oder zusätzlich auch den Aktor (10). In weiteren bevorzugten Ausführungsformen umfasst das Steuerungssystem (40) einen oder eine Mehrzahl von Prozessoren (45) und wenigstens ein maschinen lesbares Speichermedium (46), auf dem Anweisungen gespeichert sind, die dann, wenn sie auf den Prozessoren (45) ausgeführt werden, das Steuerungs system (40) veranlassen, das erfindungsgemäße Verfahren auszuführen.

In alternativen Ausführungsformen ist alternativ oder zusätzlich zum Aktor (10) eine Anzeigeeinheit (10a) vorgesehen.

Figur 3 zeigt, wie das Steuerungssystem (40) zur Steuerung eines wenigstens teilweise autonomen Roboters, hier eines wenigstens teilautonomen Kraftfahr zeugs (100), eingesetzt werden kann.

Bei dem Sensor (30) kann es sich beispielsweise um einen vorzugsweise im Kraftfahrzeug (100) angeordneten Videosensor handeln.

Der Bildklassifikator (60) ist eingerichtet, aus den Eingangsbildern (x) Objekte zu identifizieren.

Bei dem vorzugsweise im Kraftfahrzeug (100) angeordneten Aktor (10) kann es sich beispielsweise um eine Bremse, einen Antrieb oder eine Lenkung des Kraft fahrzeugs (100) handeln. Das Ansteuersignal (A) kann dann derart ermittelt wer den, dass der Aktor oder die Aktoren (10) derart angesteuert wird, dass das Kraftfahrzeug (100) beispielsweise eine Kollision mit den vom Bildklassifikator (60) identifizierten Objekte verhindert, insbesondere, wenn es sich um Objekte bestimmter Klassen, z.B. um Fußgänger, handelt.

Alternativ kann es sich bei dem wenigstens teilautonomen Roboter auch um ei nen anderen mobilen Roboter (nicht abgebildet) handeln, beispielsweise um ei nen solchen, der sich durch Fliegen, Schwimmen, Tauchen oder Schreiten fort bewegt. Bei dem mobilen Roboter kann es sich beispielsweise auch um einen wenigstens teilautonomen Rasenmäher oder einen wenigstens teilautonomen Putzroboter handeln. Auch in diesen Fällen kann das Ansteuersignal (A) derart ermittelt werden, dass Antrieb und/oder Lenkung des mobilen Roboters derart angesteuert werden, dass der wenigstens teilautonome Roboter beispielsweise eine Kollision mit vom Bildklassifikator (60) identifizierten Objekten verhindert.

Alternativ oder zusätzlich kann mit dem Ansteuersignal (A) eine Anzeigeeinheit (10a) angesteuert werden, und beispielsweise die ermittelten sicheren Bereiche dargestellt werden. Auch ist es beispielsweise bei einem Kraftfahrzeug (100) mit nicht automatisierter Lenkung möglich, dass die Anzeigeeinheit (10a) mit dem Ansteuersignal (A) derart angesteuert wird, dass sie ein optisches oder akusti sches Warnsignal ausgibt, wenn ermittelt wird, dass das Kraftfahrzeug (100) droht, mit einem der vom Bildklassifikator (60) identifizierten Objekte zu kollidie ren.

Figur 4 zeigt, wie das Steuersystem (40) zur Steuerung eines Fertigungsroboters (220), wie zum Beispiel eines PUMA Roboters, verwendet werden kann, wobei der Arbeitsraum (212) des Fertigungsroboters (220) auch von Personen (210) betreten werden kann. Es ist vorstellbar, dass in diesem Ausführungsbeispiel das Steuersystem (40) Bilddaten von einem Kamerasensor (30) erhält, auf deren Ba sis es einen Aktuator (10) ansteuert, wobei der Aktuator (10) die Bewegung des Fertigungsroboters (220) sowie einen Greifer am Ende des Arms des Fertigungs roboters (220) antreibt, mit dem Werkstücke (211a, 211b) erfasst werden kön nen.

Über die Bilddaten des Kamerasensors (30) kann das Steuersystem (40) mit Hilfe des beinhalteten Bildklassifikators (60) außerdem Personen (210) erken nen, die sich im Arbeitsraum (212) des Fertigungsroboters (220) befinden. Für den Fall, dass eine oder mehrere Personen (210) im Arbeitsraum (212) erkannt wurden, kann die Bewegung des Fertigungsroboters (220) derart durch das Steu ersystem (40) angepasst werden, dass die Person oder die Personen (210) nicht vom Fertigungsroboter (220) berührt oder verletzt wird/werden. Optional ist auch vorstellbar, dass die Bewegung des Fertigungsroboters (220) derart gewählt wird, dass der Arm des Fertigungsroboters (220) einen gewissen Mindestabstand zu der Person oder den Personen (210) im Arbeitsraum (212) einhält. Für dieses Ausführungsbeispiel ist es möglich, dass der Bildklassifikator (60) mit Bildern von Personen (210) in oder um den Arbeitsraum (212) des Fertigungsro boters (220) trainiert wurde. Zur Bewertung, ob der Fertigungsroboter (220) si cher betrieben werden kann, kann ein erster Bilddatensatz aufgenommen wer den, wobei die Bilder des ersten Bilddatensatzes ebenfalls Personen (210) in o- der um den Arbeitsraum des Fertigungsroboters (220) zeigen können. Die Bilder des ersten Bilddatensatzes können zur Bewertung mit Annotationen in Form von Bounding Boxen für die Personen (210) auf den entsprechenden Bildern verse hen werden, wobei jeder Bounding Box außerdem ein Relevanzwert zugewiesen wird. Dieser Relevanzwert kann als 1 definiert werden, falls die entsprechende Bounding Box eine Person (210) zeigt, die sich im Arbeitsraum (212) des Ferti gungsroboters (220) befindet, und andernfalls als 0 definiert werden.

Zur Bewertung kann anschließend festgelegt werden, dass die Summe der Rele vanzwerte der vom Bildklassifikator (60) nicht erkannten Bounding Boxes des ersten Datensatzes 0 sein muss. Dies ist gleichbedeutend mit der Aussage, dass der Bildklassifikator (60) keine Person (210) innerhalb des Arbeitsraums (212) des Fertigungsroboters (220) fehldetektieren darf, während dies bei Personen außerhalb des Arbeitsraums nicht gefordert ist. Alternativ ist vorstellbar, dass Personen außerhalb des Arbeitsraums (212) höhere Relevanzwerte erhalten, je näher sie am Arbeitsraum (212) stehen. Es ist weiterhin vorstellbar, dass in die sem Fall die Summe der Relevanzwerte größer als 0 sein darf, um den Bildklas sifikator (60) als ausreichend sicher für den Einsatz zu bewerten.

Claims

Ansprüche

1. Computerimplementiertes Verfahren zur Bewertung eines Bildklassifikators (60), wobei eine Klassifikatorausgabe (y) des Bildklassifikators (60) zur An steuerung eines zumindest teilweise autonomen Roboters (100, 220) bereit gestellt wird, wobei das Verfahren zur Bewertung folgende Schritte umfasst:

• Klassifizierung (303) der Bilddaten des ersten Bilddatensatzes mittels des Bildklassifikators;

• Bewertung (304) des Bildklassifikators basierend auf durch den Bild klassifikator (60) korrekt klassifizierten Bildbereichen und falsch klas sifizierten Bildbereichen, sowie den berechneten Relevanzwerten der entsprechenden Bildbereiche.

2. Verfahren nach Anspruch 1, wobei die zu klassifizierenden Bildbereiche je weils einem Objekt (210) zugeordnet sind.

3. Verfahren nach Anspruch 1 oder 2, wobei die Ermittlung (301) der durch den Roboter (100, 220) erreichbaren Bereiche auf Bewegungsinformationen des Roboters (100, 220) basiert.

4. Verfahren nach einem der Ansprüche 1 bis 3, wobei der Schritt der Ermitt lung (302) der Relevanzwerte folgende Schritte umfasst:

• Ermittlung von Tiefeninformationen der Objekte (210);

• Bestimmung einer Relation von Objektpositionen zu erreichbaren Be reichen (212) basierend auf den Tiefeninformationen;

• Ermittlung der Relevanzwerte basierend auf der Relation.

5. Verfahren nach einem der Ansprüche 1 bis 4, wobei der Schritt der Bewer tung (304) des Bildklassifikators das Bestimmen eines Bewertungsmaßes umfasst, weiter wobei das Verfahren zur Bewertung des Bildklassifikators (60) folgenden zusätzlichen Schritt enthält:

• Nachtrainieren (305) des Bildklassifikators (60) basierend auf einem zweiten Bilddatensatz, falls das Bewertungsmaß schlechter ist als ein vorgegebener Bewertungsschwellenwert.

6. Verfahren nach Anspruch 5, wobei die Schritte iterativ wiederholt werden, bis eine vorgegebene Anzahl von Iterationen durchgeführt wurde und/oder der vorgegebene Bewertungsschwellenwert unterschritten wurde.

7. Verfahren nach Anspruch 5 oder 6, wobei das Nachtrainieren des Bildklassi fikators (60) basierend auf Relevanzwerten von Bildbereichen des zweiten Bilddatensatzes durchgeführt wird.

8. Computerimplementiertes Verfahren zum Betreiben eines Bildklassifikators (60), wobei der Bildklassifikator (60) nach einem der Ansprüche 1 bis 5 be wertet oder nach einem der Ansprüche 5 bis 7 nachtrainiert wurde.

9. Steuersystem (40) zur Ansteuerung eines zumindest teilweise autonomen Roboters, wobei das Ansteuersystem (40) einen Bildklassifikator (60) nach einem der Ansprüche 1 bis 7 beinhaltet, des Weiteren wobei das Steuersys tem (40) Bilddaten (x) basierend auf Sensorsignalen (S) eines Sensors (30) an den Bildklassifikator (60) übergibt und/oder ein Ansteuersignal (A) basie rend auf der Klassifikatorausgabe (y) ermittelt wird, wobei das Ansteuersig nal (A) zum Ansteuern eines Aktuators (10) des Roboters verwendet wird.

10. Trainingsvorrichtung, welche eingerichtet ist, das Verfahren nach einem der Ansprüche 5 bis 7 auszuführen.

11. Computerprogramm, welches eingerichtet ist, das Verfahren nach einem der Ansprüche 1 bis 7 auszuführen.

12. Maschinenlesbares Speichermedium (46, 146), auf dem das Computerpro gramm nach Anspruch 11 gespeichert ist.