WO2024104586A1

WO2024104586A1 - Verfahren zum aufnehmen eines objekts mittels eines roboters

Info

Publication number: WO2024104586A1
Application number: PCT/EP2022/082285
Authority: WO
Inventors: Anh Vien Ngo; Zohar Feldman; Philipp Christian Schillinger; Miroslav Gabriel; Alexander Kuss
Original assignee: Robert Bosch Gmbh
Priority date: 2022-11-17
Filing date: 2022-11-17
Publication date: 2024-05-23

Abstract

Gemäß verschiedenen Ausführungsformen wird ein Verfahren zum Aufnehmen eines Objekts mittels eines Roboters beschrieben, das das Beschaffen mindestens eines Bilds des Objekts, das Ermitteln, aus dem Bild des Objekts, eines Aufnehmqualitätsbilds des Objekts, das pro Pixel eine Qualität angibt, mit der das Objekt an einer dem Pixel entsprechenden Stelle des Objekts aufgenommen werden kann, das Erzeugen eines Greifer-spezifischen Aufnehmqualitätsbilds durch Falten des Aufnehmqualitätsbilds mit einem Fußabdruckbild, das den Fußabdruck eines Greifers zeigt, das Ermitteln einer Stelle zum Aufnehmen des Objekts aus dem Greifer-spezifischen Aufnehmqualitätsbild und das Steuern des Roboters zum Aufnehmen des Objekts unter Verwendung der ermittelten Stelle, aufweist.

Description

Beschreibung

Titel

Verfahren zum Aufhehmen eines Objekts mitels eines Roboters

Stand der Technik

Die vorliegende Offenbarung bezieht sich auf Verfahren zum Aufhehmen eines Objekts mitels eines Roboters.

Um eine flexible Herstellung oder Bearbeitung von Objekten durch einen Roboter zu ermöglichen, ist es wünschenswert, dass der Roboter fähig ist, ein Objekt ungeachtet der Lage, mit der das Objekt in den Arbeitsraum des Roboters platziert wird, aufzunehmen (d.h. zu greifen) und auch in der Lage ist, noch nicht gesehene Varianten des Objekts aufzunehmen.

Es gibt mehrere Verfahren, um beispielsweise bei der Entnahme von Gegenständen durch einen Roboter aus einem Behälter (engl. bin picking) die vielversprechendsten Stellen für das Greifen für eine erfolgreiche Entnahme eines Gegenstands aus dem Behälter zu erkennen. Diese Verfahren arbeiten typischerweise mit Farb(z.B. RGB)- und Tiefenbildem des jeweiligen Szenarios, wobei in einigen Fällen auch entweder Färb- oder Tiefenbilder ausreichen. Darüber hinaus stützen sich die meisten dieser Ansätze auf KI(künstliche Intelligenzj-Methoden, z. B. die Verwendung neuronaler Netze zum Erlernen einer Zuordnung zwischen Eingabedaten und vielversprechenden Greifpunkten.

Für das Training dieser neuronalen Netze ist typischerweise eine große Menge an Trainingsdaten erforderlich, meist manuell gekennzeichnete oder durch Simulation erzeugte Trainingsdatensätze mit Bildern und erwarteten Zielergebnissen (d.h. mit Ground-Truth-Labels für überwachtes Training). Die Erstellung dieser Trainingsdatensätze ist teuer und zeitaufwändig, dennoch rechtfertigen die Generalisierungsfähigkeiten eines so trainierten neuronalen Netzes über die Trainingsbeispiele des Trainingsdatensatzes hinaus typischerweise den Aufwand.

Die Generalisierung bezieht sich jedoch nur auf die Eingabedaten, die dem neuronalen Netz gegeben werden. Was die erwarteten Eigenschaften der Ausgabe betrifft, so sind neuronale Netze immer noch spezifisch für die Art der Trainingsdaten. Bei der Anwendung des Aufhehmens von Gegenständen, d.h. bei der Erkennung, wo Objekte gegriffen (was auch ein Ansaugen beinhaltet) werden sollen, hängt die Eignung bestimmter Teile eines Objekts zum Greifen stark von dem Typ des Greifers ab, den der Roboter verwendet. Ein Sauggreifer kann zum Beispiel unterschiedliche Größen oder unterschiedliche Anordnungen von Saugnäpfen haben. Deshalb ist es typischerweise erforderlich, Trainingsdatensätze für jeden Greifertyp zu erstellen und separate neuronale Netze zu trainieren, eines für jeden Greifertyp, um die Greifqualität für diesen speziellen Greifer vorherzusagen.

Es sind deshalb Ansätze zum Erkennen von Stellen eines Objekts, die sich zum Aufhehmen durch einen Roboter eignen, wünschenswert, die für verschiedene Greifertypen zuverlässige Ergebnisse liefern, aber dennoch keinen hohen Trainingsaufwand erfordern.

Offenbarung der Erfindung

Gemäß verschiedenen Ausführungsformen wird ein Verfahren zum Aufhehmen eines Objekts mittels eines Roboters bereitgestellt, das das Beschaffen mindestens eines Bilds des Objekts, das Ermitteln, aus dem Bild des Objekts, eines Aufnehmqualitätsbilds des Objekts, das pro Pixel eine Qualität angibt, mit der das Objekt an einer dem Pixel entsprechenden Stelle des Objekts aufgenommen werden kann, das Erzeugen eines Greifer-spezifischen Aufhehmqualitätsbilds durch Falten des Aufhehmqualitätsbilds mit einem Fußabdruckbild, das den Fußabdruck eines Greifers zeigt, das Ermitteln einer Stelle zum Aufhehmen des Objekts aus dem Greifer-spezifischen Aufhehmqualitätsbild und das Steuern des Roboters zum Aufnehmen des Objekts unter Verwendung der ermittelten Stelle, aufweist.

Das oben beschriebene Verfahren ermöglicht es, Stellen auf Objekten zum Aufhehmen mittels eines Greifers eines bestimmten Greifertyp zu ermitteln, ohne dass speziell für diesen Greifertyp ein Detektor für die Aufhahmequalität bereitgestellt werden muss (z.B. ein neuronales Netz trainiert werden muss). Bei Verwendung mehrere Greifertypen ist es also nicht erforderlich, mehrere neuronale Netze zu trainieren (oder mehrere Detektoren bereitzustellen). Es braucht nur für jeden Greifertyp ein Bild des jeweiligen Greifer- Fußabdrucks bereitgestellt werden. Dies ist besonders bei der Anwendung von fortgeschrittenen Sauggreifem von Vorteil, bei dem ein Sauggreifer mehrere in einem bestimmten Muster angeordnete Saugnäpfe aufweist, wobei unterschiedliche Kombinationen (d.h. Teilmengen) der Saugnäpfe aktiviert werden können und somit unterschiedliche Greifertypen (mit unterschiedlichen Fußabdrücken) einfach realisiert werden können.

Die durchgeführte Verarbeitung, insbesondere die von dem neuronalen Netz durchgeführte Inferenz, wird zur Detektion von Stellen oder Bereichen oder auch Posen zum Aufnehmen von Objekten sowie möglicherweise auch eines geeigneten (z.B. des optimalen) Greifertyps verwendet. Dies geschieht modellfrei, d.h. allein durch die Beurteilung der Aufnehmbarkeit für Stellen des Objekts aus den Eingabebildem (z.B. RGB- und Tiefeneingabe oder nur aus der Tiefe) anstelle des Abgleichs mit einem Zielobjektmodell. Die Bestimmung der Aufnehmpose ist beispielsweise für Anwendungen relevant, bei der ein Roboter Gegenstände aus einem Behälter entnimmt, um die Aktionen für das Aufhehmen entsprechend zu planen. Die Erkennung von Bestimmung von Stellen oder Bereichen (oder letztlich der Pose) zum Aufhehmen kann auch für weitere Roboteranwendungen relevant sein, z. B. für die Montage, wo ein Roboter Objekte greifen muss.

Im Folgenden werden verschiedene Ausführungsbeispiele angegeben.

Ausführungsbeispiel 1 ist das Verfahren zum Aufhehmen eines Objekts mittels eines Roboters, wie oben beschrieben.

Ausführungsbeispiel 2 ist das Verfahren nach Ausführungsbeispiel 1, aufweisend erzeugen des Greifer-spezifischen Aufhehmqualitätsbild durch kanalweises Falten des Aufhehmqualitätsbilds mit Fußabdruckbildem für mehrere Greifertypen, sodass das Greifer-spezifische Aufnehmqualitätsbild pro Kombination aus einem Greifertyp mehrerer Greifertypen und Orientierung ein oder mehrerer Orientierungen einen Kanal aufweist, der pro Pixel eine Qualität angibt, mit der das Objekt an einer dem Pixel entsprechenden Stelle des Objekts mit einem Greifer des jeweiligen Greifertyps mit der jeweiligen Orientierung aufgenommen werden kann.

Dies ermöglicht einen Vergleich der Aufnehmqualitäten für unterschiedliche Greifertypen und Greifer-Orientierungen und letztendlich die Bestimmung eines optimalen Greifers mit geeigneter Orientierung.

Ausfuhrungsbeispiel 3 ist das Verfahren nach Ausfuhrungsbeispiel 2, aufweisend Ermitteln einer Stelle zum Aufhehmen des Objekts sowie Auswählen einer Kombination aus Greifertyp und Orientierung aus dem Greifer-spezifischen Aufhehmqualitätsbild und Steuern des Roboters zum Aufnehmen des Objekts unter Verwendung der ermittelten Stelle mittels eines Greifers des Greifertyps der ausgewählten Kombination, der gemäß der Orientierung der ausgewählten Kombination orientiert ist.

Damit kann unter mehreren Greifertypen der am besten zum Aufhehmen des jeweiligen Objekts geeignete Greifertyp verwendet werden.

Ausfuhrungsbeispiel 4 ist das Verfahren nach Ausfuhrungsbeispiel 3, aufweisend Ermitteln der Stelle zum Aufhehmen des Objekts sowie Auswählen der Kombination aus Greifertyp und Orientierung durch Vergleichen der Aufnehmqualitäten für verschiedene Stellen des Objekts und verschiedene Kombinationen aus Greifertypen und Orientierungen.

In anderen Worten wird eine mehrdimensionale Suche durchgefiührt, die sich über Objektstellen, Greifertypen und Greiferorientierungen erstreckt. Damit können auch schwer aufzunehmende Objekte zuverlässig aufgenommen werden, sofern sie zumindest eine Stelle aufweisen, an der sie mit einem geeigneten Greifer mit geeigneter Orientierung aufgenommen werden können.

Ausfuhrungsbeispiel 5 ist das Verfahren nach Ausfuhrungsbeispiel 4, aufweisend Ermitteln der Stelle zum Aufnehmen des Objekts sowie Auswählen der Kombination aus Greifertyp und Orientierung durch Ermitteln, für welche Kombination aus Greifertyp, Orientierung und Stelle zum Aufhehmen die Aufhehmqualität ein Maximum annimmt. Damit wird die beste Kombination der zur Verfügung stehenden Möglichkeiten genutzt und der beste Halt gewährleistet.

Ausführungsbeispiel 6 ist das Verfahren nach einem der Ausführungsbeispiele 1 bis 5, wobei das Aufnehmqualitätsbild durch das Zuführen des Bilds des Objekts zu einem neuronalen Netz ermittelt wird, das trainiert ist, Objektbilder auf Aufhehmqualitätsbilder abzubilden.

Neuronale Netze können effektiv für eine solche Aufgabe trainiert werden. Das bereitgestellte Verfahren ermöglicht ein besonders effektives Training, weil das neuronale Netz lediglich allgemein und nicht mehrmals für unterschiedliche Greifertypen trainiert zu werden braucht. Beispielsweise kann es mit einem Trainingsdatensatz (überwacht) trainiert werden, der Trainingsbeispiele für verschiedene Greifertypen enthält, sodass es trainiert wird, eine „allgemeine“ Aufhehmqualität zu ermitteln.

Ausführungsbeispiel 7 ist das Verfahren nach einem der Ausführungsbeispiele 1 bis 6, ferner aufweisend das Beschaffen von Tiefeninformation des Objekts, das Ermitteln eines Normalenvektorbilds des Objekts, das pro Pixel einen Oberflächen-Normalenvektor des Objekts angibt, das Falten des Normalenvektorbilds mit dem Fußabdruckbild und das Ermitteln der Stelle zum Aufnehmen des Objekts aus dem Greifer-spezifischen Aufhehmqualitätsbild und dem Ergebnis der Faltung des Normalenvektorbilds mit dem Fußabdruckbild.

Auf diese Weise wird sichergestellt, dass das Verfahren auch für „trügerische“ Objekte, wie z.B. Würfel, die zwar überall punktweise eine gute Aufhehmqualität aufweisen, aber mit einem Sauggreifer nicht über Kanten hinweg aufgenommen werden können, gute Ergebnisse liefert.

Ausführungsbeispiel 8 ist das Verfahren nach Ausführungsbeispiel 7, aufweisend das Ermitteln, aus dem Ergebnis der Faltung des Normalenvektorbilds mit dem Fußabdruckbild eines Normalenvektor-Ähnlichkeitsbilds, das pro Pixel eine Ähnlichkeit der Normalenvektoren innerhalb des durch das Fußabdruckbild gezeigten Fußabdrucks, wenn dieser an der Stelle des Pixels angeordnet ist, angibt und das Ermitteln der Stelle zum Aufhehmen des Objekts durch Suchen, über die Pixel, eines Maximums einer gewichteten Kombination des Aufhehmqualitätsbilds und des Normalenvektor- Ähnlichkeitsbilds .

Damit kann gewährleistet werden, dass für Sauggreifer, die eine glatte Oberfläche erfordern, eine sichere Stelle zum Aufhehmen ausgewählt wird.

Ausführungsbeispiel 9 ist eine Steuereinrichtung, die eingerichtet ist, ein Verfahren nach einem der Ausführungsbeispiele 1 bis 8 durchzuführen.

Ausführungsbeispiel 10 ist ein Computerprogramm mit Befehlen, die, wenn sie durch einen Prozessor ausgeführt werden, bewirken, dass der Prozessor ein Verfahren nach einem der Ausführungsbeispiele 1 bis 8 durchführt.

Ausführungsbeispiel 11 ist ein Computerlesbares Medium, das Befehle speichert, die, wenn sie durch einen Prozessor ausgeführt werden, bewirken, dass der Prozessor ein Verfahren nach einem der Ausführungsbeispiele 1 bis 8 durchführt.

In den Zeichnungen beziehen sich ähnliche Bezugszeichen im Allgemeinen auf dieselben Teile in den ganzen verschiedenen Ansichten. Die Zeichnungen sind nicht notwendigerweise maßstäblich, wobei die Betonung stattdessen im Allgemeinen auf die Darstellung der Prinzipien der Erfindung gelegt wird. In der folgenden Beschreibung werden verschiedene Aspekte mit Bezug auf die folgenden Zeichnungen beschrieben.

Figur 1 zeigt einen Roboter.

Figur 2 veranschaulicht eine Datenverarbeitung zum Aufhehmen eines Objekts durch einen Roboter gemäß einer Ausführungsform.

Figur 3 zeigt ein Ablaufdiagramm, das ein Verfahren zum Aufhehmen eines Objekts mittels eines Roboters gemäß einer Ausführungsform veranschaulicht.

Die folgende ausführliche Beschreibung bezieht sich auf die begleitenden Zeichnungen, die zur Erläuterung spezielle Details und Aspekte dieser Offenbarung zeigen, in denen die Erfindung ausgeführt werden kann. Andere Aspekte können verwendet werden und strukturelle, logische und elektrische Änderungen können durchgeführt werden, ohne vom Schutzbereich der Erfindung abzuweichen. Die verschiedenen Aspekte dieser Offenbarung schließen sich nicht notwendigerweise gegenseitig aus, da einige Aspekte dieser Offenbarung mit einem oder mehreren anderen Aspekten dieser Offenbarung kombiniert werden können, um neue Aspekte zu bilden.

Im Folgenden werden verschiedene Beispiele genauer beschrieben.

Figur 1 zeigt einen Roboter 100.

Der Roboter 100 beinhaltet einen Roboterarm 101, zum Beispiel einen Industrieroboterarm zum Handhaben oder Montieren eines Arbeitsstücks (oder eines oder mehrerer anderer Objekte). Der Roboterarm 101 beinhaltet Manipulatoren 102, 103, 104 und eine Basis (oder Stütze) 105, mittels der die Manipulatoren 102, 103, 104 gestützt werden. Der Ausdruck „Manipulator“ bezieht sich auf die bewegbaren Bauteile des Roboterarms 101, deren Betätigung eine physische Interaktion mit der Umgebung ermöglicht, um z. B. eine Aufgabe auszuführen. Zur Steuerung beinhaltet der Roboter 100 eine (Roboter-) Steuereinrichtung 106, die zum Implementieren der Interaktion mit der Umgebung gemäß einem Steuerprogramm ausgelegt ist. Das letzte Bauteil 104 (das am weitesten von der Stütze 105 entfernt ist) der Manipulatoren 102, 103, 104 wird auch als der Endeffektor 104 bezeichnet und kann ein oder mehrere Werkzeuge beinhalten, wie etwa einen Schweißbrenner, ein Greifmstrument, ein Eackiergerät oder dergleichen.

Die anderen Manipulatoren 102, 103 (die sich näher an der Stütze 105 befinden) können eine Positionierungsvorrichtung bilden, sodass, zusammen mit dem Endeffektor 104, der Roboterarm 101 mit dem Endeffektor 104 an seinem Ende bereitgestellt ist. Der Roboterarm 101 ist ein mechanischer Arm, der ähnliche Funktionen wie ein menschlicher Arm bereitstellen kann (möglicherweise mit einem Werkzeug an seinem Ende).

Der Roboterarm 101 kann Gelenkelemente 107, 108, 109 beinhalten, die die Manipulatoren 102, 103, 104 miteinander und mit der Stütze 105 verbinden. Ein Gelenkelement 107, 108, 109 kann ein oder mehrere Gelenke aufweisen, die jeweils eine drehbare Bewegung (d. h. Drehbewegung) und/oder translatorische Bewegung (d. h. Verlagerung) für assoziierte Manipulatoren relativ zueinander bereitstellen können. Die Bewegung der Manipulatoren 102, 103, 104 kann mittels Aktoren initiiert werden, die durch die Steuereinrichtung 106 gesteuert werden. Der Ausdruck „Aktor“ kann als eine Komponente verstanden werden, die als Reaktion auf ihren Antrieb zum Bewirken eines Mechanismus oder Prozesses ausgebildet ist. Der Aktor kann durch die Steuereinrichtung 106 erstellte Anweisungen (die sogenannte Aktivierung) in mechanische Bewegungen implementieren. Der Aktor, z. B. ein elektromechanischer Wandler, kann dazu ausgelegt sein, als Reaktion auf seinen Antrieb elektrische Energie in mechanische Energie umzuwandeln.

Der Ausdruck „Steuereinrichtung“ kann als ein beliebiger Typ von logikimplementierender Entität verstanden werden, die zum Beispiel eine Schaltung und/oder einen Prozessor beinhalten kann, die/der in der Lage ist, in einem Speicherungsmedium gespeicherte Software, Firmware oder eine Kombination davon auszuführen, und die/der Anweisungen, z. B. zu einem Aktor im vorliegenden Beispiel, ausstellen kann. Die Steuereinrichtung kann zum Beispiel durch Programmcode (z. B. Software) konfiguriert werden, um den Betrieb eines Systems, eines Roboters im vorliegenden Beispiel, zu steuern.

Im vorliegenden Beispiel beinhaltet die Steuereinrichtung 106 einen oder mehrere Prozessoren 110 und einen Speicher 111, der Code und Daten speichert, basierend auf denen der Prozessor 110 den Roboterarm 101 steuert. Gemäß verschiedenen Ausfiihrungsformen steuert die Steuereinrichtung 106 den Roboterarm 101 auf Basis eines maschinellen Lemmodells 112, das im Speicher 111 gespeichert ist.

Gemäß verschiedenen Ausführungsformen ist das maschinelle Lemmodell 112 dazu ausgelegt und trainiert, dem Roboter 100 zu ermöglichen, eine Stellen eines Objekts 113 zu erkennen, an denen der Roboter 100 das Objekt 113 aufhehmen kann (oder auf andere Weise damit interagieren kann, z.B. lackieren).

Der Roboter 100 kann zum Beispiel mit einer oder mehreren Kameras 114 ausgestattet sein, die es ihm ermöglichen, Bilder seines Arbeitsraums aufzunehmen. Die Kamera 114 ist zum Beispiel an dem Roboterarm 101 befestigt, sodass der Roboter Bilder des Objekts 113 von verschiedenen Perspektiven aus machen kann, indem er den Roboterarm 101 herumbewegt.

Gemäß verschiedenen Ausführungsformen ist das maschinelle Lemmodell 112 ein neuronales Netz 112 und die Steuereinrichtung 106 führt dem neuronalen Netz 112 Eingabedaten basierend auf den ein oder mehreren digitalen Bildern (Farbbilder, Tiefenbilder oder beides) eines Objekts 113 zu und das neuronale Netz 112 ist dazu eingerichtet, Stellen (bzw. Bereiche) des Objekts 113 anzugeben, die für das Aufhehmen des Objekts 113 geeignet sind. Beispielsweise kann das neuronale Netz ein Eingabebild, das das Objekt 113 zeigt, entsprechend segmentieren, z.B. jedem Pixel einen Wert („Aufhehmqualitätswert“) zuordnen, der anzeigt, wie gut der Pixel zum Aufhehmen geeignet ist.

Verschiedene Architekturen können für das neuronale Netz 112 verwendet werden. Das neuronale Netz 112 kann lediglich einen einzelnen Eingangskanal für die Standardabweichungen der Normalenvektoren oder eine Mehrkanaleingabe aufweisen, die die Standardabweichung der Normalenvektoren als Daten eines Kanals zusätzlich zu anderen (z.B. Farbbilddaten und/oder Tiefenbilddaten) enthält. Beispiele sind volle Konvolutionsnetze (engl. fully convolutional networks z. B. UNet, ResNet), die jedem Pixel eines Eingangsbildes einen Aufhehmqualitätswert (der die Eignung der jeweiligen Stelle zum Aufnehmen des gezeigten Objekts anzeigt) zuordnen, um ein Ausgangsbild von der gleichen Größe wie das Eingangsbild zu bilden. Dies ermöglicht eine weitere Verarbeitung der Ausgabe zur Bestimmung einer Aufhehmpose, z. B. durch Auswahl eines globalen Maximums im Ausgangsbild. Die Steuereinrichtung 106 kann also einen Bereich ausreichender Größe zum als Stelle zum Aufhehmen wählen, in dem diese Werte ausreichend hoch sind (z.B. über einem Schwellwert liegen, im Mittel maximal sind, etc.).

Gemäß verschiedenen Ausführungsformen wird, um den Aufwand des Trainings verschiedener neuronaler Netze für verschiedene Greifertypen zu vermeiden, dass das neuronalen Netz 112 mittels eines einzigen, allgemeinen Trainingsdatensatzes trainiert wird, pixelweise Aufhehmqualitätswerte (z.B. für einen Sauggreifer) auszugeben. Es wird dann eine Nachbearbeitung vorgesehen, die eine Verallgemeinerung auf verschiedene Greifertypen ermöglicht, z.B. auf beliebige Größen oder Anordnungen von Saugnäpfen. Dazu wird für jeden Greifertyp ein Bild des „Fußabdrucks“ des Greifertyps bereitgestellt, das die Kontaktfläche zwischen der oder den Saugnäpfen eines Greifers mit dem Greifertyp und der Oberfläche des aufgenommenen (d.h. angesaugten) Objekts angibt. Unter Verwendung dieses Fußabdrucks kann die Steuereinrichtung 106 eine Greiferspezifische Aufhehmqualität aus der von neuronalen Netz 112 ausgegebenen allgemeinen Greifqualität berechnen. Da ein Greifer, der mehrere Saugnäpfe hat, nicht notwendigerweise symmetrisch ist, kann die Steuereinrichtung 106 bei dieser Nachbearbeitung auch eine geeignete Greiferorientierung bestimmen. Es können mehrere Fußabdruck-Bilder für unterschiedliche Greifertypen vorgesehen sein (z.B. im Speicher 111 gespeichert sein), sodass die Steuereinrichtung 106 den am besten geeigneten ermitteln kann. Der Endeffektor 104 kann so ausgestaltet sein, dass er unterschiedliche Greifertypen implementieren bzw. verwenden kann. Dies kann durch Auswechseln oder auch durch Aktivierung unterschiedliche Saugnäpfe zum Greifen geschehen.

Die Nachbearbeitung kann zusammen mit jeglichem vorhandenen Detektor verwendet werden, bei dem eine pixelweise Schätzung einer Aufhehmqualität zur Identifikation von Bereichen von Objekten, die zum Aufhehmen der Objekte geeignet sind, durchgeführt wird. Im Folgenden wird ein Ausführungsbeispiel beschrieben, wo (wie auch oben beschrieben) dies durch ein neuronales Netz erfolgt.

Figur 2 veranschaulicht eine Datenverarbeitung zum Aufhehmen eines Objekts durch einen Roboter 201 (entsprechend dem Roboter 100).

Eine oder mehrere Kameras 202, beispielsweise entsprechend der Kamera 114, liefert ein Bild 203 eines Objekts 113, das der Roboter 201 aufhehmen soll.

Das Bild 203 wird einem neuronalen Netz 204 (das z.B. dem neuronalen Netz 112 entspricht) zugeführt. Das neuronale Netz 204 ist darauf trainiert (z.B. mittels entsprechender Trainings-Eingaben und zugehöriger Ziel-Ausgaben, d.h. Ground-Truth- Labels für überwachtes Lernen), für jedes Pixel des zugeführten Bilds 203 eine Aufhehmqualität für das Objekt zu ermitteln. Das neuronalen Netz 204 gibt dies in Form eines Aufhehmqualitätsbilds 205 auszugeben. Das Eingabebild 203 kann auch eine Szene mit mehreren Objekten zeigen. In diesem Fall zeigt das von dem neuronalen Netz 204 ausgegebene Aufhehmqualitätsbild 205 Aufhehmqualitäten für alle Objekte.

Das neuronale Netz 204 liefert eine allgemeine Aufhahmequalität, d.h. nicht für einen bestimmten Greifertyp. Mittels einer Nachbearbeitung 206 ermittelt daraus die Steuereinrichtung 106, ggf. für mehrere Greifertypen, eine oder mehrere Greiferspezifische pixelweise Aufhahmequalitäten. Die Steuereinrichtung 106 verfugt dazu für jeden Greifertyp über ein Fußabdruck-Bild 207 des Fußabdrucks des jeweiligen Greifers. Die Fußabdruck-Bilder 207 sind beispielsweise Bitmaps des Fußabdrucks, d.h. haben z.B. eine Eins, wo der Greifer mit der Objektoberfläche in Kontakt steht, und Null sonst.

Um die Aufhehmqualität für ein oder mehrere Greifertypen zu berechnen, lädt die Steuereinrichtung das zugehörige Fußabdruck-Bild 207 oder die zugehörigen Fußabdruck-Bilder 207. Daraus bildet die Steuereinrichtung 106 einen Faltungskem 208. Um Aufnehmqualitäten für mehrere Rotationen für nicht-symmetrische Greifer und für mehrere Greifertypen auszugeben, hat der Faltungskem 208 eine entsprechende Anzahl von Kanälen (d.h. einen Kanal pro Kombination aus Greifertyp und Rotationswinkel, z.B. in Schritten von 10 Grad).

Die Steuereinrichtung faltet dann das von dem neuronalen Netz 204 ausgegebene Aufhahmequalitäts-Bild 205 mit dem Faltungskem (für jeden Kanal des Faltungskems unabhängig). Das Ergebnis ist ein Greifer-spezifisches (und ggf. auch Orientierungsspezifischen) Aufhehmqualitätsbild 209 mit mehreren Kanälen, wobei jeder Kanal die pixelweise die Aufhehmqualität für eine Kombination aus Greifertyp und Orientierung angibt.

Durch Bestimmen, für welchen Greifertyp und welche Orientierung das Maximum über alle Kanäle angenommen wird (d.h. mittels einer „argmax“-Operation über die Kanäle) ermittelt die Steuereinrichtung 106 für jedes Pixel den optimalen Greiferyp und die dafür optimale Orientierung und erzeugt so ein Optimierte-Aufhehmqualität-Bild 210 (mit nur einem Kanal), das für jeden Pixel den Wert des Maximums über die Kanäle des Greiferspezifischen Aufnehmqualitätsbilds enthält.

Aus dem Optimierte-Aufhehmqualität-Bild 210 ermittelt die Steuereinrichtung dann eine Aufhehmpose zur Aufnahme des Objekts (oder Aufhehmposen für mehrere Objekte). Dies kann je nach Anwendung auf unterschiedliche Arten implementiert werden. Zusätzlich dazu, die pixelweise Aufhehmqualität (aus dem Greifer-spezifischen Aufhehmqualitätsbild 209) einfach in eine Greiferpose zu konvertieren (durch Ermitteln einer Stelle zum Aufnehmen, z.B. durch Suchen eines Pixels mit maximaler Aufhehmqualität oder auch Clustern oder Segmentierung) ermittelt die Steuereinrichtung 106 die Pose mit dem Greifertyp und der Orientierung, die sie für das jeweilige Pixel (das der ausgewählten Stelle zum Aufhehmen entspricht) ermittelt hat. Der Greifertyp entspricht dabei z.B. einer Greiferkonfiguration, z.B. einem Muster von Saugnäpfen, die aktiviert werden.

Es sollte beachtet werden, dass je nach Objekten die Steuereinrichtung 106 bei der Nachbearbeitung suboptimale oder sogar ungeeignete Aufhehmstellen ermitteln kann, wenn sie nur die Ausgabe 205 des neuronalen Netzes 204 berücksichtigt. Dies ist beispielsweise bei Objekten wie Würfeln der Fall, die zwar gut an ihren Seiten angesaugt werden können (und deshalb an ihren Seiten hohe Werte für die Aufhehmqualität in der Ausgabe 205 des neuronalen Netzes 204 erhalten) aber nicht um eine Kante herum angesaugt werden können.

Deshalb ermittelt die Steuereinrichtung 106 gemäß einer Ausführungsform pixelweise Normalenvektoren für das Objekt oder die Objekte (z.B. aus einem Tiefenkanal des Eingabebilds 203) und faltet das resultierende Normalvektorbild 210 (das pro Pixel einen Normalvektor angibt) ebenfalls pro Greifertyp und pro Orientierung mit einem jeweiligen Fußabdruck-Bild 207. Aus dem Ergebnis der Faltung ermittelt die Steuereinrichtung 106 dann ein Maß für die Ähnlichkeit der Normalenvektoren über den jeweiligen Fußabdruck für das jeweilige Pixel (z.B. einfach die Länge des aus der Faltung entstehenden Vektors oder auch eine Standardabweichung oder mittlere Abweichung). Bei der Suche des Maximums (d.h. der Argmax-Operation) können dann sowohl die Aufhehmqualität als auch der Wert dieses Ähnlichkeitsmaßes berücksichtigt werden. Beispielsweise können die beiden Werte (ggf. gewichtet) addiert werden und das Maximum über die Pixel für das Ergebnis dieser Addition gesucht werden.

Die Faltung eines Fußabdruck-Bilds 207 mit dem Ausgabebild 205 des neuronalen Netzes oder dem Normalvektorbild 210 kann für große Ausgabebilder 205 und besonders für große Fußabdruck-Bilder 207 sehr aufwändig sein. Um diesen Effekt abzuschwächen, kann die Konvolutionsoperation modifiziert werden, sodass sie eine Faltung mit größerer Schrittweite (engl. strided convolution) oder eine dilatierte Faltung (engl. dilated convolution) verwendet. Bei der Faltung mit größerer Schrittweite wird die Faltung nicht für jedes Pixel des Ausgabebilds 205 durchgeführt. Für Pixel, für die die Faltung nicht durchgeführt wird, können Pixelwerte mittels Interpolation ergänzt werden. Für die dilatierte Faltung wird das Fußabdruck-Bild 207 ausgedünnt, sodass nur ein Teil der Pixel, die sich im Fußabdruck befinden, in das Faltungsergebnis eingehen. Eine andere Möglichkeit ist es, zunächst (vor der Faltung) eine Objektdetektion durchzufuhren und Teile des Ausgabebilds 205, die zu keinem Objekt gehören, auszumaskieren, sodass nur die verbleibenden Pixel als Eingabe der Faltung an Stelle des Gesamtbildes berücksichtigt werden und irrelevante Bereiche ausgelassen werden. Das Falten wird dann nur für die verbleibenden Bereiche durchgeführt.

Um ein genaues Fußabdruck-Bild 207 für einen Greifertyp bereitzustellen, können Abmessungen des Greifers in metrische Einheiten in Pixeleinheiten umgerechnet werden, wobei Information über die intrinsischen Parameter der Kamera 202 berücksichtigt werden kann, die beispielsweise bei der Kamerakalibrierung gewonnen werden kann, wobei angenommen wird, dass der Tiefenbereich während des Betriebs (d.h. die Entfernung der Objekte von der Kamera) grob gleich bleibt.

Figur 3 zeigt ein Ablaufdiagramm 300, das ein Verfahren zum Aufhehmen eines Objekts mittels eines Roboters gemäß einer Ausführungsform veranschaulicht.

In 301 wird mindestens ein Bilds des Objekts beschafft.

In 302 wird aus dem Bild des Objekts ein Aufnehmqualitätsbild des Objekts ermittelt, das pro Pixel eine Qualität angibt, mit der das Objekt an einer dem Pixel entsprechenden Stelle des Objekts aufgenommen werden kann.

In 303 wird ein Greifer-spezifisches Aufhehmqualitätsbild durch Falten des Aufhehmqualitätsbilds mit einem Fußabdruckbild, das den Fußabdruck eines Greifers zeigt, erzeugt.

In 304 wird eine Stelle zum Aufnehmen des Objekts aus dem Greifer-spezifischen Aufhehmqualitätsbild ermittelt.

In 305 wird der Roboter zum Aufhehmen des Objekts unter Verwendung der ermittelten Stelle gesteuert.

Das Verfahren von Figur 3 kann durch ein oder mehrere Datenverarbeitungseinheiten durchgeführt werden. Der Begriff „Datenverarbeitungseinheit“ kann als irgendein Typ von Entität verstanden werden, die die Verarbeitung von Daten oder Signalen ermöglicht. Die Daten oder Signale können beispielsweise gemäß mindestens einer (d.h. einer oder mehr als einer) speziellen Funktion behandelt werden, die durch die Datenverarbeitungseinheit durchgefuhrt wird. Eine Datenverarbeitungseinheit kann eine analoge Schaltung, eine digitale Schaltung, eine Logikschaltung, einen Mikroprozessor, einen Mikrocontroller, eine Zentraleinheit (CPU), eine Graphikverarbeitungseinheit (GPU), einen Digitalsignalprozessor (DSP), eine integrierte Schaltung einer programmierbaren Gatteranordnung (FPGA) oder irgendeine Kombination davon umfassen oder aus dieser ausgebildet sein. Irgendeine andere Weise zum Implementieren der jeweiligen Funktionen, die hierin genauer beschrieben werden, kann auch als Datenverarbeitungseinheit oder Logikschaltungsanordnung verstanden werden. Es können ein oder mehrere der im Einzelnen hier beschriebenen Verfahrensschritte durch eine Datenverarbeitungseinheit durch eine oder mehrere spezielle Funktionen ausgefuhrt (z. B. implementiert) werden, die durch die Datenverarbeitungseinheit durchgefuhrt werden.

Die Herangehensweise von Figur 3 kann zum Erzeugen eines Steuersignals für eine Robotervorrichtung dienen. Der Begriff „Robotervorrichtung“ kann als sich auf irgendein physikalisches System (mit einem mechanischen Teil, dessen Bewegung gesteuert wird) beziehend verstanden werden, wie z. B. eine computergesteuerte Maschine, ein Haushaltsgerät, ein persönlicher Assistent, ein Elektrowerkzeug oder eine Fertigungsmaschine .

Als Eingabedaten für das neuronale Netzwerk dienen beispielsweise Färb- und Tiefenbilder. Diese können aber auch durch Sensorsignale von anderen Sensoren wie z. B. Radar, LiDAR, Ultraschall, Bewegung, Wärmebilder etc. ergänzt werden.

Das neuronale Netzwerk klassifiziert die Eingabedaten und detektiert beispielsweise die Präsenz von Objekten und fuhrt eine semantische Segmentierung auf der Grundlage der Sensordaten durch in Hinblick auf Stellen oder Bereiche, an denen die Objekte aufgenommen werden können.

Ausfuhrungsformen können zum Trainieren eines Maschinelles-Lemen-Systems und Steuern eines Roboters, z. B. autonom von Robotermanipulatoren, um verschiedene Manipulationsaufgaben unter verschiedenen Szenarios zu erreichen, verwendet werden. Insbesondere sind Ausführungsformen auf die Steuerung und Überwachung der Ausführung von Manipulationsaufgaben anwendbar, z. B. in Montagelinien.

Obwohl spezielle Ausführungsformen hier dargestellt und beschrieben wurden, wird vom Fachmann auf dem Gebiet erkannt, dass die speziellen Ausführungsformen, die gezeigt und beschrieben sind, gegen eine Vielfalt von alternativen und/oder äquivalenten Implementierungen ausgetauscht werden können, ohne vom Schutzbereich der vorliegenden Erfindung abzuweichen. Diese Anmeldung soll irgendwelche Anpassungen oder Variationen der speziellen Ausführungsformen abdecken, die hier erörtert sind. Daher ist beabsichtigt, dass diese Erfindung nur durch die Ansprüche und die

Äquivalente davon begrenzt ist.

Claims

Ansprüche

1. Verfahren zum Aufnehmen eines Objekts mittels eines Roboters, aufweisend Beschaffen mindestens eines Bilds des Objekts;

Ermitteln, aus dem Bild des Objekts, eines Aufhehmqualitätsbilds des Objekts, das pro Pixel eine Qualität angibt, mit der das Objekt an einer dem Pixel entsprechenden Stelle des Objekts aufgenommen werden kann;

Erzeugen eines Greifer-spezifischen Aufhehmqualitätsbilds durch Falten des Aufhehmqualitätsbilds mit einem Fußabdruckbild, das den Fußabdruck eines Greifers zeigt;

Ermitteln einer Stelle zum Aufhehmen des Objekts aus dem Greifer-spezifischen Aufnehmqualitätsbild; und

Steuern des Roboters zum Aufhehmen des Objekts unter Verwendung der ermittelten Stelle.

2. Verfahren nach Anspruch 1, aufweisend Erzeugen des Greifer-spezifischen Aufhehmqualitätsbild durch kanalweises Falten des Aufhehmqualitätsbilds mit Fußabdruckbildem für mehrere Greifertypen, sodass das Greifer-spezifische Aufhehmqualitätsbild pro Kombination aus einem Greifertyp mehrerer Greifertypen und Orientierung ein oder mehrerer Orientierungen einen Kanal aufweist, der pro Pixel eine Qualität angibt, mit der das Objekt an einer dem Pixel entsprechenden Stelle des Objekts mit einem Greifer des jeweiligen Greifertyps mit der jeweiligen Orientierung aufgenommen werden kann.

3. Verfahren nach Anspruch 2, aufweisend Ermitteln einer Stelle zum Aufnehmen des Objekts sowie Auswählen einer Kombination aus Greifertyp und Orientierung aus dem Greifer-spezifischen Aufhehmqualitätsbild und Steuern des Roboters zum Aufhehmen des Objekts unter Verwendung der ermittelten Stelle mittels eines Greifers des Greifertyps der ausgewählten Kombination, der gemäß der Orientierung der ausgewählten Kombination orientiert ist. Verfahren nach Anspruch 3, aufweisend Ermiteln der Stelle zum Aufnehmen des Objekts sowie Auswählen der Kombination aus Greifertyp und Orientierung durch Vergleichen der Aufnehmqualitäten für verschiedene Stellen des Objekts und verschiedene Kombinationen aus Greifertypen und Orientierungen. Verfahren nach Anspruch 4, aufweisend Ermiteln der Stelle zum Aufhehmen des Objekts sowie Auswählen der Kombination aus Greifertyp und Orientierung durch Ermiteln, für welche Kombination aus Greifertyp, Orientierung und Stelle zum Aufhehmen die Aufhehmqualität ein Maximum annimmt. Verfahren nach einem der Ansprüche 1 bis 5, wobei das Aufhehmqualitätsbild durch das Zufuhren des Bilds des Objekts zu einem neuronalen Netz ermitelt wird, das trainiert ist, Objektbilder auf Aufhehmqualitätsbilder abzubilden. Verfahren nach einem der Ansprüche 1 bis 6, ferner aufweisend: Beschaffen von Tiefeninformation des Objekts;

Ermiteln eines Normalenvektorbilds des Objekts, das pro Pixel einen Oberflächen- Normalenvektor des Objekts angibt;

Falten des Normalenvektorbilds mit dem Fußabdruckbild; und Ermiteln der Stelle zum Aufhehmen des Objekts aus dem Greifer-spezifischen Aufhehmqualitätsbild und dem Ergebnis der Faltung des Normalenvektorbilds mit dem Fußabdruckbild. Verfahren nach Anspruch 7, aufweisend:

Ermiteln, aus dem Ergebnis der Faltung des Normalenvektorbilds mit dem Fußabdruckbild eines Normalenvektor-Ähnlichkeitsbilds, das pro Pixel eine Ähnlichkeit der Normalenvektoren innerhalb des durch das Fußabdruckbild gezeigten Fußabdrucks, wenn dieser an der Stelle des Pixels angeordnet ist, angibt; und Ermiteln der Stelle zum Aufhehmen des Objekts durch Suchen, über die Pixel, eines Maximums einer gewichteten Kombination des Aufhehmqualitätsbilds und des Normalenvektor-Ähnlichkeitsbilds . Steuereinrichtung, die eingerichtet ist, ein Verfahren nach einem der Ansprüche

1 bis 8 durchzufiühren. 10. Computerprogramm mit Befehlen, die, wenn sie durch einen Prozessor ausgeführt werden, bewirken, dass der Prozessor ein Verfahren nach einem der Ansprüche 1 bis 8 durchführt. 11. Computerlesbares Medium, das Befehle speichert, die, wenn sie durch einen

Prozessor ausgeführt werden, bewirken, dass der Prozessor ein Verfahren nach einem der Ansprüche 1 bis 8 durchführt.