Beschreibung
Vorrichtung und Verfahren zur positionsgenauen Überlagerung des realen Blickfeldes
Augmented Reality, erweiterte Realität, ist eine Form der Mensch-Technik-Interaktion, die dem Menschen z. B. über eine Datenbrille Informationen in sein Sichtfeld einblendet und damit die von ihm wahrgenommene Realität erweitert. Dieses geschieht kontextabhängig, d. h. passend zum und abgeleitet vom betrachteten Objekt, z. B. einem Bauteil, einem Werkzeug, einer Maschine oder zu seinem Standort. Beispiel hierfür kann ein Sicherheitshinweis während eines Montage-/Demontagepro- zesses sein.
Um diese virtuelle Erweiterung des Blickfeldes positionsgenau zu erreichen, werden Trackingverfahren eingesetzt. Diese können sowohl aus Hard- als auch Software bestehen. Dabei kommen optische, inertiale, akustische, magnetische oder weitere Verfahren zum Einsatz. Für die Darstellung der Informationen werden zusätzliche, am Körper getragene Geräte benötigt. Diese Geräte dienen der Informationsbereitstellung und über eine Empfangs— und Sendeeinrichtung wird die Kopplung zu Unternehmensdatenquellen realisiert. Für die Darstellung der Informationen wird ein am Kopf getragenes Display verwendet.
Diese Geräte können in den Anwendungsdomänen produzierende Industrie, Medizin oder im Konsumerbereich eingesetzt werden. In der produzierenden Industrie können Anwendungen von einfa- chen Bedien- und Beobachtungsprozessen bis hin zu komplexen Servicetätigkeiten unterstützt werden. Bei Operationen, Untersuchungen und Behandlungen im medizinischen Umfeld dienen 'solche Verfahren und Geräte dem Benutzer zur Verbesserung der Arbeitsqualität. Im Konsumerbereich können Anwendungen wie z.B. Navigation von Personen, Informationsbreitstellung etc. realisiert werden.
Für die Bestimmung der Benutzerposition und dessen Blickrichtung, welche für eine positionsgenaue Überlagerung notwendig sind, kommen heute Trackingverfahren zum Einsatz. Diese Verfahren haben für sich genommen Vorteile aber auch Nachteile. So kommt ein optisches Verfahren ohne zusätzliche Instrumentierung aus, benötigt dafür aber sehr viel Rechenleistung, welche derzeit nicht durch ein industrietaugliches mobiles System bereitgestellt werden kann. Inertiale Systeme verfügen über sehr gute Echtzeitfähigkeit, wohingegen solche Verfahren nur relative Bewegungen des Benutzers erfassen können. Magnetische Verfahren sind anfällig gegenüber magnetischen Feldern, so dass in industriellen Umgebungen aufgrund der vorhandenen Maschinen und der elektrischen Antriebe solche Verfahren gestört werden. Ebenso können aufgrund der Geräusch— kulisse in einer Produktionshalle akustische Verfahren nur bedingt zum Einsatz kommen.
Diese unterschiedlichen Verfahren werden bisher fast ausschließlich alleine für sich betrachtet. Erste Ansätze gibt es bei der Kombination dieser Verfahren (z.B. inertial mit akustisch) . Diese Ansätze sind aber aufgrund der aufwendigen Instrumentierung der Umgebung für industrielle, medizinisc e oder Konsumer-Anwendungen nicht geeignet .
Für die Überlagerung der Informationen mit dem realen Sichtfeld kommen heute am Kopf getragene Displays, so genannte Head-Mounted-Displays, zum Einsatz. Zur Erfassung der Position wird bei einem optischen Tracking-Verfahren eine Kamera benötigt, bei einem intertialen oder akustischen Verfahren werden hierzu Sensoren benötigt. Um beide Hände beim Einsatz eines solchen Systems frei zur Erfüllung der Aufgabe zu haben, wird eine Sprachsteuerung inkl. Sprachausgabe benötigt. Dieses wird über ein Mikrophon und ein Kopfhörer realisiert .
In heute zur Verfügung stehenden Systemen werden diese einzelnen Komponenten separat an ein Trägersystem angebaut. Hierdurch entstehen erhebliche Nachteile hinsichtlich Ergono-
mie und damit hinsichtlich der Akzeptanz des Benutzers. Dieses bedeutet, dass alle Komponenten mittels Kabel mit dem VerarbeitungsSystem gekoppelt werden müssen, um Daten zu empfangen, Daten bereitzustellen oder um die Energieversorgung sicher zu stellen. Durch diese umständliche Verkabelung kann nicht von einem ganzheitlichen Ansatz gesprochen werden.
Weiter wird die Verarbeitung zum Tracking zentral auf einer Verarbeitungseinheit abgewickelt . Durch diesen Ansatz wird diese Einheit mit Operationen, wie z.B. der Binarisierung des Videobildes, Komprimierung der Bilddaten, Berechnung von Po- sitions- und Blickrichtungsdaten etc., belastet, so dass für das eigentliche Tracken und dem nachgelagerten Darstellen der virtuellen Informationen weniger Rechenleistung zur Verfügung steht. Die Daten weiterer angekoppelter Sensoren müssen auf dieser zentralen Verarbeitungseinheit mit dem Ergebnis der anderen Verfahren verschmolzen werden. Durch diese zentralisierte Verarbeitung auf einer Verarbeitungseinheit kann es zu Engpässen während der Verarbeitung kommen.
Wird versucht, die zentrale Verarbeitungseinheit mit den am Kopf getragene Geräte per Funk zu verbinden, entsteht bei analoger Übertragung eine zu große Belegung der Frequenzbandbreite, was nur sehr wenige Geräte in einer Umgebung/Halle/ Raum zulassen würde. Bei der Digitalisierung und Komprimierung der Signale verringert sich die ursprüngliche Signalqualität (Bild, Ton...) und entsteht eine Latenzzeit auf dem Weg (zur zentralen Verarbeitungseinheit und zurück) , die für den Benutzer unerträglich wird.
Die Aufgabe der vorliegenden Erfindung ist daher, ein System sowie ein Verfahren anzugeben, welches eine Verarbeitung und Darstellung der durch verschiedene Erfassungsmittel erfassten Daten vor Ort für einen Anwender ermöglicht .
Diese Aufgabe wird erfindungsgemäß durch die Merkmale des Patentanspruchs 1 gelöst. Die Aufgabe wird weiterhin durch die Merkmale des nebengeordneten Patentanspruchs 9 gelöst.
Der Erfindung liegt die Erkenntnis zugrunde, dass verschiedene Geräte zur Positions- und Blickrichtungserfassung, zur Darstellung der Informationen und zur Sprachein- und -ausgäbe integriert in einer Einheit am Kopf getragen werden. Dort werden die aufgenommenen Daten durch vorarbeitende Einheiten passend zu dem Benutzerkontext analysiert, kombiniert und transformiert. Es entstehen nur ganz geringe Daten, die ohne Latenzzeit an eine mobile Recheneinheit per Funk weitergeschickt werden, wo sie dann genutzt werden um eine Überlagerung zu berechnen. Die kabellose Verbindung verbessert die Ergonomie.
Dadurch dass Sensordaten vorverarbeitet werden, werden die Recheneinheiten entlastet . Eine frühzeitige Verschmelzung der Positions- und Blickrichtungsdaten erleichtert die Verarbei- tung, summiert Vorteile, minimiert Nachteile und liefert insgesamt verbesserte Ergebnisse. Diese verbesserten Ergebnisse bewirken eine Steigerung der Genauigkeit bei der positionsge— nauen Überlagerung des realen Blickfeldes, aber auch eine erhebliche Steigerung der Effizienz und Reaktionszeit des Ge- samtsystems gegenüber einem System mit nur einem Verfahren zur Positions- und Blickrichtungserkennung. Die Flexibilität des Systems erlaubt weiterhin die reduzierten Sensordaten an weitere zentrale Recheneinheiten zu senden, die Mehrwertdienste anbieten. Diese können beispielsweise Liefern von Kontextdaten und Konfigurationen für die am Kopfgetragenen
Geräte, die die Genauigkeit verbessern oder gar diese initialisieren.
Hierdurch können die Vorteile der einzelnen Verfahren zur Po- sitionsbestimmung ausgenutzt werden und das Gesamtergebnis erheblich verbessert werden. Weiter werden durch die kabellose Verbindung zur zentralen Recheneinheit wesentliche Vor-
teile bei der Ergonomie und damit bei der Akzeptanz des Benutzers erreicht.
Ziel ist eine möglichst genaue Bestimmung der Benutzerposi- tion sowie dessen Blickrichtung. Die Genauigkeit dieser Verarbeitungsschritte entscheidet später über die Qualität der positionsgenauen Überlagerung des realen Blickfeldes. Dieser Aufbau hat den Vorteil, dass durch die dezentrale Vorverarbeitung der Daten die zentrale Recheneinheit entlastet wird. Durch spezielle Prozessoreinheiten wird die Recheneinheit weiter entlastet.
Der entscheidende Vorteil dieses Systems ist der ganzheitliche, integrative Ansatz. Eine frühzeitige Kopplung der Daten zur Positions- und Blickrichtungsbestimmung bewirkt eine Verbesserung der Genauigkeit der Positionsbestimmung. Hierdurch können die verfahrensspezifischen Vorteile der einzelnen Verfahren gebündelt und die Nachteile minimiert werden. Durch die damit verbundene Reduzierung der zu übertragenden Daten, bleibt die Echtzeitfähigkeit trotz verteilter Verarbeitung erhalten. Durch spezialisierte Chiplösungen (Controller, DSP) kann sogar das System wirtschaftlicher gebaut werden, als mit Hilfe von Standard Rechnerstrukturen. Weiter besteht die Möglichkeit rechenintensive Verarbeitungsschritte auf eine zent- rale Recheneinheit auszulagern. Durch den integrativen Ansatz der am Kopf getragenen Geräte kann Gewicht eingespart und damit der Tragekomfort verbessert und die kooperative Verarbeitung der entstehenden Daten unterstützt werden.
Weitere vorteilhafte Ausführungen der Erfindung sind in den Unteransprüchen angegeben.
Im Folgenden ist die Erfindung anhand des in der Figur dargestellten Ausführungsbeispiels näher beschrieben und erläu- tert :
Die Figur gibt einen Überblick über den Aufbau der Geräte und Verfahren zur positionsgenauen Überlagerung eines realen Blickfeldes. Dabei stehen die kabellosen Verbindungen zwischen den einzelnen Komponenten und die Vorverarbeitung der aufgenommenen Daten an der Videokamera bzw. an den Sensoren im Vordergrund.
Dem Benutzer werden mobile am Körper bzw. am Kopf getragene Geräte 1 zur Verfügung gestellt, die sich dadurch auszeich- • nen, dass die einzelnen Komponenten 2, 3, 5 und 7 aufeinander abgestimmt sind. Das bedeutet, dass zur Erfüllung der Aufgabe (Positions- und Blickrichtungsbestimmung, Sprachsteuerung, -ausgäbe etc.) Daten durch die Verarbeitungseinheiten 4, 6, 8 und 10 vorverarbeitet und untereinander ausgetauscht werden können. Weiter bedeutet dies, dass die benötigten Einzelkomponenten zu einer integrierten Komplettlösung gebracht werden.
Die am Kopf getragene Einheit beinhaltet dabei die Visuali- sierungseinheit 2, welche über eine drahtlose Verbindung 9 mit der Verarbeitungseinheit 12 verbunden ist. Diese Visualisierungseinheit ermöglicht die Wahrnehmung der realen Umgebung des Benutzers und zusätzlich die positionsgenaue Überlagerung von Informationen wie z.B. einfache Texte, Pfeile, Kreise, aber auch komplexe Geometrien.
Die optische Positions- und Blickrichtungserkennung wird mittels einer Kamera 3 durchgeführt. Die Videodaten werden auf einer lokalen Verarbeitungseinheit 4 vorverarbeitet. Dieses kann zum Beispiel die Komprimierung der Bilddaten, eine Bina- risierung des Bildes, aber auch Daten zur Bestimmung der Position und Blickrichtung sein.
Zusätzliche Sensoren, wie z.B. inertial, magnetisch, akus- tisch etc. 5 inkl. einer Datenvorverarbeitung über eine entsprechende Verarbeitungseinheit 6 werden in das Gerät 1 integriert. Solche Sensoren können Teile von Daten oder kom-
plette Daten zur Positions- und Blickrichtungserkennung liefern.
Zur Steuerung der Arbeitsaufgabe und zum zusätzlichen aufneh- men von Informationen über eine Sprachausgabe wird ein Mikrophon und ein Kopfhörer 7 angebracht . Die Vorverarbeitung der aufgenommenen Signale geschieht über die Verarbeitungseinheit 8. Zur frühzeitigen Verschmelzung dieser Daten wird eine übergreifende Verarbeitungseinheit 10 benötigt. Diese führt die entstehenden Daten zusammen und ermöglicht das frühzeitige Verschmelzen der Daten zur Positions- und Blickrichtungserkennung, oder eine Weiterverarbeitung für die Sprachsteuerung und -ausgäbe.
Die am Körper getragene Recheneinheit 12 ist über eine drahtlose Verbindung 11 mit der am Kopf getragenen Einheit 2-10 verbunden. Über die Verarbeitungseinheit 13 werden die vorverarbeiteten Daten weiterverarbeitet. Dieses kann mit speziellen Prozessoreinheiten 14 unterstützt werden. Weitere Verarbeitungsprozesse können über die drahtlose Verbindung 11 auch durch externe Recheneinheiten 15, 16 durcrigeführt werden.
Es können weitere Verarbeitungsschritte ausgegliedert werden. Durch die Reduzierung der Anforderungen für die zentrale, mobile Recheneinheit 12 kann diese kleiner und leichter ausgeprägt werden, oder das Freiwerden von Rechenleistung anderweitig, z.B. für weitere Optimierungsschritte bei der Positions- und Blickrichtungsbestimmung oder für die Sprachsteue- rung, genutzt werden.
Die Verarbeitungseinheiten 4, 6, 8 und 10 beeinflussen sich gegenseitig, so dass die Konfigurationen/Parameter in einem Regelkreis verbessert werden. Beispielsweise sammelt die Ver- arbeitungseinheit 10 die Daten aus 6 und beeinflusst damit die Parameter von 4. Das Verfahren läuft analog zum menschlichem Gehirn: 3 ist hier das Auge, 4 ist das Seb-zentrum, 5 ist
das Gleichgewichtsorgan im Ohr, 6 ist das Gleichgewichtszentrum und 10 ist das übergreifende "Entscheidungszentrum".
Die Lage aus dem Gleichgewicht 5 wird vom Sehzentrum 3 be- nutzt, um die Objekte im Blickfeld richtig zu erkennen.
Eine externe Recheneinheit 15 kann über eine drahtlose Verbindung 17 die Verarbeitung auf der mobilen Recheneinheit 12 unterstützen. Hierzu werden die ankommenden Daten an die Verarbeitungseinheit 16 übergeben und nach der Verarbeitung wie- der an die am Körper getragene Einheit 12 übertragen. Dieses ist insbesondere bei besonders aufwendigen Verarbeitungen sinnvoll, da stationäre Systeme eine wesentlich höhere Verarbeitungsgeschwindigkeit aufweisen .
Zur Unterstützung der durchzuführenden Tätigkeiten können die Daten an eine entfernte Person 18 transferiert werden. Diese kann über Interaktionen die positionsgenauen Überlagerungen der mobilen Einheit manipulieren und damit bei den durchzuführenden Tätigkeiten Hilfestellungen geben.
Ein Szenario für eine mögliche Nutzung der AR-Geräte ist wie folgt :
1. Der Benutzer bewegt sich in einer Umgebung z.B. einer Halle.
2. Er steht vor einer gestörte/defekte Maschine. Dabei trägt der die AR-Geräte 1 wie es in der Figur dargestellt ist.
3. Die Vorverarbeitung 4 stellt fest, dass keine Konfiguration geladen ist. Diese gestattet eine Blickrichtung/ Position in der Umgebung zu berechnen. Die Vorverarbeitung 4 holt ein Bild aus der Kamera 3, komprimiert es und schickt es zu der mobilen Recheneinheit 12 via 10, 11 und 13.
4. Eine Zentrale Recheneinheit 15 empfängt das Bild und sucht den Kontext anhand des gespeicherten Umgebungswissens. Sind die (Tracking-) Daten zur Maschine bzw. Umgebung gefunden, Schickt sie auf dem umgekehrten Weg die Konfigurationen und Initialisierungen für die Vorverarbeitungseinheiten 13, 10, 4, 6 und 8. Bei der Kamera sind es Raumkoordinaten der Merkmale der Maschine, die mit Computer Vision-Algorithmen extrahierbar sind (Bsp. etwa 50 Punkte im Raum) . Diese Merkmale versucht die vorverar- beitungseinheit 4 in den Videobilder zu finden, um letztendlich die Position des Betrachters/Benutzers zu berechnen. Die Vorverarbeitung 8 bekommt spezielle Parameter, die eine Codierung und Erkennung von Audiodaten in der passenden Umgebung (Geräusche, Grundlärmpegel) optimal gestatten.
5. Die Vorverarbeitungseinheiten 4, 6, und 8 liefern ab dann ihre stark reduzierten Daten an die Verarbeitungseinheit 10, die wiederum die Kombination durchführt und neue Pa- rameter berechnet (im Sinne von Regelkreisen) an diese Verarbeitungseinheiten 4, 6, und 8 zurückschickt. Als Beispiel für eine Reduktion ist zu erwähnen, dass ein Kamerabild in 4 in der Größe von beinah 1 MByte eingespeist wird. Die Verarbeitungseinheiten 4 und 10 berech- nen letztendlich nur ganz wenige Bytes als Kopfposition (beispielsweise einen Vector aus 6 Zahlen ä 4 Bytes) .
6. Die mobile Recheneinheit 12 empfängt über die Drahtlose Verbindung 11 und 9 die Kopfposition des Benutzers und kombiniert sie mit den Kontextdaten, die aus der externen Rechnereinheit 15 stammen, um die richtige Überlagerung im Sichtfeld zu generieren. Das entstanden Bild wird dann drahtlos an das Display 2 geschickt, wo es dem Benutzer in Form von augmentierter Information über eine Daten- brille zur Verfügung gestellt wird.
Wird eine weitere Person 18 hinzugezogen, dann fordert die externe Recheneinheit 15 von der Verarbeitungseinheiten 4 und 10 in regelmäßigen Abstand ein Bild aus der Kamera. Diese Informationen müssen nicht in einer hohen Frequenz geliefert werden (1 Bild/s ist ausreichend) und belasten damit die anderen Echtzeitsignale (Audio, Tra- ckingposition) nur geringfügig. Der Grund für die niedrige Rate ist an dieser Stelle die Tatsache, dass die Übertragung über z.B. Tele onleitung/GSM-Netz stattfin- det.