WO2008061490A2

WO2008061490A2 - Anordnung und verfahren zur aufnahme und wiedergabe von bildern einer szene und/oder eines objektes

Info

Publication number: WO2008061490A2
Application number: PCT/DE2007/001965
Authority: WO
Inventors: Alexander Schmidt; Jens Meichsner; Ronny Billert; Torma Ferenc; David Reuss; Daniel FÜSSEL
Original assignee: Visumotion Gmbh
Priority date: 2006-11-22
Filing date: 2007-10-29
Publication date: 2008-05-29
Also published as: US8330796B2; EP2800350A3; EP2106657A2; EP2095625A1; TWI347774B; US20090315982A1; EP2800350A2; DE102006055641A1; DE102006055641B4; US20100134599A1; WO2008061490A3; TW200824427A; WO2008064617A1; TW200841704A

Abstract

Die Erfindung betrifft eine Anordnung und ein Verfahren zur Aufnahme und Wiedergabe von Bildern einer Szene und/oder eines Objektes. Sie sind insbesondere zur räumlich wahrnehmbaren Wiedergabe der aufgenommenen Bilder geeignet. Die Aufgabe, eine neue Möglichkeit aufzuzeigen, durch die es mit möglichst geringem Aufwand gelingt, Aufnahmen von realen Szenen und/oder Objekten zu erstellen, um sie nachfolgend dreidimensional in zwei oder mehr Ansichten autostereoskopisch wiederzugeben, wird erfindungsgemäß gelöst, indem mindestens eine Hauptkamera eines ersten Kameratyps zur Aufnahme von Bildern, mindestens eine Satellitenkamera eines zweiten Kameratyps zur Aufnahme von Bildern und eine den Kameras nachgeordnete Bildkonvertierungseinrichtung und ein 3D-Bildwiedergabegerät vorhanden sind, wobei sich die beiden Kameratypen in mindestens einem Parameter unterscheiden und insgesamt mindestens drei Kameras vorhanden sind. Es wird außerdem ein Verfahren zur Übertragung von 3D-lnformationen angegeben.

Description

Anordnung und Verfahren zur Aufnahme und Wiedergabe von Bildern einer Szene und/oder eines Objektes

Die Erfindung betrifft eine Anordnung und ein Verfahren zur Aufnahme und Wiedergabe von Bildern einer Szene und/oder eines Objektes. Sie sind insbesondere zur räumlich wahrnehmbaren Wiedergabe der aufgenommenen Bilder geeignet. Fernerhin betrifft die Erfindung ein Verfahren zur Übertragung von räumlich wahrnehmbaren Bildern.

Zum Aufnehmen von 3D-Bildinformationen gibt es momentan im Wesentlichen drei grundlegend verschiedene Verfahren und die dazugehörigen Anordnungen: Erstens, die klassische Stereo-Kamera, bestehend aus zwei gleichartigen Kameras für jeweils ein linkes und ein rechtes Bild. Für eine hochauflösende Wiedergabe sind hier jedoch auch hochauflösende Kamerasysteme notwendig. Für Mehrkanal-Systeme wird eine Interpolation der Zwischenansichten notwendig. Dabei werden Artefakte vor allem in den mittleren Ansichten sichtbar.

Zweitens, die Verwendung eines Multiview-Kamera-Systems. Der Vorteil hier gegenüber der Stereo-Kamera ist die korrekte Bildwiedergabe für Mehrkanal-Systeme. Es werden insbesondere keine Interpolationen notwendig. Nachteilig ist jedoch der hohe Aufwand, der betrieben werden muss, um eine exakte Ausrichtung der -beispielsweise acht- Kameras zueinander zu realisieren. Der erhöhte Kostenfaktor durch die Verwendung mehrerer Kameras, die darüber hinaus weitere Probleme nach sich ziehen, wie unterschiedliche Weiß/Farb/Geometriewerte, die wieder entsprechend ausgeglichen werden müssen, ist nachteilig. Als nachteilig ist es ebenfalls anzusehen, dass bei diesem Verfahren eine extrem hohe Datenrate bewältigt werden muss.

Drittens, die Verwendung einer Tiefen-Kamera. Hierbei kommt eine Farbkamera gemeinsam mit einem Tiefensensor, der die -in der Regel- zyklopische Tiefen information der aufzunehmenden Szene registriert, zum Einsatz. Neben dem, dass ein Tiefensensor relativ teuer ist, ist nachteilig, dass diese oftmals nicht sehr exakt arbeiten und/oder kein vertretbarer Kompromiss zwischen Genauigkeit und Geschwindigkeit erreicht wird. Eine generelle Extrapolation wird notwendig, wobei insbesondere in den äußeren Ansichten Artefakte nicht auszuschließen sind und generell Verdeckungsartefakte nicht kaschiert werden können.

Der Erfindung liegt die Aufgabe zugrunde, eine neue Möglichkeit aufzuzeigen, durch die es mit möglichst geringem Aufwand gelingt, Aufnahmen von realen Szenen und/oder Objekten zu erstellen, um sie nachfolgend dreidimensional in zwei oder mehr Ansichten räumlich wahrnehmbar wiederzugeben. Weiterhin ist es Aufgabe der Erfindung, ein geeignetes Verfahren zur Übertragung von räumlich wahrnehmbaren Bildern aufzuzeigen.

Erfindungsgemäß wird die Aufgabe durch eine Anordnung zur Aufnahme von Bildern einer Szene und/oder eines Objektes und zu deren räumlich wahrnehmbarer Wiedergabe gelöst, welche folgende Komponenten umfasst:

- mindestens eine Hauptkamera eines ersten Kameratyps zur Aufnahme von Bildern,

- mindestens zwei Satellitenkameras eines zweiten Kameratyps zur Aufnahme von Bildern, wobei sich die Kameratypen in mindestens einem Parameter unterscheiden,

- eine den Kameras nachgeordnete Bildkonvertierungseinrichtung zur Übernahme der Ausgangsbilddaten und zur Aufbereitung derer, wobei in der

Bildkonvertierungseinrichtung neben anderen Prozessen eine Tiefen- oder Disparitätserkennung durchgeführt wird, wobei lediglich Bilder, die von Kameras des gleichen Kameratyps aufgenommen wurden (bevorzugt, die von den mindestens zwei Satellitenkameras aufgenommen wurden), für eine Tiefen- oder Disparitätsermittlung herangezogen werden, nicht aber die restlichen Bilder, und

- ein mit der Bildkonvertierungseinrichtung in Verbindung stehendes SD- Bildwiedergabegerät zur hilfsmittelfrei räumlich wahrnehmbaren Wiedergabe der bereitgestellten Bilddaten, wobei das 3D-Bildwiedergabegerät mindestens zwei Ansichten der Szene und/oder des Objektes wiedergibt.

Letztgenanntes 3D-Bildwiedergabegerät kann jedoch auch 3, 4, 5, 6, 7, 8, 9 oder sogar noch mehr Ansichten gleichzeitig oder im zeitlichen Mittel wiedergeben. Gerade bei diesen letztgenannten, den so genannten „Multi-View"-artigen 3D- Bildwiedergabegeräten mit 4 oder mehr dargestellten Ansichten kommen die besonderen Vorteile der Erfindung zum Tragen, nämlich dass mit verhältnismäßig wenigen (z. B. drei oder vier) Kameras dennoch insgesamt mehr Ansichten bereitgestellt werden können, als die Anzahl der Kameras beträgt.

Haupt- und Satellitenkamera unterscheiden sich im Allgemeinen, jedoch nicht zwingend, durch ihre Qualität. Die Hauptkamera ist dabei meist eine sogenannte High- Quality-Kamera, wobei Satellitenkameras zum Einsatz kommen können, die sich durch geringere Qualität auszeichnen (z. B. Industriekameras) und damit unter anderen Parametern meist -aber nicht zwingend- auch eine niedrigere Auflösung aufweisen. In diesem Falle also hat der zweite Kameratyp eine geringere Auflösung als der erste Kameratyp.

Die beiden Kameratypen können sich auch (mindestens) durch den eingebauten Bildaufnahmechip unterscheiden.

Der Vorteil der Erfindung besteht im Wesentlichen darin, dass neben dem klassischen Einsatz eines Stereo-Kamerasystems, hier bestehend aus im Wesentlichen zwei identischen hochauflösenden Kameras, ein Drei-Kamera-System, vorzugsweise bestehend aus einer zentralen High-Quality-Kamera und zwei zusätzlichen Kameras mit niedriger Auflösung, die links- bzw. rechts der Hauptkamera angeordnet sind, verwendet wird. Damit ist beispielweise die Hauptkamera zwischen den Satellitenkameras angeordnet.

Die Hauptkamera ist also bevorzugt räumlich zwischen den Satellitenkameras angeordnet. Die Kameras sind dabei in den üblichen Grenzen bzgl. Abstand und Ausrichtung (parallele Ausrichtung oder auf einen Fokuspunkt) variierbar. Die Verwendung weiterer Satellitenkameras kann von Vorteil sein, da insbesondere bei der nachfolgenden Aufbereitung der Bilddaten Fehlinterpretationen weiter reduziert werden können. Je nach Ausgestaltung der Erfindung kann es daher von Vorteil sein, dass - genau eine Hauptkamera und zwei Satellitenkameras vorhanden sind („Variante

1 +2"),

- genau eine Hauptkamera und drei Satellitenkameras vorhanden sind („Variante 1 +3"), oder - genau eine Hauptkamera und fünf Satellitenkameras vorhanden („Variante 1 +5") sind.

Andere Ausgestaltungen sind selbstverständlich im Rahmen des erfindungsgemäßen Gedankens möglich, etwa auch die Verwendung mehrerer Hauptkameras oder von noch weiteren Satellitenkameras.

Alle Kameras können sowohl parallel als auch auf einen Punkt ausgerichtet sein. Ebenfalls möglich ist es, dass nicht alle auf einen Punkt ausgerichtet sind (Konvergenzwinkel). Die optischen Achsen der Kameras können ebenfalls sowohl in einer als auch in unterschiedlichen Ebenen liegen, wobei die Objektivmittelpunkte in einer Linie oder im Dreieck (bevorzugt gleichschenklig oder gleichseitig) angeordnet sein sollten. Für besondere Anwendungsfälle können die Objektivmittelpunkte der Kameras auch jeweils ungleiche Abstände zueinander haben (womit die Objektivmittelpunkte ein unregelmäßiges Dreieck bilden würden). Es ist außerdem möglich, dass sich sogar alle (mindestens drei) Kameras (also alle vorhandenen Haupt- und Satellitenkameras) voneinander in mindestens einem Parameter, beispielsweise der Auflösung, unterscheiden. Eine Synchronisation der Kameras bzgl. Zoom, Blende, Fokus etc. kann ebenso wie bezüglich der einzelnen Frames (d. h. möglichst frame-genaue Synchronisation bei der Aufnahme) erfolgen. Die Kameras können fest oder beweglich zueinander angeordnet werden, wobei eine automatische Einstellung des Basisabstandes der Kameras ebenso wie der Konvergenzwinkel der Kameras durchführbar ist.

Von Vorteil können Adaptersysteme sein, die ein erleichtertes Anbringen, insbesondere der Satellitenkameras, an die Hauptkamera ermöglichen. Damit können gewöhnliche Kameras nachträglich als 3D-Kamera umgerüstet werden. Es ist aber ebenso denkbar, bestehende Stereokamerasysteme durch eine zusätzliche Hauptkamera zu erfindungsgemäßen 3D-Kameras umzurüsten.

Fernerhin können im Strahlengang -bevorzugt vor den Objektiven der verschiedenen Kameras- zusätzliche optische Elemente, z. B. ein oder mehrere teildurchlässige Spiegel, vorhanden sein. Damit ist es zum Beispiel möglich, zwei Satellitenkameras jeweils 90 Grad gedreht zur Hauptkamera anzuordnen, so dass die Kamerakörper aller dreier Kameras derart angeordnet sind, dass die Objektivmittelpunkte horizontal näher aneinander stehen, als wenn alle drei Kameras unmittelbar nebeneinander angeordnet wären. Dann nämlich würde die Ausdehnung der Kamerakörper einen bestimmten, höheren Abstand der Objektivmittelpunkte erzwingen. In dieser Konstellation mit der 90 Grad-Drehung der beiden Satellitenkameras würde ein teildurchlässiger Spiegel im Winkel von etwa 45 Grad zum Mittelpunktstrahl aus den Objektiven der Satellitenkameras in Reflexionsstellung folgen, während der gleiche Spiegel im Winkel von ebenfalls etwa 45 Grad zum Mittelpunktstrahl aus dem Objektiv der Hauptkamera in Transmissionsstellung folgt.

Bevorzugt bilden die Objektivmittelpunkte der Hauptkamera und mindestens zweier Satellitenkameras ein gleichschenkliges Dreieck, beispielsweise bei der Variante „1 +2". Für die Variante „1 +3" kann es vorteilhaft sein, dass die Objektivmittelpunkte der drei Satellitenkameras ein Dreieck, bevorzugt ein gleichschenkliges Dreieck bilden. Dann sollte der Objektivmittelpunkt der Hauptkamera innerhalb des besagten Dreiecks angeordnet sein, wobei das Dreieck als seine Schenkel einschließend angesehen wird. Darüber hinaus ist es in der Variante „1 +3" möglich, dass eine Satellitenkamera und die Hauptkamera derart optisch zueinander angeordnet sind, dass sie beide jeweils ein Bild auf im Wesentlichen der gleichen optischen Achse aufzeichnen, wobei hierzu bevorzugt mindestens ein teildurchlässiger Spiegel zwischen beiden Kameras angeordnet ist. Hierbei sind bevorzugt die zwei weiteren Satellitenkameras auf einer Geraden oder in einem Dreieck mit der zu der Hauptkamera assoziierten Satellitenkamera angeordnet. Andere Ausgestaltungen können realisiert werden, so etwa in einer Variante „1+4" ein Viereck (z. B. Quadrat) von 4 Satellitenkameras mit einer Hauptkamera innerhalb des Vierecks (z. B. in dessen Flächenmitte) oder gar in einer Variante „1 + n" ein Kreis aus n = 5 oder mehr Satellitenkameras.

Vorteilhaft erstellt die Bildkonvertierungseinrichtung mindestens drei Ansichten der aufgenommenen Szene bzw. des aufgenommenen Objektes, wobei in der Bildkonvertierungseinrichtung neben den erkannten Tiefen- oder Disparitätswerten das von der mindestens einen Hauptkamera aufgenommene Bild sowie mindestens zwei weitere Bilder von den Satellitenkameras, nicht notwendigerweise aber aller vorhandenen Kameras, für die Erstellung der besagten mindestens drei Ansichten verwendet wird. Dabei kann durchaus eine der mindestens drei erstellten Ansichten immer noch einem der Eingangsbilder entsprechen. Im einfachsten Falle verwendet die Bildkonvertierungseinrichtung zur Erstellung der Ansichten sogar nur das von der mindestens einen Hauptkamera aufgenommene Bild und die zugehörige Tiefeninformation.

Die bzw. alle Hauptkamera(s) und alle Satellitenkameras nehmen bevorzugt frequenzgenau mit einer Toleranz von maximal 100 Bilder je 24 Stunden synchronisiert auf.

Für besondere Ausgestaltungen kann es außerdem sinnvoll sein, die Satellitenkameras als Schwarz-Weiß-Kameras auszubilden und bevorzugt den von ihnen aufgenommenen Bildern hernach automatisch einen Farbwert zuzuweisen.

Die Aufgabe wird auch durch ein Verfahren zur Aufnahme und Wiedergabe von Bildern einer Szene und/oder eines Objektes gelöst, welches die folgenden Schritte umfasst:

- Erstellung von mindestens einem n-Tupel von Bildern, mit n>2, wobei mindestens zwei Bilder des n-Tupels voneinander verschiedene Auflösungen aufweisen,

- Übernahme der Bilddaten in eine Bildkonvertierungseinrichtung, in der nachfolgend eine Rektifizierung, eine Farbjustierung, eine Tiefen- oder Disparitätserkennung und anschließende Generation weiterer Ansichten aus n oder weniger als n Bildern des besagten n-Tupels und den Tiefen- bzw. Disparitätserkennungswerten durchgeführt wird, wobei mindestens eine Ansicht generiert wird, die keinem der erstellten Bilder des n-Tupels exakt entspricht, und wobei in der Bildkonvertierungseinrichtung für die Tiefen- oder Disparitätserkennung lediglich Bilder des n-Tupels mit ein- und derselben Auflösung herangezogen werden, - anschließend eine Kombination von mindestens drei verschiedenen Ansichten oder Bildern entsprechend der Zuordnungsvorschrift des 3D-Displays eines SD- Bildwiedergabegerätes zur hilfsmittelfrei räumlichen Darstellung erstellt wird, und

- abschließend die Darstellung des kombinierten 3D-Bildes auf dem 3D-Display durchgeführt wird. Für die Tiefen- oder Disparitätserkennung werden die Bilder mit derjenigen gleichen Auflösung herangezogen, die die niedrigste Gesamtzahl von Pixeln, verglichen mit allen anderen vorhandenen Auflösungen, aufweist. W

Die Tiefenerkennung und anschließende Generation weiterer Ansichten aus dem n- Tupel von Bildern und den Tiefen- bzw. Disparitätserkennungswerten kann beispielsweise durch den Aufbau einer Stackstruktur und eine Projektion der Stackstruktur auf eine gewünschte Ansicht durchgeführt werden. Der Aufbau einer Stackstruktur kann auch durch sonstige anwendbare Tiefen- oder Disparitätserkennungsalgorithmen ersetzt werden, wobei dann die erkannten Tiefenbzw. Disparitätswerte für die Erstellung von gewünschten Ansichten eingesetzt werden. Eine Stackstruktur kann allgemein einer Schichtstruktur von graphischen Elementen in unterschiedlichen (virtuellen) Ebenen entsprechen. Bei der Verwendung eines 3D-Kamerasystems, bestehend aus Kameras unterschiedlicher Kameratypen mit unterschiedlichen Bildauflösungen, ist es möglich, dass nach Übernahme der Bilddaten in die Bildkonvertierungseinrichtung zunächst eine Größenanpassung vorgenommen wird. Im Ergebnis dessen liegen Bilder mit jeweils der gleichen Auflösung vor. Diese kann der höchsten Auflösung der Kameras entsprechen, sie ist jedoch bevorzugt gleich der der niedgrigstauflösenden Kamera(s). Daran anschließend erfolgt die Rektifizierung, d. h. eine geometrische Entzerrung der Kamerabilder (Ausgleich von möglichen Linsenverzerrungen, Kameraverdrehungen, Zoomdifferenzen etc.) wird vorgenommen. Die Größenanpassung kann auch im Rahmen des Rektifizierungsprozesses erfolgen. Unmittelbar daran anschließend erfolgt eine Farbjustierung, beispielsweise nach Lehre der Schriften „Joshi, N. Color Calibration for Arrays of Inexpensive Image Sensors. Technical Report CSTR 2004-02 3/31/04 4/4/04, Stanford University, 2004" und A. LUe and G. Welch. " Ensuring color consistency across multiple cameras" , ICCV 2005. Es werden insbesondere die Farb- /Helligkeitswerte der Kamerabilder angeglichen, so dass ein einheitliches oder zumindest ein vergleichbares Niveau zu verzeichnen ist. Für die nunmehr vorliegenden Bilddaten wird zur Tiefenerkennung die Stackstruktur aufgebaut. Dabei werden die Eingangsbilder, und zwar lediglich die Bilder des n-Tupels mit ein- und derselben Auflösung, zeilenweise miteinander verglichen, indem sie im ersten Schritt übereinander gelegt werden. Der Zeilenvergleich kann unter Umständen auch schräg erfolgen, dies wird dann günstig sein, wenn die Kameras nicht horizontal zueinander angeordnet sind. Bei übereinanderliegenden Pixeln mit gleichen Farbwerten wird dieser gespeichert, wenn jedoch übereinanderliegende Pixel unterschiedliche Farbwerte aufweisen, dann wird kein Wert gespeichert. Danach werden die Zeilen gegeneinander in entgegengesetzte Richtungen in definierten Schritten (z. B. um VA oder Vi Pixel) verschoben, wobei nach jedem Schritt das Ergebnis des Vergleiches wieder gespeichert wird. Im Ergebnis liegt die dreidimensionale Stackstruktur mit den Koordinaten X, Y und Z vor, wobei X und Y den Pixelkoordinaten des Eingangsbildes entspricht, während Z den Grad der Verschiebung der Ansichten zueinander darstellt. Bei der Verwendung von zwei Kameras werden also jeweils zwei Zeilen verglichen und bei der Verwendung von drei Kameras jeweils drei Zeilen verglichen und gegeneinander verschoben. Möglich ist es, bei der Verwendung von mehreren, z. B. drei, Kameras dennoch jeweils nur zwei Zeilen miteinander zu kombinieren, wobei dann ein Abgleich der Vergleiche nochmals durchgeführt werden muss. Bei einem Vergleich von drei oder mehr Zeilen gibt es weit weniger Mehrdeutungen gegenüber dem Vergleich zwischen den zwei Zeilen lediglich zweier Eingangsbilder. Bei der sich anschließenden Optimierung der Stackstruktur geht es im Wesentlichen darum, bei mehrdeutigen Abbildungen von Bildelementen im Stack die höchst unwahrscheinlichen Kombinationen zu löschen. Dies trägt darüber hinaus zur Datenreduktion bei. Eine weitere Reduktion erhält man, indem eine Höhenprofillinie aus den verbliebenen Elementen erstellt wird, um eine eindeutige Abbildung der Farbwerte in eine diskrete Tiefebene (Z Koordinate) zu erreichen. Normalerweise schließt sich nun die Projektion der Stackstruktur auf die gewünschten Ansichten an. Dabei sollten mindestens zwei Ansichten erstellt werden, wobei eine davon immer noch einem Eingangsbild entsprechen könnte. Dies erfolgt jedoch in der Regel in Kenntnis des sich anschließenden 3D-Bildwiedergabegerätes. Die anschließende Kombination der verschiedenen bereitgestellten Ansichten entspricht der Zuordnungsvorschrift des SD- Displays.

Nach erfolgtem Aufbau der Stackstruktur oder nach den Schritten aus Anspruch 20 wird für mindestens drei Original-Bilder des n-Tupels die Tiefe ermittelt, bevorzugt in Form von Tiefenkarten. Bevorzugt werden dabei mindestens zwei in der Auflösung paarweise verschiedene Tiefenkarten erstellt.

Ferner erfolgt bevorzugt nach erfolgter Übernahme der Original-Bilder des n-Tupels und den jeweils dazugehörigen Tiefen eine Rekonstruktion durch inverse Projektion der Bilder des n-Tupels mittels Tiefenkarten in den Stackraum, so dass die Stackstruktur rekonstruiert wird, und so dass hernach hieraus wiederum durch Projektion verschiedene Ansichten erzeugt werden können. Andere Verfahren zur Erzeugung der Ansichten aus den gegebenen Bilddaten (n-Tupeln von Bildern, Tiefeninformationen) sind möglich.

Außerdem können die Original-Bilder des n-Tupels mit jeweils der dazugehörigen Tiefe an das 3D-Bildwiedergabegerät übertragen werden und dann zunächst die Rekonstruktion gemäß Anspruch 17 durchgeführt werden.

Allgemein werden die Bilder des n-Tupels beispielsweise mittels eines 3 D-Kamerasystems erstellt, z.B. durch ein Mehrfach-Kamera-System, bestehend aus mehreren einzelnen Kameras.

Alternativ können in dem vorbeschriebenen Verfahren zur Aufnahme und Wiedergabe von Bildern einer Szene und/oder eines Objektes die Bilder mittels Computers erstellt werden. Bevorzugt wird dabei zu jedem Bild jeweils eine Tiefenkarte erstellt, so dass die Schritte Rektifizierung, Farbjustierung und Tiefen- oder Disparitätserkennung entfallen können. Vorteilhaft weisen auch mindestens zwei der drei Tiefenkarten eine paarweise voneinander unterschiedliche Auflösung auf. So können in einer bevorzugten Ausgestaltung n = 3 Bilder vorgesehen sein, wobei eines die (vollfarbige) Auflösung von 192O x 1080 Pixeln und zwei die (vollfarbige) Auflösung von 1280 x 720 (oder 1024 x 768) aufweisen, während die dazugehörigen Tiefenkarten 960 x 540 bzw. 640 x 360 (oder 512 x 384) Pixel aufweisen. Das Bild mit der höheren Auflösung entspricht räumlich gesehen einer Perspektivansicht, die zwischen den Perspektivansichten der anderen beiden Bilder liegt. Das jeweils verwendete 3D-Bildwiedergabegerät kann vorzugsweise 2, 3, 4, 5, 6, 7, 8, 9 oder sogar noch mehr Ansichten gleichzeitig oder im zeitlichen Mittel wiedergeben. Gerade bei diesen letztgenannten, den so genannten „Multi-View"-artigen SD- Bildwiedergabegeräten mit mindestens 4 oder mehr dargestellten Ansichten kommen die besonderen Vorteile der Erfindung zum Tragen, nämlich dass mit verhältnismäßig wenigen (z. B. drei) ursprünglich erstellten Bildern dennoch mehr Ansichten für die räumliche Darstellung bereitgestellt werden können, als die Anzahl der ursprünglich erstellten Bilder beträgt Die weiter vorn genannte Kombination von mindestens zwei verschiedenen Ansichten oder Bildern entsprechend der Zuordnungsvorschrift des 3D- Displays eines 3D-Bildwiedergabegerätes zur hilfsmittelfrei räumlichen Darstellung kann im Übrigen auch eine zeitliche - nicht allein eine räumliche - Kombination der Ansichten beinhalten.

Ein weiterer wesentlicher Vorteil der Erfindung besteht jedoch darin, dass nach dem Optimierungsschritt der Stackstruktur die Tiefe pro Originalbild ermittelt wird. Im Ergebnis liegen die Daten in einem äußert effizienten Datenübertragungsformat vor, nämlich als n Bilder (z. B. Originalbilder oder auch Ansichten) plus n Tiefenbilder (mit vorzugsweise n = 3), so dass auch eine deutlich geringere Datenrate als bei der Übertragung sämtlicher Ansichten erzielt wird. In das 3D-Bildwiedergabegerät wären dann folgerichtig eine Einheit zur Rekonstruktion der Stackstruktur und die Einheit zur Projektion der Stackstruktur auf die gewünschte Ansicht zu integrieren, oder aber andersartige Einheiten, die die Ansichtenrekonstruktion auf andere Weise bewerkstelligen. Für die vorgenannten Schritte kann jeweils an Stelle der Tiefe auch die Disparität verwendet werden. Überdies sei angemerkt, dass eine Projektion prinzipiell auch eine reine Verschiebung mit einschließt.

Selbstverständlich können auch andere Tiefen- bzw. Disparitätserkennungsverfahren als das weiter vorn genannte eingesetzt werden, um aus dem n-Tupel von Bildern (mit n>2) die Tiefe- bzw. die Disparitäten zu erkennen und/oder daraus weitere Ansichten zu generieren. Derartige alternative Verfahren oder Teilverfahren sind beispielsweise beschrieben in den Schriften „Tao, H. and Sawhney, H., Global matching criterion and color segmentation based Stereo, in Proc. Workshop on the Application of Computer Vision (WACV2000), pp. 246-253, December 2000", "M. Lin and C. Tomasi. "Surfaces with occlusions from layered Stereo" . Technical report, Stanford University, 2002. In preparation.", „C. Lawrence Zitnick, Sing Bing Kang, Matthew Uyttendaele, Simon Winder, Richard Szeliski, " High-quality video view interpolation using a layered representation " , International Conference on Computer Graphics and Interactive Techniques, ACM SIGGRAPH 2004, Los Angeles, California, pp: 600 - 608", "S. M. Seitz and C. R. Dyer "View Morphing" Proc. SIGGRAPH 96, 1996, 21 -30.".

Es ist prinzipiell möglich, dass bei dem erfindungsgemäßen Verfahren die erstellten Bilder an die Bildkonvertierungseinrichtung übertragen werden. Außerdem können sämtliche von der Bildkonvertierungseinrichtung generierten Ansichten jedes Bildes an das 3D-Bildwiedergabegerät übertragen werden.

In einer vorteilhaften Ausgestaltung der Erfindung entsteht ein Verfahren zur Übertragung von 3D-lnformationen zum Zweck der nachfolgenden hilfsmittelfrei räumlich wahrnehmbaren Wiedergabe auf Basis von mindestens drei verschiedenen

Ansichten, bei welchem ausgehend von mindestens einem n-Tupel von Bildern, mit n>2, die unterschiedliche Blickwinkel eines Objektes oder einer Szene charakterisieren, wobei mindestens zwei Bilder des n-Tupels paarweise unterschiedliche Auflösungen aufweisen, für mindestens drei Bilder die Tiefe ermittelt wird und hernach in einem

Übertragungskanal mindestens drei Bilder des n-Tupels zusammen mit den jeweiligen

Tiefeninformationen (bevorzugt in Form von Tiefenkarten) übertragen werden.

In einer bevorzugten Ausgestaltung ist das n-Tupel von Bildern ein Quadrupel von Bildern (n = 4), wobei bevorzugt jeweils drei Bilder ein- und dieselbe Auflösung aufweisen und das vierte Bild eine höhere Auflösung aufweist, wobei besonders bevorzugt das vierte Bild zu den im Übertragungskanal übertragenen Bildern gehört, also beispielsweise, dass eine hochauflösende und zwei der niedriger aufgelösten Bilder zusammen mit den Tiefeninformationen übertragen werden.

Dabei können mindestens zwei der ermittelten Tiefenkarten eine paarweise voneinander unterschiedliche Auflösung aufweisen. Die Tiefeninformationen werden jeweils nur aus Bildern des n-Tupels mit ein- und derselben Auflösung ermittelt.

Auch ist es möglich, dass aus den ermittelten Tiefeninformationen auch die Tiefe für mindestens ein Bild mit höherer Auflösung generiert wird.

Bei der Ausgestaltung des erfindungsgemäßen Verfahrens und auch des Übertragungsverfahrens können ferner die Tiefeninformationen, welche an Hand von Bildern des n-Tupels mit der geringsten vorhandenen Auflösung ermittelt worden sind, an Hand von Kantenerkennungen in dem mindestens einen höherauflösenden Bild in eine höhere Auflösung transformiert werden. Dies ist besonders dann hilfreich, wenn etwa in den eingangs beschriebenen Varianten „1 +2", „1+3" und „ 1 +5" die hochauflösende Hauptkamera auf verschiedene Szenenteile und/oder Objekte heranzoomt, also vergrößert aufnimmt. Dann nämlich müssen die Satellitenkameras nicht zwingend in ihren Zoomeinstellungen mit verändert werden. Stattdessen wird die entsprechende Tiefeninformation für die Hauptkamera wie vorstehend beschrieben in ihrer Auflösung erhöht, so dass die gewünschten Ansichten mit hinreichender Qualität erstellt werden können.

Weitere Ausgestaltungen sehen vor, dass eine Vielzahl von n-Tupeln von Bildern und dazugehörigen Tiefeninformationen hintereinander verarbeitet werden, so dass eine räumliche Darstellung von Bewegtbildern ermöglicht wird. Schließlich ist in diesem Fall auch die Durchführung einer räumlichen und zeitlichen Filterung bei der Vielzahl von n- Tupeln von Bildern möglich.

Der Übertragungskanal kann beispielsweise ein digitales Fernsehsignal, das Internet oder eine DVD (HD, SD, BlueRay etc.) sein. Als Komprimierstandard kann vorteilhaft MPEG-4 eingesetzt werden. Vorteilhaft weisen auch mindestens zwei der drei Tiefenkarten eine paarweise voneinander unterschiedliche Auflösung auf. So können in einer bevorzugten Ausgestaltung n = 3 Bilder vorgesehen sein, wobei eines die (vollfarbige) Auflösung von 1920 x 1080 Pixeln und zwei die (vollfarbige) Auflösung von 1280 x 720 (oder 1024 x 768) aufweisen, während die dazugehörigen Tiefenkarten 960 x 540 bzw. 640 x 360 Pixel (oder 512 x 384) aufweisen. Das Bild mit der höheren Auflösung entspricht räumlich gesehen einer Perspektivansicht, die zwischen den Perspektivansichten der anderen beiden Bilder liegt.

Das jeweils verwendete 3D-Bildwiedergabegerät kann vorzugsweise 2, 3, 4, 5, 6, 7, 8, 9 oder sogar noch mehr Ansichten gleichzeitig oder im zeitlichen Mittel wiedergeben. Gerade bei diesen letztgenannten, den so genannten „Multi-View"-artigen SD- Bildwiedergabegeräten mit 4 oder mehr dargestellten Ansichten kommen die besonderen Vorteile der Erfindung zum Tragen, nämlich dass mit verhältnismäßig wenigen (z. B. drei) ursprünglich erstellten Bildern dennoch mehr Ansichten bereitgestellt werden können, als die Anzahl der ursprünglich erstellten Bilder beträgt. Die Rekonstruktion aus dem übertragenen n-Tupel von Bildern zusammen mit den jeweiligen Tiefeninformationen, wobei mindestens zwei Bilder des n-Tupels paarweise unterschiedliche Auflösungen aufweisen, in verschiedene Ansichten geschieht beispielsweise folgendermaßen: In einem dreidimensionalen Koordinatensystem werden jeweils die Farbinformationen jedes Bildes - betrachtet aus einer geeigneten Richtung - in den entsprechend durch die jeweiligen zu dem Bild gehörenden Tiefeninformationen gekennzeichneten Tiefenpositionen angeordnet. Damit entsteht ein dreidimensionales farbiges Volumen mit Volumenpixeln, welches aus verschiedenen Perspektiven bzw. Richtungen durch eine virtuelle Kamera bzw. Parallelprojektionen abbildbar ist. Auf diese Weise können aus den übertragenen Informationen vorteilhaft mehr als drei Ansichten regeneriert werden. Andere Rekonstruktionsalgorithmen für die Ansichten bzw. Bilder sind möglich. Ungeachtet dessen sind die übertragenen Informationen sehr universell rekonstruierbar, z. B. als (Perspektiv-) Ansichten, Schichtbilder oder Volumenpixel. Derartige Bildformate sind für spezielle 3D-Darstellungsverfahren, etwa Volumen-3D-Displays, von großem Vorteil.

Überdies können bei sämtlichen in dieser Erfindung vorgeschlagenen Übertragungsvarianten noch zusätzlich Meta-Informationen, beispielsweise in einem so genannten Alpha-Kanal, mitübertragen werden. Hierbei kann es sich um ergänzende Informationen zu den Bildern handeln, wie etwa geometrische Verhältnisse der n>2 Bilder (etwa Relativwinkel zueinander, Kameraparameter), Transparenzinformationen oder Umrissinformationen.

Schlußendlich läßt sich die Aufgabe der Erfindung lösen von einem Verfahren zur Übertragung von 3D-lnformationen zum Zweck der nachfolgenden hilfsmittelfrei räumlich wahrnehmbaren Wiedergabe auf Basis von mindestens drei verschiedenen Ansichten, bei welchem ausgehend von mindestens einem n-Tupel von Bildern, mit n>2, die unterschiedliche Blickwinkel eines Objektes oder einer Szene charakterisieren, für mindestens drei Bilder die Tiefe ermittelt wird und hernach in einem Übertragungskanal mindestens drei Bilder des n-Tupels zusammen mit den jeweiligen Tiefeninformationen (bevorzugt in Form von Tiefenkarten) übertragen werden.

Bevorzugt ist dabei das n-Tupel von Bildern ein Tripel von Bildern (n=3), wobei die drei Bilder ein- und dieselbe Auflösung aufweisen. Es kann aber auch sein, dass beispielsweise n = 5 oder n = 6 Kamaras jeweils 5 oder 6 Bilder generieren, so dass aus dem Quintupel oder Sixtupel von Bildern oder zumindest dreier Bilder davon die Tiefeninformationen ermittelt werden und hernach 3 der 5 oder 6 Bilder zusammen mit ihren Tiefenkarten übertragen werden, wobei dabei sogar noch eine Auflösungsreduktion einzelner Bilder und/oder Tiefenkarten in Frage kommt.

Die Erfindung soll nachstehend anhand von Ausführungsbeispielen näher erläutert werden. Die Zeichnungen zeigen:

Fig. 1 : eine Prinzipansicht der erfindungsgemäßen Anordnung mit einer Hauptkamera und drei Satellitenkameras,

Fig. 2: eine Variante mit einer Hauptkamera und zwei Satellitenkameras, Fig. 3: schematische Darstellung der schrittweisen Verschiebung zweier Zeilen gegeneinander und Generierung der Z Koordinate,

Fig. 4: Optimierungsschema durch Eliminierung von Mehrdeutigkeiten bzgl. Fig. 3, Fig. 5: Optimierungsschema durch Reduktion der Elemente auf eine eindeutige

Höhenprofillinie bzgl. Fig. 4, Fig. 6 schematische Darstellung der schrittweisen Verschiebung dreier Zeilen gegeneinander und Generierung der Z Koordinate,

Fig. 7: Optimierungsschema durch Eliminierung von Mehrdeutigkeiten bzgl. Fig. 6, Fig. 8: Optimierungsschema durch Reduktion der Elemente auf eine eindeutige

Höhenprofillinie bzgl. Fig. 7, Fig. 9 schematische Darstellung einer Projektion einer Ansicht aus dem

Optimierungsschema, Fig.10 eine schematische Darstellung für eine Bildkombination von vier Bildern, geeignet für die hilfsmittelfrei räumliche Wiedergabe (Stand der Technik), Fig.1 1 eine schematische Darstellung für das erfindungsgemäße Übertragungsverfahren

Eine erfindungsgemäße Anordnung besteht im Wesentlichen aus einem 3D- Kamerasystem 1 , einer Bildkonvertierungseinrichtung 2 und einem SD- Bildwiedergabegerät 3, wobei gemäß Fig. 1 das 3D-Kamerasystem 1 drei Satellitenkameras 14, 15 und 16, eine Hauptkamera 13, die Bildkonvertierungseinrichtung 2 eine Rektifizierungseinheit 21 , eine Farbjustierungseinheit 22, eine Einheit zum Aufbau der Stackstruktur 23, eine Einheit zur Optimierung der Stackstruktur 24 sowie eine Einheit zur Projektion der Stackstruktur auf die gewünschte Ansicht 25 und das 3D-Bildwiedergabegerät 3 eine Bildkombinationseinheit 31 und ein 3D-Display 32, wobei das 3D-Display 32 mindestens zwei Ansichten einer Szene/eines Gegenstandes oder sonstiger Objekte zur räumlichen Darstellung wiedergibt, enthält. Das 3D-Display 32 kann beispielweise auch basierend auf 3, 4, 5, 6, 7, 8, 9 oder noch mehr Ansichten arbeiten. Beispielhaft kommt ein SD- Display 32 vom Typ „Spatial View 19 Zoll" in Frage, welches gleichzeitig 5 verschiedene Ansichten darstellt.

Gemäß Fig. 2 ist eine weitere erfindungsgemäße Anordnung aufgezeigt. Hierbei enthält das 3D-Kamerasystem 1 eine Hauptkamera 13, eine erste Satellitenkamera 14 und eine zweite Satellitenkamera 15. Die Bildkonvertierungseinrichtung 2 enthält eine Rektifizierungseinheit 21, eine Farbjustierungseinheit 22, eine Einheit zum Aufbau der Stackstruktur 23, eine Einheit zur Optimierung der Stackstruktur 24, eine Einheit zur Projektion der Stackstruktur auf die gewünschte Ansicht 25 sowie eine Einheit zur Ermittlung der Tiefe 26 und das 3D-Bildwiedergabegerät 3 enthält, wie aus Fig. 2 ersichtlich, eine Einheit zur Rekonstruktion der Stackstruktur 30, eine Bildkombinationseinheit 31 sowie ein 3D-Display 32.

Gemäß der Ausführung nach Fig. 2 besteht das 3D-Kamerasystem 1 aus einer Hauptkamera 13 und zwei Satellitenkameras 14, 15, wobei die Hauptkamera 13 eine so genannte High-Quality-Kamera mit hohem Auflösungsvermögen ist, hingegen die beiden Satellitenkameras 14, 15 mit einem geringeren Auflösungsvermögen ausgestattet sind. Die Kamerapositionen untereinander sind dabei, wie üblich, in bekannten Grenzen bezüglich Abstand und Ausrichtung variierbar, um stereoskopische Bilder aufnehmen zu können. In der Rektifizierungseinheit 21 erfolgt eine mögliche Entzerrung der Kamerabilder, d. h. es erfolgt ein Ausgleich von Linsenverzerrungen, Kameraverdrehungen, Zoomdifferenzen etc.. An die Rektifizierungseinheit 21 schließt sich die Farbjustierungseinheit 22 an. Hier erfolgt eine Angleichung der Farb- /Helligkeitswerte der aufgenommenen Bilder an ein einheitliches Niveau. Die so korrigierten Bilddaten werden nunmehr der Einheit zum Aufbau der Stackstruktur 23 zugeführt. Es werden nun prinzipiell die Eingangsbilder zeilenweise miteinander verglichen, aber nur diejenigen der Satellitenkameras (14, 15 gemäß Fig.2 bzw. 14, 15, 16 gemäß Fig.1). Der Vergleich gemäß Fig. 3 basiert dabei auf dem Vergleich von jeweils nur zwei Zeilen. Im ersten Schritt werden zunächst zwei Zeilen jeweils mit derselben Y Koordinate übereinandergelegt, welches gemäß Fig. 3 der Ebene O entspricht. Der Vergleich wird pixelweise durchgeführt und das Ergebnis des Vergleiches wird gemäß Fig. 3 entsprechend der vorliegenden Vergleichsebene als Z Koordinate abgespeichert, wobei übereinanderliegende Pixel mit gleichem Farbwert diesen behalten, hingegen bei Ungleichheit kein Farbwert gespeichert wird. Im zweiten Schritt werden die Zeilen gemäß Fig. 3 jeweils Vi Pixel verschoben und es kommt zur Zuordnung der Ebene 1 , bzw. es erfolgt ein nächster Vergleich in der Ebene 1 , dessen Ergebnis in der Ebene 1 (Z Koordinate) abgespeichert wird. Die Vergleiche werden im Allgemeinen, wie aus Fig. 3 ersichtlich, bis zur Ebene 7 und dann Ebene -1 bis Ebene-7 durchgeführt und entsprechend jeweils als Z Koordinate in der entsprechenden Ebene abgespeichert. Die Anzahl der Ebenen entspricht hierbei der maximal auftretenden Tiefeninformation und kann je nach Bildinhalt variieren. Die so aufgebaute dreidimensionale Struktur mit den XYZ Koordinaten bedeutet, dass für jedes Pixel über die zugehörige Z Koordinate der Grad der Verschiebung der Ansichten zueinander abgespeichert ist. Der gleiche Vergleich wird gemäß Fig. 6 auf Basis der Ausführungsform von Fig. 1 durchgeführt, nur das hier in entsprechender Weise drei Zeilen verglichen werden. Ein einfacher Vergleich zwischen Fig. 6 und Fig. 3 zeigt, dass durch den Vergleich dreier Zeilen wesentlich weniger Fehlinterpretationen erfolgten. Es ist also vorteilhaft, mehr als zwei Zeilen in den Vergleich einzubeziehen. Die erzeugte Stackstruktur, die sich auch dadurch auszeichnet, dass nunmehr die Eingangsbilder nicht mehr einzeln vorliegen, werden der nachfolgenden Einheit zur Optimierung der Stackstruktur 24 zugeführt. Hier werden mehrdeutige Abbildungen von Bildelementen ermittelt, mit dem Ziel, derartige Fehler aufgrund von unwahrscheinlichen Kombinationen zu löschen, so dass eine korrigierte Datenmenge gemäß Fig. 4 oder auch Fig. 7 erzeugt wird. Im nachfolgenden Schritt wird eine möglichst flache bzw. stetige Höhenprofillinie aus den verbleibenden Elementen erstellt, um eine eindeutige Abbildung der Farbwerte in eine diskrete Tiefenebene (Z Koordinate) zu erreichen. Die Ergebnisse sind in Fig. 5 bzw. Fig. 8 dargestellt. Das Ergebnis gemäß Fig. 5 wird nunmehr gemäß Fig. 1 der Einheit zur Projektion der Stackstruktur auf die gewünschte Ansicht 25 zugeführt. Hier erfolgt die Projektion der Stackstruktur auf eine festgelegte Ebene im Raum. Die (d.h. jede) zu erzeugende Ansicht wird dabei über den Winkel der Ebene, wie aus Fig. 9 ersichtlich, erzeugt. Dabei wird in der Regel mindestens eine Ansicht erzeugt, die keinem der von dem Kamerasystem 1 aufgenommenen Bildern exakt entspricht. Sämtliche erzeugten Ansichten liegen am Ausgang der Bildkonvertierungseinrichtung 2 an und können somit dem nachfolgenden 3D-Bildwiedergabegerät 3 zur stereoskopischen Wiedergabe übergeben werden, wobei mittels der enthaltenen Bildkombinationseinheit 31 zunächst die Kombination der verschiedenen Ansichten entsprechend der vorgegebenen Zuordnungsvorschrift des 3D- Displays 32 erfolgt.

Gemäß Fig. 2 wird optional ein anderer Weg zur Übertragung der aufbereiteten Daten an das 3D-Bildwiedergabegerät 3 gewählt. Der Einheit zur Optimierung der Stackstruktur 24 folgt hier die Einheit zur Ermittlung der Tiefe 26 (gestrichelte Linie). Durch die Ermittlung der Tiefe der Bilder wird ein besonders effizientes Datenübertragungsformat geschaffen. Übertragen werden hier nämlich nur drei Bilder und drei Tiefenbilder, und zwar bevorzugt im MPEG-4 Format. Gemäß Fig. 2 ist in dem 3D-Bildwiedergabegerät 3 eingangsseitig eine Einheit zur Rekonstruktion der Stackstruktur 30 mit nachfolgender Bildkombinationseinheit 31 und einem 3D-Display 32 vorhanden. Die Übernahme der Bilder und die Tiefen können in der Einheit zur Rekonstruktion der Stackstruktur 30 besonders effizient durch inverse Projektion in die Stackstruktur wieder gewandelt werden, so dass die Stackstruktur der nachfolgenden Einheit zur Projektion der Stackstruktur auf die gewünschte Ansicht 25 bereitgestellt werden kann. Der weitere Weg ist dann identisch zur Variante gemäß Fig. 1 , nur dass nunmehr vorteilhaft keine Übertragung sämtlicher Ansichten erfolgen muss, insbesondere wenn die Einheit 25 in das 3D-Bildwiedergabegerät 3 integriert ist. Dieser letztgenannte, optionale Weg kann auch in der Ausgestaltung nach Fig.1 beschritten werden, falls die Gegebenheiten entsprechend angepasst sind.

Die Fig.10 zeigt zum besseren Verständnis eine schematische Darstellung aus dem Stand der Technik (JP 08-331605) für eine Bildkombination von vier Bildern bzw. Ansichten, geeignet für die hilfsmittelfrei räumliche Wiedergabe auf einem 3D-Display, beispielsweise auf der Basis von geeigneter Lentikular- oder Barrieretechnologie. Dazu sind die vier Bilder bzw. Ansichten in der Bildkombinationseinheit 31 gemäß dem für das 3D-Display 32 geeigneten Bildkombinationsstruktur miteinander verwoben worden. In der Fig.1 1 ist schließlich eine schematische Darstellung für das erfindungsgemäße Übertragungsverfahren dargestellt. Dabei werden in einem MPEG-4 Datenstrom insgesamt 3 Farbbilder und 3 Tiefenbilder (bzw. jeweils Bewegtbilder-Streams) übertragen. Besonders vorteilhaft weist dabei einer der Farbbilder-Streams eine Auflösung von 1920 x 1080 Pixeln auf, während die anderen beiden eine Auflösung von 1280 x 720 (oder 1024 x 768) Pixeln besitzen. Die dazugehörigen Tiefenbilder (bzw. Tiefenbilderstreams) werden jeweils in halber horizontaler und halber vertikaler Auflösung übertragen, also 960 x 540 Pixel bzw. 640 x 360 (oder 512 x 384) Pixel. Die Tiefenbilder bestehen im einfachsten Falle aus Graustufenbildern z. B. mit 256 oder 1024 möglichen Grauwerten pro Pixel, wobei jeder Grauwert einem Tiefenwert entspricht .

In einer weiteren Ausgestaltung würde das höchstauflösende Farbbild beispielweise 4096 x 4096 Pixel und die anderen Farbbilder 2048 x 2048 Pixel oder 1024 x 1024 Pixel aufweisen. Die dazugehörigen Tiefenbilder (bzw. Tiefenbilderstreams) werden jeweils in halber horizontaler und halber vertikaler Auflösung übertragen. Diese Variante wäre dann von Vorteil, wenn der gleiche Datensatz einmal für besonders hochauflösende Stereo-Darstellungen (z. B. im 3D-Kino mit Links/Rechtsbildern) und ein anderes Mal für weniger hochauflösende 3D-Darstellungen auf 3D-Displays, dann aber mit mindestens zwei dargestellten Ansichten, verwendet werden soll.

Bezugszeichenliste

1 Kamerasystem

13 Hauptkamera

14 erste Satellitenkamera

15 zweite Satellitenkamera

16 dritte Satellitenkamera

2 Bildkonvertierungseinrichtung

21 Rektifizierungseinheit

22 Farbjustierungseinheit

23 Einheit zum Aufbau der Stackstruktur 24 Einheit zur Optimierung der Stackstruktur

25 Einheit zur Projektion der Stackstruktur auf die gewünschte Ansicht

26 Einheit zur Ermittlung der Tiefe

3 3D-Bildwiedergabegerät 30 Einheit zur Rekonstruktion der Stackstruktur

31 Bildkombinationseinheit

32 3D-Display

Claims

Patentansprüche

1. Anordnung zur Aufnahme von Bildern einer Szene und/oder eines Objektes und zu deren räumlich wahrnehmbaren Wiedergabe, umfassend: - mindestens eine Hauptkamera (13) eines ersten Kameratyps zur Aufnahme von

Bildern,

- mindestens zwei Satellitenkameras (14, 15) eines zweiten Kameratyps zur Aufnahme von Bildern, wobei sich die Kameratypen in mindestens einem Parameter unterscheiden, - eine den Kameras nachgeordnete Bildkonvertierungseinrichtung (2) zur

Übernahme der Ausgangsbilddaten und zur Aufbereitung derer, wobei in der Bildkonvertierungseinrichtung (2) neben anderen Prozessen eine Tiefen- oder Disparitätserkennung durchgeführt wird, wobei lediglich Bilder, die von Kameras des gleichen Kameratyps aufgenommen wurden (bevorzugt, die von den mindestens zwei Satellitenkameras (14, 15) aufgenommen wurden), für eine

Tiefen- oder Disparitätsermittlung herangezogen werden, nicht aber die restlichen Bilder, und

- ein mit der Bildkonvertierungseinrichtung (2) in Verbindung stehendes SD- Bildwiedergabegerät (3) zur hilfsmittelfrei räumlich wahrnehmbaren Wiedergabe der bereitgestellten Bilddaten, wobei das 3D-Bildwiedergabegerät (3) mindestens zwei Ansichten wiedergibt.

2. Anordnung nach Anspruch 1 , dadurch gekennzeichnet, dass sich die beiden Kameratypen mindestens in der Auflösung der aufzunehmenden Bilder unterscheiden.

3. Anordnung nach Anspruch 1 , dadurch gekennzeichnet, dass sich die beiden Kameratypen mindestens durch den eingebauten Bildaufnahmechip unterscheiden.

4. Anordnung nach einem der Ansprüche 1 - 3, dadurch gekennzeichnet, dass genau eine Hauptkamera (13) und zwei Satellitenkameras (14, 15) vorhanden sind.

5. Anordnung nach einem der Ansprüche 1 - 3, dadurch gekennzeichnet, dass genau eine Hauptkamera (13) und drei Satellitenkameras (14, 15, 16) vorhanden sind.

6. Anordnung nach einem der Ansprüche 1 -3, dadurch gekennzeichnet, dass genau eine Hauptkamera (13) und fünf Satellitenkameras vorhanden sind.

7. Anordnung nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, dass der zweite Kameratyp eine geringere Auflösung hat als der erste Kameratyp.

8. Anordnung nach Anspruch 4, dadurch gekennzeichnet, dass die Hauptkamera (13) zwischen den Satellitenkameras (14, 15) angeordnet ist.

9. Anordnung nach einem der vorgenannten Ansprüche, dadurch gekennzeichnet, dass vor den Objektiven der mindestens einen Hauptkamera (13) und aller Satellitenkameras (14, 15) mindestens ein teildurchlässiger Spiegel angeordnet ist.

10. Anordnung nach Anspruch 5, dadurch gekennzeichnet, dass die Objektivmittelpunkte der drei Satellitenkameras (14, 15, 16) ein Dreieck, bevorzugt ein gleichschenkliges Dreieck bilden.

1 1. Anordnung nach Anspruch 10, dadurch gekennzeichnet, dass der Objektivmittelpunkt der Hauptkamera (13) innerhalb des besagten Dreiecks angeordnet ist, wobei das Dreieck als seine Schenkel einschließend angesehen wird.

12. Anordnung nach Anspruch 5, dadurch gekennzeichnet, dass eine Satellitenkamera (14 oder 15 oder 16) und die Hauptkamera (13) derart optisch zueinander angeordnet sind, dass sie beide jeweils ein Bild auf im Wesentlichen der gleichen optischen Achse aufzeichnen, wobei hierzu bevorzugt mindestens ein teildurchlässiger Spiegel zwischen beiden Kameras angeordnet ist.

13. Anordnung nach Anspruch 12, dadurch gekennzeichnet, dass die zwei weiteren Satellitenkameras auf einer Geraden oder in einem Dreieck mit der zu der Hauptkamera (13) assoziierten Satellitenkamera (14 oder 15 oder 16) angeordnet sind.

14. Anordnung nach einem der vorgenannten Ansprüche, dadurch gekennzeichnet, dass die Bildkonvertierungseinrichtung (2) mindestens zwei Ansichten der aufgenommenen Szene bzw. des aufgenommenen Objektes erstellt, wobei in der Bildkonvertierungseinrichtung (2) neben den erkannten Tiefen- oder Disparitätswerten das von der mindestens einen Hauptkamera (13) aufgenommene

Bild sowie mindestens ein weiteres Bild von den Satellitenkameras (14, 15), nicht notwendigerweise aber aller vorhandenen Kameras, für die Erstellung der besagten mindestens zwei Ansichten verwendet wird.

15. Anordnung nach Anspruch 14, dadurch gekennzeichnet, dass eine der mindestens drei erstellten Ansichten immer noch einem der Eingangsbilder entspricht.

16. Anordnung nach einem der vorgenannten Ansprüche, dadurch gekennzeichnet, dass die bzw. alle Hauptkamera(s) (13) und alle Satellitenkameras (14, 15) frequenzgenau mit einer Toleranz von maximal 100 Bilder je 24 Stunden synchronisiert aufnehmen.

17. Verfahren zur Aufnahme und Wiedergabe von Bildern einer Szene und/oder eines Objektes, die folgenden Schritte umfassend:

- Übernahme der Bilddaten in eine Bildkonvertierungseinrichtung (2), in der nachfolgend eine Rektifizierung, eine Farbjustierung, eine Tiefen- oder Disparitätserkennung und anschließende Generation weiterer Ansichten aus n oder weniger als n Bildern des besagten n-Tupels und den Tiefen- bzw. Disparitätserkennungswerten durchgeführt wird, wobei mindestens eine Ansicht generiert wird, die keinem der erstellten Bilder des n-Tupels exakt entspricht, und wobei in der Bildkonvertierungseinrichtung (2) für die Tiefen- oder Disparitätserkennung lediglich Bilder des n-Tupels mit ein- und derselben Auflösung herangezogen werden,

- anschließend eine Kombination von mindestens zwei verschiedenen Ansichten oder Bildern entsprechend der Zuordnungsvorschrift des 3D-Displays (32) eines

3D-Bildwiedergabegerätes (3) zur hilfsmittelfrei räumlichen Darstellung erstellt wird, und

- abschließend die Darstellung des kombinierten 3D-Bildes auf dem 3D-Display (32) durchgeführt wird.

18. Verfahren nach Anspruch 17, dadurch gekennzeichnet, dass für die Tiefen- oder Disparitätserkennung die Bilder mit derjenigen gleichen Auflösung herangezogen werden, die die niedrigste Gesamtzahl von Pixeln verglichen mit allen anderen vorhandenen Auflösungen aufweist.

19. Verfahren nach Anspruch 18, dadurch gekennzeichnet, dass zur Tiefenerkennung der Aufbau einer Stackstruktur erfolgt, indem die bereits zwischenaufbereiteten Ausgangsbilddaten jeweils eines n-Tupels zeilenweise miteinander verglichen werden, und zwar von dem n-Tupel nur diejenigen Bilder, die die gleiche Auflösung aufweisen, indem zunächst die Zeilen mit derselben Y

Koordinate von den entsprechenden unterschiedlichen Bildern eines n-Tupels übereinandergelegt werden und dann ein erster Vergleich durchgeführt wird, wobei das Ergebnis des Vergleiches in einer Zeile abgespeichert wird, indem übereinanderliegende gleiche Farbwerte gespeichert werden, hingegen unterschiedliche Farbwerte gelöscht werden, danach erfolgt eine Verschiebung der

Zeilen in entgegengesetzte Richtungen in jeweils vorgegebenen Schritten von vorzugsweise VA bis 2 Bildpunkten (Pixel), wobei nach jedem Verschiebungsschritt analog zum ersten Vergleich das Ergebnis in weiteren Zeilen abgespeichert wird, im Ergebnis liegt nach erfolgten Vergleichen für jedes Pixel über die Z Koordinate die Information über den Grad der Verschiebung der Ansichten zueinander vor.

20. Verfahren nach Anspruch 19, dadurch gekennzeichnet, dass nach erfolgtem Aufbau der Stackstruktur eine Optimierung dergestalt erfolgt, dass Mehrdeutigkeiten eliminiert werden und/oder eine Reduktion der Elemente auf eine eindeutige Höhenprofillinie durchgeführt wird.

21. Verfahren nach Anspruch 19 oder 20, dadurch gekennzeichnet, dass nach erfolgtem Aufbau der Stackstruktur oder nach den Schritten aus Anspruch 20 für mindestens drei Original-Bilder des n-Tupels die Tiefe ermittelt wird, bevorzugt in Form von Tiefenkarten.

22. Verfahren nach Anspruch 21 , dadurch gekennzeichnet, dass nach erfolgter Übernahme der Original-Bilder des n-Tupels und den jeweils dazugehörigen Tiefen eine Rekonstruktion durch inverse Projektion der Bilder des n- Tupels mittels Tiefenkarten in den Stackraum erfolgt, so dass die Stackstruktur rekonstruiert wird, und so dass hernach hieraus wiederum durch Projektion verschiedene Ansichten erzeugt werden können.

23. Verfahren nach Anspruch 17, dadurch gekennzeichnet, dass die erstellten Bilder an die Bildkonvertierungseinrichtung (2) übertragen werden.

24. Verfahren nach Anspruch 17, dadurch gekennzeichnet, dass sämtliche von der Bildkonvertierungseinrichtung (2) generierten Ansichten jedes Bildes an das 3D-Bildwiedergabegerät (3) übertragen werden.

25. Verfahren nach Anspruch 21, dadurch gekennzeichnet, dass die Original-Bilder des n-Tupels mit jeweils der dazugehörigen Tiefe an das 3D- Bildwiedergabegerät (3) übertragen werden und dann zunächst die Rekonstruktion gemäß Anspruch 22 durchgeführt wird.

26. Verfahren nach Anspruch 17, dadurch gekennzeichnet, dass die Bilder des n-Tupels mittels eines 3 D-Kamerasystems erstellt werden.

27. Verfahren nach Anspruch 17, dadurch gekennzeichnet, dass die Bilder n-Tupels mittels Computer erstellt werden.

28. Verfahren nach Anspruch 21 , dadurch gekennzeichnet, dass mindestens zwei in der Auflösung paarweise verschiedene Tiefenkarten erstellt werden.

29. Verfahren zur Übertragung von 3D-lnformationen zum Zweck der nachfolgenden hilfsmittelfrei räumlich wahrnehmbaren Wiedergabe auf Basis von mindestens zwei verschiedenen Ansichten, dadurch gekennzeichnet, dass ausgehend von mindestens einem n-Tupel von Bildern, mit n>2, die unterschiedliche Blickwinkel eines Objektes oder einer Szene charakterisieren, wobei mindestens zwei Bilder des n-Tupels paarweise unterschiedliche Auflösungen aufweisen, für mindestens drei Bilder die Tiefe ermittelt wird und hernach in einem Übertragungskanal mindestens drei Bilder des n-Tupels zusammen mit den jeweiligen Tiefeninformationen (bevorzugt in Form von Tiefenkarten) übertragen werden.

30. Verfahren nach Anspruch 29, dadurch gekennzeichnet, dass das n-Tupel von Bildern ein Quadrupel von Bildern (n = 4) ist, wobei bevorzugt jeweils drei Bilder ein- und dieselbe Auflösung aufweisen und das vierte Bild eine höhere Auflösung aufweist, wobei besonders bevorzugt das vierte Bild zu den im Übertragungskanal übertragenen Bildern gehört.

31. Verfahren nach Anspruch 29 oder 30, dadurch gekennzeichnet, dass mindestens zwei der ermittelten Tiefenkarten eine paarweise voneinander unterschiedliche Auflösung aufweisen.

32. Verfahren nach Anspruch 29 bis 31 , dadurch gekennzeichnet, dass die Bilddaten und die Tiefeninformationen im MPEG-4 Format generiert werden.

33. Verfahren nach Anspruch 29 bis 32, dadurch gekennzeichnet, dass die Tiefeninformationen jeweils nur aus Bildern des n-Tupels mit ein- und derselben Auflösung ermittelt werden.

34. Verfahren nach Anspruch 33, dadurch gekennzeichnet, dass aus den ermittelten Tiefeninformationen auch die Tiefe für mindestens ein Bild mit höherer Auflösung generiert wird.

35. Verfahren nach Anspruch 17 bis 34, dadurch gekennzeichnet, dass Tiefeninformationen, die an Hand von Bildern des n-Tupels mit der geringsten vorhandenen Auflösung ermittelt worden sind, an Hand von Kantenerkennungen in dem mindestens einen höherauflösenden Bild in eine höhere Auflösung transformiert werden.

36. Verfahren nach Anspruch 17 bis 35, dadurch gekennzeichnet, dass eine Vielzahl von n-Tupeln von Bildern und dazugehörigen Tiefeninformationen hintereinander verarbeitet werden, so dass eine räumliche Darstellung von Bewegtbildern ermöglicht wird.

37. Verfahren nach Anspruch 36, dadurch gekennzeichnet, dass eine räumliche und zeitliche Filterung bei der Vielzahl von n-Tupeln von Bildern durchgeführt wird.

38. Verfahren zur Übertragung von 3D-lnformationen zum Zweck der nachfolgenden hilfsmittelfrei räumlich wahrnehmbaren Wiedergabe auf Basis von mindestens zwei verschiedenen Ansichten, dadurch gekennzeichnet, dass ausgehend von mindestens einem n-Tupel von Bildern, mit n>2, die unterschiedliche Blickwinkel eines Objektes oder einer Szene charakterisieren, für mindestens drei Bilder die Tiefe ermittelt wird und hernach in einem Übertragungskanal mindestens drei Bilder des n-Tupels zusammen mit den jeweiligen Tiefeninformationen (bevorzugt in Form von Tiefenkarten) übertragen werden.

39. Verfahren nach Anspruch 38, dadurch gekennzeichnet, dass das n-Tupel von Bildern ein Tripel von Bildern (n = 3) ist, wobei die drei Bilder ein- und dieselbe Auflösung aufweisen.