Verfahren und System zur Erfassung und Darstellung dreidimensionaler Objekte
Die Erfindung betrifft ein Verfahren und ein System zur Erfassung und Darstellung dreidimensionaler Objekte.
Im Stand der Technik ist es bekannt, zum bildhaften Erfassen dreidimensionaler Objekte und der Erzeugung eines dreidimensionalen Bilddatensatzes mittels im allgemeinen mindestens zweier Kameras eine Abstandsmessung zu dem zu erfassenden Objekt durchzuführen und eine „Punktewolke", d.h. eine Vielzahl von Koordinatenpunkten mit zugeordneter Bildinformation, die die Oberfläche des zu erfassenden Objektes darstellen, zu erzeugen. In einem weiteren Schritt werden die ermittelten Punkte mittels eines aufwendigen Rechenverfahrens zu Flächen verknüpft, die die Oberfläche des Objektes topologisch beschreiben. Das Ergebnis ist ein 3D-Poly- gondatensatz des erfaßten Objekts.
Aus der US-PS 5 818 959 ist ein Verfahren zum Erstellen eines dreidimensionalen Bildes aus mindestens zweidimensionalen Bildern bekannt, bei dem ein dreidimensionales Objekt von mindestens zwei horizontal um das Objekt angeordneten Kameras aufgenommen wird. Während der Aufnahme wird das dreidimensionale Objekt mit einem Streifenmuster bestrahlt. Ein erstes der aufgenommenen zweidimensionalen Bilder wird als Referenzbild, ein weiteres Bild als sogenanntes zweites Bild ausgewählt. Auf der Grundlage dieser beiden aus leicht unterschiedlichen Standorten aufgenommenen Bildern wird nach dem sogenannten Binokularprinzip ein dreidimensionales Bild errechnet, wozu der Raum, in dem sich das Objekt be-
findet, in sogenannte Voxels unterteilt wird und die Werte eines jeden Voxels in jedem der beiden zweidimensionalen Bilder miteinander verglichen werden. Eine Identifizierung gleicher Voxels wird durch das eingestrahlte Streifenmuster erzielt . Zur Minimierung des Rechenaufwandes und Umgehung des sogenannten Hintergrundproblems werden zur Überprüfung von Oberflächenpunkten des Objekts weiter entfernt liegende Kameras benutzt.
Aus der US-PS 4 982 438 ist ein Verfahren zum Erkennen der dreidimensionalen Form eines Objektes bekannt, bei dem das aufzunehmende Objekt von vier insbesondere jeweils senkrecht zueinander angeordneten Kamerapaaren umgeben ist, die in einer horizontalen Ebene angeordnet sind. Die Kamerapaare nehmen jeweils ein binokulares Bild des Objekts auf. Auf der Grundlage dieser Bilder wird die dreidimensionale Form des Objekts berechnet, indem die binokulare Rechenmethode mit der sogenannten Kegel-Silhouettenmethode (Cone-Sil- houetting Method) kombiniert wird.
Aus der EP 0 631 250 A2 ist ein weiteres Verfahren zur Nachbildung dreidimensionaler Objekte bekannt. Bei diesem Verfahren sind mehrere an unterschiedlichen Positionen aufgestellte Kameras vorgesehen, die beweglich angeordnet sind und/oder zur Aufnahme eines bewegten Objekts geeignet sind. Ähnlich wie bei den bereits beschriebenen Verfahren wird eine Kamera als Referenzkamera ausgewählt und es werden im Verhältnis zu dem von dieser Kamera aufgenommenen Bild in den von den anderen Kameras aufgenommenen Bildern übereinstimmende Punkte gesucht, die als Grundlage für die Berechnung der Voxel-Inhalte dienen.
Aus der US-PS 4 825 393, US-PS 5 432 712, US-PS 5 577 130, US-PS 5 561 526 und US-PS 4 654 872 sind jeweils Verfahren zum Ausmessen dreidimensionaler Gegenstände bzw. zur Ab-
Standsmessung bekannt, die auf von der Binokularmethode ausgehenden komplexen Berechnungen beruhen.
Die Firma Kaidan, Feasterville, Pennsylvania, USA, bietet unter der Bezeichnung Meridian C-60 ein Fotografiergerüst an, das eine im wesentlichen C-förmige Schiene umfaßt, entlang deren Innenseite eine Kamera verfahrbar angeordnet ist. Das zu fotografierende Objekt wird auf einem Drehteller derart angeordnet, daß die entlang der Schiene verfahrbare Kamera in vertikaler Richtung um das Objekt verstellbar ist.
Bei den bekannten Systemen und Verfahren ist nachteilig, daß sie aufgrund der notwendigen komplexen Berechnungsmethoden zur Erstellung der dreidimensionalen Polygondatensätze Datenverarbeitungsanlagen mit sehr großer Rechnerleistung benötigen. Ein weiterer Nachteil ist, daß nicht nur zur Berechnung der Polygondatensätze sondern auch auf Seiten des Nutzers große Rechnerleistungen erforderlich sind, um die empfangenen Daten verarbeiten und erfaßte Objekte darstellen zu können.
Demgegenüber wird ein Verfahren mit den Merkmalen des Anspruchs 1 und ein System mit den Merkmalen des Anspruchs 19 vorgeschlagen. Vorteilhafte Weiterbildungen ergeben sich aus den Unteransprüchen.
Bei dem erfindungsgemäßen Verfahren zur Erfassung und Darstellung dreidimensionaler Objekte wird das zu erfassende Objekt mit mindestens einer Kamera aus mindestens einer Auf ahmerichtung relativ zu dem zu erfassenden Objekt zu mindestens einem AufnähmeZeitpunkt aufgenommen, wobei zwei- dimensionale Bilddaten jeder Aufnahmerichtung aufgenommen werden, so daß für jede Aufnahmerichtung zu jedem Aufnahme- zeitpunkt ein Bilddatensatz erhalten wird. Das Objekt wird
in wenigstens einem Bilddatensatz auf geeignete Weise von dem Hintergrund freigeschnitten. Für mindestens einen Bilddatensatz wird eine Tiefeninformationen bezüglich des Objektes wiedergebende Tiefenmaske ermittelt. Abschließend wird das Objekt mittels mindestens eines Bilddatensatzes mit der dazugehörigen Tiefenmaske dargestellt.
Der aufgenommene Bilddatensatz bzw. die aufgenommenen Bilddatensätze können mit den dazugehörigen Tiefenmasken direkt an eine Wiedergabeneinrichtung zur Darstellung übertragen werden. So können Ereignisse direkt übertragen und dargestellt werden.
Im Gegensatz dazu ist es jedoch auch möglich, die erhaltenen Bilddatensätze mit den dazugehörigen Tiefenmasken auf einem Aufzeichnungsträger aufzuzeichnen.
Bei dem erfindungsgemäßen Verfahren wird somit nicht wie bei bekannten Verfahren ein dreidimensionales Modell des Objekts berechnet und zur Darstellung verwendet. Zur Darstellung dienen die aufgenommenen zweidimensionalen Bilddatensätze mit den entsprechenden Tiefenmasken. Es findet lediglich eine Speicherung zweidimensionaler Daten statt, denen jeweils Informationen zur Tiefe des Objekts in diesem Bilddatensatz zugeordnet sind, anstatt aus einer Fülle aufgenommener zweidimensionaler Daten einen dreidimensionalen Objektdatensatz zu berechnen.
Bereits ein einziger Bilddatensatz mit zugehöriger Tiefenmaske erlaubt es dem Betrachter, das dargestellte Objekt um 15 bis 30 Grad zu drehen und dabei eine räumliche Darstellung des Objekts betrachten zu können.
Vorzugsweise wird, wenn ein bewegtes Objekt zu aufeinanderfolgenden Aufnahmezeitpunkten aufgenommen wird, bei jedem
Bilddatensatz immer nur die Informationen weitergegeben, die dem zuvorerhaltenen Bilddatensatz nicht zu entnehmen sind. Dies führt zu einer erheblichen Verringerung des Datenaufkommens. Zweckmäßigerweise werden jedoch in regelmäßigen Abständen immer wieder sämtliche Informationen übertragen.
Bei dem erfindungsgemäßen Verfahren zur Erfassung dreidimensionaler Objekte wird das zu erfassende Objekt mit mindestens einer Kamera aus mindestens einer Aufnahmerichtung relativ zu dem zu erfassenden Objekt zu mindestens einem AufnahmeZeitpunkt aufgenommen, wobei zweidimensionale Bilddaten jeder Aufnahmerichtung zu jedem Aufn hmeZeitpunkt aufgenommen werden, so daß für jede Aufnahmerichtung ein Bilddatensatz erhalten wird. Das Objekt wird in wenigstens einem Bilddatensatz auf geeignete Weise von dem Hintergrund freigeschnitten. Für mindestens einen Bilddatensatz wird eine Tiefenmaske ermittelt, die Tiefeninformationen bezüglich des Objekt wiedergibt.
Die Tiefenmaske gibt Informationen zu den Tiefen, somit zur räumlichen Anordnung, der Bilddatenpunkte (Pixel) wieder, die im dazugehörigen Bilddatensatz zu erkennen sind. Es wird somit nicht ein dreidimensionales Modell des gesamten Objekts berechnet, sondern die zweidimensionalen Bilddatensätze durch Überziehen der Tiefenmaske mit Tiefeninformationen verbunden.
In einer Ausführungsform wird das Objekt mittels des Blue- box-Verfahrens freigeschnitten. Bei diesem ist darauf zu achten, daß der Hintergrund möglichst einheitlich ist, d.h. eine Hintergrundfläche mit im wesentlichen konstantem Farbton im Farbraum vorgesehen ist.
Bei bewegten Objekten kann das Objekt mittels einer Bewegungsanalyse freigeschnitten werden.
Die Tiefenmaske wird vorzugsweise mit dem Silhouetten- schnittverfahren ermittelt. Eine weitere Möglichkeit zum Ermitteln der Tiefenmaske stellt das Stereoberechnungsverfahren dar. Im Gegensatz zum Stereoberechnungsverfahren ist das Silhouettenschnittverfahren weniger aufwendig und mit diesem sind schneller Ergebisse zu erzielen.
Weiterhin ist es möglich, für ein bewegtes Objekt die Tiefenmaske mit dem Bewegungsverfahren zu ermitteln. Auch das Projektionsverfahren, bei dem ein Muster auf das zu erfassende Objekt projiziert wird, eignet sich zur Ermittlung der Tiefenmaske.
Sind mehrere Kameras vorgesehen, wird vorzugsweise eine der Kameras als Steuerkamera bezüglich eines bewegten Objekts ausgerichtet und die anderen Kameras richten sich dann in Abhängigkeit der Ausrichtung der Steuerkamera aus.
Ein erfindungsgemäßes Computerprogramm weist Programmcodemittel auf, um alle Schritte des vorstehend beschriebenen Verfahrens durchzuführen. Dieses Computerprogramm wird auf einem Computer oder einer entsprechenden Recheneinheit zur Ausführung gebracht.
Ein erfindungsgemäßes Computerprogrammprodukt weist Programmcodemittel auf, die auf einem computerlesbaren Datenträger gespeichert sind, um das vorstehend beschriebene Verfahren durchzuführen. Die Programmcodemittel sind auf einem computerlesbaren Datenträger gespeichert. Als geeignete Datenträger können EEPROMs und Flashmemories, aber auch CD-ROMs, Disketten oder Festplattenlaufwerke verwendet werden .
Bei dem erfindungsgemäßen Verfahren zur Darstellung dreidimensionaler Objekte wird ein dreidimensionales Objekt mittels mindestens eines Bilddatensatzes mit einer dazugehörigen Tiefenmaske, die Tiefeninformationen bezüglich des Objekts wiedergibt, dargestellt.
In einer vorteilhaften Weiterbildung des erfindungsgemäßen Verfahrens wird die Darstellung des Objekts mit einer Interaktionseinrichtung derart verändert, daß sich die Blickrichtung bzw. der Blickwinkel auf das Objekt ändert, d.h. die Betrachtungsperspektive wird geändert.
Das erfindungsgemäße System zur Erfassung und Darstellung dreidimensionaler Objekte weist mindestens eine Kamera auf, mit der aus mindestens einer Aufnahmerichtung ein zu erfassendes dreidimensionales Objekt zu mindestens einem Auf ah- mezeitpunkt aufgenommen werden kann. Des weiteren sind Berechnungsmittel zum Freischneiden des Objekts in wenigstens einem Bilddatensatz und Rechenmittel zum Ermitteln einer Tiefeninformationen bzgl . des Objekts wiedergebenden Tiefenmaske für mindestens einen Bilddatensatz vorgesehen. Eine Wiedergabeeinrichtung dient zum Darstellen des Objekts mittels mindestens eines Bilddatensatzes mit dazugehöriger Tiefenmaske.
Sind Übertragungsmittel zur direkten Übertragung der Bilddatensätze vorgesehen, ist eine direkte Übertragung möglich. Die Erfindung kann somit auch bei Live-Übertragungen, wie bspw. Sportereignisse, eingesetzt werden.
In einer anderen Ausgestaltung der Erfindung ist ein Aufzeichnungsträger zum Aufzeichnen des mindestens einen Bilddatensatzes mit der dazugehörigen Tiefenmaske vorgesehen. Für diesen Aufzeichnungsträger wird ebenfalls Schutz be-
gehrt . Der erfindungsgemäße Aufzeichnungsträger dient zur Anwendung in einem erfindungsgemäßen System. Auf dem Aufzeichnungsträger ist mindestens ein Bilddatensatz mit einer dazugehörigen Tiefenmaske aufgezeichnet . Die Tiefenmaske gibt Tiefeninformationen bezüglich des darzustellenden Objekts wieder, unter Berücksichtigung der entsprechenden Aufnahmerichtung . Die Tiefenmaske ist über den Bilddatensatz zu ziehen, so daß eine Darstellung des Objekts aus unterschiedlichen Blickrichtungen bzw. Perspektiven möglich ist .
Das erfindungsgemäße System zur Erfassung dreidimensionaler Objekte weist mindestens eine Kamera, mit der aus mindestens einer Aufnahmerichtung ein zu erfassendes dreidimensionales Objekt zu mindestens einem Ausnahmezeitpunkt aufgenommen werden kann, Berechnungsmittel zum Freischneiden des Objekts in wenigstens einem Bilddatensatz und Rechenmittel zum Ermitteln einer Tiefenmaske, die Tiefeninformationen bzgl . des Objekts wiedergibt, auf.
In einer bevorzugten Ausführungsform sind mehrere Kameras vorgesehen. Bei dieser Ausführung dient vorzugsweise eine der Kameras als Steuerkamera, die auf ein bewegtes Objekt ausgerichtet werden kann. Die anderen Kameras richten sich dann in Abhängigkeit der Ausrichtung des Steuerkamera aus, so daß von allen Kameras das Objekt zu jedem Zeitpunkt erfaßt wird.
Das erfindungsgemäße System zur Darstellung eines dreidimensionalen Objekts weist eine Wiedergabeeinrichtung zum Darstellen des Objekts mittels mindestens eines Bilddatensatzes mit dazugehöriger Tiefenmaske auf.
Vorzugsweise ist eine Interaktionseinrichtung vorgesehen, mit der Änderungen der Darstellung des Objekts vorgenommen
werden können, so daß die Blickrichtung bzw. der Blickwinkel auf das dargestellte Objekt verändert werden kann. Der Benutzer kann auf diese Weise die Betrachtungsperspektive vorgeben und je nach Bedarf ändern.
Weitere Vorteile und Ausgestaltungen der Erfindung ergeben sich aus der Beschreibung und der beiliegenden Zeichnung.
Es versteht sich, daß die vorstehend genannten und die nachstehend noch zu erläuternden Merkmale nicht nur in der jeweils angegebenen Kombination, sondern auch in anderen Kombinationen oder in Alleinstellung verwendbar sind, ohne den Rahmen der vorliegenden Erfindung zu verlassen.
Die Erfindung ist anhand von Ausführungsbeispielen in der Zeichnung dargestellt und wird im folgenden unter Bezugnahme auf die Zeichnung näher erläutert .
Figur 1 zeigt eine bevorzugte Ausführungsform eines erfindungsgemäßen Systems zur Erfassung dreidimensionaler Objekte in Draufsicht.
Figur 2 zeigt eine weitere bevorzugte Ausführungsform des erfindungsgemäßen Systems zur Erfassung dreidimensionaler Objekte anhand eines Anwendungsbeispiels .
Figur 3 zeigt eine bevorzugte Ausführungsform zur Darstellung dreidimensionaler Objekte.
Die Figur 1 zeigt zur Veranschaulichung des der Erfindung zugrundeliegenden Prinzips eine bevorzugte Ausführungsform eines erfindungsgemäßen Systems 10 zur Erfassung eines dreidimensionalen Objekts. Es sind zwölf Kameras 12 dargestellt, die um ein zu erfassendes Objekt
14, in diesem Fall ein Vieleck, in definiertem Abstand angeordnet sind. Weiterhin ist eine Zentraleinheit 16 gezeigt, die über Verbindungsleitungen 18 mit den zwölf Kameras 12 verbunden ist.
Die zwölf Kameras 12 ermöglichen die Aufnahme des Objekts aus zwölf verschiedenen Aufnahmerichtungen. Erscheint dies nicht ausreichend, kann das Objekt 14 zusätzlich noch gedreht werden, um dieses aus einer beliebigen Anzahl von Auf ahmerichtungen aufnehmen zu können. Zum Bewegen des Objekts 14 kann zum Beispiel ein Drehteller dienen.
Zur Erfassung des dreidimensionalen Objekts 14 wird dieses mit den zwölf Kameras 12 aus zwölf verschieden Aufnahmerichtungen aufgenommen. So wird für jede Aufnahmerichtung ein Bilddatensatz erhalten. Soll ein bewegtes Objekt 14 erfaßt werden, werden zweckmäßigerweise zu mehreren AufnahmeZeitpunkten jeweils zwölf Bilddatensätze aufgenommen.
Jeder Bilddatensatz enthält somit das Objekt aus einer Aufnahmerichtung betrachtet, mit dem entsprechenden Hintergrund. Zunächst wird üblicherweise in jedem Bilddatensatz das Objekt von seinem Hintergrund freigeschnitten. Hierzu dienen gängige Verfahren, wie bspw. das Bluebox-Verfahren. Hierfür weist der Hintergrund einen im wesentlichen konstanten Farbton im Farbraum auf. Mit einer derartigen Hintergrundfläche, die so ausgestaltet ist, daß sie in jedem von den Kameras aufgenommen Bild im wesentlichen den gesamten Bildhintergrund des aufgenommenen Objekts darstellt, ist eine einfache, klare und eindeutige Abgrenzung des Objekts zum Hintergrund gewährleistet .
Bei einem bewegten Objekt 14 kann das Freischneiden mittels einer Bewegungsanalyse freigeschnitten werden.
Vorzugsweise wird für jeden Bilddatensatz eine Tiefenmaske ermittelt. Die Tiefenmaske gibt Informationen zu der Tiefe, und somit zur räumlichen Anordnung, der Bilddatenpunkte, die im dazugehörigen Bilddatensatz enthalten sind. Es wird kein dreidimensionales Modell des gesamten Objekts 14 berechnet, sondern zu den zweidimensionalen Bilddatensätzen Tiefenmasken ermittelt. Zur Darstellung werden die zweidimensionalen Bilddatensätze durch „Überziehen" der Tiefenmasken mit Tiefeninformationen verbunden.
Die Tiefenmaske kann bspw. mit dem Silhouettenschnitt- verfahren ermittelt werden. Hierzu werden zweckmäßigerweise die Bilddatensätze aller Kameras 12 miteinander verschnitten, und die erhaltenen Tiefenmasken wieder den entsprechenden Bilddatensätzen zugeordnet. Bei dem Sil- houettenschnittverfahren ist von Vorteil, daß die Tiefenmasken verhältnismäßig schnell ermittelt werden können. Vorteilhafterweise werden alle Bilddatensätze zur Berechnung der Tiefenmasken herangezogen. Es kann jedoch vorgesehen sein, daß nicht für alle Bilddatensätze, somit nicht für alle Aufnahmerichtungen Tiefenmasken erzeugt werden. Die mit Tiefenmasken verbundenen Bilddatensätze dienen zur Darstellung des erfaßten Objekts.
Tiefenmasken sind typischerweise sogenannte Grauwertbilder, in denen unterschiedliche Grautöne verschiedene Tiefen repräsentieren.
Eine weitere Möglichkeit zur Ermittlung der Tiefenmasken stellt das Stereoverfahren dar. Hierfür benötigt man zumindest zwei Kameras 12 oder eine Stereokamera. Da die
relative Position der Kameras 12 zu dem Objekt bei diesem Verfahren bekannt ist, kann durch Vergleich einzelner Bildpunkte in den aufgenommen Bildern jedem dieser Punkte eine Tiefe zugeordnet werden. Anhand der Tiefeninformationen können auch Objekte voneinander und vom Hintergrund getrennt werden. So ist es nicht notwendig, das Objekt zunächst freizuschneiden und anschließend die Tiefenmaske zu ermitteln.
Für bewegte Objekte 14 können die Tiefenmasken auch mit dem Bewegungsverfahren ermittelt werden. Bei diesem werden zeitlich aufeinanderfolgende Bilddatensätze miteinander verglichen und aufgrund der Änderung des Orts bestimmter Punkte auf deren Tiefe geschlossen. Durch die Beobachtung und Verarbeitung aufeinanderfolgender Bilder können sich bewegende Objekte von sich anders bewegenden oder stillstehenden Objekten (Hintergrund) getrennt werden. Durch eine Geschwindigkeitsanalyse kann eine Tiefenmaske erzeugt werden. Auch bei diesem Verfahren ist es nicht notwendig, zuerst das Objekt vor der Ermittlung der Tiefenmaske freizuschneiden.
Ein weiteres Verfahren zur Ermittlung der Tiefenmasken stellt das sogenannte Projektionsverfahren dar. Hierbei wird ein Muster auf ein Objekt projiziert. Da die Geometrie des Musters bekannt ist, kann durch dessen Verzerrung auf der Objektoberfläche auf die Tiefe der Bildpunkte des Bilddatensatzes geschlossen werden. Damit das Muster für einen Betrachter nicht zu erkennen ist, arbeitet man im nichtsichtbaren Bereich, z.B. im ultravioletten oder im infraroten Bereich des Spektrums.
Es ist möglich, nur eines dieser beschriebenen Verfahren zur Erzeugung der Tiefenmaske anzuwenden. In einer vorteilhaften Ausgestaltung der Erfindung werden die Ver-
fahren miteinander kombiniert . Das System kann selbständig entscheiden, welches Verfahren wann anzuwenden ist. Grundsätzlich können die Verfahren beliebig kombiniert werden. So kann bspw. das Objekt 14 mittels einer Bewegungsanalyse freigeschnitten und die Tiefenmasken mit dem Silhouettenschnittverfahren ermittelt werden.
In der in Figur 1 gezeigten Ausführungsform des erfindungsgemäßen Systems 10 sind die Berechnungsmittel zum Freischneiden des Objekts und die Rechenmittel zum Ermitteln der Tiefenmasken in der Zentraleinheit enthalten. Es ist aber auch durchaus denkbar, daß jeder Kamera 12 eine Recheneinheit zugeordnet ist, die die notwendigen Rechenoperationen durchführt .
Bei dem in Figur 1 gezeigten System 10 sind alle Kameras 12 in einer horizontalen Ebene angeordnet. Es ist aber auch durchaus möglich, die Kameras 12 vertikal versetzt zueinander anzuordnen.
In Figur 2 ist eine weiter Ausführungsform eines erfindungsgemäßen Systems 20 dargestellt. Das System 20 dient in der gezeigten Darstellung zur Aufnahme eines Fußballspiels. Figur 2 zeigt stark vereinfacht ein Fußballfeld 22, das von einem Seitenstreifen 24 umgeben ist, auf dem acht Kameras 26 angeordnet sind. Eine der Kameras 26 dient als Steuerkamera 28.
In der Darstellung ist auf dem Fußballfeld 22 lediglich ein Fußball 30 dargestellt.
Die Steuerkamera 28 wird dem bewegten Fußball 30 nachgeführt. Die anderen Kameras 26 richten sich in Abhängigkeit der Ausrichtung der Steuerkamera 28 aus, so daß alle Kameras 26, 28, nämlich die Steuerkamera 28 und die
anderen sieben Kameras 26, einen räumlichen Bereich, in dem sich der Fußball 30 befindet, aufnehmen.
Vorzugsweise wird ein Computerprogramm verwendet, das die verschiedenen Kamerazustände und Ausrichtungen aller Kameras 26, 28 zu jedem Zeitpunkt verfügbar macht. Dieses Computerprogramm steuert nicht nur die Aufnahmeprozesse (Live-Übertragung) sondern auch die Kameras 26, 28 (Zoom, Bewegung und Objektverfolgung) automatisch oder teilautomatisiert .
Die Steuerkamera 28 und die anderen Kameras 26 liefern in regelmäßigen Abständen Bilddatensätze, die das zu beobachtende Objekt, in diesem Fall den Fußball 30, aus unterschiedlichen Aufnahmerichtungen zeigen. Diese Informationen werden über Datenleitungen 32 zu einer Zentraleinheit 34 übertragen. In dieser Zentraleinheit 34 sind Berechnungsmittel und/oder Rechenmittel zum Frei- schneiden des Fußballs 30 und zum Ermitteln der Tiefenmasken enthalten. Das ganze System 20 kann aber auch dezentral aufgebaut sein, indem jeder der Kameras 26, 28 eine Recheneinheit zugeordnet ist .
Ein besonderer Vorteil des erfindungsgemäßen Systems ist, daß nur eine relativ geringe Datenmenge übertragen werden muß. Die Informationen bezüglich des Hintergrunds, wie Tribüne, Fußballfeld usw. werden nur zu Beginn oder in regelmäßigen Abständen erfaßt und verarbeitet.
Die Zentraleinheit 34 ist über eine Verbindung 36 mit einem Übertragungsmittel 38 verbunden. Dies ist üblicherweise eine Funkeinheit, mit der die erhaltenen Daten zu beliebig vielen Nutzern übertragen werden können. Die Erfindung ermöglicht somit eine Live-Übertragung.
Weiterhin ist ein Aufzeichnungsgerat 40 mit einem darin befindlichen Aufzeichnungsträger 42 vorgesehen. Die erhaltenen Daten, die sogenannten Datenstreams, d.h. die Bilddatensätze mit zugehörigen Tiefenmasken, können auf dem Aufzeichnungsträger 42 gespeichert werden. Die Datenübertragung von der Zentraleinheit 34 zum Aufzeichnungsgerät 40 erfolgt über eine Verbindungsleitung 44.
Die Datenstreams enthalten zweidimensionale Bilddaten, denen jeweils Informationen zur Tiefe des Fußballs 30 in diesem Bilddatensatz zugeordnet sind. Typischerweise sind alle Tiefeninformationen des gesamten Bildes vorhanden. Das heißt, daß Tiefeninformationen zu allen Objekten, also auch zu den in der Figur nicht dargestellten Spielern und zum Fußballfeld 22 vorhanden sind. Vorzugsweise ist der Umfang bzw. die Dichte der Tiefeninformationen abhängig von der Relevanz des zugehörigen Objekts, so daß ein Gradient . in der Tiefeninformationsdichte zu verzeichnen ist.
Um eine weitere Datenreduktion zu erzielen, werden nicht ständig sämtliche Informationen der Bilddatensätze an das Übertragungsmittel 38 übertragen bzw. auf dem Aufzeichnungsträger 42 aufgezeichnet. Zunächst werden im sogenannten Keyframe 100% der Daten übertragen bzw. aufgezeichnet. Zum nächsten Aufnahmezeitpunkt werden im sogenannten p-frame bspw. nur 30% der Daten übertragen und anschließend im sogenannten i-frame bspw. lediglich 10%. Bei dieser inkrementeilen Methode werden immer nur die Informationen übertragen, die dem Bilddatensatz des vorigen Aufnahmezeitpunkts nicht zu entnehmen sind. In regelmäßigen Abständen werden aber wieder alle Daten übertragen, um eine Fehlerkorrektur vornehmen zu können.
Dieses Verfahren ist dem m-peg-Verfahren sehr ähnlich und kann sogar wie dieses aufgebaut sein. Da der gesamte Kameraerfassungsraum bekannt ist, wobei zu beachten ist, daß der virtuelle Kameraraum der bewegten Kamera viel größer ist als der des momentanen Ausschnitts, kann der gesamte Kameraerfassungsraum im Vorfeld, also vor Beginn des Spiels, in maximaler Genauigkeit aufgenommen und übertragen werden. Der später aufgenommene Datenstream bzw. Stream wird dann in dieses viel größere Umfeld (virtuelle Bild) eingeblendet. Dies führt zu einer erheblichen Datenreduktion bei Live-Sendedaten.
Für eine weitere Fehlerkorrektur empfiehlt es sich, zu etwa einhundert Aufnahmezeitpunkten pro Sekunde Bilddatensätze zu erstellen und durch eine Mittelwertbildung die aufgetretenen Fehler zu kompensieren. Zu Darstellung bewegter Objekte sind nur etwa 25 Bildatensätze pro Sekunde notwendig .
Als Kameras 26, 28 dienen vorzugsweise CCD-Kameras oder auch CMOS- oder HDRC-Kameras oder jede andere Art digitaler Kamera.
Bei einer Fußballübertragung wird in der Regel die Steuerkamera 28 von einem Kameramann bedient. Das vorstehend beschriebene System kann vollautomatisch alle anderen Kameras 26 und die erforderlichen Prozesse steuern, um die notwendigen Datenströme zu erzeugen. Die anderen Kameras 26 werden in ihrer Funktion in Abhängigkeit der Steuerkamera 28 nachgeführt.
Bei der Übertragung können virtuelle oder reale Hintergründe verwendet werden. Ein realer Hintergrund kann vor oder nach dem Sportereignis aufgenommen werden. Es können bspw. 360 Bilder eines Stadions aufgenommen werden
und später die entsprechende Hintergrundaufnahme im Darstellungsprogramm eingeblendet werden. Dies ist vorteilhaft, da so im Vorfeld der gesamte Kameraerfassungsraum, der viel größer als der des momentanen Ausschnitts ist, in maximaler Genauigkeit aufgenommen werden kann. Der spätere Stream wird dann in dieses zuvor aufgenommene, virtuelle Bild eingeblendet, so daß eine Datenreduktion für Live-Sendedaten erreicht wird.
Figur 3 zeigt ein erfindungsgemäßes System 50 zur Darstellung dreidimensionaler Objekte. Zu erkennen ist eine Wiedergabeeinrichtung 52, in diesem Fall ein Monitor. Als System zur Darstellung können auch Standardrechner oder Internetboxen (Settop Box) verwendet werden.
Die Wiedergabeeinrichtung 52 ist über Datenleitungen 54 mit einer Empfangseinheit 56 und einem Abspielgerät 58 verbunden. In dem Abspielgerät 58 befindet sich ein Aufzeichnungsträger 60. Über die Empfangseinheit 56 oder von dem Aufzeichnungsträger 60 empfängt die Wiedergabeeinrichtung die darzustellenden Daten. In diesem Fall ist ein Fußball 62 als darzustellendes, dreidimensionales Objekt zu erkennen. Außerdem zeigt die Wiedergabeeinheit 52 andere Objekte, wie bspw. die Spieler, das Fußbailfeld 22 und auch die Tribüne mit den auf dieser sitzenden Zuschauern.
Die Wiedergabeeinheit 52 empfängt die von einem erfindungsgemäßen System zur Erfassung dreidimensionaler Objekte erfaßten Datenströme bzw. Datenstreams. Jeder Datenstrom enthält eine Abfolge von Bilddatensätzen mit den dazugehörigen Tie enmasken. Dabei ist das Datenaufkommen sehr gering, da die Zusatzinformationen für die Tiefenmasken beispielsweise lediglich l/5 der Informationsmenge der Bilddatensätze aufweisen.
Die Wiedergabeeinheit 52 ist über eine Steuerleitung 64 mit einer Interaktionseinrichtung 66, in diesem Fall eine Computermaus 66, verbunden. Diese Maus 66 kann auf einer Unterlage 68 hin- und herbewegt werden. Mit der Maus 66 kann der Nutzer die Blickrichtung auf den Fußball 62 bestimmen, d.h. er kann bestimmen, von welcher Position aus er das Spiel betrachtet .
Die Maus 66 weist eine erste Maustaste 70 und eine zweite Maustaste 72 auf . Durch Drücken der ersten Maustaste 70 und Bewegen der Maus 66 kann der Nutzer beispielsweise die Blickrichtung ändern. Durch Drücken der zweiten Maustaste 72 und Bewegen der Maus 66 kann er sich in einem auf dem Aufzeichnungsträger 60 gespeicherten Film zeitlich vor- und zurückbewegen. Es können durchaus auch weitere Interaktionsmöglichkeiten, wie bspw. ein Joystick oder ein Tracker, vorgesehen sein. Diese können die Maus 66 ersetzen oder zusätzlich zu der Maus 66 vorgesehen sein.
Die Wiedergabeeinrichtung 52 empfängt ankommende Daten- strδme. Jede Kamera 26, 28 liefert eine Abfolge von Bilddatensätzen, nämlich einen Film, der Zusatzinformationen (Tiefenmasken, Kameradaten, Kameraposition, Kameraorientierung usw.) mit sich führt. Die Filme werden bevorzugt der Wiedergabeeinrichtung 52 synchron als einzelne Datenströme bzw. Datenstreams zugeführt. Die Wiedergabeeinrichtung 52 verwaltet die verschiedenen Kameras 26, 28 und kann die jeweiligen Filme der Kameras 26, 28 und die Zusatzinformationen miteinander verbinden. Die Wiedergabeeinrichtung 52 stellt den Film der einzelnen Kameraperspektiven so dar, daß für den Benutzer ein lückenloser Übergang von der einen Kameraperspektive zur nächsten entsteht. Dabei müssen nicht alle zur Verfügung
stehenden Filme berechnet oder übertragen werden. Es reicht sogar ein Film für ein begrenztes Ändern der Beobachterperspektive. Es können bspw. die Filme dreier Kameras, die jeweils um 120 Grad zueinander versetzt stehen, verwendet werden. Die Zwischenbilder werden in diesem Fall etwas weniger exakt dargestellt. Der übertragene Film bzw. die übertragenen Filme werden mit den zur Verfügung stehenden Zusatzinformationen verzerrt.
Dieses Verzerren kann man sich in etwa so vorstellen: Der ankommende Film einer Kamera wird auf eine Gummiwand projiziert und diese Gummiwand kann durch Zusatzinformationen verzerrt werden. Der Benutzer steuert durch Bedienung der Maus 66 die Verzerrung der Gummiwand und wechselt so von einer Kameraperspektive zur nächsten und hat auch die Möglichkeit, Zwischenpositionen einzunehmen.
Der Benutzer kann mit der Maus 66 an der Wiedergabeeinrichtung 52 interaktiv selbst wählen, welche Perspektive er einnehmen will, um den Film zu betrachten. Er kann zu jedem Zeitpunkt eine beliebige Betrachtungsposition einnehmen.
Im Gegensatz zu bekannten Verfahren wird somit nicht ein dreidimensionales Modell eines Objekts berechnet und zur Darstellung verwendet'. Bei dem erfindungsgemäßen Verfahren werden die aufgenommenen zweidimensionalen Bilder mit den ermittelten, dazugehörigen Tiefenmasken benutzt, um erfaßte Objekte darzustellen. Der Nutzer benötigt keine Datenverarbeitungsanlage mit hoher Rechenleistung. Er kann das Objekt ohne komplizierte Berechnungsverfahren darstellen.