WO2015082557A1

WO2015082557A1 - System zum interaktiven aufführen einer darstellung auf einer virtuellen bühne

Info

Publication number: WO2015082557A1
Application number: PCT/EP2014/076447
Authority: WO
Inventors: Salvatore Vanasco; Laszlo Puskas
Original assignee: Smjl Gmbh
Priority date: 2013-12-03
Filing date: 2014-12-03
Publication date: 2015-06-11
Also published as: DE102013224785A1

Abstract

Gegenstand der Erfindung ist ein System zum interaktiven Aufführen einer Darstellung auf einer virtuellen Bühne.Betreiberseitig ist ein Datenverarbeitungssystem(Core) vorhanden mit einem Medienserver (18), der die Mediendaten einer Aufführung enthält; einem Autorisierungsserver (19), der Teilnehmern anhand eines Zeitplans Mediendaten umfassend Szenenbilder, Ablaufsteuerungs-und Regieanweisungen übermittelt; einem Synchronisationsserver (20), der Mediendaten von dem Medienserver (18)und von Teilnehmern zeitlich synchronisiert zusammenführt; und einem Aufzeichnungs- server (21), der synchronisierte Mediendaten von dem Medienserver (18)und von Teilnehmern aufzeichnet und Teilnehmern als Videostream und/oder Videodatei zugänglich macht. Teilnehmerseitig ist ein Datenverarbeitungssystem (Client) vorhanden mit Einrichtungen zur Aufzeichnung und Wiedergabe von Video-und Audiodaten; einem Streaming-Client, der zur Wiedergabe von Mediendaten umfassend Szenenbilder und Regieanweisungen des Autorisierungsservers (19) ausgebildet ist; sowie einem Media-Client, der zur Übermittlung von Video-und Audiodaten an den Synchronisationsserver (20)ausgebildet ist.

Description

System zum interaktiven Aufführen einer Darstellung auf einer virtuellen Bühne

Die Erfindung betrifft ein System zum interaktiven Aufführen einer Darstellung auf einer virtuellen Bühne. Die Online-Zusammenarbeit oder das Online-Zusammenspielen mehre^¬ rer Akteure auf einer gemeinsamen elektronischen Plattform ist aus offenkundiger Vorbenutzung bekannt. Beispielsweise offenbart WO/67759 AI ein System, in dem verschiedene räum^¬ lich getrennte Benutzer in einem eigenen virtuellen Raum als Schauspieler bzw. Akteure handeln und die Art ihrer Darstellung unabhängig bestimmen können.

Es ist Aufgabe der vorliegenden Erfindung, ein System der eingangs genannten Art zu schaffen, das eine virtuelle Auf^¬ führung einer Darstellung wie beispielsweise einem Theaterstück mit mehreren räumlich voneinander entfernten Teilnehmern ermöglicht.

Gelöst wird diese Aufgabe durch ein System zum interaktiven Aufführen einer Darstellung auf einer virtuellen Bühne, das aufweist : a. betreiberseitig ein Datenverarbeitungssystem

(Core) mit: i. einem Medienserver, der die Mediendaten einer Aufführung enthält, ii. einem Autorisierungsserver, der Teilnehmern anhand eines Zeitplans Mediendaten umfassend Szenenbilder, Ablaufsteuerungs- und Regieanweisungen übermittelt, iii. einen Synchronisationsserver, der Mediendaten von dem Medienserver und von Teilnehmern zeitlich synchronisiert zusammenführt, iv. einen AufZeichnungsserver, der synchronisierte Mediendaten von dem Medienserver und von Teilnehmern aufzeichnet und Teilnehmern als Videostream und/oder Videodatei zugänglich macht, teilnehmerseitig ein Datenverarbeitungssystem (Client) mit: i. Einrichtungen zur Aufzeichnung und Wiedergabe von Video- und Audiodaten, ii. einem Streaming-Client, der zur Wiedergabe von Mediendaten umfassend Szenenbilder und Regieanweisungen des Autorisierungsservers ausgebildet ist, iii. einem Media-Client, der zur Übermittlung von Video- und Audiodaten an den Synchronisati^¬ onsserver ausgebildet ist. Zunächst seien einige im Rahmen der Erfindung verwendete Begriffe erläutert. Eine Darstellung im Sinne der Erfindung ist beispielsweise ein Theaterstück, ein Rollenspiel (bei^¬ spielsweise auch im Rahmen von Lernprogrammen) oder der- gleichen. Eine interaktive Aufführung bedeutet, dass die

Teilnehmer der Aufführung darauf innerhalb eines vorgegebe^¬ nen Rahmens Einfluss nehmen können, dieser kann umfassend sein oder sich beispielsweise darauf beschränken, dass ein Teilnehmer durch den Abschluss eines bestimmten Beitrags bzw. einer Darbietung den Fortgang der Aufführung triggert bzw. die Darbietung eines weiteren Teilnehmers initiiert o-

Teilnehmer im Sinne der Erfindung sind passive Konsumenten bzw. bevorzugt aktiv Beitragende zu der Aufführung.

Eine virtuelle Bühne ist eine Bühne, auf der die Beiträge verschiedener Teilnehmer zusammengeführt und in einen Rahmen wie beispielsweise ein Bühnenbild oder dergleichen ein- gepasst werden. Die Darstellung bzw. Aufführung auf der virtuellen Bühne ist für Teilnehmer oder für Dritte sichtbar bzw. wahrnehmbar.

Der Betreiber stellt das erfindungsgemäße System Teilneh- mern zur Verfügung. Er enthält ein als Core bezeichnetes

Datenverarbeitungssystem, das vier unten erläuterte Server beinhaltet. Der Begriff Server ist in diesem Kontext funktional zu verstehen und bezeichnet Rechnereinheiten oder Rechnerteile, die die beschriebenen Funktionen auszuführen in der Lage sind.

Der Medienserver enthält die Mediendaten einer Aufführung. Es handelt sich um diejenigen Daten, die den vorgegebenen Rahmen beispielsweise eines Theaterstücks abstecken und de^¬ finieren. Es handelt sich dabei um die Multimedia-Daten einer Inszenierung sowie Daten für deren zeitliche Steuerung. Darunter fallen beispielsweise Bühnenbilder, zugehörige Au- dio, Bild- und/oder Videodateien, Regieanweisungen für

Teilnehmer, Einsatzsignale, die einzelnen Teilnehmern anzeigen, wann deren Beitrag bzw. Darstellung zu beginnen hat und dergleichen. Der Medienserver enthält somit diejenigen Daten, die Struktur und bestimmte Teile einer Aufführung wie insbesondere beispielsweise die Bühnengestaltung vorge^¬ ben .

Der Autorisierungsserver übermittelt Teilnehmern anhand eines Zeitplans (ein vom Medienserver stammender Zeitplan, der die Struktur bzw. Gestaltung der Aufführung vorgibt) Mediendaten umfassend Szenenbilder, Ablaufsteuerungs- und Regieanweisungen. Die Szenenbilder zeigen den Teilnehmern beispielsweise den Hintergrund oder das Bühnenbild, vor dem sie ihre Darstellung präsentieren sollen. Ablaufsteuerungs- signale geben beispielsweise Beginn und vorgesehenes Ende einer Darstellung vor. Regieanweisungen können Anweisungen zum vorgegebenen Inhalt einer vom Teilnehmer geforderten Darstellung enthalten. Der Synchronisationsserver führt Mediendaten von dem Medienserver und von Teilnehmern zeitlich synchronisiert zusammen. Zeitlich synchronisiert bedeutet, dass die Darstellun^¬ gen der Teilnehmer und damit die entsprechenden Mediendaten so in die vorgegebenen Mediendaten des Medienservers (bei- spielsweise das Bühnenbild) eingefügt werden, dass ein ko^¬ härenter und in sich geschlossener Ablauf der Aufführung entsteht. Der Synchronisationsserver kann gemäß einem vorteilhaften Aspekt der Erfindung insbesondere den zeitlichen Ablauf der Aufführung (ggf. innerhalb vorgegebener Grenzen) an die Darstellung der Teilnehmer anpassen und somit dafür sorgen, dass beispielsweise ein neues Bühnen- bzw. Szenenbild erst dann beginnt, wenn ein Teilnehmer seine vorherige Darstellung tatsächlich abgeschlossen hat.

Der Aufzeichnungsserver zeichnet die synchronisierten Mediendaten vom Medienserver und den Teilnehmern auf und macht sie Teilnehmern und/oder ggf. unbeteiligten Dritten als Vi- deostream (in der Regel inkl. Audio) oder Videodatei zu^¬ gänglich .

Die Erfindung erlaubt es, dass eine Mehrzahl von räumlich entfernten Teilnehmern gemeinsam an einer Aufführung mit- wirken und sich dabei auf einer gemeinsamen virtuellen

Bühne befinden. Eine gemeinsame und kohärente Aufführung wird insbesondere durch den Synchronisationsserver gewährleistet, der dafür sorgt, dass die einzelnen Beiträge zu der Aufführung (die Mediendaten der Teilnehmer) zeitlich synchronisiert in die gesamte Aufführung eingepasst werden. Der Synchronisationsserver erlaubt dabei in gewissem Umfang eine zeittolerante Gestaltung dahingehend, dass beispiels^¬ weise mit dem Fortgang der Aufführung gewartet wird, bis ein bestimmter Teilnehmer seine Darstellung abgeschlossen hat.

Teilnehmerseitig enthält das erfindungsgemäße System ein als Client bezeichnetes Datenverarbeitungssystem mit Einrichtungen zur Aufzeichnung und Wiedergabe von Video- und Audiodaten (Kamera, Mikrofon, Bildschirm und Lautsprecher) sowie einem Streaming-Client, der zur Wiedergabe von Medi^¬ endaten ausgebildet ist. Es handelt sich dabei sowohl um Szenenbilder als auch (fakultativ) beispielsweise um Regieanweisungen oder andere Instruktionen, die den Teilnehmer beispielsweise beim Einsatz oder der Durchführung oder Gestaltung seiner Darstellung Hilfestellung leisten können. Ein weiterer Aspekt des Client ist ein Media-Client, der zur EchtZeitübermittlung von Video- und Audiodaten an den Synchronisationsserver ausgebildet ist. Dieser Media-Client übermittelt die Darstellung des Teilnehmers an das betrei^¬ berseitige Datenverarbeitungssystem, dort den Synchronisa- tionsserver, der die verschiedenen Darstellungen der verschiedenen Teilnehmer dann zu einer Aufführung zusammenfügt .

Gemäß einem besonders vorteilhaften Aspekt der Erfindung sind das betreiberseitige Datenverarbeitungssystem und das teilnehmerseitige Datenverarbeitungssystem mittels einer nicht echtzeitfähigen Datenverbindung, vorzugsweise über das Internet, miteinander verbunden. Gemäß diesem besonders vorteilhaften Aspekt der Erfindung ist es Teilnehmern möglich, auf einer virtuellen Bühne gemeinsam eine Aufführung zu gestalten, ohne dass zu diesem Zweck zwischen den Teilnehmern und dem betreiberseitigen Datenverarbeitungssystem aufwendige echtzeitfähige Daten- Verbindungen bestehen müssen. Der Synchronisationsserver erlaubt durch seine beschriebene, in gewissem Umfang beste^¬ hende Zeittoleranz auch, dass beispielsweise durch Latenzen bei der Internetübertragung verursachte Verzögerungen ausgeglichen werden.

Gemäß einem weiteren besonders vorteilhaften Aspekt der Erfindung überträgt der Autorisierungsserver einem Client Me- diendaten umfassend beispielsweise Szenenbilder und Regie^¬ anweisungen mit einem zeitlichen Vorlauf, diese Daten werden auf dem Client gespeichert („precached" ) vorgehalten. Diese Übermittlung mit zeitlichem Vorlauf und die Zwischen- speicherung auf dem Client erlaubt es, vorhandene Latenzen beispielsweise in einer nicht echtzeitfähigen Internetumge^¬ bung weitgehend bzw. vollständig auszugleichen.

Gemäß einer weiteren Ausführungsform der Erfindung sind Core und Client über zwei virtuelle Kanäle miteinander ver^¬ bunden, von denen der erste Kanal zur Übermittlung zeitkritischer Information und der zweite Kanal zur weniger zeitkritischen Datenübertragung ausgebildet ist. Der erste Kanal kann erfindungsgemäß bevorzugt zur Übermittlung von Be- fehlen oder Handlungsaufforderungen („request") vom Autori- sierungsserver an den Client ausgebildet sein. Der Begriff Befehl oder Handlungsaufforderung ist im Rahmen der Erfindung weit zu verstehen und umfasst sowohl Anweisungen an den Client als auch konkrete Handlungsaufforderungen an den agierenden Teilnehmer. Interne Befehle oder Anweisungen an den Client können beispielsweise eine zeitliche Steuerung der Darstellung von vorgespeicherten (precached) Inhalten auf dem Bildschirm des Client sein. Gemäß diesem Aspekt der Erfindung können über den ersten Kanal insbesondere wenig datenintensive, aber dafür zeitkritische Daten übertragen werden. Die geschilderte Handlungsaufforderung („request") ist beispielsweise eine solche zeitkritische Information. Kommt es beispielsweise durch Verzögerungen in den Darstel^¬ lungen der Teilnehmer oder Latenzen bei der Datenübertra- gung zu einer zeitlichen Verzögerung im Ablauf der Aufführung, muss einem nachfolgenden Teilnehmer sein Signal zum Einsatz (Handlungsaufforderung) in Echtzeit oder ohne nachteilig auffallende Verzögerung übermittelt werden können, damit seine Darstellung nahtlos an das Ende einer vorlau^¬ fenden Darstellung anschließen kann. Eine solche Handlungsaufforderung kann nicht precached werden, da sie erst dann abgeschickt werden kann, wenn die vorlaufenden Teile der Aufführung abgeschlossen sind. Die erfindungsgemäße Gestal^¬ tung mit zwei virtuellen Kanälen erlaubt es, solche zeit^¬ kritischen, wenig datenintensiven Informationen wie beispielsweise die genannten Handlungsaufforderungen im Wesentlichen in Echtzeit zu übermitteln.

Bevorzugt wird zwischen dem teilnehmerseitigen System (Client) und dem betreiberseitigen System (Core) permanent eine Verbindung vorgehalten. Beispielsweise kann hierfür das Co- met-Webapplikationsmodell verwendet werden (http://en.wi- kipedia . org/wiki/Comet_ (programming) ) . Comet ist ein

Webapplikationsverfahren, bei dem ein Webserver Daten zu einem Web-Browser pusht, ohne dass der Browser diese Daten explizit angefordert hat. Im Detail wird hierfür die Eigen^¬ heit des HTTP-Protokolls genutzt, Verbindungsanfragen bis zu einer gewissen Zeit aufrecht zu erhalten, bis sie auto^¬ matisch geschlossen werden. Üblicherweise wird bei einer Anfrage erst die Verbindung aufgebaut und danach direkt die Daten versendet. Somit muss die für den Verbindungsaufbau benötigte Zeit stets mit einkalkuliert werden. Erfindungs- gemäß wird der Verbindungsaufbau zu einem Zeitpunkt ausge^¬ führt (beziehungsweise erneuert nach Ablauf der Verbin^¬ dungszeit) , an dem keine Daten zu senden sind. Das Senden eines Signals für das Ende der Darstellung eines Teilnehmers schließt diese offene Verbindung augenblicklich.

Trifft dieses Signal beim Core ein, sendet dieser nun auf einer ebenfalls permanent offenen Verbindung das Signal für den nächsten Handlungseinsatz an den nächsten Teilnehmer, der nun an der Reihe ist. Das führt dazu, dass dieser schon zum tatsächlichen Ende des Einsatzes des zuvor agierenden Teilnehmers darüber informiert wird, dass er nun als nächs^¬ tes „dran" ist. Um für ein weiteres Signal empfangsbereit zu sein, wird nun sofort eine andere Verbindung zwischen Client und Core geöffnet. Durch dieses ständige Offenhalten einer Verbindung können zeitkritische Signale (Trigger, re- quests) , die das Ende einer Darstellung signalisieren oder Handlungsaufforderungen für Teilnehmer sind, quasi in Echtzeit übermittelt werden. Erfindungsgemäß wird diese Form der Datenübertragung bevorzugt eingesetzt, sofern der Einsatz nicht ausgeschlossen ist, wie zum Beispiel bei der Videoübertragung selbst. In der Praxis führt das zu deutlich kürzeren menschlichen Reaktionszeiten, auch wenn die eigentliche Videoübertragung nicht beschleunigt wird. Außen- stehende Zuschauer empfinden die Aufführung durch die Beschleunigung ebenfalls natürlicher. Eine weitere Maßnahme zur Unterbindung wahrnehmbarer Zeitverzögerungen auf Seite der Teilnehmer wird durch die getrennte Behandlung der eingehenden Videodaten der anderen Teilnehmer und den eigenen bereitgestellten Videodaten ergriffen. Während die Daten anderer Teilnehmer über das Netzwerk übertragen werden, erfolgt die Einblendung des vom Teilnehmer selbst erzeugten Videobildes direkt im Client. Die nötigen Rendering- und Bildkompositionsprozesse müssen dafür zumindest für die Bildbereiche des Teilnehmers auf dem Client durchgeführt werden. Hierdurch erhöht sich natürlich die Leistungsanforderung an das teilnehmerseitige System. Da bei einer räum^¬ lich verteilten Gesprächssituation kein Referenzpunkt zum tatsächlichen Verhalten der anderen Teilnehmer besteht, ist der Aufführungsverlauf nun auch visuell natürlich, man sieht sich selbst nicht um die Zeit der oben genannten Übertragungslatenzen verzögert dargestellt. Bei einer virtuellen Aufführung mit einer Mehrzahl von Teilnehmern wird es nicht immer möglich sein, verlässlich für die Besetzung aller Rollen in der Aufführung durch Teilnehmer zu sorgen. Um dennoch den Ablauf der Aufführung auch mit einer Unterzahl von Teilnehmern zu ermöglichen, können erfindungsgemäß Avatare vorgesehen sein, die nicht durch Teilnehmer besetzte Rollen der Aufführung ausfüllen. Es kann erfindungsgemäß vorgesehen sein, dass der Autori- sierungsserver innerhalb eines vorgegebenen Aktivierungs- Zeitraums zur Entgegennahme einer Mehrzahl von Client-

Ready-Signalen ausgebildet ist. Innerhalb dieses Aktivie^¬ rungszeitraums können sich Teilnehmer für die verschiedenen Rollen der Aufführung anmelden. Nach Ablauf des Aktivierungszeitraums werden noch offene Rollen der Darstellung durch Avatare besetzt, so dass die Aufführung dann mit ei^¬ ner vollständigen Rollenbesetzung beginnen kann. Der Synchronisationsserver ist bevorzugt zum zeittoleranten As- sembling und zur zeittoleranten Synchronisation der Mediendaten von dem Medienserver und von Teilnehmern ausgebildet. Dies erlaubt das Zusammenführen der genannten Daten zu einer geschlossenen Aufführung mit nahtlos aneinander schließenden Handlungen bzw. Darstellungen.

Der Synchronisationsserver ist dabei bevorzugt beim Assemb- ling zur Reaktion auf ein Teilnehmerverhalten ausgebildet. Dieses zu analysierende Teilnehmerverhalten kann beispiels^¬ weise teilnehmerinitiierte Trigger (beispielsweise Beginn und Ende einer Darstellung oder dergleichen) Analyse des vom Client übermittelten Audio- und/oder Videosignals und/oder Worterkennung umfassen. Beispielsweise kann dann auch auf bestimmte erkannte Stichworte hin ein Zusammenfüh^¬ ren mit anderen Mediendaten beginnen bzw. andere Mediendaten einsetzen. Die Mediendaten enthalten bevorzugt einen Ablaufplan, die handelnden Personen und szenische Bestandteile, die mit elektronischen Attributen versehen sind.

Der Aufzeichnungsserver kann zum Zugänglichmachen der synchronisierten Mediendaten in Echtzeit ausgebildet sein, so dass Dritte die virtuelle Aufführung live verfolgen können. Er kann alternativ oder zusätzlich die virtuelle Aufführung speichern und für Teilnehmer oder Dritte als gespeicherte Audio- und/oder Videodatei zugänglich machen.

Die Ablaufsteuerung kann erfindungsgemäß in einem kompakten, maschinenlesbaren Format wie beispielsweise im

JSON(Java Script Object Notation) -Format oder XML-Format programmiert sein.

Ein Ausführungsbeispiel der Erfindung wird nachfolgend an^¬ hand der Zeichnungen beschrieben. Es handelt sich um Ab- laufschemen eines erfindungsgemäßen Systems, das der Übersichtlichkeit halber lediglich zwei Teilnehmer aufweist. In der Zeichnung zeigen:

Fig. 1 a-c: Schematisch den Ablauf einer interakti- ven Aufführung unter Verwendung eines erfindungsgemäßen Systems;

Fig. 2 a-d: Schematisch die Initialisierung einer

Aufführung;

Fig. 3 a und b: Schematisch die Vorgänge bei der Darstellung einer Szene; Fig. 4: Schematisch das Rendering von Audio- und

Videodaten .

Fig. 1 zeigt schematisch eine Abfolge von Ereignissen bei einer interaktiven Aufführung, an der ein betreiberseitiges Datenverarbeitungssystem (Core) und zwei Teilnehmer mit den jeweiligen Clients beteiligt sind. In der Figur verläuft die Zeitachse des Verlaufs der Aufführung von links nach rechts .

Zunächst erfolgt bei 4 eine Initialisierung der Aufführung, in deren Verlauf sich die beiden Teilnehmer am Core anmelden. Sobald die Anmeldung der Teilnehmer erfolgt ist, kann der Core bei 5 einen Einsatzbefehl an den Teilnehmer 1 sen- den, so dass dieser seinen ersten Part in der Aufführung beginnen kann. Um die Übermittlung dieses zeitkritischen Einsatzbefehls in Echtzeit oder wenigstens ohne maßgebliche Verzögerung zu ermöglichen, erfolgt dies in der geschilderten Weise über eine zuvor geöffnete und offen gehaltene Verbindung zwischen dem Core und dem Client 1 beispiels^¬ weise mittels des Comet-Webapplikationsmodells. Der Teil^¬ nehmer 1 spielt seine vorgegebene Rolle, wie bei 6 angedeu^¬ tet. Der Teilnehmer 2 befindet sich gleichzeitig im Warte^¬ zustand. Der Core empfängt die Daten der vom Teilnehmer 1 gespielten Rolle über einen in der Figur nicht dargestellten Datenübertragungskanal (dieser umfasst Videodaten und arbeitet daher nicht notwendigerweise in Echtzeit) und fügt sie mit weiteren Daten vom in der Zeichnung ebenfalls nicht dargestellten Medienserver zu einer vollständigen Szene zu- sammen, wie bei 8 angedeutet. Sobald der Teilnehmer 1 den entsprechenden Part seiner Rolle beendet hat, kann dies der Client 1 entweder selbst ständig erkennen (beispielsweise durch Erkennung des akustischen Endes der Rolle) , oder der Teilnehmer 1 übermittelt aktiv ein Signal, dass sein Part beendet ist. Dieses Signal über das Ende des Einsatzes wird, wie bei 7 angedeutet, vom Client 1 an den Core über^¬ mittelt. Nach Beendigung der Szene des Teilnehmers 1 sendet der Core einen Einsatzbefehl (angedeutet bei 9) an den

Teilnehmer 2, der daraufhin in gleicher Art und Weise seine Rolle spielt, die der Core mit weiteren Mediendaten zu ei^¬ ner Szene zusammenfügt. Nach Beendigung des Einsatzes des Teilnehmers 2 wird das entsprechende Signal bei 10 an den Core übermittelt.

Im weiteren zeitlichen Ablauf dieser Figur wird eine Variante gezeigt, bei der der Teilnehmer 1 den Handlungsablauf beeinflussen kann. Zu diesem Zweck sendet der Core an den Teilnehmer 1 bei 11 eine Frage bzw. Aufforderung zu einer Entscheidung. Der Teilnehmer 1 trifft eine entsprechende Entscheidung und übermittelt diese bei 12 zurück an den Core. Abhängig von dieser Entscheidung trifft der Core bei 13 eine Auswahl aus zwei zur Verfügung stehenden Optionen für den weiteren Verlauf der Aufführung. In der ersten Variante wird bei 14 eine Aufforderung zur Darstellung einer Szene an den Teilnehmer 1 gesendet, in der zweiten Variante bei 15 eine entsprechende Handlungsaufforderung an den Teilnehmer 2.

Bei Abschluss einer Aufführung sendet der Core bei 17 ein entsprechendes Abschlusssignal an die Teilnehmer 1 und 2, die Aufführung ist daraufhin beendet. Die Aufführung kann im Rahmen der Erfindung live Dritten zur Verfügung gestellt werden, sie kann alternativ oder zusätzlich gespeichert und von den Teilnehmern oder Dritten zeitverzögert betrachtet werden . Fig. 2 zeigt schematisch die Vorgänge bei der Initialisie^¬ rung einer Aufführung. Schematisch dargestellt sind hier die Abläufe im Core-System mit dem Medienserver 18, dem Autorisierungsserver 19, dem Synchronisationsserver 20 und dem AufZeichnungsserver 21.

Zu Beginn einer Aufführung lädt der Autorisierungsserver 19 einen Ablauf der vorgesehenen Aufführung, im Ausführungsbeispiel ist dies eine XML-Datei. In der Figur ist dies bei 22 angedeutet. Die Datei enthält den Ablaufplan und die handelnden Personen sowie szenische Bestandteile elektro^¬ nisch attributiert und strukturiert.

Im ersten Schritt eröffnet der Autorisierungsserver 19 den Zugang für die Anmeldung von Teilnehmern. Wie bei 23 angedeutet werden Anmeldungen von Teilnehmern entgegengenommen und die Teilnehmer werden bestimmten Rollen in der Aufführung zugeordnet. Sobald entweder alle Rollen mit Teilnehmern besetzt sind oder aber ein festgelegter Anmeldezeit- räum verstrichen ist, wird der Anmeldevorgang beendet und gegebenenfalls nicht besetzte Rollen werden durch Avatare besetzt (angedeutet bei 24).

Bei 25 sendet der Autorisierungsserver 19 eine so genannte Assetbeschreibung an den Synchronisationsserver 20, diese Assetbeschreibung enthält Informationen über die Mediendaten, die für die vorgesehenen Zeiten der Aufführung benötigt werden. Der Synchronisationsserver 20 fordert anhand dieser Assetbeschreibung vom Medienserver 18 entsprechende Daten wie beispielsweise Szenenbilder an (angedeutet bei

26), empfängt diese aus dem Datenspeicher des Medienservers 18, wie bei 27 angedeutet und organisiert die Datenvorhal^¬ tung (siehe Bezugsziffer 28). Zur Datenvorhaltung gehört auch die Übermittlung beispielsweise von Mediendaten umfassend Szenenbilder, Ablaufsteuerungs- und Regieanweisungen an die Clients der Teilnehmer, die gegebenenfalls auf dem entsprechenden Client precached vorgehalten werden können, und entsprechend dem Ablauf der Aufführung zum Einsatz kommen können, ohne dass größere Datenmengen mit diesen Mediendaten in Echtzeit übermittelt werden müssen. Die Details der Organisation dieser Datenvorhaltung sind in der Figur nicht dargestellt.

Zu der Organisation der Datenvorhaltung gehört auch eine Umwandlung in für den schnellen Zugriff optimierte Dateiformate, beispielsweise können Bilder decodiert und im Speicher abgelegt werden.

Anschließend sendet der Synchronisationsserver 20 ein Signal an den AufZeichnungsserver 21, der, wie bei 29 angedeutet, Livestreams mit den Teilnehmern aufbaut und anschlie^¬ ßend deren Publikationsadressen an den Synchronisationsser- ver 20 sendet. Der Synchronisationsserver 20 baut bei 30 die Verbindung zu den Livestreams der Teilnehmer auf und organisiert einen für die Synchronisation optimierten Zugriff auf die Datenströme. Sobald die Datenvorhaltung orga^¬ nisiert und Verbindungen zu den Livestreams aufgebaut sind, signalisiert der Synchronisationsserver 20 dem Autorisie- rungsserver 19 bei 31, dass alle Daten bereitgestellt sind und mit der Synchronisation (Rendering) der ersten Szene begonnen werden kann. Der Autorisierungsserver 19 startet bei 32 die Aufführung und erstellt bei 33 die erste Regie- anweisung für den ersten Teilnehmer. Der Aufzeichnungsser- ver stellt den Teilnehmern bei 34 auf dem jeweiligen Teilnehmer zugeschnittene Livestreams zur Verfügung, die sie für die Darstellung ihrer jeweiligen Szene benötigen. Fig. 3 zeigt schematisch die Vorgänge bei der Darstellung einer Szene. Dargestellt werden das Zusammenwirken von Au- torisierungsserver 19 und Synchronisationsserver 20.

Der Autorisierungsserver 19 sendet bei 35 einen Einsatzbefehl, der bewirkt, dass bei 36 anhand der XML-Datei der Aufführung die zu dieser Szene gehörenden Elemente sowie der Szenenaufbau ermittelt und bereitgestellt werden. Die so erstellte Szenenbeschreibung wird bei 37 an den Synchro^¬ nisationsserver 20 übermittelt. Der Synchronisationsserver 20 baut aus der übermittelten Beschreibung der Szene einen so genannten Szenengraph auf (Bezugsziffer 38) bzw. verändert einen bereits vorhandenen Szenengraph entsprechend.

Der Szenengraph beinhaltet die logische Beschreibung aller audiovisuellen Elemente (Assets) einer Szene inklusive al^¬ ler darstellungsrelevanten Attribute. Hierzu zählen für visuelle Assets u.a. die Positions-, und Größendefinition je- des Elementes innerhalb der zu erzeugenden Szene, für Audi^¬ oassets u.a. Informationen über Lautstärke und Balance. Die Position des visuellen Assets im Szenengraphen beschreibt seine Bildebene innerhalb des zu erzeugenden Bildes. In ei^¬ nem Szenenbild können beliebige Bildebenen übereinander verwendet werden um das gewünschte Szenenbild zu erzeugen.

Aus diesem Szenengraph wird bei 39 mittels rekursivem

Durchlauf über alle enthaltenen audiovisuellen Elemente ein Szenenbild erzeugt. Dieser Vorgang wird kontinuierlich bis zu 60-mal pro Sekunde wiederholt, um aus diesen Szenenbil^¬ dern eine fortlaufende Szene einschließlich der zugehörigen Audiodatei sichtbar und hörbar zu machen. Die aus dem Szenengraph resultierende Darstellung der Einzelbilder der Szene wird durch Bildsynthese erzeugt. Von jedem zur Anwendung kommenden Asset wird pro Bildgenerie- rung ein Einzelbild dekodiert und der Synthese bereitge- stellt. Die Synthese findet durch den Renderingclient statt. Hierfür werden die dekodierten und optional manipu^¬ lierten Bilddaten der Assets entsprechend ihrer Attribute im Szenengraph in die Bildmatrize des zu erstellenden Szenenbildes eingefügt. Zur Feststellung der tatsächlich zur Anwendung kommenden Bilddaten (Pixel) wird mittels einer Verdeckungsberechnung eine Abtastung nach Ebenenüberlagerung durchgeführt. Die Anordnung der Pixel findet im Koor^¬ dinatensystem der Zielbildmatrize statt, d.h. dass die At^¬ tribute der Assets im Szenengraphen relativ zur Gesamt- bildgröße stehen und so angewendet werden. Die verwendeten Bilddaten beinhalten neben den Informationen für die Farben Rot, Grün und Blau auch Transparenzwerte für einen Alphaka^¬ nal. Dieser Alphakanal kann bereits in dem übertragenen Bildmaterial enthalten sein oder durch Berechnung während der Bildsynthese erzeugt werden. Die Bilddaten der Mitspie^¬ ler werden in diesem Prozess genau wie die übrigen Assets anhand ihrer Attribute im Szenengraphen behandelt.

Mit der Ebenenzuordnung jedes Assets und den Transparenz- werten werden mittels Alpablending aus einzelnen Assets vollständig neue Szenenbilder zusammengesetzt. Die Abbil^¬ der der Mitspieler sind dadurch ähnlich einer automatisierten Fotomontage in ein Szenenbild einer neuen virtuellen Umgebung integriert.

Diskrete Audioassets werden gemäß ihrer Attribute mittels eines sog. Sequenzers verarbeitet und mit den Audiodaten der Videospuren - sofern vorhanden - in einer gesonderten Audiospur zusammengeführt.

Veränderungen im Szenengraphen werden durch den Synchroni- sationsserver eingeleitet. Die maßgebliche Veränderung kann bereits pre-chached sein, wird jedoch erst durch ein kon^¬ kretes Signal vom Synchronisationsserver durchgeführt. Alternativ können auch die zu verändernden Daten vom Synchronisationsserver übersendet werden. Somit ist eine maximale Flexibilität des Szenenaufbaus und der Ablaufgestaltung ge^¬ geben .

Die Bildsynthese wird somit durch eine vom Synchronisati^¬ onsserver ausgelöste Szenengraphveränderung gesteuert, d.h. sämtliche zu einer Szene gehörenden Assets und Attri^¬ bute werden nach Veränderung des Szenengraphen bildgenau gezeichnet. Jedoch ergeben sich unvermeidbare zeitliche Va^¬ rianzen (Latenzen) bei Versendung und Empfang der Video- streams der Mitspieler. Hier kommen die üblichen Arbeits- schritte und Verzögerungen der digitalen audiovisuellen

Kommunikation zum Tragen. Diese Daten müssen zunächst auf dem teilnehmerseitigen System aufgezeichnet und transkodiert werden, um anschließend über das Internet transpor^¬ tiert werden zu können. Einflussfaktor ist in diesem Fall bereits die naturgemäß unterschiedliche Rechenleistung der teilnehmerseitigen Systeme. Des Weiteren ist der Transport über das Internet mit zeitlichen Verlusten behaftet, die je nach beim Teilnehmer vorherrschender infrastruktureller Situation stark variieren kann. Das für die Bildsynthese im Renderingclient eintreffende Signal muss dekodiert werden und weiteren optionalen Berechnungen zugeführt werden. Die Bereitstellung des fertigen Einzelbildes zur Bildsynthese des Szenenbildes, in dem die ausgeführte Handlung erfolgen soll, ist somit zeitlich verzögert gegenüber dem tatsächlichen Zeitpunkt der Ausführung des Mitspielers.

Da das System den Spielablauf dynamisch anhand von Triggern - wie z.B. durch Spracherkennung gefundene Schlüsselwörter - steuern kann, ist es nötig, dass das auf den Trigger fol^¬ gende Verhalten für alle Teilnehmer konsistent ist.

Hierzu zwei Beispiel: Ein Trigger stellt das Wort „Halt" in der fiktiven Rolle 1 an einer definierten Stelle auf der Zeitachse eines Stückes dar und ist mit der Einblendung ei^¬ ner speziellen Aufforderung an Teilnehmer 2, der die Rolle 2 belegt, verbunden. Teilnehmer 1, der die Rolle 1 belegt hat, sagt „Halt", das System erkennt das Schlüsselwort, der Trigger wird ausgelöst und an den Synchronisationsserver gesendet. Während der Teilnehmer 1 „Halt" gesagt hat, wird jedoch ein Teilnehmer 2 dieses Wort noch nicht empfangen haben. Es können unter Umständen mehrere Sekunden vergehen, bis Teilnehmer 2 das Videobild von Teilnehmer 1 sieht. Wäre sofort nach Erhalt des Triggers die Aussendung der Hand- lungsanweisung für Teilnehmer 2 erfolgt, würde diese für ihn zusammenhangslos erscheinen. Stattdessen ermittelt der Synchronisationserver die Latenzen zwischen den Teilnehmern und verzögert die Anweisung für alle Teilnehmer bis die Vi^¬ deodaten von Teilnehmer 1 bei Teilnehmer 2 eingetroffen sind. Um ein für alle Teilnehmer wie auch Zuschauer einheitliches Seherlebnis zu erreichen, müssen die Zeitpunkte, an denen das Trigger-auslösende Ereignis beim Teilnehmer stattfindet, mit der zeitliche verzögerten Bildsynthese synchronisiert werden. Damit die Anweisung selbst nicht den Latenzen im Internet unterliegt, wird für diesen Anwen^¬ dungsfall ein offener Kanal zwischen einem Client und dem Synchronisationserver gehalten, der für jene zeitkritische Informationen dient. Mit dieser Methode ist es auch möglich Teilnehmer 2 schon vorab einen optionalen Hinweis zu übermitteln, das es einen Trigger gab. Somit sind verschiedene Möglichkeiten geschaf^¬ fen, den Spielverlauf für die Mitspieler vorteilhaft zu steuern und für jeden Betrachter einheitlich darzustellen, ohne dass diese durch die Latenzen der Videodatenübertra^¬ gung eingeschränkt werden.

Der Mensch ist in der Lage bereits zeitliche Verzögerungen von wenigen Millisekunden wahrzunehmen. Ein wesentlicher Aspekt des vorgestellten Systems ist die immersive Erfah^¬ rung einer Teilnahme in einer virtuellen Szene, die z.B. zur effizienteren Lernerfahrung genutzt werden soll, oder schlicht der Unterhaltung dienen soll. Damit diese Erfah- rung nicht gefährdet ist, ist eine niedrige Latenz zwischen Handlung der Mitspieler und dem erzeugten Szenenbild nötig. Durch technische Einschränkungen lassen sich Latenzen nicht völlig verhindern, jedoch lassen sich diese mittels des Synchronisationsverfahren verstecken .

Vorzugweise kommt der Renderingclient auch auf dem teilneh- merseitigen System zum Einsatz und wird nur für unbeteiligte Zuschauer auf einem betreiberseitigen System ausgeführt. Beide arbeiten nach der gleichen Funktionsweise, le- diglich die Ausgabe ist in dem Sinne unterschiedlich, dass das Teilnehmerseitige das Szenenbild ohne Umwege auf dem lokalen Bildschirm zur Anzeige bringt, während das Betrei- berseitige die erzeugten audiovisuellen Daten als Video- stream zur Verfügung stellt. Im letzteren Verfahren kommt noch eine zeitliche Verzögerung während der Ausspielung des Signals hinzu, da dieses Bild zunächst wiederum transko^¬ diert und über das Internet versendet werden muss. In der teilnehmerseitigen Variante wird das lokale eigene Videobild eines Mitspielers ohne wahrnehmbare Verzögerung im Szenenbild dargestellt. Synchronisation ist hier gegenüber den mehrfach stattfindenden Bildsynthesen nötig, da jeder Teilnehmer so sein eigenes Szenenbild erzeugt, jedoch eine Varianz zwischen dem eigenen erzeugten Bild und dem der anderen Teilnehmer entsteht - schließlich erhalten andere den eigenen Videostream mit zeitlicher Verzögerung. Erfolgt nun ein Ereignis und ein Trigger wird versendet, so muss die daraufhin optionale Veränderung des Szenengraphen für alle Renderingclients zeitlich synchron stattfinden. Hierfür kommt die o.g. Verzögerung anhand der gemessenen Latenzen zur Anwendung. Durch diese Maßnahmen ist ein homogeneres Spielerlebnis im Vergleich zu einem System ohne Synchronisation ermöglicht.

Der Autorisierungsserver 19 wartet die im Ablauf der Aufführung definierte Länge einer Szene ab. In diesem Zeitraum können der oder die Teilnehmer die entsprechende Szene spielen. Der Synchronisationsserver 20 erzeugt daraus kontinuierlich die audiovisuellen Dateien zur Darstellung der Szene. Innerhalb des vorgegebenen Zeitraums wartet der Au^¬ torisierungsserver auf ein Signal bzw. Trigger vom jeweils agierenden Teilnehmer, dass er seine Szene bzw. seine Rolle innerhalb der Szene beendet hat. Wird dieses Signal bei 40 empfangen, übermittelt der Autorisierungsserver 19 dem Synchronisationsserver 20 ein entsprechendes Signal, das die Szene beendet. Dieses Signal kann entweder eine neue Szene oder das Ende der Aufführung ankündigen. Sobald der Synchronisationsserver 20 dieses Signal erhält, wird der re^¬ kursive Vorgang 39 des fortlaufenden Erstellens von Szenenbildern gestoppt. Lässt sich ein Teilnehmer mit seiner Rolle bzw. Darstellung zu viel Zeit und beendet diese nicht in einem vorgegebenen Zeitraum zuzüglich gegebenenfalls eines Toleranzzeitraums, wird bei 41 zwangsläufig ein Signal über das Ende der Szene ausgelöst und dem Synchronisations- Server 20 übermittelt. Der Fortgang der Aufführung innerhalb des vorgegebenen Zeitrahmens und einer gewissen Tole^¬ ranz wird somit sichergestellt. Sobald eine Szene abge^¬ schlossen ist, wartet der Synchronisationsserver 20 bei 42 auf die Übermittlung der Beschreibung der nächsten Szene.

Fig. 4 zeigt schematisch den vorzugsweise im Synchronisati^¬ onsserver 20 ablaufenden Vorgang des so genannten Renderns, bei dem die aus der Szenenbeschreibung erzeugten Szenengraphen in ein abspielbares audiovisuelles Datenformat über- führt werden. Der Vorgang startet bei 43 mit der Aufforde^¬ rung zur Erstellung eines Szenenbilds. In diesem Beispiel enthält der Szenengraph verschiedene Elemente, die im Aus^¬ führungsbeispiel Audiodaten, Bilddaten und Videodaten sind. Diese Elemente müssen zu einem Szenenbild zusammengefügt werden. Bei der Erstellung dieses Szenenbilds wird der Sze^¬ nengraph iterativ solange durchlaufen, bis alle zugehörigen Elemente abgearbeitet worden sind. Bei 44 wird zunächst ge^¬ prüft, ob der Szenengraph weitere Elemente aufweist. Ist dies der Fall, wird bei 45 je nach Typ des Elements ver- zweigt. Handelt es sich um ein Audioelement, wird es bei 46 weiter oder neu abgespielt. Es kann sich hierbei um einen komplexen Vorgang handeln, da verschiedene Audiodaten mittels eines so genannten Sequenzers gemischt bzw. vereint werden können. Gegebenenfalls können bei 47 Filter auf die Audiodaten angewendet werden, die beispielsweise einen Hal^¬ leffekt oder einen sonstigen Effekt, der zu der Szene passt, hervorrufen können. Handelt es sich bei dem Elementtyp um ein statisches Bild (Image), werden die zugehörigen Bilddaten decodiert und in Form einer Bitmap bereitgestellt. Dies ist bei 48 angedeu^¬ tet. Gegebenenfalls können darauf (Bezugsziffer 49) Filter wie beispielsweise Farbveränderungen angewendet werden. An^¬ dere denkbare Varianten eines Filters sind beispielsweise Freistellungen von Bildinhalten eines Teilnehmers, um diese freigestellten Bilder in das Gesamtbild einer Szene einpassen zu können. Solche Filter zur Freistellung können Mus- tererkennung wie beispielsweise Gesichtserkennung beinhalten. Die erzeugten Daten der Bitmap werden in einer Matrix gespeichert (Bezugsziffer 50) . Es handelt sich um eine dreidimensionale Matrix, in der die unterschiedlichen Bit^¬ maps der übereinander zu legenden Bilder eines Szenenbildes gespeichert werden.

Handelt es sich bei dem Elementtyp um Videodaten, wird bei 51 der nächste Videoframe ermittelt und anschließend wie ein statisches Bild behandelt. Wenn alle Elemente eines Szenengraphs bearbeitet wurden, wird bei 44 verzweigt zu dem bei 52 dargestellten Vorgang, bei dem die dreidimensionale Matrix mit den Bilddaten in ein flaches Einzelbild ge- rendert wird. Dieses fertige Szenenbild wird zur Anzeige gebracht .

Claims

Patentansprüche

System zum interaktiven Aufführen einer Darstellung auf einer virtuellen Bühne, das aufweist: a . betreiberseitig ein Datenverarbeitungssystem

(Core) mit: i. einem Medienserver (18), der die Mediendaten einer Aufführung enthält, ii. einem Autorisierungsserver (19), der

Teilnehmern anhand eines Zeitplans Medi^¬ endaten umfassend Szenenbilder, Ablauf- steuerungs- und Regieanweisungen übermit^¬ telt, iii. einen Synchronisationsserver (20), der

Mediendaten von dem Medienserver (18) und von Teilnehmern zeitlich synchronisiert zusammenführt, iv. einen AufZeichnungsserver (21), der synchronisierte Mediendaten von dem Medienserver (18) und von Teilnehmern aufzeichnet und Teilnehmern als Videostream und/oder Videodatei zugänglich macht, b . teilnehmerseitig ein Datenverarbeitungssystem

(Client) mit: i. Einrichtungen zur Aufzeichnung und Wiedergabe von Video- und Audiodaten, einem Streaming-Client, der zur Wiedergabe von Mediendaten umfassend Szenenbil der und Regieanweisungen des Autorisie- rungsservers (19) ausgebildet ist, einem Media-Client, der zur Übermittlung von Video- und Audiodaten an den Synchro nisationsserver (20) ausgebildet ist.

System nach Anspruch 1, dadurch gekennzeichnet, dass das betreiberseitige Datenverarbeitungssystem und das teilnehmerseitige Datenverarbeitungssystem mittels ei^¬ ner nicht echtzeitfähigen Datenverbindung, vorzugsweise über das Internet, miteinander verbunden sind.

System nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass der Autorisierungsserver (19) einem Client Medien daten umfassend Szenenbilder und Regieanweisungen mit einem zeitlichen Vorlauf übermittelt und das diese Da^¬ ten auf dem Client precached vorgehalten werden.

System nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass Core und Client über zwei virtuelle Kanäle miteinander verbunden sind, von denen der erste Kanal zur Übermittlung zeitkritischer Informationen und der zweite Kanal zur weniger zeitkritischen Datenübertragung ausgebildet ist.

5. System nach Anspruch 4, dadurch gekennzeichnet, dass der erste Kanal zur Übermittlung von Befehlen und/oder Handlungsaufforderungen (Requests) vom Autorisierungs- server (19) an den Client ausgebildet ist.

System nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass der Autorisierungsserver (19) inner halb eines vorgegebenen Aktivierungszeitraums zur Ent^¬ gegennahme einer Mehrzahl von Client Ready Signalen ausgebildet ist und nach Ablauf des Aktivierungszeit^¬ raums noch offene Rollen der Darstellung durch Avatare besetzt .

System nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, dass der Synchronisationsserver (20) zum zeittoleranten Assembling und Synchronisation der Medi endaten von dem Medienserver (18) und von Teilnehmern ausgebildet ist.

System nach Anspruch 7, dadurch gekennzeichnet, dass der Synchronisationsserver (20) beim Assembling zur aktion auf ein Teilnehmerverhalten ausgebildet ist.

System nach Anspruch 8, dadurch gekennzeichnet, dass die Analyse des Teilnehmerverhaltens teilnehmeriniti^¬ ierte Trigger, Analyse des vom Client übermittelten Au dio- und/oder Videosignals und/oder Worterkennung um- fasst .

10. System nach einem der Ansprüche 1 bis 9, dadurch gekennzeichnet, dass die Mediendaten einen Ablaufplan, die handelnden Personen und szenische Bestandteile mit elektronischen Attributen versehen enthalten.

11. System nach einem der Ansprüche 1 bis 10, dadurch gekennzeichnet, dass der Aufzeichnungsserver (21) zum Zugänglichmachen der synchronisierten Mediendaten in Echtzeit ausgebildet ist.

12. System nach einem der Ansprüche 1 bis 11, dadurch gekennzeichnet, dass die Ablaufsteuerung im JSON-Format programmiert ist.