Vorrichtung und Verfahren zum Erzeugen, Speichern oder Bearbeiten einer Audiodarstellung einer Audioszene
Beschreibung
Die vorliegende Erfindung liegt auf dem Gebiet der ellen- feldsynthese und bezieht sich insbesondere auf Vorrichtungen und Verfahren zum Erzeugen, Speichern oder Bearbeiten einer Audiodarstellung einer Audioszene.
Es besteht ein steigender Bedarf an neuen Technologien und innovativen Produkten im Bereich der Unterhaltungselektronik. Dabei ist es eine wichtige Voraussetzung für den Erfolg neuer multimedialer Systeme, optimale Funktionalitäten bzw. Fähigkeiten anzubieten. Erreicht wird das durch den Einsatz digitaler Technologien und insbesondere der Compu- tertechnik. Beispiele hierfür sind die Applikationen, die einen verbesserten realitätsnahen audiovisuellen Eindruck bieten. Bei bisherigen Audiosystemen liegt ein wesentlicher Schwachpunkt in der Qualität der räumlichen Schallwiedergabe von natürlichen, aber auch von virtuellen Umgebungen.
Verfahren zur mehrkanaligen Lautsprecherwiedergabe von Audiosignalen sind seit vielen Jahren bekannt und standardisiert. Alle üblichen Techniken besitzen den Nachteil, dass sowohl der Aufstellungsort der Lautsprecher als auch die Position des Hörers dem Übertragungsformat bereits eingeprägt sind. Bei falscher Anordnung der Lautsprecher im Bezug auf den Hörer leidet die Audioqualität deutlich. Ein optimaler Klang ist nur in einem kleinen Bereich des Wiedergaberaums, dem so genannten Sweet Spot, möglich.
Ein besserer natürlicher Raumeindruck sowie eine stärkere Einhüllung bei der Audiowiedergabe kann mit Hilfe einer neuen Technologie erreicht werden. Die Grundlagen dieser
Technologie, die so genannte Wellenfeldsynthese (WFS; WFS = Wave-Field Synthesis) , wurden an der TU Delft erforscht und erstmals in den späten 80er-Jahren vorgestellt (Berkhout, A.J.; de Vries, D. ; Vogel, P.: Acoustic control by Wave- field Synthesis. JASA 93, 1993).
Infolge der enormen Anforderungen dieser Methode an Rechnerleistung und Übertragungsraten wurde die Wellenfeldsynthese bis jetzt nur selten in der Praxis angewendet. Erst die Fortschritte in den Bereichen der Mikroprozessortechnik und der Audiocodierung gestatten heute den Einsatz dieser Technologie in konkreten Anwendungen. Erste Produkte im professionellen Bereich werden nächstes Jahr erwartet. In wenigen Jahren sollen auch erste Wellenfeldsynthese- Anwendungen für den Konsumerbereich auf den Markt kommen.
Die Grundidee von WFS basiert auf der Anwendung des Huy- gens' sehen Prinzips der Wellentheorie:
Jeder Punkt, der von einer Welle erfasst wird, ist Ausgangspunkt einer Elementarwelle, die sich kugelförmig bzw. kreisförmig ausbreitet.
Angewandt auf die Akustik kann durch eine große Anzahl von Lautsprechern, die nebeneinander angeordnet sind (einem so genannten Lautsprecherarray) , jede beliebige Form einer einlaufenden Wellenfront nachgebildet werden. Im einfachsten Fall, einer einzelnen wiederzugebenden Punktquelle und einer linearen Anordnung der Lautsprecher, müssen die Au- diosignale eines jeden Lautsprechers mit einer Zeitverzögerung und A plitudenskalierung so gespeist werden, dass sich die abgestrahlten Klangfelder der einzelnen Lautsprecher richtig überlagern. Bei mehreren Schallquellen wird für jede Quelle der Beitrag zu jedem Lautsprecher getrennt be- rechnet und die resultierenden Signale addiert. Befinden sich die wiederzugebenden Quellen in einem Raum mit reflektierenden Wänden, dann müssen auch Reflexionen als zusätzliche Quellen über das Lautsprecherarray wiedergegeben wer-
den. Der Aufwand bei der Berechnung hängt daher stark von der Anzahl der Schallquellen, den Reflexionseigenschaften des Aufnahmeraums und der Anzahl der Lautsprecher ab.
Der Vorteil dieser Technik liegt im Besonderen darin, dass ein natürlicher räumlicher Klangeindruck über einen großen Bereich des Wiedergaberaums möglich ist. Im Gegensatz zu den bekannten Techniken werden Richtung und Entfernung von Schallquellen sehr exakt wiedergegeben. In beschränktem Ma- ße können virtuelle Schallquellen sogar zwischen dem realen Lautsprecherarray und dem Hörer positioniert werden.
Obgleich die Wellenfeldsynthese für Umgebungen gut funktioniert, deren Beschaffenheiten bekannt sind, treten doch Un- regelmäßigkeiten auf, wenn sich die Beschaffenheit ändert bzw. wenn die Wellenfeldsynthese auf der Basis einer Umgebungsbeschaffenheit ausgeführt wird, die nicht mit der tatsächlichen Beschaffenheit der Umgebung übereinstimmt.
Die Technik der Wellenfeldsynthese kann jedoch ebenfalls vorteilhaft eingesetzt werden, um eine visuelle Wahrnehmung um eine entsprechende räumliche Audiowahrnehmung zu ergänzen. Bisher stand bei der Produktion in virtuellen Studios die Vermittlung eines authentischen visuellen Ein- drucks der virtuellen Szene im Vordergrund. Der zum Bild passende akustische Eindruck wird in der Regel durch manuelle Arbeitsschritte in der sogenannten Postproduktion nachträglich dem Audiosignal aufgeprägt oder als zu aufwendig und zeitintensiv in der Realisierung eingestuft und da- her vernachlässigt. Dadurch kommt es üblicherweise zu einem Widerspruch der einzelnen Sinnesempfindungen, der dazu führt, daß der entworfene Raum, d. h. die entworfene Szene, als weniger authentisch empfunden wird.
Allgemein gesagt besteht das Audiomaterial beispielsweise zu einem Film aus einer Vielzahl von Audioobjekten. Ein Audioobjekt ist dabei eine Schallquelle im Film-Setting. Wenn beispielsweise an eine Filmszene gedacht wird, bei der sich
zwei Personen gegenüber stehen und in einem Dialog befinden, und gleichzeitig sich z. B. ein Reiter und ein Zug nähern, so existieren über eine gewisse Zeit gesehen in dieser Szene insgesamt vier Schallquellen, nämlich die beiden Personen, der sich nähernde Reiter und der heranfahrende Zug. Wenn davon ausgegangen wird, daß die beiden Personen, die in Dialog stehen, nicht gleichzeitig reden, so dürften zu einem Zeitpunkt immer wenigsten zwei Audioobjekte aktiv sein, nämlich der Reiter und der Zug, wenn zu diesem Zeit- punkt beide Personen gerade schweigen. Spricht jedoch zu einem anderen Zeitpunkt eine Person, so sind drei Audioobjekte aktiv, nämlich der Reiter, der Zug und die eine Person. Sollten tatsächlich die beiden Personen gleichzeitig sprechen, so sind zu diesem Zeitpunkt vier Audioobjekte ak- tiv, nämlich der Reiter, der Zug, die erste Person und die zweite Person.
Allgemein gesagt stellt sich ein Audioobjekt derart dar, daß das Audioobjekt eine Schallquelle in einem Film-Setting beschreibt, die zu einem bestimmten Zeitpunkt aktiv bzw. „lebendig" ist. Dies bedeutet, daß ein Audioobjekt weiterhin gekennzeichnet ist durch einen Anfangszeitpunkt und einen Endzeitpunkt. Am vorherigen Beispiel sind der Reiter und der Zug beispielsweise während des gesamten Settings aktiv. Wenn sich beide nähern, wird der Zuhörer dies dadurch wahrnehmen, daß die Geräusche des Reiters und des Zugs lauter werden und sich gegebenenfalls - in einem optimalen Wellenfeldsynthese-Setting - auch die Positionen dieser Schallquellen entsprechend ändern. Dagegen erzeugen die beiden im Dialog befindlichen Sprecher ständig neue Audioobjekte, da immer dann, wenn ein Sprecher aufhört zu sprechen das aktuelle Audioobjekt zu Ende ist und dann, wenn der andere Sprecher anfängt zu sprechen, ein neues Audioobjekt begonnen wird, das wiederum dann zu Ende ist, wenn der andere Sprecher aufhört zu sprechen, wobei dann, wenn der erste Sprecher wieder beginnt zu sprechen, wiederum ein neues Audioobjekt begonnen wird.
Es existieren bestehende Wellenfeldsynthese-Rendering- Einrichtungen, die in der Lage sind, aus einer bestimmten Anzahl von Eingangskanälen eine bestimmte Anzahl von Lautsprechersignalen zu erzeugen, und zwar unter Kenntnis der einzelnen Positionen der Lautsprecher in einem Wellenfeldsynthese-Lautsprecherarray.
Der Wellenfeldsynthese-Renderer ist gewissermaßen das „Herz" eines Wellenfeldsynthese-Systems, das die Lautspre- chersignale für die vielen Lautsprecher des Lautsprecherar- rays Amplituden- und Phasen-richtig berechnet, so daß der Benutzer nicht nur einen optimalen optischen Eindruck sondern auch einen optimalen akustischen Eindruck hat.
Seit der Einführung von Mehrkanalaudio in Filmen in den späten 60er Jahren war es immer das Ziel des Toningenieurs, dem Zuhörer den Eindruck zu vermitteln, daß er in der Szene richtig involviert ist. Das Hinzufügen eines Surround- Kanals zu dem Reproduktionssystem war ein weiterer Meilen- stein. Neue digitale Systeme folgten in den 90er Jahren, die dazu führten, daß die Anzahl der Audiokanäle erhöht worden ist. Heutzutage sind 5.1- oder 7.1-Systeme Standardsysteme für eine Filmwiedergabe.
Diese Systeme haben sich in vielen Fällen als gutes Potential zum kreativen Unterstützen der Wahrnehmung von Filmen herausgestellt und schaffen gute Möglichkeiten für Soundef¬ fekte, Atmosphären oder Surround-gemischte Musik. Auf der anderen Seite ist die Wellenfeldsynthese-Technik derart flexibel, daß sie in dieser Hinsicht maximale Freiheit lie¬ fert.
Dennoch hat die Verwendung von 5.1- oder 7.1-Systemen zu mehreren „standardisierten" Arten und Weisen geführt, um die Mischung von Film-Soundtracks handzuhaben.
Wiedergabesysteme haben üblicherweise feste Lautsprecherpositionen, wie beispielsweise im Falle von 5.1 der linke Ka-
nal („left"), der mittlere Kanal („center") , der rechte Kanal („right"), der Surround-Links-Kanal („Surround left") und der Surround-Rechts-Kanal („Surround right") . Als Ergebnis dieser festen (wenigen) Positionen ist das ideale Tonbild, das der Toningenieur sucht, auf eine kleine Anzahl von Sitzplätzen, den sogenannten Sweet-Spot, begrenzt. Die Verwendung von Phantomquellen zwischen den oben bezeichneten 5.1-Positionen führt zwar in bestimmten Fällen zu Verbesserungen, jedoch nicht immer zu befriedigenden Ergebnis- sen.
Der Ton eines Films besteht üblicherweise aus Dialogen, Effekten, Atmosphären und Musik. Jedes dieser Elemente wird unter Berücksichtigung der Begrenzungen von 5.1- und 7.1- Systemen gemischt. Typischerweise wird der Dialog in den Center-Kanal (in 7.1-Systemen auch auf eine Halb-Links- und eine Halb-Rechts-Position) gemischt. Dies impliziert, daß dann, wenn sich der Schauspieler über die Leinwand bewegt, der Schall nicht folgt. Bewegungsschallobjekteffekte können nur realisiert werden, wenn sie sich schnell bewegen, so daß der Zuhörer nicht in der Lage ist, zu erkennen, wann der Schall von einem Lautsprecher zum anderen übergeht.
Laterale Quellen können ebenfalls nicht positioniert wer- den, und zwar aufgrund des großen hörbaren Gaps zwischen den vorderen und den Surround-Lautsprechern, so daß sich Objekte nicht langsam von hinten nach vorne und umgekehrt bewegen können.
Ferner werden Surround-Lautsprecher in einem diffusen Array von Lautsprechern plaziert und erzeugen somit ein Schallbild, das eine Art Hülle für den Zuhörer darstellt. Daher werden genau positionierte Schallquellen hinter den Zuhörern vermieden, um das unangenehme Schallinterferenzfeld, das mit solchen genau positionierten Quellen einhergeht, zu vermeiden.
Die Wellenfeldsynthese als vollständig neue Art und Weise zum Aufbauen des Schallfeldes, das von dem Zuhörer wahrgenommen wird, überwindet diese wesentlichen Unzulänglichkeiten. Die Konsequenz für Kinoanwendungen besteht darin, daß ein genaues Schallbild ohne Begrenzungen im Hinblick auf eine zweidimensionale Positionierung von Objekten erreicht werden kann. Dies eröffnet eine große Vielzahl von Möglichkeiten im Entwerfen und Mischen von Schall für Kinozwecke. Aufgrund der vollständigen Schallbildreproduktion, die durch die Technik der Wellenfeldsynthese erreicht wird, können nunmehr Schallquellen frei positioniert werden. Ferner können Schallquellen als fokussierte Quellen innerhalb des Zuhörerraums genauso wie außerhalb des Zuhörerraums plaziert werden.
Darüber hinaus können stabile Schallquellenrichtungen und stabile Schallquellenpositionen unter Verwendung von punkt- förmige abstrahlenden Quellen oder ebenen Wellen erzeugt werden. Schließlich können Schallquellen frei innerhalb, außerhalb oder durch den Zuhörerraum hindurch bewegt werden.
Dies führt zu einem enormen Potential kreativer Möglichkeiten und ebenfalls zu der Möglichkeit, Schallquellen genau gemäß dem Bild auf der Leinwand beispielsweise für den gesamten Dialog zu plazieren. Damit wird es tatsächlich möglich, den Zuhörer nicht nur visuell, sondern auch akustisch in den Film einzubetten.
Aufgrund historischer Gegebenheiten ist der Tonentwurf, also die Tätigkeit des Tonmeisters, auf dem Kanal- oder Spuren- bzw. „Track" Paradigma basiert. Dies bedeutet, daß das Codierformat bzw. die Anzahl der Lautsprecher, also 5.1- Systeme oder 7.1-Systeme, das Reproduktions-Setup bestim- men. Insbesondere benötigt ferner ein spezielles Tonsystem ein spezielles Codierformat. Als Konsequenz ist es unmöglich, irgendwelche Änderungen im Hinblick auf das Master- File durchzuführen, ohne die komplette Mischung wieder
durchzuführen. Es ist beispielsweise nicht möglich, einen Dialog-Track in dem abschließenden Master-File selektiv zu ändern, also zu ändern ohne alle anderen Töne in dieser Szene ebenfalls zu ändern.
Andererseits sind die Kanäle einem Zuschauer/Zuhörer egal. Ihn kümmert es nicht, aus welchem Schallsystem ein Ton erzeugt wird, ob eine ursprüngliche Schallbeschreibung objektorientiert vorgelegen hat, kanalorientiert vorgelegen hat, etc. Dem Zuhörer ist es ferner egal, ob und wie ein Audiosetting gemischt worden ist. Alles was für den Zuhörer zählt, ist der Toneindruck, also ob ihm ein Ton-Setting zu einem Film bzw. ein Ton-Setting ohne Film gefällt oder nicht .
Andererseits ist es wesentlich, daß neue Konzepte von den Personen angenommen werden, die mit den neuen Konzepten arbeiten sollen. Für die Tonmischung zuständig sind die Tonmeister. Tonmeister sind aufgrund des Kanal-orientierten Paradigmas darauf „geeicht", Kanal-orientiert zu arbeiten. Für sie ist es tatsächlich das Ziel, z. B. für ein Kino mit 5.1-Tonsystem die sechs Kanäle zu mischen. Hierbei verwenden sie z. B. in einem virtuellen Studio aufgezeichnete Audiosignale und mischen die letztendlichen z. B. 5.1- oder 7.1-Lautsprechersignale. Hierbei geht es nicht um Audioobjekte, sondern um Kanalorientierung. So hat in diesem Fall ein Audioobjekt typischerweise keinen Anfangszeitpunkt oder keinen Endzeitpunkt. Statt dessen wird ein Signal für einen Lautsprecher von der ersten Sekunde des Films bis zur letz- ten Sekunde des Films aktiv sein. Dies liegt daran, daß ü- ber einen der (wenigen) Lautsprecher des typischen Kino- Tonsystems immer irgendein Ton erzeugt wird, da es immer eine Schallquelle geben dürfte, die über den speziellen Lautsprecher ausgestrahlt wird, selbst wenn es nur eine Hintergrundmusik ist.
Aus diesem Grund werden bestehende Wellenfeldsynthese- Rendering-Einheiten dahingehend verwendet, daß sie Kanal-
orientiert arbeiten, daß sie also eine bestimmte Anzahl von Eingangskanälen haben, aus denen dann, wenn in die Eingangskanäle die Audiosignale samt zugeordneter Informationen eingegeben werden, die Lautsprechersignale für die ein- zelnen Lautsprecher bzw. Lautsprechergruppen eines Wellen- feldsynthese-Lautsprecherarrays erzeugt werden.
Andererseits führt die Technik der Wellenfeldsynthese dazu, daß eine Audioszene wesentlich „transparenter" ist, und zwar dahingehend, daß im Prinzip eine unbegrenzt hohe Anzahl von Audioobjekten über einen Film betrachtet, also ü- ber eine Audioszene betrachtet, vorhanden sein kann. Im Hinblick auf Kanal-orientierte Wellenfeldsynthese- Rendering-Einrichtungen kann dies problematisch werden, wenn die Anzahl der Audioobjekte in einer Audioszene die typischerweise immer vorgegebene maximale Anzahl von Eingangskanälen der Audioverarbeitungseinrichtung übersteigt. Darüber hinaus wird für einen Benutzer, also für einen Tonmeister beispielsweise, der eine Audiodarstellung einer Au- dioszene erzeugt, die Vielzahl von Audioobjekten, die zudem noch zu bestimmten Zeitpunkten existieren und zu anderen Zeitpunkten wieder nicht existieren, die also einen definierten Anfangs- und einen definierten Endzeitpunkt haben, verwirrend sein, was wiederum dazu führen könnte, daß eine psychologische Schwelle zwischen den Tonmeistern und der Wellenfeldsynthese, die Tonmeistern ja gerade ein erhebliches kreatives Potential bringen soll, aufgebaut wird.
Die Aufgabe der vorliegenden Erfindung besteht darin, ein Konzept zum Erzeugen, Speichern oder Bearbeiten einer Audiodarstellung einer Audioszene zu schaffen, das eine hohe Akzeptanz auf Seiten der Benutzer, für die entsprechende Werkzeuge gedacht sind, hat.
Diese Aufgabe wird durch eine Vorrichtung zum Erzeugen, Speichern oder Bearbeiten einer Audiodarstellung einer Audioszene nach Patentanspruch 1, ein Verfahren zum Erzeugen, Speichern oder Bearbeiten einer Audiodarstellung einer Au-
dioszene nach Patentanspruch 15 oder ein Computer-Programm nach Patentanspruch 16 gelöst.
Der vorliegenden Erfindung liegt die Erkenntnis zugrunde, daß sich für Audioobjekte, wie sie in einem typischen Film- Setting auftreten, einzig und allein eine Objektorientierte Beschreibung übersichtlich und effizient verarbeitbar ist. Die Objekt-orientierte Beschreibung der Audioszene mit Objekten, die eine Audiosignal haben und denen ein definierter Anfangs- und ein definierter End-Zeitpunkt zugeordnet sind, entsprechen den typischen Gegebenheiten in der realen Welt, in der es ohnehin selten vorkommt, daß ein Geräusch die ganze Zeit da ist. Statt dessen ist es üblich, beispielsweise in einem Dialog, daß ein Dialogpartner be- ginnt zu sprechen und aufhört zu sprechen, oder daß Geräusche typischerweise einen Anfang und ein Ende haben. Insofern ist die Objekt-orientierte Audioszenenbeschreibung, die jeder Schallquelle im realen Leben ein eigenes Objekt zuordnet, den natürlichen Gegebenheiten angepaßt und daher im Hinblick auf Transparenz, Übersichtlichkeit, Effizienz und Verständlichkeit optimal.
Andererseits sind z. B. Tonmeister, die aus einer Audiosze¬ ne eine Audiodarstellung erzeugen wollen, die also ihr kre- atives Potential einfließen lassen wollen, um eine Audiodarstellung einer Audioszene in einem Kino womöglich noch unter Berücksichtigung spezieller Audioeffekte zu „synthetisieren", aufgrund des Kanal-Paradigmas daran gewöhnt, typischerweise mit entweder Hardware- oder Software- realisierten Mischpulten zu arbeiten, die eine konsequente Umsetzung der Kanal-orientierten Arbeitsweise sind. In Hardware- oder Software-realisierten Mischpulten hat jeder Kanal Regler, Knöpfe etc., mit denen das Audiosignal in diesem Kanal manipuliert, also „gemischt" werden kann.
Erfindungsgemäß wird ein Ausgleich zwischen der Objektorientierten Audiodarstellung, die dem Leben gerecht wird, und der Kanal-orientierten Darstellung, die dem Tonmeister
gerecht wird, dadurch erreicht, daß eine Abbildungseinrich- tung eingesetzt wird, um die Objekt-orientierte Beschreibung der Audioszene auf eine Mehrzahl von Eingangskanälen einer Audio-Verarbeitungseinrichtung, wie beispielsweise einer Wellenfeldsynthese-Rendering-Einheit, abzubilden. Erfindungsgemäß ist die Abbildungseinrichtung ausgebildet, um ein erstes Audioobjekt einem Eingangskanal zuzuweisen, und um ein zweites Audioobjekt, dessen Startzeitpunkt nach einem Endzeitpunkt des ersten Audioobjekts liest, dem selben Eingangskanal zuzuweisen, und um ein drittes Audioobjekt, dessen Startzeitpunkt nach dem Startzeitpunkt des ersten Audioobjekts und vor dem Endzeitpunkt des ersten Audioobjekts liegt, einem anderen der Mehrzahl von Eingangskanälen zuzuweisen.
Diese zeitliche Zuweisung, die gleichzeitig auftretende Audioobjekte unterschiedlichen Eingangskanälen der Wellen- feldsynthese-Rendering-Einheit zuweist, und die aber sequentiell auftretende Audioobjekte demselben Eingangskanal zuweist, hat sich als äußerst kanaleffizient herausgestellt. Dies bedeutet, daß eine relativ geringe Anzahl von Eingangskanälen der Wellenfeldsynthese-Rendering-Einheit durchschnittlich belegt ist, was zum einen der Übersichtlichkeit dient, und was zum anderen der Recheneffizienz der ohnehin sehr rechenaufwendigen Wellenfeldsynthese- Rendering-Einheit entgegenkommt. Aufgrund der im Mittel relativ kleinen Anzahl von gleichzeitig belegten Kanälen kann der Benutzer, also beispielsweise der Tonmeister, einen schnellen Überblick über die Komplexität einer Audioszene zu einem bestimmten Zeitpunkt bekommen, ohne daß er aus einer Vielzahl von Eingangskanälen mühsam suchen muß, welches Objekt gerade aktiv ist oder welches Objekt gerade nicht aktiv ist. Andererseits kann der Benutzer eine Manipulation der Audioobjekte wie in objektorientierter Darstellung ohne weiteres durch seine ihm gewohnten Kanalregler durchführen.
Dies wird erwartungsgemäß die Akzeptanz des erfindungsgemäßen Konzepts dahingehend steigern, daß den Benutzern mit
dem erfindungsgemäßen Konzept eine vertraute Arbeitsumgebung geliefert wird, die dennoch ein ungleich höheres innovatives Potential enthält. Das erfindungsgemäße Konzept, das auf der Abbildung des Objekt-orientierten Audio- Ansatzes in einen Kanal-orientierten Rendering-Ansatz basiert, wird somit allen Anforderungen gerecht. Zum einen ist die objektorientierte Beschreibung einer Audioszene, wie es ausgeführt worden ist, der Natur am besten angepaßt und daher effizient und übersichtlich. Andererseits wird den Gewohnheiten und Bedürfnissen der Benutzer Rechnung getragen, dahingehend, daß sich die Technik nach den Benutzern richtet und nicht umgekehrt.
Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung werden nachfolgend Bezug nehmend auf die beiliegenden Zeichnungen detailliert erläutert. Es zeigen:
Fig. 1 ein Blockschaltbild der erfindungsgemäßen Vorrichtung zum Erzeugen einer Audiodarstellung;
Fig. 2 eine schematische Darstellung einer Benutzerschnittstelle für das in Fig. 1 gezeigte Konzept;
Fig. 3a eine schematische Darstellung der Benutzer- schnittsteile von Fig. 2 gemäß einem Ausführungsbeispiel der vorliegenden Erfindung;
Fig. 3b eine schematische Darstellung der Benutzerschnittstelle von Fig. 2 gemäß einem anderen Aus- führungsbeispiel der vorliegenden Erfindung;
Fig. 4 ein Blockschaltbild einer erfindungsgemäßen Vorrichtung gemäß einem bevorzugten Ausführungsbeispiel;
Fig. 5 eine zeitliche Darstellung der Audioszene mit verschiedenen Audioobjekten; und
Fig. 6 eine Gegenüberstellung einer 1 : 1-Umsetzung zwischen Objekt und Kanal und einer Objekt-Kanal- Zuweisung gemäß der vorliegenden Erfindung für die in Fig. 5 dargestellte Audioszene.
Fig. 1 zeigt ein Blockschaltbild einer erfindungsgemäßen Vorrichtung zum Erzeugen einer Audiodarstellung einer Audioszene. Die erfindungsgemäße Vorrichtung umfaßt eine Einrichtung 10 zum Bereitstellen einer Objekt-orientierten Be- Schreibung der Audioszene, wobei die Objekt-orientierte Beschreibung der Audioszene eine Mehrzahl von Audioobjekten umfaßt, wobei einem Audioobjekt wenigstens ein Audiosignal, ein Anfangszeitpunkt und ein Endzeitpunkt zugeordnet sind. Die erfindungsgemäße Vorrichtung umfaßt ferner eine Audio- Verarbeitungseinrichtung 12 zum Erzeugen einer Mehrzahl von Lautsprechersignalen LSi 14, die Kanal-orientiert ist und die die Mehrzahl von Lautsprechersignalen 14 aus einer Mehrzahl von Eingangskanälen EKi erzeugt. Zwischen der Bereitstellungseinrichtung 10 und der Kanal-orientierten Au- diosignalverarbeitungseinrichtung, die beispielsweise als WFS-Rendering-Einheit ausgebildet ist, befindet sich eine Abbildungseinrichtung 18 zum Abbilden der Objektorientierten Beschreibung der Audioszene auf die Mehrzahl von Eingangskanälen 16 der Kanal-orientierten Audiosignal- Verarbeitungseinrichtung 12, wobei die Abbildungseinrichtung 18 ausgebildet ist, um ein erstes Audioobjekt einem Eingangskanal, wie beispielsweise EKI, zuzuweisen, und um ein zweites Audioobjekt, dessen Startzeitpunkt nach einem Endzeitpunkt des ersten Audioobjekts liegt, demselben Ein- gangskanal, wie beispielsweise dem Eingangskanal EKI, zuzuweisen, und um ein drittes Audioobjekt, dessen Startzeitpunkt nach dem Startzeitpunkt des ersten Audioobjekts und vor dem Endzeitpunkt des ersten Audioobjekts liegt, einem anderen Eingangskanal der Mehrzahl von Eingangskanälen, wie beispielsweise dem Eingangskanal EK2, zuzuweisen. Die Abbildungseinrichtung 18 ist somit ausgebildet, um zeitlich nicht überlappende Audioobjekte demselben Eingangskanal zu-
zuweisen, und um zeitlich überlappende Audioobjekte unterschiedlichen parallelen Eingangskanälen zuzuweisen.
Bei einem bevorzugten Ausführungsbeispiel, bei dem die Ka- nal-orientierte Audiosignalverarbeitungseinrichtung 12 eine Wellenfeldsynthese-Rendering-Einheit umfaßt, sind die Audioobjekte ferner dahingehend spezifiziert, daß ihnen eine virtuelle Position zugeordnet ist. Diese virtuelle Position eines Objekts kann sich während der Lebenszeit des Objekts verändern, was dem Fall entsprechen würde, bei dem sich beispielsweise ein Reiter einem Szenenmittelpunkt nähert, derart, daß der Galopp des Reiters immer lauter wird und insbesondere immer näher zum Zuschauerraum kommt. In diesem Fall umfaßt ein Audioobjekt nicht nur das Audiosignal, das diesem Audioobjekt zugeordnet ist, und einen Anfangszeitpunkt und einen Endzeitpunkt, sondern zusätzlich noch eine Position der virtuellen Quelle, die sich über der Zeit ändern kann sowie gegebenenfalls weitere Eigenschaften des Audioobjekts, wie beispielsweise ob es Punktquelleneigen- schatten haben soll oder ob es eine ebene Welle emittieren soll, was einer virtuellen Position mit unendlicher Entfernung zum Zuschauer entsprechen würde. In der Technik sind weitere Eigenschaften für Schallquellen also für Audioobjekte bekannt, die je nach Ausstattung der Kanal- orientierten Audiosignalverarbeitungseinrichtung 12 von Fig. 1 berücksichtigt werden können.
Erfindungsgemäß ist die Struktur der Vorrichtung hierar¬ chisch aufgebaut, dahingehend, daß die Kanal-orientierte Audiosignalverarbeitungseinrichtung zum Empfangen von Au¬ dioobjekten nicht direkt mit der Einrichtung zum Bereitstellen kombiniert ist, sondern mit derselben über die Ab- bildungseinrichtung kombiniert ist. Dies führt dazu, daß lediglich in der Einrichtung zum Bereitstellen die gesamte Audioszene bekannt und gespeichert werden soll, daß jedoch bereits die Abbildungseinrichtung und noch weniger die Kanal-orientierte Audiosignalverarbeitungseinrichtung Kenntnis des gesamten Audio-Settings haben müssen. Statt dessen
arbeiten sowohl die Abbildungseinrichtung 18 als auch die Audiosignalverarbeitungseinrichtung 12 unter der Anweisung der Audioszene, die von der Einrichtung 10 zum Bereitstellen geliefert wird.
Bei einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung ist die in Fig. 1 gezeigte Vorrichtung ferner mit einer Benutzerschnittstelle versehen, wie sie in Fig. 2 bei 20 gezeigt ist. Die Benutzerschnittstelle 20 ist ausgebil- det, um einen Benutzerschnittstellen-Kanal pro Eingangskanal sowie vorzugsweise einen Manipulator für jeden Benutzerschnittstellen-Kanal zu haben. Die Benutzerschnittstelle 20 ist über ihren Benutzerschnittstellen-Eingang 22 mit der Abbildungseinrichtung 18 gekoppelt, um die Zuweisungsinfor- mationen von der Abbildungseinrichtung zu erhalten, da die Belegung der Eingangskanäle EKI bis EKm von der Benutzerschnittstelle 20 angezeigt werden soll. Ausgangsseitig ist die Benutzerschnittstelle 20 dann, wenn sie das Manipulator-Feature für jeden Benutzerschnittstellen-Kanal hat, mit der Einrichtung 10 zum Bereitstellen verkoppelt. Insbesondere ist die Benutzerschnittstelle 20 ausgebildet, um über ihren Benutzerschnittstellenausgang 24 im Hinblick auf die ursprüngliche Version manipulierte Audioobjekte der Einrichtung 10 zum Bereitstellen zu liefern, die somit eine veränderte Audioszene erhält, die dann wieder der Abbildungseinrichtung 18 und - entsprechend verteilt auf die Eingangskanäle - der Kanal-orientierten Audiosignalverar- beitungseinrichtung 12 bereitgestellt wird.
Je nach Implementierung ist die Benutzerschnittstelle 20 als Benutzerschnittstelle ausgebildet, wie es in Fig. 3a dargestellt ist, also als Benutzerschnittstelle, die immer nur die aktuellen Objekte darstellt. Alternativ ist die Benutzerschnittstelle 20 konfiguriert, um wie in Fig. 3b auf- gebaut zu sein, also so, daß immer alle Objekte in einem Eingangskanal dargestellt werden. Sowohl in Fig. 3a als auch in Fig. 3b ist eine Zeitlinie 30 dargestellt, die in chronologischer Reihenfolge die Objekte A, B, C umfaßt, wo-
bei das Objekt A einen Startzeitpunkt 31a und einen Endzeitpunkt 31b umfaßt. Zufälligerweise fällt in Fig. 3a der Endzeitpunkt 31b des ersten Objekts A mit einem Startzeitpunkt des zweiten Objekts B zusammen, das wiederum einen Endzeitpunkt 32b hat, der wiederum zufällig mit einem Startzeitpunkt des dritten Objekts C zusammenfällt, das wiederum einen Endzeitpunkt 33b hat. Die Startzeitpunkte 32a und 33b entsprechen den Endzeitpunkten 31b und 32b und sind in den Fig. 3a, 3b aus Übersichtlichkeitsgründen nicht dargestellt.
Bei dem in Fig. 3a gezeigten Modus, bei dem nur aktuelle Objekte als Benutzerschnittstellen-Kanal angezeigt werden, wird rechts in Fig. 3a ein Mischpult-Kanalsymbol 34 darge- stellt, das einen Schieber 35 sowie stilisierte Knöpfe 36 umfaßt, über die Eigenschaften des Audiosignals des Objekts B bzw. auch virtuelle Positionen etc. verändert werden können. Sobald die Zeitmarke in Fig. 3a, die mit 37 dargestellt ist, den Endzeitpunkt 32b des Objekts B erreicht, würde die stilisierte Kanaldarstellung 34 nicht das Objekt B anzeigen, sondern das Objekt C. Die Benutzerschnittstelle in Fig. 3a würde dann, wenn z. B. ein Objekt D gleichzeitig zum Objekt B stattfinden würde, einen weiteren Kanal, wie beispielsweise den Eingangskanal i+1, darstellen. Die in Fig. 3a gezeigte Darstellung liefert dem Tonmeister einen einfachen Überblick über die Anzahl von parallelen Audioobjekten zu einem Zeitpunkt also die Anzahl von aktiven Kanälen, die überhaupt angezeigt werden. Nicht-aktive Eingangskanäle werden bei der in Fig. 3a gezeigten Ausführungsform der Benutzerschnittstelle 20 von Fig. 2 überhaupt nicht angezeigt .
Bei dem in Fig. 3b gezeigten Ausführungsbeispiel, bei dem alle Objekte in einem Eingangskanal nebeneinander angezeigt werden, findet ebenfalls keine Anzeige von nicht-belegten Eingangskanälen statt. Dennoch wird der Eingangskanal i, dem die zeitlich in chronologischer Reihenfolge zugewiesenen Kanäle angehören, dreifach dargestellt, und zwar einmal
als Objektkanal A, ein andermal als Objektkanal B und wieder ein andermal als Objektkanal C. Erfindungsgemäß wird es bevorzugt, den Kanal, wie beispielsweise den Eingangskanal i für das Objekt B (Bezugszeichen 38 in Fig. 3b) z. B. farblich oder helligkeitsmäßig hervorzuheben, um dem Tonmeister einerseits einen klaren Überblick darüber zu geben, welches Objekt gerade auf dem betreffenden Kanal i eingespeist wird, und welche Objekte z. B. früher oder später auf diesem Kanal laufen, so daß der Tonmeister bereits vor- ausschauend in die Zukunft über die entsprechenden Software- oder Hardware-Regler das Audiosignal eines Objekts über diesen Kanalregler bzw. Kanalschalter manipulieren kann. Die Benutzerschnittstelle 20 von Fig. 2 und insbesondere die Ausprägungen derselben in Fig. 3a und Fig. 3b sind somit ausgebildet, um eine visuelle Darstellung je nach Wunsch für die „Belegung" der Eingangskanäle der Kanalorientierten Audiosignalverarbeitungseinrichtung zu schaffen, die durch die Abbildungseinrichtung 18 erzeugt wird.
Nachfolgend wird Bezug nehmend auf Fig. 5 ein einfaches Beispiel der Funktionalität der Abbildungseinrichtung 18 von Fig. 1 gegeben. Fig. 5 zeigt eine Audioszene mit verschiedenen Audioobjekten A, B, C, D, E, F und G. So ist zu sehen, daß sich die Objekte A, B, C und D zeitlich überlap- pen. In anderen Worten ausgedrückt sind diese Objekte A, B, C und D zu einem bestimmten Zeitpunkt 50 alle aktiv. Dagegen überlappt das Objekt E nicht mit den Objekten A, B. Das Objekt E überlappt lediglich mit den Objekten D und C, wie es bei einem Zeitpunkt 52 zu sehen ist. Wiederum überlap- pend ist das Objekt F und das Objekt D, wie es zu einem Zeitpunkt 54 z. B. zu sehen ist. Dasselbe gilt für die Objekte F und G, die z. B. zu einem Zeitpunkt 56 überlappen, während das Objekt G nicht mit den Objekten A, B, C, D und E überlappt.
Eine einfache und in vielerlei Hinsicht nachteilige Kanalzuordnung würde darin bestehen, bei dem in Fig. 5 gezeigten Beispiel jedes Audioobjekt einem Eingangskanal zuzuweisen,
so daß die 1 : 1-Umsetzung links in der Tabelle in Fig. 6 erhalten werden würde. Nachteilig an diesem Konzept ist, daß viele Eingangskanäle benötigt werden bzw. daß dann, wenn viele Audioobjekte vorhanden sind, was in einem Film sehr schnell der Fall ist, die Anzahl der Eingangskanäle der Wellenfeldsynthese-Rendering-Einheit die Anzahl der verarbeitbaren virtuellen Quellen in einem realen Film-Setting begrenzt, was natürlich nicht erwünscht ist, da Technik- Limits nicht das kreative Potential beeinträchtigen sollen. Andererseits ist diese 1 : 1-Umsetzung sehr unübersichtlich, dahingehend, daß zwar irgendwann typischerweise jeder Eingangskanal ein Audioobjekt erhält, daß jedoch, wenn eine bestimmte Audioszene betrachtet wird, typischerweise relativ wenig Eingangskanäle aktiv sind, daß der Benutzer dies jedoch nicht ohne weiteres feststellen kann, da er immer alle Audiokanäle im Überblick haben muß.
Darüber hinaus führt dieses Konzept der 1 : 1-Zuweisung von Audioobjekten zu Eingangskanälen der Audioverarbeitungsein- richtung dazu, daß im Interesse einer möglichst geringen oder nicht vorhandenen Begrenzung der Anzahl der Audioobjekte Audioverarbeitungseinrichtungen bereitgestellt werden müssen, die eine sehr hohe Anzahl von Eingangskanälen haben, was zu einer unmittelbaren Erhöhung der Rechenkomple- xität, der erforderlichen Rechenleistung und der erforderlichen Speicherkapazität der Audioverarbeitungseinrichtung führt, um die einzelnen Lautsprechersignale zu berechnen, was unmittelbar in einem höheren Preis eines solchen Systems resultiert.
Die erfindungsgemäße Zuweisung Objekt-Kanal des in Fig. 5 gezeigten Beispiels, wie sie durch die Abbildungseinrichtung 18 gemäß der vorliegenden Erfindung erreicht wird, ist in Fig. 6 im rechten Bereich der Tabelle dargestellt. So werden die parallelen Audioobjekte A, B, C und D nacheinander den Eingangskanälen EKI, EK2, EK3 bzw. EK4 zugeordnet. Das Objekt E muß jedoch nicht mehr, wie in der linken Hälfte von Fig. 6 dem Eingangskanal EK5 zugewiesen werden, son-
dern kann einem freien Kanal zugewiesen werden, wie beispielsweise dem Eingangskanal EKI oder, wie es durch die Klammer angedeutet ist, dem Eingangskanal EK2. Dasselbe trifft für das Objekt F zu, das im Prinzip allen Kanälen außer dem Eingangskanal EK4 zugewiesen werden kann. Dasselbe trifft für das Objekt G zu, das ebenfalls allen Kanälen außer dem Kanal zugewiesen werden kann, dem vorher das Objekt F zugewiesen wurde (im Beispiel dem Eingangskanal EKI) .
Bei einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung ist die Abbildungseinrichtung 18 ausgebildet, um immer Kanäle mit einer möglichst niedrigen Ordnungszahl zu belegen, und um möglichst immer benachbarte Eingangskanäle EKi und EKi+1 zu belegen, damit keine Löcher entstehen. Andererseits ist dieses „Nachbarschafts-Feature" nicht wesentlich, da es einem Benutzer des Audio-Autoren-Systems gemäß der vorliegenden Erfindung gleichgültig ist, ob er gerade den ersten bzw. den siebten oder irgendeinen anderen Eingangskanal der Audioverarbeitungseinrichtung bedient, so lange er durch die erfindungsgemäße Benutzerschnittstelle in die Lage versetzt wird, genau diesen Kanal zu manipulieren, beispielsweise durch einen Regler 35 oder durch Knöpfe 36 einer Mischpult-Kanaldarstellung 34 des gerade aktuellen Kanals. Somit muß der Benutzerschnittstellenkanal i nicht unbedingt dem Eingangskanal i besprechen, sondern es kann auch insofern eine Kanal-Zuweisung erfolgen, derart, daß der Benutzerschnittstellenkanal i z. B. dem Eingangskanal EKm entspricht, während der Benutzerschnittstellenkanal i+1 dem Eingangskanal k entspricht etc.
Damit wird durch die Benutzerschnittstellenkanal- Umabbildung vermieden, daß es Kanallöcher gibt, daß also der Tonmeister immer sofort und übersichtlich die aktuellen Benutzerschnittstellenkanäle nebeneinander dargestellt erblicken kann.
Das erfindungsgemäße Konzept der Benutzerschnittstelle kann selbstverständlich auch auf eine bestehende Hardware- Mischkonsole übertragen werden, die tatsächliche Hardware- Regler und Hardware-Knöpfe umfaßt, die ein Tommeister manu- eil bedienen wird, um eine optimale Audio-Mischung zu erreichen. Ein Vorteil der vorliegenden Erfindung besteht darin, daß auch eine solche einem Tonmeister typischerweise sehr vertraute und ans Herz gewachsene Hardware- Mischkonsole ebenfalls verwendet werden kann, indem z. B. durch auf der Mischkonsole typischerweise vorhandene Indikatoren, wie beispielsweise LEDs immer die gerade aktuellen Kanäle für den Tonmeister übersichtlich markiert werden.
Die vorliegende Erfindung ist ferner dahingehend flexibel, daß auch mit Fällen umgegangen werden kann, bei denen das Wellenfeldsynthese-Lautsprecher-Setup, das zur Produktion verwendet wird, von dem Reproduktions-Setup z. B. in einem Kino abweicht. Daher wird erfindungsgemäß der Audioinhalt in einem Format codiert, das durch verschiedene Systeme aufbereitet werden kann. Dieses Format ist die Audioszene, d. h. die objektorientierte Audiodarstellung und nicht die Lautsprechersignal-Darstellung. Insofern wird das Aufbereitungsverfahren als Adaption des Inhalts an das Reproduktionssystem verstanden. Erfindungsgemäß werden nicht nur ein paar wenige Master-Kanäle sondern eine gesamte Objektorientierte Szenenbeschreibung im Wellenfeldsynthese- Reproduktionsprozeß verarbeitet. Die Szenen werden für jede Reproduktion aufbereitet. Dies wird typischerweise in Echtzeit durchgeführt, um eine Adaption an die aktuelle Situa- tion zu erreichen. Typischerweise berücksichtigt diese A- daption die Anzahl von Lautsprechern und ihre Positionen, die Charakteristika des Reproduktionssystems, wie beispielsweise die Frequenzantwort, den Schalldruckpegel etc., die Raumakustikbedingungen oder weitere Bildreproduktions- bedingungen.
Ein Hauptunterschied der Wellenfeldsynthese-Mischung im Vergleich zum Kanal-basierten Ansatz gegenwärtiger Systeme
besteht in der frei verfügbaren Positionierung der Schallobjekte. In üblichen Reproduktionssystemen basierend auf Stereophonie-Prinzipien wird die Position der Schallquellen relativ codiert. Dies ist für Mischkonzepte wichtig, die zu einem visuellen Inhalt, wie beispielsweise Kinofilmen gehören, da eine Positionierung der Schallquellen bezüglich des Bildes durch ein korrektes System-Setup anzunähern versucht wird.
Das Wellenfeldsynthesesystem benötigt dagegen Absolutpositionen für die Schallobjekte, welche als Zusatzinformationen zu dem Audiosignal eines Audioobjekts diesem Audioobjekt zusätzlich zu ferner dem Startzeitpunkt und dem Endzeitpunkt dieses Audioobjekts mitgegeben wird.
Im herkömmlichen Kanal-orientierten Ansatz bestand die Grundidee darin, die Anzahl von Spuren in mehreren Pre-Mix- Durchläufen zu reduzieren. Diese Pre-Mix-Durchläufe sind in Kategorien organisiert, wie Dialog, Musik, Ton, Effekte, etc. Während des Mischprozesses werden alle benötigten Audiosignale in die Mischkonsole eingespeist und durch unterschiedliche Toningenieure gleichzeitig gemischt. Jeder Vormix reduziert die Anzahl von Spuren, bis nur eine Spur pro Reproduktionslautsprecher existiert. Diese abschließenden Spuren bilden das abschließende Master-File (Final Master) .
Alle relevanten Mischaufgaben, beispielsweise Equalization, Dynamics, Positioning, etc. werden am Mischpult oder unter Verwendung einer speziellen Zusatzausrüstung durchgeführt.
Das Ziel des Re-Engineerings des Postproduktionsprozesses besteht darin, das Benutzer-Training zu minimieren und die Integration des neuen erfindungsgemäßen Systems in das be¬ stehende Wissen der Benutzer zu integrieren. Bei der Wel- lenfeldsynthese-Anwendung der vorliegenden Erfindung werden alle Spuren oder Objekte, die an unterschiedlichen Positionen aufzubereiten sind, innerhalb des Master- Files/Verteilungsformats existieren, was im Gegensatz zu
herkömmlichen Produktionsfazilities steht, die dahingehend optimiert sind, daß sie die Anzahl von Spuren während des Produktionsprozesses reduzieren. Andererseits ist es aus praktischen Gründen notwendig, dem Re-Recording-Ingenieur die Möglichkeit zu geben, die existierenden Mischkonsolen für Wellenfeldsynthese-Produktionen zu verwenden.
Erfindungsgemäß werden somit gegenwärtige Mischkonsolen für die herkömmlichen Misch-Aufgaben verwendet, wobei die Aus- gäbe dieser Mischkonsolen dann in das erfindungsgemäße System zum Erzeugen einer Audiodarstellung einer Audioszene eingebracht wird, wo das räumliche Mischen durchgeführt wird. Dies bedeutet, daß das Wellenfeldsynthese-Autoren- Werkzeug gemäß der vorliegenden Erfindung als Workstation implementiert wird, die die Möglichkeit hat, die Audiosignale der abschließenden Mischung aufzuzeichnen und dieselben in einem anderen Schritt in das Verteilungsformat zu konvertieren. Hierzu werden erfindungsgemäß zwei Aspekte berücksichtigt. Der erste ist, daß alle Audioobjekte oder Spuren immer noch in dem Final Master existieren. Der zweite Aspekt ist, daß die Positionierung nicht in der Mischkonsole durchgeführt wird. Dies bedeutet, daß das sogenannten Authoring, also die Tonmeister-Nachbearbeitung einer der letzten Schritte in der Produktionskette ist. Erfin- dungsgemäß wird das Wellenfeldsynthese-Autorensystem gemäß der vorliegenden Erfindung, also die erfindungsgemäße Vorrichtung zum Erzeugen einer Audiodarstellung als eigenständige Workstation implementiert, die in unterschiedliche Produktionsumgebungen integriert werden kann, indem Audio- ausgaben von dem Mischpult in das System eingespeist werden. Insofern stellt das Mischpult die Benutzerschnittstelle dar, die mit der Vorrichtung zum Erzeugen der Audiodarstellung einer Audioszene verkoppelt ist.
Das erfindungsgemäße System gemäß einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung ist in Fig. 4 dargestellt. Gleiche Bezugszeichen wie in Fig. 1 oder 2 zeigen gleiche Elemente an. Der grundsätzliche Systementwurf ba-
siert auf dem Ziel der Modularität und der Möglichkeit, e- xistierende Mischkonsolen in das erfindungsgemäße Wellen- feldsynthese-Autorensysten als Benutzerschnittstellen zu integrieren.
Aus diesem Grund ist in der Audioverarbeitungseinrichtung 12 eine zentrale Steuerung 120 ausgebildet, die mit anderen Modulen kommuniziert. Dies ermöglicht die Verwendung von Alternativen für bestimmte Module so lange alle dasselbe Kommunikationsprotokoll verwenden. Wenn das in Fig. 4 gezeigte System als Black-Box betrachtet wird, sieht man allgemein eine Anzahl von Eingaben (aus der Bereitstellungseinrichtung 10) und eine Anzahl von Ausgaben (Lautsprechersignale 14) sowie die Benutzerschnittstelle 20. Integriert in dieser Black-Box neben der Benutzerschnittstelle befindet sich der eigentliche WFS-Renderer 122, der die eigentliche Wellenfeldsynthese-Berechnung der Lautsprechersignale unter Verwendung diverser Input-Informationen durchführt. Ferner ist ein Raumsimulationsmodul 124 vorgesehen, das ausgebildet ist, um bestimmte Raumsimulationen durchzuführen, die dazu verwendet werden, um Raumeigenschaften eines Aufnahmeraums zu erzeugen oder Raumeigenschaften eines Aufnahmeraums zu manipulieren.
Ferner sind eine Audioaufnahmeeinrichtung 126 sowie eine Aufnahmewiedergabeeinrichtung (ebenfalls 126) vorgesehen. Die Einrichtung 126 ist vorzugsweise mit einem externen In- put versehen. In diesem Fall wird das gesamte Audiosignal entweder bereits objektorientiert oder noch kanalorientiert bereitgestellt und eingespeist. Dann kommen die Audiosignale nicht vom Szeneprotokoll, das dann lediglich Steuerungsaufgaben wahrnimmt. Die eingespeisten Audiodaten werden dann von der Einrichtung 126 aus ggf. in eine objektorientierte Darstellung umgesetzt und dann intern der Abbil- dungseinrichtung 18 zugeführt, die dann das Objekt/Kanal- Mapping durchführt.
Alle Audioverbindungen zwischen den Modulen sind durch ein Matrixmodul 128 schaltbar, um je nach Anforderung durch die zentrale Steuerung 120 entsprechende Kanäle mit entsprechenden Kanälen zu verbinden. Bei einem bevorzugten Ausfüh- rungsbeispiel hat der Benutzer die Möglichkeit, 64 Eingangskanäle mit Signalen für virtuelle Quellen in die Audioverarbeitungseinrichtung 12 einzuspeisen, es existieren somit bei diesem Ausführungsbeispiel 64 Eingangskanäle EK1- EK . Damit können existierende Konsolen als Benutzer- schnittsteilen zum Vormischen der virtuellen Quellensignale verwendet werden. Das räumliche Mischen wird dann durch das Wellenfeldsynthese-Autorensystem und insbesondere durch das Herzstück, den WFS-Renderer 122, durchgeführt.
Die komplette Szenenbeschreibung wird in der Bereitstellungseinrichtung 10, die auch als Szenenprotokoll bezeichnet wird, gespeichert. Die Hauptkommunikation bzw. der benötigte Datenverkehr wird dagegen von der zentralen Steuerung 120 durchgeführt. Änderungen in der Szenenbeschrei- bung, wie sie beispielsweise durch die Benutzerschnittstelle 20 und insbesondere durch eine Hardware-Mischkonsole 200 oder eine Software-GUI, also eine graphische Software- Benutzerschnittstelle 202 erreicht werden können, werden über eine Benutzerschnittstellen-Steuerung 204 der Bereit- Stellungseinrichtung 10 als geändertes Szenenprotokoll zugeführt. Durch Bereitstellung eines geänderten Szenenprotokolls ist die gesamte logische Struktur einer Szene eindeutig dargestellt.
Für die Realisierung der Objekt-orientierten Lösungsansatzes wird durch die Abbildungseinrichtung 18 jedes Schallobjekt einem Aufbereitungskanal (Eingangskanal) zugeordnet, in dem das Objekt für eine bestimmte Zeit existiert. Üblicherweise existiert eine Anzahl von Objekten in chronologi- scher Reihenfolge auf einem bestimmten Kanal, wie es anhand der Fig. 3a, 3b und 6 dargestellt worden ist. Obwohl das erfindungsgemäße Autorensystem diese Objektorientierung unterstützt, muß der Wellenfeldsynthese-Renderer die Objekte
selbst nicht kennen. Er empfängt einfach Signale in den Audiokanälen und eine Beschreibung der Art und Weise, auf die diese Kanäle aufbereitet werden müssen. Die Bereitstellungseinrichtung mit dem Szenenprotokoll, also mit der Kenntnis der Objekte und der zugeordneten Kanäle kann eine Transformation der Objekt-bezogenen Metadaten (beispielsweise der Quellenposition) zu Kanal-bezogenen Metadaten durchführen und dieselben zu dem WFS-Renderer 122 übertragen. Die Kommunikation zwischen anderen Modulen wird durch spezielle Protokolle auf eine Art und Weise durchgeführt, daß die anderen Module nur nötige Informationen enthalten, wie es schematisch durch den Block Funktionsprotokolle 129 in Fig. 4 dargestellt ist.
Das erfindungsgemäße Steuermodul unterstützt ferner die Festplatten-Speicherung der Szenenbeschreibung. Sie unterscheidet vorzugsweise zwischen zwei Dateiformaten. Ein Dateiformat ist ein Autorenformat, wo die Audiodaten als unkomprimierte PCM-Daten gespeichert werden. Ferner werden Sitzungs-bezogene Informationen, wie beispielsweise eine Gruppierung von Audioobjekten, also von Quellen, Layer- Informationen etc. ebenfalls verwendet, um in einem speziellen Dateiformat, das auf XML basiert, gespeichert zu werden.
Der andere Typ ist das Distributionsdateiformat. In diesem Format können Audiodaten auf komprimierte Art und Weise gespeichert werden, und es besteht hierbei kein Bedarf, die Sitzungs-bezogenen Daten zusätzlich zu speichern. Es sei darauf hingewiesen, daß die Audioobjekte noch in diesem Format existieren, und daß der MPEG-4-Standard zur Distribution verwendet werden kann. Erfindungsgemäß wird es bevorzugt, die Wellenfeldsynthese-Aufbereitung immer in Echtzeit zu tun. Dies ermöglicht es, daß keine vor-gerenderten Audioinformationen, also bereits fertige Lautsprechersigna¬ le in irgendeinem Dateiformat gespeichert werden muß. Dies ist insofern von großem Vorteil, da die Lautsprechersignale ganz erhebliche Datenmengen in Anspruch nehmen können, was
nicht zuletzt auf die Vielzahl von verwendeten Lautsprechern in einer Wellenfeldsyntheseumgebung zurückzuführen ist .
Das eine oder die mehreren Wellenfeldsynthese-Renderer- Module 122 werden üblicherweise mit virtuellen Quellensignalen und einer Kanal-orientierten Szenenbeschreibung versorgt. Ein Wellenfeldsynthese-Renderer berechnet gemäß der Wellenfeldsynthese-Theorie das Treibersignal für jeden Lautsprecher, also ein Lautsprechersignal der Lautsprechersignale 14 von Fig. 4. Der Wellenfeldsynthese-Renderer wird ferner Signale für Sobwoofer-Lautsprecher berechnen, die ebenfalls benötigt werden, um das Wellenfeldsynthese-System bei niederen Frequenzen zu unterstützen. Raumsimulations- Signale von dem Raumsimulationsmodul 124 werden unter Verwendung einer Anzahl (üblicherweise 8 bis 12) statischer ebener Wellen gerendert. Basierend auf diesem Konzept ist es möglich, unterschiedliche Lösungsansätze für die Raumsimulation zu integrieren. Ohne Verwendung des Raumsimulati- onsmoduls 124 erzeugt das Wellenfeldsynthesesystem bereits annehmbare Tonbilder mit stabiler Wahrnehmung der Quellenrichtung für den Hörbereich. Es existieren jedoch bestimmte Mängel hinsichtlich der Wahrnehmung der Tiefe der Quellen, da üblicherweise keine frühen Raumreflexionen oder Nach- hallerscheinungen den Quellensignalen zugefügt werden. Erfindungsgemäß wird es bevorzugt, daß ein Raumsimulationsmodell eingesetzt wird, das Wandreflexionen reproduziert, die beispielsweise dahingehend modelliert werden, daß ein Spiegelquellenmodell zur Erzeugung der frühen Reflexionen ein- gesetzt wird. Diese Spiegelquellen können wiederum als Audioobjekte des Szenenprotokolls behandelt werden oder tatsächlich erst von der Audioverarbeitungseinrichtung selbst hinzugefügt werden. Die Aufnahme/Wiedergabe-Tools 126 stellen eine nützliche Ergänzung dar. Schallobjekte, die zur Mischung auf herkömmliche Art und Weise während des Vormi- schens fertiggestellt sind, dahingehend, daß also nur noch die räumliche Mischung durchgeführt werden muß, können von dem herkömmlichen Mischpult zu einem Audioobjekt-
Wiedergabegerät gespeist werden. Ferner wird es bevorzugt, auch ein Audioaufzeichnungsmodul zu haben, das die Ausgangskanäle des Mischpults auf eine Zeitcode-gesteuerte Art und Weise aufzeichnet und die Audiodaten am Wiedergabe- Modul speichert. Das Wiedergabemodul wird einen Startzeitcode empfangen, um ein bestimmtes Audioobjekt abzuspielen, und zwar in Verbindung mit einem jeweiligen Ausgangskanal, der dem Wiedergabegerät 126 von der Abbildungseinrichtung 18 zugeführt wird. Das Aufnahme/Wiedergabegerät kann das Abspielen von einzelnen Audioobjekten unabhängig voneinander starten und stoppen, je nach Beschreibung des Startzeitpunkts und des Stoppzeitpunkts, der einem Audioobjekt zugeordnet ist. Sobald die Mischprozedur beendet ist, kann der Audioinhalt von dem Wiedergabegerätmodul genommen wer- den und in das Distributionsdateiformat exportiert werden. Das Distributionsdateiformat enthält somit ein fertiges Szenenprotokoll einer fertig abgemischten Szene. Das Ziel des erfindungsgemäßen Benutzerschnittstellenkonzepts besteht darin, eine hierarchische Struktur zu implementieren, die an die Aufgaben des Kino-Mischprozesses angepaßt ist. Hierbei wird ein Audioobjekt als Quelle aufgefaßt, die als Darstellung des einzelnen Audioobjekts für eine gegebene Zeit existiert. Eine Startzeit und eine Stopp/Ende-Zeit sind typisch für eine Quelle, also für ein Audioobjekt. Die Quelle bzw. das Audioobjekt benötigt Ressourcen des Systems während der Zeit, zu der das Objekt bzw. die Quelle „lebt".
Vorzugsweise umfaßt jede Tonquelle neben der Startzeit und der Stoppzeit auch Metadaten. Diese Metadaten sind „Typ" (zu einem bestimmten Zeitpunkt eine ebene Welle oder eine Punktquelle), „Richtung", „Lautstärke", „Stummschaltung" und „Flags" für eine richtungsabhängige Lautheit und ein richtungsabhängiges Delay. Alle diese Metadaten können automatisiert verwendet werden.
Ferner wird es bevorzugt, daß trotz des Objekt-orientierten Lösungsansatzes das erfindungsgemäße Autorensystem auch dem herkömmlichen Kanalkonzept dahingehend dient, daß z. B. Ob-
jekte, die über dem gesamten Film bzw. allgemein über der gesamten Szene „lebendig" sind, auch einen eigenen Kanal bekommen. Dies bedeutet, daß diese Objekte im Prinzip einfache Kanäle in 1 : 1-Umsetzung, wie sie anhand von Fig. 6 dargelegt wird, darstellen.
Bei einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung können wenigstens zwei Objekte gruppiert werden. Für jede Gruppe ist es möglich, auszuwählen, welche Parame- ter gruppiert sein sollen, und auf welche Weise dieselben unter Verwendung des Masters der Gruppe berechnet werden sollen. Gruppen von Schallquellen existieren für eine gegebene Zeit, welche durch die Startzeit und die Endzeit der Mitglieder definiert ist.
Ein Beispiel für den Nutzen von Gruppen besteht darin, dieselben für virtuelle Standard-Surround-Setups zu verwenden. Diese könnten verwendet werden für das virtuelle Ausblenden aus einer Szene oder das virtuelle Hineinzoomen in eine Szene. Alternativ kann die Gruppierung auch verwendet werden, um Surround-Nachhalleffekte zu integrieren und in ein WFS-Mix aufzuzeichnen.
Ferner wird es bevorzugt, eine weitere logische Entität zu bilden, nämlich die Layer oder Schicht. Um eine Mischung oder eine Szene zu strukturieren, werden bei einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung Gruppen und Quellen in unterschiedlichen Schichten angeordnet. Unter Verwendung von Schichten können in der Audio- Workstation Pre Dubs simuliert werden. Schichten können auch verwendet werden, um Anzeigeattribute während des Autorenprozesses zu ändern, beispielsweise um unterschiedliche Teile des aktuellen Mischgegenstands anzuzeigen oder zu verstecken.
Eine Szene besteht aus allen vorher erörterten Komponenten für eine gegebene Zeitdauer. Diese Zeitdauer könnte eine Filmspule oder auch z. B. der gesamte Film sein, oder aber
nur z. B. ein Filmabschnitt bestimmter Dauer, wie beispielsweise fünf Minuten. Die Szene besteht wiederum aus einer Anzahl von Layern, Gruppen und Quellen, die zu der Szene gehören.
Vorzugsweise sollte die komplette Benutzerschnittstelle 20 sowohl einen Graphiksoftwareteil als auch einen Hardwareteil umfassen, um eine haptische Steuerung zu erlauben. Obgleich dies bevorzugt wird, könnte die Benutzerschnittstel- le jedoch auch aus Kostengründen vollständig als Softwaremodul implementiert sein.
Ein Entwurfskonzept für das graphische System wird verwendet, das auf sogenannten „Spaces" basiert. In der Benutzer- schnittsteile existiert eine kleine Anzahl von unterschiedlichen Spaces. Jeder Space ist eine spezielle Editierumgebung, die das Projekt aus einem unterschiedlichen Ansatz zeigt, wobei alle Werkzeuge zur Verfügung stehen, die für einen Space benötigt werden. Daher müssen nicht länger ver- schiedene Fenster beachtet werden. Alle für eine Umgebung benötigten Werkzeuge befinden sich in dem entsprechenden Space .
Um dem Toningenieur einen Überblick über alle Audiosignale zu einem gegebenen Zeitpunkt zu geben, wird der bereits anhand der Fig. 3a und 3b beschriebene adaptive Misch-Space verwendet. Derselbe kann mit einem herkömmlichen Mischpult verglichen werden, das nur die aktiven Kanäle anzeigt. Beim adaptiven Mixing Space werden statt der reinen Kanalinfor- mationen auch Audioobjektinformationen präsentiert. Diese Objekte sind, wie es dargestellt worden ist, durch die Abbildungseinrichtung 18 von Fig. 1 Eingangskanälen der WFS- Rendering-Einheit zugeordnet. Neben dem adaptiven Misch- Space existiert auch der sogenannte Timeline-Space, der ei- nen Überblick über alle Eingangskanäle liefert. Jeder Kanal wird mit seinen entsprechenden Objekten dargestellt. Der Benutzer hat die Möglichkeit, die Objekt-zu-Kanal-Zuordnung
zu verwenden, obgleich aus Einfachheitsgründen eine automatische Kanalzuordnung bevorzugt wird.
Ein weiterer Space ist der Positionier-und-Editier-Space, der die Szene in einer dreidimensionalen Ansicht zeigt. Dieser Space soll den Benutzer in die Lage versetzen, Bewegungen der Quellenobjekte aufzuzeichnen bzw. zu editieren. Bewegungen können unter Verwendung beispielsweise eines Joysticks oder unter Verwendung anderer Einga- be/Anzeigegeräte erzeugt werden, wie sie für graphische Benutzerschnittstellen bekannt sind.
Schließlich existiert ein Room-Space, der das Raumsimulationsmodul 124 von Fig. 4 unterstützt, um auch eine Raumedi- tiermöglichkeit zu liefern. Jeder Raum wird durch einen bestimmten Parametersatz beschrieben, der in einer Raum- Voreinstellungs-Bibliothek gespeichert wird. Abhängig von dem Raummodell können verschiedene Arten von Parametersätzen sowie verschiedene graphische Benutzerschnittstellen eingesetzt werden.
Abhängig von den Gegebenheiten kann das erfindungsgemäße Verfahren zum Erzeugen einer Audiodarstellung in Hardware oder in Software implementiert werden. Die Implementierung kann auf einem digitalen Speichermedium, insbesondere einer Diskette oder CD mit elektronisch auslesbaren Steuersignalen erfolgen, die so mit einem programmieren Computersystem zusammenwirken können, daß das erfindungsgemäße Verfahren ausgeführt wird. Die Erfindung besteht somit auch in einem Computer-Programm-Produkt mit einem auf einem maschinenlesbaren Träger gespeicherten Programmcode zur Durchführung des erfindungsgemäßen Verfahrens, wenn das Computer- Programm-Produkt auf einem Rechner abläuft. In anderen Worten ausgedrückt ist die Erfindung somit auch ein Computer- Programm mit einem Programmcode zur Durchführung des Verfahrens, wenn das Computer-Programm auf einem Computer abläuft.