Vorrichtung und Verfahren zum Simulieren eines Wellenfeld- synthese-Systems
Beschreibung
Die vorliegende Erfindung bezieht sich auf die Wellenfeld- synthese-Technik und insbesondere auf Werkzeuge zum Erstellen von Audioszenenbeschreibungen bzw. zum Verifizieren von Audioszenenbeschreibungen.
Es besteht ein steigender Bedarf an neuen Technologien und innovativen Produkten im Bereich der Unterhaltungselektronik. Dabei ist es eine wichtige Voraussetzung für den Er- folg neuer multimedialer Systeme, optimale Funktionalitäten bzw. Fähigkeiten anzubieten. Erreicht wird das durch den Einsatz digitaler Technologien und insbesondere der Computertechnik. Beispiele hierfür sind die Applikationen, die einen verbesserten realitätsnahen audiovisuellen Eindruck bieten. Bei bisherigen Audiosystemen liegt ein wesentlicher Schwachpunkt in der Qualität der räumlichen Schallwiedergabe von natürlichen, aber auch von virtuellen Umgebungen.
Verfahren zur mehrkanaligen Lautsprecherwiedergabe von Au- diosignalen sind seit vielen Jahren bekannt und standardisiert. Alle üblichen Techniken besitzen den Nachteil, dass sowohl der Aufstellungsort der Lautsprecher als auch die Position des Hörers dem Übertragungsformat bereits eingeprägt sind. Bei falscher Anordnung der Lautsprecher im Be- zug auf den Hörer leidet die Audioqualität deutlich. Ein optimaler Klang ist nur in einem kleinen Bereich des Wiedergaberaums,, dem so genannten Sweet Spot, möglich.
Ein besserer natürlicher Raumeindruck sowie eine stärkere Einhüllung bei der Audiowiedergabe kann mit Hilfe einer neuen Technologie erreicht werden. Die Grundlagen dieser Technologie, die so genannte Wellenfeldsynthese (V5FS; V3FS = Wave-Field Synthesis) , wurden an der TU DeIft erforscht und
erstmals in den späten 80er-Jahren vorgestellt (Berkhout, A. J.; de Vries, D.; Vogel, P.: Acoustic control by Wave- field Synthesis. JASA 93, 1993).
Infolge der enormen Anforderungen dieser Methode an Rechnerleistung und Übertragungsraten wurde die Wellenfeldsyn- these bis jetzt nur selten in der Praxis angewendet. Erst die Fortschritte in den Bereichen der Mikroprozessortechnik und der Audiocodierung gestatten heute den Einsatz dieser Technologie in konkreten Anwendungen. Erste Produkte im professionellen Bereich werden nächstes Jahr erwartet. In wenigen Jahren sollen auch erste Wellenfeldsynthese- Anwendungen für den Konsumerbereich auf den Markt kommen.
Die Grundidee von WFS basiert auf der Anwendung des Huy- gens' sehen Prinzips der Wellentheorie:
Jeder Punkt, der von einer Welle erfasst wird, ist Ausgangspunkt einer Elementarwelle, die sich kugelförmig bzw. kreisförmig ausbreitet.
Angewandt auf die Akustik kann durch eine große Anzahl von Lautsprechern, die nebeneinander angeordnet sind (einem so genannten Lautsprecherarray) , jede beliebige Form einer einlaufenden Wellenfront nachgebildet werden. Im einfachsten Fall, einer einzelnen wiederzugebenden Punktquelle und einer linearen Anordnung der Lautsprecher, müssen die Audiosignale eines jeden Lautsprechers mit einer Zeitverzögerung und Amplitudenskalierung so gespeist werden, dass sich die abgestrahlten Klangfelder der einzelnen Lautsprecher richtig überlagern. Bei mehreren Schallquellen wird für jede Quelle der Beitrag zu jedem Lautsprecher getrennt berechnet und die resultierenden Signale addiert. Befinden sich die wiederzugebenden Quellen in einem Raum mit reflek- tierenden Wänden, dann müssen auch Reflexionen als zusätzliche Quellen über das Lautsprecherarray wiedergegeben werden. Der Aufwand bei der Berechnung hängt daher stark von
der Anzahl der Schallquellen, den Reflexionseigenschaften des Aufnahmeraums und der Anzahl der Lautsprecher ab.
Der Vorteil dieser Technik liegt im Besonderen darin, dass ein natürlicher räumlicher Klangeindruck über einen großen Bereich des Wiedergaberaums möglich ist. Im Gegensatz zu den bekannten Techniken werden Richtung und Entfernung von Schallquellen sehr exakt wiedergegeben. In beschränktem Maße können virtuelle Schallquellen sogar zwischen dem realen Lautsprecherarray und dem Hörer positioniert werden.
Obgleich die Wellenfeldsynthese für Umgebungen gut funktioniert, deren Beschaffenheiten bekannt sind, treten doch Unregelmäßigkeiten auf, wenn sich die Beschaffenheit ändert bzw. wenn die Wellenfeldsynthese auf der Basis einer Umgebungsbeschaffenheit ausgeführt wird, die nicht mit der tatsächlichen Beschaffenheit der Umgebung übereinstimmt.
Eine Umgebungsbeschaffenheit kann durch die Impulsantwort der Umgebung beschrieben werden.
Dies wird anhand des nachfolgenden Beispiels näher dargelegt. Es wird davon ausgegangen, dass ein Lautsprecher ein Schallsignal gegen eine Wand aussendet, deren Reflexion un- erwünscht ist. Für dieses einfache Beispiel würde die Raumkompensation unter Verwendung der Wellenfeldsynthese darin bestehen, dass zunächst die Reflexion dieser Wand bestimmt wird, um zu ermitteln, wann ein Schallsignal, das von der Wand reflektiert worden ist, wieder beim Lautsprecher an- kommt, und welche Amplitude dieses reflektierte Schallsignal hat. Wenn die Reflexion von dieser Wand unerwünscht ist, so besteht mit der Wellenfeldsynthese die Möglichkeit, die Reflexion von dieser Wand zu eliminieren, indem dem Lautsprecher ein zu dem Reflexionssignal gegenphasiges Sig- nal mit entsprechender Amplitude zusätzlich zum ursprünglichen Audiosignal eingeprägt wird, so dass die hinlaufende Kompensationswelle die Reflexionswelle auslöscht, derart, dass die Reflexion von dieser Wand in der Umgebung, die be-
trachtet wird, eliminiert ist. Dies kann dadurch geschehen, dass zunächst die Impulsantwort der Umgebung berechnet wird und auf der Basis der Impulsantwort dieser Umgebung die Beschaffenheit und Position der Wand bestimmt wird, wobei die Wand als Spiegelquelle interpretiert wird, also als Schallquelle, die einen einfallenden Schall reflektiert.
Wird zunächst die Impulsantwort dieser Umgebung gemessen und wird dann das Kompensationssignal berechnet, das dem Audiosignal überlagert dem Lautsprecher eingeprägt werden muss, so wird eine Aufhebung der Reflexion von dieser Wand stattfinden, derart, dass ein Hörer in dieser Umgebung schallmäßig den Eindruck hat, dass diese Wand überhaupt nicht existiert.
Entscheidend für eine optimale Kompensation der reflektierten Welle ist jedoch, dass die Impulsantwort des Raums genau bestimmt wird, damit keine Über- oder Unterkompensation auftritt.
Die Wellenfeldsynthese ermöglicht somit eine korrekte Abbildung von virtuellen Schallquellen über einen großen Wiedergabebereich. Gleichzeitig bietet sie dem Tonmeister und Toningenieur neues technisches und kreatives Potential bei der Erstellung auch komplexer Klanglandschaften. Die Wellenfeldsynthese (WFS oder auch Schallfeldsynthese) , wie sie Ende der 80-er Jahre an der TU Delft entwickelt wurde, stellt einen holographischen Ansatz der Schallwiedergabe dar. Als Grundlage hierfür dient das Kirchhoff-Helmholtz- Integral. Dieses besagt, dass beliebige Schallfelder innerhalb eines geschlossenen Volumens mittels einer Verteilung von Monopol- und Dipolschallquellen (Lautsprecherarrays) auf der Oberfläche dieses Volumens erzeugt werden können.
Bei der Wellenfeldsynthese wird aus einem Audiosignal, das eine virtuelle Quelle an einer virtuellen Position aussendet, eine Synthesesignal für jeden Lautsprecher des Lautsprecherarrays berechnet, wobei die Synthesesignale derart
hinsichtlich Amplitude und Phase gestaltet sind, dass eine Welle, die sich aus der Überlagerung der einzelnen durch die im Lautsprecherarray vorhandenen Lautsprecher ausgegebenen Schallwelle ergibt, der Welle entspricht, die von der virtuellen Quelle an der virtuellen Position herrühren würde, wenn diese virtuelle Quelle an der virtuellen Position eine reale Quelle mit einer realen Position wäre.
Typischerweise sind mehrere virtuelle Quellen an verschie- denen virtuellen Positionen vorhanden. Die Berechnung der Synthesesignale wird für jede virtuelle Quelle an jeder virtuellen Position durchgeführt, so dass typischerweise eine virtuelle Quelle in Synthesesignalen für mehrere Lautsprecher resultiert. Von einem Lautsprecher aus betrachtet empfängt dieser Lautsprecher somit mehrere Synthesesignale, die auf verschiedene virtuelle Quellen zurückgehen. Eine Überlagerung dieser Quellen, die aufgrund des linearen Superpositionsprinzips möglich ist, ergibt dann das von dem Lautsprecher tatsächlich ausgesendete Wiedergabesignal.
Die Möglichkeiten der Wellenfeldsynthese können um so besser ausgeschöpft werden, je größer die Lautsprecherarrays sind, d. h. um so mehr einzelne Lautsprecher bereitgestellt werden. Damit steigt jedoch auch die Rechenleistung, die eine Wellenfeldsyntheseeinheit vollbringen muss, da typischerweise auch Kanalinformationen berücksichtigt werden müssen. Dies bedeutet im einzelnen, dass von jeder virtuellen Quelle zu jedem Lautsprecher prinzipiell ein eigener Übertragungskanal vorhanden ist, und dass prinzipiell der Fall vorhanden sein kann, dass jede virtuelle Quelle zu einem Synthesesignal für jeden Lautsprecher führt, bzw. dass jeder Lautsprecher eine Anzahl von Synthesesignalen erhält, die gleich der Anzahl von virtuellen Quellen ist.
Wenn insbesondere bei Kinoanwendungen die Möglichkeiten der Wellenfeldsynthese dahingehend ausgeschöpft werden sollen, dass die virtuellen Quellen auch beweglich sein können, so ist zu erkennen, dass aufgrund der Berechnung der Synthese-
Signale, der Berechnung der Kanalinformationen und der Erzeugung der Wiedergabesignale durch Kombination der Kanalinformationen und der Synthesesignale ganz erhebliche Rechenleistungen zu bewältigen sind.
Darüber hinaus sei an dieser Stelle angemerkt, dass die Qualität der Audiowiedergabe mit der Anzahl der zur Verfügung gestellten Lautsprecher steigt. Dies bedeutet, dass die Audiowiedergabequalität um so besser und realistischer wird, um so mehr Lautsprecher in dem bzw. den Lautsprecher- arrays vorhanden sind.
Im obigen Szenario könnten die fertig gerenderten und ana- log-digital-gewandelten Wiedergabesignale für die einzelnen Lautsprecher beispielsweise über Zweidrahtleitungen von der Wellenfeldsynthese-Zentraleinheit zu den einzelnen Lautsprechern übertragen werden. Dies hätte zwar den Vorteil, dass nahezu sichergestellt ist, dass alle Lautsprecher synchron arbeiten, so dass hier zu Synchronisationszwecken keine weiteren Maßnahmen erforderlich wären. Andererseits könnte die Wellenfeldsynthese-Zentraleinheit immer nur für einen speziellen Wiedergaberaum bzw. für eine Wiedergabe mit einer festgelegten Anzahl von Lautsprechern hergestellt werden. Dies bedeutet, dass für jeden Wiedergaberaum eine eigene Wellenfeldsynthese-Zentraleinheit gefertigt werden müsste, die ein erhebliches Maß an Rechenleistung zu vollbringen hat, da die Berechnung der Audiowiedergabesignale insbesondere im Hinblick auf viele Lautsprecher bzw. viele virtuelle Quellen zumindest teilweise parallel und in Echt- zeit erfolgen muss.
Das Deutsche Patent DE 10254404 B4 offenbart ein System, wie es in Fig. 7 dargestellt ist. Ein Teil ist das zentrale Wellenfeldsynthesemodul 10. Der andere Teil setzt sich aus einzelnen Lautsprechermodulen 12a, 12b, 12c, 12d, 12e zusammen, die mit tatsächlichen physikalischen Lautsprechern 14a, 14b, 14c, 14d, 14e derart verbunden sind, wie es in Fig. 1 gezeigt ist. Es sei darauf hingewiesen, dass die An-
zahl der Lautsprecher 14a-14e bei typischen Anwendungen im Bereich über 50 und typischerweise sogar deutlich über 100 liegt. Wird jedem Lautsprecher ein eigenes Lautsprechermodul zugeordnet, so wird auch die entsprechende Anzahl von Lautsprecher-Modulen benötigt. Je nach Anwendung wird es jedoch bevorzugt, von einem Lautsprecher-Modul aus eine kleine Gruppe von nebeneinander liegenden Lautsprechern anzusprechen. In diesem Zusammenhang ist es beliebig, ob ein Lautsprecher-Modul, das mit vier Lautsprechern beispiels- weise verbunden ist, die vier Lautsprecher mit demselben Wiedergabesignal speist, oder ob für die vier Lautsprecher entsprechende unterschiedliche Synthesesignale berechnet werden, so dass ein solches Lautsprecher-Modul eigentlich aus mehreren einzelnen Lautsprecher-Modulen besteht, die jedoch physikalisch in einer Einheit zusammengefasst sind.
Zwischen dem Wellenfeldsynthesemodul 10 und jedem einzelnen Lautsprecher-Modul 12a-12e befindet sich eine eigene Übertragungsstrecke 16a-16e, wobei jede Übertragungsstrecke mit dem zentralen Wellenfeldsynthesemodul und einem eigenen Lautsprecher-Modul gekoppelt ist.
Als Datenübertragungsmodus zum Übertragen von Daten von dem Wellenfeldsynthesemodul zu einem Lautsprecher-Modul wird ein serielles Übertragungsformat bevorzugt, das eine hohe Datenrate liefert, wie beispielsweise ein sogenanntes Firewire-Übertragungsformat oder ein USB-Datenformat. Datenübertragungsraten von über 100 Megabit pro Sekunde sind vorteilhaft.
Der Datenstrom, der von dem Wellenfeldsynthesemodul 10 zu einem Lautsprecher-Modul übertragen wird, wird somit je nach gewähltem Datenformat in dem Wellenfeldsynthesemodul entsprechend formatiert und mit einer Synchronisationsin- formation versehen, die in üblichen seriellen Datenformaten vorgesehen ist. Diese Synchronisationsinformation wird von den einzelnen Lautsprecher-Modulen aus dem Datenstrom extrahiert und verwendet, um die einzelnen Lautsprecher-Module
im Hinblick auf ihre Wiedergabe, also letztendlich auf die Analog-Digital-Wandlung zum Erhalten des analogen Lautsprechersignals und die dafür vorgesehene Abtastung (re- sampling) zu synchronisieren. Das zentrale Wellenfeldsyn- thesemodul arbeite als Master, und alle Lautsprecher-Module arbeiten als Clients, wobei die einzelnen Datenströme über die verschiedenen Übertragungsstrecken 16a-16e alle dieselben Synchronisationsinformationen von dem Zentralmodul 10 erhalten. Dies stellt sicher, dass alle Lautsprecher-Module synchron, und zwar synchronisiert von dem Master 10, arbeiten, was für das Audiowiedergabesystem wichtig ist, um keinen Verlust an Audioqualität zu erleiden, damit die vom Wellenfeldsynthesemodul berechneten Synthesesignale nicht zeitversetzt von den einzelnen Lautsprechern nach entspre- chendem Audio-Rendering abgestrahlt werden.
Das beschriebene Konzept liefert zwar bereits eine deutliche Flexibilität im Hinblick auf ein Wellenfeldsynthese- System, das für verschiedene Anwendungsmöglichkeiten ska- lierbar ist. Es leidet jedoch nach wie vor an der Problematik, dass das zentrale Wellenfeldsynthese-Modul, das das eigentliche Haupt-Rendering durchführt, das also abhängig von den Positionen der virtuellen Quellen und abhängig von den Lautsprecherpositionen die einzelnen Synthese-Signale für die Lautsprecher berechnet, einen „Flaschenhals" für das gesamte System darstellt. Obgleich bei diesem System das „Nach-Rendering", also die Beaufschlagung der Synthesesignale mit Kanalübertragungsfunktionen, etc. bereits dezentral ausgeführt wird und somit bereits die notwendige Datenübertragungskapazität zwischen dem zentralen Renderer- Modul und den einzelnen Lautsprecher-Modulen durch Selektion von Synthesesignalen mit einer kleineren Energie als einer bestimmten Schwellenenergie reduziert worden ist, müssen jedoch dennoch alle virtuellen Quellen gewissermaßen für alle Lautsprechermodule gerendert werden, also in Synthesesignale umgerechnet werden, wobei die Ausselektion erst nach dem Rendering stattfindet.
Dies bedeutet, dass das Rendering nach wie vor die Gesamtkapazität des Systems bestimmt. Ist die zentrale Rendering- Einheit daher z. B. in der Lage, 32 virtuelle Quellen gleichzeitig zu rendern, also für diese 32 virtuellen Quel- len die Synthesesignale gleichzeitig zu berechnen, so tre¬ ten ernsthafte Kapazitätsengpässe auf, wenn mehr als 32 Quellen zu einem Zeitpunkt in einer Audioszene aktiv sind. Für einfache Szenen ist dies ausreichend. Für komplexere Szenen, insbesondere mit immersiven Klangeindrücken, also wenn es beispielsweise regnet und viele Regentropfen einzelne Quellen darstellen, ist es ummittelbar einsichtig, dass die Kapazität mit maximal 32 Quellen nicht mehr aus¬ reicht. Eine entsprechende Situation findet auch dann statt, wenn man ein großes Orchester hat und tatsächlich jeden Orchesterspieler oder wenigstens jede Instrumentengruppe als eigene Quelle an ihrer eigenen Position verarbeiten möchte. Hier können 32 virtuelle Quellen sehr schnell zu wenig werden.
Typischerweise wird bei dem bekannten Wellenfeldsynthese- Konzept eine Szenenbeschreibung verwendet, in der die einzelnen Audioobjekte derart zusammen definiert sind, dass unter Verwendung der Daten in der Szenenbeschreibung und der Audiodaten für die einzelnen virtuellen Quellen die komplette Szene durch einen Renderer bzw. eine Multi- Rendering-Anordnung aufbereitet werden kann. Hierbei ist für jedes Audioobjekt exakt definiert, wo das Audioobjekt zu beginnen hat und wo das Audioobjekt zu enden hat. Ferner ist für jedes Audioobjekt genau die Position der virtuellen Quelle angegeben, an der die virtuelle Quelle sein soll, die also in die Wellenfeldsynthese-Rendering-Einrichtung einzugeben ist, damit für jeden Lautsprecher die entsprechenden Synthesesignale erzeugt werden. Dies hat zur Folge, dass durch Überlagerung der von den einzelnen Lautsprechern als Reaktion auf die Synthesesignale ausgegebenen Schallwellen für einen Hörer ein Eindruck entsteht, als ob eine Schallquelle an einer Position im Wiedergaberaum bzw. au-
ßerhalb des Wiedergaberaums positioniert ist, die durch die Quellenposition der virtuellen Quelle definiert ist.
Nachteilig an dem beschriebenen Konzept ist die Tatsache, dass es insbesondere bei der Erstellung der Audioszenenbeschreibungen relativ starr ist. So wird ein Tonmeister eine Audioszene genau für eine bestimmte Wellenfeldsyntheseanla- ge erstellen, von der er genau die Situation im Wiedergaberaum kennt und die Audioszenenbeschreibung so erstellt, dass sie auf dem definierten, dem Produzenten bekannten Wellenfeldsynthesesystem reibungslos abläuft.
In diesem Zusammenhang wird der Tonmeister maximale Kapazitäten der Wellenfeldsynthese-Rendering-Einrichtung sowie Anforderungen an das Wellenfeld im Wiedergaberaum bereits bei der Erstellung der Audioszenenbeschreibung berücksichtigen. Hat ein Renderer beispielsweise eine maximale Kapazität von 32 zu verarbeitenden Audioquellen, so wird der Tonmeister bereits darauf achten, die Audioszenenbeschrei- bung so zu editieren, dass niemals mehr als 32 Quellen gleichzeitig zu verarbeiten sind.
Des weiteren wird der Tonmeister bereits daran denken, dass bei der Positionierung von z. B. zwei Instrumenten, wie beispielsweise Bassgitarre und Lead-Gitarre für den gesamten Wiedergaberaum, dessen Ausdehnungen dem Produzenten bekannt sind, Schallaufzeiten zu erfüllen sind. So ist für ein klares und nicht verschwommenes Klangbild wichtig, dass z. B. Bassgitarre und Lead-Gitarre relativ gleichmäßig vom Hörer wahrgenommen werden. Ein Tonmeister wird dann bei der virtuellen Positionierung, also bei der Zuordnung der virtuellen Positionen zu diesen beiden Quellen, darauf achten, dass im gesamten Wiedergaberaum erfüllt ist, dass die Wellenfront von diesen beiden Instrumenten nahezu gleichmäßig bei einem Zuhörer ankommen.
Eine Audioszenenbeschreibung wird so eine Folge von Audioobjekten erhalten, wobei jedes Audioobjekt eine virtuelle
Position und einen Anfangszeitpunkt, einen Endzeitpunkt o- der eine Dauer umfasst.
Normalerweise wird dann gewissermaßen durch manuelle Über- Prüfungen, also durch Probehören an verschiedenen Positionen im Wiedergaberaum tatsächlich überprüft, ob die Audioszenenbeschreibung so bleiben kann, also ob der Produzent der Audioszenenbeschreibung tatsächlich gut gearbeitet hat und auf sämtliche Anforderungen des Wellenfeldsynthese- Systems eingegangen ist.
Nachteilig an diesem Konzept ist, dass sich der Tonmeister, der die Audioszenenbeschreibung erstellt, auf Randbedingungen des Wellenfeldsynthese-Systems konzentrieren muss, die eigentlich mit der kreativen Seite der Audioszene nichts zu tun haben. Es wäre also wünschenswert, wen sich der Tonmeister allein auf die kreativen Aspekte konzentrieren könnte, ohne auf ein bestimmtes Wellenfeldsynthesesystem, auf dem seine Audiszene laufen soll, Rücksicht nehmen zu müssen.
An dem beschriebenen Konzept ist ferner nachteilig, dass dann, wenn eine Audioszenenbeschreibung von einem Wellenfeldsynthesesystem mit einem bestimmten ersten Verhalten, für das die Audioszenenbeschreibung konzipiert worden ist, auf einem anderen Wellenfeldsynthesesystem mit einem zweiten Verhalten ablaufen soll, für das die Audioszene nicht konzipiert worden ist.
Würde man einfach die Audioszenenbeschreibung auf dem System laufen lassen, für das sie nicht konzipiert worden ist, so würden Probleme dahingehend auftreten, dass hörbare Fehler eingeführt werden, wenn das zweite System weniger leistungsfähig als das erste System ist.
Ist das zweite System dagegen leistungsfähiger als das erste System, so wird die Audioszenenbeschreibung jedoch das zweite System lediglich im Rahmen der Leistungsfähigkeit
des ersten Systems fordern und die zusätzliche Leistungsfähigkeit des zweiten Systems nicht ausschöpfen.
Bezieht sich das zweite System ferner auf einen z. B. grö- ßeren Wiedergaberaum, so kann an bestimmten Stellen nicht mehr sichergestellt werden, dass die Wellenfronten von zwei virtuellen Quellen, wie beispielsweise Bassgitarre und Lead-Gitarre, nahezu gleichzeitig eintreffen.
Insbesondere die Problematik des gleichzeitigen bzw. nahezu gleichzeitigen Wahrnehmens von zwei virtuellen Quellen, die synchron sein sollten, ist sehr problematisch, zumal bisher für diesen Zweck lediglich manuelle Testhöraktionen und eine subjektive Beurteilung der Qualität an bestimmten Plät- zen im Wiedergaberaum möglich waren.
Ansprechend auf solche subjektiven Beurteilungen war der Tonmeister dann gefordert, die eigentlich schon fertige Audioszenenbeschreibung für das zweite System durchgehend zu überarbeiten, was wiederum sowohl zeitliche Ressourcen als auch finanzielle Ressourcen in Anspruch nimmt.
Insbesondere aufgrund der Erwartung einer starken Verbreitung von Wellenfeldsynthesesystemen in nächster Zeit wird sich die Frage der flexiblen Audioszenenbeschreibungen, die universell auf beliebigen Systemen abgespielt werden können, immer mehr stellen, um an dieser Stelle irgendwann eine ähnliche Portierbarkeit bzw. Kompatibilität zu erreichen, wie sie für CDs oder DVDs gewohnter Stand der Technik sind.
Die Aufgabe der vorliegenden Erfindung besteht darin, ein Konzept zum Simulieren eines Wellenfeldsynthese-Systems zu schaffen, durch das eine Audioszenenbeschreibung effizient im Hinblick auf ein bestimmtes Wellenfeldsynthese-System und damit zusammenhängende potenziell auftretende Fehler untersucht werden kann.
Diese Aufgabe wird durch eine Vorrichtung zum Simulieren eines Wellenfeldsynthese-Systems nach Patentanspruch 1 oder ein Verfahren zum Simulieren eines Wellenfeldsynthese- Systems nach Patentanspruch 15 oder ein Computer-Programm nach Patentanspruch 16 gelöst.
Der vorliegenden Erfindung liegt die Erkenntnis zugrunde, dass neben einer Audioszenenbeschreibung, die eine zeitliche Abfolge von Audioobjekten definiert, auch Ausgabebedin- gungen entweder innerhalb der Audioszenenbeschreibung oder getrennt von der Audioszenenbeschreibung bereitgestellt werden, um dann das Verhalten des Wellenfeldsynthese- Systems, auf dem eine Audioszenenbeschreibung ablaufen soll, zu simulieren. Anhand des simulierten Verhaltens des Wellenfeldsynthese-Systems und anhand der Ausgabebedingungen kann dann überprüft werden, ob das simulierte Verhalten des Wellenfeldsynthese-Systems die Ausgabebedingung erfüllt oder nicht.
Dieses Konzept ermöglicht es, eine Audioszenenbeschreibung einfach für ein anderes Wellenfeldsynthese-System zu simulieren und systemunabhängige generelle Ausgabebedingungen für das andere Wellenfeldsynthese-System zu berücksichtigen, ohne dass der Tonmeister bzw. der Schöpfer der Audio- Szenenbeschreibung sich mit derart „säkularen" Dingen eines tatsächlichen Wellenfeldsynthese-Systems beschäftigen müsste. Die Beschäftigung mit den tatsächlichen Randbedingungen eines Wellenfeldsynthesesystems beispielsweise bezüglich der Kapazität der Renderer oder der Größe bzw. der Anzahl der Lautsprecherarrays im Wiedergaberaum wird dem Tonmeister durch die erfindungsgemäße Vorrichtung abgenommen. Er kann einfach seine Audioszenenbeschreibung allein von kreativen Gedanken geleitet so schreiben, wie er sie gerne möchte, indem er den künstlerischen Eindruck durch die systemunabhängigen Ausgabebedingungen absichert.
Hierauf wird dann durch das erfindungsgemäße Konzept überprüft, ob die Audioszenenbeschreibung, die universell, also
nicht für ein spezielles System geschrieben worden ist, auf einem speziellen System laufen kann, ob und gegebenenfalls wo im Wiedergaberaum Probleme auftreten. Erfindungsgemäß muss bei dieser Bearbeitung nicht auf aufwendige Hörtests etc. gewartet werden, sondern der Bearbeiter kann nahezu in Echtzeit das Verhalten des Wellenfeldsynthese-Systems simulieren und anhand der vorgegebenen Ausgabebedingung verifizieren.
Erfindungsgemäß kann sich die Ausgabebedingung auf Hardware-Aspekte des Wellenfeldsynthese-Systems beziehen, wie beispielsweise auf eine maximale Verarbeitungskapazität der Renderer-Einrichtung, oder aber auch auf Schallfeldspezifische Dinge im Wiedergaberaum, wie beispielsweise dass Wellenfronten zweier virtueller Quellen innerhalb einer maximalen Zeitdifferenz wahrgenommen werden müssen, o- der dass Pegelunterschiede zwischen zwei virtuellen Quellen an allen Punkten oder wenigstens an bestimmten Punkten im Wiedergaberaum in einem vorbestimmten Korridor liegen müs- sen. Im Hinblick auf die Hardware-spezifischen Ausgabebedingungen wird es bevorzugt, diese aufgrund der Flexibili- täts- und Kompatibilitäts-Anforderungen nicht in der Audioszenenbeschreibung einzufügen, sondern extern der Überprüfungseinrichtung bereitzustellen.
Im Hinblick auf Schallfeld-bezogene Ausgabebedingungen, also Ausgabebedingungen, die definieren, was ein Schallfeld in dem Wiedergaberaum zu erfüllen hat, wird es dagegen bevorzugt, dieselben in die Audioszenenbeschreibung aufzuneh- men. Damit stellt ein Schöpfer einer Audioszenenbeschreibung sicher, dass wenigstens Minimalanforderungen an den Klangeindruck erfüllt werden, dass jedoch noch eine gewisse Flexibilität bei der Wellenfeldsynthese-Aufbereitung verbleibt, um eine Audioszenenbeschreibung nicht nur mit opti- maier Qualität auf einem einzigen Wellenfeldsynthese-System abspielen zu können, sondern auf verschiedenen Wellenfeld- synthese-Systemen, indem die vom Autor zugestandene Flexibilität durch eine intelligente Nachbearbeitung der Audio-
Szenenbeschreibung, die jedoch vorzugsweise maschinell durchgeführt wird, vorteilhaft ausgenutzt wird.
In anderen Worten ausgedrückt dient die vorliegende Erfin- düng als Werkzeug, um zu verifizieren, ob Ausgabebedingungen einer Audioszenenbeschreibung durch ein Wellenfeldsyn- these-System erfüllt werden kann. Sollten Verletzungen von Ausgabebedingungen auftreten, so wird das erfindungsgemäße Konzept bei dem bevorzugten Ausführungsbeispiel den Benut- zer darüber informieren, welche virtuellen Quellen problematisch sind, wo im Wiedergaberaum Verletzungen der Ausgabebedingungen auftreten und zu welchem Zeitpunkt. Damit kann beurteilt werden, ob eine Audioszenenbeschreibung problemlos auf einem beliebigen Wellenfeldsynthese-System läuft, oder ob die Audioszenenbeschreibung aufgrund gravierender Verletzungen der Ausgabebedingungen umgeschrieben werden muss, oder ob zwar Verletzungen der Ausgabebedingungen auftreten, diese aber nicht so gravierend sind, dass man tatsächlich die Audioszenenbeschreibung manipulieren müsste.
Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung werden nachfolgend Bezug nehmend auf die beiliegenden Zeichnungen detailliert erläutert. Es zeigen:
Fig. Ia ein Blockschaltbild einer erfindungsgemäßen Vorrichtung zum Simulieren eines Wellenfeldsynthese- Systems;
Fig. Ib eine spezielle Implementierung der Einrichtung zum Simulieren gemäß Fig. Ia;
Fig. Ic ein Flussdiagramm zum Darstellen der Vorgänge bei einer Ausgabebedingung, die eine Eigenschaft zwi- sehen zwei virtuellen Quellen definiert;
Fig. Id eine schematische Darstellung eines Wiedergaberaums und von Problemzonen bei einem bevorzugten
Ausführungsbeispiel der vorliegenden Erfindung, bei dem AuftreffZeitpunkte von Schallfeldern in der Ausgabebedingung enthalten sind;
Fig. 2 ein beispielhaftes Audioobjekt;
Fig. 3 eine beispielhafte Szenenbeschreibung;
Fig. 4 einen Bitstrom, in dem jedem Audioobjekt ein Hea- der mit den aktuellen Zeitdaten und Positionsdaten zugeordnet ist;
Fig. 5 eine Einbettung des erfindungsgemäßen Konzepts in ein Wellenfeldsynthese-GesamtSystem;
Fig. 6 eine schematische Darstellung eines bekannten Wellenfeldsynthese-Konzepts ; und
Fig. 7 eine weitere Darstellung eines bekannten Wellen- feldsynthese-Konzepts .
Fig. Ia zeigt eine schematische Darstellung einer erfindungsgemäßen Vorrichtung zum Simulieren eines Wellenfeld- synthese-Systems mit einem Wiedergaberaum, in dem eines o- der mehrere Lautsprecherarrays und eine mit dem Lautspre- cherarray gekoppelte Wellenfeldsynthese-Rendering- Einrichtung anbringbar sind. Die erfindungsgemäße Vorrichtung umfasst eine Einrichtung 1 zum Liefern einer Audioszenenbeschreibung, die eine zeitliche Abfolge von Audioobjek- ten definiert, wobei ein Audioobjekt eine Audiodatei für eine virtuelle Quelle oder einen Verweis auf die Audiodatei und Informationen über eine Quellenposition der virtuellen Quelle aufweist. Die Audiodateien können entweder direkt in der Audioszenenbeschreibung 1 enthalten sein, oder können durch Referenzen auf Audiodateien in einer Audiodatei- Datenbank 2 identifizierbar sein und einer Einrichtung 3 zum Simulieren des Verhaltens des Wellenfeldsynthese- Systems zugeführt werden.
Je nach Implementierung werden die Audiodateien, über eine Steuerleitung Ia gesteuert oder über eine Leitung Ib, in der auch die Quellenpositionen enthalten sind, der Simula- tionseinrichtung 2 zugeführt. Werden die Dateien dagegen direkt von der Audiodateidatenbank 2 der Einrichtung 3 zum Simulieren des Verhaltens des Wellenfeldsynthese-Systems zugeführt, so wird eine Leitung 3a aktiv sein, die in Fig. Ia gestrichelt eingezeichnet ist. Die Einrichtung 3 zum Si- mulieren des Wellenfeldsynthese-Systems ist ausgebildet, um Informationen über das Wellenfeldsynthese-System zu verwenden, um dann, ausgangsseitig, das simulierte Verhalten des Wellenfeldsynthese-Systems einer Einrichtung 4 zum Überprüfen der Ausgabebedingung zuzuführen.
Die Einrichtung 4 ist ausgebildet, um zu überprüfen, ob das simulierte Verhalten des Wellenfeldsynthese-Systems die Ausgabebedingung erfüllt oder nicht. Hierzu erhält die Einrichtung 4 zum Überprüfen eine Ausgabebedingung über eine Eingangsleitung 4a, wobei die Ausgabebedingung entweder ex¬ tern der Einrichtung 4 zugeführt wird. Alternativ kann die Ausgabebedingung auch aus der Audioszenenbeschreibung stam¬ men, wie es durch eine gestrichelte Leitung 4b dargestellt ist.
Der erste Fall, also bei dem die Ausgabebedingung extern zugeführt wird, wird dann bevorzugt, wenn die Ausgabebedin¬ gung eine auf das Wellenfeldsynthese-System bezogene Hard¬ ware-technische Bedingung ist, wie beispielsweise eine ma- ximale Übertragungskapazität einer Datenverbindung oder - als Flaschenhals der gesamten Verarbeitung - eine maximale Rechenkapazität eines Renderers, oder, in - Multi-Renderer- Systemen, eines einzelnen Renderer-Moduls.
Renderer erzeugen aus den Audiodateien unter Verwendung von Informationen über die Lautsprecher und unter Verwendung von Informationen über die Quellenpositionen der virtuellen Quellen Synthesesignale, also für jeden der vielen Laut-
Sprecher ein eigenes Signal, wobei die Synthesesignale zueinander unterschiedliche Phasen- und Amplitudenverhältnisse haben, damit die vielen Lautsprecher gemäß der Theorie der Wellenfeldsynthese eine gemeinsame Wellenfront erzeu- gen, die sich in dem Wiedergaberaum ausbreitet. Nachdem die Berechnung der Synthesesignale sehr aufwendig ist, sind ty¬ pische Renderer-Module in ihrer Kapazität begrenzt, wie beispielsweise auf eine Maximalkapazität von 32 gleichzei¬ tig zu verarbeitenden virtuellen Quellen. Eine solche Aus- gabebedingung, dass nämlich maximal 32 Quellen zu einem Zeitpunkt von einem Renderer verarbeitet werden dürfen, könnte beispielsweise der Einrichtung 4 zum Überprüfen der Ausgabebedingung bereitgestellt werden.
Alternative Ausgabebedingungen, die typischerweise in der Audioszenenbeschreibung erfindungsgemäß enthalten sein sollten, beziehen sich auf das Schallfeld im Wiedergaberaum. Insbesondere definieren Ausgabebedingungen ein Schallfeld oder eine bestimmte Eigenschaft eines Schall- felds in dem Wiedergaberaum.
In diesem Fall ist die Einrichtung 3 zum Simulieren des Wellenfeldsynthese-Systems ausgebildet, um das Schallfeld in dem Wiedergaberaum unter Verwendung von Informationen über eine Anordnung des einen oder der mehreren Lautspre- cherarrays in dem Wiedergaberaum und unter Verwendung der Audiodaten zu simulieren.
Ferner ist die Einrichtung 4 zum Überprüfen in diesem Fall ausgebildet, um zu überprüfen, ob das simulierte Schallfeld die Ausgabebedingung in dem Wiedergaberaum erfüllt oder nicht.
Ferner wird bei einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung die Einrichtung 4 ausgebildet sein, um eine Anzeige, wie beispielsweise eine optische Anzeige zu liefern, durch die dem Benutzer mitgeteilt wird, ob die Ausgabebedingung nicht erfüllt, komplett erfüllt oder nur
teilweise erfüllt ist. Im Falle der teilweisen Erfüllung ist die Einrichtung 4 zum Überprüfen ferner ausgebildet, um z. B., wie es anhand von Fig. Id dargestellt ist, Problemzonen im Wiedergaberaum (WGR) zu identifizieren, an denen z. B. eine Wellenfront-Ausgabebedingung nicht erfüllt ist. Anhand dieser Information kann ein Benutzer des Simulationstools dann entscheiden, ob er die teilweise Verletzung hinnimmt oder nicht, oder ob er bestimmte Maßnahmen ergreift, um eine geringere Verletzung der Ausgabebedingungen zu erreichen, etc.
Fig. Ib zeigt eine bevorzugte Implementierung der Einrichtung 3 zum Simulieren eines Wellenfeldsynthese-Systems. Die Einrichtung 3 umfasst bei dem in Fig. Ib gezeigten bevor- zugten Ausführungsbeispiel der vorliegenden Erfindung eine ohnehin für ein Wellenfeldsynthese-System benötigte Wellen- feldsynthese-Rendering-Einrichtung 3b, um aus der Szenenbeschreibung, den Audiodateien, den Informationen über Lautsprecherpositionen bzw. gegebenenfalls weiteren Informatio- nen über die z. B. Akustik des Wiedergaberaums etc. Synthesesignale zu erzeugen, die dann einem Lautsprechersimulator 3c zugeführt werden. Der Lautsprechersimulator ist ausgebildet, um ein Schallfeld im Wiedergaberaum vorzugsweise an jeder interessierenden Position des Wiedergaberaums zu er- mittein. Anhand des Prozederes, das nachfolgend Bezug nehmend auf Fig. Ic beschrieben wird, kann dann für jeden gesuchten Punkt im Wiedergaberaum ermittelt werden, ob eine Problematik aufgetreten ist oder nicht.
Bei dem in Fig. Ic gezeigten Flussdiagramm wird zunächst durch die Einrichtung 3 zum Simulieren eine Wellenfront im
Wiedergaberaum für eine erste virtuelle Quelle simuliert
(5a) . Dann wird durch die Einrichtung 3 eine Wellenfront im
Wiedergaberaum für die zweite virtuelle Quelle simuliert (5b) . Selbstverständlich können die beiden Schritte 5a und 5b bei Vorhandensein entsprechender Rechenkapazitäten auch parallel zueinander, also gleichzeitig ausgeführt werden. Hierauf wird in einem Schritt 5c auf der Basis der ersten
Wellenfront für die erste virtuelle Quelle und auf der Basis der zweiten Wellenfront für die zweite virtuelle Quelle eine zu simulierende Eigenschaft berechnet. Vorzugsweise wird diese Eigenschaft eine Eigenschaft sein, die zwischen zwei bestimmten virtuellen Quellen erfüllt sein muss, wie beispielsweise ein Pegelunterschied, ein Laufzeitunterschied, etc. Welche Eigenschaft im Schritt 5c berechnet wird, hängt von der Ausgabebedingung ab, da natürlich nur Informationen simuliert werden müssen, die auch mit Ausga- bebedingungen verglichen werden sollen. Der eigentliche Vergleich der berechneten Eigenschaft, also dem Ergebnis von Schritt 5c, mit der Ausgabebedingung findet in einem Schritt 5d statt.
Wird die Abfolge der Schritte 5a bis 5d für verschiedene Punkte durchgeführt, so kann in einem Schritt 5e nicht nur angezeigt werden, ob eine Bedingung nicht erfüllt ist, sondern auch wo im Wiedergaberaum eine solche Bedingung nicht erfüllt ist. Ferner können bei dem in Fig. Ic gezeigten Ausführungsbeispiel auch die problematischen virtuellen Quellen identifiziert werden (5f) .
Nachfolgend wird Bezug nehmend auf Fig. Id ein bevorzugtes Ausführungsbeispiel der vorliegenden Erfindung dargestellt. Eine Ausgabebedingung, die in Fig. 1 betrachtet wird, definiert eine Schalllaufzeit bezüglich von Audiodaten. So wird es bevorzugt, in der Audioszenenbeschreibung anzugeben, dass die Wellenfront aufgrund einer Gitarre und die Wellenfront aufgrund eines Basses an jedem Punkt im Wiedergabe- räum nur maximal eine bestimmte Zeitdauer Δtmax voneinander getrennt ankommen dürfen, so wird diese Bedingung insbesondere bei den in Fig. Id gezeigten Wiedergaberaum, der von vier Lautsprecherarrays LSAl, LSA2, LSA3, LSA4 umgeben ist, dann, wenn die Quellen gemäß der Audioszenenbeschreibung sehr weit voneinander beabstandet positioniert sind, nicht für jeden Punkt im Wiedergaberaum zu erfüllen sein. Durch das erfindungsgemäße Konzept identifizierte Problemzonen sind in Fig. Id im Wiedergaberaum eingezeichnet.
Bei dem in Fig. Id gezeigten Ausführungsbeispiel hat der Produzent beispielsweise die Gitarre und den Bass in einem Abstand von 100 m positioniert. Ferner wurde als Ausgabebe- dingung eine maximale Laufzeitdifferenz von 10 m für den gesamten Wiedergaberaum, also eine Zeitspanne von 10 m ge¬ teilt durch die Schallgeschwindigkeit, vorgegeben. Die er¬ findungsgemäße Vorgehensweise, wie sie anhand von Fig. 1 beschrieben worden ist, wird die Problemzonen, wie sie in Fig. Id angedeutet sind, aufdecken und einem Produzenten bzw. einem Tonmeister, der die Audioszenenbeschreibung im Hinblick auf das Wellenfeldsynthese-System, das in Fig. Id gezeigt ist, mitteilen.
Erfindungsgemäß können daher Performance-Engpässe und Qualitätslöcher vorhergesagt werden. Dies wird dadurch er¬ reicht, dass eine zentrale Datenverwaltung bevorzugt wird, dass also sowohl die Szenenbeschreibung als auch die Audiodateien in einer intelligenten Datenbank abgespeichert sind, und dass ferner eine Einrichtung 3 zum Simulieren des Wellenfeldsynthesesystems bereitgestellt wird, die eine mehr oder weniger genaue Simulation des Wellenfeldsynthesesystems liefert. Damit werden aufwendige manuelle Tests und eine künstliche Begrenzung der Systemleistung auf ein Maß, das als Performance- und qualitätssicher betrachtet wird, eliminiert.
Insbesondere wird es bevorzugt, Ausgabebedingungen im Hinblick auf zeitliche Bezüge von verschiedenen virtuellen Quellen festzulegen. So haben verschiedene Audioquellen mehr oder weniger feste zeitliche Bezüge. Während die Verzögerung des Starts eines Windgeräusches um 50 Millisekunden keine stark wahrnehmbaren Qualitätseinbußen zur Folge hat, kann das Auseinanderdriften der synchronen Signale ei- ner Gitarre und eines Basses zu deutlichen Qualitätseinbußen im wahrgenommenen Audiosignal führen. Die Stärke der wahrgenommenen Qualitätseinbuße hängt von der Position des Hörers im Wiedergaberaum ab. Erfindungsgemäß werden solche
Problemzonen im Wiedergaberaum automatisch ermittelt, visu- alisiert oder gesperrt.
Erfindungsgemäß wird zur besonders günstigen Definition der Ausgabebedingungen eine relative Definition der Audioobjekte zueinander und insbesondere eine innerhalb einer Zeitspanne oder Ortsspanne variable Positionierung bevorzugt, wie es anhand von Fig. 3 noch beschrieben wird.
So liefert die relative Positionierung bzw. Anordnung von Audioobjekten/Audiodateien entweder mit oder ohne Verwendung einer Datenbank eine praktikable Art und Weise, um Ausgabebedingungen zu definieren, die vorzugsweise eine Eigenschaft zweier virtueller Objekte zueinander, also eben- falls etwas relatives zum Gegenstand haben. Vorzugsweise wird jedoch noch eine Datenbank eingesetzt, um solche Zuordnungen/Ausgabebedingungen wiederverwenden zu können.
Ferner wird durch eine relative Zuordnung von Audioobjekten untereinander eine größere Flexibilität dahingehend erreicht, was das Szenenhandling betrifft. So soll beispielsweise die Gitarre mit gleichzeitig auftretenden Schritten zeitlich verknüpft sein. Das Verschieben der Gitarre um 10 Sekunden in die Zukunft würde automatisch auch die Schritte um 10 Sekunden in die Zukunft verschieben, ohne dass am „Schrittobjekt" Eigenschaften geändert werden müssen.
Erfindungsgemäß werden sowohl relative als auch variable Constraints verwendet, um die Verletzung bestimmter Klang- anforderungen auf unterschiedlichen Systemen zu prüfen. So wird eine solche Ausgabebedingung beispielsweise dahingehend definiert, dass der durch zwei Audioobjekte A und B zu einem Zeitpunkt tθ ausgelöste Schall den Zuhörer mit einer maximalen Differenz von z. B. t = 15 ms erreichen darf. An- schließend positioniert man die Audioobjekte A und B im Raum. Ein Prüfmechanismus überprüft dann die vorhandene, durch das Wellenfeldsynthese-Lautsprecher-Array bedingte Wiedergabefläche dahingehend, ob es Positionen gibt, bei
denen die Ausgabebedingung verletzt wird. Vorzugsweise wird ferner der Autor der Klangszene über diese Verletzung informiert.
Je nach Implementierung kann die erfindungsgemäße Simulationsvorrichtung eine reine Anzeige über die Situation der Ausgabebedingung, also ob sie verletzt ist oder nicht, und gegebenenfalls wo sie verletzt ist und wo nicht, liefern. Vorzugsweise ist die erfindungsgemäße Simulationsvorrich- tung jedoch ausgebildet, um nicht nur die problematischen virtuellen Quellen beispielsweise zu identifizieren, sondern einem Bearbeiter bereits Lösungen vorzuschlagen. Am Beispiel der Schalllaufzeitbezüge würde eine Lösung beispielsweise darin bestehen, dass Gitarre und Bass an sol- chen virtuellen Positionen positioniert werden, die nur noch einen Abstand haben, der gering genug ist, dass die Wellenfronten überall im Wiedergaberaum tatsächlich innerhalb der geforderten durch die Ausgabebedingung festgelegten Differenz ankommen. Die Simulationseinrichtung kann hierbei einen iterativen Ansatz verwenden, bei dem in einer bestimmten Schrittweite die Quellen immer näher zueinander hin bewegt werden, um dann zu sehen, ob an vorher noch problematischen Punkten im Wiedergaberaum nunmehr die Ausgabebedingung erfüllt ist. Die „Kostenfunktion" wird also sein, ob weniger Ausgabebedingungsverletzungspunkte als im vorherigen Iterationsdurchlauf vorhanden sind.
Zu diesem Zweck umfasst die erfindungsgemäße Vorrichtung eine Einrichtung zum Manipulieren eines Audioobjekts, wenn das Audioobjekt die Ausgabebedingung verletzt. Diese Manipulation kann also in einer iterativen Manipulation bestehen, um für den Benutzer einen Positionierungsvorschlag zu machen .
Alternativ kann das erfindungsgemäße Konzept mit dieser Manipulationseinrichtung auch bei der Wellenfeldsynthese- Aufbereitung eingesetzt werden, um aus einer Szenenbeschreibung einen auf das tatsächliche System angepassten
Schedule zu erzeugen. Diese Implementierung wird besonders dann bevorzugt, wenn die Audioobjekte nicht fest bezüglich Zeit und Ort gegeben sind, sondern bezüglich Zeit und Ort eine Zeitspanne bzw. Ortsspanne vorgegeben ist, in der die Audioobjektmanipulationseinrichtung ohne weiter bei dem Tonmeister anzufragen, selbsttätig die Audioobjekte manipu¬ lieren darf. Erfindungsgemäß wird bei einer solchen Echtzeit-Simulation/Aufbereitung natürlich darauf geachtet, dass die Ausgabebedingungen durch eine Verschiebung inner- halb einer Zeitspanne oder Ortsspanne nicht noch mehr ver¬ letzt werden.
Alternativ kann die erfindungsgemäße Vorrichtung jedoch auch Off-Line arbeiten, indem aus einer Audioszenenbe- Schreibung durch Audioobjektmanipulation eine Schedule- Datei geschrieben wird, die auf den Simulationsergebnissen für verschiedene Ausgabebedingungen basiert, und die dann in einem Wellenfeldsynthesesystem anstatt der ursprünglichen Audioszenenbeschreibung gerendert werden kann. Vorteil an dieser Implementierung ist, dass die Audioscheduledatei ohne Intervention des Tonmeisters geschrieben worden ist, also ohne Verbrauch an zeitlichen und finanziellen Ressourcen eines Produzenten.
Nachfolgend wird Bezug nehmend auf Fig. 2 auf Informationen hingewiesen, die ein Audioobjekt vorteilhaft haben sollte. So soll ein Audioobjekt die Audiodatei spezifizieren, die gewissermaßen den Audioinhalt einer virtuellen Quelle darstellt. So muss das Audioobjekt jedoch nicht die Audiodatei umfassen, sondern kann einen Index haben, der auf eine definierte Stelle in einer Datenbank verweist, an der die tatsächliche Audiodatei gespeichert ist.
Ferner umfasst ein Audioobjekt vorzugsweise eine Identifi- kation der virtuellen Quelle, die beispielsweise eine Quellennummer oder ein aussagefähiger Dateiname etc. sein kann. Ferner spezifiziert das Audioobjekt bei der vorliegenden Erfindung eine Zeitspanne für den Beginn und/oder das Ende
der virtuellen Quelle, also der Audiodatei. Wird nur eine Zeitspanne für den Beginn spezifiziert, so bedeutet dies, dass der tatsächliche Startpunkt der Aufbereitung dieser Datei durch den Renderer innerhalb der Zeitspanne verändert werden kann. Wird zusätzlich eine Zeitspanne für das Ende vorgegeben, so bedeutet dies, dass auch das Ende innerhalb der Zeitspanne variiert werden kann, was insgesamt je nach Implementierung zu einer Variation der Audiodatei auch hinsichtlich ihrer Länge führen wird. Jegliche Implementierun- gen sind möglich, so z. B. auch eine Definition der Start/Endzeit einer Audiodatei so, dass zwar der Startpunkt verschoben werden darf, dass jedoch auf keinen Fall die Länge verändert werden darf, sodass damit automatisch das Ende der Audiodatei ebenfalls verschoben wird. Insbesondere für Geräusche wird es jedoch bevorzugt, auch das Ende variabel zu halten, da es typischerweise nicht problematisch ist, ob z. B. ein Windgeräusch etwas früher oder später anfängt, oder ob es etwas früher oder später endet. Weitere Spezifizierungen sind je nach Implementierung möglich bzw. erwünscht, wie beispielsweise eine Spezifikation, dass zwar der Startpunkt variiert werden darf, nicht jedoch der Endpunkt, etc.
Vorzugsweise umfasst ein Audioobjekt ferner eine Ortsspanne für die Position. So wird es für bestimmte Audioobjekte keine Rolle spielen, ob sie z. B. von vorne links oder vorne Mitte kommen, oder ob sie um einen (kleinen) Winkel bezüglich eines Bezugspunkts im Wiedergaberaum verschoben werden. So existieren jedoch auch, wie es ausgeführt worden ist, Audioobjekte insbesondere wieder aus dem Geräuschbereich, die an jeder beliebigen Stelle positioniert werden können und damit eine maximale Ortsspanne haben, die beispielsweise durch einen Code für „beliebig" oder durch keinen Code (implizit) im Audioobjekt spezifiziert werden kann.
Ein Audioobjekt kann weitere Informationen umfassen, wie beispielsweise eine Angabe über die Art der virtuellen
Quelle, also ob es sich bei der virtuellen Quelle um eine Punktquelle für Schallwellen handeln muss, oder ob es sich um eine Quelle für ebene Wellen handeln muss, oder ob es sich um eine Quelle handeln muss, die Quellen beliebiger Wellenfront erzeugt, sofern die Renderer-Module in der Lage sind, solche Informationen zu verarbeiten.
Fig. 3 zeigt beispielhaft eine schematische Darstellung einer Szenenbeschreibung, in der die zeitliche Abfolge ver- schiedener Audioobjekte AOl, .... AOn+1 dargestellt ist. Insbesondere wird auf das Audioobjekt A03 hingewiesen, für das eine Zeitspanne, wie sie in Fig. 3 eingezeichnet ist, definiert ist. So können sowohl der Startpunkt als auch der Endpunkt des Audioobjekts A03 in Fig. 3 um die Zeitspanne verschoben werden. Die Definition des Audioobjekts A03 lautet jedoch dahingehend, dass die Länge nicht verändert werden darf, was jedoch von Audioobjekt zu Audioobjekt variabel einstellbar ist.
So ist zu sehen, dass durch Verschieben des Audioobjekts AO3 in positiver zeitlicher Richtung eine Situation erreicht werden kann, bei der das Audioobjekt A03 erst nach dem Audioobjekt A02 beginnt. Werden beide Audioobjekte auf demselben Renderer abgespielt, so kann durch diese Maßnahme eine kurze Überschneidung 20, die ansonsten vielleicht auftreten würde, vermieden werden. Wäre das Audioobjekt A03 im Stand der Technik bereits das Audioobjekt, das über der Kapazität eines Renderers liegen würde, aufgrund bereits sämtlicher weiterer zu verarbeitender Audioobjekte auf dem Renderer, wie beispielsweise Audioobjekt A02 und Audioobjekt AOl, so würde ohne die vorliegende Erfindung eine komplette Unterdrückung des Audioobjekts A03 auftreten, obgleich die Zeitspanne 20 lediglich sehr klein war. Erfindungsgemäß wird das Audioobjekt AO3 durch die Audioobjekt- manipulationseinrichtung 3 verschoben, sodass keine Kapazitätsüberschreitung und damit auch keine Unterdrückung des Audioobjekts AO3 mehr stattfindet.
Bei dem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung wird eine Szenenbeschreibung verwendet, die relative Angaben hat. So wird die Flexibilität dadurch erhöht, dass der Beginn des Audioobjekts AO2 nicht mehr in einem absoluten Zeitpunkt gegeben wird, sondern in einem relativen Zeitraum zum Audioobjekt AOl. Entsprechend wird auch eine relative Beschreibung der Ortsangaben bevorzugt, also nicht, dass ein Audioobjekt an einer bestimmten Position xy im Wiedergaberaum anzuordnen ist, sondern z. B. um einen Vektor versetzt zu einem anderen Audioobjekt oder zu einem Referenzobjekt ist.
Dadurch kann die Zeitspanneninformation bzw. Ortsspanneninformation sehr effizient aufgenommen werden, nämlich ein- fach dadurch, dass die Zeitspanne so festgelegt ist, dass sie zum Ausdruck bringt, dass das Audioobjekt A03 z. B. in einem Zeitraum zwischen zwei Minuten und zwei Minuten und 20 Sekunden nach dem Start des Audioobjekts AOl beginnen kann.
Eine solche relative Definition der Raum- und Zeitbedingungen führt zu einer datenbankmäßig effizienten Darstellung in Form von Constraints, wie sie z. B. in „Modeling Output Constraints in Multimedia Database Systems", T. Heimrich, 1. internationale Multimedia Modelling Conference, IEEE, 2. Januar 2005 bis 14. Januar 2005, Melbourne, beschrieben ist. Hier wird die Verwendung von Constraints in Datenbanksystemen dargestellt, um konsistente Datenbankzustände zu definieren. Insbesondere werden zeitliche Constraints unter Verwendung von Alien-Beziehungen und räumliche Constraints unter Verwendung von räumlichen Beziehungen beschrieben. Hieraus können günstige Ausgabe-Constraints zu Synchronisationszwecken definiert werden. Solche Ausgabe-Constraints umfassen eine zeitliche oder räumliche Bedingung zwischen den Objekten, eine Reaktion im Falle einer Verletzung eines Constraints und eine Überprüfungszeit, also wann ein solcher Constraint überprüft werden muss.
Bei dem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung werden die räumlichen/zeitlichen Ausgabe-Objekte jeder Szene relativ zueinander modelliert. Die Audioobjekt- manipulationseinrichtung erreicht eine Überführung dieser relativen und variablen Definitionen in eine absolute räumliche und zeitliche Ordnung. Diese Ordnung stellt das Aus- gabe-Schedule dar, das am Ausgang 6a des in Fig. 1 gezeigten Systems erhalten wird und definiert, wie insbesondere das Renderer-Modul im Wellenfeldsynthesesystem angesprochen wird. Das Schedule ist also ein Ausgabeplan, der die Audiodaten entsprechend der Ausgabebedingungen anordnet.
Nachfolgend wird anhand von Fig. 4 ein bevorzugtes Ausführungsbeispiel eines solchen Ausgabe-Schedules dargelegt. Insbesondere zeigt Fig. 4 einen Datenstrom, der gemäß Fig. 4 von links nach rechts übertragen wird, also von der Audioobjekt-Manipulationseinrichtung 3 von Fig. 1 zu einem oder mehreren Wellenfeldsynthese-Renderern des Wellenfeld- systems 0 von Fig. 1. Insbesondere umfasst der Datenstrom für jedes Audioobjekt bei dem in Fig. 4 gezeigten Ausführungsbeispiel zunächst einen Header H, in dem die Positionsinformationen und die Zeitinformationen stehen, und nachgeordnet eine Audiodatei für das spezielle Audioobjekt, die in Fig. 4 mit AOl für das erste Audioobjekt, AO2 für das zweite Audioobjekt etc. bezeichnet ist.
Ein Wellenfeldsynthese-Renderer erhält dann den Datenstrom und erkennt z. B. an einer vorhandenen und fest vereinbarten Synchronisationsinformation, dass nunmehr ein Header kommt. Anhand einer weiteren Synchronisationsinformation erkennt der Renderer dann, dass der Header nunmehr vorbei ist. Alternativ kann für jeden Haeder auch eine feste Länge in Bits vereinbart werden.
Nach dem Empfang des Headers weiß der Audio-Renderer bei dem in Fig. 4 gezeigten bevorzugten Ausführungsbeispiel der vorliegenden Erfindung automatisch, dass die nachfolgende Audiodatei, also z. B. AOl, zu dem Audioobjekt, also zu der
Quellenposition gehört, die in dem Header identifiziert ist.
Fig. 4 zeigt eine serielle Datenübertragung zu einem WeI- lenfeldsynthese-Renderer. Allerdings werden natürlich mehrere Audioobjekte gleichzeitig in einem Renderer abgespielt. Daher benötigt der Renderer einen Eingangs-Puffer, dem eine Datenstrom-Leseeinrichtung vorausgeht, um den Datenstrom zu parsen. Die Datenstromleseeinrichtung wird dann den Header interpretieren und die zugehörigen Audiodaten entsprechend speichern, damit der Renderer dann, wenn ein Audioobjekt zum Rendern an der Reihe ist, die korrekte Audiodatei und die korrekte Quellenposition aus dem Eingangspuffer ausliest. Andere Daten für den Datenstrom sind na- türlich möglich. Auch eine separate Übertragung sowohl der Zeit/Orts-Informationen als auch der tatsächlichen Audiodaten kann verwendet werden. Die in Fig. 4 dargestellte kombinierte Übertragung wird jedoch bevorzugt, da sie durch Verkettung der Positions/Zeit-Informationen mit der Audio- datei Datenkonsistenzprobleme eliminiert, da immer sichergestellt wird, dass der Renderer für Audiodaten auch die richtige Quellenposition hat und nicht z. B. noch Audiodaten von einer früheren Quelle rendert, jedoch bereits Positionsinformationen der neuen Quelle zum Rendern verwendet.
Die vorliegende Erfindung basiert somit auf einem objektorientierten Ansatz, dass also die einzelnen virtuellen Quellen als Objekte aufgefasst werden, die sich durch eine Audiodatei und eine virtuelle Position im Raum und mögli- cherweise durch die Art und Weise der Quelle auszeichnen, also ob sie eine Punktquelle für Schallwellen oder eine Quelle für ebene Wellen oder eine Quelle für anders geformte Quellen sein soll.
Wie es ausgeführt worden ist, ist die Berechnung der Wellenfelder sehr rechenzeitintensiv und an die Kapazitäten der verwendeten Hardware, wie beispielsweise Soundkarten und Rechner, im Zusammenspiel mit der Effizienz der Berech-
nungsalgorithmen gebunden. Auch die beste ausgestattete PC- basierte Lösung stößt somit bei der Berechnung der Wellen- feldsynthese schnell an ihre Grenzen, wenn viele anspruchsvolle Klangereignisse gleichzeitig dargestellt werden sol- len. So gibt die Kapazitätsgrenze der verwendeten Soft- und Hardware die Beschränkung hinsichtlich der Anzahl der virtuellen Quellen bei der Abmischung und Wiedergabe vor.
Fig. 6 zeigt ein solches in seiner Kapazität begrenztes be- kanntes Wellenfeldsynthese-Konzept, das ein Authoring- Werkzeug 60, ein Steuer-Renderer-Modul 62 und einen Audioserver 64 umfasst, wobei das Steuer-Renderer-Modul ausgebildet ist, um ein Lautsprecherarray 66 mit Daten zu versorgen, damit das Lautsprecher-Array 66 eine gewünschte Wellenfront 68 durch Überlagerung der Einzelwellen der einzelnen Lautsprecher 70 erzeugt. Das Authoring-Werkzeug 60 erlaubt es dem Nutzer, Szenen zu erstellen, zu editieren und das Wellenfeldsynthese-basierte System zu steuern. Eine Szene besteht sowohl aus Informationen zu den einzelnen virtuellen Audioquellen als auch aus den Audiodaten. Die Eigenschaften der Audioquellen und der Referenzen auf die Audiodaten werden in einer XML-Szenendatei gespeichert. Die Audiodaten selbst werden auf dem Audioserver 64 abgelegt und von dort aus an das Renderer-Modul übertragen. Gleich- zeitig erhält das Renderer-Modul die Steuerdaten vom Authoring-Werkzeug, damit das Steuer-Renderer-Modul 62, das zentral ausgeführt ist, die Synthesesignale für die einzelnen Lautsprecher erzeugen kann. Das in Fig. 6 gezeigte Konzept ist in „Authoring System for Wave Field Synthesis", F. Melchior, T. Röder, S. Brix, S. Wabnik und C. Riegel, AES Convention Paper, 115. AES-Versammlung, 10. Oktober 2003, New York, beschrieben.
Wird dieses Wellenfeldsynthese-System mit mehreren Rende- rer-Modulen betrieben, so wird dabei jeder Renderer mit denselben Audiodaten versorgt, egal, ob der Renderer aufgrund der ihm zugeordneten begrenzten Zahl von Lautsprechern diese Daten für die Wiedergabe benötigt oder nicht.
Da jeder der aktuellen Rechner in der Lage ist, 32 Audioquellen zu berechnen, stellt dies die Grenze für das System dar. Andererseits soll die Anzahl der im Gesamtsystem ren- derbaren Quellen effizient deutlich erhöht werden. Dies ist eine der wesentlichen Voraussetzungen für komplexe Anwendungen, wie beispielsweise Kinofilme, Szenen mit immersiven Atmosphären, wie beispielsweise Regen oder Applaus oder andere komplexe Audioszenen.
Erfindungsgemäß wird eine Reduktion redundanter Datenübertragungsvorgänge und Datenverarbeitungsvorgänge in einem Wellenfeldsynthese-Mehr-Renderer-System erreicht, was zu einer Erhöhung der Rechenkapazität bzw. der Anzahl von gleichzeitig berechenbaren Audioquellen erreicht.
Zur Reduktion der redundanten Übertragung und Verarbeitung von Audio- und Metadaten zum einzelnen Renderer des Mehr- Renderer-Systems wird der Audioserver um die Datenausgabeeinrichtung erweitert, welche in der Lage ist, zu ermit- teln, welcher Renderer welche Audio- und Metadaten benötigt. Die Datenausgabeeinrichtung, gegebenenfalls unterstützt durch den Datenmanager benötigt bei einem bevorzugten Ausführungsbeispiel mehrere Informationen. Diese Informationen sind zunächst die Audiodaten, dann Zeit- und Posi- tionsdaten der Quellen und schließlich die Konfiguration der Renderer, also Informationen über die verbundenen Lautsprecher und ihre Positionen sowie deren Kapazität. Mit Hilfe von Datenmanagementtechniken und der Definition von Ausgabebedingungen wird ein Ausgabe-Schedule durch die Da- tenausgabeeinrichtung mit einer zeitlichen und räumlichen Anordnung der Audioobjekte erzeugt. Aus der räumlichen Anordnung, dem zeitlichen Schedule und der Rendererkonfiguration berechnet das Datenmanagementmodul dann, welche Quelle für welche Renderer zu einem bestimmten Zeitpunkt von ReIe- vanz sind.
Ein bevorzugtes Gesamtkonzept ist in Fig. 5 dargestellt. Die Datenbank 22 ist ausgangsseitig um die Datenausgabeein-
richtung 24 ergänzt, wobei die Datenausgabeeinrichtung auch als Scheduler bezeichnet wird. Dieser Scheduler erzeugt dann an seinen Ausgängen 20a, 20b, 20c für die verschiedenen Renderer 50 die Renderer-Eingangssignale, damit die entsprechenden Lautsprecher der Lautsprecherarrays versorgt werden.
Vorzugsweise wird der Scheduler 24 noch durch einen Stora- ge-Manager 52 unterstützt, um mittels eines RAID-Systems und entsprechender Datenorganisationsvorgaben die Datenbank 42 zu konfigurieren.
Auf der Eingangsseite steht ein Daten-Erzeuger 54, welcher beispielsweise ein Tonmeister oder ein Audioingenieur sein kann, der. eine Audioszene objektorientiert modellieren bzw. beschreiben soll. Hierbei gibt er eine Szenenbeschreibung vor, die entsprechende Ausgabebedingungen 56 umfasst, die dann gegebenenfalls nach einer Transformation 58 zusammen mit Audiodaten in der Datenbank 22 gespeichert werden. Die Audiodaten können mittels eines Insert/Update-Werkzeugs 59 manipuliert und aktualisiert werden.
Abhängig von den Gegebenheiten kann das erfindungsgemäße Verfahren in Hardware oder in Software implementiert wer- den. Die Implementierung kann auf einem digitalen Speichermedium, insbesondere einer Diskette oder CD, mit elektronisch auslesbaren Steuersignalen erfolgen, die so mit einem programmierbaren Computersystem zusammenwirken können, dass das Verfahren ausgeführt wird. Allgemein besteht die Erfin- düng somit auch in einem Computer-Programm-Produkt mit einem auf einem maschinenlesbaren Träger gespeicherten Programmcode zur Durchführung des Verfahrens, wenn das Computer-Programm-Produkt auf einem Rechner abläuft. In anderen Worten ausgedrückt kann die Erfindung somit als ein Compu- ter-Programm mit einem Programmcode zur Durchführung des Verfahrens realisiert werden, wenn das Computer-Programm auf einem Computer abläuft.