Audiowiedergabesystem und Verf hren zum Wiedergeben eines Audiosignals
Beschreibung
Die vorliegende Erfindung bezieht sich auf Audiowiedergabesysteme und insbesondere auf für die Praxis geeignete Audiowiedergabesysteme für Wiedergaberäume variabler Größe, wie beispielsweise Kinos, wobei die Audiowiedergabesysteme auf der Wellenfeldsynthese basieren.
Es besteht ein steigender Bedarf an neuen Technologien und innovativen Produkten im Bereich der Unterhaltungselektronik. Dabei ist es eine wichtige Voraussetzung für den Erfolg neuer multimedialer Systeme, optimale Funktionalitäten bzw. Fähigkeiten anzubieten. Erreicht wird das durch den Einsatz digitaler Technologien und insbesondere der Computertechnik. Beispiele hierfür sind die Applikationen, die einen verbesserten realitätsnahen audiovisuellen Eindruck bieten. Bei bisherigen Audiosystemen liegt ein wesentlicher Schwachpunkt in der Qualität der räumlichen Schallwiedergabe von natürlichen, aber auch von virtuellen Umgebungen .
Verfahren zur mehrkanaligen Lautsprecherwiedergabe von Audiosignalen sind seit vielen Jahren bekannt und standardisiert. Alle üblichen Techniken besitzen den Nachteil, daß sowohl der Aufstellungsort der Lautsprecher als auch die Position des Hörers dem Übertragungsformat bereits eingeprägt sind. Bei falscher Anordnung der Lautsprecher im Bezug auf den Hörer leidet die Audioqualität deutlich. Ein optimaler Klang ist nur in einem kleinen Bereich des Wiedergaberaums, dem so genannten Sweet Spot, möglich.
Ein besserer natürlicher Raumeindruck sowie eine stärkere Einhüllung bei der Audiowiedergabe kann mit Hilfe einer neuen Technologie erreicht werden. Die Grundlagen dieser Technologie, die so genannte Wellenfeldsynthese (WFS; WFS = Wave-Field Synthesis), wurden an der TU Delft erforscht und erstmals in den späten 80er-Jahren vorgestellt (Berkhout, A.J.; de Vries, D. ; Vogel, P. : Acoustic control by Wave- field Synthesis. JASA 93, 1993).
Infolge der enormen Anforderungen dieser Methode an Rechnerleistung und Übertragungsraten wurde die Wellenfeldsynthese bis jetzt nur selten in der Praxis angewendet. Erst die Fortschritte in den Bereichen der Mikroprozessortechnik und der Audiocodierung gestatten heute den Einsatz dieser Technologie in konkreten Anwendungen. Erste Produkte im professionellen Bereich werden nächstes Jahr erwartet. In wenigen Jahren sollen auch erste Wellenfeldsynthese-Anwendungen für den Konsumerbereich auf den Markt kommen.
Die Grundidee von WFS basiert auf der Anwendung des Huygens' sehen Prinzips der Wellentheorie:
Jeder Punkt, der von einer Welle erfaßt wird, ist Ausgangspunkt einer Elementarwelle, die sich kugelförmig bzw. kreisförmig ausbreitet.
Angewandt auf die Akustik kann durch eine große Anzahl von Lautsprechern, die nebeneinander angeordnet sind (einem so genannten Lautsprecherarray) , jede beliebige Form einer einlaufenden Wellenfront nachgebildet werden. Im einfachsten Fall, einer einzelnen wiederzugebenden Punktquelle und einer linearen Anordnung der Lautsprecher, müssen die Audiosignale eines jeden Lautsprechers mit einer Zeitverzögerung und Amplitudenskalierung so gespeist werden, daß sich die abgestrahlten Klangfelder der einzelnen Lautsprecher richtig überlagern. Bei mehreren Schallquellen wird für jede Quelle der Beitrag zu jedem
Lautsprecher getrennt berechnet und die resultierenden Signale addiert. Befinden sich die wiederzugebenden Quellen in einem Raum mit reflektierenden Wänden, dann müssen auch Reflexionen als zusätzliche Quellen über das Lautsprecherarray wiedergegeben werden. Der Aufwand bei der Berechnung hängt daher stark von der Anzahl der Schallquellen, den Reflexionseigenschaften des Aufnahmeraums und der Anzahl der Lautsprecher ab.
Der Vorteil dieser Technik liegt im Besonderen darin, daß ein natürlicher räumlicher Klangeindruck über einen großen Bereich des Wiedergaberaums möglich ist. Im Gegensatz zu den bekannten Techniken werden Richtung und Entfernung von Schallquellen sehr exakt wiedergegeben. In beschränktem Maße können virtuelle Schallquellen sogar zwischen dem realen Lautsprecherarray und dem Hörer positioniert werden.
Obgleich die Wellenfeldsynthese für Umgebungen gut funktioniert, deren Beschaffenheiten bekannt sind, treten doch Unregelmäßigkeiten auf, wenn sich die Beschaffenheit ändert bzw. wenn die Wellenfeldsynthese auf der Basis einer Umgebungsbeschaffenheit ausgeführt wird, die nicht mit der tatsächlichen Beschaffenheit der Umgebung übereinstimmt.
Eine Umgebungsbeschaffenheit kann durch die Impulsantwort der Umgebung beschrieben werden.
Dies wird anhand des nachfolgenden Beispiels näher dargelegt. Es wird davon ausgegangen, daß ein Lautsprecher ein Schallsignal gegen eine Wand aussendet, deren Reflexion unerwünscht ist. Für dieses einfache Beispiel würde die Raumkompensation unter Verwendung der Wellenfeldsynthese darin bestehen, daß zunächst die Reflexion dieser Wand bestimmt wird, um zu ermitteln, wann ein Schallsignal, das von der Wand reflektiert worden ist, wieder beim Lautsprecher ankommt, und welche Amplitude dieses reflektierte Schallsignal hat. Wenn die Reflexion von dieser Wand unerwünscht ist, so besteht mit der
Wellenfeldsynthese die Möglichkeit, die Reflexion von dieser Wand zu eliminieren, indem dem Lautsprecher ein zu dem Reflexionssignal gegenphasiges Signal mit entsprechender Amplitude zusätzlich zum ursprünglichen Audiosignal eingeprägt wird, so daß die hinlaufende Kompensationswelle die Reflexionswelle auslöscht, derart, daß die Reflexion von dieser Wand in der Umgebung, die betrachtet wird, eliminiert ist. Dies kann dadurch geschehen, daß zunächst die Impulsantwort der Umgebung berechnet wird und auf der Basis der Impulsantwort dieser Umgebung die Beschaffenheit und Position der Wand bestimmt wird, wobei die Wand als Spiegelquelle interpretiert wird, also als Schallquelle, die einen einfallenden Schall reflektiert .
Wird zunächst die Impulsantwort dieser Umgebung gemessen und wird dann das Kompensationssignal berechnet, das dem Audiosignal überlagert dem Lautsprecher eingeprägt werden muß, so wird eine Aufhebung der Reflexion von dieser Wand stattfinden, derart, daß ein Hörer in dieser Umgebung schallmäßig den Eindruck hat, daß diese Wand überhaupt nicht existiert.
Entscheidend für eine optimale Kompensation der reflektierten Welle ist jedoch, daß die Impulsantwort des Raums genau bestimmt wird, damit keine Über- oder Unterkompensation auftritt.
Die Wellenfeldsynthese ermöglicht somit eine korrekte Abbildung von virtuellen Schallquellen über einen großen Wiedergabebereich. Gleichzeitig bietet sie dem Tonmeister und Toningenieur neues technisches und kreatives Potential bei der Erstellung auch komplexer Klanglandschaften. Die Wellenfeldsynthese (WFS oder auch Schallfeldsynthese) , wie sie Ende der 80-er Jahre an der TU Delft entwickelt wurde, stellt einen holographischen Ansatz der Schallwiedergabe dar. Als Grundlage hierfür dient das Kirchhoff-Helmholtz- Integral. Dieses besagt, daß beliebige Schallfelder
innerhalb eines geschlossenen Volumens mittels einer Verteilung von Monopol- und Dipolschallquellen (Lautsprecherarrays) auf der Oberfläche dieses Volumens erzeugt werden können. Details hierzu finden sich in M.M. Boone, E.N.G. Verheijen, P.F. v. Toi, „Spatial Sound-Field Reproduction by Wave-Field Synthesis", Delft University of Technology Laboratory of Seismics and Acoustics, Journal of J. Audio Eng. Soc, Bd. 43, Nr. 12, Dezember 1995 und Diemer de Vries, „Sound Reinforcement by Wavefield Synthesis: Adaption of the Synthesis Operator to the Loudspeaker Directivity Characteristics", Delft University of Technology Laboratory of Seismics and Acoustics, Journal of J. Audio Eng. Soc, Bd. 44, Nr. 12, Dezember 1996.
Bei der Wellenfeldsynthese wird aus einem Audiosignal, das eine virtuelle Quelle an einer virtuellen Position aussendet, eine Synthesesignal für jeden Lautsprecher des Lautsprecherarrays berechnet, wobei die Synthesesignale derart hinsichtlich Amplitude und Phase gestaltet sind, daß eine Welle, die sich aus der Überlagerung der einzelnen durch die im Lautsprecherarray vorhandenen Lautsprecher ausgegebenen Schallwelle ergibt, der Welle entspricht, die von der virtuellen Quelle an der virtuellen Position herrühren würde, wenn diese virtuelle Quelle an der virtuellen Position eine reale Quelle mit einer realen Position wäre.
Typischerweise sind mehrere virtuelle Quellen an verschiedenen virtuellen Positionen vorhanden. Die Berechnung der Synthesesignale wird für jede virtuelle Quelle an jeder virtuellen Position durchgeführt, so daß typischerweise eine virtuelle Quelle in Synthesesignalen für mehrere Lautsprecher resultiert. Von einem Lautsprecher aus betrachtet empfängt dieser Lautsprecher somit mehrere Synthesesignale, die auf verschiedene virtuelle Quellen zurückgehen. Eine Überlagerung dieser Quellen, die aufgrund des linearen Superpositionsprinzips möglich ist, ergibt
dann das von dem Lautsprecher tatsächlich ausgesendete Wiedergabesignal .
Die Möglichkeiten der Wellenfeldsynthese können um so besser ausgeschöpft werden, je größer die Lautsprecherarrays sind, d. h. um so mehr einzelne Lautsprecher bereitgestellt werden. Damit steigt jedoch auch die Rechenleistung, die eine Wellenfeldsyntheseeinheit vollbringen muß, da typischerweise auch Kanalinformationen berücksichtigt werden müssen. Dies bedeutet im einzelnen, daß von jeder virtuellen Quelle zu jedem Lautsprecher prinzipiell ein eigener Übertragungskanal vorhanden ist, und daß prinzipiell der Fall vorhanden sein kann, daß jede virtuelle Quelle zu einem Synthesesignal für jeden Lautsprecher führt, bzw. daß jeder Lautsprecher eine Anzahl von Synthesesignalen erhält, die gleich der Anzahl von virtuellen Quellen ist.
Wenn insbesondere bei Kinoanwendungen die Möglichkeiten der Wellenfeldsynthese dahingehend ausgeschöpft werden sollen, daß die virtuellen Quellen auch beweglich sein können, so ist zu erkennen, daß aufgrund der Berechnung der Synthesesignale, der Berechnung der Kanalinformationen und der Erzeugung der Wiedergabesignale durch Kombination der Kanalinformationen und der Synthesesignale ganz erhebliche Rechenleistungen zu bewältigen sind.
Darüber hinaus sei an dieser Stelle angemerkt, daß die Qualität der Audiowiedergabe mit der Anzahl der zur Verfügung gestellten Lautsprecher steigt. Dies bedeutet, daß die Audiowiedergabequalität um so besser und realistischer wird, um so mehr Lautsprecher in dem bzw. den Lautsprecherarrays vorhanden sind.
Im obigen Szenario könnten die fertig gerenderten und Analog-Digital-gewandelten Wiedergabesignale für die einzelnen Lautsprecher beispielsweise über Zweidrahtleitungen von der Wellenfeldsynthese-
Zentraleinheit zu den einzelnen Lautsprechern übertragen werden. Dies hätte zwar den Vorteil, daß nahezu sichergestellt ist, daß alle Lautsprecher synchron arbeiten, so daß hier zu Synchronisationszwecken keine weiteren Maßnahmen erforderlich wären. Andererseits könnte die Wellenfeldsynthese-Zentraleinheit immer nur für einen speziellen Wiedergaberaum bzw. für eine Wiedergabe mit einer festgelegten Anzahl von Lautsprechern hergestellt werden. Dies bedeutet, daß für jeden Wiedergaberaum eine eigene Wellenfeldsynthese-Zentraleinheit gefertigt werden müßte, die ein erhebliches Maß an Rechenleistung zu vollbringen hat, da die Berechnung der Audiowiedergabesignale insbesondere im Hinblick auf viele Lautsprecher bzw. viele virtuelle Quellen zumindest teilweise parallel und in Echtzeit erfolgen muß.
Insbesondere im Hinblick auf Audiowiedergabesysteme, die für Kinos gedacht sind, existiert jedoch das Problem, daß die Wiedergaberäume in Kinos hinsichtlich ihrer Größe erheblich variieren. So haben Kinos manchmal einen sehr großen Kinosaal und/oder gleichzeitig mehrere kleine Kinosäle für Filme, die nicht einen derart hohen Zuschauerandrang erleben als Filme, die in großen Kinosälen gespielt werden sollen. So haben jedoch auch unterschiedliche Kinos unterschiedlich große Wiedergaberäume, die insbesondere dann, wenn an eine Audiowiedergabe nicht nur in Kinos sondern z. B. in Konzertsälen gedacht wird, möglicherweise bis zu einem Faktor 100 variieren können.
Um derart verschieden Audiowiedergaberäume mit einem Audiowiedergabesystem auf der Basis der Wellenfeldsynthese auszustatten, müßte z. B. für jeden Wiedergaberaum eine eigene Wellenfeldsynthese-Zentraleinheit gebaut werden, was aufgrund der Einzelproduktion im Hinblick auf den Preis nicht akzeptabel ist.
Andererseits könnte eine maximal ausgestattete Wellenfeldsynthese-Zentraleinheit aufgebaut werden, die im Hinblick auf die anschließbaren Lautsprecher, also im Hinblick auf die Anzahl von Analogsignalausgängen steuerbar ist, jedoch intern Rechenprozessoren umfaßt, die für die maximale Anzahl von Analogausgängen, also verbindbaren Lautsprechern, ausgelegt ist.
Ein solches System würde dazu führen, daß auch Audiowiedergabesysteme für kleinere Wiedergaberäume nahezu denselben Preis mit sich bringen wie Audiowiedergabesysteme für sehr große Wiedergaberäume, was für die Betreiber von kleinen Wiedergaberäumen nicht akzeptabel sein dürfte. Insbesondere die mittleren bis kleinen Wiedergaberäume sind für Anbieter von Audiowiedergabesystemen interessant, wobei an dieser Stelle auch die „kleinsten" Wiedergaberäume erwähnt werden sollen, die z. B. häusliche Wohnzimmer oder kleinere Gaststätten darstellen.
Die vorstehend beschriebenen Möglichkeiten sind daher dahingehend nachteilhaft, daß eine durchgreifende Marktakzeptanz nicht unmittelbar zu erwarten ist.
Die Aufgabe der vorliegenden Erfindung besteht darin, ein Audiowiedergabekonzept zu schaffen, das eine höhere Marktakzeptanz aufweist.
Diese Aufgabe wird durch ein Audiowiedergabesystem nach Patentanspruch 1, ein Verfahren zum Wiedergeben eines Audiosignals nach Patentanspruch 19 oder ein Computer- Programm nach Patentanspruch 20 gelöst.
Der vorliegenden Erfindung liegt die Erkenntnis zugrunde, daß Audiowiedergabesysteme, die eine Marktakzeptanz erreichen sollen, skalierbar sein müssen. Die Skalierbarkeit darf jedoch nicht nur hinsichtlich der zur Verfügung gestellten Rechenleistung stattfinden, sondern muß sich auch in dem Preis des Audiowiedergabesystems
auswirken. Dies bedeutet in anderen Worten, daß ein Audiowiedergabesystem für einen großen Wiedergaberaum mehr kosten darf als ein Audiowiedergabesystem für einen kleinen Wiedergaberaum. In anderen Worten ausgedrückt muß ein Audiowiedergabesystem für einen kleinen Wiedergaberaum erheblich weniger kosten als ein Audiowiedergabesystem für einen großen Wiedergaberaum.
Bei vorstehend beschriebenen denkbaren Konzepten waren die Preisunterschiede unerheblich, da Preisunterschiede lediglich durch die Anzahl von einzelnen Lautsprechern bedingt waren, die jedoch aufgrund der Tatsache, daß sehr viele Lautsprecher bereitgestellt werden, und aufgrund neuartiger Integrationskonzepte in das Bauwerk, das den Wiedergaberaum beinhaltet, preisgünstig angeboten werden können .
Erfindungsgemäß wird das Audiowiedergabesystem in ein zentrales Wellenfeldsynthesemodul und in viele dezentral mit dem zentralen Wellenfeldsynthesemodul verbundene einzelne Lautsprechermodule aufgeteilt. Das zentrale Wellenfeldsynthesemodul empfängt ein Audiosignal mit einer Mehrzahl von Audiospuren und berechnet einerseits die Synthesesignale und andererseits die Kanalinformationen für die Kanäle von den virtuellen Positionen zu den realen Lautsprecherpositionen .
Das zentrale Wellenfeldsynthesemodul ist ferner ausgebildet, um jedem Lautsprecher eines oder mehrere Synthesesignale zuzuführen, die von dem betroffenen Lautsprecher wiederzugeben sind, sowie Kanalinformationen für die Audiokanäle von den virtuellen Positionen der virtuellen Quellen, von denen das eine oder die mehreren Synthesesignale stammen, zu dem betroffenen Lautsprecher zu liefern. Hierbei kann bereits eine erhebliche Datenratenübertragungseinschränkung erreicht werden, da die Erfahrung zeigt, daß sehr selten der Fall eintritt, daß jeder Lautsprecher Synthesesignale erhält, deren
Energieinhalt größer als ein bestimmter Schwellwert ist. Das erfindungsgemäße zentrale Wellenfeldsynthesemodul hat somit bereits die Option, einem dezentralen Lautsprechermodul nur die Synthesesignale und ferner nur die Kanalinformationen für die Synthesesignale zuzuführen, die für den einzelnen Lautsprecher bedeutsam sind.
Die erfindungsgemäßen Lautsprechermodule sind dezentral ausgeführt und mit dem Lautsprecher unmittelbar gekoppelt bzw. vorzugsweise in räumlicher Nähe zum Lautsprecher angeordnet. Jedes Lautsprechermodul umfaßt einen Empfänger zum Empfangen des einen oder der' mehreren Synthesesignale für den betroffenen Lautsprecher sowie der den Synthesesignalen zugeordneten Kanalinformationen. Ferner umfaßt jedes Lautsprechermodul eine Rendering-Einrichtung zum Berechnen eines Wiedergabesignals für den Lautsprecher unter Verwendung der Synthesesignale und der Kanalinformationen für die zugeführten Synthesesignale. Schließlich umfaßt jedes Lautsprechermodul noch eine Signalverarbeitungseinrichtung mit möglicherweise einem digitalen Verstärker, einer weiteren digitalen Signalverarbeitungseinrichtung sowie schließlich einem Digital-Analog-Wandler zum Erzeugen eines analogen Lautsprechersignals, das dem betroffenen Lautsprecher zuzuführen ist, aufgrund des Wiedergabesignals. Zur Verbindung des zentralen Wellenfeldsynthesemoduls und der dezentralen Lautsprechermodule ist eine Mehrzahl von Übertragungsstrecken vorgesehen, wobei sich eine Übertragungsstrecke jeweils von dem zentralen Wellenfeldsynthesemodul zu dem einzelnen Lautsprecher erstreckt.
Sehr rechenaufwendig ist die Operation des Renderings, die im Hinblick auf die erforderliche Schaltungshardware in Form eines beispielsweise DSP oder einer fest verdrahteten Schaltung erheblich zu den Kosten beiträgt, insbesondere wenn an den Multiplikator gedacht wird, der für jeden einzelnen Lautsprecher vorgesehen ist. Vorzugsweise
arbeitet die Rendering-Einrichtung unter Verwendung von Kanalimpulsantworten als Kanalinformationen und führt somit eine rechenzeitintensive Faltung durch, die entweder im Zeitbereich direkt ausführbar ist, oder im Frequenzbereich durchgeführt wird, wobei hierfür Transformationen in den Frequenzbereich und Transformationen aus dem Frequenzbereich erforderlich sind, die zusammen mit der eigentlichen Multiplikationsoperation im Frequenzbereich zu einem erheblichen Aufwand führen. Hierbei sei insbesondere daran gedacht, daß eine Rendering-Einheit nicht nur ein einziges Synthesesignal rendern muß, sondern immer eine große Anzahl von Synthese-Signalen, die normalerweise mit der Anzahl von virtuellen Quellen korrespondiert.
Das erfindungsgemäße Konzept führt dazu, daß dezentral durchführbare Operationen aus dem zentralen Wellenfeldsynthesemodul heraus in die dezentralen Lautsprechermodule verlagert werden, derart, daß im besten Fall nur noch die Operationen in dem zentralen Wellenfeldsynthesemodul ausgeführt werden, die für alle Lautsprecher gleichermaßen bedeutend sind, während sämtliche Operationen, die nur einen Lautsprecher betreffen, oder mehrere Lautsprecher, die an ein Lautsprechermodul angeschlossen sind, auch dezentral in dem LautSprechermodul ausgeführt werden.
Damit können die Kosten für das zentrale Wellensynthesemodul erheblich verringert werden, jedoch auf Kosten der Lautsprechermodule, deren Preis nunmehr nicht mehr vernachlässigbar ist, aufgrund der in den Lautsprechermodulen hauptsächlich durchgeführten Operation des Audio-Renderings .
Das erfindungsgemäße Audiowiedergabesystem ist nun jedoch sowohl hinsichtlich der Leistung als auch des Preises skalierbar. Es eröffnet sich die Möglichkeit, ein zentrales Wellenfeldsynthesemodul für eine große Anzahl von Wiedergaberäumen zu einem reduzierten Preis anzubieten,
derart, daß die Kosten für das Gesamtsystem, die sich aus den Kosten für die Zentraleinheit und die dezentralen Lautsprechermodule ergeben, nunmehr stark mit der Anzahl von eingerichteten Lautsprechern und damit der Größe des Wiedergaberaums korrespondieren.
In anderen Worten ausgedrückt wird ein Betreiber eines großen Wiedergaberaums nach wie vor einen bestimmten Preis für ein Wiedergabesystem für seinen großen Wiedergaberaum entrichten müssen. Andererseits wird jedoch ein Betreiber eines kleineren Wiedergaberaums ein Audiowiedergabesystem zu einem erheblich geringeren Preis erstehen können, da die Anzahl von Lautsprechern und damit die Anzahl von aufwendigen und kostenintensiven Lautsprechermodulen im Vergleich zum großen Wiedergaberaum erheblich reduziert ist.
Das erfindungsgemäße Audiowiedergabesystem ermöglicht es somit, Audiowiedergabesysteme für kleinere Wiedergaberäume zu erheblich reduzierten Preisen im Vergleich zu großen Wiedergaberäumen anzubieten, so daß aufgrund des reduzierten Preises auf dem sehr wettbewerbsintensiven Markt der Audio/Video-Komponenten eine Marktakzeptanz erhofft wird.
Bei einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung ist die zentrale Wellenfeldsyntheseeinheit ausgebildet, um im herkömmlichen Audioformat für Kinofilme aufgezeichnete Kinofilme verarbeiten zu können, wobei übliche Aufnahmeformate beispielsweise das 5.1-Surround- Format oder 7.1. -Format oder 10.2-Format sind. Ein solcher Kinofilm umfaßt am Beispiel des 5.1-Formats sechs Audiospuren, also Audiospuren für den Kanal "links hinten", "rechts hinten", "vorne links", "vorne rechts" und "vorne mitte", sowie den Baßkanal (Subwoofer-Kanal) . Eine Wiedergabe eines solchen im Hinblick auf die Audiotechnik herkömmlichen Kinofilms in dem erfindungsgemäßen Audiowiedergabesystem kann dadurch erreicht werden, daß die
Audiospuren als virtuelle Quellen an virtuellen Positionen plaziert werden, die je nach Belieben des Tonmeisters bzw. des Betreibers des Wiedergaberaums gewählt werden können. Die Möglichkeit der kompatiblen Wiedergabe für ein Audiowiedergabesystem mit skalierbarem Preis liefert daher einen Beitrag, daß sich Audiowiedergabesysteme auf der Basis der Wellenfeldsynthese bereits zu einem Zeitpunkt verbreiten, zu dem noch wenig Kino/Video-Filme mit vollständig Wellenfeldsynthese-geeigneten Audiospuren zusammen mit den entsprechend nötigen Metainformationen über das Aufnahme-Setting vorliegen.
Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung werden nachfolgend Bezug nehmend auf die beiliegenden Zeichnungen detailliert erläutert. Es zeigen:
Fig. 1 ein Konzeptionsdiagramm des erfindungsgemäßen Audiowiedergabesystems ;
Fig. 2 ein Blockschaltbild des erfindungsgemäßen zentralen Wellenfeldsynthesemoduls ;
Fig. 3 ein Blockschaltbild eines erfindungsgemäßen dezentralen Lautsprechermoduls;
Fig. 4 ein Blockschaltbild einer bevorzugten
Ausgestaltung der Audio-Renderingeinheit in einem dezentralen Lautsprechermodul;
Fig. 5 eine Prinzipdarstellung einer kompatiblen Wiedergabe mit großem Sweet Spot;
Fig. 6 eine Prinzipskizze für das Zustandekommen von mehreren Synthesesignalen für einen Lautsprecher, die jeweils mit Kanalinformationen zu beaufschlagen sind, um das Wiedergabesignal für den Lautsprecher LSi zu erhalten; und
Fig. 7 eine Prinzipdarstellung eines Kanals von einer virtuellen Quelle zu einem realen Lautsprecher mit Darstellung der Größen, die einen Einfluß auf den Kanal haben können.
Das erfindungsgemäße Audiowiedergabesystem gliedert sich, wie es in Fig. 1 dargestellt ist, grundsätzlich in zwei Teile. Ein Teil ist das zentrale Wellenfeldsynthesemodul 10. Der andere Teil setzt sich aus einzelnen Lautsprechermodulen 12a, 12b, 12c, 12d, 12e zusammen, die mit tatsächlichen physikalischen Lautsprechern 14a, 14b, 14c, 14d, 14e derart verbunden sind, wie es in Fig. 1 gezeigt ist. Es sei darauf hingewiesen, daß die Anzahl der Lautsprecher 14a-14e bei typischen Anwendungen im Bereich über 50 und typischerweise sogar deutlich über 100 liegt. Wird jedem Lautsprecher ein eigenes LautSprechermodul zugeordnet, so wird auch die entsprechende Anzahl von Lautsprecher-Modulen benötigt. Je nach Anwendung wird es jedoch bevorzugt, von einem Lautsprecher-Modul aus eine kleine Gruppe von nebeneinander liegenden Lautsprechern anzusprechen. In diesem Zusammenhang ist es beliebig, ob ein Lautsprecher-Modul, das mit vier Lautsprechern beispielsweise verbunden ist, die vier Lautsprecher mit demselben Wiedergabesignal speist, oder ob für die vier Lautsprecher entsprechende unterschiedliche Synthesesignale berechnet werden, so daß ein solches Lautsprecher-Modul eigentlich aus mehreren einzelnen Lautsprecher-Modulen besteht, die jedoch physikalisch in einer Einheit zusammengefaßt sind.
Zwischen dem Wellenfeldsynthesemodul 10 und jedem einzelnen Lautsprecher-Modul 12a-12e befindet sich eine eigene Übertragungsstrecke 16a-lβe, wobei jede Übertragungsstrecke mit dem zentralen Wellenfeldsynthesemodul und einem eigenen Lautsprecher-Modul gekoppelt ist.
Als Datenübertragungsmodus zum Übertragen von Daten von dem Wellenfeldsynthesemodul zu einem Lautsprecher-Modul wird
ein serielles Übertragungsformat bevorzugt, das eine hohe Datenrate liefert, wie beispielsweise ein sogenanntes Firewire-Übertragungsformat oder ein USB-Datenformat. Datenübertragungsraten von über 100 Megabit pro Sekunde sind vorteilhaft.
Der Datenstrom, der von dem Wellenfeldsynthesemodul 10 zu einem Lautsprecher-Modul übertragen wird, wird somit je nach gewähltem Datenformat in dem Wellenfeldsynthesemodul entsprechend formatiert und mit einer
Synchronisationsinformation versehen, die in üblichen seriellen Datenformaten vorgesehen ist. Diese Synchronisationsinformation wird von den einzelnen Lautsprecher-Modulen aus dem Datenstrom extrahiert und verwendet, um die einzelnen Lautsprecher-Module im Hinblick auf ihre Wiedergabe, also letztendlich auf die Analog- Digital-Wandlung zum Erhalten des analogen Lautsprechersignals und die dafür vorgesehene Abtastung (resampling) zu synchronisieren. Es wird bevorzugt, daß das zentrale Wellenfeldsynthesemodul als Master arbeitet, und daß alle Lautsprecher-Module als Clients arbeiten, wobei die einzelnen Datenströme über die verschiedenen Übertragungsstrecken 16a-16e alle dieselben Synchronisationsinformationen von dem Zentralmodul 10 erhalten. Dies stellt sicher, daß alle Lautsprecher-Module synchron, und zwar synchronisiert von dem Master 10, arbeiten, was für das vorliegende Audiowiedergabesystem wichtig ist, um keinen Verlust an Audioqualität zu erleiden, damit die vom Wellenfeldsynthesemodul berechneten Synthesesignale nicht zeitversetzt von den einzelnen Lautsprechern nach entsprechendem Audio-Rendering abgestrahlt werden. Vorteilhaft an diesem Konzept ist, daß die einzelnen Lautsprecher-Module nicht untereinander synchronisiert werden müssen. Sie sind automatisch untereinander synchronisiert, da sie alle synchron zum Master laufen. Eine Verbindung der einzelnen Lautsprecher- Module untereinander wird für die vorliegende Erfindung ungünstig sein, da das modulare Konzept der Skalierbarkeit
mit den Lautsprecher-Modulen hinsichtlich der Wiedergaberaum-Größe ein einfaches Hinzufügen von Modulen erfordert, ohne daß entsprechende Verdrahtungen unter den Modulen erreicht werden müssen.
Fig. 2 zeigt ein Blockschaltbild eines zentralen Wellenfeldsynthesemoduls gemäß einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung. Das zentrale Wellenfeldsynthesemodul umfaßt zunächst eine Eingabe-Einrichtung 20, die grundsätzlich ausgebildet ist, um ein Audiosignal an einem Eingang zu empfangen, wobei das Audiosignal eine Mehrzahl von Audiospuren aufweist, wobei jeder Audiospur eine Audioquellenposition zugeordnet ist.
Je nach Anwendung ist die Audioquellenposition eine Angabe über die Position eines Lautsprechers bezüglich eines Zuhörers im Wiedergaberaum gemäß einem standardisierten Audio-Format, wie z. B. 5.1, um eine kompatible Wiedergabe zu erreichen. In diesem Fall hätte das Audiosignal 5+1=6 Audiospuren. Alternativ kann das Audiosignal eine größere Anzahl von Audiospuren haben, die bereits als Wellenfeldsynthese-geeignete Signale vorliegen und Audioquellen bzw. Audioobjekte in einer realen AufZeichnungsposition darstellen, die im Hinblick auf die Audiosignalwiedergabe als virtuelle Quellen im Wiedergaberaum unter Verwendung der Wellenfeldsynthese abgebildet werden.
Die Eingabeeinrichtung 20 wird ferner bei einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung als Hauptsteuerungseinheit verwendet, die vorteilhafterweise weitere Funktionalitäten hat. Insbesondere hat sie die Funktionalität eines Decodiermoduls, wie es üblicherweise in Kinos verwendet wird. Alternativ oder zusätzlich ist die Eingabeeinrichtung 20 auch als DVD-Decoder ausgebildet, der die separaten Audiokanäle bzw. Audiospuren liefert.
Alternativ ist die Wiedergabeeinrichtung 20 auch als MPEG- 4-Decodiermodul ausgebildet, das bereits für eine Wellenfeldsynthese gedachte Audiospuren 21 und entsprechende Audioquelleninformationen 22 liefert. Insbesondere beziehen sich die Audiospuren 21 jeweils auf Audiosignale von Audioobjekten in einem Aufnahme-Setting, auf die Position der Audioobjekte in dem Aufnahme-Setting, auf Eigenschaften von Audioobjekten, insbesondere hinsichtlich der Größe des Audioobjekts oder der Dichte im Hinblick auf die akustischen Eigenschaften des Audioobjekts.
Ferner wird es bevorzugt, auch Eigenschaften des Aufzeichnungsraums bzw. der AufZeichnungsumgebung zusätzlich zu den Audiospuren 21 zu übertragen, um diese bei der Wellenfeldsynthese gegebenenfalls berücksichtigen zu können. Die Informationen über den Aufzeichnungsraum bzw. die AufZeichnungsumgebung sollen dafür dienen, daß dem Zuhörer nicht nur ein visueller sondern auch ein audiomäßiger Eindruck der Aufnahmesituation gegeben wird. So soll der Besucher auch an dem wiedergegebenen Ton merken, ob sich eine Aufnahmeszene eines Kinofilms unter freiem Himmel beispielsweise abspielt oder z. B. in einem kleinen Raum, wie beispielsweise einem U-Boot. Während ein Aufnahmeszenario unter freiem Himmel relativ „trockene" Audiosignale liefert, da die Aufnahmeumgebung kaum bzw. keine Reflexionen zeigt, wird diese Situation in einem U- Boot beispielsweise komplett anders sein. Hier ist das Aufnahme-Setting durch einen sehr reflexionsreichen Raum bzw. eine sehr reflexionsreiche Audioumgebung dargestellt. In diesem Fall wird es bevorzugt, die Audiospuren möglichst trocken, also ohne die Raumakustik im Aufnahmeraum einzuspielen und die Raumakustik hinsichtlich ihrer Eigenschaften durch zusätzliche Metainformationen zu beschreiben, wie sie gemäß dem Standard MPEG 4 im standardisierten Datenstrom übertragen werden können.
Das zentrale Wellenfeldsynthesemodul umfaßt ferner eine Einrichtung 24 zum Bestimmen von Kanalinformationen einerseits und Wellenfeld-Synthesesignalen andererseits für die einzelnen Lautsprecher. Hierzu ist ferner eine Einrichtung 25 zum Umsetzen der Audioquellenpositionen 22 in virtuelle Positionen für die Wellenfeldsynthese vorgesehen.
Im einzelnen ist die Einrichtung 24 ausgebildet, um Audiokanalinformationen für jeden Audiokanal von einer virtuellen Position zu einer Lautsprecherposition zu bestimmen, wobei die virtuelle Position von der
Audioquellenposition, die der Audiospur zugeordnet ist, abhängt (Einrichtung 25) , so daß für jeden Kanal von jeder virtuellen Position zu jedem Lautsprecher
Audiokanalinformationen vorliegen. Ferner ist die
Einrichtung 24 ausgebildet, um unter Verwendung der
Prinzipien der Wellenfeldsynthese, wie sie eingangs dargestellt und bekannt sind, Synthesesignale von den virtuellen Positionen für die Lautsprecher zu berechnen.
Das zentrale Wellenfeldsynthesemodul in Fig. 2 umfaßt ferner eine Einrichtung 26 zum Liefern von Synthesesignalen zu einem oder mehreren Lautsprechern. Die Einrichtung 26 ist ferner ausgebildet, um Kanalinformationen für die übertragenen Syntheseinformationen von dem zentralen Wellenfeldsynthesemodul über die entsprechenden Übertragungsstrecken zu den einzelnen Lautsprechermodulen zu übertragen, damit dort ein Audio-Rendering stattfinden kann. Je nach Ausführungsform wird es bevorzugt, zu jedem Synthesesignal, das sich auf einen Kanal von einer virtuellen Position zu einem konkreten Lautsprecher bezieht, weitere Kanalinformationen für diesen Kanal zu übertragen. Dies bedeutet, daß bei einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung die Einrichtung 24 für jedes Synthesesignal auch Kanalinformationen liefert bzw. aus berechneten Kanalinformationen interpoliert und der Einrichtung 26 zur
Verfügung stellt, damit dieselbe eine Übertragung zu den einzelnen Lautsprechermodulen initiieren kann. Vorzugsweise ist die Einrichtung 26 ausgebildet, um nicht-signifikante Synthesesignale herauszufiltern und damit weder die nicht- signifikanten Synthesesignale noch die dazugehörigen Kanalinformationen zu übertragen, um Datenübertragungskapazitäten einzusparen. So tritt oft der Fall auf, daß eine virtuelle Quelle zu signifikanten Synthesesignalen nur für einige Lautsprecher führt, während für alle anderen Lautsprecher im Lautsprecherarray zwar aufgrund der Theorie der Wellenfeldsynthese ebenfalls Synthesesignale berechnet werden können, die jedoch z. B. hinsichtlich ihrer Leistung in einem bestimmten Zeitabschnitt relativ klein sind und daher im Hinblick auf eine reduzierte Datenübertragungsmenge vernachlässigt werden können.
Im einzelnen umfaßt die Einrichtung 24 Funktionalitäten, um dazu verwendet zu werden, um die Audiosignale vorzuverarbeiten. Darüber hinaus steuert die Einrichtung 24 die einzelnen Lautsprechermodule insbesondere auch dahingehend, daß sie entweder unmittelbar oder in Verbindung mit der Einrichtung 26 Synchronisationsinformationen in die zu den einzelnen Lautsprechermodulen übertragenen Datenströme einbringt und somit eine Zentralsynchronisation aller Lautsprechermodule auf das zentrale Wellenfeldsynthesemodul erreicht.
Insbesondere ist das zentrale Wellenfeldsynthesemodul ausgebildet, um sämtliche Verarbeitungsoperationen durchzuführen, die für alle Reproduktionskanäle gleich sind, während gemäß dem erfindungsgemäßen Konzept die Verarbeitungsoperationen dezentral durchgeführt werden, die für die einzelnen Lautsprecher bzw. die einzelnen Reproduktionskanäle unterschiedlich sind.
Die Einrichtung 24 ist ferner ausgebildet, um eine Simulation von Wellenfeldsynthese-Informationen für Stereo-
Signale, 5.1-Signale, 7.2-Signale, 10.2-Signale etc. im Hinblick auf eine kompatible Wiedergabe durchzuführen. Hierzu werden als Audioquellenpositionen die Normpositionen von Lautsprechern bezüglich eines Wiedergaberaums für das genormte Audioformat verwendet .
In dieser Hinsicht wird nachfolgend auf Fig. 5 Bezug genommen. Fig. 5 zeigt einen Wiedergaberaum 50, ein Lautsprecherarray 52, das sich um den Wiedergaberaum erstreckt, sowie eine Vielzahl von virtuellen Quellen 53a- 53e, die, wie es aus Fig. 5 ersichtlich ist, an virtuellen Positionen positioniert sind, die sich außerhalb des Wiedergaberaums 50 befinden. Die Einrichtung 24 ist in Verbindung mit der Einrichtung 25 von Fig. 1 ausgebildet, um aus den Audioquelleninformationen, also den Norm- Positionsangaben für ein solches beispielsweise 5.1-Signal, virtuelle Positionen zu berechnen, die manuell steuerbar sind. Je nach Ausführungsform wird es bevorzugt, die virtuellen Positionen z. B. ins Unendliche zu verschieben, so daß das Lautsprecherarray 52 den Wiedergaberaum 50 mit ebenen Wellen beschallt. Dies führt dazu, daß der sogenannte Sweet-Spot, also der Bereich in einem Wiedergaberaum, in dem ein optimaler Klangeindruck erhalten wird, im Vergleich zu einer üblichen Situation, bei der reale 5.1-Lautsprecher im Wiedergaberaum plaziert sind, erheblich vergrößert wird.
Alternativ können die virtuellen Quellen auch an finiten virtuellen Positionen plaziert werden und als Punktquellen modelliert werden, wobei diese Option den Vorteil hat, daß der Klangeindruck auf den Kino-Zuschauer/Zuhörer angenehmer wirkt. Ebene Wellen haben die Eigenschaft, daß der Zuhörer den Eindruck hat, daß er in einem sehr großen Raum sitzt, was insbesondere zu einer unangenehmen Sinneswahrnehmung führt, wenn auf der Leinwand beispielsweise gerade eine U- Boot-Szene stattfindet. In diesem Zusammenhang sei darauf hingewiesen, daß übliche Kinofilme mit beispielsweise 5.1- Audiospuren keine Informationen über akustische
Eigenschaften des Aufnahme-Settings umfassen. Daher wird es in einem solchen Fall bevorzugt, einen Kompromiß zwischen den ebenen Wellen, also den virtuellen Quellen an unendlicher Position oder den virtuellen Quellen an einer finiten Position zu finden. In diesem Zusammenhang liefert das erfindungsgemäße Audiowiedergabesystem ferner die Möglichkeit, je nach Filmszene die virtuellen Positionen der virtuellen Lautsprecher 53a-53e zu variieren. Findet beispielsweise eine Szene unter freiem Himmel statt, so können die Lautsprecher ins Unendliche positioniert werden. Findet dagegen eine Szene in einem kleinen Raum statt, so können die Lautsprecher näher an den Wiedergaberaum 50 hin positioniert werden.
Im Zusammenhang mit der kompatiblen Wiedergabe ist bei einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung die Eingabeeinrichtung 20 ausgebildet, um die Audiospuren, die dem Videosignal zugeordnet sind, um eine bestimmte Zeit-„Verzögerung" vor den Videosignalen abzutasten, derart, daß nach der Verarbeitung im Wellenfeldsynthesemodul in den einzelnen Lautsprechermodulen der zu einem Zeitpunkt gehörige Ton gleichzeitig mit dem zu einem Zeitpunkt gehörigen Videosignal abgetastet wird. Die negative „Verzögerung" muß zumindest derart bemessen sein, daß in dem erfindungsgemäßen Audiowiedergabesystem Ton und Bild zueinander gehörig ausgestrahlt werden. Wird die negative Verzögerung etwas größer bemessen, so können die Signale bereits fertig berechnet werden und beispielsweise durch ein entsprechendes Synchronisationssignal, das Synchronität von Bild und Ton sicherstellt, von den Lautsprechermodulen zu den Lautsprechern ausgegeben werden.
Sowohl im Fall der kompatibel Wiedergabe als auch im Fall, in dem das eingegebene Audiosignal bereits vorbereitete Wellenfeldsynthese-Informationen über Schallquellen im Aufnahme-Setting umfaßt, wird es bevorzugt, Informationen über den Wiedergaberaum über eine Leitung 27 der
Kanalinformationsberechnungseinrichtung 24 zuzuführen, so daß die Synthesesignale unter Verwendung der Informationen über den Wiedergaberaum aufbereitet werden können, um z. B. eine Elimination der akustischen Eigenschaften des Wiedergaberaums zu erreichen.
Informationen über den Wiedergaberaum können entweder aufgrund der geometrischen Beschaffenheit des Wiedergaberaums ermittelt werden, oder im Wiedergaberaum unter Verwendung der Lautsprecher und spezieller Mikrophonarrays gemessen werden, wobei eine Ansteuerung und Auswertung hierfür über ein Adaptionsmodul 28 für den Wiedergaberaum stattfinden kann. So wird es bei einem Ausführungsbeispiel der vorliegenden Erfindung bevorzugt, während der Wiedergabe die akustischen Eigenschaften des Wiedergaberaums zu bestimmen und entsprechend die Informationen über den Wiedergaberaum nachzustellen, so daß auch für ein beispielsweise gefülltes Kino eine optimale Unterdrückung der Kinoakustik stattfindet. An dieser Stelle sei darauf hingewiesen, daß sich insbesondere bei kleineren, vollgefüllten Wiedergaberäumen die akustischen Eigenschaften des Wiedergaberaums deutlich von denen unterscheiden, wenn keine Personen in dem Wiedergaberaum vorhanden sind.
Das Adaptionsmodul 28 für den Wiedergaberaum umfaßt ferner ein Mikrophonarray, das zur Messung der Eigenschaften der Wiedergabe eingesetzt werden kann. Ferner umfaßt das Adaptionsmodul 28 für den Wiedergaberaum Algorithmen, um die Position von Lautsprecherarrays in dem Reproduktionsraum zu finden. Ferner wird hier eine Vorverarbeitung von Meßergebnissen durchgeführt, um eine optimale Invertierung der Raum- und der Lautsprechereigenschaften durchzuführen, wobei das Adaptionsmodul 28 hierzu vorzugsweise von der Einrichtung 24 angesteuert wird.
Je nach Ausführungsform wird das Adaptionsmodul 28 für den Wiedergaberaum lediglich zum Systemaufbau benötigt. Wenn aber eine durchgehende Adaption an eine veränderte Situation im Wiedergaberaum gewünscht ist, kann das Adaptionsmodul 28 auch im Betrieb dauernd eingesetzt werden.
Wenn die Kanalinformationsberechnungseinrichtung 24 zum Verarbeiten von in die Einrichtung 20 eingegebenen WFS- spezifischen Signalen eingesetzt wird, werden die zusätzlichen WFS-Informationen, also die Eigenschaften beispielsweise der Audioobjekte und die Eigenschaften des Aufnahmeraums, aus dem eingegebenen Audiosignal extrahiert und über eine WFS-Informationsleitung 29 der Einrichtung 24 zugeführt, damit diese Informationen bei der Kanalinformationsberechnung berücksichtigt werden können.
In diesem Fall ist das zentrale WFS-Modul ferner ausgebildet, um eine Vorverarbeitung der WFS-aufbereiteten Audiosignale durchzuführen. Ferner ist die Einrichtung 24 und/oder die Einrichtung 26 dafür vorgesehen, die Synchronisation zwischen Bild und Ton zu erreichen, wobei hierfür, wie es ausgeführt worden ist, in den vorzugsweise seriellen Datenströmen zu den einzelnen Lautsprechermodulen Zeitcodes eingebracht werden. Schließlich ist die Kanalinformationsberechnungseinrichtung 24, wie es bereits ausgeführt worden ist, auch dafür verantwortlich, um das Adaptionsmodul 28 anzusteuern, um die Messung der akustischen Eigenschaften des Reproduktionsraums, wenn dies gewünscht ist, entweder vor der Wiedergabe oder während der Wiedergabe zu steuern.
Die Multiplexer/Sendestufe 26 ist ausgebildet, um Synchronisationsinformationen, die entweder von der Einrichtung 24, von der Steuereinrichtung 20 oder in der Einrichtung 26 selbst erzeugt werden, in die Datenströme zu den Lautsprechermodulen einzufügen, denen ferner die für
die einzelnen Lautsprecher erforderlichen Synthesesignale und nötige Kanalinformationen zugeführt werden.
An dieser Stelle sei ferner darauf hingewiesen, daß der Einrichtung 24 zur Berechnung der Kanalinformationen und zur Berechnung der Synthesesignale ferner die Lautsprecherorte in dem speziellen Wiedergaberaum zur Verfügung gestellt werden müssen, um die einzelnen Synthesesignale und die einzelnen Kanalinformationen für die einzelnen Lautsprecher zu berechnen. Dies ist in Fig. 2 durch eine Leitung 30 symbolisch dargestellt.
Nachfolgend wird Bezug nehmend auf Fig. 3 auf ein bevorzugtes Ausführungsbeispiel für ein Lautsprechermodul eingegangen. Das LautSprechermodul umfaßt zunächst einen Empfänger/Decodiererblock 31, um den Datenstrom von der Selektionseinrichtung zu empfangen, und aus demselben Synthesesignale 31a, zugeordnete Kanalinformationen 31b sowie Synchronisationsinformationen 31c zu extrahieren. Das LautSprechermodul, das in Fig. 3 dargestellt ist, umfaßt ferner als zentrale Einheit eine Audio-Rendering- Einrichtung 32 zum Berechnen eines Wiedergabesignals für den Lautsprecher unter Verwendung der einen oder der mehreren Synthesesignale und unter Verwendung der Kanalinformationen, die den Synthesesignalen zugeordnet sind. Schließlich umfaßt ein Lautsprechermodul eine Signalverarbeitungseinrichtung 33 mit einem Digital/Analog- Wandler zum Erzeugen eines analogen Lautsprecher-Signals, das dem betroffenen Lautsprecher LSi 34 zugeführt wird, um ein Schallsignal zu erzeugen. Die Signalverarbeitungseinrichtung 33 und insbesondere der Resampler, der mit dem Digital/Analog-Wandler zusammenarbeitet, wird über die vom Empfänger 31 aus dem Datenstrom extrahierten Synchronisationsinformationen (31c) versorgt, um synchron zum zentralen Wellenfeldsynthesemodul und damit synchron zu allen anderen Lautsprechermodulen die von der Einrichtung 24 von Fig. 1 berechneten an den
Lautsprechern überlagerten und mit Kanalinformationen beaufschlagten Synthesesignale zeitrichtig abzustrahlen.
Das in Fig. 3 gezeigte Lautsprechermodul zeichnet sich somit durch die Kombination eines digitalen Empfängers, einer weiteren Signalverarbeitungseinrichtung und eines Digital-Analog-Wandlers aus, wobei in der Signalverarbeitungseinrichtung 33 insbesondere auch ein digitaler Verstärker vorgesehen sein kann. Alternativ kann das Signal jedoch auch nach der Digital/Analog-Wandlung verstärkt werden, obgleich die digitale Verstärkung aufgrund der genaueren Möglichkeit der Synchronisation bevorzugt wird. Ferner wird es bevorzugt, den Lautsprecher 34 über eine kurze Analogleitung mit der Signalverarbeitungseinrichtung 33 zu koppeln. Ist es jedoch nicht möglich, daß die Leitung von der Signalverarbeitungseinrichtung 33 zum Lautsprecher 34 kurz ist, so wird es bevorzugt, daß die entsprechenden Leitungen aller Lautsprecher dieselbe Länge haben bzw. Längenunterschiede haben, die in einer vorbestimmten Toleranzgrenze liegen, da die Synchronisation vorzugsweise auf digitaler Seite durchgeführt wird, so daß bei stark unterschiedlichen Leitungslängen zwischen den Lautsprechermodulen und dem Lautsprecher eine Desynchronisation auftreten könnte, die bereits zu hörbaren Artefakten bzw. zu einem Verlust des Klangeindrucks, der durch die Wellenfeldsynthese geschaffen werden soll, führen könnten.
Bei einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung werden als Kanalinformationen Kanalimpulsantworten im Zeitbereich oder im Frequenzbereich übertragen. In diesem Fall ist die Audio- Renderingeinrichtung 32 ausgeführt, um eine Faltung der einzelnen Synthesesignale mit den den Synthesesignalen zugeordneten Kanalinformationen durchzuführen. Diese Faltung kann tatsächlich im Zeitbereich als Faltung implementiert werden, oder kann je nach Bedarf im
Frequenzbereich durch Multiplikation des Analysesignals im Frequenzbereich mit der Kanalübertragungsfunktion durchgeführt werden. Eine im Hinblick auf den Verarbeitungsaufwand optimierte Ausgestaltung ist in Fig. 4 dargestellt. Fig. 4 zeigt eine bevorzugte Ausführungsform der Audio-Renderingeinrichtung 32 und umfaßt für jedes Synthesesignals Sji(t) einen Zeit-Frequenz-Umsetzungsblock 34a, 34b, 34c, sowie für jeden Zweig einen Multiplizierer 35a, 35b, 35c zum Multiplizieren der Transformierten eines Synthesesignals mit der Transformierten einer Kanalimpulsantwort Hji(f), einen Summierer 36 sowie eine abschließende Frequenz-Zeit-Umsetzungseinrichtung 37, die derart verschaltet sind, wie es in Fig. 4 gezeigt ist. Die in Fig. 4 gezeigte Anordnung zeichnet sich dadurch aus, daß sie im Hinblick auf den Verarbeitungsaufwand reduziert ist, indem die Summation der Synthesesignale, die bereits mit den entsprechenden Kanalübertragungsfunktionen beaufschlagt sind, im Frequenzbereich stattfindet, so daß für jedes Lautsprechermodul unabhängig von der Anzahl der Synthesesignale nur eine einzige Frequenz-Zeit- Umsetzungseinrichtung vorhanden ist. Je nach Ausführungsform kann die Zeit-Frequenz-Transformation der Synthesesignale s-μ vollständig parallel ausgeführt werden, oder, wenn ausreichend Zeit vorhanden ist, auch seriell/parallel oder komplett seriell.
Wie es ausgeführt worden ist, zeichnet sich die in Fig. 4 gezeigte bevorzugte Audio-Rendering-Einrichtung 32 dadurch aus, daß sie unabhängig von der Anzahl von Synthesesignalen, die einem Lautsprechermodul zugeführt werden, lediglich eine einzige Frequenz-Zeit- Umsetzungseinrichtung 37 aufweist, die vorzugsweise als inverse FFT implementiert ist, wobei in diesem Fall die Einrichtungen 34a, 34b, 34c als FFT (FFT = schnelle Fourier-Transformation) implementiert sind.
Die in Fig. 3 gezeigte Audio-Rendering-Einrichtung 32 ist ferner ausgebildet, um spezielle Programminformationen von
dem zentralen Wellenfeldsynthesemodul, das in Fig. 2 gezeigt ist, zu erhalten. Hierzu umfaßt die Multiplexer/Sendestufe 26 einen speziellen Ausgang, um die Programminformationen zu den Lautsprecher-Modulen zu liefern. Je nach Anwendungsfall können die Programminformationen auch in den Datenstrom mit Synthesesignalen und Kanalinformationen gemultiplext sein, obgleich dies nicht zwingend erforderlich ist.
Nachfolgend wird ein Beispiel für die Übertragung von Programminformationen zu einem Lautsprecher-Modul dargestellt. Werden die Kanalinformationen als Kanalimpulsantworten beschrieben und zu den einzelnen LautSprechermodulen übertragen, so wird es bevorzugt, im Sinne einer Datenrateneinsparung, nicht die gesamte Impulsantwort zu übertragen, sondern lediglich Abtastwerte der Impulsantwort, die in einem vorderen Bereich der Impulsantwort liegen, dessen Einhüllende noch einen Betrag über einen Schwellenwert hat. An dieser Stelle sei darauf hingewiesen, daß Impulsantworten typischerweise zu kleinen Zeitpunkten große Werte haben und nach und nach kleinere Werte annehmen und schließlich einen sogenannten „Nachhallschwanz" haben, der für den Klangeindruck zwar wichtig ist, dessen Abtastwerte jedoch nicht mehr besonders groß sind, und dessen spezielle Phasenverhältnisse vom Ohr nicht mehr stark wahrgenommen werden. In diesem Fall wird es bevorzugt, den Nachhallschwanz, dessen Einhüllende unterhalb des Schwellenwerts liegt, nicht mehr anhand seiner Abtastwerte zu übertragen, sondern lediglich noch Stützwerte für die Einhüllende zu übertragen. Abtastwerte für den Nachhallschwanz, die von der Audio-Rendering- Einrichtung 32 benötigt werden, werden dann erfindungsgemäß dadurch erzeugt, daß die Audio-Rendering-Einrichtung eine zufällige Folge von Nullen und Einsen erzeugt, deren Amplitude mit den übertragenen Stützwerten für die Einhüllende gewichtet werden. Zur weiteren Datenreduktion wird es bevorzugt, nur einige wenige Stützwerte zu übertragen und zwischen den Stützwerten zu interpolieren,
und die interpolierte Einhüllende dann zur Gewichtung der Zufalls-0/1-Folge zu verwenden.
Es sei darauf hingewiesen, daß die Zufalls-0/1-Folge vorzugsweise durch positive Spannungswerte für eine „1" und negative Spannungswerte für eine „0" realisiert wird. Die Information darüber, daß die Audio-Rendering-Einrichtung Kanalinformationen empfängt, die bis zu einem bestimmten Wert tatsächliche Samples sind und dann lediglich Stützwerte für die Einhüllende sind, wird über den Programminformationeneingang, der in Fig. 3 gezeigt ist, übertragen, oder ist fest vereinbart.
Das erfindungsgemäße Wellenfeldsynthesemodul umfaßt ferner eine in Fig. 2 nicht gezeigte WFS-Mixingkonsole, die ein
Autorensystem umfaßt, um WFS-Tonbeschreibungen zu erzeugen.
Nachfolgend wird Bezug nehmend auf Fig. 6 auf die der Erzeugung von Synthesesignalen zugrundeliegende Vorgehensweise eingegangen. Betrachtet wird ein System mit drei virtuellen Quellen an drei virtuellen Positionen 60, 61, 62 sowie einem Lautsprecher LSi 63 an einer realen Lautsprecherposition, die dem zentralen WFS-Modul bekannt ist. Ferner sind die virtuellen Positionen der virtuellen Quellen 60, 61, 62 dem zentralen Wellenfeldsynthesemodul entweder daraus bekannt, daß sie in einem WFS-aufbereiteten Eingabesignal zugeführt werden, oder daß sie unter Verwendung von Audioquellenpositionen durch die Einrichtung 25 zur Berechnung der virtuellen Positionen abgeleitet werden. Die Synthesesignale s2ι, s2ι und s3i sind die Signale, die der Lautsprecher 63 abstrahlen muß, und die auf die jeweiligen virtuellen Positionen 60, 61, 62 zurückgehen. Daraus wird ersichtlich, daß, wie es ausgeführt worden ist, jeder Lautsprecher die Überlagerung von mehreren Synthesesignalen abstrahlen wird.
Zwischen jeder virtuellen Position und jedem Lautsprecher wird ferner ein Kanal ji definiert, der beispielsweise
durch eine Impulsantwort, eine Übertragungsfunktion oder irgendeine andere Kanalinformation beschrieben werden kann, wie es anhand von Fig. 7 dargestellt ist. In die Kanalbeschreibung können sämtliche gewünschte Eigenschaften verpackt werden, um dann die Synthesesignale, die von dem Wellenfeldsynthesemodul berechnet werden, mit den Kanalinformationen für den entsprechenden einem Synthesesignal zugeordneten Kanal zu beaufschlagen. Ist die Kanalinformation in Form einer Impulsantwort gegeben, die den Kanal beschreibt, so ist die Beaufschlagung eine Faltung. Liegen die Signale im Frequenzbereich vor, so ist die Beaufschlagung eine Multiplikation. Alternative Kanalinformationen können ebenfalls je nach Ausführungsform eingesetzt werden.
Im nachfolgenden wird anhand von Fig. 7 dargestellt, durch welche Informationen ein Kanal 70 von einer virtuellen Quelle 71 zu einem realen Lautsprecher 72 beeinflußt werden kann. Zunächst geht in die Kanalinformation, also beispielsweise die Kanalimpulsantwort die virtuelle Position der virtuellen Quelle 71 ein. Ferner gehen Eigenschaften der virtuellen Quelle ein, wie z. B. Größe, Dichte, etc. So wird z. B. ein kleines Triangel anders beschrieben und modelliert werden müssen, als eine große Pauke. Ferner gehen, wie es in Fig. 7 gezeigt ist, die Eigenschaften des Aufnahmeraums in die Kanalübertragungsfunktion ein. Weitere Einflußkomponenten sind eine Systemverzerrung des gesamten Audiowiedergabesystems, in dem beispielsweise Lautsprecherverzerrungen bzw. Nichtidealitäten der Lautsprecher enthalten sind. In die Kanalinformationen gehen ferner Informationen über den Wiedergaberaum ein, um eine Kompensation der akustischen Eigenschaften des Wiedergaberaums zu erreichen. Wenn von dem Wiedergaberaum beispielsweise bekannt ist, daß er eine frontal einem Lautsprecher gegenüberliegende Wand aufweist, die reflektiert, und deren Reflexion jedoch unterdrückt werden soll, so wird der entsprechende Lautsprecher unter
Berücksichtigung dieser Informationen derart angesteuert, daß er ein Signal enthält, das zu dem reflektierten Signal um 180 Grad phasenverschoben ist und eine entsprechende Amplitude hat, so daß eine auslöschende Reflexion auftritt und die Wand akustisch transparent wird, d. h. für einen Zuhörer nicht mehr aufgrund der Reflexionen identifizierbar ist.
Schließlich kann die Kanalinformation auch dazu verwendet werden, um eine bestimmte Zielwiedergabeakustik einzustellen. Hierzu wird es bevorzugt, zunächst die Akustik des Wiedergaberaums zu unterdrücken in Form einer Wiedergaberaumkompensation, um dann Kanalinformationen zu erzeugen und dem Wellenfeldsynthesemodul zuzuführen, so daß in einem Wiedergaberaum eine Akustik eines beliebigen anderen Wiedergaberaums simuliert werden kann.
Abhängig von den Gegebenheiten kann das erfindungsgemäße Verfahren zum Wiedergeben eines Audiosignals in Hardware oder in Software implementiert werden. Die Implementation kann auf einem digitalen Speichermedium, insbesondere einer Diskette oder CD mit elektronisch auslesbaren Steuersignalen erfolgen, die so mit einem programmierbaren Computersystem zusammenwirken können, daß das Verfahren ausgeführt wird. Allgemein besteht die Erfindung somit auch in einem Computer-Programm-Produkt mit auf einem maschinenlesbaren Träger gespeichertem Programmcode zur Durchführung des erfindungsgemäßen Verfahrens, wenn das Computer-Programm-Produkt auf einem Rechner abläuft. In anderen Worten ausgedrückt kann die Erfindung somit als ein Computer-Programm mit einem Programmcode zur Durchführung des Verfahrens realisiert werden, wenn das Computer- Programm auf einem Computer abläuft.