Vorrichtung und Verfahren zum Erzeugen eines Umgebungssig- nals
Beschreibung
Die vorliegende Erfindung bezieht sich auf die Audiosignalverarbeitung und insbesondere auf Konzepte zum Erzeugen von Umgebungssignalen (Ambience-Signalen) für Lautsprecher in einem Multikanal-Szenario, für die kein eigenes Lautsprechersignal übertragen worden ist.
Multikanal-Audiomaterial wird mehr und mehr populär. Dies hat dazu geführt, dass inzwischen auch viele Endbenutzer Multikanal-Wiedergabesysteme besitzen. Dies ist hauptsächlich darauf zurückzuführen, dass DVDs immer populärer werden, und dass daher auch viele Benutzer von DVDs inzwischen 5.1-Multikanal-Ausrüstungen haben. Solche Wiedergabesysteme bestehen im allgemeinen aus drei Lautsprechern L (Links) , C (Center) und R (Rechts) , die typischerweise vor dem Benutzer angeordnet sind, und zwei Lautsprechern Ls und Rs, die hinter dem Benutzer angeordnet sind, und typischerweise noch aus einem LFE-Kanal, der auch Niederfrequenz-Effekt- Kanal oder Subwoofer genannt wird. Ein solches Kanal- Szenario ist in Fig. 10 und in Fig. 11 angedeutet. Während die Positionierung der Lautsprecher L, C, R, Ls, Rs, bezüglich des Benutzers wie in den Figuren 10 und 11 gezeichnet vorgenommen werden sollte, damit der Benutzer einen mög- liehst guten Höreindruck bekommt, ist die Positionierung des LFE-Kanals (in Figs. 10 und 11 nicht gezeigt) nicht so entscheidend, da das Ohr bei derart niedrigen Frequenzen keine Lokalisierung vornehmen kann und der LFE-Kanal somit irgendwo, wo er aufgrund seiner beträchtlichen Größe nicht stört, angeordnet werden kann.
Ein solches Mehrkanalsystem erzeugt mehrere Vorteile gegenüber einer typischen Stereo-Reproduktion, die eine Zweikanal-Reproduktion ist, wie sie z.B. in Fig. 9 gezeigt ist.
Auch außerhalb der optimalen mittigen Hörposition ergibt sich eine verbesserte Stabilität des vorderen Höreindrucks, der auch als "Front Image" bezeichnet wird, und zwar aufgrund des Mitten-Kanals. Es ergibt sich somit ein größerer „Sweet-Spot", wobei „Sweet Spot" für die optimale Hörposi- tion steht.
Ferner hat der Zuhörer ein besseres Gefühl des "Eintauchens" in die Audioszene aufgrund der beiden hinteren Lautsprecher Ls und Rs .
Dennoch existiert eine riesige Anzahl an im Besitz des Benutzers befindlichen oder allgemein verfügbaren Audiomaterials, das nur als Stereomaterial existiert, das also nur zwei Kanäle hat, nämlich den linken Kanal und den rechten Kanal. Typische Tonträger für solche Stereostücke sind Kom- pakt-Disks.
Um ein solches Stereomaterial über eine 5.1-Multikanal- Audioanlage abzuspielen, hat man zwei Optionen, die gemäß der ITU empfohlen werden.
Die erste Option besteht darin, den linken und den rechten Kanal über den linken und den rechten Lautsprecher des MuI- tikanal-Wiedergabesystems abzuspielen. Nachteilig an dieser Lösung ist jedoch, dass man die Vielzahl der bereits bestehenden Lautsprecher nicht ausnutzt, dass man also das Vorhandensein des Center-Lautsprechers und der beiden hinteren Lautsprecher nicht vorteilhaft ausnutzt.
Eine andere Option besteht darin, die zwei Kanäle in ein Multikanalsignal umzuwandeln. Dies kann während der Wiedergabe oder durch eine spezielle Vorverarbeitung geschehen, welche alle sechs Lautsprecher des beispielsweise vorhande-
nen 5.1- Wiedergabesystems vorteilhaft ausnutzt und damit zu einem verbesserten Höreindruck führt, wenn das Hochmischen oder der "Upmix" von zwei Kanälen auf 5 bzw. 6 Kanäle fehlerfrei durchgeführt wird.
Nur dann hat die zweite Option, also die Verwendung sämtlicher Lautsprecher des Mehrkanalsystems einen Vorteil gegenüber der ersten Lösung, wenn man also keine Upmix-Fehler begeht. Solche Upmix-Fehler können insbesondere störend sein, wenn Signale für die hinteren Lautsprecher, welche auch als Ambience-Signale oder Umgebungssignale bekannt sind, nicht fehlerfrei erzeugt werden.
Eine Möglichkeit, diesen sogenannten Upmix-Prozess durchzu- führen, ist unter dem Stichwort "Direct Ambience-Konzept" bekannt. Die Direktschallquellen werden durch die drei vorderen Kanäle derart wiedergegeben, dass sie von dem Benutzer an der gleichen Position wie in der ursprünglichen Zweikanalversion wahrgenommen werden. Die ursprüngliche Zweikanalversion ist in Fig. 9 schematisch dargestellt, und zwar am Beispiel verschiedener Drum-Instrumente .
Fig. 10 zeigt eine hochgemischte Version des Konzepts, bei der alle ursprünglichen Schallquellen, also die Drum- Instrumente wieder von den drei vorderen Lautsprecher L, C und R wiedergegeben werden, wobei zusätzlich von den beiden hinteren Lautsprechern spezielle Umgebungssignale ausgegeben werden. Der Ausdruck "Direkt-Schallquelle" wird somit dazu verwendet, um einen Ton zu beschreiben, der nur und direkt von einer diskreten Schallquelle wie beispielsweise einem Drum-Instrument oder einem anderen Instrument oder allgemein einem speziellen Audioobjekt kommt, wie es schematisch z.B. in Fig. 9 anhand eines Drum-Instruments dargestellt ist. Irgendwelche zusätzlichen Töne, wie beispiels- weise aufgrund von Wandreflexionen etc. sind in einer solchen Direktschallquelle nicht vorhanden. In diesem Szenario bestehen die Schallsignale, die von den beiden hinteren Lautsprechern Ls, Rs in Fig. 10 abgegeben werden, nur aus
Umgebungssignalen, die in der ursprünglichen Aufzeichnung vorhanden sind oder nicht. Solche Umgebungssignale oder "Ambience"-Signale gehören nicht zu einer einzigen Schallquelle, sondern tragen zur Reproduktion der Raumakustik ei- ner Aufzeichnung bei und führen somit zu dem sogenannten "Eintauch"-Gefühl des Zuhörers.
Ein weiteres Alternativkonzept, das als "In-the-Band"- Konzept bezeichnet ist, ist in Fig. 11 schematisch darge- stellt. Jeder Schalltyp, also Direktschallquellen und umge- bungs-artige Töne werden alle um den Zuhörer herum positioniert. Die Position eines Tons ist unabhängig von seiner Charakteristik (Direktschallquellen oder umgebungs-artige Töne) und hängt nur von dem spezifischen Entwurf des Algo- rithmus ab, wie es z.B. in Fig. 11 dargestellt ist. So wurde in Fig. 11 durch den Upmix-Algorithmus bestimmt, dass die beiden Instrumente 1100 und 1102 seitlich bezüglich des Zuhörers positioniert werden, während die beiden Instrumente 1104 und 1106 vor dem Benutzer positioniert werden. Dies führt dazu, dass die beiden hinteren Lautsprecher Ls, Rs nunmehr auch Anteile der beiden Instrumente 1100 und 1102 enthalten und nicht mehr nur umgebungs-artige Töne, wie es bei Fig. 10 noch der Fall war, wo dieselben Instrumente alle vor dem Benutzer positioniert worden sind.
Die Fachveröffentlichung "C. Avendano und J. M. Jot: "Am- bience Extraction and Synthesis from Stereo Signals for MultiChannel Audio Upmix", IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 02, Orlan- do, Fl, May 2002" offenbart eine Frequenzbereichstechnik, um Umgebungsinformationen in Stereo-Audiosignalen zu identifizieren und zu extrahieren. Dieses Konzept basiert auf der Berechnung einer Inter-Kanal-Kohärenz und einer nichtlinearen Abbildungsfunktion, die es erlauben soll, Zeit- Frequenz-Regionen in dem Stereosignal zu bestimmen, die hauptsächlich aus Umgebungs-Komponenten bestehen. Umgebungssignale werden dann synthetisiert und verwendet, um
die hinteren Kanäle oder "Surround"-Kanäle Ls, Rs (Figs. 10 und 11) eines Multikanal-Wiedergabesystems zu speichern.
In der Fachveröffentlichung "R. Irwan und Ronald M. Aarts: "A method to convert Stereo to multi-channel sound", The proceedings of the AES 19th International Conference, Schloss Elmau, Deutschland, Juni 21-24, Seiten 139-143, 2001" wird ein Verfahren präsentiert, um ein Stereosignal in ein Multikanalsignal umzuwandeln. Das Signal für die Surround-Kanäle wird unter Verwendung einer Kreuzkorrelationstechnik berechnet. Eine Hauptkomponentenanalyse (PCA; PCA = Principle Component Analysis) wird verwendet, um einen Vektor zu berechnen, der eine Richtung des dominanten Signals anzeigt. Dieser Vektor wird dann von einer Zwei- Kanal-Darstellung auf eine Drei-Kanal-Darstellung abgebildet, um die drei vorderen Kanäle zu erzeugen.
Die Fachveröffentlichung "G. Soulodre, "Ambience-Based Up- mixing", Workshop "Spatial Coding Of Surround Sound: A Pro- gress Report", 117th AES Convention, San Francisco, CA, USA, 2004" offenbart ein System, das ein Multikanalsignal aus einem Stereosignal erzeugt. Das Signal wird in sogenannte individuelle Quellenströme und Umgebungsströme zerlegt. Basierend auf diesen Strömen synthetisiert ein soge- nannter "Ästhetik-Prozessor" das Multikanal-Ausgangssignal.
Alle bekannten Techniken versuchen auf verschiedene Arten und Weisen die Ambience-Signale bzw. Umgebungssignale aus dem ursprünglichen Stereosignal zu extrahieren oder sogar aus Rauschen bzw. weiteren Informationen zu synthetisieren, wobei zur Synthese der Ambience-Signale auch Informationen, welche nicht im Stereosignal sind, verwendet werden können. Letztendlich geht es jedoch immer darum, Informationen aus dem Stereosignal zu extrahieren bzw. Informationen in ein Wiedergabe-Szenario einzuspeisen, die nicht explizit vorliegen, da typischerweise nur ein Zweikanal-Stereosignal und gegebenenfalls irgendwelche Zusatzinformationen bzw. Metainformationen zur Verfügung stehen.
Insofern ist die Extraktion oder teilweise Extraktion und teilweise Synthetisierung von solchen Umgebungssignalen eine riskante Angelegenheit, da es ein Benutzer als störend empfinden würde, wenn in den Umgebungskanälen Informationen von Schallquellen enthalten sind, die der Benutzer als direkt von vorne kommend, also vom linken Kanal, mittleren Kanal und rechten Kanal kommend identifiziert. Aus diesem Grund würde man eine Erzeugung von Umgebungssignalen sehr "defensiv" machen, um ganz sicher zu gehen, dass keine vom Benutzer als störend empfundenen Artefakte erzeugt werden. Der andere Extremfall, wenn man zu defensiv bei der Erzeugung der Umgebungssignale agiert, besteht darin, dass ein sehr leises, bzw. kaum mehr wahrnehmbares Umgebungssignal extrahiert wird, oder dass das Umgebungssignal nur noch Rauschen hat, jedoch keine besonderen Informationen mehr hat, so dass das Umgebungssignal sehr wenig zum Hörgenuss beiträgt und eigentlich in diesem Fall ganz weggelassen werden könnte.
Problematisch bei der Erzeugung des Umgebungssignals ist somit, dass man einerseits ein Umgebungssignal erzeugt, das Informationen umfasst, die über normales Rauschen hinausgehen, das jedoch das Umgebungssignal nicht zu hörbaren Arte- fakten führt, dass also ein richtiges Maß zwischen Hörbarkeit und Informationsgehalt beibehalten wird.
Die Aufgabe der vorliegenden Erfindung besteht darin, ein Konzept zum Erzeugen eines Umgebungssignals zu schaffen, in dem hörbare Artefakte reduziert sind.
Diese Aufgabe wird durch eine Vorrichtung zum Erzeugen eines Umgebungssignals gemäß Patentanspruch 1, ein Verfahren zum Erzeugen eines Umgebungssignals gemäß Patentanspruch 21 oder ein Computer-Programm gemäß Patentanspruch 22 gelöst.
Der vorliegenden Erfindung liegt die Erkenntnis zugrunde, dass die Artefakte, die von Zuhörern bei Umgebungssignalen
am negativsten empfunden werden, Artefakte sind, die dazu führen, dass der Zuhörer meint, dass im hinteren Lautsprecher eine direkte Schallquelle ist, obgleich er diese Schallquelle von vorne wahrnimmt. Charakteristika für das Empfinden von direkten Schallquellen sind transiente Vorgänge, also Signal-Feinstrukturen im Zeitsignal, die eine (schnelle) Änderung über einer Änderungsschwelle von einem leisen Zustand in einen lauten Zustand oder von einem lauten Zustand in einen leisen Zustand betreffen, bzw. die ei- nen (starken) Energieanstieg über einer Änderungsschwelle in speziellen Bändern und insbesondere in den oberen Bändern innerhalb einer bestimmten Zeit betreffen.
Solche transienten Vorgänge sind beispielsweise das Einset- zen eines Instruments oder der Anschlag eines Schlaginstruments, oder das Ende eines Tons, der nicht langsam ausklingt, sondern der abrupt beendet wird. Ein Zuhörer nimmt solche transienten Vorgänge als Kennzeichen von Direktschallquellen wahr, die erfindungsgemäß aus einem Umge- bungssignal eliminiert werden, so dass den Umgebungslautsprechern ein erfindungsgemäß erzeugtes Umgebungssignal geliefert wird, das keine oder nur stark gedämpfte Transienten umfasst.
Erfindungsgemäß wird ferner sichergestellt, dass die Unterdrückung eines Transienten in dem Umgebungssignal nicht zu einer zu großen Amplitudenmodulation führt. Erfindungsgemäß wurde nämlich ferner herausgefunden, dass Variationen der Amplitude, also der Lautstärke, auch wenn sie nicht tran- sient sind, also unter der Transientenschwelle liegen, wenn sie jedoch oberhalb einer bestimmten Variationsschwelle sind, vom Benutzer als störend und damit dann, wenn solche Amplitudenvariationen aufgrund einer einfachen Eliminierung eines Transienten in einem Umgebungssignal entstehen wür- den, vom Zuhörer als Artefakt oder Fehler erkannt werden würden.
Erfindungsgemäß wird somit in einem Untersuchungssignal ein Transientenzeitraum detektiert, in dem ein transienter Bereich im Untersuchungssignal vorhanden ist. Hierauf wird mit Hilfe eines Synthesesignalgenerators ein Synthesesignal für den Transientenzeitraum erzeugt, der ausgebildet ist, um das Synthesesignal so zu erzeugen, dass es einen flacheren zeitlichen Verlauf als das Untersuchungssignal in dem transienten Bereich aufweist, wobei ferner der Synthesesignalgenerator ausgebildet ist, um das Synthesesignal so zu erzeugen, dass es sich im Hinblick auf seine Intensität eines vorangegangenen oder nachfolgenden Abschnitts des Untersuchungssignals um weniger als eine vorbestimmte Schwelle unterscheidet. Dieses erzeugte Synthesesignal wird dann mittels eines Signalsubstituierers anstatt des Untersu- chungssignals im Transientenzeitraum verwendet, um das Umgebungssignal zu erhalten.
Erfindungsgemäß wird somit die Extraktion eines Umgebungssignal-artigen Signals aus einem Zwei-Kanal- Stereoeingangssignal verbessert, oder es wird eine Nachverarbeitung eines existierenden Signals, das z.B. bereits ein extrahiertes Roh-Umgebungssignal ist, vorgenommen. Im ersten Fall ist das Untersuchungssignal das tatsächliche Zwei- Kanal-Stereosignal bzw. jeweils ein Kanal des Zwei-Kanal- Signals, während im zweiten Fall das Untersuchungssignal bereits ein extrahiertes Umgebungssignal oder ein vorsynthetisiertes Umgebungssignal ist. Damit ist das erfindungsgemäße Konzept besonders nützlich für das Upmix- Konzept, das auch als "Direct-Ambience-Konzept" dargestellt worden ist. Auch für das "In-the-Band"-Konzept kann das erfindungsgemäße Konzept vorteilhaft sein, da es auch dort zu einem verbesserten Umgebungssignal führt, das einerseits keine störenden Artefakte mehr hat, das jedoch andererseits noch genug Informationen umfasst, damit ein Benutzer einen Nutzen vom Umgebungssignal hat.
Die erfindungsgemäße Umgebungssignalerzeugung führt dazu, dass das Umgebungssignal keine relevanten Teile von Direkt-
Schallquellen hat, wobei insbesondere keine Transienten enthalten sind bzw. Transienten nur in sehr stark gedämpfter Form enthalten sind. Anderenfalls würde der Zuhörer Direktschallquellen hinter sich wahrnehmen, was im Konflikt zu der Erfahrung des Benutzers sein würde, der typischerweise Schallquellen nur von vorne wahrnimmt.
Ferner stellt das erfindungsgemäße Konzept sicher, dass das Umgebungssignal ein durchgehendes ununterbrochenes diffuses Tonsignal ist, da ein unterbrochener umgebungs-artiger Ton, der beispielsweise erhalten wird, wenn Transienten einfach komplett eliminiert werden würden, vom Benutzer als unangenehm oder sogar als Fehler im Hochmisch-Prozess wahrgenommen werden würde.
Bei einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung wird, um einen Direkt-Ambience-Typ eines Upmix- Prozesses zu erreichen, ein ambience-artiges Signal für die hinteren Kanäle aus dem Stereosignal extrahiert. Um dies zu erreichen, wird beispielsweise nur auf die unkorrelierten Signalkomponenten oder als einfache Lösung einfach auf die Differenz zwischen dem ursprünglichen rechten und linken Kanal zurückgegriffen. Wenn die hinteren Kanäle derart erzeugt werden, haben sie oft transienten-artige Komponenten von Direktschallquellen. Diese Transienten können Töne sein, wie beispielsweise Notenanfänge oder Teile von per- kussiven Instrumenten. Ein Transient, der hinter dem Zuhörer wahrgenommen wird, während eine Direktschallquelle (zu der der Transient typischerweise gehört) vor dem Zuhörer positioniert ist, hat eine negative Auswirkung auf die Lokalisierung der Direktschallquelle. Die Direktschallquelle erscheint somit entweder breiter als das Original oder wird, was noch schädlicher ist, als unabhängige Direktschallquelle hinter dem Benutzer wahrgenommen, wobei beide Effekte insbesondere für das Direkt-Ambience-Konzept sehr unerwünscht sind.
Erfindungsgemäß wird diese Problematik dadurch angegangen, dass Transienten im umgebungsartigen Signal unterdrückt werden, und dass die Auswirkung dieser Unterdrückung auf das restliche Signal minimiert wird, d.h. dass die Kontinu- ität des Signals bewahrt wird, indem nur begrenzte Intensitäts-Variationen für den Transientenzeitraum zugelassen werden.
Beim bevorzugten Ausführungsbeispiel der vorliegenden Er- findung wird das für den Transientenzeitraum erzeugte Signal, bevor es durch den Signalsubstituierer verwendet wird, mit dem ursprünglich im Transientenzeitraum vorhandenen Signal gemischt, was beispielsweise durch eine überlappende Verarbeitung erreicht wird. Alternativ oder zusätzlich kann, um die Diskontinuitäten an den Rändern des Transien- tenzeitraums zu unterdrücken bzw. wenigstens zu reduzieren, ein Überblenden vorgenommen werden, um in einem Überblendbereich langsam von dem Signal vor dem Transientenzeitraum in das Signal im Transientenzeitraum überzublenden oder um aus dem Transientenzeitraum wieder langsam auszublenden.
Insbesondere die Ausblendung vom Transientenzeitraum in das ursprüngliche Signal, wenn kein Transient mehr detektiert wird, ist für einen artefaktfreien Höreindruck bevorzugt, da sichergestellt werden soll, dass dann, wenn ein NichtArtefakt-behaftetes Untersuchungssignal vorliegt, durch den Übergang vom Synthesesignal in das ursprüngliche Untersuchungssignal kein Knacken oder etwas Ähnliches entsteht.
Bei weiteren bevorzugten Ausführungsbeispielen der vorliegenden Erfindung wird eine Manipulation des Signals im Transientenzeitraum im Frequenzbereich vorgenommen, indem Vorzeichen von Spektralwerten oder allgemeiner gesagt Phasen von Spektralwerten randomisiert werden, was unweiger- lieh zu einer Glättung der zeitlichen Feinstruktur dieses im Frequenzbereich manipulierten Signals führt. Eine weitere Spektralverarbeitung besteht darin, eine Prädiktion über der Frequenz der Spektralwerte durchzuführen und dann die
Prädiktionsspektralwerte als Spektralwerte des Synthesesignals zu verwenden, da die Prädiktion über der Frequenz zu einer Glättung des korrespondierenden Zeitsignals führt.
Zur Unterdrückung von Transienten bei gleichzeitiger Beibehaltung oder nur geringer Beeinflussung, es wird bevorzugt, die Intensität des Transientenzeitraums um höchstens plus oder minus 50% zu ändern, bestehen darin, die Änderung der Spektralwerte von einem Block zu einem nächsten zu limitie- ren, wobei diese Limitierung global, also für alle Spektralwerte gleich oder selektiv, also nur für bestimmte Spektralwerte, die eine besonders große Änderung haben, erfolgen kann.
Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung werden nachfolgend bezugnehmend auf die beiliegenden Zeichnungen detailliert erläutert. Es zeigen:
Fig. 1 ein Blockschaltbild der erfindungsgemäßen Vor- richtung zum Erzeugen eines Umgebungssignals;
Fig. 2a eine schematische Darstellung der Blockverarbeitung bei nicht-überlappenden Blöcken, jedoch mit Überblendbereich;
Fig. 2b eine schematische Darstellung der Synthesesignalerzeugung bei überlappenden Blöcken;
Fig. 3 eine spezielle Implementierung einer Überblendung mit einer Einblendfunktion und einer Ausblendfunktion, die für Fig. 2a oder Fig. 2b eingesetzt werden kann;
Fig. 4 ein Blockschaltbild einer bevorzugten Implemen- tierung mit einer Verarbeitung im Frequenzbereich;
Fig. 5a eine alternative Implementierung der Frequenzbereichsverarbeitung;
Fig. 5b eine wieder alternative Frequenzbereichsverarbei- tung;
Fig. 5c eine bevorzugte Implementierung einer Intensi- täts-basierten Verarbeitung;
Fig. 6 eine Implementierung zur Erhaltung tonaler Bereiche im Synthesesignal;
Fig. 7 ein Blockschaltbild einer bevorzugten Ausführungsform basierend auf dem Hochfrequenzgehalt HFC;
Fig. 8 eine bevorzugte Implementierung der erfindungsgemäßen Vorrichtung mit zusätzlicher Funktionalität zum Erzeugen der Direktschallkanäle L, R, C;
Fig. 9 ein Stereo-Wiedergabe-Szenario;
Fig. 10 ein Multikanal-Wiedergabe-Szenario, bei dem alle Direktschallquellen durch die vorderen Kanäle wiedergegeben werden; und
Fig. 11 ein Multikanal-Wiedergabe-Szenario, bei dem Schallquellen auch durch hintere Kanäle wiedergebeben werden können.
Fig. 1 zeigt eine erfindungsgemäße Vorrichtung zum Erzeugen eines Umgebungssignals 10, das zur Ausstrahlung über Lautsprecher geeignet ist, für die kein eigenes Lautsprechersignal übertragen worden ist. Solche Lautsprecher sind ty- pischerweise die hinteren Lautsprecher oder Surround- Lautsprecher, wie sie bei Ls, Rs in Fig. 10 und Fig. 11 beispielsweise gezeigt sind.
Die in Fig. 1 gezeigte Vorrichtung umfasst einen Transien- ten-Detektor 11 zum Detektieren eines Transientenzeitraums (bei 20 in Fig. 2 gezeigt), in dem ein Untersuchungssignal einen transienten Bereich aufweist. Obgleich hier einige Implementierungen des Transienten-Detektors beschreiben sind, sei darauf hingewiesen, dass auch beliebige andere Methoden zur Transientendetektion eingesetzt werden können, wie sie beispielsweise in einem MPEG4-Audiocodierer anzutreffen sind, bei dem abhängig von einer Transientendetek- tion von kurzen auf lange Fenster umgeschaltet wird. Auch in anderen Gebieten der Audiosignalverarbeitung werden Transienten-Detektoren eingesetzt, die schnelle und starke Änderungen der Hüllkurve eines Zeitsignals detektieren können. Beispielhafte zu detektierende Größenordnungen sind Änderungen der Hüllkurve, die in einem Zeitraum von 1 ms Änderungen von gleich oder über 100 % der Amplitude der Hüllkurve betreffen.
Der Transienten-Detektor 11 ist mit einem Synthesesignalge- nerator 12 gekoppelt, der ausgebildet ist, um ein Synthesesignal 13 zu erzeugen, das die beiden Bedingungen erfüllt, nämlich einerseits die Transientenbedingung und andererseits die Kontinuitätsbedingung. Die Transientenbedingung besteht darin, dass das Synthesesignal einen flacheren zeitlichen Verlauf als das Untersuchungssignal in dem transienten Bereich aufweist, während die Kontinuitätsbedingung darin besteht, dass die Intensität des Synthesesignals im transienten Bereich von einer Intensität eines vorhergehenden oder nachfolgenden Abschnitts des Untersuchungssignals um weniger als eine voreingestellte Schwelle abweicht. Vorzugsweise ist die Schwelle eine relative Schwelle und liegt bei einem Wert = 2,5, wobei Werte = 1,5 sogar bevorzugt werden. Dies bedeutet, dass die Intensität des Signals im transienten Bereich höchstens das 1,5-fache oder das 0,66- fache der Intensität eines vorausgehenden nicht-transienten Abschnitts oder nachfolgenden nicht-transienten Abschnitts des Untersuchungssignals ist. Damit wird sichergestellt,
dass eine Transientenunterdrückung nicht zu einer störenden Amplituden-Variation bzw. Intensitätsvariation führen wird.
Die Schwelle kann auch durch ein Vertrauensintervall von 80% oder weniger, das anhand der Vergangenheitswerte bestimmt wird, realisiert werden.
Intensitätsmaße, die für die vorliegende Erfindung eingesetzt werden können, umfassen die Energie, die durch Addi- tion der Abtastwert-Quadrate oder Spektralwert-Quadrate eines Blocks erhalten wird, oder ein Leistungsmaß, das unter Berücksichtigung der zeitlichen Blocklänge erhalten werden kann, oder auch ein Maß, das Beträge von Spektralwerten in einem Band gewichtet oder ungewichtet aufaddiert, wobei dieses spezielle Maß, das ebenfalls eine Intensität darstellt, auch als Hochfrequenzgehalt bezeichnet wird, wenn das Band, in dem aufaddiert wird, das obere Frequenzband des Untersuchungssignals ist oder allgemein höhere Frequenzen gegenüber niedrigeren Frequenzen stärker gewichtet wer- den bzw. einen stärkeren Einfluss auf das Endergebnis haben.
Der Synthesesignalgenerator erzeugt dann ein Synthesesignal, das von einem Signalsubstituierer 14 verwendet wird, um das Synthesesignal statt des entsprechenden Bereichs des ursprünglichen Untersuchungssignals zu verwenden, um schließlich das Umgebungssignal 10 zu liefern. Der Signalsubstituierer 14 erhält somit neben dem Synthesesignal über die Leitung 13 auch das Untersuchungssignal über eine Lei- tung 15, wie es in Fig. 1 angedeutet ist. Der Transienten- Detektor 11 erhält über eine Eingangsleitung 16 das Untersuchungssignal und liefert über eine Ausgangsleitung 17 eine Transienten-Information zum Synthesesignalgenerator 12, damit dieser unter Verwendung des Untersuchungssignals, das ihm über eine Leitung 18 bereitgestellt wird, das Synthesesignal erzeugt.
Bei speziellen Ausführungsbeispielen der vorliegenden Erfindung wird eine nicht-überlappende Blockverarbeitung, wie in Fig. 2a dargestellt oder eine überlappende Blockverarbeitung wie in Fig. 2b dargestellt eingesetzt. Bei der nicht-überlappenden Blockverarbeitung in Fig. 2a wird ein Untersuchungssignal 21 in vorzugsweise gleich lange Blöcke einer speziellen Blocklänge eingeteilt. Der Transienten- Detektor erfasst dann einen Transienten 22 in dem Transien- tenzeitraum 20. Der Transient 22 liegt somit im Transien- tenzeitraum 20 von Fig. 2a, was dazu führt, dass der Tran- sienten-Detektor 11 ein Ausgangssignal über seine Ausgangsleitung 17 liefert, die dem Synthesesignalgenerator 12 mitteilt, dass er nun mit einer Signalsynthese beginnen muss. Während die dem Transientenzeitraum 20 vorausgehenden und nachfolgenden Blöcke bis auf eine Überblendung in einem Ü- berblendbereich 23 unmittelbar die entsprechenden Teile des Umgebungssignals 10 darstellen, wird nunmehr der Block des Untersuchungssignals, der dem Transientenzeitraum 20 entspricht, durch den Synthesesignalgenerator synthetisiert und dann durch den Signalsubstituierer 14 anstatt des ursprünglichen Blocks des Untersuchungssignals im Umgebungssignal verwendet.
Bei den bevorzugten Ausführungsbeispielen wird, wie es spä- ter noch dargestellt wird, eine Verarbeitung des Blocks des Untersuchungssignals vorgenommen, die im Frequenzbereich stattfindet. Dies führt dazu, dass an einer Blockgrenze das Synthesesignal einen Abtastwert hat, der sich von einem Abtastwert, der der letzte Abtastwert des vorausgehenden Blocks im Untersuchungssignal ist, deutlich unterscheiden kann. Um solche Blockgrenzen-Artefakte, die auftreten können, zu eliminieren, wird es bei dem in Fig. 2a gezeigten Ausführungsbeispiel bevorzugt, von einem Block vor einem Transientenzeitraum in das Synthesesignal im Transienten- Zeitraum überzublenden, indem beispielsweise der erste Abtastwert des generierten Synthesesignals zu den z.B. letzten 10 Abtastwerte des vorhergehenden Blocks, die gemäße der Ausblendfunktion gewichtet sind, hinzuaddiert wird, und
zwar beispielsweise gemäß der Einblendfunktion in Fig. 3. Gleichzeitig wird der letzte Abtastwert des vorhergehenden Blocks noch gemäß der Ausblendfunktion in Fig. 3 zu dem ersten bzw. den dem ersten Abtastwert folgenden Abtastwer- ten des synthetisierten Blocks die gemäße der Einblendfunktion gewichtet sind, im Transientenzeitraum hinzuaddiert, um eine Überblendung zu schaffen. Entsprechend kann im hinteren Überblendbereich, wenn also vom Transientenzeitraum wieder zurück in den nicht- Transienten-behafteten Block des Umgebungssignals übergegangen wird, vorgegangen werden.
Um solche Blockgrenzen-Artefakte noch weiter zu reduzieren, wird, wie es in Fig. 2b gezeigt ist, eine überlappende Verarbeitung bevorzugt. Der Transienten-Detektor detektiert dann bei dem in Fig. 2b gezeigten Ausführungsbeispiel Blockbereiche, die mit eingeringelten Zahlen (1), (2), (3), (4), (5), (6) dargestellt sind. Ein Transient wird bei 22 detektiert. Dies führt dazu, dass es im Vergleich zu Fig. 2a einen größeren Transienten-Zeitraum 20 gibt, da der Transient an der Position 22 sowohl im Block 4 als auch im Block 5 detektiert worden ist. Daher wird der Synthesesignalgenerator 12 von Fig. 1 Synthesesignale sowohl für den Block 4 als auch für den Block 5 erzeugen. Während für die den drei Transientenzeitraum-Bereichen A, B, C vorausgehen- den Blöcke das Untersuchungssignal keine Transienten hat und somit unmittelbar in das Umgebungssignal übernommen wird, werden die Bereiche A, B, C durch den Signalsubstitu- ierer 14 von Fig. 1 ersetzt, und zwar durch die von den Synthesesignalgeneratoren erzeugten Abschnitte A, B, C. Der Abschnitt A wird durch die Addition der zweiten Hälfte des nicht-Transienten-behafteten Blocks 3 des Untersuchungssignals mit der ersten Hälfte des für den Block 4 erzeugten Synthesesignals erzeugt. Der zweite Teil B des Transienten- zeitraums 20 wird durch Addition der zweiten Hälfte des Synthesesignals, das für den Block 4 erzeugt worden ist, mit der ersten Hälfte des Synthesesignals, das für den Block 5 erzeugt worden ist, geliefert und vom Signalsubsti- tuierer als entsprechender Abschnitt des Umgebungssignals
10 substituiert. Der dritte Teil C des Transientenzeitraums 20 wird durch Addition der zweiten Hälfte des vom Synthesesignalgenerator erzeugten Blocks Nr. 5 mit der ersten Hälfte des Blocks Nr. 6, der nicht mehr Transienten-behaftet ist, erzeugt und vom Signalsubstituierer 14 in das Umgebungssignal geschrieben.
Die in Fig. 3 gezeigte Ausblendfunktion wird nachfolgend detaillierter erläutert. So kann diese Ausblendfunktion da- zu verwendet werden, um bei der Blockverarbeitung mit nicht-überlappenden Blöcken einen weichen Blockübergang von einem nicht-synthetisierten Block zu einem synthetisierten Block zu schaffen und ferner einen weichen Übergang von einem synthetisierten Block wieder in einen nicht- synthetisierten Block zu schaffen. Alternativ kann eine entsprechende Überblendfunktion auch dazu verwendet werden, um insbesondere dann, wenn durch eine bestimmte spezifizierte Anzahl von Blöcken ein Synthesesignal erzeugt worden ist, wieder zurück zum ursprünglichen Untersuchungssignal überzublenden. Nachdem die Wahrscheinlichkeit gegeben ist, dass das Synthesesignal sich aufgrund der Extrapolation relativ weit von dem Untersuchungssignal entfernt hat, würde ein abruptes Zurückkehren zum Untersuchungssignal in bestimmten Fällen zu hörbaren Artefakten führen. Daher wird es bevorzugt, langsam gemäß der Einblend-/Ausblend-Funktion von Fig. 3 überzublenden, indem für einen Block, in dem bereits kein Transient mehr detektiert worden ist, ein Synthesesignal erzeugt wird, das zu 90% aus dem letzten synthetisierten Block und zu 10% aus dem aktuellen Untersu- chungsblock besteht. Im nächsten Block könnte das Verhältnis dann auf 80%: 20% umgeändert werden, bis dann nach einer bestimmten Anzahl von Blöcken das Synthesesignal vollständig ausgeblendet ist und das aktuelle nicht-Transienten- behaftete Untersuchungssignal wieder vollständig eingeblen- det ist.
Nachfolgend wird eine bevorzugte Implementierung eines Teils des Synthesesignalgenerators 12 anhand von Fig. 4 ge-
stellt. Hierzu wird das Zeitsignal, das einen Block des Untersuchungssignals darstellt, in eine Frequenzbereichsdarstellung oder eine Subband-Darstellung durch einen Umsetzer 40 umgesetzt, der eine Transformation oder eine Analyse- Filterbank umfassen kann. Die spektrale Darstellung in Form von Spektralkoeffizienten oder die Subband-Signale werden dann, wie es bei 41 dargestellt ist, gegebenenfalls um Informationen über eine extrapolierte spektrale Darstellung bzw. extrapolierte Subband-Signale ersetzt, wenn es sich um einen Block des Zeitsignals handelt, in dem ein Transient detektiert worden ist. Hierauf wird die spektrale Darstellung gegebenenfalls unter Verwendung von zusätzlichen Informationen aufgrund einer Extrapolation einem Glätter 42 zugeführt, der die Spektralwerte derart beeinflusst, dass der zeitliche Verlauf des zugrunde liegenden Signals geglättet wird. Im Falle einer Filterbank wird der Glätter 42 die Subband-Signale so beeinflussen, dass der zeitliche Verlauf des den Subband-Signalen zugrunde liegenden Signals glatter als vor der Glättung ist. Dann, in einem Block 43 findet eine inverse Umsetzung in den Zeitbereich statt, wobei entweder eine Rücktransformation oder eine Synthese- Filterbank eingesetzt wird, um schließlich zu einem Zeitsignal 44 zu kommen, das einen glatteren Verlauf hat als das Zeitsignal am Eingang der Stufe 40, das jedoch eine E- nergie hat, die durch die Glättung nicht erheblich beeinflusst worden ist. Ferner ist die Glättung so vorgenommen worden, dass die Energie des geglätteten Zeitsignals 44 sich von der Energie des vorherigen Zeitsignals nicht mehr als die Schwelle unterscheidet.
So kann bei der vorliegenden Erfindung eine insgesamte E- nergiemanipulation der Energie des Zeitsignals zwar stattfinden. So wird jedoch lediglich der Transient gedämpft, während die tonalen Anteile weiterlaufen bzw. aus der Ver- gangenheit synthetisiert werden, indem das Signal im Tran- sientenzeitraum durch eine Prädiktion unter Verwendung eines nicht transienten Signals aus der Vergangenheit synthetisiert wird.
Wenn die Energie - wie bei der Randomisierung oder spektralen Prädiktion - jedoch nicht angetastet wird, hat die Glättung dazu geführt, dass die Energie über dem Block gleichmäßiger verteilt wird, so dass ein glatterer zeitlicher Verlauf erzeugt worden ist, ohne jedoch die Energie des Blocks von Abtastwerten des Untersuchungssignals erheblich zu ändern. Dies ist in den meisten Fällen ausreichend und stellt sicher, dass der Benutzer ein Untersuchungssig- nal hört, das die Kontinuitätsbedingung immer erfüllt. Erst wenn die Transiente zu einer erheblichen Energiezunahme auf den ganzen Block betrachtet führt, wird die Glättung allein, also die gleichmäßigere Verteilung der Energie über dem Block, nicht mehr ausreichend sein und es kann dann ei- ne gesteuerte Signalbegrenzung vorgenommen werden.
Bekannte Verfahren, die darin bestehen, eine Lokalisierung von Direktschallquellen in den hinteren Kanälen zu vermeiden, bestehen darin, die hinteren Kanäle ein paar Millise- künden zu verzögern. Diese Lösung führt zu keiner Transien- tenunterdrückung, versucht jedoch die Transienten durch Verwenden des Präzedenz-Effekts zu "maskieren". Der Präze- denz-Effekt besteht darin, dass das Ohr dort eine Schallquelle vermutet, wo es zuerst etwas von dieser Schallquelle hört, wobei das, was man dann von dieser Schallquelle hört, durchaus lauter oder von einer anderen Richtung kommen kann. Nachteilhaft an dieser Lösung ist jedoch, dass sehr kurze Schallereignisse mit scharfen Transienten oft immer noch hörbar sind und dann zweimal wahrgenommen werden, und zwar durch einen vorderen Lautsprecher und einige Millisekunden später durch die hinteren Kanäle, was einen unangenehmen Höreindruck bewirkt.
Kommerziell verfügbare Matrix-Decodierer, wie beispielswei- se Dolby Pro Logic II oder Logic 7 haben die Fähigkeit, nicht vorverarbeitete 2-Kanal-Stereo-Dateien in Multikanal- Surround-Dateien hochzumischen (upmixen) , obwohl sie unmittelbar nicht für diese Aufgabe entworfen worden sind. Diese
Matrix-Decodierer sind oft nicht in der Lage, transiente Töne in den hinteren Kanälen zu unterdrücken, was in einem Signal resultiert, das die Anforderungen nach Transien- tenfreiheit und Amplituden- bzw. Intensitäts-Kontinuität nicht erfüllt.
Erfindungsgemäß werden dagegen Kanalbereiche, wo Transien- ten auftreten, erfasst und gedämpft. Eine einfache Dämpfung des gesamten Signals zu diesen Zeitbereichen würde jedoch in einer Amplitudenmodulation des Umgebungssignals resultieren und es würde als unangenehme oder sogar als Artefakt wahrgenommen werden. Dies würde daher das Qualitätsempfinden des extrahierten oder verarbeiteten Umgebungssignals verschlechtern. Um diesen unangenehmen Amplitudenmodulati- onseffekt zu überwinden, wird erfindungsgemäß eine Tran- sientenunterdrückung ohne Beeinträchtigung der Kontinuität des Synthesesignals bzw. Umgebungssignals erzeugt. Hierzu wird ein Eingangssignal, das z.B. ein hochgemischtes Signal, wie es durch einen Matrix-Hochmischer erhalten wird, für die hinteren Kanäle, oder es wird ein Signal mit ähnlichen Charakteristika und einem ähnlichen Anwendungsbereich analysiert, um zu erfassen, ob eine Transiente vorhanden ist.
Wenn eine Transiente erfasst wird, wird der gegenwärtig verarbeitete Block durch ein Substitutionssignal ersetzt, das eine flache (nicht-transiente) zeitliche Hüllkurve hat. Dieses Substitutionssignal wird entweder von vorhergehenden Signalabschnitten, in denen keine Transiente vorhanden war, erzeugt oder wird von dem gegenwärtig verarbeiteten Block durch einen Verarbeitungsschritt erzeugt, der die zeitliche Hüllkurve bzw. Feinstruktur des Signals flacher macht oder wird von einer Kombination beider Verfahren erzeugt.
Das Substitutionssignal, das von vorhergehenden Abschnitten erzeugt wird, wird beispielsweise durch Extrapolation vorheriger Energiepegel des Signals oder durch Kopie-
ren/Wiederholen von vorherigen Signalabschnitten ohne einen transienten Bereich des Signals erzeugt.
Ein Abflachen oder "Flattening" der zeitlichen Feinstruktur oder des feinen Zeitsignals auf der Basis des gegenwärtig verarbeiteten Blocks kann beispielsweise derart durchgeführt werden, wie es nachfolgend bezugnehmend auf die Figuren 5a, 5b oder 5c dargestellt ist.
So können die Absolutwerte der Spektralkoeffizienten innerhalb eines begrenzten Bereichs, der sich um die extrapolierten Spektralkoeffizienten oder Beträge derselben erstreckt, randomisiert werden, wie es später noch in Verbindung mit Fig. 5c dargestellt wird.
Alternativ oder zusätzlich können die Phasen bzw. Vorzeichen der Spektralkoeffizienten des verarbeiteten Blocks, in dem sich der Transient befindet, durch einen Randomisierer 50 randomisiert werden. Hierzu wird ein Kurzzeitspektrum des betrachteten Blocks des Untersuchungssignals erzeugt, und die dort erhaltenen komplexen Spektralwerte werden nach Betrag und Phase berechnet, um dann die Phasen der Spektralwerte zu randomisieren. Wird eine Transformation eingesetzt, die nur Phasen von +/-180° auflösen kann, die also Spektralwerte nur mit positiven und negativen Vorzeichen liefern kann, so können auch die Vorzeichen randomisiert werden, um ein Kurzzeitspektrum mit randomisierten Phasen/Vorzeichen zu erhalten, das einen flacheren zeitlichen Verlauf des korrespondierenden Zeitsignals hat.
Dieser Ansatz basiert darauf, dass eine schnelle Änderung in einem Zeitsignal nur dann möglich ist, wenn die Phasen der diesem transienten Bereich zugrunde liegenden Grundwelle und zugehörigen Oberwellen in einem ganz bestimmten Ver- hältnis sind. Wird eine Randomisierung der Phasen erreicht, so führt dies dazu, dass der transiente Bereich geglättet wird, da das genaue Zusammenspiel der Phasen der einzelnen
Sinusschwingungen, die durch die Spektralwerte abgebildet werden, nicht mehr vorhanden ist.
Eine alternative Implementierung ist in Fig. 5b anhand ei- nes Prädiktors 51 dargestellt, der ausgebildet ist, um eine Prädiktion des Kurzzeitspektrums über der Frequenz durchzuführen. Ein solcher Prädiktor ist in J. Herre, J. D. Johnston: "Exploiting Both Time and Frequency Structure in a System that Uses an Analysis/Synthesis Filterbank with High Frequency Resolution", 103rd AES Convention, New York 1997, Preprint 4519 dargestellt.
Wieder wird ein Kurzzeitspektrum erzeugt, das in seinem zugeordneten Zeitsignal einen transienten Verlauf hat. Typi- scherweise unter Verwendung eines Open-Loop-Prädiktors wird ein aktueller Spektralwert des Kurzzeitspektrums mittels eines vorherigen oder einer Mehrzahl von vorherigen Spektralwerten vorhergesagt, wobei dann der vorhergesagte Spektralwert von dem tatsächlichen Spektralwert subtrahiert wer- den könnte, um einen spektralen Restwert zu erhalten. Während der spektrale Restwert einer typischen Prädiktion über der Frequenz den Wert darstellt, der von Interesse ist und zusammen mit Koeffizienten eines Prädiktionsfilters informationstragend ist, wird erfindungsgemäß ein bestimmtes Prädiktionsfilter voreingestellt, und werden die Spektralwerte des Kurzzeitspektrums durch die unter Verwendung dieses Prädiktionsfilters prädizierten Spektralwerte ersetzt, während das Prädiktionsfehlersignal nicht weiter verwendet wird.
Die damit erhaltenen eigentlich fehlerhaften Prädiktikons- Spektralwerte haben jedoch nunmehr einen flacheren zeitlichen Verlauf als das ursprüngliche Kurzzeitspektrum, haben jedoch noch annähernd soviel Energie, so dass sowohl die Transientenbedingung als auch die Kontinuitätsbedingung, wie sie in Verbindung mit dem Synthesesignalgenerator 12 von Fig. 1 dargestellt worden ist, erfüllt ist. Eine bevorzugte einfache Ausgestaltung des Prädiktionsfilters besteht
einfach darin, dass ein Wert einer im Index niedrigeren Spektrallinie als Prädiktionswert für eine aktuelle Spektrallinie verwendet wird.
Allgemein kann das extrapolierte Signal mit dem ursprünglichen Signal nach einer spezifizierten Zeitdauer übergeblendet werden, anstatt einer harten Umschaltung, um Langzeit- Extrapolationsartefakte zu vermeiden.
Ferner wird es bevorzugt, wie es anhand von Fig. 6 dargestellt ist, tonale Anteile/Bänder durch einen Detektor 60 zu detektieren und durch den Synthesesignalgenerator nicht zu beeinflussen, sondern in einem Mischer/Kombinierer 61 mit Synthesesignalen für transiente Bänder zu kombinieren, um dann, nach einer Transformation bzw. Umsetzung in den Zeitbereich, die im Block 61 stattfinden könnte, ein Zeitsignal mit flacherem zeitlichem Verlauf zu erhalten, das jedoch noch die tonalen Bänder, also Anteile, die nicht transient waren, in unveränderter Gestalt umfasst.
Somit werden stationäre/tonale Frequenzkomponenten im Eingangssignal, die während der Zeitdauer des Transienten beispielsweise in lediglich Teilen des Spektrums vorhanden waren, erfasst und es wird ein Substitutionssignal erzeugt, das aus einer Extrapolation der vergangenen stationä- ren/tonalen Signalkomponenten und den im aktuellen Block erfassten stationären/tonalen Frequenzkomponenten besteht.
Nachfolgend wird anhand von Fig. 5c eine Implementierung der vorliegenden Erfindung, die durch einen impliziten und nicht mehr expliziten Transienten-Detektor auskommt, dargestellt. Hierzu ist eine Einrichtung 53 zum Berechnen der Intensität eines Blocks und eines vorherigen Blocks in Fig. 5c gezeigt. Ein Maß für die Intensität eines verarbeiteten Signalblocks ist beispielsweise die Energie oder der Hochfrequenzgehalt (HFC) oder ein anderes Maß, das auf der Basis der Spektralwerte, zeitlichen Abtastwerte, der Energie, der Leistung oder einem anderen Amplituden-bezogenen Maß
des Signals basiert. Hierauf wird in einer Einrichtung 54 festgestellt, ob eine Intensität von einem Block zum nächsten über einer Schwelle ansteigt. Wenn dies der Fall ist, werden die Spektralwerte des verarbeiteten Blocks so be- grenzt, dass ihre Intensität die Intensität des vorhergehenden Signalblocks nicht mehr als um die bestimmte relative oder absolute Schwelle überschreitet, derart, dass zumindest die insgesamte Dominanz von Transienten reduziert wird. Diese Begrenzung findet in einer Einrichtung 55 statt, die ausgebildet ist, um dann, wenn ein Bedarf nach einer Begrenzung erfasst worden ist, wenn also implizit ein Transient detektiert worden ist, entweder Spektralwerte individuell oder global zu begrenzen. Eine individuelle Begrenzung würde darin bestehen, dass für Spektralwerte oder für Bänder ein Energieanstieg berechnet wird und die Spektralwerte bzw. die Energiebänder nur bis zu einem maximalen Energieanstieg ansteigen und darüber hinausgehende Werte abgeschnitten werden.
Die Einrichtung 55 zum Begrenzen der Spektralwerte begrenzt also individuell oder global die Spektralwerte, wobei eine individuelle Begrenzung darin besteht, dass nur die Spektralwerte, die oberhalb einer Schwelle ansteigen, begrenzt und vorzugsweise auf diese Schwelle begrenzt werden, wäh- rend die anderen Spektralwerte, die nicht so stark ansteigen, nicht beeinflusst werden. Alternativ wird es jedoch in bestimmten Fällen günstiger sein und im Hinblick auf den Rechenaufwand einfacher sein, dann, wenn eine zu starke Zunahme festgestellt worden ist, sämtliche Spektralwerte um dasselbe absolute oder relative Maß zu begrenzen.
Hierauf wird es noch bevorzugt, eine Nachverarbeitung der begrenzten Spektralwerte mittels einer Einrichtung 56 zum Nachverarbeiten vorzunehmen, wobei diese Nachverarbeitung in einer Randomisierung, wie es in Fig. 5a beschrieben worden ist, oder auch in einer Prädiktion, wie es in Fig. 5b beschrieben worden ist, bestehen kann. Die Reihenfolge der Verarbeitung durch die Einrichtungen 55 und 56 kann auch
umgekehrt werden, derart, dass zunächst eine Randomisierung bzw. eine Prädiktionsverarbeitung mit einem Block durchgeführt wird, für den eine Transiente delektiert worden ist, wobei erst dann eine Intensitäts-Limitierung bzw. Begren- zung gemäß der Verarbeitung im Block 55 vorgenommen wird.
Im Hinblick auf Fig. 5c sei noch darauf hingewiesen, dass der Block Z/F eine Zeit/Frequenzbereich-Umsetzung 57 darstellt, wobei eine Umsetzung vom Zeit- in den Frequenzbe- reich auch eine Filterung mittels einer Analyse-Filterbank sein kann, derart, dass in diesem Fall die Spektraldarstellung aus Subbandsignalen und nicht einzelnen Spektralkomponenten besteht.
Nachfolgend wird ein speziell bevorzugtes Ausführungsbeispiel der vorliegenden Erfindung anhand von Fig. 7 dargelegt. Der Transientendetektor, wie er bei 11 in Fig. 1 gezeigt worden ist, umfasst bei diesem Ausführungsbeispiel eine Einrichtung 71 zum Berechnen des Hochfrequenz-Inhalts (HFC) für jeden Block, der eine Einrichtung zum Berechnen des Langzeit-HFC-72 nachgeschaltet ist. Ein Komparator 73 erfasst dann, ob es einen Transienten gibt, bzw. ob es einen Transienten-Zeitraum gibt, in dem ein Transient vorhanden ist. Insbesondere ist die Einrichtung 71 ausgebildet, um den gewichteten Hochfrequenz-Inhalt (HFC) für jeden Block des ursprünglichen linken Signals und des ursprünglichen rechten Signals zu berechnen. Alternativ kann auch ein HFC für jeden Kanal für sich berechnet werden. Der HFC ist die gewichtete Summe der Absolutwerte aller Frequenzlinien in einem Block, mit zunehmenden Gewichtungsfaktoren von niedrigeren zu höheren Frequenzen. Der HFC berechnet sich folgendermaßen :
HFC = Summe ( |X (f) | • w (f) ) ,
wobei X(f) die Spektralkoeffizienten für bestimmte Frequenzen sind, und wobei w(f) Gewichtungsfaktoren für bestimmte Frequenzen sind.
Dadurch, dass die Gewichtungsfaktoren von niedrigen zu höheren Frequenzen ansteigen, wird sichergestellt, dass im HFC-Wert die Energie in den höheren Frequenzkomponenten im Vergleich zu der Energie in den niedrigeren Frequenzkomponenten gewichtet wird. Eine Energie in höheren Spektralkomponenten ist nämlich ein besseres Indiz für einen Transient als eine Energie in niedrigeren Spektralkomponenten. In der Implementierung kann zur Berechnung des HFC auf sämtliche Spektralkomponenten zurückgegriffen werden. Alternativ kann die Berechnung des HFC auch ausgehend von einem Grenzwert durchgeführt werden, der etwa im mittleren Bereich des Spektrums liegt, so dass die niedrigen Spektralkoeffizienten in der Berechnung des HFC keine Rolle spielen.
Ferner wird ein Langzeit-HFC-Mittelwert, der als HFC bezeichnet wird, über wenigstens drei und vorzugsweise fünf vorausgehende Blöcke berechnet. Wird dann in der Einrichtung 73 bestimmt, dass der HFC im aktuellen Block um einen Faktor mehr als einen konstanten Faktor c von dem Langzeit- Mittelwert HFC abweicht, wobei als konstanter Faktor c eine Zahl > oder = 1,0 verwendet wird, so wird ein Transient detektiert. Die Schwelle hängt von der Art des gleitenden Mittelwerts ab. Ist der gleitende Mittelwert eine Mittel- wert, in dem die Vergangenheit gegenüber dem aktuelleren Block stärker gewichtet ist, also ein langsamer Mittelwert, so ist die Schwelle näher bei Eins als in dem Fall, in dem die Vergangenheit weniger stark in den gleitenden Mittelwert eingeht. Hier würde die Schwell weiter weg von Eins liegen.
Wenn ein Transient detektiert wird, wie es einer Einrichtung 74 zum Berechnen des Mittelwerts von der Einrichtung 73 signalisiert wird, wird der Mittelwert der vergangenen Absolutwerte jeder Frequenzlinie (Spektralkoeffizient) über einem definierten Zeitintervall, wie beispielsweise fünf Blöcken, berechnet. Zusätzlich wird ein Prädiktions- Zulässigkeits-Intervall Δmax für die extrapolierten Absolut-
werte berechnet. Die extrapolierten Absolutwerte variieren zufällig innerhalb dieses Intervalls Δmax. Um dies zu erreichen, wird eine Berechnung gemäß einer Gleichung durchgeführt, wie sie bei der Einrichtung 75 in Fig. 7 gezeigt ist. RN steht für Zufallszahl, Δmax stellt das Zulässig- keitsintervall dar, SW ist ein Spektralwert, wie er durch die Einrichtung 75 zum Berechnen berechnet wird, und SWn, ist der Spektralwert, der sich als Mittelwert aus mehreren vergangenen Blöcken ergibt, wie er durch den Block 74 be- rechnet worden ist. Die Einrichtung 75 ist daher ausgebildet, um folgende Gleichung auszuwerten:
SW = SWm+ RN-Δmax.
Um Wiederholungseffekte zu vermeiden, die auftreten können, wenn ein detektierter Transient zu lang ist, werden die extrapolierten Werte mit den ursprünglichen Werten übergeblendet, und zwar dann, wenn ein festes Zeitintervall verstrichen ist, wie beispielsweise, dass drei Blöcke von Syn- thesesignalen vorhanden waren, von denen dann wieder auf das ursprüngliche Signal zurückgegangen werden muss. Wird der Transientenzeitraum jedoch kürzer als drei Blöcke sein, so wird es bevorzugt, das Überblenden nicht durchzuführen, da dann davon ausgegangen wird, dass sich die extrapolier- ten Signale noch nicht so stark von den ursprünglichen Signalen entfernt haben. Das Überblenden kann entweder vor einer Umsetzung in den Zeitbereich oder vorzugsweise nach einer Umsetzung in den Zeitbereich stattfinden, wie es bei 76 in Fig. 7 dargestellt ist, um das Synthesesignal zu erhal- ten.
In einer Implementierung kann das erfindungsgemäße Konzept in einen Extraktionsprozess eines Umgebungssignals integriert werden oder als separater Nachverarbeitungsschritt unter Verwendung eines existierenden Umgebungssignals verwendet werden, das jedoch immer noch vor der erfindungsgemäßen Verarbeitung unerwünschte Transienten umfasst.
Die erfindungsgemäßen Verarbeitungsschritte können im Frequenzbereich pro Frequenzlinie oder in Subbändern durchgeführt werden. Sie können jedoch auch nur teilweise im Frequenzbereich typischerweise oberhalb eines bestimmten Fre- quenzlimits vorgenommen werden, oder aber auch im Zeitbereich ausschließlich oder in einer Kombination von Zeit- und Frequenzbereich durchgeführt werden.
Fig. 8 zeigt ein bevorzugtes Ausführungsbeispiel der vor- liegenden Erfindung, bei dem die Vorrichtung zum Erzeugen eines UmgebungsSignals nicht nur ausgebildet ist, um Umgebungssignale für einen Ausgang 80 für einen linken Umgebungskanal und einen Ausgang 81 für einen rechten Umgebungskanal zu erzeugen. Die erfindungsgemäße Vorrichtung umfasst ferner zusätzlich einen Hochmischer 82 zum Erzeugen von Signalen für den linken Kanal L, den rechten Kanal R, den Mitten-Kanal C und vorzugsweise auch noch für den LFE- Kanal, wie es in Fig. 8 gezeigt ist. Sowohl die Kombination aus Transienten-Detektor 12, Synthesegenerator 14 und Signalsubstituierer 16, also der Hochmischer 82 werden von einem Decodierer 84 gespeist. Der Decodierer 84 ist ausgebildet, um einen Bitstrom 85 zu empfangen und zu verarbeiten, um ausgangsseitig ein Mono-Signal oder ein Stereo- Signal 86 zu liefern. Der Bitstrom kann ein MP3-Bitstrom oder eine MP3-Datei sein, oder er kann eine AAC-Datei sein, oder kann auch eine Darstellung eines parametrisch codierten Multikanalsignals sein. So könnte der Bitstrom 85 beispielsweise eine parametrische Darstellung des linken Kanals, des rechten Kanals und des Center-Kanals sein, wobei ein Übertragungskanal und mehrere Cues für den zweiten und den dritten Kanal enthalten sind, wobei diese Verarbeitung aus der BCC-Multikanalverarbeitung bekannt ist. Dann wäre der Decodierer 84 ein BCC-Decodierer, der nicht nur ein Mono- oder ein Stereo-Signal liefert, sondern der sogar ein 3-Kanal-Signal liefert, das jedoch noch keine Daten über die beiden Surround-Kanäle Ls, Rs umfasst. In einer Implementierung wird das Untersuchungssignal somit in diesem Fall ein Mono-Signal, ein Stereo-Signal oder sogar ein MuI-
tikanal-Signal sein, das jedoch keine eigenen Lautsprechersignale für die Surround-Kanäle Ls, Rs umfasst.
Es sei darauf hingewiesen, dass man entweder dasselbe Am- bience-Signal für beide Surround-Kanäle oder für jeden Sur- round-Kanal ein eigenes Signal berechnen kann. Im ersten Fall wird z. B. das Untersuchungssignal bzw. das Umgebungssignal von einer Summe aus linkem und rechten Kanal abgeleitet. Im anderen Fall wird z. B. vom linken Kanal das Umgebungssignal für den linken Surround-Kanal berechnet und wird vom rechten Kanal das Umgebungssignal für den rechten Kanal berechnet.
Abhängig von der Gegebenheit, kann das erfindungsgemäße Verfahren in Hardware oder in Software implementiert werden. Die Implementierung kann auf einem digitalen Speichermedium, insbesondere einer Diskette oder CD mit elektronisch auslesbaren Steuersignalen erfolgen, die so mit einem programmierbaren Computersystem zusammenwirken können, dass das Verfahren ausgeführt wird. Allgemein besteht die Erfindung somit auch in einem Computer-Programm-Produkt mit einem auf einem maschinenlesbaren Träger gespeicherten Programmcode zur Durchführung des erfindungsgemäßen Verfahrens, wenn das Computer-Programm-Produkt auf einem Rechner abläuft. In anderen Worten ausgedrückt, kann die Erfindung somit als ein Computer-Programm mit einem Programmcode zur Durchführung des Verfahrens realisiert werden, wenn das Computer-Programm auf einem Computer abläuft.