WO2006102991A1

WO2006102991A1 - Vorrichtung und verfahren zum erzeugen eines datenstroms und zum erzeugen einer multikanal-darstellung

Info

Publication number: WO2006102991A1
Application number: PCT/EP2006/002369
Authority: WO
Inventors: Wolfgang Fiesel; Matthias Neusinger; Harald Popp; Stephan Geyersberger
Original assignee: Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.
Priority date: 2005-03-30
Filing date: 2006-03-15
Publication date: 2006-10-05
Also published as: CN101189661B; CA2603027C; JP2008538239A; DE102005014477A1; CN101189661A; TWI318845B; AU2006228821A1; EP1864279A1; US7903751B2; AU2006228821B2; TW200644704A; MY139836A; EP1864279B1; DE502006003997D1; HK1111259A1; ATE434253T1; US20080013614A1; JP5273858B2; CA2603027A1

Abstract

Vorrichtung und Verfahren zum Erzeugen eines Datenstroms und zum Erzeugen einer Multikanal-Darstellung Zusammenfassung Zur zeitlichen Synchronisierung eines Datenstroms mit Mehrkanal-Zusatzdaten und eines Datenstroms mit Daten über wenigstens einen Basiskanal (3) wird auf Encodierer-Seite für den wenigstens einen Basiskanal (3) eine Fingerabdruck-Informationen-Berechnung (2) durchgeführt, um die Fingerabdruck-Informationen in zeitlichem Zusammenhang zu den Mehrkanal-Zusatzdaten in einen Datenstrom einzuführen (4). Auf Decodiererseite werden Fingerabdruckinformationen aus dem wenigstens einen Basiskanal berechnet und zusammen mit den aus dem Datenstrom extrahierten Fingerabdruckinformationen verwendet, um z. B. mittels einer Korrelation einen zeitlichen Versatz zwischen dem Datenstrom mit den Mehrkanal-Zusatzinformationen und dem Datenstrom mit dem wenigstens einen Basiskanal zu berechnen und zu kompensieren, um eine synchronisierte Multikanal-Darstellung zu erhalten.

Description

Vorrichtung und Verfahren zum Erzeugen eines Datenstroms und zum Erzeugen einer Multikanal-Darstellung

Beschreibung

Die vorliegende Erfindung bezieht sich auf die Audiosignal- Verarbeitung und insbesondere auf Multikanal-

Verarbeitungstechniken, die darauf basieren, dass auf der

Basis wenigstens eines Basiskanals bzw. Downmix-Kanals und

Mehrkanal-Zusatzinformationen eine Multikanal-

Rekonstruktion eines ursprünglichen Multikanalsignals er- zeugt wird.

Derzeit in der Entwicklung befindliche Technologien ermöglichen eine immer effizientere Übertragung von Audiosignalen durch Datenreduktion, aber auch eine Steigerung des Hörgenusses durch Erweiterungen, wie beispielsweise durch den Einsatz der Mehrkanaltechnik. Beispiele für eine solche Erweiterung der üblichen Übertragungstechniken sind in jüngster Zeit unter dem Namen Binaural Cue Coding (BCC) sowie „Spatial Audio Coding" bekannt geworden, wie es in J. Herre, C. Faller, S. Disch, C. Ertel, J. Hubert, A. Hoel- zer, K. Linzmeier, C. Sprenger, P. Kroon: „Spatial Audio Coding: Next-Generation Efficient and Compatible Coding of Multi-Channel Audio", 117th. AES Convention, San Francisco 2004, Preprint 6186, beschrieben ist.

Nachfolgend wird näher auf verschiedene Techniken zum Reduzieren der Datenmenge, die zur Übertragung eines Multika- nal-Audiosignals benötigt wird, eingegangen.

Solche Techniken werden Joint-Stereo-Techniken genannt. Zu diesem Zweck wird auf Fig. 3 verwiesen, die eine Joint- Stereo-Vorrichtung 60 zeigt. Diese Vorrichtung kann eine Vorrichtung sein, die beispielsweise die Intensity-Stereo- (IS-) Technik oder die Binaural Cue Codiertechnik (BCC) implementiert. Ein solches Gerät empfängt üblicherweise als Eingangssignal zumindest zwei Kanäle CHI, CH2, .... CHn, und gibt einen einzigen Trägerkanal sowie parametrische Multikanalinformationen aus. Die parametrischen Daten sind so definiert, dass in einem Decodierer eine Approximation eines Ursprungskanals (CHI, CH2, ..., CHn) berechnet werden kann.

Normalerweise wird der Trägerkanal Subband-Abtastwerte, Spektralkoeffizienten, Zeitbereichsabtastwerte etc. umfassen, die eine relativ feine Darstellung des zugrundeliegenden Signals liefern, während die parametrischen Daten keine solchen Abtastwerte oder Spektralkoeffizienten umfassen, sondern Steuerparameter zum Steuern eines bestimmten Rekonstruktionsalgorithmus, wie beispielsweise Gewichten durch Multiplizieren, durch Zeitverschieben, durch Frequenzverschieben, etc. Die parametrischen Multikanalinformationen umfassen daher eine relativ grobe Darstellung des Signals oder des zugeordneten Kanals. In Zahlen ausgedrückt beträgt die Menge an Daten, die von einem Trägerkanal benötigt wird, eine Menge von etwa 60 bis 70 kBit/s, während die Menge an Daten, die durch parametrische Seiteninformationen für einen Kanal benötigt wird, im Bereich von 1,5 bis 2,5 kBit/s ist. Es sei darauf hingewiesen, dass die vorstehenden Zahlen für komprimierte Daten gelten. Selbstverständlich benötigt ein nicht-komprimierter CD-Kanal Datenraten im Bereich von etwa dem Zehnfachen. Ein Beispiel für parametrische Daten sind die bekannten Skalenfaktoren, Intensi- ty-Stereo-Informationen oder BCC-Parameter, wie es nachfolgend dargelegt wird.

Die Technik der Intensity-Stereo-Codierung ist in dem AES- Preprint 3799, „Intensity Stereo Coding", J. Herre, K. H. Brandenburg, D. Lederer, Februar 1994, Amsterdam beschrieben. Allgemein basiert das Konzept von Intensity Stereo auf einer Hauptachsentransformation, die auf Daten beider stereophoner Audiokanäle durchzuführen ist. Wenn die meisten Datenpunkte um die erste Hauptachse herum konzentriert sind, kann ein Codiergewinn erreicht werden, indem beide Signale um einen bestimmten Winkel gedreht werden, bevor die Codierung stattfindet. Dies ist jedoch nicht immer für reale stereophone Reproduktionstechniken gegeben. Daher wird diese Technik dahingehend modifiziert, dass die zweite orthogonale Komponente von der Übertragung in dem Bitstrom ausgeschlossen wird. Somit bestehen die rekonstruierten Signale für den linken und den rechten Kanal aus unter- schiedlich gewichteten oder skalierten Versionen desselben übertragenen Signals. Dennoch unterscheiden sich die rekonstruierten Signale in ihrer Amplitude, sie sind jedoch i- dentisch im Hinblick auf ihre Phaseninformationen. Die E- nergie-Zeit-Hüllkurven beider ursprünglicher Audiokanäle werden jedoch durch die selektive Skalierungsoperation beibehalten, die typischerweise auf frequenzselektive Art und Weise arbeitet. Dies entspricht der menschlichen Wahrnehmung des Schalls bei hohen Frequenzen, wo die dominanten räumlichen Informationen durch die Energiehüllkurven be- stimmt werden.

Zusätzlich wird bei praktischen Implementierungen das übertragene Signal, d. h. der Trägerkanal aus dem Suπunensignal des linken Kanals und des rechten Kanals anstatt der Rota- tion beider Komponenten erzeugt. Ferner wird diese Verarbeitung, d. h. das Erzeugen von Intensity-Stereo-Parametern zum Durchführen der Skalierungsoperationen frequenzselektiv durchgeführt, d. h. unabhängig für jedes Skalenfaktorband, d. h. für jede Codiererfrequenzpartition. Vorzugsweise wer- den beide Kanäle kombiniert, um einen kombinierten oder „Träger^M-Kanal und zusätzlich zu dem kombinierten Kanal die Intensity-Stereo-Informationen zu bilden. Die Intensity- Stereo-Informationen hängen von der Energie des ersten Kanals, der Energie des zweiten Kanals oder der Energie des kombinierten Kanals ab.

Die BCC-Technik ist in dem AES-Convention-Paper 5574 „Bi- naural Cue Coding applied to stereo and multiChannel audio compression", T. Faller, F. Baumgarte, Mai 2002, München, beschrieben. Bei der BCC-Codierung wird eine Anzahl von Audioeingangskanälen in eine Spektraldarstellung umgewandelt, und zwar unter Verwendung einer DFT-basierten Transformati- on mit überlappenden Fenstern. Das resultierende Spektrum wird in nicht-überlappende Abschnitte eingeteilt, von denen jeder einen Index hat. Jede Partition hat eine Bandbreite proportional zu der äquivalenten Rechteckbandbreite (ERB) . Die Inter-Kanal-Pegelunterschiede (ICLD; ICLD = Inter Chan- nel Level Differences) und die Interkanal-Zeitunterschiede (ICTD; ICTD = Inter Channel Time Differences) werden für jede Partition und für jeden Frame k ermittelt. Die ICLD und ICTD werden quantisiert und codiert, um schließlich als Seiteninformationen in einen BCC-Bitstrom zu kommen. Die Interkanal-Pegelunterschiede und die Interkanal- Zeitunterschiede sind für jeden Kanal relativ zu einem Referenzkanal gegeben. Dann werden die Parameter gemäß vorbestimmter Formeln berechnet, die von den bestimmten Partiti- onen des zu verarbeitenden Signals abhängen.

Auf Decodiererseite empfängt der Decodierer typischerweise ein Monosignal und den BCC-Bitstrom. Das Monosignal wird in den Frequenzbereich transformiert und in einen Raumsyntheseblock (Spatial-Syntheseblock) eingegeben, der auch deco- dierte ICLD- und ICTD-Werte empfängt. In dem Spatial- Syntheseblock werden die BCC-Parameter (ICLD und ICTD) verwendet, um eine Gewichtungsoperation des Monosignals durchzuführen, um die Multikanalsignale zu synthetisieren, die, nach einer Frequenz-/Zeit-ümwandlung eine Rekonstruktion des ursprünglichen Multikanal-Audiosignals darstellen.

Im Fall von BCC ist das Joint-Stereo-Modul 60 wirksam, um die kanalseitigen Informationen so auszugeben, dass die parametrischen Kanaldaten quantisierte und codierte ICLD- o- der ICTD-Parameter sind, wobei einer der ursprünglichen Kanäle als Referenzkanal zum Codieren der Kanalseiteninformationen verwendet wird. Normalerweise wird der Trägersignal aus der Summe der teilnehmenden Ursprungskanäle gebildet.

Natürlich liefern die obigen Techniken nur eine Monodar- Stellung für einen Decodierer, der nur den Trägerkanal verarbeiten kann, der jedoch nicht in der Lage ist, die parametrischen Daten zur Erzeugung von einer oder mehreren Approximationen von mehr als einem Eingangskanal zu verarbeiten.

Die BCC-Technik ist auch in dert üS-Patentveröffentlichungen US 2003/0219130 Al, US 2003/0026441 Al und US 2003/0035553 Al beschrieben. Zusätzlich wird auf die Fachveröffentlichung „Binaural Cue Coding. Part II: Scheines and Applicati- ons^λΛ, T. Faller und F. Baumgarte, IEEE Trans. On Audio and Speech Proc. Bd. 11, Nr. 6, November 2003 verwiesen.

Nachfolgend wird ein typisches BCC-Schema zur Multikanalau- diocodierung detaillierter dargestellt, und zwar Bezug neh- mend auf die Fig. 4 bis 6.

Fig. 5 zeigt ein solches BCC-Schema zur Codierung/Übertragung von Multikanalaudiosignalen. Das Multika- nalaudioeingangssignal an einem Eingang 110 eines BCC- Codierers 112 wird in einem sogenannten Downmix-Block 114 heruntergemischt. Bei diesem Beispiel ist das ursprüngliche Multikanalsignal an dem Eingang 110 ein 5-Kanal-Surround- Signal mit einem vorderen linken Kanal, einem vorderen rechten Kanal, einem linken Surround-Kanal, einem rechten Surround-Kanal und einem Mittenkanal. Bei dem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung erzeugt der Downmix-Block 114 ein Summensignal durch eine einfache Addition dieser fünf Kanäle in ein Monosignal.

Andere Downmixing-Schemen sind in der Technik bekannt, so dass unter Verwendung eines Multikanal-Eingangssignals ein Downmix-Kanal mit einem einzigen Kanal erhalten wird. Dieser einzige Kanal wird an einer Summensignalleitung 115 ausgegeben. Eine Seiteninformation, die von dem BCC- Analyseblock 116 erhalten wird, wird auf einer Seiteninformationsleitung 117 ausgegeben.

Bei dem BCC-Analyseblock werden Interkanal- Pegelunterschiede (ICLD) und Interkanal-Zeitunterschiede (ICTD) berechnet, wie es vorstehend dargestellt worden ist. Neuerdings ist der BCC-Analyseblock 116 auch in der Lage, Interkanal-Korrelationswerte (ICC-Werte) zu berechnen. Das Summensignal und die Seiteninformationen werden in einem quantisierten und codierten Format zu einem BCC-Decodierer 120 übertragen. Der BCC-Decodierer zerlegt das übertragene Summensignal in eine Anzahl von Subbändern und führt Ska- lierungen, Verzögerungen und andere Verarbeitungsschritte aus, um die Subbänder der auszugebenden Multikanal- Audiokanäle zu liefern. Diese Verarbeitung wird so durchgeführt, dass die ICLD-, ICTD- und ICC-Parameter (Cues) eines rekonstruierten Multikanalsignals am Ausgang 121 mit den entsprechenden Cues für das ursprüngliche Multikanalsignal am Eingang 110 in dem BCC-Codierer 112 übereinstimmen. Zu diesem Zweck umfasst der BCC-Decodierer 120 einen BCC- Syntheseblock 122 und einen Seiteninformationenüberarbei- tungsblock 123.

Nachfolgend wird der interne Aufbau des BCC-Syntheseblocks 122 Bezug nehmend auf Fig. 6 dargestellt. Das Summensignal auf der Leitung 115 wird in eine Zeit-/Frequenz- ümwandlungseinheit oder Filterbank FB 125 eingespeist. Am Ausgang des Blocks 125 existiert eine Anzahl N von Subband- Signalen oder, in einem Extremfall, ein Block von Spektralkoeffizienten, wenn die Audio-Filterbank 125 eine 1:1- Transformation durchführt, d. h. eine Transformation, die N Spektralkoeffizienten aus N Zeitbereichsabtastwerten er- zeugt.

Der BCC-Syntheseblock 122 umfasst ferner eine Verzögerungsstufe 126, eine Pegelmodifikationsstufe 127, eine Korrela- tionsverarbeitungsstufe 128 und eine Inversfilterbankstufe IFB 129. Am Ausgang der Stufe 129 kann das rekonstruierte Multikanalaudiosignal mit beispielsweise fünf Kanälen im Falle eines 5-Kanal-Surroundsystems zu einem Satz von Laut- Sprechern 124 ausgegeben werden, wie sie in Fig. 5 oder Fig. 4 dargestellt sind.

Das Eingangssignal sn wird in den Frequenzbereich oder den Filterbankbereich mittels des Elements 125 umgewandelt. Das Signal, das vom Element 125 ausgegeben wird, wird derart kopiert, dass mehrere Versionen desselben Signals erhalten werden, wie es durch den Kopierknoten 130 dargestellt ist. Die Anzahl der Versionen des ursprünglichen Signals ist gleich der Anzahl der Ausgangskanäle in dem Ausgangssignal. Dann wird jede Version des ursprünglichen Signals am Knoten 130 einer bestimmten Verzögerung di, d₂, ... , di, ... ds unterzogen. Die Verzögerungsparameter werden durch den Seiteninformationsverarbeitungsblock 123 in Fig. 5 berechnet und von den Interkanal-Zeitunterschieden, wie sie durch den BCC-Analyseblock 116 von Fig. 5 berechnet worden sind, abgeleitet.

Dasselbe gilt für die Multiplikationsparameter ai, a₂, ..., ai, ... , ajj, die ebenfalls durch den Seiteninformationsver- arbeitungsblock 123 basierend auf den Interkanal- Pegelunterschieden, wie sie durch den BCC-Analyseblock 116 berechnet worden sind, berechnet werden.

Die durch den BCC-Analyseblock 116 berechneten ICC- Parameter werden zum Steuern der Funktionalität des Blocks

128 verwendet, so dass bestimmte Korrelationen zwischen den verzögerten und in ihren Pegeln manipulierten Signalen an den Ausgängen des Blocks 128 erhalten werden. Es sei hier darauf hingewiesen, dass die Reihenfolge der Stufen 126, 127, 128 von der in Fig. 6 gezeigten Reihenfolge abweichen kann. Es sei darauf hingewiesen, dass bei einer rahmenweisen Verarbeitung des Audiosignals auch die BCC-Analyse rahmenweise durchgeführt wird, also zeitlich variabel, und dass ferner eine frequenzweise BCC-Analyse erhalten wird, wie es durch die Filterbank-Aufteilung aus Fig. 6 ersichtlich ist. Dies bedeutet, dass die BCC-Parameter für jedes Spektralband erhalten werden. Dies bedeutet ferner, dass in dem Fall, in dem die Audiofilterbank 125 das Eingangssignal in beispielsweise 32 Bandpasssignale zerlegt, der BCC- Analyseblock einen Satz von BCC-Parametern für jedes der 32 Bänder erhält. Natürlich führt der BCC-Syntheseblock 122 von Fig. 5, der detailliert in Fig. 6 dargestellt ist, eine Rekonstruktion durch, die auch auf den beispielhaft genannten 32 Bändern basiert.

Nachfolgend wird Bezug nehmend auf Fig. 4 ein Szenario dargestellt, das dazu verwendet wird, um einzelne BCC- Parameter zu bestimmen. Normalerweise können die ICLD-, ICTD- und ICC-Parameter zwischen Kanalpaaren definiert wer- den. Es wird jedoch bevorzugt, die ICLD- und ICTD-Parameter zwischen einem Referenzkanal und jedem anderen Kanal zu bestimmen. Dies ist in Fig. 4A dargestellt.

ICC-Parameter können auf verschiedene Arten und Weisen de- finiert werden. Allgemein gesagt kann man ICC-Parameter in dem Codierer zwischen allen möglichen Kanalpaaren bestimmen, wie es in Fig. 4B dargestellt ist. Es wurde jedoch vorgeschlagen, nur ICC-Parameter zwischen den stärksten zwei Kanälen zu einem Zeitpunkt zu berechnen, wie es in Fig. 4C dargestellt ist, wo ein Beispiel gezeigt ist, bei dem zu einem Zeitpunkt ein ICC-Parameter zwischen den Kanälen 1 und 2 berechnet wird, und zu einem anderen Zeitpunkt ein ICC-Parameter zwischen den Kanälen 1 und 5 berechnet wird. Der Decodierer synthetisiert dann die Interkanalkor- relation zwischen den stärksten Kanälen in dem Decoder und verwendet bestimmte heuristische Regeln zum Berechnen und Synthetisieren der Interkanalkohärenz für die restlichen Kanalpaare. Bezüglich der Berechnung beispielsweise der Multiplikationsparameter ai, a_N basierend auf den übertragenen ICLD- Parametern wird auf das AES-Convention-Paper Nr. 5574 Bezug genommen. Die ICLD-Parameter stellen eine Energieverteilung eines ursprünglichen Mehrkanalsignals dar. Ohne Verlust der Allgemeinheit wird es bevorzugt, wie es in Fig. 4A gezeigt, vier ICLD-Parameter zu nehmen, die die Energiedifferenz zwischen den jeweiligen Kanälen und dem vorderen linken Ka- nal darstellen. In dem Seiteninformationsverarbeitungsblock 122 werden die Multiplikationsparameter ai, ..., a« von den ICLD-Parametern so abgeleitet, dass die gesamte Energie aller rekonstruierter Ausgangskanäle dieselbe ist (oder proportional zu der Energie des übertragenen Summensignals ist) .

Allgemein findet bei solchen insbesondere parametrischen Multikanalcodierschemen eine Erzeugung wenigstens eines Basiskanals sowie der Seiteninformationen statt, wie es aus Fig. 5 ersichtlich ist. Typischerweise werden Blockbasierte Schemen verwendet, bei denen, wie es ebenfalls aus Fig. 5 ersichtlich ist, das ursprüngliche Multikanalsignal am Eingang 110 einer Block-Verarbeitung durch eine Block- Stufe 111 unterzogen wird, derart, dass aus einem Block von beispielsweise 1152 Abtastwerten das Downmix-Signal bzw. Summensignal bzw. der wenigstens eine Basiskanal für diesen Block gebildet wird, während gleichzeitig für diesen Block durch die BCC-Analyse die entsprechenden Multikanal- Parameter erzeugt werden. Nach dem Downmix-Kanal wird das Summensignal typischerweise wieder mit einem Blockbasierten Codierer, wie beispielsweise einem MP3-Codierer oder einem AAC-Codierer codiert, um eine weitere Datenra- tenreduktion zu erhalten. Genauso werden die Parameterdaten codiert, beispielsweise durch Differenzcodierung, Skalie- rung/Quantisierung und Entropie-Codierung.

Dann, am Ausgang des gesamten Codierers, der also den BCC- Codierer 112 sowie eine nachgeschalteten Basiskanal- Codierer umfasst, wird ein gemeinsamer Datenstrom geschrieben, in dem ein Block des wenigstens einen Basiskanals auf einen früheren Block des wenigstens einen Basiskanals folgt, und in dem die codierten Mehrkanal- Zusatzinformationen ebenfalls beispielsweise durch einen Bitstrommultiplexer eingetastet werden.

Diese Eintastung findet so statt, dass der Datenstrom aus Basiskanaldaten und Mehrkanal-Zusatzinformationen immer ei- nen Block von Basiskanaldaten umfasst und in Zuordnung zu diesem Block einen Block von Mehrkanal-Zusatzdaten umfasst, die dann z. B. einen gemeinsamen Übertragungsframe bilden. Dieser Übertragungsframe wird dann über eine Übertragungsstrecke zu einem Decodierer geschickt.

Der Decodierer umfasst eingangsseitig wieder einen Daten- strom-Demultiplexer, um einen Frame des Datenstroms in einen Block von Basiskanaldaten und einen Block von zugehörigen Mehrkanal-Zusatzinformationen zu splitten. Dann wird der Block von Basisdaten z. B. durch einen MP3-Decodierer oder einen ÄAC-Decodierer decodiert. Dieser Block von decodierten Basisdaten wird dann zusammen mit dem Block von gegebenenfalls ebenfalls decodierten Mehrkanal- Zusatzinformationen dem BCC-Decodierer 120 zugeführt.

Damit ist aufgrund der gemeinsamen Übertragung von Basiskanaldaten und Zusatzinformationen die zeitliche Zuordnung der Zusatzinformationen zu den Basiskanaldaten automatisch festgelegt und durch einen Decodierer, der frameweise ar- beitet, ohne weiteres wieder herzustellen. Der Decodierer findet also aufgrund der gemeinsamen Übertragung der beiden Datenarten in einem einzigen Datenstrom gewissermaßen automatisch die einem Block von Basiskanaldaten zugehörigen Zusatzinformationen, damit eine Multikanal-Rekonstruktion mit hoher Qualität möglich ist. Es wird also keine Problematik auftreten, dass die Mehrkanal-Zusatzinformationen einen zeitlichen Versatz zu den Basiskanaldaten haben. Würde jedoch ein solcher Versatz vorhanden sein, so würde dies zu einer erheblichen Qualitätseinbuße der Multikanal- Rekonstruktion führen, da dann ein Block von Basiskanaldaten zusammen mit Mehrkanal-Zusatzdaten verarbeitet wird, obgleich diese Mehrkanal-Zusatzdaten gar nicht zu dem Block von Basisdaten gehören, sondern z. B. zu einem früheren o- der späteren Block.

Ein solches Szenario, bei dem die Zuordnung zwischen Mehrkanal-Zusatzdaten und Basiskanaldaten nicht mehr gegeben ist, wird dann auftreten, wenn kein gemeinsamer Datenstrom geschrieben wird, sondern wenn ein eigener Datenstrom mit den Basiskanaldaten existiert und ein anderer davon getrennter Datenstrom mit den Mehrkanal-Zusatzinformationen vorhanden ist. Eine solche Situation kann beispielsweise bei einem sequenziell arbeitenden Übertragungssystem, entstehen, wie beispielsweise Rundfunk oder Internet. Hier wird das zu übertragende Audioprogramm in Audiobasisdaten (Mono- oder Stereodownmix-Audiosignal) und Erweiterungsdaten (Mehrkanal-Zusatzinformationen) aufgeteilt, welche ein- zeln oder kombiniert ausgestrahlt werden. Selbst wenn die beiden Datenströme noch von einem Sender zeitlich synchron ausgesendet werden, können auf dem Übertragungsweg zum Empfänger viele „Überraschungen" lauern, die dazu führen, dass der im Hinblick auf die Anzahl von Bits wesentlich kompak- tere Datenstrom mit den Mehrkanal-Zusatzdaten z. B. schneller zu einem Empfänger übertragen wird als der Datenstrom mit den Basiskanaldaten.

Ferner wird es bevorzugt, Codierer/Decodierer mit nicht- konstanter Ausgangsdatenrate einzusetzen, um eine besonders gute Biteffizienz zu erreichen. Hier ist nicht vorhersehbar, wie lange die Decodierung eines Blocks von Basiskanaldaten dauert. Ferner hängt diese Verarbeitung auch von den tatsächlich eingesetzten Hardware-Komponenten zum Decodie- ren ab, wie sie beispielsweise in einem PC oder digitalen Empfänger vorhanden sein müssen. Ferner existieren auch System- bzw. algorithmisch-inhärente Unscharfen, da insbesondere bei der Bitsparkassentechnik zwar im Mittel eine konstante Ausgangsdatenrate erzeugt wird, allerdings, lokal betrachtet, Bits, die für einen besonders gut zu codierenden Block nicht benötigt werden, angespart werden, um für einen anderen Block, der besonders schwer zu codieren ist, weil das Audiosignal z. B. besonders transient ist, aus der Bitsparkasse wieder entnommen zu werden.

Andererseits hat die Trennung des oben beschriebenen gemeinsamen Datenstroms in zwei einzelne Datenströme besonde- re Vorteile. So ist ein klassischer Empfänger, also z. B. ein reiner Mono- oder Stereoempfänger jederzeit unabhängig von Inhalt und Version der Mehrkanal-Zusatzinformationen in der Lage, die Audiobasisdaten zu empfangen und wiederzugeben. Die Auftrennung in separate Datenströme sichert also die Rückwärtskompatibilität des gesamten Konzepts.

Dagegen kann ein Empfänger der neueren Generation diese Mehrkanal-Zusatzdaten auswerten und mit dem Audiobasisdaten so kombinieren, dass dem Nutzer die vollständige Erweite- rung, hier der Mehrkanalton, zur Verfügung gestellt werden kann.

Ein besonders interessantes Anwendungsszenario der getrennten Übertragung von Audiobasisdaten und Erweiterungsdaten liegt beim digitalen Rundfunk. Hier kann mit Hilfe der Mehrkanal-Zusatzinformationen das bisher ausgestrahlte Stereoaudiosignal durch geringen zusätzlichen Übertragungsaufwand auf ein Mehrkanalformat, wie beispielsweise 5.1, erweitert werden. Hier erzeugt der Programmanbieter auf der Senderseite aus Mehrkanaltonquellen, wie sie beispielsweise auf DVD-Audio/Video zu finden sind, die Mehrkanalzusatzinformationen. Anschließend werden diese Mehrkanalzusatzin- formationen parallel zum wie bisher ausgestrahlten Audiostereosignal übertragen, welches nun jedoch nicht einfach ein Stereosignal ist, sondern zwei Basiskanäle umfasst, die durch irgendeinen Downmix von dem Multikanalsignal abgeleitet worden sind. Für den Hörer hört sich das Stereosignal der beiden Basiskanäle jedoch wie ein übliches Stereosignal an, da bei der Multikanal-Analyse letztendlich ähnliche Schritte vorgenommen werden, wie sie von einem Tonmeister, der ein Stereosignal aus mehreren Tracks abgemischt hat, vorgenommen worden sind.

Ein großer Vorteil der Auftrennung besteht in der Kompatibilität mit den bisher bestehenden digitalen Rundfunkübertragungssystemen. Ein klassischer Empfänger, der diese Zusatzinformationen nicht auswerten kann, wird wie bisher das Zweikanaltonsignal ohne irgendwelchen qualitativen Einschränkungen empfangen und wiedergeben können. Ein Empfänger neuerer Bauart hingegen kann zusätzlich zum bisher empfangenen Stereotonsignal diese Mehrkanalinformation auswerten, decodieren und das ursprüngliche 5.1-Mehrkanalsignal daraus rekonstruieren.

Um die gleichzeitige Übertragung der Mehrkanalzusatzinformation als Ergänzung zum bisher verwendeten Stereosignal zu ermöglichen, kann man, wie es bereits ausgeführt worden ist, für ein digitales Rundfunksystem die Mehrkanalzusatzinformationen mit dem codierten Downmixaudiosignal kombinieren, also dass es einen einzigen Datenstrom gibt, der dann gegebenenfalls skalierbar ist und ebenfalls von einem existierenden Empfänger gelesen werden kann, der jedoch die zusätzlichen Daten bezüglich der Mehrkanal- Zusatzinformationen ignoriert.

Der Empfänger sieht also nur einen (gültigen) Audiodatenstrom und kann, wenn er ein Empfänger der neueren Bauart ist, aus dem Datenstrom ferner die Mehrkanaltonzusatzinfor- mationen über einen entsprechend vorgeschalteten Datenverteiler wieder synchron zu dem zugehörigen Audiodatenblock extrahieren, decodieren und als 5.1-Mehrkanalton ausgeben.

Nachteilig an diesem Ansatz ist jedoch die Erweiterung der vorhandenen Infrastruktur bzw. der vorhandenen Datenwege, sodass sie statt wie bisher lediglich die Stereoaudiosignale die aus Downmixsignalen und Erweiterung kombinierten Da- tensignale transportieren können. Wenn man also das Stan- dardübertragungsformat für Stereodaten verlässt, kann die Synchronität auch bei Rundfunkübertragungen durch den gemeinsamen Datenstrom gewährleistet werden.

Allerdings ist es für eine Durchsetzung am Markt höchst problematisch, wenn bestehende Rundfunk-Infrastrukturen geändert werden müssen, wenn also die Problematik nicht nur auf Seiten der Decodierer existiert, sondern auch auf Sei- ten der Rundfunksender und der normierten Übertragungsprotokolle. Dieses Konzept ist also aufgrund der Problematik, ein einmal standardisiertes und implementiertes System wieder zu ändern, sehr nachteilhaft.

Die andere Alternative besteht darin, die Mehrkanal- Zusatzinformationen nicht an das verwendete Audiocodierungssystem zu koppeln und daher nicht in den eigentlichen Audiodatenstrom einzutasten. In diesem Fall erfolgt die Ü- bertragung über einen gesonderten, aber zeitlich nicht not- wendigerweise synchronisierten parallelen digitalen Zusatzkanal. Diese Situation kann dann auftreten, wenn die Down- mixdaten in unreduzierter Form, beispielsweise als PCM- Daten per AES/EBÜ-Datenformat durch eine in Studios vorhandene übliche Audioverteilungsinfrastruktur geleitet werden. Diese Infrastrukturen sind darauf ausgerichtet, Audiosignale zwischen diversen Quellen digital zu verteilen. Hierzu werden normalerweise als „Kreuzschienen" bekannte Funktionseinheiten eingesetzt. Alternativ oder zusätzlich werden Audiosignale auch im PCM-Forraat zu Zwecken der Klangrege- lung und Dynamikkompression verarbeitet. Alle diese Schritte führen auf einem Weg vom Sender zum Empfänger zu unkalkulierbaren Verzögerungen.

Andererseits ist die getrennte Übertragung von Basiskanal- daten und Mehrkanal-Zusatzinformationen besonders interessant, da bestehende Stereo-Infrastrukturen nicht verändert werden müssen, also die bezüglich der ersten Möglichkeit beschriebenen Nachteile der Nicht-Standardkonformität hier nicht auftreten. Ein Rundfunksystem muss lediglich einen zusätzlichen Kanal senden, jedoch nicht die Infrastruktur für den bereits existierenden Stereokanal verändern. Der Zusatzaufwand wird daher gewissermaßen allein auf Seiten der Empfänger getrieben, jedoch so, dass Rückwärtskompatibilität besteht, dass also ein Benutzer, der einen neuen Empfänger hat, eine bessere Klangqualität bekommt als ein Benutzer, der einen alten Empfänger hat.

Wie es bereits ausgeführt worden ist, kann die Größenordnung der zeitlichen Verschiebung nicht mehr aus dem empfangenen Audiosignal und den Zusatzinformationen ermittelt werden. Damit ist eine zeitlich korrekte Rekonstruktion und Zuordnung des Mehrkanalsignals im Empfänger nicht mehr ge- währleistet. Ein weiteres Beispiel für ein solches Verzögerungs-Problem besteht, wenn ein bereits laufendes zwei- kanaliges Übertragungssystem auf Multikanal-Übertragung erweitert werden soll, beispielsweise in einem Empfänger eines digitalen Radios. Hier ist es oft der Fall, dass die Decodierung des Downmixsignals mittels eines im Empfänger bereits vorhandenen Zwei-Kanal-Audiodecodierers geschieht, dessen Verzögerungszeit nicht bekannt ist und damit auch nicht ausgeglichen werden kann. Im Extremfall kann das Downmix-Audiosignal den Multikanal-Rekonstruktions- Audiodecodierer sogar über eine Übertragungskette erreichen, die analoge Teile enthält, d. h. dass einem Punkt eine Digital/Analog-ümsetzung vorgenommen und nach einer weiteren Speicherung/Übertragung wieder eine Analog/Digital- Umsetzung stattfindet. Etwas derartiges findet immer bei einer Funkübertragung statt. Auch hier sind zunächst keinerlei Anhaltspunkte verfügbar, wie ein passender Verzögerungsausgleich des Downmixsignals relativ zu den Mehrkanal- zusatzdaten durchgeführt werden kann. Auch wenn die Abtastfrequenz für die A/D-Wandlung und die Abtastfrequenz für die D/A-Wandlung leicht voneinander abweichen, entsteht eine langsame zeitliche Drift der notwendigen Ausgleichsverzögerung entsprechend dem Verhältnis der beiden Abtastraten zueinander. Zur Synchronisation der Zusatzdaten zu den Basisdaten können verschiedene Techniken eingesetzt werden, die unter dem Begriff „Zeitsynchronisierungsverfahren" bekannt sind. Die- se basieren darauf, Zeitstempel in beide DatenstrÖme einzutasten, derart, dass anhand dieser Zeitstempel im Empfänger eine korrekte Zuordnung der zueinander gehörigen Daten erreicht werden kann. Das Eintasten von Zeitstempeln führt jedoch ebenfalls bereits zu einer Änderung der normalen Stereo-Infrastruktur.

Die Aufgabe der vorliegenden Erfindung besteht darin, ein Konzept zum Erzeugen eines Datenstroms bzw. zum Erzeugen einer Multikanal-Darstellung zu schaffen, durch das eine Synchronisierung von Basiskanaldaten und Mehrkanal- Zusatzinformationen erreichbar ist.

Diese Aufgabe wird durch eine Vorrichtung zum Erzeugen eines Datenstroms gemäß Patentanspruch 1, eine Vorrichtung zum Erzeugen einer Multikanal-Darstellung gemäß Patentanspruch 17, ein Verfahren zum Erzeugen eines Datenstroms gemäß Patentanspruch 26, ein Verfahren zum Erzeugen einer Multikanal-Darstellung gemäß Patentanspruch 27, ein Computer-Programm nach Patentanspruch 28 oder eine Datenstrom- darstellung nach Patentanspruch 29 gelöst.

Der vorliegenden Erfindung liegt die Erkenntnis zugrunde, dass eine getrennte Übertragung und zeitsynchrone Zusammenführung eines Basiskanaldatenstroms und eines Mehrkanal- Zusatzinformationen-Datenstroms dadurch ermöglicht wird, dass auf „Senderseite" der Multikanal-Datenstrom dahingehend modifiziert wird, dass Fingerabdruckinformationen, die einen zeitlichen Verlauf des wenigstens einen Basiskanals wiedergeben, in den Datenstrom mit den Mehrkanal- Zusatzinformationen derart eingebracht werden, dass aus dem Datenstrom ein Zusammenhang zwischen den Mehrkanal- Zusatzinformationen und den Fingerabdruck-Informationen ableitbar ist. So gehören bestimmte Mehrkanal- Zusatzinformationen zu bestimmten Basiskanaldaten. Genau diese Zuordnung muss auch bei der Übertragung getrennter Datenströme gesichert werden.

Erfindungsgemäß wird auf Senderseite die Zugehörigkeit von Mehrkanal-Zusatzinformationen zu Basiskanaldaten dadurch signalisiert, dass von den Basiskanal-Daten Fingerabdruckinformationen ermittelt werden, mit denen die Mehrkanal- Zusatzinformationen, die zu genau diesen Basiskanaldaten gehören, gewissermaßen markiert werden. Diese Markierung bzw. Signalisierung des Zusammenhangs zwischen den Mehrka- nal-Zusatzinformationen und den Fingerabdruckinformationen wird bei einer blockweisen Datenverarbeitung dadurch erreicht, dass einem Block von Mehrkanal-Zusatzinformationen, die genau zu einem Block von Basiskanaldaten gehören, ein Block-Fingerabdruck genau dieses Blocks von Basiskanaldaten zugeordnet werden, zu dem der betrachtete Block von Mehrkanal-Zusatzinformationen gehört.

In anderen Worten wird ein Fingerabdruck genau des Basiska- naldatenblocks, mit dem zusammen die Mehrkanal- Zusatzinformationen bei der Rekonstruktion verarbeitet werden müssen, den Mehrkanal-Zusatzinformationen zugeordnet. Bei einer Block-basierten Übertragung kann der Block- Fingerabdruck des Blocks von Basiskanaldaten in der Blockstruktur des Mehrkanal-Zusatzdatenstroms derart eingetastet werden, dass jeder Block von Mehrkanal-Zusatzinformationen den Block-Fingerabdruck der zugehörigen Basisdaten enthält. Der Block-Fingerabdruck kann im unmittelbaren Anschluss an einen bisher verwendeten Block von Mehrkanal- Zusatzinformationen geschrieben werden, oder kann vor den bisher bestehenden Block geschrieben werden, oder kann an irgendeiner bekannten Stelle innerhalb dieses Blocks geschrieben werden, sodass bei der Multikanal-Rekonstruktion der Block-Fingerabdruck zu Synchronisationszwecken auslesbar ist. In dem Datenstrom befinden sich daher normale Mehrkanal-Zusatzdaten, sowie entsprechend eingestreut die Block-Fingerabdrücke. Alternativ könnte der Datenstrom auch so geschrieben werden, dass z. B. alle Block-Fingerabdrücke, versehen mit einer Zusatzinformation, wie beispielsweise einem Block- Counter, am Anfang des erfindungsgemäß erzeugten Datenstroms stehen, sodass ein erster Abschnitt des Datenstroms lediglich Block-Fingerabdrucke enthält und ein zweiter Teil des Datenstroms die zu den Block-Fingerabdruckinformationen gehörigen blockweise geschriebenen Mehrkanal-Zusatzdaten enthält. Diese Alternative hat den Nachteil, dass Referenzinformationen benötigt werden, wobei jedoch die Zugehörigkeit der Block-Fingerabdrucke zu den blockweise geschriebenen Mehrkanal-Zusatzinformationen auch implizit durch die Reihenfolge gegeben sein kann, sodass keine zusätzlichen Informationen nötig sind.

In diesem Fall könnte bei der Multikanal-Rekonstruktion zu Synchronisationszwecken einfach zunächst eine große Anzahl von Block-Fingerabdrucken eingelesen werden, um die Refe- renz-Fingerabdruckinformationen zu erhalten. Nach und nach kommen dann die Test-Fingerabdrucke hinzu, bis eine für eine Korrelation verwendete minimale Anzahl von Test- Fingerabdrucken vorliegen. Während dieser Zeitdauer könnte der Satz von Referenz-Fingerabdrucken z. B. bereits einer Differenz-Codierung unterworfen werden, wenn die Korrelation bei der Multikanal-Rekonstruktion unter Verwendung von Differenzen durchgeführt wird, während im Datenstrom keine Differenz-Block-Fingerabdrücke sondern Absolut-Block- Fingerabdrücke enthalten sind.

Allgemein gesagt wird auf Empfängerseite der Datenstrom mit den Basiskanaldaten verarbeitet, also zunächst beispielsweise decodiert und dann einem Multikanal-Rekonstruierer zugeführt. Vorzugsweise ist dieser Multikanal- Rekonstruierer so ausgebildet, dass er dann, wenn er keine Zusatzinformationen bekommt, einfach eine Durchschaltung vornimmt, um die vorzugsweise zwei Basiskanäle als Stereosignal auszugeben. Parallel hierzu findet die Extraktion der Referenz-Fingerabdruckinformationen und die Berechnung der Test-Fingerabdruckinformationen aus den decodierten Basiskanaldaten statt, um dann eine Korrelationsberechnung durchzuführen, um den Versatz der Basiskanaldaten zu den Mehrkanal-Zusatzdaten zu errechnen. Je nach Implementierung kann dann durch eine weitere Korrelationsberechnung verifiziert werden, dass dieser Versatz auch der richtige Versatz ist. Dies wird dann der Fall sein, wenn der Versatz, der durch die zweite Korrelationsberechnung erhalten worden ist, nicht mehr als um eine vorbestimmte Schwelle von dem Versatz, der durch die erste Korrelationsberechnung erhalten worden ist, abweicht.

War dies der Fall, so kann davon ausgegangen werden, dass der Versatz richtig war. Hierauf wird nach dem Erhalt synchronisierter Mehrkanal-Zusatzinformationen von einer Stereoausgabe auf die Multikanal-Ausgabe umgeschaltet.

Dieses Prozedere wird dann bevorzugt, wenn ein Benutzer von der Zeit, die zur Synchronisierung benötigt wird, nichts merken soll. Basiskanaldaten werden somit in dem Moment, wo sie erhalten werden, verarbeitet, sodass natürlich in dem Zeitraum, in dem die Synchronisierung stattfindet, also die Versatzberechnung stattfindet, lediglich Stereodaten ausge- geben werden können, da noch keine synchronisierten Mehrkanal-Zusatzinformationen gefunden worden sind.

Bei einem anderen Ausführungsbeispiel, bei dem es nicht auf die „Anfangsverzögerung" ankommt, die zur Berechnung des Versatzes benötigt wird, kann die Wiedergabe so durchgeführt werden, dass die gesamte Synchronisationsberechnung ausgeführt wird, ohne dass parallel bereits Stereodaten ausgegeben werden, um dann vom ersten Block der Basiskanaldaten an synchronisierte Mehrkanal-Zusatzinformationen zu liefern. Der Hörer wird dann bereits vom ersten Block an ein synchronisiertes 5.1-Erlebnis haben. Bei bevorzugten Ausführungsbeispielen der vorliegenden Erfindung beträgt die Zeit für eine Synchronisation normalerweise etwa 5 Sekunden, da für eine optimale Versatzberechnung etwa 200 Referenz-Fingerabdrucke als Referenz- Fingerabdruckinformätionen benötigt werden. Falls diese Verzögerung von etwa 5 Sekunden keine Rolle spielt, wie es beispielsweise bei unidirektionalen Übertragungen der Fall ist, kann gleich mit einer 5.1-Wiedergabe - allerdings erst nach der zur Versatzberechnung nötigen Zeit - begonnen wer- den. Für interaktive Anwendungen, beispielsweise wenn es um Dialoge oder etwas ähnliches geht, wird diese Verzögerung störend sein, sodass hier irgendwann, wenn die Synchronisation fertig ist, von der Stereowiedergabe auf die Multika- nal-Wiedergabe übergegangen wird. So wurde herausgefunden, dass es besser ist, nur eine Stereo-Wiedergabe zu liefern als eine Multikanal-Wiedergabe mit nicht-synchronisierten Mehrkanal-Zusatzinformationen.

Erfindungsgemäß wird das zeitliche Zuordnungsproblem zwi- sehen Basiskanaldaten und Mehrkanal-Zusatzdaten sowohl durch Maßnahmen auf der Senderseite als auch durch Maßnahmen auf der Empfangsseite gelöst.

Auf der Senderseite werden zeitlich veränderliche und ge- eignete Fingerprint-Informationen aus dem korrespondierenden Mono- oder Stereo-Downmixaudiosignal berechnet. Vorzugsweise werden diese Fingerprint-Informationen regelmäßig als Synchronisationshilfe in den versendeten Mehrkanalzu- satzdatenstrom eingetastet. Dies erfolgt vorzugsweise als Datenfeld inmitten der blockweise organisierten z. B. Spa- tial-Audio-Coding-Seiteninformationen, oder so, dass das Fingerprint-Signal als erste oder letzte Information des Datenblocks geschickt wird, derart, dass sie leicht hinzugefügt oder herausgenommen werden kann.

Auf der Empfangsseite werden zeitlich veränderliche und geeignete Fingerprint-Informationen aus dem korrespondierenden Stereoaudiosignal, also den Basiskanaldaten berechnet, wobei erfindungsgemäß eine Anzahl von zwei Basiskanälen bevorzugt wird. Ferner werden die Fingerprints aus den Mehrkanalzusatzinformationen extrahiert. Hierauf wird der zeitliche Versatz zwischen den Mehrkanalzusatzinformationen und dem empfangenen Audiosignal über Korrelationsmethoden, wie beispielsweise einer Berechnung einer Kreuzkorrelation zwischen den Test-Fingerabdruckinformationen und den Referenz- Fingerabdruckinformationen berechnet. Alternativ können auch Trial-And-Error-Verfahren durchgeführt werden, bei de- nen verschiedene aus den Basiskanal-Daten unter Zugrundelegung verschiedener Blockraster berechnete Fingerabdruckinformationen mit den Referenz-Fingerabdruckinformationen verglichen werden, um anhand des Test-Blockrasters, dessen zugehörige Test-Fingerabdruckinformationen am besten mit den Referenz-Fingerabdruckinformationen übereinstimmen, den zeitlichen Versatz zu bestimmen.

Schließlich wird das. Audiosignal der Basiskanäle mit den Mehrkanalzusatzinformationen für die anschließende Mehrka- nal-Rekonstruktion durch eine nachgeschaltete Verzögerungsausgleichsstufe synchronisiert. Je nach Implementierung kann allein eine Anfangsverzögerung kompensiert werden. Vorzugsweise wird die Versatzberechnung jedoch parallel zur Wiedergabe durchgeführt, um im Falle eines zeitlichen Aus- einanderdriftens der Basiskanaldaten und der Mehrkanal- Zusatzinformationen trotz einer kompensierten Anfangsverzögerung den Versatz nach Bedarf und nach Ergebnis der Korrelationsberechnung nachstellen zu können. Die Verzögerungsausgleichsstufe kann somit auch aktiv geregelt werden.

Die vorliegende Erfindung ist dahingehend vorteilhaft, dass keinerlei Änderungen an den Basiskanal-Daten bzw. an dem Verarbeitungsweg für die Basiskanal-Daten vorgenommen werden müssen. Der Basiskanal-Datenstrom, der in einen Empfän- ger eingespeist wird, unterscheidet sich in nichts von einem üblichen Basiskanal-Datenstrom. Veränderungen werden lediglich auf Seiten des Multikanal-Datenstroms vorgenommen. Dieser wird dahingehend modifiziert, dass die Finger- abdruck-Informationen eingetastet werden. Nachdem für den Multikanal-Datenstrom jedoch derzeit ohnehin keine standardisierten Verfahren vorliegen, führt die Veränderung des Mehrkanal-Zusatzdatenstroms nicht zu einer unerwünschten Abkehr von einer bereits standardisierten, implementierten und etablierten Lösung, wie es dagegen der Fall wäre, wenn der Basiskanal-Datenstrom modifiziert werden würde.

Das erfindungsgemäße Szenario liefert eine besondere Flexi- bilität der Verbreitung von Mehrkanal-Zusatzinformationen. Insbesondere dann, wenn die Mehrkanal-Zusatzinformationen Parameterinformationen sind, die bezüglich der erforderlichen Datenrate bzw. Speicherkapazität sehr kompakt sind, kann ein digitaler Empfänger mit solchen Daten auch völlig getrennt von dem Stereosignal versorgt werden. So könnte sich ein Benutzer für bereits bei ihm bestehende Stereo- Aufnahmen, die er bereits auf seinem Solid-State-Player o- der auf seinen CDs hat, Mehrkanal-Zusatzinformationen von einem getrennten Anbieter beschaffen und auf seinem Wieder- gabegerät abspeichern. Dieses Abspeichern ist unproblematisch, da der Speicherbedarf insbesondere für parametrische Mehrkanal-Zusatzinformationen nicht besonders groß ist. Legt der Benutzer dann eine CD ein oder wählt er ein Stereo-Stück aus, so kann von dem Mehrkanal- Zusatzdatenspeicher der entsprechende Mehrkanal- Zusatzdatenstrom abgerufen werden und aufgrund der Fingerabdruckinformationen in dem Mehrkanal-Zusatzdatenstrom mit dem Stereosignal synchronisiert werden, um eine Multikanal- Rekonstruktion zu erreichen. Die erfindungsgemäße Lösung erlaubt es somit, völlig unabhängig von der Art und Weise des Stereosignals, also unabhängig davon, ob es von einem digitalen Rundfunkempfänger stammt, ob es von einer CD stammt, ob es von einer DVD stammt oder ob es z. B. über das Internet angekommen ist, Mehrkanal-Zusatzdaten, die von einer ganz anderen Quelle stammen können, mit dem Stereosignal zu synchronisieren, wobei das Stereosignal dann als Basiskanaldaten fungiert, auf deren Basis dann die Multika- nal-Rekonstruktion durchgeführt wird. Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung werden nachfolgend Bezug nehmend auf die beiliegenden Zeichnungen detailliert erläutert. Es zeigen:

Fig. 1 ein Blockschaltbild einer erfindungsgemäßen Vorrichtung zum Erzeugen eines Datenstroms;

Fig. 2 ein Blockschaltbild einer erfindungsgemäßen Vor- richtung zum Erzeugen einer Multikanal-

Darstellung;

Fig. 3 einen bekannten Joint-Stereo-Codierer zum Erzeugen von Kanaldaten und parametrischen Multikanal- Informationen;

Fig. 4 eine Darstellung eines Schemas zum Bestimmen von ICLD-, ICTD- und ICC-Parametern für eine BCC- Codierung/Decodierung;

Fig. 5 eine Blockdiagrammdarstellung einer BCC- Codierer/Decodierer-Kette;

Fig. 6 ein Blockdiagramm einer Implementierung des BCC- Synthese-Blocks von Fig. 5;

Fig. 7a eine schematische Darstellung eines ursprünglichen Multikanalsignals als Folge von Blöcken;

Fig. 7b eine schematische Darstellung von einem oder mehreren Basiskanälen als Folge von Blöcken;

Fig. 7c eine schematische Darstellung des erfindungsgemä- ßen Datenstroms mit Multikanalinformationen und zugeordneten Block-Fingerabdrücken;

Fig. 7d eine beispielhafte Darstellung für einen Block des Datenstroms von Fig. 7c; Fig. 8 eine detailliertere Darstellung der erfindungsgemäßen Vorrichtung zum Erzeugen einer Multikanal- Darstellung gemäß einem bevorzugten Ausführungs- beispiel;

Fig. 9 eine schematische Darstellung zur Verdeutlichung der Versatzbestimmung durch Korrelation zwischen den Test-Fingerabdruckinformationen und den Refe- renz-Fingerabdruckinformationen;

Fig. 10 ein Flussdiagramm für eine bevorzugte Ausführung der Versatzbestimmung parallel zur Datenausgabe; und

Fig. 11 eine schematische Darstellung der Berechnung der Fingerabdruckinformationen bzw. codierten Fingerabdruckinformationen auf Encodierer- und Decodie- rer-Seite.

Fig. 1 zeigt eine Vorrichtung zum Erzeugen eines Datenstroms für eine Multikanal-Rekonstruktion eines ursprünglichen Multikanal-Signals, wobei das Multikanal-Signal wenigstens zwei Kanäle hat, gemäß einem bevorzugten Ausfüh- rungsbeispiel der vorliegenden Erfindung. Die Vorrichtung umfasst einen Fingerabdruck-Erzeuger 2, dem wenigstens ein aus dem ursprünglichen Multikanal-Signal abgeleiteter Basis-Kanal über eine Eingangsleitung 3 zuführbar ist. Die Anzahl der Basiskanäle ist größer oder gleich 1 und kleiner als eine Anzahl von Kanälen des ursprünglichen Multikanal- Signals. Ist das ursprüngliche Multikanal-Signal lediglich ein Stereosignal mit nur zwei Kanälen, so ist nur ein einziger Basiskanal vorhanden, der aus den zwei Stereokanälen abgeleitet ist. Ist das ursprüngliche Multikanal-Signal je- doch ein Signal mit drei oder mehr Kanälen, so kann die Anzahl der Basiskanäle auch gleich 2 sein. Diese Ausführungsform wird bevorzugt, da eine Audiowiedergabe dann, ohne Mehrkanal-Zusatzdaten als normale Stereo-Wiedergabe erfol- gen kann. Bei einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung ist das ursprüngliche Multikanal- Signal ein Surround-Signal mit fünf Kanälen und einem LFE- Kanal (LFE - Low Frequency Enhancement) , wobei dieser Kanal auch als Subwoofer bezeichnet wird. Die fünf Kanäle sind ein Left-Surround-Kanal Ls, ein linker Kanal L, ein Mitten- Kanal C, ein rechter Kanal R und ein hinterer rechter bzw. Right-Surround-Kanal Rs. Die beiden Basiskanäle sind dann der linke Basiskanal und der rechte Basiskanal. In Fach- kreisen wird der eine bzw. werden die mehreren Basiskanäle auch als Downmix-Kanal bzw. Downmix-Kanäle bezeichnet.

Der Fingerabdruck-Erzeuger 2 ist ausgebildet, um aus dem wenigstens einen Basiskanal Fingerabdruck-Informationen zu erzeugen, wobei die Fingerabdruck-Informationen einen zeitlichen Verlauf des wenigstens einen Basiskanals wiedergeben. Je nach Implementierung sind die Fingerabdruck- Informationen mehr oder weniger aufwendig berechnet. So können hier insbesondere auf der Basis von statistischen Methoden sehr aufwendig berechnete Fingerabdrücke, die unter dem Stichwort „Audio-ID" bekannt sind, eingesetzt werden. Alternativ könnte jedoch auch eine beliebige andere Größe verwendet werden, die in irgendeiner Weise den zeitlichen Verlauf des einen oder der mehreren Basiskanäle rep- räsentiert.

Erfindungsgemäß wird eine Block-basierte Verarbeitung bevorzugt. Hier setzen sich die Fingerabdruck-Informationen aus einer Folge von Block-Fingerabdrucken zusammen, wobei ein Block-Fingerabdruck ein Maß für die Energie des einen bzw. der mehreren Basiskanäle in dem Block ist. Alternativ könnte jedoch auch als Block-Fingerabdruck z. B. immer ein bestimmtes Sample des Blocks oder eine Kombination von Ab- tastwerten des Blocks verwendet werden, da bei einer genü- gend hohen Anzahl von Block-Fingerabdrucken als Fingerabdruck-Informationen eine - wenn auch grobe - Wiedergabe der zeitlichen Charakteristik des wenigstens einen Basiskanals entsteht. Allgemein gesagt sind die Fingerabdruck- Informationen also von den Abtastwertdaten des wenigstens einen Basiskanals abgeleitet und geben den zeitlichen Verlauf mit mehr oder weniger großem Fehler des wenigstens einen Basiskanals wieder, sodass, wie später noch dargelegt werden wird, auf Decodierer/Empfänger-Seite eine Korrelation mit aus dem Basiskanal berechneten Test- Fingerabdruckinformationen erfolgen kann, um letztendlich den Versatz zwischen dem Datenstrom mit den Mehrkanal- Zusatzinformationen und dem Basiskanal zu bestimmen ist.

Der Fingerabdruck-Erzeuger 2 liefert ausgangsseitig die Fingerabdruck-Informationen, die einem Datenstrom-Erzeuger 4 zugeführt werden. Der Datenstrom-Erzeuger 4 ist ausgebil- .det, um einen Datenstrom aus den Fingerabdruck- Informationen und den typischerweise zeitlich variablen Mehrkanal-Zusatzinformationen zu erzeugen, wobei die Mehr- kanal-Zusatzinformationen zusammen mit dem wenigstens einen Basiskanal die Multikanal-Rekonstruktion des ursprünglichen Multikanal-Signals ermöglichen. Der Datenstrom-Erzeuger ist ausgebildet, um den Datenstrom an einem Ausgang 5 so zu erzeugen, dass aus dem Datenstrom ein Zusammenhang zwischen den Mehrkanal-Zusatzinformationen und den Fingerabdruck- Informationen ableitbar ist. Erfindungsgemäß wird der Datenstrom aus Mehrkanal-Zusatzinformationen somit mit den Fingerabdruckinformationen, die von dem wenigstens einen Basiskanal abgeleitet worden sind, markiert, derart, dass über die Fingerabdruckinformationen, deren Zuordnung zu den Mehrkanal-Zusatzinformationen durch den Datenstrom-Erzeuger 4 geliefert wird, die Zusammengehörigkeit von bestimmten Mehrkanal-Zusatzinformationen zu den Basiskanaldaten ermittelbar ist.

Fig. 2 zeigt eine erfindungsgemäße Vorrichtung zum Erzeugen einer Multikanal-Darstellung eines ursprünglichen Multika- nal-Signals aus wenigstens einem Basiskanal und einem Datenstrom, der Fingerabdruck-Informationen, die einen zeitlichen Verlauf des wenigstens einen Basiskanals wiedergeben, und Mehrkanal-Zusatzinformationen aufweist, die zusam- men mit dem wenigstens einen Basiskanal die Multikanal- Rekonstruktion des ursprünglichen Multikanal-Signals ermöglichen, wobei aus dem Datenstrom ein Zusammenhang zwischen den Mehrkanal-Zusatzinformationen und den Fingerabdruck- Informationen ableitbar ist. Der wenigstens eine Basiskanal wird über einen Eingang 10 einem Empfänger- bzw. Decodie- rer-seitigen Fingerabdruckerzeuger 11 zugeführt. Der Fingerabdruckerzeuger 11 liefert ausgangsseitig Test- Fingerabdruckinformationen über einen Ausgang 12 zu einem Synchronisierer 13. Vorzugsweise werden die Test- Fingerabdruckinformationen aus dem wenigstens einen Basiskanal durch genau den gleichen Algorithmus abgeleitet, der auch im Block 2 von Fig. 1 ausgeführt wird. Je nach Implementierung müssen die Algorithmen jedoch nicht unbedingt identisch sein.

So kann der Fingerabdruck-Erzeuger 2 beispielsweise einen Block-Fingerabdruck in Absolut-Codierung erzeugen, während der Fingerabdruck-Erzeuger 11 auf Decodiererseite eine Dif- ferenz-Fingerabdruckbestimmung durchführt, derart, dass der einem Block zugeordnete Test-Blockfingerabdruck die Differenz zwischen zwei Absolut-Fingerabdrücken ist. In diesem Fall, wenn also über den Datenstrom mit den Fingerabdruckinformationen Absolut-Block-Fingerabdrücke kommen, wird ein Fingerabdruck-Extrahierer 14 die Fingerabdruck- Informationen aus dem Datenstrom extrahieren und zugleich Differenzen bilden, damit als Referenz- Fingerabdruckinformationen über einen Ausgang 15 dem Synchronisierer 13 Daten zugeführt werden, die mit den Test- Fingerabdruckinformationen vergleichbar sind.

Allgemein gesagt wird es bevorzugt, dass die Algorithmen zur Berechnung der Test-Fingerabdruckinformationen auf Decodiererseite und die Algorithmen zur Berechnung der Fin- gerabdruckinformationen auf Encodiererseite, die in Fig. 2 auch als Referenz-Fingerabdruckinformationen bezeichnet werden können, zumindest so ähnlich sind, dass der Synchronisierer 13 unter Verwendung dieser beiden Informationen die Mehrkanal-Zusatzdaten im Datenstrom, die über einen Eingang 16 erhalten werden, synchronisiert den Daten über den wenigstens einen Basiskanal zuordnen kann. Als Multika- nal-Darstellung am Ausgang des Synchronisierers wird eine synchronisierte Multikanal-Darstellung erhalten, die die Basiskanaldaten und synchron hierzu die Mehrkanal- Zusatzdaten umfasst.

Hierzu wird es bevorzugt, dass der Synchronisierer 13 einen zeitlichen Versatz zwischen den Basiskanaldaten und den Mehrkanal-Zusatzdaten bestimmt und dann die Mehrkanal- Zusatzdaten um diesen Versatz verzögert. Es hat sich herausgestellt, dass die Mehrkanal-Zusatzdaten üblicherweise früher, also zu früh ankommen, was der wesentlich geringe- ren Datenmenge, die typischerweise den Mehrkanal- Zusatzdaten entspricht, im Vergleich zu der Datenmenge für die Basiskanaldaten zugeschrieben werden kann. Werden also die Mehrkanal-Zusatzdaten verzögert, werden die Daten über den wenigstens einen Basiskanal vom Eingang 10 über eine Basiskanaldatenleitung 17 dem Synchronisierer 13 zugeführt und durch diesen eigentlich nur „durchgeschleift" und an einem Ausgang 18 wieder ausgegeben. Die Mehrkanal- Zusatzdaten, die über den Eingang 16 erhalten werden, werden über eine Mehrkanal-Zusatzdatenleitung 19 in den Syn- chronisierer eingespeist, dort um einen bestimmten Versatz verzögert und an einem Ausgang 20 des Synchronisierers zusammen mit den Basiskanaldaten einem Multikanal- Rekonstruierer 21 zugeführt, der dann das eigentliche Au- dio-Rendering ausführt, um ausgangsseitig z. B. die fünf Audiokanäle und einen Tiefton-Kanal (in Fig. 2 nicht gezeigt) zu erzeugen.

Die Daten auf den Leitungen 18 und 20 bilden somit die synchronisierte Multikanal-Darstellung, wobei der Datenstrom auf der Leitung 20 dem Datenstrom am Eingang 16 abgesehen von einer eventuell vorhandenen Mehrkanal- Zusatzdatencodierung entspricht, bis auf die Tatsache, dass die Fingerabdruck-Informationen aus dem Datenstrom entfernt werden, was je nach Implementierung im Synchronisierer 13 geschehen kann, oder schon vorher. Alternativ kann die Fingerabdruck-Entfernung auch bereits im Fingerabdruck- Extrahierer 14 erfolgen, sodass dann keine Leitung 19 vor- handen ist, sondern eine Leitung 19', die vom Fingerabdruck-Extrahierer 9 direkt in den Synchronisierer 13 geht. Der Synchronisierer 13 wird in diesem Fall also parallel vom Fingerabdruck-Extrahierer sowohl mit den Mehrkanal- Zusatzdaten als auch mit den Referenz- Fingerabdruckinformationen versorgt.

Der Synchronisierer ist also ausgebildet, um die Mehrkanal- Zusatzinformationen und den wenigstens einen Basiskanal unter Verwendung der Test-Fingerabdruckinformationen und der Referenz-Fingerabdruckinformationen sowie unter Verwendung des aus dem Datenstrom abgeleiteten Zusammenhangs der Mehrkanal-Informationen mit den in dem Datenstrom enthaltenen Fingerabdruckinformationen zu synchronisieren. Der zeitliche Zusammenhang zwischen den Mehrkanal-Zusatzinformationen und den Fingerabdruckinformationen wird, wie es nachfolgend noch erläutert wird, vorzugsweise einfach dadurch ermittelt, ob die Fingerabdruck-Informationen vor einem Satz von Mehrkanal-Zusatzinformationen, nach einem Satz von Mehrkanal-Zusatzinformationen oder innerhalb eines Satzes von Mehrkanal-Zusatzinformationen stehen. Je nachdem, ob die Fingerabdrücke vor, hinter oder inmitten eines Satzes von Mehrkanal-Zusatzinformationen stehen, wird auf die Codiererseite ermittelt, dass eben diese Mehrkanal-Informationen zu diesen Fingerabdruck-Informationen gehören.

Vorzugsweise wird eine Blockverarbeitung verwendet. Ebenfalls vorzugsweise wird die Eintastung der Fingerabdrücke so vorgenommen, dass ein Block von Mehrkanal-Zusatzdaten immer auf einen Block-Fingerabdruck folgt, dass sich also ein Block von Mehrkanal-Zusatzinformationen mit einem Block-Fingerabdruck abwechselt und umgekehrt. Alternativ könnte jedoch auch ein Datenstromformat verwendet werden, bei dem die gesamten Fingerabdruck-Informationen in einen separaten Teil am Anfang des Datenstroms geschrieben werden, woraufhin der ganze Datenstrom folgt. Hier würden sich also Block-Fingerabdrucke und Blöcke von Mehrkanal- Zusatzinformationen nicht abwechseln. Alternative Arten und Weisen der Zuordnung von Fingerabdrücken zu Mehrkanal- Zusatzinformationen sind Fachleuten bekannt. Erfindungsgemäß muss lediglich aus dem Datenstrom ein Zusammenhang zwischen den Mehrzahl-Zusatzinformationen und den Fingerabdruckinformationen auf Decodiererseite ableitbar sein, da- mit die Fingerabdruckinformationen dazu verwendet werden können, um die Mehrkanal-Zusatzinformationen mit den Basiskanaldaten zu synchronisieren.

Nachfolgend wird anhand der Fig. 7a bis 7d eine bevorzugte Ausführungsform der blockweisen Verarbeitung dargestellt. Fig. 7a zeigt ein ursprüngliches Multikanalsignal, beispielsweise ein 5.1-Signal, das aus einer Folge von Blöcken Bl bis B8 besteht, wobei in einem Block bei dem in Fig. 7a gezeigten Beispiel Multikanalinformationen MKi enthalten sind. Wenn von einem 5-Kanal-Signal ausgegangen wird, so enthält ein Block, wie beispielsweise der Block Bl jeweils die ersten z. B. 1152 Audioabtastwerte jedes einzelnen Kanals . Eine solche Blockgröße wird beispielsweise in dem BCC-Codierer 112 von Fig. 5 bevorzugt, wobei die Blockbil- düng, also die gewissermaßen Fensterung, um eine Folge von Blöcken aus einem durchgehenden Signal zu erhalten, durch das Element 111 in Fig. 5, das mit „Block^v bezeichnet ist, erreicht wird.

Am Ausgang des Downmix-Blocks 114, der in Fig. 5 mit „Summensignal'" bezeichnet ist, und der das Bezugszeichen 115 aufweist, liegt der wenigstens eine Basiskanal an. Die Basiskanaldaten können wieder als Folge von Blöcken Bl bis B8 dargestellt werden, wobei die Blöcke Bl bis B8 von Fig. 7b mit den Blöcken Bl bis B8 in Fig. 7a korrespondieren. Ein Block enthält nunmehr jedoch nicht mehr - wenn in einer Zeitbereichs-Darstellung geblieben wird, das ursprüngliche 5.1-Signal, sondern nur noch ein Mono-Signal oder ein Ste- reo-Signal mit zwei Stereobasiskanälen. Der Block Bl um- fasst daher wieder die 1152 zeitlichen Abtastwerte sowohl des ersten Stereobasiskanals als auch des zweiten Stereobasiskanals, wobei diese 1152 Abtastwerte sowohl des linken Stereobasiskanals als auch des rechten Stereobasiskanals jeweils durch Abtastwert-Weise Addition/Subtraktion und gegebenenfalls Gewichtung errechnet worden sind, also durch die Operation, die im Downmix-Block 114 von Fig. 5 beispielsweise durchgeführt wird. Entsprechend umfasst der Da- tenstrom mit Multikanalinformationen wieder Blöcke Bl bis B8, wobei jeder Block in Fig. Ic dem entsprechenden Block des ursprünglichen Multikanalsignals in Fig. 7a bzw. des einen oder mehreren Basiskanals von Fig. 7b entspricht. Um zur Rekonstruktion beispielsweise des Blocks Bl des ur- sprünglichen Multikanalsignals MKl zu kommen, müssen die Basiskanaldaten im Block Bl des Basiskanaldatenstroms, die mit BKl bezeichnet sind, mit den Multikanalinformationen Pl des Blocks Bl in Fig. 7c kombiniert werden. Diese Kombination wird bei dem in Fig. 6 gezeigten Ausführungsbeispiel durch den BCC-Syntheseblock durchgeführt, der, um eine blockweise Verarbeitung der Basiskanaldaten zu erhalten, wieder eine Blockbildungs-Stufe an seinem Eingang aufweist.

P3 bezeichnet also, wie es in Fig. 7c ausgeführt ist, die Multikanalinformationen, die zusammen mit dem Block von Werten BK3 der Basiskanäle eine Rekonstruktion des Blocks von Werten MK3 des ursprünglichen Multikanalsignals rekonstruieren lassen.

Erfindungsgemäß wird nunmehr jeder Block Bi des Datenstroms von Fig. 7c mit einem Block-Fingerabdruck versehen. Für den Block B3 bedeutet dies, dass vorzugsweise im Anschluss an den Block P3 von Multikanalinformationen der Block- Fingerabdruck F3 geschrieben wird. Dieser Block- Fingerabdruck ist nun genau von dem Block B3 des Blocks von Werten BK3 abgeleitet. Alternativ könnte der Block- Fingerabdruck F3 auch einer Differenzcodierung unterworfen sein, sodass der Block-Fingerabdruck F3 gleich der Diffe- renz des Block-Fingerabdrucks von Block BK3 der Basiskanäle und des Block-Fingerabdrucks des Blocks von Werten BK2 der Basiskanäle ist. Bei einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung wird als Block-Fingerabdruck ein Energiemaß bzw. ein Differenz-Energiemaß verwendet.

Bei dem eingangs beschriebenen Szenario wird der Datenstrom mit dem einen oder mehreren Basiskanälen in Fig. 7b getrennt vom Datenstrom mit den Mehrkanalinformationen und den Fingerabdruckinformationen von Fig. 7c zu einem Multi- kanal-Rekonstruierer übertragen. Würde nichts weiter getan werden, so könnte der Fall auftreten, dass am Multikanal- Rekonstruierer, beispielsweise am BCC-Syntheseblock 122 von Fig. 5 gerade der Block BK5 zur Verarbeitung ansteht. Fer- ner könnte es sein, dass aufgrund irgendwelcher zeitlicher Unscharfen jedoch von den Multikanalinformationen gerade der Block B7 statt des Blocks B5 ansteht. Ohne weitere Maßnahmen würde daher eine Rekonstruktion des Blocks von Basiskanaldaten BK5 mit den Multikanal-Informationen P7 vor- genommen werden, was zu Artefakten führen würde. Erfindungsgemäß wird nunmehr, wie es nachfolgend noch erläutert wird, ein Versatz von zwei Blöcken berechnet, derart, dass der Datenstrom in Fig. 7c um zwei Blöcke verzögert wird, derart, dass eine MuItikanal-Darsteilung aus dem Datenstrom von Fig. 7b und dem Datenstrom von Fig. 7c vorliegt, die nun jedoch aufeinander synchronisiert worden sind.

Je nach Ausführungsform und Gestaltung/Genauigkeit der Fingerabdruck-Informationen ist die erfindungsgemäße Versatz- bestimmung nicht auf die Berechnung eines Versatzes als ganzzahliges Vielfaches eines Blocks begrenzt, sondern kann durchaus, bei genügend genauer Korrelationsberechnung und bei Verwendung einer genügend großen Anzahl von Block- Fingerabdrucken (was natürlich auf Kosten der Zeitdauer zur Berechnung der Korrelation geht) auch eine Versatzgenauigkeit erreichen, die gleich einem Bruchteil eines Blocks ist und bis zu einem Abtastwert erreichen kann. Es hat sich jedoch herausgestellt, dass eine derart hohe Genauigkeit nicht unbedingt benötigt wird, sondern dass eine Synchronisationsgenauigkeit von +/- einem halben Block (bei einer Blocklänge von 1152 Abtastwerten) bereits zu einer Multika- nal-Rekonstruktion führt, die ein Zuhörer als Artefakt-frei beurteilt.

Fig. 7d zeigt ein bevorzugtes Ausführungsbeispiel für einen Block Bi, beispielsweise für den Block B3 des Datenstroms in Fig. 7c. Der Block wird mit einem Sync-Wort, das bei- spielsweise ein Byte lang sein kann, eingeleitet. Hierauf kommt eine Längeninformation, da es bevorzugt wird, die Multikanalinformationen P3, wie es in der Technik bekannt ist, nach ihrer Berechnung zu skalieren, quantisieren und Entropie-Codieren, sodass die Länge der Multikanalinforma- tionen, die beispielsweise Parameterinformationen sein können, die jedoch auch ein Waveform-Signal z. B. des Seite- Kanals sein können, von vorneherein nicht bekannt ist und daher im Datenstrom signalisiert werden muss. Am Ende der Multikanalinformationen P3 wird dann der erfindungsgemäße Block-Fingerabdruck eingefügt. Bei dem in Fig. 7d gezeigten Ausführungsbeispiel wurde für den Block-Fingerabdruck ein Byte, also 8 Bits, genommen. Da pro Block nur ein einziges Energiemaß genommen wird, wird bei einem Ausführungsbeispiel, bei dem nur eine Quantisierung, jedoch keine Entro- pie-Codierung eingesetzt wird, ein Quantisierer bei der Quantisierung mit einer Quantisierer-Ausgabebreite von 8 Bits eingesetzt. Die quantisierten Energiewerte werden daher ohne weitere Verarbeitung in das 8-Bit-Feld „Block-FA" von Fig. 7d eingetragen. Anschließend folgt dann, obgleich in Fig. 7d nicht gezeigt, wieder ein Synchronisationsbyte für den nächsten Block des Datenstroms, dem wieder ein Längenbyte folgt, und dem dann die Multikanalinformationen P4 für BK4 folgen, wobei diesem Block von Multikanalinformationen P4 für den Basiskanaldatenblock BK4 wieder der Block- Fingerabdruck, der auf den Basiskanal-Daten BK4 basiert, folgt. Wie in Fig. 7d ausgeführt, kann als Energiemaß ein absolutes Energiemaß eingeführt werden, oder aber auch ein Differenz-Energiemaß. Dann würde dem Block B3 des Datenstroms als Block-Fingerabdruck die Differenz zwischen dem Energie- maß für die Basiskanaldaten BK3 und dem Energiemaß für die Basiskanaldaten BK2 zugefügt werden.

Fig. 8 zeigt eine detailliertere Darstellung des Synchronisierers, des Fingerabdruckerzeugers 11 und des Fingerabdru- ckextrahierers 9 von Fig. 2 in Kooperation mit dem Multika- nalrekonstruierer 21. Die Basiskanaldaten werden in einen Basiskanal-Datenpuffer 25 eingespeist und zwischengepuffert. Entsprechend werden die Zusatzinformationen bzw. der Datenstrom mit den Zusatzinformationen und den Fingerab- druckinformationen einem Zusatzinformationen-Puffer 26 zugeführt. Beide Puffer sind allgemein gesagt in Form eines FIFO-Puffers aufgebaut, wobei jedoch der Puffer 26 weitere Kapazitäten dahingehend hat, dass die Fingerabdruckinformationen von dem Referenz-Fingerabdruckextrahierer 9 extra- hierbar sind und ferner aus dem Datenstrom entfernt werden, sodass auf einer Puffer-Ausgangsleitung 27 lediglich Mehr- kanal-Zusatzinformationen, jedoch ohne eingetastete Fingerabdrücke ausgebbar sind. Die Entfernung der Fingerabdrücke in dem Datenstrom kann jedoch auch von einem Zeitverschie- ber 28 oder irgendeinem anderen Element durchgeführt werden, sodass der Multikanalrekonstruierer 21 nicht durch Fingerabdruck-Bytes bei der Multikanalrekonstruktion gestört wird. Werden Absolut-Fingerabdrücke sowohl auf Referenz-Seite als auch auf Test-Seite verwendet, so können die durch den Fingerabdruck-Erzeuger 11 berechneten Fingerabdruckinformationen genauso wie die durch den Fingerabdruck- Extrahierer 9 ermittelten Fingerabdruckinformationen direkt in einen Korrelator 29 innerhalb des Synchronisierers 13 von Fig. 2 eingespeist werden. Der Korrelator berechnet dann den Versatzwert und liefert denselben über eine Versatz-Leitung 30 zu dem Zeitverschieber 28. Der Synchronisierer 13 ist ferner ausgebildet, um dann, wenn ein gültiger Versatzwert erzeugt und dem Zeitverschieber 28 zuge- führt worden sind, einen Freigeber 31 anzusteuern, damit der Freigeber 31 einen Schalter 32 schließt, derart, dass der Strom von Mehrkanal-Zusatzdaten von dem Puffer 26 über den Zeitverschieber 28 und den Schalter 32 in den Multika- nal-Rekonstruierer 21 eingespeist wird.

Bei dem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung wird lediglich eine Zeitverschiebung (Delay) der Mehrkanal-Zusatzinformationen vorgenommen. Gleichzeitig wird, damit ein Zuhörer der Ausgabe des Multikanalre- konstruierers 21 die Zeitverzögerung zur Berechnung des richtigen Versatzwerts nicht merkt, parallel zu der Berechnung des richtigen Versatzwertes bereits eine Multikanalre- konstruktion durchgeführt. Diese Multikanalrekonstruktion ist jedoch lediglich eine „triviale"" Multikanalrekonstruktion, da die vorzugsweise zwei Stereobasiskanäle von dem Multikanalrekonstruierer 21 einfach ausgegeben werden. Ist der Schalter 32 daher offen, so folgt nur eine Stereoausgabe. Ist der Schalter 32 jedoch geschlossen, so erhält der Multikanalrekonstruierer 21 zusätzlich zu den Stereo- Basiskanälen auch die Mehrkanal-Zusatzinformationen und kann eine nun jedoch synchronisierte Multikanal-Ausgabe durchführen. Ein Zuhörer merkt dies lediglich dadurch, dass von der Stereoqualität auf die Multikanal-Qualität überge- gangen wird.

In Anwendungsfällen, bei denen Anfangs-Zeitverzögerungen keine große Rolle spielen, kann jedoch die Ausgabe des MuI- tikanalrekonstruierers 21 so lange zurückgehalten werden, bis ein gültiger Versatz vorliegt. Dann kann bereits der allererste Block (BKl von Fig. 7b) mit den nunmehr korrekt verzögerten Mehrkanal-Zusatzdaten Pl (Fig. 7c) dem Multikanalrekonstruierer 21 zugeführt werden, sodass erst dann mit der Ausgabe begonnen wird, wenn Multikanal-Daten vorliegen. Eine Ausgabe des Multikanalrekonstruierers 21 bei geöffnetem Schalter wird es in diesem Ausführungsbeispiel nicht geben. Nachfolgend wird Bezug nehmend auf Fig. 9 die Funktionalität des Korrelators 29 von Fig. 8 dargestellt. Am Ausgang des Test-Fingerabdruck-Berechners 11 wird eine Folge von Test-Fingerabdruckinformationen geliefert, wie sie im o- bersten Teilbild von Fig. 9 zu sehen ist. So ist für jeden Block der Basiskanäle, wobei dieser Block mit 1, 2, 3, 4, i bezeichnet ist, ein Block-Fingerabdruck vorhanden. Je nach Korrelationsalgorithmus wird zur Korrelation nur die Folge von diskreten Werten benötigt. Andere Korrelationsalgorith- men können jedoch auch als Eingangswert eine zwischen den diskreten Werten interpolierte Kurve erhalten, wie sie in Fig. 9 gezeichnet ist. Entsprechend erzeugt der Referenz- Fingerabdruckermittler 9 ebenfalls eine Folge von diskreten Referenz-Fingerabdrucken, die er aus dem Datenstrom extra- hiert. Sind im Datenstrom beispielsweise Differenz-codierte Fingerabdruckinformationen enthalten, und soll der Korrela- tor auf der Basis von Absolut-Fingerabdrücken arbeiten, so wird ein Differenz-Decodierer 35 in Fig. 8 aktiviert. Es wird jedoch bevorzugt, dass im Datenstrom Absolut- Fingerabdrücke als. Energiemaß enthalten sind, da diese Information über die Gesamtenergie pro Block zu Pegelkorrekturzwecken von dem Multikanalrekonstruierer 21 ebenfalls vorteilhaft ausgenutzt werden kann. Ferner wird es bevorzugt, die Korrelation auf der Basis von Differenz- Fingerabdrücken durchzuführen. In diesem Fall wird der Block 9 vor dem Korrelator eine Differenzverarbeitung durchführen, und wird auch der Block 11 vor dem Korrelator eine Differenzverarbeitung durchführen, wie es bereits ausgeführt worden ist.

Der Korrelator 29 wird nunmehr die in den beiden oberen Teilbildern von Fig. 9 dargestellten Kurven bzw. Folgen von diskreten Werten enthalten und ein Korrelationsergebnis liefern, das im unteren Teilbild von Fig. 9 dargestellt ist. Es ergibt sich ein Korrelationsergebnis, dessen Versatz-Komponente genau den Versatz zwischen den beiden Fingerabdruckinformationen-Kurven liefert. Da der Versatz zudem positiv ist, müssen die Mehrkanal-Zusatzinformationen in positiver Zeitrichtung verschoben werden, also verzögert werden. Es sei darauf hingewiesen, dass natürlich auch die Basiskanaldaten in negativer Zeitrichtung verschoben werden könnten, oder dass sowohl die Mehrkanal-Zusatzinformationen einen Teil in positiver Richtung verschoben werden können, und die Basiskanal-Zusatzdaten einen Teil des Versatzes in negativer Zeitrichtung verschoben werden können, so lange der Multikanalrekonstruierer an seinen beiden Eingängen eine synchronisierte Multikanal-Darstellung enthält.

Nachfolgend wird auf eine bevorzugte Ausführungsform der Berechnung des Versatzes parallel zur Audioausgabe anhand von Fig. 10 dargestellt. Die Basiskanaldaten werden gepuffert, um jeweils einen Fingerabdruck berechnen zu können, wonach der Block, von dem gerade ein Test-Block- Fingerabdruck berechnet worden ist, dem Multikanalrekonstruierer zur Multikanalrekonstruktion zugeführt wird. Hierauf wird der nächste Block der Basiskanaldaten wiederum in den Puffer 25 eingespeist, damit von diesem Block wieder ein Test-Block-Fingerabdruck berechnet werden kann. Dies wird für z. B. eine Anzahl von 200 Blöcken durchgeführt. Diese 200 Blöcke werden jedoch, damit der Zuhörer keine Verzögerung merkt, von dem Multikanalkonstruierer im Sinne einer „trivialen" Multikanalrekonstruktion als Stereo- Ausgangsdaten einfach ausgegeben.

Je nach Implementierung können auch weniger als 200 Blöcke oder mehr als 200 Blöcke verwendet werden. Erfindungsgemäß hat sich herausgestellt, dass eine Anzahl zwischen 100 und 300 Blöcken und vorzugsweise 200 Blöcke Ergebnisse liefert, die einen vernünftigen Kompromiss zwischen Berechnungszeit, Korrelations-Rechenaufwand und Versatzgenauigkeit liefern.

Ist der Block 36 abgearbeitet, so wird auf einen Block 37 übergegangen, in dem durch den Korrelator 29 die Korrelation zwischen den 200 berechneten Test-Block-Fingerabdrücken und den 200 berechneten Referenz-Block-Fingerabdrücken durchgeführt wird. Das dort erhaltene Versatzergebnis wird nunmehr gespeichert. Dann wird in einem Block 38 entsprechend dem Block 36 eine Anzahl der nächsten z. B. 200 Blöcke der Basiskanaldaten berechnet. Entsprechend werden wieder 200 Blöcke aus dem Datenstrom mit den Mehrkanal- Zusatzinformationen extrahiert. Hierauf wird in einem Block 39 wieder eine Korrelation durchgeführt, und es wird das dort erhaltene Versatzergebnis gespeichert. Dann wird in einem Block 40 eine Abweichung zwischen dem Versatzergebnis aufgrund der zweiten 200 Blöcke und dem Versatzergebnis aufgrund der ersten 200 Blöcke festgestellt. Liegt die Abweichung unterhalb einer vorbestimmten Schwelle, so wird durch einen Block 41 der Versatz über die Versatzleitung 30 dem Zeitverschieber 28 von Fig. 8 zugeführt, und es wird der Schalter 32 geschlossen, sodass ab diesem Zeitpunkt auf die Multikanal-Ausgabe übergegangen wird. Ein vorbestimmter Wert für die Abweichungsschwelle ist beispielsweise ein Wert von einem oder zwei Blöcken. Dies basiert darauf, dass dann, wenn sich ein Versatz von einer Berechnung zur nächsten Berechnung nicht mehr als ein oder zwei Blöcke ändert, kein Fehler bei der Korrelationsberechnung durchgeführt worden ist.

Abweichend von diesem Ausführungsbeispiel kann auch gewissermaßen ein gleitendes Fenster mit einer Fensterlänge ei- ner Anzahl von Blöcken, die z. B. 200 ist, verwendet werden. So wird z. B. eine Berechnung mit 200 Blöcken vorgenommen und ein Ergebnis erhalten. Dann wird um einen Block weitergegangen und in die Anzahl der für die Korrelationsberechnung verwendeten Blöcke ein Block herausgenommen und dafür der neue Block verwendet. Das erhaltene Ergebnis wird dann ebenso wie das zuletzt erhaltene Ergebnis in ein Histogramm eingespeichert. Dieses Prozedere wird für eine Anzahl von Korrelationsberechnungen, wie z. B. 100 oder 200, vorgenommen, so dass sich das Histogramm nach und nach füllt. Der Peak des Histogramms wird dann als berechneter Versatz verwendet, um den Anfangsversatz zu liefern oder einen Versatz zum dynamischen Nachstellen zu erhalten. Die parallel zur Ausgabe stattfindende Versatzberechnung wird in einem Block 42 mitlaufen, und es wird je nach Bedarf, wenn ein Auseinanderdriften des Datenstroms mit den Mehrkanal-Informationen und des Datenstroms mit den Basis- kanaldaten festgestellt worden ist, eine adaptive bzw. dynamische Versatznachführung erreicht, indem ein aktualisierter Versatzwert über die Leitung 30 dem Zeitverschieber 28 von Fig. 8 zugeführt wird. Im Hinblick auf die adaptive Nachführung sei darauf hingewiesen, dass je nach Implemen- tierung auch eine Glättung der Versatzänderung durchgeführt werden kann, sodass dann, wenn eine Abweichung von beispielsweise zwei Blöcken festgestellt worden ist, zunächst der Versatz um 1 inkrementiert wird und dann bei Bedarf wieder inkrementiert wird, damit die Sprünge nicht zu groß werden.

Nachfolgend wird Bezug nehmend auf Fig. 11 auf eine bevorzugte Ausführungsform des Fingerabdruck-Erzeugers 2 auf En- codiererseite, wie er in Fig. 1 dargestellt worden ist, und des Fingerabdruck-Erzeugers 11 von Fig. 2, wie er auf Deco- dierer-Seite eingesetzt wird, dargestellt.

Allgemein wird das Mehrkanalaudiosignal für die Gewinnung der Mehrkanalzusatzdaten in Blöcke fester Größe eingeteilt. Pro Block wird nun gleichzeitig zur Gewinnung der Mehrkanalzusatzdaten ein Fingerprint berechnet, der geeignet ist, die zeitliche Struktur des Signals möglichst eindeutig zu charakterisieren. Ein Ausführungsbeispiel hierzu ist es, den Energiegehalt des aktuellen Downmixaudiosignals des Au- dioblocks zu verwenden, beispielsweise in logarithmierter Form, also in einer Dezibel-verwandten Darstellung. In diesem Fall ist der Fingerprint ein Maß für die zeitliche Hüllkurve des Audiosignals. Um die übertragene Informationsmenge zu reduzieren und die Genauigkeit des Messwertes zu steigern, kann diese Synchronisationsinformation auch als Differenz zum Energiewert des vorangegangenen Blocks mit anschließend geeigneter Entropiecodierung, beispielsweise Huffman-Codierung, adaptiver Skalierung und Quanti- sierung ausgedrückt werden. Der Fingerprint der zeitlichen Hüllkurve wird dabei wie folgt berechnet:

Zunächst wird, wie bei Punkt 1 in Fig. 11 dargestellt ist, eine Energieberechnung des Downmixaudiosignals im aktuellen Block gegebenenfalls für ein Stereosignal durchgeführt. Hierbei werden z. B. 1152 Audioabtastwerte sowohl vom linken als auch vom rechten Downmixkanal jeweils quadriert und aufsummiert. si_ef_t(i) stellt hierbei einen zeitlichen Ab- tastwert zum Zeitpunkt i des linken Basiskanals dar, während s_right(i) einen zeitlichen Abtastwert des rechten Basiskanals zum Zeitpunkt i darstellt. Bei einem monophonen Downmixsignal entfällt die Sumraierung. Ferner wird es bevorzugt, vor der Berechnung die für die vorliegende Erfin- düng nicht aussagekräftigen Gleichanteile des Downmixaudiosignals zu entfernen.

In einem Schritt 2 wird eine Minimumbegrenzung der Energie zwecks anschließender logarithmischer Darstellung durchge- führt. Für eine Dezibel-verwandte Bewertung der Energie wird es bevorzugt, einen minimalen Energieoffset zu verwenden, damit sich im Falle einer Nullenergie eine sinnvolle logarithmische Berechnung ergibt. Diese Energiemaßzahl in dB überstreicht dabei einen Zahlenbereich von 0 bis 90 (dB) bei einer Audiosignalauflösung von 16 Bit.

Wie es bei 3 in Fig. 11 gezeigt ist, wird es bevorzugt, für eine exakte Bestimmung des zeitlichen Versatzes zwischen Mehrkanalzusatzinformationen und empfangenem Audiosignal nicht den absoluten Energie-Hüllkurvenwert zu verwenden, sondern vielmehr die Steigung (Steilheit) der Signalhüllkurve. Daher wird für die Korrelationsmessung nur die Steigung der Energie-Hüllkurve herangezogen. • Technisch gesehen wird diese Signalableitung durch Differenzbildung des Ener- giewertes mit dem des vorangegangenen Blocks berechnet. Dieser Schritt wird z. B. im Encoder vollzogen. Dann besteht der Fingerprint aus differenzcodierten Werten. Alternativ kann dieser Schritt auch rein decodiererseitig imple- mentiert werden. Hier besteht der übertragene Fingerprint also aus nicht-differenzcodierten Werten. Die Differenzbildung wird hier erst im Decodierer vorgenommen. Letztere Möglichkeit hat den Vorteil, dass der Fingerprint Informa- tion über die absolute Energie des Downmixsignals enthält. Es wird allerdings typischerweise eine etwas höhere Fingerprintwortlänge benötigt.

Weiterhin wird es bevorzugt, die Energie (Hüllkurve des Signals) für eine optimale Aussteuerung zu skalieren. Damit bei der anschließenden Quantisierung dieses Fingerprints sowohl der Zahlenbereich maximal ausgenutzt als auch die Auflösung bei geringen Energiewerten verbessert werden kann, ist es sinnvoll, eine zusätzliche Skalierung (== Ver- Stärkung) einzuführen. Diese kann entweder als feste und statische Gewichtungsgroße oder über eine an das Hüllkurvensignal angepasste dynamische Verstärkungsregelung realisiert werden.

Ferner wird, wie es bei 5 in Fig. 11 gezeigt ist, eine Quantisierung des Fingerprints vorgenommen. Um diesen Fingerprint für die Eintastung in die Mehrkanalzusatzinforma- tionen vorzubereiten, wird dieser auf 8 Bit guantisiert. Diese reduzierte Fingerprintauflösung hat sich in der Pra- xis als guter Kompromiss hinsichtlich Bitbedarf und Zuverlässigkeit der Verzögerungsdetektion bewährt. Zahlenüberläufe von größer als 255 werden dabei mit einer Sättigungskennlinie auf den Maximalwert von 255 begrenzt.

Wie es bei 6 in Fig. 11 gezeigt ist, kann noch eine optimale Entropiecodierung des Fingerprints vorgenommen werden. Durch Auswertung von statistischen Eigenschaften des Fingerprints kann der Bitbedarf des quantisierten Fingerprints noch weiter reduziert werden. Ein geeignetes Entropiever- fahren ist beispielsweise die Huffman-Codierung oder die arithmetische Codierung. Statistisch unterschiedliche Häufigkeiten von Fingerprintwerten können durch verschiedene Codelängen ausgedrückt werden und somit im Mittel den Bitbedarf der Fingerprintdarstellung reduzieren.

Pro Audioblock wird die Berechnung der Mehrkanalzusatzdaten unter Zuhilfenahme der Mehrkanalaudiodaten durchgeführt. Hierbei berechnete Mehrkanalzusatzinformationen werden anschließend durch die neu hinzukommende Synchronisationsinformation durch geeignetes Einbetten in den Bitstrom erweitert.

Mit Hilfe der erfindungsgemäßen Lösung ist der Empfänger nunmehr in der Lage, einen zeitlichen Versatz von Downmix- signal und Zusatzdaten zu erkennen und eine zeitkorrekte Anpassung, also eine Verzögerungskompensation zwischen Ste- reoaudiosignalen und Mehrkanalzusatzinformationen in der Größenordnung von +/- H Audioblock zu realisieren. Somit kann die MehrkanalZuordnung im Empfänger fast vollständig, d. h. bis auf eine kaum wahrnehmbaren Zeitunterschied von +/- M. Audioframes rekonstruiert werden, welcher sich nicht nennenswert auf die Qualität des rekonstruierten Mehrkanal- audiosignals auswirkt.

Abhängig von den Gegebenheiten kann das erfindungsgemäße Verfahren zum Erzeugen bzw. Decodieren in Hardware oder in Software implementiert werden. Die Implementierung kann auf einem digitalen Speichermedium, insbesondere einer Diskette oder CD mit elektronisch auslesbaren Steuersignalen erfolgen, die so mit einem programmierbaren Computersystem zusammenwirken können, dass das Verfahren ausgeführt wird. Allgemein besteht die Erfindung somit auch in einem Computer-Programm-Produkt mit einem auf einem maschinenlesbaren Träger gespeicherten Programmcode zur Durchführung des Verfahrens, wenn das Computer-Programm-Produkt auf einem Rechner abläuft. In anderen Worten ausgedrückt kann die Erfin- düng somit als ein Computer-Programm mit einem Programmcode zur Durchführung des Verfahrens realisiert werden, wenn das Computer-Programm auf einem Computer abläuft.

Claims

Patentansprüche

1. Vorrichtung zum Erzeugen eines Datenstroms für eine Multikanal-Rekonstruktion eines ursprünglichen Multi- kanal-Signals, wobei das Multikanal-Signal wenigstens zwei Kanäle hat, mit folgenden Merkmalen;

einem Fingerabdruck-Erzeuger (2) zum Erzeugen von Fingerabdruck-Informationen aus wenigstens einem aus dem ursprünglichen Multikanal-Signal abgeleiteten Basis- Kanal, wobei eine Anzahl von Basis-Kanälen größer oder gleich 1 und kleiner als eine Anzahl von Kanälen des ursprünglichen Multikanal-Signals ist, wobei die Fingerabdruck-Informationen einen zeitlichen Verlauf des wenigstens einen Basiskanals wiedergeben; und

einem Datenstrom-Erzeuger (4) zum Erzeugen eines Da- tenstroms aus den Fingerabdruck-Informationen und von zeitlich variablen Mehrkanal-Zusatzinformationen, die zusammen mit dem wenigstens einen Basis-Kanal die Multikanal-Rekonstruktion des ursprünglichen Multikanal- Signals ermöglichen, wobei der Datenstrom-Erzeuger (4) ausgebildet ist, um den Datenstrom so zu erzeugen, dass aus dem Datenstrom ein zeitlicher Zusammenhang zwischen den Mehrkanal-Zusatzinformationen und den Fingerabdruck-Informationen ableitbar ist.

2. Vorrichtung nach Anspruch 1,

bei der der Fingerabdruck-Erzeuger (2) ausgebildet ist, um den wenigstens einen Basiskanal blockweise zu verarbeiten, um die Fingerabdruck-Informationen zu er- halten,

bei der die Mehrkanal-Zusatzinformationen blockweise berechnet sind, sodass sie zusammen mit Blöcken des wenigstens einen Basiskanals zur Multikanal- Rekonstruktion zu verwenden sind, und

bei der der Datenstrom-Erzeuger (4) ausgebildet ist, um die Mehrkanal-Zusatzinformationen und die Fingerabdruck-Informationen blockweise in den Datenstrom zu schreiben.

3. Vorrichtung nach Anspruch 2, bei der der Fingerab- druck-Erzeuger (2) ausgebildet ist, um für einen Block des wenigstens einen Basiskanals als Fingerabdruck- Informationen einen Block-Fingerabdruck zu erzeugen, der einen zeitlichen Verlauf des Basiskanals in dem Block wiedergibt,

bei der ein Block der Mehrkanal-Zusatzinformationen zusammen mit dem Block des Basiskanals für die Multi- kanal-Rekonstruktion zu verwenden ist, und

bei der der Datenstrom-Erzeuger (4) ausgebildet ist, um den Datenstrom blockweise so zu schreiben, dass der Block von Mehrkanal-Zusatzinformationen und der Block von Fingerabdruck-Informationen eine vorbestimmte Beziehung zueinander aufweisen.

4. Vorrichtung nach Anspruch 2, bei der der Fingerabdruck-Erzeuger (2) ausgebildet ist, um für zeitlich folgende Blöcke des wenigstens einen Basiskanals als Fingerabdruck-Informationen eine Folge von Block- Fingerabdrücken zu berechnen,

bei der die Mehrkanal-Zusatzinformationen blockweise für zeitlich folgende Blöcke des wenigstens einen Basiskanals gegeben sind, und

bei der der Datenstrom-Erzeuger ausgebildet ist, um die Folge von Block-Fingerabdrucken in einer vorbe- stimmten Beziehung zu der Folge von Blöcken der Mehrkanal-Zusatzinformationen zu schreiben.

5. Vorrichtung nach Anspruch 4, bei der der Fingerab- druck-Erzeuger (2) ausgebildet ist, um eine Differenz zwischen zwei Fingerabdruck-Werten zweier Blöcke des wenigstens einen Basiskanals als Block-Fingerabdruck zu berechnen.

6. Vorrichtung nach einem der vorhergehenden Ansprüche, bei der der Fingerabdruck-Erzeuger (2) ausgebildet ist, um eine Quantisierung und Entropie-Codierung von Fingerabdruck-Werten durchzuführen, um die Fingerabdruck-Informationen zu erhalten.

7. Vorrichtung nach Anspruch 6, bei der der Fingerabdruck-Erzeuger (2) ausgebildet ist, um Fingerabdruck- Werte mit einer Skalierungsinformation zu skalieren und die Skalierungsinformation ferner in Zuordnung zu den Fingerabdruck-Informationen in den Datenstrom zu schreiben.

8. Vorrichtung nach einem der vorhergehenden Ansprüche, bei der der Fingerabdruck-Erzeuger (2) ausgebildet ist, um die Fingerabdruck-Informationen blockweise zu berechnen, und

bei der der Datenstrom-Erzeuger (4) ausgebildet ist, um den Datenstrom blockweise zu schreiben, sodass ein Block des Datenstroms einen Block von Mehrkanal- Zusatzinformationen und einen Block von Fingerabdruck- Informationen, die dem Block von Mehrkanal- Zusatzinformationen und einem Block des wenigstens einen Basiskanals zugeordnet sind, aufweist.

9. Vorrichtung nach einem der vorhergehenden Ansprüche, bei der wenigstens zwei Basiskanäle vorhanden sind, und bei der der Fingerabdruck-Erzeuger (2) ausgebildet ist, um die wenigstens zwei Basiskanäle abtastwertwei- se oder spektralwertweise zu addieren oder vor der Ad- dition zu quadrieren.

10. Vorrichtung nach einem der vorhergehenden Ansprüche, bei der der Fingerabdruck-Erzeuger (2) ausgebildet ist, um als Fingerabdruck-Informationen Daten über ei- ne Energiehüllkurve des wenigstens einen Basiskanals zu verwenden.

11. Vorrichtung nach Anspruch 10, bei der der Fingerabdruck-Erzeuger (2) ausgebildet ist, um als Fingerab- druck-Informationen Daten über eine Energiehüllkurve des wenigstens einen Basiskanals zu verwenden, und

bei der der Fingerabdruck-Erzeuger (2) ferner ausgebildet ist, um eine Minimumbegrenzung der Energie zu verwenden und eine logarithmische Darstellung einer Minimum-begrenzten Energie zu liefern.

12. Vorrichtung nach Anspruch 11, bei der der wenigstens eine Basiskanal in codierter Form zu einem Multikanal- Rekonstruierer übertragbar ist,

wobei die codierte Form unter Verwendung eines verlustbehafteten Codierers erzeugt worden ist, und

bei der ferner ein Basiskanal-Decodierer vorhanden ist, um eine decodierte Form des wenigstens einen Basiskanals als Eingangssignal für den Fingerabdruck- Erzeuger (2) bereitzustellen.

13. Vorrichtung nach einem der vorhergehenden Ansprüche, bei der die Mehrkanal-Zusatzdaten Mehrkanal- Parameterdaten sind, die jeweils blockweise entspre- chenden Blöcken des wenigstens einen Basiskanals zugeordnet sind.

14. Vorrichtung nach Anspruch 13, die ferner folgende Merkmale aufweist:

einen Mehrkanal-Analysierer (112) zum blockweisen Erzeugen sowohl einer Folge von Blöcken des wenigstens einen Basiskanals als auch einer Folge von Blöcken der Mehrkanal-Zusatzinformationen,

wobei der Fingerabdruck-Erzeuger (2) ausgebildet ist, um von jedem Block von Werten des wenigstens einen Basiskanals einen Block-Fingerabdruckwert zu berechnen.

15. Vorrichtung nach Anspruch 14, bei der der Datenstrom- Erzeuger (4) ausgebildet ist, um den Datenstrom in einen separaten Datenkanal zu schreiben, der zusätzlich zu einem Standard-Datenkanal vorhanden ist, über den der wenigstens eine Basiskanal zu einer Multikanal- Rekonstruktionseinrichtung übertragbar ist.

16. Vorrichtung nach Anspruch 15, bei der der Standard- Datenkanal ein standardisierter Kanal für ein digita- les Stereo-Rundfunksignal oder ein standardisierter Kanal für eine Übertragung über das Internet ist.

17. Vorrichtung zum Erzeugen einer Multikanal-Darstellung

(18, 20) eines ursprünglichen Multikanal-Signals aus wenigstens einem Basiskanal und einem Datenstrom, der Fingerabdruck-Informationen, die einen zeitlichen Verlauf des -wenigstens einen Basiskanals wiedergeben, und Mehrkanal-Zusatzinformationen aufweist, die zusammen mit dem wenigstens einen Basiskanal die Multikanal- Rekonstruktion des ursprünglichen Multikanal-Signals ermöglichen, wobei aus dem Datenstrom ein Zusammenhang zwischen den Mehrkanal-Zusatzinformationen und den Fingerabdruck-Informationen ableitbar ist, mit folgenden Merkmalen:

einem Fingerabdruck-Erzeuger (11) zum Erzeugen von Test-Fingerabdruckinformationen aus dem wenigstens einen Basiskanal;

einem Fingerabdruck-Extrahierer (9) zum Extrahieren der Fingerabdruck-Informationen aus dem Datenstrom, um Referenz-Fingerabdruckinformationen zu erhalten; und

einem Synchronisierer (13) zum zeitlichen Synchronisieren der Mehrkanal-Zusatzinformationen und des wenigstens einen Basiskanals unter Verwendung der Test- Fingerabdruckinformationen, der Referenz- Fingerabdruckinformationen und eines aus dem Datenstrom abgeleiteten Zusammenhangs der Mehrkanal- Informationen und der in dem Datenstrom enthaltenen Fingerabdruck-Informationen, um eine synchronisierte Multikanal-Darstellung zu erhalten.

18. Vorrichtung nach Anspruch 17, die ferner folgendes Merkmal aufweist:

einen MuItikanal-Rekonstruierer (21) zum Rekonstruieren der Multikanal-Darstellung unter Verwendung der synchronisierten Multikanal-Darstellung, um eine Rekonstruktion des ursprünglichen Multikanal-Signals zu erhalten.

19. Vorrichtung nach Anspruch 17 oder 18,

bei der der Datenstrom eine Folge von Blöcken von Mehrkanal-Zusatzdaten in zeitlichem Zusammenhang mit einer Folge von Referenz-Fingerabdruckwerten als Referenz-Fingerabdruckinformationen aufweist, bei der der Extrahierer (9) ausgebildet ist, um zu einem Block von Mehrkanal-Zusatzdaten aufgrund des zeitlichen Zusammenhangs einen zugehörigen Fingerabdruckwert zu ermitteln;

bei der der Fingerabdruck-Erzeuger (11) ausgebildet ist, um für eine Folge von Blöcken des wenigstens einen Basiskanals eine Folge von Test- Fingerabdruckwerten als Test- Fingerabdruckinformationen zu ermitteln;

bei der der Synchronisierer (13) ausgebildet ist, um aufgrund eines Versatzes (30) zwischen der Folge von Test-Fingerabdruckwerten und der Folge von Referenz- Fingerabdruckwerten einen Versatz zwischen den Blöcken von Mehrkanal-Zusatzdaten und den Blöcken des wenigstens einen Basiskanals zu berechnen, und um den Versatz durch Verzögern (28) der Folge von Blöcken der Mehrkanal-Zusatzinformationen unter Verwendung des be- rechneten Versatzes zu kompensieren.

20. Vorrichtung nach einem der Ansprüche 17 bis 19,

bei der der Fingerabdruck-Erzeuger (11) ausgebildet ist, um eine Quantisierung von Fingerabdruck-Werten durchzuführen, um die Test-Fingerabdruck-Informationen zu erhalten.

21. Vorrichtung nach einem der Ansprüche 17 bis 20,

bei der der Fingerabdruck-Erzeuger (11) ausgebildet ist, um Fingerabdruck-Werte mit einer Skalierungsinformation aus dem Datenstrom zu skalieren.

22. Vorrichtung nach einem der Ansprüche 17 bis 21,

bei der wenigstens zwei Basiskanäle vorhanden sind, und bei der der Pingerabdruck-Erzeuger (11) ausgebildet ist, um die wenigstens zwei Basiskanäle abtastwertwei- se oder spektralwertweise zu addieren oder vor der Ad- dition zu quadrieren.

23. Vorrichtung nach einem der Ansprüche 17 bis 22,

bei der der Fingerabdruck-Erzeuger (11) ausgebildet ist, um als Fingerabdruck-Informationen Daten über eine Energiehüllkurve des wenigstens einen Basiskanals zu verwenden,

24. Vorrichtung nach einem der Ansprüche 17 bis 23

bei der der Fingerabdruck-Erzeuger (11) ausgebildet ist, um als Fingerabdruck-Informationen Daten über eine Energiehüllkurve des wenigstens einen Basiskanals zu verwenden, und

bei der der Fingerabdruck-Erzeuger (11) ferner ausgebildet ist, um eine Minimumbegrenzung der Energie zu verwenden und eine logarithmische Darstellung einer Minimum-begrenzten Energie zu liefern.

25. Vorrichtung nach einem der Ansprüche 17 bis 24, bei der der Datenstrom blockweise organisiert ist und in einem Block des Datenstroms ein Block von Mehrkanal- Zusatzinformationen und ein Block-Fingerabdruck ent- halten sind,

bei der der Fingerabdruck-Erzeuger (11) ausgebildet ist, um als Test-Fingerabdruck-Information eine Differenz zwischen zwei Block-Fingerabdrucken des wenigs- tens einen Basiskanals zu berechnen, und

bei der der Fingerabdruck-Extrahierer (9) ferner ausgebildet ist, um eine Differenz aus zwei Block- Fingerabdrücken im Datenstrom zu berechnen und als Referenz-Fingerabdruck-Informationen zu dem Synchronisierer (13) zu liefern.

26. Vorrichtung nach einem der Ansprüche 17 bis 25,

bei der der Synchronisierer (13) ausgebildet ist, um parallel zu einer Audioausgabe einen Versatz zwischen den Mehrkanal-Zusatzdaten und dem wenigstens einen Ba- siskanal zu berechnen und den Versatz adaptiv zu kompensieren.

27. Vorrichtung nach Anspruch 18, die ferner ausgebildet ist, um dann, wenn noch keine synchronisierten Mehrka- nal-Zusatzdaten vorliegen, den wenigstens einen Basiskanal wiederzugeben und dann, wenn synchronisierte .Mehrkanal-Zusatzdaten vorhanden sind, von einer Mono- oder Stereo-Wiedergabe des. wenigstens einen Basiskanals in eine Multikanal-Wiedergabe umzuschalten (32) .

28. Vorrichtung nach einem der Ansprüche 17 bis 27, die ausgebildet ist, um den Datenstrom und den wenigstens einen Basiskanal über voneinander separate Bitströme zu erhalten, die über zwei voneinander unterschiedli- che logische Kanäle oder physische Kanäle empfangen werden, oder über denselben allerdings zu unterschiedlichen Zeiten aktiven Übertragungskanal erhalten werden.

29. Verfahren zum Erzeugen eines Datenstroms für eine MuI- tikanal-Rekonstruktion eines ursprünglichen Multika- nal-Signals, wobei das Multikanal-Signal wenigstens zwei Kanäle hat, mit folgenden Schritten:

Erzeugen (2) von Fingerabdruck-Informationen aus wenigstens einem aus dem ursprünglichen Multikanal- Signal abgeleiteten Basis-Kanal, wobei eine Anzahl von Basis-Kanälen größer oder gleich 1 und kleiner als ei- ne Anzahl von Kanälen des ursprünglichen Multikanal- Signals ist, wobei die Fingerabdruck-Informationen einen zeitlichen Verlauf des wenigstens einen Basiskanals wiedergeben; und

Erzeugen (4) eines Datenstroms aus den Fingerabdruck- Informationen und von zeitlich variablen Mehrkanal- Zusatzinformationen, die zusammen mit dem wenigstens einen Basis-Kanal die Multikanal-Rekonstruktion des ursprünglichen Multikanal-Signals ermöglichen, wobei der Datenstrom so erzeuget wird, dass aus dem Datenstrom ein zeitlicher Zusammenhang zwischen den Mehrka-- nal-Zusatzinformationen und den Fingerabdruck- Informationen ableitbar ist.

30. Verfahren zum Erzeugen einer Multikanal-Darstellung

(18, 20) eines ursprünglichen Multikanal-Signals aus wenigstens einem Basiskanal und einem Datenstrom, der

Fingerabdruck-Informationen, die einen zeitlichen Ver- lauf des wenigstens einen Basiskanals wiedergeben, und Mehrkanal-Zusatzinformationen aufweist, die zusammen mit dem wenigstens einen Basiskanal die Multikanal- Rekonstruktion des ursprünglichen Multikanal-Signals ermöglichen, wobei aus dem Datenstrom ein Zusammenhang zwischen den Mehrkanal-Zusatzinformationen und den Fingerabdruck-Informationen ableitbar ist, mit folgenden Schritten:

Erzeugen (11) von Test-Fingerabdruckinformationen aus dem wenigstens einen Basiskanal;

Extrahieren (9) der Fingerabdruck-Informationen aus dem Datenstrom, um Referenz-Fingerabdruckinformationen zu erhalten; und

Synchronisieren (13) der Mehrkanal-Zusatzinformationen und des wenigstens einen Basiskanals unter Verwendung der Test-Fingerabdruckinformationen, der Referenz- Fingerabdruckinformationen und eines aus dem Datenstrom abgeleiteten Zusammenhangs der Mehrkanal- Informationen und der in dem Datenstrom enthaltenen Fingerabdruck-Informationen, um eine synchronisierte Multikanal-Darstellung zu erhalten.

31. Computer-Programm mit einem Programmcode zur Ausführung des Verfahrens gemäß Patentanspruch 29 oder Patentanspruch 30, wenn das Computer-Programm auf einem Rechner abläuft.

32. Datenstrom, der Fingerabdruck-Informationen, die einen zeitlichen Verlauf, wenigstens eines aus einem ursprünglichen Multikanal-Signal abgeleiteten Basis- Kanals wiedergeben, wobei eine Anzahl von Basis- Kanälen größer oder gleichen 1 und kleiner als eine Anzahl von Kanälen des ursprünglichen Multikanal- Signals ist, und Mehrkanal-Zusatzinformationen aufweist, die zusammen mit dem wenigstens einen Basiska- nal die Multikanal-Rekonstruktion des ursprünglichen Multikanal-Signals ermöglichen, wobei aus dem Datenstrom ein Zusammenhang zwischen den Mehrkanal- Zusatzinformationen und den Fingerabdruck- Informationen ableitbar ist.

33. Datenstrom nach Anspruch 32, der Steuersignale aufweist, um eine synchronisierte Multikanal-Darstellung des ursprünglichen Multikanal-Signals zu erzeugen, wenn der Datenstrom in die Vorrichtung nach Patentan- spruch 17 eingespeist wird.