WO2006102991A1 - Vorrichtung und verfahren zum erzeugen eines datenstroms und zum erzeugen einer multikanal-darstellung - Google Patents

Vorrichtung und verfahren zum erzeugen eines datenstroms und zum erzeugen einer multikanal-darstellung Download PDF

Info

Publication number
WO2006102991A1
WO2006102991A1 PCT/EP2006/002369 EP2006002369W WO2006102991A1 WO 2006102991 A1 WO2006102991 A1 WO 2006102991A1 EP 2006002369 W EP2006002369 W EP 2006002369W WO 2006102991 A1 WO2006102991 A1 WO 2006102991A1
Authority
WO
WIPO (PCT)
Prior art keywords
channel
fingerprint
block
information
multichannel
Prior art date
Application number
PCT/EP2006/002369
Other languages
English (en)
French (fr)
Inventor
Wolfgang Fiesel
Matthias Neusinger
Harald Popp
Stephan Geyersberger
Original Assignee
Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. filed Critical Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.
Priority to CA2603027A priority Critical patent/CA2603027C/en
Priority to CN200680019473XA priority patent/CN101189661B/zh
Priority to EP06707562A priority patent/EP1864279B1/de
Priority to DE502006003997T priority patent/DE502006003997D1/de
Priority to AU2006228821A priority patent/AU2006228821B2/en
Priority to JP2008503398A priority patent/JP5273858B2/ja
Priority to AT06707562T priority patent/ATE434253T1/de
Publication of WO2006102991A1 publication Critical patent/WO2006102991A1/de
Priority to US11/863,523 priority patent/US7903751B2/en
Priority to HK08106159.6A priority patent/HK1111259A1/xx

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing

Definitions

  • the present invention relates to audio signal processing, and more particularly to multi-channel
  • Binaural Cue Coding (BCC) and Spatial Audio Coding, as described in J. Herre, C. Faller, S. Disch, C. Ertel, J Hubert, A. Hoeller, K. Linzmeier, C. Sprenger, P. Kroon: "Spatial Audio Coding: Next-Generation Efficient and Compatible Coding of Multi-Channel Audio", 117th. AES Convention, San Francisco 2004, Preprint 6186.
  • FIG. 3 shows a joint stereo device 60.
  • This device may be a device that, for example, the intensity stereo (IS) technology or the Binaural Cue coding technique (BCC) implemented.
  • IS intensity stereo
  • BCC Binaural Cue coding technique
  • Such a device typically receives as input at least two channels CHI, CH2, .... CHn, and outputs a single carrier channel as well as multi-channel parametric information.
  • the parametric data is defined so that an approximation of an original channel (CHI, CH2, ..., CHn) can be calculated in a decoder.
  • the carrier channel will include subband samples, spectral coefficients, time domain samples, etc. that provide a relatively fine representation of the underlying signal, while the parametric data does not include such samples or spectral coefficients, but control parameters for controlling a particular reconstruction algorithm, such as multiplying by weighting. by time shifting, by frequency shifting, etc.
  • the parametric multi-channel information therefore comprises a relatively rough representation of the signal or the associated channel.
  • the amount of data needed by a carrier channel is about 60 to 70 kbps, while the amount of data required by one channel parametric page information is in the range of 1.5 to 2.5 kbps.
  • the above figures apply to compressed data.
  • a non-compressed CD channel requires data rates on the order of about ten times.
  • An example of parametric data is the known scale factors, intensity stereo information, or BCC parameters, as set forth below.
  • the reconstructed signals differ in their amplitude, but they are identical in terms of their phase information.
  • the energy-time envelopes of both original audio channels are preserved by the selective scaling operation, which typically operates in a frequency-selective manner. This corresponds to the human perception of sound at high frequencies, where the dominant spatial information is determined by the energy envelopes.
  • the transmitted signal ie, the carrier channel
  • this processing ie, the generation of intensity stereo parameters for performing the scaling operations
  • both channels are combined to form a combined or "carrier M" channel and, in addition to the combined channel, the intensity stereo information.
  • the intensity stereo information depends on the energy of the first channel, the energy of the second channel or the energy of the combined channel.
  • the BCC technique is described in the AES convention paper 5574 "Binary Cue Coding applied to stereo and multiChannel audio compression ", T. Faller, F. Baumgarte, May 2002, Kunststoff
  • BCC coding a number of audio input channels are converted to a spectral representation using a DFT-based transformation with overlapping windows Spectrum is divided into non-overlapping sections, each of which has an index, each partition has a bandwidth proportional to the equivalent square-band (ERB) width, the Inter Channel Level Differences (ICLD) and the Inter channel time differences (ICTD) are determined for each partition and for each frame k
  • the ICLD and ICTD are quantized and encoded to finally arrive as page information in a BCC bit stream the inter-channel time differences are given for each channel relative to a reference channel, then the parameters are pre-determined calculated formulas that depend on the particular parti- tions of the signal being processed.
  • the decoder On the decoder side, the decoder typically receives a mono signal and the BCC bit stream.
  • the mono signal is transformed into the frequency domain and input to a spatial synthesis block, which also receives decoded ICLD and ICTD values.
  • the BCC parameters ICLD and ICTD are used to perform a mono signal weighting operation to synthesize the multichannel signals representing, after frequency / time conversion, a reconstruction of the original multichannel audio signal.
  • the joint stereo module 60 operates to output the channel-side information such that the parametric channel data is quantized and encoded ICLD or ICTD parameters using one of the original channels as the reference channel for encoding the channel side information becomes.
  • the carrier signal is formed from the sum of the participating source channels.
  • the above techniques provide only a monodar position for a decoder that can process only the carrier channel, but is unable to process the parametric data to produce one or more approximations of more than one input channel.
  • FIGS. 4 to 6 a typical BCC scheme for multi-channel audio decoding is shown in greater detail, referring to FIGS. 4 to 6.
  • Fig. 5 shows such a BCC scheme for coding / transmission of multichannel audio signals.
  • the multi-channel audio input signal at an input 110 of a BCC encoder 112 is down-converted in a so-called downmix block 114.
  • the original multi-channel signal at the input 110 is a 5-channel surround signal having a front left channel, a front right channel, a left surround channel, a right surround channel and a center channel.
  • the downmix block 114 generates a sum signal by simply adding these five channels into a mono signal.
  • inter-channel level differences ICLD
  • inter-channel time differences ICTD
  • the BCC analysis block 116 is also capable of calculating inter-channel correlation (ICC) values.
  • the sum signal and the page information are transmitted in a quantized and encoded format to a BCC decoder 120.
  • the BCC decoder splits the transmitted sum signal into a number of subbands and performs scaling, delays and other processing to provide the subbands of the multichannel audio channels to be output. This processing is performed so that the ICLD, ICTD and ICC parameters (cues) of a reconstructed multichannel signal at output 121 match the corresponding cues for the original multichannel signal at input 110 in BCC encoder 112.
  • the BCC decoder 120 includes a BCC synthesis block 122 and a page information reworking block 123.
  • the sum signal on line 115 is fed to a time / frequency conversion unit or filter bank FB 125.
  • FB 125 At the output of the block 125 there exists a number N of subband signals or, in an extreme case, a block of spectral coefficients, when the audio filter bank 125 performs a 1: 1 transformation, i. H. a transformation that generates N spectral coefficients from N time domain samples.
  • the BCC synthesis block 122 further comprises a delay stage 126, a level modification stage 127, a correlator At the output of stage 129, the reconstructed multichannel audio signal with, for example, five channels in the case of a 5-channel surround system can be output to a set of loudspeakers 124 as shown in FIG. 5 or FIG are shown.
  • the input signal sn is converted into the frequency domain or the filter bank region by means of the element 125.
  • the signal output by element 125 is copied so as to obtain multiple versions of the same signal, as represented by copy node 130.
  • the number of versions of the original signal is equal to the number of output channels in the output signal.
  • each version of the original signal at node 130 undergoes a particular delay di, d 2 , ..., di, ... ds.
  • the delay parameters are calculated by the page information processing block 123 in FIG. 5 and derived from the inter-channel time differences as calculated by the BCC analysis block 116 of FIG.
  • the ICC parameters calculated by the BCC analysis block 116 are used to control the functionality of the block
  • the order of steps 126, 127, 128 may differ from the sequence shown in FIG.
  • the BCC analysis is carried out in frames, that is temporally variable, and that further a frequency-wise BCC analysis is obtained, as can be seen by the filter bank division of FIG. This means that the BCC parameters are obtained for each spectral band.
  • the audio filter bank 125 decomposes the input signal into, for example, 32 bandpass signals, the BCC analysis block receives a set of BCC parameters for each of the 32 bands.
  • the BCC synthesis block 122 of Fig. 5, which is detailed in Fig. 6, performs a reconstruction based on the 32 bands exemplified.
  • ICLD, ICTD and ICC parameters can be defined between channel pairs. However, it is preferred to determine the ICLD and ICTD parameters between a reference channel and each other channel. This is shown in Fig. 4A.
  • ICC parameters can be defined in several ways. Generally speaking, one can determine ICC parameters in the encoder between all possible channel pairs, as shown in Fig. 4B. However, it has been proposed to calculate only ICC parameters between the strongest two channels at a time, as shown in Fig. 4C, where an example is shown where at one time an ICC parameter between channels 1 and 2 is calculated, and at another time an ICC parameter between channels 1 and 5 is calculated. The decoder then synthesizes the inter-channel correlation between the strongest channels in the decoder and uses certain heuristic rules to compute and synthesize the inter-channel coherence for the remaining channel pairs.
  • the multiplication parameters ai, a N represent an energy distribution of an original multichannel signal. Without loss of generality, it is preferred, as shown in FIG. 4A, to take four ICLD parameters representing the energy difference between the respective channels and the front left channel . In the page information processing block 122, the multiplication parameters ai, ..., a "are derived from the ICLD parameters such that the total energy of all reconstructed output channels is the same (or proportional to the energy of the transmitted sum signal).
  • block-based schemes are used in which, as also shown in FIG. 5, the original multichannel signal at input 110 undergoes block processing through a block stage 111 such that from one block of, for example, 1152 samples downmix Signal or sum signal or the at least one base channel is formed for this block, while at the same time the corresponding multi-channel parameters are generated for this block by the BCC analysis.
  • the sum signal is typically encoded again with a block based encoder, such as an MP3 encoder or an AAC encoder, to obtain a further data rate reduction.
  • the parameter data is coded, for example by differential coding, scaling / quantization and entropy coding.
  • a common data stream is written in which a block of the at least one base channel follows an earlier block of the at least one base channel, and in which the encoded multi-channel overhead information is also keyed in, for example by a bit stream multiplexer.
  • This keying takes place in such a way that the data stream of basic channel data and additional multi-channel information always comprises one block of basic channel data and, in association with this block, comprises a block of multichannel additional data which is then z. B. form a common transmission frame. This transmission frame is then sent over a transmission link to a decoder.
  • the decoder again comprises a data stream demultiplexer on the input side for splitting a frame of the data stream into a block of basic channel data and a block of associated multichannel additional information. Then the block of basic data z. B. decoded by an MP3 decoder or an AAC decoder. This block of decoded basic data is then supplied to the BCC decoder 120 together with the block of optionally also decoded multichannel additional information.
  • the temporal assignment of the additional information to the basic channel data is automatically determined and readily re-established by a decoder which operates on a frame-by-frame basis.
  • the decoder will to a certain extent automatically find the additional information associated with a block of basic channel data, so that high-quality multi-channel reconstruction is possible. So there will be no problem that the multi-channel additional information have a time offset to the basic channel data.
  • a situation may arise, for example, in a sequentially operating transmission system, such as broadcasting or the Internet.
  • the audio program to be transmitted is divided into basic audio data (mono or stereo demix audio signal) and extension data (multichannel additional information), which are broadcast singly or in combination.
  • coders / decoders with non-constant output data rate in order to achieve a particularly good bit efficiency.
  • this processing also depends on the actually used hardware components for decoding, as they must be present for example in a PC or digital receiver.
  • systemic or algorithmic-inherent fuzziness since, in particular, in the case of bit savings bank technology, on average, a constant output data rate is generated, however, locally, bits that are not needed for a particularly well-to-be-coded block are saved in order for another block, which is particularly difficult to code because the audio signal z. B. is particularly transient to be removed from the Bitsparkasse again.
  • the separation of the common data stream described above into two individual data streams has particular advantages. So is a classic receiver, so z. For example, a pure mono or stereo receiver at any time, regardless of the content and version of the multi-channel additional information, is able to receive and reproduce the audio base data. The separation into separate data streams thus ensures the backward compatibility of the entire concept.
  • a receiver of the newer generation can evaluate this multi-channel additional data and combine it with the audio base data in such a way that the user can be provided with the complete extension, here the multi-channel sound.
  • a particularly interesting application scenario of separate transmission of audio base data and extension data is in digital broadcasting.
  • the previously broadcast stereo audio signal can be extended by a small additional transmission effort to a multi-channel format, such as 5.1.
  • the program provider generates on the transmitter side from multi-channel sound sources, such as those found on DVD-Audio / Video, the multi-channel additional information.
  • these multichannel additional information is transmitted in parallel to the as yet radiated audio stereo signal, which is now not simply a stereo signal, but comprises two base channels derived from the multichannel signal by some downmix.
  • the stereo signal of the two base channels sounds like a normal stereo signal because multichannel analysis ultimately takes similar steps as those made by a sound engineer who mixed a stereo signal out of multiple tracks.
  • a major advantage of the separation is the compatibility with the existing digital broadcasting systems.
  • a classic receiver that can not evaluate this additional information will continue to receive and reproduce the bilingual signal without any qualitative restrictions.
  • a receiver of a newer design can, in addition to the previously received stereo sound signal, evaluate and decode this multichannel information and reconstruct the original 5.1 multichannel signal therefrom.
  • multi-channel additional information as a supplement to the previously used stereo signal
  • the receiver therefore sees only one (valid) audio data stream and, if it is a receiver of the newer type, can extract from the data stream the multichannel sound additional information via a corresponding upstream data distributor again synchronously to the associated audio data block, decode and output as a 5.1 multichannel sound ,
  • a disadvantage of this approach is the extension of the existing infrastructure or the existing data paths, so that instead of just the stereo audio signals as before, the signals combined from downmix signals and expansion can transport signals. So, if you leave the standard transfer format for stereo data, syn- chronousness can be ensured even during broadcast transmissions by the common data stream.
  • the other alternative is not to couple the multichannel overhead information to the audio encoding system used and therefore not key in the actual audio data stream.
  • the transmission takes place via a separate, but not necessarily synchronized, parallel digital additional channel.
  • This situation can occur if the downmix data are passed in unreduced form, for example as AES / EBÜ data format PCM data through a standard audio distribution infrastructure in studios. These infrastructures are designed to digitally distribute audio signals between diverse sources. For this purpose, normally known as "crossbars" functional units are used.
  • audio signals are processed in the PCM Forraat for purposes of sound control and dynamic compression.All these steps lead to incalculable delays on a way from the transmitter to the receiver.
  • the separate transmission of base channel data and multi-channel additional information is particularly interesting since existing stereo infrastructures do not need to be changed, ie the disadvantages of non-standard conformity described here with regard to the first possibility do not occur.
  • a broadcasting system only needs to broadcast one additional channel, but not change the infrastructure for the existing stereo channel.
  • the overhead is therefore effectively driven solely on the receiver side, but so that there is backwards compatibility, so that a user who has a new receiver gets better sound quality than a user who has an old receiver.
  • the magnitude of the time shift can no longer be determined from the received audio signal and the additional information.
  • a timely correct reconstruction and assignment of the multi-channel signal in the receiver is no longer guaranteed.
  • Another example of such a delay problem is when an already-running two-channel transmission system is to be extended to multi-channel transmission, for example in a receiver of a digital radio.
  • the decoding of the downmix signal by means of a receiver already existing in the two-channel audio decoder whose delay time is not known and thus can not be compensated.
  • the downmix audio signal may even reach the multichannel reconstruction audio decoder via a transmission chain containing analog parts, ie one point is digital / analogue and analogue / digital conversion takes place after further storage / transmission , Something like this always takes place in a radio transmission. Again, no clues are initially available as to how an appropriate delay equalization of the downmix signal relative to the multi-channel overhead data can be performed. Even if the sampling frequency for the A / D conversion and the sampling frequency for the D / A conversion differ slightly, there is a slow time drift of the necessary compensation delay corresponding to the ratio of the two sampling rates to one another.
  • time synchronization method To synchronize the additional data to the basic data, various techniques can be used, which are known by the term “time synchronization method.” These are based on pasting timestamps into both data streams in such a way that a correct assignment of the associated data is based on these time stamps in the receiver However, entering timestamps also alters the normal stereo infrastructure.
  • the object of the present invention is to provide a concept for generating a data stream or for generating a multi-channel representation, by means of which a synchronization of basic channel data and multi-channel additional information can be achieved.
  • a device for generating a data stream according to claim 1 a device for generating a multi-channel representation according to claim 17, a method for generating a data stream according to claim 26, a method for generating a multi-channel representation according to claim 27, a computer Program according to claim 28 or a data flow representation according to claim 29 solved.
  • the present invention is based on the finding that a separate transmission and time-synchronous merging of a basic channel data stream and a multi-channel additional information data stream is made possible by the fact that the "multichannel data stream is modified on the" sender side "such that fingerprint information that at least a time profile of the at least reproduce a basic channel in which the data stream containing the multichannel additional information is introduced such that a relationship between the multichannel additional information and the fingerprint information can be derived from the data stream. Additional information about certain basic channel data. Exactly this assignment must also be secured when transferring separate data streams.
  • the affiliation of multichannel additional information to basic channel data is signaled on the sender side by the fact that fingerprint information is determined from the basic channel data with which the multichannel additional information which belongs to precisely this basic channel data is as it were marked.
  • This labeling of the relationship between the multichannel overhead information and the fingerprint information is achieved in block-wise data processing in that a block of multichannel overhead information corresponding exactly to a block of basic channel data contains a block fingerprint of that block Basic channel data to which the block under consideration of multi-channel additional information belongs.
  • the block fingerprint of the block of base channel data in the block structure of the multichannel overhead data stream may be keyed in such that each block of multichannel overhead information contains the block fingerprint of the associated base data.
  • the block fingerprint may be written immediately following a previously used block of multichannel overhead information, or may be written before the previously existing block, or may be written at any known location within that block, such that in multichannel reconstruction the block Fingerprint is readable for synchronization purposes.
  • the data stream therefore contains normal multichannel additional data as well as the block fingerprints interspersed accordingly. Alternatively, the data stream could also be written so that z.
  • all block fingerprints provided with additional information are at the beginning of the data stream generated in accordance with the present invention so that a first portion of the data stream contains only block fingerprints and a second portion of the data stream contains the block fingerprint information belonging block-wise written multi-channel additional data contains.
  • additional information such as a block counter
  • a large number of block fingerprints could simply be read in first to obtain the reference fingerprint information.
  • the test fingerprints are added until there is a minimum number of test fingerprints used for a correlation.
  • the set of reference fingerprints could e.g. B. are already subjected to differential coding when the correlation in the multi-channel reconstruction is performed using differences, while in the data stream no difference block fingerprints but absolute block fingerprints are included.
  • the data stream is processed on the receiver side with the basic channel data, that is to say initially decoded, for example, and then supplied to a multichannel reconstructor.
  • this multi-channel reconstructor is designed such that it, if it does not receive additional information, simply makes a through connection to output the preferably two base channels as a stereo signal.
  • Parallel to this is the extraction the reference fingerprint information and the calculation of the test fingerprint information from the decoded base channel data, to then perform a correlation calculation to calculate the offset of the base channel data to the multi-channel overhead data.
  • this offset is also the correct offset. This will be the case if the offset obtained by the second correlation calculation does not deviate more than a predetermined threshold from the offset obtained by the first correlation calculation.
  • Base channel data is thus processed at the moment it is received, so of course, only stereo data can be output in the period in which the synchronization takes place, ie the offset computation, since no synchronized multichannel additional information has yet been found.
  • the rendering may be performed so that the entire synchronization calculation is performed without stereo data being output in parallel, and then from the first one Block the base channel data to synchronized multi-channel additional information, and the listener will have a synchronized 5.1 experience from the first block.
  • the time for synchronization is normally about 5 seconds, since about 200 reference fingerprints are needed as reference fingerprint information for optimal offset calculation. If this delay of about 5 seconds is irrelevant, as is the case with unidirectional transmissions, for example, you can begin with a 5.1 playback - but only after the time required for the offset calculation.
  • time-varying and suitable fingerprint information is calculated from the corresponding mono or stereo downmix audio signal.
  • these fingerprint information are regularly keyed as a synchronization aid in the sent multi-channel additional data stream. This is preferably done as a data field in the middle of the block-organized z.
  • temporally variable and suitable fingerprint information is calculated from the corresponding stereo audio signal, ie the basic channel data. wherein according to the invention a number of two base channels is preferred. Furthermore, the fingerprints are extracted from the multi-channel additional information. Thereafter, the time offset between the multichannel overhead information and the received audio signal is calculated via correlation methods, such as calculating a cross-correlation between the test fingerprint information and the reference fingerprint information. Alternatively, trial-and-error methods can also be carried out in which different fingerprint information calculated from the base channel data on the basis of different block rasters is compared with the reference fingerprint information in order to use the test block raster, whose associated test fingerprint information on best match the reference fingerprint information to determine the temporal offset.
  • the audio signal of the base channels is synchronized with the multichannel additional information for the subsequent multichannel reconstruction by a downstream delay equalization stage.
  • a downstream delay equalization stage Depending on the implementation, only an initial delay can be compensated.
  • the offset computation is performed parallel to the reproduction in order to be able to readjust the offset as required and according to the result of the correlation calculation in the event of a drifting apart of the basic channel data and the multichannel additional information despite a compensated initial delay.
  • the delay equalization stage can thus also be actively regulated.
  • the present invention is advantageous in that there is no need to make any changes to the base channel data or to the basic channel data processing path.
  • the base channel data stream fed to a receiver is no different from a common base channel data stream. Changes are made only on the part of the multi-channel data stream. This is modified so that the finger imprint information is keyed.
  • changing the multichannel additional data stream does not lead to an unwanted departure from an already standardized, implemented and established solution, as would be the case if the base channel data stream were modified would.
  • the scenario according to the invention provides a particular flexibility for the distribution of multichannel additional information.
  • the multichannel additional information is parameter information that is very compact in terms of the required data rate or storage capacity
  • a digital receiver with such data can also be supplied completely separate from the stereo signal.
  • a user could obtain multi-channel additional information from a separate provider for stereo recordings that already exist on his solid-state player or on his CDs and save them on his playback device.
  • This storage is not a problem because the memory requirements, especially for multi-channel parametric additional information is not particularly large.
  • the multi-channel overhead data memory can retrieve the corresponding multi-channel overhead data stream and synchronize with the stereo signal based on the fingerprint information in the multi-channel overhead data stream to provide a multi-channel reconstruction to reach.
  • the solution according to the invention thus allows completely independent of the way the stereo signal, that is, regardless of whether it comes from a digital radio receiver, whether it comes from a CD, whether it comes from a DVD or whether it is z.
  • multi-channel additional data that may come from a very different source to synchronize with the stereo signal, the stereo signal then acts as a base channel data, then the basis of the multichannel reconstruction is performed.
  • FIG. 1 shows a block diagram of a device according to the invention for generating a data stream
  • FIG. 2 is a block diagram of an inventive device for generating a multi-channel
  • Fig. 3 shows a known joint stereo encoder for generating channel data and parametric multi-channel information
  • FIG. 4 is an illustration of a scheme for determining ICLD, ICTD, and ICC parameters for BCC encoding / decoding;
  • Fig. 5 is a block diagram representation of a BCC encoder / decoder chain
  • Fig. 6 is a block diagram of one implementation of the BCC synthesis block of Fig. 5;
  • Fig. 7a is a schematic representation of an original multi-channel signal as a result of blocks
  • Fig. 7b is a schematic representation of one or more base channels as a result of blocks
  • FIG. 7c shows a schematic representation of the data stream according to the invention with multi-channel information and associated block fingerprints
  • Fig. 7d is an exemplary diagram for a block of the data stream of Fig. 7c; 8 shows a more detailed representation of the device according to the invention for generating a multi-channel display according to a preferred embodiment;
  • FIG. 9 shows a schematic representation for clarifying the offset determination by correlation between the test fingerprint information and the reference fingerprint information
  • FIG. 11 shows a schematic representation of the calculation of the fingerprint information or coded fingerprint information on the encoder and decoder side.
  • the device comprises a fingerprint generator 2, to which at least one base channel derived from the original multi-channel signal can be supplied via an input line 3.
  • the number of base channels is greater than or equal to 1 and less than a number of channels of the original multi-channel signal. If the original multi-channel signal is just a stereo signal with only two channels, then there is only a single base channel derived from the two stereo channels. However, if the original multichannel signal is a signal with three or more channels, the number of base channels may be equal to two.
  • the original multi-channel signal is a surround signal with five channels and one LFE channel (LFE - Low Frequency Enhancement), this channel also being called a subwoofer.
  • the five channels are a left surround channel Ls, a left channel L, a center channel C, a right channel R, and a right rear surround channel Rs.
  • the two base channels are then the left base channel and the left channel right base channel.
  • one or more basic channels are also referred to as downmix channels or downmix channels.
  • the fingerprint generator 2 is designed to generate fingerprint information from the at least one base channel, the fingerprint information representing a time profile of the at least one base channel.
  • the fingerprint information is calculated more or less costly.
  • very elaborate fingerprints which are known under the heading "audio ID”
  • audio ID can be used here, in particular on the basis of statistical methods, but alternatively any other size could be used which in some way represents the time course of the one or the multiple base channels represented.
  • the fingerprint information is composed of a series of block fingerprints, where a block fingerprint is a measure of the energy of the one or more base channels in the block.
  • a block fingerprint is a measure of the energy of the one or more base channels in the block.
  • the fingerprint Information thus derived from the sample data of at least one base channel and give the time history with more or less large error of the at least one base channel, so that, as will be explained later, at the decoder / receiver side a correlation with calculated from the base channel test Fingerprint information can be done to ultimately determine the offset between the data stream with the multi-channel additional information and the base channel.
  • the fingerprint generator 2 supplies, on the output side, the fingerprint information which is supplied to a data stream generator 4.
  • the data stream generator 4 is configured to generate a data stream from the fingerprint information and the typically time-varying multi-channel additional information, wherein the multi-channel additional information together with the at least one base channel is the multichannel reconstruction of the original multi-channel Enable signal.
  • the data stream generator is designed to generate the data stream at an output 5 such that a relationship between the multichannel additional information and the fingerprint information can be derived from the data stream.
  • the data stream of multichannel additional information is thus marked with the fingerprint information derived from the at least one base channel, such that the togetherness is provided via the fingerprint information, which is assigned to the multichannel additional information by the data stream generator 4 of certain multi-channel additional information to the basic channel data can be determined.
  • FIG. 2 shows a device according to the invention for generating a multi-channel representation of an original multichannel signal from at least one base channel and a data stream, which has fingerprint information representing a time profile of the at least one base channel and multi-channel additional information, the together men with the at least one base channel enable the multi-channel reconstruction of the original multi-channel signal, wherein from the data stream, a relationship between the multi-channel additional information and the fingerprint information is derivable.
  • the at least one base channel is fed via an input 10 to a receiver or decoder-side fingerprint generator 11.
  • the fingerprint generator 11 provides output test fingerprint information via an output 12 to a synchronizer 13.
  • the test fingerprint information is derived from the at least one base channel by exactly the same algorithm as is also executed in block 2 of FIG. However, depending on the implementation, the algorithms do not necessarily have to be identical.
  • the fingerprint generator 2 may generate a block fingerprint in absolute coding, while the fingerprint generator 11 performs a differential fingerprint determination on the decoder side, such that the test block fingerprint associated with a block represents the difference between two absolute values. Fingerprints is.
  • a fingerprint extractor 14 will extract the fingerprint information from the data stream and at the same time form differences, thereby providing the fingerprint information via an output 15 to the synchronizer 13 Data comparable to the test fingerprint information.
  • the decoder-side test fingerprint calculation algorithms and encoder-side fingerprint calculation algorithms which may also be referred to as reference fingerprint information in FIG. 2, be at least similar Synchronizer 13 using this two information the multichannel overhead data in the data stream obtained via an input 16 can be synchronized with the data via the at least one base channel.
  • a synchronized multichannel representation is obtained which comprises the basic channel data and synchronously the multichannel additional data.
  • the synchronizer 13 determines a time offset between the basic channel data and the multi-channel additional data and then delays the multi-channel additional data by this offset. It has been found that the multichannel overhead data typically arrives earlier, that is, too early, which can be attributed to the significantly smaller amount of data, which typically corresponds to the multichannel overhead data, compared to the amount of data for the base channel data. If, therefore, the multi-channel additional data is delayed, the data is fed via the at least one base channel from the input 10 via a base channel data line 17 to the synchronizer 13 and actually only "looped through” by this and output again at an output 18.
  • the data on lines 18 and 20 thus form the synchronized multi-channel representation, the data stream on line 20 corresponding to the data stream at input 16, apart from any multichannel overhead data coding, except for the fact that the fingerprint information is from the Data stream removed be, which can happen depending on the implementation in the synchronizer 13, or even before.
  • the fingerprint removal can also take place in the fingerprint extractor 14, so that there is no line 19, but a line 19 ', which goes directly from the fingerprint extractor 9 into the synchronizer 13.
  • the synchronizer 13 is therefore supplied in parallel by the fingerprint extractor with both the multi-channel additional data and with the reference fingerprint information.
  • the synchronizer is thus configured to synchronize the multichannel overhead information and the at least one base channel using the test fingerprint information and the reference fingerprint information and using the derived from the data stream context of the multichannel information with the fingerprint information contained in the data stream.
  • the timing relationship between the multichannel overhead information and the fingerprint information is preferably determined simply by whether the fingerprint information precedes a set of multichannel overhead information, a set of multichannel overhead information, or within a set of Multi-channel additional information is available. Depending on whether the fingerprints are in front of, behind, or in the midst of a set of multichannel additional information, it is determined on the encoder side that this multichannel information belongs to that fingerprint information.
  • block processing is used.
  • the keying of the fingerprints is made so that a block of multi-channel additional data always follows a block fingerprint, so that a block of multi-channel additional information alternates with a block fingerprint and vice versa.
  • a data stream format could be used in which the entire fingerprint information in one separate part at the beginning of the data stream, whereupon the whole data stream follows. So here block fingerprints and blocks of multichannel additional information would not alternate.
  • Alternative ways of assigning fingerprints to multichannel supplemental information are known to those skilled in the art. According to the invention, only a connection between the plurality of additional information and the fingerprint information on the decoder side has to be derivable from the data stream so that the fingerprint information can be used to synchronize the multichannel additional information with the basic channel data.
  • FIG. 7a shows an original multi-channel signal, for example a 5.1 signal, which consists of a sequence of blocks B1 to B8, wherein in a block in the example shown in Fig. 7a, multi-channel information MKi are included.
  • a block such as the block Bl, contains the first z. B. 1152 audio samples of each channel.
  • Such a block size is preferred, for example, in the BCC encoder 112 of FIG. 5, wherein the block image, that is, the windowing to obtain a sequence of blocks from a continuous signal, by the element 111 in FIG with "block v is reached is achieved.
  • the at least one base channel is present at the output of the downmix block 114, which is denoted "sum signal” in Fig. 5 and has the reference numeral 115.
  • the basic channel data can again be represented as a sequence of blocks B1 to B8 7b correspond to blocks B1 to B8 in Fig. 7a, but a block now no longer contains - if left in a time-domain representation - the original 5.1 signal, but only a monaural one. Signal or a signal reo signal with two stereo baseband channels.
  • the block Bl therefore again comprises the 1152 time samples of both the first stereo master channel and the second stereo master channel, these 1152 samples of both the left stereo base channel and the right stereo base channel being respectively calculated by sample addition / subtraction and optionally weighting.
  • the data stream with multichannel information again comprises blocks B1 to B8, each block in FIG. 1c corresponding to the corresponding block of the original multichannel signal in FIG. 7a and the one or more base channel of FIG. 7b, respectively.
  • the basic channel data in the block Bl of the basic channel data stream labeled BK1 must be combined with the multi-channel information Pl of the block Bl in FIG. 7c. This combination is performed in the embodiment shown in FIG. 6 by the BCC synthesis block, which again has a blocking stage at its input to obtain a block-by-block processing of the basic channel data.
  • P3 designates the multichannel information which, together with the block of values BK3 of the base channels, reconstructs a reconstruction of the block of values MK3 of the original multichannel signal.
  • each block Bi of the data stream of FIG. 7c is now provided with a block fingerprint.
  • This block fingerprint is now derived exactly from the block B3 of the block of values BK3.
  • the block fingerprint F3 could also be subjected to differential coding so that the block fingerprint F3 is equal to the differential is the block fingerprint of block BK3 of the base channels and the block fingerprint of the block of BK2 values of the base channels.
  • a block of energy or differential energy is used as the block fingerprint.
  • the data stream with the one or more base channels in FIG. 7b is transmitted to a multichannel reconstructor separately from the data stream with the multichannel information and the fingerprint information from FIG. 7c. If nothing else were to be done, the case could arise that the block BK5 is currently pending for processing at the multichannel reconstructor, for example at the BCC synthesis block 122 of FIG. It could also be that due to any temporal blurring, however, of the multichannel information, block B7 is present instead of block B5. Without further action, therefore, a reconstruction of the block of basic channel data BK5 would be made with the multi-channel information P7, which would lead to artifacts.
  • an offset of two blocks is now calculated such that the data stream in FIG. 7c is delayed by two blocks, such that a multi-channel display of the data stream of FIG. 7b and the data stream of Fig. 7c, but now synchronized with each other.
  • the offset determination according to the invention is not limited to the calculation of an offset as an integer multiple of a block, but can, if the correlation calculation is sufficiently accurate and a sufficiently large number of block fingerprints (which, of course, comes at the expense of the time period for calculating the correlation) can also achieve an offset accuracy that is equal to a fraction of a block and can reach up to one sample.
  • a high accuracy is not absolutely necessary, but that a synchronization accuracy of +/- half a block (with a block length of 1152 samples) already leads to a multichannel reconstruction, which judges a listener as artifact-free.
  • Fig. 7d shows a preferred embodiment for a block Bi, for example for the block B3 of the data stream in Fig. 7c.
  • the block is initiated with a sync word, which may be one byte long, for example.
  • a sync word which may be one byte long, for example.
  • length information since it is preferred to scale the multichannel information P3, as known in the art, according to its computation, and to entropy-encode, so that the length of the multichannel information, which may be parameter information, for example also a waveform signal z. B. of the side channel is not known from the outset and therefore must be signaled in the data stream.
  • the block fingerprint according to the invention is then inserted.
  • Fig. 7d can be introduced as Energyblot an absolute Energyhsted, or even a difference-Energieterrorism. Then the block B3 of the data stream would be added as a block fingerprint the difference between the energy measure for the base channel data BK3 and the energy measure for the base channel data BK2.
  • FIG. 8 shows a more detailed representation of the synchronizer, the fingerprint generator 11 and the fingerprint extractor 9 of FIG. 2 in cooperation with the multi-channel reconstructor 21.
  • the basic channel data is fed to a base channel data buffer 25 and buffered. Accordingly, the additional information or the data stream with the additional information and the fingerprint information is supplied to an additional information buffer 26.
  • Both buffers are generally constructed in the form of a FIFO buffer, but the buffer 26 has further capacities in that the fingerprint information from the reference fingerprint extractor 9 is extra-feasible and further removed from the data stream, so that on a buffer output line 27 only multi-channel additional information, but can be output without keyed fingerprints.
  • the removal of the fingerprints in the data stream may also be performed by a time shifter 28 or any other element such that the multi-channel reconstructor 21 is not disturbed by fingerprint bytes in the multi-channel reconstruction.
  • the fingerprint information calculated by the fingerprint generator 11, as well as the fingerprint information obtained by the fingerprint extractor 9, can be fed directly into a correlator 29 within the synchronizer 13 of FIG 2 are fed.
  • the correlator then calculates the offset value and provides it to the time shifter 28 via an offset line 30.
  • the synchronizer 13 is further configured to provide, when a valid offset value is generated, and to the time shifter 28. have been led to drive an enable 31 so that the enable 31 closes a switch 32, such that the stream of multi-channel overhead data from the buffer 26 is fed to the multicell reconstructor 21 via the time shifter 28 and the switch 32.
  • a time delay (delay) of the multichannel overhead information is made.
  • a multi-channel reconstruction is already performed in parallel to the calculation of the correct offset value.
  • this multichannel reconstruction is merely a "trivial" multichannel reconstruction since the preferably two stereo base channels are simply output from the multi-channel reconstructor 21. If the switch 32 is therefore open, only one stereo output follows. However, if the switch 32 is closed, the multichannel reconstructor 21 also receives the multichannel additional information in addition to the stereo base channels and can perform a multichannel output synchronized now. A listener only realizes this by switching from stereo quality to multichannel quality.
  • the output of the multichannel reconstructor 21 may be held back until there is a valid offset. Then the very first block (BK1 of FIG. 7b) with the now correctly delayed multi-channel additional data P1 (FIG. 7c) can already be supplied to the multichannel reconstructor 21, so that the output is started only when multichannel data is present. An output of the multichannel reconstructor 21 with the switch open will not exist in this embodiment.
  • the functionality of the correlator 29 of FIG. 8 will now be described with reference to FIG. At the output of the test fingerprint calculator 11, a sequence of test fingerprint information is provided, as seen in the top-most field of FIG.
  • a block fingerprint is present.
  • the reference fingerprint determiner 9 also generates a sequence of discrete reference fingerprints which it extracts from the data stream. If, for example, differential-coded fingerprint information is contained in the data stream, and if the correlator is to work on the basis of absolute fingerprints, a differential decoder 35 in FIG. 8 is activated. However, it is preferred that absolute fingerprints be used in the data stream.
  • the block 9 will perform difference processing before the correlator, and also the block 11 will perform difference processing before the correlator, as already stated.
  • the correlator 29 will now contain the discrete value series shown in the two upper sub-images of FIG. 9 and provide a correlation result shown in the lower part of FIG. 9.
  • the result is a correlation result whose offset component provides exactly the offset between the two fingerprint information curves. Since the offset is also positive, the multichannel additional information must be be postponed in a positive time direction, so be delayed. It should be noted that, of course, the basic channel data could be shifted in the negative time direction, or that both the multi-channel additional information can be shifted in the positive direction, and the base channel overhead data can be shifted a part of the offset in the negative time direction, so long the multichannel reconstructor contains a synchronized multi-channel representation at its two inputs.
  • the basic channel data is buffered to calculate one fingerprint at a time, after which the block from which a test block fingerprint has just been calculated is fed to the multichannel reconstructor for multichannel reconstruction. Thereafter, the next block of the base channel data is again fed to the buffer 25 so that a block test fingerprint can be calculated from this block again.
  • fewer than 200 blocks or more than 200 blocks may be used. According to the invention, it has been found that a number between 100 and 300 blocks, and preferably 200 blocks, provides results that provide a reasonable compromise between computation time, correlation computation, and offset accuracy.
  • a block 37 is entered in which the correlation between the 200 calculated test block fingerprints and the 200 calculated reference block fingerprints is performed by the correlator 29.
  • the offset result obtained there is saved now.
  • a block 38 corresponding to the block 36 a number of the next z. B. calculates 200 blocks of the base channel data. Accordingly, again 200 blocks are extracted from the data stream with the multi-channel additional information. Thereafter, in a block 39, a correlation is again performed, and the offset result obtained there is stored. Then, in a block 40, a deviation between the offset result due to the second 200 blocks and the offset result due to the first 200 blocks is detected.
  • the offset via the offset line 30 is supplied to the time shifter 28 of FIG. 8 by a block 41, and the switch 32 is closed so that the multi-channel output is transitioned from that point in time.
  • a predetermined value for the deviation threshold is, for example, a value of one or two blocks. This is because when an offset from one calculation to the next calculation does not change more than one or two blocks, no error has been made in the correlation calculation.
  • the z. B. 200 is used. So z. B. made a calculation with 200 blocks and obtained a result. Then one block is continued and one block is taken out of the number of blocks used for the correlation calculation and the new block is used for this purpose. The result obtained is then stored as well as the last result obtained in a histogram. This procedure is used for a number of correlation calculations, such as 100 or 200, so that the histogram gradually fills. The peak of the histogram is then used as a calculated offset to provide the initial offset or to obtain a dynamic offset offset.
  • the offset calculation taking place in parallel to the output will run in a block 42, and an adaptive or dynamic offset tracking will be achieved as required, when a drift of the data stream with the multichannel information and the data stream with the base channel data has been detected. by supplying an updated offset value via line 30 to time shifter 28 of FIG.
  • a smoothing of the offset change can also be carried out, so that if a deviation of, for example, two blocks has been determined, first the offset is incremented by 1 and then, if necessary is incremented again so that the jumps are not too big.
  • FIG. 11 a preferred embodiment of the encoder side fingerprint generator 2 shown in FIG. 1 and the fingerprint generator 11 of FIG. 2 as found on the decoder side of FIG. Page is inserted, shown.
  • the multichannel audio signal for obtaining the multichannel overhead data is divided into fixed size blocks.
  • a fingerprint is calculated for each block at the same time to obtain the multichannel additional data, which is suitable for characterizing the temporal structure of the signal as clearly as possible.
  • One exemplary embodiment of this is to use the energy content of the current downmix audio signal of the audio block, for example in logarithmic form, ie in a decibel-related representation.
  • the fingerprint is a measure of the temporal envelope of the audio signal.
  • this synchronization information can also be compared to the energy value of the previous block with subsequently suitable entropy coding, for example Huffman coding, adaptive scaling and quantization. be expressed.
  • suitable entropy coding for example Huffman coding, adaptive scaling and quantization.
  • an energy calculation of the downmix audio signal in the current block is optionally performed for a stereo signal.
  • This z For example, 1152 audio samples are squared and summed from both the left and right downmix channels.
  • si e f t (i) in this case represents a temporal sample at time i of the left base channel, while r ight s (i) represents a temporal sample of the right base channel at the time i.
  • si e f t (i) in this case represents a temporal sample at time i of the left base channel
  • r ight s (i) represents a temporal sample of the right base channel at the time i.
  • With a monophonic downmix signal the summation is omitted.
  • a minimum limitation of the energy is carried out for the purpose of subsequent logarithmic representation.
  • a minimum energy offset it is preferred to use a minimum energy offset to give a meaningful logarithmic calculation in the case of zero energy.
  • This energy metric in dB covers a range of 0 to 90 (dB) with an audio signal resolution of 16 bits.
  • this signal derivation is calculated by subtraction of the energy value with that of the previous block.
  • This step is z. B. completed in the encoder.
  • the fingerprint consists of difference coded values.
  • this step may also be implemented purely on the decoder side. be mented.
  • the transmitted fingerprint thus consists of non-differentially encoded values. The difference is only made here in the decoder. The latter possibility has the advantage that the fingerprint contains information about the absolute energy of the downmix signal. However, typically a slightly higher fingerprint word length is needed.
  • quantization of the fingerprint is made. To prepare this fingerprint for keying in the multichannel additional information, this is guantized to 8 bits. In practice, this reduced fingerprint resolution has proven to be a good compromise with regard to bit requirements and reliability of delay detection. Number overflows greater than 255 are limited to a maximum value of 255 with a saturation characteristic.
  • optimal entropy coding of the fingerprint can still be performed.
  • the bit requirement of the quantized fingerprint can be further reduced.
  • a suitable entropy method is, for example, Huffman coding or arithmetic coding. Statistically different frequencies of fingerprint values may be due to different Code lengths are expressed and thus on average reduce the bit requirements of the fingerprint representation.
  • the calculation of the multi-channel additional data is performed using the multi-channel audio data.
  • multichannel additional information calculated is then expanded by the newly added synchronization information by suitable embedding in the bit stream.
  • the receiver is now able to detect a time offset of downmix signal and additional data and to realize a time-correct adaptation, ie a delay compensation between stereo audio signals and multichannel additional information in the order of +/- H audio block.
  • a time-correct adaptation ie a delay compensation between stereo audio signals and multichannel additional information in the order of +/- H audio block.
  • the inventive method for generating or decoding can be implemented in hardware or in software.
  • the implementation may be on a digital storage medium, in particular a floppy disk or CD with electronically readable control signals, which may interact with a programmable computer system such that the method is performed.
  • the invention thus also consists in a computer program product with a program code stored on a machine-readable carrier for carrying out the method when the computer program product runs on a computer.
  • the invention can thus be realized as a computer program with a program code for carrying out the method when the computer program runs on a computer.

Abstract

Vorrichtung und Verfahren zum Erzeugen eines Datenstroms und zum Erzeugen einer Multikanal-Darstellung Zusammenfassung Zur zeitlichen Synchronisierung eines Datenstroms mit Mehrkanal-Zusatzdaten und eines Datenstroms mit Daten über wenigstens einen Basiskanal (3) wird auf Encodierer-Seite für den wenigstens einen Basiskanal (3) eine Fingerabdruck-Informationen-Berechnung (2) durchgeführt, um die Fingerabdruck-Informationen in zeitlichem Zusammenhang zu den Mehrkanal-Zusatzdaten in einen Datenstrom einzuführen (4). Auf Decodiererseite werden Fingerabdruckinformationen aus dem wenigstens einen Basiskanal berechnet und zusammen mit den aus dem Datenstrom extrahierten Fingerabdruckinformationen verwendet, um z. B. mittels einer Korrelation einen zeitlichen Versatz zwischen dem Datenstrom mit den Mehrkanal-Zusatzinformationen und dem Datenstrom mit dem wenigstens einen Basiskanal zu berechnen und zu kompensieren, um eine synchronisierte Multikanal-Darstellung zu erhalten.

Description

Vorrichtung und Verfahren zum Erzeugen eines Datenstroms und zum Erzeugen einer Multikanal-Darstellung
Beschreibung
Die vorliegende Erfindung bezieht sich auf die Audiosignal- Verarbeitung und insbesondere auf Multikanal-
Verarbeitungstechniken, die darauf basieren, dass auf der
Basis wenigstens eines Basiskanals bzw. Downmix-Kanals und
Mehrkanal-Zusatzinformationen eine Multikanal-
Rekonstruktion eines ursprünglichen Multikanalsignals er- zeugt wird.
Derzeit in der Entwicklung befindliche Technologien ermöglichen eine immer effizientere Übertragung von Audiosignalen durch Datenreduktion, aber auch eine Steigerung des Hörgenusses durch Erweiterungen, wie beispielsweise durch den Einsatz der Mehrkanaltechnik. Beispiele für eine solche Erweiterung der üblichen Übertragungstechniken sind in jüngster Zeit unter dem Namen Binaural Cue Coding (BCC) sowie „Spatial Audio Coding" bekannt geworden, wie es in J. Herre, C. Faller, S. Disch, C. Ertel, J. Hubert, A. Hoel- zer, K. Linzmeier, C. Sprenger, P. Kroon: „Spatial Audio Coding: Next-Generation Efficient and Compatible Coding of Multi-Channel Audio", 117th. AES Convention, San Francisco 2004, Preprint 6186, beschrieben ist.
Nachfolgend wird näher auf verschiedene Techniken zum Reduzieren der Datenmenge, die zur Übertragung eines Multika- nal-Audiosignals benötigt wird, eingegangen.
Solche Techniken werden Joint-Stereo-Techniken genannt. Zu diesem Zweck wird auf Fig. 3 verwiesen, die eine Joint- Stereo-Vorrichtung 60 zeigt. Diese Vorrichtung kann eine Vorrichtung sein, die beispielsweise die Intensity-Stereo- (IS-) Technik oder die Binaural Cue Codiertechnik (BCC) implementiert. Ein solches Gerät empfängt üblicherweise als Eingangssignal zumindest zwei Kanäle CHI, CH2, .... CHn, und gibt einen einzigen Trägerkanal sowie parametrische Multikanalinformationen aus. Die parametrischen Daten sind so definiert, dass in einem Decodierer eine Approximation eines Ursprungskanals (CHI, CH2, ..., CHn) berechnet werden kann.
Normalerweise wird der Trägerkanal Subband-Abtastwerte, Spektralkoeffizienten, Zeitbereichsabtastwerte etc. umfassen, die eine relativ feine Darstellung des zugrundeliegenden Signals liefern, während die parametrischen Daten keine solchen Abtastwerte oder Spektralkoeffizienten umfassen, sondern Steuerparameter zum Steuern eines bestimmten Rekonstruktionsalgorithmus, wie beispielsweise Gewichten durch Multiplizieren, durch Zeitverschieben, durch Frequenzverschieben, etc. Die parametrischen Multikanalinformationen umfassen daher eine relativ grobe Darstellung des Signals oder des zugeordneten Kanals. In Zahlen ausgedrückt beträgt die Menge an Daten, die von einem Trägerkanal benötigt wird, eine Menge von etwa 60 bis 70 kBit/s, während die Menge an Daten, die durch parametrische Seiteninformationen für einen Kanal benötigt wird, im Bereich von 1,5 bis 2,5 kBit/s ist. Es sei darauf hingewiesen, dass die vorstehenden Zahlen für komprimierte Daten gelten. Selbstverständlich benötigt ein nicht-komprimierter CD-Kanal Datenraten im Bereich von etwa dem Zehnfachen. Ein Beispiel für parametrische Daten sind die bekannten Skalenfaktoren, Intensi- ty-Stereo-Informationen oder BCC-Parameter, wie es nachfolgend dargelegt wird.
Die Technik der Intensity-Stereo-Codierung ist in dem AES- Preprint 3799, „Intensity Stereo Coding", J. Herre, K. H. Brandenburg, D. Lederer, Februar 1994, Amsterdam beschrieben. Allgemein basiert das Konzept von Intensity Stereo auf einer Hauptachsentransformation, die auf Daten beider stereophoner Audiokanäle durchzuführen ist. Wenn die meisten Datenpunkte um die erste Hauptachse herum konzentriert sind, kann ein Codiergewinn erreicht werden, indem beide Signale um einen bestimmten Winkel gedreht werden, bevor die Codierung stattfindet. Dies ist jedoch nicht immer für reale stereophone Reproduktionstechniken gegeben. Daher wird diese Technik dahingehend modifiziert, dass die zweite orthogonale Komponente von der Übertragung in dem Bitstrom ausgeschlossen wird. Somit bestehen die rekonstruierten Signale für den linken und den rechten Kanal aus unter- schiedlich gewichteten oder skalierten Versionen desselben übertragenen Signals. Dennoch unterscheiden sich die rekonstruierten Signale in ihrer Amplitude, sie sind jedoch i- dentisch im Hinblick auf ihre Phaseninformationen. Die E- nergie-Zeit-Hüllkurven beider ursprünglicher Audiokanäle werden jedoch durch die selektive Skalierungsoperation beibehalten, die typischerweise auf frequenzselektive Art und Weise arbeitet. Dies entspricht der menschlichen Wahrnehmung des Schalls bei hohen Frequenzen, wo die dominanten räumlichen Informationen durch die Energiehüllkurven be- stimmt werden.
Zusätzlich wird bei praktischen Implementierungen das übertragene Signal, d. h. der Trägerkanal aus dem Suπunensignal des linken Kanals und des rechten Kanals anstatt der Rota- tion beider Komponenten erzeugt. Ferner wird diese Verarbeitung, d. h. das Erzeugen von Intensity-Stereo-Parametern zum Durchführen der Skalierungsoperationen frequenzselektiv durchgeführt, d. h. unabhängig für jedes Skalenfaktorband, d. h. für jede Codiererfrequenzpartition. Vorzugsweise wer- den beide Kanäle kombiniert, um einen kombinierten oder „TrägerM-Kanal und zusätzlich zu dem kombinierten Kanal die Intensity-Stereo-Informationen zu bilden. Die Intensity- Stereo-Informationen hängen von der Energie des ersten Kanals, der Energie des zweiten Kanals oder der Energie des kombinierten Kanals ab.
Die BCC-Technik ist in dem AES-Convention-Paper 5574 „Bi- naural Cue Coding applied to stereo and multiChannel audio compression", T. Faller, F. Baumgarte, Mai 2002, München, beschrieben. Bei der BCC-Codierung wird eine Anzahl von Audioeingangskanälen in eine Spektraldarstellung umgewandelt, und zwar unter Verwendung einer DFT-basierten Transformati- on mit überlappenden Fenstern. Das resultierende Spektrum wird in nicht-überlappende Abschnitte eingeteilt, von denen jeder einen Index hat. Jede Partition hat eine Bandbreite proportional zu der äquivalenten Rechteckbandbreite (ERB) . Die Inter-Kanal-Pegelunterschiede (ICLD; ICLD = Inter Chan- nel Level Differences) und die Interkanal-Zeitunterschiede (ICTD; ICTD = Inter Channel Time Differences) werden für jede Partition und für jeden Frame k ermittelt. Die ICLD und ICTD werden quantisiert und codiert, um schließlich als Seiteninformationen in einen BCC-Bitstrom zu kommen. Die Interkanal-Pegelunterschiede und die Interkanal- Zeitunterschiede sind für jeden Kanal relativ zu einem Referenzkanal gegeben. Dann werden die Parameter gemäß vorbestimmter Formeln berechnet, die von den bestimmten Partiti- onen des zu verarbeitenden Signals abhängen.
Auf Decodiererseite empfängt der Decodierer typischerweise ein Monosignal und den BCC-Bitstrom. Das Monosignal wird in den Frequenzbereich transformiert und in einen Raumsyntheseblock (Spatial-Syntheseblock) eingegeben, der auch deco- dierte ICLD- und ICTD-Werte empfängt. In dem Spatial- Syntheseblock werden die BCC-Parameter (ICLD und ICTD) verwendet, um eine Gewichtungsoperation des Monosignals durchzuführen, um die Multikanalsignale zu synthetisieren, die, nach einer Frequenz-/Zeit-ümwandlung eine Rekonstruktion des ursprünglichen Multikanal-Audiosignals darstellen.
Im Fall von BCC ist das Joint-Stereo-Modul 60 wirksam, um die kanalseitigen Informationen so auszugeben, dass die parametrischen Kanaldaten quantisierte und codierte ICLD- o- der ICTD-Parameter sind, wobei einer der ursprünglichen Kanäle als Referenzkanal zum Codieren der Kanalseiteninformationen verwendet wird. Normalerweise wird der Trägersignal aus der Summe der teilnehmenden Ursprungskanäle gebildet.
Natürlich liefern die obigen Techniken nur eine Monodar- Stellung für einen Decodierer, der nur den Trägerkanal verarbeiten kann, der jedoch nicht in der Lage ist, die parametrischen Daten zur Erzeugung von einer oder mehreren Approximationen von mehr als einem Eingangskanal zu verarbeiten.
Die BCC-Technik ist auch in dert üS-Patentveröffentlichungen US 2003/0219130 Al, US 2003/0026441 Al und US 2003/0035553 Al beschrieben. Zusätzlich wird auf die Fachveröffentlichung „Binaural Cue Coding. Part II: Scheines and Applicati- onsλΛ, T. Faller und F. Baumgarte, IEEE Trans. On Audio and Speech Proc. Bd. 11, Nr. 6, November 2003 verwiesen.
Nachfolgend wird ein typisches BCC-Schema zur Multikanalau- diocodierung detaillierter dargestellt, und zwar Bezug neh- mend auf die Fig. 4 bis 6.
Fig. 5 zeigt ein solches BCC-Schema zur Codierung/Übertragung von Multikanalaudiosignalen. Das Multika- nalaudioeingangssignal an einem Eingang 110 eines BCC- Codierers 112 wird in einem sogenannten Downmix-Block 114 heruntergemischt. Bei diesem Beispiel ist das ursprüngliche Multikanalsignal an dem Eingang 110 ein 5-Kanal-Surround- Signal mit einem vorderen linken Kanal, einem vorderen rechten Kanal, einem linken Surround-Kanal, einem rechten Surround-Kanal und einem Mittenkanal. Bei dem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung erzeugt der Downmix-Block 114 ein Summensignal durch eine einfache Addition dieser fünf Kanäle in ein Monosignal.
Andere Downmixing-Schemen sind in der Technik bekannt, so dass unter Verwendung eines Multikanal-Eingangssignals ein Downmix-Kanal mit einem einzigen Kanal erhalten wird. Dieser einzige Kanal wird an einer Summensignalleitung 115 ausgegeben. Eine Seiteninformation, die von dem BCC- Analyseblock 116 erhalten wird, wird auf einer Seiteninformationsleitung 117 ausgegeben.
Bei dem BCC-Analyseblock werden Interkanal- Pegelunterschiede (ICLD) und Interkanal-Zeitunterschiede (ICTD) berechnet, wie es vorstehend dargestellt worden ist. Neuerdings ist der BCC-Analyseblock 116 auch in der Lage, Interkanal-Korrelationswerte (ICC-Werte) zu berechnen. Das Summensignal und die Seiteninformationen werden in einem quantisierten und codierten Format zu einem BCC-Decodierer 120 übertragen. Der BCC-Decodierer zerlegt das übertragene Summensignal in eine Anzahl von Subbändern und führt Ska- lierungen, Verzögerungen und andere Verarbeitungsschritte aus, um die Subbänder der auszugebenden Multikanal- Audiokanäle zu liefern. Diese Verarbeitung wird so durchgeführt, dass die ICLD-, ICTD- und ICC-Parameter (Cues) eines rekonstruierten Multikanalsignals am Ausgang 121 mit den entsprechenden Cues für das ursprüngliche Multikanalsignal am Eingang 110 in dem BCC-Codierer 112 übereinstimmen. Zu diesem Zweck umfasst der BCC-Decodierer 120 einen BCC- Syntheseblock 122 und einen Seiteninformationenüberarbei- tungsblock 123.
Nachfolgend wird der interne Aufbau des BCC-Syntheseblocks 122 Bezug nehmend auf Fig. 6 dargestellt. Das Summensignal auf der Leitung 115 wird in eine Zeit-/Frequenz- ümwandlungseinheit oder Filterbank FB 125 eingespeist. Am Ausgang des Blocks 125 existiert eine Anzahl N von Subband- Signalen oder, in einem Extremfall, ein Block von Spektralkoeffizienten, wenn die Audio-Filterbank 125 eine 1:1- Transformation durchführt, d. h. eine Transformation, die N Spektralkoeffizienten aus N Zeitbereichsabtastwerten er- zeugt.
Der BCC-Syntheseblock 122 umfasst ferner eine Verzögerungsstufe 126, eine Pegelmodifikationsstufe 127, eine Korrela- tionsverarbeitungsstufe 128 und eine Inversfilterbankstufe IFB 129. Am Ausgang der Stufe 129 kann das rekonstruierte Multikanalaudiosignal mit beispielsweise fünf Kanälen im Falle eines 5-Kanal-Surroundsystems zu einem Satz von Laut- Sprechern 124 ausgegeben werden, wie sie in Fig. 5 oder Fig. 4 dargestellt sind.
Das Eingangssignal sn wird in den Frequenzbereich oder den Filterbankbereich mittels des Elements 125 umgewandelt. Das Signal, das vom Element 125 ausgegeben wird, wird derart kopiert, dass mehrere Versionen desselben Signals erhalten werden, wie es durch den Kopierknoten 130 dargestellt ist. Die Anzahl der Versionen des ursprünglichen Signals ist gleich der Anzahl der Ausgangskanäle in dem Ausgangssignal. Dann wird jede Version des ursprünglichen Signals am Knoten 130 einer bestimmten Verzögerung di, d2, ... , di, ... ds unterzogen. Die Verzögerungsparameter werden durch den Seiteninformationsverarbeitungsblock 123 in Fig. 5 berechnet und von den Interkanal-Zeitunterschieden, wie sie durch den BCC-Analyseblock 116 von Fig. 5 berechnet worden sind, abgeleitet.
Dasselbe gilt für die Multiplikationsparameter ai, a2, ..., ai, ... , ajj, die ebenfalls durch den Seiteninformationsver- arbeitungsblock 123 basierend auf den Interkanal- Pegelunterschieden, wie sie durch den BCC-Analyseblock 116 berechnet worden sind, berechnet werden.
Die durch den BCC-Analyseblock 116 berechneten ICC- Parameter werden zum Steuern der Funktionalität des Blocks
128 verwendet, so dass bestimmte Korrelationen zwischen den verzögerten und in ihren Pegeln manipulierten Signalen an den Ausgängen des Blocks 128 erhalten werden. Es sei hier darauf hingewiesen, dass die Reihenfolge der Stufen 126, 127, 128 von der in Fig. 6 gezeigten Reihenfolge abweichen kann. Es sei darauf hingewiesen, dass bei einer rahmenweisen Verarbeitung des Audiosignals auch die BCC-Analyse rahmenweise durchgeführt wird, also zeitlich variabel, und dass ferner eine frequenzweise BCC-Analyse erhalten wird, wie es durch die Filterbank-Aufteilung aus Fig. 6 ersichtlich ist. Dies bedeutet, dass die BCC-Parameter für jedes Spektralband erhalten werden. Dies bedeutet ferner, dass in dem Fall, in dem die Audiofilterbank 125 das Eingangssignal in beispielsweise 32 Bandpasssignale zerlegt, der BCC- Analyseblock einen Satz von BCC-Parametern für jedes der 32 Bänder erhält. Natürlich führt der BCC-Syntheseblock 122 von Fig. 5, der detailliert in Fig. 6 dargestellt ist, eine Rekonstruktion durch, die auch auf den beispielhaft genannten 32 Bändern basiert.
Nachfolgend wird Bezug nehmend auf Fig. 4 ein Szenario dargestellt, das dazu verwendet wird, um einzelne BCC- Parameter zu bestimmen. Normalerweise können die ICLD-, ICTD- und ICC-Parameter zwischen Kanalpaaren definiert wer- den. Es wird jedoch bevorzugt, die ICLD- und ICTD-Parameter zwischen einem Referenzkanal und jedem anderen Kanal zu bestimmen. Dies ist in Fig. 4A dargestellt.
ICC-Parameter können auf verschiedene Arten und Weisen de- finiert werden. Allgemein gesagt kann man ICC-Parameter in dem Codierer zwischen allen möglichen Kanalpaaren bestimmen, wie es in Fig. 4B dargestellt ist. Es wurde jedoch vorgeschlagen, nur ICC-Parameter zwischen den stärksten zwei Kanälen zu einem Zeitpunkt zu berechnen, wie es in Fig. 4C dargestellt ist, wo ein Beispiel gezeigt ist, bei dem zu einem Zeitpunkt ein ICC-Parameter zwischen den Kanälen 1 und 2 berechnet wird, und zu einem anderen Zeitpunkt ein ICC-Parameter zwischen den Kanälen 1 und 5 berechnet wird. Der Decodierer synthetisiert dann die Interkanalkor- relation zwischen den stärksten Kanälen in dem Decoder und verwendet bestimmte heuristische Regeln zum Berechnen und Synthetisieren der Interkanalkohärenz für die restlichen Kanalpaare. Bezüglich der Berechnung beispielsweise der Multiplikationsparameter ai, aN basierend auf den übertragenen ICLD- Parametern wird auf das AES-Convention-Paper Nr. 5574 Bezug genommen. Die ICLD-Parameter stellen eine Energieverteilung eines ursprünglichen Mehrkanalsignals dar. Ohne Verlust der Allgemeinheit wird es bevorzugt, wie es in Fig. 4A gezeigt, vier ICLD-Parameter zu nehmen, die die Energiedifferenz zwischen den jeweiligen Kanälen und dem vorderen linken Ka- nal darstellen. In dem Seiteninformationsverarbeitungsblock 122 werden die Multiplikationsparameter ai, ..., a« von den ICLD-Parametern so abgeleitet, dass die gesamte Energie aller rekonstruierter Ausgangskanäle dieselbe ist (oder proportional zu der Energie des übertragenen Summensignals ist) .
Allgemein findet bei solchen insbesondere parametrischen Multikanalcodierschemen eine Erzeugung wenigstens eines Basiskanals sowie der Seiteninformationen statt, wie es aus Fig. 5 ersichtlich ist. Typischerweise werden Blockbasierte Schemen verwendet, bei denen, wie es ebenfalls aus Fig. 5 ersichtlich ist, das ursprüngliche Multikanalsignal am Eingang 110 einer Block-Verarbeitung durch eine Block- Stufe 111 unterzogen wird, derart, dass aus einem Block von beispielsweise 1152 Abtastwerten das Downmix-Signal bzw. Summensignal bzw. der wenigstens eine Basiskanal für diesen Block gebildet wird, während gleichzeitig für diesen Block durch die BCC-Analyse die entsprechenden Multikanal- Parameter erzeugt werden. Nach dem Downmix-Kanal wird das Summensignal typischerweise wieder mit einem Blockbasierten Codierer, wie beispielsweise einem MP3-Codierer oder einem AAC-Codierer codiert, um eine weitere Datenra- tenreduktion zu erhalten. Genauso werden die Parameterdaten codiert, beispielsweise durch Differenzcodierung, Skalie- rung/Quantisierung und Entropie-Codierung.
Dann, am Ausgang des gesamten Codierers, der also den BCC- Codierer 112 sowie eine nachgeschalteten Basiskanal- Codierer umfasst, wird ein gemeinsamer Datenstrom geschrieben, in dem ein Block des wenigstens einen Basiskanals auf einen früheren Block des wenigstens einen Basiskanals folgt, und in dem die codierten Mehrkanal- Zusatzinformationen ebenfalls beispielsweise durch einen Bitstrommultiplexer eingetastet werden.
Diese Eintastung findet so statt, dass der Datenstrom aus Basiskanaldaten und Mehrkanal-Zusatzinformationen immer ei- nen Block von Basiskanaldaten umfasst und in Zuordnung zu diesem Block einen Block von Mehrkanal-Zusatzdaten umfasst, die dann z. B. einen gemeinsamen Übertragungsframe bilden. Dieser Übertragungsframe wird dann über eine Übertragungsstrecke zu einem Decodierer geschickt.
Der Decodierer umfasst eingangsseitig wieder einen Daten- strom-Demultiplexer, um einen Frame des Datenstroms in einen Block von Basiskanaldaten und einen Block von zugehörigen Mehrkanal-Zusatzinformationen zu splitten. Dann wird der Block von Basisdaten z. B. durch einen MP3-Decodierer oder einen ÄAC-Decodierer decodiert. Dieser Block von decodierten Basisdaten wird dann zusammen mit dem Block von gegebenenfalls ebenfalls decodierten Mehrkanal- Zusatzinformationen dem BCC-Decodierer 120 zugeführt.
Damit ist aufgrund der gemeinsamen Übertragung von Basiskanaldaten und Zusatzinformationen die zeitliche Zuordnung der Zusatzinformationen zu den Basiskanaldaten automatisch festgelegt und durch einen Decodierer, der frameweise ar- beitet, ohne weiteres wieder herzustellen. Der Decodierer findet also aufgrund der gemeinsamen Übertragung der beiden Datenarten in einem einzigen Datenstrom gewissermaßen automatisch die einem Block von Basiskanaldaten zugehörigen Zusatzinformationen, damit eine Multikanal-Rekonstruktion mit hoher Qualität möglich ist. Es wird also keine Problematik auftreten, dass die Mehrkanal-Zusatzinformationen einen zeitlichen Versatz zu den Basiskanaldaten haben. Würde jedoch ein solcher Versatz vorhanden sein, so würde dies zu einer erheblichen Qualitätseinbuße der Multikanal- Rekonstruktion führen, da dann ein Block von Basiskanaldaten zusammen mit Mehrkanal-Zusatzdaten verarbeitet wird, obgleich diese Mehrkanal-Zusatzdaten gar nicht zu dem Block von Basisdaten gehören, sondern z. B. zu einem früheren o- der späteren Block.
Ein solches Szenario, bei dem die Zuordnung zwischen Mehrkanal-Zusatzdaten und Basiskanaldaten nicht mehr gegeben ist, wird dann auftreten, wenn kein gemeinsamer Datenstrom geschrieben wird, sondern wenn ein eigener Datenstrom mit den Basiskanaldaten existiert und ein anderer davon getrennter Datenstrom mit den Mehrkanal-Zusatzinformationen vorhanden ist. Eine solche Situation kann beispielsweise bei einem sequenziell arbeitenden Übertragungssystem, entstehen, wie beispielsweise Rundfunk oder Internet. Hier wird das zu übertragende Audioprogramm in Audiobasisdaten (Mono- oder Stereodownmix-Audiosignal) und Erweiterungsdaten (Mehrkanal-Zusatzinformationen) aufgeteilt, welche ein- zeln oder kombiniert ausgestrahlt werden. Selbst wenn die beiden Datenströme noch von einem Sender zeitlich synchron ausgesendet werden, können auf dem Übertragungsweg zum Empfänger viele „Überraschungen" lauern, die dazu führen, dass der im Hinblick auf die Anzahl von Bits wesentlich kompak- tere Datenstrom mit den Mehrkanal-Zusatzdaten z. B. schneller zu einem Empfänger übertragen wird als der Datenstrom mit den Basiskanaldaten.
Ferner wird es bevorzugt, Codierer/Decodierer mit nicht- konstanter Ausgangsdatenrate einzusetzen, um eine besonders gute Biteffizienz zu erreichen. Hier ist nicht vorhersehbar, wie lange die Decodierung eines Blocks von Basiskanaldaten dauert. Ferner hängt diese Verarbeitung auch von den tatsächlich eingesetzten Hardware-Komponenten zum Decodie- ren ab, wie sie beispielsweise in einem PC oder digitalen Empfänger vorhanden sein müssen. Ferner existieren auch System- bzw. algorithmisch-inhärente Unscharfen, da insbesondere bei der Bitsparkassentechnik zwar im Mittel eine konstante Ausgangsdatenrate erzeugt wird, allerdings, lokal betrachtet, Bits, die für einen besonders gut zu codierenden Block nicht benötigt werden, angespart werden, um für einen anderen Block, der besonders schwer zu codieren ist, weil das Audiosignal z. B. besonders transient ist, aus der Bitsparkasse wieder entnommen zu werden.
Andererseits hat die Trennung des oben beschriebenen gemeinsamen Datenstroms in zwei einzelne Datenströme besonde- re Vorteile. So ist ein klassischer Empfänger, also z. B. ein reiner Mono- oder Stereoempfänger jederzeit unabhängig von Inhalt und Version der Mehrkanal-Zusatzinformationen in der Lage, die Audiobasisdaten zu empfangen und wiederzugeben. Die Auftrennung in separate Datenströme sichert also die Rückwärtskompatibilität des gesamten Konzepts.
Dagegen kann ein Empfänger der neueren Generation diese Mehrkanal-Zusatzdaten auswerten und mit dem Audiobasisdaten so kombinieren, dass dem Nutzer die vollständige Erweite- rung, hier der Mehrkanalton, zur Verfügung gestellt werden kann.
Ein besonders interessantes Anwendungsszenario der getrennten Übertragung von Audiobasisdaten und Erweiterungsdaten liegt beim digitalen Rundfunk. Hier kann mit Hilfe der Mehrkanal-Zusatzinformationen das bisher ausgestrahlte Stereoaudiosignal durch geringen zusätzlichen Übertragungsaufwand auf ein Mehrkanalformat, wie beispielsweise 5.1, erweitert werden. Hier erzeugt der Programmanbieter auf der Senderseite aus Mehrkanaltonquellen, wie sie beispielsweise auf DVD-Audio/Video zu finden sind, die Mehrkanalzusatzinformationen. Anschließend werden diese Mehrkanalzusatzin- formationen parallel zum wie bisher ausgestrahlten Audiostereosignal übertragen, welches nun jedoch nicht einfach ein Stereosignal ist, sondern zwei Basiskanäle umfasst, die durch irgendeinen Downmix von dem Multikanalsignal abgeleitet worden sind. Für den Hörer hört sich das Stereosignal der beiden Basiskanäle jedoch wie ein übliches Stereosignal an, da bei der Multikanal-Analyse letztendlich ähnliche Schritte vorgenommen werden, wie sie von einem Tonmeister, der ein Stereosignal aus mehreren Tracks abgemischt hat, vorgenommen worden sind.
Ein großer Vorteil der Auftrennung besteht in der Kompatibilität mit den bisher bestehenden digitalen Rundfunkübertragungssystemen. Ein klassischer Empfänger, der diese Zusatzinformationen nicht auswerten kann, wird wie bisher das Zweikanaltonsignal ohne irgendwelchen qualitativen Einschränkungen empfangen und wiedergeben können. Ein Empfänger neuerer Bauart hingegen kann zusätzlich zum bisher empfangenen Stereotonsignal diese Mehrkanalinformation auswerten, decodieren und das ursprüngliche 5.1-Mehrkanalsignal daraus rekonstruieren.
Um die gleichzeitige Übertragung der Mehrkanalzusatzinformation als Ergänzung zum bisher verwendeten Stereosignal zu ermöglichen, kann man, wie es bereits ausgeführt worden ist, für ein digitales Rundfunksystem die Mehrkanalzusatzinformationen mit dem codierten Downmixaudiosignal kombinieren, also dass es einen einzigen Datenstrom gibt, der dann gegebenenfalls skalierbar ist und ebenfalls von einem existierenden Empfänger gelesen werden kann, der jedoch die zusätzlichen Daten bezüglich der Mehrkanal- Zusatzinformationen ignoriert.
Der Empfänger sieht also nur einen (gültigen) Audiodatenstrom und kann, wenn er ein Empfänger der neueren Bauart ist, aus dem Datenstrom ferner die Mehrkanaltonzusatzinfor- mationen über einen entsprechend vorgeschalteten Datenverteiler wieder synchron zu dem zugehörigen Audiodatenblock extrahieren, decodieren und als 5.1-Mehrkanalton ausgeben.
Nachteilig an diesem Ansatz ist jedoch die Erweiterung der vorhandenen Infrastruktur bzw. der vorhandenen Datenwege, sodass sie statt wie bisher lediglich die Stereoaudiosignale die aus Downmixsignalen und Erweiterung kombinierten Da- tensignale transportieren können. Wenn man also das Stan- dardübertragungsformat für Stereodaten verlässt, kann die Synchronität auch bei Rundfunkübertragungen durch den gemeinsamen Datenstrom gewährleistet werden.
Allerdings ist es für eine Durchsetzung am Markt höchst problematisch, wenn bestehende Rundfunk-Infrastrukturen geändert werden müssen, wenn also die Problematik nicht nur auf Seiten der Decodierer existiert, sondern auch auf Sei- ten der Rundfunksender und der normierten Übertragungsprotokolle. Dieses Konzept ist also aufgrund der Problematik, ein einmal standardisiertes und implementiertes System wieder zu ändern, sehr nachteilhaft.
Die andere Alternative besteht darin, die Mehrkanal- Zusatzinformationen nicht an das verwendete Audiocodierungssystem zu koppeln und daher nicht in den eigentlichen Audiodatenstrom einzutasten. In diesem Fall erfolgt die Ü- bertragung über einen gesonderten, aber zeitlich nicht not- wendigerweise synchronisierten parallelen digitalen Zusatzkanal. Diese Situation kann dann auftreten, wenn die Down- mixdaten in unreduzierter Form, beispielsweise als PCM- Daten per AES/EBÜ-Datenformat durch eine in Studios vorhandene übliche Audioverteilungsinfrastruktur geleitet werden. Diese Infrastrukturen sind darauf ausgerichtet, Audiosignale zwischen diversen Quellen digital zu verteilen. Hierzu werden normalerweise als „Kreuzschienen" bekannte Funktionseinheiten eingesetzt. Alternativ oder zusätzlich werden Audiosignale auch im PCM-Forraat zu Zwecken der Klangrege- lung und Dynamikkompression verarbeitet. Alle diese Schritte führen auf einem Weg vom Sender zum Empfänger zu unkalkulierbaren Verzögerungen.
Andererseits ist die getrennte Übertragung von Basiskanal- daten und Mehrkanal-Zusatzinformationen besonders interessant, da bestehende Stereo-Infrastrukturen nicht verändert werden müssen, also die bezüglich der ersten Möglichkeit beschriebenen Nachteile der Nicht-Standardkonformität hier nicht auftreten. Ein Rundfunksystem muss lediglich einen zusätzlichen Kanal senden, jedoch nicht die Infrastruktur für den bereits existierenden Stereokanal verändern. Der Zusatzaufwand wird daher gewissermaßen allein auf Seiten der Empfänger getrieben, jedoch so, dass Rückwärtskompatibilität besteht, dass also ein Benutzer, der einen neuen Empfänger hat, eine bessere Klangqualität bekommt als ein Benutzer, der einen alten Empfänger hat.
Wie es bereits ausgeführt worden ist, kann die Größenordnung der zeitlichen Verschiebung nicht mehr aus dem empfangenen Audiosignal und den Zusatzinformationen ermittelt werden. Damit ist eine zeitlich korrekte Rekonstruktion und Zuordnung des Mehrkanalsignals im Empfänger nicht mehr ge- währleistet. Ein weiteres Beispiel für ein solches Verzögerungs-Problem besteht, wenn ein bereits laufendes zwei- kanaliges Übertragungssystem auf Multikanal-Übertragung erweitert werden soll, beispielsweise in einem Empfänger eines digitalen Radios. Hier ist es oft der Fall, dass die Decodierung des Downmixsignals mittels eines im Empfänger bereits vorhandenen Zwei-Kanal-Audiodecodierers geschieht, dessen Verzögerungszeit nicht bekannt ist und damit auch nicht ausgeglichen werden kann. Im Extremfall kann das Downmix-Audiosignal den Multikanal-Rekonstruktions- Audiodecodierer sogar über eine Übertragungskette erreichen, die analoge Teile enthält, d. h. dass einem Punkt eine Digital/Analog-ümsetzung vorgenommen und nach einer weiteren Speicherung/Übertragung wieder eine Analog/Digital- Umsetzung stattfindet. Etwas derartiges findet immer bei einer Funkübertragung statt. Auch hier sind zunächst keinerlei Anhaltspunkte verfügbar, wie ein passender Verzögerungsausgleich des Downmixsignals relativ zu den Mehrkanal- zusatzdaten durchgeführt werden kann. Auch wenn die Abtastfrequenz für die A/D-Wandlung und die Abtastfrequenz für die D/A-Wandlung leicht voneinander abweichen, entsteht eine langsame zeitliche Drift der notwendigen Ausgleichsverzögerung entsprechend dem Verhältnis der beiden Abtastraten zueinander. Zur Synchronisation der Zusatzdaten zu den Basisdaten können verschiedene Techniken eingesetzt werden, die unter dem Begriff „Zeitsynchronisierungsverfahren" bekannt sind. Die- se basieren darauf, Zeitstempel in beide DatenstrÖme einzutasten, derart, dass anhand dieser Zeitstempel im Empfänger eine korrekte Zuordnung der zueinander gehörigen Daten erreicht werden kann. Das Eintasten von Zeitstempeln führt jedoch ebenfalls bereits zu einer Änderung der normalen Stereo-Infrastruktur.
Die Aufgabe der vorliegenden Erfindung besteht darin, ein Konzept zum Erzeugen eines Datenstroms bzw. zum Erzeugen einer Multikanal-Darstellung zu schaffen, durch das eine Synchronisierung von Basiskanaldaten und Mehrkanal- Zusatzinformationen erreichbar ist.
Diese Aufgabe wird durch eine Vorrichtung zum Erzeugen eines Datenstroms gemäß Patentanspruch 1, eine Vorrichtung zum Erzeugen einer Multikanal-Darstellung gemäß Patentanspruch 17, ein Verfahren zum Erzeugen eines Datenstroms gemäß Patentanspruch 26, ein Verfahren zum Erzeugen einer Multikanal-Darstellung gemäß Patentanspruch 27, ein Computer-Programm nach Patentanspruch 28 oder eine Datenstrom- darstellung nach Patentanspruch 29 gelöst.
Der vorliegenden Erfindung liegt die Erkenntnis zugrunde, dass eine getrennte Übertragung und zeitsynchrone Zusammenführung eines Basiskanaldatenstroms und eines Mehrkanal- Zusatzinformationen-Datenstroms dadurch ermöglicht wird, dass auf „Senderseite" der Multikanal-Datenstrom dahingehend modifiziert wird, dass Fingerabdruckinformationen, die einen zeitlichen Verlauf des wenigstens einen Basiskanals wiedergeben, in den Datenstrom mit den Mehrkanal- Zusatzinformationen derart eingebracht werden, dass aus dem Datenstrom ein Zusammenhang zwischen den Mehrkanal- Zusatzinformationen und den Fingerabdruck-Informationen ableitbar ist. So gehören bestimmte Mehrkanal- Zusatzinformationen zu bestimmten Basiskanaldaten. Genau diese Zuordnung muss auch bei der Übertragung getrennter Datenströme gesichert werden.
Erfindungsgemäß wird auf Senderseite die Zugehörigkeit von Mehrkanal-Zusatzinformationen zu Basiskanaldaten dadurch signalisiert, dass von den Basiskanal-Daten Fingerabdruckinformationen ermittelt werden, mit denen die Mehrkanal- Zusatzinformationen, die zu genau diesen Basiskanaldaten gehören, gewissermaßen markiert werden. Diese Markierung bzw. Signalisierung des Zusammenhangs zwischen den Mehrka- nal-Zusatzinformationen und den Fingerabdruckinformationen wird bei einer blockweisen Datenverarbeitung dadurch erreicht, dass einem Block von Mehrkanal-Zusatzinformationen, die genau zu einem Block von Basiskanaldaten gehören, ein Block-Fingerabdruck genau dieses Blocks von Basiskanaldaten zugeordnet werden, zu dem der betrachtete Block von Mehrkanal-Zusatzinformationen gehört.
In anderen Worten wird ein Fingerabdruck genau des Basiska- naldatenblocks, mit dem zusammen die Mehrkanal- Zusatzinformationen bei der Rekonstruktion verarbeitet werden müssen, den Mehrkanal-Zusatzinformationen zugeordnet. Bei einer Block-basierten Übertragung kann der Block- Fingerabdruck des Blocks von Basiskanaldaten in der Blockstruktur des Mehrkanal-Zusatzdatenstroms derart eingetastet werden, dass jeder Block von Mehrkanal-Zusatzinformationen den Block-Fingerabdruck der zugehörigen Basisdaten enthält. Der Block-Fingerabdruck kann im unmittelbaren Anschluss an einen bisher verwendeten Block von Mehrkanal- Zusatzinformationen geschrieben werden, oder kann vor den bisher bestehenden Block geschrieben werden, oder kann an irgendeiner bekannten Stelle innerhalb dieses Blocks geschrieben werden, sodass bei der Multikanal-Rekonstruktion der Block-Fingerabdruck zu Synchronisationszwecken auslesbar ist. In dem Datenstrom befinden sich daher normale Mehrkanal-Zusatzdaten, sowie entsprechend eingestreut die Block-Fingerabdrücke. Alternativ könnte der Datenstrom auch so geschrieben werden, dass z. B. alle Block-Fingerabdrücke, versehen mit einer Zusatzinformation, wie beispielsweise einem Block- Counter, am Anfang des erfindungsgemäß erzeugten Datenstroms stehen, sodass ein erster Abschnitt des Datenstroms lediglich Block-Fingerabdrucke enthält und ein zweiter Teil des Datenstroms die zu den Block-Fingerabdruckinformationen gehörigen blockweise geschriebenen Mehrkanal-Zusatzdaten enthält. Diese Alternative hat den Nachteil, dass Referenzinformationen benötigt werden, wobei jedoch die Zugehörigkeit der Block-Fingerabdrucke zu den blockweise geschriebenen Mehrkanal-Zusatzinformationen auch implizit durch die Reihenfolge gegeben sein kann, sodass keine zusätzlichen Informationen nötig sind.
In diesem Fall könnte bei der Multikanal-Rekonstruktion zu Synchronisationszwecken einfach zunächst eine große Anzahl von Block-Fingerabdrucken eingelesen werden, um die Refe- renz-Fingerabdruckinformationen zu erhalten. Nach und nach kommen dann die Test-Fingerabdrucke hinzu, bis eine für eine Korrelation verwendete minimale Anzahl von Test- Fingerabdrucken vorliegen. Während dieser Zeitdauer könnte der Satz von Referenz-Fingerabdrucken z. B. bereits einer Differenz-Codierung unterworfen werden, wenn die Korrelation bei der Multikanal-Rekonstruktion unter Verwendung von Differenzen durchgeführt wird, während im Datenstrom keine Differenz-Block-Fingerabdrücke sondern Absolut-Block- Fingerabdrücke enthalten sind.
Allgemein gesagt wird auf Empfängerseite der Datenstrom mit den Basiskanaldaten verarbeitet, also zunächst beispielsweise decodiert und dann einem Multikanal-Rekonstruierer zugeführt. Vorzugsweise ist dieser Multikanal- Rekonstruierer so ausgebildet, dass er dann, wenn er keine Zusatzinformationen bekommt, einfach eine Durchschaltung vornimmt, um die vorzugsweise zwei Basiskanäle als Stereosignal auszugeben. Parallel hierzu findet die Extraktion der Referenz-Fingerabdruckinformationen und die Berechnung der Test-Fingerabdruckinformationen aus den decodierten Basiskanaldaten statt, um dann eine Korrelationsberechnung durchzuführen, um den Versatz der Basiskanaldaten zu den Mehrkanal-Zusatzdaten zu errechnen. Je nach Implementierung kann dann durch eine weitere Korrelationsberechnung verifiziert werden, dass dieser Versatz auch der richtige Versatz ist. Dies wird dann der Fall sein, wenn der Versatz, der durch die zweite Korrelationsberechnung erhalten worden ist, nicht mehr als um eine vorbestimmte Schwelle von dem Versatz, der durch die erste Korrelationsberechnung erhalten worden ist, abweicht.
War dies der Fall, so kann davon ausgegangen werden, dass der Versatz richtig war. Hierauf wird nach dem Erhalt synchronisierter Mehrkanal-Zusatzinformationen von einer Stereoausgabe auf die Multikanal-Ausgabe umgeschaltet.
Dieses Prozedere wird dann bevorzugt, wenn ein Benutzer von der Zeit, die zur Synchronisierung benötigt wird, nichts merken soll. Basiskanaldaten werden somit in dem Moment, wo sie erhalten werden, verarbeitet, sodass natürlich in dem Zeitraum, in dem die Synchronisierung stattfindet, also die Versatzberechnung stattfindet, lediglich Stereodaten ausge- geben werden können, da noch keine synchronisierten Mehrkanal-Zusatzinformationen gefunden worden sind.
Bei einem anderen Ausführungsbeispiel, bei dem es nicht auf die „Anfangsverzögerung" ankommt, die zur Berechnung des Versatzes benötigt wird, kann die Wiedergabe so durchgeführt werden, dass die gesamte Synchronisationsberechnung ausgeführt wird, ohne dass parallel bereits Stereodaten ausgegeben werden, um dann vom ersten Block der Basiskanaldaten an synchronisierte Mehrkanal-Zusatzinformationen zu liefern. Der Hörer wird dann bereits vom ersten Block an ein synchronisiertes 5.1-Erlebnis haben. Bei bevorzugten Ausführungsbeispielen der vorliegenden Erfindung beträgt die Zeit für eine Synchronisation normalerweise etwa 5 Sekunden, da für eine optimale Versatzberechnung etwa 200 Referenz-Fingerabdrucke als Referenz- Fingerabdruckinformätionen benötigt werden. Falls diese Verzögerung von etwa 5 Sekunden keine Rolle spielt, wie es beispielsweise bei unidirektionalen Übertragungen der Fall ist, kann gleich mit einer 5.1-Wiedergabe - allerdings erst nach der zur Versatzberechnung nötigen Zeit - begonnen wer- den. Für interaktive Anwendungen, beispielsweise wenn es um Dialoge oder etwas ähnliches geht, wird diese Verzögerung störend sein, sodass hier irgendwann, wenn die Synchronisation fertig ist, von der Stereowiedergabe auf die Multika- nal-Wiedergabe übergegangen wird. So wurde herausgefunden, dass es besser ist, nur eine Stereo-Wiedergabe zu liefern als eine Multikanal-Wiedergabe mit nicht-synchronisierten Mehrkanal-Zusatzinformationen.
Erfindungsgemäß wird das zeitliche Zuordnungsproblem zwi- sehen Basiskanaldaten und Mehrkanal-Zusatzdaten sowohl durch Maßnahmen auf der Senderseite als auch durch Maßnahmen auf der Empfangsseite gelöst.
Auf der Senderseite werden zeitlich veränderliche und ge- eignete Fingerprint-Informationen aus dem korrespondierenden Mono- oder Stereo-Downmixaudiosignal berechnet. Vorzugsweise werden diese Fingerprint-Informationen regelmäßig als Synchronisationshilfe in den versendeten Mehrkanalzu- satzdatenstrom eingetastet. Dies erfolgt vorzugsweise als Datenfeld inmitten der blockweise organisierten z. B. Spa- tial-Audio-Coding-Seiteninformationen, oder so, dass das Fingerprint-Signal als erste oder letzte Information des Datenblocks geschickt wird, derart, dass sie leicht hinzugefügt oder herausgenommen werden kann.
Auf der Empfangsseite werden zeitlich veränderliche und geeignete Fingerprint-Informationen aus dem korrespondierenden Stereoaudiosignal, also den Basiskanaldaten berechnet, wobei erfindungsgemäß eine Anzahl von zwei Basiskanälen bevorzugt wird. Ferner werden die Fingerprints aus den Mehrkanalzusatzinformationen extrahiert. Hierauf wird der zeitliche Versatz zwischen den Mehrkanalzusatzinformationen und dem empfangenen Audiosignal über Korrelationsmethoden, wie beispielsweise einer Berechnung einer Kreuzkorrelation zwischen den Test-Fingerabdruckinformationen und den Referenz- Fingerabdruckinformationen berechnet. Alternativ können auch Trial-And-Error-Verfahren durchgeführt werden, bei de- nen verschiedene aus den Basiskanal-Daten unter Zugrundelegung verschiedener Blockraster berechnete Fingerabdruckinformationen mit den Referenz-Fingerabdruckinformationen verglichen werden, um anhand des Test-Blockrasters, dessen zugehörige Test-Fingerabdruckinformationen am besten mit den Referenz-Fingerabdruckinformationen übereinstimmen, den zeitlichen Versatz zu bestimmen.
Schließlich wird das. Audiosignal der Basiskanäle mit den Mehrkanalzusatzinformationen für die anschließende Mehrka- nal-Rekonstruktion durch eine nachgeschaltete Verzögerungsausgleichsstufe synchronisiert. Je nach Implementierung kann allein eine Anfangsverzögerung kompensiert werden. Vorzugsweise wird die Versatzberechnung jedoch parallel zur Wiedergabe durchgeführt, um im Falle eines zeitlichen Aus- einanderdriftens der Basiskanaldaten und der Mehrkanal- Zusatzinformationen trotz einer kompensierten Anfangsverzögerung den Versatz nach Bedarf und nach Ergebnis der Korrelationsberechnung nachstellen zu können. Die Verzögerungsausgleichsstufe kann somit auch aktiv geregelt werden.
Die vorliegende Erfindung ist dahingehend vorteilhaft, dass keinerlei Änderungen an den Basiskanal-Daten bzw. an dem Verarbeitungsweg für die Basiskanal-Daten vorgenommen werden müssen. Der Basiskanal-Datenstrom, der in einen Empfän- ger eingespeist wird, unterscheidet sich in nichts von einem üblichen Basiskanal-Datenstrom. Veränderungen werden lediglich auf Seiten des Multikanal-Datenstroms vorgenommen. Dieser wird dahingehend modifiziert, dass die Finger- abdruck-Informationen eingetastet werden. Nachdem für den Multikanal-Datenstrom jedoch derzeit ohnehin keine standardisierten Verfahren vorliegen, führt die Veränderung des Mehrkanal-Zusatzdatenstroms nicht zu einer unerwünschten Abkehr von einer bereits standardisierten, implementierten und etablierten Lösung, wie es dagegen der Fall wäre, wenn der Basiskanal-Datenstrom modifiziert werden würde.
Das erfindungsgemäße Szenario liefert eine besondere Flexi- bilität der Verbreitung von Mehrkanal-Zusatzinformationen. Insbesondere dann, wenn die Mehrkanal-Zusatzinformationen Parameterinformationen sind, die bezüglich der erforderlichen Datenrate bzw. Speicherkapazität sehr kompakt sind, kann ein digitaler Empfänger mit solchen Daten auch völlig getrennt von dem Stereosignal versorgt werden. So könnte sich ein Benutzer für bereits bei ihm bestehende Stereo- Aufnahmen, die er bereits auf seinem Solid-State-Player o- der auf seinen CDs hat, Mehrkanal-Zusatzinformationen von einem getrennten Anbieter beschaffen und auf seinem Wieder- gabegerät abspeichern. Dieses Abspeichern ist unproblematisch, da der Speicherbedarf insbesondere für parametrische Mehrkanal-Zusatzinformationen nicht besonders groß ist. Legt der Benutzer dann eine CD ein oder wählt er ein Stereo-Stück aus, so kann von dem Mehrkanal- Zusatzdatenspeicher der entsprechende Mehrkanal- Zusatzdatenstrom abgerufen werden und aufgrund der Fingerabdruckinformationen in dem Mehrkanal-Zusatzdatenstrom mit dem Stereosignal synchronisiert werden, um eine Multikanal- Rekonstruktion zu erreichen. Die erfindungsgemäße Lösung erlaubt es somit, völlig unabhängig von der Art und Weise des Stereosignals, also unabhängig davon, ob es von einem digitalen Rundfunkempfänger stammt, ob es von einer CD stammt, ob es von einer DVD stammt oder ob es z. B. über das Internet angekommen ist, Mehrkanal-Zusatzdaten, die von einer ganz anderen Quelle stammen können, mit dem Stereosignal zu synchronisieren, wobei das Stereosignal dann als Basiskanaldaten fungiert, auf deren Basis dann die Multika- nal-Rekonstruktion durchgeführt wird. Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung werden nachfolgend Bezug nehmend auf die beiliegenden Zeichnungen detailliert erläutert. Es zeigen:
Fig. 1 ein Blockschaltbild einer erfindungsgemäßen Vorrichtung zum Erzeugen eines Datenstroms;
Fig. 2 ein Blockschaltbild einer erfindungsgemäßen Vor- richtung zum Erzeugen einer Multikanal-
Darstellung;
Fig. 3 einen bekannten Joint-Stereo-Codierer zum Erzeugen von Kanaldaten und parametrischen Multikanal- Informationen;
Fig. 4 eine Darstellung eines Schemas zum Bestimmen von ICLD-, ICTD- und ICC-Parametern für eine BCC- Codierung/Decodierung;
Fig. 5 eine Blockdiagrammdarstellung einer BCC- Codierer/Decodierer-Kette;
Fig. 6 ein Blockdiagramm einer Implementierung des BCC- Synthese-Blocks von Fig. 5;
Fig. 7a eine schematische Darstellung eines ursprünglichen Multikanalsignals als Folge von Blöcken;
Fig. 7b eine schematische Darstellung von einem oder mehreren Basiskanälen als Folge von Blöcken;
Fig. 7c eine schematische Darstellung des erfindungsgemä- ßen Datenstroms mit Multikanalinformationen und zugeordneten Block-Fingerabdrücken;
Fig. 7d eine beispielhafte Darstellung für einen Block des Datenstroms von Fig. 7c; Fig. 8 eine detailliertere Darstellung der erfindungsgemäßen Vorrichtung zum Erzeugen einer Multikanal- Darstellung gemäß einem bevorzugten Ausführungs- beispiel;
Fig. 9 eine schematische Darstellung zur Verdeutlichung der Versatzbestimmung durch Korrelation zwischen den Test-Fingerabdruckinformationen und den Refe- renz-Fingerabdruckinformationen;
Fig. 10 ein Flussdiagramm für eine bevorzugte Ausführung der Versatzbestimmung parallel zur Datenausgabe; und
Fig. 11 eine schematische Darstellung der Berechnung der Fingerabdruckinformationen bzw. codierten Fingerabdruckinformationen auf Encodierer- und Decodie- rer-Seite.
Fig. 1 zeigt eine Vorrichtung zum Erzeugen eines Datenstroms für eine Multikanal-Rekonstruktion eines ursprünglichen Multikanal-Signals, wobei das Multikanal-Signal wenigstens zwei Kanäle hat, gemäß einem bevorzugten Ausfüh- rungsbeispiel der vorliegenden Erfindung. Die Vorrichtung umfasst einen Fingerabdruck-Erzeuger 2, dem wenigstens ein aus dem ursprünglichen Multikanal-Signal abgeleiteter Basis-Kanal über eine Eingangsleitung 3 zuführbar ist. Die Anzahl der Basiskanäle ist größer oder gleich 1 und kleiner als eine Anzahl von Kanälen des ursprünglichen Multikanal- Signals. Ist das ursprüngliche Multikanal-Signal lediglich ein Stereosignal mit nur zwei Kanälen, so ist nur ein einziger Basiskanal vorhanden, der aus den zwei Stereokanälen abgeleitet ist. Ist das ursprüngliche Multikanal-Signal je- doch ein Signal mit drei oder mehr Kanälen, so kann die Anzahl der Basiskanäle auch gleich 2 sein. Diese Ausführungsform wird bevorzugt, da eine Audiowiedergabe dann, ohne Mehrkanal-Zusatzdaten als normale Stereo-Wiedergabe erfol- gen kann. Bei einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung ist das ursprüngliche Multikanal- Signal ein Surround-Signal mit fünf Kanälen und einem LFE- Kanal (LFE - Low Frequency Enhancement) , wobei dieser Kanal auch als Subwoofer bezeichnet wird. Die fünf Kanäle sind ein Left-Surround-Kanal Ls, ein linker Kanal L, ein Mitten- Kanal C, ein rechter Kanal R und ein hinterer rechter bzw. Right-Surround-Kanal Rs. Die beiden Basiskanäle sind dann der linke Basiskanal und der rechte Basiskanal. In Fach- kreisen wird der eine bzw. werden die mehreren Basiskanäle auch als Downmix-Kanal bzw. Downmix-Kanäle bezeichnet.
Der Fingerabdruck-Erzeuger 2 ist ausgebildet, um aus dem wenigstens einen Basiskanal Fingerabdruck-Informationen zu erzeugen, wobei die Fingerabdruck-Informationen einen zeitlichen Verlauf des wenigstens einen Basiskanals wiedergeben. Je nach Implementierung sind die Fingerabdruck- Informationen mehr oder weniger aufwendig berechnet. So können hier insbesondere auf der Basis von statistischen Methoden sehr aufwendig berechnete Fingerabdrücke, die unter dem Stichwort „Audio-ID" bekannt sind, eingesetzt werden. Alternativ könnte jedoch auch eine beliebige andere Größe verwendet werden, die in irgendeiner Weise den zeitlichen Verlauf des einen oder der mehreren Basiskanäle rep- räsentiert.
Erfindungsgemäß wird eine Block-basierte Verarbeitung bevorzugt. Hier setzen sich die Fingerabdruck-Informationen aus einer Folge von Block-Fingerabdrucken zusammen, wobei ein Block-Fingerabdruck ein Maß für die Energie des einen bzw. der mehreren Basiskanäle in dem Block ist. Alternativ könnte jedoch auch als Block-Fingerabdruck z. B. immer ein bestimmtes Sample des Blocks oder eine Kombination von Ab- tastwerten des Blocks verwendet werden, da bei einer genü- gend hohen Anzahl von Block-Fingerabdrucken als Fingerabdruck-Informationen eine - wenn auch grobe - Wiedergabe der zeitlichen Charakteristik des wenigstens einen Basiskanals entsteht. Allgemein gesagt sind die Fingerabdruck- Informationen also von den Abtastwertdaten des wenigstens einen Basiskanals abgeleitet und geben den zeitlichen Verlauf mit mehr oder weniger großem Fehler des wenigstens einen Basiskanals wieder, sodass, wie später noch dargelegt werden wird, auf Decodierer/Empfänger-Seite eine Korrelation mit aus dem Basiskanal berechneten Test- Fingerabdruckinformationen erfolgen kann, um letztendlich den Versatz zwischen dem Datenstrom mit den Mehrkanal- Zusatzinformationen und dem Basiskanal zu bestimmen ist.
Der Fingerabdruck-Erzeuger 2 liefert ausgangsseitig die Fingerabdruck-Informationen, die einem Datenstrom-Erzeuger 4 zugeführt werden. Der Datenstrom-Erzeuger 4 ist ausgebil- .det, um einen Datenstrom aus den Fingerabdruck- Informationen und den typischerweise zeitlich variablen Mehrkanal-Zusatzinformationen zu erzeugen, wobei die Mehr- kanal-Zusatzinformationen zusammen mit dem wenigstens einen Basiskanal die Multikanal-Rekonstruktion des ursprünglichen Multikanal-Signals ermöglichen. Der Datenstrom-Erzeuger ist ausgebildet, um den Datenstrom an einem Ausgang 5 so zu erzeugen, dass aus dem Datenstrom ein Zusammenhang zwischen den Mehrkanal-Zusatzinformationen und den Fingerabdruck- Informationen ableitbar ist. Erfindungsgemäß wird der Datenstrom aus Mehrkanal-Zusatzinformationen somit mit den Fingerabdruckinformationen, die von dem wenigstens einen Basiskanal abgeleitet worden sind, markiert, derart, dass über die Fingerabdruckinformationen, deren Zuordnung zu den Mehrkanal-Zusatzinformationen durch den Datenstrom-Erzeuger 4 geliefert wird, die Zusammengehörigkeit von bestimmten Mehrkanal-Zusatzinformationen zu den Basiskanaldaten ermittelbar ist.
Fig. 2 zeigt eine erfindungsgemäße Vorrichtung zum Erzeugen einer Multikanal-Darstellung eines ursprünglichen Multika- nal-Signals aus wenigstens einem Basiskanal und einem Datenstrom, der Fingerabdruck-Informationen, die einen zeitlichen Verlauf des wenigstens einen Basiskanals wiedergeben, und Mehrkanal-Zusatzinformationen aufweist, die zusam- men mit dem wenigstens einen Basiskanal die Multikanal- Rekonstruktion des ursprünglichen Multikanal-Signals ermöglichen, wobei aus dem Datenstrom ein Zusammenhang zwischen den Mehrkanal-Zusatzinformationen und den Fingerabdruck- Informationen ableitbar ist. Der wenigstens eine Basiskanal wird über einen Eingang 10 einem Empfänger- bzw. Decodie- rer-seitigen Fingerabdruckerzeuger 11 zugeführt. Der Fingerabdruckerzeuger 11 liefert ausgangsseitig Test- Fingerabdruckinformationen über einen Ausgang 12 zu einem Synchronisierer 13. Vorzugsweise werden die Test- Fingerabdruckinformationen aus dem wenigstens einen Basiskanal durch genau den gleichen Algorithmus abgeleitet, der auch im Block 2 von Fig. 1 ausgeführt wird. Je nach Implementierung müssen die Algorithmen jedoch nicht unbedingt identisch sein.
So kann der Fingerabdruck-Erzeuger 2 beispielsweise einen Block-Fingerabdruck in Absolut-Codierung erzeugen, während der Fingerabdruck-Erzeuger 11 auf Decodiererseite eine Dif- ferenz-Fingerabdruckbestimmung durchführt, derart, dass der einem Block zugeordnete Test-Blockfingerabdruck die Differenz zwischen zwei Absolut-Fingerabdrücken ist. In diesem Fall, wenn also über den Datenstrom mit den Fingerabdruckinformationen Absolut-Block-Fingerabdrücke kommen, wird ein Fingerabdruck-Extrahierer 14 die Fingerabdruck- Informationen aus dem Datenstrom extrahieren und zugleich Differenzen bilden, damit als Referenz- Fingerabdruckinformationen über einen Ausgang 15 dem Synchronisierer 13 Daten zugeführt werden, die mit den Test- Fingerabdruckinformationen vergleichbar sind.
Allgemein gesagt wird es bevorzugt, dass die Algorithmen zur Berechnung der Test-Fingerabdruckinformationen auf Decodiererseite und die Algorithmen zur Berechnung der Fin- gerabdruckinformationen auf Encodiererseite, die in Fig. 2 auch als Referenz-Fingerabdruckinformationen bezeichnet werden können, zumindest so ähnlich sind, dass der Synchronisierer 13 unter Verwendung dieser beiden Informationen die Mehrkanal-Zusatzdaten im Datenstrom, die über einen Eingang 16 erhalten werden, synchronisiert den Daten über den wenigstens einen Basiskanal zuordnen kann. Als Multika- nal-Darstellung am Ausgang des Synchronisierers wird eine synchronisierte Multikanal-Darstellung erhalten, die die Basiskanaldaten und synchron hierzu die Mehrkanal- Zusatzdaten umfasst.
Hierzu wird es bevorzugt, dass der Synchronisierer 13 einen zeitlichen Versatz zwischen den Basiskanaldaten und den Mehrkanal-Zusatzdaten bestimmt und dann die Mehrkanal- Zusatzdaten um diesen Versatz verzögert. Es hat sich herausgestellt, dass die Mehrkanal-Zusatzdaten üblicherweise früher, also zu früh ankommen, was der wesentlich geringe- ren Datenmenge, die typischerweise den Mehrkanal- Zusatzdaten entspricht, im Vergleich zu der Datenmenge für die Basiskanaldaten zugeschrieben werden kann. Werden also die Mehrkanal-Zusatzdaten verzögert, werden die Daten über den wenigstens einen Basiskanal vom Eingang 10 über eine Basiskanaldatenleitung 17 dem Synchronisierer 13 zugeführt und durch diesen eigentlich nur „durchgeschleift" und an einem Ausgang 18 wieder ausgegeben. Die Mehrkanal- Zusatzdaten, die über den Eingang 16 erhalten werden, werden über eine Mehrkanal-Zusatzdatenleitung 19 in den Syn- chronisierer eingespeist, dort um einen bestimmten Versatz verzögert und an einem Ausgang 20 des Synchronisierers zusammen mit den Basiskanaldaten einem Multikanal- Rekonstruierer 21 zugeführt, der dann das eigentliche Au- dio-Rendering ausführt, um ausgangsseitig z. B. die fünf Audiokanäle und einen Tiefton-Kanal (in Fig. 2 nicht gezeigt) zu erzeugen.
Die Daten auf den Leitungen 18 und 20 bilden somit die synchronisierte Multikanal-Darstellung, wobei der Datenstrom auf der Leitung 20 dem Datenstrom am Eingang 16 abgesehen von einer eventuell vorhandenen Mehrkanal- Zusatzdatencodierung entspricht, bis auf die Tatsache, dass die Fingerabdruck-Informationen aus dem Datenstrom entfernt werden, was je nach Implementierung im Synchronisierer 13 geschehen kann, oder schon vorher. Alternativ kann die Fingerabdruck-Entfernung auch bereits im Fingerabdruck- Extrahierer 14 erfolgen, sodass dann keine Leitung 19 vor- handen ist, sondern eine Leitung 19', die vom Fingerabdruck-Extrahierer 9 direkt in den Synchronisierer 13 geht. Der Synchronisierer 13 wird in diesem Fall also parallel vom Fingerabdruck-Extrahierer sowohl mit den Mehrkanal- Zusatzdaten als auch mit den Referenz- Fingerabdruckinformationen versorgt.
Der Synchronisierer ist also ausgebildet, um die Mehrkanal- Zusatzinformationen und den wenigstens einen Basiskanal unter Verwendung der Test-Fingerabdruckinformationen und der Referenz-Fingerabdruckinformationen sowie unter Verwendung des aus dem Datenstrom abgeleiteten Zusammenhangs der Mehrkanal-Informationen mit den in dem Datenstrom enthaltenen Fingerabdruckinformationen zu synchronisieren. Der zeitliche Zusammenhang zwischen den Mehrkanal-Zusatzinformationen und den Fingerabdruckinformationen wird, wie es nachfolgend noch erläutert wird, vorzugsweise einfach dadurch ermittelt, ob die Fingerabdruck-Informationen vor einem Satz von Mehrkanal-Zusatzinformationen, nach einem Satz von Mehrkanal-Zusatzinformationen oder innerhalb eines Satzes von Mehrkanal-Zusatzinformationen stehen. Je nachdem, ob die Fingerabdrücke vor, hinter oder inmitten eines Satzes von Mehrkanal-Zusatzinformationen stehen, wird auf die Codiererseite ermittelt, dass eben diese Mehrkanal-Informationen zu diesen Fingerabdruck-Informationen gehören.
Vorzugsweise wird eine Blockverarbeitung verwendet. Ebenfalls vorzugsweise wird die Eintastung der Fingerabdrücke so vorgenommen, dass ein Block von Mehrkanal-Zusatzdaten immer auf einen Block-Fingerabdruck folgt, dass sich also ein Block von Mehrkanal-Zusatzinformationen mit einem Block-Fingerabdruck abwechselt und umgekehrt. Alternativ könnte jedoch auch ein Datenstromformat verwendet werden, bei dem die gesamten Fingerabdruck-Informationen in einen separaten Teil am Anfang des Datenstroms geschrieben werden, woraufhin der ganze Datenstrom folgt. Hier würden sich also Block-Fingerabdrucke und Blöcke von Mehrkanal- Zusatzinformationen nicht abwechseln. Alternative Arten und Weisen der Zuordnung von Fingerabdrücken zu Mehrkanal- Zusatzinformationen sind Fachleuten bekannt. Erfindungsgemäß muss lediglich aus dem Datenstrom ein Zusammenhang zwischen den Mehrzahl-Zusatzinformationen und den Fingerabdruckinformationen auf Decodiererseite ableitbar sein, da- mit die Fingerabdruckinformationen dazu verwendet werden können, um die Mehrkanal-Zusatzinformationen mit den Basiskanaldaten zu synchronisieren.
Nachfolgend wird anhand der Fig. 7a bis 7d eine bevorzugte Ausführungsform der blockweisen Verarbeitung dargestellt. Fig. 7a zeigt ein ursprüngliches Multikanalsignal, beispielsweise ein 5.1-Signal, das aus einer Folge von Blöcken Bl bis B8 besteht, wobei in einem Block bei dem in Fig. 7a gezeigten Beispiel Multikanalinformationen MKi enthalten sind. Wenn von einem 5-Kanal-Signal ausgegangen wird, so enthält ein Block, wie beispielsweise der Block Bl jeweils die ersten z. B. 1152 Audioabtastwerte jedes einzelnen Kanals . Eine solche Blockgröße wird beispielsweise in dem BCC-Codierer 112 von Fig. 5 bevorzugt, wobei die Blockbil- düng, also die gewissermaßen Fensterung, um eine Folge von Blöcken aus einem durchgehenden Signal zu erhalten, durch das Element 111 in Fig. 5, das mit „Blockv bezeichnet ist, erreicht wird.
Am Ausgang des Downmix-Blocks 114, der in Fig. 5 mit „Summensignal'" bezeichnet ist, und der das Bezugszeichen 115 aufweist, liegt der wenigstens eine Basiskanal an. Die Basiskanaldaten können wieder als Folge von Blöcken Bl bis B8 dargestellt werden, wobei die Blöcke Bl bis B8 von Fig. 7b mit den Blöcken Bl bis B8 in Fig. 7a korrespondieren. Ein Block enthält nunmehr jedoch nicht mehr - wenn in einer Zeitbereichs-Darstellung geblieben wird, das ursprüngliche 5.1-Signal, sondern nur noch ein Mono-Signal oder ein Ste- reo-Signal mit zwei Stereobasiskanälen. Der Block Bl um- fasst daher wieder die 1152 zeitlichen Abtastwerte sowohl des ersten Stereobasiskanals als auch des zweiten Stereobasiskanals, wobei diese 1152 Abtastwerte sowohl des linken Stereobasiskanals als auch des rechten Stereobasiskanals jeweils durch Abtastwert-Weise Addition/Subtraktion und gegebenenfalls Gewichtung errechnet worden sind, also durch die Operation, die im Downmix-Block 114 von Fig. 5 beispielsweise durchgeführt wird. Entsprechend umfasst der Da- tenstrom mit Multikanalinformationen wieder Blöcke Bl bis B8, wobei jeder Block in Fig. Ic dem entsprechenden Block des ursprünglichen Multikanalsignals in Fig. 7a bzw. des einen oder mehreren Basiskanals von Fig. 7b entspricht. Um zur Rekonstruktion beispielsweise des Blocks Bl des ur- sprünglichen Multikanalsignals MKl zu kommen, müssen die Basiskanaldaten im Block Bl des Basiskanaldatenstroms, die mit BKl bezeichnet sind, mit den Multikanalinformationen Pl des Blocks Bl in Fig. 7c kombiniert werden. Diese Kombination wird bei dem in Fig. 6 gezeigten Ausführungsbeispiel durch den BCC-Syntheseblock durchgeführt, der, um eine blockweise Verarbeitung der Basiskanaldaten zu erhalten, wieder eine Blockbildungs-Stufe an seinem Eingang aufweist.
P3 bezeichnet also, wie es in Fig. 7c ausgeführt ist, die Multikanalinformationen, die zusammen mit dem Block von Werten BK3 der Basiskanäle eine Rekonstruktion des Blocks von Werten MK3 des ursprünglichen Multikanalsignals rekonstruieren lassen.
Erfindungsgemäß wird nunmehr jeder Block Bi des Datenstroms von Fig. 7c mit einem Block-Fingerabdruck versehen. Für den Block B3 bedeutet dies, dass vorzugsweise im Anschluss an den Block P3 von Multikanalinformationen der Block- Fingerabdruck F3 geschrieben wird. Dieser Block- Fingerabdruck ist nun genau von dem Block B3 des Blocks von Werten BK3 abgeleitet. Alternativ könnte der Block- Fingerabdruck F3 auch einer Differenzcodierung unterworfen sein, sodass der Block-Fingerabdruck F3 gleich der Diffe- renz des Block-Fingerabdrucks von Block BK3 der Basiskanäle und des Block-Fingerabdrucks des Blocks von Werten BK2 der Basiskanäle ist. Bei einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung wird als Block-Fingerabdruck ein Energiemaß bzw. ein Differenz-Energiemaß verwendet.
Bei dem eingangs beschriebenen Szenario wird der Datenstrom mit dem einen oder mehreren Basiskanälen in Fig. 7b getrennt vom Datenstrom mit den Mehrkanalinformationen und den Fingerabdruckinformationen von Fig. 7c zu einem Multi- kanal-Rekonstruierer übertragen. Würde nichts weiter getan werden, so könnte der Fall auftreten, dass am Multikanal- Rekonstruierer, beispielsweise am BCC-Syntheseblock 122 von Fig. 5 gerade der Block BK5 zur Verarbeitung ansteht. Fer- ner könnte es sein, dass aufgrund irgendwelcher zeitlicher Unscharfen jedoch von den Multikanalinformationen gerade der Block B7 statt des Blocks B5 ansteht. Ohne weitere Maßnahmen würde daher eine Rekonstruktion des Blocks von Basiskanaldaten BK5 mit den Multikanal-Informationen P7 vor- genommen werden, was zu Artefakten führen würde. Erfindungsgemäß wird nunmehr, wie es nachfolgend noch erläutert wird, ein Versatz von zwei Blöcken berechnet, derart, dass der Datenstrom in Fig. 7c um zwei Blöcke verzögert wird, derart, dass eine MuItikanal-Darsteilung aus dem Datenstrom von Fig. 7b und dem Datenstrom von Fig. 7c vorliegt, die nun jedoch aufeinander synchronisiert worden sind.
Je nach Ausführungsform und Gestaltung/Genauigkeit der Fingerabdruck-Informationen ist die erfindungsgemäße Versatz- bestimmung nicht auf die Berechnung eines Versatzes als ganzzahliges Vielfaches eines Blocks begrenzt, sondern kann durchaus, bei genügend genauer Korrelationsberechnung und bei Verwendung einer genügend großen Anzahl von Block- Fingerabdrucken (was natürlich auf Kosten der Zeitdauer zur Berechnung der Korrelation geht) auch eine Versatzgenauigkeit erreichen, die gleich einem Bruchteil eines Blocks ist und bis zu einem Abtastwert erreichen kann. Es hat sich jedoch herausgestellt, dass eine derart hohe Genauigkeit nicht unbedingt benötigt wird, sondern dass eine Synchronisationsgenauigkeit von +/- einem halben Block (bei einer Blocklänge von 1152 Abtastwerten) bereits zu einer Multika- nal-Rekonstruktion führt, die ein Zuhörer als Artefakt-frei beurteilt.
Fig. 7d zeigt ein bevorzugtes Ausführungsbeispiel für einen Block Bi, beispielsweise für den Block B3 des Datenstroms in Fig. 7c. Der Block wird mit einem Sync-Wort, das bei- spielsweise ein Byte lang sein kann, eingeleitet. Hierauf kommt eine Längeninformation, da es bevorzugt wird, die Multikanalinformationen P3, wie es in der Technik bekannt ist, nach ihrer Berechnung zu skalieren, quantisieren und Entropie-Codieren, sodass die Länge der Multikanalinforma- tionen, die beispielsweise Parameterinformationen sein können, die jedoch auch ein Waveform-Signal z. B. des Seite- Kanals sein können, von vorneherein nicht bekannt ist und daher im Datenstrom signalisiert werden muss. Am Ende der Multikanalinformationen P3 wird dann der erfindungsgemäße Block-Fingerabdruck eingefügt. Bei dem in Fig. 7d gezeigten Ausführungsbeispiel wurde für den Block-Fingerabdruck ein Byte, also 8 Bits, genommen. Da pro Block nur ein einziges Energiemaß genommen wird, wird bei einem Ausführungsbeispiel, bei dem nur eine Quantisierung, jedoch keine Entro- pie-Codierung eingesetzt wird, ein Quantisierer bei der Quantisierung mit einer Quantisierer-Ausgabebreite von 8 Bits eingesetzt. Die quantisierten Energiewerte werden daher ohne weitere Verarbeitung in das 8-Bit-Feld „Block-FA" von Fig. 7d eingetragen. Anschließend folgt dann, obgleich in Fig. 7d nicht gezeigt, wieder ein Synchronisationsbyte für den nächsten Block des Datenstroms, dem wieder ein Längenbyte folgt, und dem dann die Multikanalinformationen P4 für BK4 folgen, wobei diesem Block von Multikanalinformationen P4 für den Basiskanaldatenblock BK4 wieder der Block- Fingerabdruck, der auf den Basiskanal-Daten BK4 basiert, folgt. Wie in Fig. 7d ausgeführt, kann als Energiemaß ein absolutes Energiemaß eingeführt werden, oder aber auch ein Differenz-Energiemaß. Dann würde dem Block B3 des Datenstroms als Block-Fingerabdruck die Differenz zwischen dem Energie- maß für die Basiskanaldaten BK3 und dem Energiemaß für die Basiskanaldaten BK2 zugefügt werden.
Fig. 8 zeigt eine detailliertere Darstellung des Synchronisierers, des Fingerabdruckerzeugers 11 und des Fingerabdru- ckextrahierers 9 von Fig. 2 in Kooperation mit dem Multika- nalrekonstruierer 21. Die Basiskanaldaten werden in einen Basiskanal-Datenpuffer 25 eingespeist und zwischengepuffert. Entsprechend werden die Zusatzinformationen bzw. der Datenstrom mit den Zusatzinformationen und den Fingerab- druckinformationen einem Zusatzinformationen-Puffer 26 zugeführt. Beide Puffer sind allgemein gesagt in Form eines FIFO-Puffers aufgebaut, wobei jedoch der Puffer 26 weitere Kapazitäten dahingehend hat, dass die Fingerabdruckinformationen von dem Referenz-Fingerabdruckextrahierer 9 extra- hierbar sind und ferner aus dem Datenstrom entfernt werden, sodass auf einer Puffer-Ausgangsleitung 27 lediglich Mehr- kanal-Zusatzinformationen, jedoch ohne eingetastete Fingerabdrücke ausgebbar sind. Die Entfernung der Fingerabdrücke in dem Datenstrom kann jedoch auch von einem Zeitverschie- ber 28 oder irgendeinem anderen Element durchgeführt werden, sodass der Multikanalrekonstruierer 21 nicht durch Fingerabdruck-Bytes bei der Multikanalrekonstruktion gestört wird. Werden Absolut-Fingerabdrücke sowohl auf Referenz-Seite als auch auf Test-Seite verwendet, so können die durch den Fingerabdruck-Erzeuger 11 berechneten Fingerabdruckinformationen genauso wie die durch den Fingerabdruck- Extrahierer 9 ermittelten Fingerabdruckinformationen direkt in einen Korrelator 29 innerhalb des Synchronisierers 13 von Fig. 2 eingespeist werden. Der Korrelator berechnet dann den Versatzwert und liefert denselben über eine Versatz-Leitung 30 zu dem Zeitverschieber 28. Der Synchronisierer 13 ist ferner ausgebildet, um dann, wenn ein gültiger Versatzwert erzeugt und dem Zeitverschieber 28 zuge- führt worden sind, einen Freigeber 31 anzusteuern, damit der Freigeber 31 einen Schalter 32 schließt, derart, dass der Strom von Mehrkanal-Zusatzdaten von dem Puffer 26 über den Zeitverschieber 28 und den Schalter 32 in den Multika- nal-Rekonstruierer 21 eingespeist wird.
Bei dem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung wird lediglich eine Zeitverschiebung (Delay) der Mehrkanal-Zusatzinformationen vorgenommen. Gleichzeitig wird, damit ein Zuhörer der Ausgabe des Multikanalre- konstruierers 21 die Zeitverzögerung zur Berechnung des richtigen Versatzwerts nicht merkt, parallel zu der Berechnung des richtigen Versatzwertes bereits eine Multikanalre- konstruktion durchgeführt. Diese Multikanalrekonstruktion ist jedoch lediglich eine „triviale"" Multikanalrekonstruktion, da die vorzugsweise zwei Stereobasiskanäle von dem Multikanalrekonstruierer 21 einfach ausgegeben werden. Ist der Schalter 32 daher offen, so folgt nur eine Stereoausgabe. Ist der Schalter 32 jedoch geschlossen, so erhält der Multikanalrekonstruierer 21 zusätzlich zu den Stereo- Basiskanälen auch die Mehrkanal-Zusatzinformationen und kann eine nun jedoch synchronisierte Multikanal-Ausgabe durchführen. Ein Zuhörer merkt dies lediglich dadurch, dass von der Stereoqualität auf die Multikanal-Qualität überge- gangen wird.
In Anwendungsfällen, bei denen Anfangs-Zeitverzögerungen keine große Rolle spielen, kann jedoch die Ausgabe des MuI- tikanalrekonstruierers 21 so lange zurückgehalten werden, bis ein gültiger Versatz vorliegt. Dann kann bereits der allererste Block (BKl von Fig. 7b) mit den nunmehr korrekt verzögerten Mehrkanal-Zusatzdaten Pl (Fig. 7c) dem Multikanalrekonstruierer 21 zugeführt werden, sodass erst dann mit der Ausgabe begonnen wird, wenn Multikanal-Daten vorliegen. Eine Ausgabe des Multikanalrekonstruierers 21 bei geöffnetem Schalter wird es in diesem Ausführungsbeispiel nicht geben. Nachfolgend wird Bezug nehmend auf Fig. 9 die Funktionalität des Korrelators 29 von Fig. 8 dargestellt. Am Ausgang des Test-Fingerabdruck-Berechners 11 wird eine Folge von Test-Fingerabdruckinformationen geliefert, wie sie im o- bersten Teilbild von Fig. 9 zu sehen ist. So ist für jeden Block der Basiskanäle, wobei dieser Block mit 1, 2, 3, 4, i bezeichnet ist, ein Block-Fingerabdruck vorhanden. Je nach Korrelationsalgorithmus wird zur Korrelation nur die Folge von diskreten Werten benötigt. Andere Korrelationsalgorith- men können jedoch auch als Eingangswert eine zwischen den diskreten Werten interpolierte Kurve erhalten, wie sie in Fig. 9 gezeichnet ist. Entsprechend erzeugt der Referenz- Fingerabdruckermittler 9 ebenfalls eine Folge von diskreten Referenz-Fingerabdrucken, die er aus dem Datenstrom extra- hiert. Sind im Datenstrom beispielsweise Differenz-codierte Fingerabdruckinformationen enthalten, und soll der Korrela- tor auf der Basis von Absolut-Fingerabdrücken arbeiten, so wird ein Differenz-Decodierer 35 in Fig. 8 aktiviert. Es wird jedoch bevorzugt, dass im Datenstrom Absolut- Fingerabdrücke als. Energiemaß enthalten sind, da diese Information über die Gesamtenergie pro Block zu Pegelkorrekturzwecken von dem Multikanalrekonstruierer 21 ebenfalls vorteilhaft ausgenutzt werden kann. Ferner wird es bevorzugt, die Korrelation auf der Basis von Differenz- Fingerabdrücken durchzuführen. In diesem Fall wird der Block 9 vor dem Korrelator eine Differenzverarbeitung durchführen, und wird auch der Block 11 vor dem Korrelator eine Differenzverarbeitung durchführen, wie es bereits ausgeführt worden ist.
Der Korrelator 29 wird nunmehr die in den beiden oberen Teilbildern von Fig. 9 dargestellten Kurven bzw. Folgen von diskreten Werten enthalten und ein Korrelationsergebnis liefern, das im unteren Teilbild von Fig. 9 dargestellt ist. Es ergibt sich ein Korrelationsergebnis, dessen Versatz-Komponente genau den Versatz zwischen den beiden Fingerabdruckinformationen-Kurven liefert. Da der Versatz zudem positiv ist, müssen die Mehrkanal-Zusatzinformationen in positiver Zeitrichtung verschoben werden, also verzögert werden. Es sei darauf hingewiesen, dass natürlich auch die Basiskanaldaten in negativer Zeitrichtung verschoben werden könnten, oder dass sowohl die Mehrkanal-Zusatzinformationen einen Teil in positiver Richtung verschoben werden können, und die Basiskanal-Zusatzdaten einen Teil des Versatzes in negativer Zeitrichtung verschoben werden können, so lange der Multikanalrekonstruierer an seinen beiden Eingängen eine synchronisierte Multikanal-Darstellung enthält.
Nachfolgend wird auf eine bevorzugte Ausführungsform der Berechnung des Versatzes parallel zur Audioausgabe anhand von Fig. 10 dargestellt. Die Basiskanaldaten werden gepuffert, um jeweils einen Fingerabdruck berechnen zu können, wonach der Block, von dem gerade ein Test-Block- Fingerabdruck berechnet worden ist, dem Multikanalrekonstruierer zur Multikanalrekonstruktion zugeführt wird. Hierauf wird der nächste Block der Basiskanaldaten wiederum in den Puffer 25 eingespeist, damit von diesem Block wieder ein Test-Block-Fingerabdruck berechnet werden kann. Dies wird für z. B. eine Anzahl von 200 Blöcken durchgeführt. Diese 200 Blöcke werden jedoch, damit der Zuhörer keine Verzögerung merkt, von dem Multikanalkonstruierer im Sinne einer „trivialen" Multikanalrekonstruktion als Stereo- Ausgangsdaten einfach ausgegeben.
Je nach Implementierung können auch weniger als 200 Blöcke oder mehr als 200 Blöcke verwendet werden. Erfindungsgemäß hat sich herausgestellt, dass eine Anzahl zwischen 100 und 300 Blöcken und vorzugsweise 200 Blöcke Ergebnisse liefert, die einen vernünftigen Kompromiss zwischen Berechnungszeit, Korrelations-Rechenaufwand und Versatzgenauigkeit liefern.
Ist der Block 36 abgearbeitet, so wird auf einen Block 37 übergegangen, in dem durch den Korrelator 29 die Korrelation zwischen den 200 berechneten Test-Block-Fingerabdrücken und den 200 berechneten Referenz-Block-Fingerabdrücken durchgeführt wird. Das dort erhaltene Versatzergebnis wird nunmehr gespeichert. Dann wird in einem Block 38 entsprechend dem Block 36 eine Anzahl der nächsten z. B. 200 Blöcke der Basiskanaldaten berechnet. Entsprechend werden wieder 200 Blöcke aus dem Datenstrom mit den Mehrkanal- Zusatzinformationen extrahiert. Hierauf wird in einem Block 39 wieder eine Korrelation durchgeführt, und es wird das dort erhaltene Versatzergebnis gespeichert. Dann wird in einem Block 40 eine Abweichung zwischen dem Versatzergebnis aufgrund der zweiten 200 Blöcke und dem Versatzergebnis aufgrund der ersten 200 Blöcke festgestellt. Liegt die Abweichung unterhalb einer vorbestimmten Schwelle, so wird durch einen Block 41 der Versatz über die Versatzleitung 30 dem Zeitverschieber 28 von Fig. 8 zugeführt, und es wird der Schalter 32 geschlossen, sodass ab diesem Zeitpunkt auf die Multikanal-Ausgabe übergegangen wird. Ein vorbestimmter Wert für die Abweichungsschwelle ist beispielsweise ein Wert von einem oder zwei Blöcken. Dies basiert darauf, dass dann, wenn sich ein Versatz von einer Berechnung zur nächsten Berechnung nicht mehr als ein oder zwei Blöcke ändert, kein Fehler bei der Korrelationsberechnung durchgeführt worden ist.
Abweichend von diesem Ausführungsbeispiel kann auch gewissermaßen ein gleitendes Fenster mit einer Fensterlänge ei- ner Anzahl von Blöcken, die z. B. 200 ist, verwendet werden. So wird z. B. eine Berechnung mit 200 Blöcken vorgenommen und ein Ergebnis erhalten. Dann wird um einen Block weitergegangen und in die Anzahl der für die Korrelationsberechnung verwendeten Blöcke ein Block herausgenommen und dafür der neue Block verwendet. Das erhaltene Ergebnis wird dann ebenso wie das zuletzt erhaltene Ergebnis in ein Histogramm eingespeichert. Dieses Prozedere wird für eine Anzahl von Korrelationsberechnungen, wie z. B. 100 oder 200, vorgenommen, so dass sich das Histogramm nach und nach füllt. Der Peak des Histogramms wird dann als berechneter Versatz verwendet, um den Anfangsversatz zu liefern oder einen Versatz zum dynamischen Nachstellen zu erhalten. Die parallel zur Ausgabe stattfindende Versatzberechnung wird in einem Block 42 mitlaufen, und es wird je nach Bedarf, wenn ein Auseinanderdriften des Datenstroms mit den Mehrkanal-Informationen und des Datenstroms mit den Basis- kanaldaten festgestellt worden ist, eine adaptive bzw. dynamische Versatznachführung erreicht, indem ein aktualisierter Versatzwert über die Leitung 30 dem Zeitverschieber 28 von Fig. 8 zugeführt wird. Im Hinblick auf die adaptive Nachführung sei darauf hingewiesen, dass je nach Implemen- tierung auch eine Glättung der Versatzänderung durchgeführt werden kann, sodass dann, wenn eine Abweichung von beispielsweise zwei Blöcken festgestellt worden ist, zunächst der Versatz um 1 inkrementiert wird und dann bei Bedarf wieder inkrementiert wird, damit die Sprünge nicht zu groß werden.
Nachfolgend wird Bezug nehmend auf Fig. 11 auf eine bevorzugte Ausführungsform des Fingerabdruck-Erzeugers 2 auf En- codiererseite, wie er in Fig. 1 dargestellt worden ist, und des Fingerabdruck-Erzeugers 11 von Fig. 2, wie er auf Deco- dierer-Seite eingesetzt wird, dargestellt.
Allgemein wird das Mehrkanalaudiosignal für die Gewinnung der Mehrkanalzusatzdaten in Blöcke fester Größe eingeteilt. Pro Block wird nun gleichzeitig zur Gewinnung der Mehrkanalzusatzdaten ein Fingerprint berechnet, der geeignet ist, die zeitliche Struktur des Signals möglichst eindeutig zu charakterisieren. Ein Ausführungsbeispiel hierzu ist es, den Energiegehalt des aktuellen Downmixaudiosignals des Au- dioblocks zu verwenden, beispielsweise in logarithmierter Form, also in einer Dezibel-verwandten Darstellung. In diesem Fall ist der Fingerprint ein Maß für die zeitliche Hüllkurve des Audiosignals. Um die übertragene Informationsmenge zu reduzieren und die Genauigkeit des Messwertes zu steigern, kann diese Synchronisationsinformation auch als Differenz zum Energiewert des vorangegangenen Blocks mit anschließend geeigneter Entropiecodierung, beispielsweise Huffman-Codierung, adaptiver Skalierung und Quanti- sierung ausgedrückt werden. Der Fingerprint der zeitlichen Hüllkurve wird dabei wie folgt berechnet:
Zunächst wird, wie bei Punkt 1 in Fig. 11 dargestellt ist, eine Energieberechnung des Downmixaudiosignals im aktuellen Block gegebenenfalls für ein Stereosignal durchgeführt. Hierbei werden z. B. 1152 Audioabtastwerte sowohl vom linken als auch vom rechten Downmixkanal jeweils quadriert und aufsummiert. sieft(i) stellt hierbei einen zeitlichen Ab- tastwert zum Zeitpunkt i des linken Basiskanals dar, während sright(i) einen zeitlichen Abtastwert des rechten Basiskanals zum Zeitpunkt i darstellt. Bei einem monophonen Downmixsignal entfällt die Sumraierung. Ferner wird es bevorzugt, vor der Berechnung die für die vorliegende Erfin- düng nicht aussagekräftigen Gleichanteile des Downmixaudiosignals zu entfernen.
In einem Schritt 2 wird eine Minimumbegrenzung der Energie zwecks anschließender logarithmischer Darstellung durchge- führt. Für eine Dezibel-verwandte Bewertung der Energie wird es bevorzugt, einen minimalen Energieoffset zu verwenden, damit sich im Falle einer Nullenergie eine sinnvolle logarithmische Berechnung ergibt. Diese Energiemaßzahl in dB überstreicht dabei einen Zahlenbereich von 0 bis 90 (dB) bei einer Audiosignalauflösung von 16 Bit.
Wie es bei 3 in Fig. 11 gezeigt ist, wird es bevorzugt, für eine exakte Bestimmung des zeitlichen Versatzes zwischen Mehrkanalzusatzinformationen und empfangenem Audiosignal nicht den absoluten Energie-Hüllkurvenwert zu verwenden, sondern vielmehr die Steigung (Steilheit) der Signalhüllkurve. Daher wird für die Korrelationsmessung nur die Steigung der Energie-Hüllkurve herangezogen. • Technisch gesehen wird diese Signalableitung durch Differenzbildung des Ener- giewertes mit dem des vorangegangenen Blocks berechnet. Dieser Schritt wird z. B. im Encoder vollzogen. Dann besteht der Fingerprint aus differenzcodierten Werten. Alternativ kann dieser Schritt auch rein decodiererseitig imple- mentiert werden. Hier besteht der übertragene Fingerprint also aus nicht-differenzcodierten Werten. Die Differenzbildung wird hier erst im Decodierer vorgenommen. Letztere Möglichkeit hat den Vorteil, dass der Fingerprint Informa- tion über die absolute Energie des Downmixsignals enthält. Es wird allerdings typischerweise eine etwas höhere Fingerprintwortlänge benötigt.
Weiterhin wird es bevorzugt, die Energie (Hüllkurve des Signals) für eine optimale Aussteuerung zu skalieren. Damit bei der anschließenden Quantisierung dieses Fingerprints sowohl der Zahlenbereich maximal ausgenutzt als auch die Auflösung bei geringen Energiewerten verbessert werden kann, ist es sinnvoll, eine zusätzliche Skalierung (== Ver- Stärkung) einzuführen. Diese kann entweder als feste und statische Gewichtungsgroße oder über eine an das Hüllkurvensignal angepasste dynamische Verstärkungsregelung realisiert werden.
Ferner wird, wie es bei 5 in Fig. 11 gezeigt ist, eine Quantisierung des Fingerprints vorgenommen. Um diesen Fingerprint für die Eintastung in die Mehrkanalzusatzinforma- tionen vorzubereiten, wird dieser auf 8 Bit guantisiert. Diese reduzierte Fingerprintauflösung hat sich in der Pra- xis als guter Kompromiss hinsichtlich Bitbedarf und Zuverlässigkeit der Verzögerungsdetektion bewährt. Zahlenüberläufe von größer als 255 werden dabei mit einer Sättigungskennlinie auf den Maximalwert von 255 begrenzt.
Wie es bei 6 in Fig. 11 gezeigt ist, kann noch eine optimale Entropiecodierung des Fingerprints vorgenommen werden. Durch Auswertung von statistischen Eigenschaften des Fingerprints kann der Bitbedarf des quantisierten Fingerprints noch weiter reduziert werden. Ein geeignetes Entropiever- fahren ist beispielsweise die Huffman-Codierung oder die arithmetische Codierung. Statistisch unterschiedliche Häufigkeiten von Fingerprintwerten können durch verschiedene Codelängen ausgedrückt werden und somit im Mittel den Bitbedarf der Fingerprintdarstellung reduzieren.
Pro Audioblock wird die Berechnung der Mehrkanalzusatzdaten unter Zuhilfenahme der Mehrkanalaudiodaten durchgeführt. Hierbei berechnete Mehrkanalzusatzinformationen werden anschließend durch die neu hinzukommende Synchronisationsinformation durch geeignetes Einbetten in den Bitstrom erweitert.
Mit Hilfe der erfindungsgemäßen Lösung ist der Empfänger nunmehr in der Lage, einen zeitlichen Versatz von Downmix- signal und Zusatzdaten zu erkennen und eine zeitkorrekte Anpassung, also eine Verzögerungskompensation zwischen Ste- reoaudiosignalen und Mehrkanalzusatzinformationen in der Größenordnung von +/- H Audioblock zu realisieren. Somit kann die MehrkanalZuordnung im Empfänger fast vollständig, d. h. bis auf eine kaum wahrnehmbaren Zeitunterschied von +/- M. Audioframes rekonstruiert werden, welcher sich nicht nennenswert auf die Qualität des rekonstruierten Mehrkanal- audiosignals auswirkt.
Abhängig von den Gegebenheiten kann das erfindungsgemäße Verfahren zum Erzeugen bzw. Decodieren in Hardware oder in Software implementiert werden. Die Implementierung kann auf einem digitalen Speichermedium, insbesondere einer Diskette oder CD mit elektronisch auslesbaren Steuersignalen erfolgen, die so mit einem programmierbaren Computersystem zusammenwirken können, dass das Verfahren ausgeführt wird. Allgemein besteht die Erfindung somit auch in einem Computer-Programm-Produkt mit einem auf einem maschinenlesbaren Träger gespeicherten Programmcode zur Durchführung des Verfahrens, wenn das Computer-Programm-Produkt auf einem Rechner abläuft. In anderen Worten ausgedrückt kann die Erfin- düng somit als ein Computer-Programm mit einem Programmcode zur Durchführung des Verfahrens realisiert werden, wenn das Computer-Programm auf einem Computer abläuft.

Claims

Patentansprüche
1. Vorrichtung zum Erzeugen eines Datenstroms für eine Multikanal-Rekonstruktion eines ursprünglichen Multi- kanal-Signals, wobei das Multikanal-Signal wenigstens zwei Kanäle hat, mit folgenden Merkmalen;
einem Fingerabdruck-Erzeuger (2) zum Erzeugen von Fingerabdruck-Informationen aus wenigstens einem aus dem ursprünglichen Multikanal-Signal abgeleiteten Basis- Kanal, wobei eine Anzahl von Basis-Kanälen größer oder gleich 1 und kleiner als eine Anzahl von Kanälen des ursprünglichen Multikanal-Signals ist, wobei die Fingerabdruck-Informationen einen zeitlichen Verlauf des wenigstens einen Basiskanals wiedergeben; und
einem Datenstrom-Erzeuger (4) zum Erzeugen eines Da- tenstroms aus den Fingerabdruck-Informationen und von zeitlich variablen Mehrkanal-Zusatzinformationen, die zusammen mit dem wenigstens einen Basis-Kanal die Multikanal-Rekonstruktion des ursprünglichen Multikanal- Signals ermöglichen, wobei der Datenstrom-Erzeuger (4) ausgebildet ist, um den Datenstrom so zu erzeugen, dass aus dem Datenstrom ein zeitlicher Zusammenhang zwischen den Mehrkanal-Zusatzinformationen und den Fingerabdruck-Informationen ableitbar ist.
2. Vorrichtung nach Anspruch 1,
bei der der Fingerabdruck-Erzeuger (2) ausgebildet ist, um den wenigstens einen Basiskanal blockweise zu verarbeiten, um die Fingerabdruck-Informationen zu er- halten,
bei der die Mehrkanal-Zusatzinformationen blockweise berechnet sind, sodass sie zusammen mit Blöcken des wenigstens einen Basiskanals zur Multikanal- Rekonstruktion zu verwenden sind, und
bei der der Datenstrom-Erzeuger (4) ausgebildet ist, um die Mehrkanal-Zusatzinformationen und die Fingerabdruck-Informationen blockweise in den Datenstrom zu schreiben.
3. Vorrichtung nach Anspruch 2, bei der der Fingerab- druck-Erzeuger (2) ausgebildet ist, um für einen Block des wenigstens einen Basiskanals als Fingerabdruck- Informationen einen Block-Fingerabdruck zu erzeugen, der einen zeitlichen Verlauf des Basiskanals in dem Block wiedergibt,
bei der ein Block der Mehrkanal-Zusatzinformationen zusammen mit dem Block des Basiskanals für die Multi- kanal-Rekonstruktion zu verwenden ist, und
bei der der Datenstrom-Erzeuger (4) ausgebildet ist, um den Datenstrom blockweise so zu schreiben, dass der Block von Mehrkanal-Zusatzinformationen und der Block von Fingerabdruck-Informationen eine vorbestimmte Beziehung zueinander aufweisen.
4. Vorrichtung nach Anspruch 2, bei der der Fingerabdruck-Erzeuger (2) ausgebildet ist, um für zeitlich folgende Blöcke des wenigstens einen Basiskanals als Fingerabdruck-Informationen eine Folge von Block- Fingerabdrücken zu berechnen,
bei der die Mehrkanal-Zusatzinformationen blockweise für zeitlich folgende Blöcke des wenigstens einen Basiskanals gegeben sind, und
bei der der Datenstrom-Erzeuger ausgebildet ist, um die Folge von Block-Fingerabdrucken in einer vorbe- stimmten Beziehung zu der Folge von Blöcken der Mehrkanal-Zusatzinformationen zu schreiben.
5. Vorrichtung nach Anspruch 4, bei der der Fingerab- druck-Erzeuger (2) ausgebildet ist, um eine Differenz zwischen zwei Fingerabdruck-Werten zweier Blöcke des wenigstens einen Basiskanals als Block-Fingerabdruck zu berechnen.
6. Vorrichtung nach einem der vorhergehenden Ansprüche, bei der der Fingerabdruck-Erzeuger (2) ausgebildet ist, um eine Quantisierung und Entropie-Codierung von Fingerabdruck-Werten durchzuführen, um die Fingerabdruck-Informationen zu erhalten.
7. Vorrichtung nach Anspruch 6, bei der der Fingerabdruck-Erzeuger (2) ausgebildet ist, um Fingerabdruck- Werte mit einer Skalierungsinformation zu skalieren und die Skalierungsinformation ferner in Zuordnung zu den Fingerabdruck-Informationen in den Datenstrom zu schreiben.
8. Vorrichtung nach einem der vorhergehenden Ansprüche, bei der der Fingerabdruck-Erzeuger (2) ausgebildet ist, um die Fingerabdruck-Informationen blockweise zu berechnen, und
bei der der Datenstrom-Erzeuger (4) ausgebildet ist, um den Datenstrom blockweise zu schreiben, sodass ein Block des Datenstroms einen Block von Mehrkanal- Zusatzinformationen und einen Block von Fingerabdruck- Informationen, die dem Block von Mehrkanal- Zusatzinformationen und einem Block des wenigstens einen Basiskanals zugeordnet sind, aufweist.
9. Vorrichtung nach einem der vorhergehenden Ansprüche, bei der wenigstens zwei Basiskanäle vorhanden sind, und bei der der Fingerabdruck-Erzeuger (2) ausgebildet ist, um die wenigstens zwei Basiskanäle abtastwertwei- se oder spektralwertweise zu addieren oder vor der Ad- dition zu quadrieren.
10. Vorrichtung nach einem der vorhergehenden Ansprüche, bei der der Fingerabdruck-Erzeuger (2) ausgebildet ist, um als Fingerabdruck-Informationen Daten über ei- ne Energiehüllkurve des wenigstens einen Basiskanals zu verwenden.
11. Vorrichtung nach Anspruch 10, bei der der Fingerabdruck-Erzeuger (2) ausgebildet ist, um als Fingerab- druck-Informationen Daten über eine Energiehüllkurve des wenigstens einen Basiskanals zu verwenden, und
bei der der Fingerabdruck-Erzeuger (2) ferner ausgebildet ist, um eine Minimumbegrenzung der Energie zu verwenden und eine logarithmische Darstellung einer Minimum-begrenzten Energie zu liefern.
12. Vorrichtung nach Anspruch 11, bei der der wenigstens eine Basiskanal in codierter Form zu einem Multikanal- Rekonstruierer übertragbar ist,
wobei die codierte Form unter Verwendung eines verlustbehafteten Codierers erzeugt worden ist, und
bei der ferner ein Basiskanal-Decodierer vorhanden ist, um eine decodierte Form des wenigstens einen Basiskanals als Eingangssignal für den Fingerabdruck- Erzeuger (2) bereitzustellen.
13. Vorrichtung nach einem der vorhergehenden Ansprüche, bei der die Mehrkanal-Zusatzdaten Mehrkanal- Parameterdaten sind, die jeweils blockweise entspre- chenden Blöcken des wenigstens einen Basiskanals zugeordnet sind.
14. Vorrichtung nach Anspruch 13, die ferner folgende Merkmale aufweist:
einen Mehrkanal-Analysierer (112) zum blockweisen Erzeugen sowohl einer Folge von Blöcken des wenigstens einen Basiskanals als auch einer Folge von Blöcken der Mehrkanal-Zusatzinformationen,
wobei der Fingerabdruck-Erzeuger (2) ausgebildet ist, um von jedem Block von Werten des wenigstens einen Basiskanals einen Block-Fingerabdruckwert zu berechnen.
15. Vorrichtung nach Anspruch 14, bei der der Datenstrom- Erzeuger (4) ausgebildet ist, um den Datenstrom in einen separaten Datenkanal zu schreiben, der zusätzlich zu einem Standard-Datenkanal vorhanden ist, über den der wenigstens eine Basiskanal zu einer Multikanal- Rekonstruktionseinrichtung übertragbar ist.
16. Vorrichtung nach Anspruch 15, bei der der Standard- Datenkanal ein standardisierter Kanal für ein digita- les Stereo-Rundfunksignal oder ein standardisierter Kanal für eine Übertragung über das Internet ist.
17. Vorrichtung zum Erzeugen einer Multikanal-Darstellung
(18, 20) eines ursprünglichen Multikanal-Signals aus wenigstens einem Basiskanal und einem Datenstrom, der Fingerabdruck-Informationen, die einen zeitlichen Verlauf des -wenigstens einen Basiskanals wiedergeben, und Mehrkanal-Zusatzinformationen aufweist, die zusammen mit dem wenigstens einen Basiskanal die Multikanal- Rekonstruktion des ursprünglichen Multikanal-Signals ermöglichen, wobei aus dem Datenstrom ein Zusammenhang zwischen den Mehrkanal-Zusatzinformationen und den Fingerabdruck-Informationen ableitbar ist, mit folgenden Merkmalen:
einem Fingerabdruck-Erzeuger (11) zum Erzeugen von Test-Fingerabdruckinformationen aus dem wenigstens einen Basiskanal;
einem Fingerabdruck-Extrahierer (9) zum Extrahieren der Fingerabdruck-Informationen aus dem Datenstrom, um Referenz-Fingerabdruckinformationen zu erhalten; und
einem Synchronisierer (13) zum zeitlichen Synchronisieren der Mehrkanal-Zusatzinformationen und des wenigstens einen Basiskanals unter Verwendung der Test- Fingerabdruckinformationen, der Referenz- Fingerabdruckinformationen und eines aus dem Datenstrom abgeleiteten Zusammenhangs der Mehrkanal- Informationen und der in dem Datenstrom enthaltenen Fingerabdruck-Informationen, um eine synchronisierte Multikanal-Darstellung zu erhalten.
18. Vorrichtung nach Anspruch 17, die ferner folgendes Merkmal aufweist:
einen MuItikanal-Rekonstruierer (21) zum Rekonstruieren der Multikanal-Darstellung unter Verwendung der synchronisierten Multikanal-Darstellung, um eine Rekonstruktion des ursprünglichen Multikanal-Signals zu erhalten.
19. Vorrichtung nach Anspruch 17 oder 18,
bei der der Datenstrom eine Folge von Blöcken von Mehrkanal-Zusatzdaten in zeitlichem Zusammenhang mit einer Folge von Referenz-Fingerabdruckwerten als Referenz-Fingerabdruckinformationen aufweist, bei der der Extrahierer (9) ausgebildet ist, um zu einem Block von Mehrkanal-Zusatzdaten aufgrund des zeitlichen Zusammenhangs einen zugehörigen Fingerabdruckwert zu ermitteln;
bei der der Fingerabdruck-Erzeuger (11) ausgebildet ist, um für eine Folge von Blöcken des wenigstens einen Basiskanals eine Folge von Test- Fingerabdruckwerten als Test- Fingerabdruckinformationen zu ermitteln;
bei der der Synchronisierer (13) ausgebildet ist, um aufgrund eines Versatzes (30) zwischen der Folge von Test-Fingerabdruckwerten und der Folge von Referenz- Fingerabdruckwerten einen Versatz zwischen den Blöcken von Mehrkanal-Zusatzdaten und den Blöcken des wenigstens einen Basiskanals zu berechnen, und um den Versatz durch Verzögern (28) der Folge von Blöcken der Mehrkanal-Zusatzinformationen unter Verwendung des be- rechneten Versatzes zu kompensieren.
20. Vorrichtung nach einem der Ansprüche 17 bis 19,
bei der der Fingerabdruck-Erzeuger (11) ausgebildet ist, um eine Quantisierung von Fingerabdruck-Werten durchzuführen, um die Test-Fingerabdruck-Informationen zu erhalten.
21. Vorrichtung nach einem der Ansprüche 17 bis 20,
bei der der Fingerabdruck-Erzeuger (11) ausgebildet ist, um Fingerabdruck-Werte mit einer Skalierungsinformation aus dem Datenstrom zu skalieren.
22. Vorrichtung nach einem der Ansprüche 17 bis 21,
bei der wenigstens zwei Basiskanäle vorhanden sind, und bei der der Pingerabdruck-Erzeuger (11) ausgebildet ist, um die wenigstens zwei Basiskanäle abtastwertwei- se oder spektralwertweise zu addieren oder vor der Ad- dition zu quadrieren.
23. Vorrichtung nach einem der Ansprüche 17 bis 22,
bei der der Fingerabdruck-Erzeuger (11) ausgebildet ist, um als Fingerabdruck-Informationen Daten über eine Energiehüllkurve des wenigstens einen Basiskanals zu verwenden,
24. Vorrichtung nach einem der Ansprüche 17 bis 23
bei der der Fingerabdruck-Erzeuger (11) ausgebildet ist, um als Fingerabdruck-Informationen Daten über eine Energiehüllkurve des wenigstens einen Basiskanals zu verwenden, und
bei der der Fingerabdruck-Erzeuger (11) ferner ausgebildet ist, um eine Minimumbegrenzung der Energie zu verwenden und eine logarithmische Darstellung einer Minimum-begrenzten Energie zu liefern.
25. Vorrichtung nach einem der Ansprüche 17 bis 24, bei der der Datenstrom blockweise organisiert ist und in einem Block des Datenstroms ein Block von Mehrkanal- Zusatzinformationen und ein Block-Fingerabdruck ent- halten sind,
bei der der Fingerabdruck-Erzeuger (11) ausgebildet ist, um als Test-Fingerabdruck-Information eine Differenz zwischen zwei Block-Fingerabdrucken des wenigs- tens einen Basiskanals zu berechnen, und
bei der der Fingerabdruck-Extrahierer (9) ferner ausgebildet ist, um eine Differenz aus zwei Block- Fingerabdrücken im Datenstrom zu berechnen und als Referenz-Fingerabdruck-Informationen zu dem Synchronisierer (13) zu liefern.
26. Vorrichtung nach einem der Ansprüche 17 bis 25,
bei der der Synchronisierer (13) ausgebildet ist, um parallel zu einer Audioausgabe einen Versatz zwischen den Mehrkanal-Zusatzdaten und dem wenigstens einen Ba- siskanal zu berechnen und den Versatz adaptiv zu kompensieren.
27. Vorrichtung nach Anspruch 18, die ferner ausgebildet ist, um dann, wenn noch keine synchronisierten Mehrka- nal-Zusatzdaten vorliegen, den wenigstens einen Basiskanal wiederzugeben und dann, wenn synchronisierte .Mehrkanal-Zusatzdaten vorhanden sind, von einer Mono- oder Stereo-Wiedergabe des. wenigstens einen Basiskanals in eine Multikanal-Wiedergabe umzuschalten (32) .
28. Vorrichtung nach einem der Ansprüche 17 bis 27, die ausgebildet ist, um den Datenstrom und den wenigstens einen Basiskanal über voneinander separate Bitströme zu erhalten, die über zwei voneinander unterschiedli- che logische Kanäle oder physische Kanäle empfangen werden, oder über denselben allerdings zu unterschiedlichen Zeiten aktiven Übertragungskanal erhalten werden.
29. Verfahren zum Erzeugen eines Datenstroms für eine MuI- tikanal-Rekonstruktion eines ursprünglichen Multika- nal-Signals, wobei das Multikanal-Signal wenigstens zwei Kanäle hat, mit folgenden Schritten:
Erzeugen (2) von Fingerabdruck-Informationen aus wenigstens einem aus dem ursprünglichen Multikanal- Signal abgeleiteten Basis-Kanal, wobei eine Anzahl von Basis-Kanälen größer oder gleich 1 und kleiner als ei- ne Anzahl von Kanälen des ursprünglichen Multikanal- Signals ist, wobei die Fingerabdruck-Informationen einen zeitlichen Verlauf des wenigstens einen Basiskanals wiedergeben; und
Erzeugen (4) eines Datenstroms aus den Fingerabdruck- Informationen und von zeitlich variablen Mehrkanal- Zusatzinformationen, die zusammen mit dem wenigstens einen Basis-Kanal die Multikanal-Rekonstruktion des ursprünglichen Multikanal-Signals ermöglichen, wobei der Datenstrom so erzeuget wird, dass aus dem Datenstrom ein zeitlicher Zusammenhang zwischen den Mehrka-- nal-Zusatzinformationen und den Fingerabdruck- Informationen ableitbar ist.
30. Verfahren zum Erzeugen einer Multikanal-Darstellung
(18, 20) eines ursprünglichen Multikanal-Signals aus wenigstens einem Basiskanal und einem Datenstrom, der
Fingerabdruck-Informationen, die einen zeitlichen Ver- lauf des wenigstens einen Basiskanals wiedergeben, und Mehrkanal-Zusatzinformationen aufweist, die zusammen mit dem wenigstens einen Basiskanal die Multikanal- Rekonstruktion des ursprünglichen Multikanal-Signals ermöglichen, wobei aus dem Datenstrom ein Zusammenhang zwischen den Mehrkanal-Zusatzinformationen und den Fingerabdruck-Informationen ableitbar ist, mit folgenden Schritten:
Erzeugen (11) von Test-Fingerabdruckinformationen aus dem wenigstens einen Basiskanal;
Extrahieren (9) der Fingerabdruck-Informationen aus dem Datenstrom, um Referenz-Fingerabdruckinformationen zu erhalten; und
Synchronisieren (13) der Mehrkanal-Zusatzinformationen und des wenigstens einen Basiskanals unter Verwendung der Test-Fingerabdruckinformationen, der Referenz- Fingerabdruckinformationen und eines aus dem Datenstrom abgeleiteten Zusammenhangs der Mehrkanal- Informationen und der in dem Datenstrom enthaltenen Fingerabdruck-Informationen, um eine synchronisierte Multikanal-Darstellung zu erhalten.
31. Computer-Programm mit einem Programmcode zur Ausführung des Verfahrens gemäß Patentanspruch 29 oder Patentanspruch 30, wenn das Computer-Programm auf einem Rechner abläuft.
32. Datenstrom, der Fingerabdruck-Informationen, die einen zeitlichen Verlauf, wenigstens eines aus einem ursprünglichen Multikanal-Signal abgeleiteten Basis- Kanals wiedergeben, wobei eine Anzahl von Basis- Kanälen größer oder gleichen 1 und kleiner als eine Anzahl von Kanälen des ursprünglichen Multikanal- Signals ist, und Mehrkanal-Zusatzinformationen aufweist, die zusammen mit dem wenigstens einen Basiska- nal die Multikanal-Rekonstruktion des ursprünglichen Multikanal-Signals ermöglichen, wobei aus dem Datenstrom ein Zusammenhang zwischen den Mehrkanal- Zusatzinformationen und den Fingerabdruck- Informationen ableitbar ist.
33. Datenstrom nach Anspruch 32, der Steuersignale aufweist, um eine synchronisierte Multikanal-Darstellung des ursprünglichen Multikanal-Signals zu erzeugen, wenn der Datenstrom in die Vorrichtung nach Patentan- spruch 17 eingespeist wird.
PCT/EP2006/002369 2005-03-30 2006-03-15 Vorrichtung und verfahren zum erzeugen eines datenstroms und zum erzeugen einer multikanal-darstellung WO2006102991A1 (de)

Priority Applications (9)

Application Number Priority Date Filing Date Title
CA2603027A CA2603027C (en) 2005-03-30 2006-03-15 Device and method for generating a data stream and for generating a multi-channel representation
CN200680019473XA CN101189661B (zh) 2005-03-30 2006-03-15 用于产生数据流和产生多通道表示的设备和方法
EP06707562A EP1864279B1 (de) 2005-03-30 2006-03-15 Vorrichtung und verfahren zum erzeugen eines datenstroms und zum erzeugen einer multikanal-darstellung
DE502006003997T DE502006003997D1 (de) 2005-03-30 2006-03-15 Vorrichtung und verfahren zum erzeugen eines datenstroms und zum erzeugen einer multikanal-darstellung
AU2006228821A AU2006228821B2 (en) 2005-03-30 2006-03-15 Device and method for producing a data flow and for producing a multi-channel representation
JP2008503398A JP5273858B2 (ja) 2005-03-30 2006-03-15 データストリームおよびマルチチャネル表現を生成するための装置および方法
AT06707562T ATE434253T1 (de) 2005-03-30 2006-03-15 Vorrichtung und verfahren zum erzeugen eines datenstroms und zum erzeugen einer multikanal- darstellung
US11/863,523 US7903751B2 (en) 2005-03-30 2007-09-28 Device and method for generating a data stream and for generating a multi-channel representation
HK08106159.6A HK1111259A1 (en) 2005-03-30 2008-06-03 Device and method for producing a data flow and for producing a multi- channel representation

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102005014477A DE102005014477A1 (de) 2005-03-30 2005-03-30 Vorrichtung und Verfahren zum Erzeugen eines Datenstroms und zum Erzeugen einer Multikanal-Darstellung
DE102005014477.2 2005-03-30

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US11/863,523 Continuation US7903751B2 (en) 2005-03-30 2007-09-28 Device and method for generating a data stream and for generating a multi-channel representation

Publications (1)

Publication Number Publication Date
WO2006102991A1 true WO2006102991A1 (de) 2006-10-05

Family

ID=36598142

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2006/002369 WO2006102991A1 (de) 2005-03-30 2006-03-15 Vorrichtung und verfahren zum erzeugen eines datenstroms und zum erzeugen einer multikanal-darstellung

Country Status (12)

Country Link
US (1) US7903751B2 (de)
EP (1) EP1864279B1 (de)
JP (1) JP5273858B2 (de)
CN (1) CN101189661B (de)
AT (1) ATE434253T1 (de)
AU (1) AU2006228821B2 (de)
CA (1) CA2603027C (de)
DE (2) DE102005014477A1 (de)
HK (1) HK1111259A1 (de)
MY (1) MY139836A (de)
TW (1) TWI318845B (de)
WO (1) WO2006102991A1 (de)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1962082A1 (de) 2007-02-21 2008-08-27 Agfa HealthCare N.V. System und Verfahren zur optischen Kohärenztomographie
WO2009071115A1 (en) * 2007-12-03 2009-06-11 Nokia Corporation A packet generator
WO2009100875A1 (de) * 2008-02-14 2009-08-20 Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E.V. Vorrichtung und verfahren zum berechnen eines fingerabdrucks eines audiosignals, vorrichtung und verfahren zum synchronisieren und vorrichtung und verfahren zum charakterisieren eines testaudiosignals
WO2009100876A1 (de) * 2008-02-14 2009-08-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und verfahren zum synchronisieren von mehrkanalerweiterungsdaten mit einem audiosignal und zum verarbeiten des audiosignals
JP2012500584A (ja) * 2008-08-21 2012-01-05 ドルビー ラボラトリーズ ライセンシング コーポレイション オ−ディオ及びビデオ署名生成及び検出のための特徴の最適化及び信頼性予測
CN102820964A (zh) * 2012-07-12 2012-12-12 武汉滨湖电子有限责任公司 一种基于系统同步与参考通道的多通道数据对齐的方法
CN103620679A (zh) * 2011-03-18 2014-03-05 弗兰霍菲尔运输应用研究公司 具有灵活配置功能的音频编码器和解码器

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8612237B2 (en) * 2007-04-04 2013-12-17 Apple Inc. Method and apparatus for determining audio spatial quality
BRPI0905069A2 (pt) * 2008-07-29 2015-06-30 Panasonic Corp Aparelho de codificação de áudio, aparelho de decodificação de áudio, aparelho de codificação e de descodificação de áudio e sistema de teleconferência
CN103177725B (zh) * 2008-10-06 2017-01-18 爱立信电话股份有限公司 用于输送对齐的多通道音频的方法和设备
CN102171750B (zh) * 2008-10-06 2013-10-16 爱立信电话股份有限公司 用于输送对齐的多通道音频的方法和设备
KR20110138367A (ko) * 2009-03-13 2011-12-27 코닌클리케 필립스 일렉트로닉스 엔.브이. 보조 데이터의 삽입 및 추출
GB2470201A (en) * 2009-05-12 2010-11-17 Nokia Corp Synchronising audio and image data
US8436939B2 (en) * 2009-10-25 2013-05-07 Tektronix, Inc. AV delay measurement and correction via signature curves
US9426574B2 (en) * 2010-03-19 2016-08-23 Bose Corporation Automatic audio source switching
EP2458890B1 (de) * 2010-11-29 2019-01-23 Nagravision S.A. Verfahren zur verfolgung von videoinhalt, der von einem decodierer verarbeitet wird
US9075806B2 (en) * 2011-02-22 2015-07-07 Dolby Laboratories Licensing Corporation Alignment and re-association of metadata for media streams within a computing device
US9294564B2 (en) 2011-06-30 2016-03-22 Amazon Technologies, Inc. Shadowing storage gateway
US8639921B1 (en) 2011-06-30 2014-01-28 Amazon Technologies, Inc. Storage gateway security model
US8639989B1 (en) 2011-06-30 2014-01-28 Amazon Technologies, Inc. Methods and apparatus for remote gateway monitoring and diagnostics
US8832039B1 (en) 2011-06-30 2014-09-09 Amazon Technologies, Inc. Methods and apparatus for data restore and recovery from a remote data store
US8706834B2 (en) 2011-06-30 2014-04-22 Amazon Technologies, Inc. Methods and apparatus for remotely updating executing processes
US8806588B2 (en) 2011-06-30 2014-08-12 Amazon Technologies, Inc. Storage gateway activation process
US10754813B1 (en) 2011-06-30 2020-08-25 Amazon Technologies, Inc. Methods and apparatus for block storage I/O operations in a storage gateway
US8793343B1 (en) 2011-08-18 2014-07-29 Amazon Technologies, Inc. Redundant storage gateways
US8789208B1 (en) 2011-10-04 2014-07-22 Amazon Technologies, Inc. Methods and apparatus for controlling snapshot exports
US9635132B1 (en) 2011-12-15 2017-04-25 Amazon Technologies, Inc. Service and APIs for remote volume-based block storage
KR20130101629A (ko) * 2012-02-16 2013-09-16 삼성전자주식회사 보안 실행 환경 지원 휴대단말에서 컨텐츠 출력 방법 및 장치
EP2670157B1 (de) * 2012-06-01 2019-10-02 Koninklijke KPN N.V. Fingerabdruckbasierte Mediensynchronisierung zwischen Zielorten
EP2693392A1 (de) 2012-08-01 2014-02-05 Thomson Licensing Sekundärbildschirmsystem und Verfahren zum Rendern von Sekundärbildschirminformationen auf einem Sekundärbildschirm
CN102937938B (zh) * 2012-11-29 2015-05-13 北京天诚盛业科技有限公司 指纹处理装置及其控制方法和控制装置
TWI557727B (zh) * 2013-04-05 2016-11-11 杜比國際公司 音訊處理系統、多媒體處理系統、處理音訊位元流的方法以及電腦程式產品
JP6349977B2 (ja) 2013-10-21 2018-07-04 ソニー株式会社 情報処理装置および方法、並びにプログラム
US20150302086A1 (en) * 2014-04-22 2015-10-22 Gracenote, Inc. Audio identification during performance
US20160344902A1 (en) * 2015-05-20 2016-11-24 Gwangju Institute Of Science And Technology Streaming reproduction device, audio reproduction device, and audio reproduction method
EP3115932A1 (de) * 2015-07-07 2017-01-11 Idex Asa Bildrekonstruktion
KR20180081504A (ko) * 2015-11-09 2018-07-16 소니 주식회사 디코드 장치, 디코드 방법, 및 프로그램
EP3249646B1 (de) * 2016-05-24 2019-04-17 Dolby Laboratories Licensing Corp. Messung und überprüfung der zeitausrichtung von mehrfach-audiokanälen und assoziierten metadaten
US10015612B2 (en) 2016-05-25 2018-07-03 Dolby Laboratories Licensing Corporation Measurement, verification and correction of time alignment of multiple audio channels and associated metadata
EP3324406A1 (de) 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Vorrichtung und verfahren zur zerlegung eines audiosignals mithilfe eines variablen schwellenwerts
EP3324407A1 (de) * 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Vorrichtung und verfahren zur dekomposition eines audiosignals unter verwendung eines verhältnisses als eine eigenschaftscharakteristik
CN112995708A (zh) * 2021-04-21 2021-06-18 湖南快乐阳光互动娱乐传媒有限公司 一种多视频同步方法及装置
CN114003546B (zh) * 2022-01-04 2022-04-12 之江实验室 一种多通道开关量复合编码设计方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6611212B1 (en) * 1999-04-07 2003-08-26 Dolby Laboratories Licensing Corp. Matrix improvements to lossless encoding and decoding
WO2003091990A1 (en) * 2002-04-25 2003-11-06 Shazam Entertainment, Ltd. Robust and invariant audio pattern matching
WO2005011281A1 (en) 2003-07-25 2005-02-03 Koninklijke Philips Electronics N.V. Method and device for generating and detecting fingerprints for synchronizing audio and video
WO2006034825A1 (de) * 2004-09-27 2006-04-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und verfahren zum synchronisieren von zusatzdaten und basisdaten

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000155598A (ja) * 1998-11-19 2000-06-06 Matsushita Electric Ind Co Ltd 多チャンネル・オーディオ信号の符号化/復号化方法と装置
US7013301B2 (en) * 2003-09-23 2006-03-14 Predixis Corporation Audio fingerprinting system and method
US6990453B2 (en) * 2000-07-31 2006-01-24 Landmark Digital Services Llc System and methods for recognizing sound and music signals in high noise and distortion
TW510144B (en) 2000-12-27 2002-11-11 C Media Electronics Inc Method and structure to output four-channel analog signal using two channel audio hardware
US7461002B2 (en) * 2001-04-13 2008-12-02 Dolby Laboratories Licensing Corporation Method for time aligning audio signals using characterizations based on auditory events
US7006636B2 (en) * 2002-05-24 2006-02-28 Agere Systems Inc. Coherence-based audio coding and synthesis
US7292901B2 (en) * 2002-06-24 2007-11-06 Agere Systems Inc. Hybrid multi-channel/cue coding/decoding of audio signals
US7116787B2 (en) * 2001-05-04 2006-10-03 Agere Systems Inc. Perceptual synthesis of auditory scenes
US20030035553A1 (en) * 2001-08-10 2003-02-20 Frank Baumgarte Backwards-compatible perceptual coding of spatial cues
EP1506550A2 (de) * 2002-05-16 2005-02-16 Koninklijke Philips Electronics N.V. Signalverarbeitungsverfahren und anordnung
ATE527654T1 (de) 2004-03-01 2011-10-15 Dolby Lab Licensing Corp Mehrkanal-audiodecodierung
US7567899B2 (en) * 2004-12-30 2009-07-28 All Media Guide, Llc Methods and apparatus for audio recognition

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6611212B1 (en) * 1999-04-07 2003-08-26 Dolby Laboratories Licensing Corp. Matrix improvements to lossless encoding and decoding
WO2003091990A1 (en) * 2002-04-25 2003-11-06 Shazam Entertainment, Ltd. Robust and invariant audio pattern matching
WO2005011281A1 (en) 2003-07-25 2005-02-03 Koninklijke Philips Electronics N.V. Method and device for generating and detecting fingerprints for synchronizing audio and video
WO2006034825A1 (de) * 2004-09-27 2006-04-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und verfahren zum synchronisieren von zusatzdaten und basisdaten

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HERRE J, FALLER C, DISCH S, HOLPERT J, HOELZER A, LINZMEIER A, SPENGER C, KROON P: "Spatial Audio coding - An Enabeling Technology for Bitrate-Efficient and Compatible Multi-channel Audio Broadcasting", AES 117TH CONVENTION, 28 October 2004 (2004-10-28) - 31 October 2004 (2004-10-31), San Francisco, USA, pages 1 - 13, XP008065968 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1962082A1 (de) 2007-02-21 2008-08-27 Agfa HealthCare N.V. System und Verfahren zur optischen Kohärenztomographie
US8566108B2 (en) 2007-12-03 2013-10-22 Nokia Corporation Synchronization of multiple real-time transport protocol sessions
WO2009071115A1 (en) * 2007-12-03 2009-06-11 Nokia Corporation A packet generator
WO2009100875A1 (de) * 2008-02-14 2009-08-20 Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E.V. Vorrichtung und verfahren zum berechnen eines fingerabdrucks eines audiosignals, vorrichtung und verfahren zum synchronisieren und vorrichtung und verfahren zum charakterisieren eines testaudiosignals
WO2009100876A1 (de) * 2008-02-14 2009-08-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und verfahren zum synchronisieren von mehrkanalerweiterungsdaten mit einem audiosignal und zum verarbeiten des audiosignals
JP2011512554A (ja) * 2008-02-14 2011-04-21 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン オーディオ信号のフィンガープリントを計算するための装置及び方法、同期のための装置及び方法、並びに試験オーディオ信号の特徴付けのための装置及び方法
US8676364B2 (en) 2008-02-14 2014-03-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for synchronizing multichannel extension data with an audio signal and for processing the audio signal
CN102779519A (zh) * 2008-02-14 2012-11-14 弗劳恩霍夫应用研究促进协会 用于同步多声道扩展数据与音频信号以及用于处理音频信号的装置和方法
US8634946B2 (en) 2008-02-14 2014-01-21 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for calculating a fingerprint of an audio signal, apparatus and method for synchronizing and apparatus and method for characterizing a test audio signal
US8400566B2 (en) 2008-08-21 2013-03-19 Dolby Laboratories Licensing Corporation Feature optimization and reliability for audio and video signature generation and detection
JP2013255249A (ja) * 2008-08-21 2013-12-19 Dolby Lab Licensing Corp オ−ディオ及びビデオ署名生成及び検出のための特徴の最適化及び信頼性予測
JP2012500584A (ja) * 2008-08-21 2012-01-05 ドルビー ラボラトリーズ ライセンシング コーポレイション オ−ディオ及びビデオ署名生成及び検出のための特徴の最適化及び信頼性予測
CN103620679A (zh) * 2011-03-18 2014-03-05 弗兰霍菲尔运输应用研究公司 具有灵活配置功能的音频编码器和解码器
US9524722B2 (en) 2011-03-18 2016-12-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Frame element length transmission in audio coding
US9773503B2 (en) 2011-03-18 2017-09-26 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder and decoder having a flexible configuration functionality
US9779737B2 (en) 2011-03-18 2017-10-03 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Frame element positioning in frames of a bitstream representing audio content
CN102820964A (zh) * 2012-07-12 2012-12-12 武汉滨湖电子有限责任公司 一种基于系统同步与参考通道的多通道数据对齐的方法
CN102820964B (zh) * 2012-07-12 2015-03-18 武汉滨湖电子有限责任公司 一种基于系统同步与参考通道的多通道数据对齐的方法

Also Published As

Publication number Publication date
CN101189661B (zh) 2011-10-26
CA2603027C (en) 2012-09-11
JP2008538239A (ja) 2008-10-16
DE102005014477A1 (de) 2006-10-12
CN101189661A (zh) 2008-05-28
TWI318845B (en) 2009-12-21
AU2006228821A1 (en) 2006-10-05
EP1864279A1 (de) 2007-12-12
US7903751B2 (en) 2011-03-08
AU2006228821B2 (en) 2009-07-23
TW200644704A (en) 2006-12-16
MY139836A (en) 2009-10-30
EP1864279B1 (de) 2009-06-17
DE502006003997D1 (de) 2009-07-30
HK1111259A1 (en) 2008-08-01
ATE434253T1 (de) 2009-07-15
US20080013614A1 (en) 2008-01-17
JP5273858B2 (ja) 2013-08-28
CA2603027A1 (en) 2006-10-05

Similar Documents

Publication Publication Date Title
EP1864279B1 (de) Vorrichtung und verfahren zum erzeugen eines datenstroms und zum erzeugen einer multikanal-darstellung
EP2240928B1 (de) Vorrichtung und verfahren zum berechnen eines fingerabdrucks eines audiosignals, vorrichtung und verfahren zum synchronisieren und vorrichtung und verfahren zum charakterisieren eines testaudiosignals
EP2240929B1 (de) Vorrichtung und verfahren zum synchronisieren von mehrkanalerweiterungsdaten mit einem audiosignal und zum verarbeiten des audiosignals
EP1687809B1 (de) Vorrichtung und verfahren zur wiederherstellung eines multikanal-audiosignals und zum erzeugen eines parameterdatensatzes hierfür
EP1794564B1 (de) Vorrichtung und verfahren zum synchronisieren von zusatzdaten und basisdaten
DE602005006424T2 (de) Stereokompatible mehrkanal-audiokodierung
DE602004008613T2 (de) Treueoptimierte kodierung mit variabler rahmenlänge
EP1763870B1 (de) Erzeugung eines codierten multikanalsignals und decodierung eines codierten multikanalsignals
DE69731677T2 (de) Verbessertes Kombinationsstereokodierverfahren mit zeitlicher Hüllkurvenformgebung
DE602004004168T2 (de) Kompatible mehrkanal-codierung/-decodierung
EP0954909B1 (de) Verfahren zum codieren eines audiosignals
DE69927505T2 (de) Verfahren zum einfügen von zusatzdaten in einen audiodatenstrom
EP0667063B2 (de) Verfahren zur übertragung und/oder speicherung digitaler signale mehrerer kanäle
EP1854334A1 (de) Vorrichtung und verfahren zum erzeugen eines codierten stereo-signals eines audiostücks oder audiodatenstroms
DE19730129A1 (de) Verfahren zum Signalisieren einer Rauschsubstitution beim Codieren eines Audiosignals
JP2017532603A (ja) オーディオ信号のエンコードおよびデコード
DE102007029381A1 (de) Digitalsignal-Verarbeitungsvorrichtung, Digitalsignal-Verarbeitungsverfahren, Digitalsignal-Verarbeitungsprogramm, Digitalsignal-Wiedergabevorrichtung und Digitalsignal-Wiedergabeverfahren
RU2383941C2 (ru) Способ и устройство для кодирования и декодирования аудиосигналов
DE602004006401T2 (de) Aktualisieren eines verborgenen datenkanals
DE202004003000U1 (de) Vorrichtung zum Beschreiben einer Audio-CD und Audio-CD

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2006707562

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2603027

Country of ref document: CA

WWE Wipo information: entry into national phase

Ref document number: 11863523

Country of ref document: US

Ref document number: 2008503398

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

WWW Wipo information: withdrawn in national office

Country of ref document: DE

WWE Wipo information: entry into national phase

Ref document number: 2006228821

Country of ref document: AU

NENP Non-entry into the national phase

Ref country code: RU

WWW Wipo information: withdrawn in national office

Country of ref document: RU

ENP Entry into the national phase

Ref document number: 2006228821

Country of ref document: AU

Date of ref document: 20060315

Kind code of ref document: A

WWP Wipo information: published in national office

Ref document number: 2006228821

Country of ref document: AU

WWE Wipo information: entry into national phase

Ref document number: 200680019473.X

Country of ref document: CN

WWP Wipo information: published in national office

Ref document number: 2006707562

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 11863523

Country of ref document: US