WO2007010785A1 - オーディオデコーダ - Google Patents

オーディオデコーダ Download PDF

Info

Publication number
WO2007010785A1
WO2007010785A1 PCT/JP2006/313783 JP2006313783W WO2007010785A1 WO 2007010785 A1 WO2007010785 A1 WO 2007010785A1 JP 2006313783 W JP2006313783 W JP 2006313783W WO 2007010785 A1 WO2007010785 A1 WO 2007010785A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
frequency band
channel
aliasing noise
unit
Prior art date
Application number
PCT/JP2006/313783
Other languages
English (en)
French (fr)
Inventor
Yosiaki Takagi
Kok Seng Chong
Takeshi Norimatsu
Shuji Miyasaka
Akihisa Kawamura
Kojiro Ono
Original Assignee
Matsushita Electric Industrial Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co., Ltd. filed Critical Matsushita Electric Industrial Co., Ltd.
Priority to US11/993,066 priority Critical patent/US8081764B2/en
Priority to EP06768096A priority patent/EP1906706B1/en
Priority to DE602006010712T priority patent/DE602006010712D1/de
Priority to JP2007525956A priority patent/JP4944029B2/ja
Priority to CN2006800259170A priority patent/CN101223821B/zh
Publication of WO2007010785A1 publication Critical patent/WO2007010785A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition

Definitions

  • the present invention relates to encoded data obtained by encoding a signal obtained by down-mixing a signal of a plurality of channels, and encoding in which information for separating the signal into signals of the original number of channels is encoded.
  • the present invention relates to an audio decoder that uses data to decode signals of the original number of channels, and in particular, to a spatial codec (Spatial Audio Codec) decoding process in MPEG (Moving Picture Expert Group) audio.
  • Spatial Audio Codec spatial encoding
  • AAC Advanced Audio Coding
  • the aim is to compress and encode a multi-channel signal at a bit rate of 128 kbps, 64 kbps, and further 48 kbps (for example, see Non-Patent Document 1).
  • FIG. 1 is a block diagram showing a configuration of a conventional audio device.
  • the audio apparatus 1000 includes an audio encoder 1100 that performs spatial acoustic coding on a set of audio signals and outputs a coded signal, and an audio decoder 1200 that decodes the coded signal.
  • the audio encoder 1100 processes an audio signal (for example, 2-channel audio signals L and R) in units of frames indicated by 1024 samples, 2048 samples, and the like.
  • a queue detection unit 1120, an encoder 1150, and a multiplexing unit 1190 are provided.
  • the binaural cue detection unit 1120 compares the audio signals L and R and the downmix signal M for each spectrum band, and thereby returns BC information (binaural) for returning the downmix signal M to the audio signals L and R. Queue).
  • BC information is an inter-channel level / intensity difference.
  • the correlation information ICC indicates the similarity between the two audio signals L and R
  • the level information IID indicates the relative strength of the audio signals L and R.
  • the level information IID is information for controlling the balance and localization of sound
  • the correlation information ICC is information for controlling the width and diffusibility of the sound image.
  • the spectrum-represented audio signals L and R and the downmix signal M are usually divided into a plurality of groups that also have "parameter band” power. Therefore, BC information is calculated for each parameter band. “BC information” and “spatial parameters”
  • V and G are often used interchangeably.
  • the encoder 1150 compresses and codes the downmix signal M using, for example, MP3 (MPEG Audio Layer-3), AAC (Advanced Audio Coding), or the like.
  • MP3 MPEG Audio Layer-3
  • AAC Advanced Audio Coding
  • Multiplexing section 1190 generates a bitstream by multiplexing downmix signal M and quantized BC information, and outputs the bitstream as the above-described code signal.
  • the audio decoder 1200 includes a demultiplexing unit 1210, a decoder 1220, and a multi-channel synthesis unit 1240.
  • Demultiplexing section 1210 acquires the above-described bit stream, separates BC information quantized from the bit stream, and encoded downmix signal M and outputs the separated information. Note that the demultiplexer 1210 dequantizes the BC information and outputs the result.
  • the decoder 1220 decodes the encoded downmix signal M to generate a multi-channel. Output to the video synthesis unit 1240.
  • Multi-channel combining section 1240 acquires downmix signal M output from decoder 1220 and BC information output from demultiplexing section 1210. Then, the multi-channel combining unit 1240 restores the two audio signals L and R from the downmix signal M using the BC information.
  • the audio device 1000 has been described with reference to an example of encoding and decoding a 2-channel audio signal.
  • the audio signal of 6 channels constituting a 1-channel sound source can be encoded and decoded.
  • FIG. 2 is a functional block diagram showing a functional configuration of the multi-channel synthesis unit 1240.
  • the multi-channel synthesis unit 1240 includes a first separation unit 1241, a second separation unit 1242, a third separation unit 1243, A fourth separation unit 1244 and a fifth separation unit 1245 are provided.
  • the downmix signal M includes a front audio signal C for a speaker arranged in front of the listener, a front left audio signal L for a speaker arranged in the front left of the viewer, and the viewer's f.
  • left lateral audio signal L for the speaker placed on the left lateral of the viewer right lateral audio signal R for the speaker placed on the right lateral of the viewer, and low for the subwoofer speaker for bass output
  • the audio signal LFE is downmixed.
  • the first separation unit 1241 uses the downmix signal M force and the fourth downmix signal M as well as the fourth downmix signal M.
  • the first downmix signal M is the front audio
  • the audio signal L and the right audio signal R are downmixed.
  • the second separation unit 1242 includes the first downmix signal M force and the second downmix signal M as well as the third downmix signal M.
  • the audio signal L and the front right audio signal R are downmixed.
  • the front audio signal C and the low-frequency audio signal LFE are down. Mixed and structured.
  • the third separation unit 1243 generates a left front audio signal L and a right front audio signal from the second downmix signal M.
  • the fourth separation unit 1244 includes the third downmix signal M force, the front audio signal C, and the low frequency signal.
  • the fifth separation unit 1245 converts the left side audio signal L and the right side audio signal from the fourth downmix signal M.
  • the multi-channel synthesis unit 1240 uses a multi-stage method to separate one signal into two signals in each separation unit, and recursively process signals until a single audio signal is separated. Repeat the separation.
  • FIG. 3 is another functional block diagram showing a functional configuration of multi-channel synthesizing section 1240.
  • the multi-channel synthesis unit 1240 includes an all-pass filter 1261, a calculation unit 1262, and B
  • the all-pass filter 1261 acquires the downmix signal M, generates an uncorrelated signal M having no correlation with the downmix signal M, and outputs it.
  • Downmix signal
  • the uncorrelated signal M has the same energy as the downmix signal M.
  • BCC processing section 1263 obtains BC information, and generates and outputs mixing coefficient H based on level information IID and correlation information ICC included in the BC information.
  • Arithmetic unit 1262 includes downmix signal M, uncorrelated signal M, and mixing coefficient H.
  • FIG. 4 is a block diagram showing a detailed configuration of the multi-channel synthesis unit 1240.
  • the multi-channel synthesis unit 1240 includes a pre-matrix processing unit 1251, a post-matrix processing unit 1252, a first calculation unit 1253 and a second calculation unit 1255, a decorrelation processing unit 1254, and an analysis filter bank 1256. And a synthesis filter bank 1257.
  • the pre-matrix processing unit 1251, the post-matrix processing unit 1252, the first calculation unit 1253, the second calculation unit 1255, and the decorrelation processing unit 1254 constitute a channel expansion unit 1270.
  • the analysis filter bank 1256 acquires the downmix signal M output from the decoder 1220, converts the representation format of the downmix signal M into a time Z frequency hybrid representation, and obtains the first frequency band signal X. Output.
  • the analysis filter bank 1256 includes a first stage and a second stage.
  • the first stage and the second stage are a QMF filter bank and a Nyquist filter bank.
  • the QMF filter first stage
  • the Nyquist filter second stage
  • Pre-matrix processing section 1251 generates a matrix R that is a scaling factor indicating distribution (scaling) of signal intensity levels to each channel using BC information.
  • the prematrix processing unit 1251 determines the signal intensity level of the downmix signal M, the first downmix signal M, the second downmix signal M, and the third downmix signal M.
  • the first calculation unit 1253 obtains the first frequency band signal X expressed by the time Z frequency and the output expressed from the analysis filter bank 1256, for example, as shown in (Expression 2) and (Expression 3). Then, the product of the first frequency band signal X and the matrix R is calculated. And the first calculation unit 1253
  • the intermediate signal V indicating the matrix operation result is output. That is, the first calculation unit 1253
  • the four downmix signals M to M are separated from the first frequency band signal X expressed by the time Z frequency hybrid expression output from the analysis filter bank 1256.
  • the decorrelation processing unit 1254 has a function as the all-pass filter 1261 shown in FIG. 3, and performs an all-pass filter process on the intermediate signal V, so that the decorrelation signal Generate and output w. Note that components M and M of uncorrelated signal w
  • rev i is a signal obtained by performing decorrelation processing on the downmix signals M and M.
  • the post-matrix processing unit 1252 generates a matrix R indicating the distribution of reverberation to each channel.
  • the post-matrix processing unit 1252 derives a mixing coefficient H from the correlation information ICC that indicates the width and diffusibility of the sound image, and generates a matrix R composed of the mixing coefficient H.
  • the second calculation unit 1255 calculates the product of the uncorrelated signal w and the matrix R, and calculates the matrix calculation result.
  • the output signal y shown is output. That is, the second calculation unit 1255 separates the six audio signals L, R, L, R, C, and LFE from the uncorrelated signal w.
  • the left front audio signal L is also separated by the second downmix signal M force f 2, so that the second left mix signal M and f 2
  • the component M is used.
  • the left front audio signal L is expressed by the following (Equation 5).
  • H in (Expression 5) is a mixing coefficient in the third separation unit 1243, and H is ij, A ij, D
  • H is a mixing coefficient in the second separation unit 1242, and H is ⁇ , ⁇ ⁇ ⁇ ⁇ in the first separation unit 1241
  • Audio signals R, C, LFE, L, and R other than the left front audio signal L are also calculated by the calculation of the matrix f f s s and the matrix of the uncorrelated signal w as described above.
  • the output signal y is expressed by the following (Equation 7).
  • the synthesis filter bank 1257 converts the representation format of each restored audio signal from a time-frequency hybrid representation to a time representation, and outputs a plurality of audio signals of the time representation as multi-channel signals. Note that the synthesis filter bank 1257 is also configured with, for example, two stage forces so as to match the analysis filter bank 1256.
  • the matrices R and R are generated as matrices R (b) and R (b) for each parameter band b described above.
  • FIG. 5 is another block diagram showing the configuration of the audio decoder 1200.
  • double line arrows in FIG. 5 indicate the flow of frequency band signals (the above-described first frequency band signal X and output signal y) divided into a plurality of frequency bands.
  • the code signal obtained by the demultiplexer 1210 includes a code signal downmix signal obtained by downmixing a 6-channel audio signal into a 2-channel downmix signal M,
  • the quantized BC information is multiplexed and configured.
  • Demultiplexing section 1210 separates the code key signal into a code key downmix signal and BC information.
  • the code key downmix signal is, for example, encoded by the MPEG standard AAC system.
  • Decoder 1220 decodes the encoded downmix signal using an AAC decoder. As a result, the decoder 1220 outputs a downmix signal M that is a 2-channel PCM signal (time axis signal).
  • the analysis filter bank 1256 includes two analysis filters 1256a, and each analysis filter 12
  • Channel expansion section 1270 expands 2-channel first frequency band signal X to 6-channel output signal y by using BC information (see, for example, Patent Document 1).
  • the synthesis filter bank 1257 includes six synthesis filters 1257a.
  • 57a converts the output signal y output from the channel expansion unit 1270 into an audio signal that is a PCM signal.
  • FIG. 6 is another block diagram showing the configuration of the audio decoder 1200.
  • the code signal acquired by the demultiplexer 1210 includes a code signal downmix signal obtained by downmixing a 6-channel audio signal into a 1-channel downmix signal M,
  • the quantized BC information is multiplexed and configured.
  • the decoder 1220 decodes the encoded downmix signal using, for example, an AAC decoder. As a result, the decoder 1220 outputs a downmix signal M, which is a one-channel PCM signal (time axis signal).
  • the analysis filter bank 1256 includes one analysis filter 1256a, and the analysis filter 1
  • 256a uses the downmix signal M output from the decoder 1220 as the first frequency band signal.
  • Channel expansion section 1270 expands 1-channel first frequency band signal X to 6-channel output signal y by using BC information.
  • Non-Special Reference 1 118th AES convention, Barcelona, Spain, 2005, onvention Paper 4 47.
  • Patent Document 1 Japanese Patent Application No. 2004-248989
  • the conventional audio decoder has a problem that the circuit scale becomes large due to a large amount of calculation.
  • the analysis filter nk 1256 The processing in the channel expansion unit 1270 and the synthesis filter bank 1257 requires a large amount of calculation and memory size.
  • FIG. 7 is a block diagram showing the configuration of an audio decoder that performs real number processing and aliasing noise removal.
  • the analysis filter bank 1256, the channel expansion unit 1270, and the synthesis filter bank 1257 of the audio decoder 1200 handle frequency band signals (first frequency band signal X and output signal y) as real numbers, respectively.
  • the audio decoder 1200 includes an erasing noise detection unit 1281 and six noise removal units 1282.
  • the aliasing noise detection unit 1281 Based on the first frequency band signal X, the aliasing noise detection unit 1281 has a strong tone property in each frequency band of the signal, and whether or not a signal exists, that is, there is a possibility that aliasing noise is generated. Detect if there is any.
  • Each of the six noise removal units 1282 removes aliasing noise from the output signal y output from the channel expansion unit 1270 based on the detection result of the aliasing noise detection unit 1281.
  • the noise removal unit 1282 is required by the number of channels of the output signal y, so that the advantage of replacing complex number processing with real number processing is eliminated. The amount becomes large and the circuit scale becomes large.
  • an object of the present invention is to provide an audio decoder that reduces the amount of computation while suppressing the generation of aliasing noise.
  • the audio decoder encodes a downmix signal obtained by downmixing an audio signal of N (N ⁇ 2) channels.
  • a bit stream comprising data and second code data encoded with parameters for restoring the downmix signal to an original N-channel audio signal.
  • An audio decoder for decoding an audio signal and generating an N-channel audio signal, a frequency band signal generating means for generating a first frequency band signal for the downmix signal from the first encoded data;
  • a channel expansion means for converting the first frequency band signal generated by the frequency band signal generation means into a second frequency band signal for the N-channel audio signal using the second encoded data;
  • the second frequency band signal of N channel generated by the channel expansion means is band-synthesized to convert it into an N-channel audio signal on the time axis, and in the first frequency band signal, Aliasing noise detecting means for detecting occurrence of aliasing noise, and the channel enlarging means is further provided. , Based on the detected information in the previous SL aliasing noise detection means, characterized in that to prevent to include aliasing noise in said second frequency band domain signal.
  • the frequency band signal generation means generates the first frequency band signal expressed by a real number for at least a part of the first frequency band signal
  • the aliasing noise detecting means may be characterized by detecting the occurrence of aliasing noise caused by the first frequency band signal being expressed by a real number.
  • the first frequency band signal is expressed by a real number that is not a complex number, so that the amount of computation is reduced and there is a problem of generation of aliasing noise due to the use of the real number expression. Avoided.
  • the frequency band signal generation means has a Nyquist filter bank for increasing the band resolution of a predetermined frequency band, and the frequency band processed by the Nyquist filter bank is a frequency expressed by a complex number.
  • a band signal is generated and processed by the Nyquist filter bank. It is characterized by generating a number.
  • the first frequency band signal is processed as a complex number for the filter bank for increasing the band resolution, so that the amount of calculation is suppressed while maintaining high band resolution, Both improvement in sound quality and reduction in circuit scale can be achieved in a balanced manner.
  • the aliasing noise detection means detects a frequency band in the first frequency band signal in which a strong tone component in which a strong frequency component persists exists, and the channel expansion means Further, the second frequency band signal obtained by adjusting the signal level of the frequency band adjacent to the frequency band detected by the aliasing noise detecting means is output.
  • the signal level is adjusted in a frequency band with high tone characteristics in which aliasing noise is conspicuous, so that efficient noise removal is realized.
  • the second encoded data is data obtained by encoding a spatial meter including a level ratio and a phase difference between the original N-channel audio signals
  • the channel expanding means includes
  • the second frequency band signal is mixed by mixing the first frequency band signal and the uncorrelated signal generated from the first frequency band signal at a ratio corresponding to the calculation coefficient generated by the spatial parameter force.
  • a calculation module that adjusts the signal level by adjusting the calculation coefficient for a frequency band adjacent to the frequency band detected by the aliasing noise detection means. Oh ,.
  • the calculation means uses a scaling coefficient derived from a level ratio included in the spatial parameter as a part of the calculation coefficient, and scales the first frequency band signal, thereby
  • a pre-matrix module that generates a signal
  • an uncorrelated module that generates an uncorrelated signal by performing an all-pass filter process on the intermediate signal generated by the pre-matrix module, and the spatial parameter.
  • a post matrix module that mixes the first frequency band signal and the uncorrelated signal using a mixing coefficient derived as a part of the calculation coefficient, and the adjustment module includes:
  • the calculation coefficient may be adjusted by adjusting the spatial parameter.
  • the adjustment module includes an equalizer that equalizes the spatial parameters for the frequency band detected by the aliasing noise detection unit and the frequency band adjacent to the frequency band.
  • the present invention can be applied to a conventional spatial acoustic decoder including a pre-matrix module, a non-correlation module, and a post-matrix module, and can be downsized and processed at high speed.
  • the present invention can be realized not only as an audio decoder such as this, but also as an integrated circuit, method, program, and storage medium for storing the program.
  • the audio decoder of the present invention has the effect of reducing the amount of computation while suppressing the occurrence of aliasing noise.
  • FIG. 1 is a block diagram showing a configuration of a conventional audio device.
  • FIG. 2 is a functional block diagram showing a functional configuration of the channel enlargement unit same as above.
  • FIG. 3 is another functional block diagram showing the functional configuration of the channel enlargement unit same as above.
  • FIG. 4 is a block diagram showing a detailed configuration of the channel enlargement unit of the above.
  • FIG. 5 is another block diagram showing the configuration of the audio decoder of the above.
  • FIG. 6 is another block diagram showing the configuration of the audio decoder of the above.
  • FIG. 7 is a block diagram showing the configuration of an audio decoder that performs real number processing and aliasing noise removal.
  • FIG. 8 is a block diagram showing a configuration of an audio decoder in the embodiment of the present invention.
  • FIG. 9 is a block diagram showing a detailed configuration of the multi-channel combining unit of the above.
  • FIG. 10 is a flowchart showing the operation of the TD unit and EQ unit of the above.
  • FIG. 11 is a block diagram showing a detailed configuration of a multi-channel synthesis unit according to Modification 1 of the above.
  • FIG. 12 is a block diagram showing a detailed configuration of a multi-channel combining unit according to Modification 2 of the above.
  • FIG. 13 is a block diagram showing a detailed configuration of a multi-channel synthesis unit according to Modification 3 of the above.
  • FIG. 14 is a flowchart showing the operations of the TD section and the EQ section according to the fourth modification of the above.
  • FIG. 8 is a block diagram showing the configuration of the audio decoder in the embodiment of the present invention. It is.
  • the audio decoder 100 reduces the amount of computation while suppressing the generation of aliasing noise.
  • the audio decoder 100 includes a demultiplexing unit 101, a decoder 102, and a multi-channel combining unit 103. I have.
  • the demultiplexing unit 101 has the same function as the conventional demultiplexing unit 1210 described above, acquires the code encoder signal output from the audio encoder power, and generates a quantum signal from the code encoder signal.
  • the separated BC information and the encoded downmix signal are separated and output. Note that the demultiplexing unit 101 dequantizes and outputs the quantized BC information.
  • the code downmix signal is configured as first encoded data.
  • an audio signal of 6 channels is downmixed and encoded by the AAC method.
  • the encoded downmix signal may be encoded by the AAC method and the SBR (Spectral Band Replication) method.
  • BC information is encoded in a predetermined format and may be configured as second encoded data.
  • the decoder 102 has the same function as the conventional decoder 1220 described above, and generates a downmix signal M that is a PCM signal (time axis signal) by decoding the code down-status signal. Output to multi-channel synthesis section 103.
  • the decoder 102 generates a frequency band signal by converting the MDCT (Modified Discrete Cosine Transform) coefficient generated in the AAC decoding process according to the output format of the analysis filter bank 110. May be.
  • MDCT Modified Discrete Cosine Transform
  • Multichannel combining section 103 acquires downmix signal M from decoder 102 and BC information from demultiplexing section 101. Then, the multi-channel synthesis unit 103 restores the above six audio signals from the downmix signal M using the BC information.
  • the multi-channel synthesis unit 103 includes an analysis filter bank 110, an aliasing noise detection unit 120, a channel expansion unit 130, and a synthesis filter bank 140.
  • the analysis filter bank 110 obtains the downmix signal M output from the decoder 102, converts the representation format of the downmix signal M into a time Z frequency hybrid representation, and generates the first frequency band signal X. Output.
  • This first frequency band signal X is for all frequencies. This is a frequency band signal in which several bands are represented by real numbers.
  • the decoder 102 and the analysis filter bank 110 constitute frequency band signal generation means.
  • the aliasing noise detection unit 120 analyzes the first frequency band signal X output from the analysis filter bank 110, thereby converting the aliasing noise into the 6-channel audio signal output from the multi-channel synthesis unit 103. Detect whether or not there is a high probability of occurrence. That is, the aliasing noise detection unit 120 determines whether or not a strong tone signal exists in each frequency band of the first frequency band signal X. In other words, the aliasing noise detection unit 120 detects a frequency band in which a strong tone signal having a strong frequency component is present. If it is determined that a strong signal exists, the aliasing noise detection unit 120 detects that there is a high possibility that aliasing noise is generated in the adjacent frequency band. Further, since the analysis filter bank 110 generates the first frequency band signal X expressed as a real number, there is a high possibility that aliasing noise will occur.
  • Channel expansion section 130 acquires BC information, and generates a matrix for generating 6-channel output signal y from first frequency band signal X based on the BC information.
  • the channel expansion unit 130 outputs an area signal to the output signal y output from the synthesis filter bank 140. Generate a matrix (arithmetic coefficient) that suppresses ding noise.
  • the channel expanding unit 130 outputs a 6-channel output signal y, which is a frequency band signal (second frequency band signal), by performing a matrix operation on the first frequency band signal X using the matrix. To do.
  • the channel expansion unit 130 when the channel expansion unit 130 detects that the possibility of aliasing noise is high, the channel expansion unit 130 reduces the aliasing noise by adjusting the amplitude of the signal in the frequency band where the possibility is high. . That is, since the level information IID is included in the BC information, the channel expansion unit 130 adjusts the amplitude amplification factor for each frequency band in which the level information IID power is also obtained in the matrix, thereby performing aliasing. The possibility of noise generation is high, and the signal size in the frequency band is controlled.
  • the synthesis filter bank 140 includes six synthesis filters 140a. Each synthesis filter 140a converts the expression format of the output signal y output from the channel expansion unit 130 from a time Z frequency hybrid expression to a time expression.
  • the synthesis filter 140a is configured as band synthesis means for band synthesis of the output signal y, and converts the output signal y, which is a frequency band signal, into a PCM signal (time axis signal) and outputs it. As a result, a stereo signal consisting of a 6-channel audio signal is output.
  • FIG. 9 is a block diagram showing a detailed configuration of multi-channel synthesizing section 103.
  • the analysis filter bank 110 includes a real number QMF unit 111 and a real number Nyq unit 112.
  • the real QMF unit 111 is configured by a QMF (Quadrature Mirror Filter) with a real coefficient as a filter bank, and analyzes the downmix signal M, which is a PCM signal, for each predetermined frequency band, and calculates the time Z Generates a real first frequency band signal X that is a frequency hybrid representation.
  • QMF Quadrature Mirror Filter
  • Such a real QMF unit 111 is not a complex number (complex modulation coefficient) Mr (k, n) as shown in (Expression 8), but a real number (real modulation coefficient) Mr (as shown in (Expression 9). k, n).
  • the real number Nyq section 112 is composed of a Nyquist filter bank of real number coefficients. In the low frequency band of the first frequency band signal X generated by the real number QMF section 111, each fine frequency band The real first frequency band signal X is corrected to.
  • the filter of the real number Nyq part 112 is, for example, a complex number (complex modulation coefficient) g n ' m as shown in (Expression 10). using a P.
  • the TD unit 120 is the aliasing noise detection unit 120 described above, and derives the tone property (tonality) T (m) in the parameter band m and the processing frame g as shown in (Equation 12).
  • P coh (f) indicates the coherence value of the processing frame described above.
  • T (m) is the value of T (m)
  • T (m) 0 indicates no tonality
  • T (m) l indicates tonality
  • the total tonality is expressed as (Equation 13) by the minimum value of the above tonality in two processing frames, and the maximum value GT (m) in the parameter band m is (Equation 14). As shown.
  • the channel expansion unit 130 includes an EQ unit (equalizer) 136, which is an adjustment module, and a prematrix.
  • EQ unit equalizer
  • the EQ unit 136 detects in the parameter band b that the possibility of occurrence of aliasing noise is high in the TD unit 120, the level information IID and the correlation information included in the BC information are detected.
  • Pre-matrix processing section 131 has the same functions as conventional pre-matrix processing section 1251, acquires BC information via EQ section 136, and generates matrix R based on the BC information.
  • the prematrix processing unit 131 derives the scaling coefficient as a part of the above-described calculation coefficient from the level information IID included in the spatial parameter of BC information.
  • the first calculation unit 133 calculates the product of the first frequency band signal X expressed by a real number and the matrix R.
  • the intermediate signal V indicating the matrix operation result is output. That is, in the present embodiment, a pre-matrix module is configured by the pre-matrix processing unit 131 and the first calculation unit 133, and the pre-matrix module scales the first frequency band signal X.
  • the real number uncorrelation processing unit 135 generates an uncorrelated signal w by performing an all-pass filter process on the intermediate signal V expressed by a real number.
  • the real uncorrelation processing unit 135 has a complex number (complex lattice coefficient) as shown in (Expression 15).
  • Post matrix processing section 132 has the same function as conventional post matrix processing section 1252, acquires BC information via EQ section 136, and generates matrix R based on the BC information. To do. That is, the post-matrix processing unit 132 derives the mixing coefficient as a part of the above-described calculation coefficient from the correlation information ICC and the phase information IPD included in the BC information spatial parameter.
  • the second calculation unit 134 calculates the product of the uncorrelated signal w expressed in real numbers and the matrix R, and
  • An output signal y which is a frequency band signal indicating the matrix operation result is output. That is, in the present embodiment, a post matrix module is configured by the post matrix processing unit 132 and the second arithmetic unit 134, and the post matrix module uses the mixing coefficient and the first frequency band signal X and the uncorrelated signal. It is mixed with w.
  • the synthesis filter bank 140 includes a real number INyq part 141 and a real number IQMF part 142.
  • the real INyq section 141 is a real coefficient inverse Nyquist filter, and the real IQMF section 142 is composed of a real coefficient inverse QMF filter.
  • the synthesis filter bank 140 converts the output signal y expressed as a real number into a time signal such as a 6-channel audio signal, and outputs it.
  • such a real IQMF unit 142 is not a complex number (complex modulation coefficient) N (k, n) as shown in (Expression 17), but a real number (real modulation) as shown in (Expression 18). Coefficient) N (k, n) is used.
  • N r ( ) top ⁇ 5 ) ( 2 "— 255 )
  • FIG. 10 is a flowchart showing the operations of the TD unit 120 and the EQ unit 136.
  • the TD unit 120 analyzes the first frequency band signal X output from the analysis filter bank 110, so that the parameter band b is in the range from 0 to PramBand and the tonality GT ( b) and the parameter band adjacent to the parameter band b
  • the average tonality GT ′ (b) that is the average value of the (b + 1) tonality GT (b + 1) is calculated (step S 700).
  • the TD unit 120 initializes the parameter band b to 0 (step S701), and indicates whether or not the parameter band b has reached (ParamBand—l), that is, the parameter band b is displayed. It is determined whether or not the band power is the second band from the end (step S702).
  • step S702 when it is determined that (ParamBand-1) has been reached (yes in step S702), the TD unit 120 ends the aliasing noise detection process. On the other hand, when it is determined that (ParamBand-l) has not been reached (No in step S702), the TD unit 120 further determines whether the average tonality GT '(b) is greater than a predetermined threshold TH2. It is determined whether or not (step S703).
  • the TD unit 120 determines that it is larger than the threshold value TH2 (yes in step S703), the TD unit 120 detects that aliasing noise may occur, and notifies the EQ unit 136 of the detection result. To do.
  • the EQ unit 136 calculates the spatial parameter p (b) of the parameter band b and the spatial parameter p (b + 1) of the parameter band (b + 1). Substituting the values, the spatial parameter p (b) and the spatial parameter p (b + 1) are made equal. Then, the TD unit 120 increments the value of the parameter band b by 1 (step S707), and repeatedly executes the operation from the step S702.
  • the TD unit 120 determines that the average tonality GT '(b) is less than or equal to the threshold TH2 (no in step S703), the average tonality GT, (b) further exceeds the threshold TH1. It is determined whether it is smaller than (step S705).
  • the threshold value TH1 is smaller than the threshold value TH2.
  • step S705 when it is determined that the TD unit 120 is smaller than the threshold value TH1 (yes in step S705), the processing from step S707 is repeatedly executed, and when it is determined that the threshold value is equal to or greater than the threshold value TH1 (in step S705). no), the judgment result, the average tonality GT, (b) and the threshold values TH1 and TH2 are notified to the EQ section 136.
  • EQ section 136 linearly interpolates spatial parameters p (b) and p (b + l) for all average tonalities GT '(b) between threshold TH1 and threshold TH2. Yes. That is, when the average tonality GT '(b) is close to the threshold TH1, that is, the tonality is small, the spatial parameters p (b) and p (b + l) are close to the original values, respectively, and the average tonality GT' When (b) is close to the threshold TH 2, that is, the tonality is large, the spatial parameters p (b) and p (b + l) are close to their average values.
  • the channel expansion unit 130 is in the subsequent stage. Compared with providing noise removal units for the number of channels, the amount of processing reduces aliasing noise, and an audio decoder with a small circuit scale or program size is realized. As a result, low power consumption, memory capacity reduction, and chip size reduction can be achieved.
  • the EQ unit 136 is a force obtained by equalizing the spatial parameter p based on the detection result of the TD unit 120.
  • the EQ unit according to this modification is generated by the prematrix processing unit 131.
  • the matrix R is equalized and generated by the post matrix processor 132.
  • FIG. 11 is a block diagram showing a detailed configuration of the multi-channel synthesis unit according to this modification.
  • the multi-channel combining unit 103a includes a channel expanding unit 130a instead of the channel expanding unit 130 in the above embodiment.
  • the channel expansion unit 130a includes an EQ unit 136a and an EQ unit 136b having the same functions as those of the EQ unit 136 of the above embodiment!
  • the EQ unit 136a equalizes the matrix R (scaling coefficient) output from the pre-matrix processing unit 131 based on the detection result by the TD unit 120, and the EQ unit 136b
  • the EQ unit 136a treats the matrix R (b) as a processing target instead of the spatial parameter p (b) that is the processing target of the EQ unit 136.
  • the EQ unit 136b treats the matrix R (b) as a processing target instead of the spatial parameter p (b) that is the processing target of the EQ unit 136.
  • the channel expansion unit 130 since the aliasing noise does not occur, the channel expansion unit 130 directly adjusts the matrixes R 1 and R as the operation coefficients, so that the channel expansion
  • real numbers are used in all frequency bands of the frequency band signal.
  • complex numbers are used in the low frequency band of the frequency band signal. That is, in this modified example, real numbers are used only for some of the frequency band signals.
  • FIG. 12 is a block diagram showing a detailed configuration of the multi-channel synthesis unit according to this modification.
  • the multi-channel synthesis unit 103b includes an analysis filter bank 110a, a channel expansion unit 130b, and a synthesis filter bank 140a.
  • the analysis filter bank 110a converts the downmix signal into a time Z frequency hybrid representation and outputs it as the first frequency band signal X. 11 and a complex Nyq part 112a.
  • the complex Nyq section 112a is configured as a complex coefficient Nyquist filter bank. In the low frequency band of the first frequency band signal X generated by the real QMF section 111, the complex Nyq section 112a is configured by a complex coefficient Nyquist filter. Modify the first frequency band signal X.
  • the analysis filter bank 110a generates and outputs the first frequency band signal X in which the low frequency band is partially expressed by a real number.
  • the channel expansion unit 130b includes the pre-matrix processing unit 131, the post-matrix processing unit 132, the first calculation unit 133, the second calculation unit 134, and the partial real uncorrelation processing unit 13.
  • the partial real number decorrelation processing unit 135a performs an all-pass filter on the intermediate signal V output from the first calculation unit 133 based on the first frequency band signal X partially expressed in real numbers. By performing processing, an uncorrelated signal w is generated and output.
  • the synthesis filter bank 140a converts the representation format of the output signal y output from the channel expansion unit 130b from the time Z frequency hybrid representation to the time representation.
  • INyq part 141a The complex INyq unit 141a is an inverse Nyquist filter for complex coefficients, and generates a complex first frequency band signal X in the low frequency band. Then, the real IQMF unit 142 outputs a multi-channel time signal to the processing result of the complex INyq unit 141a by the synthesis filter processing by inverse QMF of the real coefficient.
  • the complex frequency is processed in the low frequency band, so that the calculation amount is suppressed while maintaining high band resolution, and both the sound quality improvement and the circuit scale reduction are achieved. Can be achieved in a well-balanced manner.
  • the multi-channel synthesizing unit according to the present modification has the features of Modification 1 and Modification 2.
  • FIG. 13 is a block diagram showing a detailed configuration of the multi-channel synthesis unit according to this modification.
  • the multi-channel synthesis unit 103c according to the present modification includes the analysis filter bank 110a of Modification Example 2, the channel expansion unit 130c, and the synthesis filter bank 140a of Modification Example 2.
  • Channel expansion section 130c includes EQ sections 136a and 136b of Modification 1 and partial real uncorrelation processing section 135a of Modification 2.
  • the multi-channel synthesis unit 103c according to the present modification is a pre-matrix processing unit 1
  • 3c uses real numbers only for a part of the frequency band signals.
  • the TD unit 120 and the EQ unit 136 in the above embodiment have a plurality of the TD unit 120 and the EQ unit 136 according to this modification in which the spatial parameters p (b) are averaged in the parameter bands adjacent to each other.
  • the spatial parameter p (b) is averaged over a group of consecutive parameter bands.
  • FIG. 14 is a flowchart showing operations of the TD unit 120 and the EQ unit 136 according to this modification.
  • the TD unit 120 determines that (ParamBand-1) has been reached (yes in step S 1101), it ends the aliasing noise detection process. On the other hand, when it is determined that (ParamBand— 1) has not been reached (No in step S1101), the TD unit 120 further determines whether the average tonality GT ′ (b) is greater than a predetermined threshold TH3. (Step S 1102).
  • the TD unit 120 determines that the threshold value TH3 is greater than the threshold TH3 (yes in step S1102), the TD unit 120 detects that aliasing noise may occur, and sends the detection result to the EQ unit 136. Notice. Upon receiving the notification of the detection result, the EQ unit 136 adds the spatial parameter p (b) of the parameter band b to the average value ave, updates the average value ave, and increases the count value cnt by 1 ( Step S1103). Then, the TD unit 120 increments the value of the parameter band b by 1 (step S 1108), and repeatedly executes the operation from step S 1101.
  • step S1102 determines that the average tonality GT '(b) is less than or equal to the threshold TH3 (step S1102: no), is the current count value cnt greater than 1? It is determined whether or not (step S1104).
  • the TD unit 120 determines that the count value cnt is greater than 1 (yes in step S1104), the TD unit 120 divides the average value ave by the count value cnt and updates the average value ave (step S1106). ). Then, the TD unit 120 notifies the EQ unit 136 of the updated average value ave.
  • the EQ unit 136 sets the average value ave notified from the spatial parameter p (i) force TD unit 120 of the parameter band i in the range of (b—cnt) to (b—1).
  • the spatial parameter p (i) is updated (step S1107).
  • step S1104 determines that the count value cnt is 1 or less (no in step S1104), or the EQ unit 136 updates the spatial parameter p (i) in step S1107 as described above, the count is performed.
  • the value cnt and the average value ave are set to 0 (step S 1105). Then, the TD unit 120 repeatedly executes the operation from step S1108.
  • the spatial parameter p (b) is averaged in a group of continuous parameter bands that are larger than the threshold TH3 and have the average tonality GT '(b).
  • all or some of the components of the audio decoder in the above-described embodiment and its modifications can be realized as an integrated circuit such as an LSI (Large Scale Integration), and the processing operation is performed by a computer. It can also be realized as a program to be executed.
  • LSI Large Scale Integration
  • the audio decoder of the present invention reduces the amount of computation while suppressing the generation of aliasing noise.
  • it is useful in low bit rate applications such as broadcasting, and can be applied to, for example, home theater systems, in-vehicle audio systems, and electronic game systems.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)

Abstract

 エリアジングノイズの発生を抑えつつ演算量を軽減したオーディオデコーダを提供する。オーディオデコーダは、前記符号化ダウンミックス信号から、ダウンミックス信号(M)に対する第1周波数帯域信号(x)を生成するデコーダ(102)および分析フィルタバンク(110)と、BC情報を用いて、分析フィルタバンク(110)で生成された第1周波数帯域信号(x)を、Nチャンネルのオーディオ信号に対する出力信号(y)に変換するチャンネル拡大部(130)と、チャンネル拡大部(130)で生成されたNチャンネルの出力信号(y)を帯域合成することによって、時間軸上のNチャンネルのオーディオ信号に変換する合成フィルタバンク(140)と、第1周波数帯域信号(x)におけるエリアジングノイズの発生を検出するエリアジングノイズ検出部(120)とを備え、チャンネル拡大部(130)はさらに、エリアジングノイズ検出部(120)で検出された情報に基づいて、出力信号(y)にエリアジングノイズが含まれることを防止する。

Description

明 細 書
オーディオデコーダ
技術分野
[0001] 本発明は、複数チャンネルの信号をダウンミックスした信号を符号化した符号化デ ータと、それをもとのチャンネル数の信号に分離するための情報が符号ィヒされた符号 化データとを用いて、元々のチャンネル数の信号に復号ィ匕するオーディオデコーダ に関し、特に MPEG (Moving Picture Expert Group)オーディオにおけるスペーシャ ルコーデック(Spatial Audio Codec)の復号化処理に関する。
背景技術
[0002] 近年、 MPEGオーディオ規格にお!、て、 Spatial Audio Codec (空間的符号化) t ヽ われる技術が規格化されつつある。これは、非常に少ない情報量で臨場感を示すマ ルチチャンネル信号を圧縮 ·符号ィ匕することを目的としている。例えば、既にデジタル テレビの音声方式として広く用いられて 、るマルチチャンネルコーデックである AAC (Advanced Audio Coding)方式が、 5. lch当り 512kbpsや、 384kbpsというビットレ ートを要するのに対し、 Spatial Audio Codecでは、 128kbpsや、 64kbps,さらに 48k bpsと 、つた非常に少な 、ビットレートでマルチチャンネル信号を圧縮および符号ィ匕 することを目指している(例えば、非特許文献 1参照)。
[0003] 図 1は、従来のオーディオ装置の構成を示すブロック図である。
[0004] オーディオ装置 1000は、オーディオ信号の組に対する空間音響符号化を行って 符号ィ匕信号を出力するオーディオエンコーダ 1100と、その符号化信号を復号化す るオーディオデコーダ 1200とを備えている。
[0005] オーディオエンコーダ 1100は、 1024サンプルや 2048サンプルなどによって示さ れるフレーム単位でオーディオ信号 (例えば、 2チャンネルのオーディオ信号 L, R)を 処理するものであって、ダウンミックス部 1110と、ノイノーラルキュー検出部 1120と、 エンコーダ 1150と、多重化部 1190とを備えている。
[0006] ダウンミックス部 1110は、 2チャンネルのスペクトル表現されたオーディオ信号 L, R の平均をとることによって、つまり、 M= (L+R) Z2によって、オーディオ信号 L,尺が ダウンミックスされたダウンミックス信号 Mを生成する。
[0007] バイノーラルキュー検出部 1120は、スペクトルバンドごとに、オーディオ信号 L, R およびダウンミックス信号 Mを比較することによって、ダウンミックス信号 Mをオーディ ォ信号 L, Rに戻すための BC情報 (バイノーラルキュー)を生成する。
[0008] BC情報は、チャンネル間レベル Z強度差(inter- channel level/intensity difference
)を示すレベル情報 IIDと、およびチャンネル間コヒーレンス Z相関(inter- channel co herence/correlation)を示す相関情報 ICCと、チャンネル間位相遅延差(inter- chann el phase/delay difference)を示す位相情報 IPDとを含む。
[0009] ここで、相関情報 ICCが 2つのオーディオ信号 L, Rの類似性を示すのに対し、レべ ル情報 IIDは相対的なオーディオ信号 L, Rの強度を示す。一般に、レベル情報 IID は、音のバランスや定位を制御するための情報であって、相関情報 ICCは、音像の 幅や拡散性を制御するための情報である。これらは、共に聴き手が聴覚的情景を頭 の中で構成するのを助ける空間パラメータである。
[0010] スペクトル表現されたオーディオ信号 L, Rおよびダウンミックス信号 Mは、「パラメ一 タバンド」力もなる通常複数のグループに区分されている。したがって、 BC情報は、 それぞれのパラメータバンド毎に算出される。なお、「BC情報」と「空間パラメータ」と
V、う用語はしばしば同義的に用いられる。
[0011] エンコーダ 1150は、例えば、 MP3 (MPEG Audio Layer- 3)や、 AAC (Advanced A udio Coding)などによって、ダウンミックス信号 Mを圧縮符号ィ匕する。
[0012] 多重化部 1190は、ダウンミックス信号 Mと、量子化された BC情報とを多重化するこ とによりビットストリームを生成し、そのビットストリームを上述の符号ィ匕信号として出力 する。
[0013] オーディオデコーダ 1200は、逆多重化部 1210と、デコーダ 1220と、マルチチャン ネル合成部 1240とを備えて 、る。
[0014] 逆多重化部 1210は、上述のビットストリームを取得し、そのビットストリームから量子 化された BC情報と、符号化されたダウンミックス信号 Mとを分離して出力する。なお、 逆多重化部 1210は、量子化された BC情報を逆量子化して出力する。
[0015] デコーダ 1220は、符号化されたダウンミックス信号 Mを復号化してマルチチャンネ ル合成部 1240に出力する。
[0016] マルチチャンネル合成部 1240は、デコーダ 1220から出力されたダウンミックス信 号 Mと、逆多重化部 1210から出力された BC情報とを取得する。そして、マルチチヤ ンネル合成部 1240は、その BC情報を用いて、ダウンミックス信号 Mから、 2つのォ 一ディォ信号 L, Rを復元する。
[0017] なお、上述では、 2チャンネルのオーディオ信号を符号ィ匕して復号ィ匕する例を挙げ てオーディオ装置 1000を説明した力 オーディオ装置 1000は、 2チャンネルよりも 多いチャンネルのオーディオ信号(例えば、 5. 1チャンネル音源を構成する、 6つの チャンネルのオーディオ信号)を、符号ィ匕および復号ィ匕することもできる。
[0018] 図 2は、マルチチャンネル合成部 1240の機能構成を示す機能ブロック図である。
[0019] マルチチャンネル合成部 1240は、例えば、ダウンミックス信号 Mを 6つのチャンネ ルのオーディオ信号に分離する場合、第 1分離部 1241と、第 2分離部 1242と、第 3 分離部 1243と、第 4分離部 1244と、第 5分離部 1245とを備える。なお、ダウンミック ス信号 Mは、聴取者の正面に配置されるスピーカに対する正面オーディオ信号 Cと、 視聴者の左前方に配置されるスピーカに対する左前オーディオ信号 Lと、視聴者の f
右前方に配置されるスピーカに対する右前オーディオ信号 R
fと、視聴者の左横方に 配置されるスピーカに対する左横オーディオ信号 Lと、視聴者の右横方に配置され るスピーカに対する右横オーディオ信号 Rと、低音出力用サブウーファースピーカに 対する低域オーディオ信号 LFEとがダウンミックスされて構成されている。
[0020] 第 1分離部 1241は、ダウンミックス信号 M力も第 1ダウンミックス信号 Mと第 4ダウン
1 ミックス信号 Mとを分離して出力する。第 1ダウンミックス信号 Mは、正面オーディオ
4 1
信号 Cと左前オーディオ信号 Lと右前オーディオ信号 Rと低域オーディオ信号 LFE f f
とがダウンミックスされて構成されている。第 4ダウンミックス信号 Mは、左横オーディ
4
ォ信号 Lと右横オーディオ信号 Rとがダウンミックスされて構成されている。
[0021] 第 2分離部 1242は、第 1ダウンミックス信号 M力も第 2ダウンミックス信号 Mと第 3
1 2 ダウンミックス信号 Mとを分離して出力する。第 2ダウンミックス信号 Mは、左前ォー
3 2
ディォ信号 Lと右前オーディオ信号 Rとがダウンミックスされて構成されて 、る。第 3ダ f f
ゥンミックス信号 Mは、正面オーディオ信号 Cと低域オーディオ信号 LFEとがダウン ミックスされて構成されて 、る。
[0022] 第 3分離部 1243は、第 2ダウンミックス信号 Mから左前オーディオ信号 Lと右前ォ
2 f
一ディォ信号 R
fとを分離して出力する。
[0023] 第 4分離部 1244は、第 3ダウンミックス信号 M力 正面オーディオ信号 Cと低域ォ
3
一ディォ信号 LFEとを分離して出力する。
[0024] 第 5分離部 1245は、第 4ダウンミックス信号 Mから左横オーディオ信号 Lと右横ォ
4 s
一ディォ信号 R
sとを分離して出力する。
[0025] このように、マルチチャンネル合成部 1240は、マルチステージの方法によって、各 分離部で 1つの信号を 2つの信号に分離し、単一のオーディオ信号が分離されるま で再帰的に信号の分離を繰り返す。
[0026] 図 3は、マルチチャンネル合成部 1240の機能構成を示す他の機能ブロック図であ る。
[0027] マルチチャンネル合成部 1240は、オールパスフィルタ 1261と、演算部 1262と、 B
CC処理部 1263とを備えている。
[0028] オールパスフィルタ 1261は、ダウンミックス信号 Mを取得して、そのダウンミックス信 号 Mに対して相関性のない無相関信号 M を生成して出力する。ダウンミックス信号
rev
Mと無相関信号 M とは、それぞれを聴覚的に比較すると、「相互にインコヒーレント」
rev
であるとみなされる。また、無相関信号 M はダウンミックス信号 Mと同じエネルギー
rev
を有し、まるで音が広がって 、るかのような幻覚を作り出す有限時間の残響成分を含 む。
[0029] BCC処理部 1263は、 BC情報を取得して、その BC情報に含まれるレベル情報 IID や相関情報 ICCなどに基づいて、ミキシング係数 Hを生成して出力する。
[0030] 演算部 1262は、ダウンミックス信号 M、無相関信号 M 、およびミキシング係数 H
rev ij を取得して、これらを用いて (数 1)に示すように演算を行い、オーディオ信号 L, Rを 出力する。このように、ミキシング係数 Hを用いることによって、オーディオ信号 L, R 間の相関の程度や、それらの信号の指向性を、意図した状態にすることができる。
[0031] [数 1] L = H M + H、2 Mm,
R = H2] xM + H^ xMrm,
[0032] 図 4は、マルチチャンネル合成部 1240の詳細な構成を示すブロック図である。
[0033] マルチチャンネル合成部 1240は、プレマトリックス処理部 1251と、ポストマトリック ス処理部 1252と、第 1演算部 1253および第 2演算部 1255と、無相関処理部 1254 と、分析フィルタバンク 1256と、合成フィルタバンク 1257とを備えている。なお、プレ マトリックス処理部 1251、ポストマトリックス処理部 1252、第 1演算部 1253、第 2演算 部 1255、および無相関処理部 1254によって、チャンネル拡大部 1270が構成され ている。
[0034] 分析フィルタバンク 1256は、デコーダ 1220から出力されたダウンミックス信号 Mを 取得し、そのダウンミックス信号 Mの表現形式を、時間 Z周波数ハイブリッド表現に変 換し、第 1周波数帯域信号 Xとして出力する。なお、この分析フィルタバンク 1256は 第 1ステージおよび第 2ステージを備える。例えば、第 1ステージおよび第 2ステージ は、 QMFフィルタバンクおよびナイキストフィルタバンクである。これらのステージで は、まず QMFフィルター(第 1のステージ)で複数の周波数帯域に分割し、さらにナイ キストフィルター(第 2のステージ)で低周波数側のサブバンドをさらに微細なサブバ ンドに分けることによって、低周波数サブバンドのスペクトルの分解能を高めている。
[0035] プレマトリックス処理部 1251は、信号強度レベルの各チャンネルへの配分 (スケ一 リング)を示すスケーリングファクタたる行列 Rを、 BC情報を用いて生成する。
1
[0036] 例えば、プレマトリックス処理部 1251は、ダウンミックス信号 Mの信号強度レベルと 、第 1ダウンミックス信号 M、第 2ダウンミックス信号 M、第 3ダウンミックス信号 Mお
1 2 3 よび第 4ダウンミックス信号 Mの信号強度レベルとの比率を示すレベル情報 IIDを用
4
いて行列 Rを生成する。
1
[0037] 第 1演算部 1253は、分析フィルタバンク 1256から出力された時間 Z周波数ノ、イブ リツド表現の第 1周波数帯域信号 Xを取得し、例えば (数 2)および (数 3)に示すように 、その第 1周波数帯域信号 Xと行列 Rとの積を算出する。そして、第 1演算部 1253は
1
、その行列演算結果を示す中間信号 Vを出力する。つまり、第 1演算部 1253は、分 析フィルタバンク 1256から出力された時間 Z周波数ハイプリッド表現の第 1周波数 帯域信号 Xから、 4つのダウンミックス信号 M〜Mを分離する。
1 4
[0038] [数 2]
M Μ
V = Μ2
Μ3
Μ,
[0039] [数 3]
M Lf + Rf - C + LFE
M2 = Lf + Rf
M3 = C + LFE
M4 = LS + RS
[0040] 無相関処理部 1254は、図 3に示すオールパスフィルタ 1261としての機能を有し、 中間信号 Vに対してオールパスフィルタ処理を施すことによって、(数 4)に示すように 、無相関信号 wを生成して出力する。なお、無相関信号 wの構成要素 M および M
rev i, は、ダウンミックス信号 M, Mに対して無相関処理が施された信号である。 ev
[0041] [数 4]
M
M ル ,
w
decorr(v)
[0042] ポストマトリックス処理部 1252は、残響の各チャンネルへの配分を示す行列 Rを、
2
BC情報を用いて生成する。例えば、ポストマトリックス処理部 1252は、音像の幅や 拡散性を示す相関情報 ICCカゝらミキシング係数 Hを導出し、そのミキシング係数 H から構成される行列 R
2を生成する。
[0043] 第 2演算部 1255は、無相関信号 wと行列 Rとの積を算出し、その行列演算結果を 示す出力信号 yを出力する。つまり、第 2演算部 1255は、無相関信号 wから、 6つの オーディオ信号 L, R, L, R, C, LFEを分離する。
f f
[0044] 例えば、図 2に示すように、左前オーディオ信号 Lは、第 2ダウンミックス信号 M力も f 2 分離されるため、その左前オーディオ信号 Lの分離には、第 2ダウンミックス信号 Mと f 2
、それに対応する無相関信号 wの構成要素 M とが用いられる。同様に、第 2ダウン
2, rev
ミックス信号 Mは、第 1ダウンミックス信号 M力 分離されるため、その第 2ダウンミツ
2 1
タス信号 Mの算出には、第 1ダウンミックス信号 Mと、それに対応する無相関信号 w
2 1
の構成要素 M とが用いられる。
l'rev
[0045] したがって、左前オーディオ信号 Lは、下記の (数 5)〖こより示される。
f
[0046] [数 5]
Lf =H A xM2+H tA M2 m
M2 =HU 3 x , + 2,D
Μλ = H E xM + H E x Mm
[0047] ここで、(数 5)中の H は、第 3分離部 1243におけるミキシング係数であり、 H は ij,A ij,D
、第 2分離部 1242におけるミキシング係数であり、 H は、第 1分離部 1241における ϋ,Ε
ミキシング係数である。(数 5)に示す 3つの数式は、以下の(数 6)に示す一つのベタ トル乗算式にまとめることができる。
[0048] [数 6] = [HUIAHU:DHUE L AHLIIDHUTE HU I . D HI2,, 0 θ]ν = R
[0049] 左前オーディオ信号 L以外の他のオーディオ信号 R, C, LFE, L, Rも、上述のよ f f s s うな行列と無相関信号 wの行列との演算によって算出される。つまり、出力信号 yは、 下記の(数 7)によって示される。
[0050] [数 7]
Figure imgf000010_0001
[0051] 合成フィルタバンク 1257は、復元された各オーディオ信号の表現形式を、時間 Ζ 周波数ハイブリッド表現から時間表現に変換し、その時間表現の複数のオーディオ 信号をマルチチャンネル信号として出力する。なお、合成フィルタバンク 1257は、分 析フィルタバンク 1256と整合するように、例えば 2つのステージ力も構成される。また 、行列 R , Rは、上述のパラメータバンド bごとに、行列 R (b) , R (b)として生成され
1 2 1 2 る。
[0052] 図 5は、オーディオデコーダ 1200の構成を示す他のブロック図である。
[0053] なお、図 5における二重線の矢印は複数の周波数帯域に分割された周波数帯域 信号 (上述の第 1周波数帯域信号 Xおよび出力信号 y)の流れを示している。
[0054] 逆多重化部 1210によって取得される符号ィ匕信号は、 6チャンネルのオーディオ信 号が 2チャンネルのダウンミックス信号 Mにダウンミックスされて符号ィ匕された符号ィ匕 ダウンミックス信号と、量子化された BC情報とが多重化されて構成されて 、る。
[0055] 逆多重化部 1210は、その符号ィ匕信号を符号ィ匕ダウンミックス信号と BC情報に分 離する。符号ィ匕ダウンミックス信号は、例えば MPEG規格 AAC方式で符号ィ匕された
2チャンネルの符号ィ匕データである。
[0056] デコーダ 1220は、 AACデコーダを用いて、その符号化ダウンミックス信号を復号 化する。その結果、デコーダ 1220は、 2チャンネルの PCM信号(時間軸信号)である ダウンミックス信号 Mを出力する。
[0057] 分析フィルタバンク 1256は、 2つの分析フィルタ 1256aを備え、各分析フィルタ 12
56aは、デコーダ 1220から出力されたダウンミックス信号 Mを第 1周波数帯域信号 X に変換する。
[0058] チャンネル拡大部 1270は、 BC情報を用いることにより、 2チャンネルの第 1周波数 帯域信号 Xを 6チャンネルの出力信号 yに拡大する (例えば、特許文献 1参照)。 [0059] 合成フィルタバンク 1257は、 6つの合成フィルタ 1257aを備え、各合成フィルタ 12
57aは、チャンネル拡大部 1270から出力された出力信号 yを PCM信号であるォー ディォ信号に変換する。
[0060] 図 6は、オーディオデコーダ 1200の構成を示す他のブロック図である。
[0061] 逆多重化部 1210によって取得される符号ィ匕信号は、 6チャンネルのオーディオ信 号が 1チャンネルのダウンミックス信号 Mにダウンミックスされて符号ィ匕された符号ィ匕 ダウンミックス信号と、量子化された BC情報とが多重化されて構成されて 、る。
[0062] このような場合、デコーダ 1220は、例えば AACデコーダを用いて、その符号化ダ ゥンミックス信号を復号化する。その結果、デコーダ 1220は、 1チャンネルの PCM信 号(時間軸信号)であるダウンミックス信号 Mを出力する。
[0063] 分析フィルタバンク 1256は、 1つの分析フィルタ 1256aを備え、その分析フィルタ 1
256aは、デコーダ 1220から出力されたダウンミックス信号 Mを第 1周波数帯域信号
Xに変換する。
[0064] チャンネル拡大部 1270は、 BC情報を用いることにより、 1チャンネルの第 1周波数 帯域信号 Xを 6チャンネルの出力信号 yに拡大する。
非特干文献 1: 118th AES convention, Barcelona, Spain, 2005, し onvention Paperり 4 47.
特許文献 1:特願 2004— 248989号公報
発明の開示
発明が解決しょうとする課題
[0065] し力しながら、上記従来のオーディオデコーダでは演算量が多いために回路規模 が大きくなつてしまうという問題がある。
[0066] つまり、図 5および図 6の二重線の矢印によって示される周波数帯域信号 (第 1周波 数帯域信号 Xおよび出力信号 y)は、複素数で表現されているために、分析フィルタ ノンク 1256、チャンネル拡大部 1270および合成フィルタバンク 1257における処理 には、多大の演算量とメモリサイズが必要となる。
[0067] そこで、複素数で表現される周波数帯域信号を実数として処理することが考えられ る。しかし、複素数の処理を単純に実数の処理に置き換えるとエリアジングノイズが発 生することがある。つまり、特定の周波数帯域にトーン性の強い信号が存在する場合 には、実数処理による合成フィルタ 1257aの処理によって、隣接する周波数帯域に エリアジングノイズが発生する。したがって、各周波数帯域にトーン性の強い信号が 存在するかどうかを検出して、その信号が存在する場合には、合成フィルタ 1257aの 処理の前にエリアジングノイズ除去処理を行うことが考えられる。
[0068] 図 7は、実数処理およびエリアジングノイズ除去を行うオーディオデコーダの構成を 示すブロック図である。
[0069] このオーディオデコーダ 1200,の分析フィルタバンク 1256、チャンネル拡大部 127 0および合成フィルタバンク 1257は、それぞれ周波数帯域信号 (第 1周波数帯域信 号 Xおよび出力信号 y)を実数で扱う。そして、このオーディオデコーダ 1200,は、エリ アジングノイズ検出部 1281と 6つのノイズ除去部 1282とを備える。
[0070] エリアジングノイズ検出部 1281は、第 1周波数帯域信号 Xに基づいて、その信号の 各周波数帯域にトーン性の強 、信号が存在するか否か、つまりエリアジングノイズが 発生する可能性があるか否かを検出する。
[0071] 6つのノイズ除去部 1282はそれぞれ、エリアジングノイズ検出部 1281の検出結果 に基づ!/、て、チャンネル拡大部 1270から出力される出力信号 yからエリアジングノィ ズを除去する。
[0072] し力しながら、このようなオーディオデコーダでは、出力信号 yのチャンネル数だけノ ィズ除去部 1282が必要とされるため、複素数の処理を実数の処理に置き換えるメリ ットがなぐ演算量が多大となって回路規模が大きくなつてしまう。
[0073] そこで、本発明は、力かる問題に鑑みてなされたものであって、エリアジングノイズ の発生を抑えつつ演算量を軽減したオーディオデコーダを提供することを目的とする
課題を解決するための手段
[0074] 上記目的を達成するために、本発明に係るオーディオデコーダは、 N (N≥2)チヤ ンネルのオーディオ信号をダウンミックスして得られるダウンミックス信号を符号ィ匕した 第 1の符号化データと、前記ダウンミックス信号を元の Nチャンネルのオーディオ信号 に復元するためのパラメータを符号ィ匕した第 2の符号ィ匕データとからなるビットストリー ムをデコードし、 Nチャンネルのオーディオ信号を生成するオーディオデコーダであ つて、前記第 1の符号化データから、前記ダウンミックス信号に対する第 1の周波数帯 域信号を生成する周波数帯域信号生成手段と、前記第 2の符号化データを用いて、 前記周波数帯域信号生成手段で生成された第 1の周波数帯域信号を、 Nチャンネ ルのオーディオ信号に対する第 2の周波数帯域信号に変換するチャンネル拡大手 段と、前記チャンネル拡大手段で生成された Nチャンネルの第 2の周波数帯域信号 を帯域合成することによって、時間軸上の Nチャンネルのオーディオ信号に変換する 帯域合成手段と、前記第 1の周波数帯域信号におけるエリアジングノイズの発生を検 出するエリアジングノイズ検出手段とを備え、前記チャンネル拡大手段はさらに、前 記エリアジングノイズ検出手段で検出された情報に基づいて、前記第 2の周波数帯 域信号にエリアジングノイズが含まれることを防止することを特徴とする。
[0075] これにより、第 1の周波数帯域信号においてエリアジングノイズが発生することが予 見された場合には、チャンネル拡大手段においてノイズの発生が抑制されるので、チ ヤンネル拡大手段の後段においてチャンネルの数だけノイズ除去部を設けることに 比べ、極めて少ない処理量でエリアジングノイズが抑制され、小さな回路規模あるい はプログラムサイズのオーディオデコーダが実現される。
[0076] また、前記周波数帯域信号生成手段は、前記第 1の周波数帯域信号のうち、少なく とも一部の周波数帯域については、実数で表現される前記第 1の周波数帯域信号を 生成し、前記エリアジングノイズ検出手段は、前記第 1の周波数帯域信号が実数で 表現されることに起因して発生するエリアジングノイズの発生を検出することを特徴と してちよい。
[0077] これにより、第 1の周波数帯域信号は、複素数ではなぐ実数で表現されるので、演 算量が削減され、かつ、実数での表現を用いることによるエリアジングノイズの発生と いう問題も回避される。
[0078] また、前記周波数帯域信号生成手段は、所定の周波数帯域の帯域分解能を高め るためのナイキストフィルタバンクを有し、当該ナイキストフィルタバンクが処理する周 波数帯域については複素数で表現される周波数帯域信号を生成し、当該ナイキスト フィルタバンクが処理しな 、周波数帯域にっ 、ては実数で表現される周波数帯域信 号を生成することを特徴としてもょ 、。
[0079] これにより、第 1の周波数帯域信号は、帯域分解能を高めるためのフィルタバンクに ついては、複素数のまま処理されることになるので、高い帯域分解能を維持しつつ、 演算量が抑制され、音質向上と回路規模の削減の両方をバランスよく達成することが できる。
[0080] また、前記エリアジングノイズ検出手段は、前記第 1の周波数帯域信号において、 強い周波数成分が持続する状態であるトーン性の強い信号が存在する周波数帯域 を検出し、前記チャンネル拡大手段は、前記エリアジングノイズ検出手段で検出され た周波数帯域に隣接する周波数帯域の信号レベルを調整した前記第 2の周波数帯 域信号を出力することを特徴としてもょ ヽ。
[0081] これにより、エリアジングノイズが目立つトーン性の高い周波数帯域において信号レ ベルが調整されるので、効率的なノイズ除去が実現される。
[0082] また、前記第 2の符号化データは、元の Nチャンネルのオーディオ信号間のレベル 比と位相差とを含む空間ノ メータを符号ィ匕したデータであり、前記チャンネル拡大 手段は、前記第 1の周波数帯域信号と、当該第 1の周波数帯域信号から生成した無 相関信号とを、前記空間パラメータ力 生成した演算係数に応じた比率で混ぜ合わ せることによって、前記第 2の周波数帯域信号を生成する演算手段と、前記エリアジ ングノイズ検出手段によって検出された周波数帯域に隣接する周波数帯域について 、前記演算係数を調整することによって、前記信号レベルを調整する調整モジユー ルとを備えることを特徴としてもょ 、。
[0083] これにより、空間的な音の拡がりを演出する残響処理を施しつつエリアジングノイズ が抑制されるので、回路規模が小さぐかつ、空間的な音響効果が損なわれない空 間音響復号化が実現される。
[0084] また、前記演算手段は、前記空間パラメータに含まれるレベル比から導出されるス ケーリング係数を前記演算係数の一部として用い、前記第 1の周波数帯域信号をス ケーリングすることで、中間信号を生成するプレマトリックスモジュールと、前記プレマ トリタスモジュールで生成された中間信号に対してオールパスフィルタの処理を施す ことによって、無相関信号を生成する無相関モジュールと、前記空間パラメータに含 まれる位相差力 導出されるミキシング係数を前記演算係数の一部として用い、前記 第 1の周波数帯域信号と前記無相関信号とを混ぜ合わせるポストマトリックスモジュ 一ルとを備え、前記調整モジュールは、前記空間パラメータを調整することによって、 前記演算係数を調整することを特徴としてもよい。例えば、前記調整モジュールは、 前記エリアジングノイズ検出手段が検出した周波数帯域と当該周波数帯域に隣接す る周波数帯域についての前記空間パラメータをィコライズするイコライザを有する。
[0085] これにより、プレマトリクスモジュール、無相関モジュール及びポストマトリクスモジュ ールを備える従来の空間音響デコーダにも適用することでき、コンパクト化と高速処 理ィ匕が可能となる。
[0086] なお、本発明は、このようなオーディオデコーダとして実現することができるだけでな ぐ集積回路や、方法、プログラム、そのプログラムを格納する記憶媒体としても実現 することができる。
発明の効果
[0087] 本発明のオーディオデコーダは、エリアジングノイズの発生を抑えつつ演算量を軽 減することができるという作用効果を奏する。
図面の簡単な説明
[0088] [図 1]図 1は、従来のオーディオ装置の構成を示すブロック図である。
[図 2]図 2は、同上のチャンネル拡大部の機能構成を示す機能ブロック図である。
[図 3]図 3は、同上のチャンネル拡大部の機能構成を示す他の機能ブロック図である
[図 4]図 4は、同上のチャンネル拡大部の詳細な構成を示すブロック図である。
[図 5]図 5は、同上のオーディオデコーダの構成を示す他のブロック図である。
[図 6]図 6は、同上のオーディオデコーダの構成を示す他のブロック図である。
[図 7]図 7は、実数処理およびエリアジングノイズ除去を行うオーディオデコーダの構 成を示すブロック図である。
[図 8]図 8は、本発明の実施の形態におけるオーディオデコーダの構成を示すブロッ ク図である。
[図 9]図 9は、同上のマルチチャンネル合成部の詳細な構成を示すブロック図である。 [図 10]図 10は、同上の TD部および EQ部の動作を示すフローチャートである。
[図 11]図 11は、同上の変形例 1に係るマルチチャンネル合成部の詳細な構成を示す ブロック図である。
[図 12]図 12は、同上の変形例 2に係るマルチチャンネル合成部の詳細な構成を示す ブロック図である。
[図 13]図 13は、同上の変形例 3に係るマルチチャンネル合成部の詳細な構成を示す ブロック図である。
[図 14]図 14は、同上の変形例 4に係る TD部および EQ部の動作を示すフローチヤ一 トである。
符号の説明
[0089] 100 ォーティオアコータ
101 逆多重化部
102 デコーダ
103 マルチチャンネル合成部
110 分析フィルタバンク
120 エリアジングノイズ検出部 (TD部)
130 チャンネル拡大部
131 プレマトリックス処理部
132 ポストマトリックス処理部
133 第 1演算部
134 第 2演算部
135 実数無相関処理部
136 EQ部
140 合成フィルタバンク
発明を実施するための最良の形態
[0090] 以下、本発明の実施の形態におけるオーディオデコーダについて図面を参照しな がら説明する。
[0091] 図 8は、本発明の実施の形態におけるオーディオデコーダの構成を示すブロック図 である。
[0092] 本実施の形態におけるオーディオデコーダ 100は、エリアジングノイズの発生を抑 えつつ演算量を軽減したものであって、逆多重化部 101と、デコーダ 102と、マルチ チャンネル合成部 103とを備えている。
[0093] 逆多重化部 101は、上記従来の逆多重化部 1210と同様の機能を有し、オーディ ォエンコーダ力 出力された符号ィ匕信号を取得して、その符号ィ匕信号から、量子化 された BC情報と、符号化ダウンミックス信号とを分離して出力する。なお、逆多重化 部 101は、量子化された BC情報を逆量子化して出力する。
[0094] 符号ィ匕ダウンミックス信号は、第 1の符号化データとして構成され、例えば 6チャン ネルのオーディオ信号がダウンミックスされて AAC方式で符号ィ匕されて 、る。なお、 符号化ダウンミックス信号は、 AAC方式と SBR(Spectral Band Replication)方式で符 号ィ匕されていてもよい。 BC情報は、予め定められた形式で符号化されており、第 2の 符号化データとして構成されて ヽる。
[0095] デコーダ 102は、上記従来のデコーダ 1220と同様の機能を有し、符号ィ匕ダウンミツ タス信号を復号化することにより、 PCM信号(時間軸信号)であるダウンミックス信号 Mを生成してマルチチャンネル合成部 103に出力する。なお、デコーダ 102は、 AA C方式の復号化過程で生成される MDCT (Modified Discrete Cosine Transform)係 数を、分析フィルタバンク 110の出力形式に応じて変換することによって、周波数帯 域信号を生成してもよい。
[0096] マルチチャンネル合成部 103は、デコーダ 102からダウンミックス信号 Mを取得する とともに、逆多重化部 101から BC情報を取得する。そして、マルチチャンネル合成部 103は、その BC情報を用いて、ダウンミックス信号 Mから上述の 6つのオーディオ信 号を復元する。
[0097] マルチチャンネル合成部 103は、分析フィルタバンク 110と、エリアジングノイズ検 出部 120と、チャンネル拡大部 130と、合成フィルタバンク 140とを備えている。
[0098] 分析フィルタバンク 110は、デコーダ 102から出力されたダウンミックス信号 Mを取 得し、そのダウンミックス信号 Mの表現形式を、時間 Z周波数ハイブリッド表現に変換 し、第 1周波数帯域信号 Xとして出力する。この第 1周波数帯域信号 Xは、全ての周波 数帯域が実数で表現された周波数帯域信号である。なお、本実施の形態では、デコ ーダ 102と分析フィルタバンク 110とから周波数帯域信号生成手段が構成されている
[0099] エリアジングノイズ検出部 120は、分析フィルタバンク 110から出力された第 1周波 数帯域信号 Xを分析することによって、マルチチャンネル合成部 103から出力される 6 チャンネルのオーディオ信号にエリアジングノイズが発生する可能性が高いか否かを 検出する。つまり、エリアジングノイズ検出部 120は、第 1周波数帯域信号 Xの各周波 数帯域にトーン性の強い信号が存在する力否かを判別する。言い換えれば、エリア ジングノイズ検出部 120は、強 、周波数成分が持続する状態であるトーン性の強!ヽ 信号が存在する周波数帯域を検出する。そして、エリアジングノイズ検出部 120は、 強!ヽ信号が存在すると判別した場合には、隣接の周波数帯域にエリアジングノイズ が発生する可能性が高いことを検出する。また、分析フィルタバンク 110では、実数 で表現された第 1周波数帯域信号 Xが生成されるため、そのエリアジングノイズが発 生する可能性は高い。
[0100] チャンネル拡大部 130は、 BC情報を取得して、その BC情報に基づいて、第 1周波 数帯域信号 Xから 6チャンネルの出力信号 yを生成するための行列を生成する。この とき、チャンネル拡大部 130は、エリアジングノイズ検出部 120によってエリアジングノ ィズの発生の可能性が高いと検出されると、合成フィルタバンク 140から出力される 出力信号 yにお 、てエリアジングノイズが抑えられるような行列 (演算係数)を生成す る。そして、チャンネル拡大部 130は、第 1周波数帯域信号 Xに対してその行列を用 いた行列演算を行うことにより、周波数帯域信号 (第 2周波数帯域信号)である 6チヤ ンネルの出力信号 yを出力する。
[0101] つまり、チャンネル拡大部 130は、エリアジングノイズの発生の可能性が高いと検出 されると、その可能性が高い周波数帯域の信号の振幅を調整することによって、エリ アジングノイズを軽減する。すなわち、 BC情報にはレベル情報 IIDが含まれているの で、チャンネル拡大部 130は、そのレベル情報 IID力も得られる各周波数帯域ごとの 振幅増幅率を行列の中で調整することによって、エリアジングノイズの発生の可能性 が高 、周波数帯域の信号の大きさを制御する。 [0102] 合成フィルタバンク 140は、 6つの合成フィルタ 140aを備えている。各合成フィルタ 140aはそれぞれ、チャンネル拡大部 130から出力された出力信号 yの表現形式を、 時間 Z周波数ハイブリッド表現から時間表現に変換する。つまり、合成フィルタ 140a は、出力信号 yを帯域合成する帯域合成手段として構成されており、周波数帯域信 号である出力信号 yを、 PCM信号 (時間軸信号)に変換して出力する。これにより、 6 チャンネルのオーディオ信号カゝらなるステレオ信号が出力される。
[0103] 図 9は、マルチチャンネル合成部 103の詳細な構成を示すブロック図である。
[0104] 分析フィルタバンク 110は、実数 QMF部 111と、実数 Nyq部 112とを備えている。
[0105] 実数 QMF部 111は、フィルタバンクとして、実数係数の QMF (Quadrature Mirror Filter)で構成されており、 PCM信号であるダウンミックス信号 Mを所定の周波数帯 域ごとに分析して、時間 Z周波数ハイブリッド表現である実数の第 1の周波数帯域信 号 Xを生成する。
[0106] このような実数 QMF部 111は、(数 8)に示すような複素数 (複素変調係数) Mr (k, n)ではなぐ(数 9)に示すような実数 (実数変調係数) Mr (k, n)を用いる。
[0107] [数 8]
「ΤΓ(/ 0,5)(2Η—1)
Mr (k, n) = 2 · exp
128
[0108] [数 9]
Figure imgf000019_0001
[0109] 実数 Nyq部 112は、実数係数のナイキストフィルタバンクで構成されており、前記実 数 QMF部 11 1で生成された第 1周波数帯域信号 Xの低周波数帯域において、さら に細かい周波数帯域ごとに実数の第 1周波数帯域信号 Xを修正する。
[0110] このような実数 Nyq部 112のフィルタは、例えば (数 10)に示すような複素数 (複素 変調係数) g n'mではなぐ(数 11)に示すような実数 (実数変調係数) g Pを用いる。
[0111] [数 10]
Figure imgf000020_0001
[0112] [数 11] (? + 0,5)('卜 6)
Figure imgf000020_0002
[0113] TD部 120は、上述のエリアジングノイズ検出部 120であって、パラメータバンド mお よび処理フレーム gにおけるトーン性(トーナリティ) T (m)を、(数 12)のように導出す
g
る。
[0114] [数 12]
Figure imgf000020_0003
[0115] ここで、 Ρ pow' (f)は、 2つの処理フレーム gおよび (g—l)における信号消費電力の
g
合計を示し、 P coh (f)は、上述の処理フレームのコヒーレンス値を示す。 T (m)の値は
g g
0から 1であって、 T (m) =0はトーナリティがないことを示し、 T (m) = lはトーナリテ
g g
ィが高いことを示す。
[0116] 全体のトーナリティは、 2つの処理フレームにおける上記トーナリティの最小値によ つて、(数 13)のように示され、パラメータバンド mにおけるトーナリティの最大値 GT( m)は、(数 14)のように示される。
[0117] [数 13]
T(m) = mm(T (m))
[0118] [数 14]
GT(m) = m^K(Tg (m))
[0119] チャンネル拡大部 130は、調整モジュールたる EQ部(イコライザ) 136と、プレマトリ ックス処理部 131と、ポストマトリックス処理部 132と、第 1演算部 133と、第 2演算部 1
34と、実数無相関処理部 135とを備えている。
[0120] EQ部 136は、 TD部 120においてエリアジングノイズの発生の可能性が高いとパラ メータバンド bにおいて検出されると、 BC情報に含まれるレベル情報 IIDや相関情報
ICCなどである、パラメータバンド bにおける空間パラメータ p (b)を、エリアジングノィ ズの発生が抑えられるように修正する。
[0121] プレマトリックス処理部 131は、従来のプレマトリックス処理部 1251と同様の機能を 有し、 EQ部 136を介して BC情報を取得し、その BC情報に基づいて行列 Rを生成
1 する。つまり、プレマトリックス処理部 131は、 BC情報の空間パラメータに含まれるレ ベル情報 IIDから、スケーリング係数を上述の演算係数の一部として導出する。
[0122] 第 1演算部 133は、実数で表現された第 1周波数帯域信号 Xと行列 Rとの積を算出
1
し、その行列演算結果を示す中間信号 Vを出力する。つまり、本実施の形態では、プ レマトリックス処理部 131および第 1演算部 133によってプレマトリックスモジュールが 構成され、そのプレマトリックスモジュールが第 1周波数帯域信号 Xをスケーリングして いる。
[0123] 実数無相関処理部 135は、実数で表現された中間信号 Vに対してオールパスフィ ルタ処理を施すことによって、無相関信号 wを生成して出力する。
[0124] このような実数無相関処理部 135は、(数 15)に示すような複素数 (複素格子係数)
Φ n'mではなぐ(数 16)に示すような実数 (実数格子係数) φ n'mを用いる。これにより、 非整数遅延係数が取り除かれる。
[0125] [数 15]
Figure imgf000021_0001
[0126] [数 16] ' = 1、
[0127] ポストマトリックス処理部 132は、従来のポストマトリックス処理部 1252と同様の機能 を有し、 EQ部 136を介して BC情報を取得し、その BC情報に基づいて行列 Rを生 成する。つまり、ポストマトリックス処理部 132は、 BC情報の空間パラメータに含まれ る相関情報 ICCや位相情報 IPDから、ミキシング係数を上述の演算係数の一部とし て導出する。
[0128] 第 2演算部 134は、実数で表現された無相関信号 wと行列 Rとの積を算出し、その
2
行列演算結果を示す周波数帯域信号たる出力信号 yを出力する。つまり、本実施の 形態では、ポストマトリックス処理部 132および第 2演算部 134によってポストマトリック スモジュールが構成され、そのポストマトリックスモジュールが、ミキシング係数を用い て、第 1周波数帯域信号 Xと無相関信号 wとを混ぜ合わせている。
[0129] 合成フィルタバンク 140は、実数 INyq部 141と、実数 IQMF部 142とを備えている
[0130] 実数 INyq部 141は、実数係数の逆ナイキストフィルターで、実数 IQMF部 142は、 実数係数の逆 QMFフィルターで構成されている。これにより、合成フィルタバンク 14 0は、実数で表現された出力信号 yを、例えば 6チャンネルのオーディオ信号カゝらなる 時間信号に変換して出力する。
[0131] また、このような実数 IQMF部 142は、例えば (数 17)に示すような複素数 (複素変 調係数) N (k, n)ではなぐ(数 18)に示すような実数 (実数変調係数) N (k, n)を用 いる。
[0132] [数 17]
Nr ( ) =上^ 5)(2"— 255)
[0133] [数 18]
, r . 1 ( 7T(/c + 0.5)(2"— 64)
Nr{k,n) =― cos1
32 128 ノ
[0134] 図 10は、 TD部 120および EQ部 136の動作を示すフローチャートである。
[0135] まず、 TD部 120は、分析フィルタバンク 110から出力された第 1周波数帯域信号 X を分析することにより、パラメータバンド bが 0から PramBandまでの範囲で、パラメ一 タバンド bのトーナリティ GT(b)と、そのパラメータバンド bに隣接するパラメータバンド (b + 1)のトーナリティ GT(b+ 1)との平均値である平均トーナリティ GT' (b)を算出 する(ステップ S 700)。
[0136] 次に、 TD部 120は、パラメータバンド bを 0に初期設定し (ステップ S 701)、パラメ一 タバンド bが(ParamBand—l)に達しているか否力、つまり、パラメータバンド bの示 すバンド力 最後から二番目のバンドである力否かを判別する(ステップ S702)。
[0137] ここで、 TD部 120は、 (ParamBand- 1)に達していると判別したときには(ステップ S702の yes)、エリアジングノイズ検出の処理を終了する。一方、(ParamBand—l) に達していないと判別したときには (ステップ S702の no)、 TD部 120は、さらに、そ の平均トーナリティ GT' (b)が、予め定められた閾値 TH2よりも大きいか否かを判別 する(ステップ S 703)。
[0138] TD部 120は、閾値 TH2よりも大きいと判別したときには(ステップ S703の yes)、ェ リアジングノイズの発生の可能性があることを検出し、その検出結果を EQ部 136に通 知する。 EQ部 136は、その検出結果の通知を受けると、パラメータバンド bの空間パ ラメータ p (b)と、パラメータバンド (b + 1)の空間パラメータ p (b + 1)とを、それらの平 均値に置き換えて、空間パラメータ p (b)と空間パラメータ p (b + 1)とを等しくする。そ して、 TD部 120は、パラメータバンド bの値を 1だけ増加させ (ステップ S 707)、ステツ プ S702からの動作を繰り返し実行する。
[0139] 一方、 TD部 120は、平均トーナリティ GT' (b)が閾値 TH2以下であると判別したと きには (ステップ S703の no)、さらに、その平均トーナリティ GT,(b)が閾値 TH1より も小さいか否かを判別する (ステップ S705)。なお、閾値 TH1は、閾値 TH2よりも小 さい値である。
[0140] ここで、 TD部 120は、閾値 TH1よりも小さいと判別すると (ステップ S705の yes)、 ステップ S707からの処理を繰り返し実行し、閾値 TH1以上であると判別すると (ステ ップ S705の no)、その判別結果、平均トーナリティ GT,(b)および閾値 TH1, TH2 を EQ部 136に通知する。
[0141] EQ部 136は、上述の通知を受けると、パラメータバンド bの空間パラメータ p (b) =a ve X (l -a) +p (b) X aと、パラメータバンド(b + 1)の空間パラメータ p (b + 1) =ave X (l -a) +p (b+ l) X aとを算出する(ステップ S706)。ここで、 ave = 0. 5 X (p (b) +p (b + l) )であって、 a= (TH2— GT,(b) ) Z (TH2—THl)である。
[0142] つまり、 EQ部 136は、閾値 TH1と閾値 TH2との間の全ての平均トーナリティ GT' ( b)に対して、空間パラメータ p (b) , p (b + l)を線形補間している。つまり、平均トーナ リティ GT' (b)が閾値 TH1に近い、即ちトーナリティが小さいときには、空間パラメ一 タ p (b) , p (b + l)はそれぞれ元の値に近くなり、平均トーナリティ GT' (b)が閾値 TH 2に近い、即ちトーナリティが大きいときには、空間パラメータ p (b) , p (b + l)はそれ ぞれの平均値に近くなる。
[0143] このように本実施の形態では、エリアジングノイズが発生しな 、ように、チャンネル拡 大部 130にお 、て空間パラメータが調整されるため、チャンネル拡大部 130の後段 にお 、てチャンネルの数だけノイズ除去部を設けることに比べ、極めて少な 、処理量 でエリアジングノイズが抑制され、小さな回路規模あるいはプログラムサイズのオーデ ィォデコーダが実現される。その結果、低消費電力化、メモリ容量の削減、およびチ ップサイズの小型化を図ることができる。
[0144] (変形例 1)
ここで本実施の形態における第 1の変形例について説明する。
[0145] 上記実施の形態では、 EQ部 136は TD部 120の検出結果に基づいて空間パラメ ータ pをィコライズした力 本変形例に係る EQ部は、プレマトリックス処理部 131で生 成された行列 Rをィコライズするとともに、ポストマトリックス処理部 132で生成された
1
行列 Rをィコライズする。
2
[0146] 図 11は、本変形例に係るマルチチャンネル合成部の詳細な構成を示すブロック図 である。
[0147] 本変形例に係るマルチチャンネル合成部 103aは、上記実施の形態におけるチヤ ンネル拡大部 130の代わりに、チャンネル拡大部 130aを備える。
[0148] チャンネル拡大部 130aは、上記実施の形態の EQ部 136と同様の機能を有する E Q部 136aおよび EQ部 136bを備えて!/、る。
[0149] 即ち、 EQ部 136aは、 TD部 120による検出結果に基づいて、プレマトリックス処理 部 131から出力された行列 R (スケーリング係数)をィコライズし、 EQ部 136bは、 TD
1
部 120による検出結果に基づいて、ポストマトリックス処理部 132から出力された行列 R
2 (ミキシング係数)をィコライズする。
[0150] EQ部 136aは、(数 19)に示すように、 EQ部 136の処理対象である空間パラメータ p (b)の代わりに、行列 R (b)を処理対象として扱う。
1
[0151] [数 19]
P{b) = R, {b)
[0152] EQ部 136bは、(数 20)に示すように、 EQ部 136の処理対象である空間パラメータ p (b)の代わりに、行列 R (b)を処理対象として扱う。
2
[0153] [数 20] p{b) = R2 {b)
[0154] このように本変形例では、エリアジングノイズが発生しな 、ように、チャンネル拡大部 130において演算係数たる行列 R , Rが直接的に調整されるため、チャンネル拡大
1 2
部 130の後段においてチャンネルの数だけノイズ除去部を設けることに比べ、極めて 少な 、処理量でエリアジングノイズが抑制され、小さな回路規模あるいはプログラム サイズのオーディオデコーダが実現される。
[0155] (変形例 2)
ここで本実施の形態における第 2の変形例について説明する。
[0156] 上記実施の形態では、周波数帯域信号の全ての周波数帯域において実数を用い たが、本変形例では、周波数帯域信号のうち低周波数帯域においては複素数を用 いる。つまり、本変形例では、周波数帯域信号のうち一部に対してのみ実数を用いる
[0157] 図 12は、本変形例に係るマルチチャンネル合成部の詳細な構成を示すブロック図 である。
[0158] 本変形例に係るマルチチャンネル合成部 103bは、分析フィルタバンク 110aと、チ ヤンネル拡大部 130bと、合成フィルタバンク 140aとを備えて!/、る。
[0159] 分析フィルタバンク 110aは、ダウンミックス信号を、時間 Z周波数ハイブリッド表現 に変換し、第 1周波数帯域信号 Xとして出力するものであって、上述の実数 QMF部 1 11と、複素 Nyq部 112aとを備えている。
[0160] 複素 Nyq部 112aは、複素係数のナイキストフィルタバンクとして構成されており、実 数 QMF部 111で生成された第 1周波数帯域信号 Xの低周波数帯域において、複素 係数のナイキストフィルターにより、その第 1周波数帯域信号 Xを修正する。
[0161] このように分析フィルタバンク 110aは、低域周波数帯域が部分的に実数で表現さ れる第 1周波数帯域信号 Xを生成して出力する。
[0162] チャンネル拡大部 130bは、上述のプレマトリックス処理部 131、ポストマトリックス処 理部 132、第 1演算部 133、および第 2演算部 134と、部分的実数無相関処理部 13
5aとを備えている。
[0163] 部分的実数無相関処理部 135aは、部分的に実数で表現される第 1周波数帯域信 号 Xに基づいて第 1演算部 133から出力された中間信号 Vに対して、オールパスフィ ルタ処理を施すことによって、無相関信号 wを生成して出力する。
[0164] 合成フィルタバンク 140aは、チャンネル拡大部 130bから出力された出力信号 yの 表現形式を、時間 Z周波数ハイブリッド表現から時間表現に変換するものであって、 上述の実数 IQMF部 142と、複素 INyq部 141aとを備えている。複素 INyq部 141a は、複素係数の逆ナイキストフィルターであり、低域周波数帯域において、複素数の 第 1周波数帯域信号 Xを生成する。そして、実数 IQMF部 142は、複素 INyq部 141a による処理結果に対して、実数係数の逆 QMFによる合成フィルター処理により、マ ルチチャンネルの時間信号を出力する。
[0165] このように本変形例では、低周波数帯域では複素数のまま処理されることになるの で、高い帯域分解能を維持しつつ、演算量が抑制され、音質向上と回路規模の削減 の両方をバランスよく達成することができる。
[0166] (変形例 3)
ここで本実施の形態における第 3の変形例について説明する。
[0167] 本変形例に係るマルチチャンネル合成部は、上記変形例 1および変形例 2の特徴 を兼ね備えている。
[0168] 図 13は、本変形例に係るマルチチャンネル合成部の詳細な構成を示すブロック図 である。 [0169] 本変形例に係るマルチチャンネル合成部 103cは、変形例 2の分析フィルタバンク 1 10aと、チャンネル拡大部 130cと、変形例 2の合成フィルタバンク 140aとを備えてい る。
[0170] チャンネル拡大部 130cは、変形例 1の EQ部 136a, 136bと、変形例 2の部分的実 数無相関処理部 135aとを備えて 、る。
[0171] つまり、本変形例に係るマルチチャンネル合成部 103cは、プレマトリックス処理部 1
31で生成された行列 Rをィコライズするとともに、ポストマトリックス処理部 132で生成
1
された行列 Rをィコライズする。さらに、本変形例に係るマルチチャンネル合成部 10
2
3cは、周波数帯域信号のうち一部に対してのみ実数を用いる。
[0172] (変形例 4)
ここで本実施の形態における第 4の変形例について説明する。
[0173] 上記実施の形態における TD部 120および EQ部 136は、互いに隣接するパラメ一 タバンドで空間パラメータ p (b)を平均化した、本変形例に係る TD部 120および EQ 部 136は、複数の連続するパラメータバンドからなるグループで空間パラメータ p (b) を平均化する。
[0174] 図 14は、本変形例に係る TD部 120および EQ部 136の動作を示すフローチャート である。
[0175] まず、 TD部 120は、パラメータバンド b = 0、カウント値 cnt=0および平均値 ave = 0を初期設定する(ステップ S1100)。そして、 TD部 120は、パラメータバンド bが(Pa ramBand- 1)に達しているか否力、つまり、パラメータバンド bの示すバンド力 最後 力も二番目のバンドである力否かを判別する(ステップ S1101)。
[0176] ここで、 TD部 120は、 (ParamBand- 1)に達していると判別したときには(ステップ S 1101の yes)、エリアジングノイズ検出の処理を終了する。一方、(ParamBand— 1 )に達していないと判別したときには (ステップ S1101の no)、 TD部 120は、さらに、 その平均トーナリティ GT' (b)が、予め定められた閾値 TH3よりも大きいか否かを判 別する(ステップ S 1102)。
[0177] TD部 120は、閾値 TH3よりも大きいと判別したときには (ステップ S1102の yes)、 エリアジングノイズの発生の可能性があることを検出し、その検出結果を EQ部 136に 通知する。 EQ部 136は、その検出結果の通知を受けると、パラメータバンド bの空間 ノ ラメータ p (b)を平均値 aveに加算してその平均値 aveを更新し、カウント値 cntを 1 だけ増加させる(ステップ S1103)。そして、 TD部 120は、パラメータバンド bの値を 1 だけ増力 tlさせ (ステップ S 1108)、ステップ S 1101からの動作を繰り返し実行する。
[0178] このように、連続する各パラメータバンド bにおける平均トーナリティ GT' (b)が閾値 TH3よりも大き 、場合には、その各パラメータバンド bの空間パラメータ p (b)が積算さ れる。
[0179] 一方、 TD部 120は、平均トーナリティ GT' (b)が閾値 TH3以下であると判別したと きには(ステップ S1102の no)、さらに、現在のカウント値 cntが 1よりも大きいか否か を判別する (ステップ S1104)。 TD部 120は、カウント値 cntが 1よりも大きいと判別す ると(ステップ S 1104の yes)、平均値 aveをそのカウント値 cntで除算して、その平均 値 aveを更新する(ステップ S 1106)。そして、 TD部 120は、その更新された平均値 a veを EQ部 136に通知する。
[0180] EQ部 136は、(b— cnt)から(b—1)の範囲のパラメータバンド iの空間パラメータ p ( i)力 TD部 120から通知された平均値 aveになるように、それらの空間パラメータ p (i )を更新する (ステップ S1107)。
[0181] TD部 120は、カウント値 cntが 1以下であると判別すると (ステップ S1104の no)、 または、 EQ部 136が上述のようにステップ S1107で空間パラメータ p (i)を更新すると 、カウント値 cntおよび平均値 aveを 0に設定する(ステップ S 1105)。そして、 TD部 1 20は、ステップ S 1108からの動作を繰り返して実行する。
[0182] このように本変形例では、閾値 TH3よりも大き 、平均トーナリティ GT' (b)を有する 連続したパラメータバンドからなるグループで、空間パラメータ p (b)が平均化される。
[0183] なお、上記実施の形態およびその変形例におけるオーディオデコーダの全体また は一部の構成要素は、 LSI (Large Scale Integration)などの集積回路として実現する ことができるとともに、その処理動作をコンピュータに実行させるプログラムとしても実 現することができる。
産業上の利用可能性
[0184] 本発明のオーディオデコーダは、エリアジングノイズの発生を抑えつつ演算量を軽 減することができるという効果を奏し、特に、放送等の低ビットレートの応用において 有用であって、例えばホームシアターシステム、車載音響システム及び電子ゲームシ ステムなどに適用可能である。

Claims

請求の範囲
[1] N (N≥2)チャンネルのオーディオ信号をダウンミックスして得られるダウンミックス 信号を符号化した第 1の符号化データと、前記ダウンミックス信号を元の Nチャンネル のオーディオ信号に復元するためのパラメータを符号ィ匕した第 2の符号ィ匕データとか らなるビットストリームをデコードし、 Nチャンネルのオーディオ信号を生成するオーデ ィォデコーダであって、
前記第 1の符号化データから、前記ダウンミックス信号に対する第 1の周波数帯域 信号を生成する周波数帯域信号生成手段と、
前記第 2の符号化データを用いて、前記周波数帯域信号生成手段で生成された 第 1の周波数帯域信号を、 Nチャンネルのオーディオ信号に対する第 2の周波数帯 域信号に変換するチャンネル拡大手段と、
前記チャンネル拡大手段で生成された Nチャンネルの第 2の周波数帯域信号を帯 域合成することによって、時間軸上の Nチャンネルのオーディオ信号に変換する帯域 合成手段と、
前記第 1の周波数帯域信号におけるエリアジングノイズの発生を検出するエリアジ ングノイズ検出手段とを備え、
前記チャンネル拡大手段はさらに、前記エリアジングノイズ検出手段で検出された 情報に基づいて、前記第 2の周波数帯域信号にエリアジングノイズが含まれることを 防止する
ことを特徴とするオーディオデコーダ。
[2] 前記周波数帯域信号生成手段は、前記第 1の周波数帯域信号のうち、少なくとも 一部の周波数帯域については、実数で表現される前記第 1の周波数帯域信号を生 成し、
前記エリアジングノイズ検出手段は、前記第 1の周波数帯域信号が実数で表現され ることに起因して発生するエリアジングノイズの発生を検出する
ことを特徴とする請求項 1記載のオーディオデコーダ。
[3] 前記周波数帯域信号生成手段は、所定の周波数帯域の帯域分解能を高めるため のナイキストフィルタバンクを有し、当該ナイキストフィルタバンクが処理する周波数帯 域については複素数で表現される周波数帯域信号を生成し、当該ナイキストフィルタ バンクが処理しな 、周波数帯域につ!、ては実数で表現される周波数帯域信号を生 成する
ことを特徴とする請求項 2記載のオーディオデコーダ。
[4] 前記エリアジングノイズ検出手段は、前記第 1の周波数帯域信号において、強い周 波数成分が持続する状態であるトーン性の強い信号が存在する周波数帯域を検出 し、
前記チャンネル拡大手段は、前記エリアジングノイズ検出手段で検出された周波数 帯域に隣接する周波数帯域の信号レベルを調整した前記第 2の周波数帯域信号を 出力する
ことを特徴とする請求項 2記載のオーディオデコーダ。
[5] 前記第 2の符号化データは、元の Nチャンネルのオーディオ信号間のレベル比と位 相差とを含む空間パラメータを符号ィヒしたデータであり、
前記チャンネル拡大手段は、
前記第 1の周波数帯域信号と、当該第 1の周波数帯域信号から生成した無相関信 号とを、前記空間パラメータ力 生成した演算係数に応じた比率で混ぜ合わせること によって、前記第 2の周波数帯域信号を生成する演算手段と、
前記エリアジングノイズ検出手段によって検出された周波数帯域に隣接する周波 数帯域について、前記演算係数を調整することによって、前記信号レベルを調整す る調整モジュールとを備える
ことを特徴とする請求項 4記載のオーディオデコーダ。
[6] 前記演算手段は、
前記空間パラメータに含まれるレベル比力 導出されるスケーリング係数を前記演 算係数の一部として用い、前記第 1の周波数帯域信号をスケーリングすることで、中 間信号を生成するプレマトリックスモジュールと、
前記プレマトリクスモジュールで生成された中間信号に対してオールパスフィルタの 処理を施すことによって、無相関信号を生成する無相関モジュールと、
前記空間パラメータに含まれる位相差力 導出されるミキシング係数を前記演算係 数の一部として用い、前記第 1の周波数帯域信号と前記無相関信号とを混ぜ合わせ るポストマトリックスモジュールとを備え、
前記調整モジュールは、前記空間パラメータを調整することによって、前記演算係 数を調整する
ことを特徴とする請求項 5記載のオーディオデコーダ。
[7] 前記調整モジュールは、前記エリアジングノイズ検出手段が検出した周波数帯域と 当該周波数帯域に隣接する周波数帯域についての前記スケーリング係数をィコライ ズすること〖こよって、前記演算係数を調整するイコライザを有する
ことを特徴とする請求項 5記載のオーディオデコーダ。
[8] 前記調整モジュールは、前記エリアジングノイズ検出手段が検出した周波数帯域と 当該周波数帯域に隣接する周波数帯域についての前記ミキシング係数をィコライズ することによって、前記演算係数を調整するイコライザを有する
ことを特徴とする請求項 5記載のオーディオデコーダ。
[9] 前記調整モジュールは、前記エリアジングノイズ検出手段が検出した周波数帯域と 当該周波数帯域に隣接する周波数帯域についての前記空間パラメータをィコライズ するイコライザを有する
ことを特徴とする請求項 6記載のオーディオデコーダ。
[10] 前記イコライザは、ィコライズの対象となる各要素を当該各要素の平均値で置き換 えること〖こよって、前記ィコライズをする
ことを特徴とする請求項 7〜9のいずれ力 1項に記載のオーディオデコーダ。
[11] N (N≥ 2)チャンネルのオーディオ信号をダウンミックスして得られるダウンミックス 信号を符号化した第 1の符号化データと、前記ダウンミックス信号を元の Nチャンネル のオーディオ信号に復元するためのパラメータを符号ィ匕した第 2の符号ィ匕データとか らなるビットストリームをデコードし、 Nチャンネルのオーディオ信号を生成するオーデ ィォ信号の復号方法であって、
前記第 1の符号化データから、前記ダウンミックス信号に対する第 1の周波数帯域 信号を生成する周波数帯域信号生成ステップと、
前記第 2の符号化データを用いて、前記周波数帯域信号生成ステップで生成され た第 1の周波数帯域信号を、 Nチャンネルのオーディオ信号に対する第 2の周波数 帯域信号に変換するチャンネル拡大ステップと、
前記チャンネル拡大ステップで生成された、 Nチャンネルの第 2の周波数帯域信号 を帯域合成することによって、時間軸上の Nチャンネルのオーディオ信号に変換する 帯域合成ステップと、
前記第 1の周波数帯域信号におけるエリアジングノイズの発生を検出するエリアジ ングノイズ検出ステップとを含み、
前記チャンネル拡大ステップではさらに、前記エリアジングノイズ検出ステップで検 出された情報に基づいて、前記第 2の周波数帯域信号にエリアジングノイズが含まれ ることを防止する
ことを特徴とするオーディオ信号の復号方法。
PCT/JP2006/313783 2005-07-15 2006-07-11 オーディオデコーダ WO2007010785A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
US11/993,066 US8081764B2 (en) 2005-07-15 2006-07-11 Audio decoder
EP06768096A EP1906706B1 (en) 2005-07-15 2006-07-11 Audio decoder
DE602006010712T DE602006010712D1 (de) 2005-07-15 2006-07-11 Audiodekoder
JP2007525956A JP4944029B2 (ja) 2005-07-15 2006-07-11 オーディオデコーダおよびオーディオ信号の復号方法
CN2006800259170A CN101223821B (zh) 2005-07-15 2006-07-11 音频解码器

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2005207754 2005-07-15
JP2005-207693 2005-07-15
JP2005207693 2005-07-15
JP2005-207754 2005-07-15

Publications (1)

Publication Number Publication Date
WO2007010785A1 true WO2007010785A1 (ja) 2007-01-25

Family

ID=37668667

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2006/313783 WO2007010785A1 (ja) 2005-07-15 2006-07-11 オーディオデコーダ

Country Status (7)

Country Link
US (1) US8081764B2 (ja)
EP (1) EP1906706B1 (ja)
JP (1) JP4944029B2 (ja)
KR (1) KR101212900B1 (ja)
CN (1) CN101223821B (ja)
DE (1) DE602006010712D1 (ja)
WO (1) WO2007010785A1 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090010440A1 (en) * 2006-02-07 2009-01-08 Lg Electronics Inc. Apparatus and Method for Encoding/Decoding Signal
JP2010518460A (ja) * 2007-02-13 2010-05-27 エルジー エレクトロニクス インコーポレイティド オーディオ信号の処理方法及び装置
JP2010521703A (ja) * 2007-03-16 2010-06-24 エルジー エレクトロニクス インコーポレイティド オーディオ信号の処理方法及び装置
JP2010529500A (ja) * 2007-06-08 2010-08-26 エルジー エレクトロニクス インコーポレイティド オーディオ信号処理方法及び装置
US20100241434A1 (en) * 2007-02-20 2010-09-23 Kojiro Ono Multi-channel decoding device, multi-channel decoding method, program, and semiconductor integrated circuit
WO2011114932A1 (ja) * 2010-03-17 2011-09-22 ソニー株式会社 音声処理装置、音声処理方法、およびプログラム
JP2012513700A (ja) * 2008-12-22 2012-06-14 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 送信効果処理による出力信号の生成
JP2014529101A (ja) * 2012-02-17 2014-10-30 華為技術有限公司Huawei Technologies Co.,Ltd. 多重チャネル・オーディオ信号の符号化のためのパラメトリック型符号化装置

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4988716B2 (ja) 2005-05-26 2012-08-01 エルジー エレクトロニクス インコーポレイティド オーディオ信号のデコーディング方法及び装置
US8917874B2 (en) 2005-05-26 2014-12-23 Lg Electronics Inc. Method and apparatus for decoding an audio signal
JP4806031B2 (ja) * 2006-01-19 2011-11-02 エルジー エレクトロニクス インコーポレイティド メディア信号の処理方法及び装置
US8200959B2 (en) 2007-06-28 2012-06-12 Cisco Technology, Inc. Verifying cryptographic identity during media session initialization
US8417942B2 (en) 2007-08-31 2013-04-09 Cisco Technology, Inc. System and method for identifying encrypted conference media traffic
US20090169001A1 (en) * 2007-12-28 2009-07-02 Cisco Technology, Inc. System and Method for Encryption and Secure Transmission of Compressed Media
US8837598B2 (en) * 2007-12-28 2014-09-16 Cisco Technology, Inc. System and method for securely transmitting video over a network
US8374854B2 (en) * 2008-03-28 2013-02-12 Southern Methodist University Spatio-temporal speech enhancement technique based on generalized eigenvalue decomposition
JP5383676B2 (ja) * 2008-05-30 2014-01-08 パナソニック株式会社 符号化装置、復号装置およびこれらの方法
MX2011011399A (es) 2008-10-17 2012-06-27 Univ Friedrich Alexander Er Aparato para suministrar uno o más parámetros ajustados para un suministro de una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendete, decodificador de señal de audio, transcodificador de señal de audio, codificador de señal de audio, flujo de bits de audio, método y programa de computación que utiliza información paramétrica relacionada con el objeto.
JP2013007944A (ja) * 2011-06-27 2013-01-10 Sony Corp 信号処理装置、信号処理方法、及び、プログラム
EP2717262A1 (en) 2012-10-05 2014-04-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for signal-dependent zoom-transform in spatial audio object coding
US9258645B2 (en) * 2012-12-20 2016-02-09 2236008 Ontario Inc. Adaptive phase discovery
TWI618051B (zh) 2013-02-14 2018-03-11 杜比實驗室特許公司 用於利用估計之空間參數的音頻訊號增強的音頻訊號處理方法及裝置
US9754596B2 (en) 2013-02-14 2017-09-05 Dolby Laboratories Licensing Corporation Methods for controlling the inter-channel coherence of upmixed audio signals
TWI618050B (zh) 2013-02-14 2018-03-11 杜比實驗室特許公司 用於音訊處理系統中之訊號去相關的方法及設備
US9830917B2 (en) 2013-02-14 2017-11-28 Dolby Laboratories Licensing Corporation Methods for audio signal transient detection and decorrelation control
EP2830060A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Noise filling in multichannel audio coding
DK3201918T3 (en) * 2014-10-02 2019-02-25 Dolby Int Ab DECODING PROCEDURE AND DECODS FOR DIALOGUE IMPROVEMENT
US9413388B1 (en) * 2015-01-30 2016-08-09 Dell Products L.P. Modified huffman decoding
CN108786118B (zh) * 2017-05-03 2021-08-31 宏碁股份有限公司 音频集线器
JP6693551B1 (ja) * 2018-11-30 2020-05-13 株式会社ソシオネクスト 信号処理装置および信号処理方法
CN116806000B (zh) * 2023-08-18 2024-01-30 广东保伦电子股份有限公司 一种多通道任意扩展的分布式音频矩阵

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004248989A (ja) 2003-02-21 2004-09-09 Kinpei Fukushima プラズマ滅菌装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0810926B2 (ja) * 1988-04-15 1996-01-31 三洋電機株式会社 Museデコーダ及びサブサンプル映像信号復調装置
CN1262994C (zh) * 1996-11-07 2006-07-05 松下电器产业株式会社 噪声消除器
US5890125A (en) 1997-07-16 1999-03-30 Dolby Laboratories Licensing Corporation Method and apparatus for encoding and decoding multiple audio channels at low bit rates using adaptive selection of encoding method
US6226608B1 (en) * 1999-01-28 2001-05-01 Dolby Laboratories Licensing Corporation Data framing for adaptive-block-length coding system
US7289626B2 (en) * 2001-05-07 2007-10-30 Siemens Communications, Inc. Enhancement of sound quality for computer telephony systems
ES2259158T3 (es) * 2002-09-19 2006-09-16 Matsushita Electric Industrial Co., Ltd. Metodo y aparato decodificador audio.
US8046217B2 (en) 2004-08-27 2011-10-25 Panasonic Corporation Geometric calculation of absolute phases for parametric stereo decoding

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004248989A (ja) 2003-02-21 2004-09-09 Kinpei Fukushima プラズマ滅菌装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BAUMGARTE F. ET AL.: "Binaural Cue Coding-Part I:Psychoacoustic Fundamentals and Design Principles", IEEE TRANS. ON SPEECH AND AUDIO PROCESSING, vol. 11, no. 6, 2003, pages 509 - 519, XP011104738 *
See also references of EP1906706A4

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8625810B2 (en) * 2006-02-07 2014-01-07 Lg Electronics, Inc. Apparatus and method for encoding/decoding signal
US20090010440A1 (en) * 2006-02-07 2009-01-08 Lg Electronics Inc. Apparatus and Method for Encoding/Decoding Signal
JP2010518460A (ja) * 2007-02-13 2010-05-27 エルジー エレクトロニクス インコーポレイティド オーディオ信号の処理方法及び装置
JP2010518452A (ja) * 2007-02-13 2010-05-27 エルジー エレクトロニクス インコーポレイティド オーディオ信号の処理方法及び装置
US20100241434A1 (en) * 2007-02-20 2010-09-23 Kojiro Ono Multi-channel decoding device, multi-channel decoding method, program, and semiconductor integrated circuit
JP2010521703A (ja) * 2007-03-16 2010-06-24 エルジー エレクトロニクス インコーポレイティド オーディオ信号の処理方法及び装置
US9373333B2 (en) 2007-03-16 2016-06-21 Lg Electronics Inc. Method and apparatus for processing an audio signal
US8725279B2 (en) 2007-03-16 2014-05-13 Lg Electronics Inc. Method and an apparatus for processing an audio signal
US8712060B2 (en) 2007-03-16 2014-04-29 Lg Electronics Inc. Method and an apparatus for processing an audio signal
JP2010529500A (ja) * 2007-06-08 2010-08-26 エルジー エレクトロニクス インコーポレイティド オーディオ信号処理方法及び装置
US8644970B2 (en) 2007-06-08 2014-02-04 Lg Electronics Inc. Method and an apparatus for processing an audio signal
JP2012513700A (ja) * 2008-12-22 2012-06-14 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 送信効果処理による出力信号の生成
CN102792369A (zh) * 2010-03-17 2012-11-21 索尼公司 语音处理装置、语音处理方法和程序
JP2011197105A (ja) * 2010-03-17 2011-10-06 Sony Corp 音声処理装置、音声処理方法、およびプログラム
US8977541B2 (en) 2010-03-17 2015-03-10 Sony Corporation Speech processing apparatus, speech processing method and program
WO2011114932A1 (ja) * 2010-03-17 2011-09-22 ソニー株式会社 音声処理装置、音声処理方法、およびプログラム
JP2014529101A (ja) * 2012-02-17 2014-10-30 華為技術有限公司Huawei Technologies Co.,Ltd. 多重チャネル・オーディオ信号の符号化のためのパラメトリック型符号化装置
US9401151B2 (en) 2012-02-17 2016-07-26 Huawei Technologies Co., Ltd. Parametric encoder for encoding a multi-channel audio signal

Also Published As

Publication number Publication date
EP1906706A1 (en) 2008-04-02
KR101212900B1 (ko) 2012-12-14
EP1906706B1 (en) 2009-11-25
CN101223821A (zh) 2008-07-16
DE602006010712D1 (de) 2010-01-07
US8081764B2 (en) 2011-12-20
US20100235171A1 (en) 2010-09-16
CN101223821B (zh) 2011-12-07
KR20080033909A (ko) 2008-04-17
JPWO2007010785A1 (ja) 2009-01-29
EP1906706A4 (en) 2008-11-12
JP4944029B2 (ja) 2012-05-30

Similar Documents

Publication Publication Date Title
JP4944029B2 (ja) オーディオデコーダおよびオーディオ信号の復号方法
JP6665260B2 (ja) 複素予測ステレオ符号化によりステレオ信号を提供するデコーダシステム及び復号方法
JP5185340B2 (ja) マルチチャネルオーディオ信号を表示するための装置と方法
JP4918490B2 (ja) エネルギー整形装置及びエネルギー整形方法
EP2535892B1 (en) Audio signal decoder, method for decoding an audio signal and computer program using cascaded audio object processing stages
JP4934427B2 (ja) 音声信号復号化装置及び音声信号符号化装置
JP5053849B2 (ja) マルチチャンネル音響信号処理装置およびマルチチャンネル音響信号処理方法
WO2011013381A1 (ja) 符号化装置および復号装置
TWI566237B (zh) 使用物件特定之時間/頻率解析度以自混合信號分離音訊物件之技術
CN110223701B (zh) 用于从缩混信号产生音频输出信号的解码器和方法
WO2006041137A1 (ja) 音響信号符号化装置及び音響信号復号装置
JPWO2006030754A1 (ja) オーディオ符号化装置、復号化装置、方法、及びプログラム
JP2006325162A (ja) バイノーラルキューを用いてマルチチャネル空間音声符号化を行うための装置
JP2006337767A (ja) 低演算量パラメトリックマルチチャンネル復号装置および方法
JP2007025290A (ja) マルチチャンネル音響コーデックにおける残響を制御する装置
EP3424048A1 (en) Audio signal encoder, audio signal decoder, method for encoding and method for decoding
JP2007110565A (ja) マルチチャンネル音響復号化装置及び方法

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 200680025917.0

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 11993066

Country of ref document: US

Ref document number: 2006768096

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 1020077030265

Country of ref document: KR

WWE Wipo information: entry into national phase

Ref document number: 2007525956

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE