WO2012165910A2 - 오디오 부호화방법 및 장치, 오디오 복호화방법 및 장치, 그 기록매체 및 이를 채용하는 멀티미디어 기기 - Google Patents

오디오 부호화방법 및 장치, 오디오 복호화방법 및 장치, 그 기록매체 및 이를 채용하는 멀티미디어 기기 Download PDF

Info

Publication number
WO2012165910A2
WO2012165910A2 PCT/KR2012/004362 KR2012004362W WO2012165910A2 WO 2012165910 A2 WO2012165910 A2 WO 2012165910A2 KR 2012004362 W KR2012004362 W KR 2012004362W WO 2012165910 A2 WO2012165910 A2 WO 2012165910A2
Authority
WO
WIPO (PCT)
Prior art keywords
subband
difference value
envelope
audio
quantization
Prior art date
Application number
PCT/KR2012/004362
Other languages
English (en)
French (fr)
Other versions
WO2012165910A3 (ko
Inventor
포로브안톤
오시포브콘스탄틴
주기현
Original Assignee
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to US14/123,359 priority Critical patent/US9361895B2/en
Priority to EP12791983.5A priority patent/EP2717264B1/en
Priority to CA2838170A priority patent/CA2838170C/en
Priority to AU2012263093A priority patent/AU2012263093B2/en
Application filed by 삼성전자 주식회사 filed Critical 삼성전자 주식회사
Priority to PL12791983T priority patent/PL2717264T3/pl
Priority to MX2013014152A priority patent/MX2013014152A/es
Priority to CN201280037719.1A priority patent/CN103733257B/zh
Priority to MX2015014526A priority patent/MX357875B/es
Priority to JP2014513447A priority patent/JP6262649B2/ja
Publication of WO2012165910A2 publication Critical patent/WO2012165910A2/ko
Publication of WO2012165910A3 publication Critical patent/WO2012165910A3/ko
Priority to US15/142,594 priority patent/US9589569B2/en
Priority to AU2016256685A priority patent/AU2016256685B2/en
Priority to US15/450,672 priority patent/US9858934B2/en
Priority to AU2017228519A priority patent/AU2017228519B2/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes

Definitions

  • the present invention relates to audio encoding / decoding, and more particularly, to real spectrum components by reducing the number of bits required to encode envelope information of an audio spectrum in a limited bit range without increasing complexity and degrading restored sound quality.
  • An audio encoding method and apparatus capable of increasing the number of bits required for encoding, an audio decoding method and apparatus, a recording medium thereof, and a multimedia apparatus employing the same.
  • additional information such as an envelope may be included in the bitstream in addition to the actual spectral components.
  • additional information such as an envelope
  • the number of bits allocated to encoding the actual spectral component can be increased.
  • the problem to be solved by the present invention is to reduce the number of bits required to encode the envelope information of the audio spectrum in a limited bit range without increasing the complexity and deterioration of the restored sound quality, while reducing the number of bits required to encode the actual spectral components.
  • the present invention provides an audio encoding method and apparatus, an audio decoding method and apparatus, a recording medium thereof, and a multimedia apparatus employing the same.
  • An audio encoding apparatus for achieving the above object, an envelope obtaining unit for obtaining the envelope in a predetermined subband unit for the audio spectrum; An envelope quantizer for quantizing the envelope in the subband units; An envelope encoding unit for obtaining a difference value between quantized envelopes of adjacent subbands, and performing lossless encoding on the difference value of the current subband using the difference value of the previous subband as a context; It may include a spectral encoder for performing quantization and lossless encoding on the audio spectrum.
  • An audio decoding method for achieving the above object, to obtain the difference value between the quantized envelope for the adjacent subband from the bitstream, using the difference value of the previous subband as the context to the current subband Performing lossless decoding on the difference value of; And performing inverse quantization by obtaining the quantized envelope in subband units from a difference value of the current subband restored as a result of the lossless decoding.
  • an audio decoding apparatus obtains a difference value between quantized envelopes of adjacent subbands from a bitstream, and uses a difference value of a previous subband as a context in a current subband.
  • An envelope decoding unit for performing lossless decoding on the difference value of?
  • An envelope inverse quantizer for performing inverse quantization by obtaining the quantized envelope in subband units from a difference value of a current subband restored as a result of the lossless decoding;
  • a spectral decoder for performing lossless decoding and inverse quantization on spectral components included in the bitstream.
  • a multimedia apparatus for achieving the above object, to obtain an envelope in the unit of a predetermined subband with respect to the audio spectrum, and to quantize the envelope in the unit of the subband, the adjacent subband
  • the encoding module may include a coding module configured to obtain a difference value between the quantized envelopes and perform lossless encoding on the difference value of the current subband using the difference value of the previous subband as a context.
  • the multimedia apparatus obtains a difference value between quantized envelopes of adjacent subbands from a bitstream, performs a lossless decoding on a difference value of a current subband using the difference value of a previous subband as a context, and the lossless decoding result.
  • the apparatus may further include a decoding module configured to perform inverse quantization by obtaining the quantized envelope in subband units from the reconstructed difference value of the current subband.
  • FIG. 1 is a block diagram showing the configuration of a digital signal processing apparatus according to an embodiment of the present invention.
  • FIG. 2 is a block diagram showing the configuration of a digital signal processing apparatus according to another embodiment of the present invention.
  • 3A and 3B are diagrams comparing an unoptimized log scale with an optimized log scale when the quantization resolution is 0.5 and the quantization step size is 3.01.
  • 4A and 4B are diagrams comparing an unoptimized log scale with an optimized log scale when the quantization resolution is 1 and the quantization step size is 6.02.
  • FIG. 5 is a diagram comparing a quantization result of an unoptimized log scale with a quantization result of an optimized log scale.
  • FIG. 6 is a diagram illustrating probability distributions of three groups selected when a quantization delta value of a previous subband is used as a context.
  • FIG. 7 is a diagram for describing a context-based encoding operation of the envelope encoder of FIG. 1.
  • FIG. 8 is a diagram illustrating a context-based decoding operation of the envelope decoding unit of FIG. 2.
  • FIG. 9 is a block diagram illustrating a configuration of a multimedia apparatus including an encoding module according to an embodiment of the present invention.
  • FIG. 10 is a block diagram showing a configuration of a multimedia device including a decoding module according to an embodiment of the present invention.
  • FIG. 11 is a block diagram illustrating a configuration of a multimedia apparatus including an encoding module and a decoding module according to an embodiment of the present invention.
  • first and second may be used to describe various components, but the components are not limited by the terms. The terms are only used to distinguish one component from another.
  • FIG. 1 is a block diagram showing the configuration of a digital signal processing apparatus according to an embodiment of the present invention.
  • the digital signal processing apparatus 100 illustrated in FIG. 1 includes a transform unit 110, an envelope obtainer 120, an envelope quantizer 130, an envelope encoder 140, a spectral normalizer 150, and a spectrum encoder. 160 may be included. Each component may be integrated into at least one or more modules and implemented as at least one or more processors (not shown).
  • the digital signal may mean a media signal such as a video, an image, audio or voice, or a sound representing a mixed signal of audio and voice.
  • the audio signal will be referred to for convenience of description.
  • the converter 130 may generate an audio spectrum by converting an audio signal of a time domain into a frequency domain.
  • the time / frequency domain transformation may be performed using various known methods such as Modified Discrete Cosine Transform (MDCT).
  • MDCT Modified Discrete Cosine Transform
  • Equation 1 Equation 1 below.
  • N denotes the number of samples included in one frame, that is, frame size
  • h j denotes an applied window
  • s j denotes an audio signal in time domain
  • x i denotes an MDCT conversion coefficient.
  • a sine window for example, May be used.
  • the conversion coefficients of the audio spectrum obtained from the conversion unit 110 for example, the MDCT coefficient x i are provided to the envelope acquisition unit 120.
  • the envelope obtainer 120 may obtain an envelope value in units of a predetermined subband from the transform coefficients provided from the converter 110.
  • the subband is a grouping of samples of the audio spectrum, and may have a uniform or nonuniform length reflecting a critical band. In the case of non-uniformity, the subband may be set such that the number of samples included in the subband increases from one sample to the last sample for one frame. In the case of supporting multiple bit rates, the number of samples included in each subband corresponding to different bit rates may be set to be the same. The number of subbands included in one frame or the number of samples included in the subbands may be predetermined.
  • the envelope value may mean an average amplitude, average energy, power or norm value of the conversion coefficients included in the subband.
  • An envelope value of each subband may be calculated based on Equation 2 below, but is not limited thereto.
  • w denotes the number of transform coefficients included in the subband, that is, subband size
  • x i denotes a transform coefficient
  • n denotes an envelope value of the subband.
  • the envelope quantization unit 130 may perform quantization on a logarithmic scale optimized for the envelope value n of each subband.
  • the quantization index n q of the envelope value for each subband obtained from the envelope quantization unit 130 may be obtained by, for example, Equation 3 below.
  • b is an initial value r / 2 before being optimized as a rounding coefficient.
  • c is the base of the logarithmic scale, and r is the quantization resolution.
  • the envelope quantization unit 130 may vary the left and right boundaries of the quantization region corresponding to each quantization index such that the total quantization error in the quantization region corresponding to each quantization index is minimized. To this end, the rounding coefficients b are adjusted such that the left and right quantization errors obtained between the left and right boundaries of the quantization region corresponding to each quantization index and the quantization index are equal. Detailed operations of the envelope quantization unit 130 will be described later.
  • Equation 4 inverse quantization of the quantization index n q of the envelope value for each subband may be performed by Equation 4 below.
  • r denotes a quantization resolution
  • c denotes a base of a logarithmic scale.
  • the quantization index (n q ) of the envelope value for each subband obtained by the envelope quantization unit 130 is the envelope encoder 140, and the dequantized envelope value (for each subband) ) May be provided to the spectral normalization unit 150.
  • an envelope value obtained in each subband unit may be used for bit allocation required for encoding a normalized spectrum, that is, a normalized transform coefficient.
  • an envelope value quantized and losslessly encoded in each subband unit may be included in a bitstream and provided to a decoding apparatus.
  • an inverse quantized envelope value may be used so that the same process may be used in the encoding apparatus and the decoding apparatus.
  • the masking threshold value may be calculated using the norm value for each subband unit, and the perceptually necessary number of bits may be predicted using the masking threshold value. That is, the masking threshold is a value corresponding to the Just Noticeable Distortion (JND), and when the quantization noise is smaller than the masking threshold, perceptual noise cannot be felt. Therefore, the minimum number of bits necessary to avoid perceptual noise can be calculated using the masking threshold.
  • JND Just Noticeable Distortion
  • a signal-to-mask ratio is calculated using a ratio between a norm value and a masking threshold value, and a masking threshold value is obtained by using a relationship of 6.025 dB ⁇ 1 bit with respect to the SMR. It is possible to predict the number of bits satisfying.
  • the predicted number of bits is the minimum number of bits necessary to avoid perceptual noise, but in terms of compression, it is not necessary to use more than the predicted number of bits. Weak).
  • the number of allowed bits of each subband may be expressed in decimal units, but is not limited thereto.
  • bit allocation in each subband unit may be performed in decimal units using a norm value, but is not limited thereto.
  • bits are sequentially allocated from subbands having a large norm value, so that more bits are allocated to perceptually important subbands by weighting the norm values of each subband according to the perceptual importance of each subband. I can adjust it.
  • Perceptual importance can be determined, for example, by psychoacoustic weighting as in ITU-T G.719.
  • the envelope encoder 140 obtains a quantization delta value with respect to the quantization index n q of the envelope value for each subband provided from the envelope quantization unit 130, and obtains a context for the quantization delta value. Lossless coding is performed based on the BER, and the result may be included in the bitstream to be used for transmission and storage. Here, the context may use the quantization delta value of the previous subband. Detailed operations of the envelope encoder 140 will be described later.
  • the spectral normalizer 150 dequantizes the envelope value of each subband. Using By normalizing the transform coefficients as in Eq, the spectral mean energy of each subband is set to one.
  • the spectral encoder 160 performs quantization and lossless coding on the normalized transform coefficient, and includes the result in a bitstream to use for transmission and storage.
  • the spectrum encoder 160 may quantize and losslessly encode the normalized transform coefficient by using the allocated bit number finally determined based on the envelope value in each subband unit.
  • Lossless coding for normalized transform coefficients may use, for example, Factorial Pulse Coding (hereinafter, referred to as FPC).
  • FPC is a method of efficiently encoding an information signal using unit magnitude pulses.
  • the information content can be represented by four components: the number of non-zero pulse positions, the position of non-zero pulses, the magnitude of non-zero pulses, and the sign of non-zero pulses.
  • FPC Where m is the total number of unit magnitude pulses, and the original vector y and FPC vector of the subband Based on mean square error (MSE) We can determine the optimal solution for.
  • MSE mean square error
  • the optimal solution can be obtained by finding conditional extreme values using the Lagrangian function, as shown in Equation 5 below.
  • L is the Lagrangian function
  • m is the total number of unit-size pulses in the subband
  • is the Lagrange multiplier, which is an optimization factor
  • y i is a normalized Denotes the optimal number of pulses required at position i.
  • the entire set of each subband is obtained. May be included in the bitstream and transmitted.
  • an optimal multiplier for minimizing the quantization error in each subband and performing alignment of the average energy may also be included in the bitstream and transmitted.
  • the optimal multiplier can be obtained as in Equation 6 below.
  • FIG. 2 is a block diagram showing the configuration of a digital signal decoding apparatus according to an embodiment of the present invention.
  • the digital signal decoding apparatus 200 illustrated in FIG. 2 includes an envelope decoder 210, an envelope inverse quantizer 220, a spectrum decoder 230, a spectrum denormalizer 240, and an inverse transformer 250. can do.
  • Each component may be integrated into at least one or more modules and implemented as at least one or more processors (not shown).
  • the digital signal may mean a media signal such as a video, an image, audio or voice, or a sound representing a mixed signal of audio and voice.
  • the audio signal will be referred to as corresponding to the encoding apparatus of FIG. 1. .
  • the envelope decoder 210 receives a bitstream through a communication channel or a network, and losslessly decodes a quantization delta value of each subband included in the bitstream to quantize an envelope value for each subband. It is possible to restore the index n q .
  • the envelope inverse quantization unit 220 performs inverse quantization on the quantization index n q of the decoded envelope value for each subband, thereby dequantizing the envelope value. Can be obtained.
  • the spectrum decoder 230 may restore the normalized transform coefficient by performing lossless decoding and inverse quantization on the received bitstream. For example, if FPC is used in the encoder, the entire set of Can be lossless decoded and dequantized. In this case, the average energy alignment of each subband may be performed by Equation 7 using an optimal multiplier (G).
  • G optimal multiplier
  • the spectrum decoder 230 may perform lossless decoding and inverse quantization using an allocated number of bits finally determined based on an envelope value in each subband unit.
  • the spectral denormalizer 240 performs denormalization on the normalized transform coefficient provided from the spectral decoder 210 by using the dequantized envelope value provided from the envelope dequantizer 220. Can be. For example, when FPC is used in the encoding apparatus, energy alignment is performed. Dequantized envelope value for Using Perform denormalization as shown in By performing denormalization, the original spectral average energy is restored for each subband.
  • the inverse transform unit 250 may restore the audio signal in the time domain by performing an inverse transform on the transform coefficient provided from the spectral denormalization unit 240. For example, spectrum components using Equation 8 corresponding to Equation 1 below. The inverse transform may be performed on to obtain an audio signal s j in the time domain.
  • the envelope quantization unit 130 quantizes the envelope value of each subband at a log scale whose base is c, the boundary B i of the quantization region corresponding to the quantization index is , Approximating points (A i ), or quantization indices, , Quantization resolution (r) ,
  • the quantization step size Can be expressed as:
  • the quantization index n q of the envelope value n for each subband may be obtained as in Equation 3 above.
  • FIGS. 3A and 4A illustrate a signal-to-ratio (SNR) measure for quantization, that is, a quantization error, as shown in FIGS. 3A and 4A has different values for the left boundary and the right boundary from the approximation point.
  • SNR signal-to-ratio
  • 4A illustrates quantization of an unoptimized logarithmic scale (base is 2) with a quantization resolution of 1 and a quantization step size of 6.02 dB. It can be seen that the quantization errors SNR L and SNR R from the approximation point at the left and right boundaries of the quantization region differ from each other by 7.65 dB and 10.66 dB.
  • the total quantization error in the quantization region corresponding to each quantization index may be minimized.
  • the total quantization error in the quantization region may be minimum if the quantization errors obtained at the left and right boundaries of the quantization region from the approximation point are the same.
  • the boundary shift of the quantization region can be obtained by varying the rounding coefficient b.
  • the quantization errors SNR L and SNR R for the approximation point at the left and right boundaries of the quantization region corresponding to the quantization index may be represented by Equation 9 below.
  • Exponential shifts for the left and right boundaries of the quantization region corresponding to the quantization index may be expressed by Equation 10 through parameters b L and b R.
  • S i is an exponent for the boundary of the quantization region corresponding to the quantization index i
  • b L and b R represent the exponential shift for the approximation point at the left and right boundaries of the quantization region, respectively.
  • Equation 11 The sum of the exponential shifts for the approximation points at the left and right boundaries of the quantization region is equal to the quantization resolution, and thus can be expressed as Equation 11 below.
  • Equation 9 may be expressed as Equation 12 below.
  • the parameter b L can be determined as shown in Equation 13 below.
  • Equation 14 the rounding coefficient b L may be expressed as Equation 14 below.
  • 3B shows quantization of an optimized logarithmic scale (base is 2) with a quantization interval of 3.01 dB and a quantization resolution of 0.5. It can be seen that the quantization errors SNR L and SNR R from the approximation point at the left and right boundaries of the quantization region are equal to 15.31 dB.
  • 4b shows quantization of an optimized logarithmic scale (base is 2) with a quantization interval of 6.02 dB and a quantization resolution of 1.0. It can be seen that the quantization errors SNR L and SNR R from the approximation point at the left and right boundaries of the quantization region are equal to 9.54 dB.
  • bit rate-distortion function H (D) can be used as a reference for comparative analysis of various quantization methods.
  • the entropy of the quantization index set can be regarded as bit rate, has dimension b / s, and the SNR of dB scale can be regarded as a distortion measure.
  • 5A is a comparison graph in which quantization is performed on a normal distribution, in which a solid line represents a bit rate-distortion function for optimizing a log scale that is not optimized, and a dotted line represents a bit rate-distortion function for quantization of an optimized log scale.
  • 5B is a comparison graph in which quantization is performed on a uniform distribution, where the solid line represents the bit rate-distortion function for optimizing the log scale that is not optimized, and the dotted line represents the bit rate-distortion function for quantization of the optimized log scale. Samples of normal and uniform distributions are generated using a random number of sensors according to the corresponding law of distribution, zero expected value and single variance.
  • the rate-distortion function H (D) can be calculated for various quantization resolutions. As shown in Figs. 5A and 5B, the dotted line is located under the solid line, which means that the performance of the optimized log scale quantization is superior to the non-optimized log scale quantization.
  • quantization can be performed with less quantization error for the same bit rate, or quantization can be performed with fewer bits with the same quantization error for the same bit rate.
  • Table 1 shows the unoptimized log scale quantization
  • Table 2 shows the optimized log scale quantization, respectively.
  • the characteristic value SNR is improved by 0.1 dB at quantization resolution 0.5, 0.45 dB at quantization resolution 1.0, and 1.5 dB at quantization resolution 2.0.
  • the quantization method according to an embodiment does not increase complexity because only the lookup table of the quantization index needs to be updated according to the rounding coefficient.
  • Context-based encoding of envelope values uses delta-coding.
  • the quantization delta value for the envelope value between the current subband and the previous subband may be expressed as in Equation 16 below.
  • d (i) is the quantization delta value for subband i + 1
  • n q (i) is the quantization index of the envelope value for subband i
  • n q (i + 1) is the subband ( i + 1) represents the quantization index of the envelope value.
  • the quantization delta value d (i) for each subband is limited to the range [-15, 16]. First, a negative quantization delta value is adjusted as described below, and then a positive quantization delta value is adjusted.
  • n q (0), d (0), d (1), d (2), ..., d (N-2) ) Is obtained.
  • the quantization delta value of the current subband is encoded using a context model.
  • the quantization delta value of the previous subband may be used as the context. Since n q (0) for the first subband exists in the range of [0,31], lossless coding is performed using 5 bits as it is.
  • n q (0) for the first subband is used in the context of d (0), a value obtained by using a predetermined reference value from n q (0) can be used.
  • d (i) when Huffman coding for d (i), d (i-1) may be used as the context, and when Huffman coding for d (0), n q (0) -reference value may be used as the context.
  • a predetermined constant may be used, and may be set to an optimal value through simulation or experimentally in advance.
  • the reference value may be included in the bitstream and transmitted, or may be previously provided to the encoding apparatus and the decoding apparatus.
  • the envelope encoder 140 divides a range of quantization delta values of a previous subband used as a context into a plurality of groups, and quantizes the delta of the current subband based on a Huffman table predetermined for each group. Huffman coding on a value can be performed.
  • the Huffman table may be generated through a training process using a large database, for example, may collect data based on a predetermined criterion, and generate the Huffman table based on the collected data.
  • data about the frequency of the quantization delta value of the current subband may be collected to generate a Huffman table for each group.
  • probability distributions in three groups are shown in FIG. 6. It can be seen that the probability distributions of groups # 1 and # 3 are similar and are substantially inverted (or flipped) by the x-axis. This means that the same probabilistic model may be used for the two groups # 1 and # 3 without loss of coding efficiency. That is, group # 1 may use the same Huffman table as group # 3. Accordingly, Huffman table 1 for group # 2 and Huffman table 2 shared by group # 1 and group # 3 may be used. In this case, the index of the code for the group # 1 may be expressed in reverse with respect to the group # 3.
  • the Huffman table for the quantization delta value of the current subband is determined as group # 1 based on the quantization delta value of the previous subband, which is the context, the quantization delta value d (i) of the current subband is inverted at the encoding end.
  • the A value may be set to a value that makes the probability distributions of the group # 1 and the group # 3 symmetric.
  • the A value is not extracted in the encoding and decoding process, and may be set to an optimum value in advance.
  • the Huffman table of Group # 1 may be used instead of the Huffman table of Group # 3, and the quantization delta value may be changed in Group # 3.
  • the A value may use 31.
  • FIG. 7 illustrates a context-based Huffman encoding operation in the envelope encoder 140 of FIG. 1, using two Huffman tables determined by probability distributions of three groups of quantization delta values.
  • the Huffman table 1 for group # 2 is used as a context
  • the quantization delta value d (i-1) of the previous subband is used as the context.
  • Huffman table 2 for and group # 3 is used.
  • step 710 it is determined whether the quantization delta value d (i-1) of the previous subband belongs to group # 2.
  • step 720 if the quantization delta value d (i-1) of the previous subband belongs to the group # 2 as a result of the determination in step 710, the quantization delta value d (i) of the current subband from the Huffman table 1. Select the code for.
  • step 730 if the quantization delta value d (i-1) of the previous subband does not belong to group # 2 as a result of the determination in step 710, the quantization delta value d (i-1) of the previous subband is determined. It is determined whether it belongs to group # 1.
  • step 740 when the quantization delta value d (i-1) of the previous subband does not belong to group # 1, that is, in group # 3, in step 730, the Huffman table 2 determines the current subband. Select the code for the quantization delta value d (i).
  • step 750 if the quantization delta value d (i-1) of the previous subband belongs to group # 1 as a result of the determination in step 730, the quantization delta value d (i) of the current subband is inverted. Select a code for the quantization delta value d '(i) of the current subband inverted from Huffman table 2.
  • Huffman encoding is performed on the quantization delta value d (i) of the current subband using the code selected in operation 720, 740, or 750.
  • FIG. 8 is a diagram illustrating a context-based Huffman decoding operation of the envelope decoder 210 of FIG. 2 and uses two Huffman tables determined by probability distributions of three groups of quantization delta values as in FIG. 7.
  • the quantization delta value d (i) of the current subband the Huffman table 1 for group # 2 is used as the context, and the quantization delta value d (i-1) of the previous subband is used as the context.
  • Huffman table 2 for and group # 3 is used.
  • step 810 it is determined whether the quantization delta value d (i-1) of the previous subband belongs to group # 2.
  • step 820 when the quantization delta value d (i-1) of the previous subband belongs to the group # 2 as a result of the determination in step 810, the quantization delta value d (i) of the current subband from the Huffman table 1. Select the code for.
  • step 830 when the quantization delta value d (i-1) of the previous subband does not belong to the group # 2 as a result of the determination in step 810, the quantization delta value d (i-1) of the previous subband is determined. It is determined whether it belongs to group # 1.
  • step 840 when the quantization delta value d (i-1) of the previous subband does not belong to group # 1, that is, when belonging to group # 3, in step 830, the Huffman table 2 determines the current subband. Select the code for the quantization delta value d (i).
  • step 850 if the quantization delta value d (i-1) of the previous subband belongs to the group # 1, in step 830, the quantization delta value d (i) of the current subband is inverted. Select a code for the quantization delta value d '(i) of the current subband inverted from Huffman table 2.
  • step 860 Huffman decoding is performed on the quantization delta value d (i) of the current subband using the code selected in steps 820, 840, or 850.
  • FIG. 9 is a block diagram illustrating a configuration of a multimedia apparatus including an encoding module according to an embodiment of the present invention.
  • the multimedia apparatus 900 illustrated in FIG. 9 may include a communication unit 910 and an encoding module 930.
  • the storage unit 950 may further include an audio bitstream according to the use of the audio bitstream obtained as a result of the encoding.
  • the multimedia device 900 may further include a microphone 970. That is, the storage unit 950 and the microphone 970 may be provided as an option.
  • the multimedia device 900 illustrated in FIG. 9 may further include an arbitrary decoding module (not shown), for example, a decoding module for performing a general decoding function or a decoding module according to an embodiment of the present invention.
  • the encoding module 930 may be integrated with other components (not shown) included in the multimedia device 900 and implemented as at least one or more processors (not shown).
  • the communication unit 910 may receive at least one of audio and an encoded bitstream provided from the outside, or may transmit at least one of reconstructed audio and an audio bitstream obtained as a result of encoding of the encoding module 930. Can be.
  • the communication unit 910 includes wireless Internet, wireless intranet, wireless telephone network, wireless LAN (LAN), Wi-Fi, Wi-Fi Direct (WFD), 3G (Generation), 4G (4 Generation), and Bluetooth.
  • Wireless networks such as Bluetooth, Infrared Data Association (IrDA), Radio Frequency Identification (RFID), Ultra WideBand (UWB), Zigbee, Near Field Communication (NFC), wired telephone networks, wired Internet It is configured to send and receive data with external multimedia device through wired network.
  • the encoding module 930 converts an audio signal of a time domain provided through the communication unit 910 or the microphone 970 into an audio spectrum of a frequency domain, and, for each subband, Obtains a low envelope, performs quantization on the envelope in units of subbands, obtains a difference value between quantized envelopes of adjacent subbands, and uses a difference value of a previous subband as a context to make a difference in the current subband.
  • a bitstream may be generated by performing lossless encoding on a value.
  • the encoding module 930 adjusts a boundary of the quantization region so that the total quantization error in the quantization region corresponding to a predetermined quantization index is minimized when the envelope is quantized, and is updated therefrom. Quantization can be performed using.
  • the storage unit 950 may store the encoded bitstream generated by the encoding module 930. On the other hand, the storage unit 950 may store various programs necessary for the operation of the multimedia device 900.
  • the microphone 970 may provide a user or an external audio signal to the encoding module 930.
  • FIG. 10 is a block diagram showing a configuration of a multimedia device including a decoding module according to an embodiment of the present invention.
  • the multimedia apparatus 1000 illustrated in FIG. 10 may include a communication unit 1010 and a decoding module 1030.
  • the storage unit 1050 may further include a storage unit 1050 for storing the restored audio signal according to the use of the restored audio signal obtained as a result of the decoding.
  • the multimedia apparatus 1000 may further include a speaker 1070. That is, the storage unit 1050 and the speaker 1070 may be provided as an option.
  • the multimedia apparatus 1000 illustrated in FIG. 10 may further include an arbitrary encoding module (not shown), for example, an encoding module for performing a general encoding function or an encoding module according to an embodiment of the present invention.
  • the decoding module 1030 may be integrated with other components (not shown) included in the multimedia apparatus 1000 and implemented as at least one or more processors (not shown).
  • the communication unit 1010 receives at least one of an encoded bitstream and an audio signal provided from the outside or at least one of a reconstructed audio signal obtained as a result of decoding of the decoding module 1030 and an audio bitstream obtained as a result of encoding. You can send one. Meanwhile, the communication unit 1010 may be implemented substantially similarly to the communication unit 910 of FIG. 9.
  • the decoding module 1030 may receive a bitstream provided through the communication unit 1010, obtain a difference value between quantized envelopes of adjacent subbands from the bitstream, and obtain a difference value of a previous subband.
  • Lossless decoding may be performed on a difference value of a current subband using a context, and dequantization may be performed by obtaining the quantized envelope in subband units from a difference value of a current subband restored as a result of lossless decoding.
  • the storage unit 1050 may store the restored audio signal generated by the decoding module 1030. Meanwhile, the storage unit 1050 may store various programs necessary for operating the multimedia apparatus 1000.
  • the speaker 1070 may output the restored audio signal generated by the decoding module 1030 to the outside.
  • FIG. 11 is a block diagram illustrating a configuration of a multimedia apparatus including an encoding module and a decoding module according to an embodiment of the present invention.
  • the multimedia device 1100 illustrated in FIG. 11 may include a communication unit 1110, an encoding module 1120, and a decoding module 1130.
  • the storage unit 1140 may further include an audio bitstream or a restored audio signal according to a use of the audio bitstream obtained from the encoding or the restored audio signal obtained as the decoding result.
  • the multimedia device 1100 may further include a microphone 1150 or a speaker 1160.
  • the encoding module 1120 and the decoding module 1130 may be integrated with other components (not shown) included in the multimedia device 1100 and implemented as at least one processor (not shown).
  • FIG. 11 overlaps with the components of the multimedia apparatus 900 illustrated in FIG. 9 or the components of the multimedia apparatus 1000 illustrated in FIG. 10, and thus a detailed description thereof will be omitted.
  • a broadcast or music dedicated device including a voice communication terminal including a telephone, a mobile phone, a TV, an MP3 player, or the like, or a voice communication dedicated
  • the terminal may include a fusion terminal device of a broadcasting or music dedicated device, but is not limited thereto.
  • the multimedia device 900, 1000, 1100 may be used as a client, a server, or a transducer disposed between the client and the server.
  • the multimedia device (900, 1000, 1100) is a mobile phone, for example, although not shown, a user input unit such as a keypad, a display unit for displaying information processed in the user interface or mobile phone, controls the overall functions of the mobile phone It may further include a processor.
  • the mobile phone may further include a camera unit having an imaging function and at least one component that performs a function required by the mobile phone.
  • the multimedia device (900, 1000, 1100) is a TV, for example, although not shown, further comprising a user input unit, such as a keypad, a display unit for displaying the received broadcast information, a processor for controlling the overall functions of the TV Can be.
  • the TV may further include at least one or more components that perform a function required by the TV.
  • the method according to the embodiments can be written in a computer executable program and can be implemented in a general-purpose digital computer operating the program using a computer readable recording medium.
  • data structures, program instructions, or data files that can be used in the above-described embodiments of the present invention may be recorded on a computer-readable recording medium through various means.
  • the computer-readable recording medium may include all kinds of storage devices in which data that can be read by a computer system is stored. Examples of computer-readable recording media include magnetic media, such as hard disks, floppy disks, and magnetic tape, optical media such as CD-ROMs, DVDs, floppy disks, and the like.
  • Such as magneto-optical media, and hardware devices specifically configured to store and execute program instructions such as ROM, RAM, flash memory, and the like.
  • the computer-readable recording medium may also be a transmission medium for transmitting a signal specifying a program command, a data structure, or the like.
  • Examples of program instructions may include high-level language code that can be executed by a computer using an interpreter as well as machine code generated by a compiler.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

오디오 부호화방법은 오디오 스펙트럼에 대하여, 소정의 서브밴드 단위로 엔벨로프를 획득하는 단계; 상기 서브밴드 단위로, 상기 엔벨로프에 대하여 양자화하는 단계; 인접한 서브밴드에 대하여 양자화된 엔벨로프간의 차이값을 구하고, 이전 서브밴드의 차이값을 컨텍스트로 사용하여 현재 서브밴드의 차이값에 대하여 무손실 부호화를 수행하는 단계를 포함한다. 이에 따르면, 한정된 비트 범위에서 오디오 스펙트럼의 엔벨로프 정보를 부호화하는데 소요되는 비트수를 감소시킴으로써 실제 스펙트럼 성분을 부호화하는데 소요되는 비트수를 증가시킬 수 있다.

Description

오디오 부호화방법 및 장치, 오디오 복호화방법 및 장치, 그 기록매체 및 이를 채용하는 멀티미디어 기기
본 발명은 오디오 부호화/복호화에 관한 것으로서, 보다 구체적으로는, 복잡도의 증가 및 복원된 음질의 열화없이, 한정된 비트 범위에서 오디오 스펙트럼의 엔벨로프 정보를 부호화하는데 소요되는 비트수를 감소시킴으로써 실제 스펙트럼 성분을 부호화하는데 소요되는 비트수를 증가시킬 수 있는 오디오 부호화방법 및 장치, 오디오 복호화방법 및 장치, 그 기록매체 및 이를 채용하는 멀티미디어 기기에 관한 것이다.
오디오 신호의 부호화시 실제의 스펙트럼 성분 이외에 엔벨로프와 같은 부가정보가 비트스트림에 포함될 수 있다. 이때, 손실을 최소화하면서 부가정보의 부호화에 할당되는 비트수를 감소시킴으로써, 실제의 스펙트럼 성분의 부호화에 할당되는 비트수를 증가시킬 수 있다.
즉, 오디오 신호를 부호화하거나 복호화하는 경우, 특히 낮은 비트율에서 한정된 비트를 효율적으로 이용함으로써, 해당 비트 범위에서 최상의 음질을 갖는 오디오 신호를 복원하는 것이 요구된다.
본 발명이 해결하고자 하는 과제는 복잡도의 증가 및 복원된 음질의 열화없이, 한정된 비트 범위에서 오디오 스펙트럼의 엔벨로프 정보를 부호화하는데 소요되는 비트수를 감소시키는 반면 실제 스펙트럼 성분을 부호화하는데 소요되는 비트수를 증가시킬 수 있는 오디오 부호화방법 및 장치, 오디오 복호화방법 및 장치, 그 기록매체와 이를 채용하는 멀티미디어 기기를 제공하는데 있다.
상기 과제를 달성하기 위한 본 발명의 일실시예에 따른 오디오 부호화방법은, 오디오 스펙트럼에 대하여, 소정의 서브밴드 단위로 엔벨로프를 획득하는 단계; 상기 서브밴드 단위로, 상기 엔벨로프에 대하여 양자화하는 단계; 인접한 서브밴드에 대하여 양자화된 엔벨로프간의 차이값을 구하고, 이전 서브밴드의 차이값을 컨텍스트로 사용하여 현재 서브밴드의 차이값에 대하여 무손실 부호화를 수행하는 단계를 포함할 수 있다.
상기 과제를 달성하기 위한 본 발명의 일실시예에 따른 오디오 부호화장치는, 오디오 스펙트럼에 대하여, 소정의 서브밴드 단위로 엔벨로프를 획득하는 엔벨로프 획득부; 상기 서브밴드 단위로, 상기 엔벨로프에 대하여 양자화하는 엔벨로프 양자화부; 인접한 서브밴드에 대하여 양자화된 엔벨로프간의 차이값을 구하고, 이전 서브밴드의 차이값을 컨텍스트로 사용하여 현재 서브밴드의 차이값에 대하여 무손실 부호화를 수행하는 엔벨로프 부호화부; 상기 오디오 스펙트럼에 대하여 양자화 및 무손실 부호화를 수행하는 스펙트럼 부호화부를 포함할 수 있다.
상기 과제를 달성하기 위한 본 발명의 일실시예에 따른 오디오 복호화방법은, 비트스트림으로부터 인접한 서브밴드에 대하여 양자화된 엔벨로프간의 차이값을 구하고, 이전 서브밴드의 차이값을 컨텍스트로 사용하여 현재 서브밴드의 차이값에 대하여 무손실 복호화를 수행하는 단계; 및 상기 무손실 복호화결과 복원된 현재 서브밴드의 차이값으로부터 서브밴드 단위로 상기 양자화된 엔벨로프를 구하여 역양자화를 수행하는 단계를 포함할 수 있다.
상기 과제를 달성하기 위한 본 발명의 일실시예에 따른 오디오 복호화장치는, 비트스트림으로부터 인접한 서브밴드에 대하여 양자화된 엔벨로프간의 차이값을 구하고, 이전 서브밴드의 차이값을 컨텍스트로 사용하여 현재 서브밴드의 차이값에 대하여 무손실 복호화를 수행하는 엔벨로프 복호화부; 상기 무손실 복호화결과 복원된 현재 서브밴드의 차이값으로부터 서브밴드 단위로 상기 양자화된 엔벨로프를 구하여 역양자화를 수행하는 엔벨로프 역양자화부; 및 상기 비트스트림에 포함된 스펙트럼 성분에 대하여 무손실 복호화 및 역양자화를 수행하는 스펙트럼 복호화부를 포함할 수 있다.
상기 과제를 달성하기 위한 본 발명의 일실시예에 따른 멀티미디어 기기는, 오디오 스펙트럼에 대하여, 소정의 서브밴드 단위로 엔벨로프를 획득하고, 상기 서브밴드 단위로, 상기 엔벨로프에 대하여 양자화하고, 인접한 서브밴드에 대하여 양자화된 엔벨로프간의 차이값을 구하고, 이전 서브밴드의 차이값을 컨텍스트로 사용하여 현재 서브밴드의 차이값에 대하여 무손실 부호화를 수행하는 부호화모듈을 포함할 수 있다.
상기 멀티미디어 기기는 비트스트림으로부터 인접한 서브밴드에 대하여 양자화된 엔벨로프간의 차이값을 구하고, 이전 서브밴드의 차이값을 컨텍스트로 사용하여 현재 서브밴드의 차이값에 대하여 무손실 복호화를 수행하고, 상기 무손실 복호화결과 복원된 현재 서브밴드의 차이값으로부터 서브밴드 단위로 상기 양자화된 엔벨로프를 구하여 역양자화를 수행하는 복호화모듈을 더 포함할 수 있다.
복잡도의 증가 및 복원된 음질의 열화없이, 한정된 비트 범위에서 오디오 스펙트럼의 엔벨로프 정보를 부호화하는데 소요되는 비트수를 감소시킴으로써 실제 스펙트럼 성분을 부호화하는데 소요되는 비트수를 증가시킬 수 있다.
도 1은 본 발명의 일실시예에 따른 디지털신호 처리장치의 구성을 나타낸 블록도이다.
도 2는 본 발명의 다른 실시예에 따른 디지털신호 처리장치의 구성을 나타낸 블록도이다.
도 3a 및 도 3b는 양자화 해상도가 0.5이고 양자화 스텝사이즈가 3.01인 경우, 최적화되지 않은 로그 스케일과 최적화된 로그 스케일을 비교한 도면이다.
도 4a 및 도 4b는 양자화 해상도가 1이고 양자화 스텝사이즈가 6.02인 경우, 최적화되지 않은 로그 스케일과 최적화된 로그 스케일을 비교한 도면이다.
도 5는 최적화되지 않은 로그 스케일의 양자화 결과와 최적화된 로그 스케일의 양자화 결과를 비교한 도면이다.
도 6은 이전 서브밴드의 양자화 델타값을 컨텍스트로 사용하는 경우, 선택되는 3개 그룹의 확률 분포를 나타낸 도면이다.
도 7은 도 1의 엔벨로프 부호화부에서의 컨텍스트 기반 부호화 동작을 설명하는 도면이다.
도 8은 도 2의 엔벨로프 복호화부에서의 컨텍스트 기반 복호화 동작을 설명하는 도면이다.
도 9는 본 발명의 일실시예에 따른 부호화모듈을 포함하는 멀티미디어 기기의 구성을 나타낸 블록도이다.
도 10은 본 발명의 일실시예에 따른 복호화모듈을 포함하는 멀티미디어 기기의 구성을 나타낸 블록도이다.
도 11은 본 발명의 일실시예에 따른 부호화모듈과 복호화모듈을 포함하는 멀티미디어 기기의 구성을 나타낸 블록도이다.
본 발명은 다양한 변환을 가할 수 있고 여러가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 구체적으로 설명하고자 한다. 그러나 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 기술적 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해될 수 있다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 구성요소들이 용어들에 의해 한정되는 것은 아니다. 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
본 발명에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 본 발명에서 사용한 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나 이는 당 분야에 종사하는 기술자의 의도, 판례, 또는 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 발명에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
이하, 본 발명의 실시예들을 첨부 도면을 참조하여 상세히 설명하기로 하며, 첨부 도면을 참조하여 설명함에 있어, 동일하거나 대응하는 구성요소는 동일한 도면번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.
도 1은 본 발명의 일실시예에 따른 디지털신호 처리장치의 구성을 나타낸 블록도이다.
도 1에 도시된 디지털신호 처리장치(100)는 변환부(110), 엔벨로프 획득부(120), 엔벨로프 양자화부(130), 엔벨로프 부호화부(140), 스펙트럼 정규화부(150) 및 스펙트럼 부호화부(160)를 포함할 수 있다. 각 구성요소는 적어도 하나 이상의 모듈로 일체화되어 적어도 하나의 이상의 프로세서(미도시)로 구현될 수 있다. 여기서, 디지털신호는 비디오, 이미지, 오디오 혹은 음성, 혹은 오디오와 음성의 혼합신호를 나타내는 사운드 등의 미디어 신호를 의미할 수 있으나, 이하에서는 설명의 편의를 위하여 오디오 신호를 지칭하기로 한다.
도 1을 참조하면, 변환부(130)는 시간 도메인의 오디오 신호를 주파수 도메인으로 변환하여 오디오 스펙트럼을 생성할 수 있다. 이때, 시간/주파수 도메인 변환은 MDCT(Modified Discrete Cosine Transform) 등과 같은 공지된 다양한 방법을 사용하여 수행할 수 있다. 일예를 들어, 시간 도메인의 오디오신호에 대한 MDCT는 하기 수학식 1에서와 같이 수행될 수 있다.
수학식 1
Figure PCTKR2012004362-appb-M000001
여기서, N은 한 프레임에 포함된 샘플의 개수 즉 프레임 사이즈, hj는 적용된 윈도우, sj는 시간 도메인의 오디오신호, xi는 MDCT 변환계수를 나타낸다. 한편, 수학식 1의 코사인 윈도우 대신 사인 윈도우 예를 들면,
Figure PCTKR2012004362-appb-I000001
가 사용될 수도 있다.
변환부(110)로부터 얻어지는 오디오 스펙트럼의 변환계수들, 예를 들면 MDCT 계수 xi는 엔벨로브 획득부(120)로 제공된다.
엔벨로브 획득부(120)는 변환부(110)로부터 제공되는 변환계수들로부터, 소정의 서브밴드 단위로 엔벨로프 값을 획득할 수 있다. 서브밴드는 오디오 스펙트럼의 샘플들을 그루핑한 단위로서, 임계대역을 반영하여 균일 혹은 비균일 길이를 가질 수 있다. 비균일한 경우, 한 프레임에 대하여 시작 샘플에서부터 마지막 샘플에 이르기까지 서브밴드에 포함되는 샘플의 개수가 점점 증가하도록 서브밴드를 설정할 수 있다. 또한 다중 비트율을 지원하는 경우, 서로 다른 비트율에서 대응하는 각 서브밴드에 포함되는 샘플의 갯수가 동일해지도록 설정할 수 있다. 한 프레임에 포함되는 서브밴드의 개수 혹은 서브밴드에 포함되는 샘플의 개수는 미리 결정될 수 있다. 엔벨로프 값은 서브밴드에 포함되는 변환계수들의 평균 진폭, 평균 에너지, 파워 혹은 norm 값 등을 의미할 수 있다.
각 서브밴드의 엔벨로프 값은 하기 수학식 2에 근거하여 산출할 수 있으나, 이에 한정되는 것은 아니다.
수학식 2
Figure PCTKR2012004362-appb-M000002
여기서, w는 서브밴드에 포함되는 변환계수의 개수 즉 서브밴드 사이즈, xi는 변환계수, n은 서브밴드의 엔벨로프 값을 나타낸다.
엔벨로프 양자화부(130)는 각 서브밴드의 엔벨로프 값(n)에 대하여 최적화된 로그 스케일(logarithmic scale)로 양자화를 수행할 수 있다. 엔벨로프 양자화부(130)로부터 얻어지는 각 서브밴드에 대한 엔벨로프 값의 양자화 인덱스(nq)는 예를 들면 하기 수학식 3에 의해 얻어질 수 있다.
수학식 3
Figure PCTKR2012004362-appb-M000003
여기서, b는 라운딩 계수로서 최적화되기 이전의 초기값은 r/2이다. c는 로그 스케일의 베이스, r은 양자화 해상도를 각각 나타낸다.
실시예에 따르면, 엔벨로프 양자화부(130)에서는 각 양자화 인덱스에 대응하는 양자화 영역내에서의 전체 양자화 오차가 최소가 되도록, 각 양자화 인덱스에 대응하는 양자화 영역의 좌측 및 우측 경계를 가변시킬 수 있다. 이를 위하여, 각 양자화 인덱스에 대응하는 양자화 영역의 좌측 및 우측 경계와 양자화 인덱스사이에서 각각 얻어지는 좌측 및 우측 양자화 오차가 동일해지도록 라운딩 계수(b)를 조정한다. 엔벨로프 양자화부(130)의 세부적인 동작에 대해서는 후술하기로 한다.
한편, 각 서브밴드에 대한 엔벨로프 값의 양자화 인덱스(nq)의 역양자화는 하기 수학식 4에 의해 수행될 수 있다.
수학식 4
Figure PCTKR2012004362-appb-M000004
여기서,
Figure PCTKR2012004362-appb-I000002
는 각 서브밴드에 대하여 역양자화된 엔벨로프 값, r은 양자화 해상도, c는 로그 스케일의 베이스를 각각 나타낸다.
엔벨로프 양자화부(130)에서 얻어지는 각 서브밴드에 대한 엔벨로프 값의 양자화 인덱스(nq)는 엔벨로프 부호화부(140)로, 각 서브밴드에 대한 역양자화된 엔벨로프 값(
Figure PCTKR2012004362-appb-I000003
)은 스펙트럼 정규화부(150)로 제공될 수 있다.
한편, 도시되지 않았으나, 각 서브밴드 단위로 구해지는 엔벨로프 값은 정규화된 스펙트럼 즉, 정규화된 변환계수를 부호화하는데 필요로 하는 비트 할당에 사용될 수 있다. 이 경우, 각 서브밴드 단위로 양자화 및 무손실 부호화된 엔벨로프 값은 비트스트림에 포함되어 복호화장치로 제공될 수 있다. 각 서브밴드의 엔벨로프 값을 이용한 비트할당과 관련하여, 부호화장치와 복호화장치에서 동일한 프로세스를 이용할 수 있도록 역양자화된 엔벨로프 값을 사용할 수 있다.
엔벨로프 값으로서 norm 값을 예로 들 경우, 각 서브밴드 단위로 norm 값을 이용하여 마스킹 임계치를 계산하고, 마스킹 임계치를 이용하여 지각적으로 필요한 비트수를 예측할 수 있다. 즉, 마스킹 임계치는 JND(Just Noticeable Distortion)에 해당하는 값으로서, 양자화 잡음이 마스킹 임계치보다 작을 경우 지각적인 잡음을 느낄 수 없다. 따라서, 지각적인 잡음을 느낄 수 없도록 하는데 필요한 최소 비트수를 마스킹 임계치를 이용하여 계산할 수 있다. 일실시예로, 각 서브밴드 단위로, norm 값과 마스킹 임계치와의 비를 이용하여 SMR(Signal-to-Mask Ratio)를 계산하고, SMR에 대하여 6.025 dB ≒ 1 비트의 관계를 이용하여 마스킹 임계치를 만족하는 비트수를 예측할 수 있다. 여기서, 예측된 비트수는 지각적인 잡음을 느낄 수 없도록 하는데 필요한 최소 비트수이지만, 압축 측면에서 보면 예측된 비트수 이상으로 사용할 필요가 없으므로 서브밴드 단위로 허용되는 최대 비트수(이하, 허용 비트수라 약함)로 간주될 수 있다. 이때, 각 서브밴드의 허용 비트수는 소수점 단위로 표현될 수 있으나, 이에 한정되는 것은 아니다.
한편, 각 서브밴드 단위의 비트 할당은 norm 값을 이용하여 소수점 단위로 수행할 수 있으나, 이에 한정되는 것은 아니다. 이때, norm 값이 큰 서브밴드에서부터 순차적으로 비트를 할당하는데, 각 서브밴드의 norm 값에 대하여 각 서브밴드의 지각적 중요도에 따라서 가중치를 부여함으로써 지각적으로 중요한 서브밴드에 더 많은 비트가 할당되도록 조정할 수 있다. 지각적 중요도는 일예로 ITU-T G.719 에서와 같은 심리음향 가중을 통하여 결정할 수 있다.
다시 도 1로 돌아가서, 엔벨로프 부호화부(140)는 엔벨로프 양자화부(130)로부터 제공되는 각 서브밴드에 대한 엔벨로프 값의 양자화 인덱스(nq)에 대하여 양자화 델타값을 구하고, 양자화 델타값에 대하여 컨텍스트에 기반한 무손실 부호화를 수행하고, 그 결과를 비트스트림에 포함시켜 전송 및 저장에 사용할 수 있다. 여기서, 컨텍스트는 이전 서브밴드의 양자화 델타값을 사용할 수 있다. 엔벨로프 부호화부(140)의 세부적인 동작에 대해서는 후술하기로 한다.
스펙트럼 정규화부(150)는 각 서브밴드의 역양자화된 엔벨로프 값
Figure PCTKR2012004362-appb-I000004
을 이용하여,
Figure PCTKR2012004362-appb-I000005
에서와 같이 변환계수에 대하여 정규화를 수행함으로써, 각 서브밴드의 스펙트럼 평균 에너지가 1이 되도록 한다.
스펙트럼 부호화부(160)는 정규화된 변환계수에 대하여 양자화 및 무손실 부호화를 수행하고, 그 결과를 비트스트림에 포함시켜 전송 및 저장에 사용할 수 있다. 이때, 스펙트럼 부호화부(160)는 각 서브밴드 단위로 엔벨로프 값에 근거하여 최종적으로 결정된 할당 비트수를 이용하여, 정규화된 변환계수를 양자화 및 무손실 부호화할 수 있다.
정규화된 변환계수에 대한 무손실 부호화는 예를 들면 팩토리얼 펄스 코딩(Factorial Pulse Coding, 이하 FPC라 약함)을 사용할 수 있다. FPC는 단위 크기 펄스들(unit magnitude pulses)을 사용하여 정보 신호를 효율적으로 부호화하는 방법이다. FPC에 따르면, 정보 컨텐츠는 4가지 성분 즉, 넌-제로 펄스 위치의 개수, 넌-제로 펄스들의 위치, 넌-제로 펄스들의 크기, 및 넌-제로 펄스들의 부호로 나타낼 수 있다. 구체적으로, FPC는
Figure PCTKR2012004362-appb-I000006
, (여기서 m은 단위 크기 펄스들의 전체 개수)을 만족하면서 서브밴드의 원래의 벡터 y와 FPC 벡터
Figure PCTKR2012004362-appb-I000007
의 차이가 최소가 되는 MSE(mean square error) 기준에 근거하여
Figure PCTKR2012004362-appb-I000008
에 대한 최적 해(solution)을 결정할 수 있다.
최적 해는 하기 수학식 5에서와 같이, Lagrangian 함수를 이용하여 조건부 극값(conditional extreme value)을 찾음으로써 얻을 수 있다.
수학식 5
Figure PCTKR2012004362-appb-M000005
Figure PCTKR2012004362-appb-I000009
여기서, L은 Lagrangian 함수, m은 서브밴드에 있는 단위 크기 펄스의 전체 갯수, λ는 최적화계수인 Lagrange multiplier로서, 주어진 함수의 최소값을 찾기 위한 컨트롤 파라미터, yi는 정규화된 변환계수,
Figure PCTKR2012004362-appb-I000010
는 위치 i에서 요구되는 펄스의 최적 개수를 나타낸다.
FPC를 이용하여 무손실 부호화를 수행하면, 각 서브밴드별로 얻어진 전체 세트의
Figure PCTKR2012004362-appb-I000011
가 비트스트림에 포함되어 전송될 수 있다. 또한, 각 서브밴드에서 양자화 오차를 최소화시키고 평균 에너지의 얼라인먼트(alignment)를 수행하기 위한 최적 승수(optimum multiplier)도 비트스트림에 포함되어 전송될 수 있다. 최적 승수는 하기의 수학식 6에서와 같이 구할 수 있다.
수학식 6
Figure PCTKR2012004362-appb-M000006
여기서, D는 양자화 오차, G는 최적 승수를 나타낸다.
도 2는 본 발명의 일실시예에 따른 디지털 신호 복호화장치의 구성을 나타낸 블럭도이다.
도 2에 도시된 디지털 신호 복호화장치(200)는 엔벨로프 복호화부(210), 엔벨로프 역양자화부(220), 스펙트럼 복호화부(230), 스펙트럼 역정규화부(240), 역변환부(250)를 포함할 수 있다. 각 구성요소는 적어도 하나 이상의 모듈로 일체화되어 적어도 하나 이상의 프로세서(미도시)로 구현될 수 있다. 여기서, 디지털 신호는 비디오, 이미지, 오디오 혹은 음성, 혹은 오디오와 음성의 혼합신호를 나타내는 사운드 등의 미디어 신호를 의미할 수 있으나, 이하에서는 도 1의 부호화장치에 대응되도록 오디오신호를 지칭하기로 한다.
도 2를 참조하면, 엔벨로프 복호화부(210)는 통신 채널 혹은 네트워크를 통하여 비트스트림을 수신하고, 비트스트림에 포함된 각 서브밴드의 양자화 델타값을 무손실 복호화하여 각 서브밴드에 대한 엔벨로프 값의 양자화 인덱스(nq)를 복원할 수 있다.
엔벨로프 역양자화부(220)는 각 서브밴드에 대하여 복호화된 엔벨로프 값의 양자화 인덱스(nq)에 대하여 역양자화를 수행하여, 역양자화된 엔벨로프 값
Figure PCTKR2012004362-appb-I000012
을 얻을 수 있다.
스펙트럼 복호화부(230)는 수신된 비트스트림에 대하여 무손실 복호화 및 역양자화를 수행하여 정규화된 변환계수를 복원할 수 있다. 예를 들어, 부호화장치에서 FPC 를 사용한 경우 각 서브밴드에 대하여 전체 세트의
Figure PCTKR2012004362-appb-I000013
을 무손실 복호화 및 역양자화할 수 있다. 이때, 각 서브밴드의 평균 에너지 얼라인먼트는 최적 승수(G)를 이용하여 하기 수학식 7에 의해 수행될 수 있다.
수학식 7
Figure PCTKR2012004362-appb-M000007
스펙트럼 복호화부(230)는 도 1의 스펙트럼 부호화부(160)에서와 마찬가지로 각 서브밴드 단위로 엔벨로프 값에 근거하여 최종적으로 결정된 할당 비트수를 이용하여 무손실 복호화 및 역양자화를 수행할 수 있다.
스펙트럼 역정규화부(240)는 엔벨로프 역양자화부(220)로부터 제공되는 역양자화된 엔벨로프 값을 이용하여, 스펙트럼 복호화부(210)로부터 제공되는 정규화된 변환계수에 대하여 역정규화(denormalization)를 수행할 수 있다. 예를 들어, 부호화장치에서 FPC 를 사용한 경우 에너지 얼라인먼트가 수행된
Figure PCTKR2012004362-appb-I000014
에 대하여 역양자화된 엔벨로프 값
Figure PCTKR2012004362-appb-I000015
를 이용하여
Figure PCTKR2012004362-appb-I000016
에서와 같이 역정규화를 수행한다. 역정규화를 수행함으로써, 각 서브밴드에 대하여 원래의 스펙트럼 평균 에너지가 복원된다.
역변환부(250)는 스펙트럼 역정규화부(240)로부터 제공되는 변환계수에 대하여 역변환을 수행하여 시간 도메인의 오디오 신호를 복원할 수 있다. 예를 들어, 상기 수학식 1에 대응되는 하기 수학식 8을 이용하여 스펙트럼 성분
Figure PCTKR2012004362-appb-I000017
에 대하여 역변환을 수행하여 시간영역의 오디오신호 sj를 구할 수 있다.
수학식 8
Figure PCTKR2012004362-appb-M000008
이하에서는, 도 1에 도시된 엔벨로프 양자화부(130)의 동작에 대하여 좀 더 구체적으로 설명하기로 한다.
엔벨로프 양자화부(130)에서 각 서브밴드의 엔벨로프 값에 대하여 베이스가 c인 로그 스케일로 양자화를 수행할 경우, 양자화 인덱스에 대응하는 양자화 영역의 경계(Bi)는
Figure PCTKR2012004362-appb-I000018
, 근사화 포인트(approximating points, Ai) 즉, 양자화 인덱스는 , 양자화 해상도(r)는
Figure PCTKR2012004362-appb-I000020
, 양자화 스텝사이즈는
Figure PCTKR2012004362-appb-I000021
와 같이 나타낼 수 있다. 이때, 각 서브밴드에 대한 엔벨로프 값(n)의 양자화 인덱스(nq)는 상기 수학식 3에서와 같이 구해질 수 있다.
그런데, 최적화되지 않은 선형 스케일의 경우, 양자화 인덱스(nq)에 대응하는 양자화 영역의 좌측 및 우측 경계는 근사화 포인트로부터 서로 다른 거리만큼 떨어져서 존재한다. 이와 같은 차이로 인하여, 도 3a 및 도 4a에 도시된 바와 같이 양자화에 대한 SNR(signal-to-ratio) 척도 즉 양자화 오차가 근사화 포인트로부터 좌측 경계와 우측 경계에 대하여 서로 다른 값을 갖게 된다. 여기서, 도 3a는 양자화 해상도가 0.5, 양자화 스텝사이즈가 3.01 dB인 최적화되지 않은 로그 스케일(베이스는 2)의 양자화를 도시한 것이다. 양자화 영역의 좌측과 우측 경계에서 근사화 포인트로부터의 양자화 오차 SNRL 및 SNRR 은 14.46 dB와 15.96 dB 로 서로 다름을 알 수 있다. 도 4a은 양자화 해상도가 1, 양자화 스텝사이즈가 6.02 dB인 최적화되지 않은 로그 스케일(베이스는 2)의 양자화를 도시한 것이다. 양자화 영역의 좌측과 우측 경계에서 근사화 포인트로부터의 양자화 오차 SNRL 및 SNRR 은 7.65 dB와 10.66 dB 로 서로 다름을 알 수 있다.
일실시예에 따르면, 양자화 인덱스에 대응하는 양자화 영역의 경계를 가변시킴으로써, 각 양자화 인덱스에 대응하는 양자화 영역내의 전체 양자화 오차가 최소가 되도록 할 수 있다. 양자화 영역내 전체 양자화 오차는, 근사화 포인트로부터 양자화 영역의 좌측 및 우측 경계에서 얻어지는 양자화 오차가 동일할 경우 최소가 될 수 있다. 양자화 영역의 경계 쉬프트는 라운딩 계수 b를 가변시킴으로써 얻어질 수 있다.
양자화 인덱스에 대응하는 양자화 영역의 좌측 및 우측 경계에서 근사화 포인트에 대한 양자화 오차 SNRL, SNRR은 각각 다음 수학식 9와 같이 나타낼 수 있다.
수학식 9
Figure PCTKR2012004362-appb-M000009
여기서, c는 로그 스케일의 베이스, Si는 양자화 인덱스(i)에 대응하는 양자화 영역의 경계에 대한 지수(exponent)를 나타낸다.
양자화 인덱스에 대응하는 양자화 영역의 좌측 및 우측 경계에 대한 지수 쉬프트는 파라미터 bL 및 bR을 통하여 하기 수학식 10과 같이 나타낼 수 있다.
수학식 10
Figure PCTKR2012004362-appb-M000010
여기서, Si는 양자화 인덱스(i) 에 대응하는 양자화 영역의 경계에 대한 지수, bL 및 bR는 양자화 영역의 좌측 및 우측 경계에서 근사화 포인트에 대한 지수 쉬프트를 각각 나타낸다.
양자화 영역의 좌측 및 우측 경계에서 근사화 포인트에 대한 지수 쉬프트의 합은 양자화 해상도와 동일하며, 따라서 하기의 수학식 11과 같이 나타낼 수 있다.
수학식 11
Figure PCTKR2012004362-appb-M000011
한편, 양자화의 일반적인 특성에 근거하여, 라운딩 계수는 양자화 인덱스에 대응하는 양자화 영역의 좌측 경계에서 근사화 포인트에 대한 지수 쉬프트와 동일하다. 따라서, 상기 수학식 9는 다음 수학식 12와 같이 나타낼 수 있다.
수학식 12
Figure PCTKR2012004362-appb-M000012
양자화 인덱스에 대응하는 양자화 영역의 좌측 및 우측 경계에서 근사화 포인트에 대한 SNR을 동일하게 함으로써, 하기 수학식 13에서와 같이 파라미터 bL을 결정할 수 있다.
수학식 13
Figure PCTKR2012004362-appb-M000013
따라서, 라운딩 계수(bL)는 하기 수학식 14와 같이 나타낼 수 있다.
수학식 14
Figure PCTKR2012004362-appb-M000014
도 3b는 양자화간격이 3.01 dB이고, 양자화 해상도가 0.5인 최적화된 로그 스케일(베이스는 2)의 양자화를 도시한 것이다. 양자화 영역의 좌측과 우측 경계에서 근사화 포인트로부터의 양자화 오차 SNRL 및SNRR 은 15.31 dB로 동일함을 알 수 있다. 도 4b는 양자화간격이 6.02 dB이고, 양자화 해상도가 1.0인 최적화된 로그 스케일(베이스는 2)의 양자화를 도시한 것이다. 양자화 영역의 좌측과 우측 경계에서 근사화 포인트로부터의 양자화 오차 SNRL 및SNRR 은 9.54 dB로 동일함을 알 수 있다.
라운딩 계수 b=bL은 양자화 인덱스에 대응하는 양자화 영역의 좌측 및 우측 경계에서부터 근사화 포인트까지의 지수에 대한 거리를 결정한다. 따라서, 일실시예에 따른 양자화는 하기 수학식 15에서와 같이 수행될 수 있다.
수학식 15
Figure PCTKR2012004362-appb-M000015
베이스 2인 로그 스케일에 의하여 양자화를 수행한 실험결과는 도 5a 및 도 5b에 도시되어 있다. 정보 이론에 따르면, 비트율-왜곡 함수 H(D)은 다양한 양자화 방법을 비교 분석할 수 있는 기준으로 사용될 수 있다. 양자화 인덱스 세트의 엔트로피는 비트율로 간주할 수 있고, 차원 b/s를 가지며, dB 스케일의 SNR은 왜곡 척도로 간주할 수 있다.
도 5a는 정상 분포에 대하여 양자화를 수행한 비교 그래프로서, 실선은 최적화되지 않은 로그 스케일의 양자화에 대한 비트율-왜곡 함수를, 점선은 최적화된 로그 스케일의 양자화에 대한 비트율-왜곡 함수를 나타낸다. 도 5b는 균일 분포에 대하여 양자화를 수행한 비교 그래프로서, 실선은 최적화되지 않은 로그 스케일의 양자화에 대한 비트율-왜곡 함수를, 점선은 최적화된 로그 스케일의 양자화에 대한 비트율-왜곡 함수를 나타낸다. 정상 및 균일 분포의 샘플들은 대응하는 분포법칙, 제로 기대값 및 단일 분산에 따라서 랜덤 갯수의 센서를 이용하여 생성된다. 비트율-왜곡 함수 H(D)는 여러가지 양자화 해상도에 대하여 산출될 수 있다. 도 5a 및 도 5b에 도시된 바와 같이, 점선은 실선 아래에 위치하며, 이는 최적화된 로그 스케일의 양자화가 최적화되지 않은 로그 스케일의 양자화에 비해 그 성능이 우수함을 의미한다.
즉, 최적화된 로그 스케일의 양자화에 따르면, 동일한 비트율에 대하여 더 적은 양자화 오차로 양자화를 수행할 수 있거나, 동일한 비트율에 대하여 동일한 양자화 오차로 더 적은 비트수를 사용하여 양자화를 수행할 수 있다. 그 실험 결과는 다음 표 1 및 표 22에 도시되어 있으며, 표 1은 최적화되지 않은 로그 스케일의 양자화를, 표 2는 최적화된 로그 스케일의 양자화를 각각 나타낸다.
표 1
양자화 해상도 (r) 2.0 1.0 0.5
라운딩 계수 (b/r) 0.5 0.5 0.5
정상 분포
비트레이트 (H), b/s 1.6179 2.5440 3.5059
양자화 오차 (D), dB 6.6442 13.8439 19.9534
균일 분포
비트레이트 (H), b/s 1.6080 2.3227 3.0830
양자화 오차 (D), dB 6.6470 12.5018 19.3640
표 2
양자화 해상도 (r) 2.0 1.0 0.5
라운딩 계수 (b/r) 0.3390 0.4150 0.4569
정상 분포
비트레이트 (H), b/s 1.6069 2.5446 3.5059
양자화 오차 (D), dB 8.2404 14.2284 20.0495
균일 분포
비트레이트 (H), b/s 1.6345 2.3016 3.0449
양자화 오차 (D), dB 7.9208 12.8954 19.4922
표 1 및 표 2에 따르면, 특성값 SNR은 양자화 해상도 0.5에서는 0.1 dB 개선되었고, 양자화 해상도 1.0에서는 0.45 dB 개선되었고, 양자화 해상도 2.0에서는 1.5 dB 개선되었음을 알 수 있다.
일실시예에 따른 양자화 방법은 양자화 인덱스의 탐색 테이블만 라운딩 계수에 따라서 갱신시키면 되기 때문에 복잡도를 증가시키지 않는다.
다음, 도 1에 도시된 엔벨로프 복호화부(140)의 동작에 대하여 좀 더 구체적으로 설명하기로 한다.
엔벨로프 값의 컨텍스트 기반 부호화는 델타 부호화(delta-coding)을 사용한다. 현재 서브밴드와 이전 서브밴드간의 엔벨로프 값에 대한 양자화 델타값은 하기 수학식 16에서와 같이 나타낼 수 있다.
수학식 16
Figure PCTKR2012004362-appb-M000016
여기서, d(i)는 서브밴드(i+1)에 대한 양자화 델타값, nq(i)는 서브밴드(i)에 대한 엔벨로프 값의 양자화 인덱스, nq(i+1)는 서브밴드(i+1)에 대한 엔벨로프 값의 양자화 인덱스를 나타낸다.
각 서브밴드에 대한 양자화 델타값 d(i)는 범위 [-15, 16]로 제한되며, 하기에서와 같이 우선 음수인 양자화 델타값을 조정한 다음, 양수인 양자화 델타값을 조정한다.
먼저, 상기 수학식 16을 이용하여 양자화 델타값 d(i)을 고주파수 서브밴드에서부터 저주파수 서브밴드의 순서로 구한다. 이때, d(i) < -15이면, nq(i)=nq(i+1) + 15 (여기서 i=42,...,0)로 조정한다.
다음, 상기 수학식 16을 이용하여 양자화 델타값 d(i)를 저주파수 서브밴드에서부터 고주파수 서브밴드의 순서로 구한다. 이때, d(i) > 16이면, d(i) = 16, nq(i+1)=nq(i) + 16 (여기서 i=0,...,42)로 조정한다.
이후, 구해진 모든 양자화 델타값 d(i)에 옵셋 15를 더하여, 최종적으로 범위 [0,31]의 양자화 델타값을 생성한다.
상기 수학식 16에 따르면, 한 프레임에 대하여 N개의 서브밴드가 존재하는 경우, nq(0), d(0), d(1), d(2),...,d(N-2)가 구해진다. 현재 서브밴드의 양자화 델타값은 컨텍스트 모델(context model)을 사용하여 부호화되는데, 일실시예에 따르면 이전 서브밴드에 대한 양자화 델타값을 컨텍스트로 사용할 수 있다. 첫번째 서브밴드에 대한 nq(0)는 [0,31]의 범위에 존재하므로 5비트를 사용하여 그대로 무손실 부호화한다. 한편, 첫번째 서브밴드에 대한 nq(0)가 d(0)의 컨텍스트로 사용될 경우에는, nq(0)로부터 소정의 기준값을 이용하여 얻어지는 값을 사용할 수 있다. 즉, d(i)에 대한 허프만 부호화시에는 d(i-1)을 컨텍스트로 사용하고, d(0)에 대한 허프만 부호화시에는 nq(0)-기준값을 컨텍스트로 사용할 수 있다. 여기서, 소정의 기준값의 예로는 소정의 상수를 사용할 수 있으며, 미리 시뮬레이션을 통하여 혹은 실험적으로 최적 값으로 설정될 수 있다. 기준값은 비트스트림에 포함되어 전송되거나, 부호화장치와 복호화장치에 미리 제공될 수 있다.
일실시예에 따르면, 엔벨로프 부호화부(140)는 컨텍스트로 사용되는 이전 서브밴드의 양자화 델타값의 범위를 복수개의 그룹으로 나누고, 각 그룹별로 미리 정해진 허프만 테이블을 기준으로 하여 현재 서브밴드의 양자화 델타값에 대한 허프만 부호화를 수행할 수 있다. 여기서, 허프만 테이블은 예를 들어 대형 데이터베이스를 이용한 트레이닝 프로세스를 통하여 생성할 수 있으며, 소정의 기준에 의거하여 데이터를 수집하고, 수집된 데이터에 근거하여 허프만 테이블을 생성할 수 있다. 실시예에 따르면, 이전 서브밴드의 양자화 델타값의 범위에 의거하여 현재 서브밴드의 양자화 델타값의 빈도수에 대한 데이터를 수집하여 각 그룹별로 허프만 테이블을 생성할 수 있다.
이전 서브밴드의 양자화 델타값을 컨텍스트로 사용하여 얻어진 현재 서브밴드의 양자화 델타값의 확률 분포에 대한 분석결과를 이용하여, 다양한 분포 모델을 선택할 수 있고, 따라서 유사한 분포모델을 갖는 양자화 레벨의 그룹핑이 수행될 수 있다. 각 그룹의 파라미터는 다음 표 3에 도시되어 있다.
표 3
그룹 번호 차이값의 하한 차이값의 상한
#1 0 12
#2 13 17
#3 18 31
한편, 3개 그룹에서의 확률 분포는 도 6에 도시되어 있다. 그룹 #1 및 그룹 #3의 확률 분포가 유사하며, x축에 의해 실질적으로 반전(혹은 플립)됨을 알 수 있다. 이는 부호화 효율에 대한 손실없이, 두개의 그룹 #1 및 #3에 대해서는 동일한 확률 모델을 사용해도 무방함을 의미한다. 즉, 그룹 #1은 그룹 #3와 동일한 허프만 테이블을 사용할 수 있다. 이에 따르면, 그룹 #2에 대한 허프만 테이블 1과, 그룹 #1 및 그룹 #3가 공유하는 허프만 테이블 2가 사용될 수 있다. 이때, 그룹 #1에 대한 코드의 인덱스는 그룹 #3에 대하여 반대로 표현하면 된다. 즉, 컨텍스트인 이전 서브밴드의 양자화 델타값에 의하여 현재 서브밴드의 양자화 델타값에 대한 허프만 테이블이 그룹 #1으로 결정된 경우, 부호화단에서 현재 서브밴드의 양자화 델타값(d(i))는 반전처리 과정 즉, d'(i)=A-d(i)의 값으로 변경되어 그룹 #3의 허프만 테이블을 참조하여 허프만 부호화를 수행할 수 있다. 한편, 복호화단에서는 그룹 #3의 허프만 테이블을 참조하여 허프만 복호화를 수행한 다음, d'(i)는 d(i)=A-d'(i) 의 변환과정을 거쳐 최종 d(i) 값을 추출하게 된다. 여기서, A 값은 그룹 #1과 그룹 #3의 확률 분포가 대칭되도록 만드는 값으로 설정될 수 있다. A 값은 부호화 및 복호화 과정에서 추출되는 것이 아니고, 미리 사전에 최적 값으로 설정될 있다. 한편, 그룹 #3의 허프만 테이블 대신에 그룹 #1의 허프만 테이블을 활용하고, 그룹 #3에서 양자화 델타값을 변경시켜서 수행할 수도 있다. 일실시예에 따르면, d(i)가 범위 [0,31] 의 값을 가지는 경우, A 값은 31을 사용할 수 있다.
도 7은 도 1의 엔벨로프 부호화부(140)에서의 컨텍스트 기반 허프만 부호화 동작을 설명하는 도면으로서, 3개 그룹의 양자화 델타값의 확률분포에 의해 결정된 2가지 허프만 테이블을 이용한다. 여기서, 현재 서브밴드의 양자화 델타값(d(i))를 허프만 부호화함에 있어서, 이전 서브밴드의 양자화 델타값(d(i-1))을 컨텍스트로 활용하며, 그룹 #2에 대한 허프만 테이블 1과 그룹 #3에 대한 허프만 테이블 2가 사용되는 것을 예로 들기로 한다.
도 7을 참조하면, 710 단계에서는 이전 서브밴드의 양자화 델타값(d(i-1))이 그룹 #2에 속하는지를 판단한다.
720 단계에서는, 710 단계에서의 판단결과 이전 서브밴드의 양자화 델타값(d(i-1))이 그룹 #2에 속하는 경우, 허프만 테이블 1로부터 현재 서브밴드의 양자화 델타값(d(i))에 대한 코드를 선택한다.
730 단계에서는, 710 단계에서의 판단결과 이전 서브밴드의 양자화 델타값(d(i-1))이 그룹 #2에 속하지 않는 경우, 이전 서브밴드의 양자화 델타값(d(i-1))이 그룹 #1에 속하는지를 판단한다.
740 단계에서는, 730 단계에서의 판단결과 이전 서브밴드의 양자화 델타값(d(i-1))이 그룹 #1에 속하지 않는 경우 즉, 그룹 #3에 속하는 경우, 허프만 테이블 2로부터 현재 서브밴드의 양자화 델타값(d(i))에 대한 코드를 선택한다.
750 단계에서는, 730 단계에서의 판단결과 이전 서브밴드의 양자화 델타값(d(i-1))이 그룹 #1에 속하는 경우, 현재 서브밴드의 양자화 델타값(d(i))을 반전처리하고, 허프만 테이블 2로부터 반전처리된 현재 서브밴드의 양자화 델타값(d'(i))에 대한 코드를 선택한다.
760 단계에서는 720, 740 혹은 750 단계에서 선택된 코드를 이용하여 현재 서브밴드의 양자화 델타값(d(i))에 대하여 허프만 부호화를 수행한다.
도 8은 도 2의 엔벨로프 복호화부(210)에서의 컨텍스트 기반 허프만 복호화 동작을 설명하는 도면으로서, 도 7에서와 마찬가지로 3개 그룹의 양자화 델타값의 확률분포에 의해 결정된 2가지 허프만 테이블을 이용한다. 여기서, 현재 서브밴드의 양자화 델타값(d(i))를 허프만 복호화함에 있어서, 이전 서브밴드의 양자화 델타값(d(i-1))을 컨텍스트로 활용하며, 그룹 #2에 대한 허프만 테이블 1과 그룹 #3에 대한 허프만 테이블 2가 사용되는 것을 예로 들기로 한다.
도 8을 참조하면, 810 단계에서는 이전 서브밴드의 양자화 델타값(d(i-1))이 그룹 #2에 속하는지를 판단한다.
820 단계에서는, 810 단계에서의 판단결과 이전 서브밴드의 양자화 델타값(d(i-1))이 그룹 #2에 속하는 경우, 허프만 테이블 1로부터 현재 서브밴드의 양자화 델타값(d(i))에 대한 코드를 선택한다.
830 단계에서는, 810 단계에서의 판단결과 이전 서브밴드의 양자화 델타값(d(i-1))이 그룹 #2에 속하지 않는 경우, 이전 서브밴드의 양자화 델타값(d(i-1))이 그룹 #1에 속하는지를 판단한다.
840 단계에서는, 830 단계에서의 판단결과 이전 서브밴드의 양자화 델타값(d(i-1))이 그룹 #1에 속하지 않는 경우 즉, 그룹 #3에 속하는 경우, 허프만 테이블 2로부터 현재 서브밴드의 양자화 델타값(d(i))에 대한 코드를 선택한다.
850 단계에서는, 830 단계에서의 판단결과 이전 서브밴드의 양자화 델타값(d(i-1))이 그룹 #1에 속하는 경우, 현재 서브밴드의 양자화 델타값(d(i))을 반전처리하고, 허프만 테이블 2로부터 반전처리된 현재 서브밴드의 양자화 델타값(d'(i))에 대한 코드를 선택한다.
860 단계에서는 820, 840 혹은 850 단계에서 선택된 코드를 이용하여 현재 서브밴드의 양자화 델타값(d(i))에 대하여 허프만 복호화를 수행한다.
프레임별로 비트 코스트의 차이 분석은 다음 표 4에 도시되어 있다. 이에 따르면 상기 실시예에 따른 부호화 효율은 원래의 허프만 부호화 알고리즘에 비하여 평균 9% 증가하였음을 알 수 있다.
표 4
알고리즘 비트율, kbps 이득, %
허프만 엔코딩 6.25 -
컨텍스트+허프만 엔코딩 5.7 9
도 9는 본 발명의 일실시예에 따른 부호화모듈을 포함하는 멀티미디어 기기의 구성을 나타낸 블록도이다.
도 9에 도시된 멀티미디어 기기(900)는 통신부(910)와 부호화모듈(930)을 포함할 수 있다. 또한, 부호화 결과 얻어지는 오디오 비트스트림의 용도에 따라서, 오디오 비트스트림을 저장하는 저장부(950)을 더 포함할 수 있다. 또한, 멀티미디어 기기(900)는 마이크로폰(970)을 더 포함할 수 있다. 즉, 저장부(950)와 마이크로폰(970)은 옵션으로 구비될 수 있다. 한편, 도 9에 도시된 멀티미디어 기기(900)는 임의의 복호화모듈(미도시), 예를 들면 일반적인 복호화 기능을 수행하는 복호화모듈 혹은 본 발명의 일실시예에 따른 복호화모듈을 더 포함할 수 있다. 여기서, 부호화모듈(930)은 멀티미디어 기기(900)에 구비되는 다른 구성요소(미도시)와 함께 일체화되어 적어도 하나 이상의 프로세서(미도시)로 구현될 수 있다.
도 9를 참조하면, 통신부(910)는 외부로부터 제공되는 오디오와 부호화된비트스트림 중 적어도 하나를 수신하거나, 복원된 오디오와 부호화모듈(930)의 부호화결과 얻어지는 오디오 비트스트림 중 적어도 하나를 송신할 수 있다.
통신부(910)는 무선 인터넷, 무선 인트라넷, 무선 전화망, 무선 랜(LAN), 와이파이(Wi-Fi), 와이파이 다이렉트(WFD, Wi-Fi Direct), 3G(Generation), 4G(4 Generation), 블루투스(Bluetooth), 적외선 통신(IrDA, Infrared Data Association), RFID(Radio Frequency Identification), UWB(Ultra WideBand), 지그비(Zigbee), NFC(Near Field Communication)와 같은 무선 네트워크 또는 유선 전화망, 유선 인터넷과 같은 유선 네트워크를 통해 외부의 멀티미디어 기기와 데이터를 송수신할 수 있도록 구성된다.
부호화모듈(930)은 일실시예에 따르면, 통신부(910) 혹은 마이크로폰(970)을 통하여 제공되는 시간 도메인의 오디오 신호를 주파수 도메인의 오디오 스펙트럼으로 변환하고, 오디오 스펙트럼에 대하여, 소정의 서브밴드 단위로 엔벨로프를 획득하고, 서브밴드 단위로, 상기 엔벨로프에 대하여 양자화를 수행하고, 인접한 서브밴드에 대하여 양자화된 엔벨로프간의 차이값을 구하고, 이전 서브밴드의 차이값을 컨텍스트로 사용하여 현재 서브밴드의 차이값에 대하여 무손실 부호화를 수행하여 비트스트림을 생성할 수 있다.
부호화모듈(930)은 다른 실시예에 따르면, 엔벨로프의 양자화시, 소정의 양자화 인덱스에 대응하는 양자화 영역에서의 전체 양자화오차가 최소가 되도록 상기 양자화 영역의 경계를 조정하고, 이로부터 갱신되는 양자화 테이블을 이용하여 양자화를 수행할 수 있다.
저장부(950)는 부호화 모듈(930)에서 생성되는 부호화된 비트스트림을 저장할 수 있다. 한편, 저장부(950)는 멀티미디어 기기(900)의 운용에 필요한 다양한 프로그램을 저장할 수 있다.
마이크로폰(970)은 사용자 혹은 외부의 오디오신호를 부호화모듈(930)로 제공할 수 있다.
도 10은 본 발명의 일실시예에 따른 복호화모듈을 포함하는 멀티미디어 기기의 구성을 나타낸 블록도이다.
도 10에 도시된 멀티미디어 기기(1000)는 통신부(1010)와 복호화모듈(1030)을 포함할 수 있다. 또한, 복호화 결과 얻어지는 복원된 오디오신호의 용도에 따라서, 복원된 오디오신호를 저장하는 저장부(1050)을 더 포함할 수 있다. 또한, 멀티미디어 기기(1000)는 스피커(1070)를 더 포함할 수 있다. 즉, 저장부(1050)와 스피커(1070)는 옵션으로 구비될 수 있다. 한편, 도 10에 도시된 멀티미디어 기기(1000)는 임의의 부호화모듈(미도시), 예를 들면 일반적인 부호화 기능을 수행하는 부호화모듈 혹은 본 발명의 일실시예에 따른 부호화모듈을 더 포함할 수 있다. 여기서, 복호화모듈(1030)은 멀티미디어 기기(1000)에 구비되는 다른 구성요소(미도시)와 함께 일체화되어 적어도 하나의 이상의 프로세서(미도시)로 구현될 수 있다.
도 10을 참조하면, 통신부(1010)는 외부로부터 제공되는 부호화된 비트스트림과 오디오 신호 중 적어도 하나를 수신하거나 복호화 모듈(1030)의 복호화결과 얻어지는 복원된 오디오 신호와 부호화결과 얻어지는 오디오 비트스트림 중 적어도 하나를 송신할 수 있다. 한편, 통신부(1010)는 도 9의 통신부(910)와 실질적으로 유사하게 구현될 수 있다.
복호화 모듈(1030)은 일실시예에 따르면, 통신부(1010)를 통하여 제공되는 비트스트림을 수신하고, 비트스트림으로부터 인접한 서브밴드에 대하여 양자화된 엔벨로프간의 차이값을 구하고, 이전 서브밴드의 차이값을 컨텍스트로 사용하여 현재 서브밴드의 차이값에 대하여 무손실 복호화를 수행하고, 무손실 복호화결과 복원된 현재 서브밴드의 차이값으로부터 서브밴드 단위로 상기 양자화된 엔벨로프를 구하여 역양자화를 수행할 수 있다.
저장부(1050)는 복호화 모듈(1030)에서 생성되는 복원된 오디오신호를 저장할 수 있다. 한편, 저장부(1050)는 멀티미디어 기기(1000)의 운용에 필요한 다양한 프로그램을 저장할 수 있다.
스피커(1070)는 복호화 모듈(1030)에서 생성되는 복원된 오디오신호를 외부로 출력할 수 있다.
도 11은 본 발명의 일실시예에 따른 부호화모듈과 복호화모듈을 포함하는 멀티미디어 기기의 구성을 나타낸 블록도이다.
도 11에 도시된 멀티미디어 기기(1100)는 통신부(1110), 부호화모듈(1120)과 복호화모듈(1130)을 포함할 수 있다. 또한, 부호화 결과 얻어지는 오디오 비트스트림 혹은 복호화 결과 얻어지는 복원된 오디오신호의 용도에 따라서, 오디오 비트스트림 혹은 복원된 오디오신호를 저장하는 저장부(1140)을 더 포함할 수 있다. 또한, 멀티미디어 기기(1100)는 마이크로폰(1150) 혹은 스피커(1160)를 더 포함할 수 있다. 여기서, 부호화모듈(1120)과 복호화모듈(1130)은 멀티미디어 기기(1100)에 구비되는 다른 구성요소(미도시)와 함께 일체화되어 적어도 하나 이상의 프로세서(미도시)로 구현될 수 있다.
도 11에 도시된 각 구성요소는 도 9에 도시된 멀티미디어 기기(900)의 구성요소 혹은 도 10에 도시된 멀티미디어 기기(1000)의 구성요소와 중복되므로, 그 상세한 설명은 생략하기로 한다.
도 9 내지 도 11에 도시된 멀티미디어 기기(900, 1000, 1100)에는, 전화, 모바일 폰 등을 포함하는 음성통신 전용단말, TV, MP3 플레이어 등을 포함하는 방송 혹은 음악 전용장치, 혹은 음성통신 전용단말과 방송 혹은 음악 전용장치의 융합 단말장치가 포함될 수 있으나, 이에 한정되는 것은 아니다. 또한, 멀티미디어 기기(900, 1000, 1100)는 클라이언트, 서버 혹은 클라이언트와 서버 사이에 배치되는 변환기로서 사용될 수 있다.
한편, 멀티미디어 기기(900, 1000, 1100)가 예를 들어 모바일 폰인 경우, 도시되지 않았지만 키패드 등과 같은 유저 입력부, 유저 인터페이스 혹은 모바일 폰에서 처리되는 정보를 디스플레이하는 디스플레이부, 모바일 폰의 전반적인 기능을 제어하는 프로세서를 더 포함할 수 있다. 또한, 모바일 폰은 촬상 기능을 갖는 카메라부와 모바일 폰에서 필요로 하는 기능을 수행하는 적어도 하나 이상의 구성요소를 더 포함할 수 있다.
한편, 멀티미디어 기기(900, 1000, 1100)가 예를 들어 TV인 경우, 도시되지 않았지만 키패드 등과 같은 유저 입력부, 수신된 방송정보를 디스플레이하는 디스플레이부, TV의 전반적인 기능을 제어하는 프로세서를 더 포함할 수 있다. 또한, TV는 TV에서 필요로 하는 기능을 수행하는 적어도 하나 이상의 구성요소를 더 포함할 수 있다.
상기 실시예들에 따른 방법은 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 또한, 상술한 본 발명의 실시예들에서 사용될 수 있는 데이터 구조, 프로그램 명령, 혹은 데이터 파일은 컴퓨터로 읽을 수 있는 기록매체에 다양한 수단을 통하여 기록될 수 있다. 컴퓨터로 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 저장 장치를 포함할 수 있다. 컴퓨터로 읽을 수 있는 기록매체의 예로는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함될 수 있다. 또한, 컴퓨터로 읽을 수 있는 기록매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 전송 매체일 수도 있다. 프로그램 명령의 예로는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다.
이상과 같이 본 발명의 일실시예는 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명의 일실시예는 상기 설명된 실시예에 한정되는 것은 아니며, 이는 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명의 스코프는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 이의 균등 또는 등가적 변형 모두는 본 발명 기술적 사상의 범주에 속한다고 할 것이다.

Claims (25)

  1. 오디오 스펙트럼에 대하여, 소정의 서브밴드 단위로 엔벨로프를 획득하는 단계;
    상기 서브밴드 단위로, 상기 엔벨로프에 대하여 양자화하는 단계; 및
    인접한 서브밴드에 대하여 양자화된 엔벨로프간의 차이값을 구하고, 이전 서브밴드의 차이값을 컨텍스트로 사용하여 현재 서브밴드의 차이값에 대하여 무손실 부호화를 수행하는 단계를 포함하는 오디오 부호화방법.
  2. 제1 항에 있어서, 상기 양자화 단계에서는, 소정의 양자화 인덱스에 대응하는 양자화 영역에서의 전체 양자화오차가 최소가 되도록 상기 양자화 영역의 경계를 조정하는 오디오 부호화방법.
  3. 제1 항에 있어서, 상기 엔벨로프는 상기 서브밴드의 평균 에너지, 평균 진폭, 파워 및 norm 값 중 어느 하나인 오디오 부호화방법.
  4. 제1 항에 있어서, 상기 무손실 부호화단계에서는, 상기 인접한 서브밴드에 대하여 양자화된 엔벨로프간의 차이값이 특정 범위를 갖도록 조정하는 오디오 부호화방법.
  5. 제1 항에 있어서, 상기 무손실 부호화단계에서는, 상기 이전 서브밴드의 차이값의 범위를 복수개의 그룹으로 나누고, 각 그룹별로 미리 정해진 허프만 테이블을 이용하여 상기 현재 서브밴드의 차이값에 대한 허프만 부호화를 수행하는 오디오 부호화방법.
  6. 제5 항에 있어서, 상기 무손실 부호화단계에서는, 상기 이전 서브밴드의 차이값의 범위를 제1 내지 제3 그룹으로 나누고, 상기 제1 내지 제3 그룹에 대하여 단독의 제1 허프만 테이블과 공유의 제2 허프만 테이블을 포함하는 2개의 허프만 테이블을 할당하는 오디오 부호화방법.
  7. 제6 항에 있어서, 상기 무손실 부호화단계에서는, 상기 제2 허프만 테이블을 공유하는 경우, 상기 현재 서브밴드의 차이값을 그대로 이용하거나, 반전처리하여 이용하는 오디오 부호화방법.
  8. 제1 항에 있어서, 상기 무손실 부호화단계에서는, 이전 서브밴드가 존재하지 않는 첫번째 서브밴드에 대해서는 상기 양자화된 엔벨로프를 그대로 무손실 부호화하고, 컨텍스트로 사용되는 경우에는 소정의 기준값에 의해 얻어지는 차이값을 이용하는 오디오 부호화방법.
  9. 오디오 스펙트럼에 대하여, 소정의 서브밴드 단위로 엔벨로프를 획득하는 엔벨로프 획득부;
    상기 서브밴드 단위로, 상기 엔벨로프에 대하여 양자화하는 엔벨로프 양자화부;
    인접한 서브밴드에 대하여 양자화된 엔벨로프간의 차이값을 구하고, 이전 서브밴드의 차이값을 컨텍스트로 사용하여 현재 서브밴드의 차이값에 대하여 무손실 부호화를 수행하는 엔벨로프 부호화부;
    상기 오디오 스펙트럼에 대하여 양자화 및 무손실 부호화를 수행하는 스펙트럼 부호화부를 포함하는 오디오 부호화장치.
  10. 제9 항에 있어서, 상기 오디오 스펙트럼에 대하여 상기 서브밴드 단위로 엔벨로프를 이용하여 정규화를 수행하고, 정규화된 오디오 스펙트럼을 상기 스펙트럼 부호화부로 제공하는 스펙트럼 정규화부를 더 포함하는 오디오 부호화장치.
  11. 제9 항에 있어서, 상기 스펙트럼 부호화부는 팩토리얼 펄스 코딩에 의해 무손실 부호화를 수행하는 오디오 부호화장치.
  12. 비트스트림으로부터 인접한 서브밴드에 대하여 양자화된 엔벨로프간의 차이값을 구하고, 이전 서브밴드의 차이값을 컨텍스트로 사용하여 현재 서브밴드의 차이값에 대하여 무손실 복호화를 수행하는 단계; 및
    상기 무손실 복호화결과 복원된 현재 서브밴드의 차이값으로부터 서브밴드 단위로 상기 양자화된 엔벨로프를 구하여 역양자화를 수행하는 단계를 포함하는 오디오 복호화방법.
  13. 제12 항에 있어서, 상기 엔벨로프는 상기 서브밴드의 평균 에너지, 평균 진폭, 파워 및 norm 값 중 어느 하나인 오디오 복호화방법.
  14. 제12 항에 있어서, 상기 무손실 복호화단계에서는, 상기 이전 서브밴드의 차이값의 범위를 복수개의 그룹으로 나누고, 각 그룹별로 미리 정해진 허프만 테이블을 이용하여 상기 현재 서브밴드의 차이값에 대한 허프만 복호화를 수행하는 오디오 복호화방법.
  15. 제14 항에 있어서, 상기 무손실 복호화단계에서는, 상기 이전 서브밴드의 차이값의 범위를 제1 내지 제3 그룹으로 나누고, 상기 제1 내지 제3 그룹에 대하여 단독의 제1 허프만 테이블과 공유의 제2 허프만 테이블을 포함하는 2개의 허프만 테이블을 할당하는 오디오 복호화방법.
  16. 제15 항에 있어서, 상기 무손실 부호화단계에서는, 상기 제2 허프만 테이블을 공유하는 경우, 상기 현재 서브밴드의 차이값을 그대로 이용하거나, 반전처리하여 이용하는 오디오 복호화방법.
  17. 제12 항에 있어서, 상기 무손실 복호화단계에서는, 이전 서브밴드가 존재하지 않는 첫번째 서브밴드에 대해서는 상기 양자화된 엔벨로프를 그대로 무손실 복호화하고, 컨텍스트로 사용되는 경우에는 소정의 기준값에 의해 얻어지는 차이값을 이용하는 오디오 복호화방법.
  18. 비트스트림으로부터 인접한 서브밴드에 대하여 양자화된 엔벨로프간의 차이값을 구하고, 이전 서브밴드의 차이값을 컨텍스트로 사용하여 현재 서브밴드의 차이값에 대하여 무손실 복호화를 수행하는 엔벨로프 복호화부;
    상기 무손실 복호화결과 복원된 현재 서브밴드의 차이값으로부터 서브밴드 단위로 상기 양자화된 엔벨로프를 구하여 역양자화를 수행하는 엔벨로프 역양자화부; 및
    상기 비트스트림에 포함된 스펙트럼 성분에 대하여 무손실 복호화 및 역양자화를 수행하는 스펙트럼 복호화부를 포함하는 오디오 복호화장치.
  19. 제18 항에 있어서, 상기 역양자화된 스펙트럼 성분에 대하여 상기 서브밴드 단위로 엔벨로프를 이용하여 역정규화를 수행하는 스펙트럼 역정규화부를 더 포함하는 오디오 복호화장치.
  20. 제18 항에 있어서, 스펙트럼 복호화부는 팩토리얼 펄스 디코딩에 의해 무손실 복호화를 수행하는 오디오 복호화장치.
  21. 오디오 스펙트럼에 대하여, 소정의 서브밴드 단위로 엔벨로프를 획득하고, 상기 서브밴드 단위로, 상기 엔벨로프에 대하여 양자화하고, 인접한 서브밴드에 대하여 양자화된 엔벨로프간의 차이값을 구하고, 이전 서브밴드의 차이값을 컨텍스트로 사용하여 현재 서브밴드의 차이값에 대하여 무손실 부호화를 수행하는 부호화모듈을 포함하는 멀티미디어 기기.
  22. 비트스트림으로부터 인접한 서브밴드에 대하여 양자화된 엔벨로프간의 차이값을 구하고, 이전 서브밴드의 차이값을 컨텍스트로 사용하여 현재 서브밴드의 차이값에 대하여 무손실 복호화를 수행하고, 상기 무손실 복호화결과 복원된 현재 서브밴드의 차이값으로부터 서브밴드 단위로 상기 양자화된 엔벨로프를 구하여 역양자화를 수행하는 복호화모듈을 포함하는 멀티미디어 기기.
  23. 오디오 스펙트럼에 대하여, 소정의 서브밴드 단위로 엔벨로프를 획득하고, 상기 서브밴드 단위로, 상기 엔벨로프에 대하여 양자화하고, 인접한 서브밴드에 대하여 양자화된 엔벨로프간의 차이값을 구하고, 이전 서브밴드의 차이값을 컨텍스트로 사용하여 현재 서브밴드의 차이값에 대하여 무손실 부호화를 수행하는 부호화모듈; 및
    비트스트림으로부터 인접한 서브밴드에 대하여 양자화된 엔벨로프간의 차이값을 구하고, 이전 서브밴드의 차이값을 컨텍스트로 사용하여 현재 서브밴드의 차이값에 대하여 무손실 복호화를 수행하고, 상기 무손실 복호화결과 복원된 현재 서브밴드의 차이값으로부터 서브밴드 단위로 상기 양자화된 엔벨로프를 구하여 역양자화를 수행하는 복호화모듈을 포함하는 멀티미디어 기기.
  24. 청구항 1에 기재된 오디오 부호화방법을 컴퓨터에서 실행시킬 수 있는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
  25. 청구항 12에 기재된 오디오 복호화방법을 컴퓨터에서 실행시킬 수 있는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
PCT/KR2012/004362 2011-06-01 2012-06-01 오디오 부호화방법 및 장치, 오디오 복호화방법 및 장치, 그 기록매체 및 이를 채용하는 멀티미디어 기기 WO2012165910A2 (ko)

Priority Applications (13)

Application Number Priority Date Filing Date Title
MX2013014152A MX2013014152A (es) 2011-06-01 2012-06-01 Metodo y aparato de codificacion de audio, metodo y aparato de decodificacion de audio, medio de grabacion de los mismos y dispositivo multimedia que emplea los mismos.
CA2838170A CA2838170C (en) 2011-06-01 2012-06-01 Audio-encoding method and apparatus, audio-decoding method and apparatus, recoding medium thereof, and multimedia device employing same
AU2012263093A AU2012263093B2 (en) 2011-06-01 2012-06-01 Audio-encoding method and apparatus, audio-decoding method and apparatus, recording medium thereof, and multimedia device employing same
MX2015014526A MX357875B (es) 2011-06-01 2012-06-01 Método y aparato de codificación de audio, método y aparato de decodificacion de audio, medio de grabación de los mismos y dispositivo multimedia que emplea los mismos.
PL12791983T PL2717264T3 (pl) 2011-06-01 2012-06-01 Bazujące na pod-paśmie kodowanie obwiedni sygnału audio
EP12791983.5A EP2717264B1 (en) 2011-06-01 2012-06-01 Sub-band-based encoding of the envelope of an audio signal
CN201280037719.1A CN103733257B (zh) 2011-06-01 2012-06-01 音频编码方法和设备、音频解码方法和设备和采用音频编码方法和设备、音频解码方法和设备的多媒体装置
US14/123,359 US9361895B2 (en) 2011-06-01 2012-06-01 Audio-encoding method and apparatus, audio-decoding method and apparatus, recoding medium thereof, and multimedia device employing same
JP2014513447A JP6262649B2 (ja) 2011-06-01 2012-06-01 オーディオ符号化方法及び記録媒体
US15/142,594 US9589569B2 (en) 2011-06-01 2016-04-29 Audio-encoding method and apparatus, audio-decoding method and apparatus, recoding medium thereof, and multimedia device employing same
AU2016256685A AU2016256685B2 (en) 2011-06-01 2016-11-08 Audio-encoding method and apparatus, audio-decoding method and apparatus, recording medium thereof, and multimedia device employing same
US15/450,672 US9858934B2 (en) 2011-06-01 2017-03-06 Audio-encoding method and apparatus, audio-decoding method and apparatus, recoding medium thereof, and multimedia device employing same
AU2017228519A AU2017228519B2 (en) 2011-06-01 2017-09-11 Audio-encoding method and apparatus, audio-decoding method and apparatus, recording medium thereof, and multimedia device employing same

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
RU2011-121982 2011-06-01
RU2011121982/08A RU2464649C1 (ru) 2011-06-01 2011-06-01 Способ обработки звукового сигнала

Related Child Applications (2)

Application Number Title Priority Date Filing Date
US14/123,359 A-371-Of-International US9361895B2 (en) 2011-06-01 2012-06-01 Audio-encoding method and apparatus, audio-decoding method and apparatus, recoding medium thereof, and multimedia device employing same
US15/142,594 Continuation US9589569B2 (en) 2011-06-01 2016-04-29 Audio-encoding method and apparatus, audio-decoding method and apparatus, recoding medium thereof, and multimedia device employing same

Publications (2)

Publication Number Publication Date
WO2012165910A2 true WO2012165910A2 (ko) 2012-12-06
WO2012165910A3 WO2012165910A3 (ko) 2013-03-28

Family

ID=47145534

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2012/004362 WO2012165910A2 (ko) 2011-06-01 2012-06-01 오디오 부호화방법 및 장치, 오디오 복호화방법 및 장치, 그 기록매체 및 이를 채용하는 멀티미디어 기기

Country Status (12)

Country Link
US (3) US9361895B2 (ko)
EP (1) EP2717264B1 (ko)
JP (2) JP6262649B2 (ko)
KR (2) KR102044006B1 (ko)
CN (3) CN103733257B (ko)
AU (3) AU2012263093B2 (ko)
CA (1) CA2838170C (ko)
MX (2) MX2013014152A (ko)
PL (1) PL2717264T3 (ko)
RU (1) RU2464649C1 (ko)
TW (3) TWI616869B (ko)
WO (1) WO2012165910A2 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106463133A (zh) * 2014-03-24 2017-02-22 三星电子株式会社 高频带编码方法和装置,以及高频带解码方法和装置
US11676614B2 (en) 2014-03-03 2023-06-13 Samsung Electronics Co., Ltd. Method and apparatus for high frequency decoding for bandwidth extension

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2464649C1 (ru) * 2011-06-01 2012-10-20 Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." Способ обработки звукового сигнала
KR102070429B1 (ko) 2011-10-21 2020-01-28 삼성전자주식회사 에너지 무손실 부호화방법 및 장치, 오디오 부호화방법 및 장치, 에너지 무손실 복호화방법 및 장치, 및 오디오 복호화방법 및 장치
GB2508417B (en) * 2012-11-30 2017-02-08 Toshiba Res Europe Ltd A speech processing system
CN108198564B (zh) 2013-07-01 2021-02-26 华为技术有限公司 信号编码和解码方法以及设备
TWI579831B (zh) 2013-09-12 2017-04-21 杜比國際公司 用於參數量化的方法、用於量化的參數之解量化方法及其電腦可讀取的媒體、音頻編碼器、音頻解碼器及音頻系統
EP3660843B1 (en) 2013-09-13 2022-11-09 Samsung Electronics Co., Ltd. Lossless coding method
WO2015037961A1 (ko) * 2013-09-13 2015-03-19 삼성전자 주식회사 에너지 무손실 부호화방법 및 장치, 신호 부호화방법 및 장치, 에너지 무손실 복호화방법 및 장치, 및 신호 복호화방법 및 장치
EP3046104B1 (en) * 2013-09-16 2019-11-20 Samsung Electronics Co., Ltd. Signal encoding method and signal decoding method
MX357135B (es) 2013-10-18 2018-06-27 Fraunhofer Ges Forschung Codificación de coeficientes espectrales de un espectro de una señal de audio.
EP3975173B1 (en) 2013-12-02 2024-01-17 Top Quality Telephony, Llc A computer-readable storage medium and a computer software product
EP3176780A4 (en) 2014-07-28 2018-01-17 Samsung Electronics Co., Ltd. Signal encoding method and apparatus and signal decoding method and apparatus
GB2526636B (en) * 2014-09-19 2016-10-26 Gurulogic Microsystems Oy Encoder, decoder and methods employing partial data encryption
US10553228B2 (en) * 2015-04-07 2020-02-04 Dolby International Ab Audio coding with range extension
CN104966517B (zh) * 2015-06-02 2019-02-01 华为技术有限公司 一种音频信号增强方法和装置
CN108432248A (zh) * 2015-11-22 2018-08-21 Lg电子株式会社 用于对视频信号进行熵编码和解码的方法和设备
US11817111B2 (en) 2018-04-11 2023-11-14 Dolby Laboratories Licensing Corporation Perceptually-based loss functions for audio encoding and decoding based on machine learning
US10586546B2 (en) 2018-04-26 2020-03-10 Qualcomm Incorporated Inversely enumerated pyramid vector quantizers for efficient rate adaptation in audio coding
US10573331B2 (en) * 2018-05-01 2020-02-25 Qualcomm Incorporated Cooperative pyramid vector quantizers for scalable audio coding
US10580424B2 (en) * 2018-06-01 2020-03-03 Qualcomm Incorporated Perceptual audio coding as sequential decision-making problems
US10734006B2 (en) 2018-06-01 2020-08-04 Qualcomm Incorporated Audio coding based on audio pattern recognition
CN109473116B (zh) * 2018-12-12 2021-07-20 思必驰科技股份有限公司 语音编码方法、语音解码方法及装置
CN110400578B (zh) * 2019-07-19 2022-05-17 广州市百果园信息技术有限公司 哈希码的生成及其匹配方法、装置、电子设备和存储介质
RU2769618C2 (ru) * 2020-05-18 2022-04-04 ОБЩЕСТВО С ОГРАНИЧЕННОЙ ОТВЕТСТВЕННОСТЬЮ "СберМедИИ" Способ уменьшения вклада технических факторов в суммарный сигнал данных масс-спектрометрии с помощью фильтрации по техническим образцам
KR102660883B1 (ko) * 2023-12-01 2024-04-25 주식회사 테스트웍스 임베디드 장치의 미디어 프로세싱 테스트 방법 및 이를 수행하는 컴퓨팅 장치

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000132193A (ja) * 1998-10-22 2000-05-12 Sony Corp 信号符号化装置及び方法、並びに信号復号装置及び方法
KR20060060928A (ko) * 2004-12-01 2006-06-07 삼성전자주식회사 주파수 대역간의 유사도를 이용한 오디오 신호 처리 장치및 방법
US20100228541A1 (en) * 2005-11-30 2010-09-09 Matsushita Electric Industrial Co., Ltd. Subband coding apparatus and method of coding subband

Family Cites Families (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1336841C (en) * 1987-04-08 1995-08-29 Tetsu Taguchi Multi-pulse type coding system
JP3013698B2 (ja) * 1994-04-20 2000-02-28 松下電器産業株式会社 ベクトル量子化符号化装置と復号化装置
US5687191A (en) * 1995-12-06 1997-11-11 Solana Technology Development Corporation Post-compression hidden data transport
US5924064A (en) * 1996-10-07 1999-07-13 Picturetel Corporation Variable length coding using a plurality of region bit allocation patterns
US8024269B1 (en) * 1997-08-27 2011-09-20 Datatreasury Corporation Remote image capture with centralized processing and storage
JP3323175B2 (ja) * 1999-04-20 2002-09-09 松下電器産業株式会社 符号化装置
US6978236B1 (en) * 1999-10-01 2005-12-20 Coding Technologies Ab Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching
JP3559485B2 (ja) * 1999-11-22 2004-09-02 日本電信電話株式会社 音声信号の後処理方法および装置並びにプログラムを記録した記録媒体
JP2002268693A (ja) * 2001-03-12 2002-09-20 Mitsubishi Electric Corp オーディオ符号化装置
EP1386310A1 (en) 2001-05-11 2004-02-04 Matsushita Electric Industrial Co., Ltd. Device to encode, decode and broadcast audio signal with reduced size spectral information
US6934676B2 (en) * 2001-05-11 2005-08-23 Nokia Mobile Phones Ltd. Method and system for inter-channel signal redundancy removal in perceptual audio coding
JP2003029797A (ja) * 2001-05-11 2003-01-31 Matsushita Electric Ind Co Ltd 符号化装置、復号化装置および放送システム
US7200561B2 (en) * 2001-08-23 2007-04-03 Nippon Telegraph And Telephone Corporation Digital signal coding and decoding methods and apparatuses and programs therefor
EP1701340B1 (en) * 2001-11-14 2012-08-29 Panasonic Corporation Decoding device, method and program
JP2003233397A (ja) * 2002-02-12 2003-08-22 Victor Co Of Japan Ltd オーディオ符号化装置、オーディオ符号化プログラム及びオーディオ符号化データ伝送装置
KR100462611B1 (ko) * 2002-06-27 2004-12-20 삼성전자주식회사 하모닉 성분을 이용한 오디오 코딩방법 및 장치
US7433824B2 (en) 2002-09-04 2008-10-07 Microsoft Corporation Entropy coding by adapting coding between level and run-length/level modes
JP4728568B2 (ja) * 2002-09-04 2011-07-20 マイクロソフト コーポレーション レベル・モードとラン・レングス/レベル・モードの間での符号化を適応させるエントロピー符号化
KR100754439B1 (ko) * 2003-01-09 2007-08-31 와이더댄 주식회사 이동 전화상의 체감 음질을 향상시키기 위한 디지털오디오 신호의 전처리 방법
CN1898724A (zh) 2003-12-26 2007-01-17 松下电器产业株式会社 语音/乐音编码设备及语音/乐音编码方法
KR100771401B1 (ko) * 2005-08-01 2007-10-30 (주)펄서스 테크놀러지 프로그래머블 프로세서에서 mpeg-2 또는 mpeg-4aac 오디오 복호 알고리즘을 처리하기 위한 연산 회로및 연산 방법
BRPI0520729B1 (pt) * 2005-11-04 2019-04-02 Nokia Technologies Oy Método para a codificação e decodificação de sinais de áudio, codificador para codificação e decodificador para decodificar sinais de áudio e sistema para compressão de áudio digital.
RU2420816C2 (ru) * 2006-02-24 2011-06-10 Франс Телеком Способ двоичного кодирования показателей квантования огибающей сигнала, способ декодирования огибающей сигнала и соответствующие модули кодирования и декодирования
DE602007004502D1 (de) * 2006-08-15 2010-03-11 Broadcom Corp Neuphasierung des status eines dekodiergerätes nach einem paketverlust
KR101346358B1 (ko) * 2006-09-18 2013-12-31 삼성전자주식회사 대역폭 확장 기법을 이용한 오디오 신호의 부호화/복호화방법 및 장치
JP4823001B2 (ja) * 2006-09-27 2011-11-24 富士通セミコンダクター株式会社 オーディオ符号化装置
US7953595B2 (en) * 2006-10-18 2011-05-31 Polycom, Inc. Dual-transform coding of audio signals
US20080243518A1 (en) * 2006-11-16 2008-10-02 Alexey Oraevsky System And Method For Compressing And Reconstructing Audio Files
KR100895100B1 (ko) * 2007-01-31 2009-04-28 엠텍비젼 주식회사 디지털 오디오 데이터의 복호화 방법 및 디지털 오디오데이터의 복호화 장치
US8515767B2 (en) * 2007-11-04 2013-08-20 Qualcomm Incorporated Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs
EP2077551B1 (en) * 2008-01-04 2011-03-02 Dolby Sweden AB Audio encoder and decoder
US8554551B2 (en) * 2008-01-28 2013-10-08 Qualcomm Incorporated Systems, methods, and apparatus for context replacement by audio level
JP5551695B2 (ja) * 2008-07-11 2014-07-16 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 音声符号器、音声復号器、音声符号化方法、音声復号化方法およびコンピュータプログラム
US8290782B2 (en) * 2008-07-24 2012-10-16 Dts, Inc. Compression of audio scale-factors by two-dimensional transformation
CN101673547B (zh) * 2008-09-08 2011-11-30 华为技术有限公司 编码方法、解码方法及其装置
CN101898724B (zh) 2009-05-27 2013-04-10 无锡港盛港口机械有限公司 双颚抓斗取物装置
KR20100136890A (ko) * 2009-06-19 2010-12-29 삼성전자주식회사 컨텍스트 기반의 산술 부호화 장치 및 방법과 산술 복호화 장치 및 방법
CN102081927B (zh) * 2009-11-27 2012-07-18 中兴通讯股份有限公司 一种可分层音频编码、解码方法及系统
CN101847410A (zh) * 2010-05-31 2010-09-29 中国传媒大学广播电视数字化教育部工程研究中心 一种用于数字音频信号压缩的快速量化方法
RU2464649C1 (ru) * 2011-06-01 2012-10-20 Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." Способ обработки звукового сигнала
KR102070429B1 (ko) * 2011-10-21 2020-01-28 삼성전자주식회사 에너지 무손실 부호화방법 및 장치, 오디오 부호화방법 및 장치, 에너지 무손실 복호화방법 및 장치, 및 오디오 복호화방법 및 장치

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000132193A (ja) * 1998-10-22 2000-05-12 Sony Corp 信号符号化装置及び方法、並びに信号復号装置及び方法
KR20060060928A (ko) * 2004-12-01 2006-06-07 삼성전자주식회사 주파수 대역간의 유사도를 이용한 오디오 신호 처리 장치및 방법
US20100228541A1 (en) * 2005-11-30 2010-09-09 Matsushita Electric Industrial Co., Ltd. Subband coding apparatus and method of coding subband

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP2717264A2 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11676614B2 (en) 2014-03-03 2023-06-13 Samsung Electronics Co., Ltd. Method and apparatus for high frequency decoding for bandwidth extension
CN106463133A (zh) * 2014-03-24 2017-02-22 三星电子株式会社 高频带编码方法和装置,以及高频带解码方法和装置
US10468035B2 (en) 2014-03-24 2019-11-05 Samsung Electronics Co., Ltd. High-band encoding method and device, and high-band decoding method and device
CN106463133B (zh) * 2014-03-24 2020-03-24 三星电子株式会社 高频带编码方法和装置,以及高频带解码方法和装置
US10909993B2 (en) 2014-03-24 2021-02-02 Samsung Electronics Co., Ltd. High-band encoding method and device, and high-band decoding method and device
US11688406B2 (en) 2014-03-24 2023-06-27 Samsung Electronics Co., Ltd. High-band encoding method and device, and high-band decoding method and device

Also Published As

Publication number Publication date
AU2012263093B2 (en) 2016-08-11
US20140156284A1 (en) 2014-06-05
AU2017228519B2 (en) 2018-10-04
MX357875B (es) 2018-07-27
CN106782575A (zh) 2017-05-31
TWI616869B (zh) 2018-03-01
AU2012263093A1 (en) 2014-01-09
WO2012165910A3 (ko) 2013-03-28
KR102154741B1 (ko) 2020-09-11
TW201738881A (zh) 2017-11-01
JP2014520282A (ja) 2014-08-21
AU2016256685B2 (en) 2017-06-15
TW201705125A (zh) 2017-02-01
CA2838170C (en) 2019-08-13
CN106782575B (zh) 2020-12-18
EP2717264B1 (en) 2020-01-01
EP2717264A4 (en) 2014-10-29
KR20120135118A (ko) 2012-12-12
KR20190128126A (ko) 2019-11-15
MX2013014152A (es) 2014-04-16
US9858934B2 (en) 2018-01-02
CN103733257A (zh) 2014-04-16
AU2016256685A1 (en) 2016-11-24
TWI601130B (zh) 2017-10-01
EP2717264A2 (en) 2014-04-09
CA2838170A1 (en) 2012-12-06
AU2017228519A1 (en) 2017-10-05
US20170178637A1 (en) 2017-06-22
TW201303852A (zh) 2013-01-16
RU2464649C1 (ru) 2012-10-20
KR102044006B1 (ko) 2019-11-12
JP2018067008A (ja) 2018-04-26
TWI562134B (en) 2016-12-11
US20160247510A1 (en) 2016-08-25
US9589569B2 (en) 2017-03-07
US9361895B2 (en) 2016-06-07
PL2717264T3 (pl) 2020-04-30
JP6612837B2 (ja) 2019-11-27
JP6262649B2 (ja) 2018-01-17
CN103733257B (zh) 2017-02-15
CN106803425B (zh) 2021-01-12
CN106803425A (zh) 2017-06-06

Similar Documents

Publication Publication Date Title
WO2012165910A2 (ko) 오디오 부호화방법 및 장치, 오디오 복호화방법 및 장치, 그 기록매체 및 이를 채용하는 멀티미디어 기기
WO2013058634A2 (ko) 에너지 무손실 부호화방법 및 장치, 오디오 부호화방법 및 장치, 에너지 무손실 복호화방법 및 장치, 및 오디오 복호화방법 및 장치
WO2012157932A2 (en) Bit allocating, audio encoding and decoding
WO2013115625A1 (ko) 낮은 복잡도로 오디오 신호를 처리하는 방법 및 장치
WO2013141638A1 (ko) 대역폭 확장을 위한 고주파수 부호화/복호화 방법 및 장치
WO2015037961A1 (ko) 에너지 무손실 부호화방법 및 장치, 신호 부호화방법 및 장치, 에너지 무손실 복호화방법 및 장치, 및 신호 복호화방법 및 장치
WO2011122875A2 (ko) 부호화 방법 및 장치, 그리고 복호화 방법 및 장치
WO2015037969A1 (ko) 신호 부호화방법 및 장치와 신호 복호화방법 및 장치
WO2015133795A1 (ko) 대역폭 확장을 위한 고주파 복호화 방법 및 장치
WO2014030938A1 (ko) 오디오 부호화 장치 및 방법, 오디오 복호화 장치 및 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12791983

Country of ref document: EP

Kind code of ref document: A2

ENP Entry into the national phase

Ref document number: 2838170

Country of ref document: CA

Ref document number: 2014513447

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: MX/A/2013/014152

Country of ref document: MX

ENP Entry into the national phase

Ref document number: 2012263093

Country of ref document: AU

Date of ref document: 20120601

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 14123359

Country of ref document: US