WO2005004113A1 - オーディオ符号化装置 - Google Patents

オーディオ符号化装置 Download PDF

Info

Publication number
WO2005004113A1
WO2005004113A1 PCT/JP2003/008329 JP0308329W WO2005004113A1 WO 2005004113 A1 WO2005004113 A1 WO 2005004113A1 JP 0308329 W JP0308329 W JP 0308329W WO 2005004113 A1 WO2005004113 A1 WO 2005004113A1
Authority
WO
WIPO (PCT)
Prior art keywords
quantization
scale factor
step size
value
quantization step
Prior art date
Application number
PCT/JP2003/008329
Other languages
English (en)
French (fr)
Inventor
Hiroaki Yamashita
Original Assignee
Fujitsu Limited
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Limited filed Critical Fujitsu Limited
Priority to JP2005503376A priority Critical patent/JP4212591B2/ja
Priority to PCT/JP2003/008329 priority patent/WO2005004113A1/ja
Publication of WO2005004113A1 publication Critical patent/WO2005004113A1/ja
Priority to US11/272,223 priority patent/US7613603B2/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation

Definitions

  • the present invention relates to an audio encoding device, and more particularly to an audio encoding device that compresses and encodes information of an audio signal.
  • MPEG Moving Picture Expert Group
  • MPEG audio compression algorithms include MP3 (MPEG-Audio layer3) and MPEG2-AAC (Advanced Audio Codec).
  • MP3 is an MPEG-1 audio-video layer 3 compression method that encodes monaural or 2-channel audio signals. (The layer 3 method has higher quality than the layer 1 and 2 compression methods.) It is widely used for music distribution on the Internet.
  • MPEG2-AAC is a compression standard that eliminates compatibility with MPEG-1 audio and achieves higher sound quality and a higher compression ratio by using multi-channel audio signals as the object of encoding.
  • MPEG2-AAC is suitable for music distribution using mobile phones, and its use in digital (satellite / terrestrial) broadcasting is being considered.
  • MP 3 and MP EG 2 In both cases, the AAC coding algorithm cuts out the input pulse code modulation (PCM) signal in frame units, performs spatial transformation, quantizes the transform coefficients, and encodes. To generate a bitstream.
  • PCM pulse code modulation
  • a video coding technology that updates a scheduling coefficient and a quantization step until an appropriate value of quantization distortion and code amount is obtained (for example, See Patent Document 1).
  • Patent Document 1
  • the encoding algorithm of MP3 and MPEG2_AAC as described above has a high quality sound and minimizes the amount of information. Scale factor). However, the amount of computation is extremely large and the computational efficiency is poor. Therefore, realization of a real-time encoder with low computational cost and little computation is strongly desired.
  • the conventional technique (Japanese Patent Application Laid-Open No. 2000-347679) also aims at reducing the amount of computation.
  • iterative processing is performed while updating the scheduling coefficient and the quantization step to converge on the target code amount. Control does not significantly shorten the convergence time, and is not the best technique for reducing the amount of computation. Disclosure of the invention
  • the present invention has been made in view of the above points, and has been made in view of the above point. Audio coding that enables a drastic reduction in the amount of operation for quantization operation of transform coefficients performed according to human auditory characteristics It is intended to provide a device.
  • a spatial transform that performs a spatial transform on a sample value of the audio signal to calculate a transform coefficient is performed.
  • the unit 11 estimates and calculates the quantization noise from the representative values of the transform coefficients in each subband, and calculates the masking power threshold of the auditory characteristics
  • a quantization step size calculator 12 that approximately calculates a quantization step size q of each subband from the quantization noise and, and quantizes a transform coefficient based on the quantization step size Q to obtain a quantization value I.
  • the common scale factor csf which is the offset value of the entire frame, and the A scale factor calculation unit for calculating a scale factor sf; and an encoding unit for encoding at least one of a quantized value I, a common scale factor cs ⁇ , and a scale factor sf.
  • An audio encoder 10 is provided.
  • the spatial conversion unit 11 performs a spatial conversion on the sample value of the audio signal to calculate a conversion coefficient.
  • the quantization step size calculation unit 12 estimates and calculates quantization noise from the representative values of the conversion coefficients in each subband for the subbands in which the conversion coefficients are grouped for each frequency band, and masks the auditory characteristics. From the power threshold and the quantization noise, the quantization step size Q of each subband is approximately calculated.
  • the quantization unit 13 quantizes the transform coefficient based on the quantization step size q to obtain a quantization value I.
  • the scale factor calculation unit 14 obtains a common scale factor c sf, which is an offset value of the entire frame, and a scale factor sf for each subband from the quantization step size q.
  • the encoding unit 15 encodes at least one of the quantization value I, the common scale factor cs ⁇ , and the scale factor s: f.
  • FIG. 1 is a diagram illustrating the principle of an audio encoding device according to the present invention.
  • FIG. 2 is a diagram illustrating the concept of a frame.
  • FIG. 3 is a diagram showing an image of a transform coefficient and a subband.
  • Figure 4 is a diagram showing the correspondence between the common scale factor and the Z scale factor with respect to the frame.
  • FIG. 5 is a diagram illustrating the concept of quantization.
  • FIG. 6 is a diagram showing an audibility limit graph.
  • FIG. 7 is a diagram illustrating a masking power threshold value.
  • FIG. 8 is a diagram showing a flowchart of the quantization Z encoding.
  • FIG. 9 is a diagram showing a flowchart of the quantization Z encoding.
  • FIG. 10 is a diagram for explaining average quantization noise.
  • FIG. 11 is a diagram showing the relationship between A and Xa.
  • FIG. 12 is a diagram illustrating a concept of calculating a correction coefficient.
  • FIG. 13 is a flowchart showing the overall operation of the present invention.
  • FIG. 14 is a flowchart showing the overall operation of the present invention.
  • FIG. 15 is a diagram illustrating a configuration of an MPEG2-AAC encoder. BEST MODE FOR CARRYING OUT THE INVENTION
  • FIG. 1 is a diagram illustrating the principle of an audio encoding device according to the present invention.
  • the audio encoding device 10 is a device (encoder) that compresses and encodes information of an audio signal.
  • the spatial transform unit 11 calculates a transform coefficient by performing a spatial transform, ie, a modified discrete cosine transform (MDCT) on the sample values of the audio signal.
  • the quantization step size calculation unit 12 estimates and calculates quantization noise for the sub-bands obtained by grouping the conversion coefficients for each frequency band, from a representative value of the conversion coefficients in each sub-band. Then, the quantization step size Q of each sub-band is approximately calculated from the masking power threshold of the auditory characteristics and the quantization noise.
  • the quantization unit 13 quantizes the transform coefficient based on the approximately calculated quantization step size Q to obtain a quantized value I.
  • the scale factor calculation unit 14 obtains a common scale factor c sf, which is an offset value of the entire frame, and a scale factor s f for each sub-band from the quantization step size.
  • the encoding unit 15 encodes at least one of the quantization value I, the common scale factor c sf, and the scale factor s f.
  • As a type of encoding for example, Huffman encoding is performed in which a short code is assigned to a code with a high appearance rate, and a long code is assigned to a code with a low appearance rate. Operations such as estimation calculation of quantization noise and approximation of quantization step size according to the present invention will be described in detail with reference to FIG.
  • the encoder of MPEG2-AAC is targeted.
  • the quantization method in MP3 and MPEG2-AAC is ISO (International Organization for Standardization), for example, MP3 is described in ISO / IEC 11172-3, and MPEG2-AAC is described in ISO / IEC 13818-7).
  • the PCM signal is first cut out in frame units, the MDCT is applied to the PCM signal as a spatial transform, and the power on the time axis of the PCM is converted into the spatial (frequency) It is converted into an on-axis power expression.
  • AAC MPEG2-AAC
  • the MDCT transform coefficients (hereinafter simply referred to as transform coefficients), which are the computation results of the MDCT, are subjected to a quantization process in accordance with human auditory characteristics, and then Huffman coding is performed to generate a bit stream. Output from the transmission path.
  • I floor ((IXI * 2 ⁇ (-q / 4)) ⁇ (3/4)-0.0946)
  • I is the quantization value
  • X is the transform coefficient of the MDCT to be quantized
  • q is the quantization step size.
  • "fl oo r" is a function notation in the C language and means truncation to the nearest decimal point. ⁇ ⁇ ⁇ is ⁇ ⁇ .
  • the quantization step size Q is defined by the following equation (2).
  • a frame is a unit of encoding processing, and AAC uses 2048 Ps
  • One frame consists of 1024 transform coefficients obtained by applying MDCT to the CM sample values.
  • FIG. 2 is a diagram illustrating the concept of a frame. After digitizing the analog voice to obtain 2048 PCM sample values, these sample values are subjected to MDCT to make 1024 conversion coefficients into one frame.
  • a subband is a band obtained by grouping 1024 transform coefficients into about 50 groups.
  • Each band has at least one and at most 96 converters Number, and based on the auditory characteristics, as the band becomes higher,
  • the number is increasing.
  • FIG. 3 is a diagram showing an image of a transform coefficient and a subband.
  • the vertical axis is level, and the horizontal axis is frequency.
  • the 1024 transform coefficients are grouped into 50 subbands sb0 to sb49 on the frequency axis.
  • the number of transform coefficients in one subband is small (the bandwidth of the subband is narrower), and on the higher band side, the number of transform coefficients in one subband is small. Is much (subband bandwidth is wide).
  • the low-band (low-frequency) side can sense the frequency difference sensitively (for example, in the case of the figure, the difference between the sound corresponding to the conversion coefficient xl and X2)
  • the high-band (treble) side cannot perceive the frequency difference sensitively, but feels like the same sound (that is, human hearing is low). That is, the sound with the higher frequency has higher frequency resolution.
  • the subbands are grouped according to the human hearing characteristics.
  • FIG. 4 is a diagram showing the correspondence between the common scale factor and the Z scale factor for the frame.
  • FIG. 3 shows the common scale factor c sf and the scale factor s f0 to s f49 corresponding to FIG. 3, and there is one common scale factor c s f for the entire subband s b 0 to s b49 of one frame. Also, there are scale factors sf0 to sf49 (50 in total) corresponding to each of the subbands sb0 to sb49.
  • FIG. 5 is a diagram illustrating the concept of quantization.
  • X be the level (magnitude) of a certain conversion coefficient m.
  • Quantizing the transform coefficient m means, as can be seen from equation (1), that, in a simplified manner, perform a division in which X is divided by the quantization step size Q and the remainder is discarded.
  • ⁇ I IXI ⁇ 2q / 4 ).
  • the figure shows the state of this quantization.
  • the result of dividing the transform coefficient m of size X by 2Q / 4 as the quantization step size and discarding the remainder is 2 * 2q / 4.
  • You. Therefore, the quotient (2 * 2q / 4 ) of this division is the quantized value of the transform coefficient m.
  • the quantization step size is 10 and the quotient when X is divided by 10 is 9.6, then the quantization when X is quantized with the quantization step size 10 is The value is 9.
  • the quantization step size (the step width shown in the figure) must be set to the value of the signal to be quantized. On the other hand, it is important that the value is appropriate.
  • the quantization step size is calculated from the scale factor and the common scale factor as described above.
  • the most important factor affecting the sound quality in the quantization and coding processes is to determine the optimal value of the scale factor of each subband and the common scale factor of the frame. Once the optimal values of these two scale factors have been determined, the quantization step size for each subband can be found from equation (2), and this can be substituted into the quantization equation in equation (1). (By dividing the value of each transform coefficient in subband sb by the quantization step size corresponding to subband sb), the quantized value of the transform coefficient is obtained.
  • the scale factor and the common scale factor are determined based on the masking power threshold, which is one of the human auditory characteristics.
  • the masking power threshold is the minimum sound pressure that can be heard by humans.
  • FIG. 6 is a diagram showing an audibility limit graph.
  • the vertical axis of the audibility limit graph G is sound pressure (dB), and the horizontal axis is frequency (Hz).
  • the sensitivity of hearing in the human audible range (20-20, 000 Hz) is not uniform but depends on the frequency.
  • the sensitivity in the low and high ranges peaks at 3-4 kHz. Depressed. This means that low-frequency and high-frequency sounds cannot be heard without increasing the volume.
  • the shaded area is the audible range.
  • the masking power threshold is calculated based on this audible limit graph G by calculating the threshold at which a certain level f cannot be heard below the level L at a certain frequency f by the calculation of the Fourier transform (FFT: Fast Fourier Transform). is there.
  • FFT Fast Fourier Transform
  • FIG. 7 is a diagram showing a masking power threshold value.
  • the vertical axis is the threshold power, and the horizontal axis is the frequency.
  • the frequency band of one frame is grouped by subbands sb0 to sb49, and the masking power threshold value obtained for each subband is shown.
  • the masking power threshold value of subband sb0 is M0. This means that signals (sounds) with power M 0 or less are hard to hear in the sub-band s b 0 band. Therefore, in performing signal processing, a signal having a threshold value M0 or less may be regarded as noise (the masking power threshold value is also called an allowable noise threshold value).
  • the quantization error (power of the quantization error) for each subband is set to be equal to or less than the masking power threshold value corresponding to each subband for all the subbands. It can be seen that it suffices to perform a proper quantization. This means that, for the subband sb0, a scale factor and a common scale factor may be determined such that the quantization error power is smaller than the masking power threshold M0.
  • the masking power threshold M0 of the subband sb0 is compared with the masking power threshold Ml of the subband sb1, M0> M1.
  • the allowable noise level of subband sbO is larger than that of subband sb1, so the quantization error may be larger than that of subband sb1. (Subband sb0 is quantized more coarsely than subband sb1. May be).
  • the quantization error needs to be smaller than that of subband sb0 (subband sb1 is finer than subband sb0). Quantize).
  • subband sb4 is Since the noise level that can be generated is small and it is the most sensitive part to hearing, if the quantization is not performed so that the quantization error in one frame is minimized, the sound quality deterioration will be perceived.
  • the subband sb49 has a large allowable noise level, and may be quantized most coarsely in one frame.
  • the encoding bit rate is predetermined, such as the encoding rate of 128 kbps, it is necessary to observe the information amount (bit amount) set from the bit rate).
  • the AAC has a temporary bit storage called a pit reservoir so that the number of bits between frames can be adaptively changed.
  • the number of bits available for encoding is calculated from the set bit rate, the auditory entropy of the auditory model, and the amount of bits in the bit reservoir (the auditory entropy is the input audio signal of the frame Is calculated from the frequency spectrum obtained by FFT of the frame, and may be regarded as the total number of bits necessary to quantize the frame so that the listener does not perceive noise.
  • the transform coefficients are quantized using the common scale factor and the scale factor for which the initial values are set. Then, after the quantized value is inversely quantized, a quantization error is obtained (the quantization error is a difference value between the value before quantization (the value of the transform coefficient) and the inversely quantized value). .
  • the maximum quantization error in the subband is compared with the masking power threshold, and if the quantization error power is larger than the masking power threshold, the scale factor is counted up and the next is performed. Perform quantization-inverse quantization ⁇ noise power evaluation again using the scale factor. If the maximum value of the quantization error power in the sub-band is smaller than the masking power threshold, the process proceeds to the next sub-band.
  • Huffman coding is performed and the bit amount is reduced. Is converted, and it is determined whether or not the bit amount is equal to or less than a predetermined bit amount set in the encoding rate.
  • the process can be completed if the converted bit amount is smaller than the predetermined bit amount, but if the converted bit amount exceeds the predetermined bit amount, the common scale factor is counted up by 1, returned to the beginning, and counted up by 1. Quantization and inverse quantization are performed again from the common scale factor and the initial value of the scale factor, and the evaluation calculation of the quantization error and the masking power threshold is performed again.
  • FIGS. 8 and 9 are flowcharts showing quantization Z encoding. An operation by the above-described conventional iterative processing is shown in a flowchart.
  • [S1] common—Calculate the initial value of scalefactor.
  • equation (3) is defined as an equation for calculating the initial value.
  • Xmax is the maximum value of the transform coefficient in the frame.
  • N [i] (Xi [i] -QX [i]) A2 (6)
  • [S8] It is determined whether or not processing of all transform coefficients in the subband is completed. If completed, go to step S10. If not completed, go to step S9. [S9] Update the variable i, and return to step S5.
  • CS 13 Determine whether or not processing of all subbands has been completed. If completed, go to step S15. If not completed, go to step S14.
  • [S18] Update the scale factor and start over from step S2.
  • a number of round robins are performed in order to complete the processing.
  • the amount of arithmetic processing becomes extremely large, and the processing may not enter into an infinite loop without convergence (in such a case, processing for loosening the allowable value is started).
  • the efficiency was very poor.
  • the present invention solves such a problem, and provides an audio encoding device that realizes an improvement in operation efficiency by reducing the amount of operation.
  • the estimation calculation of the quantization noise and the approximate calculation of the quantization step size performed by the quantization step size calculation unit 12 of the present invention will be described in detail.
  • the calculation of two types of scale factors is approximated by a single operation in order to realize an encoder with a low operation amount.
  • the quantization equation of the above equation (1) for obtaining the quantization value I is modified as follows (in the equation, the floor symbol is omitted).
  • Xa is a representative value of the transform coefficient in each subband.
  • the average value of a plurality of transform coefficients included in the corresponding subband may be set as the representative value, or the maximum value of the plurality of transform coefficients included in the corresponding subband may be set as the representative value.
  • Q be the quantization step size.
  • FIG. 10 is a diagram for explaining average quantization noise. For example, suppose that the value (magnitude) of A is at the position shown in the figure for the quantization step size of 2 (3Q / 16) . At this time, the interval b is the quantization noise (quantization error) when A is quantized with the quantization step size 2 (3q / 16) .
  • A is divisible by 2 (3Q / 16) , so the interval b is zero and the quantization noise has a minimum value of zero. If A is at the position of P2, the interval b is 2 (3Q / 16) . In this case, the quantization noise is the maximum value of 2 (3Q / 16) .
  • Equation (9) which divides 2 (3Q / 16) by 2, means that the average value of this distribution (the middle value of the distribution) is the average quantization noise of A.
  • FIG. 11 is a diagram showing the relationship between A and Xa.
  • the quantization of Xa is a non-linear method that makes the quantization step size variable according to the amplitude of Xa. Even in the case of shape quantization, when calculating the quantum noise of Xa, it is necessary to correct the quantization step size (2 ⁇ 3q / 16) according to the amplitude of Xa. Assuming that the correction coefficient (non-linear compression coefficient) is r, the correction coefficient r is given by the following equation (10).
  • the average quantization noise of I Xa] is obtained by multiplying the average quantization noise (estimated value of quantization noise) of A in equation (9) by the correction coefficient r in equation (10).
  • the following equation (11) is obtained.
  • Equation (1 1) is basically the quantum of I Xa (3/4) by 2 (3q / 16) ⁇ Xa (3/4) ⁇ ⁇
  • the denominator of this division, 2 (3Q / 16) is divided by 2 and multiplied by the correction coefficient r. It was done.
  • the quantization step size q is calculated using the average quantization noise of Xa.
  • the average quantization noise of Xa corresponds to one sub-band, and this average quantization noise is It suffices to determine Q so as not to exceed the masking power threshold M of the band. That is, q is calculated using the equality of the masking power threshold M converted to the amplitude (the square root) and the equation (11).
  • Equation (12) If Equation (12) is expanded as follows, the quantization step size q of each subband becomes Equation (13c).
  • the quantization step size is approximately calculated from the average value of the quantization noise, but may be calculated from the maximum value of the quantization noise.
  • the maximum quantization noise of A is 2 ⁇ (3q / 16), and multiplying this by the correction coefficient r gives the maximum quantization noise of
  • the quantization step size Q is calculated by changing the masking power threshold M Equation (15) is calculated by assuming that this is equal to equation (14).
  • the quantization unit 13 substitutes the quantization step size Q approximately obtained in this way into equation (1). , Calculate the quantized value for each transform coefficient X The Thereafter, the quantized value is Huffman-encoded by the encoding unit 15 and transmitted.
  • the information to be transmitted to the decoder side is to transmit not only the quantized value but also the values of the common scale factor and the scale factor. Therefore, it is necessary to determine the common scale factor and scale factor from the quantization step size Q.
  • equation (3) was used to calculate the common scale factor.
  • the largest quantization step size among a plurality of quantization step sizes corresponding to all subbands of one frame is used. Is set as the common scale factor (ie, the maximum value of the quantization step size for each subband, which is approximately calculated, is taken as the common scale factor).
  • the scale factor of each subband is calculated from the following equation (17) by modifying equation (2). Max.cj in the equation represents the maximum value of the quantization step size.
  • the common scale factor and the scale factor are obtained from the quantization step size Q.
  • the encoding unit 15 performs Huffman encoding on these, and also transmits the common scale factor and the scale factor to the decoder side.
  • the reason why the common scale factor is set to the maximum value of the quantization step size is to reduce the number of bits required for encoding the scale factor value as much as possible and to increase the encoding efficiency in the encoding unit 15.
  • FIGS. 13 and 14 are flowcharts showing the overall operation of the present invention.
  • the space transformation unit 11 performs MDCT on the PCM sample value to calculate a transformation coefficient.
  • the quantization step size calculation unit 12 obtains a representative value of the conversion coefficient for each subband (the spatial conversion unit 11 may perform this process).
  • the quantization step size calculation unit 12 calculates the quantization step size Q of the corresponding subband using Expression (13 c).
  • the quantization step size calculation unit 12 It is determined whether the quantization step size for the command has been obtained. If all are found, go to step S25, otherwise return to step S23.
  • the scale factor calculation unit 14 sets the maximum value of the quantization step size as the common scale factor.
  • the scale factor calculation unit 14 calculates the scale factor for each subband from Expression (17).
  • the quantization unit 13 quantizes the transform coefficients in the sub-band using the equation (1) with the quantization step size obtained for each sub-band.
  • the coding unit 15 performs Huffman coding on the quantized value, the common scale factor, and the scale factor, and calculates the number of bits consumed up to the current subband.
  • the encoder 15 determines whether or not the number of consumed bits (encoded bits for each of the quantization value, common scale factor, and scale factor) exceeds a predetermined allowable number of bits. I do. If so, go to step S31. If not, go to step S32.
  • the encoding unit 15 determines whether all subbands have been processed. If all the operations have been performed, the process ends; otherwise, the process proceeds to step S33.
  • processing is performed on lower subbands and successively higher subbands, and processing is stopped when the number of allowable bits is exceeded.
  • the allowable number of bits is the sum of the number of bits in the bit reservoir and the set bit rate, and it is not always necessary to calculate the auditory entropy. Therefore, the present invention performs an operation of assigning many bits for a frame having a wide frequency characteristic and assigning few bits for a narrow frame. In other words, the number of required bits is automatically assigned according to the level of auditory entropy, so that the processing can be simplified, and the amount of program memory and computation can be further reduced.
  • a clock of about 3 GHz is required as the processing power of the embedded processor.
  • a real-time encoder can be realized with a clock of about 60 MHz, and measurement results with a reduced amount of computation to 1Z50 or less were obtained.
  • FIG. 15 is a diagram showing a configuration of an MPEG2-AAC encoder to which the present invention is applied.
  • MPEG2—AAC encoder 20 consists of a psychological auditory analysis unit 21, a gain controller 22, a filter bank 23, a TNS (Temporal Noise Shaping) 24, an intensity / coupling unit 25, a prediction unit 26, and an M / S (Middle / Side ) 27, a quantization encoder 10a, a bit reservoir 28, and a bit stream generator 29.
  • the quantized Z encoder 10a includes the components of the quantizer 13, the scale factor calculator 14, and the encoder 15 shown in FIG.
  • the AAC algorithm has three profiles according to the complexity and structure. Here, the description focuses on the processing of the Main profile that provides the highest sound quality.
  • the input audio signal is divided into blocks every predetermined number of samples and processed as one frame.
  • the psychological auditory analysis unit 21 obtains a frequency spectrum by Fourier transforming the input frame, calculates masking of hearing based on the frequency spectrum, and calculates a masking power threshold value and a parameter of the auditory entropy for the frame. Ask.
  • the gain controller 22 is a tool used only for SSR (Scalable Sampling Rate) of three profiles, Divide by 4 to control the gain of signals other than the lowest band.
  • Filler bank 23 corresponds to the MDCT section and performs MDCT on the input time signal to calculate the conversion coefficient.
  • TNS 24 performs linear prediction by regarding the transform coefficient as if it were a signal on the time axis, and performs prediction filtering on the transform coefficient. By this processing, the quantization noise included in the waveform obtained by performing the inverse MDCT on the decoder side comes to be concentrated in a place where the signal level is large.
  • the gain controllers 22 and TNS 24 are tools used to efficiently encode sharp sounds such as percussion instruments.
  • Intensity Z-coupling unit 25 and MZS27 are tools that increase the coding efficiency by using the correlation between channels when there are two or more channels. Tool used to encode).
  • Intensity stereo encodes the ratio of the sum signal of the left (L) and right (R) channel signals to the ratio.
  • Coupling encodes the sound to be localized in the background sound as a coupling channel.
  • the M / S27 sub-codes either the left (L) and right (R) channel signals, or the sum (L + R) and difference (L-R) signals of each. Select and perform for each band.
  • the prediction unit 26 is used only in the Main profile. For each transform coefficient, the current transform coefficient value is predicted from the quantized transform coefficients in the past two frames, and the prediction residual is obtained. In particular, when the input signal is stationary, a very large prediction gain is obtained, and the power (variance) of the transform coefficient is reduced. If the same quantization noise power is allowed, the smaller the variance of the quantization object, the smaller the number of required bits, which is advantageous for compression.
  • the transform coefficients processed by each of the above tools are input to the quantized Z encoding unit 10a, which is a main part of the present invention.
  • the quantized Z-encoding unit 10a performs high-speed quantized Z-encoding with a single operation on the transform coefficients grouped for each sub-band. The detailed operation is described above, and the explanation is omitted.
  • the component of the conventional AAC encoder corresponding to the quantized Z encoder 10a is called Iteration Loops and is composed of blocks that perform iterative processing.
  • Conventional quantization ⁇ Huffman coding is performed in an iterative loop. This is inefficient because it is repeated until the actually generated code amount falls below the number of bits allocated to the frame.
  • the bit reservoir 28 buffers bits for adaptively changing the number of allocated bits of a frame when performing Huffman coding.
  • a pseudo variable bit rate can be set by the bit analyzer 28.
  • the bit stream generation unit 29 collects the encoded data from each tool and outputs the data as one AAC bit stream from the transmission path.
  • the present invention it is not necessary to perform trial and error as in the related art in order to calculate a scale factor below the masking power threshold, and approximation can be performed by one operation. Can be reduced. In addition, since the calculation load can be reduced, the size and cost of the device can be reduced.
  • the present invention is widely applied to MPEG4-AAC encoders, MP3 encoders, and other audio encoding encoders. It is possible to apply the invention.
  • the audio encoding device of the present invention estimates and calculates quantization noise from the representative value of the transform coefficient in each subband, and calculates the masking power threshold of the auditory characteristics, the quantization noise, and ,
  • the quantization step size of each subband is approximately calculated. Then, based on the quantization step size, the transform coefficients are quantized to obtain a quantized value, a common scale factor and a scale factor are determined, and these are encoded. As a result, it is possible to significantly reduce the amount of operation for the quantization operation of the transform coefficient performed according to the human auditory characteristics, and to improve the operation efficiency.

Abstract

 量子化/符号化の演算量を大幅に削減し、演算効率の向上を図る。空間変換部(11)は、音声信号のサンプル値に空間変換を施して変換係数を算出する。量子化ステップサイズ演算部(12)は、各サブバンド内の変換係数の代表値から、量子化ノイズを推定算出し、聴覚特性のマスキングパワーしきい値と、量子化ノイズとから、各サブバンドの量子化ステップサイズ(q)を近似的に算出する。量子化部(13)は、量子化ステップサイズ(q)にもとづき、変換係数を量子化して量子化値(I)を求める。スケールファクタ算出部(14)は、量子化ステップサイズ(q)から、コモンスケールファクタ(csf)と、スケールファクタ(sf)とを求める。符号化部(15)は、量子化値(I)、コモンスケールファクタ(csf)、スケールファクタ(sf)の少なくとも1つを符号化する。

Description

明 細 書 オーディォ符号化装置 技術分野
本発明は、 オーディオ符号化装置に関し、 特に音声信号の情報を圧縮して符号 化を行うォ一ディォ符号化装置に関する。 背景技術
移動体通信や CDなどでは、 音声のディジタル処理が行われ、 ディジタル化さ れた音声信号は、 ユーザにとっても身近な存在となっている。 ディジタル音声信 号を効率よく圧縮,伝送するためには、 高能率符号化が行われており、 音声圧縮 のアルゴリズムは、 MPEG (Moving Picture Expert Group) で標準規格化さ れている。
MPEGの音声圧縮アルゴリズムの代表的なものには、 MP 3 (MPEGl-Aud io layer3) や MPEG2—AAC (Advanced Audio Codec) がある。 MP 3 は、 モノラルまたは 2チャネルの音声信号を符号化の対照とする MPEG— 1ォ —ディォのレイヤ 3の圧縮方式であり (レイヤ 3方式は、 レイヤ 1、 2の圧縮方 式よりも高品質で高圧縮率) 、 インタ一ネット上の音楽配信などに広く使用され ている。
また、 MPEG2— AACは、 MP E G— 1オーディオとの互換性を排除し、 マルチチャネルの音声信号を符号化の対照として、 より高音質 ·高圧縮率を達成 した圧縮規格である。 MPEG2— AACは、 携帯電話を使った音楽配信に向い ており、 またディジタル (衛星 ·地上波) 放送などに採用されることが検討され ている。
MP 3及び MP EG 2— AACの符号化アルゴリズムでは、 いずれの場合も、 入力した P CM (Pulse Code Modulation) 信号をフレーム単位で切り出して空 間変換を施し、 変換係数を量子化した後に符号化を行なってビットストリームを 生成する、 という共通のアルゴリズムが使用されている。 一方、 従来の技術として、 量子化歪み及び符号量の適切な値が得られるまで、 スケジユーリング係数及び量子化ステップの更新処理を行うォ一ディォ符号化技 術が提案されている (例えば、 特許文献 1参照) 。
特許文献 1
特開 2000— 347679号公報 (段落番号 〔0059〕 〜 〔0085
〕 , 第 1図)
上記のような MP 3及び MP EG 2 _AACの符号化アルゴリズムは、 高音質 で、 最も情報量を減らすことができるように、 人間の聴覚特性を考慮しながら、 量子化時の量子化ステップサイズ (スケールファクタ) を算出している。 しかし、 その演算量は非常に大きなものであり、 演算効率が悪いため、 低コストで演算量 の少ない、 リアルタイムエンコーダの実現が強く望まれている。
また、 従来技術 (特開 2000— 347679号公報) でも演算量の削減を目 的としているが、 スケジユーリング係数及び量子化ステップを更新しながらの反 復処理を行って、 目標符号量に収束させる制御なので、 収束時間の大幅な短縮化 とはならず、 演算量削減のための最良な技術とはいえない。 発明の開示
本発明はこのような点に鑑みてなされたものであり、 人間の聴覚特性に応じて 行われる、 変換係数の量子化演算に対し、 演算量の大幅な削減を可能にしたォ一 ディォ符号化装置を提供することを目的とする。
本発明では上記課題を解決するために、 図 1に示すような、 音声信号の符号化 を行うオーディオ符号化装置 10において、 音声信号のサンプル値に空間変換を 施して変換係数を算出する空間変換部 11と、 変換係数を周波数帯域毎にグルー プ分けしたサブバンドに対し、 各サブパンド内の変換係数の代表値から、 量子ィ匕 ノイズを推定算出し、 聴覚特性のマスキングパワーしきい値と、 量子化ノイズと から、 各サブバンドの量子化ステップサイズ qを近似的に算出する量子ィヒステツ プサイズ演算部 12と、 量子化ステップサイズ Qにもとづき、 変換係数を量子化 して量子化値 Iを求める量子化部 13と、 量子化ステップサイズ qから、 フレー ム全体のオフセット値であるコモンスケールファクタ c s f と、 サブバンド毎の スケールファクタ s f とを求めるスケールファクタ算出部 1 4と、 量子化値 I、 コモンスケールファクタ c s ί、 スケールファクタ s fの少なくとも 1つを符号 化する符号化部 1 5と、 を有することを特徴とするオーディォ符号化装置 1 0が 提供される。
ここで、 空間変換部 1 1は、 音声信号のサンプル値に空間変換を施して変換係 数を算出する。 量子ィ匕ステップサイズ演算部 1 2は、 変換係数を周波数帯域毎に グループ分けしたサブバンドに対し、 各サブバンド内の変換係数の代表値から、 量子化ノイズを推定算出し、 聴覚特性のマスキングパワーしきい値と、 量子化ノ ィズとから、 各サブバンドの量子化ステップサイズ Qを近似的に算出する。 量子 化部 1 3は、 量子化ステップサイズ qにもとづき、 変換係数を量子化して量子ィ匕 値 Iを求める。 スケールファクタ算出部 1 4は、 量子化ステップサイズ qから、 フレ一ム全体のオフセット値であるコモンスケ一ルファクタ c s f と、 サブバン ド毎のスケールファクタ s f とを求める。 符号化部 1 5は、 量子化値 I、 コモン スケ一ルファクタ c s ί、 スケールファクタ s : fの少なくとも 1つを符号化する。 本発明の上記および他の目的、 特徴および利点は本発明の例として好ましい実 施の形態を表す添付の図面と関連した以下の説明により明らかになるであろう。 図面の簡単な説明
図 1は、 本発明のオーディオ符号化装置の原理図である。
図 2は、 フレームの概念を示す図である。
図 3は、 変換係数とサブバンドのィメージを示す図である。
図 4は、 フレームに対するコモンスケールファクタ Zスケールファクタの対応 関係を示す図である。
図 5は、 量子化の概念を示す図である。
図 6は、 可聴限界グラフを示す図である。
図 7は、 マスキングパワーしきい値を示す図である。
図 8は、 量子化 Z符号化のフロ一チャートを示す図である。
図 9は、 量子化 Z符号化のフローチャートを示す図である。
図 1 0は、 平均量子化ノイズを説明するための図である。 図 11は、 Aと X aの関係を示す図である
図 12は、 補正係数の算出概念を示す図である。
図 13は、 本発明の全体動作を示すフローチャートである。
図 14は、 本発明の全体動作を示すフローチャートである。
図 15は、 MPEG2— AACエンコーダの構成を示す図である。 発明を実施するための最良の形態
以下、 本発明の実施の形態を図面を参照して説明する。 図 1は本発明のオーデ ィォ符号化装置の原理図である。 オーディオ符号化装置 10は、 音声信号の情報 を圧縮して符号化を行う装置 (エンコーダ) である。
空間変換部 1 1は、 音声信号のサンプル値に空間変換である MD CT (Modified Discrete Cosine Transform) を施して変換係数を算出する。 量子化 ステップサイズ演算部 12は、 変換係数を周波数帯域毎にグループ分けしたサブ バンドに対し、 各サブバンド内の変換係数の代表値から、 量子化ノイズを推定算 出する。 そして、 聴覚特性のマスキングパワーしきい値と、 量子化ノイズとから、 各サブバンドの量子化ステツプサイズ Qを近似的に算出する。
量子化部 13は、 近似的に算出した量子化ステップサイズ Qにもとづき、 変換 係数を量子ィ匕して量子ィ匕値 Iを求める。 スケールファクタ算出部 14は、 量子化 ステップサイズ から、 フレーム全体のオフセッ卜値であるコモンスケールファ クタ c s f と、 サブパンド毎のスケールファクタ s f とを求める。 符号化部 15 は、 量子化値 I、 コモンスケールファクタ c s f、 スケールファクタ s fの少な くとも 1つを符号化する。 符号化の種類としては、 例えば、 出現率の高いものに は短い符号を、 出現率の低いものには長い符号を割り当てるハフマン符号化を行 う。 なお、 本発明に関する量子化ノイズの推定算出や量子化ステップサイズの近 似算出などの動作については図 10以降で詳しく説明する。
次に本発明に関係する音声情報圧縮の基本的な概念と、 従来のエンコーダの量 子化手順を示しながら、 本発明が解決すべき問題点について詳しく説明する。 従 来のエンコーダとしては、 MPEG 2—AACのエンコーダを対象にする (MP 3及び MP EG 2—AACにおける量子化の方法は、 I SO (International Organization for Standardization) の規格書、 例えば、 MP 3は ISO/IEC 11172-3、 MPEG 2— AACは ISO/IEC 13818-7に記載されている) 。
MPEG2 -AAC (以下、 単に AACとも呼ぶ) のエンコーダでは、 まず P CM信号をフレーム単位で切り出して、 PCM信号に空間変換としてMDCTを 施し、 P CMの時間軸上における電力を、 空間 (周波数) 軸上における電力の表 現に変換する。
そして、 MDCTの演算結果である MDCT変換係数 (以下、 単に変換係数) に、 人間の聴覚特性に合わせた量子化処理を施し、 その後に、 ハフマン符号化を 行なつて、 ビットストリームを生成して伝送路上から出力する。
ここで、 A ACにおいて、 変換係数を量子化する式は、 以下の式 (1) で定義 されている (MP 3も同じ式である) 。
I = floor ( ( I X I * 2Λ (-q/4) ) Λ (3/4) - 0. 0946)
… (1) ただし、 Iは量子化値、 Xは量子化対象の MDCTの変換係数、 qは量子化ス テツプサイズである。 なお、 "f l oo r" は、 C言語の関数表記であり、 小数 点以下切捨てを意味する。 また、 ΑΛΒとは、 ΑΒのことである。
一方、 量子化ステップサイズ Qは、 以下の式 (2) で定義される。
Q =scaleiactor— common _ scalefactor … { Δ ) ただし、 scalefactor (スケールファクタ) は、 サブバンド毎のスケールファク 夕値であり、 common— scalefactor (コモンスケールファクタ) は、 1つのフレ ーム全体の量子化ステップサイズのオフセット値である。
ここで、 フレームとは符号化処理の単位であり、 AACでは、 2048個の P
CMのサンプル値に MDCTを施して得られる 1024個の変換係数を 1フレー ムとする。
図 2はフレームの概念を示す図である。 アナログ音声をディジタル化して、 2 048個の P CMサンプル値を得た後に、 これらサンプル値に MDCTを施して、 1024個の変換係数を 1フレームとする。
一方、 サブパンドとは、 1024個の変換係数を、 50個程度にグループ分け した帯域のことである。 各帯域には、 少なくて 1個、 最も多くて 96個の変換係 数が含まれ、 聴覚特性にもとづき、 高帯域になるにしたがって、 括る変換係数の
.
数を増やしている。
図 3は変換係数とサブバンドのイメージを示す図である。 縦軸はレベル、 横軸 は周波数である。 1024個の変換係数は、 周波数軸上、 サブバンド s b 0〜s b 49の 50個の各帯域にグループ分けされている。 図からわかるように、 帯域 の低い側では、 1つのサブバンド内の変換係数の個数は少なく (サブパンドの帯 域幅が狭く) 、 帯域の高い側では、 1つのサブバンド内の変換係数の個数は多く (サブバンドの帯域幅が広く) なっている。
これは、 人間の聴覚特性として、 低帯域 (低音) 側は、 周波数の差を敏感に感 じることができるが (例えば、 図の場合、 変換係数 x l、 X 2に対応する音の違 いは感知できるということ) 、 高帯域 (高音) 側は、 周波数の差を敏感に感じる ことができずに、 同じ音のように感じてしまうという理由からである (すなわち、 人間の聴覚は、 低周波の音の方が周波数分解能が高いということである) 。
このため、 周波数の違いを敏感に感じることができる低い帯域側の信号に対し ては、 細かいサブバンドで分けるようにし、 周波数の違いを感じることが鈍感な 高い帯域側の信号に対しては、 サブバンドを広くとるようにすることで、 人間の 聴覚特性に合わせたサブバンドのグループ分けを行っている。
図 4はフレームに対するコモンスケ一ルファクタ Zスケールファクタの対応関 係を示す図である。 コモンスケールファクタ c s f及ぴスケールファクタ s f 0 〜s f 49を、 図 3に対応させた様子を示しており、 1フレームのサブバンド s b 0〜s b49全体で 1つのコモンスケールファクタ c s fが存在する。 また、 サブバンド s b 0〜s b 49のそれぞれに対応したスケールファクタ s f 0〜s f 49 (全部で 50個) が存在することになる。
したがって、 式 (2) から例えば、 サブパンド s b 0の量子化ステップサイズ Q[s b 0]は、 q[s b 0]= (スケールファクタ s f 0 ) — (コモンスケールフ ァクタ c s f) で求まり、 サブバンド s b 1の量子化ステップサイズ Q [S b 1] は、 q[s b 1]= (スケールファクタ s f 1) 一 (コモンスケールファクタ c s f) で求まる (以下、 同様) 。
図 5は量子化の概念を示す図である。 ある変換係数 mのレベル (大きさ) を X とする。 変換係数 mに量子化を施すということは、 式 (1 ) からわかるように、 単純化すれば、 Xを量子化ステップサイズ Qで割つて余りを捨てている割り算を 行うことを意味している (·.· I = I X I ÷ 2 q /4) 。
図はこの量子化の様子を示すものであり、 大きさ Xの変換係数 mを、 量子化ス テツプサイズとして 2 Q /4で割って、 余りを捨てた結果が 2 * 2 q /4となってい る。 したがって、 この割り算の商 (2 * 2 q /4) が変換係数 mの量子化値となる。 簡単な例でいえば、 量子化ステップサイズが 1 0として、 Xを 1 0で割ったと きの商が 9 . 6だったとすると、 Xを量子化ステップサイズ 1 0で量子化した際 の量子化値は 9となる。
図 5で示した内容からわかるように、 量子化の誤差を小さくして、 音声品質の 向上を図るためには、 量子化ステップサイズ (図で示すステップ幅) が、 量子ィ匕 対象の信号に対して、 適切な値であることが重要である。 また、 この量子化ステ ップサイズは、 上述のようにスケールファク夕とコモンスケールファクタから算 出されるものである。
すなわち、 量子化及び符号化の処理として、 最も音質に影響を与える重要な箇 所は、 各サブバンドのスケールファクタと、 フレームのコモンスケールファクタ との最適値を決定することであるといえる。 この 2種類のスケールファクタの最 適値が決定してしまえば、 その後は式 (2 ) からサブバンド毎の量子化ステップ サイズがわかり、 これを式 (1 ) の量子化式に代入することで (サブバンド s b 内の各変換係数の値を、 サブバンド s b対応の量子化ステップサイズで割り算す ることで) 、 変換係数を量子化した値が求まる。
そして、 量子化値をィンデックスとしたハフマンテ一ブルで八フマンコードに 符号化して伝送路上へ送信することになる。 ところが、 ここで問題となるのが、 I S Oで規定されている方法では、 スケールファクタとコモンスケールファクタ の最適値を決定するためには、 多大な演算量を必要としているということである。 以降演算量が多大となる従来の処理について説明する。 スケールファクタとコ モンスケールファクタを決定する際には、 人間の聴覚特性の 1つであるマスキン グパワーしきい値にもとづいて決定される。 マスキングパワーしきい値とは、 人 間が聞こえる最小の音圧値のことである。 図 6は可聴限界グラフを示す図である。 可聴限界グラフ Gの縦軸は音圧 (d B ) 、 横軸は周波数 (H z ) である。 人間の可聴範囲 (2 0〜2 0,0 0 0 H z ) における聴覚の感度は、 均一ではなく周波数によって違っており、 3〜4 k H zをピークに低域と高域の感度が急激に落ち込む。 このことは、 低い周波数及 び高い周波数側の音は、 音量を大きくしないとよく聞こえないということである。 図のグラフ Gは、 斜線部分が可聴範囲である。 低域側または高域側では、 音圧 (音量) が高くないと聞こえにくく、 3〜4 k H zでは、 音圧が小さくてもよく 聞こえることがわかる (老人の場合では、 可聴範囲の領域が狭くなつてくる) 。 マスキングパワーしきい値は、 この可聴限界グラフ Gにもとづいて、 ある周波数 fではレベル L以下は聞こえないといったしきい値を、 フ一リエ変換 (F F T : Fast Fourier Transform) の演算によって求めたものである。
図 7はマスキングパワーしきい値を示す図である。 縦軸はしきい値のパワーで あり、 横軸は周波数である。 1フレームの周波数帯域は、 サブバンド s b 0〜 s b 4 9でグループ分けされており、 サブバンド毎に求められたマスキングパワー しきい値が示されている。
ここで、 サブパンド s b 0のマスキングパワーしきい値は M 0となっている。 これは、 サブバンド s b 0の帯域においては、 パワー M 0以下の信号 (音) は、 聞こえづらいということである。 このため、 信号処理を行う上では、 しきい値 M 0以下の信号はノイズとみなしてよい (これにより、 マスキングパワーしきい値 は許容ノイズしきい値とも呼ばれる) 。
したがって、 量子化処理を行う場合では、 すべてのサブバンドに対し、 サブバ ンド毎の量子化誤差 (量子化誤差のパワー) が、 それぞれのサブバンドに対応す るマスキングパワーしきい値以下になるような量子化を施せばよいことがわかる。 このことは、 サブバンド s b 0についていえば、 マスキングパワーしきい値 M 0よりも量子化誤差パワーが小さくなるような、 スケールファクタ及びコモンス ケールファクタを決定すればよいということである。
一方、 サブバンド s b 0のマスキングパワーしきい値 M 0とサブバンド s b 1 のマスキングパワーしきい値 M lとを比較すると、 M 0 >M 1である。 このよう に、 許容できるノイズの大きさはサブバンド毎に異なっている。 したがって、 サブパンド s b Oでは、 サブバンド s b 1よりも許容できるノィ ズレベルが大きいので、 サブバンド s b 1よりも量子化誤差は大きくてよい (サ ブバンド s b 0は、 サブバンド s b 1よりも粗く量子化してよい) 。
また、 サブパンド s b 1は、 サブバンド s b 0よりも許容できるノイズレベル が小さいので、 サブバンド s b 0よりも量子化誤差は小さくする必要がある (サ ブバンド s b 1は、 サブバンド s b 0よりも細かく量子化する) 。
なお、 図に示す 1フレーム中、 サブパンド s b 4のマスキングパワーしきい値 が一番小さく、 サブバンド s b 4 9のマスキングパワーしきい値が一番高い値だ とすると、 サブバンド s b 4は、 許容できるノイズレベルが小さく、 聴覚に最も 敏感な箇所ということになるため、 1フレ一ム中の量子化誤差が最も小さくなる ように量子化しないと、 音質劣化が感知されてしまう。 また、 サブバンド s b 4 9は、 許容できるノイズレベルが大きく、 1フレーム中、 最も粗く量子化してよ い。
このように、 各サブバンドに対するスケールファクタ及びフレームのコモンス ケ一ルファクタを決める際には、 上記のようなマスキングパワーしきい値との兼 ね合いを見ていくことになるが、 この他に、 符号化に必要なビットレートは決め られているので、 使用可能な全体のビット数も満たすようにしなければならない
(例えば、 1 2 8 k b p sの符号化レートというように、 符号化のビットレート はあらかじめ決められているので、 そのビットレートから設定される情報量 (ビ ット量) を守る必要がある) 。
なお、 AA Cでは、 フレーム間のビット数を適応的に可変できるように、 ピッ トリザーバという一時的なビット貯蔵庫をもっている。 符号化に使用可能なビッ ト数は、 設定されたビットレートと、 聴覚モデルの聴覚エントロピ一と、 ビット リザ一バにあるビット量とから算出される (聴覚エントロピーとは、 フレームの 入力音声信号を F F Tした周波数スペクトルから求められるもので、 リスナーが 雑音を知覚することがないように、 そのフレームを量子化するのに必要な総ビッ ト数とみなしてよい。 例えば、 広い帯域に渡ってスペクトルが延びるインパルス 音やホワイトノイズなどでは大きな値を示し、 このような場合には、 符号化ピッ 卜が多く必要であると判断される) 。 このように、 2種類のスケールファクタを求めるには、 マスキングパワーしき い値及び符号化使用可能ビット数の両方を満たすように決定することになるが、 I S Oによる従来の技術では、 2種類のスケールファクタを 1つずつ更新しなが ら量子化と逆量子化を繰り返す反復処理を行つて求めている。
従来処理の流れについて記すと、 まず最初に、 コモンスケールファクタ及びス ケールファクタに初期値を設定する。 そして、 初期値を設定したコモンスケール ファクタ及びスケールファクタで、 変換係数を量子ィヒしてみる。 そして、 量子ィ匕 値を逆量子化してから、 量子化誤差を求める (量子化誤差は、 量子化する前の値 (変換係数の値) と、 逆量子化値の差分値のことである) 。
その後、 サブバンド内の最大の量子化誤差とマスキングパワーしきい値とを比 較して、 量子ィ匕誤差パワーがマスキングパヮ一しきい値よりも大きければ、 スケ ールファクタをカウントアツプして次のスケールファクタで再び、 量子化—逆量 子化→ノイズパワー評価を行う。 また、 サブバンド内の量子化誤差パワーの最大 値がマスキングパワーしきい値よりも小さければ、 次のサブバンドへ移る。
このようにして、 すべてのサブバンドに対して、 量子化誤差がマスキングパヮ 一しきい値よりも小さくなつた後に (この時点でスケールファク夕はすべて算出 されている) 、 ハフマン符号化してビット量を換算し、 そのビット量が符号化レ 一トで設定される所定のビット量以下であるか否かを判断する。
このとき、 換算ビット量が所定ビット量よりも小さければ終了できるが、 所定 ビット量を超えてしまう場合には、 コモンスケールファクタを 1つカウントアツ プして、 最初に戻り、 1つカウントアップしたコモンスケールファクタとスケー ルファクタの初期値とから、 あらためて量子化、 逆量子化を行って、 再び量子化 誤差とマスキングパワーしきい値との評価演算を行っていく。
図 8、 図 9は量子化 Z符号化のフローチャートを示す図である。 上記の従来の 反復処理による動作をフローチャートで示している。
〔 S 1〕 common— scalefactor の初期値を算出する。 なお、 AA Cの規格書に は、 初期値の算出式として以下の式 (3 ) が定義されている。 ただし、 Xmaxは、 フレーム内の変換係数の最大値である。
common_scalefactor=(l6/3)*(log2(XmaxA(3/4)/819l)) · · · ( 3 ) 〔S 2〕 処理対象のサブバンドを示す変数 s bを初期化する (s b=0) 。
〔S 3〕 scalefactor[sb]を初期化 (scalefactoi'[sb]=0) する。
〔S 4〕 量子化処理対象の MDCTの変換係数を表す変数 iを初期化する。
〔S 5〕 変換係数 X[i]を量子化する。 量子化の式は以下の式 (4 a) 、 (4 b) である (式 (1) 、 (2) に変数要素 [i]を入れただけである) 。 QX[i] は量子化値を表す。
q= common _ scale iactor - scalefactor [SDJ … 、4 a)
QX[i]=floor ((IXtiJl *2A(-q/4))A3/4 - 0.0946) … (4b)
〔S 6〕 量子化した変換係数を逆量子化する。 逆量子化の式は、 以下の式 (5) である。 X_ i]は逆量子化値を表す。
X"1 [i] = QX[i]A(4/3)*2A(-l/4*q) … (5)
〔S 7〕 変換係数の量子化および逆量子化による量子化誤差パワー (ノイズパヮ ―) N[i]を以下の式 (6) で算出する。
N[i] = (X-i [i] - QX[i])A2 … (6) 〔S 8〕 サブバンド内のすベての変換係数の処理が完了したか否かを判断する。 完了していればステップ S 10へいき、 完了してなければステップ S 9へいく。 〔S 9〕 変数 iを更新し、 ステップ S 5へ戻る。
CS 10〕 サブバンド内の量子ィヒ誤差パワーの最大値 MaxNを求める。
〔S 1 1〕 量子化誤差パワーの最大値 MaxN と、 聴覚モデルのマスキングパヮ —しきい値 M[sb]とを比較する。 MaxN<M[sb]である場合 (ノイズの最大値がマ スキングパワーしきい値を下回っている場合) 、 該当サブバンドの量子化はとり あえず完了としてステップ S 13へいき、 そうでなければもっと細かく量子化す る必要があるということでステップ S 12へいく。
〔S 12〕 scalefactor [sb]を更新し、 ステップ S 4からやり直す。
CS 13〕 すべてのサブバンドの処理が完了したか否かを判断する。 完了してい ればステップ S 1 5へいき、 完了してなければステップ S 14へいく。
〔S 14〕 サブバンドを示す変数 s bを更新して、 ステップ S 3へ戻る。
〔S 1 5〕 すべての変換係数の量子化が完了したので、 量子化値をもとにハフマ ン符号化を行う。 〔S 16〕 ハフマン符号化値から、 消費するビット数を算出する。
〔S 1 7〕 消費ビット数があらかじめ決められた許容ビット数に収まっているか 否かを判断する。 収まっているならば量子ィヒ /符号化処理を終了し、 そうでなけ ればステップ S 18へいく。
〔 S 18〕 common— scalefoctorを更新して、 ステップ S 2からやり直す。 以上説明したように、 従来の技術では、 処理を完了させるために、 1つの変換 係数に関して、 最適な量子化ステップサイズ値 (2つのスケールファクタ値) を 探すために、 総当りで何度も何度も量子化と逆量子化処理及び符号化処理を行な う必要があった。 このため、 演算処理量が非常に大きくなり、 また処理が収束せ ずに無限ループに入ってしまう場合もあり (このようなことが起きたときには、 許容値を緩める処理が起動される) 、 演算効率が非常に悪いものであった。 本発 明ではこのような問題点を解決し、 演算量を削減して演算効率の向上を実現した オーディォ符号化装置を提供するものである。
次に本発明の量子化ステップサイズ演算部 12で行われる、 量子化ノイズの推 定算出及び量子化ステップサイズの近似算出について詳しく説明する。 本発明で は、 低演算量のエンコーダを実現するために、 2種類のスケールファクタの算出 を、 一回の演算で近似する。
まず、 量子化値 Iを求める上述の式 (1) の量子化式を以下のように変形する (式中、 floorの記号は省略) 。 なお、 X aは各サブバンド内の変換係数の代表 値とする。 例えば、 該当サブバンド内に含まれる複数の変換係数の平均値を代表 値としてもよいし、 該当サブバンド内に含まれる複数の変換係数の中の最大値を 代表値としてもよい。 また、 量子化ステップサイズを Qとおく。
I = ( I Xa I * 2Λ (一 dZ4) ) Λ (3/4) —0. 0946
= I Xa Γ (3/4) * 2Λ ( (-q/4) * (3/4) ) — 0. 0946 = I Xa Γ (3/4) * 2Λ (- 3 q/16) _0. 0946 ··· (7) ここで、 式 (7) 中の I Xa (3/4) に対して、 I Xa (3/4) =Aとすると、 以下の式 (8) となる。
I =Α* 2Λ (- 3 q/16) - 0. 0946 ·'· (8) 式 (8) から、 Αは 2Λ (3 q/16) の割り算 ( = A/2 (3q/16) ) である から、 Aは 2 ( ハ6)で量子化されているということであり、 この割り算の分 母 (= 2 (3 Q/16) ) が量子化精度に影響を与えるパラメ一夕となっている (A を丸める際の幅、 すなわち、 量子化ステップサイズである) 。 そして、 この分母 を 2で割って平均すると以下の式 (9) となる。
2Λ (3 q/16) /2-2Λ ( (3 q/16) -1) ■·· (9) この式 (9) は、 Aの量子化ノイズを平均した値 (平均量子化ノイズ) を表し ている。 図 10は平均量子化ノイズを説明するための図である。 例えば、 量子化 ステップサイズである 2 (3Q/16)に対して、 Aの値 (大きさ) が図に示すよう な位置にあるとする。 このとき、 間隔 bが、 Aを量子化ステップサイズ 2 (3q/1 6)で量子化した際の量子ィ匕ノイズ (量子化誤差) となる。
Aがちょうど P 1の位置にあれば、 Aは 2 (3Q/16)で割り切れるということ なので、 間隔 bはゼロであり、 量子化ノイズは最小値 0になる。 また、 Aが P2 の位置にあれば、 間隔 bは 2 (3Q/16)となって、 このときは量子化ノイズは最 大値の 2 (3Q/16)になる。
量子化ノイズは、 0〜2 (3q/16)で一様に分布すると考える。 したがって、 2 (3Q/16)を 2で割る式 (9) は、 この分布の平均値 (分布の真ん中の値) を Aの平均量子化ノイズとすることを意味している。
このように、 Aの平均の量子化ノイズは式 (9) として求まるが、 実際に必要 なものは、 X aの量子化ノイズである。 ここで、 Aと X aの関係が、 もし線形で あったならば (A=k* I Xa I)、 式 (9) で求めた Aの平均量子化ノイズを、 X aの平均量子ィ匕ノイズとしてよい。
しかし、 実際は A= I Xa (3/4) であって、 Xaに 3/4の累乗がか かっているので、 Aと X aの関係は非線形の関係にあり (X aは非線形圧縮信号 である) 、 式 (9) をそのまま Xaの平均量子化ノイズとすることはできない。 図 11は Aと X aの関係を示す図である。 縦軸に A、 横軸に Xaをとり、 A= XaA (3/4) の指数関数のグラフを示している。 Aを等間隔に区切った A 1、 Α2、 · · ·に対応する X aを X a 1、 X a 2、 ···とすると、 X a l、 X a 2、 ···のそれぞれの間隔は、 等間隔ではなく広がってくることがわかる。
X aの量子化は、 X aの振幅に応じて量子化ステップサイズも可変にする非線 形量子化であって、 X aの量子ィヒノイズを求める場合にも、 X aの振幅に応じて、 量子化ステップサイズである 2 <3q/16)を補正する必要がでてくる。 補正係数 (非線形圧縮係数) を rとすると、 補正係数 rは以下の式 (10) となる。
r = I Xa I / ( I Xa I Λ (3/4) ) = | Xa (1/4)
… (10) 図 12は補正係数 rの算出概念を示す図である。 Aの量子化ステップサイズ 2 (3q/16)による量子化に対し、 A= I Xa I Λ (3/4) なので Αを ΧΑに伸張 させる場合を考える。 Αを ΧΑに伸張させるには、 伸張の比率 rを 2 (3q/16)に 乗算する必要がある。 r=XA/Aであって、 式 (10) のように求まることが わかる。
例えば、 7の 2による量子化に対して、 7を 10. 5に伸張させた場合の量子 化ステップサイズを求めると、 比率 rは 1. 5 (=10. 5/7) なので、 2に 1. 5を掛けた 3が、 7を 10. 5に伸張させた場合の量子化ステップサイズに なる。
したがって以上の説明により、 I Xa ]の平均量子化ノイズは、 式 (9) の A の平均量子化ノイズ (量子化ノイズ概算値) に式 (10) の補正係数 rを乗算し たものとなり、 以下の式 (1 1) となる。
2Λ ( (3 q/16) - 1) * I Xa に (1/4) … (1 1) 式 (1 1) は要するに、 I Xa (3/4) の 2 (3q/16)による量子化、 す なわち Π Xa (3/4) } ÷2 (3q/16)という割り算に対して、 この割り 算の分母の 2 (3Q/16)を 2で割って、 それに補正係数 rを乗算したものである。 次に X aの平均量子化ノィズを用いて量子ィ匕ステツプサイズ qを求めるが、 X aの平均量子化ノイズは 1つのサブパンドに対応するものであって、 この平均量 子化ノィズが該当サブバンドのマスキングパワーしきい値 Mを超えないような Q を決定すればよいことになる。 すなわち、 マスキングパワーしきい値 Mを振幅に 直したもの (平方根をとつたもの) と、 式 (11) との等号をとつて qを算出す る。
M八 (1/2) =2Λ ( (3 q/16) — 1) * I Xa |八 (1/4)
… (12) 式 (12) を以下のように展開していくと、 各サブバンドの量子化ステップサ ィズ qは式 (13 c) となる。
2Λ ( (3 q/16) - 1) =ΜΛ (1/2) * I Xa (—1,4)
… (13 a) (3 q/16) - 1= 1 o g2Λ (1/2) * I Xa (- 1/4) )
… (13 b) q=[ l o g2Λ (1/2) * I Xa (一 1,4) } + 1]* 16/3
… (13 c) なお、 上記では、 量子化ノイズの平均値から量子化ステップサイズを近似的に 算出したが、 量子化ノイズの最大値から求めてもよい。 この場合、 Aの最大量子 化ノイズは 2Λ (3 q/16) であり、 これに補正係数 rを掛けて、 | Xa |の 最大量子化ノイズは式 (14) となる。
2Λ (3 q/16) * I Xa I Λ (1/4) ··· (14) このときの量子化ステップサイズ Qは、 上記と同様にして、 マスキングパワー しきい値 Mを振幅に直したものと式 (14) とを等しいとおいて計算すると、 式 (15) となる。
q=[ l o g2Λ (1/2) * I Xa (- 1/4) } ]* 16/3
… (1 5) なお、 上記の平均量子化ノイズは 2 (3Q/16)を 21で割ったもの、 最大量子化 ノイズは 2 (3Q/16)を 2。で割ったものとみなせるので、 2 (3q/16)を 2nで割 つたものを量子化ノイズの一般値とすると、 量子化ステップサイズは式 (16) と書くことができる。 n=0、 1、 2、 ' であり、 n = 0の場合が最大量子化 ノイズとマスキングパワーしきい値とを評価したときの Qであり、 n= 1の場合 が平均量子化ノイズとマスキングパワーしきい値とを評価したときの qである。
q=[ l ο g2Λ (1/2) * I Xa I Λ (一 1,4) } +n]* 16/3
(n=0、 1、 2、 ···) … (16) そして、 量子化部 1 3では、 このように近似的に求めた量子化ステップサイズ Qを、 式 (1) に代入することで、 個々の変換係数 Xにおける量子化値を算出す る。 その後、 量子化値は、 符号化部 1 5でハフマン符号化されて送信される。 また、 デコーダ側に送信する情報は、 量子化値だけでなく、 コモンスケールフ ァク夕及びスケールファクタの値も送信することになつている。 したがって、 量 子化ステップサイズ Qからコモンスケールファク夕及びスケールファクタを求め る必要がある。
従来では、 コモンスケールファクタを算出する場合は式 (3 ) を使用していた が、 本発明では 1フレームのすべてのサブバンドに対応する複数の量子化ステツ プサイズの中の最大の量子化ステツプサイズを、 コモンスケールファクタと設定 する (すなわち、 近似的に算出した、 サブバンド毎の量子化ステップサイズの最 大値をコモンスケールファクタとする) 。 また、 各サブバンドのスケールファク 夕は式 (2 ) を変形して以下の式 (1 7 ) から算出される。 式中の max. cjは 量子化ステップサイズ最大値を表す。
scale factor L s b]=common _ scalefactor— q [ s b] =max. Q— q [ s bj
… ( 1 7 ) このように、 量子化ステップサイズ Qからコモンスケールファクタ及びスケ一 ルファクタを求める。 符号化部 1 5では、 これらをハフマン符号化して、 コモン スケ一ルファクタ及びスケールファク夕もデコ一ダ側に送信する。
なお、 コモンスケールファクタを量子化ステップサイズの最大値としたのは、 スケールファクタ値の符号化に要するビット数をできるだけ小さくして、 符号化 部 1 5での符号化効率を上げるためである。
次に本発明の動作をフローチャートを用いて説明する。 図 1 3、 図 1 4は本発 明の全体動作を示すフローチャートである。
C S 2 1〕 空間変換部 1 1は、 P C Mサンプル値に MD C Tを施し、 変換係数を 算出する。
〔S 2 2〕 量子化ステップサイズ演算部 1 2は、 サブバンド毎に変換係数の代表 値を求める (空間変換部 1 1でこの処理を行ってもよい) 。
C S 2 3〕 量子化ステップサイズ演算部 1 2は、 式 (1 3 c ) を用いて、 該当サ ブバンドの量子化ステップサイズ Qを算出する。
C S 2 4〕 量子化ステップサイズ演算部 1 2は、 1フレーム中のすべてのサブバ ンドに対する量子化ステップサイズを求めたか否かを判断する。 すべて求めた場 合はステップ S 2 5へいき、 そうでなければステップ S 2 3へ戻る。
〔S 2 5〕 スケールファクタ算出部 1 4は、 量子化ステップサイズの最大値をコ モンスケ一ルファクタと設定する。
C S 2 6 ] スケールファクタ算出部 1 4は、 式 (1 7 ) からサブバンド毎のスケ ールファクタを算出する。
C S 2 7 ] 量子化対象のサブバンドを示す変数 s bを初期化する (s b = 0 ) 。 C S 2 8〕 量子化部 1 3は、 サブバンド毎に求めた量子化ステップサイズで、 式 ( 1 ) を用いて、 サブバンド内の変換係数を量子化する。
〔S 2 9〕 符号化部 1 5は、 量子化値、 コモンスケールファクタ、 スケールファ クタをハフマン符号化し、 現在のサブバンドまでの消費ビット数を算出する。
〔S 3 0〕 符号化部 1 5は、 消費ビット数 (量子化値、 コモンスケールファクタ、 スケールファクタのそれぞれに対する符号化割り当てビット) があらかじめ決め られた許容ビット数を超えているか否かを判断する。 超えていればステップ S 3 1へいき、 超えていなければステップ S 3 2へいく。
〔S 3 1〕 処理対象のサブバンドのビットを加算することで、 許容ビット数がォ —バすることになつたので、 符号化部 1 5は、 該当サブパンドを符号化対象から 外す (符号化処理を停止する) 。
〔S 3 2〕 符号化部 1 5は、 すべてのサブバンドの処理を行ったか否かを判断す る。 すべて行った場合は終了し、 そうでなければステップ S 3 3へいく。
〔S 3 3〕 サブパンドを示す変数 s bを更新して、 ステップ S 2 8へ戻る。
以上説明したように、 本発明によれば、 各変換係数につき 1回の量子化処理を 行うだけですみ、 また逆量子化を行っての量子化誤差パワー算出処理なども不要 となるため、 大幅に演算量が削減できることになる。
また、 上記のフローチャートからわかるように、 低いサブパンドから、 次々と より高いサブバンドに対して処理を行って、 許容ビット数をオーバするところで 処理を止めている。 許容ビット数は、 ビットリザーパにあるビット数と設定ビッ トレートを加算したものとし、 聴覚エントロピーなどは必ずしも算出する必要が ない。 このため、 本発明は周波数特性が広いフレームについては、 多くビットをアサ インし、 狭いフレームについては、 少なくビットをアサインする動作となる。 す なわち、 聴覚エントロピーの大小にしたがって自動的に必要なビット数をアサイ ンする結果となり、 処理の簡素化が実現でき、 プログラムメモリ量や演算量をよ り削減することが可能になる。
ここで、 従来と本発明との演算速度の違いについて説明する。 従来の音声圧縮 のアルゴリズムで、 リアルタイムエンコーダを実現する場合には、 組み込み型の プロセッサの処理能力として 3 GHz程度のクロックが必要である。 一方、 本発 明のアルゴリズムでは、 60 MHz程度のクロックでリアルタイムエンコーダを 実現することができ、 1Z50以下に演算量を削減した測定結果を得た。
次に本発明のオーディオ符号化装置 10を適用した MP EG 2—AACェンコ ーダについて説明する。 図 15は本発明を適用した MP EG 2—AACェンコ一 ダの構成を示す図である。 MPEG2— AACエンコーダ 20は、 心理聴覚分析 部 21、 ゲインコント口一ラ 22、 フィルタバンク 23、 TNS (Temporal Noise Shaping) 24、 インテンシティ/カツプリング部 25、 予測部 26、 M / S (Middle/Side) 27、 量子化ノ符号化部 10 a、 ビットリザーバ 28、 ビットストリーム生成部 29から構成される。 量子化 Z符号化部 10 aは、 図 1 で示した量子化部 13、 スケールファクタ算出部 14、 符号化部 15の構成要素 を含んでいる。
なお、 AACアルゴリズムには、 複雑度 ·構造に応じて 3つのプロファイルが 用意されており、 ここでは最も高音質の得られる Mainプロファイルの処理を中 心に説明する。
入力されたオーディオ信号は、 所定のサンプル数毎にブロック化され、 それを 1フレームとして処理される。 心理聴覚分析部 21は、 入力フレームをフ一リエ 変換して周波数スペクトルを求め、 それを元に聴覚のマスキングを計算し、 マス キングパワーしきい値と、 そのフレームに対する聴覚ェントロピーのパラメ一夕 を求める。
ゲインコントローラ 2 2は、 3つのプロファイルの S S R ( Scalable Sampling Rate) のみで使用されるツールであり、 入力時間信号を帯域分割フィ ル夕で 4分割して、 最も低いバンド以外の信号のゲインをコントロールする。 フィル夕バンク 2 3は、 MD C T部に該当し、 入力時間信号に MD C Tを施し て変換係数を算出する。 TN S 2 4は、 変換係数を時間軸上の信号であるかのよ うに見立てて線形予測を行い、 変換係数に対して予測フィルタリングを行う。 こ の処理により、 デコーダ側で逆 MD C Tして得られる波形に含まれる量子化ノィ ズは、 信号レベルの大きなところに集まるようになる。 なお、 ゲインコントロー ラ 2 2、 TN S 2 4は、 特に打楽器などの切れのよい音を効率よく符号化するた めに用いられるツールである。
インテンシティ Zカップリング部 2 5及ぴ MZ S 2 7は、 2チャンネル以上の チャネル構成の場合に、 チャネル間の相関を利用して符号化効率を上げるツール である (ステレオのオーディオ信号を効率よく符号化するために用いられるツー ルである) 。
インテンシティステレオは、 左 (L) と右 (R) のチャネル信号の和信号とパ ヮ一の比を符号化する。 カップリングは、 背景音の中に定位させたい音をカップ リングチャネルとして符号化する。 M/ S 2 7は、 左 (L ) チャネルと右 (R) チャネルの信号の符号化、 またはそれぞれの和 (L + R) と差 (L一 R) の信号 の符号化のいずれかをサブバンド毎に選択して行う。
予測部 2 6は、 Main プロファイルだけで使用される。 変換係数 1つ毎に、 過 去 2フレームにおける量子化された変換係数から現在の変換係数の値を予測し、 その予測残差を求める。 特に入力信号が定常的である場合、 非常に大きな予測ゲ インが得られ、 変換係数の電力 (分散) が小さくなる。 同じ量子化雑音電力が許 容されるならば、 量子ィヒ対象の分散が小さい方が必要なビット数を少なくできる ので、 圧縮する際に有利となる。
上記の各ツールで処理された変換係数は、 本発明の主要部である量子化 Z符号 化部 1 0 aに入力される。 量子化 Z符号化部 1 0 aでは、 サブパンド毎にグルー プ分けした変換係数に対して、 1回の演算で高速に量子化 Z符号化を行う。 詳細 動作は上述したので説明は省略する (量子化 Z符号化部 1 0 aに相当する従来の AA Cエンコーダの構成部分は、 Iteration Loops と呼ばれ反復処理を行うブロ ックで構成されている。 従来の量子化 ·ハフマン符号化の処理は反復ループで行 われ、 実際に生成される符号量がフレームに割当てられたビット数を下回るまで 繰返される効率の悪いものであった) 。
ビットリザーバ 2 8は、 ハフマン符号化する際に、 フレームの割り当てビット 数を適応的に可変するためのビットをバッファリングしておくものである。 ビッ トリザ一パ 2 8によって擬似的な可変ビットレートを設定することができる。 ビ ットストリ一ム生成部 2 9は各ツールからの符号化データをまとめて 1つの AA Cビットストリームとして伝送路から出力する。
このように、 本発明によれば、 マスキングパワーしきい値を下回るスケールフ ァクタを算出するために従来のような試行錯誤をする必要がなく、 1回の演算で 近似できるために、 演算量を大幅に削減することが可能になる。 また、 演算負荷 を軽減できることから装置の小型化、 低コスト化も可能になる。 なお、 上記では、 本発明を M P E G 2—AA Cエンコーダに適用した例を示したが、 これ以外にも M P E G 4— AA Cエンコーダや M P 3エンコーダ、 またはその他の音声符号化 エンコーダに対して幅広く本発明を適用することが可能である。
以上説明したように、 本発明のオーディオ符号化装置は、 各サブバンド内の変 換係数の代表値から、 量子化ノイズを推定算出し、 聴覚特性のマスキングパワー しきい値と、 量子化ノイズとから、 各サブバンドの量子化ステップサイズを近似 的に算出する。 そして、 量子化ステップサイズにもとづき、 変換係数を量子化し て量子化値を求め、 コモンスケールファクタ及びスケールファクタを求めて、 こ れらを符号化する構成とした。 これにより、 人間の聴覚特性に応じて行われる、 変換係数の量子化演算に対して、 演算量の大幅な削減を実現することができ、 演 算効率の向上を図ることが可能になる。
上記については単に本発明の原理を示すものである。 さらに、 多数の変形、 変 更が当業者にとって可能であり、 本発明は上記に示し、 説明した正確な構成およ び応用例に限定されるものではなく、 対応するすべての変形例および均等物は、 添付の請求項およびその均等物による本発明の範囲とみなされる。

Claims

請 求 の 範 囲
1. 音声信号の符号化を行うオーディォ符号化装置において、
音声信号のサンプル値に空間変換を施して変換係数を算出する空間変換部と、 変換係数を周波数帯域毎にグループ分けしたサブバンドに対し、 各サブパンド 内の変換係数の代表値から、 量子化ノイズを推定算出し、 聴覚特性のマスキング パワーしきい値と、 量子化ノイズとから、 各サブバンドの量子化ステップサイズ を近似的に算出する量子化ステップサイズ演算部と、
量子化ステップサイズにもとづき、 変換係数を量子化して量子化値を求める量 子化部と、
量子化ステップサイズから、 フレーム全体のオフセット値であるコモンスケー ルファクタと、 サブバンド毎のスケールファク夕とを求めるスケールファクタ算 出部と、
量子化値、 コモンスケールファクタ、 スケールファクタの少なくとも 1っを符 号化する符号化部と、
を有することを特徴とするオーディォ符号化装置。
2. 前記量子化ステップサイズ演算部は、 変換係数の代表値の量子化ノイズ概 算値を求めた後に、 量子化ノイズ概算値に補正係数を乗算して、 非線形圧縮に対 応した量子化ノイズを推定算出することを特徴とする請求の範囲第 1項記載のォ 一ディォ符号化装置。
3. 前記量子化ステップサイズ演算部は、 変換係数の代表値を Xa、 量子化ス テツプサイズを Qとした場合の量子化式
I Xa (3/4) * 2Λ (- 3 q/16) —0. 0946
に対して、 I Xa (3/4) の量子化ノイズ概算値 N aを
Na = 2A (3 q/16) / 2n (n=0、 1、 2、 ···)
によって求め、
補正係数 rを
r= | Xa | Z | Xa (3/4) = I Xa I Λ (1/4)
によって求めて、 量子化ノイズ Νを N = Na * r = 2Λ ( (3 q/16) 一 n) * I Xa I Λ (1/4)
で算出することを特徴とする請求の範囲第 2項記載のオーディォ符号化装置。
4. 前記量子化ステップサイズ演算部は、 マスキングパワーしきい値を Μ、 変 換係数の代表値を X aとした場合に、
q=[ l o g2Λ (1/2) * I Xa I Λ (—1,4) } +n]* 16Z3
(n = 0、 1、 2、 ···) の式から量子化ステップサイズ Qを近似的に算出することを特徴とする請求の範 囲第 1項記載のオーディォ符号化装置。
5. 前記スケールファクタ算出部は、 各サブバンドの量子化ステップサイズの 最大値をコモンスケールファクタと設定し、 コモンスケールファクタから量子化 ステツプサイズを減算して、 サブバンド毎のスケ一ルファクタを求めることを特 徵とする請求の範囲第 1項記載のオーディォ符号化装置。
6. 前記符号化部は、 低い帯域のサブバンドから符号化を行って符号化に使用 した消費ビット数を算出し、 消費ビット数が許容ビット数を上回る場合は、 上回 る手前のサブバンドで符号化処理を完了し、 下回っている場合は継続して次のサ ブバンドの符号化処理を行うことを特徴とする請求の範囲第 1項記載のオーディ ォ符号化装置。
7. マルチチャネル対応の音声信号の符号化を行う MPEG— AACェンコ一 ダにおいて、
音声信号のサンプル値を、 フーリエ変換を用いて分析して、 マスキングパワー しきい値を算出する心理聴覚分析部と、
音声信号のサンプル値に MD C Tを施して、 変換係数を算出する MD C T部と、 変換係数を周波数帯域毎にグループ分けしたサブバンドに対し、 各サブパンド 内の変換係数の代表値から、 量子化ノイズを推定算出し、 聴覚特性のマスキング パヮ一しきい値と、 量子化ノイズとから、 各サブバンドの量子化ステップサイズ を近似的に算出する量子化ステップサイズ演算部と、 量子化ステップサイズにも とづき、 変換係数を量子化して量子化値を求める量子化部と、 量子化ステップサ ィズから、 フレーム全体のオフセット値であるコモンスケールファクタと、 サブ バンド毎のスケールファクタとを求めるスケールファクタ算出部と、 量子化値、 コモンスケールファクタ、 スケールファクタの少なくとも 1つをハフマン符号化 する符号化部と、 から構成される量子化ノ符号化制御部と、
ハフマン符号化する際に、 フレームの割り当てビット数を適応的に可変するた めのビットをバッファリングしておくビットリザ一バと、
を有することを特徴とする MPEG— AACエンコーダ。
8. 前記量子化ステップサイズ演算部は、 変換係数の代表値の量子化ノイズ概 算値を求めた後に、 量子化ノイズ概算値に補正係数を乗算して、 非線形圧縮に対 応した量子化ノィズを推定算出することを特徴とする請求の範囲第 7項記載の M PEG— AACエンコーダ。
9. 前記量子化ステップサイズ演算部は、 変換係数の代表値を Xa、 量子化ス テップサイズを Qとした場合の量子化式
I Xa I Λ (3/4) * 2Λ (- 3 q/16) —0. 0946
に対して、 I Xa I Λ (3/4) の量子化ノイズ概算値 Naを
Na = 2A (3 q/16) /2n (n=0、 1、 2、 ···)
によって求め、
補正係数 rを
r = I Xa I Z l Xa (3/4) = I Xa (1/4)
によって求めて、 量子化ノイズ Nを
N = Na * r = 2A ( (3 q/16) — n) * I Xa I Λ (1/4)
で算出することを特徴とする請求の範囲第 8項記載の M PEG— AACェンコ一 ダ。
1 0. 前記量子化ステップサイズ演算部は、 マスキングパワーしきい値を Μ、 変換係数の代表値を X aとした場合に、
Q=[l o g2Λ (1/2) * I Xa (- 1/4) } +n]* 16/3
(n=0、 1、 2、 ··■) の式から量子化ステップサイズ qを近似的に算出することを特徴とする請求の範 囲第 7項記載の MP EG— A ACエンコーダ。
1 1. 前記スケールファクタ算出部は、 各サブバンドの量子化ステップサイズ の最大値をコモンスケールファクタと設定し、 コモンスケールファクタから量子 化ステップサイズを減算して、 サブバンド毎のスケールファクタを求めることを 特徴とする請求の範囲第 7項記載の MP EG— A ACエンコーダ。
12. 前記符号化部は、 低い帯域のサブバンドから符号化を行って符号化に使 用した消費ビット数を算出し、 前記ビットリザーバにあるビット数と、 設定ビッ トレートとを加算した値である許容ビット数に対して、 消費ビット数が上回る場 合は、 上回る手前のサブパンドで符号化処理を完了し、 下回っている場合は、 継 続して次のサブバンドの符号化処理を行うことを特徴とする請求の範囲第 7項記 載の MP EG— A ACエンコーダ。
13. 音声信号の量子化処理に対して、 量子化ステップサイズを決めるパラメ 一夕であるコモンスケールファクタ及びスケールファクタを算出するスケールフ ァクタ算出方法において、
音声信号のサンプル値に空間変換を施して変換係数を算出し、
変換係数を周波数帯域毎にグループ分けしたサブバンドに対し、 各サブバンド 内の変換係数の代表値から、 量子化ノイズを推定算出し、
聴覚特性のマスキングパワーしきい値と、 量子化ノイズとから、 各サブバンド の量子化ステツプサイズを近似的に算出し、
各サブバンドの量子化ステップサイズの最大値を、 フレーム全体のオフセット 値であるコモンスケールファクタと設定し、
コモンスケールファクタから量子化ステップサイズを減算して、 サブバンド毎 のスケールファクタを算出することを特徴とするスケールファク夕算出方法。
14. 変換係数の代表値を Xa、 量子化ステップサイズを qとした場合の量子 化式
I Xa (3/4) * 2Λ (- 3 q/16) 一 0. 0946
に対して、 i Xa (3Z4) の量子化ノイズ概算値 Naを
Na = 2A (3 q/16) / 2n (n=0、 1、 2、 ···)
によって求め、
補正係数 rを
r = I Xa I / I Xa | Λ (3/4) = I Xa (1/4)
によって求めて、 量子化ノイズ Nを N = Na* r = 2A ( (3 q/16) — n) * I Xa I Λ (1/4)
で算出することを特徴とする請求の範囲第 1 3項記載のスケ一ルファクタ算出方 法。
1 5. マスキングパワーしきい値を Μ、 変換係数の代表値を X aとした場合に、 q=[ l o g2Λ (1/2) * I X a (- 1/4) } +n]* 16Z3
(n = 0、 1、 2、 ···) の式から量子化ステップサイズ Qを近似的に算出することを特徴とする請求の範 囲第 1 3項記載のスケールファクタ算出方法。
PCT/JP2003/008329 2003-06-30 2003-06-30 オーディオ符号化装置 WO2005004113A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2005503376A JP4212591B2 (ja) 2003-06-30 2003-06-30 オーディオ符号化装置
PCT/JP2003/008329 WO2005004113A1 (ja) 2003-06-30 2003-06-30 オーディオ符号化装置
US11/272,223 US7613603B2 (en) 2003-06-30 2005-11-10 Audio coding device with fast algorithm for determining quantization step sizes based on psycho-acoustic model

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2003/008329 WO2005004113A1 (ja) 2003-06-30 2003-06-30 オーディオ符号化装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US11/272,223 Continuation US7613603B2 (en) 2003-06-30 2005-11-10 Audio coding device with fast algorithm for determining quantization step sizes based on psycho-acoustic model

Publications (1)

Publication Number Publication Date
WO2005004113A1 true WO2005004113A1 (ja) 2005-01-13

Family

ID=33562077

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2003/008329 WO2005004113A1 (ja) 2003-06-30 2003-06-30 オーディオ符号化装置

Country Status (3)

Country Link
US (1) US7613603B2 (ja)
JP (1) JP4212591B2 (ja)
WO (1) WO2005004113A1 (ja)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007193043A (ja) * 2006-01-18 2007-08-02 Casio Comput Co Ltd 音声符号化装置、音声復号装置、音声符号化方法及び音声復号方法
WO2007126106A1 (ja) * 2006-04-26 2007-11-08 Sony Corporation 符号化方法および符号化装置
JP2010500631A (ja) * 2006-08-15 2010-01-07 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション サイド情報なしの時間的ノイズエンベロープの自由な整形
JP2010538316A (ja) * 2007-08-27 2010-12-09 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 改良された音声及びオーディオ信号の変換符号化
JP2011527451A (ja) * 2008-07-11 2011-10-27 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ オーディオエンコーダ、オーディオデコーダ、オーディオ信号を符号化および復号化する方法、オーディオストリームおよびコンピュータプログラム
JP2012519309A (ja) * 2009-03-04 2012-08-23 コア ロジック,インコーポレイテッド オーディオ符号化のための量子化
WO2012144127A1 (ja) * 2011-04-20 2012-10-26 パナソニック株式会社 ハフマン符号化を実行するための装置および方法
WO2013118835A1 (ja) * 2012-02-07 2013-08-15 日本電信電話株式会社 符号化方法、符号化装置、復号方法、復号装置、プログラム及び記録媒体
WO2013118834A1 (ja) * 2012-02-07 2013-08-15 日本電信電話株式会社 符号化方法、符号化装置、復号方法、復号装置、プログラム及び記録媒体
WO2013187498A1 (ja) * 2012-06-15 2013-12-19 日本電信電話株式会社 符号化方法、符号化装置、復号方法、復号装置、プログラム及び記録媒体
US8666733B2 (en) 2008-06-26 2014-03-04 Japan Science And Technology Agency Audio signal compression and decoding using band division and polynomial approximation
CN104246875A (zh) * 2012-04-25 2014-12-24 杜比实验室特许公司 利用条件量化器的音频编码和解码
WO2020031483A1 (ja) * 2018-08-08 2020-02-13 ソニー株式会社 復号装置、復号方法、プログラム

Families Citing this family (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102004009955B3 (de) * 2004-03-01 2005-08-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Ermitteln einer Quantisierer-Schrittweite
KR100682890B1 (ko) * 2004-09-08 2007-02-15 삼성전자주식회사 비트량 고속제어가 가능한 오디오 부호화 방법 및 장치
WO2006075563A1 (ja) * 2005-01-11 2006-07-20 Nec Corporation オーディオ符号化装置、オーディオ符号化方法およびオーディオ符号化プログラム
NZ562188A (en) * 2005-04-01 2010-05-28 Qualcomm Inc Methods and apparatus for encoding and decoding an highband portion of a speech signal
US8892448B2 (en) 2005-04-22 2014-11-18 Qualcomm Incorporated Systems, methods, and apparatus for gain factor smoothing
WO2007011157A1 (en) * 2005-07-19 2007-01-25 Electronics And Telecommunications Research Institute Virtual source location information based channel level difference quantization and dequantization method
CN100539437C (zh) * 2005-07-29 2009-09-09 上海杰得微电子有限公司 一种音频编解码器的实现方法
CN1909066B (zh) * 2005-08-03 2011-02-09 昆山杰得微电子有限公司 音频编码码量控制和调整的方法
KR100979624B1 (ko) * 2005-09-05 2010-09-01 후지쯔 가부시끼가이샤 오디오 부호화 장치 및 오디오 부호화 방법
WO2007037613A1 (en) * 2005-09-27 2007-04-05 Lg Electronics Inc. Method and apparatus for encoding/decoding multi-channel audio signal
US8332216B2 (en) * 2006-01-12 2012-12-11 Stmicroelectronics Asia Pacific Pte., Ltd. System and method for low power stereo perceptual audio coding using adaptive masking threshold
FR2898443A1 (fr) * 2006-03-13 2007-09-14 France Telecom Procede de codage d'un signal audio source, dispositif de codage, procede et dispositif de decodage, signal, produits programme d'ordinateur correspondants
WO2008046492A1 (en) * 2006-10-20 2008-04-24 Dolby Sweden Ab Apparatus and method for encoding an information signal
CN101192410B (zh) * 2006-12-01 2010-05-19 华为技术有限公司 一种在编解码中调整量化质量的方法和装置
US8611560B2 (en) 2007-04-13 2013-12-17 Navisense Method and device for voice operated control
US8625819B2 (en) 2007-04-13 2014-01-07 Personics Holdings, Inc Method and device for voice operated control
US11317202B2 (en) 2007-04-13 2022-04-26 Staton Techiya, Llc Method and device for voice operated control
US11217237B2 (en) 2008-04-14 2022-01-04 Staton Techiya, Llc Method and device for voice operated control
TWI374671B (en) * 2007-07-31 2012-10-11 Realtek Semiconductor Corp Audio encoding method with function of accelerating a quantization iterative loop process
KR101435411B1 (ko) * 2007-09-28 2014-08-28 삼성전자주식회사 심리 음향 모델의 마스킹 효과에 따라 적응적으로 양자화간격을 결정하는 방법과 이를 이용한 오디오 신호의부호화/복호화 방법 및 그 장치
US8219409B2 (en) * 2008-03-31 2012-07-10 Ecole Polytechnique Federale De Lausanne Audio wave field encoding
KR101599875B1 (ko) * 2008-04-17 2016-03-14 삼성전자주식회사 멀티미디어의 컨텐트 특성에 기반한 멀티미디어 부호화 방법 및 장치, 멀티미디어의 컨텐트 특성에 기반한 멀티미디어 복호화 방법 및 장치
KR20090110242A (ko) * 2008-04-17 2009-10-21 삼성전자주식회사 오디오 신호를 처리하는 방법 및 장치
KR20090110244A (ko) * 2008-04-17 2009-10-21 삼성전자주식회사 오디오 시맨틱 정보를 이용한 오디오 신호의 부호화/복호화 방법 및 그 장치
WO2009142563A1 (en) * 2008-05-23 2009-11-26 Telefonaktiebolaget Lm Ericsson (Publ) Method for moving quantization noise introduced in fixed-point calculation of fast fourier transforms
US9129291B2 (en) 2008-09-22 2015-09-08 Personics Holdings, Llc Personalized sound management and method
JP5446258B2 (ja) * 2008-12-26 2014-03-19 富士通株式会社 オーディオ符号化装置
US8606571B1 (en) * 2010-04-19 2013-12-10 Audience, Inc. Spatial selectivity noise reduction tradeoff for multi-microphone systems
US8538035B2 (en) 2010-04-29 2013-09-17 Audience, Inc. Multi-microphone robust noise suppression
US8473287B2 (en) 2010-04-19 2013-06-25 Audience, Inc. Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system
US8781137B1 (en) 2010-04-27 2014-07-15 Audience, Inc. Wind noise detection and suppression
US8447596B2 (en) 2010-07-12 2013-05-21 Audience, Inc. Monaural noise suppression based on computational auditory scene analysis
WO2012069886A1 (en) * 2010-11-26 2012-05-31 Nokia Corporation Coding of strings
CN102479514B (zh) * 2010-11-29 2014-02-19 华为终端有限公司 一种编码方法、解码方法、装置和系统
EP2661705A4 (en) * 2011-01-05 2016-06-01 Google Inc METHOD AND SYSTEM FOR FACILITATING TEXT INPUT
US9530419B2 (en) * 2011-05-04 2016-12-27 Nokia Technologies Oy Encoding of stereophonic signals
WO2012152764A1 (en) * 2011-05-09 2012-11-15 Dolby International Ab Method and encoder for processing a digital stereo audio signal
US20130132100A1 (en) * 2011-10-28 2013-05-23 Electronics And Telecommunications Research Institute Apparatus and method for codec signal in a communication system
US9270244B2 (en) 2013-03-13 2016-02-23 Personics Holdings, Llc System and method to detect close voice sources and automatically enhance situation awareness
US20180317019A1 (en) 2013-05-23 2018-11-01 Knowles Electronics, Llc Acoustic activity detecting microphone
US9271077B2 (en) 2013-12-17 2016-02-23 Personics Holdings, Llc Method and system for directional enhancement of sound using small microphone arrays
EP2980801A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals
US10045140B2 (en) 2015-01-07 2018-08-07 Knowles Electronics, Llc Utilizing digital microphones for low power keyword detection and noise suppression
WO2019049543A1 (ja) * 2017-09-08 2019-03-14 ソニー株式会社 音声処理装置、音声処理方法及びプログラム
US10405082B2 (en) 2017-10-23 2019-09-03 Staton Techiya, Llc Automatic keyword pass-through system
CN113360124B (zh) * 2020-03-05 2023-07-18 Oppo广东移动通信有限公司 音频输入输出控制方法和装置、电子设备、可读存储介质
CN117093182B (zh) * 2023-10-10 2024-04-02 荣耀终端有限公司 一种音频播放方法、电子设备和计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0519797A (ja) * 1991-07-16 1993-01-29 Sony Corp 量子化方法
JPH0651795A (ja) * 1992-03-02 1994-02-25 American Teleph & Telegr Co <Att> 信号量子化装置及びその方法
JP2002026736A (ja) * 2000-07-06 2002-01-25 Victor Co Of Japan Ltd オーディオ信号符号化方法及びその装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000347679A (ja) 1999-06-07 2000-12-15 Mitsubishi Electric Corp オーディオ符号化装置及びオーディオ符号化方法
DE10010849C1 (de) * 2000-03-06 2001-06-21 Fraunhofer Ges Forschung Vorrichtung und Verfahren zum Analysieren eines Analyse-Zeitsignals
US6778953B1 (en) * 2000-06-02 2004-08-17 Agere Systems Inc. Method and apparatus for representing masked thresholds in a perceptual audio coder
US7062445B2 (en) * 2001-01-26 2006-06-13 Microsoft Corporation Quantization loop with heuristic approach
US7027982B2 (en) * 2001-12-14 2006-04-11 Microsoft Corporation Quality and rate control strategy for digital audio
US20040002859A1 (en) * 2002-06-26 2004-01-01 Chi-Min Liu Method and architecture of digital conding for transmitting and packing audio signals

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0519797A (ja) * 1991-07-16 1993-01-29 Sony Corp 量子化方法
JPH0651795A (ja) * 1992-03-02 1994-02-25 American Teleph & Telegr Co <Att> 信号量子化装置及びその方法
JP2002026736A (ja) * 2000-07-06 2002-01-25 Victor Co Of Japan Ltd オーディオ信号符号化方法及びその装置

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007193043A (ja) * 2006-01-18 2007-08-02 Casio Comput Co Ltd 音声符号化装置、音声復号装置、音声符号化方法及び音声復号方法
JP4548348B2 (ja) * 2006-01-18 2010-09-22 カシオ計算機株式会社 音声符号化装置及び音声符号化方法
WO2007126106A1 (ja) * 2006-04-26 2007-11-08 Sony Corporation 符号化方法および符号化装置
JP2010500631A (ja) * 2006-08-15 2010-01-07 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション サイド情報なしの時間的ノイズエンベロープの自由な整形
JP2010538316A (ja) * 2007-08-27 2010-12-09 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 改良された音声及びオーディオ信号の変換符号化
US8666733B2 (en) 2008-06-26 2014-03-04 Japan Science And Technology Agency Audio signal compression and decoding using band division and polynomial approximation
JP2011527451A (ja) * 2008-07-11 2011-10-27 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ オーディオエンコーダ、オーディオデコーダ、オーディオ信号を符号化および復号化する方法、オーディオストリームおよびコンピュータプログラム
US11869521B2 (en) 2008-07-11 2024-01-09 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, methods for encoding and decoding an audio signal, audio stream and a computer program
US11024323B2 (en) 2008-07-11 2021-06-01 Fraunhofer-Gesellschaft zur Fcerderung der angewandten Forschung e.V. Audio encoder, audio decoder, methods for encoding and decoding an audio signal, audio stream and a computer program
US10629215B2 (en) 2008-07-11 2020-04-21 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, methods for encoding and decoding an audio signal, and a computer program
US9043203B2 (en) 2008-07-11 2015-05-26 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, methods for encoding and decoding an audio signal, and a computer program
US9711157B2 (en) 2008-07-11 2017-07-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, methods for encoding and decoding an audio signal, and a computer program
US8983851B2 (en) 2008-07-11 2015-03-17 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Noise filer, noise filling parameter calculator encoded audio signal representation, methods and computer program
US9449606B2 (en) 2008-07-11 2016-09-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, methods for encoding and decoding an audio signal, and a computer program
JP2012519309A (ja) * 2009-03-04 2012-08-23 コア ロジック,インコーポレイテッド オーディオ符号化のための量子化
US8600764B2 (en) 2009-03-04 2013-12-03 Core Logic Inc. Determining an initial common scale factor for audio encoding based upon spectral differences between frames
WO2012144127A1 (ja) * 2011-04-20 2012-10-26 パナソニック株式会社 ハフマン符号化を実行するための装置および方法
US9881625B2 (en) 2011-04-20 2018-01-30 Panasonic Intellectual Property Corporation Of America Device and method for execution of huffman coding
JP5937064B2 (ja) * 2011-04-20 2016-06-22 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America オーディオ/音声符号化装置、オーディオ/音声復号装置、オーディオ/音声符号化方法およびオーディオ/音声復号方法
US10515648B2 (en) 2011-04-20 2019-12-24 Panasonic Intellectual Property Corporation Of America Audio/speech encoding apparatus and method, and audio/speech decoding apparatus and method
US10204632B2 (en) 2011-04-20 2019-02-12 Panasonic Intellectual Property Corporation Of America Audio/speech encoding apparatus and method, and audio/speech decoding apparatus and method
WO2013118834A1 (ja) * 2012-02-07 2013-08-15 日本電信電話株式会社 符号化方法、符号化装置、復号方法、復号装置、プログラム及び記録媒体
JPWO2013118834A1 (ja) * 2012-02-07 2015-05-11 日本電信電話株式会社 符号化方法、符号化装置、復号方法、復号装置、プログラム及び記録媒体
WO2013118835A1 (ja) * 2012-02-07 2013-08-15 日本電信電話株式会社 符号化方法、符号化装置、復号方法、復号装置、プログラム及び記録媒体
CN104246875A (zh) * 2012-04-25 2014-12-24 杜比实验室特许公司 利用条件量化器的音频编码和解码
WO2013187498A1 (ja) * 2012-06-15 2013-12-19 日本電信電話株式会社 符号化方法、符号化装置、復号方法、復号装置、プログラム及び記録媒体
JP5734519B2 (ja) * 2012-06-15 2015-06-17 日本電信電話株式会社 符号化方法、符号化装置、復号方法、復号装置、プログラム及び記録媒体
WO2020031483A1 (ja) * 2018-08-08 2020-02-13 ソニー株式会社 復号装置、復号方法、プログラム
EP3836405A4 (en) * 2018-08-08 2021-09-01 Sony Group Corporation DECODING DEVICE, DECODING METHOD AND PROGRAM
JPWO2020031483A1 (ja) * 2018-08-08 2021-11-18 ソニーグループ株式会社 復号装置、復号方法、プログラム
US11496152B2 (en) 2018-08-08 2022-11-08 Sony Corporation Decoding device, decoding method, and program

Also Published As

Publication number Publication date
JP4212591B2 (ja) 2009-01-21
US7613603B2 (en) 2009-11-03
US20060074693A1 (en) 2006-04-06
JPWO2005004113A1 (ja) 2006-08-17

Similar Documents

Publication Publication Date Title
WO2005004113A1 (ja) オーディオ符号化装置
JP5539203B2 (ja) 改良された音声及びオーディオ信号の変換符号化
KR100986924B1 (ko) 정보 신호 인코딩
KR101265669B1 (ko) 코딩된 오디오의 경제적인 소리세기 측정
KR100991448B1 (ko) 스펙트럼 홀 충전을 사용하는 오디오 코딩 시스템
KR101019678B1 (ko) 저비트율 오디오 코딩
CN1918632B (zh) 音频编码
US8032371B2 (en) Determining scale factor values in encoding audio data with AAC
US20100027625A1 (en) Apparatus for encoding and decoding
JP4673882B2 (ja) 推定値を決定するための方法および装置
US20080140393A1 (en) Speech coding apparatus and method
GB2318029A (en) Predictive coding of audio signals
CN1918630B (zh) 量化信息信号的方法和设备
US20090132238A1 (en) Efficient method for reusing scale factors to improve the efficiency of an audio encoder
JP2002023799A (ja) 音声符号化装置及びそれに用いる心理聴覚分析方法
US8149927B2 (en) Method of and apparatus for encoding/decoding digital signal using linear quantization by sections
KR100738109B1 (ko) 입력 신호의 양자화 및 역양자화 방법과 장치, 입력신호의부호화 및 복호화 방법과 장치
KR20030068716A (ko) 웨이브렛 패킷 변환을 이용한 오디오 압축 방법 및 그시스템
JP2000151413A (ja) オーディオ符号化における適応ダイナミック可変ビット割り当て方法
JP4024185B2 (ja) デジタルデータ符号化装置
JP4721355B2 (ja) 符号化データの符号化則変換方法および装置
Yen et al. A low-complexity MP3 algorithm that uses a new rate control and a fast dequantization
JP4573670B2 (ja) 符号化装置、符号化方法、復号化装置及び復号化方法
Zölzer et al. Audio Coding
Gunjal et al. Traditional Psychoacoustic Model and Daubechies Wavelets for Enhanced Speech Coder Performance

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): JP US

WWE Wipo information: entry into national phase

Ref document number: 2005503376

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 11272223

Country of ref document: US

WWP Wipo information: published in national office

Ref document number: 11272223

Country of ref document: US