WO2006008817A1 - オーディオ符号化装置及びオーディオ符号化方法 - Google Patents

オーディオ符号化装置及びオーディオ符号化方法 Download PDF

Info

Publication number
WO2006008817A1
WO2006008817A1 PCT/JP2004/010416 JP2004010416W WO2006008817A1 WO 2006008817 A1 WO2006008817 A1 WO 2006008817A1 JP 2004010416 W JP2004010416 W JP 2004010416W WO 2006008817 A1 WO2006008817 A1 WO 2006008817A1
Authority
WO
WIPO (PCT)
Prior art keywords
block
fluctuation ratio
input signal
short
encoding
Prior art date
Application number
PCT/JP2004/010416
Other languages
English (en)
French (fr)
Inventor
Masanao Suzuki
Yoshiteru Tsuchinaga
Miyuki Shirakawa
Original Assignee
Fujitsu Limited
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Limited filed Critical Fujitsu Limited
Priority to JP2006527708A priority Critical patent/JP4533386B2/ja
Priority to PCT/JP2004/010416 priority patent/WO2006008817A1/ja
Priority to EP04770880A priority patent/EP1775718A4/en
Publication of WO2006008817A1 publication Critical patent/WO2006008817A1/ja
Priority to US11/654,679 priority patent/US20070118368A1/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation

Definitions

  • the present invention relates to an audio encoding device and an audio encoding method for encoding an audio signal.
  • the mainstream of audio encoding apparatuses is an adaptive conversion audio encoding apparatus using human auditory characteristics.
  • the basic encoding process of the adaptive transform audio encoding device is as follows.
  • an audio signal in the time domain is converted into a frequency domain.
  • the signal on the frequency axis is divided by the frequency band corresponding to the auditory frequency resolution. Then, using the human auditory characteristics, the optimum amount of information necessary for encoding is calculated in each frequency band.
  • the signal on the frequency axis is quantized according to the amount of information allocated to each frequency band.
  • MPEG Motion Picture Experts Group
  • AAC Advanced Audio Coding
  • ISO International Organization for Standardization
  • IEC International Electrotechnical and Ommission
  • FIG. 10 is a configuration diagram showing the configuration of the encoder of MPEG-2 AAC, which is the first conventional technology.
  • the technique shown in this figure is referred to as the first conventional technique.
  • the details of the AAC encoder are described in detail in, for example, Non-Patent Document 1 below.
  • the AAC encoder divides an input signal into frames each having a predetermined number of samples.
  • the AAC encoder performs an encoding process for each frame.
  • the length of one frame and one long block is the same. The following explanation is the processing procedure of the A AC encoder shown in FIG.
  • an input signal is input to framing section 1001.
  • the framing unit 1001 divides the input signal into frames (long blocks) having a predetermined number of samples.
  • the signal output from the framing unit 1001 is input to a long block discrete cosine transform unit (hereinafter simply referred to as an MD CT conversion unit) 1002 and a short block MDCT conversion unit 1003.
  • an MD CT conversion unit long block discrete cosine transform unit
  • the MDCT conversion unit 1002 for the long block performs 1024 points of MDCT conversion on the input signal. Then, the MDCT conversion unit 1002 for the long block calculates the MDCT coefficient (MDCT1). The short block MDCT conversion unit 1003 performs 128-point MDCT conversion on the input signal. Then, the short block MDCT conversion unit 1003 calculates the MDCT coefficient (MDCT2). Since there are 8 short blocks per frame, 8 sets of MDCT2 are generated.
  • the framing unit 1001 outputs the divided input signal to the psychoacoustic analysis unit 1004 for long blocks. Then, the psychoacoustic analysis unit 1004 for the long block obtains the masking threshold Thl for the long block and the psychoacoustic entropy PE1 from the input signal force.
  • Thl and PE1 the method shown in the psychological auditory model section of Non-Patent Document 1 is known.
  • the framing unit 1001 outputs the input signal divided into frames to the psychoacoustic analysis unit 1005 for short blocks. Then, the psychoacoustic analysis unit 1005 for the short block obtains the masking threshold Th2 for the short block and the psychoacoustic entropy PE2 from the input signal.
  • psychoacoustic entropy is the amount of information representing the minimum number of bits necessary to quantize a signal.
  • Masking refers to a phenomenon in which human beings cannot perceive an error if the error is below a certain standard when the signal is quantized by the quantizer.
  • the reference value indicating the limit of the error that cannot be perceived by humans is called a masking threshold.
  • FIG. 11 is a schematic diagram showing an example of pre-echo.
  • A) of FIG. 11 is a schematic diagram showing an input signal before encoding
  • (b) of FIG. 11 is a graph showing a decoded sound when encoding is performed only with a long block. At the beginning of Fig. 11 (b), noise that is not present in the input signal is generated before the attack sound.
  • the block length determination unit 1006 determines the nature of the input signal. Then, the block length determination unit 1006 determines an optimal block length for quantization. Specifically, the block length determination unit 1006 selects a long block if PEl> PEl_thr, and selects a short block otherwise.
  • PE1 ⁇ thr is a threshold value (constant) determined by force.
  • the determination result of the block length determination unit 1006 is output to the selector 1007 that selects MDCT.
  • the masking threshold selected by the block length determination unit 1006 is output to the spectrum quantization unit 1008. That is, when the block length determination unit 1006 selects a long block, MDCT1 and Thl are input to the spectrum quantization unit 1008. In addition, when the block length / half IJ fixing unit 1006 selects a short block, MDCT2 and Th2 are input to the spectrum quantization unit 1008.
  • the spectrum quantization unit 1008 quantizes the MDCT coefficient for each frequency band according to the input masking threshold. Then, the spectrum quantization unit 1008 outputs the quantization code 1.
  • Quantization code 1 output from spectrum quantization section 1008 is input to Huffman encoding section 1 009.
  • the Huffman encoding unit 1009 converts the quantization code 1 into the quantization code 2 from which the redundancy is further removed than the quantization code 1.
  • the quantization code 2 is output from the Huffman code key unit 1009 to the quantization control unit 1011. Then, the quantization control unit 1011 finally outputs from the input quantization code 2. Calculate the total number of bits in the bitstream. In FIG. 10, a range surrounded by a dotted line is a range that can be controlled by the quantization control unit 1011.
  • the quantization control unit 1011 repeats the process (5) and the process (7) so that the spectrum quantization unit 1008 The Huffman encoder 1009 is controlled. Also, the quantization control unit 1011 causes the Huffman coding unit 1009 to output the quantization code 2 to the bit stream generation unit 1010 when the calculated total number of bits is less than the number of bits allowed for the current block. Then, the quantization control unit 1011 controls the bit stream generation unit 1010 to output a bit stream.
  • the AAC method transforms the MDCT spectrum into a mantissa part and an exponent part. That is, the A AC method transforms the MDCT spectrum into a floating point display. Then, the AAC method quantizes the mantissa part (MDCT quantization).
  • the AAC method obtains the number of bits (total number of bits) required when the mantissa part and the exponent part quantized in (b) are Huffman coded.
  • the AAC method ends the quantization if the total number of bits obtained in (c) is less than the number of quantization bits allowed in the current frame (allowable number of bits). In the AAC method, if the total number of bits is greater than the allowable number of bits, the exponent part set in (a) is judged to be inappropriate. In the AAC method, the exponent part is changed and the process (b)-(d) is repeated. The AAC method determines the exponent part where the total number of bits is less than the allowable number of bits.
  • the exponent part is temporarily fixed.
  • the mantissa part is determined and the MDCT spectrum is quantized.
  • the AAC method calculates the total number of bits so that the quantization error when the MDCT spectrum is transformed into the exponent part and the mantissa part is less than the allowable error.
  • the AAC method is judged to be inappropriate if the total number of bits is larger than the preset bit rate.
  • the exponent part is changed, and the exponent part fixing process and the mantissa part quantization process are performed again.
  • the AAC scheme determines the optimal exponent part and mantissa part such that the quantization error is less than the allowable error and the total number of bits is less than the set bit rate. [0021] As described above, the AAC scheme calculates the total number of bits required after quantization and Huffman coding. The AAC system then determines the optimal exponent and mantissa part so that the total number of bits is less than the allowable number of bits allowed for the current frame.
  • “optimal” means “quantization error is less than allowable error”.
  • the first prior art selects an optimal block length from a long block, a short block, and a force. Therefore, the first conventional technique can obtain a good sound quality with less pre-echo.
  • the first conventional technology performs MDCT conversion and psychoacoustic analysis for both long blocks and short blocks. Therefore, the first conventional technology has a large amount of processing
  • FIG. 12 is a configuration diagram showing the configuration of the second prior art. This second prior art divides one frame into shorter blocks.
  • an input signal is input to the framing unit 1201.
  • the framing unit 1201 divides the input signal into frames (long blocks) having a predetermined number of samples.
  • the signal output from 01 is the power calculator 1202, selector 1204, psychoacoustic analyzer 1
  • the power calculator 1202 calculates power and a power fluctuation ratio from the input signal.
  • the power calculation unit 1202 outputs the calculated power fluctuation ratio to the block length determination unit 1203.
  • the block length determination unit 1203 determines whether to use a long block or a short block based on the input power fluctuation ratio. Then, the block length determination unit 1203 outputs the determination result to the selector 1204 and the selector 1207. Each selector 1204 and selector 1207 selects whether to use a long block or a short block based on the determination result of the block length determination unit 1203. [0028]
  • the long block MDCT converter 1205 performs 1024-point MDCT conversion on the input signal. Then, the MDCT conversion unit 1205 for the long block includes the MDCT coefficient (MDCT1
  • the short block MDCT conversion unit 1206 performs 128-point MDCT conversion on the input signal. Then, the short block MDCT conversion unit 1206 calculates an MDCT coefficient (MDC T2). Since there are 8 short blocks per frame, 8 sets of MDCT2 are generated.
  • the psychoacoustic analysis unit 1208 obtains a masking threshold value from the input signal.
  • the masking threshold value obtained from the input signal is input to the spectrum quantization unit 1209.
  • the spectrum quantization unit 1209 quantizes the MDCT coefficient for each frequency band in accordance with the input masking threshold. Then, the spectrum quantization unit 1209 outputs a quantized code 1 obtained by quantizing the MDCT coefficient.
  • Quantization code 1 output from spectrum quantization section 1209 is Huffman coding section 1
  • the Huffman encoding unit 1210 converts the quantized code 1 into the quantized code 2 from which the redundancy is further removed than the quantized code 1.
  • This quantization code 2 is input to the quantization control unit 1212.
  • the quantization controller 1212 The quantization controller 1212
  • a range surrounded by a dotted line is a range that can be controlled by the quantization control unit 1212.
  • the quantization control unit 1212 repeats processing (3) and processing (5) so that the spectrum quantization unit 1209
  • the Huffman encoder 1210 is controlled.
  • the quantization control unit 1212 causes the Huffman coding unit 1210 to output the quantization code 2 to the bit stream generation unit 1211 when the calculated total number of bits is less than the number of bits allowed for the current block. Then, the quantization control unit 1212 controls the bit stream generation unit 1211 to output the bit stream.
  • FIG. 13 shows an example in which a frame is divided into short blocks in the second prior art.
  • FIG. Figure 13 shows the case where one frame is divided into four short blocks.
  • the second conventional technique finds the input signal power P (l), P (2), P (3), P (4) for each short block.
  • the second conventional technique is the power fluctuation ratio between adjacent short blocks ⁇ (1, 2), ⁇
  • ⁇ (i, j) is the electric power between short block i and short block i.
  • the power fluctuation ratio increases when the input signal rapidly increases. Conversely, the power fluctuation ratio decreases when the input signal suddenly decreases. Therefore, when the power fluctuation ratio hardly changes, the block length determination unit 1203 selects a long block. Also, the block length determination unit 1203 selects a short block when the power fluctuation ratio suddenly increases or decreases. This process allows the second prior art to select the optimal window length.
  • the block length is determined before MDCT conversion and psychoacoustic analysis. Therefore, the second prior art performs MDCT conversion and psychoacoustic analysis for only one of the long block and the short block. Therefore, the second conventional technique can encode an audio signal with a smaller processing amount than the first conventional technique.
  • the second conventional technique may not be able to detect a change in the nature of the input signal. For example, if a sine wave is input and the frequency of the sine wave changes while the power remains constant, the second prior art cannot detect the signal change point by using only the power fluctuation ratio. .
  • FIG. 14 is a diagram showing examples of input signals, power fluctuation ratios, and predicted gain fluctuation ratios.
  • 14 (a) is a graph showing the input signal before signing
  • FIG. 14 (b) is a graph of the power fluctuation ratio
  • FIG. 14 (c) is the predicted gain fluctuation ratio. It is a graph of.
  • Patent Document 1 Japanese Patent Laid-Open No. 7-66733
  • Non-patent literature l PART7 of ISO / lEC 13818-7, "Advanced Audio Coding (AAC)"
  • the first conventional technique performs MDCT conversion and psychoacoustic analysis for each of the long block and the short block. For this reason, the first conventional technique has a problem that the processing amount is larger than the case of processing only a long block or a short block.
  • the second prior art has a problem that an appropriate block length may not be selected.
  • An object of the present invention is to provide an audio encoding device and an audio encoding method capable of appropriately selecting a block length while reducing the processing amount.
  • the audio encoding device of the present invention includes:
  • Power calculating means for calculating a power fluctuation ratio from the input signal; Calculating means for calculating a predicted gain fluctuation ratio from the input signal;
  • Block length determination means for determining whether to perform encoding using a long block or encoding using a short block from the power variation ratio and the predicted gain variation ratio.
  • the audio encoding device of the present invention includes:
  • the block length determination means is
  • the audio encoding device of the present invention includes:
  • Threshold value determining means is provided for changing a threshold value for determining the block length when the code used by the block length determining means is changed according to the determination result of the block length determining means.
  • the audio encoding device of the present invention provides:
  • the threshold value determining means is
  • the threshold value is set to a value larger than the initial value.
  • the audio encoding device of the present invention provides:
  • the calculating means is
  • the power calculation means uses a predetermined number of blocks for calculating power to form one block, and calculates the predicted gain fluctuation ratio of the one block.
  • the audio encoding device of the present invention includes:
  • the calculation means uses a predetermined number of blocks for calculating the prediction gain as one block, and calculates the power fluctuation ratio of the one block.
  • the audio encoding device of the present invention includes:
  • a long block mode that divides the input signal into frames of a certain number of samples and encodes one frame of the input signal;
  • an audio coding apparatus provided with a short block mode for dividing the frame into short blocks and coding the short blocks
  • Power calculating means for calculating a power fluctuation ratio from the input signal
  • Block length determination means for determining whether to perform encoding by a long block or encoding by a short block from the power fluctuation ratio and the prediction gain fluctuation ratio;
  • a first conversion unit that obtains a first coefficient by performing discrete cosine transform on an input signal in units of long blocks
  • the block length determination unit When coding by a short block is selected by the second block, a second conversion unit that obtains a second coefficient by performing discrete cosine transform on the input signal in units of a short block, and a determination result of the block length determination unit Selecting means for selecting the first coefficient or the second coefficient as a third coefficient;
  • Quantization means for spectrally quantizing the third coefficient according to the masking threshold to obtain a first code
  • Huffman encoding means for Huffman encoding the first code to obtain a second code, and calculating the total number of bits of the output bitstream from the second code, and based on the result of the calculation Quantization control means for instructing output of the bitstream;
  • Bit stream generating means for generating a bit stream from the second code and outputting the bit stream based on an instruction from the quantization control means.
  • the audio encoding device of the present invention includes:
  • the block length determination means is
  • At least one of the power fluctuation ratio and the predicted gain fluctuation ratio is larger than a predetermined threshold, encoding by a short block is selected, and at least one of the power fluctuation ratio and the predicted gain fluctuation ratio is In cases other than the case where the threshold value is larger than a predetermined threshold value, encoding by a long block is selected.
  • the audio encoding device of the present invention includes:
  • Threshold for determining the block length when the code used by the block length determination means is input
  • Threshold value determining means for changing the value according to the determination result of the block length determining means is provided.
  • the audio encoding device of the present invention provides:
  • the threshold value determining means is
  • the threshold value is set to a value larger than the initial value.
  • the audio encoding device of the present invention includes:
  • the calculating means is
  • the power calculation means uses a predetermined number of blocks for calculating power to form one block, and calculates the predicted gain fluctuation ratio of the one block.
  • the audio encoding device of the present invention includes:
  • the calculation means uses a predetermined number of blocks for calculating the prediction gain as one block, and calculates the power fluctuation ratio of the one block.
  • the audio encoding method of the present invention includes:
  • a block length determination step for determining whether to perform encoding by a long block or encoding by a short block from the power fluctuation ratio and the prediction gain fluctuation ratio.
  • the audio encoding method of the present invention includes:
  • a long block mode that divides the input signal into frames of a certain number of samples and encodes one frame of the input signal
  • an audio encoding method comprising: a short block mode for dividing the frame into short blocks and encoding the short blocks;
  • a power calculation step of calculating a power fluctuation ratio from the input signal A calculation step of calculating a predicted gain fluctuation ratio from the input signal;
  • a block length determination step for determining whether to perform encoding by a long block or encoding by a short block from the power fluctuation ratio and the prediction gain fluctuation ratio;
  • a Huffman encoding step for obtaining a second code by Huffman encoding the first code, and calculating the total number of bits of the output bitstream from the second code, and based on the result of the calculation
  • a quantization control step for instructing output of the bitstream;
  • the audio encoding device and the audio encoding method of the present invention determine whether to perform code encoding by a long block or code encoding by a short block from the power fluctuation ratio and the prediction gain fluctuation ratio. To do. Therefore, the audio encoding device and the audio encoding method of the present invention do not need to perform both encoding with a long block and encoding with a short block. Therefore, the audio encoding device and the audio encoding method of the present invention can reduce the amount of processing and determine the block length to be encoded using both the power fluctuation ratio and the predicted gain fluctuation ratio. Therefore, encoding with a more appropriate block length can be performed.
  • the audio encoding device and audio encoding method of the present invention have a block length format.
  • the threshold for block length determination used in accordance with the block length determination result for example, it is possible to prevent frequent selection of encoding by short blocks and to improve the sound quality of the output sound. Reduction can be reduced.
  • the audio encoding device and the audio encoding method of the present invention use a predetermined number of blocks for calculating power to form one block, and calculate the predicted gain fluctuation ratio of this one block, thereby performing processing. The amount can be reduced.
  • the audio encoding device and the audio encoding method of the present invention use a predetermined number of blocks for calculating the prediction gain as one block, and calculate the power fluctuation ratio of this one block, thereby The amount can be reduced.
  • FIG. 1 is a schematic diagram of an audio encoding device according to the present invention.
  • FIG. 2 is a conceptual diagram of an example of a long block and a short block used in the audio encoding device of the present invention.
  • FIG. 3 is a conceptual diagram of a method for calculating a predicted gain fluctuation ratio in the audio encoding device of the present invention.
  • FIG. 4 is a configuration diagram of a first embodiment of an audio encoding device according to the present invention.
  • FIG. 5 is a flowchart of the operation of the block length determination method performed by the first embodiment of the audio encoding device of the present invention.
  • FIG. 6 is a configuration diagram of a second embodiment of an audio encoding device of the present invention.
  • FIG. 7 is a graph showing an operation of threshold value control in the threshold value determination unit of the second embodiment of the audio encoding device of the present invention.
  • FIG. 8 is a conceptual diagram of a method for obtaining a predicted gain fluctuation ratio and a power fluctuation ratio in the third embodiment of the audio encoding device of the present invention.
  • FIG. 9 Calculation of power fluctuation ratio in the fourth embodiment of the audio encoding device of the present invention. It is a conceptual diagram which shows the taking-out method.
  • FIG. 10 is a configuration diagram showing a configuration of an encoder of MPEG-2 AAC, which is a first prior art.
  • FIG. 11 is a schematic diagram showing an example of pre-echo.
  • FIG. 12 A configuration diagram showing the configuration of the second prior art.
  • FIG. 1 is a schematic diagram of an audio encoding device according to the present invention. The following description also serves as an overview of the audio encoding method of the present invention.
  • a frame unit 101 divides an input signal into input signal frames (long blocks) having a predetermined number of samples.
  • the MDCT conversion unit 106 for long blocks, the MDCT conversion unit 107 for short blocks, the power calculation unit 102, and the calculation unit 103 divide one frame into short blocks that are shorter than the long blocks.
  • FIG. 1 is a schematic diagram of an audio encoding device according to the present invention. The following description also serves as an overview of the audio encoding method of the present invention.
  • a frame unit 101 divides an input signal into input signal frames (long blocks) having a predetermined number of samples.
  • the MDCT conversion unit 106 for long blocks, the MDCT conversion unit 107 for short blocks, the power calculation unit 102, and the calculation unit 103 divide one frame into short blocks that are shorter than the long blocks.
  • FIG. 2 is a conceptual diagram of an example of a long block and a short block used in the audio encoding device of the present invention.
  • Figure 2 shows the case where one frame (long block) is divided into four short blocks. The following description is based on the example shown in FIG. However, the present invention can be similarly implemented even when one frame is divided into n (n> 0).
  • the power calculation unit 102 obtains input signal powers P (l), P (2), P (3), and P (4) for each short block. Next, the power calculator 102 calculates the power fluctuation ratio ⁇ (1, 2) between adjacent blocks,
  • FIG. 3 is a conceptual diagram of a method for calculating a predicted gain fluctuation ratio in the audio encoding device of the present invention.
  • the k parameter calculation method is arbitrary.
  • the present invention can use, for example, a method of obtaining an autocorrelation function from an input signal and calculating a k parameter from the autocorrelation function by a known method such as a Levinson algorithm.
  • the calculation unit 103 obtains the prediction gain fluctuation ratio ⁇ (i, j) from the prediction gains G (i) and G (j) power equations obtained from the short blocks i and j. .
  • the power fluctuation ratio ⁇ (i, j) is input to the block length determination unit 104. Also, the expected interest
  • the obtained fluctuation ratio ⁇ (i, j) is input to the block length determination unit 104.
  • the block length determination unit 4 determines whether to quantize the long block or the short block.
  • the block length determination unit 104 determines whether to quantize the long block or the short block.
  • the block length determination unit selects a long block means that the block length determination unit selects encoding by the long block.
  • that the block length determination unit selects a short block means that the block length determination unit selects encoding with a short block. That is, when the block length determination unit selects a block, it means that the block length determination unit selects a code key based on the block.
  • the block length determination unit 104 determines the threshold TH for the power fluctuation ratio and the predicted gain fluctuation ratio T.
  • the block length determination unit 104 determines the threshold T among ⁇ (1, 2), ⁇ (2, 3), ⁇ (3, 4).
  • the block length determination unit 104 sets the threshold value among ⁇ (1, 2), ⁇ (2, 3), ⁇ (3, 4).
  • the block length determination unit 104 selects a short block only when one of the power fluctuation ratio and the predicted gain fluctuation ratio in the frame exceeds a preset threshold, and otherwise Select a long block.
  • the block length determination unit 104 selects a long block
  • the determination result is output to the selector 105 and the selector 108.
  • the selector 105 and the selector 108 select a block based on the determination result of the block length determination unit 104. Therefore, when the block length determination unit 104 selects a long block, the selector 105 and the selector 108 select a long block.
  • the input signal output from framing section 101 is input to long block MDCT conversion section 106.
  • the MDCT conversion unit 106 for long blocks outputs MDCT1.
  • the block length determination unit 104 selects a short block
  • the determination result is output to the selector 105 and the selector 108. Then, the selector 105 and the selector 108 select the short block.
  • the input signal output from framing section 101 is input to short block MDCT conversion section 107.
  • the MDCT conversion unit 107 for short blocks outputs MDCT coefficients for the number of short blocks. That is, when one frame is divided into four short blocks, the short block MDCT conversion unit 107 outputs four sets of MDCT coefficients.
  • the psychoacoustic analysis unit 109 obtains a masking threshold value from the input signal.
  • the psychoacoustic analysis unit 109 obtains a masking threshold for the long block.
  • the psychoacoustic analysis unit 109 calculates a masking threshold for the short block when the block length determination unit 104 selects the short block.
  • any method can be used as the masking threshold calculation method.
  • the psychoacoustic analysis unit 109 can use the method disclosed in Non-Patent Document 1. That is, the psychoacoustic analysis unit 109 performs FFT analysis on the input signal. Then, the psychoacoustic analysis unit 109 obtains an FFT spectrum. Then, the psychoacoustic analysis unit 109 calculates a masking threshold from the FFT spectrum.
  • the MDCT coefficient and the masking threshold are input to the quantization unit 110.
  • Quantization Unit 110 quantizes the MDCT coefficient for each frequency band according to the input masking threshold. Then, the quantization unit 110 outputs the quantized code 1 in which the MDCT coefficient is quantized.
  • the quantization code 1 is input to the Huffman coding unit 111. Then, the Huffman encoding unit 111 converts the quantized code 1 into the quantized code 2 from which the redundancy is further removed than the quantized code 1.
  • the Huffman code unit 111 outputs the quantization code 2 to the quantization control unit 113.
  • the quantization control unit 113 calculates the total number of bits of the bit stream that is finally output from the input quantization code 2.
  • a range surrounded by a dotted line is a range that can be controlled by the quantization control unit 113.
  • the quantization control unit 113 repeats the process (8) and the process (10) so that the quantization unit 110
  • the Huffman code key unit 111 is controlled.
  • the quantization control unit 113 causes the Huffman coding unit 111 to output the quantization code 2 to the bit stream generation unit 112 when the calculated total number of bits is less than the number of bits allowed for the current block.
  • the quantization control unit 113 controls the bit stream generation unit 112 to output a bit stream.
  • the audio encoding device shown in FIG. 1 realizes quantization.
  • the quantization process in the present invention is the same as the details of the AAC quantization process described in the above-mentioned section of the prior art, and thus detailed description thereof is omitted.
  • FIG. 4 is a configuration diagram of the first embodiment of the audio encoding device of the present invention.
  • the framing unit 401 divides the input signal into input signal frames (long blocks) having a predetermined number of samples.
  • the short block MDCT conversion unit 410, the power calculation unit 402, and the autocorrelation calculation unit 4003 divide the input frame into short blocks.
  • the frame division in this embodiment will be described with reference to FIG. Fig. 2 is a conceptual diagram showing examples of long blocks and short blocks. In the example shown in Fig. 2, one frame (long block) is divided into four short blocks. Below, it demonstrates based on this example. However, this embodiment holds true even when one frame is divided into n (n is a non-negative integer).
  • the power calculation unit 402 obtains input signal powers P (l), P (2), P (3), and P (4) for each short block. Then, the power calculation unit 402 calculates the power fluctuation ratio ⁇ (1
  • This power fluctuation ratio is obtained by the aforementioned equation (1).
  • autocorrelation calculation section 403 obtains autocorrelation from the short block input signal.
  • autocorrelation calculation section 403 outputs this autocorrelation to k parameter calculation section 404.
  • the k parameter calculation unit 404 calculates the k parameter from the autocorrelation function by a known method such as the Levinson algorithm. Note that the k parameter calculation unit 404 may obtain an autocorrelation function force LPC coefficient, and the k parameter calculation unit 404 may convert the LPC coefficient into a k parameter.
  • the predicted gain fluctuation ratio calculation unit 406 calculates the predicted gain fluctuation ratio ⁇ — shown in the following equation from the predicted gains G (i) and G (j) obtained in the short block i and the short block j. Find (i, j).
  • self Correlation calculation section 403, k parameter calculation section 404, prediction gain calculation section 405, and prediction gain fluctuation ratio calculation section 406 may be part of the function of calculation section 103 shown in FIG.
  • the power fluctuation ratio ⁇ (i, j) and the predicted gain fluctuation ratio ⁇ (i, j) are determined as block lengths.
  • FIG. 5 is a flowchart of the operation of the block length determination method performed by the first embodiment of the audio encoding device of the present invention.
  • the fact that the block length determination unit selects a long block means that the block length determination unit selects encoding by the long block.
  • that the block length determination unit selects a short block means that the block length determination unit selects encoding with a short block. That is, that the block length determination unit selects a block means that the block length determination unit selects encoding by the block.
  • the block length determination unit 407 includes a threshold TH for the power fluctuation ratio and a predicted gain fluctuation ratio.
  • the block length determination unit 407 uses the threshold TH among ⁇ (1, 2), ⁇ (2, 3), ⁇ (3, 4).
  • the block length determination unit 407 has a threshold TH among ⁇ (1, 2), ⁇ (2, 3), and ⁇ (3, 4).
  • the short block is selected (S504, S505, S506, S508), otherwise the long block is selected (S507).
  • the block length determination unit 407 selects a short block only when one of the power fluctuation ratio and the predicted gain fluctuation ratio in the frame exceeds a preset threshold. Otherwise, select the long block.
  • Each selector 408 and selector 411 select a block length to be used based on the determination result of the block length determination unit 407.
  • the block length determination unit 407 selects a short block
  • the input signal is input to the MDCT conversion unit 410 for the short block.
  • the MDCT conversion unit 410 for short blocks outputs MDCT coefficients corresponding to the number of short blocks. That is, when one frame is divided into four short blocks, the short block MDCT conversion unit 410 outputs four sets of MDCT coefficients.
  • the psychoacoustic analysis unit 412 obtains a masking threshold value from the input signal.
  • the input signal output from the framing unit 401 is input to the psychoacoustic analysis unit 412.
  • the psychoacoustic analysis unit 412 obtains a masking threshold for the long block.
  • the psychoacoustic analysis unit 412 obtains a masking threshold for the short block when the block length determination unit 407 selects the short block.
  • an arbitrary method can be used as the masking threshold calculation method.
  • the psychoacoustic analysis unit 412 can use the method disclosed in Non-Patent Document 1. That is, the psychoacoustic analysis unit 412 performs FFT analysis on the input signal. Then, the psychoacoustic analysis unit 412 obtains an FFT spectrum. Then, the psychoacoustic analysis unit 412 calculates a masking threshold from the FFT spectrum.
  • the MDCT coefficient and the masking threshold are input to the quantization unit 413.
  • the quantization unit 413 quantizes the MDCT coefficient for each frequency band according to the input masking threshold.
  • the quantization unit 413 outputs a quantization code 1 obtained by quantizing the MDCT coefficient.
  • the quantization code 1 is input to the Huffman encoding unit 414. Then, the Huffman encoding unit 414 converts the quantization code 1 into a quantization code whose redundancy is further removed from that of the quantization code 1. Convert to code 2.
  • the Huffman code unit 414 outputs the quantization code 2 to the quantization control unit 416.
  • the quantization control unit 416 calculates the total number of bits of the bit stream that is finally output from the input quantization code 2.
  • a range surrounded by a dotted line is a range that can be controlled by the quantization control unit 416.
  • the quantization control unit 416 repeats the processing (8) and processing (10) so that the quantization unit 413
  • the Huffman code key unit 414 is controlled.
  • the quantization control unit 416 causes the Huffman coding unit 414 to output the quantization code 2 to the bit stream generation unit 415.
  • the quantization control unit 415 controls the bit stream generation unit 415 to output a bit stream.
  • this embodiment determines the block length before MDCT conversion, it can encode a high-quality audio signal with a smaller processing amount than the first conventional technology. It is. Further, in this embodiment, since the block length is determined using the power fluctuation ratio and the predicted gain fluctuation ratio, the block length is determined more accurately than the second conventional technique. It is possible to encode an audio signal with higher quality than the prior art.
  • the block length to be encoded is determined before MDCT conversion and psychoacoustic analysis. Therefore, this embodiment can perform high-quality encoding with a small amount of processing compared to the first prior art. Furthermore, this embodiment uses a power fluctuation ratio and a predicted gain fluctuation ratio in the block length determination means. Therefore, this embodiment can determine the block length with higher accuracy than the second prior art.
  • FIG. 14 are graphs showing calculation results of the power fluctuation ratio and the predicted gain fluctuation ratio.
  • the input signal shown in Fig. 14 (a) has almost no change in section A with a power fluctuation ratio value of 0 (Fig. 14 (b)).
  • the input signal shown in Fig. 14 (a) has a large fluctuation in the predicted gain fluctuation ratio in section A (Fig. 14 (c)).
  • both the power fluctuation ratio and the predicted gain fluctuation ratio are calculated.
  • a short block is selected when one of the power fluctuation ratio and the predicted gain fluctuation ratio exceeds a threshold value. Therefore, in this embodiment, the block length can be accurately determined even with an input signal such as section A shown in FIG.
  • FIG. 6 is a configuration diagram of the second embodiment of the audio encoding device of the present invention. This embodiment is different from the first embodiment in that the threshold TH and the predicted gain change with respect to the power fluctuation ratio are
  • the part that dynamically changes the threshold TH for the dynamic ratio is different.
  • the other part is the first
  • attack sounds In general, short blocks are often selected in areas that change rapidly, such as attack sounds.
  • the attack sound has a large MDCT spectrum amplitude over a wide frequency range. Therefore, an attack sound requires a large number of quantization bits when it is encoded.
  • the threshold value TH and the threshold value TH are increased for a certain period of time thereafter. As a result, in this embodiment, it is as short as possible.
  • the operation of framing section 601 shown in FIG. 6 is the same as the operation of framing section 401 shown in FIG. 4, and the operation of power calculation section 602 is the power calculation section 402 shown in FIG.
  • the operation of the autocorrelation calculation unit 603 is the same as the operation of the autocorrelation calculation unit 403 shown in FIG. 4, and the operation of the k parameter calculation unit 604 is the k parameter calculation shown in FIG.
  • the operation of the unit 404 is the same, and the operation of the prediction gain calculation unit 605 is the same as the operation of the prediction gain calculation unit 405 shown in FIG.
  • the operation of the predicted gain fluctuation ratio calculation unit 606 is the same as the operation of the prediction gain fluctuation ratio calculation unit 406 shown in FIG. 4, and the operation of the selector 609 is the operation of the selector 408 shown in FIG.
  • the operation of the long block MDCT conversion unit 610 is the same as that of the long block MDCT conversion unit 409 shown in FIG.
  • the operation of the MDCT conversion unit 611 for short blocks is the same as the operation of the M DCT conversion unit 410 for short blocks shown in FIG. 4, and the operation of the selector 612 is the selector shown in FIG.
  • the operation of the psychoacoustic analysis unit 613 is the same as the operation of the psychoacoustic analysis unit 412 shown in FIG. 4, and the operation of the quantization unit 614 is the same as the operation of the quantization unit 413 shown in FIG.
  • the operation of the Huffman encoder 615 is the same as the operation of the Huffman encoder 414 shown in FIG. 4, and the operation of the bitstream generator 616 is the bitstream generator shown in FIG.
  • the operation of the quantization control unit 617 is the same as the operation of the quantization control unit 416 shown in FIG. In FIG. 6, a range surrounded by a dotted line is a range that can be controlled by the quantization control unit 617.
  • the block length determination unit 607 shown in FIG. 6 receives the threshold value determined by the threshold value determination unit 608. Further, the block length determination unit 607 outputs the block length determination result to the selector 609, the selector 612, and the threshold value determination unit 608.
  • the threshold determination unit 608 determines a threshold based on the determination result output from the block length determination unit 607. That is, the threshold value determination unit 608 outputs the increased threshold value when the determination result output from the block length determination unit 607 is a determination result for selecting a short block. Further, the block length determination unit 607 performs determination processing based on the threshold value received from the threshold value determination unit 608. Threshold is changed Except for the points that can be moved, the determination process in the block length determination unit 607 is the same as that shown in FIG. Further, the threshold determination unit 608 may be a part of the function of the calculation unit 103 shown in FIG.
  • FIG. 7 is a graph showing the threshold control operation in the threshold value determination unit of the second embodiment of the audio encoding device of the present invention.
  • the threshold TH is changed to TH + a. Where h> 0.
  • short block is selected, the threshold TH is changed to TH + a. Where h> 0.
  • the threshold TH is changed to TH + ⁇ .
  • the threshold value is changed to the original value (initial value) TH, TH.
  • the threshold TH and the threshold TH are increased for a certain period of time and the short blocks are not selected as continuously as possible.
  • the present embodiment can obtain the same effects as those of the first embodiment described above. Further, in the present embodiment, once a short block is selected, the threshold value is controlled so that the short block is not selected for a certain time thereafter. For this reason, in this embodiment, it is possible to reduce deterioration in sound quality caused by continuously selecting short blocks.
  • the short block is not selected for a certain period of time.
  • the threshold is set to ⁇ + H + Himawari
  • the threshold value is based on ⁇ .
  • the third embodiment is different from the first embodiment described above in that the predicted gain fluctuation ratio is obtained in units of frames. That is, in the present embodiment, a predetermined number of blocks for calculating power are used as one block, and the predicted gain fluctuation ratio of this one block is calculated.
  • LPC analysis is performed for each short block. Therefore, the first embodiment can accurately calculate the predicted gain fluctuation ratio.
  • the number of executions of LPC analysis increases, so the amount of processing also increases.
  • LPC analysis is performed once for each long block. Therefore, this embodiment can further reduce the amount of calculation compared to the first embodiment.
  • FIG. 8 is a conceptual diagram of a method for obtaining a predicted gain fluctuation ratio and a power fluctuation ratio in the third embodiment of the audio encoding device of the present invention.
  • the prediction gain is obtained from the k parameter obtained by performing the LPC analysis for each short block.
  • the prediction gain fluctuation ratio is calculated based on the ratio to the prediction gain obtained in the same manner in the immediately preceding short block.
  • this embodiment performs LPC analysis on the input signal of one long block (the nth frame) to obtain the k parameter. . That is, the k parameter calculation unit performs LPC analysis on the input signal of one long block (nth frame) to obtain the k parameter.
  • the prediction gain G (n) is calculated from the k parameter.
  • the prediction gain power G (n ⁇ 1) and G (n) obtained in the same manner in the previous frame (the (n ⁇ 1) th frame) is used to predict using the following equation: Gain fluctuation ratio ⁇ (n
  • the present embodiment is a short block similar to the first embodiment.
  • the power fluctuation ratios ⁇ (1, 2), ⁇ (2, 3), ⁇ (3, 4) are calculated for each lock.
  • the form determines the optimum block length from the calculated predicted gain fluctuation ratio and power fluctuation ratio. Hereinafter, this determination operation will be described.
  • the block length determination unit determines that ⁇ ( ⁇ ) is greater than a predetermined threshold value ⁇ .
  • the block length judgment unit is one of ⁇ (1, 2), ⁇ (2, 3), ⁇ (3, 4).
  • the block length determination unit selects the long block when the short block is not selected in either (1) or (2).
  • the configuration and processing contents after selecting a block length are the same as those in the first embodiment. Therefore, the description of the configuration and processing contents after selecting the block length of this embodiment will be omitted.
  • the present embodiment can obtain the same effects as those of the first embodiment of the present invention described above. Furthermore, in this embodiment, the block length can be selected with a smaller processing amount than in the first embodiment by performing the LPC analysis only once for the long block.
  • the block for calculating the prediction gain is not limited to the case where a block of one frame is used. The prediction gain may be calculated. Even in this case, the present embodiment can obtain the same effects as described above.
  • this embodiment is different from the first embodiment in the method of calculating the power fluctuation ratio performed by dividing one frame into eight short blocks. That is, in this embodiment, a predetermined number of blocks for calculating the prediction gain are used as one block, and the power fluctuation ratio of this one block is calculated.
  • FIG. 9 is a conceptual diagram showing a method for calculating the power fluctuation ratio in the fourth embodiment of the audio encoding device of the present invention.
  • one frame is divided into eight short blocks, and the power fluctuation ratio is calculated.
  • this embodiment does not calculate one power fluctuation ratio for one short block as in the first embodiment. That is, this embodiment is different from the first embodiment in that the power fluctuation ratio is obtained from a plurality of adjacent short blocks.
  • the calculation method of the power fluctuation ratio of this embodiment is shown below.
  • power P (1) is obtained from the first and second short blocks.
  • the power P (2) is obtained from the third and fourth short blocks.
  • power P (3) is obtained from the fifth and sixth short blocks.
  • power P (4) is obtained from the seventh and eighth short blocks.
  • the power fluctuation ratio ⁇ (1, 2) is obtained from P (l) and P (2). Also book
  • the power fluctuation ratio ⁇ (2, 3) is obtained from P (2) and P (3).
  • this embodiment the power fluctuation ratio ⁇ (2, 3) is obtained from P (2) and P (3).
  • this embodiment is different from the first embodiment in that the power of two short blocks is obtained. That is, in the first embodiment, 8 predicted gain fluctuation ratios and ⁇ power fluctuation ratios are calculated, whereas in this embodiment, 8 predicted gain fluctuation ratios and 4 power fluctuation ratios are calculated. Only pieces are calculated. That is, in the present embodiment, the number of predicted gain fluctuation ratios and power fluctuation ratios calculated within one frame may be different. Since the other parts of the present embodiment are the same as those of the first embodiment, description thereof will be omitted.
  • this embodiment can obtain the same effects as those of the first embodiment of the present invention described above. Furthermore, in the present embodiment, by calculating the power of two short blocks, the calculation amount of the power calculation process can be reduced as compared with the first embodiment. Note that the present embodiment is not limited to the case where two short blocks are used as power calculation blocks, but the power may be calculated using any number of three or more short blocks. Les. Even in this case, an effect similar to the above effect can be obtained.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

 処理量を軽減しつつ、ブロック長を適切に選択することが可能なオーディオ符号化装置及びオーディオ符号化方法を提供する。  電力算出部402が、入力信号から電力変動比を算出し、予測利得変動比算出部406が、入力信号から予測利得変動比を算出し、ブロック長判定部407が、電力変動比と予測利得変動比とから、長ブロックによる符号化を行うか又は短ブロックによる符号化を行うかを判定し、この判定に基づいて、長ブロック用のMDCT変換部409又は短ブロック用のMDCT変換部410が入力信号に対して離散コサイン変換を行う。

Description

明 細 書
オーディオ符号化装置及びオーディオ符号化方法
技術分野
[0001] 本発明は、オーディオ信号を符号化するオーディオ符号化装置及びオーディオ符 号化方法に関する。
背景技術
[0002] 近年、インターネットや衛星放送等の通信分野が急速に普及している。また、 DVD 等の AV機器も急速に普及している。これらの普及に伴い、オーディオ信号を効率良 く圧縮するオーディオ符号化に対する需要が高まってレ、る。近年のオーディオ符号 化装置は、人間の聴覚特性を利用した適応変換オーディオ符号化装置が主流であ る。適応変換オーディオ符号化装置の基本的な符号化処理は、以下の通りである。
[0003] この符号化処理では、時間領域のオーディオ信号が周波数領域へ変換される。そ して、周波数軸上の信号が聴覚の周波数分解能に対応する周波数帯域で区切られ る。そして、人間の聴覚特性を利用して、各周波数帯域で符号化に必要な最適な情 報量が計算される。
[0004] そして、各周波数帯域に割り振られた情報量に従い、周波数軸上の信号が量子化 される。適応変換オーディオ符号化装置の中に、 ISO (International Organizati on for Standardization; /IEC (International Electrotechmcal し ommis sion)で標準化された MPEG (Moving Picture Experts Group) -2 AAC ( Advanced Audio Coding)方式がある。この方式は、 BSデジタル放送にも採用さ れている。この方式は、低いビットレートで高い音質を実現できるオーディオ符号化 装置として近年注目を浴びてレ、る。
[0005] (第 1の従来技術)
図 10は、第 1の従来技術である、 MPEG-2 AACのエンコーダの構成を示す構 成図である。以下、この図に示される技術を第 1の従来技術とする。 AAC ェンコ一 ダの詳細は、例えば下記の非特許文献 1に詳しく記載されている。
[0006] AACエンコーダは、入力信号を所定のサンプル数からなるフレームに分割する。 そして、 AACエンコーダは、フレーム毎に符号化処理を行う。 AAC方式のフレーム で、 1フレームと 1長ブロックの長さとは同じである。以下の説明は、図 10に示される A ACエンコーダの処理手順である。
[0007] (1)まず、入力信号がフレーム化部 1001に入力される。フレーム化部 1001は、入 力信号を所定のサンプノレ数からなるフレーム (長ブロック)に分割する。フレーム化部 1001から出力された信号が、長ブロック用の離散コサイン変換部(以下、単に、 MD CT変換部と記す。) 1002と短ブロック用の MDCT変換部 1003とに入力される。
[0008] 長ブロック用の MDCT変換部 1002は、入力した信号に対して 1024点の MDCT 変換を行う。そして、長ブロック用の MDCT変換部 1002は、 MDCT係数(MDCT1 )を算出する。また、短ブロック用の MDCT変換部 1003は、入力した信号に対して 1 28点の MDCT変換を行う。そして、短ブロック用の MDCT変換部 1003は、 MDCT 係数(MDCT2)を算出する。尚、 1フレームにっき短ブロックは 8ブロックあるので、 MDCT2は 8組生成される。
[0009] (2)次に、フレーム化部 1001は、分割した入力信号を、長ブロック用の心理聴覚分 析部 1004へ出力する。そして、長ブロック用の心理聴覚分析部 1004は、入力信号 力ら長ブロック用のマスキング閾値 Thlと心理聴覚エントロピー PE1とを求める。ここ で、 Thlと PE1との算出方法は、非特許文献 1の心理聴覚モデルの項に示されてい る方法が公知である。同様にして、フレーム化部 1001は、フレームに分割した入力 信号を、短ブロック用の心理聴覚分析部 1005へ出力する。そして、短ブロック用の 心理聴覚分析部 1005は、入力信号から短ブロック用のマスキング閾値 Th2と心理 聴覚エントロピー PE2とを求める。
[0010] ここで、心理聴覚エントロピーとは、信号を量子化するのに最低限必要なビット数を 表す情報量である。また、マスキングとは、量子化部により信号を量子化した時の誤 差がある基準以下であれば、その誤差を人間が知覚できないという現象を指す。また 、人間が知覚できない誤差の限界を示す基準値は、マスキング閾値と呼ばれる。
[0011] (3)長ブロック力 得られた PE1及び Thlと、短ブロック力、ら得られた PE2及び Th2 と力 ブロック長判定部 1006へ入力される。ブロック長判定部 1006は、長ブロックと 短ブロックとのどちらで量子化すべきかを判定する。
[0012] 一般に、性質がほとんど変化しない定常的な信号は、長ブロックで量子化すること が望ましい。ところが、ブロック内で振幅が急峻に変化する信号を長ブロックで量子化 すると、入力信号にはないプリエコーと呼ばれる雑音が発生する。この雑音の発生は 、音質劣化の原因となる。図 11は、プリエコーの例を示す概略図である。図 11の(a) は、符号化する前の入力信号を示す概略図であり、図 11の(b)は、長ブロックのみで 符号化した時の復号音を示すグラフである。図 11の(b)の先頭部分には、アタック音 の手前に、入力信号にはない雑音が発生している。
[0013] この雑音は、プリエコーと呼ばれる。プリエコーは、量子化ブロック長を短くすること で解消できる。そのため、 AAC方式は、ブロック長判定部 1006において入力信号 の性質を判別している。そして、ブロック長判定部 1006は、量子化に最適なブロック 長を判定する。具体的には、ブロック長判定部 1006は、 PEl >PEl_thrであれば 長ブロックを選択し、それ以外の場合は短ブロックを選択する。ここで、 PE1— thrは 、あら力じめ決められた閾値(定数)である。
[0014] (4)ブロック長判定部 1006の判定結果は、 MDCTを選択する選択器 1007に出力 される。また、ブロック長判定部 1006が選択したマスキング閾値は、スペクトル量子 化部 1008に出力される。つまり、ブロック長判定部 1006が長ブロックを選択した場 合は、 MDCT1と Thlとがスペクトル量子化部 1008に入力する。また、ブロック長半 IJ 定部 1006が短ブロックを選択した場合は、 MDCT2と Th2とがスぺクトノレ量子化部 1 008に入力する。
[0015] (5)スペクトル量子化部 1008は、入力されたマスキング閾値に従って周波数バンド 毎に MDCT係数を量子化する。そして、スペクトル量子化部 1008は、量子化符号 1 を出力する。
[0016] (6)スペクトル量子化部 1008から出力された量子化符号 1は、ハフマン符号化部 1 009へ入力する。ハフマン符号化部 1009は、量子化符号 1を、量子化符号 1よりも 更に冗長度が除去された量子化符号 2に変換する。
[0017] (7)上記量子化符号 2は、ハフマン符号ィ匕部 1009から量子化制御部 1011に出力 される。そして、量子化制御部 1011は、入力した量子化符号 2から、最終的に出力さ れるビットストリームの総ビット数を計算する。なお、図 10において、点線で囲まれた 範囲は、量子化制御部 1011が制御可能な範囲である。
[0018] (8)量子化制御部 1011は、計算した総ビット数が現ブロックに許されるビット数を上 回る場合、処理(5) 処理(7)を繰り返すように、スペクトル量子化部 1008と、ハフマ ン符号化部 1009とを制御する。また、量子化制御部 1011は、計算した総ビット数が 現ブロックに許されるビット数を下回る場合、ハフマン符号化部 1009からビットストリ ーム生成部 1010に対して量子化符号 2を出力させる。そして、量子化制御部 1011 は、ビットストリーム生成部 1010がビットストリームを出力するように制御する。
[0019] ここで、 AAC方式の量子化プロセスの詳細を説明する。
(a) AAC方式は、 MDCTスペクトルの指数部を初期値に設定する。
(b) AAC方式は、 MDCTスペクトルを仮数部と指数部とに変形する。すなわち、 A AC方式は、 MDCTスペクトルを浮動小数点表示に変形する。そして、 AAC方式は 、仮数部を量子化する(MDCT量子化)。
(c) AAC方式は、 (b)で量子化された仮数部と指数部とをハフマン符号化した時に 必要となるビット数 (総ビット数)を求める。
(d) AAC方式は、 (c)で求めた総ビット数が現フレームに許された量子化ビット数( 許容ビット数)以下であれば、量子化を終了する。 AAC方式は、総ビット数が許容ビ ット数以上の場合は、(a)で設定した指数部を不適当と判断する。そして、 AAC方式 は、指数部を変更して (b)一 (d)の処理を繰り返す。そして、 AAC方式は、総ビット数 が許容ビット数以下となる指数部を決定する。
[0020] すなわち、 AAC方式は、まず指数部を仮に固定する。そして、 AAC方式は、仮数 部を決定して MDCTスペクトルの量子化を行う。そして、 AAC方式は、 MDCTスぺ タトルを指数部と仮数部とに変形した時の量子化誤差が許容誤差以下となるような総 ビット数を求める。そして、 AAC方式は、総ビット数があらカ^め設定されたビットレー トよりも大きければ不適当と判断する。そして、 AAC方式は、指数部を変更して、再 び、 MDCTスぺタトノレの指数部の固定処理及び仮数部の量子化処理を行う。そして 、 AAC方式は、量子化誤差が許容誤差以下であり、かつ、総ビット数が設定された ビットレート以下となるような最適な指数部と仮数部を決定する。 [0021] 以上のように、 AAC方式は、量子化とハフマン符号化を行った後に、必要な総ビッ ト数を計算する。そして、 AAC方式は、総ビット数が現フレームに許される許容ビット 数以下となるような最適な指数部と仮数部を決定する。ここで、「最適な」とは、「量子 化誤差が許容誤差以下となる」という意味である。
[0022] 以上説明した通り、第 1の従来技術は、長ブロックと短ブロックと力、ら最適なブロック 長を選択する。よって、第 1の従来技術は、プリエコーの少ない良好な音質が得ること 力 Sできる。ところが、第 1の従来技術は、 MDCT変換及び心理聴覚分析を、長ブロッ ク用と短ブロック用とのそれぞれで行う。そのため、第 1の従来技術は、処理量が多い
[0023] (第 2の従来技術)
上記第 1の従来技術の問題を解決する方法として、 MDCT変換と心理聴覚分析と の前に、入力信号の性質を調べてブロック長を先に決定する方法が知られている。 入力信号の性質を調べる方法には、例えば下記の特許文献 1に開示された方法が ある。この方法は公知である。
[0024] 以下、特許文献 1に開示された方法を、第 2の従来技術とする。そして、この方法の 構成を図 12に示す。図 12は、第 2の従来技術の構成を示す構成図である。この第 2 の従来技術は、 1フレームをさらに短い短ブロックに分割する。
[0025] (1)まず、入力信号がフレーム化部 1201に入力する。フレーム化部 1201は、入力 信号を所定のサンプノレ数からなるフレーム (長ブロック)に分割する。フレーム化部 12
01から出力された信号は、電力算出部 1202と、選択器 1204と、心理聴覚分析部 1
208とに出力される。
[0026] 電力算出部 1202は、入力した信号から、電力及び電力変動比を算出する。電力 算出部 1202は、算出した電力変動比をブロック長判定部 1203に出力する。
[0027] ブロック長判定部 1203は、入力した電力変動比に基づいて、長ブロック又は短ブ ロックのいずれを用いるのかを判定する。そして、ブロック長判定部 1203は、その判 定結果を、選択器 1204及び選択器 1207に出力する。各選択器 1204及び選択器 1207は、ブロック長判定部 1203の判定結果に基づいて、長ブロック又は短ブロック のいずれを用いるのか選択する。 [0028] 長ブロック用の MDCT変換部 1205は、入力した信号に対して 1024点の MDCT 変換を行う。そして、長ブロック用の MDCT変換部 1205は、 MDCT係数(MDCT1
)を算出する。
[0029] また、短ブロック用の MDCT変換部 1206は、入力した信号に対して 128点の MD CT変換を行う。そして、短ブロック用の MDCT変換部 1206は、 MDCT係数(MDC T2)を算出する。尚、 1フレームにっき短ブロックは 8ブロックあるので、 MDCT2は 8 組生成される。
[0030] (2)次に、心理聴覚分析部 1208は、入力信号からマスキング閾値を求める。そし て、入力信号から得られたマスキング閾値は、スペクトル量子化部 1209に入力する
[0031] (3)スペクトル量子化部 1209は、入力されたマスキング閾値に従って周波数バンド 毎に MDCT係数を量子化する。そして、スぺクトノレ量子化部 1209は、 MDCT係数 を量子化した量子化符号 1を出力する。
[0032] (4)スペクトル量子化部 1209から出力された量子化符号 1は、ハフマン符号化部 1
210へ入力する。ハフマン符号化部 1210は、量子化符号 1を、量子化符号 1よりも 更に冗長度が除去された量子化符号 2に変換する。
[0033] (5)この量子化符号 2は、量子化制御部 1212に入力する。量子化制御部 1212は
、入力した量子化符号 2に基づいて、最終的に出力されるビットストリームの総数を計 算する。なお、図 12において、点線で囲まれた範囲は、量子化制御部 1212が制御 可能な範囲である。
[0034] (6)量子化制御部 1212は、計算した総ビット数が現ブロックに許されるビット数を上 回る場合、処理(3) 処理(5)を繰り返すように、スペクトル量子化部 1209と、ハフマ ン符号化部 1210とを制御する。また、量子化制御部 1212は、計算した総ビット数が 現ブロックに許されるビット数を下回る場合、ハフマン符号化部 1210からビットストリ ーム生成部 1211に対して量子化符号 2を出力させる。そして、量子化制御部 1212 は、ビットストリーム生成部 1211に対して、ビットストリームを出力するように制御する
[0035] 図 13は、第 2の従来技術においてフレームを短ブロックに分割する場合の例を示 す概念図である。図 13は、 1フレームを 4つの短ブロックに分割する場合を示してい る。第 2の従来技術は、各短ブロックの入力信号電力 P (l)、 P (2)、 P (3)、 P (4)を求 める。そして、第 2の従来技術は、隣接する短ブロック間の電力変動比 Δ (1, 2)、 Δ
P
(2, 3)、 Δ (3, 4)を求める。ここで、 Δ (i, j)は、短ブロック iと短ブロック iの間の電
P P P
力変動比である。 Δ (i, j)は、次式で求められる。
P
[0036] [数 1]
ΔΡ( ϋ 式 (1 )
[0037] 電力変動比は、入力信号が急激に大きくなる場合に大きくなる。逆に、電力変動比 は、入力信号が急に小さくなる場合に小さくなる。したがって、電力変動比がほとんど 変化しない場合、ブロック長判定部 1203は、長ブロックを選択する。また、ブロック長 判定部 1203は、電力変動比が急激に大きくなつた場合や小さくなる場合に、短プロ ックを選択する。この処理により、第 2の従来技術は、最適な窓長を選ぶことができる
[0038] また、第 2の従来技術は、ブロック長を、 MDCT変換及び心理聴覚分析の前に決 定する。そのため、第 2の従来技術は、長ブロック又は短ブロックの一方のみに対し て、 MDCT変換及び心理聴覚分析を実行する。したがって、第 2の従来技術は、第 1の従来技術に比べて少ない処理量でオーディオ信号を符号化することができる。
[0039] ところ力 電力変動比が変化しなくても入力信号の性質が変化する場合、第 2の従 来技術は、入力信号の性質変化を検知できない場合がある。例えば、正弦波を入力 とし、かつ、電力が一定のままで正弦波の周波数が変化した場合、第 2の従来技術 は、電力変動比のみを用いる方法では信号の変化点を検出することができない。
[0040] ここで、入力信号、電力変動比及び予測利得変動比の例について図 14を参照し て説明する。図 14は、入力信号、電力変動比及び予測利得変動比の例を示すダラ フである。図 14の(a)は、符号ィ匕する前の入力信号を示すグラフであり、図 14の(b) は、電力変動比のグラフであり、図 14の(c)は、予測利得変動比のグラフである。図 1 4の区間 Bや区間 Cは、無音部から有音部へ変化する。この場合は、電力変動比も大 きく変化する。そのため、第 2の従来技術は、これらの区間では、信号の変化点を検 出すること力 Sできる。
[0041] ところ力 区間 Aは、入力信号の性質が定常部から過渡部に変化する。この場合、 電力変動比は、ほとんど変化しない。そのため、この場合、第 2の従来技術は、信号 の変化を検出することができない。そのため、この場合、第 2の従来技術は、長ブロッ クを選択する。しかし、この第 2の従来技術のように、信号が急に変化する部分を長ブ ロックで処理すると、プリエコーが発生する。そのため、第 2の従来技術は、音質が劣 化する。
特許文献 1:特開平 7 - 66733号公報
非特許文献 l : ISO/lEC 13818—7の PART7, "Advanced Audio Coding ( AAC) "
発明の開示
発明が解決しょうとする課題
[0042] 前述のように、第 1の従来技術は、 MDCT変換及び心理聴覚分析を、長ブロック用 と短ブロック用とのそれぞれで行う。そのため、第 1の従来技術は、長ブロック又は短 ブロックのみの処理の場合に比べて処理量が多くなるという問題がある。
[0043] また、第 2の従来技術は、入力信号の性質が変化した場合であっても電力変動比 が変化しなければ信号の性質の変化を検知できない。そのため、第 2の従来技術は 、適切なブロック長を選択できない場合があるという問題がある。
[0044] 本発明の目的は、処理量を軽減しつつ、ブロック長を適切に選択することが可能な オーディオ符号化装置及びオーディオ符号化方法を提供することにある。
課題を解決するための手段
[0045] 本発明のオーディオ符号化装置は、
入力信号を一定のサンプル数からなるフレームに分割し、 1フレームの入力信号を 符号化する長ブロックモードと、前記フレームを分割して短ブロックとし、該短ブロック を符号ィ匕する短ブロックモードとを備えたオーディオ符号ィ匕装置において、
前記入力信号から電力変動比を算出する電力算出手段と、 前記入力信号から予測利得変動比を算出する算出手段と、
前記電力変動比と前記予測利得変動比とから、長ブロックによる符号化を行うか又 は短ブロックによる符号化を行うかを判定するブロック長判定手段とを備える。
[0046] また、本発明のオーディオ符号化装置は、
前記ブロック長判定手段が、
前記電力変動比及び前記予測利得変動比のいずれか一方があらかじめ決められ た閾値より大きい場合に短ブロックによる符号化を選択し、前記電力変動比及び前 記予測利得変動比のいずれか一方があらかじめ決められた閾値より大きい場合以外 の場合に、長ブロックによる符号化を選択する。
[0047] また、本発明のオーディオ符号化装置は、
前記ブロック長判定手段が用いる符号ィ匕する際のブロック長を判定するための閾 値を、前記ブロック長判定手段の判定結果に応じて変化させる閾値決定手段を備え る。
[0048] また、本発明のオーディオ符号化装置は、
前記閾値決定手段が、
前記ブロック長判定手段の判定結果が短ブロックによる符号化を表す場合に、前 記閾値を初期値よりも大きな値に設定する。
[0049] また、本発明のオーディオ符号化装置は、
前記算出手段が、
前記電力算出手段が電力を算出するブロックを所定数用いて 1つのブロックとし、 該 1つのブロックの前記予測利得変動比を算出する。
[0050] また、本発明のオーディオ符号化装置は、
前記電力算出手段が、
前記算出手段が予測利得を算出するブロックを所定数用いて 1つのブロックとし、 該 1つのブロックの前記電力変動比を算出する。
[0051] また、本発明のオーディオ符号化装置は、
入力信号を一定のサンプル数からなるフレームに分割し、 1フレームの入力信号を 符号化する長ブロックモードと、 前記フレームを分割して短ブロックとし、該短ブロックを符号化する短ブロックモード とを備えたオーディオ符号ィヒ装置において、
前記入力信号から電力変動比を算出する電力算出手段と、
前記入力信号から予測利得変動比を算出する算出手段と、
前記電力変動比と前記予測利得変動比とから、長ブロックによる符号化を行うか又 は短ブロックによる符号化を行うかを判定するブロック長判定手段と、
前記ブロック長判定手段により長ブロックによる符号化が選択された場合は、長プロ ック単位で入力信号を離散コサイン変換して第 1の係数を求める第 1の変換手段と、 前記ブロック長判定手段により短ブロックによる符号化が選択された場合は、短プロ ック単位で入力信号を離散コサイン変換して第 2の係数を求める第 2の変換手段と、 前記ブロック長判定手段の判定結果に応じて前記第 1の係数又は前記第 2の係数 を第 3の係数として選択する選択手段と、
前記入力信号からマスキング閾値を求める心理聴覚分析手段と、
前記マスキング閾値に従って前記第 3の係数をスペクトル量子化して第 1の符号を 求める量子化手段と、
前記第 1の符号をハフマン符号化して第 2の符号を求めるハフマン符号化手段と、 前記第 2の符号から、出力されるビットストリームの総ビット数を計算し、該計算の結 果に基づいてビットストリームの出力を指示する量子化制御手段と、
前記第 2の符号からビットストリームを生成し、前記量子化制御手段の指示に基づ レ、てビットストリームを出力するビットストリーム生成手段とを備える。
[0052] また、本発明のオーディオ符号化装置は、
前記ブロック長判定手段が、
前記電力変動比及び前記予測利得変動比の少なくともいずれか一方があらかじめ 決められた閾値より大きい場合に短ブロックによる符号化を選択し、前記電力変動比 及び前記予測利得変動比の少なくともいずれか一方があらかじめ決められた閾値よ り大きい場合以外の場合は長ブロックによる符号化を選択する。
[0053] また、本発明のオーディオ符号化装置は、
前記ブロック長判定手段が用いる符号ィ匕する際のブロック長を判定するための閾 値を、前記ブロック長判定手段の判定結果に応じて変化させる閾値決定手段を備え る。
[0054] また、本発明のオーディオ符号化装置は、
前記閾値決定手段が、
前記ブロック長判定手段の判定結果が短ブロックによる符号化を表す場合に、前 記閾値を初期値よりも大きい値に設定する。
[0055] また、本発明のオーディオ符号化装置は、
前記算出手段が、
前記電力算出手段が電力を算出するブロックを所定数用いて 1つのブロックとし、 該 1つのブロックの前記予測利得変動比を算出する。
[0056] また、本発明のオーディオ符号化装置は、
前記電力算出手段が、
前記算出手段が予測利得を算出するブロックを所定数用いて 1つのブロックとし、 該 1つのブロックの前記電力変動比を算出する。
[0057] さらに、本発明のオーディオ符号化方法は、
入力信号を一定のサンプル数からなるフレームに分割し、 1フレームの入力信号を 符号化する長ブロックモードと、前記フレームを分割して短ブロックとし、該短ブロック を符号ィ匕する短ブロックモードとを備えたオーディオ符号ィ匕方法において、
前記入力信号から電力変動比を算出する電力算出工程と、
前記入力信号から予測利得変動比を算出する算出工程と、
前記電力変動比と前記予測利得変動比とから、長ブロックによる符号化を行うか又 は短ブロックによる符号化を行うかを判定するブロック長判定工程とを備える。
[0058] また、本発明のオーディオ符号化方法は、
入力信号を一定のサンプル数からなるフレームに分割し、 1フレームの入力信号を 符号化する長ブロックモードと、
前記フレームを分割して短ブロックとし、該短ブロックを符号化する短ブロックモード とを備えたオーディオ符号ィヒ方法において、
前記入力信号から電力変動比を算出する電力算出工程と、 前記入力信号から予測利得変動比を算出する算出工程と、
前記電力変動比と前記予測利得変動比とから、長ブロックによる符号化を行うか又 は短ブロックによる符号化を行うかを判定するブロック長判定工程と、
前記ブロック長判定工程において長ブロックによる符号ィ匕が選択された場合は、長 ブロック単位で入力信号を離散コサイン変換して第 1の係数を求める第 1の変換工程 と、
前記ブロック長判定工程において短ブロックによる符号ィ匕が選択された場合は、短 ブロック単位で入力信号を離散コサイン変換して第 2の係数を求める第 2の変換工程 と、
前記ブロック長判定工程の判定結果に応じて前記第 1の係数又は前記第 2の係数 を第 3の係数として選択する選択工程と、
前記入力信号からマスキング閾値を求める心理聴覚分析工程と、
前記マスキング閾値に従って前記第 3の係数をスペクトル量子化して第 1の符号を 求める量子化工程と、
前記第 1の符号をハフマン符号化して第 2の符号を求めるハフマン符号化工程と、 前記第 2の符号から、出力されるビットストリームの総ビット数を計算し、該計算の結 果に基づいてビットストリームの出力を指示する量子化制御工程と、
前記第 2の符号からビットストリームを生成し、前記量子化制御工程における指示に 基づいてビットストリームを出力するビットストリーム生成工程とを備える。
[0059] 本発明のオーディオ符号化装置及びオーディオ符号化方法は、電力変動比と予 測利得変動比とから、長ブロックによる符号ィ匕を行うか又は短ブロックによる符号ィ匕を 行うかを判定する。そのため、本発明のオーディオ符号化装置及びオーディオ符号 化方法は、長ブロックによる符号化と短ブロックによる符号化との双方を行う必要が無 くなる。そのため、本発明のオーディオ符号化装置及びオーディオ符号化方法は、 処理量を軽減することができると共に、電力変動比と予測利得変動比との双方を用 いて符号ィヒするブロック長の判定を行っているため、より適切なブロック長による符号 化を行うことができる。
[0060] また、本発明のオーディオ符号化装置及びオーディオ符号化方法は、ブロック長判 定に用いるブロック長判定用の閾値を、ブロック長の判定結果に応じて変化させるこ とにより、例えば、短ブロックによる符号化が頻繁に選択されることを防止でき、出力さ れる音の音質の低下を軽減することができる。
[0061] また、本発明のオーディオ符号化装置及びオーディオ符号化方法は、電力を算出 するブロックを所定数用いて 1つのブロックとし、この 1つのブロックの予測利得変動 比を算出することにより、処理量を軽減することができる。
[0062] また、本発明のオーディオ符号化装置及びオーディオ符号化方法は、予測利得を 算出するブロックを所定数用いて 1つのブロックとし、この 1つのブロックの電力変動 比を算出することにより、処理量を軽減することができる。
発明の効果
[0063] 以上のように、本発明によれば、処理量を軽減しつつ、ブロック長を適切に選択す ることが可能なオーディオ符号化装置及びオーディオ符号化方法を提供することが できる。
図面の簡単な説明
[0064] [図 1]本発明のオーディオ符号化装置の概要図である。
[図 2]本発明のオーディオ符号化装置で用いる長ブロックと短ブロックの一例の概念 図である。
[図 3]本発明のオーディオ符号化装置における、予測利得変動比の算出方法の概念 図である。
[図 4]本発明のオーディオ符号化装置の第 1の実施形態の構成図である。
[図 5]本発明のオーディオ符号化装置の第 1の実施形態が行うブロック長判定方法の 動作のフローチャートである。
[図 6]本発明のオーディオ符号化装置の第 2の実施形態の構成図である。
[図 7]本発明のオーディオ符号化装置の第 2の実施形態の閾値決定部における、閾 値制御の動作を示すグラフである。
[図 8]本発明のオーディオ符号化装置の第 3の実施形態において、予測利得変動比 と電力変動比とを求める方法の概念図である。
[図 9]本発明のオーディオ符号化装置の第 4の実施形態における、電力変動比の算 出方法を示す概念図である。
[図 10]第 1の従来技術である、 MPEG-2 AACのエンコーダの構成を示す構成図 である。
[図 11]プリエコーの例を示す概略図である。
園 12]第 2の従来技術の構成を示す構成図である。
園 13]第 2の従来技術においてフレームを短ブロックに分割する場合の例を示す概 念図である。
園 14]入力信号、電力変動比及び予測利得変動比の例を示すグラフである。 符号の説明
101 フレーム化部
102 電力算出部
103 算出部
104 ブロック長判定部
105 選択器
106 長ブロック用の MDCT変換部
107 短ブロック用の MDCT変換部
108 選択器
109 心理聴覚分析部
110 量子化部
111 ハフマン符号化部
112 ビットストリーム生成部
113 量子化制御部
401 フレーム化部
402 電力算出部
403 自己相関算出部
404 kパラメータ算出部
405 予測利得算出部
406 予測利得変動比算出部 407 ブロック長判定部
408 選択器
409 長ブロック用の MDCT変換部
410 短ブロック用の MDCT変換部
411 選択器
412 心理聴覚分析部
413 量子化部
414 ハフマン符号化部
415 ビットストリーム生成部
416 量子化制御部
601 フレーム化部
602 電力算出部
603 自己相関算出部
604 kパラメータ算出部
605 予測利得算出部
606 予測利得変動比算出部
607 ブロック長判定部
608 閾値決定部
609 選択器
610 長ブロック用の MDCT変換部
611 短ブロック用の MDCT変換部
612 選択器
613 心理聴覚分析部
614 量子化部
615 ハフマン符号化部
616 ビットストリーム生成部
617 量子化制御部
発明を実施するための最良の形態 [0066] (本発明の概要)
以下、図面を参照して本発明を実施するための最良の形態について説明する。ま ず、本発明のオーディオ符号化装置及びオーディオ符号化方法の概要について説 明する。図 1は、本発明のオーディオ符号化装置の概要図である。以下の説明は、 本発明のオーディオ符号化方法の概要の説明も兼ねる。図 1において、フレームィ匕 部 101は、入力信号を、所定のサンプノレ数からなる入力信号フレーム (長ブロック)に 分割する。次に、長ブロック用の MDCT変換部 106、短ブロック用の MDCT変換部 107、電力算出部 102及び算出部 103は、 1フレームを長ブロックよりも更に短い短 ブロックに分割する。図 2は、本発明のオーディオ符号化装置で用いる長ブロックと 短ブロックの一例の概念図である。図 2は、 1フレーム(長ブロック)を 4つ短ブロックに 分割する場合を示している。以下では、図 2に示される例を元に説明する。しかし、本 発明は、 1フレームを n個(n> 0)に分割する場合でも同様に実施できる。
[0067] (1)電力算出部 102は、短ブロック毎に入力信号電力 P (l)、 P (2)、 P (3)、 P (4) を求める。次に、電力算出部 102は、隣接するブロック間の電力変動比 Δ (1, 2)、
P
Δ (2, 3)、 Δ (3, 4)を求める。ここで、 Δ (i, j)は短ブロック iと短ブロック jの間の電
P P P
力変動比であり、前述の式(1)で求められる。
[0068] (2)次に、算出部 103は、短ブロックの入力信号に対して LPC分析 (線形予測分析 法)を実行して kパラメータを求める。図 3は、本発明のオーディオ符号化装置におけ る、予測利得変動比の算出方法の概念図である。本発明では、 kパラメータの算出方 法は任意である。しかし、本発明は、例えば入力信号から自己相関関数を求め、レビ ンソンアルゴリズム等の公知の方法により自己相関関数から kパラメータを算出する 方法を用いることができる。
[0069] (3)次に、算出部 103は、短ブロック iから求めた kパラメータ k (i, m), (m= l, · · · , ρ)から、次式により予測利得 G (i)を求める。ここで、 pは予測次数である。
[0070] [数 2] 式 (2)
Π (ト k(i , m)2 )
m=1
[0071] (4)次に、算出部 103は、短ブロック i、 jから求めた予測利得 G (i)、 G (j)力 次式に より予測利得変動比 Δ (i,j)を求める。
G
[0072] [数 3]
Figure imgf000019_0001
AG( i, j) = 式 (3)
G ( i )
[0073] (5)次に、電力変動比 Δ (i, j)はブロック長判定部 104に入力する。また、予測利
P
得変動比 Δ (i, j)はブロック長判定部 104に入力する。そして、ブロック長判定部 10
G
4は、長ブロックと短ブロックとのどちらで量子化するかを判定する。ブロック長判定部 104による判定方法は、以下の方法を用いることができる。なお、以下の説明におい て、ブロック長判定部が長ブロックを選択するとは、ブロック長判定部が、長ブロックに よる符号化を選択することを意味する。同様に、ブロック長判定部が短ブロックを選択 するとは、ブロック長判定部が、短ブロックによる符号化を選択することを意味する。 すなわち、ブロック長判定部がブロックを選択するとは、ブロック長判定部が、そのブ ロックによる符号ィ匕を選択することを意味する。
[0074] A)ブロック長判定部 104は、電力変動比に対する閾値 THと、予測利得変動比 T
P
Hを設定する。
G
B)次に、ブロック長判定部 104は、 Δ (1 , 2)、 Δ (2, 3)、 Δ (3, 4)の中で閾値 T
P P P
Hよりも大きレ、ものが一つでもあれば短ブロックを選択し、なければ次の C)へ進む。
P
C)次に、ブロック長判定部 104は、 Δ (1 , 2)、 Δ (2, 3)、 Δ (3, 4)の中で閾値
G G G
THよりも大きいものが一つでもあれば短ブロックを選択し、なければ長ブロックを選
G
択する。 [0075] つまり、ブロック長判定部 104は、フレーム内の電力変動比と予測利得変動比との どちらか一方があら力じめ設定した閾値を越えた場合のみ短ブロックを選択し、それ 以外は長ブロックを選択する。
[0076] (6)ブロック長判定部 104が長ブロックを選択した場合、その判定結果は選択器 10 5及び選択器 108に出力される。選択器 105及び選択器 108は、ブロック長判定部 1 04の判定結果に基づいてブロックを選択をする。そのため、ブロック長判定部 104が 長ブロックを選択した場合、選択器 105及び選択器 108は、長ブロックを選択する。
[0077] そして、フレーム化部 101から出力された入力信号が長ブロック用の MDCT変換 部 106へ入力する。そして、長ブロック用の MDCT変換部 106は、 MDCT1を出力 する。
[0078] また、ブロック長判定部 104が短ブロックを選択した場合、その判定結果は選択器 1 05及び選択器 108に出力される。そして、選択器 105及び選択器 108は、短ブロッ クを選択する。
[0079] そして、フレーム化部 101から出力された入力信号が短ブロック用の MDCT変換 部 107へ入力する。そして、短ブロック用の MDCT変換部 107は、短ブロックの数だ け MDCT係数を出力する。つまり、 1フレームが 4つの短ブロックに分割される場合 は、短ブロック用の MDCT変換部 107は、 4組の MDCT係数を出力する。
[0080] (7)次に、心理聴覚分析部 109は、入力した入力信号から、マスキング閾値を求め る。ここで、心理聴覚分析部 109は、ブロック長判定部 104が長ブロックを選択した場 合、長ブロック用のマスキング閾値を求める。また、心理聴覚分析部 109は、ブロック 長判定部 104が短ブロックを選択した場合、短ブロック用のマスキング閾値を求める
[0081] 本発明において、マスキング閾値の算出方法は、任意の方法を用いることができる 。例えば、心理聴覚分析部 109は、非特許文献 1に開示されている方法を用いること ができる。つまり、心理聴覚分析部 109は、入力信号に対して FFT分析を行う。そし て、心理聴覚分析部 109は、 FFTスぺクトノレを求める。そして、心理聴覚分析部 109 は、 FFTスペクトルからマスキング閾値を算出する。
[0082] (8)次に、 MDCT係数とマスキング閾値とは、量子化部 110へ入力される。量子化 部 110は、入力されたマスキング閾値に従って周波数バンド毎に MDCT係数を量子 化する。そして、量子化部 110は、 MDCT係数が量子化された量子化符号 1を出力 する。
[0083] (9)次に、量子化符号 1は、ハフマン符号化部 111へ入力する。そして、ハフマン符 号化部 111は、量子化符号 1を、量子化符号 1より更に冗長度が除去された量子化 符号 2に変換する。
[0084] (10)次に、ハフマン符号ィ匕部 111は、量子化符号 2を量子化制御部 113に出力す る。量子化制御部 113は、入力した量子化符号 2から最終的に出力されるビットストリ 一ムの総ビット数を計算する。なお、図 1において、点線で囲まれた範囲は、量子化 制御部 113が制御可能な範囲である。
[0085] (11)量子化制御部 113は、計算した総ビット数が現ブロックに許されるビット数を上 回る場合、処理(8) 処理(10)を繰り返すように、量子化部 110と、ハフマン符号ィ匕 部 111とを制御する。また、量子化制御部 113は、計算した総ビット数が現ブロックに 許されるビット数を下回る場合、ハフマン符号化部 111からビットストリーム生成部 11 2に対して量子化符号 2を出力させる。そして、量子化制御部 113は、ビットストリーム 生成部 112に対して、ビットストリームを出力するように制御する。これにより、図 1に 示されるオーディオ符号化装置は、量子化を実現する。なお、本発明での量子化の プロセスは、前述の従来技術の欄で説明した、 AAC方式の量子化プロセスの詳細と 同様であるため、その詳細な説明を省略する。
[0086] 次に、図面を参照して本発明の実施形態について説明する。以下の実施の形態の 構成は例示であり、本発明は実施の形態の構成に限定されない。また、以下の各実 施形態の説明は、オーディオ信号を符号化するオーディオ符号化装置を例に用い て説明する。なお、以下に説明する本発明のオーディオ符号化装置の各実施形態 の説明は、本発明のオーディオ符号化方法の各実施形態の説明を兼ねる。
[0087] (第 1の実施形態)
図 4は、本発明のオーディオ符号化装置の第 1の実施形態の構成図である。図 4に おいて、フレーム化部 401は、入力した信号を所定のサンプノレ数からなる入力信号 フレーム(長ブロック)に分割する。 [0088] 次に、短ブロック用の MDCT変換部 410、電力算出部 402及び自己相関算出部 4 03は、入力した 1フレームを短ブロックに分割する。本実施形態におけるフレームの 分割について前述の図 2を参照して説明する。図 2は、長ブロックと短ブロックの例を 示す概念図である。図 2に示される例は、 1フレーム(長ブロック)を 4つの短ブロック に分割する。以下では、この例を元に説明する。しかし、本実施形態は、 1フレームを n個(nは非負の整数)に分割する場合でも同様に成り立つ。
[0089] (1)まず、電力算出部 402は、短ブロック毎に入力信号電力 P (l)、 P (2)、 P (3)、 P (4)を求める。そして、電力算出部 402は、隣接するブロック間の電力変動比 Δ (1
P
, 2)、 Δ (2, 3)、 Δ (3, 4)を求める。ここで、 Δ (i, j)は短ブロック iと短ブロック jとの
P P P
間の電力変動比である。この電力変動比は、前述の式(1)で求められる。
[0090] (2)次に、 自己相関算出部 403は、短ブロックの入力信号から自己相関を求める。
そして、自己相関算出部 403は、この自己相関を kパラメータ算出部 404に出力する
[0091] 次に、 kパラメータ算出部 404は、自己相関関数からレビンソンアルゴリズム等の公 知の方法により kパラメータを算出する。なお、 kパラメータ算出部 404が、 自己相関 関数力 LPC係数を求め、 kパラメータ算出部 404が、 LPC係数を kパラメータに変 換するとしても良い。
[0092] (3)そして、予測利得算出部 405は、短ブロック iから求めた kパラメータ k (i, m) , ( m= l, · · ·, p)から次式により予測利得 G (i)を求める。ここで、 pは予測次数である。 この予測利得 G (i)は、予測利得変動比算出部 406に入力する。
[0093] [数 4]
Figure imgf000022_0001
(4)次に、予測利得変動比算出部 406は、短ブロック i、短ブロック jで求めた予測利 得 G (i)、 G (j)から、次式で示される予測利得変動比 Δ—(i, j)を求める。ここで、 自己 相関算出部 403、 kパラメータ算出部 404、予測利得算出部 405及び予測利得変動 比算出部 406は、図 1に示される算出部 103の機能の一部であるとして良い。
[0095] [数 5]
式 (5)
Figure imgf000023_0001
[0096] (5)次に、電力変動比 Δ (i, j)と、予測利得変動比 Δ (i, j)とは、ブロック長判定
P G
部 407へ入力する。そして、ブロック長判定部 407は、長ブロックと短ブロックとのどち らで量子化するかを判定する。ブロック長判定部 407が用いる判定方法は、以下の 方法を用いることができる。以下、ブロック長判定部が行う判定方法について、図 5を 参照して説明する。図 5は、本発明のオーディオ符号化装置の第 1の実施形態が行 うブロック長判定方法の動作のフローチャートである。なお、以下の説明では、前述 のように、ブロック長判定部が長ブロックを選択するとは、ブロック長判定部が、長プロ ックによる符号化を選択することを意味する。同様に、ブロック長判定部が短ブロック を選択するとは、ブロック長判定部が、短ブロックによる符号化を選択することを意味 する。すなわち、ブロック長判定部がブロックを選択するとは、ブロック長判定部が、 そのブロックによる符号化を選択することを意味する。
[0097] (A)ブロック長判定部 407は、電力変動比に対する閾値 THと、予測利得変動比
P
に対する閾値 THを設定する。
G
(B)ブロック長判定部 407は、 Δ (1, 2)、 Δ (2, 3)、 Δ (3, 4)の中で閾値 THよ
P P P P
りも大きレヽもの力 s—つでもあれは、短ブロックを選択し(S501, S502, S503, S508) 、なければ(C)へ進む。
[0098] (C)ブロック長判定部 407は、 Δ (1 , 2)、 Δ (2, 3)、 Δ (3, 4)の中で閾値 TH
G G G G
よりも大きレヽもの力 S—つでもあれは、短ブロックを選択し(S504, S505, S506, S508 )、なければ長ブロックを選択する(S507)。
[0099] つまり、ブロック長判定部 407は、フレーム内の電力変動比と予測利得変動比との どちらか一方があら力じめ設定した閾値を越えた場合のみ、短ブロックを選択し、そ れ以外は長ブロックを選択する。
[0100] (6)ブロック長判定部 407の判定結果は、選択器 408及び選択器 411に入力する
。各選択器 408及び選択器 411は、ブロック長判定部 407の判定結果に基づいて、 用いるブロック長を選択する。
[0101] ブロック長判定部 407が、長ブロックを選択した場合は、入力信号が長ブロック用の
MDCT変換部 409へ入力する。そして、長ブロック用の MDCT変換部 409は、 MD
CT係数を出力する。
[0102] また、ブロック長判定部 407が短ブロックを選択した場合は、入力信号が短ブロック 用の MDCT変換部 410へ入力する。そして、短ブロック用の MDCT変換部 410は、 短ブロックの数分の MDCT係数を出力する。つまり、 1フレームが 4つの短ブロックに 分割される場合、短ブロック用の MDCT変換部 410は、 4組の MDCT係数を出力す る。
[0103] (7)次に、心理聴覚分析部 412は、入力した入力信号から、マスキング閾値を求め る。心理聴覚分析部 412には、フレーム化部 401から出力された入力信号が入力す る。ここで、心理聴覚分析部 412は、ブロック長判定部 407が長ブロックを選択した場 合、長ブロック用のマスキング閾値を求める。また、心理聴覚分析部 412は、ブロック 長判定部 407が短ブロックを選択した場合、短ブロック用のマスキング閾値を求める
[0104] 本実施形態において、マスキング閾値の算出方法は、任意の方法を用いることが できる。例えば、心理聴覚分析部 412は、非特許文献 1に開示されている方法を用 レ、ることができる。つまり、心理聴覚分析部 412は、入力信号に対して FFT分析を行 う。そして、心理聴覚分析部 412は、 FFTスペクトルを求める。そして、心理聴覚分析 部 412は、 FFTスペクトルからマスキング閾値を算出する。
[0105] (8) MDCT係数とマスキング閾値とは、量子化部 413へ入力される。量子化部 413 は、入力されたマスキング閾値に従って周波数バンド毎に MDCT係数を量子化する 。量子化部 413は、 MDCT係数を量子化した量子化符号 1を出力する。
[0106] (9)次に、量子化符号 1は、ハフマン符号化部 414へ入力する。そして、ハフマン符 号化部 414は、量子化符号 1を、量子化符号 1より更に冗長度が除去された量子化 符号 2に変換する。
[0107] (10)次に、ハフマン符号ィ匕部 414は、量子化符号 2を量子化制御部 416に出力す る。量子化制御部 416は、入力された量子化符号 2から最終的に出力されるビットス トリームの総ビット数を計算する。なお、図 4において、点線で囲まれた範囲は、量子 化制御部 416が制御可能な範囲である。
[0108] (11)量子化制御部 416は、計算した総ビット数が現ブロックに許されるビット数を上 回る場合、処理(8) 処理(10)を繰り返すように、量子化部 413と、ハフマン符号ィ匕 部 414とを制御する。また、量子化制御部 416は、計算した総ビット数が現ブロックに 許されるビット数を下回る場合、ハフマン符号化部 414からビットストリーム生成部 41 5に対して量子化符号 2を出力させる。そして、量子化制御部 415は、ビットストリーム 生成部 415に対して、ビットストリームを出力するように制御する。これにより、本実施 形態は、量子化を実現する。なお、本実施形態での量子化のプロセスは、前述の従 来技術の欄で説明した、 AAC方式の量子化プロセスの詳細と同様であるため、その 詳細な説明を省略する。
[0109] なお、本実施形態では 1フレームを 4つの短ブロックに分割する場合を例に説明し た。本発明は、 1フレームを任意の個数 (例えば、 8ブロック)に分割する場合でも同 様にして実現することができる。
[0110] 以上説明の通り、本実施形態は、 MDCT変換の前にブロック長を判定しているた め、第 1の従来技術に比べて少ない処理量で高品質なオーディオ信号の符号化が 可能である。また、本実施形態は、電力変動比と予測利得変動比とを用いてブロック 長の判定を行っているため、第 2の従来技術よりもブロック長の判定が高精度である ため、第 2の従来技術よりも高品質なオーディオ信号の符号化が可能である。
[0111] すなわち、本実施形態は、 MDCT変換及び心理聴覚分析の前に、符号化を行う ブロック長を判定する。そのため、本実施形態は、第 1の従来技術に比べて少ない処 理量で高品質な符号化が可能である。更に、本実施形態は、ブロック長判定手段に おいて、電力変動比と予測利得変動比とを用いる。そのため、本実施形態は、第 2の 従来技術に比べてブロック長を精度良く判定することができる。
[0112] 本実施形態の効果について、前述の図 14を用いてさらに詳細に説明する。図 14 は、電力変動比と予測利得変動比との算出結果を示すグラフである。図 14の(a)に 示される入力信号は、区間 Aでは電力変動比の値が 0でほとんど変化していない(図 14の(b) )。これに対し、図 14の(a)に示される入力信号は、区間 Aでは予測利得変 動比が大きく変動している(図 14の(c) )。
[0113] 本実施形態は、電力変動比と予測利得変動比との両方を算出する。そして、本実 施形態は、電力変動比と予測利得変動比とのどちらか一方が閾値を越えた場合に、 短ブロックを選択する。そのため、本実施形態は、図 14に示される区間 Aのような入 力信号でも精度良くブロック長を判定することができる。
[0114] なお、図 14に示される区間 B、区間 Cでは、予測利得変動比はほとんど変動しない 。一方、図 14に示される区間 B、区間 Cでは、電力変動比が大きく変動する。したが つて、本実施形態は、区間 B、区間 Cについても第 2の従来技術と同様に信号の変化 点を検出可能である。
[0115] (第 2の実施形態)
図 6は、本発明のオーディオ符号化装置の第 2の実施形態の構成図である。本実 施形態は、第 1の実施形態と比較して、電力変動比に対する閾値 THと予測利得変
P
動比に対する閾値 THとを動的に変化させる部分が異なる。それ以外の部分は第 1
G
の実施形態と共通であるので説明を省略する。
[0116] 一般に、短ブロックはアタック音などの急激に変化する部分で選択される場合が多 レ、。アタック音は、広い周波数範囲に渡って MDCTスペクトルの振幅が大きい。その ため、アタック音は、符号ィ匕する場合に大量の量子化ビット数が必要になる。
[0117] 連続して短ブロックが選択されると、量子化ビット数が不足して音質が極端に劣化 する場合がある。そのため、低ビットレートでオーディオ信号を符号ィ匕するには、なる ベく短ブロックが連続して選択されなレ、ように制御することが必要な場合がある。
[0118] そこで、本実施形態では、一度、短ブロックが選択された場合、その後一定時間の 間は閾値 THと閾値 THとを大きくする。その結果、本実施形態では、できるだけ短
P G
ブロックが連続して選ばれないようにする。
[0119] ここで、本発明のオーディオ符号化装置の第 2の実施形態の構成について説明す る。本実施形態の構成は、図 6に示される。そして、図 6に示される各ブロックのうち、 ブロック長判定部 607及び閾値決定部 608以外のブロックの動作は、図 4に示される 対応する各ブロックの動作と同様であるため、その詳細な説明を省略する。
[0120] すなわち、図 6に示される、フレーム化部 601の動作は図 4に示されるフレーム化部 401の動作と同様であり、電力算出部 602の動作は図 4に示される電力算出部 402 の動作と同様であり、 自己相関算出部 603の動作は図 4に示される自己相関算出部 403の動作と同様であり、 kパラメータ算出部 604の動作は図 4に示される kパラメ一 タ算出部 404の動作と同様であり、予測利得算出部 605の動作は図 4に示される予 測利得算出部 405の動作と同様である。
[0121] さらに、予測利得変動比算出部 606の動作は図 4に示される予測利得変動比算出 部 406の動作と同様であり、選択器 609の動作は図 4に示される選択器 408の動作 と同様であり、長ブロック用の MDCT変換部 610の動作は図 4に示される長ブロック 用の MDCT変換部 409の動作と同様である。
[0122] また、短ブロック用の MDCT変換部 611の動作は図 4に示される短ブロック用の M DCT変換部 410の動作と同様であり、選択器 612の動作は図 4に示される選択器 4 11の動作と同様であり、心理聴覚分析部 613の動作は図 4に示される心理聴覚分析 部 412の動作と同様であり、量子化部 614の動作は図 4に示される量子化部 413の 動作と同様であり、ハフマン符号化部 615の動作は図 4に示されるハフマン符号ィ匕部 414の動作と同様であり、ビットストリーム生成部 616の動作は図 4に示されるビットス トリーム生成部 415の動作と同様であり、量子化制御部 617の動作は図 4に示される 量子化制御部 416の動作と同様である。なお、図 6において、点線で囲まれた範囲 は、量子化制御部 617が制御可能な範囲である。
[0123] 他方、図 6に示されるブロック長判定部 607は、閾値決定部 608において決定され た閾値を受信する。また、ブロック長判定部 607は、ブロック長の判定結果を、選択 器 609、選択器 612及び閾値決定部 608に出力する。閾値決定部 608は、ブロック 長判定部 607から出力された判定結果に基づいて、閾値を決定する。すなわち、閾 値決定部 608は、ブロック長判定部 607から出力された判定結果が短ブロックを選択 する判定結果である場合は、増加した閾値の値を出力する。また、ブロック長判定部 607は、閾値決定部 608から受信した閾値に基づいて、判定処理を行う。閾値が変 動しうる点以外は、ブロック長判定部 607における判定処理は、前述の図 5に示され る場合と同様であるため、その詳細な説明を省略する。また、閾値決定部 608は、図 1に示される算出部 103の機能の一部であるとして良い。
[0124] 図 7は、本発明のオーディオ符号ィヒ装置の第 2の実施形態の閾値決定部における 、閾値制御の動作を示すグラフである。図 7に示されるグラフでは、短ブロックが選択 されると、閾値 THは TH + aに変更されている。ここでひ 〉 0とする。同様に、短ブ
G G
ロック力選択されると、閾値 THは TH + βに変更される。ここで、 β > 0とする。
Ρ Ρ
[0125] その後、一定時間 A tが経過すると、閾値は元の値 (初期値) TH 、 THに変更され
G P
る。つまり、本実施形態では、一度、短ブロックが選択された場合、その後一定時間 は閾値 THと閾値 THとを大きくして、できるだけ短ブロックが連続して選ばれないよ
P G
うにする。
[0126] 以上の説明の通り、本実施形態は、前述の第 1の実施形態と同様の効果を得ること ができる。さらに、本実施形態は、一度短ブロックが選択された場合に、その後一定 時間は短ブロックが選ばれないように閾値を制御する。そのため、本実施形態では、 連続して短ブロックが選択されることにより生じる音質劣化を軽減することができる。
[0127] なお、本実施形態の変形例として、以下の方法を実施することもできる。以下の変 形例でも、上記本発明のオーディオ符号化装置の第 2の実施形態と同様の効果を得 ること力 Sできる。
(1)本実施形態の変形例は、短ブロックが選ばれた後、一定時間は短ブロックを選 択しない。
(2)本実施形態の変形例は、短ブロックが選ばれた後、 α又は βを十分に大きくす る。ただし、本実施形態の変形例は、 ΤΗ又は ΤΗ範囲をあらかじめ調べておく必要
G Ρ
力 Sある。
(3)本実施形態の変形例は、短ブロックが選択され、閾値が ΤΗ + ひ又は ΤΗ +
G Ρ
βとなっている場合に、再度短ブロックが選択された場合、閾値を、 ΤΗ + ひ + ひ又
G
は ΤΗ + β + βとする。ただし、本実施形態の変形例は、一定時間後は、閾値を元 ρ
の値に戻す。
[0128] (第 3の実施形態) 次に、本発明のオーディオ符号化装置の第 3の実施形態について説明する。本実 施形態の構成は、図 4に示される第 1の実施形態と同じである。しかし、第 3の実施形 態は、予測利得変動比をフレーム単位で求める点が前述の第 1の実施形態とは異な る。すなわち、本実施形態では、電力を算出するブロックを所定数用いて 1つのプロ ックとし、この 1つのブロックの予測利得変動比を算出する。
[0129] 第 1の実施形態は、短ブロック毎に LPC分析を行う。そのため、第 1の実施形態は、 精密に予測利得変動比を算出できる。しかし、第 1の実施形態では、 LPC分析の実 行回数が多くなるため処理量も増える。本実施形態では 1つの長ブロックにっき 1回 の LPC分析を行う。そのため、本実施形態は、第 1の実施形態に比べると演算量をよ り少なくすることができる。
[0130] 図 8は、本発明のオーディオ符号ィ匕装置の第 3の実施形態において、予測利得変 動比と電力変動比とを求める方法の概念図である。第 1の実施形態は、短ブロック毎 に LPC分析を行って得られた kパラメータから予測利得を求める。そして、第 1の実施 形態は、 1つ前の短ブロックで同様にして求めた予測利得との比により予測利得変動 比を算出する。
[0131] これに対し、本実施形態は、図 8の(a)に示されるように、 1つの長ブロック(第 nフレ ーム)の入力信号に対して LPC分析を行って kパラメータを求める。すなわち、 kパラ メータ算出部が、 1つの長ブロック(第 nフレーム)の入力信号に対して LPC分析を行 つて kパラメータを求める。そして、本実施形態は、 kパラメータから予測利得 G (n)を 算出する。次に、本実施形態は、 1つ前のフレーム(第 n-1フレーム目)で同様にして 求めた予測利得電力 G (n— 1)と G (n)とを用いて、次式により予測利得変動比 Δ (n
G
)を算出する。
[0132] [数 6]
AG ^ ¾ 式 (6)
[0133] 一方、本実施形態は、図 8の(b)に示されるように、第 1の実施形態と同様に、短ブ ロック毎に電力変動比 Δ (1 , 2)、 Δ (2, 3)、 Δ (3, 4)を算出する。次に、本実施
Ρ Ρ Ρ
形態は、算出された予測利得変動比と電力変動比とから最適なブロック長を決定す る。以下、この決定動作について説明する。
[0134] (1)ブロック長判定部は、 Δ (η)があら力 め決められた閾値 ΤΗよりも大きければ
G G
短ブロックを選択する。
(2)次に、ブロック長判定部は、 Δ (1, 2)、 Δ (2, 3)、 Δ (3, 4)の中で、一つで
Ρ Ρ Ρ
もあら力、じめ決められた閾値 ΤΗよりも大きいものがあれば短ブロックを選択する ρ
[0135] (3)そして、ブロック長判定部は、(1)又は(2)のいずれか一方で短ブロックが選択 されなかった場合は長ブロックを選択する。本実施形態は、ブロック長を選択した後 の構成と処理内容は第 1の実施形態と共通である。そのため、本実施形態のブロック 長を選択した後の構成と処理内容については、説明を省略する。
[0136] 以上の説明の通り、本実施形態は、前述の本発明の第 1の実施形態と同様の効果 を得ることができる。さらに、本実施形態は、 LPC分析を長ブロックにっき 1回だけ行 うことにより、第 1の実施形態に比べてより少ない処理量でブロック長を選択すること ができる。ただし、本実施形態では、予測利得を算出するブロックとして、 1フレーム のブロックを用いる場合に限定されるものではなぐ電力を算出するブロックを任意の 数用いて 1つのブロックとし、この 1つのブロックの予測利得を算出するとしても良い。 この場合でも、本実施形態は、上記と同様の効果を得ることができる。
[0137] (第 4の実施形態)
次に、本発明のオーディオ符号化装置の第 4の実施形態について説明する。本実 施形態の構成は第 1の実施形態の構成と同じある。しかし、本実施形態は、 1フレー ムを 8つの短ブロックに分割して行う電力変動比の計算方法が第 1の実施形態と異な る。すなわち、本実施形態は、予測利得を算出するブロックを所定数用いて 1つのブ ロックとし、この 1つのブロックの電力変動比を算出する。
[0138] 図 9は、本発明のオーディオ符号化装置の第 4の実施形態における、電力変動比 の算出方法を示す概念図である。図 9に示されるように、本実施形態は、 1フレームを 8つの短ブロックに分割し、電力変動比を計算する。ただし、本実施形態は、第 1の 実施形態のように 1個の短ブロックについて 1個の電力変動比を求めるのではない。 すなわち、本実施形態は、隣接する複数の短ブロックから電力変動比を求める点が、 第 1の実施形態と異なる。本実施形態の電力変動比の算出方法を以下に示す。
[0139] 本実施形態では、第 1及び第 2の短ブロックから電力 P (1)を求める。また、本実施 形態は、第 3及び第 4の短ブロックから電力 P (2)を求める。また、本実施形態は、第 5 及び第 6の短ブロックから電力 P (3)を求める。また、本実施形態は、第 7及び第 8の 短ブロックから電力 P (4)を求める。
[0140] 次に、本実施形態は、 P (l)と P (2)とから電力変動比 Δ (1, 2)を求める。また、本
P
実施形態は、 P (2)と P (3)とから電力変動比 Δ (2, 3)を求める。また、本実施形態
P
は、 P (3)と P (4)とからから電力変動比 Δ (3, 4)を求める。
P
[0141] 上記のように、本実施形態は、 2つの短ブロックの電力を求める点が第 1の実施形 態とは異なる。すなわち、第 1の実施形態では、予測利得変動比が 8個、電力変動比 力^個、計算されるのに対して、本実施形態では、予測利得変動比が 8個、電力変動 比が 4個しか計算されない。つまり、本実施形態では、 1フレーム内で算出する予測 利得変動比と電力変動比との数が異なってもよい。本実施形態の、上述の部分以外 については第 1の実施形態と同じであるので説明を省略する。
[0142] このように、本実施形態は、前述の本発明の第 1の実施形態と同様の効果を得るこ とができる。さらに、本実施形態は、 2つの短ブロックの電力を求めることにより、電力 の算出処理の計算量を、第 1の実施形態に比べて軽減することができる。なお、本実 施形態は、電力を算出するブロックとして、短ブロックの 2つを用いる場合に限定され るのではなぐ 3つ以上の任意の数の短ブロックを用いて電力を算出するとしても良 レ、。この場合でも、上記の効果と同様の効果を得ることができる。

Claims

請求の範囲
[1] 入力信号を一定のサンプノレ数からなるフレームに分割し、 1フレームの入力信号を符 号化する長ブロックモードと、前記フレームを分割して短ブロックとし、該短ブロックを 符号化する短ブロックモードとを備えたオーディオ符号化装置において、
前記入力信号から電力変動比を算出する電力算出手段と、
前記入力信号から予測利得変動比を算出する算出手段と、
前記電力変動比と前記予測利得変動比とから、長ブロックによる符号化を行うか又 は短ブロックによる符号化を行うかを判定するブロック長判定手段とを備えるオーディ ォ符号化装置。
[2] 前記ブロック長判定手段は、
前記電力変動比及び前記予測利得変動比のいずれか一方があらかじめ決められ た閾値より大きい場合に短ブロックによる符号化を選択し、前記電力変動比及び前 記予測利得変動比のいずれか一方があらかじめ決められた閾値より大きい場合以外 の場合に、長ブロックによる符号化を選択する請求項 1記載のオーディオ符号化装 置。
[3] 前記ブロック長判定手段が用いる符号化する際のブロック長を判定するための閾値 を、前記ブロック長判定手段の判定結果に応じて変化させる閾値決定手段を備える 請求項 1記載のオーディオ符号化装置。
[4] 前記閾値決定手段は、
前記ブロック長判定手段の判定結果が短ブロックによる符号化を表す場合に、前 記閾値を初期値よりも大きな値に設定する請求項 3記載のオーディオ符号化装置。
[5] 前記算出手段は、
前記電力算出手段が電力を算出するブロックを所定数用いて 1つのブロックとし、 該 1つのブロックの前記予測利得変動比を算出する請求項 1記載のオーディオ符号 化装置。
[6] 前記電力算出手段は、
前記算出手段が予測利得を算出するブロックを所定数用いて 1つのブロックとし、 該 1つのブロックの前記電力変動比を算出する請求項 1記載のオーディオ符号化装 置。
[7] 入力信号を一定のサンプノレ数からなるフレームに分割し、 1フレームの入力信号を符 号化する長ブロックモードと、
前記フレームを分割して短ブロックとし、該短ブロックを符号化する短ブロックモード とを備えたオーディオ符号ィヒ装置において、
前記入力信号から電力変動比を算出する電力算出手段と、
前記入力信号から予測利得変動比を算出する算出手段と、
前記電力変動比と前記予測利得変動比とから、長ブロックによる符号化を行うか又 は短ブロックによる符号化を行うかを判定するブロック長判定手段と、
前記ブロック長判定手段により長ブロックによる符号化が選択された場合は、長プロ ック単位で入力信号を離散コサイン変換して第 1の係数を求める第 1の変換手段と、 前記ブロック長判定手段により短ブロックによる符号化が選択された場合は、短プロ ック単位で入力信号を離散コサイン変換して第 2の係数を求める第 2の変換手段と、 前記ブロック長判定手段の判定結果に応じて前記第 1の係数又は前記第 2の係数 を第 3の係数として選択する選択手段と、
前記入力信号からマスキング閾値を求める心理聴覚分析手段と、
前記マスキング閾値に従って前記第 3の係数をスペクトル量子化して第 1の符号を 求める量子化手段と、
前記第 1の符号をハフマン符号化して第 2の符号を求めるハフマン符号化手段と、 前記第 2の符号から、出力されるビットストリームの総ビット数を計算し、該計算の結 果に基づいてビットストリームの出力を指示する量子化制御手段と、
前記第 2の符号からビットストリームを生成し、前記量子化制御手段の指示に基づ レ、てビットストリームを出力するビットストリーム生成手段とを備えるオーディオ符号化 装置。
[8] 前記ブロック長判定手段は、
前記電力変動比及び前記予測利得変動比の少なくともいずれか一方があらかじめ 決められた閾値より大きい場合に短ブロックによる符号化を選択し、前記電力変動比 及び前記予測利得変動比の少なくともいずれか一方があらかじめ決められた閾値よ り大きい場合以外の場合は長ブロックによる符号化を選択する請求項 7記載のォー ディォ符号化装置。
[9] 前記ブロック長判定手段が用いる符号化する際のブロック長を判定するための閾値 を、前記ブロック長判定手段の判定結果に応じて変化させる閾値決定手段を備える 請求項 7記載のオーディオ符号化装置。
[10] 前記閾値決定手段は、
前記ブロック長判定手段の判定結果が短ブロックによる符号化を表す場合に、前 記閾値を初期値よりも大きい値に設定する請求項 9記載のオーディオ符号化装置。
[11] 前記算出手段は、
前記電力算出手段が電力を算出するブロックを所定数用いて 1つのブロックとし、 該 1つのブロックの前記予測利得変動比を算出する請求項 7記載のオーディオ符号 化装置。
[12] 前記電力算出手段は、
前記算出手段が予測利得を算出するブロックを所定数用いて 1つのブロックとし、 該 1つのブロックの前記電力変動比を算出する請求項 7記載のオーディオ符号化装 置。
[13] 入力信号を一定のサンプノレ数からなるフレームに分割し、 1フレームの入力信号を符 号化する長ブロックモードと、前記フレームを分割して短ブロックとし、該短ブロックを 符号化する短ブロックモードとを備えたオーディオ符号化方法において、
前記入力信号から電力変動比を算出する電力算出工程と、
前記入力信号から予測利得変動比を算出する算出工程と、
前記電力変動比と前記予測利得変動比とから、長ブロックによる符号化を行うか又 は短ブロックによる符号化を行うかを判定するブロック長判定工程とを備えるオーディ ォ符号化方法。
[14] 入力信号を一定のサンプノレ数からなるフレームに分割し、 1フレームの入力信号を符 号化する長ブロックモードと、
前記フレームを分割して短ブロックとし、該短ブロックを符号化する短ブロックモード とを備えたオーディオ符号ィヒ方法において、 前記入力信号から電力変動比を算出する電力算出工程と、 前記入力信号から予測利得変動比を算出する算出工程と、
前記電力変動比と前記予測利得変動比とから、長ブロックによる符号化を行うか又 は短ブロックによる符号化を行うかを判定するブロック長判定工程と、
前記ブロック長判定工程において長ブロックによる符号ィ匕が選択された場合は、長 ブロック単位で入力信号を離散コサイン変換して第 1の係数を求める第 1の変換工程 と、
前記ブロック長判定工程において短ブロックによる符号ィ匕が選択された場合は、短 ブロック単位で入力信号を離散コサイン変換して第 2の係数を求める第 2の変換工程 と、
前記ブロック長判定工程の判定結果に応じて前記第 1の係数又は前記第 2の係数 を第 3の係数として選択する選択工程と、
前記入力信号からマスキング閾値を求める心理聴覚分析工程と、
前記マスキング閾値に従って前記第 3の係数をスペクトル量子化して第 1の符号を 求める量子化工程と、
前記第 1の符号をハフマン符号化して第 2の符号を求めるハフマン符号化工程と、 前記第 2の符号から、出力されるビットストリームの総ビット数を計算し、該計算の結 果に基づいてビットストリームの出力を指示する量子化制御工程と、
前記第 2の符号からビットストリームを生成し、前記量子化制御工程における指示に 基づいてビットストリームを出力するビットストリーム生成工程とを備えるオーディオ符 号化方法。
PCT/JP2004/010416 2004-07-22 2004-07-22 オーディオ符号化装置及びオーディオ符号化方法 WO2006008817A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2006527708A JP4533386B2 (ja) 2004-07-22 2004-07-22 オーディオ符号化装置及びオーディオ符号化方法
PCT/JP2004/010416 WO2006008817A1 (ja) 2004-07-22 2004-07-22 オーディオ符号化装置及びオーディオ符号化方法
EP04770880A EP1775718A4 (en) 2004-07-22 2004-07-22 AUDIOCODING DEVICE AND AUDIOCODING METHOD
US11/654,679 US20070118368A1 (en) 2004-07-22 2007-01-18 Audio encoding apparatus and audio encoding method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2004/010416 WO2006008817A1 (ja) 2004-07-22 2004-07-22 オーディオ符号化装置及びオーディオ符号化方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US11/654,679 Continuation US20070118368A1 (en) 2004-07-22 2007-01-18 Audio encoding apparatus and audio encoding method

Publications (1)

Publication Number Publication Date
WO2006008817A1 true WO2006008817A1 (ja) 2006-01-26

Family

ID=35784953

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2004/010416 WO2006008817A1 (ja) 2004-07-22 2004-07-22 オーディオ符号化装置及びオーディオ符号化方法

Country Status (4)

Country Link
US (1) US20070118368A1 (ja)
EP (1) EP1775718A4 (ja)
JP (1) JP4533386B2 (ja)
WO (1) WO2006008817A1 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007286146A (ja) * 2006-04-13 2007-11-01 Nippon Telegr & Teleph Corp <Ntt> 適応ブロック長符号化装置、その方法、プログラム及び記録媒体
JP2007286200A (ja) * 2006-04-13 2007-11-01 Nippon Telegr & Teleph Corp <Ntt> 適応ブロック長符号化装置、その方法、プログラム及び記録媒体
JP2008102520A (ja) * 2006-10-18 2008-05-01 Polycom Inc オーディオ信号の2重変換符号化
JP2011509426A (ja) * 2008-01-04 2011-03-24 ドルビー・インターナショナル・アーベー オーディオエンコーダおよびデコーダ
US7966175B2 (en) 2006-10-18 2011-06-21 Polycom, Inc. Fast lattice vector quantization
CN102243872A (zh) * 2010-05-10 2011-11-16 炬力集成电路设计有限公司 对音频数字信号进行编码、解码的方法及系统
JP2018056877A (ja) * 2016-09-30 2018-04-05 株式会社モバイルテクノ 信号圧縮装置、信号伸長装置、信号圧縮プログラム、信号伸長プログラム及び通信装置

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090144054A1 (en) * 2007-11-30 2009-06-04 Kabushiki Kaisha Toshiba Embedded system to perform frame switching
WO2010102446A1 (zh) 2009-03-11 2010-09-16 华为技术有限公司 一种线性预测分析方法、装置及系统
CN102930871B (zh) * 2009-03-11 2014-07-16 华为技术有限公司 一种线性预测分析方法、装置及系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06259098A (ja) * 1993-03-08 1994-09-16 Pioneer Electron Corp 適応ブロック長変換符号化のブロック長選択装置
JPH0766733A (ja) 1993-08-25 1995-03-10 Victor Co Of Japan Ltd 音声高能率符号化装置
JPH09232964A (ja) * 1996-02-20 1997-09-05 Nippon Steel Corp ブロック長可変型変換符号化装置および過渡状態検出装置
JP2000500247A (ja) * 1996-07-11 2000-01-11 フラオホッフェル―ゲゼルシャフト ツル フェルデルング デル アンゲヴァンドテン フォルシュング エー.ヴェー. 可聴信号のコーディングおよびデコーディング方法
JP2000134106A (ja) * 1998-10-29 2000-05-12 Matsushita Electric Ind Co Ltd オーディオ変換符号化のための周波数領域でのブロックサイズ判定適応方法
JP2000206990A (ja) * 1999-01-12 2000-07-28 Ricoh Co Ltd デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体
JP2001343997A (ja) * 2000-05-30 2001-12-14 Ricoh Co Ltd デジタル音響信号符号化装置、方法及び記録媒体
JP2003195881A (ja) * 2001-12-28 2003-07-09 Victor Co Of Japan Ltd 周波数変換ブロック長適応変換装置及びプログラム
JP2003233400A (ja) * 2002-02-08 2003-08-22 Ntt Docomo Inc 復号装置、符号化装置、復号方法、及び、符号化方法
JP2004054156A (ja) * 2002-07-24 2004-02-19 Victor Co Of Japan Ltd 音響信号符号化方法及び音響信号符号化装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW271524B (ja) * 1994-08-05 1996-03-01 Qualcomm Inc
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
US5848391A (en) * 1996-07-11 1998-12-08 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Method subband of coding and decoding audio signals using variable length windows
WO2001022401A1 (en) * 1999-09-20 2001-03-29 Koninklijke Philips Electronics N.V. Processing circuit for correcting audio signals, receiver, communication system, mobile apparatus and related method
DE60208426T2 (de) * 2001-11-02 2006-08-24 Matsushita Electric Industrial Co., Ltd., Kadoma Vorrichtung zur signalkodierung, signaldekodierung und system zum verteilen von audiodaten
US7460993B2 (en) * 2001-12-14 2008-12-02 Microsoft Corporation Adaptive window-size selection in transform coding
US7389226B2 (en) * 2002-10-29 2008-06-17 Ntt Docomo, Inc. Optimized windows and methods therefore for gradient-descent based window optimization for linear prediction analysis in the ITU-T G.723.1 speech coding standard
TWI275074B (en) * 2004-04-12 2007-03-01 Vivotek Inc Method for analyzing energy consistency to process data
US7177804B2 (en) * 2005-05-31 2007-02-13 Microsoft Corporation Sub-band voice codec with multi-stage codebooks and redundant coding

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06259098A (ja) * 1993-03-08 1994-09-16 Pioneer Electron Corp 適応ブロック長変換符号化のブロック長選択装置
JPH0766733A (ja) 1993-08-25 1995-03-10 Victor Co Of Japan Ltd 音声高能率符号化装置
JPH09232964A (ja) * 1996-02-20 1997-09-05 Nippon Steel Corp ブロック長可変型変換符号化装置および過渡状態検出装置
JP2000500247A (ja) * 1996-07-11 2000-01-11 フラオホッフェル―ゲゼルシャフト ツル フェルデルング デル アンゲヴァンドテン フォルシュング エー.ヴェー. 可聴信号のコーディングおよびデコーディング方法
JP2000134106A (ja) * 1998-10-29 2000-05-12 Matsushita Electric Ind Co Ltd オーディオ変換符号化のための周波数領域でのブロックサイズ判定適応方法
JP2000206990A (ja) * 1999-01-12 2000-07-28 Ricoh Co Ltd デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体
JP2001343997A (ja) * 2000-05-30 2001-12-14 Ricoh Co Ltd デジタル音響信号符号化装置、方法及び記録媒体
JP2003195881A (ja) * 2001-12-28 2003-07-09 Victor Co Of Japan Ltd 周波数変換ブロック長適応変換装置及びプログラム
JP2003233400A (ja) * 2002-02-08 2003-08-22 Ntt Docomo Inc 復号装置、符号化装置、復号方法、及び、符号化方法
JP2004054156A (ja) * 2002-07-24 2004-02-19 Victor Co Of Japan Ltd 音響信号符号化方法及び音響信号符号化装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SEAN A RAMPRASHAD: "The Multi Mode Transform Predictive Coding Paradigm", IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING, vol. 11, 2 March 2003 (2003-03-02)
See also references of EP1775718A4

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007286146A (ja) * 2006-04-13 2007-11-01 Nippon Telegr & Teleph Corp <Ntt> 適応ブロック長符号化装置、その方法、プログラム及び記録媒体
JP2007286200A (ja) * 2006-04-13 2007-11-01 Nippon Telegr & Teleph Corp <Ntt> 適応ブロック長符号化装置、その方法、プログラム及び記録媒体
JP2008102520A (ja) * 2006-10-18 2008-05-01 Polycom Inc オーディオ信号の2重変換符号化
US7953595B2 (en) 2006-10-18 2011-05-31 Polycom, Inc. Dual-transform coding of audio signals
US7966175B2 (en) 2006-10-18 2011-06-21 Polycom, Inc. Fast lattice vector quantization
JP2011509426A (ja) * 2008-01-04 2011-03-24 ドルビー・インターナショナル・アーベー オーディオエンコーダおよびデコーダ
US8484019B2 (en) 2008-01-04 2013-07-09 Dolby Laboratories Licensing Corporation Audio encoder and decoder
US8494863B2 (en) 2008-01-04 2013-07-23 Dolby Laboratories Licensing Corporation Audio encoder and decoder with long term prediction
US8924201B2 (en) 2008-01-04 2014-12-30 Dolby International Ab Audio encoder and decoder
US8938387B2 (en) 2008-01-04 2015-01-20 Dolby Laboratories Licensing Corporation Audio encoder and decoder
CN102243872A (zh) * 2010-05-10 2011-11-16 炬力集成电路设计有限公司 对音频数字信号进行编码、解码的方法及系统
JP2018056877A (ja) * 2016-09-30 2018-04-05 株式会社モバイルテクノ 信号圧縮装置、信号伸長装置、信号圧縮プログラム、信号伸長プログラム及び通信装置

Also Published As

Publication number Publication date
EP1775718A4 (en) 2008-05-07
EP1775718A1 (en) 2007-04-18
JPWO2006008817A1 (ja) 2008-05-01
US20070118368A1 (en) 2007-05-24
JP4533386B2 (ja) 2010-09-01

Similar Documents

Publication Publication Date Title
JP6704037B2 (ja) 音声符号化装置および方法
KR101162572B1 (ko) 오디오 데이터 부호화 및 복호화 장치와 방법
US9361900B2 (en) Encoding device and method, decoding device and method, and program
TWI669706B (zh) 用於解碼高階保真立體音響表示之方法、裝置及非暫態電腦可讀取儲存媒體
KR100904605B1 (ko) 음성부호화장치, 음성복호장치, 음성부호화방법 및음성복호방법
KR100840439B1 (ko) 음성부호화장치 및 음성복호장치
JP5583881B2 (ja) オーディオ信号の変換方法及び変換装置、オーディオ信号の適応的符号化方法及び適応的符号化装置
WO1998042083A1 (en) Audio coding method and apparatus
US20070118368A1 (en) Audio encoding apparatus and audio encoding method
JP4063508B2 (ja) ビットレート変換装置およびビットレート変換方法
JPWO2009057329A1 (ja) 符号化装置、復号装置およびこれらの方法
EP2439736A1 (en) Down-mixing device, encoder, and method therefor
JP2003316394A (ja) 音声復号システム、及び、音声復号方法、並びに、音声復号プログラム
KR101387808B1 (ko) 가변 비트율을 갖는 잔차 신호 부호화를 이용한 고품질 다객체 오디오 부호화 및 복호화 장치
JP2006003580A (ja) オーディオ信号符号化装置及びオーディオ信号符号化方法
JP4699117B2 (ja) 信号符号化装置、信号復号化装置、信号符号化方法、及び信号復号化方法。
JP2003233397A (ja) オーディオ符号化装置、オーディオ符号化プログラム及びオーディオ符号化データ伝送装置
KR100880995B1 (ko) 오디오 부호화 장치 및 오디오 부호화 방법
JP4625709B2 (ja) ステレオオーディオ信号符号化装置
JP4273062B2 (ja) 符号化方法、符号化装置、復号化方法及び復号化装置
JP4721355B2 (ja) 符号化データの符号化則変換方法および装置
JP2007304258A (ja) オーディオ信号符号化およびその復号化装置、方法ならびにプログラム
JP2003271199A (ja) オーディオ信号の符号化方法及び符号化装置
JP2008268792A (ja) オーディオ信号符号化装置およびそのビットレート変換装置
JP2006262295A (ja) 符号化装置、復号装置、符号化方法及び復号方法

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2006527708

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 11654679

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2004770880

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 1020077001898

Country of ref document: KR

WWP Wipo information: published in national office

Ref document number: 1020077001898

Country of ref document: KR

WWP Wipo information: published in national office

Ref document number: 2004770880

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 11654679

Country of ref document: US