WO1998000837A1 - Procedes de codage et de decodage de signaux audio, et codeur et decodeur de signaux audio - Google Patents

Procedes de codage et de decodage de signaux audio, et codeur et decodeur de signaux audio Download PDF

Info

Publication number
WO1998000837A1
WO1998000837A1 PCT/JP1997/002271 JP9702271W WO9800837A1 WO 1998000837 A1 WO1998000837 A1 WO 1998000837A1 JP 9702271 W JP9702271 W JP 9702271W WO 9800837 A1 WO9800837 A1 WO 9800837A1
Authority
WO
WIPO (PCT)
Prior art keywords
quantization
audio signal
vector
frequency
code
Prior art date
Application number
PCT/JP1997/002271
Other languages
English (en)
French (fr)
Inventor
Takeshi Norimatsu
Shuji Miyasaka
Yoshihisa Nakato
Mineo Tsushima
Tomokazu Ishikawa
Original Assignee
Matsushita Electric Industrial Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to JP17129696A priority Critical patent/JP3246715B2/ja
Application filed by Matsushita Electric Industrial Co., Ltd. filed Critical Matsushita Electric Industrial Co., Ltd.
Priority to DE69724126T priority patent/DE69724126T2/de
Priority to KR1019980709143A priority patent/KR100283547B1/ko
Priority to US09/171,266 priority patent/US6826526B1/en
Priority to EP97928529A priority patent/EP0910067B1/en
Publication of WO1998000837A1 publication Critical patent/WO1998000837A1/ja
Priority to US09/227,189 priority patent/US6904404B1/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0004Design or structure of the codebook
    • G10L2019/0005Multi-stage vector quantisation

Definitions

  • the present invention uses a characteristic amount obtained from an audio signal such as a voice signal or a music signal, in particular, a signal obtained by converting an audio signal from a time domain to a frequency domain using a method such as an orthogonal transform, and converting the converted signal.
  • a device and method for efficient encoding to represent as few code sequences as possible compared to the source audio signal, and using all or only a part of the coded signal sequence The present invention relates to a decoding apparatus and method having a configuration capable of decoding a high quality and wideband audio signal.
  • the encoding method represented by the MPEG method converts a digital audio signal on the time axis into data on the frequency axis using orthogonal transform such as cosine transform, and converts the information on the frequency axis into a human auditory sense.
  • orthogonal transform such as cosine transform
  • reference numeral 1601 denotes an FFT unit for performing frequency conversion of an input signal
  • reference numeral 1602 denotes an adaptive bit assignment calculation unit for encoding a specific band of a frequency-converted input signal
  • 1603 is a subband band division unit that divides the input signal into multiple regions
  • 1604 is a scale factor normalization unit that normalizes the band components divided into a plurality
  • 1605 Is a scalar quantization unit.
  • the input signal is input to the FFT section 1601 and the sub-band band division section 1603.
  • the FFT section 1601 converts the frequency of the input signal and inputs it to the adaptive bit assignment section 1602.
  • the adaptive bit allocation unit 1602 should give the minimum audibility defined based on human auditory characteristics and the amount of information for certain band components based on the masking characteristics. Is calculated, and the information amount distribution for each band is encoded into an index.
  • the sub-band band division unit 1603 converts the input signal to, for example,
  • the scale factor normalizing section 1604 normalizes each of the high frequency components divided by the sub-band band dividing section 1603 using a certain representative value.
  • the normalized value is quantized as an index.
  • the scalar quantization unit 1605 determines the scale factor normalization unit 1604 based on the bit allocation calculated by the adaptive bit
  • the output is scalar-quantized, and the quantized value is encoded as an index.
  • a signal having a band of about 20 kHz, such as a music signal has recently been coded using an MPEG audio system or the like.
  • a digital audio signal on a time axis is converted to a frequency axis using an orthogonal transform, and information on the frequency axis is transmitted to a human listener.
  • information is given priority from the auditoryly important information, taking into account the dynamic sensitivity characteristics.
  • TCWVQ Transform Coding for Weighted Vector Quantization
  • MPEG audio and T CWV Q are ISO / IEC standards IS-11172-3 and T.Moriya, H.Suga: "An 8 Kbits transform coder for noisy channels," Proc. IC ASS P'89, pp 196-199 And so on.
  • the conventional audio signal encoding apparatus is configured as described above, and the MPEG audio system is used by encoding with an information amount of more than 640 bits / sec per channel. Generally, if the amount of information is less than that, the reproducible frequency bandwidth divided by the subjective quality of the decoded audio signal may be significantly degraded. As in the example shown in Fig. 37, the coded information is roughly divided into three parts: bit allocation, band representative value, and quantization value. This is because they are not allocated to Also, in a conventional audio signal encoding device, a method of configuring an encoding device and a decoding device by making the amount of information to be encoded the same as the amount of information to be decoded is general. For example, in a method of encoding an information amount of 1,800,000 bits per second, the decoding device is configured to decode an information amount of 1,280,000 bits. I have.
  • the present invention has been made in order to solve the above-described problems. Even if encoding and decoding are performed with a small amount of information, high quality and a wide reproduction frequency range can be obtained.
  • the amount of information at the time of decoding is not a fixed value but this An object of the present invention is to provide an audio signal encoding and decoding device that can be changed, and an audio signal encoding / decoding method.
  • the conventional audio signal encoding device outputs a code index corresponding to a code that minimizes an auditory distance between each code of the codebook and the audio feature vector.
  • the codebook has many codes, the amount of calculation becomes extremely large when searching for the optimal code, and the codebook has a large amount of data.
  • the receiving side also has a problem that a search and a memory amount corresponding to the code index are required.
  • the present invention has been made in view of the above problems, and can reduce the number of code searches and efficiently quantize an audio signal with a codebook having a small number of codes.
  • An object of the present invention is to provide an audio signal encoding device and an audio signal decoding device capable of decoding. Disclosure of the invention
  • the audio signal encoding method according to the present invention comprises: a first-stage vector * quantization process for vector-quantizing a frequency characteristic signal sequence obtained by frequency-converting an input chao-dio signal;
  • the vector quantization of the second and subsequent stages is performed by vector quantization of the quantization error component in the preceding vector quantizer, and vector quantization is performed using a multistage quantization method having.
  • An audio signal encoding method that encodes an input audio signal in at least one vector quantization process of a plurality of quantization processes by the above multistage quantization method.
  • Vector weighting is used as the weighting factor for quantization, based on the spectrum of the sound and the auditory sensitivity characteristic, which is a human auditory characteristic, to perform vector quantization. What you do.
  • the audio signal encoding method according to the present invention is a first vector quantization process for performing vector quantization on a frequency characteristic signal sequence obtained by frequency-converting an input audio signal. And a second vector quantization process for vector quantization of the quantization error component in the first vector quantization process.
  • An audio signal encoding method for encoding the amount of information wherein the first vector is based on a spectrum of an input audio signal and an auditory sensitivity characteristic which is a human auditory characteristic.
  • the frequency block of high importance to be quantized is selected, and the selected frequency block is selected in the second vector quantization process.
  • First quantization process for frequency block And performs quantization of the quantization error component.
  • the audio signal encoding method according to the present invention includes a first-stage vector quantization process for vector-quantizing a frequency characteristic signal sequence obtained by frequency-converting an input audio signal; Vector quantization of the second and subsequent stages, in which the quantization error component in the previous stage vector quantization is vector-quantized, and vector quantization using the multistage quantization method with.
  • An audio signal encoding method for encoding the amount of information wherein at least one of the vector quantization processes in the multi-stage quantization process by the above-mentioned multi-stage quantization method uses an input audio signal.
  • an audio signal encoding apparatus includes a time-frequency conversion unit that converts an input audio signal into a frequency domain signal, and a spectrum envelope of the input audio signal.
  • a power normalizing unit that normalizes the residual signal by power, and a frequency based on the spectrum of the input audio signal and the listening party sensitivity characteristic that is a human auditory characteristic.
  • a perceptual weighting calculator for calculating the above weighting coefficient, and a plurality of cascade-connected vector quantizers to which the residual signal normalized by the power normalizer is input. And then At least one of the vector quantization units includes a multi-stage quantization unit that performs quantization using the weighting coefficients obtained by the weighting unit.
  • the audio signal encoding apparatus (claim 5) is the audio signal encoding apparatus according to claim 4, wherein the plurality of quantization sections of the plurality of stages of the multi-stage quantization section are arranged. Performs quantization using the weighting coefficients obtained by the weighting unit, and the auditory weighting calculation unit calculates individual weighting coefficients used by each of the plurality of quantization units. Is what you do.
  • the multi-stage quantization unit is obtained by the spectrum envelope calculation unit.
  • a first-stage quantization unit that performs quantization of the residual signal normalized by the power normalization unit using the spectrum envelope as a weighting coefficient in each frequency domain;
  • the weighting factor calculated based on the correlation between the vector envelope and the quantization error signal of the first stage quantization unit is used as the weighting factor in each frequency domain, and the quantization of the first stage quantization unit is performed.
  • a second-stage quantizer for quantizing the error signal calculates the weight calculated from the input signal converted into the frequency domain signal by the time-frequency converter and the listening party characteristics, using the spectrum envelope and the second-stage quantizer.
  • the weighting factor obtained by adjusting based on the quantization error signal of the second stage and the residual signal normalized by the power normalization unit is used as the weighting factor in each frequency domain.
  • a third-stage quantizer for quantizing the quantization error signal of the quantizer.
  • the audio signal encoding apparatus includes a time-frequency conversion unit that converts an input audio signal into a frequency domain signal, and calculates a spectrum envelope of the input audio signal. And a frequency domain signal obtained by the time-frequency conversion unit is normalized by the spectrum envelope obtained by the spectrum envelope calculation unit to obtain a residual signal. , A power normalizing section for normalizing the residual signal by power, and a first vector quantization for quantizing the residual signal normalized by the power normalizing section. And a frequency plot of the quantization error component in the first vector quantizer based on the spectrum of the input audio signal and the auditory sensitivity characteristic of human auditory characteristics.
  • the audio signal encoding device g according to the present invention (claim 8) is the audio signal encoding device according to claim 7, wherein the audio selection means comprises the audio signal encoding device of the first vector quantizer. The value obtained by multiplying the quantization error component, the spectrum envelope signal obtained by the above-described spectrum envelope calculation unit, and the inverse characteristic of the minimum audible characteristic is used as a measure of importance to be quantized. , And the frequency block to be selected.
  • the audio signal encoding apparatus (claim 9) 8. The audio signal encoding device according to claim 7, wherein the auditory selection means multiplies the spectrum envelope signal obtained by the spectrum envelope calculation unit and an inverse characteristic of a minimum audible characteristic. This value is used as a measure of importance to be quantized, and a frequency block is selected.
  • the audio signal encoding apparatus according to the present invention (claim 10) is the audio signal encoding apparatus according to claim 7, wherein the auditory selection means is the first vector; The inverse of the characteristic obtained by adding the quantization error component of the quantizer, the spectral envelope signal obtained by the spectral envelope calculating unit, and the minimum audible characteristic and the masking characteristic calculated from the input signal. The value obtained by multiplying the characteristic and is used as a measure of the importance to be quantized, and the frequency block is selected.
  • the audio signal encoding apparatus (claim 11) is the audio signal encoding apparatus according to claim 7, wherein the audio selection means includes the first vector quantum
  • the power normalization unit converts the quantization error component of the quantizer, the spectrum envelope signal obtained by the spectrum envelope calculation unit, the minimum audible characteristic, and the masking characteristic calculated from the input signal by the power normalization unit.
  • the frequency block is selected by using the value obtained by multiplying the inverse characteristic of the characteristic obtained by adding,, and, as a measure of the importance to be quantized.
  • an audio signal encoding apparatus is a first vector quantizer for performing vector quantization on a frequency characteristic signal sequence obtained by frequency-converting an input audio signal. And a second vector quantizer for vector-quantizing the quantization error component in the first vector quantizer, and vector quantization using a multistage quantization means having.
  • An audio signal encoding apparatus is the audio signal encoding apparatus according to claim 12, further comprising a normalizing means for normalizing the frequency characteristic signal sequence. is there.
  • the audio signal encoding apparatus (claim 14) is the audio signal encoding apparatus according to claim 12, wherein the quantizing means comprises a frequency characteristic signal sequence to be quantized.
  • the band is quantized by appropriately selecting a band having a large energy sum of the quantization error.
  • the audio signal encoding apparatus (claim 15) is the audio signal encoding apparatus according to claim 12, wherein the quantizing means comprises a frequency band of a frequency characteristic signal sequence to be quantized. Quantization is performed by appropriately selecting a band with a large sum of quantization error energies, in which a band with a high importance is weighted with a large value, based on the auditory sensitivity characteristics that are human auditory characteristics. It is that.
  • the audio signal encoding apparatus is the audio signal encoding apparatus S according to claim 12, wherein the quantizing means sets a frequency band of a frequency characteristic signal sequence to be quantized. At least once, a vector quantizer serving as a global quantization unit for performing quantization at least once is provided.
  • the audio signal encoding apparatus g according to the present invention (claim 17) is the audio signal encoding apparatus according to claim 12, wherein the quantization means is a codebook in a preceding stage.
  • a quantization error in the vector quantization is calculated using a vector quantization method using The quantization unit at the subsequent stage further performs vector quantization for the quantization error.
  • the audio signal encoding apparatus according to the present invention (claim 18) is the audio signal encoding apparatus S according to claim 17, wherein the vector quantization method comprises: However, all or a part of the code vectors are used for code search.
  • the audio signal encoding apparatus (claim 19) is the audio signal encoding apparatus according to claim 17, further comprising a normalizing means for normalizing a frequency characteristic signal sequence,
  • a normalizing means for normalizing a frequency characteristic signal sequence
  • the audio signal encoding apparatus according to the present invention (claim 20) is the audio signal encoding apparatus according to claim 19, wherein the normalized component of the frequency characteristic signal sequence processed by the normalizing means is provided. And a value that takes into account the auditory sensitivity characteristics, which are the human auditory characteristics, are used as weights to calculate the distance, and the code that gives the minimum distance is extracted. Also, the audio signal encoding apparatus according to the present invention (claim 21) is the audio signal encoding apparatus according to claim 13, wherein the audio signal encoding apparatus comprises: It is equipped with a frequency profile normalization unit for normalization.
  • the audio signal encoding apparatus (claim 22) is the audio signal encoding apparatus according to claim 13, wherein the normalizing means comprises a plurality of continuous frequency characteristic signal sequences. It is provided with a band amplitude normalization unit that normalizes by dividing each unit band by one value.
  • the audio signal encoding device (claim 23) 13.
  • the audio signal encoding apparatus according to claim 12, wherein the quantizing means comprises: a vector quantizer that independently quantizes a frequency characteristic signal sequence by dividing each coefficient sequence into a divided vector quantizer. And a vector quantizer that becomes a full-band quantization unit that quantizes the input signal to be quantized at least once. is there.
  • the audio signal encoding apparatus (claim 24) is the audio signal encoding apparatus according to claim 23, wherein the quantizing means is a low-frequency division vector quantizer.
  • the first vector consisting of a middle-range segmented vector quantizer and a high-band segmented vector quantizer! : A quantizer, a second quantizer connected to the subsequent stage thereof, and a third vector quantizer connected to the subsequent stage of the second vector quantizer.
  • the frequency characteristic signal sequence input to the quantizing means is divided into three bands, and the frequency characteristic signal sequence of the low frequency component of the three bands is divided into the low band vector quantizer.
  • the sequence is quantized independently by the above-mentioned high-frequency division vector S quantizer, and the frequency characteristics are calculated by the respective division vector quantizers constituting the first vector quantizer.
  • the quantization error for the signal sequence is calculated, and this is calculated as the second vector.
  • the second vector quantizer performs quantization for the bandwidth to be quantized by the second vector quantizer and inputs the second vector quantizer to the second vector quantizer.
  • a dodulation error with respect to the input to the quantizer is calculated, and this is used as the input to the third vector ft child quantizer.
  • the third vector This is to quantize the bandwidth to be quantized by the quantizer.
  • the audio signal encoding device (claim 25) 25.
  • the audio signal encoding apparatus according to claim 24, wherein a first quantization band is provided between the first vector quantizer and the second vector quantizer constituting the quantization means.
  • a second quantization band selecting unit is provided between the second vector quantizer and the third vector quantizer, and the first quantization band selecting unit is provided.
  • the output of the vector quantizer is input to the first quantization band selector, and the band to be quantized by the second vector quantizer in the first quantization band selector.
  • the second vector quantizer calculates the second vector quantizer with respect to the quantization error of the first three vector quantizers determined by the first quantization band selector. Of the bandwidth quantized by the vector quantizer!
  • Quantization is performed, a quantization error with respect to the input to the second vector quantizer is calculated, and this is used as an input to the second quantization band selection unit.
  • the third vector quantizer selects a band to be quantized, and in the third vector quantizer, the second quantization band selection unit determines. In this case, quantization is performed on the specified band.
  • the audio signal encoding apparatus according to the present invention (claim 26) is the audio signal encoding apparatus according to claim 24, wherein the low-frequency band is replaced with the first vector quantizer.
  • the third vector quantizer is configured.
  • the audio signal decoding apparatus receives the code output from the audio signal coding apparatus according to claim 12 as its input, and decodes the code.
  • An audio signal decoding device S that outputs a signal corresponding to the original input audio signal, and performs inverse quantization using at least a part of the codes output by the quantization means of the audio signal coding device S.
  • an inverse frequency converter for converting the frequency characteristic signal sequence into a signal corresponding to the original audio input signal using the signal sequence.
  • the audio signal decoding apparatus receives the code output from the audio signal coding apparatus according to claim 13 as its input, decodes the code, and decodes the code.
  • An audio signal decoding device for outputting a signal corresponding to the input audio signal of the first embodiment, comprising: an inverse quantization unit for reproducing a frequency characteristic signal sequence; and a frequency characteristic signal sequence output from the inverse quantization unit.
  • An inverse normalization unit that reproduces a normalized component based on a code output from the audio signal encoding device, multiplies the frequency characteristic signal sequence by the normalized component, and outputs the product.
  • an inverse frequency conversion unit that receives the output of the conversion unit and converts the frequency characteristic signal sequence into a signal corresponding to the original audio signal.
  • the audio signal decoding apparatus uses the code output from the audio signal encoding device S according to claim 23 as its input, decodes the code, and decodes the code.
  • An audio signal decoding device for outputting a signal corresponding to the audio signal of (1), wherein all or a part of the vector quantizers constituting the quantizing means in the audio signal encoding device encodes a code. Even if it is output, it has an inverse quantization unit that performs inverse quantization using the output code.
  • the audio signal decoding device S according to the present invention (claim 30) is the audio signal decoding device according to claim 29, wherein the inverse quantization unit is configured to perform inverse quantization of a predetermined local quantization code.
  • the inverse quantization of the quantization code in the next stage and the inverse quantization of the quantization code in a band different from the predetermined band are alternately executed.
  • the inverse quantization of the quantization code in the different band is continuously performed.
  • the next-stage quantization is performed. It is assumed that code inverse quantization is performed continuously.
  • the audio signal decoding apparatus receives a code output from the audio signal coding apparatus according to claim 24 as its input, and decodes the code.
  • An audio signal decoding device for outputting a signal corresponding to an original audio signal, wherein three divided vector quantizations constituting a first vector quantizer in the audio signal encoding device are provided. Even if all or a part of the code is output from the quantizer, only the code from the low-frequency split vector quantizer that constitutes the first vector quantizer is used. It is equipped with an inverse quantization unit that performs inverse quantization by using it.
  • the inverse quantization unit is configured to perform the first vector quantization.
  • the inverse quantization is performed using the code from the second vector quantizer. is there.
  • the audio signal decoding device (claim 33) is the audio signal decoding device according to claim 32, wherein the inverse quantization unit comprises: The first vector quantizer in addition to the code from the low-frequency division vector quantizer and the code from the second vector quantizer The inverse quantization is performed using the code from the divided vector quantizer in the middle band.
  • the audio signal decoding device comprises: the first vector quantizer. And the code from the second vector quantizer described above, and the middle band forming the first vector quantizer described above. In addition to the code from the divided vector quantizer and the code from the third vector quantizer, inverse quantization is performed. O 98/37 P
  • the inverse quantization unit is configured to include the first vector quantizer. And the code from the second vector quantizer described above and the mid-range code forming the first vector quantizer described above. In addition to the code from the split vector quantizer and the code from the third vector quantizer, the high-frequency split vector that constitutes the first vector quantizer is used. The inverse quantization is performed using the code from the vector quantizer and.
  • the audio signal encoding device fi uses a frequency characteristic signal sequence obtained by frequency-converting an input audio signal as an input signal, and outputs the frequency characteristic signal sequence of the frequency characteristic signal sequence.
  • a phase information extraction unit for extracting phase information of a component belonging to a predetermined frequency band, and an audio code which is a representative value of the frequency characteristic signal sequence in a state where an element corresponding to the extracted phase information is converted into an absolute value.
  • a code book that stores a plurality of such codes, an audio distance between the frequency characteristic signal sequence and each audio code in the code book, and an audio code having the minimum distance.
  • the phase information for the audio code having the minimum distance is added using the output from the phase information extraction unit as auxiliary information.
  • Bei an audio co one mode selection unit for outputting the co-one Doi emissions index corresponding to the audio co one de having said minimum distance as an output signal.
  • the audio signal encoding apparatus according to the present invention (claim 40) is the audio signal encoding apparatus according to claim 39, wherein the phase information extracting unit is configured to reduce the phase of the input frequency characteristic signal sequence. The phase information of a predetermined number of elements is extracted from the frequency band side.
  • the audio signal encoding apparatus (claim 41) is the audio signal encoding apparatus according to claim 39, wherein A psychoacoustic weight vector table, which is a table of relative psychoacoustic quantities at each frequency in consideration of logical characteristics, wherein the phase information extraction unit includes the psychoacoustic The phase information of the element that matches the vector stored in the weight vector table is extracted.
  • a psychoacoustic weight vector table which is a table of relative psychoacoustic quantities at each frequency in consideration of logical characteristics
  • the phase information extraction unit includes the psychoacoustic The phase information of the element that matches the vector stored in the weight vector table is extracted.
  • the audio signal encoding apparatus according to the present invention (claim 42) is the audio signal encoding apparatus according to claim 39, wherein the frequency characteristic signal sequence is obtained by using a vector element by using a smooth vector.
  • the audio code selector includes an audio code having the minimum distance, and adds phase information to the selected audio code. Before, using the smoothing processing information output from the smoothing unit, the selected audio code is converted into an audio code that has not been subjected to the smoothing processing, and the audio code corresponding to the audio code is converted. The code index is output as the output signal.
  • the audio signal coding apparatus S according to the present invention (claim 43) is characterized in that 39.
  • the audio signal encoding apparatus wherein: a psychoacoustic weight vector table that is a table of a relative psychological quantity at each frequency in consideration of human psychoacoustic characteristics; Using the smoothing vector, a smoothing unit for smoothing by dividing the vector elements, and multiplying the value of the listening party psychological weight vector by the value of the smoothing vector table And a software unit for selecting a plurality of values obtained in the order of high auditory importance and outputting the selected values to the audio code selection unit.
  • a psychoacoustic weight vector table that is a table of a relative psychological quantity at each frequency in consideration of human psychoacoustic characteristics
  • the audio signal encoding apparatus according to the present invention (claim 44) is the audio signal encoding apparatus according to claim 40, wherein the coefficient obtained by frequency-converting the audio signal is used as the frequency characteristic signal sequence. In this case, a vector is used as an element. Also, the audio signal encoding apparatus according to the present invention (claim 45) is the audio signal encoding apparatus according to claim 41, wherein the audio signal is frequency-converted as the frequency characteristic signal sequence. This is done by using a vector with the coefficient as an element.
  • the audio signal encoding apparatus according to the present invention (claim 46) is the audio signal encoding apparatus according to claim 42, wherein the audio signal is frequency-converted as the frequency characteristic signal sequence. In this case, a vector having the coefficients as elements is used.
  • the audio signal encoding apparatus according to the present invention (claim 47) is the audio signal encoding apparatus according to claim 40, wherein the audio signal is MDCT-transformed (modified) as the frequency characteristic signal sequence.
  • a vector is used that uses the coefficients obtained by performing discrete cosine transform.
  • the audio signal encoding apparatus a according to the present invention (claim 48) is the audio signal encoding apparatus according to claim 41, wherein the audio signal is MDCT-converted as the frequency characteristic signal sequence. It uses a vector whose coefficients are the transformed discrete cosine transform.
  • the audio signal encoding apparatus according to the present invention (claim 49) is the audio signal encoding apparatus according to claim 42, wherein the audio signal is MDCT-transformed (modified) as the frequency characteristic signal sequence.
  • a vector is used that uses the coefficients obtained by performing discrete cosine transform.
  • the audio signal encoding apparatus (claim 50) is the audio signal encoding apparatus according to claim 42, wherein the smoothing vector is linearly predicted by linearly predicting an audio signal. Calculating a prediction coefficient; and calculating a relative frequency response at each frequency from the calculated linear prediction coefficient. The answer is calculated, and a vector having a relative frequency response at each frequency as an element is used.
  • the audio signal encoding apparatus (claim 51) is the audio signal encoding apparatus according to claim 43, wherein the smoothing vector is linearly predicted by linearly predicting an audio signal. A coefficient is calculated, a relative frequency response at each frequency is calculated from the calculated linear prediction coefficient, and a vector having a relative frequency response at each frequency as an element is used. It is.
  • the audio signal decoding apparatus a uses, as an input signal, a code index obtained by quantizing a frequency characteristic signal sequence which is a feature amount of the audio signal.
  • a phase information extraction unit that extracts phase information of an element corresponding to a predetermined frequency band of the code index, and a frequency characteristic signal sequence corresponding to the code index corresponds to the extracted phase information.
  • a code book that stores a plurality of element parts in an absolute value state, and a listener-like distance between the code index and the frequency characteristic signal series in the code book are calculated. Selecting the frequency characteristic signal sequence having the minimum distance, and extracting the phase information for the frequency characteristic signal sequence having the minimum distance from the phase information extraction unit. And an audio code selector for adding the output as auxiliary information and outputting a frequency characteristic signal sequence corresponding to the code signal as the input signal as an output signal. It is provided. BRIEF DESCRIPTION OF THE FIGURES
  • FIG. 1 is a diagram showing an overall configuration of an audio signal encoding device and a decoding device according to Embodiment 1 of the present invention.
  • FIG. 2 is a configuration diagram illustrating an example of a normalization unit included in the audio signal encoding device.
  • FIG. 3 is a configuration diagram showing an example of a frequency outline shape normalization unit included in the audio signal encoding device.
  • FIG. 4 is E showing the detailed configuration of the quantization unit in the encoding device.
  • FIG. 5 is a block diagram showing a configuration of an audio signal encoding device according to Embodiment 2 of the present invention.
  • FIG. 6 is a block diagram showing a configuration of an audio signal encoding device according to Embodiment 3 of the present invention.
  • FIG. 7 is a block diagram showing a detailed configuration of a quantizing unit and an auditory selecting unit in each stage of the audio signal encoding device shown in FIG.
  • FIG. 8 is a diagram for explaining the operation of quantization in the vector quantizer.
  • Fig. 9 is a diagram showing the error signal zi, the vector envelope 11, and the minimum audible characteristic hi.
  • FIG. 10 is a block diagram showing a detailed configuration of another example of each of the quantization unit and the auditory selection unit of the audio signal encoding device shown in FIG.
  • FIG. 11 is a block diagram showing a detailed configuration of still another example of each quantizing unit and the auditory selecting unit of the audio signal encoding device shown in FIG.
  • FIG. 12 is a block diagram showing a detailed configuration of still another example of each of the quantizing units and the auditory selecting unit of the audio signal encoding apparatus shown in FIG.
  • FIG. 13 is a diagram showing an example of selecting a frequency block (length W) having the highest importance.
  • FIG. 14 is a block diagram showing a configuration of an audio signal encoding device S according to Embodiment 4 of the present invention.
  • FIG. 15 is a block diagram showing a configuration of an audio signal encoding device a according to Embodiment 5 of the present invention.
  • FIG. 16 is a block diagram showing a configuration of an audio signal encoding device according to Embodiment 6 of the present invention.
  • FIG. 17 is a block diagram showing a configuration of an audio signal encoding device according to Embodiment 7 of the present invention.
  • FIG. 18 is a block diagram showing a configuration of an audio signal encoding device S according to Embodiment 8 of the present invention.
  • FIG. 19 is a diagram for describing the detailed operation of the quantization method of each quantization unit in the encoding device 1 of the first to eighth embodiments.
  • FIG. 20 is a diagram for describing an audio signal decoding device according to Embodiment 9 of the present invention.
  • FIG. 21 is a diagram for describing an audio signal decoding device according to Embodiment 9 of the present invention.
  • FIG. 22 is a diagram for describing an audio signal decoding device according to Embodiment 9 of the present invention.
  • FIG. 23 is a diagram for describing an audio signal decoding device according to Embodiment 9 of the present invention.
  • FIG. 24 is a diagram for describing audio signal decoding apparatus g according to Embodiment 9 of the present invention.
  • FIG. 25 is a diagram for describing an audio signal decoding device according to Embodiment 9 of the present invention.
  • FIG. 26 is a diagram for explaining the detailed operation of the inverse quantization unit included in the audio signal decoding device.
  • FIG. 27 is a diagram for explaining a detailed configuration of an inverse normalization unit included in the audio signal decoding device.
  • FIG. 28 is a diagram for explaining a detailed configuration of a frequency outline denormalizer constituting the audio signal decoding device.
  • FIG. 29 is a diagram showing a configuration of an audio signal encoding apparatus according to Embodiment 10 of the present invention.
  • FIG. 30 shows an audio signal encoding apparatus according to Embodiment 10 described above.
  • FIG. 3 is a diagram for explaining a configuration of an audio feature vector.
  • FIG. 31 is a diagram for describing processing of the audio signal encoding device according to Embodiment 10 above.
  • FIG. 32 is a diagram showing a detailed configuration of an audio signal encoding device according to Embodiment 11 of the present invention, and a diagram showing an example of a psychoacoustic weight vector table.
  • FIG. 33 is a diagram showing a detailed configuration of an audio signal encoding device according to Embodiment 12 of the present invention, and a diagram for describing processing in a smoothing unit.
  • FIG. 34 is a diagram showing a detailed configuration of the audio signal encoding device according to Embodiment 13 of the present invention.
  • FIG. 35 is a diagram showing a detailed configuration of the audio signal encoding apparatus according to Embodiment 14 of the present invention.
  • FIG. 36 is a diagram showing a configuration of an audio signal decoding apparatus according to Embodiment 15 of the present invention.
  • FIG. 37 is a diagram showing a configuration of a conventional audio signal encoding device fi. BEST MODE FOR CARRYING OUT THE INVENTION
  • FIG. 1 is a diagram showing an overall configuration of an audio signal encoding device and a decoding device according to Embodiment 1 of the present invention.
  • 1 is an encoding device
  • 2 is a decoding device.
  • 101 is a frame division unit that divides an input signal into a predetermined number of frames
  • 102 is a window that multiplies the input signal by a window function on the time axis.
  • the multiplication unit, 103 is an MDCT unit that performs a Modified discrete cosine transform that performs time-frequency conversion of a signal on the time axis into a signal on the frequency axis
  • 104 is a frame division unit.
  • 106 is an inverse quantization unit that receives the signal output from the encoding device 1 and inversely quantizes it
  • 107 is the inverse normalizer that outputs the output of the inverse quantization unit 106.
  • the inverse normalization unit that transforms the output from the inverse normalization unit 107 is an inverse MDCT unit that performs discrete cosine transform
  • 109 is a windowing unit
  • 110 is a frame superposition unit It is.
  • the signal input to the encoding device 1 is a digital signal sequence that is continuous in time.
  • the sampling frequency is 48 kHz and the digital signal is a 16-bit quantized signal.
  • This input signal is accumulated in the frame division unit 101 until it reaches a certain number of samples, and outputs when the accumulated number of samples reaches a specified frame length.
  • the frame length of the frame dividing unit 101 is, for example, 128, 256, 51, 102, 240, 408, or 96 samples.
  • the frame division unit 101 it is also possible to output with a variable frame length according to the characteristics of the input signal. Further, the frame division unit 101 is configured to perform output for each shift length.
  • the frame length is set to 496 samples, half of the frame length is used. If the shift length is set, the latest 496 samples are output every time the frame length reaches 248 samples. Of course, even if the frame length or sampling frequency changes, it is possible to have a configuration in which the shift length is set to half of the frame length.
  • the output from the frame division unit 101 is input to the subsequent windowing unit 102 and the normalization unit 104, respectively.
  • the windowing unit 102 multiplies the output signal from the frame dividing unit 101 by a window function on the time axis to obtain the output of the windowing unit 102. This situation is represented, for example, by equation (1).
  • xi is the output from the frame division unit 101 and hi is the window function hxi is the output from the windowing unit 102.
  • I is the time suffix.
  • the window function hi shown in the equation (1) is an example, and the window function does not need to be the one in the equation (1). Selection of the window function depends on the characteristics of the signal input to the windowing unit 102, the frame length of the frame division unit 101, and the shape of the window function in the frames located before and after in time. I do.
  • the average power of the signal input every N / 4 If the average power fluctuates significantly, select a method such as executing the calculation shown in equation (1) by shortening the frame length to less than N.
  • a method such as executing the calculation shown in equation (1) by shortening the frame length to less than N.
  • an appropriate selection is made so that the shape of the window function of the current time frame is not distorted. It is desirable.
  • the output from the windowing unit 102 is input to the MDCT unit 103, where the transformed sculpture cosine transform is performed, and the MDCT coefficient is output.
  • the general formula of the modified discrete cosine transform is given by equation (2). 1 o, 2? R (k + 1/2) ( ⁇ + ⁇ 0 ),
  • the output of MDCT section 103 1 ⁇ 0 (the coefficient is given by the equation ( 2)
  • the output of MDC section 103 shows frequency characteristics.
  • the normalization unit 104 receives both the time axis signal output from the frame division unit 101 and the MDCT coefficient output from the MDCT unit 103 as inputs.
  • the MDCT coefficient is normalized using several parameters, where the normalization of the MDCT coefficient refers to the magnitude of the MDCT coefficient that has a very large difference between the low-frequency component and the high-frequency component.
  • the quantization unit 105 receives the MDCT coefficient normalized by the normalization unit 104 as an input, and quantizes the MDCT coefficient. Then, the quantization unit 105 encodes an index representing a parameter used for quantization.
  • the decoding device 2 performs decoding using the index from the normalization unit 104 of the encoding device 1 and the index from the quantization unit 105.
  • the inverse quantization unit 106 reproduces the normalized MDCT coefficients by using the index from the quantization unit 105. In the inverse quantization unit 106, the entire index may be used, or the MDCT coefficient may be used by using a part of the index. May be reproduced.
  • the output from the normalization unit 104 and the output from the inverse quantization unit 106 always coincide with the state before quantization because of the quantization error at the time of quantization by the quantization unit 105. do not do.
  • the inverse normalization unit 107 restores the parameters used for normalization by the encoding device 1 from the index from the normalization unit 104 of the encoding device 1, and performs inverse quantization.
  • the output of the unit 106 is multiplied by the parameter to restore the MDCT coefficient.
  • the inverse MDCT unit 108 performs inverse MDCT from the MDCT coefficient output from the inverse normalization unit 107, and restores the frequency domain signal to the time domain signal.
  • the above inverse MDCT calculation is represented, for example, by Expression (3).
  • n 0 N / 4 + 1/2
  • yyk is the MDCT coefficient restored by the inverse normalization unit 107
  • xx (k) is the inverse MDCT coefficient
  • the windowing unit 109 uses the output xx (k) of the inverse MDCT unit 108 to perform windowing.
  • the windowing uses the window used in the windowing unit 102 of the encoding device B 1, and performs, for example, the processing shown in Expression (4).
  • the frame superimposing unit 110 reproduces an audio signal using the output from the windowing unit 109.
  • the output from the windowing unit 109 is temporally Since the signals are duplicated, the frame superimposing unit 110 uses, for example, Equation (5) as the output signal of the decoding device B2.
  • out (i) z m (i) + z m . 1 (i + SHIFT) ( 5 )
  • zm (i) is the output signal of the ith windowing part 109 of the m time frame.
  • Z (i) zm-l (i) is the output signal of the i-th windowing part 109 of the m-1 time frame
  • SHIFT is the number of samples corresponding to the shift length of the encoder.
  • Out (i) are the output signals of the decoding device 2 in the m-time frame of the frame superposition unit 110.
  • reference numeral 201 denotes a frequency approximate normalization unit receiving the outputs of the frame division unit 101 and the MDCT unit 103
  • reference numeral 202 denotes an output of the frequency approximate normalization unit 201.
  • This is a high-frequency amplitude normalization unit that performs normalization with reference to the band table 203.
  • the frequency outline normalization unit 201 calculates the approximate frequency outline, which is a rough outline of the frequency. 0 Divide the MDCT coefficient output from 3 The parameters used to represent the frequency profile are coded as indices.
  • the band amplitude normalizing section 202 receives the output signal from the frequency outline normalizing section 201 as input and performs normalization for each band shown in the band table 203.
  • bjlow and bjhigh are the lowest index i indicated by dct (i) in the j-th band shown in the band table 203, and the highest index i. i, respectively.
  • p is the norm in the distance calculation, and 2 is desirable.
  • avej is the average value of the amplitude in each band number j.
  • the high-frequency amplitude normalization unit 202 quantizes avej, calculates qavej, and normalizes using, for example, equation (7).
  • n dct (i) dct (i) / gavei bjlow ⁇ i ⁇ bjhiah (7
  • the quantization of avej may be scalar quantization or vector quantization using codebook.
  • the band amplitude normalization unit 202 encodes the index of the parameter used to represent qavej.
  • the configuration of the normalization unit 104 in the encoding device S1 shows the configuration using both the frequency outline normalization unit 201 and the high-frequency amplitude normalization unit 202 in Fig. 2.
  • a configuration using only the frequency outline normalizing unit 201 or a configuration using only the high-frequency amplitude normalizing unit 202 may be used.
  • the configuration using neither is used, and the output of the MDCT unit 103 is not used.
  • the signal may be directly input to the quantization unit 105.
  • reference numeral 310 denotes a linear prediction analysis unit which receives an output of the frame division unit 101 and performs linear prediction analysis, and 302 quantizes coefficients obtained by the linear prediction analysis unit 301
  • the approximate quantizer, 303 is an envelope characteristic normalizer that normalizes the MDCT coefficients by the vector envelope.
  • the above-mentioned linear prediction analysis section 301 receives the audio signal on the time axis from the frame division section 101 as input, performs linear predictive coding (LPC) analysis, and obtains a linear prediction coefficient. (LPC coefficient) is calculated.
  • the linear prediction coefficient can be generally calculated by calculating an autocorrelation function of a windowed signal such as a Hamming window and solving a normal equation or the like.
  • the calculated linear prediction coefficient is converted into a linear spectrum pair coefficient (LSP coefficient) and the like, and quantized by the approximate quantization unit 302.
  • LSP coefficient linear spectrum pair coefficient
  • a quantization method vector quantization may be used, or scalar quantization may be used.
  • the frequency transfer characteristic represented by the parameter quantized by the rough shape quantization unit 302 is calculated by the envelope characteristic normalization unit 303. Normalization is performed by dividing the MDCT coefficient output from 3 by this example.A specific example of calculation is equivalent to the parameter quantized by the approximate quantization unit 302. If the linear prediction coefficient is qlpc (i), the above-mentioned frequency transfer characteristic calculated by the envelope characteristic normalization unit 303 can be obtained by Expression (8): qlpc (i) 0 ⁇ i ⁇ ORDER
  • ORDER is about 10 to 40.
  • fft () means fast Fourier transform.
  • the envelope characteristic normalization unit 303 uses the calculated frequency transfer characteristic env (i), the envelope characteristic normalization unit 303 performs normalization using, for example, the following equation (9).
  • fact (i) mdct (i) I env (i) (9) where mdct (i) is the output signal from MDCT 103 and fdct (i) is the normalized envelope characteristic normalization This is an output signal from the unit 303.
  • the normalization process of the MDCT coefficient sequence is completed.
  • Reference numeral 4005 denotes a multi-stage quantization unit that vector-quantizes the frequency characteristic signal sequence (MDCT coefficient sequence) flattened by the normalization unit 104.
  • the multi-stage quantization unit 4005 is a cascade-connected first-stage quantizer 4 0501, second-stage quantizer 4 0502, ⁇ ⁇ ⁇ , Nth-stage quantizer 4 0 0 5 3 included.
  • the 4006 receives the MDCT coefficient output from the MDCT unit 103 and the spectrum envelope obtained by the envelope characteristic normalization unit 303 as inputs, and based on the hearing sensitivity characteristics, It is an auditory weighting calculation unit that calculates a weighting coefficient used for quantization in the multi-stage quantization unit 4005.
  • the auditory weighting calculation unit 4006 receives the MDCT coefficient sequence output from the MDCT unit 103 and the LPC spectrum envelope obtained by the envelope characteristic normalization unit 303, and inputs the MDCT unit.
  • the spectrum of the frequency characteristic signal sequence output from 103 is based on the auditory sensitivity characteristic which is a human auditory characteristic such as the minimum audibility characteristic and the auditory masking characteristic.
  • a characteristic signal in consideration of the characteristic is calculated, and a weighting coefficient used for quantization is obtained based on the characteristic signal and a spectrum envelope.
  • the normalized MD CT coefficients output from the normalizing unit 104 are obtained by the listening party weighting calculation unit 4006 in the first stage quantization unit 4001 of the multistage quantization unit 4005. Is quantized using the weighted coefficients thus obtained, and the quantization error component due to the quantization in the first-stage quantization section 4005 is converted to the second-stage quantization section of the multi-stage quantization section 4005. 4 0 0 5 2 according to the auditory weighting calculation unit 4 0 0 6 Quantization is performed using the weighting coefficients obtained in the above-described manner, and similarly in each of the plurality of quantization units, quantization of a quantization error component by quantization in the preceding quantization unit is performed.
  • the quantization error component due to the quantization in the N-th stage quantization unit is weighted by the listening weight calculation unit 4006 in the N-th stage quantization unit 40053.
  • the encoding of the audio signal is completed by performing the quantization using the coefficients.
  • the multi-stage quantization means 4005 in the multi-stage vector quantization section 4 0 05 1 or 4 0 5 3 The weighting coefficient on the frequency calculated by the hearing party weighting calculation unit 4006 based on the spectrum of the input audio signal, the auditory sensitivity characteristic which is a human auditory characteristic, and the LPC spectrum envelope. Is used as a weight in quantization to perform vector quantization, so that efficient quantization can be performed by using the human auditory characteristics. In monkey.
  • the perceptual weighting calculation unit 4006 also uses the LPC spectrum envelope to calculate the weighting coefficient.
  • the weighting coefficient may be calculated using only the auditory sensitivity characteristics that are human auditory characteristics.
  • all of the multi-stage vector quantizers of the multi-stage quantizer 4005 have auditory sensitivity characteristics obtained by the auditory weighting calculator 400.
  • Quantization is performed using a weighting coefficient based on the perceptual sensitivity, but one of the multi-stage quantizers of the multi-stage quantization means 4005 uses a weighting coefficient based on the listening sensitivity characteristic. If quantization is performed, efficient quantization can be performed as compared to a case where a weighting factor based on such auditory sensitivity characteristics is not used.
  • Embodiment 2 Embodiment 2
  • FIG. 5 shows a configuration of an audio signal encoding apparatus according to Embodiment 2 of the present invention.
  • FIG. 5 shows a configuration of an audio signal encoding apparatus according to Embodiment 2 of the present invention.
  • FIG. In the present embodiment only the configuration of the quantization unit 105 in the encoding device 1 is different from that of the above-described embodiment. Therefore, only the configuration of the quantization unit will be described here.
  • 5006 is a multi-stage quantization means based on the spectrum of the input audio signal, the auditory sensitivity characteristic, which is the human auditory characteristic, and the LPC spectrum envelope.
  • the first auditory weighting calculator which obtains the weighting factors used by the first-stage quantization unit 4005, has the same function as the input audio signal spectrum, human auditory
  • the second weighting coefficient used by the second-stage quantization unit 4005 of the multistage quantization means 4005 is determined based on the perceptual sensitivity characteristics and the LPC spectrum envelope.
  • the listening party weighting calculation unit 503 is based on the spectrum of the input audio signal, the auditory sensitivity characteristic, which is the human auditory property, and the LPC spectrum envelope.
  • the audio signal encoding device In the audio signal encoding device according to the first embodiment, all of the multi-stage vector quantization units of the multi-stage quantization unit 4005 have the same weight determined by the auditory weighting calculation unit 400. While the quantization is performed using the coefficients, in the audio signal encoding apparatus according to the second embodiment, a multi-stage vector quantization section of the multi-stage quantization means 400 Each of the first to third listening party weighting calculation sections 5006, 5006, and 50063 is configured to quantize using the individual weighting coefficient obtained. In the audio signal encoding apparatus S according to Embodiment 2 described above, the perceptual weighting section 5 0 0 6 1 1 is set so that the error due to quantization at each stage of the multi-stage quantization means 4 0 5 is minimized.
  • quantization by weighting according to the frequency weighting characteristics based on the auditory properties determined in 5003 can be performed.
  • the first listening weighting section 5006 calculates a weighting coefficient mainly based on the spectrum envelope, and generates the second listening weighting section.
  • the weighting coefficient is calculated mainly by the minimum audible characteristic in the masking section 506, and the weighting coefficient is calculated mainly in the auditory masking property by the third auditory weighting section 503. .
  • a plurality of quantization sections 4 0 05 1 to 4 0 0 of the multi-stage quantization section 4 of the multi-stage quantization section 4 05. 0 53 is configured to perform quantization using the individual weighting coefficients obtained by the auditory weighting calculators 5 0 6 1 or 5 0 6 3, respectively. It can be used effectively to perform efficient quantization.
  • FIG. 6 is a block diagram showing a configuration of an audio signal encoding device according to Embodiment 3 of the present invention.
  • 6001 is the first-stage quantization unit that performs vector quantization of the normalized MDCT signal
  • 6002 is the quantization by the first-stage quantization unit 6002.
  • the second-stage quantization unit for quantizing the error signal, 6002 is the second-stage quantization unit out of the quantization errors due to the quantization in the first-stage quantization unit 6002.
  • This is an auditory selection means for selecting a frequency band of high importance to be quantized in 6002 based on a criterion that takes into account the sensitivity characteristics of the audience.
  • the normalized MDCT coefficients are vector-quantized by the first-stage quantization unit 6002.
  • the auditory selection means 6002 a frequency band in which an error signal in the beta quantization is large is determined based on an auditory scale, and a block thereof is extracted.
  • the second-stage quantizer 6002 performs vector quantization on the error signal of the selected block. Then, the result of each quantization unit is output as an index.
  • Fig. 7 shows the quantizers at each stage of the audio signal encoding device shown in Fig. 6, and It is a block diagram which shows a detailed structure of an auditory selection part.
  • 7001 31 is the first vector quantizer that performs vector quantization of the normalized MDCT coefficient
  • 7003 2 is the first quantizer 700
  • This is an inverse quantizer that inversely quantizes the quantization result of 3 1, and performs the first quantization by taking the difference between the output of the inverse quantizer 7 0 0 3 2 and the residual signal si.
  • the quantization error signal zi of the quantization by the unit 7003 is obtained.
  • Reference numeral 7003 denotes an auditory sensitivity characteristic hi indicating a human auditory characteristic. Here, the minimum audible characteristic is used.
  • Reference numeral 7003 is the frequency to be quantized by the second vector quantizer 7 0 3 6 out of the quantization error signal zi of the quantization by the first quantizer 7 0 3 1 A selector for selecting a band.
  • Reference numeral 7004 denotes a selection scale calculation unit for calculating a selection scale in the selection operation of the selector 7005 based on the error signal zi, the LPC spectrum envelope 1i, and the listening party sensitivity characteristic hi. is there.
  • the residual signal in one frame composed of N elements is represented by the first vector shown in Fig. 8 (a).
  • the vector quantizer in the vector quantizer 7 0 0 3 1 is divided into a plurality of sub-vectors, and the N vector quantums in the first vector quantizer 7 0 0 3 1
  • Each of the sub-vectors is vector-quantized by the quantizers 1 to N.
  • the vector division and quantization are performed by dividing N elements arranged in order from the lowest frequency into NS sub-blocks at equal intervals.
  • NS sub-vector consisting of NZ NS elements, such as a sub-vector collecting only the first element of each sub-block, and a sub-vector collecting the second element of each sub-block Create a vector and perform vector quantization for each sub-vector. The number of divisions is determined based on the required coding rate.
  • the quantized code is inversely quantized by the inverse quantizer 700 to find the difference from the input signal, as shown in Fig. 9 (a). Such an error signal zi at the first vector quantizer 7003 is obtained.
  • the selector 7005 a frequency block to be quantized more precisely by the second quantizer 700 from the error signal Z i is calculated by selection scale calculation. Selection is made based on the result selected in section 7004.
  • the selection scale calculation unit 7004 calculates the LPC spectrum envelope 1 i and the auditory sensitivity characteristics hi as shown in Fig. 9 (b), which are obtained by the miscalculation signal Z i and the LPC analysis unit. For each element of the frame divided into N elements on the frequency axis,
  • the auditory sensitivity characteristic h i for example, a characteristic called the minimum audible limit characteristic shown in Fig. 9 (c) is used. This is an experimentally determined characteristic that represents a region that cannot be heard by humans. Therefore, it can be said that 1 / hi, which is the reciprocal of the hearing sensitivity characteristic hi, indicates the importance of civilization. Then, the value g obtained by multiplying the error signal z i, the spectrum envelope 1 i, and the reciprocal of the auditory sensitivity characteristic h i can be said to indicate the importance of more precise quantization at that frequency.
  • FIG. 10 is a block diagram showing a detailed configuration of another example of each quantization unit and the auditory selection unit of the audio signal encoding device shown in FIG. 10, the same reference numerals as those in FIG. 7 denote the same or corresponding parts.
  • the selection scale (importance) g is calculated by using the spectral envelope 1 i and the auditory sensitivity characteristic h i without using the error signal z i.
  • FIG. 11 is a block diagram showing a detailed configuration of still another example of each quantizing unit and auditory selecting unit of the audio signal encoding apparatus shown in FIG.
  • the same reference numerals as those in FIG. 7 denote the same or corresponding parts
  • 1104 denotes an input audio frequency that has been MDCT-converted by the time-frequency converter.
  • This is a masking amount calculation unit that calculates the amount of masking from the spectrum according to the listening masking characteristics.
  • the listening party sensitivity characteristic hi is obtained sequentially for each frame as follows. That is, the masking characteristic is calculated from the frequency spectrum distribution of the input signal, and the hearing sensitivity characteristic hi of the frame can be obtained by adding the minimum audible limit characteristic to the masking characteristic. You.
  • the operation of the selection scale calculation section 7004 is the same as that of FIG.
  • FIG. 12 is a block diagram showing a detailed configuration of still another example of each quantizing unit and the auditory selecting unit of the audio signal encoding apparatus shown in FIG.
  • the same reference numerals as those in FIG. 7 denote the same or corresponding parts, and the reference numeral 1204 4 denotes the masking characteristic obtained by the masking amount calculator 1 1 0 4 4 2, the vector envelope 1 i, the residual signal
  • This is a masking amount correction unit that performs correction using si and the error signal zi.
  • the sensitivity characteristic h i is determined sequentially for each frame as follows. First, the masking amount is calculated by the masking amount calculation unit 11042 from the frequency spectrum distribution of the input signal. Next, a masking amount correction unit 1200443 corrects the calculated masking characteristic according to the spectrum envelope 1i, the residual signal si, and the error signal z ⁇ . By adding the minimum audible limit characteristic to the corrected masking characteristic, the listening party sensitivity characteristic h i of the frame can be obtained.
  • a method for correcting the masking characteristic will be described.
  • the frequency (fm) at which the previously calculated characteristic of the masking amount M i shows the maximum value is obtained.
  • how accurate the signal of the frequency f m is reproduced is determined from the magnitude of the spectrum at the input frequency i m and the magnitude of the quantization error spectrum. For example,
  • y l-(gain of quantization error of im) / (gain at input of fm). If the value of ⁇ is close to 1, there is no need to modify the masking characteristics already found, but if it is close to 0, the correction is made in the direction of decreasing. For example, as in hi-W (31), the masking characteristic can be corrected by being deformed by raising it to the power of the coefficient ⁇ .
  • the selector 0 0 0 3 5 multiplies a window (length W) for each continuous element in the frame, and the value G where the value of the importance g in that window is accumulated is the maximum value.
  • Select a block FIG. 13 is a diagram illustrating an example of selecting a frequency block (length W) having the highest importance.
  • the window length is just for ffi
  • the vector in the selected window frame is subjected to vector quantization by the second vector quantizer 7002.
  • the operation of the second vector quantizer 7003 is the same as that of the first vector quantizer 7003, but as described above, one of the error signals zi is selected. Since only the frequency block selected by the unit 7005 is quantized, the number of elements in the frame to be vector-quantized is small.
  • the codes of the spectral envelope coefficients, the respective codes that are the quantization results of the vector quantizers, and the configurations shown in Figs. 7, 11, and 12 were obtained.
  • the selection scale g information indicating which block starting from which element was selected is output as an index by the selector 7003.
  • the selection scale g obtained with the configuration shown in Fig. 10 only the spectrum envelope I i and the listening party sensitivity characteristic hi are used. Since the information on whether the starting block is selected can be obtained from the code of the spectral envelope coefficient and the known auditory intensity characteristic hi, the block selection information is used as an index. There is no need to output, which is advantageous in terms of compression ratio.
  • the first audio signal encoding method is based on the spectrum of the input audio signal and the auditory sensitivity characteristic which is an auditory characteristic of humans.
  • the frequency blocks of the quantization error component in the vector quantizer a frequency block with a high importance to quantize is selected, and the second vector quantizer is selected as described above. Because we tried to quantize the quantization error component of the first quantizer for the frequency block, human hearing! : Efficient quantization can be performed by utilizing the characteristic of ⁇ .
  • frequency blocks with high importance for quantization are used.
  • the importance is calculated based on the quantization error in the first vector quantizer, so that the quantization in the first vector quantizer is good. It is possible to prevent a certain portion from being re-quantized and causing an error to occur in the opposite direction, and to perform quantization while maintaining high quality.
  • the number of indexes to be output is smaller than when the importance g is obtained by the configuration shown in Figs. 7, 11, and 12. Compression rate can be improved.
  • the quantization unit has a two-stage configuration including a first-stage quantization unit 600 2 1 and a second-stage quantization unit 600 2 3.
  • the stage configuration may be such that auditory selection means is provided between the quantization units.
  • human auditory selection means may be provided. Efficient quantization can be performed using the visual properties.
  • FIG. 14 is a block diagram showing a configuration of an audio signal encoding device according to Embodiment 4 of the present invention.
  • 1 4 0 0 1 1 is the first-stage quantum that vector-quantizes the MDCT signal si output from the normalized city 104 by using the vector envelope value 1 i as the weighting factor.
  • a quantizer 1 4 0 0 1 2 is an inverse quantizer for inversely quantizing the quantization result of the first stage quantizer 1 4 0 0 1 1.
  • the quantization error signal zi of the quantization by the first-stage quantizer 14 0011 is obtained. Is obtained. 1 4 0 0 1 3 sets the quantization error signal zi of the quantization by the first-stage quantizer 1 4 0 0 1 1 to the weight calculation unit 14 0 0 17 as the weight coefficient.
  • the second-stage quantizer that performs vector quantization, 140 0 14 is an inverse quantizer that inversely quantizes the quantization result of the second-stage quantizer 14 00 13 By calculating the difference between the output of this inverse quantizer 14 00 14 and the quantization error signal of the quantization by the first-stage quantizer 14 00 11 Thus, a quantization error signal z 2 i of the quantization by the second-stage quantizer 14 00 13 is obtained.
  • 14 0 0 15 uses the quantization error signal 2 2 i of quantization by the second-stage quantizer 1 4 0 0 1 3 as the weighting coefficient using the calculation result of the listener weight calculator 4 0 6 This is the third-stage quantizer that performs vector quantization.
  • a correlation calculation unit 1400116 calculates a correlation between the quantization error signal zi of the quantization by the first-stage quantizer 1400111 and the value 1i of the spectrum envelope, Calculates the weighting factor in the quantization by the second-stage quantizer 1400, based on the calculation result of the correlation calculator and the value 1i of the spectral envelope. Weight calculation unit.
  • Audio signal encoding of Embodiment 4 The device g uses a three-stage quantizer and performs vector quantization with different weights in each quantizer.
  • the input residual signal si is determined by using the value 1 i of the LPC spectrum envelope 1 i obtained by the approximate quantization unit 302 as a weighting factor. Then, vector quantization is performed. As a result, the high energy (concentrated) parts of the spectrum are weighted, and as a result, the effect of quantizing the auditory important parts with higher accuracy is obtained. There is.
  • the first-stage vector quantizer 14 00 13 for example, the same as the first vector quantizer 700 0 31 in the third embodiment may be used.
  • the quantization result is inversely quantized by an inverse quantizer 14 00 12, and an error signal z i by quantization is obtained from a difference between the input residual signal s i and the inverse quantization.
  • This error signal z i is further vector-quantized by the second-stage quantizer 14 00 13.
  • a weighting coefficient is calculated in a correlation calculator 140 0 16 and a weight calculator 140 0 17.
  • This ⁇ takes a value of 0 ⁇ ⁇ 1, and indicates the degree of correlation between the two.
  • When ⁇ is close to 0, it indicates that the first-stage quantization has been performed with good accuracy based on the weighting of the spectral envelope, and when ⁇ is close to 1, the quantization is still good. Indicates that quantization has not been performed. Then, as a coefficient for adjusting the degree of weighting of the spectrum envelope 1 i by this ⁇ , is obtained, and is used as a weighting coefficient in the vector quantization. In this way, by performing weighting again with the envelope of the spectrum according to the precision of the first-stage quantization and performing quantization, the quantization precision is improved.
  • the quantization result of the second-stage quantizer 14 00 13 is inversely quantized by the inverse quantizer 14 0 0 14 to extract the error signal z 2 i, and this error signal z 2 i is vector-quantized by a third-stage quantizer 14 00 15.
  • the auditory weighting factor at this time is calculated by the weight calculator A 19 of the auditory weight calculator 140. For example, using the error signal z 2 i, the LPC spectrum envelope 1 i, and the residual signal si,
  • N ⁇ z 2 i * 1 i
  • the auditory masking calculator 1400 of the auditory weighting calculator 1406 uses the auditory model used in the MPEG audio standard, for example. Calculate the masking property mi.
  • the final masking characteristic M i is obtained by superimposing the minimum audible limit characteristic h i on this.
  • the final masking characteristic M i is the product of 1 and the reciprocal of a value obtained by raising the power by the coefficient) 3 calculated by the weight calculation unit 140 00 19.
  • the plurality of quantizers 140 1 0 1 1, 1 4 0 0 1 3 and 1 4 0 0 1 5 have the auditory sensitivity characteristics. Since the quantization is performed using different weighting coefficients, including the considered weighting, efficient quantization can be performed by more effectively utilizing the human auditory characteristics.
  • FIG. 15 is a block diagram showing a configuration of an audio signal encoding device according to Embodiment 5 of the present invention.
  • the audio signal encoding device g according to the fifth embodiment is a combination of the third embodiment shown in FIG. 6 and the first embodiment shown in FIG. 4, and the audio signal encoding device g according to the third embodiment shown in FIG.
  • the weighting coefficient obtained by using the auditory sensitivity characteristic in the auditory weighting calculator 406 is used at the time of quantization in each quantizer.
  • the audio signal encoding device according to the fifth embodiment by adopting such a configuration, it is possible to obtain both the effects obtained by the first and third embodiments. is there.
  • Embodiment 2 or Embodiment 4 can be combined with Embodiment 3 shown in FIG. 6, and audio signal encoding obtained by each combination is possible.
  • the device can obtain both the effects obtained by the second embodiment and the third embodiment, and both the effects obtained by the fourth embodiment and the third embodiment.
  • the multi-stage quantization unit has two or three quantization units.
  • the number of stages of the quantization unit is four or more. Needless to say, it is good.
  • the order of the weighting coefficients used in the vector quantization in each stage of the multi-stage quantization unit is not limited to the order shown in the above-described embodiment.
  • the LPC spectrum envelope may be used in the second and subsequent stages using weights that are considered.
  • FIG. 16 is a block diagram showing a configuration of an audio signal encoding device according to Embodiment 6 of the present invention.
  • the configuration of the quantization unit 105 in the encoding device 1 is the same as that of the above-described embodiment, so only the configuration of the quantization unit will be described here.
  • reference numeral 401 denotes a first small quantization unit
  • 402 denotes a second small quantization unit receiving the output of the first small quantization unit 401
  • 4003 denotes a second small quantization unit.
  • This is a third small quantization unit that receives the output of the small quantization unit 402.
  • the signal input to the first small quantization unit 401 is an output from the normalization unit 104 of the encoding device *, and is a normalized MDCT coefficient. However, in the configuration without the normalizer 104, 1 ⁇ 0 (: the output of the tail 103 is output.
  • the input MDCT coefficient is converted to a scalar. Encodes an index that represents the parameters used for quantization by quantization or vector quantization, calculates the quantization error for the input MDCT coefficient by quantization, and calculates the error. 2 to the small quantization unit 402.
  • all MDCT coefficients may be quantized, or only some of them may be quantized. Naturally, if only a part is quantized, the quantization error of the band that is not quantized by the first small S quantizer 401 is equal to the input MDCT coefficient itself of the band that is not quantized. Become.
  • the second small quantization unit 402 receives the quantization error of the MDCT coefficient of the first small quantization unit 401 as an input, and further quantizes it.
  • the quantization at this time may use scalar quantization or may use vector quantization as in the first small quantization section 401.
  • the second small quantization unit 402 encodes an index representing a parameter used for quantization into an index.
  • a quantization error due to quantization is calculated and output to the third quantizer 403.
  • the configuration of the third small quantization unit 403 is the same as that of the second small quantization unit.
  • both the second small quantization section 402 and the third small quantization section 403 be set so as to quantize the range of the MDCT coefficient indicating the low-frequency component.
  • the quantization units when performing quantization, are provided in a hierarchical manner, and the bandwidths to be quantized by the preceding and subsequent quantization units are changed. Because the input MDCT coefficients are quantized in arbitrary bands, for example, coefficients corresponding to low frequency components that are perceptually important to humans, low bit rates, that is, high compression Even if an audio signal is encoded at a rate, it is possible to reproduce high-quality sound on the receiving side.
  • FIG. 17 denotes a first small quantizer (vector quantizer), 502 denotes a second small quantizer, and 503 denotes a third small quantizer.
  • the configuration difference from the sixth embodiment is that the first quantization unit 501 divides the input MDCT coefficient into three bands and performs quantization independently.
  • Embodiment 7 First Small :! :
  • the child unit 501 when extracting some elements from the input MDCT coefficients to construct a vector, the low-frequency quantization is performed using only the low-frequency elements.
  • the quantization of the middle band uses the element of only the middle band
  • the quantization of the high band uses the element of only the ⁇ band to perform vector quantization, respectively.
  • the part 501 is apparently constituted by three segmented vector quantizers.
  • the method of dividing into three bands of low band, middle band and high band at the time of quantization has been described as an example, but the number of bands to be divided is not limited to three. It may be a number.
  • the second sub-quantization section 502 and the third sub-quantization section 503 also divide the domain into several parts similarly to the first quantization section 501, and It may be configured to perform the conversion.
  • the input MDCT coefficient is divided into three bands so that quantization is performed independently, so that it is important for the audience.
  • Processing such as preferentially quantizing the band can be performed at the first quantization, and the subsequent quantization sections 502, 503 further stepwisely change the MDCT coefficients of the band.
  • the quantization error can be further reduced, and the receiving side can reproduce higher-quality sound.
  • FIG. 18 An audio signal encoding apparatus according to Embodiment 8 of the present invention will be described using FIG.
  • reference numeral 60 1 denotes a first small quantization unit
  • 60 2 denotes a first quantization band selection unit
  • 60 3 denotes a second small quantization unit
  • 60 4 denotes a second small quantization unit.
  • a quantization band selection unit 605 is a third small quantization unit. The difference from the sixth and seventh embodiments in the configuration is that a first quantization band selection unit 602 and a second quantization band selection unit 604 are added.
  • the first quantization band selection unit 62 uses the output of the quantization error of the first small quantization unit 601 to determine which band in the second quantization unit 602. : Calculate whether MDCT coefficients should be quantized. For example, j that maximizes esum (j) given by Expression (10) may be calculated, and the margin of j * OFFSET to j * OFFSET + BANDWIDTH may be quantized. jOFFSET + BANDW1DTH
  • OFFSET is a constant
  • BANDWIDTH is the total number of samples corresponding to the bandwidth to be quantized by the second small quantization unit 603.
  • the first quantization area selection unit 602 encodes, for example, j giving the maximum value in Expression (10) to obtain an index.
  • the second small quantization section 603 quantizes the band selected by the first quantization band selection section 602.
  • the second quantization band selection unit 604 is an output whose input is a quantization error of the second small quantization unit 603, and is an output of the second quantization band selection unit 604. The same configuration can be realized except that the selected band is input to the third small quantization unit 605.
  • the first quantization band selection unit 602 and the second quantization band selection unit 604 use the equation (10) to select a band to be quantized by the next quantization unit.
  • the value used for normalization in the normalization unit 104 of Equation (11) and the value obtained by multiplying the value taking into account the relative sensitivity of the listening party to human frequencies are used. May be calculated. j.
  • env (i) is the MDCT
  • zxc (i) is a table that takes into account the relative sensitivity of the listener to human frequencies. It is shown in Figure 2. Further, in the formula (11), zxc (i) may not be considered as all 1s.
  • the quantization band selection unit does not need to have an extrinsic number.
  • a configuration using only the first quantization band selection unit 62 or a second quantization band selection unit 600 4 may be used.
  • a configuration using only one of them may be used.
  • the quantization area selection unit is provided between the quantization unit of all stages and the next-stage quantization unit.
  • the frequency band variable By making the frequency band variable, it is possible to appropriately change the quantization range according to the input signal, and the degree of freedom in quantization can be improved.
  • the normalized MD CT coefficient 1441, input to each sub-quantization unit is extracted from the MD CT coefficient 1441, based on rules, based on rules, and the sound source subvector 1 4 0 3 Is configured.
  • a coefficient sequence obtained by dividing the MDCT coefficient input to the normalizing section 104 by the MDCT coefficient 1401 normalized by the normalizing section 104 is a normalized component 1 4 0 2
  • the sound source subvector 1443 is extracted from the normalized component 1442 in the same rule as the one extracted from the MDC coefficient 1401, and the weight subvector 14 0 4 can be constructed.
  • the rules for extracting the sound source vector 144 and the weight vector 144 from the MDCT coefficient 1441 and the normalized component 1442, respectively, are given by, for example, the following equation (14). And the like.
  • the j-th element of the i-th sound source subvector is subvector i (j)
  • the MDCT coefficient 1401 is vector ()
  • the total of the MDCT coefficient 1441 is
  • the number of elements is TOTAL
  • the number of elements in the sound source subvector 1443 is CR VTOTAL is set so that VT0TAL / CR is an integer value greater than or equal to TOTAL.
  • TOTAL is 2048
  • CR 19 and VTOTAL force is 205
  • CR 23 and VTOTAL force is 230
  • CR 210 and CR is 21 and VTOTAL is 279.
  • the weight subvector 1900 0 1404 can also be extracted by the procedure of equation (14).
  • the distance from the vector 1403 is weighted by the weight subvector 1404 to find the smallest one, and the index of the code vector that gives the minimum distance is calculated. Then, a residual subvector 14410 corresponding to the quantization error between the code vector giving the minimum distance and the input sound source subvector 1443 is output.
  • the vector quantizer 1405 uses three elements: distance calculation means 1406, code determination means 1400'7, and residual generation means 1408. It will be described as being composed. In the distance calculation means 1406, for example, using equation (15), the distance between the i-th sound source sub-vector 1443 and the k-th code vector of the codebook 14409 is calculated. Is calculated.
  • wj is the jth element of the weight subvector
  • ck (j) is the ⁇ th element of the kth code vector
  • R and S are the norms of the distance calculation
  • R, S A value of 1, 1.5, 2 etc. is desirable. Note that the norms R and S need not be the same.
  • dik means the distance of the k-th code vector to the i-th sound source sub-vector.
  • the code determining means 1407 selects the smallest code vector among the distances calculated by the equation (15) and encodes the index. For example, if diu is the minimum value, the encoded index for the i-th subvector is u.
  • the residual sub-vector 1410 is calculated by using the equation (16). Generate.
  • the number of code vectors included in the 1409 may be any number, but it is preferable to be about 64 in consideration of memory capacity, calculation time, and the like.
  • K is the total number of code vectors used for code search in the code book 1409.
  • the code determining means 1407 selects k that gives the minimum value of the distance dik calculated by the equation (17), and encodes the index. However, k is a value from 0 to 2K-1.
  • the number of code vectors included in the code book 1409 may be any number, but it is preferable to be about 64 in consideration of memory capacity, calculation time, and the like.
  • the configuration has been described in which the weighted subvectors 144 are generated from only the normalized components 1402.However, the weighted subvectors 1404 take human auditory characteristics into account. It is also possible to generate a weight sub-vector by further multiplying the weight by the obtained weight.
  • the index output from the encoding device 1 is roughly divided into an index output from the normalization unit 104 and an index output from the quantization unit 105.
  • the index output from the normalization unit 104 is decoded by the inverse normalization unit 107, and the index output from the quantization unit 105 is decoded by the inverse quantization unit B 106.
  • the inverse quantization unit 106 can also perform decoding using only a part of the index output from the quantization unit 105.
  • reference numeral 701 denotes a first low-frequency component inverse quantization unit.
  • the first low-frequency component inverse quantization section 701 performs decoding using only the low-frequency component index of the first small quantization section 501.
  • FIG. 21 is a diagram showing the configuration of the inverse quantization unit of the audio signal decoding device S when inverse quantization is performed in two stages.
  • reference numeral 704 denotes a second inverse quantization unit. .
  • the second inverse quantization section 704 performs decoding by using the index of the second small quantization section 502. Therefore, the sum of the output of the first low-frequency component from the inverse quantizer 704 and the output of the second inverse quantizer 704 is used as the output of the inverse quantizer 106. Will be output. However, this addition is performed at the time of quantization in the same band as the band quantized by each small quantization unit.
  • the index of the first small quantization section (low band) is decoded by the first low-band component inverse quantization section 701, and the second small quantization section (low band) is decoded.
  • the index of the small quantization unit is inversely quantized, the output of the first low-frequency component inverse quantization unit 701 is added to perform the inverse quantization. Quantization can be performed in two stages, and audio signals quantized in multiple stages can be accurately decoded, so that higher quality sound quality can be obtained.
  • FIG. 22 is a diagram showing a configuration of an inverse quantization unit of an audio signal decoding device that expands a target band when performing inverse quantization in two stages.
  • reference numeral 72 denotes an inverse quantization unit for the first middle band component.
  • the first middle-band component inverse quantization unit 702 performs decoding using the middle-band component index of the first small quantization unit 501. Therefore, the output of the first low-frequency component from the inverse quantizer 701, the output of the second inverse-quantizer 704, and the first middle-frequency component inverse quantizer 702 Will be output as the output of the inverse quantization unit 106.
  • the addition is performed at the time of quantization in the same band as the band quantized by each small quantization unit. By doing so, the range of the sound to be reproduced can be expanded, and a higher quality audio signal can be reproduced.
  • FIG. 23 shows the inverse quantization unit having the configuration shown in FIG.
  • FIG. 23 is a diagram illustrating a configuration of an inverse quantization unit of the audio signal decoding device when performing three stages of decoding.
  • reference numeral 705 denotes a third inverse quantization unit.
  • the third inverse quantization section 705 performs decoding using the index of the third small quantization section 503. Therefore, the output of the first low-frequency component from the inverse quantizer 701, the output of the second inverse-quantizer 704, and the first middle-frequency component inverse quantizer 702 And the output from the third inverse quantization unit 705 is output as the output of the inverse quantization unit 106.
  • the addition adds to the same band as the band quantized by each of the small quantization units at the time of quantization.
  • FIG. 24 shows an audio signal decoding in which the target band is expanded when performing quantization in three stages in the inverse quantization unit having the configuration of FIG.
  • FIG. 24 is a diagram illustrating a configuration of an inverse quantization unit of the quantization apparatus.
  • reference numeral 703 denotes an inverse quantization unit for a first high-frequency component.
  • the first high-frequency component inverse quantization section 703 performs decoding using the high-frequency component index of the first small quantization section 501, and the first low-frequency component
  • the sum of the output from the inverse quantization unit 705 and the output of the first high-frequency component from the inverse quantization unit 703 is output as the output of the inverse quantization unit 106.
  • the addition in this case is added to the same band as the band quantized by each small quantization unit at the time of quantization.
  • Embodiment 9 a case where decoding section 106 inversely quantizes the information quantized by quantization section 105 having the configuration shown in FIG. 17 is described as an example.
  • the configuration of the quantization unit 105 can be similarly performed by the configurations shown in FIG. 16 and FIG.
  • Encoding is performed using a quantization unit having a configuration as shown in FIG. 17 as a quantization unit, and a configuration as shown in FIG. 24 is used as an inverse quantization unit.
  • a quantization unit having a configuration as shown in FIG. 17 as a quantization unit
  • a configuration as shown in FIG. 24 is used as an inverse quantization unit.
  • the low-band index of the first small quantization unit is inversely quantized, and then the second The index of the small quantization unit 502 is inversely quantized, and the index of the middle band of the first small quantization unit is again inverted:! :
  • Dequantization is performed by alternately repeating inverse quantization to expand the bandwidth and inverse quantization to reduce the quantization error.
  • the inverse quantization unit 107 includes a first low-frequency inverse quantization unit 701, and the inverse quantization unit shown in FIG. 21.
  • the inverse quantization unit 107 is composed of two inverse quantization units, a first low-band inverse quantization unit 701 and a second inverse quantization unit 704.
  • the vector inverse quantizer 1501 uses the index from the vector quantizer 105 to reproduce the MDCT coefficients. In the case of the small quantization unit having the configuration shown in Fig. 20, inverse quantization is performed by decoding the index number and then adding the code vector of that number to the codebook 1502. Choose from.
  • the codebook 1502 has the same contents as the codebook of the encoding device.
  • the selected code vector becomes a reproduction vector 1503, which is an MDCT coefficient 1504 inversely quantized in the inverse process of the equation (14).
  • the inverse quantization is performed by decoding the index number k and calculating the number u of the number u calculated by the equation (19). Select a code vector from the Codebook 1502 Powers.
  • reference numeral 1201 denotes a frequency outline denormalizer
  • 122 denotes a band amplitude denormalizer
  • 1203 denotes a band table.
  • the frequency approximate inverse normalizer 1 201 receives the index from the frequency approximate normalizer 1 201 as an input, reproduces the frequency approximate, and generates the inverse quantizer 1 0 6. Is multiplied by the above-mentioned frequency outline and output.
  • reference numeral 1301 denotes an approximate inverse quantization unit
  • reference numeral 1302 denotes an envelope characteristic inverse quantization unit.
  • the approximate inverse quantization unit 1301 restores a parameter representing an approximate frequency shape, for example, a linear prediction coefficient, using the index from the approximate quantization unit 301 in the encoding device. If the reconstructed coefficient is a linear prediction coefficient, the quantized envelope characteristic is reconstructed, for example, by calculating in the same manner as in equation (8).
  • the restored coefficient is not a linear prediction coefficient, for example, if it is an LSP coefficient, it is converted into a frequency characteristic to restore the envelope characteristic.
  • the envelope characteristic inverse quantization unit 1332 multiplies the envelope characteristic restored as shown in Expression (13) by the output from the inverse quantification unit 106 to obtain an output. mdct (i)-fdct (i) env (i) (1 3)
  • FIG. 29 is a diagram illustrating a detailed configuration of the audio signal encoding apparatus according to the tenth embodiment.
  • reference numeral 290 3 denotes an audio signal representing a representative value of the characteristic amount of the audio signal.
  • a transmitting side code book having a plurality of codes 290001 is an audio code selecting unit, and 290010 is a phase information extracting unit.
  • the MDCT coefficient is considered as an input signal.
  • DFT discrete Fourier transform
  • the data on the frequency axis is regarded as one sound source vector. If this is done, a sub-vector is formed by extracting some elements from the sound source vector, and if this is used as the input vector in Fig. 29, the audio code selector 2 900 0 1 0 2 Calculates the distance between each code in the sender's codebook 29003 and the input vector, selects the code with the minimum distance, and selects the selected code. Output the code index in the sender's codebook 29003.
  • the phase information extraction unit 29001107 extracts the phase to be extracted, that is, 2 bits for the elements from the lowest frequency to the second frequency.
  • the input of the audio code selector 1900 1 102 is made by dividing the vector obtained by MDCT conversion into one vector and dividing the vector into several elements, for example, About 20 elements are considered as one sub-vector.
  • the vectors are assumed to be X0 to X19, and the element of the sub-vector having the smaller subscript of X corresponds to the MDCT coefficient having a lower frequency component.
  • the low frequency components are important information for the human audience, and therefore, by giving priority to coding these elements, the deterioration of sound quality for humans during reproduction is considered. It is hard to feel.
  • the audio code selection unit 2900001 calculates the distance between the feature vector and each code in the transmission-side codebook 29003. For example, when the code index is i, the distance Di in the code of the code index i can be calculated by equation (21).
  • N is the number of all codes in the transmitting-side codebook 29003
  • Cij is the j-th code in the code index I.
  • M is a number of 19 or less, for example, 1 in the tenth embodiment.
  • P is the norm in the distance calculation, for example, 2 and so on. Abs () means absolute value operation.
  • the phase information Ph (j) is, as shown in equation (22),
  • the input vector is a sub-vector of the vector obtained by converting the audio signal into the MDC
  • the sub-vectorized input vector ignores the sign of the two-bit element on the low frequency side and ignores the sign code on the transmitting side. The pattern is compared with the code of 29003.
  • the code index output from the audio encoding device is stored in the transmission-side codebook 3 with 10 bits (1024) as in the conventional case.
  • the code is 8 bits (256)
  • Table 3 shows the relationship between: and the amount of memory.
  • the codebook is one-fourth, and the calculation * conventionally required 102 4 types of search processing. It can be seen that the calculation amount and the memory can be greatly reduced only by performing the process of adding two codes.
  • the listening party between the sub-vector created by dividing the input vector and each audio code in the transmission-side code book 290 03 is described.
  • the audio code selection unit 29 is used for the part where the auditory importance corresponds to the sub-vector element.
  • the system ignores the sign indicating the phase information at 0102 and treats it, and performs a comparison search with the audio code of the transmitter codebook 29003.
  • the information extraction unit 290 00 107 adds the phase information corresponding to the element part of the sub-vector extracted above, and outputs it as a code index.
  • the amount of calculation in the audio code selection unit 29001102 can be reduced without causing a perceived deterioration in sound quality, and the codebook 2 9
  • the number of codes required for 03 can also be reduced.
  • Embodiment 11 1.
  • FIG. 32 (a) is a diagram showing the configuration of the audio signal encoding apparatus according to Embodiment 11; in FIG. 32, reference numeral 320001 denotes human psychoacoustic characteristics.
  • a psychoacoustic weight vector table that stores a table of the relative psychological amount of the listener at each frequency.
  • the difference from the above-described Embodiment 10 is that the listening party psychological weight vector table 3200103 is newly added.
  • the psychoacoustic weight vector is based on a human psychoacoustic model and is based on an acoustic sensitivity table defined as the sensitivity characteristic of auditory sensitivity to frequency. It is a vectorized collection of elements in the same frequency band for each element. For example, as shown in FIG. 32 (b), the peak has a frequency of about 2.5 KHz, and the one at the lowest frequency is not necessarily important for human hearing. It is clear that there is no such thing.
  • the psychoacoustic weight vector table 3 2 0 0 1 0 3 is used as the MDCT coefficient as the input vector to the audio code selection unit 2900 1 102.
  • the distance sculpture scale Di at the time of code selection in the audio code selection unit 29001 102 is, for example, N ⁇ i
  • N is the number of all codes in the transmission-side codebook 29003
  • Cij is the value of the j-th element in the code index i.
  • M is a number of 19 or less, for example, 1 in the present embodiment.
  • P is the norm in the distance calculation, for example, 2 or the like.
  • Wj is the j-th element of the audience psychological weight vector table 3201103. Abs () means absolute value operation.
  • the phase information Ph (j) is similarly defined by equation (22).
  • the listening party between the sub-vector created by dividing the input vector and each audio code in the transmitting-side code book 29003 is described.
  • the audio selector 290 00 selects the part corresponding to the sub-vector element with high auditory importance.
  • the sign information indicating the phase information is ignored and handled, and a comparison search is performed with the audio code of the transmission-side codebook C3, and the obtained result is separately added to the phase information extraction unit 290 00 Since phase information corresponding to the above-described sub-vector elements extracted in 107 is added and output as a index, the audio quality can be reduced without causing perceived deterioration in sound quality. Reduce the amount of calculation in the code selection section 2 900 0 102 In addition, the number of codes required for the codebook 2903 can be reduced.
  • the audio selector 290 00 102 displays the phase information.
  • the audio feature vector that is treated ignoring the sign shown is stored as a table of the relative psychological amount of hearing at each frequency in consideration of the psychological characteristics of the human listening party.
  • Embodiment 1 2.
  • FIG. 33 (a) is a diagram showing the configuration of the audio signal quantization apparatus according to Embodiment 12; in FIG. 33, reference numeral 3301 104 denotes a smooth vector table. Data such as division curves are stored. 3 3 0 0 1 0 5 uses the smoothing vector stored in the smoothing vector table 3 3 0 0 1 0 4 to smooth the input vector by dividing the vector elements. Performs the smoothing unit.
  • MDCT coefficients and the like are input as input vectors to the smoothing section 3300 1 0 5, as in the audio signal encoding apparatus according to Embodiment 10 and Embodiment 11 described above.
  • the smoothing operation is performed on the input vector by using the division force, which is the smoothing vector stored in the smoothing vector table 330, in the smoothing vector table. I do.
  • the input vector is set to X
  • the smoothing vector 3300 to 104 is set to F
  • the output of the smoothing unit 330 is set to Y.
  • the smoothing vector table 33001104 is a value for reducing the variance of the MDC coefficient.
  • FIG. 33 (b) schematically shows the smoothing process.
  • the output of the smoothing section 3301 0105 becomes an input of the audio code selection section 29001 102, and the code selection section 29001102 implements the above-described operation.
  • the smoothed input vector is output to the phase coasting information extracting section 29001 107 for the phase information of the second element from the lowest frequency.
  • the audio code selection unit 29001102 searches for the 256 codes stored in the transmission-related codebook 330031.
  • the smooth vector table 3 3 0 1 0 4 After receiving the information at the time of the conversion processing, adjusting the scaling, and selecting the code index (8 bits) corresponding to the search result, the 2-bit phase is added to the result obtained in this way. Outputs a 1 O-bit code index I with information added.
  • the distance Di between the input vector and the code stored in the sender's codebook 3300331 is, for example, the i-th of each of the smoothing vector tables 33001104.
  • N is the number of all codes in the transmission-side codebook 330331
  • Cij is the value of the j-th element in the code index i.
  • M is a number of 19 or less, for example, 1 in the present embodiment.
  • P is the norm in the distance calculation, for example, 2 or the like.
  • Wj is the j-th element of the audience psychological weight vector table 3202103.
  • abs () means absolute value operation.
  • the phase information Ph (j) is similarly defined by Expression (2 2).
  • an audio code selection unit 29001 selects a portion corresponding to a subvector element having a high auditory importance. 0 2 ignoring the sign indicating the phase information, it is treated and compared with the audio code in the sender's codebook 3 3 0 0 3 1. Since phase information corresponding to the sub-vector elements extracted in 290 00 107 is added and output as a code index, the perceived sound quality may be degraded. Audio code selector 2 900 0 1 0 2 Definitive calculation amount can be reduced, and also, it is a This also reduces the code number required for the transmission side co one bleed click 3 3 0 0 3 1.
  • the input vector is smoothed using the smoothing table 33001104 and the smoothing unit 33001105, so that the audio code selecting unit 29001 Information for each frequency of the codebook that is stored in the transmission guidebook 3 3 0 0 3 1 that is referred to when searching with 02! : Can be reduced as a whole.
  • Embodiment 1 3.
  • FIG. 34 is a diagram showing the configuration of the audio signal encoding apparatus S according to Embodiment 13 of the present invention. In the figure, the difference from the embodiment 12 shown in FIG. Part 2
  • the MDCT coefficients and the like are input as input vectors to the smoothing unit 330 0 1 0 5, as in Embodiment 10 above, and the smoothing unit 3 3 0 0 1 0 5
  • the output is the input of the audio code selection section 2900.102, and the audio code selection section 2900.102 outputs each code in the transmission-side codebook 3300.31.
  • the distance between the output of the smoothing unit 33001 and the output of the smoothing unit 3300 is determined based on the information at the time of smoothing processing output from the smoothing vector table 33001104.
  • the psychological weight vector of the auditory psychology is calculated taking into account the weight of the psychological weight vector of the auditory party 3 2 0 0 1 0 3 while considering the scaling at the time of processing.
  • distance Di is represented, for example, by Expression (27).
  • N is the number of all codes in the sender's codebook 330031
  • Cij is the value of the j-th element in the code index i.
  • M is a number of 19 or less, for example, 1 in this embodiment.
  • P is the norm in the distance calculation, for example, 2 or the like.
  • Wj is the j-th element of the psychoacoustic weight vector table 320 2 0 0 1 0 3. Abs () means absolute value operation.
  • the phase information Ph (j) is similarly defined by the above equation (22).
  • the sub-vector created by dividing the input vector and each audio code in the transmission-side codebook 33003 1 are compared with each other.
  • an audio code selection unit 2900 is used for a portion corresponding to a sub-vector element having high auditory importance. 1 0 2
  • the sign information indicating the phase information is ignored and handled, and a comparison search is performed with the audio code of the transmission-side code book 3301 31.
  • a phase information extraction unit 290 is separately added to the obtained result. Since the phase information corresponding to the above-described sub-vector elements extracted in 0 107 is added and output as a code index, the perceived sound quality does not deteriorate.
  • the amount of calculation in the audio code selection unit 2900101 can be reduced, and the number of codes required for the transmission-side codebook 330031 can also be reduced.
  • the audio vector selection unit 290 010 102 treats the feature vector, which ignores the sign indicating the phase information, ignoring the sign of the phase information.
  • the psychoacoustic weight vector table 3 2 0 0 1 0 3 that stores a psychological quantity table, as in Embodiment 10 described above, it is possible to simply select a low frequency band. Compared to the case of selecting a predetermined number of feature vectors, quantization with better sound quality can be performed more sensibly.
  • the audio code selecting section 29 The information amount for each frequency of the codebook stored in the transmission-side codebook 3 3 0 0 3 1 that is referred to when performing a search with 0 0 1 0 2 can be reduced as a whole. .
  • Embodiment 1 4.
  • FIG. 35 is a diagram showing a configuration of audio signal coding and concealment according to Embodiment 14 of the present invention.
  • 3501 106 is a sort unit, and a psychoacoustic weight vector is shown.
  • the operation will be described.
  • the difference between the present embodiment 14 and the above embodiment 13 is that a sort section 350 0 106 is added, and that an audio code selecting section 2900 0 10 The point is that the method of selecting and outputting the code index of 2 is different.
  • the sort unit 350 0 106 receives the psychoacoustic weight vector table 3 2 0 0 1 0 3 and the output of the smooth vector table 3 3 0 0 1 0 4 as inputs.
  • WF j the j-th element of the vector WF
  • the audio code selection unit 29001002 calculates the distance Di as in the above embodiments.
  • the distance Di is expressed by, for example, the following equation (29).
  • Rj is 1 if the output element number is Rj, and not the output element number according to the sort section 35001106. Then Rj is set to 0.
  • N is the number of all codes in the sender's codebook 330031
  • Cij is the value of the j-th element in the code index i.
  • M is 19 or less, for example, 1 in this embodiment.
  • P is the norm in the distance calculation, for example, 2 or the like.
  • Wj is the i-th element of the psychoacoustic weight vector table 3 2 0 0 1 0 3. Abs () is Absolute value operation.
  • the phase information Ph (j) is defined by Expression (30).
  • Ph (j) is calculated only for those corresponding to the element numbers output in the sort section 35001106.
  • the number is (R + 1).
  • the output of the smoothing vector table 330 0104 and the psychoacoustic weight vector table 3 2 0 0 1 In response to the output of 0 3, the output result selects the largest element of the vector, that is, a plurality of elements having a large absolute weight, and assigns them to the audio code selection section 2 9 0 Since the output is made to 0 1 0 2, the power of calculating the code index taking into account both factors that are significant for the characteristics of the human listening party and those that are physically important is It is possible to perform higher quality audio signal encoding.
  • the absolute value of the weight considering both the smoothing vector 33000 and the Sentiment psychological weighting vector 3200103 is large.
  • the number of elements to be selected is set to R, this may be the same numerical value as M used in Embodiments 10 to 13 above.
  • FIG. 36 is a diagram showing a configuration of an audio signal decoding apparatus according to Embodiment 15 of the present invention.
  • 360 0 21 is a decoding section, and a receiving side codebook is shown. It is composed of a code decoder 3600 and a code decoder 36005.
  • the reference numeral 36000051 is composed of an audio code selection unit 290010102 and a phase information extraction unit 290010107.
  • the coding method shown in the first to tenth embodiments is applied, that is, audio code selection is performed.
  • the elements of 2 bits are removed from the low-frequency side that is more important for the human auditory party.
  • the remaining 8 bits of the element are compared with the code stored in the receiving codebook 360600, and the phase information of the excluded 2 bit element is extracted.
  • an audio feature vector is reproduced, that is, inverse quantization is performed.
  • the receiving-side codebook only needs to store 256 codes corresponding to 8-bit elements.
  • the amount of data stored in 1 can be reduced, and the operation in the audio code selection unit 2900101 is performed 256 times for code search and the search results Since this is a process of adding two codes, the amount of operation can be greatly reduced.
  • Embodiment 15 shows the configuration of Embodiment 10 applied to the configuration on the receiving side
  • the configuration of Embodiments 2 to 5 may be applied. It is possible to compress and decompress the audio signal by using it in combination with any of the above embodiments 10 to 14 instead of using it alone on the receiving side. This makes it possible to construct an audio data transmission / reception system that can smoothly perform audio data transmission.
  • the audio signal encoding method according to claim 1 of the present invention
  • the first-stage vector quantization process that vector-quantizes the frequency characteristic signal sequence obtained by frequency-converting the input audio signal, and the quantization of the first-stage vector quantizer process.
  • An audio signal code that performs vector quantization of the error components in the second and subsequent stages, and performs vector quantization using a multi-stage quantization method with and encodes the amount of information.
  • the spectrum of the input audio signal and the human opposition Since the vector weighting coefficient is used as the weighting coefficient for quantization based on the frequency-based weighting coefficient calculated based on the acoustic sensitivity characteristic, Efficient quantization using the auditory properties of There is an effect that can be done.
  • the first vector for vector-quantizing a frequency characteristic signal sequence obtained by frequency-converting an input audio signal is based on a spectrum of an input audio signal and an auditory sensitivity characteristic which is a human auditory characteristic.
  • the frequency block with the highest importance to quantize is selected, and in the second vector quantization process, For the selected frequency block, Since the quantization of the s-child error component of the quantization process is performed, there is an effect that efficient quantization can be performed using the characteristics of human auditory parties.
  • a first-stage vector quantization process for vector-quantizing a frequency characteristic signal sequence obtained by frequency-converting an input audio signal. And 'vector quantum in the first stage Vector quantization of the quantization error component in the quantization process, and vector quantization using the multistage quantization method with and vector quantization using the multistage quantization method with.
  • the spectrum of the input audio signal and the human Vector quantization is performed using the weighting factor on the frequency calculated based on the auditory sensitivity characteristic, which is an auditory characteristic, as the weighting factor for quantization, and the spectrum of the input audio signal is used.
  • the quantization error component of the first-stage quantization process is quantized for the selected frequency block.
  • a time-frequency conversion unit that converts an input audio signal into a frequency domain signal, and a spectrum of the input audio signal And a frequency domain signal obtained by the time-frequency conversion section is normalized by the spectrum envelope obtained by the spectrum envelope calculation section, and a residual is obtained.
  • a normalization unit for obtaining a difference signal, a power normalization unit for normalizing the residual signal by power, and an auditory sensitivity characteristic, which is a spectrum of the input audio signal and a human auditory characteristic.
  • a perceptual weighting calculator for calculating a weighting coefficient on frequency based on the above, and a plurality of cascaded vectors to which the residual signal normalized by the power normalizer is input.
  • Quantizer At least one of the vector quantization units has a multistage quantization unit that performs quantization using the weighting coefficients obtained by the weighting unit. Efficient quantization using auditory characteristics There is an effect that can be performed.
  • the plurality of quantization units of the plurality of stages of the multi-stage quantization unit perform the weighting calculation.
  • the quantization is performed using the weighting coefficients obtained in the sections, and the auditory weighting section calculates the individual weighting coefficients used by each of the plurality of quantization sections.
  • the auditory weighting section calculates the individual weighting coefficients used by each of the plurality of quantization sections.
  • the multi-stage quantization section includes a spectrum obtained by the spectrum envelope calculation section.
  • a first-stage quantization unit that performs quantization of the residual signal normalized by the power normalization unit using the signal envelope as a weighting coefficient in each frequency domain, and the spectrum envelope And a weighting factor calculated based on the correlation between the quantization error signal of the first-stage quantization unit and the quantization error signal of the first-stage quantization unit. Weighting calculated by the input signal converted into the frequency domain signal by the time-frequency conversion unit and the listening party characteristics in the second stage dodging unit that performs quantization of the With the above-mentioned spectrum envelope and the above-mentioned second stage quantization unit.
  • the weighting coefficient obtained by adjusting based on the quantization error signal and the residual signal normalized by the power normalization unit is used as the weighting coefficient in each frequency domain by the second stage quantization unit.
  • a third-stage quantization unit that quantizes the quantization error signal of, so that efficient quantization can be performed by effectively utilizing human auditory characteristics. There is an effect that can be done.
  • a time-frequency conversion unit that converts an input audio signal into a frequency domain signal, and a spectrum of the input audio signal Calculate the envelope
  • a vector envelope calculation unit a normalization unit that normalizes the frequency domain signal obtained by the time-frequency conversion unit with the spectrum envelope obtained by the spectrum envelope calculation unit to obtain a residual signal
  • a power normalizing section for normalizing the residual signal by power
  • a first vector quantizer for quantizing the residual signal normalized by the power normalizing section
  • an input Based on the spectrum of the audio signal and the auditory sensitivity characteristics, which are human auditory characteristics, one of the frequency blocks of the quantization error component in the first vector quantizer described above!
  • the listening party selecting means, the listening party selecting means, the first vector The value obtained by multiplying the quantization error component of the quantizer, the spectrum envelope signal obtained by the above-mentioned spectrum envelope calculation unit, and the inverse characteristic of the minimum audible characteristic is used as a measure of importance to be quantized. And the frequency block is selected, so that efficient quantization can be performed by effectively utilizing the human auditory characteristics, and the first vector It is possible to prevent the part with good quantization in the quantizer from being re-quantized and causing an error in the opposite direction, and to perform quantization while maintaining high quality. effective.
  • the listening party selecting means includes a stream obtained by the spectrum envelope calculating unit.
  • the value obtained by multiplying the vector envelope signal and the inverse characteristic of the minimum audible characteristic is used as a measure of the importance to be quantized, and the frequency block ⁇ is selected.
  • the listening party selecting means comprises a quantizer of the first vector quantizer.
  • the error component is multiplied by the inverse of the characteristic obtained by adding the minimum envelope characteristic and the masking characteristic calculated from the input signal to the spectral envelope signal obtained by the spectrum envelope calculation unit.
  • the selected value is used as a measure of the importance to be quantified, and the frequency block is selected.Thus, efficient quantization is performed by effectively utilizing the human auditory characteristics.
  • the auditory selecting means includes a quantization error of the first vector quantizer.
  • the power normalization unit normalizes the components, the spectrum envelope signal obtained by the spectrum envelope calculation unit, the minimum audible characteristics, and the masking characteristics calculated from the input signal.
  • a vector quantization technique is used for quantization.
  • the distribution of the amount of information at the time of quantization can be both information that contributes to expansion of the reproduction band and information that contributes to quality improvement.
  • the encoding device first converts the input audio signal into a frequency-domain signal and encodes a part of the converted frequency signal as a first step. In the second stage, a part of the uncoded frequency signal and the encoding error signal in the first stage are encoded and added to the first stage code.
  • the decoding device performs the first stage Decoding using only the coded codes, decoding using the decoded codes of the first and second stages, and decoding from the first stage to the first and more stages Decoding is performed using the encoded code, and the order of decoding is such that the one that contributes to the area extension and the one that contributes to the quality improvement are alternately decoded, so the encoding is performed with a fixed amount of information Good sound quality can be obtained without performing decoding and decoding, and high-quality sound can be obtained at a high compression rate.
  • the frequency characteristic signal sequence obtained by frequency-converting the input audio signal is used as the input signal, and the frequency characteristic signal sequence
  • a phase information extraction unit that extracts phase information of those belonging to a predetermined frequency band, an audio code that is a representative value of the frequency characteristic signal sequence, and an absolute value of an element corresponding to the extracted phase information.
  • a code book that stores a plurality of these in a coded state, and an auditory distance between the frequency characteristic signal sequence and each audio code in the code book are calculated, and the minimum distance is calculated. The audio code having the minimum distance is selected, and the phase information for the audio code having the minimum distance is used as the auxiliary information using the output from the phase coasting information extraction unit.
  • an audio code selection unit that outputs a code index corresponding to the audio code having the minimum distance as an output signal, thereby causing a perceived deterioration in sound quality.
  • the amount of calculation in the audio code selection unit can be reduced, and the number of codes to be stored in the code book can be reduced.
  • the relative auditory psychology at each frequency in consideration of the human psychoacoustic characteristics.
  • a psychoacoustic weight vector table which is a table of quantity, is provided, and the phase information extraction unit matches the vector stored in the psychoacoustic weight vector table out of the input frequency characteristic signal sequence. Since the phase information of the element to be extracted is extracted, there is an effect that quantization with excellent sound quality can be performed more sensibly.
  • the frequency characteristic signal sequence is vectorized using a smooth vector.
  • the audio code selection unit selects an audio code having the minimum distance, and assigns phase information to the selected audio code.
  • the selected audio code is converted into an audio code that has not been subjected to smoothing processing using the smoothing processing information output from the smoothing unit, and is added to the audio code.
  • the corresponding code-index is output as its output signal, so it is recorded in the codebook that is referred to when searching in the audio code selection section. This has the effect that the amount of information for each frequency of the codebook to be stored can be reduced as a whole.
  • the relative listening at each frequency in consideration of the human listening party psychological characteristics.
  • Party at the psychological table A certain psychological weight vector table, a smoothing unit for smoothing the frequency characteristic signal sequence by dividing vector components using a smooth vector, and the psychological weight vector A sort unit that selects a plurality of values obtained by multiplying the value of the torque table and the value of the smooth vector table in descending order of auditory importance, and outputs the values to the audio code selecting unit; , So that the code index can be calculated by taking into account both the factors that are significant for human hearing characteristics and those that are physically important. This has the effect that high-quality audio signal compression can be performed.
  • a code index obtained by quantizing a frequency characteristic signal sequence which is a feature amount of an audio signal is used as an input signal.
  • a phase information extraction unit that extracts phase information of an element corresponding to a predetermined frequency band of the code index, and a frequency characteristic signal sequence corresponding to the code index corresponds to the extracted phase information.
  • a code book that stores a plurality of element parts to be converted into absolute values, and an auditory distance between the code index and the frequency characteristic signal sequence in the code book described above. The frequency information signal sequence having the minimum distance is selected, and the phase information for the frequency characteristic signal sequence having the minimum distance is extracted by the phase information extraction unit.
  • an audio code selection unit that outputs the frequency characteristic signal sequence corresponding to the code index, which is the input signal, as an output signal.
  • the amount of data stored in the code book used on the receiving side can be reduced, and the amount of calculation on the receiving side can be significantly reduced.

Description

明 細 謇 オーディオ信号符号化方法, 復号化方法、 及びオーディオ信号符号化装 置, 復号化装置 技術分野
本発明は音声信号や音楽信号などのオーディ オ信号から得られる特 徴量、 特にオーディオ信号を直交変換等の手法を用いて、 時間領域から 周波数領域に変換した信号を用い、 その変換した信号を源オーディオ信 号と比較して、 できるだけ少ない符号列で表現するために効率的に符号 化する装 Sおよび方法と、 符号化された信号である符号化列のすべて、 あるいはその一部のみを用いて高い品質と広帯域なオーディ オ信号を復 号可能な構成の復号化装置及び方法に関するものである。 背景技術
オーディオ信号を効率的に符号化、 および復号化する様々な手法が提 案されている。 音楽信号など 2 0 k H z 以上の周波数帯域を有するォー ディォ信号は特に近年、 M P E Gオーディオ方式などがある。 M P E G 方式に代表される符号化方式は、 時間軸のディ ジタルオーディオ信号を コサイ ン変換などの直交変換を用いて周波数軸上のデータに変換し、 そ の周波数軸上の情報を、 人間の聴覚的な感度特性を利用 して聴覚的に重 要な情報から符号化していく 方式であり 、 聴覚的に重要でない情報や冗 長な情報は符号化しない方式である。 源ディ ジタル信号の情報量に対し て、 かなり少ない情報量で表現しょ う とする場合、 ベク トル量子化の手 法を用いた T C一 W V Qなどの符号化方式がある。 M P E Gオーディ オ、 および T C一 W V Qはそれぞれ ISO/IEC 標準 IS- 1 1 172- 3、 および T.Mori a,H Suga:An 8 Kbits transform coder for noisy channels, Proc.ICASSP 89,ppl96-199 などに述べられている。 こ こで図 3 7 を用 いて従来のオーディオ符号化装 Sの構成について説明する。 図 3 7 にお いて、 1 6 0 1 は入力信号を周波数変換する F F T部、 1 6 0 2は周波 数変換された入力信号の う ちの特定の帯域を符号化する適応ビッ ト割り 当て算出部、 1 6 0 3 は入力信号を複数の裕域に分割するサブパン ド帯 域分割部、 1 6 0 4 は複数に分割された帯域成分を正規化するスケール ファ クター正規化部、 1 6 0 5 はスカラー量子化部である。
次に動作について説明する。 入力信号は、 F F T部 1 6 0 1 と、 サブ バン ド帯域分割部 1 6 0 3 に入力される。 F F T部 1 6 0 1 では、 入力 信号を周波数変換して、 適応ビッ ト割り 当て部 1 6 0 2へ入力される。 適応ビッ ト割 り 当て部 1 6 0 2 では、 人間の聴覚特性に基づいて定義さ れた最小可聴限と、 マスキング特性をも とにある帯域成分に対してどれ く らいの情報量を与えるべきかを算出し、 その帯域ごとの情報量配分を イ ンデックスに符号化する。
—方、 サブバン ド帯域分割部 1 6 0 3 では、 入力信号を、 例えば、 3
2 の帯域に分割し出力する。 そ してスケールファ ク ター正規化部 1 6 0 4 では、 前記サブバン ド帯域分割部 1 6 0 3 で分割されたおのおのの裕 域成分に対して、 ある代表値をもって正規化を行う。 正規化の値はイ ン デックスと して量子化される。 スカラー量子化部 1 6 0 5では、 前記適 応ビッ ト害' jり 当て算出部 1 6 0 2で算出されたビッ ト配分をも とに、 ス ケールファ ク ター正規化部 1 6 0 4の出力をスカ ラー量子化し、 その量 子化値をイ ンデックス と して符号化する。
また、 音響信号を効率的に符号化する様々な手法が提案されている。 音楽信号など 2 0 k H z ほどの帯域を有する信号は、 特に近年、 M P E Gオーディオ方式などを用いて符号化されるこ とがあげられる。 M P E G方式に代表される方式は、 時間軸のディ ジタルオーディオ信号を直交 変換を用いて周波数軸に変換し、 その周波数軸上の情報を、 人間の聴党 的な感度特性を考慮して、 聴覚的に重要な情報から優先的に情報量を与 えていく方式である。 原ディ ジタル信号の情報量に対して、 かな り少な い情報量で信号を表現 しょ う と する場合、 T C W V Q ( Transform Coding for Weighted Vector Quantization ) などのべク トノレ量子 {ヒの 手法を用いた符号化方式がある。 M P E Gオーディオ、 および T CWV Qはそれぞれ ISO/IEC 標準 IS-11172-3および T.Moriya,H.Suga:"An 8 Kbits transform coder for noisy channels, "Proc. I C ASS P'89,pp 196 - 199 などに述べられている。
従来のオーディオ信号符号化装置は以上のよ う に構成されており 、 M P E Gオーディオ方式は、 1 つのチャンネルあた り 、 6 4 0 0 0 ビッ ト /秒以上の情報量で符号化されて、 使用される方法が一般で、 それ以下 の情報量では、 再生可能な周波数帯域幅ゃ復号されたオーディオ信号の 主観的な品質が著しく劣化する場合がある。図 3 7 に示した例のよ う に、 符号化された情報が、 大別して、 ビッ ト配分, 帯域代表値, 量子化値の 3つからなり 、 高い圧縮率の場合、 量子化値に十分に配分されないため である。 また、 従来のオーディオ倌号の符号化装置においては、 符号化 する情報量と復号化する情報量とを同じにして、 符号化装置および復号 化装置を構成する方法が一般である。 たと えば、 1 秒間に 1 2 8 0 0 0 ビッ 卜の情報量に符号化する方法では、 その復号化装置では 1 2 8 0 0 0 ビッ トの情報量を復号化するよ う に構成されている。
しかしながら、 以上のよ う なこ とから従来のオーディオ信号符号化装 置及び復号化装置では、 良好な音質を得るためには固定された情報量で 符号化及び復号化を行わなければならず、 高い圧縮率にて高品質な音質 を得るこ とはできなかった。
この発明は以上のよ う な問題点を解消するためになされたもので、 低 い情報量で符号化、 及び復号化しても、 高い品質と広い再生周波数带域 が得られ、 また符号化及び復号化時の情報量を固定の値ではなく これを 可変とするこ とのできるオーディオ信号符号化装置および復号化装置, さ らにオーディオ信号符号化 *復号化方法を提供するこ と を目的とする。 また、 従来のオーディオ信号符号化装置では、 コー ドブッ ク が持つ各 コ ー ドとオーディオ特徴べク トルと の聴党的な距離が最小となるコ ー ド に対応したコー ドイ ンデックスを出力するこ と によ り 量子化を行う よ う にしているが、 コー ドブックが有するコー ドが多い場合、 最適なコー ド を検索する際に計算量が非常に多く なり 、 また、 コー ドブッ ク のもつデ —タ量が多い場合は、 ハー ドウエアで構成する際に多く の量のメモ リ が 必要とな り不経済である という 問題点があった。 また、 受信側において も、 コー ドイ ンデックスに対応するだけの検索、 及びメ モ リ 量を必要と する という 問題点があった。
この発明は上記のよ う な問題点に鑑みてなされたもので、 コ ー ド検索 数を削減し、 コ 一 ド数の少ないコ ー ドブックで効率的にオーディオ信号 を量子化する こ と のできるオーディオ信号符号化装置、 及び復号化する こ とのできるオーディオ信号復号化装置を提供するこ と を目的とする。 発明の開示
この発明 (請求項 1 ) にかかるオーディオ信号符号化方法は、 入カオ —ディォ信号を周波数変換して得られた周波数特性信号系列をベク トル 量子化する初段のべク トル *子化処理と, 前段のべク トル量子化器での 量子化誤差成分をべク トル量子化する 2段目以降のべク トル量子化処理 と, を有する多段量子化手法を用いてべク トル量子化し、 情報量の符号 化をするオーディオ信号符号化方法であって、 上記多段惫子化手法によ る複数段の量子化処理のう ちの少なく と も 1 つのべク トル量子化処理で は、 入力オーディオ信号のスぺク トルと人間の聴党的な性質である聴覚 感度特性とに基づいて算出された周波数上の重み付け係数を量子化の重 み付け係数と して用いて、 べク トル量子化を行な う ものである。 また、 この発明 (請求項 2 ) にかかるオーディオ信号符号化方法は、 入力オーディオ信号を周波数変換して得られた周波数特性信号系列をべ ク トル量子化する第 1 のべク ト ル量子化処理と, 第 1 のべク トル量子化 処理での量子化誤差成分をべク トル量子化する第 2のべク トル量子化処 理と, を有する多段量子化手法を用いてベク トル量子化し、 情報量の符 号化をするオーディォ信号符号化方法であって、 入力オーディオ信号の スぺク トルと人間の聴党的な性質である聴覚感度特性とに基づいて、 上 記第 1 のべク トル量子化処理での量子化誤差成分の周波数プロ ックのう ち量子化する重要度の高い周波数ブロ ック を選択し、 上記第 2のべク 卜 ル量子化処理で、 上記選択された周波数ブロ ックについて上記第 1 の量 子化処理の量子化誤差成分の量子化を行なう ものである。
またこの発明 (請求項 3 ) にかかるオーディオ信号符号化方法は、 入 力オーディオ信号を周波数変換して得られた周波数特性信号系列をべク トル量子化する初段のべク トル量子化処理と, 前段のべク トル量子化処 理での量子化誤差成分をべク ト ル量子化する 2段目以降のべク トル量子 化処理と, を有する多段量子化手法を用いてべク トル量子化し、 情報量 の符号化をするオーディオ信号符号化方法であって、 上記多段量子化手 法による複数段の量子化処理の う ちの少なく と も 1 つのべク トル量子化 処理では、 入力オーディオ信号のスぺク トルと人間の聴党的な性質であ る聴覚感度特性とに基づいて算出された周波数上の重み付け係数を量子 化の重み付け係数と して用いてベク トル量子化を行ない、 かつ、 入カオ 一ディォ信号のスペク トルと人間の聴觉的な性質である聴莧感度特性と に基づいて、 上記初段のべク トル量子化処理での量子化誤差成分の周波 数ブロ ックの う ち量子化する重要度の高い周波数ブロ ッ クを選択し、 上 記 2段目のべク ト ル量子化処理で、 上記選択された周波数ブロ ックにつ いて上記初段の量子化処理の量子化誤差成分の量子化を行なう ものであ る。 また、 この発明 (請求項 4 ) にかかるオーディオ信号符号化装置は、 入力されたオーディオ信号を周波数領域信号に変換する時間周波数変換 部と、 上記入力されたオーディ オ信号のスぺク トル包絡を算出するスぺ ク トル包絡算出部と、 上記時間周波数変換部で得られた周波数領域信号 を上記スぺク トル包絡算出部で得られたスぺク トル包絡で正規化し残差 信号を得る正規化部と、 上記残差信号をパワーによ り正規化するパワー 正規化部と、 上記入力されたオーディオ信号のスぺク トルと人間の聴覚 的な性質である聴党感度特性と に基づき周波数上の重み付け係数を算出 する聴覚重み付け計算部と、 上記パワー正規化部によ り正規化された上 記残差信号が入力される、 縦列に接続された複数段のベク トル量子化部 を有し、 その う ちの少なく と も 1 つのべク トル量子化部が上記重み付け 部で得られた重み付け係数を用いて量子化を行な う 多段量子化部とを備 えたものである。
また、 この発明 (請求項 5 ) にかかるオーディ オ信号符号化装置は、 上記請求項 4記載のオーディ オ信号符号化装置において、 上記多段量子 化部の上記複数段の う ちの複数の量子化部が上記重み付け部で得られた 重み付け係数を用いて量子化を行な う ものであ り 、 かつ、 上記聴覚重み 付け計算部は、 上記複数の量子化部のそれぞれが用いる個別の重み付け 係数を算出するものである。
また、 この発明 (請求項 6 ) にかかるオーディオ信号符号化装 Sは、 上記請求項 5記載のオーディオ信号符号化装置において、 上記多段量子 化部は、 上記スぺク トル包絡算出部で得られたスぺク トル包絡を各周波 数領域での重み付け係数と して上記パワー正規化部で正規化された上記 残差信号の量子化を行な う第 1段の量子化部と、 上記スぺク トル包絡と 上記第 1 段の量子化部の量子化誤差信号との相関に基づいて算出された 重み付け係数を各周波数領域での重み付け係数と して上記第 1段の量子 化部の量子化誤差信号の量子化を行な う第 2段の量子化部と、 上記聴党 重み付け計算部において、 時間周波数変換部で周波数領域信号に変換さ れた入力信号と聴党特性とによ り 算出された重み付けを、 上記スぺク ト ル包絡, 上記第 2段の量子化部の量子化誤差信号, および上記パワー正 規化部で正規化された上記残差信号に基づいて調整して求めた重み付け 係数を、 各周波数領域での重み付け係数と して上記第 2段の量子化部の 量子化誤差信号の量子化を行な う第 3段の量子化部とを備えたものであ る。
また、 この発明 (請求項 7 ) にかかるオーディオ信号符号化装置は、 入力されたオーディオ信号を周波数領域信号に変換する時間周波数変換 部と、 上記入力されたオーディオ信号のスぺク トル包絡を算出するスぺ ク トル包絡算出部と、 上記時間周波数変換部で得られた周波数領域信号 を上記スぺク トル包絡算出部で得られたスぺク トル包絡で正規化し残差 信号を得る正規化部と、 上記残差信号をパワーによ り正規化するパワー 正規化部と、 該パヮ一正規化部で正規化された残差信号の量子化を行な う第 1 のべク トル量子化器と、 入力オーディオ信号のスぺク トルと人間 の聴觉的な性質である聴梵感度特性とに基づき、 上記第 1 のべク トル量 子化器での量子化誤差成分の周波数プロ ックの う ち量子化する重要度の 高い周波数プロ ックを選択する聴党的選択手段と、 該聴覚的選択手段で 選択された周波数プロ ックについて上記第 1 のべク トル量子化器の量子 化誤差成分の量子化を行なう第 2の量子化器と を備えたものである。 また、 この発明 (請求項 8 ) にかかるオーディオ信号符号化装 gは、 上記請求項 7記載のオーディオ信号符号化装置において、 上記聴覚的選 択手段を、 上記第 1 のべク トル量子化器の量子化誤差成分, 上記スぺク トル包絡算出部で得られたスぺク トル包絡信号, 及び最小可聴限特性の 逆特性を乗算した値を、 量子化すべき重要度の尺度と して用いて、 周波 数ブロ ック を選択する ものと したものである。
また、 この発明 (請求項 9 ) にかかるオーディオ信号符号化装置は、 上記請求項 7記載のオーディオ信号符号化装置において、 上記聴覚的選 択手段を、 上記スぺク トル包絡算出部で得られたスぺク トル包絡信号, 及び最小可聴限特性の逆特性を乗算した値を、 量子化すべき重要度の尺 度と して用いて、 周波数プロ ックを選択するものと したものである。 また、 この発明 (請求項 1 0 ) にかかるオーディオ信号符号化装置は、 上記請求項 7記載のオーディオ信号符号化装置において、 上記聴覚的選 択手段を、 上記第 1 のベク トル;!子化器の量子化誤差成分と、 上記スぺ ク トル包絡算出部で得られたスぺク トル包絡信号と、 最小可聴限特性と 入力信号から計算されたマスキング特性とを加算した特性の逆特性と を 乗箕した値を、 量子化すべき重要度の尺度と して用いて、 周波数ブロ ッ クを選択するものと したものである。
また、 この発明 (請求項 1 1 ) にかかるオーディ オ信号符号化装置は、 上記請求項 7記載のオーディ オ信号符号化装置において、 上記聴覚的選 択手段を、 上記第 1 のべク トル量子化器の量子化誤差成分と、 上記スぺ ク トル包絡算出部で得られたスぺク トル包絡信号と、最小可聴限特性と, 入力信号から計算されたマスキング特性に上記パワー正規化部で正規化 された残差信号, 上記スぺク トル包絡算出部で得られたスぺク トル包絡 信号, 及び上記第 1 段の量子化部の量子化誤差信号に基づいて補正をか けた特性と, を加算した特性の逆特性と を乗算した値を、 量子化すべき 重要度の尺度と して用いて、 周波数ブロ ックを選択する ものと したもの である。
また、 この発明 (請求項 1 2 ) にかかるオーディオ信号符号化装置は、 入力オーディオ信号を周波数変換して得られた周波数特性信号系列をべ ク トル量子化する第 1 のべク トル量子化器と, 第 1 のべク トル量子化器 での量子化誤差成分をべク トル量子化する第 2 のべク トル量子化器と, を有する多段量子化手段を用いてべク トル量子化し、 情報量の符号化を するオーディオ信号符号化装置であって、 上記多段量子化手段は、 上記 周波数特性信号系列に対して、 少なく と も 2つ以上の周波数带域に分割 した帯域に相当する係数列に分けたものとする と と もに、 上記べク トル 量子化器をそれぞれの係数列に対応して準備された複数の分割化べク ト ル量子化器によって独立に量子化するものである。
また、 この発明 (請求項 1 3 ) にかかるオーディオ信号符号化装置は、 上記請求項 1 2記載のオーディオ信号符号化装置において、 上記周波数 特性信号系列を正規化する正規化手段を備えたものである。
また、 この発明 (請求項 1 4 ) にかかるオーディオ信号符号化装置は、 上記請求項 1 2記载のオーディ オ信号符号化装置において、 上記量子化 手段を、 量子化する周波数特性信号系列の周波数帯域を、 量子化誤差の エネルギー加算和の大きい帯域を適宜選択して量子化するよ う にしたも のである。
また、 この発明 (請求項 1 5 ) にかかるオーディオ信号符号化装置は、 上記請求項 1 2記載のオーディ オ信号符号化装置において、 上記量子化 手段を、 量子化する周波数特性信号系列の周波数帯域を、 人間の聴党的 な性質である聴 ¾感度特性に基づいて、 その重要度の高い帯域に大きな 値を重み付けた量子化誤差エネルギー加算和の大きな帯域を適宜選択し て量子化を行う ものと したものである。
また、 この発明 (請求項 1 6 ) にかかるオーディオ信号符号化装置は、 上記請求項 1 2記載のオーディオ信号符号化装 Sにおいて、 上記量子化 手段を、 量子化する周波数特性信号系列の周波数帯域を、 少なく と も 1 度はすべて量子化する全带域量子化部となるベク トル量子化器を有する もの と したものである。
また、 この発明 (請求項 1 7 ) にかかるオーディ オ信号符号化装 gは、 上記請求項 1 2記載のオーディオ信号符号化装置において、 上記量子化 手段を、 前段のベタ トル量子化器がコー ドブック を用いるべク トル量子 化手法を用いてべク トル量子化における量子化誤差を算出し、 該算出 し た量子化誤差に対して後段の量子化部がさ らにべク トル量子化を行う よ う構成したものである。
また、 この発明 (請求項 1 8 ) にかかるオーディオ信号符号化装置は、 上記請求項 1 7記載のオーディオ信号符号化装 Sにおいて、 上記べク ト ル量子化手法と して、 べク トルの符号が全ても しく はその一部が反転し たコ一 ドべク トルをコー ド検索時に用いる よ う にしたものである。
また、 この発明 (請求項 1 9 ) にかかるオーディオ信号符号化装置は、 上記請求項 1 7記載のォ一ディ ォ信号符号化装置において、 周波数特性 信号系列を正規化する正規化手段を備え、 べク トル量子化における最適 なコー ドを検索する際に用いる距離の計算に、 上記正規化手段によ り処 理された入力信号の正規化成分を重みと して距離を計算して最小距雕を 与えるコー ドを抽出する ものと したものである。
また、 この発明 (請求項 2 0 ) にかかるオーディオ信号符号化装置は 上記請求項 1 9記載のオーディオ信号符号化装置において、 上記正規化 手段によ り処理された周波数特性信号系列の正規化成分と、 人間の聴覚 的な性質である聴 ¾感度特性を考慮した値の両者を重みと して距離を算 出して、 最小距離を与えるコー ドを抽出するものと したものである。 また、 この発明 (請求項 2 1 ) にかかるオーディオ信号符号化装置は、 上記請求項 1 3記載のオーディ オ信号符号化装置において、 上記正規化 手段を、 周波数特性信号系列の概形を大まかに正規化する周波数概形正 規化部を備えたものと したものである。
また、 この発明 (請求項 2 2 ) にかかるオーディ オ信号符号化装置は 上記請求項 1 3記載のオーディオ信号符号化装置において、 上記正規化 手段を、 周波数特性信号系列を複数の連続した単位带域の成分に分け、 それぞれの単位帯域を 1 つの値で除算する こ とによ り正規化する帯域振 幅規化部を備えたものと したものである。
また、 この発明 (請求項 2 3 ) にかかるオーディ オ信号符号化装置は、 上記請求項 1 2記載のオーディオ信号符号化装置において、 上記量子化 手段を、 周波数特性信号系列をそれぞれの係数列を分割化べク トル量子 化器によって独立に量子化するべク トル量子化器を有する と と もに、 量 子化する入力信号の周波数帯域を、 少なく と も 1 度はすべて量子化する 全帯域量子化部となるべク トル量子化器とを備えたものと したものであ る。
また、 この発明 (請求項 2 4 ) にかかるオーディオ信号符号化装置は、 上記請求項 2 3記載のオーディオ信号符号化装置において、 上記量子化 手段を、 低域の分割化べク トル量子化器と、 中域の分割化べク トル量子 化器と、 高域の分割化べク トル量子化器とからなる第 1 のべク トル!:子 化器と、 これの後段に接続される第 2の量子化器と、 該第 2のべク トル 量子化器の後段に接続される第 3 のべク トル量子化器と を備え、 該量子 化手段に入力された周波数特性信号系列を 3つの帯域に分割し、 該 3つ の带域の う ちの低い蒂域成分の周波数特性信号系列を上記低域の分割化 ベク トル量子化器で量子化し、 3つの帯域の う ちの中間の帯域成分の周 波数特性信号系列を上記中域の分割化べク トル量子化器で量子化し、 3 つの帯域のう ちの高い帯域成分の周波数特性信号系列を上記高域の分割 化べク トル S子化器でそれぞれ独立に量子化を行い、 上記第 1 のべク ト ル量子化器を構成するそれぞれの分割化ベク トル量子化器で周波数特性 信号系列に対する量子化誤差を算出して、 これを後段の上記第 2のべク トル量子化器への入力と し、 上記第 2のベク トル量子化器では、 該第 2 のべク トル量子化器の量子化する帯域幅分の量子化を行い、 該第 2 のべ ク トル量子化器への入力に対する童子化誤差を算出してこれを上記第 3 のべク トル ft子化器への入力と し、 上記第 3のべク トル量子化器では、 該第 3のべク トル量子化器の量子化する帯域幅の量子化を行う よ う に し たものである。
また、 この発明 (請求項 2 5 ) にかかるオーディオ信号符号化装置は、 上記請求項 2 4記載のオーディオ信号符号化装置において、 上記量子化 手段を構成する第 1 のべク トル量子化器と第 2のべク トル量子化器との 間に第 1 の量子化帯域選択部を設ける と と もに、 上記第 2 のべク トル量 子化器と上記第 3のベク トル量子化器との間に第 2の量子化帯域選択部 を設け、 上記第 1 のべク トル量子化器の出力を上記第 1 の量子化帯域選 択部への入力と し、 該第 1 の量子化帯域選択部で上記第 2 のべク トル量 子化器が量子化すべき帯域を選択し、上記第 2 のベク トル量子化器では、 上記第 1 の量子化帯域選択部が決定した上記第 1 の 3 つのべク トル量子 化器の量子化誤差に対して、 上記第 2のべク トル量子化器の量子化する 帯域幅分の!:子化を行い、 上記第 2のべク トル量子化器への入力に対す る量子化誤差を算出してこれを上記第 2 の量子化帯域選択部への入力と し、 上記第 2の量子化帯域選択部では、 上記第 3 のべク トル量子化器が 量子化すべき帯域を選択し、 上記第 3 のべク トル量子化器では、 上記第 2 の量子化带域選択部が決定した帯域に対して量子化を行う よ う にした ものである。
また、 この発明 (請求項 2 6 ) にかかるオーディオ信号符号化装置は、 上記請求項 2 4記載のオーディオ信号符号化装置において、 上記第 1 の べク トル量子化器に代えて、 上記低域の分割化べク トル量子化器と、 中 域の分割化べク トル量子化器と、 高域の分割化べク トル量子化器を用い て上記第 2 のべク トル量子化器、 または第 3 のべク トル量子化器を構成 するよ う にしたものである。
また、 この発明 (請求項 2 7 ) にかかるオーディオ信号復号化装置は、 上記請求項 1 2記載のオーディ オ信号符号化装置からの出力である符号 をその入力と して、 これを復号化して元の入力オーディオ信号に相当す る信号を出力するオーディオ信号復号化装 Sであって、 上記オーディオ 信号符号化装 Sの量子化手段が出力 した符号の少な く と も一部を用いて 逆量子化を行う逆量子化部と、 該逆量子化部の出力である周波数特性信 /00837
13
号系列を用いて、 周波数特性信号系列を元のオーディオ入力信号に相当 する信号に変換する逆周波数変換部と を備えたものである。
また、 この発明 (請求項 2 8 ) にかかるオーディオ信号復号化装置は、 上記請求項 1 3記載のオーディオ信号符号化装置からの出力である符号 をその入力と して、 これを復号化して元の入力オーディオ信号に相当す る信号を出力するオーディオ信号復号化装置であって、 周波数特性信号 系列を再生する逆量子化部と、 該逆量子化部の出力である周波数特性信 号系列を用いて、 上記オーディオ信号符号化装置の出力である符号をも とに正規化成分を再生し、 上記周波数特性信号系列と正規化成分と を乗 算して出力する逆正規化部と、 該逆正規化部の出力を受けて、 周波数特 性信号系列を元のオーディオ信号に相当する信号に変換する逆周波数変 換部と を備えたものである。
また、 この発明 (請求項 2 9 ) にかかるオーディオ信号復号化装置は、 上記請求項 2 3記載のオーディオ信号符号化装 Sからの出力である符号 をその入力と して、 これを復号化して元のオーディオ信号に相当する信 号を出力するオーディオ信号復号化装置であって、 上記オーディ オ信号 符号化装置における量子化手段を構成するベク トル量子化器のすべて、 も しく は一部が符号を出力 した場合であっても、 出力された符号を用い て逆量子化を行う逆量子化部を備えたものである。
また、 この発明 (請求項 3 0 ) にかかるオーディオ信号復号化装 Sは、 上記請求項 2 9記載のオーディオ信号復号化装置において、 上記逆量子 化部を、 所定の寄域の量子化符号の逆量子化に対して、 次段の量子化符 号の逆量子化と上記所定の带域とは異なる帯域の量子化符号の逆量子化 と を交互に実行する ものであ り 、 上記逆量子化時に次段の量子化符号が 存在しない場合には、 上記異なる帯域の量子化符号の逆量子化を続けて 実行し、 上記異なる帯域の量子化符号が存在しない場合には上記次段の 量子化符号の逆量子化を続けて実行するものと したものである。 また、 この発明 (請求項 3 1 ) にかかるオーディ オ信号復号化装置は、 上記請求項 2 4記載のオーディ オ信号符号化装置からの出力である符号 をその入力と して、 これを復号化して元のオーディオ信号に相当する信 号を出力するオーディオ信号復号化装置であって、 上記オーディオ信号 符号化装置における第 1 のべク トル量子化器を構成する 3つの分割化べ ク トル量子化器からすべて、 も しく は一部が符号を出力 した場合であつ ても、 上記第 1 のべク トル量子化器を構成する低域の分割化べク トル量 子化器からの符号のみを用いて逆量子化を行う逆量子化部を備えたもの である。
また、 この発明 (請求項 3 2 ) にかかるオーディ オ信号復号化装 Sは、 上記請求項 3 1記載のオーディオ信号復号化装置において、 上記逆量子 化部が、 上記第 1 のべク トル量子化器を構成する低域の分割化べク トル 量子化器からの符号に加えて、 上記第 2 のべク 卜ル量子化器からの符号 を用いて逆量子化を行う よ う に したものである。
また、 この発明 (請求項 3 3 ) にかかるオーディ オ信号復号化装匱は、 上記請求項 3 2記載のオーディ オ信号復号化装置において、 上記逆量子 化部が、 上記第 1 のべク トル量子化部を構成する低域の分割化べク トル 量子化器からの符号と、 上記第 2 のべク トル量子化器からの符号に加え て、 上記第 1 のべク トル量子化器を構成する中域の分割化べク トル量子 化器からの符号を用いて逆量子化を行う よ う にしたものである。
また、 この発明 (請求項 3 4 ) にかかるオーディオ信号復号化装置は、 上記請求項 3 3記載のオーディオ信号復号化装置において、 上記逆量子 化部が、 上記第 1 のべク トル量子化器を構成する低域の分割化べク トル 量子化器からの符号と、 上記第 2のべク トル量子化器からの符号と、 上 記第 1 のべク トル量子化器を構成する中域の分割化べク トル量子化器か らの符号と に加えて、 上記第 3 のべク トル量子化器からの符号を用いて 逆量子化を行う よ う にしたものである。 O 98/ 37 P
15
また、 この発明 (請求項 3 5 ) にかかるオーディオ信号復号化装置は、 上記請求項 3 4記載のオーディオ信号復号化装置において、 上記逆量子 化部が、 上記第 1 のべク トル量子化器を構成する低域の分割化べク トル 量子化器からの符号と、 上記第 2のベク トル量子化器からの符号と、 上 記第 1 のべク トル量子化器を構成する中域の分割化べク トル量子化器か らの符号と、 上記第 3のべク トル量子化器からの符号に加えて、 上記第 1 のべク トル量子化器を構成する高域の分割化べク トル量子化器からの 符号と を用いて逆量子化を行う よ う にしたものである。
また、 この発明 (請求項 3 9 ) にかかるオーディオ信号符号化装 fiは、 入力オーディ オ信号を周波数変換して得られた周波数特性信号系列を入 力信号と し、 該周波数特性信号系列のう ちの所定の周波数帯域に属する ものの位相情報を抽出する位相情報抽出部と、 上記周波数特性信号系列 の代表値であるオーディオコー ドを、 上記抽出した位相情報に対応する 要素部分を絶対値化した状態のものと して複数個これを格納するコ一 ド ブック と、 上記周波数特性信号系列と上記コー ドブック 中の各オーディ ォコー ドとの聴覚的な距離を算出して、 その最小距離を有するオーディ ォコー ドを選出する と と もに、 該最小距離を有するオーディオコ一 ドに 対する位相情報を上記位相情報抽出部からの出力を補助情報と して用い て付加し、 該最小距離を有するオーディオコ一 ドに対応するコ一 ドイ ン デックスをその出力信号と して出力するオーディオコ一 ド選択部と を備 えたものである。
またこの発明 (請求項 4 0 ) にかかるオーディオ信号符号化装置は上 記請求項 3 9記載のオーディオ信号符号化装置において、 上記位相情報 抽出部を、 入力された周波数特性信号系列の う ちの低周波帯域側のもか ら所定個数の要素の位相情報を抽出するものと したものである。
また、 この発明 (請求項 4 1 ) によるオーディオ信号符号化装置は上 記請求項 3 9記載のオーディオ信号符号化装置において、 人間の聴莧心 理特性を考慮した各周波数における相対的な聴覚心理量のテーブルであ る聴覚心理重みべク トルテーブルを備え、 上記位相情報抽出部は、 入力 された周波数特性信号系列の う ち、 上記聴覚心理重みべク トルテーブル に格納されたベク トルと一致する要素の位相情報を抽出するよ う にした ものである。
また、 この発明 (請求項 4 2 ) にかかるオーディオ信号符号化装置は、 上記請求項 3 9記載のオーディオ信号符号化装置において、 上記周波数 特性信号系列を平滑べク トルを用いてべク トル要素同士の除算によ り 平 滑化する平滑化部を備え、 上記オーディ オコー ド選択部は、 上記最小距 離を有するオーディオコー ドを選出し、 該選出されたオーディオコー ド に位相情報を付加する前に、 上記平滑化部から出力される平滑化処理情 報を用いて、 上記選出されたオーディオコー ドを、 平滑化処理のなされ ていないオーディオコー ドに変換し、 該オーディオコー ドに対応するコ ― ドインデックスをその出力信号と して出力するよ う にしたものである, また、 この発明 (請求項 4 3 ) にかかるオーディオ信号符号化装 Sは、 上記請求項 3 9記載のオーディオ信号符号化装置において、 人間の聴覚 心理特性を考慮した各周波数における相対的な聴宽心理量のテーブルで ある聴覚心理重みべク トルテーブルと 、 上記周波数特性信号系列を平滑 べク トルを用いて、 べク トル要素同士の除算によ り平滑化する平滑化部 と、 上記聴党心理重みべク トルテ一ブルの値と上記平滑べク トルテープ ルの値と を乗じて得られる値を聴覚的重要度の高い順に複数個選出して これを上記オーディオコ 一 ド選択部に出力する ソ一 ト部と を備えたもの である。
また、 この発明 (請求項 4 4 ) にかかるオーディオ信号符号化装置は 上記請求項 4 0記載のオーディオ信号符号化装置において、 上記周波数 特性信号系列と して、 上記オーディ オ信号を周波数変換した係数を要素 とするべク トルを用いるよ う にしたものである。 また、 この発明 (請求項 4 5 ) にかかるオーディ オ信号符号化装置は上 記請求項 4 1記載のオーディオ信号符号化装置において、 上記周波数特 性信号系列と して、 上記オーディオ信号を周波数変換した係数を要素と するべク ト ノレを用レ、るよ うにしたものである。
また、 この発明 (請求項 4 6 ) にかかるオーディ オ信号符号化装置は上 記請求項 4 2記載のオーディオ信号符号化装置において、 上記周波数特 性信号系列と して、 上記オーディオ信号を周波数変換した係数を要素と するべク トルを用いるよ う にしたものである。
また、 この発明 (請求項 4 7 ) にかかるオーディ ォ信号符号化装 は、 上記請求項 4 0記載のオーディオ信号符号化装置において、 上記周波数 特性信号系列と して、 上記オーディオ信号を M D C T変換 (変形離散コ サイ ン変換) した係数を要素とするべク トルを用いるよ う にしたもので ある。
また、 この発明 (請求項 4 8 ) にかかるオーディオ信号符号化装 aは、 上記請求項 4 1記載のオーディオ信号符号化装置において、 上記周波数 特性信号系列と して、 上記オーディ オ信号を M D C T変換 (変形離散コ サイ ン変換) した係数を要素とするベタ トルを用いるよ う にしたもので ある。
また、 この発明 (請求項 4 9 ) にかかるオーディオ信号符号化装置は、 上記請求項 4 2記載のオーディオ信号符号化装置において、 上記周波数 特性信号系列と して、 上記オーディオ信号を M D C T変換 (変形離散コ サイ ン変換) した係数を要素とするべク トルを用いるよ う にしたもので ある。
また、 この発明 (請求項 5 0 ) にかかるオーディオ信号符号化装置は、 上記請求項 4 2記載のオーディオ信号符号化装置において、 上記平滑べ ク トルと して、 オーディオ信号を線形予測して線形予測係数を算出し、 該算出された前記線形予測係数から各周波数における相対的な周波数応 答を算出 し、 該各周波数における相対的な周波数応答を要素とするべク トルを用いるよ う にしたものである。
また、 この発明 (請求項 5 1 ) にかかるオーディオ信号符号化装 は、 上記請求項 4 3記載のオーディオ信号符号化装置において、 上記平滑べ ク トルと して、 オーディオ信号を線形予測して線形予測係数を算出し、 該算出された前記線形予測係数から各周波数における相対的な周波数応 答を算出 し、 該各周波数における相対的な周波数応答を要素とするべク トルを用いるよ う にしたものである。
また、 この発明 (請求項 5 2 ) にかかるオーディオ信号復号化装 aは、 オーディオ信号の特徴量である周波数特性信号系列を量子化して得られ たコ一 ドイ ンデッ ク スを入力信号と し、 該コー ドイ ンデック スの う ちの 所定の周波数帯域に相当する要素の位相情報を抽出する位相情報抽出部 と、 上記コー ドイ ンデッ クスに対応する周波数特性信号系列を、 上記抽 出 した位相情報に対応する要素部分を絶対値化した状態のものと して複 数個これを格納する コー ドブック と、 上記コー ドイ ンデックス と上記コ ― ドブック中の周波数特性信号系列との聴党的な距離を算出して、 その 最小距離を有する周波数特性信号系列を選出する と と もに、 該最小距離 を有する周波数特性信号系列に対する位相情報を上記位相情報抽出部か らの出力を補助情報と して用いて付加し、 上記入力信号であるコ一 ドィ ンデッタ スに対応する周波数特性信号系列をその出力信号と して出力す るオーディオコ ー ド選択部とを備えたものである。 図面の簡単な説明
第 1 図は本発明の実施形態 1 によ るオーディ ォ信号符号化装置及び 復号化装置の全体の構成を示す図である。
第 2図は上記オーディ オ信号符号化装置を構成する正規化部の一例を 示す構成図である。 第 3図は上記オーディオ信号符号化装置を構成する周波数概形正規化 部の一例を示す構成図である。
第 4図は符号化装置における量子化部の詳細な構成を示す Eである。 第 5図は本発明の実施の形態 2によるオーディオ信号符号化装置の構 成を示すブロ ック図である。
第 6図は本発明の実施の形態 3 によるオーディオ信号符号化装置の構 成を示すブロ ック図である。
第 7図は第 6 図に示すオーディオ信号符号化装置の各段の量子化部, 及び聴覚的選択部の詳細な構成を示すブロ ック図である。
第 8 図はべク トル量子化器での量子化の動作を説明するための図で ある。
第 9 図は誤差信号 zi、スベタ トル包絡 11、及び最小可聴限特性 hi を示 す図である
第 1 0 図は、 第 6図に示すオーディオ信号符号化装置の各量子化部, 及び聴覚的選択部の他の例の詳細な構成を示すブロ ック図である。
第 1 1 図は第 6 図に示すオーディオ信号符号化装置の各量子化部, 及 び聴覚的選択部のさ らに他の例の詳細な構成を示すプロ ック図である。
第 12 図は第 6 図に示すオーディオ信号符号化装置の各量子化部, 及 び聴党的選択部のさ らに他の例の詳細な構成を示すプロ ック図である。
第 13 図は重要度が最も高い周波数ブロ ック (長さ W ) を選択する一 例を示す図である。
第 14 図は本発明の実施の形態 4 によるオーディオ信号符号化装 Sの 構成を示すプロ ック図である。
第 15 図は本発明の実施の形態 5 によるオーディオ信号符号化装 aの 構成を示すブロ ック図である。
第 16 図は本発明の実施の形態 6 によるオーディ オ信号符号化装置の 構成を示すプロ ック図である。 第 17 図は本発明の実施の形態 7によるオーディオ信号符号化装置の 構成を示すプロ ック図である。
第 18 図は本発明の実施の形態 8 によるオーディオ信号符号化装 Sの 構成を示すブロ ック図である。
第 19 図は上記実施の形態 1 ないし 8 の上記符号化装置 1 における各 量子化部の量子化方法の詳細な動作について説明するための図である。 第 20 図は本発明の実施の形態 9によるオーディ オ信号復号化装置に ついて説明するための図である。
第 2 1 図は本発明の実施の形態 9によるオーディ オ信号復号化装置に ついて説明するための図である。
第 22 図は本発明の実施の形態 9によるオーディオ信号復号化装置に ついて説明するための図である。
第 23 図は本発明の実施の形態 9によるオーディオ信号復号化装置に ついて説明するための図である。
第 24 図は本発明の実施の形態 9 によるオーディ オ信号復号化装 gに ついて説明するための図である。
第 25 図は本発明の実施の形態 9 によるオーディ オ信号復号化装置に ついて説明するための図である。
第 26 図はオーディ オ信号復号化装置を構成する逆量子化部の詳細な 動作を説明するための図である。
第 27 図はオーディオ信号復号化装置を構成する逆正規化部の詳細な 構成を説明するための図である。
第 28 図はオーディ オ信号復号化装置を構成する周波数概形逆正規化 部の詳細な構成を説明するための図である。
第 29 図は本発明の実施の形態 1 0 におけるオーディオ信号符号化装 置の構成を示す図である。
第 30 図は上記実施の形態 1 0におけるオーディ オ信号符号化装置の オーディオ特徴ベク トルの構成を説明するための図である。
第 3 1 図は上記実施の形態 1 0 におけるオーディオ信号符号化装置の 処理を説明するための図である。
第 3 2図は本発明の実施の形態 1 1 におけるオーディォ信号符号化装 置の詳細な構成を示す図、 及び聴覚心理重みべク トルテーブルの一例を 示す図である。
第 3 3 図は本発明の実施の形態 1 2 におけるオーディオ信号符号化装 置の詳細な構成を示す図、 及び平滑化部における処理を説明するための 図である。
第 3 4 図は本発明の実施の形態 1 3 におけるオーディオ信号符号化装 置の詳細な構成を示す図である。
第 3 5 図は本発明の実施の形態 1 4 におけるオーディオ信号符号化装 置の詳細な構成を示す図である。
第 3 6図は本発明の実施の形態 1 5 におけるオーディ オ信号復号化装 置の構成を示す図である。
第 3 7図は従来のオーディォ信号符号化装 fiの構成を示す図である。 発明を実施するための最良の形態
実施の形態 1 .
図 1 は本発明の実施形態 1 によるオーディ オ信号符号化装置及び復 号化装置の全体の構成を示す図である。 図 1 において、 1 は符号化装置 であ り 、 2は復号化装置である。 符号化装置 1 において、 1 0 1 は入力 信号を所定の値のフ レーム数となるよ う に分割するフ レーム分割部、 1 0 2 は時間軸上で、 入力信号と窓関数とを乗じる窓掛け部、 1 0 3 は時 間軸上の信号を周波数軸上の信号に時間周波数変換する変形雕散コサイ ン変換 (Modified discrete cosine transform ) を行う M D C T部、 1 0 4はフ レーム分割部 1 0 1 からの出力である時間軸の信号と、 M D C T 部 1 0 3 からの出力である M D C丁係数の両者を入力と して M D C T係 数を正規化する正規化部、 1 0 5 は正規化された MD C T係数を入力と して S子化を行う 量子化部である。 なお、 こ こ では、 時間周波数変換と して M D C Tを用いた場合について説明するが、 離散フー リ エ変換 ( D t F : Discrete Fourier Transiorm) ·≥:用レ、て レ、。
復号化装置 2 において、 1 0 6 は符号化装置 1 から出力された信号を 受けてこれを逆量子化する逆量子化部、 1 0 7 は逆量子化部 1 0 6 の出 力を逆正規化する逆正規化部、 1 0 8 は逆正規化部 1 0 7 の出力を変形 離散コサイ ン変換する逆 M D C T部、 1 0 9は窓掛け部、 1 1 0 はフ レ ーム重ね合わせ部である。
以上のよ う に構成されたオーディ オ信号符号化装置および復号化装 置の動作について述べる。
符号化装置 1 に入力される信号は、 時間的に連続するディ ジタル信号 系列である とする。 例えば、 サンプリ ング周波数が 4 8 kHz で、 1 6 ビ ッ ト量子化されたディ ジタル信号である とする。 こ の入力信号は、 ある 一定のサンプル数に達するまでフ レーム分割部 1 0 1 で蓄積され、 蓄積 されたサンプル数が規定のフ レーム長に達する と 出力を行う。 こ こで、 フ レーム分割部 1 0 1 のフ レーム長は、 例えば、 1 2 8, 2 5 6 , 5 1 2 , 1 0 2 4 , 2 0 4 8 , 4 0 9 6 サンプルなどである。 フ レーム分割 部 1 0 1 では、 入力信号の特徴に応じてフ レーム長を可変にして出力す るこ と も可能である。 また、 フ レーム分割部 1 0 1 は、 あるシフ ト長ご とに出力を行う構成のものであり 、 例えば、 フ レーム長を 4 0 9 6 サン プルと した場合において、 フ レーム長の半分のシフ ト長を設定すれば、 フ レーム長が 2 0 4 8サンプルに到達するに相当する時間ごとに最新の 4 0 9 6 サ ンプルを出力するなどの構成を持つ。 当然ながらフ レーム長 やサンプリ ング周波数が変わっても、 同様にシフ ト長をフ レーム長の半 分に設定した構成を持つこ とは可能である。 そしてこのフ レーム分割部 1 0 1 からの出力は、 後段の窓掛け部 1 0 2 と正規化部 1 0 4へとそれぞれ入力される。 窓掛け部 1 0 2 では、 前 記フ レーム分割部 1 0 1 からの出力信号に対して、 時間軸上で窓関数を 乗じて、 窓掛け部 1 0 2の出力とする。 こ の様子は、 例えば、 式 ( 1 ) で示される。 hxi = hi · XI i = 1,2,···,Ν
hi = sin . ( l )
、N ノ
ただし、 ここで、 xiはフ レーム分割部 1 0 1 からの出力で、 hiは窓関数 hxi は窓掛け部 1 0 2からの出力である。 また、 i は時間のサフィ ッ ク スである。 なお、 式 ( 1 ) で示した窓関数 hiは一例であ り 、 窓関数は必 ずしも式 ( 1 ) のものである必要はない。 窓関数の選択は、 窓掛け部 1 0 2 に入力される信号の特徴と、フ レーム分割部 1 0 1 のフ レーム長と、 時間的に前後に位置するフ レームにおける窓関数の形状に依存する。 例 えば、 窓掛け部 1 0 2 に入力される信号の特徴と して、 フ レーム分割部 1 0 1 のフ レーム長を Nと した場合、 N/ 4 ごと に入力される信号の平 均パワーを算出して、 その平均パワーが非常に大き く 変動する場合は、 フ レーム長を Nよ り も短く して式 ( 1 ) に示した演算を実行するなどの 選択を行う。 また、 前の時刻のフ レームの窓関数の形状と後ろのフ レー ムの窓関数の形状に応じて、 現在の時刻のフ レームの窓関数の形状に歪 みがないよ う に適宜選出するのが望ま しい。
次いで窓掛け部 1 0 2からの出力は、 MD C T部 1 0 3 に入力され、 こ こで変形雕散コサイ ン変換が施され、 MD C T係数が出力される。 変 形離散コサイ ン変換の一般式は式 ( 2 ) で表される。 1 o ,2?r (k+1/2) (Π+Π0)、
Yk hxn, cos ( 2 )
V N ノ
n0- N/4+1/2 (k-0,1,〜,N/2—1) このよ う に M D C T部 1 0 3 の出カでぁる 1^ 0 ( 丁係数は、 式 ( 2 ) の ykで表せる とする と、 M D C丁部 1 0 3 の出力は周波数特性を示し、 yk の変数 k が 0 に近いほど低い周波数、 0から N/2- 1 に近いほど高い 周波数成分に線形に対応する。 正規化部 1 0 4 では、 フ レーム分割部 1 0 1 からの出力である時間軸の信号と、 M D C T部 1 0 3 からの出力で ある M D C T係数の両者を入力と して、 幾つかのパラメ タを用いて、 M D C T係数を正規化する。 ここで MD C T係数の正規化とは、 低域成分 と高域成分で非常に大き さに違いのある M D C T係数の大き さのばらつ きを抑圧する こ と を意味し、 例えば、 低域成分が、 髙域成分に対して非 常に大きい場合などは、 低域成分では大きな値、 高域成分では小さな値 となる よ う なパラメ タを選出し、 これで除算するこ と によ り MD C T係 数の大き さのばらつきを抑圧する こ と をさす。また正規化部 1 0 4では、 正規化に用いたパラメ タを表現するイ ンデッ ク スを符号化する。
量子化部 1 0 5 では、 正規化部 1 0 4 で正規化された MD C T係数を 入力と して、 M D C T係数の量子化を行う。 そ して量子化部 1 0 5は、 量子化に用いたパラメ タを表現するイ ンデックスを符号化する。
一方、 復号化装置 2では、 符号化装置 1 の正規化部 1 0 4 からのイ ン デッ ク ス と、量子化部 1 0 5 からのイ ンデックス と を用いて復号を行う。 逆量子化部 1 0 6 では、 量子化部 1 0 5 からのイ ンデッ ク スを用いて、 正規化された M D C T係数の再生を行う。 逆量子化部 1 0 6 では、 イ ン デンクスのすべてを用いてもよい し、 その一部分を用いて M D C T係数 の再生を行ってもよい。 当然ながら、 正規化部 1 0 4からの出力と、 逆 量子化部 1 0 6の出力は、 量子化部 1 0 5による量子化時に量子化誤差 を伴うために量子化前の状態と必ずしも一致しない。
逆正規化部 1 0 7では、 符号化装置 1 の正規化部 1 0 4からのイ ンデ ッ ク スから、 符号化装置 1 で正規化に用いたパラメ タの復元を行い、 逆 量子化部 1 0 6の出力と該パラメ タ と を乗算し、 MD C T係数の復元を 行う。 逆 MD C T部 1 0 8では、 逆正規化部 1 0 7からの出力である M D C T係数から、 逆 MD C Tを行い、 周波数領域の信号から時間領域の 信号への復元を行う。 上記逆 MD C T計算は、 例えば、 式 ( 3 ) で示さ れる。
( 3 )
Figure imgf000027_0001
n0 = N/4+1/2 こ こで、 y y kは逆正規化部 1 0 7で復元された MD C T係数で、 x x ( k ) は逆 MD C T係数であ り 、 これを逆 MD C T部 1 0 8の出力とす る。
窓掛け部 1 0 9 では、 逆 MD C T部 1 0 8 力 らの出力 x x ( k ) を用 いて窓掛けを行う。 窓掛けは符号化装置 B 1 の窓掛け部 1 0 2で用いた 窓を用い、 たとえば、 式 ( 4 ) で示される処理を行う。
: (i) = xx (ί) · hi ( 4 ) こ こで、 ziは窓掛け部 1 0 9の出力である。
フ レーム重ね合わせ部 1 1 0では、 窓掛け部 1 0 9からの出力を用い て、 オーディオ信号を再生する。 窓掛け部 1 0 9からの出力は時間的に 重複した信号となっているので、 フ レーム重ね合わせ部 1 1 0では、 例 えば、 式 ( 5 ) を用いて復号化装置 B 2の出力信号とする。 out(i) = zm(i)+zm.1(i+SHIFT) (5) こ こで、 zm(i) は m 時刻フ レームの i番目の窓掛け部 1 0 9の出力信 号 Z(i)で、 zm-l(i) は m-1 時刻フ レームの i番目の窓掛け部 1 0 9の出 力信号と し、 SHIFT は符号化装置のシフ ト長に相当するサンプル数、 out(i)はフ レーム重ね合わせ部 1 1 0の m時刻フ レームにおける復号化 装置 2の出力信号とする。
次に図 2を用いて、 上記正規化部 1 0 4の詳細な一例を説明する。 図 2において、 2 0 1はフ レーム分割部 1 0 1 と MD C T部 1 0 3の出力 を受ける周波数概形正規化部、 2 0 2は上記周波数概形正規化部 2 0 1 の出力を受け、 帯域テーブル 2 0 3を参照して正規化を行う带域振幅正 規化部である。
次に動作について説明する。 周波数概形正規化部 2 0 1 では、 フ レー ム分割部 1 0 1からの時間軸上のデータ出力を用いて、 大まかな周波数 の概形である周波数概形を算出し、 MD C T部 1 0 3からの出力である MD C T係数を除算する。 周波数概形を表現するのに用いたパラメ タは イ ンデッ ク ス と して符号化される。 帯域振幅正規化部 2 0 2では、 周波 数概形正規化部 2 0 1 からの出力信号を入力と して、 帯域テーブル 2 0 3で示された帯域ごと に正規化を行う。 例えば、 周波数概形正規化部 2 0 1の出力である MD C T係数が、 dct(i)(i = 0〜 2047) と し、 帯域テ一 ブル 2 0 3が、 例えば、 表 1 に示されるよ う なものである とする と、 式 ( 6 ) などを用いて各帯域毎の振幅の平均値を算出する。 (表 1 )
Figure imgf000029_0002
Figure imgf000029_0001
( 6 )
bjlow }≤ bjhigh
Figure imgf000030_0001
ここで、 bjlow, bjhighは帯域テーブル 2 0 3 に示された j 番目の帯域に おける dct(i)が厲する最も低域のイ ンデッ ク ス i と、 最も高域のイ ンデ ック ス i をそれぞれ示している。 また、 p は距離計算におけるノルムで あ り 2 などが望ま しい。 avej は、 各帯域番号 j における振幅の平均値 である。 带域振幅正規化部 2 0 2では、 avej を量子化して、 qavej を算 出して、 例えば、 式 ( 7 ) を用いて正規化する。 n dct(i) = dct(i) / gavei bjlow≤ i≤ bjhiah ( 7 avej の量子化はスカラーの量子化を用いてもよいし、 コ一 ドブック を用 いてべク トル量子化を行っても よい。 帯域振幅正規化部 2 0 2 では、 qavej を表現するに用いたパラメ タのイ ンデックスを符号化する。
なお、 符号化装 S 1における正規化部 1 0 4 の構成は、 図 2 の周波数 概形正規化部 2 0 1 と带域振幅正規化部 2 0 2の両者を用いた構成のも のを示したが、 周波数概形正規化部 2 0 1 のみを用いた構成でもよ く 、 带域振幅正規化部 2 0 2のみを用いた構成でもよい。 さ らに、 MD C T 部 1 0 3から出力される MD C T係数の低域成分と高域成分で大きなば らつきがない場合は、 両者を用いない構成で、 MD C T部 1 0 3の出力 信号をそのまま量子化部 1 0 5 に入力する構成と してもよい。
次に図 3 を用いて、 図 2の周波数概形正規化都 2 0 1 の詳細について 説明する。 図 3において、 3 0 1はフ レーム分割部 1 0 1 の出力を受け、 線形予測分析を行う線形予測分析部、 3 0 2は線形予測分析部 3 0 1で 得られた係数を量子化する概形量子化部、 3 0 3は MD C T係数をスべ ク トル包絡によ り正規化する包絡特性正規化部である。
次に上記周波数概形正規化部 2 0 1 の動作について説明する。 上記線 形予測分析部 3 0 1では、 フ レーム分割部 1 0 1からの時間軸上のォー ディォ信号を入力と して、線形予測( L P C: Linear Predictive Coding) 分析を行い、 線形予測係数 (L P C係数) を算出する。 線形予測係数は、 ハミ ング窓などの窓掛けされた信号の自己相関関数を算出し、 正規方程 式などを解く こ とで一般に算出可能である。算出された線形予測係数は、 線スぺク トル対係数 ( L S P係数) などに変換され、 概形量子化部 3 0 2で量子化される。 こ こでの量子化手法と してはべク トル量子化を用い てもよいし、 スカラー量子化を用いてもよい。 そして概形量子化部 3 0 2で量子化されたパラメ タが表現する周波数伝達特性 (スベタ トル包 絡) を包絡特性正規化部 3 0 3で算出し、 1^10 (:丁部 1 0 3からの出カ である MD C T係数をこれで除算するこ とによって正規化する。 具体的 な算出例と しては、 概形量子化部 3 0 2で量子化されたパラメ タ と等価 な線形予測係数を qlpc(i) とすれば、 包絡特性正規化部 3 0 3で算出さ れる上記周波数伝達特性は、 式 ( 8 ) で求める こ とができる。 qlpc(i) 0≤ i≤ ORDER
0 ORDER+1≤ iく N ( 8 ) env(i) = 1 / fft(li)
ここで ORDER は 1 0〜 4 0 く らいが望ま しい。 fft( ) は高速フー リ ェ変換を意味する。 算出された周波数伝達特性 env(i)を用いて包絡特性 正規化都 3 0 3では、 例えば、 下記に示す式 ( 9 ) を用いて正規化を行 fact(i) = mdct(i) I env(i) ( 9 ) こ こで、 mdct(i) は M D C T部 1 0 3 からの出力信号で、 fdct(i) は正規 化された包絡特性正規化部 3 0 3からの出力信号である。 以上によ り 、 MD C T係数列の正規化処理は終了する。
次に図 4 を用いて、 符号化装置 : I における量子化部 1 0 5 の詳細につ いて説明する。 4 0 0 5 は正規化部 1 0 4で平坦化された周波数特性信 号系列 ( M D C T係数列) をべク トル量子化する多段量子化部である。 多段量子化部 4 0 0 5は縦列接続された第 1 段の量子化器 4 0 0 5 1 , 第 2段の量子化器 4 0 0 5 2, ·■·, 第 N段の量子化器 4 0 0 5 3 を含む。
4 0 0 6 は MD C T部 1 0 3 から出力された MD C T係数と包絡特性正 規化部 3 0 3 で求めたスぺク トル包絡を入力と し、 聴觉感度特性に基づ いて、 多段量子化部 4 0 0 5での量子化の際に用いる重み付け係数を求 める聴覚重み付け計算部である。
聴覚重み付け計算部 4 0 0 6 では、 MD C T部 1 0 3から出力された MD C T係数列と包絡特性正規化部 3 0 3 で求めた L P Cスぺク トル包 絡が入力され、 MD C T部 1 0 3から出力された周波数特性信号系列の スぺク トルについて、 最小可聴限特性や聴党マスキング特性等の人間の 聴党的な性質である聴党感度特性に基づいて、 この聴党感度特性を考慮 した特性信号を算出し、 さ らにこの特性信号とスぺク トル包絡に基づい て量子化に用いる重み付け係数を求める。
正規化部 1 0 4 から出力された正規化 MD C T係数は、 多段量子化部 4 0 0 5 の第 1段の量子化部 4 0 0 5 1 で聴党重み付け計算部 4 0 0 6 によって求められた重み付け係数を用いて量子化され、 第 1 段の量子化 部 4 0 0 5 1 での量子化による量子化誤差成分が、 多段量子化部 4 0 0 5の第 2段の量子化部 4 0 0 5 2で聴覚重み付け計算部 4 0 0 6 によつ て求められた重み付け係数を用いて量子化され、 以下同様に して複数段 の量子化部のそれぞれにおいて、 前段の量子化部での量子化による量子 化誤差成分の量子化が行なわれる。 そして第 N— 1 段の量子化部での量 子化による量子化誤差成分を第 N段の量子化部 4 0 0 5 3 で聴宽重み付 け計算部 4 0 0 6 によって求められた重み付け係数を用いて量子化が行 なわれるこ とによ りオーディオ信号の符号化が完了する。
このよ うに、 本実施の形態 1 によるオーディオ信号符号化装置によれ ば、 多段量子化手段 4 0 0 5 の複数段のべク トル量子化部 4 0 0 5 1 な いし 4 0 0 5 3で、 聴党重み付け計算部 4 0 0 6 において入力オーディ ォ信号のスペク トル, 人間の聴党的な性質である聴覚感度特性, 及び L P Cスぺク トル包絡に基づいて算出された周波数上の重み付け係数を量 子化の際の重み付けと して用いてべク トル量子化を行な う構成と したの で、 人間の聴覚的な性質を利用 して効率の良い量子化を行な う こ とがで さる。
なお、 図 4 のオーディオ信号符号化装置では、 聴覚重み付け計算部 4 0 0 6が重み付け係数の算出に L P Cスぺク トル包絡も用いる構成と し ているが、 入力オーディオ信号のスぺク トルと人間の聴覚的な性質であ る聴莧感度特性のみを用いて重み付け係数を算出するよ う にしてもよい。 また、 図 4のオーディオ信号符号化装置では、 多段量子化手段 4 0 0 5 の複数段のべク トル量子化部の全てが聴覚重み付け計算部 4 0 0 6 に おいて求められた聴覚感度特性に基づく 重み付け係数を用いて量子化す るよ う にしているが、 多段量子化手段 4 0 0 5の複数段のベタ トル量子 化器のいずれか 1 つが聴宽感度特性に基づく 重み付け係数を用いて量子 化を行な う ものであれば、 このよ うな聴覚感度特性に基づく 重み付け係 数を用いない場合に比して、 効率のよい量子化を行なう こ とができる。 実施の形態 2 .
図 5 は本発明の実施の形態 2 によるオーディオ信号符号化装置の構成 を示すブロ ック図である。 本実施の形態では、 符号化装置 1 における量 子化部 1 0 5の構成のみが上記実施の形態と異なるものであるために、 ここでは、 量子化部の構成のみについて説明する。 5 0 0 6 1 は入カオ 一ディォ信号のスぺク トル, 人間の聴覚的な性質である聴党感度特性, 及び L P C スぺク ト ル包絡に基づいて、 多段量子化手段 4 0 0 5の第 1 段の量子化部 4 0 0 5 1 が用いる重み付け係数を求める第 1 の聴覚重み 付け計算部、 5 0 0 6 2 は同じく入力オーディオ信号のスペク ト ル, 人 間の聴党的な性質である聴宽感度特性, 及び L P C スぺク トル包絡に基 づいて、 多段量子化手段 4 0 0 5の第 2段の量子化部 4 0 0 5 2が用い る重み付け係数を求める第 2 の聴党重み付け計算部、 5 0 0 6 3 は同じ く 入力オーディ オ信号のスぺク ト ル, 人間の聴覚的な性質である聴覚感 度特性, 及び L P C スぺク ト ル包絡に基づいて、 多段量子化手段 5 の第 N段の量子化部 4 0 0 5 3が用いる重み付け係数を求める第 3の聴覚重 み付け計算部である。
上記実施の形態 1 によるオーディオ信号符号化装置では、 多段量子化 手段 4 0 0 5の複数段のべク ト ル量子化部の全てが聴覚重み付け計算部 4 0 0 6 において求められた同一の重み付け係数を用いて量子化するよ う にしているのに対し、 本実施の形態 2 によるオーディ オ信号符号化装 置では、 多段量子化手段 4 0 0 5の複数段のベク トル量子化部が、 それ ぞれ第 1 ないし第 3の聴党重み付け計算部 5 0 0 6 1 , 5 0 0 6 2 , 5 0 0 6 3 で求められた個別の重み付け係数を用いて量子化する構成と し ている。 このよ う な本実施の形態 2によるオーディオ信号符号化装 Sで は、 多段量子化手段 4 0 0 5の各段で量子化による誤差が最小となるよ う に、 聴覚重み付け部 5 0 0 6 1 ないし 5 0 0 6 3で求められた聴覚的 な性質に基づいた周波数重み付け特性に従った重み付けによる量子化を 行なう こ とができる。 たと えば、 第 1 の聴宽重み付け部 5 0 0 6 1 では スぺク ト ル包絡を主体と して重み付け係数を算出し、 第 2の聴觉重み付 け部 5 0 0 6 2では最小可聴限特性を主体と して重み付け係数を算出 し 第 3の聴覚重み付け部 5 0 0 6 3 では聴覚マスキング特性を主体と して 重み付け係数を算出するものである。
このよ う に、 本実施の形態 2 によるオーディオ信号符号化装置によれ ば、 多段量子化部 4 0 0 5 の上記複数段の量子化部の複数の量子化部 4 0 0 5 1 ないし 4 0 0 5 3 がそれぞれ聴覚重み付け計算部 5 0 0 6 1 な いし 5 0 0 6 3 で得られたそれぞれ個別の重み付け係数を用いて量子化 を行なう構成と したので、 人間の聴覚的な性質をよ り有効に利用 して効 率の良い量子化を行な う こ とができる。
実施の形態 3 .
図 6 は本発明の実施の形態 3 によるオーディオ信号符号化装置の構成 を示すブロ ック図である。 本実施の形態では、 符号化装置 1 における量 子化部 1 0 5の構成のみが上記実施の形態と こ となるものであるために, こ こでは、 量子化部の構成のみについて説明する。 6 0 0 2 1 は正規化 された M D C T信号をベク トル量子化する第 1 段の量子化部、 6 0 0 2 3 は第 1段の量子化部 6 0 0 2 1 における量子化による量子化誤差信号 を量子化する第 2段の量子化部、 6 0 0 2 2 は第 1 段の量子化部 6 0 0 2 1 における量子化による量子化誤差のう ち、 第 2段の量子化部 6 0 0 2 3 で量子化すべき重要度の高い周波数帯域を聴党感度特性を考慮した 基準によ り選択する聴覚的選択手段である。
次に動作について説明する。 正規化された M D C T係数は、 第 1 段の 量子化部 6 0 0 2 1 でべク トル量子化される。 聴党的選択手段 6 0 0 2 2では、 ベタ トル量子化での誤差信号が大きい周波数帯域を聴覚的な尺 度に基づき判別し、 そのブロ ックを抽出する。 第 2段の量子化部 6 0 0 2 3では選択されたブロ ック部分の誤差信号に対してべク トル量子化を 施す。 そして各量子化部の結果がイ ンデックスと して出力される。
図 7 は図 6 に示すオーディオ信号符号化装置の各段の量子化部, 及び 聴党的選択部の詳細な構成を示すプロ ック図である。 図 7 において 7 0 0 3 1 は正規化された MD C T係数をべク ト ル量子化する第 1 のべク ト ル量子化器、 7 0 0 3 2は第 1 の量子化器 7 0 0 3 1 の量子化結果を逆 量子化する逆量子化器であり 、 この逆量子化器 7 0 0 3 2 の出力と残差 信号 s i の差分をと るこ とによ り第 1 の量子化器 7 0 0 3 1 による量子 化の量子化誤差信号 z i が得られる。 7 0 0 3 3 は人間の聴党的な性質 を示す聴覚感度特性 h i であり 、 こ こ では最小可聴限特性を用いる。 7 0 0 3 5 は第 1 の量子化器 7 0 0 3 1 による量子化の量子化誤差信号 z i のう ち、 第 2のべク ト ル量子化器 7 0 0 3 6 で量子化すべき周波数帯 域を選択する選択器である。 7 0 0 3 4 は、 誤差信号 z i , L P Cスぺ ク トル包絡 1 i , 及び聴党感度特性 h i に基づいて選択器 7 0 0 3 5 の 選択動作における選択尺度を計算する選択尺度計算部である。
次に、 聴覚的選択部による選択動作について詳細に説明する。
第 1 のべク トル量子化器 7 0 0 3 1 では、 まず N個の要素によ り構成 される 1 フ レーム内の残差信号を、 図 8 (a) に示す, 第 1 のべク トル量 子化器 7 0 0 3 1 内のべク ト ル分割部で複数個のサブべク ト ルに分割し 第 1 のべク トル量子化器 7 0 0 3 1 内の N個の量子化器 1 〜 Nでサブべ ク ト ルのそれぞれをべク トル量子化する。 べク トル分割, 及び量子化の 方法は、 例えば図 8 (b) に示すよ う に、 周波数の低い方から順に並んで いる N個の要素を N S個のサブブロ ックに等間隔に分割し、 それぞれの サブブロ ックの第 1 要素のみを集めたサブべク ト ル、 第 2要素を集めた サブべク トルという よ う に NZ N S個の要素で構成される N S個のサブ べク ト ルを作成し、 それぞれのサブべク ト ル毎にベタ ト ル量子化を実行 する。 分割数等は要求される符号化率に基づき決定される。
ベク ト ル量子化後、 逆量子化器 7 0 0 3 2 によ り 量子化コー ドを逆量 子化して入力信号との差をと る こ とによ り 、 図 9 (a) に示すよ う な、 第 1 のべク ト ル量子化器 7 0 0 3 1 での誤差信号 z i を得る。 次に、 選択器 7 0 0 3 5 では誤差信号 Z i の う ち第 2の量子化器 7 0 0 3 6 によ り さ らに精密に量子化すべき周波数ブロ ック を、 選択尺度計 算部 7 0 0 3 4で選択された結果に基づき選択する。
選択尺度計算部 7 0 0 3 4では、 誤算信号 Z i, L P C分析部で得ら れた、 図 9 (b) に示すよ う な L P Cスぺク トル包絡 1 i , 及び聴覚感度 特性 h i を用い、 周波数軸上で N個の要素に分割されたフ レームの各要 素毎に、
g = ( z i * l i ) / h i
を計算する。
聴覚感度特性 h i と しては、 例えば図 9 (c) に示す最小可聴限界特性 といわれるものを使う。 これは実験的に求められた本来人間には聞こえ ない領域を表す特性である。 従って、 この聴凳感度特性 h i の逆数であ る 1 / h i は人間の聰党的な重要性を表すといえる ものである。そ して、 誤差信号 z i , スペク トル包絡 1 i , 及び聴覚感度特性 h i の逆数を乗 算した値 g はその周波数でのさ らに精密に量子化する重要度を表すと言 える。
また、 図 1 0は図 6 に示すオーディオ信号符号化装置の各量子化部, 及び聴覚的選択部の他の例の詳細な構成を示すプロ ック図である。 図 1 0 において、 図 7 と同一符号は同一または相当部分である。 図 1 0 に示 す例では、 選択尺度 (重要度) g を誤差信号 z i を使用せずに、 スぺク トル包絡 1 i と聴覚感度特性 h i を用いて、
g = 1 i / h i
を計算して求める。
また、 図 1 1 は図 6 に示すオーディ オ信号符号化装置の各量子化部, 及び聴覚的選択部のさ らに他の例の詳細な構成を示すプロ ック図である。 図 1 1 において、 図 7 と同一符号は同一または相当部分であ り 、 1 1 0 0 4 2 は時間周波数変換部で MD C T変換された入力オーディオ周波数 のスぺク トルから聴 ¾マスキング特性によ り マスキングされる量を算出 するマスキング量算出部である。
図 1 1 に示す例では、 聴党感度特性 h i は以下のよ う にしてフ レーム ごとに逐次求める。 すなわち、 入力信号の周波数スぺク トル分布からマ スキング特性を算出し、 そのマスキング特性に最小可聴限界特性を加え るこ とによ り 、そのフ レームの聴覚感度特性 h i を求めるこ とができ る。 選択尺度計算部 7 0 0 3 4 の動作は図 1 0のものと同じである。
また、 図 1 2 は図 6 に示すオーディ オ信号符号化装置の各量子化部, 及び聴党的選択部のさ らに他の例の詳細な構成を示すブロ ック図である , 図において、 図 7 と同一符号は同一または相当部分であ り 、 1 2 0 0 4 3 はマスキング量計算部 1 1 0 0 4 2 で得られたマスキング特性を、 ス ベク トル包絡 1 i , 残差信号 s i , 及び誤差信号 z i を用いて補正する マスキング量補正部である。
図 1 2 に示す例では、 聰¾感度特性 h i は以下のよ う にしてフ レーム ごとに逐次求める。 まず、 入力信号の周波数スぺク トル分布からマスキ ング量計算部 1 1 0 0 4 2 でマスキング特性を算出する。 次にマスキン グ量補正部 1 2 0 0 4 3 で、 スペク トル包絡 1 i , 残差信号 s i , 及び 誤差信号 z 〖 に応じて、 上記算出されたマスキング特性を補正する。 こ の補正されたマスキング特性に最小可聴限界特性を加える こ とによ り 、 そのフ レームの聴党感度特性 h i を求めるこ と ができ る。 こ こで、 マス キング特性を補正する方法の一例を示す。
まず、 すでに算出されているマスキング量 M i の特性が極大値を示す 周波数 ( f m) を求める。 次にその周波数 f mの信号がどれほどの正確 さで再生されるかを、 入力時の周波数 i mのスぺク トルの強さ と量子化 誤差スぺク トルの大き さカ ら求める。 例えば、
y = l - ( i mの量子化誤差のゲイ ン) / ( f mの入力時のゲイ ン) とする。 この γの値が 1 に近ければ、 すでに求めているマスキング特性を変形 する必要はないが、 0に近ければ、 小さ く する方向で補正する。 例えば、 hi -W ( 3 1 ) のよ う に、 マスキング特性を係数 γでべき乗する こ とで変形するこ と に よ り補正するこ とができる。
次に、 選択器 7 0 0 3 5の動作について説明する。
選択器 7 0 0 3 5ではフ レーム内の連続した要素毎に窓 (長さ Wとす る) を掛け、 その窓内での重要度 gの値を累積した値 Gが最大値を示す 周波数ブロ ックを選択する。 図 1 3は重要度が最も高い周波数ブロ ック (長さ W) を選択する一例を示す図である。 窓の長さは ffi単のためには
NZN Sの整数倍に設定するのがよい (図 1 3では整数倍でないものを 示している) 。 この窓を N/N S個ずつずら しながら、 その窓枠內の重 要度 gの累積値 Gを計算しその最大値を与える長さ Wの周波数ブロ ッ ク を選択する。
選択された窓枠内のブロ ックに対して、 第 2のべク トル量子化器 7 0 0 3 2でべク トル量子化が行われる。 第 2のべク トル量子化器 7 0 0 3 2の動作は第 1 のべク トル量子化器 7 0 0 3 1 と同様であるが、 上述の よ う に誤差信号 z i のう ち、 選択器 7 0 0 3 5で選択された周波数プロ ックのみを量子化するものであるのでべク トル量子化されるフ レーム内 の要素の数は少ないものである。
最終的にはスぺク トル包絡係数のコー ド, 各べク トル量子化器の量子 化結果であるそれぞれのコー ド, 及び図 7 , 図 1 1 , 及び図 1 2に示す 構成で求めた選択尺度 gを使用する場合は、 選択器 7 0 0 3 5で、 どの 要素から始まるブロ ックが選択されたかの情報がイ ンデッ ク ス と して出 力される。 —方、 図 1 0 に示す構成で求めた選択尺度 g を使用する場合は、 スぺ ク トル包絡 I i と聴党感度特性 h i のみを用いているので、 逆量子化時 に、 どの要素から始まるブロ ックが選択されたかの情報はスぺク トル包 絡係数のコ ー ドと既知の聴覚慼度特性 h i から求める こ とが可能である ので、 ブロ ックの選択情報をイ ンデックス と して出力する必要がなく 、 圧縮率の点で有利となる。
このよ う に、 本実施の形態 3 によるオーディ オ信号符号化装置によれ ば、 入力オーディオ信号のスぺク トルと人間の聴觉的な性質である聴覚 感度特性に基づいて、 第 1 のべク トル量子化器での量子化誤差成分の周 波数プロ ックのう ち量子化する重要度の高い周波数プロ ック を選択し、 第 2のべク トル量子化器で、 上記選択された周波数ブロ ック について上 記第 1 の量子化器の量子化誤差成分の量子化を行な う よ う に したから、 人間の聴!:的な性質を利用 して効率の良い量子化を行なう こ とができ る < また、 図 7, 図 1 1 , 及び図 1 2に示す構成では、 量子化する重要度の 高い周波数ブロ ックの選択の際に第 1 のべク トル量子化器での量子化誤 差に基づいて重要度を算出する よ う にしたから、 第 1 のべク トル量子化 器での量子化が良好である部分が再度量子化されて逆に誤差が生じて し ま う こ と を防止でき、 高品質を保持した量子化を行な う こ とができ る。 また、 図 1 0に示す構成で重要度 g を求める場合は、 図 7, 図 1 1 , 及び図 1 2 に示す構成で重要度 g を求める場合に比して、 出力すべきィ ンデックスを少なく でき、 圧縮率を向上できる。
なお、 上記実施の形態 3では、 量子化部が第 1段の量子化部 6 0 0 2 1 , 第 2段の量子化部 6 0 0 2 3の 2段構成で、 この第 1 段の量子化部 6 0 0 2 1 と第 2段の量子化部 6 0 0 2 3 の間に聴覚的選択手段 6 0 0 2 2 を設けたものについて説明 したが、 童子化部を 3段以上の複数段構 成と し、 各量子化部の間にそれぞれ聴覚的選択手段を設ける構成と して もよ く 、 かかる構成と した場合も、 上記実施の形態 3 と同様、 人間の聴 覚的な性質を利用 して効率の良い量子化を行な う こ とができ る。
実施の形態 4 .
図 1 4 は本発明の実施の形態 4によるオーディオ信号符号化装置の構 成を示すブロ ック図である。 本実施の形態では、 符号化装置 1 における 量子化部 1 0 5の構成のみが上記実施の形態と こ となる ものであるため に、 ここでは、 量子化部の構成のみについて説明する。 1 4 0 0 1 1 は 正規化都 1 0 4から出力された MD C T信号 s i をスぺク ト ル包絡の値 1 i を重み係数と してべク ト ル量子化する第 1 段の量子化器、 1 4 0 0 1 2 は第 1段の量子化器 1 4 0 0 1 1 の量子化結果を逆量子化する逆量 子化器であ り 、 この逆量子化器 1 4 0 0 1 2の出力と正規化部 1 0 4 か ら出力された残差信号の差分をとるこ とによ り第 1段の量子化器 1 4 0 0 1 1 による量子化の量子化誤差信号 z i が得られる。 1 4 0 0 1 3 は 第 1段の量子化器 1 4 0 0 1 1 による量子化の量子化誤差信号 z i を後 述する重み計算部 1 4 0 0 1 7の計算結果を重み係数と してべク ト ル量 子化する第 2段の量子化器、 1 4 0 0 1 4 は第 2段の量子化器 1 4 0 0 1 3 の量子化結果を逆量子化する逆量子化器であ り 、 こ の逆量子化器 1 4 0 0 1 4 の出力と第 1 段の量子化器 1 4 0 0 1 1 による量子化の i子 化誤差信号の差分をと るこ とによ り第 2段の量子化器 1 4 0 0 1 3 によ る量子化の量子化誤差信号 z 2 i が得られる。 1 4 0 0 1 5 は第 2段の 量子化器 1 4 0 0 1 3による量子化の量子化誤差信号 2 2 i を聴党重み 計算部 4 0 0 6 の計算結果を重み係数と してべク ト ル量子化する第 3段 の量子化器である。 1 4 0 0 1 6 は第 1段の量子化器 1 4 0 0 1 1 によ る量子化の量子化誤差信号 z i とスぺク トル包絡の値 1 i の相関を計算 する相関計算部、 1 4 0 0 1 7は相関計算部の計算結果とスぺク ト ル包 絡の値 1 i に基づいて第 2段の量子化器 1 4 0 0 1 3 による量子化での 重み付け係数を算出する重み計算部である。
次に動作について説明する。 本実施の形態 4のオーディオ信号符号化 装 gは、 3段の量子化器を用い、 それぞれの量子化器で異なる重み付け でべク トル量子化を行な う ものである。
まず第 1 段の量子化器 1 4 0 0 1 3 において、 入力された残差信号 s i が、 概形量子化部 3 0 2で求められた L P Cスペク トル包絡の値 1 i を重み係数と してベク トル量子化が実行される。 これによ り 、 スぺク ト ルのエネルギーの大きな (集中した) 部分に重み付けを施されるこ とに なり 、 結果と して聴覚的に重要な部分をよ り高精度に量子化させる効果 がある。 この第 1 段のべク トル量子化器 1 4 0 0 1 3は、 例えば実施の 形態 3 における第 1 のべク トル量子化器 7 0 0 3 1 と同様のものを使用 すればよい。
量子化結果は逆量子化器 1 4 0 0 1 2 で逆量子化され、 これと も との 入力残差信号 s i の差分によ り 量子化による誤差信号 z i が得られる。 この誤差信号 z i は第 2段の量子化器 1 4 0 0 1 3でさ らにべク トル 量子化される。 こ こでは、 L P Cスペク トル包絡 1 i と誤差信号 z i と の相関をも とに、 相関計算部 1 4 0 0 1 6 , 及び重み計算部 1 4 0 0 1 7 において重み係数を算出する。
具体的には相関計算部 1 4 0 0 1 6 で、
a = ( ∑ l i * z i ) / ( ∑ l i * l i )
を計算する。 この αは 0 < α < 1 の値をと り 、 両者の相関度を表す。 α が 0に近い時は, 第 1段目の量子化がスぺク トル包絡の重み付けに基づ き精度よ く 行われたこ と を示しており 、 αが 1 に近い時はまだ精度よ く 量子化できていないこと を示す。 そこで、 この αによ り スぺク トル包絡 1 i の重み付け度合いを調整する係数と して、 を求め、 べク トル量子化の際の重み付け係数とする。 このよ う に第 1 段 目の量子化の精度に応じて再度スぺク トルの包絡で重み付けし、 量子化 するこ とで、 量子化精度が向上する。 第 2段目の量子化器 1 4 0 0 1 3 による量子化結果も同様に逆量子化 器 1 4 0 0 1 4 で逆量子化され、 誤差信号 z 2 i が抽出され、 この誤差 信号 z 2 i が第 3段の量子化器 1 4 0 0 1 5でべク トル量子化される。 この時の聴覚的重み係数は、 聴覚重み付け計算部 1 4 0 0 6 の重み計算 部 A 1 9 で計算される。 たとえば、 誤差信号 z 2 i , L P Cスぺク トル 包絡 1 i , 及び残差信号 s i を用いて、
N = ∑ z 2 i * 1 i
S = ∑ s i * 1 i
. β = 1 - ( N / S )
を求める。
—方、 聴覚重み付け計算部 1 4 0 0 6の聴覚マスキング計算部 1 4 0 0 1 8では、 たとえば M P E G (ェムぺグ) オーディオ標準方式の中で 用いられている聴覚モデルによ り聴党マスキング特性 m i を計算する。 これに上述した最小可聴限界特性 h i を重ねあわせて最終的なマスキン グ特性 M i を求める。
そして、 この最終的なマスキング特性 M i を重み計算部 1 4 0 0 1 9 で計算された係数)3でべき乗した値の逆数と 1 との積である。
1/
/Μίβ
( 3 3 )
を第 3段のべク トル量子化の際の重み係数と して用いる。
このよ う に、 本実施の形態 4によるオーディオ信号符号化装置によれ ば、 複数の量子化器 1 4 0 0 1 1 , 1 4 0 0 1 3 , 1 4 0 0 1 5 が聴覚 感度特性を考慮した重み付けを含む, それぞれ異なる重み付け係数を用 いて量子化を行なう構成と したので、 人間の聴觉的な性質をよ り 有効に 利用して効率の良い量子化を行なう こ とができる。
実施の形態 5 . 図 1 5 は本発明の実施の形態 5 によるオーディオ信号符号化装置の構 成を示すプロ ック図である。
本実施の形態 5 によるオーディオ信号符号化装 gは、 図 6 に示す実施 の形態 3 と図 4 に示す実施の形態 1 と を組み合わせたものであ り 、 図 6 に示す実施の形態 3 によるオーディオ信号符号化装置において、 各量子 化部での量子化の際に、 聴覚重み付け計算部 4 0 0 6 において聴覚感度 特性を用いて求めた重み付け係数を用いるよ う にしたものである。 本実 施の形態 5 によるオーディオ信号符号化装置では、 かかる構成とするこ とによ り 、 上記実施の形態 1 と実施の形態 3 によ り得られる効果の両方 を得る こ とができる ものである。
また、 同様にして、 図 6 に示す実施の形態 3 に実施の形態 2 , または 実施の形態 4の構成を組み合わせるこ と も可能であ り 、 それぞれの組み 合わせによ り得られるオーディオ信号符号化装置は、 それぞれ実施の形 態 2 と実施の形態 3 によ り得られる効果の両方, 及び実施の形態 4 と実 施の形態 3 によ り得られる効果の両方が得られるものである。
なお、 上記実施の形態 1 ないし 5では多段量子化部は量子化部の段数 が 2段, または 3段のものを示したが、 量子化部の段数を 4段以上の多 段構成と してもよいこと は言う までもない。
また、 多段量子化部の各段におけるべク トル量子化の際に用いる重み 係数の順序は、 上記実施の形態に示したものに限られるものではなく 、 たとえば、 第 1 段で聴覚感度特性を考慮した重み付けを用い、 2段目以 降で L P Cスぺク トル包絡を用いるよ う にしてもよい。
実施の形態 6 .
図 1 6 は本発明の実施の形態 6 によるオーディオ信号符号化装置の構 成を示すブロ ック図である。 本実施の形態では、 符号化装置 1 における 量子化部 1 0 5 の構成のみが上記実施の形態と こ となる ものであるため に、 こ こでは、 量子化部の構成のみについて説明する。 図 1 6において、 4 0 1は第 1の小量子化部、 4 0 2は第 1の小量子 化部 4 0 1 の出力を受ける第 2の小量子化部、 4 0 3は第 2の小量子化 部 4 0 2の出力を受ける第 3の小量子化部である。
次に上記量子化部 1 0 5の動作について説明する。 上記第 1の小量子 化部 4 0 1 に入力される信号は符号化装 *の正規化部 1 0 4からの出力 であり 、 正規化された MD C T係数である。 ただし、 正規化部 1 0 4 を 持たない構成では、 1^0 (:丁部 1 0 3の出カとなる。 第 1の小量子化部 4 0 1では、 入力された MD C T係数をスカラー量子化、 またはべク ト ル量子化して、 量子化に用いたパラメ タを表現するイ ンデッ クスを符号 化する。 また、 量子化による入力 MD C T係数に対する量子化誤差を算 出し、 それを第 2の小量子化部 4 0 2へと出力する。 第 1の小量子化部 4 0 1では、 すべての MD C T係数を量子化してもよいし、 一部のみを 量子化するよ うにしてもよい。 当然ながら、 一部のみを量子化した場合 は、 第 1 の小 S子化部 4 0 1で量子化されない帯域の量子化誤差は、 量 子化されない帯域の入力 MD C T係数そのものとなる。
次いで、 第 2の小量子化部 4 0 2では、 第 1 の小量子化部 4 0 1 の M D C T係数の量子化誤差を入力と して、 それをさ らに量子化する。 この と きの量子化も第 1 の小量子化部 4 0 1 と同様に、 スカラー量子化を用 いてもよいし、 ベタ トル量子化を用いてもよい。 そ して、 第 2の小量子 化部 4 0 2では、 量子化に用いたパラメ タを表現するイ ンデックスに符 号化する。 また、 量子化による量子化誤差を算出し、 それを第 3の小量 子化部 4 0 3へと出力する。 この第 3の小量子化部 4 0 3は、 上記第 2 の小量子化部と構成は同じである。
こ こで、 上記第 1の小量子化部 4 0 1 , 第 2の小量子化部 4 0 2, 第 3の小量子化部 4 0 3が量子化する MD C T係数の個数、 つま り 、 帯域 幅は必ずしも均一である必要はなく 、 また、 量子化する帯域も同じであ る必要もない。 このとき、 人間の聴覚特性を考慮する と、 望ま しく は、 第 2の小量子化部 4 0 2 , 第 3 の小量子化部 4 0 3 と もに、 低域周波数 成分を示す M D C T係数の袼域を量子化するよ う に設定するのが望ま し い 0
このよ う に本実施の形態 6 によれば、 量子化を行う 際に、 量子化部を 階層的に設け、 前段と後段での量子化部が量子化する帯域幅を変化させ る こ とで、 入力 M D C T係数の う ち、 任意の帯域、 例えば、 人間にと つ て聴覚的に重要な低域周波数成分に相当する係数を量子化するよ う にし たから、 低ビッ ト レー ト、 すなわち高い圧縮率でオーディオ信号を符号 化しても、 受信側に置いて高品位な音声の再生を行う よ う にするこ とが できる。
実施の形慷 7 .
次に図 1 7 を用いて、 本発明の実施の形態 7によるオーディオ信号符 号化装 Sについて説明する。 本実施の形態では、 符号化装置 1 における 量子化部 1 0 5の構成のみが上記実施の形態と異なる ものであるために、 ここでは、 量子化部の構成についてのみ説明する。 図 1 7 において、 5 0 1 は第 1 の小量子化部 (ベク トル量子化器) 、 5 0 2 は第 2 の小量子 化部、 5 0 3 は第 3の小量子化部である。 上記実施形態 6 との構成上の 違いは、 第 1 の量子化部 5 0 1 が、 入力 M D C T係数を 3 つの帯域に分 割して独立に量子化を行う点である。 一般にべク トル量子化の手法を用 いて量子化を行う場合において、 入力 M D C T係数から幾つかの要素を 抽出して、 ベタ トルを構成し、 べク トル量子化するこ とができる。 本実 施の形態 7 の第 1 の小:!:子化部 5 0 1 では、 入力 M D C T係数から幾つ かの要素を抽出してべク トルを構成する際に、 低域の量子化は低域のみ の要素を用いて量子化する構成で、 中域の量子化は中域のみの要素を用 いて、 高域の量子化は髙域のみの要素を用いて、 それぞれべク トル量子 化する構成となっており 、 上記第 1 の小量子化部 5 0 1 が見掛け上、 3 つの分割化べク トル量子化器によって構成されているよ う になつている。 なお、 本実施の形態 7では、 量子化の際に、 低域, 中域, 髙域の 3つ の帯域に分割する方法を一例と して説明 したが、 分割する帯域の数は 3 以外の数であってもよい。 また、 第 2の小量子化部 5 0 2, 第 3 の小量 子化部 5 0 3についても、 第 1 の量子化部 5 0 1 と同様に带域をいく つ かに分割して量子化を行う構成と してもよい。
このよ う に本実施の形態 7 によれば、 量子化を行う 際に、 入力 M D C T係数を 3つの帯域に分割して独立的に量子化を行う よ う にしたので、 聴党的に重要な帯域を優先的に量子化する等の処理を第 1 回目の量子化 時に行う こ とができ、 後段の量子化部 5 0 2, 5 0 3 において、 さ らに 段階的に当該帯域の M D C T係数の量子化を行う こ とによ り 、 量子化誤 差をよ り低減するこ とができ、 受信側において、 よ り 高品位な音質の再 現を可能とするこ とができる。
実施の形態 8 .
次に図 1 8 を用いて、 本発明の実施の形態 8 によるオーディオ信号符 号化装置について説明する。 本実施の形態 8 では、 符号化装置 1 におけ る量子化部 1 0 5の構成のみが上記実施の形態 1 と異なる ものであるた めに、 ここでは、 量子化部の構成についてのみ説明する。 図 1 8 におい て、 6 0 1 は第 1 の小量子化部、 6 0 2は第 1 の量子化帯域選択部、 6 0 3 は第 2の小量子化部、 6 0 4 は第 2の量子化帯域選択部、 6 0 5 は 第 3 の小量子化部である。 上記実施の形態 6および 7 との構成上の違い は、 第 1 の量子化帯域選択部 6 0 2 と、 第 2の量子化帯域選択部 6 0 4 が加わつた点である。
以下動作について説明する。 上記第 1 の量子化帯域選択部 6 0 2では、 第 1 の小量子化部 6 0 1 の量子化誤差である出力を用いて、 第 2 の小量 子化部 6 0 2 でどの帯域の: M D C T係数を量子化すべきかを算出する。 例えば、 式 ( 1 0 ) で与える esum (j) を最大とする j を算出 し、 j * OFFSET ら j *OFFSET + BANDWIDTHの裕域を量子化すればよい。 j · OFFSET+BANDW1DTH
esum(j) - ∑ fdcterr(i)2 ( 1 0 )
U/ i=j . OFFSET 6rr
こ こで、 OFFSETは定数で、 BANDWIDTH は第 2の小量子化部 6 0 3 が量子化する帯域幅に相当する総サンプルである。 第 1 の量子化带域選 択部 6 0 2では、 例えば、 式 ( 1 0 ) で最大値を与えた j などを符号化 してイ ンデックス とする。 第 2 の小量子化部 6 0 3では、 第 1 の量子化 帯域選択部 6 0 2 で選択された帯域を量子化する。 第 2 の量子化帯域選 択部 6 0 4 は、 その入力が第 2 の小量子化部 6 0 3 の量子化誤差である 出力であ り 、 第 2 の量子化帯域選択部 6 0 4 の選択した帯域が第 3の小 量子化部 6 0 5 に入力される こ と を除いては、 同 じ構成で実現可能であ る。
なお、 第 1 の量子化帯域選択部 6 0 2、 および第 2 の量子化帯域選択 部 6 0 4 では、 式 ( 1 0 ) を用いて次の量子化部の量子化すべき帯域を 選択する構成を説明したが、 式 ( 1 1 ) の正規化部 1 0 4 で正規化に用 いた値、 および人間の周波数に対する相対的な聴党感度特性を考慮に入 れた値を乗算した値を用いて算出してもよい。 j . OFFSET+BANDWIDTH , esum(j) =∑ { idcterr(i), env(i) · zxc(i) ( 1 丄 ) i=j · OFFSET ここで、 env(i)は M D C T部 1 0 3 の出力を正規化部 1 0 4 の出力で除 算したものであ り 、 zxc(i)は人間の周波数に対する相対的な聴党感度特 性を考慮に入れたテーブルであ り 、 その一例を表 2 に示した。 また、 式 ( 1 1 ) において zxc(i)はすべて 1 と して考慮に入れない構成でも よい。
Figure imgf000049_0001
500 2500
さ らに、 量子化帯域選択部は祓数設けなく てもよ く 、 上記第 1 の量子 化帯域選択部 6 0 2のみを用いた構成や、 第 2の量子化裕域選択部 6 0 4 のみを用いた構成と してもよい。
このよ う に本実施の形態 8 によれば、 多段的に量子化する際に、 全段 の量子化部と次段の量子化部との間に量子化带域選択部を設け、 量子化 する帯域を可変となるよ う にするこ とで、 入力信号に応じて適宜、 量子 化する蒂域を変化させるこ とが可能とな り、 量子化の自由度を向上する こ とができる。 以下に、 図 1 および図 1 9 を用いて、 上記実施の形態 1 ないし 8 の上 記符号化装置 1 における各量子化部の量子化方法の詳細な動作について 説明する。 各小量子化部に入力される正規化された MD C T係数 1 4 0 1 は、 その MD C T係数 1 4 0 1 から規則に基づいて幾つかを抜き出し て音源サブべク ト ル 1 4 0 3 を構成する。 同様に、 正規化部 1 0 4 の入 力である MD C T係数を、 正規化部 1 0 4 で正規化された MD C T係数 1 4 0 1 で割った係数列を正規化成分 1 4 0 2 と した時、 音源サブべク トノレ 1 4 0 3 を MD C丁係数 1 4 0 1 から抜き出したのと 同じ規則で、 正規化成分 1 4 0 2 から抽出 し、 重みサブべク ト ル 1 4 0 4 を構成する こ とができ る。 音源サブべク トノレ 1 4 0 3および重みサブべク トノレ 1 4 0 4 を MD C T係数 1 4 0 1 および正規化成分 1 4 0 2からそれぞれ抽 出する規則は、 例えば、 式 ( 1 4 ) で示す方法などがある。
subvecton(j) = i+j
VTOTAL 〜J 1 4 )
~― ~ · i+j < TOTAL
し H
VTOTAL
i+j≥ TOTAL
Figure imgf000050_0001
C闩
こ こで、 i 番目の音源サブべク トノレの j 番目の要素は subvector i (j) で あ り 、 MD C T係数 1 4 0 1 は vector( )であり 、 MD C T係数 1 4 0 1 の総要素数が TOTAL で、 音源サブべク トル 1 4 0 3の要素数が C R VTOTAL は、 TOTAL と同じ値かよ り大きい値で VT0TAL/CR が整数 値になるよ う に設定する。 例えば、 TOTAL が 2 0 4 8の時、 C Rが 1 9 で VTOTAL力; 2 0 5 2、 C Rが 2 3で VTOTAL力; 2 0 7 0、 C Rが 2 1 で VTOTALが 2 0 7 9 などである。重みサブべク トノレ 1 9 0 0 1 4 0 4 も式 ( 1 4 ) の手順で抽出可能である。 べク トル量子化器 1 4 0 5 では、 コー ドブッ ク 1 4 0 9 中のコー ドべク ト ノレの中力、ら、 音源サブべ
差替 え 用紙 (規則 26) ク トル 1 4 0 3 との距離が、 重みサブべク トル 1 4 0 4 で重みつけて最 も小さ く なるものを探し、 その最小の距雕を与えたコー ドべク トルのィ ンデッタスと、 最小の距離を与えたコー ドべク トルと入力音源サブべク ト ル 1 4 0 3 との量子化誤差に相当する残差サブべク トル 1 4 1 0 を出 力する。 実際の計算手順例は、 ベク トル量子化器 1 4 0 5が、 距離計算 手段 1 4 0 6 , コー ド決定手段 1 4 0' 7 , 残差生成手段 1 4 0 8 の 3つ の要素から構成されるものと して説明する。距離計算手段 1 4 0 6 では、 例えば、 式 ( 1 5 ) を用いて、 i 番目の音源サブベク トル 1 4 0 3 と、 コー ドブック 1 4 0 9の k 番目のコー ドべク トルとの距離を算出する。
dik = ∑ WiR(subvectoriO)-Ck(j))s ( 1 5 )
j-o '
ここで wjは重みサブべク トルの j 番目の要素、 ck(j) は k 番目のコ 一ドべク トルの 〗 番目の要素、 R、 Sは距離計算のノルムであ り 、 R、 S の値と しては 1,1.5,2 などが望ま しい。 なお、 このノルム R と Sは同 一の値である必要はない。 dik は i 番目の音源サブべク トルに対する k 番目のコー ドべク トルの距離を意味する。コー ド決定手段 1 4 0 7 では、 式 ( 1 5 ) などで算出された距離の中で最小となるコー ドベク トルを選 出し、 そのインデックスを符号化する。 例えば、 diu が最小値の場合、 i 番目のサブべク トルに対する符号化されるイ ンデックスは u となる。 残差生成手段 1 4 0 8では、 コー ド決定手段 1 4 0 7で選出したコー ド べク トルを用いて、 式 ( 1 6 ) を用いて、 残差サブべク トル 1 4 1 0を 生成する。
resj© = subvectori(j)-Cu(j) ( 1 6 ) ここで i 番目の残差サブべク トル 1 4 1 0の j 番目の要素は、 resi(j) であり 、 コー ド決定手段 1 4 0 7で選出されたコー ドべク トルの j 番目 の要素を、 cu(j) とする。 残差サブベク トル 1 4 1 0は式 ( 1 4 ) の逆 過程などで、 それ以降の小量子化部の量子化対象となる MD C T係数と して保持される。 ただし、 ある帯域の量子化がそれ以降の小量子化部に 影響を与えない帯域を量子化している場合、 つま り以降の小量子化部が 量子化をする必要がない場合は、 残差生成手段 1 4 0 8 , 残差サブべク トル 1 4 1 0 , M D C T 1 4 1 1の生成は必要ない。 なおコー ドブック
1 4 0 9が持つコー ドべク トルの個数はいく つでもよいが、 メ モ リ 一容 量、 計算時間等を考慮する と 、 6 4程度とする こ とが好ま しい。
なお、 上記べク トル量子化器 1 4 0 5の他の実施形態と して以下のよ う な構成も可能である。 すなわち、 距離計算手段 1 4 0 6では、 式 ( 1
7 ) を用いて距離を算出する。
CR-1
s
dik= ] ∑ WjR (subvectori(])-Ck(j)) k < K
( 1 7 )
Figure imgf000052_0001
ただし、 Kはコー ドブック 1 4 0 9のコ一 ド検索に用いるコ一 ドべク トルの総数である。
コー ド決定手段 1 4 0 7では、 式 ( 1 7 ) で算出された距離 dik の最 小値を与える k を選出し、そのイ ンデッ ク スを符号化する。ただし、 k は 0から 2K-1 までの値となる。 残差生成手段 1 4 0 8では、 式 ( 1 8 ) を用いて残差サブべク トル 1 4 1 0を生成する。 resi(j) = subvectorj(j)-Cu(j) 0≤ k < K ( ι s ) subvectoriG)- Cu(j) K≤ k < 2K コー ドブック 1 4 0 9が持つコー ドべク トルの個数はいくつでもよいが メ モ リ ーの容量、 計算時間等を考慮する と、 6 4程度とするこ とが好ま しい。
また、 重みサブべク トル 1 4 0 4 と して、 正規化成分 1 4 0 2のみか ら生成する構成について述べたが、 重みサブべク トル 1 4 0 4 に、 人間 の聴覚特性を考慮した重みをさ らに乗じて重みサブベク トルを生成する こ と も可能である。
実施の形態 9 .
次に図 1 、 図 2 0〜図 2 4 を用いて、 本発明の実施の形態 9によるォ 一ディォ信号復号化装 Sについて説明する。 符号化装置 1 からの出力で あるイ ンデッ クスは、 正規化部 1 0 4 の出力 したイ ンデック ス と 、 量子 化部 1 0 5 の出力したイ ンデックス とに大き く 分けられる。 正規化部 1 0 4 の出力したイ ンデッ ク スは、 逆正規化部 1 0 7で復号し、 量子化部 1 0 5の出力したイ ンデックスは逆量子化部 B 1 0 6 で復号する。 ここ で逆量子化部 1 0 6では、 量子化部 1 0 5の出力 したイ ンデッ ク スの一 部分のみを用いて復号するこ と も可能である。
すなわち、 量子化部 1 0 5 の構成を図 1 7に示す構成のものと した場 合、 図 2 0の構成を有する逆量子化部を用いて逆量子化を行う場合につ いて説明する。 図 2 0において、 7 0 1 は第 1 の低域成分の逆量子化部 である。 この第 1 の低域成分の逆量子化部 7 0 1 では、 第 1 の小量子化 部 5 0 1 の低域成分のインデックスのみを用いて復号化を行う。
このよ う にするこ とで、 符号化装置 1 から送信されてく る情報量に関 わらず、 符号化されたオーディオ信号の任意の情報量分を復号化する こ とができ、 符号化する情報量と復号化する情報量とを異なる値のものと することができ、 受信者側での通信環境等に応じて、 復号する情報量を 変化させる こ とができ、 例えば、 通常の公衆電話網を利用 しているよ う な場合においても、安定に髙品位な音質を得るこ とができるよ うになる。 図 2 1 は逆量子化を 2段階で行う 際のオーディオ信号復号化装 Sの 逆量子化部の構成を示す図であり、 図 2 1 において、 7 0 4は第 2 の逆 量子化部である。 この第 2 の逆量子化部 7 0 4では、 第 2の小量子化部 5 0 2のイ ンデック スを用いて復号化を行う。 従って、 第 1 の低域成分 の逆量子化部 7 0 1 からの出力と、 第 2の逆量子化部 7 0 4からの出力 の加算値が逆量子化部 1 0 6の出力と して出力される こ とになる。 ただ し、 こ こでの加算は量子化時に、 それぞれの小量子化部が量子化した带 域と同じ帯域に加算していく。
このよ う に、 第 1 の小量子化部 (低域) のイ ンデッ ク スを第 1 の低域 成分の逆量子化部 7 0 1 によ り復号化する と と もに、 第 2の小量子化部 のイ ンデッ ク スを逆量子化する際に、 上記第 1 の低域成分の逆量子化部 7 0 1 の出力を加算して行う よ う にするこ と によ り 、 逆量子化を 2段階 で行う こ とができ、 多段階で量子化されたオーディオ信号を正確に復号 化する こ とができ、 よ り 高品質な音質を得る こ とができ るよ う になる。
また、 図 2 2 は逆量子化を 2段階で行う際に、 対象となる帯域を拡大 して行う よ う にしたオーディオ信号復号化装置の逆量子化部の構成を示 す図であ り 、 図 2 2において、 7 0 2 は第 1 の中域成分の逆量子化部で ある。 この第 1 の中域成分の逆量子化部 7 0 2では、 第 1 の小量子化部 5 0 1 の中域成分のイ ンデックスを用いて復号化を行う。 従って、 第 1 の低域成分の逆量子化部 7 0 1 からの出力と、 第 2の逆量子化部 7 0 4 からの出力と、 第 1 の中域成分の逆量子化部 7 0 2 からの出力の加算値 が逆量子化部 1 0 6の出力と して出力されるこ とになる。 ただし、 ここ での加算は量子化時に、 それぞれの小量子化部が量子化した帯域と同じ 袼域に加算していく。 このよ う にする こ とで、 再生される音の带域を拡 大するこ とができ、 よ り 髙品質なオーディオ信号の再生を行う こ とがで き るよ う になる。
また、 図 2 3 は、 図 2 2 の構成を有する逆量子化部において、 逆量子 化する段数を 3段階で行う際のオーディオ信号復号化装置の逆量子化部 の構成を示す図であり、 図 2 3 において、 7 0 5は第 3 の逆量子化部で ある。 第 3の逆量子化部 7 0 5 では、 第 3の小量子化部 5 0 3のイ ンデ ックスを用いて復号化を行う。 従って、 第 1 の低域成分の逆量子化部 7 0 1 からの出力と、 第 2の逆量子化部 7 0 4からの出力と、 第 1 の中域 成分の逆量子化部 7 0 2からの出力と、 第 3 の逆量子化部 7 0 5 からの 出力の加算値が、逆量子化部 1 0 6の出力と して出力されるこ とになる。 ただし、 ここでの加算は量子化時に、 それぞれの小量子化部が量子化し た帯域と 同じ帯域に加算していく。
さ らに、 図 2 4 は、 図 2 3の構成を有する逆量子化部において、 量子 化を 3段階で行う際に、 対象となる帯域を拡大して行う よ う にしたォ一 ディォ信号復号化装置の逆量子化部の構成を示す図であ り 、 図 2 4 にお いて、 7 0 3は第 1 の高域成分の逆量子化部である。 第 1 の高域成分の 逆量子化部 7 0 3では、 第 1 の小量子化部 5 0 1 の高域成分のイ ンデッ クスを用いて復号化を行う のに従って、 第 1 の低域成分の逆量子化部 7 0 1 からの出力と、 第 2の逆量子化部 7 0 4からの出力と 、 第 1 の中域 成分の逆量子化部 7 0 2からの出力と、 第 3 の逆量子化部 7 0 5 からの 出力と、 第 1 の高域成分の逆量子化部 7 0 3からの出力の加算値が逆量 子化部 1 0 6 の出力と して出力されるこ と となる。 ただし、 ここでの加 算は量子化時に、 それぞれの小量子化部が量子化した帯域と同じ帯域に 加算していく。
なお、 上 ΙΞ実施の形態 9では、 復号化部 1 0 6が、 図 1 7の構成を有 する量子化部 1 0 5 によって量子化された情報を逆量子化する場合を例 に挙げて説明したが、 量子化部 1 0 5の構成は図 1 6や図 1 8 に示した 構成でも同様に行う ことができ る。
また、 量子化部と して上記図 1 7に示されるよ う な構成の量子化部を 用いて符号化を行い、 その逆量子化部と して図 2 4 に示すよ う な構成を 有する逆量子化部を用いて復号化する場合には、 図 2 5 に示すよ う に、 第 1 の小量子化部の低域のイ ンデックスを逆量子化した後、 次段の第 2 の小量子化部 5 0 2のイ ンデッ ク スを逆量子化し、 再度第 1 の小量子化 部の中域のイ ンデック スを逆:!:子化する という よ う に、 帯域を拡大する ための逆量子化と量子化誤差を低減するための逆量子化と を交互に繰り 返し行う が、 図 1 6に示したよ う な構成の量子化部によって符号化され た信号を、 図 2 4 に示すよ う な構成を有する逆量子化部を用いて復号化 する場合には、 分割された帯域がないので、 順次、 次段の逆量子化部に て量子化された係数を復号化する処理を行う こ と になる。
次に図 1 および図 2 6 を用いて、 上記オーディオ信号復号化装置 2 を 構成する逆量子化部 1 0 7の詳細な動作について説明する。 逆量子化部 1 0 7 は、 例えば、 図 2 0に示した逆量子化部を有する場合は、 第 1 の 低域の逆量子化部 7 0 1 から構成され、 図 2 1 に示した逆量子化部を有 する場合は、 第 1 の低域の逆量子化部 7 0 1 と、 第 2の逆量子化部 7 0 4の 2つの逆量子化部から構成される。
べク トル逆量子化器 1 5 0 1 は、 べク トル量子化部 1 0 5からのイ ン デックスを用いて MD C T係数の再生を行う。 小量子化部が図 2 0に示 した構成を有するものである場合の逆量子化は、 ィ ンデッ ク ス番号を復 号化して、 その番号のコー ドべク トルをコー ドブック 1 5 0 2から選出 する。 コー ドブック 1 5 0 2は符号化装置のコー ドブック と同様の內容 のものとする。 この選出されたコー ドべク ト ルは再生べク トノレ 1 5 0 3 と して、 式 ( 1 4 ) の逆過程で逆量子化された MD C T係数 1 5 0 4 と なる。
また、 小量子化部が図 2 1 に示した構成を有する ものである場合の逆 量子化は、 イ ンデッ ク ス番号 k を復号して、 式 ( 1 9 ) で算出される番 号 u のコー ドべク トルをコー ドブック 1 5 0 2 力 ら選出する。
Figure imgf000057_0001
再生サブベク トルは、 式 ( 2 0 ) を用いて生成する resi(j) = Cu ') U = k ( 2 0 )
-Cu{j) u≠ k ここで i 番目の再生サブべク トノレの j 番目の要素は res i (j) とする。 次に図 1 、 及び図 2 7 を用いて、 オーディオ信号復号化装置 B 2 を構 成する逆正規化部 1 0 7の詳細な構成について説明する。 図 2 7 におい て、 1 2 0 1 は周波数概形逆正規化部、 1 2 0 2 は帯域振幅逆正規化部、 1 2 0 3 は帯域テーブルである。 周波数概形逆正規化部 1 2 0 1 は、 周 波数概形正規化部 1 2 0 1 からのイ ンデッ ク スを入力と して、 周波数概 形を再生し、 逆量子化部 1 0 6からの出力に対して、 前記周波数概形を 乗算して出力する。 帯域振幅逆正規化部 1 2 0 2では、 帯域振幅正規化 部 2 0 2からのイ ンデックスを入力と して、 带域テーブル 1 2 0 3 に示 された各帯域ごとの振幅値を乗算によ り復元する。 帯域振幅正規化部 B 2 0 2からのイ ンデック スを用いて復元された各帯域ごとの値を、 qavej とする と、 裕域振幅逆正規化部 1 2 0 2の演算は、 式 ( 1 2 ) で与えら れる。 dct(i) = n dct(i) ' gavej bjlow≤ i≤ bjhigh ( 1 2 ) こ こで、 周波数概形逆正規化部 1 2 0 1 の出力を n _ dct(i)、 帯域振幅 逆正規化部 1 2 0 2の出力を dct(i)と した。 また、 帯域テーブル 1 2 0 3 と図 2 の帯域テーブル 2 0 3 とは同様である。
次に図 2 8 を用いてオーディ オ信号復号化装 S 2 を構成する周波数 概形逆正規化部 1 2 0 1 の詳細な構成について説明する。 図 2 8 におい て、 1 3 0 1 は概形逆量子化部、 1 3 0 2は包絡特性逆量子化部である。 概形逆量子化部 1 3 0 1 では、 符号化装置における概形量子化部 3 0 1 からのイ ンデック スを用いて周波数概形を表すパラメ タ、 例えば、 線形 予測係数等を復元する。 復元された係数が線形予測係数ならば、 例えば、 式 ( 8 ) と 同様に算出する こ と によ り 、 量子化された包絡特性を復元す る。 復元された係数が線形予測係数でない場合、 例えば、 L S P係数な どの場合も周波数特性に変換して包絡特性を復元する。 包絡特性逆量子 化部 1 3 0 2では、 式 ( 1 3 ) で示されるよ う に復元された包絡特性と、 逆量化部 1 0 6 からの出力と乗算して出力とする。 mdct(i) - fdct(i) · env(i) ( 1 3 )
実施の形態 1 0 .
以下、 本発明の実施の形態 1 0によるオーディ オ信号符号化装置につ いて、 図面を参照しながら説明する。 図 2 9は本実施の形態 1 0 におけ るオーディオ信号符号化装置の詳細な構成を示す図であり 、 これらの図 において、 2 9 0 0 3 はオーディオ信号の特徵量の代表値であるオーデ ィォコ一 ドを複数有する送信側コー ドブック、 2 9 0 0 1 0 2 はオーデ ィォコ一ド選択部、 2 9 0 0 1 0 7 は位相情報抽出部である。
以下、 動作について説明する。
ここでは、 入力信号と して M D C T係数を考えるが、 時間周波数変換 された信号であれば、 D F T (離散フーリ エ変換) 係数等を用いてもも ちろん差し支えない。
図 3 0 に示すよ う に、 周波数軸上のデータ を 1 つの音源べク トルとみ なした場合、 その音源べク トルから、 いく つかの要素を抜き出したサブ ベク トルを形成し、 これを図 2 9の入力ベク トルと した場合、 オーディ ォコー ド選択部 2 9 0 0 1 0 2は、 送信側コー ドブック 2 9 0 0 3中の 各コー ドと前記入力べク トルとの距離を算出して、 その距離が最小とな るコー ドを選択して、 その選択されたコー ドの送信側コー ドブック 2 9 0 0 3におけるコー ドインデックスを出力する。
上記符号化装置の詳細な動作を図 2 9及び図 3 1 を用いて以下に説明 する。 ここでは、 コー ド化を、 2 0 KH z を対象とするために 1 0 b i tで行う場合を想定する。 また、 位相情報抽出部 2 9 0 0 1 0 7では、 抽出する位相を周波数の低い方から 2番目までの要素に対して、 すなわ ち 2 ビッ ト分とする。 上記オーディオコー ド選択部 1 9 0 0 1 0 2の入 力は、 MD C T変換して得た係数を 1つのベク トルと した時に、 そのべ ク トルを分割して幾つかの要素、 例えば、 2 0程度の要素を 1つのサブ ベク トルと したものである。 その際、 ベク トルは X0〜X 19 と し、 Xの 添え字の数字が小さいサブべク トルの要素ほど、 低い周波数成分を有す る MD C T係数に対応するものとする。 こ こで低い周波数成分は人にと つて聴党的に重要な情報であり 、 従って、 これらの要素についてのコ一 ド化を優先的に行う こ とで、 再生時に人間にとっては音質の劣化を感じ させにく い。
オーディオコー ド選択部 2 9 0 0 1 0 2では、 前記特徴べク トルと、 送信側コー ドブック 2 9 0 0 3の各々のコ一 ドとの距離を算出する。 例 えば、 コー ドイ ンデックスを i と した場合に、 式 ( 2 1 ) でコー ドイ ン デッ ク ス i のコー ドにおける距離 Diが算出できる。
ヽ 、
WO/)― abs{Xj)} +∑ ∑{Cy- Xj) ( 2 1 )
,=0 =0 =0ゾ + 1
ここで上記式 ( 2 1 ) において、 Nは送信側コー ドブック 2 9 0 0 3 中の全コー ドの個数であ り 、 Cij はコー ドイ ンデックス I における j 番 目の要素の値である。 M は本実施の形態 1 0の場合、 1 9以下の数、 例 えば、 1などである。 P は距離計算におけるノルムであ り、 例えば、 2 などである。 また、 abs( ) は絶対値演算を意味する。
位相情報抽出部 2 9 0 0 1 0 7では、 最小の距離 Di を与えるコー ド イ ンデックス i と M個の位相情報 Ph(j) j = 0 to Mを出力する。 位相情報 Ph(j) は式 ( 2 2 ) で示されるよ う に、
, 、 ί 1 atCji*Xi≥0 /
P h ( j ) = \ J 2 2
{-latCji* Xj <0 入力べク トルが音声信号を MD C丁変換したべク トルのサブべク ト ルである場合などでは、 一般に Xj の添え字 j が小さいほど係数の聴党 的な重要度が高いため、 本構成によ り 、 各サブべク トルの低い周波数成 分の要素に対応する位相 (正負) についてはコー ド検索時にはこれらの 情報については考慮されず、 検索後に別途付加されるこ とになる。 すな わち、 図 3 1 ( a ) に示されるよ うに、 サブベク トル化された入力べク トルは、 低い周波数側の 2 b i t分の要素の正負符号を無視して、 送信 側コー ドブッ ク 2 9 0 0 3の有するコー ドとパターン比較される。 例え ば、 ここには低い周波数側の 2 b i t分の要素が共に正と して格納され た 2 5 6個のコ一 ドが格納されており 、 オーディオコー ド選択部 2 9 0 0 1 0 2では、 入力されたサブべク トルと上記送信側コー ドブック 2 9 0 0 3の有する 2 5 6個のコー ドとの検索を行う。 そ して得られたコ一 ドに対して、 位相情報抽出部 2 9 0 0 1 0 7で抽出された、 図 3 1 ( b ) に示される組み合わせのいずれかのものが、 当該サブべク トルの低い周 波数側の 2 b i t分の正負符号と して付加されて、 合計 1 0 b i tのコ 一 ドイ ンデックス と して出力を行う。
このよ う にするこ とで、 本オーディオ符号化装置から出力される コー ドイ ンデックスは、 従来と同様に 1 0 b i t ( 1 0 2 4個) のままで、 送信側コー ドブック 3に格納するコー ドは 8 b i t ( 2 5 6個) とする こ とができ、 位相情報との情報量の和を、 式 ( 2 3 ) の距離計算のコー ドイ ンデッ ク スの情報量と同じにした場合に、 下記の式 ( 2 3 ) で復号 された合成音声と本構成の合成音声と比べてみる と、 ほぼ同等の主観評 価結果を得るこ とができ る。
Figure imgf000061_0001
こ こで本構成と式 ( 2 2 ) を用いた場合の計算!:と メ モ リ 量の関係を 表 3 に示す。 本実施例の構成の方がコー ドブックは 4分の 1 で、 計算 * も従来では 1 0 2 4通り の検索処理が必要であったのが、 2 5 6通り の 検索処理と、 検索結果に対して 2符号を付加する という処理を行う だけ でよ く 、 計算量ならびにメ モ リ を大幅に削減できる こ とが分かる。
(表 3 )
Figure imgf000061_0002
このよ う に本実施の形態 1 0 によれば、 入力べク トルを分割して作成 されたサブべク トルと送信側コー ドブック 2 9 0 0 3 の中の各オーディ ォコー ドとの聴党的な距離のう ち最小距離を有するオーディオコ — ドを 選択するにあたり 、 聴莧的な重要度が髙ぃサブべク トルの要素に相当す る部分については、 オーディオコ一 ド選択部 2 9 0 0 1 0 2でその位相 情報を示す正負符号を無視して取り扱って、 送信側コ— ドブック 2 9 0 0 3のオーディオコー ドとの比較検索を行い、 得られた結果に別途、 位 相情報抽出部 2 9 0 0 1 0 7で抽出した上記サブべク トルの要素部分に 対応する位相情報を付加してコー ドイ ンデッ ク ス と して出力する よ う に したので、 体感的な音質の劣化を招く こ となく 、 オーディ オコー ド選択 部 2 9 0 0 1 0 2 における計算量を削減でき、 また、 コー ドブック 2 9
0 0 3に必要なコ ー ド数をも削減するこ とができる。
実施の形態 1 1 .
以下、 本発明の実施の形態 1 1 によるオーディオ信号符号化装置につ いて、 図面を参照しながら説明する。 図 3 2 ( a ) は本実施の形態 1 1 におけるオーディオ信号符号化装置の構成を示す図であ り 、 図 3 2 にお いて、 3 2 0 0 1 0 3 は人間の聴覚心理特性を考慮した各周波数におけ る相対的な聴党心理量のテーブルを格納する聴覚心理重みベク トルテ一 ブルである。
以下、 動作について説明する。 上記実施の形態 1 0 との違いは、 聴党 心理重みべク トルテーブル 3 2 0 0 1 0 3 が新たに付加された構成であ るこ とである。 聴覚心理重みべク トルとは、 人間の聴覚心理モデルに基 づき、 周波数に対する聴覚の感度特性と して定義された聴宽感度テ一ブ ルなどから、 本実施の形態の入力べク トルの各要素に対する同 じ周波数 帯の要素を集めてべク トル化したものである。 これは例えば、 図 3 2 ( b ) に示されるよ う に、 周波数 2 . 5 K H z 程度にピーク を有してお り 、 周波数の最も低い位置にある ものが必ずしも人の聴覚的に重要でな いものであるこ とがわかる。
すなわち、 本実施の形態では、 M D C T係数をオーディオコ ー ド選択 部 2 9 0 0 1 0 2への入力べク トルと して、 聴覚心理重みべク トルテー ブル 3 2 0 0 1 0 3 をコー ド選択時の重みと して、 送信側コー ドブック 2 9 0 0 3 中の各コー ドと入力べク トルと の聴党的な距離を算出し、 最 小の距離を与えるコ ー ドに対するコ ー ドイ ンデッ ク スを出力する。 コ 一 ドイ ンデッ ク スを i と した場合にオーディオコー ド選択部 2 9 0 0 1 0 2 におけるコー ド選択時の距雕尺度 D i は、 例えば、 N \i
D , = ∑∑lVj{abs(aj)-abs{Xj)} +∑ ∑Wj[Cij - Xj} ( 2 4 )
=0 =0 '0 となる。 ここで、 Nは送信側コー ドブック 2 9 0 0 3 中の全コー ドの個 数であり 、 Cij はコー ドイ ンデックス i における j 番目の要素の値であ る。 Mは本実施例の場合、 1 9以下の数、 例えば、 1 などである。 P は 距離計算におけるノルムであ り 、 例えば、 2 などである。 Wj は、 聴党心 理重みべク トルテーブル 3 2 0 0 1 0 3の j 番目の要素である。 また、 abs( ) は絶対値演算を意味する。
位相情報抽出部 2 9 0 0 1 0 7では、 聴覚心理重みべク トルテーブル 3 2 0 0 1 0 3から、 どの周波数のオーディオ特徴ベク トルに相当する 要素の位相情報を抽出するかを判断し、 その範囲で最小の Di を与える コー ドイ ンデックス I と M個の位相情報 Ph(j) j=0 to M を出力する。 位 相情報 Ph(j) は、 式 ( 2 2 ) で同様に定義される。
このよ う に本実施の形態 1 1 によれば、 入力べク トルを分割して作成 されたサブべク トルと送信側コー ドブック 2 9 0 0 3 の中の各オーディ ォコー ドとの聴党的な距離の う ち最小距離を有するオーディオ ドを 選択するにあた り 、 聴覚的な重要度が高いサブべク トルの要素に相当す る部分については、 オーディ オ ド選択部 2 9 0 0 1 0 2でその位相 情報を示す正負符号を無視して取り扱って、 送信側コー ドブック C 3の オーディオコー ドと の比較検索を行い、 得られた結果に別途、 位相情報 抽出部 2 9 0 0 1 0 7 で抽出した上記サブべク トルの要素部分に対応す る位相情報を付加して ドイ ンデックス と して出力するよ う にしたの で、 体感的な音質の劣化を招く ことなく 、 オーディ オコー ド選択部 2 9 0 0 1 0 2 における計算量を削減でき、 また、 コー ドブッ ク 2 9 0 0 3 に必要なコー ド数をも削減することができる。
また、 上記オーディオ ド選択部 2 9 0 0 1 0 2 でその位相情報を 示す正負符号を無視して取り扱うオーディオ特徴べク トルを、 人間の聴 党心理特性を考慮した各周波数における相対的な聴覚心理量のテーブル を格納する聴 ¾心理重みべク トルテーブル 3 2 0 0 1 0 3を用いて重み 付けして選択するこ とによ り 、 上記実施の形態 1 0のよ うに単に低域か ら所定個数のベク トルを選択するものに比べて、 よ り 体感的に音質の優 れた量子化を行う こ とができる。
実施の形態 1 2.
以下、 本発明の実施の形態 1 2によるオーディ オ信号符号化装置につ いて、 図面を参照しながら説明する。 図 3 3 ( a ) は本実施の形態 1 2 におけるオーディオ信号量子化装置の構成を示す図であ り 、図において、 3 3 0 0 1 0 4は平滑べク トルテーブルであり 、 実際には除算カーブ等 のデータが格納されている。 3 3 0 0 1 0 5は入力べク トルを平滑べク トルテーブル 3 3 0 0 1 0 4に格納された平滑べク トルを用いて、 べク トル要素同士の除算によ り平滑化を行う 平滑化部である。
以下、 動作について説明する。 上記平滑化部 3 3 0 0 1 0 5へは、 上 記実施の形態 1 0および実施の形態 1 1 におけるオーディオ信号符号化 装置と同様、 MD C T係数等が入力ベク トルと して入力され、 この平滑 化部 3 3 0 0 1 0 5では平滑べク トルテーブル 3 3 0 0 1 0 4に格納さ れた平滑べク トルである除算力一ブを用いて、 入力べク トルに平滑演算 を行う。 この平滑演算は、 例えば、 入力べク トルを Xと し、 平滑べク ト ル 3 3 0 0 1 0 4を Fと し、平滑化部 3 3 0 0 1 0 5の出力を Yと して、 それぞれのべク トルの I 番目 の要素を Xi,Fi,Yi と した場合に、式( 2 5 ) 式で表される処理を行なう。
Y i = X i I F i (2 5 )
平滑べク トルテーブル 3 3 0 0 1 0 4は、 入力べク トルが MD C T係 数である場合には、 MD C丁係数の分散を小さ く する よ うな値である。 図 3 3 ( b ) は上記平滑化の処理を模式的に示したものであ り 、 サブべ ク 卜ル化された要素のう ちの低域側から 2つ分の要素に対して除算処理 を行う こ とによ り 、 周波数毎の情報量の格差 ( レンジ) を縮めるこ とが できる。
そして、 平滑化部 3 3 0 0 1 0 5の出力は、 オーディオコー ド選択部 2 9 0 0 1 0 2の入力とな り 、 コー ド選択部 2 9 0 0 1 0 2では上述し た実施の形態 1 0 と同様に、 平滑化された入力ベク トルは、 位相惰報抽 出部 2 9 0 0 1 0 7にて、 周波数の低い方から 2番目までの要素に対し て、 その位相情報が抽出され、 一方、 オーディオコー ド選択部 2 9 0 0 1 0 2では、 送信惻コー ドブック 3 3 0 0 3 1 に格納された 2 5 6個の コー ドとの検索を行う。 このと き、 そのまま得られた検索結果に対応す るコー ドイ ンデックス ( 8 b i t ) を出力する と正しい検索結果が得ら れないので、 平滑べク トルテーブル 3 3 0 0 1 0 4 よ り 平滑化処理時の 情報を受け取り 、 スケーリ ングを調整した上で、 該検索結果に対応する コー ドイ ンデックス ( 8 b i t ) の選択を行い、 このよ う にして得られ た結果に 2 ビッ ト分の位相情報を付加して 1 O b i t のコー ドイ ンデッ ク ス I を出力する。
このと きの入力べク トルと送信側コー ドブック 3 3 0 0 3 1 に格納 されたコー ドとの距離 Di は、 例えば、 平滑べク トルテーブル 3 3 0 0 1 0 4の各 i 番目の要素を Fi と して、 式 ( 2 6 ) のよ う に示される。 ?;= ∑∑ Fj[abs{aj) - abs{Xj)) +∑ ∑ j{Cij - Xj] ( 2 6 )
ここで、 Nは送信側コー ドブック 3 3 0 0 3 1 中の全コ一 ドの個数で あり 、 Cij はコー ドイ ンデックス i における j 番目の要素の値である。 M は本実施の形態の場合、 1 9以下の数、 例えば、 1 などである。 P は 距離計算におけるノルムであ り 、 例えば、 2などである。 Wj は、 聴党心 理重みべク トルテーブル 3 2 0 0 1 0 3 の j 番目の要素である。 また、 abs( ) は絶対値演算を意味する。 位相情報抽出部 2 9 0 0 1 0 7では、 最小の Di を与えるコー ドイ ンデックス i と M個の位相情報 Ph(j) j=0 to M を出力する。 位相情報 Ph(j) は、 式 ( 2 2 ) で同様に定義される。
このよ う に本実施の形態 1 2 によれば、 入力べク トルを分割して作成 されたサブべク トルと送信側コー ドブック 3 3 0 0 3 1 の中の各オーデ ィォコー ドとの聴党的な距離の う ち最小距離を有するオーディオコー ド を選択するにあたり 、 聴党的な重要度が高いサブべク トルの要素に相当 する部分については、 オーディ オコー ド選択部 2 9 0 0 1 0 2でその位 相情報を示す正負符号を無視して取り扱って、 送信側コー ドブック 3 3 0 0 3 1 のオーディオコー ドとの比較検索を行い、得られた結果に別途、 位相情報抽出部 2 9 0 0 1 0 7で抽出した上記サブべク トルの要素部分 に対応する位相情報を付加してコー ドイ ンデックス と して出力する よ う に したので、 体感的な音質の劣化を招く こ となく 、 オーディオコー ド選 択部 2 9 0 0 1 0 2 における計算量を削減でき、 また、 送信側コ一 ドブ ック 3 3 0 0 3 1 に必要なコー ド数をも削減する こ とができる。
また、 入力べク トルを平滑化テーブル 3 3 0 0 1 0 4, 平滑化部 3 3 0 0 1 0 5 を用いて平滑化するよ う に したから、 オーディ オコー ド選択 部 2 9 0 0 1 0 2で検索を行う際に参照される、 送信惻コ一 ドブッ ク 3 3 0 0 3 1 に記憶しておく コ一 ドブックの周波数毎の情報!:を全体的に 少ないものとするこ とができ る。
実施の形態 1 3 .
以下、 本発明の実施の形態 1 3 によるオーディオ信号符号化装置につ いて、 図面を参照しながら説明する。 図 3 4は本発明の実施の形態 1 3 におけるオーディオ信号符号化装 Sの構成を示す図であ り 、図において、 図 3 3 に示した実施の形態 1 2 との違いは、 オーディオコー ド選択部 2
9 0 0 1 0 2でコー ドを選択する際に、 平滑べク 卜ルテーブル 3 3 0 0
1 0 4に加えて、 実施の形態 1 1 で用いた聴覚心理重みべク トルテープ ノレ 3 2 0 0 1 0 3 をも使用するよ う に した点である。
以下、 動作について説明する。 平滑化部 3 3 0 0 1 0 5へは、 上記実 施の形態 1 0 と 同様、 MD C T係数等が入力べク トルと して入力され、 この平滑化部 3 3 0 0 1 0 5の出力は、 オーディオコー ド選択部 2 9 0 0 1 0 2の入力とな り、 オーディオコー ド選択部 2 9 0 0 1 0 2では、 送信側コー ドブック 3 3 0 0 3 1 中の各コー ドと上記平滑化部 3 3 0 0 1 0 5 の出力との距離を、 平滑べク トルテーブル 3 3 0 0 1 0 4力ゝら出 力される平'滑処理時の情報に基づいて、 平滑処理時のスケーリ ングを考 慮しつつ聴覚心理重みべク トルテ一ブル 3 2 0 0 1 0 3 の聴党心理重み ベク トルによる重み付けを加味して算出する。 上記実施の形態 1 0 , 1 1 と 同様の表記を用いて、 距離 Di は、 例えば、 式 ( 2 7 ) のよ う に示 される。 ( 2 7 )
Figure imgf000067_0001
こ こで、 Nは送信側コー ドブック 3 3 0 0 3 1 中の全コー ドの個数で あり 、 Cij はコー ドイ ンデックス i における j 番目の要素の値である。 M は本実施例の場合、 1 9以下の数、 例えば、 1 などである。 P は距 離計算における ノルムであり 、 例えば、 2 などである。 Wj は、 聴覚心理 重みべク トノレテーブル 3 2 0 0 1 0 3 の j 番目の要素である。 また、 abs( ) は絶対値演算を意味する。 位相情報抽出部 2 9 0 0 1 0 7では、 最小の Diを与えるコー ドイ ンデックス I と M個の位相情報 Ph(j) j=0 to M を出力する。 位相情報 Ph(j) は、 上記式 ( 2 2 ) で同様に定義される。
このよ う に本実施の形態 1 3 によれば、 入力べク トルを分割して作成 されたサブべク トルと送信側コー ドブック 3 3 0 0 3 1 の中の各オーデ ィォコ一 ドとの聴筧的な距離のう ち最小距離を有するオーディ オコ 一 ド を選択するにあたり 、 聴覚的な重要度が高いサブべク トルの要素に相当 する部分については、 オーディオコー ド選択部 2 9 0 0 1 0 2 でその位 相情報を示す正負符号を無視して取り扱って、 送信側コー ドブッ ク 3 3 0 0 3 1 のオーディオコ ー ドとの比較検索を行い、得られた結果に別途、 位相情報抽出部 2 9 0 0 1 0 7 で抽出した上記サブべク トルの要素部分 に対応する位相情報を付加してコ 一 ドイ ンデックス と して出力するよ う にしたので、 体感的な音質の劣化を招く こ となく 、 オーディオコー ド選 択部 2 9 0 0 1 0 2 における計算量を削減でき、 また、 送信側コー ドブ ック 3 3 0 0 3 1 に必要なコー ド数も削減する こ とができる。
また、 上記オーディオコ ー ド選択部 2 9 0 0 1 0 2でその位相情報を 示す正負符号を無視して取り扱う特徴べク トルを、 人間の聴覚心理特性 を考慮した各周波数における相対的な聴覚心理量のテーブルを格納する 聴覚心理重みべク トルテーブル 3 2 0 0 1 0 3 を用いて重み付けして選 択するこ とによ り 、 上記実施の形態 1 0のよ う に単に低域から所定個数 の特徴べク トルを選択する ものに比べて、 よ り体感的に音質の優れた量 子化を行う こ とができる。
さ らに、 入力ベク トルを平滑化テーブル 3 3 0 0 1 0 4 , 平滑化部 3 3 0 0 1 0 5 を用いて平滑化するよ う にしたから、 オーディオコ ー ド選 択部 2 9 0 0 1 0 2 で検索を行う際に参照される、 送信側コー ドブック 3 3 0 0 3 1 に記憶しておく コー ドブックの周波数毎の情報量を全体的 に少ないものとすることができ る。
実施の形態 1 4 .
以下、 本発明の実施の形態 1 4 によるオーディオ信号符号化装 につ いて、 図面を参照しながら説明する。 図 3 5 は本発明の実施の形態 1 4 におけるオーディ オ信号符号化装匿の構成を示す図であり 、図において、 3 5 0 0 1 0 6 はソー ト部であ り 、 聴覚心理重みべク トルテーブル 3 2 0 0 1 0 3 の出力と平滑べク トルテーブル 3 3 0 0 1 0 4 の出力と を受 け、 算出されたべク トルの う ちのもっ と も大きな要素を複数個選択して これを出力する。 以下、 その動作について説明する。 本実施の形態 1 4 と上記実施の形 態 1 3の構成上の違いは、ソー ト部 3 5 0 0 1 0 6が付加されたこ と と、 オーディオコ ー ド選択部 2 9 0 0 1 0 2のコ一 ドイ ンデックスを選択し て出力する方法が違う点にある。
すなわち、 ソー ト部 3 5 0 0 1 0 6では、 聴覚心理重みべク トルテ一 ブル 3 2 0 0 1 0 3 と平滑べク トルテーブル 3 3 0 0 1 0 4の出力と を 入力と し、 例えば、 べク トル WFの j 番目 の要素を WF j と定義する と、 以下の式 ( 2 8 ) で示される。
ゾ ( ゾ * ゾ ) ( 2 8 ) そ して、 このソ一 ト部 3 5 0 0 1 0 6では、 べク トル WFの各要素 W F j の中から最も大きな R個の要素を算出し、 その R個の要素番号をソ ー ト部 3 5 0 0 1 0 6の出力とする。 オーディオコー ド選択部 2 9 0 0 1 0 2では、 上記各実施の形態と同様、 距離 Diを算出する。 距離 Diは、 例えば、 次の式 ( 2 9 ) で示される。
Figure imgf000069_0001
( 2 9 )
Wj*Fj* {abs{Cij) - abs{ Xj) at RJ= 1
F U N C W-= =
Wj*Fj*{CiJ-Xj}P at こ こで、 Rj はソー ト部 3 5 0 0 1 0 6によって、 出力された要素番 号であるなら Rjは 1であり 、 出力された要素番号でないなら Rjは 0 と する。 Nは送信側コー ドブック 3 3 0 0 3 1 中の全コー ドの個数であ り 、 Cij はコー ドインデックス i における j 番目の要素の値である。 M は本 実施例の場合、 1 9以下の数、 例えば、 1などである。 P は距離計算に おけるノ ルムであ り 、 例えば、 2などである。 Wjは、 聴覚心理重みべク トルテーブル 3 2 0 0 1 0 3の i 番目の要素である。 また、 abs( ) は 絶対値演算を意味する。 位相情報抽出部 2 9 0 0 1 0 7では、 最小の Di を与えるコ ー ドインデックス I と M個の位相情報 Ph(j) j = Oto Rを出力 する。 位相情報 Ph(j) は、 式 ( 3 0 ) で定義される。
Figure imgf000070_0001
ただし、 Ph(j) は、 ソー ト部 3 5 0 0 1 0 6で出力された要素番号に 対応するもののみについて計算される。 本例では (R + 1 ) 個である。 本実施の形態 1 4の構成を用いる場合には、 このイ ンデッ ク スを復号化 する場合にも、ソー ト部 3 5 0 0 1 0 6 を備えた構成とする必要がある。
このよ う に本実施の形態 1 4 によれば、 上記実施の形態 1 3 において、 平滑べク トルテーブル 3 3 0 0 1 0 4 の出力 と聴覚心理重みべク トルテ —ブル 3 2 0 0 1 0 3の出力 と を受け、 これらの出力結果から、 べク ト ルの う ちのもっと も大きな要素、 すなわち、 重み絶対値の大きな要素を 複数個選択してこれをオーディオコー ド選択部 2 9 0 0 1 0 2 に出力す るよ う にしたので、 人間の聴党特性にとって意味の大きな要素と、 物理 的に重要な要素と を両方加味してコ一 ドイ ンデッ ク スを算出する こ と力 でき、 よ り 品質の高いオーディオ信号符号化化を行う こ と ができ る。
なお、 本実施の形態 1 4 では、 平滑べク トル 3 3 0 0 1 0 4 と聰党心 理重みべク トル 3 2 0 0 1 0 3 の両者を考慮した重みの絶対値の大きい ものから要素を選択する個数を R個と したが、 これは、 上記実施の形態 1 0 〜 1 3 で使用 した Mと同じ数値であってもかまわない。
実施の形態 1 5 .
以下、 本発明の実施の形態 1 5 によるオーディ オ信号復号化装 Sにつ いて、 図面を参照しながら説明する。 図 3 6 は本発明の実施の形態 1 5 におけるオーディオ信号復号化装置の構成を示す図であり 、 図 3 6 にお いて、 3 6 0 0 2 1 は復号化部であり 、 受信側コー ドブック 3 6 0 0 6 1 と コー ド復号部 3 6 0 0 5 1 とから構成され、 さ らにコー ド復号化部 3 6 0 0 5 1 は、 オーディオコー ド選択部 2 9 0 0 1 0 2 と位相情報抽 出部 2 9 0 0 1 0 7 とから構成されたものとなっている。
以下、 その動作について説明する。 本実施の形態 1 5では、 コー ドィ ンデックスを受信してデコー ドする際に、 上記実施の形態 1 0〜 1 4 に 示した符号化方式を応用 したものであり 、 すなわち、 オーディオコー ド 選択部 2 9 0 0 1 0 2では、 例えば、 受信した 1 0 b i t のコー ドイ ン デッ ク スのう ち人間の聴党的に重要度の高い低域側から 2 b i t 分の要 素を除く 、 残り 8 b i t 分の要素について、 受信側コー ドブック 3 6 0 0 6 1 に記憶されたコー ドとの比較検索を行い、 上記除外した 2 b i t 分の要素の位相情報については、 これを位相情報抽出部 2 9 0 0 1 0 7 を用いて抽出し、 上記検索結果に対してこれを付加するこ とで、 オーデ ィォ特徴べク トルを再生する、 すなわち逆量子化を行う。
このよ うにするこ と で、 上記受信側コー ドブック と しては、 8 b i t 分の要素に対応する 2 5 6個のコー ドを格納すればよ く 、 受信側コー ド ブック 3 6 0 0 6 1 に格納するデータ量を少ないものとする こ とができ, また、 オーディオコー ド選択部 2 9 0 0 1 0 2での演算は 2 5 6 回のコ ー ド検索と、 検索結果に対して 2符号を付加する処理となり 、 大幅に演 算量を削減するこ とができ る。
なお、 本実施の形態 1 5では、 実施の形態 1 0 の構成を受信側の構成 に応用したものを示したが、 実施の形態 2〜 5に示した構成のものを応 用するこ と も可能であり 、 また、 受信側に単独で用いるのではなく 、 上 記実施の形態 1 0ないし 1 4のいずれかの実施の形態と組み合わせて用 いるこ とによ り 、 オーディオ信号の圧縮、 展開をスムーズに行う こ と が できるオーディオデータ送受信システムを構築する こ とができ る。 産業上の利用可能性
以上のよ う に、 本発明の請求項 1 にかかるオーディオ信号符号化方法 によれば、 入力オーディオ信号を周波数変換して得られた周波数特性信 号系列をべク トル量子化する初段のべク トル量子化処理と, 前段のべク ト ル量子化器処理の量子化誤差成分をべク ト ル量子化する 2段目以降の べク ト ル量子化処理と, を有する多段量子化手法を用いてべク ト ル量子 化し、 情報量の符号化をするオーディオ信号符号化方法であって、 上記 多段量子化手法による複数段の量子化処理の う ちの少なく と も 1 つのべ ク トル量子化処理では、 入力オーディ オ信号のスぺク トルと人間の聰党 的な性質である聴觉感度特性と に基づいて算出された周波数上の重み付 け係数を量子化の重み付け係数と して用いて、 べク ト ル量子化を行な う よ う にしたから、 人間の聴覚的な性質を利用 して効率の良い量子化を行 なう こ とができる効果がある。
また、 本発明の請求項 2 にかかるオーディ オ信号符号化方法によれば、 入力オーディオ信号を周波数変換して得られた周波数特性信号系列を、 べク ト ル量子化する第 1 のべク トル量子化処理と, 第 1 のべク ト ル量子 化処理での量子化誤差成分をべク ト ル量子化する第 2のべク ト ル量子化 処理と, を有する多段量子化手法を用いてべク ト ル量子化し、 情報量の 符号化をするオーディオ信号符号化方法であって、 入力オーディ オ信号 のスペク ト ル と人間の聴覚的な性質である聴覚感度特性と に基づいて、 上記第 1 のべク ト ル量子化処理での量子化誤差成分の周波数プロ ックの う ち量子化する重要度の高い周波数ブロ ック を選択し、 上記第 2 のべク ト ル量子化処理で、 上記選択された周波数プロ ックについて上記第 1 の 量子化処理の s子化誤差成分の量子化を行な う よ う に したから、 人間の 聴党的な性質を利用 して効率の良い量子化を行な う こ とができる効果が ある。
また、 本発明の請求項 3 にかかるオーディオ信号符号化方法によれば、 入力オーディオ信号を周波数変換して得られた周波数特性信号系列を、 ぺク トル量子化する初段のべク トル量子化処理と ' 前段のべク トル量子 化処理での量子化誤差成分をべク トル量子化する 2段目以降のべク トル 量子化処理と, を有する多段量子化手法を用いてベク ト ル量子化し、 惰 報量の符号化をするオーディオ信号符号化方法であって、 上記多段量子 化手法による複数段の量子化処理のう ちの少なく と も 1 つのべク トル量 子化処理では、 入力オーディオ信号のスぺク トルと人間の聴党的な性質 である聴覚感度特性とに基づいて算出された周波数上の重み付け係数を 量子化の重み付け係数と して用いてベク トル量子化を行ない、 かつ、 入 力オーディオ信号のスペク ト ル と人間の聴党的な性質である聴覚感度特 性とに基づいて、 上記初段のべク トル量子化処理での量子化誤差成分の 周波数ブロ ックのう ち量子化する重要度の高い周波数ブロ ックを選択し、 上記 2段目のべク ト ル量子化処理で、 上記選択された周波数ブロ ック に ついて上記初段の量子化処理の量子化誤差成分の量子化を行な う よ う に したから、 人間の聴覚的な性質を利用 して効率の良い量子化を行な う こ とができる効果がある。
また、 本発明の請求項 4 にかかるオーディオ信号符号化装置によれば、 入力されたオーディ オ信号を周波数領域信号に変換する時間周波数変換 部と、 上記入力されたオーディ オ信号のスぺク ト ル包絡を算出する スぺ ク ト ル包絡算出部と、 上記時間周波数変換部で得られた周波数領域信号 を上記スぺク トル包絡算出部で得られたスぺク ト ル包絡で正規化し残差 信号を得る正規化部と、 上記残差信号をパワーによ り正規化するパワー 正規化部と、 上記入力されたオーディオ信号のスぺク トルと人間の聴覚 的な性質である聴覚感度特性とに基づき周波数上の重み付け係数を算出 する聴覚重み付け計算部と、 上記パワー正規化部によ り 正規化された上 記残差信号が入力される、 縦列に接続された複数段のべク ト ル量子化部 を有し、 そのう ちの少なく と も 1 つのべク ト ル量子化部が上記重み付け 部で得られた重み付け係数を用いて量子化を行な う多段量子化部と を備 えた構成と したから、 人間の聴覚的な性質を利用 して効率の良い量子化 を行なう こ とができる効果がある。
また、 本発明の請求項 5にかかるオーディオ信号符号化装 gによれば、 上記請求項 4記載の発明において、 上記多段量子化部の上記複数段のう ちの複数の量子化部が、 上記重み付け計算部で得られた重み付け係数を 用いて量子化を行な う ものと し、 かつ、 上記聴覚重み付け部が、 上記複 数の量子化部のそれぞれが用いる個別の重み付け係数を算出する ものと したから、 人間の聴覚的な性質をよ り 有効に利用して効率の良い量子化 を行なう こ とができる効果がある。
また、 本発明の請求項 6 にかかるオーディオ信号符号化装置によれば、 上記請求項 5記載の発明において、 上記多段量子化部が、 上記スぺク ト ル包絡算出部で得られたスペク ト ル包絡を各周波数領域での重み付け係 数と して上記パワー正規化部で正規化された上記残差信号の量子化を行 なう第 1段の量子化部と、 上記スぺク トル包絡と上記第 1段の量子化部 の量子化誤差信号との相関に基づいて算出された重み付け係数を各周波 数領域での重み付け係数と して上記第 1 段の量子化部の量子化誤差信号 の量子化を行なう第 2段の童子化部と、 上記聴党重み付け計算部におい て、 時間周波数変換部で周波数領域信号に変換された入力信号と聴党特 性と によ り算出された重み付けを、 上記スぺク ト ル包絡, 上記第 2段の 量子化部の量子化誤差信号, および上記パワー正規化部で正規化された 上記残差信号に基づいて調整して求めた重み付け係数を、 各周波数領域 での重み付け係数と して上記第 2段の量子化部の量子化誤差信号の量子 化を行なう第 3段の量子化部と を備えた構成と したから、 人間の聴覚的 な性質を有効に利用 して効率の良い量子化を行な う こ とができ る効果が ある。
また、 本発明の請求項 7にかかるオーディ オ信号符号化装置によれば、 入力されたオーディオ信号を周波数領域信号に変換する時間周波数変換 部と 、 上記入力されたオーディオ信号のスぺク ト ル包絡を算出する スぺ ク トル包絡算出部と、 上記時間周波数変換部で得られた周波数領域信号 を上記スぺク トル包絡算出部で得られたスぺク トル包絡で正規化し残差 信号を得る正規化部と、 上記残差信号をパワーによ り正規化するパワー 正規化部と、 該パワー正規化部で正規化された残差信号の量子化を行な う第 1 のべク トル量子化器と、 入力オーディオ信号のスぺク トルと人間 の聴覚的な性質である聴覚感度特性とに基づき、 上記第 1 のべク ト ル量 子化器での量子化誤差成分の周波数プロ ックのう ち!:子化する重要度の 高い周波数ブロ ックを選択する聴覚的選択手段と、 該聴宽的選択手段で 選択された周波数プロ ックについて上記第 1 のべク トル量子化器の量子 化誤差成分の量子化を行なう第 2の量子化器と を備えた構成と したから、 人間の聴党的な性質を有効に利用して効率の良い量子化を行なう こ とが できる効果がある。
また、 本発明の請求項 8にかかるオーディオ信号符号化装置によれば、 上記請求項 7記載の発明において、 上記聴党的選択手段が、 上記聴党的 選択手段が、 上記第 1 のベク トル量子化器の量子化誤差成分, 上記スぺ ク トル包絡算出部で得られたスぺク トル包絡信号, 及び最小可聴限特性 の逆特性を乗算した値を、 量子化すべき重要度の尺度と して用いて、 周 波数ブロ ック を選択する構成と したから、 人間の聴党的な性質を有効に 利用して効率の良い量子化を行なう こ とができ、 かつ第 1 のべク ト ル量 子化器での量子化が良好である部分が再度量子化されて逆に誤差が生じ てしま う こ と を防止でき、 高品質を保持した量子化を行な う こ とができ る効果がある。
また、 本発明の請求項 9 にかかるオーディ オ信号符号化装置によれば、 請求項 7記載の発明において、 上記聴党的選択手段が、 上記スぺク ト ル 包絡算出部で得られたスぺク トル包絡信号, 及び最小可聴限特性の逆特 性を乗算した値を、 量子化すべき重要度の尺度と して用いて、 周波数ブ π ックを選択する構成と したから、 人間の聴党的な性質を有効に利用 し て効率の良い量子化を行なう こ とができ、 かつ量子に必要なコ一 ドを少 なく でき、 圧縮率を向上でき る効果がある。
また、 本発明の請求項 1 0 にかかるオーディオ信号符号化装置によれ ば、 上記請求項 7記載の発明において、 上記聴党的選択手段が、 上記第 1 のべク トル量子化器の量子化誤差成分と、 上記スぺク トル包絡算出部 で得られたスぺク ト ル包絡信号と、 最小可聴限特性と入力信号から計算 されたマス キング特性とを加算した特性の逆特性と を乗算した値を、 量 子化すべき重要度の尺度と して用いて、 周波数ブロ ックを選択する構成 と したから、 人間の聴覚的な性質を有効に利用 して効率の良い量子化を 行な う こ とができ、 かつ第 1 のべク ト ル量子化器での量子化が良好であ る部分が再度量子化されて逆に誤差が生じて しま う こ と を防止でき、 髙 品質を保持した量子化を行な う こ とができる効果がある。
また、 本発明の請求項 1 1 にかかるオーディオ信号符号化装置によれ ば、 請求項 7記載の発明において、 上記聴党的選択手段が、 上記第 1 の べク トル量子化器の量子化誤差成分と、 上記スぺク トル包絡算出部で得 られたスぺク トル包絡信号と、 最小可聴限特性と, 入力信号から計算さ れたマス キ ング特性に上記パワー正規化部で正規化された残差信号, 上 記スぺク トル包絡算出部で得られたスぺク ト ル包絡信号, 及び上記第 1 段の量子化部の量子化誤差信号に基づいて補正をかけた特性と, を加算 した特性の逆特性と を乗算した値を、 量子化すべき重要度の尺度と して 用いて、 周波数ブロ ック を選択する構成と したから、 人間の聴党的な性 質を有効に利用 して効率の良い量子化を行なう こ とができ、 かつ第 1 の べク トル量子化器での量子化が良好である部分が再度量子化されて逆に 誤差が生じて しま う こ とを防止でき、 高品質を保持した量子化を行な う こ とができ る効果がある。
また、 本発明の請求項 1 2 ないし 3 8 にかかるオーディオ信号符号化 装置および復号化装 によれば、 量子化にはべク ト ル量子化の手法を用 いるなどして高い情報圧縮率においても量子化可能な構成を有する と と もに、 量子化時の情報量の配分を、 再生帯域の拡張に寄与する情報と品 質向上に寄与する情報の両者を交互に配分していく という構成を採用 し、 まず符号化装置においては、 第 1段階と して、 入力のオーディオ信号を 周波数領域の信号に変換し、変換された周波数信号の一部を符号化する, 第 2段階では、 符号化されていない周波数信号の一部と、 第 1段階の符 号化誤差信号の符号化し、 第 1 段階の符号に付加する, 第 3段階では、 さ らに符号化されていない周波数信号の一部と、 第 1 段階および第 2段 階の符号化誤差信号の符号化を行い第 1 段階、 第 2段階の符号に付加す る, 同様にさ らに段階を重ね符号化を行い、 一方、 復号化装置では、 第 1 段階の符号化された符号のみを用いて復号を行う こ と も、 第 1 段階と 第 2段階の復号化された符号を用いて復号を行う こ と も、 第 1 段階から 第 1 以上の段階の復号化された符号を用いて復号し、 復号化の順は、 带 域拡張に寄与するものと、 品質向上に寄与するものを交互に復号する構 成と したので、 固定された情報量で符号化、 及び復号化を行なわなく と も、 良好な音質を得る こ とができ、 また、 高い圧縮率にて高品質な音を 得るこ とができるよ う になる。
また、 本発明の請求項 3 9に係るオーディオ信号符号化装置によれば、 入力オーディ オ信号を周波数変換して得られた周波数特性 ί言号系列を入 力信号と し、 該周波数特性信号系列の う ちの所定の周波数帯域に属する ものの位相情報を抽出する位相情報抽出部と、 上記周波数特性信号系列 の代表値であるオーディオコ一 ドを、 上記抽出した位相情報に対応する 要素部分を絶対値化した状態のものと して複数個これを格納するコー ド ブック と、 上記周波数特性信号系列と上記コー ドブック中の各オーディ ォコー ドとの聴党的な距離を算出して、 その最小距離を有するオーディ ォコー ドを選出する と と もに、 該最小距離を有するオーディオコ ー ドに 対する位相情報を上記位相惰報抽出部からの出力を補助情報と して用い て付加し、 該最小距離を有するオーディオコ一 ドに対応するコ一 ドイ ン デックスをその出力信号と して出力するオーディオコー ド選択部と を備 えたので、 体感的な音質の劣化を招く こ となく 、 オーディオコー ド選択 部における計算量を削滅でき、 また、 コー ドブックに記憶すべき コー ド 数をも削滅するこ とができる効果がある。
また、 本発明の請求項 4 1 に係るオーディオ信号量子化装置によれば、 上記請求項 3 9記載のオーディオ信号量子化装置において、 人間の聴覚 心理特性を考慮した各周波数における相対的な聴覚心理量のテーブルで ある聴覚心理重みべク トルテーブルを備え、 上記位相情報抽出部は、 入 力された周波数特性信号系列の う ち、 上記聴覚心理重みべク トルテープ ルに格納されたべク トルと一致する要素の位相情報を抽出する したので、 よ り体感的に音質の優れた量子化を行う こ と ができる効果がある。
また、 本発明の請求項 4 2 に係るオーディ オ信号量子化装 gによれば、 上記請求項 3 9記載のオーディオ信号量子化装置において、 上記周波数 特性信号系列を平滑べク トルを用いてべク トル要素同士の除算によ り平 滑化する平滑化部を備え、 上記オーディオコー ド選択部を、 上記最小距 離を有するオーディオコー ドを選出し、 該選出されたオーディ オコー ド に位相情報を付加する前に、 上記平滑化部から出力される平滑化処理情 報を用いて、 上記選出されたオーディオコー ドを、 平滑化処理のなされ ていないオーディ オコー ドに変換し、 該オーディオコー ドに対応するコ ― ドイ ンデックスをその出力信号と して出力するする よ う にしたので、 オーディオコ一 ド選択部で検索を行う際に参照される、 コー ドブック に 記憶しておく コー ドブックの周波数毎の情報量を全体的に少ないものと する こ とができる効果がある。
また、 本発明の請求項 4 3 に係るオーディオ信号量子化装置によれば、 上記請求項 3 9記載のオーディオ信号量子化装置において、 人間の聴党 心理特性を考慮した各周波数における相対的な聴党心理量のテーブルで ある聴觉心理重みべク トルテーブルと 、 上記周波数特性信号系列を平滑 べク トルを用いて、 べク ト ル要素同士の除算によ り 平滑化する平滑化部 と、 上記聴覚心理重みべク ト ルテーブルの値と上記平滑べク トルテープ ルの値と を乗じて得られる値を聴覚的重要度の高い順に複数個選出して これを上記オーディオコ一 ド選択部に出力する ソー ト部と を備えたと し たので、 人間の聴覚特性にと って意味の大きな要素と、 物理的に重要な 要素と を両方加味してコ一 ドイ ンデッ ク スを算出するこ とができ、 よ り 品質の高いオーディオ信号圧縮化を行う こ とができ る という効果がある。
また、 本発明の請求項 4 7 に係るオーディオ信号逆量子化装置によれ ば、 オーディオ信号の特徴量である周波数特性信号系列を量子化して得 られたコー ドイ ンデッ クスを入力信号と し、 該コー ドイ ンデッ ク スの う ちの所定の周波数帯域に相当する要素の位相情報を抽出する位相情報抽 出部と、 上記コー ドイ ンデックスに対応する周波数特性信号系列を、 上 記抽出した位相情報に対応する要素部分を絶対値化した状態のものと し て複数個これを格納するコー ドブック と 、 上記コー ドイ ンデックス と上 記コー ドブック 中の周波数特性信号系列との聴覚的な距離を算出して、 その最小距離を有する周波数特性信号系列を選出する と と もに、 該最小 距離を有する周波数特性信号系列に対する位相情報を上記位相情報抽出 部からの出力を補助情報と して用いて付加し、 上記入力信号であるコー ドイ ンデックスに対応する周波数特性信号系列をその出力信号と して出 力するオーディオコー ド選択部とを備えたので、 受信側で用いるコ一 ド ブックに格納するデータ量を少ないものとするこ とができ、 また、 受信 側での演算量を大幅に削減することができるでき る効果がある。

Claims

請 求 の 範 囲
1 . 入力オーディオ信号を周波数変換して得られた周波数特性信号系 列をべク トル量子化する初段のべク トル量子化処理と, 前段のべク トル 量子化処理での £子化誤差成分をべク トル量子化する 2段目以降のべク ト ル量子化処理と,を有する多段量子化手法を用いてベク ト ル量子化し、 情報量の符号化をするオーディオ信号符号化方法であって、
上記多段量子化手法によ る複数段の量子化処理の う ちの少な く と も 1 つのべク トル量子化処理では、 入力オーディオ信号のスぺ ク トルと人 間の聴觉的な性質である聴党感度特性と に基づいて算出された周波数上 の重み付け係数を量子化の重み付け係数と して用いて、 ベタ トル量子化 を行なう こ とを特徴とするオーディオ信号符号化方法。
2 . 入力オーディオ信号を周波数変換して得られた周波数特性信号系 列をべク トル量子化する第 1 のべク ト ル量子化処理と, 第 1 のべク トル 量子化処理での量子化誤差成分をべク トル量子化する第 2のべク トル量 子化処理と, を有する多段量子化手法を用いてべク トル量子化し、 倌報 量の符号化をするオーディオ信号符号化方法であって、
入力オーディ オ信号のスペク ト ル と人間の聴党的な性質である聴覚 感度特性と に基づいて、 上記第 1 のべク トル量子化処理での量子化誤差 成分の周波数ブロ ックのう ち量子化する重要度の高い周波数ブロ ック を 選択し、 上記第 2のべク トル量子化処理では、 上記選択された周波数ブ ロ ックについて上記第 1 の量子化器の量子化誤差成分の量子化を行な う こ とを特徴とするオーディオ信号符号化方法。
3 . 入力オーディ オ信号を周波数変換して得られた周波数特性信号系 列をべク トル; t子化する初段のべク トル量子化処理と, 前段のべク トル 量子化処理での量子化誤差成分をべク ト ル量子化する 2段目以降のベタ トル量子化処理と,を有する多段量子化手法を用いてベク ト ル量子化し、 情報量の符号化をするオーディオ信号符号化方法であって、
上記多段量子化手法によ る複数段の量子化処理の う ちの少なく と も 1 つのべク トル量子化処理では、 入力オーディオ信号のスぺク トルと人 間の聴覚的な性質である聴覚感度特性とに基づいて算出された周波数上 の重み付け係数を量子化の重み付け係数と して用いてべク トル量子化を 行ない、
かつ、 入力オーディオ信号のスぺク トルと人間の聴覚的な性質である 聴党感度特性とに基づいて、 上記初段のべク トル量子化処理での量子化 誤差成分の周波数プロ ックのう ち量子化する重要度の高い周波数プロ ッ ク を選択し、 上記 2段目のべク トル量子化処理で、 上記選択された周波 数ブロ ックについて上記初段の量子化処理の量子化誤差成分の量子化を 行なう こ と を特徴とするオーディオ信号符号化方法。
- 入力されたオーディオ信号を周波数領域信号に変換する時間周波 数変換部と、
上記入力されたオーディ オ信号のスぺク ト ル包絡を算出するスぺ ク ト ル包絡算出部と、
上記時間周波数変換部で得られた周波数領域信号を上記スペク ト ル 包絡算出部で得られたスペク ト ル包絡で正規化し残差信号を得る正規化 部と、
上記入力されたオーディオ信号のスぺク トルと人間の聴覚的な性質 である聴覚感度特性とに基づき周波数上の重み付け係数を算出する聴覚 重み付け計算部と、
上記正規化された上記残差信号が入力される、 縦列に接続された複数 段のべク トル量子化部を有し、 そのう ちの少なく と も 1 つのべク トル量 子化部が上記重み付け部で得られた重み付け係数を用いて量子化を行な う多段量子化部とを備えたこ とを特徴とするオーディ オ信号符号化装置。
5 . 請求項 4記載のオーディオ信号符号化装置において、 上記多段量子化部の上記複数段の う ちの複数の量子化部が上記重み 付け部で得られた重み付け係数を用いて量子化を行な う ものであり 、 か つ、 上記聴党重み付け計算部は、 上記複数の量子化部のそれぞれが用い る個別の重み付け係数を算出する ものであるこ と を特徴とするオーディ ォ信号符号化装置。
6 . 請求項 5記載のオーディオ信号符号化装置において、
上記多段量子化部は、
上記ス ぺ ク ト ル包絡算出部で得られたスぺ ク ト ル包絡を各周波数領 域での重み付け係数と して上記正規化部で正規化された上記残差信号の 量子化を行なう第 1 段の量子化部と、
上記ス ぺ ク ト ル包絡と上記第 1 段の量子化都の量子化誤差信号との 相関に基づいて算出された重み付け係数を各周波数領域での重み付け係 数と して上記第 1 段の量子化部の!:子化誤差信号の量子化を行なう第 2 段の量子化部と、
上記聴覚重み付け計算部において、 時間周波数変換部で周波数領域信 号に変換された入力信号と聴覚特性とによ り 算出された重み付けを、 上 記スペク ト ル包絡, 上記第 2段の量子化部の量子化誤差信号, および上 記正規化部で正規化された上記残差信号に基づいて調整して求めた重み 付け係数を、 各周波数領域での重み付け係数と して上記第 2段の量子化 部の量子化誤差信号の量子化を行なう第 3段の量子化部と を備えたこ と を特徴とするオーディオ信号符号化装置。
7 . 入力されたオーディ オ信号を周波数領域信号に変換する時間周波 数変換部と、
上記入力されたオーディ ォ信号のスぺ ク ト ル包絡を算出するスぺク ト ル包絡算出部と、
上記時間周波数変換部で得られた周波数領域信号を上記スペク ト ル 包絡算出部で得られたスぺク トル包絡で正規化し残差信号を得る正規化 部と、
該正規化部で正規化された残差信号の量子化を行な う 第 1 のべク ト ル量子化器と、
入力オーディ オ信号のスペク トルと 人間の聴党的な性質である聴觉 感度特性と に基づき、 上記第 1 のべク トル量子化器での量子化誤差成分 の周波数プロ ックのう ち量子化する重要度の高い周波数プロ ック を選択 する聴覚的選択手段と、
該聴覚的選択手段で選択された周波数プロ ッ ク について上記第 1 の ベク ト ル量子化器の量子化誤差成分の量子化を行な う第 2の量子化器と を備えたこ と を特徴とするオーディオ信号符号化装置。
8 . 請求項 7記載のオーディオ信号符号化装置において、
上記聴党的選択手段は、
上記第 1 のべク トル量子化器の量子化誤差成分, 上記スぺク トル包絡 算出部で得られたスぺク トル包絡信号, 及び最小可聴限特性の逆特性を 乗算した値を、 量子化すべき重要度の尺度と して用いて、 周波数ブロ ッ ク を選択するものであるこ と を特徴とするオーディオ信号符号化装置。
9 . 請求項 7記載のオーディオ信号符号化装置において、
上記聴覚的選択手段は、
上記スぺク ト ル包絡算出部で得られたスぺク ト ル包絡信号, 及び最小 可聴限特性の逆特性を乗算した値を、 量子化すべき重要度の尺度と して 用いて、 周波数ブロ ックを選択するものである こ とを特徴とするオーデ ィォ信号符号化装置。
1 0 . 請求項 7記載のオーディオ信号符号化装置において、
上記聴覚的選択手段は、
上記第 1 のべク トル量子化器の量子化誤差成分と、 上記スぺク トル包 絡算出部で得られたスぺク ト ル包絡信号と、 最小可聴限特性と入力信号 から計算されたマス キン グ特性とを加算 した特性の逆特性と を乗算した 値を、 量子化すべき重要度の尺度と して用いて、 周波数ブロ ック を選択 する ものであるこ と を特徴とするオーディオ信号符号化装置。
1 1 . 請求項 7記載のオーディオ信号符号化装匱において、
上記聴覚的選択手段は、
上記第 1 のべク ト ル量子化器の量子化誤差成分と、 上記スぺク トル包 絡算出部で得られたスペク ト ル包絡信号と、 最小可聴限特性と, 入力信 号から計算されたマス キング特性に上記正規化部で正規化された残差信 号, 上記スペク トル包絡算出部で得られたスペク ト ル包絡信号, 及び上 記第 1段の量子化部の量子化誤差信号に基づいて補正をかけた特性と, を加算した特性の逆特性と を乗算した値を、 *子化すべき重要度の尺度 と して用いて、 周波数ブロ ック を選択するものであるこ と を特徴とする オーディオ信号符号化装置。
1 2 . 入力オーディオ信号を周波数変換して得られた周波数特性信号 系列をべク ト ル量子化する第 1 のべク トル量子化器と, 第 1 のべク ト ル 量子化器での量子化誤差成分をべク トル量子化する第 2のべク ト ル量子 化器と, を有する多段量子化手段を用いてべク ト ル量子化し、 情報量の 符号化をするオーディオ信号符号化装置であって、
上記多段量子化手段は、 上記周波数特性信号系列に対して、 少なく と も 2つ以上の周波数帯域に分割した带域に相当する係数列に分けたもの とする と と もに、 上記べク トル量子化器をそれぞれの係数列に対応して 準備された複数の分割化ベク ト ル量子化器によって独立に i子化する も のである こ と を特徴とするオーディオ信号符号化装置。
1 3 . 請求項 1 2記載のオーディオ信号符号化装置において、 上記周波数特性信号系列を正規化する正規化手段を備えたこ と を特徴 とするオーディオ信号符号化装置。
1 4 . 請求項 1 2記載のオーディオ信号符号化装置において、 上記量子化手段は、 量子化する周波数特性信号系列の周波数帯域を、 量子化誤差のエネルギー加算和の大きい帯域を適宜選択して量子化する こ とを特徴とするオーディオ信号符号化装置。
1 5 . 請求項 1 2記載のオーディオ信号符号化装置において、 上記量子化手段は、 量子化する周波数特性信号系列の周波数带域を、 人間の聴覚的な性質である聴覚感度特性に基づいて、 その重要度の高い 蒂域に大きな値を重み付けた量子化誤差エネルギー加算和の大きな帯域 を適宜選択して量子化を行う こ と を特徴とするオーディオ信号符号化装 置。
1 6 . 請求項 1 2記載のオーディオ信号符号化装置において、 上記量子化手段は、 量子化する周波数特性信号系列の周波数帯域を、 少なく と も 1度はすべて量子化する全帯域量子化部となるべク ト ル量子 化器を有するこ とを特徴とするオーディ オ信号符号化装置。
1 7 . 請求項 1 2記載のオーディオ信号符号化装 Sにおいて、 上記量子化手段は、 前段のべク トル量子化器がコー ドブック を用いる べク トル量子化手法を用いてべク ト ル量子化における量子化誤差を算出 し、 該算出した量子化誤差に対して後段の量子化部がさ らにべク ト ル量 子化を行う よ う構成されているこ と を特徴とするオーディオ信号符号化 装置。
1 8 . 請求項 1 7記載のオーディオ信号符号化装置において、 上記べク 卜ル量子化手法と して、 ベタ ト ルの符号が全ても しく はその —部が反転したコ ー ドべク トルをコー ド検索時に用いるこ とを特徴とす るオーディオ信号符号化装 s。
1 9 . 請求項 1 7記載のオーディオ信号符号化装置において、 周波数特性信号系列を正規化する正規化手段をさ らに備え、 べク ト ル 量子化における最適なコー ドを検索する際に用いる距離の計算に、 上記 正規化手段によ り処理された入力信号の正規化成分を重みと して距離を 計算して最小距離を与えるコー ドを抽出するこ と を特徴とするオーディ ォ信号符号化装置。
2 0 . 請求項 1 9記載のオーディオ信号符号化装置において、 上記正規化手段によ り処理された周波数特性信号系列の正規化成分と 人間の聴觉的な性質である聴党感度特性を考慮した値の両者を重みと し て距離を算出して、 最小距離を与える コー ドを抽出するこ と を特徴とす るオーディ ォ信母符号化装置。
2 1 . 請求項 1 3記載のオーディオ信号符号化装置において、 上記正規化手段は、 周波数特性信号系列の概形を大まかに正規化する 周波数概形正規化部を備えたものである こ とを特徴とするオーディオ信 号符号化装置。
2 2 . 請求項 1 3記載のオーディオ信号符号化装置において、 上記正規化手段は、 周波数特性信号系列を複数の連続した単位帯域の 成分に分け、 それぞれの単位帯域を 1 つの値で除算する こ とによ り正規 化する寄域振幅規化部を備えたものであるこ と を特徴とするオーディオ 信号符号化装置。
2 3 . 請求項 1 2記載のオーディオ信号符号化装置において、 上記量子化手段は、 周波数特性信号系列をそれぞれの係数列を分割化 べク ト ル量子化器によって独立に量子化するべク ト ル量子化器を有する と と もに、 量子化する入力信号の周波数带域を、 少なく と も 1 度はすべ て量子化する全帯域量子化部となるべク トル量子化器と を備えている こ とを特徴とするオーディオ信号符号化装置。
2 4 . 請求項 2 3記載のオーディオ信号符号化装 において、 上記量子化手段は、 低域の分割化べク ト ル量子化器と、 中域の分割化 べク ト ル量子化器と、 髙域の分割化べク ト ル量子化器とからなる第 1 の べク ト ル量子化器と 、 これの後段に接続される第 2のべク ト ル量子化器 と、 該第 2 のべク ト ル量子化器の後段に接続される第 3 のべク ト ル量子 化器とを備え、 該量子化手段に入力された周波数特性信号系列を 3つの帯域に分割 し、 該 3つの帯域の う ちの低い帯域成分の周波数特性信号系列を上記低 域の分割化べク トル量子化器で量子化し、 3つの帯域のう ちの中間の帯 域成分の周波数特性信号系列を上記中域の分割化ベク ト ル量子化器で量 子化し、 3つの帯域の う ちの高い苻域成分の周波数特性信号系列を上記 高域の分割化ベク ト ル量子化器でそれぞれ独立に量子化を行い、 上記第 1 のべク ト ル量子化器を構成するそれぞれの分割化べク トル量 子化器で周波数特性信号系列に対する量子化誤差を算出して、 これを後 段の上記第 2のべク トル量子化器への入力と し、
上記第 2 のべク トル量子化器では、 該第 2のべク トル量子化器の量子 化する帯域幅分の量子化を行い、 該第 2のべク ト ル量子化器への入力に 対する量子化誤差を算出してこれを上記第 3のベク ト ル量子化器への入 力と し、
上記第 3 のべク トル量子化器では、 該第 3 のべク トル量子化器の量子 化する帯域幅の量子化を行う こ とを特徴とするオーディオ信号符号化装 置。
2 5 . 請求項 2 4記載のオーディオ信号符号化装置において、 上記量子化手段を構成する第 1 のべク トル量子化器と第 2のべク ト ル量子化器との間に第 1 の量子化帯域選択部を設ける と と もに、 上記第 2のべク トル量子化器と上記第 3のべク トル量子化器との間に第 2の量 子化帯域選択部を設け、
上記第 1 のべク トル量子化器の出力を上記第 1 の量子化帯域選択部 への入力と し、 該第 1 の量子化帯域選択部で上記第 2のべク トル量子化 器が量子化すべき帯域を選択し、
上記第 2 のべク トル量子化器では、 上記第 1 の量子化帯域選択部が決 定した上記第 1 の 3 つのべク ト ル量子化器の量子化誤差に対して、 上記 第 2のべク トル量子化器の量子化する帯域幅分の量子化を行い、 上記第 2のベク トル量子化器への入力に対する量子化誤差を算出してこれを上 記第 2の量子化帯域選択部への入力と し、
上記第 2の量子化帯域選択部では、 上記第 3 のべク トル量子化器が量 子化すべき帯域を選択し、
上記第 3 のべク トル量子化器では、 上記第 2 の量子化帯域選択部が決 定した帯域に対して量子化を行う こ と を特徴とするオーディオ信号符号 化装置。
2 6 - 請求項 2 4記載のオーディオ信号符号化装置において、
上記第 1 のべク トル量子化器に代えて、 上記低域の分割化べク トル量 子化器と、 中域の分割化ベク トル量子化器と、 高域の分割化ベク トル量 子化器を用いて上記第 2のべク トル量子化器、 または第 3 のべク トル量 子化器を構成する こ とを特徴とするオーディ オ信号符号化装置。
2 7 . 請求項 1 2記載のオーディオ信号符号化装置からの出力である 符号をその入力と して、 これを復号化して元の入力オーディオ信号に相 当する信号を出力するオーディオ信号復号化装置であって、
上記オーディ オ信号符号化装置の量子化手段が出力 した符号の少な く と も一部を用いて逆量子化を行う逆量子化部と、
該逆量子化部の出力である周波数特性信号系列を用いて、 周波数特性 信号系列を元のオーディオ入力信号に相当する信号に変換する逆周波数 変換部と を備えたこ とを特徴とするオーディ オ信号復号化装置。
2 8 . 請求項 1 3記載のオーディ オ信号符号化装置からの出力である 符号をその入力と して、 これを復号化して元の入力オーディオ信号に相 当する信号を出力するオーディ オ信号復号化装置であって、
周波数特性信号系列を再生する逆量子化部と、
該逆量子化部の出力である周波数特性信号系列を用いて、 上記オーデ ィォ信号符号化装置の出力である符号をも とに正規化成分を再生し、 上 記周波数特性信号系列と正規化成分とを乗算して出力する逆正規化部と、 該逆正規化部の出力を受けて、 周波数特性信号系列を元のオーディオ 信号に相当する信号に変換する逆周波数変換部と を備えたこ と を特徵と するオーディオ信号復号化装置。
2 9 . 請求項 2 3記載のオーディオ信号符号化装置からの出力である 符号をその入力と して、 これを復号化して元のオーディオ ί言号に相当す る信号を出力するオーディオ信号復号化装置であって、
上記オーディ オ信号符号化装置における量子化手段を搆成するべク トル量子化器のすべて、も しく は一部が符号を出力 した場合であっても、 出力された符号を用いて逆量子化を行う逆量子化部を備えたこ と を特徴 とするオーディオ信号復号化装置。
3 0 . 請求項 2 9記載のオーディ オ信号復号化装置において、
上記逆量子化部は、 所定の帯域の量子化符号の逆量子化に対して、 次 段の量子化符号の逆量子化と上記所定の帯域とは異なる帯域の量子化符 号の逆量子化とを交互に実行するものであ り 、
上記逆量子化時に次段の量子化符号が存在しない場合には、 上記異な る帯域の量子化符号の逆量子化を続けて実行し、
上記異なる帯域の量子化符号が存在しない場合には上記次段の量子 化符号の逆量子化を続けて実行する ものであるこ と を特徴とするオーデ ィォ信号復号化装置。
3 1 . 請求項 2 4記載のオーディオ信号符号化装置からの出力である 符号をその入力と して、 これを復号化して元のオーディ ォ信号に相当す る信号を出力するオーディオ信号復号化装置であって、
上記オーディ オ信号符号化装置における第 1 のベク トル量子化器を 構成する 3つの分割化べク トル量子化器からすべて、 も しく は一部が符 号を出力 した場合であっても、 上記第 1 のべク トル量子化器を構成する 低域の分割化べク トル量子化器からの符号のみを用いて逆量子化を行う 逆量子化都を備えたこ と を特徴とするオーディオ信号復号化装置。
3 2 . 請求項 3 1記載のオーディオ信号復号化装置において、 上記逆量子化部が、 上記第 1 のべク ト ル量子化器を構成する低域の分 割化べク ト ル量子化器からの符号に加えて、 上記第 2のべク トル量子化 器からの符号を用いて逆量子化を行う こ とを特徴とするオーディオ信号 復号化装置。
3 3 . 請求項 3 2記載のオーディオ信号復号化装置において、 上記逆量子化部が、 上記第 1 のべク ト ル量子化部を構成する低域の分 割化べク トル量子化器からの符号と、 上記第 2のべク トル量子化器から の符号に加えて、 上記第 1 のべク トル量子化器を構成する中域の分割化 べク トル量子化器からの符号を用いて逆量子化を行う こ と を特徴とする オーディ ォ信号復号化装置。
3 4 . 請求項 3 3記載のオーディオ信号復号化装置において、 上記逆量子化部が、 上記第 1 のべク ト ル量子化器を構成する低域の分 割化べク ト ル量子化器からの符号と、 上記第 2のべク ト ル量子化器から の符号と 、 上記第 1 のべク トル量子化器を構成する中域の分割化べク ト ル量子化器からの符号と に加えて、 上記第 3 のべク トル量子化器からの 符号を用いて逆量子化を行う こ とを特徴とするオーディオ信号復号化装 置。
3 5 . 請求項 3 4記載のオーディオ信号復号化装置において、 上記逆量子化部が、 上記第 1 のベク ト ル量子化器を構成する低域の分割 化べク ト ル量子化器からの符号と、 上記第 2のべク トル量子化器からの 符号と、 上記第 1 のべク ト ル量子化器を構成する中域の分割化べク ト ル 量子化器からの符号と、 上記第 3のべク トル量子化器からの符号に加え て、 上記第 1 のべク トル量子化器を構成する高域の分割化べク トル量子 化器からの符号とを用いて逆量子化を行う こ と を特徴とするオーディ オ 信号復号化装置。
3 6 . 入力オーディオ信号を周波数変換して得られた周波数特性信号 系列を受け、 これを符号化して出力し、 該出力された符号信号を入力と して、 これを復号化して元の入力オーディオ信号に相当する信号を再生 するオーディオ信号符号化 · 復号化方法において、
周波数特性信号系列に対して、 少なく と も 2つ以上の周波数帯域に分 割した帯域に相当する係数列に分けてそれぞれ独立に量子化して出力 し、 受信した量子化済みの信号から、 上記分割された帯域に相当する任意 の蒂域のデータを逆量子化するこ とによ り 、 元のオーディオ入力信号に 相当する信号を再生する こ とを特徴とするオーディオ信号符号化 · 復号 化方法。
3 7 . 請求項 3 6記載のオーディオ信号符号化 · 復号化方法において、 上記量子化は、 算出された量子化誤差をさ らに量子化するよ う段階的 に行われ、
上記逆量子化は、 帯域を拡張する方向の量子化と、 上記量子化時の惫 子化段階を深く なる方向の量子化とを操り返して交互に行う ものである こ と を特徴とするオーディオ信号符号化 · 復号化方法。
3 8 . 請求項 3 7記載のオーディオ信号符号化 · 復号化方法において、 上記帯域を拡張する方向の逆量子化は、 人間の聴覚心理特性を考慮し た順にて行う こ と を特徴とするオーディオ信号符号化 · 復号化方法。 3 9 . 入力オーディオ信号を周波数変換して得られた周波数特性信号 系列を入力信号と し、 該周波数特性信号系列の う ちの所定の周波数帯域 に属する ものの位相情報を抽出する位相情報抽出部と、
上記周波数特性信号系列の代表値であるオーディオコー ドを、 上記抽 出した位相情報に対応する要素部分を絶対値化した状態のものと して複 数個これを格納するコー ドブック と、
上記周波数特性信号系列と上記コ ー ドブッ ク 中の各オーディ オコ 一 ドとの聴党的な距雕を算出して、 その最小距離を有するオーディオコ 一 ドを選出する と と もに、 該最小距離を有するオーディオコー ドに対する 位相情報を上記位相情報抽出部からの出力を補助情報と して用いて付加 し、 該最小距雕を有するオーディオコー ドに対応するコ一 ドイ ンデッ ク スをその出力信号と して出力するオーディオコ 一 ド選択部とを備えたこ と を特徴とするオーディオ信号符号化装置。
4 0 . 請求項 3 9記載のオーディオ信号符号化装置において、 上記位相情報抽出部は、 入力された周波数特性信号系列のう ちの低周 波帯域側のものからな り所定個数の要素の位相情報を抽出する ものであ る こ とを特徴とするオーディオ信号符号化装置。
4 1 . 請求項 3 9記載のオーディオ信号符号化装置において、 人間の聴党心理特性を考慮した各周波数における相対的な聰党心理 量のテーブルである聴党心理重みベク トルテーブルを備え、
上記位相情報抽出部は、 入力された周波数特性信号系列の う ち、 上記 聴覚心理重みべク トルテーブルに格納されたべク トルと一致する要素の 位相情報を抽出する ものであるこ とを特徴とするオーディオ信号符号化 装置。
4 2 . 請求項 3 9記載のオーディオ信号符号化装置において、 上記周波数特性信号系列を平滑べク トルを用いてべク トル要素同士 の除算によ り平滑化する平滑化部を備え、
上記オーディ オコー ド選択部は、 上記最小距離を有するオーディオコ — ドを選出し、 該選出されたオーディオコー ドに位相情報を付加する前 に、 上記平滑化部から出力される平滑化処理情報を用いて、 上記選出さ れたオーディオコ ー ドを、 平滑化処理のなされていないオーディオコ ー ドに変換し、 該オーディオコー ドに対応するコー ドイ ンデックスをその 出力信号と して出力するこ と を特徴とするオーディオ信号符号化装置。 4 3 . 請求項 3 9記載のオーディ オ信号符号化装置において、 人間の聴 ¾心理特性を考慮した各周波数における相対的な聴党心理 最のテ一ブルである聴党心理重みべク トルテ一ブルと、 上記周波数特性信号系列を平滑べク トルを用いて、 べク トル要素同士 の除算によ り平滑化する平滑化部と、
上記聴覚心理重みべク トルテーブルの値と上記平滑べク トルテープ ルの値と を乗じて得られる値を聴党的重要度の高い順に複数個選出 して これを上記オーディオコ ー ド選択部に出力するソー ト部と を備えたこ と を特徴とするオーディオ信号符号化装置。
4 4 . 請求項 4 0記載のオーディオ信号符号化装置において、 上記周波数特性信号系列と して、 上記オーディオ信号を周波数変換し た係数を要素とするベク トルを用いる こ と を特徴とするオーディオ信号 符号化装 g。
4 5 . 請求項 4 1 記載のオーディオ信号符号化装置において、 上記周波数特性信号系列と して、 上記オーディオ信号を周波数変換し た係数を要素とするベク トルを用いる こ と を特徴とするオーディ オ信号 符号化装置。
4 6 . 請求項 4 2記載のオーディオ信号符号化装置において、 上記周波数特性信号系列と して、 上記オーディオ信号を周波数変換し た係数を要素とするベク トルを用いるこ と を特徴とするオーディ オ信号 符号化装置。
4 7 . 請求項 4 0記載のオーディオ信号符号化装置において、 上記周波数特性信号系列と して、
上記オーディオ信号を M D C T変換 (変形離散コサイ ン変換) した係 数を要素とするベク トルを用いるこ とを特徴とするオーディオ信号符号 化装置。
4 8 . 請求項 4 1 記載のオーディオ信号符号化装 Sにおいて、 上記周波数特性信号系列と して、
上記オーディオ信号を M D C T変換 (変形離散コサイ ン変換) した係 数を要素とするベク トルを用いるこ と を特徴とするオーディオ信号符号 化装置。
4 9 . 請求項 4 2記載のオーディオ信号符号化装置において、 上記周波数特性信号系列と して、
上記オーディオ信号を M D C T変換 (変形雕散コサイ ン変換) した係 数を要素とするべク トルを用いる ことを特徴とするオーディ オ信号符号 化装置。
5 0 . 請求項 4 2記載のオーディオ信号符号化装置において、 上記平滑べク トルと して、
オーディオ信号を線形予測して線形予測係数を算出 し、 該算出された 前記線形予測係数から各周波数における相対的な周波数応答を算出し、 該各周波数における相対的な周波数応答を要素とするベク トルを用いる こ とを特徴とするオーディオ信号符号化装 s。
5 1 . 請求項 4 3記載のオーディ オ信号符号化装置において、 上記平滑べク トルと して、
オーディオ信号を線形予測して線形予測係数を算出し、 該算出された 前記線形予測係数から各周波数における相対的な周波数応答を算出し、 該各周波数における相対的な周波数応答を要素とするベク トルを用いる こ と を特徴とするオーディ オ信号符号化装置。
5 2 . オーディオ信号の特徴量である周波数特性信号系列を量子化し て得られたコー ドイ ンデックスを入力信号と し、 該コー ドイ ンデック ス の う ちの所定の周波数帯域に相当する要素の位相情報を抽出する位相情 報抽出部と、
上記コ ー ドイ ンデックスに対応する周波数特性信号系列を、 上記抽出 した位相情報に対応する要素部分を絶対値化した状態のもの と して複数 個これを格納するコー ドブック と、
上記コ ー ドイ ンデック ス と上記コ ー ドブッ ク 中の周波数特性信号系 列との聴觉的な距離を算出して、 その最小距離を有する周波数特性信号 系列を選出する と と もに、 該最小距離を有する周波数特性信号系列に対 する位相情報を上記位相情報抽出部からの出力を補助情報と して用いて 付加し、 上記入力信号であるコ一 ドイ ンデック スに対応する周波数特性 信号系列をその出力信号と して出力するオーディオコ — ド選択部とを備 えたこ と を特徴とするオーディオ信号復号化装置。
PCT/JP1997/002271 1996-07-01 1997-07-01 Procedes de codage et de decodage de signaux audio, et codeur et decodeur de signaux audio WO1998000837A1 (fr)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP17129696A JP3246715B2 (ja) 1996-07-01 1996-07-01 オーディオ信号圧縮方法,およびオーディオ信号圧縮装置
DE69724126T DE69724126T2 (de) 1996-07-01 1997-07-01 Audiosignalkodier- und dekodierverfahren und audiosignalkodierer und -dekodierer
KR1019980709143A KR100283547B1 (ko) 1996-07-01 1997-07-01 오디오 신호 부호화 방법 및 복호화 방법, 오디오 신호 부호화장치 및 복호화 장치
US09/171,266 US6826526B1 (en) 1996-07-01 1997-07-01 Audio signal coding method, decoding method, audio signal coding apparatus, and decoding apparatus where first vector quantization is performed on a signal and second vector quantization is performed on an error component resulting from the first vector quantization
EP97928529A EP0910067B1 (en) 1996-07-01 1997-07-01 Audio signal coding and decoding methods and audio signal coder and decoder
US09/227,189 US6904404B1 (en) 1996-07-01 1999-01-08 Multistage inverse quantization having the plurality of frequency bands

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
JP8/171296 1996-07-01
JP17129696A JP3246715B2 (ja) 1996-07-01 1996-07-01 オーディオ信号圧縮方法,およびオーディオ信号圧縮装置
JP9/92406 1997-04-10
JP9240697 1997-04-10
JP12584497 1997-05-15
JP9/125844 1997-05-15

Publications (1)

Publication Number Publication Date
WO1998000837A1 true WO1998000837A1 (fr) 1998-01-08

Family

ID=27307035

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP1997/002271 WO1998000837A1 (fr) 1996-07-01 1997-07-01 Procedes de codage et de decodage de signaux audio, et codeur et decodeur de signaux audio

Country Status (8)

Country Link
US (1) US6826526B1 (ja)
EP (1) EP0910067B1 (ja)
JP (1) JP3246715B2 (ja)
KR (1) KR100283547B1 (ja)
CN (1) CN1156822C (ja)
DE (1) DE69724126T2 (ja)
ES (1) ES2205238T3 (ja)
WO (1) WO1998000837A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100821499B1 (ko) * 2000-12-14 2008-04-11 소니 가부시끼 가이샤 정보 추출 장치
US9135922B2 (en) 2010-08-24 2015-09-15 Lg Electronics Inc. Method for processing audio signals, involves determining codebook index by searching for codebook corresponding to shape vector generated by using location information and spectral coefficients
GB2538315A (en) * 2015-05-15 2016-11-16 Horseware Products Ltd A closure system for the front end of a horse rug

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6904404B1 (en) 1996-07-01 2005-06-07 Matsushita Electric Industrial Co., Ltd. Multistage inverse quantization having the plurality of frequency bands
JP3344944B2 (ja) * 1997-05-15 2002-11-18 松下電器産業株式会社 オーディオ信号符号化装置,オーディオ信号復号化装置,オーディオ信号符号化方法,及びオーディオ信号復号化方法
JP3246715B2 (ja) 1996-07-01 2002-01-15 松下電器産業株式会社 オーディオ信号圧縮方法,およびオーディオ信号圧縮装置
SE9903553D0 (sv) 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
US6370502B1 (en) 1999-05-27 2002-04-09 America Online, Inc. Method and system for reduction of quantization-induced block-discontinuities and general purpose audio codec
KR100363259B1 (ko) 2000-05-16 2002-11-30 삼성전자 주식회사 인지 특성 가중 함수를 이용한 음성신호의 위상 양자화장치 및 방법
GB2396538B (en) * 2000-05-16 2004-11-03 Samsung Electronics Co Ltd An apparatus and method for quantizing phase of speech signal using perceptual weighting function
JP3426207B2 (ja) * 2000-10-26 2003-07-14 三菱電機株式会社 音声符号化方法および装置
EP1345331B1 (en) * 2000-12-22 2008-08-20 Sony Corporation Encoder
DE10102159C2 (de) 2001-01-18 2002-12-12 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Erzeugen bzw. Decodieren eines skalierbaren Datenstroms unter Berücksichtigung einer Bitsparkasse, Codierer und skalierbarer Codierer
WO2003038813A1 (en) * 2001-11-02 2003-05-08 Matsushita Electric Industrial Co., Ltd. Audio encoding and decoding device
DE10328777A1 (de) * 2003-06-25 2005-01-27 Coding Technologies Ab Vorrichtung und Verfahren zum Codieren eines Audiosignals und Vorrichtung und Verfahren zum Decodieren eines codierten Audiosignals
WO2005027094A1 (fr) * 2003-09-17 2005-03-24 Beijing E-World Technology Co.,Ltd. Procede et dispositif de quantification de vecteur multi-resolution multiple pour codage et decodage audio
JP4609097B2 (ja) * 2005-02-08 2011-01-12 ソニー株式会社 音声符号化装置及び方法、並びに音声復号装置及び方法
JP4761506B2 (ja) * 2005-03-01 2011-08-31 国立大学法人北陸先端科学技術大学院大学 音声処理方法と装置及びプログラム並びに音声システム
MX2007012184A (es) * 2005-04-01 2007-12-11 Qualcomm Inc Sistemas, metodos y aparatos para codificacion de dialogo de banda ancha.
EP1875463B1 (en) 2005-04-22 2018-10-17 Qualcomm Incorporated Systems, methods, and apparatus for gain factor smoothing
JP4635709B2 (ja) * 2005-05-10 2011-02-23 ソニー株式会社 音声符号化装置及び方法、並びに音声復号装置及び方法
CN100370834C (zh) * 2005-08-08 2008-02-20 北京中星微电子有限公司 多模图像编解码芯片中的系数缩放计算模块
EP1953737B1 (en) * 2005-10-14 2012-10-03 Panasonic Corporation Transform coder and transform coding method
US20090299738A1 (en) * 2006-03-31 2009-12-03 Matsushita Electric Industrial Co., Ltd. Vector quantizing device, vector dequantizing device, vector quantizing method, and vector dequantizing method
JPWO2008047795A1 (ja) * 2006-10-17 2010-02-25 パナソニック株式会社 ベクトル量子化装置、ベクトル逆量子化装置、およびこれらの方法
US8886612B2 (en) * 2007-10-04 2014-11-11 Core Wireless Licensing S.A.R.L. Method, apparatus and computer program product for providing improved data compression
US8306817B2 (en) * 2008-01-08 2012-11-06 Microsoft Corporation Speech recognition with non-linear noise reduction on Mel-frequency cepstra
JP5262171B2 (ja) * 2008-02-19 2013-08-14 富士通株式会社 符号化装置、符号化方法および符号化プログラム
US9031243B2 (en) * 2009-09-28 2015-05-12 iZotope, Inc. Automatic labeling and control of audio algorithms by audio recognition
US20110145341A1 (en) * 2009-12-16 2011-06-16 Alcatel-Lucent Usa Inc. Server platform to support interactive multi-user applications for mobile clients
US20110145325A1 (en) * 2009-12-16 2011-06-16 Alcatel-Lucent Usa Inc. Running an interactive multi-user application at a mobile terminal
US8654859B1 (en) * 2009-12-17 2014-02-18 Ambarella, Inc. Low cost rate-distortion computations for video compression
JP5809066B2 (ja) * 2010-01-14 2015-11-10 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 音声符号化装置および音声符号化方法
TW201220715A (en) * 2010-09-17 2012-05-16 Panasonic Corp Quantization device and quantization method
KR101747917B1 (ko) 2010-10-18 2017-06-15 삼성전자주식회사 선형 예측 계수를 양자화하기 위한 저복잡도를 가지는 가중치 함수 결정 장치 및 방법
WO2012144128A1 (ja) 2011-04-20 2012-10-26 パナソニック株式会社 音声音響符号化装置、音声音響復号装置、およびこれらの方法
US9384749B2 (en) * 2011-09-09 2016-07-05 Panasonic Intellectual Property Corporation Of America Encoding device, decoding device, encoding method and decoding method
RU2688247C2 (ru) * 2013-06-11 2019-05-21 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ для расширения диапазона частот для акустических сигналов
EP2830065A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding an encoded audio signal using a cross-over filter around a transition frequency
CN103714822B (zh) * 2013-12-27 2017-01-11 广州华多网络科技有限公司 基于silk编解码器的子带编解码方法及装置
CN110033779B (zh) * 2014-02-27 2023-11-17 瑞典爱立信有限公司 用于棱椎矢量量化编索引和解索引的方法和装置
EP2919232A1 (en) * 2014-03-14 2015-09-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and method for encoding and decoding
SG10201808285UA (en) 2014-03-28 2018-10-30 Samsung Electronics Co Ltd Method and device for quantization of linear prediction coefficient and method and device for inverse quantization
KR102593442B1 (ko) 2014-05-07 2023-10-25 삼성전자주식회사 선형예측계수 양자화방법 및 장치와 역양자화 방법 및 장치
JP6475273B2 (ja) * 2017-02-16 2019-02-27 ノキア テクノロジーズ オーユー ベクトル量子化
CN109036457B (zh) * 2018-09-10 2021-10-08 广州酷狗计算机科技有限公司 恢复音频信号的方法和装置
WO2020146868A1 (en) * 2019-01-13 2020-07-16 Huawei Technologies Co., Ltd. High resolution audio coding
KR20210133554A (ko) * 2020-04-29 2021-11-08 한국전자통신연구원 선형 예측 코딩을 이용한 오디오 신호의 부호화 및 복호화 방법과 이를 수행하는 부호화기 및 복호화기

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05257498A (ja) * 1992-03-11 1993-10-08 Mitsubishi Electric Corp 音声符号化方式
JPH06118998A (ja) * 1992-10-01 1994-04-28 Matsushita Electric Ind Co Ltd ベクトル量子化装置
JPH08137498A (ja) * 1994-11-04 1996-05-31 Matsushita Electric Ind Co Ltd 音声符号化装置
JPH08194497A (ja) * 1995-01-13 1996-07-30 Nippon Telegr & Teleph Corp <Ntt> 音響信号変換符号化方法及びその復号化方法

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03228433A (ja) 1990-02-02 1991-10-09 Fujitsu Ltd 多段ベクトル量子化方式
JP3114197B2 (ja) 1990-11-02 2000-12-04 日本電気株式会社 音声パラメータ符号化方法
JPH0815261B2 (ja) 1991-06-06 1996-02-14 松下電器産業株式会社 適応変換ベクトル量子化符号化法
JP3088163B2 (ja) 1991-12-18 2000-09-18 沖電気工業株式会社 Lsp係数の量子化方法
JPH0677840A (ja) 1992-08-28 1994-03-18 Fujitsu Ltd ベクトル量子化装置
JP3239488B2 (ja) 1992-11-30 2001-12-17 三菱電機株式会社 画像帯域分割符号化装置および画像帯域分割符号化方法
US5398069A (en) * 1993-03-26 1995-03-14 Scientific Atlanta Adaptive multi-stage vector quantization
EP0653846B1 (en) * 1993-05-31 2001-12-19 Sony Corporation Apparatus and method for coding or decoding signals, and recording medium
JPH0764599A (ja) 1993-08-24 1995-03-10 Hitachi Ltd 線スペクトル対パラメータのベクトル量子化方法とクラスタリング方法および音声符号化方法並びにそれらの装置
JPH07160297A (ja) * 1993-12-10 1995-06-23 Nec Corp 音声パラメータ符号化方式
US5684920A (en) 1994-03-17 1997-11-04 Nippon Telegraph And Telephone Acoustic signal transform coding method and decoding method having a high efficiency envelope flattening method therein
JPH08123494A (ja) 1994-10-28 1996-05-17 Mitsubishi Electric Corp 音声符号化装置、音声復号化装置、音声符号化復号化方法およびこれらに使用可能な位相振幅特性導出装置
JP3537008B2 (ja) 1995-07-17 2004-06-14 株式会社日立国際電気 音声符号化通信方式とその送受信装置
JPH09127987A (ja) 1995-10-26 1997-05-16 Sony Corp 信号符号化方法及び装置
JP3159012B2 (ja) * 1995-10-26 2001-04-23 日本ビクター株式会社 音響信号の符号化装置及び復号化装置
JPH09281995A (ja) 1996-04-12 1997-10-31 Nec Corp 信号符号化装置及び方法
US5809459A (en) * 1996-05-21 1998-09-15 Motorola, Inc. Method and apparatus for speech excitation waveform coding using multiple error waveforms
JP3246715B2 (ja) 1996-07-01 2002-01-15 松下電器産業株式会社 オーディオ信号圧縮方法,およびオーディオ信号圧縮装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05257498A (ja) * 1992-03-11 1993-10-08 Mitsubishi Electric Corp 音声符号化方式
JPH06118998A (ja) * 1992-10-01 1994-04-28 Matsushita Electric Ind Co Ltd ベクトル量子化装置
JPH08137498A (ja) * 1994-11-04 1996-05-31 Matsushita Electric Ind Co Ltd 音声符号化装置
JPH08194497A (ja) * 1995-01-13 1996-07-30 Nippon Telegr & Teleph Corp <Ntt> 音響信号変換符号化方法及びその復号化方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP0910067A4 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100821499B1 (ko) * 2000-12-14 2008-04-11 소니 가부시끼 가이샤 정보 추출 장치
US9135922B2 (en) 2010-08-24 2015-09-15 Lg Electronics Inc. Method for processing audio signals, involves determining codebook index by searching for codebook corresponding to shape vector generated by using location information and spectral coefficients
GB2538315A (en) * 2015-05-15 2016-11-16 Horseware Products Ltd A closure system for the front end of a horse rug

Also Published As

Publication number Publication date
KR100283547B1 (ko) 2001-04-02
ES2205238T3 (es) 2004-05-01
EP0910067A4 (en) 2000-07-12
EP0910067A1 (en) 1999-04-21
US6826526B1 (en) 2004-11-30
JPH1020898A (ja) 1998-01-23
EP0910067B1 (en) 2003-08-13
KR20000010994A (ko) 2000-02-25
DE69724126T2 (de) 2004-06-09
DE69724126D1 (de) 2003-09-18
CN1222997A (zh) 1999-07-14
CN1156822C (zh) 2004-07-07
JP3246715B2 (ja) 2002-01-15

Similar Documents

Publication Publication Date Title
WO1998000837A1 (fr) Procedes de codage et de decodage de signaux audio, et codeur et decodeur de signaux audio
US7243061B2 (en) Multistage inverse quantization having a plurality of frequency bands
EP0942411B1 (en) Audio signal coding and decoding apparatus
JP4781153B2 (ja) オーディオデータ符号化及び復号化装置、並びにオーディオデータ符号化及び復号化方法
JP4950210B2 (ja) オーディオ圧縮
US20030088328A1 (en) Encoding device and decoding device
US20060212290A1 (en) Audio coding apparatus and audio decoding apparatus
WO2002103685A1 (fr) Appareil et procede de codage, appareil et procede de decodage et programme
JP3344962B2 (ja) オーディオ信号符号化装置、及びオーディオ信号復号化装置
KR20010021226A (ko) 디지털 음향 신호 부호화 장치, 디지털 음향 신호 부호화방법 및 디지털 음향 신호 부호화 프로그램을 기록한 매체
JP3344944B2 (ja) オーディオ信号符号化装置,オーディオ信号復号化装置,オーディオ信号符号化方法,及びオーディオ信号復号化方法
US8149927B2 (en) Method of and apparatus for encoding/decoding digital signal using linear quantization by sections
JPH07261800A (ja) 変換符号化方法、復号化方法
JP4281131B2 (ja) 信号符号化装置及び方法、並びに信号復号装置及び方法
EP2447943A1 (en) Coding method, decoding method, and device and program using the methods
JP4274614B2 (ja) オーディオ信号復号方法
JPH07183857A (ja) 伝送システム
JP4327420B2 (ja) オーディオ信号符号化方法、及びオーディオ信号復号化方法
JP3242353B2 (ja) オーディオ信号量子化装置、オーディオ信号逆量子化装置、オーディオ信号量子化方法、及びオーディオ信号逆量子化方法
MXPA98010783A (en) Audio signal encoder, audio signal decoder, and method for encoding and decoding audio signal
Mandal et al. Digital Audio Compression

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 97195785.1

Country of ref document: CN

AK Designated states

Kind code of ref document: A1

Designated state(s): CN KR MX SG US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE CH DE DK ES FI FR GB GR IE IT LU MC NL PT SE

DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 1997928529

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 1019980709143

Country of ref document: KR

WWE Wipo information: entry into national phase

Ref document number: PA/A/1998/010045

Country of ref document: MX

WWP Wipo information: published in national office

Ref document number: 1997928529

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 09171266

Country of ref document: US

WWP Wipo information: published in national office

Ref document number: 1019980709143

Country of ref document: KR

WWG Wipo information: grant in national office

Ref document number: 1019980709143

Country of ref document: KR

WWG Wipo information: grant in national office

Ref document number: 1997928529

Country of ref document: EP