WO2011155144A1 - 復号装置、符号化装置及びこれらの方法 - Google Patents

復号装置、符号化装置及びこれらの方法 Download PDF

Info

Publication number
WO2011155144A1
WO2011155144A1 PCT/JP2011/002965 JP2011002965W WO2011155144A1 WO 2011155144 A1 WO2011155144 A1 WO 2011155144A1 JP 2011002965 W JP2011002965 W JP 2011002965W WO 2011155144 A1 WO2011155144 A1 WO 2011155144A1
Authority
WO
WIPO (PCT)
Prior art keywords
spectrum
band
suppression
celp
encoding
Prior art date
Application number
PCT/JP2011/002965
Other languages
English (en)
French (fr)
Inventor
河嶋拓也
押切正浩
Original Assignee
パナソニック株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック株式会社 filed Critical パナソニック株式会社
Priority to US13/702,382 priority Critical patent/US9082412B2/en
Priority to EP11792106.4A priority patent/EP2581904B1/en
Priority to JP2012519230A priority patent/JP5711733B2/ja
Publication of WO2011155144A1 publication Critical patent/WO2011155144A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/034Automatic adjustment
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding

Definitions

  • the present invention relates to a decoding device, an encoding device, and a method thereof.
  • Non-Patent Document 1 Hierarchical structure of CELP (Code Excited Linear Prediction) coding suitable for audio signals and transform coding suitable for music signals as coding methods that can compress voice and music with low bit rate and high sound quality
  • a combined encoding method has been proposed (see, for example, Non-Patent Document 1).
  • the audio signal and the music signal are collectively referred to as an acoustic signal.
  • the encoding apparatus first encodes an input signal by the CELP encoding scheme to generate CELP encoded data.
  • the encoding apparatus converts a residual spectrum obtained by converting a residual signal (hereinafter referred to as a CELP residual signal) between an input signal and a CELP decoded signal (decoding result of CELP encoded data) into a frequency domain.
  • a CELP residual signal a residual spectrum obtained by converting a residual signal (hereinafter referred to as a CELP residual signal) between an input signal and a CELP decoded signal (decoding result of CELP encoded data) into a frequency domain.
  • a transform coding method a method has been proposed in which a pulse is generated at a frequency having a large residual spectrum energy and the information of the pulse is coded (see Non-Patent Document 1).
  • the CELP encoding method is suitable for audio signal encoding, but the audio signal quality deteriorates because the encoding model differs for music signals. Therefore, when a music signal is encoded by the above encoding method, the CELP residual signal component becomes large, so that it is difficult to improve the sound quality even if the CELP residual signal (residual spectrum) is encoded by transform encoding. There are challenges.
  • Non-Patent Document 1 when the sampling frequency of the input signal is 16 kHz, the CELP component amplitude is suppressed (hereinafter referred to as CELP suppression) only in the middle band of 0.8 kHz to 5.5 kHz. Is called.
  • the encoding apparatus does not directly perform transform coding on the CELP residual signal, but before that, another transform coding method (for example, Non-Patent Document 1 (Section 6.11. (Refer to 6.1)) to reduce the CELP component residual signal. For this reason, the encoding apparatus does not perform CELP suppression on the frequency component encoded by the above-described another transform encoding method even in the middle band.
  • CELP suppression coefficient indicating the degree (intensity) of CELP suppression is uniform at frequencies other than the frequency where CELP suppression is not performed in the middle band.
  • the CELP suppression coefficient is stored in a code book (hereinafter referred to as a CELP component suppression code book) for each CELP suppression intensity.
  • the encoding device Before performing transform coding, the encoding device performs CELP suppression by multiplying the CELP component (CELP decoded signal) and the CELP suppression coefficient stored in the CELP component suppression codebook, and A residual spectrum with a CELP decoded signal (CELP decoded signal after CELP suppression) is obtained, and the residual spectrum is transcoded. Then, the encoding device calculates a residual signal between the signal obtained by adding the decoded signal of the transform encoded data and the CELP decoded signal in which the CELP component is suppressed and the input signal, and the energy of the residual signal (hereinafter, A CELP suppression coefficient that minimizes (referred to as encoding distortion) is searched in a closed loop, and the searched CELP suppression coefficient is encoded.
  • a CELP suppression coefficient that minimizes referred to as encoding distortion
  • the encoding apparatus can perform transform encoding with minimum encoding distortion for the entire band.
  • the decoding apparatus suppresses the CELP component of the CELP decoded signal using the CELP suppression coefficient transmitted from the encoding apparatus, and adds the transform-coded decoding signal to the CELP decoded signal in which the CELP component is suppressed. Accordingly, the decoding apparatus can obtain a decoded signal in which deterioration of sound quality due to CELP encoding is suppressed when encoding is performed by combining CELP encoding and transform encoding in a hierarchical structure.
  • the CELP component of the CELP decoded signal is suppressed by the above-described CELP component suppression method, the CELP component is suppressed even in a band where the residual signal between the input signal and the CELP decoded signal is small, and sound quality is improved by CELP encoding.
  • the effect (that is, the contribution of CELP coding to improving sound quality) is impaired. That is, depending on the band, the use of the CELP component suppression method causes a problem that the sound quality deteriorates.
  • FIGS. 1A and 1B show the logarithmic power (amplitude) of an input signal spectrum (dotted line), a CELP decoded signal spectrum (one-dot chain line) in the frequency domain, and a suppressed CELP decoded signal spectrum (solid line) that is a CELP decoded signal spectrum after CELP suppression. ).
  • FIGS. 1A and 1B describe a case where CELP suppression is performed uniformly in all bands.
  • the input signal is assumed to be a music signal with vocals. That is, it is assumed that the contribution of the audio spectrum is large in the low frequency range (f0 to f1) shown in FIGS.
  • the band for performing CELP suppression is limited from 0.8 kHz to 5.5 kHz, but the problems described below occur in the same manner.
  • the encoding apparatus performs CELP suppression at each frequency on the spectrum amplitude (CELP component) of the CELP decoded signal spectrum using the CELP suppression coefficient selected by the closed loop search, and suppresses the CELP decoded signal. Obtain a spectrum. Then, the encoding apparatus encodes the CELP residual signal, which is the difference between the input signal spectrum and the suppressed CELP decoded signal spectrum, by transform encoding.
  • the frequency (f3, f) is large between the input signal spectrum (dotted line) and the suppressed CELP decoded signal spectrum (solid line).
  • f4 f5, f6, f7, f8, f9
  • pulses generated by transform coding are set up.
  • the CELP component is suppressed by the CELP suppression at a frequency at which no pulse is generated by transform coding.
  • the noise floor is attenuated.
  • the noise floor is a signal component with small energy.
  • the CELP encoding method is not suitable for encoding a signal component such as a noise floor, there is a possibility that the noise floor becomes larger than the input signal and the noise feeling is emphasized. Therefore, as described above, a clear sound quality with reduced noise can be realized by the effect of attenuating the noise floor by CELP suppression.
  • the CELP residual signal is small by CELP coding, and the CELP decoded signal spectrum (dashed line) has a spectrum that substantially matches the input signal spectrum (dotted line). It is done.
  • suppressing the CELP component so that the CELP component becomes a suppressed CELP decoded signal spectrum (solid line) by CELP suppression reduces the contribution to sound quality improvement by CELP encoding. That is, in a band (f0 to f1) that greatly contributes to sound quality improvement by CELP encoding, performing CELP suppression leads to sound quality degradation.
  • the description is given using music with vocals.
  • the present invention is not limited to this, and the contribution of CELP coding may vary depending on the band even in general music signals.
  • An object of the present invention is to provide an audio signal based on an encoding result of an encoding suitable for a music signal in an encoding scheme in which encoding suitable for an audio signal and encoding suitable for a music signal are combined in a hierarchical structure.
  • Decoding apparatus and encoding apparatus capable of improving the sound quality of the decoded acoustic signal by determining the contribution degree to the sound quality improvement of the encoding suitable for each band and performing the suppression control of the spectrum amplitude adaptively for each band And providing these methods.
  • the decoding apparatus receives and decodes first encoded data generated using speech encoding and second encoded data generated using music encoding.
  • a first decoding means for orthogonally transforming a signal obtained by decoding the first encoded data to generate a first spectrum; and decoding using the second encoded data
  • a second decoding means for generating two spectra, a specifying means for specifying a first band to adjust the degree of suppression of the amplitude of the first spectrum using the second spectrum, and the first spectrum in the first spectrum.
  • a configuration is provided that includes suppression means for suppressing the amplitude of one band to an adjusted degree.
  • the encoding device encodes an input signal using speech encoding to generate a first code, and orthogonally transforms a signal obtained by decoding the first code.
  • First encoding means for generating a first spectrum
  • spectrum generating means for orthogonally transforming the input signal to generate a second spectrum, dividing a frequency band into a plurality of frequencies, and the first spectrum and the second spectrum;
  • a predetermined number of bands are selected based on the energy of the residual signal, band selection information that is information on the selected band is generated, and the spectrum of the selected band in the first spectrum is
  • Band selecting means for outputting as a first selected spectrum, and outputting a spectrum of the selected band in the second spectrum as a second selected spectrum; and an amplitude in the first selected spectrum
  • Suppression means for generating a suppression spectrum by suppressing using a suppression coefficient representing a degree of suppression
  • residual spectrum calculation means for generating a residual spectrum by obtaining a difference between the second selected spectrum and the suppression spectrum
  • the decoding method receives and decodes first encoded data generated using speech encoding and second encoded data generated using music encoding.
  • a decoding method comprising: a first decoding step for orthogonally transforming a signal obtained by decoding the first encoded data to generate a first spectrum; and performing decoding using the second encoded data
  • a second decoding step for generating two spectra, a specifying step for specifying a first band to adjust the degree of suppression of the amplitude of the first spectrum using the second spectrum, and the first spectrum in the first spectrum.
  • a suppression step of suppressing the amplitude of one band to an adjusted degree.
  • An encoding method includes encoding an input signal using speech encoding to generate a first code, and orthogonally transforming a signal obtained by decoding the first code.
  • a first encoding step for generating a first spectrum a spectrum generating step for orthogonally transforming the input signal to generate a second spectrum, a frequency band being divided into a plurality of frequencies, the first spectrum and the second spectrum;
  • a predetermined number of bands are selected based on the energy of the residual signal, band selection information that is information on the selected band is generated, and the spectrum of the selected band in the first spectrum is
  • a suppression step for generating a suppression spectrum by suppressing the amplitude in the channel using a suppression coefficient indicating a degree of suppression, and a residual spectrum for generating a residual spectrum by obtaining a difference between the second selection spectrum and the suppression spectrum A second encoding step of encoding the residual spectrum using music encoding to generate a second code, decoding the second code to generate a decoded residual spectrum, and the suppression spectrum. And a decoding spectrum generation step for generating a decoding spectrum using the decoding residual spectrum, a distortion for calculating the distortion between the second selection spectrum and the decoding spectrum and searching for the suppression coefficient that minimizes the distortion And an evaluation step.
  • the present invention it is possible to improve the sound quality of an acoustic signal to be decoded even in an encoding method in which encoding suitable for a sound signal and encoding suitable for a music signal are combined in a hierarchical structure.
  • FIG. 1 is a block diagram showing a configuration of an encoding apparatus according to Embodiment 1 of the present invention.
  • the block diagram which shows the structure of the decoding apparatus which concerns on Embodiment 1 of this invention.
  • the figure for demonstrating the CELP suppression process which concerns on Embodiment 1 of this invention.
  • the figure for demonstrating the CELP suppression process which concerns on Embodiment 1 of this invention
  • Block diagram showing a configuration of an encoding apparatus according to Embodiment 2 of the present invention.
  • the block diagram which shows the structure of the decoding apparatus which concerns on Embodiment 2 of this invention.
  • the audio signal and the music signal are collectively referred to as an acoustic signal. That is, the acoustic signal represents any signal of substantially only an audio signal, substantially only a music signal, or a signal in which an audio signal and a music signal are mixed.
  • the encoding device and the decoding device according to the present invention have a hierarchy for performing at least two encodings.
  • CELP coding is used as a coding suitable for a speech signal
  • transform coding is used as a coding suitable for a music signal.
  • the coding device and the decoding device are CELP codes.
  • An encoding method in which encoding and transform encoding are combined in a hierarchical structure is used.
  • FIG. 2 is a block diagram showing the main configuration of coding apparatus 100 according to Embodiment 1 of the present invention.
  • the encoding apparatus 100 encodes input signals such as speech and music using an encoding scheme in which CELP encoding and transform encoding are combined in a hierarchical structure, and outputs encoded data.
  • the encoding apparatus 100 includes an MDCT (Modified Discrete Cosine Transform) unit 101, a CELP encoding unit 102, an MDCT unit 103, a CELP component suppressing unit 104, and a CELP residual signal spectrum calculation.
  • Unit 105, transform coding unit 106, addition unit 107, distortion evaluation unit 108, and multiplexing unit 109 Each unit performs the following operations.
  • the MDCT unit 101 performs an MDCT process on the input signal to generate an input signal spectrum. MDCT section 101 then outputs the generated input signal spectrum to CELP residual signal spectrum calculation section 105 and distortion evaluation section 108.
  • the CELP encoder 102 encodes the input signal by the CELP encoding method to generate CELP encoded data.
  • the CELP encoding unit 102 decodes the generated CELP encoded data (local decoding) to generate a CELP decoded signal.
  • CELP encoding section 102 then outputs the CELP encoded data to multiplexing section 109 and outputs the CELP decoded signal to MDCT section 103.
  • the MDCT unit 103 performs MDCT processing on the CELP decoded signal input from the CELP encoding unit 102 to generate a CELP decoded signal spectrum. MDCT section 103 then outputs the generated CELP decoded signal spectrum to CELP component suppression section 104.
  • the CELP component suppression unit 104 includes a CELP component suppression coefficient codebook in which CELP suppression coefficients indicating the degree (strength) of CELP suppression are stored for each CELP suppression intensity.
  • the CELP component suppression coefficient codebook stores four types of CELP suppression coefficients ranging from 1.0, which means no suppression, to 0.5, which halves the amplitude of the CELP component. That is, the CELP suppression coefficient becomes smaller as the CELP suppression strength increases.
  • Each CELP suppression coefficient is assigned an index (CELP suppression coefficient index).
  • CELP component suppression section 104 selects a CELP suppression coefficient from the CELP component suppression coefficient codebook according to the CELP suppression coefficient index input from distortion evaluation section 108.
  • CELP component suppression section 104 multiplies the selected CELP suppression coefficient for each frequency component of the CELP decoded signal spectrum input from MDCT section 103 to calculate a CELP component suppression spectrum. CELP component suppression section 104 then outputs the CELP component suppression spectrum to CELP residual signal spectrum calculation section 105 and addition section 107.
  • CELP residual signal spectrum calculation section 105 calculates a CELP residual signal spectrum that is a difference between the input signal spectrum input from MDCT section 101 and the CELP component suppression spectrum input from CELP component suppression section 104. Specifically, the CELP residual signal spectrum calculation unit 105 obtains a CELP residual signal spectrum by subtracting the CELP component suppression spectrum from the input signal spectrum. CELP residual signal spectrum calculation section 105 then outputs the CELP residual signal spectrum to transform coding section 106.
  • the transform encoding unit 106 encodes the CELP residual signal spectrum input from the CELP residual signal spectrum calculating unit 105 by transform encoding, and generates transform encoded data. Also, transform coding section 106 decodes the generated transform coded data (local decoding) to generate a transform coded decoded signal spectrum. At this time, transform coding section 106 performs coding so that distortion between the CELP residual signal spectrum and the transform coded decoded signal spectrum becomes small. For example, the transform coding unit 106 performs coding so as to reduce the distortion by raising a pulse at a frequency where the amplitude of the CELP residual signal spectrum is large. Then, transform coding section 106 outputs the transform coded data to distortion evaluating section 108 and outputs the transform coded decoded signal spectrum to adding section 107.
  • Adder 107 adds the CELP component suppression spectrum input from CELP component suppressor 104 and the transform encoded decoded signal spectrum input from transform encoder 106 to calculate a decoded signal spectrum, and obtains a decoded signal spectrum. Is output to the distortion evaluation unit 108.
  • the distortion evaluation unit 108 scans all the indexes of the CLEP suppression coefficients stored in the CELP component suppression coefficient codebook included in the CELP component suppression unit 104, and inputs the input signal spectrum input from the MDCT unit 101 and the addition unit 107.
  • the CELP suppression coefficient index that minimizes the distortion with the decoded signal spectrum is searched. That is, the distortion evaluation unit 108 controls the CELP component suppression unit 104 so as to perform CELP suppression using all the CELP suppression coefficients (outputs the CELP suppression coefficient index).
  • the distortion evaluation unit 108 outputs the CELP suppression coefficient index that minimizes the calculated distortion to the multiplexing unit 109 as the CELP suppression coefficient optimal index, and performs transform coding when generated using the CELP suppression coefficient optimal index Data (transform encoded data at the time of minimum distortion) is output to multiplexing section 109.
  • CELP component suppression section 104 CELP residual signal spectrum calculation section 105, transform coding section 106, addition section 107, and distortion evaluation section 108 constitute a closed loop.
  • Each component constituting this closed loop generates a decoded signal spectrum using all CELP component suppression code indexes of the CELP component suppression codebook included in the CELP component suppression unit 104, and a candidate that minimizes distortion with the input signal spectrum Search for (CELP suppression coefficient index).
  • the multiplexing unit 109 multiplexes the CELP encoded data input from the CELP encoding unit 102, the converted encoded data (transformed encoded data at the time of minimum distortion) and the CELP suppression coefficient optimum index input from the distortion evaluation unit 108.
  • the multiplexed result is transmitted to the decoding device as encoded data.
  • the decoding device 200 decodes the encoded data transmitted from the encoding device 100 and outputs a decoded signal.
  • FIG. 3 is a block diagram showing a main configuration of the decoding apparatus 200.
  • the decoding apparatus 200 includes a separation unit 201, a transform coding / decoding unit 202, a band determination unit 203, a suppression coefficient adjustment unit 204, a CELP decoding unit 205, an MDCT unit 206, a CELP component suppression unit 207, an addition unit 208, and an IMDCT (Inverse Modified).
  • Discrete Cosine Transform inverse corrected discrete cosine transform
  • the separation unit 201 receives encoded data including CELP encoded data, transform encoded data, and CELP suppression coefficient optimal index from the encoding apparatus 100 (FIG. 2). Separating section 201 separates the encoded data into CELP encoded data, transform encoded data, and CELP suppression coefficient optimum index. Separation section 201 then outputs the CELP encoded data to CELP decoding section 205, outputs the converted encoded data to conversion encoding / decoding section 202, and outputs the CELP suppression coefficient optimum index to suppression coefficient adjustment section 204.
  • the transform coding / decoding unit 202 decodes the transform coded data input from the separation unit 201 to generate a transform coded decoded signal spectrum, which is converted into a band determination unit 203, a suppression coefficient adjustment unit, and the like. 204 and output to the adder 208.
  • the band determination unit 203 uses the transform coded decoded signal spectrum input from the transform coding / decoding unit 202 to calculate the CELP residual signal energy, which is the error energy between the input signal spectrum and the CELP decoded signal spectrum, for each band.
  • transform coding operates such that pulses are generated at frequencies at which the CELP residual signal becomes relatively larger than other frequencies.
  • the CELP residual signal energy is relatively large in the band (frequency) where pulses are generated by transform coding, and the CELP residual signal energy is relatively small in the band (frequency) where pulses are not generated. it can.
  • the band determination unit 203 needs to perform CELP suppression on a band in which pulses are generated in the transform coding / decoding signal spectrum (a band having a large CELP residual signal energy) based on the estimated CELP residual signal energy for each band. It is determined that the band is a low band, and a band in which no pulse is generated (a band in which the CELP residual signal energy is small) is determined to be a band that requires little CELP suppression. That is, the band determination unit 203 is a band (first band) in which no pulse stands for each of a plurality of bands obtained by dividing the frequency component of the input signal using the transform encoded decoded signal spectrum. It is determined whether or not the pulse generated by the transform encoding is in a band (second band). Then, the band determination unit 203 outputs the determination result to the suppression coefficient adjustment unit 204 as CELP distortion information. The details of the band specifying process in the band determining unit 203 will be described later.
  • the suppression coefficient adjustment unit 204 includes a CELP component suppression coefficient codebook, similar to the CELP component suppression unit 104 of the encoding apparatus 100.
  • the suppression coefficient adjustment unit 204 is a CELP suppression coefficient optimal index input from the separation unit 201, CELP distortion information input from the band determination unit 203, and a transform encoded decoded signal spectrum input from the transform encoding / decoding unit 202. Is used to adjust the CELP suppression coefficient for each frequency. Then, the suppression coefficient adjustment unit 204 outputs the CELP suppression coefficient adjusted for each frequency to the CELP component suppression unit 207 as the adjusted CELP suppression coefficient. Details of the CELP suppression coefficient adjustment processing in the suppression coefficient adjustment unit 204 will be described later.
  • CELP decoding section 205 decodes the CELP encoded data input from separation section 201 and outputs the CELP decoded signal to MDCT section 206.
  • the MDCT unit 206 performs MDCT processing on the CELP decoded signal input from the CELP decoding unit 205 to generate a CELP decoded signal spectrum. MDCT section 206 then outputs the generated CELP decoded signal spectrum to CELP component suppressing section 207.
  • the CELP component suppression unit 207 multiplies the adjusted CELP suppression coefficient input from the suppression coefficient adjustment unit 204 for each frequency component of the CELP decoded signal spectrum input from the MDCT unit 206, thereby obtaining a CELP decoded signal spectrum (CELP component).
  • a CELP component suppression spectrum in which is suppressed is calculated.
  • CELP component suppression section 207 then outputs the calculated CELP component suppression spectrum to addition section 208.
  • the adder 208 like the adder 107 of the encoding apparatus 100, receives the CELP component suppression spectrum input from the CELP component suppressor 207, and the transform encoded decoded signal spectrum input from the transform encoder / decoder 202. Are added to calculate the decoded signal spectrum. Then, adding section 208 outputs the calculated decoded signal spectrum to IMDCT section 209.
  • the IMDCT unit 209 performs IMDCT processing on the decoded signal spectrum input from the adding unit 208 and outputs a decoded signal.
  • the band determination unit 203 uses a band in which no pulse is generated in the transform coded decoded signal spectrum input from the transform coding / decoding unit 202, because the CELP residual signal energy is small. First band) is determined. On the other hand, the band determination unit 203 performs CELP suppression in accordance with the CELP suppression coefficient optimal index in the band in which the pulse is set in the transform coding decoded signal spectrum input from the transform coding / decoding unit 202 because the CELP residual signal energy is large. It is determined that this is the band to be performed (second band).
  • the band determination unit 203 sets CELP distortion information CEI [k] in a band where no pulse is generated in the transform encoded decoded signal spectrum to “ ⁇ 1”, and sets other bands ( CELP distortion information CEI [k] in a band including a pulse is set to “0”.
  • k is an index indicating a band, and for example, 16 frequency components may be set as one band.
  • the suppression coefficient adjustment unit 204 sets the adjusted CELP suppression coefficient Catt [f] according to the following equation (2).
  • f is an index indicating a frequency included in the band k shown in Expression (1). That is, Catt [f] shown in Equation (2) is a CELP suppression coefficient for each frequency f. CBatt indicates the output of the CELP suppression coefficient codebook, and cmin indicates the CELP suppression coefficient optimum index. That is, CBatt [cmin] in Equation (2) indicates a CELP suppression coefficient whose CELP suppression coefficient index is cmin.
  • is a parameter that weakens the degree of CELP suppression, and is set between 0.0 and 1.0. For example, ⁇ is set to about 0.5.
  • the CELP suppression coefficient CBatt [cmin] indicated by the optimum index cmin is set to the adjusted CELP suppression coefficient Catt [f] as it is.
  • the suppression coefficient adjustment unit 204 converts the CELP suppression coefficient in a band where a pulse due to transform coding does not stand (a band where CELP suppression is reduced) into a band where a pulse due to transform coding stands (CELP suppression). Larger than the CELP suppression coefficient in the band to be performed).
  • CELP component suppressing section 207 performs CELP suppression in a band where a pulse due to transform coding is standing (band where CELP suppression is performed) in a band where a pulse due to transform coding is not standing (band where CELP suppression is reduced).
  • the CELP decoded signal spectrum (frequency component of the decoded signal of CELP encoded data) is suppressed to a lesser extent.
  • FIG. 4A shows the logarithmic power (amplitude) of the input signal spectrum (dotted line), the CELP decoded signal spectrum (one-dot chain line), and the suppressed CELP decoded signal spectrum (solid line) in the frequency domain, as in FIG. 1A.
  • FIG. 4B differs from FIG. 1B in that a decoded signal spectrum (decoded speech spectrum) (two-dot chain line) at frequencies f0 to f1 is additionally written. That is, in FIG. 4B, when the CELP suppression is performed by the CELP suppression coefficient indicated by the input signal spectrum (dotted line) in the frequency domain, the decoded signal spectrum at frequencies f0 to f1 (two-dot chain line), and the CELP suppression coefficient optimal index. The logarithmic power (amplitude) of the suppressed CELP decoded signal spectrum (solid line) is shown.
  • encoding apparatus 100 specifies CELP suppression coefficient optimum index cmin by closed loop search, and transforms and encodes a CELP residual signal spectrum that is a difference between an input signal spectrum and a suppressed CELP decoded signal spectrum. Encode to generate transform encoded data. As a result, as shown in FIG. 4B, pulses are generated at frequencies having large CELP residual signal energy (f3, f4, f5, f6, f7, f8, f9 in FIG. 4B).
  • band determination section 203 of decoding apparatus 200 uses CELP component suppression section 207 to weaken the degree of CELP suppression for a plurality of bands obtained by dividing the frequency components of the input signal based on the transform encoded decoded signal spectrum. It is determined whether or not it is a band in which no pulse is generated by transform coding.
  • the band determination unit 203 uses the band (f0 to f1) because the CELP residual signal energy is small. It is determined that this is a band for reducing CELP suppression.
  • the band determination unit 203 sets the CELP distortion information CEI [k] in the band (f0 to f1) to “ ⁇ 1”, and the suppression coefficient adjustment unit 204 sets the output of the CELP suppression coefficient codebook to the optimum CELP suppression coefficient.
  • the adjusted CELP suppression coefficient Catt [f] is set so as to be closer to 1.0 than the CELP suppression coefficient CBatt [cmin] indicated by the index cmin (that is, a value larger than CBatt [cmin]).
  • the band determination unit 203 sets the band (f1 to f2) to CELP because the CELP residual signal energy is large. It is determined that the band is to be suppressed. Therefore, band determination section 203 sets CELP distortion information CEI [k] in the band (f1 to f2) to “0”, and suppression coefficient adjustment section 204 performs CELP suppression coefficient indicated by CELP suppression coefficient optimal index cmin. Set CBatt [cmin] to the adjusted CELP suppression coefficient Catt [f].
  • CELP component suppressing section 207 is weaker than CELP suppression (CELP suppression indicated by the CELP suppression coefficient optimal index) in band (f1 to f2) in band (f0 to f1), and CELP decoded signal spectrum.
  • CELP suppression for Therefore, as shown in FIG. 4B, in the bands (f1 to f2), a suppressed CELP decoded signal spectrum (solid line) when CELP suppression indicated by the CELP suppression coefficient optimum index is obtained, whereas the band ( In f0 to f1), a decoded signal spectrum (two-dot chain line) in which the degree of CELP suppression is weaker than the suppressed CELP decoded signal spectrum (solid line) is obtained. That is, as shown in FIG.
  • the difference between the input signal spectrum (dotted line) and the actual decoded signal spectrum (two-dot chain line) is the difference between the input signal spectrum (dotted line) and the suppressed CELP decoded signal. It can be made smaller than the difference from the spectrum (solid line).
  • the CELP decoded signal spectrum (The difference (CELP residual signal energy) between the one-dot chain line) and the input signal spectrum (dotted line) is small.
  • the decoding apparatus 200 determines the CELP suppression strength in each band according to the magnitude of the CELP residual signal energy in each band, and adjusts the CELP suppression coefficient in each band. Specifically, decoding apparatus 200 determines a band in which no pulse is generated by transform coding as a band in which CELP residual signal energy is relatively small, that is, a band in which coding distortion by CELP coding is small, and The CELP suppression coefficient is adaptively controlled so as to weaken the degree of CELP suppression in the band.
  • decoding apparatus 200 attenuates the spectrum (CELP component) in the band that greatly contributes to the sound quality improvement effect by CELP coding, that is, the band in which the CELP residual signal energy is small (band (f0 to f1 in FIG. 4B)). Can be prevented. Then, decoding apparatus 200 obtains a decoded signal by adding the CELP component in which CELP suppression is adaptively controlled for each band and the decoded signal of transform coding.
  • the CELP residual signal energy is small (for example, the sound quality improvement effect of CELP coding shown in FIG. 4B).
  • the band (f0 to f1) where the contribution to is large it is possible to prevent sound quality degradation due to CELP suppression.
  • the sound quality by transform coding can be improved by performing CELP suppression. it can.
  • the CELP suppression process is performed for each band without notifying the decoding apparatus of information for determining the magnitude of CELP residual signal energy for each band of the input signal. be able to.
  • CELP suppression method 2 in addition to the CELP suppression method described in CELP suppression method 1, the CELP suppression optimal index is used in a band where the frequency of CELP residual signal energy is large (the frequency at which pulses due to transform coding are concentrated). CELP suppression is performed with a stronger intensity than the indicated CELP suppression.
  • the band determination unit 203 like the CELP suppression method 1, has a low CELP residual signal energy in a band in which no pulse is generated in the transform coding / decoding signal spectrum input from the transform coding / decoding unit 202. Therefore, it is determined that the band is the band (first band) in which the CELP suppression is reduced.
  • the band determination unit 203 is within each band with respect to the band in which the pulse is set in the transform coding / decoding signal spectrum input from the transform coding / decoding unit 202 (band determined as the second band). Depending on the number of pulses (that is, the pulse density in each band), it is determined whether the pulse density is a high band (third band) or the pulse density is a low band (fourth band). judge. For example, when performing two different types of CELP suppression according to the number of pulses in the band in which the pulse stands, the band determination unit 203 determines which band is subjected to CELP suppression.
  • the band determination unit 203 uses a band (third band) in which many pulses are concentrated in the band, and a band for increasing the strength of CELP suppression because the CELP residual signal energy is large. It is determined that As an example of a condition for determining whether many pulses are concentrated or standing in a band, it may be defined that pulses are standing at a frequency of 25% or more of the frequencies included in the band. .
  • the band determination unit 203 sets CELP distortion information CEI [k] in a band where no pulse is generated in the transform encoded decoded signal spectrum to “ ⁇ 1”.
  • the band determination unit 203 sets CELP distortion information CEI [k] in a band where pulses are concentrated in the transform encoded decoded signal spectrum to “1”, and the other CELP distortion information CEI [k] in a band (including a band other than a band where pulses are concentrated in a band where pulses are standing) is set to “0”.
  • the suppression coefficient adjustment unit 204 sets the adjusted CELP suppression coefficient Catt [f] according to the following equation (4).
  • f is an index indicating the frequency included in the band k shown in Expression (3).
  • CBatt indicates the output of the CELP suppression coefficient codebook, and cmin indicates the CELP suppression coefficient optimum index.
  • is a parameter that weakens the degree of CELP suppression, and is set between 0.0 and 1.0. For example, ⁇ is set to about 0.5.
  • is a parameter that increases the degree of CELP suppression, and is set under the condition shown in the following equation (5). For example, when CBatt [cmin] is 0.5, ⁇ is set between 1.0 and 2.0. For example, ⁇ is set to 1.25.
  • the output of the CELP suppression coefficient codebook is closer to 1.0 than the CELP suppression coefficient CBatt [cmin] indicated by the CELP suppression coefficient optimum index cmin (that is, larger than CBatt [cmin]).
  • the adjusted CELP suppression coefficient Catt [f] is set. Thereby, at the frequency f in the band k, control is performed such that the strength of the CELP suppression becomes weak.
  • the suppression coefficient adjustment unit 204 sets the adjusted CELP suppression coefficient Catt [f] according to the CELP distortion information CEI [k] for the band in which the pulse due to transform coding stands.
  • the amplitude of the pulse by transform coding is determined on the assumption that CELP suppression is performed by the CELP suppression coefficient CBatt [cmin] indicated by the CELP suppression coefficient optimal index cmin.
  • the CELP suppression coefficient CBatt [cmin] indicated by the CELP suppression coefficient optimum index cmin is set to the adjusted CELP suppression coefficient Catt [f] as it is for a band that is not concentrated (frequency within the band).
  • the frequency of the CELP suppression coefficient codebook is closer to 0.0 than the CELP suppression coefficient CBatt [cmin] indicated by the CELP suppression coefficient optimum index cmin for the frequency in which the pulse in the standing band does not stand ( That is, the adjusted CELP suppression coefficient Catt [f] is set so as to be smaller than CBatt [cmin].
  • the CELP suppression coefficient CBatt [cmin] indicated by the CELP suppression coefficient optimum index cmin is set as the adjusted CELP suppression coefficient Catt [f] as it is for the frequency at which the pulse in the given band stands.
  • the suppression coefficient adjustment unit 204 converts the CELP suppression coefficient in a band with a high pulse density by transform coding (a band in which the degree of CELP suppression is stronger) into a band with a low pulse density by transform coding. It is made smaller than the CELP suppression coefficient (the CELP suppression coefficient of the CELP suppression coefficient optimum index instructed from the encoding apparatus 100). Similarly to the CELP suppression method 1, the suppression coefficient adjustment unit 204 converts the CELP suppression coefficient in a band where no pulse is generated by transform coding into a band where a pulse due to transform coding is standing (a band where the pulse density is low). Larger than the CELP suppression coefficient.
  • CELP component suppressing section 207 performs CELP decoding signal spectrum (decoding of CELP encoded data) in a band having a high pulse density by transform coding to a degree stronger than CELP suppression in a band having a low pulse density by transform coding. Signal frequency component). However, CELP component suppressing section 207 suppresses the CELP decoded signal spectrum at the same level as CELP suppression in a band having a low pulse density at a frequency where a pulse in a band having a high pulse density due to transform coding stands.
  • CELP component suppressing section 207 performs CELP suppression in a band where a pulse due to transform coding is standing (a band where the pulse density is low) in a band where a pulse due to transform coding is not standing.
  • the CELP decoded signal spectrum is suppressed to a weak level.
  • the decoded signal spectrum (two-dot chain line) and the input signal are the same as in CELP suppression method 1.
  • the difference from the spectrum can be made smaller than the difference between the suppressed CELP decoded signal spectrum (solid line) and the input signal spectrum (dotted line). That is, decoding apparatus 200 prevents sound quality deterioration due to CELP suppression by weakening CELP suppression in a band where a pulse due to transform coding does not stand (a band that contributes greatly to the sound quality improvement effect of CELP coding). Can do.
  • the CELP suppression coefficient CBatt [cmin] indicated by the CELP suppression coefficient optimal index cmin is set to the adjusted CELP suppression coefficient Catt [f].
  • the adjusted CELP suppression coefficient Catt [f] so that it approaches 0.0 (ie, is smaller than CBatt [cmin]) than the CELP suppression coefficient CBatt [cmin] indicated by the CELP suppression coefficient optimal index cmin Set.
  • the decoded signal spectrum (suppressed CELP decoded signal spectrum and transform-encoded decoded signal spectrum) As a result of addition, the distortion with the input spectrum remains small.
  • the band (f1 to f2) in the frequency where no pulse is set, CELP suppression stronger than the CELP suppression indicated by the CELP suppression coefficient optimum index cmin is performed, so the suppressed CELP decoded signal spectrum is Further reduction (not shown). Therefore, in the band (f1 to f2) shown in FIG. 4B, distortion of peak frequency components (frequency components in which pulses are generated by transform coding), which are important perceptually, is small, while other frequencies are used. Since the component is more strongly suppressed, the noise floor can be further reduced.
  • the CELP residual signal energy band (for example, the sound quality of the CELP coding shown in FIG. 4B) is small as in the CELP suppression method 1.
  • a band (f0 to f1) that contributes greatly to the improvement effect, it is possible to prevent sound quality degradation due to CELP suppression.
  • the noise floor is reduced to reduce noise. A decoded signal with very clear sound quality can be obtained.
  • the CELP suppression method 1 and the CELP suppression method 2 have been described above.
  • the decoding apparatus controls the strength of CELP suppression (CELP suppression coefficient) for each band according to the magnitude of CELP residual signal energy.
  • CELP suppression is weakened in a band where the CELP residual signal energy is small, and the degree of contribution to the sound quality improvement effect of CELP coding can be maintained.
  • by performing CELP suppression in a band where the CELP residual signal energy is large it is possible to improve the sound quality by transform coding. Therefore, according to the present embodiment, even when using a coding scheme in which CELP coding and transform coding are combined in a hierarchical structure, the contribution of CELP coding is determined based on the coding result of transform coding. The determination is made for each band, and CELP suppression control can be adaptively performed for each band, so that a high-quality voice / music signal can be decoded.
  • FIG. 5 is a block diagram showing the main configuration of coding apparatus 300 according to Embodiment 2 of the present invention.
  • the encoding apparatus 300 shown in FIG. 5 is different from the encoding apparatus 100 shown in FIG. 2 in that a band preliminary selection unit 301 is added. Also, signals input to the CELP component suppression unit 104, the CELP residual signal spectrum calculation unit 105, the transform coding unit 106, the addition unit 107, and the distortion evaluation unit 108 of the coding apparatus 300 illustrated in FIG.
  • the multiplexing unit 109 is different from the first embodiment in that band selection information output from the band preliminary selection unit 301 is added as an input signal.
  • FIG. 2 components and operations different from those of the first embodiment (FIG. 2) will be described.
  • the input signal spectrum is input from the MDCT unit 101 and the CELP decoded signal spectrum is input from the MDCT unit 103 to the band preliminary selection unit 301.
  • the band preliminary selection unit 301 is a CELP residual signal for limiting the band for transform coding, that is, the band for performing CELP suppression, among a plurality of bands obtained by dividing the input signal spectrum (frequency component of the input signal). Distinguish between high energy bands and other bands. Then, the band preliminary selection unit 301 is a band having a larger CELP residual signal energy among a plurality of bands obtained by dividing the input signal spectrum, and sets a predetermined number of bands as transform coding target bands. select.
  • the band spare selection unit 301 for example, among the 16 subbands, the 8 subbands with subband numbers 1, 2, 3, 4, 5, 13, 14, and 15 in descending order of CELP residual signal energy ( 160 components) is selected as a subband to be transformed and encoded.
  • the subband selected as the transform coding target subband is referred to as a preselected subband.
  • the band preliminary selection unit 301 includes frequency components constituting a preliminary selection subband (for example, eight subbands of subband numbers 1, 2, 3, 4, 5, 13, 14, and 15) in the input signal spectrum. (160 components) is reconstructed as an input signal selection spectrum, and the input signal selection spectrum is output to the CELP residual signal spectrum calculation unit 105 and the distortion evaluation unit 108. Similarly to the input signal spectrum, the band preliminary selection unit 301 reconfigures the frequency components constituting the preliminary selection subband of the CELP decoded signal spectrum as the CELP decoded signal selection spectrum, and the CELP decoded signal selection spectrum. Is output to the CELP component suppression unit 104.
  • a preliminary selection subband for example, eight subbands of subband numbers 1, 2, 3, 4, 5, 13, 14, and 15
  • the band preliminary selection unit 301 reconfigures the frequency components constituting the preliminary selection subband of the CELP decoded signal spectrum as the CELP decoded signal selection spectrum, and the CELP decoded signal selection spectrum. Is output to the CELP component suppression unit
  • band preliminary selection unit 301 generates band selection information indicating the preliminary selection subbands (8 subbands of subband numbers 1, 2, 3, 4, 5, 13, 14, and 15), and the multiplexing unit 109 Output to.
  • transform coding section 106 of coding apparatus 300 performs transform coding only on the CELP residual signal spectrum of the preselected subband (selected band) to obtain transform coded data.
  • the encoding apparatus 300 can reduce the frequency position candidates (targets for transform coding) where pulses are generated by transform coding.
  • coding is performed so as to reduce coding distortion by setting a pulse at a frequency with a large CELP residual signal energy.
  • a band having a larger CELP residual signal energy is selected as the preliminary selection subband from the entire band of the input signal.
  • the encoding apparatus 300 reduces the transform encoded data by reducing the number of pulses actually generated by transform encoding by performing transform encoding by selecting a band to be transform encoded. It becomes possible to make it.
  • FIG. 6 is a block diagram showing the main configuration of decoding apparatus 400 according to Embodiment 2 of the present invention.
  • the same components as those in the first embodiment (FIG. 3) are denoted by the same reference numerals, and the description thereof is omitted. 6 differs from the decoding device 200 shown in FIG. 3 in that a band restoration unit 403 is added.
  • a band restoration unit 403 is added.
  • the separation unit 401 converts the encoded data transmitted from the encoding device 300 (FIG. 5) into CELP encoded data, transform encoded data, a CELP suppression coefficient optimal index, Separated into band selection information. Then, the separation unit 401 outputs the CELP encoded data to the CELP decoding unit 205, outputs the transform encoded data to the transform coding decoding unit 402, and outputs the CELP suppression coefficient optimal index to the suppression coefficient adjustment unit 204.
  • the band selection information is output to the band restoration unit 403 and the band determination unit 404.
  • Transform encoding / decoding section 402 decodes the transform encoded data input from demultiplexing section 401, generates a transform encoded decoded signal selection spectrum, and outputs the transform encoded decoded signal selection spectrum to band restoration section 403. .
  • the transform coding / decoding signal selection spectrum is a spectrum obtained by decoding a signal in which transform coding data in the preliminary selection subband indicated by the band selection information is concatenated.
  • the band restoration unit 403 Based on the band selection information input from the separation unit 401, the band restoration unit 403 arranges the transform coding / decoding signal selection spectrum input from the transform coding / decoding unit 402 in the original band. Specifically, band restoration section 403 arranges the signals of the preselected subbands constituting the transform coding / decoded signal selection spectrum at the frequency positions of the preselected subbands indicated by the band selection information. Further, band restoration section 403 sets the signals of subbands (subbands other than the preliminary selection subband) not included in the band selection information to zero. Thereby, the transform coding / decoding signal spectrum in the entire band is restored. Band restoration section 403 then outputs the restored transform-coded decoded signal spectrum to band determination section 404, suppression coefficient adjustment section 204, and addition section 208.
  • the band determination unit 404 uses the transform-coded decoded signal spectrum input from the band restoration unit 403, and subbands (preliminary selection subbands) indicated by the band selection information input from the separation unit 401 As with the band determination unit 203 of the first embodiment, is the band where the pulse is not raised (first band) or the band where the pulse generated by transform coding is standing (second band)? Determine. That is, the band determination unit 404 can grasp subbands that can be pulsed by transform coding by referring to band selection information.
  • the band determination unit 404 determines that the band in which the pulse is standing in the preselected subband (the band where the CELP residual signal energy is large) in the transform coding / decoding signal spectrum is a band that needs CELP suppression, and the pulse It is determined that the band in which the signal is not standing (the band in which the CELP residual signal energy is small) is a band in which the necessity for CELP suppression is small. That is, the band determination unit 404 determines whether or not to perform CELP suppression only in the preliminary selection subband indicated by the band selection information.
  • the encoding apparatus 300 limits the band to be subjected to transform encoding before performing the transform encoding process. Then, the encoding apparatus 300 performs transform coding only on a band that is a transform coding target. Specifically, encoding apparatus 300 selects a preset number of bands (preliminary selection subbands) having a larger CELP residual signal energy from each band of the input signal, and selects the selected band. Transform coding is performed only on the CELP residual signal spectrum to obtain transform coded data. Also, the encoding apparatus 300 searches for an optimal CELP suppression coefficient only for the band to be subjected to transform encoding.
  • coding apparatus 300 searches for the optimum CELP suppression coefficient only in a band where the CELP residual signal energy is larger, it is not necessary to excessively suppress the CELP in a band where the CELP residual energy is originally small. In other words, CELP suppression is not performed in subbands other than the preselected subband, so that sound quality deterioration due to CELP suppression (adverse effects of CELP suppression) can be prevented.
  • the decoding apparatus 400 performs the decoding process and the CELP suppression of the transform encoded data only in the preliminary selection subband indicated by the band selection information. That is, in the preselected subband of the CELP decoded signal spectrum, CELP suppression is performed using the CELP suppression coefficient searched for the preselected subband. On the other hand, CLEP suppression is not performed in subbands other than the preselected subband in the CELP decoded signal spectrum (that is, subbands with small CELP residual signal energy). Alternatively, decoding apparatus 400 may perform CELP suppression in a subband other than the preliminary selection subband in the CELP decoded signal spectrum to a degree weaker than the CELP suppression in the preliminary selection subband.
  • the effect of improving the sound quality by transform coding is large in the band where the pulse is set by transform coding (preliminary selection subband), and the band other than the band where the pulse is standing (preliminary selection subband) In other subbands), it is possible to maintain the sound quality improvement effect by CELP coding.
  • decoding apparatus 400 controls the strength of CELP suppression for each band according to the magnitude of CELP residual signal energy. Therefore, CELP suppression can be weakened in a band where the CELP residual signal energy is small, and the contribution of sound quality improvement by CELP encoding can be maintained.
  • CELP coding contribution can be determined for each band, and CELP suppression control can be adaptively performed for each band.
  • a band for performing transform coding that is, a band for performing CELP suppression (subband) is limited. As a result, the bit rate of transform coding can be reduced, and CELP suppression need not be performed for a band where the CELP residual signal energy is originally small, so that sound quality can be improved.
  • the encoding device and the decoding device may search for the CELP suppression coefficient including the preselected subbands and subbands other than the preselected subbands, and the CELP only in the subbands other than the preselected subbands.
  • a suppression coefficient may be searched.
  • the encoding device and the decoding device may perform CELP suppression (that is, in the preliminary selection subband) using a CELP suppression coefficient larger than the CELP suppression coefficient determined in the preliminary selection subband in subbands other than the preliminary selection subband. (CELP suppression that is weaker than CLEP suppression) may be performed.
  • the band determination unit of the decoding device divides the spectrum (frequency component) of the input signal into equally spaced bands for every 20 frequency components. You may divide
  • a constant (equation (2)) is an example in which the suppression coefficient adjustment unit of the decoding device weakens or increases the degree (intensity) of CELP suppression determined by the closed-loop search in the encoding device.
  • the case of using the adjusted CELP suppression coefficient Catt [f]) shown in Expression (4) has been described.
  • the method of weakening or strengthening the degree (intensity) of CELP suppression is not limited to using this constant.
  • 1.0 when CELP suppression is not performed may be included in the constant that increases or decreases the CELP suppression coefficient.
  • the CELP suppression coefficient may be determined by performing dynamic control. For example, it is possible to set the upper limit of the change of the CELP suppression coefficient so that it does not exceed a certain amount of fluctuation from the CELP suppression coefficient used in the past, and add (or subtract) a specified constant to the CELP suppression coefficient used in the past The range of the CELP suppression coefficient may be suppressed so as not to exceed the range.
  • the CELP suppression coefficient in one band does not need to be constant.
  • the CELP suppression coefficient in one band depends on the distance from a pulse generated by transform coding. It may be controlled dynamically.
  • the CELP suppression method is obtained by multiplying the amplitude of the CELP decoded signal spectrum by an attenuation coefficient (CELP suppression coefficient).
  • CELP suppression coefficient an attenuation coefficient
  • the CELP suppression method is not limited to this method.
  • moving average processing may be performed in the frequency domain.
  • musical noise may occur when the CELP suppression coefficient varies from frame to frame.
  • moving average processing in the frequency domain as a CELP suppression method, the energy of the band where CELP suppression is performed does not fluctuate significantly compared to the energy of the CELP decoded signal spectrum, so that there is an effect that musical noise is less likely to occur. It is done.
  • CELP coding has been described as an example of coding suitable for a voice signal. It can also be realized using Adaptive Transform Coding), TCX Transform Coded Excitation, etc., and the same effect can be obtained.
  • transform coding As an example of coding suitable for a music signal.
  • a residual signal between a decoded signal and an input signal of a coding method suitable for a voice signal is used as a frequency. Any method can be used as long as it allows efficient coding in a region. As such a method, there are FPC (Factorial PulsedingCoding) and AVQ (Algebraic Vector Quantization), and the same effect can be obtained.
  • the encoded data output from the encoding devices 100 and 300 is received by the decoding devices 200 and 400.
  • the present invention is not limited to this. That is, the decoding apparatuses 200 and 400 are not encoded data generated in the configuration of the encoding apparatuses 100 and 300, but are encoded by an encoding apparatus that can generate encoded data having encoded data necessary for decoding. The output encoded data can be decoded.
  • each functional block used in the description of each of the above embodiments is typically realized as an LSI which is an integrated circuit. These may be individually made into one chip, or may be made into one chip so as to include a part or all of them. Although referred to as LSI here, it may be referred to as IC, system LSI, super LSI, or ultra LSI depending on the degree of integration.
  • the method of circuit integration is not limited to LSI, and implementation with a dedicated circuit or a general-purpose processor is also possible.
  • An FPGA Field Programmable Gate Array
  • a reconfigurable / processor that can reconfigure the connection and setting of circuit cells inside the LSI may be used.
  • the encoding device, the decoding device, and these methods according to the present invention can improve the quality of a decoded signal, and can be applied to, for example, a packet communication system, a mobile communication system, and the like.

Abstract

 音声信号に適した符号化と音楽信号に適した符号化とを階層構造にして組み合わせた符号化方式において、復号される音響信号の音質を向上することができる復号装置。この装置において、変換符号化復号部(202)は、変換符号化データを復号して、変換符号化復号信号スペクトルを生成し、帯域判定部(203)は、変換符号化復号信号スペクトルを用いて、入力信号の周波数成分を分割した複数の帯域それぞれに対して、変換符号化によるパルスが立っていない第1の帯域であるか、パルスが立っている第2の帯域であるかを判定し、CELP成分抑圧部(207)は、第1の帯域では第2の帯域における抑圧よりも弱い程度で、CELP符号化データの復号信号の周波数成分であるCELP復号信号スペクトルを抑圧する。

Description

復号装置、符号化装置及びこれらの方法
 本発明は、復号装置、符号化装置及びこれらの方法に関する。
 音声及び音楽等を、低ビットレートかつ高音質で圧縮できる符号化方式として、音声信号に適したCELP(Code Excited Linear Prediction)符号化方式と、音楽信号に適した変換符号化方式とを階層構造にして組み合わせた符号化方式が提案されている(例えば、非特許文献1参照)。なお、以下においては、音声信号と音楽信号とを総称して音響信号と称することとする。
 この符号化方式では、符号化装置は、まず、CELP符号化方式で入力信号を符号化してCELP符号化データを生成する。次いで、符号化装置は、入力信号とCELP復号信号(CELP符号化データの復号結果)との残差信号(以下、CELP残差信号と呼ぶ)を周波数領域に変換して得られる残差スペクトルを変換符号化することにより、高音質化を図っている。変換符号化方式としては、残差スペクトルのエネルギが大きい周波数にパルスを立てて、そのパルスの情報を符号化する方式が提案されている(非特許文献1参照)。
 しかしながら、CELP符号化方式は、音声信号の符号化には適しているが、音楽信号に対しては符号化モデルが異なるので音質が悪くなる。そのため、上記符号化方式で音楽信号を符号化した場合、CELP残差信号の成分が大きくなるので、変換符号化によりCELP残差信号(残差スペクトル)を符号化しても音質が向上しにくいという課題がある。
 この課題を解決するために、CELP復号信号の周波数成分(以下、CELP成分と呼ぶ)の振幅を抑圧した結果を用いて算出される残差スペクトルを変換符号化することで高音質化を図る符号化方式(CELP成分抑圧方法)が提案されている(例えば、特許文献1及び非特許文献1(section 6.11.6.2)参照)。
 非特許文献1に開示されたCELP成分抑圧方法では、入力信号のサンプリング周波数が16kHzの場合、0.8kHz~5.5kHzの中帯域のみでCELP成分の振幅の抑圧(以下、CELP抑圧と呼ぶ)が行われる。ただし、非特許文献1では、符号化装置は、CELP残差信号に対して変換符号化を直接行うのではなく、その前に別の変換符号化方式(例えば、非特許文献1(Section 6.11.6.1)参照)によってCELP成分の残差信号を小さくしている。このため、符号化装置は、中帯域であっても上記別の変換符号化方式によって符号化された周波数成分に対してはCELP抑圧を行わない。また、中帯域内のCELP抑圧を行わない周波数以外の他の周波数では、CELP抑圧の程度(強さ)を示すCELP抑圧係数は一様である。CELP抑圧係数は、CELP抑圧の強度別にコードブック(以下、CELP成分抑圧コードブックと呼ぶ)に格納されている。CELP成分抑圧コードブックには、CELP成分を全く抑圧しないことを意味する係数(=1.0)も格納されている。
 符号化装置は、変換符号化を行う前に、CELP成分(CELP復号信号)と、CELP成分抑圧コードブックに格納されているCELP抑圧係数とを乗じることでCELP抑圧を行ってから、入力信号とCELP復号信号(CELP抑圧後のCELP復号信号)との残差スペクトルを求め、残差スペクトルを変換符号化する。そして、符号化装置は、変換符号化データの復号信号とCELP成分が抑圧されたCELP復号信号とを加算した信号と、入力信号との残差信号を算出し、残差信号のエネルギ(以下、符号化歪と呼ぶ)が最小となるCELP抑圧係数を閉ループにて探索して、探索したCELP抑圧係数を符号化する。これにより、符号化装置では、帯域全体として符号化歪を最小にした変換符号化を行うことができる。一方、復号装置は、符号化装置から送信されるCELP抑圧係数を用いて、CELP復号信号のCELP成分を抑圧し、CELP成分が抑圧されたCELP復号信号に変換符号化の復号信号を加算する。これにより、復号装置では、CELP符号化と変換符号化とを階層構造にして組み合わせた符号化を行う際のCELP符号化による音質の劣化を抑えた復号信号を得ることができる。
米国特許出願公開第2009/0112607号明細書
Recommendation ITU-T G.718,2008年6月
 しかしながら、上述したCELP成分抑圧方法により、CELP復号信号のCELP成分を抑圧してしまうと、入力信号とCELP復号信号との残差信号が小さい帯域でもCELP成分が抑圧され、CELP符号化による音質向上効果(つまり、CELP符号化の音質向上に対する寄与)が損なわれる。つまり、帯域によっては、CELP成分抑圧方法を用いると却って音質が劣化してしまうという課題が発生する。
 上記課題について図1を用いて具体的に説明する。
 図1A及び図1Bは周波数領域における入力信号スペクトル(点線)、CELP復号信号スペクトル(一点鎖線)、及び、CELP抑圧後のCELP復号信号スペクトルである抑圧CELP復号信号スペクトル(実線)の対数パワー(振幅)を示す。なお、説明を簡単にするため、図1A及び図1Bでは、全帯域で一様にCELP抑圧を行う場合について説明する。また、図1A及び図1Bでは、入力信号はボーカル付きの音楽信号を想定する。つまり、図1A及び図1Bに示す低域(f0~f1)では音声スペクトルの寄与が大きく、中帯域以上の帯域(f1~f2)では楽器等のスペクトルの寄与が大きいものとする。非特許文献1では、CELP抑圧を行う帯域を0.8kHzから5.5kHzに制限しているが、以下で説明する課題は同様に発生する。
 図1Aに示すように、符号化装置は、閉ループ探索により選択したCELP抑圧係数を用いて、CELP復号信号スペクトルのスペクトル振幅(CELP成分)に対して各周波数でCELP抑圧を行い、抑圧CELP復号信号スペクトルを得る。そして、符号化装置は、入力信号スペクトルと抑圧CELP復号信号スペクトルとの差異であるCELP残差信号を変換符号化で符号化する。
 これにより、図1Bに示すように、楽器等のスペクトルの寄与が大きい帯域(f1~f2)において、入力信号スペクトル(点線)と抑圧CELP復号信号スペクトル(実線)との差異が大きい周波数(f3、f4、f5、f6、f7、f8、f9)では、変換符号化により生成されたパルスが立てられる。一方、図1Bにおいて、変換符号化によるパルスが立たなかった周波数では、CELP抑圧によってCELP成分が抑圧されるため、結果として、スペクトルのノイズ成分(以下、ノイズフロアと呼ぶ)が減衰する。ここで、ノイズフロアはエネルギの小さい信号成分である。CELP符号化方式は、ノイズフロアのような信号成分に対する符号化としては向かないため、入力信号よりもノイズフロアが大きくなり、雑音感が強調されてしまう可能性がある。よって、上述したように、CELP抑圧によってノイズフロアを減衰させる効果により、雑音感を軽減したクリアな音質を実現することができる。
 一方、図1Bにおいて、音声スペクトルの寄与が大きい帯域(f0~f1)に関しては、上述したようにCELP符号化の寄与が大きいので、CELP残差信号は小さくなる。このため、図1Bに示すように、帯域(f0~f1)では、変換符号化によるパルスが生成されず、復号装置で得られる復号信号スペクトルは、抑圧CELP復号信号スペクトルに一致する。
 図1Aに示すように、帯域(f0~f1)では、CELP符号化によってCELP残差信号が小さく、CELP復号信号スペクトル(一点鎖線)としては、入力信号スペクトル(点線)とほぼ一致するスペクトルが得られる。これに対して、CELP抑圧によってCELP成分を抑圧CELP復号信号スペクトル(実線)となるように抑圧することは、CELP符号化による音質向上に対する寄与を下げることになる。つまり、CELP符号化による音質向上に対する寄与が大きい帯域(f0~f1)では、CELP抑圧を行うことが音質劣化につながってしまう。なお、ここではボーカル付きの音楽を用いて説明を行ったが、これに限らず一般的な音楽信号においても帯域によってCELP符号化の寄与が異なることは起こりえる。
 本発明の目的は、音声信号に適した符号化と音楽信号に適した符号化とを階層構造にして組み合わせた符号化方式において、音楽信号に適した符号化の符号化結果に基づいて音声信号に適した符号化の音質向上に対する寄与度を帯域毎に判定し、帯域毎に適応的にスペクトル振幅の抑圧制御を行うことで、復号される音響信号の音質を向上できる復号装置、符号化装置及びこれらの方法を提供することである。
 本発明の第1の態様に係る復号装置は、音声符号化を用いて生成された第1符号化データと音楽符号化を用いて生成された第2符号化データとを受信して復号を行う復号装置であって、前記第1符号化データを復号して得られた信号を直交変換して第1スペクトルを生成する第1復号手段と、前記第2符号化データを用いて復号を行い第2スペクトルを生成する第2復号手段と、前記第2スペクトルを用いて、前記第1スペクトルの振幅を抑圧する程度を調整すべき第1帯域を特定する特定手段と、前記第1スペクトルにおける前記第1帯域の振幅を、調整された程度で抑圧する抑圧手段と、を具備する構成を採る。
 本発明の第2の態様に係る符号化装置は、音声符号化を用いて入力信号を符号化して第1符号を生成し、前記第1符号を復号して得られた信号を直交変換して第1スペクトルを生成する第1符号化手段と、前記入力信号を直交変換して第2スペクトルを生成するスペクトル生成手段と、周波数帯域を複数に分割し、前記第1スペクトルと前記第2スペクトルとの残差信号のエネルギに基づいて、予め設定された数の帯域を選択し、選択された帯域の情報である帯域選択情報を生成し、前記第1スペクトルにおける前記選択された帯域のスペクトルを第1選択スペクトルとして出力し、前記第2スペクトルにおける前記選択された帯域のスペクトルを第2選択スペクトルとして出力する帯域選択手段と、前記第1選択スペクトルにおける振幅を、抑圧する程度を表す抑圧係数を用いて抑圧して抑圧スペクトルを生成する抑圧手段と、前記第2選択スペクトルと前記抑圧スペクトルとの差を求めて残差スペクトルを生成する残差スペクトル算出手段と、音楽符号化を用いて前記残差スペクトルを符号化して第2符号を生成し、前記第2符号を復号して復号残差スペクトルを生成する第2符号化手段と、前記抑圧スペクトルと前記復号残差スペクトルとを用いて復号スペクトルを生成する復号スペクトル生成手段と、前記第2選択スペクトルと前記復号スペクトルとの歪を算出し、前記歪が最小となる前記抑圧係数を探索する歪評価手段と、を具備する構成を採る。
 本発明の第3の態様に係る復号方法は、音声符号化を用いて生成された第1符号化データと音楽符号化を用いて生成された第2符号化データとを受信して復号を行う復号方法であって、前記第1符号化データを復号して得られた信号を直交変換して第1スペクトルを生成する第1復号ステップと、前記第2符号化データを用いて復号を行い第2スペクトルを生成する第2復号ステップと、前記第2スペクトルを用いて、前記第1スペクトルの振幅を抑圧する程度を調整すべき第1帯域を特定する特定ステップと、前記第1スペクトルにおける前記第1帯域の振幅を、調整された程度で抑圧する抑圧ステップと、を具備する構成を採る。
 本発明の第4の態様に係る符号化方法は、音声符号化を用いて入力信号を符号化して第1符号を生成し、前記第1符号を復号して得られた信号を直交変換して第1スペクトルを生成する第1符号化ステップと、前記入力信号を直交変換して第2スペクトルを生成するスペクトル生成ステップと、周波数帯域を複数に分割し、前記第1スペクトルと前記第2スペクトルとの残差信号のエネルギに基づいて、予め設定された数の帯域を選択し、選択された帯域の情報である帯域選択情報を生成し、前記第1スペクトルにおける前記選択された帯域のスペクトルを第1選択スペクトルとして出力し、前記第2スペクトルにおける前記選択された帯域のスペクトルを第2選択スペクトルとして出力する帯域選択ステップと、前記第1選択スペクトルにおける振幅を、抑圧する程度を表す抑圧係数を用いて抑圧して抑圧スペクトルを生成する抑圧ステップと、前記第2選択スペクトルと前記抑圧スペクトルとの差を求めて残差スペクトルを生成する残差スペクトル算出ステップと、音楽符号化を用いて前記残差スペクトルを符号化して第2符号を生成し、前記第2符号を復号して復号残差スペクトルを生成する第2符号化ステップと、前記抑圧スペクトルと前記復号残差スペクトルとを用いて復号スペクトルを生成する復号スペクトル生成ステップと、前記第2選択スペクトルと前記復号スペクトルとの歪を算出し、前記歪が最小となる前記抑圧係数を探索する歪評価ステップと、を具備する構成を採る。
 本発明によれば、音声信号に適した符号化と音楽信号に適した符号化とを階層構造にして組み合わせた符号化方式においても、復号される音響信号の音質を向上することができる。
本発明の課題について説明するための図 本発明の課題について説明するための図 本発明の実施の形態1に係る符号化装置の構成を示すブロック図 本発明の実施の形態1に係る復号装置の構成を示すブロック図 本発明の実施の形態1に係るCELP抑圧処理について説明するための図 本発明の実施の形態1に係るCELP抑圧処理について説明するための図 本発明の実施の形態2に係る符号化装置の構成を示すブロック図 本発明の実施の形態2に係る復号装置の構成を示すブロック図
 以下、本発明の各実施の形態について、図面を参照して詳細に説明する。なお、本発明に係る符号化装置及び復号装置として、音響符号化装置及び音響復号装置を例にとって説明する。なお、上述のように、音声信号と音楽信号とを総称して音響信号と称することとする。すなわち、音響信号は、実質的に音声信号のみ、実質的に音楽信号のみ、音声信号及び音楽信号が混在した信号、のいずれの信号をも表すものとする。
 また、本発明に係る符号化装置及び復号装置は、少なくとも2つの符号化を行う階層を有する。以下の説明においては、音声信号に適した符号化としてCELP符号化を、音楽信号に適した符号化として変換符号化を、それぞれ代表して用いるものとし、符号化装置及び復号装置は、CELP符号化と変換符号化とを階層構造にして組み合わせた符号化方式を用いる。
 (実施の形態1)
 図2は、本発明の実施の形態1に係る符号化装置100の主要な構成を示すブロック図である。符号化装置100は、音声及び音楽等の入力信号を、CELP符号化と変換符号化とを階層構造にして組み合わせた符号化方式を用いて符号化して、符号化データを出力する。図2に示すように、符号化装置100は、MDCT(Modified Discrete Cosine Transform:修正離散コサイン変換)部101、CELP符号化部102、MDCT部103、CELP成分抑圧部104、CELP残差信号スペクトル算出部105、変換符号化部106、加算部107、歪評価部108、多重化部109を具備する。各部は以下の動作を行う。
 図2に示す符号化装置100において、MDCT部101は、入力信号に対してMDCT処理を行って入力信号スペクトルを生成する。そして、MDCT部101は、生成した入力信号スペクトルをCELP残差信号スペクトル算出部105及び歪評価部108に出力する。
 CELP符号化部102は、入力信号をCELP符号化方式により符号化してCELP符号化データを生成する。また、CELP符号化部102は、生成したCELP符号化データを復号(ローカルデコード)してCELP復号信号を生成する。そして、CELP符号化部102は、CELP符号化データを多重化部109に出力し、CELP復号信号をMDCT部103に出力する。
 MDCT部103は、CELP符号化部102から入力されるCELP復号信号に対してMDCT処理を行ってCELP復号信号スペクトルを生成する。そして、MDCT部103は、生成したCELP復号信号スペクトルをCELP成分抑圧部104に出力する。
 CELP成分抑圧部104は、CELP抑圧の程度(強さ)を示すCELP抑圧係数がCELP抑圧の強度別に格納されたCELP成分抑圧係数コードブックを具備する。例えば、CELP成分抑圧係数コードブックには、抑圧しないことを意味する1.0から、CELP成分の振幅を半分にする0.5までの4種類のCELP抑圧係数が格納されている。つまり、CELP抑圧係数は、CELP抑圧の強さが大きいほど値がより小さくなる。また、各CELP抑圧係数にはインデックス(CELP抑圧係数インデックス)が付与されている。まず、CELP成分抑圧部104は、歪評価部108から入力されるCELP抑圧係数インデックスに従って、CELP成分抑圧係数コードブックの中からCELP抑圧係数を選択する。そして、CELP成分抑圧部104は、選択したCELP抑圧係数を、MDCT部103から入力されるCELP復号信号スペクトルの周波数成分毎に乗じて、CELP成分抑圧スペクトルを算出する。そして、CELP成分抑圧部104は、CELP成分抑圧スペクトルをCELP残差信号スペクトル算出部105及び加算部107に出力する。
 CELP残差信号スペクトル算出部105は、MDCT部101から入力される入力信号スペクトルと、CELP成分抑圧部104から入力されるCELP成分抑圧スペクトルとの差分であるCELP残差信号スペクトルを算出する。具体的には、CELP残差信号スペクトル算出部105は、入力信号スペクトルからCELP成分抑圧スペクトルを減じることで、CELP残差信号スペクトルを得る。そして、CELP残差信号スペクトル算出部105は、CELP残差信号スペクトルを変換符号化部106に出力する。
 変換符号化部106は、CELP残差信号スペクトル算出部105から入力されるCELP残差信号スペクトルを変換符号化により符号化して、変換符号化データを生成する。また、変換符号化部106は、生成した変換符号化データを復号(ローカルデコード)して、変換符号化復号信号スペクトルを生成する。このとき、変換符号化部106は、CELP残差信号スペクトルと変換符号化復号信号スペクトルとの歪が小さくなるように符号化を行う。例えば、変換符号化部106は、CELP残差信号スペクトルの振幅が大きい周波数に、パルスを立てることで上記歪を小さくするように符号化を行う。そして、変換符号化部106は、変換符号化データを歪評価部108に出力し、変換符号化復号信号スペクトルを加算部107に出力する。
 加算部107は、CELP成分抑圧部104から入力されるCELP成分抑圧スペクトルと、変換符号化部106から入力される変換符号化復号信号スペクトルとを加算して復号信号スペクトルを算出し、復号信号スペクトルを歪評価部108に出力する。
 歪評価部108は、CELP成分抑圧部104が備えるCELP成分抑圧係数コードブックに格納されたCLEP抑圧係数の全インデックスを走査して、MDCT部101から入力される入力信号スペクトルと加算部107から入力される復号信号スペクトルとの歪みが最小となるCELP抑圧係数インデックスを探索する。つまり、歪評価部108は、全てのCELP抑圧係数を用いてCELP抑圧を行うようにCELP成分抑圧部104を制御する(CELP抑圧係数インデックスを出力する)。そして、歪評価部108は、算出した歪が最小となるCELP抑圧係数インデックスを、CELP抑圧係数最適インデックスとして多重化部109に出力し、CELP抑圧係数最適インデックスを用いて生成したときの変換符号化データ(歪最小時の変換符号化データ)を多重化部109に出力する。
 なお、図2に示す符号化装置100において、CELP成分抑圧部104、CELP残差信号スペクトル算出部105、変換符号化部106、加算部107及び歪評価部108は、閉ループを構成する。この閉ループを構成する各構成部は、CELP成分抑圧部104が具備するCELP成分抑圧コードブックの全CELP抑圧係数インデックスを用いて復号信号スペクトルを生成し、入力信号スペクトルとの歪が最小となる候補(CELP抑圧係数インデックス)を探索する。
 多重化部109は、CELP符号化部102から入力されるCELP符号化データ、歪評価部108から入力される変換符号化データ(歪最小時の変換符号化データ)及びCELP抑圧係数最適インデックスを多重化して、多重化結果を符号化データとして復号装置へ送信する。
 次に、復号装置200について説明する。復号装置200は、符号化装置100から送信される符号化データを復号して、復号信号を出力する。
 図3は、復号装置200の主要な構成を示すブロック図である。復号装置200は、分離部201、変換符号化復号部202、帯域判定部203、抑圧係数調整部204、CELP復号部205、MDCT部206、CELP成分抑圧部207、加算部208、IMDCT(Inverse Modified Discrete Cosine Transform:逆修正離散コサイン変換)部209を具備する。各部は以下の動作を行う。
 図3に示す復号装置200において、分離部201は、CELP符号化データと、変換符号化データと、CELP抑圧係数最適インデックスとを含む符号化データを符号化装置100(図2)から受信する。分離部201は、符号化データを、CELP符号化データと、変換符号化データと、CELP抑圧係数最適インデックスとに分離する。そして、分離部201は、CELP符号化データをCELP復号部205に出力し、変換符号化データを変換符号化復号部202に出力し、CELP抑圧係数最適インデックスを抑圧係数調整部204に出力する。
 変換符号化復号部202は、分離部201から入力される変換符号化データを復号して、変換符号化復号信号スペクトルを生成し、変換符号化復号信号スペクトルを帯域判定部203、抑圧係数調整部204及び加算部208に出力する。
 帯域判定部203は、変換符号化復号部202から入力される変換符号化復号信号スペクトルを用いて、入力信号スペクトルとCELP復号信号スペクトルとの誤差のエネルギであるCELP残差信号エネルギを帯域毎に推定する。ここで、変換符号化は、CELP残差信号が他の周波数と比べて相対的に大きくなる周波数にパルスを立てるように動作する。つまり、変換符号化によりパルスが立てられる帯域(周波数)はCELP残差信号エネルギが相対的に大きく、パルスが立てられない帯域(周波数)はCELP残差信号エネルギが相対的に小さいということが推定できる。よって、帯域判定部203は、推定した帯域毎のCELP残差信号エネルギに基づいて、変換符号化復号信号スペクトルにおいてパルスが立っている帯域(CELP残差信号エネルギが大きい帯域)をCELP抑圧が必要な帯域であると判定し、パルスが立っていない帯域(CELP残差信号エネルギが小さい帯域)をCELP抑圧の必要性が少ない帯域であると判定する。つまり、帯域判定部203は、変換符号化復号信号スペクトルを用いて、入力信号の周波数成分を分割した複数の帯域それぞれに対して、パルスが立っていない帯域(第1の帯域)であるか、変換符号化により生成されるパルスが立っている帯域(第2の帯域)であるかを判定する。そして、帯域判定部203は、判定結果をCELP歪情報として抑圧係数調整部204に出力する。なお、帯域判定部203における帯域特定処理の詳細については後述する。
 抑圧係数調整部204は、符号化装置100のCELP成分抑圧部104と同様、CELP成分抑圧係数コードブックを具備する。抑圧係数調整部204は、分離部201から入力されるCELP抑圧係数最適インデックス、帯域判定部203から入力されるCELP歪情報、及び、変換符号化復号部202から入力される変換符号化復号信号スペクトルを用いて、CELP抑圧係数を周波数毎に調整する。そして、抑圧係数調整部204は、周波数毎に調整したCELP抑圧係数を調整CELP抑圧係数としてCELP成分抑圧部207に出力する。なお、抑圧係数調整部204におけるCELP抑圧係数の調整処理の詳細については後述する。
 CELP復号部205は、分離部201から入力されるCELP符号化データを復号して、CELP復号信号をMDCT部206に出力する。
 MDCT部206は、CELP復号部205から入力されるCELP復号信号に対して、MDCT処理を行ってCELP復号信号スペクトルを生成する。そして、MDCT部206は、生成したCELP復号信号スペクトルをCELP成分抑圧部207に出力する。
 CELP成分抑圧部207は、抑圧係数調整部204から入力される調整CELP抑圧係数を、MDCT部206から入力されるCELP復号信号スペクトルの周波数成分毎に乗ずることにより、CELP復号信号スペクトル(CELP成分)が抑圧されたCELP成分抑圧スペクトルを算出する。そして、CELP成分抑圧部207は、算出したCELP成分抑圧スペクトルを加算部208に出力する。
 加算部208は、符号化装置100の加算部107と同様にして、CELP成分抑圧部207から入力されるCELP成分抑圧スペクトルと、変換符号化復号部202から入力される変換符号化復号信号スペクトルとを加算して、復号信号スペクトルを算出する。そして、加算部208は、算出した復号信号スペクトルをIMDCT部209に出力する。
 IMDCT部209は、加算部208から入力される復号信号スペクトルに対して、IMDCT処理を行って復号信号を出力する。
 次に、復号装置200(図3)の帯域判定部203における帯域特定処理、及び、抑圧係数調整部204におけるCELP抑圧係数の調整処理の詳細について説明する。以下、CELP抑圧方法1及びCELP抑圧方法2について説明する。
 <CELP抑圧方法1>
 本方法では、帯域判定部203は、変換符号化復号部202から入力される変換符号化復号信号スペクトルにおいてパルスが立っていない帯域を、CELP残差信号エネルギが小さいのでCELP抑圧を小さくする帯域(第1の帯域)であると判定する。一方、帯域判定部203は、変換符号化復号部202から入力される変換符号化復号信号スペクトルにおいてパルスが立っている帯域を、CELP残差信号エネルギが大きいのでCELP抑圧係数最適インデックスに従ってCELP抑圧を行う帯域(第2の帯域)であると判定する。
 例えば、帯域判定部203は、次式(1)に示すように、変換符号化復号信号スペクトルにおいてパルスが立っていない帯域におけるCELP歪情報CEI[k]を‘-1’とし、その他の帯域(パルスが立っている帯域を含む)におけるCELP歪情報CEI[k]を‘0’とする。
Figure JPOXMLDOC01-appb-M000001
 式(1)において、kは帯域を示すインデックスであり、例えば、16個の周波数成分を1帯域としてもよい。
 次いで、抑圧係数調整部204は、帯域判定部203からCELP歪情報CEI[k]が入力されると、次式(2)に従って、調整CELP抑圧係数Catt[f]を設定する。
 式(2)において、fは式(1)に示す帯域kに含まれる周波数を示すインデックスである。すなわち、式(2)に示すCatt[f]は周波数f毎のCELP抑圧係数である。また、CBattはCELP抑圧係数コードブックの出力を示し、cminはCELP抑圧係数最適インデックスを示す。つまり、式(2)においてCBatt[cmin]はCELP抑圧係数インデックスがcminであるCELP抑圧係数を示す。また、αはCELP抑圧の程度を弱めるパラメータであり、0.0~1.0の間に設定される。例えば、αは0.5程度に設定される。
 式(1)に示すように、抑圧係数調整部204は、CELP歪情報CEI[k]=-1の場合、つまり、CELP抑圧を小さくする帯域(帯域内の周波数)に対して、CELP抑圧係数コードブックの出力がCELP抑圧係数最適インデックスcminで指示されるCELP抑圧係数CBatt[cmin]よりも1.0に近づくように(つまり、CBatt[cmin]よりも大きい値になるように)、調整CELP抑圧係数Catt[f]を設定する。これにより、帯域k内の周波数fでは、CELP抑圧の強度が弱くなるように制御される。
 一方、式(1)に示すように、抑圧係数調整部204は、CELP歪情報CEI[k]=0の場合、つまり、CELP抑圧を行う帯域(帯域内の周波数)に対して、CELP抑圧係数最適インデックスcminで指示されるCELP抑圧係数CBatt[cmin]を調整CELP抑圧係数Catt[f]にそのまま設定する。
 このようにして、抑圧係数調整部204は、変換符号化によるパルスが立っていない帯域(CELP抑圧を小さくする帯域)におけるCELP抑圧係数を、変換符号化によるパルスが立っている帯域(CELP抑圧を行う帯域)におけるCELP抑圧係数よりも大きくする。これにより、CELP成分抑圧部207は、変換符号化によるパルスが立っていない帯域(CELP抑圧を小さくする帯域)では、変換符号化によるパルスが立っている帯域(CELP抑圧を行う帯域)におけるCELP抑圧よりも弱い程度でCELP復号信号スペクトル(CELP符号化データの復号信号の周波数成分)を抑圧する。
 ここで、図4Aは、図1Aと同様、周波数領域における入力信号スペクトル(点線)、CELP復号信号スペクトル(一点鎖線)、及び、抑圧CELP復号信号スペクトル(実線)の対数パワー(振幅)を示す。また、図4Bは、周波数f0~f1における復号信号スペクトル(復号音声スペクトル)(二点鎖線)を追記している点が図1Bと異なる。つまり、図4Bでは、周波数領域における入力信号スペクトル(点線)、周波数f0~f1における復号信号スペクトル(二点鎖線)、及び、CELP抑圧係数最適インデックスで指示されるCELP抑圧係数によってCELP抑圧された際の抑圧CELP復号信号スペクトル(実線)の対数パワー(振幅)を示す。
 図4Aに示すように、符号化装置100は、閉ループ探索によりCELP抑圧係数最適インデックスcminを特定し、入力信号スペクトルと抑圧CELP復号信号スペクトルとの差分であるCELP残差信号スペクトルを変換符号化で符号化して変換符号化データを生成する。これにより、図4Bに示すように、CELP残差信号エネルギの大きい周波数(図4Bではf3,f4,f5,f6,f7,f8,f9)にパルスが立てられる。
 次いで、復号装置200の帯域判定部203は、変換符号化復号信号スペクトルに基づいて、入力信号の周波数成分を分割した複数の帯域に対して、CELP成分抑圧部207においてCELP抑圧の程度を弱める帯域(変換符号化によるパルスが立っていない帯域)であるか否かを判定する。ここで、図4Bに示すように、帯域(f0~f1)では変換符号化によるパルスが立っていないため、帯域判定部203は、帯域(f0~f1)を、CELP残差信号エネルギが小さいのでCELP抑圧を小さくする帯域であると判定する。
 よって、帯域判定部203は、帯域(f0~f1)におけるCELP歪情報CEI[k]を‘-1’に設定し、抑圧係数調整部204は、CELP抑圧係数コードブックの出力がCELP抑圧係数最適インデックスcminで指示されるCELP抑圧係数CBatt[cmin]よりも1.0に近づくように(つまり、CBatt[cmin]よりも大きい値になるように)、調整CELP抑圧係数Catt[f]を設定する。
 一方、図4Bに示すように、帯域(f1~f2)では変換符号化によるパルスが立っているため、帯域判定部203は、帯域(f1~f2)を、CELP残差信号エネルギが大きいのでCELP抑圧を行う帯域であると判定する。そこで、帯域判定部203は、帯域(f1~f2)におけるCELP歪情報CEI[k]を‘0’に設定し、抑圧係数調整部204は、CELP抑圧係数最適インデックスcminで指示されるCELP抑圧係数CBatt[cmin]を調整CELP抑圧係数Catt[f]に設定する。
 これにより、CELP成分抑圧部207は、帯域(f0~f1)では、帯域(f1~f2)におけるCELP抑圧(CELP抑圧係数最適インデックスで指示されるCELP抑圧)よりも弱い程度で、CELP復号信号スペクトルに対してCELP抑圧を行う。よって、図4Bに示すように、帯域(f1~f2)ではCELP抑圧係数最適インデックスで指示されるCELP抑圧を行った場合の抑圧CELP復号信号スペクトル(実線)が得られるのに対して、帯域(f0~f1)では抑圧CELP復号信号スペクトル(実線)よりも、CELP抑圧の程度が弱まった復号信号スペクトル(二点鎖線)が得られる。すなわち、図4Bに示すように、帯域(f0~f1)では、入力信号スペクトル(点線)と実際の復号信号スペクトル(二点鎖線)との差異を、入力信号スペクトル(点線)と抑圧CELP復号信号スペクトル(実線)との差異よりも小さくすることができる。
 上述したように、図4A及び図4Bに示す帯域(f0~f1)は音声スペクトルの寄与が大きく、CELP符号化に適している帯域であるので、図4Aに示すように、CELP復号信号スペクトル(一点鎖線)と入力信号スペクトル(点線)との差異(CELP残差信号エネルギ)は小さい。
 これに対して、復号装置200は、各帯域のCELP残差信号エネルギの大きさに応じて、各帯域におけるCELP抑圧の強度を判定し、各帯域でのCELP抑圧係数を調整する。具体的には、復号装置200は、変換符号化によるパルスが立っていない帯域をCELP残差信号エネルギが相対的に小さい帯域、すなわち、CELP符号化による符号化歪が小さい帯域と判定し、その帯域のCELP抑圧の程度を弱めるようにCELP抑圧係数を適応的に制御する。
 これにより、復号装置200は、CELP符号化による音質向上効果に対する寄与が大きい帯域、すなわち、CELP残差信号エネルギが小さい帯域(図4Bでは帯域(f0~f1))のスペクトル(CELP成分)を減衰させることを防ぐことができる。そして、復号装置200は、帯域毎にCELP抑圧が適応制御されたCELP成分と変換符号化の復号信号とを加算することにより、復号信号を得る。
 よって、本方法によれば、CELP符号化と変換符号化とを階層構造にして組み合わせた符号化方式でも、CELP残差信号エネルギが小さい帯域(例えば、図4Bに示すCELP符号化の音質向上効果に対する寄与が大きい帯域(f0~f1))では、CELP抑圧による音質劣化を防止することができる。また、CELP残差信号エネルギが大きい帯域(例えば、図4Bに示すCELP符号化の寄与が小さい帯域(f1~f2))では、CELP抑圧を行うことで、変換符号化による音質を向上させることができる。
 更に、本方法によれば、入力信号の帯域毎のCELP残差信号エネルギの大きさを判定するための情報を符号化装置から復号装置へ通知することなく、CELP抑圧処理を帯域毎に実施することができる。
 <CELP抑圧方法2>
 本方法では、CELP抑圧方法1で説明したCELP抑圧方法に加え、CELP残差信号エネルギが大きい周波数(変換符号化によるパルスが立っている周波数)が集中している帯域では、CELP抑圧最適インデックスで指示されるCELP抑圧と比較して、より強い強度でCELP抑圧を行う。
 具体的には、帯域判定部203は、CELP抑圧方法1と同様、変換符号化復号部202から入力される変換符号化復号信号スペクトルにおいてパルスが立っていない帯域を、CELP残差信号エネルギが小さいのでCELP抑圧を小さくする帯域(第1の帯域)であると判定する。
 一方、帯域判定部203は、変換符号化復号部202から入力される変換符号化復号信号スペクトルにおいてパルスが立っている帯域(第2の帯域として判定される帯域)に対して、各帯域内における上記パルスの数(つまり、各帯域におけるパルスの密度)に応じて、パルスの密度が高い帯域(第3の帯域)であるか、パルスの密度が低い帯域(第4の帯域)であるかを判定する。例えば、帯域判定部203は、パルスが立っている帯域内のパルスの数に応じて2通りの異なるCELP抑圧を行う場合、その帯域がいずれのCELP抑圧を行う帯域であるかを判定する。具体的には、帯域判定部203は、帯域内に多くのパルスが集中して立っている帯域(第3の帯域)を、CELP残差信号エネルギが大きいのでCELP抑圧の強度をより強くする帯域であると判定する。帯域内に多くのパルスが集中して立っているか否かを判定する条件の一例としては、帯域に含まれる周波数のうち25%以上の周波数にてパルスが立っている場合と定義してもよい。
 そして、例えば、帯域判定部203は、次式(3)に示すように、変換符号化復号信号スペクトルにおいてパルスが立っていない帯域におけるCELP歪情報CEI[k]を‘-1’とする。また、帯域判定部203は、次式(3)に示すように、変換符号化復号信号スペクトルにおいてパルスが集中して立っている帯域におけるCELP歪情報CEI[k]を‘1’とし、その他の帯域(パルスが立っている帯域のうちパルスが集中して立っている帯域以外の帯域を含む)におけるCELP歪情報CEI[k]を‘0’とする。
Figure JPOXMLDOC01-appb-M000003
 次いで、抑圧係数調整部204は、帯域判定部203からCELP歪情報CEI[k]が入力されると、次式(4)に従って、調整CELP抑圧係数Catt[f]を設定する。
Figure JPOXMLDOC01-appb-M000004
 式(4)において、fは式(3)に示す帯域kに含まれる周波数を示すインデックスである。また、CBattはCELP抑圧係数コードブックの出力を示し、cminはCELP抑圧係数最適インデックスを示す。また、周波数fにおいて、変換符号化による振幅pのパルスが立てられた状態をpulse[f]=pで示し、変換符号化によるパルスが立てられていない状態をpulse[f]=0で示す。また、αはCELP抑圧の程度を弱めるパラメータであり、0.0~1.0の間に設定される。例えば、αは0.5程度に設定される。また、βはCELP抑圧の程度を強めるパラメータであり、次式(5)に示す条件下で設定される。例えば、CBatt[cmin]が0.5の場合、βは1.0~2.0の間に設定される。例えば、βは1.25に設定される。
Figure JPOXMLDOC01-appb-M000005
 式(4)に示すように、抑圧係数調整部204は、CELP歪情報CEI[k]=-1の場合、つまり、CELP抑圧を小さくする帯域(帯域内の周波数)に対して、CELP抑圧方法1と同様、CELP抑圧係数コードブックの出力がCELP抑圧係数最適インデックスcminで指示されるCELP抑圧係数CBatt[cmin]よりも1.0に近づくように(つまり、CBatt[cmin]よりも大きな値になるように)、調整CELP抑圧係数Catt[f]を設定する。これにより、帯域k内の周波数fでは、CELP抑圧の強度が弱くなるように制御される。
 一方、抑圧係数調整部204は、変換符号化によるパルスが立っている帯域に対して、CELP歪情報CEI[k]に従って調整CELP抑圧係数Catt[f]を設定する。ただし、変換符号化によるパルスの振幅は、CELP抑圧係数最適インデックスcminで指示されるCELP抑圧係数CBatt[cmin]でCELP抑圧されることを前提として決定されている。このため、抑圧係数調整部204は、パルスが集中して立っている帯域、つまり、CELP抑圧の程度を強める必要がある帯域(CEI[k]=1)のうち上記パルスが立っている周波数(式(4)に示すpulse[f]=p)では、CELP抑圧係数最適インデックスで指示されるCELP抑圧係数CBatt[cmin]でCELP抑圧を行うようにしてもよい。
 具体的には、式(4)に示すように、抑圧係数調整部204は、CELP歪情報CEI[k]=0の場合、つまり、変換符号化によるパルスが立っている帯域のうち上記パルスが集中していない帯域(帯域内の周波数)に対して、CELP抑圧係数最適インデックスcminで指示されるCELP抑圧係数CBatt[cmin]を調整CELP抑圧係数Catt[f]にそのまま設定する。
 これに対して、式(4)に示すように、抑圧係数調整部204は、CELP歪情報CEI[k]=1かつpulse[f]=0の場合、つまり、変換符号化によるパルスが集中して立っている帯域内のパルスが立っていない周波数に対して、CELP抑圧係数コードブックの出力がCELP抑圧係数最適インデックスcminで指示されるCELP抑圧係数CBatt[cmin]よりも0.0に近づくように(つまり、CBatt[cmin]よりも小さな値になるように)、調整CELP抑圧係数Catt[f]を設定する。これにより、帯域k内の周波数fでは、CELP抑圧の強度が強くなるように制御される。
 また、式(4)に示すように、抑圧係数調整部204は、CELP歪情報CEI[k]=1かつpulse[f]=pの場合、つまり、変換符号化によるパルスが集中して立っている帯域内のパルスが立ってる周波数に対して、CELP抑圧係数最適インデックスcminで指示されるCELP抑圧係数CBatt[cmin]を調整CELP抑圧係数Catt[f]にそのまま設定する。
 このようにして、抑圧係数調整部204は、変換符号化によるパルスの密度が高い帯域(CELP抑圧の程度をより強くする帯域)におけるCELP抑圧係数を、変換符号化によるパルスの密度が低い帯域におけるCELP抑圧係数(符号化装置100から指示されるCELP抑圧係数最適インデックスのCELP抑圧係数)よりも小さくする。また、抑圧係数調整部204は、CELP抑圧方法1と同様、変換符号化によるパルスが立っていない帯域におけるCELP抑圧係数を、変換符号化によるパルスが立っている帯域(パルスの密度が低い帯域)におけるCELP抑圧係数よりも大きくする。
 そして、CELP成分抑圧部207は、変換符号化によるパルスの密度が高い帯域では、変換符号化によるパルスの密度が低い帯域におけるCELP抑圧よりも強い程度でCELP復号信号スペクトル(CELP符号化データの復号信号の周波数成分)を抑圧する。ただし、CELP成分抑圧部207は、変換符号化によるパルスの密度が高い帯域内のパルスが立っている周波数では、パルスの密度が低い帯域におけるCELP抑圧と同程度でCELP復号信号スペクトルを抑圧する。また、CELP成分抑圧部207は、CELP抑圧方法1と同様、変換符号化によるパルスが立っていない帯域では、変換符号化によるパルスが立っている帯域(パルスの密度が低い帯域)におけるCELP抑圧よりも弱い程度でCELP復号信号スペクトルを抑圧する。
 これにより、変換符号化復号信号スペクトルにおいてパルスが立っていない帯域(例えば、図4Bに示す帯域(f0~f1))では、CELP抑圧方法1と同様、復号信号スペクトル(二点鎖線)と入力信号スペクトル(点線)との差異を、抑圧CELP復号信号スペクトル(実線)と入力信号スペクトル(点線)との差異よりも小さくすることができる。つまり、復号装置200は、変換符号化によるパルスが立っていない帯域(CELP符号化の音質向上効果に対する寄与度が大きい帯域)では、CELP抑圧を弱めることにより、CELP抑圧による音質劣化を防止することができる。
 また、帯域判定部203は、変換符号化復号信号スペクトルにおいてパルスが集中して立っている帯域(例えば、図4Bに示す帯域(f1~f2))を、CELP残差信号エネルギが大きいのでCELP抑圧をより強める帯域であると判定する。ただし、抑圧係数調整部204は、例えば、図4Bに示す帯域(f1~f2)のうち、変換符号化によるパルスが立てられた周波数(pulse[f]=pとなる周波数f。図4Bに示すf3、f4、f5、f6、f7、f8、f9)では、CELP抑圧係数最適インデックスcminで指示されるCELP抑圧係数CBatt[cmin]を調整CELP抑圧係数Catt[f]に設定する。一方、抑圧係数調整部204は、図4Bに示す帯域(f1~f2)のうち、変換符号化によるパルスが立てられていない周波数(pulse[f]=0)では、CELP抑圧係数コードブックの出力がCELP抑圧係数最適インデックスcminで指示されるCELP抑圧係数CBatt[cmin]よりも0.0に近づくように(つまり、CBatt[cmin]よりも小さな値になるように)、調整CELP抑圧係数Catt[f]を設定する。
 これにより、変換符号化によるパルスが集中して立っている帯域(f1~f2)のうち、パルスが立てられた周波数では、復号信号スペクトル(抑圧CELP復号信号スペクトルと変換符号化復号信号スペクトルとの加算結果)は、入力スペクトルとの歪が小さいままとなる。
 一方、帯域(f1~f2)のうち、パルスが立てられていない周波数では、CELP抑圧係数最適インデックスcminで指示されるCELP抑圧よりも程度の強いCELP抑圧が行われるので、抑圧CELP復号信号スペクトルは更に低減される(図示せず)。よって、図4Bに示す帯域(f1~f2)では、聴感的に重要な、ピーク性の周波数成分(変換符号化によりパルスが生成される周波数成分)の歪が小さいのに対して、その他の周波数成分はより強く抑圧されるので、ノイズフロアを更に減少させることができる。
 これにより、CELP符号化と変換符号化とを階層構造にして組み合わせた符号化方式でも、CELP抑圧方法1と同様、CELP残差信号エネルギが小さい帯域(例えば、図4Bに示すCELP符号化の音質向上効果に対する寄与が大きい帯域(f0~f1))では、CELP抑圧による音質劣化を防止することができる。更に、本方法では、CELP残差信号エネルギが大きい帯域(例えば、変換符号化によるパルスが集中して立てられた帯域(f1~f2))では、ノイズフロアを減少させることで、雑音感の少ない非常にクリアな音質の復号信号を得ることができる。
 以上、CELP抑圧方法1及びCELP抑圧方法2について説明した。
 このように、本実施の形態によれば、復号装置は、CELP残差信号エネルギの大きさに応じてCELP抑圧の強度(CELP抑圧係数)を帯域毎に制御する。これにより、CELP残差信号エネルギが小さい帯域ではCELP抑圧を弱めて、CELP符号化の音質向上効果に対する寄与度を維持することができる。また、CELP残差信号エネルギが大きい帯域ではCELP抑圧を行うことで、変換符号化による高音質化を図ることができる。よって、本実施の形態によれば、CELP符号化と変換符号化とを階層構造にして組み合わせた符号化方式を用いる場合でも、変換符号化の符号化結果に基づいてCELP符号化の寄与度を帯域毎に判定し、帯域毎に適応的にCELP抑圧制御を行うことができ、高音質な音声・音楽信号を復号することが可能となる。
 (実施の形態2)
 図5は、本発明の実施の形態2に係る符号化装置300の主要な構成を示すブロック図である。なお、図5において、実施の形態1(図2)と同一の構成要素には同一の符号を付しその説明を省略する。図5に示す符号化装置300では、図2に示す符号化装置100に対して帯域予備選択部301が追加される点が異なる。また、図5に示す符号化装置300のCELP成分抑圧部104、CELP残差信号スペクトル算出部105、変換符号化部106、加算部107及び歪評価部108に入力される信号が、図2に示す符号化装置100で扱っていた信号のうち帯域予備選択部301で選択された帯域の信号のみとなる点で実施の形態1と異なるが、各構成部の動作自体に変更はない。また、多重化部109には帯域予備選択部301から出力される帯域選択情報が入力信号として追加される点が実施の形態1と異なる。以下、実施の形態1(図2)と異なる構成部及び動作について説明する。
 図5に示す符号化装置300において、帯域予備選択部301には、MDCT部101から入力信号スペクトルが入力され、MDCT部103からCELP復号信号スペクトルが入力される。帯域予備選択部301は、入力信号スペクトル(入力信号の周波数成分)を分割した複数の帯域のうち、変換符号化を行う帯域、すなわち、CELP抑圧を行う帯域を限定するために、CELP残差信号エネルギの大きい帯域とそれ以外の帯域とを区別する。そして、帯域予備選択部301は、入力信号スペクトルを分割した複数の帯域のうち、CELP残差信号エネルギがより大きい帯域であって、予め設定された数の帯域を、変換符号化対象の帯域として選択する。
 例えば、1フレーム内の周波数成分が320成分ある場合に、1フレームあたりの帯域を等間隔に16個のサブバンド(1サブバンドあたり20成分)に分割する場合について説明する。また、この16個のサブバンドには、低域から昇順に1から16までのサブバンド番号が付与される。このとき、帯域予備選択部301は、例えば、16サブバンドのうち、CELP残差信号エネルギが大きい順に、サブバンド番号1,2,3,4,5,13,14,15の8サブバンド(160成分)を変換符号化対象のサブバンドとして選択する。以下、変換符号化対象のサブバンドとして選択されたサブバンドを予備選択サブバンドと呼ぶ。
 そして、帯域予備選択部301は、入力信号スペクトルのうち、予備選択サブバンド(例えば、サブバンド番号1,2,3,4,5,13,14,15の8サブバンド)を構成する周波数成分(160成分)を、入力信号選択スペクトルとして再構成し、入力信号選択スペクトルをCELP残差信号スペクトル算出部105及び歪評価部108に出力する。また、帯域予備選択部301は、入力信号スペクトルと同様にして、CELP復号信号スペクトルのうち、予備選択サブバンドを構成する周波数成分を、CELP復号信号選択スペクトルとして再構成し、CELP復号信号選択スペクトルをCELP成分抑圧部104に出力する。
 また、帯域予備選択部301は、予備選択サブバンド(サブバンド番号1,2,3,4,5,13,14,15の8サブバンド)を示す帯域選択情報を生成し、多重化部109に出力する。
 そして、符号化装置300の変換符号化部106は、予備選択サブバンド(選択された帯域)のCELP残差信号スペクトルに対してのみ変換符号化を行い、変換符号化データを得る。
 このように、帯域選択を行うことにより、符号化装置300では、変換符号化によるパルスが立てられる周波数位置の候補(変換符号化対象)を低減させることができる。ただし、変換符号化では上述したようにCELP残差信号エネルギが大きい周波数にパルスを立てることで符号化歪を小さくするように符号化を行う。これに対し、予備選択サブバンドとしては、入力信号の全帯域のうちCELP残差信号エネルギのより大きい帯域が選択される。つまり、符号化装置300は、変換符号化対象となる帯域を選択して変換符号化を行うことで、実際に変換符号化により生成されるパルス本数を減少させることなく、変換符号化データを減少させることが可能となる。
 次に、図6は、本発明の実施の形態2に係る復号装置400の主要な構成を示すブロック図である。なお、図6において、実施の形態1(図3)と同一の構成要素には同一の符号を付しその説明を省略する。図6に示す復号装置400では、図3に示す復号装置200に対して帯域復元部403が追加される点が異なる。以下、実施の形態1(図3)と異なる構成部及び動作について説明する。
 図6に示す復号装置400において、分離部401は、符号化装置300(図5)から送信される符号化データを、CELP符号化データと、変換符号化データと、CELP抑圧係数最適インデックスと、帯域選択情報とに分離する。そして、分離部401は、CELP符号化データをCELP復号部205に出力し、変換符号化データを変換符号化復号部402に出力し、CELP抑圧係数最適インデックスを抑圧係数調整部204に出力し、帯域選択情報を帯域復元部403及び帯域判定部404に出力する。
 変換符号化復号部402は、分離部401から入力される変換符号化データを復号して、変換符号化復号信号選択スペクトルを生成し、変換符号化復号信号選択スペクトルを帯域復元部403に出力する。なお、変換符号化復号信号選択スペクトルは、帯域選択情報で指示される予備選択サブバンドにおける変換符号化データが連結された信号を復号したスペクトルである。
 帯域復元部403は、分離部401から入力される帯域選択情報に基づいて、変換符号化復号部402から入力される変換符号化復号信号選択スペクトルを、元の帯域に配置する。具体的には、帯域復元部403は、変換符号化復号信号選択スペクトルを構成する予備選択サブバンドの信号を、帯域選択情報で指示される予備選択サブバンドの周波数位置に配置する。また、帯域復元部403は、帯域選択情報に含まれないサブバンド(予備選択サブバンド以外のサブバンド)の信号をゼロとする。これにより、全帯域における変換符号化復号信号スペクトルが復元される。そして、帯域復元部403は、復元した変換符号化復号信号スペクトルを帯域判定部404、抑圧係数調整部204及び加算部208に出力する。
 帯域判定部404は、帯域復元部403から入力される変換符号化復号信号スペクトルを用いて、分離部401から入力される帯域選択情報で指示されるサブバンド(予備選択サブバンド)に対して、実施の形態1の帯域判定部203と同様、パルスが立っていない帯域(第1の帯域)であるか、変換符号化により生成されるパルスが立っている帯域(第2の帯域)であるかを判定する。つまり、帯域判定部404は、帯域選択情報を参照することで、変換符号化によりパルスが立てられ得るサブバンドを把握することが可能となる。帯域判定部404は、変換符号化復号信号スペクトルのうち、予備選択サブバンドにおいてパルスが立っている帯域(CELP残差信号エネルギが大きい帯域)をCELP抑圧が必要な帯域であると判定し、パルスが立っていない帯域(CELP残差信号エネルギが小さい帯域)をCELP抑圧の必要性が少ない帯域であると判定する。つまり、帯域判定部404は、帯域選択情報で指示される予備選択サブバンドのみでCELP抑圧を行うか否かを判定する。
 このように、符号化装置300は、変換符号化処理を行う前に変換符号化対象となる帯域を制限する。そして、符号化装置300は、変換符号化対象となる帯域に対してのみ変換符号化を行う。具体的には、符号化装置300は、入力信号の各帯域のうち、CELP残差信号エネルギがより大きい、予め設定された数の帯域(予備選択サブバンド)を選択し、選択された帯域のCELP残差信号スペクトルに対してのみ変換符号化を行い、変換符号化データを得る。また、符号化装置300は、変換符号化対象となる帯域のみを対象にして最適なCELP抑圧係数を探索する。
 これにより、符号化装置300では、帯域選択情報を復号装置400へ通知する必要があるものの、変換符号化してパルスを立てる周波数候補が制限されるため、変換符号化のビットレートを低減させることが可能となる。また、符号化装置300では、CELP残差信号エネルギがより大きい帯域に限定して最適なCELP抑圧係数を探索するので、CELP残差エネルギが元々小さい帯域を過度にCELP抑圧しないですむ。つまり、予備選択サブバンド以外のサブバンドでは、CELP抑圧されないので、CELP抑圧による音質劣化(CELP抑圧の弊害)を防ぐことができる。
 また、復号装置400は、帯域選択情報で指示される予備選択サブバンドのみで、変換符号化データの復号処理及びCELP抑圧を行う。つまり、CELP復号信号スペクトルのうちの予備選択サブバンドでは、予備選択サブバンドを対象にして探索されたCELP抑圧係数を用いてCELP抑圧が行われる。一方、CELP復号信号スペクトルのうちの予備選択サブバンド以外のサブバンド(つまり、CELP残差信号エネルギが小さいサブバンド)では、CLEP抑圧が行われない。又は、復号装置400は、CELP復号信号スペクトルのうちの予備選択サブバンド以外のサブバンドでは、予備選択サブバンドにおけるCELP抑圧よりも弱い程度でCELP抑圧を行ってもよい。
 よって、復号装置400では、変換符号化によりパルスが立っている帯域(予備選択サブバンド)では変換符号化による音質の向上効果が大きくなり、パルスが立っている帯域以外の帯域(予備選択サブバンド以外のサブバンド)ではCELP符号化による音質の向上効果を維持することができる。
 また、復号装置400は、実施の形態1と同様、CELP抑圧を行う際、CELP残差信号エネルギの大きさに応じてCELP抑圧の強度を帯域毎に制御する。よって、CELP残差信号エネルギが小さい帯域ではCELP抑圧を弱めて、CELP符号化による音質向上の寄与度を維持させることができる。
 よって、本実施の形態によれば、CELP符号化と変換符号化とを階層構造にして組み合わせた符号化方式を用いる場合でも、実施の形態1と同様、変換符号化の符号化結果に基づいてCELP符号化の寄与度を帯域毎に判定し、帯域毎に適応的にCELP抑圧制御を行うことができる。更に、本実施の形態によれば、変換符号化を行う帯域、すなわち、CELP抑圧を行う帯域(サブバンド)を制限する。これにより、変換符号化のビットレートを低減することができ、かつ、CELP残差信号エネルギが元々小さい帯域に対してCELP抑圧を行わずに済むので、音質の向上を図ることができる。
 なお、本実施の形態では、予備選択サブバンド以外のサブバンドでCELP抑圧が行われない場合について説明した。しかし、符号化装置及び復号装置は、予備選択サブバンド、及び、予備選択サブバンド以外のサブバンドを含めて、CELP抑圧係数を探索してもよく、予備選択サブバンド以外のサブバンドのみでCELP抑圧係数を探索してもよい。又は、符号化装置及び復号装置は、予備選択サブバンド以外のサブバンドでは、予備選択サブバンドで決定されたCELP抑圧係数よりも大きいCELP抑圧係数を用いてCELP抑圧(つまり、予備選択サブバンドにおけるCLEP抑圧よりも弱い程度のCELP抑圧)を行ってもよい。
 以上、本発明の各実施の形態について説明した。
 なお、上記実施の形態では、復号装置の帯域判定部が、入力信号のスペクトル(周波数成分)を20個の周波数成分毎に等間隔の帯域に分割する場合について説明したが、入力信号のスペクトルを等間隔以外の間隔で分割してもよい。例えば、高域になるほど各帯域を構成する周波数成分の間隔をより長くしてもよい。又は、変換符号化により生成されるパルス間の周波数成分を1つの帯域としてもよく、変換符号化により生成されるパルスが中心となるように1つの帯域を構成してもよい。
 また、上記実施の形態では、復号装置の抑圧係数調整部が、符号化装置での閉ループ探索によって決定されたCELP抑圧の程度(強度)を弱めたり、強めたりする一例として定数(式(2)又は式(4)に示す調整CELP抑圧係数Catt[f])を用いる場合について説明した。しかし、CELP抑圧の程度(強度)を弱めたり、強めたりする方法は、この定数を用いる場合に限定されない。
 また、CELP抑圧係数を強めたり弱めたりする定数に1.0(CELP抑圧を行わない場合)を含めてもよい。また、上記実施の形態では、CELP抑圧係数として定数(式(2)及び式(4))を用いる場合について説明したが、動的制御を行ってCELP抑圧係数を決定するようにしてもよい。例えば、過去に使用したCELP抑圧係数から一定の変動量を超えないようにCELP抑圧係数の変化の上限を設定する構成としてもよく、過去に使用したCELP抑圧係数に規定の定数を加算(又は減算)した範囲を超えないようにしてCELP抑圧係数の変化を抑える構成としてもよい。
  また、上記実施の形態において、1つの帯域内のCELP抑圧係数は一定である必要は無く、例えば、1つの帯域内のCELP抑圧係数は、変換符号化により生成されるパルスからの距離に応じて動的に制御されてもよい。
 また、上記実施の形態では、CELP抑圧方法として、CELP復号信号スペクトルの振幅に減衰係数(CELP抑圧係数)を乗じる場合について説明したが、CELP抑圧方法はこの方法に限らない。例えば、CELP抑圧方法として、周波数領域で移動平均処理を行ってもよい。一般にCELP抑圧係数がフレーム毎に変動するとミュージカルノイズが発生する場合がある。しかし、CELP抑圧方法として周波数領域で移動平均処理を行うことで、CELP抑圧を行う帯域のエネルギはCELP復号信号スペクトルのエネルギと比較して大きく変動しないので、ミュージカルノイズが発生しにくくなる効果が得られる。
 また、上記各実施の形態では、音声信号に適した符号化の一例としてCELP符号化を用いて説明したが、本発明はADPCM(Adaptive Differential Pulse Code Modulation)、APC(Adaptive Prediction Coding)、ATC(Adaptive Transform Coding)、TCX(Transform Coded Excitation)等を用いても実現可能であり、同様の効果が得られる。
 また、上記各実施の形態では、音楽信号に適した符号化の一例として変換符号化を用いて説明したが、音声信号に適した符号化方式の復号信号と入力信号との残差信号を周波数領域で効率良く符号化できる方式であれば良い。このような方式として、FPC(Factorial Pulse Coding)及びAVQ(Algebraic Vector Quantization)などがあり、同様の効果を得ることができる。
 また、以上の説明では、符号化装置100、300から出力された符号化データを復号装置200、400で受信するとしたが、これに限るものではない。すなわち、復号装置200、400は、符号化装置100、300の構成において生成された符号化データでなくても、復号化に必要な符号化データを有する符号化データを生成可能な符号化装置により出力された符号化データであれば、復号可能である。
 また、上記各実施の形態では、本発明をハードウェアで構成する場合を例にとって説明したが、本発明はハードウェアとの連携においてソフトウェアでも実現することも可能である。
 また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されてもよいし、一部または全てを含むように1チップ化されてもよい。ここでは、LSIとしたが、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。
 また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル/プロセッサを利用してもよい。
 さらには、半導体技術の進歩または派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてありえる。
 2010年6月11日出願の特願2010-134127の日本出願に含まれる明細書、図面および要約書の開示内容は、すべて本願に援用される。
 本発明にかかる符号化装置、復号装置およびこれらの方法は、復号信号の品質を向上することができ、例えば、パケット通信システム、移動通信システムなどに適用できる。
 100,300 符号化装置
 200,400 復号装置
 101,103,206 MDCT部
 102 CELP符号化部
 104,207 CELP成分抑圧部
 105 CELP残差信号スペクトル算出部
 106 変換符号化部
 107,208 加算部
 108 歪評価部
 109 多重化部
 201,401 分離部
 202,402 変換符号化復号部
 203,404 帯域判定部
 204 抑圧係数調整部
 205 CELP復号部
 209 IMDCT部
 301 帯域予備選択部
 403 帯域復元部

Claims (13)

  1.  音声符号化を用いて生成された第1符号化データと音楽符号化を用いて生成された第2符号化データとを受信して復号を行う復号装置であって、
     前記第1符号化データを復号して得られた信号を直交変換して第1スペクトルを生成する第1復号手段と、
     前記第2符号化データを用いて復号を行い第2スペクトルを生成する第2復号手段と、
     前記第2スペクトルを用いて、前記第1スペクトルの振幅を抑圧する程度を調整すべき第1帯域を特定する特定手段と、
     前記第1スペクトルにおける前記第1帯域の振幅を、調整された程度で抑圧する抑圧手段と、
     を具備する復号装置。
  2.  前記特定手段は、
     前記第2スペクトルの周波数成分を複数に分割した帯域の中から、前記音楽符号化によるパルスが存在する帯域を前記第1帯域として特定する、
     請求項1記載の復号装置。
  3.  前記抑圧手段は、
     前記第1帯域では、前記第1帯域以外の帯域よりも、前記抑圧する程度を弱く調整して第1スペクトルの振幅を抑圧する、
     請求項1記載の復号装置。
  4.  前記第2符号化データは、前記音楽符号化として変換符号化を用いて生成されたデータであり、
     前記特定手段は、
     前記第2スペクトルを用いて、周波数成分を分割した複数の帯域それぞれに対して、前記変換符号化によるパルスが立っていない帯域である前記第1の帯域であるか、前記パルスが立っている帯域である第2の帯域であるかを判定することにより、前記第1帯域を特定する、
     請求項1記載の復号装置。
  5.  前記抑圧手段は、
     前記第1帯域では、前記第2帯域よりも、前記抑圧する程度を弱く調整して第1スペクトルの振幅を抑圧する、
     請求項4記載の復号装置。
  6.  前記第1スペクトルに対する抑圧の程度を示す抑圧係数であって、前記抑圧の強さが大きいほど値がより小さい前記抑圧係数を調整する手段であって、前記第1の帯域における前記抑圧係数を前記第2の帯域における前記抑圧係数よりも大きくする調整手段、
     を更に具備し、
     前記抑圧手段は、
     前記第1スペクトルに前記抑圧係数を乗ずることにより、前記第1スペクトルを抑圧する、
     請求項5記載の復号装置。
  7.  前記特定手段は、
     更に、前記複数の帯域のうち前記第2の帯域と判定される帯域に対して、前記パルスの密度が高い第3の帯域であるか、前記パルスの密度が低い第4の帯域であるかを判定し、
     前記抑圧手段は、
     前記第3の帯域では前記第4の帯域における抑圧よりも強い程度で前記第1スペクトルを抑圧し、前記第1の帯域では前記第4の帯域における抑圧よりも弱い程度で前記第1スペクトルを抑圧する、
     請求項5記載の復号装置。
  8.  前記第1スペクトルに対する抑圧の程度を示す抑圧係数であって、前記抑圧の強さが大きいほど値がより小さい前記抑圧係数を調整する手段であって、前記第3の帯域における前記抑圧係数を前記第4の帯域における前記抑圧係数よりも小さくし、前記第1の帯域における前記抑圧係数を前記第4の帯域における前記抑圧係数よりも大きく調整する調整手段、
     を更に具備し、
     前記抑圧手段は、
     前記第1スペクトルに前記抑圧係数を乗ずることにより、前記第1スペクトルを抑圧する、
     請求項7記載の復号装置。
  9.  前記判定手段は、
     更に、前記複数の帯域のうち前記第2の帯域と判定される帯域に対して、前記パルスの密度が高い第3の帯域であるか、前記パルスの密度が低い第4の帯域であるかを判定し、
     前記抑圧手段は、
     前記第3の帯域のうち前記パルスが立っていない周波数では前記第4の帯域における抑圧よりも強い程度で前記第1スペクトルを抑圧し、前記第3の帯域のうち前記パルスが立っている周波数では前記第4の帯域における抑圧と同程度で前記第1スペクトルを抑圧し、前記第1の帯域では前記第4の帯域における抑圧よりも弱い程度で前記第1スペクトルを抑圧する、
     請求項5記載の復号装置。
  10.  前記第2復号手段は、
     前記第2符号化データを復号して選択スペクトルを生成する第3復号手段と、
     前記第2符号化データ生成時に前記音楽符号化が行われた帯域を示す帯域選択情報を入力し、前記帯域選択情報と前記選択スペクトルとを用いて前記第2スペクトルを生成する帯域復元手段と、
     を具備し、
     前記特定手段は、
     更に前記帯域選択情報をも用いて、前記第1帯域を特定する、
     請求項1記載の復号装置。
  11.  音声符号化を用いて入力信号を符号化して第1符号を生成し、前記第1符号を復号して得られた信号を直交変換して第1スペクトルを生成する第1符号化手段と、
     前記入力信号を直交変換して第2スペクトルを生成するスペクトル生成手段と、
     周波数帯域を複数に分割し、前記第1スペクトルと前記第2スペクトルとの残差信号のエネルギに基づいて、予め設定された数の帯域を選択し、選択された帯域の情報である帯域選択情報を生成し、前記第1スペクトルにおける前記選択された帯域のスペクトルを第1選択スペクトルとして出力し、前記第2スペクトルにおける前記選択された帯域のスペクトルを第2選択スペクトルとして出力する帯域選択手段と、
     前記第1選択スペクトルにおける振幅を、抑圧する程度を表す抑圧係数を用いて抑圧して抑圧スペクトルを生成する抑圧手段と、
     前記第2選択スペクトルと前記抑圧スペクトルとの差を求めて残差スペクトルを生成する残差スペクトル算出手段と、
     音楽符号化を用いて前記残差スペクトルを符号化して第2符号を生成し、前記第2符号を復号して復号残差スペクトルを生成する第2符号化手段と、
     前記抑圧スペクトルと前記復号残差スペクトルとを用いて復号スペクトルを生成する復号スペクトル生成手段と、
     前記第2選択スペクトルと前記復号スペクトルとの歪を算出し、前記歪が最小となる前記抑圧係数を探索する歪評価手段と、
     を具備する符号化装置。
  12.  音声符号化を用いて生成された第1符号化データと音楽符号化を用いて生成された第2符号化データとを受信して復号を行う復号方法であって、
     前記第1符号化データを復号して得られた信号を直交変換して第1スペクトルを生成する第1復号ステップと、
     前記第2符号化データを用いて復号を行い第2スペクトルを生成する第2復号ステップと、
     前記第2スペクトルを用いて、前記第1スペクトルの振幅を抑圧する程度を調整すべき第1帯域を特定する特定ステップと、
     前記第1スペクトルにおける前記第1帯域の振幅を、調整された程度で抑圧する抑圧ステップと、
     を具備する復号方法。
  13.  音声符号化を用いて入力信号を符号化して第1符号を生成し、前記第1符号を復号して得られた信号を直交変換して第1スペクトルを生成する第1符号化ステップと、
     前記入力信号を直交変換して第2スペクトルを生成するスペクトル生成ステップと、
     周波数帯域を複数に分割し、前記第1スペクトルと前記第2スペクトルとの残差信号のエネルギに基づいて、予め設定された数の帯域を選択し、選択された帯域の情報である帯域選択情報を生成し、前記第1スペクトルにおける前記選択された帯域のスペクトルを第1選択スペクトルとして出力し、前記第2スペクトルにおける前記選択された帯域のスペクトルを第2選択スペクトルとして出力する帯域選択ステップと、
     前記第1選択スペクトルにおける振幅を、抑圧する程度を表す抑圧係数を用いて抑圧して抑圧スペクトルを生成する抑圧ステップと、
     前記第2選択スペクトルと前記抑圧スペクトルとの差を求めて残差スペクトルを生成する残差スペクトル算出ステップと、
     音楽符号化を用いて前記残差スペクトルを符号化して第2符号を生成し、前記第2符号を復号して復号残差スペクトルを生成する第2符号化ステップと、
     前記抑圧スペクトルと前記復号残差スペクトルとを用いて復号スペクトルを生成する復号スペクトル生成ステップと、
     前記第2選択スペクトルと前記復号スペクトルとの歪を算出し、前記歪が最小となる前記抑圧係数を探索する歪評価ステップと、
     を具備する符号化方法。
PCT/JP2011/002965 2010-06-11 2011-05-27 復号装置、符号化装置及びこれらの方法 WO2011155144A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US13/702,382 US9082412B2 (en) 2010-06-11 2011-05-27 Decoder, encoder, and methods thereof
EP11792106.4A EP2581904B1 (en) 2010-06-11 2011-05-27 Audio (de)coding apparatus and method
JP2012519230A JP5711733B2 (ja) 2010-06-11 2011-05-27 復号装置、符号化装置及びこれらの方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2010134127 2010-06-11
JP2010-134127 2010-06-11

Publications (1)

Publication Number Publication Date
WO2011155144A1 true WO2011155144A1 (ja) 2011-12-15

Family

ID=45097765

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2011/002965 WO2011155144A1 (ja) 2010-06-11 2011-05-27 復号装置、符号化装置及びこれらの方法

Country Status (4)

Country Link
US (1) US9082412B2 (ja)
EP (1) EP2581904B1 (ja)
JP (1) JP5711733B2 (ja)
WO (1) WO2011155144A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013051210A1 (ja) * 2011-10-07 2013-04-11 パナソニック株式会社 符号化装置及び符号化方法

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012005210A1 (ja) * 2010-07-05 2012-01-12 日本電信電話株式会社 符号化方法、復号方法、装置、プログラムおよび記録媒体
US9418671B2 (en) * 2013-08-15 2016-08-16 Huawei Technologies Co., Ltd. Adaptive high-pass post-filter
JP7162247B2 (ja) * 2018-12-12 2022-10-28 パナソニックIpマネジメント株式会社 受信装置及び受信方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006134992A1 (ja) * 2005-06-17 2006-12-21 Matsushita Electric Industrial Co., Ltd. ポストフィルタ、復号化装置及びポストフィルタ処理方法
WO2008084688A1 (ja) * 2006-12-27 2008-07-17 Panasonic Corporation 符号化装置、復号装置及びこれらの方法
US20090112607A1 (en) 2007-10-25 2009-04-30 Motorola, Inc. Method and apparatus for generating an enhancement layer within an audio coding system

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4184049A (en) * 1978-08-25 1980-01-15 Bell Telephone Laboratories, Incorporated Transform speech signal coding with pitch controlled adaptive quantizing
US6134518A (en) * 1997-03-04 2000-10-17 International Business Machines Corporation Digital audio signal coding using a CELP coder and a transform coder
JP4871501B2 (ja) * 2004-11-04 2012-02-08 パナソニック株式会社 ベクトル変換装置及びベクトル変換方法
JP4846712B2 (ja) 2005-03-14 2011-12-28 パナソニック株式会社 スケーラブル復号化装置およびスケーラブル復号化方法
EP1898397B1 (en) 2005-06-29 2009-10-21 Panasonic Corporation Scalable decoder and disappeared data interpolating method
US8370138B2 (en) 2006-03-17 2013-02-05 Panasonic Corporation Scalable encoding device and scalable encoding method including quality improvement of a decoded signal
EP2040251B1 (en) 2006-07-12 2019-10-09 III Holdings 12, LLC Audio decoding device and audio encoding device
ES2642091T3 (es) 2007-03-02 2017-11-15 Iii Holdings 12, Llc Dispositivo de codificación de audio y dispositivo de decodificación de audio
JP4708446B2 (ja) * 2007-03-02 2011-06-22 パナソニック株式会社 符号化装置、復号装置およびそれらの方法
DE102007048973B4 (de) 2007-10-12 2010-11-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals mit einer Sprachsignalverarbeitung
US8515767B2 (en) * 2007-11-04 2013-08-20 Qualcomm Incorporated Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs
WO2009084221A1 (ja) * 2007-12-27 2009-07-09 Panasonic Corporation 符号化装置、復号装置およびこれらの方法
ES2821432T3 (es) * 2008-02-15 2021-04-26 Nokia Technologies Oy Cuantificación de audio mediante indexación de vectores de complejidad reducida
JP5449133B2 (ja) * 2008-03-14 2014-03-19 パナソニック株式会社 符号化装置、復号装置およびこれらの方法
CN103069483B (zh) * 2010-09-10 2014-10-22 松下电器(美国)知识产权公司 编码装置以及编码方法
WO2012038998A1 (ja) * 2010-09-21 2012-03-29 三菱電機株式会社 雑音抑圧装置
US9792925B2 (en) * 2010-11-25 2017-10-17 Nec Corporation Signal processing device, signal processing method and signal processing program
BR112013016350A2 (pt) * 2011-02-09 2018-06-19 Ericsson Telefon Ab L M codificação/decodificação eficaz de sinais de áudio

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006134992A1 (ja) * 2005-06-17 2006-12-21 Matsushita Electric Industrial Co., Ltd. ポストフィルタ、復号化装置及びポストフィルタ処理方法
WO2008084688A1 (ja) * 2006-12-27 2008-07-17 Panasonic Corporation 符号化装置、復号装置及びこれらの方法
US20090112607A1 (en) 2007-10-25 2009-04-30 Motorola, Inc. Method and apparatus for generating an enhancement layer within an audio coding system

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
INTERNATIONAL TELECOMMUNICATION UNION: "Frame error robust narrow-band and wideband embedded variable bit-rate coding of speech and audio from 8-32 kbit/s", ITU-T G.718,, June 2008 (2008-06-01)
See also references of EP2581904A4

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013051210A1 (ja) * 2011-10-07 2013-04-11 パナソニック株式会社 符号化装置及び符号化方法
JPWO2013051210A1 (ja) * 2011-10-07 2015-03-30 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 符号化装置及び符号化方法
US9558752B2 (en) 2011-10-07 2017-01-31 Panasonic Intellectual Property Corporation Of America Encoding device and encoding method

Also Published As

Publication number Publication date
EP2581904B1 (en) 2015-10-07
EP2581904A4 (en) 2013-10-09
EP2581904A1 (en) 2013-04-17
US20130085752A1 (en) 2013-04-04
JP5711733B2 (ja) 2015-05-07
JPWO2011155144A1 (ja) 2013-08-01
US9082412B2 (en) 2015-07-14

Similar Documents

Publication Publication Date Title
KR101376100B1 (ko) 대역폭 확장 복호화 방법 및 장치
JP5343098B2 (ja) スーパーフレーム構造のlpcハーモニックボコーダ
EP1806736B1 (en) Scalable encoding apparatus, scalable decoding apparatus, and methods thereof
TWI576832B (zh) 產生帶寬延伸訊號的裝置與方法
JP5602769B2 (ja) 符号化装置、復号装置、符号化方法及び復号方法
KR101376099B1 (ko) 적응적 고주파수 대역 복호화 방법 및 장치
US20100174542A1 (en) Speech coding
WO2007037361A1 (ja) 音声符号化装置および音声符号化方法
JP2020204784A (ja) 信号符号化方法及びその装置、並びに信号復号方法及びその装置
JP5679470B2 (ja) 符号化装置及び符号化方法
JP2017182087A (ja) 先進量子化器
KR101610765B1 (ko) 음성 신호의 부호화/복호화 방법 및 장치
JP5711733B2 (ja) 復号装置、符号化装置及びこれらの方法
KR102121642B1 (ko) 부호화 장치, 복호 장치, 부호화 방법, 복호 방법, 및 프로그램
KR20160120713A (ko) 복호 장치, 부호화 장치, 복호 방법, 부호화 방법, 단말 장치, 및 기지국 장치
US20100153099A1 (en) Speech encoding apparatus and speech encoding method
KR20060064694A (ko) 디지털 음성 코더들에서의 고조파 잡음 가중
KR101798084B1 (ko) 부호화 모드를 이용한 음성신호의 부호화/복호화 장치 및 방법
KR101770301B1 (ko) 부호화 모드를 이용한 음성신호의 부호화/복호화 장치 및 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11792106

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2012519230

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 13702382

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2011792106

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE