WO2012032759A1 - 符号化装置及び符号化方法 - Google Patents

符号化装置及び符号化方法 Download PDF

Info

Publication number
WO2012032759A1
WO2012032759A1 PCT/JP2011/004960 JP2011004960W WO2012032759A1 WO 2012032759 A1 WO2012032759 A1 WO 2012032759A1 JP 2011004960 W JP2011004960 W JP 2011004960W WO 2012032759 A1 WO2012032759 A1 WO 2012032759A1
Authority
WO
WIPO (PCT)
Prior art keywords
suppression
spectrum
celp
encoding
unit
Prior art date
Application number
PCT/JP2011/004960
Other languages
English (en)
French (fr)
Inventor
河嶋 拓也
押切 正浩
Original Assignee
パナソニック株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック株式会社 filed Critical パナソニック株式会社
Priority to RU2013110317/08A priority Critical patent/RU2013110317A/ru
Priority to JP2012532859A priority patent/JP5679470B2/ja
Priority to SG2013016431A priority patent/SG188413A1/en
Priority to BR112013005683A priority patent/BR112013005683A2/pt
Priority to AU2011300248A priority patent/AU2011300248B2/en
Priority to US13/820,760 priority patent/US9361892B2/en
Priority to CN201180040472.4A priority patent/CN103069483B/zh
Priority to KR1020137005813A priority patent/KR20130108281A/ko
Publication of WO2012032759A1 publication Critical patent/WO2012032759A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding

Definitions

  • the present invention relates to an encoding device and an encoding method.
  • Non-Patent Document 1 Hierarchical structure of CELP (Code Excited Linear Prediction) coding suitable for audio signals and transform coding suitable for music signals as coding methods that can compress voice and music with low bit rate and high sound quality
  • a combined encoding method has been proposed (see, for example, Non-Patent Document 1).
  • the audio signal and the music signal may be collectively referred to as an acoustic signal.
  • the encoding apparatus first encodes an input signal by the CELP encoding scheme to generate CELP encoded data.
  • the encoding apparatus converts a residual spectrum obtained by converting a residual signal (hereinafter referred to as a CELP residual signal) between an input signal and a CELP decoded signal (decoding result of CELP encoded data) into a frequency domain.
  • a CELP residual signal a residual spectrum obtained by converting a residual signal (hereinafter referred to as a CELP residual signal) between an input signal and a CELP decoded signal (decoding result of CELP encoded data) into a frequency domain.
  • a transform coding method a method has been proposed in which a pulse is generated at a frequency having a large residual spectrum energy and the information of the pulse is coded (see Non-Patent Document 1).
  • the CELP encoding method is suitable for audio signal encoding, but the audio signal quality deteriorates because the encoding model differs for music signals. Therefore, when a music signal is encoded by the above encoding method, the CELP residual signal component becomes large, so that it is difficult to improve the sound quality even if the CELP residual signal (residual spectrum) is encoded by transform encoding. There are challenges.
  • Non-Patent Document 1 when the sampling frequency of the input signal is 16 kHz, the CELP component amplitude is suppressed (hereinafter referred to as CELP suppression) only in the middle band of 0.8 kHz to 5.5 kHz. Is called.
  • the encoding apparatus does not directly perform transform coding on the CELP residual signal, but before that, another transform coding method (for example, Non-Patent Document 1 (Section 6.11. (Refer to 6.1)) to reduce the CELP component residual signal. For this reason, the encoding apparatus does not perform CELP suppression on the frequency component encoded by the above-described another transform encoding method even in the middle band.
  • CELP suppression coefficient indicating the degree (intensity) of CELP suppression is uniform at frequencies other than the frequency where CELP suppression is not performed in the middle band.
  • CELP suppression coefficients are stored in a code book (hereinafter referred to as a CELP suppression coefficient code book) for each CELP suppression strength.
  • the encoding device Before performing transform coding, the encoding device performs CELP suppression by multiplying the CELP component (CELP decoded signal) and the CELP suppression coefficient stored in the CELP suppression coefficient codebook, and A residual spectrum with a CELP decoded signal (CELP decoded signal after CELP suppression) is obtained, and the residual spectrum is transcoded. This transform coding is performed on all CELP suppression coefficients.
  • the encoding device calculates a residual signal between the signal obtained by adding the decoded signal of the transform encoded data and the CELP decoded signal in which the CELP component is suppressed and the input signal, and the energy of the residual signal (hereinafter, The CELP suppression coefficient that minimizes the coding distortion is determined, and the searched CELP suppression coefficient (the CELP suppression coefficient that minimizes the coding distortion) is encoded.
  • the encoding apparatus can perform transform encoding with minimum encoding distortion for the entire band.
  • main selection a series of processes for performing transform coding for each CELP suppression coefficient and determining a CELP suppression coefficient that minimizes coding distortion (residual signal energy)
  • the decoding device suppresses the CELP component of the CELP decoded signal using the CELP suppression coefficient transmitted from the encoding device, and adds the transform-coded decoded signal to the CELP decoded signal in which the CELP component is suppressed. Accordingly, the decoding apparatus can obtain a decoded signal in which deterioration of sound quality due to CELP encoding is suppressed when encoding is performed by combining CELP encoding and transform encoding in a hierarchical structure.
  • An object of the present invention is to select a part (hereinafter referred to as “preliminary selection”) of input signals (hereinafter referred to as target signals) for transform coding processing generated for each CELP suppression coefficient,
  • An object of the present invention is to provide an encoding device and an encoding method that can reduce the amount of processing in the encoding device while limiting deterioration in encoding quality by limiting the targets for transform encoding.
  • An encoding apparatus includes a first encoding unit that outputs a spectrum of a first decoded signal generated by decoding a first code obtained by first encoding of an input signal; A suppression unit that suppresses the amplitude of the spectrum of the first decoded signal using a suppression coefficient indicated from a plurality of suppression coefficients to generate a suppression spectrum, and uses the spectrum of the input signal and the suppression spectrum.
  • a residual spectrum calculating unit that calculates a residual spectrum, and using the spectrum of the input signal and the residual spectrum, a predetermined number of suppression coefficients are preliminarily selected, and the preselected suppression coefficient is the suppression And a residual spectrum calculated by inputting a suppression spectrum generated by using the instructed suppression coefficient in the suppression unit to the residual spectrum calculation unit.
  • the second encoded signal generated by decoding the second code obtained by the second encoding, the suppression spectrum, the input signal spectrum, And a second encoding unit for determining one suppression coefficient from the instructed suppression coefficients.
  • An encoding method includes a first encoding step of outputting a spectrum of a first decoded signal generated by decoding a first code obtained by first encoding on an input signal; A suppression step of generating a suppression spectrum by suppressing the amplitude of the spectrum of the first decoded signal using a suppression coefficient indicated from a plurality of suppression coefficients, and using the spectrum of the input signal and the suppression spectrum Using the residual spectrum calculating step for calculating the residual spectrum and the spectrum of the input signal and the residual spectrum, a predetermined number of suppression coefficients used in the suppression step are preselected, and the preselected A preliminary selection step of setting a suppression coefficient to the instructed suppression coefficient, and a suppression spectrum generated by using the instructed suppression coefficient in the suppression step.
  • the second decoding generated by decoding the second code obtained by the second encoding using the residual spectrum calculated in the residual spectrum calculating step by using the residual spectrum A second encoding step of determining one suppression coefficient from the instructed suppression coefficients using a signal spectrum, the suppression spectrum, and the input signal spectrum;
  • a method of sequentially performing transform coding on all CELP suppression coefficient candidates As compared with the above, it is possible to reduce the amount of processing in the encoding device while suppressing deterioration in encoding quality.
  • FIG. 1 is a block diagram showing a configuration of an encoding apparatus according to Embodiment 1 of the present invention.
  • the block diagram which shows the structure of the decoding apparatus which concerns on Embodiment 1 of this invention.
  • Block diagram showing a configuration of an encoding apparatus according to Embodiment 2 of the present invention.
  • the audio signal and the music signal are collectively referred to as an acoustic signal. That is, the acoustic signal represents any signal of substantially only an audio signal, substantially only a music signal, or a signal in which an audio signal and a music signal are mixed.
  • the encoding device and the decoding device according to the present invention have a hierarchy for performing at least two encodings.
  • CELP coding is used as a coding suitable for a speech signal
  • transform coding is used as a coding suitable for a music signal.
  • the coding device and the decoding device are CELP codes.
  • An encoding method in which encoding and transform encoding are combined in a hierarchical structure is used.
  • FIG. 1 is a block diagram showing the main configuration of coding apparatus 100 according to Embodiment 1 of the present invention.
  • the encoding apparatus 100 encodes input signals such as speech and music using an encoding scheme in which CELP encoding and transform encoding are combined in a hierarchical structure, and outputs encoded data.
  • an encoding apparatus 100 includes an MDCT (Modified Discrete Cosine Transform) unit 101, a CELP encoding unit 102, an MDCT unit 103, a CELP component suppressing unit 104, and a CELP residual signal spectrum calculation.
  • MDCT Modified Discrete Cosine Transform
  • Unit 105 pulse position estimation unit 106, estimated pulse attenuation unit 107, estimated distortion evaluation unit 108, main selection candidate limiting unit 109, transform coding unit 110, addition unit 111, distortion evaluation unit 112, and multiplexing unit 113. .
  • Each unit performs the following operations.
  • the MDCT unit 101 performs an MDCT process on an input signal to generate an input signal spectrum. MDCT section 101 then outputs the generated input signal spectrum to CELP residual signal spectrum calculation section 105, distortion evaluation section 112, and estimated distortion evaluation section 108.
  • the CELP encoder 102 encodes the input signal by the CELP encoding method to generate CELP encoded data.
  • the CELP encoding unit 102 decodes the generated CELP encoded data (local decoding) to generate a CELP decoded signal.
  • CELP encoding section 102 then outputs the CELP encoded data to multiplexing section 113 and outputs the CELP decoded signal to MDCT section 103.
  • the MDCT unit 103 performs MDCT processing on the CELP decoded signal input from the CELP encoding unit 102 to generate a CELP decoded signal spectrum. MDCT section 103 then outputs the generated CELP decoded signal spectrum to CELP component suppression section 104.
  • the CELP encoding unit 102 and the MDCT unit 103 output the spectrum of the first decoded signal generated by decoding the first code obtained by the first encoding for the input signal. Operates as an encoding unit.
  • the CELP component suppression unit 104 includes a CELP suppression coefficient codebook in which a CELP suppression coefficient indicating the degree (strength) of CELP suppression is stored.
  • the CELP suppression coefficient codebook stores four types of CELP suppression coefficients ranging from 1.0, which means no suppression, to 0.5, which halves the amplitude of the CELP component. That is, the value of the CELP suppression coefficient becomes smaller as the degree (strength) of CELP suppression is larger.
  • the CELP suppression coefficients are stored in ascending or descending order of the degree (strength) of CELP suppression. Each CELP suppression coefficient is assigned an index (CELP suppression coefficient index) in ascending or descending order with respect to the degree (strength) of CELP suppression.
  • CELP component suppression section 104 selects a CELP suppression coefficient from the CELP suppression coefficient codebook in accordance with the CELP suppression coefficient index input from estimated distortion evaluation section 108, main selection candidate limiting section 109 or distortion evaluation section 112. .
  • CELP component suppression section 104 multiplies the selected CELP suppression coefficient for each frequency component of the CELP decoded signal spectrum input from MDCT section 103 to calculate a CELP component suppression spectrum.
  • CELP component suppression section 104 then outputs the CELP component suppression spectrum to CELP residual signal spectrum calculation section 105 and addition section 111.
  • CELP residual signal spectrum calculation section 105 calculates a CELP residual signal spectrum that is a difference between the input signal spectrum input from MDCT section 101 and the CELP component suppression spectrum input from CELP component suppression section 104. Specifically, the CELP residual signal spectrum calculation unit 105 obtains a CELP residual signal spectrum by subtracting the CELP component suppression spectrum from the input signal spectrum. CELP residual signal spectrum calculation section 105 then outputs the CELP residual signal spectrum to transform coding section 110, pulse position estimation section 106, and estimated pulse attenuation section 107.
  • the pulse position estimation unit 106 performs transform coding using the CELP residual signal spectrum (a signal to be subjected to transform coding, which may be referred to as a target signal hereinafter) input from the CELP residual signal spectrum calculation unit 105.
  • the pulse position encoded by the unit 110 (for example, a frequency having a large amplitude of the CELP residual signal spectrum) is estimated. Then, the pulse position estimation unit 106 outputs the estimated pulse position (estimated pulse position) to the estimated pulse attenuation unit 107.
  • the estimated pulse attenuation unit 107 attenuates the amplitude at the estimated pulse position input from the pulse position estimation unit 106 out of the CELP residual signal spectrum input from the CELP residual signal spectrum calculation unit 105. Then, estimated pulse attenuation section 107 outputs the attenuated spectrum to estimated distortion evaluation section 108 as a transform encoded estimated residual spectrum.
  • the estimated distortion evaluation unit 108 uses the input signal spectrum input from the MDCT unit 101 and the converted encoded estimation residual spectrum input from the estimated pulse attenuation unit 107 to encode coding distortion (distortion energy) by transform coding. The estimated strain energy that is the estimated value of) is calculated. Then, the estimated distortion evaluation unit 108 outputs the estimated distortion energy to the main selection candidate limiting unit 109.
  • the estimated distortion evaluation unit 108 supplies the CELP suppression coefficient index to be evaluated to the CELP component suppression unit 104 in order to obtain a transform coding estimation residual spectrum corresponding to the CELP suppression coefficient to be evaluated in a preliminary selection search described later. Output.
  • the estimated distortion evaluation unit 108 is a transform-coded estimated residual spectrum that is a result of sequential processing by the CELP component suppressing unit 104, the CELP residual signal spectrum calculating unit 105, the pulse position estimating unit 106, and the estimated pulse attenuating unit 107.
  • the main selection candidate limiting unit 109 searches CELP suppression coefficients stored in the CELP suppression codebook in a CELP search that will be described later. Limit candidates of suppression coefficients (CELP suppression coefficients used for transform coding). Then, main selection candidate limiting section 109 outputs a CELP suppression coefficient index indicating a limited candidate CELP suppression coefficient to CELP component suppression section 104.
  • CELP suppression coefficient groups collectively including the CELP suppression coefficient candidates limited here, and CELP suppression coefficient indexes corresponding to the CELP suppression coefficient candidates corresponding to the limited CELP suppression coefficient candidates, Sometimes called.
  • the pulse position estimating unit 106, the estimated pulse attenuating unit 107, the estimated distortion evaluating unit 108, and the main selection candidate limiting unit 109 use the input signal spectrum and the CELP residual signal spectrum to calculate a predetermined number. It operates as a preselection unit that preselects the CELP suppression coefficient and instructs the CELP component suppression unit 104 about the preselected CELP suppression coefficient.
  • CELP component suppression section 104 CELP residual signal spectrum calculation section 105, pulse position estimation section 106, estimated pulse attenuation section 107, estimated distortion evaluation section 108, and main selection candidate limiting section. 109 constitutes a closed loop.
  • Each component constituting the closed loop includes a CELP corresponding to a CELP suppression coefficient index indicated by the estimated distortion evaluation unit 108 among the CELP suppression coefficients stored in the CELP suppression codebook included in the CELP component suppression unit 104.
  • a candidate (CELP suppression coefficient index) to be searched in a main selection search described later is searched.
  • this search process is referred to as “preliminary selection search”.
  • the transform coding unit 110 codes the CELP residual signal spectrum (target signal) input from the CELP residual signal spectrum calculation unit 105 by transform coding to generate transform coded data.
  • transform coding section 110 decodes the generated transform coded data (local decoding) to generate a transform coded decoded signal spectrum.
  • transform coding section 110 performs coding so as to reduce distortion between the CELP residual signal spectrum and the transform coded decoded signal spectrum.
  • the transform coding unit 110 performs coding so as to reduce the distortion by raising a pulse at a frequency where the amplitude (energy) of the CELP residual signal spectrum is large.
  • transform coding section 110 outputs the transform coded data obtained by the coding to distortion evaluation section 112 and outputs the transform coded decoded signal spectrum to adding section 111.
  • Adder 111 adds the CELP component suppression spectrum input from CELP component suppressor 104 and the transform encoded decoded signal spectrum input from transform encoder 110 to calculate a decoded signal spectrum, and obtains a decoded signal spectrum. Is output to the distortion evaluation unit 112.
  • the distortion evaluation unit 112 scans a part of the CLEP suppression coefficients stored in the CELP suppression coefficient codebook included in the CELP component suppression unit 104 (the CELP suppression coefficient index limited by the selection candidate limiting unit 109). Then, a CELP suppression coefficient index that minimizes distortion between the input signal spectrum input from MDCT section 101 and the decoded signal spectrum input from addition section 111 (that is, encoding distortion due to transform coding) is searched. That is, the distortion evaluation unit 112 controls the CELP component suppression unit 104 (outputs the CELP suppression coefficient index) so as to perform CELP suppression using the CELP suppression coefficients corresponding to the partial indexes.
  • the distortion evaluation unit 112 outputs the CELP suppression coefficient index that minimizes the calculated distortion to the multiplexing unit 113 as the CELP suppression coefficient optimum index, and includes the transform encoded data input from the transform encoding unit 110.
  • the transform encoded data (transform encoded data at the time of minimum distortion) corresponding to the CELP suppression coefficient optimum index is output to multiplexing section 113.
  • the transform coding unit 110, the addition unit 111, and the distortion evaluation unit 112 use the CELP suppression coefficient instructed by the above-described preliminary selection unit as the CELP suppression spectrum generated by the CELP component suppression unit 104.
  • Transform coding (second coding) is performed using the CELP residual signal spectrum calculated by inputting to CELP residual signal spectrum calculation section 105, and transform coded data (second coding) obtained by transform coding is used.
  • CELP component suppression section 104 CELP residual signal spectrum calculation section 105, transform coding section 110, addition section 111, and distortion evaluation section 112 constitute a closed loop.
  • Each component constituting the closed loop uses a CELP suppression coefficient index indicated by the selection candidate limiting unit 109 among a plurality of CELP suppression coefficients stored in the CELP suppression codebook included in the CELP component suppression unit 104.
  • a decoded signal spectrum is generated using a corresponding CELP suppression coefficient, and a candidate (CELP suppression coefficient index) that minimizes distortion (encoding distortion due to transform coding) between the input signal spectrum and the decoded signal spectrum is searched.
  • this search process is referred to as “main selection search”.
  • the multiplexing unit 113 multiplexes the CELP encoded data input from the CELP encoding unit 102, the converted encoded data (transformed encoded data at the time of minimum distortion) and the CELP suppression coefficient optimum index input from the distortion evaluation unit 112.
  • the multiplexed result is transmitted to the decoding device as encoded data.
  • the decoding device 200 decodes the encoded data transmitted from the encoding device 100 and outputs a decoded signal.
  • FIG. 2 is a block diagram showing the main configuration of the decoding apparatus 200.
  • the decoding apparatus 200 includes a separation unit 201, a transform coding / decoding unit 202, a CELP decoding unit 203, an MDCT unit 204, a CELP component suppressing unit 205, an adding unit 206, and an IMDCT (Inverse Modified Ccre Transform) unit. 207. Each unit performs the following operations.
  • demultiplexing section 201 transmits encoded data including CELP encoded data, transform encoded data, and CELP suppression coefficient optimum index from encoding apparatus 100 (FIG. 1) to the transmission path. (Not shown). Separating section 201 separates the encoded data into CELP encoded data, transform encoded data, and CELP suppression coefficient optimum index. Separation section 201 then outputs the CELP encoded data to CELP decoding section 203, outputs the transform encoded data to transform encoding decoding section 202, and outputs the CELP suppression coefficient optimum index to CELP component suppression section 205.
  • the transform coding / decoding unit 202 decodes the transform coding data input from the separation unit 201 to generate a transform coding / decoding signal spectrum, and outputs the transform coding / decoding signal spectrum to the adding unit 206.
  • CELP decoding section 203 decodes the CELP encoded data input from demultiplexing section 201 and outputs the CELP decoded signal to MDCT section 204.
  • MDCT section 204 performs MDCT processing on the CELP decoded signal input from CELP decoding section 203 to generate a CELP decoded signal spectrum. MDCT section 204 then outputs the generated CELP decoded signal spectrum to CELP component suppressing section 205.
  • the CELP component suppression unit 205 includes a CELP suppression coefficient code book similar to the CELP suppression coefficient code book included in the CELP component suppression unit 104.
  • the CELP suppression coefficient codebook included in the CELP component suppression unit 205 may be basically the same CELP suppression coefficient codebook as the CELP suppression coefficient codebook included in the CELP component suppression unit 104. Etc. are not necessarily the same.
  • the CELP component suppression unit 205 multiplies the CELP suppression coefficient corresponding to the CELP suppression coefficient optimal index input from the separation unit 201 for each frequency component of the CELP decoded signal spectrum input from the MDCT unit 204, thereby obtaining a CELP decoded signal.
  • a CELP component suppression spectrum in which the spectrum (CELP component) is suppressed is calculated.
  • CELP component suppression section 205 then outputs the calculated CELP component suppression spectrum to addition section 206.
  • the adding unit 206 receives the CELP component suppression spectrum input from the CELP component suppressing unit 205, and the transform encoded decoded signal spectrum input from the transform encoding / decoding unit 202. Are added to calculate the decoded signal spectrum. Then, addition section 206 outputs the calculated decoded signal spectrum to IMDCT section 207.
  • the IMDCT unit 207 performs IMDCT processing on the decoded signal spectrum input from the adding unit 206 and outputs a decoded signal.
  • coding is performed so that a pulse is generated at a frequency where the amplitude of an input signal (here, CELP residual signal spectrum) is large.
  • the number of pulses to be set and the error between the pulse amplitude and the input signal differ depending on the set bit rate or the frequency characteristic of the signal. Therefore, the coding distortion in the transform coding cannot be accurately obtained unless the coding is actually performed.
  • the pulse position encoded in the transform encoding can be estimated by using a statistical method.
  • the CELP residual signal spectrum is normally distributed.
  • transform coding a pulse is generated at a frequency having a larger amplitude, and pulse information is encoded.
  • the encoding apparatus 100 determines the pulse position encoded by the transform encoding unit 110 on the assumption that the pulse is encoded at the upper 10% frequency having the largest amplitude in the CELP residual signal spectrum.
  • a threshold value (amplitude threshold value) is calculated.
  • the absolute value average Iavg [j] of the CELP residual signal spectrum is calculated according to the following equation (1).
  • Iavg [j] represents the absolute value average of the CELP residual signal spectrum at the CELP suppression coefficient index j
  • i represents the frequency sample number
  • Cr represents the amplitude of the CELP residual signal spectrum.
  • the total number of CELP suppression coefficient indexes is M
  • the total number of frequency samples is N.
  • the threshold value Ithr is calculated according to the following equation (3), for example, using the absolute value average Iavg [j] calculated by the equation (1) and the standard deviation ⁇ [j] calculated by the equation (2). .
  • is a constant that controls the value of the threshold value Ithr. For example, when the threshold is set so that the top 10% frequency having the largest amplitude is selected from the CELP residual signal spectrum, the value of ⁇ is set to about 1.6. For example, when the threshold value is set so that the upper 5% frequency having the largest amplitude is selected from the CELP residual signal spectrum, the value of ⁇ is set to about 2.0.
  • the set value of ⁇ can be obtained according to a normal distribution table.
  • the pulse position estimation unit 106 estimates the pulse position (estimated pulse position) encoded by the transform encoding unit 110 by using the threshold value Ithr shown in Expression (3). Specifically, the pulse position estimation unit 106 estimates the pulse position encoded by the transform encoding unit 110 in the CELP suppression coefficient index j according to the following equation (4).
  • the pulse position estimation unit 106 efficiently calculates the position of the pulse obtained as a result of encoding by the transform encoding unit 110 based on the distribution characteristics of the CELP residual signal spectrum (target signal) with a low calculation amount. Is estimated. Specifically, the pulse position estimation unit 106 calculates the threshold (Ithr) calculated based on the amplitude of the CELP residual signal spectrum (target signal) or the absolute value statistic, and the amplitude of the CELP residual signal spectrum. In comparison, the pulse (estimated pulse position) encoded by the transform encoding unit 110 is estimated.
  • the pulse position estimation unit 106 only needs to determine the threshold value of the amplitude, and the pulse position estimated to be encoded by the transform encoding unit 110 is smaller than the processing amount of the transform encoding unit 110. It becomes possible to specify by the processing amount.
  • the statistical amount used by the pulse position estimation unit 106 may include at least the standard deviation ⁇ .
  • the estimated pulse attenuating unit 107 calculates a transform coding estimated residual spectrum Cra according to the following equation (5).
  • indicates how much the amplitude of the CELP residual signal spectrum remains as an error at the estimated pulse position (that is, indicates the degree of attenuation), and is a constant not less than 0 and less than 1 (hereinafter referred to as an estimated residual coefficient).
  • is set to 0.0 when the error at the estimated pulse position is regarded as zero, and ⁇ is set to 0.1 when an error of 10% is expected at the estimated pulse position. That is, the estimated pulse attenuating unit 107 multiplies the amplitude of the CELP residual signal spectrum by an estimated residual coefficient (a value not less than 0 and less than 1), thereby obtaining a transform-coded estimated residual spectrum (that is, a decoded signal spectrum).
  • Estimated value is calculated. In this way, estimating the error due to transform coding by multiplying the CELP residual signal spectrum by a constant greater than or equal to 0 and less than 1 calculates the error so that a predetermined SNR (Signal Noise Ratio) is obtained by transform coding. Will be.
  • SNR Signal Noise Ratio
  • the estimated distortion evaluation unit 108 uses the input signal spectrum and the transform coding estimation residual spectrum according to the following equation (7), and estimates the strain energy that is an estimated value of the coding distortion (distortion energy) by transform coding. Ee is calculated (hereinafter also referred to as estimated distortion evaluation).
  • S represents the input signal spectrum.
  • the estimated distortion evaluation unit 108 calculates the estimated distortion energy for the transform-coded estimated residual spectrum in which the spectrum amplitude at the estimated pulse position is attenuated to a ratio of 0 or more and less than 1. Thereby, the estimated distortion evaluation unit 108 estimates the estimated distortion energy at the pulse position estimated to be encoded by the transform encoding unit 110 with a processing amount smaller than the processing amount of the transform encoding unit 110. It becomes possible.
  • the estimated distortion evaluation unit 108 operates to scan all the CELP suppression coefficient indexes. That is, estimated distortion evaluation section 108 outputs all CELP suppression coefficient indexes to CELP component suppression section 104.
  • the main selection candidate limiting unit 109 limits candidates of CELP suppression coefficients (CELP suppression coefficients used for transform coding) that are search targets of the main selection search based on the distribution of estimated distortion energy. That is, the main selection candidate limiting unit 109 preselects a predetermined number of CELP suppression coefficients among a plurality of CELP suppression coefficients stored in the CELP suppression coefficient codebook based on the estimated distortion energy.
  • Method 1 a preliminary selection search is performed for the largest and smallest CELP suppression coefficients, and it is determined that the larger estimated distortion energy is less likely to be selected in this selection search, and the CELP suppression coefficient is determined. By excluding from the main selection search, the processing amount of the main selection search is reduced.
  • the selection candidate limiting unit 109 compares Ee [1] with Ee [4].
  • the selection candidate limiting unit 109 uses the estimated distortion energy when the maximum value is used and the estimated distortion energy when the minimum value is used among the plurality of CELP suppression coefficients stored in the CELP component suppressing unit 104.
  • the CELP suppression coefficient having the larger estimated distortion energy is subjected to the main selection search (CELP suppression of the main selection search). Excluded from the coefficient group). That is, by performing the preliminary selection search, one search target candidate in the main selection search is reduced.
  • the amount of processing (reduction) for transform coding in the main selection search is larger than the amount of processing in two operations in the preliminary selection search, the entire coding apparatus 100 is used. The amount of processing is reduced.
  • Method 1 the preliminary selection search is performed only for the necessary minimum CELP suppression coefficients (here, two CELP suppression coefficients of the maximum value and the minimum value).
  • a CELP suppression coefficient having a large estimated distortion energy is excluded from the target of the main selection search.
  • the preliminary selection search is performed with all the CELP suppression coefficients, and the CELP suppression coefficients that are highly likely to be selected in the main selection search are limited from the estimated distortion energy, thereby reducing the processing amount of the main selection search.
  • the candidate with the lowest estimated distortion energy is always left as a candidate for the main selection search.
  • the CELP suppression coefficient of the index (one or both) adjacent to the CELP suppression coefficient index assigned to the remaining candidates is also left as a candidate for the main selection search. This is because when the CELP suppression coefficient index is arranged in ascending or descending order with respect to the degree of suppression, there is a possibility that these CELP suppression coefficient candidates are selected as the candidate having the smallest distortion energy during the main selection search. This is because is higher than CELP suppression coefficient candidates other than the smallest candidate and candidates adjacent thereto.
  • the selection candidate limiting unit 109 searches for the minimum estimated distortion energy among the estimated distortion energies Ee [1] to Ee [4], and stores the CELP suppression coefficient index corresponding to the minimum estimated distortion energy. .
  • the main selection candidate limiting unit 109 calculates the estimated distortion energy corresponding to the CELP suppression coefficient indexes before and after (both ends) of the stored CELP suppression coefficient index (that is, the CELP suppression coefficient index corresponding to the minimum estimated distortion energy). In comparison, the CELP suppression coefficient index with the smaller estimated distortion energy is stored.
  • the selection candidate limiting unit 109 stores the CELP suppression coefficient index stored in the process of (1) (that is, the CELP suppression coefficient index corresponding to the minimum estimated distortion energy) and the process of (2). Two types of CELP suppression coefficients of the CELP suppression coefficient index are limited as CELP suppression coefficient groups in the main selection search.
  • the selection candidate limiting unit 109 includes a CELP suppression coefficient (first CELP suppression coefficient) having the smallest estimated distortion energy among the plurality of CELP suppression coefficients stored in the CELP component suppressing unit 104, and the estimated distortion.
  • the CELP suppression coefficient (second CELP suppression coefficient) with a small estimated distortion energy is specified as the target of this selective search. That is, this selection candidate limiting unit 109 is assigned to the CELP suppression coefficient (first CELP suppression coefficient) with the smallest estimated distortion energy and the CELP suppression coefficient with the smallest estimated distortion energy among the plurality of CELP suppression coefficients.
  • the CELP suppression coefficient (second CELP suppression coefficient) having the smaller estimated distortion energy is used as a predetermined number of CELP suppression coefficients. Pre-select.
  • the processing amount (reduced amount) of the transform encoding in the main selection search is larger than the processing amount in the four operations in the preliminary selection search, the entire encoding apparatus 100 is used.
  • the amount of processing is reduced. That is, as in Method 1, when the amount of processing for transform coding in the main selection search is larger than the amount of processing in two operations in the preliminary selection search, the entire coding apparatus 100 is used. The amount of processing is reduced.
  • Method 2 although the preliminary selection search is performed for all the CELP suppression coefficients, the CELP suppression coefficient group that is the target of this selection search is more narrowly limited as compared with Method 1. Thereby, the processing amount in the main selection search can be reduced as compared with the method 1.
  • the CELP suppression coefficient with the smallest estimated distortion energy and the CELP suppression coefficient with the smaller estimated distortion energy among the CELP suppression coefficients corresponding to the CELP suppression coefficient indexes at both ends of the CELP suppression coefficient are selected. It becomes the object of search. That is, in the preliminary selection search, a CELP suppression coefficient that is highly likely to be determined as an optimum CELP suppression coefficient (a CELP suppression coefficient with the minimum distortion energy) in the main selection search is searched. Therefore, in the method 2, it is possible to reduce the processing amount in the encoding device 100 while suppressing deterioration in encoding quality as compared with a case where all CELP suppression coefficients are searched in the main selection search.
  • the main selection candidate limiting unit 109 includes a CELP suppression coefficient (for example, CELP suppression coefficient index j) having the smallest estimated distortion energy among a plurality of CELP suppression coefficients stored in the CELP component suppression unit 104.
  • CELP suppression coefficient groups for example, CELP suppression coefficient indexes [j ⁇ 1] and [j + 1]
  • this selection candidate limiting unit 109 corresponds to the CELP suppression coefficient with the smallest estimated distortion energy among the plurality of CELP suppression coefficients and the indexes before and after the index assigned to the CELP suppression coefficient with the smallest estimated distortion energy.
  • Two CELP suppression coefficients may be preselected as a predetermined number of CELP suppression coefficients.
  • the CELP suppression coefficient group limiting methods 1 and 2 that are the targets of the main selection search in the main selection candidate limiting unit 109 have been described above.
  • the method 1 compared with the method 2, by widening the target of the main selection search, the performance degradation of the main selection search due to limiting the target of the main selection search can be further reduced.
  • the processing amount in the main selection search can be further reduced.
  • the estimated distortion evaluation unit 108 outputs the CELP suppression coefficient index to be searched in the preliminary selection search to the CELP component suppression unit 104. Accordingly, the transform distortion estimated residual spectrum is input to the estimated distortion evaluation unit 108 for each CELP suppression coefficient index, and the estimated distortion evaluation unit 108 calculates estimated distortion energy corresponding to each CELP suppression coefficient index. Based on the estimated distortion energy, the main selection candidate limiting unit 109 limits the CELP suppression coefficient index to be searched for in the main selection search in which distortion evaluation is actually performed using transform coding. That is, encoding apparatus 100 specifies a CELP suppression coefficient that is expected (estimated) that the distortion energy of transform encoding in the main selection search is smaller in the preliminary selection search.
  • the encoding device 100 in the main selection search, only the CELP suppression coefficient index group instructed from the main selection candidate limiting unit 109 is used to perform the transform coding by the transform coding unit 110, and the distortion evaluation unit 112. The search for the CELP suppression coefficient that minimizes the distortion energy is performed. Then, the CELP suppression coefficient index corresponding to the CELP suppression coefficient that minimizes the distortion energy is output to multiplexing section 113, and the CELP suppression coefficient index is sent to decoding apparatus 200 as part of the encoded data of encoding apparatus 100. Sent.
  • encoding apparatus 100 statistically estimates the pulse positions encoded by transform encoding, calculates the estimated distortion energy estimated at the estimated pulse positions, and calculates the estimated distortion energy.
  • a smaller CELP suppression coefficient is limited to a CELP suppression coefficient group to be subjected to the main selection search (preliminary selection search). Then, encoding apparatus 100 performs transform coding for each CELP suppression coefficient whose candidates are limited in the preliminary selection search, and determines a CELP suppression coefficient that minimizes the energy (distortion energy) of the residual signal (this book). Selective search).
  • the encoding apparatus 100 reduces the number of times that transform encoding is performed by using only the CELP suppression coefficient that is expected to have low distortion energy as the target of the main selection search in the preliminary selection search.
  • the pulse position estimation unit 106 estimates the pulse position
  • the estimated pulse attenuation unit 107 calculates the transform coding estimation residual spectrum
  • the estimated distortion evaluation unit 108 calculates the transform coding estimation residual spectrum
  • the distortion energy can be calculated with a smaller processing amount than the processing in the transform coding unit 110. Therefore, by limiting the CELP suppression coefficient group that is the target of the main selection search in the preliminary selection search in advance, compared with the case where transform coding is sequentially performed on all the CELP suppression coefficients, The amount of processing can be reduced.
  • the CELP suppression coefficient that is estimated to have a low estimated distortion energy that is, the CELP suppression coefficient that is highly likely to be evaluated as the minimum distortion energy in the main selection search, is a candidate for the main selection search.
  • Limit As a result, it is possible to suppress deterioration in encoding quality due to limiting the CELP suppression coefficient group to be subjected to the main selection search.
  • transform coding is performed on all CELP suppression coefficient candidates in a coding scheme that combines coding suitable for audio signals and coding suitable for music signals in a hierarchical structure.
  • transform coding is performed on all CELP suppression coefficient candidates in a coding scheme that combines coding suitable for audio signals and coding suitable for music signals in a hierarchical structure.
  • values used for the main selection search are not calculated again during the main selection search.
  • the value calculated during the preliminary selection search may be used.
  • the encoding apparatus can further reduce the processing amount during the main selection search.
  • FIG. 3 is a block diagram showing the main configuration of coding apparatus 300 according to Embodiment 2 of the present invention.
  • the same components as those in the first embodiment (FIG. 1) are denoted by the same reference numerals, and the description thereof is omitted.
  • the encoding apparatus 300 shown in FIG. 3 is different from the encoding apparatus 100 shown in FIG. 1 in that a target signal feature extraction unit 301 is added. Further, the pulse position estimation unit 302 and the estimated pulse attenuation unit 303 are different from the first embodiment in that feature information output from the target signal feature extraction unit 301 is added as an input signal.
  • the target signal feature extraction unit 301 uses the CELP residual signal spectrum (target signal) input from the CELP residual signal spectrum calculation unit 105 to extract the features of the target signal. To do.
  • FPC Fast Pulse Coding
  • the number of pulses that can be encoded increases when the variation in the amplitude of the spectrum to be encoded (here, the CELP residual signal spectrum) is small, and the number of pulses that can be encoded when the variation in the amplitude of the spectrum to be encoded is large.
  • the number is smaller.
  • the target signal with energy concentrated in a certain band has a smaller number of pulses encoded with FPC, and the target signal with energy distributed over the entire band has a larger number of pulses encoded with FPC. .
  • the encoding apparatus 300 can extract the features of the target signal (CELP residual signal spectrum) and predict the number of pulses encoded by FPC based on the extracted features. That is, the pulse position of the target signal can be accurately estimated in the preliminary selection search.
  • CELP residual signal spectrum CELP residual signal spectrum
  • the target signal feature extraction unit 301 extracts the ratio between the average value of the amplitude of the target signal and the maximum value of the amplitude as the feature of the target signal. Specifically, the target signal feature extraction unit 301 calculates the average value Iavg of the amplitude of the target signal according to the equation (1). Further, the target signal feature extraction unit 301 sets the maximum value of the absolute value amplitude of the target signal as tmax.
  • the larger the value of tmax / Iavg the higher the possibility that energy is concentrated in a specific band. That is, the larger the value of tmax / Iavg, the higher the possibility that the variation in spectrum will be greater.
  • the target signal feature extraction unit 301 determines that the number of target signal pulses to be estimated in the preliminary selection search should be reduced as the value of tmax / Iavg increases.
  • the smaller the value of tmax / Iavg the higher the possibility that the target signal feature extraction unit 301 will disperse the energy over the entire band, so the number of target signal pulses to be estimated in the preliminary selection search should be increased.
  • the target signal feature extraction unit 301 generates, as feature information K, information related to the number of pulses of the target signal predicted based on the feature of the target signal according to the following equation (8) according to the value of tmax / Iavg. .
  • ⁇ h is a threshold value set in advance to determine whether or not to reduce the number of pulses estimated in the preliminary selection search (pulse position estimation unit 302), and ⁇ l is estimated in the preliminary selection search. This is a threshold value set in advance to determine whether or not to increase the number of pulses.
  • the pulse position estimation unit 302 uses the CELP residual signal spectrum (target signal) input from the CELP residual signal spectrum calculation unit 105 and the feature information K input from the target signal feature extraction unit 301 to convert code
  • the pulse position (estimated pulse position) encoded by the conversion unit 110 is estimated.
  • the pulse position estimation unit 302 uses a threshold value Ithr [j] shown in the following equation (9) instead of the equation (3) used in the first embodiment (pulse position estimation unit 106).
  • Equation (9) the value of ⁇ is adaptively corrected for each frame in accordance with the value of the feature information K (0.9, 1.0, 1.1), and is selected by the pulse position estimation unit 302.
  • the number of pulses to be controlled is adaptively controlled.
  • the pulse position estimation unit 302 corrects the first embodiment (Equation (3)) using the feature information K input from the target signal feature extraction unit 301 as shown in Equation (9).
  • pulse position estimating section 302 sets the number of pulses to be estimated to be small, and in equation (8), tmax / Iavg ⁇ In the case of ⁇ l (when the variation in the spectrum is small), a large number of pulses to be estimated is set. That is, the pulse position estimation unit 302 sets the number of pulses to be estimated according to the characteristics of the CELP residual signal spectrum, and estimates the position of the set number of pulses. For example, the pulse position estimation unit 302 sets the number of pulses so as to decrease as the amplitude variation in each band of the CELP residual signal spectrum increases.
  • the estimated pulse attenuation unit 303 uses the feature information input from the target signal feature extraction unit 301 to input from the pulse position estimation unit 302 out of the CELP residual signal spectrum input from the CELP residual signal spectrum calculation unit 105.
  • the spectrum of the estimated pulse position to be attenuated is attenuated.
  • estimated pulse attenuating section 303 calculates transform encoded estimated residual spectrum Cra according to the following expression (10) instead of expression (5) used in Embodiment 1 (estimated pulse attenuating section 107). calculate.
  • Equation (10) the value of the estimated residual count ⁇ is adaptively corrected for each frame in accordance with the value of the feature information K (0.9, 1.0, 1.1), and the estimated pulse attenuation unit.
  • the degree of attenuation (estimated error amount) at 303 is adaptively controlled.
  • the estimated pulse attenuation unit 303 corrects the first embodiment (Equation (5)) using the feature information K input from the target signal feature extraction unit 301 as shown in Equation (10).
  • feature information K 0.9. Therefore, “ ⁇ ” becomes “ ⁇ / 0.9”, and control is performed so that the error in the estimated pulse position becomes larger.
  • estimated pulse attenuation section 303 increases the degree of spectrum attenuation, and tmax / Iavg in Equation (8).
  • the attenuation degree of the spectrum is decreased. That is, the estimated pulse attenuating unit 303 sets the attenuation degree of the CELP residual signal spectrum so as to increase as the variation in amplitude in each band of the CELP residual signal spectrum increases.
  • the SNR calculated based on the estimated value of the transform coding error changes adaptively according to the variation in the spectrum amplitude.
  • the SNR at that time is expressed by the following equation (11).
  • encoding apparatus 300 is encoded by transform encoding section 110 in accordance with the characteristics of target signal (CELP residual signal spectrum) (here, variation in spectrum amplitude (tmax / Iavg)).
  • the number of pulses and the pulse error (attenuation degree in the estimated pulse attenuation unit 303) are adaptively controlled.
  • encoding apparatus 300 can estimate distortion energy at a pulse position estimated to be encoded by transform encoding section 110 with higher accuracy than in the first embodiment.
  • the encoding apparatus 300 estimates the estimated pulse position, calculates the transform encoded estimation residual spectrum in the estimated pulse attenuation unit 107, and calculates the distortion energy in the estimated distortion evaluation unit 108. The calculation can be performed with a smaller processing amount than the processing in the transform encoding unit 110.
  • the coding is compared with the first embodiment. Compared with the method of sequentially performing transform coding on all CELP suppression coefficient candidates while further suppressing quality degradation, the processing amount in the coding apparatus can be reduced.
  • the present invention is not limited to the case where the variation in the spectrum amplitude is used as the feature of the target signal.
  • the tone characteristic of the target signal may be used as the feature of the target signal.
  • the tone property is an index indicating the size of the peak of the spectrum or the size of the dynamic range.
  • the ratio of the geometric mean to the arithmetic mean of the target signal or its absolute value is measured, and when this ratio is close to 0, it can be determined that the tone property is high.
  • the target signal feature extraction unit 301 measures the tone property of the target signal.
  • the pulse position estimation unit 302 sets the number of pulses so as to decrease as the tone property increases. For example, the pulse position estimator 302 sets a large threshold value when the tone characteristic of the target signal is high, and controls the number of estimated pulses to be small, and decreases the threshold value when the tone characteristic of the target signal is low. Then, the control may be performed so that the estimated number of pulses is increased. Further, the estimated pulse attenuating unit 303 sets the degree of attenuation of the CELP residual signal spectrum so as to increase as the tone property increases.
  • the estimated pulse attenuating unit 303 controls to reduce the residual signal (error) by decreasing the estimated residual coefficient (increasing the degree of attenuation) when the tone characteristic of the target signal is high, When the tone characteristic of the target signal is low, the estimated residual coefficient is increased (the degree of attenuation is decreased), and control is performed so that the residual signal (error) increases. As described above, even when the tone characteristic is used as the feature of the target signal, the same effect as in the present embodiment can be obtained.
  • the noise characteristics of the target signal may be used as a feature of the target signal.
  • the noise characteristic is an index indicating a small energy bias of the target signal.
  • the energy for each band is measured by dividing the target signal into several bands, and when the energy dispersion for each band is small, it can be determined that the noise characteristic is high.
  • the target signal feature extraction unit 301 measures the noise characteristics of the target signal.
  • the pulse position estimation unit 302 sets the number of pulses so as to increase as the noise property increases. For example, the pulse position estimation unit 302 performs control so that the number of estimated pulses is increased when the target signal has high noise characteristics, and increases the threshold value when the target signal has low noise characteristics.
  • control may be performed so that the estimated number of pulses is reduced.
  • the estimated pulse attenuating unit 303 sets the attenuation degree of the CELP residual signal spectrum so as to decrease as the noise characteristic increases. That is, the estimated pulse attenuating unit 303 performs control so that the residual signal (error) is increased by increasing the estimated residual coefficient (decreasing the attenuation degree) when the noise characteristic of the target signal is high, When the noise characteristic of the target signal is low, the estimated residual coefficient may be reduced (increase the degree of attenuation) to control the residual signal (error) to be small. As described above, even when the noise characteristic is used as the feature of the target signal, the same effect as in the present embodiment can be obtained.
  • the pulse position estimation unit assumes that the input signal (CELP residual signal spectrum) to the transform coding unit is a normal distribution, and a threshold value for selecting an upper frequency with a large amplitude.
  • (Ithr) is set has been described.
  • the pulse position estimation unit sets a threshold (Ithr) according to the distribution model. May be.
  • the pulse position estimation unit may estimate the number of pulses exceeding the upper limit value of the number of pulses encoded by the transform encoding unit.
  • the pulse position estimation unit may control the estimated number of pulses using the upper limit value.
  • the pulse position estimation unit may exclude pulses having a smaller amplitude, or may exclude pulses on a higher frequency side.
  • the pulse position estimation unit may determine the pulse to be excluded by combining other conditions that can be calculated from the characteristics of the signal in addition to the above-described conditions of the amplitude and frequency band.
  • the CELP suppression coefficients stored in the CELP suppression coefficient codebook are stored in ascending or descending order of the degree of CELP suppression.
  • the suppression coefficient candidates when using a method that does not depend on the stored order, it is not always necessary to use ascending order or descending order.
  • CELP coding has been described as an example of coding suitable for a speech signal.
  • the present invention is based on ADPCM (Adaptive Differential Pulse Code Modulation), APC (Adaptive Prediction Coding), ATC ( It can also be realized using Adaptive Transform Coding), TCX Transform Coded Excitation, etc., and the same effect can be obtained.
  • ADPCM Adaptive Differential Pulse Code Modulation
  • APC Adaptive Prediction Coding
  • ATC It can also be realized using Adaptive Transform Coding
  • TCX Transform Coded Excitation etc.
  • transform coding As an example of coding suitable for a music signal.
  • a residual signal between a decoded signal and an input signal of a coding method suitable for a voice signal is used as a frequency Any method can be used as long as it allows efficient coding in a region.
  • FPC Fractorial PulsedingCoding
  • AVQ Algebraic Vector Quantization
  • the encoded data output from the encoding devices 100 and 300 is received by the decoding device 200.
  • the present invention is not limited to this. That is, the decoding apparatus 200 is output by an encoding apparatus that can generate encoded data having encoded data necessary for decoding, even if the encoded data is not generated in the configuration of the encoding apparatuses 100 and 300. If it is encoded data, it can be decoded.
  • each functional block used in the description of each of the above embodiments is typically realized as an LSI which is an integrated circuit. These may be individually made into one chip, or may be made into one chip so as to include a part or all of them. Although referred to as LSI here, it may be referred to as IC, system LSI, super LSI, or ultra LSI depending on the degree of integration.
  • the method of circuit integration is not limited to LSI, and implementation with a dedicated circuit or a general-purpose processor is also possible.
  • An FPGA Field Programmable Gate Array
  • a reconfigurable / processor that can reconfigure the connection and setting of circuit cells inside the LSI may be used.
  • the present invention can reduce the calculation amount of the entire apparatus while suppressing deterioration in encoding quality, and can be applied to, for example, a packet communication system and a mobile communication system.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

 音声信号に適した符号化と音楽信号に適した符号化とを階層構造にして組み合わせた符号化方式において、符号化の品質劣化を抑えつつ、符号化装置における処理量を削減することができる符号化装置。この装置において、本選択候補限定部(109)は、入力信号のスペクトルと残差スペクトルとを用いて予備選択された所定の数の抑圧係数をCELP成分抑圧部(104)に対して指示し、変換符号化部(110)は指示された抑圧係数をCELP成分抑圧部(104)で用いて生成された抑圧スペクトルをCELP残差信号スペクトル算出部(105)に入力して算出された残差スペクトルを用いて第2符号化を行い、歪評価部(112)は第2符号化により得られた第2符号を復号して生成された第2復号信号のスペクトルと抑圧スペクトルと入力信号のスペクトルとを用いて、指示された抑圧係数の中から一つの抑圧係数を決定する。

Description

符号化装置及び符号化方法
 本発明は、符号化装置及び符号化方法に関する。
 音声及び音楽等を、低ビットレートかつ高音質で圧縮できる符号化方式として、音声信号に適したCELP(Code Excited Linear Prediction)符号化方式と、音楽信号に適した変換符号化方式とを階層構造にして組み合わせた符号化方式が提案されている(例えば、非特許文献1参照)。なお、以下においては、音声信号と音楽信号とを総称して音響信号と称することもある。
 この符号化方式では、符号化装置は、まず、CELP符号化方式で入力信号を符号化してCELP符号化データを生成する。次いで、符号化装置は、入力信号とCELP復号信号(CELP符号化データの復号結果)との残差信号(以下、CELP残差信号と呼ぶ)を周波数領域に変換して得られる残差スペクトルを変換符号化することにより、高音質化を図っている。変換符号化方式としては、残差スペクトルのエネルギが大きい周波数にパルスを立てて、そのパルスの情報を符号化する方式が提案されている(非特許文献1参照)。
 しかしながら、CELP符号化方式は、音声信号の符号化には適しているが、音楽信号に対しては符号化モデルが異なるので音質が悪くなる。そのため、上記符号化方式で音楽信号を符号化した場合、CELP残差信号の成分が大きくなるので、変換符号化によりCELP残差信号(残差スペクトル)を符号化しても音質が向上しにくいという課題がある。
 この課題を解決するために、CELP復号信号の周波数成分(以下、CELP成分と呼ぶ)の振幅を抑圧した結果を用いて算出される残差スペクトルを変換符号化することで高音質化を図る符号化方式(CELP成分抑圧方法)が提案されている(例えば、特許文献1及び非特許文献1(section 6.11.6.2)参照)。
 非特許文献1に開示されたCELP成分抑圧方法では、入力信号のサンプリング周波数が16kHzの場合、0.8kHz~5.5kHzの中帯域のみでCELP成分の振幅の抑圧(以下、CELP抑圧と呼ぶ)が行われる。ただし、非特許文献1では、符号化装置は、CELP残差信号に対して変換符号化を直接行うのではなく、その前に別の変換符号化方式(例えば、非特許文献1(Section 6.11.6.1)参照)によってCELP成分の残差信号を小さくしている。このため、符号化装置は、中帯域であっても上記別の変換符号化方式によって符号化された周波数成分に対してはCELP抑圧を行わない。また、中帯域内のCELP抑圧を行わない周波数以外の他の周波数では、CELP抑圧の程度(強さ)を示すCELP抑圧係数は一様である。CELP抑圧係数は、CELP抑圧の強度別にコードブック(以下、CELP抑圧係数コードブックと呼ぶ)に格納されている。CELP抑圧係数コードブックには、CELP成分を全く抑圧しないことを意味する係数(=1.0)も格納されている。
 符号化装置は、変換符号化を行う前に、CELP成分(CELP復号信号)と、CELP抑圧係数コードブックに格納されているCELP抑圧係数とを乗じることでCELP抑圧を行ってから、入力信号とCELP復号信号(CELP抑圧後のCELP復号信号)との残差スペクトルを求め、残差スペクトルを変換符号化する。この変換符号化は、全てのCELP抑圧係数に対して行われる。そして、符号化装置は、変換符号化データの復号信号とCELP成分が抑圧されたCELP復号信号とを加算した信号と、入力信号との残差信号を算出し、残差信号のエネルギ(以下、符号化歪と呼ぶ)が最小となるCELP抑圧係数を決定して、探索したCELP抑圧係数(符号化歪が最小となるCELP抑圧係数)を符号化する。これにより、符号化装置では、帯域全体として符号化歪を最小にした変換符号化を行うことができる。以下では、CELP抑圧係数毎に変換符号化を行い、符号化歪(残差信号のエネルギ)が最小となるCELP抑圧係数を決定する一連の処理を「本選択」と呼ぶこととする。
 一方、復号装置は、符号化装置から送信されるCELP抑圧係数を用いて、CELP復号信号のCELP成分を抑圧し、CELP成分が抑圧されたCELP復号信号に変換符号化の復号信号を加算する。これにより、復号装置では、CELP符号化と変換符号化とを階層構造にして組み合わせた符号化を行う際のCELP符号化による音質の劣化を抑えた復号信号を得ることができる。
米国特許出願公開第2009/0112607号明細書
Recommendation ITU-T G.718,2008年6月
 しかしながら、上述したCELP成分抑圧方法により、CELP抑圧係数コードブックに格納されているCELP抑圧係数毎に変換符号化を行うことで、符号化歪の評価(以下、歪評価と呼ぶことがある)を行う場合には、CELP抑圧係数の全ての候補、つまり、CELP抑圧係数コードブックに格納されている全てのCELP抑圧係数に対して変換符号化を行う必要があるため、符号化装置における処理量が非常に大きくなってしまうという課題がある。
 本発明の目的は、CELP抑圧係数毎に生成される、変換符号化処理に対する入力信号(以下、ターゲット信号と呼ぶ)の中から一部を選択(以下、「予備選択」と呼ぶ)して、本選択において変換符号化を行う対象を限定することで、符号化の品質劣化を抑えつつ、符号化装置における処理量を削減することができる符号化装置及び符号化方法を提供することである。
 本発明の一態様に係る符号化装置は、入力信号に対する第1の符号化により得られた第1符号を復号して生成された第1復号信号のスペクトルを出力する第1符号化部と、前記第1復号信号のスペクトルの振幅を、複数の抑圧係数の中から指示された抑圧係数を用いて抑圧して抑圧スペクトルを生成する抑圧部と、前記入力信号のスペクトルと前記抑圧スペクトルとを用いて残差スペクトルを算出する残差スペクトル算出部と、前記入力信号のスペクトルと前記残差スペクトルとを用いて、所定の数の抑圧係数を予備選択し、前記予備選択された抑圧係数を前記抑圧部に対して指示する予備選択部と、前記指示された抑圧係数を前記抑圧部で用いて生成された抑圧スペクトルを前記残差スペクトル算出部に入力して算出された残差スペクトルを用いて第2の符号化を行い、前記第2の符号化により得られた第2符号を復号して生成された第2復号信号のスペクトルと、前記抑圧スペクトルと、前記入力信号のスペクトルと、を用いて、前記指示された抑圧係数の中から一つの抑圧係数を決定する第2符号化部と、を具備する。
 本発明の一態様に係る符号化方法は、入力信号に対する第1の符号化により得られた第1符号を復号して生成された第1復号信号のスペクトルを出力する第1符号化ステップと、前記第1復号信号のスペクトルの振幅を、複数の抑圧係数の中から指示された抑圧係数を用いて抑圧して抑圧スペクトルを生成する抑圧ステップと、前記入力信号のスペクトルと前記抑圧スペクトルとを用いて残差スペクトルを算出する残差スペクトル算出ステップと、前記入力信号のスペクトルと前記残差スペクトルとを用いて、前記抑圧ステップで用いる所定の数の抑圧係数を予備選択し、前記予備選択された抑圧係数を前記指示された抑圧係数に設定する予備選択ステップと、前記指示された抑圧係数を前記抑圧ステップで用いて生成された抑圧スペクトルを用いて前記残差スペクトル算出ステップで算出された残差スペクトルを用いて第2の符号化を行い、前記第2の符号化により得られた第2符号を復号して生成された第2復号信号のスペクトルと、前記抑圧スペクトルと、前記入力信号のスペクトルと、を用いて、前記指示された抑圧係数の中から一つの抑圧係数を決定する第2符号化ステップと、を有する。
 本発明によれば、音声信号に適した符号化と音楽信号に適した符号化とを階層構造にして組み合わせた符号化方式において、全てのCELP抑圧係数候補に対して変換符号化を逐次行う方法と比較して、符号化の品質劣化を抑えつつ、符号化装置における処理量を削減することができる。
本発明の実施の形態1に係る符号化装置の構成を示すブロック図 本発明の実施の形態1に係る復号装置の構成を示すブロック図 本発明の実施の形態2に係る符号化装置の構成を示すブロック図
 以下、本発明の各実施の形態について、図面を参照して詳細に説明する。なお、本発明に係る符号化装置及び復号装置として、音響符号化装置及び音響復号装置を例にとって説明する。なお、上述のように、音声信号と音楽信号とを総称して音響信号と称することとする。すなわち、音響信号は、実質的に音声信号のみ、実質的に音楽信号のみ、音声信号及び音楽信号が混在した信号、のいずれの信号をも表すものとする。
 また、本発明に係る符号化装置及び復号装置は、少なくとも2つの符号化を行う階層を有する。以下の説明においては、音声信号に適した符号化としてCELP符号化を、音楽信号に適した符号化として変換符号化を、それぞれ代表して用いるものとし、符号化装置及び復号装置は、CELP符号化と変換符号化とを階層構造にして組み合わせた符号化方式を用いる。
 (実施の形態1)
 図1は、本発明の実施の形態1に係る符号化装置100の主要な構成を示すブロック図である。符号化装置100は、音声及び音楽等の入力信号を、CELP符号化と変換符号化とを階層構造にして組み合わせた符号化方式を用いて符号化して、符号化データを出力する。図1に示すように、符号化装置100は、MDCT(Modified Discrete Cosine Transform:修正離散コサイン変換)部101、CELP符号化部102、MDCT部103、CELP成分抑圧部104、CELP残差信号スペクトル算出部105、パルス位置推定部106、推定パルス減衰部107、推定歪評価部108、本選択候補限定部109、変換符号化部110、加算部111、歪評価部112及び多重化部113を具備する。各部は以下の動作を行う。
 図1に示す符号化装置100において、MDCT部101は、入力信号に対してMDCT処理を行って入力信号スペクトルを生成する。そして、MDCT部101は、生成した入力信号スペクトルをCELP残差信号スペクトル算出部105、歪評価部112及び推定歪評価部108に出力する。
 CELP符号化部102は、入力信号をCELP符号化方式により符号化してCELP符号化データを生成する。また、CELP符号化部102は、生成したCELP符号化データを復号(ローカルデコード)してCELP復号信号を生成する。そして、CELP符号化部102は、CELP符号化データを多重化部113に出力し、CELP復号信号をMDCT部103に出力する。
 MDCT部103は、CELP符号化部102から入力されるCELP復号信号に対してMDCT処理を行ってCELP復号信号スペクトルを生成する。そして、MDCT部103は、生成したCELP復号信号スペクトルをCELP成分抑圧部104に出力する。
 このように、例えば、CELP符号化部102及びMDCT部103は、入力信号に対する第1の符号化により得られた第1符号を復号して生成された第1復号信号のスペクトルを出力する第1符号化部として動作する。
 CELP成分抑圧部104は、CELP抑圧の程度(強さ)を示すCELP抑圧係数が格納されたCELP抑圧係数コードブックを具備する。例えば、CELP抑圧係数コードブックには、抑圧しないことを意味する1.0から、CELP成分の振幅を半分にする0.5までの4種類のCELP抑圧係数が格納されている。つまり、CELP抑圧係数は、CELP抑圧の程度(強さ)が大きいほど値がより小さくなる。また、ここでのCELP抑圧係数コードブックでは、CELP抑圧係数がCELP抑圧の程度(強さ)の昇順又は降順で格納されているものとする。また、各CELP抑圧係数には、CELP抑圧の程度(強さ)に関して昇順又は降順でインデックス(CELP抑圧係数インデックス)が付与されているものとする。
 まず、CELP成分抑圧部104は、推定歪評価部108、本選択候補限定部109又は歪評価部112から入力されるCELP抑圧係数インデックスに従って、CELP抑圧係数コードブックの中からCELP抑圧係数を選択する。そして、CELP成分抑圧部104は、選択したCELP抑圧係数を、MDCT部103から入力されるCELP復号信号スペクトルの周波数成分毎に乗じて、CELP成分抑圧スペクトルを算出する。そして、CELP成分抑圧部104は、CELP成分抑圧スペクトルをCELP残差信号スペクトル算出部105及び加算部111に出力する。
 CELP残差信号スペクトル算出部105は、MDCT部101から入力される入力信号スペクトルと、CELP成分抑圧部104から入力されるCELP成分抑圧スペクトルとの差分であるCELP残差信号スペクトルを算出する。具体的には、CELP残差信号スペクトル算出部105は、入力信号スペクトルからCELP成分抑圧スペクトルを減じることで、CELP残差信号スペクトルを得る。そして、CELP残差信号スペクトル算出部105は、CELP残差信号スペクトルを変換符号化部110、パルス位置推定部106及び推定パルス減衰部107に出力する。
 パルス位置推定部106は、CELP残差信号スペクトル算出部105から入力されるCELP残差信号スペクトル(変換符号化対象の信号。以下、ターゲット信号と呼ぶことがある。)を用いて、変換符号化部110で符号化されるパルス位置(例えば、CELP残差信号スペクトルの振幅が大きい周波数)を推定する。そして、パルス位置推定部106は、推定したパルス位置(推定パルス位置)を推定パルス減衰部107に出力する。
 推定パルス減衰部107は、CELP残差信号スペクトル算出部105から入力されるCELP残差信号スペクトルのうち、パルス位置推定部106から入力される推定パルス位置における振幅を減衰させる。そして、推定パルス減衰部107は、減衰後のスペクトルを変換符号化推定残差スペクトルとして推定歪評価部108に出力する。
 推定歪評価部108は、MDCT部101から入力される入力信号スペクトル、及び、推定パルス減衰部107から入力される変換符号化推定残差スペクトルを用いて、変換符号化による符号化歪(歪エネルギ)の推定値である推定歪エネルギを算出する。そして、推定歪評価部108は、推定歪エネルギを本選択候補限定部109に出力する。
 また、推定歪評価部108は、後述する予備選択探索において評価対象のCELP抑圧係数に対応する変換符号化推定残差スペクトルを得るために、評価対象のCELP抑圧係数インデックスをCELP成分抑圧部104に出力する。例えば、推定歪評価部108は、CELP抑圧係数インデックスj=1に対する推定歪エネルギを算出する際には、CELP抑圧係数インデックスj=1をCELP成分抑圧部104に出力する。そして、推定歪評価部108は、CELP成分抑圧部104、CELP残差信号スペクトル算出部105、パルス位置推定部106、推定パルス減衰部107で順次処理された結果である変換符号化推定残差スペクトル(CELP抑圧係数インデックスj=1に対応)に対する推定歪エネルギを算出する。
 本選択候補限定部109は、推定歪評価部108から入力される推定歪エネルギの分布に基づいて、CELP抑圧コードブックに格納されているCELP抑圧係数のうち、後述する本選択探索で探索するCELP抑圧係数(変換符号化に用いるCELP抑圧係数)の候補を限定する。そして、本選択候補限定部109は、限定されたCELP抑圧係数の候補を示すCELP抑圧係数インデックスをCELP成分抑圧部104に出力する。なお、以下において、ここで限定されたCELP抑圧係数の候補をまとめてCELP抑圧係数群、また、限定されたCELP抑圧係数の候補に対応するCELP抑圧係数インデックスをまとめてCELP抑圧係数インデックス群、と呼ぶことがある。
 このように、例えば、パルス位置推定部106、推定パルス減衰部107、推定歪評価部108及び本選択候補限定部109は、入力信号スペクトルとCELP残差信号スペクトルとを用いて、所定の数のCELP抑圧係数を予備選択し、予備選択されたCELP抑圧係数をCELP成分抑圧部104に対して指示する予備選択部として動作する。
 なお、図1に示す符号化装置100において、CELP成分抑圧部104、CELP残差信号スペクトル算出部105、パルス位置推定部106、推定パルス減衰部107、推定歪評価部108及び本選択候補限定部109は、閉ループを構成する。この閉ループを構成する各構成部は、CELP成分抑圧部104が具備するCELP抑圧コードブックに格納されているCELP抑圧係数のうち、推定歪評価部108から指示されるCELP抑圧係数インデックスに対応するCELP抑圧係数を用いて、後述する本選択探索において探索対象となる候補(CELP抑圧係数インデックス)を探索する。以下、この探索処理を、「予備選択探索」と呼ぶ。
 変換符号化部110は、CELP残差信号スペクトル算出部105から入力されるCELP残差信号スペクトル(ターゲット信号)を変換符号化により符号化して、変換符号化データを生成する。また、変換符号化部110は、生成した変換符号化データを復号(ローカルデコード)して、変換符号化復号信号スペクトルを生成する。このとき、変換符号化部110は、CELP残差信号スペクトルと変換符号化復号信号スペクトルとの歪が小さくなるように符号化を行う。例えば、変換符号化部110は、CELP残差信号スペクトルの振幅(エネルギ)が大きい周波数に、パルスを立てることで上記歪を小さくするように符号化を行う。そして、変換符号化部110は、符号化により得られた変換符号化データを歪評価部112に出力し、変換符号化復号信号スペクトルを加算部111に出力する。
 加算部111は、CELP成分抑圧部104から入力されるCELP成分抑圧スペクトルと、変換符号化部110から入力される変換符号化復号信号スペクトルとを加算して復号信号スペクトルを算出し、復号信号スペクトルを歪評価部112に出力する。
 歪評価部112は、CELP成分抑圧部104が備えるCELP抑圧係数コードブックに格納されたCLEP抑圧係数のうち、一部のインデックス(本選択候補限定部109で限定されたCELP抑圧係数インデックス)を走査して、MDCT部101から入力される入力信号スペクトルと加算部111から入力される復号信号スペクトルとの歪(すなわち、変換符号化による符号化歪)が最小となるCELP抑圧係数インデックスを探索する。つまり、歪評価部112は、上記一部のインデックスに対応するCELP抑圧係数を用いてCELP抑圧を行うようにCELP成分抑圧部104を制御する(CELP抑圧係数インデックスを出力する)。そして、歪評価部112は、算出した歪が最小となるCELP抑圧係数インデックスを、CELP抑圧係数最適インデックスとして多重化部113に出力し、変換符号化部110から入力される変換符号化データのうちCELP抑圧係数最適インデックスに対応する変換符号化データ(歪最小時の変換符号化データ)を多重化部113に出力する。
 このように、例えば、変換符号化部110、加算部111及び歪評価部112は、上述した予備選択部から指示されたCELP抑圧係数をCELP成分抑圧部104で用いて生成されたCELP抑圧スペクトルをCELP残差信号スペクトル算出部105に入力して算出されたCELP残差信号スペクトルを用いて変換符号化(第2の符号化)を行い、変換符号化により得られた変換符号化データ(第2符号)を復号して生成された変換符号化復号信号スペクトル(第2復号信号のスペクトル)と、CELP抑圧スペクトルと、入力信号スペクトルと、を用いて、指示されたCELP抑圧係数の中から一つのCELP抑圧係数を決定する第2符号化部として動作する。
 なお、図1に示す符号化装置100において、CELP成分抑圧部104、CELP残差信号スペクトル算出部105、変換符号化部110、加算部111及び歪評価部112は、閉ループを構成する。この閉ループを構成する各構成部は、CELP成分抑圧部104が具備するCELP抑圧コードブックに格納されている複数のCELP抑圧係数のうち、本選択候補限定部109から指示されるCELP抑圧係数インデックスに対応するCELP抑圧係数を用いて復号信号スペクトルを生成し、入力信号スペクトルと復号信号スペクトルとの歪(変換符号化による符号化歪)が最小となる候補(CELP抑圧係数インデックス)を探索する。以下、この探索処理を、「本選択探索」と呼ぶ。
 多重化部113は、CELP符号化部102から入力されるCELP符号化データ、歪評価部112から入力される変換符号化データ(歪最小時の変換符号化データ)及びCELP抑圧係数最適インデックスを多重化して、多重化結果を符号化データとして復号装置へ送信する。
 次に、復号装置200について説明する。復号装置200は、符号化装置100から送信される符号化データを復号して、復号信号を出力する。
 図2は、復号装置200の主要な構成を示すブロック図である。復号装置200は、分離部201、変換符号化復号部202、CELP復号部203、MDCT部204、CELP成分抑圧部205、加算部206、IMDCT(Inverse Modified Discrete Cosine Transform:逆修正離散コサイン変換)部207を具備する。各部は以下の動作を行う。
 図2に示す復号装置200において、分離部201は、CELP符号化データと、変換符号化データと、CELP抑圧係数最適インデックスとを含む符号化データを、符号化装置100(図1)から伝送路(図示せず)を介して受信する。分離部201は、符号化データを、CELP符号化データと、変換符号化データと、CELP抑圧係数最適インデックスとに分離する。そして、分離部201は、CELP符号化データをCELP復号部203に出力し、変換符号化データを変換符号化復号部202に出力し、CELP抑圧係数最適インデックスをCELP成分抑圧部205に出力する。
 変換符号化復号部202は、分離部201から入力される変換符号化データを復号して、変換符号化復号信号スペクトルを生成し、変換符号化復号信号スペクトルを加算部206に出力する。
 CELP復号部203は、分離部201から入力されるCELP符号化データを復号して、CELP復号信号をMDCT部204に出力する。
 MDCT部204は、CELP復号部203から入力されるCELP復号信号に対して、MDCT処理を行ってCELP復号信号スペクトルを生成する。そして、MDCT部204は、生成したCELP復号信号スペクトルをCELP成分抑圧部205に出力する。
 CELP成分抑圧部205は、CELP成分抑圧部104が具備するCELP抑圧係数コードブックと同様のCELP抑圧係数コードブックを具備する。CELP成分抑圧部205が具備するCELP抑圧係数コードブックは、基本的にはCELP成分抑圧部104が具備するCELP抑圧係数コードブックと全く同じCELP抑圧係数コードブックであればよいが、他の何らかの調整等も含めて抑圧する場合には、必ずしも同じでなくてもよい。CELP成分抑圧部205は、分離部201から入力されるCELP抑圧係数最適インデックスに対応するCELP抑圧係数を、MDCT部204から入力されるCELP復号信号スペクトルの周波数成分毎に乗ずることにより、CELP復号信号スペクトル(CELP成分)が抑圧されたCELP成分抑圧スペクトルを算出する。そして、CELP成分抑圧部205は、算出したCELP成分抑圧スペクトルを加算部206に出力する。
 加算部206は、符号化装置100の加算部111と同様にして、CELP成分抑圧部205から入力されるCELP成分抑圧スペクトルと、変換符号化復号部202から入力される変換符号化復号信号スペクトルとを加算して、復号信号スペクトルを算出する。そして、加算部206は、算出した復号信号スペクトルをIMDCT部207に出力する。
 IMDCT部207は、加算部206から入力される復号信号スペクトルに対して、IMDCT処理を行って復号信号を出力する。
 次に、符号化装置100(図1)における予備選択探索処理の詳細について説明する。
 まず、パルス位置推定部106における、推定パルス位置の推定方法の一例について説明する。
 一般に、変換符号化では、入力信号(ここでは、CELP残差信号スペクトル)の振幅が大きい周波数にパルスを立てるように符号化が行われる。このとき、立てられるパルスの本数、及び、パルスの振幅と入力信号との誤差は、設定されたビットレート又は信号の周波数特性により異なる。そのため、変換符号化における符号化歪は実際に符号化を行わないと正確に求めることができない。ただし、変換符号化において符号化されるパルス位置は、統計的手法を用いることにより推定することが可能である。
 ここで、CELP残差信号スペクトルが正規分布であると仮定する。また、変換符号化では振幅がより大きい周波数でパルスが立ち、パルスの情報が符号化されるとする。例えば、符号化装置100は、CELP残差信号スペクトルのうち、振幅が大きい上位10%の周波数でパルスが符号化されると仮定して、変換符号化部110で符号化されるパルス位置を判定するための閾値(振幅の閾値)を算出する。
 具体的には、まず、CELP残差信号スペクトルの絶対値平均Iavg[j]が、次式(1)に従って算出される。
Figure JPOXMLDOC01-appb-M000001
 ここで、Iavg[j]はCELP抑圧係数インデックスjにおけるCELP残差信号スペクトルの絶対値平均を表し、iは周波数サンプルの番号を表し、CrはCELP残差信号スペクトルの振幅を表す。また、CELP抑圧係数インデックスの総数をM個とし、周波数サンプルの総数をN個とする。
 次いで、CELP抑圧係数インデックスjにおけるCELP残差信号スペクトルの標準偏差σ[j]が、次式(2)に従って算出される。
Figure JPOXMLDOC01-appb-M000002
 そして、式(1)により算出された絶対値平均Iavg[j]及び式(2)により算出された標準偏差σ[j]を用いて閾値Ithrは、例えば、次式(3)に従って算出される。
Figure JPOXMLDOC01-appb-M000003
 ここで、βは閾値Ithrの値を制御する定数である。例えば、CELP残差信号スペクトルのうち、振幅が大きい上位10%の周波数が選択されるように閾値を設定する際には、βの値を約1.6に設定する。また、例えば、CELP残差信号スペクトルのうち、振幅が大きい上位5%の周波数が選択されるように閾値を設定する際には、βの値を約2.0に設定する。なお、βの設定値は正規分布表に従って求めることができる。
 パルス位置推定部106は、式(3)に示す閾値Ithrを用いることで、変換符号化部110で符号化されるパルス位置(推定パルス位置)を推定する。具体的には、パルス位置推定部106は、次式(4)に従って、CELP抑圧係数インデックスjにおいて、変換符号化部110で符号化されるパルス位置を推定する。
Figure JPOXMLDOC01-appb-M000004
 ここで、Iep[j][i]は、CELP抑圧係数インデックスjの各周波数サンプルi(1≦i≦N)においてパルスが立てられるか否かの推定結果を示す。すなわち、式(4)に示すように、CELP抑圧係数インデックスjにおいて、パルスが立てられると推定された周波数サンプルiではIep[j][i]=1.0となり、それ以外の周波数サンプルではIep[j][i]=0.0となる。すなわち、パルス位置推定部106は、Iep[j][i]=1.0となる周波数サンプルを、推定パルス位置とする。
 このように、パルス位置推定部106は、CELP残差信号スペクトル(ターゲット信号)の分布特性に基づき、変換符号化部110での符号化の結果として求められるパルスの位置を低演算量で効率的に推定している。具体的には、パルス位置推定部106は、CELP残差信号スペクトル(ターゲット信号)の振幅又は絶対値の統計量に基づいて算出される閾値(Ithr)と、CELP残差信号スペクトルの振幅とを比較して、変換符号化部110で符号化されるパルス(推定パルス位置)を推定する。これにより、パルス位置推定部106では、振幅の閾値判定を行うのみでよく、変換符号化部110で符号化されると推定されるパルス位置を、変換符号化部110での処理量よりも少ない処理量で特定することが可能となる。また、パルス位置推定部106で用いられる上記統計量として、標準偏差σを少なくとも含むようにすればよい。このようにターゲット信号の振幅又は絶対値のばらつきの度合いを定量的に表す標準偏差を用いて閾値を算出することにより、少ない演算量でパルス位置の推定精度の高い閾値を算出することが可能となる。
 次いで、推定パルス減衰部107は、パルス位置推定部106で推定された推定パルス位置(Iep[j][i]=1.0に対応する帯域)の振幅を減衰させて、変換符号化推定残差スペクトルを生成する。
 例えば、ここでは、簡単のため、推定パルス減衰部107でのスペクトル減衰の結果、推定パルス位置(Iep[j][i]=1.0に対応する帯域)では、CELP残差信号スペクトルの振幅に対して或る一定の比率の誤差が残り、他のパルス位置(Iep[j][i]=0.0に対応する帯域)では、CELP残差信号スペクトルが誤差としてそのまま残るものとする。具体的には、推定パルス減衰部107は、次式(5)に従って、変換符号化推定残差スペクトルCraを算出する。
Figure JPOXMLDOC01-appb-M000005
 ここで、αは推定パルス位置においてCELP残差信号スペクトルの振幅をどの程度誤差として残すかを示す(つまり、減衰度合を示す)、0以上1未満の定数(以後、推定残差係数と呼ぶ)を表す。例えば、推定パルス位置における誤差を零と見なす場合には、α=0.0に設定され、推定パルス位置において10%の誤差を見込む場合には、α=0.1に設定される。すなわち、推定パルス減衰部107は、CELP残差信号スペクトルの振幅に、推定残差係数(0以上1未満の値)を乗算することで、変換符号化推定残差スペクトル(つまり、復号信号スペクトルの推定値)を算出する。このように、0以上1未満の定数をCELP残差信号スペクトルに乗じて変換符号化による誤差を推定することは、変換符号化により所定のSNR(Signal Noise Ratio)が得られるように誤差を算出していることになる。このときのSNRは次式(6)で表される。
Figure JPOXMLDOC01-appb-M000006
 次いで、推定歪評価部108は、次式(7)に従って、入力信号スペクトル及び変換符号化推定残差スペクトルを用いて、変換符号化による符号化歪(歪エネルギ)の推定値である推定歪エネルギEeを算出する(以下、推定歪評価と呼ぶことがある)。
Figure JPOXMLDOC01-appb-M000007
 ここで、Sは入力信号スペクトルを表す。また、θはCELP抑圧係数毎に設定される一定値を表し、CELP抑圧係数間の推定歪エネルギの調整機能を有する。例えば、CELP抑圧係数(インデックスj)が零のときはθ[j]=1.0に設定され、CELP抑圧係数(インデックスj)が大きいほど、θ[j]=0.0に近づくように調整される。
 このように、推定歪評価部108は、推定パルス位置におけるスペクトルの振幅を0以上1未満の比率に減衰させた変換符号化推定残差スペクトルに対する推定歪エネルギを算出する。これにより、推定歪評価部108では、変換符号化部110で符号化されると推定されたパルス位置での推定歪エネルギを、変換符号化部110での処理量よりも少ない処理量で推定することが可能となる。
 なお、予備選択探索において、全てのCELP抑圧係数で推定歪評価を行う場合には、推定歪評価部108は、CELP抑圧係数インデックスを全て走査するように動作する。すなわち、推定歪評価部108は、CELP抑圧係数インデックスを全てCELP成分抑圧部104に出力する。一方、予備選択探索において、推定歪評価を行うCELP抑圧係数の候補を限定することも可能である。
 例えば、CELP抑圧係数インデックスの総数がM=4の場合に3候補のみを予備選択探索する場合を説明する。この時、最も強く抑圧する係数と最も弱く抑圧する係数とのうちいずれかを本選択探索から除外することで候補を絞る。まず、CELP抑圧係数インデックスj=1及びj=4に対する推定歪エネルギ(つまり、Ee[1]及びEe[4])を算出する。次いで、推定歪評価部108は、Ee[1]がEe[4]よりも小さい場合には、CELP抑圧係数インデックスj=2に対する推定歪エネルギ(つまり、Ee[2])を算出し、Ee[4]がEe[1]よりも小さい場合には、CELP抑圧係数インデックスj=3に対する推定歪エネルギ(つまり、Ee[3])を算出する。すなわち、j=1、4及び(2又は3のいずれか一方)の3種類のCELP抑圧係数に限定して推定歪評価が行われ、予備選択探索が完了する。よって、推定歪評価部108は、3つのCELP抑圧係数に対してのみ推定歪評価を行えばよく、j=1~4の4つのCELP抑圧係数を全て評価する場合と比べて、予備選択探索に要する処理量を約3/4に抑えることができる。
 次いで、本選択候補限定部109は、推定歪エネルギの分布に基づいて、本選択探索の探索対象であるCELP抑圧係数(変換符号化に用いるCELP抑圧係数)の候補を限定する。つまり、本選択候補限定部109は、推定歪エネルギに基づいて、CELP抑圧係数コードブックに格納されている複数のCELP抑圧係数のうち、所定の数のCELP抑圧係数を予備選択する。以下、本選択候補限定部109での本選択探索の限定方法1及び2について説明する。なお、以下では、一例として、M=4(j=1~4)の場合について説明する。
 <方法1>
 方法1では、CELP抑圧係数の最も大きい係数と最も小さい係数とについて予備選択探索を行い、推定歪エネルギが大きい方は本選択探索で選択される可能性が小さいと判断し、そのCELP抑圧係数を本選択探索から除外することで、本選択探索の処理量を減らす。
 上記を実現する方法を以下に説明する。まず、本選択候補限定部109には、CELP抑圧係数インデックスj=1及びj=4に対する推定歪エネルギ(つまり、Ee[1]及びEe[4])が入力される。
 (1)本選択候補限定部109は、Ee[1]とEe[4]とを比較する。
 (2)Ee[1]がEe[4]よりも小さい場合、本選択候補限定部109は、本選択探索をj=1,2,3の3種類のCELP抑圧係数に限定する。一方、Ee[4]がEe[1]よりも小さい場合、本選択候補限定部109は、本選択探索をj=2,3,4の3種類のCELP抑圧係数に限定する。
 本選択探索では、このようにして限定された3つのCELP抑圧係数(CELP抑圧係数インデックス)を用いる。
 つまり、本選択候補限定部109は、CELP成分抑圧部104に格納されている複数のCELP抑圧係数のうち、最大値を用いた場合の推定歪エネルギと、最小値を用いた場合の推定歪エネルギとを比較(上記例では、最小のインデックスj=1及び最大のインデックスj=4を比較)して、推定歪エネルギが大きい方のCELP抑圧係数を本選択探索の対象(本選択探索のCELP抑圧係数群)から除外する。つまり、予備選択探索を行うことで、本選択探索における探索対象候補が1つ削減される。
 このとき、符号化装置100において、予備選択探索での演算回数(推定歪評価の回数)は2回(上記例ではj=1,4の2回)となり、本選択探索での演算回数が3回(j=1,2,3又はj=2,3,4)となる。このとき、本選択探索での変換符号化の1回の処理量(削減分)の方が、予備選択探索での2回の演算における処理量よりも大きい場合には、符号化装置100全体での処理量は削減される。
 このようにして、方法1では、必要最小限のCELP抑圧係数(ここでは、最大値と最小値との2個のCELP抑圧係数)についてのみで予備選択探索が行われる。また、方法1では、推定歪エネルギの大きいCELP抑圧係数が本選択探索の対象から除外される。これにより、本選択探索において全てのCELP抑圧係数を探索する場合と比較して、符号化の品質劣化を抑えつつ、符号化装置100における処理量を削減することができる。
 <方法2>
 方法2では、全てのCELP抑圧係数で予備選択探索を行い、推定歪エネルギから本選択探索でも選択される可能性の高いCELP抑圧係数を限定することで、本選択探索の処理量を減らす。この時最も推定歪エネルギが小さい候補は必ず本選択探索の候補として残すようにする。そして、残された候補に付与されたCELP抑圧係数インデックスに隣接するインデックス(片方または両方)のCELP抑圧係数も本選択探索の候補として残すようにする。これは、CELP抑圧係数インデックスが抑圧の程度に関して昇順または降順に配置されている場合に、これらCELP抑圧係数候補が本選択探索時に歪エネルギが最も小さい候補として選択される可能性が、推定歪エネルギが最小の候補およびそれに隣接する候補以外のCELP抑圧係数候補よりも高いからである。
 上記を実現する方法として、本選択探索で2種類のCELP抑圧係数を探索対象とする場合について説明する。
 本選択候補限定部109には、全てのCELP抑圧係数(j=1~4)に対する推定歪エネルギ(つまり、Ee[1]~Ee[4])が入力される。
 (1)本選択候補限定部109は、推定歪エネルギEe[1]~Ee[4]のうち、最小の推定歪エネルギを探索し、最小の推定歪エネルギに対応するCELP抑圧係数インデックスを保存する。
 (2)本選択候補限定部109は、保存したCELP抑圧係数インデックス(つまり、最小の推定歪エネルギに対応するCELP抑圧係数インデックス)の前後(両端)のCELP抑圧係数インデックスに対応する推定歪エネルギを比較し、推定歪エネルギが小さい方のCELP抑圧係数インデックスを保存する。
 (3)本選択候補限定部109は、(1)の処理で保存したCELP抑圧係数インデックス(つまり、最小の推定歪エネルギに対応するCELP抑圧係数インデックス)、及び、(2)の処理で保存したCELP抑圧係数インデックスの2種類のCELP抑圧係数を、本選択探索のCELP抑圧係数群として限定する。
 本選択探索では、このようにして限定された2つのCELP抑圧係数(CELP抑圧係数インデックス)を用いる。
 つまり、本選択候補限定部109は、CELP成分抑圧部104に格納されている複数のCELP抑圧係数のうち、推定歪エネルギが最小のCELP抑圧係数(第1のCELP抑圧係数)、及び、推定歪エネルギが最小のCELP抑圧係数の前後のCELP抑圧係数インデックスに対応するCELP抑圧係数のうち推定歪エネルギが小さいCELP抑圧係数(第2のCELP抑圧係数)を、本選択探索の対象として特定する。すなわち、本選択候補限定部109は、複数のCELP抑圧係数のうちの推定歪エネルギが最も小さいCELP抑圧係数(第1のCELP抑圧係数)と、推定歪エネルギが最も小さいCELP抑圧係数に付与されたCELP抑圧係数インデックスの前後のCELP抑圧係数インデックスに対応する2つのCELP抑圧係数のうち推定歪エネルギが小さい方のCELP抑圧係数(第2のCELP抑圧係数)と、を所定の数のCELP抑圧係数として予備選択する。
 このとき、符号化装置100において、予備選択探索での演算回数(推定歪評価の回数)は4回(j=1~4)となり、本選択探索での演算回数が2回となる。このとき、本選択探索での変換符号化の2回の処理量(削減分)の方が、予備選択探索での4回の演算における処理量よりも大きい場合には、符号化装置100全体での処理量は削減される。すなわち、方法1と同様、本選択探索での変換符号化の1回の処理量の方が、予備選択探索での2回の演算における処理量よりも大きい場合には、符号化装置100全体での処理量は削減される。
 このようにして、方法2では、全てのCELP抑圧係数を対象として予備選択探索が行われるものの、方法1と比較して、本選択探索対象であるCELP抑圧係数群をより狭く限定する。これにより、本選択探索における処理量を方法1よりも削減することができる。
 また、方法2では、推定歪エネルギが最小のCELP抑圧係数、及び、当該CELP抑圧係数の両端のCELP抑圧係数インデックスに対応するCELP抑圧係数のうち推定歪エネルギがより小さいCELP抑圧係数が、本選択探索の対象となる。つまり、予備選択探索では、本選択探索において最適なCELP抑圧係数(歪エネルギが最小のCELP抑圧係数)として決定される可能性が高いCELP抑圧係数が探索される。よって、方法2では、本選択探索において全てのCELP抑圧係数を探索する場合と比較して、符号化の品質劣化を抑えつつ、符号化装置100における処理量を削減することができる。
 なお、方法2において、本選択候補限定部109は、CELP成分抑圧部104に格納されている複数のCELP抑圧係数のうち、推定歪エネルギが最小のCELP抑圧係数(例えば、CELP抑圧係数インデックスj)、及び、推定歪エネルギが最小のCELP抑圧係数の前後のCELP抑圧係数インデックスに対応するCELP抑圧係数群(例えば、CELP抑圧係数インデックス[j-1]及び[j+1])を、本選択探索の対象として特定してもよい。すなわち、本選択候補限定部109は、複数のCELP抑圧係数のうちの推定歪エネルギが最も小さいCELP抑圧係数と、推定歪エネルギが最も小さいCELP抑圧係数に付与されたインデックスの前後のインデックスに対応する2つのCELP抑圧係数と、を所定の数のCELP抑圧係数として予備選択してもよい。
 以上、本選択候補限定部109での本選択探索の対象となるCELP抑圧係数群の限定方法1及び2について説明した。このように、方法1では、方法2と比較して、本選択探索の対象を広くすることで、本選択探索の対象を限定することによる本選択探索の性能劣化をより小さくすることができる。一方、方法2では、方法1と比較して本選択探索での処理量をより削減することができる。
 このように、符号化装置100では、予備選択探索において、推定歪評価部108が、予備選択探索で探索対象とするCELP抑圧係数インデックスをCELP成分抑圧部104に出力する。これにより、推定歪評価部108には、CELP抑圧係数インデックス毎に変換符号化推定残差スペクトルが入力され、推定歪評価部108は、CELP抑圧係数インデックスにそれぞれ対応する推定歪エネルギを算出する。そして、本選択候補限定部109は、推定歪エネルギに基づいて、実際に変換符号化を用いて歪評価を行う本選択探索で探索対象とするCELP抑圧係数インデックスを限定する。すなわち、符号化装置100では、予備選択探索において、本選択探索での変換符号化の歪エネルギがより小さくなると見込まれる(推定される)CELP抑圧係数を特定する。
 次いで、符号化装置100では、本選択探索において、本選択候補限定部109から指示されるCELP抑圧係数インデックス群のみを用いて、変換符号化部110で変換符号化が行われ、歪評価部112で歪エネルギが最小となるCELP抑圧係数の探索が行われる。そして、歪エネルギが最小となるCELP抑圧係数に対応するCELP抑圧係数インデックスが多重化部113に出力され、当該CELP抑圧係数インデックスは、符号化装置100の符号化データの一部として復号装置200へ送信される。
 つまり、本実施の形態では、符号化装置100は、変換符号化で符号化されるパルス位置を統計的に推定し、推定したパルス位置で推定される推定歪エネルギを算出し、推定歪エネルギのより小さいCELP抑圧係数を、本選択探索の対象となるCELP抑圧係数群として限定する(予備選択探索)。そして、符号化装置100は、予備選択探索にて候補が限定されたCELP抑圧係数毎に変換符号化を行い、残差信号のエネルギ(歪エネルギ)が最小となるCELP抑圧係数を決定する(本選択探索)。
 こうすることで、符号化装置100は、予備選択探索において、歪エネルギが小さいと見込まれるCELP抑圧係数のみを本選択探索の対象とすることで、変換符号化を行う回数を削減する。ここで、予備選択探索では、前述したように、パルス位置推定部106でのパルス位置の推定、推定パルス減衰部107での変換符号化推定残差スペクトルの算出、及び、推定歪評価部108での歪エネルギの算出を、それぞれ変換符号化部110での処理よりも少ない処理量で行うことが可能となる。よって、予備選択探索において本選択探索の対象となるCELP抑圧係数群を予め限定することにより、全てのCELP抑圧係数に対して変換符号化を逐次行う場合と比較して、符号化装置100での処理量を削減することができる。
 また、予備選択探索では、本選択探索の対象として、推定歪エネルギが小さいと見込まれるCELP抑圧係数、すなわち、本選択探索において歪エネルギが最小として評価される可能性が高いCELP抑圧係数のみに候補を限定する。これにより、本選択探索の対象となるCELP抑圧係数群を限定することによる、符号化の品質劣化を抑えることができる。
 よって、本実施の形態によれば、音声信号に適した符号化と音楽信号に適した符号化とを階層構造にして組み合わせた符号化方式において、全てのCELP抑圧係数候補に対して変換符号化を逐次行う方法と比較して、符号化の品質劣化を抑えつつ、符号化装置における処理量を削減することができる。
 なお、本実施の形態において、予備選択探索時に算出された値のうち、本選択探索時にも使用される値(例えば、CELP残差信号スペクトル等)については、本選択探索時に再度算出せずに、予備選択探索時に算出された値を利用してもよい。これにより、符号化装置では、本選択探索時の処理量を更に削減することができる。
 (実施の形態2)
 図3は、本発明の実施の形態2に係る符号化装置300の主要な構成を示すブロック図である。なお、図3において、実施の形態1(図1)と同一の構成要素には同一の符号を付しその説明を省略する。図3に示す符号化装置300では、図1に示す符号化装置100に対してターゲット信号特徴抽出部301が追加される点が異なる。また、パルス位置推定部302及び推定パルス減衰部303には、ターゲット信号特徴抽出部301から出力される特徴情報が入力信号として追加される点が実施の形態1と異なる。
 図3に示す符号化装置300において、ターゲット信号特徴抽出部301は、CELP残差信号スペクトル算出部105から入力されるCELP残差信号スペクトル(ターゲット信号)を用いて、当該ターゲット信号の特徴を抽出する。
 ここで、一例として、変換符号化としてFPC(Factorial Pulse Coding)を用いる場合について説明する。FPCでは、符号化対象(ここではCELP残差信号スペクトル)のスペクトルの振幅のばらつきが小さいときには符号化できるパルス本数がより多くなり、符号化対象のスペクトルの振幅のばらつきが大きいときには符号化できるパルス本数がより少なくなる、という特徴がある。例えば、或る帯域にエネルギが集中するターゲット信号では、FPCで符号化されるパルス本数は少なくなり、全帯域にエネルギが分散しているターゲット信号では、FPCで符号化されるパルス本数は多くなる。
 すなわち、符号化装置300では、ターゲット信号(CELP残差信号スペクトル)の上記特徴を抽出して、抽出した特徴に基づいてFPCで符号化されるパルス本数を予測することができる。つまり、予備選択探索において、ターゲット信号のパルス位置を正確に推定することが可能となる。
 本実施の形態では、ターゲット信号特徴抽出部301は、ターゲット信号の振幅の平均値と、振幅の最大値との比を、ターゲット信号の特徴として抽出する。具体的には、ターゲット信号特徴抽出部301は、式(1)に従って、ターゲット信号の振幅の平均値Iavgを算出する。また、ターゲット信号特徴抽出部301は、ターゲット信号の絶対値振幅の最大値をtmaxとする。ここで、tmax/Iavgの値が大きいほど、或る特定の帯域にエネルギが集中している可能性が高い。つまり、tmax/Iavgの値が大きいほど、スペクトルのばらつきが大きい可能性が高い。
 よって、ターゲット信号特徴抽出部301は、tmax/Iavgの値が大きいほど、予備選択探索において推定するターゲット信号のパルス本数を少なくすべきであると判定する。一方、ターゲット信号特徴抽出部301は、tmax/Iavgの値が小さいほど、帯域全体にエネルギが分散している可能性が高いので、予備選択探索において推定するターゲット信号のパルス本数を多くすべきであると判定する。そこで、ターゲット信号特徴抽出部301は、tmax/Iavgの値に応じて、次式(8)に従って、ターゲット信号の特徴に基づいて予測されるターゲット信号のパルス本数に関する情報を特徴情報Kとして生成する。
Figure JPOXMLDOC01-appb-M000008
 ここで、κhは予備選択探索(パルス位置推定部302)において推定されるパルスの本数を減少させるか否かを判定するために予め設定された閾値であり、κlは予備選択探索において推定されるパルスの本数を増加させるか否かを判定するために予め設定された閾値である。
 パルス位置推定部302は、CELP残差信号スペクトル算出部105から入力されるCELP残差信号スペクトル(ターゲット信号)、及び、ターゲット信号特徴抽出部301から入力される特徴情報Kを用いて、変換符号化部110で符号化されるパルス位置(推定パルス位置)を推定する。具体的には、パルス位置推定部302は、実施の形態1(パルス位置推定部106)で用いた式(3)の代わりに、次式(9)に示す閾値Ithr[j]を用いる。
Figure JPOXMLDOC01-appb-M000009
 すなわち、式(9)では、特徴情報K(0.9,1.0,1.1)の値に応じてβの値がフレーム毎に適応的に補正され、パルス位置推定部302で選択されるパルス本数が適応的に制御される。換言すると、パルス位置推定部302は、式(9)に示すように、実施の形態1(式(3))を、ターゲット信号特徴抽出部301から入力される特徴情報Kを用いて補正する。
 これにより、パルス位置推定部302では、ターゲット信号において或る特定の帯域にエネルギが集中している可能性が高い場合(式(8)においてtmax/Iavg>κhの場合)、特徴情報K=1.1であるので、「β」が「β*1.1」となり閾値Ithr[j]はより大きくなるように制御される。よって、パルス位置推定部302では、閾値Ithr[j]を超えるパルス本数がより少なくなる。
 一方、パルス位置推定部302では、ターゲット信号の全帯域にエネルギが分散している可能性が高い場合(式(8)においてtmax/Iavg<κlの場合)、特徴情報K=0.9であるので、「β」が「β*0.9」となり閾値Ithr[j]はより小さくなるように制御される。よって、パルス位置推定部302では、閾値Ithr[j]を超えるパルス本数がより多くなる。
 すなわち、パルス位置推定部302は、式(8)においてtmax/Iavg>κhの場合(スペクトルのばらつきが大きい場合)には、推定するパルス本数を少なく設定し、式(8)においてtmax/Iavg<κlの場合(スペクトルのばらつきが小さい場合)には、推定するパルス本数を多く設定する。つまり、パルス位置推定部302は、CELP残差信号スペクトルの特徴に応じて、推定するパルスの本数を設定し、設定された本数のパルスの位置を推定する。例えば、パルス位置推定部302は、パルスの本数を、CELP残差信号スペクトルの各帯域における振幅のばらつきが大きくなるほど少なくするように設定する。
 推定パルス減衰部303は、ターゲット信号特徴抽出部301から入力される特徴情報を用いて、CELP残差信号スペクトル算出部105から入力されるCELP残差信号スペクトルのうち、パルス位置推定部302から入力される推定パルス位置のスペクトルを減衰させる。
 具体的には、推定パルス減衰部303は、実施の形態1(推定パルス減衰部107)で用いた式(5)の代わりに、次式(10)に従って、変換符号化推定残差スペクトルCraを算出する。
Figure JPOXMLDOC01-appb-M000010
 すなわち、式(10)では、特徴情報K(0.9,1.0,1.1)の値に応じて推定残差計数αの値がフレーム毎に適応的に補正され、推定パルス減衰部303での減衰度合(推定誤差量)が適応的に制御される。換言すると、推定パルス減衰部303は、式(10)に示すように、実施の形態1(式(5))を、ターゲット信号特徴抽出部301から入力される特徴情報Kを用いて補正する。
 これにより、推定パルス減衰部303では、ターゲット信号において或る特定の帯域にエネルギが集中している可能性が高い場合(式(8)においてtmax/Iavg>κhの場合)、特徴情報K=1.1であるので、「α」が「α/1.1」となり、推定パルス位置における誤差がより小さくなるように制御される。一方、推定パルス減衰部303では、ターゲット信号において全帯域にエネルギが分散している可能性が高い場合(式(8)においてtmax/Iavg>κhの場合)、特徴情報K=0.9であるので、「α」が「α/0.9」となり、推定パルス位置における誤差がより大きくなるように制御される。
 すなわち、推定パルス減衰部303は、式(8)においてtmax/Iavg>κhの場合(スペクトルの振幅のばらつきが大きい場合)には、スペクトルの減衰度合を大きくし、式(8)においてtmax/Iavg<κlの場合(スペクトルの振幅のばらつきが小さい場合)には、スペクトルの減衰度合を小さくする。すなわち、推定パルス減衰部303は、CELP残差信号スペクトルの減衰度合を、CELP残差信号スペクトルの各帯域における振幅のばらつきが大きくなるほど大きくするように設定する。
 換言すれば、スペクトルの振幅のばらつきに応じて、変換符号化の誤差の推定値により算出されるSNRが適応的に変化することになる。そのときのSNRは次式(11)で表される。
Figure JPOXMLDOC01-appb-M000011
 このように、符号化装置300は、ターゲット信号(CELP残差信号スペクトル)の特徴(ここでは、スペクトルの振幅のばらつき(tmax/Iavg))に応じて、変換符号化部110で符号化されるパルス本数及びパルスの誤差(推定パルス減衰部303での減衰度合)を適応的に制御する。これにより、符号化装置300では、変換符号化部110で符号化されると推定されるパルス位置での歪エネルギを、実施の形態1よりも精度良く推定することができる。また、実施の形態1と同様、符号化装置300では、推定パルス位置の推定、推定パルス減衰部107での変換符号化推定残差スペクトルの算出、及び、推定歪評価部108での歪エネルギの算出を、それぞれ変換符号化部110での処理よりも少ない処理量で行うことができる。
 よって、本実施の形態によれば、音声信号に適した符号化と音楽信号に適した符号化とを階層構造にして組み合わせた符号化方式において、実施の形態1と比較して、符号化の品質劣化を更に抑えつつ、全てのCELP抑圧係数候補に対して変換符号化を逐次行う方法と比較して、符号化装置における処理量を削減することができる。
 なお、本実施の形態では、ターゲット信号の特徴として、スペクトルの振幅のばらつきを用いる場合について説明したが、本発明は、ターゲット信号の特徴としてスペクトルの振幅のばらつきを用いる場合に限定されない。例えば、ターゲット信号の特徴として、ターゲット信号のトーン性を用いてもよい。ここでいうトーン性とは、スペクトルのピークの大きさ、若しくはダイナミックレンジの大きさを示す指標である。例えば、ターゲット信号又はその絶対値の算術平均に対する幾何平均の比を測定し、この比が0に近いときはトーン性が高いと判定することができる。具体的には、図3に示す符号化装置300において、ターゲット信号特徴抽出部301は、ターゲット信号のトーン性を測定する。そして、パルス位置推定部302は、パルスの本数を、トーン性が高くなるほど少なくするように設定する。例えば、パルス位置推定部302は、ターゲット信号のトーン性が高い場合には閾値を大きく設定して、推定パルス本数が少なくなるように制御し、ターゲット信号のトーン性が低い場合には閾値を小さくして、推定パルス本数が多くなるように制御すればよい。また、推定パルス減衰部303は、CELP残差信号スペクトルの減衰度合を、トーン性が高くなるほど大きくするように設定する。つまり、推定パルス減衰部303は、ターゲット信号のトーン性が高い場合には推定残差係数を小さくして(減衰度合を大きくして)、残差信号(誤差)が小さくなるように制御し、ターゲット信号のトーン性が低い場合には推定残差係数を大きくして(減衰度合を小さくして)、残差信号(誤差)が大きくなるように制御すればよい。このように、ターゲット信号の特徴としてトーン性を用いる場合でも、本実施の形態と同様の効果を得ることができる。
 また、例えば、ターゲット信号の特徴として、ターゲット信号の雑音性を用いてもよい。ここでいう雑音性とはターゲット信号のエネルギの偏りの少なさを示す指標である。例えば、ターゲット信号をいくつかの帯域で区切って帯域毎のエネルギを測定し、帯域毎のエネルギの分散が小さいときは雑音性が高いと判定することができる。具体的には、図3に示す符号化装置300において、ターゲット信号特徴抽出部301は、ターゲット信号の雑音性を測定する。そして、パルス位置推定部302は、パルスの本数を、雑音性が高くなるほど多くするように設定する。例えば、パルス位置推定部302は、ターゲット信号の雑音性が高い場合には閾値を小さく設定して、推定パルス本数が多くなるように制御し、ターゲット信号の雑音性が低い場合には閾値を大きくして、推定パルス本数が少なくなるように制御すればよい。また、推定パルス減衰部303は、CELP残差信号スペクトルの減衰度合を、雑音性が高くなるほど小さくするように設定する。つまり、推定パルス減衰部303は、ターゲット信号の雑音性が高い場合には推定残差係数を大きくして(減衰度合を小さくして)、残差信号(誤差)が大きくなるように制御し、ターゲット信号の雑音性が低い場合には推定残差係数を小さくして(減衰度合を大きくして)、残差信号(誤差)が小さくなるように制御すればよい。このように、ターゲット信号の特徴として雑音性を用いる場合でも、本実施の形態と同様の効果を得ることができる。
 以上、本発明の各実施の形態について説明した。
 なお、上記各実施の形態では、パルス位置推定部において、変換符号化部への入力信号(CELP残差信号スペクトル)が正規分布であると仮定し、振幅の大きい上位周波数を選択するための閾値(Ithr)を設定する場合について説明した。しかし、パルス位置推定部は、変換符号化部への入力信号(CELP残差信号スペクトル)が正規分布以外の他の分布を仮定できる場合には、当該分布モデルに応じて閾値(Ithr)を設定してもよい。
 また、上記各実施の形態では、パルス位置推定部において、変換符号化部で符号化されるパルス数の上限値を上回るパルス本数を推定する場合があり得る。これに対して、パルス位置推定部は、当該上限値を用いて、推定されるパルス数を制御してもよい。このとき、パルス位置推定部は、振幅がより小さいパルスを除外したり、より高域側のパルスを除外したりしてもよい。又は、パルス位置推定部は、上述した振幅及び周波数帯域の条件に加え、信号の特徴から算出できる他の条件を組み合わせて、除外するパルスを決定してもよい。
 また、上記各実施の形態では、CELP抑圧係数コードブックに格納されるCELP抑圧係数が、CELP抑圧の程度の昇順又は降順で格納されている場合について説明した。しかし、抑圧係数の候補を限定する方法として、格納される順序によらない方法を用いる場合には、必ずしも昇順又は降順としなくても良い。
 また、上記各実施の形態では、音声信号に適した符号化の一例としてCELP符号化を用いて説明したが、本発明はADPCM(Adaptive Differential Pulse Code Modulation)、APC(Adaptive Prediction Coding)、ATC(Adaptive Transform Coding)、TCX(Transform Coded Excitation)等を用いても実現可能であり、同様の効果が得られる。
 また、上記各実施の形態では、音楽信号に適した符号化の一例として変換符号化を用いて説明したが、音声信号に適した符号化方式の復号信号と入力信号との残差信号を周波数領域で効率良く符号化できる方式であれば良い。このような方式として、FPC(Factorial Pulse Coding)及びAVQ(Algebraic Vector Quantization)などがあり、同様の効果を得ることができる。
 また、以上の説明では、符号化装置100、300から出力された符号化データを復号装置200で受信するとしたが、これに限るものではない。すなわち、復号装置200は、符号化装置100、300の構成において生成された符号化データでなくても、復号に必要な符号化データを有する符号化データを生成可能な符号化装置により出力された符号化データであれば、復号可能である。
 また、上記各実施の形態では、本発明をハードウェアで構成する場合を例にとって説明したが、本発明はハードウェアとの連係においてソフトウェアでも実現することも可能である。
 また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されてもよいし、一部または全てを含むように1チップ化されてもよい。ここでは、LSIとしたが、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。
 また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル/プロセッサを利用してもよい。
 さらには、半導体技術の進歩または派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてありえる。
 2010年9月10日出願の特願2010-203657の日本出願に含まれる明細書、図面および要約書の開示内容は、すべて本願に援用される。
 本発明は、符号化の品質劣化を抑えつつ装置全体としての演算量を削減することができ、例えば、パケット通信システム、移動通信システムなどに適用できる。
 100,300 符号化装置
 200 復号装置
 101,103,204 MDCT部
 102 CELP符号化部
 104,205 CELP成分抑圧部
 105 CELP残差信号スペクトル算出部
 106,302 パルス位置推定部
 107,303 推定パルス減衰部
 108 推定歪評価部
 109 本選択候補限定部
 110 変換符号化部
 111,206 加算部
 112 歪評価部
 113 多重化部
 201 分離部
 202 変換符号化復号部
 203 CELP復号部
 207 IMDCT部
 301 ターゲット信号特徴抽出部

Claims (17)

  1.  入力信号に対する第1の符号化により得られた第1符号を復号して生成された第1復号信号のスペクトルを出力する第1符号化部と、
     前記第1復号信号のスペクトルの振幅を、複数の抑圧係数の中から指示された抑圧係数を用いて抑圧して抑圧スペクトルを生成する抑圧部と、
     前記入力信号のスペクトルと前記抑圧スペクトルとを用いて残差スペクトルを算出する残差スペクトル算出部と、
     前記入力信号のスペクトルと前記残差スペクトルとを用いて、所定の数の抑圧係数を予備選択し、前記予備選択された抑圧係数を前記抑圧部に対して指示する予備選択部と、
     前記指示された抑圧係数を前記抑圧部で用いて生成された抑圧スペクトルを前記残差スペクトル算出部に入力して算出された残差スペクトルを用いて第2の符号化を行い、前記第2の符号化により得られた第2符号を復号して生成された第2復号信号のスペクトルと、前記抑圧スペクトルと、前記入力信号のスペクトルと、を用いて、前記指示された抑圧係数の中から一つの抑圧係数を決定する第2符号化部と、
     を具備する符号化装置。
  2.  前記第2符号化部は、
      前記残差スペクトルに対して立てられたパルスを前記第2の符号化で符号化し、前記第2の符号化による符号化歪が最小となる前記抑圧係数を探索し、
     前記予備選択部は、
      前記残差スペクトルを用いて前記パルスの位置を推定する推定手段と、
      前記残差スペクトルのうち、推定された前記パルスの位置における振幅を減衰させて推定残差スペクトルを生成する減衰手段と、
      前記推定残差スペクトルと前記入力信号のスペクトルとを用いて、前記符号化歪の推定エネルギである推定歪エネルギを算出する算出手段と、
      前記推定歪エネルギに基づいて、前記複数の抑圧係数のうち、前記所定の数の抑圧係数を予備選択する候補限定手段と、
     を具備する請求項1記載の符号化装置。
  3.  前記複数の抑圧係数は、抑圧の程度に関して昇順又は降順でインデックスが付与され、
     前記候補限定手段は、
      最大のインデックス及び最小のインデックスに対応する前記抑圧係数のうち、前記推定歪エネルギが大きい方の抑圧係数を、前記所定の数の抑圧係数から除外する、
     請求項2記載の符号化装置。
  4.  前記複数の抑圧係数は、抑圧の程度に関して昇順又は降順でインデックスが付与され、
     前記候補限定手段は、
      前記複数の抑圧係数のうちの前記推定歪エネルギが最も小さい抑圧係数と、前記推定歪エネルギが最も小さい抑圧係数に付与されたインデックスの前後のインデックスに対応する2つの抑圧係数と、を前記所定の数の抑圧係数として予備選択する、
     請求項2記載の符号化装置。
  5.  前記複数の抑圧係数は、抑圧の程度に関して昇順又は降順でインデックスが付与され、
     前記候補限定手段は、
      前記複数の抑圧係数のうちの前記推定歪エネルギが最も小さい第1の抑圧係数と、前記第1の抑圧係数に付与されたインデックスの前後のインデックスに対応する2つの抑圧係数のうち前記推定歪エネルギが小さい方の第2の抑圧係数と、を前記所定の数の抑圧係数として予備選択する、
     請求項2記載の符号化装置。
  6.  前記推定手段は、
      前記残差スペクトルの振幅の統計量に基づいて算出される閾値と、前記残差スペクトルの振幅とを比較して、前記パルスの位置を推定する、
     請求項2記載の符号化装置。
  7.  前記統計量は、少なくとも前記振幅の標準偏差を含む、
     請求項6記載の符号化装置。
  8.  前記減衰手段は、
      推定された前記パルスの位置におけるスペクトルの振幅に、0以上1未満の値を有する係数を乗算して前記振幅を減衰させる、
     請求項2記載の符号化装置。
  9.  前記推定手段は、
      前記残差スペクトルの特徴に応じて、推定する前記パルスの本数を設定し、設定された本数の前記パルスの位置を推定する、
     請求項2記載の符号化装置。
  10.  前記特徴は、前記残差スペクトルの各帯域における振幅のばらつきであり、
     前記推定手段は、
      前記パルスの本数を、前記ばらつきが大きくなるほど少なくするように設定する、
     請求項9記載の符号化装置。
  11.  前記特徴は、前記残差スペクトルのトーン性であり、
     前記推定手段は、
      前記パルスの本数を、前記トーン性が高くなるほど少なくするように設定する、
     請求項9記載の符号化装置。
  12.  前記特徴は、前記残差スペクトルの雑音性であり、
     前記推定手段は、
      前記パルスの本数を、前記雑音性が高くなるほど多くするように設定する、
     請求項9記載の符号化装置。
  13.  前記減衰手段は、
      前記残差スペクトルの特徴に応じて、推定された前記パルスの位置におけるスペクトルの振幅を減衰させる、
     請求項2記載の符号化装置。
  14.  前記特徴は、前記残差スペクトルの各帯域における振幅のばらつきであり、
     前記減衰手段は、
      前記スペクトルの減衰度合を、前記ばらつきが大きくなるほど大きくするように設定する、
     請求項13記載の符号化装置。
  15.  前記特徴は、前記残差スペクトルのトーン性であり、
     前記減衰手段は、
      前記スペクトルの減衰度合を、前記トーン性が高くなるほど大きくするように設定する、
     請求項13記載の符号化装置。
  16.  前記特徴は、前記残差スペクトルの雑音性であり、
     前記減衰手段は、
      前記スペクトルの減衰度合を、前記雑音性が高くなるほど小さくするように設定する、
     請求項13記載の符号化装置。
  17.  入力信号に対する第1の符号化により得られた第1符号を復号して生成された第1復号信号のスペクトルを出力する第1符号化ステップと、
     前記第1復号信号のスペクトルの振幅を、複数の抑圧係数の中から指示された抑圧係数を用いて抑圧して抑圧スペクトルを生成する抑圧ステップと、
     前記入力信号のスペクトルと前記抑圧スペクトルとを用いて残差スペクトルを算出する残差スペクトル算出ステップと、
     前記入力信号のスペクトルと前記残差スペクトルとを用いて、前記抑圧ステップで用いる所定の数の抑圧係数を予備選択し、前記予備選択された抑圧係数を前記指示された抑圧係数に設定する予備選択ステップと、
     前記指示された抑圧係数を前記抑圧ステップで用いて生成された抑圧スペクトルを用いて前記残差スペクトル算出ステップで算出された残差スペクトルを用いて第2の符号化を行い、前記第2の符号化により得られた第2符号を復号して生成された第2復号信号のスペクトルと、前記抑圧スペクトルと、前記入力信号のスペクトルと、を用いて、前記指示された抑圧係数の中から一つの抑圧係数を決定する第2符号化ステップと、
     を有する符号化方法。
PCT/JP2011/004960 2010-09-10 2011-09-05 符号化装置及び符号化方法 WO2012032759A1 (ja)

Priority Applications (8)

Application Number Priority Date Filing Date Title
RU2013110317/08A RU2013110317A (ru) 2010-09-10 2011-09-05 Кодирующее устройство и способ кодирования
JP2012532859A JP5679470B2 (ja) 2010-09-10 2011-09-05 符号化装置及び符号化方法
SG2013016431A SG188413A1 (en) 2010-09-10 2011-09-05 Encoder apparatus and encoding method
BR112013005683A BR112013005683A2 (pt) 2010-09-10 2011-09-05 aparelho codificador e método de codificação
AU2011300248A AU2011300248B2 (en) 2010-09-10 2011-09-05 Encoder apparatus and encoding method
US13/820,760 US9361892B2 (en) 2010-09-10 2011-09-05 Encoder apparatus and method that perform preliminary signal selection for transform coding before main signal selection for transform coding
CN201180040472.4A CN103069483B (zh) 2010-09-10 2011-09-05 编码装置以及编码方法
KR1020137005813A KR20130108281A (ko) 2010-09-10 2011-09-05 부호화 장치 및 부호화 방법

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2010-203657 2010-09-10
JP2010203657 2010-09-10

Publications (1)

Publication Number Publication Date
WO2012032759A1 true WO2012032759A1 (ja) 2012-03-15

Family

ID=45810369

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2011/004960 WO2012032759A1 (ja) 2010-09-10 2011-09-05 符号化装置及び符号化方法

Country Status (10)

Country Link
US (1) US9361892B2 (ja)
JP (1) JP5679470B2 (ja)
KR (1) KR20130108281A (ja)
CN (1) CN103069483B (ja)
AU (1) AU2011300248B2 (ja)
BR (1) BR112013005683A2 (ja)
RU (1) RU2013110317A (ja)
SG (1) SG188413A1 (ja)
TW (1) TW201218188A (ja)
WO (1) WO2012032759A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013051210A1 (ja) * 2011-10-07 2013-04-11 パナソニック株式会社 符号化装置及び符号化方法

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2581904B1 (en) * 2010-06-11 2015-10-07 Panasonic Intellectual Property Corporation of America Audio (de)coding apparatus and method
US8914515B2 (en) * 2011-10-28 2014-12-16 International Business Machines Corporation Cloud optimization using workload analysis
PL2951820T3 (pl) * 2013-01-29 2017-06-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Urządzenie i sposób wyboru jednego spośród pierwszego algorytmu kodowania i drugiego algorytmu kodowania
EP3503095A1 (en) 2013-08-28 2019-06-26 Dolby Laboratories Licensing Corp. Hybrid waveform-coded and parametric-coded speech enhancement
KR101826237B1 (ko) * 2014-03-24 2018-02-13 니폰 덴신 덴와 가부시끼가이샤 부호화 방법, 부호화 장치, 프로그램 및 기록 매체
CN107851442B (zh) * 2015-04-13 2021-07-20 日本电信电话株式会社 匹配装置、判定装置、它们的方法、程序及记录介质
US10325588B2 (en) 2017-09-28 2019-06-18 International Business Machines Corporation Acoustic feature extractor selected according to status flag of frame of acoustic signal

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007043648A1 (ja) * 2005-10-14 2007-04-19 Matsushita Electric Industrial Co., Ltd. 変換符号化装置および変換符号化方法
WO2008072733A1 (ja) * 2006-12-15 2008-06-19 Panasonic Corporation 符号化装置および符号化方法
JP2009042739A (ja) * 2007-03-02 2009-02-26 Panasonic Corp 符号化装置、復号装置およびそれらの方法
JP2009094666A (ja) * 2007-10-05 2009-04-30 Nippon Telegr & Teleph Corp <Ntt> 多重ベクトル量子化方法、装置、プログラム及びその記録媒体
US20090112607A1 (en) 2007-10-25 2009-04-30 Motorola, Inc. Method and apparatus for generating an enhancement layer within an audio coding system
JP2010203657A (ja) 2009-03-03 2010-09-16 Kanazawa Inst Of Technology 住宅換気システム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6263312B1 (en) * 1997-10-03 2001-07-17 Alaris, Inc. Audio compression and decompression employing subband decomposition of residual signal and distortion reduction
BRPI0612579A2 (pt) * 2005-06-17 2012-01-03 Matsushita Electric Ind Co Ltd pàs-filtro, decodificador e mÉtodo de pàs-filtraÇço
CN101273404B (zh) * 2005-09-30 2012-07-04 松下电器产业株式会社 语音编码装置以及语音编码方法
JP4708446B2 (ja) 2007-03-02 2011-06-22 パナソニック株式会社 符号化装置、復号装置およびそれらの方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007043648A1 (ja) * 2005-10-14 2007-04-19 Matsushita Electric Industrial Co., Ltd. 変換符号化装置および変換符号化方法
WO2008072733A1 (ja) * 2006-12-15 2008-06-19 Panasonic Corporation 符号化装置および符号化方法
JP2009042739A (ja) * 2007-03-02 2009-02-26 Panasonic Corp 符号化装置、復号装置およびそれらの方法
JP2009094666A (ja) * 2007-10-05 2009-04-30 Nippon Telegr & Teleph Corp <Ntt> 多重ベクトル量子化方法、装置、プログラム及びその記録媒体
US20090112607A1 (en) 2007-10-25 2009-04-30 Motorola, Inc. Method and apparatus for generating an enhancement layer within an audio coding system
JP2010203657A (ja) 2009-03-03 2010-09-16 Kanazawa Inst Of Technology 住宅換気システム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
TOMOFUMI YAMANASHI ET AL.: "ITU-T G.718- development of speech/audio codec for next- generation mobile communication systems", PANASONIC TECHNICAL JOURNAL, vol. 55, no. 1, 15 April 2009 (2009-04-15), pages 21 - 26 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013051210A1 (ja) * 2011-10-07 2013-04-11 パナソニック株式会社 符号化装置及び符号化方法
JPWO2013051210A1 (ja) * 2011-10-07 2015-03-30 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 符号化装置及び符号化方法
US9558752B2 (en) 2011-10-07 2017-01-31 Panasonic Intellectual Property Corporation Of America Encoding device and encoding method

Also Published As

Publication number Publication date
AU2011300248B2 (en) 2014-05-15
AU2011300248A1 (en) 2013-03-28
SG188413A1 (en) 2013-04-30
TW201218188A (en) 2012-05-01
BR112013005683A2 (pt) 2018-01-23
KR20130108281A (ko) 2013-10-02
CN103069483B (zh) 2014-10-22
US9361892B2 (en) 2016-06-07
JPWO2012032759A1 (ja) 2014-01-20
JP5679470B2 (ja) 2015-03-04
RU2013110317A (ru) 2014-10-20
US20130166308A1 (en) 2013-06-27
CN103069483A (zh) 2013-04-24

Similar Documents

Publication Publication Date Title
JP5679470B2 (ja) 符号化装置及び符号化方法
EP1806736B1 (en) Scalable encoding apparatus, scalable decoding apparatus, and methods thereof
JP5173800B2 (ja) 音声符号化装置、音声復号化装置、およびこれらの方法
KR101343267B1 (ko) 주파수 세그먼트화를 이용한 오디오 코딩 및 디코딩을 위한 방법 및 장치
US8099275B2 (en) Sound encoder and sound encoding method for generating a second layer decoded signal based on a degree of variation in a first layer decoded signal
KR20080049085A (ko) 음성 부호화 장치 및 음성 부호화 방법
KR20080047443A (ko) 변환 부호화 장치 및 변환 부호화 방법
MXPA05006664A (es) Metodo y dispositivo para la cuantizacion robusta de vector predictivo de parametros de prediccion lineal en la codificacion de conversacion a velocidad variable de bits.
KR20090087920A (ko) 부호화 장치, 복호 장치 및 이들의 방법
KR102072365B1 (ko) 고급 양자화기
CN102119414A (zh) 用于在超帧中量化和逆量化线性预测系数滤波器的设备和方法
US8898057B2 (en) Encoding apparatus, decoding apparatus and methods thereof
WO2011086923A1 (ja) 符号化装置、復号装置、スペクトル変動量算出方法及びスペクトル振幅調整方法
JP5711733B2 (ja) 復号装置、符号化装置及びこれらの方法
WO2013051210A1 (ja) 符号化装置及び符号化方法
JP2003233397A (ja) オーディオ符号化装置、オーディオ符号化プログラム及びオーディオ符号化データ伝送装置
US9640191B2 (en) Apparatus and method for processing an encoded signal and encoder and method for generating an encoded signal
KR20060064694A (ko) 디지털 음성 코더들에서의 고조파 잡음 가중
WO2012053146A1 (ja) 符号化装置及び符号化方法
Nagisetty et al. Super-wideband fine spectrum quantization for low-rate high-quality MDCT coding mode of the 3GPP EVS codec

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 201180040472.4

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11823238

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2012532859

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 13820760

Country of ref document: US

ENP Entry into the national phase

Ref document number: 20137005813

Country of ref document: KR

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 2011823238

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2011300248

Country of ref document: AU

Date of ref document: 20110905

Kind code of ref document: A

ENP Entry into the national phase

Ref document number: 2013110317

Country of ref document: RU

Kind code of ref document: A

REG Reference to national code

Ref country code: BR

Ref legal event code: B01A

Ref document number: 112013005683

Country of ref document: BR

ENP Entry into the national phase

Ref document number: 112013005683

Country of ref document: BR

Kind code of ref document: A2

Effective date: 20130308