WO2006035705A1 - スケーラブル符号化装置およびスケーラブル符号化方法 - Google Patents

スケーラブル符号化装置およびスケーラブル符号化方法 Download PDF

Info

Publication number
WO2006035705A1
WO2006035705A1 PCT/JP2005/017618 JP2005017618W WO2006035705A1 WO 2006035705 A1 WO2006035705 A1 WO 2006035705A1 JP 2005017618 W JP2005017618 W JP 2005017618W WO 2006035705 A1 WO2006035705 A1 WO 2006035705A1
Authority
WO
WIPO (PCT)
Prior art keywords
channel
encoding
signal
parameter
monaural
Prior art date
Application number
PCT/JP2005/017618
Other languages
English (en)
French (fr)
Inventor
Michiyo Goto
Koji Yoshida
Original Assignee
Matsushita Electric Industrial Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co., Ltd. filed Critical Matsushita Electric Industrial Co., Ltd.
Priority to JP2006537715A priority Critical patent/JP4555299B2/ja
Priority to US11/576,004 priority patent/US20080255832A1/en
Priority to EP05786017A priority patent/EP1801782A4/en
Priority to BRPI0516201-7A priority patent/BRPI0516201A/pt
Publication of WO2006035705A1 publication Critical patent/WO2006035705A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding

Definitions

  • the present invention relates to a scalable encoding device and a scalable encoding method for realizing a scalable code for a stereo audio signal by means of a code based on CELP (hereinafter, sometimes simply referred to as CELP encoding). .
  • Non-Patent Document 1 discloses an example of a scalable coding device having this function.
  • Non-patent literature l ISO / IEC 14496-3: 1999 (B.14 Scalable AAC with core coder) Invention disclosure
  • Non-Patent Document 1 discloses that the CELP method is applied, particularly in the enhancement layer. A specific configuration in the case of applying the CELP code key is not shown. Even if the CELP code key optimized for an unexpected speech signal is applied as it is, the desired code key is not changed. It is difficult to get efficiency.
  • an object of the present invention is to realize scalable coding with a CELP code key for a stereo audio signal and improve the code key efficiency, and the scalable code key device and the scalable code key. Is to provide a method.
  • the scalable encoding device includes a generation unit that generates a monaural audio signal from a stereo audio signal, and a first encoding unit that obtains an encoding parameter of the mono audio signal by encoding the monaural audio signal by a CELP method.
  • the coding means and the difference between the R channel or the L channel of the stereo audio signal is set as a channel to be coded, and the coding pair
  • the difference between the nomometer obtained by performing linear prediction analysis and adaptive excitation codebook search on the elephant channel and the encoding parameter of the monaural speech signal is obtained, and the difference parameter is used to determine the encoding parameter of the encoding target channel.
  • a second encoding means to be obtained.
  • FIG. 1 is a block diagram showing the main configuration of the scalable coding apparatus according to Embodiment 1.
  • FIG. 2 is a diagram showing the relationship between a monaural signal, a first channel signal, and a second channel signal.
  • 3 Block diagram showing the main configuration inside the CELP code key section according to Embodiment 1
  • IV Block diagram showing the main configuration inside the first channel difference information code key section according to Embodiment 1
  • FIG. 5 is a block diagram showing the main configuration of the scalable code generator according to the second embodiment.
  • FIG. 6 is a block diagram showing the main configuration inside the second channel differential information code input unit according to the second embodiment.
  • FIG. 1 is a block diagram showing the main configuration of scalable coding apparatus 100 according to Embodiment 1 of the present invention.
  • the scalable code key device 100 includes an adder 101, a multiplier 102, a CELP code key unit 103, and a first channel difference information code key unit 104.
  • Each unit of the scalable coding apparatus 100 performs the following operations.
  • Adder 101 adds first channel signal CH1 and second channel signal CH2 input to scalable coding apparatus 100, and generates a sum signal.
  • Multiplier 102 Multiply the signal by 1Z2 to halve the scale and generate a monaural signal M. That is, the adder 101 and the multiplier 102 obtain an average signal of the first channel signal CH1 and the second channel signal CH2 and set it as the monaural signal M.
  • CELP coding section 103 performs CELP coding on monaural signal M, and obtains CELP code parameter of the obtained monaural signal from scalable coding apparatus 100 and first channel difference information. Output to the sign key unit 104.
  • the CELP code key parameters are LSP parameters, adaptive excitation codebook index, adaptive excitation gain, fixed excitation codebook index, and fixed excitation gain.
  • the first channel differential information encoding unit 104 encodes the first channel signal CH1 input to the scalable encoding unit 100 according to CELP encoding, that is, linear prediction analysis, adaptive Encoding by excitation codebook search and fixed excitation codebook search is performed, and the difference between the encoding parameter obtained in this process and the CELP encoding parameter output from CELP code encoder 103 is obtained. If this code is also simply referred to as a CELP code key, the above processing is different from the monaural signal M and the first channel signal CH1 at the CELP code key parameter level (step). It is equivalent to taking. Then, the first channel difference information encoding unit 104 encodes the difference information (first channel difference information) regarding the first channel, and encodes the obtained first channel difference information. Output to the outside of the scalable encoder 100.
  • CELP encoding that is, linear prediction analysis, adaptive Encoding by excitation codebook search and fixed excitation codebook search is performed, and the difference between the encoding parameter obtained in this process and the CELP en
  • One feature of the scalable code encoder 100 is that an adder 101, a multiplier 102, and a CELP code encoder 103 are used to convert the first layer into the first channel difference information encoder 104. Therefore, the second layer is configured, and the first layer power is also output as a monaural signal code key parameter, and is decoded together with the first layer (monaural signal) code key parameter. Thus, a coding parameter that can obtain a stereo signal is output. That is, the scalable coding apparatus according to the present embodiment realizes a scalable coding that includes a monaural signal and a stereo signal.
  • the decoding device that acquires the coding parameters that also have the first layer and second layer powers described above may be a scalable decoding device that supports both stereo communication and monaural communication, or monaural communication.
  • the decoding device corresponding only to the above may be used.
  • the second layer code parameter cannot be obtained due to the deterioration of the transmission path environment. There may be cases where only the data can be acquired. However, even when powerful, this scalable decoding device can decode a monaural signal although the quality is low.
  • the scalable decoding apparatus can acquire the first layer and second layer code key parameters, a high-quality stereo signal can be decoded using both parameters.
  • FIG. 2 is a diagram showing the relationship between the monaural signal, the first channel signal, and the second channel signal, comparing the states before and after the sign ⁇ .
  • the monaural signal M can be obtained by multiplying the sum of the first channel signal CH1 and the second channel signal CH2 by 1 Z2, that is, by the following (Equation 1).
  • the second channel signal CH2 has the following relationship (Equation 3), where ⁇ CH2 is the difference between CH2 and monaural signal M (second channel signal difference).
  • Equation 4 means that the first channel difference information and the second channel difference information after encoding are approximate to be equal in size, in other words, the first channel and the second channel difference information. It is to be approximated that the sign distortion of both channels is equal when the two channels are signed. Actually, these code distortions do not differ greatly even in the actual machine. Therefore, even if the code distortion is performed while ignoring the difference between the first channel and the second channel, the sound quality of the decoded signal is reduced. It can be considered that it does not lead to a large deterioration of the.
  • scalable code encoder 100 outputs two code parameters, M and A CH1, using the above principle.
  • the decoding apparatus that has obtained these can decode M and A CHl to decode not only CH1, but also CH2.
  • FIG. 3 is a block diagram showing the main configuration inside CELP code key section 103.
  • the CELP encoding unit 103 includes an LPC analysis unit 111, an LPC quantization unit 112, an LPC synthesis filter 113, an adder 114, an auditory weighting unit 115, a distortion minimizing unit 116, an adaptive excitation codebook 117, and multiplication.
  • LPC analysis section 111 performs linear prediction analysis on monaural signal M output from multiplier 102, and outputs an LPC parameter as an analysis result to LPC quantization section 112 and auditory weighting section 115. .
  • the LPC quantization unit 112 converts the LPC parameter output from the LPC analysis unit 111 into an LSP parameter suitable for quantization, and then quantizes, and the obtained quantized LSP parameter (C) is CELP coded signal. Output to outside of part 103.
  • This quantized LSP parameter is one of the CELP code key parameters obtained by the CELP code key unit 103. Further, the LPC quantization unit 112 reconverts the quantized LSP parameter into a quantized LPC parameter, and then outputs this to the LPC synthesis filter 113.
  • the LPC synthesis filter 113 is a quantization LPC parameter output from the LPC quantization unit 112. Is used to perform synthesis by an LPC synthesis filter using the excitation vector generated by the adaptive excitation codebook 117 and the fixed excitation codebook 119 described later as a driving excitation.
  • the resultant composite signal is output to adder 114.
  • Adder 114 calculates the error signal by inverting the polarity of the synthesized signal output from LPC synthesis filter 113 and adding it to monaural signal M, and outputs this error signal to auditory weighting section 115. .
  • This error signal corresponds to coding distortion.
  • the perceptual weighting unit 115 uses an perceptual weighting filter configured based on the LPC parameters output from the LPC analysis unit 111, and is perceptual to the sign-distortion output from the adder 114. Weighting is performed, and this signal is output to distortion minimizing section 116.
  • Distortion minimizing section 116 is adapted for adaptive excitation codebook 117, fixed excitation codebook 119, and gain codebook 121 so that the code distortion output from perceptual weighting section 115 is minimized. Specify various parameters. Specifically, distortion minimizing section 116 instructs adaptive excitation codebook 117, fixed excitation codebook 119, and gain codebook 121 to use (C 1, C 2, C 3).
  • Adaptive excitation codebook 117 stores the excitation vector of the excitation source for LPC synthesis filter 113 generated in the past in an internal buffer, and it corresponds to the adaptation indicated by the distortion minimizing unit 116.
  • One subframe is generated from the stored sound source vector based on the sound source lag, and is output to the multiplier 118 as an adaptive sound source vector.
  • Fixed excitation codebook 119 outputs the excitation vector corresponding to the index instructed from distortion minimizing section 116 to multiplier 120 as a fixed excitation vector.
  • Gain codebook 121 is a gain corresponding to the index instructed from distortion minimizing section 116, specifically, an adaptive excitation vector from adaptive excitation codebook 117, and a fixed code from fixed excitation codebook 119 Each gain for the sound source vector is generated and output to multipliers 118 and 120, respectively.
  • Multiplier 118 multiplies the adaptive excitation gain output from gain codebook 121 by the adaptive excitation vector output from adaptive excitation codebook 117 and outputs the result to adder 122.
  • Multiplier 120 multiplies the fixed excitation vector output from fixed excitation codebook 119 by the fixed excitation gain output from gain codebook 121 and outputs the result to adder 122.
  • Adder 122 adds the adaptive excitation vector output from multiplier 118 and the fixed excitation vector output from multiplier 120, and uses the added excitation vector as a driving excitation to LPC synthesis filter 113. Output. The adder 122 feeds back the obtained excitation excitation excitation vector to the adaptive excitation codebook 117.
  • the LPC synthesis filter 113 performs LPC synthesis using the excitation vector output from the adder 122, that is, the excitation vector generated by the adaptive excitation codebook 117 and the fixed excitation codebook 119 as a driving excitation. Performs synthesis using a filter.
  • FIG. 4 is a block diagram showing a main configuration inside first channel differential information code key section 104.
  • the first channel difference information encoding unit 104 encodes the sound source component parameter and the spectrum envelope component parameter of the first channel signal CH 1 as a difference from the monaural signal M.
  • the parameters of the excitation component are the adaptive excitation codebook index, the adaptive excitation source code, the fixed excitation codebook index, and the fixed excitation gain.
  • the parameter of the vector envelope component is an LPC analysis. It is the LPC parameter obtained by doing.
  • an LPC analysis unit 131 In the first channel difference information encoding unit 104, an LPC analysis unit 131, an LPC synthesis filter 133, an adder 134, an auditory weighting unit 135, a distortion minimizing unit 136, a multiplier 138, a multiplier 140, and
  • the adder 142 is the LPC analysis unit 111, the LPC synthesis filter 113, the adder 114, the perceptual weighting unit 115, the distortion minimization unit 116, the multiplier 118, the multiplier 120, and the adder in the CELP encoding unit 103. Since the configuration is the same as that of 122, the description thereof will be omitted, and the configuration different from CELP code key 103 will be described in detail below.
  • the differential quantization unit 132 receives the LPC parameter ⁇ (i) of the first channel signal CH1 obtained by the LPC analysis unit 131, and the LP C parameter of the monaural signal M already obtained by the CELP coding unit 103 ( C) to obtain the difference from the first channel by quantizing the difference.
  • the differential quantization unit 132 outputs the quantization parameter ⁇ (i) of the LPC parameter of the first channel signal to the LPC synthesis filter 133.
  • gain codebook 143 Based on the gain codebook index for monaural signal output from CELP code key unit 103, gain codebook 143 generates an adaptive excitation gain and a fixed excitation gain corresponding thereto, and performs multiplication. Output to devices 138 and 140 respectively.
  • Adaptive excitation codebook 137 accumulates the driving excitation generated in the past subframe in the internal buffer. In the case of voiced sound, the adaptive excitation codebook 137 has a strong correlation with the driving excitation waveform of the pitch waveform of the current frame. A driving sound source is cut out and a signal obtained by periodically repeating it is defined as a first approximation as a driving sound source. The adaptive excitation codebook 137 encodes this pitch period, that is, the adaptive excitation lag. In particular, adaptive excitation codebook 137 encodes the pitch period of CH1 as a difference from the pitch period of monaural signal M already encoded by CELP code encoder 103.
  • the monaural signal M is a signal generated from the first channel signal CH1 and the second channel signal CH2, and thus is considered to be highly similar to the first channel signal CH1. That is, rather than performing a new adaptive excitation codebook search for the first channel signal CH1, the first channel signal CH1 is used as a difference from this pitch period on the basis of the pitch period obtained for the monaural signal M. This is because it is considered that the sign cycle efficiency is higher when the pitch period is expressed. Specifically, from the pitch period T already calculated for the monaural signal and its value
  • the pitch parameter T of CH1 is expressed by the following (Equation 6), and the difference parameter ⁇ T when the optimum T is obtained by adaptive excitation codebook search for CH1 is encoded.
  • Fixed excitation codebook 139 is used for the residual component that cannot be approximated by the excitation signal generated based on the past excitation in adaptive excitation codebook 137 among the excitation components of the current frame. Generate a sound source signal that represents the component. This residual component contributes relatively less to the synthesized signal than the component generated by adaptive excitation codebook 137. As already mentioned, the similarity between the monaural signal M and the first channel signal CH1 is high. Therefore, fixed excitation codebook 139 uses the fixed excitation codebook index for monaural signal M used in fixed excitation codebook 119 as the fixed excitation codebook index of CH1. This corresponds to making the fixed source vector of CH1 the same signal as the fixed source vector of the monaural signal.
  • the gain codebook 141 specifies the gain of the adaptive excitation vector for CH1 by two parameters: an adaptive excitation gain for monaural signals and a coefficient by which this adaptive excitation gain is multiplied. The same applies to the gain of the fixed excitation vector for CH1, and the gain codebook 141 uses the two parameters of the fixed excitation gain for monaural signal and the coefficient to be multiplied by this fixed excitation gain to determine the gain of the fixed excitation vector for CH1. Is identified. Moreover, these two coefficients are determined as a common gain multiplier value ⁇ and output to the multiplier 144. ⁇ is determined by selecting the optimal gain index for the CH1 gain codebook power prepared in advance so that the error between the CH1 composite signal and the CH1 original signal is minimized.
  • the multiplier 144 multiplies the driving sound source ex ′ output from the adder 142 by ⁇ to obtain ex, and outputs the result to the LPC synthesis filter 133.
  • a monaural signal is generated from the first channel signal CH1 and the second channel signal CH2 constituting a stereo signal, CELP encoding of the monaural signal is performed, and When encoding CH1, encoding is performed as the difference from the CELP parameter of the monaural signal. Therefore, it is possible to realize a stereo signal with a low bit rate and good quality.
  • the ACH1 coding method uses a CELP coding parameter of a monaural signal and a difference parameter for the monaural signal, and generates a combined signal of CH1 and an original signal of CH1.
  • the difference parameter of the CELP code Determine the data.
  • the second layer code target is obtained by adding a difference at the CELP code parameter stage, not the difference in the waveform between the monaural signal and the first channel signal. is there.
  • CELP code ⁇ is a technology that performs coding by modeling the human vocal cords' vocal tract in the first place, and if the difference is taken on the waveform, the obtained difference information is the model of CELP code ⁇ . This is because it will be considered as something that does not physically correspond. Therefore, since it is considered that efficient coding cannot be performed by CELP coding performed on the difference on the waveform, the present invention takes the difference at the CELP code parameter stage.
  • the decoding apparatus that has received the code parameter generated by the scalable coding apparatus according to the present embodiment obtains a decoded signal by calculating the received coding parameter power of ⁇ CH1 (Equation 5). That's right.
  • fixed excitation codebook 139 uses the same index as fixed excitation codebook 119, that is, fixed excitation codebook 139 is the same as the fixed excitation vector for monaural signals.
  • the case where the fixed sound source vector is generated has been described as an example.
  • the present invention is not limited to this.
  • a fixed excitation codebook search is performed on the fixed excitation codebook 139. It is also possible to obtain a fixed excitation codebook index to be added for CH1. In this case, although the code key bit rate is increased, a higher-quality CH1 code key can be realized.
  • the coefficient multiplied by the adaptive excitation gain and the coefficient multiplied by the fixed excitation gain are common, such as ⁇ output from gain codebook 141.
  • these two coefficients need not be common.
  • the coefficient multiplied by the adaptive sound source gain is ⁇
  • y is determined in advance so that the error between the synthesized signal of CH1 and the original signal of CH1 is minimized, as in the case of common gain.
  • the optimum gain index is selected from the CHI gain codebook provided.
  • the method for determining ⁇ is the same as the method for determining ⁇ , and the synthesized signal of CH2 and the source of CH2
  • the optimum gain index is selected from the CH2 gain codebook prepared in advance so that the error with the signal is minimized.
  • the first channel code distortion is approximately equal to the second channel code distortion, and the first layer and the second layer perform the code delay.
  • the configuration of the “scalable coding system” is shown.
  • a third layer is newly provided in order to encode CH2 with higher accuracy.
  • encoding of the difference in code distortion between the first channel and the second channel is performed. More specifically, there is a configuration in which a difference between the coding distortion included in the first channel difference information and the coding distortion included in the second channel difference information is further encoded and output as new encoded information. Show.
  • the coding method of A CH2 ' is the CHLP CELP code that is estimated using both the CELP coding parameter of the monaural signal and the differential CELP parameter coded in the second layer.
  • the above correction parameters are determined so that the error between the CH2 composite signal generated by these parameters and the CH2 original signal is minimized.
  • the CELP code of the difference itself on the waveform is not performed, and the reason is the same as in the first embodiment.
  • FIG. 5 is a block diagram showing the main configuration of scalable coding apparatus 200 according to Embodiment 2 of the present invention.
  • This scalable coding apparatus 200 has the same basic configuration as scalable coding apparatus 100 shown in Embodiment 1, and the same components are denoted by the same reference numerals, and the description thereof will be given. Omitted.
  • the new configuration is the second channel difference information code unit 201 that constitutes the third layer.
  • FIG. 6 is a block diagram showing the main configuration inside second channel difference information code key section 201.
  • this second channel difference information code section 201 LPC analysis section 211, difference quantization section 212, LPC synthesis filter 213, adder 214, perceptual weighting section 215, distortion minimization section 216, Adaptive excitation codebook 217, multiplier 218, fixed excitation codebook 219, multiplier 220, gain codebook 221, adder 222, gain codebook 223, and multiplier 224 are the first channel difference information code Lump analysis unit 131, differential quantization unit 132, LPC synthesis filter 133, adder 134, perceptual weighting unit 135, distortion minimization unit 136, adaptive excitation codebook 137, multiplier 138, fixed excitation code Since the configuration is the same as that of the book 139, the multiplier 140, the gain code book 141, the adder 142, the gain code book 143, and the multiplier 144, description thereof will be omitted.
  • the second channel lag parameter estimation unit 225 includes the pitch period T of the monaural signal and CH1
  • the pitch period (adaptive excitation lag) of CH2 is predicted using ⁇ which is the CELP code key parameter of, and the predicted value T ′ is output to the adaptive excitation codebook 217.
  • the encoding parameter ⁇ is the pitch period T of CH1 with respect to the pitch period T of the monaural signal.
  • the second channel LPC parameter estimation unit 226 outputs the LPC parameter ⁇ (i) of the monaural signal.
  • the LPC parameter ⁇ (i) of CHI is used to predict the LPC parameter of CH2, and the predicted value ⁇ ′ (i) is output to the differential quantization unit 212.
  • the second channel sound source gain estimation unit 227 uses the fact that the driving sound source of the monaural signal is obtained from the driving sound sources of CH1 and CH2 by the above (Equation 1), and the gain multiplier value of CH1 The multiplier value is predicted by back calculation, and the predicted value ⁇ is output to the multiplier 228.
  • This predicted value ⁇ is the second channel excitation gain output from the gain codebook 221. Multiplied by ⁇ .
  • the closed-loop encoding controlled by the distortion minimizing unit 216 that is, the method of encoding the pitch period (adaptive excitation lag) ⁇ of the second channel signal CH2 has already been encoded.
  • the pitch period ⁇ of CH2 is determined by its predicted value ⁇ and its correction value ⁇ .
  • the scalable coding apparatus searches the adaptive excitation codebook for CH2 and codes the correction parameter ⁇ when obtaining the optimum ⁇ .
  • Fixed excitation codebook 219 is the same as fixed excitation codebook 139 of first channel difference information encoding section 104, but in the excitation signal generated by adaptive excitation codebook 217 among the excitation components of the current frame. A sound source signal for a residual component that cannot be approximated is generated. Similarly to fixed excitation codebook 139, fixed excitation codebook 219 uses the fixed excitation codebook index of monaural signal ⁇ ⁇ ⁇ as the CH2 fixed excitation codebook index. That is, the fixed sound source vector of CH2 is the same signal as the fixed sound source vector of the monaural signal.
  • a fixed excitation codebook search is performed for fixed excitation codebook 219.
  • a fixed excitation codebook index to be added for CH2 may be obtained. In this case, the encoding bit rate increases, but CH2 encoding with higher sound quality can be realized.
  • the gain codebook 221 is a gain multiplier y that multiplies the gain of the sound source vector for CH2 by both the adaptive sound source gain for monaural signal and the gain of the fixed sound source vector.
  • the gain codebook 221 includes a gain for monaural signals in the CELP code key unit 103, and a gain multiplier value ⁇ for CH1 in the first channel difference information code key unit 104.
  • the correction value ⁇ ⁇ is the pattern prepared in the gain codebook.
  • the gain codebook 221 first determines the gain multiplier value ⁇ for CH2 as CHI
  • the gain codebook search is performed for the correction coefficient ⁇ for obtaining the optimal ⁇ for CH2.
  • ⁇ ⁇ is the monaural gain and monaural at CHI.
  • the spectral envelope component is obtained by performing LPC analysis of the CH2 signal to obtain the LPC parameter, and the difference component of the LPC parameter of the monaural signal and the LPC parameter of CH1 with respect to the LPC parameter of the monaural signal already obtained. Using this, the LPC parameter of CH2 is estimated, and the correction component (error component) of the estimated parameter force is quantized to obtain the spectral envelope component parameter of C 2.
  • Equation 17 ⁇ ⁇ ( ⁇ ) ( ⁇ ( ⁇ ) + ⁇ 2 ( ⁇ )) (Equation 2 3)
  • Equation 24 The LSP parameter ⁇ (i) of CH1 is expressed by the following (Equation 24).
  • the CH2 LSP ⁇ (i) is converted to its predicted value ⁇ , (i) and its correction ⁇ ⁇ (i
  • the scalable code generator according to this embodiment is represented by ⁇ (i)
  • ⁇ ⁇ (i) that minimizes the quantization error is signed.
  • ⁇ ⁇ (i) is the mono LSP parameter
  • the difference from the estimated value estimated using the difference parameter ⁇ ⁇ (i) for monaural data is smaller than ⁇ ⁇ (i) and is a more efficient code. It can be performed.
  • the CELP code parameter of the monaural signal and the difference CELP parameter coded in the second layer are both parameters.
  • the correction parameters described above are used so that the error between the CH2 synthesized signal generated by these and the CH2 original signal is minimized. To decide. Therefore, CH2 can be encoded and decoded with higher accuracy.
  • the force with the monaural signal M as the average signal of CH1 and CH2 is not necessarily limited to this! /.
  • the adaptive excitation codebook may be referred to as an adaptive codebook.
  • the fixed excitation codebook is sometimes called a fixed codebook, a noise codebook, a stochastic codebook, or a random codebook.
  • the scalable coding apparatus according to the present invention is not limited to the above embodiments, and can be implemented with various modifications.
  • the scalable coding apparatus according to the present invention can also be mounted on a communication terminal apparatus and a base station apparatus in a mobile communication system, and thereby a communication terminal apparatus having the same effects as described above, and A base station apparatus can be provided.
  • Each functional block used in the description of each of the above embodiments is typically realized as an LSI which is an integrated circuit. These may be individually integrated into one chip, or part of them. Or it ’s okay to make it a chip to include everything!
  • the method of circuit integration is not limited to LSI's, and implementation using dedicated circuitry or general purpose processors is also possible. It is also possible to use a field programmable gate array (FPGA) that can be programmed after LSI manufacturing, or a reconfigurable processor that can reconfigure the connection or setting of circuit cells inside the LSI.
  • FPGA field programmable gate array
  • a scalable coding method and a scalable coding method according to the present invention are used in a mobile communication system, such as a communication terminal device, a base station device, etc., that performs scalable coding on a stereo signal. Applicable to.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

 ステレオ音声信号に対し、CELP符号化によるスケーラブル符号化を実現し、符号化効率を向上させることができるスケーラブル符号化装置を開示する。この装置において、加算器(101)および乗算器(102)は、第1チャネル信号CH1および第2チャネル信号CH2の平均を求め、モノラル信号Mとする。CELP符号化部(103)は、モノラル信号Mに対しCELP符号化を行う。第1チャネル差分情報符号化部(104)は、第1チャネル信号CH1に対してCELP符号化に準じた符号化を行い、この過程で得られる符号化パラメータと、CELP符号化部(103)から出力される符号化パラメータとの差分を求める。そして、第1チャネル差分情報符号化部(104)は、この差分に対して符号化を行い、得られた符号化パラメータを出力する。

Description

明 細 書
スケーラブル符号化装置およびスケーラブル符号化方法
技術分野
[0001] 本発明は、ステレオ音声信号に対し、 CELP方式による符号ィ匕(以下、単に CELP 符号化と略すことがある)によってスケーラブル符号ィ匕を実現するスケーラブル符号 化装置およびスケーラブル符号化方法に関する。
背景技術
[0002] 携帯電話機による通話のように、移動体通信システムにおける音声通信では、現在 、モノラル方式による通信 (モノラル通信)が主流である。しかし、今後、第 4世代の移 動体通信システムのように、伝送レートのさらなる高ビットレートイ匕が進めば、複数チヤ ネルを伝送するだけの帯域を確保できるようになるため、音声通信にぉ 、てもステレ ォ方式による通信 (ステレオ通信)が普及することが期待される。
[0003] 例えば、音楽を HDD (ノヽードディスク)搭載の携帯オーディオプレーヤに記録し、こ のプレーヤにステレオ用のイヤホンやヘッドフォン等を装着してステレオ音楽を楽し むユーザが増えている現状を考えると、将来、携帯電話機と音楽プレーヤとが結合し 、ステレオ用のイヤホンやヘッドフォン等の装備を利用しつつ、ステレオ方式による音 声通信を行うライフスタイルが一般的になることが予想される。また、最近普及しつつ ある TV会議等の環境において、臨場感ある会話を可能とするため、やはりステレオ 通信が行われるよう〖こなることが予想される。
[0004] ところが、ステレオ通信が普及しても、依然としてモノラル通信も行われると予想され る。何故なら、モノラル通信は低ビットレートであるため通信コストが安くなることが期 待され、また、モノラル通信のみに対応した携帯電話機は回路規模が小さくなるため 安価となり、高品質な音声通信を望まないユーザは、モノラル通信のみに対応した携 帯電話機を購入するだろうからである。よって、一つの通信システム内において、ステ レオ通信に対応した携帯電話機とモノラル通信に対応した携帯電話機とが混在する ようになり、通信システムは、これらステレオ通信およびモノラル通信の双方に対応す る必要性が生じる。 [0005] また、移動体通信システムは無線信号によって通信データをやりとりするため、伝搬 路環境によっては通信データの一部を失う場合がある。そこで、力かる場合でも残り の受信データ力 元の通信データを復元することができる機能を携帯電話機が有し ていれば非常に有用である。
[0006] ステレオ通信およびモノラル通信の双方に対応することができ、かつ、通信データ の一部を失っても残りの受信データ力 元の通信データを復元することができる機能 として、ステレオ信号とモノラル信号とからなるスケーラブル符号ィ匕がある。この機能 を有したスケーラブル符号ィ匕装置の例として、例えば、非特許文献 1に開示されたも のがある。
非特許文献 l : ISO/IEC 14496-3:1999 (B.14 Scalable AAC with core coder) 発明の開示
発明が解決しょうとする課題
[0007] しかしながら、非特許文献 1に開示のスケーラブル符号ィ匕装置は、オーディオ信号 を対象にしたものであり音声信号は想定していないため、音声信号に対しそのまま適 用すると、符号ィ匕効率が低下するという問題がある。すなわち、音声信号に対しては 、効率的な符号ィ匕が可能な CELP符号ィ匕を適用することが望まれるが、非特許文献 1には、 CELP方式を適用した場合の、特に拡張レイヤにおいて CELP符号ィ匕を適 用する場合の具体的な構成は示されておらず、想定外である音声信号に対して最適 化されている CELP符号ィ匕をそのまま適用しても、望ましい符号ィ匕効率を得るのは困 難である。
[0008] よって、本発明の目的は、ステレオ音声信号に対し、 CELP符号ィ匕によるスケーラ ブル符号化を実現し、符号ィ匕効率を向上させることができるスケーラブル符号ィ匕装置 およびスケーラブル符号ィ匕方法を提供することである。
課題を解決するための手段
[0009] 本発明のスケーラブル符号化装置は、ステレオ音声信号からモノラル音声信号を 生成する生成手段と、前記モノラル音声信号を CELP方式で符号化して前記モノラ ル音声信号の符号化パラメータを得る第 1の符号化手段と、前記ステレオ音声信号 の Rチャネルまたは Lチャネルの 、ずれかを符号化対象チャネルとし、前記符号化対 象チャネルに対し線形予測分析および適応音源符号帳探索を行って得られるノ メ ータと前記モノラル音声信号の符号化パラメータとの差分をとり、前記差分力 前記 符号化対象チャネルの符号化パラメータを得る第 2の符号化手段と、を具備する構 成を採る。
発明の効果
[0010] 本発明によれば、ステレオ音声信号に対し、 CELP符号ィ匕によるスケーラブル符号 化を実現することができ、符号ィ匕効率を向上させることができる。
図面の簡単な説明
[0011] [図 1]実施の形態 1に係るスケーラブル符号ィ匕装置の主要な構成を示すブロック図 [図 2]モノラル信号と第 1チャネル信号および第 2チャネル信号との関係を示す図 [図 3]実施の形態 1に係る CELP符号ィ匕部内部の主要な構成を示すブロック図 圆 4]実施の形態 1に係る第 1チャネル差分情報符号ィ匕部内部の主要な構成を示す ブロック図
[図 5]実施の形態 2に係るスケーラブル符号ィ匕装置の主要な構成を示すブロック図 [図 6]実施の形態 2に係る第 2チャネル差分情報符号ィ匕部内部の主要な構成を示す ブロック図 発明を実施するための最良の形態
[0012] 以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。なお 、ここでは、 2チャネル力 なるステレオ音声信号を符号ィ匕する場合を例にとって説明 し、また、以下に示す第 1チャネルおよび第 2チャネルとは、それぞれ Lチャネルおよ び Rチャネル、またはその逆のチャネルのことを示して 、る。
[0013] (実施の形態 1)
図 1は、本発明の実施の形態 1に係るスケーラブル符号ィ匕装置 100の主要な構成 を示すブロック図である。このスケーラブル符号ィ匕装置 100は、加算器 101、乗算器 102、 CELP符号ィ匕部 103、および第 1チャネル差分情報符号ィ匕部 104を備える。
[0014] スケーラブル符号ィ匕装置 100の各部は以下の動作を行う。
[0015] 加算器 101は、スケーラブル符号ィ匕装置 100に入力された第 1チャネル信号 CH1 および第 2チャネル信号 CH2を加算し、和信号を生成する。乗算器 102は、この和 信号に 1Z2を乗じてスケールを半分とし、モノラル信号 Mを生成する。すなわち、加 算器 101および乗算器 102は、第 1チャネル信号 CH1および第 2チャネル信号 CH2 の平均信号を求め、これをモノラル信号 Mとする。
[0016] CELP符号化部 103は、このモノラル信号 Mに対し CELP符号化を行い、得られた モノラル信号の CELP符号ィ匕パラメータをスケーラブル符号ィ匕装置 100の外部およ び第 1チャネル差分情報符号ィ匕部 104に出力する。ここで、 CELP符号ィ匕パラメータ とは、 LSPパラメータ、適応音源符号帳インデックス、適応音源ゲイン、固定音源符 号帳インデックス、および固定音源ゲインのことである。
[0017] 第 1チャネル差分情報符号ィ匕部 104は、スケーラブル符号ィ匕装置 100に入力され た第 1チャネル信号 CH1に対し、 CELP符号化に準じた符号化、すなわち、線形予 測分析、適応音源符号帳探索、および固定音源符号帳探索による符号化を行い、こ の過程で得られる符号化パラメータと、 CELP符号ィ匕部 103から出力される CELP符 号化パラメータとの差分を求める。なお、この符号ィ匕についても単に CELP符号ィ匕と 呼ぶこととすると、上記の処理は、モノラル信号 Mと第 1チャネル信号 CH1とに対し、 CELP符号ィ匕パラメータのレベル (段階)で差分をとることに相当する。そして、第 1チ ャネル差分情報符号ィ匕部 104は、この第 1チャネルに関する差分情報 (第 1チャネル 差分情報)に対して符号化を行い、得られた第 1チャネル差分情報の符号化パラメ一 タをスケーラブル符号ィ匕装置 100の外部に出力する。
[0018] このスケーラブル符号ィ匕装置 100の 1つの特徴は、加算器 101、乗算器 102、およ び CELP符号ィ匕部 103によって第 1レイヤを、第 1チャネル差分情報符号ィ匕部 104に よって第 2レイヤを構成し、第 1レイヤ力もは、モノラル信号の符号ィ匕パラメータが出 力され、第 2レイヤからは、第 1レイヤ (モノラル信号)の符号ィ匕パラメータと併せて復 号することによりステレオ信号を得ることができる符号化パラメータが出力されることで ある。すなわち、本実施の形態に係るスケーラブル符号ィ匕装置は、モノラル信号とス テレオ信号とからなるスケーラブル符号ィ匕を実現する。
[0019] この構成により、上記の第 1レイヤおよび第 2レイヤ力もなる符号化パラメータを取得 する復号装置は、ステレオ通信およびモノラル通信の双方に対応したスケーラブル 復号装置であっても良いし、モノラル通信のみに対応した復号装置であっても良い。 また、ステレオ通信およびモノラル通信の双方に対応したスケーラブル復号装置であ つても、伝送路環境の悪化により、第 2レイヤの符号ィ匕パラメータを取得することがで きず、第 1レイヤの符号化パラメータしか取得できない場合も考えられる。しかし、力 力る場合であっても、このスケーラブル復号装置は、低品質ではあるがモノラル信号 を復号することができる。また、このスケーラブル復号装置が第 1レイヤおよび第 2レイ ャの符号ィ匕パラメータを取得することができた場合、これら双方のパラメータを用いて 高品質なステレオ信号を復号することができる。
[0020] 以下に、スケーラブル符号ィ匕装置 100から出力される第 1レイヤおよび第 2レイヤの 符号化パラメータによって、復号装置力 Sステレオ信号を復号することができる原理に ついて説明する。図 2は、モノラル信号と第 1チャネル信号および第 2チャネル信号と の関係について、符号ィ匕前後の状態を比較しながら示す図である。
[0021] モノラル信号 Mは、第 1チャネル信号 CH1および第 2チャネル信号 CH2の和に 1 Z2を乗じて、すなわち、次の(式 1)によって求めることができる。
M= (CHl + CH2) /2 …(式 1)
よって、モノラル信号 Mに対する CH1の差分 (第 1チャネル信号差分)を Δ CH1と すると、 CH1は、図 2Aに示すように、次の(式 2)の関係を満たす。
CH1 = M+ Δ ΟΗ1 …(式 2)
従って、 CH1が符号ィ匕パラメータであった場合、これを復号するためには Mおよび Δ CH1の双方の符号化パラメータを復号すれば良いことがわかる。
[0022] 同様に、第 2チャネル信号 CH2につ 、ても、モノラル信号 Mに対する CH2の差分( 第 2チャネル信号差分)を Δ CH2として、以下の(式 3)の関係がある。
CH2 = M+ A CH2 …(式 3)
そこで、以下の(式 4)のように近似することができれば、上記 (式 3)は(式 5)のように なる。
A CH1 = - A CH2 …(式 4)
CH2 = M- Δ ΟΗ1 …(式 5)
従って、上記 (式 4)の近似が成り立てば、 CH1の符号化パラメータと同様に、 CH2 の符号化パラメータを Mおよび Δ CH1の双方の符号化パラメータを復号することに よって、間接的に復号することができることがわかる。
[0023] しかし、符号ィ匕を経ることにより、通常、符号化歪みが発生するため、図 2Bに示す ように、符号ィ匕後においては厳密には A CHlと A CH2の大きさは異なってくる。よつ て、上記 (式 4)の意味するところは、符号化後の第 1チャネル差分情報および第 2チ ャネル差分情報の大きさが等しいと近似すること、換言すれば、第 1チャネルおよび 第 2チャネルをそれぞれ符号ィ匕した際の双方の符号ィ匕歪みが等しいと近似するとい うことである。実際、これらの符号ィ匕歪みは、実機においても大きく異なることはない ので、第 1チャネルおよび第 2チャネルの符号ィ匕歪みの差を無視して符号ィ匕を行って も、復号信号の音質の大きな劣化にはつながらないと考えることができる。
[0024] そこで、本実施の形態に係るスケーラブル符号ィ匕装置 100は、上記の原理を利用 して、 Mおよび A CHlの 2つの符号ィ匕パラメータを出力する。これらを取得した復号 装置は、 Mおよび A CHlを復号することによって、 CH1だけでなぐ CH2も復号す ることがでさる。
[0025] 図 3は、 CELP符号ィ匕部 103内部の主要な構成を示すブロック図である。
[0026] この CELP符号化部 103は、 LPC分析部 111、 LPC量子化部 112、 LPC合成フィ ルタ 113、加算器 114、聴感重み付け部 115、歪み最小化部 116、適応音源符号帳 117、乗算器 118、固定音源符号帳 119、乗算器 120、ゲイン符号帳 121、および 加算器 122を備える。
[0027] LPC分析部 111は、乗算器 102から出力されたモノラル信号 Mに対して線形予測 分析を施し、分析結果である LPCパラメータを LPC量子化部 112および聴感重み付 け部 115へ出力する。
[0028] LPC量子化部 112は、 LPC分析部 111から出力された LPCパラメータを量子化に 適した LSPパラメータに変換した後に量子化し、得られる量子化 LSPパラメータ(C ) し を CELP符号ィ匕部 103の外部に出力する。この量子化 LSPパラメータは、 CELP符 号ィ匕部 103によって得られる CELP符号ィ匕パラメータの 1つである。また、 LPC量子 化部 112は、この量子化 LSPパラメータを量子化 LPCパラメータに再変換後、これを LPC合成フィルタ 113へ出力する。
[0029] LPC合成フィルタ 113は、 LPC量子化部 112から出力される量子化 LPCパラメ一 タを用いて、後述の適応音源符号帳 117および固定音源符号帳 119で生成された 音源ベクトルを駆動音源として LPC合成フィルタによる合成を行う。得られた合成信 号は、加算器 114へ出力される。
[0030] 加算器 114は、 LPC合成フィルタ 113から出力された合成信号の極性を反転させ 、モノラル信号 Mに加算することにより誤差信号を算出し、この誤差信号を聴感重み 付け部 115へ出力する。この誤差信号が符号化歪みに相当する。
[0031] 聴感重み付け部 115は、 LPC分析部 111から出力された LPCパラメータに基づい て構成される聴感重み付けフィルタを用いて、加算器 114から出力された符号ィ匕歪 みに対して聴感的な重み付けを行 、、この信号を歪み最小化部 116へ出力する。
[0032] 歪み最小化部 116は、聴感重み付け部 115から出力される符号ィ匕歪みが最小とな るように、適応音源符号帳 117、固定音源符号帳 119、およびゲイン符号帳 121〖こ 対し各種パラメータを指示する。具体的には、歪み最小化部 116は、適応音源符号 帳 117、固定音源符号帳 119、およびゲイン符号帳 121に対して、使用するインデッ タス (C 、C 、C )を指示する。
A D G
[0033] 適応音源符号帳 117は、過去に生成された LPC合成フィルタ 113への駆動音源の 音源ベクトルを内部バッファに記憶しており、歪み最小化部 116から指示されたイン デッタスに対応する適応音源ラグに基づいて、この記憶されている音源ベクトルから 1 サブフレーム分を生成し、適応音源ベクトルとして乗算器 118へ出力する。
[0034] 固定音源符号帳 119は、歪み最小化部 116から指示されたインデックスに対応す る音源ベクトルを、固定音源ベクトルとして乗算器 120へ出力する。
[0035] ゲイン符号帳 121は、歪み最小化部 116から指示されたインデックスに対応するゲ イン、具体的には、適応音源符号帳 117からの適応音源ベクトル、および固定音源 符号帳 119からの固定音源ベクトル、に対する各ゲインを生成し、乗算器 118、 120 へそれぞれ出力する。
[0036] 乗算器 118は、ゲイン符号帳 121から出力された適応音源ゲインを、適応音源符 号帳 117から出力された適応音源ベクトルに乗じ、加算器 122へ出力する。
[0037] 乗算器 120は、ゲイン符号帳 121から出力された固定音源ゲインを、固定音源符 号帳 119から出力された固定音源ベクトルに乗じ、加算器 122へ出力する。 [0038] 加算器 122は、乗算器 118から出力された適応音源ベクトルと、乗算器 120から出 力された固定音源ベクトルとを加算し、加算後の音源ベクトルを駆動音源として LPC 合成フィルタ 113に出力する。また、加算器 122は、得られた駆動音源の音源べタト ルを適応音源符号帳 117へフィードバックする。
[0039] LPC合成フィルタ 113は、前述の通り、加算器 122から出力される音源ベクトル、す なわち、適応音源符号帳 117および固定音源符号帳 119で生成された音源ベクトル を駆動音源として LPC合成フィルタによる合成を行う。
[0040] このように、適応音源符号帳 117および固定音源符号帳 119で生成された音源べ タトルを用いて符号ィ匕歪みが求められる一連の処理は、閉ループ (帰還ループ)とな つており、歪み最小化部 116は、この符号ィ匕歪みが最小となるように、適応音源符号 帳 117、固定音源符号帳 119、およびゲイン符号帳 121に対して指示を行う。そして 、歪み最小化部 116は、符号ィ匕歪みが最小となる各種 CELP符号化パラメータ (C 、
A
C 、C )を CELP符号ィ匕部 103の外部に出力する。
D G
[0041] 図 4は、第 1チャネル差分情報符号ィ匕部 104内部の主要な構成を示すブロック図で ある。
[0042] この第 1チャネル差分情報符号化部 104は、第 1チャネル信号 CH1の音源成分の ノ ラメータとスペクトル包絡成分のパラメータとをモノラル信号 Mからの差分として符 号化する。ここで、音源成分のパラメータとは、適応音源符号帳インデックス、適応音 源ゲイン、固定音源符号帳インデックス、および固定音源ゲインのことであり、また、ス ベクトル包絡成分のパラメータとは、 LPC分析を行って得られる LPCパラメータのこと である。
[0043] なお、第 1チャネル差分情報符号化部 104において、 LPC分析部 131、 LPC合成 フィルタ 133、加算器 134、聴感重み付け部 135、歪み最小化部 136、乗算器 138、 乗算器 140、および加算器 142は、上記の CELP符号化部 103における、 LPC分析 部 111、 LPC合成フィルタ 113、加算器 114、聴感重み付け部 115、歪み最小化部 116、乗算器 118、乗算器 120、および加算器 122とそれぞれ同様の構成であるた め、説明を省略し、 CELP符号ィ匕部 103と異なる構成について以下詳細に説明する [0044] 差分量子化部 132は、 LPC分析部 131で得られる第 1チャネル信号 CH1の LPC パラメータ ω (i)と、 CELP符号化部 103で既に求められているモノラル信号 Mの LP Cパラメータ(C )との差分を求め、この差分を量子化することによって、第 1チャネル
差分情報のスペクトル包絡成分の符号ィ匕パラメータ Δ ω (i)とし、第 1チャネル差分 情報符号ィ匕部 104の外部に出力する。また、差分量子化部 132は、第 1チャネル信 号の LPCパラメータの量子化パラメータ ω (i)を LPC合成フィルタ 133に出力する。
[0045] ゲイン符号帳 143は、 CELP符号ィ匕部 103から出力されるモノラル信号用のゲイン 符号帳インデックスに基づ ヽて、これに対応する適応音源ゲインおよび固定音源ゲイ ンを生成し、乗算器 138、 140にそれぞれ出力する。
[0046] 適応音源符号帳 137は、過去のサブフレームにおいて生成された駆動音源を内部 ノ ッファに蓄積している。有声音の場合、適応音源符号帳 137のバッファの過去の 駆動音源は、現フレームのピッチ波形の駆動音源波形と強い相関があるため、適応 音源符号帳 137は、このピッチ周期に相当する過去の駆動音源を切り出し、それを 周期的に繰り返した信号を駆動音源としての第一近似とする。そして、適応音源符号 帳 137は、このピッチ周期、すなわち、適応音源ラグを符号化する。特に、適応音源 符号帳 137は、 CH1のピッチ周期を、 CELP符号ィ匕部 103で既に符号ィ匕されたモノ ラル信号 Mのピッチ周期からの差分として符号ィ匕する。これは、モノラル信号 Mは、 第 1チャネル信号 CH1と第 2チャネル信号 CH2とから生成された信号であるため、自 ずと第 1チャネル信号 CH1と類似性が高いと考えられるためである。すなわち、第 1 チャネル信号 CH1に対し、新たに適応音源符号帳探索を行うよりも、モノラル信号 M に対して得られたピッチ周期を基準として、このピッチ周期からの差分として第 1チヤ ネル信号 CH1のピッチ周期を表現した方が符号ィ匕効率か高いと考えられるためであ る。具体的には、モノラル信号に対して既に算出されたピッチ周期 T と、その値から
M
の差分パラメータである ΔΤとを用いて、 CH1のピッチ周期 Tを次の(式 6)で表し、 CH1に対する適応音源符号帳探索によって最適な Tを得るときの差分パラメータ Δ Tを符号化する。
[数 1]
Τ = ΤΜ + ^ ··■ (式 6 ) [0047] 固定音源符号帳 139は、現フレームの音源成分のうち、適応音源符号帳 137で過 去の音源に基づ ヽて生成される音源信号では近似できな ヽ残差成分に対し、この成 分を表現する音源信号を生成する。この残差成分は、適応音源符号帳 137で生成さ れる成分に比べ、相対的に合成信号に対する寄与が少ない。また、既に述べたよう に、モノラル信号 Mと第 1チャネル信号 CH1との類似性は高い。よって、固定音源符 号帳 139は、 CH1の固定音源符号帳インデックスとして、固定音源符号帳 119で使 用されたモノラル信号 M用の固定音源符号帳インデックスを用いる。これは、 CH1の 固定音源ベクトルをモノラル信号の固定音源ベクトルと同一信号とすることに相当す る。
[0048] ゲイン符号帳 141は、 CH1用の適応音源ベクトルのゲインを、モノラル信号用の適 応音源ゲインと、この適応音源ゲインに乗じる係数という 2つのパラメータによって特 定する。また、 CH1用の固定音源ベクトルのゲインについても同様で、ゲイン符号帳 141は、モノラル信号用の固定音源ゲインと、この固定音源ゲインに乗じる係数という 2つのパラメータによって CH1用の固定音源ベクトルのゲインを特定する。しかも、こ れら 2つの係数は、共通のゲイン乗数値 γ として決定され、乗算器 144に出力される 。 Ί の決定方法は、 CH1の合成信号と CH1の原信号との誤差が最小になるように、 あらかじめ用意された CH1用のゲイン符号帳力も最適なゲインインデックスを選択す るようにして行う。
[0049] 乗算器 144は、加算器 142から出力された駆動音源 ex 'に γ を乗算して exとし、 LPC合成フィルタ 133に出力する。
[0050] このように、本実施の形態によれば、ステレオ信号を構成する第 1チャネル信号 CH 1と第 2チャネル信号 CH2とからモノラル信号を生成し、モノラル信号の CELP符号 化を行うと共に、 CH1を符号ィ匕する際には、モノラル信号の CELPパラメータからの 差分として符号化を行う。よって、低ビットレートで、かつ品質のよいステレオ信号の 符号ィ匕を実現することができる。
[0051] また、以上の構成において、 A CHlの符号ィ匕方法は、モノラル信号の CELP符号 化パラメータとそれに対する差分パラメータとを用い、これらにより生成される CH1の 合成信号と CH1の原信号との誤差が最小となるように、 CELP符号ィ匕の差分パラメ ータを決定する。
[0052] また、以上の構成において、第 2レイヤの符号ィ匕対象は、モノラル信号と第 1チヤネ ル信号との波形上における差分ではなぐ CELP符号ィヒパラメータの段階で差分をと つたものである。この理由は、 CELP符号ィ匕は、そもそも人間の声帯'声道をモデル 化して符号化を行う技術であり、波形上で差分をとると、得られる差分情報は CELP 符号ィ匕のモデルとは物理的に対応しないものになってしまうと考えられるためである。 よって、波形上の差分を対象に行う CELP符号化によっては効率的な符号化を行う ことができないと考えられるため、本発明では CELP符号ィ匕パラメータの段階で差分 をとる。
[0053] また、以上の構成にお!、て、モノラル信号に対する CH2の差分 Δ CH2は、上記の 近似式 (式 4)によって求めることとし、符号ィ匕は行わない。そして、本実施の形態に 係るスケーラブル符号ィ匕装置で生成された符号ィ匕パラメータを受信した復号装置は 、受信した Δ CH1の符号化パラメータ力 上記 (式 5)の計算によって復号信号を得 ることがでさる。
[0054] なお、本実施の形態では、固定音源符号帳 139が、固定音源符号帳 119と同一の インデックスを用いる場合、すなわち、固定音源符号帳 139が、モノラル信号用の固 定音源ベクトルと同一の固定音源ベクトルを生成する場合を例にとって説明した。し かし、本発明はこれに限定されず、例えば、モノラル信号の固定音源ベクトルに加算 するような付加的な固定音源ベクトルを求めるため、固定音源符号帳 139に対し固 定音源符号帳探索を行い、 CH1用に付加する固定音源符号帳インデックスを求め るようにしても良い。この場合、符号ィ匕ビットレートは増加するが、より高音質な CH1 の符号ィ匕を実現することができる。
[0055] また、本実施の形態では、ゲイン符号帳 141から出力される γ のように、適応音源 ゲインに乗じる係数と固定音源ゲインに乗じる係数とが共通である場合を例にとって 説明した。しかし、これら 2つの係数は共通でなくても良い。すなわち、適応音源ゲイ ンに乗じる係数を γ
1、固定音源ゲインに乗じる係数を γ
2として、個別に符号ィ匕する ような構成としても良い。力かる場合、 y の決定方法は、ゲインを共通とする場合と 同様に、 CH1の合成信号と CH1の原信号との誤差が最小になるように、あらかじめ 用意された CHI用のゲイン符号帳カゝら最適なゲインインデックスを選択するように行 う。このとき、 γ の決定方法も γ の決定方法と同様に、 CH2の合成信号と CH2の原
2 1
信号との誤差が最小になるように、あら力じめ用意された CH2用のゲイン符号帳から 最適なゲインインデックスを選択するようにして行う。
[0056] (実施の形態 2)
実施の形態 1においては、第 1チャネルの符号ィ匕歪みと第 2チャネルの符号ィ匕歪み とが近似的に等しいと仮定し、第 1レイヤおよび第 2レイヤの 2層によって符号ィ匕を行 ぅスケーラブル符号ィ匕装置の構成を示した。本実施の形態では、 CH2をより精度良く 符号ィ匕するために新たに第 3レイヤを設け、この第 3レイヤにおいて、第 1チャネルお よび第 2チャネルの符号ィ匕歪みの差の符号化、より具体的には、第 1チャネル差分情 報に含まれる符号化歪みと第 2チャネル差分情報に含まれる符号化歪みとの差分を さらに符号化し、これを新たな符号化情報として出力する構成を示す。
[0057] 具体的には、 A CH1に含まれる量子化誤差 (符号ィ匕歪み)を減じるように以下の Δ CH2'を定義し、符号化を行う。より詳細には、第 1レイヤで符号化されたモノラル信 号および第 2レイヤで符号化された Δ CH1から推定される CH2の予測信号 CH2' ( =Μ— A CHl)に対する CH2の差分信号 A CH2,( = CH2— M+ A CHl)を符号 化する。
[0058] ここで、 A CH2'の符号化方法は、モノラル信号の CELP符号化パラメータおよび 第 2レイヤで符号化された差分 CELPパラメータの双方のパラメータを用いて推定さ れる CH2の CELP符号ィ匕パラメータと、それに対する補正パラメータとを用い、これら により生成される CH2の合成信号と CH2の原信号との誤差が最小になるように、上 記の補正パラメータを決定する。第 2レイヤと同様に、波形上における差分そのもの の CELP符号ィ匕を行わな 、理由は、実施の形態 1と同様である。
[0059] これにより、モノラル信号とステレオ信号とでスケーラビリティを有し、精度の良い、し 力も効率的なステレオ符号ィ匕が可能である。 CH2の CELP符号ィ匕パラメータを、モノ ラルのパラメータおよび CH1におけるモノラルに対する差分パラメータを用いて推定 し、それに対する誤差分を符号化する構成とすることで、より効率的な符号化を行うこ とがでさる。 [0060] 図 5は、本発明の実施の形態 2に係るスケーラブル符号ィ匕装置 200の主要な構成 を示すブロック図である。このスケーラブル符号ィ匕装置 200は、実施の形態 1に示し たスケーラブル符号ィ匕装置 100と同様の基本的構成を有しており、同一の構成要素 には同一の符号を付し、その説明を省略する。新規な構成は、第 3レイヤを構成する 第 2チャネル差分情報符号ィ匕部 201である。
[0061] 図 6は、第 2チャネル差分情報符号ィ匕部 201内部の主要な構成を示すブロック図で ある。
[0062] なお、この第 2チャネル差分情報符号ィ匕部 201において、 LPC分析部 211、差分 量子化部 212、 LPC合成フィルタ 213、加算器 214、聴感重み付け部 215、歪み最 小化部 216、適応音源符号帳 217、乗算器 218、固定音源符号帳 219、乗算器 22 0、ゲイン符号帳 221、加算器 222、ゲイン符号帳 223、および乗算器 224は、上記 の第 1チャネル差分情報符号ィ匕部 104における、 LPC分析部 131、差分量子化部 1 32、 LPC合成フィルタ 133、加算器 134、聴感重み付け部 135、歪み最小化部 136 、適応音源符号帳 137、乗算器 138、固定音源符号帳 139、乗算器 140、ゲイン符 号帳 141、加算器 142、ゲイン符号帳 143、および乗算器 144とそれぞれ同様の構 成であるため、説明を省略する。
[0063] 第 2チャネルラグパラメータ推定部 225は、モノラル信号のピッチ周期 T と、 CH1
M
の CELP符号ィ匕パラメータである ΔΤとを用いて、 CH2のピッチ周期(適応音源ラグ )を予測し、予測値 T 'を適応音源符号帳 217に出力する。ここで、 CH1の CELP符
2
号化パラメータ ΔΤは、モノラル信号のピッチ周期 T に対する CH1のピッチ周期 T
1 M l の差分として求められる。
[0064] 第 2チャネル LPCパラメータ推定部 226は、モノラル信号の LPCパラメータ ω (i)
M
と、 CHIの LPCパラメータ ω (i)とを用いて、 CH2の LPCパラメータを予測し、予測 値 ω ' (i)を差分量子化部 212に出力する。
2
[0065] 第 2チャネル音源ゲイン推定部 227は、モノラル信号の駆動音源が CH1および CH 2の駆動音源から上記 (式 1)によって求められることを利用し、 CH1のゲイン乗数値 Ύ 力 CH2のゲイン乗数値を逆算によって予測し、予測値 γ ,を乗算器 228に出
1 2
力する。この予測値 γ ,は、ゲイン符号帳 221から出力される第 2チャネル音源ゲイ ン Δγ に乗じられる。
2
歪み最小化部 216によって制御される閉ループの符号化、すなわち、第 2チャネル 信号 CH2のピッチ周期 (適応音源ラグ) Τの符号化の方法は、すでに符号化された
2
モノラル信号のピッチ周期 Τ と、この Τ と CH1のピッチ周期 Τとの差分 ΔΤを用い
M M 1 1 て、 CH2のピッチ周期 Tを予測し (予測値 T,)、その予測されたピッチ周期 T,から
2 2 2 の差分 (誤差成分)を符号化することにより行われる。まず、次の (式 7)を仮定する。
[数 2]
TM ^(Tl +T2)/2 ■■■ (式 7)
また、以下の(式 8)の関係があるので、 Τの予測値 Τ 'は、上記(式 7)から(式 9)の
2 2
ように表される。
[数 3]
ΤλΜ+ Τ, ··· (式 8)
Τ 2ΤΜ-Ί … (式 9)
この(式 9)に (式 8)を代入すると、以下の(式 10)となる。
[数 5]
Τ2' = ΤΜ-ΑΤ, ··· (式 1 0 )
よって、 CH2のピッチ周期 Τを、その予測値 Τ,とそれに対する補正値 ΔΤにより
2 2 2
、以下の(式 11)で表す。
[数 6]
Τ22'+ΑΤ2 … (式 1 1 )
(式 11)に(式 10)を代入して以下の(式 12)となる。
[数 7]
Τ2 =(Γ -ΔΓ1) + ΔΓ2 … (式 1 2 )
本実施の形態に係るスケーラブル符号ィ匕装置は、 CH2に対する適応音源符号帳 の探索を行い、最適な Τを得るときの補正パラメータ ΔΤを符号化する。ここで、 ΔΤ
2 2
は、モノラルのパラメータ Τ および CH1におけるモノラルに対する差分パラメータ Δ を用いて推定した予測値に対する誤差分であるので、 ΔΤ^に比べて微小な値で あり、より効率的な符号ィ匕を行うことができる。
[0067] 固定音源符号帳 219は、第 1チャネル差分情報符号化部 104の固定音源符号帳 1 39と同様に、現フレームの音源成分のうち、適応音源符号帳 217で生成される音源 信号では近似できない残差成分に対する音源信号を生成する。また、固定音源符号 帳 219は、やはり固定音源符号帳 139と同様に、 CH2の固定音源符号帳インデック スとして、モノラル信号 Μの固定音源符号帳インデックスを用いる。すなわち、 CH2 の固定音源ベクトルをモノラル信号の固定音源ベクトルと同一信号とする。
[0068] なお、実施の形態 1と同様に、モノラル信号の固定音源ベクトルに加算するような付 加的な固定音源ベクトルを求めるため、固定音源符号帳 219に対し固定音源符号帳 探索を行い、 CH2用に付加する固定音源符号帳インデックスを求めるようにしても良 い。この場合、符号化ビットレートは増加するがより高音質な CH2の符号化を実現で きる。
[0069] ゲイン符号帳 221は、 CH2用の音源ベクトルのゲインを、モノラル信号用の適応音 源ゲインおよび固定音源ベクトルのゲインの双方に共通に乗じるゲイン乗数値 y と
2 して特定する。具体的には、ゲイン符号帳 221は、 CELP符号ィ匕部 103においてモノ ラル信号用のゲインが、第 1チャネル差分情報符号ィ匕部 104において CH1用のゲイ ン乗数値 γ
1が既に求められているので、これらにより予測される予測推定値 γ
2 'を 求め、この予測推定値 γ ,に対する補正値 Δ γ を決定することによって CH2の乗
2 2
数値 γ を特定する。補正値 Δ γ は、ゲイン符号帳に用意されているパターンのうち
2 2
、CH2の合成信号と CH2の入力信号との波形歪みが最小となるパターンを選択す ること〖こよって決定される。
[0070] より詳細には、ゲイン符号帳 221は、まず、 CH2に対するゲイン乗数値 γ を、 CHI
2 のゲイン乗数値 γ 力 推定する。モノラル信号の駆動音源を ex (n)、CHlの駆動
1 M
音源を ex (n)および CH2の駆動音源を ex (n)とすると、以下の(式 13)となる。
1 2
[数 8]
exM {n) =—{ex (n) + ex2 (n)) … (式 1 3 ) ここで、 γ の予測値を γ ,とし、以下の(式 14) (式 15)を用いると、上記(式 13)は (式 16)となる。
[数 9]
exx\n) = 7j -ex^n) … 、ェ 丄 4 )
ex2(n) = y2 ,*^2'(w) … (式 1 5 )
[数 10] exAn) = -(rr^'(«) + γ2βχ2'(η)) … (式 1 6 ) ここで ex '(η)と ex '(η)との相関が高いと仮定すると、(式 17)かつ(式 18)の関係を
1 2
満たすこととなる。
[数 11]
… (式 1 7 )
Figure imgf000018_0001
[数 12]
ί?χ,'(Μ)- = ^ ex2'(nf - ^ exM(n) … (式 1 8 ) また、(式 16)の両辺を 2乗して和をとれば、以下の(式 19)が得られる。
[数 13]
2 exM (")2 + 2y,マ2 ' Y xx ' (") · ex2 ' ("))
Figure imgf000018_0002
… (式 1 9 ) よって、(式 19)に(式 17)および (式 18)を代入すると、以下の(式 20)となる。
[数 14]
5 ¾(")2 = ∑¾(»)2(}'1 2 + 2 ,2+271-72') … (式 2 0 )
(式 20)の方程式を解くことにより、以下の(式 21)の関係が得られる。
[数 15]
y2'=2-r, , -2-7, ··· (式 2 1 ) ここで 0 を、予測値 γ ,とそれに対する補正係数 Δ γ との積で表すと以下の(式 2
2 2 2
2)となる。 γ2 = γ2 '-Αγ2 (ただし、 y2'= 2— 7l ) … (式 2 2 )
そして、 CH2に対する最適な γ を得るときの補正係数 Δ γ をゲイン符号帳探索
2 2
により符号化する。ここで、 Δ γ は、モノラルのゲインおよび CHIにおけるモノラルに
2
対するゲイン乗数 γ を用いて推定した予測値に対する補正分であるので、 γ に比 ベて、微小な値であり、より効率的な符号ィ匕を行うことができる。
[0071] スペクトル包絡成分は、 CH2信号の LPC分析を行って LPCパラメータを求め、す でに求められているモノラル信号の LPCパラメータおよびモノラル信号の LPCパラメ ータに対する CH1の LPCパラメータの差分成分を用いて、 CH2の LPCパラメータを 推定し、その推定パラメータ力 の補正分 (誤差成分)を量子化することによって、 C Η2のスペクトル包絡成分パラメータとする。
[0072] CH2の LSPパラメータ ω (i) (ただし、 i=0, 1, · ··, p— 1)を、モノラル信号の LSP
2
ノ ラメータ ω (i)、および第 1チャネル信号の LSPパラメータ ω (i)とモノラル信号の
M 1
LSPパラメータ ω (i)との差分 Δ ω (i)の双方から求める。
M 1
[0073] まず、以下の(式 23)を仮定する。
[数 17] ωΜ(ί) (ω (ί) + ω2(ί)) … (式 2 3 ) また、 CH1の LSPパラメータ ω (i)は、以下の(式 24)で表される。
[数 18]
β>,( = ¾ί( + Δί»1( ■·· (式 2 4 )
よって、 ω (i)の予測値 ω '(i)は、(式 23)および(式 24)力 以下の(式 25)となる。
2 2
[数 19]
ω2 ,(ί) = ωΜ (ϊ) - Αο)ι (ί) '·· (式 2 5 )
CH2の LSPである ω (i)を、その予測値 ω ,(i)およびそれに対する補正分 Δ ω (i
2 2 2
)を用いて、以下の(式 26)で表す。
[数 20]
«>2( = β>2'( + Δ«)2( ··■ (式 2 6 )
(式 26)に (式 25)を代入することにより、以下の(式 27)が得られる。 [数 21]
ω2 ( ) = ωΜ ( ) - (?) + ω2 (?) · · · ^ 2 7 )
本実施の形態に係るスケーラブル符号ィ匕装置は、 ω (i)
2 に対して量子化誤差を最 小にするような Δ ω (i)を符号ィ匕する。ここで、 Δ ω (i)は、モノラルの LSPパラメ一
2 2
タおよび CH1におけるモノラルに対する差分パラメータ Δ ω (i)を用いて推定した予 測値に対する誤差分であるので、 Δ ω (i)に比べて微小な値であり、より効率的な符 号ィ匕を行うことができる。
[0074] このように、本実施の形態によれば、 A CH2,の符号ィ匕において、モノラル信号の CELP符号ィ匕パラメータおよび第 2レイヤで符号ィ匕された差分 CELPパラメータの双 方のパラメータを用いて推定される CH2の CELP符号化パラメータと、それに対する 補正パラメータとを用い、これらにより生成される CH2の合成信号と CH2の原信号と の誤差が最小になるように、上記の補正パラメータを決定する。よって、 CH2をより精 度よく符号ィ匕および復号することができる。
[0075] 以上、本発明に係る実施の形態 1、 2について説明した。
[0076] なお、上記各実施の形態において、モノラル信号 Mを CH1と CH2の平均信号とし た力 かならずしもこれに限ったものではな!/、。
[0077] また、適応音源符号帳は、適応符号帳と呼ばれることがある。また、固定音源符号 帳は、固定符号帳、雑音符号帳、確率符号帳 (stochastic codebook)、または乱数符 号帳(random codebook)と呼ばれることがある。
[0078] 本発明に係るスケーラブル符号化装置は、上記各実施の形態に限定されず、種々 変更して実施することが可能である。
[0079] 本発明に係るスケーラブル符号ィ匕装置は、移動体通信システムにおける通信端末 装置および基地局装置に搭載することも可能であり、これにより上記と同様の作用効 果を有する通信端末装置および基地局装置を提供することができる。
[0080] なお、ここでは、本発明をノヽードウエアで構成する場合を例にとって説明したが、本 発明はソフトウェアで実現することも可能である。
[0081] また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路 である LSIとして実現される。これらは個別に 1チップ化されていても良いし、一部ま たは全てを含むように 1チップィ匕されて ヽても良!、。
[0082] また、ここでは LSIとした力 集積度の違いによって、 IC、システム LSI、スーパー L
SI、ウノレ卜ラ LSI等と呼称されることちある。
[0083] また、集積回路化の手法は LSIに限るものではなぐ専用回路または汎用プロセッ サで実現しても良い。 LSI製造後に、プログラム化することが可能な FPGA (Field Pro grammable Gate Array)や、 LSI内部の回路セルの接続もしくは設定を再構成可能な リコンフィギユラブル ·プロセッサを利用しても良 、。
[0084] さらに、半導体技術の進歩または派生する別技術により、 LSIに置き換わる集積回 路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積ィ匕を行って も良い。バイオ技術の適応等が可能性としてあり得る。
[0085] 本明細書は、 2004年 9月 28日出願の特願 2004— 282525に基づく。この内容は すべてここに含めておく。
産業上の利用可能性
[0086] 本発明に係るスケーラブル符号ィ匕装置およびスケーラブル符号ィ匕方法は、移動体 通信システムにお 、て、ステレオ信号に対しスケーラブル符号ィ匕を行う通信端末装 置、基地局装置等の用途に適用できる。

Claims

請求の範囲
[1] ステレオ音声信号からモノラル音声信号を生成する生成手段と、
前記モノラル音声信号を CELP方式で符号化して前記モノラル音声信号の符号ィ匕 ノ ラメータを得る第 1の符号ィ匕手段と、
前記ステレオ音声信号の Rチャネルまたは Lチャネルのいずれかを符号ィ匕対象チヤ ネルとし、前記符号ィヒ対象チャネルに対し線形予測分析および適応音源符号帳探 索を行って得られるパラメータと前記モノラル音声信号の符号ィヒパラメータとの差分 をとり、前記差分力 前記符号ィ匕対象チャネルの符号化パラメータを得る第 2の符号 化手段と、
を具備するスケーラブル符号ィ匕装置。
[2] 前記生成手段は、
前記 Rチャネルおよび前記 Lチャネルの平均を求めて前記モノラル音声信号とする 請求項 1記載のスケーラブル符号化装置。
[3] 前記第 2の符号化手段は、
前記符号化対象チャネルの固定音源符号帳インデックスとして、前記モノラル音声 信号の符号化パラメータの固定音源符号帳インデックスを用いる、
請求項 1記載のスケーラブル符号化装置。
[4] 前記 Rチャネルおよび前記 Lチャネルのうち、前記第 2の符号化手段の符号化対象 チャネル以外のチャネルにつ 、ては符号化を行わな 、、
請求項 1記載のスケーラブル符号化装置。
[5] 前記 Rチャネルおよび前記 Lチャネルのうち、前記第 2の符号化手段の符号化対象 チャネル以外のチャネルを符号ィ匕対象とし、前記第 1および第 2の符号化手段によつ て得られる符号化パラメータを用いて合成信号を生成し、この合成信号の符号化歪 みが最小となるように符号ィ匕を行う第 3の符号ィ匕手段、
をさらに具備する請求項 1記載のスケーラブル符号ィ匕装置。
[6] 請求項 1記載のスケーラブル符号ィ匕装置を具備する通信端末装置。
[7] 請求項 1記載のスケーラブル符号化装置を具備する基地局装置。 ステレオ音声信号力 モノラル音声信号を生成する生成ステップと、
前記モノラル音声信号を CELP方式で符号化して前記モノラル音声信号の符号ィ匕 パラメータを得る第 1の符号化ステップと、
前記ステレオ音声信号の Rチャネルまたは Lチャネルのいずれかを符号ィ匕対象チヤ ネルとし、前記符号ィヒ対象チャネルに対し線形予測分析および適応音源符号帳探 索を行って得られるパラメータと前記モノラル音声信号の符号ィヒパラメータとの差分 をとり、前記差分力 前記符号ィ匕対象チャネルの符号化パラメータを得る第 2の符号 化ステップと、
を具備するスケーラブル符号化方法。
PCT/JP2005/017618 2004-09-28 2005-09-26 スケーラブル符号化装置およびスケーラブル符号化方法 WO2006035705A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2006537715A JP4555299B2 (ja) 2004-09-28 2005-09-26 スケーラブル符号化装置およびスケーラブル符号化方法
US11/576,004 US20080255832A1 (en) 2004-09-28 2005-09-26 Scalable Encoding Apparatus and Scalable Encoding Method
EP05786017A EP1801782A4 (en) 2004-09-28 2005-09-26 DEVICE AND METHOD FOR SCALABLE CODING
BRPI0516201-7A BRPI0516201A (pt) 2004-09-28 2005-09-26 aparelho de codificação escalonável e método de codificação escalonável

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004-282525 2004-09-28
JP2004282525 2004-09-28

Publications (1)

Publication Number Publication Date
WO2006035705A1 true WO2006035705A1 (ja) 2006-04-06

Family

ID=36118851

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2005/017618 WO2006035705A1 (ja) 2004-09-28 2005-09-26 スケーラブル符号化装置およびスケーラブル符号化方法

Country Status (7)

Country Link
US (1) US20080255832A1 (ja)
EP (1) EP1801782A4 (ja)
JP (1) JP4555299B2 (ja)
KR (1) KR20070061843A (ja)
CN (1) CN101027718A (ja)
BR (1) BRPI0516201A (ja)
WO (1) WO2006035705A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008016098A1 (fr) * 2006-08-04 2008-02-07 Panasonic Corporation dispositif de codage audio stéréo, dispositif de décodage audio stéréo et procédé de ceux-ci
JP2018533057A (ja) * 2015-09-25 2018-11-08 ヴォイスエイジ・コーポレーション セカンダリチャンネルを符号化するためにプライマリチャンネルのコーディングパラメータを使用するステレオ音声信号を符号化するための方法およびシステム
JP2022539571A (ja) * 2019-06-29 2022-09-12 華為技術有限公司 ステレオエンコーディング方法及び装置、並びにステレオデコーディング方法及び装置

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101566025B1 (ko) * 2007-10-22 2015-11-05 한국전자통신연구원 다객체 오디오 부호화 및 복호화 방법과 그 장치
BR122019023924B1 (pt) * 2009-03-17 2021-06-01 Dolby International Ab Sistema codificador, sistema decodificador, método para codificar um sinal estéreo para um sinal de fluxo de bits e método para decodificar um sinal de fluxo de bits para um sinal estéreo
JP5269195B2 (ja) * 2009-05-29 2013-08-21 日本電信電話株式会社 符号化装置、復号装置、符号化方法、復号方法及びそのプログラム
WO2012066727A1 (ja) * 2010-11-17 2012-05-24 パナソニック株式会社 ステレオ信号符号化装置、ステレオ信号復号装置、ステレオ信号符号化方法及びステレオ信号復号方法
EP2661746B1 (en) * 2011-01-05 2018-08-01 Nokia Technologies Oy Multi-channel encoding and/or decoding
US9460729B2 (en) 2012-09-21 2016-10-04 Dolby Laboratories Licensing Corporation Layered approach to spatial audio coding
ES2911515T3 (es) * 2017-04-10 2022-05-19 Nokia Technologies Oy Codificación de audio
CN112151045B (zh) * 2019-06-29 2024-06-04 华为技术有限公司 一种立体声编码方法、立体声解码方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1132399A (ja) * 1997-05-13 1999-02-02 Sony Corp 符号化方法及び装置、並びに記録媒体
JP2003058195A (ja) * 2001-08-21 2003-02-28 Canon Inc 再生装置、再生システム、再生方法、記憶媒体、及びプログラム
JP2004509367A (ja) * 2000-09-15 2004-03-25 テレフオンアクチーボラゲツト エル エム エリクソン 複数チャネル信号の符号化及び復号化

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04150522A (ja) * 1990-10-15 1992-05-25 Sony Corp ディジタル信号処理装置
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
DE19628293C1 (de) * 1996-07-12 1997-12-11 Fraunhofer Ges Forschung Codieren und Decodieren von Audiosignalen unter Verwendung von Intensity-Stereo und Prädiktion
US6345246B1 (en) * 1997-02-05 2002-02-05 Nippon Telegraph And Telephone Corporation Apparatus and method for efficiently coding plural channels of an acoustic signal at low bit rates
US6356211B1 (en) * 1997-05-13 2002-03-12 Sony Corporation Encoding method and apparatus and recording medium
DE19742655C2 (de) * 1997-09-26 1999-08-05 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Codieren eines zeitdiskreten Stereosignals
SE519552C2 (sv) * 1998-09-30 2003-03-11 Ericsson Telefon Ab L M Flerkanalig signalkodning och -avkodning
DE19959156C2 (de) * 1999-12-08 2002-01-31 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Verarbeiten eines zu codierenden Stereoaudiosignals
US6973184B1 (en) * 2000-07-11 2005-12-06 Cisco Technology, Inc. System and method for stereo conferencing over low-bandwidth links
SE519981C2 (sv) * 2000-09-15 2003-05-06 Ericsson Telefon Ab L M Kodning och avkodning av signaler från flera kanaler
SE519976C2 (sv) * 2000-09-15 2003-05-06 Ericsson Telefon Ab L M Kodning och avkodning av signaler från flera kanaler
US7606703B2 (en) * 2000-11-15 2009-10-20 Texas Instruments Incorporated Layered celp system and method with varying perceptual filter or short-term postfilter strengths
US6996522B2 (en) * 2001-03-13 2006-02-07 Industrial Technology Research Institute Celp-Based speech coding for fine grain scalability by altering sub-frame pitch-pulse
US7062429B2 (en) * 2001-09-07 2006-06-13 Agere Systems Inc. Distortion-based method and apparatus for buffer control in a communication system
EP1440433B1 (en) * 2001-11-02 2005-05-04 Matsushita Electric Industrial Co., Ltd. Audio encoding and decoding device
CN1266673C (zh) * 2002-03-12 2006-07-26 诺基亚有限公司 可伸缩音频编码的有效改进
JP3881946B2 (ja) * 2002-09-12 2007-02-14 松下電器産業株式会社 音響符号化装置及び音響符号化方法
US20030231799A1 (en) * 2002-06-14 2003-12-18 Craig Schmidt Lossless data compression using constraint propagation
US7191136B2 (en) * 2002-10-01 2007-03-13 Ibiquity Digital Corporation Efficient coding of high frequency signal information in a signal using a linear/non-linear prediction model based on a low pass baseband
WO2004097796A1 (ja) * 2003-04-30 2004-11-11 Matsushita Electric Industrial Co., Ltd. 音声符号化装置、音声復号化装置及びこれらの方法
US7349842B2 (en) * 2003-09-29 2008-03-25 Sony Corporation Rate-distortion control scheme in audio encoding
US7447317B2 (en) * 2003-10-02 2008-11-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V Compatible multi-channel coding/decoding by weighting the downmix channel
US7394903B2 (en) * 2004-01-20 2008-07-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
DE602005025887D1 (de) * 2004-08-19 2011-02-24 Nippon Telegraph & Telephone Mehrkanal-signaldekodierverfahren dafür, zugehörige vorrichtung, programm und aufzeichnungsmedium dafür
CN101031960A (zh) * 2004-09-30 2007-09-05 松下电器产业株式会社 可扩展性编码装置和可扩展性解码装置及其方法
EP1847022B1 (en) * 2005-01-11 2010-09-01 Agency for Science, Technology and Research Encoder, decoder, method for encoding/decoding, computer readable media and computer program elements
US8036390B2 (en) * 2005-02-01 2011-10-11 Panasonic Corporation Scalable encoding device and scalable encoding method
CN101151660B (zh) * 2005-03-30 2011-10-19 皇家飞利浦电子股份有限公司 多通道音频编码器、解码器以及相应方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1132399A (ja) * 1997-05-13 1999-02-02 Sony Corp 符号化方法及び装置、並びに記録媒体
JP2004509367A (ja) * 2000-09-15 2004-03-25 テレフオンアクチーボラゲツト エル エム エリクソン 複数チャネル信号の符号化及び復号化
JP2003058195A (ja) * 2001-08-21 2003-02-28 Canon Inc 再生装置、再生システム、再生方法、記憶媒体、及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP1801782A4 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008016098A1 (fr) * 2006-08-04 2008-02-07 Panasonic Corporation dispositif de codage audio stéréo, dispositif de décodage audio stéréo et procédé de ceux-ci
JP2018533057A (ja) * 2015-09-25 2018-11-08 ヴォイスエイジ・コーポレーション セカンダリチャンネルを符号化するためにプライマリチャンネルのコーディングパラメータを使用するステレオ音声信号を符号化するための方法およびシステム
US10984806B2 (en) 2015-09-25 2021-04-20 Voiceage Corporation Method and system for encoding a stereo sound signal using coding parameters of a primary channel to encode a secondary channel
US11056121B2 (en) 2015-09-25 2021-07-06 Voiceage Corporation Method and system for encoding left and right channels of a stereo sound signal selecting between two and four sub-frames models depending on the bit budget
JP2021131569A (ja) * 2015-09-25 2021-09-09 ヴォイスエイジ・コーポレーション セカンダリチャンネルを符号化するためにプライマリチャンネルのコーディングパラメータを使用するステレオ音声信号を符号化するための方法およびシステム
JP7124170B2 (ja) 2015-09-25 2022-08-23 ヴォイスエイジ・コーポレーション セカンダリチャンネルを符号化するためにプライマリチャンネルのコーディングパラメータを使用するステレオ音声信号を符号化するための方法およびシステム
JP2022539571A (ja) * 2019-06-29 2022-09-12 華為技術有限公司 ステレオエンコーディング方法及び装置、並びにステレオデコーディング方法及び装置
JP7337966B2 (ja) 2019-06-29 2023-09-04 華為技術有限公司 ステレオエンコーディング方法及び装置、並びにステレオデコーディング方法及び装置

Also Published As

Publication number Publication date
BRPI0516201A (pt) 2008-08-26
CN101027718A (zh) 2007-08-29
EP1801782A1 (en) 2007-06-27
JP4555299B2 (ja) 2010-09-29
EP1801782A4 (en) 2008-09-24
JPWO2006035705A1 (ja) 2008-05-15
KR20070061843A (ko) 2007-06-14
US20080255832A1 (en) 2008-10-16

Similar Documents

Publication Publication Date Title
WO2006035705A1 (ja) スケーラブル符号化装置およびスケーラブル符号化方法
JP5046652B2 (ja) 音声符号化装置および音声符号化方法
JP5413839B2 (ja) 符号化装置および復号装置
JP4963965B2 (ja) スケーラブル符号化装置、スケーラブル復号装置、及びこれらの方法
JP5046653B2 (ja) 音声符号化装置および音声符号化方法
JP4907522B2 (ja) 音声符号化装置および音声符号化方法
JP4850827B2 (ja) 音声符号化装置および音声符号化方法
JP4887279B2 (ja) スケーラブル符号化装置およびスケーラブル符号化方法
WO2006059567A1 (ja) ステレオ符号化装置、ステレオ復号装置、およびこれらの方法
JP4842147B2 (ja) スケーラブル符号化装置およびスケーラブル符号化方法
JPWO2008132850A1 (ja) ステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法
JP4948401B2 (ja) スケーラブル符号化装置およびスケーラブル符号化方法
JPWO2008090970A1 (ja) ステレオ符号化装置、ステレオ復号装置、およびこれらの方法
JP2006072269A (ja) 音声符号化装置、通信端末装置、基地局装置および音声符号化方法

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KM KP KR KZ LC LK LR LS LT LU LV LY MA MD MG MK MN MW MX MZ NA NG NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SM SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LT LU LV MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2006537715

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 200580032624.0

Country of ref document: CN

Ref document number: 443/MUMNP/2007

Country of ref document: IN

WWE Wipo information: entry into national phase

Ref document number: 2005786017

Country of ref document: EP

Ref document number: 1020077007083

Country of ref document: KR

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 11576004

Country of ref document: US

WWP Wipo information: published in national office

Ref document number: 2005786017

Country of ref document: EP

ENP Entry into the national phase

Ref document number: PI0516201

Country of ref document: BR