WO2006070757A1 - 音声符号化装置および音声符号化方法 - Google Patents

音声符号化装置および音声符号化方法 Download PDF

Info

Publication number
WO2006070757A1
WO2006070757A1 PCT/JP2005/023809 JP2005023809W WO2006070757A1 WO 2006070757 A1 WO2006070757 A1 WO 2006070757A1 JP 2005023809 W JP2005023809 W JP 2005023809W WO 2006070757 A1 WO2006070757 A1 WO 2006070757A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
channel
monaural
prediction
channel signal
Prior art date
Application number
PCT/JP2005/023809
Other languages
English (en)
French (fr)
Inventor
Koji Yoshida
Michiyo Goto
Original Assignee
Matsushita Electric Industrial Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co., Ltd. filed Critical Matsushita Electric Industrial Co., Ltd.
Priority to CN2005800450680A priority Critical patent/CN101091206B/zh
Priority to EP05819447A priority patent/EP1821287B1/en
Priority to AT05819447T priority patent/ATE448539T1/de
Priority to US11/722,821 priority patent/US7797162B2/en
Priority to DE602005017660T priority patent/DE602005017660D1/de
Priority to JP2006550770A priority patent/JP5046653B2/ja
Publication of WO2006070757A1 publication Critical patent/WO2006070757A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 

Definitions

  • the present invention relates to a speech coding apparatus and speech coding method, and more particularly to a speech coding apparatus and speech coding method that generate and encode a monaural signal from a stereo speech input signal.
  • a voice coding scheme having a scalable configuration is desired in order to control traffic on the network and realize multicast communication.
  • a scalable configuration refers to a configuration in which audio data can be decoded even from partial encoded data on the receiving side.
  • a monaural signal is generated from a stereo input signal.
  • a method for generating a monaural signal for example, there is a method of obtaining a monaural signal by averaging signals of both channels of a stereo signal (hereinafter abbreviated as “( ⁇ ” as appropriate) (see Non-Patent Document 1).
  • Non-Patent Document 1 ISO / IEC 14496-3, "Information Technology-Coding of audio-visual objects-Part 3: Audio, subpart-4, 4.B.14 Scalable AAC with core coder, pp.304-305, Sep . 2000.
  • the waveform may be a monaural signal with a waveform that is significantly different from the input stereo signal.
  • a signal that is deteriorated from an input signal that should be transmitted or a signal that is different from the input signal that should be transmitted may be transmitted.
  • a monaural signal in which the input stereo signal is distorted or a monaural signal whose waveform shape is significantly different from that of the input stereo signal is a coding model suitable for the characteristics unique to the audio signal such as CELP code.
  • An object of the present invention is to provide a speech encoding apparatus and speech encoding method that can generate a suitable monaural signal from a stereo signal and suppress a decrease in encoding efficiency of the monaural signal.
  • the speech coding apparatus uses a stereo signal including a first channel signal and a second channel signal as an input signal, and a time difference between the first channel signal and the second channel signal, and A first generating means for generating a monaural signal from the first channel signal and the second channel signal based on an amplitude ratio between the first channel signal and the second channel signal; and a code for encoding the monaural signal
  • the present invention adopts a configuration comprising:
  • a monaural signal is generated by generating an appropriate monaural signal with a stereo signal power. It is possible to suppress a decrease in the sign efficiency.
  • FIG. 1 is a block diagram showing a configuration of a speech encoding apparatus according to Embodiment 1 of the present invention.
  • FIG. 2 is a block diagram showing a configuration of a monaural signal generation unit according to Embodiment 1 of the present invention.
  • FIG. 3 is a signal waveform diagram according to Embodiment 1 of the present invention.
  • FIG. 4 is a block diagram showing a configuration of a monaural signal generation unit according to Embodiment 1 of the present invention.
  • FIG. 5 is a block diagram showing a configuration of a speech coding apparatus according to Embodiment 2 of the present invention.
  • FIG. 6 is a block diagram showing the configuration of the lch and 2ch prediction signal synthesizer according to Embodiment 2 of the present invention.
  • FIG. 8 is a block diagram showing a configuration of a speech decoding apparatus according to Embodiment 2 of the present invention.
  • FIG. 9 is a block diagram showing a configuration of a speech encoding apparatus according to Embodiment 3 of the present invention.
  • FIG. 10 is a block diagram showing a configuration of a monaural signal generation unit according to Embodiment 4 of the present invention.
  • FIG. 11 is a block diagram showing a configuration of a speech coding apparatus according to Embodiment 5 of the present invention.
  • FIG. 12 is a block diagram showing a configuration of a speech decoding apparatus according to Embodiment 5 of the present invention.
  • a speech encoding apparatus 10 shown in FIG. 1 includes a monaural signal generation unit 101 and a monaural signal encoding unit 102.
  • the monaural signal generation unit 101 generates a monaural signal from a stereo input audio signal (the lch audio signal, the 2ch audio signal) and outputs the monaural signal to the monaural signal encoding unit 102. Details of the monaural signal generation unit 101 will be described later.
  • the monaural signal encoding unit 102 encodes the monaural signal, and outputs monaural signal encoded data that is audio encoded data for the monaural signal.
  • the monaural signal encoding unit 102 can encode a monaural signal using an arbitrary encoding method.
  • a coding scheme based on CELP coding suitable for efficient coding of speech signals can be used.
  • You can also use other audio encoding methods and audio encoding methods such as AAC (Advanced Audio Coding).
  • the monaural signal generation unit 101 includes an inter-channel prediction analysis unit 201, an intermediate prediction parameter generation unit 202, and a monaural signal calculation unit 203.
  • the inter-channel prediction analysis unit 201 obtains a prediction parameter between both channels from the lch audio signal and the 2ch audio signal by analysis.
  • This prediction parameter is a parameter that enables mutual prediction between channel signals using the correlation between the 1st channel audio signal and the 2nd channel audio signal, and is based on the delay difference and amplitude ratio between both channels. Is a parameter.
  • the lch audio signal S P_chl predicted from the 2ch audio signal S _ch2 (n) (n) , and, the 2ch audio signal sp_ C h2 of second lch audio signal s_chl (n) forces are also predicted ( n) is expressed by Equations (1) and (2).
  • the ratio of the average amplitude of the positions) g and g are the prediction parameters.
  • sp_chl (n) the prediction signal of the lch
  • g the lch input signal for the 2ch input signal
  • Dist2 ⁇ ⁇ s_ch2 (n)-sp_ch2 (n) ⁇ 2 ... (4)
  • the inter-channel prediction analysis unit 201 does not obtain the prediction parameters so as to minimize the distortion Distl and Dist2, but instead of the delay time difference or the frame unit that maximizes the cross-correlation between the channel signals.
  • the average amplitude ratio between channel signals can also be obtained as a prediction parameter.
  • the intermediate prediction parameter generation unit 202 uses the prediction parameters D 1, D 2, g 3, and g in order to make the finally generated monaural signal an intermediate signal between the lch audio signal and the 2nd audio signal.
  • intermediate prediction parameters D, D, g, g
  • G Intermediate prediction parameters (delay time difference, amplitude ratio) based on the 2nd channel.
  • the intermediate prediction parameter may be obtained from only the amplitude ratio g.
  • the amplitude ratios g 1 and g 2 may be fixed values
  • D, D, g, and g are averaged over time.
  • a method for calculating the intermediate prediction parameter a method other than the above may be used as long as the delay time difference between the lch and the 2nd ch and the value near the middle of the amplitude ratio are calculated. You can
  • the monaural signal calculation unit 203 calculates the monaural signal s_mon 0 (n) using Equation (13) using the intermediate prediction parameter obtained by the intermediate prediction parameter generation unit 202.
  • s_mono (n) ⁇ g lu ⁇ s— chl (n-D ln ) + g 2m ⁇ s_ch2 (n-D 2ni ) ⁇ / 2
  • the monaural signal may be calculated from only the input audio signals of one channel.
  • FIG. 3 shows an example of the waveform 31 of the lch audio signal and the waveform 32 of the 2ch audio signal input to the monaural signal generation unit 101.
  • the monaural signal generated by the monaural signal generation unit 101 from the lch audio signal and the 2ch audio signal is as shown in the waveform 33 in the figure.
  • the waveform 34 is a monaural signal (conventional) generated by simply averaging the lch audio signal and the 2ch audio signal.
  • the waveform of the monaural signal obtained by the monaural signal generation unit 101 33 has a waveform similar to both the lch audio signal and the 2ch audio signal, and having an intermediate delay time and amplitude.
  • the monaural signal (waveform 34) generated by the conventional method is less similar in waveform to the lch audio signal and the 2ch audio signal than the waveform 33. This is because the monaural signal (waveform 33) generated so that the delay time difference and amplitude ratio between both channels is an intermediate value between both channels is the spatial 2 of the audio signal output from both channels.
  • a signal that is more appropriate as a monaural signal i.e., the input signal, compared to a monaural signal that is generated without considering the spatial characteristics (waveform 34). This is because it is a signal with little distortion similar to.
  • a monaural signal (waveform 34) generated by simply averaging the signals of both channels is Because the signal is generated by simple average calculation without considering the delay time difference or amplitude ratio between the channel signals, if the delay time difference between the signals of both channels is large, the audio signal of both channels The signals are superimposed while being shifted in time, and the input audio signal is distorted or the waveform is greatly different. As a result, when the monaural signal is encoded with an encoding model that matches the characteristics of the audio signal, such as CELP encoding, the encoding efficiency decreases.
  • the monaural signal (waveform 33) obtained by the monaural signal generation unit 101 is a signal adjusted so as to reduce the delay time difference between the audio signals of both channels. It becomes a small distortion signal similar to. Therefore, it is possible to suppress a decrease in encoding efficiency when the monaural signal code is input.
  • the monaural signal generation unit 101 may be configured as follows.
  • the prediction parameter another parameter may be used in addition to the delay time difference and the amplitude ratio.
  • the lch audio signal and the 2ch audio signal are band-divided into two or more frequency bands to generate input signals for each band, and for all or a part of the band signals, A monaural signal may be generated for each band in the same manner as described above.
  • the intermediate prediction parameter obtained by the intermediate prediction parameter generation unit 202 is transmitted together with the encoded data, and the intermediate prediction parameter is used in the subsequent code to calculate the necessary operations.
  • the monaural signal generation unit 101 quantizes the intermediate prediction parameter and outputs the quantized intermediate prediction parameter and the intermediate prediction parameter quantized code. 204 may be provided.
  • FIG. 5 shows the configuration of the speech encoding apparatus according to the present embodiment.
  • Speech coding apparatus 500 shown in FIG. 5 includes a core layer coding unit 510 for a monaural signal and an enhancement layer coding unit 520 for a stereo signal.
  • Core layer encoding section 510 includes speech encoding apparatus 10 (FIG. 1: monaural signal generation section 101 and monaural signal encoding section 102) according to Embodiment 1.
  • monaural signal generation section 101 In core layer encoding section 510, monaural signal generation section 101 generates monaural signal s_mono (n) as described in Embodiment 1, and outputs it to monaural signal encoding section 102.
  • the monaural signal encoding unit 102 encodes the monaural signal, and outputs the encoding signal data of the monaural signal to the monaural signal decoding unit 511. Also, the encoded data of the monaural signal is multiplexed with the quantized code or encoded data output from enhancement layer encoding section 520 and transmitted to the speech decoding apparatus as encoded data.
  • the monaural signal decoding unit 511 generates a monaural decoded signal from the monaural signal coding data and outputs the monaural decoding signal to the enhancement layer coding unit 520.
  • lch prediction parameter analysis section 521 obtains and quantizes the lch prediction parameter from lch audio signal s_chl (n) and the monaural decoded signal, and performs lch prediction quantization.
  • the parameter is output to the l-th channel prediction signal synthesis unit 522.
  • the l-th channel prediction parameter analysis unit 521 outputs the l-th channel prediction parameter quantization code obtained by encoding the l-th channel prediction quantization parameter. This lch prediction parameter quantized code is multiplexed with other encoded data and quantized code and transmitted to the speech decoding apparatus as encoded data.
  • First lch prediction signal combining section 522 combines the monaural decoded signal, the first ch prediction quantization parameter, and the first lch prediction signal, and outputs the first lch prediction signal to subtractor 523. Details of the l c h prediction signal combining unit 522 will be described later.
  • the subtractor 523 is the difference between the lch speech signal as the input signal and the lch prediction signal, that is, the signal of the residual component of the lch prediction signal relative to the lch input speech signal (the lch prediction). Residual signal) is obtained and output to the l-th prediction residual signal encoding unit 524.
  • the lch prediction residual signal code key unit 524 encodes the lch prediction residual signal and outputs lch prediction residual encoded data. This lch prediction residual encoded data is multiplexed with other encoded data and quantized code and transmitted to the speech decoding apparatus as encoded data.
  • the second channel prediction parameter analysis unit 525 obtains and quantizes the second channel prediction parameter from the second channel speech signal s_ch2 (n) and the monaural decoded signal, and synthesizes the second channel prediction quantization parameter to the second channel prediction signal synthesis. Output to part 526. Second channel prediction parameter analysis section 525 outputs a second channel prediction parameter quantization code obtained by encoding the second channel prediction quantization parameter. This second channel prediction parameter quantized code is multiplexed with other encoded data and quantized code and transmitted to the speech decoding apparatus as encoded data.
  • Second channel predicted signal synthesis section 526 synthesizes the second channel predicted signal from the monaural decoded signal and the second channel predicted quantization parameter, and outputs the second channel predicted signal to subtractor 527. Details of the 2ch predicted signal synthesis unit 526 will be described later.
  • the subtractor 527 is a difference between the second channel speech signal as the input signal and the second channel prediction signal, that is, a signal of the residual component of the second channel prediction signal with respect to the second channel input speech signal (second channel prediction residual). Difference signal) is output to the second channel prediction residual signal encoding unit 528.
  • Second channel prediction residual signal encoding unit 528 encodes the second channel prediction residual signal and outputs second channel prediction residual encoded data.
  • This second channel prediction residual encoded data is multiplexed with other encoded data and quantized code and transmitted to the speech decoding apparatus as encoded data.
  • the configurations of the l-th channel prediction signal synthesis unit 522 and the 2nd channel prediction signal synthesis unit 526 are as shown in FIG. 6 ⁇ Configuration example 1> or FIG. 7 ⁇ Configuration example 2>.
  • the delay difference (D samples) and amplitude ratio (g) of each channel signal relative to the monaural signal are used as the predictive quantization parameters.
  • the prediction signal of each channel is synthesized from the monaural signal.
  • Configuration Example 1> In configuration example 1, as shown in FIG. 6, the lch predicted signal synthesis unit 522 and the 2nd channel predicted signal synthesis unit 526 include a delay unit 531 and a multiplier 532, and perform the prediction represented by Equation (16). Thus, the prediction signal sp_ch (n) of each channel is synthesized from the monaural decoded signal sd_mono (n).
  • sp_ch ⁇ n) g ⁇ sd_mono (n-D) ⁇ ⁇ ⁇ (1 6)
  • the configuration shown in FIG. 6 is further provided with delay units 533-1 to P, multipliers 534-1 to P, and an adder 535.
  • the prediction coefficient sequence ⁇ a (0), a (l), a (2), , A (P) ⁇ (P is the prediction order, a (0) 1.0)
  • the prediction signal of each channel is obtained from the monaural decoded signal sd_mono (n) by the prediction expressed by Equation (17).
  • sp sinthesizes ch (n).
  • the lch prediction parameter analysis unit 521 and the 2nd channel prediction parameter analysis unit 525 are prediction parameters that minimize distortion Distl and Dist2 expressed by the equations (3) and (4).
  • the prediction quantization parameter obtained by quantizing the prediction parameter is output to the lch prediction signal synthesis unit 522 and the second channel prediction signal synthesis unit 526 having the above configuration.
  • the lch prediction parameter analysis unit 521 and the 2nd channel prediction parameter analysis unit 525 output a prediction parameter quantization code obtained by encoding the prediction quantization parameter.
  • the 1st channel prediction parameter analysis unit 521 and the 2nd channel prediction parameter analysis unit 525 maximize the cross-correlation between the monaural decoded signal and the input speech signal of each channel.
  • the delay difference D and the average amplitude ratio g in units of frames may be obtained as prediction parameters.
  • Speech decoding apparatus 600 shown in FIG. 8 includes core layer decoding section 610 for monaural signals and enhancement layer decoding section 620 for stereo signals. With.
  • the monaural signal decoding unit 611 decodes the encoded data of the input monaural signal, outputs the monaural decoded signal to the enhancement layer decoding unit 620, and outputs it as the final output.
  • the lch prediction parameter decoding unit 621 decodes the input lch prediction parameter quantization code and outputs the lch prediction quantization parameter to the lch prediction signal synthesis unit 622.
  • the lch predicted signal synthesizer 622 has the same configuration as that of the lch predicted signal synthesizer 522 of the speech coding apparatus 500, and the lch audio signal is derived from the monaural decoded signal and the lch predicted quantization parameter. And the l-th channel predicted speech signal is output to the adder 624.
  • the lch prediction residual signal decoding unit 623 decodes the input lch prediction residual code data and outputs the lch prediction residual signal to the adder 624.
  • Adder 624 adds the l-th channel predicted speech signal and the l-th channel prediction residual signal to obtain the l-th channel decoded signal, and outputs it as the final output.
  • second channel prediction parameter decoding section 625 decodes the input second channel prediction parameter quantization code, and outputs the second channel prediction quantization parameter to second channel prediction signal synthesis section 626.
  • the second channel predicted signal synthesizer 626 has the same configuration as the second channel predicted signal synthesizer 526 of the speech coding apparatus 500, and outputs the second channel audio signal from the monaural decoded signal and the second channel predicted quantization parameter. Predict and output the second channel predicted speech signal to the adder 628.
  • Second channel prediction residual signal decoding section 627 decodes the input second channel prediction residual code data and outputs the second channel prediction residual signal to adder 628.
  • Adder 628 adds the second channel predicted speech signal and the second channel predicted residual signal to obtain a second channel decoded signal, and outputs it as the final output.
  • audio decoding apparatus 600 having such a configuration, in a monaural-stereo 'scalable configuration, when the output audio is monaural, a decoded signal obtained only from the code signal data of the monaural signal is monaurally decoded. When output as a signal and the output sound is stereo, all received encoded data and quantized code are used to receive the 1st channel decoding signal. 2 and the 2nd channel decoded signal are decoded and output.
  • CELP coding may be used for coding of the core layer and coding of the enhancement layer.
  • the LPC prediction residual signal of the signal of each channel is predicted using the monaural coded drive sound source signal obtained by CELP coding.
  • the excitation signal is coded in the frequency domain instead of performing the driving excitation search in the time domain.
  • prediction of each channel signal or each channel signal is performed using the intermediate prediction parameter obtained by the monaural signal generation unit 101 and the monaural decoded signal or the monaural driving excitation signal obtained by CELP coding of the monaural signal.
  • the LPC prediction residual signal may be predicted.
  • encoding using prediction from a monaural signal as described above may be performed on only one channel signal of stereo input signals.
  • the speech decoding apparatus generates a decoded signal of the other channel from the decoded monaural signal and one channel signal based on the relationship between the stereo input signal and the monaural signal (Equation (12), etc.). The power to do S.
  • the speech coding apparatus uses the delay time difference and the amplitude ratio between the monaural signal and the signal of each channel as the prediction parameters, and uses the quantization of the second channel prediction parameter as the first channel prediction parameter.
  • FIG. 9 shows the configuration of speech coding apparatus 700 according to the present embodiment.
  • the same components as those in Embodiment 2 (FIG. 5) are denoted by the same reference numerals, and the description thereof is omitted.
  • the second channel prediction parameter analysis unit 701 performs the first channel prediction parameter quantization based on the relationship (dependency) between the first channel prediction parameter and the second channel prediction parameter.
  • the second channel prediction parameter is estimated from the first channel prediction quantization parameter obtained by the first channel prediction parameter analysis unit 521, and efficient quantization is performed using the second channel prediction parameter. More specifically, the following is performed.
  • the lch prediction quantization parameter (delay time difference, amplitude ratio) obtained by the lch prediction parameter analysis unit 521 is Dql and gql
  • the second channel prediction parameter (before quantization) obtained by the analysis is Let D2, g2. Since the monaural signal is a signal generated as an intermediate signal between the 1st channel audio signal and the 2nd channel audio signal as described above, the relevance between the 1st channel prediction parameter and the 2nd channel prediction parameter is large. Therefore, the second ch prediction parameters Dp2 and gp2 are estimated by equations (18) and (19) using the lch prediction quantization parameter.
  • 6D2 D2-Dp2 (2 0)
  • Equations (18) and (19) are examples, and the second channel prediction is performed using another method using the relationship (dependency relationship) between the first channel prediction parameter and the second channel prediction parameter.
  • Parameter estimation and quantization may be performed.
  • a codebook may be prepared by combining the lch prediction parameter and the 2ch prediction parameter as a set, and quantization may be performed by vector quantization.
  • analysis and quantization of the lch prediction parameter and the 2ch prediction parameter may be performed using the intermediate prediction parameter obtained by the configuration of FIG. 2 or FIG. In this case, since the 1st ch prediction parameter and the 2nd ch prediction parameter can be estimated in advance, the amount of computation required for the analysis can be reduced.
  • the configuration of the speech decoding apparatus according to the present embodiment is substantially the same as that of Embodiment 2 (Fig. 8). However, the 2nd ch prediction parameter decoding unit 625 The difference is that a decoding process corresponding to the configuration of speech coding apparatus 700 is performed, such as decoding using the l-th prediction quantization parameter at the time of decoding.
  • FIG. 10 shows the configuration of monaural signal generation unit 101 according to the present embodiment.
  • the same components as those in Embodiment 1 (FIG. 2) are denoted by the same reference numerals, and description thereof is omitted.
  • Correlation determining section 801 calculates the degree of correlation between the 1st channel audio signal and the 2nd channel audio signal, and determines whether or not the level of correlation is greater than a threshold value. Correlation determining section 801 controls switching sections 802 and 804 based on the determination result. The calculation of the degree of correlation and the threshold determination are performed, for example, by obtaining the maximum value (normalized value) of the cross-correlation function between signals of each channel and comparing it with a predetermined threshold.
  • Correlation determining section 801 switches switching section 802 so that the lch audio signal and the 2ch audio signal are input to inter-channel prediction analysis section 201 and monaural signal calculation section 203 when the degree of correlation is greater than the threshold. And switching the switching unit 804 to the monaural signal calculation unit 203 side. As a result, when the correlation between the 1st channel and the 2nd channel is larger than the threshold value, a monaural signal is generated as described in the first embodiment.
  • correlation determination unit 801 switches switching unit 802 so that the lch audio signal and the 2nd channel audio signal are input to average value signal calculation unit 803, and the switching The unit 804 is switched to the average value signal calculation unit 803 side. Therefore, in this case, the average value signal calculation unit 803 calculates the average value signal s_av (n) of the lch audio signal and the 2nd audio signal according to the equation (22), and outputs it as a monaural signal. .
  • the signal of the average value of the lch audio signal and the 2ch audio signal Monaural Therefore, sound quality degradation can be prevented when the correlation between the 1st channel audio signal and the 2nd channel audio signal is small.
  • encoding is performed in an appropriate encoding mode based on the correlation between the two channels, it is possible to improve code efficiency.
  • the monaural signal generated by switching the generation method based on the correlation between the lch and the second ch as described above corresponds to the correlation between the lch and the second ch.
  • Scalable encoding may be performed. If the correlation between channel 1 and channel 2 is greater than the threshold, the structure shown in Embodiment 2 or 3 is used to encode the monaural signal in the core layer and use the monaural decoded signal in the enhancement layer. Encoding is performed using the signal prediction of each channel. On the other hand, if the correlation between the 1st channel and the 2nd channel is below the threshold value, it is suitable for the case where the correlation between the two channels is low in the enhancement layer after the code signal is applied to the monaural signal in the core layer.
  • Encode with another scalable configuration Coding with another scalable configuration suitable for low correlation is, for example, a method that directly encodes the differential signal between the signal of each channel and the monaural decoded signal without using inter-channel prediction.
  • the monaural driving sound source signal is directly used in the enhancement layer code key without using inter-channel prediction. There are methods such as encoding.
  • the enhancement layer coding unit performs coding coding only for the lch, and uses the quantized intermediate prediction parameter in the coding for the lch. Performs prediction signal synthesis.
  • FIG. 11 shows the configuration of speech encoding apparatus 900 according to the present embodiment. In FIG. 11, the same components as those of the second embodiment (FIG. 5) are denoted by the same reference numerals, and the description thereof is omitted.
  • monaural signal generation unit 101 employs the configuration shown in FIG. That is, the monaural signal generation unit 101 includes an intermediate prediction parameter quantization unit 204.
  • the intermediate prediction parameter quantization unit 204 quantizes the intermediate prediction parameter to quantize the intermediate prediction parameter and the intermediate prediction parameter quantization code. Is output.
  • the quantized intermediate prediction parameter is obtained by quantizing D, D, g, and g. Quantized intermediate prediction
  • the parameters are input to the l-th channel prediction signal combining unit 901 of the enhancement layer code key unit 520.
  • Ma The intermediate prediction parameter quantization code is multiplexed with the monaural signal encoded data and the l-th channel prediction residual encoded data, and transmitted to the speech decoding apparatus as encoded data.
  • lch prediction signal combining section 901 combines the lch prediction signal from the monaural decoded signal and the quantized intermediate prediction parameter, and outputs the lch prediction signal to subtractor 523. To do. Specifically, the l-th ch predicted signal synthesis unit 901 synthesizes the l-th ch predicted signal sp_chl (n) from the monaural decoded signal sd_mono (n) by the prediction represented by Expression (23).
  • FIG. 12 shows the configuration of speech decoding apparatus 1000 according to the present embodiment.
  • the same components as those in the second embodiment are denoted by the same reference numerals, and the description thereof is omitted.
  • intermediate prediction parameter decoding section 1001 decodes the input intermediate prediction parameter quantized code, and the quantized intermediate prediction parameters are converted into lch prediction signal synthesis section 1002 and second channel decoding. Output to signal generator 1003.
  • First lch predicted signal synthesizer 1002 predicts the monaural decoded signal, the quantized intermediate prediction parameter, and the first lch speech signal, and outputs the lch predicted speech signal to adder 624. Specifically, the l-ch predicted signal synthesizer 1002 performs the monaural decoded signal sdjno no (n) by the prediction expressed by the above equation (23), similarly to the l-ch predicted signal synthesizer 901 of the speech coding apparatus 900. ) To synthesize the prediction signal sp_chl (n) of the l-th channel.
  • second channel decoded signal generation section 1003 generates a second channel decoded signal from the quantized intermediate prediction parameter, the monaural decoded signal and the first channel decoded signal.
  • second channel decoded signal generation section 1003 generates the second channel decoded signal according to equation (24) obtained from the relationship of equation (13) above.
  • sd_chl l-th channel decoded signal.
  • enhancement layer code key section 520 synthesizes the prediction signal of only the lch, but as the configuration of synthesis of the prediction signal of only the 2nd channel instead of the lch. Also good. That is, in this embodiment, enhancement layer coding section 520 employs a configuration in which only one channel of a stereo signal is coded.
  • enhancement layer coding section 520 is configured to encode only one channel of a stereo signal, and synthesizes the prediction signal of that one channel. Since the prediction parameter to be used is shared with the intermediate prediction meter for monaural signal generation, the coding efficiency can be improved. In addition, since the enhancement layer encoding unit 520 is configured to encode only one channel of the stereo signal, the encoding efficiency of the enhancement layer encoding unit is improved compared to the configuration of encoding both channels. By doing so, a low bit rate can be achieved.
  • the encoded data is transmitted to the speech decoding apparatus 1000, and the parameter D, g force equation (27) to (
  • a plurality of candidates for intermediate prediction parameters are prepared, and among the plurality of candidates, coding distortion after coding in enhancement layer coding section 520 (distortion only in enhancement layer coding section 520, or The intermediate prediction parameter that minimizes the sum of the distortion of the core layer coding unit 510 and the distortion of the enhancement layer coding unit 520) may be used for the coding in the enhancement layer coding unit 520. Good. As a result, it is possible to select an optimum parameter that can improve the prediction performance when the prediction signal is synthesized in the enhancement layer, and to further improve the sound quality.
  • the specific procedure is as follows.
  • the monaural signal generation unit 101 outputs a plurality of candidate intermediate prediction parameters, and outputs a monaural signal generated corresponding to each candidate. For example, a predetermined number of intermediate prediction parameters are output as a plurality of candidates in order for a power having a small prediction distortion or having a large cross-correlation between signals of each channel.
  • the monaural signal encoding unit 102 performs monaural signal encoding using the monaural signal generated corresponding to the plurality of intermediate prediction parameter candidates, and outputs monaural signal encoded data and data for each of the plurality of candidates.
  • Output coding distortion (monaural signal coding distortion).
  • Step 3 lch coding>
  • enhancement layer coding section 520 a plurality of l-th channel prediction signals are combined using a plurality of candidate intermediate prediction parameters to perform l-channel coding, and encoded data (l-th channel prediction residual code) is encoded for each of the plurality of candidates.
  • encoded data l-th channel prediction residual code
  • Output and encoding distortion (stereo encoding distortion).
  • enhancement layer coding section 520 among the plurality of candidate intermediate prediction parameters, the sum of the coding distortion obtained in step 2 and step 3 (or the sum of the coding distortion obtained in step 2 or step The intermediate prediction parameter with the smallest power of the total coding distortion obtained in step 3 is determined as the parameter to be used for encoding, and the monaural signal encoded data and intermediate prediction parameter quantization code corresponding to the intermediate prediction parameter are determined. And the l-th channel prediction residual code data is transmitted to the speech decoding apparatus 1000.
  • the intermediate prediction parameter is not transmitted (selection information (1 as the selection flag for the normal monauralization mode) Bit) (only bit) is transmitted).
  • Selection information (1 as the selection flag for the normal monauralization mode) Bit
  • Encoding may be performed by the tension layer code key unit 520. In this way, it is possible to achieve optimal encoding based on the codeh distortion minimization criterion including the normal monaural mode as a candidate, and it is not necessary to transmit intermediate prediction parameters when the normal monaural mode is selected. The sound quality can be improved by assigning bits to other code data.
  • CELP coding may be used for coding of the core layer and coding of the enhancement layer.
  • the enhancement layer performs prediction of the LPC prediction residual signal of the signal of each channel using the monaural coded driving excitation signal obtained by the CELP code.
  • the excitation signal is coded in the frequency domain instead of performing the driving excitation search in the time domain.
  • the speech encoding apparatus and speech decoding apparatus are mounted on a wireless communication apparatus such as a wireless communication mobile station apparatus or a wireless communication base station apparatus used in a mobile communication system. Is also possible.
  • Each functional block used in the description of each of the above embodiments is typically realized as an LSI which is an integrated circuit. These may be individually arranged on one chip, or may be integrated into one chip so as to include a part or all of them.
  • IC integrated circuit
  • system LSI system LSI
  • super LSI super LSI
  • unilera LSI depending on the difference in power integration as LSI.
  • the method of circuit integration is not limited to LSI's, and implementation using dedicated circuitry or general purpose processors is also possible.
  • FPGA Field Programmable Gate Array
  • the present invention can be applied to the use of a communication device in a mobile communication system or a packet communication system using the Internet protocol.

Abstract

 ステレオ信号から適切なモノラル信号を生成して、モノラル信号の符号化効率の低下を抑えることができる音声符号化装置。この装置のモノラル信号生成部101において、チャネル間予測分析部201は、第1ch音声信号と第2ch音声信号と間の遅延差および振幅比を基本とする予測パラメータを求め、中間予測パラメータ生成部202は、最終的に生成されるモノラル信号を第1ch音声信号と第2ch音声信号の中間的な信号とするために、予測パラメータの中間的なパラメータ(中間予測パラメータという)を求め、モノラル信号算出部203は、中間予測パラメータを用いてモノラル信号を算出する。

Description

明 細 書
音声符号化装置および音声符号化方法
技術分野
[0001] 本発明は、音声符号化装置および音声符号化方法に関し、特に、ステレオの音声 入力信号からモノラル信号を生成して符号化する音声符号化装置および音声符号 化方法に関する。
背景技術
[0002] 移動体通信や IP通信での伝送帯域の広帯域化、サービスの多様化に伴い、音声 通信において高音質化、高臨場感化のニーズが高まっている。例えば、今後、テレ ビ電話サービスにおけるハンズフリー形態での通話、テレビ会議における音声通信、 多地点で複数話者が同時に会話を行うような多地点音声通信、臨場感を保持したま ま周囲の音環境を伝送できるような音声通信などの需要が増加すると見込まれる。そ の場合、モノラル信号より臨場感があり、また複数話者の発話位置が認識できるよう な、ステレオ音声による音声通信を実現することが望まれる。このようなステレオ音声 による音声通信を実現するためには、ステレオ音声の符号ィヒが必須となる。
[0003] また、 IPネットワーク上での音声データ通信において、ネットワーク上のトラフィック 制御やマルチキャスト通信実現のために、スケーラブルな構成を有する音声符号ィ匕 が望まれている。スケーラブルな構成とは、受信側で部分的な符号化データからでも 音声データの復号が可能な構成をレ、う。
[0004] よって、ステレオ音声を符号化し伝送する場合にも、ステレオ信号の復号と、符号 化データの一部を用いたモノラル信号の復号とを受信側において選択可能な、モノ ラル一ステレオ間でのスケーラブル構成(モノラル一ステレオ.スケーラブル構成)を 有する符号化が望まれる。
[0005] このような、モノラル一ステレオ'スケーラブル構成を有する音声符号ィ匕においては 、ステレオの入力信号からモノラル信号を生成する。モノラル信号の生成方法として は、例えば、ステレオ信号の双方のチャネル (以下、適宜「(^」と略す)の信号を平均 してモノラル信号を得るものがある (非特許文献 1参照)。 非特許文献 1 : ISO/IEC 14496-3," Information Technology - Coding of audio-visual objects - Part 3: Audio , subpart-4, 4.B.14 Scalable AAC with core coder, pp.304- 305, Sep. 2000.
発明の開示
発明が解決しょうとする課題
[0006] し力しながら、単にステレオ信号の双方のチャネルの信号を平均してモノラル信号 を生成すると、特に音声では、入力されるステレオ信号に対して歪みが生じたモノラ ル信号となってしまったり、入力されるステレオ信号とは波形形状が大きく異なったモ ノラル信号となってしまうことがある。つまり、本来伝送すべき入力信号から劣化した 信号または本来伝送すべき入力信号とは異なった信号が伝送されることになつてし まうことがある。また、入力されるステレオ信号に対して歪みが生じたモノラル信号や 入力されるステレオ信号とは波形形状が大きく異なったモノラル信号を CELP符号ィ匕 などの音声信号固有の特性に適した符号化モデルによって符号化すると、音声信号 固有の特性とは異なる複雑な信号を符号ィ匕対象とすることになつてしまい、その結果 、符号化効率の低下を招く。
[0007] 本発明の目的は、ステレオ信号から適切なモノラル信号を生成して、モノラル信号 の符号化効率の低下を抑えることができる音声符号化装置および音声符号化方法 を提供することである。
課題を解決するための手段
[0008] 本発明の音声符号化装置は、第 1チャネル信号および第 2チャネル信号を含むス テレオ信号を入力信号として、前記第 1チャネル信号と前記第 2チャネル信号との時 間差、および、前記第 1チャネル信号と前記第 2チャネル信号との振幅比に基づいて 、前記第 1チャネル信号および前記第 2チャネル信号からモノラル信号を生成する第 1生成手段と、前記モノラル信号を符号化する符号化手段と、を具備する構成を採る 発明の効果
[0009] 本発明によれば、ステレオ信号力 適切なモノラル信号を生成して、モノラル信号 の符号ィヒ効率の低下を抑えることができる。
図面の簡単な説明
[0010] [図 1]本発明の実施の形態 1に係る音声符号化装置の構成を示すブロック図
[図 2]本発明の実施の形態 1に係るモノラル信号生成部の構成を示すブロック図 [図 3]本発明の実施の形態 1に係る信号波形図
[図 4]本発明の実施の形態 1に係るモノラル信号生成部の構成を示すブロック図 [図 5]本発明の実施の形態 2に係る音声符号化装置の構成を示すブロック図
[図 6]本発明の実施の形態 2に係る第 lch、第 2ch予測信号合成部の構成を示すブ ロック図
[図 7]本発明の実施の形態 2に係る第 lch、第 2ch予測信号合成部の構成を示すブ ロック図
[図 8]本発明の実施の形態 2に係る音声復号装置の構成を示すブロック図
[図 9]本発明の実施の形態 3に係る音声符号化装置の構成を示すブロック図
[図 10]本発明の実施の形態 4に係るモノラル信号生成部の構成を示すブロック図 [図 11]本発明の実施の形態 5に係る音声符号化装置の構成を示すブロック図
[図 12]本発明の実施の形態 5に係る音声復号装置の構成を示すブロック図 発明を実施するための最良の形態
[0011] 以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。なお
、以下の説明では、フレーム単位での動作を前提にして説明する。
[0012] (実施の形態 1)
本実施の形態に係る音声符号化装置の構成を図 1に示す。図 1に示す音声符号 化装置 10は、モノラル信号生成部 101とモノラル信号符号ィ匕部 102とを備える。
[0013] モノラル信号生成部 101は、ステレオの入力音声信号 (第 l ch音声信号、第 2ch音 声信号)からモノラル信号を生成してモノラル信号符号ィ匕部 102へ出力する。モノラ ル信号生成部 101の詳細については後述する。
[0014] モノラル信号符号ィ匕部 102は、モノラル信号を符号化して、モノラル信号に対する 音声符号化データであるモノラル信号符号化データを出力する。モノラル信号符号 化部 102は、任意の符号化方式を用いてモノラル信号を符号ィ匕することができる。例 えば、音声信号の効率的符号化に適した CELP符号化をベースとする符号化方式 を用いることができる。また、その他の音声符号化方式や、 AAC (Advanced Audio C oding)に代表されるオーディオ符号化方式を用いてもょレ、。
[0015] 次いで、モノラル信号生成部 101の詳細について図 2を用いて説明する。この図に 示すように、モノラル信号生成部 101は、チャネル間予測分析部 201、中間予測パラ メータ生成部 202およびモノラル信号算出部 203を備える。
[0016] チャネル間予測分析部 201は、第 lch音声信号および第 2ch音声信号から両チヤ ネル間の予測パラメータを分析により求める。この予測パラメータは、第 lch音声信 号と第 2ch音声信号との間の相関性を利用してチャネル信号間相互の予測を可能と するパラメータであり、両チャネル間の遅延差と振幅比を基本とするパラメータである 。具体的には、第 2ch音声信号 S_ch2(n)から予測される第 lch音声信号 Sp_chl(n)、 および、第 lch音声信号 s_chl(n)力も予測される第 2ch音声信号 sp_Ch2(n)を式(1) および(2)で表した際のチャネル間相互の遅延差 D 、 D および振幅比(フレーム単
12 21
位の平均振幅の比) g 、 g を予測パラメータとする。
12 21
[数 1]
sp_chl (n) = g21 · s一 ch2 (n — D21) ただし、 n=0〜NF - 1 … ( 1 )
sp_ch2 (n) = g12 · s_chl (n - D12) ただし、 n=0〜NF- 1 ··■ ( 2 )
[0017] ここで、 sp_chl(n) :第 lchの予測信号、 g :第 2ch入力信号に対する第 lch入力信
21
号の振幅比、 s_ch2(n) :第 2chの入力信号、 D :第 2ch入力信号に対する第 lch入力
21
信号の遅延時間差、 Sp_ch2(n) :第 2chの予測信号、 g :第 lch入力信号に対する第
12
2ch入力信号の振幅比、 S_chl(n) :第 l chの入力信号、 D :第 lch入力信号に対する
12
第 2ch入力信号の遅延時間差、 NF:フレーム長である。
[0018] そして、チャネル間予測分析部 201は、式(3)および (4)で表される歪み、すなわ ち、各チャネルの入力音声信号 s_chl(n)、 s_ch2(n) (n=0〜NF_l)と式(1 )および(2)に 従って予測される各チャネルの予測信号 sp_chl(n)、 sp_ch2(n)との歪み Distl、 Dist2を 最小とするような予測パラメータ g 、 D 、 g 、 D を求めて、中間予測パラメータ生成
21 21 12 12
部 202へ出力する。
[数 2] Distl - ∑ { s— chl(n) - sp_chl (n) } 2 ··· (3)
n=0
NF-1
Dist2 = ∑ { s_ch2 (n) - sp_ch2 (n) } 2 … (4)
[0019] なお、チャネル間予測分析部 201は、歪み Distl、 Dist2を最小とするように予測パラ メータを求める代わりに、チャネル信号間の相互相関を最大にするような遅延時間差 や、フレーム単位のチャネル信号間の平均振幅比を求めて予測パラメータとしてもよ レ、。
[0020] 中間予測パラメータ生成部 202は、最終的に生成されるモノラル信号を第 lch音声 信号と第 2ch音声信号の中間的な信号とするために、予測パラメータ D 、D 、g 、g
12 21 12 2 の中間的なパラメータ(以下、中間予測パラメータという) D 、D 、g 、g を式(5)
1 lm 2 m lm 2m
〜(8)により求めて、モノラル信号算出部 203へ出力する。
[数 3]
Dlm = D1212 … (5)
D2a = D2112 … (6)
gin = ■f gl2 ·· • (7)
Sz = f g2l ·'' • (8)
[0021] ここで、 D 、g :第 lchを基準とする中間予測パラメータ(遅延時間差、振幅比)、 D lm lm
、 g :第 2chを基準とする中間予測パラメータ (遅延時間差、振幅比)である。
2m 2m
[0022] なお、式(5)〜(8)の代わりに、第 lch音声信号に対する第 2ch音声信号の遅延時 間差 D および振幅比 g のみから、式(9)〜(12)により中間予測パラメータを求めて
12 12
もよレ、。また、逆に、第 2ch音声信号に対する第 lch音声信号の遅延時間差 D およ
21 び振幅比 g のみから同様にして中間予測パラメータを求めてもよい。
21
[数 4]
Dlm = D12 / 2 … (9)
D2m= DlB - D12 ··■ (10)
in = gi2 ■"· (I D
g2n = 1 / glB … (1 2)
[0023] また、振幅比 g 、g は、式(7)、(8)、(11)、(12)により求める代わりに、固定値(
lm 2 m
例えば 1.0)としてもよい。さらに、 D 、D 、g 、g を時間的に平均化した値を中間
lm 2m lm 2m
予測パラメータとしてもよレ、。 [0024] さらに、中間予測パラメータの算出方法は、第 lchと第 2chとの間の遅延時間差お よび振幅比の中間付近の値が算出される方法であれば、上記以外の方法を用いるこ とちできる。
[0025] モノラル信号算出部 203は、中間予測パラメータ生成部 202で得られた中間予測 パラメータを用いて、式(13)によりモノラル信号 s_mon0(n)を算出する。
[数 5]
s_mono (n) = {glu · s— chl (n - Dln) + g2m · s_ch2 (n - D2ni) } / 2
ただし、 n=0〜NF- 1 · · · ( 1 3 )
[0026] なお、上記のように双方のチャネルの入力音声信号を用いてモノラル信号を生成 する代わりに、一方のチャネルの入力音声信号のみからモノラル信号を算出するよう にしてもよい。
[0027] ここで、図 3に、モノラル信号生成部 101に入力される第 lch音声信号の波形 31お よび第 2ch音声信号の波形 32の一例を示す。この場合、モノラル信号生成部 101に よって、これら第 lch音声信号および第 2ch音声信号から生成されるモノラル信号を 図示すると波形 33に示すようになる。なお、波形 34は、第 lch音声信号および第 2c h音声信号を単に平均して生成したモノラル信号 (従来)である。
[0028] 第 lch音声信号 (波形 31)と第 2ch音声信号 (波形 32)との間に図示するような遅 延時間差、振幅比がある場合、モノラル信号生成部 101で得られるモノラル信号の 波形 33は、第 lch音声信号および第 2ch音声信号の双方に類似し、かつ、中間的 な遅延時間および振幅を有する波形となる。一方、従来方法により生成したモノラル 信号 (波形 34)は、波形 33に比べ、第 lch音声信号および第 2ch音声信号とは波形 の類似性が小さい。これは、両チャネル間の遅延時間差および振幅比が両チャネル 間の中間的な値となるようにして生成されたモノラル信号(波形 33)は、両チャネルの 音声信号が出力された空間的な 2地点の中間地点で受信された信号に近似的に相 当するため、空間的特性が考慮されずに生成されたモノラル信号 (波形 34)に比べ、 モノラル信号としてより適切な信号、すなわち、入力信号に類似した歪みの少ない信 号となるからである。
[0029] また、両チャネルの信号を単に平均して生成したモノラル信号(波形 34)は、両チヤ ネルの信号間の遅延時間差や振幅比を考慮せずに単純な平均値算出により生成さ れる信号のため、両チャネルの信号間の遅延時間差が大きい場合などには、両チヤ ネルの音声信号が時間的にずれたまま重畳されてしまい、入力音声信号に対して歪 みが生じたり波形が大きく異なった信号となる。その結果、モノラル信号を CELP符 号化などの音声信号の特性に合わせた符号化モデルで符号化する際に、符号化効 率の低下を招く。
[0030] これに対し、モノラル信号生成部 101で得られるモノラル信号 (波形 33)は、両チヤ ネルの音声信号間の遅延時間差を小さくするように調整された信号であるため、入 力音声信号に類似した歪みの小さい信号となる。よって、モノラル信号符号ィ匕時の符 号化効率の低下を抑えることができる。
[0031] なお、モノラル信号生成部 101を以下のようにしてもよい。
[0032] すなわち、予測パラメータとして、遅延時間差および振幅比に加えてさらに別のパ ラメータを用いてもよい。例えば、チャネル間相互の予測が式(14)および(15)により 表される場合、両チャネル信号間の遅延時間差、振幅比および予測係数列 {a (0),a (l),a (2), - - - ,a (P) } (P :予測次数、 a (0)=1·0、(k,l)=(l,2)0r(2, l))を予測パラメータとす kl kl kl
る。
圆 sp_chl (n) = ∑ { g21 · a21 (k) · sp_ch2 (n - D21 - k) } … (1 4 ) sp_ch2 (n) = ∑ { g12 · a12 (k) · sp_chl (n - D12 - k) } " ' ( 1 5 )
[0033] また、第 lch音声信号および第 2ch音声信号を 2つ以上の周波数帯域に帯域分割 して帯域別の入力信号を生成し、その全ての帯域または一部の帯域の信号に対して 、帯域毎に上記同様にしてモノラル信号を生成してもよい。
[0034] また、中間予測パラメータ生成部 202で得られる中間予測パラメータを符号化デー タと共に伝送したり、中間予測パラメータを後段の符号ィ匕で用レ、て符号化の際に必 要な演算量を削減するために、図 4に示すように、モノラル信号生成部 101に、中間 予測パラメータを量子化して量子化中間予測パラメータおよび中間予測パラメータ量 子化符号を出力する中間予測パラメータ量子化部 204を備えてもよい。 [0035] (実施の形態 2)
本実施の形態では、モノラル—ステレオ'スケーラブル構成を有する音声符号化に ついて説明する。本実施の形態に係る音声符号化装置の構成を図 5に示す。図 5に 示す音声符号化装置 500は、モノラル信号のためのコアレイヤ符号化部 510とステ レオ信号のための拡張レイヤ符号化部 520とを備える。また、コアレイヤ符号化部 51 0は、実施の形態 1に係る音声符号化装置 10 (図 1:モノラル信号生成部 101および モノラル信号符号化部 102)を備える。
[0036] コアレイヤ符号化部 510において、モノラル信号生成部 101は、実施の形態 1にお いて説明したようにしてモノラル信号 s_mono(n)を生成し、モノラル信号符号化部 102 に出力する。
[0037] モノラル信号符号ィ匕部 102は、モノラル信号に対する符号化を行い、このモノラノレ 信号の符号ィ匕データをモノラル信号復号部 511に出力する。また、このモノラル信号 の符号化データは、拡張レイヤ符号化部 520から出力される量子化符号や符号化 データと多重されて符号化データとして音声復号装置へ伝送される。
[0038] モノラル信号復号部 511は、モノラル信号の符号ィヒデータからモノラルの復号信号 を生成して拡張レイヤ符号ィ匕部 520に出力する。
[0039] 拡張レイヤ符号化部 520において、第 lch予測パラメータ分析部 521は、第 lch音 声信号 s_chl(n)とモノラル復号信号とから第 lch予測パラメータを求めて量子化し、第 lch予測量子化パラメータを第 lch予測信号合成部 522に出力する。また、第 lch 予測パラメータ分析部 521は、第 lch予測量子化パラメータを符号ィ匕した第 lch予 測パラメータ量子化符号を出力する。この第 lch予測パラメータ量子化符号は他の 符号化データや量子化符号と多重されて符号化データとして音声復号装置へ伝送 される。
[0040] 第 lch予測信号合成部 522は、モノラル復号信号と第 lch予測量子化パラメータと 力 第 lch予測信号を合成し、その第 lch予測信号を減算器 523に出力する。第 l c h予測信号合成部 522の詳細については後述する。
[0041] 減算器 523は、入力信号である第 lch音声信号と第 lch予測信号との差、すなわ ち、第 lch入力音声信号に対する第 lch予測信号の残差成分の信号 (第 lch予測 残差信号)を求め、第 lch予測残差信号符号化部 524に出力する。
[0042] 第 lch予測残差信号符号ィ匕部 524は、第 lch予測残差信号を符号化して第 lch 予測残差符号化データを出力する。この第 lch予測残差符号化データは他の符号 化データや量子化符号と多重されて符号化データとして音声復号装置へ伝送される
[0043] 一方、第 2ch予測パラメータ分析部 525は、第 2ch音声信号 s_ch2(n)とモノラル復号 信号とから第 2ch予測パラメータを求めて量子化し、第 2ch予測量子化パラメータを 第 2ch予測信号合成部 526に出力する。また、第 2ch予測パラメータ分析部 525は、 第 2ch予測量子化パラメータを符号化した第 2ch予測パラメータ量子化符号を出力 する。この第 2ch予測パラメータ量子化符号は他の符号化データや量子化符号と多 重されて符号化データとして音声復号装置へ伝送される。
[0044] 第 2ch予測信号合成部 526は、モノラル復号信号と第 2ch予測量子化パラメータと から第 2ch予測信号を合成し、その第 2ch予測信号を減算器 527に出力する。第 2c h予測信号合成部 526の詳細については後述する。
[0045] 減算器 527は、入力信号である第 2ch音声信号と第 2ch予測信号との差、すなわ ち、第 2ch入力音声信号に対する第 2ch予測信号の残差成分の信号 (第 2ch予測 残差信号)を求め、第 2ch予測残差信号符号化部 528に出力する。
[0046] 第 2ch予測残差信号符号ィ匕部 528は、第 2ch予測残差信号を符号化して第 2ch 予測残差符号化データを出力する。この第 2ch予測残差符号化データは他の符号 化データや量子化符号と多重されて符号化データとして音声復号装置へ伝送される
[0047] 次いで、第 lch予測信号合成部 522および第 2ch予測信号合成部 526の詳細に ついて説明する。第 lch予測信号合成部 522および第 2ch予測信号合成部 526の 構成は図 6 <構成例 1 >または図 7 <構成例 2 >に示すようになる。構成例 1および 2 のいずれも、モノラル信号と各チャネル信号との間の相関性に基づき、モノラル信号 に対する各チャネル信号の遅延差 (Dサンプル)および振幅比(g)を予測量子化パラ メータとして用いて、モノラル信号から各チャネルの予測信号を合成する。
[0048] ぐ構成例 1 > 構成例 1では、図 6に示すように、第 lch予測信号合成部 522および第 2ch予測信 号合成部 526は、遅延器 531および乗算器 532を備え、式(16)で表される予測によ り、モノラル復号信号 sd_mono(n)から、各チャネルの予測信号 sp_ch(n)を合成する。
[数 7]
sp_ch ^n) = g · sd_mono (n - D) · · · ( 1 6 )
[0049] <構成例 2 >
構成例 2では、図 7に示すように、図 6に示す構成にさらに、遅延器 533— 1〜P、乗 算器 534— 1〜Pおよび加算器 535を備える。そして、予測量子化パラメータとして、 モノラル信号に対する各チャネル信号の遅延差 (Dサンプル)および振幅比(g)の他 に、予測係数列 {a(0),a(l), a(2), · · · , a(P)} (Pは予測次数、 a(0)=1.0)を用い、式(17) で表される予測により、モノラル復号信号 sd_mono(n)から、各チャネルの予測信号 sp— ch(n)を合成する。
[数 8] sp一 ch (rv = ∑ { g - a (k) · sd_mono (n — D — kノ } · ·■ ( 1 7 )
[0050] これに対し、第 lch予測パラメータ分析部 521および第 2ch予測パラメータ分析部 525は、式(3)および(4)で表される歪み Distl、 Dist2を最小とするような予測パラメ ータを求め、その予測パラメータを量子化した予測量子化パラメータを、上記構成を 採る第 lch予測信号合成部 522および第 2ch予測信号合成部 526に出力する。ま た、第 lch予測パラメータ分析部 521および第 2ch予測パラメータ分析部 525は、予 測量子化パラメータを符号ィヒした予測パラメータ量子化符号を出力する。
[0051] なお、構成例 1に対しては、第 lch予測パラメータ分析部 521および第 2ch予測パ ラメータ分析部 525は、モノラル復号信号と各チャネルの入力音声信号との間の相 互相関を最大にするような遅延差 Dおよびフレーム単位の平均振幅の比 gを予測パ ラメータとして求めてもよい。
[0052] 次いで、本実施の形態に係る音声復号装置について説明する。本実施の形態に 係る音声復号装置の構成を図 8に示す。図 8に示す音声復号装置 600は、モノラル 信号のためのコアレイヤ復号部 610と、ステレオ信号のための拡張レイヤ復号部 620 とを備える。
[0053] モノラル信号復号部 611は、入力されるモノラル信号の符号化データを復号し、モ ノラル復号信号を拡張レイヤ復号部 620に出力するとともに、最終出力として出力す る。
[0054] 第 lch予測パラメータ復号部 621は、入力される第 lch予測パラメータ量子化符号 を復号して、第 lch予測量子化パラメータを第 lch予測信号合成部 622に出力する
[0055] 第 lch予測信号合成部 622は、音声符号化装置 500の第 lch予測信号合成部 52 2と同じ構成を採り、モノラル復号信号と第 l ch予測量子化パラメータとから第 lch音 声信号を予測し、その第 lch予測音声信号を加算器 624に出力する。
[0056] 第 lch予測残差信号復号部 623は、入力される第 lch予測残差符号ィ匕データを復 号し、第 lch予測残差信号を加算器 624に出力する。
[0057] 加算器 624は、第 lch予測音声信号と第 lch予測残差信号とを加算して第 l chの 復号信号を求め、最終出力として出力する。
[0058] 一方、第 2ch予測パラメータ復号部 625は、入力される第 2ch予測パラメータ量子 化符号を復号して、第 2ch予測量子化パラメータを第 2ch予測信号合成部 626に出 力する。
[0059] 第 2ch予測信号合成部 626は、音声符号化装置 500の第 2ch予測信号合成部 52 6と同じ構成を採り、モノラル復号信号と第 2ch予測量子化パラメータとから第 2ch音 声信号を予測し、その第 2ch予測音声信号を加算器 628に出力する。
[0060] 第 2ch予測残差信号復号部 627は、入力される第 2ch予測残差符号ィ匕データを復 号し、第 2ch予測残差信号を加算器 628に出力する。
[0061] 加算器 628は、第 2ch予測音声信号と第 2ch予測残差信号とを加算して第 2chの 復号信号を求め、最終出力として出力する。
[0062] このような構成を採る音声復号装置 600では、モノラル—ステレオ'スケーラブル構 成において、出力音声をモノラルとする場合は、モノラル信号の符号ィ匕データのみか ら得られる復号信号をモノラル復号信号として出力し、出力音声をステレオとする場 合は、受信される符号化データおよび量子化符号のすべてを用いて第 lch復号信 号および第 2ch復号信号を復号して出力する。
[0063] このように、本実施の形態によれば、第 lch音声信号および第 2ch音声信号の双 方に類似し、かつ、中間的な遅延時間および振幅を有するモノラル信号を復号して 得られるモノラル復号信号を用いて第 lch予測信号および第 2ch予測信号を合成す るため、こられの予測信号の予測性能を向上させることができる。
[0064] なお、コアレイヤの符号ィ匕および拡張レイヤの符号化に CELP符号化を用いてもよ レ、。この場合、拡張レイヤでは、 CELP符号化により得られるモノラル符号化駆動音 源信号を用いて、各チャネルの信号の LPC予測残差信号の予測を行う。
[0065] また、コアレイヤの符号化および拡張レイヤの符号ィ匕として CELP符号化を用いる 場合に、時間領域での駆動音源探索を行う代わりに、周波数領域での音源信号の 符号化を行うようにしてもょレ、。
[0066] また、モノラル信号生成部 101で得られた中間予測パラメータと、モノラル復号信号 またはモノラル信号の CELP符号化により得られるモノラル駆動音源信号とを用いて 、各チャネル信号の予測または各チャネル信号の LPC予測残差信号の予測を行うよ うにしてもよい。
[0067] さらに、ステレオ入力信号のうち一方のチャネル信号のみを対象にして、上記で説 明したようなモノラル信号からの予測を用いた符号化を行うようにしてもよい。この場 合、音声復号装置では、ステレオ入力信号とモノラル信号との関係 (式 (12)等)に基 づレ、て、復号モノラル信号と一方のチャネル信号とから他方のチャネルの復号信号 を生成すること力 Sできる。
[0068] (実施の形態 3)
本実施の形態に係る音声符号化装置は、モノラル信号と各チャネルの信号との間 の遅延時間差および振幅比を予測パラメータとして用い、かつ、第 2ch予測パラメ一 タの量子化を第 lch予測パラメータを用いて行う。本実施の形態に係る音声符号ィ匕 装置 700の構成を図 9に示す。なお、図 9において実施の形態 2 (図 5)と同一の構成 には同一符号を付し、説明を省略する。
[0069] 第 2ch予測パラメータ分析部 701は、第 2ch予測パラメータの量子化において、第 lch予測パラメータと第 2ch予測パラメータとの間の関連性 (依存関係)に基づき、第 lch予測パラメータ分析部 521で得られた第 lch予測量子化パラメータから第 2ch予 測パラメータを推定し、その第 2ch予測ノ メータを利用して効率的な量子化を行う。 より具体的には、以下のようにする。
[0070] 第 lch予測パラメータ分析部 521で得られた第 lch予測量子化パラメータ(遅延時 間差、振幅比)を Dql、 gqlとし、分析により求められた第 2ch予測パラメータ(量子化 前)を D2、 g2とする。モノラル信号は、上記のように第 lch音声信号と第 2ch音声信号 の中間の信号として生成された信号のため、第 lch予測パラメータと第 2ch予測パラ メータとの間の関連性は大きい。そこで、第 lch予測量子化パラメータを用いて第 2c h予測パラメータ Dp2、 gp2を式(18)および(19)により推定する。
[数 9]
Dp2 = - Dql ■■■ ( 1 8 )
gp2 = 1 / gql … (1 9 )
[0071] そして、第 2ch予測パラメータの量子化は、式(20)および(21)で表される推定残 差 (推定値との差分値) 5 D2、 S g2に対して行う。これらの推定残差は第 2ch予測パ ラメータそのものに比べて分散が小さいため、より効率的な量子化を行うことができる
[数 10]
6D2 = D2 - Dp2 ·· · ( 2 0 )
6g2 = g2 - gp2 ··■ ( 2 1 )
[0072] なお、式(18)および(19)は一例であり、第 lch予測パラメータと第 2ch予測パラメ ータとの関連性 (依存関係)を利用した別の方法を用いて、第 2ch予測パラメータの 推定および量子化を行ってもよい。また、第 lch予測パラメータと第 2ch予測パラメ一 タとを一組として符号帳を用意して、ベクトル量子化により量子化してもよい。さらに、 図 2または図 4の構成により得られる中間予測パラメータを用いて、第 lch予測パラメ ータ、第 2ch予測パラメータの分析、量子化を行うようにしてもよい。この場合、予め 第 lch予測パラメータ、第 2ch予測パラメータを推定することが可能なため、分析に 必要な演算量を削減することができる。
[0073] 本実施の形態に係る音声復号装置の構成は、実施の形態 2 (図 8)とほぼ同一であ る。但し、第 2ch予測パラメータ復号部 625が、第 2ch予測パラメータ量子化符号の 復号の際に、第 lch予測量子化パラメータを用いて復号するなど、音声符号化装置 700の構成に対応した復号処理を行う点で相違する。
[0074] (実施の形態 4)
第 lch音声信号と第 2ch音声信号との間の相関が小さい場合は、実施の形態 1に おいて説明したモノラル信号生成を行っても、空間特性上の中間的信号の生成が不 十分な場合がある。そこで、本実施の形態に係る音声符号化装置は、第 lchと第 2c hとの間の相関性に基づき、モノラル信号の生成方法を切り替える。本実施の形態に 係るモノラル信号生成部 101の構成を図 10に示す。なお、図 10において実施の形 態 1 (図 2)と同一の構成には同一符号を付し、説明を省略する。
[0075] 相関判定部 801は、第 lch音声信号と第 2ch音声信号との間の相関度を算出し、 その相関度が閾値より大きいか否か判定する。そして、相関判定部 801は、判定結 果に基づいて切替部 802および 804を制御する。相関度の算出および閾値判定は 、例えば、各チャネルの信号間の相互相関関数の最大値 (正規化値)を求め、予め 定めた閾値と比較することにより行う。
[0076] 相関判定部 801は、相関度が閾値より大きい場合は、第 lch音声信号および第 2c h音声信号がチャネル間予測分析部 201およびモノラル信号算出部 203に入力され るように切替部 802を切り替えるとともに、切替部 804をモノラル信号算出部 203側に 切り替える。これにより、第 lchと第 2chの相関度が閾値より大きい場合は、実施の形 態 1において説明したようにしてモノラル信号が生成される。
[0077] 一方、相関判定部 801は、相関度が閾値以下の場合は、第 lch音声信号および第 2ch音声信号が平均値信号算出部 803に入力されるように切替部 802を切り替える とともに、切替部 804を平均値信号算出部 803側に切り替える。よって、この場合に は、平均値信号算出部 803が、式 (22)により、第 l ch音声信号と第 2ch音声信号の 平均値の信号 s_av(n)を算出して、モノラル信号として出力する。
[数 11]
s_av (n) = ( s— chl (n) + s_ch2 (n) ) I 2 ただし、 n=0〜NF— 1 ·■· ( 2 2 )
[0078] このように、本実施の形態によれば、第 lch音声信号と第 2ch音声信号との間の相 関が小さい場合は、第 l ch音声信号と第 2ch音声信号の平均値の信号をモノラル信 号とするため、第 lch音声信号と第 2ch音声信号との間の相関が小さい場合の音質 劣化を防ぐことができる。また、 2チャネル間の相関性に基づく適切な符号化モードで 符号化するため、符号ィ匕効率の向上を図ることができる。
[0079] なお、上記のように第 lchと第 2chとの間の相関性に基づき生成方法を切り替えて 生成されたモノラル信号に対して、第 lchと第 2chとの間の相関性に応じたスケーラ ブルな符号化を行ってもよい。第 lchと第 2chとの間の相関度が閾値より大きい場合 は、実施の形態 2または 3に示した構成により、コアレイヤにてモノラル信号に対する 符号化を行い、拡張レイヤにてモノラル復号信号を用いた各チャネルの信号予測を 利用した符号化を行う。一方、第 lchと第 2chとの間の相関度が閾値以下の場合は、 コアレイヤにてモノラル信号に対する符号ィ匕を行った後、拡張レイヤでは、 2チャネル 間の相関性が低い場合に適した別のスケーラブル構成で符号化を行う。相関性が低 い場合に適した別のスケーラブル構成での符号化とは、例えば、チャネル間予測を 用いず、各チャネルの信号とモノラル復号信号との差分信号を直接符号化する方法 力 Sある。また、コアレイヤの符号化およびス拡張レイヤの符号ィ匕に CELP符号ィ匕を適 用する場合には、拡張レイヤの符号ィ匕において、チャネル間予測を用いず、モノラル 駆動音源信号を直接用いて符号化する等の方法がある。
[0080] (実施の形態 5)
本実施の形態に係る音声符号ィヒ装置は、拡張レイヤ符号化部において第 lchに 対してのみ符号ィヒを行レ、、かつ、その符号化において、量子化中間予測パラメータ を用いて第 lch予測信号の合成を行う。本実施の形態に係る音声符号化装置 900 の構成を図 11に示す。なお、図 11において実施の形態 2 (図 5)と同一の構成には 同一符号を付し、説明を省略する。
[0081] 本実施の形態では、モノラル信号生成部 101は、上記図 4に示す構成を採る。すな わち、モノラル信号生成部 101は中間予測パラメータ量子化部 204を備え、この中間 予測パラメータ量子化部 204が、中間予測パラメータを量子化して量子化中間予測 パラメータおよび中間予測パラメータ量子化符号を出力する。なお、量子化中間予 測パラメータは、上記 D 、 D 、g 、g を量子化したものである。量子化中間予測パ
lm 2 m lm 2m
ラメータは、拡張レイヤ符号ィ匕部 520の第 lch予測信号合成部 901に入力される。ま た、中間予測パラメータ量子化符号は、モノラル信号符号化データおよび第 lch予 測残差符号化データと多重されて符号化データとして音声復号装置へ伝送される。
[0082] 拡張レイヤ符号化部 520において、第 lch予測信号合成部 901は、モノラル復号 信号と量子化中間予測パラメータとから第 lch予測信号を合成し、その第 lch予測 信号を減算器 523に出力する。具体的には、第 lch予測信号合成部 901は、式(23 )で表される予測により、モノラル復号信号 sd_mono(n)から、第 lchの予測信号 sp_chl (n)を合成する。
[数 12]
sp_chl (n) = (l/glm) · sd_mono (n + ただし、 n=0〜NF—l … ( 2 3 )
[0083] 次いで、本実施の形態に係る音声復号装置について説明する。本実施の形態に 係る音声復号装置 1000の構成を図 12に示す。なお、図 12において実施の形態 2 ( 図 8)と同一の構成には同一符号を付し、説明を省略する。
[0084] 拡張レイヤ復号部 620において、中間予測パラメータ復号部 1001は、入力される 中間予測パラメータ量子化符号を復号して、量子化中間予測パラメータを第 lch予 測信号合成部 1002および第 2ch復号信号生成部 1003に出力する。
[0085] 第 lch予測信号合成部 1002は、モノラル復号信号と量子化中間予測パラメータと 力 第 lch音声信号を予測し、その第 lch予測音声信号を加算器 624に出力する。 具体的には、第 lch予測信号合成部 1002は、音声符号化装置 900の第 lch予測 信号合成部 901と同様に、上式(23)で表される予測により、モノラル復号信号 sdjno no(n)から、第 lchの予測信号 sp_chl(n)を合成する。
[0086] 一方、第 2ch復号信号生成部 1003には、モノラル復号信号および第 lch復号信 号も入力される。そして、第 2ch復号信号生成部 1003は、量子化中間予測パラメ一 タ、モノラル復号信号および第 lch復号信号から第 2ch復号信号を生成する。具体 的には、第 2ch復号信号生成部 1003は、上式(13)の関係から得られる式(24)に 従って、第 2ch復号信号を生成する。なお、式(24)において、 sd_chl :第 lch復号信 号である。
[数 13]
sd_ch2 (n) = l/g2n · {2 · sd_mono (n + D2„) - gln · sd_chl (n - Dlffl + D^,) } ただし、 n=0~ F - 1 ··· ( 2 4 ) [0087] なお、上記説明では、拡張レイヤ符号ィ匕部 520において、第 l chのみの予測信号 を合成する構成について説明したが、第 lchに代えて第 2chのみの予測信号を合成 する構成としてもよい。つまり、本実施の形態では、拡張レイヤ符号ィ匕部 520におい て、ステレオ信号の一方のチャネルのみを符号ィ匕する構成を採る。
[0088] このように、本実施の形態によれば、拡張レイヤ符号化部 520において、ステレオ 信号の一方のチャネルのみを符号化する構成とし、かつ、その一方のチャネルの予 測信号の合成に用いる予測パラメータをモノラル信号生成用の中間予測ノ メータと 共用するため、符号化効率を向上させることができる。また、拡張レイヤ符号化部 52 0において、ステレオ信号の一方のチャネルのみを符号化する構成とするため、双方 のチャネルを符号化する構成に比べて拡張レイヤ符号化部の符号化効率を向上さ せて低ビットレートイ匕を図ることができる。
[0089] なお、本実施の形態においては、モノラル信号生成部 101で得られる中間予測パ ラメータとして、上記のように第 lchおよび第 2chのそれぞれを基準とする異なるパラ メータを算出するのではなぐ双方のチャネルに共通するパラメータを算出するように してもよレ、。例えば、式(25)、(26)により算出したパラメータ D 、 gの量子化符号を
m m
符号化データとして音声復号装置 1000へ伝送し、ノ ラメータ D、g力 式(27)〜(
m m
30)に従って算出される D 、g 、D 、g を、第 lchおよび第 2chを基準とする中間
lm lm 2m 2m
予測パラメータとして使用する。このようにすることで、音声復号装置 1000に対して 伝送する中間予測パラメータの符号化効率をより向上させることができる。
[数 14]
Dm = { (D12 - D21) /2} /2 … (2 5 )
ga = ^ ( 12 · (l/g2i) } … ( 2 6 )
Dlm = Da - ( 2 7 )
D2m = -Dn … (2 8 )
gin, = g« " · ( 2 9 )
g2m = l/gn … ( 3 0 )
[0090] また、中間予測パラメータを複数候補用意して、その複数候補のうち、拡張レイヤ 符号化部 520での符号ィ匕後の符号化歪み(拡張レイヤ符号ィ匕部 520のみの歪み、 または、コアレイヤ符号化部 510の歪みと拡張レイヤ符号化部 520の歪みの総和)を 最も小さくする中間予測パラメータを拡張レイヤ符号ィ匕部 520での符号ィ匕に用いても よい。これにより、拡張レイヤでの予測信号合成時の予測性能を高めることができる 最適なパラメータを選択することができ、より音質の向上を図ることができる。具体的 手順は以下のようになる。
[0091] <ステップ 1 :モノラル信号生成 >
モノラル信号生成部 101において、複数候補の中間予測パラメータを出力するとと もに、各候補に対応して生成されるモノラル信号を出力する。例えば、予測歪みが小 さい、または、各チャネルの信号間の相互相関が大きいもの力も順に所定数の中間 予測パラメータを複数候補として出力する等する。
[0092] <ステップ 2:モノラル信号符号化 >
モノラル信号符号ィ匕部 102において、中間予測パラメータの複数候補に対応して 生成されたモノラル信号を用いてモノラル信号の符号ィ匕を行レ、、複数候補毎に、モノ ラル信号符号化データおよび符号化歪み (モノラル信号符号化歪み)を出力する。
[0093] くステップ 3 :第 lch符号化〉
拡張レイヤ符号化部 520において、複数候補の中間予測パラメータを用いて複数 の第 lch予測信号を合成して第 lchの符号化を行い、複数候補毎に、符号化データ (第 lch予測残差符号化データ)および符号化歪み (ステレオ符号化歪み)を出力す る。
[0094] <ステップ 4 :最小符号化歪み選択 >
拡張レイヤ符号化部 520において、複数候補の中間予測パラメータのうち、ステツ プ 2およびステップ 3で得られた符号ィヒ歪みの総和(または、ステップ 2で得られた符 号化歪みの総和またはステップ 3で得られた符号化歪みの総和のいずれ力 が最も 小さくなる中間予測ノ メータを符号化に用いるパラメータと決定し、その中間予測 パラメータに対応するモノラル信号符号化データ、中間予測パラメータ量子化符号 および第 lch予測残差符号ィ匕データを音声復号装置 1000へ伝送する。
[0095] なお、中間予測パラメータの複数候補の一つとして、 D = D = 0、 g = g = 1·0 (
lm 2 m lm 2m 通常のモノラル信号生成に相当)を含ませるようにし、その候補を符号ィ匕に用いるとき は、中間予測パラメータを伝送しない前提 (通常モノラル化モードの選択フラグとして 選択情報(1ビット)のみを伝送)でのビット配分にてコアレイヤ符号ィ匕部 510および拡 張レイヤ符号ィ匕部 520での符号化を行うようにしてもよい。このようにすると、通常モノ ラル化モードを候補として含めた、符号ィヒ歪み最小化基準による最適な符号化を実 現できるとともに、通常モノラル化モード選択時には中間予測パラメータを伝送しなく て済むため、別の符号ィ匕データにビットを割り当てることで音質の向上を図ることがで きる。
[0096] また、本実施の形態では、コアレイヤの符号化および拡張レイヤの符号ィ匕に CELP 符号化を用いてもよい。この場合、拡張レイヤでは、 CELP符号ィ匕により得られるモノ ラル符号化駆動音源信号を用いて、各チャネルの信号の LPC予測残差信号の予測 を行う。
[0097] また、コアレイヤの符号化および拡張レイヤの符号ィ匕として CELP符号化を用いる 場合に、時間領域での駆動音源探索を行う代わりに、周波数領域での音源信号の 符号化を行うようにしてもょレ、。
[0098] なお、上記各実施の形態に係る音声符号化装置、音声復号装置を、移動体通信 システムにおいて使用される無線通信移動局装置や無線通信基地局装置等の無線 通信装置に搭載することも可能である。
[0099] また、上記各実施の形態では、本発明をハードウェアで構成する場合を例にとって 説明したが、本発明はソフトウェアで実現することも可能である。
[0100] また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路 である LSIとして実現される。これらは個別に 1チップィ匕されてもよいし、一部又は全 てを含むように 1チップ化されてもよい。
[0101] ここでは、 LSIとした力 集積度の違いにより、 IC、システム LSI、スーパー LSI、ゥ ノレトラ LSIと呼称されることもある。
[0102] また、集積回路化の手法は LSIに限るものではなぐ専用回路又は汎用プロセッサ で実現してもよい。 LSI製造後に、プログラムすることが可能な FPGA (Field Program mable Gate Array)や、 LSI内部の回路セルの接続や設定を再構成可能なリコンフィ ギユラブル'プロセッサーを利用してもょレ、。
[0103] さらには、半導体技術の進歩又は派生する別技術により LSIに置き換わる集積回 路化の技術が登場すれば、当然、その技術を用レ、て機能ブロックの集積化を行って もよレ、。バイオ技術の適応等が可能性としてありえる。
[0104] 本明糸田書 ίま、 2004年 12月 28曰出願の特願 2004— 380980および 2005年 5月 3 0日出願の特願 2005— 157808に基づくものである。これらの内容はすべてここに 含めておく。
産業上の利用可能性
[0105] 本発明は、移動体通信システムやインターネットプロトコルを用いたパケット通信シ ステム等における通信装置の用途に適用できる。

Claims

請求の範囲
[1] 第 1チャネル信号および第 2チャネル信号を含むステレオ信号を入力信号として、 前記第 1チャネル信号と前記第 2チャネル信号との時間差、および、前記第 1チヤネ ル信号と前記第 2チャネル信号との振幅比に基づいて、前記第 1チャネル信号およ び前記第 2チャネル信号からモノラル信号を生成する第 1生成手段と、
前記モノラル信号を符号化する符号ィヒ手段と、
を具備する音声符号化装置。
[2] 前記ステレオ信号を入力信号として、前記第 1チャネル信号および前記第 2チヤネ ル信号を平均してモノラル信号を生成する第 2生成手段と、
前記第 1チャネル信号と前記第 2チャネル信号との相関度に応じて、前記ステレオ 信号の入力先を前記第 1生成手段と前記第 2生成手段との間で切り替える切替手段 と、
をさらに具備する請求項 1記載の音声符号化装置。
[3] 前記モノラル信号から得られる信号に基づいて、前記第 1チャネル信号および前記 第 2チャネル信号の予測信号を合成する合成手段、
をさらに具備する請求項 1記載の音声符号化装置。
[4] 前記合成手段は、前記モノラル信号に対する前記第 1チャネル信号または前記第 2チャネル信号の遅延差および振幅比を用いて、前記予測信号を合成する、 請求項 3記載の音声符号化装置。
[5] モノラル信号生成用のパラメータを用いて、前記第 1チャネル信号または前記第 2 チャネル信号のいずれか一方の予測信号を合成する合成手段、
をさらに具備する請求項 1記載の音声符号化装置。
[6] 請求項 1記載の音声符号化装置を具備する無線通信移動局装置。
[7] 請求項 1記載の音声符号化装置を具備する無線通信基地局装置。
[8] 第 1チャネル信号および第 2チャネル信号を含むステレオ信号を入力信号として、 前記第 1チャネル信号と前記第 2チャネル信号との時間差、および、前記第 1チヤネ ル信号と前記第 2チャネル信号との振幅比に基づいて、前記第 1チャネル信号およ び前記第 2チャネル信号からモノラル信号を生成する生成工程と、 前記モノラル信号を符号化する符号化工程と、 を具備する音声符号化方法。
PCT/JP2005/023809 2004-12-28 2005-12-26 音声符号化装置および音声符号化方法 WO2006070757A1 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CN2005800450680A CN101091206B (zh) 2004-12-28 2005-12-26 语音编码装置和语音编码方法
EP05819447A EP1821287B1 (en) 2004-12-28 2005-12-26 Audio encoding device and audio encoding method
AT05819447T ATE448539T1 (de) 2004-12-28 2005-12-26 Audiokodierungsvorrichtung und audiokodierungsmethode
US11/722,821 US7797162B2 (en) 2004-12-28 2005-12-26 Audio encoding device and audio encoding method
DE602005017660T DE602005017660D1 (de) 2004-12-28 2005-12-26 Audiokodierungsvorrichtung und audiokodierungsmethode
JP2006550770A JP5046653B2 (ja) 2004-12-28 2005-12-26 音声符号化装置および音声符号化方法

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2004-380980 2004-12-28
JP2004380980 2004-12-28
JP2005-157808 2005-05-30
JP2005157808 2005-05-30

Publications (1)

Publication Number Publication Date
WO2006070757A1 true WO2006070757A1 (ja) 2006-07-06

Family

ID=36614874

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2005/023809 WO2006070757A1 (ja) 2004-12-28 2005-12-26 音声符号化装置および音声符号化方法

Country Status (8)

Country Link
US (1) US7797162B2 (ja)
EP (2) EP1821287B1 (ja)
JP (1) JP5046653B2 (ja)
KR (1) KR20070090219A (ja)
CN (1) CN101091206B (ja)
AT (1) ATE448539T1 (ja)
DE (1) DE602005017660D1 (ja)
WO (1) WO2006070757A1 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008016097A1 (fr) * 2006-08-04 2008-02-07 Panasonic Corporation dispositif de codage audio stéréo, dispositif de décodage audio stéréo et procédé de ceux-ci
WO2008090970A1 (ja) * 2007-01-26 2008-07-31 Panasonic Corporation ステレオ符号化装置、ステレオ復号装置、およびこれらの方法
WO2009142017A1 (ja) * 2008-05-22 2009-11-26 パナソニック株式会社 ステレオ信号変換装置、ステレオ信号逆変換装置およびこれらの方法
WO2010016270A1 (ja) * 2008-08-08 2010-02-11 パナソニック株式会社 量子化装置、符号化装置、量子化方法及び符号化方法
JP2010541007A (ja) * 2007-09-25 2010-12-24 モトローラ・インコーポレイテッド マルチ・チャンネル音響信号をエンコードするための装置および方法
WO2014068817A1 (ja) * 2012-10-31 2014-05-08 パナソニック株式会社 オーディオ信号符号化装置及びオーディオ信号復号装置

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006104017A1 (ja) * 2005-03-25 2006-10-05 Matsushita Electric Industrial Co., Ltd. 音声符号化装置および音声符号化方法
WO2007037361A1 (ja) 2005-09-30 2007-04-05 Matsushita Electric Industrial Co., Ltd. 音声符号化装置および音声符号化方法
US7991611B2 (en) * 2005-10-14 2011-08-02 Panasonic Corporation Speech encoding apparatus and speech encoding method that encode speech signals in a scalable manner, and speech decoding apparatus and speech decoding method that decode scalable encoded signals
US8112286B2 (en) * 2005-10-31 2012-02-07 Panasonic Corporation Stereo encoding device, and stereo signal predicting method
JPWO2007116809A1 (ja) * 2006-03-31 2009-08-20 パナソニック株式会社 ステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法
US8255213B2 (en) 2006-07-12 2012-08-28 Panasonic Corporation Speech decoding apparatus, speech encoding apparatus, and lost frame concealment method
WO2008016098A1 (fr) * 2006-08-04 2008-02-07 Panasonic Corporation dispositif de codage audio stéréo, dispositif de décodage audio stéréo et procédé de ceux-ci
KR101453732B1 (ko) * 2007-04-16 2014-10-24 삼성전자주식회사 스테레오 신호 및 멀티 채널 신호 부호화 및 복호화 방법및 장치
WO2008132850A1 (ja) * 2007-04-25 2008-11-06 Panasonic Corporation ステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法
WO2009153995A1 (ja) * 2008-06-19 2009-12-23 パナソニック株式会社 量子化装置、符号化装置およびこれらの方法
US8817992B2 (en) 2008-08-11 2014-08-26 Nokia Corporation Multichannel audio coder and decoder
CN102292769B (zh) * 2009-02-13 2012-12-19 华为技术有限公司 一种立体声编码方法和装置
WO2010098120A1 (ja) 2009-02-26 2010-09-02 パナソニック株式会社 チャネル信号生成装置、音響信号符号化装置、音響信号復号装置、音響信号符号化方法及び音響信号復号方法
US8666752B2 (en) * 2009-03-18 2014-03-04 Samsung Electronics Co., Ltd. Apparatus and method for encoding and decoding multi-channel signal
CN102157150B (zh) 2010-02-12 2012-08-08 华为技术有限公司 立体声解码方法及装置
CN102157152B (zh) 2010-02-12 2014-04-30 华为技术有限公司 立体声编码的方法、装置
CN109215667B (zh) 2017-06-29 2020-12-22 华为技术有限公司 时延估计方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04324727A (ja) * 1991-04-24 1992-11-13 Fujitsu Ltd ステレオ符号化伝送方式
JP2004325633A (ja) * 2003-04-23 2004-11-18 Matsushita Electric Ind Co Ltd 信号符号化方法、信号符号化プログラム及びその記録媒体

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19721487A1 (de) * 1997-05-23 1998-11-26 Thomson Brandt Gmbh Verfahren und Vorrichtung zur Fehlerverschleierung bei Mehrkanaltonsignalen
DE19742655C2 (de) * 1997-09-26 1999-08-05 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Codieren eines zeitdiskreten Stereosignals
SE519981C2 (sv) 2000-09-15 2003-05-06 Ericsson Telefon Ab L M Kodning och avkodning av signaler från flera kanaler
US7292901B2 (en) * 2002-06-24 2007-11-06 Agere Systems Inc. Hybrid multi-channel/cue coding/decoding of audio signals
SE0202159D0 (sv) * 2001-07-10 2002-07-09 Coding Technologies Sweden Ab Efficientand scalable parametric stereo coding for low bitrate applications
KR101021079B1 (ko) * 2002-04-22 2011-03-14 코닌클리케 필립스 일렉트로닉스 엔.브이. 파라메트릭 다채널 오디오 표현
ES2300567T3 (es) 2002-04-22 2008-06-16 Koninklijke Philips Electronics N.V. Representacion parametrica de audio espacial.
CN1748247B (zh) * 2003-02-11 2011-06-15 皇家飞利浦电子股份有限公司 音频编码
JP5208413B2 (ja) 2003-03-17 2013-06-12 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 多重チャネル信号の処理方法
JP4324727B2 (ja) 2003-06-20 2009-09-02 カシオ計算機株式会社 撮影モードの設定情報転送システム
JP2005157808A (ja) 2003-11-26 2005-06-16 Star Micronics Co Ltd カード保管装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04324727A (ja) * 1991-04-24 1992-11-13 Fujitsu Ltd ステレオ符号化伝送方式
JP2004325633A (ja) * 2003-04-23 2004-11-18 Matsushita Electric Ind Co Ltd 信号符号化方法、信号符号化プログラム及びその記録媒体

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008016097A1 (fr) * 2006-08-04 2008-02-07 Panasonic Corporation dispositif de codage audio stéréo, dispositif de décodage audio stéréo et procédé de ceux-ci
JP4999846B2 (ja) * 2006-08-04 2012-08-15 パナソニック株式会社 ステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法
WO2008090970A1 (ja) * 2007-01-26 2008-07-31 Panasonic Corporation ステレオ符号化装置、ステレオ復号装置、およびこれらの方法
JP2010541007A (ja) * 2007-09-25 2010-12-24 モトローラ・インコーポレイテッド マルチ・チャンネル音響信号をエンコードするための装置および方法
WO2009142017A1 (ja) * 2008-05-22 2009-11-26 パナソニック株式会社 ステレオ信号変換装置、ステレオ信号逆変換装置およびこれらの方法
WO2010016270A1 (ja) * 2008-08-08 2010-02-11 パナソニック株式会社 量子化装置、符号化装置、量子化方法及び符号化方法
WO2014068817A1 (ja) * 2012-10-31 2014-05-08 パナソニック株式会社 オーディオ信号符号化装置及びオーディオ信号復号装置
JPWO2014068817A1 (ja) * 2012-10-31 2016-09-08 株式会社ソシオネクスト オーディオ信号符号化装置及びオーディオ信号復号装置

Also Published As

Publication number Publication date
DE602005017660D1 (de) 2009-12-24
EP1821287B1 (en) 2009-11-11
ATE448539T1 (de) 2009-11-15
US20080091419A1 (en) 2008-04-17
CN101091206B (zh) 2011-06-01
CN101091206A (zh) 2007-12-19
JP5046653B2 (ja) 2012-10-10
EP1821287A4 (en) 2008-03-12
KR20070090219A (ko) 2007-09-05
US7797162B2 (en) 2010-09-14
EP2138999A1 (en) 2009-12-30
JPWO2006070757A1 (ja) 2008-06-12
EP1821287A1 (en) 2007-08-22

Similar Documents

Publication Publication Date Title
WO2006070757A1 (ja) 音声符号化装置および音声符号化方法
US7945447B2 (en) Sound coding device and sound coding method
JP4963965B2 (ja) スケーラブル符号化装置、スケーラブル復号装置、及びこれらの方法
US20230037845A1 (en) Truncateable predictive coding
JP4850827B2 (ja) 音声符号化装置および音声符号化方法
JP5413839B2 (ja) 符号化装置および復号装置
JP4555299B2 (ja) スケーラブル符号化装置およびスケーラブル符号化方法
WO2006118179A1 (ja) 音声符号化装置および音声符号化方法
WO2012066727A1 (ja) ステレオ信号符号化装置、ステレオ信号復号装置、ステレオ信号符号化方法及びステレオ信号復号方法
JP4887279B2 (ja) スケーラブル符号化装置およびスケーラブル符号化方法
JP2013137563A (ja) ストリーム合成装置、復号装置、ストリーム合成方法、復号方法、およびコンピュータプログラム
WO2006104017A1 (ja) 音声符号化装置および音声符号化方法
JPWO2006070760A1 (ja) スケーラブル符号化装置およびスケーラブル符号化方法
WO2009122757A1 (ja) ステレオ信号変換装置、ステレオ信号逆変換装置およびこれらの方法
JP2006072269A (ja) 音声符号化装置、通信端末装置、基地局装置および音声符号化方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2006550770

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 11722821

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 200580045068.0

Country of ref document: CN

Ref document number: 2005819447

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 1020077014866

Country of ref document: KR

NENP Non-entry into the national phase

Ref country code: DE

WWP Wipo information: published in national office

Ref document number: 2005819447

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 11722821

Country of ref document: US