WO2006118179A1 - 音声符号化装置および音声符号化方法 - Google Patents

音声符号化装置および音声符号化方法 Download PDF

Info

Publication number
WO2006118179A1
WO2006118179A1 PCT/JP2006/308813 JP2006308813W WO2006118179A1 WO 2006118179 A1 WO2006118179 A1 WO 2006118179A1 JP 2006308813 W JP2006308813 W JP 2006308813W WO 2006118179 A1 WO2006118179 A1 WO 2006118179A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
channel
channel signal
code
encoding
Prior art date
Application number
PCT/JP2006/308813
Other languages
English (en)
French (fr)
Inventor
Koji Yoshida
Original Assignee
Matsushita Electric Industrial Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co., Ltd. filed Critical Matsushita Electric Industrial Co., Ltd.
Priority to DE602006011600T priority Critical patent/DE602006011600D1/de
Priority to US11/912,522 priority patent/US8428956B2/en
Priority to JP2007514799A priority patent/JP4907522B2/ja
Priority to EP06745741A priority patent/EP1876586B1/en
Priority to CN2006800145767A priority patent/CN101167126B/zh
Publication of WO2006118179A1 publication Critical patent/WO2006118179A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing

Definitions

  • the present invention relates to a speech coding apparatus and speech coding method, and more particularly to a speech coding apparatus and speech coding method for stereo speech.
  • a voice coding scheme having a scalable configuration is desired for traffic control and multicast communication on the network.
  • a scalable configuration refers to a configuration in which audio data can be decoded even from partial encoded data on the receiving side.
  • the coding process in the speech coding system having a scalable configuration is hierarchized, and includes one corresponding to the core layer and one corresponding to the extension layer. Therefore, the code data generated by the encoding process also includes the code data of the core layer and the code data of the enhancement layer.
  • a stereo signal can be decoded and a monaural signal using a part of the encoded data can be selected between the monaural stereos which can be selected by the reception side. Therefore, a voice coding method having a scalable configuration (monaural / stereo / scalable configuration) is desired.
  • Speech coding methods based on such a speech coding method include, for example, prediction of signals between channels (hereinafter sometimes abbreviated as "ch") (from the 1st channel signal to the 2nd channel signal). Preparatory Measurement of the 2nd channel signal or the prediction of the 1st channel signal) is performed by predicting the pitch between channels, that is, the code is performed using the correlation between the two channels (Non-patent Document 1). reference).
  • An object of the present invention is to provide a speech coding apparatus and speech coding method that can efficiently encode stereo speech even when the correlation between both channels is small. .
  • the speech encoding apparatus of the present invention uses the first channel signal and the second channel signal in the speech encoding apparatus that encodes a stereo signal including the first channel signal and the second channel signal.
  • a monaural signal generating means for generating a monaural signal; a selecting means for selecting one of the first channel signal and the second channel signal; and encoding the generated monaural signal to obtain core layer code key data.
  • an encoding unit that encodes the selected channel signal and obtains enhancement layer encoded data corresponding to the core layer encoded data is employed.
  • the speech encoding method of the present invention uses the first channel signal and the second channel signal in the speech encoding method for encoding a stereo signal including a first channel signal and a second channel signal.
  • a stereo signal including a first channel signal and a second channel signal.
  • select one of the first channel signal and the second channel signal encode the generated monaural signal to obtain coarrayer code data, and select the selected channel.
  • the signal is encoded and enhancement layer encoded data corresponding to the coarrayer encoded data is obtained.
  • stereo audio can be efficiently encoded even when the correlation between a plurality of channel signals of the stereo signal is small! /.
  • FIG. 1 is a block diagram showing a configuration of a speech encoding apparatus according to Embodiment 1 of the present invention.
  • FIG. 2 is a block diagram showing a configuration of a speech decoding apparatus according to Embodiment 1 of the present invention.
  • FIG. 3 is a block diagram showing a configuration of a speech coding apparatus according to Embodiment 2 of the present invention.
  • FIG. 4 is a block diagram showing a configuration of a speech coding apparatus according to Embodiment 3 of the present invention.
  • FIG. 5 is a block diagram showing a configuration of a code channel selection unit according to Embodiment 3 of the present invention.
  • FIG. 6 is a block diagram showing a configuration of an Ach code channel unit according to Embodiment 3 of the present invention.
  • FIG. 7 is a diagram for explaining an example of an update operation of an intra-channel prediction buffer of channel A according to Embodiment 3 of the present invention.
  • FIG. 8 is a diagram for explaining an example of an update operation of an intra-channel prediction buffer for channel B according to Embodiment 3 of the present invention.
  • FIG. 9 is a block diagram showing a configuration of a speech coding apparatus according to Embodiment 4 of the present invention.
  • FIG. 10 is a block diagram showing a configuration of an AchCELP code key section according to Embodiment 4 of the present invention.
  • FIG. 11 is a flowchart showing an example of an adaptive codebook update operation according to Embodiment 4 of the present invention.
  • FIG. 12 is a diagram for explaining an example of update operation of the Ach adaptive codebook according to Embodiment 4 of the present invention.
  • FIG. 13 is a diagram for explaining an example of update operation of the Bch adaptive codebook according to Embodiment 4 of the present invention.
  • FIG. 1 is a block diagram showing the configuration of the speech coding apparatus according to Embodiment 1 of the present invention.
  • the speech encoding apparatus 100 in FIG. 1 includes a core layer encoding unit 102 that is a component corresponding to a scalable core layer and a configuration corresponding to a scalable enhancement layer.
  • an enhancement layer code key unit 104 which is a component. The following explanation is based on the assumption that each component operates on a frame basis.
  • the core layer code key unit 102 includes a monaural signal generation unit 110 and a monaural signal code key unit 112. Further, the enhancement layer coding unit 104 includes a coding channel selection unit 120, an lch coding unit 122, a second channel coding unit 124, and a switching unit 126.
  • the stereo signal described in the present embodiment is composed of two channel signals, that is, a first channel signal and a second channel signal power.
  • the monaural signal encoding unit 112 encodes the monaural signal s_mono (n) for each frame.
  • the code key data obtained by the code key of the monaural signal s_m ono (n) is output as core layer encoded data. More specifically, the core layer code data is multiplexed with enhancement layer coded data and coded channel selection information, which will be described later, and output from the speech coding apparatus 100 as transmission code data.
  • the monaural signal encoding unit 112 decodes the monaural signal s_mono (n) and converts the monaural decoded speech signal obtained thereby into the lch encoding unit 122 of the enhancement layer encoding unit 104. And output to the second channel code section 124.
  • code channel selection section 120 uses channel 1 audio signal s_chl (n) and channel 2 input audio signal s_ch2 (n), and uses channel 1 and channel 2 Of the two channels, an optimum channel as a channel to be encoded in the enhancement layer is selected based on a predetermined selection criterion.
  • the optimal channel is selected for each frame.
  • the predetermined selection criterion is that the enhancement layer code key is highly efficient or has high sound quality (low code key distortion). This is a standard that can be realized.
  • the code channel selection unit 120 generates encoded channel selection information indicating the selected channel.
  • the generated encoded channel selection information is output to the switch unit 126 and multiplexed with the core layer code data described above and enhancement layer code data described later.
  • the code channel selection unit 120 uses the first channel encoding unit 122 and the second channel instead of using the first input audio signal s_chl (n) and the second input audio signal s_ch2 (n). It is possible to use any parameter or signal or sign key result (that is, the lch code key data and the second channel code key data described later) obtained in the process of the sign key in the encoding unit 124. good.
  • the lch encoding unit 122 encodes the lch input speech signal for each frame using the lch input speech signal and the monaural decoded speech signal, and the lch encoded data obtained thereby is encoded. Output to switch 126.
  • the lch encoding unit 122 decodes the lch encoded data to obtain an lch decoded speech signal.
  • the l-th channel decoded audio signal obtained by l-th channel coding unit 122 is not shown.
  • Second channel encoding section 124 encodes the second channel input audio signal for each frame using the second channel input audio signal and the monaural decoded audio signal, and outputs the second channel encoded data obtained thereby. Output to switch 126.
  • second channel encoding section 124 decodes the second channel encoded data to obtain a second channel decoded speech signal.
  • the second channel decoded audio signal obtained by the second channel coding unit 124 is not shown.
  • the switch unit 126 selectively outputs one of the 1st ch code data and the 2nd ch code data for each frame in accordance with the code channel selection information.
  • the output encoded data is the encoded data of the channel selected by the encoded channel selection unit 120. Therefore, when the selected channel is switched to the first channel force or the second channel, or the second channel force is switched to the first channel, the encoded data output from the switch unit 126 is also the lch code data.
  • the second channel code data is switched to the second channel code data, or the second channel code data is switched to the first channel code data.
  • the monaural signal encoding unit 112 the lch encoding unit 122, the second channel encoding unit, and the like described above.
  • the combination of the unit 124 and the switch unit 126 encodes a monaural signal to obtain core layer encoded data, and encodes a selected channel signal to encode enhancement layer encoded data corresponding to the core layer encoded data.
  • the encoding unit is obtained.
  • FIG. 2 shows speech decoding in which transmission encoded data output from the speech encoding device 100 is received and decoded as reception encoded data to obtain a monaural decoded audio signal and a stereo decoded audio signal. It is a block diagram which shows the structure of an apparatus.
  • the speech decoding apparatus 150 in FIG. 2 includes a core layer decoding unit 152 that is a component corresponding to the core layer of the scalable configuration, and an enhancement layer decoding unit 154 that is a component corresponding to the enhancement layer of the scalable configuration. .
  • the core layer decoding unit 152 includes a monaural signal decoding unit 160.
  • the monaural signal decoding unit 160 decodes the core layer encoded data included in the received received encoded data, and obtains a monaural decoded audio signal sd_m ono (n).
  • Monaural decoded speech signal sd_m ono (n) is a subsequent stage of the audio output unit (not shown), the lch decoding unit 172, the 2ch decoding unit 174, the lch decoded signal generating section 176 and the 2ch decoded signal generating section 178 Is output.
  • the enhancement layer decoding unit 154 includes a switch unit 170, an lch decoding unit 172, a second channel decoding unit 174, an lch decoded signal generation unit 176, a second channel decoded signal generation unit 178, and switch units 180 and 182. .
  • Switch section 170 refers to the code channel selection information included in the received code key data, and converts the enhancement layer encoded data included in the received encoded data to the decoding section corresponding to the selected channel. Output. Specifically, when the selected channel is the first channel, the enhancement layer code key data is output to the lch decoding unit 172, and when the selected channel is the second channel, the enhancement layer code. The key data is output to second channel decoding section 174.
  • the lch decoding section 172 can the extended layer encoded I spoon data from switch section 170 is input, the lch decoded speech using the enhancement layer code I spoon data and monaural decoded speech signal sd_m ono (n)
  • the signal S d_chl (n) is decoded, and the l-th channel decoded speech signal S d_chl (n) is output to the switch unit 180 and the second channel decoded signal generation unit 178.
  • Second channel decoding section 174 receives the enhancement layer code key data from switch section 170.
  • the second channel decoded audio signal sd—ch2 (n) is decoded using the enhancement layer code key data and the monaural decoded audio signal sd_m ono (n), and the second channel decoded audio signal sd—ch2 (n) is switched.
  • the first channel decoded signal generation unit 176 receives the second channel decoded speech signal sd_ch2 from the second channel decoding unit 174.
  • the l-th channel decoded audio signal S d_chl (n) is generated based on the relationship shown in the following equation (2).
  • the generated l-th decoded audio signal sd_chl (n) is output to switch section 180.
  • Second channel decoded signal generation section 178 receives the first channel decoded speech signal sd_chl input from first channel decoding section 172 when the first channel decoded speech signal sd-chl (n) is input from first channel decoding section 172. using (n) and monaural decoded speech signal Sd_mono (n), and based on the relationship shown in the following equation (3), to generate a first 2ch decoded audio signal S d_ch2 (n). The generated second channel decoded audio signal sd_ch2 (n) is output to switch section 182.
  • switch 180 according to the sign I spoon channel selection information, the lch input from the lch decoded speech signal S d_chl (n) and the lch decoded signal generating section 176 that is input from the lch decoder 172
  • One of the decoded audio signals S d_chl (n) is selectively output. Specifically, when the selected channel is the first channel, the lch decoded speech signal S d_chl (n) input from lch decoding section 172 is selected and output. On the other hand, when the selected channel is the second channel, the lch decoded speech signal S d_chl (n) input from the lch decoded signal generation section 176 is selected and output.
  • Switch unit 182 receives input from second channel decoding unit 174 in accordance with the code channel selection information. Have been selectively outputs one of the first 2ch decoded speech signal S d_ch2 (n) and the 2ch decoded audio signal S is input from the 2ch decoded signal generating section 178 d_ch2 (n). Specifically, when the selected channel is the first channel, second channel decoded speech signal S d_ch2 (n) input from second channel decoded signal generation section 178 is selected and output. On the other hand, when the selected channel is the second channel, the second channel decoded audio signal S d_ch2 (n) input from the second channel decoding unit 174 is selected and output.
  • the monaural signal s_m ono (n) generated from the l-ch input audio signal s_chl (n) and the second-ch input audio signal s_ch2 (n) is encoded.
  • Core layer code data, and the input audio signal of the channel selected from the first channel and the second channel (the 1st channel input audio signal s_chl (n) or the 2nd channel input audio signal s_ch2 (n)) )
  • To obtain enhancement layer code key data it is possible to avoid insufficient prediction performance (prediction gain) when the correlation between multiple channels of the stereo signal is small, and efficient.
  • Stereo audio can be encoded.
  • FIG. 3 is a block diagram showing the configuration of the speech coding apparatus according to Embodiment 2 of the present invention.
  • speech coding apparatus 200 in FIG. 3 has the same basic configuration as speech coding apparatus 100 described in Embodiment 1. Therefore, among the components described in the present embodiment, the same components as those described in the first embodiment are denoted by the same reference numerals as those used in the first embodiment, and the components are described. The detailed description about is omitted.
  • transmission code key data output from voice codec device 200 is a voice codec device having a basic configuration similar to that of voice codec device 150 described in Embodiment 1. Can be decrypted.
  • Speech encoding apparatus 200 includes core layer code key unit 102 and enhancement layer code key unit 202.
  • the enhancement layer code key unit 202 includes an lch code key unit 122, a second channel code key unit 124, A switch unit 126 and a code channel selection unit 210 are provided.
  • Encoding channel selection section 210 includes second channel decoded speech generation section 212, first channel decoded speech generation section 214, first distortion calculation section 216, second distortion calculation section 218, and code channel determination section 220. Have.
  • Second channel decoded speech generation section 212 uses the monaural decoded speech signal obtained by monaural signal encoding unit 112 and the lch decoded speech signal obtained by first channel coding unit 122, as described above. Based on the relationship shown in Equation (1), the 2nd channel decoded audio signal is generated as the 2nd channel estimation signal. The generated second channel decoded speech signal is output to first distortion calculation section 216.
  • the lch decoded speech generation unit 214 uses the monaural decoded speech signal obtained by the monaural signal code unit 112 and the second channel decoded speech signal obtained by the second channel code unit 124, as described above. Based on the relationship shown in Equation (1), the l-th channel decoded speech signal is generated as the l-th channel estimation signal. The generated lch decoded speech signal is output to second distortion calculation section 218.
  • First distortion calculation section 216 uses first channel decoded speech signal obtained by first channel coding unit 122 and second channel decoded speech signal obtained by second channel decoded speech generation section 212. 1 Sign distortion is calculated. The first coding distortion corresponds to the code distortion for two channels that occurs when the first channel is selected as the channel to be coded in the enhancement layer. The calculated first code distortion is output to the code channel determination unit 220.
  • the second distortion calculation section 218 uses the second channel decoded speech signal obtained by the second channel coding unit 124 and the first channel decoded speech signal obtained by the first channel decoded speech generation unit 214. 2 Calculate the sign distortion.
  • the second coding distortion corresponds to the code distortion for two channels that occurs when the second channel is selected as the channel to be coded in the enhancement layer.
  • the calculated second code distortion is output to the code channel determination unit 220.
  • the following two methods can be cited as a method for calculating the code distortion of the two channels (first code distortion or second code distortion).
  • One is the decoded audio for each channel 2 channels of the ratio of the error power (signal to coding distortion ratio) of the signal (1st channel decoded audio signal or 2nd channel decoded audio signal) to the corresponding input audio signal (1st channel input audio signal or 2nd channel input audio signal)
  • This is a method of calculating the average of minutes as the sign distortion of two channels.
  • the other is a method in which the sum of the two error powers described above for two channels is obtained as the sign distortion of two channels.
  • the combination of the first distortion calculation unit 216 and the second distortion calculation unit 218 described above constitutes a distortion calculation unit.
  • the combination of the distortion calculation unit and the estimated signal generation unit described above forms a calculation unit.
  • Coding channel determination section 220 compares the value of the first coding distortion and the value of the second coding distortion, and has a smaller value among the first coding distortion and the second coding distortion. Select the one.
  • the coding channel determination unit 220 selects a channel corresponding to the selected coding distortion as a target channel (code channel) of the code key in the enhancement layer, and performs coding indicating the selected channel. Generate channel selection information. More specifically, when the first code distortion is smaller than the second code distortion, the code channel determination unit 220 selects the first channel and the second code distortion is the first. If it is less than the sign distortion, select the second channel.
  • the generated code channel selection information is output to the switch unit 126 and multiplexed with the core layer code key data and the enhancement layer code key data.
  • the coding distortion magnitude is used as the coding channel selection criterion, it is possible to reduce the enhancement layer coding distortion and improve efficiency. Therefore, stereo sound can be encoded.
  • the ratio or sum of the error powers of the decoded speech signals of each channel with respect to the corresponding input speech signal is calculated, and this calculation result is used as the sign distortion.
  • the code distortion that is obtained in the encoding process in the lch code key section 122 and the second ch code key section 124.
  • the encoding distortion may be distortion with auditory weight.
  • FIG. 4 is a block diagram showing the configuration of the speech coding apparatus according to Embodiment 3 of the present invention.
  • the speech coding apparatus 300 in FIG. 4 is the speech code described in the above-described embodiment. It has the same basic configuration as the encoding devices 100 and 200. Therefore, the same components as those described in the above embodiment among the components described in this embodiment are denoted by the same reference numerals as those used in the above embodiment, and the details thereof are described. The detailed explanation is omitted.
  • transmission code key data output from the voice codec device 300 is the same as that of the voice codec device 150 described in the first embodiment. Can be decrypted.
  • Speech coding apparatus 300 includes core layer code key unit 102 and enhancement layer code key unit 302.
  • the enhancement layer encoding unit 302 includes an encoding channel selection unit 310, an lch code unit 312, a second channel code unit 314, and a switch unit 126.
  • code channel selection section 310 has a correlation calculation unit within channel lch.
  • First-ch intra-channel correlation degree calculation section 320 calculates first-channel intra-channel correlation degree corl using the normalized maximum autocorrelation coefficient value for the first ch input speech signal.
  • Second channel intra-channel correlation degree calculation section 322 calculates second channel intra-channel correlation degree cor2 using the normalized maximum autocorrelation coefficient value for the second channel input speech signal.
  • a pitch prediction gain value for the input audio signal of each channel is used instead of using the normalized maximum autocorrelation coefficient value for the input audio signal of each channel.
  • a normal autocorrelation coefficient value and a pitch prediction gain value for an LPC (Linear Prediction Coding) prediction residual signal are used instead of using the normalized maximum autocorrelation coefficient value for the input audio signal of each channel.
  • the code channel determination unit 324 compares the intra-channel correlations corl and cor2, and selects one having a higher value.
  • the code channel determination unit 324 selects a channel corresponding to the selected intra-channel correlation as a code channel in the enhancement layer, and generates encoded channel selection information indicating the selected channel. More specifically, when the intra-channel correlation corl is higher than the intra-channel correlation cor2, the sign channel determination unit 324 selects the first channel, and the intra-channel correlation cor2 is the intra-channel correlation cor. If the beam is high, select the second channel.
  • Generated encoded channel selection Information is output to the switch unit 126 and multiplexed with the core layer code data and the extended layer code data.
  • the lch code key unit 312 and the second ch code key unit 314 have the same internal configuration. Therefore, for simplification of description, one of the lch code key section 312 and the second ch code key section 314 is shown as “the Ach code key section 330”, and the internal configuration thereof is shown in FIG. Will be described. “A” in “Ach” represents 1 or 2. Also, “B” used in the drawings and in the following description represents 1 or 2. However, when “A” is 1, “B” is 2, and when “A” is 2, “B” is 1.
  • the Ach code key unit 330 includes a switch unit 332, an Ach signal intra-channel prediction unit 334, subtractors 336 and 338, an Ach prediction residual signal code key unit 340, and a Bch estimation signal generation unit. 342.
  • the switch unit 332 includes the Ach decoded speech signal obtained by the Ach prediction residual signal encoding unit 340 or the Ach estimation signal obtained by the Bch encoding unit (not shown). Is output to the A-channel signal intra-channel prediction unit 334 according to the code channel selection information. Specifically, when the selected channel is the Ath channel, the Ach decoded speech signal is output to the Ach signal intra-channel prediction unit 334, and when the selected channel is the Bth channel, the Achth channel is output. The estimated signal is output to the A-channel signal intra-channel prediction unit 334.
  • the A-channel signal intra-channel prediction unit 334 performs intra-channel prediction of the A-th channel.
  • In-channel prediction uses the correlation of signals in the channel to predict the signal strength of the past frame and the signal of the current frame.
  • an intra-channel prediction signal Sp (n) and an intra-channel prediction parameter quantization code are obtained.
  • the intra-channel prediction signal Sp (n) is calculated by the following equation (4).
  • the signal of the past frame described above is held in an intra-channel prediction buffer (an A-ch intra-channel prediction buffer) provided in the A-ch signal intra-channel prediction unit 334. Also, the intra-Ach channel prediction buffer is updated with the signal input from the switch unit 332 in order to predict the signal of the next frame. Details of updating the intra-channel prediction buffer will be described later.
  • Subtractor 336 subtracts the monaural decoded audio signal from the Ach input audio signal.
  • the subtracter 338 subtracts the intra-channel prediction signal Sp (n) obtained by the intra-channel prediction in the Ach signal intra-channel prediction unit 334 from the signal obtained by the subtraction in the subtracter 336.
  • the signal obtained by the subtraction in the subtractor 338, that is, the Ach prediction residual signal, is output to the Ach prediction residual signal code unit 340.
  • the Ach prediction residual signal encoding unit 340 encodes the Ach prediction residual signal by an arbitrary encoding method. By this code ⁇ ⁇ , prediction residual encoded data and the Ach decoded speech signal are obtained.
  • the prediction residual code data is output as the Ach code data along with the intra-channel prediction parameter quantization code.
  • the A-ch decoded audio signal is output to B-ch estimated signal generation unit 342 and switch unit 332.
  • Bch estimated signal generation section 342 generates a Bch estimated signal as the Bch decoded speech signal at the time of the A channel code from the Ach decoded speech signal and the monaural decoded speech signal.
  • the generated Bch estimation signal is output to a switch part (similar to the switch part 332) of the Bch code key not shown.
  • the Ach signal is obtained by using the Ach decoded speech signal of the i-th frame (i is an arbitrary natural number) obtained by the Ach prediction residual signal coding unit 340.
  • the intra-channel Ach channel prediction buffer 351 inside the intra-channel prediction unit 334 is updated (ST101).
  • the updated intra-Ach channel prediction buffer 351 is the i + 1th frame of the next frame.
  • the frame is used for intra-channel prediction (ST102).
  • the i th frame Bch estimation signal is generated using the i th frame Ach decoded speech signal and the i frame monaural decoded speech signal (ST201).
  • the generated Bch estimation signal is output from the Ach code key unit 330 to a Bch code key unit (not shown).
  • the Bch estimation signal passes through the switch unit (same as the switch unit 332), and the Bch signal intra-channel prediction unit (same as the Ach signal intra-channel prediction unit 334). Is output.
  • the Bch intra-channel prediction buffer 352 provided in the Bch signal intra-channel prediction unit is updated with the Bch estimation signal (ST202).
  • the updated B-ch intra-channel prediction buffer 352 is used for intra-channel prediction for the (i + 1) th frame (ST203).
  • the B-ch code key section does not require any operation other than the update operation of the intra-B-channel prediction buffer 352. Therefore, the sign B of the Bch input audio signal can be paused in that frame.
  • the signal of the channel having the high intra-channel correlation is encoded.
  • the efficiency of code encoding by intra-channel prediction can be improved.
  • a component for performing inter-channel prediction can be added to the configuration of speech coding apparatus 300.
  • the audio encoding device 300 instead of inputting the monaural decoded audio signal to the subtractor 336, the audio encoding device 300 performs inter-channel prediction that predicts the Ach audio signal using the monaural decoded audio signal, and generates the same.
  • a configuration in which the inter-channel prediction signal is input to the subtractor 336 can be employed.
  • FIG. 9 is a block diagram showing the configuration of the speech coding apparatus according to Embodiment 4 of the present invention.
  • speech coding apparatus 400 in FIG. 9 has the same basic configuration as speech coding apparatuses 100, 200, and 300 described in the above embodiments. Therefore, the same components as those described in the above embodiment among the components described in this embodiment are described above. The same reference numerals as those used in the embodiment are attached, and detailed description thereof is omitted.
  • transmission encoded data output from speech encoding apparatus 400 is decoded by speech decoding apparatus having the same basic configuration as speech decoding apparatus 150 described in Embodiment 1. be able to.
  • Speech encoding apparatus 400 includes core layer code key unit 402 and enhancement layer code key unit 404.
  • the core layer code encoder 402 includes a monaural signal generator 110 and a monaural signal CELP (Code Excited Linear Prediction) encoder 410.
  • the enhancement layer coding unit 404 includes a coding channel selection unit 310, an Ich CELP coding unit 422, a second ch CELP coding unit 424, and a switching unit 126.
  • monaural signal CELP coding unit 410 performs CELP coding on the monaural signal generated by monaural signal generation unit 110.
  • the encoded data obtained by this encoding is output as core layer encoded data.
  • a monaural driving sound source signal is obtained by this code ⁇ .
  • the monaural signal CELP code input unit 410 decodes the monaural signal and outputs a monaural decoded audio signal obtained thereby.
  • the core layer coded data is multiplexed with enhancement layer code data and code channel selection information.
  • the core layer encoded data, the monaural driving excitation signal, and the monaural decoded speech signal are output to the first ch CELP code unit 422 and the second ch CELP code unit 424.
  • first channel CELP code section 422 and second channel CELP code section 424 have the same internal configuration. Therefore, for simplification of description, one of! / And the difference between the IchCELP encoding unit 422 and the second chCELP encoding unit 424 is indicated as “first AchCELP encoding unit 430”, and the internal configuration thereof is illustrated. This is explained using 10. As described above, “A” in “Ach” represents 1 or 2, “B” used in the figure and in the following description also represents 1 or 2, and “A” is 1 In this case, “B” is 2, and when “A” is 2, “B” is 1.
  • the Ach CELP coding unit 430 is composed of an Ach LPC (Linear Prediction Coding) analysis unit 431, multipliers 432, 433, 434, 435, 436, a switch unit 437, an Ach adaptive codebook 438, an Ach fixed code. Book 439, adder 440, synthesis filter 441, auditory weighting unit 442, distortion A minimizing unit 443, an Ach decoding unit 444, a Bch estimated signal generation unit 445, an AchLPC analysis unit 446, an AchLPC prediction residual signal generation unit 447, and a subtracter 448 are included.
  • Ach LPC Linear Prediction Coding
  • the AchLPC analysis section 431 performs LPC analysis on the Ach input audio signal, and quantizes the AchLPC parameters obtained thereby.
  • the AchLPC analysis unit 431 uses the fact that the correlation between the AchLPC parameter and the LPC parameter for a monaural signal is generally high, so that when the LPC parameter is quantized, the core layer code data power is also quantized to the monaural signal. Decode the LPC parameter and quantize the difference component of the AchLPC parameter with respect to the decoded monaural signal quantization LPC parameter to obtain the AchLPC quantized code.
  • the AchLPC quantized code is output to the synthesis filter 441.
  • the Ach LPC quantized code is output as Ach code data along with Ach drive excitation code data, which will be described later. By quantizing the difference component, it is possible to efficiently quantize the enhancement layer LPC parameters.
  • the Ach drive excitation code key data is obtained by encoding the residual component of the Ach drive excitation signal with respect to the monaural drive excitation signal.
  • This code ⁇ is realized by sound source search in the CELP code ⁇ .
  • AchCELP encoding section 430 the adaptive excitation signal, the fixed excitation signal, and the monaural driving excitation signal are multiplied by their corresponding gains, and these excitation signals after gain multiplication are added, A closed-loop sound source search (adaptive codebook search, fixed codebook search, and gain search) is performed on the drive sound source signal obtained by the addition by distortion minimization. Then, the adaptive codebook index (adaptive excitation index), fixed codebook index (fixed excitation index), and the gain code for the adaptive excitation signal, fixed excitation signal, and monaural driving excitation signal are output as the Ach driving excitation code input data. Is done. Core layer coding, enhancement layer code key and code key channel selection power This is done for each S frame, whereas this excitation search is performed for each subframe obtained by dividing the frame into multiple parts. Done. Hereinafter, this configuration will be described more specifically.
  • the synthesis filter 441 is the first AchLPC quantized code output from the AchLPC analysis unit 431. Using the signal, the signal output from the adder 440 is used as the driving sound source and synthesized by the LPC synthesis filter. The combined signal obtained by this combining is output to the subtracter 448.
  • the subtractor 448 calculates an error signal by subtracting the synthesized signal from the Ach input audio signal.
  • the error signal is output to the auditory weighting unit 442.
  • the error signal corresponds to sign distortion.
  • the auditory weighting unit 442 performs auditory weighting on the coding distortion (that is, the error signal described above), and outputs the weighted code signal distortion to the distortion minimizing unit 443.
  • Distortion minimizing section 443 determines an adaptive codebook index and a fixed codebook index that minimize coding distortion, and assigns the adaptive codebook index to the Ach adaptive codebook 438, and the fixed codebook index. Are output to the Ach fixed codebook 439, respectively. Further, the distortion minimizing section 443 generates gains corresponding to these ingenious states, specifically, gains for adaptive vectors described later and fixed vectors described later (adaptive codebook gain and fixed codebook gain). The adaptive codebook gain is output to the multiplier 433, and the fixed codebook gain is output to the multiplier 435.
  • the distortion minimizing unit 443 has a gain (first adjustment gain, second gain) for adjusting the gain between the monaural driving sound source signal, the adaptive vector after gain multiplication, and the fixed vector after gain multiplication. Adjustment gain and third adjustment gain), the first adjustment gain is output to multiplier 432, the second adjustment gain is output to multiplier 434, and the third adjustment gain is output to multiplier 436. To do.
  • These adjustment gains are preferably generated so as to be interrelated. For example, if the inter-channel correlation between the 1st channel input audio signal and the 2nd channel input audio signal is high, the contribution of the monaural driving sound source signal is the contribution of the adaptive vector after gain multiplication and the fixed vector after gain multiplication.
  • distortion minimizing section 443 includes adaptive codebook status, fixed codebook data, adaptive codebook gain code, fixed codebook gain code, and three gain adjustment gain codes. Is output as the Ach drive excitation code key data.
  • the Ach adaptive codebook 438 stores the sound source vector of the driving sound source for the synthesis filter 441 generated in the past in the internal buffer. Also, the Ach adaptive codebook 438 generates a vector for one subframe as an adaptive vector from the stored excitation vector. The generation of the adaptive vector is performed based on the adaptive codebook lag (pitch lag or pitch period) corresponding to the adaptive codebook data input from the distortion minimizing unit 443. The generated adaptation vector is output to multiplier 433.
  • the internal buffer of the Ach adaptive codebook 438 is updated by the signal output from the switch unit 437. Details of this update operation will be described later.
  • Ach fixed codebook 439 outputs the excitation vector corresponding to the fixed codebook index output from distortion minimizing section 443 to multiplier 435 as a fixed vector.
  • Multiplier 433 multiplies the adaptive vector output from Ach adaptive codebook 438 by the adaptive codebook gain, and outputs the adaptive vector after gain multiplication to multiplier 434.
  • Multiplier 435 multiplies the fixed vector output from Ach fixed codebook 439 by the fixed codebook gain, and outputs the fixed vector after gain multiplication to multiplier 436.
  • Multiplier 432 multiplies the monaural driving sound source signal by the first adjustment gain, and outputs the monaural driving sound source signal after gain multiplication to adder 440.
  • Multiplier 434 multiplies the adaptive vector output from multiplier 433 by the second adjustment gain, and outputs the adaptive vector after gain multiplication to adder 440.
  • Multiplier 436 multiplies the fixed vector output from multiplier 435 by the third adjustment gain, and outputs the fixed vector after gain multiplication to adder 440.
  • Adder 440 adds the monaural driving sound source signal output from multiplier 432, the adaptive vector output from multiplier 434, and the fixed vector output from multiplier 436, and after addition Is output to the switch unit 437 and the synthesis filter 441.
  • Switch section 437 outputs the signal output from adder 440 or the signal output from AchLPC prediction residual signal generation section 447 to Ach adaptive codebook 438 in accordance with the code channel selection information. To do. More specifically, when the selected channel is the Ath channel, the signal from the adder 440 is output to the Ach adaptive codebook 438, and when the selected channel is the Bth channel, The signal from the AchLPC prediction residual signal generator 447 It is output to the Ach adaptive codebook 438.
  • Ach decoding section 444 decodes the Ach encoded data, and outputs the Ach decoded speech signal obtained thereby to Bch estimated signal generation section 445.
  • Bch estimated signal generation section 445 generates a Bch estimated signal as a Bch decoded speech signal at the time of Ach encoding, using the Ach decoded speech signal and the monaural decoded speech signal.
  • the generated Bch estimation signal is output to a BchCELP encoder (not shown).
  • the AchLPC analysis unit 446 performs LPC analysis on the Ach estimation signal output from the BchCELP code key unit (not shown), and the AchLPC parameters obtained thereby are used as the AchLPC. The result is output to the prediction residual signal generation unit 447.
  • the Ach estimation signal output from the BchCELP encoder is the first Ach signal generated when the Bch input speech signal is encoded in the BchCELP encoder part (when the Bch code is input). Corresponds to Ach decoded audio signal.
  • AchLPC prediction residual signal generation section 447 generates an encoded LPC prediction residual signal for the Ach estimation signal, using the AchLPC parameters output from AthLPC analysis section 446.
  • the generated encoded LPC prediction residual signal is output to switch section 437.
  • FIG. 11 is a flowchart showing an adaptive codebook update operation when the A-th channel is selected by the code channel selection unit 310.
  • the flow illustrated here includes the CELP encoding process (ST310) in the AchCELP encoding unit 430, the adaptive codebook update process (ST320) in the AchCELP code unit 430, and the BchCELP code. It is divided into the adaptive codebook update process (ST330) in the key part.
  • Step ST310i includes two steps ST311, ST312, and step ST330i includes four steps ST331, ST332, ST333, ST334.
  • step ST 311 LPC analysis and quantization are performed by the AchLPC analysis unit 431 of the AchCELP encoding unit 430.
  • Ach adaptive codebook 438 A ch Fixed codebook 439, multipliers 432, 433, 434, 435, 436, Karo arithmetic 440, synthesis filter 441, subtractor 448, perceptual weighting unit 442 and distortion minimizing unit 443
  • the type excitation search unit performs excitation search (adaptive codebook search, fixed codebook search, and gain search) (ST312).
  • step ST320 the internal buffer of the Ach adaptive codebook 438 is updated with the Ach drive excitation signal obtained by the above-described excitation search.
  • step ST331 the Bch estimated signal generation section 445 of the AchCELP encoding section 430 generates the Bch estimated signal.
  • the generated Bch estimation signal is sent from the AchCE LP code unit 430 to the BchCELP code unit.
  • step ST332 an LPC analysis is performed on the Bch estimation signal by a BchLPC analysis unit (equivalent to the AchLPC analysis unit 446) (not shown) of the BchCELP code key unit, and a BchLPC parameter is obtained. .
  • step ST333 the BchLPC parameter is used by a BchLPC prediction residual signal generation unit (equivalent to the AchLPC prediction residual signal generation unit 447) (not shown) of the BchCELP encoding unit! Then, an encoded LPC prediction residual signal for the Bch estimation signal is generated.
  • This encoded LPC prediction residual signal passes through a not-shown switch part (equivalent to switch part 437) of the Bch CELP code part, and is not shown in the Bch adaptive codebook (Ach adaptive codebook 438). The equivalent).
  • step ST334 the internal buffer of the Bch adaptive codebook is updated with the encoded LPC prediction residual signal for the Bch estimation signal.
  • the internal buffer of the Ach adaptive codebook 438 is used by using the Ach drive excitation signal for the j-th subframe in the i-th frame obtained by the distortion minimizing section 443. Is updated (ST401). Then, the updated Ach adaptive codebook 438 is used for sound source search for the j + 1st subframe which is the next subframe (ST4 02).
  • the i th frame Bch estimation signal is generated using the i th frame Ach decoded speech signal and the i frame monaural decoded speech signal (ST5001).
  • the generated Bch estimation signal is output from the AchCELP code section 430 to the BchCELP code section.
  • the Bch encoded LPC prediction residual signal (encoded LPC prediction residual signal for the Beh estimation signal) for the i-th frame 451 Is generated (ST502).
  • the Beh encoded LPC prediction residual signal 451 is output to the Bch adaptive codebook 452 via the switch part of the BchCELP code part.
  • the Bch adaptive codebook 452 is updated by the Bch encoded LPC prediction residual signal 451 (ST503).
  • the updated Bch adaptive codebook 452 is used for sound source search for the i + 1 frame that is the next frame (ST504).
  • the B-ch CELP code key section does not require any operation other than the update operation of the B-ch adaptive codebook 452, so that For the frame, the sign of the input Bch audio signal can be paused.
  • the speech code of each layer is performed based on the CELP code scheme
  • the signal of the channel having a high intra-channel correlation is coded.
  • the efficiency of code encoding by intra-channel prediction can be improved.
  • the code channel selection unit 310 described in the third embodiment is used in the speech code channel apparatus adopting the CELP code channel system has been described as an example.
  • the encoding channel selection unit 120 and the code channel selection unit 210 described in the first embodiment and the second embodiment, respectively, are used instead of the code channel selection unit 310 or together with the code channel selection unit 310. You can also Therefore, the effects described in the above-described embodiments can be realized when the speech coding of each layer is performed based on the CELP coding method.
  • the AchCELP code key section 430 Perform adaptive codebook search and adaptive codebook search of the BchCELP encoder, respectively, and select the channel corresponding to the one with the smaller value of the resulting code key distortion as the code key channel You may do it.
  • a component for performing inter-channel prediction can be added to the configuration of speech coding apparatus 400.
  • the speech encoding apparatus 400 performs inter-channel prediction that predicts the first Ach decoded speech signal using the monaural drive excitation signal instead of directly multiplying the monaural drive excitation signal by the first adjustment gain. Therefore, it is possible to employ a configuration in which the inter-channel prediction signal generated thereby is multiplied by the first adjustment gain.
  • the embodiments of the present invention have been described above.
  • the speech encoding apparatus and speech decoding apparatus according to the above embodiments can be mounted on a wireless communication apparatus such as a wireless communication mobile station apparatus and a wireless communication base station apparatus used in a mobile communication system.
  • Each functional block used in the description of the above embodiment is typically realized as an LSI which is an integrated circuit. These may be individually made into one chip, or may be made into one chip to include some or all of them.
  • IC integrated circuit
  • system LSI system LSI
  • super LSI sub-regular LSI
  • non-regular LSI depending on the difference in power integration as LSI.
  • the method of circuit integration is not limited to LSI's, and implementation using dedicated circuitry or general purpose processors is also possible. You may use an FPGA (Field Programmable Gate Array) that can be programmed after manufacturing the LSI, or a reconfigurable processor that can reconfigure the connection and settings of the circuit cells inside the LSI.
  • FPGA Field Programmable Gate Array
  • the present invention can be applied to the use of a communication apparatus in a mobile communication system or a packet communication system using the Internet protocol.

Abstract

 ステレオ音声の複数チャネル間の相関が小さい場合でも効率的にステレオ音声を符号化することができる音声符号化装置。この装置において、モノラル信号生成部(110)は、ステレオ信号に含まれる第1チャネル信号および第2チャネル信号を用いてモノラル信号を生成する。符号化チャネル選択部(120)は、第1チャネル信号および第2チャネル信号の一方を選択する。モノラル信号符号化部(112)、第1ch符号化部(122)、第2ch符号化部(124)およびスイッチ部(126)を含む符号化部は、生成されたモノラル信号を符号化して、コアレイヤ符号化データを得るとともに、選択されたチャネル信号を符号化して、コアレイヤ符号化データに対応する拡張レイヤ符号化データを得る。

Description

明 細 書
音声符号化装置および音声符号化方法
技術分野
[0001] 本発明は、音声符号化装置および音声符号化方法に関し、特に、ステレオ音声の ための音声符号化装置および音声符号化方法に関する。
背景技術
[0002] 移動体通信や IP通信での伝送帯域の広帯域化、サービスの多様化に伴 1、、音声 通信において高音質化、高臨場感化のニーズが高まっている。例えば、今後、テレ ビ電話サービスにおけるハンズフリー形態での通話、テレビ会議における音声通信、 多地点で複数話者が同時に会話を行うような多地点音声通信、臨場感を保持したま ま周囲の音環境を伝送できるような音声通信などの需要が増加すると見込まれる。そ の場合、モノラル信号より臨場感があり、また複数話者の発話位置が認識できるよう な、ステレオ音声による音声通信を実現することが望まれる。このようなステレオ音声 による音声通信を実現するためには、ステレオ音声の符号ィ匕が必須となる。
[0003] また、 IPネットワーク上での音声データ通信において、ネットワーク上のトラフィック 制御やマルチキャスト通信実現のために、スケーラブルな構成を有する音声符号ィ匕 方式が望まれている。スケーラブルな構成とは、受信側で部分的な符号化データか らでも音声データの復号が可能な構成を ヽぅ。スケーラブルな構成を有する音声符 号化方式における符号化処理は、階層化されており、コアレイヤに対応するものと拡 張レイヤに対応するものとを含む。したがって、その符号化処理によって生成される 符号ィ匕データも、コアレイヤの符号ィ匕データと拡張レイヤの符号ィ匕データとを含む。
[0004] ステレオ音声を符号化し伝送する場合にも、ステレオ信号の復号と、符号化データ の一部を用いたモノラル信号の復号とを受信側にぉ 、て選択可能な、モノラルース テレオ間でのスケーラブル構成 (モノラル一ステレオ'スケーラブル構成)を有する音 声符号化方式が望まれる。
[0005] このような音声符号ィ匕方式に基づく音声符号ィ匕方法としては、例えば、チャネル( 以下、「ch」と略記することがある)間の信号の予測 (第 lch信号から第 2ch信号の予 測、または、第 2ch信号力も第 lch信号の予測)を、チャネル相互間のピッチ予測に より行う、すなわち、 2チャネル間の相関を利用して符号ィ匕を行うものがある(非特許 文献 1参照)。
特干文献 1 : Ramprashad, ¾.A., 'Stereophonicし £LP coding using cross channel p rediction", Proc. IEEE Workshop on Speech Coding, pp.136- 138, Sep. 2000 発明の開示
発明が解決しょうとする課題
[0006] し力しながら、上記従来の音声符号化方法では、双方のチャネル間の相関が小さ Vヽ場合、十分な予測性能 (予測ゲイン)が得られず符号化効率が劣化することがある
[0007] 本発明の目的は、双方のチャネル間の相関が小さい場合でも効率的にステレオ音 声を符号ィ匕することができる音声符号ィ匕装置および音声符号ィ匕方法を提供すること である。
課題を解決するための手段
[0008] 本発明の音声符号化装置は、第 1チャネル信号および第 2チャネル信号を含むス テレオ信号を符号化する音声符号化装置において、前記第 1チャネル信号および前 記第 2チャネル信号を用いてモノラル信号を生成するモノラル信号生成手段と、前記 第 1チャネル信号および前記第 2チャネル信号の一方を選択する選択手段と、生成 されたモノラル信号を符号ィ匕してコアレイヤ符号ィ匕データを得るとともに、選択された チャネル信号を符号化して前記コアレイヤ符号化データに対応する拡張レイヤ符号 化データを得る符号化手段と、を有する構成を採る。
[0009] 本発明の音声符号化方法は、第 1チャネル信号および第 2チャネル信号を含むス テレオ信号を符号化する音声符号化方法において、前記第 1チャネル信号および前 記第 2チャネル信号を用いてモノラル信号を生成し、前記第 1チャネル信号および前 記第 2チャネル信号の一方を選択し、生成されたモノラル信号を符号ィ匕してコアレイ ャ符号ィ匕データを得るとともに、選択されたチャネル信号を符号ィ匕して前記コアレイ ャ符号化データに対応する拡張レイヤ符号化データを得るようにした。 発明の効果
[0010] 本発明によれば、ステレオ信号の複数チャネル信号間の相関が小さ!/、場合でも効 率的にステレオ音声を符号ィ匕することができる。
図面の簡単な説明
[0011] [図 1]本発明の実施の形態 1に係る音声符号化装置の構成を示すブロック図
[図 2]本発明の実施の形態 1に係る音声復号ィ匕装置の構成を示すブロック図
[図 3]本発明の実施の形態 2に係る音声符号ィ匕装置の構成を示すブロック図
[図 4]本発明の実施の形態 3に係る音声符号ィ匕装置の構成を示すブロック図
[図 5]本発明の実施の形態 3に係る符号ィ匕チャネル選択部の構成を示すブロック図 [図 6]本発明の実施の形態 3に係る第 Ach符号ィ匕部の構成を示すブロック図
[図 7]本発明の実施の形態 3に係る第 Aチャネルのチャネル内予測バッファの更新動 作の一例を説明するための図
[図 8]本発明の実施の形態 3に係る第 Bチャネルのチャネル内予測バッファの更新動 作の一例を説明するための図
[図 9]本発明の実施の形態 4に係る音声符号ィ匕装置の構成を示すブロック図
[図 10]本発明の実施の形態 4に係る第 AchCELP符号ィ匕部の構成を示すブロック図 [図 11]本発明の実施の形態 4に係る適応符号帳更新動作の一例を示すフロー図 [図 12]本発明の実施の形態 4に係る第 Ach適応符号帳の更新動作の一例を説明す るための図
[図 13]本発明の実施の形態 4に係る第 Bch適応符号帳の更新動作の一例を説明す るための図
発明を実施するための最良の形態
[0012] 以下、モノラル一ステレオ'スケーラブル構成を有する音声符号ィ匕に関する本発明 の実施の形態について、添付図面を参照して詳細に説明する。
[0013] (実施の形態 1)
図 1は、本発明の実施の形態 1に係る音声符号ィ匕装置の構成を示すブロック図で ある。図 1の音声符号化装置 100は、スケーラブル構成のコアレイヤに対応する構成 要素であるコアレイヤ符号ィ匕部 102と、スケーラブル構成の拡張レイヤに対応する構 成要素である拡張レイヤ符号ィ匕部 104と、を有する。以下、各構成要素はフレーム単 位で動作することを前提として説明する。
[0014] コアレイヤ符号ィ匕部 102は、モノラル信号生成部 110およびモノラル信号符号ィ匕部 112を有する。また、拡張レイヤ符号ィ匕部 104は、符号ィ匕チャネル選択部 120、第 lc h符号化部 122、第 2ch符号ィ匕部 124およびスィッチ部 126を有する。
[0015] コアレイヤ符号ィ匕部 102において、モノラル信号生成部 110は、ステレオ入力音声 信号に含まれる第 lch入力音声信号 s_chl(n)および第 2ch入力音声信号 s_ch2(n) (伹 し、 n=0〜NF-l ;NFはフレーム長)から、式(1)に示す関係に基づいてモノラル信号 s_ mono(n)を生成し、モノラル信号符号ィ匕部 112に出力する。ここで、本実施の形態で 説明するステレオ信号は、 2つのチャネルの信号、すなわち第 1チャネルの信号およ び第 2チャネルの信号力 成る。
[数 1]
, 、 s ch\(ri) + s chliri) , 、
s monoi n) =— = = … 1
[0016] モノラル信号符号ィ匕部 112は、モノラル信号 s_mono(n)をフレーム毎に符号ィ匕する。
符号化には任意の符号ィ匕方式が用 、られて良 、。モノラル信号 s_mono(n)の符号ィ匕 によって得られた符号ィ匕データは、コアレイヤ符号化データとして出力される。より具 体的には、コアレイヤ符号ィ匕データは、後述の拡張レイヤ符号化データおよび符号 化チャネル選択情報と多重され、送信符号ィ匕データとして音声符号ィ匕装置 100から 出力される。
[0017] また、モノラル信号符号ィ匕部 112は、モノラル信号 s_mono(n)を復号し、それによつ て得られるモノラル復号音声信号を拡張レイヤ符号ィ匕部 104の第 lch符号ィ匕部 122 および第 2ch符号ィ匕部 124に出力する。
[0018] 拡張レイヤ符号ィ匕部 104において、符号ィ匕チャネル選択部 120は、第 lch入力音 声信号 s_chl(n)および第 2ch入力音声信号 s_ch2(n)を用いて、第 1チャネルおよび第 2チャネルのうち、拡張レイヤでの符号化の対象のチャネルとして最適なチャネルを、 所定の選択基準に基づき選択する。最適なチャネルは、フレーム毎に選択される。こ こで、所定の選択基準は、拡張レイヤ符号ィ匕を高効率にまたは高音質 (低符号ィ匕歪 み)に実現できるための基準である。符号ィ匕チャネル選択部 120は、選択されたチヤ ネルを示す符号化チャネル選択情報を生成する。生成された符号化チャネル選択 情報は、スィッチ部 126に出力されるとともに、前述のコアレイヤ符号ィ匕データおよび 後述の拡張レイヤ符号ィ匕データと多重される。
[0019] なお、符号ィ匕チャネル選択部 120は、第 1入力音声信号 s_chl(n)および第 2入力音 声信号 s_ch2(n)を用 ヽる代わりに、第 lch符号化部 122および第 2ch符号化部 124 での符号ィ匕の過程で得られる任意のパラメータまたは信号もしくは符号ィ匕の結果 (す なわち、後述の第 lch符号ィ匕データおよび第 2ch符号ィ匕データ)を用いても良い。
[0020] 第 lch符号化部 122は、第 lch入力音声信号およびモノラル復号音声信号を用い て第 lch入力音声信号をフレーム毎に符号ィ匕し、それによつて得られた第 lch符号 化データをスィッチ部 126に出力する。
[0021] また、第 lch符号化部 122は、第 lch符号化データを復号して、第 lch復号音声信 号を得る。但し、本実施の形態では、第 lch符号ィ匕部 122で得られる第 lch復号音 声信号は、図示を省略する。
[0022] 第 2ch符号化部 124は、第 2ch入力音声信号およびモノラル復号音声信号を用い て第 2ch入力音声信号をフレーム毎に符号ィ匕し、それによつて得られた第 2ch符号 化データをスィッチ部 126に出力する。
[0023] また、第 2ch符号化部 124は、第 2ch符号化データを復号して、第 2ch復号音声信 号を得る。但し、本実施の形態では、第 2ch符号ィ匕部 124で得られる第 2ch復号音 声信号は、図示を省略する。
[0024] スィッチ部 126は、符号ィ匕チャネル選択情報に従って、第 lch符号ィ匕データおよび 第 2ch符号ィ匕データのうちいずれか一方をフレーム毎に選択的に出力する。出力さ れる符号化データは、符号化チャネル選択部 120によって選択されたチャネルの符 号ィ匕データである。よって、選択されたチャネルが、第 1チャネル力も第 2チャネルに 、あるいは、第 2チャネル力も第 1チャネルに切り替わったとき、スィッチ部 126から出 力される符号化データも、第 lch符号ィ匕データ力ゝら第 2ch符号ィ匕データに、あるいは 、第 2ch符号ィ匕データ力 第 lch符号ィ匕データに切り替わる。
[0025] ここで、前述したモノラル信号符号化部 112、第 lch符号化部 122、第 2ch符号ィ匕 部 124およびスィッチ部 126の組み合わせは、モノラル信号を符号ィ匕してコアレイヤ 符号ィ匕データを得るとともに、選択されたチャネル信号を符号ィ匕してコアレイヤ符号 化データに対応する拡張レイヤ符号化データを得る、符号化部を構成する。
[0026] 図 2は、音声符号化装置 100から出力された送信符号化データを受信符号化デー タとして受信し復号してモノラル復号音声信号およびステレオ復号音声信号を得るこ とができる音声復号化装置の構成を示すブロック図である。図 2の音声復号化装置 1 50は、スケーラブル構成のコアレイヤに対応する構成要素であるコアレイヤ復号部 1 52と、スケーラブル構成の拡張レイヤに対応する構成要素である拡張レイヤ復号部 154と、を有する。
[0027] コアレイヤ復号部 152は、モノラル信号復号部 160を有する。モノラル信号復号部 1 60は、受信した受信符号化データに含まれるコアレイヤ符号化データを復号して、 モノラル復号音声信号 sd_mono(n)を得る。モノラル復号音声信号 sd_mono(n)は、後段 の音声出力部(図示せず)、第 lch復号部 172、第 2ch復号部 174、第 lch復号信 号生成部 176および第 2ch復号信号生成部 178に出力される。
[0028] 拡張レイヤ復号部 154は、スィッチ部 170、第 lch復号部 172、第 2ch復号部 174 、第 lch復号信号生成部 176、第 2ch復号信号生成部 178およびスィッチ部 180、 1 82を有する。
[0029] スィッチ部 170は、受信符号ィ匕データに含まれる符号ィ匕チャネル選択情報を参照 し、受信符号化データに含まれる拡張レイヤ符号化データを、選択されたチャネルに 対応する復号部に出力する。具体的には、選択されたチャネルが第 1チャネルの場 合は、拡張レイヤ符号ィ匕データは第 lch復号部 172に出力され、選択されたチヤネ ルが第 2チャネルの場合は、拡張レイヤ符号ィ匕データは第 2ch復号部 174に出力さ れる。
[0030] 第 lch復号部 172は、スィッチ部 170から拡張レイヤ符号ィ匕データが入力されたと き、その拡張レイヤ符号ィ匕データおよびモノラル復号音声信号 sd_mono(n)を用いて 第 lch復号音声信号 Sd_chl(n)を復号し、第 lch復号音声信号 Sd_chl(n)をスィッチ部 180および第 2ch復号信号生成部 178に出力する。
[0031] 第 2ch復号部 174は、スィッチ部 170から拡張レイヤ符号ィ匕データが入力されたと き、その拡張レイヤ符号ィ匕データおよびモノラル復号音声信号 sd_mono(n)を用いて 第 2ch復号音声信号 sd— ch2(n)を復号し、第 2ch復号音声信号 sd— ch2(n)をスィッチ部 182および第 1 ch復号信号生成部 176に出力する。
[0032] 第 lch復号信号生成部 176は、第 2ch復号部 174から第 2ch復号音声信号 sd— ch2 (n)が入力されたとき、第 2ch復号部 174から入力された第 2ch復号音声信号 sd_ch2( n)およびモノラル復号音声信号 sd_mono(n)を用いて、次の式(2)に示す関係に基づ いて、第 lch復号音声信号 Sd_chl(n)を生成する。生成された第 lch復号音声信号 sd _chl(n)はスィッチ部 180に出力される。
[数 2] sd ch\(n) = 2 x sd monoin) - sd _ chlin ) ·· · ( 2 )
[0033] 第 2ch復号信号生成部 178は、第 lch復号部 172から第 lch復号音声信号 sd—chl (n)が入力されたとき、第 lch復号部 172から入力された第 lch復号音声信号 sd_chl( n)およびモノラル復号音声信号 sd_mono(n)を用いて、次の式(3)に示す関係に基づ いて、第 2ch復号音声信号 Sd_ch2(n)を生成する。生成された第 2ch復号音声信号 sd _ch2(n)はスィッチ部 182に出力される。
[数 3] sd chliri) = 2 sd _ monoin) - sd _ ch\{n) ·· · ( 3;
[0034] スィッチ部 180は、符号ィ匕チャネル選択情報に従って、第 lch復号部 172から入力 された第 lch復号音声信号 Sd_chl(n)および第 lch復号信号生成部 176から入力さ れた第 lch復号音声信号 Sd_chl(n)のいずれか一方を選択的に出力する。具体的に は、選択されたチャネルが第 1チャネルの場合は、第 lch復号部 172から入力された 第 lch復号音声信号 Sd_chl(n)が選択され出力される。一方、選択されたチャネルが 第 2チャネルの場合は、第 lch復号信号生成部 176から入力された第 lch復号音声 信号 Sd_chl(n)が選択され出力される。
[0035] スィッチ部 182は、符号ィ匕チャネル選択情報に従って、第 2ch復号部 174から入力 された第 2ch復号音声信号 Sd_ch2(n)および第 2ch復号信号生成部 178から入力さ れた第 2ch復号音声信号 Sd_ch2(n)のいずれか一方を選択的に出力する。具体的に は、選択されたチャネルが第 1チャネルの場合は、第 2ch復号信号生成部 178から 入力された第 2ch復号音声信号 Sd_ch2(n)が選択され出力される。一方、選択された チャネルが第 2チャネルの場合は、第 2ch復号部 174から入力された第 2ch復号音 声信号 Sd_ch2(n)が選択され出力される。
[0036] スィッチ部 180から出力される第 lch復号音声信号 sd_chl(n)およびスィッチ部 182 から出力される第 2ch復号音声信号 Sd_ch2(n)は、ステレオ復号音声信号として後段 の音声出力部(図示せず)に出力される。
[0037] このように、本実施の形態によれば、第 lch入力音声信号 s_chl(n)および第 2ch入 力音声信号 s_ch2(n)から生成されたモノラル信号 s_mono(n)を符号ィ匕してコアレイヤ符 号ィ匕データを得るとともに、第 1チャネルおよび第 2チャネルのうち選択されたチヤネ ルの入力音声信号 (第 lch入力音声信号 s_chl(n)または第 2ch入力音声信号 s_ch2(n ))を符号ィ匕して拡張レイヤ符号ィ匕データを得るため、ステレオ信号の複数チャネル間 の相関が小さい場合に予測性能 (予測ゲイン)が不十分になることを回避することが でき、効率的にステレオ音声を符号ィ匕することができる。
[0038] (実施の形態 2)
図 3は、本発明の実施の形態 2に係る音声符号ィ匕装置の構成を示すブロック図で ある。
[0039] なお、図 3の音声符号化装置 200は、実施の形態 1で説明した音声符号化装置 10 0と同様の基本的構成を有する。よって、本実施の形態で説明する構成要素のうち実 施の形態 1で説明したものと同様のものには、実施の形態 1で用いたものと同一の参 照符号を付し、その構成要素についての詳細な説明を省略する。
[0040] また、音声符号ィ匕装置 200から出力される送信符号ィ匕データは、実施の形態 1で 説明した音声復号ィ匕装置 150と同様の基本的構成を有する音声復号ィ匕装置におい て復号することができる。
[0041] 音声符号化装置 200は、コアレイヤ符号ィ匕部 102および拡張レイヤ符号ィ匕部 202 を有する。拡張レイヤ符号ィ匕部 202は、第 lch符号ィ匕部 122、第 2ch符号ィ匕部 124、 スィッチ部 126および符号ィ匕チャネル選択部 210を有する。
[0042] 符号化チャネル選択部 210は、第 2ch復号音声生成部 212、第 lch復号音声生成 部 214、第 1歪み算出部 216、第 2歪み算出部 218および符号ィ匕チャネル決定部 22 0を有する。
[0043] 第 2ch復号音声生成部 212は、モノラル信号符号ィ匕部 112によって得られたモノラ ル復号音声信号および第 lch符号ィ匕部 122によって得られた第 lch復号音声信号 を用いて、前述の式(1)に示す関係に基づいて、第 2ch推定信号としての第 2ch復 号音声信号を生成する。生成された第 2ch復号音声信号は、第 1歪み算出部 216に 出力される。
[0044] 第 lch復号音声生成部 214は、モノラル信号符号ィ匕部 112によって得られたモノラ ル復号音声信号および第 2ch符号ィ匕部 124によって得られた第 2ch復号音声信号 を用いて、前述の式(1)に示す関係に基づいて、第 lch推定信号としての第 lch復 号音声信号を生成する。生成された第 lch復号音声信号は、第 2歪み算出部 218に 出力される。
[0045] 前述した第 2ch復号音声生成部 212および第 lch復号音声生成部 214の組み合 わせは、推定信号生成部を構成する。
[0046] 第 1歪み算出部 216は、第 lch符号ィ匕部 122によって得られた第 lch復号音声信 号および第 2ch復号音声生成部 212によって得られた第 2ch復号音声信号を用い て、第 1符号ィ匕歪みを算出する。第 1符号化歪みは、拡張レイヤでの符号化の対象 チャネルとして第 1チャネルを選択した場合に生じる 2チャネル分の符号ィ匕歪みに相 当する。算出された第 1符号ィ匕歪みは、符号ィ匕チャネル決定部 220に出力される。
[0047] 第 2歪み算出部 218は、第 2ch符号ィ匕部 124によって得られた第 2ch復号音声信 号および第 lch復号音声生成部 214によって得られた第 lch復号音声信号を用い て、第 2符号ィ匕歪みを算出する。第 2符号化歪みは、拡張レイヤでの符号化の対象 チャネルとして第 2チャネルを選択した場合に生じる 2チャネル分の符号ィ匕歪みに相 当する。算出された第 2符号ィ匕歪みは、符号ィ匕チャネル決定部 220に出力される。
[0048] ここで、 2チャネル分の符号ィ匕歪み (第 1符号ィ匕歪みまたは第 2符号ィ匕歪み)の算出 方法としては、例えば次の 2つの方法が挙げられる。 1つは、各チャネルの復号音声 信号 (第 lch復号音声信号または第 2ch復号音声信号)の、対応する入力音声信号 (第 lch入力音声信号または第 2ch入力音声信号)に対する誤差パワーの比 (信号 対符号化歪み比)の 2チャネル分の平均を、 2チャネル分の符号ィ匕歪みとして求める 方法である。もう 1つは、前述した誤差パワーの 2チャネル分の総和を、 2チャネル分 の符号ィ匕歪みとして求める方法である。
[0049] 前述した第 1歪み算出部 216および第 2歪み算出部 218の組み合わせは、歪み算 出部を構成する。また、この歪み算出部および前述した推定信号生成部の組み合わ せは算出部を構成する。
[0050] 符号化チャネル決定部 220は、第 1符号化歪みの値および第 2符号化歪みの値を 相互比較し、第 1符号化歪みおよび第 2符号化歪みのうち、より小さい値を有するも のを選択する。符号化チャネル決定部 220は、選択された符号化歪みに対応するチ ャネルを、拡張レイヤでの符号ィ匕の対象チャネル (符号ィ匕チャネル)として選択し、選 択されたチャネルを示す符号化チャネル選択情報を生成する。より具体的には、符 号ィ匕チャネル決定部 220は、第 1符号ィ匕歪みが第 2符号ィ匕歪みよりも小さい場合、第 1チャネルを選択し、第 2符号ィ匕歪みが第 1符号ィ匕歪みよりも小さい場合、第 2チヤネ ルを選択する。生成された符号ィ匕チャネル選択情報は、スィッチ部 126に出力される とともに、コアレイヤ符号ィ匕データおよび拡張レイヤ符号ィ匕データと多重される。
[0051] このように、本実施の形態によれば、符号化チャネルの選択基準として、符号化歪 みの大きさを使用するため、拡張レイヤの符号ィ匕歪みを低減することができ、効率的 にステレオ音声を符号ィ匕することができる。
[0052] なお、本実施の形態では、対応する入力音声信号に対する各チャネルの復号音声 信号の誤差パワーの比または総和を算出し、この算出結果を符号ィ匕歪みとして用い ているが、その代わりに、第 lch符号ィ匕部 122および第 2ch符号ィ匕部 124での符号 化の過程で得られる符号ィ匕歪みを用いても良い。また、この符号化歪みは、聴覚重 み付きの歪みであっても良い。
[0053] (実施の形態 3)
図 4は、本発明の実施の形態 3に係る音声符号ィ匕装置の構成を示すブロック図で ある。なお、図 4の音声符号化装置 300は、前述した実施の形態で説明した音声符 号化装置 100、 200と同様の基本的構成を有する。よって、本実施の形態で説明す る構成要素のうち前述の実施の形態で説明したものと同様のものについては、前述 の実施の形態で用いたものと同一の参照符号を付し、その詳細な説明を省略する。
[0054] また、音声符号ィ匕装置 300から出力される送信符号ィ匕データは、実施の形態 1で 説明した音声復号ィ匕装置 150と同様の基本的構成を有する音声復号ィ匕装置におい て復号することができる。
[0055] 音声符号化装置 300は、コアレイヤ符号ィ匕部 102および拡張レイヤ符号ィ匕部 302 を有する。拡張レイヤ符号化部 302は、符号化チャネル選択部 310、第 lch符号ィ匕 部 312、第 2ch符号ィ匕部 314およびスィッチ部 126を有する。
[0056] 符号ィ匕チャネル選択部 310は、図 5に示すように、第 lchチャネル内相関度算出部
320、第 2chチャネル内相関度算出部 322および符号ィ匕チャネル決定部 324を有 する。
[0057] 第 lchチャネル内相関度算出部 320は、第 lch入力音声信号に対する正規化最 大自己相関係数値を用いて、第 1チャネルのチャネル内相関度 corlを算出する。
[0058] 第 2chチャネル内相関度算出部 322は、第 2ch入力音声信号に対する正規化最 大自己相関係数値を用いて、第 2チャネルのチャネル内相関度 cor2を算出する。
[0059] なお、各チャネルのチャネル内相関度の算出には、各チャネルの入力音声信号に 対する正規化最大自己相関係数値を用いる代わりに、各チャネルの入力音声信号 に対するピッチ予測ゲイン値を用いたり、 LPC (Linear Prediction Coding)予測残差 信号に対する正規ィ匕最大自己相関係数値およびピッチ予測ゲイン値を用いたりする ことができる。
[0060] 符号ィ匕チャネル決定部 324は、チャネル内相関度 corl、 cor2を相互比較し、これら のうち、より高い値を有するものを選択する。符号ィ匕チャネル決定部 324は、選択さ れたチャネル内相関度に対応するチャネルを、拡張レイヤでの符号ィ匕チャネルとして 選択し、選択されたチャネルを示す符号化チャネル選択情報を生成する。より具体 的には、符号ィ匕チャネル決定部 324は、チャネル内相関度 corlがチャネル内相関度 cor2よりも高い場合、第 1チャネルを選択し、チャネル内相関度 cor2がチャネル内相 関度 corはりも高い場合、第 2チャネルを選択する。生成された符号化チャネル選択 情報は、スィッチ部 126に出力されるとともに、コアレイヤ符号ィ匕データおよび拡張レ ィャ符号ィ匕データと多重される。
[0061] 第 lch符号ィ匕部 312および第 2ch符号ィ匕部 314は、互いに同様の内部構成を有 する。よって、説明の簡略化のために、第 lch符号ィ匕部 312および第 2ch符号ィ匕部 3 14のうちいずれか一方を「第 Ach符号ィ匕部 330」として示し、その内部構成について 図 6を用いて説明する。なお、「Ach」の「A」は 1または 2を表す。また、図中において および以下の説明において用いられる「B」も 1または 2を表す。但し、「A」が 1の場合 「B」は 2であり、「A」が 2の場合「B」は 1である。
[0062] 第 Ach符号ィ匕部 330は、スィッチ部 332、第 Ach信号チャネル内予測部 334、減 算器 336、 338、第 Ach予測残差信号符号ィ匕部 340および第 Bch推定信号生成部 342を有する。
[0063] スィッチ部 332は、第 Ach予測残差信号符号化部 340によって得られた第 Ach復 号音声信号、または、第 Bch符号化部(図示せず)によって得られた第 Ach推定信 号を、符号ィ匕チャネル選択情報に従って第 Ach信号チャネル内予測部 334に出力 する。具体的には、選択されたチャネルが第 Aチャネルの場合は、第 Ach復号音声 信号が第 Ach信号チャネル内予測部 334に出力され、選択されたチャネルが第 Bチ ャネルの場合は、第 Ach推定信号が第 Ach信号チャネル内予測部 334に出力され る。
[0064] 第 Ach信号チャネル内予測部 334は、第 Aチャネルのチャネル内予測を行う。チヤ ネル内予測は、チャネル内の信号の相関性を利用して過去のフレームの信号力 現 在のフレームの信号を予測するものである。チャネル内予測の結果として、チャネル 内予測信号 Sp(n)およびチャネル内予測パラメータ量子化符号が得られる。例えば 1 次のピッチ予測フィルタを用いる場合、チャネル内予測信号 Sp(n)は、次の式 (4)によ つて算出される。
Sp(n) = gp Sin(n - T) … (4 ) ここで、 Sin(n)はピッチ予測フィルタへの入力信号、 Tはピッチ予測フィルタのラグ、 g pはピッチ予測フィルタのピッチ予測係数である。
[0065] 前述した過去のフレームの信号は、第 Ach信号チャネル内予測部 334の内部に設 けられたチャネル内予測バッファ(第 Achチャネル内予測バッファ)に保持される。ま た、第 Achチャネル内予測バッファは、次フレームの信号の予測のために、スィッチ 部 332から入力された信号で更新される。チャネル内予測バッファの更新の詳細に ついては後述する。
[0066] 減算器 336は、第 Ach入力音声信号からモノラル復号音声信号を減算する。減算 器 338は、減算器 336での減算によって得られた信号から、第 Ach信号チャネル内 予測部 334でのチャネル内予測によって得られたチャネル内予測信号 Sp(n)を減算 する。減算器 338での減算によって得られた信号、すなわち第 Ach予測残差信号は 、第 Ach予測残差信号符号ィ匕部 340に出力される。
[0067] 第 Ach予測残差信号符号ィ匕部 340は、第 Ach予測残差信号を任意の符号ィ匕方式 で符号化する。この符号ィ匕によって、予測残差符号化データおよび第 Ach復号音声 信号が得られる。予測残差符号ィ匕データは、チャネル内予測パラメータ量子化符号 とともに、第 Ach符号ィ匕データとして出力される。第 Ach復号音声信号は、第 Bch推 定信号生成部 342およびスィッチ部 332に出力される。
[0068] 第 Bch推定信号生成部 342は、第 Ach復号音声信号およびモノラル復号音声信 号から、第 Aチャネル符号ィ匕時の第 Bch復号音声信号として第 Bch推定信号を生成 する。生成された第 Bch推定信号は、図示されない第 Bch符号ィ匕部のスィッチ部 (ス イッチ部 332と同様)に出力される。
[0069] 次 、で、チャネル内予測バッファの更新動作にっ 、て説明する。ここでは、符号ィ匕 チャネル選択部 310によって第 Aチャネルが選択された場合を例にとり、第 Aチヤネ ルのチャネル内予測バッファの更新動作例を図 7を用いて説明し、第 Bチャネルのチ ャネル内予測バッファの更新動作例を図 8を用いて説明する。
[0070] 図 7に示す動作例では、第 Ach予測残差信号符号ィ匕部 340によって得られた、第 i フレーム (iは任意の自然数)の第 Ach復号音声信号を用いて、第 Ach信号チャネル 内予測部 334の内部の第 Achチャネル内予測バッファ 351が更新される(ST101)。 そして、更新された第 Achチャネル内予測バッファ 351は、次フレームである第 i+ 1 フレームにつ 、てのチャネル内予測に用いられる(ST102)。
[0071] 図 8に示す動作例では、第 iフレームの第 Ach復号音声信号および第 iフレームの モノラル復号音声信号を用いて、第 iフレームの第 Bch推定信号が生成される (ST2 01)。生成された第 Bch推定信号は、第 Ach符号ィ匕部 330から図示されない第 Bch 符号ィ匕部に出力される。そして、第 Bch符号ィ匕部において、第 Bch推定信号は、スィ ツチ部 (スィッチ部 332と同様)を経由して第 Bch信号チャネル内予測部(第 Ach信 号チャネル内予測部 334と同様)に出力される。第 Bch信号チャネル内予測部の内 部に設けられた第 Bchチャネル内予測バッファ 352は、第 Bch推定信号によって更 新される(ST202)。そして、更新された第 Bchチャネル内予測バッファ 352は、第 i + 1フレームにつ 、てのチャネル内予測に用いられる(ST203)。
[0072] あるフレームにお 、て、第 Aチャネルが符号ィ匕チャネルとして選択された場合、第 B ch符号ィ匕部では、第 Bchチャネル内予測バッファ 352の更新動作以外の動作は要 求されないため、そのフレームにおいては第 Bch入力音声信号の符号ィ匕を休止する ことができる。
[0073] このように、本実施の形態によれば、符号化チャネルの選択基準として、チャネル 内相関度の高さを使用するため、チャネル内相関度が高いチャネルの信号を符号ィ匕 することができ、チャネル内予測による符号ィ匕効率を向上させることができる。
[0074] なお、音声符号ィ匕装置 300の構成に、チャネル間予測を実行する構成要素を加え ることもできる。この場合、音声符号化装置 300は、モノラル復号音声信号を減算器 3 36に入力する代わりに、モノラル復号音声信号を用いて第 Ach音声信号を予測する チャネル間予測を行 、、それによつて生成されたチャネル間予測信号を減算器 336 に入力する構成を、採用することができる。
[0075] (実施の形態 4)
図 9は、本発明の実施の形態 4に係る音声符号ィ匕装置の構成を示すブロック図で ある。
[0076] なお、図 9の音声符号化装置 400は、前述の実施の形態で説明した音声符号化装 置 100、 200、 300と同様の基本的構成を有する。よって、本実施の形態で説明する 構成要素のうち前述の実施の形態で説明したものと同様のものについては、前述の 実施の形態で用いたものと同一の参照符号を付し、その詳細な説明を省略する。
[0077] また、音声符号化装置 400から出力される送信符号化データは、実施の形態 1で 説明した音声復号ィ匕装置 150と同様の基本的構成を有する音声復号ィ匕装置におい て復号することができる。
[0078] 音声符号化装置 400は、コアレイヤ符号ィ匕部 402および拡張レイヤ符号ィ匕部 404 を有する。コアレイヤ符号ィ匕部 402は、モノラル信号生成部 110およびモノラル信号 CELP (Code Excited Linear Prediction)符号化部 410を有する。拡張レイヤ符号ィ匕 部 404は、符号化チャネル選択部 310、第 IchCELP符号ィ匕部 422、第 2chCELP 符号ィ匕部 424およびスィッチ部 126を有する。
[0079] コアレイヤ符号ィ匕部 402にお 、て、モノラル信号 CELP符号ィ匕部 410は、モノラル 信号生成部 110によって生成されたモノラル信号に対して CELP符号ィ匕を行う。この 符号化によって得られた符号化データは、コアレイヤ符号化データとして出力される 。また、この符号ィ匕によって、モノラル駆動音源信号が得られる。さらに、モノラル信 号 CELP符号ィ匕部 410は、モノラル信号を復号し、それによつて得られるモノラル復 号音声信号を出力する。コアレイヤ符号化データは、拡張レイヤ符号ィヒデータおよ び符号ィ匕チャネル選択情報と多重される。また、コアレイヤ符号化データ、モノラル 駆動音源信号およびモノラル復号音声信号は、第 IchCELP符号ィ匕部 422および 第 2chCELP符号ィ匕部 424に出力される。
[0080] 拡張レイヤ符号ィ匕部 404において、第 IchCELP符号ィ匕部 422および第 2chCEL P符号ィ匕部 424は、互いに同様の内部構成を有する。よって、説明の簡略化のため に、第 IchCELP符号化部 422および第 2chCELP符号化部 424のうち!/、ずれか一 方を「第 AchCELP符号ィ匕部 430」として示し、その内部構成について図 10を用いて 説明する。なお、前述したように、「Ach」の「A」は 1または 2を表し、図中においてお よび以下の説明にお 、て用いられる「B」も 1または 2を表し、「A」が 1の場合「B」は 2 であり、「A」が 2の場合「B」は 1である。
[0081] 第 AchCELP符号化部 430は、第 AchLPC (Linear Prediction Coding)分析部 43 1、乗算器 432、 433, 434, 435, 436,スィッチ部 437、第 Ach適応符号帳 438、 第 Ach固定符号帳 439、加算器 440、合成フィルタ 441、聴覚重み付け部 442、歪 最小化部 443、第 Ach復号部 444、第 Bch推定信号生成部 445、第 AchLPC分析 部 446、第 AchLPC予測残差信号生成部 447および減算器 448を有する。
[0082] 第 AchCELP符号ィ匕部 430において、第 AchLPC分析部 431は、第 Ach入力音 声信号に対する LPC分析を行 ヽ、それによつて得られた第 AchLPCパラメータを量 子化する。第 AchLPC分析部 431は、第 AchLPCパラメータとモノラル信号に対す る LPCパラメータとの相関が一般に高いことを利用して、 LPCパラメータの量子化に 際して、コアレイヤ符号ィ匕データ力もモノラル信号量子化 LPCパラメータを復号し、 復号されたモノラル信号量子化 LPCパラメータに対する第 AchLPCパラメータの差 分成分を量子化して、第 AchLPC量子化符号を得る。第 AchLPC量子化符号は、 合成フィルタ 441に出力される。また、第 AchLPC量子化符号は、後述の第 Ach駆 動音源符号ィ匕データとともに第 Ach符号ィ匕データとして出力される。差分成分の量 子化を行うことにより、拡張レイヤの LPCパラメータの量子化を効率ィ匕することができ る。
[0083] 第 AchCELP符号ィ匕部 430にお 、て、第 Ach駆動音源符号ィ匕データは、第 Ach 駆動音源信号のモノラル駆動音源信号に対する残差成分を符号化することによって 得られる。この符号ィ匕は、 CELP符号ィ匕における音源探索によって実現される。
[0084] つまり、第 AchCELP符号化部 430では、適応音源信号、固定音源信号およびモ ノラル駆動音源信号に、それぞれに対応するゲインが乗じられ、ゲイン乗算後のこれ らの音源信号が加算され、その加算によって得られた駆動音源信号に対して、歪み 最小化による閉ループ型音源探索 (適応符号帳探索、固定符号帳探索およびゲイ ン探索)が行われる。そして、適応符号帳インデクス (適応音源インデタス)、固定符 号帳インデクス(固定音源インデタス)ならびに適応音源信号、固定音源信号および モノラル駆動音源信号に対するゲイン符号が、第 Ach駆動音源符号ィ匕データとして 出力される。コアレイヤの符号化、拡張レイヤの符号ィ匕および符号ィ匕チャネルの選択 力 Sフレーム毎に行われるのに対し、この音源探索は、フレームを複数の部分に分割 することによって得られるサブフレーム毎に行われる。以下、この構成についてより具 体的に説明する。
[0085] 合成フィルタ 441は、第 AchLPC分析部 431から出力された第 AchLPC量子化符 号を用いて、加算器 440から出力された信号を駆動音源として LPC合成フィルタによ る合成を行う。この合成によって得られた合成信号は、減算器 448に出力される。
[0086] 減算器 448は、第 Ach入力音声信号カゝら合成信号を減算することにより誤差信号 を算出する。誤差信号は、聴覚重み付け部 442に出力される。誤差信号は、符号ィ匕 歪みに相当する。
[0087] 聴覚重み付け部 442は、符号化歪み (つまり、前述の誤差信号)に対して聴覚的な 重み付けを行い、重み付け後の符号ィ匕歪みを歪最小化部 443に出力する。
[0088] 歪最小化部 443は、符号化歪みを最小とするような適応符号帳インデクスおよび固 定符号帳インデクスを決定し、適応符号帳インデクスを第 Ach適応符号帳 438に、 固定符号帳インデクスを第 Ach固定符号帳 439に、それぞれ出力する。また、歪最 小化部 443は、それらのインデタスに対応するゲイン、具体的には、後述する適応べ タトルおよび後述する固定ベクトルの各々に対するゲイン (適応符号帳ゲインおよび 固定符号帳ゲイン)を生成し、適応符号帳ゲインを乗算器 433に、固定符号帳ゲイン を乗算器 435に、それぞれ出力する。
[0089] また、歪最小化部 443は、モノラル駆動音源信号、ゲイン乗算後の適応ベクトルお よびゲイン乗算後の固定ベクトルの間でゲインを調整するためのゲイン (第 1調整用 ゲイン、第 2調整用ゲインおよび第 3調整用ゲイン)を生成し、第 1調整用ゲインを乗 算器 432に、第 2調整用ゲインを乗算器 434に、第 3調整用ゲインを乗算器 436に、 それぞれ出力する。これらの調整用ゲインは、好ましくは、相互に関係性を持つよう に生成される。例えば、第 lch入力音声信号と第 2ch入力音声信号との間のチヤネ ル間相関が高い場合は、モノラル駆動音源信号の寄与分が、ゲイン乗算後の適応 ベクトルおよびゲイン乗算後の固定ベクトルの寄与分に対して相対的に大きくなるよ うに、 3つの調整用ゲインが生成される。逆に、チャネル間相関が低い場合は、モノラ ル駆動音源信号の寄与分がゲイン乗算後の適応ベクトルおよびゲイン乗算後の固 定ベクトルの寄与分に対して相対的に小さくなるように、 3つの調整用ゲインが生成さ れる。
[0090] また、歪最小化部 443は、適応符号帳インデタス、固定符号帳インデタス、適応符 号帳ゲインの符号、固定符号帳ゲインの符号および 3つのゲイン調整用ゲインの符 号を、第 Ach駆動音源符号ィ匕データとして出力する。
[0091] 第 Ach適応符号帳 438は、過去に生成された合成フィルタ 441への駆動音源の音 源ベクトルを内部バッファに記憶している。また、第 Ach適応符号帳 438は、記憶さ れている音源ベクトルから 1サブフレーム分のベクトルを適応ベクトルとして生成する 。適応ベクトルの生成は、歪最小化部 443から入力された適応符号帳インデタスに対 応する適応符号帳ラグ (ピッチラグまたはピッチ周期)に基づいて行われる。生成され た適応ベクトルは、乗算器 433に出力される。
[0092] 第 Ach適応符号帳 438の内部バッファは、スィッチ部 437から出力された信号によ つて更新される。この更新動作の詳細については後述する。
[0093] 第 Ach固定符号帳 439は、歪最小化部 443から出力された固定符号帳インデクス に対応する音源ベクトルを、固定ベクトルとして乗算器 435に出力する。
[0094] 乗算器 433は、第 Ach適応符号帳 438から出力された適応ベクトルに適応符号帳 ゲインを乗じ、ゲイン乗算後の適応ベクトルを乗算器 434に出力する。
[0095] 乗算器 435は、第 Ach固定符号帳 439から出力された固定ベクトルに固定符号帳 ゲインを乗じ、ゲイン乗算後の固定ベクトルを乗算器 436に出力する。
[0096] 乗算器 432は、モノラル駆動音源信号に第 1調整用ゲインを乗じ、ゲイン乗算後の モノラル駆動音源信号を加算器 440に出力する。乗算器 434は、乗算器 433から出 力された適応ベクトルに第 2調整用ゲインを乗じ、ゲイン乗算後の適応ベクトルを加 算器 440に出力する。乗算器 436は、乗算器 435から出力された固定ベクトルに第 3 調整用ゲインを乗じ、ゲイン乗算後の固定ベクトルを加算器 440に出力する。
[0097] 加算器 440は、乗算器 432から出力されたモノラル駆動音源信号と、乗算器 434か ら出力された適応ベクトルと、乗算器 436から出力された固定ベクトルと、を加算し、 加算後の信号をスィッチ部 437および合成フィルタ 441に出力する。
[0098] スィッチ部 437は、加算器 440から出力された信号または第 AchLPC予測残差信 号生成部 447から出力された信号を、符号ィ匕チャネル選択情報に従って第 Ach適 応符号帳 438に出力する。より具体的には、選択されたチャネルが第 Aチャネルの場 合は、加算器 440からの信号が第 Ach適応符号帳 438に出力され、選択されたチヤ ネルが第 Bチャネルの場合は、第 AchLPC予測残差信号生成部 447からの信号が 第 Ach適応符号帳 438に出力される。
[0099] 第 Ach復号部 444は、第 Ach符号化データを復号し、それによつて得られた第 Ac h復号音声信号を第 Bch推定信号生成部 445に出力する。
[0100] 第 Bch推定信号生成部 445は、第 Ach復号音声信号およびモノラル復号音声信 号を用いて、第 Ach符号化時の第 Bch復号音声信号として第 Bch推定信号を生成 する。生成された第 Bch推定信号は、第 BchCELP符号化部(図示せず)に出力さ れる。
[0101] 第 AchLPC分析部 446は、図示されない第 BchCELP符号ィ匕部から出力された第 Ach推定信号に対して LPC分析を行、、それによつて得られた第 AchLPCパラメ一 タを、第 AchLPC予測残差信号生成部 447に出力する。ここで、第 BchCELP符号 化部から出力された第 Ach推定信号は、第 BchCELP符号ィ匕部において第 Bch入 力音声信号が符号化されたとき (第 Bch符号ィ匕時)に生成された第 Ach復号音声信 号に相当する。
[0102] 第 AchLPC予測残差信号生成部 447は、第 AchLPC分析部 446から出力された 第 AchLPCパラメータを用いて、第 Ach推定信号に対する符号化 LPC予測残差信 号を生成する。生成された符号化 LPC予測残差信号は、スィッチ部 437に出力され る。
[0103] 次いで、第 AchCELP符号化部 430および図示されない第 BchCELP符号化部で の適応符号帳更新動作について説明する。図 11は、符号ィ匕チャネル選択部 310に よって第 Aチャネルが選択された場合の、適応符号帳更新動作を示すフロー図であ る。
[0104] ここに例示されたフローは、第 AchCELP符号化部 430での CELP符号化処理(S T310)、第 AchCELP符号ィ匕部 430内の適応符号帳の更新処理(ST320)および 第 BchCELP符号ィ匕部内の適応符号帳の更新処理 (ST330)に分けられる。また、 ステップ ST310iま、 2つのステップ ST311、 ST312を含み、ステップ ST330iま、 4つ のステップ ST331、 ST332, ST333, ST334を含む。
[0105] まず、ステップ ST311では、第 AchCELP符号化部 430の第 AchLPC分析部 431 によって、 LPC分析および量子化が行われる。そして、第 Ach適応符号帳 438、第 A ch固定符号帳 439、乗算器 432、 433、 434、 435、 436、カロ算器 440、合成フィル タ 441、減算器 448、聴覚重み付け部 442および歪最小化部 443を主に含む閉ル ープ型音源探索部によって、音源探索 (適応符号帳探索、固定符号帳探索および ゲイン探索)が行われる (ST312)。
[0106] ステップ ST320では、前述の音源探索によって得られた第 Ach駆動音源信号で第 Ach適応符号帳 438の内部バッファが更新される。
[0107] ステップ ST331では、第 AchCELP符号化部 430の第 Bch推定信号生成部 445 によって、第 Bch推定信号が生成される。生成された第 Bch推定信号は、第 AchCE LP符号ィ匕部 430から第 BchCELP符号ィ匕部に送られる。そして、ステップ ST332で は、第 BchCELP符号ィ匕部の図示されない第 BchLPC分析部(第 AchLPC分析部 446の同等物)によって、第 Bch推定信号に対する LPC分析が行われ、第 BchLPC ノ ラメータが得られる。
[0108] そして、ステップ ST333では、第 BchCELP符号化部の図示されな!、第 BchLPC 予測残差信号生成部 (第 AchLPC予測残差信号生成部 447の同等物)によって、 第 BchLPCパラメータが用いられ、第 Bch推定信号に対する符号化 LPC予測残差 信号が生成される。この符号化 LPC予測残差信号は、第 BchCELP符号ィ匕部の図 示されないスィッチ部 (スィッチ部 437の同等物)を経由して、図示されない第 Bch適 応符号帳 (第 Ach適応符号帳 438の同等物)に出力される。そして、ステップ ST334 において、第 Bch適応符号帳の内部バッファが、第 Bch推定信号に対する符号化 L PC予測残差信号で更新される。
[0109] 続いて、適応符号帳更新動作についてより具体的に説明する。ここでは、符号化チ ャネル選択部 310によって第 Aチャネルが選択された場合を例にとり、第 Ach適応符 号帳 438の内部バッファの更新動作例を図 12を用いて説明し、第 Bch適応符号帳 の内部バッファの更新動作例を図 13を用いて説明する。
[0110] 図 12に示す動作例では、歪最小化部 443によって得られた、第 iフレーム内の第 j サブフレームについての第 Ach駆動音源信号を用いて、第 Ach適応符号帳 438の 内部バッファが更新される(ST401)。そして、更新された第 Ach適応符号帳 438は 、次サブフレームである第 j + 1サブフレームについての音源探索に用いられる(ST4 02)。
[0111] 図 13に示す動作例では、第 iフレームの第 Ach復号音声信号および第 iフレームの モノラル復号音声信号を用いて、第 iフレームの第 Bch推定信号が生成される (ST5 01)。生成された第 Bch推定信号は、第 AchCELP符号ィ匕部 430から第 BchCELP 符号ィ匕部に出力される。そして、第 BchCELP符号ィ匕部の第 BchLPC予測残差信 号生成部において、第 iフレームについての第 Bch符号化 LPC予測残差信号 (第 Be h推定信号に対する符号化 LPC予測残差信号) 451が生成される (ST502)。第 Be h符号化 LPC予測残差信号 451は、第 BchCELP符号ィ匕部のスィッチ部を経由して 第 Bch適応符号帳 452に出力される。第 Bch適応符号帳 452は、第 Bch符号化 LP C予測残差信号 451によって更新される(ST503)。更新された第 Bch適応符号帳 4 52は、次フレームである第 i+ 1フレームについての音源探索に用いられる(ST504)
[0112] あるフレームにおいて、第 Aチャネルが符号ィ匕チャネルとして選択された場合、第 B chCELP符号ィ匕部では、第 Bch適応符号帳 452の更新動作以外の動作は要求され な 、ため、そのフレームにお ヽては第 Bch入力音声信号の符号ィ匕を休止することが できる。
[0113] このように、本実施の形態によれば、 CELP符号ィ匕方式に基づいて各レイヤの音声 符号ィ匕を行った場合において、チャネル内相関度が高いチャネルの信号を符号ィ匕 することができ、チャネル内予測による符号ィ匕効率を向上させることができる。
[0114] なお、本実施の形態では、 CELP符号ィ匕方式を採用した音声符号ィ匕装置において 実施の形態 3で説明した符号ィ匕チャネル選択部 310を用いた場合を例にとって説明 したが、実施の形態 1および実施の形態 2でそれぞれ説明した符号化チャネル選択 部 120および符号ィ匕チャネル選択部 210を、符号ィ匕チャネル選択部 310の代わりに 、あるいは、符号ィ匕チャネル 310とともに、使用することもできる。よって、 CELP符号 化方式に基づ 、て各レイヤの音声符号ィ匕を行った場合にぉ 、て、前述の各実施の 形態で説明した効果を実現することができる。
[0115] また、拡張レイヤの符号ィ匕チャネルの選択基準として、前述したもの以外のものを 使用することもできる。例えば、あるフレームに関して、第 AchCELP符号ィ匕部 430の 適応符号帳探索および第 BchCELP符号化部の適応符号帳探索をそれぞれ行い、 それらの結果として得られる符号ィ匕歪みのうちょり小さい値を有するものに対応する チャネルを、符号ィ匕チャネルとして選択しても良い。
[0116] また、音声符号ィ匕装置 400の構成に、チャネル間予測を実行する構成要素を加え ることもできる。この場合、音声符号化装置 400は、モノラル駆動音源信号に対して 第 1調整用ゲインを直接乗算する代わりに、モノラル駆動音源信号を用いて第 Ach 復号音声信号を予測するチャネル間予測を行 、、それによつて生成されたチャネル 間予測信号に対して第 1調整用ゲインを乗算する構成を、採用することができる。
[0117] 以上、本発明の各実施の形態について説明した。上記実施の形態に係る音声符 号化装置および音声復号化装置は、移動体通信システムにおいて使用される無線 通信移動局装置および無線通信基地局装置などの無線通信装置に搭載することが できる。
[0118] また、上記実施の形態では、本発明をノヽードウエアで構成する場合を例にとって説 明したが、本発明はソフトウェアで実現することも可能である。
[0119] また、上記実施の形態の説明に用いた各機能ブロックは、典型的には集積回路で ある LSIとして実現される。これらは個別に 1チップ化されてもよいし、一部又は全てを 含むように 1チップィ匕されてもょ 、。
[0120] ここでは、 LSIとした力 集積度の違いにより、 IC、システム LSI、スーパー LSI、ゥ ノレ卜ラ LSIと呼称されることちある。
[0121] また、集積回路化の手法は LSIに限るものではなぐ専用回路又は汎用プロセッサ で実現してもよい。 LSI製造後に、プログラムすることが可能な FPGA (Field Program mable Gate Array)や、 LSI内部の回路セルの接続や設定を再構成可能なリコンフィ ギユラブル'プロセッサーを利用してもよい。
[0122] さらには、半導体技術の進歩又は派生する別技術により LSIに置き換わる集積回 路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積ィ匕を行って もよい。バイオ技術の適応等が可能性としてありえる。
[0123] 本明細書は、 2005年 4月 28日出願の特願 2005— 132366に基づくものである。
この内容はすべてここに含めておく。 産業上の利用可能性
本発明は、移動体通信システムやインターネットプロトコルを用いたパケット通信シ ステムなどにおける通信装置の用途に適用できる。

Claims

請求の範囲
[1] 第 1チャネル信号および第 2チャネル信号を含むステレオ信号を符号化する音声 符号化装置において、
前記第 1チャネル信号および前記第 2チャネル信号を用いてモノラル信号を生成す るモノラル信号生成手段と、
前記第 1チャネル信号および前記第 2チャネル信号の一方を選択する選択手段と 生成されたモノラル信号を符号ィ匕してコアレイヤ符号ィ匕データを得るとともに、選択 されたチャネル信号を符号化して前記コアレイヤ符号化データに対応する拡張レイ ャ符号ィヒデータを得る符号ィヒ手段と、
を有する音声符号化装置。
[2] 前記選択手段は、
前記第 1チャネル信号および前記第 2チャネル信号の一方をフレーム毎に選択し、 前記符号化手段は、
前記モノラル信号および前記フレーム毎に選択されたチャネル信号を前記フレー ム毎に符号化する、
請求項 1記載の音声符号化装置。
[3] 前記第 1チャネル信号が選択された場合に生じる第 1の符号ィ匕歪みと、前記第 2チ ャネル信号が選択された場合に生じる第 2の符号化歪みと、をそれぞれ算出する算 出手段をさらに有し、
前記選択手段は、
算出された第 1の符号ィ匕歪みが算出された第 2の符号ィ匕歪みよりも小さい場合は前 記第 1チャネル信号を選択し、算出された第 2の符号ィ匕歪みが算出された第 1の符号 化歪みよりも小さい場合は前記第 2チャネル信号を選択する、
請求項 1記載の音声符号化装置。
[4] 前記符号化手段は、
前記第 1チャネル信号および前記第 2チャネル信号を符号化して第 1符号化データ および第 2符号化データをそれぞれ得て、前記第 1符号化データおよび前記第 2符 号ィ匕データのうち選択されたチャネル信号に対応するものを前記拡張レイヤ符号ィ匕 データとして出力し、
前記符号ィヒ手段が前記モノラル信号を符号ィヒするときに得られるモノラル復号信 号と、前記符号化手段が前記第 1チャネル信号を符号化するときに得られる第 1チヤ ネル復号信号と、を用いて、前記第 2チャネル信号に対応する第 2チャネル推定信号 を生成するとともに、前記モノラル復号信号と、前記符号化手段が前記第 2チャネル 信号を符号化するときに得られる第 2チャネル復号信号と、を用いて、前記第 1チヤネ ル信号に対応する第 1チャネル推定信号を生成する推定信号生成手段と、
前記第 1チャネル信号に対する前記第 1チャネル復号信号の誤差および前記第 2 チャネル信号に対する前記第 2チャネル推定信号の誤差に基づいて、前記第 1の符 号ィ匕歪みを算出するとともに、前記第 1チャネル信号に対する前記第 1チャネル推定 信号の誤差および前記第 2チャネル信号に対する前記第 2チャネル復号信号の誤 差に基づいて、前記第 2の符号化歪みを算出する歪み算出手段と、
を有する請求項 3記載の音声符号化装置。
[5] 前記選択手段は、
前記第 1チャネル信号に対応する第 1チャネル内相関度と、前記第 2チャネル信号 に対応する第 2チャネル内相関度と、をそれぞれ算出する算出手段を有し、 算出された第 1チャネル内相関度が算出された第 2チャネル内相関度よりも高い場 合は前記第 1チャネル信号を選択し、算出された第 2チャネル内相関度が算出され た第 1チャネル内相関度よりも高い場合は前記第 2チャネル信号を選択する、 請求項 1記載の音声符号化装置。
[6] 前記符号化手段は、
前記選択手段によって前記第 1チャネル信号が選択された場合には、第 1適応符 号帳を用いて前記第 1チャネル信号の CELP (Code Excited Linear Prediction)符号 化を行い、 CELP符号ィ匕結果を用いて前記拡張レイヤ符号ィ匕データを得るとともに、 前記 CELP符号化結果を用いて前記第 1適応符号帳を更新する、
請求項 1記載の音声符号化装置。
[7] 前記符号化手段は、 前記拡張レイヤ符号化データと、前記モノラル信号を符号ィヒするときに得られるモ ノラル復号信号と、を用いて、前記第 2チャネル信号に対応する第 2チャネル推定信 号を生成し、
前記第 2チャネル推定信号の LPC (Linear Prediction Coding)予測残差信号を用 V、て、前記第 2チャネル信号の CELP符号ィ匕にぉ 、て用いられる第 2適応符号帳を 更新する、
請求項 6記載の音声符号化装置。
[8] 前記選択手段は、
前記第 1チャネル信号を、サブフレームを有するフレームに関連づけて選択し、 前記符号化手段は、
前記モノラル信号および前記フレームに関連づけて選択された前記第 1チャネル 信号についてサブフレーム毎に音源探索を行いながら、前記フレームの前記拡張レ ィャ符号化データを得る、
請求項 7記載の音声符号化装置。
[9] 前記符号化手段は、
前記第 1適応符号帳を前記サブフレームの単位で更新するとともに、前記第 2適応 符号帳を前記フレームの単位で更新する、
請求項 8記載の音声符号化装置。
[10] 請求項 1記載の音声符号化装置を有する移動局装置。
[11] 請求項 1記載の音声符号化装置を有する基地局装置。
[12] 第 1チャネル信号および第 2チャネル信号を含むステレオ信号を符号化する音声 符号化方法において、
前記第 1チャネル信号および前記第 2チャネル信号を用いてモノラル信号を生成し 前記第 1チャネル信号および前記第 2チャネル信号の一方を選択し、
生成されたモノラル信号を符号ィ匕してコアレイヤ符号ィ匕データを得るとともに、選択 されたチャネル信号を符号化して前記コアレイヤ符号化データに対応する拡張レイ ャ符号化データを得る、 音声符号化方法。
PCT/JP2006/308813 2005-04-28 2006-04-27 音声符号化装置および音声符号化方法 WO2006118179A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
DE602006011600T DE602006011600D1 (de) 2005-04-28 2006-04-27 Audiocodierungseinrichtung und audiocodierungsverfahren
US11/912,522 US8428956B2 (en) 2005-04-28 2006-04-27 Audio encoding device and audio encoding method
JP2007514799A JP4907522B2 (ja) 2005-04-28 2006-04-27 音声符号化装置および音声符号化方法
EP06745741A EP1876586B1 (en) 2005-04-28 2006-04-27 Audio encoding device and audio encoding method
CN2006800145767A CN101167126B (zh) 2005-04-28 2006-04-27 语音编码装置和语音编码方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2005132366 2005-04-28
JP2005-132366 2005-04-28

Publications (1)

Publication Number Publication Date
WO2006118179A1 true WO2006118179A1 (ja) 2006-11-09

Family

ID=37307977

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2006/308813 WO2006118179A1 (ja) 2005-04-28 2006-04-27 音声符号化装置および音声符号化方法

Country Status (7)

Country Link
US (1) US8428956B2 (ja)
EP (1) EP1876586B1 (ja)
JP (1) JP4907522B2 (ja)
CN (1) CN101167126B (ja)
DE (1) DE602006011600D1 (ja)
RU (1) RU2007139784A (ja)
WO (1) WO2006118179A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009116280A1 (ja) * 2008-03-19 2009-09-24 パナソニック株式会社 ステレオ信号符号化装置、ステレオ信号復号装置およびこれらの方法
JP2010210680A (ja) * 2009-03-06 2010-09-24 Ntt Docomo Inc 音信号符号化方法、音信号復号方法、符号化装置、復号装置、音信号処理システム、音信号符号化プログラム、及び、音信号復号プログラム
JP2012088729A (ja) * 2011-12-06 2012-05-10 Ntt Docomo Inc 音信号符号化方法、音信号復号方法、符号化装置、復号装置、音信号処理システム、音信号符号化プログラム、及び、音信号復号プログラム

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2101318B1 (en) * 2006-12-13 2014-06-04 Panasonic Corporation Encoding device, decoding device and corresponding methods
EP2099025A4 (en) * 2006-12-14 2010-12-22 Panasonic Corp AUDIO CODING DEVICE AND AUDIO CODING METHOD
WO2008072733A1 (ja) * 2006-12-15 2008-06-19 Panasonic Corporation 符号化装置および符号化方法
JP5339919B2 (ja) * 2006-12-15 2013-11-13 パナソニック株式会社 符号化装置、復号装置およびこれらの方法
US20100017199A1 (en) * 2006-12-27 2010-01-21 Panasonic Corporation Encoding device, decoding device, and method thereof
JP4871894B2 (ja) 2007-03-02 2012-02-08 パナソニック株式会社 符号化装置、復号装置、符号化方法および復号方法
BRPI0808202A8 (pt) * 2007-03-02 2016-11-22 Panasonic Corp Dispositivo de codificação e método de codificação.
ES2404408T3 (es) * 2007-03-02 2013-05-27 Panasonic Corporation Dispositivo de codificación y método de codificación
JP4708446B2 (ja) 2007-03-02 2011-06-22 パナソニック株式会社 符号化装置、復号装置およびそれらの方法
ATE547786T1 (de) 2007-03-30 2012-03-15 Panasonic Corp Codierungseinrichtung und codierungsverfahren
JPWO2008132850A1 (ja) * 2007-04-25 2010-07-22 パナソニック株式会社 ステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法
JP5153791B2 (ja) * 2007-12-28 2013-02-27 パナソニック株式会社 ステレオ音声復号装置、ステレオ音声符号化装置、および消失フレーム補償方法
US8639519B2 (en) * 2008-04-09 2014-01-28 Motorola Mobility Llc Method and apparatus for selective signal coding based on core encoder performance
AU2010347279B2 (en) * 2010-03-01 2016-12-15 T-Data Systems (S) Pte Ltd A memory card
WO2013189030A1 (zh) * 2012-06-19 2013-12-27 深圳广晟信源技术有限公司 对单声道或立体声进行编码的方法
US9953660B2 (en) * 2014-08-19 2018-04-24 Nuance Communications, Inc. System and method for reducing tandeming effects in a communication system
US10917164B2 (en) * 2016-11-10 2021-02-09 Cable Television Laboratories, Inc. Systems and methods for ultra reliable low latency communications

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0675590A (ja) * 1992-03-02 1994-03-18 American Teleph & Telegr Co <Att> 知覚モデルに基づく音声信号符号化方法とその装置
US5434948A (en) 1989-06-15 1995-07-18 British Telecommunications Public Limited Company Polyphonic coding
JPH10105193A (ja) * 1996-09-26 1998-04-24 Yamaha Corp 音声符号化伝送方式
WO1998046045A1 (fr) * 1997-04-10 1998-10-15 Sony Corporation Procede et dispositif de codage, procede et dispositif de decodage et support d'enregistrement
JPH1132399A (ja) * 1997-05-13 1999-02-02 Sony Corp 符号化方法及び装置、並びに記録媒体
JPH11317672A (ja) * 1997-11-20 1999-11-16 Samsung Electronics Co Ltd ビット率の調節可能なステレオオーディオ符号化/復号化方法及び装置
JP2001209399A (ja) * 1999-12-03 2001-08-03 Lucent Technol Inc 第1成分と第2成分を含む信号を処理する装置と方法
JP2001255892A (ja) * 2000-03-13 2001-09-21 Nippon Telegr & Teleph Corp <Ntt> ステレオ信号符号化方法
JP2002244698A (ja) * 2000-12-14 2002-08-30 Sony Corp 符号化装置および方法、復号装置および方法、並びに記録媒体
JP2004301954A (ja) * 2003-03-28 2004-10-28 Matsushita Electric Ind Co Ltd 音響信号の階層符号化方法および階層復号化方法

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5274740A (en) * 1991-01-08 1993-12-28 Dolby Laboratories Licensing Corporation Decoder for variable number of channel presentation of multidimensional sound fields
DE19526366A1 (de) * 1995-07-20 1997-01-23 Bosch Gmbh Robert Verfahren zur Redundanzreduktion bei der Codierung von mehrkanaligen Signalen und Vorrichtung zur Dekodierung von redundanzreduzierten, mehrkanaligen Signalen
DE19628293C1 (de) * 1996-07-12 1997-12-11 Fraunhofer Ges Forschung Codieren und Decodieren von Audiosignalen unter Verwendung von Intensity-Stereo und Prädiktion
US6356211B1 (en) * 1997-05-13 2002-03-12 Sony Corporation Encoding method and apparatus and recording medium
US5924062A (en) * 1997-07-01 1999-07-13 Nokia Mobile Phones ACLEP codec with modified autocorrelation matrix storage and search
DE19742655C2 (de) * 1997-09-26 1999-08-05 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Codieren eines zeitdiskreten Stereosignals
SE519552C2 (sv) * 1998-09-30 2003-03-11 Ericsson Telefon Ab L M Flerkanalig signalkodning och -avkodning
US6961432B1 (en) * 1999-04-29 2005-11-01 Agere Systems Inc. Multidescriptive coding technique for multistream communication of signals
JP4021124B2 (ja) * 2000-05-30 2007-12-12 株式会社リコー デジタル音響信号符号化装置、方法及び記録媒体
SE519985C2 (sv) * 2000-09-15 2003-05-06 Ericsson Telefon Ab L M Kodning och avkodning av signaler från flera kanaler
SE519981C2 (sv) * 2000-09-15 2003-05-06 Ericsson Telefon Ab L M Kodning och avkodning av signaler från flera kanaler
SE0004187D0 (sv) * 2000-11-15 2000-11-15 Coding Technologies Sweden Ab Enhancing the performance of coding systems that use high frequency reconstruction methods
US6614365B2 (en) * 2000-12-14 2003-09-02 Sony Corporation Coding device and method, decoding device and method, and recording medium
US6934676B2 (en) * 2001-05-11 2005-08-23 Nokia Mobile Phones Ltd. Method and system for inter-channel signal redundancy removal in perceptual audio coding
US7062429B2 (en) * 2001-09-07 2006-06-13 Agere Systems Inc. Distortion-based method and apparatus for buffer control in a communication system
KR100711989B1 (ko) * 2002-03-12 2007-05-02 노키아 코포레이션 효율적으로 개선된 스케일러블 오디오 부호화
US20030231799A1 (en) * 2002-06-14 2003-12-18 Craig Schmidt Lossless data compression using constraint propagation
US7349842B2 (en) * 2003-09-29 2008-03-25 Sony Corporation Rate-distortion control scheme in audio encoding
US7447317B2 (en) * 2003-10-02 2008-11-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V Compatible multi-channel coding/decoding by weighting the downmix channel
US7394903B2 (en) * 2004-01-20 2008-07-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
US7272567B2 (en) * 2004-03-25 2007-09-18 Zoran Fejzo Scalable lossless audio codec and authoring tool
DE602005022235D1 (de) * 2004-05-19 2010-08-19 Panasonic Corp Audiosignalkodierer und Audiosignaldekodierer
KR101183857B1 (ko) * 2004-06-21 2012-09-19 코닌클리케 필립스 일렉트로닉스 엔.브이. 다중 채널 오디오 신호를 인코딩/디코딩하기 위한 방법 및 장치
US7930184B2 (en) * 2004-08-04 2011-04-19 Dts, Inc. Multi-channel audio coding/decoding of random access points and transients
ATE440361T1 (de) * 2004-09-30 2009-09-15 Panasonic Corp Einrichtung für skalierbare codierung, einrichtung für skalierbare decodierung und verfahren dafür
MY145282A (en) * 2005-01-11 2012-01-13 Agency Science Tech & Res Encoder, decoder, method for encoding/decoding, computer readable media and computer program elements
US20100023575A1 (en) * 2005-03-11 2010-01-28 Agency For Science, Technology And Research Predictor
WO2006103586A1 (en) * 2005-03-30 2006-10-05 Koninklijke Philips Electronics N.V. Audio encoding and decoding

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5434948A (en) 1989-06-15 1995-07-18 British Telecommunications Public Limited Company Polyphonic coding
JPH0675590A (ja) * 1992-03-02 1994-03-18 American Teleph & Telegr Co <Att> 知覚モデルに基づく音声信号符号化方法とその装置
JPH10105193A (ja) * 1996-09-26 1998-04-24 Yamaha Corp 音声符号化伝送方式
WO1998046045A1 (fr) * 1997-04-10 1998-10-15 Sony Corporation Procede et dispositif de codage, procede et dispositif de decodage et support d'enregistrement
JPH1132399A (ja) * 1997-05-13 1999-02-02 Sony Corp 符号化方法及び装置、並びに記録媒体
JPH11317672A (ja) * 1997-11-20 1999-11-16 Samsung Electronics Co Ltd ビット率の調節可能なステレオオーディオ符号化/復号化方法及び装置
JP2001209399A (ja) * 1999-12-03 2001-08-03 Lucent Technol Inc 第1成分と第2成分を含む信号を処理する装置と方法
JP2001255892A (ja) * 2000-03-13 2001-09-21 Nippon Telegr & Teleph Corp <Ntt> ステレオ信号符号化方法
JP2002244698A (ja) * 2000-12-14 2002-08-30 Sony Corp 符号化装置および方法、復号装置および方法、並びに記録媒体
JP2004301954A (ja) * 2003-03-28 2004-10-28 Matsushita Electric Ind Co Ltd 音響信号の階層符号化方法および階層復号化方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
RAMPRASHAD, S.A.: "Stereophonic CELP coding using cross channel prediction", PROC. IEEE WORKSHOP ON SPEECH CODING, September 2000 (2000-09-01), pages 136 - 138
See also references of EP1876586A4

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009116280A1 (ja) * 2008-03-19 2009-09-24 パナソニック株式会社 ステレオ信号符号化装置、ステレオ信号復号装置およびこれらの方法
US8386267B2 (en) 2008-03-19 2013-02-26 Panasonic Corporation Stereo signal encoding device, stereo signal decoding device and methods for them
JP5340261B2 (ja) * 2008-03-19 2013-11-13 パナソニック株式会社 ステレオ信号符号化装置、ステレオ信号復号装置およびこれらの方法
JP2010210680A (ja) * 2009-03-06 2010-09-24 Ntt Docomo Inc 音信号符号化方法、音信号復号方法、符号化装置、復号装置、音信号処理システム、音信号符号化プログラム、及び、音信号復号プログラム
TWI385649B (zh) * 2009-03-06 2013-02-11 Ntt Docomo Inc An audio signal coding method, an audio signal decoding method, an encoding apparatus, a decoding apparatus, an audio signal processing system, an audio signal coding program recording medium, and an audio signal decoding program recording medium
US8666754B2 (en) 2009-03-06 2014-03-04 Ntt Docomo, Inc. Audio signal encoding method, audio signal decoding method, encoding device, decoding device, audio signal processing system, audio signal encoding program, and audio signal decoding program
US8751245B2 (en) 2009-03-06 2014-06-10 Ntt Docomo, Inc Audio signal encoding method, audio signal decoding method, encoding device, decoding device, audio signal processing system, audio signal encoding program, and audio signal decoding program
US9214161B2 (en) 2009-03-06 2015-12-15 Ntt Docomo, Inc. Audio signal encoding method, audio signal decoding method, encoding device, decoding device, audio signal processing system, audio signal encoding program, and audio signal decoding program
JP2012088729A (ja) * 2011-12-06 2012-05-10 Ntt Docomo Inc 音信号符号化方法、音信号復号方法、符号化装置、復号装置、音信号処理システム、音信号符号化プログラム、及び、音信号復号プログラム

Also Published As

Publication number Publication date
US20090083041A1 (en) 2009-03-26
CN101167126B (zh) 2011-09-21
JPWO2006118179A1 (ja) 2008-12-18
CN101167126A (zh) 2008-04-23
EP1876586B1 (en) 2010-01-06
EP1876586A1 (en) 2008-01-09
DE602006011600D1 (de) 2010-02-25
US8428956B2 (en) 2013-04-23
RU2007139784A (ru) 2009-05-10
EP1876586A4 (en) 2008-05-28
JP4907522B2 (ja) 2012-03-28

Similar Documents

Publication Publication Date Title
WO2006118179A1 (ja) 音声符号化装置および音声符号化方法
JP5046653B2 (ja) 音声符号化装置および音声符号化方法
JP5046652B2 (ja) 音声符号化装置および音声符号化方法
US8433581B2 (en) Audio encoding device and audio encoding method
JP4963965B2 (ja) スケーラブル符号化装置、スケーラブル復号装置、及びこれらの方法
JP4555299B2 (ja) スケーラブル符号化装置およびスケーラブル符号化方法
JPWO2009057327A1 (ja) 符号化装置および復号装置
WO2006104017A1 (ja) 音声符号化装置および音声符号化方法
US8271275B2 (en) Scalable encoding device, and scalable encoding method

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 200680014576.7

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2007514799

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 2006745741

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 11912522

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2007139784

Country of ref document: RU

NENP Non-entry into the national phase

Ref country code: DE

WWP Wipo information: published in national office

Ref document number: 2006745741

Country of ref document: EP