WO2006082790A1 - スケーラブル符号化装置およびスケーラブル符号化方法 - Google Patents

スケーラブル符号化装置およびスケーラブル符号化方法 Download PDF

Info

Publication number
WO2006082790A1
WO2006082790A1 PCT/JP2006/301481 JP2006301481W WO2006082790A1 WO 2006082790 A1 WO2006082790 A1 WO 2006082790A1 JP 2006301481 W JP2006301481 W JP 2006301481W WO 2006082790 A1 WO2006082790 A1 WO 2006082790A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
monaural
channel
generating
sound source
Prior art date
Application number
PCT/JP2006/301481
Other languages
English (en)
French (fr)
Inventor
Michiyo Goto
Koji Yoshida
Original Assignee
Matsushita Electric Industrial Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co., Ltd. filed Critical Matsushita Electric Industrial Co., Ltd.
Priority to JP2007501561A priority Critical patent/JP4887279B2/ja
Priority to US11/815,028 priority patent/US8036390B2/en
Priority to EP06712624A priority patent/EP1852850A4/en
Priority to CN2006800038159A priority patent/CN101111887B/zh
Publication of WO2006082790A1 publication Critical patent/WO2006082790A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders

Definitions

  • the present invention relates to a scalable code encoding device and a scalable code encoding method for applying code encoding to a stereo signal.
  • monaural communication is expected to reduce communication costs because it has a low bit rate, and mobile phones that support only monaural communication are less expensive because of their smaller circuit scale.
  • mobile phones that support only monaural communication are less expensive because of their smaller circuit scale.
  • users who do not want high-quality voice communication will purchase a mobile phone that supports only monaural communication.
  • mobile phones that support stereo communication and mobile phones that support monaural communication are mixed in a single communication system, and the communication system needs to support both stereo communication and monaural communication. Arise.
  • communication data is exchanged by radio signals, so some communication data may be lost depending on the propagation path environment. Thus, it is very useful if the mobile phone has a function that can restore the remaining communication data based on the received data even if a part of the communication data is lost.
  • Non-Patent Literature 1 Ramprashad, b. A., 'Stereophonic CELP coding using cross channel prediction " ⁇ Proc. IEEE Workshop on Speech Codings Pages: 136-138, (17-20 Sep t. 2000)
  • Non-Patent Document 2 ISO / IEC 14496-3: 1999 (B.14 Scalable AAC with core coder) Invention Disclosure
  • Non-Patent Document 1 has an adaptive codebook, a fixed codebook, etc. for each of the two channels of audio signals.
  • separate drive sound source signals are generated to generate composite signals. That is, the CELP code of the audio signal is performed for each channel, and the obtained encoded information of each channel is output to the decoding side. Therefore, there are problems that the encoding parameters are generated by the number of channels, the encoding rate increases, and the circuit scale of the encoding device increases. If the number of adaptive codebooks, fixed codebooks, etc. is reduced, the code rate will be reduced and the circuit scale will be reduced. This is a problem that occurs similarly even in the scalable code generator disclosed in Non-Patent Document 2. [0008] Therefore, an object of the present invention is to provide a scalable coding apparatus and a scalable coding method capable of reducing the code rate and reducing the circuit scale while preventing sound quality deterioration of the decoded signal. It is.
  • the scalable coding apparatus of the present invention generates a monaural signal generating means for generating a monaural signal using a plurality of channel signals constituting a stereo signal, and generates a sound source parameter by encoding the monaural signal.
  • a second encoding means for generating a distortion minimizing parameter using the synthesized signal and the first monaural similar signal.
  • FIG. 1 is a block diagram showing a main configuration of a scalable coding apparatus according to Embodiment 1.
  • FIG. 2 is a block diagram showing a main configuration inside a monaural signal generation unit according to Embodiment 1.
  • FIG. 3 is a block diagram showing the main configuration inside the monaural signal code key section according to the first embodiment.
  • FIG. 4 is a block diagram showing the main configuration inside the second layer encoder according to the first embodiment. ] Block diagram showing the main configuration inside the first converter according to the first embodiment
  • FIG. 6 Diagram showing an example of the waveform spectrum of a signal acquired at different positions with the same source power signal
  • FIG. 7 is a block diagram showing the main configuration inside the sound source signal generation unit according to Embodiment 1.
  • FIG. 8 is a block diagram showing the main configuration inside the distortion minimizing section according to Embodiment 1.
  • FIG. 11 is a block diagram showing the main configuration of the second layer encoder according to Embodiment 2.
  • FIG. 12 is a block diagram showing the main configuration inside the second conversion unit according to Embodiment 2.
  • FIG. 13 is a block diagram showing the main configuration inside the distortion minimizing section according to the second embodiment.
  • FIG. 14 is a block diagram showing the main configuration inside the second layer decoder according to the first embodiment.
  • FIG. 1 is a block diagram showing the main configuration of the scalable coding apparatus according to Embodiment 1 of the present invention.
  • a case where CELP code key is used as the code key method of each layer will be described as an example.
  • the scalable coding apparatus includes a first layer encoder 100 and a second layer encoder 150, encodes a monaural signal in the first layer (base layer), and performs the second layer encoding.
  • the stereo signal is encoded and the code parameters obtained in each layer are transmitted to the decoding side.
  • the first layer encoder 100 generates monaural signals Ml in the monaural signal generation unit 101 from the input stereo audio signals, that is, the L channel signal L1 and the R channel signal R1 power, as well.
  • the signal encoding unit 102 encodes the signal Ml to obtain a encoding parameter (LPC quantization index) relating to vocal tract information and an encoding parameter (excitation parameter) relating to excitation information.
  • LPC quantization index relating to vocal tract information
  • excitation parameter relating to excitation information.
  • the sound source parameters obtained in the first layer that is, the driving sound source is also used in the second layer.
  • Second layer encoder 150 generates a first converted signal by performing a first conversion, which will be described later, so that each of the L channel signal and the R channel signal is similar in waveform to a monaural signal.
  • the first conversion coefficient used in is output.
  • Second layer encoder 150 performs LPC analysis and LPC synthesis of the first converted signal using the driving sound source generated in the first layer. Details of the first conversion will be described later.
  • second layer encoder 150 performs a second transformation on each LPC synthesized signal so that the code distortion of the synthesized signal with respect to the first transformed signal is minimized. Outputs the sign key parameter of the second conversion coefficient used for conversion. This second conversion is performed by obtaining a codebook index by a closed loop search for each channel using the codebook. Details of the second conversion will also be described later.
  • the scalable coding apparatus can realize low bit rate coding.
  • the first conversion is performed so that the L channel signal and the R channel signal of the stereo signal are similar to the monaural signal in waveform, and the signal after the first conversion (first conversion) Signal), the second conversion is performed independently for each channel so that the CELP encoding driving sound source is shared and the LPC synthesis signal of each channel has the least code distortion with respect to the first conversion signal. Applied. As a result, the voice quality can be improved.
  • FIG. 2 is a block diagram showing a main configuration inside monaural signal generation unit 101 described above.
  • the monaural signal generation unit 101 generates a monaural signal Ml having an intermediate property between both signals from the input L channel signal L1 and R channel signal R1, and outputs the monaural signal Ml to the monaural signal encoding unit 102.
  • the average of the L channel signal L1 and the R channel signal R1 may be set to the monaural signal Ml.
  • the adder 105 is connected to the L channel signal L1 and the R channel signal. The sum of R1 is obtained, and the multiplier 106 sets the scale of this sum signal to 1Z2 and outputs it as a monaural signal Ml.
  • FIG. 3 is a block diagram showing a main configuration inside monaural signal encoding unit 102 described above.
  • the monaural signal code unit 102 includes an LPC analysis unit 111, a 1-quantization unit 112, an LPC synthesis filter 113, an adder 114, an auditory weighting unit 115, a distortion minimizing unit 116, and an adaptive codebook 11 7, a multiplier 118, a fixed codebook 119, a multiplier 120, a gain codebook 121, and an adder 122, and perform CELP code key to generate excitation parameters (adaptive codebook index, fixed codebook index, and Gain codebook index) and LPC quantum index.
  • the LPC analysis unit 111 performs linear prediction analysis on the monaural signal Ml, and outputs an LPC parameter as an analysis result to the LPC quantization unit 112 and the auditory weighting unit 115.
  • L The PC quantization unit 112 quantizes the LPC parameter and outputs an index (LPC quantization index) for specifying the obtained quantized LPC parameter. This index is normally output to the outside of the scalable coding apparatus according to the present embodiment.
  • the LPC quantization unit 112 outputs the quantized LPC parameter to the LPC synthesis filter 113.
  • the LPC synthesis filter 113 uses the quantized LPC parameters output from the LPC quantization unit 112 to perform LPC synthesis using the excitation vector generated using the adaptive codebook 117 and fixed codebook 119 described later as the driving excitation. Performs synthesis using a filter. The resultant combined signal is output to adder 114.
  • Adder 114 calculates an error signal by subtracting the monaural signal Ml from the synthesized signal output from LPC synthesis filter 113, and outputs this error signal to auditory weighting section 115.
  • This error signal corresponds to coding distortion.
  • the perceptual weighting unit 115 performs perceptual weighting on the encoded distortion using the perceptual weighting filter configured based on the LPC parameters output from the LPC analysis unit 111, and this signal is a distortion minimizing unit.
  • Distortion minimizing section 116 instructs adaptive codebook 117, fixed codebook 119, and gain codebook 121 to use the index so that the code distortion is minimized.
  • Adaptive codebook 117 stores a sound source vector of a driving sound source for LPC synthesis filter 113 generated in the past in an internal buffer, and adaptive codebook 117 corresponding to the index instructed from distortion minimizing section 116 Based on the book lag, one subframe is generated from the stored sound source vector and output to the multiplier 118 as an adaptive sound source vector.
  • Fixed codebook 119 outputs the excitation vector corresponding to the index instructed from distortion minimizing section 116 to multiplier 120 as a fixed excitation vector.
  • the gain codebook 121 generates each gain for the adaptive excitation vector and the fixed excitation vector.
  • Multiplier 118 multiplies the adaptive excitation vector output from gain codebook 121 by the adaptive excitation vector, and outputs the result to adder 122.
  • Multiplier 120 multiplies the fixed excitation vector output from gain codebook 121 by the fixed excitation vector and outputs the result to adder 122.
  • the adder 122 adds the adaptive excitation vector output from the multiplier 118 and the fixed excitation vector output from the multiplier 120 and outputs the added excitation vector to the LPC synthesis filter 113 as a driving excitation.
  • the calculator 122 feeds back the excitation vector of the obtained driving excitation to the adaptive codebook 117.
  • the LPC synthesis filter 113 performs LPC synthesis using the excitation vector output from the adder 122, that is, the excitation vector generated using the adaptive codebook 117 and the fixed codebook 119 as a driving excitation. Performs synthesis using a filter.
  • a series of processes in which coding distortion is calculated using the excitation vector generated by adaptive codebook 117 and fixed codebook 119 is a closed loop (feedback loop), and the distortion minimizing unit 116 instructs the adaptive codebook 117, the fixed codebook 119, and the gain codebook 121 so that the coding distortion is minimized. Then, the distortion minimizing unit 116 outputs various sound source parameters that minimize the sign distortion. These parameters are usually output to the outside of the scalable coding apparatus according to the present embodiment.
  • FIG. 4 is a block diagram showing a main configuration inside second layer encoder 150 described above.
  • the second layer encoder 150 is roughly divided into an L channel processing system that processes the L channel of the stereo audio signal and an R channel processing system that processes the R channel of the stereo audio signal, and the two systems are similar to each other. It has the composition of. Therefore, the components corresponding to each other in both channels are assigned the same reference numerals, and the L channel processing system is assigned branch number 1 following the hyphen, and the R channel processing system is followed by hyphen. Add 2 Only the L channel processing system will be described, and the description of the R channel processing system will be omitted.
  • the sound source signal generation unit 151 is common to the L channel and the R channel.
  • the L channel processing system of the second layer encoder 150 includes a sound source signal generation unit 151, a first conversion unit 152-1, an LPC analysis' quantization unit 153-1, an LPC synthesis filter 154-1, and a second conversion. Unit 155-1 and a distortion minimizing unit 156-1.
  • the sound source signal generation unit 151 generates a sound source parameter P output from the first layer encoder 100.
  • the first conversion unit 152-1 acquires a first conversion coefficient indicating a difference in characteristics on the waveform of the L channel signal L1 and the monaural signal Ml from the L channel signal L1 and the monaural signal Ml.
  • the first conversion coefficient is applied to the L channel signal LI to generate a first conversion signal M 1 similar to the monaural signal Ml.
  • the first converter 152-1 has a first converter.
  • Outputs index II (first transform coefficient index) specifying the number.
  • the LPC analysis' quantization unit 153-1 performs linear prediction analysis on the first transformed signal M 1 and
  • An LPC parameter that is spectral envelope information is obtained, the LPC parameter is quantized, and the obtained quantized LPC parameter is output to the LPC synthesis filter 154-1 and an index that identifies the quantized LPC parameter (LPC quantum index) 12 is output.
  • the LPC synthesis filter 154-1 uses the quantization LPC parameter output from the LPC analysis / quantization unit 153-1 as a filter coefficient, and uses the sound source vector M2 generated by the sound source signal generation unit 151 as a driving sound source.
  • An L channel composite signal M 2 is generated using a filter function, that is, an LPC synthesis filter. This synthesized signal M 2 is output to the second converter 155-1.
  • the second conversion unit 155-1 performs a second conversion (to be described later) on the composite signal M2 to provide a second conversion signal.
  • M3 is output to distortion minimizing section 156-1.
  • the distortion minimizing section 156-1 performs processing so as to minimize the sign distortion of the second converted signal M 3.
  • the second conversion in the second conversion unit 155-1 is controlled by the idback signal F1, and an index (second conversion coefficient index) I3 for specifying the second conversion coefficient that minimizes the sign distortion is output.
  • the first transform coefficient index II, the LPC quantization index 12, and the second transform coefficient index 13 are usually output to the outside of the scalable coding apparatus according to the present embodiment.
  • FIG. 5 is a block diagram showing a main configuration inside the first conversion unit 152-1.
  • the first conversion unit 152-1 includes an analysis unit 131, a quantization unit 132, and a conversion unit 133.
  • the analysis unit 131 compares and analyzes the waveform of the L channel signal L1 and the waveform of the monaural signal Ml, thereby determining a parameter (waveform difference) indicating the difference in the waveform of the L channel signal L1 with respect to the waveform of the monaural signal Ml. Parameter).
  • the quantization unit 132 performs quantization on the waveform difference parameter, and obtains the obtained encoding parameter, that is, the first transform coefficient index.
  • S II is output to the outside of the scalable coding apparatus according to the present embodiment. Further, the quantization unit 132 performs inverse quantization on the first transform coefficient index II and outputs the result to the transform unit 133.
  • the transform unit 133 outputs the first inverse transform coefficient index output from the quantization unit 132, that is, the waveform difference parameter between the two channels obtained by the analysis unit 131 (provided that the quantization error is included). Is removed from the L channel signal L1, and the L channel signal L1 is converted into a signal M 1 that is similar in waveform to the monaural signal Ml.
  • the waveform difference parameter is a parameter indicating a difference in characteristics on the waveform between the L channel signal and the monaural signal.
  • the monaural signal is used as a reference signal and the L channel signal is changed.
  • the waveform of the signal shows different characteristics depending on the position where the microphone is placed.
  • the energy of the stereo signal is attenuated and the arrival time is delayed according to the distance of the source power, and the waveform spectrum varies depending on the sound collection position. In this way, stereo signals are greatly affected by spatial factors such as the sound collection environment.
  • Fig. 6 shows signals obtained by acquiring signals of the same source power at two different positions (first signal Wl, second signal An example of the speech waveform of signal W2) is shown.
  • the first signal and the second signal exhibit different characteristics.
  • This phenomenon with different characteristics is obtained by adding a new spatial characteristic (spatial information) that varies depending on the acquisition position to the waveform of the original signal, and then acquiring the signal with a sound collection device such as a microphone. Can be taken as a result.
  • a parameter indicating this characteristic is particularly referred to as a waveform difference parameter. For example, in the example of FIG. 6, when the first signal W1 is delayed by time At, the signal W1 ′ is obtained.
  • the signal W1' is a signal from the same source, and therefore ideally matches the second signal W2. I can expect that. In other words, processing to manipulate the characteristics on the waveform included in the audio signal or audio signal. Thus, the difference in the characteristics of the first signal and the second signal can be eliminated, and as a result, the waveforms of both signals can be made similar.
  • the first converter 152-1 shown in FIG. 5 obtains the waveform difference parameter of the L channel signal L1 with respect to the monaural signal Ml and separates it from the L channel signal L1, thereby resembling the monaural signal Ml. Obtained first converted signal M 1 and also encodes the waveform difference parameter.
  • the analysis unit 131 calculates an energy ratio in units of frames between the two channels. First, the energy E and E 1S orders in one frame of L channel signal and monaural signal
  • Lch M is calculated according to equations (1) and (2).
  • n is the sample number and FL is the number of samples (frame length) in one frame.
  • X (n) and X (n) are the nth sample of the L channel signal and monaural signal, respectively.
  • the analysis unit 131 obtains the square root C of the energy ratio between the L channel signal and the monaural signal according to the following equation (3).
  • the analysis unit 131 has the highest cross-correlation between the two channel signals in terms of the delay time difference, which is the amount of time shift of the L channel signal with respect to the monaural signal, as follows: Calculate as such a value. Specifically, the cross-correlation function ⁇ of the monaural signal and L channel signal is obtained according to the following equation (4).
  • m is assumed to have a value in a range from a predetermined min-m to max-m
  • the energy ratio and the delay time difference may be obtained by the following equation (5).
  • equation (5) the square root C of the energy ratio and the delay time m are determined so as to minimize the error D between the monaural signal and the L channel signal from which the waveform difference parameter has been removed.
  • the quantization unit 132 quantizes the above C and M with a predetermined number of bits, and sets the quantized C and M as C and M, respectively.
  • Conversion section 133 removes an energy difference and a delay time difference between the L channel signal and the monaural signal from the L channel signal according to the following conversion equation (6).
  • waveform difference parameter include the following.
  • the two parameters such as the energy ratio and the delay time difference between the two channels can be used as the waveform difference parameters. These are parameters that are easy to quantify. As a variation, propagation characteristics for each frequency band, for example, phase difference, amplitude ratio, etc. can be used.
  • both of the two parameters of energy ratio and delay time difference between two channels are not used as waveform difference parameters, but as waveform difference parameters! / It is okay to use only parameters. When only one parameter is used, the effect of improving the similarity of the two channels is reduced compared to the case of using two parameters, but conversely the effect of further reducing the number of sign bits is possible. is there.
  • the conversion of the L channel signal is performed using a value C obtained by quantizing the square root C of the energy ratio obtained by the above equation (3). This is performed according to the equation (7).
  • FIG. 7 is a block diagram showing the main configuration inside sound source signal generation section 151 described above.
  • Adaptive codebook 161 obtains a corresponding adaptive codebook lag from the adaptive codebook index in excitation parameter P1 output from monaural signal code key unit 102, and based on this adaptive codebook lag. Then, one subframe is generated from the sound source vector stored in advance and output to the multiplier 162 as an adaptive sound source vector.
  • Fixed codebook 163 uses the fixed codebook index of excitation parameter P1 output from monaural signal code input unit 102, and multiplies the excitation vector corresponding to this fixed codebook index as a fixed excitation vector. Output to device 164.
  • the gain codebook 165 is a sound source parameter P1 output from the monaural signal code key unit 102.
  • the gain codebook index is used to generate each gain for the adaptive excitation vector and the fixed excitation vector.
  • Multiplier 162 multiplies the adaptive excitation gain by the adaptive excitation gain output from gain codebook 165 and outputs the result to adder 166.
  • multiplier 164 multiplies the fixed excitation vector output from gain codebook 165 by the fixed excitation vector and outputs the result to adder 166.
  • Adder 166 calorizes each sound source vector output from multiplier 162 and multiplier 164, and uses LPC synthesis filter 154 — 1 (and LPC Output to synthesis filter 154-2).
  • the second conversion section 155-1 performs the following second conversion.
  • Second conversion section 155-1 performs second conversion on the synthesized signal output from LPC synthesis filter 154-1. This second conversion is a conversion that makes the synthesized signal output from the LPC synthesis filter 154-1 resemble the first converted signal M1 output from the first converter 152-1.
  • the signal after the second conversion becomes a signal similar to the first conversion signal M1.
  • the second conversion unit 155-1 controls the conversion coefficient that realizes the above conversion under the control of the distortion minimizing unit 156-1, the code of the conversion coefficient prepared in advance in the second conversion unit 155-1. Obtained by closed-loop search from the book.
  • the second conversion is performed according to the following equation (9).
  • S (n ⁇ k) is a synthesized signal output from the LPC synthesis filter 154-1
  • SP (n) is a signal after the second conversion.
  • Shall. SFL is a subframe length. For each of these sets, the above equation (9) is calculated.
  • the code distortion after the auditory weighting is applied to the difference signal DF (n) is the code distortion of the scalable code reader according to the present embodiment.
  • This calculation is performed for all pairs of the second conversion coefficient ⁇ a (k) ⁇ , and the second conversion coefficient that minimizes the sign distortion of each of the L channel signal and the R channel signal. To decide.
  • the series of processes for determining the coding distortion of this signal is a closed loop (feedback loop), and the coding distortion finally obtained by changing the second transform coefficient in various ways within one subframe. Outputs an index (second transform coefficient index) that represents the set of second transform coefficients that minimizes.
  • FIG. 8 is a block diagram showing the main configuration inside distortion minimizing section 156-1.
  • the adder 141 calculates an error signal by subtracting the second conversion signal M3 from the first conversion signal M1.
  • the error signal is output to the auditory weighting unit 142.
  • the auditory weighting unit 142 performs auditory weighting on the error signal output from the adder 141 using an auditory weighting filter and outputs the result to the distortion calculation unit 143.
  • the distortion calculation unit 143 detects the sign signal distortion obtained by the error signal strength after the auditory weighting output from the auditory weighting unit 142, that is, the coding distortion of the second converted signal M3.
  • Second conversion section 1551 is controlled by feedback signal F1 for each subframe so as to be minimized. Then, the distortion calculation unit 143 optimizes the encoding distortion of the second converted signal M3.
  • This parameter is normally output to the outside of the scalable coding apparatus according to the present embodiment as an encoding parameter.
  • FIG. 9 is a diagram summarizing the sign key processing of the L channel processing system. The principle that the code rate can be reduced by the scalable code method according to the present embodiment and the code accuracy is improved will be described together with this figure.
  • the signal L1 which is the L channel original signal, is usually the encoding target. However, in the above L channel processing system, signal L1 is used directly. Without converting the signal LI to a signal similar to the monaural signal Ml (monalog-like signal) M 1
  • This converted signal is to be encoded. This is the signal M 1
  • the encoding process is performed using the configuration for encoding the monaural signal, that is, the L channel signal is encoded according to the method for encoding the monaural signal. This is a sign that can be signed.
  • a monaural signal is transmitted to a monaural similar signal M1.
  • the synthesized signal M2 is generated using the M2 sound source M2, and the error of this synthesized signal is minimized.
  • the encoding parameter to be obtained is obtained.
  • the code-like object of the L channel processing system as the second layer is a monaural similar signal M 1
  • the second layer code is performed using the sound source generated in monaural signal code unit 102.
  • the sound source information and vocal tract information only the sound source information that has already been obtained in the first layer is used.
  • the sound source information has about seven times the amount of information of the vocal tract information. Also, the bit rate after encoding is greater for sound source information than for vocal tract information. Therefore, if the sound source information is shared between the first layer and the second layer rather than the vocal tract information, the effect of reducing the coding rate is greater.
  • a stereo signal is a sound that has been collected at the same timing by, for example, two microphones divided into left and right, with a sound that has a specific source power. Therefore, ideally, The channel signal has common sound source information. In fact, if there is a single sound source (or if there are multiple sources that are dense and can be identified as a single source), the sound source information for each channel is common. Can be processed as
  • the above phenomenon that is characteristic of a stereo signal can be considered as a result of adding a new spatial characteristic to the sound due to a difference in the sound collection environment.
  • the vocal tract information is mainly information related to the waveform of the speech spectrum, also called spectrum envelope information.
  • the spatial characteristics newly added to the sound due to the difference in the sound collection environment also include the amplitude ratio, It is also a force related to the waveform such as delay time.
  • the sound source generated by monaural signal encoding unit 102 is converted into an LPC LPC synthesis filter 154-1 and an R channel LPC synthesis. Input to both filter 154-2.
  • LPC analysis / quantization unit 153-1 is provided for the L channel
  • LPC analysis / quantization unit 153-1 is provided for the R channel
  • linear prediction analysis is performed independently for each channel. (See Figure 4).
  • coding is performed as a model that includes spatial characteristics added due to differences in the sound collection environment in the coding norm of vocal tract information.
  • the sound source M2 used in the L channel processing system is a monaural signal.
  • L channel code is used by using this, monaural information is mixed into the L channel, and the L channel code accuracy is degraded.
  • the monaural similarity signal M 1 is to be encoded because the first conversion described above is the original signal L.
  • M 1 is the encoding target
  • L1 is the encoding target
  • the synthesized signal M 2 generated based on the sound source M2 is changed to M 1
  • the L channel processing system includes a synthesized signal M generated based on the sound source M2.
  • the second conversion is applied to 2 to generate a conversion signal M3.
  • M 1 is the reference signal
  • the second conversion coefficient is adjusted so that the conversion signal M 3 approaches M 1. More specifically,
  • the processing after the second conversion constitutes a loop, and the L channel processing system calculates the error between M 1 and M 3 for all indexes by incrementing the index indicating the second conversion coefficient by 1.
  • FIG. 10 is a flowchart showing the procedure of encoding processing in the second layer for the L channel and the R channel.
  • Second layer encoder 150 first converts the L channel signal and the R channel signal into a signal similar to a monaural signal (ST1010) and outputs the first conversion coefficient (first conversion parameter). (ST1020), LPC analysis and quantization of the first conversion signal are performed (ST 1030). Note that ST1020 is not necessarily between ST1010 and ST1030!
  • Second layer encoder 150 generates a sound source signal based on the sound source parameters (adaptive codebook index, fixed codebook index, and gain codebook index) determined in the first layer. ,! (ST1110), LPC synthesis of the L channel signal and the R channel signal is performed (ST1120). Then, a second conversion is performed on these combined signals using a predetermined set of second conversion coefficients (ST1130), and the second conversion signal and the monaural signal are converted. Sign distortion is calculated from the first converted signal (ST1140). Next, the minimum distortion value is determined (ST1150), and the second transform coefficient that minimizes the sign distortion is determined.
  • the sound source parameters adaptive codebook index, fixed codebook index, and gain codebook index
  • the loop for determining the second transform coefficient (ST1130 to ST1150) is a closed loop, and the search is performed for all indexes, and the loop is terminated when all the searches are completed (ST1160).
  • the obtained second conversion coefficient index (second conversion parameter index) is output (ST1210).
  • processing P1 from ST1010 to ST1030 is performed in units of frames
  • processing P2 from ST1110 to ST1160 is performed in units of subframes obtained by further dividing the frame.
  • the process for determining the second transform coefficient may be performed in units of frames, and the second transform coefficients may be output in units of frames.
  • FIG. 14 is a block diagram showing a main configuration inside second layer decoder 170 that is particularly characteristic in the scalable decoding device according to the present embodiment.
  • the second layer decoder 170 has a configuration corresponding to the second layer encoder 150 (see FIG. 4) in the scalable coding apparatus according to the present embodiment.
  • the same components as those of the second layer encoder 150 are denoted by the same reference numerals, and redundant description is omitted.
  • the second layer decoder 170 is roughly divided into an L channel processing system and an R channel processing system, and the two systems have the same configuration. Therefore, the L channel processing system is assigned a branch number 1 following the code, the R channel processing system is assigned branch number 2, and only the L channel processing system is described, and the R channel processing system is described. Is omitted.
  • the sound source signal generation unit 151 has a common configuration for the L channel and the R channel.
  • the L channel processing system of the second layer decoder 170 includes a sound source signal generation unit 151, an LPC synthesis filter 154-1, a second conversion unit 155-1, an LPC decoding unit 171-1, and a first transform coefficient decoding unit 1. 72-1 and an inverse first converter 173-1.
  • the excitation parameter P1 generated by the scalable coding apparatus according to the present embodiment, the first conversion A coefficient index II, an LPC quantization index 12, and a second transform coefficient index 13 are input.
  • the sound source signal generation unit 151 generates a sound source signal M2 common to the L channel and the R channel using the input sound source parameter P1, and outputs the sound source signal M2 to the LPC synthesis filter 154-1.
  • LPC decoding section 171-1 decodes the quantized LP C parameter using input LPC quantum index 12, and outputs the result to LPC synthesis filter 154-1.
  • the LPC synthesis filter 154—1 uses the decoded quantized LPC parameter as a filter coefficient and the excitation vector M2 as a drive excitation, that is, uses the LPC synthesis filter to generate the L channel synthesis signal M2 Generate. This synthesized signal M 2 is sent to the second converter 155
  • the second conversion unit 155-1 performs the second conversion on the synthesized signal M2 using the input second conversion coefficient index 13, thereby generating the second conversion signal M3 and vice versa. 1st conversion part 1
  • First transform coefficient decoding section 172-1 decodes the first transform coefficient using input first transform coefficient index II, and outputs the first transform coefficient to inverse first transform section 173-1.
  • the inverse first conversion unit 173-1 uses the inverse of the decoded first conversion coefficient to generate the second conversion signal.
  • the L channel decoded signal is generated.
  • the L channel processing system of second layer decoder 170 can decode the L channel signal.
  • the R channel signal is also decoded by the R channel processing system of second layer decoder 170.
  • a monaural signal is also decoded by a monaural signal decoding unit (not shown) having a configuration corresponding to the monaural signal coding unit 102 (see FIG. 3) in the scalable coding apparatus according to the present embodiment.
  • the driving sound source is shared by each layer.
  • the code of each layer is performed using the sound source common to each layer, it is not necessary to install a set of adaptive codebook, fixed codebook, and gain codebook for each layer. Therefore, it is possible to realize a low bit rate code and reduce the circuit scale.
  • Ma in the second layer the first conversion is performed so that each channel signal of the stereo signal becomes a signal close to a monaural signal in the waveform, and the sign of the signal of each channel is obtained with respect to the obtained first conversion signal. ⁇ Perform a second transformation that minimizes distortion. As a result, the voice quality can be improved. That is, the circuit scale can be reduced by reducing the code rate while preventing the sound quality degradation of the decoded signal.
  • a signal for each frequency band is used.
  • Propagation characteristics (phase difference, amplitude ratio), etc. may be used.
  • the LPC signal and the R channel signal whose waveform difference parameters are manipulated are quantized by the LPC quantization unit, a quantized LPC meter quantized for the monaural signal is used. Alternatively, differential quantization, predictive quantization, or the like may be performed.
  • the L channel signal and R channel signal for which the waveform difference parameter is operated are close to monaural signals! Therefore, since the LPC parameters for these signals are highly correlated with the LPC parameters for monaural signals, it is possible to perform efficient quantization at a lower bit rate. is there.
  • the power described with reference to the case where CELP coding is used as the coding method is not necessarily code code that uses a speech model like CELP code key. It is not necessary to use a coding method that uses a sound source pre-recorded in the Nagu codebook.
  • the sound source parameters generated by the monaural signal coding unit 102 of the first layer are input to the second layer encoder 150
  • the monaural signal coding The driving sound source signal finally generated in the key unit 102, that is, the driving sound source signal itself that minimizes the error may be input to the second layer encoder 150.
  • the driving sound source signal is directly input to the LPC synthesis filters 154-1 and 154-2 in the second layer encoder 150.
  • Embodiment 2 of the present invention The basic configuration of the scalable coding apparatus according to Embodiment 2 of the present invention is the same as that of the scalable coding apparatus shown in Embodiment 1. Therefore, it is different from Embodiment 1.
  • the configuration of the second layer encoder will be described below.
  • FIG. 11 is a block diagram showing the main configuration of second layer encoder 150a according to the present embodiment.
  • the same components as those of second layer encoder 150 (FIG. 4) shown in the first embodiment are denoted by the same reference numerals, and description thereof is omitted.
  • a different configuration from the first embodiment is a second conversion unit 201 and a distortion minimizing unit 202.
  • FIG. 12 is a block diagram showing the main configuration inside second conversion section 201.
  • the L channel processing unit 221-1 in the second conversion unit 201 minimizes distortion from the second conversion coefficients recorded in the second conversion coefficient table (second conversion parameter table) 222 in advance.
  • An appropriate second conversion coefficient is read in accordance with the feedback signal F1 ′ from the unit 202, and the second conversion coefficient is read out using the second conversion coefficient and applied to the synthesized signal M2 output from the LPC synthesis filter 154-1.
  • an appropriate second conversion coefficient is read out from the second conversion coefficients recorded in advance in the bull 222, and is used as an LPC synthesis filter.
  • the second conversion is applied to the composite signal M 2 output from 2 and output (signal
  • the signals M 3 ′ and M 3 ′ are similar to the first conversion signals M 1 and M 1 output from —2. This
  • the second conversion coefficient table 222 is common to the L channel and the R channel.
  • S (n—k) is the L channel synthesis signal output from LPC synthesis filter 154-1.
  • k) is the R channel composite signal output from LPC synthesis filter 154-2
  • SP (n) is the second converted L channel signal
  • SP (n) is the second converted R channel
  • a (k) is the j-th second transform coefficient for the L channel, and a (k)
  • a pair of L-channel and R-channel coefficient sequences is prepared as a codebook.
  • SFL is the subframe length. For each of these pairs, the above equations (11) and (12) are calculated.
  • FIG. 13 is a block diagram showing a main configuration inside distortion minimizing section 202.
  • Distortion minimizing section 202 obtains an index of second transform coefficient table 222 that minimizes the sum of the sign distortion of the second transform signal of each of the L channel and the R channel. Specifically, the adder 211-1 subtracts the second converted signal M 3 ′ from the first converted signal M 1.
  • an error signal E1 is calculated, and this error signal E1 is output to the perceptual weighting unit 212-1.
  • the auditory weighting unit 212-1 performs auditory weighting on the error signal E1 output from the adder 2111, using an auditory weighting filter, and outputs the result to the distortion calculation unit 213-1.
  • the distortion calculation unit 213-1 calculates the encoding distortion of the error signal E 1 subjected to auditory weighting and outputs it to the adder 214.
  • the operations of adder 211-2, auditory weighting unit 212-2, and distortion calculation unit 213-2 are the same as above, and E2 subtracts M3 'from M1.
  • the adder 214 adds the sign distortion output from the distortion calculation units 213-1 and 212-2, and outputs this sum.
  • the distortion minimum value determination unit 215 obtains an index of the second conversion coefficient table 222 that minimizes the sum of the sign distortions output from the distortion calculation units 213-1 and 213-2.
  • the series of processes for obtaining the coding distortion is a closed loop (feedback loop), and the distortion minimum value determination unit 215 sends the feedback signal F1, the index of the second conversion coefficient table 222 to the second conversion unit 201.
  • the second transform coefficient is changed in various ways within one subframe. Then, an index 13 representing the second set of transform coefficients that minimizes the finally obtained coding distortion is output. This index is common to the L channel signal and the R channel signal, as already explained.
  • the number DF (n) is calculated according to the following equation (13).
  • the difference signal DF (n) is calculated according to the following equation (14).
  • the table size of the conversion coefficient for the second conversion can be set to 1Z2.
  • the second conversion coefficient for each channel used for the second conversion of each channel is set in advance for two channels, and one input is set. It is specified by the length. That is, when performing the second transformation on the LPC composite signal of each channel in the second layer code, the second transformation coefficient is prepared in advance as a set of two channels, and both channels are closed loop simultaneously. Perform a search to determine the second transform coefficient that minimizes the coding distortion. This is based on the fact that there is a strong correlation between the L channel signal converted to a signal close to a monaural signal and the R channel signal. Thereby, the code rate can be reduced.
  • the scalable encoding device and the scalable encoding method according to the present invention include the above
  • the present invention is not limited to the embodiment, and various modifications can be made.
  • the scalable coding apparatus according to the present invention can be installed in a communication terminal apparatus and a base station apparatus in a mobile communication system, and thereby a communication terminal apparatus having the same effects as described above, and A base station apparatus can be provided. Further, the scalable coding apparatus and the scalable coding method according to the present invention can be used in a wired communication system.
  • the present invention can be implemented with software.
  • the processing algorithm of the scalable code encoding method according to the present invention is described in a programming language, and this program is stored in a memory and executed by an information processing means, whereby the scalable code encoding method of the present invention is executed. Functions similar to those of the apparatus can be realized.
  • an adaptive codebook may be referred to as an adaptive excitation codebook
  • a fixed codebook may be referred to as a fixed excitation codebook
  • Each functional block used in the description of each of the above embodiments is typically realized as an LSI which is an integrated circuit. These may be individually integrated into a single chip, or may be combined into a single chip to include some or all of them!
  • IC integrated circuit
  • system LSI system LSI
  • super LSI super LSI
  • unroller LSI etc.
  • the method of circuit integration is not limited to LSI's, and implementation using dedicated circuitry or general purpose processors is also possible. It is also possible to use a field programmable gate array (FPGA) that can be programmed after LSI manufacturing, or a reconfigurable processor that can reconfigure the connection or setting of circuit cells inside the LSI.
  • FPGA field programmable gate array
  • the scalable coding method and scalable coding method according to the present invention can be applied to applications such as a communication terminal device and a base station device in a mobile communication system.

Abstract

 復号信号の音質劣化を防ぎつつ、符号化レートを削減し、回路規模を削減することができるスケーラブル符号化装置を開示する。本発明のスケーラブル符号化装置は、ステレオ信号を構成する複数のチャネル信号(Lチャネル信号とRチャネル信号)を用いてモノラル信号を生成し、前記モノラル信号を符号化して音源パラメータを生成する第1レイヤエンコーダ(100)と、前記チャネル信号と前記モノラル信号とを用いて第1変換信号を生成し、前記音源パラメータと前記第1変換信号とを用いて合成信号を生成し、前記合成信号と前記第1変換信号とを用いて第2変換係数インデックスを生成する第2レイヤエンコーダ(150)と、を具備する構成を採る。

Description

スケーラブル符号化装置およびスケーラブル符号化方法
技術分野
[0001] 本発明は、ステレオ信号に対し符号ィ匕を施すスケーラブル符号ィ匕装置およびスケ ーラブル符号ィ匕方法に関する。
背景技術
[0002] 携帯電話機による通話のように、移動体通信システムにおける音声通信では、現在 、モノラル方式による通信 (モノラル通信)が主流である。しかし、今後、第 4世代の移 動体通信システムのように、伝送レートのさらなる高ビットレートイ匕が進めば、複数チヤ ネルを伝送するだけの帯域を確保できるようになるため、音声通信にぉ 、てもステレ ォ方式による通信 (ステレオ通信)が普及することが期待される。
[0003] 例えば、音楽を HDD (ノヽードディスク)搭載の携帯オーディオプレーヤに記録し、こ のプレーヤにステレオ用のイヤホンやヘッドフォン等を装着してステレオ音楽を楽し むユーザが増えている現状を考えると、将来、携帯電話機と音楽プレーヤとが結合し 、ステレオ用のイヤホンやヘッドフォン等の装備を利用しつつ、ステレオ方式による音 声通信を行うライフスタイルが一般的になることが予想される。また、最近普及しつつ ある TV会議等の環境において、臨場感ある会話を可能とするため、やはりステレオ 通信が行われるよう〖こなることが予想される。
[0004] 一方、移動体通信システム、有線方式の通信システム等にぉ 、ては、システムの負 荷を軽減するため、伝送される音声信号を予め符号化することにより伝送情報の低ビ ットレートイ匕を図ることが一般的に行われている。そのため、最近、ステレオ音声信号 を符号化する技術が注目を浴びている。例えば、 cross-channel predictionを使って、 ステレオ音声信号の CELP符号化の重み付けされた予測残差信号の符号化効率を 高める符号化技術がある (非特許文献 1参照)。
[0005] また、ステレオ通信が普及しても、依然としてモノラル通信も行われると予想される。
何故なら、モノラル通信は低ビットレートであるため通信コストが安くなることが期待さ れ、また、モノラル通信のみに対応した携帯電話機は回路規模が小さくなるため安価 となり、高品質な音声通信を望まないユーザは、モノラル通信のみに対応した携帯電 話機を購入するだろうからである。よって、一つの通信システム内において、ステレオ 通信に対応した携帯電話機とモノラル通信に対応した携帯電話機とが混在するよう になり、通信システムは、これらステレオ通信およびモノラル通信の双方に対応する 必要性が生じる。さらに、移動体通信システムでは、無線信号によって通信データを やりとりするため、伝搬路環境によっては通信データの一部を失う場合がある。そこで 、通信データの一部を失っても残りの受信データ力 元の通信データを復元すること ができる機能を携帯電話機が有していれば非常に有用である。
[0006] ステレオ通信およびモノラル通信の双方に対応することができ、かつ、通信データ の一部を失っても残りの受信データ力 元の通信データを復元することができる機能 として、ステレオ信号とモノラル信号とからなるスケーラブル符号ィ匕がある。この機能 を有したスケーラブル符号ィ匕装置の例として、例えば、非特許文献 2に開示されたも のがある。
非特干文献 1 : Ramprashad, b. A.、 'Stereophonic CELP coding using cross channel prediction"^ Proc. IEEE Workshop on Speech Codings Pages: 136 - 138、 (17-20 Sep t. 2000)
非特許文献 2 : ISO/IEC 14496-3:1999 (B.14 Scalable AAC with core coder) 発明の開示
発明が解決しょうとする課題
[0007] し力しながら、非特許文献 1に開示の技術は、 2つチャネルの音声信号に対し、そ れぞれ別個に適応符号帳、固定符号帳等を有しており、各チャネルごとに別々の駆 動音源信号を発生させ、合成信号を生成している。すなわち、各チャネルごとに音声 信号の CELP符号ィ匕を行 、、得られた各チャネルの符号化情報を復号側へ出力し ている。そのため、符号化パラメータがチャネル数分だけ生成され、符号化レートが 増大すると共に、符号ィ匕装置の回路規模も大きくなるという問題がある。仮に、適応 符号帳、固定符号帳等の個数を減らせば、符号ィ匕レートは低下し、回路規模も削減 される力 逆に復号信号の大きな音質劣化につながる。これは、非特許文献 2に開示 されたスケーラブル符号ィ匕装置であっても同様に発生する問題である。 [0008] よって、本発明の目的は、復号信号の音質劣化を防ぎつつ、符号ィ匕レートを削減し 、回路規模を削減することができるスケーラブル符号ィ匕装置およびスケーラブル符号 化方法を提供することである。
課題を解決するための手段
[0009] 本発明のスケーラブル符号ィ匕装置は、ステレオ信号を構成する複数のチャネル信 号を用いてモノラル信号を生成するモノラル信号生成手段と、前記モノラル信号を符 号化して音源パラメータを生成する第 1符号化手段と、前記チャネル信号と前記モノ ラル信号とを用いて第 1モノラル類似信号を生成するモノラル類似信号生成手段と、 前記音源パラメータと前記第 1モノラル類似信号とを用いて合成信号を生成する合 成手段と、前記合成信号と前記第 1モノラル類似信号とを用いて歪み最小化パラメ一 タを生成する第 2符号化手段と、を具備する構成を採る。
発明の効果
[0010] 本発明によれば、復号信号の音質劣化を防ぎつつ、符号ィ匕レートを削減し、符号 化装置の回路規模を削減することができる。
図面の簡単な説明
[0011] [図 1]実施の形態 1に係るスケーラブル符号ィ匕装置の主要な構成を示すブロック図 [図 2]実施の形態 1に係るモノラル信号生成部内部の主要な構成を示すブロック図 [図 3]実施の形態 1に係るモノラル信号符号ィ匕部内部の主要な構成を示すブロック図 [図 4]実施の形態 1に係る第 2レイヤエンコーダ内部の主要な構成を示すブロック図 [図 5]実施の形態 1に係る第 1変換部内部の主要な構成を示すブロック図
[図 6]同一発生源力 の信号を異なる位置で取得した信号の波形スペクトルの一例を 示した図
[図 7]実施の形態 1に係る音源信号生成部内部の主要な構成を示すブロック図
[図 8]実施の形態 1に係る歪み最小化部内部の主要な構成を示すブロック図
[図 9]Lチャネル処理系統の符号ィ匕処理の概要をまとめた図
[図 10]第 2レイヤにおける符号ィ匕処理の手順を、 Lチャネル、 Rチャネルまとめて示す フロー図
[図 11]実施の形態 2に係る第 2レイヤエンコーダの主要な構成を示すブロック図 [図 12]実施の形態 2に係る第 2変換部内部の主要な構成を示すブロック図
[図 13]実施の形態 2に係る歪み最小化部内部の主要な構成を示すブロック図
[図 14]実施の形態 1に係る第 2レイヤデコーダ内部の主要な構成を示すブロック図 発明を実施するための最良の形態
[0012] 以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。なお 、ここでは、 Lチャネルおよび Rチャネルの 2チャネルからなるステレオ音声信号を符 号化する場合を例にとって説明する。
[0013] (実施の形態 1)
図 1は、本発明の実施の形態 1に係るスケーラブル符号ィ匕装置の主要な構成を示 すブロック図である。ここでは、各レイヤの符号ィ匕方式として CELP符号ィ匕が用いられ る場合を例にとって説明する。
[0014] 本実施の形態に係るスケーラブル符号ィ匕装置は、第 1レイヤエンコーダ 100および 第 2レイヤエンコーダ 150を備え、第 1レイヤ(基本レイヤ)においてモノラル信号の符 号化を行い、第 2レイヤ (拡張レイヤ)においてステレオ信号の符号ィ匕を行い、各レイ ャで得られる符号ィ匕パラメータを復号側に伝送する。
[0015] より詳細には、第 1レイヤエンコーダ 100は、モノラル信号生成部 101において、入 力されるステレオ音声信号、すなわち、 Lチャネル信号 L1および Rチャネル信号 R1 力もモノラル信号 Mlを生成し、モノラル信号符号ィ匕部 102において、この信号 Mlを 符号ィ匕して、声道情報に関する符号ィ匕パラメータ (LPC量子化インデックス)および 音源情報に関する符号化パラメータ (音源パラメータ)を得る。この第 1レイヤで得ら れた音源パラメータ、すなわち、駆動音源は第 2レイヤにおいても使用される。
[0016] 第 2レイヤエンコーダ 150は、 Lチャネル信号および Rチャネル信号のそれぞれが モノラル信号に波形上類似するように、後述の第 1変換を行って第 1変換信号を生成 し、この第 1変換で用いられた第 1変換係数を出力する。また、第 2レイヤエンコーダ 1 50は、第 1レイヤで生成された駆動音源を用いて第 1変換信号の LPC分析および L PC合成を行なう。この第 1変換の詳細については後述する。
[0017] さらに、第 2レイヤエンコーダ 150は、各々の LPC合成信号に対し、これらの合成信 号の第 1変換信号に対する符号ィ匕歪みが最小となるような第 2変換を施し、この第 2 変換に用いる第 2変換係数の符号ィ匕パラメータを出力する。この第 2変換は、符号帳 を用いて、チャネル毎の閉ループ探索により符号帳インデックスを求めることにより行 われる。この第 2変換の詳細についても後述する。
[0018] このように、第 1レイヤと第 2レイヤとで駆動音源を共有することで、本実施の形態に 係るスケーラブル符号ィ匕装置は、低ビットレートの符号ィ匕を実現できる。
[0019] また、第 2レイヤでは、ステレオ信号の Lチャネル信号および Rチャネル信号を各々 モノラル信号に波形上近い信号になるように第 1変換を行い、この第 1変換後の信号 (第 1変換信号)に対して、 CELP符号化の駆動音源を共有し、かつ各チャネルの LP C合成信号の第 1変換信号に対する符号ィ匕歪みが最小となるように、各チャネル独 立に第 2変換が施される。これにより、音声品質の向上を図ることができる。
[0020] 図 2は、上記のモノラル信号生成部 101内部の主要な構成を示すブロック図である
[0021] モノラル信号生成部 101は、入力された Lチャネル信号 L1と Rチャネル信号 R1とか ら、両信号の中間的な性質を有するモノラル信号 Mlを生成し、モノラル信号符号ィ匕 部 102へ出力する。具体的な例としては、 Lチャネル信号 L1と Rチャネル信号 R1との 平均をモノラル信号 Mlとすればよぐこの場合、図 2のように、加算器 105が Lチヤネ ル信号 L1および Rチャネル信号 R1の和を求め、乗算器 106がこの和信号のスケー ルを 1Z2にし、モノラル信号 Mlとして出力する。
[0022] 図 3は、上記のモノラル信号符号ィ匕部 102内部の主要な構成を示すブロック図であ る。
[0023] モノラル信号符号ィ匕部 102は、 LPC分析部 111、 1^じ量子化部112、 LPC合成フ ィルタ 113、加算器 114、聴覚重み付け部 115、歪み最小化部 116、適応符号帳 11 7、乗算器 118、固定符号帳 119、乗算器 120、ゲイン符号帳 121、および加算器 1 22を備え、 CELP符号ィ匕を行って音源パラメータ (適応符号帳インデックス、固定符 号帳インデックス、およびゲイン符号帳インデックス)と LPC量子ィ匕インデックスとを出 力する。
[0024] LPC分析部 111は、モノラル信号 Mlに対して線形予測分析を施し、分析結果で ある LPCパラメータを LPC量子化部 112および聴覚重み付け部 115へ出力する。 L PC量子化部 112は、この LPCパラメータを量子化し、得られる量子化 LPCパラメ一 タを特定するインデックス (LPC量子化インデックス)を出力する。このインデックスは 、通常、本実施の形態に係るスケーラブル符号ィ匕装置の外部へ出力される。また、 L PC量子化部 112は、量子化 LPCパラメータを LPC合成フィルタ 113へ出力する。 L PC合成フィルタ 113は、 LPC量子化部 112から出力される量子化 LPCパラメータを 用いて、後述の適応符号帳 117および固定符号帳 119を用いて生成された音源べ タトルを駆動音源として LPC合成フィルタによる合成を行う。得られた合成信号は、加 算器 114へ出力される。
[0025] 加算器 114は、 LPC合成フィルタ 113から出力された合成信号をモノラル信号 Ml 力 減算することにより誤差信号を算出し、この誤差信号を聴覚重み付け部 115へ 出力する。この誤差信号が符号化歪みに相当する。聴覚重み付け部 115は、 LPC 分析部 111から出力された LPCパラメータに基づいて構成される聴覚重み付けフィ ルタを用いて符号化歪みに対して聴覚的な重み付けを行、、この信号を歪み最小化 部 116へ出力する。歪み最小化部 116は、符号ィ匕歪みが最小となるように、適応符 号帳 117、固定符号帳 119、およびゲイン符号帳 121に対して、使用するインデック スを指示する。
[0026] 適応符号帳 117は、過去に生成された LPC合成フィルタ 113への駆動音源の音源 ベクトルを内部バッファに記憶しており、歪み最小化部 116から指示されたインデック スに対応する適応符号帳ラグに基づ 、て、この記憶されて 、る音源ベクトルから 1サ ブフレーム分を生成し、適応音源ベクトルとして乗算器 118へ出力する。固定符号帳 119は、歪み最小化部 116から指示されたインデックスに対応する音源ベクトルを、 固定音源ベクトルとして乗算器 120へ出力する。ゲイン符号帳 121は、適応音源べク トルおよび固定音源ベクトルに対する各ゲインを生成する。乗算器 118は、ゲイン符 号帳 121から出力された適応音源ゲインを適応音源ベクトルに乗じ、加算器 122へ 出力する。乗算器 120は、ゲイン符号帳 121から出力された固定音源ゲインを固定 音源ベクトルに乗じ、加算器 122へ出力する。加算器 122は、乗算器 118から出力さ れた適応音源ベクトルと、乗算器 120から出力された固定音源ベクトルとを加算し、 加算後の音源ベクトルを駆動音源として LPC合成フィルタ 113へ出力する。また、加 算器 122は、得られた駆動音源の音源ベクトルを適応符号帳 117へフィードバックす る。
[0027] LPC合成フィルタ 113は、前述の通り、加算器 122から出力される音源ベクトル、す なわち、適応符号帳 117および固定符号帳 119を用いて生成された音源ベクトルを 駆動音源として LPC合成フィルタによる合成を行う。
[0028] このように、適応符号帳 117および固定符号帳 119で生成された音源ベクトルを用 いて符号化歪みが求められる一連の処理は、閉ループ(帰還ループ)となっており、 歪み最小化部 116は、この符号化歪みが最小となるように、適応符号帳 117、固定 符号帳 119、およびゲイン符号帳 121に対して指示を行う。そして、歪み最小化部 1 16は、符号ィ匕歪みが最小となる各種音源パラメータを出力する。これらのパラメータ は、通常、本実施の形態に係るスケーラブル符号ィ匕装置の外部へ出力される。
[0029] 図 4は、上記の第 2レイヤエンコーダ 150内部の主要な構成を示すブロック図である
[0030] 第 2レイヤエンコーダ 150は大別して、ステレオ音声信号の Lチャネルを処理する L チャネル処理系統と、ステレオ音声信号の Rチャネルを処理する Rチャネル処理系統 と力 なり、 2つの系統は互いに同様の構成を有している。そこで、両チャネルの互い に対応する構成には同じ符号を付すこととし、さらに Lチャネル処理系統にはハイフ ンに続けて枝番 1を付し、 Rチャネル処理系統にはハイフンに続けて枝番 2を付す。 そして、 Lチャネル処理系統のみについて説明を行い、 Rチャネル処理系統につい ては説明を省略する。なお、音源信号生成部 151は、 Lチャネル、 Rチャネル共通で ある。
[0031] 第 2レイヤエンコーダ 150の Lチャネル処理系統は、音源信号生成部 151、第 1変 換部 152— 1、 LPC分析 '量子化部 153— 1、 LPC合成フィルタ 154— 1、第 2変換 部 155— 1、および歪み最小化部 156— 1を備える。
[0032] 音源信号生成部 151は、第 1レイヤエンコーダ 100から出力される音源パラメータ P
1を用いて、 Lチャネルおよび Rチャネルに共通の音源信号 M2を生成する。
[0033] 第 1変換部 152— 1は、 Lチャネル信号 L1とモノラル信号 Mlとから、 Lチャネル信 号 L1およびモノラル信号 Mlの波形上の特性の差を示す第 1変換係数を取得し、こ の第 1変換係数を用いて Lチャネル信号 LIに対し第 1変換を施し、モノラル信号 Ml に類似する第 1変換信号 M 1を生成する。また、第 1変換部 152— 1は、第 1変換係
数を特定するインデックス II (第 1変換係数インデックス)を出力する。
[0034] LPC分析'量子化部 153— 1は、第 1変換信号 M 1に対して線形予測分析を施し、
スペクトル包絡情報である LPCパラメータを求め、この LPCパラメータを量子化し、得 られる量子化 LPCパラメータを LPC合成フィルタ 154— 1へ出力すると共に、量子化 LPCパラメータを特定するインデックス (LPC量子ィ匕インデックス) 12を出力する。
[0035] LPC合成フィルタ 154— 1は、 LPC分析 ·量子化部 153— 1から出力される量子化 LPCパラメータをフィルタ係数とし、音源信号生成部 151で生成される音源ベクトル M2を駆動音源としたフィルタ関数、すなわち、 LPC合成フィルタを用いて Lチャネル の合成信号 M 2を生成する。この合成信号 M 2は、第 2変換部 155— 1へ出力され
し し
る。
[0036] 第 2変換部 155— 1は、合成信号 M 2に対し、後述の第 2変換を施し、第 2変換信
号 M 3を歪み最小化部 156— 1へ出力する。
[0037] 歪み最小化部 156— 1は、第 2変換信号 M 3の符号ィ匕歪みが最小となるように、フ
イードバック信号 F1によって第 2変換部 155— 1における第 2変換を制御し、符号ィ匕 歪みを最小とする第 2変換係数を特定するインデックス (第 2変換係数インデックス) I 3を出力する。第 1変換係数インデックス II、 LPC量子化インデックス 12、第 2変換係 数インデックス 13は、通常、本実施の形態に係るスケーラブル符号ィ匕装置の外部へ 出力される。
[0038] 次いで、この第 2レイヤエンコーダ 150内部の各部の動作について、より詳細に説 明する。
[0039] 図 5は、上記の第 1変換部 152— 1内部の主要な構成を示すブロック図である。この 第 1変換部 152— 1は、分析部 131、量子化部 132、および変換部 133を備える。
[0040] 分析部 131は、 Lチャネル信号 L1の波形とモノラル信号 Mlの波形とを比較分析す ることによって、モノラル信号 Mlの波形に対する Lチャネル信号 L1の波形の差を示 すパラメータ (波形差パラメータ)を求める。量子化部 132は、この波形差パラメータ に対し量子化を施し、得られる符号化パラメータ、すなわち、第 1変換係数インデック ス IIを本実施の形態に係るスケーラブル符号ィ匕装置の外部へ出力する。また、量子 化部 132は、第 1変換係数インデックス IIに対して逆量子化を施し、変換部 133へ出 力する。変換部 133は、量子化部 132から出力された逆量子化された第 1変換係数 インデックス、すなわち、分析部 131で得られた 2つのチャネル間の波形差パラメータ (ただし、量子化誤差を含む場合有り)を、 Lチャネル信号 L1から除去することにより、 Lチャネル信号 L1をモノラル信号 Mlに波形上類似した信号 M 1に変換する。
[0041] ここで、上記の波形差パラメータとは、 Lチャネル信号とモノラル信号との波形上の 特性の違いを示すパラメータであり、具体的には、モノラル信号を参照信号として、 L チャネル信号のモノラル信号に対する信号間の振幅比(エネルギー比)および Zまた は遅延時間差のことを指す。
[0042] 一般的に、同一発生源からのステレオ音声信号またはステレオオーディオ信号で あっても、マイクロフォンの置かれている位置によって、信号の波形が異なる特性を示 すようになる。簡単な例としては、発生源力もの距離に応じて、ステレオ信号のェネル ギ一は減衰すると共に、到達時間に遅延も発生し、音の収音位置によって異なる波 形スペクトルを示すようになる。このように、ステレオ信号は、収音環境という空間的な 因子によって大きな影響を受ける。
[0043] この収音環境の違いによるステレオ信号の特性をより詳細に説明するために、図 6 に、同一発生源力 の信号を異なる 2つの位置で取得した信号 (第 1信号 Wl、第 2 信号 W2)の音声波形の一例を示す。
[0044] この図に示すように、第 1信号および第 2信号でそれぞれ異なる特性を示すことが 見てとれる。この異なる特性を示す現象は、元の信号の波形に、取得位置によって異 なる新たな空間的な特性 (空間情報: spatial information)が加えられた後に、マイクロ フォン等の収音機器で信号が取得された結果と捉えることができる。本願では、この 特性を示すパラメータを特に波形差パラメータと呼ぶこととする。例えば、図 6の例で は、第 1信号 W1を時間 A tだけ遅延すると信号 W1 'となる。次に、信号 W1 'の振幅 を一定の割合で減じて振幅差 Δ Aを消滅させれば、信号 W1 'は同一発生源からの 信号であるため、理想的には第 2信号 W2と一致することが期待できる。すなわち、音 声信号またはオーディオ信号に含まれる波形上の特性を操作する処理を施すことに より、第 1信号および第 2信号の特性の違いを消滅させることができ、その結果、両方 の信号の波形を類似させることができる。
[0045] 図 5に示した第 1変換部 152— 1は、モノラル信号 Mlに対する Lチャネル信号 L1 の波形差パラメータを求め、これを Lチャネル信号 L1から分離することにより、モノラ ル信号 Mlに類似した第 1変換信号 M 1を得ると共に、波形差パラメータも符号化す
る。
[0046] 次に、上記の第 1変換係数の具体的な導出法について数式を用いつつ詳細に説 明する。まず、上記の波形差パラメータとして、 2チャネル間のエネルギー比および遅 延時間差を使用する場合を例にとって説明する。
[0047] 分析部 131は、 2チャネル間のフレーム単位のエネルギー比を算出する。まず、 L チャネル信号およびモノラル信号の 1フレーム内のエネルギー E および E 1S 次
Lch M の式(1)および式(2)に従って求められる。
[数 1]
ELc xL n† … ( 1 )
[数 2]
Figure imgf000012_0001
ここで、 nはサンプル番号、 FLは 1フレームのサンプル数(フレーム長)である。また 、x (n)および X (n)は、各々 Lチャネル信号およびモノラル信号の第 nサンプルの
Lch M
振幅を示す。
[0048] そして、分析部 131は、 Lチャネル信号およびモノラル信号のエネルギー比の平方 根 Cを次の式(3)に従って求める。
[数 3]
C = … ( 3 )
Figure imgf000012_0002
[0049] また、分析部 131は、 Lチャネル信号のモノラル信号に対する時間的ずれの量であ る遅延時間差を、以下のように、 2チャネルの信号間で最も相互相関が最も高くなる ような値として求める。具体的には、モノラル信号および Lチャネル信号の相互相関 関数 Φが次の式 (4)に従って求められる。
FL-\
Φ^)= XLch(n) XM(n-m) … 、4 )
[0050] ここで、 mはあらかじめ定めた min—mから max— mまでの範囲の値をとるものとし、
Φ(πι)が最大となるときの m=Mを Lチャネル信号のモノラル信号に対する遅延時間 差とする。
[0051] なお、上記のエネルギー比および遅延時間差を以下の式(5)によって求めても良 い。式 (5)では、モノラル信号と、このモノラル信号に対して波形差パラメータを除去 した Lチャネル信号と、の誤差 Dを最小にするようなエネルギー比の平方根 Cおよび 遅延時間 mを求める。
[数 5] … ( 5 )
Figure imgf000013_0001
[0052] 量子化部 132は、上記 Cおよび Mを予め定めたビット数で量子化し、量子化された Cおよび Mをそれぞれ、 Cおよび Mとする。
Q Q
[0053] 変換部 133は、 Lチャネル信号から以下の式 (6)の変換式に従って、 Lチャネル信 号とモノラル信号との間のエネルギー差および遅延時間差を除去する。
[数 6]
x (n) = CQ-xLch(n-MQ) … ( 6 )
(ただし、 = 0,"',FL— l)
[0054] なお、上記の波形差パラメータの具体例としては、以下のものがある。
[0055] 例えば、 2チャネル間のエネルギー比および遅延時間差と 、う 2つのパラメータを波 形差パラメータとして使用することができる。これらは定量化のし易 、パラメータである 。また、バリエーションとして周波数帯域ごとの伝播特性、例えば、位相差、振幅比等 を使用することちできる。 [0056] また、 2チャネル間(例えば、 Lチャネル信号とモノラル信号)のエネルギー比および 遅延時間差という 2つのパラメータの双方を波形差パラメータとせず、波形差パラメ一 タとして!/、ずれか一方のパラメータだけを使用するようにしても良 、。 1つのパラメータ のみを使用する場合は、 2つのパラメータを用いる場合と比較して 2つのチャネルの 類似性を向上させる効果が減少するが、逆に符号ィ匕ビット数をさらに削減できるとい う効果がある。
[0057] 例えば、波形差パラメータとして 2チャネル間のエネルギー比のみを用いる場合、 L チャネル信号の変換は、上記式(3)で求まるエネルギー比の平方根 Cを量子化した 値 Cを用いて、以下の式(7)に従って行う。
Q
[数 7] x (n) = cQ - xLch(n) … ^ ' )
(ただし、 " = 0,"',FL - V
[0058] 例えば、波形差パラメータとして 2チャネル間の遅延時間差のみを用いる場合、 Lチ ャネル信号の変換は、上記式 (4)で求まる Φ(πι)を最大とする m=Mを量子化した値 Mを用いて、以下の式(8)に従って行う。
Q
[数 8] xL' ch (n) = XLoh (n - M Q ) . ' · ( 8 )
(ただし、 " = 0,"',FL _ O
[0059] 図 7は、上記の音源信号生成部 151内部の主要な構成を示すブロック図である。
[0060] 適応符号帳 161は、モノラル信号符号ィ匕部 102から出力される音源パラメータ P1 のうちの適応符号帳インデックスから、対応する適応符号帳ラグを求め、この適応符 号帳ラグに基づ 、て予め記憶されて 、る音源ベクトルから 1サブフレーム分を生成し 、適応音源ベクトルとして乗算器 162へ出力する。
[0061] 固定符号帳 163は、モノラル信号符号ィ匕部 102から出力される音源パラメータ P1 のうちの固定符号帳インデックスを用いて、この固定符号帳インデックスに対応する 音源ベクトルを固定音源ベクトルとして乗算器 164へ出力する。
[0062] ゲイン符号帳 165は、モノラル信号符号ィ匕部 102から出力される音源パラメータ P1 のうちのゲイン符号帳インデックスを用いて、上記の適応音源ベクトルおよび固定音 源ベクトルに対する各ゲインを生成する。
[0063] 乗算器 162は、ゲイン符号帳 165から出力される適応音源ゲインを適応音源べタト ルに乗じ、加算器 166へ出力する。乗算器 164も同様に、ゲイン符号帳 165から出 力される固定音源ゲインを固定音源ベクトルに乗じ、加算器 166へ出力する。
[0064] 加算器 166は、乗算器 162および乗算器 164から出力される各音源ベクトルをカロ 算し、加算後の音源ベクトル (音源信号) M2を駆動音源として LPC合成フィルタ 154 — 1 (および LPC合成フィルタ 154— 2)に出力する。
[0065] 次に、第 2変換部 155— 1の動作について詳述する。第 2変換部 155— 1では、下 記の第 2変換が行われる。
[0066] 第 2変換部 155— 1は、 LPC合成フィルタ 154— 1から出力された合成信号に第 2 変換を施す。この第 2変換は、 LPC合成フィルタ 154— 1から出力される合成信号を 、第 1変換部 152— 1から出力される第 1変換信号 M 1に類似させる変換である。す
なわち、第 2変換により、第 2変換後の信号が、第 1変換信号 M 1に類似した信号と
なる。第 2変換部 155— 1は、歪み最小化部 156— 1の制御の下、上記の変換を実現 するような変換係数を、予め第 2変換部 155— 1内部に用意された変換係数の符号 帳の中から閉ループ探索によって求める。
[0067] 具体的には、第 2変換は次の式(9)に従って行われる。
[数 9] … ( 9 )
Figure imgf000015_0001
(ただし、 " = 0, "', SFL - Ό
[0068] ここで、 S(n— k)は LPC合成フィルタ 154— 1から出力される合成信号、 SP (n)は第 2変換後の信号である。また、 a (k) (ただし、 k=— KB〜KF)は第 j番目の第 2変換 係数であり、予め N (ただし、 j = 0〜N )個の係数列を符号帳として用意している cb cb— 1
ものとする。 SFLはサブフレーム長である。これらの組ごとに、上記の式(9)を計算す る。
[0069] 歪み最小化部 156— 1は、信号 S(n)と、 3? (!1) (11=0〜3 1^ 1)との差信号0 (11 )を次の式(10)にしたがって算出する。
[数 10]
Figure imgf000016_0001
(ただし、 " = 0, " ', SFL - O
[0070] ここで、差信号 DF (n)に対して聴覚重み付けを行った後の符号ィ匕歪みを本実施の 形態に係るスケーラブル符号ィ匕装置の符号ィ匕歪みとする。この計算を第 2の変換係 数 { a (k)}のすベての組に対して行い、 Lチャネル信号および Rチャネル信号それぞ れの符号ィ匕歪みが最小となる第 2の変換係数を決定する。この信号の符号化歪みを 求める一連の処理は、閉ループ (帰還ループ)となっており、第 2の変換係数を 1サブ フレーム内において様々に変化させることによって、最終的に得られる、符号化歪み を最小とする第 2の変換係数の組を表すインデックス (第 2変換係数インデックス)を 出力する。
[0071] 図 8は、上記の歪み最小化部 156— 1内部の主要な構成を示すブロック図である。
[0072] 加算器 141は、第 1変換信号 M 1から第 2変換信号 M 3を減じて誤差信号を算出 し し
し、この誤差信号を聴覚重み付け部 142へ出力する。
[0073] 聴覚重み付け部 142は、聴覚重み付けフィルタを用いて、加算器 141から出力され る誤差信号に対して聴覚的な重み付けを施し、歪み算出部 143へ出力する。
[0074] 歪み算出部 143は、聴覚重み付け部 142から出力される聴覚重み付けがなされた 後の誤差信号力 求まる符号ィ匕歪み、すなわち、第 2変換信号 M 3の符号化歪みが し
最小となるように、サブフレームごとにフィードバック信号 F1によって第 2変換部 155 1を制御する。そして、歪み算出部 143は、第 2変換信号 M 3の符号化歪みを最 し
小とする第 2変換係数インデックス 13を出力する。このパラメータは、通常、符号化パ ラメータとして本実施の形態に係るスケーラブル符号ィ匕装置の外部に出力される。
[0075] 図 9は、上記の Lチャネル処理系統の符号ィ匕処理の概要をまとめた図である。この 図を用いつつ、本実施の形態に係るスケーラブル符号ィ匕方法によって符号ィ匕レート が削減でき、また符号ィ匕精度が向上する原理についても併せて説明する。
[0076] Lチャネルの符号ィ匕においては、 Lチャネルの原信号である信号 L1を符号化対象 とするのが通常である。しかし、上記の Lチャネル処理系統では、信号 L1を直接用い ずに、信号 LIをモノラル信号 Mlに類似した信号 (モノラル類似信号) M 1に変換し
、この変換信号を符号化対象とする。これは、信号 M 1
し を符号化対象とすれば、モノ ラル信号を符号化する際の構成を用いて符号化処理を行うこと、すなわち、 Lチヤネ ル信号の符号化を、モノラル信号の符号ィ匕に準じた方法により符号ィ匕することができ るカゝらである。
[0077] 具体的には、 Lチャネル処理系統では、モノラル類似信号 M 1に対し、モノラル信
号の音源 M2を用いて合成信号 M 2を生成すると共に、この合成信号の誤差を最小
にする符号化パラメータを求める。
[0078] また、第 2レイヤである Lチャネル処理系統の符号ィ匕対象をモノラル類似信号 M 1
し とすることにより、本実施の形態では、第 1レイヤで既に求まっているもの (符号化パラ メータ、音源信号等)を有効利用し、第 2レイヤの符号ィ匕を行うことができる。第 1レイ ャの符号ィ匕対象がモノラル信号であるからである。
[0079] 具体的には、第 2レイヤで合成信号 M 2を生成する際に、第 1レイヤで先に生成さ
れた (モノラル信号に対する)音源を利用する。よって、第 1レイヤと第 2レイヤとで音 源を共用することになるので符号ィ匕レートを削減することができる。
[0080] 特に、本実施の形態では、第 1レイヤで既に求まっているもののうち、モノラル信号 符号ィ匕部 102で生成された音源を用いて、第 2レイヤの符号ィ匕を行う。すなわち、音 源情報および声道情報のうち、音源情報についてのみ第 1レイヤで既に求まってい るものを利用する。
[0081] 例えば、 3GPP規格の TS26. 190 V5.1.0 (2001-12)に開示されている AMR— W B方式 (23. 85kbitZs)では、音源情報は声道情報の約 7倍の情報量があり、符号 化後のビットレートも声道情報より音源情報の方が多くなる。そこで、声道情報よりも 音源情報について第 1レイヤと第 2レイヤとにおける共用化を図ると、符号化レートの 削減効果が大きい。
[0082] また、声道情報よりも音源情報について共用化を図るのには、ステレオ音声信号に 特有の以下の理由もある。
[0083] そもそも、ステレオ信号とは、特定の発生源力も来る音を、例えば左右に分かれた 2 つのマイクロフォンで同じタイミングで収音した音である。よって、理想的には、各チヤ ネル信号は共通の音源情報を有していることになる。実際に、音の発生源が単一で あれば (または発生源が複数であっても密集していて単一と同一視できるような状況 であれば)、各チャネルの音源情報を共通であるとして処理することができる。
[0084] しかし、音の発生源が複数あって互いに離れて位置して 、ると、各発生源で発生し た複数の音は、各マイクロフォンにばらばらなタイミングで到達し (遅延時間が異なり) 、また伝搬路の違いによって減衰度も異なってくるため、各マイクロフォンにおいて実 際に収音される音は、各音源情報が分離困難な状態に混在した音となる。
[0085] ステレオ信号に特徴的な上記の現象は、収音環境の違いによって音に新たな空間 的な特性が付加された結果と考えることができる。そうすると、ステレオ音声信号の声 道情報と音源情報のうち、収音環境の違いによって大きく影響を受けるのは声道情 報であり、音源情報はあまり影響を受けないと考えられる。声道情報は、スペクトル包 絡情報とも呼ばれるように、主に音声スペクトルの波形に関する情報であるのに対し 、収音環境の違いによって音に新たに付加される空間的な特性も、振幅比、遅延時 間等の波形に関する特性だ力もである。
[0086] よって、音源情報をモノラル信号 (第 1レイヤ)と Lチャネル ZRチャネル信号 (第 2レ ィャ)とで共用しても大きな品質劣化につながらないことが期待できる。すなわち、音 源情報については、第 1レイヤおよび第 2レイヤで共用化し、声道情報については、 各チャネルごとに処理する方が、符号化効率が良くなることが期待され、符号化レー トを削減することができる。
[0087] そこで、本実施の形態では、音源情報にっ ヽては、モノラル信号符号ィ匕部 102で 生成された音源を、 Lチャネル用の LPC合成フィルタ 154— 1、 Rチャネル用の LPC 合成フィルタ 154— 2の双方に入力している。また、声道情報については、 Lチャネル に対し LPC分析 ·量子化部 153— 1を、 Rチャネルに対し LPC分析 ·量子化部 153— 2をそれぞれ備え、各チャネルごとに独立に線形予測分析を行っている(図 4参照)。 すなわち、収音環境の違いによって付加される空間的な特性を、声道情報の符号化 ノラメータに含めるモデルとして符号ィ匕を行う。
[0088] 一方、上記構成を採ることにより、新たな問題も付随して発生する。例えば、 Lチヤ ネルに着目して説明すると、 Lチャネル処理系統で使用する音源 M2はモノラル信号 に対して求まったものである。よって、これを用いて Lチャネルの符号ィ匕を行うと、 Lチ ャネルにモノラルの情報が混入することとなり、 Lチャネルの符号ィ匕精度が劣化する。 なお、モノラル類似信号 M 1を符号化対象とすることは、上記の第 1変換が原信号 L
1の波形を数学的に (加減乗除によって)加工するだけの変換であるので大きな問題 とはならないと考えられる。例えば、変換後の信号 M 1から元の信号 L1を復元する
逆変換が可能であり、 M 1を符号化対象とすることと、 L1を符号化対象とすることと
は、符号ィ匕精度の観点力もは実質同等であると考えられるからである。
[0089] そこで、本実施の形態では、音源 M2に基づいて生成される合成信号 M 2を M 1
し し に近付ける最適化 (第 2変換)を行う。これにより、モノラル信号に対する音源を用い つつも、 Lチャネルの符号ィ匕精度を向上させることができる。
[0090] 具体的には、 Lチャネル処理系統は、音源 M2に基づいて生成された合成信号 M
2に対し第 2変換を施し、変換信号 M 3を生成する。そして、 M 1をリファレンス信号
し し
として、変換信号 M 3が M 1に近付くように第 2変換係数を調節する。より詳細には、
し し
第 2変換以降の処理はループを構成しており、 Lチャネル処理系統は、第 2変換係数 を示すインデックスを 1ずつインクリメントすることにより、全てのインデックスについて M 1— M 3間の誤差を算出し、最終的に誤差を最小とする第 2変換係数のインデッ し し
タスを出力する。
[0091] 図 10は、第 2レイヤにおける符号化処理の手順を、 Lチャネル、 Rチャネルまとめて 示すフロー図である。
[0092] 第 2レイヤエンコーダ 150は、 Lチャネル信号および Rチャネル信号を第 1変換して モノラル信号に類似した信号に変換する (ST1010)と共に、第 1変換係数 (第 1変換 ノ ラメータ)を出力し (ST1020)、第 1変換信号の LPC分析および量子化を行う(ST 1030)。なお、 ST1020は、必ずしも ST1010と ST1030の間でなくて良!/、。
[0093] また、第 2レイヤエンコーダ 150は、第 1レイヤで決定された音源パラメータ (適応符 号帳インデックス、固定符号帳インデックス、およびゲイン符号帳インデックス)に基づ V、て、音源信号の生成を行!、 (ST1110)、 Lチャネル信号および Rチャネル信号の L PC合成を行う(ST1120)。そして、これらの合成信号に対して、予め定められた第 2 変換係数の組を用いて第 2変換を行 、 (ST1130)、第 2変換信号とモノラル信号に 近い第 1変換信号とから、符号ィ匕歪みを算出する (ST1140)。次に、歪み最小値判 定を行 、 (ST1150)、これら符号ィ匕歪みが最小となるような第 2変換係数を決定する 。上記の第 2変換係数を決定するループ(ST1130〜ST1150)は閉ループであり、 全てのインデックスについて探索が行われ、全探索が終了する時点でループが終了 する(ST1160)。求まった第 2変換係数インデックス (第 2変換パラメータインデックス )は出力される(ST1210)。
[0094] 上記の処理手順において、 ST1010から ST1030までの処理 P1はフレーム単位 で行われ、 ST1110から ST1160までの処理 P2はフレームをさらに分割したサブフ レーム単位で行われる。
[0095] なお、この第 2変換係数を決定するための処理をフレーム単位とし、第 2変換係数 をフレーム単位で出力するようにしてもよ 、。
[0096] 次いで、上記スケーラブル符号ィ匕装置に対応する、本実施の形態に係るスケーラ ブル復号装置について説明する。
[0097] 図 14は、本実施の形態に係るスケーラブル復号装置の中でも特に特徴的な第 2レ ィャデコーダ 170内部の主要な構成を示すブロック図である。この第 2レイヤデコー ダ 170は、本実施の形態に係るスケーラブル符号ィ匕装置内部の第 2レイヤエンコー ダ 150 (図 4参照)に対応する構成である。第 2レイヤエンコーダ 150と同一の構成要 素には同一の符号を付し、重複する動作につ!、ては説明を省略する。
[0098] 第 2レイヤデコーダ 170は、第 2レイヤエンコーダ 150と同様に、大別して Lチャネル 処理系統と Rチャネル処理系統と力 なり、 2つの系統は互いに同様の構成を有して いる。よって、 Lチャネル処理系統には符号に続けて枝番 1を付し、 Rチャネル処理系 統には枝番 2を付し、 Lチャネル処理系統のみについて説明を行い、 Rチャネル処理 系統については説明を省略する。なお、音源信号生成部 151は、 Lチャネル、 Rチヤ ネル共通の構成である。
[0099] 第 2レイヤデコーダ 170の Lチャネル処理系統は、音源信号生成部 151、 LPC合成 フィルタ 154— 1、第 2変換部 155— 1、 LPC復号部 171— 1、第 1変換係数復号部 1 72— 1、および逆第 1変換部 173— 1を備える。この Lチャネル処理系統には、本実 施の形態に係るスケーラブル符号ィ匕装置で生成された音源パラメータ P1、第 1変換 係数インデックス II、 LPC量子化インデックス 12、および第 2変換係数インデックス 13 が入力される。
[0100] 音源信号生成部 151は、入力される音源パラメータ P1を用いて、 Lチャネルおよび Rチャネルに共通の音源信号 M2を生成し、 LPC合成フィルタ 154— 1へ出力する。
[0101] LPC復号部 171— 1は、入力される LPC量子ィ匕インデックス 12を用いて量子化 LP Cパラメータを復号し、 LPC合成フィルタ 154— 1へ出力する。
[0102] LPC合成フィルタ 154— 1は、復号された量子化 LPCパラメータをフィルタ係数とし 、音源ベクトル M2を駆動音源としたフィルタ関数、すなわち、 LPC合成フィルタを用 いて Lチャネルの合成信号 M 2を生成する。この合成信号 M 2は、第 2変換部 155
し し
1へ出力される。
[0103] 第 2変換部 155— 1は、入力される第 2変換係数インデックス 13を用いて合成信号 M 2に対して第 2変換を施すことにより、第 2変換信号 M 3を生成し、逆第 1変換部 1 し し
73— 1へ出力する。この第 2変換は、第 2レイヤエンコーダ 150における第 2変換と同 じ処理である。
[0104] 第 1変換係数復号部 172— 1は、入力される第 1変換係数インデックス IIを用いて 第 1変換係数を復号し、逆第 1変換部 173— 1へ出力する。
[0105] 逆第 1変換部 173— 1は、復号された第 1変換係数の逆数を用いて、第 2変換信号
M 3に対して (第 2レイヤエンコーダ 150における)第 1変換の逆変換である逆第 1変 し
換を施し、 Lチャネル復号信号を生成する。
[0106] このように、第 2レイヤデコーダ 170の Lチャネル処理系統は、 Lチャネル信号を復 号することができる。同様に、第 2レイヤデコーダ 170の Rチャネル処理系統によって Rチャネル信号も復号される。なお、本実施の形態に係るスケーラブル符号ィ匕装置 内部のモノラル信号符号ィ匕部 102(図 3参照)に対応した構成のモノラル信号復号部 ( 図示せず)によってモノラル信号も復号される。
[0107] 以上説明したように、本実施の形態によれば、各レイヤで駆動音源を共有する。す なわち、各レイヤ共通の音源を用いて各レイヤの符号ィ匕を行うので、各レイヤごとに、 適応符号帳、固定符号帳、およびゲイン符号帳のセットを設置する必要がない。よつ て、低ビットレートの符号ィ匕を実現すると共に、回路規模を削減することができる。ま た、第 2レイヤでは、ステレオ信号の各チャネル信号を波形上モノラル信号に近い信 号となるように第 1変換を行い、得られた第 1変換信号に対して、各チャネルの信号 の符号ィ匕歪みが最小となるような第 2変換を行う。これにより、音声品質の向上を図る ことができる。すなわち、復号信号の音質劣化を防ぎつつ、符号ィ匕レートを削減して 回路規模を削減することができる。
[0108] なお、本実施の形態では、波形差パラメータとして、 2つの信号間の振幅比(ェネル ギー比)および遅延時間差を用いる場合を例にとって説明した力 これらの代わりに 、周波数帯域毎の信号の伝搬特性 (位相差、振幅比)等を用いても良い。
[0109] また、波形差パラメータを操作した Lチャネル信号および Rチャネル信号に対して、 LPC量子化部で量子化する際に、モノラル信号に対して量子化された量子化 LPC ノ メータを用いて、差分量子化や予測量子化等を行うようにしても良い。波形差パ ラメータを操作した Lチャネル信号および Rチャネル信号は、モノラル信号に近!、信 号に変換されているので、これらの信号に対する LPCパラメータは、モノラル信号の LPCパラメータとの相関が高いため、より低いビットレートで効率的な量子化を行うこ とが可能となるからである。
[0110] また、本実施の形態では、符号化方式として CELP符号化が用いられる場合を例 にとつて説明した力 必ずしも CELP符号ィ匕のように音声モデルを用いる符号ィ匕であ る必要はなぐ符号帳に予め記録されている音源を利用する符号ィ匕方法でなくても 良い。
[0111] また、本実施の形態では、第 1レイヤのモノラル信号符号ィ匕部 102で生成される音 源パラメータを、第 2レイヤエンコーダ 150に入力する場合を例にとって説明したが、 モノラル信号符号ィ匕部 102内部で最終的に生成される駆動音源信号、すなわち、誤 差を最小とする駆動音源信号そのものを、第 2レイヤエンコーダ 150に入力するよう にしても良い。かかる場合、当該駆動音源信号は、第 2レイヤエンコーダ 150内部の LPC合成フィルタ 154— 1、 154— 2に直接入力される。
[0112] (実施の形態 2)
本発明の実施の形態 2に係るスケーラブル符号ィ匕装置の基本的な構成は、実施の 形態 1に示したスケーラブル符号ィ匕装置と同様である。よって、実施の形態 1と異なる 構成である第 2レイヤエンコーダについて以下説明する。
[0113] 図 11は、本実施の形態に係る第 2レイヤエンコーダ 150aの主要な構成を示すプロ ック図である。なお、実施の形態 1に示した第 2レイヤエンコーダ 150 (図 4)と同一の 構成要素には同一の符号を付し、その説明を省略する。実施の形態 1と異なる構成 は、第 2変換部 201および歪み最小化部 202である。
[0114] 図 12は、第 2変換部 201内部の主要な構成を示すブロック図である。
[0115] 第 2変換部 201内の Lチャネル処理部 221— 1は、第 2変換係数テーブル (第 2変 換パラメータテーブル) 222に予め記録されている第 2変換係数の中から、歪み最小 化部 202からのフィードバック信号 F1 'に従い適当な第 2変換係数を読み出し、これ を用いて、 LPC合成フィルタ 154— 1から出力される合成信号 M 2に第 2変換を施し
、出力する (信号 M 3' )。同様に、 Rチャネル処理部 221— 2は、第 2変換係数テー
ブル 222に予め記録されている第 2変換係数の中から、歪み最小化部 202からのフ イードバック信号 F1 'に従い適当な第 2変換係数を読み出し、これを用いて、 LPC合 成フィルタ 154— 2から出力される合成信号 M 2に第 2変換を施し、出力する(信号
R
M 3,)。これらの処理によって、合成信号 M 2、 M 2は、第 1変換部 152—1、 152
R L R
—2から出力される第 1変換信号 M 1、 M 1に類似した信号 M 3'、 M 3'となる。こ
L R L R
こで、第 2変換係数テーブル 222は Lチャネルと Rチャネルとで共通である。
[0116] 第 2変換は、次の式(11)および式(12)に従って行われる。
[数 11]
KF k^ B
(ただし、 n = 0, " ', SFjL— V)
[数 12]
SP (") = aRcKj () · SRch (" - ) ( 1 2 )
(ただし、 n = 0, ' , SFL - 1 )
[0117] S (n—k)は LPC合成フィルタ 154— 1から出力された Lチャネルの合成信
Lch
k)は LPC合成フィルタ 154— 2から出力された Rチャネルの合成信号、 SP (n)は第 2変換された Lチャネル信号、 SP (n)は第 2変換された Rチャネル
Lch, ] Rch, ]
信号である。また、 a (k)は Lチャネルに対する第 j番目の第 2変換係数、 a (k)
Lch, ] Rch, ] は Rチャネルに対する第 j番目の第 2変換係数であり、予め N (ただし、 j = 0〜N
cb cb—
)個の Lチャネルおよび Rチャネルの係数列のペアを符号帳として用意されて 、るも のとする。また、 SFLはサブフレーム長である。これらのペアごとに、上記の式(11)お よび式(12)を計算する。
[0118] 次いで、歪み最小化部 202について説明する。図 13は、歪み最小化部 202内部 の主要な構成を示すブロック図である。
[0119] 歪み最小化部 202は、 Lチャネルおよび Rチャネルのそれぞれの第 2変換信号の 符号ィ匕歪みの和が最小となるような第 2変換係数テーブル 222のインデックスを求め る。具体的には、加算器 211— 1は、第 1変換信号 M 1から第 2変換信号 M 3 'を減
し し ずることにより誤差信号 E1を算出し、この誤差信号 E1を聴覚重み付け部 212— 1へ 出力する。聴覚重み付け部 212— 1は、聴覚重み付けフィルタを用いて、加算器 211 1から出力される誤差信号 E1に対して聴覚的な重み付けを施し、歪み算出部 213 —1へ出力する。歪み算出部 213— 1は、聴覚的な重み付けがされた誤差信号 E1の 符号化歪みを算出し、加算器 214へ出力する。加算器 211— 2、聴覚重み付け部 21 2— 2、歪み算出部 213— 2の動作も上記と同様であり、 E2は M 1から M 3 'を減じ
R R
た誤差信号である。
[0120] 加算器 214は、歪み算出部 213— 1、 213— 2から出力される符号ィ匕歪みを加算し 、この和を出力する。歪み最小値判定部 215は、歪み算出部 213— 1、 213— 2から 出力される符号ィ匕歪みの和を最小とする第 2変換係数テーブル 222のインデックスを 求める。この符号化歪みを求める一連の処理は閉ループ(帰還ループ)となっており 、歪み最小値判定部 215は、第 2変換部 201に対し、第 2変換係数テーブル 222の インデックスをフィードバック信号 F1,を用いて指示し、第 2変換係数を 1サブフレーム 内において様々に変化させる。そして、最終的に得られる符号化歪みを最小とする 第 2の変換係数の組を表すインデックス 13,を出力する。このインデックスは既に説明 したように、 Lチャネル信号および Rチャネル信号で共通である。
[0121] 以下は、歪み最小化部 202における処理を数式を用いて説明するものである。 [0122] 歪み最小化部 202は、信号 S (n)と SP (n) (ただし、 n=0〜SFL—l)との差信
Lch Lc , ]
号 DF (n)を、次の式(13)に従って算出する。
し ch, ]
[数 13]
DF hJ (") = SLch (")― SPLchJ (n) - ( 1 3 )
(ただし、 " = 0, - . ', S Z— l )
[0123] また、歪み最小化部 202は、信号 S (n)と SP (n) (ただし、 n=0〜SFL—l)と
Rch Rch, j
の差信号 DF (n)を次の式(14)に従って算出する。
Rch, j
[数 14]
DFRchJ (") = SRch (") - SPRchJ (") - ( 1 4 )
(ただし、 " = 0, "、SFL—V>
[0124] 差信号 DF (n)および DF (n)に対して聴覚重み付けを行った後の符号ィ匕歪
Lch, ] Rch, ]
みを本実施の形態に係るスケーラブル符号ィ匕装置の符号ィ匕歪みとする。この計算を 第 2の変換係数 { « (k)}と { « (k)}とをペアとするすべての組に対して行い、 L
Lch, ] Rch, ]
チャネル信号および Rチャネル信号の符号ィ匕歪みの和が最小となる第 2変換係数を 決定する。
[0125] なお、 α (k)の値の組、および α (k)の値の組は全く同一のものを用いるように
Lch Rch
しても良い。かかる場合、第 2の変換用の変換係数のテーブルサイズを 1Z2にするこ とがでさる。
[0126] このように、本実施の形態によれば、各チャネルの第 2変換に用いる各チャネルに 対する第 2変換係数を、 2つのチャネルで予め組にして設定しておいて、 1つのイン デッタスで指定する。すなわち、第 2レイヤの符号ィ匕において、各チャネルの LPC合 成信号に対して第 2変換を行う際に、第 2変換係数を 2つのチャネルで予め組として 用意しておき、両チャネル同時に閉ループ探索を行って、符号化歪みを最小とする 第 2変換係数を決定する。これは、モノラル信号に近い信号に変換された Lチャネル 信号と Rチャネル信号との間に強い相関があることを利用したものである。これにより 、符号ィ匕レートを削減することができる。
[0127] 以上、本発明の各実施の形態について説明した。
[0128] 本発明に係るスケーラブル符号化装置およびスケーラブル符号化方法は、上記各 実施の形態に限定されず、種々変更して実施することが可能である。
[0129] 本発明に係るスケーラブル符号ィ匕装置は、移動体通信システムにおける通信端末 装置および基地局装置に搭載することが可能であり、これにより上記と同様の作用効 果を有する通信端末装置および基地局装置を提供することができる。また、本発明 に係るスケーラブル符号ィ匕装置およびスケーラブル符号ィ匕方法は、有線方式の通信 システムにお 、ても利用可能である。
[0130] なお、ここでは、本発明をノヽードウエアで構成する場合を例にとって説明したが、本 発明をソフトウェアで実現することも可能である。例えば、本発明に係るスケーラブル 符号ィ匕方法の処理のアルゴリズムをプログラミング言語によって記述し、このプロダラ ムをメモリに記憶しておいて情報処理手段によって実行させることにより、本発明のス ケーラブル符号ィ匕装置と同様の機能を実現することができる。
[0131] また、適応符号帳(adaptive codebook)は、適応音源符号帳と呼ばれることがあり、 固定符号帳 (fixed codebook)は、固定音源符号帳と呼ばれることがある。
[0132] また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路 である LSIとして実現される。これらは個別に 1チップ化されていても良いし、一部ま たは全てを含むように 1チップィ匕されて ヽても良!、。
[0133] また、ここでは LSIとした力 集積度の違いによって、 IC、システム LSI、スーパー L SI、ウノレ卜ラ LSI等と呼称されることちある。
[0134] また、集積回路化の手法は LSIに限るものではなぐ専用回路または汎用プロセッ サで実現しても良い。 LSI製造後に、プログラム化することが可能な FPGA (Field Pro grammable Gate Array)や、 LSI内部の回路セルの接続もしくは設定を再構成可能な リコンフィギユラブル ·プロセッサを利用しても良 、。
[0135] さらに、半導体技術の進歩または派生する別技術により、 LSIに置き換わる集積回 路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積ィ匕を行って も良い。バイオ技術の適応等が可能性としてあり得る。
[0136] 本明糸田書 ίま、 2005年 2月 1日出願の特願 2005— 025123に基づく。この内容【ま すべてここに含めておく。
産業上の利用可能性 本発明に係るスケーラブル符号ィ匕装置およびスケーラブル符号ィ匕方法は、移動体 通信システムにおける通信端末装置、基地局装置等の用途に適用できる。

Claims

請求の範囲
[1] ステレオ信号を構成する複数のチャネル信号を用いてモノラル信号を生成するモノ ラル信号生成手段と、
前記モノラル信号を符号ィ匕して音源パラメータを生成する第 1符号ィ匕手段と、 前記チャネル信号と前記モノラル信号とを用いて第 1モノラル類似信号を生成する モノラル類似信号生成手段と、
前記音源パラメータと前記第 1モノラル類似信号とを用いて合成信号を生成する合 成手段と、
前記合成信号と前記第 1モノラル類似信号とを用いて歪み最小化パラメータを生成 する第 2符号化手段と、
を具備するスケーラブル符号ィ匕装置。
[2] 前記モノラル信号生成手段は、
前記複数のチャネル信号の平均を前記モノラル信号とする、
請求項 1記載のスケーラブル符号化装置。
[3] 前記第 1符号化手段は、
前記モノラル信号を CELP符号ィ匕して前記音源パラメータを生成する、 請求項 1記載のスケーラブル符号化装置。
[4] 前記モノラル類似信号生成手段は、
前記チャネル信号および前記モノラル信号の波形上の差に関する情報を求める、 請求項 1記載のスケーラブル符号化装置。
[5] 前記波形上の差に関する情報は、
エネルギーおよび遅延時間の双方または一方に関する情報である、
請求項 4記載のスケーラブル符号化装置。
[6] 前記モノラル類似信号生成手段は、
前記波形上の差に関する情報を用いて、前記チャネル信号の波形と前記モノラル 信号の波形との誤差を小さくする、
請求項 4記載のスケーラブル符号化装置。
[7] 前記合成手段は、 前記第 1モノラル類似信号を用いてフィルタ係数を算出し、前記音源パラメータを 用いて駆動音源を生成し、前記フィルタ係数と前記駆動音源とを用いて LPC合成を 行うことで合成信号を生成する、
請求項 1記載のスケーラブル符号化装置。
[8] 前記合成手段は、
前記複数のチャネル信号に対し、前記音源パラメータを共通に用いて、各チャネル 信号に対応する合成信号を生成する、
請求項 1記載のスケーラブル符号化装置。
[9] 前記第 2符号化手段は、
前記合成信号を用いて第 2モノラル類似信号を生成し、前記第 1モノラル類似信号 と前記第 2モノラル類似信号との差を最小化する前記歪み最小化パラメータを生成 する、
請求項 1記載のスケーラブル符号化装置。
[10] 前記第 2符号化手段は、
前記歪み最小化パラメータの候補を予め記憶している、
請求項 1記載のスケーラブル符号化装置。
[11] 前記第 2符号化手段は、
前記複数のチャネル信号に対応する複数の前記歪み最小化パラメータの候補を、 前記複数のチャネル間で組にして予め記憶している、
請求項 1記載のスケーラブル符号化装置。
[12] 前記第 2符号化手段は、
前記歪み最小化パラメータの候補から、各チャネル信号ごとに前記合成信号と前 記モノラル類似信号との歪みをそれぞれ求め、これらの前記歪みの総和を最小化す る前記歪み最小化パラメータの組を求める、
請求項 11記載のスケーラブル符号ィ匕装置。
[13] 請求項 1記載のスケーラブル符号化装置を具備する通信端末装置。
[14] 請求項 1記載のスケーラブル符号化装置を具備する基地局装置。
[15] ステレオ信号を構成する複数のチャネル信号を用いてモノラル信号を生成するステ ップと、
前記モノラル信号を符号ィ匕して音源パラメータを生成するステップと、
前記チャネル信号と前記モノラル信号とを用いて第 1モノラル類似信号を生成する ステップと、
前記音源パラメータと前記第 1モノラル類似信号とを用いて合成信号を生成するス テツプと、
前記合成信号と前記第 1モノラル類似信号とを用いて歪み最小化パラメータを生成 するステップと、
を具備するスケーラブル符号化方法。
PCT/JP2006/301481 2005-02-01 2006-01-30 スケーラブル符号化装置およびスケーラブル符号化方法 WO2006082790A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2007501561A JP4887279B2 (ja) 2005-02-01 2006-01-30 スケーラブル符号化装置およびスケーラブル符号化方法
US11/815,028 US8036390B2 (en) 2005-02-01 2006-01-30 Scalable encoding device and scalable encoding method
EP06712624A EP1852850A4 (en) 2005-02-01 2006-01-30 SCALABLE CODING DEVICE AND SCALABLE CODING METHOD
CN2006800038159A CN101111887B (zh) 2005-02-01 2006-01-30 可扩展编码装置和可扩展编码方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2005-025123 2005-02-01
JP2005025123 2005-02-01

Publications (1)

Publication Number Publication Date
WO2006082790A1 true WO2006082790A1 (ja) 2006-08-10

Family

ID=36777174

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2006/301481 WO2006082790A1 (ja) 2005-02-01 2006-01-30 スケーラブル符号化装置およびスケーラブル符号化方法

Country Status (5)

Country Link
US (1) US8036390B2 (ja)
EP (1) EP1852850A4 (ja)
JP (1) JP4887279B2 (ja)
CN (1) CN101111887B (ja)
WO (1) WO2006082790A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8527265B2 (en) 2007-10-22 2013-09-03 Qualcomm Incorporated Low-complexity encoding/decoding of quantized MDCT spectrum in scalable speech and audio codecs

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101027718A (zh) * 2004-09-28 2007-08-29 松下电器产业株式会社 可扩展性编码装置以及可扩展性编码方法
WO2006070760A1 (ja) * 2004-12-28 2006-07-06 Matsushita Electric Industrial Co., Ltd. スケーラブル符号化装置およびスケーラブル符号化方法
EP2099025A4 (en) * 2006-12-14 2010-12-22 Panasonic Corp AUDIO CODING DEVICE AND AUDIO CODING METHOD
US20100017199A1 (en) * 2006-12-27 2010-01-21 Panasonic Corporation Encoding device, decoding device, and method thereof
FR2938688A1 (fr) * 2008-11-18 2010-05-21 France Telecom Codage avec mise en forme du bruit dans un codeur hierarchique
CN101552822A (zh) * 2008-12-31 2009-10-07 上海闻泰电子科技有限公司 一种移动终端振铃的实现方法
EP2395504B1 (en) * 2009-02-13 2013-09-18 Huawei Technologies Co., Ltd. Stereo encoding method and apparatus
US9530419B2 (en) * 2011-05-04 2016-12-27 Nokia Technologies Oy Encoding of stereophonic signals
JP7092050B2 (ja) * 2019-01-17 2022-06-28 日本電信電話株式会社 多地点制御方法、装置及びプログラム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6446037B1 (en) * 1999-08-09 2002-09-03 Dolby Laboratories Licensing Corporation Scalable coding method for high quality audio
BRPI0304542B1 (pt) 2002-04-22 2018-05-08 Koninklijke Philips Nv “Método e codificador para codificar um sinal de áudio de multicanal, sinal de áudio multicanal codificado, e, método e decodificador para decodificar um sinal de áudio de multicanal codificado”
FI118370B (fi) * 2002-11-22 2007-10-15 Nokia Corp Stereolaajennusverkon ulostulon ekvalisointi
KR100923301B1 (ko) * 2003-03-22 2009-10-23 삼성전자주식회사 대역 확장 기법을 이용한 오디오 데이터의 부호화 방법,그 장치, 복호화 방법 및 그 장치
US7809579B2 (en) * 2003-12-19 2010-10-05 Telefonaktiebolaget Lm Ericsson (Publ) Fidelity-optimized variable frame length encoding
US7725324B2 (en) * 2003-12-19 2010-05-25 Telefonaktiebolaget Lm Ericsson (Publ) Constrained filter encoding of polyphonic signals
DE602004010188T2 (de) * 2004-03-12 2008-09-11 Nokia Corp. Synthese eines mono-audiosignals aus einem mehrkanal-audiosignal
JP5046652B2 (ja) 2004-12-27 2012-10-10 パナソニック株式会社 音声符号化装置および音声符号化方法
US8000967B2 (en) * 2005-03-09 2011-08-16 Telefonaktiebolaget Lm Ericsson (Publ) Low-complexity code excited linear prediction encoding
US8112286B2 (en) 2005-10-31 2012-02-07 Panasonic Corporation Stereo encoding device, and stereo signal predicting method

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
GOTO M. ET AL.: "Onsei Tsushinyo Stereo Onsei Fugoka Hoho no Kento", 2004 IEICE ENGINEERING SCIENCES SOCIETY TAIKAI KOEN RONBUNSHU, vol. A-6-6, 8 September 2004 (2004-09-08), pages 119, XP003000725 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8527265B2 (en) 2007-10-22 2013-09-03 Qualcomm Incorporated Low-complexity encoding/decoding of quantized MDCT spectrum in scalable speech and audio codecs

Also Published As

Publication number Publication date
JPWO2006082790A1 (ja) 2008-06-26
US20090041255A1 (en) 2009-02-12
CN101111887A (zh) 2008-01-23
CN101111887B (zh) 2011-06-29
US8036390B2 (en) 2011-10-11
JP4887279B2 (ja) 2012-02-29
EP1852850A4 (en) 2011-02-16
EP1852850A1 (en) 2007-11-07

Similar Documents

Publication Publication Date Title
JP7124170B2 (ja) セカンダリチャンネルを符号化するためにプライマリチャンネルのコーディングパラメータを使用するステレオ音声信号を符号化するための方法およびシステム
JP4887279B2 (ja) スケーラブル符号化装置およびスケーラブル符号化方法
JP5413839B2 (ja) 符号化装置および復号装置
JP5238706B2 (ja) オブジェクトベースオーディオ信号のエンコーディング/デコーディング方法及びその装置
JP4963965B2 (ja) スケーラブル符号化装置、スケーラブル復号装置、及びこれらの方法
JP4555299B2 (ja) スケーラブル符号化装置およびスケーラブル符号化方法
JP2002526798A (ja) 複数チャネル信号の符号化及び復号化
JP2011501823A (ja) アップミックスを使用した音声符号器
JPWO2010013450A1 (ja) 音響符号化装置、音響復号化装置、音響符号化復号化装置および会議システム
WO2006059567A1 (ja) ステレオ符号化装置、ステレオ復号装置、およびこれらの方法
JP2006072026A (ja) 音声符号化装置、音声復号化装置及びこれらの方法
JP5355387B2 (ja) 符号化装置および符号化方法
JP4842147B2 (ja) スケーラブル符号化装置およびスケーラブル符号化方法
JPWO2006120931A1 (ja) 符号化装置、復号化装置及びこれらの方法
JP4948401B2 (ja) スケーラブル符号化装置およびスケーラブル符号化方法
JPWO2008132850A1 (ja) ステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法
JP2006072269A (ja) 音声符号化装置、通信端末装置、基地局装置および音声符号化方法
Hirvonen et al. On the Multichannel Sinusoidal Model for Coding Audio Object Signals

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 11815028

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2006712624

Country of ref document: EP

Ref document number: 2007501561

Country of ref document: JP

Ref document number: 1135/MUMNP/2007

Country of ref document: IN

WWE Wipo information: entry into national phase

Ref document number: 200680003815.9

Country of ref document: CN

NENP Non-entry into the national phase

Ref country code: DE

WWP Wipo information: published in national office

Ref document number: 2006712624

Country of ref document: EP