WO2006059567A1 - ステレオ符号化装置、ステレオ復号装置、およびこれらの方法 - Google Patents

ステレオ符号化装置、ステレオ復号装置、およびこれらの方法 Download PDF

Info

Publication number
WO2006059567A1
WO2006059567A1 PCT/JP2005/021800 JP2005021800W WO2006059567A1 WO 2006059567 A1 WO2006059567 A1 WO 2006059567A1 JP 2005021800 W JP2005021800 W JP 2005021800W WO 2006059567 A1 WO2006059567 A1 WO 2006059567A1
Authority
WO
WIPO (PCT)
Prior art keywords
channel signal
signal
spatial information
encoding
channel
Prior art date
Application number
PCT/JP2005/021800
Other languages
English (en)
French (fr)
Inventor
Michiyo Goto
Koji Yoshida
Original Assignee
Matsushita Electric Industrial Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co., Ltd. filed Critical Matsushita Electric Industrial Co., Ltd.
Priority to RU2007120056/09A priority Critical patent/RU2007120056A/ru
Priority to US11/719,413 priority patent/US7848932B2/en
Priority to JP2006547900A priority patent/JPWO2006059567A1/ja
Priority to BRPI0516658-6A priority patent/BRPI0516658A/pt
Priority to EP05809758A priority patent/EP1814104A4/en
Publication of WO2006059567A1 publication Critical patent/WO2006059567A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 

Definitions

  • the present invention relates to a stereo encoding device, a stereo decoding device, and methods thereof.
  • the present invention relates to a stereo coding apparatus that performs coding on a stereo signal, a stereo decoding apparatus corresponding to the apparatus, and a method thereof.
  • a transmission signal is encoded in advance to reduce the bit rate of transmission information. It is generally performed.
  • Non-Patent Document 1 has an adaptive codebook, a fixed codebook, etc. for each of two channels of audio signals, and each channel has a separate codebook.
  • separate drive sound source signals are generated to generate composite signals. That is, the CELP code of the audio signal is performed for each channel, and the obtained code key information of each channel is output to the decoding side. Therefore, code key information is generated as many as the number of channels, and there is a problem that the amount of encoded information (code key bit rate) increases.
  • an object of the present invention is to provide a stereo coding apparatus, a stereo decoding apparatus, and a stereo coding apparatus that can reduce the amount of coded information (code bit rate) while preventing deterioration in sound quality of a decoded signal. It is to provide these methods.
  • the stereo coding apparatus corrects the similarity between the first channel signal and the second channel signal by correcting one or both of the first channel signal and the second channel signal.
  • a second sign means is also included in the stereo coding apparatus.
  • the present invention it is possible to reduce the amount of encoded information (encoded bit rate) while preventing deterioration of the sound quality of the decoded signal.
  • FIG. 1 is a functional block diagram of a stereo encoding device according to Embodiment 1.
  • FIG. 2 A diagram showing an example of the waveform spectrum of a signal obtained by collecting sounds of the same source power at different positions
  • FIG. 3 is a functional block diagram of the stereo decoding device according to Embodiment 1.
  • FIG. 4 is a block diagram showing the main configuration of the stereo speech coding apparatus according to Embodiment 1.
  • FIG. 5 is a block diagram showing the main configuration inside the speech code key section according to Embodiment 1.
  • FIG. 6 is a block diagram showing the main configuration inside the spatial information processing section according to Embodiment 1.
  • FIG. 7 is a block diagram showing a main configuration of a stereo speech coding apparatus according to Embodiment 2.
  • FIG. 8 is a block diagram showing a major configuration of a speech coding section according to Embodiment 3.
  • FIG. 9 is a block diagram showing the main configuration inside the spatial information assigning section according to the third embodiment.
  • FIG. 1 is a diagram for explaining the concept of the stereo code encoding method according to Embodiment 1 of the present invention, that is, a functional block diagram of the stereo code encoding apparatus according to the present embodiment.
  • the stereo coding apparatus first, the difference in characteristics between the L channel signal and the R channel signal of the stereo signal to be encoded is corrected. By this correction processing, the similarity between both channel signals is improved. Then, in the subsequent sign key processing, both channel signals after correction are encoded using a single sound source common to both channels, and a single sign key parameter (a single sound source In this case, a set of code parameters is obtained. Since both channel signals are very similar to each other, they can be encoded using a sound source common to both channels.
  • the signal waveform exhibits different characteristics depending on the position where the microphone is placed, that is, the sound collection position.
  • the energy of the stereo signal is attenuated according to the distance from the source, and the arrival time is also delayed, and the waveform spectrum varies depending on the sound collection position. In this way, stereo signals are greatly affected by spatial factors such as the sound collection environment.
  • Fig. 2 shows the signals (L channel signals S, R collected from two different positions of the same source power). An example of the waveform spectrum of the channel signal s) is shown.
  • the L channel signal and the R channel signal exhibit different characteristics.
  • This phenomenon with different characteristics is the result of sound being collected by a sound collection device such as a microphone after a new spatial characteristic that differs depending on the sound collection position is added to the waveform of the original signal. Can be caught.
  • This characteristic is called spatial information in this specification. For example, in the example of FIG.
  • the L channel signal S ′ is generated from the same source.
  • the difference in the characteristics of the L channel signal and the R channel signal can be corrected by eliminating the difference in the spatial information of both channels.
  • the waveforms of the two channel signals are brought close to each other.
  • the sound source used in the encoding process can be shared, and a single (or a set) of encoding parameters can be used without generating the encoding parameters for both channel signals.
  • the sign key parameter By generating the sign key parameter, the sign key information with high accuracy can be obtained.
  • the spatial information is information regarding the space between the sound generation source and each sound collecting device. For example, since the amplitude and phase of each channel signal change depending on the position of the sound collector, each channel signal contains information about the space from the sound source power to the sound collector. Can think. With this spatial information, the stereo signal spreads to the human sense of hearing. The same can be considered for each channel. For example, it can be considered that the L channel signal includes information on the space between the sound collecting devices of the L channel and the R channel. Therefore, by manipulating the spatial information contained in each channel signal, each channel signal is made similar to each other, each channel signal is made similar to a sound source signal, or each channel signal is converted to a signal of a certain virtual channel.
  • the sound source can be shared between the L channel signal and the R channel signal. Therefore, as a correction for the L channel signal and the R channel signal, it is possible to improve the similarity between both channels by correcting other characteristics than just the spatial information by correcting the spatial information.
  • Spatial information analysis section 101, similarity improvement section 102, and channel signal encoding section 103 shown in FIG. 1 realize the above processing by performing the following operations.
  • Spatial information analysis unit 101 includes each space of L channel signal (S) and R channel signal (S).
  • the information is analyzed, and the analysis result is output to the similarity improvement unit 102 and the spatial information encoding unit 104.
  • the similarity improvement unit 102 corrects the difference between the spatial information of the L channel signal and the R channel signal according to the analysis result output from the spatial information analysis unit 101, thereby calculating the similarity of the L channel signal and the R channel signal. To improve.
  • the similarity improvement unit 102 checks the L channel signal (S ") and the R channel signal (S”) after improving the similarity.
  • the signal is output to the channel signal code section 103.
  • the channel signal code key 103 uses this sound source common to both channels to
  • R is encoded, and a set of obtained encoding information (channel signal code key parameter) is output.
  • the spatial information encoding unit 104 outputs the analysis result of the spatial information output from the spatial information analysis unit 101. Codes are obtained and the obtained code information (spatial information coding parameters) is output.
  • the above two signals (S ", S") are output from the similarity improvement unit 102.
  • one of the waveforms of S and S is compensated to be close to the other waveform.
  • the output is S ", S. That is, S does not pass through the similarity improvement unit 102, and the channel signal
  • FIG. 3 is a functional block diagram of the stereo decoding apparatus according to the present embodiment corresponding to the above stereo encoding apparatus.
  • Spatial information decoding section 151 decodes the spatial information coding parameter and outputs the obtained spatial information to channel signal restoration section 153.
  • the channel signal decoding unit 152 decodes the channel signal encoding parameter to obtain a specific channel signal.
  • This channel signal is a channel signal in which the spatial information of both channels of the L channel signal and the R channel signal is corrected, and the similarity between both channels common to the L channel and the R channel is increased.
  • the channel signal common to the L channel and the R channel is output to the channel signal restoration unit 153.
  • Channel signal restoration section 153 restores the channel signal output from channel signal decoding section 152 into an L channel signal and an R channel signal using the spatial information output from spatial information decoding section 151, and outputs the L channel signal and the R channel signal.
  • each channel signal of the stereo signal is corrected to improve the similarity of each channel signal, and then Since the channel signal is encoded using a sound source common to each channel, the amount of code information (code key rate) can be reduced. Also, since the encoding side encodes and outputs the difference in spatial information of each channel, the decoding side can accurately reproduce each channel signal using this.
  • the spatial information is completely removed from both channel signals, and the L channel signal and the R channel signal are returned to the sound source signal (the sound signal generated by the sound source)
  • the arithmetic mean [(L + R) Z2] of the L channel signal and the R channel signal is simulated as a monaural signal, and both channel signal forces are converted into pseudo monaural signals by removing predetermined spatial information respectively.
  • one of the L channel signal and the R channel signal is a main channel signal
  • the other is a sub channel signal
  • the sub channel signal power is predetermined.
  • this signal resembles the main channel signal. Since the encoding device acquires both the L channel signal and the R channel signal, by comparing and analyzing both channel signals, the predetermined spatial information, that is, the L channel signal and the R channel signal described above can be obtained. Difference in spatial information can be obtained
  • FIG. 4 is a block diagram showing the main configuration of the stereo speech coding apparatus according to the present embodiment, that is, the stereo speech coding apparatus that embodies the concept of the stereo coding method shown in FIG. It is.
  • the first channel audio signal and the second channel audio signal shown below refer to the L channel audio signal and the R channel audio signal, respectively, or the audio signal of the opposite channel.
  • Stereo speech coding apparatus includes speech coding section 100, MC selection section.
  • the voice code key unit 100 has a configuration corresponding to the entire functional block shown in FIG.
  • MC selection section 105 uses one of the input first channel audio signal and second channel audio signal as a main channel and the other as a sub channel, and uses the main channel signal (MC) and sub channel signal (SC) as audio. Output to sign part 100.
  • Speech code key unit 100 first compares and analyzes the main channel signal and the subchannel signal. Then, the difference between the spatial information of both channels is obtained. Next, speech coding section 100 removes the obtained spatial information difference from the subchannel signal to make it similar to the main channel signal, and then uses the common sound source for both channels to generate the main channel signal and the main channel signal. It performs sub-channel signal coding similar to the channel signal and outputs the resulting coding information (channel signal coding parameters). Speech encoding section 100 also encodes the obtained difference in spatial information, and outputs this code information (spatial information encoding parameter).
  • MC selection information encoding section 106 encodes MC selection information indicating which channel is the main channel in MC selection section 105, and this code selection information (MC selection information code key parameter). ) Is output.
  • the MC selection information coding parameter is transmitted to the decoding apparatus as codeh information together with the channel signal coding parameter and the spatial information code key parameter generated by the speech coding unit 100.
  • FIG. 5 is a block diagram showing a main configuration inside speech code key unit 100 described above.
  • a case where CELP code key is used as a voice signal code key method will be described as an example.
  • Voice coding unit 100 is roughly divided into MC coding unit 110-1 for coding the main channel signal (MC) and SC coding unit 110 for coding the subchannel signal (SC). 2.
  • a spatial information processing unit 123, and an adaptive codebook, a fixed codebook, and the like common to both channels are provided.
  • the spatial information processing unit 123 corresponds to the spatial information analysis unit 101, the similarity improvement unit 102, and the spatial information encoding unit 104 among the functional blocks shown in FIG.
  • the MC code key unit 110-1 and the SC code key unit 110-2 have the same basic internal configuration although the signals to be encoded are different. Therefore, for the same components, numbers 1 and 2 indicating the MC encoding unit 110-1 and SC encoding unit 110-2 are attached to the same code after the hyphen. Only the configuration on the MC code key section 110-1 side will be described, and the description on the SC code key section 110-2 side will be basically omitted.
  • the sound source encoding unit 100 encodes the main channel signal and the subchannel signal including the vocal tract information and the sound source information by obtaining an LPC parameter (linear prediction coefficient) for the vocal tract information, For sound source information, which of the pre-stored voice models The sound source information is encoded by obtaining an index specifying whether to use, that is, an index specifying what excitation vector is generated in the adaptive codebook 117 and the fixed codebook 118.
  • LPC parameter linear prediction coefficient
  • each unit of speech encoding unit 100 performs the following operation.
  • the LPC analysis unit 111-1 performs linear prediction analysis on the main channel signal to obtain an LPC parameter that is spectral envelope information, and an LPC quantization unit 112-1 and an auditory weighting unit 115. — Output to 1.
  • the LPC analysis unit 111-2 of the SC code unit 110-2 performs the above processing on the subchannel signal that has been subjected to the predetermined processing by the spatial information processing unit 123. The processing of the spatial information processing unit 123 will be described later.
  • the LPC quantization unit 112-1 quantizes the LPC parameter obtained by the LPC analysis unit 111-1, outputs the obtained quantized LPC parameter to the LPC synthesis filter 113-1, and indexes the quantized LPC parameter. (LPC quantum key index) is output as a sign key parameter.
  • adaptive codebook 117 includes LPC synthesis filter 113-1 and LPC synthesis filter 113.
  • This sound source vector is output to multiplier 120 as an adaptive codebook vector.
  • Fixed codebook 118 stores a plurality of excitation vectors having a predetermined shape in advance, and uses the excitation vector corresponding to the index specified by distortion minimizing section 116 as a fixed codebook vector. Output to 121.
  • the adaptive codebook 117 is used to express components with strong periodicity like voiced sound, while the fixed codebook 118 is weak with periodicity like white noise. Used to represent a component.
  • Gain codebook 119 is output from adaptive codebook vector gain (adaptive codebook gain) output from adaptive codebook 117 and from fixed codebook 118 in accordance with instructions from distortion minimizing section 116.
  • a fixed codebook vector gain (fixed codebook gain) is generated and output to multipliers 120 and 121, respectively.
  • Multiplier 120 multiplies the adaptive codebook gain output from gain codebook 119 by the adaptive codebook vector output from adaptive codebook 117 and outputs the result to adder 122.
  • Multiplier 121 multiplies the fixed codebook gain output from gain codebook 119 by the fixed codebook vector output from fixed codebook 118 and outputs the result to adder 122.
  • Adder 122 adds the adaptive codebook vector output from multiplier 120 and the fixed codebook vector output from multiplier 121, and performs LPC synthesis using the added excitation vector as the drive excitation Output to filter 113-1 and LPC synthesis filter 113-2.
  • LPC synthesis filter 113-1 uses the quantized LPC meter output from LPC quantization section 112-1 as a filter coefficient, and uses the excitation vector generated by adaptive codebook 117 and fixed codebook 118 as the driving excitation.
  • the synthesized signal is generated using the filter function, that is, the LPC synthesis filter. This synthesized signal is output to adder 1141.
  • Adder 114-1 subtracts the error signal by subtracting the synthesized signal generated by LPC synthesis filter 113-1 from the main channel signal (subchannel signal after removing spatial information in adder 114-2). And the error signal is output to the perceptual weighting unit 115-1. This error signal corresponds to sign distortion.
  • the perceptual weighting unit 115-1 uses a perceptual weighting filter that uses the LPC parameter output from the LPC analysis unit 111-1 as a filter coefficient, and performs coding distortion output from the adder 114-1. Aural weighting is applied and output to distortion minimizing section 116.
  • the distortion minimizing unit 116 considers both the coding distortions output from the perceptual weighting unit 115-1 and perceptual weighting unit 115-2, and minimizes the sum of the coding distortions of both.
  • Each index (codebook index) of adaptive codebook 117, fixed codebook 118, and gain codebook 119 is obtained for each subframe, and these indexes are output as code key information.
  • the coding distortion is represented by the square of the difference between the original signal to be coded and the synthesized signal. Therefore, when the code I ⁇ only output from perceptual weighting section 115- 1 and a 2, a reference numeral I ⁇ only output from perceptual weighting section 115- 2, b 2, distortion minimizing section 116, these codes
  • Each index (codebook index) of adaptive codebook 117, fixed codebook 118, and gain codebook 119 that minimizes the sum of the distortions a 2 + b 2 is obtained.
  • a series of processes for generating a composite signal based on the adaptive codebook 117 and the fixed codebook 118 and obtaining the coding distortion of this signal is a closed loop (feedback loop), and the distortion is minimized.
  • the encoding unit 116 searches each codebook by changing the index instructed to each codebook in one subframe, and minimizes the code distortion of both channels finally obtained.
  • the index of each codebook to be output is output.
  • the driving sound source when the code distortion is minimized is fed back to the adaptive codebook 117 for each subframe.
  • Adaptive codebook 117 updates the stored driving sound source by this feedback.
  • FIG. 6 is a block diagram showing a main configuration inside the spatial information processing unit 123. Both the main channel signal and the subchannel signal are input to the spatial information processing unit 123.
  • Spatial information analysis section 131 compares the main channel signal and the subchannel signal to obtain a difference in spatial information between the two channel signals, and the obtained analysis result is sent to spatial information quantization section 132. Output.
  • Spatial information quantization section 132 quantizes the difference between the spatial information of both channels obtained by spatial information analysis section 131, and obtains the spatial information coding parameters (spatial information quantum Index). Further, the spatial information quantization unit 132 performs inverse quantization on the spatial information quantization index obtained by quantizing the spatial information difference of both channels obtained by the spatial information analysis unit 131 to provide the spatial information removal unit 133. Output.
  • Spatial information removing section 133 is the inverse-quantized spatial information quantization index output from spatial information quantization section 132, that is, the difference between the spatial information of both channels obtained by spatial information analysis section 131.
  • the sub-channel signal is converted into a signal similar to the main channel signal by subtracting the input sub-channel signal power from the signal quantized and de-quantized.
  • the subchannel signal from which the spatial information has been removed is output to the LPC analyzer 111-2.
  • Spatial information analysis section 131 calculates an energy ratio in units of frames between two channels.
  • C energy E in one frame of the main channel signal and the subchannel signal E
  • is a sample number
  • FL is the number of samples (frame length) in one frame.
  • X ( ⁇ ) and X ( ⁇ ) are the main channel signal and subchannel signal ⁇ , respectively.
  • the spatial information analysis unit 131 obtains the square root C of the energy ratio of the main channel signal and the subchannel signal according to the following equation (3).
  • the spatial information analysis unit 131 calculates the delay time difference, which is the amount of time lag of the signal between the two channels with respect to the main channel signal of the subchannel signal, as follows, between the two channel signals. Is determined as the value that gives the highest value. Specifically, the cross-correlation function ⁇ of the main channel signal and subchannel signal is obtained according to the following equation (4).
  • the energy ratio and the delay time difference may be obtained by the following equation (5).
  • equation (5) the main channel signal and the spatial information for the main channel signal are removed. Find the square root C of the energy ratio and the delay time difference m to minimize the error D between the subchannel signal and the subchannel signal.
  • Spatial information quantization section 132 quantizes C and m with a predetermined number of bits, and sets the quantized values to C and M, respectively.
  • Spatial information removing section 133 removes spatial information from the subchannel signal according to the following conversion equation (6).
  • xsc (n) C Q -x sc (n -M Q )... (6)
  • each channel signal is increased by correcting each channel signal of the stereo signal, and then each channel signal is used as a common sound source for each channel. Therefore, the amount of code information (code bit rate) can be reduced.
  • each channel signal is encoded using a common sound source, it is not necessary to install two sets of an adaptive codebook, a fixed codebook, and a gain codebook for each channel 1 A sound source can be generated for each codebook in the set. In other words, the circuit scale can be reduced.
  • distortion minimizing section 116 considers not only the main channel signal but also the sub-channel signal, and performs control so that the code distortion of both channels is minimized. Therefore, the code performance is improved and the sound quality of the decoded signal can be improved.
  • the case where the CELP code is used for the code of the stereo audio signal is described as an example. However, the similarity between the L channel signal and the R channel signal is shown. If the correction can be increased and the state can be effectively simulated as a single channel signal, the amount of code information can be reduced. The encoding method does not have to have information as a codebook.
  • the case where both of the two parameters such as the energy ratio between two channels and the delay time difference are used as the spatial information has been described as an example. However, as the spatial information, one of the two parameters is shifted. It is okay to use only parameters! When only one parameter is used, the effect of improving the similarity between the two channels is reduced compared to when two parameters are used, but conversely, the number of code bits can be further reduced. effective.
  • FIG. 7 is a block diagram showing the main configuration of the stereo speech coding apparatus according to Embodiment 2 of the present invention.
  • This stereo speech coding apparatus has the same basic configuration as the stereo speech coding apparatus shown in Embodiment 1 (see FIG. 4), and the same components are assigned the same reference numerals. The description is omitted.
  • the stereo speech coding apparatus calculates the energy of speech signals of both the first channel and the second channel, and selects the channel with the larger energy as the main channel.
  • the energy is calculated for each frame, and the main channel is selected for each frame. Details will be described below.
  • the energy calculation unit 201 outputs the first channel audio signal and the second channel audio signal. Obtain energy E and E for each frame according to the following formulas (9) and (10), and M
  • MC selecting section 105a determines which one of the first channel audio signal and the second channel audio signal is the main channel signal. Specifically, the energy of two channel frames E and E are compared, and the channel with the larger energy is compared.
  • the smaller channel is the subchannel. That is, in the condition shown by the following equation (11), the first channel is the main channel and the second channel is the subchannel.
  • the second channel is the main channel and the first channel is the sub-channel.
  • the MC selection information code unit 106 selects the main channel and the sub channel for each frame, and therefore, information indicating whether the channel power of V or a deviation is selected as the main channel (MC selection information). Is encoded.
  • the energy for each frame of both channels is calculated, and the channel with the higher energy is selected as the main channel.
  • the code error can be reduced by setting the channel with the larger amount of information as the main channel.
  • the energy of each channel is calculated and used as a reference.
  • the present invention is not limited to this.
  • a value obtained by smoothing the energy is used. You may do it.
  • the smoothed energies E and E are obtained using the following equations (13) and (14).
  • ⁇ and ⁇ are constants that satisfy the following equation (15).
  • the actual code key target of SC code key section 110-2 is a subchannel signal after spatial information is removed by spatial information processing section 123.
  • SC code section 110-2 also generates a composite signal for the subchannel signal power after spatial information removal, and between this composite signal and the original subchannel signal after spatial information removal.
  • Encoding is performed by turning an optimization loop of encoding parameters so that the code distortion is minimized.
  • the subchannel signal after removal of the spatial information is to be encoded, and the subchannel signal after removal of the spatial information is the target of the code processing.
  • the sign is used as a signal.
  • the subchannel signal before the spatial information is removed that is, the subchannel signal that still contains the spatial information is added to the subchannel code.
  • the sign is used as a processing target signal.
  • the basic configuration of the stereo speech coding apparatus according to the present embodiment is the same as in the embodiment. Since this is the same as the stereo speech coding apparatus shown in FIG. 1 (see FIG. 4), the description thereof is omitted, and the configuration is different from the speech coding unit 100 shown in Embodiment 1 (see FIG. 5).
  • the speech encoding unit 300 will be described below.
  • FIG. 8 is a block diagram showing the main configuration of speech code key unit 300 described above.
  • the same components as those of the speech code key unit 100 shown in the first embodiment are denoted by the same reference numerals, and the description thereof is omitted.
  • SC coding section 310 adds spatial information again to spatial information adding section 301 to the subchannel signal from which spatial information has been removed by spatial information processing section 123. That is, the spatial information adding unit 301 receives spatial information about the subchannel signal from the spatial information processing unit 123, adds this to the synthesized signal output from the LPC synthesis filter 113-2, and adds the adder 114. Output to 2.
  • Adder 114-2 calculates the sign distortion by subtracting the subchannel signal power from the combined signal after spatial information output outputted from spatial information adding section 301, and perceptually weights this encoded distortion. Output to the distortion minimizing unit 116 via the unit 115-2.
  • the distortion minimizing unit 116 minimizes the sum of the encoding distortions of the encoding distortions output from the MC encoding unit 110-1 and the SC encoding unit 310.
  • the index of each codebook is obtained for each subframe, and these indexes are output as sign key information.
  • SC code section 310 performs LPC separately from LPC analysis section 111-2 in order to perform auditory weighting on the subchannel signal using the LPC coefficient generated based on the subchannel signal.
  • An analysis unit 302 is provided.
  • the LPC analysis unit 302 performs LPC analysis using the subchannel signal as input, and obtains the LP
  • the C coefficient is output to the auditory weighting unit 115-2.
  • the perceptual weighting section 115-2 performs perceptual weighting on the sign distortion that is output from the adder 114-2 using the LPC coefficient output from the LPC analysis section 302.
  • FIG. 9 is a block diagram showing the main configuration inside the spatial information adding unit 301.
  • Spatial information inverse quantization section 321 inversely quantizes the spatial information quantum index output from spatial information processing section 123, and subspace signals corresponding to the main channel signal The information difference is output to the spatial information decoding unit 322.
  • Spatial information decoding section 322 applies the difference in spatial information output from spatial information inverse quantization section 321 to the synthesized signal output from LPC synthesis filter 113-2, and adds the spatial information A synthesized signal is generated and output to the adder 1142.
  • the spatial information quantization index which is the energy ratio and the quantization value of the delay time difference, respectively.
  • the spatial information inverse quantization unit 321 is the main channel of the subchannel signal.
  • Spatial information decoding section 322 obtains a subchannel signal after provision of spatial information according to the following equation (16).
  • the subchannel signal after the provision of the spatial information is obtained by the following equation (17).
  • the subchannel signal after the provision of the spatial information is obtained by the following equation (18).
  • the subchannel signal before the spatial information is removed is used as the target signal of the code key processing, so that the code key is processed.
  • the sign key performance can be further improved over the first and second embodiments for the following reason.
  • the subchannel signal after spatial information removal is set as an actual encoding target, and this code distortion is minimized.
  • the signal to be finally output as a decoded signal is a subchannel signal, not a subchannel signal after removal of spatial information.
  • the subchannel signal after the removal of the spatial information is used as the target signal for the code processing, there is a possibility that the coding distortion included in the subchannel signal that is the final decoded signal is not sufficiently minimized.
  • the sign-sign distortion of the sub-channel signal input to the distortion minimizing unit 116 may cause an energy difference from the main channel signal.
  • the subchannel signal itself from which spatial information has not been removed is the target of encoding, and the minimum distortion is targeted for the encoding distortion that can be included when obtaining the final decoded signal. Perform processing. Therefore, the sign key performance can be further improved.
  • the LPC coefficient used for the perceptual weighting process is obtained by separately performing LPC analysis on the subchannel signal that is the input signal of SC coding unit 310. That is, perceptual weighting is performed using perceptual weights that reflect the subchannel signal itself that should be the final decoded signal. Therefore, it is possible to obtain a sign key parameter with less distortion.
  • the stereo encoding device and stereo encoding method according to the present invention are not limited to the above embodiments, and can be implemented with various modifications.
  • the stereo coding apparatus is a communication terminal apparatus in a mobile communication system.
  • the stereo encoding device and the stereo encoding method according to the present invention can also be used in a wired communication system.
  • the present invention can also be realized by software.
  • the stereo coding method processing algorithm according to the present invention is described in a programming language, the program is stored in a memory, and is executed by an information processing means. Similar functions can be realized.
  • an adaptive codebook may be referred to as an adaptive excitation codebook
  • a fixed codebook may be referred to as a fixed excitation codebook.
  • fixed codebooks are sometimes called stochastic codebooks or random codebooks.
  • Each functional block used in the description of each of the above embodiments is typically realized as an LSI which is an integrated circuit. These may be individually integrated into a single chip, or may be combined into a single chip to include some or all of them!
  • the method of circuit integration is not limited to LSI, and may be realized by a dedicated circuit or a general-purpose processor. It is also possible to use a field programmable gate array (FPGA) that can be programmed after LSI manufacturing, or a reconfigurable processor that can reconfigure the connection or setting of circuit cells inside the LSI.
  • FPGA field programmable gate array
  • the stereo encoding device, the stereo decoding device, and these methods according to the present invention can be applied to applications such as a communication terminal device and a base station device in a mobile communication system.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

 復号信号の音質の劣化を防ぎつつ、符号化ビットレートを低減することができるステレオ音声符号化装置を開示する。この装置において、空間情報分析部(101)は、Lチャネル信号およびRチャネル信号の各空間情報を分析する。類似度向上部(102)は、空間情報分析部(101)の分析結果に従って、Lチャネル信号およびRチャネル信号の各空間情報の違いを補正し、Lチャネル信号およびRチャネル信号の類似度を向上させる。チャネル信号符号化部(103)は、両チャネル共通の音源を用いて、類似度を向上させた後のLチャネル信号およびRチャネル信号をそれぞれ符号化し、得られる単一の符号化情報を出力する。空間情報符号化部(104)は、空間情報分析部(101)の分析結果を符号化し、得られた符号化情報を出力する。

Description

ステレオ符号化装置、ステレオ復号装置、およびこれらの方法 技術分野
[0001] 本発明は、ステレオ信号に対し符号ィ匕を施すステレオ符号ィ匕装置、これに対応す るステレオ復号装置、およびこれらの方法に関する。
背景技術
[0002] 携帯電話機による通話のように、移動体通信システムにおける音声通信では、現在 、モノラル方式による通信 (モノラル通信)が主流である。しかし、今後、第 4世代の移 動体通信システムのように、伝送レートのさらなる高ビットレートイ匕が進めば、複数チヤ ネルを伝送するだけの帯域を確保できるようになるため、音声通信にぉ 、てもステレ ォ方式による通信 (ステレオ通信)が普及することが期待される。
[0003] 例えば、音楽を HDD (ノヽードディスク)搭載の携帯オーディオプレーヤに記録し、こ のプレーヤにステレオ用のイヤホンやヘッドフォン等を装着してステレオ音楽を楽し むユーザが増えている現状を考えると、将来、携帯電話機と音楽プレーヤとが結合し 、ステレオ用のイヤホンやヘッドフォン等の装備を利用しつつ、ステレオ方式による音 声通信を行うライフスタイルが一般的になることが予想される。また、最近普及しつつ ある TV会議等の環境において、臨場感ある会話を可能とするため、やはりステレオ 通信が行われるよう〖こなることが予想される。
[0004] 一方、移動体通信システム、有線方式の通信システム等にぉ 、ては、システムの負 荷を軽減するため、伝送される音声信号を予め符号化することにより伝送情報の低ビ ットレートイ匕を図ることが一般的に行われている。
[0005] そのため、最近、ステレオ音声信号を符号化する技術が注目を浴びて!/、る。例えば 、 cross-channel predictionを使って、ステレオ音声信号の CELP符号化の重み付け された予測残差信号の符号ィ匕効率を高める符号ィ匕技術がある (非特許文献 1参照) 非特許文献 1 : S. A. Ramprashac 'Stereophonicし LP coding using cross channel p rediction, "ゝ In Proc. of the 2000 IEEE Workshopゝ pp. 136—138、 2000 発明の開示
発明が解決しょうとする課題
[0006] し力しながら、非特許文献 1に開示の技術は、 2つチャネルの音声信号に対し、そ れぞれ別個に適応符号帳、固定符号帳等を有しており、各チャネルごとに別々の駆 動音源信号を発生させ、合成信号を生成している。すなわち、各チャネルごとに音声 信号の CELP符号ィ匕を行い、得られた各チャネルの符号ィ匕情報を復号側に出力し ている。そのため、符号ィ匕情報がチャネル数分だけ生成されることとなり、符号化情 報量 (符号ィ匕ビットレート)が増大すると 、う問題がある。
[0007] よって、本発明の目的は、復号信号の音質の劣化を防ぎつつ、符号化情報量 (符 号ィ匕ビットレート)を削減することができるステレオ符号ィ匕装置、ステレオ復号装置、 およびこれらの方法を提供することである。
課題を解決するための手段
[0008] 本発明のステレオ符号ィ匕装置は、第 1チャネル信号および第 2チャネル信号の双 方または一方を補正することによって前記第 1チャネル信号および前記第 2チャネル 信号間の類似度を高める補正手段と、類似度が高まった前記第 1チャネル信号およ び第 2チャネル信号を単一の音源で符号化する第 1の符号化手段と、前記補正手段 における補正に関する情報を符号ィヒする第 2の符号ィヒ手段と、を具備する構成を採 る。
発明の効果
[0009] 本発明によれば、復号信号の音質の劣化を防ぎつつ、符号化情報量 (符号化ビッ トレート)を削減することができる。
図面の簡単な説明
[0010] [図 1]実施の形態 1に係るステレオ符号ィ匕装置の機能ブロック図
[図 2]同一発生源力 の音を異なる位置で収音した信号の波形スペクトルの一例を示 した図
[図 3]実施の形態 1に係るステレオ復号装置の機能ブロック図
[図 4]実施の形態 1に係るステレオ音声符号ィ匕装置の主要な構成を示すブロック図 [図 5]実施の形態 1に係る音声符号ィ匕部内部の主要な構成を示すブロック図
[図 6]実施の形態 1に係る空間情報処理部内部の主要な構成を示すブロック図
[図 7]実施の形態 2に係るステレオ音声符号ィ匕装置の主要な構成を示すブロック図 [図 8]実施の形態 3に係る音声符号ィ匕部の主要な構成を示すブロック図
[図 9]実施の形態 3に係る空間情報付与部内部の主要な構成を示すブロック図 発明を実施するための最良の形態
[0011] 以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。なお 、ここでは、 2チャネル力もなるステレオ信号を符号ィ匕する場合を例にとって説明する
[0012] (実施の形態 1)
図 1は、本発明の実施の形態 1に係るステレオ符号ィ匕方法のコンセプトを説明する ための図、すなわち本実施の形態に係るステレオ符号ィ匕装置の機能ブロック図であ る。
[0013] 本実施の形態に係るステレオ符号ィ匕装置にぉ 、て、まず、符号化対象であるステ レオ信号の Lチャネル信号および Rチャネル信号の相互間の特性の違いが補正され る。この補正処理により、両チャネル信号間の類似度は向上する。そして、後続の符 号ィ匕処理において、両チャネルに共通な単一の音源を用いて補正後の両チャネル 信号の符号化を行 ヽ、単一の符号ィ匕パラメータ (単一の音源が複数の符号化パラメ ータで表現される場合には、一組の符号ィ匕パラメータ)を得る。両チャネル信号が互 Vヽに良く類似して 、る状態となって 、るため、両チャネル共通の音源を用いて符号ィ匕 を行うことが可能となる。
[0014] 一般的に、同一発生源からの音であっても、マイクロフォンの置かれている位置、す なわち、収音位置によって、信号波形が異なる特性を示すようになる。簡単な例とし ては、発生源からの距離に応じて、ステレオ信号のエネルギーは減衰すると共に、到 達時間に遅延も生じ、収音位置によって異なる波形スペクトルを示すようになる。この ように、ステレオ信号は、収音環境という空間的な因子によって大きな影響を受ける。
[0015] この収音環境の違いによるステレオ信号の特性をより詳細に説明するために、図 2 に、同一発生源力 の音を異なる 2つの位置で収音した信号 (Lチャネル信号 S、R チャネル信号 s )の波形スペクトルの一例を示す。
R
[0016] この図から、 Lチャネル信号および Rチャネル信号がそれぞれ異なる特性を示すこ とが見てとれる。この異なる特性を示す現象は、元の信号の波形に、収音位置によつ て異なる新たな空間的な特性が加えられた後に、マイクロフォン等の収音機器により 音が収音された結果と捉えることができる。この特性を本明細書では空間情報 (Spati al Information)と呼ぶこととする。例えば、図 2の例では、 Lチャネル信号 Sを時間 A t
L
だけ遅延すると Lチャネル信号 S 'となる。次に、 Lチャネル信号 S 'の振幅を一定の
し し
割合で減じて振幅差 Δ Aを消滅させれば、 Lチャネル信号 S 'は同一発生源からの
信号であるため、理想的には Rチャネル信号 Sと一致することが期待できる。すなわ
R
ち、 Lチャネル信号および Rチャネル信号の特性の違いは、両チャネルの空間情報 の差をなくすことにより、補正することができると考えられる。
[0017] そこで、本実施の形態では、上記の Lチャネル信号および Rチャネル信号の各空間 情報の双方または一方に適当な補正を加えることにより、 2つのチャネル信号の波形 を近付け、これらの信号の類似度を向上させる。これにより、符号化処理で使用され る音源を共有することができ、また、符号化パラメータとしても両チャネル信号に対し それぞれの符号化パラメータを生成しなくとも、単一の(または一組の)符号ィ匕パラメ ータを生成することによって精度の良い符号ィ匕情報を得ることができる。
[0018] 空間情報についてより詳細に説明するならば、空間情報は、音の発生源と各集音 機器との間の空間に関する情報である。例えば、集音機器の位置によって各チヤネ ル信号の振幅が変化したり位相が変化したりすることから、各チャネル信号は、音源 力も各集音機器に至るまでの空間に関する情報を含んでいると考えることができる。 そして、この空間情報により、ステレオ信号は人間の聴感に広がり感を与えるようにな る。また、各チャネル間についても同様に考えることができ、例えば、 Lチャネル信号 には、 Lチャネルと Rチャネルの各集音機器間の空間に関する情報が含まれていると 考えることもできる。よって、各チャネル信号に含まれる空間情報を操作することによ り、各チャネル信号を互いに類似させたり、各チャネル信号を音源信号に類似させた り、または各チャネル信号をある仮想チャネルの信号に類似させることもできる。この 点に本発明者は注目し、本発明をするに至った。 [0019] なお、両チャネルの類似度が向上して ヽれば、 Lチャネル信号と Rチャネル信号と で音源を共有することができる。よって、 Lチャネル信号および Rチャネル信号に対す る補正としては、空間情報を補正するだけでなぐ空間情報以外の他の特性を補正 することによって両チャネルの類似度を向上させることもできる。
[0020] 図 1に示した空間情報分析部 101、類似度向上部 102、およびチャネル信号符号 化部 103は、以下の動作を行うことによって、上記の処理を実現する。
[0021] 空間情報分析部 101は、 Lチャネル信号 (S )および Rチャネル信号 (S )の各空間
L R
情報を分析し、分析結果を類似度向上部 102および空間情報符号化部 104に出力 する。類似度向上部 102は、空間情報分析部 101から出力された分析結果に従って 、 Lチャネル信号および Rチャネル信号の各空間情報の違 、を補正することによって 、 Lチャネル信号および Rチャネル信号の類似度を向上させる。類似度向上部 102 は、類似度を向上させた後の Lチャネル信号 (S ")および Rチャネル信号 (S ")をチ
L R
ャネル信号符号ィ匕部 103に出力する。チャネル信号符号ィ匕部 103は、両チャネル共 通の音源を用いて、この S
L "および S
R "をそれぞれ符号化し、得られる一組の符号化 情報 (チャネル信号符号ィ匕パラメータ)を出力する。空間情報符号化部 104は、空間 情報分析部 101から出力された空間情報の分析結果を符号ィ匕し、得られた符号ィ匕 情報 (空間情報符号化パラメータ)を出力する。
[0022] なお、上記の説明では、 Sおよび Sの双方の波形を補正し、これにより類似度を向
L R
上させた 2つの信号 (S "、 S ")を類似度向上部 102から出力する場合を例にとって
L R
説明したが、 Sおよび Sのいずれか一方の波形を、他方の波形に近付けるように補
L R
正しても良い。かかる場合、例えば Sに補正を加えたとすると、類似度向上部 102の
出力は、 S "、 Sとなる。すなわち、 Sが類似度向上部 102を経由せずにチャネル信
L R R
号符号ィ匕部 103に直接入力される構成と実質的に同一となる。
[0023] また、上記の空間情報の具体例としては、以下のものがある。
[0024] 例えば、 2チャネル間のエネルギー比および遅延時間差と!/、う 2つのパラメータを空 間情報として使用することができる。これらは定量ィ匕のし易いパラメータである。また、 バリエーションとして周波数帯域ごとの伝播特性、例えば、位相差、振幅比等を使用 することちでさる。 [0025] 図 3は、上記のステレオ符号ィ匕装置に対応する本実施の形態に係るステレオ復号 装置の機能ブロック図である。
[0026] 空間情報復号部 151は、空間情報符号化パラメータを復号し、得られた空間情報 をチャネル信号復元部 153に出力する。チャネル信号復号部 152は、チャネル信号 符号化パラメータを復号し、特定のチャネル信号を得る。このチャネル信号は、 Lチヤ ネル信号および Rチャネル信号の両チャネルの空間情報を補正し、 Lチャネルおよ び Rチャネルに共通の両チャネル間の類似度を高めたチャネル信号となって 、る。こ の Lチャネルおよび Rチャネル共通のチャネル信号は、チャネル信号復元部 153に 出力される。チャネル信号復元部 153は、チャネル信号復号部 152から出力された チャネル信号を、空間情報復号部 151から出力される空間情報を用いて Lチャネル 信号および Rチャネル信号にそれぞれ復元し、出力する。
[0027] このように、本実施の形態に係るステレオ符号ィ匕方法およびステレオ復号方法によ れば、ステレオ信号の各チャネル信号を補正することによって各チャネル信号の類似 度を高めてから、各チャネル信号を各チャネル共通の音源を用いて符号ィ匕するので 、符号ィ匕情報量 (符号ィ匕ビットレート)を削減することができる。また、符号化側は、各 チャネルの空間情報の差も符号ィ匕して出力するため、復号側では、これを用いて各 チャネル信号を精度良く再生することができる。
[0028] なお、上記の説明にお!/、ては、各チャネル信号の類似度を高めた後、各チャネル 共通の音源を用いて各チャネルに対し符号ィ匕を施す場合を例にとって説明したが、 両チャネルの類似度は高まって 、るので、一方のチャネルのみを選択して符号ィ匕対 象とし、この選択チャネルのみの符号ィ匕情報を出力しても良い。かかる場合でも、復 号側では、選択チャネルの符号ィ匕情報を復号して、この選択チャネルの信号を再生 することができると共に、符号ィ匕側で選択されな力 た非選択チャネルにつ 、ても、 符号ィ匕側から出力された空間情報を用いて選択チャネル力 この非選択チャネルを 大きく品質を低下させることなく再生することができる。
[0029] また、類似度向上部 102における両チャネル信号の空間情報の補正の仕方には 種々の方法がある。例えば、両チャネル信号から完全に空間情報を除去し、 Lチヤネ ル信号および Rチャネル信号を音源信号 (音源で生成された音声信号)に戻したり、 Lチャネル信号および Rチャネル信号の算術平均 [ (L +R) Z2]をモノラル信号と擬 制し、両チャネル信号力もそれぞれ所定の空間情報を除去して、擬制モノラル信号 に変換する方法がある。しかし、理論的には、 Lチャネル信号および Rチャネル信号 を上記の音源信号や擬制モノラル信号に変換することは可能であっても、実際に音 が取得されるのは実際に 2つのマイクロフォン (Lチャネルおよび Rチャネル)が設置さ れて 、る場所のみであって、符号ィ匕装置が取得できるのは Lチャネル信号および R チャネル信号のみである。
[0030] そこで、本実施の形態のより詳細な実施例にぉ 、ては、 Lチャネル信号または Rチ ャネル信号の一方をメインチャネル信号とし、他方をサブチャネル信号とし、サブチヤ ネル信号力 所定の空間情報を除去することにより、この信号をメインチャネル信号 に類似させる。符号化装置は、 Lチャネル信号および Rチャネル信号の双方を取得し ているので、両チャネル信号を比較分析することにより、上記の所定の空間情報、す なわち、 Lチャネル信号および Rチャネル信号の空間情報の差を求めることができる
[0031] 次いで、図 4および図 5を用いて、本実施の形態に係るステレオ符号ィ匕方法につい て更に詳細に説明する。
[0032] 図 4は、本実施の形態に係るステレオ音声符号化装置、すなわち、図 1に示したス テレオ符号化方法のコンセプトを具現化したステレオ音声符号化装置の主要な構成 を示すブロック図である。ここで、以下に示す第 1チャネル音声信号および第 2チヤネ ル音声信号とは、それぞれ Lチャネル音声信号および Rチャネル音声信号、またはそ の逆のチャネルの音声信号のことを示す。
[0033] 本実施の形態に係るステレオ音声符号化装置は、音声符号化部 100、 MC選択部
105、および MC選択情報符号ィ匕部 106を備える。音声符号ィ匕部 100が、図 1に示 した機能ブロック全体に対応した構成である。
[0034] MC選択部 105は、入力される第 1チャネル音声信号および第 2チャネル音声信号 の一方をメインチャネル、他方をサブチャネルとし、メインチャネル信号(MC)および サブチャネル信号 (SC)を音声符号ィ匕部 100に出力する。
[0035] 音声符号ィ匕部 100は、まず、メインチャネル信号とサブチャネル信号とを比較分析 し、両チャネルの空間情報の差を求める。次に、音声符号化部 100は、サブチャネル 信号から、この求まった空間情報の差を除去してメインチャネル信号に類似させた後 、両チャネルに共通の音源を用いて、メインチャネル信号およびメインチャネル信号 に類似させたサブチャネル信号の符号ィ匕を行 ヽ、得られる符号化情報 (チャネル信 号符号化パラメータ)を出力する。また、音声符号化部 100は、求まった空間情報の 差に対しても符号化を行い、この符号ィ匕情報 (空間情報符号化パラメータ)も出力す る。
[0036] MC選択情報符号化部 106は、 MC選択部 105でいずれのチャネルをメインチヤネ ルとしたのかを示す MC選択情報を符号ィヒし、この符号ィヒ情報 (MC選択情報符号 ィ匕パラメータ)を出力する。この MC選択情報符号化パラメータは、音声符号化部 10 0で生成されたチャネル信号符号化パラメータおよび空間情報符号ィ匕パラメータと共 に、符号ィヒ情報として復号装置に伝送される。
[0037] 図 5は、上記の音声符号ィ匕部 100内部の主要な構成を示すブロック図である。ここ では、音声信号の符号ィ匕方法として CELP符号ィ匕を用いる場合を例にとって説明す る。
[0038] この音声符号ィ匕部 100は、大きく分けて、メインチャネル信号 (MC)を符号化する MC符号化部 110—1、サブチャネル信号 (SC)を符号化する SC符号化部 110— 2 、空間情報処理部 123、および両チャネルに共通の適応符号帳、固定符号帳等を 備えている。また、空間情報処理部 123が、図 1に示した機能ブロックのうちの空間情 報分析部 101、類似度向上部 102、および空間情報符号化部 104に対応している。
[0039] なお、 MC符号ィ匕部 110— 1と SC符号ィ匕部 110— 2とは、符号化対象の信号は異 なるものの内部の基本的構成は同様である。よって、同一の構成要素に対しては、同 一の符号に MC符号化部 110—1、 SC符号化部 110— 2の別を示す番号 1、 2をハ ィフンの後に付して示す。そして、 MC符号ィ匕部 110— 1側の構成の説明のみを行い 、 SC符号ィ匕部 110— 2側にっ 、ては基本的にその説明を省略する。
[0040] 音源符号化部 100は、声道情報と音源情報とからなるメインチャネル信号、サブチ ャネル信号を、声道情報については、 LPCパラメータ (線形予測係数)を求めること により符号ィ匕し、音源情報については、予め記憶されている音声モデルのいずれを 用いるかを特定するインデックス、すなわち、適応符号帳 117および固定符号帳 118 でどのような音源ベクトルを生成するかを特定するインデックスを求めることにより、音 源情報を符号ィ匕する。
[0041] 具体的には、音声符号化部 100の各部は以下の動作を行う。
[0042] LPC分析部 111—1は、メインチャネル信号に対して線形予測分析を施し、スぺタト ル包絡情報である LPCパラメータを求め、 LPC量子化部 112— 1および聴覚重み付 け部 115— 1へ出力する。なお、 SC符号ィ匕部 110— 2の LPC分析部 111—2は、空 間情報処理部 123によって所定の処理を施されたサブチャネル信号に対し、上記の 処理を行う。空間情報処理部 123の処理については後述する。
[0043] LPC量子化部 112—1は、 LPC分析部 111— 1で得られる LPCパラメータを量子 化し、得られる量子化 LPCパラメータを LPC合成フィルタ 113— 1へ出力し、量子化 LPCパラメータのインデックス (LPC量子ィ匕インデックス)を符号ィ匕パラメータとして出 力する。
[0044] 一方、適応符号帳 117は、 LPC合成フィルタ 113— 1および LPC合成フィルタ 113
2の双方で共通に使用された過去の駆動音源を記憶しており、歪み最小化部 116 力 指示されたインデックスに対応する適応符号帳ラグに従って、記憶して 、る駆動 音源から 1サブフレーム分の音源ベクトルを生成する。この音源ベクトルは、適応符 号帳ベクトルとして乗算器 120へ出力される。
[0045] 固定符号帳 118は、所定形状の音源ベクトルを複数個予め記憶しており、歪み最 小化部 116から指示されたインデックスに対応する音源ベクトルを、固定符号帳べク トルとして乗算器 121へ出力する。
[0046] なお、上記の適応符号帳 117は、有声音のように周期性の強 、成分を表現するた めに使われ、一方、固定符号帳 118は、白色雑音のように周期性の弱い成分を表現 するために使われる。
[0047] ゲイン符号帳 119は、歪み最小化部 116からの指示に従って、適応符号帳 117か ら出力される適応符号帳ベクトル用のゲイン (適応符号帳ゲイン)、および固定符号 帳 118から出力される固定符号帳ベクトル用のゲイン(固定符号帳ゲイン)を生成し、 それぞれ乗算器 120、 121へ出力する。 [0048] 乗算器 120は、ゲイン符号帳 119から出力される適応符号帳ゲインを、適応符号帳 117から出力される適応符号帳ベクトルに乗じ、加算器 122へ出力する。
[0049] 乗算器 121は、ゲイン符号帳 119から出力される固定符号帳ゲインを、固定符号帳 118から出力される固定符号帳ベクトルに乗じ、加算器 122へ出力する。
[0050] 加算器 122は、乗算器 120から出力される適応符号帳ベクトルと、乗算器 121から 出力される固定符号帳べ外ルとを加算し、加算後の音源ベクトルを駆動音源として LPC合成フィルタ 113— 1および LPC合成フィルタ 113— 2に出力する。
[0051] LPC合成フィルタ 113— 1は、 LPC量子化部 112— 1から出力される量子化 LPC ノ メータをフィルタ係数とし、適応符号帳 117および固定符号帳 118で生成される 音源ベクトルを駆動音源としたフィルタ関数、すなわち、 LPC合成フィルタを用いて 合成信号を生成する。この合成信号は、加算器 114 1へ出力される。
[0052] 加算器 114— 1は、 LPC合成フィルタ 113—1で生成される合成信号をメインチヤ ネル信号 (加算器 114— 2では、空間情報除去後のサブチャネル信号)から減ずるこ とによって誤差信号を算出し、この誤差信号を聴覚重み付け部 115— 1へ出力する。 なお、この誤差信号が符号ィ匕歪みに相当する。
[0053] 聴覚重み付け部 115—1は、 LPC分析部 111—1から出力される LPCパラメータを フィルタ係数とする聴覚重み付けフィルタを用いて、加算器 114— 1から出力される 符号化歪みに対して聴覚的な重み付けを施し、歪み最小化部 116へ出力する。
[0054] 歪み最小化部 116は、聴覚重み付け部 115— 1および聴覚重み付け部 115— 2か ら出力される符号化歪みの双方を考慮し、双方の符号化歪みの和が最小となるよう な、適応符号帳 117、固定符号帳 118、およびゲイン符号帳 119の各インデックス( 符号帳インデックス)をサブフレームごとに求め、これらのインデックスを符号ィ匕情報と して出力する。
[0055] 具体的には、符号化歪みは、符号化対象となる元の信号と合成信号との差の 2乗 によって表される。そのため、聴覚重み付け部 115— 1から出力される符号ィ匕歪みを a2とし、聴覚重み付け部 115— 2から出力される符号ィ匕歪みを b2とすると、歪み最小 化部 116は、これら符号ィ匕歪みの和 a2+b2を最小とする、適応符号帳 117、固定符 号帳 118、およびゲイン符号帳 119の各インデックス (符号帳インデックス)を求める。 [0056] なお、上記の適応符号帳 117および固定符号帳 118に基づいて合成信号を生成 し、この信号の符号化歪みを求める一連の処理は、閉ループ(帰還ループ)となって おり、歪み最小化部 116は、各符号帳に指示するインデックスを 1サブフレーム内に おいて様々に変化させることによって各符号帳を探索し、最終的に得られる、両チヤ ネルの符号ィ匕歪みを最小とする各符号帳のインデックスを出力する。
[0057] また、符号ィ匕歪みが最小となる際の駆動音源は、サブフレームごとに適応符号帳 1 17へフィードバックされる。適応符号帳 117は、このフィードバックにより、記憶されて いる駆動音源を更新する。
[0058] 図 6は、空間情報処理部 123内部の主要な構成を示すブロック図である。この空間 情報処理部 123には、メインチャネル信号およびサブチャネル信号の双方が入力さ れる。
[0059] 空間情報分析部 131は、メインチャネル信号とサブチャネル信号とを比較分析する ことによって、両チャネル信号の空間情報の差を求め、得られた分析結果を空間情 報量子化部 132に出力する。
[0060] 空間情報量子化部 132は、空間情報分析部 131で得られた両チャネルの空間情 報の差に対し量子化を行 、、得られる空間情報の符号化パラメータ (空間情報量子 ィ匕インデックス)を出力する。また、空間情報量子化部 132は、空間情報分析部 131 で得られた両チャネルの空間情報の差を量子化した空間情報量子化インデックスに 対して逆量子化を施して空間情報除去部 133に出力する。
[0061] 空間情報除去部 133は、空間情報量子化部 132から出力された逆量子化された 空間情報量子化インデックス、すなわち、空間情報分析部 131で得られた両チヤネ ルの空間情報の差を量子化して逆量子化した信号を、入力されたサブチャネル信号 力も減じることにより、サブチャネル信号をメインチャネル信号に類似した信号に変換 する。この空間情報が除去されたサブチャネル信号は、 LPC分析部 111—2に出力 される。
[0062] 次に、空間情報処理部 123の各部の処理を、数式を用いて詳細に説明する。まず 、空間情報として、 2チャネル間のエネルギー比および遅延時間差を使用する場合 を例にとって説明する。 [0063] 空間情報分析部 131は、 2チャネル間のフレーム単位のエネルギー比を算出する c まず、メインチャネル信号およびサブチャネル信号の 1フレーム内のエネルギー E
MC
および E 1S 次の式(1)および式(2)に従って求められる。
[数 1]
… ( 1 )
Figure imgf000014_0001
[数 2]
¾c = ∑ ½c (»)2 - ( 2 )
ここで、 ηはサンプル番号、 FLは 1フレームのサンプル数(フレーム長)である。また 、 X (η)および X (η)は、各々メインチャネル信号およびサブチャネル信号の第 η
MC SC
サンプルの振幅を示す。
[0064] そして、空間情報分析部 131は、メインチャネル信号およびサブチャネル信号のェ ネルギー比の平方根 Cを次の式(3)に従って求める。
[数 3]
C = … ( 3 )
[0065] また、空間情報分析部 131は、サブチャネル信号のメインチャネル信号に対する 2 チャネル間の信号の時間的ずれの量である遅延時間差を、以下のように、 2チャネル の信号間で相互相関が最も高くなるような値として求める。具体的には、メインチヤネ ル信号およびサブチャネル信号の相互相関関数 Φが次の式 (4)に従って求められ る。
[数 4]
Figure imgf000014_0002
xMC (n) - xsc (n -m) ■■■ 、4 ) ここで、 mはあらかじめ定めた min—mから max— mまでの範囲の値をとるものとし、 Φ (m)が最大となるときの m=Mをサブチャネル信号のメインチャネル信号に対する 遅延時間差とする。
[0066] なお、上記のエネルギー比および遅延時間差を以下の式(5)によって求めても良 い。式(5)では、メインチャネル信号と、メインチャネル信号に対する空間情報を除去 したサブチャネル信号と、の誤差 Dを最小にするようなエネルギー比の平方根 Cおよ び遅延時間差 mを求める。
[数 5]
^ = 2 Κκ («) - C - xsc (« - m)f ■■■ ( 5 )
[0067] 空間情報量子化部 132は、上記 Cおよび mを予め定めたビット数で量子化し、量子 化値をそれぞれ、 Cおよび M とする。
Q Q
[0068] 空間情報除去部 133は、サブチャネル信号から以下の式 (6)の変換式に従って空 間情報を除去する。
[数 6]
xsc {n) = CQ - xsc (n -MQ) … (6 )
(ただし、 " = 0,' - -,FL - l )
[0069] 以上説明したように、本実施の形態によれば、ステレオ信号の各チャネル信号を補 正することによって各チャネル信号の類似度を高めてから、各チャネル信号を各チヤ ネル共通の音源を用いて符号ィ匕するので、符号ィ匕情報量 (符号ィ匕ビットレート)を削 減することができる。
[0070] また、各チャネル信号を共通の音源を用いて符号ィ匕するので、各チャネル用に、適 応符号帳、固定符号帳、およびゲイン符号帳のセットを 2セット設置する必要がなぐ 1セットの各符号帳で音源を生成することができる。すなわち、回路規模を削減するこ とがでさる。
[0071] また、以上の構成において、歪み最小化部 116は、メインチャネル信号だけでなく サブチャネル信号も考慮し、双方のチャネルの符号ィ匕歪みが最小となるような制御を 行う。よって、符号ィ匕性能が高まり、復号信号の音質を向上させることができる。
[0072] なお、本実施の形態の図 5では、ステレオ音声信号の符号ィ匕に CELP符号ィ匕が用 V、られる場合を例にとって説明したが、 Lチャネル信号および Rチャネル信号の類似 度を高める補正を行い、事実上、単一のチャネル信号と擬制される状態にすることが できれば、符号ィ匕情報量を削減することができるので、必ずしも CELP符号ィ匕のよう に予め定められた音源情報を符号帳として有する符号化方法でなくても良い。 [0073] また、本実施の形態においては、 2チャネル間のエネルギー比および遅延時間差と いう 2つのパラメータの双方を空間情報とする場合を例にとって説明したが、空間情 報として 、ずれか一方のパラメータだけを使用するようにしても良!、。 1つのパラメ一 タのみを使用する場合は、 2つのパラメータを用いる場合と比較して 2つのチャネルの 類似性を向上させる効果が減少するが、逆に符号ィ匕ビット数をさらに削減できるとい う効果がある。
[0074] 例えば、空間情報として 2チャネル間のエネルギー比のみを用いる場合、サブチヤ ネル信号の変換は、上記式(3)で求まるエネルギー比の平方根 Cを量子化した値 C
Q
を用いて、以下の式(7)に従って行う。
[数 7]
½: (") = ce . ½: (") "· ( 7 )
(ただし、 " = 0,· '·,/ϊ—1 )
[0075] 例えば、空間情報として 2チャネル間の遅延時間差のみを用いる場合、サブチヤネ ル信号の変換は、上記式 (4)で求まる Φ (m)を最大とする m=Mを量子化した値 Μ
Q
を用いて、以下の式 (8)に従って行う。
[数 8] xsc (n) ^ xsc(n -Me) … 8 )
(ただし、 《 = 0,··.,7¾ -1 )
[0076] (実施の形態 2)
図 7は、本発明の実施の形態 2に係るステレオ音声符号化装置の主要な構成を示 すブロック図である。このステレオ音声符号化装置は、実施の形態 1に示したステレ ォ音声符号ィ匕装置(図 4参照)と同様の基本的構成を有しており、同一の構成要素に は同一の符号を付し、その説明を省略する。
[0077] 本実施の形態に係るステレオ音声符号化装置は、第 1チャネルおよび第 2チャネル の双方の音声信号のエネルギーを算出し、エネルギーの大き 、方のチャネルをメイ ンチャネルとして選択する。ここで、エネルギーは各フレームごとに算出され、メインチ ャネルの選択も各フレームごとに行われる。以下、詳細に説明する。
[0078] エネルギー算出部 201は、第 1チャネル音声信号および第 2チャネル音声信号の フレームごとのエネルギー Eおよび Eを以下の式(9)および(10)に従って求め、 M
1 2
C選択部 105aに出力する。
[数 9]
£, =∑ , («)2 … (9 )
[数 10] =ヌ¾(")2 … ( 1 0 )
[0079] MC選択部 105aは、第 1チャネル音声信号および第 2チャネル音声信号のうち、い ずれの信号をメインチャネル信号とするかを決定する。具体的には、 2チャネルのフ レーム単位のエネルギー Eと Eとを比較し、エネルギーの大きい方のチャネルをメイ
1 2
ンチャネルとし、小さい方のチャネルをサブチャネルとする。すなわち、以下の式(11 )が示す条件の場合は、第 1チャネルをメインチャネル、第 2チャネルをサブチャネル とする。
[数 11]
Ex≥E2 · · · ( 1 1 )
また、以下の式(12)が示す条件の場合は、第 2チャネルをメインチャネル、第 1チヤ ネルをサブチャネルとする。
[数 12]
E, < E2 ·■■ ( 1 2 )
[0080] MC選択情報符号ィ匕部 106は、フレーム毎にメインチャネルおよびサブチャネルの 選択が行われて 、るため、 V、ずれのチャネル力メインチャネルに選択されたかの情 報 (MC選択情報)を符号化する。
[0081] このように、本実施の形態によれば、両チャネルのフレーム毎のエネルギーを算出 し、エネルギーの大きい方のチャネルをメインチャネルに選択する。ここで、一般的に 、エネルギーの大きい信号の方がより多くの情報量を含んでいると推測される。よって 、本実施の形態では、より情報量の多い方のチャネルをメインチャネルとすることによ り、符号ィ匕誤差を小さくすることができる。
[0082] なお、本実施の形態では、各チャネルのエネルギーを算出し、これを基準としてメイ ンチャネルを選択する場合を例にとって説明したが、直接的に各チャネルの情報量 を認識し、情報量の多 、方のチャネルをメインチャネルと選択するようにしても良 、。
[0083] また、本実施の形態では、単にフレーム単位のエネルギーをメインチャネルの選択 基準とする場合を例にとって説明したが、これに限定されず、例えば、エネルギーを 平滑ィ匕した値を使用するようにしても良い。これにより、エネルギーの変動に伴ってメ インチャネルおよびサブチャネルが過度に切り換えられることを抑えることができる。こ こで、エネルギーを平滑ィ匕するためには、例えば、次の式(13)および(14)を用いて 、平滑化されたエネルギー E および E を求める。
IS 2S
[数 13]
"' ( 1 3 )
[数 14]
E1S = lsE2S + (l - a2S )E2 … ( 1 4 )
ここで、 α および α は、次の式(15)を満足する定数である。
IS 2S
[数 15]
0 < als , 2S < 1 … ( 1 o )
[0084] (実施の形態 3)
本発明の実施の形態 1、 2では、 SC符号ィ匕部 110— 2の実際の符号ィ匕対象は、空 間情報処理部 123によって空間情報が除去された後のサブチャネル信号である。具 体的には、 SC符号ィ匕部 110— 2は、空間情報除去後のサブチャネル信号力も合成 信号を生成し、この合成信号と、元の空間情報除去後のサブチャネル信号との間の 符号ィ匕歪みが最小となるように符号化パラメータの最適化ループを回し、符号化を行 つている。換言すると、実施の形態 1、 2は、サブチャネルの符号ィ匕において、空間情 報除去後のサブチャネル信号を符号化対象とし、この空間情報除去後のサブチヤネ ル信号を符号ィ匕処理のターゲット信号として符号ィ匕を行っている。
[0085] 本発明の実施の形態 3では、サブチャネルの符号ィ匕にぉ 、て、空間情報が除去さ れる前のサブチャネル信号、すなわち空間情報を含んだままのサブチャネル信号を 符号ィ匕処理のターゲット信号として符号ィ匕を行う。
[0086] なお、本実施の形態に係るステレオ音声符号化装置の基本的構成は、実施の形態 1に示したステレオ音声符号ィ匕装置(図 4参照)と同様であるので、その説明は省略し 、実施の形態 1に示した音声符号ィ匕部 100 (図 5参照)と異なる構成である音声符号 化部 300について以下説明する。
[0087] 図 8は、上記の音声符号ィ匕部 300の主要な構成を示すブロック図である。実施の形 態 1に示した音声符号ィ匕部 100と同一の構成要素には同一の符号を付し、その説明 を省略する。
[0088] SC符号化部 310は、空間情報処理部 123によって空間情報が除去されたサブチ ャネル信号に対し、空間情報付与部 301によって再度空間情報を付加する。すなわ ち、空間情報付与部 301は、空間情報処理部 123からサブチャネル信号についての 空間情報が与えられ、これを LPC合成フィルタ 113— 2から出力される合成信号に付 加し、加算器 114 2に出力する。
[0089] 加算器 114— 2は、空間情報付与部 301から出力される空間情報付与後の合成信 号をサブチャネル信号力 減ずることによって符号ィ匕歪みを算出し、この符号化歪み を聴覚重み付け部 115— 2を介して歪み最小化部 116へ出力する。
[0090] 歪み最小化部 116は、 MC符号化部 110— 1および SC符号化部 310から出力され る符号化歪みに対し、前述の通り、双方の符号化歪みの和が最小となるような各符 号帳のインデックスをサブフレームごとに求め、これらのインデックスを符号ィ匕情報と して出力する。
[0091] また、 SC符号ィ匕部 310は、サブチャネル信号に対する聴覚重み付けを、サブチヤ ネル信号に基づ 、て生成される LPC係数によって行うために、 LPC分析部 111 - 2 とは別個に LPC分析部 302を備える。
[0092] LPC分析部 302は、サブチャネル信号を入力として LPC分析を行 ヽ、得られる LP
C係数を聴覚重み付け部 115— 2に出力する。
[0093] 聴覚重み付け部 115— 2は、 LPC分析部 302から出力される LPC係数を用いて、 加算器 114— 2から出力される符号ィ匕歪みに対して聴覚重み付けを行う。
[0094] 図 9は、上記空間情報付与部 301内部の主要な構成を示すブロック図である。
[0095] 空間情報逆量子化部 321は、空間情報処理部 123から出力された空間情報量子 ィ匕インデックスを逆量子化し、サブチャネル信号のメインチャネル信号に対する空間 情報の差を空間情報復号部 322に出力する。
[0096] 空間情報復号部 322は、 LPC合成フィルタ 113— 2から出力される合成信号に対 し、空間情報逆量子化部 321から出力される空間情報の差を適用し、空間情報付与 後の合成信号を生成し、加算器 114 2に出力する。
[0097] 次に、空間情報付与部 301における空間情報を付与したサブチャネル信号を生成 するための処理を、数式を用いて説明する。
[0098] まず、空間情報として、メインチャネル信号とサブチャネル信号との間のエネルギー 比および遅延時間差を使用する場合について説明する。実施の形態 1と同様に、空 間情報量子化インデックスであるエネルギー比と遅延時間差の量子化値をそれぞれ
C 、Mとすると、空間情報逆量子化部 321は、サブチャネル信号のメインチャネル
Q Q
信号に対する空間情報の差、すなわちエネルギー比 C'および遅延時間差 M'を求 める。そして、空間情報復号部 322は、以下の式(16)によって空間情報付与後のサ ブチャネル信号を求める。
[数 16] xsc (") =— (" + ') ··· ( 1 6 )
(ただし、 7ί = 0, ···, ¾ - 1)
[0099] また、空間情報として、 2チャネル間のエネルギー比のみを用いる場合は、空間情 報付与後のサブチャネル信号は、以下の式(17)によって求まる。
[数 17]
" 1
xsc {n) =— -xsc(n) ■■■ { 1 ( )
(ただし、 " = o,"',F∑~n
[0100] さらに、空間情報として、 2チャネル間の遅延時間差のみを用いる場合、空間情報 付与後のサブチャネル信号は、以下の式(18)によって求まる。
[数 18]
( 1 8 )
(ただし、 n = 0,-';FL - Ό [0101] このように、本実施の形態によれば、サブチャネルの符号ィ匕において、空間情報が 除去される前のサブチャネル信号を符号ィ匕処理のターゲット信号として符号ィ匕を行う ので、以下の理由により実施の形態 1、 2よりもさらに符号ィ匕性能を向上させることが できる。
[0102] すなわち、実施の形態 1、 2では、空間情報除去後のサブチャネル信号を実際の符 号化対象とし、この符号ィ匕歪みを最小化している。しかし、復号信号として最終的に 出力されるべき信号はサブチャネル信号であり、空間情報除去後のサブチャネル信 号ではない。すると、空間情報除去後のサブチャネル信号を符号ィ匕処理のターゲット 信号とすると、最終的な復号信号であるサブチャネル信号に含まれる符号化歪みは 充分に最小化されていない可能性がある。例えば、サブチャネル信号の振幅がメイ ンチャネル信号の振幅よりも大きい場合であっても、歪み最小化部 116に入力される サブチャネル信号の符号ィ匕歪みは、メインチャネル信号とのエネルギー差を除去し た後の信号に基づいて算出されるものである。ところが、復号装置においては、復号 後のサブチャネル信号に別途復号された空間情報を付与して合成信号を生成する ことになる。そうすると、空間情報付与により、サブチャネル信号の振幅が増幅される こととなるので、これに元々含まれる符号ィ匕歪みも増幅されてしまうことになる。
[0103] 一方、本実施の形態では、空間情報が除去されていないサブチャネル信号そのも のを符号化対象とし、最終的な復号信号を得る際に含まれ得る符号化歪みを対象に 歪み最小化の処理を行う。よって、より符号ィ匕性能を向上させることができる。
[0104] また、以上の構成において、聴覚重み付け処理に用いる LPC係数は、 SC符号ィ匕 部 310の入力信号であるサブチャネル信号を別途 LPC分析して求める。すなわち、 最終的な復号信号であるべきサブチャネル信号そのものを反映した聴覚重みによつ て聴覚重み付けを行う。よって、より聴覚的に歪みの小さい符号ィ匕パラメータを得るこ とがでさる。
[0105] 以上、本発明の各実施の形態について説明した。
[0106] 本発明に係るステレオ符号化装置およびステレオ符号化方法は、上記各実施の形 態に限定されず、種々変更して実施することが可能である。
[0107] 本発明に係るステレオ符号ィ匕装置は、移動体通信システムにおける通信端末装置 および基地局装置に搭載することが可能であり、これにより上記と同様の作用効果を 有する通信端末装置および基地局装置を提供することができる。また、本発明に係る ステレオ符号化装置およびステレオ符号化方法は、有線方式の通信システムにお ヽ ても利用可能である。
[0108] なお、ここでは、本発明をノヽードウエアで構成する場合を例にとって説明したが、本 発明をソフトウェアで実現することも可能である。例えば、本発明に係るステレオ符号 化方法の処理のアルゴリズムをプログラミング言語によって記述し、このプログラムを メモリに記憶しておいて情報処理手段によって実行させることにより、本発明のステレ ォ符号ィ匕装置と同様の機能を実現することができる。
[0109] また、適応符号帳(adaptive codebook)は適応音源符号帳と呼ばれることがあり、固 定符号帳 (fixed codebook)は固定音源符号帳と呼ばれることがある。さらに、固定符 号帳は、確率符号帳(stochastic codebook)または乱数符号帳(random codebook)と 呼ばれることがある。
[0110] また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路 である LSIとして実現される。これらは個別に 1チップ化されていても良いし、一部ま たは全てを含むように 1チップィ匕されて ヽても良!、。
[0111] また、ここでは LSIとした力 集積度の違いによって、 IC、システム LSI、スーパー L
SI、ウノレ卜ラ LSI等と呼称されることちある。
[0112] また、集積回路化の手法は LSIに限るものではなぐ専用回路または汎用プロセッ サで実現しても良い。 LSI製造後に、プログラム化することが可能な FPGA (Field Pro grammable Gate Array)や、 LSI内部の回路セルの接続もしくは設定を再構成可能な リコンフィギユラブル ·プロセッサを利用しても良 、。
[0113] さらに、半導体技術の進歩または派生する別技術により、 LSIに置き換わる集積回 路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積ィ匕を行って も良い。バイオ技術の適応等が可能性としてあり得る。
[0114] 本明細書は、 2004年 11月 30日出願の特願 2004— 347273および 2005年 3月 3
1日出願の特願 2005— 100850に基づく。これらの内容はすべてここに含めておく 産業上の利用可能性
本発明に係るステレオ符号化装置、ステレオ復号装置、およびこれらの方法は、移 動体通信システムにおける通信端末装置、基地局装置等の用途に適用できる。

Claims

請求の範囲
[1] 第 1チャネル信号および第 2チャネル信号の双方または一方を補正することによつ て前記第 1チャネル信号および前記第 2チャネル信号間の類似度を高める補正手段 と、
類似度が高まった前記第 1チャネル信号および第 2チャネル信号を単一の音源で 符号化する第 1の符号化手段と、
前記補正手段における補正に関する情報を符号化する第 2の符号化手段と、 を具備するステレオ符号化装置。
[2] 前記補正手段は、
前記第 1チャネル信号および前記第 2チャネル信号に含まれる空間情報の双方ま たは一方を補正し、
前記第 2の符号化手段は、
前記空間情報の補正に関する情報を符号化する、
請求項 1記載のステレオ符号化装置。
[3] 前記空間情報は、
前記第 1チャネル信号および前記第 2チャネル信号のエネルギーおよび遅延時間 の双方または一方を含む、
請求項 2記載のステレオ符号化装置。
[4] 前記第 1の符号化手段は、
1組の適応符号帳および固定符号帳を具備する、
請求項 1記載のステレオ符号化装置。
[5] 前記第 1の符号化手段は、
前記第 1チャネル信号および前記第 2チャネル信号の双方の符号化歪みの和を最 小とする前記音源を求める、
請求項 1記載のステレオ符号化装置。
[6] 前記補正手段は、
前記第 1チャネル信号の空間情報と前記第 2チャネル信号の空間情報との差を求 め、当該差を前記第 1チャネル信号または前記第 2チャネル信号のいずれか一方か ら除去する、
請求項 1記載のステレオ符号化装置。
[7] 前記補正手段は、
前記第 1チャネル信号および前記第 2チャネル信号のうち、情報量の多!、チャネル 信号をメインチャネル信号とし、他方をサブチャネル信号とし、当該サブチャネル信 号の波形を前記メインチャネル信号の波形に近付ける補正を行う、
請求項 1記載のステレオ符号化装置。
[8] 前記情報量の多!、チヤネノレ信号は、
エネルギーのより大き!/、方のチャネル信号である、
請求項 7記載のステレオ符号化装置。
[9] 前記補正手段は、
前記第 1チャネル信号および前記第 2チャネル信号のうち、一方をメインチャネル信 号とし、他方をサブチャネル信号とし、メインチャネル信号の空間情報とサブチャネル 信号の空間情報との差を求め、当該差をサブチャネル信号力 除去し、
前記第 1の符号化手段は、
当該差が除去されたサブチャネル信号を符号ィ匕処理のターゲット信号とする、 請求項 1記載のステレオ符号化装置。
[10] 前記補正手段は、
前記第 1チャネル信号および前記第 2チャネル信号のうち、一方をメインチャネル信 号とし、他方をサブチャネル信号とし、メインチャネル信号の空間情報とサブチャネル 信号の空間情報との差を求め、当該差をサブチャネル信号力 除去し、
前記第 1の符号化手段は、
当該差が除去される前のサブチャネル信号を符号ィ匕処理のターゲット信号とし、 当該差が除去されたサブチャネル信号力 生成される合成信号を用いて符号ィ匕を 行う、
請求項 1記載のステレオ符号化装置。
[11] 第 1チャネル信号および第 2チャネル信号の双方または一方に対して施された補正 に関する情報を復号する第 1の復号手段と、 前記補正が施され、類似度が高まった第 1チャネル信号および第 2チャネル信号に 関する情報を復号する第 2の復号手段と、
前記補正に関する情報と、前記第 1チャネル信号および第 2チャネル信号に関する 情報とを用いて、前記第 1チャネル信号および前記第 2チャネル信号を復元する復 元手段と、
を具備するステレオ復号装置。
[12] 請求項 1記載のステレオ符号化装置を具備する通信端末装置。
[13] 請求項 11記載のステレオ復号装置を具備する通信端末装置。
[14] 請求項 1記載のステレオ符号化装置を具備する基地局装置。
[15] 請求項 11記載のステレオ復号装置を具備する基地局装置。
[16] 第 1チャネル信号および第 2チャネル信号の双方または一方を補正することによつ て前記第 1チャネル信号および前記第 2チャネル信号間の類似度を高める補正ステ ップと、
類似度が高まった前記第 1チャネル信号および第 2チャネル信号を単一の音源で 符号化する第 1の符号化ステップと、
前記補正ステップにおける補正に関する情報を符号ィ匕する第 2の符号化ステップと を具備するステレオ符号ィ匕方法。
[17] 第 1チャネル信号および第 2チャネル信号の双方または一方に対して施された補正 に関する情報を復号する第 1の復号ステップと、
前記補正が施され、類似度が高まった第 1チャネル信号および第 2チャネル信号に 関する情報を復号する第 2の復号ステップと、
前記補正に関する情報と、前記第 1チャネル信号および第 2チャネル信号に関する 情報とを用いて、前記第 1チャネル信号および前記第 2チャネル信号を復元する復 元ステップと、
を具備するステレオ復号方法。
PCT/JP2005/021800 2004-11-30 2005-11-28 ステレオ符号化装置、ステレオ復号装置、およびこれらの方法 WO2006059567A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
RU2007120056/09A RU2007120056A (ru) 2004-11-30 2005-11-28 Устройство стереокодирования, устройство стереодекодирования и способы стереокодирования и стереодекодирования
US11/719,413 US7848932B2 (en) 2004-11-30 2005-11-28 Stereo encoding apparatus, stereo decoding apparatus, and their methods
JP2006547900A JPWO2006059567A1 (ja) 2004-11-30 2005-11-28 ステレオ符号化装置、ステレオ復号装置、およびこれらの方法
BRPI0516658-6A BRPI0516658A (pt) 2004-11-30 2005-11-28 aparelho de codificação de estéreo, aparelho de decodificação de estéreo e seus métodos
EP05809758A EP1814104A4 (en) 2004-11-30 2005-11-28 STEREO ENCODING APPARATUS, STEREO DECODING APPARATUS, AND METHODS THEREOF

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2004347273 2004-11-30
JP2004-347273 2004-11-30
JP2005100850 2005-03-31
JP2005-100850 2005-03-31

Publications (1)

Publication Number Publication Date
WO2006059567A1 true WO2006059567A1 (ja) 2006-06-08

Family

ID=36565000

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2005/021800 WO2006059567A1 (ja) 2004-11-30 2005-11-28 ステレオ符号化装置、ステレオ復号装置、およびこれらの方法

Country Status (7)

Country Link
US (1) US7848932B2 (ja)
EP (1) EP1814104A4 (ja)
JP (1) JPWO2006059567A1 (ja)
KR (1) KR20070085532A (ja)
BR (1) BRPI0516658A (ja)
RU (1) RU2007120056A (ja)
WO (1) WO2006059567A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013033189A (ja) * 2011-07-01 2013-02-14 Sony Corp オーディオ符号化装置、オーディオ符号化方法、およびプログラム
JP2013114264A (ja) * 2011-11-28 2013-06-10 Samsung Electronics Co Ltd 音声信号送信装置、音声信号受信装置及びその方法
JP2015528925A (ja) * 2012-07-31 2015-10-01 インテレクチュアル ディスカバリー シーオー エルティディIntellectual Discovery Co.,Ltd. オーディオ信号処理装置および方法
JP2018533057A (ja) * 2015-09-25 2018-11-08 ヴォイスエイジ・コーポレーション セカンダリチャンネルを符号化するためにプライマリチャンネルのコーディングパラメータを使用するステレオ音声信号を符号化するための方法およびシステム

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2623551T3 (es) * 2005-03-25 2017-07-11 Iii Holdings 12, Llc Dispositivo de codificación de sonido y procedimiento de codificación de sonido
US20100100372A1 (en) * 2007-01-26 2010-04-22 Panasonic Corporation Stereo encoding device, stereo decoding device, and their method
JP5153791B2 (ja) * 2007-12-28 2013-02-27 パナソニック株式会社 ステレオ音声復号装置、ステレオ音声符号化装置、および消失フレーム補償方法
WO2009116280A1 (ja) * 2008-03-19 2009-09-24 パナソニック株式会社 ステレオ信号符号化装置、ステレオ信号復号装置およびこれらの方法
WO2009146734A1 (en) * 2008-06-03 2009-12-10 Nokia Corporation Multi-channel audio coding
EP2395504B1 (en) * 2009-02-13 2013-09-18 Huawei Technologies Co., Ltd. Stereo encoding method and apparatus
CN101521013B (zh) * 2009-04-08 2011-08-17 武汉大学 空间音频参数双向帧间预测编解码装置
KR101035070B1 (ko) * 2009-06-09 2011-05-19 주식회사 라스텔 고음질 가상 공간 음향 생성 장치 및 방법
CN102280107B (zh) * 2010-06-10 2013-01-23 华为技术有限公司 边带残差信号生成方法及装置
CN116741185A (zh) 2016-11-08 2023-09-12 弗劳恩霍夫应用研究促进协会 用于下混频至少两声道的下混频器和方法以及多声道编码器和多声道解码器

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002244698A (ja) * 2000-12-14 2002-08-30 Sony Corp 符号化装置および方法、復号装置および方法、並びに記録媒体
JP2003516555A (ja) * 1999-12-08 2003-05-13 フラオホッフェル−ゲゼルシャフト ツル フェルデルング デル アンゲヴァンドテン フォルシュング エー.ヴェー. ステレオ音響信号の処理方法と装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE519985C2 (sv) 2000-09-15 2003-05-06 Ericsson Telefon Ab L M Kodning och avkodning av signaler från flera kanaler
US6614365B2 (en) * 2000-12-14 2003-09-02 Sony Corporation Coding device and method, decoding device and method, and recording medium
US7292901B2 (en) 2002-06-24 2007-11-06 Agere Systems Inc. Hybrid multi-channel/cue coding/decoding of audio signals
US7644003B2 (en) * 2001-05-04 2010-01-05 Agere Systems Inc. Cue-based audio coding/decoding
SE0202159D0 (sv) * 2001-07-10 2002-07-09 Coding Technologies Sweden Ab Efficientand scalable parametric stereo coding for low bitrate applications
WO2003069954A2 (en) * 2002-02-18 2003-08-21 Koninklijke Philips Electronics N.V. Parametric audio coding
DE60311794T2 (de) * 2002-04-22 2007-10-31 Koninklijke Philips Electronics N.V. Signalsynthese
CN1307612C (zh) * 2002-04-22 2007-03-28 皇家飞利浦电子股份有限公司 声频信号的编码解码方法、编码器、解码器及相关设备
US7519538B2 (en) * 2003-10-30 2009-04-14 Koninklijke Philips Electronics N.V. Audio signal encoding or decoding
US8204261B2 (en) * 2004-10-20 2012-06-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Diffuse sound shaping for BCC schemes and the like

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003516555A (ja) * 1999-12-08 2003-05-13 フラオホッフェル−ゲゼルシャフト ツル フェルデルング デル アンゲヴァンドテン フォルシュング エー.ヴェー. ステレオ音響信号の処理方法と装置
JP2002244698A (ja) * 2000-12-14 2002-08-30 Sony Corp 符号化装置および方法、復号装置および方法、並びに記録媒体

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
DAVIDSON G. ET AL: "Complexity reduction methods for vector excitation coding", IEEE INTERNATIONAL CONFERENCE ON ICASSP '86, vol. 11, 1986, pages 3055 - 3058, XP003006841 *
GOTO M. ET AL.: "Channel-kan Joho o Mochiita Onsei Tsushinyo Stereo Onsei Fugoka Hoho no Kento", 2005 NEN THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS SOGO TAIKAI KOEN RONBUNSHU, D-14-2, 7 March 2005 (2005-03-07), pages 119, XP003006842 *
GOTO M. ET AL.: "Onsei Tsushinyo Scalable Stereo Onsei Fugoka Hoho no Kento", FIT2005 (4TH FORUM ON INFORMATION TECHNOLOGY) KOEN RONBUNSHU, G-017, 22 August 2005 (2005-08-22), pages 299 - 300, XP002995723 *
GOTO M. ET AL.: "Onsei Tsushinyo Stereo Onsei Fugoka Hoho no Kento", 2004 NEN THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS ENGINEERING SCIENCES SOCIETY CONFERENCE KOEN RONBUNSHU, A-6-6, 8 September 2004 (2004-09-08), pages 119, XP003000725 *
See also references of EP1814104A4 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013033189A (ja) * 2011-07-01 2013-02-14 Sony Corp オーディオ符号化装置、オーディオ符号化方法、およびプログラム
JP2013114264A (ja) * 2011-11-28 2013-06-10 Samsung Electronics Co Ltd 音声信号送信装置、音声信号受信装置及びその方法
JP2015528925A (ja) * 2012-07-31 2015-10-01 インテレクチュアル ディスカバリー シーオー エルティディIntellectual Discovery Co.,Ltd. オーディオ信号処理装置および方法
JP2018533057A (ja) * 2015-09-25 2018-11-08 ヴォイスエイジ・コーポレーション セカンダリチャンネルを符号化するためにプライマリチャンネルのコーディングパラメータを使用するステレオ音声信号を符号化するための方法およびシステム
US10984806B2 (en) 2015-09-25 2021-04-20 Voiceage Corporation Method and system for encoding a stereo sound signal using coding parameters of a primary channel to encode a secondary channel
US11056121B2 (en) 2015-09-25 2021-07-06 Voiceage Corporation Method and system for encoding left and right channels of a stereo sound signal selecting between two and four sub-frames models depending on the bit budget
JP2021131569A (ja) * 2015-09-25 2021-09-09 ヴォイスエイジ・コーポレーション セカンダリチャンネルを符号化するためにプライマリチャンネルのコーディングパラメータを使用するステレオ音声信号を符号化するための方法およびシステム
JP7124170B2 (ja) 2015-09-25 2022-08-23 ヴォイスエイジ・コーポレーション セカンダリチャンネルを符号化するためにプライマリチャンネルのコーディングパラメータを使用するステレオ音声信号を符号化するための方法およびシステム

Also Published As

Publication number Publication date
BRPI0516658A (pt) 2008-09-16
US7848932B2 (en) 2010-12-07
EP1814104A1 (en) 2007-08-01
KR20070085532A (ko) 2007-08-27
US20090150162A1 (en) 2009-06-11
RU2007120056A (ru) 2008-12-10
JPWO2006059567A1 (ja) 2008-06-05
EP1814104A4 (en) 2008-12-31

Similar Documents

Publication Publication Date Title
WO2006059567A1 (ja) ステレオ符号化装置、ステレオ復号装置、およびこれらの方法
JP5413839B2 (ja) 符号化装置および復号装置
JP4963965B2 (ja) スケーラブル符号化装置、スケーラブル復号装置、及びこれらの方法
JP4850827B2 (ja) 音声符号化装置および音声符号化方法
JP4555299B2 (ja) スケーラブル符号化装置およびスケーラブル符号化方法
US20090204397A1 (en) Linear predictive coding of an audio signal
JP4842147B2 (ja) スケーラブル符号化装置およびスケーラブル符号化方法
US8036390B2 (en) Scalable encoding device and scalable encoding method
JPWO2008072701A1 (ja) ポストフィルタおよびフィルタリング方法
WO2007088853A1 (ja) 音声符号化装置、音声復号装置、音声符号化システム、音声符号化方法及び音声復号方法
KR20070029754A (ko) 음성 부호화 장치 및 그 방법과, 음성 복호화 장치 및 그방법
US8271275B2 (en) Scalable encoding device, and scalable encoding method
WO2010016270A1 (ja) 量子化装置、符号化装置、量子化方法及び符号化方法
JP2006072269A (ja) 音声符号化装置、通信端末装置、基地局装置および音声符号化方法

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KM KN KP KR KZ LC LK LR LS LT LU LV LY MA MD MG MK MN MW MX MZ NA NG NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SM SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LT LU LV MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2006547900

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 11719413

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2005809758

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2007120056

Country of ref document: RU

Ref document number: 1020077012113

Country of ref document: KR

WWE Wipo information: entry into national phase

Ref document number: 200580041181.1

Country of ref document: CN

NENP Non-entry into the national phase

Ref country code: DE

WWP Wipo information: published in national office

Ref document number: 2005809758

Country of ref document: EP

ENP Entry into the national phase

Ref document number: PI0516658

Country of ref document: BR