WO2007026763A1 - ステレオ符号化装置、ステレオ復号装置、及びステレオ符号化方法 - Google Patents

ステレオ符号化装置、ステレオ復号装置、及びステレオ符号化方法 Download PDF

Info

Publication number
WO2007026763A1
WO2007026763A1 PCT/JP2006/317104 JP2006317104W WO2007026763A1 WO 2007026763 A1 WO2007026763 A1 WO 2007026763A1 JP 2006317104 W JP2006317104 W JP 2006317104W WO 2007026763 A1 WO2007026763 A1 WO 2007026763A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
evaluation
stereo
time domain
frequency domain
Prior art date
Application number
PCT/JP2006/317104
Other languages
English (en)
French (fr)
Inventor
Chun Woei Teo
Sua Hong Neo
Koji Yoshida
Michiyo Goto
Original Assignee
Matsushita Electric Industrial Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co., Ltd. filed Critical Matsushita Electric Industrial Co., Ltd.
Priority to US12/064,995 priority Critical patent/US8457319B2/en
Priority to KR1020087005096A priority patent/KR101340233B1/ko
Priority to EP06797077A priority patent/EP1912206B1/en
Priority to JP2007533292A priority patent/JP5171256B2/ja
Priority to CN2006800319487A priority patent/CN101253557B/zh
Publication of WO2007026763A1 publication Critical patent/WO2007026763A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic

Definitions

  • the present invention relates to a stereo encoding device, a stereo decoding device, and a stereo encoding method.
  • the present invention is used when encoding Z decoding of a stereo audio signal or a stereo audio signal in a mobile communication system or a packet communication system using the Internet Protocol (IP).
  • IP Internet Protocol
  • the present invention relates to a stereo encoding device, a stereo decoding device, and a stereo encoding method.
  • a current mobile phone can already be equipped with a multimedia player having a stereo function and an FM radio function. Therefore, it is natural to add functions such as recording and playback of stereo audio signals using only stereo audio signals to 4th generation mobile phones and IP phones.
  • MPEG-2 AAC Motion Picture Experts Group-2 Advanced Audio Coding
  • MDCT Modified Discrete Cosine Transform
  • Non-Patent Document l ISO / IEC 13818-7: 1997- MPEG-2 Advanced Audio Coding (AAC) Invention Disclosure
  • MPEG-2 AAC is more suitable for audio signals and has a problem that it is not suitable for audio signals.
  • MPEG-2 AAC reduces the bit rate while maintaining good sound quality while reducing the number of quantization bits for spectral information that is not important for audio signal communication.
  • the MPEG-2 AAC which provides a very good audio quality in the audio signal, was applied to the audio signal. In some cases, satisfactory sound quality may not be obtained.
  • MPEG-2 AAC Another problem with MPEG-2 AAC is the delay due to the algorithm.
  • the frame size used for MP EG-2 AAC is 1024 sample Z frames. For example, if the sampling frequency exceeds 32 kHz, the frame delay will be less than 32 milliseconds, which is an acceptable delay in a real-time voice communication system.
  • MPEG-2 AAC requires an MDCT process that performs overlap-and-add (overlay addition) of two adjacent frames to decode the encoded signal. This is not suitable for real-time communication systems because processing delays due to the system always occur.
  • AMR-WB Adaptive Multi-Rate Wide Band
  • An object of the present invention is to encode a stereo signal with a low bit rate with high accuracy, and to suppress a delay in voice communication or the like, a stereo encoding device, a stereo decoding device, and a stereo It is to provide a sign key method.
  • the stereo coding apparatus of the present invention performs evaluation in the time domain on the first channel signal of the stereo signal, and encodes the evaluation result, the time domain evaluation means, A frequency domain evaluation unit that divides the frequency band of one channel signal into a plurality of parts, evaluates the first channel signal of each band in the frequency domain, and encodes the evaluation result. take.
  • a stereo signal can be encoded with a low bit rate with high accuracy, and a delay in voice communication or the like can be suppressed.
  • FIG. 1 is a block diagram showing the main configuration of a stereo coding apparatus according to an embodiment of the present invention.
  • FIG. 2 is a block diagram showing a main configuration of a time domain evaluation unit according to an embodiment of the present invention.
  • FIG. 3 is a block diagram showing a main configuration of a frequency domain evaluation unit according to an embodiment of the present invention.
  • FIG. 4 is a flowchart for explaining the operation of the bit allocation control unit according to the embodiment of the present invention.
  • FIG. 5 is a block diagram showing the main configuration of the stereo decoding apparatus according to the embodiment of the present invention.
  • FIG. 1 is a block diagram showing the main configuration of stereo coding apparatus 100 according to an embodiment of the present invention.
  • Stereo encoding apparatus 100 employs a hierarchical configuration mainly composed of first layer 110 and second layer 120.
  • a monaural signal M is generated from the left channel signal L and the right channel signal R constituting the stereo audio signal, and the monaural signal is encoded to generate the code information P and the monaural drive.
  • a sound source signal e is generated.
  • the first layer 110 is the monaural synthesis unit
  • the monaural synthesis unit 101 synthesizes the monaural signal M with the left channel signal L, the right channel signal R, and the force.
  • the monaural code unit 102 employs the configuration of an AMR-WB encoding device.
  • the monaural code unit 102 encodes the monaural signal M output from the monaural synthesizing unit 101 using the AMR-WB method, obtains encoded information P, and outputs the encoded information P to the multiplexing unit 108. Also mono
  • the sign key unit 102 outputs the monaural driving sound source signal e obtained in the sign key process to the second level.
  • the second layer 120 evaluation and prediction (prediction and estimation) in the time domain and the frequency domain are performed on the stereo audio signal, and various types of encoded information are generated.
  • spatial information included in the left channel signal L constituting the stereo audio signal is detected and calculated. Due to this spatial information, the stereo audio signal gives a sense of presence (a sense of spread).
  • an evaluation signal similar to the left channel signal L is generated by applying this spatial information to the monaural signal. Then, information regarding each process is output as sign key information.
  • the second layer 120 includes a filtering unit 103, a time domain evaluation unit 104, a frequency domain evaluation unit 105, a residual encoding unit 106, and a bit allocation control unit 107, and each unit performs the following operations.
  • Filtering section 103 generates an LPC (Linear Predictive Coding) coefficient from left channel signal L by LPC analysis, and outputs it as multiplexing information P to multiplexing section 108.
  • LPC Linear Predictive Coding
  • the filtering unit 103 generates a left channel drive sound source signal e using the left channel signal L and the LPC coefficient, and outputs it to the time domain evaluation unit 104.
  • the time domain evaluation unit 104 includes a monaural driving sound source signal e generated in the monaural coding unit 102 of the first layer 110 and a left channel generated in the filtering unit 103.
  • a valence signal e is generated and output to the frequency domain evaluation unit 105. That is, the time domain evaluation unit 1 estl
  • the frequency domain evaluation unit 105 includes a left channel driving sound source signal e generated by the filtering unit 103 and a time domain evaluation signal e generated by the time domain evaluation unit 104.
  • Target information is detected and calculated.
  • Residual sign key unit 106 includes frequency domain evaluation signal e generated in frequency domain evaluation unit 105 and left channel drive excitation signal est2 generated in filtering unit 103.
  • a residual signal is obtained from e, and this signal is encoded and encoded information P is generated and multiplexed.
  • the bit allocation control unit 107 includes a monaural driving sound source signal e generated in the monaural code key unit 102 and a left channel driving sound source signal generated in the filtering unit 103.
  • the time domain evaluation unit 104 the frequency domain evaluation unit 105, and the residual
  • Encoding bits are allocated to the encoding unit 106.
  • the bit allocation control unit 107 encodes information on the number of bits allocated to each unit, and the obtained code information P
  • the multiplexing unit 108 multiplexes the code information up to P power up to P, and the bit stream after multiplexing is multiplexed.
  • the stereo decoding apparatus corresponding to the stereo encoding apparatus 100 includes the code signal information P of the monaural signal generated in the first layer 110 and the left channel signal generated in the second layer 120.
  • the signal can be decoded.
  • a right channel signal can also be generated from the decoded monaural signal and left channel signal.
  • FIG. 2 is a block diagram showing a main configuration of the time domain evaluation unit 104.
  • the time domain evaluation unit 104 receives the monaural driving sound source signal e as a target signal and drives the left channel driving sound source signal.
  • No. e is input as a reference signal.
  • the spatial information in the time domain consists of amplitude information (and delay information ⁇ ).
  • the energy calculation unit 141 1 receives a monaural driving sound source signal e and receives the signal.
  • the energy in the interspace is calculated.
  • the energy calculating unit 141 2 receives the driving sound source signal e of the left channel and receives the energy.
  • the ratio calculation unit 142 receives the energy values calculated by the energy calculation units 141-1 and 141-2, respectively, and outputs the monaural driving sound source signal e and the left channel driving sound source signal.
  • the energy ratio to e is calculated, and the monaural driving sound source signal e and the left channel driving sound source signal are calculated.
  • Correlation value calculation section 143 receives monaural driving sound source signal e and left channel driving sound source signal e.
  • the delay detection unit 144 receives the cross-correlation value calculated by the correlation value calculation unit 143, detects a time delay between the left channel driving sound source signal e and the monaural driving sound source signal e, and
  • the evaluation signal generation unit 145 generates the left channel from the monaural driving sound source signal e based on the amplitude information ⁇ calculated by the ratio calculation unit 142 and the delay information ⁇ calculated by the delay detection unit 144.
  • the time domain evaluation unit 104 performs spatial analysis in the time domain between the monaural driving sound source signal e and the left channel driving sound source signal e once per frame of the audio signal processing.
  • C Spatial information is composed of amplitude information (X and delay information.
  • the time domain evaluation unit 104 gives this spatial information to the monaural driving sound source signal e and is similar to the left channel driving sound source signal e.
  • a time domain evaluation signal e is generated.
  • FIG. 3 is a block diagram showing the main configuration of the frequency domain evaluation unit 105.
  • the frequency domain evaluation unit 105 uses the time domain evaluation signal e generated by the time domain evaluation unit 104 as a target signal.
  • the left channel drive sound source signal e is input as a reference signal in the frequency domain.
  • the spatial information in the frequency domain is composed of spectrum amplitude information
  • FFT 3 ⁇ 4151 The left channel driving sound source signal e , which is a time domain signal, is converted into a frequency domain signal (spectrum) by fast Fourier transform (FFT).
  • the dividing unit 152-1 divides the frequency domain signal band generated by the FFT unit 151-1 into a plurality of bands (subbands). Each subband may follow a Bark Scale corresponding to the human auditory system, or may be equally divided within the bandwidth.
  • the energy calculation unit 153-1 calculates the spectral energy of the driving sound source signal e of the left channel.
  • the calculation is performed for each subband output from the dividing unit 152-1.
  • the FFT unit 151-2 converts the time domain evaluation signal e estl into a frequency domain signal by the same processing as the FFT unit 151-1.
  • Divider 152-2 divides the frequency domain signal band generated by FFT unit 151-2 into a plurality of subbands by the same processing as divider 152-1.
  • the energy calculation unit 153-2 performs the same processing as the energy calculation unit 153-1 on the spectral energy of the time domain evaluation signal e by each sub-buffer estl output from the division unit 152-2.
  • the ratio calculation unit 154 uses the spectral energy of each subband calculated by the energy calculation unit 153-1 and the energy calculation unit 153-2 to drive the left channel driving sound source signal e
  • the phase calculation unit 155-1 includes each of the sub-bands of the driving sound source signal e of the left channel.
  • Phase selection section 156 selects one phase suitable for encoding from the phase of the spectrum in each subband in order to reduce the amount of encoded information.
  • Phase calculation section 155-2 calculates the phase of each spectrum in each subband of time domain evaluation signal e by the same processing as phase calculation section 155-1.
  • Phase difference calculation section 157 calculates the phase difference between drive excitation signal e for the left channel and time domain evaluation signal e for the phase in each subband selected by phase selection section 156.
  • the evaluation signal generator 158 includes a left channel driving sound source signal e, a time domain evaluation signal e,
  • Amplitude information ⁇ 8 during L estl, left channel drive source signal e and time domain evaluation signal e To the frequency domain estl from the time domain evaluation signal e based on both of the phase difference information ⁇
  • An evaluation signal e is generated.
  • the frequency domain evaluation unit 105 uses the left-channel driving sound source signal e and the time domain evaluation signal e generated by the time domain evaluation unit 104 as a plurality of subbands estl.
  • the frequency domain evaluation unit 105 calculates a time domain evaluation signal e that is similar to the left-channel driving sound source signal e obtained by the time domain evaluation, by frequency domain evaluation.
  • a frequency domain evaluation signal e similar to the signal is generated. Further, the frequency domain evaluation unit 105 converts this spatial information into the time domain est2
  • a frequency domain evaluation signal e similar to L is generated.
  • bit allocation control unit 107 For each frame of the audio signal, the number of bits allocated to the code ⁇ is predetermined. The bit allocation control unit 107 determines whether or not the left channel driving sound source signal e and the monaural driving sound source signal e are similar to each other in order to achieve optimum sound quality at the predetermined bit rate.
  • the number of bits allocated to each processing unit is adaptively determined.
  • FIG. 4 is a flowchart for explaining the operation of the bit distribution control unit 107.
  • bit allocation control unit 107 performs the monaural driving sound source signal e.
  • the bit allocation control unit 107 calculates a mean square error between the monaural driving sound source signal e and the left channel driving sound source signal e, and uses this as a predetermined threshold value.
  • the difference between the two signals in the time domain is less than
  • the number of bits required to make it smaller may be smaller.
  • the time domain evaluation unit 104 has a smaller number of other parts (frequency domain evaluation unit 105, residual code unit 106), in particular non-uniformity that allocates more bits to the frequency domain evaluation unit 105. If bit allocation is performed efficiently, code efficiency is improved because of efficient bit allocation. Therefore, if the bit allocation control unit 107 determines that they are similar in ST1072, it allocates a smaller number of bits to the time domain evaluation in ST1073 and distributes the remaining bits equally to other processing in ST1074. To do.
  • the monaural driving sound source signal e and the left channel driving sound source signal e are not similar.
  • the bit allocation control unit 107 in ST1072, outputs the monaural driving sound source signal e and the left channel driving sound source signal.
  • FIG. 5 is a block diagram showing the main configuration of stereo decoding apparatus 200 according to the present embodiment.
  • the stereo decoding apparatus 200 has a hierarchical configuration mainly including the first layer 210 and the second layer 220 as in the stereo encoding apparatus 100. Also, each process of stereo decoding apparatus 200 is basically an inverse process of each process corresponding to stereo encoding apparatus 100. That is, the stereo decoding apparatus 200 predicts and generates a monaural signal power left channel signal using the encoded information sent from the stereo encoding apparatus 100, and further uses the monaural signal and the left channel signal, Generate a right channel signal.
  • Separating section 201 separates the input bitstream into encoded information with P power up to P.
  • First layer 210 includes monaural decoding section 202.
  • the monaural decoding unit 202 Decoding encoded information P to generate monaural signal M ′ and monaural driving sound source signal e
  • the second layer 220 includes a bit allocation information decoding unit 203, a time domain evaluation unit 204, a frequency domain evaluation unit 205, and a residual decoding unit 206, and each unit performs the following operations.
  • the bit allocation information decoding unit 203 decodes the encoded information P, and the time domain evaluation unit 204
  • the number of bits used by wave number domain evaluation section 205 and residual decoding section 206 is output.
  • the time domain evaluation unit 204 includes the monaural driving sound source signal e 'generated by the monaural decoding unit 202, the code key information P output from the separation unit 201, and the bit allocation information decoding unit.
  • time domain evaluation signal e ′ is generated.
  • the frequency domain evaluation unit 205 the time domain evaluation signal e 'generated in the time domain evaluation unit 204, the code key information P output from the separation unit 201, and the bit allocation information decoding estl D
  • the frequency domain evaluation unit 205 uses the number of bits passed from the unit 203, evaluation and prediction in the frequency domain are performed, and a frequency domain evaluation signal e ′ is generated.
  • the frequency domain evaluation unit 205 performs est2 in the frequency domain.
  • an FFT unit that performs frequency conversion is provided prior to evaluation and prediction.
  • Residual decoding section 206 includes sign key information P and bit allocation information output from separation section 201.
  • the residual signal is decoded using the number of bits passed from the decoding unit 203.
  • the residual decoding unit 206 converts this est2 into the frequency domain evaluation signal e ′ generated by the frequency domain evaluation unit 205.
  • the generated residual signal is given, and the left channel drive sound source signal e ′ is generated.
  • Synthesis filtering section 207 decodes the encoded information P-power LPC coefficient, and outputs this LPC coefficient.
  • Stereo conversion section 208 generates right channel signal R using monaural signal M decoded by monaural decoding section 202 and left channel signal L generated by synthesis filter 207.
  • stereo audio signals are first evaluated and predicted in the time domain, then further detailed evaluation and prediction are performed in the frequency domain, and information on these two-level evaluation and prediction is output as code information. . Therefore, complementary evaluation and prediction can be performed in the frequency domain for powerful information that cannot be sufficiently expressed by evaluation and prediction in the time domain, and a stereo audio signal can be accurately encoded at a low bit rate. can do.
  • the time domain evaluation in time domain evaluation section 104 corresponds to evaluating the average level of the spatial information of the signal over the entire frequency band.
  • the time domain evaluation unit 104 processes the signal to be encoded of one frame as it is as one signal, and the entire or average energy of this signal is processed. The ratio and time delay are obtained.
  • the frequency domain evaluation in the frequency domain evaluation unit 105 divides the frequency band of the signal to be encoded into a plurality of subbands, and evaluates the subdivided individual signals.
  • the evaluation signal is finely adjusted by performing further evaluation in the frequency domain. Therefore, since the signal that is subject to encoding is treated as a single signal, it is subdivided into multiple signals for further evaluation, so that the accuracy of encoding of the stereo audio signal is improved. be able to.
  • a predetermined bit rate is within a range according to the degree of similarity between the monaural signal and the left channel signal (or right channel signal), that is, according to the situation of the stereo audio signal.
  • bits are allocated appropriately for each processing such as time domain evaluation and frequency domain evaluation. As a result, it is possible to perform coding efficiently and accurately, and to realize bit rate scalability.
  • the bit rate can be reduced because the time domain evaluation is performed with few parameters such as the energy ratio and the time delay.
  • the bit rate can be reduced because the time domain evaluation is performed with few parameters such as the energy ratio and the time delay.
  • the present embodiment since a hierarchical configuration having two layer forces is adopted, it is possible to scale from a mono level to a stereo level. Therefore, even if information related to frequency domain evaluation cannot be decoded for some reason, decoding only information related to time domain evaluation can decode a stereo audio signal of a predetermined quality, although the quality is somewhat degraded. , Can improve scalability.
  • the bit rate can be kept low.
  • stereo coding apparatus stereo decoding apparatus, and stereo coding method according to the present embodiment can be implemented with various modifications.
  • monaural signal and left channel signal are to be encoded by stereo encoding apparatus 100, and stereo decoding apparatus 200 decodes these signals by decoding the monaural signal and left channel signal.
  • stereo decoding apparatus 200 decodes these signals by decoding the monaural signal and left channel signal.
  • the case where the right channel signal is decoded by synthesizing the decoded signal has been described as an example.
  • the signal to be encoded by the stereo encoding apparatus 100 is not limited to this, and the stereo encoding apparatus 100 is monaural.
  • the left channel signal may be generated by combining the right channel signal and the monaural signal decoded by the stereo decoding apparatus 200 with the signal and the right channel signal as encoding targets.
  • filtering section 103 uses encoded information for the LPC coefficients by converting the LPC coefficients into other equivalent parameters (for example, LSP parameters). Also good.
  • the number of bits used in each unit is determined in advance without performing the bit allocation control process in which a predetermined number of bits are allocated to each process by the bit allocation control unit 107.
  • Fixed bit allocation may be performed.
  • the bit allocation control unit 107 is not required in the stereo encoding device 100.
  • this fixed bit allocation ratio is common to the stereo encoding device 100 and the stereo decoding device 200, the bit allocation information decoding unit 203 is not required in the stereo decoding device 200 as well.
  • the bit allocation control unit 107 adaptively allocates bits according to the status of the stereo audio signal and adaptively allocates bits according to the status of the network. May be.
  • the residual code key unit 106 performs sign keying using a predetermined number of bits distributed by the bit allocation control unit 107, thereby enabling a lossy system.
  • An example of encoding using a predetermined number of bits is vector quantization.
  • the residual code part is an encoding system with different characteristics, such as a lossy system or a lossless system, depending on the difference in the sign method.
  • the lossless system has the feature that the signal can be decoded more accurately by the decoding device than the lossy system, but the bit rate increases because the compression ratio is low.
  • the residual signal is coded by the residual code key unit 106 by a noiseless code method such as Huffin coding or Rice code key, a lossless system is obtained.
  • the ratio calculation unit 142 performs the monaural driving sound source signal e and the left channel.
  • the energy ratio with the drive sound source signal e is calculated as amplitude information ⁇ .
  • the amplitude information ⁇ can be used instead of calculating the energy difference.
  • ratio calculation section 154 calculates a spectral energy ratio between left-channel drive sound source signal e and time-domain evaluation signal e in each subband, and performs a vibration calculation.
  • the width information j8 is used, but instead of the energy ratio, an energy difference may be calculated and used as the amplitude information j8.
  • Spatial information in the time domain is composed of amplitude information oc and delay information ⁇ .
  • the spatial information may further include other information, or may include other information that is completely different from the amplitude information ⁇ , the delay information, and the like.
  • Spatial information in the frequency domain between L estl consists of amplitude information and phase difference information ⁇ , but this spatial information may further contain other information, amplitude information j8, phase difference Information may consist of other information completely different from ⁇ .
  • time domain evaluation section 104 uses monaural driving sound source signal e and left channel.
  • the detection and calculation of the spatial information with the driving sound source signal e of the channel is performed for each frame.
  • This process can be performed multiple times within one frame.
  • phase selection section 156 has one spectrum in each subband. The force that selects the phase of the spectrum. Multiple spectral phases may be selected.
  • the phase difference calculation unit 157 calculates the average of the phase differences ⁇ between the left channel driving sound source signal e and the time domain evaluation signal e in the plurality of phases, and outputs the average to the phase difference calculation unit 157.
  • residual code unit 106 performs time-domain coding on the residual signal, but may perform frequency-domain coding.
  • the stereo encoding device, the stereo decoding device, and the stereo encoding method according to the present invention can It can also be applied to audio signals.
  • the stereo encoding device and the stereo decoding device according to the present invention can be mounted on a communication terminal device and a base station device in a mobile communication system, and thereby have communication effects similar to those described above.
  • a terminal device, a base station device, and a mobile communication system can be provided.
  • the power described by taking the case where the present invention is configured as nodeware as an example can be realized by software.
  • the stereo coding method and the stereo decoding method algorithm according to the present invention are described in a programming language, and the program is stored in a memory and executed by an information processing means, whereby the stereo coding method according to the present invention is performed. It is possible to realize the same functions as those of the ⁇ and stereo decoding device.
  • Each functional block used in the description of each of the above embodiments is typically realized as an LSI which is an integrated circuit. These may be individually made into one chip, or may be made into one chip so as to include some or all of them.
  • the method of circuit integration is not limited to LSI's, and implementation using dedicated circuitry or general purpose processors is also possible. It is also possible to use a field programmable gate array (FPGA) that can be programmed after LSI manufacturing, or a reconfigurable processor that can reconfigure the connection or setting of circuit cells inside the LSI. Furthermore, if integrated circuit technology that replaces LSI emerges as a result of progress in semiconductor technology or other derived technology, it is naturally also possible to perform functional block integration using that technology. There is a possibility of adaptation of biotechnology.
  • FPGA field programmable gate array
  • the stereo encoding device, stereo decoding device, and stereo encoding method according to the present invention are suitable for mobile phones, IP phones, video conferences, and the like.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)

Abstract

 ステレオ信号を低ビットレートで精度良く符号化し、音声通信における遅延を抑えることができるステレオ符号化装置を開示する。この装置の第1レイヤ(110)において、モノラル符号化を行う。第2レイヤ(120)において、フィルタリング部(103)はLPC(Linear Predictive Coding)係数を生成し、左チャネルの駆動音源信号を生成する。時間領域評価部(104)と周波数領域評価部(105)は両領域で信号の評価及び予測を行い、残差符号化部(106)は残差信号を符号化する。ビット配分制御部(107)は、音声信号の条件に応じて、時間領域評価部(104)、周波数領域評価部(105)、及び残差符号化部(106)に適応的にビットを配分する。

Description

明 細 書
ステレオ符号化装置、ステレオ復号装置、及びステレオ符号化方法 技術分野
[0001] 本発明は、移動体通信システムまたはインターネットプロトコル(IP: Internet Protoc ol)を用いたパケット通信システム等において、ステレオ音声信号やステレオ 'オーデ ィォ信号の符号化 Z復号を行う際に用いられるステレオ符号化装置、ステレオ復号 装置、及びステレオ符号化方法に関する。
背景技術
[0002] 移動体通信システムまたは IPを用いたパケット通信システム等にぉ 、て、 DSP (Dig ital Signal Processor)によるディジタル信号処理速度と帯域幅の制限は徐々に緩和 されつつある。伝送レートのさらなる高ビットレートイ匕が進めば、複数チャネルを伝送 するだけの帯域を確保できるようになるため、モノラル方式が主流の音声通信におい ても、ステレオ方式による通信 (ステレオ通信)が普及することが期待される。
[0003] 現在の携帯電話は既に、ステレオ機能を有するマルチメディアプレイヤや FMラジ ォの機能を搭載することができる。従って、第 4世代の携帯電話及び IP電話等にステ レオ'オーディオ信号だけでなぐステレオ音声信号の録音、再生等の機能を追加す るのは自然なことである。
[0004] 従来、ステレオ信号を符号化する方法と言えば数多くあり、代表例として非特許文 献 1に記載されている MPEG— 2 AAC (Moving Picture Experts Group- 2 Advanced Audio Coding)があげられる。 MPEG— 2 AACは信号を、モノラル、ステレオ、及び マルチチャネルに符号化することができる。 MPEG— 2 AACは MDCT (Modified Di screte Cosine Transform)処理を用いて時間領域信号を周波数領域信号に変換し、 人間聴覚システムの原理に基づき、符号ィ匕によって発生する雑音をマスキングして 人間の可聴域以下のレベルに抑えることによって、良音質を実現している。
非特許文献 l : ISO/IEC 13818- 7:1997- MPEG- 2 Advanced Audio Coding(AAC) 発明の開示
発明が解決しょうとする課題 [0005] しかしながら、 MPEG - 2 AACは、オーディオ信号により適しており、音声信号に は適していないという問題がある。 MPEG - 2 AACはオーディオ信号の通信におい て重要でないスペクトル情報に対する量子化ビット数を抑制することによって、ステレ ォ感を有しつつ良好な音質を実現しながらビットレートを低く抑えている。しかし、ォ 一ディォ信号に比べて音声信号はビットレートの減少による音質劣化がより大きいた め、オーディオ信号において非常に良好な音質が得られる MPEG— 2 AACでも、こ れを音声信号に適用した場合には、満足できる音質を得られない場合がある。
[0006] MPEG - 2 AACのもう 1つの問題点は、アルゴリズムに起因する遅延である。 MP EG— 2 AACに使用されるフレームサイズは、 1024サンプル Zフレームである。例 えば、サンプリング周波数が 32kHzを超えるとフレーム遅延は 32ミリ秒以下となり、こ れはリアルタイム音声通信システムにおいて許容できる遅延である。し力し、 MPEG - 2 AACは、符号化信号を復号するために、隣接する 2つのフレームのオーバーラ ップ ·アンド'アツド(重ね合わせ加算)を行う MDCT処理を必須としており、このアル ゴリズムに起因した処理遅延が常に発生するので、リアルタイム通信システムには適 さない。
[0007] なお、低ビットレート化のためには、 AMR-WB (Adaptive Multi-Rate Wide Band) 方式の符号ィ匕を行うことも可能であり、この方法によれば、 MPEG— 2 AACと比べて 2分の 1以下のビットレートで済む。ただ、 AMR— WB方式の符号化は、モノラル音 声信号しかサポートして!/ヽな ヽと 、う問題がある。
[0008] 本発明の目的は、ステレオ信号を低ビットレートで精度良く符号ィ匕することができ、 また、音声通信等における遅延を抑えることができるステレオ符号ィ匕装置、ステレオ 復号装置、及びステレオ符号ィ匕方法を提供することである。
課題を解決するための手段
[0009] 本発明のステレオ符号ィ匕装置は、ステレオ信号の第 1チャネル信号に対して時間 領域における評価 (estimation)を行 ヽ、この評価結果を符号化する時間領域評価手 段と、前記第 1チャネル信号の周波数帯域を複数に分割し、各帯域の前記第 1チヤ ネル信号に対し周波数領域における評価を行ヽ、この評価結果を符号化する周波 数領域評価手段と、を具備する構成を採る。 発明の効果
[0010] 本発明によれば、ステレオ信号を低ビットレートで精度良く符号ィ匕することができ、 また、音声通信等における遅延を抑えることができる。
図面の簡単な説明
[0011] [図 1]本発明の一実施の形態に係るステレオ符号化装置の主要な構成を示すブロッ ク図
[図 2]本発明の一実施の形態に係る時間領域評価部の主要な構成を示すブロック図 [図 3]本発明の一実施の形態に係る周波数領域評価部の主要な構成を示すブロック 図
[図 4]本発明の一実施の形態に係るビット配分制御部の動作を説明するフロー図 [図 5]本発明の一実施の形態に係るステレオ復号装置の主要な構成を示すブロック 図
発明を実施するための最良の形態
[0012] 以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。
[0013] 図 1は本発明の一実施の形態に係るステレオ符号化装置 100の主要な構成を示す ブロック図である。
[0014] ステレオ符号化装置 100は、主に第 1レイヤ 110と第 2レイヤ 120とからなる階層的 な構成を採る。
[0015] 第 1レイヤ 110では、ステレオ音声信号を構成する左チャネル信号 Lと右チャネル 信号 Rとからモノラル信号 Mが生成され、このモノラル信号が符号化されて符号ィ匕情 報 P及びモノラル駆動音源信号 e が生成される。第 1レイヤ 110は、モノラル合成部
A M
101とモノラル符号ィ匕部 102とからなり、各部は以下の処理を行う。
[0016] モノラル合成部 101は、左チャネル信号 Lと右チャネル信号 Rと力もモノラル信号 M を合成する。ここでは、左チャネル信号 Lと右チャネル信号 Rの平均値を求めることに よりモノラル信号 Mを合成する。この方法を式で表すと M= (L+R) Z2となる。なお 、モノラル信号の合成方法として他の方法を使っても良ぐその一例を式で表すと M =w L+w Rである。この式において w、 wは、 w +w = 1. 0の関係を満たす重み
1 2 1 2 1 2
付け係数である。 [0017] モノラル符号ィ匕部 102は、 AMR— WB方式の符号化装置の構成を採る。モノラル 符号ィ匕部 102は、モノラル合成部 101から出力されるモノラル信号 Mを AMR—WB 方式で符号ィ匕し、符号化情報 Pを求めて多重化部 108に出力する。また、モノラル
A
符号ィ匕部 102は、符号ィ匕の過程において得られるモノラル駆動音源信号 e を第 2レ
M
ィャ 120に出力する。
[0018] 第 2レイヤ 120では、ステレオ音声信号に対して、時間領域及び周波数領域におけ る評価及び予測(prediction and estimation)が行われ、各種の符号化情報が生成さ れる。この処理において、まず、ステレオ音声信号を構成する左チャネル信号 Lが有 する空間的情報が検出及び算出される。この空間的情報により、ステレオ音声信号 は、臨場感 (拡がり感)を生じる。次に、この空間的情報をモノラル信号に与えることに より、左チャネル信号 Lに類似する評価信号が生成される。そして、各処理に関する 情報が符号ィ匕情報として出力される。第 2レイヤ 120は、フィルタリング部 103、時間 領域評価部 104、周波数領域評価部 105、残差符号化部 106、及びビット配分制御 部 107からなり、各部は以下の動作を行う。
[0019] フィルタリング部 103は、左チャネル信号 Lから LPC分析により LPC (Linear Predict ive Coding)係数を生成し、符号化情報 Pとして多重化部 108に出力する。また、フィ
F
ルタリング部 103は、左チャネル信号 Lと LPC係数を用いて左チャネルの駆動音源 信号 eを生成し、時間領域評価部 104に出力する。
[0020] 時間領域評価部 104は、第 1レイヤ 110のモノラル符号ィ匕部 102において生成され るモノラル駆動音源信号 e と、フィルタリング部 103において生成される左チャネル
M
の駆動音源信号 eとに対し、時間領域における評価及び予測を行い、時間領域評
価信号 e を生成して周波数領域評価部 105に出力する。即ち、時間領域評価部 1 estl
04は、モノラル駆動音源信号 e と、左チャネルの駆動音源信号 eとの間の時間領域
M L
における空間的情報を検出及び算出する。
[0021] 周波数領域評価部 105は、フィルタリング部 103において生成される左チャネルの 駆動音源信号 eと、時間領域評価部 104において生成される時間領域評価信号 e
し est とに対し、周波数領域における評価および予測を行い、周波数領域評価信号 e
1 est2 を生成して残差符号ィ匕部 106に出力する。即ち、周波数領域評価部 105は、時間領 域評価信号 e と左チャネルの駆動音源信号 eとの間の周波数領域における空間 estl L
的情報を検出及び算出する。
[0022] 残差符号ィ匕部 106は、周波数領域評価部 105において生成される周波数領域評 価信号 e と、フィルタリング部 103において生成される左チャネルの駆動音源信号 est2
eとの間の残差信号を求め、この信号を符号ィ匕し、符号化情報 Pを生成して多重化 し E
部 108に出力する。
[0023] ビット配分制御部 107は、モノラル符号ィ匕部 102において生成されるモノラル駆動 音源信号 e と、フィルタリング部 103において生成される左チャネルの駆動音源信号
M
eとの類似具合に応じて、時間領域評価部 104、周波数領域評価部 105、及び残差 し
符号化部 106に符号化ビットを配分する。なお、ビット配分制御部 107は、各部に配 分するビット数に関する情報を符号ィ匕し、得られる符号ィ匕情報 P
Bを出力する。
[0024] 多重化部 108は、 P力も Pまでの符号ィ匕情報を多重化し、多重化後のビットストリ
A F
ームを出力する。
[0025] ステレオ符号化装置 100に対応するステレオ復号装置は、第 1レイヤ 110で生成さ れたモノラル信号の符号ィ匕情報 P及び第 2レイヤ 120で生成された左チャネル信号
A
の符号化情報 P 〜Pを取得し、これらの符号ィ匕情報力 モノラル信号と左チャネル
B F
信号とを復号することができる。また、復号されたモノラル信号と左チャネル信号とか ら右チャネル信号も生成することができる。
[0026] 図 2は時間領域評価部 104の主要な構成を示すブロック図である。時間領域評価 部 104には、モノラル駆動音源信号 e が目標信号として、左チャネルの駆動音源信
M
号 eが参照信号として入力される。時間領域評価部 104は、音声信号処理の毎フレ し
ームに 1回、モノラル駆動音源信号 e と左チャネルの駆動音源信号 eとの間の空間
M L
的情報を検出及び算出し、これらの結果を符号化して符号ィ匕情報 P
Cを出力する。こ こで、時間領域における空間的情報は、振幅情報 (と遅延情報 τとから構成される。
[0027] エネルギ算出部 141 1は、モノラル駆動音源信号 e が入力され、この信号の時
M
間領域におけるエネルギを算出する。
[0028] エネルギ算出部 141 2は、左チャネルの駆動音源信号 eが入力され、エネルギ
算出部 141— 1と同様な処理によって、左チャネルの駆動音源信号 eの時間領域に おけるエネルギを算出する。
[0029] 比率算出部 142は、エネルギ算出部 141— 1と 141— 2においてそれぞれ算出さ れるエネルギ値が入力され、モノラル駆動音源信号 e と左チャネルの駆動音源信号
M
eとのエネルギ比率を算出し、モノラル駆動音源信号 e と左チャネルの駆動音源信
L M
号 eとの間の空間的情報 (振幅情報 α )として出力する。
[0030] 相関値算出部 143は、モノラル駆動音源信号 e と左チャネルの駆動音源信号 eと
M L
が入力され、この 2つの信号間の相互相関値(cross correlation)を算出する。
[0031] 遅延検出部 144は、相関値算出部 143で算出する相互相関値が入力され、左チヤ ネルの駆動音源信号 eとモノラル駆動音源信号 e との間の時間遅延を検出し、モノ
L M
ラル駆動音源信号 e と左チャネルの駆動音源信号 eとの間の空間的情報 (遅延情
M L
報 τ )として出力する。
[0032] 評価信号生成部 145は、比率算出部 142で算出される振幅情報 αと遅延検出部 1 44で算出される遅延情報 τとに基づいて、モノラル駆動音源信号 e から、左チヤネ
M
ルの駆動音源信号 eに類似する時間領域評価信号 e を生成する。
L estl
[0033] このように、時間領域評価部 104は、音声信号処理の毎フレームに 1回、モノラル 駆動音源信号 e と左チャネルの駆動音源信号 eとの間の時間領域における空間的
M L
情報を検出及び算出し、得られる符号化情報 Pを出力する。ここで、
C 空間的情報は 振幅情報 (Xと遅延情報てとから構成される。また、時間領域評価部 104は、この空間 的情報をモノラル駆動音源信号 e に与え、左チャネルの駆動音源信号 eに類似す
M L
る時間領域評価信号 e を生成する。
estl
[0034] 図 3は周波数領域評価部 105の主要な構成を示すブロック図である。周波数領域 評価部 105は、時間領域評価部 104が生成した時間領域評価信号 e を目標信号
estl
として、左チャネルの駆動音源信号 eを参照信号として入力して、周波数領域にお
ける評価および予測を行い、これらの結果を符号ィ匕して符号ィ匕情報 Pを出力する。
D
ここで、周波数領域における空間的情報は、スペクトルの振幅情報 |8と位相差情報 Θとから構成される。
[0035] FFT¾151— 1 «、高速フーリエ変換 (FFT)により、時間領域信号である左チヤネ ルの駆動音源信号 eを周波数領域信号 (スペクトル)に変換する。 [0036] 分割部 152— 1は、 FFT部 151—1で生成される周波数領域信号の帯域を複数の 帯域 (サブバンド)に分割する。各サブバンドは、人間の聴覚システムに対応するバ ークスケール(Bark Scale)に従っても良いし、または帯域幅内において等分割しても 良い。
[0037] エネルギ算出部 153— 1は、左チャネルの駆動音源信号 eのスペクトルエネルギを
L
、分割部 152— 1から出力される各サブバンド毎に算出する。
[0038] FFT部 151— 2は、 FFT部 151— 1と同様な処理によって、時間領域評価信号 e estl を周波数領域信号に変換する。
[0039] 分割部 152— 2は、分割部 152— 1と同様な処理によって、 FFT部 151— 2で生成 される周波数領域信号の帯域を複数のサブバンドに分割する。
[0040] エネルギ算出部 153— 2は、エネルギ算出部 153— 1と同様な処理によって、時間 領域評価信号 e のスペクトルエネルギを、分割部 152— 2から出力される各サブバ estl
ンド毎に算出する。
[0041] 比率算出部 154は、エネルギ算出部 153— 1とエネルギ算出部 153— 2とで算出さ れる各サブバンドのスペクトルエネルギを用いて、左チャネルの駆動音源信号 e
しと時 間領域評価信号 e とのスペクトルエネルギ比率を各サブバンド毎に算出し、符号ィ匕 estl
情報 pの一部である振幅情報 として出力する。
D
[0042] 位相算出部 155— 1は、左チャネルの駆動音源信号 eの各サブバンドにおける各
スペクトルの位相を算出する。
[0043] 位相選択部 156は、符号化情報の情報量を削減するために、各サブバンドにおけ るスペクトルの位相から、符号化に適する位相を 1つ選択する。
[0044] 位相算出部 155— 2は、位相算出部 155— 1と同様な処理によって、時間領域評 価信号 e の各サブバンドにおける各スペクトルの位相を算出する。
estl
[0045] 位相差算出部 157は、位相選択部 156で選択された各サブバンドにおける位相に おいて、左チャネルの駆動音源信号 eと時間領域評価信号 e との位相差を算出し
L estl
、符号化情報 Pの一部である位相差情報 Θとして出力する。
D
[0046] 評価信号生成部 158は、左チャネルの駆動音源信号 eと時間領域評価信号 e と
L estl の間の振幅情報 ι8、および、左チャネルの駆動音源信号 eと時間領域評価信号 e との間の位相差情報 Θ、の双方に基づき、時間領域評価信号 e から周波数領域 estl
評価信号 e を生成する。
est2
[0047] :のように、周波数領域評価部 105は、左チャネルの駆動音源信号 e及び時間領 域評価部 104で生成される時間領域評価信号 e のそれぞれを複数のサブバンド estl
に分割し、サブバンド毎に時間領域評価信号 e と左チャネルの駆動音源信号 eと estl L の間のスペクトルエネルギ比率および位相差を算出する。時間領域における時間遅 延と周波数領域における位相差とは等価であるから、周波数領域における位相差を 算出し、これを正確に制御または調整することにより、時間領域では符号化しきれな かった特徴を周波数領域にて符号ィ匕することが可能となり、符号ィ匕精度はより向上す る。周波数領域評価部 105は、時間領域評価により得られた左チャネルの駆動音源 信号 eに類似する時間領域評価信号 e 〖こ、周波数領域評価によって算出される
L estl
微細な差異を与えて、より左チャネルの駆動音源信号 e
しに類似する周波数領域評価 信号 e を生成する。また、周波数領域評価部 105は、この空間的情報を時間領域 est2
評価信号 e
estlに与えて、より左チャネルの駆動音源信号 e
Lに類似する周波数領域評 価信号 e を生成する。
est2
[0048] 次いで、ビット配分制御部 107の動作の詳細について説明する。音声信号の各フ レームに対し、符号ィ匕に割り当てられるビット数は予め決まっている。ビット配分制御 部 107は、この所定のビットレートにおいて最適な音声品質を実現するために、左チ ャネルの駆動音源信号 eとモノラル駆動音源信号 e とが類似している力否かによつ
L M
て、各処理部に配分するビットの数を適応的に決定する。
[0049] 図 4はビット配分制御部 107の動作を説明するフロー図である。
[0050] ST (ステップ) 1071において、ビット配分制御部 107は、モノラル駆動音源信号 e
M
と左チャネルの駆動音源信号 eとを比較し、時間領域におけるこれら 2つの信号の類
似具合を判断する。具体的には、ビット配分制御部 107は、モノラル駆動音源信号 e と左チャネルの駆動音源信号 eとの二乗平均誤差を算出し、これを既定の閾値と
M L
比較して閾値以下であれば、 2つの信号は類似して 、ると判断する。
[0051] モノラル駆動音源信号 e と左チャネルの駆動音源信号 eとが類似している場合 (S
M L
T1072 : YES)、この 2つの信号の時間領域における差は小さぐより小さな差を符号 化するのに必要とされるビット数はより少なくて良い。つまり、時間領域評価部 104に はより少なぐ他の各部 (周波数領域評価部 105、残差符号ィ匕部 106)、特に周波数 領域評価部 105にはより多くのビットを配分するような不均一なビット配分を行えば、 効率的なビット割り当てなので符号ィ匕効率が良くなる。従って、ビット配分制御部 107 は、 ST1072において類似していると判断した場合、 ST1073において時間領域評 価へより少ない数のビットを配分し、 ST1074で残りのビットを他の処理に均等に配 分する。
[0052] 一方、モノラル駆動音源信号 e と左チャネルの駆動音源信号 eとが類似していな
M L
い場合 (ST1072 :NO)、 2つの時間領域信号間の差は大きくなり、時間領域評価は ある程度までの類似性を評価できるだけで、評価信号の精度を高めるためには周波 数領域における信号評価も重要である。よって、時間領域評価及び周波数領域評価 の両方とも同等に重要である。また、かかる場合、周波数領域評価後にも、評価信号 と左チャネルの駆動音源信号 eとの間には差が残っている可能性があるため、残差
についても符号ィ匕して符号ィ匕情報を得ることが重要である。従って、ビット配分制御 部 107は、 ST1072においてモノラル駆動音源信号 e と左チャネルの駆動音源信
M
号 eとが類似していないと判断した場合、 ST1075において、すべての処理の重要 し
度を同等と見なして、すべての処理に均等にビットを配分する。
[0053] 図 5は本実施の形態に係るステレオ復号装置 200の主要な構成を示すブロック図 である。
[0054] ステレオ復号装置 200もステレオ符号化装置 100と同じぐ主に第 1レイヤ 210と第 2レイヤ 220とからなる階層的な構成を採る。また、ステレオ復号装置 200の各処理 は、ステレオ符号ィ匕装置 100の対応する各処理の基本的に逆処理となる。即ち、ス テレオ復号装置 200は、ステレオ符号化装置 100から送られる符号化情報を用いて 、モノラル信号力 左チャネル信号を予測して生成し、さらにモノラル信号と左チヤネ ル信号とを用いて、右チャネル信号を生成する。
[0055] 分離部 201は、入力されるビットストリームを P力も Pまでの符号化情報に分離す
A F
る。
[0056] 第 1レイヤ 210は、モノラル復号部 202から構成される。モノラル復号部 202は、符 号化情報 Pを復号して、モノラル信号 M'及びモノラル駆動音源信号 e ,を生成する
A M
[0057] 第 2レイヤ 220は、ビット配分情報復号部 203、時間領域評価部 204、周波数領域 評価部 205、及び残差復号部 206からなり、各部は以下の動作を行う。
[0058] ビット配分情報復号部 203は、符号化情報 Pを復号し、時間領域評価部 204、周
B
波数領域評価部 205、及び残差復号部 206でそれぞれ使用されるビット数を出力す る。
[0059] 時間領域評価部 204は、モノラル復号部 202において生成されるモノラル駆動音 源信号 e '、分離部 201から出力される符号ィ匕情報 P、及びビット配分情報復号部
M C
203から出力されるビット数を用いて、時間領域における評価及び予測を行い、時間 領域評価信号 e 'を生成する。
estl
[0060] 周波数領域評価部 205は、時間領域評価部 204において生成される時間領域評 価信号 e '、分離部 201から出力される符号ィ匕情報 P、及びビット配分情報復号 estl D
部 203から渡されたビット数を用いて、周波数領域における評価及び予測を行い、周 波数領域評価信号 e 'を生成する。周波数領域評価部 205は、周波数領域におけ est2
る評価及び予測に先立ち、ステレオ符号ィ匕装置 100の周波数領域評価部 105と同 様に、周波数変換を行う FFT部を有する。
[0061] 残差復号部 206は、分離部 201から出力される符号ィ匕情報 P及びビット配分情報
E
復号部 203から渡されたビット数を用いて、残差信号を復号する。また、残差復号部 206は、周波数領域評価部 205で生成される周波数領域評価信号 e 'に、この復 est2
号された残差信号を与え、左チャネルの駆動音源信号 e 'を生成する。
[0062] 合成フィルタリング部 207は、符号化情報 P力 LPC係数を復号し、この LPC係数
F
と残差復号部 206において生成される左チャネルの駆動音源信号 e 'とを合成して、
左チャネル信号 L'を生成する。
[0063] ステレオ変換部 208は、モノラル復号部 202で復号されるモノラル信号 M,、および 合成フィルタ 207で生成される左チャネル信号 L,を用いて、右チャネル信号 R,を生 成する。
[0064] このように、本実施の形態に係るステレオ符号ィ匕装置によれば、符号化対象である ステレオ音声信号に対し、まず時間領域において評価及び予測を行った後、周波数 領域において更に詳細な評価及び予測を行って、これら 2段階の評価及び予測に関 する情報を符号ィ匕情報として出力する。従って、時間領域における評価及び予測で は十分に表現できな力つた情報に対して周波数領域において補完的な評価及び予 測を行うことができ、ステレオ音声信号を低ビットレートで精度良く符号ィ匕することがで きる。
[0065] また、本実施の形態によれば、時間領域評価部 104における時間領域評価は、全 周波数帯域に渡る信号の空間的情報の平均レベルを評価することに相当する。例え ば、時間領域評価部 104ぉ 、て空間的情報として求められるエネルギ比及び時間 遅延は、 1フレームの符号化対象の信号をそのまま 1信号として処理し、この信号の 全体的または平均的なエネルギ比及び時間遅延を求めたものである。一方、周波数 領域評価部 105における周波数領域評価は、符号化対象の信号の周波数帯域を複 数のサブバンドに分割し、この細分ィ匕された個々の信号の評価を行っている。換言 すると、本実施の形態によれば、時間領域においてステレオ音声信号の概略的な評 価を行った後、周波数領域において更なる評価を行うことにより評価信号を微調整す る。従って、符号ィ匕対象の信号を 1信号として扱うと十分に表現できな力つた情報に 対し、複数の信号に細分化して更なる評価を行うため、ステレオ音声信号の符号ィ匕 精度を向上させることができる。
[0066] また、本実施の形態によれば、モノラル信号と左チャネル信号 (または右チャネル 信号)との類似具合に応じて、すなわち、ステレオ音声信号の状況に応じて、所定ビ ットレートの範囲内において、時間領域評価、周波数領域評価等の各処理に対し適 応的にビットを配分する。これにより、効率的でかつ精度良く符号ィ匕を行うことができ ると共に、ビットレートスケーラビリティを実現することができる。
[0067] また、本実施の形態によれば、 MPEG - 2 AACに必須の MDCT処理を必要とし ないため、リアルタイム音声通信システム等において、時間遅延を許容範囲限度内 に抑えることができる。
[0068] また、本実施の形態によれば、時間領域評価にお!、て、エネルギ比および時間遅 延という少ないパラメータで符号ィ匕を行うため、ビットレートを削減することができる。 [0069] また、本実施の形態によれば、 2つのレイヤ力もなる階層的な構成を採るため、モノ ラルレベルからステレオレベルへスケーリングすることができる。よって、何らかの原因 で、周波数領域評価に関する情報を復号できない場合でも、時間領域評価に関する 情報だけを復号することにより、品質は多少劣化するものの、所定品質のステレオ音 声信号を復号することができるため、スケーラビリティを向上させることができる。
[0070] また、本実施の形態によれば、第 1レイヤにおいてモノラル信号を AMR— WB方式 で符号ィ匕するため、ビットレートを低く抑えることができる。
[0071] なお、本実施の形態に係るステレオ符号ィヒ装置、ステレオ復号装置、及びステレオ 符号化方法は、種々変更して実施することが可能である。
[0072] 例えば、本実施の形態では、ステレオ符号ィ匕装置 100でモノラル信号と左チャネル 信号とを符号化対象とし、ステレオ復号装置 200では、モノラル信号および左チヤネ ル信号を復号してこれらの復号信号を合成することによって、右チャネル信号を復号 する場合を例にとって説明したが、ステレオ符号ィ匕装置 100の符号ィ匕対象の信号は これに限定されず、ステレオ符号ィ匕装置 100でモノラル信号と右チャネル信号とを符 号化対象とし、ステレオ復号装置 200で復号された右チャネル信号とモノラル信号と を合成することによって、左チャネル信号を生成するようにしても良 、。
[0073] また、本実施の形態でフィルタリング部 103にお 、て、 LPC係数に対する符号化情 報としては、 LPC係数を他の等価なパラメータに変換したもの(例えば LSPパラメ一 タ)を用いても良い。
[0074] また、本実施の形態では、所定数のビットをビット配分制御部 107によって各処理 に配分している力 ビット配分制御処理を行わなくて、前もって各部に使われるビット 数を決めておく固定ビット配分を行っても良い。かかる場合、ステレオ符号ィ匕装置 10 0においてはビット配分制御部 107が不要である。また、この固定のビット配分の割合 は、ステレオ符号ィ匕装置 100及びステレオ復号装置 200に共通であるので、ステレ ォ復号装置 200においてもビット配分情報復号部 203は不要である。
[0075] また、本実施の形態でビット配分制御部 107は、ステレオ音声信号の状況に応じて 適応的にビット配分を行っている力 S、ネットワークの状況に応じて適応的にビット配分 を行っても良い。 [0076] また、本実施の形態に係る残差符号ィ匕部 106は、ビット配分制御部 107によって配 分される所定数のビットを使用して符号ィ匕を行うことで、ロッシ一システムとなる。所定 数のビットを使用する符号化としては、例えばベクトル量子化がある。一般的に、残差 符号ィ匕部は、符号ィ匕方法の違いによって、ロッシ一システムまたはロスレスシステムと いう特徴の相異なる符号化システムとなる。ロスレスシステムは、ロッシ一システムに 比べて、復号装置で信号をより正確に復号することができるという特徴があるが、圧 縮率が低いためビットレートが高くなる。例えば、残差符号ィ匕部 106において、残差 信号がハフマン (Huffinan)符号化、ライス (Rice)符号ィ匕等のノイズレス符号ィ匕方法に よって符号化されれば、ロスレスシステムとなる。
[0077] また、本実施の形態で比率算出部 142は、モノラル駆動音源信号 e と左チャネル
M
の駆動音源信号 eとのエネルギ比率を算出して振幅情報 αとするが、エネルギ比率
の代わりにエネルギ差を算出して振幅情報 αとしても良!、。
[0078] また、本実施の形態で比率算出部 154は、各サブバンドにおける、左チャネルの駆 動音源信号 eと時間領域評価信号 e とのスペクトルエネルギ比率 を算出して振
L estl
幅情報 j8とするが、エネルギ比率の代わりにエネルギ差を算出して振幅情報 j8とし ても良い。
[0079] また、本実施の形態では、モノラル駆動音源信号 e と左チャネルの駆動音源信号 e
M
との間の時間領域における空間的情報が振幅情報 ocと遅延情報 τとからなってい し
るが、この空間的情報は他の情報をさらに含んでいても良いし、振幅情報 α、遅延情 報て等とは全く異なる他の情報からなっていても良い。
[0080] また、本実施の形態では、左チャネルの駆動音源信号 eと時間領域評価信号 e
L estl との間の周波数領域における空間的情報が振幅情報 と位相差情報 øとからなつ ているが、この空間的情報は他の情報をさらに含んでいても良いし、振幅情報 j8、位 相差情報 Θ等とは全く異なる他の情報からなっていても良い。
[0081] また、本実施の形態で時間領域評価部 104は、モノラル駆動音源信号 e と左チヤ
M
ネルの駆動音源信号 eとの間の空間的情報の検出及び算出をフレーム毎に行うが、
L
この処理を 1フレーム内にぉ 、て複数回行っても良 、。
[0082] また、本実施の形態で位相選択部 156は、各サブバンドにおいて、 1つのスぺタト ル位相を選択している力 複数のスペクトル位相を選択しても良い。かかる場合、位 相差算出部 157は、この複数の位相における、左チャネルの駆動音源信号 eと時間 し 領域評価信号 e との位相差 Θの平均を算出し、位相差算出部 157に出力する。
estl
[0083] また、本実施の形態で残差符号ィ匕部 106は、残差信号に対して時間領域符号化を 行うが、周波数領域符号ィ匕を行っても良い。
[0084] また、本実施の形態では、音声信号を符号化対象とする場合を例にとって説明した 力 本発明に係るステレオ符号化装置、ステレオ復号装置、及びステレオ符号化方 法は、音声信号のほかオーディオ信号にも適用することができる。
[0085] 以上、本発明の実施の形態について説明した。
[0086] 本発明に係るステレオ符号化装置およびステレオ復号装置は、移動体通信システ ムにおける通信端末装置および基地局装置に搭載することが可能であり、これにより 上記と同様の作用効果を有する通信端末装置、基地局装置、および移動体通信シ ステムを提供することができる。
[0087] また、ここでは、本発明をノヽードウエアで構成する場合を例にとって説明した力 本 発明をソフトウェアで実現することも可能である。例えば、本発明に係るステレオ符号 化方法及びステレオ復号方法のアルゴリズムをプログラミング言語によって記述し、こ のプログラムをメモリに記憶しておいて情報処理手段によって実行させることにより、 本発明に係るステレオ符号ィ匕及びステレオ復号装置と同様の機能を実現することが できる。
[0088] また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路 である LSIとして実現される。これらは個別に 1チップ化されても良いし、一部または 全てを含むように 1チップィ匕されても良い。
[0089] また、ここでは LSIとした力 集積度の違いによって、 IC、システム LSI、スーパー L SI、ウノレ卜ラ LSI等と呼称されることちある。
[0090] また、集積回路化の手法は LSIに限るものではなぐ専用回路または汎用プロセッ サで実現しても良い。 LSI製造後に、プログラム化することが可能な FPGA (Field Pro grammable Gate Array)や、 LSI内部の回路セルの接続もしくは設定を再構成可能な リコンフィギユラブル ·プロセッサを利用しても良 、。 [0091] さらに、半導体技術の進歩または派生する別技術により、 LSIに置き換わる集積回 路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積ィ匕を行って も良い。バイオ技術の適応等が可能性としてあり得る。
[0092] 本明糸田書 ίま、 2005年 8月 31日出願の特願 2005— 252778に基づく。この内容【ま すべてここに含めておく。
産業上の利用可能性
[0093] 本発明に係るステレオ符号化装置、ステレオ復号装置、及びステレオ符号化方法 は、携帯電話、 IP電話、テレビ会議等に好適である。

Claims

請求の範囲
[1] ステレオ信号の第 1チャネル信号に対して時間領域における評価を行い、この評価 結果を符号化する時間領域評価手段と、
前記第 1チャネル信号の周波数帯域を複数に分割し、各帯域の前記第 1チャネル 信号に対し周波数領域における評価を行 ヽ、この評価結果を符号化する周波数領 域評価手段と、
を具備するステレオ符号化装置。
[2] 前記ステレオ信号力 生成されるモノラル信号を符号ィ匕する第 1レイヤ符号ィ匕手段 と、
前記時間領域評価手段および前記周波数領域評価手段を有する第 2レイヤ符号 化手段と、
を具備してスケーラブル符号ィ匕を行う、
請求項 1記載のステレオ符号化装置。
[3] 前記時間領域評価手段は、
前記モノラル信号を用いて前記時間領域における評価を行 ヽ、前記第 1チャネル 信号に類似する時間領域評価信号を生成し、
前記周波数領域評価手段は、
前記第 1チャネル信号と同様に前記時間領域評価信号の周波数帯域も複数に分 割し、各帯域の前記時間領域評価信号を用いて前記周波数領域における評価を行 つて、前記第 1チャネル信号に類似する周波数領域評価信号を生成する、
請求項 2記載のステレオ符号化装置。
[4] 前記第 1チャネル信号と前記モノラル信号との類似具合に応じて、前記時間領域 評価手段と前記周波数領域評価手段とにビットを配分するビット配分手段、 をさらに具備する請求項 2記載のステレオ符号ィ匕装置。
[5] 前記ビット配分手段は、
前記第 1チャネル信号と前記モノラル信号との類似度が所定値以上の場合、より多 くのビットを前記周波数領域評価手段に配分する、
請求項 4記載のステレオ符号化装置。
[6] 前記ビット配分手段は、
前記第 1チャネル信号と前記モノラル信号との類似度が所定値未満の場合、前記 時間領域評価手段と前記周波数領域評価手段とに均等にビットを配分する、 請求項 4記載のステレオ符号化装置。
[7] 前記第 1チャネル信号と前記周波数領域評価信号との間の残差を符号ィ匕する残差 符号化手段、
をさらに具備する請求項 3記載のステレオ符号ィ匕装置。
[8] 前記時間領域評価手段は、
前記時間領域における評価にぉ 、て、前記第 1チャネル信号と前記モノラル信号と の間の空間的情報を求め、
前記周波数領域評価手段は、
前記周波数領域における評価において、前記第 1チャネル信号と前記時間領域評 価信号との間の空間的情報を求める、
請求項 3記載のステレオ符号化装置。
[9] ステレオ信号の第 1チャネル信号に対して時間領域における評価がされ、この評価 結果が符号化された符号ィ匕情報を復号する時間領域復号手段と、
前記第 1チャネル信号の周波数帯域が複数に分割され、各帯域の前記第 1チヤネ ル信号に対し周波数領域における評価がされ、この評価結果が符号化された符号 化情報を復号する周波数領域復号手段と、
を具備するステレオ復号装置。
[10] ステレオ信号の第 1チャネル信号に対して時間領域における評価を行うステップと、 前記時間領域における評価の結果を符号ィヒするステップと、
前記第 1チャネル信号の周波数帯域を複数に分割するステップと、
分割後の各帯域の前記第 1チャネル信号に対し周波数領域における評価を行うス テツプと、
前記周波数領域における評価の結果を符号ィヒするステップと、
を具備するステレオ符号ィ匕方法。
PCT/JP2006/317104 2005-08-31 2006-08-30 ステレオ符号化装置、ステレオ復号装置、及びステレオ符号化方法 WO2007026763A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
US12/064,995 US8457319B2 (en) 2005-08-31 2006-08-30 Stereo encoding device, stereo decoding device, and stereo encoding method
KR1020087005096A KR101340233B1 (ko) 2005-08-31 2006-08-30 스테레오 부호화 장치, 스테레오 복호 장치 및 스테레오부호화 방법
EP06797077A EP1912206B1 (en) 2005-08-31 2006-08-30 Stereo encoding device, stereo decoding device, and stereo encoding method
JP2007533292A JP5171256B2 (ja) 2005-08-31 2006-08-30 ステレオ符号化装置、ステレオ復号装置、及びステレオ符号化方法
CN2006800319487A CN101253557B (zh) 2005-08-31 2006-08-30 立体声编码装置及立体声编码方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2005252778 2005-08-31
JP2005-252778 2005-08-31

Publications (1)

Publication Number Publication Date
WO2007026763A1 true WO2007026763A1 (ja) 2007-03-08

Family

ID=37808848

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2006/317104 WO2007026763A1 (ja) 2005-08-31 2006-08-30 ステレオ符号化装置、ステレオ復号装置、及びステレオ符号化方法

Country Status (6)

Country Link
US (1) US8457319B2 (ja)
EP (1) EP1912206B1 (ja)
JP (1) JP5171256B2 (ja)
KR (1) KR101340233B1 (ja)
CN (1) CN101253557B (ja)
WO (1) WO2007026763A1 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011527763A (ja) * 2008-07-11 2011-11-04 サムスン エレクトロニクス カンパニー リミテッド マルチチャネルの符号化及び復号化方法並びに装置
KR101274827B1 (ko) 2008-12-29 2013-06-13 모토로라 모빌리티 엘엘씨 다수 채널 오디오 신호를 디코딩하기 위한 장치 및 방법, 및 다수 채널 오디오 신호를 코딩하기 위한 방법
KR101274802B1 (ko) 2008-12-29 2013-06-13 모토로라 모빌리티 엘엘씨 오디오 신호를 인코딩하기 위한 장치 및 방법
KR101275892B1 (ko) 2008-12-29 2013-06-17 모토로라 모빌리티 엘엘씨 오디오 신호를 인코딩하고 디코딩하기 위한 방법 및 장치
JP5413839B2 (ja) * 2007-10-31 2014-02-12 パナソニック株式会社 符号化装置および復号装置
WO2024111300A1 (ja) * 2022-11-22 2024-05-30 富士フイルム株式会社 音データ作成方法及び音データ作成装置

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7461106B2 (en) 2006-09-12 2008-12-02 Motorola, Inc. Apparatus and method for low complexity combinatorial coding of signals
US8576096B2 (en) 2007-10-11 2013-11-05 Motorola Mobility Llc Apparatus and method for low complexity combinatorial coding of signals
US8209190B2 (en) 2007-10-25 2012-06-26 Motorola Mobility, Inc. Method and apparatus for generating an enhancement layer within an audio coding system
US8359196B2 (en) * 2007-12-28 2013-01-22 Panasonic Corporation Stereo sound decoding apparatus, stereo sound encoding apparatus and lost-frame compensating method
US7889103B2 (en) 2008-03-13 2011-02-15 Motorola Mobility, Inc. Method and apparatus for low complexity combinatorial coding of signals
WO2009116280A1 (ja) * 2008-03-19 2009-09-24 パナソニック株式会社 ステレオ信号符号化装置、ステレオ信号復号装置およびこれらの方法
US8639519B2 (en) 2008-04-09 2014-01-28 Motorola Mobility Llc Method and apparatus for selective signal coding based on core encoder performance
US8175888B2 (en) * 2008-12-29 2012-05-08 Motorola Mobility, Inc. Enhanced layered gain factor balancing within a multiple-channel audio coding system
CN102292769B (zh) * 2009-02-13 2012-12-19 华为技术有限公司 一种立体声编码方法和装置
US8848925B2 (en) 2009-09-11 2014-09-30 Nokia Corporation Method, apparatus and computer program product for audio coding
KR101710113B1 (ko) * 2009-10-23 2017-02-27 삼성전자주식회사 위상 정보와 잔여 신호를 이용한 부호화/복호화 장치 및 방법
CN102081927B (zh) * 2009-11-27 2012-07-18 中兴通讯股份有限公司 一种可分层音频编码、解码方法及系统
US8423355B2 (en) 2010-03-05 2013-04-16 Motorola Mobility Llc Encoder for audio signal including generic audio and speech frames
KR101437896B1 (ko) 2010-04-09 2014-09-16 돌비 인터네셔널 에이비 Mdct-기반의 복소수 예측 스테레오 코딩
AU2011240239B2 (en) * 2010-04-13 2014-06-26 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio or video encoder, audio or video decoder and related methods for processing multi-channel audio or video signals using a variable prediction direction
KR101276049B1 (ko) * 2012-01-25 2013-06-20 세종대학교산학협력단 조건부 스플릿 벡터 양자화를 이용한 음성 압축 장치 및 그 방법
KR101662681B1 (ko) 2012-04-05 2016-10-05 후아웨이 테크놀러지 컴퍼니 리미티드 멀티채널 오디오 인코더 및 멀티채널 오디오 신호 인코딩 방법
CN104170007B (zh) * 2012-06-19 2017-09-26 深圳广晟信源技术有限公司 对单声道或立体声进行编码的方法
US9711150B2 (en) 2012-08-22 2017-07-18 Electronics And Telecommunications Research Institute Audio encoding apparatus and method, and audio decoding apparatus and method
US9129600B2 (en) 2012-09-26 2015-09-08 Google Technology Holdings LLC Method and apparatus for encoding an audio signal
RU2625444C2 (ru) * 2013-04-05 2017-07-13 Долби Интернэшнл Аб Система обработки аудио
EP3067886A1 (en) 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
WO2017049397A1 (en) * 2015-09-25 2017-03-30 Voiceage Corporation Method and system using a long-term correlation difference between left and right channels for time domain down mixing a stereo sound signal into primary and secondary channels
USD794093S1 (en) 2015-12-24 2017-08-08 Samsung Electronics Co., Ltd. Ice machine handle for refrigerator
USD793458S1 (en) 2015-12-24 2017-08-01 Samsung Electronics Co., Ltd. Ice machine for refrigerator
CN115132214A (zh) * 2018-06-29 2022-09-30 华为技术有限公司 立体声信号的编码、解码方法、编码装置和解码装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10105193A (ja) * 1996-09-26 1998-04-24 Yamaha Corp 音声符号化伝送方式
JPH11317672A (ja) * 1997-11-20 1999-11-16 Samsung Electronics Co Ltd ビット率の調節可能なステレオオーディオ符号化/復号化方法及び装置
JP2004289196A (ja) * 2002-03-08 2004-10-14 Nippon Telegr & Teleph Corp <Ntt> ディジタル信号符号化方法、復号化方法、符号化装置、復号化装置及びディジタル信号符号化プログラム、復号化プログラム
JP2004302259A (ja) * 2003-03-31 2004-10-28 Matsushita Electric Ind Co Ltd 音響信号の階層符号化方法および階層復号化方法
JP2005517987A (ja) * 2002-02-18 2005-06-16 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ パラメトリックオーディオ符号化
JP2005252778A (ja) 2004-03-05 2005-09-15 Oki Electric Ind Co Ltd 時間分割波長ホップ光符号による通信方法及び通信装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1021044A1 (en) * 1999-01-12 2000-07-19 Deutsche Thomson-Brandt Gmbh Method and apparatus for encoding or decoding audio or video frame data
US7292901B2 (en) * 2002-06-24 2007-11-06 Agere Systems Inc. Hybrid multi-channel/cue coding/decoding of audio signals
WO2003077425A1 (fr) * 2002-03-08 2003-09-18 Nippon Telegraph And Telephone Corporation Procedes de codage et de decodage signaux numeriques, dispositifs de codage et de decodage, programme de codage et de decodage de signaux numeriques
ES2323294T3 (es) * 2002-04-22 2009-07-10 Koninklijke Philips Electronics N.V. Dispositivo de decodificacion con una unidad de decorrelacion.
KR100528325B1 (ko) 2002-12-18 2005-11-15 삼성전자주식회사 비트율 조절이 가능한 스테레오 오디오 부호화 및복호화방법 및 그 장치
DE602004002390T2 (de) 2003-02-11 2007-09-06 Koninklijke Philips Electronics N.V. Audiocodierung
US20060171542A1 (en) * 2003-03-24 2006-08-03 Den Brinker Albertus C Coding of main and side signal representing a multichannel signal
CN101800049B (zh) * 2003-09-16 2012-05-23 松下电器产业株式会社 编码装置和译码装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10105193A (ja) * 1996-09-26 1998-04-24 Yamaha Corp 音声符号化伝送方式
JPH11317672A (ja) * 1997-11-20 1999-11-16 Samsung Electronics Co Ltd ビット率の調節可能なステレオオーディオ符号化/復号化方法及び装置
JP2005517987A (ja) * 2002-02-18 2005-06-16 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ パラメトリックオーディオ符号化
JP2004289196A (ja) * 2002-03-08 2004-10-14 Nippon Telegr & Teleph Corp <Ntt> ディジタル信号符号化方法、復号化方法、符号化装置、復号化装置及びディジタル信号符号化プログラム、復号化プログラム
JP2004302259A (ja) * 2003-03-31 2004-10-28 Matsushita Electric Ind Co Ltd 音響信号の階層符号化方法および階層復号化方法
JP2005252778A (ja) 2004-03-05 2005-09-15 Oki Electric Ind Co Ltd 時間分割波長ホップ光符号による通信方法及び通信装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
GOTO M. ET AL.: "Onsei Tushinyo Scalable Stereo Onsei Fugoka Hoho no Kento", DAI 4 KAI FORUM ON INFORMATION TECHNOLOGY KOEN RONBUNSHU, 22 August 2005 (2005-08-22), pages 299 - 300, XP003009891 *
OSHIKIRI M. ET AL.: "Pitch Filtering ni Motozuku Spectrum Fugoka o Mochiita Cho Kotaiiki Scalale Onsei Fugoka no Kaizen", JOURNAL OF THE ACOUSTICAL SOCIETY OF JAPAN 2004 NEN SHUKI KENKYU HAPPYOKAI KOEN RONBUNSHU-I-, 21 September 2004 (2004-09-21), pages 297 - 298, XP002994276 *
See also references of EP1912206A4
YOSHIDA K. ET AL.: "Scalable Stereo Onsei Fugoka no Channel-kan Yosoku ni Kansuru Yobi Kento", PROCEEDINGS OF THE 2005 IEICE GENERAL CONFERENCE, 7 March 2005 (2005-03-07), pages 118, XP003009892 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5413839B2 (ja) * 2007-10-31 2014-02-12 パナソニック株式会社 符号化装置および復号装置
JP2011527763A (ja) * 2008-07-11 2011-11-04 サムスン エレクトロニクス カンパニー リミテッド マルチチャネルの符号化及び復号化方法並びに装置
KR101274827B1 (ko) 2008-12-29 2013-06-13 모토로라 모빌리티 엘엘씨 다수 채널 오디오 신호를 디코딩하기 위한 장치 및 방법, 및 다수 채널 오디오 신호를 코딩하기 위한 방법
KR101274802B1 (ko) 2008-12-29 2013-06-13 모토로라 모빌리티 엘엘씨 오디오 신호를 인코딩하기 위한 장치 및 방법
KR101275892B1 (ko) 2008-12-29 2013-06-17 모토로라 모빌리티 엘엘씨 오디오 신호를 인코딩하고 디코딩하기 위한 방법 및 장치
WO2024111300A1 (ja) * 2022-11-22 2024-05-30 富士フイルム株式会社 音データ作成方法及び音データ作成装置

Also Published As

Publication number Publication date
US8457319B2 (en) 2013-06-04
JPWO2007026763A1 (ja) 2009-03-26
EP1912206A1 (en) 2008-04-16
JP5171256B2 (ja) 2013-03-27
EP1912206B1 (en) 2013-01-09
EP1912206A4 (en) 2011-03-23
CN101253557A (zh) 2008-08-27
US20090262945A1 (en) 2009-10-22
KR20080039462A (ko) 2008-05-07
KR101340233B1 (ko) 2013-12-10
CN101253557B (zh) 2012-06-20

Similar Documents

Publication Publication Date Title
JP5171256B2 (ja) ステレオ符号化装置、ステレオ復号装置、及びステレオ符号化方法
EP1798724B1 (en) Encoder, decoder, encoding method, and decoding method
JP5383676B2 (ja) 符号化装置、復号装置およびこれらの方法
JP5413839B2 (ja) 符号化装置および復号装置
JP4606418B2 (ja) スケーラブル符号化装置、スケーラブル復号装置及びスケーラブル符号化方法
JP5404412B2 (ja) 符号化装置、復号装置およびこれらの方法
WO2006022308A1 (ja) マルチチャネル信号符号化装置およびマルチチャネル信号復号装置
EP2133872B1 (en) Encoding device and encoding method
WO2006046547A1 (ja) 音声符号化装置および音声符号化方法
JPWO2008132850A1 (ja) ステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法
WO2010016270A1 (ja) 量子化装置、符号化装置、量子化方法及び符号化方法
WO2006129615A1 (ja) スケーラブル符号化装置およびスケーラブル符号化方法
JPWO2008132826A1 (ja) ステレオ音声符号化装置およびステレオ音声符号化方法
Bang et al. Audio Transcoding Algorithm for Mobile Multimedia Application

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 200680031948.7

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application
ENP Entry into the national phase

Ref document number: 2007533292

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 2006797077

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 12064995

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 1020087005096

Country of ref document: KR

NENP Non-entry into the national phase

Ref country code: DE