WO2006003891A1 - 音声信号復号化装置及び音声信号符号化装置 - Google Patents

音声信号復号化装置及び音声信号符号化装置 Download PDF

Info

Publication number
WO2006003891A1
WO2006003891A1 PCT/JP2005/011842 JP2005011842W WO2006003891A1 WO 2006003891 A1 WO2006003891 A1 WO 2006003891A1 JP 2005011842 W JP2005011842 W JP 2005011842W WO 2006003891 A1 WO2006003891 A1 WO 2006003891A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
audio
channel
frequency
channel signal
Prior art date
Application number
PCT/JP2005/011842
Other languages
English (en)
French (fr)
Inventor
Kok Seng Chong
Naoya Tanaka
Sua Hong Neo
Mineo Tsushima
Original Assignee
Matsushita Electric Industrial Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co., Ltd. filed Critical Matsushita Electric Industrial Co., Ltd.
Priority to CN2005800226670A priority Critical patent/CN1981326B/zh
Priority to KR1020067024727A priority patent/KR101120911B1/ko
Priority to JP2006528708A priority patent/JP4934427B2/ja
Priority to CA2572805A priority patent/CA2572805C/en
Priority to EP05765247.1A priority patent/EP1768107B1/en
Priority to US11/629,135 priority patent/US7756713B2/en
Publication of WO2006003891A1 publication Critical patent/WO2006003891A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding

Definitions

  • the present invention relates to an encoding device that extracts a binaural cue from an audio signal in a coding process and generates a down-limit signal, and a decoding process that converts the binaural queue to the downmix signal.
  • the present invention relates to an audio signal decoding apparatus that decodes a multi-channel audio signal by adding to the above.
  • the present invention relates to a binaural cue coding method for converting a multi-channel audio signal into a time frequency (TZF) representation using a QMF (Quadrature Mirror Filter) filter bank in the encoding process.
  • ZMF time frequency
  • QMF Quadrature Mirror Filter
  • the present invention relates to the coding and decoding of multi-channel audio signals.
  • the main object of the present invention is to perform coding of a digital audio signal while maintaining the perceptual quality of the digital audio signal to the maximum even when the bit rate is limited. Lowering the bit rate is advantageous in reducing the transmission bandwidth and storage capacity.
  • the stereo channel L and R forces are expressed in the form of their “sum” (L + R) and “difference” (LR) channels.
  • the “difference” signal includes less information than the “sum” signal, coarse bits, and low importance information that can be quantized.
  • Binaural Queue Coding In this method, a binaural cue is generated in order to form a downmix signal in the decoding process.
  • Binaural queue is an example For example, inter-channel level Z intensity difference (ILD), inter-channel phase Z delay difference (IPD), and inter-channel coherence Z correlation (ICC).
  • ILD inter-channel level Z intensity difference
  • IPD inter-channel phase Z delay difference
  • ICC inter-channel coherence Z correlation
  • the relative signal power can be measured from the ILD cue
  • the time difference until the sound reaches both ears can be measured from the IPD cue
  • the similarity can be measured from the ICC cue.
  • level Z intensity cues and phase Z delay cues can control voice balance and localization
  • coherent z correlation cues can control voice width and spread. Together, these cues are spatial parameters that help listeners compose an acoustic scene in their heads.
  • FIG. 1 is a diagram illustrating a configuration of a typical encoding and decoding codec using a coding method and a decoding method using binaural cue codes.
  • the binaural cue extraction module (502) processes L, R, and M to generate a binaural cue.
  • the binaural cue extraction module (502) usually includes a time-frequency conversion module.
  • the time-to-frequency conversion module converts L, R, and M to a full spectral representation such as FFT, MDCT, etc., or a mixed representation of time and frequency such as QMF.
  • L and R forces and M can be generated after spectral conversion by taking the average of the spectrally represented L and R.
  • the binaural cue can be obtained by comparing L, R, and M expressed as described above for each spectrum band on the spectrum band.
  • the speech encoder (504) encodes the M signal and generates a compressed bit stream.
  • Examples of speech encoders include MP3 and AAC encoders.
  • the binaural cue is quantized in (5 06) and then multiplexed into the compressed M to form a complete bitstream.
  • the demultiplexer (508) also separates the M bitstream from the binaural cue information power.
  • the audio decoder (510) decodes the M bitstream and restores the downmix signal M.
  • the multi-channel synthesis module (512) processes the down-mixed signal and the dequantized neural cue to restore the multi-channel signal.
  • Literature related to the prior art includes the following: Non-Patent Document 1: [l] ISO / IEC 14496-3: 2001 / FDAM2, "Parametric Coding for high Quality Audio"
  • Patent Document 1 [2] WO03 / 007656Al, "Efficient and Scalable Parametric Stereo Coding f or Low Bitrate Application
  • Patent Document 2 [3] WO03 / 090208Al, "Parametric Representation of Spatial Audio”
  • Patent Document 3 [4] US6252965B1, "Multichannel Spectral Mapping Audio Apparatus an d Method"
  • Patent Document 4 [5] US2003 / 0219130A1, "Coherence-based Audio Coding and Synthesi s"
  • Patent Document 5 [6] US2003 / 0035553A1, "Backwards-Compatible Perceptual Coding of Spatial Cues"
  • Patent Document 6 [7] US2003 / 0235317A1, "Equalization For Audio Mixing"
  • Patent Document 7 [8] US2003 / 0236583A1, "Hybrid Multi-channel / Cue Coding / Decoding of Audio Signals
  • Non-Patent Document 1 Sound expansion is realized by mixing a down-mix signal and a reverberation signal.
  • the reverberation signal is obtained by processing the downmix signal using Shroeder's all-pass link.
  • the coefficients of this filter are all determined in the decoding process. If the audio signal contains fast-changing features, a separate transient attenuation process is applied to the reverberant signal to suppress the spread of the reverberant in order to remove excessive echo effects. However, if a separate filtering process is performed in this way, an additional computational load is generated.
  • FIG. 2 is a diagram illustrating a conventional standard time segment dividing method.
  • the method of the prior art [1] uses L, R and M expressed as TZF (" This method makes full use of the psychoacoustic characteristics of the ear. That's not true.
  • An object of the present invention is to improve a method based on binaural cue code in the prior art.
  • Embodiment 1 of the present invention it is proposed to directly control the reverberation spread by changing the filter coefficient that affects the reverberation spread. Furthermore, it is proposed that these filter coefficients be controlled by the I CC queue and transient detection module.
  • the TZF representation is divided into a plurality of ⁇ sections ⁇ in the spectrum direction.
  • the maximum allowable number of temporal boundaries is different for each section so that the allowable number of temporal boundaries is reduced for sections belonging to the high frequency region. In this way, signal subdivision in the low frequency region can be performed more precisely, and level adjustment can be performed more accurately while suppressing sudden changes in the bit rate.
  • Embodiment 3 proposes that the crossover frequency is changed in accordance with the bit rate.
  • the original sound code is predicted to be coarse due to bit rate restrictions, it is proposed to mix the original sound signal and the downmix signal at a low frequency.
  • FIG. 1 is a diagram showing a configuration of a conventional typical binaural cue code system.
  • FIG. 2 is a diagram illustrating a typical conventional time division method for various frequency sections.
  • FIG. 3 is a block diagram showing a configuration of a coding apparatus according to the present invention.
  • FIG. 4 is a diagram showing a temporal division method for various frequency sections.
  • FIG. 5 is a block diagram showing a configuration of a decoding device according to Embodiment 1 of the present invention.
  • FIG. 6 is a block diagram showing a configuration of a decryption apparatus according to Embodiment 3 of the present invention.
  • Fig. 7 is a block diagram showing a configuration of a sign key system according to Embodiment 3 of the present invention.
  • the power shown here is an example of stereo-mono.
  • the present invention is not limited to this. This can be generalized as M original channels and N downmix channels.
  • FIG. 3 is a block diagram showing a configuration of the coding apparatus according to the first embodiment.
  • Fig. 3 shows the encoding process according to the present invention.
  • the encoding apparatus according to the present embodiment includes a conversion module 100, a downmix module 102, two energy envelope analyzers 104 for L (t, f) and R (t, f), and a left channel channel.
  • a module 106 for calculating the interphase phase queue IPDL (b), a module 108 for calculating the IPDR (b) of the right channel, and a module 110 for calculating ICC (b) are provided.
  • the conversion module (100) processes the original channel, denoted below as a function of time L (t) and R (t).
  • the conversion module (100) is, for example, a complex QMF filter bank as used in MPEG Audio Extensions 1 and 2.
  • L (t, f) and R (t, f) include a plurality of continuous subbands, and each subband represents a narrow frequency band of the original signal.
  • the QMF filter bank passes a narrow frequency band for low frequency subbands and passes a wide band for high frequency subbands. Page.
  • the downmix module (102) processes L (t, f) and R (t, f) to generate a downmix signal M (t, f).
  • L (t, f) and R (t, f) processes L (t, f) and R (t, f) to generate a downmix signal M (t, f).
  • M downmix signal
  • level adjustment is performed using an energy cue instead of an ILD cue.
  • FIG. 4 is a diagram showing how to divide the time-frequency section for adjusting the energy envelope of the audio channel signal after mixing.
  • the time-frequency representation L (t, f) is divided into a plurality of bands (400) in the frequency direction. Each band includes a plurality of subbands.
  • the low frequency band has fewer subbands than the high frequency band. For example, when grouping subbands into bands, the “Burk scale” or the “critical band”, well known in the field of psychoacoustics, can be used.
  • L (t, f) is further divided into frequency bands (1, b) by BorderL in the time direction, and EL (1, b) is calculated for this.
  • 1 is an index of time division
  • b is an index of bandwidth.
  • the optimal location of BorderL is the temporal position where the energy change of L (t, f) is large and the energy change of the signal formed by decoding processing is expected to be large.
  • EL (1, b) is used to shape the energy envelope of the downmix signal for each band, and the boundary is determined by the same critical band boundary and BorderL.
  • the energy EL (1, b) is defined as follows.
  • the right channel energy envelope analysis module (104) processes R (t, f) and generates ER (1, b) and BorderR.
  • the inter-left channel phase cue calculation module (106) processes L (t, f) and M (t, f), and uses the following equation: Find IPDL (b).
  • M * (t, f) represents a complex conjugate of M (t, f).
  • the right channel phase cue calculation module (108) obtains the right channel inter channel phase queue IPDR (b).
  • the module (110) processes L (t, f) and R (t, f) in order to obtain the interchannel coherence queue between the left channel and the right channel.
  • ICC (b) is calculated using the following formula.
  • All of the binaural cues become a part of the sub information in the code processing.
  • FIG. 5 is a block diagram showing a configuration of the decoding device according to the first embodiment.
  • the decoding apparatus according to the first embodiment includes a conversion module (200), a reverberation generator (202), a transient detector (204), a phase adjuster (206, 208), a mixer 2 (210, 212), an energy adjustment Device (214, 216) and an inverse conversion module (218).
  • Figure 5 shows the binaola generated as described above. A possible decryption process using a queue is shown.
  • the conversion module (200) processes the down-limit signal M (t) and converts it into a time-frequency representation M (t, f).
  • the conversion module (200) shown in the present embodiment is a complex QMF filter bank.
  • the reverberation generator (202) processes M (t, f) and generates a "diffusion version" of M (t, f) called MD (t, f).
  • MD a "diffusion version” of M (t, f)
  • This diffuse version creates a more “stereo” impression (in the case of multi-channel, a “surround” impression) by inserting “echo” into M (t, f).
  • fractional delay all-pass filtering is used to obtain the reverberation effect.
  • a cascade system of multiple all-pass filters (known as Schroeder's all-pass link) is used.
  • the control method of the reverberation attenuation rate in the prior art is not optimal for all signal characteristics. For example, if the signal is a fast-changing signal “spike-wave signal”, it is desirable that the reverberation is low in order to avoid excessive echo effects. Separately, reverberation is suppressed to some extent.
  • the slope (f, m) parameter is adaptively controlled using an ICC queue.
  • new_slope (f, m) is used instead of slope (f, m) as follows.
  • new-slope (f, m) is defined as the output function of the transient detection module (204).
  • ICC (b) is defined as follows:
  • the transient detection module (204) uses a small Tr — flag such as 0.1 to reduce slope (f, m) Returns (b). As a result, reverberation can be reduced. On the other hand, in the case of a smoothly changing signal, the transient detection module (204) returns a large Tr flag (b) value such as 0.99. As a result, a desired amount of reverberation can be maintained.
  • Tr—flag (b) can be generated by analyzing M (t, f) in the decoding process. Alternatively, Tr-flag (b) can be generated in the encoding process and transmitted to the decoding process side as sub information.
  • the reverberation signal MD (t, f) expressed in the z domain is generated by convolving M (t, f) with Hf (z). (Convolution is multiplication in the z domain).
  • Lreverb (t, f) and Rreverb (t, f) are phase queues IPDL (b) and IPDR (b), respectively; for phase adjustment modules (206) and (208)! /, Generated by appending to MD (t, f). By performing this process, the phase relationship between the original sound and the downmix signal in the encoding process can be recovered.
  • phase added here can be interpolated before adding them using the phase of previously processed speech frames.
  • Lreverb t, f
  • the formula in the left channel phase adjustment module (208) is changed as follows.
  • the right channel phase adjustment module (206) also performs interpolation in the same manner, and generates Rr everb (t, f) from MD (t, f) force.
  • Lreverb (t, f) and Rreverb (t, f) are left channel energy adjustment modules (214) And molded in the right channel energy adjustment module (216).
  • the shaping is done to resemble energy envelopes in BorderL, BorderR, and energy envelope forces in the various bands delimited by the boundaries of a given frequency section (as shown in Figure 4).
  • the gain coefficient GL (1, b) is calculated for the band (1, b) as follows.
  • Lreverb (t, f) is multiplied by a gain coefficient for all samples in the band.
  • the right channel energy adjustment module (216) performs the same processing for the right channel.
  • Lreverb (t, f) and Rreverb (t, f) are only artificial reverberation signals, so in some cases, it may not be optimal to use them as multichannel signals as they are. There is.
  • the parameter slope (f, m) is adjusted to match ne w—slope (f, m), but this does not change the principal component of the echo determined by the order of the all-pass filter. Can not.
  • Lreverb (t, f) and Rreverb (t, f) in the left channel mixer 2 (210) and the right channel mixer 2 (212), which are mixing modules By mixing with the downmix signal M (t, f), an option to expand the range of control is provided.
  • the ratio of the reverberation signals Lreverb (t, f) and Rreverb (t, f) to the downmix signal M (t, f) depends on ICC (b), for example: Can be controlled.
  • L reverl , (t, f) (l-ICC (b)) * L reveri (t, f) + ICC (b) * M (t, f)
  • ICC (b) shows the correlation between the left channel and the right channel.
  • M (t, f) is mixed into Lreverb (t, f) and Rreverb (t, f) more. The same applies to the reverse case.
  • the module (218) inversely transforms the energy-adjusted Ladj (t, f) and Radj (t, f) to generate a signal on the time axis.
  • reverse QMF processing is used.
  • the second embodiment relates to the energy envelope analysis module (104) shown in FIG.
  • the psychoacoustic characteristics of the ear cannot be used. Therefore, in the present embodiment, as shown in FIG. 4, by using the characteristic of the ear that the sensitivity is low with respect to the high frequency sound, the low frequency is divided finely to obtain a high frequency. On the other hand, the accuracy of division is lowered.
  • the frequency band of L (t, f) is further divided into "sections" (402).
  • Figure 4 shows three sections from Section 0 (402) to Section 2 (404).
  • a high frequency section can have, for example, at most one boundary (404), which divides the frequency section into two.
  • splitting in the highest frequency section is not allowed.
  • this section uses the famous “Intensity Stereo” used in the prior art. The accuracy of the segmentation increases as the force goes to the lower section where the ear sensitivity is higher.
  • Part of the sub information may be a section boundary, or may be determined in advance according to the bit rate of the sign. However, the temporal boundary (406) of each section is a part of the sub information Border L.
  • the first boundary of the target frame does not have to be the start boundary of the frame. Two consecutive frames may share the same energy envelope across multiple frame boundaries. In this case, two audio frames need to be buffered to enable this process.
  • FIG. 6 is a block diagram showing a configuration of the decoding device according to the third embodiment.
  • the portion surrounded by a broken line indicates Lreverb and Rreverb for adjusting the phase of the premixing channel signal obtained by premixing in mixer 1 (322, 324) in the reverberation generator (302).
  • This is a signal separation unit that separates downmix signal power.
  • This decoding apparatus includes the signal separation unit, the conversion module (300), the mixer 1 (322, 324), the low-pass filter (320), the mixer 2 (310, 312), the energy regulator (314, 316). ) And an inverse transformation module (318).
  • the coarsely quantized multi-channel signal and the reverberation signal in the low frequency region are mixed. The reason why rough quantization is performed is that the bit rate is limited.
  • the coarsely quantized Llf (t) and Rlf (t) are time-frequency converted together with the downmix signal M (t) in the conversion module (300), which is a QMF filter bank, They are expressed as Llf (t, f) and Rlf (t, f), respectively.
  • the left mixer 1 (322) and the right mixer 1 (324), which are premixing modules each have a right channel Rlf (t, Premix f) and left channel Llf (t, f) into downmix signal M (t, f).
  • premixing channel signals LM (t, f) and RM (t, f) are generated.
  • premixing is performed as follows.
  • the difference signal is calculated for Llf (t) and Rlf (t), and only the main frequency components up to fx determined according to the psychoacoustic model are coded.
  • a predetermined quantization step can be employed.
  • each channel signal after separation may be subtracted.
  • Llf (t) L (t) -Lreverb (t)
  • Llf (t), Rlf (t ) May be added to correct the signal shift.
  • Llf (t) and Rlf (t) cannot be mixed because the number of bits for quantizing is insufficient.
  • fx is zero.
  • binaural cue code ⁇ is performed only for the higher frequency range than &.
  • FIG. 7 is a block diagram showing a configuration of a code key system including the code key device and the decoding key device according to the third embodiment.
  • the encoding system of Embodiment 3 includes a down-mix unit (410), an AAC encoder (411), a binaural cue encoder (412), and a second encoder (413) on the code side, and on the decoding side.
  • An AAC decoder (414), a premittance unit (415), a signal separation unit (416), and a mixing unit (417) are provided.
  • the signal separation unit (416) includes a channel separation unit (418) and a phase adjustment unit (419).
  • the downmix unit (410) is the same as the downmix unit (102) shown in FIG. 1, for example.
  • the down-mix signal M (t) generated in this way is subjected to MDCT (Modified Describe Cosine Transform) conversion in the AAC encoder (411), quantized for each subband, variable-length encoded, and encoded. Embedded in the bitstream.
  • MDCT Modified Describe Cosine Transform
  • the binaural cue encoder (412) converts the audio channels L (t), R (t), and M (t) into a time-frequency representation by QMF and compares the channel signals. Calculate the binaural cue.
  • the normal cue encoder (412) encodes the calculated normal cue and multiplexes it into a code string.
  • the second encoder (413) is provided with a right channel signal R as shown in, for example, Formula 15.
  • Difference signals Llf (t) and Rlf (t) between (t) and left channel signal L (t) and downmix signal M (t) are calculated, coarsely quantized, and encoded.
  • the second encoder (413) does not necessarily have to encode in the same encoding format as the AAC encoder (411)!
  • the AAC decoder (414) decodes the downmix signal encoded by the AAC method and converts the decoded downmix signal into a time-frequency representation M (t, f) by QMF. .
  • the signal separation unit (416) includes a channel separation unit (418) and a phase adjustment unit (419).
  • the channel separation unit (418) is a bar code encoded by the binaural cue encoder (412). After decoding the initial cue parameter and the differential signals Llf (t) and Rlf (t) encoded by the second encoder (413), the differential signals Llf (t) and Rlf (t) are equalized in time. Convert to frequency representation. Thereafter, the channel separation unit (418), for example, in accordance with ICC (b), the downmix signal M (t, f) that is the output of the AAC decoder (414) and the differential signal Llf converted into a time-frequency representation. (t, f) and Rlf (t, f) are premixed, and premixing channel signals LM and RM generated thereby are output to the mixing unit 417.
  • the phase adjustment unit (419) performs generation and addition of necessary reverberation components to the downmix signal M (t, f), adjusts the phase, and mixes it as the phase adjustment signals Lrev and Rrev. Part (4 17).
  • the mixing unit (417) mixes the pre-mixing channel signal LM and the phase adjustment signal Lrev to the left channel! And inverse QMFs the obtained mixing signal to obtain a function of time.
  • the output signal represented by! Is output.
  • the premixing channel signal RM and the phase adjustment signal Rrev are mixed, the obtained mixing signal is inversely QMFed, and an output signal R "expressed as a function of time is output.
  • the left and right differential signals Llf (t) and Rlf (t) are phase-adjusted with the original audio channel signals L (t) and R (t).
  • the present invention can be applied to a home theater system, a car audio system, an electronic game system, and the like.

Abstract

 従来のマルチチャネル音声信号を符号化する発明における3つの主要な処理とは、オールパスフィルタを用いた残響信号の生成と、レベル調整を目的とした、時間および周波数軸での信号の分割と、符号化されたバイノーラル信号と固定のクロスオーバー周波数まで符号化された原音信号とのミキシングとである。これらの処理は、本発明において言及された問題を含んでいる。  本発明では、3つの実施の形態を提示する。チャネル間干渉性キューを使ってオールパスフィルタ係数を動的に調整することで、残響の広がりを制御する;時間軸における信号の分割は、低周波数に対しては細かく、高周波数に対しては粗くする;ミキシングを行うためのクロスオーバー周波数をビットレートで制御し、原音の量子化が粗い場合、チャネル間干渉性キューで決定される割合でダウンミクス信号と原音信号とをミキシングする。                                                                                 

Description

明 細 書
音声信号復号化装置及び音声信号符号化装置
技術分野
[0001] 本発明は、符号ィ匕処理において音声信号からバイノーラルキューを抽出して、ダウ ンミタス信号を生成する符号化装置、及び復号化処理にお!ヽて前記バイノーラルキ ユーを前記ダウンミクス信号に付加することでマルチチャネル音声信号を復号する音 声信号復号化装置に関する。
[0002] 本発明は、符号化処理において QMF (Quadrature Mirror Filter)フィルタバ ンクを用いてマルチチャネル音声信号を時間 周波数 (TZF)表現に変換するバイ ノーラルキュー符号ィ匕方法に関する。
背景技術
[0003] 本発明は、マルチチャネル音声信号の符号ィ匕および復号ィ匕に関する。本発明の主 たる目的は、ビットレートに制約がある場合でも、デジタル音声信号の知覚上のクオリ ティーを最大限に保ちつつ当該デジタル音声信号の符号ィ匕を行うことである。ビット レートが低くなると、伝送帯域幅および記憶容量を小さくすると 、う点で有利である。
[0004] 従来、上記のようにビットレート低減を実現するための方法が多く存在する。
[0005] "MS (mid— side)ステレオ〃による方法では、ステレオチャネル Lおよび R力 それ らの"和" (L+R)および"差分" (L-R)チャネルと 、う形で表現される。これらのステ レオチャネルの相関性が高い場合、〃差分〃信号に含まれるのは、〃和〃信号よりも少 な!、ビットで粗!、量子化を施せる重要度の低 、情報である。 L=Rとなるような極端な 例では、差分信号に関する情報を送信する必要はな 、。
[0006] "インテンシティステレオ〃による方法では、耳が持つ音響心理学的特性を利用し、 高周波数領域に対しては、周波数依存性を持つスケールファクタと共に"和"信号の みを送信し、デコーダ側でそのスケールファクタを"和〃信号に適用して、 Lチャネル および Rチャネルを合成する。
[0007] 〃バイノーラルキュー符号化 Ίこよる方法では、復号化処理においてダウンミクス信 号の成形を行うために、バイノーラルキューが生成される。バイノーラルキューは、例 えば、チャネル間レベル Z強度差 (ILD)、チャネル間位相 Z遅延差 (IPD)、チヤネ ル間干渉性 Z相関性 (ICC)等である。 ILDキューからは相対的な信号のパワーを測 定でき、 IPDキューからは音が両耳に届くまでの時間差を測定でき、 ICCキューから は類似性を測定できる。一般に、レベル Z強度キューおよび位相 Z遅延キューにより 音声のバランスや定位を制御でき、干渉性 z相関性キューにより音声の幅や拡がり を制御できる。これらのキューは一体となって、聴き手が音響学的シーンを頭の中で 構成するのを助ける空間的パラメータとなる。
[0008] 図 1は、バイノーラルキュー符号ィ匕による符号ィ匕及び復号ィ匕方法を用いた典型的な 符号化及び復号化コーデックの構成を示す図である。符号ィ匕処理において、音声信 号はフレームごとに処理される。ダウンミキシング部(500)は、左チャネル Lおよび右 チャネル Rをダウンミタスし、 M= (L+R) Z2を生成する。バイノーラルキュー抽出モ ジュール(502)は、 L、 Rおよび Mを処理し、バイノーラルキューを生成する。バイノー ラルキュー抽出モジュール(502)は、通常、時間一周波数変換モジュールを備える 。時間一周波数変換モジュールは、 L、 Rおよび Mを例えば、 FFT、 MDCT等の完 全なスペクトル表現に変換する力、または QMF等のような時間と周波数との混合的 表現に変換する。この代わり、スペクトル表現された Lおよび Rの平均値をとることによ り、スペクトル変換後に、 Lおよび R力も Mを生成することもできる。バイノーラルキュー は、上記のように表現された L、 Rおよび Mを、スペクトル帯域上で、スペクトル帯域ご とに比較することで求めることができる。
[0009] 音声符号化器 (504)は、 M信号を符号化し、圧縮ビットストリームを生成する。音声 符号化器の例として、 MP3、 AACなどの符号化器がある。バイノーラルキューは、(5 06)において量子化されてから、圧縮された Mに多重化され、完全なビットストリーム が形成される。復号化処理において、デマルチプレクサ(508)は Mのビットストリーム をバイノーラルキュー情報力も分離する。音声復号化器 (510)は Mのビットストリーム を復号し、ダウンミクス信号 Mを復元する。マルチチャネル合成モジュール(512)は 、当該ダウンミクス信号および逆量子化されたノイノーラルキューを処理し、マルチチ ャネル信号を復元する。従来技術に関連する文献としては、以下のものが挙げられる 非特許文献 1 : [l] ISO/IEC 14496-3:2001/FDAM2, "Parametric Coding for high Qu ality Audio"
特許文献 1 : [2]WO03/007656Al, "Efficient and Scalable Parametric StereoCoding f or Low Bitrate Application
特許文献 2 : [3]WO03/090208Al, "Parametric Representation of Spatial Audio" 特許文献 3 : [4] US6252965B1, "Multichannel Spectral Mapping Audio Apparatus an d Method"
特許文献 4 : [5] US2003/0219130A1, "Coherence- based Audio Coding and Synthesi s"
特許文献 5 : [6] US2003/0035553A1, "Backwards-Compatible Perceptual Coding of Spatial Cues"
特許文献 6 : [7] US2003/0235317A1, "Equalization For Audio Mixing"
特許文献 7 : [8] US2003/0236583A1, "Hybrid Multi- channel/Cue Coding/Decoding of Audio Signals
発明の開示
発明が解決しょうとする課題
[0010] 従来技術 [1] (非特許文献 1参照)では、ダウンミクス信号ど'残響信号〃とをミキシン グすることで音の拡がりを実現している。残響信号は、ダウンミクス信号を Shroederの オールパスリンクを用いて処理することで得られる。このフィルタの係数は、全て復号 処理において決定される。音声信号が変化の速い特徴を含む場合、過度なエコー 効果を取り除くために、この残響信号に対して、別途、過渡減衰処理を施して残響の 拡がりを抑える。しかしながら、このように別途フィルタリング処理を行うと、さらに計算 負荷が生じてしまう。
[0011] 従来技術 [5] (特許文献 4参照)では、 ILDキューおよび IPDキューに対して"ランダ ムシーケンス"を挿入することで、音の拡散性 (すなわち、サラウンド効果)を実現して いる。ランダムシーケンスは、 ICCキューによって制御される。
[0012] 図 2は、従来の標準的な時間セグメントの分割方法を示す図である。 ILDキューを 計算するために、従来技術 [1]の方法では、 TZF表現された L、 Rおよび Mを ("時 間境界線 601"で区切られる)時間セグメントに分割し、時間セグメントにっき ILDを 一つ計算する。し力しながら、この方法は、耳が持つ音響心理学的特性を完全に活 用しているとはいえない。
[0013] 従来技術 [1]では、ダウンミクス信号の全ての周波数スペクトルに対してバイノーラ ルキュー符号ィ匕を行っている。しかしこの方法は、高ビットレートで"透明感のある"音 質を実現するには不十分である。従来技術 [8] (特許文献 7参照)によると、ビットレ ートが高い場合、 1. 5kHzより低い周波数で原音の符号ィ匕が行われている。しかしな がら、中間のビットレートで最適な音質を得ることができないため、固定のクロスォー バー周波数 (すなわち 1. 5kHz)を用いることは有利とは 、えな!/、。
[0014] 本発明は、従来技術におけるバイノーラルキュー符号ィ匕に基づく方法を改良するこ とを目的とする。
課題を解決するための手段
[0015] 本発明の実施の形態 1では、残響の拡がりに影響を与えるフィルタ係数を変更する ことで残響の拡がりを直接制御することを提案する。さらに、これらのフィルタ係数を I CCキューおよび過渡検出モジュールによって制御することを提案する。
[0016] 実施の形態 2では、まず、 TZF表現をスペクトル方向に複数の〃セクション〃に分割 する。時間的境界の最大許容数をセクションごとに異ならせ、高周波数領域に属する セクションに対しては時間的境界の許容数が少なくなるようにする。このようにして、 低周波数領域における信号の細分ィ匕をより緻密に行うことができ、ビットレートの急激 な変化を抑止しつつ、より正確にレベル調整を行うことができる。
[0017] 実施の形態 3では、クロスオーバー周波数がビットレートに合わせて変更されること を提案する。また、ビットレートの制約があるために原音の符号ィ匕が粗く行われている と予測される場合、原音信号とダウンミクス信号とを低周波数でミキシングすることを 提案する。さらに、ミキシングの割合を制御するために ICCキューを使用することを提 案する。
発明の効果
[0018] 本発明では、バイノーラルキューを抽出し、原音をダウンミキシングする符号化処理 にお 、て圧縮された原音が持つ、マルチチャネルならではの効果を再現することに 成功した。これは、復号ィ匕処理において前記ノイノーラルキューをダウンミクス信号に 付加することで可能となる。
図面の簡単な説明
[0019] [図 1]図 1は、従来の典型的なバイノーラルキュー符号ィ匕システムの構成を示す図で ある。
[図 2]図 2は、様々な周波数セクションに対する従来の典型的な時間分割方法を示す 図である。
[図 3]図 3は、本発明に関わる符号ィ匕装置の構成を示すブロック図である。
[図 4]図 4は、様々な周波数セクションに対する時間的分割方法を示す図である。
[図 5]図 5は、本発明の実施の形態 1に関わる復号ィ匕装置の構成を示すブロック図で ある。
[図 6]図 6は、本発明の実施の形態 3に関わる復号ィ匕装置の構成を示すブロック図で ある。
[図 7]図 7は、本発明の実施の形態 3に関する符号ィ匕システムの構成を示すブロック 図である。
符号の説明
[0020] 100 変換モジユーノレ
102 ダウンミクスモジユーノレ
104 エネルギーエンベロープ分析器
106 IPDL (b)を算出するモジュール
108 IPDR (b)を算出するモジュール
110 ICC (b)を算出するモジュール
200 変換モジユーノレ
202 残響生成器
204 過渡検出器
206、 208 位相調整器
210、 212 ミキサ 2
214、 216 エネルギー調整器 218 逆変換モジユーノレ
300 変換モジユーノレ
302 残響生成器
304 過渡検出器
306、 308 位相調整器
310、 312 ミキサ 2
314、 316 エネルギー調整器
318 逆変換モジュール
320 低域通過フィルタ
322、 324 ミキサ 1
326 高域通過フィルタ
400 帯域
402 セクション 0
404 セクション 2
406
410 ダウンミクス咅
411 AACエンコーダ
412 バイノーラルキューエンコーダ
413 第 2エンコーダ
414 AACデコーダ
415 プレミタス部
416 信号分離部
417 ミキシング言
418 チャネル分離部
419 位相調整部
500 ダウンミキシング部
502 バイノーラルキュー抽出部
504 音声符号化器 506 マノレチプレクサ
508 デマルチプレクサ
510 音声復号化器
512 マルチチャネル合成部
601 境界
発明を実施するための最良の形態
[0021] (実施の形態 1)
以下に示す実施の形態は、本発明の様々な進歩性の原理を例示しているに過ぎ ず、以下に示す詳細な説明に対して種々変形を加えることが可能であることは、当業 者であれば容易に理解するところである。従って、本発明は特許請求の範囲によつ てのみ制限されるものであって、以下に示す詳細な具体例よつて限定されるものでは ない。
[0022] さらに、ここではステレオ一モノラルの例を示している力 本発明はこれに限定され るものではない。これを、 M個のオリジナルチャネルおよび N個のダウンミクスチヤネ ルとして一般ィ匕することができる。
[0023] 図 3は、実施の形態 1の符号ィ匕装置の構成を示すブロック図である。図 3は本発明 に関わる符号化処理を示す。本実施の形態の符号化装置は、変換モジュール 100、 ダウンミクスモジュール 102、 L (t, f)および R (t, f)のための 2つのエネルギーェンべ ロープ分析器 104、左チャネルのチャネル間位相キュー IPDL (b)を算出するモジュ ール 106、右チャネルの IPDR(b)を算出するモジュール 108および ICC (b)を算出 するモジュール 110を備える。変換モジュール(100)は、以下で時間の関数 L (t)お よび R(t)として示されるオリジナルチャネルを処理する。それぞれの時間 周波数 表現 L (t, f)および R (t, f)を得る。ここで、 tは時間指標を示し、 fは周波数指標を示 す。変換モジュール(100)は、例えば、 MPEG Audio Extension 1及び 2で用いられ るような複素 QMFフィルタバンク等である。 L (t, f)および R(t, f)は連続する複数の サブバンドを含んでおり、それぞれのサブバンドは原信号の狭い周波数帯域を表し ている。 QMFフィルタバンクは、低周波数サブバンドに対しては狭い周波数帯域を 通過させ、高周波数サブバンドに対しては広い帯域を通過させるため、複数のステ ージで構成することができる。
[0024] ダウンミクスモジュール(102)は、 L (t, f)および R(t, f)を処理し、ダウンミクス信号 M (t, f)を生成する。ダウンミキシングの方法は数多く存在するが、本実施の形態で は〃平均化"を用いた方法を示す。
[0025] 本発明では、 ILDキューの代わりにエネルギーキューを用いてレベル調整を行う。
エネルギーキューを計算するために、左チャネルエネルギーエンベロープ分析モジ ユール(104)は、 L (t, f)をさらに処理し、エネルギーエンベロープ EL (1, b)および B orderLを生成する。図 4は、ミキシング後の音声チャネル信号のエネルギーェンベロ ープを調整するための時間 周波数セクションの区切り方を示す図である。図 4に示 されるように、まず、時間 周波数表現 L (t, f)を周波数方向に複数の帯域 (400)に 分割する。それぞれの帯域は複数のサブバンドを含む。耳の持つ音響心理学的特 性を利用して、低周波数帯域は、高周波数帯域よりもサブバンドの数が少なくなつて いる。例えば、サブバンドを帯域にグループ分けする際に、音響心理学の分野でよく 知られている"バーク尺度"または〃臨界帯域"を用いることができる。
[0026] L (t, f)はさらに時間方向に BorderLで周波数帯域 (1, b)に分割され、これに対して EL (1, b)を計算する。ここで、 1は時間的区分の指標であり、 bは帯域の指標を示す。 BorderLの最適な配置場所は、 L (t, f)のエネルギーの変化が大きぐかつ、復号ィ匕 処理で成形される信号のエネルギーの変化が大きいと予測される時間的位置である
[0027] 復号化処理にお!、て、 EL (1, b)はダウンミクス信号のエネルギーエンベロープを帯 域ごとに成形するために用いられ、その境界は、同じ臨界帯域境界および BorderL により決定される。エネルギー EL (1, b)は以下のように定義される。
[0028] [数 1] f<=i> に
同様の方法で、右チャネルエネルギーエンベロープ分析モジュール(104)は R(t , f)を処理し ER(1, b)および BorderRを生成する。 [0029] 左チャネルのチャネル間位相キューを取得するため、左チャネル間位相キュー算 出モジュール(106)は L (t, f)および M (t, f)を処理し、以下の数式を用いて IPDL ( b)を求める。
[0030] [数 2] f b tcFJUMESIZE
Figure imgf000011_0001
[0031] ここで、 M * (t, f)は M (t, f)の複素共役を表わす。右チャネル間位相キュー算出 モジュール(108)は、同様にして右チャネルのチャネル間位相キュー IPDR (b)を求 める。
[0032] [数 3]
Figure imgf000011_0002
[0033] 最後に、符号化処理にぉ 、て左チャネルと右チャネルとのチャネル間干渉性キュ 一を求めるため、モジュール(110)は L (t, f)および R (t, f)を処理し、以下の数式を 用いて ICC (b)を求める。
[0034] [数 4]
Figure imgf000011_0003
上記バイノーラルキューは全て、符号ィ匕処理における副情報の一部となる。
図 5は、実施の形態 1の復号ィ匕装置の構成を示すブロック図である。本実施の形態 1の復号化装置は、変換モジュール (200)、残響生成器 (202)、過渡検出器 (204) 、位相調整器(206、 208)、ミキサ 2 (210、 212)、エネルギー調整器(214、 216) 及び逆変換モジュール(218)を備える。図 5は、上述のように生成されたバイノーラ ルキューを利用する、想定可能な復号化処理を示す。変換モジュール(200)はダウ ンミタス信号 M (t)を処理し、時間 周波数表現 M (t, f)に変換する。本実施の形態 で示す変換モジュール(200)は、複素 QMFフィルタバンクである。
[0036] 残響生成器 (202)は M (t, f)を処理し、 MD (t, f)と呼ばれる M (t, f)の"拡散バー ジョン"を生成する。この拡散バージョンは、 M (t, f)に"エコー"を挿入することで、より "ステレオ"的な印象 (マルチチャネルの場合は〃サラウンド"的な印象)を生み出すも のである。従来技術では、そのような残響の印象を、単純に遅延を利用したり、分数 遅延オールパスフィルタリングを用いたりして生成する装置が数多く存在する。本発 明では、残響効果を得るために、分数遅延オールパスフィルタリングを用いる。通常 、複数のオールパスフィルタのカスケード方式(Schroederのオールパスリンクとして知 られる)が用いられる。
[0037] [数 5]
H ― ^ Q(f, )z-dW一 s/ope(/, m)
バ 1一 slope(f, m)Q(f, m)∑-d{m) ここで、 Lはリンクの数を表わし、 d (m)はそれぞれのリンクのフィルタの次数を表わ す。通常、これらは互いに素となるよう構成されている。 Q (f, m)はエコーの密度を高 くする分数遅延を示し、 slope (f, m)は残響の減衰率を制御する。残響の減衰は slope (f, m)が大きいほど小さい。これらのパラメータの設計に関する具体的な処理は本発 明の範囲外である。従来技術においては、これらのパラメータはバイノーラルキュー によって制御されない。
[0038] 従来技術における残響減衰率の制御方法は、あらゆる信号の特徴に対して最適で あるというわけではない。例えば、変化の早い信号"スパイク波〃で構成される信号で ある場合、エコー効果が過剰になることを避けるために、残響は少ないほうが望まし い。従来技術では、過渡減衰装置を用いて、別途、残響をある程度抑止している。
[0039] 最後の問題は、原音が本質的に"モノラル"である場合 (例えば独話)、残響が過剰 であると、復号化された信号が原音と大きく異なって聞こえる可能性があるということ である。この問題を解決するための従来技術や装置は存在しな 、。
[0040] 本発明では、 ICCキューを用いて slope (f, m)パラメータを適応的に制御する。上記 問題に対処するため、以下のように slope (f, m)の代わりに new_slope (f, m)を用い る。
[0041] [数 6]
H (:) _ y Q(f, -new opejf.m) ' «=。 \-n w__ slope(f7 m)Q{f, m)z~
[0042] ここで、 new— slope (f, m)は過渡検出モジュール(204)の出力関数として定義され
、 ICC (b)は以下のように定義される。
[0043] [数 7] new _ slope(f, m) = dope , /») * (1 - ' ICC(b)) * Tr Jag(b) ここで、 αはチューニングパラメータである。信号における対象フレームが本質的に モノラルである場合、当該フレームの、右チャネルと左チャネルの間の相関性を評価 するための ICC (b)はかなり高くなる。残響を減らすために、 slope (f, m)を(1— ICC ( b) )により大幅に低下させる。また、逆の場合も同様である。
[0044] 信号における対象フレームが急速に変化する信号スパイク波で構成される場合、 過渡検出モジュール(204)は、 slope (f, m)を低減させるために、 0. 1等の小さい Tr — flag (b)を返す。これによつて、残響を減らすことができる。一方、なめらかに変化 する信号の場合、過渡検出モジュール(204)は、 0. 99のように大きな Tr— flag (b) の値を返す。これによつて、所望の残響量を保つことが可能になる。 Tr— flag (b)は 、復号化処理において M (t, f)を分析することで生成できる。あるいは、 Tr— flag (b) を符号化処理において生成し、副情報として復号処理側に送信することも可能であ る。
[0045] z領域に表わされる残響信号 MD (t, f)は、 M (t, f)を Hf (z)に畳み込むことで生成 される(畳み込みは z領域における乗算である)。
[0046] [数 8]
[0047] Lreverb (t, f)および Rreverb (t, f)は、位相キュー IPDL (b)および IPDR (b)をそ れぞ; 立相調整モジュール(206)および(208)にお!/、て MD (t, f)に付カ卩すること で生成される。この処理を行うことで、符号化処理における原音とダウンミクス信号と の位相関係を回復することができる。
適用される数式は以下の通りである。
[0048] [数 9]
Figure imgf000014_0001
[0049] ここで付加された位相は、以前に処理された音声フレームの位相を用い、それらを 付加する前に補間することができる。例えば Lreverb (t, f)の場合、左チャネル位相調 整モジュール(208)における数式は以下のように変更される。
[0050] [数 10] , /) = , /) * — ) + + a严 b) } ここで、 a— 2, a— 1および aOは補間係数であり、 frは音声フレームの指標を示す。 補間を行うことで、 Lreverb (t, f)の位相が急激に変化するのを防止でき、音声が全 体的に安定する。
[0051] 右チャネル位相調整モジュール(206)も同様にして補間を行い、 MD (t, f)力ら Rr everb (t, f)を生成する。
[0052] Lreverb (t, f)および Rreverb (t, f)は左チャネルエネルギー調整モジュール(214) 、右チャネルエネルギー調整モジュール(216)において成型される。その成型は、 B orderL、 BorderRや、(図 4に示すような)所定の周波数セクションの境界で区切られ る様々な帯域におけるエネルギーエンベロープ力 原音におけるエネルギーェンべ ロープと類似するように行われる。左チャネルについて説明すると、ゲイン係数 GL (1 , b)は帯域 (1, b)に対して以下のように計算される。
[0053] [数 11]
Figure imgf000015_0001
[0054] 次に、当該帯域における全てのサンプルに対して Lreverb (t, f)にゲイン係数を乗 算する。右チャネルエネルギー調整モジュール(216)は同様の処理を右チャネルに 対して行う。
[0055] [数 12]
(t ) = Lreverb (t ) * GL >b)
( /) = ^v , /) * G )
[0056] Lreverb (t, f)および Rreverb (t, f)は人工的な残響信号に過ぎな 、ため、場合によ つては、それらをそのままマルチチャネル信号として用いることが最適とはならないこ とがある。その上、残響をある程度減らすために、パラメータ slope (f, m)を調整して ne w— slope (f, m)に合わせるが、これではオールパスフィルタの順番で決まるエコーの 主成分を変えることはできない。そこで本発明では、エネルギー調整を行う前に、ミキ シングモジュールである左チャネルミキサ 2 (210)および右チャネルミキサ 2 (212)に おいて Lreverb (t, f)および Rreverb (t, f)と、ダウンミクス信号 M (t, f)とをミキシング することで、制御の幅を広げるオプションを提供する。残響信号 Lreverb (t, f)および Rreverb (t, f)とダウンミクス信号 M (t, f)との割合は、 ICC (b)によって、例えば次の ように制御できる。
[0057] [数 13]
Lreverl,(t,f) = (l - ICC(b)) *Lreveri (t,f) + ICC(b) *M(t,f)
, ) = (! - ICC(b)) * Rr {t, f) + ICC(b) *Μ(ί, /)
ICC (b)は左チャネルと右チャネル間の相関関係を示している。上記数式では、相 関性が高い場合、 M (t, f)をより多く Lreverb (t, f)および Rreverb (t, f)にミキシング する。また、逆の場合も同様である。
[0058] モジュール(218)はエネルギー調整された Ladj(t, f)および Radj (t, f)を逆変換し 、時間軸における信号を生成する。ここでは逆 QMF処理を用いる。マルチステージ QMFの場合、数ステージに亘つて逆変換処理を行う必要がある。
[0059] (実施の形態 2)
実施の形態 2は、図 3に示すエネルギーエンベロープ分析モジュール(104)に関 わる。図 2に示す分割方法の例では、耳が持つ音響心理学的特性を利用できていな い。そこで本実施の形態では、図 4に示すように、高い周波数の音に対しては感度が 低いという耳の特性を利用して、低い周波数に対しては緻密に分割を行い、高い周 波数に対しては分割の精度を下げる。
[0060] これを実現するため、 L (t, f)の周波数帯域を、さらに"セクション" (402)に分割す る。図 4ではセクション 0 (402)〜セクション 2 (404)までの 3つのセクションが示されて いる。高周波数のセクションは、例えば最大 1つの境界しか持つことができず (404)、 これによつて当該周波数セクションは 2分割されることになる。ビット数をさらに節減す るため、最も高域の周波数セクションでの分割は許可しない。この場合、このセクショ ンには従来技術において用いられる有名な"インテンシティステレオ"を利用する。分 割の精度は、耳の感度がより高くなる低域のセクションに向力 ほど高くなる。
[0061] 副情報の一部がセクションの境界となってもよいし、符号ィ匕のビットレートに従って あら力じめ定めてもよい。ただし、各セクションの時間的境界 (406)は、副情報 Border Lの一部となる。
[0062] なお、対象フレームの第一境界がそのフレームの始まりの境界である必要はない。 連続する 2つのフレームに、複数のフレーム境界をまたぐ同じエネルギーェンベロー プを共有させてもよい。この場合、この処理を可能とするために、 2つの音声フレーム のバッファリングを行う必要がある。
[0063] (実施の形態 3)
ビットレートが高 、場合、残響信号を用いてマルチチャネル信号を導出するだけで は高ビットレートで期待される透明性レベルを獲得するのに不十分である。このため、 実施の形態 3では、粗い量子化が行われた差分信号 Llf (t)および Rlf (t)を、ダウン ミクス信号とは別に符号ィ匕して復号ィ匕装置に送り、ダウンミクス信号力 分離された音 声チャネル信号と原音チャネル信号とのずれを復号ィ匕装置にぉ 、て補正する。図 6 は、実施の形態 3の復号ィ匕装置の構成を示すブロック図である。同図において、破線 で囲んで示す部分は、ミキサ 1 (322、 324)でのプレミキシングによって得られたプレ ミキシングチャネル信号の位相を調整するための Lreverb、 Rreverbを、残響生成器( 302)においてダウンミクス信号力 分離する信号分離部である。この復号化装置は 、前述の信号分離部、変換モジュール(300)、ミキサ 1 (322、 324)、低域通過フィ ルタ(320)、ミキサ 2 (310、 312)、エネルギー調整器(314、 316)及び逆変換モジ ユール(318)を備える。図 6に示す本実施の形態 3の復号化装置では、粗い量子化 を行ったマルチチャネル信号と低周波数領域における残響信号とをミキシングする。 粗い量子化が行われるのは、ビットレートに制限があるためである。
[0064] 粗!、量子化が行われた Llf (t)および Rlf (t)は、 QMFフィルタバンクである変換モ ジュール(300)において、ダウンミクス信号 M (t)とともに時間一周波数変換され、そ れぞれ Llf (t, f)および Rlf (t, f)と表現される。低域通過フィルタ(320)で決まるある 一定のクロスオーバー周波数 fxに到達するまで、プレミキシングモジュールである左 側ミキサ 1 (322)および右側ミキサ 1 (324)は、それぞれ、右チャネル Rlf (t, f)およ び左チャネル Llf (t, f)を、ダウンミクス信号 M (t, f)にプレミキシングする。これにより 、プレミキシングチャネル信号 LM (t, f)と RM (t, f)とを生成する。例えば、以下のよ うにしてプレミキシングを行う。
[0065] [数 14]
Figure imgf000018_0001
ICC(b)) * f) + ICC(b) *M , /)
¾ ,/) =(1 ICC(b) Rlf(t ) + ICC(b) ここで、 ICC (b)はチャネル間の相関を表しており、 Llf(t, f)および Rlf (t, f)それ ぞれと、 M(t, f)とのミキシングの割合を示している。例えば、 ICC(b) =1のとき、 IC C(b)は、粗い量子化が行われ、時間—周波数表現に変換された Llf (t, f)および Rl f(t, f)それぞれと、 M(t, f)と力 よく似ていることを示している。すなわち、 ICC(b) =1のときには、 M(t, f)だけで、ミキシングチャネル信号 LM(t, f)と RM(t, f)とを十 分、精度良く復元できる。
[0066] クロスオーバー周波数 fxより高域の周波数領域に対する以降の処理ステップは、図 4に示した実施の形態 2と同じである。 Llf (t)および Rlf (t)に対して粗い量子化を行 うための一つの方法は、
[0067] [数 15]
Figure imgf000018_0002
のように Llf (t)および Rlf (t)に対して差分信号を計算し、音響心理学モデルに応じ て決定される fxまでの主要な周波数成分のみを符号ィ匕することである。ビットレートを さらに低くするために、所定の量子化ステップを採用することができる。なお、上記の 数式 15では、差分信号として Llf (t) =L(t) M(t)、 Rlf (t) =R(t) M(t)を計算 したが、本発明はこれに限定されない。例えば、上記数式 15の M(t)の代わりに、分 離後の各チャネル信号を減算するとしてもよい。すなわち、 Llf(t) =L(t) -Lreverb (t)、 Rlf(t) =R(t) -Rreverb (t)を算出し、分離後の各チャネル信号に Llf (t)、 Rlf (t)を加算して、信号のずれを補正するとしてもよい。
[0068] 低域通過フィルタ(320)および高域通過フィルタ(326)が用いるクロスオーバー周 波数 はビットレートの関数である。ビットレートが非常に低いという極端なケースでは
、 Llf (t)および Rlf (t)を量子化するためのビット数が不十分であるため、ミキシングが 行えない。例えば、 fxがゼロといったケースである。実施の形態 3においては、 &よりも 高域に対してのみバイノーラルキュー符号ィ匕を行う。
[0069] 図 7は、本実施の形態 3の符号ィ匕装置と復号ィ匕装置とからなる符号ィ匕システムの構 成を示すブロック図である。実施の形態 3の符号化システムは、符号ィ匕側にダウンミク ス部(410)、 AACエンコーダ(411)、バイノーラルキューエンコーダ(412)、及び第 2エンコーダ (413)を備え、復号ィ匕側に AACデコーダ (414)、プレミタス部(415)、 信号分離部 (416)及びミキシング部 (417)を備える。信号分離部 (416)は、チヤネ ル分離部 (418)及び位相調整部 (419)を備える。
[0070] ダウンミクス部 (410)は、例えば、図 1に示したダウンミクス部(102)と同じである。
例えば、ダウンミクス部 (410)は、 M (t) = (L (t) +R(t) ) Z2で表されるダウンミクス 信号を生成する。このように生成されたダウンミクス信号 M (t)は、 AACエンコーダ (4 11)において、 MDCT (Modified Descrete Cosine Transform)変換され、サブバンド ごとに量子化され、可変長符号化されて符号ィ匕ビットストリームに組み込まれる。
[0071] バイノーラルキューエンコーダ(412)は、音声チャネル L (t)、 R(t)及び M (t)を、 ー且、 QMFによって時間 周波数表現に変換した上、それぞれのチャネル信号を 比較してバイノーラルキューを算出する。ノイノーラルキューエンコーダ (412)は、算 出したノイノーラルキューを符号ィ匕して符号列に多重化する。
[0072] また、第 2エンコーダ (413)は、例えば、数式 15に示したような、右チャネル信号 R
(t)及び左チャネル信号 L (t)のそれぞれと、ダウンミクス信号 M (t)との差分信号 Llf (t)及び Rlf (t)を算出し、粗く量子化して、符号化する。第 2エンコーダ (413)は、必 ずしも AACエンコーダ (411)と同じ符号化形式で符号化を行なう必要はな!/ヽ。
[0073] AACデコーダ (414)は、 AAC方式で符号化されたダウンミクス信号を復号化した 上、復号ィ匕されたダウンミクス信号を、 QMFにより時間 周波数表現 M (t, f)に変換 する。
[0074] 信号分離部 (416)は、チャネル分離部 (418)と位相調整部 (419)とを備える。チヤ ネル分離部 (418)は、バイノーラルキューエンコーダ (412)によって符号ィ匕されたバ イノーラルキューパラメータと、第 2エンコーダ (413)によって符号化された差分信号 Llf (t)、 Rlf (t)とを復号ィ匕した後、差分信号 Llf (t)、 Rlf (t)を時間一周波数表現に 変換する。その後、チャネル分離部(418)は、例えば、 ICC (b)に従って、 AACデコ ーダ (414)の出力であるダウンミクス信号 M (t, f)と、時間 周波数表現に変換され た差分信号 Llf (t, f)、Rlf (t, f)とをプレミキシングし、これによつて生成されたプレミ キシングチャネル信号 LM、 RMをミキシング部 417に出力する。
[0075] 位相調整部 (419)は、ダウンミクス信号 M (t, f)に対して必要な残響成分の生成付 加を行なった後、その位相を調整し、位相調整信号 Lrevと Rrevとしてミキシング部 (4 17)に出力する。
[0076] ミキシング部(417)は、左チャネルにつ!/、ては、プレミキシングチャネル信号 LMと 、位相調整信号 Lrevとをミキシングして、得られたミキシング信号を逆 QMFし、時間 の関数で表される出力信号! /を出力する。また、右チャネルについては、プレミキシ ングチャネル信号 RMと、位相調整信号 Rrevとをミキシングして、得られたミキシング 信号を逆 QMFし、時間の関数で表される出力信号 R"を出力する。
[0077] なお、上記図 7に示した符号化システムにおいても、左右の差分信号 Llf (t)、 Rlf (t )を、原音の音声チャネル信号 L (t)、 R(t)と、位相調整によって得られる出力信号 L rev(t)、 Rrev(t)との差分としてもよい。すなわち、 Llf (t) =L (t)— Lrev (t)、 Rlf (t) =R (t) -Rrev (t)としてもよ!/ヽ。
産業上の利用可能性
[0078] 本発明は、ホームシアターシステム、カーオーディオシステム、電子ゲームシステム 等に適用可能である。

Claims

請求の範囲
[1] 複数の音声チャネル信号をダウンミタスして得られるダウンミクスチャネル信号から、 複数の前記音声チャネル信号を復号化する音声信号復号化装置であって、 ダウンミクスチャネル信号を、周波数軸に沿って分割された複数の帯域における時 間 周波数表現に変換するダウンミクス信号変換手段と、
低ビット量に量子化された音声チャネル信号を前記時間 周波数表現に変換する 音声チャネル信号変換手段と、
変換後の前記ダウンミクスチャネル信号と、変換後の前記音声チャネル信号とを、 前記帯域ごとにプレミキシングすることによってプレミキシングチャネル信号を生成す るプレミキシング手段と、
音声チャネル信号間の空間的特徴を表す空間音声情報に基づいて所定の処理を 施された前記ダウンミクスチャネル信号と、生成された前記プレミキシングチャネル信 号とを前記帯域ごとにミキシングすることによって、ミキシングチャネル信号を生成す るミキシング手段と、
前記ミキシングチャネル信号を、複数の前記音声チャネル信号に変換するミキシン グチャネル信号変換手段と
を備えることを特徴とする音声信号復号ィ匕装置。
[2] 前記空間音声情報は、時間軸方向への境界と、周波数方向への境界とによって区 切られた領域に対して、それぞれ与えられる
ことを特徴とする請求項 1記載の音声信号復号化装置。
[3] 前記時間方向への境界の数は、周波数方向に設定されたセクションごとに異なる ことを特徴とする請求項 2記載の音声信号復号化装置。
[4] 前記空間音声情報はさらに、チャネル間の干渉性を示す成分を含み、前記ミキシ ング手段は、前記チャネル間の干渉性を示す成分によって示される割合でミキシング する
ことを特徴とする請求項 1記載の音声信号復号化装置。
[5] 前記空間音声情報に基づく所定の処理は、ダウンミクス信号に対して残響成分を 生成付加する処理を含み、 残響成分を生成する前記処理は、前記チャネル間の干渉性を示す成分によって制 御される
ことを特徴とする請求項 4記載の音声信号復号化装置。
[6] 全ての周波数帯域について、前記ミキシングチャネル信号のゲイン係数を導出する ために、前記ミキシングチャネル信号のエネルギーを算出し、当該ゲイン係数を前記 周波数帯域におけるミキシング信号に乗算する
ことを特徴とする請求項 1記載の音声信号復号化装置。
[7] 前記音声チャネル信号は、ある一定の上限周波数まで、低 、ビット量に量子化され た上、符号化されている
ことを特徴とする請求項 1記載の音声信号復号化装置。
[8] 前記上限周波数は、符号ィ匕のビットレートに合わせて決定されている
ことを特徴とする請求項 4記載の音声信号復号化装置。
[9] 前記プレミキシングは、前記上限周波数までの時間 周波数信号に対して行う ことを特徴とする請求項 1記載の音声信号復号化装置。
[10] 前記ミキシングは、前記上限周波数より高域の時間 周波数信号に対して行う ことを特徴とする請求項 1記載の音声信号復号化装置。
[11] 前記ダウンミクス信号変換手段および音声チャネル信号変換手段は、 QMF手段で あり、前記ミキシングチャネル信号変換手段は、逆 QMF手段である
ことを特徴とする請求項 1記載の音声信号復号化装置。
[12] 複数の音声チャネル信号を前記音声チャネル信号間の空間的特徴を表す空間音 声情報とともに符号化する音声信号符号化装置であって、
複数の前記音声チャネル信号をダウンミクスすることによって、ダウンミクスチャネル 信号を生成するダウンミクス手段と、
複数の前記音声チャネル信号と、生成された前記ダウンミクスチャネル信号とを、周 波数軸に沿って分割された複数の帯域における時間 周波数表現に変換する信号 変換手段と、
所定の時間 周波数領域ごとに、複数の前記音声チャネル信号を比較して、前記 空間音声情報を算出する空間音声情報算出手段と、 前記ダウンミクスチャネル信号と前記空間音声情報とを符号化する第 1符号化手段 と、
複数の前記音声チャネル信号を低ビット量に量子化した後、符号ィ匕する第 2符号 化手段と
を備えることを特徴とする音声信号符号ィ匕装置。
[13] 前記時間 周波数領域の時間境界は、前記音声チャネル信号および前記ダウンミ タスチャネルの 、ずれかの信号のエネルギーに、急激な変化が生じる時間的位置に 配置される
ことを特徴とする請求項 12記載の音声信号符号化装置。
[14] 前記空間音声情報は、前記時間境界と前記周波数の境界とによって区切られる領 域ごとに算出される
ことを特徴とする請求項 12記載の音声信号符号化装置。
[15] 前記空間音声情報のうち、音が両耳に届くまでの時間差を示す成分は、各音声チ ャネルの帯域ごとに算出される
ことを特徴とする請求項 12記載の音声信号符号化装置。
[16] 前記空間音声情報のうち、前記音声チャネル信号間の干渉性を示す成分は、前記 複数の音声チャネル信号の相関性として算出される
ことを特徴とする請求項 12記載の音声信号符号化装置。
[17] 複数の音声チャネル信号をダウンミタスして得られるダウンミクスチャネル信号から、 複数の前記音声チャネル信号を復号化する音声信号復号化方法であって、 ダウンミクスチャネル信号を、周波数軸に沿って分割された複数の帯域における時 間 周波数表現に変換し、
低ビット量に量子化された音声チャネル信号を前記時間 周波数表現に変換し、 変換後の前記ダウンミクスチャネル信号と、変換後の前記音声チャネル信号とを、 前記帯域ごとにプレミキシングすることによってプレミキシングチャネル信号を生成し 音声チャネル信号間の空間的特徴を表す空間音声情報に基づいて所定の処理を 施された前記ダウンミクスチャネル信号と、生成された前記プレミキシングチャネル信 号とを前記帯域ごとにミキシングすることによって、ミキシングチャネル信号を生成し、 前記ミキシングチャネル信号を、複数の前記音声チャネル信号に変換する ことを特徴とする音声信号復号化方法。
[18] 複数の音声チャネル信号を前記音声チャネル信号間の空間的特徴を表す空間音 声情報とともに符号化する音声信号符号化方法であって、
複数の前記音声チャネル信号をダウンミクスすることによって、ダウンミクスチャネル 信号を生成し、
複数の前記音声チャネル信号と、生成された前記ダウンミクスチャネル信号とを、周 波数軸に沿って分割された複数の帯域における時間 周波数表現に変換し、 所定の時間 周波数領域ごとに、複数の前記音声チャネル信号を比較して、前記 空間音声情報を算出し、
前記ダウンミクスチャネル信号と前記空間音声情報とを符号化し、
複数の前記音声チャネル信号を低ビット量に量子化した後、符号ィ匕する ことを特徴とする音声信号符号化方法。
[19] 複数の音声チャネル信号をダウンミタスして得られるダウンミクスチャネル信号から、 複数の前記音声チャネル信号を復号化する音声信号復号化装置のためのプロダラ ムであって、
ダウンミクスチャネル信号を、周波数軸に沿って分割された複数の帯域における時 間 周波数表現に変換するステップと、低ビット量に量子化された音声チャネル信号 を前記時間 周波数表現に変換するステップと、変換後の前記ダウンミクスチャネル 信号と、変換後の前記音声チャネル信号とを、前記帯域ごとにプレミキシングすること によってプレミキシングチャネル信号を生成するステップと、音声チャネル信号間の 空間的特徴を表す空間音声情報に基づいて所定の処理を施された前記ダウンミクス チャネル信号と、生成された前記プレミキシングチャネル信号とを前記帯域ごとにミキ シングすることによって、ミキシングチャネル信号を生成するステップと、前記ミキシン グチャネル信号を、複数の前記音声チャネル信号に変換するステップとをコンビユー タに実行させるプログラム。
[20] 複数の音声チャネル信号を前記音声チャネル信号間の空間的特徴を表す空間音 声情報とともに符号ィ匕する音声信号符号ィ匕装置のためのプログラムであって、 複数の前記音声チャネル信号をダウンミクスすることによって、ダウンミクスチャネル 信号を生成するステップと、複数の前記音声チャネル信号と、生成された前記ダウン ミクスチャネル信号とを、周波数軸に沿って分割された複数の帯域における時間 周波数表現に変換するステップと、所定の時間 周波数領域ごとに、複数の前記音 声チャネル信号を比較して、前記空間音声情報を算出するステップと、前記ダウンミ タスチャネル信号と前記空間音声情報とを符号化するステップと、複数の前記音声チ ャネル信号を低ビット量に量子化した後、符号ィ匕するステップとをコンピュータに実行 させるプログラム。
[21] ダウンミクスチャネル信号を、周波数軸に沿って分割された複数の帯域における時 間 周波数表現に変換するステップと、低ビット量に量子化された音声チャネル信号 を前記時間 周波数表現に変換するステップと、変換後の前記ダウンミクスチャネル 信号と、変換後の前記音声チャネル信号とを、前記帯域ごとにプレミキシングすること によってプレミキシングチャネル信号を生成するステップと、音声チャネル信号間の 空間的特徴を表す空間音声情報に基づいて所定の処理を施された前記ダウンミクス チャネル信号と、生成された前記プレミキシングチャネル信号とを前記帯域ごとにミキ シングすることによって、ミキシングチャネル信号を生成するステップと、前記ミキシン グチャネル信号を、複数の前記音声チャネル信号に変換するステップとをコンビユー タに実行させるプログラムが記録されたコンピュータ読み取り可能な記録媒体。
[22] 複数の前記音声チャネル信号をダウンミクスすることによって、ダウンミクスチャネル 信号を生成するステップと、複数の前記音声チャネル信号と、生成された前記ダウン ミクスチャネル信号とを、周波数軸に沿って分割された複数の帯域における時間 周波数表現に変換するステップと、所定の時間 周波数領域ごとに、複数の前記音 声チャネル信号を比較して、前記空間音声情報を算出するステップと、前記ダウンミ タスチャネル信号と前記空間音声情報とを符号化するステップと、複数の前記音声チ ャネル信号を低ビット量に量子化した後、符号ィ匕するステップとをコンピュータに実行 させるプログラムが記録されたコンピュータ読み取り可能な記録媒体。
PCT/JP2005/011842 2004-07-02 2005-06-28 音声信号復号化装置及び音声信号符号化装置 WO2006003891A1 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CN2005800226670A CN1981326B (zh) 2004-07-02 2005-06-28 音频信号解码装置和方法及音频信号编码装置和方法
KR1020067024727A KR101120911B1 (ko) 2004-07-02 2005-06-28 음성신호 복호화 장치 및 음성신호 부호화 장치
JP2006528708A JP4934427B2 (ja) 2004-07-02 2005-06-28 音声信号復号化装置及び音声信号符号化装置
CA2572805A CA2572805C (en) 2004-07-02 2005-06-28 Audio signal decoding device and audio signal encoding device
EP05765247.1A EP1768107B1 (en) 2004-07-02 2005-06-28 Audio signal decoding device
US11/629,135 US7756713B2 (en) 2004-07-02 2005-06-28 Audio signal decoding device which decodes a downmix channel signal and audio signal encoding device which encodes audio channel signals together with spatial audio information

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004-197336 2004-07-02
JP2004197336 2004-07-02

Publications (1)

Publication Number Publication Date
WO2006003891A1 true WO2006003891A1 (ja) 2006-01-12

Family

ID=35782698

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2005/011842 WO2006003891A1 (ja) 2004-07-02 2005-06-28 音声信号復号化装置及び音声信号符号化装置

Country Status (7)

Country Link
US (1) US7756713B2 (ja)
EP (1) EP1768107B1 (ja)
JP (1) JP4934427B2 (ja)
KR (1) KR101120911B1 (ja)
CN (1) CN1981326B (ja)
CA (1) CA2572805C (ja)
WO (1) WO2006003891A1 (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2048658A1 (en) * 2006-08-04 2009-04-15 Panasonic Corporation Stereo audio encoding device, stereo audio decoding device, and method thereof
KR101111520B1 (ko) 2006-12-07 2012-05-24 엘지전자 주식회사 오디오 처리 방법 및 장치
JP2012181556A (ja) * 2005-09-13 2012-09-20 Koninkl Philips Electronics Nv オーディオ符号化
US8374882B2 (en) 2008-12-11 2013-02-12 Fujitsu Limited Parametric stereophonic audio decoding for coefficient correction by distortion detection
US8504376B2 (en) 2006-09-29 2013-08-06 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
JP2013545128A (ja) * 2010-10-13 2013-12-19 サムスン エレクトロニクス カンパニー リミテッド 多チャネルオーディオ信号をダウンミックスする方法及び装置
WO2014068817A1 (ja) * 2012-10-31 2014-05-08 パナソニック株式会社 オーディオ信号符号化装置及びオーディオ信号復号装置
JP2017078858A (ja) * 2013-04-05 2017-04-27 ドルビー・インターナショナル・アーベー 信号をインタリーブするためのオーディオ復号器
JP2021047432A (ja) * 2017-03-31 2021-03-25 華為技術有限公司Huawei Technologies Co.,Ltd. マルチチャネル信号符号化方法、マルチチャネル信号復号化方法、符号器、及び復号器
JP2021121853A (ja) * 2017-04-12 2021-08-26 華為技術有限公司Huawei Technologies Co., Ltd. マルチチャネル信号符号化方法、マルチチャネル信号復号方法、エンコーダ、およびデコーダ

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006040727A2 (en) * 2004-10-15 2006-04-20 Koninklijke Philips Electronics N.V. A system and a method of processing audio data to generate reverberation
CN101147191B (zh) * 2005-03-25 2011-07-13 松下电器产业株式会社 语音编码装置和语音编码方法
AU2006266655B2 (en) 2005-06-30 2009-08-20 Lg Electronics Inc. Apparatus for encoding and decoding audio signal and method thereof
US8494667B2 (en) 2005-06-30 2013-07-23 Lg Electronics Inc. Apparatus for encoding and decoding audio signal and method thereof
WO2007026821A1 (ja) * 2005-09-02 2007-03-08 Matsushita Electric Industrial Co., Ltd. エネルギー整形装置及びエネルギー整形方法
WO2008039038A1 (en) * 2006-09-29 2008-04-03 Electronics And Telecommunications Research Institute Apparatus and method for coding and decoding multi-object audio signal with various channel
CN101578656A (zh) * 2007-01-05 2009-11-11 Lg电子株式会社 用于处理音频信号的装置和方法
US8965000B2 (en) 2008-12-19 2015-02-24 Dolby International Ab Method and apparatus for applying reverb to a multi-channel audio signal using spatial cue parameters
US8666752B2 (en) * 2009-03-18 2014-03-04 Samsung Electronics Co., Ltd. Apparatus and method for encoding and decoding multi-channel signal
EP2360688B1 (en) * 2009-10-21 2018-12-05 Panasonic Intellectual Property Corporation of America Apparatus, method and program for audio signal processing
MY178197A (en) * 2010-08-25 2020-10-06 Fraunhofer Ges Forschung Apparatus for generating a decorrelated signal using transmitted phase information
US8908874B2 (en) * 2010-09-08 2014-12-09 Dts, Inc. Spatial audio encoding and reproduction
FR2966634A1 (fr) * 2010-10-22 2012-04-27 France Telecom Codage/decodage parametrique stereo ameliore pour les canaux en opposition de phase
TWI462087B (zh) 2010-11-12 2014-11-21 Dolby Lab Licensing Corp 複數音頻信號之降混方法、編解碼方法及混合系統
KR101842257B1 (ko) * 2011-09-14 2018-05-15 삼성전자주식회사 신호 처리 방법, 그에 따른 엔코딩 장치, 및 그에 따른 디코딩 장치
CN102446507B (zh) * 2011-09-27 2013-04-17 华为技术有限公司 一种下混信号生成、还原的方法和装置
US20130315402A1 (en) * 2012-05-24 2013-11-28 Qualcomm Incorporated Three-dimensional sound compression and over-the-air transmission during a call
US9190065B2 (en) 2012-07-15 2015-11-17 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients
US9761229B2 (en) 2012-07-20 2017-09-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for audio object clustering
US9479886B2 (en) 2012-07-20 2016-10-25 Qualcomm Incorporated Scalable downmix design with feedback for object-based surround codec
JP2014074782A (ja) * 2012-10-03 2014-04-24 Sony Corp 音声送信装置、音声送信方法、音声受信装置および音声受信方法
WO2014058138A1 (ko) * 2012-10-12 2014-04-17 한국전자통신연구원 객체 오디오 신호의 잔향 신호를 이용한 오디오 부/복호화 장치
KR20140047509A (ko) 2012-10-12 2014-04-22 한국전자통신연구원 객체 오디오 신호의 잔향 신호를 이용한 오디오 부/복호화 장치
US8804971B1 (en) 2013-04-30 2014-08-12 Dolby International Ab Hybrid encoding of higher frequency and downmixed low frequency content of multichannel audio
EP2804176A1 (en) 2013-05-13 2014-11-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio object separation from mixture signal using object-specific time/frequency resolutions
MY178342A (en) 2013-05-24 2020-10-08 Dolby Int Ab Coding of audio scenes
WO2014187989A2 (en) 2013-05-24 2014-11-27 Dolby International Ab Reconstruction of audio scenes from a downmix
EP2840811A1 (en) 2013-07-22 2015-02-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for processing an audio signal; signal processing unit, binaural renderer, audio encoder and audio decoder
EP2830063A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for decoding an encoded audio signal
WO2015012594A1 (ko) * 2013-07-23 2015-01-29 한국전자통신연구원 잔향 신호를 이용한 다채널 오디오 신호의 디코딩 방법 및 디코더
EP3062534B1 (en) 2013-10-22 2021-03-03 Electronics and Telecommunications Research Institute Method for generating filter for audio signal and parameterizing device therefor
CN104768121A (zh) * 2014-01-03 2015-07-08 杜比实验室特许公司 响应于多通道音频通过使用至少一个反馈延迟网络产生双耳音频
US10109284B2 (en) 2016-02-12 2018-10-23 Qualcomm Incorporated Inter-channel encoding and decoding of multiple high-band audio signals

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06105824A (ja) * 1992-09-28 1994-04-19 Toshiba Corp 磁気共鳴信号の処理装置およびその処理方法
JPH09102742A (ja) * 1995-10-05 1997-04-15 Sony Corp 符号化方法および装置、復号化方法および装置、並びに記録媒体
JPH09507734A (ja) * 1994-01-04 1997-08-05 モトローラ・インコーポレイテッド 広帯域および狭帯域無線通信を同時に行うための方法および装置
JP2003522439A (ja) * 1999-06-15 2003-07-22 ヒアリング エンハンスメント カンパニー,リミティド ライアビリティー カンパニー 音声対残留オーディオ(vra)相互作用式補聴装置および補助設備
WO2003090207A1 (en) * 2002-04-22 2003-10-30 Koninklijke Philips Electronics N.V. Parametric multi-channel audio representation

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09102472A (ja) * 1995-10-06 1997-04-15 Matsushita Electric Ind Co Ltd 誘電体素子の製造方法
US6252965B1 (en) * 1996-09-19 2001-06-26 Terry D. Beard Multichannel spectral mapping audio apparatus and method
DE19721487A1 (de) * 1997-05-23 1998-11-26 Thomson Brandt Gmbh Verfahren und Vorrichtung zur Fehlerverschleierung bei Mehrkanaltonsignalen
JP3352406B2 (ja) * 1998-09-17 2002-12-03 松下電器産業株式会社 オーディオ信号の符号化及び復号方法及び装置
US7006636B2 (en) * 2002-05-24 2006-02-28 Agere Systems Inc. Coherence-based audio coding and synthesis
US20030035553A1 (en) * 2001-08-10 2003-02-20 Frank Baumgarte Backwards-compatible perceptual coding of spatial cues
US7292901B2 (en) * 2002-06-24 2007-11-06 Agere Systems Inc. Hybrid multi-channel/cue coding/decoding of audio signals
SE0202159D0 (sv) 2001-07-10 2002-07-09 Coding Technologies Sweden Ab Efficientand scalable parametric stereo coding for low bitrate applications
US8340302B2 (en) * 2002-04-22 2012-12-25 Koninklijke Philips Electronics N.V. Parametric representation of spatial audio
DE60311794T2 (de) * 2002-04-22 2007-10-31 Koninklijke Philips Electronics N.V. Signalsynthese
US7039204B2 (en) * 2002-06-24 2006-05-02 Agere Systems Inc. Equalization for audio mixing
US7502743B2 (en) * 2002-09-04 2009-03-10 Microsoft Corporation Multi-channel audio encoding and decoding with multi-channel transform selection
US7299190B2 (en) * 2002-09-04 2007-11-20 Microsoft Corporation Quantization and inverse quantization for audio

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06105824A (ja) * 1992-09-28 1994-04-19 Toshiba Corp 磁気共鳴信号の処理装置およびその処理方法
JPH09507734A (ja) * 1994-01-04 1997-08-05 モトローラ・インコーポレイテッド 広帯域および狭帯域無線通信を同時に行うための方法および装置
JPH09102742A (ja) * 1995-10-05 1997-04-15 Sony Corp 符号化方法および装置、復号化方法および装置、並びに記録媒体
JP2003522439A (ja) * 1999-06-15 2003-07-22 ヒアリング エンハンスメント カンパニー,リミティド ライアビリティー カンパニー 音声対残留オーディオ(vra)相互作用式補聴装置および補助設備
WO2003090207A1 (en) * 2002-04-22 2003-10-30 Koninklijke Philips Electronics N.V. Parametric multi-channel audio representation

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012181556A (ja) * 2005-09-13 2012-09-20 Koninkl Philips Electronics Nv オーディオ符号化
EP2048658A1 (en) * 2006-08-04 2009-04-15 Panasonic Corporation Stereo audio encoding device, stereo audio decoding device, and method thereof
EP2048658A4 (en) * 2006-08-04 2012-07-11 Panasonic Corp STEREOAUDIO CODING DEVICE, STEREOAUDIO DECODING DEVICE AND METHOD THEREFOR
US9792918B2 (en) 2006-09-29 2017-10-17 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
US9384742B2 (en) 2006-09-29 2016-07-05 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
US8762157B2 (en) 2006-09-29 2014-06-24 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
US8625808B2 (en) 2006-09-29 2014-01-07 Lg Elecronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
US8504376B2 (en) 2006-09-29 2013-08-06 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
US8488797B2 (en) 2006-12-07 2013-07-16 Lg Electronics Inc. Method and an apparatus for decoding an audio signal
US8428267B2 (en) 2006-12-07 2013-04-23 Lg Electronics Inc. Method and an apparatus for decoding an audio signal
US8340325B2 (en) 2006-12-07 2012-12-25 Lg Electronics Inc. Method and an apparatus for decoding an audio signal
US8311227B2 (en) 2006-12-07 2012-11-13 Lg Electronics Inc. Method and an apparatus for decoding an audio signal
KR101111520B1 (ko) 2006-12-07 2012-05-24 엘지전자 주식회사 오디오 처리 방법 및 장치
US8374882B2 (en) 2008-12-11 2013-02-12 Fujitsu Limited Parametric stereophonic audio decoding for coefficient correction by distortion detection
JP2013545128A (ja) * 2010-10-13 2013-12-19 サムスン エレクトロニクス カンパニー リミテッド 多チャネルオーディオ信号をダウンミックスする方法及び装置
WO2014068817A1 (ja) * 2012-10-31 2014-05-08 パナソニック株式会社 オーディオ信号符号化装置及びオーディオ信号復号装置
JPWO2014068817A1 (ja) * 2012-10-31 2016-09-08 株式会社ソシオネクスト オーディオ信号符号化装置及びオーディオ信号復号装置
JP2017078858A (ja) * 2013-04-05 2017-04-27 ドルビー・インターナショナル・アーベー 信号をインタリーブするためのオーディオ復号器
US11830510B2 (en) 2013-04-05 2023-11-28 Dolby International Ab Audio decoder for interleaving signals
JP2019191596A (ja) * 2013-04-05 2019-10-31 ドルビー・インターナショナル・アーベー 信号をインタリーブするためのオーディオ復号器
US10438602B2 (en) 2013-04-05 2019-10-08 Dolby International Ab Audio decoder for interleaving signals
US11114107B2 (en) 2013-04-05 2021-09-07 Dolby International Ab Audio decoder for interleaving signals
JP2021047432A (ja) * 2017-03-31 2021-03-25 華為技術有限公司Huawei Technologies Co.,Ltd. マルチチャネル信号符号化方法、マルチチャネル信号復号化方法、符号器、及び復号器
JP7035154B2 (ja) 2017-03-31 2022-03-14 華為技術有限公司 マルチチャネル信号符号化方法、マルチチャネル信号復号化方法、符号器、及び復号器
JP2022084671A (ja) * 2017-03-31 2022-06-07 華為技術有限公司 マルチチャネル信号符号化方法、マルチチャネル信号復号化方法、符号器、及び復号器
US11386907B2 (en) 2017-03-31 2022-07-12 Huawei Technologies Co., Ltd. Multi-channel signal encoding method, multi-channel signal decoding method, encoder, and decoder
JP7436541B2 (ja) 2017-03-31 2024-02-21 華為技術有限公司 マルチチャネル信号符号化方法、コンピュータ可読記憶媒体、コンピュータプログラム、及び符号器
US11894001B2 (en) 2017-03-31 2024-02-06 Huawei Technologies Co., Ltd. Multi-channel signal encoding method, multi-channel signal decoding method, encoder, and decoder
JP2021121853A (ja) * 2017-04-12 2021-08-26 華為技術有限公司Huawei Technologies Co., Ltd. マルチチャネル信号符号化方法、マルチチャネル信号復号方法、エンコーダ、およびデコーダ
US11832087B2 (en) 2017-04-12 2023-11-28 Huawei Technologies Co., Ltd. Multi-channel signal encoding method, multi-channel signal decoding method, encoder, and decoder
JP7379602B2 (ja) 2017-04-12 2023-11-14 華為技術有限公司 マルチチャネル信号符号化方法、マルチチャネル信号復号方法、エンコーダ、およびデコーダ
JP7106711B2 (ja) 2017-04-12 2022-07-26 華為技術有限公司 マルチチャネル信号符号化方法、マルチチャネル信号復号方法、エンコーダ、およびデコーダ

Also Published As

Publication number Publication date
KR20070030796A (ko) 2007-03-16
JPWO2006003891A1 (ja) 2008-04-17
EP1768107B1 (en) 2016-03-09
US7756713B2 (en) 2010-07-13
US20080071549A1 (en) 2008-03-20
KR101120911B1 (ko) 2012-02-27
CA2572805A1 (en) 2006-01-12
CN1981326B (zh) 2011-05-04
CA2572805C (en) 2013-08-13
EP1768107A1 (en) 2007-03-28
CN1981326A (zh) 2007-06-13
JP4934427B2 (ja) 2012-05-16
EP1768107A4 (en) 2009-10-21

Similar Documents

Publication Publication Date Title
JP4934427B2 (ja) 音声信号復号化装置及び音声信号符号化装置
US7974713B2 (en) Temporal and spatial shaping of multi-channel audio signals
KR101967122B1 (ko) 신호 처리 장치 및 방법, 및 프로그램
US8019087B2 (en) Stereo signal generating apparatus and stereo signal generating method
US8817992B2 (en) Multichannel audio coder and decoder
RU2495503C2 (ru) Устройство кодирования звука, устройство декодирования звука, устройство кодирования и декодирования звука и система проведения телеконференций
JP4794448B2 (ja) オーディオエンコーダ
US10255928B2 (en) Apparatus, medium and method to encode and decode high frequency signal
WO2011013381A1 (ja) 符号化装置および復号装置
JP5426680B2 (ja) 信号処理方法及び装置
EP1906706A1 (en) Audio decoder
US9167367B2 (en) Optimized low-bit rate parametric coding/decoding
US8352249B2 (en) Encoding device, decoding device, and method thereof
WO2006075563A1 (ja) オーディオ符号化装置、オーディオ符号化方法およびオーディオ符号化プログラム
US8489391B2 (en) Scalable hybrid auto coder for transient detection in advanced audio coding with spectral band replication
US20120163608A1 (en) Encoder, encoding method, and computer-readable recording medium storing encoding program

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KM KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NG NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SM SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2006528708

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 1020067024727

Country of ref document: KR

WWE Wipo information: entry into national phase

Ref document number: 11629135

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2005765247

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2572805

Country of ref document: CA

NENP Non-entry into the national phase

Ref country code: DE

WWW Wipo information: withdrawn in national office

Country of ref document: DE

WWE Wipo information: entry into national phase

Ref document number: 200580022667.0

Country of ref document: CN

WWP Wipo information: published in national office

Ref document number: 1020067024727

Country of ref document: KR

WWP Wipo information: published in national office

Ref document number: 2005765247

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 11629135

Country of ref document: US