WO2013168414A1 - 音信号ハイブリッドエンコーダ、音信号ハイブリッドデコーダ、音信号符号化方法、及び音信号復号方法 - Google Patents

音信号ハイブリッドエンコーダ、音信号ハイブリッドデコーダ、音信号符号化方法、及び音信号復号方法 Download PDF

Info

Publication number
WO2013168414A1
WO2013168414A1 PCT/JP2013/002950 JP2013002950W WO2013168414A1 WO 2013168414 A1 WO2013168414 A1 WO 2013168414A1 JP 2013002950 W JP2013002950 W JP 2013002950W WO 2013168414 A1 WO2013168414 A1 WO 2013168414A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
frame
lfd
decoder
encoder
Prior art date
Application number
PCT/JP2013/002950
Other languages
English (en)
French (fr)
Inventor
コク セン チョン
則松 武志
Original Assignee
パナソニック株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック株式会社 filed Critical パナソニック株式会社
Priority to US14/117,738 priority Critical patent/US9489962B2/en
Priority to CN201380001328.9A priority patent/CN103548080B/zh
Priority to JP2013537355A priority patent/JP6126006B2/ja
Priority to EP13786609.1A priority patent/EP2849180B1/en
Publication of WO2013168414A1 publication Critical patent/WO2013168414A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters

Definitions

  • the present invention relates to a sound signal hybrid encoder and a sound signal hybrid decoder capable of switching a codec.
  • Hybrid codec is a codec that combines the advantages of audio codec and speech codec.
  • a sound signal in which content mainly composed of a speech signal (sound signal) and content mainly based on an audio signal (sound signal) is mixed by an encoding method suitable for each by switching between the audio codec and the speech codec.
  • Hybrid codec can efficiently encode content that contains both speech and audio signals. For this reason, the hybrid codec is applicable to various applications such as audio books, broadcasting systems, portable media devices, portable communication terminals (for example, smartphones, tablet computers), video conferencing apparatuses, and music performances on a network. .
  • the present invention provides a sound signal hybrid encoder that can efficiently generate an AC signal.
  • a sound signal hybrid encoder includes a signal analysis unit that analyzes a characteristic of a sound signal and determines a coding method of a frame included in the sound signal, and performs LFD (Lapped Frequency Domain) conversion on the frame.
  • LFD Lapped Frequency Domain
  • An LFD encoder that generates an LFD frame in which the frame is encoded, an LP encoder that generates an LP (Linear Prediction) frame in which the frame is encoded by calculating a linear prediction coefficient of the frame, and the signal
  • a switching unit that switches whether the frame is encoded by the LFD encoder or the LP encoder, and is continuous with the LP frame by switching control of the switching unit
  • the LFD frame A local decoder that generates a local decode signal including a signal obtained by decoding at least a part of an AC (Aliasing Cancel) target frame, and a signal obtained by decoding at least a part of the LP frame that is continuous with the AC target frame;
  • An AC signal generation unit that generates and outputs an AC signal used for removing aliasing that occurs in decoding of the AC target frame using the sound signal and the local decode signal, and the AC signal generation unit includes: When the AC target frame continues immediately after the LP frame, or when the AC target frame is
  • the sound signal hybrid encoder of the present invention can efficiently generate an AC signal.
  • FIG. 1 is a diagram for explaining removal of aliasing due to partial overlap in encoding / decoding using MDCT.
  • FIG. 2 is a diagram illustrating an AC signal generation method used in switching from LP coding to transform coding.
  • FIG. 3 is a diagram illustrating a method of generating an AC signal used in switching from transform coding to LP coding.
  • FIG. 4 is a block diagram showing a configuration of the sound signal hybrid encoder according to the first embodiment.
  • FIG. 5 is a diagram showing the shape of a window having a small overlap.
  • FIG. 6 is a block diagram illustrating an example of the configuration of the AC signal generation unit.
  • FIG. 7 is a flowchart illustrating an example of the operation of the AC signal generation unit.
  • FIG. 1 is a diagram for explaining removal of aliasing due to partial overlap in encoding / decoding using MDCT.
  • FIG. 2 is a diagram illustrating an AC signal generation method used in switching from LP coding to transform coding.
  • FIG. 8 is a diagram illustrating a second method of AC signal generation used in switching from LP encoding to transform encoding.
  • FIG. 9 is a diagram illustrating a second method of AC signal generation used in switching from transform coding to LP coding.
  • FIG. 10 is a block diagram showing a configuration of the sound signal hybrid decoder according to the second embodiment.
  • FIG. 11 is a block diagram illustrating an example of the configuration of the AC output signal generation unit.
  • FIG. 12 is a flowchart illustrating an example of the operation of the AC output signal generation unit.
  • the audio codec is suitable for encoding a stationary signal including local spectrum content (tone signal, harmonic signal, etc.).
  • encoding is performed mainly by converting a signal into the frequency domain.
  • an encoder of an audio codec converts an input signal into a frequency (spectrum) domain by using time-frequency domain transform such as modified discrete cosine transform (MDCT).
  • time-frequency domain transform such as modified discrete cosine transform (MDCT).
  • a frame to be encoded has a part (partial overlap) temporally overlapping with a frame that is temporally continuous (adjacent) to the frame, and each frame to be encoded has a window It is processed.
  • the partial overlap is for smoothing the frame boundaries on the decoding side.
  • the window processing has the two purposes of generating a higher resolution spectrum and blurring the boundary of the frame encoded for the above smoothing.
  • MDCT converts time domain samples into a reduced number of spectral coefficients for encoding.
  • a time-frequency domain transform such as MDCT generates an aliasing component, but the aliasing component is removed on the decoding side due to the partial overlap.
  • One of the main advantages of audio codecs is that psychoacoustic models can be used easily. For example, a higher number of bits can be assigned to a perceptual “masker” and a lower number of bits can be assigned to a perceptual “masky” that the human ear cannot perceive. In the audio codec, coding efficiency and sound quality are greatly improved by using a psychoacoustic model.
  • MPEG Advanced Audio Coding (AAC) is a good example of a pure audio codec.
  • the speech codec is a method based on a model that uses the pitch characteristics of the vocal tract, and is suitable for encoding human speech.
  • the speech codec encoder uses a linear prediction (LP) filter to encode the LP filter coefficients of the input signal in order to obtain a spectral envelope of human speech.
  • LP linear prediction
  • the LP filter performs inverse filtering on the input signal (split spectrally) to generate a sound source signal having a flat spectrum.
  • the sound source signal here usually represents a sound source signal having a “code word”, and is sparsely encoded using a vector quantization (VQ) method.
  • VQ vector quantization
  • a long term predictor (LTP: Long Term Predictor) may be incorporated in order to capture long term periodicity of speech.
  • LTP Long Term Predictor
  • a whitening filter may be applied to the signal before the linear prediction filter, encoding in consideration of psychoacoustic aspects becomes possible.
  • TCX Transform encoding excitation
  • TCX is a method that combines LP coding and transform coding.
  • the input signal is perceptually weighted with a perceptual filter derived from the linear prediction filter of the input signal.
  • the weighted input signal is then converted to the spectral domain and the spectral coefficients are encoded with the VQ method.
  • TCX is an ITU. Seen in T's extended adaptive multirate wideband (AMR-WB +) codec.
  • the frequency transform used in (AMR-WB +) is a Discrete Fourier Transform (DFT: Discrete Fourier Transform).
  • DFT Discrete Fourier Transform
  • the above main encoding method can be supplemented by adding a low bit rate tool.
  • the two main low bit rate tools are the bandwidth extension tool and the multi-channel extension tool.
  • the Bandwidth Extension (BWE) tool uses the harmonic relationship between the low-frequency part and the high-frequency part of the input signal to parameterize the high-frequency part of the input signal.
  • These bandwidth extension parameters are, for example, subband energy and TNR (Tone To Noise Ratio).
  • the decoder forms a basic high frequency signal by extending the low frequency portion of the input signal depending on whether the input signal is patched or stretched.
  • the decoder uses the bandwidth extension parameter to shape the amplitude of the spectrally extended signal. That is, the bandwidth extension parameter compensates for the noise floor and tone (tone color) with an artificially generated counterpart.
  • MPEG high-efficiency AAC is a codec that includes such a bandwidth extension tool, codenamed Spectral Band Replication (SBR).
  • SBR Spectral Band Replication
  • parameter calculation is performed in a hybrid domain (time and frequency domain) generated by a quadrature mirror filter bank (QMF: Quadrature Mirror Filterbank).
  • the multi-channel extension tool downmixes multi-channels into encoding channel subsets.
  • Multi-channel expansion tools encode the relationships between individual channels in a parametric manner. These multi-channel extension parameters are, for example, level differences between channels, time differences between channels, and correlations between channels.
  • the decoder synthesizes the individual channel signals by mixing the decoded downmixed channel signal with the artificially generated “non-correlated” signal. At this time, the mixing weight between the signal of the downmixed channel and the non-correlated signal is calculated based on the above parameters.
  • the waveform of the output signal output from the decoder is not similar to the waveform of the original input signal, but is perceptually similar to the original input signal.
  • MPEG Surround MPS: MPEG Surround
  • MPS parameters are also calculated in the QMF region.
  • Multi-channel expansion tools are also known as stereo expansion.
  • USAC Unified Speech And Audio Codec
  • the above tools similar to the AAC method (hereinafter referred to as AAC), LP, TCX, band expansion tool (hereinafter referred to as SBR), and channel are selected according to the characteristics of the input signal.
  • the optimum tool is selected from all the enlargement tools (hereinafter referred to as MPS) and used in combination.
  • the USAC encoder downmixes a stereo signal into a monaural signal using the MPS tool, and reduces the monophonic signal of the entire band to a narrowband monaural signal using the SBR tool. Furthermore, in order to encode a narrow-band monaural signal, a USAC encoder should analyze the characteristics of a signal frame using a signal classification unit and encode using any of the core codecs (AAC, LP, TCX). To decide. Here, in the USAC, it is important to remove aliasing generated between frames due to codec switching.
  • MDCT concatenates consecutive frames and performs window processing on the concatenated signals before performing conversion. This is shown in FIG.
  • FIG. 1 is a diagram for explaining the removal of aliasing due to partial overlap in encoding / decoding using MDCT.
  • a and b indicate the first half and the second half when the frame 1 is divided into two equal parts, respectively.
  • c and d indicate the first half and the second half when the frame 2 is divided into two equal parts, respectively.
  • e and f respectively indicate the first half and the second half when the frame 3 is divided into two equal parts.
  • the first set of MDCT conversion is performed on signals (a, b, c, d) obtained by combining frames 1 and 2.
  • the second set of MDCT conversions is performed on signals (c, d, e, f) obtained by combining frames 2 and 3.
  • c and d are partial overlaps (overlap regions).
  • equation (1) is a case of MDCT of 1st set
  • Formula (2) shows the case of MDCT of 2nd set.
  • the window has the following characteristic (3).
  • the subscript “R” indicates time reversal / inversion. Specifically, such a relationship can be seen, for example, in the first half cycle of the sine function.
  • the decoder performs an inverse modified discrete cosine transform (IMDCT: Inverse Modified Discrete Cosine Transform) on the decoded MDCT coefficients.
  • IMDCT Inverse Modified Discrete Cosine Transform
  • Equation (5) When the signal shown in Equation (4) is compared with the original signal shown in Equation (1), an aliasing component as shown in Equation (5) below is generated by IMDCT.
  • the signal after IMDCT for the second set of MDCTs is expressed by the following equation (6).
  • Equation (3) considering the window characteristics shown in Equation (3), the last two terms in Equation (7) are added to the first two terms in Equation (8), so that c and d, which are the original signals, are obtained. can get. That is, the aliasing component is eliminated.
  • the frame size is the number of samples N in the encoding based on MDCT
  • an inherent MDCT delay (filter delay) of N samples occurs. Therefore, the total delay is 2N samples.
  • aliasing can be removed using a forward aliasing removal (FAC) tool.
  • FAC forward aliasing removal
  • FIG. 2 is a diagram showing the principle of the FAC tool.
  • a and b indicate the first half and the second half, respectively, when frame 1 is divided into two equal parts.
  • c and d indicate the first half and the second half when the frame 2 is divided into two equal parts, respectively.
  • e and f respectively indicate the first half and the second half when the frame 3 is divided into two equal parts.
  • LP coding is performed in the first half of frame 1 and the second half of frame 2 (that is, b and c).
  • the coding method is switched from LP coding to transform coding, and frame 2 and frame 3 are subjected to transform coding.
  • the decoder can completely decode the subframe c using only the encoded subframe c.
  • the subframe d is encoded by transform coding (MDCT or TCX)
  • the decoder decodes the subframe d as it is, the decoded signal includes an aliasing component. In order to remove such aliasing components, the encoder generates the following first to third signals.
  • the encoder first performs inverse MDCT using a local decoder to generate a windowed first signal x.
  • d 'and c' are signals obtained by decoding d and c by a local decoder, respectively.
  • the encoder applies a second window to the signal c ′′ obtained by decoding the LD-encoded subframe c using a local decoder, and inverts the signal c ′′.
  • the signal y is generated.
  • the third signal is a zero input response (ZIR: Zero Input Response) obtained by windowing the preceding LP frame, as shown in Expression (11).
  • ZIR Zero Input Response
  • the zero input response (ZIR) is a process of calculating an output value when a zero input is made to the FIR filter in a state where the state is changing every moment due to the past input in the FIR filter process.
  • an aliasing removal (AC) signal is calculated by subtracting the above three signals from the original signal d.
  • the AC signal has the following characteristics. When the encoding performance is sufficient and the waveform of the signal after decoding is similar to the waveform of the original signal, as well as Equation (12) is approximated as the following Equation (13).
  • the beginning of the subframe of the AC signal is It is.
  • the end of the subframe d is w2 ⁇ 1
  • the end of the subframe of the AC signal is It is. That is, the AC signal is shaped like a naturally windowed signal that converges to zero on both sides of subframe d.
  • the AC signal is used when switching from LP coding to transform coding (MDCT / TCX). In the case of switching from transform coding (MDCT / TCX) to LP coding, a similar AC signal is generated.
  • the difference is that the AC signal used in switching from transform coding to LP coding does not have a ZIR component.
  • the AC signal used in switching from transform coding to LP coding is not zero at the end adjacent to the LP-coded frame of the subframe, and thus does not have a shape like a windowed signal. The point is also different.
  • FIG. 3 is a diagram illustrating an AC signal generation method used in switching from transform coding to LP coding.
  • an AC signal is generated in order to remove aliasing components included in subframe c. Specifically, by subtracting the first signal x represented by the equation (14) and the second signal y represented by the equation (15) from the original signal c, the equation (16) is obtained. Asking.
  • the total delay which is the total time of the signal processing time and the signal transmission time (network delay), is 30 mm. It must be less than a second (for example, see Non-Patent Document 1). If the echo cancellation processing and network delay account for 20 milliseconds of the total delay, the algorithmic delay allowed in encoding / decoding is about 10 milliseconds.
  • the main delay in MPEG USAC is caused by the following 1-3.
  • the main delay that occurs in both the encoder and decoder is caused by the large size of the frame.
  • the MPEG USAC standard allows a frame size of 768 samples or 1024 samples.
  • N the number of samples
  • a delay of 2N occurs, and a delay of 1536 or 2048 samples occurs.
  • the sampling frequency is 48 kHz, a core MDCT + framing delay of 32 ms or 43 ms respectively occurs.
  • the second major delay that occurs in both the encoder and decoder occurs in the QMF analysis and synthesis filter bank for SBR and MPS.
  • a conventional filter bank with a symmetric typical window results in a delay of 12 milliseconds at an additional 577 sample delay or 48 kHz sampling frequency.
  • the main delay caused by the encoder is a look-ahead delay caused by the signal classification unit of the encoder.
  • the signal classification unit analyzes signal transition, timbre, and spectral tilt (signal characteristics), and determines which of the MDCT, LP, and TCX methods should be used to encode the signal. This usually causes a further delay of one frame. The delay is 16 milliseconds or 21 milliseconds if the sampling frequency is 48 kHz.
  • the first thing to do in order to achieve ultra-low delay is a significant reduction in frame size.
  • the frame size is reduced, in order to reduce the coding efficiency of transform coding, it is more important than ever to use bits efficiently during quantization.
  • the aliasing component of the transform-coded frame is combined with the decoded LP signal (for example, Formula (10)).
  • the encoder removes aliasing components by generating and encoding an additional aliasing residual signal called an AC signal as described above.
  • the code amount of the AC signal should be as small as possible.
  • the aliasing component cannot be sufficiently removed even if the AC signal is used.
  • the coding method is switched from LP coding to transform coding (MDCT / TCX), based on the ZIR of the preceding LP coded subframe c, the AC signal is first Is calculated to be zero.
  • the AC signal is a window-processed signal at first glance, and if a specific quantization method is used, efficient encoding is promoted.
  • the AC signal generation method shown in FIG. 2 predicts the start of subframe d based on the ZIR of subframe c, for example, when the signal characteristics change suddenly, it is sufficient.
  • the aliasing component cannot be removed.
  • the waveform of the AC signal is not smaller than the waveform of the encoded original signal, and the MDCT signal and the LP signal from which aliasing has been removed are similar to the original signal.
  • the waveform of the original signal and the waveform of the signal after decoding may be similar, and an AC signal becomes an unnecessary burden during encoding.
  • the codec of the present invention based on the overall structure of the MPEG USAC has the following basic configurations 1 to 3 in order to reduce delay.
  • the overlap between successive MDCT frames is reduced to further reduce the delay (see, for example, Non-Patent Document 4).
  • the recommended number of overlapping samples is 128 samples.
  • the basic configuration also uses a composite low delay filter bank with a typical asymmetric window.
  • a low-delay QMF filter bank is described in Non-Patent Document 2, is well known, and has already been used in MPEG AAC-ELD (see Non-Patent Document 3).
  • the codec of the present invention can realize an algorithm delay of 10 milliseconds.
  • a sound signal hybrid encoder includes a signal analysis unit that analyzes a characteristic of a sound signal and determines a coding method of a frame included in the sound signal, and performs LFD (Lapped Frequency Domain) conversion on the frame.
  • LFD Lapped Frequency Domain
  • An LFD encoder that generates an LFD frame in which the frame is encoded, an LP encoder that generates an LP (Linear Prediction) frame in which the frame is encoded by calculating a linear prediction coefficient of the frame, and the signal
  • a switching unit that switches whether the frame is encoded by the LFD encoder or the LP encoder, and is continuous with the LP frame by switching control of the switching unit
  • the LFD frame A local decoder that generates a local decode signal including a signal obtained by decoding at least a part of an AC (Aliasing Cancel) target frame, and a signal obtained by decoding at least a part of the LP frame that is continuous with the AC target frame;
  • An AC signal generation unit that generates and outputs an AC signal used for removing aliasing that occurs in decoding of the AC target frame using the sound signal and the local decode signal, and the AC signal generation unit includes: When the AC target frame continues immediately after the LP frame, or when the AC target frame is
  • the sound signal hybrid encoder can efficiently generate an AC signal by selecting one method from a plurality of methods and generating and outputting an AC signal.
  • the AC signal generation unit may generate and output the AC signal according to one method selected from the first method and the second method different from the first method. .
  • a quantizer that quantizes the AC signal is further provided, and the AC signal generation unit generates the two AC signals using the first method and the second method, respectively.
  • the AC signal of the method used to generate the AC signal having the smaller code amount after quantization by the quantizer among the two generated AC signals may be output.
  • the first method uses the zero input response obtained by windowing the LP frame immediately before the AC target frame.
  • This is a method for generating a signal
  • the second method may be a method for generating the AC signal without using the zero input response.
  • the first scheme is a scheme standardized in a unified speech and audio codec (USAC), and the second scheme has a code amount after quantization of an AC signal to be generated.
  • a method that is expected to be smaller than the above method may be used.
  • the AC signal generation unit selects the first method, and the frame size of the frame included in the sound signal. If is less than the predetermined size, the second method may be selected.
  • the AC signal generation unit further includes a quantizer that quantizes the AC signal, and the AC signal generation unit generates the AC signal by the first method, and generates the AC signal by the first method.
  • the code amount after quantization by the quantizer is smaller than a predetermined threshold
  • the first method is selected, and the AC signal generated by the first method is quantized by the quantizer
  • the subsequent code amount is equal to or greater than a predetermined threshold
  • the AC signal is further generated by the second method, the AC signal generated by the first method, and the AC signal generated by the second method.
  • the AC signal with the smaller code amount after quantization by the quantizer may be output.
  • the AC signal generation unit further includes a first AC candidate generator that generates the AC signal in the first scheme, and a second AC candidate that generates the AC signal in the second scheme.
  • a candidate generator (1) outputting the AC signal generated by one AC candidate generator selected from the first AC candidate generator and the second AC candidate generator; and (2 And an AC candidate selector that outputs the AC flag indicating which of the first method and the second method is used to output the AC signal.
  • an LD (Low Delay) analysis filter bank that generates an input subband signal that is a signal obtained by converting the input signal into a time-frequency domain representation, and a multichannel extension parameter and an A multi-channel extension unit that generates a downmix subband signal, a bandwidth extension unit that generates a bandwidth extension parameter and a narrowband subband signal from the downmix subband signal, and a time frequency of the narrowband subband signal.
  • LD Low Delay
  • a quantizer for quantizing and the quantity Equalizer may comprise a bitstream multiplexer for transmitting the multiplexed signal and the AC flag quantized.
  • the LFD encoder may encode the frame by a TCX method.
  • the LFD encoder encodes the frame by MDCT
  • the switching unit performs window processing on the frame encoded by the LFD encoder
  • the window used for the window processing is the window of the frame. It may be monotonically increasing or monotonically decreasing in a period shorter than half of the length.
  • the sound signal hybrid decoder includes an LFD frame encoded by LFD conversion, an LP frame encoded using a linear prediction coefficient, and the LFD frame continuous with the LP frame.
  • An audio signal hybrid decoder that decodes an encoded signal including an AC signal for removing aliasing of a certain AC target frame, an ILFD (Inverse Laminated Frequency Domain) decoder that decodes the LFD frame, and the LP
  • An LP decoder that decodes a frame; a switching unit that outputs a second narrowband signal in which a frame obtained by performing window processing on the frame decoded by the ILFD decoder and a frame decoded by the LP decoder; Used to generate the AC signal An AC flag that indicates a scheme is obtained, and an AC output signal is generated by adding a signal output from the switching unit, the ILFD decoder, or the LP decoder to the AC signal according to the scheme indicated by the AC flag.
  • a bit stream demultiplexer that obtains a bit stream including the quantized encoded signal and the AC flag, and the quantized encoded signal is inversely quantized to generate the code.
  • An inverse quantizer that generates a quantized signal
  • an LD analysis filter bank that generates a narrowband subband signal by converting the third narrowband signal output from the adder into a time-frequency domain representation,
  • a bandwidth extension parameter included in the encoded signal generated by the inverse quantizer By applying a bandwidth extension parameter included in the encoded signal generated by the inverse quantizer to the narrowband subband signal, a high frequency signal is synthesized to generate a subband signal with an extended bandwidth.
  • the bandwidth extension decoding unit and the multi-channel extension parameter included in the encoded signal generated by the inverse quantizer are extended by the bandwidth.
  • the multi-channel extension decoding unit that generates a multi-channel sub-band signal and a multi-channel signal that is a signal obtained by converting the multi-channel sub-band signal from a time-frequency representation into a time-domain representation And an LD synthesis filter bank.
  • the AC signal is generated by a first method or a second method different from the first method
  • the AC output signal generation unit is further generated by the first method.
  • a first AC candidate generator that generates the AC output signal corresponding to an AC signal
  • a second AC candidate generator that generates the AC output signal corresponding to the AC signal generated by the second scheme
  • an AC candidate that selects either the first AC candidate generator or the second AC candidate generator according to the AC flag and causes the selected AC candidate generator to generate the AC output signal.
  • a selector is
  • FIG. 4 is a block diagram showing a configuration of the sound signal hybrid encoder according to the first embodiment.
  • the sound signal hybrid encoder 100 includes an LD (Low Delay) analysis filter bank 400, an MPS encoder 401, an SBR encoder 402, an LD synthesis filter bank 403, a signal analysis unit 404, and a switching unit 405.
  • the sound signal hybrid encoder 100 includes an audio encoder 406 (hereinafter simply referred to as MDCT encoder 406) using an MDCT filter bank, an LP encoder 408, and a TCX encoder 410.
  • the sound signal hybrid encoder 100 also includes a plurality of quantizers 407, 409, 411, 414, 416, and 417, a bit stream multiplexer 415, a local decoder 412, and an AC signal generation unit 413.
  • the LD analysis filter bank 400 generates an input subband signal represented by a hybrid time / frequency expression by performing low delay analysis filter bank processing on an input signal (multi-channel input signal).
  • Specific examples of the low-delay filter bank include the low-delay QMF filter bank shown in Non-Patent Document 2, but are not limited thereto.
  • the MPS encoder 401 (multi-channel extension unit) converts the input subband signal generated by the LD analysis filter bank 400 into a downmix subband signal, which is a smaller set of signals, and generates an MPS parameter.
  • the downmix subband signal here means a full-band downmix subband signal.
  • the input signal is a stereo signal
  • only one downmix subband signal is generated.
  • the MPS parameter is quantized by the quantizer 416.
  • the SBR encoder 402 (bandwidth extension unit) downsamples the downmix subband signal into a set of narrowband subband signals. In this process, SBR parameters are generated.
  • the SBR parameter is quantized by the quantizer 417.
  • the LD synthesis filter bank 403 reconverts the narrowband subband signal into the time domain and generates a first narrowband signal (sound signal).
  • the low-delay QMF filter bank disclosed in Non-Patent Document 2 can be used.
  • the signal analysis unit 404 analyzes the characteristics of the first narrowband signal and selects an optimum encoder from among the MDCT encoder 406, the LP encoder 408, and the TCX encoder 410 in order to encode the first narrowband signal. select.
  • the MDCT encoder 406 and the TCX encoder 410 are also referred to as an LFD (Lapped Frequency Domain) encoder.
  • the signal analysis unit 404 can select the MDCT encoder 406 for the first narrowband signal that is very tonal overall and has a small variation in spectral tilt.
  • the signal analysis unit 404 selects the LP encoder 408 if the first narrowband signal has strong tone characteristics in the low frequency region and the spectral tilt greatly fluctuates.
  • the TCX encoder 410 is selected for the first narrowband signal that does not meet any of the above criteria.
  • the signal analysis unit 404 analyzes the characteristics of the first narrowband signal (sound signal) and determines the encoding method of the frame included in the first narrowband signal. May be.
  • the switching unit 405 performs switching control of whether the frame is encoded by the LFD encoder (MDCT encoder 406 or TCX encoder 410) or the LP encoder 408 according to the determination result of the signal analysis unit 404. Specifically, the switching unit 405 selects a sample subset of the encoding target frames (past and current frames) included in the first narrowband signal based on the encoder selected according to the determination result of the signal analysis unit 404. Select and generate a second narrowband signal from the sample subset for subsequent encoding.
  • the LFD encoder MDCT encoder 406 or TCX encoder 410
  • the switching unit 405 when selecting the MDCT, the switching unit 405 performs window processing on the selected sample subset.
  • FIG. 5 is a diagram showing the shape of a window with a small overlap. As shown in FIG. 5, the desirable window shape in the sound signal hybrid encoder 100 has a small overlap. In Embodiment 1, the switching unit 405 performs such window processing when selecting MDCT.
  • the window shown in FIG. 1 and the like monotonously increases in a half period of the frame length and monotonously decreases in a half period of the frame length.
  • the window shown in FIG. 5 monotonously increases in a period shorter than half the frame length and monotonically decreases in a period shorter than half the frame length. This means that the overlap is small.
  • the MDCT encoder 406 encodes the encoding target frame by MDCT.
  • the LP encoder 408 encodes the encoding target frame by calculating a linear prediction coefficient of the encoding target frame.
  • the LP encoder 408 is, for example, a CELP system such as ACELP (Algebraic Code Excited Linear Prediction), VSELP (Vector Sum Excluded Linear Prediction), or the like.
  • the TCX encoder 410 encodes the encoding target frame by the TCX method. Specifically, the TCX encoder 410 calculates a linear prediction coefficient of the encoding target frame, encodes the encoding target frame by performing MDCT processing on the residual of the linear prediction coefficient.
  • a frame encoded by the MDCT encoder 406 or the TCX encoder 410 is described as an LFD frame
  • a frame encoded by the LP encoder is described as an LP frame.
  • An LFD frame in which aliasing occurs due to switching of the switching unit 405 is referred to as an AC target frame.
  • the AC target frame is an LFD frame that is continuously encoded with the LP frame by the switching control of the switching unit 405.
  • the AC target frame includes a case where the AC target frame is a frame encoded immediately after the LP frame (a frame immediately following the LP frame) and a frame where the AC target frame is encoded immediately before the LP frame (a sequence immediately before the LP frame). There are two types of frames.
  • Quantizers 407, 409, and 411 quantize the encoder output. Specifically, the quantizer 407 quantizes the output of the MDCT encoder 406, the quantizer 409 quantizes the output of the LP encoder 408, and the quantizer 411 quantizes the output of the TCX encoder 410. .
  • the quantizer 407 is a combination of a dB-step quantizer and Huffman coding
  • the quantizer 409 and the quantizer 411 are vector quantizers.
  • the local decoder 412 acquires the AC target frame and the LP frame continuous with the AC target frame from the bit stream multiplexer 415, and generates a local decode signal obtained by decoding at least a part of the acquired frame.
  • the local decode signal is a narrowband signal decoded by the local decoder 412. Specifically, the d ′ and c ′ in the equation (10), the c ′′ in the equation (11), and the equation (15) described above. D ′′ and the like.
  • the AC signal generation unit 413 generates and outputs an AC signal used for removing aliasing that occurs in decoding of the AC target frame, using the first signal and the first narrowband signal. In other words, the AC signal generation unit 413 generates an AC signal by using the decoded past data (past frame) provided by the local decoder 412.
  • AC signal generation section 413 generates a plurality of AC signals using a plurality of AC processes (methods), and which AC signal among the generated AC signals is encoded. Check if the bit efficiency is better. Furthermore, the AC signal generation unit 413 selects an AC signal with better bit efficiency in encoding, and outputs the selected AC signal and an AC flag indicating the AC process used to generate the AC signal. Note that the selected AC signal is quantized by the quantizer 414.
  • the bit stream multiplexer 415 writes all encoded frames and sub information to the bit stream. That is, the bit stream multiplexer 415 multiplexes the signals quantized by the quantizers 407, 409, 411, 414, 416, and 417, and the AC flag, and transmits them.
  • FIG. 6 is a block diagram illustrating an example of the configuration of the AC signal generation unit 413.
  • the AC signal generation unit 413 includes a first AC candidate generator 700, a second AC candidate generator 701, and an AC candidate selector 702.
  • Each of the first AC candidate generator 700 and the second AC candidate generator 701 uses the first narrowband signal and the local decode signal to finally output the AC signal output from the AC signal generation unit.
  • a candidate AC candidate is calculated.
  • the AC candidate generated by the first AC candidate generator 700 may be simply referred to as AC
  • the AC candidate generated by the second AC candidate generator 701 may be simply referred to as AC2.
  • the first AC candidate generator 700 generates an AC candidate (AC signal) using the first scheme
  • the second AC candidate generator is a second scheme different from the first scheme.
  • an AC candidate (AC signal) is generated by the method described above. Details of the first method and the second method will be described later.
  • the AC candidate selector 702 selects one AC candidate of AC and AC2 based on a predetermined condition.
  • the predetermined condition is a code amount when each AC candidate is quantized.
  • the AC candidate selector 702 outputs the selected AC candidate and an AC flag indicating whether the selected AC candidate is generated using the first method or the second method.
  • FIG. 7 is a flowchart showing an example of the operation of the AC signal generation unit 413.
  • the first narrowband signal is encoded while the switching unit 405 switches the encoding method according to the determination result of the signal analysis unit 404 (in S101 and S102). No).
  • the AC signal generation unit 413 first generates an AC signal by the first method (S103). Specifically, the first AC candidate generator 700 generates an AC using the first narrowband signal and the local decode signal.
  • the AC signal generation unit 413 generates an AC signal by the second method (S104). Specifically, the second AC candidate generator 701 generates AC2 using the first narrowband signal and the local decode signal.
  • the AC signal generation unit 413 selects one AC candidate (AC signal) of AC and AC2 (S105). Specifically, AC candidate selector 702 selects an AC candidate having a small code amount after quantization by quantizer 414 from AC and AC2.
  • the AC signal generation unit 413 outputs the AC candidate (AC signal) selected in step S105 and the AC flag indicating the generation method of the AC candidate (S106).
  • the AC signal generation unit 413 is one of the AC signal generated by the first method and the AC signal generated by the second method different from the first method based on a predetermined condition. Select either one and output.
  • the AC signal generation unit 413 outputs an AC flag indicating whether the output AC signal is generated using the first method or the second method.
  • the AC signal generation unit 413 performs two operations in each of the case where the AC target frame is a frame encoded immediately after the LP frame and the case where the AC target frame is a frame encoded immediately before the LP frame. An AC signal is generated by the method.
  • the first method and the second method will be described in detail.
  • the AC signal generation method is not limited to these specific examples, and It may be a method.
  • the first method is an AC process normally used in MPEG USAC as already described with reference to FIG. 2, and is a method of generating an AC candidate (AC) using Expression (12). That is, the first AC candidate generator 700 generates an AC candidate (AC) using Expression (12).
  • the AC signal generation unit 413 further generates an AC signal using the second method without using ZIR.
  • the second method is desirably a method in which the code amount after quantization of the generated AC signal is expected to be smaller than that of the first method (a method in which the code amount is prioritized over aliasing removal).
  • a method of reducing the quantization bit for quantizing the signal from the number of normal quantization bits, or when expressing an AC signal with an LPC filter Various methods such as a method of reducing the order of the filter coefficient can be taken.
  • FIG. 8 is a diagram showing a second method of AC signal generation used in switching from LP encoding to transform encoding. That is, the second AC candidate generator 701 generates an AC candidate (AC2) using the following equation (17).
  • AC2 is highly likely to be a bit-efficient signal than AC.
  • the AC2 signal described above is more likely to have a small signal level fluctuation than the AC, and when quantizing such a signal, even if the number of bits allocated for quantization is thinned out to some extent, the quantization accuracy is unlikely to deteriorate. For this reason, particularly when the waveform of the original signal d and the signal d ′ after decoding is likely to be similar, or when the encoding conditions tend to be higher in bit rate and smaller in the difference between d and d ′. , AC2 is likely to be a bit more efficient signal than AC.
  • the first method is an AC process normally used in MPEG USAC, as already described with reference to FIG. 3, and generates an AC candidate (AC) using Expression (16). That is, the first AC candidate generator 700 generates an AC candidate (AC) using Expression (16).
  • the AC signal generation unit 413 further generates an AC signal using the second method.
  • FIG. 9 is a diagram showing a second method of AC signal generation used in switching from transform coding to LP coding. That is, the second AC candidate generator 701 generates an AC candidate (AC2) using the following equation (20).
  • AC2 is a signal to be encoded with a bit efficiency higher than that of AC.
  • bit efficiency is high, the waveforms of the original signal c and the decoded signal c ′ are likely to be similar.
  • the simplest selection method of the AC candidate selector 702 is a method of selecting both AC and AC2 through the quantizer 414 and selecting an AC candidate with a small number of bits (code amount) necessary for encoding.
  • AC candidate selection method is not limited to such a method, and other methods may be used.
  • AC candidate selector 702 (AC signal generation unit 413) has a case where the frame size of the frame included in the first narrowband signal is larger than a predetermined size (for example, when the code amount of the frame is large). If the first method is selected and the frame size of the frame included in the first narrowband signal is equal to or smaller than a predetermined size (for example, when the code amount of the frame is small), the second method is used. May be selected.
  • a predetermined size for example, when the code amount of the frame is large.
  • the AC signal generation unit 413 when the AC signal generation unit 413 generates an AC signal by the first method and the code amount after the quantization by the quantizer of the AC signal generated by the first method is smaller than a predetermined threshold value May select the first method.
  • the AC signal generation unit 413 further generates the AC signal by the second method. Generate. As a result, the AC signal generation unit 413 generates an AC signal having a smaller code amount after quantization by the quantizer 414 out of the AC signal generated by the first method and the AC signal generated by the second method. It may be output.
  • the sound signal hybrid encoder according to Embodiment 1 can be any encoder that includes at least an overlap frequency domain transform encoder (LFD encoder, for example, MDCT, TCX) and a linear prediction encoder (LP encoder). You may implement
  • the sound signal hybrid encoder according to Embodiment 1 may be realized as an encoder including only a TCX encoder and an LP encoder.
  • the bandwidth extension tool and the multi-channel extension tool in the first embodiment are arbitrary low bit rate tools and are not essential components.
  • the sound signal hybrid encoder according to Embodiment 1 may be realized as an encoder that does not have a subset of these tools or all of these tools.
  • the AC signal generation unit 413 may generate and output an AC signal according to one method selected from a plurality of methods, and output an AC flag indicating the selected one method.
  • the AC flag in this case may be any flag as long as it can distinguish one method from a plurality of methods, for example, composed of a plurality of bits.
  • the sound signal hybrid encoder according to Embodiment 1 can adaptively select an AC signal with good bit efficiency at the time of encoding. That is, according to the sound signal hybrid encoder according to the first embodiment, an efficient encoder with a low bit rate can be realized. Such a bit rate reduction effect is particularly noticeable when codec switching is fast and for low-delay encoders that require many bits for encoding.
  • FIG. 10 is a block diagram showing a configuration of the sound signal hybrid decoder according to the second embodiment.
  • the sound signal hybrid decoder 200 includes an LD analysis filter bank 503, an LD synthesis filter bank 500, an MPS decoder 501, an SBR decoder 502, and a switching unit 505.
  • the sound signal hybrid decoder 200 includes an audio decoder 506 using an IMDCT filter bank (hereinafter simply referred to as an IMDCT decoder 506), an LP decoder 508, a TCX decoder 510, and inverse quantizers 507, 509, and 511. 514, 516, and 517, a bit stream demultiplexer 515, and an AC output signal generator.
  • the bitstream demultiplexer 515 includes one of the IMDCT decoder 506, the LP decoder 508, and the TCX decoder and the corresponding dequantizers 507, 509, and 511 based on the core coder indicator of the bitstream. One of them is selected.
  • the bit stream demultiplexer 515 dequantizes the bit stream data using the selected inverse quantizer, and decodes the bit stream data using the selected decoder.
  • the outputs of the inverse quantizers 507, 509, and 511 are input to the IMDCT decoder 506, the LP decoder 508, or the TCX decoder 510, respectively, and further converted into the time domain in the decoder to generate the first narrowband signal.
  • the IMDCT decoder 506 and the TCX decoder 510 are also referred to as an ILFD (Inverse Lapped Frequency Domain) decoder.
  • ILFD Inverse Lapped Frequency Domain
  • the switching unit 505 first aligns the frames of the first narrowband signal according to the time relationship with the past sample (according to the encoded order).
  • the switching unit 505 performs window processing on the decoding target frame and adds an overlapping portion.
  • the window used is the same as that used by the encoder shown in FIG. 5, and the window shown in FIG. 5 has a short overlap region in order to achieve low delay.
  • the switching unit 505 switches the codec, the aliasing component around the frame boundary of the AC target frame (hereinafter also referred to as a switching frame) matches the signal shown in FIG. 2 and FIG. In addition, the switching unit 505 generates a second narrowband signal.
  • the AC signal included in the bit stream is inversely quantized by the inverse quantizer 514.
  • the AC flag included in the bitstream determines the next processing method of the AC signal, such as generation of an additional antialiasing component using a past narrowband signal.
  • the AC output signal generation unit 513 sums the AC signal that has been dequantized according to the AC flag and the AC component (x, y, z, etc.) generated by the switching unit 505, thereby generating an AC_out signal (AC output). Signal).
  • the adder 504 adds the AC_out signal to the second narrowband signal that is aligned by the switching unit 505 and to which the overlap region is added, and removes aliasing components at the frame boundary of the AC target frame.
  • a signal from which aliasing components are removed is referred to as a third narrowband signal.
  • the LD analysis filter bank 503 processes the third narrowband signal and generates a narrowband subband signal represented by a hybrid time / frequency representation.
  • the low-delay QMF filter bank shown in Non-Patent Document 2 can be cited as a candidate, but is not limited thereto.
  • the SBR decoder 502 (bandwidth extension decoding unit) expands the narrowband subband signal to a higher frequency region.
  • the expansion method is either a “patch-up” method in which the low frequency band is copied to a higher frequency band or a “stretch-up” method in which the harmonics in the low frequency band are expanded based on the principle of the phase vocoder.
  • the characteristics (especially energy, noise floor, and tone color) of the expanded (synthesized) high frequency region are adjusted based on the SBR parameters inversely quantized by the inverse quantizer 517. As a result, a subband signal with an expanded bandwidth is generated.
  • the MPS decoder 501 (multi-channel extension decoding unit) generates a multi-channel sub-band signal from the sub-band signal whose bandwidth is extended, using the MPS parameter that is inversely quantized by the inverse quantizer 516. For example, the MPS decoder 501 mixes the non-correlated signal and the downmix signal based on the inter-channel correlation parameter. The MPS decoder 501 further adjusts the amplitude and phase of the mixed signal based on the inter-channel level difference parameter and the inter-channel phase difference parameter to generate a multi-channel subband signal.
  • the LD synthesis filter bank 500 reconverts the multi-channel subband signal from the hybrid time / frequency domain to the time domain, and outputs a multi-channel signal in the time domain.
  • FIG. 11 is a block diagram illustrating an example of the configuration of the AC output signal generation unit 513.
  • the AC output signal generation unit 513 includes a first AC candidate generator 800, a second AC candidate generator 801, and AC candidate selectors 802 and 803.
  • Each of first AC candidate generator 800 and second AC candidate generator 801 calculates an AC candidate (AC output signal, AC_out) using the dequantized AC signal and the decoded narrowband signal. To do.
  • the AC candidate selectors 802 and 803 select one of the first AC candidate generator 800 and the second AC candidate generator 801 based on the AC flag in order to remove aliasing.
  • FIG. 12 is a flowchart illustrating an example of the operation of the AC output signal generation unit 513.
  • the sound signal hybrid decoder 200 performs a process of decoding the acquired frame according to the encoding method of the frame (No in S201 and S202).
  • the AC output signal generation unit 513 When the AC output signal generation unit 513 acquires the AC flag (Yes in S202), the AC output signal generation unit 513 performs processing according to the AC flag and generates an AC_out signal (S203).
  • the AC candidate selectors 802 and 803 select an AC candidate generator indicated by the AC flag.
  • the AC candidate selectors 802 and 803 select the first AC candidate generator 800 when the AC flag indicates the first scheme.
  • the AC candidate selectors 802 and 803 select the second AC candidate generator 801 when the AC flag indicates the second method.
  • the AC output signal generation unit 513 (AC candidate selectors 802 and 803) generates an AC_out signal using the selected AC candidate generator.
  • the AC output signal generation unit 513 causes the selected AC candidate generator to generate an AC_out signal.
  • the first AC candidate generator 800 generates a first AC_out signal.
  • the second AC candidate generator 801 generates a second AC_out signal.
  • the adder 504 adds the AC_out signal output from the AC output signal generation unit 513 to the second narrowband signal output from the switching unit 505 to remove aliasing (S204).
  • an AC_out signal generation method (calculation method) corresponding to the example shown in Embodiment 1 is shown; however, the AC_out signal generation method is not limited to such a specific example. Such a method may be used.
  • the first AC candidate generator 800 calculates the first AC_out signal as follows.
  • the second AC candidate generator 801 calculates the second AC_out signal as follows.
  • x, y, and z are narrowband signals subjected to the following window processing.
  • x is a signal that the switching unit 505 performs time alignment and window processing.
  • y is a signal obtained by decoding the preceding LP frame, which is inverted by the switching unit 505 by multiplying two windows, and matches the equation (10).
  • z is the ZIR of the preceding LP frame that has been windowed by the switching unit 505, and coincides with Equation (11).
  • the first AC candidate generator 800 calculates the first AC_out signal as follows.
  • the second AC candidate generator 801 calculates the second AC_out signal as follows.
  • x is a signal that is time-aligned and windowed by the switching unit 505.
  • y is a signal obtained when the switching unit 505 inverts two windows to invert and decodes the subsequent LP frame, and coincides with Expression (15).
  • the AC candidate selectors 802 and 803 are configured to use the first AC candidate generator 800 or the second AC candidate according to the AC flag.
  • the generator 801 is activated and outputs AC_out1 or AC_out2.
  • the sound signal hybrid decoder 200 can remove the aliasing component of the signal encoded by the sound signal hybrid encoder 100 according to Embodiment 1.
  • the sound signal hybrid decoder according to the second embodiment can be any decoder as long as it includes at least an overlap frequency domain transform decoder (ILFD decoder, for example, MDCT, TCX) and a linear prediction decoder (LP decoder). It may be realized as a decoder having a configuration.
  • the sound signal hybrid decoder according to Embodiment 2 may be realized as a decoder including only a TCX decoder and an LP decoder.
  • the bandwidth extension tool and the multi-channel extension tool in the second embodiment are arbitrary low bit rate tools and are not essential components.
  • the sound signal hybrid decoder according to Embodiment 2 may be realized as a subset of these tools or a decoder that does not have all of these tools.
  • the signal encoded by the sound signal hybrid encoder according to the first embodiment can be appropriately decoded according to the AC flag.
  • the sound signal hybrid encoder according to Embodiment 1 adaptively selects an AC signal with good bit efficiency at the time of encoding. For this reason, the sound signal hybrid decoder according to the second embodiment realizes an efficient decoder with a low bit rate.
  • Such a bit rate reduction effect is particularly noticeable when codec switching is fast and for low-delay encoders that require many bits for encoding.
  • each of the above devices can be realized by a computer system including a microprocessor, a ROM, a RAM, a hard disk unit, a display unit, a keyboard, a mouse, and the like.
  • a computer program is stored in the RAM or the hard disk unit.
  • Each device achieves its functions by the microprocessor operating according to the computer program.
  • the computer program is configured by combining a plurality of instruction codes indicating instructions for the computer in order to achieve a predetermined function.
  • a part or all of the components constituting each of the above devices may be configured by one system LSI (Large Scale Integration).
  • the system LSI is an ultra-multifunctional LSI manufactured by integrating a plurality of components on a single chip, and specifically, a computer system including a microprocessor, ROM, RAM, and the like. .
  • a computer program is stored in the ROM.
  • the system LSI achieves its functions by the microprocessor loading a computer program from the ROM to the RAM and performing operations such as operations in accordance with the loaded computer program.
  • Part or all of the constituent elements constituting each of the above devices may be configured from an IC card or a single module that can be attached to and detached from each device.
  • the IC card or module is a computer system that includes a microprocessor, ROM, RAM, and the like.
  • the IC card or the module may include the super multifunctional LSI described above.
  • the IC card or the module achieves its functions by the microprocessor operating according to the computer program. This IC card or this module may have tamper resistance.
  • the present invention may be realized by the method described above. Further, these methods may be realized by a computer program realized by a computer, or may be realized by a digital signal consisting of a computer program.
  • the present invention also relates to a computer readable recording medium such as a flexible disk, hard disk, CD-ROM, MO, DVD, DVD-ROM, DVD-RAM, BD (Blu-ray (registered trademark)). ) Disc), or recorded in a semiconductor memory or the like. Moreover, you may implement
  • a computer program or a digital signal may be transmitted via an electric communication line, a wireless or wired communication line, a network represented by the Internet, a data broadcast, or the like.
  • the present invention is also a computer system including a microprocessor and a memory.
  • the memory stores a computer program, and the microprocessor may operate according to the computer program.
  • program or digital signal may be recorded on a recording medium and transferred, or the program or digital signal may be transferred via a network or the like, and may be implemented by another independent computer system.
  • this invention is not limited to these embodiment or its modification. Unless it deviates from the gist of the present invention, various modifications conceived by those skilled in the art are applied to the present embodiment or the modification thereof, or a form constructed by combining different embodiments or components in the modification. Included within the scope of the present invention.
  • the present invention relates to an audio book, a broadcasting system, a portable media device, a portable communication terminal (for example, a smartphone, a tablet computer), a video conferencing apparatus, and a sign of a signal including audio content such as music performance on a network. It is used for applications related to conversion.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

 音信号ハイブリッドエンコーダ(100)は、音信号に含まれるフレームの符号化方法を判断する信号解析部(404)と、フレームを符号化してLFDフレームを生成するLFDエンコーダ(406、410)と、フレームを符号化してLPフレームを生成するLPエンコーダ(408)と、信号解析部(404)の判断結果に応じて、エンコーダの切替を行う切替部(405)と、複数の方式の中から選択した1つの方式にしたがって、AC信号を生成して出力し、かつ、選択した1つの方式を示すACフラグを出力するAC信号生成部(413)とを備える。

Description

音信号ハイブリッドエンコーダ、音信号ハイブリッドデコーダ、音信号符号化方法、及び音信号復号方法
 本発明は、コーデックを切替可能な音信号ハイブリッドエンコーダ及び音信号ハイブリッドデコーダに関する。
 ハイブリッドコーデックは、オーディオコーデックとスピーチコーデックとの利点を組み合わせたコーデックである。ハイブリッドコーデックによれば、スピーチ信号(音声信号)主体のコンテンツとオーディオ信号(音響信号)主体のコンテンツが混合した音信号を、オーディオコーデックとスピーチコーデックとを切替えることによりそれぞれに適した符号化方法により符号化することができる。したがって、ハイブリッドコーデックによれば、低ビットレートで安定した音信号の圧縮符号化が実現される。
 また、ハイブリッドコーデックでは、コーデックの切替部分において生じるエイリアシングを抑制するために、符号化側でAC(Aliasing Cancel)信号を生成する方法が知られている。
Carot, Alexander et al.: "Networked Music Performance: State of the Art", AES 30th International Conference (15-17 March 2007). Schuller, Geraldet et al.: "New Framework for Modulated Perfect Reconstruction Filter Banks", IEEE Transaction on Signal Processing, Vol. 44, pp. 1941-1954 (August 1996). Schnell, Markus, et al.: "MPEG-4 Enhaned Low Delay AAC - a new standard for high quality communication", AES 125th Convention (2-5 October 2008). Valin, Jean-Marc, et al.: "A Full-bandwidth Audio Codec with Low Complexity and Very Low Delay".
 ハイブリッドコーデックは、スピーチ信号とオーディオ信号が混在するようなコンテンツに対して効率よく符号化できる。このため、ハイブリッドコーデックは、オーディオブック、放送システム、携帯型メディアデバイス、携帯通信端末(たとえば、スマートフォン、タブレット型コンピュータ)、テレビ会議装置およびネットワーク上の音楽演奏などのさまざまなアプリケーションに適用可能である。
 ところが、ハイブリッドコーデックが、特にテレビ会議装置やネットワーク上の音楽演奏など、リアルタイム通信性能が重要なアプリケーションに対して適用される際には、符号化および復号処理時に生じるアルゴリズム遅延が大きな課題となる。
 このようなアルゴリズム遅延を低減するために、例えば、フレームのサイズ(サンプル数)を小さくすることが考えられる。
 しかしながら、フレームのサイズを小さくした場合、フレームの切り替え頻度が相対的に大きくなり、おのずとAC信号の発生頻度も大きくなる。低ビットレートで高品質かつ低遅延なハイブリッドコーデックを実現するには、AC信号の符号量はなるべく抑制されることが望ましい。つまり、効率的にAC信号を生成することが課題となる。
 そこで、本発明は、効率的にAC信号を生成することができる音信号ハイブリッドエンコーダ等を提供する。
 本発明の一態様に係る音信号ハイブリッドエンコーダは、音信号の特性を解析し、前記音信号に含まれるフレームの符号化方法を判断する信号解析部と、前記フレームをLFD(Lapped Frequency Domain)変換することによって当該フレームを符号化したLFDフレームを生成するLFDエンコーダと、前記フレームの線形予測係数を算出することによって当該フレームを符号化したLP(Linear Prediction)フレームを生成するLPエンコーダと、前記信号解析部の判断結果に応じて、前記フレームを前記LFDエンコーダによって符号化するか、前記LPエンコーダによって符号化するかの切替を行う切替部と、前記切替部の切替制御によって前記LPフレームと連続する前記LFDフレームであるAC(Aliasing Cancel)対象フレームの少なくとも一部を復号した信号と、前記AC対象フレームに連続する前記LPフレームの少なくとも一部を復号した信号とを含むローカルデコード信号を生成するローカルデコーダと、前記AC対象フレームの復号において生じるエイリアシングの除去に用いられるAC信号を、前記音信号及び前記ローカルデコード信号を用いて生成し、出力するAC信号生成部とを備え、前記AC信号生成部は、前記AC対象フレームが前記LPフレームの直後に連続する場合、または前記AC対象フレームが前記LPフレームの直前に連続するフレームである場合において、(1)複数の方式の中から選択した1つの方式にしたがって、前記AC信号を生成して出力し、かつ、(2)前記選択した1つの方式を示すACフラグを出力する。
 なお、これらの全般的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なCD-ROMなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。
 本発明の音信号ハイブリッドエンコーダは、効率的にAC信号を生成することができる。
図1は、MDCTを用いた符号化・復号における部分的オーバーラップによるエイリアシングの除去を説明するための図である。 図2は、LP符号化から変換符号化への切り替えにおいて用いられるAC信号の生成方法を示す図である。 図3は、変換符号化からLP符号化への切り替えにおいて用いられるAC信号の生成方法を示す図である。 図4は、実施の形態1に係る音信号ハイブリッドエンコーダの構成を示すブロック図である。 図5は、オーバーラップが小さい窓の形状を示す図である。 図6は、AC信号生成部の構成の一例を示すブロック図である。 図7は、AC信号生成部の動作の一例を示すフローチャートである。 図8は、LP符号化から変換符号化への切り替えにおいて用いられる、AC信号生成の第2の方式を示す図である。 図9は、変換符号化からLP符号化への切り替えにおいて用いられる、AC信号生成の第2の方式を示す図である。 図10は、実施の形態2に係る音信号ハイブリッドデコーダの構成を示すブロック図である。 図11は、AC出力信号生成部の構成の一例を示すブロック図である。 図12は、AC出力信号生成部の動作の一例を示すフローチャートである。
 (本発明の基礎となった知見)
 従来の音声圧縮技術は、大きく分類すれば、オーディオコーデックとスピーチコーデックとの2つに分けられる。
 まず、オーディオコーデックについて説明する。
 オーディオコーデックは、局所スペクトルコンテンツ(音色信号、高調波信号など)を含む定常信号を符号化するのに適している。オーディオコーデックでは、符号化は主に信号を周波数領域に変換することによって行われる。
 具体的には、オーディオコーデックのエンコーダでは、修正離散コサイン変換(MDCT:Modified Discrete Cosine Transform)などの時間-周波数領域変換を用いて、入力信号を周波数(スペクトル)領域に変換する。MDCTの場合、符号化されるフレームは、当該フレームと時間的に連続する(隣接する)フレームと時間的に重なる部分(部分的オーバーラップ)を有し、符号化されるフレームのそれぞれは、窓処理される。上記部分的オーバーラップは、復号側で、フレームの境界を平滑化するためにある。
 また、窓処理は、より高解像度のスペクトルを生成するとともに、上記平滑化のため符号化されたフレームの境界をぼかすという2つの目的を兼ね備えている。また、上記部分的オーバーラップにより生じる標本化効果を補償するために、MDCTは、時間領域サンプルを符号化用に数を減らしたスペクトル係数に変換する。MDCTのような時間-周波数領域変換は、エイリアシング成分が生じるが、上記部分的オーバーラップにより、復号側でエイリアシング成分は除去される。
 オーディオコーデックの主要な利点の1つは、心理音響モデルを容易に用いることができることである。例えば、より多くのビット数を知覚「マスカー」に、より少ないビット数を人間の耳が感知することができない知覚「マスキー」に割り当てることができる。オーディオコーデックでは、心理音響モデルを利用することにより、符号化効率と音質が大幅に向上する。MPEGのアドバンスド・オーディオ・コーディング(AAC)は、純粋なオーディオコーデックの良い一例である。
 次に、スピーチコーデックについて説明する。
 スピーチコーデックは、声道のピッチ特性を利用するモデルに基づく方法であり、人間の発話を符号化するのに適している。スピーチコーデックのエンコーダでは、人間の発話のスペクトル包絡線を得るため、線形予測(LP:Linear Prediction)フィルタを用い、入力信号のLPフィルタの係数を符号化する。
 次に、LPフィルタが入力信号を逆フィルタリングして(スペクトル的に分割して)、スペクトルがフラットな音源信号を生成する。ここでの音源信号は、通常、「符号語」を有する音源信号を表し、ベクトル量子化(VQ:Vector Quantization)法を用いて、まばらに符号化される。
 なお、線形予測フィルタとは別に、音声の長期的な周期性を捉えるために、長期予測器(LTP:Long Term Predictor)が組み込まれてもよい。また、線形予測フィルタの前に、白色化フィルタを信号に適用することにより、心理音響的な側面を考慮した符号化が可能となる。
 音源信号のまばらな符号化により、低ビットレートで優れた音質が実現される。しかしながら、このような符号化方式では、音楽のようなコンテンツの複素スペクトルを正確に捉えることはできず、音楽のようなコンテンツを高音質で再現することはできない。ITU.T(国際電気通信連合 電気通信標準化部門)の適応型マルチレート広帯域(AMR-WB)は、純粋なスピーチコーデックの良い一例である。
 また、第3のコーデックとして、「変換符号化励振」(TCX:Transform Coded Excitation)と称される符号化方法がある。TCXは、LP符号化と変換符号化を組み合わせたような方法である。まず、入力信号の線形予測フィルタから導出された知覚フィルタで、入力信号が知覚的に重み付けされる。次に、重み付けされた入力信号は、スペクトル領域に変換され、スペクトル係数は、VQ法で符号化される。TCXは、ITU.Tの拡張適応型マルチレート広帯域(AMR-WB+)コーデックに見られる。(AMR-WB+)において用いられる周波数変換は、離散フーリエ変換(DFT:Discrete Fourier Transform)である。
 ここで、さらなる低ビットレートの符号化を実現するために、低ビットレートツールを追加することにより、上記の主要な符号化方法を補足することもできる。2つの主要な低ビットレートツールは、帯域幅拡張ツールと多チャンネル拡張ツールである。
 帯域幅拡張(BWE:Band Width Extension)ツールは、入力信号の低周波部分と高周波部分との高調波関係を利用して、入力信号の高周波部分をパラメータ的に符号化する。これらの帯域幅拡張パラメータは、例えば、サブバンドエネルギー及びTNR(Tone To Noise Ratio)などである。
 デコーダは、入力信号をパッチするか引き伸ばすかにより、入力信号の低周波部分を拡張することで、基本高周波信号を形成する。次に、デコーダは、帯域幅拡張パラメータを用いて、スペクトル的に拡張された信号の振幅を形づくる。つまり、帯域幅拡張パラメータは、人工的に生成された対応物でノイズフロアとトーン(音色)とを補償する。
 結果としてデコーダから出力される出力信号の波形は、元の入力信号の波形と類似していないが、元の入力信号と知覚的には似ている。MPEGの高効率AAC(HE-AAC)は、スペクトル帯域複製(SBR:Spectral Band Replication)というコード名の、このような帯域幅拡張ツールを含むコーデックである。SBRでは、直交ミラーフィルタバンク(QMF:Quadrature Mirror Filterbank)で生成されたハイブリッド領域(時間及び周波数領域)において、パラメータ計算が実行される。
 多チャンネル拡張ツールは、多チャンネルを符号化用のチャンネルサブセットにダウンミックスする。多チャンネル拡張ツールは、個々のチャンネル間の関係をパラメータ的に符号化する。これらの多チャンネル拡張パラメータは、例えば、チャンネル間のレベル差、チャンネル間の時間差、及びチャンネル間の相関などである。
 デコーダは、復号されたダウンミックス済チャンネルの信号と人工的に生成された「非相関」信号とを混ぜることにより、個々のチャンネルの信号を合成する。このとき、上述のパラメータに基づいて、ダウンミックス済チャンネルの信号と、非相関信号とのミキシングウェイトを算出する。
 結果としてデコーダから出力される出力信号の波形は、元の入力信号の波形と類似していないが、元の入力信号と知覚的には似ている。MPEGサラウンド(MPS:MPEG Surround)は、このような多チャンネル拡張ツールの良い例である。SBRと同様に、QMF領域では、MPSパラメータも算出される。多チャンネル拡張ツールは、ステレオ拡張としても知られている。
 ところで、高解像度(HD)時代に入り、通信装置は、マルチメディア、娯楽及び通信などのユーザのニーズに対応する汎用装置に変わりつつある。この結果、音声主体の信号(音声信号)と、音響主体の信号(音響信号)との両方を処理できる統合コーデックに対する需要が高まっている。
 最近では、MPEGにより、統合音声音響符号化方式(USAC:Unified Speech And Audio Codec)が規格化されている。USACは、広範囲のビットレートの入力信号(音声信号及び音響信号)に対し、音声信号及び音響信号の符号化を処理できる低ビットレートのコーデックである。
 具体的には、USACでは、入力信号の特性に応じて、上記のツール(AAC方式に類似の方式(以下AACとする)、LP、TCX、帯域拡大ツール(以下、SBRとする)、及びチャンネル拡大ツール(以下、MPSとする))すべての中から最適なツールが選択され、組み合わせて使用される。
 USACのエンコーダは、MPSツールを用いてステレオ信号をモノラル信号にダウンミックスし、SBRツールを用いて全帯域のモノラル信号を狭帯域のモノラル信号に縮小する。さらに、USACのエンコーダは、狭帯域のモノラル信号を符号化するため、信号分類部を用いて信号フレームの特性を分析し、コアコーデック(AAC、LP、TCX)のうちいずれを用いて符号化すべきかを決定する。ここで、USACでは、コーデックの切り替えによりフレーム間に生じるエイリアシングを除去することが重要である。
 上述の通り、フレームの境界を平滑化し、エイリアシングを除去するため、MDCTは、連続するフレームを連結し、変換を行う前に、連結した信号を窓処理する。これは、図1に示される。
 図1は、MDCTを用いた符号化・復号における部分的オーバーラップによるエイリアシングの除去を説明するための図である。
 図1では、aとbとは、フレーム1を2等分した場合の前半及び後半をそれぞれ示す。cとdとは、フレーム2を2等分した場合の前半及び後半をそれぞれ示す。eとfとは、フレーム3を2等分した場合の前半及び後半をそれぞれ示す。
 ここで、1セット目のMDCT変換は、フレーム1と2とを結合した信号(a、b、c、d)に対して行われる。2セット目のMDCT変換は、フレーム2と3とを結合した信号(c、d、e、f)に対して行われる。cとdとは部分的オーバーラップ(オーバーラップ領域)である。
 MDCTでは、まず、結合した信号に窓
Figure JPOXMLDOC01-appb-M000001
を適用する。なお、以下の式(1)は、1セット目のMDCTの場合であり、式(2)は、2セット目のMDCTの場合を示す。
Figure JPOXMLDOC01-appb-M000002
Figure JPOXMLDOC01-appb-M000003
 デコーダにおいて確実に相補加算とエイリアシング除去を行うため、窓は、以下の式(3)の特徴を有する。
Figure JPOXMLDOC01-appb-M000004
 ここで、下付き文字の「R」は、時間の逆転/反転を示す。このような関係は、具体的には、例えば、正弦関数の前半のサイクルに見られる。
 デコーダでは、復号MDCT係数に逆修正離散コサイン変換(IMDCT:Inverse Modified Discrete Cosine Transform)を施す。1セット目のMDCTに対するIMDCT後の信号は、以下の式(4)に示される。
Figure JPOXMLDOC01-appb-M000005
 式(4)に示される信号と、式(1)に示される原信号とを比較した場合、IMDCTにより、以下の式(5)に示されるようなエイリアシング成分が生じている。
Figure JPOXMLDOC01-appb-M000006
 同様に、2セット目のMDCTに対するIMDCT後の信号は、以下の式(6)に示される。
Figure JPOXMLDOC01-appb-M000007
 IMDCT後の信号である式(4)と式(6)とに、窓
Figure JPOXMLDOC01-appb-M000008
を掛けると、それぞれ以下の式(7)、式(8)のようになる。
Figure JPOXMLDOC01-appb-M000009
及び
Figure JPOXMLDOC01-appb-M000010
 ここで、式(3)に示される窓特性を考慮して、式(7)の最後の2項を式(8)の最初の2項に加えることで、原信号であるcとdとが得られる。すなわち、エイリアシング成分が消去される。
 なお、アルゴリズム遅延の観点から見れば、MDCTに基づく符号化においてフレームサイズが、サンプル数Nである場合、MDCT用にフルフレームを用意するためにサンプル数Nの時間が必要である。つまり、Nのフレーミング遅延が生じる。さらに、これとは別に、サンプル数Nの固有のMDCT遅延(フィルタ遅延)が生じる。したがって、総遅延は、サンプル数2Nである。
 一方で、LP符号化の場合、フレームは、重なることなく順次符号化される。したがって、USACのように、LP符号化から変換符号化(LFD符号化とも記載する。例えば、MDCTを用いた符号化方式やTCXなどである。)に切り替えるか、またはその逆へ切り替える場合には、切り替えの境界におけるエイリアシングを除去する解決策が必要である。
 MPEGのUSACでは、フォワード・エイリアシング除去(FAC:Forward Aliasing Cancel)ツールを用いて、エイリアシングを除去することができる。
 図2は、FACツールの原理を示す図である。
 図2では、aとbとはフレーム1を2等分した場合の前半及び後半をそれぞれ示す。cとdとは、フレーム2を2等分した場合の前半及び後半をそれぞれ示す。eとfとは、フレーム3を2等分した場合の前半及び後半をそれぞれ示す。フレーム1の前半及びフレーム2の後半(つまり、bとc)には、LP符号化が行われる。フレーム2において符号化方式がLP符号化から変換符号化に切り替わり、フレーム2とフレーム3とに対しては、変換符号化が行われる。
 サブフレームcは、LP符号化されるサブフレームであるため、デコーダは、符号化されたサブフレームcのみを用いて、サブフレームcを完全に復号することができる。しかしながら、サブフレームdは、変換符号化(MDCTまたはTCX)により符号化されるため、デコーダがサブフレームdをそのまま復号した場合、復号後の信号には、エイリアシング成分が含まれる。このようなエイリアシング成分の除去を行うため、エンコーダは、以下の第1~第3の信号を生成する。
 式(9)に示されるように、エンコーダは、まず、ローカルデコーダを用いて、逆MDCTし、窓処理した第1の信号xを生成する。ここで、d’とc’とはそれぞれ、dとcとをローカルデコーダによって復号した信号である。
Figure JPOXMLDOC01-appb-M000011
 また、エンコーダは、式(10)に示されるように、LD符号化されたサブフレームcをローカルデコーダを用いて復号した信号c’’に、2つの窓を掛けて反転することにより、第2の信号yを生成する。
Figure JPOXMLDOC01-appb-M000012
 第3の信号は、式(11)に示されるように、先行LPフレームを窓処理したゼロ入力応答(ZIR:Zero Input Response)である。ゼロ入力応答(ZIR)とは、FIRフィルタ処理において、過去入力によって状態が時々刻々と変化している状態のFIRフィルタにゼロ入力がされたときの出力値を算出する処理である。
Figure JPOXMLDOC01-appb-M000013
 式(12)に示されるように、エイリアシング除去(AC:Aliasing Cancel)信号は、原信号dから上記の3つの信号を引くことで算出される。
Figure JPOXMLDOC01-appb-M000014
 AC信号は、以下のような特性を有する。符号化性能が十分であり、復号後の信号の波形と原信号の波形とが類似する場合、
Figure JPOXMLDOC01-appb-M000015
及び
Figure JPOXMLDOC01-appb-M000016
であり、式(12)は、以下の式(13)のように近似される。
Figure JPOXMLDOC01-appb-M000017
 さらに、サブフレームdの最初で信号dを予測する際、線形予測符号化のZIRが確かであるとするならば、AC信号のサブフレームの最初は、
Figure JPOXMLDOC01-appb-M000018
である。また、サブフレームdの最後はw2→1となるため、AC信号のサブフレームの最後は、
Figure JPOXMLDOC01-appb-M000019
である。つまり、AC信号は、サブフレームdの両側でゼロに収束する、自然に窓処理された信号のような形をしている。
 上記AC信号は、LP符号化から変換符号化(MDCT/TCX)への切り替え時に用いられるものである。変換符号化(MDCT/TCX)からLP符号化への切り替えの場合、同様のAC信号が生成される。
 このような場合に異なる点は、変換符号化からLP符号化への切り替えにおいて用いられるAC信号は、ZIR成分がないことである。また、変換符号化からLP符号化への切り替えにおいて用いられるAC信号は、サブフレームのLP符号化されたフレームと隣接する端においてゼロでないため、窓処理された信号のような形をしていない点も異なる。
 図3は、変換符号化からLP符号化への切り替えにおいて用いられるAC信号の生成方法を示す図である。
 図3に示されるように、変換符号化からLP符号化への切り替えにおいては、サブフレームcに含まれるエイリアシング成分を除去するためにAC信号が生成される。具体的には、式(14)で示される第1の信号xと、式(15)で示される第2の信号yとを、原信号cから引き算することによって、式(16)に示されるように求められる。
Figure JPOXMLDOC01-appb-M000020
Figure JPOXMLDOC01-appb-M000021
Figure JPOXMLDOC01-appb-M000022
 ここで、AC信号の最初(左の境界)においては、w2,R→1となるため、
Figure JPOXMLDOC01-appb-M000023
となる。
 以上、エンコーダにおけるAC信号の生成例について説明した。なお、デコーダの動作については、エンコーダの動作の逆であるため、説明を省略する。
 ところで、最近では、ソーシャルネットワーク文化の台頭により、テレビ会議や音響映像を通した娯楽などの社会活動に参加する、インターネットに精通した人々が増えている。このような状況において、普及が予想される活動の1つとして、異なる場所にいるユーザがインターネットを介して集結し、リアルタイムで相互に楽器を演奏したり、合唱したり、アカペラで歌ったりすることが考えられる(以下、このような活動をネットワーク上の音楽演奏と記載する)。
 ネットワーク上の音楽演奏を行なう場合、ユーザが違和感を感じないために、低遅延で音信号の符号化・復号を行うことが重要である。
 具体的には、人間の耳が知覚する「音ずれ」を防ぐためには、信号処理の時間と、信号がネットワークを通じて伝送される時間(ネットワーク遅延)との合計時間である総遅延は、30ミリ秒未満でなければならない(例えば、非特許文献1参照)。エコー除去処理及びネットワーク遅延が総遅延のうちの20ミリ秒を占める場合、符号化・復号において許容されるアルゴリズム遅延は、約10ミリ秒となる。
 ここで、上述のMPEGのUSACのアルゴリズム遅延は長いため、ネットワーク上の音楽演奏のように低遅延が求められるアプリケーションには適さない。MPEGのUSACにおける主な遅延は、以下の1~3によって生じる。
 1.エンコーダおよびデコーダ双方で生じる主な遅延は、フレームのサイズが大きいことにより生じる。現在、MPEGのUSACの規格では、768サンプルまたは1024サンプルのフレームサイズが許可されている。ここで、MPEGのUSACにおいては、変換符号化時に、サンプル数をNとした場合、2Nの遅延が生じ、1536または2048サンプルの遅延が生じる。さらに、サンプリング周波数が48kHzであれば、32ミリ秒または43ミリ秒のコアMDCT+フレーミング遅延がそれぞれ生じる。
 2.エンコーダおよびデコーダ双方で生じる主な遅延の二つ目は、SBR及びMPSに対するQMF分析及び合成フィルタバンクにおいて生じる。左右対称の典型的な窓を持つ従来のフィルタバンクは、追加577サンプルの遅延または48kHzのサンプリング周波数において12ミリ秒の遅延を生じる。
 3.エンコーダで生じる主な遅延は、エンコーダの信号分類部により生じるルックアヘッドディレイである。信号分類部は、信号の遷移、音色及びスペクトル傾斜(信号の特性)を解析し、MDCT、LP及びTCXのうちいずれの方式によって信号を符号化すべきか決定する。通常これにより、さらに1フレーム分の遅延が生じる。その遅延は、サンプリング周波数が48kHzであれば、16ミリ秒または21ミリ秒である。
 上記1~3を鑑みれば、超低遅延を実現するために最初に行うべきことは、フレームサイズの大幅な縮小である。しかしながら、フレームサイズが縮小される場合は、変換符号化の符号化効率を低減するため、量子化の際にビットを効率的に使用することがこれまで以上に重要になる。
 上述したように、特に、LP符号化と変換符号化(MDCT/TCX)との切り替えが行われる場合、変換符号化されたフレームのエイリアシング成分は、復号後のLP信号と合成される(例えば、式(10))。このため、エンコーダは、上述のようにAC信号と称される追加のエイリアシング残留信号を生成し、符号化することでエイリアシング成分を除去する。ここで、理想的には、符号化の負荷を最小限にするため、AC信号の符号量は、できるだけ小さくすべきである。
 ところが、AC信号を用いてもエイリアシング成分を十分に除去できない場合がある。例えば、図2に示されるように、符号化方式がLP符号化から変換符号化(MDCT/TCX)に切り替わる場合、先行のLP符号化されたサブフレームcのZIRに基づき、AC信号は、最初がゼロになるように算出される。
 このとき、AC信号は、一見すると窓処理された信号であり、特定の量子化方法を用いれば、効率的な符号化を促進するものである。しかしながら、図2に示されるAC信号の生成方法は、サブフレームcのZIRに基づき、サブフレームdの開始を予測するものであるため、例えば、信号特性が突然変化するような場合には、十分にエイリアシング成分を除去できない。
 また、図3に示されるように、符号化方式が変換符号化(MDCT/TCX)からLP符号化に切り替わる場合、AC信号は、サブフレームcの最後においてゼロではない。これは、前の段落で説明したように、特定の量子化方法においては、非効率的な符号化を招く。
 3つ目に、AC信号の波形は、符号化された原信号の波形より小さくなることはなく、エイリアシング除去済のMDCT信号及びLP信号は、原信号に類似する。高いビットレートでは、原信号の波形と復号後の信号の波形とが類似することがあり、符号化の際にAC信号が不必要な負担となる。
 以上のような状況を鑑み、MPEGのUSACの全体構造に基づく、本発明のコーデックは、まず、低遅延化を図るために、以下の1~3のような基本構成とした。
 1.基本構成では、フレームサイズが小さくされている。具体的には、フレームのサイズは256サンプルが推奨されるが、これに限定されることはない。これにより、生じる遅延は、サンプル数では2×256=512サンプルであり、サンプリング周波数が48kHzであれば、11ミリ秒のMDCT+フレーミング遅延が生じることとなる。
 2.また、基本構成では、さらに遅延を減少させるため、連続するMDCTフレーム間の重なり(オーバーラップ)を縮小する(例えば、非特許文献4参照)。ここで、推奨される重なりのサンプル数は、128サンプルである。これにより、MDCT+フレーミング遅延は、サンプル数では256+128=384サンプルであり、サンプリング周波数が48kHzであれば8ミリ秒となる。すなわち、生じる遅延は、上述の11ミリ秒から8ミリ秒に減少される。
 3.また、基本構成では、非対称の典型的な窓を有する複合低遅延フィルタバンクを用いる。低遅延QMFフィルタバンクの構築については、非特許文献2に記載されており周知であり、MPEGのAAC-ELD(非特許文献3参照)で既に用いられている。複合低遅延フィルタバンクでは、非対称の典型的な窓の長さを半分にし、サブバンド数(M)パラメータと、過去の拡張(E)パラメータとを調整することにより、2ミリ秒未満の遅延を実現することができる。例えば、M=64、E=8、典型的な窓の長さが640の場合、MPEGのAAC-ELDの複合低遅延QMFフィルタバンクは、サンプル数では64サンプル、サンプリング周波数が48kHzであれば1.3ミリ秒の遅延が実現される。
 このような基本構成を用いることによって、本発明のコーデックでは、10ミリ秒のアルゴリズム遅延を実現することができる。
 ここで、このような基本構成では、フレームのサイズが縮小されることで符号化オーバーヘッドが生じる。このため、AC信号により生じるビットオーバーヘッドは、より目立つ。上記ビットオーバーヘッドは、特に、コーデックの切り替えが速い場合に目立つ。したがって、このため、効率的にAC信号を生成することが課題となる。
 このような課題を解決するために、本願発明者らは、AC信号をより効率的に符号化する方法を見出した。
 本発明の一態様に係る音信号ハイブリッドエンコーダは、音信号の特性を解析し、前記音信号に含まれるフレームの符号化方法を判断する信号解析部と、前記フレームをLFD(Lapped Frequency Domain)変換することによって当該フレームを符号化したLFDフレームを生成するLFDエンコーダと、前記フレームの線形予測係数を算出することによって当該フレームを符号化したLP(Linear Prediction)フレームを生成するLPエンコーダと、前記信号解析部の判断結果に応じて、前記フレームを前記LFDエンコーダによって符号化するか、前記LPエンコーダによって符号化するかの切替を行う切替部と、前記切替部の切替制御によって前記LPフレームと連続する前記LFDフレームであるAC(Aliasing Cancel)対象フレームの少なくとも一部を復号した信号と、前記AC対象フレームに連続する前記LPフレームの少なくとも一部を復号した信号とを含むローカルデコード信号を生成するローカルデコーダと、前記AC対象フレームの復号において生じるエイリアシングの除去に用いられるAC信号を、前記音信号及び前記ローカルデコード信号を用いて生成し、出力するAC信号生成部とを備え、前記AC信号生成部は、前記AC対象フレームが前記LPフレームの直後に連続する場合、または前記AC対象フレームが前記LPフレームの直前に連続するフレームである場合において、(1)複数の方式の中から選択した1つの方式にしたがって、前記AC信号を生成して出力し、かつ、(2)前記選択した1つの方式を示すACフラグを出力する。
 このように、複数の方式から1つの方式を選択してAC信号を生成して出力することで、音信号ハイブリッドエンコーダは、効率的にAC信号を生成することができる。
 また、例えば、前記AC信号生成部は、第1の方式及び前記第1の方式とは異なる第2の方式の中から選択した1つの方式にしたがって前記AC信号を生成して出力してもよい。
 また、例えば、さらに、前記AC信号を量子化する量子化器を備え、前記AC信号生成部は、前記第1の方式及び前記第2の方式のそれぞれを用いて2つの前記AC信号を生成し、生成した2つの前記AC信号のうち、前記量子化器による量子化後の符号量が小さいほうの前記AC信号の生成に用いられた方式の前記AC信号を出力してもよい。
 これにより、音信号ハイブリッドエンコーダは、より符号量の少ないAC信号を選択し、出力することができる。
 また、例えば、前記AC対象フレームが前記LPフレームの直後に連続するフレームである場合、前記第1の方式は、前記AC対象フレームの直前のLPフレームを窓処理したゼロ入力応答を用いて前記AC信号を生成する方式であり、前記第2の方式は、前記ゼロ入力応答を用いることなく前記AC信号を生成する方式であってもよい。
 また、例えば、前記第1の方式は、USAC(Unified Speech And AudioCodec)において規格化された方式であり、前記第2の方式は、生成されるAC信号の量子化後の符号量が前記第1の方式よりも小さくなることが見込まれる方式であってもよい。
 また、例えば、前記AC信号生成部は、前記音信号に含まれるフレームのフレームサイズが所定の大きさよりも大きい場合は、前記第1の方式を選択し、前記音信号に含まれるフレームのフレームサイズが前記所定の大きさ以下の場合は、前記第2の方式を選択してもよい。
 第2の方式がフレームサイズが小さい場合に有効であるような場合、このような構成によっても、低ビットレートの効率的な符号化が実現される。
 また、例えば、さらに、前記AC信号を量子化する量子化器を備え、前記AC信号生成部は、前記第1の方式で前記AC信号を生成し、前記第1の方式で生成した前記AC信号の前記量子化器による量子化後の符号量が所定の閾値よりも小さい場合は、前記第1の方式を選択し、前記第1の方式で生成した前記AC信号の前記量子化器による量子化後の符号量が所定の閾値以上である場合は、さらに前記第2の方式で前記AC信号を生成し、前記第1の方式で生成した前記AC信号及び前記第2の方式で生成した前記AC信号のうち、前記量子化器による量子化後の符号量が小さいほうの前記AC信号を出力してもよい。
 これにより、第1の方式で生成されたAC信号の符号量が十分小さいときは第2の方式でAC信号を生成する必要がないため、AC信号の生成における処理量を低減できる。
 また、例えば、前記AC信号生成部は、さらに、前記第1の方式で前記AC信号を生成する第1のAC候補生成器と、前記第2の方式で前記AC信号を生成する第2のAC候補生成器と、(1)前記第1のAC候補生成器及び前記第2のAC候補生成器のうちから選択した1つのAC候補生成器が生成する前記AC信号を出力し、かつ、(2)出力される前記AC信号が前記第1の方式及び前記第2の方式のいずれの方式を用いて生成されたかを示す前記ACフラグを出力するAC候補選択器とを備えてもよい。
 また、例えば、さらに、入力信号に対して時間周波数領域表現に変換した信号である入力サブバンド信号を生成するLD(Low Delay)解析フィルタバンクと、前記入力サブバンド信号から、マルチチャンネル拡張パラメータ及びダウンミックスサブバンド信号を生成するマルチチャンネル拡張部と、前記ダウンミックスサブバンド信号から、帯域幅拡張パラメータ及び狭帯域サブバンド信号を生成する帯域幅拡張部と、前記狭帯域サブバンド信号を時間周波数表現から時間領域表現に変換した信号である前記音信号を生成するLD合成フィルタバンクと、前記マルチチャンネル拡張パラメータ、前記帯域幅拡張パラメータ、出力された前記AC信号、前記LFDフレーム、及び前記LPフレームを量子化する量子化器と、前記量子化器が量子化した信号及び前記ACフラグを多重化して送信するビットストリームマルチプレクサとを備えてもよい。
 また、例えば、前記LFDエンコーダは、TCX方式によって前記フレームを符号化してもよい。
 また、例えば、前記LFDエンコーダは、MDCTによって前記フレームを符号化し、前記切替部は、前記LFDエンコーダが符号化する前記フレームに対し窓処理を行い、前記窓処理に用いられる窓は、前記フレームの長さの2分の1よりも短い期間において単調増加または単調減少してもよい。
 また、本発明の一態様に係る音信号ハイブリッドデコーダは、LFD変換により符号化されたLFDフレームと、線形予測係数を用いて符号化されたLPフレームと、前記LPフレームと連続する前記LFDフレームであるAC対象フレームのエイリアシングの除去を行うためのAC信号とが含まれる符号化信号を復号する音信号ハイブリッドデコーダであって、前記LFDフレームを復号するILFD(Inverse Lapped Frequency Domain)デコーダと、前記LPフレームを復号するLPデコーダと、前記ILFDデコーダが復号したフレームに窓処理を行ったフレームと、前記LPデコーダが復号したフレームとを順番に整列した第2の狭帯域信号を出力する切替部と、前記AC信号の生成に用いられた方式を示すACフラグを取得し、前記ACフラグが示す方式に応じて、前記切替部、前記ILFDデコーダ、または前記LPデコーダから出力される信号を前記AC信号に加算したAC出力信号を生成するAC出力信号生成部と、前記第2の狭帯域信号のうちの前記AC対象フレームに相当する部分に、前記AC出力信号を加算した第3の狭帯域信号を出力する加算部とを備える。
 また、例えば、さらに、量子化された前記符号化信号と、前記ACフラグとが含まれるビットストリームを取得するビットストリームデマルチプレクサと、前記量子化された前記符号化信号を逆量子化して前記符号化信号を生成する逆量子化器と、前記加算部から出力される前記第3の狭帯域信号を時間周波数領域表現に変換することにより、狭帯域サブバンド信号を生成するLD解析フィルタバンクと、前記逆量子化器により生成された符号化信号に含まれる帯域幅拡張パラメータを前記狭帯域サブバンド信号に適用することにより、高周波信号を合成し、帯域幅が拡張されたサブバンド信号を生成する帯域幅拡張復号部と、前記逆量子化器により生成された符号化信号に含まれるマルチチャンネル拡張パラメータを前記帯域幅が拡張されたサブバンド信号に適用することにより、マルチチャンネルサブバンド信号を生成するマルチチャンネル拡張復号部と、前記マルチチャンネルサブバンド信号を時間周波数表現から時間領域表現に変換した信号であるマルチチャンネル信号を生成するLD合成フィルタバンクとを備えてもよい。
 また、例えば、前記AC信号は、第1の方式または前記第1の方式とは異なる第2の方式によって生成され、前記AC出力信号生成部は、さらに、前記第1の方式で生成された前記AC信号に対応する前記AC出力信号を生成する第1のAC候補生成器と、前記第2の方式で生成された前記AC信号に対応する前記AC出力信号を生成する第2のAC候補生成器と、前記ACフラグに応じて、前記第1のAC候補生成器及び前記第2のAC候補生成器のいずれか一方を選択し、選択したAC候補生成器に前記AC出力信号を生成させるAC候補選択器とを備えてもよい。
 なお、これらの全般的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なCD-ROMなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。
 以下、実施の形態について、図面を参照しながら具体的に説明する。なお、以下で説明する実施の形態は、いずれも包括的または具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本発明を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。
 (実施の形態1)
 実施の形態1では、音信号ハイブリッドエンコーダについて説明する。
 図4は、実施の形態1に係る音信号ハイブリッドエンコーダの構成を示すブロック図である。
 音信号ハイブリッドエンコーダ100は、LD(Low Delay)解析フィルタバンク400と、MPSエンコーダ401と、SBRエンコーダ402と、LD合成フィルタバンク403と、信号解析部404と、切替部405とを備える。また、音信号ハイブリッドエンコーダ100は、MDCTフィルタバンクを用いたオーディオエンコーダ406(以下、単にMDCTエンコーダ406と記載する)と、LPエンコーダ408と、TCXエンコーダ410とを備える。また、音信号ハイブリッドエンコーダ100は、複数の量子化器407、409、411、414、416、及び417と、ビットストリームマルチプレクサ415と、ローカルデコーダ412と、AC信号生成部413とを備える。
 LD解析フィルタバンク400は、入力信号(マルチチャネル入力信号)に対して低遅延解析フィルタバンク処理を行うことにより、ハイブリッド時間/周波数表現で表される入力サブバンド信号を生成する。低遅延フィルタバンクは、具体的には、非特許文献2に示される低遅延QMFフィルタバンク等が候補として挙げられるが、これに限定されるものではない。
 MPSエンコーダ401(マルチチャンネル拡張部)は、LD解析フィルタバンク400が生成した入力サブバンド信号を、より小さな信号のセットである、ダウンミックスサブバンド信号に変換し、MPSパラメータを生成する。ここでのダウンミックスサブバンド信号は、全帯域ダウンミックスサブバンド信号を意味する。
 例えば、入力信号がステレオ信号である場合、生成されるダウンミックスサブバンド信号は1つのみである。なお、MPSパラメータは、量子化器416によって量子化される。
 SBRエンコーダ402(帯域幅拡張部)は、ダウンミックスサブバンド信号を狭帯域サブバンド信号のセットにダウンサンプリングする。このプロセスにおいて、SBRパラメータが生成される。なお、SBRパラメータは、量子化器417によって量子化される。
 LD合成フィルタバンク403は、狭帯域サブバンド信号を時間領域に再変換し、第1の狭帯域信号(音信号)を生成する。ここでも、非特許文献2に示される低遅延QMFフィルタバンクを用いることができる。
 信号解析部404は、第1の狭帯域信号の特性を解析し、第1の狭帯域信号を符号化するために、MDCTエンコーダ406、LPエンコーダ408、及びTCXエンコーダ410の中から最適なエンコーダを選択する。なお、以下の説明では、MDCTエンコーダ406と、TCXエンコーダ410とは、LFD(Lapped Frequency Domain)エンコーダとも称される。
 例えば、信号解析部404は、全体的に非常にトーン性があり、スペクトル傾斜の変動が小さい第1の狭帯域信号に対しては、MDCTエンコーダ406を選択することができる。MDCTの基準を適用できない場合、信号解析部404は、低周波領域においてトーン性が強く、スペクトル傾斜が大きく変動する第1の狭帯域信号であれば、LPエンコーダ408が選択される。上記いずれの基準にもあてはまらない第1の狭帯域信号に対しては、TCXエンコーダ410が選択される。
 なお、上記の信号解析部404のエンコーダの判断基準は、一例であり、このような判断基準に限定されるものではない。信号解析部404は、第1の狭帯域信号(音信号)の特性を解析し、第1の狭帯域信号に含まれるフレームの符号化方法を判断すれば、判断基準はどのようなものであってもよい。
 切替部405は、信号解析部404の判断結果に応じてフレームをLFDエンコーダ(MDCTエンコーダ406、またはTCXエンコーダ410)によって符号化するか、LPエンコーダ408によって符号化するかの切替制御を行う。具体的には、切替部405は、信号解析部404の判断結果に応じて選択したエンコーダに基づき、第1の狭帯域信号に含まれる符号化対象フレーム(過去と現在のフレーム)のサンプルサブセットを選択し、次の符号化のために、当該サンプルサブセットから第2の狭帯域信号を生成する。
 ここで、切替部405は、MDCTを選択する場合、選択したサンプルサブセットに窓処理を行う。
 図5は、オーバーラップが小さい窓の形状を示す図である。図5に示されるように、音信号ハイブリッドエンコーダ100において望ましい窓の形状は、オーバーラップが小さい。実施の形態1では、切替部405は、MDCTを選択する場合、このような窓処理を行う。
 なお、図1等において示される窓は、フレームの長さの2分の1の期間において単調増加し、フレームの長さの2分の1の期間において単調減少する。これに対し、図5において示される窓は、フレームの長さの2分の1よりも短い期間において単調増加し、フレームの長さの2分の1よりも短い期間において単調減少する。このことは、すなわち、オーバーラップが小さいことを意味する。
 MDCTエンコーダ406は、MDCTによって符号化対象フレームを符号化する。
 LPエンコーダ408は、符号化対象フレームの線形予測係数を算出することによって当該符号化対象フレームを符号化する。LPエンコーダ408は、例えば、ACELP(Algebraic Code Excited Linear Prediction)、VSELP(Vector Sum Excited Linear Prediction)等のCELP方式である。
 TCXエンコーダ410は、符号化対象フレームをTCX方式で符号化する。具体的には、TCXエンコーダ410は、符号化対象フレームの線形予測係数を算出し、線形予測係数の残差をMDCT処理して符号化対象フレームを符号化する。
 なお、以下の説明では、MDCTエンコーダ406またはTCXエンコーダ410で符号化されたフレームをLFDフレームと記載し、LPエンコーダで符号化されたフレームをLPフレームと記載する。また、切替部405の切替によってエイリアシングが生じるLFDフレームを、AC対象フレームと記載する。
 つまり、AC対象フレームは、切替部405の切替制御によってLPフレームと連続して符号化されたLFDフレームである。AC対象フレームには、AC対象フレームがLPフレームの直後に符号化されたフレーム(直後に連続するフレーム)である場合と、AC対象フレームがLPフレームの直前に符号化されたフレーム(直前に連続するフレーム)である場合との2種類がある。
 量子化器407、409、及び411は、エンコーダの出力を量子化する。具体的には、量子化器407は、MDCTエンコーダ406の出力を量子化し、量子化器409は、LPエンコーダ408の出力を量子化し、量子化器411は、TCXエンコーダ410の出力を量子化する。
 一般的に、量子化器407は、dBステップの量子化器とハフマン符号化との組み合わせであり、量子化器409、及び量子化器411は、ベクトル量子化器である。
 ローカルデコーダ412は、ビットストリームマルチプレクサ415からAC対象フレーム、及びこれに連続するLPフレームを取得し、取得したフレームの少なくとも一部を復号したローカルデコード信号を生成する。ローカルデコード信号は、ローカルデコーダ412によって復号された狭帯域信号であり、具体的には、上述した、式(10)のd’及びc’や、式(11)のc’’、式(15)のd’’などである。
 AC信号生成部413は、AC対象フレームの復号において生じるエイリアシングの除去に用いられるAC信号を、上記第1信号及び第1の狭帯域信号を用いて生成し、出力する。すなわち、AC信号生成部413は、ローカルデコーダ412によって提供される復号した過去データ(過去フレーム)を活用してAC信号を生成する。
 また、実施の形態1では、AC信号生成部413は、複数のACプロセス(方式)を用いて複数のAC信号をそれぞれ生成し、生成したAC信号のうち、どのAC信号が符号化する上でよりビット効率が良いかを確認する。さらに、AC信号生成部413は、符号化する上でよりビット効率が良いAC信号を選択し、選択したAC信号と、当該AC信号の生成に用いられたACプロセスを示すACフラグを出力する。なお、選択されたAC信号は、量子化器414によって量子化される。
 ビットストリームマルチプレクサ415は、すべての符号化されたフレームと副情報とをビットストリームに書き込む。つまり、ビットストリームマルチプレクサ415は、量子化器407、409、411、414、416、及び417が量子化した信号、及びACフラグを多重化して送信する。
 以下、実施の形態1に係る音信号ハイブリッドエンコーダ100の特徴動作である、AC信号生成部413の構成及び動作について詳細に説明する。
 図6は、AC信号生成部413の構成の一例を示すブロック図である。
 図6に示されるように、AC信号生成部413は、第1のAC候補生成器700と、第2のAC候補生成器701と、AC候補選択器702とを備える。
 第1のAC候補生成器700及び第2のAC候補生成器701のそれぞれは、第1の狭帯域信号とローカルデコード信号とを用いて、最終的にAC信号生成部から出力されるAC信号の候補であるAC候補を算出する。なお、以下の説明では、第1のAC候補生成器700が生成するAC候補を単にAC、第2のAC候補生成器701が生成するAC候補を単にAC2と表記することがある。
 また、以下の説明では、第1のAC候補生成器700は、第1の方式でAC候補(AC信号)を生成し、第2のAC候補生成器は、第1の方式とは異なる第2の方式でAC候補(AC信号)を生成するものとする。第1の方式及び第2の方式の詳細については、後述する。
 AC候補選択器702は、所定の条件に基づいてAC及びAC2のうちの一方のAC候補を選択する。ここで、所定の条件とは、実施の形態1では、各AC候補を量子化した場合の符号量である。AC候補選択器702は、選択したAC候補と、選択したAC候補が第1の方式及び第2の方式のいずれの方式を用いて生成されたかを示すACフラグとを出力する。
 図7は、AC信号生成部413の動作の一例を示すフローチャートである。
 音信号ハイブリッドエンコーダ100では、上述のように、信号解析部404の判断結果に応じて切替部405が符号化方式を切り替えながら、第1の狭帯域信号の符号化が行われる(S101、S102でNo)。
 符号化対象フレームがAC対象フレームである場合(S102でYes)、AC信号生成部413は、まず第1の方式でAC信号を生成する(S103)。具体的には、第1のAC候補生成器700が、第1の狭帯域信号とローカルデコード信号とを用いて、ACを生成する。
 次に、AC信号生成部413は、第2の方式でAC信号を生成する(S104)。具体的には、第2のAC候補生成器701が、第1の狭帯域信号とローカルデコード信号とを用いて、AC2を生成する。
 次に、AC信号生成部413は、AC及びAC2のうちの一方のAC候補(AC信号)を選択する(S105)。具体的には、AC候補選択器702は、AC及びAC2のうち、量子化器414による量子化後の符号量が小さいAC候補を選択する。
 最後に、AC信号生成部413は、ステップS105において選択したAC候補(AC信号)と、当該AC候補の生成方式を示すACフラグとを出力する(S106)。
 以上説明したように、AC信号生成部413は、所定の条件に基づいて、第1の方式で生成したAC信号、及び、第1の方式とは異なる第2の方式で生成したAC信号のいずれか一方を選択して出力する。また、AC信号生成部413は、出力されるAC信号が第1の方式及び第2の方式のいずれの方式を用いて生成されたかを示すACフラグを出力する。
 なお、AC信号生成部413は、AC対象フレームがLPフレームの直後に符号化されたフレームである場合及びAC対象フレームがLPフレームの直前に符号化されたフレームである場合のそれぞれにおいて、2つの方式でAC信号を生成する。
 次に、第1の方式及び第2の方式について詳細に説明する。なお、以下の説明では、第1の方式と第2の方式との具体例をそれぞれ1つずつ挙げるが、AC信号の生成方式は、これらの具体例に限定されるものではなく、どのような方式であってもよい。
 まず、LP符号化から変換符号化(MDCT/TCX)への切り替えにおける第1の方式及び第2の方式について説明する。
 第1の方式は、既に図2を用いて説明したように、MPEGのUSACで通常用いられるACプロセスであり、式(12)を用いてAC候補(AC)を生成する方式である。すなわち、第1のAC候補生成器700は、式(12)を用いてAC候補(AC)を生成する。
 しかしながら、上述した通り、第1の方式で生成されるAC信号が十分にエイリアシングを除去できるか否かは、ZIRの確実性に大きく影響される。ZIR成分が大きい場合には、エイリアシングが除去しにくい傾向にあるし、また一方でZIR成分が小さい場合には、エイリアシング除去がしやすい傾向にある。また、復号後の信号の波形が、原信号の波形と非常に類似している場合であっても、それに応じてエイリアシングが消えることはない。なぜなら、ZIRは、時間が経つにつれて原信号との相違が大きくなる特性があるからである。
 そこで、AC信号生成部413は、さらにZIRを用いない、第2の方式を用いてAC信号を生成する。第2の方式は、生成されるAC信号の量子化後の符号量が第1の方式よりも小さくなることが見込まれる方式(エイリアシング除去よりも符号量を優先した方式)であることが望ましい。たとえば、第2の方式としては、AC信号の振幅が小さい場合に、その信号を量子化する量子化ビットを通常の量子化ビット数よりも削減する手法や、AC信号をLPCフィルタで表現する際のフィルタ係数の次数を削減する手法など、さまざまな手法をとることができる。
 図8は、LP符号化から変換符号化への切り替えにおいて用いられる、AC信号生成の第2の方式を示す図である。すなわち、第2のAC候補生成器701は、以下の式(17)を用いてAC候補(AC2)を生成する。
Figure JPOXMLDOC01-appb-M000024
 ここで、式(9)のx及び式(10)のyを式(17)に代入して式を展開すると、以下の式(18)及び(19)に示されるように、式(17)の根拠を理解することができる。
Figure JPOXMLDOC01-appb-M000025
Figure JPOXMLDOC01-appb-M000026
が上述したものと同様のものであるとすると、AC2は、以下の式(19)のように近似される。
Figure JPOXMLDOC01-appb-M000027
 式(19)に示されるように、AC2は、ACよりビット効率の良い信号である可能性が高い。ACに比べ上記のAC2信号は、信号レベル変動が小さい可能性が高く、そういった信号に対して量子化する際に、量子化に割り当てるビット数をある程度間引いても、量子化精度が劣化しにくい。このため、特に、原信号dと復号後の信号d’の波形が類似しやすい場合や、ビットレートがより高く、dとd‘の差分が小さくなるような傾向の符号化条件の場合に特に、AC2は、ACよりビット効率の良い信号である可能性が高い。
 続いて、変換符号化(MDCT/TCX)からLP符号化への切り替えにおける第1の方式及び第2の方式について説明する。
 第1の方式は、既に図3を用いて説明したように、MPEGのUSACで通常用いられるACプロセスであり、式(16)を用いてAC候補(AC)を生成する。すなわち、第1のAC候補生成器700は、式(16)を用いてAC候補(AC)を生成する。
 また、上記と同様の理由で、AC信号生成部413は、さらに、第2の方式を用いてAC信号を生成する。
 図9は、変換符号化からLP符号化への切り替えにおいて用いられる、AC信号生成の第2の方式を示す図である。すなわち、第2のAC候補生成器701は、以下の式(20)を用いてAC候補(AC2)を生成する。
Figure JPOXMLDOC01-appb-M000028
 式(20)において、x(式14)とy(式15)とを式(20)に代入して式(20)を展開し、かつ、
Figure JPOXMLDOC01-appb-M000029
と仮定すると、AC2は、以下の式(21)のように近似される。
Figure JPOXMLDOC01-appb-M000030
 ここでも、AC2は、ACよりもビット効率の良い符号化対象の信号である可能性が高い。特によりビット効率の良い場合において、原信号cと復号後の信号c’の波形は類似しやすい。
 次に、AC候補選択器702のAC信号の選択方法について説明する。
 AC候補選択器702の最もシンプルな選択方法は、ACとAC2の両方を量子化器414に通し、符号化に必要なビット数(符号量)が少ないAC候補を選択する方法である。
 なお、AC候補の選択方法は、このような方法に限定されず、その他の方法であってもよい。
 例えば、AC候補選択器702(AC信号生成部413)は、第1の狭帯域信号に含まれるフレームのフレームサイズが所定の大きさよりも大きい場合(たとえば、当該フレームの符号量が多い場合など)は、第1の方式を選択し、第1の狭帯域信号に含まれるフレームのフレームサイズが所定の大きさ以下の場合(たとえば、当該フレームの符号量が少ない場合など)は、第2の方式を選択してもよい。
 上述のように、AC2は、フレームサイズが小さい場合に有効であるため、このような構成によっても、低ビットレートの効率的なエンコーダを実現することができる。
 また、例えば、AC信号生成部413は、第1の方式でAC信号を生成し、第1の方式で生成したAC信号の量子化器による量子化後の符号量が所定の閾値よりも小さい場合は、第1の方式を選択してもよい。
 このような構成であれば、第1の方式で生成されたAC信号の符号量が十分小さいときは第2の方式でAC信号を生成する必要がないため、AC信号の生成における処理量を低減できる。
 続いて、AC信号生成部413は、第1の方式で生成したAC信号の量子化器414による量子化後の符号量が所定の閾値以上である場合は、さらに第2の方式でAC信号を生成する。この結果、AC信号生成部413は、第1の方式で生成したAC信号及び第2の方式で生成したAC信号のうち、量子化器414による量子化後の符号量が小さいほうのAC信号を出力してもよい。
 このような構成により、AC信号を生成における処理量を低減しつつ、適応的に方式を選択してAC信号を生成し、低ビットレートの効率的なエンコーダを実現することができる。
 なお、実施の形態1に係る音信号ハイブリッドエンコーダは、少なくとも重複周波数領域変換エンコーダ(LFDエンコーダ。例えば、MDCT、TCX)と、線形予測エンコーダ(LPエンコーダ)とを含むエンコーダであれば、どのような構成のエンコーダとして実現されてもよい。例えば、実施の形態1に係る音信号ハイブリッドエンコーダは、TCXエンコーダ及びLPエンコーダのみを含むエンコーダとして実現されてもよい。また、実施の形態1における帯域拡張ツールとマルチチャンネル拡張ツールとは、任意の低ビットレートツールであり、必須の構成要素ではない。実施の形態1に係る音信号ハイブリッドエンコーダは、これらのツールのサブセットまたはこれらのツールすべてをまったく持たないエンコーダとして実現されてもよい。
 なお、実施の形態1では、AC信号生成部413が、第1の方式及び第2の方式の中から選択した1つの方式にしたがってAC信号を生成する例について説明したが、AC信号生成部413は、3つ以上の方式の中から1つの方式を選択してもよい。すなわち、AC信号生成部413は、複数の方式の中から選択した1つの方式にしたがって、AC信号を生成して出力し、かつ、選択した1つの方式を示すACフラグを出力すればよい。この場合のACフラグは、複数ビットで構成されるなどして、複数の方式の中から1つの方式を区別可能な態様であればどのようなものであってもよい。
 以上説明したように、実施の形態1に係る音信号ハイブリッドエンコーダによれば、符号化の際に、ビット効率の良いAC信号を適応的に選択することができる。すなわち、実施の形態1に係る音信号ハイブリッドエンコーダによれば、低ビットレートの効率的なエンコーダを実現することができる。このようなビットレートの低減効果は、コーデックの切り替えが速い場合、及び、符号化に多くのビットを必要とする低遅延エンコーダの場合に特に顕著となる。
 (実施の形態2)
 実施の形態2では、音信号ハイブリッドデコーダについて説明する。
 図10は、実施の形態2に係る音信号ハイブリッドデコーダの構成を示すブロック図である。
 音信号ハイブリッドデコーダ200は、LD解析フィルタバンク503と、LD合成フィルタバンク500と、MPSデコーダ501と、SBRデコーダ502と、切替部505とを備える。また、音信号ハイブリッドデコーダ200は、IMDCTフィルタバンクを用いたオーディオデコーダ506(以下、単にIMDCTデコーダ506と記載する)と、LPデコーダ508と、TCXデコーダ510と、逆量子化器507、509、511、514、516、及び517と、ビットストリームデマルチプレクサ515と、AC出力信号生成部とを備える。
 ビットストリームデマルチプレクサ515は、ビットストリームのコアコーダインジケータに基づき、IMDCTデコーダ506、LPデコーダ508、及びTCXデコーダうちの1つのデコーダと、これに対応する、逆量子化器507、509、及び511のうちの1つの逆量子化器とを選択する。ビットストリームデマルチプレクサ515は、選択した逆量子化器を用いてビットストリームデータを逆量子化し、選択したデコーダを用いてビットストリームデータを復号する。逆量子化器507、509、及び511の出力は、それぞれ、IMDCTデコーダ506、LPデコーダ508、またはTCXデコーダ510に入力され、デコーダにおいて時間領域にさらに変換され、第1の狭帯域信号が生成される。なお、以下の説明では、IMDCTデコーダ506と、TCXデコーダ510とは、ILFD(Inverse Lapped Frequency Domain)デコーダとも称される。
 切替部505は、まず、過去サンプルとの時間の関係に従い(符号化された順番に従い)、第1の狭帯域信号のフレームを整列させる。フレームがIMDCTデコーダ506で復号されたフレームである場合、切替部505は、当該復号対象フレームに窓処理を行うことで行われ重なり部分を追加する。窓は、図5に示されるエンコーダが用いる窓と同じものが用いられ、図5に示される窓は、低遅延を実現するために、短いオーバーラップ領域を有する。
 切替部505のコーデックの切り替えの際、AC対象フレーム(以下、切替フレームとも記載する)のフレーム境界周辺のエイリアシング成分は、図2及び図3に示される信号と一致する。また、切替部505は、第2の狭帯域信号を生成する。
 ビットストリームに含まれるAC信号は、逆量子化器514で逆量子化される。ビットストリームに含まれるACフラグは、過去の狭帯域信号を用いた追加のエイリアシング除去成分の生成など、AC信号の次の処理方法を決定する。AC出力信号生成部513は、ACフラグに応じて逆量子化済のAC信号と、切替部505が生成したAC成分(x、y、zなど)とを合計することで、AC_out信号(AC出力信号)を生成する。
 加算器504(加算部)は、切替部505によって整列され、オーバーラップ領域が追加された第2の狭帯域信号にAC_out信号を加算し、AC対象フレームのフレーム境界におけるエイリアシング成分を除去する。エイリアシング成分を除去した信号を第3の狭帯域信号と称す。
 LD解析フィルタバンク503は、第3の狭帯域信号を処理し、ハイブリッド時間/周波数表現で表される狭帯域サブバンド信号を生成する。具体的には、非特許文献2に示される低遅延QMFフィルタバンク等が候補として挙げられるが、これに限定されるものではない。
 SBRデコーダ502(帯域幅拡張復号部)は、狭帯域サブバンド信号をより高周波の領域に拡大する。拡大方法は、より高周波の帯域へ低周波帯域がコピーされる「パッチアップ」法か、位相ボコーダの原理に基づき低周波帯域のハーモニクスを伸長する「ストレッチアップ」法のいずれかである。拡大(合成)された高周波領域の特性、特にエネルギー、ノイズフロア及び音色は、逆量子化器517により逆量子化されたSBRパラメータに基づき調整される。これにより、帯域幅が拡張されたサブバンド信号が生成される。
 MPSデコーダ501(マルチチャンネル拡張復号部)は、逆量子化器516により逆量子化されたMPSパラメータを用いて、帯域幅が拡張されたサブバンド信号からマルチチャンネルサブバンド信号を生成する。たとえば、MPSデコーダ501は、チャンネル間相関パラメータに基づいて、無相関信号とダウンミックス信号とをミックスする。MPSデコーダ501は、さらに、そのミックス後の信号の振幅と位相をチャンネル間レベル差パラメータ及びチャンネル間位相差パラメータに基づき調整し、マルチチャンネルサブバンド信号を生成する。
 LD合成フィルタバンク500は、マルチチャンネルサブバンド信号を、ハイブリッド時間/周波数領域から時間領域に再変換し、時間領域のマルチチャンネル信号を出力する。
 以下、実施の形態2に係る音信号ハイブリッドデコーダ200の特徴動作である、AC出力信号生成部513の構成及び動作について詳細に説明する。
 図11は、AC出力信号生成部513の構成の一例を示すブロック図である。
 図11に示されるように、AC出力信号生成部513は、第1のAC候補生成器800と、第2のAC候補生成器801と、AC候補選択器802及び803とを備える。
 第1のAC候補生成器800及び第2のAC候補生成器801のそれぞれは、逆量子化されたAC信号と復号された狭帯域信号とを用いてAC候補(AC出力信号、AC_out)を算出する。AC候補選択器802及び803は、エイリアシング除去を行うため、ACフラグに基づき第1のAC候補生成器800及び第2のAC候補生成器801のうちから1つを選択する。
 図12は、AC出力信号生成部513の動作の一例を示すフローチャートである。
 音信号ハイブリッドデコーダ200では、上述のように、取得したフレームを当該フレームの符号化方式に応じて復号する処理が行われる(S201、S202でNo)。
 AC出力信号生成部513がACフラグを取得した場合(S202でYes)、AC出力信号生成部513は、ACフラグに応じた処理を行い、AC_out信号を生成する(S203)。
 具体的には、まず、AC候補選択器802及び803は、ACフラグが示すAC候補生成器を選択する。AC候補選択器802及び803は、ACフラグが第1の方式を示す場合は、第1のAC候補生成器800を選択する。AC候補選択器802及び803は、ACフラグが第2の方式を示す場合は、第2のAC候補生成器801を選択する。
 続いて、AC出力信号生成部513(AC候補選択器802及び803)は、選択したAC候補生成器を用いてAC_out信号を生成する。言い換えれば、AC出力信号生成部513は、選択したAC候補生成器にAC_out信号を生成させる。具体的には、第1のAC候補生成器800は、第1のAC_out信号を生成する。第2のAC候補生成器801は、第2のAC_out信号を生成する。
 最後に、加算器504は、AC出力信号生成部513が出力したAC_out信号を切替部505から出力される第2の狭帯域信号と加算し、エイリアシングの除去を行う(S204)。
 次に、AC_out信号の生成方法について詳細に説明する。以下の説明では、実施の形態1で示される例に対応するAC_out信号の生成方法(算出方法)を示すが、AC_out信号の生成方法は、このような具体例に限定されるものではなく、どのような方法であってもよい。
 まず、符号化方式がLP符号化から変換符号化(MDCT/TCX)へ切り替わる場合について、上述の図2を参照しながら説明する。第1のAC候補生成器800は、第1のAC_out信号を以下のように算出する。
Figure JPOXMLDOC01-appb-M000031
 第2のAC候補生成器801は、第2のAC_out信号を以下のように算出する。
Figure JPOXMLDOC01-appb-M000032
 ここで、x、y及びzは、以下の窓処理をした狭帯域信号である。xは、切替部505が、時間整列し窓処理した信号である。yは、切替部505が2つの窓を掛けて反転した、先行LPフレームを復号した信号であり、式(10)と一致する。zは、切替部505が窓処理した、先行LPフレームのZIRであり、式(11)と一致する。
 同様に、符号化方式が変換符号化(MDCT/TCX)からLP符号化へ切り替わる場合について図3を参照しながら説明する。第1のAC候補生成器800は第1のAC_out信号を以下のように算出する。
Figure JPOXMLDOC01-appb-M000033
 第2のAC候補生成器801は、第2のAC_out信号を以下のように算出する。
Figure JPOXMLDOC01-appb-M000034
 ここで、xは、切替部505が時間整列し窓処理した信号である。yは、切替部505が2つの窓を掛けて反転し、後続LPフレームを復号した信号であり、式(15)と一致する。
 以上説明したように、実施の形態2に係る音信号ハイブリッドデコーダ200によれば、ACフラグに応じて、AC候補選択器802及び803は、第1のAC候補生成器800または第2のAC候補生成器801を作動させ、AC_out1またはAC_out2を出力する。これにより、音信号ハイブリッドデコーダ200は、実施の形態1に係る音信号ハイブリッドエンコーダ100で符号化された信号のエイリアシング成分を除去することができる。
 なお、実施の形態2に係る音信号ハイブリッドデコーダは、少なくとも重複周波数領域変換デコーダ(ILFDデコーダ。例えば、MDCT、TCX)と、線形予測デコーダ(LPデコーダ)とを含むデコーダであれば、どのような構成のデコーダとして実現されてもよい。例えば、実施の形態2に係る音信号ハイブリッドデコーダは、TCXデコーダ及びLPデコーダのみを含むデコーダとして実現されてもよい。また、実施の形態2における帯域拡張ツールとマルチチャンネル拡張ツールとは、任意の低ビットレートツールであり、必須の構成要素ではない。実施の形態2に係る音信号ハイブリッドデコーダは、これらのツールのサブセットまたはこれらのツールすべてをまったく持たないデコーダとして実現されてもよい。
 以上説明したように、実施の形態2に係る音信号ハイブリッドデコーダによれば、ACフラグに応じて、実施の形態1に係る音信号ハイブリッドエンコーダによって符号化された信号を適切に復号することができる。実施の形態1に係る音信号ハイブリッドエンコーダは、符号化の際に、ビット効率の良いAC信号を適応的に選択する。このため、実施の形態2に係る音信号ハイブリッドデコーダによれば、低ビットレートの効率的なデコーダが実現される。
 このようなビットレートの低減効果は、コーデックの切り替えが速い場合、及び、符号化に多くのビットを必要とする低遅延エンコーダの場合に特に顕著となる。
 (変形例)
 なお、本発明を上記実施の形態に基づいて説明してきたが、本発明は、上記の実施の形態に限定されないのはもちろんである。以下のような場合も本発明に含まれる。
 (1)上記の各装置は、具体的には、マイクロプロセッサ、ROM、RAM、ハードディスクユニット、ディスプレイユニット、キーボード、マウスなどから構成されるコンピュータシステムで実現され得る。RAMまたはハードディスクユニットには、コンピュータプログラムが記憶されている。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、各装置は、その機能を達成する。ここでコンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。
 (2)上記の各装置を構成する構成要素の一部または全部は、1個のシステムLSI(Large Scale Integration:大規模集積回路)から構成されているとしてもよい。システムLSIは、複数の構成部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM、RAMなどを含んで構成されるコンピュータシステムである。ROMには、コンピュータプログラムが記憶されている。マイクロプロセッサが、ROMからRAMにコンピュータプログラムをロードし、ロードしたコンピュータプログラムにしたがって演算等の動作することにより、システムLSIは、その機能を達成する。
 (3)上記の各装置を構成する構成要素の一部または全部は、各装置に脱着可能なICカードまたは単体のモジュールから構成されてもよい。ICカードまたはモジュールは、マイクロプロセッサ、ROM、RAMなどから構成されるコンピュータシステムである。ICカードまたはモジュールには、上記の超多機能LSIが含まれてもよい。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、ICカードまたはモジュールは、その機能を達成する。このICカードまたはこのモジュールは、耐タンパ性を有してもよい。
 (4)本発明は、上記に示す方法で実現されてもよい。また、これらの方法をコンピュータにより実現するコンピュータプログラムで実現してもよいし、コンピュータプログラムからなるデジタル信号で実現してもよい。
 また、本発明は、コンピュータプログラムまたはデジタル信号をコンピュータ読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、CD-ROM、MO、DVD、DVD-ROM、DVD-RAM、BD(Blu-ray(登録商標) Disc)、半導体メモリなどに記録したもので実現してもよい。また、これらの記録媒体に記録されているデジタル信号で実現してもよい。
 また、本発明は、コンピュータプログラムまたはデジタル信号を、電気通信回線、無線または有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送してもよい。
 また、本発明は、マイクロプロセッサとメモリを備えたコンピュータシステムであって、メモリは、コンピュータプログラムを記憶しており、マイクロプロセッサは、コンピュータプログラムにしたがって動作してもよい。
 また、プログラムまたはデジタル信号を記録媒体に記録して移送することにより、またはプログラムまたはデジタル信号をネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより実施するとしてもよい。
 (5)上記実施の形態及び上記変形例をそれぞれ組み合わせるとしてもよい。
 なお、本発明は、これらの実施の形態またはその変形例に限定されるものではない。本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態またはその変形例に施したもの、あるいは異なる実施の形態またはその変形例における構成要素を組み合わせて構築される形態も、本発明の範囲内に含まれる。
 本発明は、オーディオブック、放送システム、携帯型メディアデバイス、携帯通信端末(例えば、スマートフォン、タブレット型コンピュータ)、テレビ会議装置、及びネットワーク上の音楽演奏など、音声コンテンツ又は音楽コンテンツを含む信号の符号化に関連する用途に用いられる。
 100 音信号ハイブリッドエンコーダ
 200 音信号ハイブリッドデコーダ
 400、503 LD解析フィルタバンク
 401 MPSエンコーダ
 402 SBRエンコーダ
 403、500 LD合成フィルタバンク
 404 信号解析部
 405、505 切替部
 406 MDCTエンコーダ
 407、409、411、414、416、417 量子化器
 408 LPエンコーダ
 410 TCXエンコーダ
 412 ローカルデコーダ
 413 AC信号生成部
 415 ビットストリームマルチプレクサ
 501 MPSデコーダ
 502 SBRデコーダ
 504 加算器(加算部)
 506 IMDCTデコーダ
 507、509、511、514、516、517 逆量子化器
 508 LPデコーダ
 510 TCXデコーダ
 513 AC出力信号生成部
 515 ビットストリームデマルチプレクサ
 700、800 第1のAC候補生成器
 701、801 第2のAC候補生成器
 702、802、803 AC候補選択器

Claims (20)

  1.  音信号の特性を解析し、前記音信号に含まれるフレームの符号化方法を判断する信号解析部と、
     前記フレームをLFD(Lapped Frequency Domain)変換することによって当該フレームを符号化したLFDフレームを生成するLFDエンコーダと、
     前記フレームの線形予測係数を算出することによって当該フレームを符号化したLP(Linear Prediction)フレームを生成するLPエンコーダと、
     前記信号解析部の判断結果に応じて、前記フレームを前記LFDエンコーダによって符号化するか、前記LPエンコーダによって符号化するかの切替を行う切替部と、
     前記切替部の切替制御によって前記LPフレームと連続する前記LFDフレームであるAC(Aliasing Cancel)対象フレームの少なくとも一部を復号した信号と、前記AC対象フレームに連続する前記LPフレームの少なくとも一部を復号した信号とを含むローカルデコード信号を生成するローカルデコーダと、
     前記AC対象フレームの復号において生じるエイリアシングの除去に用いられるAC信号を、前記音信号及び前記ローカルデコード信号を用いて生成し、出力するAC信号生成部とを備え、
     前記AC信号生成部は、前記AC対象フレームが前記LPフレームの直後に連続する場合、または前記AC対象フレームが前記LPフレームの直前に連続するフレームである場合において、(1)複数の方式の中から選択した1つの方式にしたがって、前記AC信号を生成して出力し、かつ、(2)前記選択した1つの方式を示すACフラグを出力する
     音信号ハイブリッドエンコーダ。
  2.  前記AC信号生成部は、第1の方式及び前記第1の方式とは異なる第2の方式の中から選択した1つの方式にしたがって前記AC信号を生成して出力する
     請求項1に記載の音信号ハイブリッドエンコーダ。
  3.  さらに、前記AC信号を量子化する量子化器を備え、
     前記AC信号生成部は、前記第1の方式及び前記第2の方式のそれぞれを用いて2つの前記AC信号を生成し、生成した2つの前記AC信号のうち、前記量子化器による量子化後の符号量が小さいほうの前記AC信号の生成に用いられた方式の前記AC信号を出力する
     請求項2に記載の音信号ハイブリッドエンコーダ。
  4.  前記AC対象フレームが前記LPフレームの直後に連続するフレームである場合、
     前記第1の方式は、前記AC対象フレームの直前のLPフレームを窓処理したゼロ入力応答を用いて前記AC信号を生成する方式であり、
     前記第2の方式は、前記ゼロ入力応答を用いることなく前記AC信号を生成する方式である
     請求項2または3に記載の音信号ハイブリッドエンコーダ。
  5.  前記第1の方式は、USAC(Unified Speech And Audio Codec)において規格化された方式であり、
     前記第2の方式は、生成されるAC信号の量子化後の符号量が前記第1の方式よりも小さくなることが見込まれる方式である
     請求項2~4のいずれか1項に記載の音信号ハイブリッドエンコーダ。
  6.  前記AC信号生成部は、前記音信号に含まれるフレームのフレームサイズが所定の大きさよりも大きい場合は、前記第1の方式を選択し、前記音信号に含まれるフレームのフレームサイズが前記所定の大きさ以下の場合は、前記第2の方式を選択する
     請求項5に記載の音信号ハイブリッドエンコーダ。
  7.  さらに、前記AC信号を量子化する量子化器を備え、
     前記AC信号生成部は、前記第1の方式で前記AC信号を生成し、前記第1の方式で生成した前記AC信号の前記量子化器による量子化後の符号量が所定の閾値よりも小さい場合は、前記第1の方式を選択し、
     前記第1の方式で生成した前記AC信号の前記量子化器による量子化後の符号量が所定の閾値以上である場合は、さらに前記第2の方式で前記AC信号を生成し、前記第1の方式で生成した前記AC信号及び前記第2の方式で生成した前記AC信号のうち、前記量子化器による量子化後の符号量が小さいほうの前記AC信号を出力する
     請求項2~6のいずれか1項に記載の音信号ハイブリッドエンコーダ。
  8.  前記AC信号生成部は、さらに、
     前記第1の方式で前記AC信号を生成する第1のAC候補生成器と、
     前記第2の方式で前記AC信号を生成する第2のAC候補生成器と、
     (1)前記第1のAC候補生成器及び前記第2のAC候補生成器のうちから選択した1つのAC候補生成器が生成する前記AC信号を出力し、かつ、(2)出力される前記AC信号が前記第1の方式及び前記第2の方式のいずれの方式を用いて生成されたかを示す前記ACフラグを出力するAC候補選択器とを備える
     請求項2~7のいずれか1項に記載の音信号ハイブリッドエンコーダ。
  9.  さらに、
     入力信号に対して時間周波数領域表現に変換した信号である入力サブバンド信号を生成するLD(Low Delay)解析フィルタバンクと、
     前記入力サブバンド信号から、マルチチャンネル拡張パラメータ及びダウンミックスサブバンド信号を生成するマルチチャンネル拡張部と、
     前記ダウンミックスサブバンド信号から、帯域幅拡張パラメータ及び狭帯域サブバンド信号を生成する帯域幅拡張部と、
     前記狭帯域サブバンド信号を時間周波数表現から時間領域表現に変換した信号である前記音信号を生成するLD合成フィルタバンクと、
     前記マルチチャンネル拡張パラメータ、前記帯域幅拡張パラメータ、出力された前記AC信号、前記LFDフレーム、及び前記LPフレームを量子化する量子化器と、
     前記量子化器が量子化した信号及び前記ACフラグを多重化して送信するビットストリームマルチプレクサとを備える
     請求項1~8のいずれか1項に記載の音信号ハイブリッドエンコーダ。
  10.  前記LFDエンコーダは、TCX方式によって前記フレームを符号化する
     請求項1~9のいずれか1項に記載の音信号ハイブリッドエンコーダ。
  11.  前記LFDエンコーダは、MDCTによって前記フレームを符号化し、
     前記切替部は、前記LFDエンコーダが符号化する前記フレームに対し窓処理を行い、
     前記窓処理に用いられる窓は、前記フレームの長さの2分の1よりも短い期間において単調増加または単調減少する
     請求項1~10のいずれか1項に記載の音信号ハイブリッドエンコーダ。
  12.  LFD変換により符号化されたLFDフレームと、線形予測係数を用いて符号化されたLPフレームと、前記LPフレームと連続する前記LFDフレームであるAC対象フレームのエイリアシングの除去を行うためのAC信号とが含まれる符号化信号を復号する音信号ハイブリッドデコーダであって、
     前記LFDフレームを復号するILFD(Inverse Lapped Frequency Domain)デコーダと、
     前記LPフレームを復号するLPデコーダと、
     前記ILFDデコーダが復号したフレームに窓処理を行ったフレームと、前記LPデコーダが復号したフレームとを順番に整列した第2の狭帯域信号を出力する切替部と、
     前記AC信号の生成に用いられた方式を示すACフラグを取得し、前記ACフラグが示す方式に応じて、前記切替部、前記ILFDデコーダ、または前記LPデコーダから出力される信号を前記AC信号に加算したAC出力信号を生成するAC出力信号生成部と、
     前記第2の狭帯域信号のうちの前記AC対象フレームに相当する部分に、前記AC出力信号を加算した第3の狭帯域信号を出力する加算部とを備える
     音信号ハイブリッドデコーダ。
  13.  さらに、
     量子化された前記符号化信号と、前記ACフラグとが含まれるビットストリームを取得するビットストリームデマルチプレクサと、
     前記量子化された前記符号化信号を逆量子化して前記符号化信号を生成する逆量子化器と、
     前記加算部から出力される前記第3の狭帯域信号を時間周波数領域表現に変換することにより、狭帯域サブバンド信号を生成するLD解析フィルタバンクと、
     前記逆量子化器により生成された符号化信号に含まれる帯域幅拡張パラメータを前記狭帯域サブバンド信号に適用することにより、高周波信号を合成し、帯域幅が拡張されたサブバンド信号を生成する帯域幅拡張復号部と、
     前記逆量子化器により生成された符号化信号に含まれるマルチチャンネル拡張パラメータを前記帯域幅が拡張されたサブバンド信号に適用することにより、マルチチャンネルサブバンド信号を生成するマルチチャンネル拡張復号部と、
     前記マルチチャンネルサブバンド信号を時間周波数表現から時間領域表現に変換した信号であるマルチチャンネル信号を生成するLD合成フィルタバンクとを備える
     請求項12に記載の音信号ハイブリッドデコーダ。
  14.  前記AC信号は、第1の方式または前記第1の方式とは異なる第2の方式によって生成され、
     前記AC出力信号生成部は、さらに、
     前記第1の方式で生成された前記AC信号に対応する前記AC出力信号を生成する第1のAC候補生成器と、
     前記第2の方式で生成された前記AC信号に対応する前記AC出力信号を生成する第2のAC候補生成器と、
     前記ACフラグに応じて、前記第1のAC候補生成器及び前記第2のAC候補生成器のいずれか一方を選択し、選択したAC候補生成器に前記AC出力信号を生成させるAC候補選択器とを備える
     請求項12または13に記載の音信号ハイブリッドデコーダ。
  15.  音信号の特性を解析し、前記音信号に含まれるフレームの符号化方法を判断する信号解析ステップと、
     前記フレームをLFD(Lapped Frequency Domain)変換することによって当該フレームを符号化したLFDフレームを生成するLFDエンコードステップと、
     前記フレームの線形予測係数を算出することによって当該フレームを符号化したLP(Linear Prediction)フレームを生成するLPエンコードステップと、
     前記信号解析ステップの判断結果に応じて、前記フレームを前記LFDエンコードステップにおいて符号化するか、前記LPエンコードステップにおいて符号化するかの切替を行う切替ステップと、
     前記切替ステップの切替制御によって前記LPフレームと連続する前記LFDフレームであるAC(Aliasing Cancel)対象フレームの少なくとも一部を復号した信号と、前記AC対象フレームに連続する前記LPフレームの少なくとも一部を復号した信号とを含むローカルデコード信号を生成するローカルデコードステップと、
     前記AC対象フレームの復号において生じるエイリアシングの除去に用いられるAC信号を、前記音信号及び前記ローカルデコード信号を用いて生成し、出力するAC信号生成ステップとを含み、
     前記AC信号生成ステップでは、前記AC対象フレームが前記LPフレームの直後に連続する場合、または前記AC対象フレームが前記LPフレームの直前に連続するフレームである場合において、(1)複数の方式の中から選択した1つの方式にしたがって、前記AC信号を生成して出力し、かつ、(2)前記選択した1つの方式を示すACフラグを出力する
     音信号符号化方法。
  16.  請求項15に記載の音信号符号化方法をコンピュータに実行させるためのプログラム。
  17.  音信号の特性を解析し、前記音信号に含まれるフレームの符号化方法を判断する信号解析部と、
     前記フレームをLFD(Lapped Frequency Domain)変換することによって当該フレームを符号化したLFDフレームを生成するLFDエンコーダと、
     前記フレームの線形予測係数を算出することによって当該フレームを符号化したLP(Linear Prediction)フレームを生成するLPエンコーダと、
     前記信号解析部の判断結果に応じて、前記フレームを前記LFDエンコーダによって符号化するか、前記LPエンコーダによって符号化するかの切替を行う切替部と、
     前記切替部の切替制御によって前記LPフレームと連続する前記LFDフレームであるAC(Aliasing Cancel)対象フレームの少なくとも一部を復号した信号と、前記AC対象フレームに連続する前記LPフレームの少なくとも一部を復号した信号とを含むローカルデコード信号を生成するローカルデコーダと、
     前記AC対象フレームの復号において生じるエイリアシングの除去に用いられるAC信号を、前記音信号及び前記ローカルデコード信号を用いて生成し、出力するAC信号生成部とを備え、
     前記AC信号生成部は、前記AC対象フレームが前記LPフレームの直後に連続する場合、または前記AC対象フレームが前記LPフレームの直前に連続するフレームである場合において、(1)複数の方式の中から選択した1つの方式にしたがって、前記AC信号を生成して出力し、かつ、(2)前記選択した1つの方式を示すACフラグを出力する
     集積回路。
  18.  LFD変換により符号化されたLFDフレームと、線形予測係数を用いて符号化されたLPフレームと、前記LPフレームと連続する前記LFDフレームであるAC対象フレームのエイリアシングの除去を行うためのAC信号とが含まれる符号化信号を復号する音信号復号方法であって、
     前記LFDフレームを復号するILFDデコードステップと、
     前記LPフレームを復号するLPデコードステップと、
     前記ILFDデコードステップで復号したフレームに窓処理を行ったフレームと、前記LPデコーダが復号したフレームとを順番に整列した第2の狭帯域信号を出力する切替ステップと、
     前記AC信号の生成に用いられた方式を示すACフラグを取得し、前記ACフラグが示す方式に応じて、前記切替ステップ、前記ILFDデコードステップ、または前記LPデコードステップにおいて出力される信号を前記AC信号に加算したAC出力信号を生成するAC出力信号生成ステップと、
     前記第2の狭帯域信号のうちの前記AC対象フレームに相当する部分に、前記AC出力信号を加算した第3の狭帯域信号を出力する加算ステップとを含む
     音信号復号方法。
  19.  請求項18に記載の音信号復号方法をコンピュータに実行させるためのプログラム。
  20.  LFD変換により符号化されたLFDフレームと、線形予測係数を用いて符号化されたLPフレームと、前記LPフレームと連続する前記LFDフレームであるAC対象フレームのエイリアシングの除去を行うためのAC信号とが含まれる符号化信号を復号する集積回路であって、
     前記LFDフレームを復号するILFDデコーダと、
     前記LPフレームを復号するLPデコーダと、
     前記ILFDデコーダが復号したフレームに窓処理を行ったフレームと、前記LPデコーダが復号したフレームとを順番に整列した第2の狭帯域信号を出力する切替部と、
     前記AC信号の生成に用いられた方式を示すACフラグを取得し、前記ACフラグが示す方式に応じて、前記切替部、前記ILFDデコーダ、または前記LPデコーダから出力される信号を前記AC信号に加算したAC出力信号を生成するAC出力信号生成部と、
     前記第2の狭帯域信号のうち、復号後の前記AC対象フレームに相当する部分に、前記AC出力信号を加算した第3の狭帯域信号を出力する加算部とを備える
     集積回路。
PCT/JP2013/002950 2012-05-11 2013-05-08 音信号ハイブリッドエンコーダ、音信号ハイブリッドデコーダ、音信号符号化方法、及び音信号復号方法 WO2013168414A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
US14/117,738 US9489962B2 (en) 2012-05-11 2013-05-08 Sound signal hybrid encoder, sound signal hybrid decoder, sound signal encoding method, and sound signal decoding method
CN201380001328.9A CN103548080B (zh) 2012-05-11 2013-05-08 声音信号混合编码器、声音信号混合解码器、声音信号编码方法以及声音信号解码方法
JP2013537355A JP6126006B2 (ja) 2012-05-11 2013-05-08 音信号ハイブリッドエンコーダ、音信号ハイブリッドデコーダ、音信号符号化方法、及び音信号復号方法
EP13786609.1A EP2849180B1 (en) 2012-05-11 2013-05-08 Hybrid audio signal encoder, hybrid audio signal decoder, method for encoding audio signal, and method for decoding audio signal

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2012108999 2012-05-11
JP2012-108999 2012-05-11

Publications (1)

Publication Number Publication Date
WO2013168414A1 true WO2013168414A1 (ja) 2013-11-14

Family

ID=49550477

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2013/002950 WO2013168414A1 (ja) 2012-05-11 2013-05-08 音信号ハイブリッドエンコーダ、音信号ハイブリッドデコーダ、音信号符号化方法、及び音信号復号方法

Country Status (5)

Country Link
US (1) US9489962B2 (ja)
EP (1) EP2849180B1 (ja)
JP (1) JP6126006B2 (ja)
CN (1) CN103548080B (ja)
WO (1) WO2013168414A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107454416A (zh) * 2017-09-12 2017-12-08 广州酷狗计算机科技有限公司 视频流发送方法和装置
RU2679571C1 (ru) * 2015-03-09 2019-02-11 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Аудиокодер для кодирования многоканального сигнала и аудиодекодер для декодирования кодированного аудиосигнала
US11922961B2 (en) 2014-07-28 2024-03-05 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio decoder, method and computer program using a zero-input-response to obtain a smooth transition

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6001814B1 (ja) 2013-08-28 2016-10-05 ドルビー ラボラトリーズ ライセンシング コーポレイション ハイブリッドの波形符号化およびパラメトリック符号化発話向上
RU2665281C2 (ru) * 2013-09-12 2018-08-28 Долби Интернэшнл Аб Временное согласование данных обработки на основе квадратурного зеркального фильтра
KR101498113B1 (ko) * 2013-10-23 2015-03-04 광주과학기술원 사운드 신호의 대역폭 확장 장치 및 방법
EP2980796A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for processing an audio signal, audio decoder, and audio encoder
US10504530B2 (en) 2015-11-03 2019-12-10 Dolby Laboratories Licensing Corporation Switching between transforms
BR112018008874A8 (pt) * 2015-11-09 2019-02-26 Sony Corp aparelho e método de decodificação, e, programa.
CA3045847C (en) 2016-11-08 2021-06-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Downmixer and method for downmixing at least two channels and multichannel encoder and multichannel decoder
CN117037806A (zh) * 2017-01-10 2023-11-10 弗劳恩霍夫应用研究促进协会 音频解码器和编码器、提供解码的音频信号的方法、提供编码的音频信号的方法、使用流标识符的音频流、音频流提供器和计算机程序
CN113396456A (zh) * 2019-03-05 2021-09-14 索尼集团公司 信号处理装置、方法和程序
CN113948085B (zh) * 2021-12-22 2022-03-25 中国科学院自动化研究所 语音识别方法、系统、电子设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010148516A1 (en) * 2009-06-23 2010-12-29 Voiceage Corporation Forward time-domain aliasing cancellation with application in weighted or original signal domain
WO2011048118A1 (en) * 2009-10-20 2011-04-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal encoder, audio signal decoder, method for providing an encoded representation of an audio content, method for providing a decoded representation of an audio content and computer program for use in low delay applications
WO2011158485A2 (ja) * 2010-06-14 2011-12-22 パナソニック株式会社 オーディオハイブリッド符号化装置およびオーディオハイブリッド復号装置

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB8421498D0 (en) * 1984-08-24 1984-09-26 British Telecomm Frequency domain speech coding
DE69031737T2 (de) * 1989-01-27 1998-04-09 Dolby Lab Licensing Corp Transformationscodierer, -decodierer und Codierer/Decodierer mit niedriger Bitrate für Audio-Anwendungen hoher Qualität
US6124811A (en) * 1998-07-02 2000-09-26 Intel Corporation Real time algorithms and architectures for coding images compressed by DWT-based techniques
US6226608B1 (en) * 1999-01-28 2001-05-01 Dolby Laboratories Licensing Corporation Data framing for adaptive-block-length coding system
US6426977B1 (en) * 1999-06-04 2002-07-30 Atlantic Aerospace Electronics Corporation System and method for applying and removing Gaussian covering functions
US6917913B2 (en) * 2001-03-12 2005-07-12 Motorola, Inc. Digital filter for sub-band synthesis
US7516064B2 (en) * 2004-02-19 2009-04-07 Dolby Laboratories Licensing Corporation Adaptive hybrid transform for signal analysis and synthesis
US8682652B2 (en) * 2006-06-30 2014-03-25 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
FR2912249A1 (fr) * 2007-02-02 2008-08-08 France Telecom Codage/decodage perfectionnes de signaux audionumeriques.
KR20100086000A (ko) * 2007-12-18 2010-07-29 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
ES2657393T3 (es) * 2008-07-11 2018-03-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificador y descodificador de audio para codificar y descodificar muestras de audio
AU2009267518B2 (en) * 2008-07-11 2012-08-16 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for encoding/decoding an audio signal using an aliasing switch scheme
EP2144231A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme with common preprocessing
CA2871268C (en) * 2008-07-11 2015-11-03 Nikolaus Rettelbach Audio encoder, audio decoder, methods for encoding and decoding an audio signal, audio stream and computer program
TWI520128B (zh) * 2008-10-08 2016-02-01 弗勞恩霍夫爾協會 多解析度切換音訊編碼/解碼方案(一)
KR101377703B1 (ko) * 2008-12-22 2014-03-25 한국전자통신연구원 광대역 인터넷 음성 단말 장치
KR101622950B1 (ko) * 2009-01-28 2016-05-23 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 그 장치
JP4892021B2 (ja) * 2009-02-26 2012-03-07 株式会社東芝 信号帯域拡張装置
WO2011013981A2 (en) * 2009-07-27 2011-02-03 Lg Electronics Inc. A method and an apparatus for processing an audio signal
KR101379261B1 (ko) 2009-09-17 2014-04-02 연세대학교 산학협력단 오디오 신호 처리 방법 및 장치
RU2591011C2 (ru) * 2009-10-20 2016-07-10 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Кодер аудиосигнала, декодер аудиосигнала, способ кодирования или декодирования аудиосигнала с удалением алиасинга (наложения спектров)
WO2011059254A2 (en) * 2009-11-12 2011-05-19 Lg Electronics Inc. An apparatus for processing a signal and method thereof
EP2524374B1 (en) * 2010-01-13 2018-10-31 Voiceage Corporation Audio decoding with forward time-domain aliasing cancellation using linear-predictive filtering
CA2815249C (en) * 2010-10-25 2018-04-24 Voiceage Corporation Coding generic audio signals at low bitrates and low delay
FR2969805A1 (fr) * 2010-12-23 2012-06-29 France Telecom Codage bas retard alternant codage predictif et codage par transformee

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010148516A1 (en) * 2009-06-23 2010-12-29 Voiceage Corporation Forward time-domain aliasing cancellation with application in weighted or original signal domain
WO2011048118A1 (en) * 2009-10-20 2011-04-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal encoder, audio signal decoder, method for providing an encoded representation of an audio content, method for providing a decoded representation of an audio content and computer program for use in low delay applications
WO2011158485A2 (ja) * 2010-06-14 2011-12-22 パナソニック株式会社 オーディオハイブリッド符号化装置およびオーディオハイブリッド復号装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
CAROT, ALEXANDER ET AL.: "Networked Music Performance: State of the Art", AES 30TH INTERNATIONAL CONFERENCE, 15 March 2007 (2007-03-15)
SCHNELL, MARKUS ET AL.: "MPEG-4 Enhanced Low Delay AAC - a new standard for high quality communication", AES 125TH CONVENTION, 2 December 2008 (2008-12-02)
SCHULLER, GERALD ET AL.: "New Framework for Modulated Perfect Reconstruction Filter Banks", IEEE TRANSACTION ON SIGNAL PROCESSING, vol. 44, August 1996 (1996-08-01), pages 1941 - 1954
See also references of EP2849180A4
VALIN, JEAN-MARC ET AL., A FULL-BANDWIDTH AUDIO CODEC WITH LOW COMPLEXITY AND VERY LOW DELAY

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11922961B2 (en) 2014-07-28 2024-03-05 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio decoder, method and computer program using a zero-input-response to obtain a smooth transition
RU2679571C1 (ru) * 2015-03-09 2019-02-11 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Аудиокодер для кодирования многоканального сигнала и аудиодекодер для декодирования кодированного аудиосигнала
RU2680195C1 (ru) * 2015-03-09 2019-02-18 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Аудиокодер для кодирования многоканального сигнала и аудиодекодер для декодирования кодированного аудиосигнала
US10388287B2 (en) 2015-03-09 2019-08-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
US10395661B2 (en) 2015-03-09 2019-08-27 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
US10777208B2 (en) 2015-03-09 2020-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
US11107483B2 (en) 2015-03-09 2021-08-31 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
US11238874B2 (en) 2015-03-09 2022-02-01 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
US11741973B2 (en) 2015-03-09 2023-08-29 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
US11881225B2 (en) 2015-03-09 2024-01-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
CN107454416A (zh) * 2017-09-12 2017-12-08 广州酷狗计算机科技有限公司 视频流发送方法和装置
CN107454416B (zh) * 2017-09-12 2020-06-30 广州酷狗计算机科技有限公司 视频流发送方法和装置

Also Published As

Publication number Publication date
US20140074489A1 (en) 2014-03-13
JPWO2013168414A1 (ja) 2016-01-07
EP2849180A1 (en) 2015-03-18
CN103548080A (zh) 2014-01-29
EP2849180A4 (en) 2015-04-22
EP2849180B1 (en) 2020-01-01
JP6126006B2 (ja) 2017-05-10
CN103548080B (zh) 2017-03-08
US9489962B2 (en) 2016-11-08

Similar Documents

Publication Publication Date Title
JP6126006B2 (ja) 音信号ハイブリッドエンコーダ、音信号ハイブリッドデコーダ、音信号符号化方法、及び音信号復号方法
JP6941643B2 (ja) 全帯域ギャップ充填を備えた周波数ドメインプロセッサと時間ドメインプロセッサとを使用するオーディオ符号器及び復号器
US8321210B2 (en) Audio encoding/decoding scheme having a switchable bypass
JP6310074B2 (ja) インテリジェントギャップ充填フレームワーク内の2チャネル処理を用いるオーディオ符号器、オーディオ復号器およびその方法
EP2950308B1 (en) Bandwidth expansion parameter-generator, encoder, decoder, bandwidth expansion parameter-generating method, encoding method, and decoding method
RU2485606C2 (ru) Схема кодирования/декодирования аудио сигналов с низким битрейтом с применением каскадных переключений
TWI581251B (zh) 使用頻域處理器、時域處理器及供不斷初始化的跨處理器之音頻編碼器及解碼器
JP2013508761A (ja) マルチモードオーディオコーデックおよびそれに適応されるcelp符号化
JP2016524721A (ja) オブジェクト特有時間/周波数分解能を使用する混合信号からのオーディオオブジェクト分離
Herre et al. 18. Perceptual Perceptual Audio Coding of Speech Signals

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2013537355

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 14117738

Country of ref document: US

Ref document number: 2013786609

Country of ref document: EP

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13786609

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE