WO2010044593A2 - Mdct 기반 음성/오디오 통합 부호화기의 lpc 잔차신호 부호화/복호화 장치 - Google Patents

Mdct 기반 음성/오디오 통합 부호화기의 lpc 잔차신호 부호화/복호화 장치 Download PDF

Info

Publication number
WO2010044593A2
WO2010044593A2 PCT/KR2009/005881 KR2009005881W WO2010044593A2 WO 2010044593 A2 WO2010044593 A2 WO 2010044593A2 KR 2009005881 W KR2009005881 W KR 2009005881W WO 2010044593 A2 WO2010044593 A2 WO 2010044593A2
Authority
WO
WIPO (PCT)
Prior art keywords
residual signal
signal
lpc residual
encoding
encoder
Prior art date
Application number
PCT/KR2009/005881
Other languages
English (en)
French (fr)
Other versions
WO2010044593A3 (ko
Inventor
백승권
이태진
김민제
강경옥
장대영
홍진우
서정일
안치득
박호종
박영철
Original Assignee
한국전자통신연구원
광운대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020090096888A external-priority patent/KR101649376B1/ko
Application filed by 한국전자통신연구원, 광운대학교 산학협력단 filed Critical 한국전자통신연구원
Priority to US13/124,043 priority Critical patent/US8898059B2/en
Publication of WO2010044593A2 publication Critical patent/WO2010044593A2/ko
Publication of WO2010044593A3 publication Critical patent/WO2010044593A3/ko
Priority to US14/541,904 priority patent/US9378749B2/en
Priority to US15/194,174 priority patent/US9728198B2/en
Priority to US15/669,262 priority patent/US10621998B2/en
Priority to US16/846,272 priority patent/US11430457B2/en
Priority to US17/895,233 priority patent/US11887612B2/en
Priority to US18/529,830 priority patent/US20240105194A1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/087Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using mixed excitation models, e.g. MELP, MBE, split band LPC or HVXC
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • G10L19/125Pitch excitation, e.g. pitch synchronous innovation CELP [PSI-CELP]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes

Definitions

  • the present invention relates to an LPC residual signal encoding / decoding apparatus of an MDCT-based speech audio integrated encoder, and to a structure for processing an LPC residual signal in an integrated structure integrating an MDCT-based audio coder and an LPC-based audio coder.
  • the audio signal can be maximized by varying the encoding method according to the characteristics of the input signal. For example, it is highly efficient to apply a CELP speech audio coder to signals such as voice, and to improve audio quality and compression efficiency by applying transform-based audio coders to audio signals such as music. have.
  • a signal similar to speech may be encoded through a speech encoder, and a signal having strong musical characteristics may be encoded through an audio encoder.
  • Such an integrated encoder may include an input signal characteristic analyzer for characterization so as to select and switch the encoder according to the characteristics of the signal.
  • the present invention provides an LPC residual signal encoding / decoding apparatus that improves encoding performance by implementing a block that encodes / decodes a residual signal by representing it as a complex signal in order to encode / decode the LPC residual signal.
  • the present invention provides an LPC residual signal encoding / decoding apparatus that does not cause aliasing on the time axis by implementing a block for encoding / decoding a residual signal by representing it as a complex signal.
  • the LPC residual signal encoding apparatus is a linear predictive coder (LPC) residual signal encoding apparatus of a modified discrete cosine transform (MDCT) based speech audio integrated coder, and analyzes characteristics of an input signal.
  • LPC linear predictive coder
  • a signal analyzer to select an LPC filtered signal encoding method; a first encoder to encode the LPC residual signal based on a real filterbank according to selection of the signal analyzer;
  • the LPC residual signal is encoded based on an ACELP (Algebraic code excited linear prediction) according to the selection of a second encoder and the signal analyzer that encode the LPC residual signal based on a complex filter bank.
  • ACELP Algebraic code excited linear prediction
  • a third encoder may be included.
  • the first encoder may encode a LPC residual signal by performing a Modified Discrete Cosine Transform (MDCT) based filter bank on the LPC residual signal.
  • MDCT Modified Discrete Cosine Transform
  • the second encoder may encode a LPC residual signal by performing a Discrete Fourier transform (DTF) based filter bank on the LPC residual signal.
  • DTF Discrete Fourier transform
  • the second encoder may encode a LPC residual signal by performing a Modified Discrete Sine Transform (MDST) based filter bank on the LPC residual signal.
  • MDST Modified Discrete Sine Transform
  • the LPC residual signal encoding apparatus in the LPC residual signal encoding apparatus of the MDCT-based speech audio integrated coder, the signal analysis unit for analyzing the characteristics of the input signal to select the encoding method of the LPC filtered signal
  • the signal analysis unit for analyzing the characteristics of the input signal to select the encoding method of the LPC filtered signal
  • a first encoder which performs at least one of real filterbank based coding and complex filterbank based coding when the input signal is an audio signal, and when the input signal is a voice signal
  • ACELP Algebraic code excited linear prediction
  • the first encoder may include at least one of an MDCT encoder that performs MDCT-based encoding, an MDST encoder that performs MDST-based encoding, and at least one of an MDCT coefficient and an MDST coefficient according to characteristics of the input signal. It may include an output unit for outputting.
  • the LPC residual signal decoding apparatus of the MDCT-based speech audio integrated decoder, an audio decoder for decoding the LPC residual signal encoded in the frequency domain, encoding in the time domain And a distortion controller configured to cancel a distortion between the output signal of the audio decoder and the output signal of the audio decoder.
  • the audio decoding unit, the first decoding unit for decoding the LPC residual signal encoded based on the real filter bank, and the second decoding for decoding the LPC residual signal encoded based on the complex filter bank may include wealth.
  • an LPC residual signal encoding / decoding apparatus for improving encoding performance by implementing a block for representing and encoding / decoding a residual signal as a complex signal is provided. do.
  • an LPC residual signal encoding / decoding apparatus which does not generate aliasing on a time axis by implementing a block for encoding / decoding a residual signal as a complex signal.
  • FIG. 1 is a diagram illustrating an LPC residual signal encoding apparatus according to an embodiment of the present invention.
  • FIG. 2 is a diagram for explaining an LPC residual signal encoding apparatus in an MDCT-based speech audio integrated encoder according to an embodiment of the present invention.
  • FIG. 3 is a diagram for describing an LPC residual signal encoding apparatus in an MDCT-based speech audio integrated encoder according to another embodiment of the present invention.
  • FIG. 4 is a diagram illustrating an LPC residual signal decoding apparatus according to an embodiment of the present invention.
  • FIG. 5 is a diagram illustrating an LPC residual signal decoding apparatus in an MDCT-based speech audio integrated decoder according to an embodiment of the present invention.
  • FIG. 6 is a view showing a window form according to an embodiment of the present invention.
  • FIG. 7 is a diagram for describing a process of converting an R section of a window according to an embodiment of the present invention.
  • FIG. 8 is a diagram for describing a window when a last mode of a previous frame is zero and a mode of a current frame is 3 according to one embodiment of the present invention.
  • FIG. 9 is a diagram for describing a window when a last mode of a previous frame is zero and a mode of a current frame is 3 according to another embodiment of the present invention.
  • FIG. 1 is a diagram illustrating an LPC residual signal encoding apparatus according to an embodiment of the present invention.
  • the LPC residual signal encoding apparatus 100 may include a signal analyzer 110, a first encoder 120, a second encoder 130, and a third encoder 140. have.
  • the signal analyzer 110 may select an encoding method of the LPC filtered signal by analyzing characteristics of the input signal. For example, when the input signal is an audio signal, encoding is performed by the first encoder 120 or the second encoder 130, and when the input signal is a voice signal, the third encoder 120 is used. ) Can be performed by encoding. In this case, the signal analysis unit 110 transmits a control command for selecting an encoding method to the switch and encodes in one of the first encoder 120, the second encoder 130, and the third encoder 140. Can be controlled to be performed. Accordingly, one of real filter bank based residual signal encoding, multiple filter bank based residual signal encoding, and residual signal encoding through ACELP may be performed according to the control signal.
  • the first encoder 120 may encode the LPC residual signal based on a real filterbank according to the selection of the signal analyzer. For example, the first encoder 120 may encode the LPC residual signal by performing a Modified Discrete Cosine Transform (MDCT) based filter bank on the LPC residual signal.
  • MDCT Modified Discrete Cosine Transform
  • the second encoder 130 may encode the LPC residual signal based on a complex filter bank according to the selection of the signal analyzer. For example, the second encoder 130 may encode a LPC residual signal by performing a filter bank based on a Discrete Fourier transform (DTF) on the LPC residual signal. In addition, the second encoder 130 may encode the LPC residual signal by performing a filter bank based on a modified disc sine transform (MDST) based on the LPC residual signal.
  • DTF Discrete Fourier transform
  • MDST modified disc sine transform
  • the third encoder 140 may encode the LPC residual signal based on ACELP (Algebraic code excited linear prediction) according to the selection of the signal analyzer. That is, when the input signal is a voice signal, the LPC residual signal may be encoded based on ACELP.
  • ACELP Algebraic code excited linear prediction
  • FIG. 2 is a diagram for explaining an LPC residual signal encoding apparatus in an MDCT-based speech audio integrated encoder according to an embodiment of the present invention.
  • an input signal is input to the signal analyzer 210 and MPEGS.
  • the signal analyzer 210 may determine the characteristics of the input signal and output a control variable to control the operation of each block.
  • MPEGS is a tool for performing parametric stereo coding, and may perform an operation performed in OTT-1 (One To Two) of MPEG surround. That is, MPEGS operates when the input signal is stereo and outputs a mono signal.
  • the SBR is for extending the frequency band in the decoding process, and may parameterize the high frequency band.
  • the SBR outputs a coreband mono signal (typically a mono signal of less than 6 kHz) with a truncated high frequency band.
  • the output signal may determine whether to perform encoding based on LPC or Psychoacoustic model according to the state of the input signal.
  • the coding of the psychoacoustic model method is similar to the AAC coding method.
  • the LPC-based coding scheme may code one of three methods for a residual signal that has undergone LPC filtering. That is, the residual signal subjected to LPC filtering may be encoded based on the ACELP or represented as a residual signal in a frequency domain through a filter bank.
  • the encoding may be performed based on a real filter bank or may be performed by performing a complex-based filter bank.
  • the signal analyzer 210 analyzes an input signal and generates a control command to control the switch
  • the first encoder 220, the second encoder 230, and the third encoder under the control of the switch. Coding may be performed at one of 240.
  • the first encoder 220 encodes the LPC residual signal based on a real filter bank
  • the second encoder 230 encodes the LPC residual signal based on a complex filter bank.
  • the third encoder 240 may encode the LPC residual signal based on ACELP (Algebraic code excited linear prediction).
  • FIG. 3 is a diagram for describing an LPC residual signal encoding apparatus in an MDCT-based speech audio integrated encoder according to another embodiment of the present invention.
  • the same function as the LPC residual signal encoding apparatus of FIG. 2 may be performed, and the encoding may be performed by the first encoder 320 or the second encoder 330 according to the characteristics of the input signal. .
  • the signal analyzer 310 when the signal analyzer 310 generates a control signal according to the characteristics of the input signal and transmits a command for selecting an encoding method, one of the first encoder 320 and the second encoder 330 is encoded. Can be performed. In this case, when the input signal is an audio signal, encoding may be performed by the first encoder 320, and when the input signal is a voice signal, encoding may be performed by the second encoder 330.
  • the first encoder 320 may perform one of real filterbank-based encoding and complex filterbank-based encoding, and an MDCT encoder (not shown) that performs MDCT-based encoding. And an MDST encoder (not shown) for performing MDST-based encoding and an output unit (not shown) for outputting at least one of MDCT coefficients and MDST coefficients according to characteristics of the input signal.
  • the first encoder 320 performs the MDCT and the MDST by a complex transform, and outputs only the MDCT coefficients according to the control signal state of the signal analyzer 310, or MDCT and MDST coefficients. You can decide whether to output all of them.
  • FIG. 4 is a diagram illustrating an LPC residual signal decoding apparatus according to an embodiment of the present invention.
  • the LPC residual signal decoding apparatus 400 may include an audio decoder 410, a voice decoder 420, and a distortion controller 430.
  • the audio decoder 410 may decode the LPC residual signal encoded in the frequency domain. That is, when the input signal is an audio signal, since it is encoded in the frequency domain, the audio decoder 410 may decode the audio signal by performing the encoding process in reverse.
  • the audio decoder 410 may include a first decoder (not shown) that decodes the LPC residual signal encoded based on the real filter bank, and a second decoder that decodes the LPC residual signal encoded based on the complex filter bank. (Not shown).
  • the speech decoder 420 may decode the LPC residual signal encoded in the time domain. That is, when the input signal is a voice signal, since it is encoded in the time domain, the voice decoder 420 may decode the voice signal by performing an encoding process in reverse.
  • the distortion controller 430 may cancel the distortion between the output signal of the audio decoder 410 and the output signal of the voice decoder 420. That is, the distortion controller 430 may cancel discontinuities or distortions occurring when the output signal of the audio decoder 410 and the output signal of the voice decoder 420 are connected.
  • FIG. 5 is a diagram illustrating an LPC residual signal decoding apparatus in an MDCT-based speech audio integrated decoder according to an embodiment of the present invention.
  • the decoding process is performed in the inverse of the encoding process, and streams encoded by different encoding methods may be decoded by different decoding methods.
  • the audio decoder 510 may decode the encoded audio signal.
  • the audio decoder 510 may decode the stream encoded based on the real filter bank and the encoded stream based on the complex filter bank.
  • the speech decoder 520 may decode the encoded speech signal.
  • the speech decoder 520 may decode the speech signal encoded in the time domain based on the ACELP.
  • the distortion control unit 530 may cancel the discontinuity or block distortion occurring between the two blocks when decoding.
  • a window applied as a pre-processing process of a real-based (ex. MDCT-based) filter complex and a complex-based filter bank may be defined differently.
  • the window may be defined as shown in Table 1 below.
  • the window form of the MDCT residual filterbank mode 1 will be described with reference to FIG. 6.
  • ZL is a zero block section on the left side of the window
  • L is a section overlapping with the previous block
  • M is a section on which a value of 1 is applied
  • R is a section overlapping with the next block
  • ZR is a zero block on the left side of the window. It means a section.
  • MDCT may reduce the amount of data in half during conversion, and the number of conversion coefficients may be (ZL + L + M + R + ZR) / 2.
  • the intervals of L and R may be variously applied to a sine window, a KBL window, and the like, and the window may have a value in the M interval.
  • windows such as a sine window and a KBL window may be applied once after converting from frequency to time and before converting from time to frequency.
  • the window form of the current frame may be defined as shown in Table 2 below.
  • [Table 2] unlike Table 1, does not have ZL and ZR, and the coefficients transformed into the frame size and the frequency domain are the same. That is, the number of transformed coefficients is ZL + L + M + R + ZR.
  • the window type may be defined as shown in Table 3 below.
  • an overlap size of the left side of the window that is, a size overlapping with the previous frame may be set to 128.
  • a window when the previous frame is a complex filterbank mode and the current frame is the MDCT-based filterbank mode may be defined as shown in Table 4 below.
  • the same window as in Table 1 may be applied.
  • the R region of the window may be converted to 128. An embodiment of the conversion will be described in more detail with reference to FIG. 7.
  • the window 710 of the R portion applied to the WR32 is removed.
  • the window 710 of the R portion applied to WR32 may be divided into WR32 to remove the window 710 of the R portion applied to WR32.
  • the window 720 of the WR128 may be applied.
  • there is no complex based residual filterbank frame there is no ZR region.
  • the window may be defined as shown in Table 5 below.
  • Table 5 defines windows for each mode of the current frame when the encoding end mode of the previous frame is zero.
  • the last mode of the previous frame is zero and the mode of the current frame is 3, the following [Table 6] may be applied.
  • FIG. 8 is a method not considering aliasing
  • Mode 3 is a period in which no aliasing occurs, and overlap addition with a Mode 0 signal may be performed.
  • the Mode 0 signal may generate an artificial aliasing signal and then perform overlap add with Mode 3.
  • FIG. 9 illustrates a process of artificially creating aliasing in Mode 0 and a process of overlapping Mode 0 in which aliasing is created by using Mode 3 and Time Domain Aliasing Cancelation (TDAC).
  • TDAC Time Domain Aliasing Cancelation
  • connection method with the previous frame in the case is shown in Figure 8 as a general overlap add method.
  • Is the window of the slope interval Is applied to ACELP mode considering that it is applied before / after conversion between time and frequency.
  • the generated block May be overlapped with the MDCT block of mode 3 and connected.
  • an LPC residual signal encoding / decoding apparatus for improving encoding performance can be provided by implementing a block that represents and encodes / decodes the residual signal as a complex signal. It is possible to provide an LPC residual signal encoding / decoding apparatus that does not cause aliasing on an axis.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

MDCT 기반 음성/오디오 통합 부호화기의 LPC 잔차신호 부호화/복호화 장치가 개시된다. LPC 잔차신호 부호화 장치는, 입력 신호의 특성을 분석하여 LPC 필터링된 신호의 부호화 방법을 선택하고, 실수 필터뱅크(real filterbank), 복소 필터뱅크(complex filterbank), 및 ACELP(Algebraic code excited linear prediction) 중 하나에 기초하여 상기 LPC 잔차신호를 부호화한다.

Description

MDCT 기반 음성/오디오 통합 부호화기의 LPC 잔차신호 부호화/복호화 장치
MDCT 기반 음성오디오 통합 부호화기의 LPC 잔차신호 부호화/복호화 장치에 관한 것으로, MDCT 기반의 오디오 코더와, LPC기반의 오디오 코더를 통합하는 통합구조 내에서 LPC 잔차신호를 처리 하기 위한 구조에 관한 것이다.
오디오 신호는 입력신호의 특성에 따라 부호화 방법을 달리하면 그 성능 및 음질을 극대화 할 수 있다. 예를 들어 음성과 같은 신호는 CELP구조의 음성 오디오 부호화기를 적용하는 것이 부호화 효율이 높고, 음악과 같은 오디오 신호는 트랜스폼(transform)기반의 오디오 코더를 적용함으로써, 음질 및 압축효율을 보다 높일 수 있다.
따라서, 음성과 유사한 신호는 음성 부호화기를 통하여 부호화 하며, 음악적 특성이 강한 신호는 오디오 부호화기를 통하여 부호화 할 수 있다. 이러한 통합 부호화기에는 특성분석을 위한 입력신호 특성분석기를 두고 신호의 특성에 따라 부호화기를 선택 및 스위칭(switching)하도록 할 수 있다.
여기서, 음성/오디오 통합 부호화기의 부호화 성능 향상을 위해, 실수 도메인(real domain)뿐만 아니라, 복소 도메인(complex domain)에서도 부호화 동작을 수행할 수 있는 기술이 요구된다.
본 발명은 LPC 잔차신호를 부호화/복호화하기 위해, 잔차신호를 복소 신호로 표현하여 부호화/복호화하는 블록을 구현함으로써, 부호화 성능을 향상시키는 LPC 잔차신호 부호화/복호화 장치를 제공한다.
본 발명은 잔차신호를 복소 신호로 표현하여 부호화/복호화하는 블록을 구현함으로써, 시간 축 상에 앨리어싱(aliasing)을 발생시키지 않는 LPC 잔차신호 부호화/복호화 장치를 제공한다.
본 발명의 일실시예에 따른 LPC 잔차신호 부호화 장치는, MDCT(Modified Discrete Cosine Transform) 기반 음성오디오 통합 부호화기의 LPC(Linear predictive Coder) 잔차(residual) 신호 부호화 장치에 있어서, 입력 신호의 특성을 분석하여 LPC 필터링된 신호의 부호화 방법을 선택하는 신호 분석부, 상기 신호 분석부의 선택에 따라, 실 필터뱅크(real filterbank)에 기초하여 상기 LPC 잔차신호를 부호화하는 제1 부호화부, 상기 신호 분석부의 선택에 따라, 복소 필터뱅크(complex filterbank)에 기초하여 상기 LPC 잔차신호를 부호화하는 제2 부호화부 및 상기 신호 분석부의 선택에 따라, ACELP(Algebraic code excited linear prediction)에 기초하여 상기 LPC 잔차신호를 부호화하는 제3 부호화부를 포함할 수 있다.
본 발명의 일측면에 따르면, 상기 제1 부호화부는, 상기 LPC 잔차신호에 대하여, MDCT(Modified Discrete Cosine Transform) 기반의 필터뱅크를 수행하여, LPC 잔차신호를 부호화할 수 있다.
본 발명의 일측면에 따르면, 상기 제2 부호화부는 상기 LPC 잔차신호에 대하여, DTF(Discrete Fourier transform) 기반의 필터뱅크를 수행하여, LPC 잔차신호를 부호화할 수 있다.
본 발명의 일측면에 따르면, 상기 제2 부호화부는 상기 LPC 잔차신호에 대하여, MDST(Modified Discrete Sine Transform) 기반의 필터뱅크를 수행하여, LPC 잔차신호를 부호화할 수 있다.
본 발명의 일실시예에 따른 LPC 잔차신호 부호화 장치는, MDCT 기반 음성오디오 통합 부호화기의 LPC 잔차신호 부호화 장치에 있어서, 입력 신호의 특성을 분석하여 LPC 필터링된 신호의 부호화 방법을 선택하는 신호 분석부, 상기 입력신호가 오디오 신호인 경우, 실 필터뱅크(real filterbank) 기반 부호화 및 복소 필터뱅크(complex filterbank) 기반 부호화 중 적어도 하나를 수행하는 제1 부호화부, 및 상기 입력신호가 음성 신호인 경우, ACELP(Algebraic code excited linear prediction)에 기초하여 상기 LPC 잔차신호를 부호화하는 제2 부호화부를 포함할 수 있다.
본 발명의 일측면에 따르면, 상기 제1 부호화부는, MDCT 기반 부호화를 수행하는 MDCT 부호화부, MDST 기반 부호화를 수행하는 MDST 부호화부 및 상기 입력 신호의 특성에 따라, MDCT 계수 및 MDST 계수 중 적어도 하나를 출력하는 출력부를 포함할 수 있다.
본 발명의 일실시예에 따른 LPC 잔차신호 복호화 장치는, MDCT 기반 음성오디오 통합 복호화기의 LPC 잔차신호 복호화 장치에 있어서, 주파수 도메인에서 부호화된 LPC 잔차신호를 복호화하는 오디오 복호화부, 시간 도메인에서 부호화된 LPC 잔차신호를 복호화하는 음성 복호화부 및 상기 오디오 복호화부의 출력 신호 및 상기 음성 복호화부의 출력 신호 사이의 왜곡을 상쇄시키는 왜곡 제어부를 포함할 수 있다.
본 발명의 일측면에 따르면, 상기 오디오 복호화부는, 실 필터뱅크에 기초하여 부호화된 LPC 잔차신호를 복호화하는 제1 복호화부, 및 복소 필터뱅크에 기초하여 부호화된 LPC 잔차신호를 복호화하는 제2 복호화부를 포함할 수 있다.
본 발명의 일실시예에 따르면, LPC 잔차신호를 부호화/복호화하기 위해, 잔차신호를 복소 신호로 표현하여 부호화/복호화하는 블록을 구현함으로써, 부호화 성능을 향상시키는 LPC 잔차신호 부호화/복호화 장치가 제공된다.
본 발명의 일실시예에 따르면, 잔차신호를 복소 신호로 표현하여 부호화/복호화하는 블록을 구현함으로써, 시간 축 상에 앨리어싱(aliasing)을 발생시키지 않는 LPC 잔차신호 부호화/복호화 장치가 제공된다.
도 1은 본 발명의 일실시예에 따른, LPC 잔차신호 부호화 장치를 도시한 도면이다.
도 2는 본 발명의 일실시예에 따른 MDCT기반의 음성오디오 통합 부호화기에 있어서, LPC 잔차신호 부호화 장치를 설명하기 위한 도면이다.
도 3은 본 발명의 다른 일실시예에 따른 MDCT기반의 음성오디오 통합 부호화기에 있어서, LPC 잔차신호 부호화 장치를 설명하기 위한 도면이다.
도 4는 본 발명의 일실시예에 따른, LPC 잔차신호 복호화 장치를 도시한 도면이다.
도 5는 본 발명의 일실시예에 따른 MDCT기반의 음성오디오 통합 복호화기에 있어서, LPC 잔차신호 복호화 장치를 설명하기 위한 도면이다.
도 6은 본 발명의 일실시예에 따른 윈도우 형태를 도시한 도면이다.
도 7은 본 발명의 일실시예에 따라, 윈도우의 R 구간이 변환되는 과정을 설명하기 위한 도면이다.
도 8은 본 발명의 일실시예에 따라, 이전 프레임의 마지막 모드가 제로(zero)이고, 현재 프레임의 모드가 3인 경우의 윈도우를 설명하기 위한 도면이다.
도 9는 본 발명의 다른 일실시예에 따라, 이전 프레임의 마지막 모드가 제로(zero)이고, 현재 프레임의 모드가 3인 경우의 윈도우를 설명하기 위한 도면이다.
이하, 첨부된 도면들에 기재된 내용들을 참조하여 본 발명에 따른 실시예를 상세하게 설명한다. 다만, 본 발명이 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조부호는 동일한 부재를 나타낸다.
도 1은 본 발명의 일실시예에 따른, LPC 잔차신호 부호화 장치를 도시한 도면이다.
도 1을 참고하면, LPC 잔차신호 부호화 장치(100)는 신호 분석부(110), 제1 부호화부(120), 제2 부호화부(130), 및 제3 부호화부(140)를 포함할 수 있다.
신호 분석부(110)는 입력 신호의 특성을 분석하여 LPC 필터링된 신호의 부호화 방법을 선택할 수 있다. 예를 들어, 입력 신호가 오디오 신호인 경우에는, 제1 부호화부(120) 또는 제2 부호화부(130)에 의해 부호화가 수행되도록 하고, 입력 신호가 음성 신호인 경우에는 제3 부호화부(120)에 의해 부호화가 수행되도록 할 수 있다. 이때, 신호 분석부(110)는 부호화 방법을 선택하기 위한 제어 명령을 스위치에 전달하여 제1 부호화부(120), 제2 부호화부(130), 및 제3 부호화부(140) 중 하나에서 부호화가 수행되도록 제어할 수 있다. 따라서, 상기 제어 신호에 따라 실 필터뱅크 기반 잔차신호 부호화, 복수 필터뱅크 기반 잔차신호 부호화, 및 ACELP를 통한 잔차신호 부호화 중 하나가 수행될 수 있다.
제1 부호화부(120)는 상기 신호 분석부의 선택에 따라, 실 필터뱅크(real filterbank)에 기초하여 상기 LPC 잔차신호를 부호화할 수 있다. 일예로, 제1 부호화부(120)는 상기 LPC 잔차신호에 대하여, MDCT(Modified Discrete Cosine Transform) 기반의 필터뱅크를 수행하여, LPC 잔차신호를 부호화할 수 있다.
제2 부호화부(130)는 상기 신호 분석부의 선택에 따라, 복소 필터뱅크(complex filterbank)에 기초하여 상기 LPC 잔차신호를 부호화할 수 있다. 일예로, 제2 부호화부(130)는 상기 LPC 잔차신호에 대하여, DTF(Discrete Fourier transform) 기반의 필터뱅크를 수행하여, LPC 잔차신호를 부호화할 수 있다. 또한, 제2 부호화부(130)는 상기 LPC 잔차신호에 대하여, MDST(Modified Discrete Sine Transform) 기반의 필터뱅크를 수행하여, LPC 잔차신호를 부호화할 수 있다.
제3 부호화부(140)는 상기 신호 분석부의 선택에 따라, ACELP(Algebraic code excited linear prediction)에 기초하여 상기 LPC 잔차신호를 부호화할 수 있다. 즉, 상기 입력 신호가 음성 신호인 경우, ACELP에 기초하여 상기 LPC 잔차신호를 부호화할 수 있다.
도 2는 본 발명의 일실시예에 따른 MDCT기반의 음성오디오 통합 부호화기에 있어서, LPC 잔차신호 부호화 장치를 설명하기 위한 도면이다.
도 2를 참고하면, 우선, 입력신호는 신호 분석부(210)와 MPEGS로 입력된다. 이때, 신호 분석부(210)는 입력신호의 특성을 파악하고 제어 변수를 출력하여 각 블록의 동작을 제어할 수 있다. 또한, MPEGS는 파라메트릭 스테레오 코딩(Parametric stereo coding)을 수행하기 위한 툴(tool)로써, MPEG 서라운드의 OTT-1(One To Two)에서 수행하는 동작을 수행할 수 있다. 즉, MPEGS는 입력신호가 스테레오 일 때 동작하며, 모노신호를 출력한다. 또한, SBR은 주파수 대역을 복호화 과정에서 확장하기 위한 것으로, 고주파 대역을 파라미터화(parameterize)할 수 있다. 따라서 SBR은 고주파 대역이 잘려나간 코어밴드 모노 신호(일반적으로 6kHz 미만의 모노신호)를 출력한다. 출력된 신호는 입력신호의 상태에 따라, LPC 기반으로 부호화를 수행할 것인지, 심리 음향 모델(Psychoacoustic model)기반으로 부호화를 수행할 것인지 결정할 수 있다. 이때, 심리 음향 모델 방식의 코딩은, AAC 코딩방식과 유사하다. 또한, LPC 기반의 코딩방식은 LPC 필터 링을 거친 잔차(residual) 신호에 대하여 세 가지 방법 중 하나로 코딩할 수 있다. 즉, LPC 필터링이 된 잔차신호는 ACELP에 기초하여 부호화하거나 필터뱅크를 거쳐 주파수 도메인(Frequency domain)의 잔차신호로 표현되어 부호화될 수 있다. 이때, 필터뱅크를 거쳐 주파수 도메인의 잔차신호로 표현되어 부호화하기 위한 방법으로, 실 필터뱅크(Real Filterbank)에 기초하여 부호화를 수행하거나, 복소 기반의 필터뱅크를 수행하여 부호화를 수행할 수 있다.
즉, 신호 분석부(210)가 입력신호를 분석하여 제어명령을 생성하여 스위치를 제어하면, 상기 스위치의 제어에 따라 제1 부호화부(220), 제2 부호화부(230), 제3 부호화부(240) 중 하나에서 부호화를 수행할 수 있다. 여기서, 제1 부호화부(220)는 실 필터뱅크에 기초하여 상기 LPC 잔차신호를 부호화하고, 제2 부호화부(230)는 복소 필터뱅크(complex filterbank)에 기초하여 상기 LPC 잔차신호를 부호화하며, 제3 부호화부(240)는 ACELP(Algebraic code excited linear prediction)에 기초하여 상기 LPC 잔차신호를 부호화할 수 있다.
여기서, 동일한 크기의 블록(frame)에 대하여 복소 필터뱅크를 수행할 경우, 허수 부분(imaginary part)에 의해, real 기반(ex. MDCT 기반)의 필터뱅크보다 2배의 데이터가 출력된다. 즉, 동일한 입력에 대해 복소 필터뱅크를 적용하면 2배의 데이터를 부호화하여야 한다. 그러나, MDCT기반의 잔차신호는 시간축 상에 앨리어싱(aliasing)이 발생하는 반면에, DTF등과 같은 복소 트랜스폼은 시간축 상의 앨리어싱이 발생하지 않는다.
도 3은 본 발명의 다른 일실시예에 따른 MDCT기반의 음성오디오 통합 부호화기에 있어서, LPC 잔차신호 부호화 장치를 설명하기 위한 도면이다.
도 3을 참고하면, 도 2의 LPC 잔차신호 부호화 장치와 동일한 기능을 수행하는 것으로, 입력신호의 특성에 따라 제1 부호화부(320) 또는 제2 부호화부(330)에서 부호화를 수행할 수 있다.
즉, 신호 분석부(310)가 입력신호의 특성에 따라 제어신호를 발생하여 부호화 방법을 선택하기 위한 명령을 전달하면, 제1 부호화부(320) 및 제2 부호화부(330) 중 하나에서 부호화를 수행할 수 있다. 이때, 입력신호가 오디오 신호인 경우, 제1 부호화부(320)에서 부호화를 수행하고, 입력신호가 음성 신호인 경우, 제2 부호화부(330)에서 부호화를 수행할 수 있다.
여기서, 제1 부호화부(320)는 실 필터뱅크(real filterbank) 기반 부호화 및 복소 필터뱅크(complex filterbank) 기반 부호화 중 하나를 수행할 수 있으며, MDCT 기반 부호화를 수행하는 MDCT 부호화부(미도시), MDST 기반 부호화를 수행하는 MDST 부호화부(미도시) 및 상기 입력 신호의 특성에 따라, MDCT 계수 및 MDST 계수 중 적어도 하나를 출력하는 출력부(미도시)를 포함할 수 있다.
따라서, 제1 부호화부(320)에서는 MDCT와 MDST의 수행을 복소 트랜스폼(complex transform)으로 수행하고, 신호 분석부(310)의 제어신호 상태에 따라, MDCT계수만을 출력할지, MDCT와 MDST 계수를 모두 출력할지 결정할 수 있다.
도 4는 본 발명의 일실시예에 따른, LPC 잔차신호 복호화 장치를 도시한 도면이다.
도 4를 참고하면, LPC 잔차신호 복호화 장치(400)는, 오디오 복호화부(410), 음성 복호화부(420), 및 왜곡 제어부(430)를 포함할 수 있다.
오디오 복호화부(410)는 주파수 도메인에서 부호화된 LPC 잔차신호를 복호화할 수 있다. 즉, 입력신호가 오디오 신호인 경우, 주파수 도메인에서 부호화되었으므로, 오디오 복호화부(410)는 부호화 과정을 역으로 수행하여 오디오 신호를 복호화할 수 있다. 이때, 오디오 복호화부(410)는 실 필터뱅크에 기초하여 부호화된 LPC 잔차신호를 복호화하는 제1 복호화부(미도시) 및 복소 필터뱅크에 기초하여 부호화된 LPC 잔차신호를 복호화하는 제2 복호화부(미도시)를 포함할 수 있다.
음성 복호화부(420)는 시간 도메인에서 부호화된 LPC 잔차신호를 복호화할 수 있다. 즉, 입력신호가 음성 신호인 경우, 시간 도메인에서 부호화되었으므로, 음성 복호화부(420)는 부호화 과정을 역으로 수행하여 음성 신호를 복호화할 수 있다.
왜곡 제어부(430)는 상기 오디오 복호화부(410)의 출력 신호 및 음성 복호화부(420)의 출력 신호 사이의 왜곡을 상쇄시킬 수 있다. 즉, 왜곡 제어부(430)는 오디오 복호화부(410)의 출력 신호 및 음성 복호화부(420)의 출력 신호의 연결시 발생하는 불연속 또는 왜곡 현상을 상쇄시킬 수 있다.
도 5는 본 발명의 일실시예에 따른 MDCT기반의 음성오디오 통합 복호화기에 있어서, LPC 잔차신호 복호화 장치를 설명하기 위한 도면이다.
도 5를 참고하면, 복호화 과정은 부호화 과정의 역으로 수행되며, 서로 다른 부호화 방식에 의해 부호화된 스트림은 각각 다른 복호화 방식에 의해 복호화될 수 있다. 예를 들어, 오디오 복호화부(510)는 부호화된 오디오 신호를 복호화 할 수 있으며, 일예로, 실 필터뱅크에 기초하여 부호화된 스트림 및 복소 필터뱅크에 기초하여 부호화된 스트림을 복호화할 수 있다. 또한, 음성 복호화부(520)는 부호화된 음성 신호를 복호화할 수 있으며, 일예로, ACELP에 기초하여 시간 도메인에서 부호화된 음성신호를 복호화할 수 있다. 이때, 왜곡 제어부(530)는 복호화 수행시 두 블록 사이에서 발생하는 불연속성 또는 블록 왜곡 현상을 상쇄시킬 수 있다.
한편, 부호화 과정에 있어서, 실 기반(ex. MDCT 기반)의 필터뱅크와 복소 기반 필터뱅크의 전처리 과정으로 적용되는 윈도우는 다르게 정의될 수 있으며, MDCT기반의 필터뱅크를 수행할 경우, 이전 프레임의 모드에 따라, 윈도우는 하기 [표 1]과 같이 정의될 수 있다.
[표 1]
Figure PCTKR2009005881-appb-I000001
일예로서, MDCT residual filterbank mode 1의 윈도우 형태를 도 6에서 설명한다.
도 6을 참고하면, ZL은 윈도우 왼쪽편 제로 블록 구간, L은 이전 블록과 중첩되는 구간, M은 1의 값이 적용되는 구간, R은 다음 블록과 중첩되는 구간, ZR은 윈도우 왼쪽편 제로 블록 구간을 의미한다. 여기서, MDCT는 변환시 그 데이터 량이 반으로 줄고, 변환계수의 수는 (ZL+L+M+R+ZR)/2 가 될 수 있다. 또한, L, R의 구간은, 사인 윈도우(Sine window), KBL 윈도우(KBL window)등으로 다양하게 적용될 수 있으며, M 구간에서 윈도우는 1값을 가질 수 있다. 또한, 사인 윈도우, KBL 윈도우 등과 같은 윈도우는 Time에서 Frequency로 변환하기 전, Frequency에서 Time으로 변환한 후, 각각 한번씩 적용될 수 있다.
또한, 현재 프레임과 이전 프레임이 모두 복소 필터뱅크 모드일 때, 현재 프레임의 윈도우 형태는 하기 [표 2]와 같이 정의될 수 있다.
[표 2]
Figure PCTKR2009005881-appb-I000002
[표 2]는 상기 [표 1]과 달리 ZL, ZR이 없으며, 프레임 사이즈와 주파수 영역으로 변환된 계수는 같다. 즉, 변환된 계수의 수는 ZL+L+M+R+ZR 이다.
또한, 이전 프레임에서 MDCT기반의 필터뱅크가 적용되고, 현재 프레임이 복소 기반의 필터뱅크가 적용될 때의, 윈도우 타입은 하기 [표 3]과 같이 정의될 수 있다.
[표 3]
Figure PCTKR2009005881-appb-I000003
여기서, 윈도우 왼쪽편의 오버랩 사이즈(overlap size), 즉, 이전 프레임과 오버랩되는 사이즈를 128으로 설정할 수 있다.
또한, 이전 프레임이 복소 필터뱅크 모드이며, 현재 프레임이 MDCT기반의 필터뱅크 모드인 경우의 윈도우는 하기 [표 4]와 같이 정의될 수 있다.
[표 4]
Figure PCTKR2009005881-appb-I000004
여기서, [표 4]에서는 상기 [표 1]과 동일한 윈도우가 적용될 수 있다. 그러나, 이전 프레임의 복소 필터뱅크 모드 1 과 2에 대해서, 윈도우의 R영역이 128로 변환될 수 있다. 상기 변환의 일실시예를 하기 도 7에서 보다 상세하게 설명한다.
도 7을 참고하면, 이전 프레임의 복소 필터뱅크 모드가 1이었을 경우, 우선 WR32로 적용된 R 부분의 윈도우(710)를 제거한다. 일예로, WR32로 적용된 R 부분의 윈도우(710)를 제거하기 위해 WR32로 적용된 R 부분의 윈도우(710)를 WR32로 나눌 수 있다. WR32로 적용된 R 부분의 윈도우(710)를 제거한 이후에는 WR128의 윈도우(720)를 적용할 수 있다. 이때, 복소 기반 잔차 필터뱅크 프레임이므로, ZR영역은 없다.
한편, 이전 프레임이 ACELP를 이용하여 부호화를 수행한 경우이고, 현재 프레임이 MDCT 필터뱅크 모드인 경우, 윈도우는 하기 [표 5]와 같이 정의될 수 있다.
[표 5]
Figure PCTKR2009005881-appb-I000005
즉, [표 5]는 이전 프레임의 부호화 끝 모드가 제로인 경우, 현재 프레임의 각 모드에 대한 윈도우를 정의한 것이다. 여기서, 이전 프레임의 마지막 모드가 제로이고, 현재 프레임의 모드가 3일 경우, 아래 [표 6] 이 적용될 수 있다.
[표 6]
Figure PCTKR2009005881-appb-I000006
여기서, α 는
Figure PCTKR2009005881-appb-I000007
또는
Figure PCTKR2009005881-appb-I000008
일 수 있다. 이때 주파수 영역으로의 변환개수는
Figure PCTKR2009005881-appb-I000009
이다. 예를 들어, [표 6]에서
Figure PCTKR2009005881-appb-I000010
이 될 수 있다.
따라서,
Figure PCTKR2009005881-appb-I000011
인 경우와,
Figure PCTKR2009005881-appb-I000012
인 경우의 프레임 연결방법은 다르며 도 8 및 도 9를 참고하여 보다 상세하게 설명한다. 여기서, 도 8은 앨리어싱을 고려하지 않은 방식으로써, Mode 3에서 α 는 앨리어싱을 발생하지 않는 구간이며, Mode 0 신호와 오버랩 애드(overlap add)를 수행할 수 있다. 그러나, α 값이 커져서 앨리어싱을 발생시키는 경우, Mode 0 신호는 인위적인 앨리어싱 신호를 발생시킨 후, Mode 3와 오버랩 애드를 수행할 수 있다. 도 9는 Mode 0에 앨리어싱을 인위적으로 만들어 주는 과정 및 앨리어싱을 만든 Mode 0를 Mode 3와 TDAC(Time Domain Aliasing Cancelation)방법으로 오버랩 애드하여 연결하는 과정을 나타내고 있다.
도 8과 9의 보다 상세한 설명은 다음과 같다. 먼저,
Figure PCTKR2009005881-appb-I000013
인 경우의 이전 프레임과의 연결방법은 일반적인 오버랩 애드 방법으로 도 8에 도시되어 있다. 여기서,
Figure PCTKR2009005881-appb-I000014
은 경사(slope) 구간의 윈도우이고,
Figure PCTKR2009005881-appb-I000015
는 Time 과 Frequency간의 변환 전/후에 적용되는 것을 고려하여 ACELP 모드에 적용한 것이다.
Figure PCTKR2009005881-appb-I000016
인 경우는 도 9와 같이 처리할 수 있다. 도 9를 참고하면, 먼저 ACELP 블록에
Figure PCTKR2009005881-appb-I000017
윈도우를 적용할 수 있다
Figure PCTKR2009005881-appb-I000018
. 여기서
Figure PCTKR2009005881-appb-I000019
는 ACELP 블록의 서브 블록(sub-block)에 대한 표기(notation)이다. 다음으로, 인위적인 TDA 신호를 추가하기 위해서,
Figure PCTKR2009005881-appb-I000020
Figure PCTKR2009005881-appb-I000021
에 적용한 후
Figure PCTKR2009005881-appb-I000022
Figure PCTKR2009005881-appb-I000023
과 더할 수 있다. 여기서
Figure PCTKR2009005881-appb-I000024
은 역 시퀀스(reverse sequence)를 의미한다. 즉
Figure PCTKR2009005881-appb-I000025
일 때,
Figure PCTKR2009005881-appb-I000026
와 같다.
이후,
Figure PCTKR2009005881-appb-I000027
를 최종적으로 적용하여 최종 오버랩 애드될 블록을 생성할 수 있다.
Figure PCTKR2009005881-appb-I000028
를 최종적으로 한번 더 적용하는 것은 Frequency에서 Time으로 변환후의 윈도우잉(windowing)을 고려하기 때문이다. 상기 생성된 블록
Figure PCTKR2009005881-appb-I000029
는, 모드 3의 MDCT블록과 오버랩 애드되어 연결될 수 있다.
상기와 같이, LPC 잔차신호를 부호화/복호화하기 위해, 잔차신호를 복소 신호로 표현하여 부호화/복호화하는 블록을 구현함으로써, 부호화 성능을 향상시키는 LPC 잔차신호 부호화/복호화 장치를 제공할 수 있고, 시간 축 상에 앨리어싱(aliasing)을 발생시키지 않는 LPC 잔차신호 부호화/복호화 장치를 제공할 수 있다.
이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.
그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.

Claims (15)

  1. MDCT(Modified Discrete Cosine Transform) 기반 음성오디오 통합 부호화기의 LPC(Linear predictive Coder) 잔차(residual) 신호 부호화 장치에 있어서,
    입력 신호의 특성을 분석하여 LPC 필터링된 신호의 부호화 방법을 선택하는 신호 분석부;
    상기 신호 분석부의 선택에 따라, 실 필터뱅크(real filterbank)에 기초하여 상기 LPC 잔차신호를 부호화하는 제1 부호화부;
    상기 신호 분석부의 선택에 따라, 복소 필터뱅크(complex filterbank)에 기초하여 상기 LPC 잔차신호를 부호화하는 제2 부호화부; 및
    상기 신호 분석부의 선택에 따라, ACELP(Algebraic code excited linear prediction)에 기초하여 상기 LPC 잔차신호를 부호화하는 제3 부호화부
    를 포함하는 LPC 잔차신호 부호화 장치.
  2. 제1항에 있어서,
    상기 제1 부호화부는
    상기 LPC 잔차신호에 대하여, MDCT(Modified Discrete Cosine Transform) 기반의 필터뱅크를 수행하여, LPC 잔차신호를 부호화하는 것을 특징으로 하는 LPC 잔차신호 부호화 장치.
  3. 제1항에 있어서,
    상기 제2 부호화부는
    상기 LPC 잔차신호에 대하여, DTF(Discrete Fourier transform) 기반의 필터뱅크를 수행하여, LPC 잔차신호를 부호화하는 것을 특징으로 하는 LPC 잔차신호 부호화 장치.
  4. 제1항에 있어서,
    상기 제2 부호화부는
    상기 LPC 잔차신호에 대하여, MDST(Modified Discrete Sine Transform) 기반의 필터뱅크를 수행하여, LPC 잔차신호를 부호화하는 것을 특징으로 하는 LPC 잔차신호 부호화 장치.
  5. 제1항에 있어서,
    상기 제1 부호화부는,
    이전 프레임과 현재 프레임이 모두 MDCT 필터뱅크 모드인 경우, 하기 [표 1]에 정의되는 윈도우를 사용하는 것을 특징으로 하는 LPC 잔차신호 부호화 장치.
    [표 1]
    Figure PCTKR2009005881-appb-I000030
    여기서,
    ZL은 윈도우 왼쪽편 제로 블록 구간,
    L은 이전 블록과 중첩되는 구간,
    M은 1의 값이 적용되는 구간,
    R은 다음 블록과 중첩되는 구간,
    ZR은 윈도우 왼쪽편 제로 블록 구간
    을 각각 의미함.
  6. 제1항에 있어서,
    상기 제2 부호화부는,
    이전 프레임과 현재 프레임이 모두 복소 필터뱅크 모드인 경우, 하기 [표 2]에 정의되는 윈도우를 사용하는 것을 특징으로 하는 LPC 잔차신호 부호화 장치.
    [표 2]
    Figure PCTKR2009005881-appb-I000031
  7. 제1항에 있어서,
    상기 제2 부호화부는,
    이전 프레임이 MDCT 필터뱅크 모드이고, 현재 프레임이 복소 필터뱅크 모드인 경우, 하기 [표 3]에 정의되는 윈도우를 사용하는 것을 특징으로 하는 LPC 잔차신호 부호화 장치.
    [표 3]
    Figure PCTKR2009005881-appb-I000032
  8. 제1항에 있어서,
    상기 제1 부호화부는,
    이전 프레임이 복소 필터뱅크 모드 이고, 현재 프레임이 MDCT 필터뱅크 모드인 경우, 하기 [표 4]에 정의되는 윈도우를 사용하는 것을 특징으로 하는 LPC 잔차신호 부호화 장치.
    [표 4]
    Figure PCTKR2009005881-appb-I000033
  9. 제1항에 있어서,
    상기 제1 부호화부는,
    이전 프레임이 ACELP를 이용하여 부호화를 수행한 경우이고, 현재 프레임이 MDCT 필터뱅크 모드인 경우, 하기 [표 5]에 정의되는 윈도우를 사용하는 것을 특징으로 하는 LPC 잔차신호 부호화 장치.
    [표 5]
    Figure PCTKR2009005881-appb-I000034
  10. 제1항에 있어서,
    상기 신호 분석부는,
    상기 입력신호가 오디오 신호인 경우, 상기 제1 부호화부 또는 상기 제2 부호화부에서 부호화를 수행하도록 제어하고,
    상기 입력신호가 음성 신호인 경우, 상기 제3 부호화부에서 부호화를 수행하도록 제어하는 것을 특징으로 하는 LPC 잔차신호 부호화 장치.
  11. MDCT 기반 음성오디오 통합 부호화기의 LPC 잔차신호 부호화 장치에 있어서,
    입력 신호의 특성을 분석하여 LPC 필터링된 신호의 부호화 방법을 선택하는 신호 분석부;
    상기 입력신호가 오디오 신호인 경우, 실 필터뱅크(real filterbank) 기반 부호화 및 복소 필터뱅크(complex filterbank) 기반 부호화 중 적어도 하나를 수행하는 제1 부호화부; 및
    상기 입력신호가 음성 신호인 경우, ACELP(Algebraic code excited linear prediction)에 기초하여 상기 LPC 잔차신호를 부호화하는 제2 부호화부
    를 포함하는 LPC 잔차신호 부호화 장치.
  12. 제11항에 있어서,
    상기 신호 분석부는,
    실 필터뱅크 기반 부호화, 복소 필터뱅크 기반 부호화, 및 ACELP 기반 부호화 중 하나를 선택적으로 수행하기 위한 제어 명령을 생성하는 것을 특징으로 하는 LPC 잔차신호 부호화 장치.
  13. 제11항에 있어서,
    상기 제1 부호화부는,
    MDCT 기반 부호화를 수행하는 MDCT 부호화부;
    MDST 기반 부호화를 수행하는 MDST 부호화부; 및
    상기 입력 신호의 특성에 따라, MDCT 계수 및 MDST 계수 중 적어도 하나를 출력하는 출력부
    를 포함하는 것을 특징으로 하는LPC 잔차신호 부호화 장치.
  14. MDCT 기반 음성오디오 통합 복호화기의 LPC 잔차신호 복호화 장치에 있어서,
    주파수 도메인에서 부호화된 LPC 잔차신호를 복호화하는 오디오 복호화부;
    시간 도메인에서 부호화된 LPC 잔차신호를 복호화하는 음성 복호화부; 및
    상기 오디오 복호화부의 출력 신호 및 상기 음성 복호화부의 출력 신호 사이의 왜곡을 상쇄시키는 왜곡 제어부
    를 포함하는 LPC 잔차신호 복호화 장치.
  15. 제14항에 있어서,
    상기 오디오 복호화부는,
    실 필터뱅크에 기초하여 부호화된 LPC 잔차신호를 복호화하는 제1 복호화부; 및
    복소 필터뱅크에 기초하여 부호화된 LPC 잔차신호를 복호화하는 제2 복호화부
    를 포함하는 것을 특징으로 하는 LPC 잔차신호 복호화 장치.
PCT/KR2009/005881 2008-10-13 2009-10-13 Mdct 기반 음성/오디오 통합 부호화기의 lpc 잔차신호 부호화/복호화 장치 WO2010044593A2 (ko)

Priority Applications (7)

Application Number Priority Date Filing Date Title
US13/124,043 US8898059B2 (en) 2008-10-13 2009-10-13 LPC residual signal encoding/decoding apparatus of modified discrete cosine transform (MDCT)-based unified voice/audio encoding device
US14/541,904 US9378749B2 (en) 2008-10-13 2014-11-14 LPC residual signal encoding/decoding apparatus of modified discrete cosine transform (MDCT)-based unified voice/audio encoding device
US15/194,174 US9728198B2 (en) 2008-10-13 2016-06-27 LPC residual signal encoding/decoding apparatus of modified discrete cosine transform (MDCT)-based unified voice/audio encoding device
US15/669,262 US10621998B2 (en) 2008-10-13 2017-08-04 LPC residual signal encoding/decoding apparatus of modified discrete cosine transform (MDCT)-based unified voice/audio encoding device
US16/846,272 US11430457B2 (en) 2008-10-13 2020-04-10 LPC residual signal encoding/decoding apparatus of modified discrete cosine transform (MDCT)-based unified voice/audio encoding device
US17/895,233 US11887612B2 (en) 2008-10-13 2022-08-25 LPC residual signal encoding/decoding apparatus of modified discrete cosine transform (MDCT)-based unified voice/audio encoding device
US18/529,830 US20240105194A1 (en) 2008-10-13 2023-12-05 Lpc residual signal encoding/decoding apparatus of modified discrete cosine transform (mdct)-based unified voice/audio encoding device

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
KR10-2008-0100170 2008-10-13
KR20080100170 2008-10-13
KR10-2008-0126994 2008-12-15
KR20080126994 2008-12-15
KR1020090096888A KR101649376B1 (ko) 2008-10-13 2009-10-12 Mdct 기반 음성/오디오 통합 부호화기의 lpc 잔차신호 부호화/복호화 장치
KR10-2009-0096888 2009-10-12

Related Child Applications (2)

Application Number Title Priority Date Filing Date
US13/124,043 A-371-Of-International US8898059B2 (en) 2008-10-13 2009-10-13 LPC residual signal encoding/decoding apparatus of modified discrete cosine transform (MDCT)-based unified voice/audio encoding device
US14/541,904 Continuation US9378749B2 (en) 2008-10-13 2014-11-14 LPC residual signal encoding/decoding apparatus of modified discrete cosine transform (MDCT)-based unified voice/audio encoding device

Publications (2)

Publication Number Publication Date
WO2010044593A2 true WO2010044593A2 (ko) 2010-04-22
WO2010044593A3 WO2010044593A3 (ko) 2010-06-17

Family

ID=42107043

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2009/005881 WO2010044593A2 (ko) 2008-10-13 2009-10-13 Mdct 기반 음성/오디오 통합 부호화기의 lpc 잔차신호 부호화/복호화 장치

Country Status (2)

Country Link
US (2) US11887612B2 (ko)
WO (1) WO2010044593A2 (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5819212A (en) * 1995-10-26 1998-10-06 Sony Corporation Voice encoding method and apparatus using modified discrete cosine transform
US20030004711A1 (en) * 2001-06-26 2003-01-02 Microsoft Corporation Method for coding speech and music signals

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR0154387B1 (ko) 1995-04-01 1998-11-16 김주용 음성다중 시스템을 적용한 디지탈 오디오 부호화기
US6134518A (en) 1997-03-04 2000-10-17 International Business Machines Corporation Digital audio signal coding using a CELP coder and a transform coder
AU2003208517A1 (en) 2003-03-11 2004-09-30 Nokia Corporation Switching between coding schemes
KR20070017379A (ko) 2004-05-17 2007-02-09 노키아 코포레이션 오디오 신호를 부호화하기 위한 부호화 모델들의 선택
CN101589623B (zh) 2006-12-12 2013-03-13 弗劳恩霍夫应用研究促进协会 对表示时域数据流的数据段进行编码和解码的编码器、解码器以及方法
CN101231850B (zh) 2007-01-23 2012-02-29 华为技术有限公司 编解码方法及装置
US8527265B2 (en) 2007-10-22 2013-09-03 Qualcomm Incorporated Low-complexity encoding/decoding of quantized MDCT spectrum in scalable speech and audio codecs
US8515767B2 (en) 2007-11-04 2013-08-20 Qualcomm Incorporated Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs
JP2011518345A (ja) 2008-03-14 2011-06-23 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション スピーチライク信号及びノンスピーチライク信号のマルチモードコーディング
MY152252A (en) 2008-07-11 2014-09-15 Fraunhofer Ges Forschung Apparatus and method for encoding/decoding an audio signal using an aliasing switch scheme
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
MX2011000369A (es) 2008-07-11 2011-07-29 Ten Forschung Ev Fraunhofer Codificador y decodificador de audio para codificar marcos de señales de audio muestreadas.
PL3002750T3 (pl) 2008-07-11 2018-06-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Koder i dekoder audio do kodowania i dekodowania próbek audio
ES2592416T3 (es) 2008-07-17 2016-11-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Esquema de codificación/decodificación de audio que tiene una derivación conmutable
WO2010032992A2 (ko) 2008-09-18 2010-03-25 한국전자통신연구원 Mdct기반의 코너와 이종의 코더간 변환에서의 인코딩 장치 및 디코딩 장치
KR101649376B1 (ko) 2008-10-13 2016-08-31 한국전자통신연구원 Mdct 기반 음성/오디오 통합 부호화기의 lpc 잔차신호 부호화/복호화 장치
EP2446539B1 (en) 2009-06-23 2018-04-11 Voiceage Corporation Forward time-domain aliasing cancellation with application in weighted or original signal domain

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5819212A (en) * 1995-10-26 1998-10-06 Sony Corporation Voice encoding method and apparatus using modified discrete cosine transform
US20030004711A1 (en) * 2001-06-26 2003-01-02 Microsoft Corporation Method for coding speech and music signals

Also Published As

Publication number Publication date
US11887612B2 (en) 2024-01-30
WO2010044593A3 (ko) 2010-06-17
US20220406320A1 (en) 2022-12-22
US20240105194A1 (en) 2024-03-28

Similar Documents

Publication Publication Date Title
KR102148492B1 (ko) Mdct 기반 음성/오디오 통합 부호화기의 lpc 잔차신호 부호화/복호화 장치
WO2010008176A1 (ko) 음성/음악 통합 신호의 부호화/복호화 장치
RU2492530C2 (ru) Устройство и способ кодирования/декодирования звукового сигнала посредством использования схемы переключения совмещения имен
WO2009110738A2 (ko) 오디오 신호 처리 방법 및 장치
WO2011049416A2 (en) Apparatus and method encoding/decoding with phase information and residual information
WO2009110751A2 (ko) 오디오 신호 처리 방법 및 장치
WO2010008175A2 (ko) 음성/오디오 통합 신호의 부호화/복호화 장치
WO2010008179A1 (ko) 음성/음악 통합 신호의 부호화/복호화 방법 및 장치
JP2010512550A (ja) 時間領域データストリームを表している符号化および復号化のための符号器、復号器およびその方法
CN102099856A (zh) 具有可切换旁路的音频编码/解码方案
KR20120074314A (ko) 신호 처리 방법 및 이의 장치
KR20190137745A (ko) Mdct기반의 코더와 이종의 코더 간 변환에서의 인코딩 장치 및 디코딩 장치
WO2010044593A2 (ko) Mdct 기반 음성/오디오 통합 부호화기의 lpc 잔차신호 부호화/복호화 장치
WO2010134759A2 (ko) Mdct-tcx 프레임과 celp 프레임 간 연동을 위한 윈도우 처리 장치 및 윈도우 처리 방법
WO2011010876A2 (ko) Mdct 프레임과 이종의 프레임 연결을 위한 윈도우 처리 방법 및 장치, 이를 이용한 부호화/복호화 장치 및 방법
WO2012177067A2 (ko) 오디오 신호 처리방법 및 장치와 이를 채용하는 단말기

Legal Events

Date Code Title Description
NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 13124043

Country of ref document: US

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09820743

Country of ref document: EP

Kind code of ref document: A2

122 Ep: pct application non-entry in european phase

Ref document number: 09820743

Country of ref document: EP

Kind code of ref document: A2