WO2011046329A2 - 천이 구간에 기초하여 윈도우의 오버랩 영역을 조절하는 통합 음성/오디오 부호화/복호화 장치 및 방법 - Google Patents

천이 구간에 기초하여 윈도우의 오버랩 영역을 조절하는 통합 음성/오디오 부호화/복호화 장치 및 방법 Download PDF

Info

Publication number
WO2011046329A2
WO2011046329A2 PCT/KR2010/006931 KR2010006931W WO2011046329A2 WO 2011046329 A2 WO2011046329 A2 WO 2011046329A2 KR 2010006931 W KR2010006931 W KR 2010006931W WO 2011046329 A2 WO2011046329 A2 WO 2011046329A2
Authority
WO
WIPO (PCT)
Prior art keywords
window
lpd
mode
sequence
input signal
Prior art date
Application number
PCT/KR2010/006931
Other languages
English (en)
French (fr)
Other versions
WO2011046329A3 (ko
Inventor
김민제
백승권
이태진
강경옥
서정일
김진웅
홍진우
박호종
박영철
Original Assignee
한국전자통신연구원
광운대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020100089038A external-priority patent/KR101137652B1/ko
Application filed by 한국전자통신연구원, 광운대학교 산학협력단 filed Critical 한국전자통신연구원
Priority to US13/502,025 priority Critical patent/US20120209600A1/en
Publication of WO2011046329A2 publication Critical patent/WO2011046329A2/ko
Publication of WO2011046329A3 publication Critical patent/WO2011046329A3/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching

Definitions

  • the present invention relates to a Unified Discrete Cosine Transform (MDCT) -based Integrated Voice / Audio Sub / Decoder (USAC).
  • MDCT Unified Discrete Cosine Transform
  • the MDCT-based Integrated Voice adjusts the length of an overlap region of a window according to a transition period in a window sequence.
  • Audio decoding / decoding apparatus and method are also known in the art.
  • a window sequence applied to an input signal may be differently applied according to a coding mode of a frame constituting the input signal.
  • a time-domain aliasing cancellation transform TDAC
  • a window must be applied by overlapping a current frame and a neighboring previous or subsequent frame.
  • the encoder may split an intra frame into subframes of an appropriate length in order to maximize coding gain.
  • the encoding gain of the audio or voice is increased when the super-frame of the time domain constituting the input signal is divided into sub-frames of longer length.
  • the window sequence is applied for each subframe.
  • a transition section occurs at a position adjacent to an intra-frame boundary, and a problem occurs due to the transition section when encoding by applying overlapping windows between frames.
  • the transition section is a section in which the property of the sound signal is suddenly changed and occurs for a short time. Due to the overlap of the window between the long frames, the signal of the transition section that occurs during the relatively short length of time cannot be represented efficiently, and thus a noise called pre-echo is generated.
  • the present invention provides a system and method that can reduce the pre-echo occurring in the transition period by adjusting the overlap region of the window in the section in which the transition section occurs when overlapping the window between the long frame to improve the coding efficiency to provide.
  • An integrated voice / audio encoder includes a transition section detection unit for detecting a first transition section from an input signal; A first encoder configured to detect a second transition period from a result of encoding and encoding the input signal; A transition section determination unit comparing the first transition section and the second transition section to determine a final transition section; A second encoder which core-codes the input signal by adjusting a length of an overlap region of the window according to the determined transition period; And a bitstream formatter for generating a bitstream including the core-coded input signal and the final transition period.
  • the first encoder may perform any one of spectral bandwidth extension coding or parametric stereo coding.
  • the transition section detection unit may detect the transition section at a position adjacent to a boundary of the super frame constituting the subframe constituting the input signal.
  • the second encoder may core-code by applying a window having an overlap region whose length is reduced by a transition period around the folding point.
  • the second encoder may core-code the input signal by applying a window that is modified according to the LPD mode of the previous subframe and the LPD mode of the next subframe to the current subframe to be encoded. have.
  • an integrated voice / audio encoder includes: a first encoder configured to detect a transition section from a result of encoding and encoding an input signal; A second encoder which core-codes the input signal by adjusting a length of an overlap region of a window according to the detected transition period; And a bitstream formatter for generating a bitstream including the core-coded input signal.
  • the first encoder may perform any one of spectral bandwidth extension coding or parametric stereo coding.
  • the second encoder may core-code by applying a window having an overlap region whose length is reduced by a transition period around the folding point.
  • the second encoder may encode an input signal by applying a window transformed according to the LPD mode of the previous subframe and the LPD mode of the next subframe to the current subframe to be encoded. .
  • An integrated voice / audio decoder includes: a bitstream parser for parsing the bitstream and extracting transition periods; And a decoder configured to core-decode the input signal by adjusting the length of the overlap region of the window according to the transition period.
  • the decoder may perform core decoding by applying a window having an overlapped region whose length is reduced by a transition period around the folding point.
  • the decoder may decode the input signal by applying a window modified according to the LPD mode of the previous subframe and the LPD mode of the next subframe to the current subframe to be decoded.
  • the transition section may be either a transition section derived from an input signal or a transition section derived according to an encoding result of the input signal.
  • a voice / audio integrated decoder includes: a bitstream parser for parsing an input signal from a bitstream; A first decoder to detect a transition section from a result of decoding and decoding the input signal; And a second decoder configured to core-decode the input signal by adjusting the length of the overlap region of the window according to the detected transition period.
  • the first decoder performs any one of spectral bandwidth extension decoding or parameter stereo decoding
  • the second decoder is an overlap region whose length is reduced by a transition period around the folding point.
  • the core can be decrypted by applying a window having.
  • the second decoder may decode the input signal by applying a window modified according to the LPD mode of the previous subframe and the LPD mode of the next subframe to the current subframe to be decoded.
  • Integrated voice / audio encoding method comprises the steps of detecting a first transition interval from the input signal; Detecting a second transition section from a result of encoding and encoding the input signal; Determining a final transition section by comparing the first transition section and the second transition section; Core encoding the input signal by adjusting a length of an overlap region of a window according to the determined transition period; And generating a bit stream including the core encoded input signal and the final transition period.
  • a voice / audio integrated encoding method comprising: detecting a transition section from a result of encoding and encoding an input signal; Core encoding the input signal by adjusting a length of an overlap region of a window according to the detected transition period; And generating a bit stream including the core encoded input signal.
  • An integrated voice / audio decoding method includes parsing a bitstream to extract a transition section; And core-decoding the input signal by adjusting the length of the overlap region of the window according to the transition period.
  • a voice / audio integrated decoding method includes parsing an input signal from a bitstream; Detecting a transition section from a result of decoding and decoding the input signal; And core-decoding the input signal by adjusting the length of the overlap region of the window according to the detected transition period.
  • the pre-echo occurring in the transition period may be reduced by adjusting the overlap region of the window in the transition period. It provides a system and method that can be.
  • 1 is a diagram illustrating an overall configuration of an encoder for performing speech / audio coding.
  • 2 is a view for explaining the MDCT-based TDAC.
  • FIG. 3 is a diagram illustrating a window sequence defined in a conventional RM.
  • FIG. 5 is a diagram illustrating a window sequence (CASE 2: LONG_STOP_SEQUENCE to LPD_START_SEQUENCE).
  • FIG. 6 is a diagram illustrating a window sequence (CASE 3: LPD_START_SEQUENCE to LPD_SEQUENCE) in mode switching from the FD mode to the LPD mode.
  • FIG. 7 illustrates a window sequence (CASE 4: LPD_SEQUENCE to LPD_SEQUENCE) and a window sequence (CASE 4: LPD_SEQUENCE to STOP_1152_SEQUENCE or STOP_START_1152_SEQUENCE) when switching from LPD mode to LPD mode. to be.
  • FIG. 8 is a diagram illustrating a window form of LPD_SEQUENCE for each type.
  • FIG. 11 illustrates LPD_SEQUENCE when the LPD mode is ⁇ 1,0,2,2 ⁇ .
  • FIG. 12 is a diagram illustrating LPD_SEQUENCE in which LPD mode is ⁇ 3,3,3,3 ⁇ when the LPD mode of the end subframe of the previous frame is ⁇ 0 ⁇ .
  • FIG. 13 is a diagram illustrating a method of processing a window sequence for a conventional CASE 3.
  • FIG. 14 is a diagram illustrating a method of processing a window sequence for CASE 3 according to an embodiment of the present invention (first example).
  • 15 is a diagram illustrating a method of processing a window sequence for CASE 3 according to an embodiment of the present invention (second example).
  • 16 is a diagram illustrating a method of processing a window sequence for CASE 3 according to an embodiment of the present invention (third example).
  • FIG. 17 is a diagram illustrating a window when lpd_mode of LPD_SEQUENCE for a current subframe is 3 and lpd_mode of LPD_SEQUENCE for a next subframe is 3 according to an embodiment of the present invention.
  • FIG. 18 is a diagram illustrating a window when lpd_mode of LPD_SEQUENCE for a current subframe is 2 and lpd_mode of LPD_SEQUENCE for a next subframe is 2 according to an embodiment of the present invention.
  • FIG. 19 illustrates a window when lpd_mode of LPD_SEQUENCE for a current subframe is 1 and lpd_mode of LPD_SEQUENCE for a next subframe is 1 according to an embodiment of the present invention.
  • 20 is a diagram illustrating a method of processing a window sequence for CASE 4 according to the related art.
  • 21 is a diagram illustrating a method of processing a window sequence for CASE 4 according to an embodiment of the present invention (first example).
  • FIG. 22 is a diagram illustrating a method of processing a window sequence for CASE 4 according to an embodiment of the present invention (second example).
  • FIG. 23 is a diagram showing a method of processing a window sequence for CASE 4 according to an embodiment of the present invention (third example).
  • FIG. 23 is a diagram showing a method of processing a window sequence for CASE 4 according to an embodiment of the present invention (third example).
  • FIG. 24 is a diagram illustrating STOP_1024_SEQUENCE reflecting the window sequence of FIG. 22 according to an embodiment of the present invention.
  • FIG. 25 is a diagram illustrating a result of applying the window sequence of FIGS. 16 and 24 according to an exemplary embodiment of the present invention.
  • FIG. 26 is a diagram illustrating a window form when converting from ACELP to FD according to an embodiment of the present invention.
  • FIG. 27 is a diagram illustrating a window sequence and an LPC extraction position according to an LPD mode of a current frame and an LPD mode of a next frame according to an embodiment of the present invention.
  • FIG. 33 is a diagram illustrating a window sequence according to an embodiment of the present invention when lpd_mode of the current subframe is 1 (TCX 256) and lpd_mode of the previous subframe is 0.
  • lpd_mode of the current subframe is 1 (TCX 256) and lpd_mode of the previous subframe is 0.
  • FIG. 34 is a diagram illustrating a window sequence according to an embodiment of the present invention when lpd_mode of a current subframe is 2 (TCX 512) and lpd_mode of a previous subframe is 0.
  • lpd_mode of a current subframe is 2 (TCX 512)
  • lpd_mode of a previous subframe is 0.
  • FIG. 35 is a diagram illustrating a window sequence according to an embodiment of the present invention when lpd_mode of the current subframe is 3 (TCX 1024) and lpd_mode of the previous subframe is 0.
  • lpd_mode of the current subframe is 3 (TCX 1024) and lpd_mode of the previous subframe is 0.
  • FIG. 36 is a diagram illustrating a result of combining the window sequences of FIGS. 33 to 35.
  • FIG. 37 is a diagram illustrating a window sequence during mode switching according to an embodiment of the present invention.
  • FIG. 38 is a view illustrating a modified result of LPD_START_SEQUENCE and STOP_1152_SEQUENCE of FIG. 3 according to an embodiment of the present invention.
  • 39 is a diagram illustrating a window sequence during mode switching according to a conventional method.
  • FIG. 40 is a diagram illustrating the entire configuration of a speech / audio integrated encoder for generating a bit stream including a transition period according to an embodiment of the present invention.
  • FIG. 41 is a diagram illustrating a process of adjusting an overlap region of a window when a transition section occurs at a boundary of a frame corresponding to TCX 80 according to one embodiment of the present invention.
  • FIG. 42 is a diagram illustrating a process of adjusting an overlap region of a window when a transition section occurs at a border of a frame corresponding to TCX 20 according to one embodiment of the present invention.
  • 43 is a diagram illustrating a process of adjusting according to a transition section when the length of the overlap region of the window is 256 according to an embodiment of the present invention.
  • 44 is a diagram illustrating a process of adjusting according to a transition section when the length of the overlap region of the window is 512 according to one embodiment of the present invention.
  • 45 is a diagram illustrating a process of adjusting according to a transition section when the length of an overlap region of a window is 1024 according to one embodiment of the present invention.
  • 46 is a diagram showing the overall configuration of a speech / audio integrated decoder using a bit stream including a transition period according to an embodiment of the present invention.
  • FIG. 47 is a diagram illustrating the overall configuration of a speech / audio integrated encoder using a transition section derived through encoding results according to another embodiment of the present invention.
  • FIG. 48 is a diagram illustrating the overall configuration of a speech / audio integrated decoder using a transition section derived through a decoding result according to another embodiment of the present invention.
  • FIG. 49 is a diagram illustrating an actual application example of FIG. 47.
  • FIG. 50 is a diagram illustrating an actual application example of FIG. 48.
  • FIG. 51 is a diagram illustrating a process of applying a transition interval derived through an SBR decoding process to a core band decoding process.
  • FIG. 52 illustrates a window sequence having an overlap area of the same window regardless of the LPD mode.
  • FIG. 53 is a view illustrating a window sequence having an overlap area of a window having a relatively long length compared to FIG. 52.
  • FIG. 54 is a diagram illustrating a result of applying a method of adjusting the length of an overlap region of a window according to a transition section to the window sequence of FIG. 53.
  • 1 is a diagram illustrating an overall configuration of an encoder for performing speech / audio coding.
  • the integrated voice / audio encoder shown in FIG. 1 may perform encoding methods differently according to characteristics of an input signal to maximize encoding performance and sound quality.
  • the speech / audio integrated coder may improve coding efficiency by encoding a signal similar to a speech among input signals according to a CELP method (Code Excitation Linear Prediction).
  • the speech / audio integrated coder may improve coding efficiency by encoding a signal similar to audio among input signals according to a transform scheme.
  • the MPEGS of FIG. 1 is used for coding a stereo signal and may perform One-To-Two (OTT) of MPEG Surround.
  • the eSBR may expand the bandwidth of the input signal by analyzing high frequency components.
  • Mode Switch-1 corresponds to a signal analyzer and may determine whether a current frame of the input signal is a voice signal or an audio signal.
  • the signal analyzer may determine whether the input signal is similar to speech or audio, and select an encoder according to the characteristics of the signal. It is assumed that the speech / audio integrated coder according to an embodiment of the present invention includes a signal analyzer that operates ideally.
  • Mode Switch-1 switches the current frame to 'AAC-MODE (Advanced Audio Coding MODE)', which is the FD mode (Frequency Domain Mode).
  • the current frame may be encoded according to the AAC-MODE.
  • AAC-MODE Advanced Audio Coding MODE
  • the input signal can be basically encoded according to the psychoacoustic acoustic model.
  • Blockswitching-1 may apply a window differently to the current frame according to the characteristics of the input signal. In this case, the window shape may be determined according to the coding mode of the previous frame or the next frame.
  • the filter bank may perform T / F (Time to Frequency) conversion on the current frame to which the window is applied.
  • T / F Time to Frequency
  • the filter bank may basically perform Modified Discrete Cosine Transform (MDCT) to perform encoding.
  • MDCT Modified Discrete Cosine Transform
  • Mode Switch-1 switches the current frame to 'LPD-MODE (Linear Prediction Domain Mode)', and the current frame of the input signal is LPC (Linear Prediction Coding).
  • Block Switching-2 may apply a window according to the LPD mode for each subframe.
  • the current frame of the input signal may consist of four sub-frames in the LPD mode.
  • the current frame of the input signal may be defined as a super frame.
  • the window sequence defined in the present invention may be defined as a combination of at least one window applied to a subframe constituting the super frame.
  • the lpd_mode of the super frame when the super frame is processed as one subframe, the lpd_mode of the super frame may be determined to be ⁇ 3,3,3,3 ⁇ . In this case, the window sequence consists of one window.
  • the lpd_mode of the super frame When the super frame is processed into two subframes, the lpd_mode of the super frame may be determined to be ⁇ 2,2,2,2 ⁇ . In this case, the window sequence consists of two windows.
  • the lpd_mode of the super frame when the super frame is processed into four subframes, the lpd_mode of the super frame may be determined to be ⁇ 1,1,1,1 ⁇ . In this case, the window sequence consists of four windows.
  • ACELP Algebraic code excited linear prediction
  • T / F conversion and window are not applied. That is, the encoding according to the LPC-based LPD mode may be performed through a ACELP block based on time domain coding and a Transform Code eXcitation (TCX) block based on a filter bank.
  • the filter bank method includes an MDCT and a Discrete Fourier Transform (DFT) method.
  • the present invention uses MDCT-based TCX. The present invention is described in a method of processing a window sequence in Block Switching-1 and Block Swithching-2.
  • 2 is a view for explaining the MDCT-based TDAC.
  • MDCT Modified Discrete Cosine Transform
  • TDAC transform Time-Domain Aliasing Cancellation transform
  • MDCT is performed after window processing of an input signal.
  • MDCT performance causes aliasing in the time domain.
  • R k represents the right part of the window applied to the input signal.
  • the window may be folded based on R k / 2 so that time-domain aliasing (TDA) may occur. Thereafter, if IMDCT is performed on the input signal, the window may be unfolded with R k , but the unfolded window after the TDA occurs has a different form from the original window.
  • TDA time-domain aliasing
  • the original TDA is removed.
  • An input signal can be extracted.
  • This process is an overlap add method to remove aliasing in the TDA condition.
  • the point at which the window to which the window is applied is overlapped is the folding point. At this time, the folding position is R k / 2.
  • FIG. 3 is a diagram illustrating a window sequence defined in a conventional RM.
  • FIG. 3 illustrates a window applicable to Block switching-1 of FIG. 1.
  • the window sequence is shown assuming a triangular window. If the length N of the current frame is set to 2048, the dotted line indicates 128. However, in the case of STOP_START_1152_SEQUENCE, the length of the current frame is set to 2304.
  • FIG. 4 is a diagram illustrating a window sequence (CASE 1: ONLY_LONG_SEQUENCE to LPD_START_SEQUENCE).
  • LPD_START_SEQENCE 404 may appear after ONLY_LONG_SEQUENCE 401, and LPD_SEQUENCE appears after LPD_START_SEQENCE 405. LPD_SEQUENCE may appear in region 405.
  • LPD_SEQUENCE means a window sequence to which the LPD mode is applied.
  • the area between the line 402 and the line 403 means an area where two neighboring window sequences are overlap-added when the decoder restores an input signal.
  • FIG. 5 is a diagram illustrating a window sequence (CASE 2: LONG_STOP_SEQUENCE to LPD_START_SEQUENCE).
  • LPD_START_SEQUENCE 504 appears after LONG_STOP_SEQUENCE 501, and LPD_SEQUENCE appears after LPD_START_SEQUENCE 504. LPD_SEQUENCE may appear in region 505.
  • LPD_SEQUENCE means a window sequence generated in LPD mode.
  • the area between the line 502 and the line 503 means an area where two neighboring windows overlap with each other when the decoder restores an input signal.
  • FIG. 6 is a diagram illustrating a window sequence (CASE 3: LPD_START_SEQUENCE to LPD_SEQUENCE) in mode switching from the FD mode to the LPD mode.
  • LPD_SEQUENCE appears after LPD_START_SEQUENCE (601).
  • LPD_START_SEQUENCE (601) refers to the last window sequence to which AAC MODE is applied when switching from Mode Switch-1 to 'LPC MODE', which is the FD mode, from 'AAC MODE'.
  • LPD_SEQUENCE may appear in region 604.
  • LPD_SEQUENCE means a window sequence to which the LPD mode is applied.
  • the area between the line 602 and the line 603 means an area where two neighboring window sequences are overlap-added when the decoder restores an input signal.
  • the interval of the area where the window sequence is overlap-added is 64-point.
  • FIG. 7 illustrates a window sequence (CASE 4: LPD_SEQUENCE to LPD_SEQUENCE) and a window sequence (CASE 4: LPD_SEQUENCE to STOP_1152_SEQUENCE or STOP_START_1152_SEQUENCE) when switching from LPD mode to LPD mode. to be.
  • LPD_SEQUENCE to which the LPD mode is applied appears in the area 701
  • the area where the LPD_SEQUENCE and the LPD_SEQUENCE are overlapped (added) is an area between the line 702 and the line 703, and the interval of the area that is overlapped (added) is 128-point.
  • the LPD_SEQUENCE to which the LPD mode is applied may appear in the region 701, and the STOP_1152_SEQUENCE 705 to which the AAC mode is applied may appear. Also, the LPD_SEQUENCE to which the LPD mode is applied may appear in the region 701, and the STOP_START_1152_SEQUENCE 706 to which the AAC mode is applied may appear.
  • a method for processing a window sequence in CASE 3 and CASE 4 and a method for processing LPD_SEQUENCE are proposed.
  • CASE 3 is changed from the FD mode to the LPD mode, and is described with reference to FIGS. 13 to 16, and CASE 4 is changed from the LPD mode to the FD mode and is described with reference to FIGS. 20 to 24.
  • LPD_SEQUENCE is described in Figures 8-12.
  • CASE 3 and CASE 4 illustrate a method of processing a window sequence in mode switching between an FD mode and an LPD mode, and Block Switching-1 of FIG. 1 processes the window sequence.
  • LPD_SEQUENCE indicates a method of processing a window sequence when switching modes between LPD modes, and Blockswitching-2 of FIG. 1 processes the window sequence.
  • the voice / audio integrated coder includes a mode switching unit for switching between LPD modes for subframes constituting a frame of an input signal; And an encoder that encodes an input signal by applying a window based on the switched LPD mode to the current subframe to be encoded among the subframes.
  • the mode switching unit corresponds to Mode switch-2 of FIG. 1
  • the encoding unit corresponds to Block Switching-2 of FIG. 1.
  • the encoder may encode the input signal by applying a window that is transformed according to the LPD mode of the previous subframe and the LPD mode of the next subframe to the current subframe.
  • the encoder may perform overlap add-to-frame with respect to the folding point existing at the boundary of the subframe.
  • the encoder of the audio / audio integrated coder overlaps the previous subframe or the next subframe.
  • the encoding may be performed using a window applied to the current subframe having an overlapped area of 256.
  • the encoder of the audio / audio integrated coder USAC overlaps the previous subframe or the next subframe.
  • the encoding may be performed using a window applied to the current subframe having an overlapped area of 512.
  • the encoder of the audio / audio integrated coder USAC overlaps the previous subframe or the next subframe.
  • the encoding may be performed by using a window applied to the current subframe having an overlapping area of 1024.
  • the encoder may process the left portion of the window applied to the current subframe in a rectangular form having a value of 1.
  • the encoder may process a right portion of the window applied to the current subframe in a rectangular form having a value of 1.
  • the encoder may perform overlap add between subframes with respect to the folding point existing at the boundary of the subframe.
  • the voice / audio integrated coder includes: a mode switching unit for switching from the FD mode to the LPD mode for a frame of the input signal; And an encoding unit which overlaps and encodes the window sequence in the FD mode and the window sequence in the LPD mode based on the folding point.
  • the FD mode may be an AAC mode.
  • the encoder may replace the window corresponding to the start subframe with a window whose LPD mode corresponds to 1.
  • the encoder may shift the window sequence of the LPD mode to overlap the window sequence of the FD mode with respect to the folding point.
  • the encoder may modify the window sequence of the FD mode according to the window sequence of the LPD mode.
  • the encoder performs overlap add between window sequences centering on folding points positioned at the boundary of subframes constituting the frame of the input signal, sets the folding point as a starting point, and linear prediction coefficients according to subframe units. ) Can be extracted.
  • the voice / audio integrated coder includes a mode switching unit for switching from the LPD mode to the FD mode for a frame of the input signal; And an encoding unit configured to overlap-add and encode the window sequence of the FD mode and the window sequence of the LPD mode based on a folding point.
  • the encoder may modify the window sequence form of the FD mode according to the LPD mode.
  • the encoder may overlap the window sequence of the LPD mode and the window sequence of the FD mode by 256 points.
  • the window corresponding to the ending subframe may be replaced with a window corresponding to the LPD mode 1.
  • the integrated speech / audio decoder (USAC) is similar to the speech / audio integrated coder described above regarding mode switching between LPD modes, mode switching from FD mode to LPD mode, or mode switching from LPD mode to FD mode.
  • Can handle window sequences Hereinafter, a window sequence processed by the speech / audio integrated coder USAC and the integrated speech / audio decoder USAC according to the present invention will be described in detail.
  • FIG. 8 is a diagram illustrating a window form of LPD_SEQUENCE for each type.
  • LPD_SEQUENCE shown in FIG. 8 may be defined according to Table 1 below.
  • Table 1 defines the window type of LPD_SEQUENCE for the current subframe that is changed according to lpd_mode (last_lpd_mode) of the previous subframe.
  • ZL is the length of the section corresponding to the zero block inserted in the left side of the window in LPD_SEQUENCE
  • ZR means the length of the section corresponding to the zero block inserted in the right side of the window in LPD_SEQUENCE.
  • M represents the length of the section of the window having a value of 1 in LPD_SEQUENCE.
  • L and R respectively mean the length of the overlap-add section with the neighboring window on the left and right with respect to the center point of the window in LPD_SEQUENCE, respectively.
  • 1024 or 1152 spectral coefficients can occur.
  • the LPD_SEQUENCE of the current subframe indicates the type 6 window of FIG. 8 regardless of the lpd_mode of the previous subframe.
  • a total of 26 combinations that can be generated with LPD_SEQUENCE for one super-frame are provided. 9-12 illustrate some of the 26 LPD_SEQUENCEs that can be generated.
  • FIG. 9 (a) shows the LPD_SEQUENCE when the lpd_mode of each subframe is all 1 in the super-frame.
  • the LPD_SEQUNECE of FIG. 9A may be configured with four windows 901 corresponding to type 3 of FIG. 8.
  • the lpd_mode of the LPD_SEQUENCE in FIG. 9A is ⁇ 1,1,1,1 ⁇ .
  • FIG. 9B illustrates LPD_SEQUENCE when the lpd_mode of each subframe is all 2 in the super-frame.
  • LPD_SEQUNECE of FIG. 9B may include two windows 902 corresponding to type 4 of FIG. 8.
  • the lpd_mode of the LPD_SEQUENCE of FIG. 9B is ⁇ 2,2,2,2 ⁇ .
  • FIG. 9 (c) shows the LPD_SEQUENCE when the lpd_mode of each subframe is all 3 in the super-frame.
  • the LPD_SEQUNECE of FIG. 9C may include one window 903 corresponding to type 5 of FIG. 8.
  • the lpd_mode of the LPD_SEQUENCE of FIG. 9C is ⁇ 3,3,3,3 ⁇ .
  • FIG. 11 illustrates LPD_SEQUENCE when the LPD mode is ⁇ 1,0,2,2 ⁇ .
  • FIG. 12 is a diagram illustrating LPD_SEQUENCE in which LPD mode is ⁇ 3,3,3,3 ⁇ when the LPD mode of the end subframe of the previous frame is ⁇ 0 ⁇ .
  • FIG. 13 is a diagram illustrating a method of processing a window sequence for a conventional CASE 3.
  • CASE 3 illustrates a case in which a window sequence is processed from LPD_START_SEQUENCE 1301 to LPD_SEQUENCE 1302 to 1305.
  • LPD_START_SEQUENCE (1301) refers to the window sequence last applied in the AAC MODE when the mode switch occurs in Mode Switch-1 from the FD mode 'AAC MODE' to LPD mode 'LPC MODE'.
  • the LPD_SEQUENCE 1302 to 1305 may be modified with a dotted line and then overlapped with the LPD_START_SEQUENCE 1301 around the ⁇ folding point in the region 1306 of 64-point.
  • FIG. 14 is a diagram illustrating a method of processing a window sequence for CASE 3 according to an embodiment of the present invention (first example).
  • the LPD_START_SEQUENCE 1401 is overlap-added in the region 1406 with the LPD_SEQUENCE 1402-1405 without considering the TDAC. Accordingly, each of the LPD_SEQUENCE 1402 to 1405 is modified by a dotted line and then overlap-added around the folding point in the LPD_START_SEQUENCE 1401 and the region 1406. At this time, the interval of the area 1406 represents 64-point.
  • the folding point refers to a position where a TDA occurs and a window is folded after MDCT and IMDCT are performed. That is, according to the embodiment of the present invention, even though MDCT and IMDCT are performed, the right window of the LPD_START_SEQUENCE 1401 does not generate TDA, and is overlapped with the neighboring frame and then overlap-added.
  • 15 is a diagram illustrating a method of processing a window sequence for CASE 3 according to an embodiment of the present invention (second example).
  • the LPD_SEQUENCEs 1502 to 1505 illustrated in FIG. 15 are shifted by 128 points to the right of the LPD_SEQUENCEs 1402 to 1405 illustrated in FIG. 14. That is, unlike LPD_SEQUENCE 1402-1405, the LPD_SEQUENCE 1502-1505 illustrated in FIG. 15 can be overlap-added around the LPD_START_SEQUENCE 1501 and the folding point. In addition, the interval of the overlapped-added region 1506 is 128-point, and the interval increases by 64-point from the region 1406.
  • the LPD_SEQUENCE (1502-1505) shown in FIG. 15 is shifted by 64 points to the right than the LPD_SEQUENCE (1302-1305) shown in FIG. In this case, when the lpd_mode of the LPD_SEQUENCE 1505 is ⁇ 0,0,0,0 ⁇ , the lpd_mode of the start subframe of the LPD_SEQUENCE 1505 may be changed to 1.
  • LPD_START_SEQUENCE 1501
  • LPD_SEQUENCE 1502-1505
  • the aliasing generated in the time domain may be removed by overlap-adding the LPD_START_SEQUENCE 1501 and the region 1506 around the TDA folding point.
  • the LPD_SEQUENCE 1502 to 1505 of FIG. 15 may be shifted to the right by 64 points from the LPD_SEQUENCE 1302 to 1305 of FIG. 13 to be overlap-added.
  • the LPD_SEQUENCEs 1502 to 1505 of FIG. 15 may be shifted to the right by 128 points from the LPD_SEQUENCEs 1402 to 1405 of FIG. 14 to be overlap-added. That is, the method of applying the window sequence of FIG. 15 is 64 point compared to the method of applying the window sequence of FIG. 13 whenever Mode Switch-1 of FIG. 1 switches from the FP mode to the LPD mode, and FIG. 14. Compared to the method of applying the window sequence of, the coding gain improved by 128 points can be obtained.
  • the window sequence processing method according to an embodiment of the present invention for CASE 3 is as follows.
  • the window sequence LPD_START_SEQUENCE of the FD mode and the window sequence LPD_SEQUENCE of the LPD Mode may be overlap-added around the MDCT folding point.
  • 16 is a diagram illustrating a method of processing a window sequence for CASE 3 according to an embodiment of the present invention (third example).
  • FIG. 16 shows that a window of an area overlapped with LPD_SEQUENCE in LPD_START_SEQUENCE is deformed according to lpd_mode of LPD_SEQUENCE of the next frame. That is, the right window of LPD_START_SEQUENCE may be modified according to lpd_mode of LPD_SEQUENCE.
  • the LPD_START_SEQUENCE of FIG. 16 shows the same form as the LPD_START_SEQUENCE 1501.
  • LPD_START_SEQUENCE LPD_SEQUENCE corresponding to the current frame
  • the right window of LPD_START_SEQUENCE corresponding to the current frame may be transformed to line 1604.
  • LPD_START_SEQUENCE LPD_SEQUENCE corresponding to the next frame
  • the right window of LPD_START_SEQUENCE corresponding to the current frame may be transformed into a line 1603.
  • LPD_START_SEQUENCE and LPD_SEQUENCE may be overlap-added by 512 points.
  • the right window of LPD_START_SEQUENCE corresponding to the current frame may be transformed into a line 1602.
  • LPD_START_SEQUENCE and LPD_SEQUENCE may be overlap-added by 1024 points.
  • LPD_START_SEQUENCE LPD_SEQUENCE corresponding to the next frame
  • lpd_mode of the start subframe of LPD_SEQUENCE may be replaced with 1.
  • LPD_START_SEQUENCE and LPD_SEQUENCE may be overlap-added by 512 points.
  • FIG. 17 is a diagram illustrating a window when lpd_mode of LPD_SEQUENCE for a current subframe is 3 and lpd_mode of LPD_SEQUENCE for a next subframe is 3 according to an embodiment of the present invention.
  • FIG. 18 is a diagram illustrating a window when lpd_mode of LPD_SEQUENCE for a current subframe is 2 and lpd_mode of LPD_SEQUENCE for a next subframe is 2 according to an embodiment of the present invention.
  • FIG. 19 illustrates a window when lpd_mode of LPD_SEQUENCE for a current subframe is 1 and lpd_mode of LPD_SEQUENCE for a next subframe is 1 according to an embodiment of the present invention.
  • 20 is a diagram illustrating a method of processing a window sequence for CASE 4 according to the related art.
  • the LPD_SEQUENCE 2101 to 2104 overlap the window sequence 2005 and the region 2006 of the AAC mode, which is the FD mode, for the section in which the TDA has not occurred, and the artificial TDA is LPD_SEQUENCE (2101 to 2104).
  • LPD_SEQUENCE (2101-2104) can be added to the window sequence (2005).
  • 21 is a diagram illustrating a method of processing a window sequence for CASE 4 according to an embodiment of the present invention (first example).
  • FIG. 21 illustrates a window sequence processed by Block switching-1 when Mode Switch-1 of FIG. 1 switches mode from LPD MODE to FD MODE as in CASE 4.
  • Block_switching-1 overlaps the LPD_SEQUENCE corresponding to the LPD MODE 2101 to 2103 and the window sequence 2104 corresponding to the FD MODE around the folding point in the area 2106 where the TDA occurs. You can cancel the aliasing by running (overlap-add).
  • FIG. 22 is a diagram illustrating a method of processing a window sequence for CASE 4 according to an embodiment of the present invention (second example).
  • the left window of STOP_1024_SEQUENCE corresponding to the current frame is modified according to lpd_mode of LPD_SEQUENCE of the previous frame.
  • lpd_mode ⁇ 3,3,3,3 ⁇ of LPD_SEQUENCE of the previous frame
  • the left window of STOP_1024_SEQUENCE corresponding to the current frame is transformed into line 2207.
  • lpd_mode ⁇ 2,2,2,2 ⁇ of the LPD_SEQUENCE of the previous frame
  • the left window of the STOP_1024_SEQUENCE corresponding to the current frame is transformed into a line 2208.
  • the right window of LPD_SEQUENCE is also modified in correspondence with the deformation of the left window of STOP_1024_SEQUENCE. That is, when the left window of STOP_1024_SEQUENCE is transformed into line 2207, the right window of LPD_SEQUENCE is transformed from line 2201 to line 2202. Also, when the left window of STOP_1024_SEQUENCE is transformed into line 2208, the right window of LPD_SEQUENCE is transformed from line 2203 to line 2204. And, if the left window of STOP_1024_SEQUENCE is transformed into line 2209, the right window of LPD_SEQUENCE is transformed from line 2205 to line 2206.
  • the modified LPD_SEQUENCE and the modified STOP_1024_LPD_SEQUENCE may be overlap-added around the folding point.
  • FIG. 23 is a diagram showing a method of processing a window sequence for CASE 4 according to an embodiment of the present invention (third example).
  • FIG. 23 is a diagram showing a method of processing a window sequence for CASE 4 according to an embodiment of the present invention (third example).
  • the window sequence corresponding to the FD MODE is STOP_1024_SEQUENCE 2305.
  • the right window of LPD_SEQUENCE 2301 to 2304 is transformed into lines 2307 to 2310.
  • Mode Switching-1 of FIG. 1 performs overlap add between LPD_SEQUENCE 2301-2304 and STOP_1024_SEQUENCE 2305 in the area 2306 of 256 points.
  • the LPD_SEQUENCE 2301-2304 and the STOP_1024_SEQUENCE 2305 are overlap-added around the folding point.
  • the block size for processing the STOP_1024_SEQUENCE 2305 corresponding to the FD mode is 2048 instead of 2304.
  • the window sequence of the FD mode connected to the LPD_SEQUENCE may be changed so that the block size may perform 2048-MDCT. Accordingly, as shown in FIG. 20, the window sequence of the FD mode connected to the LPD SEQUENCE does not need to perform 2304-MDCT.
  • the window sequence of the FD mode having a block size of 2304 size such as 'STOP_1152_SEQUENCE' and 'STOP_START_WINDOW_1152' shown in FIG. Do not. Therefore, a window sequence having a different block size is not required for mode switching, so that coding efficiency can be improved.
  • the window sequence processing method according to an embodiment of the present invention for CASE 4 is as follows.
  • the window sequence of the FD mode and the window sequence LPD_SEQUENCE of the LPD mode may be overlap-added around the MDCT folding point.
  • the window sequence of the FD mode connected to the LPD_SQUENCE may be modified according to the lpd_mode of the last window of the LPD_SEQUENCE.
  • the decoder may obtain an output signal from which aliasing is removed by applying the window sequence applied by the encoder to overlap-add in the same manner.
  • FIG. 24 is a diagram illustrating STOP_1024_SEQUENCE reflecting the window sequence of FIG. 22 according to an embodiment of the present invention.
  • the left window of the window sequence of the AAC mode of the previous frame is transformed into lines 2401 to 2403 according to the LPD mode.
  • Line 2404 refers to the case of window sequence 2105 in AAC mode.
  • the window sequence of FIG. 24 is defined as 'STOP_1024_SEQUENCE'.
  • the window sequence defined in the RM of FIG. 3 has a block size of 2304 (MDCT coefficient is 1152)
  • the window sequence of FIG. 3 is defined as 'STOP_1152_SEQUENCE'.
  • FIG. 25 is a diagram illustrating a result of applying the window sequence of FIGS. 16 and 24 according to an exemplary embodiment of the present invention.
  • LPD_START_SEQUENCE, LPD_SEQUENCE, and STOP_1024_SEQUENCE are shown according to an embodiment of the present invention. That is, the window sequence illustrated in FIG. 25 refers to a window sequence processed when the mode is switched from Mode Switch-1 to FD MODE-> LPD MODE-> FD MODE.
  • the right window of LPD_START_SEQUENCE and the left window of STOP_1024_SEQUENCE are modified according to LPD_SEQUENCE.
  • intervals of overlap-added regions for LPD_START_SEQUENCE and STOP_1024_SEQUENCE are changed according to LPD_SEQUENCE.
  • FIG. 26 is a diagram illustrating a window form when converting from ACELP to FD according to an embodiment of the present invention.
  • LPD_SEQUENCE corresponding to the previous frame that is, if the ending subframe of the previous frame is ACELP
  • the window of the ending subframe of LPD_SEQUENCE is shown in FIG. Is transformed into line 2602.
  • LPD_SEQUENCE corresponding to the previous frame shown in FIG. 26 and the window sequence of the current frame are overlap-added and then cross-folded.
  • FIG. 27 is a diagram illustrating a window sequence and an LPC extraction position according to an LPD mode of a current frame and an LPD mode of a next frame according to an embodiment of the present invention.
  • the right window of the LPD_SEQUENCE of the current frame is transformed according to the lpd_mode of the LPD_SEQUENCE (2702 to 2704) of the next frame.
  • lpd_mode- ⁇ 3,3,3,3 ⁇ of LPD_SEQUENCE of the current frame is transformed according to the lpd_mode of the LPD_SEQUENCE (2702 to 2704) of the next frame.
  • the LPD_SEQUENCE of the current frame may be modified according to the lpd_mode of the LPD_SEQUENCE of the next frame. Then, the LPD_SEQUENCE modified in the current frame may overlap-add with the LPD_SEQUENCE of the next frame.
  • a linear prediction coefficient is extracted in units of 256 points of subframes.
  • the folding point overlap-added between the window sequences is located at the boundary of the subframe.
  • the LPC may also be extracted in units of 256 points by setting the folding point as a starting point.
  • the LPC extraction position for LPD_SEQUENCE of the current frame corresponds to subframes 2707 to 2703. That is, according to an embodiment of the present invention, the LPC may be extracted by matching the boundary of the subframe with the folding point as a starting point.
  • the LPC (n) 2707 and the LPC (n + 3) 2710 may extract the LPC to the remaining region of the entire frame in addition to the corresponding subframe.
  • Figure 28 (a) shows the conventional LPC extraction position
  • Figure 28 (b) shows the LPC extraction position according to an embodiment of the present invention.
  • the LPC is extracted at the LPC extraction positions 2803 to 2806, which are 64-points apart from the boundary of the subframe, regardless of the folding point.
  • the overlap-added area between windows is 128-point.
  • the LPC is extracted at the LPC extraction positions 2803 to 2806 corresponding to the subframe, with the folding point located at the boundary of the subframe as the starting point.
  • the overlap-added region between windows is 256-point.
  • no additional 64-point information is required for LPC extraction.
  • the window 2901 corresponding to the first subframe and the window 2902 corresponding to the second subframe do not overlap each other.
  • the right side of the window 2902 is determined according to the lpd_mode of the window 2907 corresponding to the third subframe.
  • the window 3002 corresponding to the current subframe is displayed.
  • the right side may be modified according to lpd_mode of the next subframe.
  • the left side of the window 3002 becomes a right angle so as not to overlap with the window 3001 corresponding to the previous subframe.
  • lpd_mode ⁇ 3,3,3,3 ⁇ of the window 3101 corresponding to the current frame.
  • the right side of the window 3101 may be modified according to lpd_mode for the window of the next frame.
  • the window corresponding to the current frame represents the form of the window 3002 of FIG. 30.
  • the right side of the window 3002 can be seen that the shape is changed according to the lpd_mode of the next window.
  • the window corresponding to the current frame may be modified to match the lpd_mode of the next frame.
  • the right side of the window corresponding to the current frame in FIG. 32 is a line 3201.
  • the right side of the window corresponding to the current frame in FIG. 32 is the line 3204.
  • the window corresponding to the current frame indicates the form of the window 3101 of FIG. 31.
  • the right side of the window 3101 can be seen that the shape is changed according to the lpd_mode of the next frame.
  • the window corresponding to the current frame illustrated in FIG. 32 may be changed according to the lpd_mode of the previous frame and the right may be changed according to the lpd_mode of the next frame with respect to the center line.
  • FIG. 33 is a diagram illustrating a window sequence according to an embodiment of the present invention when lpd_mode of the current subframe is 1 (TCX 256) and lpd_mode of the previous subframe is 0.
  • lpd_mode of the current subframe is 1 (TCX 256) and lpd_mode of the previous subframe is 0.
  • the window for the current frame may be changed only in shape.
  • lpd_mode 1 (TCX256) of the current frame and the previous frame is in ACELP mode
  • the left side of the window 3301 corresponding to the current frame may be at right angles.
  • the right side of the window 3301 corresponding to the current frame may be modified according to lpd_mode (TCX256, TCX512, TCX1024) of the next frame.
  • FIG. 34 is a diagram illustrating a window sequence according to an embodiment of the present invention when lpd_mode of a current subframe is 2 (TCX 512) and lpd_mode of a previous subframe is 0.
  • lpd_mode of a current subframe is 2 (TCX 512)
  • lpd_mode of a previous subframe is 0.
  • the window for the current frame may be changed only in shape.
  • lpd_mode 2 (TCX512) of the current frame and the previous frame is the ACELP mode
  • the left side of the window 3401 corresponding to the current frame may be at right angles.
  • the right side of the window 3401 corresponding to the current frame may be modified according to lpd_mode (TCX512 and TCX1024) of the next frame.
  • FIG. 35 is a diagram illustrating a window sequence according to an embodiment of the present invention when lpd_mode of the current subframe is 3 (TCX 1024) and lpd_mode of the previous subframe is 0.
  • lpd_mode of the current subframe is 3 (TCX 1024) and lpd_mode of the previous subframe is 0.
  • the window for the current frame may be changed only in shape.
  • lpd_mode 3 (TCX1024) of the current frame and the previous frame is the ACELP mode
  • the left side of the window 3501 corresponding to the current frame may be at right angles.
  • the right side of the window 3501 corresponding to the current frame may be modified according to lpd_mode (TCX256, TCX512, TCX1024) of the next frame.
  • FIG. 36 is a diagram illustrating a result of combining the window sequences of FIGS. 33 to 35.
  • FIG. 36A illustrates a case where lpd_mode of the current frame is 1
  • FIG. 36B illustrates a case where lpd_mode of the current frame is 2
  • FIG. 36C illustrates a case where lpd_mode of 3 of the current frame.
  • 36 illustrates a case in which the left side of the window corresponding to the current frame is determined according to the lpd_mode of the previous frame and a case in which the right side of the window corresponding to the current frame is determined according to the lpd_mode of the next frame.
  • FIG. 37 is a diagram illustrating a window sequence during mode switching according to an embodiment of the present invention.
  • Mode Switch-1 of FIG. 1 may switch a mode from (a) FD to FD, (b) LPD to FD, and (c) FD to LPD according to the frame of the input signal.
  • Mode Switch-2 of FIG. 2 may perform mode switching between the LPD mode and the LPD mode according to the subframe of the input signal. In this case, when the LPD mode is 0, the LPD mode is ACELP, and when the LPD mode is not 0, the LPD mode may be wLPT or TCX.
  • FIG. 37 illustrates a window sequence processed by Block-Switching-1 and Block Switching-2 when mode switching occurs in Mode Switch-1 and Mode Switch-2. According to FIG. 37, it can be seen that the folding point is located at the boundary of the subframe, and the size of the frame is 1024. In the case of FIG. 37, in order to briefly summarize the principles of the present invention, only 128-points of intervals of overlap-added areas between windows are represented.
  • FIG. 38 is a view illustrating a modified result of LPD_START_SEQUENCE and STOP_1152_SEQUENCE of FIG. 3 according to an embodiment of the present invention.
  • FIG. 38A illustrates a modified form of the LPD_START_SEQUENCE of FIG. 3, and the MDCT transform size is 1024.
  • LPD_START_SEQUENCE is the same as Fig. 16, and the right side of LPD_START_SEQUENCE is transformed into lines 3802 through 3804 according to the lpd_mode of LPD_SEQUENCE shown next.
  • Line 3801 indicates that an interval of an overlap-added region with LPD_SEQUENCE is 128 points, which is the same as the window sequence in the case of FD to wLPT (or TCX) of FIG. 37.
  • FIG. 38 (b) shows a modified version of STOP_1024_SEQUENCE of FIG. 3, and the MDCT transform size is 1024.
  • the window sequence is also defined as "STOP_1152_SEQUENCE”.
  • STOP_1024_SEQUENCE is the same as that of FIG. 24, and the right side of LPD_START_SEQUENCE is transformed into lines 3805 to 3807 according to the lpd_mode of LPD_SEQUENCE shown next.
  • Line 3808 indicates that the interval of the overlap-added region with LPD_SEQUENCE is 128 points, which is the same as the window sequence in the case of wLPT (or TCX) or FD in FIG. 37.
  • 39 is a diagram illustrating a window sequence during mode switching according to a conventional method.
  • the window size of the FD mode is 2304 (coding coefficient 1152), which indicates that the coding efficiency is lowered by 64 points than the window size 2048 (coding coefficient 1024) proposed by the present invention. .
  • the present invention improves coding efficiency by adjusting an overlap region between window sequences applied when a mode of an input signal is changed in an MDCT-based speech / audio integrated coder (USAC) and at the same time, a transition section occurs in an overlap region of a window.
  • ABSC MDCT-based speech / audio integrated coder
  • a problem may occur when the speech / audio integrated encoder encodes a signal in two stages.
  • the speech / audio integrated coder may encode a signal through two stages, intra-frame analysis and frames after windowing.
  • the speech / audio integrated coder may divide a super frame into subframes having an appropriate length in order to maximize coding gain. Then, in frames after windowing, the voice / audio integrated coder may apply a window sequence predefined for each subframe.
  • the transition period is caused by a change in the properties of each frame in the sound signal and occurs for a very short time period.
  • the gain of encoding is improved when a superframe is divided into longer subframes, but when the frame overlaps a window between subframes in frames after windowing, a pre-echo due to a transition period is performed. Noise may occur.
  • the speech / audio integrated coder may split the superframe into shorter subframes in intra frame analysis.
  • the window sequence described in the present invention utilizes a converting technique between long frames and short frames in an AAC-based audio coding scheme.
  • the window sequence described in the present invention can cope with the transition period, when a window having a long length of the overlap region is applied to increase the coding efficiency, not only the coding gain in the transition period is reduced, but also there is a noise problem in the transition period. do. Accordingly, the speech / audio integrated coder of the present invention proposes a method capable of effectively coping with the transition section even when a window having a long overlap region is applied to improve coding efficiency.
  • FIG. 40 is a diagram illustrating the entire configuration of a speech / audio integrated encoder for generating a bit stream including a transition period according to an embodiment of the present invention.
  • the voice / audio integrated coder includes a transition section detector 4010, a first encoder 4020, a second encoder 4030, an Nth encoder 4040, and a transition section determiner 4050. And a bitstream formatter 4060.
  • the transition section detector 4010 may detect the transition section from the input PCM Sigal which is an input signal. For example, the transition section detector 4010 may detect the transition section at a position adjacent to a boundary of the super frame constituting the subframe constituting the input signal.
  • the first encoder 4020 and the second encoder 4030 may each encode an input signal according to a specific encoding method, and then detect a transition section from the encoding result.
  • the first encoder 4020 and the second encoder 4030 may input signals according to any one of spectral bandwidth extension (SBE) encoding or parametric stereo (PS) encoding. Can be encoded.
  • SBE spectral bandwidth extension
  • PS parametric stereo
  • SBE encoding is a coding scheme based on the fact that the human auditory characteristics have a lower resolution in the high frequency band than in the low frequency band.
  • a wideband audio input signal is generated through a quadrature mirror filter (QMF) analysis to generate a control parameter that represents a high band signal as an envelope and a low band limited audio signal.
  • the audio signal limited to the low band is encoded through core encoding of Advanced Audio Coding (AAC), and the audio signal corresponding to the high band is represented as additional data for the SBE and transmitted to the decoder.
  • AAC Advanced Audio Coding
  • the decoder can restore the wideband audio signal by first generating the spectrum of the lowband audio signal, which is the core band, and generating the highband audio signal using the envelope information.
  • the PS encoding is a technique of generating a virtual stereo channel from a downmixed mono signal by expressing inter-channel relationship information of an input signal as a parameter.
  • the PS encoding may analyze a stereo input signal, extract a parameter capable of controlling stereo voice, and transfer the extracted parameter along with the downmixed mono signal to a decoder.
  • the parameters used are the signal strength difference (IID: Inter-Channel Intensity Difference), inter-channel cross correlation (ICC), inter-channel phase difference (IPD: Inter-channel Phase Difference) And overall phase distribution (OPD) between channels.
  • IID Inter-Channel Intensity Difference
  • ICC inter-channel cross correlation
  • IPD Inter-channel Phase Difference
  • OPD overall phase distribution
  • the transition section determination unit 4050 may determine the transition section that has the greatest influence among the transition sections detected by the transition section detection unit 4010, the first encoder 4020, and the second encoder 4030. . That is, since a noise called pre-echo occurs due to the transition section, the transition section determination unit 4050 may finally determine the transition section based on the degree of occurrence of such noise.
  • the N-th encoder 4040 may perform core encoding on the input signal by adjusting the length of the overlap region of the window based on the transition section determined by the transition section determiner 4050. For example, the N-th encoder 4040 may core-code by applying a window having an overlap region whose length is reduced by a transition period around the folding point. In detail, the N-th encoder 4040 may core-encode the input signal by applying a window that is transformed according to the LPD mode of the previous subframe and the LPD mode of the next subframe to the current subframe to be encoded.
  • bitstream formatter 4060 is the final result derived by the first encoder 4020, the second encoder 4030 to the N-th encoder 4040 and the transition interval determination unit 4050
  • a bitstream including a transition period may be generated. That is, the voice / audio integrated coder according to the embodiment of the present invention may include a transition section in the bitstream for the decoding process.
  • FIG. 41 is a diagram illustrating a process of adjusting an overlap region of a window when a transition section occurs at a boundary of a frame corresponding to TCX 80 according to one embodiment of the present invention.
  • the super frame 4110 corresponding to one LPD mode may be divided into up to four subframes 4111, 4112, 4113, and 4114 according to characteristics of a signal. Specifically, by calculating the encoding gain for each of the results of dividing the superframe into subframes in the closed-loop stage for the LPD mode, the method of dividing the superframe when the actual encoding is determined is determined. . In this case, when a transition section occurs in the super frame, the speech / audio integrated coder can efficiently encode the transition section by considering the transition section in a closed-loop stage. have.
  • the closed-loop stage may not detect the transition section 4130 in the LPD mode.
  • the overlap region 4121 of the window applied between the super frames is relatively long at the time of encoding, noise may be dispersed in a wide region as shown in the current encoding stage 4120 of FIG. 41.
  • the voice / audio integrated coder performs an algorithm for detecting a transition section before windowing and overlapping such as Reduce Overlap Size (4140) to detect the transition section (4130) between superframes and detects the detected transition section.
  • the overlap region 4141 may be derived by adjusting the length of the overlap region 4121 of the window according to the transition section 4130.
  • the speech / audio integrated coder encodes by applying a window having an overlap region 4141, thereby increasing encoding efficiency by using a window having a relatively long length, and overlapping region 4141 corresponding to the transition section 4130. ) To reduce unnecessary noise.
  • FIG. 42 is a diagram illustrating a process of adjusting an overlap region of a window when a transition section occurs at a border of a frame corresponding to TCX 20 according to one embodiment of the present invention.
  • the integrated voice / audio encoder performs Reduce Overlap Size 4240 to adjust the length of the overlap region 4221 of the window according to the transition period 4230 in the current encoding stage 4220 to derive the overlap region 4241. can do.
  • the speech / audio integrated coder may perform encoding by applying a window having the overlap region 4241.
  • FIG. 41 illustrates a process of adjusting a length of an overlap region of a window when a transition section occurs between super frames
  • FIG. 42 illustrates a transition section between subframes constituting the super frame. This shows the process of adjusting the length of the overlap region of the window.
  • 43 is a diagram illustrating a process of adjusting according to a transition section when the length of the overlap region of the window is 256 according to an embodiment of the present invention.
  • 43 to 45 illustrate a process in which the length of the overlap area is adjusted according to the transition section when the length of the overlap area of the window is long.
  • the length of the overlap region of the window was 256 samples, but the length of the overlap region was reduced to 2 ⁇ due to the transition period between the frames.
  • the overlapping areas of the windows are symmetrically distributed around the folding points located between the frames. Therefore, the length of the overlap region of the window can be reduced symmetrically by ⁇ around the folding point according to the transition period.
  • is 64 samples, but may be changed to various values according to characteristics of a signal.
  • the speech / audio integrated coder encodes the window 4310 applied to the previous frame and the window 4320 applied to the subsequent frame by overlapping the folding point.
  • the length of the overlap region between the window 4310 and the window 4320 is 256 samples.
  • the speech / audio integrated coder encodes the window 4311 applied to the previous frame and the window 4321 applied to the subsequent frame by overlapping the folding point. At this time, the length of the overlap region between the window 4311 and the window 4321 is 2 alpha samples.
  • 44 is a diagram illustrating a process of adjusting according to a transition section when the length of the overlap region of the window is 512 according to one embodiment of the present invention.
  • the length of the overlap region of the window was 512 samples, the length of the overlap region was reduced to 2 ⁇ due to the transition period between the frames.
  • the overlapping areas of the windows are symmetrically distributed around the folding points located between the frames. Therefore, the length of the overlap region of the window can be reduced symmetrically by ⁇ around the folding point due to the transition period.
  • is 64 samples, but may be changed to various values according to characteristics of a signal.
  • the speech / audio integrated coder encodes the window 4410 applied to the previous frame and the window 4420 applied to the subsequent frame by overlapping the folding point. At this time, the length of the overlap region between the window 4410 and the window 4420 is 512 samples. However, when a transition period occurs, the speech / audio integrated coder encodes the window 4411 applied to the previous frame and the window 4421 applied to the subsequent frame by overlapping the folding point. At this time, the length of the overlap area between the window 4411 and the window 4421 is 2 ⁇ samples.
  • 45 is a diagram illustrating a process of adjusting according to a transition section when the length of an overlap region of a window is 1024 according to one embodiment of the present invention.
  • the length of the overlap region of the window was 1024 samples, it indicates that the length of the overlap region was reduced to 2 ⁇ due to the transition period between the frames.
  • the overlapping areas of the windows are symmetrically distributed around the folding points located between the frames. Therefore, the length of the overlap region of the window can be reduced symmetrically by ⁇ around the folding point due to the transition period.
  • is 64 samples, but may be changed to various values according to characteristics of a signal.
  • the speech / audio integrated coder encodes the window 4510 applied to the previous frame and the window 4520 applied to the subsequent frame by overlapping the folding point.
  • the length of the overlap region between the window 4510 and the window 4520 is 1024 samples.
  • the voice / audio integrated coder encodes the window 4511 applied to the previous frame and the window 4452 applied to the subsequent frame by overlapping the folding point. At this time, the length of the overlap region between the window 4511 and the window 4451 is 2 alpha samples.
  • 46 is a diagram showing the overall configuration of a speech / audio integrated decoder using a bit stream including a transition period according to an embodiment of the present invention.
  • the bitstream parser 4610 may extract a transition period by parsing a bitstream transmitted from the voice / audio integrated decoder of FIG. 40. Then, the N-th decoding unit 4620, the N-th decoding unit 4630, or the first decoding unit 4640 may decode the input signal using the transition period derived from the bitstream parser 4640. . In FIG. 46, the decoding method performed by each of the N-th decoder 4620, the N-th decoder 4630, or the first decoder 4640 is not specified. If the first decoder 4640 performs core decoding, the first decoder 4640 may decode the input signal by adjusting the length of the overlap region of the window according to the transition period.
  • the core decoding performed by the first decoder 4640 is a decoding that overlaps a window between frames
  • the length of the overlap region of the window is adjusted, and in the decoding mode in which the window does not overlap, the length of the overlap region of the window is It does not need to be adjusted.
  • the N-th decoder 4620 and the N-th decoder 4630 perform spectral bandwidth extension decoding or parametric stereo decoding, respectively, the length of the overlap region of the window is adjusted. There is no need.
  • FIG. 47 is a diagram illustrating the overall configuration of a speech / audio integrated encoder using a transition section derived through encoding results according to another embodiment of the present invention.
  • FIG. 47 illustrates a case where the transition period is not included in the bitstream.
  • the speech / audio integrated encoder of FIG. 47 does not need to include additional information related to the transition period in the bitstream, thereby improving the compression rate.
  • the preprocessor 4710 may pre-process the input signal. In this case, the preprocessor 4710 may perform preprocessing to divide the superframe into a plurality of subframes.
  • the first encoder 4720 may include a 1-1 sub encoder 4472, a 1-2 sub encoder 4472, and a 1-N sub encoder 4723.
  • the 1-2 sub encoder 4472 may encode the input signal by using the transition interval derived from the encoding result performed by the 2-2 sub encoder 4731 of the second encoder 4730.
  • the 1-2 sub encoder 4472 may encode the input signal by using a transition section derived from an encoding result performed by the N-1 sub encoder 4471 of the Nth encoder 4740.
  • the voice / audio integrated encoder of FIG. 47 does not need to include the transition period in the bitstream by utilizing the transition period derived between the encoders that operate independently.
  • the bitstream formatter 4750 includes the encoded input signal in the bitstream and does not include the transition period in the bitstream, thereby improving the compression ratio for the bitstream.
  • FIG. 48 is a diagram illustrating the overall configuration of a speech / audio integrated decoder using a transition section derived through a decoding result according to another embodiment of the present invention.
  • the bitstream parser 4810 may parse the bitstream transmitted from the voice / audio integrated encoder.
  • the first decoder 4820 may include a 1-1 sub decoder 4821, a 1-2 sub decoder 4822, and a 1-N sub decoder 4823.
  • the 1-2 sub decoder 4822 may decode the input signal by using a transition period derived from a decoding result performed by the 2-2 sub decoder 4831 of the second decoder 4830.
  • the 1-2 sub decoder 4822 may decode the input signal by using a transition period derived from a decoding result performed by the N-1 sub decoder 4484 of the N-th decoder 4840.
  • the voice / audio integrated decoder of FIG. 48 may utilize the transition period derived between the decoders that operate independently even if the transition stream is not included in the bitstream.
  • FIG. 49 is a diagram illustrating an actual application example of FIG. 47.
  • the signal state determiner 4910 may determine the state of the input signal. That is, the signal state determiner 4910 may determine whether the input signal is close to the audio signal or the speech signal.
  • the input signal may be selectively encoded by either the LPC-based encoder 4942 or the MDCT-based encoder 4941 in the core encoder 4940 according to a state.
  • the encoder 4911 may encode an input signal close to an audio signal according to an MDCT-based Advanced Audio Coding (AAC) scheme.
  • the LPC-based encoder 4942 selectively encodes an input signal that is close to speech by either the encoder 4944 in the time domain or the encoder 4943 in the frequency domain according to LPD mode (Linear Prediction Domain). can do.
  • the encoder 4944 of the time domain may encode an input signal according to ACELP (Algebraic code excited linear prediction), and the encoder 4943 of the frequency domain according to MDCT-based TCX (Transform Coded eXcitation).
  • the input signal can be encoded.
  • the encoder 4930 using the spectral bandwidth extension (SBE) may generate and encode a control parameter for expressing a high frequency band signal as an envelope and an audio signal limited to a low frequency band.
  • the encoder 4920 using a parametric stereo (PS) method may generate and encode a virtual stereo channel from the downmixed mono signal by expressing the relationship information between the channels of the input signal as a parameter.
  • the encoding unit 4911 and the encoding unit 4939 that perform MDCT-based encoding may encode using the transition interval detected from the encoding results performed by the encoding unit 4930 and the encoding unit 4920, respectively.
  • MDCT-based encoding may encode by overlapping the inter-frame window to satisfy the TDAC.
  • the encoder 4941 and the encoder 4435 may adjust and encode the length of the overlap region of the window according to the transition period transmitted from the encoder 4930 and the encoder 4920.
  • the bitstream formatter 4950 may not include the transition period in the bitstream.
  • FIG. 50 is a diagram illustrating an actual application example of FIG. 48.
  • the bitstream parser 5010 may parse the bitstream delivered from the speech / audio integrated encoder.
  • the core decoder 5020 may core-decode the decoder 5021, the decoder 5022, and the decoder 5023 according to a state of an input signal derived from the parsed bitstream.
  • the decoder 5021 corresponds to the MDCT-based encoder 4941
  • the decoder 5502 corresponds to the encoder 4943 in the frequency domain
  • the decoder 5023 is the encoder in the time domain. Corresponds to (4944).
  • the decoder 5021 and the decoder 5022 which overlap and decode the windows according to the MDCT, are derived from the decoding results performed by the decoder 5030 and 5040 even though the transition period is not included in the bitstream. Can utilize the transition period. Then, the decoder 5021 and the decoder 5022 may adjust the length of the overlap region of the window according to the transition period and decode it.
  • the decoder 5030 uses spectral bandwidth replication (SBR) corresponding to the encoder 4930
  • the decoder 5040 uses a parametric stereo (PS) scheme.
  • SBR spectral bandwidth replication
  • PS parametric stereo
  • the core decoder 5020 may determine the overlapping region of the window according to the transition section according to the transition section derived from the decoder that is independently performed. It can be decoded by adjusting the length.
  • FIG. 51 is a diagram illustrating a process of applying a transition interval derived through an SBR decoding process to a core band decoding process.
  • the decoder SBR Decoder 5130 may detect a transition period occurring in an intra-frame super frame by using spectral bandwidth extension.
  • the bitstream parser 5110 may derive an input signal by parsing the bitstream.
  • the SBR payload of the current frame is transmitted to a decoder 5135 that performs Huffman decoding and dequantization through a bitstream demultiplexer 5134.
  • the current frame is decoded by the decoder 5135, and the transition period occurring in the current frame which is a super frame is transmitted to the core decoder 5120.
  • the transition section relates to an intra-frame.
  • the SBR payload of the frame is transmitted to a decoder 5222 which performs Huffman decoding and dequantization through a bitstream demultiplexer 5131.
  • the subsequent frame is decoded by the decoder 5222, and the transition period occurring between the current frame as the super frame and the subsequent frame as the super frame is transmitted to the core decoder 5120.
  • the transition section relates to an inter-frame, and then occurs at the beginning of the frame.
  • the frame is transmitted to the decoder 5133.
  • the current frame decoded by the decoder 5135 includes an envelope adjuster 5113, an HF generator 5137, a QMF bank analyzer 5138, and a QMF bank synthesizer 5139.
  • the current frame output is then derived as a PCM signal.
  • FIG. 52 illustrates a window sequence having an overlap area of the same window regardless of the LPD mode.
  • the TCX encoder of the integrated voice / audio encoder uses a window having an overlap area of 256 samples regardless of the LPD mode.
  • the window sequence 5210 when the LPD mode is a super frame to which the TCX 80 is applied after the super frame to which the TCX 80 is applied, the window applied between the super frames has an overlap area of 256 samples.
  • the window sequence 5220 when the super frame to which the TCX 40 is applied after the super frame to which the TCX 80 is applied appears, the window applied between the super frames has an overlap area of 256 samples.
  • the window sequence 5230 when a super frame to which the TCX 20 is applied after the super frame to which the TCX 80 is applied appears, the window applied between the super frames has an overlap area of 256 samples.
  • the TCX 80 consists of one subframe within one super frame
  • the TCX 40 consists of two subframes within one super frame
  • the TCX 20 consists of four subframes within one super frame.
  • FIG. 52 shows a case where the length of the overlap region of the window has 256 samples regardless of the LPD mode.
  • FIG. 53 is a view illustrating a window sequence having an overlap area of a window having a relatively long length compared to FIG. 52.
  • the window sequence of FIG. 53 may be configured as a window having an overlap region having a relatively long length to increase coding efficiency.
  • the window applied between the super frames has an overlap region of 1024 samples.
  • a window applied between the super frames has an overlap region of 512 samples.
  • the window applied between the super frames has an overlap area of 256 samples.
  • the voice / audio integrated coder may determine a TCX in LPD mode by measuring a signal to noise ratio (SNR) through a closed loop step.
  • SNR signal to noise ratio
  • the fact that one superframe is divided into several subframes such as TCX 40 or TCX 20 instead of TCX 80 constituted by one subframe indicates that a transition section occurring in the super frame is detected in the closed loop step. it means. Therefore, the speech / audio integrated coder can prevent propagation of quantization noise such as pre-echo by dividing into multiple subframes.
  • one superframe is divided into several subframes, it means that there is a transition section, a section in which quantization noise occurs, in the superframe, so that a window having an overlapped region having a long sample length is applied. Therefore, it is more effective to overlap a window having 256 samples which is a short sample length.
  • the embodiments of FIG. 53 may be used only when overlapping a window having an overlap region with a long sample between super frames.
  • FIG. 54 is a diagram illustrating a result of applying a method of adjusting the length of an overlap region of a window according to a transition section to the window sequence of FIG. 53.
  • the present invention can adjust the length of the overlap region of the window according to the transition period.
  • the integrated voice / audio encoder may determine whether a transition period occurs between super frames. If a transition period occurs between the super frames of the window sequence 5310, the super frame may not be divided into subframes corresponding to TCX 40 or TCX 20 to effectively handle pre-echo, which is noise generated by the transition period.
  • the voice / audio integrated coder may adjust the length of the overlap region of the window applied between super frames from 1024 samples to 256 samples. This processing scheme can be effectively applied when the transition section occurs at a position close to the boundary of the super frame.
  • the window sequence 5410 when the LPD mode is a super frame to which TCX 80 is applied, a super frame to which TCX 80 is applied appears, and when a transition period occurs at the boundary of the super frame, A window having an overlap area reduced from 1024 samples to 256 samples may be applied.
  • the window sequence 5520 when a super frame to which TCX 40 is applied appears after a super frame to which TCX 80 is applied, and a transition section occurs at the boundary of the super frame, the frame is 512 to 256 samples between super frames. A window with a reduced overlap area can be applied.
  • the super frame to which the TCX 80 is applied after the super frame to which the TCX 80 is applied, the super frame to which the TCX 20 is applied appears, and even if a transition section occurs at the boundary of the super frame, the original length between the super frames is 256 samples.
  • a window having an overlap area can be applied.
  • the length of the overlap region reduced due to the occurrence of the transition period is not limited to 256 samples but may vary according to the characteristics of the signal.
  • an integrated audio / voice encoder / decoder having a heterogeneous encoding / decoding mode increases the encoding efficiency by using a window sequence longer than that of the prior art, and accordingly to the information on the transition period, the length of the overlap window is changed. By reducing, it is possible to prevent the efficiency from being reduced in the transition period when using a long overlap window.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

천이 구간에 기초하여 윈도우의 오버랩 영역을 조절하는 통합 음성/오디오 부/복호화기가 개시된다. 본 발명은 부호화 효율을 높이기 위해 상대적으로 긴 길이의 윈도우를 오버랩시켜 부호화하는 한편, 프레임 간 천이 구간이 발생하는 경우 천이 구간에 따라 윈도우의 오버랩 영역을 감소시킴으로써 천이 구간으로 인한 잡음 발생을 감소시킬 수 있다.

Description

천이 구간에 기초하여 윈도우의 오버랩 영역을 조절하는 통합 음성/오디오 부호화/복호화 장치 및 방법
본 발명은 MDCT(Modified Discrete Cosine Transform) 기반의 통합 음성/오디오 부/복호화기(USAC)에 관한 것으로, 특히, 윈도우 시퀀스에서 천이 구간에 따라 윈도우의 오버랩 영역의 길이를 조절하는 MDCT 기반의 통합 음성/오디오 부/복호화 장치 및 방법에 관한 것이다.
MDCT 기반의 통합 음성/오디오 부/복호화기(USAC)에서는 입력 신호를 구성하는 프레임의 코딩 모드에 따라 입력 신호에 적용되는 윈도우 시퀀스를 다르게 적용할 수 있다. 이 때, MDCT에 따라 발생하는 시간 도메인에서의 앨리어싱(aliasing)을 제거하기 위해 TDAC(Time-Domain Aliasing Cancellation transform)를 만족해야 한다. TDAC를 만족시키기 위해서는, 현재 프레임과 이웃하는 이전 프레임 또는 이후 프레임 간에 윈도우가 오버랩되어 적용되어야 한다.
일반적으로 부호화기는 부호화 이득을 최대로 하기 위해 인트라 프레임(intra frame)을 적절한 길이의 서브 프레임으로 분할할 수 있다. 이 때, 오디오 또는 음성의 부호화 이득은 입력 신호를 구성하는 시간 영역의 슈퍼 프레임(super-frame)을 보다 긴 길이의 서브 프레임(sub-frame)으로 분할할 때 증가한다. 그러면, 서브 프레임별로 윈도우 시퀀스가 적용된다. 이 때, 인트라 프레임(intra-frame) 경계에 인접한 위치에서 천이 구간(transition)가 발생하며, 프레임 간 오버랩되는 윈도우를 적용하여 부호화하면 천이 구간으로 인해 문제가 발생한다. 구체적으로, 천이 구간은 음향 신호의 성질이 급격하게 변경되는 구간으로, 짧은 시간동안 발생한다. 긴 길이의 프레임 간의 윈도우의 오버랩으로 인해 상대적으로 짧은 길이의 시간동안 발생하는 천이 구간의 신호가 효율적으로 표현되지 못해 프리 에코(Pre-echo)라는 잡음이 발생된다.
이러한 문제를 해결하기 위해, 천이 구간이 발생되는 것을 인지하여 천이 구간에서는 시간 영역의 신호를 보다 짧은 길이의 프레임으로 나누어 변환함으로써, 복원된 신호에서 프리 에코가 발생하는 시간 영역을 축소하는 방식이 사용된다. 특히, 이와 같은 방식을 MDCT 기반의 USAC에서 적용하기 위한 방법이 요구된다.
본 발명은 부호화 효율을 향상시키기 위해 긴 길이의 프레임 간에 윈도우를 오버랩하는 경우, 천이 구간이 발생하는 구간에서 윈도우의 오버랩 영역을 조절함으로써 천이 구간에 발생하는 프리 에코를 감소시킬 수 있는 시스템 및 방법을 제공한다.
본 발명의 일실시예에 따른 음성/오디오 통합 부호화기는 입력 신호로부터 제1 천이 구간을 검출하는 천이 구간 검출부; 상기 입력 신호를 부호화하여 부호화한 결과로부터 제2 천이 구간을 검출하는 제1 부호화부; 상기 제1 천이 구간과 제2 천이 구간을 비교하여 최종적인 천이 구간을 판단하는 천이 구간 판단부; 상기 판단된 천이 구간에 따라 윈도우의 오버랩 영역의 길이를 조절하여 상기 입력 신호를 코어 부호화하는 제2 부호화부; 및 상기 코어 부호화된 입력 신호와 상기 최종적인 천이 구간을 포함하는 비트 스트림을 생성하는 비트스트림 포매터를 포함할 수 있다.
본 발명의 일실시예에 따르면, 상기 제1 부호화부는, 스펙트럼 대역폭 확장(spectral bandwidth extension) 부호화 또는 파라미터 스테레오(parametric stereo) 부호화 중 어느 하나를 수행할 수 있다.
본 발명의 일실시예에 따르면, 상기 천이 구간 검출부는, 상기 입력 신호를 구성하는 서브 프레임을 구성하는 슈퍼 프레임의 경계에 인접한 위치에서 천이 구간을 검출할 수 있다.
본 발명의 일실시예에 따르면, 상기 제2 부호화부는, 폴딩 포인트를 중심으로 천이 구간만큼 길이가 감소된 오버랩 영역을 가지는 윈도우를 적용하여 코어 부호화할 수 있다.
본 발명의 일실시예에 따르면, 상기 제2 부호화부는, 이전 서브 프레임의 LPD 모드와 다음 서브 프레임의 LPD 모드에 따라 변형되는 윈도우를 부호화하고자 하는 현재 서브 프레임에 적용하여 입력 신호를 코어 부호화할 수 있다.
본 발명의 다른 실시예에 따른 음성/오디오 통합 부호화기는 입력 신호를 부호화하여 부호화한 결과로부터 천이 구간을 검출하는 제1 부호화부; 상기 검출된 천이 구간에 따라 윈도우의 오버랩 영역의 길이를 조절하여 상기 입력 신호를 코어 부호화하는 제2 부호화부; 및 상기 코어 부호화된 입력 신호를 포함하는 비트 스트림을 생성하는 비트스트림 포매터를 포함할 수 있다.
본 발명의 다른 실시예에 따르면, 상기 제1 부호화부는, 스펙트럼 대역폭 확장(spectral bandwidth extension) 부호화 또는 파라미터 스테레오(parametric stereo) 부호화 중 어느 하나를 수행할 수 있다.
본 발명의 다른 실시예에 따르면, 상기 제2 부호화부는, 폴딩 포인트를 중심으로 천이 구간만큼 길이가 감소된 오버랩 영역을 가지는 윈도우를 적용하여 코어 부호화할 수 있다.
본 발명의 다른 실시예에 따르면, 상기 제2 부호화부는, 이전 서브 프레임의 LPD 모드와 다음 서브 프레임의 LPD 모드에 따라 변형되는 윈도우를 부호화하고자 하는 현재 서브 프레임에 적용하여 입력 신호를 부호화할 수 있다.
본 발명의 일실시예에 따른 음성/오디오 통합 복호화기는 비트스트림을 파싱하여 천이 구간을 추출하는 비트스트림 파서; 및 상기 천이 구간에 따라 윈도우의 오버랩 영역의 길이를 조절하여 상기 입력 신호를 코어 복호화하는 복호화부를 포함할 수 있다.
본 발명의 일실시예에 따르면, 상기 복호화부는, 폴딩 포인트를 중심으로 천이 구간만큼 길이가 감소된 오버랩 영역을 가지는 윈도우를 적용하여 코어 복호화할 수 있다.
본 발명의 일실시예에 따르면, 상기 복호화부는 이전 서브 프레임의 LPD 모드와 다음 서브 프레임의 LPD 모드에 따라 변형되는 윈도우를 복호화하고자 하는 현재 서브 프레임에 적용하여 입력 신호를 복호화할 수 있다.
본 발명의 일실시예에 따르면, 상기 천이 구간은, 입력 신호로부터 도출된 천이 구간 또는 입력 신호의 부호화 결과에 따라 도출된 천이 구간 중 어느 하나일 수 있다.
본 발명의 다른 실시예에 따른 음성/오디오 통합 복호화기는 비트스트림으로부터 입력 신호를 파싱하는 비트스트림 파서; 상기 입력 신호를 복호화하여 복호화한 결과로부터 천이 구간을 검출하는 제1 복호화부; 및 상기 검출된 천이 구간에 따라 윈도우의 오버랩 영역의 길이를 조절하여 상기 입력 신호를 코어 복호화하는 제2 복호화부를 포함할 수 있다.
본 발명의 다른 실시예에 따르면, 상기 제1 복호화부는, 스펙트럼 대역폭 확장 복호화 또는 파라미터 스테레오복호화 중 어느 하나를 수행하고, 상기 제2 복호화부는, 폴딩 포인트를 중심으로 천이 구간만큼 길이가 감소된 오버랩 영역을 가지는 윈도우를 적용하여 코어 복호화할 수 있다.
본 발명의 다른 실시예에 따르면, 상기 제2 복호화부는, 이전 서브 프레임의 LPD 모드와 다음 서브 프레임의 LPD 모드에 따라 변형되는 윈도우를 복호화하고자 하는 현재 서브 프레임에 적용하여 입력 신호를 복호화할 수 있다.
본 발명의 일실시예에 따른 음성/오디오 통합 부호화 방법은 입력 신호로부터 제1 천이 구간을 검출하는 단계; 상기 입력 신호를 부호화하여 부호화한 결과로부터 제2 천이 구간을 검출하는 단계; 상기 제1 천이 구간과 제2 천이 구간을 비교하여 최종적인 천이 구간을 판단하는 단계; 상기 판단된 천이 구간에 따라 윈도우의 오버랩 영역의 길이를 조절하여 상기 입력 신호를 코어 부호화하는 단계; 및 상기 코어 부호화된 입력 신호와 상기 최종적인 천이 구간을 포함하는 비트 스트림을 생성하는 단계를 포함할 수 있다.
본 발명의 다른 실시예에 따른 음성/오디오 통합 부호화 방법은 입력 신호를 부호화하여 부호화한 결과로부터 천이 구간을 검출하는 단계; 상기 검출된 천이 구간에 따라 윈도우의 오버랩 영역의 길이를 조절하여 상기 입력 신호를 코어 부호화하는 단계; 및 상기 코어 부호화된 입력 신호를 포함하는 비트 스트림을 생성하는 단계를 포함할 수 있다.
본 발명의 일실시예에 따른 음성/오디오 통합 복호화 방법은 비트스트림을 파싱하여 천이 구간을 추출하는 단계; 및 상기 천이 구간에 따라 윈도우의 오버랩 영역의 길이를 조절하여 상기 입력 신호를 코어 복호화하는 단계를 포함할 수 있다.
본 발명의 다른 실시예에 따른 음성/오디오 통합 복호화 방법은 비트스트림으로부터 입력 신호를 파싱하는 단계; 상기 입력 신호를 복호화하여 복호화한 결과로부터 천이 구간을 검출하는 단계; 및 상기 검출된 천이 구간에 따라 윈도우의 오버랩 영역의 길이를 조절하여 상기 입력 신호를 코어 복호화하는 단계를 포함할 수 있다.
본 발명의 일실시예에 따르면, 부호화 효율을 향상시키기 위해 긴 길이의 프레임 간에 윈도우를 오버랩하는 경우, 천이 구간이 발생하는 구간에서 윈도우의 오버랩 영역을 조절함으로써 천이 구간에 발생하는 프리 에코를 감소시킬 수 있는 시스템 및 방법을 제공한다.
도 1은 음성/오디오 코딩을 수행하는 부호화기의 전체 구성을 도시한 도면이다.
도 2는 MDCT기반의 TDAC를 설명하기 위한 도면이다.
도 3은 종래의 RM에 정의되어 있는 윈도우 시퀀스를 도시한 도면이다.
도 4는 윈도우 시퀀스(CASE 1: ONLY_LONG_SEQUENCE to LPD_START_SEQUENCE)를 도시한 도면이다.
도 5는 윈도우 시퀀스(CASE 2: LONG_STOP_SEQUENCE to LPD_START_SEQUENCE)를 도시한 도면이다.
도 6은 FD 모드에서 LPD 모드로 모드 스위칭시, 윈도우 시퀀스(CASE 3: LPD_START_SEQUENCE to LPD_SEQUENCE)를 도시한 도면이다.
도 7은 LPD 모드에서 LPD 모드로 모드 스위칭시, 윈도우 시퀀스(CASE 4: LPD_SEQUENCE to LPD_SEQUENCE)와 LPD 모드에서 FD 모드로 모드 스위칭시, 윈도우 시퀀스(CASE 4: LPD_SEQUENCE to STOP_1152_SEQUENCE or STOP_START_1152_SEQUENCE)를 도시한 도면이다.
도 8은 타입 별 LPD_SEQUENCE의 윈도우 형태를 도시한 도면이다.
도 9는 (a) LPD 모드가 {1,1,1,1}일 때, (b) LPD 모드가 {2,2,2,2}일 때, 및 (c) LPD모드가 {3,3,3,3,}일 때, LPD_SEQUENCE를 도시한 도면이다.
도 10은 LPD 모드가 {0,1,1,1}일 때, LPD_SEQUENCE를 도시한 도면이다.
도 11은 LPD 모드가 {1,0,2,2}일 때, LPD_SEQUENCE를 도시한 도면이다.
도 12는 이전 프레임의 종료 서브 프레임의 LPD 모드가 {0}일 때, LPD 모드가 {3,3,3,3}인 LPD_SEQUENCE를 도시한 도면이다.
도 13은 종래의 CASE 3에 대한 윈도우 시퀀스의 처리 방법을 도시한 도면이다.
도 14는 본 발명의 실시예에 따른 CASE 3에 대한 윈도우 시퀀스의 처리 방법을 도시한 도면이다(제1예).
도 15는 본 발명의 실시예에 따른 CASE 3에 대한 윈도우 시퀀스의 처리 방법을 도시한 도면이다(제2예).
도 16은 본 발명의 실시예에 따른 CASE 3에 대한 윈도우 시퀀스의 처리 방법을 도시한 도면이다(제3예).
도 17은 본 발명의 실시예에 따라 현재 서브 프레임에 대한 LPD_SEQUENCE의 lpd_mode가 3이고 다음 서브 프레임에 대한 LPD_SEQUENCE의 lpd_mode가 3인 경우 윈도우를 도시한 도면이다.
도 18은 본 발명의 실시예에 따라 현재 서브 프레임에 대한 LPD_SEQUENCE의 lpd_mode가 2이고 다음 서브 프레임에 대한 LPD_SEQUENCE의 lpd_mode가 2인 경우 윈도우를 도시한 도면이다.
도 19는 본 발명의 실시예에 따라 현재 서브 프레임에 대한 LPD_SEQUENCE의 lpd_mode가 1이고 다음 서브 프레임에 대한 LPD_SEQUENCE의 lpd_mode가 1인 경우 윈도우를 도시한 도면이다.
도 20은 종래의 CASE 4에 대한 윈도우 시퀀스의 처리 방법을 도시한 도면이다.
도 21은 본 발명의 실시예에 따른 CASE 4에 대한 윈도우 시퀀스의 처리 방법을 도시한 도면이다(제1예).
도 22는 본 발명의 실시예에 따른 CASE 4에 대한 윈도우 시퀀스의 처리 방법을 도시한 도면이다(제2예).
도 23은 본 발명의 실시예에 따른 CASE 4에 대한 윈도우 시퀀스의 처리 방법을 도시한 도면이다(제3예).
도 24는 본 발명의 실시예에 따른 도 22의 윈도우 시퀀스를 반영한 STOP_1024_SEQUENCE를 도시한 도면이다.
도 25는 본 발명의 실시예에 따른 도 16 및 도 24의 윈도우 시퀀스를 적용한 결과를 도시한 도면이다.
도 26은 본 발명의 실시예에 따라 ACELP에서 FD로 변환될 때 윈도우 형태를 도시한 도면이다.
도 27은 본 발명의 실시예에 따라 현재 프레임의 LPD 모드와 다음 프레임의 LPD 모드에 따른 윈도우 시퀀스와 LPC 추출 위치를 도시한 도면이다.
도 28은 종래의 LPC 추출 위치와 본 발명의 실시예에 따른 LPC 추출 위치를 비교한 도면이다.
도 29는 LPD 모드에서 lpd_mode={1, 0, 1, 1}일 경우, 본 발명의 실시예에 따른 윈도우 시퀀스를 도시한 도면이다.
도 30은 LPD 모드에서 lpd_mode={1, 0, 2, 2}일 경우, 본 발명의 실시예에 따른 윈도우 시퀀스를 도시한 도면이다.
도 31은 현재 프레임의 lpd_mode={3, 3, 3, 3}이고 이전 프레임의 lpd_mode={x, x, x, 0}인 경우, 본 발명의 실시예에 따른 윈도우 시퀀스를 도시한 도면이다.
도 32는 본 발명의 실시예에 따라 현재 서브 프레임의 (a) lpd_mode=1(TCX 256), (b) lpd_mode=2(TCX 512) 또는 (c) lpd_mode=3(TCX 1024)인 경우, 이전 서브 프레임 및 다음 서브 프레임의 lpd_mode=0(ACELP)에 따른 윈도우 시퀀스를 도시한 도면이다.
도 33은 현재 서브 프레임의 lpd_mode가 1(TCX 256)이고, 이전 서브 프레임의 lpd_mode가 0일 때, 본 발명의 실시예에 따른 윈도우 시퀀스를 도시한 도면이다.
도 34는 현재 서브 프레임의 lpd_mode가 2(TCX 512)이고, 이전 서브 프레임의 lpd_mode가 0일 때, 본 발명의 실시예에 따른 윈도우 시퀀스를 도시한 도면이다.
도 35는 현재 서브 프레임의 lpd_mode가 3(TCX 1024)이고, 이전 서브 프레임의 lpd_mode가 0일 때, 본 발명의 실시예에 따른 윈도우 시퀀스를 도시한 도면이다.
도 36은 도 33 내지 도 35의 윈도우 시퀀스를 결합한 결과를 도시한 도면이다.
도 37은 본 발명의 실시예에 따라 모드 스위칭시 윈도우 시퀀스를 도시한 도면이다.
도 38은 본 발명의 실시예에 따라 도 3의 LPD_START_SEQUENCE 및 STOP_1152_SEQUENCE가 변형된 결과를 도시한 도면이다.
도 39는 종래의 방법에 따라 모드 스위칭시 윈도우 시퀀스를 도시한 도면이다.
도 40은 본 발명의 일실시예에 따라 천이 구간을 포함하는 비트 스트림을 생성하는 음성/오디오 통합 부호화기의 전체 구성을 도시한 도면이다.
도 41은 본 발명의 일실시예에 따라 TCX 80에 대응하는 프레임의 경계에서 천이 구간이 발생하는 경우 윈도우의 오버랩 영역을 조절하는 과정을 도시한 도면이다.
도 42는 본 발명의 일실시예에 따라 TCX 20에 대응하는 프레임의 경계에서 천이 구간이 발생하는 경우 윈도우의 오버랩 영역을 조절하는 과정을 도시한 도면이다.
도 43은 본 발명의 일실시예에 따라 윈도우의 오버랩 영역의 길이가 256일 때 천이 구간에 따라 조절하는 과정을 도시한 도면이다.
도 44는 본 발명의 일실시예에 따라 윈도우의 오버랩 영역의 길이가 512일 때 천이 구간에 따라 조절하는 과정을 도시한 도면이다.
도 45는 본 발명의 일실시예에 따라 윈도우의 오버랩 영역의 길이가 1024일 때 천이 구간에 따라 조절하는 과정을 도시한 도면이다.
도 46는 본 발명의 일실시예에 따라 천이 구간을 포함하는 비트 스트림을 이용하는 음성/오디오 통합 복호화기의 전체 구성을 도시한 도면이다.
도 47은 본 발명의 다른 실시예에 따라 부호화 결과를 통해 도출된 천이 구간을 활용하는 음성/오디오 통합 부호화기의 전체 구성을 도시한 도면이다.
도 48은 본 발명의 다른 실시예에 따라 복호화 결과를 통해 도출된 천이 구간을 활용하는 음성/오디오 통합 복호화기의 전체 구성을 도시한 도면이다.
도 49는 도 47의 실제 적용례를 도시한 도면이다.
도 50은 도 48의 실제 적용례를 도시한 도면이다.
도 51은 SBR 복호화 과정을 통해 도출된 천이 구간을 코어 대역 복호화 과정에 적용하는 과정을 도시한 도면이다.
도 52는 LPD 모드와 무관하게 동일한 윈도우의 오버랩 영역을 가지는 윈도우 시퀀스를 도시한 도면이다.
도 53은 도 52에 비해 상대적으로 긴 길이의 윈도우의 오버랩 영역을 가지는 윈도우 시퀀스를 도시한 도면이다.
도 54는 도 53의 윈도우 시퀀스에 천이 구간에 따라 윈도우의 오버랩 영역의 길이를 조절하는 방식을 적용한 결과를 도시한 도면이다.
이하, 첨부된 도면들에 기재된 내용들을 참조하여 본 발명에 따른 실시예를 상세하게 설명한다. 다만, 본 발명이 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조부호는 동일한 부재를 나타낸다.
도 1은 음성/오디오 코딩을 수행하는 부호화기의 전체 구성을 도시한 도면이다.
도 1에 도시된 음성/오디오 통합 부호화기는 입력 신호의 특성에 따라 부호화 방법을 다르게 수행하여 부호화 성능 및 음질을 극대화할 수 있다. 예를 들어, 음성/오디오 통합 부호화기는 입력 신호 중 음성(speech)과 유사한 신호에 대해 CELP 방식(Code Excitation Linear Prediction)에 따라 부호화하여 코딩 효율을 향상시킬 수 있다. 또한, 음성/오디오 통합 부호화기는 입력 신호 중 오디오(Audio)와 유사한 신호에 대해 트랜스 폼(transform) 방식에 따라 부호화하여 코딩 효율을 향상시킬 수 있다.
도 1의 MPEGS는 스테레오 신호를 코딩하기 위한 것으로, MPEG Surround의 OTT(One-To-Two)를 수행할 수 있다. 그리고, eSBR은 고주파 성분을 분석하여 입력 신호에 대한 대역폭을 확장시킬 수 있다. Mode Switch-1은 신호 분석기(Signal classifier)에 대응하는 것으로, 입력 신호의 현재 프레임이 음성 신호인지 또는 오디오 신호인지 여부를 판단할 수 있다. 여기서, 신호 분석기는 입력 신호가 음성과 유사한지 또는 오디오와 유사한 지 여부를 판단하여 신호의 특성에 따라 부호화기를 선택할 수 있다. 본 발명의 일실시예에 따른 음성/오디오 통합 부호화기는 ideal하게 동작하는 신호 분석기를 포함하는 것으로 가정한다.
만약, 입력 신호의 현재 프레임이 오디오와 유사하다고 판단된 경우, Mode Switch-1은 현재 프레임을 FD 모드(Frequency Domain Mode)인 'AAC-MODE(Advanced Audio Coding MODE)'로 스위칭하고, 입력 신호의 현재 프레임은 AAC-MODE에 따라 부호화될 수 있다. AAC-MODE에서, 입력 신호는 기본적으로 청각심리음향모델에 따라 부호화될 수 있다. 그리고, Blockswitching-1은 현재 프레임에 대해 입력 신호의 특성에 따라 윈도우(window)를 다르게 적용할 수 있다. 이 때, 윈도우 형태는 이전 프레임 또는 이후 프레임의 코딩모드에 따라 결정될 수 있다. 이후 필터 뱅크(filter bank)는 윈도우가 적용된 현재 프레임에 대해 T/F(Time to Frequency) 변환을 수행할 수 있다. 필터 뱅크는 부호화 효율을 향상시키기 위해 기본적으로 MDCT(Modified Discrete Cosine Transform)를 적용하여 부호화를 수행할 수 있다.
반대로, 입력 신호의 현재 프레임이 음성과 유사하다고 판단된 경우, Mode Switch-1은 현재 프레임을 'LPD-MODE(Linear Prediction Domain Mode)'로 스위칭하고, 입력 신호의 현재 프레임은 LPC(Linear Prediction Coding)에 따라 부호화될 수 있다. Block Switching-2는 LPD 모드 간에 모드 스위칭이 발생하는 경우, 서브 프레임마다 LPD 모드에 따른 윈도우를 적용할 수 있다. AMR-WB+ 또는 USAC에서와 같이 기본적으로 입력 신호의 현재 프레임은 LPD 모드에서 4개의 서브 프레임(sub-frame)으로 구성될 수 있다. 여기서, 입력 신호의 현재 프레임은 수퍼 프레임으로 정의될 수 있다. 본 발명에서 정의하는 윈도우 시퀀스는 수퍼 프레임을 구성하는 서브 프레임에 적용되는 적어도 하나의 윈도우들을 조합한 형태라고 정의할 수 있다.
예를 들어, 수퍼 프레임을 1개의 서브 프레임으로 처리하는 경우, 수퍼 프레임의 lpd_mode는 {3,3,3,3}으로 결정될 수 있다. 이 경우, 윈도우 시퀀스는 1개의 윈도우로 구성된다. 그리고, 수퍼 프레임을 2 개의 서브 프레임으로 처리하는 경우, 수퍼 프레임의 lpd_mode는 {2,2,2,2}으로 결정될 수 있다. 이 경우, 윈도우 시퀀스는 2개의 윈도우로 구성된다. 또한, 수퍼 프레임을 4개의 서브 프레임으로 처리하는 경우, 수퍼 프레임의 lpd_mode는 {1,1,1,1}로 결정될 수 있다. 이 경우, 윈도우 시퀀스는 4개의 윈도우로 구성된다.
여기서, lpd_mode=0인 경우, 하나의 서브 프레임은 ACELP(Algebraic code excited linear prediction)에 따라 부호화가 된다. 이 때, ACELP 가 적용되는 경우, T/F 변환 및 윈도우는 적용되지 않는다. 즉, LPC 기반의 LPD 모드에 따라 부호화하는 과정은 시간 도메인 코딩 기반의 ACELP 블록과 필터 뱅크를 기반으로 하는 TCX (Transform Code eXcitation) 블록을 통해 수행될 수 있다. 필터 뱅크 방법은 MDCT와 DFT(Discrete Fourier Transform) 방법이 있으며, 본 발명은 MDCT기반의 TCX를 이용한다. 본 발명은 Block Switching-1과 Block Swithching-2에서 윈도우 시퀀스를 처리하는 방법에 대해 설명된다.
도 2는 MDCT기반의 TDAC를 설명하기 위한 도면이다.
MDCT(Modified Discrete Cosine Transform)는 오디오 부호화기에 널리 사용되는 T/F 변환 방식으로, 프레임 간 오버랩 애드(overlap add)를 수행하더라도 비트레이트(Bit rate)가 증가하지 않는 장점이 있다. 반면에, MDCT는 시간 도메인에서 앨리어싱(aliasing)을 발생시키는 변환 방식이므로, MDCT는 주파수 도메인에서 시간 도메인으로 입력 신호를 역 변환 후, 현재 프레임과 이웃하는 프레임과 윈도우에 대해 50% 오버랩 애드를 반드시 수행해야 원래의 입력 신호가 복원될 수 있는 변환 방식(TDAC transform: Time-Domain Aliasing Cancellation transform)이다.
도 2를 참고하면, 입력 신호는 윈도우 처리 후에 MDCT가 수행된다. MDCT수행은 시간 도메인에서 앨리어싱을 발생시킨다. 도 2에서 Rk는 입력 신호에 적용된 윈도우의 오른쪽 부분을 나타낸다. 입력 신호에 대해 MDCT가 수행되면, Rk/2을 기준으로 윈도우가 폴딩(folding)되어, Time-Domain Aliasing(TDA)이 발생할 수 있다. 이 후, 입력 신호에 대해 IMDCT가 수행되면, 윈도우는 Rk로 언폴딩(unfolding)될 수 있으나, TDA가 발생한 후 언폴딩된 윈도우는 원래 윈도우와 다른 형태를 나타낸다.
그러나, 현재 프레임과 마찬가지로 다음 프레임이 Windowing→MDCT→IMDCT→windowing된 후, 윈도우가 적용된 다음 프레임의 왼쪽 신호와 윈도우가 적용된 현재 프레임의 오른쪽 신호가 서로 오버랩 애드가 수행되면, TDA가 제거된 원래의 입력 신호가 추출될 수 있다. 이러한 과정이 TDA 조건에서 Aliasing을 제거하기 위해 오버랩 애드하는 방법이다. 상기 언급한 오버랩 원리(overlap-add and TDAC)가 적용되기 위해서, 윈도우가 적용된 프레임이 오버랩 애드되는 지점은 윈도우가 폴딩 지점이다. 이 때, 폴딩 위치는 Rk/2이다.
도 3은 종래의 RM에 정의되어 있는 윈도우 시퀀스를 도시한 도면이다.
도 3은 도 1의 Block switching-1에 적용 가능한 윈도우를 나타낸다. 이 때, 도 3에서 인덱스 2의 경우, 8개의 SHORT_WINDOW가 하나의 셋트를 구성하기 때문에, 윈도우 시퀀스로 표현되었으며, 다른 변환 모드에서는 1개의 윈도우가 1개의 윈도우 시퀀스를 구성할 수 있다. 도 3에서 볼 수 있듯이, 윈도우 시퀀스는 삼각 윈도우를 가정하고 도시된 것이다. 현재 프레임의 길이 N을 2048로 설정하는 경우, 점선의 간격은 128을 나타낸다. 다만 STOP_START_1152_SEQUENCE의 경우, 현재 프레임의 길이는 2304로 설정된다.
도 4는 윈도우 시퀀스 (CASE 1: ONLY_LONG_SEQUENCE to LPD_START_SEQUENCE)를 도시한 도면이다.
USAC의 RM에 의하면, ONLY_LONG_SEQUENCE(401) 다음에 LPD_START_SEQENCE(404)가 나타날 수 있으며, LPD_START_SEQENCE(405) 다음에 LPD_SEQUENCE가 나타나는 것으로 정의되어 있다. LPD_SEQUENCE는 영역(405)에 나타날 수 있다.
LPD_SEQUENCE는 LPD 모드가 적용되는 윈도우 시퀀스를 의미한다. 여기서 라인(402)과 라인(403) 사이의 영역은 복호화기에서 입력 신호를 복원할 때, 이웃하는 두 개의 윈도우 시퀀스가 오버랩 애드(overlap-add)되는 영역을 의미한다.
도 5는 윈도우 시퀀스(CASE 2: LONG_STOP_SEQUENCE to LPD_START_SEQUENCE)를 도시한 도면이다.
USAC의 RM에 의하면, LONG_STOP_SEQUENCE(501) 다음에 LPD_START_SEQUENCE(504)가 나타나고, LPD_START_SEQUENCE(504) 다음에 LPD_SEQUENCE가 나타나는 것으로 정의되어 있다. LPD_SEQUENCE는 영역(505)에 나타날 수 있다.
도 4와 마찬가지로, LPD_SEQUENCE는 LPD모드에서 생성되는 윈도우 시퀀스를 의미한다. 여기서 라인(502)과 라인(503) 사이의 영역은 복호화기에서 입력 신호를 복원할 때, 이웃하는 두 개의 윈도우가 오버랩 애드(overlap-add)되는 영역을 의미한다.
도 6은 FD 모드에서 LPD 모드로 모드 스위칭시, 윈도우 시퀀스(CASE 3: LPD_START_SEQUENCE to LPD_SEQUENCE)를 도시한 도면이다.
USAC의 RM에 의하면, LPD_START_SEQUENCE(601) 다음에 LPD_SEQUENCE가 나타나는 것으로 정의되어 있다. LPD_START_SEQUENCE(601)은 Mode Switch-1에서 FD 모드인 'AAC MODE'에서 LPD 모드인 'LPC MODE'로 스위칭이 발생할 때 AAC MODE가 적용되는 마지막 윈도우 시퀀스를 의미한다. LPD_SEQUENCE는 영역(604)에 나타날 수 있다.
도 4와 마찬가지로, LPD_SEQUENCE는 LPD 모드가 적용되는 윈도우 시퀀스를 의미한다. 여기서 라인(602)과 라인(603) 사이의 영역은 복호화기에서 입력 신호를 복원할 때, 이웃하는 두 개의 윈도우 시퀀스가 오버랩 애드(overlap-add)되는 영역을 의미한다. 이 때, 윈도우 시퀀스가 오버랩 애드(overlap-add)되는 영역의 간격은 64-point이다.
도 7은 LPD 모드에서 LPD 모드로 모드 스위칭시, 윈도우 시퀀스(CASE 4: LPD_SEQUENCE to LPD_SEQUENCE)와 LPD 모드에서 FD 모드로 모드 스위칭시, 윈도우 시퀀스(CASE 4: LPD_SEQUENCE to STOP_1152_SEQUENCE or STOP_START_1152_SEQUENCE)를 도시한 도면이다.
USAC의 RM에 의하면, 영역(701)에서 LPD 모드가 적용되는 LPD_SEQUENCE가 나타나고, 다음에 영역(704)에서 LPD 모드가 적용되는 LPD_SEQUENCE가 나타나는 것으로 정의되어 있다. 도 7에서, LPD_SEQUENCE와 LPD_SEQUENCE가 오버랩 애드(overlap-add)되는 영역은 라인(702)과 라인(703) 사이에 영역이며, 오버랩 애드(overlap-add)되는 영역의 간격은 128-point이다.
그리고, 도 7에서 볼 수 있듯이, 영역(701)에 LPD 모드가 적용되는 LPD_SEQUENCE가 나타나고, 다음에 AAC 모드가 적용되는 STOP_1152_SEQUENCE(705)가 나타날 수 있다. 또한, 영역(701)에 LPD 모드가 적용되는 LPD_SEQUENCE가 나타나고, 다음에 AAC 모드가 적용되는STOP_START_1152_SEQUENCE(706)가 나타날 수 있다.
본 발명의 일실시예에 따르면, CASE 3, CASE 4에서 윈도우 시퀀스를 처리하는 방법 및 LPD_SEQUENCE 처리 방법에 대해 제안한다. CASE 3은 FD 모드에서 LPD 모드로 변경되는 경우로, 도 13 내지 도 16에서 설명되고, CASE 4는 LPD 모드에서 FD 모드로 변경되는 경우로, 도 20 내지 도 24에서 설명된다. LPD_SEQUENCE는 도 8 내지 도 12에서 설명된다. CASE 3 및 CASE 4는 FD 모드와 LPD 모드 간의 모드 스위칭시 윈도우 시퀀스의 처리 방법을 나타내는 것으로, 도 1의 Block Switching-1가 윈도우 시퀀스를 처리한다. 그리고, LPD_SEQUENCE는 LPD 모드 간의 모드 스위칭시 윈도우 시퀀스의 처리 방법을 나타내는 것으로, 도 1의 Blockswitching-2가 윈도우 시퀀스를 처리한다.
LPD 모드 간의 모드 스위칭과 관련하여, 음성/오디오 통합 부호화기(USAC)는 입력 신호의 프레임을 구성하는 서브 프레임에 대해 LPD 모드 간 스위칭하는 모드 스위칭부; 및 서브 프레임 중 부호화하고자 하는 현재 서브 프레임에 스위칭된 LPD 모드에 기초한 윈도우를 적용하여 입력 신호를 부호화하는 부호화부를 포함할 수 있다.
이 때, 모드 스위칭부는 도 1의 Mode switch-2에 대응하고, 부호화부는 도 1의 Block Switching-2에 대응한다. 부호화부는 이전 서브 프레임의 LPD 모드와 다음 서브 프레임의 LPD 모드에 따라 변형되는 윈도우를 현재 서브 프레임에 적용하여 입력 신호를 부호화할 수 있다. 그리고, 부호화부는 서브 프레임의 경계에 존재하는 폴딩 포인트를 중심으로 프레임 간 오버랩 애드를 수행할 수 있다.
일례로, 현재 서브 프레임의 LPD 모드가 1이고, 이전 서브 프레임 또는 다음 서브 프레임의 LPD 모드가 0이 아닌 경우, 음성/오디오 통합 부호화기(USAC)의 부호화부는 이전 서브 프레임 또는 상기 다음 서브 프레임과 오버랩 애드(overlap-add)되는 영역의 간격이 256인 상기 현재 서브 프레임에 적용되는 윈도우를 이용하여 부호화할 수 있다.
그리고, 현재 서브 프레임의 LPD 모드가 2이고, 이전 서브 프레임 또는 다음 서브 프레임의 LPD 모드가 0이 아닌 경우, 음성/오디오 통합 부호화기(USAC)의 부호화부는 이전 서브 프레임 또는 상기 다음 서브 프레임과 오버랩 애드 (overlap-add)되는 영역의 간격이 512인 상기 현재 서브 프레임에 적용되는 윈도우를 이용하여 부호화할 수 있다.
또는, 현재 서브 프레임의 LPD 모드가 3이고, 이전 서브 프레임 또는 다음 서브 프레임의 LPD 모드가 0이 아닌 경우, 음성/오디오 통합 부호화기(USAC)의 부호화부는 이전 서브 프레임 또는 상기 다음 서브 프레임과 오버랩 애드 (overlap-add)되는 영역의 간격이 1024인 상기 현재 서브 프레임에 적용되는 윈도우를 이용하여 부호화할 수 있다.
만약, 이전 서브 프레임의 LPD 모드가 0인 경우, 부호화부는 현재 서브 프레임에 적용되는 윈도우의 왼쪽 부분을 1의 값을 갖는 직각 형태로 처리할 수 있다. 그리고, 다음 서브 프레임의 LPD 모드가 0인 경우, 부호화부는 현재 서브 프레임에 적용되는 윈도우의 오른쪽 부분을 1의 값을 갖는 직각 형태로 처리할 수 있다.
이 때, 부호화부는 서브 프레임의 경계에 존재하는 폴딩 포인트를 중심으로 서브 프레임 간 오버랩 애드를 수행할 수 있다.
FD 모드에서 LPD 모드로의 모드 스위칭과 관련하여, 음성/오디오 통합 부호화기는 입력 신호의 프레임에 대해 FD 모드에서 LPD 모드로 스위칭하는 모드 스위칭부; 및 FD 모드의 윈도우 시퀀스와 LPD 모드의 윈도우 시퀀스를 폴딩 포인트를 기준으로 오버랩 애드하여 부호화하는 부호화부를 포함할 수 있다. 이 때, FD 모드는 AAC 모드일 수 있다.
이 때, LPD 모드의 윈도우 시퀀스 중 시작 서브 프레임의 LPD 모드가 0인 경우, 부호화부는 시작 서브 프레임에 대응하는 윈도우는 LPD 모드가 1에 대응하는 윈도우로 대체할 수 있다.
그리고, 부호화부는 LPD 모드의 윈도우 시퀀스를 FD 모드의 윈도우 시퀀스와 폴딩 포인트를 기준으로 오버랩 애드될 수 있도록 쉬프팅할 수 있다.
또한, 부호화부는 FD 모드의 윈도우 시퀀스를 LPD 모드의 윈도우 시퀀스에 따라 형태를 변형할 수 있다.
또한, 부호화부는 입력 신호의 프레임을 구성하는 서브 프레임의 경계에 위치하는 폴딩 포인트를 중심으로 윈도우 시퀀스 간에 오버랩 애드를 수행하고, 상기 폴딩 포인트를 시작점으로 설정하여 서브 프레임 단위에 따라 LPC(Linear Prediction Coefficient)를 추출할 수 있다.
LPD 모드에서 FD 모드로의 모드 스위칭과 관련하여, 음성/오디오 통합 부호화기(USAC)는 입력 신호의 프레임에 대해 LPD 모드에서 FD 모드로 스위칭하는 모드 스위칭부; 및 상기 FD 모드의 윈도우 시퀀스와 상기 LPD 모드의 윈도우 시퀀스를 폴딩 포인트를 기준으로 오버랩 애드하여 부호화하는 부호화부를 포함할 수 있다.
그리고, 부호화부는 LPD 모드에 따라 FD 모드의 윈도우 시퀀스 형태를 변형할 수 있다.
또한, 부호화부는 LPD 모드의 윈도우 시퀀스와 FD 모드의 윈도우 시퀀스를 256 포인트만큼 오버랩할 수 있다. 여기서, LPD 모드의 윈도우 시퀀스 중 종료 서브 프레임의 LPD 모드가 0인 경우 종료 서브 프레임에 대응하는 윈도우는 LPD 모드가 1에 대응하는 윈도우로 대체될 수 있다.
이에 대해, 통합 음성/오디오 복호화기(USAC)는 앞서 설명한 LPD 모드 간의 모드 스위칭, FD 모드에서 LPD 모드로의 모드 스위칭 또는 LPD 모드에서 FD 모드로의 모드 스위칭과 관련한 음성/오디오 통합 부호화기와 동일하게 윈도우 시퀀스를 처리할 수 있다. 이하에서는 본 발명에 의한 음성/오디오 통합 부호화기(USAC)와 통합 음성/오디오 복호화기(USAC)에서 처리하는 윈도우 시퀀스에 대해서 구체적으로 설명된다.
도 8은 타입 별 LPD_SEQUENCE의 윈도우 형태를 도시한 도면이다.
도 8은 도 4 내지 도 7에서 설명되는 LPD_SEQUENCE의 윈도우 형태를 나타낸다. 도 8에 도시된 LPD_SEQUENCE는 하기 표 1에 따라 정의될 수 있다.
Figure PCTKR2010006931-appb-I000001
표 1은 이전 서브 프레임의 lpd_mode(last_lpd_mode)에 따라 변경되는 현재 서브 프레임에 대한 LPD_SEQUENCE의 윈도우 형태를 정의한 것이다. 표 1에서, ZL은 LPD_SEQUENCE에서 윈도우의 왼쪽에 삽입되는 zero block에 대응하는 구간의 길이이며, ZR은 LPD_SEQUENCE에서 윈도우의 오른쪽에 삽입되는 zero block에 대응하는 구간의 길이를 의미한다. 그리고, M은 LPD_SEQUENCE에서 값이 1인 윈도우의 구간의 길이를 나타낸다. 또한, L과 R은 각각 LPD_SEQUENCE에서 윈도우의 중심점을 기준으로 각각 왼쪽과 오른쪽에 이웃하는 윈도우와 오버랩 애드(overlap-add)되는 구간의 길이를 의미한다. 표 1에서 볼 수 있듯이, 하나의 프레임에 대해서, 1024 또는 1152개의 spectral coefficients가 발생할 수 있다.
lpd_mode=0인 경우, 이전 서브 프레임의 lpd_mode와 상관없이 현재 서브 프레임의 LPD_SEQUENCE는 도 8의 type 6의 윈도우를 나타낸다. 여기서, 도 8의 type 6에 대응하는 윈도우는 zero block 없는 rectangular 형태의 윈도우이다. 즉, lpd_mode=0인 경우, 입력 신호가 ACELP에 따라 부호화되는 것으로, 입력 신호를 복원시 aliasing이 발생하지 않기 때문에 오버랩 애드(overlap-add)를 위한 윈도우가 적용되지 않는다. 따라서, 도 1의 ACELP 블록은 TCX 블록과 달리 Block-switching을 수행하지 않는다.
도 8에 의하면, 하나의 super-frame에 대해 LPD_SEQUENCE로 생성될 수 있는 조합은 총 26가지이다. 도 9 내지 도 12는 생성될 수 있는 26가지의 LPD_SEQUENCE 중 일부를 도시한다.
도 9는 (a) LPD 모드가 {1,1,1,1}일 때, (b) LPD 모드가 {2,2,2,2}일 때, 및 (c) LPD모드가 {3,3,3,3,}일 때, LPD_SEQUENCE를 도시한 도면이다.
도 9(a)는 super-frame 내에서 각 서브 프레임의 lpd_mode가 모두 1인 경우, LPD_SEQUENCE를 도시한다. 이 때, 도 9(a)의 LPD_SEQUNECE는 도 8의 type 3에 대응하는 윈도우(901) 4개로 구성될 수 있다. 도 9(a)의 LPD_SEQUENCE의 lpd_mode는 {1,1,1,1}이다.
도 9(b)는 super-frame 내에서 각 서브 프레임의 lpd_mode가 모두 2인 경우, LPD_SEQUENCE를 도시한다. 이 때, 도 9(b)의 LPD_SEQUNECE는 도 8의 type 4에 대응하는 윈도우(902) 2개로 구성될 수 있다. 도 9(b)의 LPD_SEQUENCE의 lpd_mode는 {2,2,2,2}이다.
도 9(c)는 super-frame 내에서 각 서브 프레임의 lpd_mode가 모두 3인 경우, LPD_SEQUENCE를 도시한다. 이 때, 도 9(c)의 LPD_SEQUNECE는 도 8의 type 5에 대응하는 윈도우(903) 1개로 구성될 수 있다. 도 9(c)의 LPD_SEQUENCE의 lpd_mode는 {3,3,3,3}이다.
도 10은 LPD 모드가 {0,1,1,1}일 때, LPD_SEQUENCE를 도시한 도면이다.
도 11은 LPD 모드가 {1,0,2,2}일 때, LPD_SEQUENCE를 도시한 도면이다.
도 12는 이전 프레임의 종료 서브 프레임의 LPD 모드가 {0}일 때, LPD 모드가 {3,3,3,3}인 LPD_SEQUENCE를 도시한 도면이다.
도 13은 종래의 CASE 3에 대한 윈도우 시퀀스의 처리 방법을 도시한 도면이다.
도 6에서 설명하였듯이, CASE 3은 LPD_START_SEQUENCE(1301)에서 LPD_SEQUENCE(1302 내지 1305)로 윈도우 시퀀스가 처리되는 경우를 나타낸다. 이 때, Mode Switch-1에서 FD 모드인 'AAC MODE'에서 LPD 모드인 'LPC MODE'로 모드 스위칭이 발생할 때 LPD_START_SEQUENCE(1301)는 AAC MODE에서 마지막으로 적용되는 윈도우 시퀀스를 의미한다.
도 13에서, LPD_SEQUENCE(1302)는 lpd_mode={3,3,3,3}인 경우를 나타내고, LPD_SEQUENCE(1303)는 lpd_mode={2,2,2,2}인 경우를 나타낸다. 그리고, LPD_SEQUENCE(1304)는 lpd_mode={1,1,1,1}인 경우를 나타내며, LPD_SEQUENCE(1305)는 lpd_mode={0,0,0,0}인 경우를 나타낸다. 도 13에서 LPD_SEQUENCE(1302~1305)는 점선으로 수정된 후 64-point의 영역(1306)에서 `폴딩 포인트(Folding Point)를 중심으로 LPD_START_SEQUENCE(1301)과 오버랩 애드(overlap-add)될 수 있다.
도 14는 본 발명의 실시예에 따른 CASE 3에 대한 윈도우 시퀀스의 처리 방법을 도시한 도면이다(제1예).
도 14를 참고하면, LPD_START_SEQUENCE(1401)는 TDAC를 고려하지 않고 LPD_SEQUENCE(1402~1405)와 영역(1406)에서 오버랩 애드(overlap-add)된다. 따라서, LPD_SEQUENCE(1402~1405) 각각은 점선으로 수정된 후, LPD_START_SEQUENCE(1401)와 영역(1406)에서 폴딩 포인트를 중심으로 오버랩 애드(overlap-add)된다. 이 때, 영역(1406)의 간격은 64-point를 나타낸다.
폴딩 포인트는 MDCT 및 IMDCT가 수행된 후, TDA가 발생하여 윈도우가 folding되는 위치를 의미한다. 즉, 본 발명의 실시예에 따르면, LPD_START_SEQUENCE(1401)의 오른쪽 윈도우는 MDCT 및 IMDCT가 수행되더라도, TDA가 발생하지 않으며, 이웃하는 프레임과 windowing 후 오버랩 애드(overlap-add)되어 연결된다.
도 15는 본 발명의 실시예에 따른 CASE 3에 대한 윈도우 시퀀스의 처리 방법을 도시한 도면이다(제2예).
도 15에 도시된 LPD_SEQUENCE(1502~1505)는 도 14에 도시된 LPD_SEQUENCE(1402~1405)보다 오른쪽으로 128 point만큼 쉬프트(shift)되었다. 즉, 도 15에 도시된 LPD_SEQUENCE(1502~1505)는 LPD_SEQUENCE(1402~1405)와 달리 수정되지 않고 LPD_START_SEQUENCE(1501)과 폴딩 포인트를 중심으로 오버랩 애드(overlap-add)될 수 있다. 또한, 오버랩 애드(overlap-add)되는 영역(1506)의 간격은 128-point로 영역(1406)보다 64-point만큼 간격이 증가하였다. 그리고, 도 15에 도시된 LPD_SEQUENCE(1502~1505) 도 13에 도시된 LPD_SEQUENCE(1302~1305)보다 오른쪽으로 64 point만큼 쉬프트(shift)되었다. 이 때, LPD_SEQUENCE(1505)의 lpd_mode가 {0,0,0,0}일 경우, LPD_SEQUENCE(1505)의 시작 서브 프레임의 lpd_mode는 1로 변경될 수 있다.
도 15에 따르면, Mode switching-1가 FP 모드인 AAC Mode에서 LPD Mode로 모드 스위칭하는 경우, AAC Mode의 윈도우 시퀀스인 LPD_START_SEQUENCE(1501)와 LPD Mode의 윈도우 시퀀스인 LPD_SEQUENCE(1502~1505)는 MDCT folding point를 기준으로 서로 연결된다. 즉. 도 15의 LPD_SEQUENCE(1502~1505)는 TDA 폴딩 포인트를 중심으로 LPD_START_SEQUENCE(1501)와 영역(1506)에서 오버랩 애드(overlap-add)됨으로써 시간 도메인에서 발생되는 aliasing이 제거될 수 있다.
따라서, 도 15의 LPD_SEQUENCE(1502~1505)는 도 13의 LPD_SEQUENCE(1302~1305)보다 64 point만큼 오른쪽으로 쉬프트되어 오버랩 애드(overlap-add)될 수 있다. 그리고, 도 15의 LPD_SEQUENCE(1502~1505)는 도 14의 LPD_SEQUENCE(1402~1405)보다 128 point만큼 오른쪽으로 쉬프트되어 오버랩 애드(overlap-add)될 수 있다. 즉, 도 15의 윈도우 시퀀스를 적용하는 방법은 도 1의 Mode Switch-1가 FP 모드에서 LPD 모드로 모드 스위칭할 때마다 도 13의 윈도우 시퀀스를 적용하는 방법과 비교하여 64 point, 그리고, 도 14의 윈도우 시퀀스를 적용하는 방법과 비교하여 128 point만큼 향상된 코딩 이득(coding gain)을 얻을 수 있다.
따라서, CASE 3에 대해 본 발명의 일실시예에 따른 윈도우 시퀀스 처리 방법은 다음과 같다.
(1) FD Mode의 윈도우 시퀀스(LPD_START_SEQUENCE)와 LPD Mode의 윈도우 시퀀스(LPD_SEQUENCE)는 MDCT folding point를 중심으로 오버랩 애드(overlap-add)될 수 있다.
(2) LPD_START_SEQUENCE에서 LPD_SEQUENCE와 연결되는 영역에 대응하는 윈도우가 folding point를 지나가도록 변형되어야 한다.
(3) LPD_SEQUENCE의 시작 위치는 MDCT folding point에 매칭될 수 있도록 도13과 도 14에 비해 각각 오른쪽으로 64, 128 point만큼 쉬프트되어야 한다.
(4) 예외적으로, ACELP 서브 프레임으로 시작하는 LPD_SEQUENCE는 ACELP 서브 프레임이 TCX20(lpd_mode={1})으로 대체될 수 있다.
도 16은 본 발명의 실시예에 따른 CASE 3에 대한 윈도우 시퀀스의 처리 방법을 도시한 도면이다(제3예).
도 16은 다음 프레임의 LPD_SEQUENCE의 lpd_mode에 따라 LPD_START_SEQUENCE에서 LPD_SEQUENCE와 오버랩 애드(overlap-add)되는 영역의 윈도우가 변형되는 것을 나타낸다. 즉, LPD_START_SEQUENCE의 오른쪽 윈도우는 LPD_SEQUENCE의 lpd_mode에 따라 변형될 수 있다. 도 16에서, LPD_START_SEQUENCE의 오른쪽 윈도우가 라인(1601)인 경우, 도 16의 LPD_START_SEQUENCE는 LPD_START_SEQUENCE(1501)과 동일한 형태를 나타낸다.
만약, 다음 프레임에 대응하는 LPD_SEQUENCE의 lpd_mode={3,3,3,3}인 경우, 현재 프레임에 대응하는 LPD_START_SEQUENCE의 오른쪽 윈도우는 라인(1604)으로 변형될 수 있다. 그리고, LPD_START_SEQUENCE의 오른쪽 윈도우가 변형된 것에 대응하여 lpd_mode={3,3,3,3}인 LPD_SEQUENCE의 왼쪽 윈도우는 라인(1605)에서 라인(1606)으로 변형될 수 있다. 그러면, LPD_START_SEQUENCE와 LPD_SEQUENCE는 1024 point만큼 오버랩 애드(overlap-add)될 수 있다.
만약, 다음 프레임에 대응하는 LPD_SEQUENCE의 lpd_mode= {2,2,x,x}인 경우, 현재 프레임에 대응하는 LPD_START_SEQUENCE의 오른쪽 윈도우는 라인(1603)으로 변형될 수 있다. 그리고, LPD_START_SEQUENCE의 오른쪽 윈도우가 변형된 것에 대응하여 lpd_mode= {2,2,x,x}인 LPD_SEQUENCE의 왼쪽 윈도우는 라인(1607)에서 라인(1608)으로 변형될 수 있다. 그러면, LPD_START_SEQUENCE와 LPD_SEQUENCE는 512 point만큼 오버랩 애드(overlap-add)될 수 있다.
만약, 다음 프레임에 대응하는 LPD_SEQUENCE의 lpd_mode={1,x,x,x}인 경우, 현재 프레임에 대응하는 LPD_START_SEQUENCE의 오른쪽 윈도우는 라인(1602)으로 변형될 수 있다. 그리고, LPD_START_SEQUENCE의 오른쪽 윈도우가 변형된 것에 대응하여 lpd_mode={1,x,x,x}인 LPD_SEQUENCE의 왼쪽 윈도우는 라인(1609)에서 라인(1610)으로 변형될 수 있다. 그러면, LPD_START_SEQUENCE와 LPD_SEQUENCE는 1024 point만큼 오버랩 애드(overlap-add)될 수 있다.
만약, 다음 프레임에 대응하는 LPD_SEQUENCE의 lpd_mode={0,x,x,x}인 경우, LPD_SEQUENCE의 시작 서브 프레임의 lpd_mode는 1로 대체될 수 있다. 그러면, 현재 프레임에 대응하는 LPD_START_SEQUENCE의 오른쪽 윈도우는 LPD_SEQUENCE의 lpd_mode={1,x,x,x}인 경우와 마찬가지로 라인(1602)으로 변형될 수 있다. 그리고, LPD_START_SEQUENCE의 오른쪽 윈도우가 변형된 것에 대응하여 lpd_mode={0,x,x,x}인 LPD_SEQUENCE의 왼쪽 윈도우는 라인(1611)에서 라인(1612)으로 변형될 수 있다. 그러면, LPD_START_SEQUENCE와 LPD_SEQUENCE는 512 point만큼 오버랩 애드(overlap-add)될 수 있다.
도 17은 본 발명의 실시예에 따라 현재 서브 프레임에 대한 LPD_SEQUENCE의 lpd_mode가 3이고 다음 서브 프레임에 대한 LPD_SEQUENCE의 lpd_mode가 3인 경우 윈도우를 도시한 도면이다.
도 17에 의하면, 다음 서브 프레임에 대한 LPD_SEQUENCE의 lpd_mode가 3인 경우, 현재 서브 프레임에 대한 LPD_SEQUENCE의 오른쪽 윈도우는 라인(1701)에서 라인(1703)으로 변형된다. 그러면, 다음 서브 프레임에 대응하는 LPD_SEQUENCE의 왼쪽 윈도우는 라인(1702)에서 라인(1704)으로 변형된다. 결국, 도 17에 의하면, 폴딩 포인트를 중심으로 윈도우 시퀀스 간에 오버랩 애드(overlap-add)되는 영역(1705)은 영역(1706)으로 확장된다.
도 18은 본 발명의 실시예에 따라 현재 서브 프레임에 대한 LPD_SEQUENCE의 lpd_mode가 2이고 다음 서브 프레임에 대한 LPD_SEQUENCE의 lpd_mode가 2인 경우 윈도우를 도시한 도면이다.
도 18에 의하면, 다음 서브 프레임에 대한 LPD_SEQUENCE의 lpd_mode가 2인 경우, 현재 서브 프레임에 대한 LPD_SEQUENCE의 오른쪽 윈도우는 라인(1801)에서 라인(1803)으로 변형된다. 그러면, 다음 서브 프레임에 대응하는 LPD_SEQUENCE의 왼쪽 윈도우는 라인(1802)에서 라인(1804)으로 변형된다. 결국, 도 18에 의하면, 폴딩 포인트를 중심으로 윈도우 시퀀스 간에 오버랩 애드(overlap-add)되는 영역(1805)은 영역(1806)으로 확장된다.
도 19는 본 발명의 실시예에 따라 현재 서브 프레임에 대한 LPD_SEQUENCE의 lpd_mode가 1이고 다음 서브 프레임에 대한 LPD_SEQUENCE의 lpd_mode가 1인 경우 윈도우를 도시한 도면이다.
도 19에 의하면, 다음 서브 프레임에 대한 LPD_SEQUENCE의 lpd_mode가 1인 경우, 현재 서브 프레임에 대한 LPD_SEQUENCE의 오른쪽 윈도우는 라인(1901)에서 라인(1903)으로 변형된다. 그러면, 다음 서브 프레임에 대응하는 LPD_SEQUENCE의 왼쪽 윈도우는 라인(1902)에서 라인(1904)으로 변형된다. 결국, 도 19에 의하면, 폴딩 포인트를 중심으로 윈도우 시퀀스 간에 오버랩 애드(overlap-add)되는 영역(1905)은 영역(1906)으로 확장된다.
도 20은 종래의 CASE 4에 대한 윈도우 시퀀스의 처리 방법을 도시한 도면이다.
도 20을 참고하면, LPD_SEQUENCE(2101~2104)는 TDA가 발생하지 않은 구간에 대해 FD 모드인 AAC 모드의 윈도우 시퀀스(2005)와 영역(2006)에 대해 overlap하고, 인위적인 TDA가 LPD_SEQUENCE(2101~2104)의 영역(2006)에 생성되어 LPD_SEQUENCE(2101~2104)는 윈도우 시퀀스(2005)와 add 될 수 있다.
도 21은 본 발명의 실시예에 따른 CASE 4에 대한 윈도우 시퀀스의 처리 방법을 도시한 도면이다(제1예).
도 21은 CASE 4와 같이 도 1의 Mode Switch-1이 LPD MODE에서 FD MODE로 모드 스위칭하는 경우, Block switching-1에서 처리하는 윈도우 시퀀스를 도시한다. 도 21에서 볼 수 있듯이, Block_switching-1은 TDA가 발생하는 영역(2106)에서 폴딩 포인트를 중심으로 LPD MODE에 대응하는 LPD_SEQUENCE(2101~2103)와 FD MODE에 대응하는 윈도우 시퀀스(2104)를 오버랩 애드(overlap-add)를 수행하여 aliasing을 제거(cancellation)할 수 있다.
도 22는 본 발명의 실시예에 따른 CASE 4에 대한 윈도우 시퀀스의 처리 방법을 도시한 도면이다(제2예).
도 22를 참고하면, 현재 프레임에 대응하는STOP_1024_SEQUENCE의 왼쪽 윈도우는 이전 프레임의 LPD_SEQUENCE의 lpd_mode에 따라 변형된다. 예를 들어, 이전 프레임의 LPD_SEQUENCE의 lpd_mode={3,3,3,3}인 경우, 현재 프레임에 대응하는 STOP_1024_SEQUENCE의 왼쪽 윈도우는 라인(2207)으로 변형된다. 그리고, 이전 프레임의 LPD_SEQUENCE의 lpd_mode={2,2,2,2}인 경우, 현재 프레임에 대응하는 STOP_1024_SEQUENCE의 왼쪽 윈도우는 라인(2208)으로 변형된다. 또한, 이전 프레임의 LPD_SEQUENCE의 lpd_mode={1,1,1,1}인 경우, 현재 프레임에 대응하는 STOP_1024_SEQUENCE의 왼쪽 윈도우는 라인(2209)으로 변형된다. 라인(2210)은 도 21의 STOP_1024_SEQUENCE의 왼쪽 윈도우를 나타낸다.
이 후, STOP_1024_SEQUENCE의 왼쪽 윈도우가 변형되는 것에 대응하여 LPD_SEQUENCE의 오른쪽 윈도우도 변형된다. 즉, STOP_1024_SEQUENCE의 왼쪽 윈도우가 라인(2207)으로 변형되는 경우, LPD_SEQUENCE의 오른쪽 윈도우는 라인(2201)에서 라인(2202)으로 변형된다. 또한, STOP_1024_SEQUENCE의 왼쪽 윈도우가 라인(2208)으로 변형되는 경우, LPD_SEQUENCE의 오른쪽 윈도우는 라인(2203)에서 라인(2204)으로 변형된다. 그리고, STOP_1024_SEQUENCE의 왼쪽 윈도우가 라인(2209)으로 변형되는 경우, LPD_SEQUENCE의 오른쪽 윈도우는 라인(2205)에서 라인(2206)으로 변형된다.
그러면, 변형된 LPD_SEQUENCE와 변형된 STOP_1024_LPD_SEQUENCE는 폴딩포인트를 중심으로 오버랩 애드(overlap-add)될 수 있다.
도 23은 본 발명의 실시예에 따른 CASE 4에 대한 윈도우 시퀀스의 처리 방법을 도시한 도면이다(제3예).
도 23에서, FD MODE에 대응하는 윈도우 시퀀스는 STOP_1024_SEQUENCE(2305)이다. 도 23을 참고하면, LPD_SEQUENCE(2301~2304)의 오른쪽 윈도우는 라인(2307~2310)으로 변형된다. 그러면, 도 1의 Mode Switching-1은 256-point 만큼의 영역(2306)에서 LPD_SEQUENCE(2301~2304)와 STOP_1024_SEQUENCE(2305) 간에 overlap add를 수행한다. 그리고, LPD_SEQUENCE(2304)와 같이 마지막 서브 프레임의 lpd_mode=0인 경우, LPD_SEQUENCE(2304)의 마지막 서브 프레임의 lpd_mode=1로 변경될 수 있다.
도 23에서 볼 수 있듯이, LPD_SEQUENCE(2301~2304)와 STOP_1024_SEQUENCE(2305)는 폴딩 포인트를 중심으로 오버랩 애드(overlap-add)된다. 그리고, FD 모드에 대응하는 STOP_1024_SEQUENCE(2305)를 처리하기 위한 블록 사이즈가 2304가 아닌 2048이다.
도 22과 도 23에 의하면, LPD_SEQUENCE와 연결되는 FD 모드의 윈도우 시퀀스는 블록 사이즈가 2048- MDCT를 수행할 수 있도록 변경될 수 있다. 따라서, 도 20과 같이, LPD SEQUENCE와 연결되는 FD 모드의 윈도우 시퀀스는 2304-MDCT를 수행할 필요 없다. 다시 말해서, 본 발명의 일실시예에 따르면, LPD 모드에서 FD 모드로 변경되더라도, 도 3에 도시된 'STOP_1152_SEQUENCE'와 'STOP_START_WINDOW_1152'와 같이 2304 크기의 블록 사이즈를 갖는 FD 모드의 윈도우 시퀀스가 필요하지 않는다. 따라서, 모드 스위칭시 블록 사이즈가 다른 윈도우 시퀀스가 요구되지 않아, 부호화 효율이 향상될 수 있다.
따라서, CASE 4에 대해 본 발명의 일실시예에 따른 윈도우 시퀀스 처리 방법은 다음과 같다.
(1) FD Mode의 윈도우 시퀀스와 LPD Mode의 윈도우 시퀀스(LPD_SEQUENCE)는 MDCT folding point를 중심으로 오버랩 애드(overlap-add)될 수 있다.
(2) LPD_SQUENCE와 연결되는 FD 모드의 윈도우 시퀀스는 LPD_SEQUENCE의 마지막 윈도우의 lpd_mode에 따라 변형될 수 있다.
(3) LPD_SEQUENCE와 연결되는 FD 모드의 윈도우 시퀀스에 대한 블록 사이즈는, 즉 MDCT transform 사이즈는, 모두 2048이므로, 2304와 같은 블록이 요구되지 않는다.
본 발명의 일실시예에 따른 복호화기는 부호화기에서 적용한 윈도우 시퀀스를 오버랩 애드(overlap-add)에 동일하게 적용하여 aliasing이 제거된 출력 신호를 얻을 수 있다.
도 24는 본 발명의 실시예에 따른 도 22의 윈도우 시퀀스를 반영한 STOP_1024_SEQUENCE를 도시한 도면이다.
도 24를 참고하면, 이전 프레임의 AAC 모드의 윈도우 시퀀스의 왼쪽 윈도우는 LPD 모드에 따라 각각 라인(2401~2403)으로 변형된다. 라인(2404)은 AAC 모드의 윈도우 시퀀스(2105)인 경우를 의미한다.
본 발명의 일실시예에 따르면, MDCT 계수가 1024이기 때문에, 도 24의 윈도우 시퀀스는 'STOP_1024_SEQUENCE'로 정의되었다. 반면에, 도 3의 RM에 정의되어 있는 윈도우 시퀀스는 블록 사이즈가 2304(MDCT 계수가 1152)이므로, 도 3의 윈도우 시퀀스는 'STOP_1152_SEQUENCE'로 정의되었다.
도 25는 본 발명의 실시예에 따른 도 16 및 도 24의 윈도우 시퀀스를 적용한 결과를 도시한 도면이다.
도 25를 참고하면, 본 발명의 일실시예에 따른, LPD_START_SEQUENCE와 LPD_SEQUENCE 및 STOP_1024_SEQUENCE가 도시되어 있다. 즉, 도 25에 도시된 윈도우 시퀀스는 Mode Switch-1에서 FD MODE->LPD MODE->FD MODE로 모드 스위칭 되었을 때, 처리되는 윈도우 시퀀스를 의미한다.
도 25를 참고하면, LPD_START_SEQUENCE의 오른쪽 윈도우와 STOP_1024_SEQUENCE의 왼쪽 윈도우는 LPD_SEQUENCE에 따라 변형된다. 그리고, LPD_SEQUENCE에 따라 LPD_START_SEQUENCE 및 STOP_1024_SEQUENCE 각각에 대해 오버랩 애드(overlap-add)되는 영역의 간격이 달라진다.
도 26은 본 발명의 실시예에 따라 ACELP에서 FD로 변환될 때 윈도우 형태를 도시한 도면이다.
이전 프레임에 대응하는 LPD_SEQUENCE의 lpd_mode={x,x,x,0}인 경우, 즉, 이전 프레임의 종료 서브 프레임이 ACELP인 경우, 도 26과 같이 LPD_SEQUENCE의 종료 서브 프레임의 윈도우가 라인(2601)에서 라인(2602)으로 변형된다. 그러면, 도 26에 도시된 이전 프레임에 대응하는 LPD_SEQUENCE와 현재 프레임의 윈도우 시퀀스는 오버랩 애드(overlap-add) 된 후 cross folding된다. 여기서 lpd_mode={x, x, x, 0}인 윈도우 시퀀스는 복호화기만으로 처리가 될 수 있다. 왜냐하면, 이는 ACELP 신호는 TDA가 없는 time-domain신호이기 때문이다.
도 27은 본 발명의 실시예에 따라 현재 프레임의 LPD 모드와 다음 프레임의 LPD 모드에 따른 윈도우 시퀀스와 LPC 추출 위치를 도시한 도면이다.
다음 프레임의 LPD_SEQUENCE(2702~2704)의 lpd_mode에 따라 현재 프레임의LPD_SEQUENCE의 오른쪽 윈도우는 변형된다. 도 27에서, 현재 프레임의 LPD_SEQUENCE의 lpd_mode-{3,3,3,3}이다.
도 27에서 볼 수 있듯이, 다음 프레임에서 lpd_mode{3,3,3,3}인 LPD_SEQUENCE(2704)가 연결되는 경우, 현재 프레임에서 LPD_SEQUENCE의 오른쪽 윈도우는 라인(2703)으로 변형된다. 그리고, 다음 프레임에서 lpd_mode{2,2,2,2}인 LPD_SEQUENCE(2705)가 연결되는 경우, 현재 프레임에서 LPD_SEQUENCE의 오른쪽 윈도우는 라인(2702)으로 변형된다. 또한, 다음 프레임에서 lpd_mode{1,1,1,1}인 LPD_SEQUENCE(2706)가 연결되는 경우, 현재 프레임에서 LPD_SEQUENCE의 오른쪽 윈도우는 라인(2701)로 변형된다.
즉, 본 발명의 일실시예에 따르면, LPD MODE에서 LPD MODE로 모드가 변경될 때, 현재 프레임의 LPD_SEQUENCE는 다음 프레임의 LPD_SEQUENCE의 lpd_mode에 따라 변형될 수 있다. 그러면, 현재 프레임에서 변형된 LPD_SEQUENCE는 다음 프레임의 LPD_SEQUENCE와 오버랩 애드(overlap-add)될 수 있다.
도 27에서, 선형예측계수(Linear Prediction Coefficient: LPC)는 256 point의 서브 프레임 단위로 추출된다. 본 발명의 일실시예에 따르면, 윈도우 시퀀스 간에 오버랩 애드(overlap-add)되는 폴딩 포인트는 서브 프레임의 경계에 위치한다. 그러면, LPC도 폴딩 포인트를 시작점으로 설정하여 256point의 서브 프레임 단위로 추출될 수 있다. 현재 프레임의 LPD_SEQUENCE에 대한 LPC 추출 위치는 서브 프레임(2707~2703)에 해당한다. 즉, 본 발명의 일실시예에 따르면, LPC는 폴딩 포인트를 시작점으로 하여 서브 프레임의 경계에 매칭되어 추출될 수 있다. LPC(n)(2707)와 LPC(n+3)(2710)는 해당 서브 프레임 이외에 전체 프레임 중 나머지 영역까지 LPC를 추출할 수 있다.
도 28은 종래의 LPC 추출 위치와 본 발명의 실시예에 따른 LPC 추출 위치를 비교한 도면이다.
도 28(a)는 종래의 LPC 추출 위치를 나타내고, 도 28(b)는 본 발명의 실시예에 따른 LPC 추출 위치를 나타낸다. 도 28(a)에 의하면, LPC는 폴딩 포인트와 상관없이 서브 프레임의 경계로부터 64-point떨어진 위치인 LPC 추출 위치(2803~2806)에서 추출된다. 그리고, 도 28(a)를 참고하면, 윈도우 간 오버랩 애드(overlap-add)되는 영역은 128-point임을 알 수 있다.
도 28(b)에 의하면, LPC는 서브 프레임의 경계에 위치하는 폴딩 포인트를 시작점으로 하여, 서브 프레임에 대응하는 LPC 추출 위치(2803~2806)에서 추출된다. 그리고, 도 28(b)를 참고하면, 윈도우 간 오버랩 애드(overlap-add)되는 영역은 256-point임을 알 수 있다. 따라서, 본 발명에 의하면, LPC 추출을 위한 추가적인 64-point만큼의 정보가 요구되지 않는다.
도 29는 LPD 모드에서 lpd_mode={1, 0, 1, 1}일 경우, 본 발명의 실시예에 따른 윈도우 시퀀스를 도시한 도면이다.
도 29을 참고하면, 첫 번째 서브 프레임에서 ACELP 모드인 경우, 첫 번째 서브 프레임에 대응하는 윈도우(2901)와 두 번째 서브 프레임에 대응하는 윈도우(2902)는 서로 overlap되지 않는다. 다만, 윈도우(2902)의 오른쪽은 세 번째 서브 프레임에 대응하는 윈도우(2903)의 lpd_mode에 따라 결정된다.
그리고, 마지막 서브 프레임 다음에 나타나는 윈도우의 lpd_mode가 ACELP(lpd_mode=0)일 때, 윈도우(2904)는 도 3의 RM에 정의된 윈도우가 적용된다. 반대로, 마지막 서브 프레임 다음에 나타나는 윈도우의 lpd_mode가 ACELP 모드(lpd_mode=0)가 아니면, 윈도우(2904)의 오른쪽은 256만큼 overlap될 수 있도록 변형될 수 있다.
도 30은 LPD 모드에서 lpd_mode={1, 0, 2, 2}일 경우, 본 발명의 실시예에 따른 윈도우 시퀀스를 도시한 도면이다.
lpd_mode=0인 ACELP가 이전 서브 프레임 또는 다음 서브 프레임에서 발생하는 경우, lpd_mode=1, lpd_mode=2 또는 lpd_mode=3인 현재 서브 프레임에 대응하는 윈도우(3002)의 연결 부분의 형태는 표 1과 동일하다.
그리고, 이전 서브 프레임에 대응하는 윈도우(3001)의 lpd_mode=0(ACELP)이고, 다음 서브 프레임의 lpd_mode=1, lpd_mode=2 또는 lpd_mode=3인 경우, 현재 서브 프레임에 대응하는 윈도우(3002)의 오른쪽은 다음 서브 프레임의 lpd_mode에 따라 변형될 수 있다. 그리고, 윈도우(3002)의 왼쪽은 직각 형태가 되어 이전 서브 프레임에 대응하는 윈도우(3001)와 overlap되지 않는다.
도 31은 현재 프레임의 lpd_mode={3, 3, 3, 3}이고 이전 프레임의 lpd_mode={x, x, x, 0}인 경우, 본 발명의 실시예에 따른 윈도우 시퀀스를 도시한 도면이다.
도 31도 도 29 및 도 30과 마찬가지로, 이전 프레임에 대응하는 윈도우(3102)의 lpd_mode=0일 때, 현재 프레임에 대응하는 윈도우(3101)의 형태를 도시한다. 여기서, 현재 프레임에 대응하는 윈도우(3101)의 lpd_mode={3,3,3,3}이다. 윈도우(3101)의 오른쪽은 다음 프레임의 윈도우에 대한 lpd_mode에 따라 변형될 수 있다. 도 31에서, TCX 1024는 다음 프레임에 대응하는 윈도우의 lpd_mode=3인 경우를 의미하고, TCX 512는 다음 프레임에 대응하는 윈도우의 lpd_mode=2인 경우를 의미한다. 그리고, ACELP는 다음 프레임에 대응하는 윈도우의 lpd_mode=0인 경우를 의미한다.
도 32는 본 발명의 실시예에 따라 현재 서브 프레임의 (a) lpd_mode=1(TCX 256), (b) lpd_mode=2(TCX 512) 또는 (c) lpd_mode=3(TCX 1024)인 경우, 이전 서브 프레임 및 다음 서브 프레임의 lpd_mode=0(ACELP)에 따른 윈도우 시퀀스를 도시한 도면이다.
도 32(a)를 참고하면, 현재 프레임의 lpd_mode=1(TCX256)이고, 다음 프레임에 대응하는 윈도우가 ACELP인 경우, 현재 프레임에 대응하는 윈도우의 오른쪽은 라인(3203)이 된다. 만약, 이전 프레임의 lpd_mode=1이고, 다음 프레임에 대응하는 윈도우가 lpd_mode=1인 경우, 현재 프레임에 대응하는 윈도우의 왼쪽은 라인(3202)이고, 오른쪽은 라인(3201)이 된다. 다만, 이전 프레임의 lpd_mode=0(ACELP)인 경우, 현재 프레임에 대응하는 윈도우는 도 29의 윈도우(2902)의 형태를 나타낸다.
이 때, 도 29에서 볼 수 있듯이, 다음 윈도우가 lpd_mode=1인 경우, 윈도우(2902)의 오른쪽은 실선으로 처리되고, 다음 윈도우가 lpd_mode=0인 경우, 윈도우(2902)의 오른쪽은 점선으로 처리될 수 있다.
도 32(b)를 참고하면, 현재 프레임의 lpd_mode=2(TCX512)이고, 다음 프레임에 대응하는 윈도우가 ACELP인 경우, 현재 프레임에 대응하는 윈도우의 오른쪽은 라인(3204)이 된다. 만약, 이전 프레임의 lpd_mode=1인 경우, 현재 프레임에 대응하는 윈도우의 왼쪽은 라인(3207)이 된다. 또한, 다음 프레임의 lpd_mode=1인 경우, 현재 프레임에 대응하는 윈도우의 오른쪽은 라인(3205)이 된다.
만약, 이전 프레임의 lpd_mode=2인 경우, 현재 프레임에 대응하는 윈도우의 왼쪽은 라인(3208)이 된다. 또한, 다음 프레임의 lpd_mode=2인 경우, 현재 프레임에 대응하는 윈도우의 오른쪽은 라인(3206)이 된다.
다만, 이전 프레임의 lpd_mode=0(ACELP)인 경우, 현재 프레임에 대응하는 윈도우는 도 30의 윈도우(3002)의 형태를 나타낸다. 이 때, 도 30에서 볼 수 있듯이, 윈도우(3002)의 오른쪽은 다음 윈도우의 lpd_mode에 따라 형태가 변경되는 것을 알 수 있다.
그리고, 현재 프레임의 lpd_mode가 1 또는 2인 경우, 다음 프레임의 lpd_mode가 현재 프레임의 lpd_mode보다 크다면, 현재 프레임에 대응하는 윈도우는 다음 프레임의 lpd_mode에 매칭되도록 변형될 수 있다.
예를 들어, 현재 프레임의 lpd_mode가 1이고, 다음 프레임의 lpd_mode가 2인 경우, 도 32에서 현재 프레임에 대응하는 윈도우의 오른쪽은 라인(3201)이 된다. 그리고, 현재 프레임의 lpd_mode가 2이고, 다음 프레임의 lpd_mode가 3인 경우, 도 32에서 현재 프레임에 대응하는 윈도우의 오른쪽은 라인(3204)이 된다.
도 32(c)를 참고하면, 현재 프레임의 lpd_mode=3(TCX1024)이고, 다음 프레임에 대응하는 윈도우가 ACELP인 경우, 현재 프레임에 대응하는 윈도우의 오른쪽은 라인(3209)이 된다. 만약, 이전 프레임의 lpd_mode=1인 경우, 현재 프레임에 대응하는 윈도우의 왼쪽은 라인(3213)이 된다. 또한, 다음 프레임의 lpd_mode=1인 경우, 현재 프레임에 대응하는 윈도우의 오른쪽은 라인(3210)이 된다.
만약, 이전 프레임의 lpd_mode=2인 경우, 현재 프레임에 대응하는 윈도우의 왼쪽은 라인(3214)이 된다. 또한, 다음 프레임의 lpd_mode=2인 경우, 현재 프레임에 대응하는 윈도우의 오른쪽은 라인(3211)이 된다.
만약, 이전 프레임의 lpd_mode=3인 경우, 현재 프레임에 대응하는 윈도우의 왼쪽은 라인(3215)이 된다. 또한, 다음 프레임의 lpd_mode=3인 경우, 현재 프레임에 대응하는 윈도우의 오른쪽은 라인(3212)이 된다.
다만, 이전 프레임의 lpd_mode=0(ACELP)인 경우, 현재 프레임에 대응하는 윈도우는 도 31의 윈도우(3101)의 형태를 나타낸다. 이 때, 도 31에서 볼 수 있듯이, 윈도우(3101)의 오른쪽은 다음 프레임의 lpd_mode에 따라 형태가 변경되는 것을 알 수 있다.
결론적으로, 도 32에 도시된 현재 프레임에 대응하는 윈도우는 중심선을 기준으로 왼쪽은 이전 프레임의 lpd_mode에 따라 변경되고, 오른쪽은 다음 프레임의 lpd_mode에 따라 변경될 수 있다.
도 33은 현재 서브 프레임의 lpd_mode가 1(TCX 256)이고, 이전 서브 프레임의 lpd_mode가 0일 때, 본 발명의 실시예에 따른 윈도우 시퀀스를 도시한 도면이다.
도 33에 의하면, ACELP 모드가 현재 프레임의 이전 프레임과 다음 프레임이 나타나더라도, 현재 프레임에 대한 윈도우는 모양만 달리할 수 있다. 예를 들어, 현재 프레임의 lpd_mode=1(TCX256)이고, 이전 프레임이 ACELP 모드인 경우, 현재 프레임에 대응하는 윈도우(3301)의 왼쪽은 직각 형태가 될 수 있다. 그리고, 현재 프레임에 대응하는 윈도우(3301)의 오른쪽은 다음 프레임의 lpd_mode(TCX256, TCX512, TCX1024)에 따라 변형될 수 있다.
도 34는 현재 서브 프레임의 lpd_mode가 2(TCX 512)이고, 이전 서브 프레임의 lpd_mode가 0일 때, 본 발명의 실시예에 따른 윈도우 시퀀스를 도시한 도면이다.
도 34에 의하면, ACELP 모드가 현재 프레임의 이전 프레임과 다음 프레임이 나타나더라도, 현재 프레임에 대한 윈도우는 모양만 달리할 수 있다. 예를 들어, 현재 프레임의 lpd_mode=2(TCX512)이고, 이전 프레임이 ACELP 모드인 경우, 현재 프레임에 대응하는 윈도우(3401)의 왼쪽은 직각 형태가 될 수 있다. 그리고, 현재 프레임에 대응하는 윈도우(3401)의 오른쪽은 다음 프레임의 lpd_mode(TCX512, TCX1024)에 따라 변형될 수 있다.
도 35는 현재 서브 프레임의 lpd_mode가 3(TCX 1024)이고, 이전 서브 프레임의 lpd_mode가 0일 때, 본 발명의 실시예에 따른 윈도우 시퀀스를 도시한 도면이다.
도 35에 의하면, ACELP 모드가 현재 프레임의 이전 프레임과 다음 프레임이 나타나더라도, 현재 프레임에 대한 윈도우는 모양만 달리할 수 있다. 예를 들어, 현재 프레임의 lpd_mode=3(TCX1024)이고, 이전 프레임이 ACELP 모드인 경우, 현재 프레임에 대응하는 윈도우(3501)의 왼쪽은 직각 형태가 될 수 있다. 그리고, 현재 프레임에 대응하는 윈도우(3501)의 오른쪽은 다음 프레임의 lpd_mode(TCX256, TCX512, TCX1024)에 따라 변형될 수 있다.
도 36은 도 33 내지 도 35의 윈도우 시퀀스를 결합한 결과를 도시한 도면이다.
도 36(a)는 현재 프레임의 lpd_mode가 1인 경우, 도 36(b)는 현재 프레임의 lpd_mode가 2인 경우, 도 36(c)는 현재 프레임의 lpd_mode가 3인 경우를 나타낸다. 이 때, 도 36은 현재 프레임에 대응하는 윈도우의 왼쪽이 이전 프레임의 lpd_mode에 따라 결정되는 경우와 현재 프레임에 대응하는 윈도우의 오른쪽이 다음 프레임의 lpd_mode에 따라 결정되는 경우를 도시한다.
도 37은 본 발명의 실시예에 따라 모드 스위칭시 윈도우 시퀀스를 도시한 도면이다.
도 1의 Mode Switch-1은 입력 신호의 프레임에 따라 (a) FD와 FD간, (b)LPD에서 FD로, (c)FD에서 LPD로 모드를 스위칭할 수 있다. 그리고, 도 2의 Mode Switch-2는 입력 신호의 서브 프레임에 따라 LPD 모드와 LPD 모드 간 모드 스위칭을 할 수 있다. 이 때, LPD 모드가 0이면, LPD 모드는 ACELP이고, LPD 모드가 0이 아닌 경우, LPD 모드는 wLPT 또는 TCX 일 수 있다.
도 37은 Mode Switch-1과 Mode Switch-2에서 모드 스위칭이 발생하는 경우, Block-Switching-1과 Block Switching-2에서 처리하는 윈도우 시퀀스를 도시한다. 도 37에 따르면, 폴딩 포인트는 서브 프레임의 경계에 위치하고, 프레임의 크기는 1024임을 알 수 있다. 도 37의 경우, 본 발명의 원리를 간략하게 정리하기 위해서, 윈도우 간 오버랩 애드(overlap-add)되는 영역의 간격은 128-point만을 표현하였다.
도 38은 본 발명의 실시예에 따라 도 3의 LPD_START_SEQUENCE 및 STOP_1152_SEQUENCE가 변형된 결과를 도시한 도면이다.
도 38(a)는 도 3의 LPD_START_SEQUENCE가 변형된 형태로, MDCT transform size는 1024이다. 도 38(a)에서, LPD_START_SEQUENCE는 도 16과 동일하며, 다음에 나타나는 LPD_SEQUENCE의 lpd_mode에 따라 LPD_START_SEQUENCE의 오른쪽은 라인(3802~3804)으로 변형된다. 라인(3801)은 LPD_SEQUENCE와의 오버랩 애드(overlap-add)되는 영역의 간격이 128point임을 나타내며, 이는 도 37의 FD to wLPT(또는 TCX)인 경우의 윈도우 시퀀스와 동일하다.
도 38(b)는 도 3의 STOP_1024_SEQUENCE가 변형된 형태로, MDCT 변형 사이즈(transform size)는 1024이다. 참고로, 도 3에서는 MDCT의 크기가 1152이므로, 윈도우 시퀀스도 "STOP_1152_SEQUENCE"로 정의되었다. 도 38(b)에서, STOP_1024_SEQUENCE는 도 24과 동일하며, 다음에 나타나는 LPD_SEQUENCE의 lpd_mode에 따라 LPD_START_SEQUENCE의 오른쪽은 라인(3805~3807)으로 변형된다. 라인(3808)은 LPD_SEQUENCE와의 오버랩 애드(overlap-add)되는 영역의 간격이 128point임을 나타내며, 이는 도 37의 wLPT(또는 TCX) or FD인 경우의 윈도우 시퀀스와 동일하다.
도 39는 종래의 방법에 따라 모드 스위칭시 윈도우 시퀀스를 도시한 도면이다.
도 37과 비교해 볼 때, FD 모드에서 LPD 모드로 모드 스위칭시, 64 point만큼 time-domain 오버랩 애드(overlap-add)로 인하여, 전반적으로 프레임 alignment 가 어긋나 있다. 또한 wLPC(TCX) to FD 변환 시에도, FD 모드의 window size가 2304(코딩계수 1152)로 본 발명에서 제안하는 window size 2048(코딩계수 1024)보다 64 point만큼 코딩효율이 떨어지고 있음을 확인할 수 있다.
이하에서는, 코딩 효율을 향상시키기 위한 윈도우 시퀀스를 전제로 천이 구간이 발생할 때 윈도우의 오버랩 영역(overlap area)의 길이를 조절하는 방법에 대해 구체적으로 설명하기로 한다. 특히, 본 발명은 MDCT 기반의 음성/오디오 통합 부호화기(USAC)에서 입력 신호의 모드가 변경될 때 적용되는 윈도우 시퀀스 간의 오버랩 영역을 조절하여 부호화 효율을 높이는 것과 동시에 윈도우의 오버랩 영역에 천이 구간이 발생하는 경우 동적으로 오버랩 영역의 길이를 조절하여 노이즈 발생을 억제할 수 있다.
특히, 음성/오디오 통합 부호화기가 2가지의 stage로 신호를 부호화할 때 문제가 발생할 수 있다. 구체적으로, 음성/오디오 통합 부호화기는 인트라 프레임 분석(intra-frame Analysis)과 프레임에 윈도우 적용(frames after windowing)이라는 2개의 stage를 거쳐 신호를 부호화할 수 있다.
먼저 인트라 프레임 분석(intra-frame Analysis)에서, 음성/오디오 통합 부호화기는 부호화 이득을 최대로 하기 위해 슈퍼 프레임(super frame)을 적절한 길이를 가지는 서브 프레임으로 분할할 수 있다. 그러면, 프레임에 윈도우 적용(frames after windowing)에서, 음성/오디오 통합 부호화기는 각 서브 프레임 별로 미리 정의되어 있는 윈도우 시퀀스를 적용할 수 있다.
천이 구간은 음향 신호에서 프레임 각각의 성질이 바뀌는 것으로 인해 발생하는것으로 매우 짧은 시간 구간 동안 발생한다. 일반적으로, 부호화의 이득은 슈퍼 프레임을 보다 긴 서브 프레임으로 분할하는 경우 향상되나, 프레임에 윈도우 적용(frames after windowing)에서 서브 프레임 간 윈도우를 오버랩시키는 경우 천이 구간으로 인해 프리 에코(Pre-echo)라는 잡음이 발생할 수 있다. 그래서, 서브 프레임의 경계에서 천이 구간이 발생하는 경우, 음성/오디오 통합 부호화기는 인트라 프레임 분석에서 슈퍼 프레임을 보다 짧은 길이의 서브 프레임으로 분할할 수 있다.
본 발명에서 설명한 윈도우 시퀀스는 AAC 기반의 오디오 부호화 방식에서 긴 프레임과 짧은 프레임들 간의 전환(converting) 기법을 활용한다. 또한, 오디오 부호화에 적합한 LPD 모드도 하나의 수퍼 프레임 전체를 하나의 프레임으로 사용하는 경우(TCX 80, lpd_mode=3), 하나의 수퍼 프레임을 4개의 짧은 서브 프레임으로 나누어 사용하는 경우(TCX 20, lpd_mode=1 또는 ACELP)를 모두 포함함으로써 천이 구간에 효율적으로 대처할 수 있다.
본 발명에서 설명한 윈도우 시퀀스는 천이 구간을 대처할 수 있지만, 부호화 효율을 높이기 위해 오버랩 영역의 길이가 긴 윈도우를 적용하는 경우 천이 구간에서의 부호화 이득은 감소할 뿐만 아니라, 천이 구간에서의 잡음 문제도 존재한다. 따라서, 본 발명의 음성/오디오 통합 부호화기는 부호화 효율을 향상시키기 위해 오버랩 영역의 길이가 긴 윈도우를 적용하는 경우에도 천이 구간을 효과적으로 대처할 수 있는 방법을 제안한다.
도 40은 본 발명의 일실시예에 따라 천이 구간을 포함하는 비트 스트림을 생성하는 음성/오디오 통합 부호화기의 전체 구성을 도시한 도면이다.
도 40을 참고하면, 음성/오디오 통합 부호화기는 천이 구간 검출부(4010), 제1 부호화부(4020), 제2 부호화부(4030), 제N 부호화부(4040), 천이 구간 판단부(4050) 및 비트스트림 포매터(4060)를 포함할 수 있다.
천이 구간 검출부(4010)는 입력 신호인 Input PCM Sigal로부터 천이 구간을 검출할 수 있다. 일례로, 천이 구간 검출부(4010)는 입력 신호를 구성하는 서브 프레임을 구성하는 수퍼 프레임의 경계에 인접한 위치에서 천이 구간을 검출할 수 있다.
그리고, 제1 부호화부(4020)와 제2 부호화부(4030)는 입력 신호를 특정 부호화 방식에 따라 각각 부호화한 후, 부호화 결과로부터 천이 구간을 검출할 수 있다. 일례로, 제1 부호화부(4020)와 제2 부호화부(4030)는 스펙트럼 대역폭 확장(spectral bandwidth extension: SBE) 부호화 또는 파라미터 스테레오(parametric stereo: PS) 부호화 중 어느 하나의 부호화 방식에 따라 입력 신호를 부호화할 수 있다.
여기서, SBE 부호화는 인간의 청각 특성이 고주파수 대역에서 저주파수 대역보다 상대적으로 낮은 해상력을 가진다는 점에 기반한 부호화 방식이다. 구체적으로, SBE 부호화에 의하면, 광대역 오디오 입력 신호를 QMF(Quadrature Mirror Filter) 분석을 통해 고대역 신호를 포락선으로 표현하는 제어 파라미터와 저대역으로 제한된 오디오 신호가 생성된다. 그러면, 저대역으로 제한된 오디오 신호는 AAC(Advanced Audio Coding)의 코어 부호화를 통해 부호화되고, 고대역에 대응하는 오디오 신호는 SBE를 위한 부가 데이터로 표현되어 복호화기에 전달된다. 그러면, 복호화기는 코어 대역인 저대역의 오디오 신호의 스펙트럼을 먼저 생성하고, 포락선 정보를 이용하여 고대역의 오디오 신호를 생성함으로써 광대역 오디오 신호를 복원할 수 있다.
그리고, PS 부호화는 입력 신호의 채널간 관계 정보를 파라미터로 표현하여 다운믹스된 모노 신호에서 가상의 스테레오 채널을 생성하는 기술이다. PS 부호화는 스테레오 입력 신호를 분석하여 스테레오 음성을 제어할 수 있는 파라미터를 추출하고, 추출된 파라미터를 다운믹스된 모노 신호와 함께 복호화기에 전달할 수 있다. 이 때, 사용되는 파라미터는 채널 간의 신호 세기 차이(IID: Inter-Channel Intensity Difference), 채널간 상호 상관 관계(ICC: Inter-channel Cross Correlation), 채널간 위상 차이(IPD: Inter-channel Phase Difference) 및 채널 사이의 전체적인 위상 분포(OPD: Overall Phase Difference) 등이 있다.
그러면, 천이 구간 판단부(4050)는 천이 구간 검출부(4010), 제1 부호화부(4020)와 제2 부호화부(4030)로부터 검출된 천이 구간 중 최종적으로 영향이 큰 천이 구간을 판단할 수 있다. 즉, 천이 구간으로 인해 프리 에코라는 잡음이 발생하기 때문에, 천이 구간 판단부(4050)는 이러한 잡음이 발생하는 정도를 통해 최종적으로 천이 구간을 판단할 수 있다.
제N 부호화부(4040)는 천이 구간 판단부(4050)에서 판단된 천이 구간에 기초하여 윈도우의 오버랩 영역의 길이를 조절하여 입력 신호에 대해 코어 부호화를 수행할 수 있다. 일례로, 제N 부호화부(4040)는 폴딩 포인트를 중심으로 천이 구간만큼 길이가 감소된 오버랩 영역을 가지는 윈도우를 적용하여 코어 부호화할 수 있다. 구체적으로, 제N 부호화부(4040)는 이전 서브 프레임의 LPD 모드와 다음 서브 프레임의 LPD 모드에 따라 변형되는 윈도우를 부호화하고자 하는 현재 서브 프레임에 적용하여 입력 신호를 코어 부호화할 수 있다.
그러면, 비트스트림 포매터(4060)는 제1 부호화부(4020), 제2 부호화부(4030) 내지 제N 부호화부(4040)에서 부호화된 결과와 천이 구간 판단부(4050)를 통해 도출된 최종적인 천이 구간을 포함하는 비트스트림을 생성할 수 있다. 즉, 본 발명의 일실시예에 따른 음성/오디오 통합 부호화기는 복호화 과정을 위해 비트스트림에 천이 구간을 포함시킬 수 있다.
도 41은 본 발명의 일실시예에 따라 TCX 80에 대응하는 프레임의 경계에서 천이 구간이 발생하는 경우 윈도우의 오버랩 영역을 조절하는 과정을 도시한 도면이다.
이 때, 도 41은 4개의 연속적인 수퍼 프레임을 TCX 80 (lpd_mode=3)으로 결정하는 경우, 윈도우의 오버랩 영역을 조절하는 과정을 나타낸다.
하나의 LPD 모드에 대응하는 수퍼 프레임(4110)은 신호의 특성에 따라 4개까지의 서브 프레임(4111, 4112, 4113, 4114)으로 분할될 수 있다. 구체적으로, LPD 모드에 대해 폐루프 단계(closed-loop stage)에서 수퍼 프레임을 서브 프레임으로 분할한 결과들 각각에 대한 부호화 이득을 계산함으로써, 실제로 부호화할 때의 수퍼 프레임을 분할하는 방식이 결정된다. 이 때, 수퍼 프레임 내에서 천이 구간이 발생하는 경우, 음성/오디오 통합 부호화기는 폐루프 단계(closed-loop stage)에서 상대적으로 짧은 길이의 서브 프레임으로 분할함으로써 천이 구간을 고려하여 효율적으로 부호화할 수 있다.
반면에, 수퍼 프레임과 수퍼 프레임 사이에 천이 구간(4130)이 발생하는 경우, LPD 모드에서 폐루프 단계(closed-loop stage)는 천이 구간(4130)을 검출하지 못할 수 있다. 이 때, 부호화 시에 수퍼 프레임 간에 적용되는 윈도우의 오버랩 영역(4121)이 상대적으로 긴 경우, 도 41의 current encoding stage(4120)와 같이 넓은 영역에서 분산되는 잡음이 발생할 수 있다.
따라서, 음성/오디오 통합 부호화기는 Reduce Overlap Size (4140)과 같이 윈도우잉 및 오버랩(windowing & overlapping) 이전에 천이 구간을 검출하는 알고리즘을 수행하여 수퍼 프레임 간 천이 구간(4130)을 검출하고, 검출된 천이 구간(4130)에 따라 윈도우의 오버랩 영역(4121)의 길이를 조절하여 오버랩 영역(4141)을 도출할 수 있다. 그러면, 음성/오디오 통합 부호화기는 오버랩 영역(4141)을 가지는 윈도우를 적용하여 부호화함으로써, 상대적으로 긴 길이의 윈도우를 사용하여 부호화 효율을 높임과 동시에, 천이 구간(4130)에 대응하는 오버랩 영역(4141)을 적용하여 불필요한 잡음을 줄일 수 있다.
도 42는 본 발명의 일실시예에 따라 TCX 20에 대응하는 프레임의 경계에서 천이 구간이 발생하는 경우 윈도우의 오버랩 영역을 조절하는 과정을 도시한 도면이다.
도 42를 참고하면, 하나의 수퍼 프레임(4210)이 4개의 TCX 20(lpd_mode=1)에 대응하는 서브 프레임(4211, 4212, 4213, 4214)으로 분할되는 경우, 천이 구간(4230)을 고려하여 윈도우의 오버랩 영역(4221)을 조절하는 과정을 나타낸다.
도 42의 경우, 4개의 서브 프레임 중 세번째 서브 프레임(4213)과 네번째 서브 프레임(4214) 사이에 천이 구간(4230)이 발생하였다고 가정한다. 그러면, 음성/오디오 통합 부호화기는 Reduce Overlap Size(4240)을 수행하여 current encoding stage(4220)에서 윈도우의 오버랩 영역(4221)의 길이를 천이 구간(4230)에 따라 조절하여 오버랩 영역(4241)을 도출할 수 있다. 그러면, 음성/오디오 통합 부호화기는 오버랩 영역(4241)을 가지는 윈도우를 적용하여 부호화를 수행할 수 있다.
결국, 도 41은 수퍼 프레임들 사이에 천이 구간이 발생하는 경우, 윈도우의 오버랩영역의 길이를 조절하는 과정을 나타내며, 도 42는 수퍼 프레임을 구성하는 서브 프레임들 사이에 천이 구간이 발생하는 경우, 윈도우의 오버랩 영역의 길이를 조절하는 과정을 나타낸다.
도 43은 본 발명의 일실시예에 따라 윈도우의 오버랩 영역의 길이가 256일 때 천이 구간에 따라 조절하는 과정을 도시한 도면이다.
도 43 내지 도 45는 윈도우의 오버랩 영역의 길이가 긴 경우, 천이 구간에 따라 오버랩 영역의 길이가 조절되는 과정을 나타낸다.
도 43을 참고하면, 윈도우의 오버랩 영역의 길이가 256 샘플이었으나, 프레임 사이에 천이 구간이 발생함으로써 오버랩 영역의 길이가 2α로 감소한 것을 나타낸다. 이 때, 윈도우의 오버랩 영역은 프레임 사이에 위치한 폴딩 포인트(folding point)를 중심으로 대칭되게 분포한다. 따라서, 윈도우의 오버랩 영역의 길이는 천이 구간에 따라 폴딩 포인트를 중심으로 α만큼 대칭되게 감소될 수 있다. 도 43에서 α는 64 샘플이지만, 신호의 특성에 따라 다양한 값으로 변경될 수 있다.
천이 구간이 발생하지 않은 경우, 음성/오디오 통합 부호화기는 이전 프레임에 적용되는 윈도우(4310)와 이후 프레임에 적용되는 윈도우(4320)을 폴딩 포인트를 중심으로 오버랩시켜 부호화하였다. 이 때, 윈도우(4310)와 윈도우(4320) 간의 오버랩 영역의 길이는 256 샘플이다. 그러나, 천이 구간이 발생하는 경우, 음성/오디오 통합 부호화기는 이전 프레임에 적용되는 윈도우(4311)와 이후 프레임에 적용되는 윈도우(4321)을 폴딩 포인트를 중심으로 오버랩시켜 부호화하였다. 이 때, 이 때, 윈도우(4311)와 윈도우(4321) 간의 오버랩 영역의 길이는 2α 샘플이다.
도 44는 본 발명의 일실시예에 따라 윈도우의 오버랩 영역의 길이가 512일 때 천이 구간에 따라 조절하는 과정을 도시한 도면이다.
도 44를 참고하면, 윈도우의 오버랩 영역의 길이가 512 샘플이었으나, 프레임 사이에 천이 구간이 발생함으로써 오버랩 영역의 길이가 2α로 감소한 것을 나타낸다. 이 때, 윈도우의 오버랩 영역은 프레임 사이에 위치한 폴딩 포인트(folding point)를 중심으로 대칭되게 분포한다. 따라서, 윈도우의 오버랩 영역의 길이는 천이 구간으로 인해 폴딩 포인트를 중심으로 α만큼 대칭되게 감소될 수 있다. 도 44에서 α는 64 샘플이지만, 신호의 특성에 따라 다양한 값으로 변경될 수 있다.
천이 구간이 발생하지 않은 경우, 음성/오디오 통합 부호화기는 이전 프레임에 적용되는 윈도우(4410)와 이후 프레임에 적용되는 윈도우(4420)을 폴딩 포인트를 중심으로 오버랩시켜 부호화하였다. 이 때, 윈도우(4410)와 윈도우(4420) 간의 오버랩 영역의 길이는 512 샘플이다. 그러나, 천이 구간이 발생하는 경우, 음성/오디오 통합 부호화기는 이전 프레임에 적용되는 윈도우(4411)와 이후 프레임에 적용되는 윈도우(4421)을 폴딩 포인트를 중심으로 오버랩시켜 부호화하였다. 이 때, 이 때, 윈도우(4411)와 윈도우(4421) 간의 오버랩 영역의 길이는 2α 샘플이다.
도 45는 본 발명의 일실시예에 따라 윈도우의 오버랩 영역의 길이가 1024일 때 천이 구간에 따라 조절하는 과정을 도시한 도면이다.
윈도우의 오버랩 영역의 길이가 1024 샘플이었으나, 프레임 사이에 천이 구간이 발생함으로써 오버랩 영역의 길이가 2α로 감소한 것을 나타낸다. 이 때, 윈도우의 오버랩 영역은 프레임 사이에 위치한 폴딩 포인트(folding point)를 중심으로 대칭되게 분포한다. 따라서, 윈도우의 오버랩 영역의 길이는 천이 구간으로 인해 폴딩 포인트를 중심으로 α만큼 대칭되게 감소될 수 있다. 도 45에서 α는 64 샘플이지만, 신호의 특성에 따라 다양한 값으로 변경될 수 있다.
천이 구간이 발생하지 않은 경우, 음성/오디오 통합 부호화기는 이전 프레임에 적용되는 윈도우(4510)와 이후 프레임에 적용되는 윈도우(4520)을 폴딩 포인트를 중심으로 오버랩시켜 부호화하였다. 이 때, 윈도우(4510)와 윈도우(4520) 간의 오버랩 영역의 길이는 1024 샘플이다. 그러나, 천이 구간이 발생하는 경우, 음성/오디오 통합 부호화기는 이전 프레임에 적용되는 윈도우(4511)와 이후 프레임에 적용되는 윈도우(4521)을 폴딩 포인트를 중심으로 오버랩시켜 부호화하였다. 이 때, 이 때, 윈도우(4511)와 윈도우(4521) 간의 오버랩 영역의 길이는 2α 샘플이다.
도 46는 본 발명의 일실시예에 따라 천이 구간을 포함하는 비트 스트림을 이용하는 음성/오디오 통합 복호화기의 전체 구성을 도시한 도면이다.
도 46을 참고하면, 비트스트림 파서(4610)는 도 40의 음성/오디오 통합 복호화기로부터 전송된 비트스트림을 파싱하여 천이 구간을 추출할 수 있다. 그러면, 제N 복호화부(4620), 제N-1 복호화부(4630), 또는 제1 복호화부(4640)는 비트스트림 파서(4640)으로부터 도출된 천이 구간을 이용하여 입력 신호를 복호화할 수 있다. 도 46에서 제N 복호화부(4620), 제N-1 복호화부(4630), 또는 제1 복호화부(4640) 각각이 수행하는 복호화 방식은 특정되지 않았다. 만약, 제1 복호화부(4640)가 코어 복호화를 수행하는 경우, 제1 복호화부(4640)는 천이 구간에 따라 윈도우의 오버랩 영역의 길이를 조절하여 입력 신호를 복호화할 수 있다. 이 때, 제1 복호화부(4640)가 수행하는 코어 복호화가프레임 간에 윈도우를 오버랩시키는 복호화인 경우 윈도우의 오버랩 영역의 길이가 조절되고, 윈도우를 오버랩시키지 않는 복호화 모드에서는 윈도우의 오버랩 영역의 길이가 조절될 필요가 없다. 그리고, 제N 복호화부(4620), 제N-1 복호화부(4630)가 각각 스펙트럼 대역폭 확장(spectral bandwidth extension) 복호화 또는 파라미터 스테레오(parametric stereo) 복호화를 수행한다면, 윈도우의 오버랩 영역의 길이를 조절할 필요는 없다.
도 47은 본 발명의 다른 실시예에 따라 부호화 결과를 통해 도출된 천이 구간을 활용하는 음성/오디오 통합 부호화기의 전체 구성을 도시한 도면이다.
이 때, 도 47은 비트스트림에 천이 구간을 포함시키지 않는 경우를 나타낸다. 결국, 도 47의 음성/오디오 통합 부호화기는 천이 구간과 관련된 추가 정보를 비트스트림에 포함시킬 필요가 없어서 압축률이 향상될 수 있다.
전처리부(4710)는 입력 신호를 전처리(Pre-processing)할 수 있다. 이 때, 전처리부(4710)는 수퍼 프레임을 복수의 서브 프레임으로 분할하는 전처리를 수행할 수 있다.
제1 부호화부(4720)는 1-1 서브 부호화부(4721), 1-2 서브 부호화부(4722), 1-N 서브 부호화부(4723)을 포함할 수 있다. 이 때, 1-2 서브 부호화부(4722)는 제2 부호화부(4730)의 2-2 서브 부호화부(4731)가 수행한 부호화 결과로부터 도출된 천이 구간을 활용하여 입력 신호를 부호화할 수 있다. 그리고, 1-2 서브 부호화부(4722)는 제N 부호화부(4740)의 N-1 서브 부호화부(4741)가 수행한 부호화 결과로부터 도출된 천이 구간을 활용하여 입력 신호를 부호화할 수 있다.
즉, 도 47의 음성/오디오 통합 부호화기는 독립적으로 작동하는 부호화부 간에 도출되는 천이 구간을 활용함으로써 천이 구간을 비트스트림에 포함시키지 않아도 된다. 다시 말해서, 비트스트림 포매터(4750)는 부호화된 입력 신호를 비트스트림에 포함시키고, 천이 구간은 비트스트림에 포함시키지 않음으로써 비트스트림에 대한 압축률이 향상된다.
도 48은 본 발명의 다른 실시예에 따라 복호화 결과를 통해 도출된 천이 구간을 활용하는 음성/오디오 통합 복호화기의 전체 구성을 도시한 도면이다.
도 48에서 비트스트림 파서(4810)는 음성/오디오 통합 부호화기로부터 전송된 비트스트림을 파싱할 수 있다. 제1 복호화부(4820)는 1-1 서브 복호화부(4821), 1-2 서브 복호화부(4822), 1-N 서브 복호화부(4823)을 포함할 수 있다. 이 때, 1-2 서브 복호화부(4822)는 제2 복호화부(4830)의 2-2 서브 복호화부(4831)가 수행한 복호화 결과로부터 도출된 천이 구간을 활용하여 입력 신호를 복호화할 수 있다. 그리고, 1-2 서브 복호화부(4822)는 제N 복호화부(4840)의 N-1 서브 복호화부(4841)가 수행한 복호화 결과로부터 도출된 천이 구간을 활용하여 입력 신호를 복호화할 수 있다.
즉, 도 48의 음성/오디오 통합 복호화기는 비트스트림에 천이 구간이 포함되어있지 않더라도 독립적으로 작동하는 복호화부 간에 도출되는 천이 구간을 활용할 수 있다.
도 49는 도 47의 실제 적용례를 도시한 도면이다.
도 49는 음성/오디오 통합 부호화기의 실제 구성을 나타낸다. 신호 상태 결정부(4910)는 입력 신호의 상태를 판단할 수 있다. 즉, 신호 상태 결정부(4910)는 입력 신호가 오디오(audio) 신호에 가까운지 또는 음성(speech) 신호에 가까운지 여부를 결정할 수 있다.
입력 신호는 상태에 따라 코어 부호화부(4940)에서 LPC 기반의 부호화부(4942) 또는 MDCT 기반의 부호화부(4941)중 어느 하나에서 선택적으로 부호화될 수 있다. 일례로, 부호화부(4941)는 MDCT 기반의 AAC(Advanced Audio Coding) 방식에 따라 오디오 신호에 가까운 입력 신호를 부호화할 수 있다. 그리고, LPC 기반의 부호화부(4942)는 LPD(Linear Prediction Domain) 모드에 따라 시간 영역의 부호화부(4944)와 주파수 영역의 부호화부(4943) 중 어느 하나에서 음성에 가까운 입력 신호를 선택적으로 부호화할 수 있다. 일례로, 시간 영역의 부호화부(4944)는 ACELP(Algebraic code excited linear prediction)에 따라 입력 신호를 부호화할 수 있고, 주파수 영역의 부호화부(4943)는 MDCT 기반의 TCX(Transform Coded eXcitation)에 따라 입력 신호를 부호화할 수 있다.
그리고, 스펙트럼 대역폭 확장(spectral bandwidth extension: SBE)을 이용한 부호화부(4930)는 고주파 대역 신호를 포락선으로 표현하는 제어 파라미터와 저주파 대역으로 제한된 오디오 신호가 생성하여 부호화할 수 있다. 또한, 파라미터 스테레오(parametric stereo: PS) 방식을 이용한 부호화부(4920)는 입력 신호의 채널간 관계 정보를 파라미터로 표현하여 다운믹스된 모노 신호에서 가상의 스테레오 채널을 생성하여 부호화할 수 있다.
이 때, MDCT 기반의 부호화를 수행하는 부호화부(4941)와 부호화부(4943)는 부호화부(4930)와 부호화부(4920)가 각각 수행한 부호화 결과로부터 검출된 천이 구간을 이용하여 부호화할 수 있다. MDCT 기반의 부호화는 TDAC를 만족시키기 위해 프레임 간 윈도우를 오버랩시켜 부호화할 수 있다. 그래서, 부호화부(4941)와 부호화부(4943)는 부호화부(4930)와 부호화부(4920)로부터 전달된 천이 구간에 따라 윈도우의 오버랩 영역의 길이를 조절하여 부호화할 수 있다. 결국, 비트스트림 포매터(4950)는 천이 구간을 비트스트림에 포함시키지 않을 수 있다.
도 50은 도 48의 실제 적용례를 도시한 도면이다.
도 50은 음성/오디오 통합 복호화기의 실제 구성을 나타낸다. 비트스트림 파서(5010)는 음성/오디오 통합 부호화기로부터 전달된 비트스트림을 파싱할 수 있다. 코어 복호화부(5020)는 파싱된 비트스트림으로부터 도출된 입력 신호의 상태에 따라 복호화부(5021), 복호화부(5022) 및 복호화부(5023)에서 코어 복호화할 수 있다.
이 때, 복호화부(5021)는 MDCT 기반의 부호화부(4941)에 대응하고, 복호화부(5022)는 주파수 영역의 부호화부(4943)에 대응하며, 복호화부(5023)는 시간 영역의 부호화부(4944)에 대응한다.
MDCT에 따라 윈도우를 중첩시켜 복호화하는 복호화부(5021) 및 복호화부(5022)는 비트스트림에 천이 구간이 포함되어 있지 않더라도, 복호화부(5030)와 복호화부(5040)가 수행한 복호화 결과로부터 도출된 천이 구간을 활용할 수 있다. 그러면, 복호화부(5021) 및 복호화부(5022)는 천이 구간에 따라 윈도우의 오버랩 영역의 길이를 조절하여 복호화할 수 있다. 이 때, 복호화부(5030)는 부호화부(4930)에 대응하는 스펙트럼 대역폭 확장(spectral bandwidth replication: SBR)을 이용하고, 복호화부(5040)는 파라미터 스테레오(parametric stereo: PS) 방식을 이용한다.
결국, 도 50의 음성/오디오 통합 복호화기는 비트스트림에 천이 구간이 포함되지 않더라도, 코어 복호화부(5020)는 독립적으로 수행하는 복호화기로부터 도출된 천이 구간에 따라 천이 구간에 따라 윈도우의 오버랩 영역의 길이를 조절하여 복호화할 수 있다.
도 51은 SBR 복호화 과정을 통해 도출된 천이 구간을 코어 대역 복호화 과정에 적용하는 과정을 도시한 도면이다.
도 51을 참고하면, 복호화부(SBR Decoder 5130)는 스펙트럼 대역폭 확장을 이용하여 인트라 프레임(intra-frame)인 수퍼 프레임 내에서 발생하는 천이 구간을 검출할 수 있다.
비트스트림 파서(Bitstream Parser 5110)는 비트스트림을 파싱하여 입력 신호를 도출할 수 있다. 이 때, 현재 프레임의 SBR Payload는 비트스트림 디멀티플렉서(Bitstream Demultiplexer 5134)를 통해 허프만 복호화 및 역양자화(Huffman Decoding & Dequantization)를 수행하는 복호화부(5135)에 전달된다. 그러면, 복호화부(5135)를 통해 현재 프레임이 복호화되고, 수퍼 프레임인 현재 프레임 내에서 발생하는 천이 구간은 코어 복호화부(5120)에 전달된다. 이 때, 천이 구간은 인트라 프레임(intra-frame)에 관한 것이다.
그리고, 이후 프레임의 SBR Payload는 비트스트림 디멀티플렉서(Bitstream Demultiplexer 5131)를 통해 허프만 복호화 및 역양자화를 수행하는 복호화부(5132)에 전달된다. 그러면, 복호화부(5132)를 통해 이후 프레임이 복호화되고, 수퍼 프레임인 현재 프레임과 수퍼 프레임인 이후 프레임 사이에 발생하는 천이 구간은 코어 복호화부(5120)에 전달된다. 이 때, 천이 구간은 인터 프레임(inter-frame)에 관한 것으로, 이후 프레임의 시작 부분에서 발생한 것이다. 복호화부(5132)를 통해 복호화된 이후 프레임은 복호화부(5133)에 전달된다.
복호화부(5135)를 통해 복호화된 현재 프레임은 포락선 추정부(5137: Envelop Adjuster), 고주파수 생성기(HF Generator 5137), QMF Bank 분석기(QMF Bank Analyzer 5138) 및 QMF Bank 합성기(QMF Bank Synthesizer 5139)를 거쳐 current frame output PCM Signal로 도출된다.
도 52는 LPD 모드와 무관하게 동일한 윈도우의 오버랩 영역을 가지는 윈도우 시퀀스를 도시한 도면이다.
도 52를 참고하면, 음성/오디오 통합 부호화기의 TCX 부호화부는 LPD 모드와무관하게 256 샘플의 오버랩 영역을 갖는 윈도우를 사용한다. 윈도우 시퀀스(5210)를 참고하면, LPD 모드가 TCX 80이 적용되는 수퍼 프레임 이후에 TCX 80이 적용되는 수퍼 프레임이 나타나는 경우, 수퍼 프레임 간에 적용되는 윈도우는 256 샘플의 오버랩 영역을 갖는다. 그리고, 윈도우 시퀀스(5220)를 참고하면, TCX 80이 적용되는 수퍼 프레임 이후에 TCX 40이 적용되는 수퍼 프레임이 나타나는 경우, 수퍼 프레임 간에 적용되는 윈도우는 256 샘플의 오버랩 영역을 갖는다. 또한, 윈도우 시퀀스(5230)를 참고하면, TCX 80이 적용되는 수퍼 프레임 이후에 TCX 20이 적용되는 수퍼 프레임이 나타나는 경우, 수퍼 프레임 간에 적용되는 윈도우는 256 샘플의 오버랩 영역을 갖는다.
여기서, TCX 80은 하나의 수퍼 프레임 내에 하나의 서브 프레임으로 구성되고, TCX 40은 하나의 수퍼 프레임 내에 2개의 서브 프레임으로 구성되며, TCX 20은 하나의 수퍼 프레임 내에 4개의 서브 프레임으로 구성된다.
즉, 도 52는 윈도우의 오버랩 영역의 길이가 LPD 모드에 무관하게 256 샘플을 갖는 경우를 나타낸다.
도 53은 도 52에 비해 상대적으로 긴 길이의 윈도우의 오버랩 영역을 가지는 윈도우 시퀀스를 도시한 도면이다.
LPD 모드와 무관하게 256 샘플의 오버랩 영역을 갖는 윈도우를 이용하는 도 52와 달리, 도 53의 윈도우 시퀀스는 부호화 효율을 높이기 위해 상대적으로 긴 길이의 오버랩 영역을 갖는 윈도우로 구성될 수 있다.
윈도우 시퀀스(5310)를 참고하면, LPD 모드가 TCX 80이 적용되는 수퍼 프레임 이후에 TCX 80이 적용되는 수퍼 프레임이 나타나는 경우, 수퍼 프레임 간에 적용되는 윈도우는 1024 샘플의 오버랩 영역을 갖는다. 그리고, 윈도우 시퀀스(5320)를 참고하면, TCX 80이 적용되는 수퍼 프레임 이후에 TCX 40이 적용되는 수퍼 프레임이 나타나는 경우, 수퍼 프레임 간에 적용되는 윈도우는 512 샘플의 오버랩 영역을 갖는다. 또한, 윈도우 시퀀스(5330)를 참고하면, TCX 80이 적용되는 수퍼 프레임 이후에 TCX 20이 적용되는 수퍼 프레임이 나타나는 경우, 수퍼 프레임 간에 적용되는 윈도우는 256 샘플의 오버랩 영역을 갖는다.
다만, 긴 길이의 오버랩 영역을 갖는 윈도우는 수퍼 프레임 간에만 적용될 수 있다. 음성/오디오 통합 부호화기는 폐루프 단계를 통해 SNR(Signal to Noise Ratio)을 측정하여 LPD 모드인 TCX를 결정할 수 있다. 이 때, 하나의 수퍼 프레임이 하나의 서브 프레임으로 구성되는 TCX 80이 아닌 TCX 40 또는 TCX 20와 같이 여러 개의 서브 프레임으로 분할되었다는 것은 폐루프 단계에서 수퍼 프레임 내에서 발생한 천이 구간을 검출하였다는 것을 의미한다. 따라서, 음성/오디오 통합 부호화기는 여러 개의 서브 프레임으로 분할함으로써 프리 에코와 같은 양자화 잡음의 전파를 막을 수 있다. 다시 말해서, 하나의 수퍼 프레임이 여러 개의 서브 프레임으로 분할되었다는 것은 수퍼 프레임 내에 양자화 잡음이 발생하는 구간인 천이 구간이 존재하는 것을 의미하므로, 긴 샘플 길이의 오버랩 영역을 갖는 윈도우를 적용하는 것보다 상대적으로 짧은 샘플 길이인 256 샘플을 가지는 윈도우를 오버랩하는 것이 보다 효과적이다.
결국, 도 53의 실시예들은 긴 샘플을 갖는 오버랩 영역을 가지는 윈도우를 수퍼 프레임 간에 오버랩할 때만 사용될 수 있다.
도 54는 도 53의 윈도우 시퀀스에 천이 구간에 따라 윈도우의 오버랩 영역의 길이를 조절하는 방식을 적용한 결과를 도시한 도면이다.
도 53에서 제안된 바와 같이, 수퍼 프레임 사이의 긴 샘플 길이의 오버랩 영역을 가지는 윈도우를 적용하면, 천이 구간이 없다면 대체로 좀더 높은 부호화 이득을 나타낸다. 그러나, 수퍼 프레임 사이의 긴 샘플 길이의 윈도우의 오버랩 영역에서 천이 구간이 발생하는 경우, 프리 에코 형식의 잡음을 효과적으로 처리하지 못하는 문제가 있다.
이러한 문제를 해소하기 위해 본 발명은 천이 구간에 따라 윈도우의 오버랩 영역의 길이를 조절할 수 있다. 구체적으로, 도 54와 같이 본 발명의 일실시예에 따른 음성/오디오 통합 부호화기는 수퍼 프레임 사이에 천이 구간이 발생하였는 지 여부를 판단할 수 있다. 만약, 윈도우 시퀀스(5310)의 수퍼 프레임 사이에 천이 구간이 발생하였음에도 천이 구간으로 인해 발생되는 잡음인 프리 에코를 효과적으로 처리하기 위해 수퍼 프레임을 TCX 40 또는 TCX 20에 대응하는 서브 프레임으로 분할할 수 없는 경우, 음성/오디오 통합 부호화기는 수퍼 프레임 간 적용되는 윈도우의 오버랩 영역의 길이를 1024 샘플에서 256 샘플로 조절할 수 있다. 이러한 처리 방식은 천이 구간이 수퍼 프레임의 경계와 가까운 위치에서 발생하는 경우에 효과적으로 적용될 수 있다.
예를 들어, 윈도우 시퀀스(5410)를 참고하면, LPD 모드가 TCX 80이 적용되는 수퍼 프레임 이후에 TCX 80이 적용되는 수퍼 프레임이 나타나고, 수퍼 프레임의 경계에 천이 구간이 발생하는 경우, 수퍼 프레임 간에 1024 샘플에서 256 샘플로 축소된 오버랩 영역을 갖는 윈도우가 적용될 수 있다. 그리고, 윈도우 시퀀스(5420)를 참고하면, TCX 80이 적용되는 수퍼 프레임 이후에 TCX 40이 적용되는 수퍼 프레임이 나타나고 수퍼 프레임의 경계에 천이 구간이 발생하는 경우, 수퍼 프레임 간에 512 샘플에서 256 샘플로 축소된 오버랩 영역을 갖는 윈도우가 적용될 수 있다. 다만, 윈도우 시퀀스(5430)를 참고하면, TCX 80이 적용되는 수퍼 프레임 이후에 TCX 20이 적용되는 수퍼 프레임이 나타나고, 수퍼 프레임의 경계에 천이 구간이 발생하더라도, 수퍼 프레임 간에 원래 길이인 256 샘플인 오버랩 영역을 갖는 윈도우가 적용될 수 있다.
도 54에서 천이 구간의 발생으로 인해 축소되는 오버랩 영역의 길이는 256 샘플로 한정되지 않고 신호의 특성에 따라 달라질 수 있다.
본 발명은 이종의 부호화/복호화 모드를 갖는 통합 오디오/음성 부호화/복호화기에서 종래 기술보다 긴 윈도우 시퀀스를 사용하여 부호화 효율을 증가 시키면서도, 천이 구간에 대한 정보에 따라 천이 구간에서만 오버랩 윈도우의 길이를 축소함으로써 긴 오버랩 윈도우를 사용하는 경우 천이 구간에서 효율이 감소하는 것을 방지할 수 있다
이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 이는 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명 사상은 아래에 기재된 특허청구범위에 의해서만 파악되어야 하고, 이의 균등 또는 등가적 변형 모두는 본 발명 사상의 범주에 속한다고 할 것이다.

Claims (20)

  1. 입력 신호로부터 제1 천이 구간을 검출하는 천이 구간 검출부;
    상기 입력 신호를 부호화하여 부호화한 결과로부터 제2 천이 구간을 검출하는 제1 부호화부;
    상기 제1 천이 구간과 제2 천이 구간을 비교하여 최종적인 천이 구간을 판단하는 천이 구간 판단부;
    상기 판단된 천이 구간에 따라 윈도우의 오버랩 영역의 길이를 조절하여 상기 입력 신호를 코어 부호화하는 제2 부호화부; 및
    상기 코어 부호화된 입력 신호와 상기 최종적인 천이 구간을 포함하는 비트 스트림을 생성하는 비트스트림 포매터
    를 포함하는 음성/오디오 통합 부호화기.
  2. 제1항에 있어서,
    상기 제1 부호화부는,
    스펙트럼 대역폭 확장(spectral bandwidth extension) 부호화 또는 파라미터 스테레오(parametric stereo) 부호화 중 어느 하나를 수행하는 것을 특징으로 하는 음성/오디오 통합 부호화기.
  3. 제1항에 있어서,
    상기 천이 구간 검출부는,
    상기 입력 신호를 구성하는 서브 프레임을 구성하는 슈퍼 프레임의 경계에 인접한 위치에서 천이 구간을 검출하는 것을 특징으로 하는 음성/오디오 통합 부호화기.
  4. 제1항에 있어서,
    상기 제2 부호화부는,
    폴딩 포인트를 중심으로 천이 구간만큼 길이가 감소된 오버랩 영역을 가지는 윈도우를 적용하여 코어 부호화하는 것을 특징으로 하는 음성/오디오 통합 부호화기.
  5. 제4항에 있어서,
    상기 제2 부호화부는,
    이전 서브 프레임의 LPD 모드와 다음 서브 프레임의 LPD 모드에 따라 변형되는 윈도우를 부호화하고자 하는 현재 서브 프레임에 적용하여 입력 신호를 코어 부호화하는 것을 특징으로 하는 음성/오디오 통합 부호화기.
  6. 입력 신호를 부호화하여 부호화한 결과로부터 천이 구간을 검출하는 제1 부호화부;
    상기 검출된 천이 구간에 따라 윈도우의 오버랩 영역의 길이를 조절하여 상기 입력 신호를 코어 부호화하는 제2 부호화부; 및
    상기 코어 부호화된 입력 신호를 포함하는 비트 스트림을 생성하는 비트스트림 포매터
    를 포함하는 음성/오디오 통합 부호화기.
  7. 제6항에 있어서,
    상기 제1 부호화부는,
    스펙트럼 대역폭 확장(spectral bandwidth extension) 부호화 또는 파라미터 스테레오(parametric stereo) 부호화 중 어느 하나를 수행하는 것을 특징으로 하는 음성/오디오 통합 부호화기.
  8. 제6항에 있어서,
    상기 제2 부호화부는,
    폴딩 포인트를 중심으로 천이 구간만큼 길이가 감소된 오버랩 영역을 가지는 윈도우를 적용하여 코어 부호화하는 것을 특징으로 하는 음성/오디오 통합 부호화기.
  9. 제8항에 있어서,
    상기 제2 부호화부는,
    이전 서브 프레임의 LPD 모드와 다음 서브 프레임의 LPD 모드에 따라 변형되는 윈도우를 부호화하고자 하는 현재 서브 프레임에 적용하여 입력 신호를 부호화하는
    것을 특징으로 하는 음성/오디오 통합 부호화기.
  10. 비트스트림을 파싱하여 천이 구간을 추출하는 비트스트림 파서; 및
    상기 천이 구간에 따라 윈도우의 오버랩 영역의 길이를 조절하여 상기 입력 신호를 코어 복호화하는 복호화부
    를 포함하는 음성/오디오 통합 복호화기.
  11. 제10항에 있어서,
    상기 복호화부는,
    폴딩 포인트를 중심으로 천이 구간만큼 길이가 감소된 오버랩 영역을 가지는 윈도우를 적용하여 코어 복호화하는 것을 특징으로 하는 음성/오디오 통합 복호화기.
  12. 제11항에 있어서,
    상기 복호화부는,
    이전 서브 프레임의 LPD 모드와 다음 서브 프레임의 LPD 모드에 따라 변형되는 윈도우를 복호화하고자 하는 현재 서브 프레임에 적용하여 입력 신호를 복호화하는
    것을 특징으로 하는 음성/오디오 통합 복호화기.
  13. 제11항에 있어서,
    상기 천이 구간은,
    입력 신호로부터 도출된 천이 구간 또는 입력 신호의 부호화 결과에 따라 도출된 천이 구간 중 어느 하나인 것을 특징으로 하는 음성/오디오 통합 복호화기.
  14. 비트스트림으로부터 입력 신호를 파싱하는 비트스트림 파서;
    상기 입력 신호를 복호화하여 복호화한 결과로부터 천이 구간을 검출하는 제1 복호화부; 및
    상기 검출된 천이 구간에 따라 윈도우의 오버랩 영역의 길이를 조절하여 상기 입력 신호를 코어 복호화하는 제2 복호화부
    를 포함하는 음성/오디오 통합 복호화기.
  15. 제14항에 있어서,
    상기 제1 복호화부는,
    스펙트럼 대역폭 확장(spectral bandwidth extension) 복호화 또는 파라미터 스테레오(parametric stereo) 복호화 중 어느 하나를 수행하고,
    상기 제2 복호화부는,
    폴딩 포인트를 중심으로 천이 구간만큼 길이가 감소된 오버랩 영역을 가지는 윈도우를 적용하여 코어 복호화하는 것을 특징으로 하는 음성/오디오 통합 복호화기.
  16. 제15항에 있어서,
    상기 제2 복호화부는,
    이전 서브 프레임의 LPD 모드와 다음 서브 프레임의 LPD 모드에 따라 변형되는 윈도우를 복호화하고자 하는 현재 서브 프레임에 적용하여 입력 신호를 복호화하는
    것을 특징으로 하는 음성/오디오 통합 복호화기.
  17. 입력 신호로부터 제1 천이 구간을 검출하는 단계;
    상기 입력 신호를 부호화하여 부호화한 결과로부터 제2 천이 구간을 검출하는 단계;
    상기 제1 천이 구간과 제2 천이 구간을 비교하여 최종적인 천이 구간을 판단하는 단계;
    상기 판단된 천이 구간에 따라 윈도우의 오버랩 영역의 길이를 조절하여 상기 입력 신호를 코어 부호화하는 단계; 및
    상기 코어 부호화된 입력 신호와 상기 최종적인 천이 구간을 포함하는 비트 스트림을 생성하는 단계
    를 포함하는 음성/오디오 통합 부호화 방법.
  18. 입력 신호를 부호화하여 부호화한 결과로부터 천이 구간을 검출하는 단계;
    상기 검출된 천이 구간에 따라 윈도우의 오버랩 영역의 길이를 조절하여 상기 입력 신호를 코어 부호화하는 단계; 및
    상기 코어 부호화된 입력 신호를 포함하는 비트 스트림을 생성하는 단계
    를 포함하는 음성/오디오 통합 부호화 방법.
  19. 비트스트림을 파싱하여 천이 구간을 추출하는 단계; 및
    상기 천이 구간에 따라 윈도우의 오버랩 영역의 길이를 조절하여 상기 입력 신호를 코어 복호화하는 단계
    를 포함하는 음성/오디오 통합 복호화 방법.
  20. 비트스트림으로부터 입력 신호를 파싱하는 단계;
    상기 입력 신호를 복호화하여 복호화한 결과로부터 천이 구간을 검출하는 단계; 및
    상기 검출된 천이 구간에 따라 윈도우의 오버랩 영역의 길이를 조절하여 상기 입력 신호를 코어 복호화하는 단계
    를 포함하는 음성/오디오 통합 복호화 방법.
PCT/KR2010/006931 2009-10-14 2010-10-11 천이 구간에 기초하여 윈도우의 오버랩 영역을 조절하는 통합 음성/오디오 부호화/복호화 장치 및 방법 WO2011046329A2 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US13/502,025 US20120209600A1 (en) 2009-10-14 2010-10-11 Integrated voice/audio encoding/decoding device and method whereby the overlap region of a window is adjusted based on the transition interval

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
KR10-2009-0097592 2009-10-14
KR20090097592 2009-10-14
KR20090110426 2009-11-16
KR10-2009-0110426 2009-11-16
KR1020100089038A KR101137652B1 (ko) 2009-10-14 2010-09-10 천이 구간에 기초하여 윈도우의 오버랩 영역을 조절하는 통합 음성/오디오 부호화/복호화 장치 및 방법
KR10-2010-0089038 2010-09-10

Publications (2)

Publication Number Publication Date
WO2011046329A2 true WO2011046329A2 (ko) 2011-04-21
WO2011046329A3 WO2011046329A3 (ko) 2011-09-01

Family

ID=43876678

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2010/006931 WO2011046329A2 (ko) 2009-10-14 2010-10-11 천이 구간에 기초하여 윈도우의 오버랩 영역을 조절하는 통합 음성/오디오 부호화/복호화 장치 및 방법

Country Status (1)

Country Link
WO (1) WO2011046329A2 (ko)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR970007661B1 (ko) * 1992-03-02 1997-05-15 아메리칸 텔리폰 앤드 텔레그라프 캄파니 스테레오포닉 오디오 신호의 입력세트 코딩방법
KR20050021484A (ko) * 2002-07-16 2005-03-07 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 코딩
KR20090083070A (ko) * 2008-01-29 2009-08-03 삼성전자주식회사 적응적 lpc 계수 보간을 이용한 오디오 신호의 부호화,복호화 방법 및 장치

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR970007661B1 (ko) * 1992-03-02 1997-05-15 아메리칸 텔리폰 앤드 텔레그라프 캄파니 스테레오포닉 오디오 신호의 입력세트 코딩방법
KR20050021484A (ko) * 2002-07-16 2005-03-07 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 코딩
KR20090083070A (ko) * 2008-01-29 2009-08-03 삼성전자주식회사 적응적 lpc 계수 보간을 이용한 오디오 신호의 부호화,복호화 방법 및 장치

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LECOMTE, J ET AL.: 'Efficient cross-fade windows for transitions between LPC-based and non- LPC based audio coding' AUDIO ENGINEERING SOCIETY CONVENTION PAPER 7712 07 May 2007, MUNICH, GERMANY, *

Also Published As

Publication number Publication date
WO2011046329A3 (ko) 2011-09-01

Similar Documents

Publication Publication Date Title
WO2013183977A1 (ko) 프레임 에러 은닉방법 및 장치와 오디오 복호화방법 및 장치
WO2010062123A2 (ko) 모드 스위칭에 기초하여 윈도우 시퀀스를 처리하는 통합 음성/오디오 부/복호화기
WO2014046526A1 (ko) 프레임 에러 은닉방법 및 장치와 오디오 복호화방법 및 장치
WO2010087614A2 (ko) 오디오 신호의 부호화 및 복호화 방법 및 그 장치
WO2010107269A2 (ko) 멀티 채널 신호의 부호화/복호화 장치 및 방법
WO2012091464A1 (ko) 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법
WO2012144878A2 (en) Method of quantizing linear predictive coding coefficients, sound encoding method, method of de-quantizing linear predictive coding coefficients, sound decoding method, and recording medium
WO2012144877A2 (en) Apparatus for quantizing linear predictive coding coefficients, sound encoding apparatus, apparatus for de-quantizing linear predictive coding coefficients, sound decoding apparatus, and electronic device therefor
WO2016018058A1 (ko) 신호 부호화방법 및 장치와 신호 복호화방법 및 장치
AU2012246799A1 (en) Method of quantizing linear predictive coding coefficients, sound encoding method, method of de-quantizing linear predictive coding coefficients, sound decoding method, and recording medium
WO2010147436A2 (en) Context-based arithmetic encoding apparatus and method and context-based arithmetic decoding apparatus and method
WO2013058635A2 (ko) 프레임 에러 은닉방법 및 장치와 오디오 복호화방법 및 장치
WO2012036487A2 (en) Apparatus and method for encoding and decoding signal for high frequency bandwidth extension
WO2010005254A2 (ko) 부호화 방식 결정 방법 및 장치
WO2013002623A4 (ko) 대역폭 확장신호 생성장치 및 방법
WO2010008229A1 (ko) 포스트 다운믹스 신호를 지원하는 다객체 오디오 부호화 장치 및 복호화 장치
WO2015170899A1 (ko) 선형예측계수 양자화방법 및 장치와 역양자화 방법 및 장치
EP2707875A2 (en) Noise filling and audio decoding
WO2014148844A1 (ko) 단말 장치 및 그의 오디오 신호 출력 방법
WO2014148845A1 (ko) 오디오 신호 크기 제어 방법 및 장치
WO2016204581A1 (ko) 저연산 포맷 변환을 위한 인터널 채널 처리 방법 및 장치
WO2015093742A1 (en) Method and apparatus for encoding/decoding an audio signal
WO2022158943A1 (ko) 다채널 오디오 신호 처리 장치 및 방법
WO2010032992A2 (ko) Mdct기반의 코너와 이종의 코더간 변환에서의 인코딩 장치 및 디코딩 장치
WO2014148848A2 (ko) 오디오 신호 크기 제어 방법 및 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10823568

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 13502025

Country of ref document: US

NENP Non-entry into the national phase in:

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 10823568

Country of ref document: EP

Kind code of ref document: A2