WO2009096713A2 - 적응적 lpc 계수 보간을 이용한 오디오 신호의 부호화, 복호화 방법 및 장치 - Google Patents

적응적 lpc 계수 보간을 이용한 오디오 신호의 부호화, 복호화 방법 및 장치 Download PDF

Info

Publication number
WO2009096713A2
WO2009096713A2 PCT/KR2009/000431 KR2009000431W WO2009096713A2 WO 2009096713 A2 WO2009096713 A2 WO 2009096713A2 KR 2009000431 W KR2009000431 W KR 2009000431W WO 2009096713 A2 WO2009096713 A2 WO 2009096713A2
Authority
WO
WIPO (PCT)
Prior art keywords
audio signal
current frame
linear prediction
prediction coding
coefficients
Prior art date
Application number
PCT/KR2009/000431
Other languages
English (en)
French (fr)
Other versions
WO2009096713A3 (ko
Inventor
Jong-Hoon Jeong
Geon-Hyoung Lee
Chul-Woo Lee
Nam-Suk Lee
Han-Gil Moon
Original Assignee
Samsung Electronics Co,. Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co,. Ltd. filed Critical Samsung Electronics Co,. Ltd.
Publication of WO2009096713A2 publication Critical patent/WO2009096713A2/ko
Publication of WO2009096713A3 publication Critical patent/WO2009096713A3/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients

Definitions

  • the present invention relates to encoding and decoding of an audio signal, and more particularly, by performing interpolation of linear predictive coding (LPC) coefficients adaptively according to whether a transient signal is present in an audio signal in a current frame. It relates to a method and apparatus for encoding or decoding an audio signal.
  • LPC linear predictive coding
  • an audio signal is divided and processed in a predetermined time unit called a frame.
  • a frame When an audio signal is processed in units of frames, discontinuous points may be generated between successive frames due to a quantization error or the like, thereby degrading sound quality. Therefore, various algorithms have been proposed to prevent discontinuity between adjacent frames.
  • interpolation between linear prediction coding coefficients of adjacent frames is performed to prevent sound quality deterioration due to rapid change between linear prediction coding coefficients. do.
  • Interpolation between linear prediction coding coefficients is to prevent a change in a source model generated through analysis of an input audio signal, and tracing changes in the trajectories of poles on the Z-domain where the linear prediction coding coefficients are located. ) is done by In general, interpolation of linear prediction coding coefficients is performed through Line Spectral Frequency (LSF) or Line Spectral Pair (LSP) transformation.
  • LSF Line Spectral Frequency
  • LSP Line Spectral Pair
  • 1A and 1B are reference diagrams for explaining a problem occurring during interpolation of linear prediction coding coefficients according to the related art.
  • 1A and 1B are reference diagrams for explaining a problem occurring during interpolation of linear prediction coding coefficients according to the related art.
  • FIG. 2 is a block diagram showing the configuration of an audio signal encoding apparatus according to the present invention.
  • FIG. 3 is a block diagram specifically illustrating the configuration of the window determiner 220 of FIG. 2 .
  • FIG. 4 is a flowchart illustrating a process of determining a window to be applied to a current frame according to the present invention
  • FIG. 5 is a reference diagram for explaining a process of determining a transient section existing in the current frame according to the present invention.
  • FIG. 6 is a reference diagram for explaining an embodiment of a process for determining a window to be applied to a current frame according to the present invention.
  • FIG. 7 is a flowchart illustrating an audio signal encoding method according to the present invention.
  • FIG. 8 is a block diagram illustrating an audio signal decoding apparatus according to the present invention.
  • FIG. 9 is a reference diagram for explaining an interpolation and overlapping/addition operation of selective linear prediction coding coefficients according to the present invention.
  • FIG. 10 is a flowchart illustrating a method of decoding an audio signal according to the present invention.
  • the problem to be solved by the present invention is to provide a method and apparatus for encoding and decoding an audio signal that improves the efficiency of predictive modeling of linear prediction coding by selectively performing interpolation of linear prediction coding coefficients within a frame in which a transient signal exists.
  • the present invention is characterized in that unnecessary noise is prevented through interpolation of linear prediction coding coefficients in the transient period by selectively performing interpolation of the linear prediction coding coefficients according to the presence or absence of the transient period in the current frame.
  • unnecessary noise such as pre-echo generated during interpolation of linear prediction coding coefficients in the transient period can be removed by adaptively changing the size of the window based on the transient period.
  • by adding a signal generated through linear prediction coding synthesis using linear prediction coding coefficients of each adjacent frame without interpolating the linear prediction coding coefficients with respect to the signal of the transient period discontinuity of the audio signal in the transient period to improve sound quality.
  • An audio signal encoding method includes: determining a window applied to the current frame according to the characteristics of the audio signal of the current frame; performing windowing by applying the determined window to the audio signal of the current frame; outputting linear prediction coefficients of the audio signal of the current frame by performing linear predictive coding (LPC) analysis on the windowed audio signal of the current frame; and selectively interpolating the linear prediction coding coefficients using the linear prediction coding coefficients of the audio signal of the current frame and the linear prediction coding coefficients of the audio signal of the adjacent frame according to the characteristics of the audio signal of the current frame.
  • LPC linear predictive coding
  • an audio signal encoding apparatus comprising: a window determiner configured to determine a window applied to the current frame according to characteristics of the audio signal of the current frame; a window application unit configured to perform windowing by applying the determined window to the audio signal of the current frame; a linear prediction coding analyzer for outputting linear prediction coefficients of the audio signal of the current frame by performing a linear predictive coding (LPC) analysis on the windowed audio signal of the current frame; and linear prediction coding synthesis for selectively interpolating the linear prediction coding coefficients using the linear prediction coding coefficients of the audio signal of the current frame and the linear prediction coding coefficients of the audio signal of the adjacent frame according to the characteristics of the audio signal of the current frame.
  • LPC linear predictive coding
  • a method for decoding an audio signal comprising: determining whether a transient section exists in a current frame to be decoded using transient section information included in a bitstream; and selectively interpolating the linear prediction coding coefficients of the current frame extracted from the bitstream and the linear prediction coding coefficients of an adjacent frame according to whether a transient section exists in the current frame.
  • an audio signal decoding apparatus comprising: a transient position determining unit for determining whether a transient section exists in a current frame to be decoded using transient section information included in a bitstream; and a linear prediction coding synthesis performing unit that selectively interpolates the linear prediction coding coefficients of the current frame extracted from the bitstream and the linear prediction coding coefficients of an adjacent frame according to whether a transient section exists in the current frame. characterized.
  • FIG. 2 is a block diagram showing the configuration of an audio signal encoding apparatus according to the present invention.
  • the audio signal encoding apparatus 200 includes a dividing unit 210 , a window determining unit 220 , a window applying unit 230 , a linear prediction coding analysis unit 240 , and a linear prediction. It includes a coding synthesizing unit 260 and a multiplexing unit 270 .
  • the division unit 210 divides the input audio signal into frames having a predetermined length.
  • the window determiner 220 determines a window applied to the current frame according to the characteristics of the audio signal of the current frame. In order to process the continuous audio signal, the division unit 210 divides the audio signal into frame units having a predetermined length.
  • the window uses a tapered window that gradually increases and then decreases, such as a Hamming window defined by Equation 1, instead of a rectangular window.
  • the window determiner 220 primarily determines the window shape variably based on the transient section, so that the window is separated based on the transient section, which is a section in which signals of different characteristics are connected. This prevents the discontinuity of the signal occurring in the transient section.
  • FIG. 3 is a block diagram specifically illustrating the configuration of the window determiner 220 of FIG. 2 .
  • the window determiner 220 includes a transient section determiner 221 and a window selector 222 .
  • the transient period determining unit 221 divides the audio signal of the current frame into a plurality of subframes, calculates a similarity or average energy difference between the divided subframes, and determines whether a transient period exists in the current frame.
  • a transient section determining unit 221 does not need to be separately provided when the audio signal encoder itself has a function of determining a transient section. For example, if a function for determining a transient section is provided in the encoder itself, such as a wave coder such as AAC (Advanced Audio Coding) or MP3, or a parametric coder, the corresponding function may be used.
  • the window selector 222 determines the shape of the window applied to the current frame so that it overlaps the window of another frame only within the transient section and does not overlap in the remaining sections except for the transient section. choose If there is no transient section in the current frame, the window selector 222 selects the preset window as it is without changing the shape and size of the window.
  • a window determination process to be applied to a current frame according to the present invention will be described in detail with reference to FIGS. 4 to 6 .
  • FIG. 4 is a flowchart illustrating a process of determining a window to be applied to a current frame according to the present invention
  • FIG. 5 is a reference diagram for explaining a process of determining a transient section existing in the current frame according to the present invention.
  • the transient period determining unit 221 divides the current frame into a plurality of subframes, and similarity between adjacent subframes or adjacent subframes among the divided subframes. Calculate the difference in average energy between For example, referring to FIG. 5 , the transient period determiner 221 divides the current N frame into four subframes N s1 , N s2 , N s3 and N s4 . Then, in step 420, the transient period determining unit 221 determines how similar signals included in the adjacent sub-frames are by calculating the correlation between the adjacent sub-frames.
  • the transient interval determiner 221 may include R(N s2 , N s3 ) indicating a correlation between the adjacent second and third subframes N s2 and N s3 as shown in Equation 2 below. ) is calculated.
  • Equation 2 as the absolute value of R(N s2 , N s3 ) approaches 1, it means that the signals of the two subframes (N s2 , N s3 ) are similar, and R(N s2 , N s3 ) As the absolute value of is closer to 0, it indicates that the signal characteristics of the two subframes N s2 and N s3 are different. That is, when the correlation between adjacent subframes is less than the predetermined threshold Th1, it may be determined that the transient exists in the current frame.
  • the transient interval determiner 221 calculates the average energy of each of the four subframes N s1 , N s2 , N s3 and N s4 , and then determines the difference in average energy between adjacent subframes. When it is greater than the threshold value Th2, it may be determined that a transient period exists between adjacent subframes.
  • the transient section determining unit 221 determines a position between subframes determined to have different signal characteristics as a transient position, and transmits the transient position information in addition to the encoded bitstream. It is possible to determine the position of the transient provided in the frame. At this time, in order to transmit the transient position included in the current frame using as few bits as possible, the current frame is divided into a sub of a predetermined SF number (SF is a positive integer, the power of 2) having a value to the power of 2 When divided into frames, the positions of adjacent subframes can be expressed as one position among (log 2 (SF)-1) positions.
  • SF log 2
  • the transient period determining unit 221 assigns a value of 0 when there is no transient period in the current frame, and 1 to (log 2 (SF)-1) at each position between the remaining subframes. By assigning a value of , it can be transmitted as location information of the transient section in the bitstream. For example, in FIG.
  • the transient period is the first subframe (N s1 ) and the second subframe ( When positioned between N s2 ), when positioned between the second sub-frame (N s2 ) and the third sub-frame (N s3 ), between the third sub-frame (N s3 ) and the fourth sub-frame (N s4 )
  • the transient period information of the current frame in a total of four cases may be transmitted through 2 bits of additional information.
  • the window selector 222 when it is determined in step 430 that a transient section exists in the current frame, the window selector 222 is located in a frame adjacent to the window of the current frame based on the position of the transient section existing in the current frame.
  • the shapes of the windows of the current frame and adjacent frames are adjusted so that the overlapping section of the applied window is limited to the transient section existing in the current frame.
  • the window selector 222 overlaps a window applied to the current frame with a window of another frame only within the transient section, and does not overlap in the remaining sections except for the transient section.
  • the size and shape of the window applied to the current frame are determined to have a (flat) shape.
  • the window selector 222 maintains the preset size and shape of the window. For example, the window selector 222 applies the preset size and shape of the Hamming window to the current frame as it is without adjusting the size and shape.
  • FIG. 6 is a reference diagram for explaining an embodiment of a process for determining a window to be applied to a current frame according to the present invention.
  • S denotes the length of a frame
  • SF denotes the number of subframes.
  • the window selector 222 decreases or increases the size of a window overlapping between the periods connecting the intermediate points of each of the sub-frames only in the intermediate period. Resize the windows so that they overlap. For example, in FIG. 6 , a section in which two windows 610 and 620 overlap occurs in the current N frame, and the window selector 222 includes two windows 610 and 620 applied to the current N frame. The size of the window is adjusted so that this overlapping section is limited only to the transient section. In this case, signal characteristics before and after the transient section are separated from each other, and since overlapping windows are applied in the transient section, signal continuity can be guaranteed.
  • the window application unit 230 performs windowing by multiplying the audio signal in the current frame by the selected window.
  • the linear prediction coding analysis unit 240 outputs a linear prediction coefficient of the audio signal of the current frame by performing linear prediction coding analysis on the windowed audio signal of the current frame.
  • the linear prediction coding analysis unit 240 uses a covariance method, an autocorrelation method, a lattice filter, a Levinson-Durbin algorithm, and the like to use an audio signal of the current frame.
  • Linear prediction coding coefficients are extracted from and outputted.
  • the linear prediction coding analysis unit 240 calculates the audio signal sample value of the current frame as follows: s(n) is the previous p (p is a positive integer) number of audio signal samples (s(n-1) ), s(n-2), ..., s(np)) are assumed to be modeled as in Equation 3 below.
  • u(n) corresponds to a prediction error value when the audio signal sample value of the current frame is predicted from the previous p audio signal samples according to the linear prediction coding analysis. It is called a residual signal.
  • G denotes a gain according to the energy of the residual signal.
  • a i represents a linear prediction coding coefficient (LPC coefficient), and p is an order of the linear prediction coding coefficient, and generally has a value of 10 to 16.
  • Equation 4 is given below.
  • Equation 4 the denominator of the transfer function H(z) is expressed as A(z).
  • the linear prediction coding synthesizing unit 250 generates a prediction signal of the audio signal of the current frame by using the linear prediction coding coefficients. Specifically, the linear prediction coding synthesizing unit 250 interpolates between the linear prediction coding coefficients of the current frame and the linear prediction coding coefficients of the previous frame when there is no transient section in the current frame, and the interpolated linear prediction coding coefficients. create Next, the linear prediction coding synthesizing unit 250 generates a prediction signal of the audio signal in the current frame by performing linear prediction coding synthesis using the interpolated linear prediction coding coefficients.
  • the linear prediction coding synthesizing unit 250 If there is a transient section in the current frame, the linear prediction coding synthesizing unit 250 generates a first prediction audio signal by performing linear prediction coding synthesis using the linear prediction coding coefficients of the adjacent previous frame, and the linear prediction of the current frame.
  • a second prediction audio signal is generated by performing linear prediction coding synthesis using predictive coding coefficients, and then an overlap and addition operation of combining the first prediction audio signal and the second prediction audio signal is performed to predict the audio signal in the current frame generate a signal
  • FIG. 9 is a reference diagram for explaining an interpolation and overlapping/addition operation of selective linear prediction coding coefficients according to the present invention.
  • the linear prediction coding synthesizing unit 250 performs linear prediction coding synthesis on a frame in which a transient period does not exist, such as an N+1 frame, linear prediction in the time domain extracted from N frames.
  • Each of the coding coefficients (L N ) and the linear prediction coding coefficients (L N+1 ) in the time domain extracted from the N+1 frame is transformed into the LSP coefficients (P N , P N+ ) in the frequency domain through LSP transformation. 1 ), and by weighting the LSP coefficients (P N , P N+1 ) to perform interpolation, LSP coefficients (C N+1,0 , C N+1,1 , C for each subframe) N+1,2 , C N+1,3 ).
  • the linear prediction coding synthesizing unit 250 linearizes the LSP coefficients (C N+1,0 , C N+1,1 , C N+1,2 , C N+1,3 ) for each subframe again.
  • LPC coefficients for each subframe in the time domain by transforming into predictive coding coefficients (LPC coefficients) (T N+1,0 , T N+1,1 , T N+1,2 , T N+1,3 ) are generated, and linear prediction coding synthesis is performed using the generated prediction audio signal of an N+1 frame.
  • the linear prediction coding synthesis unit 250 when linear prediction coding analysis is performed on an audio signal of a frame including the transient period 900, such as an N frame, the linear prediction coding synthesis unit 250 performs the above-described interpolation process of the linear prediction coding coefficients. I never do that. Instead, the linear prediction coding synthesis unit 250 generates a first prediction audio signal by performing linear prediction coding synthesis using the linear prediction coding coefficients (L N-1 ) extracted from the audio signal of the N-1 frame, and , A second prediction audio signal is generated by performing linear prediction coding synthesis using the linear prediction coding coefficients (L N ) extracted from the audio signal of N frames.
  • the linear prediction coding synthesizing unit 250 overlaps and adds the first prediction audio signal and the second prediction audio signal (OverLap & Add: OLA).
  • the section 910 of the first prediction audio signal and the section 920 of the second prediction audio signal belonging to the N frame overlap only within the transient section, and do not overlap other than the transient section.
  • the subtraction unit 260 generates a residual signal by calculating a difference between the prediction signal output from the linear prediction coding synthesis unit 260 and the input audio signal.
  • the multiplexer 270 multiplexes the position information of the transient section determined by the window determiner 220, the linear prediction coding coefficients of the current frame, and information on the residual signal to generate a bitstream.
  • FIG. 7 is a flowchart illustrating an audio signal encoding method according to the present invention.
  • a window applied to the current frame is determined according to the characteristics of the audio signal of the current frame. As described above, it is possible to determine whether a transient period exists in the current frame by dividing the current frame into subframes and calculating a similarity between adjacent subframes or a difference in average energy between adjacent subframes. And, when there is no transient section, the preset window is used as it is, and when there is a transient section, it overlaps with the window of another frame only within the transient section, and does not overlap in the remaining sections except for the transient section. Determines the window applied to the current frame.
  • windowing is performed by applying the determined window to the audio signal of the current frame.
  • step 730 linear prediction coefficients of the audio signal of the current frame are output by performing linear prediction coding analysis on the windowed audio signal of the current frame.
  • step 740 the interpolation of the linear prediction coding coefficients using the linear prediction coding coefficients of the audio signal of the current frame and the linear prediction coding coefficients of the audio signal of the adjacent frame is performed according to the characteristics of the audio signal of the current frame, that is, whether there is a transient section.
  • Linear prediction coding synthesis for generating a prediction signal of the audio signal of the current frame by selectively performing is performed. Specifically, when there is no transient period in the current frame, interpolation is performed between the linear prediction coding coefficients of the current frame and the linear prediction coding coefficients of the previous frame to generate interpolated linear prediction coding coefficients, and the transient period in the current frame If this exists, no interpolation is performed.
  • a prediction signal of the audio signal of the current frame is generated through linear prediction coding synthesis using interpolated linear prediction coefficients.
  • a first prediction audio signal is generated by performing linear prediction coding synthesis using linear prediction coding coefficients of an adjacent frame instead of performing interpolation, and linear prediction coding synthesis using linear prediction coding coefficients of the current frame to generate a second prediction audio signal, and then perform superposition and addition operations combining the first prediction audio signal and the second prediction audio signal to generate a prediction signal of the audio signal in the current frame.
  • a residual signal is generated by calculating a difference value between a prediction signal generated through linear prediction coding synthesis and an input audio signal.
  • a bitstream is generated by multiplexing the transient interval information, the linear prediction coding coefficients, and the information of the residual signal.
  • FIG. 8 is a block diagram illustrating an audio signal decoding apparatus according to the present invention.
  • the audio signal decoding apparatus 800 includes a demultiplexer 810 , a transient position determiner 820 , a linear prediction coding synthesis performer 830 , and an overlap addition (OverLap and Add). :OLA) performing unit 840 is included.
  • the demultiplexer 810 extracts transient section information, linear prediction coding coefficients, and residual information of a current frame to be decoded by performing demultiplexing on the bitstream.
  • the transient position determining unit 820 determines whether a transient section exists in the current frame to be decoded by using the extracted transient section information.
  • the linear prediction coding synthesizing unit 830 performs an operation similar to that of the linear prediction coding synthesizing unit 250 of FIG. 2 . That is, the linear prediction coding synthesis performing unit 830 selectively interpolates the linear prediction coding coefficients of the current frame extracted from the bitstream and the linear prediction coding coefficients of the adjacent frame according to whether a transient section exists in the current frame. . Specifically, the linear prediction coding synthesizing unit 830 performs interpolation between the linear prediction coding coefficients of the current frame and the linear prediction coding coefficients of the previous frame when there is no transient section in the current frame to obtain the interpolated linear prediction coding coefficients. and performs linear prediction coding synthesis using interpolated linear prediction coding coefficients to decode the audio signal in the current frame.
  • the linear prediction coding synthesis performing unit 830 generates a first prediction audio signal by performing linear prediction coding synthesis using linear prediction coding coefficients of an adjacent frame when a transient section exists in the current frame, and the linear prediction of the current frame.
  • a second predictive audio signal is generated by performing linear predictive coding synthesis using predictive coding coefficients.
  • the superposition addition performing unit 840 decodes the audio signal in the current frame by performing superposition and addition operations combining the first prediction audio signal and the second prediction audio signal.
  • FIG. 10 is a flowchart illustrating a method of decoding an audio signal according to the present invention.
  • step 1010 transient section information included in the bitstream is extracted, and using the extracted transient section information in step 1020, it is determined whether a transient section exists in the current frame to be decoded.
  • step 1020 when there is no transient section in the current frame, interpolation is performed between the linear prediction coding coefficients of the current frame and the linear prediction coding coefficients of the previous frame in step 1030 to generate interpolated linear prediction coding coefficients, , performs linear prediction coding synthesis using interpolated linear prediction coding coefficients to decode the audio signal in the current frame.
  • a first prediction audio signal is generated by performing linear prediction coding synthesis using the linear prediction coding coefficients of the adjacent frame, and the linear prediction coding coefficients of the current frame are used.
  • a second prediction audio signal is generated by performing linear prediction coding synthesis.
  • the audio signal in the current frame is decoded by performing superposition and addition operations combining the first prediction audio signal and the second prediction audio signal.
  • the present invention has been described with reference to the limited embodiments and drawings, the present invention is not limited to the above embodiments, which are various modifications and Transformation is possible. Accordingly, the spirit of the present invention should be understood only by the claims described below, and all equivalent or equivalent modifications thereof will fall within the scope of the spirit of the present invention.
  • the system according to the present invention can be implemented as computer-readable codes on a computer-readable recording medium.
  • the computer-readable recording medium includes all kinds of recording devices in which data readable by a computer system is stored.
  • the recording medium examples include a ROM, a RAM, a CD-ROM, a magnetic tape, a floppy disk, an optical data storage device, and the like, and also includes those implemented in the form of a carrier wave (eg, transmission through the Internet).
  • the computer-readable recording medium is distributed in a network-connected computer system so that the computer-readable code can be stored and executed in a distributed manner.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

적응적으로 선형 예측 코딩 계수의 보간을 수행하여 오디오 신호를 부호화하거나 복호화하는 방법 및 장치가 개시된다. 본 발명에 따르면, 현재 프레임 내에 트랜지언트 구간의 존재 여부에 따라 선형 예측 코딩 계수의 보간을 선택적으로 수행함으로써 트랜지언트 구간에서의 선형 예측 코딩 계수의 보간을 통해 불필요한 잡음이 생기는 것을 방지한다.

Description

적응적 LPC 계수 보간을 이용한 오디오 신호의 부호화, 복호화 방법 및 장치
기술분야
본 발명은 오디오 신호의 부호화 및 복호화에 관한 것으로, 보다 상세하게는 현재 프레임 내의 오디오 신호에 트랜지언트 신호가 존재하는지 여부에 따라서 적응적으로 선형 예측 코딩(Linear Predictive Coding: LPC) 계수의 보간을 수행하여 오디오 신호를 부호화하거나 복호화하는 방법 및 장치에 관한 것이다.
배경기술
일반적으로 오디오 신호는 프레임이라고 불리는 일정한 시간 단위로 분할되어 처리된다. 프레임 단위로 오디오 신호를 처리하는 경우 양자화 에러 등에 의하여 연속되는 프레임 사이의 불연속점이 발생되어 음질이 열화될 수 있다. 따라서 인접한 프레임 사이의 불연속을 방지하기 위해서 다양한 알고리즘이 제안되었는데, 선형 예측 코딩의 경우에는 선형 예측 코딩 계수 사이의 급격한 변화에 의한 음질 열화를 방지하기 위해서 인접한 프레임의 선형 예측 코딩 계수 사이의 보간을 수행한다.
선형 예측 코딩 계수 사이의 보간은 입력 오디오 신호의 분석을 통해 생성된 소스 모델의 변화를 방지하기 위한 것으로, 선형 예측 코딩 계수들이 위치하는 Z-도메인 상의 극점(pole)들의 궤적 변화를 트래이싱(tracing)하여 이루어진다. 일반적으로 선형 예측 코딩 계수의 보간은 LSF(Line Spectral Frequency) 또는 LSP(Line Spectral Pair) 변환을 통해 수행된다.
도 1a 및 1b는 종래 기술에 따른 선형 예측 코딩 계수의 보간시에 발생되는 문제점을 설명하기 위한 참조도이다.
도 1a 및 1b를 참조하면, 입력 오디오 신호에 신호의 크기가 갑자기 변화되는 트랜지언트(transient) 신호가 존재하는 경우, 선형 예측 코딩 계수의 보간을 수행하여 복원된 신호는 트랜지언트 구간의 뒷부분의 큰 신호가 이전의 작은 크기의 신호에 영향을 미치게 되어 잡음이 발생하는 프리-에코(pre-echo) 현상이 발생한다.
이와 같이, 종래 선형 예측 코딩 계수의 보간 방식에 따르면 트랜지언트 구간에서 선형 예측 코딩 계수의 불일치로 인해 에러가 증가하며 불필요한 잡음을 유발하는 문제점이 있다.
도면의 간단한 설명
도 1a 및 1b는 종래 기술에 따른 선형 예측 코딩 계수의 보간시에 발생되는 문제점을 설명하기 위한 참조도이다.
도 2는 본 발명에 따른 오디오 신호의 부호화 장치의 구성을 나타낸 블록도이다.
도 3은 도 2의 윈도우 결정부(220)의 구성을 구체적으로 나타낸 블록도이다.
도 4는 본 발명에 따른 현재 프레임에 적용될 윈도우를 결정하는 과정을 나타낸 플로우 차트이며, 도 5는 본 발명에 따라 현재 프레임에 존재하는 트랜지언트 구간을 판단하는 과정을 설명하기 위한 참조도이다.
도 6은 본 발명에 따른 현재 프레임에 적용될 윈도우를 결정하는 과정의 일 실시예를 설명하기 위한 참조도이다.
도 7은 본 발명에 따른 오디오 신호의 부호화 방법을 나타낸 플로우 차트이다.
도 8은 본 발명에 따른 오디오 신호의 복호화 장치를 나타낸 블록도이다.
도 9는 본 발명에 따를 선택적 선형 예측 코딩 계수의 보간 및 중첩/가산 연산 과정을 설명하기 위한 참조도이다.
도 10은 본 발명에 따른 오디오 신호의 복호화 방법을 나타낸 플로우 차트이다.
기술적 과제
본 발명이 해결하고자 하는 과제는 트랜지언트 신호가 존재하는 프레임 내에서 선형 예측 코딩 계수의 보간을 선택적으로 수행함으로써 선형 예측 코딩의 예측 모델링의 효율을 향상시키는 오디오 신호의 부호화, 복호화 방법 및 장치를 제공하는 것이다.
기술적 해결방법
본 발명에 따르면, 현재 프레임 내에 트랜지언트 구간의 존재 여부에 따라 선형 예측 코딩 계수의 보간을 선택적으로 수행함으로써 트랜지언트 구간에서의 선형 예측 코딩 계수의 보간을 통해 불필요한 잡음이 생기는 것을 방지하는 것을 특징으로 한다.
유리한 효과
본 발명에 따르면 트랜지언트 구간을 기준으로 적응적으로 윈도우의 크기를 변화시킴으로써, 트랜지언트 구간에서 선형 예측 코딩 계수의 보간시에 발생하는 프리-에코 등의 불필요한 잡음을 제거할 수 있다. 또한, 본 발명에 따르면 트랜지언트 구간의 신호에 대해서 선형 예측 코딩 계수를 보간하지 않고 인접한 각 프레임의 선형 예측 코딩 계수를 이용한 선형 예측 코딩 합성을 통해 생성된 신호를 더함으로써 트랜지언트 구간에서의 오디오 신호의 불연속을 방지하여 음질을 향상시킨다.
발명의 실시를 위한 최선의 형태
본 발명에 따른 오디오 신호의 부호화 방법은 현재 프레임의 오디오 신호의 특성에 따라서 상기 현재 프레임에 적용되는 윈도우를 결정하는 단계; 상기 현재 프레임의 오디오 신호에 상기 결정된 윈도우를 적용하여 윈도우잉(windowing)을 수행하는 단계; 상기 윈도우잉된 현재 프레임의 오디오 신호에 대한 선형 예측 코딩(Linear Predictive Coding:LPC) 분석을 수행함으로써 상기 현재 프레임의 오디오 신호의 선형 예측 계수를 출력하는 단계; 및 상기 현재 프레임의 오디오 신호의 특성에 따라서 상기 현재 프레임의 오디오 신호의 선형 예측 코딩 계수와 인접 프레임의 오디오 신호의 선형 예측 코딩 계수를 이용한 선형 예측 코딩 계수의 보간을 선택적으로 수행하는 단계를 포함하는 것을 특징으로 한다.
전술한 과제를 해결하기 위한 본 발명에 따른 오디오 신호의 부호화 장치는 현재 프레임의 오디오 신호의 특성에 따라서 상기 현재 프레임에 적용되는 윈도우를 결정하는 윈도우 결정부; 상기 현재 프레임의 오디오 신호에 상기 결정된 윈도우를 적용하여 윈도우잉(windowing)을 수행하는 윈도우 적용부; 상기 윈도우잉된 현재 프레임의 오디오 신호에 대한 선형 예측 코딩(Linear Predictive Coding:LPC) 분석을 수행함으로써 상기 현재 프레임의 오디오 신호의 선형 예측 계수를 출력하는 선형 예측 코딩 분석부; 및 상기 현재 프레임의 오디오 신호의 특성에 따라서 상기 현재 프레임의 오디오 신호의 선형 예측 코딩 계수와 인접 프레임의 오디오 신호의 선형 예측 코딩 계수를 이용한 선형 예측 코딩 계수의 보간을 선택적으로 수행하는 선형 예측 코딩 합성부를 포함하는 것을 특징으로 한다.
전술한 과제를 해결하기 위한 본 발명에 따른 오디오 신호의 복호화 방법은 비트스트림에 구비된 트랜지언트 구간 정보를 이용하여 복호화되는 현재 프레임 내에 트랜지언트 구간이 존재하는지를 판단하는 단계; 및 상기 현재 프레임 내에 트랜지언트 구간이 존재하는지 여부에 따라서 상기 비트스트림으로부터 추출된 현재 프레임의 선형 예측 코딩 계수와 인접 프레임의 선형 예측 코딩 계수의 보간을 선택적으로 수행하는 단계를 포함하는 것을 특징으로 한다.
전술한 과제를 해결하기 위한 본 발명에 따른 오디오 신호의 복호화 장치는 비트스트림에 구비된 트랜지언트 구간 정보를 이용하여 복호화되는 현재 프레임 내에 트랜지언트 구간이 존재하는지를 판단하는 트랜지언트 위치 판단부; 및 상기 현재 프레임 내에 트랜지언트 구간이 존재하는지 여부에 따라서 상기 비트스트림으로부터 추출된 현재 프레임의 선형 예측 코딩 계수와 인접 프레임의 선형 예측 코딩 계수의 보간을 선택적으로 수행하는 선형 예측 코딩 합성 수행부를 포함하는 것을 특징으로 한다.
발명의 실시를 위한 형태
이하, 첨부된 도면들을 참조하여 본 발명의 바람직한 실시예에 대하여 구체적으로 설명한다.
도 2는 본 발명에 따른 오디오 신호의 부호화 장치의 구성을 나타낸 블록도이다.
도 2를 참조하면, 본 발명에 따른 오디오 신호의 부호화 장치(200)는 분할부(210), 윈도우 결정부(220), 윈도우 적용부(230), 선형 예측 코딩 분석부(240), 선형 예측 코딩 합성부(260) 및 다중화부(270)를 포함한다.
분할부(210)는 입력 오디오 신호를 소정 길이의 프레임들로 분할한다. 윈도우 결정부(220)는 현재 프레임의 오디오 신호의 특성에 따라서 현재 프레임에 적용되는 윈도우를 결정한다. 연속적인 오디오 신호를 처리하기 위해서, 분할부(210)는 오디오 신호를 소정 길이를 갖는 프레임 단위로 분할한다. 일반적으로 윈도우는 직사각형(retangular) 윈도우 대신에 다음의 수학식 1로 정의되는 해밍(hamming) 윈도우와 같이 점차 증가하다가 감소하는 형태의 윈도우(tapered window)를 이용한다.
【수학식 1】
Figure PCTKR2009000431-appb-M000001
이는 직사각형 윈도우에 비하여 해밍 윈도우와 같은 형태를 갖는 윈도우의 주파수 스펙트럼 특성이 더 좋기 때문이다. 다만, 해밍 윈도우와 같은 형태의 윈도우들은 시간 영역 측면에서, 인접한 프레임 사이에 윈도우가 중첩되는 구간이 발생한다. 트랜지언트 구간에서 선형 예측 계수의 보간시에 발생하는 프리-에코는 이러한 윈도우의 중첩에 의하여 트랜지언트 구간의 뒷 부분의 신호가 앞 부분의 신호에 영향을 미쳐 발생하는 것이다. 따라서, 본 발명에 따른 윈도우 결정부(220)는 일차적으로 트랜지언트 구간을 기준으로 윈도우의 형태를 가변적으로 결정함으로써 서로 다른 특성의 신호가 연결되는 구간인 트랜지언트 구간을 기준으로 윈도우가 분리되는 형태를 가지도록 함으로써 트랜지언트 구간에서 발생하는 신호의 불연속성을 방지한다.
도 3은 도 2의 윈도우 결정부(220)의 구성을 구체적으로 나타낸 블록도이다.
도 3을 참조하면, 윈도우 결정부(220)은 트랜지언트 구간 판단부(221) 및 윈도우 선택부(222)를 포함한다.
트랜지언트 구간 판단부(221)은 현재 프레임의 오디오 신호를 복수 개의 서브 프레임들로 분할하고, 분할된 서브 프레임들 사이의 유사도 또는 평균 에너지의 차이를 계산하여 현재 프레임 내에 트랜지언트 구간이 존재하는지를 판단한다. 이러한 트랜지언트 구간 판단부(221)는 오디오 신호 부호화기 자체에 트랜지언트 구간의 판별 기능이 있는 경우에는 별도로 구비될 필요가 없다. 예를 들어 AAC(Advanced Audio Coding), MP3 등과 같은 파형 코더(wave coder)나 파라메트릭 코더와 같이 부호화기 자체에 트랜지언트 구간을 판별하는 기능이 구비된 경우 해당 기능을 이용하면 된다.
윈도우 선택부(222)는 현재 프레임 내에 트랜지언트 구간이 존재하는 것으로 판단되면, 트랜지언트 구간 내에서만 다른 프레임의 윈도우와 중첩되고, 트랜지언트 구간을 제외한 나머지 구간에서는 중첩되지 않도록 현재 프레임에 적용되는 윈도우의 형태를 선택한다. 만약, 현재 프레임 내에 트랜지언트 구간이 존재하지 않는 경우, 윈도우 선택부(222)는 윈도우의 형태 및 크기 등을 변경하지 않고 미리 설정된 윈도우를 그대로 선택한다. 이하에서는 도 4 내지 도 6을 참조하여 본 발명에 따른 현재 프레임에 적용될 윈도우 결정 과정을 상세히 설명한다.
도 4는 본 발명에 따른 현재 프레임에 적용될 윈도우를 결정하는 과정을 나타낸 플로우 차트이며, 도 5는 본 발명에 따라 현재 프레임에 존재하는 트랜지언트 구간을 판단하는 과정을 설명하기 위한 참조도이다.
도 3 및 도 4를 참조하면, 단계 410에서 트랜지언트 구간 판단부(221)은 현재 프레임을 복수 개의 서브 프레임들로 분할하고, 분할된 서브 프레임들 중 인접한 서브 프레임들 사이의 유사도 또는 인접한 서브 프레임들 사이의 평균 에너지의 차이를 계산한다. 예를 들어, 도 5를 참조하면, 트랜지언트 구간 판단부(221)은 현재 N 프레임을 4개의 서브 프레임들(Ns1, Ns2, Ns3 및 Ns4 )로 분할한다. 그리고, 단계 420에서, 트랜지언트 구간 판단부(221)는 인접한 서브 프레임들 사이의 상관도를 계산하여 인접한 서브 프레임에 구비된 신호가 얼마나 유사한지를 판단한다. 일 예로, 트랜지언트 구간 판단부(221)는 다음의 수학식 2와 같이 인접한 제 2 및 제 3 서브 프레임들(Ns2, Ns3) 사이의 상관도(correlation)를 나타내는 R(Ns2, Ns3)를 계산한다.
【수학식 2】
Figure PCTKR2009000431-appb-M000002
수학식 2에서 C(Ns2, Ns3)=E[(Ns2 - ms2)(Ns3 - ms3)]이며, ms2, ms3 는 각각 제 2 서브 프레임(Ns2) 내의 신호 및 제 3 서브 프레임(Ns3) 내의 신호의 평균값을 나타낸다. 수학식 2를 참조하면, R(Ns2, Ns3)의 절대값이 1에 근접할수록 두 서브 프레임들(Ns2, Ns3)의 신호가 유사한 것을 의미하며, R(Ns2, Ns3)의 절대값이 0에 근접할수록 두 서브 프레임들(Ns2, Ns3)의 신호 특성이 다름을 나타낸다. 즉, 인접한 서브 프레임들 사이의 상관도가 소정 임계치(Th1)보다 작은 경우에는 현재 프레임 내에 트랜지언트가 존재하는 것으로 판단할 수 있다. 도 5의 경우, 도시된 바와 같이 제 2 서브 프레임(Ns2)과 제 3 서브 프레임(Ns3) 사이는 신호의 진폭이 급격하게 변화되는 트랜지언트 구간에 해당하기 때문에 R(Ns2, Ns3)의 절대값은 소정 임계치(Th1)보다 작은 0에 가까운 값을 갖는다.
유사하게, 트랜지언트 구간 판단부(221)는 4개의 서브 프레임들(Ns1, Ns2, Ns3 및 Ns4 ) 각각의 평균 에너지를 계산한 다음, 인접한 서브 프레임들 사이의 평균 에너지의 차이가 소정 임계값(Th2) 보다 큰 경우에는 인접한 서브 프레임들 사이에 트랜지언트 구간이 존재하는 것으로 판단할 수 있다.
한편, 트랜지언트 구간 판단부(221)는 서로 다른 신호 특성을 갖는 것으로 판단된 서브 프레임 사이의 위치를 트랜지언트 위치로 결정하고, 이러한 트랜지언트 위치 정보를 부호화된 비트스트림에 부가하여 전송함으로써, 복호화기에서도 현재 프레임 내에 구비된 트랜지언트 위치를 결정할 수 있도록 할 수 있다. 이 때, 가능한 적은 비트를 이용하여 현재 프레임 내에 구비된 트랜지언트 위치를 전송하기 위해서, 현재 프레임을 2의 지수승의 값을 갖는 소정의 SF개(SF는 양의 정수로서 2의 지수승)의 서브 프레임으로 분할하면, 인접한 서브 프레임들의 위치는 (log2(SF)-1) 개의 위치 중 하나의 위치로 표현 가능하다. 구체적으로, 트랜지언트 구간 판단부(221)는 현재 프레임 내에 트랜지언트 구간이 존재하지 않는 경우는 0의 값을 할당하고, 나머지 서브 프레임들 사이의 각각의 위치에 1~(log2(SF)-1)의 값을 할당하여 비트스트림에 트랜지언트 구간의 위치 정보로 전송할 수 있다. 예를 들어, 도 5에서는 SF의 값이 4인 경우에 해당하며, 이 경우 2비트를 트랜지언트 구간의 위치를 나타내는 정보로 활용하면 트랜지언트 구간이 제 1 서브 프레임(Ns1)과 제 2 서브 프레임(Ns2) 사이에 위치하는 경우, 제 2 서브 프레임(Ns2)과 제 3 서브 프레임(Ns3) 사이에 위치하는 경우, 제 3 서브 프레임(Ns3)과 제 4 서브 프레임(Ns4) 사이에 위치하는 경우 등 총 3개의 경우와 트랜지언트 구간이 존재하지 않는 경우를 더하여 총 4가지 경우의 현재 프레임의 트랜지언트 구간 정보를 2bits의 부가 정보를 통해 전송할 수 있다.
다시 도 4를 참조하면, 단계 430에서 현재 프레임 내에 트랜지언트 구간이 존재하는 것으로 판단된 경우, 윈도우 선택부(222)는 현재 프레임 내에 존재하는 트랜지언트 구간의 위치를 기준으로 현재 프레임의 윈도우와 인접한 프레임에 적용되는 윈도우의 중첩되는 구간이 현재 프레임 내에 존재하는 트랜지언트 구간에 한정되도록 현재 프레임 및 인접한 프레임의 윈도우의 형태를 조절한다. 다시 말해서, 윈도우 선택부(222)는 현재 프레임에 트랜지언트 구간이 존재하는 경우, 현재 프레임에 적용되는 윈도우가 트랜지언트 구간 내에서만 다른 프레임의 윈도우와 중첩되고, 트랜지언트 구간을 제외한 나머지 구간에서는 중첩되지 않고 평평한(flat) 형태를 갖도록 현재 프레임에 적용되는 윈도우의 크기 및 형태를 결정한다.
단계 440에서 현재 프레임 내에 트랜지언트 구간이 존재하지 않는 것으로 판단된 경우, 윈도우 선택부(222)는 미리 설정된 윈도우의 크기 및 형태를 유지한다. 예를 들어, 윈도우 선택부(222)는 미리 설정된 해밍 윈도우 등의 크기 및 형태를 조절하지 않고 그대로 현재 프레임에 적용한다.
도 6은 본 발명에 따른 현재 프레임에 적용될 윈도우를 결정하는 과정의 일 실시예를 설명하기 위한 참조도이다. 도 6에서 S는 프레임의 길이, SF는 서브 프레임의 개수를 나타낸다.
도 6을 참조하면, 4개의 서브 프레임으로 분할된 N 프레임에서 제 2 및 제 3 서브 프레임 사이에 트랜지언트 구간이 존재하는 것으로 판단되었다고 가정한다. 윈도우 선택부(222)는 트랜지언트 구간이 존재하는 것으로 판단된 2개의 인접한 서브 프레임이 결정되면, 서브 프레임들 각각의 중간 지점을 연결한 구간 사이에서 중첩되는 윈도우의 크기를 감소하거나 증가시킴으로써 중간 구간에서만 윈도우가 중첩되도록 윈도우의 크기를 조절한다. 예를 들어, 도 6에서 현재 N 프레임에는 2개의 윈도우들(610, 620)이 중첩되는 구간이 발생하는데, 윈도우 선택부(222)는 현재 N 프레임에 적용되는 2개의 윈도우들(610, 620)이 중첩되는 구간을 트랜지언트 구간에만 한정되도록 윈도우의 크기를 조정한다. 이러한 경우 트랜지언트 구간의 전후의 신호 특성은 서로 분리되게 되며, 트랜지언트 구간에서는 중첩된 윈도우를 적용하게 되므로 신호의 연속성이 보장될 수 있다.
다시 도 2를 참조하면, 전술한 과정을 통해 현재 프레임 내에 적용되는 윈도우가 선택되면, 윈도우 적용부(230)는 현재 프레임 내의 오디오 신호와 선택된 윈도우를 곱하는 윈도우잉(windowing)을 수행한다.
선형 예측 코딩 분석부(240)는 윈도우잉된 현재 프레임의 오디오 신호에 대한 선형 예측 코딩 분석을 수행함으로써 현재 프레임의 오디오 신호의 선형 예측 계수를 출력한다. 선형 예측 코딩 분석부(240)는 공분산 방식(covariance method), 자기 상관 방식(autocorrelation method), 래티스 필터(Lattice filter), 레빈슨-더빈 알고리즘(Levinson-Durbin algorithm) 등을 이용하여 현재 프레임의 오디오 신호로부터 선형 예측 코딩 계수(LPC 계수)를 추출하여 출력한다.
구체적으로, 선형 예측 코딩 분석부(240)은 현재 프레임의 오디오 신호 샘플값을 s(n)은 다음과 같이 그 이전의p(p는 양의 정수)개의 오디오 신호 샘플들(s(n-1), s(n-2),..., s(n-p))을 이용하여 다음의 수학식 3과 같이 모델링된다고 가정한다.
【수학식 3】
Figure PCTKR2009000431-appb-M000003
수학식 3에서 u(n)은 선형 예측 코딩 분석에 따라서 이전의 p개의 오디오 신호 샘플들로부터 현재 프레임의 오디오 신호 샘플값을 예측하였을 때의 예측 오차값에 해당하는 것으로 여기 신호(excitation signal) 또는 잔차 신호(residual signal)라고 한다. G는 잔차 신호의 에너지에 따른 이득값(gain)을 의미한다. ai는 선형 예측 코딩 계수(LPC 계수)를 나타내며, p는 선형 예측 코딩 계수의 차수로서 일반적으로 10~16의 값을 갖는다.
수학식 3을 z-변환을 통해 변환하면 다음의 수학식 4와 같다.
【수학식 4】
Figure PCTKR2009000431-appb-M000004
수학식 4에서 전달함수 H(z)의 분모 부분을 A(z)로 표시하였다.
선형 예측 코딩 합성부(250)는 선형 예측 코딩 계수들을 이용하여 현재 프레임의 오디오 신호의 예측 신호를 생성한다. 구체적으로, 선형 예측 코딩 합성부(250)는 현재 프레임 내에 트랜지언트 구간이 존재하지 않을 경우, 현재 프레임의 선형 예측 코딩 계수와 이전 프레임의 선형 예측 코딩 계수 사이의 보간을 수행하여 보간된 선형 예측 코딩 계수를 생성한다. 다음 선형 예측 코딩 합성부(250)는 보간된 선형 예측 코딩 계수를 이용한 선형 예측 코딩 합성을 수행하여 현재 프레임 내의 오디오 신호의 예측 신호를 생성한다.
만약, 현재 프레임 내에 트랜지언트 구간이 존재할 경우, 선형 예측 코딩 합성부(250)은 인접한 이전 프레임의 선형 예측 코딩 계수를 이용한 선형 예측 코딩 합성을 수행하여 제 1 예측 오디오 신호를 생성하고, 현재 프레임의 선형 예측 코딩 계수를 이용한 선형 예측 코딩 합성을 수행하여 제 2 예측 오디오 신호를 생성한 다음, 제 1 예측 오디오 신호 및 제 2 예측 오디오 신호를 결합하는 중첩 및 가산 연산을 수행하여 현재 프레임 내의 오디오 신호의 예측 신호를 생성한다.
도 9는 본 발명에 따른 선택적 선형 예측 코딩 계수의 보간 및 중첩/가산 연산 과정을 설명하기 위한 참조도이다.
도 9를 참조하면, 선형 예측 코딩 합성부(250)는 N+1 프레임과 같이 트랜지언트 구간이 존재하지 않는 프레임에 대한 선형 예측 코딩 합성을 수행하는 경우, N 프레임으로부터 추출된 시간 영역에서의 선형 예측 코딩 계수들(LN)과 N+1 프레임으로부터 추출된 시간 영역에서의 선형 예측 코딩 계수들(LN+1) 각각을 LSP 변환을 통해 주파수 영역에서의 LSP 계수들(PN, PN+1)로 변환하고, LSP 계수들(PN, PN+1)에 가중치를 부여하여 보간을 수행하여 각 서브 프레임별 LSP 계수들(CN+1,0, CN+1,1, CN+1,2, CN+1,3)을 생성한다. 여기서, 각 프레임은 4개의 서브 프레임으로 분할되는 경우를 가정하였다. 다음, 선형 예측 코딩 합성부(250)는 각 서브 프레임별 LSP 계수들(CN+1,0, CN+1,1, CN+1,2, CN+1,3)을 다시 선형 예측 코딩 계수(LPC 계수)들로 변환하여 시간 영역에서의 각 서브 프레임별 LPC 계수(TN+1,0, TN+1,1, TN+1,2, TN+1,3)들을 생성하고, 이를 이용하여 선형 예측 코딩 합성을 수행하여 N+1 프레임의 예측 오디오 신호를 생성한다.
그러나, N 프레임과 같이 트랜지언트 구간(900)이 포함되어 있는 프레임의 오디오 신호에 대한 선형 예측 코딩 분석을 수행하는 경우, 선형 예측 코딩 합성부(250)는 전술한 선형 예측 코딩 계수들의 보간 과정을 수행하지 않는다. 대신에, 선형 예측 코딩 합성부(250)는 N-1 프레임의 오디오 신호로부터 추출된 선형 예측 코딩 계수들(LN-1)을 이용한 선형 예측 코딩 합성을 수행하여 제 1 예측 오디오 신호를 생성하고, N 프레임의 오디오 신호로부터 추출된 선형 예측 코딩 계수들(LN)을 이용한 선형 예측 코딩 합성을 수행하여 제 2 예측 오디오 신호를 생성한다. 다음 선형 예측 코딩 합성부(250)는 제 1 예측 오디오 신호와 제 2 예측 오디오 신호를 중첩 가산(OverLap & Add:OLA)한다. 도 9에 도시된 바와 같이 N 프레임 내에 속하는 제 1 예측 오디오 신호의 구간(910) 및 제 2 예측 오디오 신호의 구간(920)은 트랜지언트 구간 내에서만 중첩되며, 트랜지언트 구간 이외에서는 중첩되지 않게 된다.
다시 도 2를 참조하면, 감산부(260)는 선형 예측 코딩 합성부(260)에서 출력된 예측 신호와 입력 오디오 신호 사이의 차이를 계산하여 잔차(residual) 신호를 생성한다.
다중화부(270)는 윈도우 결정부(220)에서 판단된 트랜지언트 구간의 위치 정보, 현재 프레임의 선형 예측 코딩 계수 및 잔차 신호의 정보를 다중화하여 비트스트림을 생성한다.
도 7은 본 발명에 따른 오디오 신호의 부호화 방법을 나타낸 플로우 차트이다.
단계 710에서, 현재 프레임의 오디오 신호의 특성에 따라서 현재 프레임에 적용되는 윈도우를 결정한다. 전술한 바와 같이, 현재 프레임을 서브 프레임들로 분할하고 인접한 서브 프레임들 사이의 유사도 또는 인접한 서브 프레임들 사이의 평균 에너지의 차이를 계산함으로써 현재 프레임에 트랜지언트 구간이 존재하는지를 판단할 수 있다. 그리고, 트랜지언트 구간의 존재하지 않는 경우에는 기 설정된 윈도우를 그대로 이용하고, 트랜지언트 구간이 존재하는 경우에는 트랜지언트 구간 내에서만 다른 프레임의 윈도우와 중첩되고, 트랜지언트 구간을 제외한 나머지 구간에서는 중첩되지 않는 형태를 갖도록 현재 프레임에 적용되는 윈도우를 결정한다.
단계 720에서, 현재 프레임의 오디오 신호에 결정된 윈도우를 적용하여 윈도우잉(windowing)을 수행한다.
단계 730에서, 윈도우잉된 현재 프레임의 오디오 신호에 대한 선형 예측 코딩 분석을 수행함으로써 현재 프레임의 오디오 신호의 선형 예측 계수를 출력한다.
단계 740에서, 현재 프레임의 오디오 신호의 특성, 즉 트랜지언트 구간의 존재 여부에 따라서 현재 프레임의 오디오 신호의 선형 예측 코딩 계수와 인접 프레임의 오디오 신호의 선형 예측 코딩 계수를 이용한 선형 예측 코딩 계수의 보간을 선택적으로 수행하여 현재 프레임의 오디오 신호의 예측 신호를 생성하는 선형 예측 코딩 합성을 수행한다. 구체적으로, 현재 프레임 내에 트랜지언트 구간이 존재하지 않을 경우, 현재 프레임의 선형 예측 코딩 계수와 이전 프레임의 선형 예측 코딩 계수 사이의 보간을 수행하여 보간된 선형 예측 코딩 계수를 생성하며, 현재 프레임 내에 트랜지언트 구간이 존재할 경우 보간을 수행하지 않는다. 다음 보간된 선형 예측 계수들을 이용한 선형 예측 코딩 합성을 통해 현재 프레임의 오디오 신호의 예측 신호를 생성한다.
트랜지언트 구간이 존재할 경우에는 보간을 수행하는 대신에 인접 프레임의 선형 예측 코딩 계수를 이용한 선형 예측 코딩 합성을 수행하여 제 1 예측 오디오 신호를 생성하고, 현재 프레임의 선형 예측 코딩 계수를 이용한 선형 예측 코딩 합성을 수행하여 제 2 예측 오디오 신호를 생성한 다음, 제 1 예측 오디오 신호 및 제2 예측 오디오 신호를 결합하는 중첩 및 가산 연산을 수행하여 현재 프레임 내의 오디오 신호의 예측 신호를 생성한다.
단계 750에서, 선형 예측 코딩 합성을 통해 생성된 예측 신호와 입력 오디오 신호 사이의 차이값을 계산하여 잔차 신호를 생성한다.
단계 760에서, 트랜지언트 구간 정보, 선형 예측 코딩 계수 및 잔차 신호의 정보를 다중화하여 비트스트림을 생성한다.
도 8은 본 발명에 따른 오디오 신호의 복호화 장치를 나타낸 블록도이다.
도 8을 참조하면, 본 발명에 따른 오디오 신호의 복호화 장치(800)는 역다중화부(810), 트랜지언트 위치 판단부(820), 선형 예측 코딩 합성 수행부(830) 및 중첩 가산(OverLap and Add:OLA) 수행부(840)를 포함한다.
역다중화부(810)는 비트스트림에 대한 역다중화를 수행하여 복호화되는 현재 프레임의 트랜지언트 구간 정보, 선형 예측 코딩 계수 및 잔차 정보 등을 추출한다.
트랜지언트 위치 판단부(820)는 추출된 트랜지언트 구간 정보를 이용하여 복호화되는 현재 프레임 내에 트랜지언트 구간이 존재하는지를 판단한다.
선형 예측 코딩 합성부(830)는 도 2의 선형 예측 코딩 합성부(250)와 유사한 동작을 수행한다. 즉, 선형 예측 코딩 합성 수행부(830)는 현재 프레임 내에 트랜지언트 구간이 존재하는지 여부에 따라서 비트스트림으로부터 추출된 현재 프레임의 선형 예측 코딩 계수와 인접 프레임의 선형 예측 코딩 계수의 보간을 선택적으로 수행한다. 구체적으로 선형 예측 코딩 합성부(830)는 현재 프레임 내에 트랜지언트 구간이 존재하지 않는 경우, 현재 프레임의 선형 예측 코딩 계수와 이전 프레임의 선형 예측 코딩 계수 사이의 보간을 수행하여 보간된 선형 예측 코딩 계수를 생성하고, 보간된 선형 예측 코딩 계수를 이용한 선형 예측 코딩 합성을 수행하여 현재 프레임 내의 오디오 신호를 복호화한다.
또한 선형 예측 코딩 합성 수행부(830)는 현재 프레임 내에 트랜지언트 구간이 존재하는 경우, 인접 프레임의 선형 예측 코딩 계수를 이용한 선형 예측 코딩 합성을 수행하여 제 1 예측 오디오 신호를 생성하고, 현재 프레임의 선형 예측 코딩 계수를 이용한 선형 예측 코딩 합성을 수행하여 제 2 예측 오디오 신호를 생성한다. 그리고, 중첩 가산 수행부(840)는 제 1 예측 오디오 신호 및 제 2 예측 오디오 신호를 결합하는 중첩 및 가산 연산을 수행하여 현재 프레임 내의 오디오 신호를 복호화한다.
도 10은 본 발명에 따른 오디오 신호의 복호화 방법을 나타낸 플로우 차트이다.
도 10을 참조하면, 단계 1010에서 비트스트림에 구비된 트랜지언트 구간 정보를 추출하고, 단계 1020에서 추출된 트랜지언트 구간 정보를 이용하여 복호화되는 현재 프레임 내에 트랜지언트 구간이 존재하는지를 판단한다.
단계 1020의 판단 결과, 현재 프레임 내에 트랜지언트 구간이 존재하지 않는 경우, 단계 1030에서 현재 프레임의 선형 예측 코딩 계수와 이전 프레임의 선형 예측 코딩 계수 사이의 보간을 수행하여 보간된 선형 예측 코딩 계수를 생성하고, 보간된 선형 예측 코딩 계수를 이용한 선형 예측 코딩 합성을 수행하여 현재 프레임 내의 오디오 신호를 복호화한다.
단계 1020의 판단 결과, 현재 프레임 내에 트랜지언트 구간이 존재하는 경우, 인접 프레임의 선형 예측 코딩 계수를 이용한 선형 예측 코딩 합성을 수행하여 제 1 예측 오디오 신호를 생성하고, 현재 프레임의 선형 예측 코딩 계수를 이용한 선형 예측 코딩 합성을 수행하여 제 2 예측 오디오 신호를 생성한다. 그리고, 단계 1050에서 제 1 예측 오디오 신호 및 제 2 예측 오디오 신호를 결합하는 중첩 및 가산 연산을 수행하여 현재 프레임 내의 오디오 신호를 복호화한다.
이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명이 상기의 실시예에 한정되는 것은 아니며, 이는 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명의 사상은 아래에 기재된 특허청구범위에 의해서만 파악되어야 하고, 이와 균등하거나 또는 등가적인 변형 모두는 본 발명 사상의 범주에 속한다 할 것이다. 또한, 본 발명에 따른 시스템은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.

Claims (24)

  1. 【청구항 1】
    오디오 신호의 부호화 방법에 있어서,
    현재 프레임의 오디오 신호의 특성에 따라서 상기 현재 프레임에 적용되는 윈도우를 결정하는 단계;
    상기 현재 프레임의 오디오 신호에 상기 결정된 윈도우를 적용하여 윈도우잉(windowing)을 수행하는 단계;
    상기 윈도우잉된 현재 프레임의 오디오 신호에 대한 선형 예측 코딩(Linear Predictive Coding:LPC) 분석을 수행함으로써 상기 현재 프레임의 오디오 신호의 선형 예측 계수를 출력하는 단계; 및
    상기 현재 프레임의 오디오 신호의 특성에 따라서 상기 현재 프레임의 오디오 신호의 선형 예측 코딩 계수와 인접 프레임의 오디오 신호의 선형 예측 코딩 계수를 이용한 선형 예측 코딩 계수의 보간을 선택적으로 수행하는 단계를 포함하는 것을 특징으로 하는 오디오 신호의 부호화 방법.
  2. 【청구항 2】
    제 1항에 있어서,
    상기 현재 프레임 내의 오디오 신호 특성은 상기 현재 프레임 내에 트랜지언트 구간의 존재 여부인 것을 특징으로 하는 오디오 신호의 부호화 방법.
  3. 【청구항 3】
    제 1항에 있어서,
    상기 현재 프레임에 적용되는 윈도우는
    상기 현재 프레임에 트랜지언트 구간이 존재하는 경우, 상기 트랜지언트 구간 내에서만 인접한 프레임에 적용되는 윈도우와 중첩되는 것을 특징으로 하는 오디오 신호의 부호화 방법.
  4. 【청구항 4】
    제 1항에 있어서,
    상기 현재 프레임에 적용되는 윈도우를 결정하는 단계는
    상기 현재 프레임의 오디오 신호를 복수 개의 서브 프레임들로 분할하는 단계;
    상기 서브 프레임들 각각에 구비된 오디오 신호의 특성에 기초하여 상기 현재 프레임 내에 트랜지언트(transient) 구간의 존재 여부를 판단하는 단계; 및
    상기 판단에 기초하여 상기 현재 프레임에 적용될 윈도우의 크기를 결정하는 단계를 포함하는 것을 특징으로 하는 오디오 신호의 부호화 방법.
  5. 【청구항 5】
    제 4항에 있어서,
    상기 현재 프레임 내에 트랜지언트 구간의 존재 여부를 판단하는 단계는
    인접한 상기 서브 프레임들 사이의 유사도 및 평균 에너지 중 적어도 하나에 기초하여 상기 트랜지언트 구간이 존재 여부를 판단하는 것을 특징으로 하는 오디오 신호의 부호화 방법.
  6. 【청구항 6】
    제 4항에 있어서,
    상기 현재 프레임 내에 트랜지언트 구간의 존재하는 것으로 판단된 경우, 상기 서브 프레임의 위치를 기준으로 상기 트랜지언트 구간을 위치를 결정하고, 상기 트랜지언트 구간 위치를 부호화된 비트스트림의 소정 영역에 부가하는 단계를 더 포함하는 것을 특징으로 하는 오디오 신호의 부호화 방법.
  7. 【청구항 7】
    제 1항에 있어서,
    상기 선형 예측 코딩 계수의 보간을 선택적으로 수행하는 단계는
    상기 현재 프레임 내에 트랜지언트 구간이 존재하지 않을 경우, 상기 현재 프레임의 선형 예측 코딩 계수와 이전 프레임의 선형 예측 코딩 계수 사이의 보간을 수행하여 보간된 선형 예측 코딩 계수를 생성하며,
    상기 현재 프레임 내에 트랜지언트 구간이 존재할 경우, 상기 보간을 수행하지 않는 것을 특징으로 하는 오디오 신호의 부호화 방법.
  8. 【청구항 8】
    제 7항에 있어서,
    상기 보간된 선형 예측 코딩 계수를 이용한 선형 예측 코딩 합성을 수행하여 상기 현재 프레임 내의 오디오 신호의 예측 신호를 생성하는 단계; 및
    상기 예측 신호와 원 오디오 신호의 차이인 잔차 신호를 계산하는 단계를 더 포함하는 것을 특징으로 하는 오디오 신호의 부호화 방법.
  9. 【청구항 9】
    제 7항에 있어서,
    상기 현재 프레임 내에 트랜지언트 구간이 존재할 경우, 상기 보간을 수행하는 대신에 인접 프레임의 선형 예측 코딩 계수를 이용한 선형 예측 코딩 합성을 수행하여 제 1 예측 오디오 신호를 생성하는 단계;
    상기 현재 프레임의 선형 예측 코딩 계수를 이용한 선형 예측 코딩 합성을 수행하여 제 2 예측 오디오 신호를 생성하는 단계;
    상기 제 1 예측 오디오 신호 및 제 2 예측 오디오 신호를 결합하는 중첩 및 가산 연산을 수행하여 상기 현재 프레임 내의 오디오 신호의 예측 신호를 생성하는 단계; 및
    상기 예측 신호와 원 오디오 신호의 차이인 잔차 신호를 계산하는 단계를 더 포함하는 것을 특징으로 하는 오디오 신호의 부호화 방법.
  10. 【청구항 10】
    오디오 신호의 부호화 장치에 있어서,
    현재 프레임의 오디오 신호의 특성에 따라서 상기 현재 프레임에 적용되는 윈도우를 결정하는 윈도우 결정부;
    상기 현재 프레임의 오디오 신호에 상기 결정된 윈도우를 적용하여 윈도우잉(windowing)을 수행하는 윈도우 적용부;
    상기 윈도우잉된 현재 프레임의 오디오 신호에 대한 선형 예측 코딩(Linear Predictive Coding:LPC) 분석을 수행함으로써 상기 현재 프레임의 오디오 신호의 선형 예측 계수를 출력하는 선형 예측 코딩 분석부; 및
    상기 현재 프레임의 오디오 신호의 특성에 따라서 상기 현재 프레임의 오디오 신호의 선형 예측 코딩 계수와 인접 프레임의 오디오 신호의 선형 예측 코딩 계수를 이용한 선형 예측 코딩 계수의 보간을 선택적으로 수행하는 선형 예측 코딩 합성부를 포함하는 것을 특징으로 하는 오디오 신호의 부호화 방법.
  11. 【청구항 11】
    제 10항에 있어서,
    상기 현재 프레임 내의 오디오 신호 특성은 상기 현재 프레임 내에 트랜지언트 구간의 존재 여부인 것을 특징으로 하는 오디오 신호의 부호화 장치.
  12. 【청구항 12】
    제 10항에 있어서,
    상기 윈도우 결정부는
    상기 현재 프레임에 트랜지언트 구간이 존재하는 경우, 상기 트랜지언트 구간 내에서만 인접한 프레임에 적용되는 윈도우와 중첩되는 것을 특징으로 하는 오디오 신호의 부호화 장치.
  13. 【청구항 13】
    제 10항에 있어서,
    상기 윈도우 결정부는
    상기 현재 프레임을 분할한 복수 개의 서브 프레임들 중에서 인접한 서브 프레임들 사이의 유사도 및 평균 에너지 중 적어도 하나에 기초하여 상기 현재 프레임 내에 트랜지언트(transient) 구간의 존재 여부를 판단하며, 상기 판단에 기초하여 상기 현재 프레임에 적용될 윈도우의 크기를 결정하는 것을 특징으로 하는 오디오 신호의 부호화 장치.
  14. 【청구항 14】
    제 10항에 있어서,
    상기 윈도우 결정부는
    상기 현재 프레임 내에 트랜지언트 구간의 존재하는 것으로 판단된 경우, 상기 서브 프레임의 위치를 기준으로 상기 트랜지언트 구간을 위치를 결정하고, 상기 트랜지언트 구간 위치를 부호화된 비트스트림의 소정 영역에 부가하는 것을 특징으로 하는 오디오 신호의 부호화 장치.
  15. 【청구항 15】
    제 10항에 있어서,
    상기 선형 예측 코딩 합성부는
    상기 현재 프레임 내에 트랜지언트 구간이 존재하지 않을 경우, 상기 현재 프레임의 선형 예측 코딩 계수와 이전 프레임의 선형 예측 코딩 계수 사이의 보간을 수행하여 보간된 선형 예측 코딩 계수를 생성하며,
    상기 현재 프레임 내에 트랜지언트 구간이 존재할 경우, 상기 보간을 수행하지 않는 것을 특징으로 하는 오디오 신호의 부호화 장치.
  16. 【청구항 16】
    제 15항에 있어서,
    상기 선형 예측 코딩 합성부는
    상기 현재 프레임 내에 트랜지언트 구간이 존재하지 않을 경우 상기 보간된 선형 예측 코딩 계수를 이용한 선형 예측 코딩 합성을 수행하여 상기 현재 프레임 내의 오디오 신호의 예측 신호를 생성하는 것을 특징으로 하는 오디오 신호의 부호화 장치.
  17. 【청구항 17】
    제 15항에 있어서,
    상기 선형 예측 코딩 합성부는
    상기 현재 프레임 내에 트랜지언트 구간이 존재할 경우, 인접 프레임의 선형 예측 코딩 계수를 이용한 선형 예측 코딩 합성을 수행하여 제 1 예측 오디오 신호를 생성하고, 상기 현재 프레임의 선형 예측 코딩 계수를 이용한 선형 예측 코딩 합성을 수행하여 제 2 예측 오디오 신호를 생성하며, 상기 제 1 예측 오디오 신호 및 제 2 예측 오디오 신호를 결합하는 중첩 및 가산 연산을 수행하여 상기 현재 프레임 내의 오디오 신호의 예측 신호를 생성하는 것을 특징으로 하는 오디오 신호의 부호화 장치.
  18. 【청구항 18】
    오디오 신호의 복호화 방법에 있어서,
    비트스트림에 구비된 트랜지언트 구간 정보를 이용하여 복호화되는 현재 프레임 내에 트랜지언트 구간이 존재하는지를 판단하는 단계; 및
    상기 현재 프레임 내에 트랜지언트 구간이 존재하는지 여부에 따라서 상기 비트스트림으로부터 추출된 현재 프레임의 선형 예측 코딩 계수와 인접 프레임의 선형 예측 코딩 계수의 보간을 선택적으로 수행하는 단계를 포함하는 것을 특징으로 하는 오디오 신호의 복호화 방법.
  19. 【청구항 19】
    제 18항에 있어서,
    상기 선택적으로 수행하는 단계는
    상기 현재 프레임 내에 트랜지언트 구간이 존재하는 경우, 인접 프레임의 선형 예측 코딩 계수를 이용한 선형 예측 코딩 합성을 수행하여 제 1 예측 오디오 신호를 생성하는 단계;
    상기 현재 프레임의 선형 예측 코딩 계수를 이용한 선형 예측 코딩 합성을 수행하여 제 2 예측 오디오 신호를 생성하는 단계; 및
    상기 제 1 예측 오디오 신호 및 제 2 예측 오디오 신호를 결합하는 중첩 및 가산 연산을 수행하여 상기 현재 프레임 내의 오디오 신호를 복호화하는 단계를 더 포함하는 것을 특징으로 하는 오디오 신호의 복호화 방법.
  20. 【청구항 20】
    제 18항에 있어서,
    상기 선택적으로 수행하는 단계는
    상기 판단 결과 상기 현재 프레임 내에 트랜지언트 구간이 존재하지 않는 경우, 상기 현재 프레임의 선형 예측 코딩 계수와 이전 프레임의 선형 예측 코딩 계수 사이의 보간을 수행하여 보간된 선형 예측 코딩 계수를 생성하는 단계; 및
    상기 보간된 선형 예측 코딩 계수를 이용한 선형 예측 코딩 합성을 수행하여 상기 현재 프레임 내의 오디오 신호를 복호화하는 단계를 더 포함하는 것을 특징으로 하는 오디오 신호의 복호화 방법.
  21. 【청구항 21】
    오디오 신호의 복호화 장치에 있어서,
    비트스트림에 구비된 트랜지언트 구간 정보를 이용하여 복호화되는 현재 프레임 내에 트랜지언트 구간이 존재하는지를 판단하는 트랜지언트 위치 판단부; 및
    상기 현재 프레임 내에 트랜지언트 구간이 존재하는지 여부에 따라서 상기 비트스트림으로부터 추출된 현재 프레임의 선형 예측 코딩 계수와 인접 프레임의 선형 예측 코딩 계수의 보간을 선택적으로 수행하는 선형 예측 코딩 합성 수행부를 포함하는 것을 특징으로 하는 오디오 신호의 복호화 장치.
  22. 【청구항 22】
    제 21항에 있어서,
    상기 선형 예측 코딩 합성 수행부는
    상기 현재 프레임 내에 트랜지언트 구간이 존재하는 경우, 인접 프레임의 선형 예측 코딩 계수를 이용한 선형 예측 코딩 합성을 수행하여 제 1 예측 오디오 신호를 생성하고, 상기 현재 프레임의 선형 예측 코딩 계수를 이용한 선형 예측 코딩 합성을 수행하여 제 2 예측 오디오 신호를 생성하는 것을 특징으로 하는 오디오 신호의 복호화 장치.
  23. 【청구항 23】
    제 22항에 있어서,
    상기 제 1 예측 오디오 신호 및 제 2 예측 오디오 신호를 결합하는 중첩 및 가산 연산을 수행하여 상기 현재 프레임 내의 오디오 신호를 복호화하는 중첩 및 가산 수행부를 더 포함하는 것을 특징으로 하는 오디오 신호의 복호화 장치.
  24. 【청구항 24】
    제 21항에 있어서,
    상기 선형 예측 코딩 합성 수행부는
    상기 판단 결과 상기 현재 프레임 내에 트랜지언트 구간이 존재하지 않는 경우, 상기 현재 프레임의 선형 예측 코딩 계수와 이전 프레임의 선형 예측 코딩 계수 사이의 보간을 수행하여 보간된 선형 예측 코딩 계수를 생성하고,상기 보간된 선형 예측 코딩 계수를 이용한 선형 예측 코딩 합성을 수행하여 상기 현재 프레임 내의 오디오 신호를 복호화하는 것을 특징으로 하는 오디오 신호의 복호화 장치.
PCT/KR2009/000431 2008-01-29 2009-01-29 적응적 lpc 계수 보간을 이용한 오디오 신호의 부호화, 복호화 방법 및 장치 WO2009096713A2 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2008-0009009 2008-01-29
KR1020080009009A KR101441896B1 (ko) 2008-01-29 2008-01-29 적응적 lpc 계수 보간을 이용한 오디오 신호의 부호화,복호화 방법 및 장치

Publications (2)

Publication Number Publication Date
WO2009096713A2 true WO2009096713A2 (ko) 2009-08-06
WO2009096713A3 WO2009096713A3 (ko) 2009-09-24

Family

ID=40913415

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2009/000431 WO2009096713A2 (ko) 2008-01-29 2009-01-29 적응적 lpc 계수 보간을 이용한 오디오 신호의 부호화, 복호화 방법 및 장치

Country Status (3)

Country Link
US (1) US8438017B2 (ko)
KR (1) KR101441896B1 (ko)
WO (1) WO2009096713A2 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102484826A (zh) * 2009-08-18 2012-05-30 株式会社Ntt都科摩 移动通信方法

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101589623B (zh) * 2006-12-12 2013-03-13 弗劳恩霍夫应用研究促进协会 对表示时域数据流的数据段进行编码和解码的编码器、解码器以及方法
CN102067211B (zh) * 2009-03-11 2013-04-17 华为技术有限公司 一种线性预测分析方法、装置及系统
WO2011046329A2 (ko) * 2009-10-14 2011-04-21 한국전자통신연구원 천이 구간에 기초하여 윈도우의 오버랩 영역을 조절하는 통합 음성/오디오 부호화/복호화 장치 및 방법
KR101137652B1 (ko) * 2009-10-14 2012-04-23 광운대학교 산학협력단 천이 구간에 기초하여 윈도우의 오버랩 영역을 조절하는 통합 음성/오디오 부호화/복호화 장치 및 방법
US8762158B2 (en) * 2010-08-06 2014-06-24 Samsung Electronics Co., Ltd. Decoding method and decoding apparatus therefor
US8990094B2 (en) * 2010-09-13 2015-03-24 Qualcomm Incorporated Coding and decoding a transient frame
RU2595912C2 (ru) 2011-05-26 2016-08-27 Конинклейке Филипс Н.В. Аудиосистема и способ для нее
WO2012177067A2 (ko) * 2011-06-21 2012-12-27 삼성전자 주식회사 오디오 신호 처리방법 및 장치와 이를 채용하는 단말기
JP5799707B2 (ja) * 2011-09-26 2015-10-28 ソニー株式会社 オーディオ符号化装置およびオーディオ符号化方法、オーディオ復号装置およびオーディオ復号方法、並びにプログラム
EP2830062B1 (en) 2012-03-21 2019-11-20 Samsung Electronics Co., Ltd. Method and apparatus for high-frequency encoding/decoding for bandwidth extension
CN105229735B (zh) * 2013-01-29 2019-11-01 弗劳恩霍夫应用研究促进协会 用于编码模式切换补偿的技术
US9934793B2 (en) 2014-01-24 2018-04-03 Foundation Of Soongsil University-Industry Cooperation Method for determining alcohol consumption, and recording medium and terminal for carrying out same
KR101621778B1 (ko) 2014-01-24 2016-05-17 숭실대학교산학협력단 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기
WO2015115677A1 (ko) * 2014-01-28 2015-08-06 숭실대학교산학협력단 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기
KR101569343B1 (ko) 2014-03-28 2015-11-30 숭실대학교산학협력단 차신호 고주파 신호의 비교법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치
KR101621797B1 (ko) 2014-03-28 2016-05-17 숭실대학교산학협력단 시간 영역에서의 차신호 에너지법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치
KR101621780B1 (ko) 2014-03-28 2016-05-17 숭실대학교산학협력단 차신호 주파수 프레임 비교법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치
KR102546098B1 (ko) * 2016-03-21 2023-06-22 한국전자통신연구원 블록 기반의 오디오 부호화/복호화 장치 및 그 방법
CN109427338B (zh) * 2017-08-23 2021-03-30 华为技术有限公司 立体声信号的编码方法和编码装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05323999A (ja) * 1992-05-20 1993-12-07 Kokusai Electric Co Ltd 音声復号装置
EP1160770A2 (en) * 2000-06-02 2001-12-05 Lucent Technologies Inc. Perceptual coding of audio signals using separated irrelevancy reduction and redundancy reduction
US20060031075A1 (en) * 2004-08-04 2006-02-09 Yoon-Hark Oh Method and apparatus to recover a high frequency component of audio data

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5388221A (en) * 1992-05-05 1995-02-07 Meitner; Edmund Adaptive digital audio interpolation system
JP3572769B2 (ja) 1995-11-30 2004-10-06 ソニー株式会社 ディジタルオーディオ信号処理装置および方法
JPH1020891A (ja) * 1996-07-09 1998-01-23 Sony Corp 音声符号化方法及び装置
US6691084B2 (en) * 1998-12-21 2004-02-10 Qualcomm Incorporated Multiple mode variable rate speech coding
US6658383B2 (en) * 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
US7630902B2 (en) * 2004-09-17 2009-12-08 Digital Rise Technology Co., Ltd. Apparatus and methods for digital audio coding using codebook application ranges
FR2884989A1 (fr) * 2005-04-26 2006-10-27 France Telecom Procede d'adaptation pour une interoperabilite entre modeles de correlation a court terme de signaux numeriques.
US7987089B2 (en) * 2006-07-31 2011-07-26 Qualcomm Incorporated Systems and methods for modifying a zero pad region of a windowed frame of an audio signal

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05323999A (ja) * 1992-05-20 1993-12-07 Kokusai Electric Co Ltd 音声復号装置
EP1160770A2 (en) * 2000-06-02 2001-12-05 Lucent Technologies Inc. Perceptual coding of audio signals using separated irrelevancy reduction and redundancy reduction
US20060031075A1 (en) * 2004-08-04 2006-02-09 Yoon-Hark Oh Method and apparatus to recover a high frequency component of audio data

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
FEK M. ET AL.: 'Joint speech and audio coding combining sinusoidal modeling and wavelet packets' EUROSPEECH 2001, SCANDINAVIA 2001, SCANDINAVIA, XP007004852 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102484826A (zh) * 2009-08-18 2012-05-30 株式会社Ntt都科摩 移动通信方法

Also Published As

Publication number Publication date
US8438017B2 (en) 2013-05-07
KR20090083070A (ko) 2009-08-03
KR101441896B1 (ko) 2014-09-23
US20090198501A1 (en) 2009-08-06
WO2009096713A3 (ko) 2009-09-24

Similar Documents

Publication Publication Date Title
WO2009096713A2 (ko) 적응적 lpc 계수 보간을 이용한 오디오 신호의 부호화, 복호화 방법 및 장치
US20200176009A1 (en) Hierarchical decorrelation of multichannel audio
EP2030199B1 (en) Linear predictive coding of an audio signal
US8504378B2 (en) Stereo acoustic signal encoding apparatus, stereo acoustic signal decoding apparatus, and methods for the same
CN101120400B (zh) 在通信系统中生成隐藏帧的方法
US8634577B2 (en) Audio decoder
KR101427863B1 (ko) 오디오 신호 코딩 방법 및 장치
WO2009081567A1 (ja) ステレオ信号変換装置、ステレオ信号逆変換装置およびこれらの方法
JP2005533271A (ja) オーディオ符号化
WO2014077591A1 (ko) 부호화 모드 결정방법 및 장치, 오디오 부호화방법 및 장치와, 오디오 복호화방법 및 장치
JP2017142542A (ja) 音声符号化装置および方法
RU2640743C1 (ru) Устройство кодирования аудио, способ кодирования аудио, программа кодирования аудио, устройство декодирования аудио, способ декодирования аудио и программа декодирования аудио
KR20080039445A (ko) 멀티 채널 음향 신호 처리 장치
JPH08179795A (ja) 音声のピッチラグ符号化方法および装置
KR100383668B1 (ko) 시간 분리 부호화 알고리즘을 이용한 음성 부호화기 및부호화 방법
JP4348322B2 (ja) 多チャネル信号符号化方法、多チャネル信号復号化方法、それらの方法を用いた装置、プログラム、および記録媒体
JPS6162100A (ja) マルチパルス型符号化復号化装置
JP2004054156A (ja) 音響信号符号化方法及び音響信号符号化装置
JPH05289700A (ja) 音声符号化装置
JP2004520739A5 (ja) スケーラブルデータストリームを生成する方法と装置およびスケーラブルデータストリームを復号化する方法と装置
WO2009142017A1 (ja) ステレオ信号変換装置、ステレオ信号逆変換装置およびこれらの方法
KR0138878B1 (ko) 보코더용 피치검색 처리시간 단축법
JPWO2021260826A5 (ko)
JPWO2021260825A5 (ko)
JPH06102900A (ja) 音声符号化方式および音声復号化方式

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09706729

Country of ref document: EP

Kind code of ref document: A2

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 09706729

Country of ref document: EP

Kind code of ref document: A2