KR20070030816A - Audio encoding - Google Patents

Audio encoding Download PDF

Info

Publication number
KR20070030816A
KR20070030816A KR1020067025699A KR20067025699A KR20070030816A KR 20070030816 A KR20070030816 A KR 20070030816A KR 1020067025699 A KR1020067025699 A KR 1020067025699A KR 20067025699 A KR20067025699 A KR 20067025699A KR 20070030816 A KR20070030816 A KR 20070030816A
Authority
KR
South Korea
Prior art keywords
signal
audio
excitation signal
excitation
spectral
Prior art date
Application number
KR1020067025699A
Other languages
Korean (ko)
Inventor
알베르투스 체. 덴 브링커
안드레아스 예이. 게리츠
펠리프 리에라 팔로우
Original Assignee
코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 코닌클리케 필립스 일렉트로닉스 엔.브이. filed Critical 코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority to KR1020067025699A priority Critical patent/KR20070030816A/en
Publication of KR20070030816A publication Critical patent/KR20070030816A/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

혼성 정현파/펄스 여기 인코더는 스케일가능 오디오 인코더를 구성하기 위해 최근에 제안되었다. 정현파 인코더에 의해 공급된 데이터로 구성된 베이스 층은 입력 신호의 주요 특징을 유지하여, 매우 낮은 비트율로 중간-높은 품질의 오디오를 달성한다. 품질은 본래 신호의 더 미세한 양상을 더욱 더 모델링하는 감소하는 데시메이션과 연관된 여기 신호 층을 추가함으로써 추가로 향상될 수 있다. 본 발명은, 스케일 능력의 전체 개념이 인코딩된 신호의 품질을 손상시키지 않고도 달성되도록 상이한 여기 신호 층을 혼합하는 방법을 제공한다. 혼합은 새로운 높은 층을 구성할 때 이전 층의 중요성을 가중하는 품질 파라미터를 통해 제어된다.Hybrid sinusoidal / pulse excitation encoders have recently been proposed to construct scalable audio encoders. The base layer consisting of the data supplied by the sinusoidal encoder retains the main characteristics of the input signal, achieving medium-high quality audio at very low bit rates. Quality can be further improved by adding an excitation signal layer associated with decreasing decimation that further models the finer aspects of the original signal. The present invention provides a method of mixing different excitation signal layers such that the overall concept of scale capability is achieved without compromising the quality of the encoded signal. Mixing is controlled through quality parameters that add importance to the previous layer when constructing a new high layer.

Description

오디오 인코딩{AUDIO ENCODING}Audio Encoding {AUDIO ENCODING}

본 발명은 광대역 신호, 특히 오디오 신호의 인코딩 및 디코딩에 관한 것이다. 본 발명은 인코더 및 디코더 모두에 관한 것으로, 본 발명에 따라 인코딩된 오디오 스트림, 및 그러한 오디오 스트림이 저장되는 데이터 저장 매체에 관한 것이다.The present invention relates to the encoding and decoding of wideband signals, in particular audio signals. The present invention relates to both encoders and decoders, and to audio streams encoded according to the present invention and to data storage media on which such audio streams are stored.

광대역 신호, 예를 들어 음성과 같은 오디오 신호를 송신할 때, 압축 또는 인코딩 기술이 신호의 비트율을 감소시키는데 사용된다. 비트율을 감소시키는 것은 송신에 필요한 대역폭을 감소시키는 것과 동등하다.When transmitting a wideband signal, for example an audio signal such as voice, compression or encoding techniques are used to reduce the bit rate of the signal. Reducing the bit rate is equivalent to reducing the bandwidth required for transmission.

도 1은, 본 발명에 사용되고 WO 01/69593에 기재된 알려진 파라미터 인코더, 특히 정현파 인코더의 개략도를 도시한다. 이러한 인코더에서, 입력 오디오 신호(x(t))는 일반적으로는 각각 20ms의 지속기간을 갖는 여러(가능하면 중첩된) 시간 세그먼트 또는 프레임으로 분리된다. 각 세그먼트는 과도(transient), 정현파 및 잡음 성분으로 분해되고, 이들 신호 성분을 나타내는 파라미터는 각각 CT, CS 및 CN로 생성된다. 성분이 본 발명에 관련되지 않지만, 고조파 복소수와 같은 입력 오디오 신호의 다른 성분을 도출할 수 있다.1 shows a schematic diagram of a known parameter encoder, in particular a sinusoidal encoder, used in the present invention and described in WO 01/69593. In such an encoder, the input audio signal x (t) is generally divided into several (possibly overlapped) time segments or frames, each having a duration of 20 ms. Each segment is decomposed into transient, sinusoidal and noise components, and the parameters representing these signal components are generated with C T , C S and C N , respectively. Although components are not relevant to the present invention, other components of the input audio signal, such as harmonic complex numbers, can be derived.

인코더의 제 1 스테이지는 과도 검출기(TD)(110), 과도 분석기(TA)(111), 및 과도 합성기(TS)(112)를 포함하는 과도 인코더(11)를 포함한다. 검출기(110)는 과도 신호 성분 및 위치가 있는 지를 추정한다. 이러한 정보는 과도 분석기(111)에 공급된다. 과도 신호 성분의 위치가 결정되면, 과도 분석기(111)는 과도 신호 성분 또는 이 성분의 최상위 부분을 추출하려고 노력한다. 과도 분석기는 바람직하게는 추정된 시작 위치에서 시작하여 형태 함수(shape function)를 신호 세그먼트에 매칭하고, 예를 들어 (작은) 수의 정현파 성분을 이용함으로써 형태 함수 아래의 컨텐츠를 결정한다. 이 정보는 과도 코드(CT)에 포함된다.The first stage of the encoder comprises a transient encoder 11 comprising a transient detector (TD) 110, a transient analyzer (TA) 111, and a transient synthesizer (TS) 112. Detector 110 estimates the presence of transient signal components and positions. This information is supplied to the transient analyzer 111. Once the location of the transient signal component is determined, the transient analyzer 111 tries to extract the transient signal component or the most significant portion of this component. The transient analyzer preferably determines the content under the shape function by matching the shape function to the signal segment starting at the estimated starting position and using, for example, (small) number of sinusoidal components. This information is included in the transient code C T.

과도 코드(CT)는 과도 합성기(112)에 공급된다. 합성된 과도 신호 성분은 감산기(16)에서 입력 신호(x(t))로부터 감산되어, 신호(xA)를 초래한다.이득 제어 메커니즘(GC)(12)은 xA로부터 xB를 생성하는데 사용된다. 정현파 분석기(SA)(130)에서 분석되는 신호(xB)는 정현파 인코더(13)에 공급되고, 상기 정현파 분석기는 정현파 성분, 즉 결정 성분을 결정한다. 정현파 인코딩의 최종 결과는 정현파 코드(CS)이고, 예시적인 정현파 코드(CS)의 종래의 생성을 예시하는 상세한 예는 국제 특허 공보 WO 00/79519A1에 제공된다.The transient code C T is supplied to the transient synthesizer 112. The synthesized transient signal component is subtracted from the input signal x (t) in subtractor 16, resulting in signal x A. Gain control mechanism GC 12 generates x B from x A. Used. The signal x B analyzed by the sinusoidal analyzer (SA) 130 is supplied to the sinusoidal encoder 13, which determines the sinusoidal component, that is, the crystal component. The final result of the sinusoidal encoding is a sinusoidal code C S , and a detailed example illustrating the conventional generation of an exemplary sinusoidal code C S is provided in International Patent Publication WO 00 / 79519A1.

정현파 인코더로 생성된 정현파 코드(CS)로부터, 정현파 신호 성분은 정현파 합성기(SS)(131)에 의해 재구성된다. 이 신호는 정현파 인코더(13)의 입력(xB)으로 부터 감산기(17)에서 감산되어, (큰) 과도 신호 성분 및 (주요) 결정 정현파 성분이 없는 나머지 신호(xC)를 초래한다.From the sinusoidal code C S generated by the sinusoidal encoder, the sinusoidal signal component is reconstructed by the sinusoidal synthesizer (SS) 131. This signal is subtracted from subtractor 17 from input x B of sinusoidal encoder 13, resulting in a residual signal x C without (large) transient signal components and (major) crystal sinusoidal components.

나머지 신호(xC)는 주로 잡음을 포함하는 것으로 간주되고, 잡음 분석기(14)는 WO 01/89086A1에 기재된 바와 같이 이러한 잡음을 나타내는 잡음 코드(CN)를 생성한다.The remaining signal x C is considered to mainly contain noise, and noise analyzer 14 generates a noise code C N representing this noise as described in WO 01 / 89086A1.

도 2a 및 도 2b는 일반적으로 도 1의 잡음 분석기(14)로서 사용하기에 적합한 인코더(NA)와, 대응하는 디코더(ND)의 형태를 도시한다. 도 1의 잔류 신호(xC)에 대응하는 제 1 오디오 신호(r1)는, 신호를 특히 평탄화하고 주어진 차수의 예측 계수(Ps)를 생성하는 제 1 선형 예측(SE) 스테이지를 포함하는 잡음 인코더에 인력된다. 더 구체적으로, 라게르 필터(Laguerre filter)는, 2002년 11월 15일 벨기에, Leuven, 제 1회 오디오의 모델 기반 처리 및 코딩에 대한 IEEE 베네룩스 워크샵(MPCA-2002)의 회보, E.G.P. Schuijers, A.W.J. Oomen, A.C. den Brinker 및 A.J.Gerrits의 "Advances in parametric coding for high-quality audio", pp.73-79에 기재된 바와 같이 신호의 주파수 종속 평탄화를 제공하는데 사용될 수 있다. 잔류 신호(r2)는 파라미터(Pt) 세트, 및 가능하면 일시적으로 평탄화된 잔류 신호(r3)를 생성하는 시간 엔벨로프 추정기(TE)에 입력된다. 파라미터(Pt)는 시간 엔벨로프를 나타내는 이득 세트일 수 있다. 대안적으로, 상기 파라미터는, 프레임당 이득 파라미터로 증대되는, 표준화된 시간 엔벨로프를 나타내는, 라인 스펙트럼 쌍(LSP) 또는 스펙트럼 주파수(LSF)와 같은 주파수 영역에서의 선형 예측으로부터 도출된 파라미터일 수 있다.2A and 2B generally show the form of an encoder NA and a corresponding decoder ND suitable for use as the noise analyzer 14 of FIG. 1. The first audio signal r 1 , corresponding to the residual signal x C of FIG. 1, comprises a first linear prediction (SE) stage which in particular flattens the signal and produces a prediction coefficient Ps of a given order. Is attracted to the encoder. More specifically, the Laguerre filter, Leuven, Belgium, November 15, 2002, a bulletin of the IEEE Benelux Workshop (MPCA-2002) on Model-Based Processing and Coding of First Audio, EGP Schuijers, AWJ Oomen , AC den Brinker and AJGerrits, "Advances in parametric coding for high-quality audio", pp.73-79. The residual signal r 2 is input to a time envelope estimator TE which produces a set of parameters Pt and possibly a temporarily flattened residual signal r 3 . The parameter Pt may be a gain set representing a temporal envelope. Alternatively, the parameter may be a parameter derived from linear prediction in the frequency domain, such as a line spectral pair (LSP) or a spectral frequency (LSF), representing a standardized time envelope that is augmented with a gain parameter per frame. .

파라미터 잡음 디코더(ND)에서, 합성 백색 잡음 시퀀스(WNG에서)가 생성되어, 시간 및 스펙트럼적으로 평평한 엔벨로프를 갖는 신호(r3')를 초래한다. 시간 엔벨로프 생성기(TEG)는 수신되고 양자화된 파라미터(Pt')에 기초하여 시간 엔벨로프를 추가하고, 이를 통해 r2'를 생성하고, 스펙트럼 엔벨로프 생성기(SEG, 시변 필터)는 수신되고 양자화된 파라미터(Ps')에 기초하여 스펙트럼 엔벨로프를 추가하여, 잡음 신호(r1')를 초래한다.In the parametric noise decoder ND, a synthesized white noise sequence (in WNG) is generated, resulting in a signal r 3 ′ having an envelope temporally and spectrally flat. The temporal envelope generator (TEG) adds a temporal envelope based on the received and quantized parameter (Pt '), thereby generating r 2 ', and the spectral envelope generator (SEG, time varying filter) receives the received and quantized parameters ( Adding a spectral envelope based on P s ') results in a noise signal r 1 '.

멀티플렉서(15)에서, 코드(CT, CS 및 CN)를 포함하는 오디오 스트림(AS)이 구성된다.In the multiplexer 15, an audio stream AS comprising codes C T , C S and C N is constructed.

정현파 인코더(13) 및 잡음 분석기(14)는 모든 또는 대부분의 세그먼트에 사용되고, 비트율 경비(budget)의 가장 큰 부분이 된다.The sinusoidal encoder 13 and the noise analyzer 14 are used for all or most segments and are the largest part of the bit rate budget.

파라미터 오디오 코더는 예를 들어 20kbit/s와 같은 비교적 낮은 비트율로 우수한 품질을 제공할 수 있다는 것이 잘 알려져 있다. 그러나, 더 높은 비트율에서, 품질은 증가하고, 이는 비트율을 증가시키는 함수가 다소 낮기 때문이다. 따라서, 과도한 비트율은 우수하거나 투명한 품질을 얻는데 필요하다. 그러므로, 예를 들어 파형 코더의 비트율에 필적하는 비트율로 파라미터 인코딩을 이용하여 투명도를 얻는 것은 어렵다. 이것은, 비트 경비의 과도한 이용 없이 투명 품질에 우수한 파라미터 오디오 코더를 구성하는 것은 어렵다는 것을 의미한다.It is well known that parametric audio coders can provide good quality at relatively low bit rates, for example 20 kbit / s. However, at higher bit rates, the quality is increased because the function of increasing the bit rate is rather low. Therefore, excessive bit rate is necessary to obtain good or transparent quality. Therefore, it is difficult to obtain transparency using parameter encoding, for example, at a bit rate comparable to the bit rate of the waveform coder. This means that it is difficult to construct a parametric audio coder that is excellent in transparency quality without excessive use of bit cost.

투명도에 도달하는 파라미터 인코딩에서 기본적인 어려움에 대한 이유는 한정되는 대상에 있다. 파라미터 인코더는 톤 성분(정현파) 및 잡음 성분(잡음 인코더)을 인코딩하는데 매우 효과적이다. 그러나, 실제 오디오에서, 많은 신호 성분은 그레이 영역에 있다: 이들은 잡음에 의해 적절히 모델링되지 않거나 (작은 수의) 정현파로서 모델링될 수 없다. 그러므로, 중간 품질 레벨에 대해 비트율의 관점으로부터 매우 유리하지만, 파라미터 오디오 인코더에서 대상의 바로 해상도가 우수하거나 투명 품질 레벨에 도달하는데 병목이 된다.The reason for the basic difficulty in parameter encoding reaching transparency is in a limited subject. Parametric encoders are very effective for encoding tone components (sine waves) and noise components (noise encoders). In real audio, however, many signal components are in the gray region: they are not properly modeled by noise or cannot be modeled as (a small number) sinusoids. Therefore, although very advantageous from the point of view of the bit rate for intermediate quality levels, the parametric audio encoder is a bottleneck in achieving a good resolution or reaching a transparent quality level.

동시에, 종래의 오디오 코더(서브 대역 및 변환)는 일반적으로 44.1kHz에서 샘플링된 스테레오 신호에 대한 약 80-130kbit/s와 같은 특정 비트율에서 투명 인코딩 품질에 우수하다. 변환 및 파라미터 코더의 결합(소위 혼성 코더)은 예를 들어 2002년 5월 24일에 출원된 유럽 특허 출원 02077032.7에 기재된 바와 같이 제안되었다. 여기서 다른 경우 서브-대역 코딩되었을 오디오 신호의 스펙트럼-시간 간격은 오디오 품질을 유지하면서 비트율을 감소시키려는 시도 중에 잡음 파라미터로 선택적으로 코딩된다.At the same time, conventional audio coders (subbands and conversions) are generally good at transparent encoding quality at certain bit rates, such as about 80-130 kbit / s for stereo signals sampled at 44.1 kHz. The combination of transform and parameter coders (so-called hybrid coders) has been proposed, for example, as described in European patent application 02077032.7, filed May 24, 2002. The spectral-time interval of the audio signal that would otherwise be sub-band coded is optionally coded with a noise parameter during an attempt to reduce the bit rate while maintaining audio quality.

대안적으로, 변환 또는 서브-대역 인코더는 도 1에 도시된 유형의 파라미터 인코더로 캐스케이드(cascaded)될 수 있다. 그러나, 파라미터 인코더가 변환 또는 서브-대역 인코더보다 이전에 있는 그러한 배열에 대해 예측된 인코딩 이득은 최소화된다. 이것은 오디오 신호의 지각력 있게 가장 중요한 영역이 정현파 인코더에 의해 캡쳐되어, 변환/서브-대역 인코더에서 이득을 인코딩하기 위한 가능성을 적게 한다.Alternatively, the transform or sub-band encoder can be cascaded into a parametric encoder of the type shown in FIG. 1. However, the predicted encoding gain for such an arrangement where the parametric encoder is earlier than the transform or sub-band encoder is minimized. This makes the perceptually most important area of the audio signal captured by the sinusoidal encoder, thereby reducing the possibility for encoding gain in the transform / sub-band encoder.

샘플당 적은 수의 비트를 이용하여 스펙트럼 평탄화 및 잔류 신호 모델링을 이용하는 오디오 코더는, AES 17회 국제 회의 회보, A. Harma 및 U.K. Laine의 "Warped low-delay CELP for wide-band audio coding"과; 1999년 9월 2-5일, 이탈리아, 플로렌스, 고품질 오디오 코딩, 페이지 207-215와; 1990년, NJ, IEEE Piscataway, 아틀란타 GA, 1990 음향 스피치 신호 프로세스 국제 회의(ICASSP90)의 회보, S. Singhal의 "High quality audio coding using multi-pulse LPC", 페이지 1101-1104와; 1991년, NJ, IEEE Piscataway, 아틀란타 OA, 1991 음향 스피치 신호 프로세스 국제 회의(ICASSP91)의 회보, X.Lin의 "High quality audio coding using analysis-by synthesis technique", 페이지 3617-3620에 기재되어 있다. 다수의 논문에서, 이러한 인코딩 방법이 모노 신호(44.1kHz 오디오에 대해 88.2kbit/s)에 대해 2bit/sample에 대응하는 비트율로 투명 품질에 우수하게 한다는 것을 알 수 있다. 이러한 관점에서, 서브-대역 또는 변환 코더의 성능을 초과하지 않는다.Audio coders using spectral flattening and residual signal modeling with a small number of bits per sample are described in the AES 17th International Conference Bulletin, A. Harma and U.K. Laine's "Warped low-delay CELP for wide-band audio coding"; Florence, Italy, September 2-5, 1999, High-Quality Audio Coding, pages 207-215; 1990, NJ, IEEE Piscataway, Atlanta GA, Bulletin of the 1990 International Conference on Acoustic Speech Signal Processing (ICASSP90), "High quality audio coding using multi-pulse LPC" by S. Singhal, pages 1101-1104; 1991, NJ, IEEE Piscataway, Atlanta OA, Bulletin of the 1991 International Conference on Acoustic Speech Signal Processing (ICASSP91), X.Lin, "High quality audio coding using analysis-by synthesis technique," pages 3617-3620. In many papers, it can be seen that this encoding method is superior in transparency quality at a bit rate corresponding to 2 bits / sample for mono signals (88.2 kbit / s for 44.1 kHz audio). In this respect, the performance of the sub-band or the transform coder is not exceeded.

비트 스트림을 스케일링할 가능성은, 종종 음악 배포의 경우에서와 같이 오디오 자료가 상이한 신호 품질 또는 비트율로 액세스될 가능성을 제공해야 하는 응용에서 매우 매력적인 것으로 나타난다. 비트 스트림 스케일 능력(scalability)은 컨텐츠 제공자가 인코딩된 자료의 단지 하나의 버전을 저장하도록 한다. 다른 흥미있는 응용은 오디오 "썸네일(thumbnails)"을 제공하기 위해 인코딩된 신호의 제 1 (베이스) 층의 이용일 수 있는데, 여기서 파일의 전체 버전으로의 후속 액세스는 베이스 층 자료의 재송신을 필요로 하지 않는다. 계층형(layered) 비트 스트림을 생성하기 위한 RPE-기반 코더는, 1997, IEEE 음성 및 오디오 처리에 대한 트랜잭션, 볼륨 5(4), 367-371, S. Zhang 및 G. Lockhart의 "Embedded RPE based on multistage coding"에 기재되어 있다.The possibility of scaling the bit stream appears to be very attractive in applications that often have to offer the possibility that audio material is accessed at different signal qualities or bit rates, as in the case of music distribution. Bit stream scalability allows the content provider to store only one version of the encoded material. Another interesting application may be the use of the first (base) layer of the encoded signal to provide audio "thumbnails", where subsequent access to the full version of the file does not require retransmission of the base layer material. Do not. RPE-based coders for generating layered bit streams are described in 1997, Transactions for IEEE Voice and Audio Processing, Volume 5 (4), 367-371, by S. Zhang and G. Lockhart, "Embedded RPE based. on multistage coding ".

본 발명자는 계층형 비트 스트림을 생성하는 알려진 기술이 스케일 능력 손실로 인해 품질에서 제한된다는 것을 인식하였다. 본 발명의 목적은 계층형 비트 스트림을 생성할 때 품질의 손실을 완화시키는 것이다.The inventors have recognized that known techniques for generating hierarchical bit streams are limited in quality due to loss of scale capability. It is an object of the present invention to mitigate the loss of quality when generating a hierarchical bit stream.

따라서 본 발명은 디지털 오디오 신호를 인코딩하는 방법에 관한 것으로, 신호의 각 시간 세그먼트에 대해, 다음 단계, 즉:The invention thus relates to a method of encoding a digital audio signal, for each time segment of the signal, the following steps:

- 오디오 신호를 나타내는 코드를 제공하기 위해 오디오 신호를 인코딩하는 단계와;Encoding the audio signal to provide a code representative of the audio signal;

- 제 1 잔류 신호를 얻기 위해 오디오 신호로부터 코드에 대응하는 신호를 감산하는 단계와;Subtracting the signal corresponding to the code from the audio signal to obtain a first residual signal;

- 스펙트럼 방식의 평탄화된 잔류 신호(r) 및 스펙트럼 평탄화 파라미터를 얻기 위해 제 1 잔류 신호를 스펙트럼 방식으로 평탄화하는 단계와;Spectral planarizing the first residual signal to obtain a spectral planarized residual signal r and a spectral planarization parameter;

- 펄스 트레인 인코더를 이용하여, 스펙트럼 방식으로 평탄화된 잔류 신호로부터 제 1 여기 신호를 계산하는 단계와;Calculating a first excitation signal from the spectral planarized residual signal using a pulse train encoder;

- 스펙트럼 방식으로 평탄화된 잔류 신호와의 유사도로서 제 1 여기 신호의 품질을 결정하는 단계와;Determining the quality of the first excitation signal as a similarity with the residual signal flattened in a spectral manner;

- 스펙트럼 방식으로 평탄화된 잔류 신호로부터 제 1 여기 신호의 부분을 감산하여, 상기 부분이 제 1 여기 신호의 결정된 품질에 따라 좌우되는 제 2 잔류 신호를 얻는 단계와;Subtracting a portion of the first excitation signal from the spectral planarized residual signal to obtain a second residual signal whose portion depends on the determined quality of the first excitation signal;

- 펄스 트레인 인코더를 이용하여, 제 2 잔류 신호로부터 제 2 여기 신호를 계산하는 단계와;Calculating a second excitation signal from the second residual signal using a pulse train encoder;

- 오디오 스트림을 생성하는 단계로서,Creating an audio stream,

- 제 1 여기 신호,      A first excitation signal,

- 제 2 여기 신호, 및      A second excitation signal, and

- 제 1 여기 신호의 품질을 나타내는 파라미터를      A parameter representing the quality of the first excitation signal

포함하는, 오디오 스트림을 생성하는 단계가 수행된다.Including generating an audio stream.

본 발명은 또한 상기 방법을 이용하여, 디지털 오디오 신호의 각 시간 세그먼트를 인코딩하도록 적응된 오디오 인코더에 관한 것으로, 상기 인코더는,The invention also relates to an audio encoder adapted to encode each time segment of a digital audio signal using the method, wherein the encoder comprises:

- 디지털 오디오 신호를 인코딩하여 상기 신호를 나타내는 코드를 제공하는 인코더와;An encoder for encoding a digital audio signal and providing a code representing said signal;

- 제 1 잔류 신호를 얻기 위해 오디오 신호로부터 코드에 대응하는 신호를 감산하는 감산기와;A subtractor for subtracting the signal corresponding to the code from the audio signal to obtain a first residual signal;

- 스펙트럼 방식으로 평탄화된 잔류 신호 및 스펙트럼 평탄화 파라미터를 얻기 위해 제 1 잔류 신호를 스펙트럼 방식으로 평탄화하는 스펙트럼 평탄화 유닛과;A spectral flattening unit for spectral planarizing the first residual signal to obtain a spectral flattened residual signal and a spectral flattening parameter;

- 스펙트럼 방식으로 평탄화된 잔류 신호에 대한 제 1 여기 신호를 계산하는 펄스 트레인 인코더와;A pulse train encoder for calculating a first excitation signal for the spectralized planarized residual signal;

- 스펙트럼 방식으로 평탄화된 잔류 신호와의 유사도로서 제 1 여기 신호의 품질을 결정하는 수단과;Means for determining the quality of the first excitation signal as a similarity with the residual signal flattened in a spectral manner;

- 스펙트럼 방식으로 평탄화된 잔류 신호로부터 제 1 여기 신호의 부분을 감산하여, 상기 부분이 제 1 여기 신호의 결정된 품질에 따라 좌우되는 제 2 잔류 신호를 얻는 감산기와;A subtractor for subtracting the portion of the first excitation signal from the spectral planarized residual signal to obtain a second residual signal whose portion depends on the determined quality of the first excitation signal;

- 제 2 잔류 신호를 위한 제 2 여기 신호를 계산하는 펄스 트레인 인코더와;A pulse train encoder for calculating a second excitation signal for the second residual signal;

- 오디오 스트림을 생성하는 비트 스트림 생성기로서,A bit stream generator for generating audio streams,

- 제 1 여기 신호,      A first excitation signal,

- 제 2 여기 신호, 및      A second excitation signal, and

- 제 1 여기 신호의 품질을 나타내는 파라미터를      A parameter representing the quality of the first excitation signal

포함하는, 비트 스트림 생성기를 포함한다.It includes a bit stream generator.

더욱이, 본 발명은 상기 방법 또는 인코더를 이용하여 인코딩된 오디오 스트림과 같은 수신된 오디오 스트림을 디코딩하는 방법에 관한 것으로, 상기 오디오 스트림은 오디오 신호의 복수의 세그먼트 각각에 대해,Moreover, the present invention relates to a method for decoding a received audio stream, such as an encoded audio stream using the method or encoder, wherein the audio stream is for each of a plurality of segments of an audio signal,

- 제 1 여기 신호,A first excitation signal,

- 제 2 여기 신호,A second excitation signal,

- 제 1 여기 신호의 품질을 나타내는 파라미터를 포함하고,A parameter indicative of the quality of the first excitation signal,

상기 방법은,The method,

- 품질 파라미터에 따라, 결합된 여기 신호를 얻기 위해 제 1 및 제 2 여기 신호를 결합하는 단계와;Combining the first and second excitation signals according to a quality parameter to obtain a combined excitation signal;

- 선형 예측 합성 필터를 이용하여, 제 1 잔류 신호를 결합된 여기 신호로부터 합성하는 단계를 포함한다.Synthesizing the first residual signal from the combined excitation signal using a linear predictive synthesis filter.

따라서, 본 발명은 오디오 스트림을 수신 및 디코딩하는 오디오 플레이어에 관한 것으로, 오디오 스트림은 오디오 신호의 복수의 세그먼트 각각에 대해,Accordingly, the present invention relates to an audio player for receiving and decoding an audio stream, wherein the audio stream is for each of a plurality of segments of the audio signal,

- 제 1 여기 신호,A first excitation signal,

- 제 2 여기 신호, 및A second excitation signal, and

- 제 1 여기 신호의 품질을 나타내는 파라미터를 포함하고,A parameter indicative of the quality of the first excitation signal,

상기 오디오 플레이어는,The audio player,

- 품질 파라미터에 따라, 결합된 여기 신호를 얻기 위해 제 1 및 제 2 여기 신호를 결합하는 수단과;Means for combining the first and second excitation signals according to a quality parameter to obtain a combined excitation signal;

- 선형 예측을 이용하여, 제 1 잔류 신호를 결합된 여기 신호로부터 합성하는 수단을 포함한다.Means for synthesizing the first residual signal from the combined excitation signal using linear prediction.

마지막으로, 본 발명은, 오디오 신호의 복수의 세그먼트 각각에 대해,Finally, the present invention relates to each of a plurality of segments of an audio signal,

- 스펙트럼 방식으로 평탄화된 잔류 신호의 펄스 트레인 인코딩으로부터 초래된 제 1 여기 신호로서, 상기 잔류 신호는 오디오 신호로부터 인코딩된 오디오 신호를 감산하는 것으로부터 초래되는, 제 1 여기 신호와;A first excitation signal resulting from pulse train encoding of a spectral planarized residual signal, the residual signal resulting from subtracting the encoded audio signal from the audio signal;

- 제 2 잔류 신호의 펄스 트레인 인코딩으로부터 초래되는 제 2 여기 신호로서, 상기 신호는 스펙트럼 방식으로 평탄화된 잔류 신호로부터 제 1 여기 신호의 부분을 감산함으로써 생성되고, 여기서 상기 부분은 제 1 여기 신호의 결정된 품질에 따라 좌우되는, 제 2 여기 신호와;A second excitation signal resulting from the pulse train encoding of the second residual signal, the signal being generated by subtracting a portion of the first excitation signal from the spectral planarized residual signal, wherein the portion is A second excitation signal, dependent on the determined quality;

- 제 1 여기 신호의 결정된 품질을 나타내는 파라미터를A parameter indicative of the determined quality of the first excitation signal;

포함하는 오디오 스트림과, 이러한 오디오 스트림을 저장하는 저장 매체에 관한 것이다.An audio stream is included and a storage medium for storing such an audio stream.

본 발명의 실시예는 이제 첨부 도면을 참조하여 예로서 설명될 것이다.Embodiments of the present invention will now be described by way of example with reference to the accompanying drawings.

도 1은 종래의 파라미터 인코더를 도시한 도면.1 shows a conventional parametric encoder.

도 2a 및 도 2b는 각각 종래의 파라미터 잡음 인코더(NA) 및 대응하는 잡음 디코더(ND)를 도시한 도면.2A and 2B show a conventional parametric noise encoder (NA) and a corresponding noise decoder (ND), respectively.

도 3은 인코더의 개요를 도시한 도면.3 shows an outline of an encoder;

도 4는 도 3의 인코더와 호환하는 제 1 디코더의 개요를 도시한 도면.4 shows an overview of a first decoder compatible with the encoder of FIG.

도 5는 도 3의 인코더와 호환하는 제 2 디코더의 개요를 도시한 도면.5 shows an overview of a second decoder compatible with the encoder of FIG.

도 6은 본 발명에 따른 인코더의 개략도.6 is a schematic diagram of an encoder according to the present invention;

도 7은 본 발명에 따른 디코더의 개략도.7 is a schematic diagram of a decoder according to the present invention;

도 1 내지 도 5 및 대응하는 설명은 2003년, 12월 1일에 출원된 비공개된 유럽 특허 출원 번호 03104472.0(출원인의 내부 관리 번호 PHNL031414EPP)에 있는 설명을 반영한다.1-5 and the corresponding description reflect the description in the closed European patent application number 03104472.0 (Applicant's internal control number PHNL031414EPP) filed December 1, 2003.

도 1에는 WO 01/69593에 기재되고 본 발명의 바람직한 실시예에 사용된 유형의 정현파 인코더(1)가 도시된다. 이러한 종래의 인코더 및 대응하는 디코더의 동작은 잘 설명되어 있어서, 본 발명에 관련된 곳에만 설명이 제공된다.1 shows a sinusoidal encoder 1 of the type described in WO 01/69593 and used in the preferred embodiment of the invention. The operation of such conventional encoders and corresponding decoders is well described and the description is provided only where relevant to the present invention.

오디오 인코더(1)는 특정 샘플링 주파수에서 샘플링된 디지털 오디오 신 호(x(t))를 수신한다. 그런 후에 인코더(1)는 샘플링된 입력 신호를 3개의 성분, 즉 과도 신호 성분, 지속 결정 성분, 및 지속 확률적 성분(sustained stochastic component)으로 분리한다. 오디오 인코더(1)는 과도 인코더(11), 정현파 인코더(13), 및 잡음 인코더(14)를 포함한다.The audio encoder 1 receives a digital audio signal x (t) sampled at a specific sampling frequency. The encoder 1 then separates the sampled input signal into three components: the transient signal component, the sustained decision component, and the sustained stochastic component. The audio encoder 1 comprises a transient encoder 11, a sinusoidal encoder 13, and a noise encoder 14.

과도 인코더(11)는 과도 검출기(TD)(110), 과도 분석기(TA)(111) 및 과도 합성기(TS)(112)를 포함한다. 먼저, 신호(x(t))는 과도 검출기(110)에 입력된다. 이러한 검출기(110)는 과도 신호 성분 및 그 위치가 있는지를 추정한다. 이러한 정보는 과도 분석기(111)에 공급된다. 과도 신호 성분의 위치가 결정되면, 과도 분석기(111)는 과도 신호 성분(의 주요 부분을)을 추출하려고 한다. 과도 분석기는 바람직하게는 추정된 시작 위치에서 시작하여 형태 함수를 신호 세그먼트와 매칭시키고, 예를 들어 (적은) 수의 정현파 성분을 이용함으로써 상기 형태 함수 아래의 컨텐츠를 결정한다. 이러한 정보는 과도 코드(CT)에 포함되고, 과도 코드(CT)의 생성에 관한 보다 상세한 정보는 WO 01/69593에 제공된다.The transient encoder 11 includes a transient detector (TD) 110, a transient analyzer (TA) 111, and a transient synthesizer (TS) 112. First, the signal x (t) is input to the transient detector 110. This detector 110 estimates whether there is a transient signal component and its location. This information is supplied to the transient analyzer 111. Once the location of the transient signal component is determined, the transient analyzer 111 attempts to extract the major portion of the transient signal component. The transient analyzer preferably matches the shape function with the signal segment starting at the estimated starting position and determines the content below the shape function by using, for example, a (small) number of sinusoidal components. This information is contained in the transient code (C T), more detailed information on generating the transient code (C T) is provided in WO 01/69593.

과도 코드(CT)는 과도 분석기(112)에 제공된다. 합성된 과도 신호 성분은 감산기(16)에서 입력 신호(x(t))로부터 감산되어, 신호(xA)를 초래한다. 이득 제어 메커니즘(GC)(12)은 xA로부터 xB를 생성하는데 사용된다.The transient code C T is provided to the transient analyzer 112. The synthesized transient signal component is subtracted from input signal x (t) in subtractor 16, resulting in signal x A. Gain control mechanism (GC) 12 is used to generate x B from x A.

신호(xB)는, (결정) 정현파 성분을 결정하는 정현파 분석기(SA)(130)에서 분석되는 정현파 인코더(13)에 제공된다. 그러므로, 과도 분석기의 존재가 바람직하 지만, 필요하지 않고, 본 발명은 그러한 분석기로서 구현될 수 있다는 것을 알 것이다. 대안적으로, 전술한 바와 같이, 본 발명은 또한 예를 들어 고조파 복소수 분석기로 구현될 수 있다. 간략하게, 정현파 인코더는 하나의 프레임 세그먼트로부터 다음 프레임 세그먼트로 링크된 정현파 성분의 트랙으로서 입력 신호(xB)를 인코딩한다.The signal x B is provided to a sinusoidal encoder 13 which is analyzed by a sinusoidal analyzer (SA) 130 that determines the (deterministic) sinusoidal component. Therefore, the presence of the transient analyzer is desirable, but not required, and it will be appreciated that the present invention can be implemented as such an analyzer. Alternatively, as mentioned above, the invention can also be implemented with, for example, a harmonic complex analyzer. Briefly, the sinusoidal encoder encodes the input signal x B as a track of sinusoidal components linked from one frame segment to the next.

도 3에 도시된 인코더는, 1986년, IEEE Trans. Acoust. Speech, Signal Process, 34의, P.Kroon, E.F. Deprettere 및 R. J. Sluijter의 "Regular Pulse Excitation-A novel approach to effective and efficient multipulse coding of speech"에 기재된 유형의 펄스 트레인 인코더로 보충된다. 그럼에도 불구하고, 실시예가 RPE(Regular Pulse Excitation) 인코더에 설명되지만, 미국 특허 번호 4,932,061에 기재된 MPE(Multi-Pulse Excitation) 기술, 또는 1997년 4월 21-24일, Munich(독일), ICASSP-97 회보, 2권, 페이지 771-774에 있는 K.Jarvinen, J.Vainio, P.Kapanen, T. Honkanen, P. Haavisto, R. Salami, C. Laflamme, J-P. Adoul의 "GSM enhanced full rate speech codec"에 기재된 ACELP 인코더로 동일하게 구현될 수 있으며, 이들 각각이 제 1 LP 기반 스펙트럼 평탄화 스테이지를 포함한다는 것을 알 것이다.The encoder shown in FIG. 3 is, in 1986, IEEE Trans. Acoust. Speech, Signal Process, 34, P. Kroon, E.F. It is supplemented by a pulse train encoder of the type described in Deprettere and R. J. Sluijter's "Regular Pulse Excitation-A novel approach to effective and efficient multipulse coding of speech". Nevertheless, although the embodiment is described in a Regular Pulse Excitation (RPE) encoder, the Multi-Pulse Excitation (MPE) technology described in US Pat. No. 4,932,061, or April 21-24, 1997, Munich, Germany, ICASSP-97 K. Jarvinen, J. Vainio, P. Kapanen, T. Honkanen, P. Haavisto, R. Salami, C. Laflamme, JP in the newsletter, Vol. 2, pages 771-774. It will be appreciated that the same can be implemented with the ACELP encoder described in Adoul's "GSM enhanced full rate speech codec", each of which includes a first LP based spectral smoothing stage.

도 3에 도시된 인코더에서, 인코더로부터 필요한 품질에 따라 결정된 전체 비트율 경비는 파라미터 인코더와, RPE 데시메이션(decimation) 인자(D)가 유도될 수 있는 RPE 인코딩 경비에 의해 사용가능한 비트율(B)로 나누어진다.In the encoder shown in FIG. 3, the overall bit rate cost determined according to the quality required from the encoder is the bit rate B usable by the parametric encoder and the RPE encoding cost from which the RPE decimation factor D can be derived. Divided.

도 3에서, 입력 오디오 신호(x)는 먼저 도 1의 파라미터 인코더의 블록(11 및 13)에 대응하는 블록(TSA: Transient and Sinusoidal Analysis) 내에서 처리된다. 따라서, 이 블록은 도 1에 기재된 바와 같이 과도 및 잡음에 대한 연관된 파라미터를 생성한다. 비트율(B)이 주어지면, 블록(BRC: Bit Rate Control)은 바람직하게 정현파의 수를 제한하고, 바람직하게 정현파 및 과도에 대한 전체 비트율이 일반적으로 약 20kbit/s로 설정된 B와 최대로 동일하도록 과도를 보존한다.In FIG. 3, the input audio signal x is first processed in a block (TSA: Transient and Sinusoidal Analysis) corresponding to blocks 11 and 13 of the parametric encoder of FIG. 1. Thus, this block generates associated parameters for transients and noise as described in FIG. Given a bit rate B, the block rate control (BRC) preferably limits the number of sinusoids, preferably such that the overall bit rate for sinusoids and transients is at most equal to B, which is generally set at about 20 kbit / s. To preserve the transition;

파형은 블록(TSA)에 의해 생성되고 블록(BRC)에 의해 변형된 과도 및 정현파 파라미터(CT 및 CS)를 이용하여 도 1의 블록(112 및 131)에 대응하는 블록(TSS: Transient and Sinusoidal Synthesiser)에 의해 생성된다. 이 신호는 입력 신호(x)로부터 감산되어, 도 1에서 잔류 신호(xC)에 대응하는 신호(r1)를 초래한다. 일반적으로, 신호(r1)는 실질적인 정현파 및 과도 성분을 포함하지 않는다.The waveform is generated by block TSA and corresponds to blocks 112 and 131 of FIG. 1 using transient and sinusoidal parameters C T and C S modified by block BRC. Sinusoidal Synthesiser). This signal is subtracted from the input signal x, resulting in a signal r 1 corresponding to the residual signal x C in FIG. In general, the signal r 1 does not include substantial sinusoidal and transient components.

신호(r1)로부터, 스펙트럼 엔벨로프는 추정되고, 예를 들어 종래 기술의 도 2a에서와 같이 태핑-지연-라인 또는 라게르 필터에 기초하여 선형 예측 필터를 이용하여 블록(SE)에서 제거된다. 선택된 필터의 예측 계수(Ps)는 종래 유형의 잡음 코드(CN)의 부분으로서 디코더로 송신하기 위한 비트 스트림(AS)에 기록된다. 그 다음에, 시간 엔벨로프는 예를 들어 다시 종래 기술의 도면 2a에 기재된 바와 같이 이득과 함께 라인 스펙트럼 쌍(LSP) 또는 라인 스펙트럼 주파수(LSF) 계수를 생성하는 블록(TE)에서 제거된다. 임의의 경우에, 시간 평탄화로부터 결과적인 계 수(Pt)는 종래 유형의 잡음 코드(CN)의 부분으로서 디코더로 송신하기 위한 비트 스트림(AS)에 기록된다. 일반적으로, 계수(Ps 및 Pt)는 4-5 kbit/s의 비트율 경비를 필요로 한다.From signal r 1 , the spectral envelope is estimated and removed at block SE using a linear prediction filter based on a tapping-delay-line or Lager filter, for example as in FIG. 2A of the prior art. The prediction coefficient Ps of the selected filter is recorded in the bit stream AS for transmission to the decoder as part of the conventional type noise code C N. The temporal envelope is then removed in block TE, which, for example, produces a line spectral pair (LSP) or line spectral frequency (LSF) coefficient with gain, again as described in Figure 2a of the prior art. In any case, the number resulting from the time-based planarization (Pt) is written in the bit stream (AS) for transmitting to the decoder as part of a prior art type of noise code (C N). In general, the coefficients P s and P t require bit rate guarding of 4-5 kbit / s.

펄스 트레인 코더가 제 1 스펙트럼 평탄화 스테이지를 이용하기 때문에, RPE 인코더는, 비트율 경비가 RPE 인코더에 할당되었는지에 따라 블록(SE)에 의해 생성된 스펙트럼 방식으로 평탄화된 신호(r2)에 선택적으로 적용될 수 있다. 대안적인 실시예에서, 점선으로 표시된 바와 같이, RPE 인코더에는 블록(TE)에 의해 생성된 스펙트럼 방식으로 시간 평탄화된 신호(r3)가 인가된다.Since the pulse train coder uses the first spectral flattening stage, the RPE encoder is selectively applied to the spectralized flattened signal r 2 generated by the block SE depending on whether the bit rate cost is assigned to the RPE encoder. Can be. In an alternative embodiment, as indicated by the dotted line, the RPE encoder is applied with a time flattened signal r 3 in a spectral fashion generated by the block TE.

배경 기술에서 언급된 문헌으로부터 알려진 바와 같이, RPE 인코더는 잔류 신호(r2/r3)에 대해 분석-합성 방식으로 검색을 수행한다. 데시메이션 인자(D)가 주어지면, RPE 검색 절차는 오프셋(0과 D1 사이의 값, D1은 D에 따라 좌우됨), RPE 펄스(예를 들어, 값 -1, 0 및 1을 갖는 3진 펄스)의 진폭, 및 이득 파라미터에 기인한다. 이러한 정보는 RPE 인코딩이 이용될 때 멀티플렉서(MUX)에 의해 디코더로 송신하기 위한 오디오 스트림(AS)에 포함된 층(L0)에 저장된다.As is known from the literature mentioned in the background art, the RPE encoder performs a search in an analysis-synthesis manner on the residual signal r 2 / r 3 . Given the decimation factor (D), the RPE retrieval procedure uses an offset (value between 0 and D1, D1 depends on D), a ternary with an RPE pulse (eg, values -1, 0 and 1). Pulse amplitude), and gain parameter. This information is stored in the layer L 0 included in the audio stream AS for transmission by the multiplexer MUX to the decoder when RPE encoding is used.

RPE 인코더는 상이한 비트율로 동작가능하고, 이에 따라 상이한 품질 레벨을 공급한다. 비트율은 데시메이션 인자(D) 및 양자화 그리드에 의해 효과적으로 튜닝가능하고, 이들 파라미터를 정확히 설정함으로써, 단조롭게 증가하는 품질은 증가하는 비트율로 얻어져서, 비트율의 상당 범위에 걸쳐 종래 기술의 인코더에 경쟁적 이 된다.RPE encoders are operable at different bit rates and thus supply different quality levels. The bit rate is effectively tunable by the decimation factor (D) and the quantization grid, and by accurately setting these parameters, monotonically increasing quality is obtained at increasing bit rates, which is competitive with prior art encoders over a significant range of bit rates. do.

실험은, RPE 인코더가 때때로 높은 데시메이션 인자(예를 들어, D=8)를 이용할 때 재구성된 신호에서 밝기의 손실을 초래한다는 것을 보여주었다. 일부 낮은 레벨의 잡음을 RPE 시퀀스에 추가하는 것은 이러한 문제를 완화시킨다. 잡음의 레벨을 결정하기 위해, 이득(g)은 예를 들어 코딩된 RPE 시퀀스로부터 생성된 신호와 잔류 신호(r2/r3) 사이의 에너지/전력 차이에 기초하여 계산된다. 이 이득은 또한 층(L0) 정보의 부분으로서 디코더로 송신된다.Experiments have shown that RPE encoders sometimes result in loss of brightness in the reconstructed signal when using high decimation factors (eg, D = 8). Adding some low level noise to the RPE sequence alleviates this problem. To determine the level of noise, the gain g is calculated based on the energy / power difference between the signal generated from the coded RPE sequence and the residual signal r 2 / r 3 , for example. This gain is also sent to the decoder as part of the layer (L 0 ) information.

도 4는 도 3의 인코더와 호환하는 디코더를 도시한다. 디멀티플렉서(DeM)는 인입 오디오 스트림(AS')을 판독하고, 종래 기술에서와 같이 정현파, 과도 및 잡음 코드{CS, CT 및 CN(Ps, Pt)}를 각 합성기(SiS, TrS 및 TEG/SEG)에 제공한다. 종래 기술에서와 같이, 백색 잡음 생성기(WNG)는 시간 엔벨로프 생성기(TEG)에 입력 신호를 공급한다. 상기 정보가 이용가능한 실시예에서, 펄스 트레인 생성기(PTG)는 층(L0)으로부터 펄스 트레인을 생성하고, 이것은 여기 신호(r2')를 제공하기 위해 블록(Mx)에서 TEG에 의해 출력된 잡음 신호와 혼합된다. 잡음 코드{CN(Ps, Pt)} 및 층(L0)이 동일한 잔류 신호(r2)와 독립적으로 생성될 때, 인코더가 생성하는 신호는 합성된 여기 신호(r2')에 대한 정확한 에너지 레벨을 제공하도록 이득 변형될 필요가 있다는 것을 인코더로부터 알 것이다. 이 실시예에서, 믹서(Mx)에서, 블록(TEG 및 PTG)에 의해 생성된 신호가 결합된다.4 illustrates a decoder that is compatible with the encoder of FIG. 3. The demultiplexer (DeM) reads the incoming audio stream (AS '), and the sinusoidal, transient and noise codes {C S , C T and C N (Ps, Pt)}, as in the prior art, are combined with each synthesizer (SiS, TrS and TEG / SEG). As in the prior art, the white noise generator (WNG) supplies an input signal to the time envelope generator (TEG). In an embodiment where the above information is available, the pulse train generator PTG generates a pulse train from layer L 0 , which is output by the TEG at block Mx to provide an excitation signal r 2 ′. It is mixed with the noise signal. When the noise code C N (Ps, Pt) and the layer L 0 are generated independently of the same residual signal r 2 , the signal produced by the encoder is accurate to the synthesized excitation signal r 2 ′. It will be appreciated from the encoder that the gain needs to be modified to provide an energy level. In this embodiment, in the mixer Mx, the signals generated by the blocks TEG and PTG are combined.

그 다음에, 여기 신호(r2')는 코드(Ps)에 따라 합성된 잡음 신호(r1')를 생성하는 스펙트럼 엔벨로프 생성기(SEG)에 공급된다. 이 신호는 출력 신호(

Figure 112006090460234-PCT00001
)를 생성하기 위해 종래의 과도 및 정현파 합성기에 의해 생성된 합성된 신호에 추가된다.The excitation signal r 2 ′ is then supplied to a spectral envelope generator SEG that produces a synthesized noise signal r 1 ′ according to the code Ps. This signal is the output signal (
Figure 112006090460234-PCT00001
Is added to the synthesized signal produced by the conventional transient and sinusoidal synthesizers to produce the < RTI ID = 0.0 >

대안적인 실시예에서, 펄스 트레인 생성기(PTG)에 의해 생성된 파라미터는 시간 형성된 잡음 신호를 생성하기 위해 WNG에 의해 출력된 신호의 시간 엔벨로프를 형성하도록 잡음 코드(Pt)와 결합하여 사용된다(점선으로 표시됨).In an alternative embodiment, the parameters generated by the pulse train generator (PTG) are used in combination with the noise code (Pt) to form a time envelope of the signal output by the WNG to generate a time formed noise signal (dotted line). Indicated by).

도 5는, RPE 블록이 잔류 신호(r3)를 처리하는 도 3의 실시예에 대응하는 디코더의 제 2 실시예를 도시한다. 여기서, 인코더에 의해 결정된 이득((g) 및 CN)에 기초하여 백색 잡음 생성기(WNG)에 의해 생성되고 블록(We)에 의해 처리된 신호, 및 펄스 트레인 생성기(PTG)에 의해 생성된 펄스 트레인은 여기 신호(r3')를 구성하도록 더해진다. 물론, 층(L0) 정보가 이용가능하지 않은 경우, 백색 잡음은 블록(We)에 의해 영향을 받지 않고, 여기 신호(r3')로서 시간 엔벨로프 생성기 블록(TEG)에 제공된다.FIG. 5 shows a second embodiment of a decoder corresponding to the embodiment of FIG. 3 in which the RPE block processes the residual signal r 3 . Here, the signal generated by the white noise generator (WNG) and processed by the block (We) based on the gain (g) and C N determined by the encoder, and the pulse generated by the pulse train generator (PTG). The train is added to construct an excitation signal r 3 ′. Of course, if the layer L 0 information is not available, the white noise is not affected by the block We and is provided to the temporal envelope generator block TEG as the excitation signal r 3 ′.

그 다음에, 시간 엔벨로프 계수(Pt)는 이전에 처리되는 합성된 신호(r2')를 제공하기 위해 블록(TEG)에 의해 여기 신호(r3')에 부과된다. 전술한 바와 같이, 이것은 유리한데, 이는 일반적으로 펄스 트레인 여기가, 적절히 가중된 추가 잡음 시 퀀스로, 대처할 수 있는 밝기에서의 일부 손실을 초래하기 때문이다. 가중은 각각 이득 인자(g 및 CN)에 기초한 간단한 진폭 또는 스펙트럼 형성을 포함할 수 있다.Then, the temporal envelope coefficient Pt is imposed on the excitation signal r 3 ′ by the block TEG to provide the synthesized signal r 2 ′ that has been previously processed. As mentioned above, this is advantageous because, in general, pulse train excitation results in some loss in manageable brightness, with a properly weighted additional noise sequence. The weighting may include simple amplitude or spectral formation based on gain factors g and C N , respectively.

이전에서와 같이, 신호는 예를 들어 스펙트럼 엔벨로프를 신호에 추가하는 블록(SEG: Spectral Envelope Generator)에서 선형 예측 합성 필터에 의해 필터링된다. 그 후에 결과적인 신호는 이전에서와 같이 합성된 정현파 및 과도 신호에 추가된다.As before, the signal is filtered by a linear predictive synthesis filter, for example in a block that adds a spectral envelope to the signal (SEG). The resulting signal is then added to the synthesized sinusoidal and transient signals as before.

도 4 또는 도 5에서, PTG가 사용되지 않으면, 디코딩 방식이 잡음 인코더만을 이용하는 종래의 정현파 인코더와 유사하다는 것을 알 것이다. PTG가 사용되면, 재구성된 신호를 개선시키는, 즉 더 높은 오디오 품질을 제공하는 RPE 시퀀스가 추가된다.4 or 5, it will be appreciated that if no PTG is used, the decoding scheme is similar to a conventional sinusoidal encoder using only a noise encoder. If PTG is used, an RPE sequence is added that improves the reconstructed signal, ie provides higher audio quality.

도 5의 실시예에서, 완전한 프레임에 고정된 이득이 사용되는 표준 펄스 인코더(RPE 또는 MPE)에 비해, 시간 엔벨로프가 신호(r2')에서 병합되는 것을 주지해야 한다. 그러한 시간 엔벨로프를 이용함으로써, 더 나은 음질은 얻어질 수 있는데, 그 이유는 이득 프로파일에서의 융통성이 프레임당 고정된 이득에 비해 더 높기 때문이다.In the embodiment of Figure 5, it should be noted that the time envelope is merged in the signal r 2 ', compared to a standard pulse encoder (RPE or MPE) where fixed gain is used for the complete frame. By using such a temporal envelope, better sound quality can be obtained because the flexibility in the gain profile is higher than the fixed gain per frame.

전술한 혼성 방법은 다양한 비트율에서 동작할 수 있고, 비트율마다, 종래 기술의 인코더의 품질에 필적한 품질을 제공한다. 상기 방법에서, 파라미터(정현파) 인코더에 의해 공급된 데이터에 의해 구성되는 베이스 층은 입력 신호의 주요 또는 기본 특징을 포함하고, 상기 방법에서 중간-높은 품질 오디오 신호는 매우 낮 은 비트율로 얻어진다.The hybrid method described above can operate at a variety of bit rates, and, for each bit rate, provides a quality comparable to that of prior art encoders. In the method, the base layer constituted by the data supplied by the parametric (sinusoidal) encoder comprises the main or basic characteristics of the input signal, in which the medium-high quality audio signal is obtained at a very low bit rate.

그러나, 생성된 비트 스트림이 스케일가능하여, 층이 추출될 수 있는 것이 바람직하다. 정렬된 층이 있다고 간주된다. 따라서, 인코더가 주어진 비트율에 대해 최적의 품질을 얻기 위해 정보를 구조적으로 추가할 수 있는 것이 바람직하다. 비트 스트림의 계층화는 일반적으로 스케일가능 비트 스트림의 요건에 의해 유도된 품질에서의 감소(소위 스케일 능력 손실)를 의미한다. 본 발명은 이 문제를 완화시키려는 것이다. 이러한 이유로 인해, 인코더, 디코더 및 비트 스트림이 적응된다.However, it is desirable for the generated bit stream to be scalable so that the layer can be extracted. It is assumed that there are aligned layers. Thus, it is desirable for the encoder to be able to structurally add information to obtain optimal quality for a given bit rate. Stratification of the bit stream generally means a reduction in quality (so-called loss of scale capability) induced by the requirements of the scalable bit stream. The present invention seeks to alleviate this problem. For this reason, the encoder, decoder and bit stream are adapted.

다음 설명에서, 상이한 여기 신호 층의 혼합이 디코더에서 수행되어, 스케일 능력의 전체 컨셉이 코딩된 신호의 품질을 절충하지 않고도 실현되는 본 발명에 따른 방법에 대한 설명이 주어진다. 혼합은, 인코더에서 결정되고 비트 스트림에 저장된 하나 이상의 파라미터를 통해 제어된다. 이들 파라미터는 새로운 더 높은 층을 구성할 때 이전 층의 중요성을 반영한다.In the following description, a mixture of different excitation signal layers is performed at the decoder to give a description of the method according to the invention in which the entire concept of scale capability is realized without compromising the quality of the coded signal. Mixing is controlled through one or more parameters determined at the encoder and stored in the bit stream. These parameters reflect the importance of the previous layer when constructing a new higher layer.

도 6은 본 발명에 따라 완전히 스케일가능 결합된 파라미터(정현파) 및 파형(펄스) 인코더를 도시한다. 본 발명이 본 명세서에 기재된 인코더보다 임의의 다른 인코더를 이용할 수 있다는 것이 주지된다. 입력 신호는 도시된 실시예에서 도 1에서와 같은 정현파 SSC 인코더(1)인 파라미터 인코더에 수신된다. SSC 인코더로부터의 잔류 신호(rSSC)는 바람직하게 LPC 분석을 이용하여 먼저 스펙트럼 방식으로 평탄화되며, 이를 통해 그 동적 범위는 감소되고, 이것은 다시 양자화 단계에서 에러를 감소시킨다. 그 다음에 스펙트럼 방식으로 평탄화된 잔류 신호(r)는 여기서 데시메이션 인자(8)를 갖는 RPE-8 스테이지인 제 1 파형 인코더에 공급되며, 이것은 스펙트럼 방식으로 평탄화된 잔류 신호(r)로부터 제 1 여기 신호(x8)를 생성한다.6 shows a fully scalable combined parameter (sine wave) and waveform (pulse) encoder in accordance with the present invention. It is noted that the present invention may utilize any other encoder than the encoders described herein. The input signal is received by the parameter encoder, which is a sinusoidal SSC encoder 1 as in FIG. 1 in the illustrated embodiment. The residual signal r SSC from the SSC encoder is preferably first flattened spectrally using LPC analysis, through which its dynamic range is reduced, which in turn reduces errors in the quantization step. The spectrally flattened residual signal r is then fed to a first waveform encoder which is an RPE-8 stage with decimation factor 8, which is the first from the spectrally flattened residual signal r. Generate an excitation signal (x 8 ).

새로운 잔류 신호(r8)는 잔류 신호(r)와 이미 계산된 여기 신호(x8)를 결합함으로써 생성된다. 특히, r8은 r8=r-ρx8에 따라 본래 잔류 신호(r)와 가중된 여기 신호(x8) 사이의 차이로서 정의된다.The new residual signal r 8 is generated by combining the residual signal r with an already calculated excitation signal x 8 . In particular, r 8 is defined as the difference between the original residual signal r and the weighted excitation signal x 8 in accordance with r 8 = r-ρx 8 .

파라미터(ρ)는 결합된 층이 최대 품질을 달성하도록 최적화된다.The parameter ρ is optimized so that the combined layers achieve maximum quality.

ρ를 0과 동일하게 설정하는 것은, 정보의 재사용이 가능하지 않은 독립 층을 생성한다는 것을 의미하는 것을 주지하자. ρ을 1로 설정하는 것은 스케일가능 비트 스트림에서 종속 층을 생성하는 알려진 기술이지만, 최상의 품질의 달성을 방해한다.Note that setting ρ equal to 0 means creating an independent layer on which information is not reusable. Setting ρ to 1 is a known technique for generating dependent layers in a scalable bit stream, but hinders the achievement of the best quality.

잔류 신호(r8)는 여기서 데시메이션 인자(2)를 갖는 RPE-2 스테이지인 제 2 파형 인코더에 공급된다. RPE-2 스테이지는 여기 신호(x2)를 생성한다.The residual signal r 8 is here fed to a second waveform encoder which is an RPE-2 stage with decimation factor 2. The RPE-2 stage generates an excitation signal x 2 .

이상적으로, RPE-8 인코더에서 계산된 여기 신호(x8)는, 잔류 신호(r)의 상당히 우수한 근사치를 제공할 때마다, 디코더에 사용되어야 하고, 다른 경우에, RPE-2가 그것을 폐기하고 r8보다는 r에 직접 작동하는 것이 더 낫다. 이것은, r에 대해 x8의 유사도 또는 적합도(goodness-of-fit)로서, 즉 r이 x8에 의해 얼마나 잘 모델링되는 지로서 품질을 평가하고, 이에 따라 이를 x2와 결합한다는 점에서 그것을 처리하는 메커니즘이 있어야 한다는 것을 제안한다. 가장 간단한 형태에서, 이러한 메커니즘은 단지 간단한 이득으로 구성된다. 아래에서, 또한 혼합 계수로 언급된 이득(ρ)이 x8을 평가하고 처리하기 위해 어떻게 사용되고 계산될 수 있는지를 설명한다.Ideally, the excitation signal x 8 calculated at the RPE-8 encoder should be used in the decoder whenever it provides a fairly good approximation of the residual signal r, in which case the RPE-2 discards it and It is better to work directly on r than r 8 . This evaluates the quality as a similarity or goodness-of-fit of x 8 with respect to r, ie how well r is modeled by x 8 , and thus processes it in terms of combining it with x 2. It is suggested that there be a mechanism to do this. In its simplest form, this mechanism consists of only simple gains. In the following, we also describe how the gain ρ, referred to as the mixing coefficient, can be used and calculated to evaluate and process x 8 .

마지막으로, 파라미터 코드(SSC 코드), 제 1 여기 신호(x8), 제 2 여기 신호(x2), 혼합 계수(ρ) 및 바람직하게 또한 스펙트럼 평탄화 파라미터는 인코딩된 오디오 스트림(AS)을 형성하도록 결합된다. 일반적으로, 이 후에 비트 스트림은 3개의 층, 즉 베이스 파라미터 층, 제 1 여기 신호를 포함하는 제 1 변형(refinement) 층, 및 제 2 여기 신호를 포함하는 제 2 층으로 구성되고, 제 1 층의 재사용성은 파라미터(ρ)로 표현한다.Finally, the parameter code (SSC code), the first excitation signal x 8 , the second excitation signal x 2 , the mixing coefficient ρ and preferably also the spectral smoothing parameter form an encoded audio stream AS. To be combined. In general, the bit stream then consists of three layers: a base parameter layer, a first refinement layer comprising a first excitation signal, and a second layer comprising a second excitation signal, the first layer The reusability of is expressed by the parameter ρ.

스펙트럼 평탄화 파라미터는 오디오 비트 스트림에 포함될 필요가 없다. 스펙트럼 평탄화 파라미터 없는 그러한 오디오 스트림이 오디오 플레이어에 수신되면, 오디오 플레이어에서의 디코더는 역(backward) 적응에 의해 스펙트럼 평탄화 파라미터를 결정할 수 있다.Spectral smoothing parameters need not be included in the audio bit stream. If such an audio stream is received at the audio player without the spectral flattening parameter, the decoder at the audio player can determine the spectral flattening parameter by backward adaptation.

도 7은 본 발명에 따른 디코더를 도시한다. 인코딩된 오디오 스트림(AS)이 수신되고, 그 성분, 즉 파라미터 코드(SSC 코드), 제 1 여기 신호(x8), 제 2 여기 신호(x2), 혼합 계수(ρ) 및 스펙트럼 평탄화 파라미터는 다음과 같이 식별되고 처 리된다.7 shows a decoder according to the invention. The encoded audio stream AS is received and its components, i.e., the parameter code (SSC code), the first excitation signal x 8 , the second excitation signal x 2 , the blending coefficient ρ and the spectral smoothing parameter are It is identified and processed as follows.

파라미터 코드는 정현파 및 과도 성분을 디코딩하기 위해 파라미터 디코더(SSC 디코더)에 공급된다. 여기서 LPC 합성 필터와 같은 스펙트럼 형성 필터는 제 1 여기 신호(x8) 또는 결합된 여기 신호(x2+ρx8)를 수신한다. 수신된 스펙트럼 평탄화 파라미터를 이용하여, LPC 합성 필터는 본래 형성된 스펙트럼을 갖는 추정된 SSC 잔류 신호(r'SSC)를 재생하고, 추정된 SSC 잔류 신호(r'SSC)는 디코딩된 신호를 형성하기 위해 디코딩된 정현파 및 과도 성분에 추가된다. 추가적으로, 파라미터 잡음의 일부는 도 4 및 도 5에 이용된 방식과 유사하게 여기 신호에 삽입될 수 있다.The parameter code is supplied to a parameter decoder (SSC decoder) to decode sinusoidal and transient components. Here, a spectral shaping filter, such as an LPC synthesis filter, receives a first excitation signal x 8 or a combined excitation signal x 2 + ρx 8 . Using the received spectral flattening parameters, LPC synthesis filter estimated SSC residual signal (r 'SSC) The SSC residual signal regeneration, and estimates the (r' SSC) having an original formed spectrometry to form a decoded signal It is added to the decoded sinusoidal and transient components. In addition, some of the parametric noise may be inserted into the excitation signal, similar to the scheme used in FIGS. 4 and 5.

다음 RPE 스테이지에서 x8의 유용함을 결정하는 가능한 기준 중 하나는 입력 잔류 신호(r)와의 유사성이다. 따라서, 이득(ρ)이 이들 2가지 신호의 상관 관계에 어느 정도 관련되는 것이 일반적이다. 신호(r 및 x8)(도 4) 사이의 유사성을 제거하는 목적을 설정하면, ρ에 대한 최적값은 다음 수학식 1로서 계산될 수 있다:One of the possible criteria for determining the usefulness of x 8 in the next RPE stage is the similarity with the input residual signal r. Therefore, it is common for the gain p to be somewhat related to the correlation of these two signals. With the goal of eliminating similarities between signals r and x 8 (FIG. 4), the optimal value for ρ can be calculated as:

Figure 112006090460234-PCT00002
Figure 112006090460234-PCT00002

여기서 x8은 이에 따라 도 6에 식별된 신호이고, N은 ρ가 최적화되는 윈도우 길이(window length)를 나타낸다. 이득은 바람직하게 프레임 단위(frame-by- frame)를 기초하여 계산되고, 즉 N은 프레임 길이이다. 수학식 1로부터, 최적 이득이 x8의 멱수에 걸쳐 표준화된 x8 및 r의 상관 관계라는 것을 알 수 있다. 수학식 1의 특성과 유사한 특성을 갖는 다른 이득이 또한 정의될 수 있다(예를 들어, 수학식 1의 표현은 제곱 에러 기준의 관점에서 최적화되고; 다른 기준도 또한 사용될 수 있다).Where x 8 is thus the signal identified in FIG. 6 and N is the window length for which p is optimized. The gain is preferably calculated based on frame-by-frame, ie N is the frame length. From Equation 1, it can be seen that the optimum gain is that standardized x across the 8 x 8 myeoksu and correlation of r relationship. Other gains with properties similar to those of Equation 1 may also be defined (eg, the representation of Equation 1 is optimized in terms of squared error criteria; other criteria may also be used).

x8에 의해 제공된 r의 모델이 완전하면(즉, r=x8), 혼합 계수는 1이 되고, r8은 0이 되는데, 이는 추가 모델링이 필요하지 않기 때문이다. 다른 한 편으로, x8이 r의 우수한 모델이 아닌 경우, 혼합 계수는 적은 값을 취하고, 제 2 RPE는 r8보다는 주로 r에서 작용하는데, 즉 데시메이션 2 층은 데시메이션 8 층에 의해 제공된 정보를 한정되게 사용한다.If the model of r provided by x 8 is complete (ie r = x 8 ), then the blending coefficient is 1 and r 8 is 0 because no further modeling is needed. On the other hand, if x 8 is not a good model of r, the mixing coefficient takes less value and the second RPE acts primarily at r rather than r 8 , ie the decimation 2 layer is provided by the decimation 8 layer. Use information limitedly.

설명된 기술은 풀 대역폭 신호 또는 특정 주파수 대역에 적용될 수 있다. 품질 파라미터(ρ)는 단일이 아닌 수 개의 파라미터를 암시하는 r8을 생성하기 위한 완전한 필터에 대한 가능성을 의미한다. 본 명세서에 제공된 방법은 2개 초과 여기 신호를 포함하는 계층형 비트 스트림에 대해 수행된다.The described technique can be applied to a full bandwidth signal or a specific frequency band. The quality parameter ρ represents the possibility for a complete filter to produce r 8 implying several but not single parameters. The method provided herein is performed on a hierarchical bit stream comprising more than two excitation signals.

상술한 바와 같이, 본 발명은 광대역 신호, 특히 오디오 신호의 인코딩 및 디코딩에 관한 것으로, 인코더 및 디코더 모두에 관한 것으로, 본 발명에 따라 인코딩된 오디오 스트림, 및 그러한 오디오 스트림이 저장되는 데이터 저장 매체 등 에 이용된다.As mentioned above, the present invention relates to the encoding and decoding of wideband signals, in particular audio signals, to both encoders and decoders, to audio streams encoded according to the invention, and to data storage media on which such audio streams are stored. Used for

Claims (12)

디지털 오디오 신호를 인코딩하는 방법으로서, 상기 신호의 각 시간 세그먼트에 대해,A method of encoding a digital audio signal, wherein for each time segment of the signal, - 오디오 신호를 나타내는 코드(SSC)를 제공하기 위해 오디오 신호를 인코딩하는 단계와;Encoding the audio signal to provide a code SSC representing the audio signal; - 제 1 잔류 신호(rSSC)를 얻기 위해 오디오 신호로부터 코드를 감산하는 단계와;Subtracting the code from the audio signal to obtain a first residual signal r SSC ; - 스펙트럼 방식의 평탄화된 잔류 신호(r) 및 스펙트럼 평탄화 파라미터를 얻기 위해 제 1 잔류 신호(rSSC)를 스펙트럼 방식으로 평탄화하는 단계와;Spectrally planarizing the first residual signal r SSC to obtain a spectral planarized residual signal r and a spectral planarization parameter; - 펄스 트레인 인코더를 이용하여, 스펙트럼 방식으로 평탄화된 잔류 신호(r)로부터 제 1 여기 신호를 계산하는 단계와;Calculating a first excitation signal from the spectral planarized residual signal r using a pulse train encoder; - 스펙트럼 방식으로 평탄화된 잔류 신호(r)와의 유사도로서 제 1 여기 신호(x8)의 품질을 결정하는 단계와;Determining the quality of the first excitation signal x 8 as a similarity with the residual signal r flattened in a spectral manner; - 스펙트럼 방식으로 평탄화된 잔류 신호(r)로부터 제 1 여기 신호(x8)의 부분을 감산하여, 상기 부분이 제 1 여기 신호(x8)의 결정된 품질에 따라 좌우되는 제 2 잔류 신호(r8)를 얻는, 감산 단계와;- by subtracting the portion of the first excitation signal (x 8) from the residual signal (r) flattening the spectral method, the second residual signal (r in which the part is dependent on the determined quality of the first excitation signal (x 8) 8 ) a subtraction step; - 펄스 트레인 인코더를 이용하여, 제 2 잔류 신호(r8)로부터 제 2 여기 신 호(x2)를 계산하는 단계와;Calculating a second excitation signal (x 2 ) from the second residual signal r 8 using a pulse train encoder; - 오디오 스트림을 생성하는 단계로서,Creating an audio stream, - 제 1 여기 신호(x8),A first excitation signal (x 8 ), - 제 2 여기 신호(x2), 및A second excitation signal x 2 , and - 제 1 여기 신호(x8)의 품질을 나타내는 파라미터(ρ)를A parameter p representing the quality of the first excitation signal x 8 포함하는, 오디오 스트림을 생성하는 단계를Generating an audio stream. 포함하는, 디지털 오디오 신호를 인코딩하는 방법.And a digital audio signal. 제 1항에 있어서, 상기 파라미터 코드는 상기 오디오 신호의 정현파 및 잡음 성분을 포함하는, 디지털 오디오 신호를 인코딩하는 방법.The method of claim 1, wherein the parameter code comprises sinusoidal and noise components of the audio signal. 제 1항에 있어서, 상기 스펙트럼 평탄화는 선형 예측 인코딩(LPC)을 이용하여 이루어지는, 디지털 오디오 신호를 인코딩하는 방법.The method of claim 1, wherein the spectral flattening is performed using linear prediction encoding (LPC). 제 1항에 있어서, 상기 제 1 여기 신호(x8)의 품질은 상기 제 1 여기 신호(x8)와 스펙트럼 방식으로 평탄화된 잔류 신호(r) 사이의 상관 관계에 기초하는, 디지털 오디오 신호를 인코딩하는 방법.The method of claim 1, wherein the first quality of an excitation signal (x 8) is a digital audio signal that is based on a correlation between the first excitation signal (x 8) and the smoothed spectrum scheme residual signal (r) How to encode. 디지털 오디오 신호의 시간 세그먼트를 인코딩하도록 적응된, 오디오 인코더로서,An audio encoder, adapted to encode a time segment of a digital audio signal, - 디지털 오디오 신호를 인코딩하여 상기 신호를 나타내는 코드(SSC)를 제공하는 인코더와;An encoder for encoding a digital audio signal and providing a code (SSC) representing the signal; - 제 1 잔류 신호(rSSC)를 얻기 위해 오디오 신호로부터 코드에 대응하는 신호를 감산하는 감산기와;A subtractor for subtracting the signal corresponding to the code from the audio signal to obtain a first residual signal r SSC ; - 스펙트럼 방식으로 평탄화된 잔류 신호(r) 및 스펙트럼 평탄화 파라미터를 얻기 위해 제 1 잔류 신호(rSSC)를 스펙트럼 방식으로 평탄화하는 스펙트럼 평탄화 유닛과;A spectral flattening unit for spectrally flattening the first residual signal r SSC to obtain a spectral flattened residual signal r and a spectral flattening parameter; - 스펙트럼 방식으로 평탄화된 잔류 신호(r)에 대한 제 1 여기 신호를 계산하는 펄스 트레인 인코더와;A pulse train encoder for calculating a first excitation signal for the residual signal r flattened in a spectral manner; - 스펙트럼 방식으로 평탄화된 잔류 신호(r)와의 유사도로서 제 1 여기 신호(x8)의 품질을 결정하는 수단과;Means for determining the quality of the first excitation signal x 8 as a similarity with the residual signal r flattened in a spectral manner; - 스펙트럼 방식으로 평탄화된 잔류 신호(r)로부터 제 1 여기 신호(x8)의 부분을 감산하여, 상기 부분이 제 1 여기 신호(x8)의 결정된 품질에 따라 좌우되는 제 2 잔류 신호(r8)를 얻는 감산기와;- by subtracting the portion of the first excitation signal (x 8) from the residual signal (r) flattening the spectral method, the second residual signal (r in which the part is dependent on the determined quality of the first excitation signal (x 8) 8 ) a subtractor to obtain; - 제 2 잔류 신호(r8)에 대해 제 2 여기 신호(x2)를 계산하는 펄스 트레인 인코더와;A pulse train encoder for calculating a second excitation signal x 2 for the second residual signal r 8 ; - 오디오 스트림(AS)을 생성하는 비트 스트림 생성기(15)로서,A bit stream generator 15 for generating an audio stream AS, - 제 1 여기 신호(x8),A first excitation signal (x 8 ), - 제 2 여기 신호(x2), 및A second excitation signal x 2 , and - 제 1 여기 신호(x8)의 품질을 나타내는 파라미터(ρ)를A parameter p representing the quality of the first excitation signal x 8 포함하는, 비트 스트림 생성기(15)를Bit stream generator 15, including 포함하는, 오디오 인코더.Included, audio encoder. 제 5항에 있어서, 상기 파라미터 코드는 상기 오디오 신호의 정현파 및 잡음 성분을 포함하는, 오디오 인코더.6. The audio encoder of claim 5 wherein the parameter code comprises sinusoidal and noise components of the audio signal. 제 5항에 있어서, 스펙트럼 평탄화를 수행하도록 적응된 선형 예측 인코더(LPC)를 포함하는, 오디오 인코더.6. The audio encoder of claim 5 comprising a linear prediction encoder (LPC) adapted to perform spectral smoothing. 제 5항에 있어서, 상기 단편(ρ)은 상기 제 1 여기 신호(x8)와 스펙트럼 방식으로 평탄화된 잔류 신호(r) 사이의 상관 관계에 기초하는, 오디오 인코더.The audio encoder according to claim 5, wherein the fragment (ρ) is based on a correlation between the first excitation signal (x 8 ) and the residual signal (r) flattened in a spectral manner. 수신된 오디오 스트림(AS)을 디코딩하는 방법으로서, 상기 오디오 스트림은 오디오 신호의 복수의 세그먼트 각각에 대해,A method of decoding a received audio stream (AS), wherein the audio stream is for each of a plurality of segments of an audio signal, - 제 1 여기 신호(x8),A first excitation signal (x 8 ), - 제 2 여기 신호(x2),A second excitation signal (x 2 ), - 제 1 여기 신호(x8)의 품질을 나타내는 파라미터(ρ)를 포함하고, 상기 방법은,A parameter p representing the quality of the first excitation signal x 8 , the method comprising: - 품질 파라미터(ρ)에 따라, 결합된 여기 신호를 얻기 위해 제 1 및 제 2 여기 신호(x8, x2)를 결합하는 단계와;Combining the first and second excitation signals x 8 , x 2 to obtain a combined excitation signal according to the quality parameter p; - 선형 예측을 이용하여, 제 1 잔류 신호(r'SSC)를 결합된 여기 신호로부터 합성하는 단계를Synthesizing the first residual signal r ' SSC from the combined excitation signal using linear prediction 포함하는, 수신된 오디오 스트림을 디코딩하는 방법.And decoding the received audio stream. 오디오 스트림(AS)을 수신 및 디코딩하는 오디오 플레이어로서, 상기 오디오 스트림은 오디오 신호의 복수의 세그먼트 각각에 대해,An audio player for receiving and decoding an audio stream (AS), the audio stream for each of a plurality of segments of an audio signal, - 제 1 여기 신호(x8),A first excitation signal (x 8 ), - 제 2 여기 신호(x2), 및A second excitation signal x 2 , and - 제 1 여기 신호(x8)의 품질을 나타내는 파라미터를 포함하고, 상기 오디오 플레이어는,A parameter indicative of the quality of the first excitation signal x 8 , wherein the audio player comprises: - 품질 파라미터(ρ)에 따라, 결합된 여기 신호를 얻기 위해 제 1 및 제 2 여기 신호(x8, x2)를 결합하는 수단과;Means for combining the first and second excitation signals x 8 , x 2 to obtain a combined excitation signal according to the quality parameter p; - 선형 예측을 이용하여, 제 1 잔류 신호(r'SSC)를 결합된 여기 신호로부터 합성하는 수단을Means for synthesizing the first residual signal r ' SSC from the combined excitation signal using linear prediction 포함하는, 오디오 플레이어.Including, audio player. 오디오 스트림(AS)으로서, 오디오 신호의 복수의 세그먼트 각각에 대해,As an audio stream (AS), for each of a plurality of segments of an audio signal, - 스펙트럼 방식으로 평탄화된 잔류 신호(r)의 펄스 트레인 인코딩으로부터 초래된 제 1 여기 신호(x8)로서, 상기 잔류 신호(r)는 오디오 신호로부터 인코딩된 오디오 신호를 감산하는 것으로부터 초래되는, 제 1 여기 신호(x8)와;A first excitation signal x 8 resulting from the pulse train encoding of the spectral planarized residual signal r, the residual signal r resulting from subtracting the encoded audio signal from the audio signal, A first excitation signal x 8 ; - 제 2 잔류 신호의 펄스 트레인 인코딩으로부터 초래되는 제 2 여기 신호(x2)로서, 상기 신호는 스펙트럼 방식으로 평탄화된 잔류 신호(r)로부터 제 1 여기 신호(x8)의 부분을 감산함으로써 생성되고, 여기서 상기 부분은 제 1 여기 신호(x8)의 결정된 품질에 따라 좌우되는, 제 2 여기 신호(x2)와;A second excitation signal (x 2 ) resulting from the pulse train encoding of the second residual signal, said signal being generated by subtracting a portion of the first excitation signal (x 8 ) from the spectral planarized residual signal (r) Wherein the portion is the second excitation signal x 2 , which depends on the determined quality of the first excitation signal x 8 ; - 제 1 여기 신호(x8)의 결정된 품질을 나타내는 파라미터(ρ)를A parameter p representing the determined quality of the first excitation signal x 8 포함하는, 오디오 스트림.An audio stream. 제 11항에 기재된 오디오 스트림(AS)을 저장하는 저장 매체.A storage medium for storing the audio stream (AS) according to claim 11.
KR1020067025699A 2004-06-08 2005-06-03 Audio encoding KR20070030816A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020067025699A KR20070030816A (en) 2004-06-08 2005-06-03 Audio encoding

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP04102576.8 2004-06-08
KR1020067025699A KR20070030816A (en) 2004-06-08 2005-06-03 Audio encoding

Publications (1)

Publication Number Publication Date
KR20070030816A true KR20070030816A (en) 2007-03-16

Family

ID=43655331

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020067025699A KR20070030816A (en) 2004-06-08 2005-06-03 Audio encoding

Country Status (1)

Country Link
KR (1) KR20070030816A (en)

Similar Documents

Publication Publication Date Title
US11705137B2 (en) Apparatus for encoding and decoding of integrated speech and audio
EP1756807B1 (en) Audio encoding
KR101196506B1 (en) Audio Encoder for Encoding an Audio Signal Having an Impulse-like Portion and Stationary Portion, Encoding Methods, Decoder, Decoding Method, and Encoded Audio Signal
KR101325335B1 (en) Audio encoder and decoder for encoding and decoding audio samples
KR101139172B1 (en) Technique for encoding/decoding of codebook indices for quantized mdct spectrum in scalable speech and audio codecs
KR101171098B1 (en) Scalable speech coding/decoding methods and apparatus using mixed structure
KR101250309B1 (en) Apparatus and method for encoding/decoding an audio signal using an aliasing switch scheme
JP5863868B2 (en) Audio signal encoding and decoding method and apparatus using adaptive sinusoidal pulse coding
MX2011003824A (en) Multi-resolution switched audio encoding/decoding scheme.
MX2011000383A (en) Low bitrate audio encoding/decoding scheme with common preprocessing.
MX2011000362A (en) Low bitrate audio encoding/decoding scheme having cascaded switches.
EP2849180A1 (en) Hybrid audio signal encoder, hybrid audio signal decoder, method for encoding audio signal, and method for decoding audio signal
JP2016524721A (en) Audio object separation from mixed signals using object-specific time / frequency resolution
JPH08263098A (en) Acoustic signal coding method, and acoustic signal decoding method
KR20070029751A (en) Audio encoding and decoding
US6611797B1 (en) Speech coding/decoding method and apparatus
US20070106505A1 (en) Audio coding
JP2000132193A (en) Signal encoding device and method therefor, and signal decoding device and method therefor
KR20070030816A (en) Audio encoding
Jung et al. A bit-rate/bandwidth scalable speech coder based on ITU-T G. 723.1 standard
KR20120060033A (en) Speech decoder for decoding the segmented speech frame and Method thereof

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
NORF Unpaid initial registration fee