KR20060059882A - Audio coding - Google Patents

Audio coding Download PDF

Info

Publication number
KR20060059882A
KR20060059882A KR1020057022576A KR20057022576A KR20060059882A KR 20060059882 A KR20060059882 A KR 20060059882A KR 1020057022576 A KR1020057022576 A KR 1020057022576A KR 20057022576 A KR20057022576 A KR 20057022576A KR 20060059882 A KR20060059882 A KR 20060059882A
Authority
KR
South Korea
Prior art keywords
spectral
noise
temporal
signal
audio signal
Prior art date
Application number
KR1020057022576A
Other languages
Korean (ko)
Inventor
스티븐 엘. 제이. 디. 이. 반 데 파
잔 제이. 슈코브로넥
Original Assignee
코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 코닌클리케 필립스 일렉트로닉스 엔.브이. filed Critical 코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority to KR1020057022576A priority Critical patent/KR20060059882A/en
Publication of KR20060059882A publication Critical patent/KR20060059882A/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Abstract

A method of classifying a spectro- temporal interval of an input audio signal (x(t)) is disclosed. A spectro- temporal interval of the input audio signal is first modelled (62...71) according to a perceptual model to provide a first representation (Rep 1). The spectro-temporal interval is then modelled (62...71) using a modified noise substituted input signal according to the same perceptual model to provide a second representation (Rep 2). The spectro-temporal interval is then classified as being noise or not based on a comparison of the first and second representations.

Description

오디오 코딩{Audio coding}Audio coding

본 발명은 오디오 신호 코딩하는 방법에 관한 것이다.The present invention relates to a method of audio signal coding.

MPEG 부호기와 같은 부호기들의 동작이 널리 공지되어 있다. 도 1의 한 가지 구현 방식에서, 입력 PCM(펄스 코드 변조된(Pulse Code Modulated)) 신호 x(t)는 각 전달 함수들(H1...H1024)을 지닌 1024 필터들(11)을 포함하는 서브-대역 필터 뱅크(sub-band filter bank; SBF)(10)에 공급된다. 각 필터링된 신호는 데시메이팅되고 난 후 스케일러(SC)(12)에 공급되는데, 이 스케일러는 각 대역을 위한 적절한 스케일 팩터들을 결정한다. 별도로, 통상적으로 사이코-어쿠스틱 모델(psycho-acoustic model)의 어떤 형태로 동작하는 마스킹 임계 및 비트 할당 계산기(MT/BA)(13)는 각 주파수 대역을 위한 비트 할당을 결정하는데, 여기서 비트 레이트는 양자화 동안 도입되는 왜곡(distortion)에 대해서 균형을 이룬다. 그 후, 각 필터링되고 스케일링된 신호는 양자화된 신호들, 스케일 팩터들 및 비트 할당 정보를 포함하는 최종 오디오 스트림(AS)이 발생되는 멀티플렉서(MUX)(15)에 공급되기 전 할당된 비트 레이트에 따라서 양자화된다(Q)(14).The operation of encoders such as MPEG encoders is well known. In one implementation of FIG. 1, the input PCM (Pulse Code Modulated) signal x (t) is used to generate 1024 filters 11 with respective transfer functions H 1 ... H 1024 . A sub-band filter bank (SBF) 10 is provided. Each filtered signal is decimated and then fed to a scaler (SC) 12, which determines the appropriate scale factors for each band. Separately, a masking threshold and bit allocation calculator (MT / BA) 13, which typically operates in some form of psycho-acoustic model, determines the bit allocation for each frequency band, where the bit rate is Balance the distortion introduced during quantization. Then, each filtered and scaled signal is assigned to the assigned bit rate before being supplied to the multiplexer (MUX) 15 where the final audio stream AS, which includes the quantized signals, scale factors and bit allocation information, is generated. It is thus quantized (Q) 14.

오디오 신호들의 일부 스펙트럼 및/또는 시간적 파트들이 단지 잡음 모델 디 스크립션을 가진 매우 효율적인 방식(예를 들어, 4 kb/s 내지 10 kb/s)으로 표현될 수 있다는 것이 공지되어 있다.It is known that some spectral and / or temporal parts of audio signals can only be represented in a very efficient manner (eg 4 kb / s to 10 kb / s) with noise model description.

따라서, 도 1과 관련하여, 입력 신호 x(t)는 잡음 또는 잡음이 아닌 것으로서 시간적 구간들 동안 주파수 대역들을 분류하는 선택 요소(Sel)(16)로 공급될 수 있다. 스펙트럼-시간적 구간(spectro-temporal intervals)이 잡음이라고 결정될 때, 선택 요소(16)는 멀티플렉서(15)가 이 구간 동안 서브-대역 신호들을 코딩하지 않도록 명령한다. 입력 신호 x(t)의 스펙트럼-시간적 구간은 대신, 잡음 분석기(noise analyser; NA)(17)로 모델링되는데, 이 잡음 분석기의 출력은 이용가능한 비트 레이트에 따라서 양자화 된다(Q)(18).Thus, with respect to FIG. 1, the input signal x (t) may be supplied to a selection element (Sel) 16 that classifies frequency bands during temporal sections as noise or non-noise. When it is determined that spectro-temporal intervals are noise, the selection element 16 instructs the multiplexer 15 not to code sub-band signals during this interval. The spectral-temporal interval of the input signal x (t) is instead modeled as a noise analyzer (NA) 17, the output of which is quantized according to the available bit rate (Q) (18).

그러나, 악명높은 문제는 오디오 신호의 어떤 파트가 잡음으로 표현될 수 있는지를 결정하기 위한 것이다. 이 결정은 잡음을 가진 오디오 신호의 모델링 파트가 품질 감소를 초래하지 않을 것이라는 가정에 기초한다. 또한, 이는 신호를 부호화하는 효율성에서 증가를 초래할 것이다.However, the notorious problem is to determine which part of the audio signal can be represented by noise. This decision is based on the assumption that the modeling part of the noisy audio signal will not result in a reduction in quality. This will also result in an increase in the efficiency of encoding the signal.

슐츠, 디.(Schulz, D.)가 1996년 J.Audio Eng. Soc., Vol. 44, pp 593-598에 발표한 "노이즈 대체물에 의해 오디오 코드들 개선(Improving audio codecs by noise substitution)"은 신호의 통계적 신호 특성들이 상기 분류를 행하도록 도출될 수 있다는 것을 보여준다. 슐츠에 의해 발표된 예시적인 기술들은 다음을 포함한다:Schulz, D., 1996, J. Audio Eng. Soc., Vol. 44, pp 593-598, "Improving audio codecs by noise substitution," shows that the statistical signal characteristics of a signal can be derived to perform the classification. Exemplary techniques published by Schultz include:

ㆍ연속적인 스펙트럼들에서 스펙트럼 피크들의 추적Tracing of spectral peaks in consecutive spectra

ㆍ주파수 도메인에서 예측기들의 사용Use of predictors in the frequency domain

ㆍ횡단선 필터(transversal filter)로 시간 도메인에서 예측성 사용.Use predictability in the time domain as a transversal filter.

후자의 두 가지 예들에서, 다 많은 예측 가능한 신호가 있다는 것이 가정되어, 더욱 더 토널(tonal)하게 되고 이와 같은 예측성이 잡음성에 대향된다고 가정된다.In the latter two examples, it is assumed that there are many predictable signals, which are further tonalized and that such predictability is opposed to noise.

다른 기술들은 프레임(통상적으로, 짧은 지속기간에 걸쳐서,예를 들어 10 ms 내지 20 ms)의 스펙트럼 평탄도(spectral flatness)의 분석에 기초한다. 다시, 스펙트럼이 더 평탄하면 할수록, 더 많은 잡음이 존재하는 것으로 간주된다.Other techniques are based on the analysis of spectral flatness of a frame (typically over a short duration, for example 10 ms to 20 ms). Again, the flatter the spectrum, the more noise is considered to be present.

헬, 제이. 슐츠, 디.(Herre, J.Schulz, D.)가 1998년 Proc. 104th convention of the Audio Eng. Soc, Amsterdam, preprint 4720 에서 발표한 "인식한 잡음 대체에 의해 MPEG-4 AAC 코덱 확장(Extending the MPEG-4 AAC codec by perceptual noise substitution)"의 상기 통계적 방법들은 MPEG 4 AAC의 컨텍스트에 언급되어 있다. 여기서, 스펙트럼-시간적 구간들은 스케일-팩터-대역들 및 프레임들에 대응하고, 이들이 잡음에 의해 모델링될 때 비트 레이트 세이빙(saving)이 행해진다.Hel, Jay. Herre, J. Schulz, D., 1998, published in Proc. 104th convention of the Audio Eng. The statistical methods of "Extending the MPEG-4 AAC codec by perceptual noise substitution" published by Soc, Amsterdam, preprint 4720 are mentioned in the context of MPEG 4 AAC. . Here, the spectral-temporal intervals correspond to scale-factor-bands and frames, and bit rate saving is done when they are modeled by noise.

그러나, 종래 기술의 신호 통계 기준들은 관찰자에 의해 채용되는 기준들과 반드시 일치하지 않는데, 즉 이들 기준들 간의 가능한 정합이 다소 일치한다는 것을 알 수 있을 것이다.However, it will be appreciated that the prior art signal statistical criteria do not necessarily match the criteria employed by the observer, ie the possible matching between these criteria is somewhat consistent.

본 발명을 따르면, 청구항 1에 따른 방법이 제공된다.According to the invention, a method according to claim 1 is provided.

본 발명은 인지 또는 사이코-어쿠스틱 모델을 사용하여 일반적인 오디오 신호들의 스펙트럼-시간적 구간들의 잡음 분류에 기초한다. 본 발명은 잡음 대체(noise substitution)의 예측된 가청성에 기초하는데, 즉 잡음 대체가 관찰자에게 들리지 않는 것으로 예측되면, 이는 인지 저하를 초래하지 않는다.The present invention is based on noise classification of spectral-temporal sections of typical audio signals using a cognitive or psycho-acoustic model. The present invention is based on the predicted audibility of noise substitution, i.e. if the noise substitution is predicted to be inaudible to the observer, this does not lead to cognitive degradation.

본 발명의 실시예들이 여기서, 예로서, 첨부하는 도면들을 참조하여 설명될 것이다.Embodiments of the invention will now be described with reference to the accompanying drawings, by way of example.

도 1은 오디오 신호의 선택된 스펙트럼-시간적 부분들이 잡음 모델 파라미터들로 표현되는 종래의 MPEG 부호기를 도시하는 도면.1 illustrates a conventional MPEG encoder in which selected spectral-temporal portions of an audio signal are represented by noise model parameters.

도 2는 도 1의 부호기 내에서 동작될 수 있는 본 발명의 실시예를 따른 개선된 선택 요소의 동작을 도시한 도면.2 illustrates the operation of an improved selection element in accordance with an embodiment of the present invention that may be operated within the encoder of FIG.

도 3은 공지된 사이코-어쿠스틱 기반 신호 비교 모델의 블록도.3 is a block diagram of a known psycho-acoustic based signal comparison model.

도 4는 도 2의 선택 요소에 사용하기 위한 사이코-어쿠스틱 기반 신호 비교 모델의 바람직한 실시예의 블록도.4 is a block diagram of a preferred embodiment of a psycho-acoustic based signal comparison model for use in the selection element of FIG.

도 5는 도 4의 모델의 FFT 요소에 의해 생성되는 고조파 톤-컴플렉스(harmonic tone-complex)의 전력 스펙트럼(Rfnr(f))을 도시하는 도면.FIG. 5 shows the power spectrum R fnr (f) of the harmonic tone-complex generated by the FFT element of the model of FIG. 4. FIG.

도 6은 도 4의 모델의 FFT 요소에 의해 생성된 가우시안 잡음의 전력 스펙트럼(Rfnr(f))를 도시하는 도면.FIG. 6 illustrates the power spectrum R fnr (f) of Gaussian noise generated by the FFT element of the model of FIG. 4. FIG.

도 7은 본 발명의 제 2 실시예를 따른 부호기를 도시하는 도면.7 shows an encoder according to a second embodiment of the present invention.

도 8은 도 7의 부호기 내에서 동작가능한 선택 요소의 동작을 도시하는 도 면.8 illustrates the operation of a selectable element operable within the encoder of FIG.

도 9(a) 및 도 9(b)는 고조파 톤 컴플렉스 및 잡음 입력 신호 각각에 대한 도 4의 모델의 필터뱅크(filterbank)의 필터들(25, 18) 중 한 필터의 변조 스펙트럼 출력(P25,18) 및 입력(R25)을 도시하는 도면.9 (a) and 9 (b) show the modulation spectral output (P 25 ) of one of the filters 25, 18 of the filterbank of the model of FIG. 4 for the harmonic tone complex and noise input signal, respectively. , 18 ) and input R 25 .

본 발명의 제 1 실시예에서, 개선된 선택 요소가 도 1에 도시된 유형의 MPEG 부호기에 채용되어 스펙트럼-시간적 구간들이 서브-대역 필터링된 신호들을 통해서 또는 잡음 모델로 최적으로 모델링될 수 있는지의 여부를 결정한다. In a first embodiment of the present invention, an improved selection element is employed in the MPEG coder of the type shown in FIG. Determine whether or not.

여기서, 도 2를 참조하면, 일반적으로, 개선된 선택 요소(Sel)(16′)가 입력 신호(x)의 구간(n) 동안 복수의 주파수 대역들(i) 각각에 대한 잡음 모델링의 대체를 위하여 반복적으로 테스트한다. 바람직하게는, 선택 요소는 부호기의 기본 구간 길이를 초과한 시간 기간에 걸쳐서 테스트를 행한다.Here, referring to FIG. 2, generally, an improved selection element (Sel) 16 ′ replaces noise modeling for each of a plurality of frequency bands (i) during the interval (n) of the input signal (x). Test it repeatedly. Preferably, the selection element is tested over a time period exceeding the base interval length of the encoder.

이 실시예에서, 테스트 구간(n)을 둘러싸는 PCM 포맷 입력 신호(x(t))의 구간 t(n)은 9개의 짧은 중첩하는 세그먼트들(s1, s2...)의 시퀀스로 분리된다. 이들 세그먼트들 각각은 세그먼테이션 유닛(42)에서 제곱근 해닝 윈도우(square root Hanning window)(또는 이외 다른 어떤 분석 윈도우)로 윈도우잉 된다. (이는 특정수의 구간들이 본 발명을 구현하는데 중요하지 않고 예를 들어 8 또는 11 구간들이 또한 사용될 수 있다는 것을 알 수 있을 것이다). 동시에, 구간 t(n)에 대한 신호 x(t)는 입력(I/PI)으로서 사이코-어쿠스틱 분석기(psycho-acoustic analyser; 52) 로 제공된다.In this embodiment, the interval t (n) of the PCM format input signal x (t) surrounding the test interval n is separated into a sequence of nine short overlapping segments s1, s2 ... . Each of these segments is windowed to a square root Hanning window (or any other analysis window) in the segmentation unit 42. (It will be appreciated that a certain number of sections are not critical to implementing the present invention and for example 8 or 11 sections may also be used). At the same time, the signal x (t) for the interval t (n) is provided to the psycho-acoustic analyser 52 as input I / PI.

FFT(고속 푸리에 변환)는 각 시간-도메인 윈도우잉된 신호(...s1, s2...)에 인가되어, 윈도우잉된 신호들의 각 컴플렉스 주파수 스펙트럼 표현들을 발생시킨다(단계 44).A Fast Fourier Transform (FFT) is applied to each time-domain windowed signal (... s1, s2 ...) to generate respective complex frequency spectral representations of the windowed signals (step 44).

각 표현 및 각 주파수 대역(i)에 대해서, 잡음 분석기/합성기(46)는 주파수 대역(i)에 대한 잡음 모델링된 신호에 변하지 않은 나머지 스펙트럼을 제공한다. 이 잡음 모델링된 신호는 부호기 내의 잡음 분석기(NA)(17)에 의해 사용되는 동일한 모델을 기초하는 것이 바람직하다. For each representation and each frequency band i, the noise analyzer / synthesizer 46 provides the rest of the spectrum unchanged in the noise modeled signal for the frequency band i. This noise modeled signal is preferably based on the same model used by the noise analyzer (NA) 17 in the encoder.

그 후, 이 선택 요소는 각 잡음 대체된 신호의 역 FFT를 취하여 시간 도메인 신호들(..s′1(i), s′2(i)...)을 얻는다(단계 48). 단계 50에서, 분리된 세그먼트들은 우선 제곱근 해닝 윈도우(또는 이외 다른 어떤 합성 윈도우)로 또다시 윈도우잉하고 중첩-가산 방법(overlap-add method)을 적용함으로써 재결합된다. 이는 잡음을 구간 t(n))에 걸쳐서 대체하는 각 세그먼트(i)에 대응하는 긴 PCM, 신호(x′(t)(i))가 된다. 그 후, 신호들(x′(t)(i))은 일련의 테스트 입력 신호들(I/P2(i))로서 사이코-어쿠스틱 분석기(PA)(52)에 전송된다. 도 2의 아래쪽에 도시된 매트릭스에서, 수정된 신호의 심볼적인 표현이 도시되어 있는데, 여기서 잡음은 i번째 주파수 대역에서 대체된다. 수평축을 따라서, 시간이 도시되고 수직축을 따라서, AAC 부호기에서 사용되는 스케일 팩터 대역들에 대응하는 주파수 대역 번호(fbnr)가 도시된다. 도트들은 원래 신호 샘플들을 포함하는 영역들을 표시하며, 바들은 대체된 잡음을 갖는 영역들을 표시한다. 회색 바는 잡음 분류가 적용되는 영역를 표시한다.This selection element then takes the inverse FFT of each noise replaced signal to obtain time domain signals (..s'1 (i), s'2 (i) ...) (step 48). In step 50, the separated segments are first recombined by windowing back into the square root hanning window (or any other composite window) and applying an overlap-add method. This results in a long PCM, signal x '(t) (i), corresponding to each segment i replacing noise over the interval t (n). The signals x '(t) (i) are then sent to the psycho-acoustic analyzer (PA) 52 as a series of test input signals I / P2 (i). In the matrix shown at the bottom of FIG. 2, a symbolic representation of the modified signal is shown, where noise is replaced in the i th frequency band. Along the horizontal axis, time is shown and along the vertical axis, the frequency band number fbnr corresponding to the scale factor bands used in the AAC encoder is shown. The dots indicate areas containing the original signal samples, and the bars indicate areas with replaced noise. Gray bars indicate areas where noise classification is applied.

분석기(52) 내에서 인지 또는 사이코-어쿠스틱 모델은 수정된 입력 신호들(I/P2(i)) 및 원래 신호(I/P1) 간의 차(품질 감소)를 계산하도록 사용된다. 이 인지 차이가 특정 기준값을 초과하지 않으면, 잡음으로 대체되는 9개의 구간들 중에서 중간 스펙트럼-시간적 구간, 즉 구간(n)에 대한 주파수 대역(i)이 실제로 잡음 모델 파라미터들로 대체될 수 있다라고 추정된다. 이 방식으로, 모든 스펙트럼-시간적 구간들은 하나씩 연구되어 모든 구간들을 위한 잡음 대체에 대해 결정을 행한다. A cognitive or psycho-acoustic model within the analyzer 52 is used to calculate the difference (decrease in quality) between the modified input signals I / P2 (i) and the original signal I / P1. If this cognitive difference does not exceed a certain reference value, the frequency band i for the middle spectral-temporal interval, i.e., interval n, among the nine intervals replaced by noise may actually be replaced by the noise model parameters. It is estimated. In this way, all the spectral-temporal sections are studied one by one to make a decision on noise replacement for all sections.

인지 모델(perceptual model)의 결과를 기초하여 9개의 대체된 구간들 중 단지 한 구간에 대해서 결정을 행하는 상기 실시예를 사용하면, 한번에 단일 구간만을 테스트하여 대체하는 것보다 잡음 대체에 대해서 더욱 신뢰성 있는 결정을 행한다는 것이 밝혀졌다. Using this embodiment, which makes a decision on only one of the nine replaced intervals based on the results of the perceptual model, it is more reliable for noise replacement than testing and replacing only a single interval at a time. It was found to make a decision.

모든 스펙트럼-시간적 구간들이 이 방식으로 평가된 후, 분석기(52)는 도 1의 멀티플렉서(MUX)에 구간(n)의 주파수 대역들 중 어느 대역에 대해서 실제 잡음 대체가 행해질 수 있다는 것을 표시한다. After all the spectral-temporal intervals have been evaluated in this manner, the analyzer 52 indicates to the multiplexer MUX of FIG. 1 that the actual noise replacement may be made for any of the frequency bands of the interval n.

바람직한 실시예에서, 테스팅되는 주파수 대역(i)에서 대체되는 잡음 만을 갖는 원래 신호에 대해서 테스팅이 항상 수행되는데, 즉 분석기(52)가 잡음이 구간(n-1)에서 대역(i-1)으로 대체되었다라고 결정되는 경우조차도, 원래 신호는 구간(n)에서 대역(i)을 테스팅할 때 채용된다. In a preferred embodiment, testing is always performed on the original signal with only noise replaced in the frequency band i being tested, i.e., the analyzer 52 has no noise from the interval n-1 to the band i-1. Even if it is determined that it has been replaced, the original signal is employed when testing band i in interval n.

그 후, 멀티플렉서는 적절하게 그리고 특히 잡음 및 서브-대역 필터 모델들 간을 스위칭함으로써 제공될 수 있는 비트레이트에서 세이빙과 관련하여 잡음 분석기(NA)를 위한 양자화기(18) 또는 서브-대역 필터(들)를 위한 양자화기(들) 중 어느 하나로부터 부호화될 데이터를 선택한다. The multiplexer then suitably and in particular for quantizer 18 or sub-band filter (NA) for noise analyzer (NA) with respect to savings in bitrate that can be provided by switching between noise and sub-band filter models. Select the data to be encoded from any one of the quantizer (s).

선택 요소(16′)는 또한 서브-대역 필터들(11) 및 잡음 분석기(17) 또는 양자화기들(14, 18) 중 어느 하나 또는 둘 모두와 통신하여 적절하게 이들을 스위칭 인 및 아웃하여 시스템에 의해 수행되는 전체 프로세싱을 감소시킨다. 그러나, 이는 선택 요소가 잡음 분석기(17) 및 서브-대역 필터(10) 요소들에 앞서 실행되는 것을 필요로 하여 부호기에서 바람직하지 않은 래그(lag)를 발생시킨다. 따라서, 상술된 실시예를 수행시, 래그가 프로세싱 오버헤드에 대해서 균형을 이루는 것을 필요로 한다. The selection element 16 'also communicates with either or both of the sub-band filters 11 and the noise analyzer 17 or the quantizers 14, 18 to switch them in and out as appropriate to the system. Reduce the overall processing performed by However, this requires that the selection element be executed before the noise analyzer 17 and sub-band filter 10 elements, resulting in undesirable lag in the encoder. Thus, in carrying out the embodiments described above, the lags need to be balanced against processing overhead.

상술된 제 1 실시예의 특히 바람직한 실시예에서, 분석기(52)에 채용되는 인지 모델은 일반적으로, 다우, 티.(Dau, T.), 푸쉘, 디.(Puschel, D.), 콜라우슈, 에이.(Kohlrausch, A.) 가 J. Acoust.Soc.Am., Vol 99, 3615-3631에 1996년 6월에 발표한 "가청 시스템에서 "효율적인" 신호 처리의 양적 모델(A quantitative model of the effective signal processing in the auditory system)"; 및 다우, 티.(Dau, T.), 콜마이어 비.(Kollmeier B.), 콜라우슈, 에이.(Kohlrausch, A.) 가 J. Acoust. Soc. Am., Vol.102, 2892-2905에 1997년 11월에 발표한 "진폭 변조의 모델링 가청 처리(Modelling auditory processing of amplitude modulation)"(도 3)의 모델에 기초한다. In a particularly preferred embodiment of the first embodiment described above, the cognitive model employed in the analyzer 52 is generally a Dow, T., Fuschel, D., Colausch, A quantitative model of the "efficient" signal processing in "audible systems" published in June 1996 by Kohlrausch, A., J. Acoust. Soc. Am., Vol 99, 3615-3631. effective signal processing in the auditory system) "; And Dow, T., Kollmeier B., Kohlrausch, A., J. Acoust. Soc. Am., Vol. 102, 2892-2905, which is based on a model of "Modeling auditory processing of amplitude modulation" published in November 1997 (Figure 3).

Dau에서, 입력 신호(I/P1 또는 I/P2)는 우선 청각 필터뱅크(auditory filterbank)(62)를 통해서 전송된다. 사람의 와우각(cochlea) 내의 기저막(basilar-membrane) 상의 각 위치는 특정 대역통과-필터 특성을 갖는다는 것이 공지되어 있다. 따라서, 필터뱅크(62)는 모델에서 다음 단계로 공급되는 복수의(x) 대역-통과 필터링된 시간 도메인 신호들을 발생시킴으로써 기저막의 주파수-플레이스 변환(frequency-place transformation)을 모델링한다.(도 3에서 다음 스테이지들 각각은 필터뱅크 출력 신호들 각각에 대해서 동작하지만, x 신호들의 1에 대한 프로세싱만이 도시된다).In Dau, the input signal I / P1 or I / P2 is first transmitted through an auditory filterbank 62. It is known that each position on the basement-membrane in the cochlea of a person has certain bandpass-filter characteristics. Thus, filterbank 62 models the frequency-place transformation of the base film by generating a plurality of (x) band-pass filtered time domain signals that are fed to the next step in the model (FIG. 3). Each of the following stages operates on each of the filterbank output signals, but only processing for one of the x signals is shown).

다음 단계는 반파 정류(63), 1 kHz의 차단 주파수를 갖는 저역 통과 필터링(64) 및 각 필터링된 신호의 다운 샘플링(65)를 포함하는 헤어셀 모델(haircell model)이다. 여기서, 내부 헤어셀들에서 기저막의 기계적 발진들을 리셉터 포텐셜들(receptor potentials)로의 변환이 근사화된다. 다음 단계는 피드백 루프들(66)을 포함하여 청각 주변의 적응형 특성들을 설명한다.The next step is a haircell model that includes half-wave rectification 63, low pass filtering 64 with a cutoff frequency of 1 kHz, and down sampling 65 of each filtered signal. Here, the conversion of the mechanical oscillations of the basement membrane into the receptor potentials in the inner hair cells is approximated. The next step describes the adaptive characteristics of the hearing surroundings, including feedback loops 66.

그 후, 변조 또는 선형 필터뱅크(67)는 청각 시스템의 시간적 패턴 프로세싱을 설명한다. 변조 필터뱅크는 상이한 스케일링을 각각 갖는 2 세트들로 분할되는 총 y 필터들을 포함한다. 제 1 세트는 2.5 Hz의 대역폭을 갖는 필터를 포함하는데, 다음 필터들은 5 Hz의 일정 대역폭을 갖는 최대 10 Hz 까지 상승한다. 10 Hz 및 약 1000 Hz 사이의 주파수들에 대해서 제 2 세트는 비(ratio) Q=중심 주파수/대역폭=2는 일정하게 되는 대수적 스케일링을 가져 전체가 y 필터들이 되게 한다. The modulated or linear filterbank 67 then describes the temporal pattern processing of the auditory system. The modulation filterbank includes a total y filters divided into two sets, each having a different scaling. The first set includes a filter with a bandwidth of 2.5 Hz, with the following filters rising up to 10 Hz with a constant bandwidth of 5 Hz. For frequencies between 10 Hz and about 1000 Hz, the second set has an algebraic scaling where the ratio Q = center frequency / bandwidth = 2 is constant such that the y filters are entirely.

Dau에서, 변조 필터뱅크(67)는 시간-도메인 변조 스펙트럼을 제공한다. 따라서, 이와 같은 변조 스펙트럼들의 x*y의 매트릭스는 각 입력 신호를 표시하도록 발생된다. 그 후, 내부 잡음(68)은 각 변조 스펙트럼 신호에 부가되어 청각 시스템의 제한된 성능 레졸루션(limited performance resolution)을 모델링한다.In Dau, the modulation filterbank 67 provides a time-domain modulation spectrum. Thus, a matrix of x * y of such modulation spectra is generated to represent each input signal. Internal noise 68 is then added to each modulated spectral signal to model the limited performance resolution of the auditory system.

각 입력 신호에 대해서, 각 매트릭스 표현(Rep 1, Rep 2)(70)은 두 가지 표현들 간의 차(D)를 결정하는 검출기(69)에 공급된다. 이 양은 미리 결정된 문턱값과 비교될 수 있어 신호들 간의 차가 가청인지의 여부를 나타낸다.For each input signal, each matrix representation (Rep 1, Rep 2) 70 is fed to a detector 69 which determines the difference D between the two representations. This amount can be compared with a predetermined threshold to indicate whether the difference between the signals is audible.

따라서, Dau 내의 각 개별적인 매트릭스 셀은 시간 신호인데, 즉 각 청각 필터 및 각 다음 변조 필터에 대해서, 특정 테스트-신호(또는 왜곡)이 가청인지의 여부를 결정하기 위하여 I/P2로부터 발생되는 템플릿(template)과 비교되는 I/P1로부터 발생되는 시간 신호이다. Thus, each individual matrix cell in Dau is a time signal, i.e. for each auditory filter and each subsequent modulation filter, a template generated from I / P2 to determine whether a particular test-signal (or distortion) is audible ( time signal from I / P1 compared to the template).

따라서, 잡음 대체가 가청일 수 있는지의 여부를 결정하는 문제에 Dau를 직접 적용하면, 신호의 전체 시간적 구조는 결정 프로세스에서 사용된다. 따라서, 대체된 잡음 토큰의 모든 상세 사항은 예측된 왜곡을 초래할 수 있다. 실제로, 청취자들은 잡음 신호의 특정 상세사항들에 민감하지 않다. 다시 말해서, 대체될 수 있는 각 다른 잡음 토큰이 다른 내부 표현을 제공한다. 그러므로, 하나의 특정 대체된 잡음 토큰이 원래(수정되지 않은) 신호로 인해 내부 표현과 매우 유사한 내부 표현을 제공할 확률은 매우 적을 것이다.Thus, applying Dau directly to the problem of determining whether noise replacement can be audible, the entire temporal structure of the signal is used in the decision process. Thus, every detail of the replaced noise token can result in predicted distortion. Indeed, listeners are not sensitive to certain details of the noise signal. In other words, each different noise token that can be replaced provides a different internal representation. Therefore, it is very unlikely that one particular replaced noise token will provide an internal representation very similar to the internal representation due to the original (unmodified) signal.

다른 한편으로, 도 4는 바람직한 실시예의 분석기(52)가 기반으로 하는 수정된 사이코-어쿠스틱 모델의 주요 단계들을 도시한다. 우선, 간결성을 위하여, 도 3의 적응화 루프들(66) 및 잡음 가산기(68)가 사용되지 않는다는 것을 알 수 있을 것이다. 그러나, 이들 스테이지들 중 하나 또는 둘 모두가 원하는 경우 채용될 수 있다.On the other hand, Figure 4 shows the main steps of a modified psycho-acoustic model on which analyzer 52 of the preferred embodiment is based. First, for brevity, it will be appreciated that the adaptation loops 66 and noise adder 68 of FIG. 3 are not used. However, one or both of these stages can be employed if desired.

그러나, Dau의 시간-기반으로 한 솔루션과 별개로, 도 4의 실시예는 헤어셀 모델에 의해 발생된 시간 도메인 신호들을 변환 유닛(FFT)(71)에 의해 각 주파수 도메인 표현들로 변환시킨다. 그 후, 변조 필터들(67′)은 스펙트럼 도메인(가중 함수)에서 적용되어 x 원래 신호들 각각에 대한 복수의 변조 스펙트럼들을 발생시킨다.However, apart from Dau's time-based solution, the embodiment of FIG. 4 converts the time domain signals generated by the hair cell model into respective frequency domain representations by a transform unit (FFT) 71. Modulation filters 67 'are then applied in the spectral domain (weighting function) to generate a plurality of modulation spectra for each of the x original signals.

더욱 상세하게, 변환 유닛(71)에 공급되는 x 시간 신호들 각각에 대해서, 입력 신호의 약 100 ms에 대응하는 구간 동안 전력 스펙트럼(Rfnr(f))이 계산된다. 전형적으로, 잡음 대체된 파트(제공된 경우)는 이 구간의 중간에 있다. 변조 스펙트럼(67′)으로 변환시키기 위하여, 가중 함수들(wmfnr , fnr(f))이 규정되는데, 여기서 'mfnr'은 가중 함수의 인덱스(또는 변조 필터 수)이고 'fnr'은 필터뱅크(62)로부터의 청각 필터 채널의 수이고 wmfnr,fnr(f)은 주파수의 함수이다. 저 주파수들에 대해서, 개개 필터들(67′)의 대역폭들은 작고 일정(예를 들어, 10 Hz 내지 50 Hz)하고 특정 주파수를 초과하면 이 필터들은 1 및 4 사이에서 바람직하게는 일정한 Q를 갖는다. 윈도우 함수의 형태는 예를 들면, 해닝 윈도우형(Hanning window shape) 또는 감마-톤 필터(gamma-tone filter)의 진폭 전달 함수일 수 있다. 바람직한 구현에서, 최소 필터 폭은 50 Hz이고, Q=2이다. 최저 주파수 가중 함수가 0 Hz에서 센터링되어 필터 셰이프(최대를 초과한 모든것)의 상부 1/2만을 커버한다는 것을 알 수 있을 것이다.More specifically, for each of the x time signals supplied to the conversion unit 71, the power spectrum R fnr (f) is calculated for a period corresponding to about 100 ms of the input signal. Typically, the noise replaced part (if provided) is in the middle of this interval. To convert to the modulation spectrum 67 ', the weighting functions w mfnr , fnr (f) are defined, where' mfnr 'is the index of the weighting function (or number of modulation filters) and' fnr 'is the filterbank ( Number of auditory filter channels from 62) and w mfnr , fnr (f) is a function of frequency. For low frequencies, the bandwidths of the individual filters 67 'are small and constant (e.g., 10 Hz to 50 Hz) and above a certain frequency, these filters preferably have a constant Q between 1 and 4. . The shape of the window function may be, for example, an amplitude transfer function of a Hanning window shape or a gamma-tone filter. In a preferred implementation, the minimum filter width is 50 Hz and Q = 2. You will see that the lowest frequency weighting function is centered at 0 Hz to cover only the upper half of the filter shape (everything above the maximum).

가중 함수들은 자승화되고 전력 스펙트럼들과 승산되어 평균기(70′)로 공급되는 내부 표현으로서 사용되는 일련의 수들(Pmfnr,fnr(f))을 발생시킨다. The weighting functions generate a series of numbers (P mfnr , fnr (f)) used as an internal representation that is sublimated and multiplied by the power spectra and fed to the averager 70 '.

이를 예시하기 위하여, 도 5 및 도 6은 필터뱅크(67′)에 대한 입력으로서 각각 제공되는 고조파 톤-컴플렉스 및 가우시안 잡음의 전력 스펙트럼(Rfnr(f))을 도시한다. 도 9(a) 및 도 9(b)는 도 5 및 도 6에 대응하는 입력(R25) 및 100 Hz의 기본 주파수를 갖는 고조파 톤 컴플렉스 및 잡음 입력 신호 각각을 위한 필터뱅크(67′)의 필터들(25, 18) 중 하나의 변조 스펙트럼 출력(P25, 18)을 도시한다. 두 개의 입력 신호들은 동일한 스펙트럼 밀도 및 총 레벨로 이루어진다. 그러나, 필터(P25,18(f))가 이 잡음 신호에 대한 것보다 고조파 톤 컴플렉스에 대해 더 높은 평균 출력 레벨을 갖는다는 것이 명백하다. 따라서, 합산된 값들(M25, 18)은 상이하게 될 것이다. 잡음 신호에 대해서, M은 0.0054인 반면에, 고조파 톤 컴플렉스에 대해서, M은 2개의 차의 팩터에 근사하게, 0.0093이다. 값들(M)의 매트릭스가 잡음 및 고조파 톤 컴플렉스 신호들에 대해서 상당히 다른 표현을 제공하고, 이것이 이 모델을 사용하여 잡음 신호들을 분류 가능하다는 것을 보여준다.To illustrate this, FIGS. 5 and 6 show the power spectra R fnr (f) of harmonic tone-complex and Gaussian noise, respectively, provided as inputs to the filterbank 67 '. 9 (a) and 9 (b) are diagrams of filter banks 67 'for the harmonic tone complex and noise input signals, respectively, having an input frequency R 25 corresponding to FIGS. 5 and 6 and a fundamental frequency of 100 Hz. The modulation spectral output P 25 , 18 of one of the filters 25 , 18 is shown. The two input signals consist of the same spectral density and total level. However, it is evident that the filters P 25 , 18 (f) have a higher average output level for the harmonic tone complex than for this noise signal. Thus, the summed values M 25 , 18 will be different. For the noise signal, M is 0.0054, while for harmonic tone complexes, M is 0.0093, approximating the factor of the two differences. The matrix of values M provides a quite different representation for noise and harmonic tone complex signals, which shows that it is possible to classify noise signals using this model.

도 4의 모델에서, 각 변조 스펙트럼을 위한 전력들(Pmfnr,fnr(f))은 합산되어(70′) 매트릭스(M)에서 각 셀을 위한 값을 생성한다. 이 방식으로, 어떤 시간(9 프레임들)에 걸쳐서 평균화된 각 변조 필터 내의 활동도(M(fnr, mfnr))가 결정된다. 이 평균은 상술된 Dau 모델을 사용하는 문제를 피하게 하는 잡음 신호의 특정 상세 사항들에 민감하지 않다. 그 후, 한 신호를 위한 각 필터에 대한 활동도는 신호들 간의 차의 인지 측정값(D)을 제공하기 위하여 병렬로 처리되는 또 다른 신호에 대한 대응하는 활동도(M′)와 비교될 수 있다:In the model of FIG. 4, the powers P mfnr , fnr (f) for each modulation spectrum are summed (70 ′) to produce a value for each cell in the matrix M. In this way, the activity M (fnr, mfnr) in each modulation filter averaged over a certain time (9 frames) is determined. This average is not sensitive to the specific details of the noise signal, which avoids the problem of using the Dau model described above. The activity for each filter for one signal can then be compared with the corresponding activity M 'for another signal processed in parallel to provide a cognitive measure D of the difference between the signals. have:

Figure 112005068360754-PCT00001
Figure 112005068360754-PCT00001

그 후, 값 D는 잡음 대체가 허용되는지를 결정하기 위한 기준과 비교될 수 있다. 이 기준은 주파수 종속될 수 있다는 점에 유의하여야 한다. 예를 들어, 저 주파수들에 대해서, 이 기준은 청각 필터들의 대역폭보다 낮고 비례할 수 있고, 고 주파수들에 대해서 이 기준은 일정할 수 있다.The value D can then be compared to a criterion for determining whether noise replacement is allowed. It should be noted that this criterion may be frequency dependent. For example, for low frequencies, this criterion may be lower and proportional to the bandwidth of auditory filters, and for high frequencies this criterion may be constant.

또한, 도 2의 선택 요소(16′) 또는 분석기(52)는 멀티플렉서(MUX)에게 잡음 모델을 스위칭하도록 명령하기 전 연속한 수보다 많은 구간들을 위한 임계 수보다 많은 인접 주파수 대역들이 잡음을 가지고 모델링될 수 있을 필요가 있는데, 그 이유는 이들 문턱값들이 초과될 때에만 비트레이트의 필요로 되는 세이빙이 잡음 모델로 스와핑함으로써 행해지기 때문이다.In addition, the selection element 16 ′ or the analyzer 52 of FIG. 2 models the noise with more than a threshold number of adjacent frequency bands for more than successive intervals before instructing the multiplexer (MUX) to switch the noise model. This may be necessary because the required saving of the bitrate is done by swapping into the noise model only when these thresholds are exceeded.

실험들에서, 상술된 실시예는 고정 오디오의 다수의 짧은(300 ms) 세그먼트들에 대해서 테스트된다. 대체되는 대역폭의 50% 내지 80%로 인해, 모노 오디오를 위한 96 kbit/sec의 비트레이트에서 MPEG 1 계층 III의 오디오 품질에 필적할 수 있는 오디오 품질이 얻어질 수 있다는 것이 밝혀졌다. In experiments, the embodiment described above is tested for multiple short (300 ms) segments of fixed audio. Due to the 50% to 80% of the bandwidth replaced, it has been found that audio quality comparable to the audio quality of MPEG 1 layer III can be obtained at a bit rate of 96 kbit / sec for mono audio.

본 발명의 제 1 실시예에서, 잡음은 반복적으로 대체되고 테스트된다. 각 테스트에 대해서, 원래 신호의 모델 출력은 수정된 신호의 모델 출력, 즉 대체된 잡음과 비교된다. 이 비교에 기초하여, 잡음이 대체되는지 여부에 대한 결정이 행해진다. 그러나, 이 방법은 계산 집중적이라는 것을 알 수 있을 것이다.In the first embodiment of the invention, the noise is repeatedly replaced and tested. For each test, the model output of the original signal is compared with the model output of the modified signal, i.e. the replaced noise. Based on this comparison, a determination is made as to whether noise is to be replaced. However, it will be appreciated that this method is computationally intensive.

대안적인 방법은 잡음 대체를 위한 양호한 후보 스펙트럼-시간적 구간들, 예를 들어 저 에너지 레벨들을 갖는 구간들이라고 의심받는 특정 청각 필터들(62, 67′) 및 특정 시간 구간들에 대한 직접 결정을 행한다는 것이다.An alternative method makes direct decisions on certain auditory filters 62, 67 ′ and certain time intervals suspected of being good candidate spectral-temporal intervals for noise replacement, eg, those with low energy levels. Will.

이 경우에, 한 입력 신호, 즉 I/P2는 합성 잡음 신호를 포함한다. 그 후, 이 신호를 위한 모델 출력(Rep 2)은 원래 신호를 위한 모델 출력(Rep 1)과 직접 비교된다. 주어진 스펙트럼-시간적 구간에 대해서, Rep 2는 미리 계산되어 이 방법의 계산 집중도를 감소시킨다는 것을 알 수 있다.In this case, one input signal, i.e., I / P2, comprises a composite noise signal. The model output Rep 2 for this signal is then compared directly with the model output Rep 1 for the original signal. It can be seen that for a given spectral-temporal interval, Rep 2 is precomputed to reduce the computational concentration of this method.

Rep 1 및 Rep 2 간의 차가 특정 기준보다 작을 때, 잡음은 이 구간에서 명백하게 입력 오디오 신호가 잡음 신호(인지도 면에서) 매우 유사하기 때문에 특정 스펙트럼-시간적 구간내에서 대체될 수 있다라고 추정할 수 있다. When the difference between Rep 1 and Rep 2 is less than a certain criterion, it can be assumed that the noise can be replaced within a particular spectral-temporal interval since the input audio signal is very similar in terms of noise signal (in terms of recognition) in this interval. .

제 1 실시예에서, 마스킹은 본래 결정 프로세스에 고려된다는 것을 알 수 있을 것이다. 이는 어떤 스펙트럼-시간적 구간이 마스킹될 때 어떤 문제도 없이 잡음으로 대체될 수 있기 때문에 유용하다. 대안적인 구현에서, 어떤 스펙트럼-시간적 구간의 수정이 모델 출력에 어떻게 영향을 미치는지를 바로 알 수 없다. 이를 행할 수 있도록 하기 위하여, 잡음 대체를 위한 후보 스펙트럼-시간적 구간이 다른 신호 성분들에 의해 마스킹되는 정도를 고려하는 것이 유용하다. 이는 스펙트럼-시간적 구간의 대체 검출성(detectability)(det), 즉 다른 성분들에 의해 마스킹되는 정도를 레이팅(rating)함으로써 고려될 수 있다. 또한, 예를 들어, 고 전력 신 호 내의 저 에너지 구간은 저 검출성 레이팅을 갖는다. 검출성(det)과 후보 구간 동안 얻어진 차의 측정값(D)의 곱은 잡음이 대체될 수 있는지 여부에 대한 양호한 표시자라고 추정된다.In the first embodiment, it will be appreciated that masking is originally considered in the decision process. This is useful because any spectral-temporal interval can be replaced by noise without any problem when masked. In alternative implementations, it is not immediately apparent how certain spectral-temporal interval modifications affect the model output. In order to be able to do this, it is useful to consider the extent to which candidate spectral-temporal intervals for noise replacement are masked by other signal components. This can be considered by rating the alternative detectability (det) of the spectral-temporal interval, ie the degree of masking by other components. Also, for example, low energy sections in high power signals have low detectable ratings. The product of the detectability det and the measured value D of the difference obtained during the candidate interval is assumed to be a good indicator of whether noise can be replaced.

이 방법은 제 1 실시예의 방법보다 훨씬 고속인데, 그 이유는 확장적인 계산 복잡성 없이 성취될 수 있는, 모델에 의한 원래 입력 신호의 단일 패스(대신 많은)에다가 마스킹 특성들의 편차들만을 필요로 하기 때문이다.This method is much faster than the method of the first embodiment because it requires only deviations of the masking characteristics in a single pass (instead of many) of the original input signal by the model, which can be achieved without extensive computational complexity. to be.

본 발명이 MPEG 부호기에 적용될 수 있을 뿐만 아니라 잡음 및 어떤 다른 수단에 의해 신호를 파라메틱적으로 부호화하는 임의의 부호기에 적용될 수 있다. 여기서, 도 7을 참조하면, 본 발명의 제 2 실시예에서, 개선된 선택 요소(16″)는 파라메트릭 오디오 부호기(80) 내에서 채용되어 잡음 및 비잡음 스펙트럼-시간적 구간들 간의 판별을 향상시킨다. 이와 같은 파라메트릭 부호기의 예는 오디오 신호들의 사인곡선 디스크립션인데, 이는 2002년 7월 8일에 출원된 유럽 특허 출원 02077727.2(대리인 번호 PHNL020598)에 서술된 각종 토널 신호들에 매우 적합하다. 부호기 내에서, 사인곡선 분석기(82)는 입력 신호(x(t))의 순차적인 세그먼트들을 주파수 도메인으로 변환시키는데, 그 후, 각 세그먼트 또는 프레임은 진폭, 주파수 및 가능한 위상 파라미터들(Cs)로 표현되는 다수의 사인곡선들을 사용하여 모델링된다. 신호의 합성된 사인곡선의 성분들이 입력 신호로부터 제거될 때, 나머지 신호는 잡음을 포함하는 것으로 추정될 수 있고, 이는 잡음 분석기(84)에서 모델링되어 잡음 코드들(CN)을 발생시킨다. 그 후, 각 사인곡선 코드들 및 잡음 코드들(CS, CN)은 비트스트림(AS)에서 부호화된다. 코딩될 수 있는 신호의 다른 성분들은 과도 및 고조파 컴플렉스들을 포함하지만, 이들은 간결성을 위하여 본원에선 설명하지 않았다.The invention can be applied not only to the MPEG encoder but also to any encoder which parametrically encodes the signal by noise and some other means. 7, in the second embodiment of the present invention, an improved selection element 16 " is employed within the parametric audio encoder 80 to improve discrimination between noise and non-noise spectral-temporal intervals. Let's do it. An example of such a parametric coder is the sinusoidal description of audio signals, which is well suited for the various tonal signals described in European patent application 02077727.2 filed on July 8, 2002 (agent number PHNL020598). Within the encoder, the sinusoidal analyzer 82 converts sequential segments of the input signal x (t) into the frequency domain, where each segment or frame is then amplitude, frequency and possible phase parameters C s . Modeled using multiple sinusoids When the components of the synthesized sinusoid of the signal are removed from the input signal, the remaining signal can be estimated to contain noise, which is modeled in the noise analyzer 84 to generate the noise codes C N. Then, each sinusoidal codes and noise codes C S , C N are encoded in the bitstream AS. Other components of the signal that can be coded include transient and harmonic complexes, but these are not described herein for brevity.

본 발명은 다음과 같은 부호기로 구현된다. 원래 입력 신호x(t)는 우선 디폴트에 의해 코딩되어 잡음 및 사인곡선 코드들(CS(1), CN (1))의 조합을 제공하고, 이들 코딩된 세그먼트들은 도 2의 요소(16′)에 대응하는 선택 요소(16″)의 입력 I/P1(0)로서 제공된다.The present invention is implemented with the following encoder. The original input signal x (t) is first coded by default to provide a combination of noise and sinusoidal codes C S (1) , C N (1) , these coded segments being the element 16 of FIG. 2. 'Is provided as input I / P1 (0) of selection element 16 ".

그 후, 주어진 세그먼트(n)에서 복수의 주파수 대역들(i) 각각에 대해서, 사인곡선 분석기(82)는 주파수 대역 내에서 사인곡선 성분들을 부호화하지 않음으로, (더욱 큰) 나머지 신호는 잡음 분석기(84)에 의해 부호화된다. 그 후, 생성된 후보 잡음 및 사인곡선 코드들(CS(i), CN (i)) 각각은 선택 요소(16″)의 I/P2(i)에 제공된다. 이 결과의 왜곡(D)을 기반으로, 후보 코드들(CS(i), CN (i))의 세트가 비트레이트와 관련하여 가장 효율적인 결정을 행할 수 있고 미리 결정된 문턱값을 초과하는 왜곡을 갖지 않게 된다. Then, for each of the plurality of frequency bands i in a given segment n, the sinusoidal analyzer 82 does not encode sinusoidal components within the frequency band, so that the (larger) remaining signal is a noise analyzer. Coded by 84. Then, the generated candidate noise and sinusoidal codes (C S (i), C N (i)), each of which is provided to I / P2 (i) of the selection element (16 "). Based on the resulting distortion D, the set of candidate codes C S (i) , C N (i) can make the most efficient decision with respect to the bit rate and distortion that exceeds a predetermined threshold Will not have

여기서, 도 8을 참조하면, 제 1 실시예에서와 같이, 각 입력 I/P1 및 I/P2(i)에 대해서, 복수의 세그먼트들(s1, s2) 및 s′1(i), s′2(i)에 대한 코드들은 유닛들(42′) 내의 각 해닝 윈도우 함수들을 사용하여 합성되어 결합되어 인지 분석기(52)로의 입력들로서 구간 t(n) 동안 시간 윈도우잉된 신호들을 제공하는데, 이 인지 분석기는 제 1 실시예와 관련하여 서술된 바와 같이 동작한다. 그러므로, 이 분석기(52)는 단지 잡음(I/P2(i))와 비교하여 사인곡선들 및 잡음(I/P1)의 조합으로 주어진 세그먼트 내의 주어진 대역의 모델링이 가청일지의 여부에 대한 결정을 제공한다. 그 후, 이는 멀티플렉서(15′)에 남게 되어 어느 코드들(1...i)의 세트들이 세그먼트들(...s1, s2...)에 걸쳐서 채용되는지를 결정하여 신호x(t)를 부호화하기 위한 최적의 비트 레이트를 제공한다.Referring to FIG. 8, as in the first embodiment, for each of the inputs I / P1 and I / P2 (i), a plurality of segments s1, s2 and s'1 (i), s' The codes for 2 (i) are synthesized and combined using the respective Hanning window functions in units 42 'to provide time windowed signals during interval t (n) as inputs to cognitive analyzer 52, which The cognitive analyzer operates as described in connection with the first embodiment. Therefore, the analyzer 52 only makes a determination as to whether modeling of a given band in a given segment is audible with a combination of sinusoids and noise I / P1 compared to noise I / P2 (i). to provide. This is then left in the multiplexer 15 'to determine which sets of codes 1 ... i are employed across the segments (... s1, s2 ...) to signal x (t). It provides an optimal bit rate for coding.

제 1 실시예에서와 같이, 입력 신호의 잡음 대체된 버전에 대한 각 구간을 반복적으로 테스트하는 것이 아니라, 입력 신호의 후보 스펙트럼-시간적 구간이 단지 동일한 구간 동안 잡음 신호에 대해서 사전 계산된 표현에 대해서 비교되어 후보 구간이 잡음이 있는지 여부를 결정한다.As in the first embodiment, rather than repeatedly testing each interval for a noise-substituted version of the input signal, for a precomputed representation of the noise signal while the candidate spectral-temporal interval of the input signal is only the same interval. The comparison is made to determine whether the candidate interval is noisy.

어느 경우든, 이는 파라메트릭 부호기에 대해서, 잡음 분류된 구간들이 비트레이트에서 가능한 세이빙들 및 가능한 품질 개선된 채 고조파 컴플렉스들 또는 과도들(transients)과 같은 다른 성분들 또는 사인곡선들로 표현될 필요가 없는데, 그 이유는 잡음 구간이 특히 사인곡선들로 표현되지 않을 것이기 때문이다.In either case, this requires that for a parametric coder, the noise classified intervals must be represented by sinusoids or other components, such as harmonic complexes or transients, with possible savings and possible quality improvements in the bitrate. This is because the noise interval will not be represented in particular sinusoids.

특히 이 제 2 실시예를 사용하면, 잡음으로 대체되는 오디오 신호의 특정된 스펙트럼-시간적 구간들은 종래 모델링된 오디오 신호의 에너지와 동일한 에너지를 갖는다라는 것을 알 수 있을 것이다.In particular using this second embodiment, it will be appreciated that the specified spectral-temporal sections of the audio signal replaced by noise have the same energy as that of the conventionally modeled audio signal.

두 가지 실시예들과 관련하여 상술된 바와 같이, 잡음 대체 작업을 양호하게 하기 위해선, 우선 더욱 긴 시간적 구간에 걸쳐서 잡음을 대체하여 대체가 허용되는지의 여부를 결정하는 것이 중요하다는 것이 밝혀졌다. 이 후, 실제 최종 대체는 훨씬 작은 구간 동안에만 행해진다. 본 발명이 이와 같이 구현될 수 있지만, 일반적으로, 잡음이 나중 최종 대체를 위하여 사용될 테스트 구간에서만 분류되는 경우, 오히려 신뢰할 수 없는 분류들이 초래된다는 것이 밝혀졌다. As discussed above in connection with the two embodiments, in order to improve the noise replacement operation, it has been found that it is important to first determine whether replacement is allowed by replacing noise over a longer period of time. After this, the actual final replacement is only done for a much smaller interval. Although the present invention can be implemented as such, it has generally been found that if noise is classified only in the test interval to be used for later final replacement, rather unreliable classifications result.

그러나, 긴 시간적 테스트 구간들을 사용하는 것은 문제가 있는 것으로 입증된 경우, 분류를 위하여 이와 같은 긴 구간을 취하는 대신에, 넓은 스펙트럼 구간(짧은 지속기간을 가짐)이 또한 사용될 수 있는데, 최종 대체는 단지 더욱 좁은 스펙트럼 구간에서만 행해진다. However, if using long temporal test intervals has proved problematic, instead of taking such long intervals for classification, a broad spectral interval (with a short duration) can also be used, with the final replacement being only Only in narrower spectral intervals.

Claims (15)

입력 오디오 신호(x(t))의 스펙트럼-시간적 구간을 분류하는 방법에 있어서,A method of classifying a spectral-temporal interval of an input audio signal x (t), 제 1 표현(Rep 1)을 제공하기 위하여 인지 모델에 따라서 상기 입력 오디오 신호의 상기 스펙트럼-시간적 구간을 제 1 모델링(62...71)하는 단계;First modeling (62 ... 71) said spectral-temporal interval of said input audio signal according to a cognitive model to provide a first representation (Rep 1); 제 2 표현(Rep 2)을 제공하기 위하여 상기 인지 모델에 따라서 수정된 잡음 대체된 입력 신호를 사용하여 상기 스펙트럼-시간적 구간을 제 2 모델링(62...71)하는 단계; 및,Second modeling (62 ... 71) said spectral-temporal interval using a noise replaced input signal modified according to said cognitive model to provide a second representation (Rep 2); And, 상기 제 1 및 제 2 표현들의 비교에 기초하여 잡음인 것으로 또는 그렇치 않은 것으로 상기 오디오 신호의 상기 스펙트럼-시간적 구간을 분류하는 단계(52)를 포함하는, 스펙트럼-시간적 구간 분류 방법.Classifying (52) the spectral-temporal interval of the audio signal as being noise or not based on a comparison of the first and second representations. 제 1 항에 있어서, 상기 인지 모델은:The method of claim 1, wherein the cognitive model is: 제 1 복수의 주파수 대역들 각각에 대해 상기 입력 오디오 신호로부터 도출되는 각 대역-통과 필터링된 시간-도메인 신호들을 각각 제공하는 제 1 복수의 x 필터들(62);First plurality of x filters 62 for providing respective band-pass filtered time-domain signals derived from the input audio signal for each of a first plurality of frequency bands; 상기 대역-통과 필터링된 신호들 각각을 처리하는 정류기(63) 및 저역 통과 필터(64);A rectifier (63) and a low pass filter (64) for processing each of the band-pass filtered signals; 상기 처리되고 필터링된 신호들의 주파수 스펙트럼 표현(Rfnr(f))을 제공하는 변환기(71); 및,A converter (71) for providing a frequency spectral representation (R fnr (f)) of the processed and filtered signals; And, 제 2 복수의 주파수 대역들 각각을 위한 상기 변환된 신호들 각각으로부터 도출된 각 대역-통과 필터링된 주파수-도메인 신호들(Pfnr , mfnr(f))을 각각 제공하는 제 2 복수의 y 필터들(67′)을 포함하고,Second plurality of y filters each providing respective band-pass filtered frequency-domain signals P fnr , mfnr (f) derived from each of the transformed signals for each of a second plurality of frequency bands (67 '), 상기 제 1 및 제 2 표현들 각각은 필터링된 주파수-도메인 정보의 x*y 매트릭스(M, M′)인, 스펙트럼-시간적 구간 분류 방법.Wherein each of the first and second representations is an x * y matrix (M, M ') of filtered frequency-domain information. 제 2 항에 있어서, The method of claim 2, 상기 제 1 및 제 2 표현들 각각은 상기 필터링된 주파수-도메인 정보의 적분(integral)을 포함하는 x*y 매트릭스를 포함하는, 스펙트럼-시간적 구간 분류 방법.Wherein each of the first and second representations comprises an x * y matrix comprising an integral of the filtered frequency-domain information. 제 1 항에 있어서, The method of claim 1, 상기 수정된 잡음 대체된 입력 신호는 주파수 대역(i)이 잡음 모델링된 신호로 대체되는 상기 입력 오디오 신호의 시간적 구간(t(n))을 포함하는, 스펙트럼-시간적 구간 분류 방법.And the modified noise replaced input signal comprises a temporal section (t (n)) of the input audio signal in which frequency band (i) is replaced with a noise modeled signal. 제 4 항에 있어서, The method of claim 4, wherein 분류될 후보 스펙트럼-시간적 구간에 각각 대응하는 일련의 수정된 입력 신 호들을 제공하기 위하여 상기 입력 오디오 신호의 상기 시간적 구간(t(n))의 주파수 대역들(i)을 잡음 모델링된 신호로 반복적으로 대체하는 단계;The frequency bands (i) of the temporal interval t (n) of the input audio signal are repeated as a noise modeled signal to provide a series of modified input signals respectively corresponding to the candidate spectral-temporal intervals to be classified. Replacing with; 일련의 제 2 표현들을 제공하기 위하여 상기 일련의 수정된 입력 신호들을 반복적으로 모델링하는 단계; 및,Iteratively modeling the series of modified input signals to provide a series of second representations; And, 상기 제 1 및 상기 일련의 제 2 표현들 각각의 비교에 기초하여 상기 후보 스펙트럼-시간적 구간들을 반복적으로 분류하는 단계를 포함하는, 스펙트럼-시간적 구간 분류 방법.And repeatedly classifying the candidate spectral-temporal intervals based on a comparison of each of the first and second series of representations. 제 1 항에 있어서, The method of claim 1, 상기 입력 오디오 신호의 상기 스펙트럼-시간적 구간은 상기 입력 오디오 신호의 시간적 구간 동안 선택된 주파수 대역을 포함하고, 상기 수정된 잡음 대체된 입력 신호는 상기 주파수 대역을 위한 잡음 모델링된 신호를 포함하는, 스펙트럼-시간적 구간 분류 방법.The spectral-temporal interval of the input audio signal comprises a frequency band selected during the temporal interval of the input audio signal and the modified noise-replaced input signal comprises a noise modeled signal for the frequency band. Temporal Interval Classification Method. 제 6 항에 있어서, The method of claim 6, 상기 제 2 모델링 단계는 단지 1회 수행되는, 스펙트럼-시간적 구간 분류 방법.And wherein said second modeling step is performed only once. 제 6 항에 있어서, The method of claim 6, 상기 선택된 주파수 대역을 위한 입력 신호의 잡음의 대체가 상기 입력 오디 오 신호의 나머지에 의해 마스킹되는 정도(det)를 결정하는 단계를 더 포함하고, 상기 분류 단계(52)는 상기 제 1 및 제 2 표현들의 상기 비교 함수 및 상기 마스킹의 정도에 따라서 상기 오디오 신호의 상기 스펙트럼-시간적 구간을 분류하는 단계를 포함하는, 스펙트럼-시간적 구간 분류 방법.Determining a degree to which the replacement of noise of the input signal for the selected frequency band is masked by the remainder of the input audio signal, wherein the classification step 52 comprises the first and second Classifying the spectral-temporal interval of the audio signal according to the comparison function of representations and the degree of masking. 오디오 신호를 코딩하는 방법으로서,A method of coding an audio signal, 청구항 제 1 항의 단계들에 따라서 잡음이거나 아닌 것의 상기 오디오 신호의 스펙트럼-시간적 신호를 분류하는 단계(16′, 16″); Classifying (16 ', 16 ") the spectral-temporal signal of said audio signal with or without noise according to the steps of claim 1; 잡음 모델 파라미터들을 가진 잡음으로서 분류되는 스펙트럼-시간적 구간의 적어도 일부를 모델링하는 단계(17, 84); 및,Modeling at least a portion of the spectral-temporal interval that is classified as noise with noise model parameters (17, 84); And, 비트 스트림(AS)에서 상기 잡음 모델 파라미터들을 부호화하는 단계(15, 15′)를 포함하는, 오디오 신호 코딩 방법.Encoding (15, 15 ') said noise model parameters in a bit stream (AS). 제 9 항에 있어서, The method of claim 9, 상기 스펙트럼-시간적 구간의 일부는 상기 스펙트럼-시간적 구간의 시간적 서브-세트를 포함하는, 오디오 신호 코딩 방법.Wherein the portion of the spectral-temporal interval comprises a temporal sub-set of the spectral-temporal interval. 제 9 항에 있어서, The method of claim 9, 상기 스펙트럼-시간적 구간의 일부는 상기 스펙트럼-시간적 구간의 스펙트럼 서브-세트를 포함하는, 오디오 신호 코딩 방법.And a portion of the spectral-temporal interval comprises a spectral sub-set of the spectral-temporal interval. 제 9 항에 있어서, The method of claim 9, 상기 스펙트럼-시간적 구간은 상기 비트 스트림에서 기본 구간 길이(s1, s2)보다 더 큰 길이의 시간 기간을 포함하는, 오디오 신호 코딩 방법.And wherein the spectral-temporal interval comprises a time period of length greater than the base interval length (s1, s2) in the bit stream. 입력 오디오 신호(x(t))의 스펙트럼-시간적 구간을 분류하는 컴포넌트로서, A component for classifying a spectral-temporal interval of an input audio signal x (t), 제 1 표현(Rep 1)을 제공하기 위하여 인지 모델에 따라서 상기 입력 오디오 신호의 상기 스펙트럼-시간적 구간을 모델링하는 수단(62...71);Means (62 ... 71) for modeling the spectral-temporal intervals of the input audio signal according to a cognitive model to provide a first representation (Rep 1); 제 2 표현(Rep 2)을 제공하기 위하여 상기 인지 모델에 따라서 수정된 잡음 대체된 입력 신호를 사용하여 상기 스펙트럼-시간적 구간을 모델링하는 수단(62...71); 및,Means (62 ... 71) for modeling the spectral-temporal interval using a noise replaced input signal modified according to the cognitive model to provide a second representation (Rep 2); And, 상기 제 1 및 제 2 표현들의 비교에 기초하여 잡음인 것으로 또는 그렇치 않은 것으로 상기 오디오 신호의 상기 스펙트럼-시간적 구간을 분류하는 수단(52)을 포함하는, 스펙트럼-시간적 구간을 분류하는 컴포넌트.Means (52) for classifying the spectral-temporal interval of the audio signal as being noise or not based on a comparison of the first and second representations. 제 13 항에 있어서, The method of claim 13, 상기 컴포넌트는 스펙트럼-시간적 구간이 잡음 모델 파라미터들을 사용하여 코딩되는지의 여부를 결정하기 위하여 채용되는, 스펙트럼-시간적 구간을 분류하는 컴포넌트.Wherein said component is employed to determine whether a spectral-temporal interval is coded using noise model parameters. 제 14 항에 있어서, The method of claim 14, 상기 부호기는 사인곡선 부호기 또는 MPEG형 부호기 중 하나인, 스펙트럼-시간적 구간을 분류하는 컴포넌트.Wherein the encoder is one of a sinusoidal encoder or an MPEG type encoder.
KR1020057022576A 2005-11-25 2003-05-27 Audio coding KR20060059882A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020057022576A KR20060059882A (en) 2005-11-25 2003-05-27 Audio coding

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020057022576A KR20060059882A (en) 2005-11-25 2003-05-27 Audio coding

Publications (1)

Publication Number Publication Date
KR20060059882A true KR20060059882A (en) 2006-06-02

Family

ID=37156927

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020057022576A KR20060059882A (en) 2005-11-25 2003-05-27 Audio coding

Country Status (1)

Country Link
KR (1) KR20060059882A (en)

Similar Documents

Publication Publication Date Title
JP5551694B2 (en) Apparatus and method for calculating multiple spectral envelopes
KR100949232B1 (en) Encoding device, decoding device and methods thereof
KR100962681B1 (en) Classification of audio signals
JP4740260B2 (en) Method and apparatus for artificially expanding the bandwidth of an audio signal
RU2420817C2 (en) Systems, methods and device for limiting amplification coefficient
RU2485606C2 (en) Low bitrate audio encoding/decoding scheme using cascaded switches
JP3840684B2 (en) Pitch extraction apparatus and pitch extraction method
EP1631954B1 (en) Audio coding
KR20130107257A (en) Method and apparatus for encoding and decoding high frequency for bandwidth extension
CN104123946A (en) Systemand method for including identifier with packet associated with speech signal
JP2009524100A (en) Encoding / decoding apparatus and method
KR20070070174A (en) Scalable encoder, scalable decoder, and scalable encoding method
WO2010127616A1 (en) System and method for frequency domain audio post-processing based on perceptual masking
CA2412449C (en) Improved speech model and analysis, synthesis, and quantization methods
JP4040126B2 (en) Speech decoding method and apparatus
US11335355B2 (en) Estimating noise of an audio signal in the log2-domain
WO2014131260A1 (en) System and method for post excitation enhancement for low bit rate speech coding
JP4359949B2 (en) Signal encoding apparatus and method, and signal decoding apparatus and method
JP4281131B2 (en) Signal encoding apparatus and method, and signal decoding apparatus and method
KR20060059882A (en) Audio coding
JP4354561B2 (en) Audio signal encoding apparatus and decoding apparatus
Villemoes et al. Speech coding with transform domain prediction
JP4618823B2 (en) Signal encoding apparatus and method
Yu et al. Harmonic+ noise coding using improved V/UV mixing and efficient spectral quantization
Ma et al. 400bps High-Quality Speech Coding Algorithm

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application