KR20060059882A - Audio coding - Google Patents
Audio coding Download PDFInfo
- Publication number
- KR20060059882A KR20060059882A KR1020057022576A KR20057022576A KR20060059882A KR 20060059882 A KR20060059882 A KR 20060059882A KR 1020057022576 A KR1020057022576 A KR 1020057022576A KR 20057022576 A KR20057022576 A KR 20057022576A KR 20060059882 A KR20060059882 A KR 20060059882A
- Authority
- KR
- South Korea
- Prior art keywords
- spectral
- noise
- temporal
- signal
- audio signal
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/028—Noise substitution, i.e. substituting non-tonal spectral components by noisy source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Abstract
Description
본 발명은 오디오 신호 코딩하는 방법에 관한 것이다.The present invention relates to a method of audio signal coding.
MPEG 부호기와 같은 부호기들의 동작이 널리 공지되어 있다. 도 1의 한 가지 구현 방식에서, 입력 PCM(펄스 코드 변조된(Pulse Code Modulated)) 신호 x(t)는 각 전달 함수들(H1...H1024)을 지닌 1024 필터들(11)을 포함하는 서브-대역 필터 뱅크(sub-band filter bank; SBF)(10)에 공급된다. 각 필터링된 신호는 데시메이팅되고 난 후 스케일러(SC)(12)에 공급되는데, 이 스케일러는 각 대역을 위한 적절한 스케일 팩터들을 결정한다. 별도로, 통상적으로 사이코-어쿠스틱 모델(psycho-acoustic model)의 어떤 형태로 동작하는 마스킹 임계 및 비트 할당 계산기(MT/BA)(13)는 각 주파수 대역을 위한 비트 할당을 결정하는데, 여기서 비트 레이트는 양자화 동안 도입되는 왜곡(distortion)에 대해서 균형을 이룬다. 그 후, 각 필터링되고 스케일링된 신호는 양자화된 신호들, 스케일 팩터들 및 비트 할당 정보를 포함하는 최종 오디오 스트림(AS)이 발생되는 멀티플렉서(MUX)(15)에 공급되기 전 할당된 비트 레이트에 따라서 양자화된다(Q)(14).The operation of encoders such as MPEG encoders is well known. In one implementation of FIG. 1, the input PCM (Pulse Code Modulated) signal x (t) is used to generate 1024
오디오 신호들의 일부 스펙트럼 및/또는 시간적 파트들이 단지 잡음 모델 디 스크립션을 가진 매우 효율적인 방식(예를 들어, 4 kb/s 내지 10 kb/s)으로 표현될 수 있다는 것이 공지되어 있다.It is known that some spectral and / or temporal parts of audio signals can only be represented in a very efficient manner (eg 4 kb / s to 10 kb / s) with noise model description.
따라서, 도 1과 관련하여, 입력 신호 x(t)는 잡음 또는 잡음이 아닌 것으로서 시간적 구간들 동안 주파수 대역들을 분류하는 선택 요소(Sel)(16)로 공급될 수 있다. 스펙트럼-시간적 구간(spectro-temporal intervals)이 잡음이라고 결정될 때, 선택 요소(16)는 멀티플렉서(15)가 이 구간 동안 서브-대역 신호들을 코딩하지 않도록 명령한다. 입력 신호 x(t)의 스펙트럼-시간적 구간은 대신, 잡음 분석기(noise analyser; NA)(17)로 모델링되는데, 이 잡음 분석기의 출력은 이용가능한 비트 레이트에 따라서 양자화 된다(Q)(18).Thus, with respect to FIG. 1, the input signal x (t) may be supplied to a selection element (Sel) 16 that classifies frequency bands during temporal sections as noise or non-noise. When it is determined that spectro-temporal intervals are noise, the
그러나, 악명높은 문제는 오디오 신호의 어떤 파트가 잡음으로 표현될 수 있는지를 결정하기 위한 것이다. 이 결정은 잡음을 가진 오디오 신호의 모델링 파트가 품질 감소를 초래하지 않을 것이라는 가정에 기초한다. 또한, 이는 신호를 부호화하는 효율성에서 증가를 초래할 것이다.However, the notorious problem is to determine which part of the audio signal can be represented by noise. This decision is based on the assumption that the modeling part of the noisy audio signal will not result in a reduction in quality. This will also result in an increase in the efficiency of encoding the signal.
슐츠, 디.(Schulz, D.)가 1996년 J.Audio Eng. Soc., Vol. 44, pp 593-598에 발표한 "노이즈 대체물에 의해 오디오 코드들 개선(Improving audio codecs by noise substitution)"은 신호의 통계적 신호 특성들이 상기 분류를 행하도록 도출될 수 있다는 것을 보여준다. 슐츠에 의해 발표된 예시적인 기술들은 다음을 포함한다:Schulz, D., 1996, J. Audio Eng. Soc., Vol. 44, pp 593-598, "Improving audio codecs by noise substitution," shows that the statistical signal characteristics of a signal can be derived to perform the classification. Exemplary techniques published by Schultz include:
ㆍ연속적인 스펙트럼들에서 스펙트럼 피크들의 추적Tracing of spectral peaks in consecutive spectra
ㆍ주파수 도메인에서 예측기들의 사용Use of predictors in the frequency domain
ㆍ횡단선 필터(transversal filter)로 시간 도메인에서 예측성 사용.Use predictability in the time domain as a transversal filter.
후자의 두 가지 예들에서, 다 많은 예측 가능한 신호가 있다는 것이 가정되어, 더욱 더 토널(tonal)하게 되고 이와 같은 예측성이 잡음성에 대향된다고 가정된다.In the latter two examples, it is assumed that there are many predictable signals, which are further tonalized and that such predictability is opposed to noise.
다른 기술들은 프레임(통상적으로, 짧은 지속기간에 걸쳐서,예를 들어 10 ms 내지 20 ms)의 스펙트럼 평탄도(spectral flatness)의 분석에 기초한다. 다시, 스펙트럼이 더 평탄하면 할수록, 더 많은 잡음이 존재하는 것으로 간주된다.Other techniques are based on the analysis of spectral flatness of a frame (typically over a short duration, for example 10 ms to 20 ms). Again, the flatter the spectrum, the more noise is considered to be present.
헬, 제이. 슐츠, 디.(Herre, J.Schulz, D.)가 1998년 Proc. 104th convention of the Audio Eng. Soc, Amsterdam, preprint 4720 에서 발표한 "인식한 잡음 대체에 의해 MPEG-4 AAC 코덱 확장(Extending the MPEG-4 AAC codec by perceptual noise substitution)"의 상기 통계적 방법들은 MPEG 4 AAC의 컨텍스트에 언급되어 있다. 여기서, 스펙트럼-시간적 구간들은 스케일-팩터-대역들 및 프레임들에 대응하고, 이들이 잡음에 의해 모델링될 때 비트 레이트 세이빙(saving)이 행해진다.Hel, Jay. Herre, J. Schulz, D., 1998, published in Proc. 104th convention of the Audio Eng. The statistical methods of "Extending the MPEG-4 AAC codec by perceptual noise substitution" published by Soc, Amsterdam, preprint 4720 are mentioned in the context of MPEG 4 AAC. . Here, the spectral-temporal intervals correspond to scale-factor-bands and frames, and bit rate saving is done when they are modeled by noise.
그러나, 종래 기술의 신호 통계 기준들은 관찰자에 의해 채용되는 기준들과 반드시 일치하지 않는데, 즉 이들 기준들 간의 가능한 정합이 다소 일치한다는 것을 알 수 있을 것이다.However, it will be appreciated that the prior art signal statistical criteria do not necessarily match the criteria employed by the observer, ie the possible matching between these criteria is somewhat consistent.
본 발명을 따르면, 청구항 1에 따른 방법이 제공된다.According to the invention, a method according to
본 발명은 인지 또는 사이코-어쿠스틱 모델을 사용하여 일반적인 오디오 신호들의 스펙트럼-시간적 구간들의 잡음 분류에 기초한다. 본 발명은 잡음 대체(noise substitution)의 예측된 가청성에 기초하는데, 즉 잡음 대체가 관찰자에게 들리지 않는 것으로 예측되면, 이는 인지 저하를 초래하지 않는다.The present invention is based on noise classification of spectral-temporal sections of typical audio signals using a cognitive or psycho-acoustic model. The present invention is based on the predicted audibility of noise substitution, i.e. if the noise substitution is predicted to be inaudible to the observer, this does not lead to cognitive degradation.
본 발명의 실시예들이 여기서, 예로서, 첨부하는 도면들을 참조하여 설명될 것이다.Embodiments of the invention will now be described with reference to the accompanying drawings, by way of example.
도 1은 오디오 신호의 선택된 스펙트럼-시간적 부분들이 잡음 모델 파라미터들로 표현되는 종래의 MPEG 부호기를 도시하는 도면.1 illustrates a conventional MPEG encoder in which selected spectral-temporal portions of an audio signal are represented by noise model parameters.
도 2는 도 1의 부호기 내에서 동작될 수 있는 본 발명의 실시예를 따른 개선된 선택 요소의 동작을 도시한 도면.2 illustrates the operation of an improved selection element in accordance with an embodiment of the present invention that may be operated within the encoder of FIG.
도 3은 공지된 사이코-어쿠스틱 기반 신호 비교 모델의 블록도.3 is a block diagram of a known psycho-acoustic based signal comparison model.
도 4는 도 2의 선택 요소에 사용하기 위한 사이코-어쿠스틱 기반 신호 비교 모델의 바람직한 실시예의 블록도.4 is a block diagram of a preferred embodiment of a psycho-acoustic based signal comparison model for use in the selection element of FIG.
도 5는 도 4의 모델의 FFT 요소에 의해 생성되는 고조파 톤-컴플렉스(harmonic tone-complex)의 전력 스펙트럼(Rfnr(f))을 도시하는 도면.FIG. 5 shows the power spectrum R fnr (f) of the harmonic tone-complex generated by the FFT element of the model of FIG. 4. FIG.
도 6은 도 4의 모델의 FFT 요소에 의해 생성된 가우시안 잡음의 전력 스펙트럼(Rfnr(f))를 도시하는 도면.FIG. 6 illustrates the power spectrum R fnr (f) of Gaussian noise generated by the FFT element of the model of FIG. 4. FIG.
도 7은 본 발명의 제 2 실시예를 따른 부호기를 도시하는 도면.7 shows an encoder according to a second embodiment of the present invention.
도 8은 도 7의 부호기 내에서 동작가능한 선택 요소의 동작을 도시하는 도 면.8 illustrates the operation of a selectable element operable within the encoder of FIG.
도 9(a) 및 도 9(b)는 고조파 톤 컴플렉스 및 잡음 입력 신호 각각에 대한 도 4의 모델의 필터뱅크(filterbank)의 필터들(25, 18) 중 한 필터의 변조 스펙트럼 출력(P25,18) 및 입력(R25)을 도시하는 도면.9 (a) and 9 (b) show the modulation spectral output (P 25 ) of one of the
본 발명의 제 1 실시예에서, 개선된 선택 요소가 도 1에 도시된 유형의 MPEG 부호기에 채용되어 스펙트럼-시간적 구간들이 서브-대역 필터링된 신호들을 통해서 또는 잡음 모델로 최적으로 모델링될 수 있는지의 여부를 결정한다. In a first embodiment of the present invention, an improved selection element is employed in the MPEG coder of the type shown in FIG. Determine whether or not.
여기서, 도 2를 참조하면, 일반적으로, 개선된 선택 요소(Sel)(16′)가 입력 신호(x)의 구간(n) 동안 복수의 주파수 대역들(i) 각각에 대한 잡음 모델링의 대체를 위하여 반복적으로 테스트한다. 바람직하게는, 선택 요소는 부호기의 기본 구간 길이를 초과한 시간 기간에 걸쳐서 테스트를 행한다.Here, referring to FIG. 2, generally, an improved selection element (Sel) 16 ′ replaces noise modeling for each of a plurality of frequency bands (i) during the interval (n) of the input signal (x). Test it repeatedly. Preferably, the selection element is tested over a time period exceeding the base interval length of the encoder.
이 실시예에서, 테스트 구간(n)을 둘러싸는 PCM 포맷 입력 신호(x(t))의 구간 t(n)은 9개의 짧은 중첩하는 세그먼트들(s1, s2...)의 시퀀스로 분리된다. 이들 세그먼트들 각각은 세그먼테이션 유닛(42)에서 제곱근 해닝 윈도우(square root Hanning window)(또는 이외 다른 어떤 분석 윈도우)로 윈도우잉 된다. (이는 특정수의 구간들이 본 발명을 구현하는데 중요하지 않고 예를 들어 8 또는 11 구간들이 또한 사용될 수 있다는 것을 알 수 있을 것이다). 동시에, 구간 t(n)에 대한 신호 x(t)는 입력(I/PI)으로서 사이코-어쿠스틱 분석기(psycho-acoustic analyser; 52) 로 제공된다.In this embodiment, the interval t (n) of the PCM format input signal x (t) surrounding the test interval n is separated into a sequence of nine short overlapping segments s1, s2 ... . Each of these segments is windowed to a square root Hanning window (or any other analysis window) in the
FFT(고속 푸리에 변환)는 각 시간-도메인 윈도우잉된 신호(...s1, s2...)에 인가되어, 윈도우잉된 신호들의 각 컴플렉스 주파수 스펙트럼 표현들을 발생시킨다(단계 44).A Fast Fourier Transform (FFT) is applied to each time-domain windowed signal (... s1, s2 ...) to generate respective complex frequency spectral representations of the windowed signals (step 44).
각 표현 및 각 주파수 대역(i)에 대해서, 잡음 분석기/합성기(46)는 주파수 대역(i)에 대한 잡음 모델링된 신호에 변하지 않은 나머지 스펙트럼을 제공한다. 이 잡음 모델링된 신호는 부호기 내의 잡음 분석기(NA)(17)에 의해 사용되는 동일한 모델을 기초하는 것이 바람직하다. For each representation and each frequency band i, the noise analyzer /
그 후, 이 선택 요소는 각 잡음 대체된 신호의 역 FFT를 취하여 시간 도메인 신호들(..s′1(i), s′2(i)...)을 얻는다(단계 48). 단계 50에서, 분리된 세그먼트들은 우선 제곱근 해닝 윈도우(또는 이외 다른 어떤 합성 윈도우)로 또다시 윈도우잉하고 중첩-가산 방법(overlap-add method)을 적용함으로써 재결합된다. 이는 잡음을 구간 t(n))에 걸쳐서 대체하는 각 세그먼트(i)에 대응하는 긴 PCM, 신호(x′(t)(i))가 된다. 그 후, 신호들(x′(t)(i))은 일련의 테스트 입력 신호들(I/P2(i))로서 사이코-어쿠스틱 분석기(PA)(52)에 전송된다. 도 2의 아래쪽에 도시된 매트릭스에서, 수정된 신호의 심볼적인 표현이 도시되어 있는데, 여기서 잡음은 i번째 주파수 대역에서 대체된다. 수평축을 따라서, 시간이 도시되고 수직축을 따라서, AAC 부호기에서 사용되는 스케일 팩터 대역들에 대응하는 주파수 대역 번호(fbnr)가 도시된다. 도트들은 원래 신호 샘플들을 포함하는 영역들을 표시하며, 바들은 대체된 잡음을 갖는 영역들을 표시한다. 회색 바는 잡음 분류가 적용되는 영역를 표시한다.This selection element then takes the inverse FFT of each noise replaced signal to obtain time domain signals (..s'1 (i), s'2 (i) ...) (step 48). In
분석기(52) 내에서 인지 또는 사이코-어쿠스틱 모델은 수정된 입력 신호들(I/P2(i)) 및 원래 신호(I/P1) 간의 차(품질 감소)를 계산하도록 사용된다. 이 인지 차이가 특정 기준값을 초과하지 않으면, 잡음으로 대체되는 9개의 구간들 중에서 중간 스펙트럼-시간적 구간, 즉 구간(n)에 대한 주파수 대역(i)이 실제로 잡음 모델 파라미터들로 대체될 수 있다라고 추정된다. 이 방식으로, 모든 스펙트럼-시간적 구간들은 하나씩 연구되어 모든 구간들을 위한 잡음 대체에 대해 결정을 행한다. A cognitive or psycho-acoustic model within the
인지 모델(perceptual model)의 결과를 기초하여 9개의 대체된 구간들 중 단지 한 구간에 대해서 결정을 행하는 상기 실시예를 사용하면, 한번에 단일 구간만을 테스트하여 대체하는 것보다 잡음 대체에 대해서 더욱 신뢰성 있는 결정을 행한다는 것이 밝혀졌다. Using this embodiment, which makes a decision on only one of the nine replaced intervals based on the results of the perceptual model, it is more reliable for noise replacement than testing and replacing only a single interval at a time. It was found to make a decision.
모든 스펙트럼-시간적 구간들이 이 방식으로 평가된 후, 분석기(52)는 도 1의 멀티플렉서(MUX)에 구간(n)의 주파수 대역들 중 어느 대역에 대해서 실제 잡음 대체가 행해질 수 있다는 것을 표시한다. After all the spectral-temporal intervals have been evaluated in this manner, the
바람직한 실시예에서, 테스팅되는 주파수 대역(i)에서 대체되는 잡음 만을 갖는 원래 신호에 대해서 테스팅이 항상 수행되는데, 즉 분석기(52)가 잡음이 구간(n-1)에서 대역(i-1)으로 대체되었다라고 결정되는 경우조차도, 원래 신호는 구간(n)에서 대역(i)을 테스팅할 때 채용된다. In a preferred embodiment, testing is always performed on the original signal with only noise replaced in the frequency band i being tested, i.e., the
그 후, 멀티플렉서는 적절하게 그리고 특히 잡음 및 서브-대역 필터 모델들 간을 스위칭함으로써 제공될 수 있는 비트레이트에서 세이빙과 관련하여 잡음 분석기(NA)를 위한 양자화기(18) 또는 서브-대역 필터(들)를 위한 양자화기(들) 중 어느 하나로부터 부호화될 데이터를 선택한다. The multiplexer then suitably and in particular for
선택 요소(16′)는 또한 서브-대역 필터들(11) 및 잡음 분석기(17) 또는 양자화기들(14, 18) 중 어느 하나 또는 둘 모두와 통신하여 적절하게 이들을 스위칭 인 및 아웃하여 시스템에 의해 수행되는 전체 프로세싱을 감소시킨다. 그러나, 이는 선택 요소가 잡음 분석기(17) 및 서브-대역 필터(10) 요소들에 앞서 실행되는 것을 필요로 하여 부호기에서 바람직하지 않은 래그(lag)를 발생시킨다. 따라서, 상술된 실시예를 수행시, 래그가 프로세싱 오버헤드에 대해서 균형을 이루는 것을 필요로 한다. The selection element 16 'also communicates with either or both of the sub-band filters 11 and the
상술된 제 1 실시예의 특히 바람직한 실시예에서, 분석기(52)에 채용되는 인지 모델은 일반적으로, 다우, 티.(Dau, T.), 푸쉘, 디.(Puschel, D.), 콜라우슈, 에이.(Kohlrausch, A.) 가 J. Acoust.Soc.Am., Vol 99, 3615-3631에 1996년 6월에 발표한 "가청 시스템에서 "효율적인" 신호 처리의 양적 모델(A quantitative model of the effective signal processing in the auditory system)"; 및 다우, 티.(Dau, T.), 콜마이어 비.(Kollmeier B.), 콜라우슈, 에이.(Kohlrausch, A.) 가 J. Acoust. Soc. Am., Vol.102, 2892-2905에 1997년 11월에 발표한 "진폭 변조의 모델링 가청 처리(Modelling auditory processing of amplitude modulation)"(도 3)의 모델에 기초한다. In a particularly preferred embodiment of the first embodiment described above, the cognitive model employed in the
Dau에서, 입력 신호(I/P1 또는 I/P2)는 우선 청각 필터뱅크(auditory filterbank)(62)를 통해서 전송된다. 사람의 와우각(cochlea) 내의 기저막(basilar-membrane) 상의 각 위치는 특정 대역통과-필터 특성을 갖는다는 것이 공지되어 있다. 따라서, 필터뱅크(62)는 모델에서 다음 단계로 공급되는 복수의(x) 대역-통과 필터링된 시간 도메인 신호들을 발생시킴으로써 기저막의 주파수-플레이스 변환(frequency-place transformation)을 모델링한다.(도 3에서 다음 스테이지들 각각은 필터뱅크 출력 신호들 각각에 대해서 동작하지만, x 신호들의 1에 대한 프로세싱만이 도시된다).In Dau, the input signal I / P1 or I / P2 is first transmitted through an
다음 단계는 반파 정류(63), 1 kHz의 차단 주파수를 갖는 저역 통과 필터링(64) 및 각 필터링된 신호의 다운 샘플링(65)를 포함하는 헤어셀 모델(haircell model)이다. 여기서, 내부 헤어셀들에서 기저막의 기계적 발진들을 리셉터 포텐셜들(receptor potentials)로의 변환이 근사화된다. 다음 단계는 피드백 루프들(66)을 포함하여 청각 주변의 적응형 특성들을 설명한다.The next step is a haircell model that includes half-
그 후, 변조 또는 선형 필터뱅크(67)는 청각 시스템의 시간적 패턴 프로세싱을 설명한다. 변조 필터뱅크는 상이한 스케일링을 각각 갖는 2 세트들로 분할되는 총 y 필터들을 포함한다. 제 1 세트는 2.5 Hz의 대역폭을 갖는 필터를 포함하는데, 다음 필터들은 5 Hz의 일정 대역폭을 갖는 최대 10 Hz 까지 상승한다. 10 Hz 및 약 1000 Hz 사이의 주파수들에 대해서 제 2 세트는 비(ratio) Q=중심 주파수/대역폭=2는 일정하게 되는 대수적 스케일링을 가져 전체가 y 필터들이 되게 한다. The modulated or
Dau에서, 변조 필터뱅크(67)는 시간-도메인 변조 스펙트럼을 제공한다. 따라서, 이와 같은 변조 스펙트럼들의 x*y의 매트릭스는 각 입력 신호를 표시하도록 발생된다. 그 후, 내부 잡음(68)은 각 변조 스펙트럼 신호에 부가되어 청각 시스템의 제한된 성능 레졸루션(limited performance resolution)을 모델링한다.In Dau, the
각 입력 신호에 대해서, 각 매트릭스 표현(Rep 1, Rep 2)(70)은 두 가지 표현들 간의 차(D)를 결정하는 검출기(69)에 공급된다. 이 양은 미리 결정된 문턱값과 비교될 수 있어 신호들 간의 차가 가청인지의 여부를 나타낸다.For each input signal, each matrix representation (
따라서, Dau 내의 각 개별적인 매트릭스 셀은 시간 신호인데, 즉 각 청각 필터 및 각 다음 변조 필터에 대해서, 특정 테스트-신호(또는 왜곡)이 가청인지의 여부를 결정하기 위하여 I/P2로부터 발생되는 템플릿(template)과 비교되는 I/P1로부터 발생되는 시간 신호이다. Thus, each individual matrix cell in Dau is a time signal, i.e. for each auditory filter and each subsequent modulation filter, a template generated from I / P2 to determine whether a particular test-signal (or distortion) is audible ( time signal from I / P1 compared to the template).
따라서, 잡음 대체가 가청일 수 있는지의 여부를 결정하는 문제에 Dau를 직접 적용하면, 신호의 전체 시간적 구조는 결정 프로세스에서 사용된다. 따라서, 대체된 잡음 토큰의 모든 상세 사항은 예측된 왜곡을 초래할 수 있다. 실제로, 청취자들은 잡음 신호의 특정 상세사항들에 민감하지 않다. 다시 말해서, 대체될 수 있는 각 다른 잡음 토큰이 다른 내부 표현을 제공한다. 그러므로, 하나의 특정 대체된 잡음 토큰이 원래(수정되지 않은) 신호로 인해 내부 표현과 매우 유사한 내부 표현을 제공할 확률은 매우 적을 것이다.Thus, applying Dau directly to the problem of determining whether noise replacement can be audible, the entire temporal structure of the signal is used in the decision process. Thus, every detail of the replaced noise token can result in predicted distortion. Indeed, listeners are not sensitive to certain details of the noise signal. In other words, each different noise token that can be replaced provides a different internal representation. Therefore, it is very unlikely that one particular replaced noise token will provide an internal representation very similar to the internal representation due to the original (unmodified) signal.
다른 한편으로, 도 4는 바람직한 실시예의 분석기(52)가 기반으로 하는 수정된 사이코-어쿠스틱 모델의 주요 단계들을 도시한다. 우선, 간결성을 위하여, 도 3의 적응화 루프들(66) 및 잡음 가산기(68)가 사용되지 않는다는 것을 알 수 있을 것이다. 그러나, 이들 스테이지들 중 하나 또는 둘 모두가 원하는 경우 채용될 수 있다.On the other hand, Figure 4 shows the main steps of a modified psycho-acoustic model on which
그러나, Dau의 시간-기반으로 한 솔루션과 별개로, 도 4의 실시예는 헤어셀 모델에 의해 발생된 시간 도메인 신호들을 변환 유닛(FFT)(71)에 의해 각 주파수 도메인 표현들로 변환시킨다. 그 후, 변조 필터들(67′)은 스펙트럼 도메인(가중 함수)에서 적용되어 x 원래 신호들 각각에 대한 복수의 변조 스펙트럼들을 발생시킨다.However, apart from Dau's time-based solution, the embodiment of FIG. 4 converts the time domain signals generated by the hair cell model into respective frequency domain representations by a transform unit (FFT) 71. Modulation filters 67 'are then applied in the spectral domain (weighting function) to generate a plurality of modulation spectra for each of the x original signals.
더욱 상세하게, 변환 유닛(71)에 공급되는 x 시간 신호들 각각에 대해서, 입력 신호의 약 100 ms에 대응하는 구간 동안 전력 스펙트럼(Rfnr(f))이 계산된다. 전형적으로, 잡음 대체된 파트(제공된 경우)는 이 구간의 중간에 있다. 변조 스펙트럼(67′)으로 변환시키기 위하여, 가중 함수들(wmfnr , fnr(f))이 규정되는데, 여기서 'mfnr'은 가중 함수의 인덱스(또는 변조 필터 수)이고 'fnr'은 필터뱅크(62)로부터의 청각 필터 채널의 수이고 wmfnr,fnr(f)은 주파수의 함수이다. 저 주파수들에 대해서, 개개 필터들(67′)의 대역폭들은 작고 일정(예를 들어, 10 Hz 내지 50 Hz)하고 특정 주파수를 초과하면 이 필터들은 1 및 4 사이에서 바람직하게는 일정한 Q를 갖는다. 윈도우 함수의 형태는 예를 들면, 해닝 윈도우형(Hanning window shape) 또는 감마-톤 필터(gamma-tone filter)의 진폭 전달 함수일 수 있다. 바람직한 구현에서, 최소 필터 폭은 50 Hz이고, Q=2이다. 최저 주파수 가중 함수가 0 Hz에서 센터링되어 필터 셰이프(최대를 초과한 모든것)의 상부 1/2만을 커버한다는 것을 알 수 있을 것이다.More specifically, for each of the x time signals supplied to the
가중 함수들은 자승화되고 전력 스펙트럼들과 승산되어 평균기(70′)로 공급되는 내부 표현으로서 사용되는 일련의 수들(Pmfnr,fnr(f))을 발생시킨다. The weighting functions generate a series of numbers (P mfnr , fnr (f)) used as an internal representation that is sublimated and multiplied by the power spectra and fed to the averager 70 '.
이를 예시하기 위하여, 도 5 및 도 6은 필터뱅크(67′)에 대한 입력으로서 각각 제공되는 고조파 톤-컴플렉스 및 가우시안 잡음의 전력 스펙트럼(Rfnr(f))을 도시한다. 도 9(a) 및 도 9(b)는 도 5 및 도 6에 대응하는 입력(R25) 및 100 Hz의 기본 주파수를 갖는 고조파 톤 컴플렉스 및 잡음 입력 신호 각각을 위한 필터뱅크(67′)의 필터들(25, 18) 중 하나의 변조 스펙트럼 출력(P25, 18)을 도시한다. 두 개의 입력 신호들은 동일한 스펙트럼 밀도 및 총 레벨로 이루어진다. 그러나, 필터(P25,18(f))가 이 잡음 신호에 대한 것보다 고조파 톤 컴플렉스에 대해 더 높은 평균 출력 레벨을 갖는다는 것이 명백하다. 따라서, 합산된 값들(M25, 18)은 상이하게 될 것이다. 잡음 신호에 대해서, M은 0.0054인 반면에, 고조파 톤 컴플렉스에 대해서, M은 2개의 차의 팩터에 근사하게, 0.0093이다. 값들(M)의 매트릭스가 잡음 및 고조파 톤 컴플렉스 신호들에 대해서 상당히 다른 표현을 제공하고, 이것이 이 모델을 사용하여 잡음 신호들을 분류 가능하다는 것을 보여준다.To illustrate this, FIGS. 5 and 6 show the power spectra R fnr (f) of harmonic tone-complex and Gaussian noise, respectively, provided as inputs to the
도 4의 모델에서, 각 변조 스펙트럼을 위한 전력들(Pmfnr,fnr(f))은 합산되어(70′) 매트릭스(M)에서 각 셀을 위한 값을 생성한다. 이 방식으로, 어떤 시간(9 프레임들)에 걸쳐서 평균화된 각 변조 필터 내의 활동도(M(fnr, mfnr))가 결정된다. 이 평균은 상술된 Dau 모델을 사용하는 문제를 피하게 하는 잡음 신호의 특정 상세 사항들에 민감하지 않다. 그 후, 한 신호를 위한 각 필터에 대한 활동도는 신호들 간의 차의 인지 측정값(D)을 제공하기 위하여 병렬로 처리되는 또 다른 신호에 대한 대응하는 활동도(M′)와 비교될 수 있다:In the model of FIG. 4, the powers P mfnr , fnr (f) for each modulation spectrum are summed (70 ′) to produce a value for each cell in the matrix M. In this way, the activity M (fnr, mfnr) in each modulation filter averaged over a certain time (9 frames) is determined. This average is not sensitive to the specific details of the noise signal, which avoids the problem of using the Dau model described above. The activity for each filter for one signal can then be compared with the corresponding activity M 'for another signal processed in parallel to provide a cognitive measure D of the difference between the signals. have:
그 후, 값 D는 잡음 대체가 허용되는지를 결정하기 위한 기준과 비교될 수 있다. 이 기준은 주파수 종속될 수 있다는 점에 유의하여야 한다. 예를 들어, 저 주파수들에 대해서, 이 기준은 청각 필터들의 대역폭보다 낮고 비례할 수 있고, 고 주파수들에 대해서 이 기준은 일정할 수 있다.The value D can then be compared to a criterion for determining whether noise replacement is allowed. It should be noted that this criterion may be frequency dependent. For example, for low frequencies, this criterion may be lower and proportional to the bandwidth of auditory filters, and for high frequencies this criterion may be constant.
또한, 도 2의 선택 요소(16′) 또는 분석기(52)는 멀티플렉서(MUX)에게 잡음 모델을 스위칭하도록 명령하기 전 연속한 수보다 많은 구간들을 위한 임계 수보다 많은 인접 주파수 대역들이 잡음을 가지고 모델링될 수 있을 필요가 있는데, 그 이유는 이들 문턱값들이 초과될 때에만 비트레이트의 필요로 되는 세이빙이 잡음 모델로 스와핑함으로써 행해지기 때문이다.In addition, the
실험들에서, 상술된 실시예는 고정 오디오의 다수의 짧은(300 ms) 세그먼트들에 대해서 테스트된다. 대체되는 대역폭의 50% 내지 80%로 인해, 모노 오디오를 위한 96 kbit/sec의 비트레이트에서 MPEG 1 계층 III의 오디오 품질에 필적할 수 있는 오디오 품질이 얻어질 수 있다는 것이 밝혀졌다. In experiments, the embodiment described above is tested for multiple short (300 ms) segments of fixed audio. Due to the 50% to 80% of the bandwidth replaced, it has been found that audio quality comparable to the audio quality of
본 발명의 제 1 실시예에서, 잡음은 반복적으로 대체되고 테스트된다. 각 테스트에 대해서, 원래 신호의 모델 출력은 수정된 신호의 모델 출력, 즉 대체된 잡음과 비교된다. 이 비교에 기초하여, 잡음이 대체되는지 여부에 대한 결정이 행해진다. 그러나, 이 방법은 계산 집중적이라는 것을 알 수 있을 것이다.In the first embodiment of the invention, the noise is repeatedly replaced and tested. For each test, the model output of the original signal is compared with the model output of the modified signal, i.e. the replaced noise. Based on this comparison, a determination is made as to whether noise is to be replaced. However, it will be appreciated that this method is computationally intensive.
대안적인 방법은 잡음 대체를 위한 양호한 후보 스펙트럼-시간적 구간들, 예를 들어 저 에너지 레벨들을 갖는 구간들이라고 의심받는 특정 청각 필터들(62, 67′) 및 특정 시간 구간들에 대한 직접 결정을 행한다는 것이다.An alternative method makes direct decisions on certain
이 경우에, 한 입력 신호, 즉 I/P2는 합성 잡음 신호를 포함한다. 그 후, 이 신호를 위한 모델 출력(Rep 2)은 원래 신호를 위한 모델 출력(Rep 1)과 직접 비교된다. 주어진 스펙트럼-시간적 구간에 대해서, Rep 2는 미리 계산되어 이 방법의 계산 집중도를 감소시킨다는 것을 알 수 있다.In this case, one input signal, i.e., I / P2, comprises a composite noise signal. The
Rep 1 및 Rep 2 간의 차가 특정 기준보다 작을 때, 잡음은 이 구간에서 명백하게 입력 오디오 신호가 잡음 신호(인지도 면에서) 매우 유사하기 때문에 특정 스펙트럼-시간적 구간내에서 대체될 수 있다라고 추정할 수 있다. When the difference between
제 1 실시예에서, 마스킹은 본래 결정 프로세스에 고려된다는 것을 알 수 있을 것이다. 이는 어떤 스펙트럼-시간적 구간이 마스킹될 때 어떤 문제도 없이 잡음으로 대체될 수 있기 때문에 유용하다. 대안적인 구현에서, 어떤 스펙트럼-시간적 구간의 수정이 모델 출력에 어떻게 영향을 미치는지를 바로 알 수 없다. 이를 행할 수 있도록 하기 위하여, 잡음 대체를 위한 후보 스펙트럼-시간적 구간이 다른 신호 성분들에 의해 마스킹되는 정도를 고려하는 것이 유용하다. 이는 스펙트럼-시간적 구간의 대체 검출성(detectability)(det), 즉 다른 성분들에 의해 마스킹되는 정도를 레이팅(rating)함으로써 고려될 수 있다. 또한, 예를 들어, 고 전력 신 호 내의 저 에너지 구간은 저 검출성 레이팅을 갖는다. 검출성(det)과 후보 구간 동안 얻어진 차의 측정값(D)의 곱은 잡음이 대체될 수 있는지 여부에 대한 양호한 표시자라고 추정된다.In the first embodiment, it will be appreciated that masking is originally considered in the decision process. This is useful because any spectral-temporal interval can be replaced by noise without any problem when masked. In alternative implementations, it is not immediately apparent how certain spectral-temporal interval modifications affect the model output. In order to be able to do this, it is useful to consider the extent to which candidate spectral-temporal intervals for noise replacement are masked by other signal components. This can be considered by rating the alternative detectability (det) of the spectral-temporal interval, ie the degree of masking by other components. Also, for example, low energy sections in high power signals have low detectable ratings. The product of the detectability det and the measured value D of the difference obtained during the candidate interval is assumed to be a good indicator of whether noise can be replaced.
이 방법은 제 1 실시예의 방법보다 훨씬 고속인데, 그 이유는 확장적인 계산 복잡성 없이 성취될 수 있는, 모델에 의한 원래 입력 신호의 단일 패스(대신 많은)에다가 마스킹 특성들의 편차들만을 필요로 하기 때문이다.This method is much faster than the method of the first embodiment because it requires only deviations of the masking characteristics in a single pass (instead of many) of the original input signal by the model, which can be achieved without extensive computational complexity. to be.
본 발명이 MPEG 부호기에 적용될 수 있을 뿐만 아니라 잡음 및 어떤 다른 수단에 의해 신호를 파라메틱적으로 부호화하는 임의의 부호기에 적용될 수 있다. 여기서, 도 7을 참조하면, 본 발명의 제 2 실시예에서, 개선된 선택 요소(16″)는 파라메트릭 오디오 부호기(80) 내에서 채용되어 잡음 및 비잡음 스펙트럼-시간적 구간들 간의 판별을 향상시킨다. 이와 같은 파라메트릭 부호기의 예는 오디오 신호들의 사인곡선 디스크립션인데, 이는 2002년 7월 8일에 출원된 유럽 특허 출원 02077727.2(대리인 번호 PHNL020598)에 서술된 각종 토널 신호들에 매우 적합하다. 부호기 내에서, 사인곡선 분석기(82)는 입력 신호(x(t))의 순차적인 세그먼트들을 주파수 도메인으로 변환시키는데, 그 후, 각 세그먼트 또는 프레임은 진폭, 주파수 및 가능한 위상 파라미터들(Cs)로 표현되는 다수의 사인곡선들을 사용하여 모델링된다. 신호의 합성된 사인곡선의 성분들이 입력 신호로부터 제거될 때, 나머지 신호는 잡음을 포함하는 것으로 추정될 수 있고, 이는 잡음 분석기(84)에서 모델링되어 잡음 코드들(CN)을 발생시킨다. 그 후, 각 사인곡선 코드들 및 잡음 코드들(CS, CN)은 비트스트림(AS)에서 부호화된다. 코딩될 수 있는 신호의 다른 성분들은 과도 및 고조파 컴플렉스들을 포함하지만, 이들은 간결성을 위하여 본원에선 설명하지 않았다.The invention can be applied not only to the MPEG encoder but also to any encoder which parametrically encodes the signal by noise and some other means. 7, in the second embodiment of the present invention, an
본 발명은 다음과 같은 부호기로 구현된다. 원래 입력 신호x(t)는 우선 디폴트에 의해 코딩되어 잡음 및 사인곡선 코드들(CS(1), CN (1))의 조합을 제공하고, 이들 코딩된 세그먼트들은 도 2의 요소(16′)에 대응하는 선택 요소(16″)의 입력 I/P1(0)로서 제공된다.The present invention is implemented with the following encoder. The original input signal x (t) is first coded by default to provide a combination of noise and sinusoidal codes C S (1) , C N (1) , these coded segments being the
그 후, 주어진 세그먼트(n)에서 복수의 주파수 대역들(i) 각각에 대해서, 사인곡선 분석기(82)는 주파수 대역 내에서 사인곡선 성분들을 부호화하지 않음으로, (더욱 큰) 나머지 신호는 잡음 분석기(84)에 의해 부호화된다. 그 후, 생성된 후보 잡음 및 사인곡선 코드들(CS(i), CN (i)) 각각은 선택 요소(16″)의 I/P2(i)에 제공된다. 이 결과의 왜곡(D)을 기반으로, 후보 코드들(CS(i), CN (i))의 세트가 비트레이트와 관련하여 가장 효율적인 결정을 행할 수 있고 미리 결정된 문턱값을 초과하는 왜곡을 갖지 않게 된다. Then, for each of the plurality of frequency bands i in a given segment n, the
여기서, 도 8을 참조하면, 제 1 실시예에서와 같이, 각 입력 I/P1 및 I/P2(i)에 대해서, 복수의 세그먼트들(s1, s2) 및 s′1(i), s′2(i)에 대한 코드들은 유닛들(42′) 내의 각 해닝 윈도우 함수들을 사용하여 합성되어 결합되어 인지 분석기(52)로의 입력들로서 구간 t(n) 동안 시간 윈도우잉된 신호들을 제공하는데, 이 인지 분석기는 제 1 실시예와 관련하여 서술된 바와 같이 동작한다. 그러므로, 이 분석기(52)는 단지 잡음(I/P2(i))와 비교하여 사인곡선들 및 잡음(I/P1)의 조합으로 주어진 세그먼트 내의 주어진 대역의 모델링이 가청일지의 여부에 대한 결정을 제공한다. 그 후, 이는 멀티플렉서(15′)에 남게 되어 어느 코드들(1...i)의 세트들이 세그먼트들(...s1, s2...)에 걸쳐서 채용되는지를 결정하여 신호x(t)를 부호화하기 위한 최적의 비트 레이트를 제공한다.Referring to FIG. 8, as in the first embodiment, for each of the inputs I / P1 and I / P2 (i), a plurality of segments s1, s2 and s'1 (i), s' The codes for 2 (i) are synthesized and combined using the respective Hanning window functions in units 42 'to provide time windowed signals during interval t (n) as inputs to
제 1 실시예에서와 같이, 입력 신호의 잡음 대체된 버전에 대한 각 구간을 반복적으로 테스트하는 것이 아니라, 입력 신호의 후보 스펙트럼-시간적 구간이 단지 동일한 구간 동안 잡음 신호에 대해서 사전 계산된 표현에 대해서 비교되어 후보 구간이 잡음이 있는지 여부를 결정한다.As in the first embodiment, rather than repeatedly testing each interval for a noise-substituted version of the input signal, for a precomputed representation of the noise signal while the candidate spectral-temporal interval of the input signal is only the same interval. The comparison is made to determine whether the candidate interval is noisy.
어느 경우든, 이는 파라메트릭 부호기에 대해서, 잡음 분류된 구간들이 비트레이트에서 가능한 세이빙들 및 가능한 품질 개선된 채 고조파 컴플렉스들 또는 과도들(transients)과 같은 다른 성분들 또는 사인곡선들로 표현될 필요가 없는데, 그 이유는 잡음 구간이 특히 사인곡선들로 표현되지 않을 것이기 때문이다.In either case, this requires that for a parametric coder, the noise classified intervals must be represented by sinusoids or other components, such as harmonic complexes or transients, with possible savings and possible quality improvements in the bitrate. This is because the noise interval will not be represented in particular sinusoids.
특히 이 제 2 실시예를 사용하면, 잡음으로 대체되는 오디오 신호의 특정된 스펙트럼-시간적 구간들은 종래 모델링된 오디오 신호의 에너지와 동일한 에너지를 갖는다라는 것을 알 수 있을 것이다.In particular using this second embodiment, it will be appreciated that the specified spectral-temporal sections of the audio signal replaced by noise have the same energy as that of the conventionally modeled audio signal.
두 가지 실시예들과 관련하여 상술된 바와 같이, 잡음 대체 작업을 양호하게 하기 위해선, 우선 더욱 긴 시간적 구간에 걸쳐서 잡음을 대체하여 대체가 허용되는지의 여부를 결정하는 것이 중요하다는 것이 밝혀졌다. 이 후, 실제 최종 대체는 훨씬 작은 구간 동안에만 행해진다. 본 발명이 이와 같이 구현될 수 있지만, 일반적으로, 잡음이 나중 최종 대체를 위하여 사용될 테스트 구간에서만 분류되는 경우, 오히려 신뢰할 수 없는 분류들이 초래된다는 것이 밝혀졌다. As discussed above in connection with the two embodiments, in order to improve the noise replacement operation, it has been found that it is important to first determine whether replacement is allowed by replacing noise over a longer period of time. After this, the actual final replacement is only done for a much smaller interval. Although the present invention can be implemented as such, it has generally been found that if noise is classified only in the test interval to be used for later final replacement, rather unreliable classifications result.
그러나, 긴 시간적 테스트 구간들을 사용하는 것은 문제가 있는 것으로 입증된 경우, 분류를 위하여 이와 같은 긴 구간을 취하는 대신에, 넓은 스펙트럼 구간(짧은 지속기간을 가짐)이 또한 사용될 수 있는데, 최종 대체는 단지 더욱 좁은 스펙트럼 구간에서만 행해진다. However, if using long temporal test intervals has proved problematic, instead of taking such long intervals for classification, a broad spectral interval (with a short duration) can also be used, with the final replacement being only Only in narrower spectral intervals.
Claims (15)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020057022576A KR20060059882A (en) | 2005-11-25 | 2003-05-27 | Audio coding |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020057022576A KR20060059882A (en) | 2005-11-25 | 2003-05-27 | Audio coding |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20060059882A true KR20060059882A (en) | 2006-06-02 |
Family
ID=37156927
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020057022576A KR20060059882A (en) | 2005-11-25 | 2003-05-27 | Audio coding |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20060059882A (en) |
-
2003
- 2003-05-27 KR KR1020057022576A patent/KR20060059882A/en not_active Application Discontinuation
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5551694B2 (en) | Apparatus and method for calculating multiple spectral envelopes | |
KR100949232B1 (en) | Encoding device, decoding device and methods thereof | |
KR100962681B1 (en) | Classification of audio signals | |
JP4740260B2 (en) | Method and apparatus for artificially expanding the bandwidth of an audio signal | |
RU2420817C2 (en) | Systems, methods and device for limiting amplification coefficient | |
RU2485606C2 (en) | Low bitrate audio encoding/decoding scheme using cascaded switches | |
JP3840684B2 (en) | Pitch extraction apparatus and pitch extraction method | |
EP1631954B1 (en) | Audio coding | |
KR20130107257A (en) | Method and apparatus for encoding and decoding high frequency for bandwidth extension | |
CN104123946A (en) | Systemand method for including identifier with packet associated with speech signal | |
JP2009524100A (en) | Encoding / decoding apparatus and method | |
KR20070070174A (en) | Scalable encoder, scalable decoder, and scalable encoding method | |
WO2010127616A1 (en) | System and method for frequency domain audio post-processing based on perceptual masking | |
CA2412449C (en) | Improved speech model and analysis, synthesis, and quantization methods | |
JP4040126B2 (en) | Speech decoding method and apparatus | |
US11335355B2 (en) | Estimating noise of an audio signal in the log2-domain | |
WO2014131260A1 (en) | System and method for post excitation enhancement for low bit rate speech coding | |
JP4359949B2 (en) | Signal encoding apparatus and method, and signal decoding apparatus and method | |
JP4281131B2 (en) | Signal encoding apparatus and method, and signal decoding apparatus and method | |
KR20060059882A (en) | Audio coding | |
JP4354561B2 (en) | Audio signal encoding apparatus and decoding apparatus | |
Villemoes et al. | Speech coding with transform domain prediction | |
JP4618823B2 (en) | Signal encoding apparatus and method | |
Yu et al. | Harmonic+ noise coding using improved V/UV mixing and efficient spectral quantization | |
Ma et al. | 400bps High-Quality Speech Coding Algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E601 | Decision to refuse application |