KR101516468B1

KR101516468B1 - 샘플링된 오디오 신호의 프레임들을 인코딩 및 디코딩하기 위한 오디오 인코더 및 디코더

Info

Publication number: KR101516468B1
Application number: KR1020117000767A
Authority: KR
Inventors: 랄프 가이거; 베른하르트 그릴; 브루노 베세트; 필립 구루네; 구일라우메 후쉬; 마르쿠스 물트루스; 막스 누엔도르프; 제랄드 슐러
Original assignee: 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date: 2008-07-11
Filing date: 2009-06-04
Publication date: 2015-05-04
Also published as: AU2009267555A1; CN102089758A; CA2730195C; EP2144171B1; CA2730195A1; KR20110043592A; BRPI0910527A2; BRPI0910527B1; EP2144171A1; JP5551692B2; RU2507572C2; RU2011102422A; ES2683077T3; JP2011527444A; WO2010003491A1; CN102089758B

Abstract

오디오 인코더(10)는 인코딩된 프레임들을 획득하기 위해 샘플링된 오디오 신호의 많은 시간 도메인 오디오 샘플들을 포함하는 프레임들을 인코딩하도록 적응된다. 오디오 인코더(10)는 오디오 샘플들의 프레임에 기반하여 예측 도메인 프레임 및 합성 필터의 계수들에 관한 정보를 결정하는 예측 코딩 분석 스테이지(12)를 포함한다. 오디오 인코더(10)는 예측 도메인 프레임 스펙트럼들을 획득하기 위해 오버래핑 예측 도메인 프레임들을 주파수 도메인으로 변환하도록 하고, 임계-샘플링된 방법으로 오버래핑 예측 도메인 프레임들을 변환하도록 적응된 시간-에일리어싱 도입 변환기(14)를 더 포함한다. 게다가, 오디오 인코더(10)는 인코딩된 예측 도메인 프레임 스펙트럼들 및 계수들에 기반하여 인코딩된 프레임들을 획득하기 위해 예측 도메인 프레임 스펙트럼들을 인코딩하는 중복성 감소 인코더(16)를 포함한다.

Description

샘플링된 오디오 신호의 프레임들을 인코딩 및 디코딩하기 위한 오디오 인코더 및 디코더{Audio Encoder and Decoder for Encoding and Decoding Frames of a Sampled Audio Signal}

본 발명은 오디오 신호가 다른 코딩 알고리즘들을 갖는 두 개의 다른 오디오 코더들(coders)에 의해 처리되는 소스 코딩 및 특히 오디오 소스 코딩과 관련된다.

낮은 비트율(bitrate) 오디오 및 음(speech) 코딩 기술의 맥락에서, 몇몇의 다른 코딩 기술들은 주어진 비트율에서 최고의 가능한 주관적 품질(quality)을 갖는 그러한 신호들의 낮은 비트율 코딩을 성취하기 위해서 전통적으로 채용된다. 일반적인 음악/소리 신호들에 대한 코더들(Coders)은 지각적 모델(perceptual model)("지각적 오디오 코딩")의 수단으로 입력 신호로부터 추정된 마스킹 문턱 곡선(masking threshold curve)에 따라 양자화 에러(quantization error)의 스펙트럼의(및 시간의) 모양(shape)을 형성함으로써 주관적 품질(subjective quality)을 최적화하는 것을 목적한다. 바꾸어 말하면, 매우 낮은 비트율들에서 음(speech)의 코딩은 예를 들어, 잔차 여기 신호(residual excitation signal)의 효율적인 코딩과 함께 인간 성도(vocal tract)의 공명(resonant) 효과들을 모델링하기 위해 선형 예측된 코딩(Linear Predictive Coding (LPC))을 채택한 인간 음의 생산 모델에 기반하여 코딩할 때 매우 효율적으로 작업하는 것을 보여줘 왔다.

이러한 두 개의 다른 접근법들의 결과(consequence)로서, MPEG-1 Layer 3 (MPEG = Moving Pictures Expert Group) 또는 MPEG-2/4 Advanced Audio Coding (AAC)과 같은 일반적인 오디오 코더들은 음 소스 모델의 개척(exploitation)의 결핍 때문에 LPC-기반 음 코더들 전용으로 매우 낮은 데이터율들에서 음 신호들에 대해서는 일반적으로 수행할 수 없다. 역으로, LPC-기반 음 코더들은 마스킹 문턱 곡선(masking threshold curve)에 따라 코딩 왜곡(coding distortion)의 스펙트럼의 포락선(envelope)을 유연하게 형성하기 위한 LPC-기반 음 코더들의 무능(inability) 때문에 일반적인 음악 신호들에 적용될 때 일반적으로 설득력있는 결과들은 성취할 수 없다. 이하에서, 하나의 프레임워크(framework)로 지각에 의한(perceptual) 오디오 코딩 및 LPC-기반 코딩 모두의 이점을 결합한 개념들이 설명되고 그래서 통합된 오디오 코딩(unified audio coding)은 일반적인 오디오 및 음 신호들 모두에 대하여 효율적이다.

전통적으로, 지각적 오디오 코더들은 오디오 신호들을 효율적으로 코딩하고 마스킹 곡선(masking curve)의 추정에 따라 양자화 왜곡을 효율적으로 형성하기 위해서 필터뱅크-기반 접근법(filterbank-based approach)을 사용한다.

도 16은 단선율의(monophonic) 지각적(perceptual) 코딩 시스템의 기본적인 블록 다이어그램을 보여준다. 분석 필터뱅크(1600)는 시간 도메인 샘플들을 서브샘플링된(subsampled) 스펙트럼의 컴포넌트들(components)로 맵핑하기 위해 사용된다. 스펙트럼의 컴포넌트들의 수에 따라, 시스템은 서브밴드 코더(서브밴드들의 작은 수, 예를 들어 32) 또는 변환 코더(주파수 선들의 큰 수, 예를 들어 512)로 또한 언급된다. 지각적 ("음향 심리학의") 모델(1602)은 실제의 시간 의존의 마스킹 문턱(actual time dependent masking threshold)을 추정하기 위해 사용된다. 스펙트럼의("서브밴드" 또는 "주파수 도메인") 컴포넌트들은 양자화 잡음(quantiza-tion noise)이 실제 전송된 신호 아래에 감춰지고, 디코딩 후에 지각할 수 없는 그러한 방법으로 양자화되고 코딩(1604)된다. 이는 주파수 및 시간에 대한 스펙트럼의 값들의 양자화의 입도(granularity)를 다양화함으로써 성취될 수 있다.

양자화(quantized) 및 엔트로피-인코딩된(entropy-encoded) 스펙트럼의 계수들(coefficients) 또는 서브밴드(subband) 값들은, 사이드 정보(side information)와 더불어, 저장되거나 전송되기 위해 적당한 인코딩된 오디오 신호를 제공하는 비트스트림 포맷터(bitstream formatter)(1606)로 입력된다. 블록(1606)의 출력 비트스트림은 인터넷을 통해 전송될 수 있고 또는 어떤 기계 판독가능한 데이터 매체(machine readable data carrier)에 저장될 수 있다.

디코더-측면(decoder-side)에서, 디코더 입력 인터페이스(decoder input interface)(1610)는 인코딩된 비트스트림을 받는다. 블록(1610)은 사이드 정보(side information)로부터 엔트로피-인코딩(entropy-encoded) 및 양자화된 스펙트럴/서브밴드 값들(quantized spectral/subband values)을 분리한다. 인코딩된 스펙트럼의 값들은 호프만 디코더(Huffman decoder)와 같은 1610 및 1620 사이에 위치된 엔트로피-디코더(entropy-decoder)로 입력된다. 이 엔트로피 디코더의 출력들은 스펙트럼의 값들로 양자화된다. 이들 양자화된 스펙트럼의 값들은 도 16에서 1620으로 표시된 "역(inverse)" 양자화(quantization)를 수행하는 재양자화기(requantizer)로 입력된다. 블록(1620)의 출력은 주파수/시간 변환 및, 전형적으로 오버랩(overlap) 및 추가(add)와 같은 시간 도메인 에일리어싱 소거 연산(time domain aliasing cancellation) 및/또는 출력 오디오 신호를 최종적으로 획득하기 위하여 합성-측면 윈도우잉 연산(synthesis-side windowing operation)을 포함하는 합성 필터링(synthesis filtering)을 수행하는 합성 필터뱅크(1622)로 입력된다.

전통적으로, 효율적인 음 코딩은 잔차 여기 신호(residual excitation signal)의 효율적인 코딩과 함께 인간 성도(vocal tract)의 공명(resonant) 효과들을 모델링하기 위한 선형 예측된 코딩(Linear Predictive Coding (LPC))에 기반된다. LPC 및 여기 파라미터들(excitation parameters) 모두 인코더로부터 디코더로 전송된다. 이 원리는 도 17a 및 17b에 설명된다.

도 17a는 선형 예측 코딩(linear predictive coding)에 기반하여 인코딩/디코딩 시스템의 인코더-측면을 표시한다. 음(speech) 입력은 LPC 필터 계수들(coefficients)을 출력으로 제공하는 LPC 분석기(analyzer)(1701)로 입력된다. 이들 LPC 필터 계수들에 기반하여, LPC 필터(1703)는 조정된다. LPC 필터는 또한 "예측 에러 신호(prediction error signal)"라고 하는 스펙트럼 백색화된 오디오 신호(spectrally whitened audio signal)를 출력한다. 이 스펙트럼으로 백색된 오디오 신호(spectrally whitened audio signal)는 여기 파라미터들(excitation parameters)을 생성하는 잔차/여기 코더(residual/excitation coder)(1705)로 입력된다. 그러므로, 음 입력은 한편으로는 여기 파라미터들로 인코딩되고, 다른 한편으로는 LPC 계수들로 인코딩된다.

도 17b에서 설명된 디코더-측면에서, 여기 파라미터들(excitation parameters)은 LPC 합성 필터로 입력될 수 있는, 여기 신호를 생성하는, 여기 디코더(1707)로 입력된다. LPC 합성 필터는 전송된 LPC 필터 계수들을 사용하여 조정된다. 그러므로, LPC 합성 필터(1709)는 복원(reconstructed) 또는 합성된(synthesized) 음 출력 신호를 생성한다.

시간이 지나면서, 다중-펄스 여기(Multi-Pulse Excitation (MPE)), 정규 펄스 여기(Regular Pulse Excitation (RPE)) 및 코드-여기된 선형 예측(Code-Excited Linear Prediction (CELP))과 같은 잔차 (여기) 신호(residual (excitation) signal)의 지각적으로 설득력있는 표현 및 효율성에 관하여 많은 방법들이 제안되었다.

선형 예측 코딩(Linear Predictive Coding)은 과거 관찰들(past observations)의 선형 조합(linear combination)으로서 과거 값들의 특정한 번호의 관찰에 기반한 시퀀스(sequence)의 현재 샘플 값의 추정을 산출하기 위해 시도한다. 입력 신호 내의 중복성(redundancy)을 감소시키기 위해서, 인코더 LPC 필터는 자신의 스펙트럼의 포락선내 입력 신호를 "백색화한다(whitens)"즉, 이는 신호의 스펙트럼의 포락선(envelope)의 역(inverse)의 모델이다. 역으로, 디코더 LPC 합성 필터는 신호의 스펙트럼의 포락선의 모델이다. 구체적으로, 잘-알려진(well-known) 자기-회기(auto-regressive) (AR) 선형 예측 분석(linear predictive analysis)은 모든-폴 근사화(all-pole approximation)의 수단으로 신호의 스펙트럼의 포락선을 모델링하는 것으로 알려져 있다.

전형적으로, 협 대역 음 코더들(narrow band speech coders)(즉, 8kHz의 샘플링율(sampling rate)을 갖는 음 코더들)은 8과 12 사이의 차수(order)를 갖는 LPC 필터를 채용한다. LPC 필터의 특징(nature) 때문에, 균일한 주파수 해상도(uniform frequency resolution)는 전체 주파수 범위에 걸쳐 효율적이다. 이는 지각적 주파수 스케일과 일치하지 않는다.

전통적인 LPC/CELP-기반 코딩(음 신호들에 대한 최상의 품질) 및 전통적인 필터뱅크-기반의 지각적 오디오 코딩 접근법(filterbank-based perceptual audio coding approach)(음악에 대하여 최상)의 장점들을 결합하기 위하여, 이들 구성들 간의 결합된 코딩이 제안된다. B. Bessette, R. Lefebvre, R. Salami, "UNIVERSAL SPEECH/AUDIO CODING USING HYBRID ACELP/TCX TECHNIQUES," Proc. IEEE ICASSP 2005, pp. 301 - 304, 2005의 AMR-WB+ (AMR-WB = 적응적 다중-율 광대역(Adaptive Multi-Rate WideBand)) 코더에서 두 교대의(alternate) 코딩 커널들(coding kernels)은 LPC 잔차 신호(residual signal)로 동작한다. 하나는 음 신호들의 코딩에 대한 매우 효율적인 ACELP(ACELP = 대수 코드 여기 선형 예측(Algebraic Code Excited Linear Prediction))에 기반된다. 다른 하나의 코딩 커널(coding kernel)은, 음악 신호들에 대한 좋은 품질을 성취하기 위해서 전통적인 오디오 코딩 기술들을 닮은 필터뱅크 기반 코딩 접근법인 TCX(TCX = 변환 코드 여기(Transform Coded Excitation))에 기반한다. 입력 신호들의 특성들에 따라, 두 개의 코딩 모드들 중의 하나는 LPC 잔차 신호를 전송하기 위해 시간의 단 주기(short period)에 대하여 선택된다. 이러한 방법으로, 80ms 폭(duration)의 프레임들은 두 코딩 모드들 간의 결정이 만들어지는 40ms 또는 20ms의 서브프레임들로 나누어질 수 있다.

3GPP (3GPP = 제3 세대 파트너십 프로젝트(Third Generation Partnership Project)) 기술 사양서(technical specification) 26.290 (number 26.290), 버전6.3.0(version 6.3.0), 2005년 6월(June 2005)을 참조하면, AMR-WB+ (AMR-WB+ = 광범위한 적응적 다중-율 광대역 코덱(extended Adaptive Multi-Rate WideBand codec))는 두 개의 본질적으로 다른 모드들 ACELP 및 TCX 사이에서 스위칭될 수 있다. ACELP 모드에서 시간 도메인 신호는 대수 코드 여기(algebraic code excitation)에 의해 코딩된다. TCX 모드에서 고속 푸리에 변환(FFT = fast Fourier transform)이 사용되고 LPC 가중된 신호(weighted signal)(디코더에서 여기 신호로부터 유래된)의 스펙트럼의 값들은 벡터 양자화(vector quantization)에 기반하여 코딩된다.

사용할 모드의 결정은 두 옵션들(options)을 시도하고 디코딩하고 또한 그 결과인 신호 대 잡음 비율들(SNR = Signal-to-Noise　Ratio)을 비교함으로써 얻어질 수 있다.

이 경우는 코딩 성능(performances) 및/또는 효율성(efficiencies) 모두를 각각 평가하고, 그 다음에 다른 하나는 버려짐으로써 더 좋은 SNR을 갖는 하나를 선택하는 폐 제어 루프(closed control loop)가 있으므로 폐 루프 결정(closed loop decision)으로 불린다.

오디오 및 음 코딩(speech coding) 애플리케이션들에 대한 윈도우잉(windowing) 없는 블록 변환(block transform)이 실현 불가능하다는 것은 잘 알려져 있다. 그러므로, TCX 모드에 대한 신호는 1/8의 오버랩을 갖는 낮은 오버랩 윈도우로 윈도우잉된다. 이 오버랩핑 영역(overlapping region)은 예를 들어, 연속적인 오디오 프레임들에서 비상관 양자화 잡음(uncorrelated quantization noise) 때문에 가공물들(artifacts)을 억제하기 위한 이전의 블록 또는 프레임을 페이드-아웃(fade-out)하고 반면에 다음 것은 페이드-인(fading-in)하기 위해서 필연적이다. 이 방법 오버헤드(overhead)는 비-임계 샘플링(non-critical sampling)에 비해서 상당히 낮게 유지될 수 있고, 폐-루프 결정(closed-loop decision)을 위해 필요한 디코딩은 현재 프레임의 샘플들의 적어도 7/8^th을 복원한다.

AMR-WB+는 TCX 모드에서 1/8의 오버헤드를 도입하며, 예를 들어 코딩될 스펙트럼의 값들의 수는 입력 샘플들의 수보다 1/8^th 더 높다. 이는 증가된 데이터 오버헤드의 단점을 제공한다. 게다가, 상응하는 대역 통과 필터들(band pass filters)의 주파수 응답은 연속하는 프레임들의 1/8^th의 가파른 오버랩 영역 때문에 불리하다.

코드 오버헤드 및 연속적인 프레임들의 오버랩에 대해서 더 자세히 설명하기 위해서, 도 18은 윈도우 파라미터들(window parameters)의 정의를 보여준다. 도 18에서 보여주는 윈도우는 좌측면에 "L"로 표시되고 또한 좌측 오버랩 영역(left overlap region)으로 불리는 상승 에지 부분(rising edge part)과, "1"로 표시되고, 또한 1의 영역 또는 바이패스 부분(bypass part)으로 불리는 중심 영역 및 "R"로 표시되고 또한 우측 오버랩 영역(right overlap region)으로 불리는 하강 에지 부분(falling edge part)을 갖는다. 게다가, 도 18은 프레임 내의 완전한 복원의 영역 "PR"을 나타내는 화살표를 보여준다. 게다가, 도 18은 "T"로 표시되는 변환 코드의 길이를 나타내는 화살표를 보여준다.

도 19는 AMR-WB+ 윈도우들의 시퀀스(sequence)의 뷰 그래프 및 도 18에 따른 윈도우 파라미터의 테이블을 하단에 보여준다. 도 19의 상단의 윈도우 시퀀스는 ACELP, TCX20 (20ms 폭의 프레임에 대해서), TCX20, TCX40 (40ms 폭의 프레임에 대해서), TCX80 (80ms 폭의 프레임에 대해서), TCX20, TCX20, ACELP, ACELP 이다.

윈도우들의 시퀀스로부터, 변화하는 오버랩핑 영역들이 보여지며, 이들은 중심 영역 M의 1/8^th 만큼씩 정확히 오버랩된다. 도 19의 아래의 테이블은 변환 길이 "T"가 새롭게 완전히 복원된 샘플들의 영역 "PR"보다 항상 1/8 만큼 더 크다는 것을 또한 보여준다. 게다가, ACELP에서 TCX로 변화들에 대한 경우뿐만 아니라 TCXx에서 TCXx(여기서 "x"는 임의의 길이의 TCX 프레임들을 나타낸다)로 변화들에 대한 경우도 있음을 주의하라. 그러므로, 1/8^th의 오버헤드가 도입되어, 즉 각 블록에 임계 샘플링(critical sampling)은 결코 성취되지 않는다.

TCX로부터 ACELP로 스위칭될 때, 윈도우 샘플들은 도 19의 상단에 1900으로 표시된 영역에 표시된 예시처럼, 오버래핑 영역내의 FFT-TCX 프레임으로부터 제거된다. ACELP로부터 TCX로 스위칭될 때, 도 19의 상단에 점선(1910)으로 또한 표시된 윈도우잉된(windowed) 제로-입력 응답(ZIR = zero-input response)은 윈도우잉을 위해 인코더에서 제거되고 복원을 위해 디코더에 추가된다. TCX로부터 TCX 프레임들로 스위칭될 때 윈도우잉된 샘플들은 크로스-페이드(cross-fade)에 사용된다. TCX 프레임들은 양자화 에러(quantization error) 또는 양자화 잡음(quantization noise)을 다르게 양자화할 수 있기 때문에 연속적인 프레임들 간에는 다르거나(different) 및/또는 독립적(independent)일 수 있다. 그래서, 하나의 프레임으로부터 다음의 프레임으로 크로스-페이드(cross-fade)가 없이 스위칭될 때, 현저한 가공물들(artifacts)이 발생하며, 그러므로, 크로스-페이드는 특정한 품질을 성취하기 위해서 필수적이다.

도 19의 하단의 테이블에서, 크로스페이드 영역은 프레임의 길이가 증가하면 함께 증가하는 것을 알 수 있다. 도 20은 AMR-WB+내의 가능한 전이들(transitions)에 대한 다른 윈도우들의 도해들(illustrations)이 있는 또 다른 테이블을 제공한다. TCX로부터 ACELP로 전이할 때 오버래핑 샘플들은 제거될 수 있다. ACELP로부터 TCX로 전이할 때, ACELP로부터 제로-입력 응답은 인코더에서 제거되고 복원을 위해 디코더에서 추가된다.

1/8의 오버헤드가 항상 도입되는 것은 AMR-WB+의 중요한 단점이다.

본 발명의 목적은 오디오 인코딩에 대해서 더 효율적인 개념을 제공하는 데 있다.

상기 목적은 청구항 1에 따른 오디오 인코더, 청구항 14에 따른 오디오 인코딩에 대한 방법, 청구항 16에 따른 오디오 디코더 및 청구항 25에 따른 오디오 디코딩에 대한 방법에 의해 성취된다.

본 발명의 실시예들은 예를 들어, TCX 인코딩에서 만일 시간-에일리어싱 도입 변환들(time-aliasing introducing transforms)이 사용된다면 수행될 수 있는 더 효율적인 코딩을 찾는 것에 기반한다. 시간 에일리어싱 도입 변환들(Time aliasing introducing transforms)은 여전히 인접한 프레임들 간의 크로스-페이드(cross-fade)를 할 수 있는 동안에 임계 샘플링(critical sampling) 성취를 허용할 수 있다. 예를 들어 일 실시예에서 변형된 이산 코사인 변환(MDCT = Modified Discrete Cosine Transform)은 오버래핑 시간 도메인 프레임들(overlapping time domain frames)을 주파수 도메인으로 변환하기 위해 사용된다. 이 특정한 변환은 2N 시간 도메인 샘플들에 대하여 단지 N 주파수 도메인 샘플들만을 생산하기 때문에, 비록 시간 도메인 프레임들이 50%까지 오버랩될지라도 임계 샘플링이 유지될 수 있다. 디코더 또는 역 시간-에일리어싱 도입 변환(inverse time-aliasing introducing transform)에서 오버랩 및 추가 단계는 시간 도메인 에일리어싱 소거(TDAC = time domain aliasing cancelation)가 수행될 수 있는 방법으로 상기 시간 에일리어싱된 오버래핑 및 본래 상태로(back) 변환된 시간 도메인 샘플들을 결합하도록 적응될 수 있다.

실시예들은, 예를 들어 AMR-WB+와 같이, 낮은 오버랩 윈도우들을 갖는 시간 도메인 코딩 및 스위칭된(switched) 주파수 도메인의 맥락에서 사용될 수 있다. 실시예들은 비-임계 샘플링된 필터뱅크(non-critically sampled filterbank) 대신에 MDCT를 사용할 수 있다. 이러한 방법에서 비-임계 샘플링으로 인한 오버헤드는, 예를 들어, 상기 MDCT, 상기 임계 샘플링 속성에 기반하여 유리하게 감소될 수 있다. 게다가, 더 긴 오버랩들은 추가적인 오버헤드를 도입하지 않고 가능하다. 실시예들은 상기 더 긴 오버헤드들에 기반한 이점을 제공하는데, 즉, 교차-페이딩은 더 부드럽게 수행될 수 있고, 바꾸어 말하면, 소리의 품질을 디코더에서 증가시킬 수 있다.

상세한 일 실시예에서 AMR-WB+ TCX-모드 내의 상기 FFT는 특히 폐(closed) 또는 오픈 루프 결정에 기반하여 상기 ACELP 모드 및 상기 TCX 모드 사이를 스위칭하는 AMR-WB+의 기능성들이 유지되는 동안에 MDCT로 대체될 수 있다. 실시예들은 ACELP 프레임 이후 첫째의 TCX 프레임에 대하여 비-임계 샘플링된 방식(non-critically sampled fashion)으로 상기 MDCT를 사용할 수 있고, 다음의 모든 TCX 프레임들에 대하여 임계 샘플링된 방식(critically sampled fashion)으로 상기 MDCT를 사용할 수 있다. 실시예들은 변형되지 않은 AMR-WB+와 유사한 낮은 오버랩 윈도우들(low overlap windows)을 갖지만 더 긴 오버랩들(longer overlaps)은 갖지 않는 상기 MDCT를 사용하여 폐 루프 결정(closed loop decision)의 특징을 계속 유지할 수 있다. 이는 변형되지 않은 TCX 윈도우들과 비교하여 더 좋은 주파수 응답의 이점을 제공할 수 있다.

본 발명에 따르면, 오디오 인코딩에 대해서 더 효율적인 개념을 제공할 수 있다.

본 발명의 실시예들은 첨부된 도면들을 사용하여 이하에서 구체화될 것이다.
도 1은 오디오 인코더의 일 실시예를 도시한다.
도 2a-2j는 시간 도메인 에일리어싱(time domain aliasing) 도입 변환의 일 실시예에 대한 수식들을 도시한다.
도 3a는 오디오 인코더의 다른 실시예를 도시한다.
도 3b는 오디오 인코더의 또 다른 실시예를 도시한다.
도 3c는 오디오 인코더의 또 다른 실시예를 도시한다.
도 3d는 오디오 인코더의 또 다른 실시예를 도시한다.
도 4a는 유성음(voice speech)에 대한 시간 도메인 음 신호의 샘플을 도시한다.
도 4b는 유성음 신호(voiced speech signal) 샘플의 스펙트럼을 설명한다.
도 5a는 무성음(unvoiced speech)의 샘플의 시간 도메인 신호를 설명한다.
도 5b는 무성음 신호(unvoiced speech signal)의 샘플의 스펙트럼을 도시한다.
도 6은 분석 합성 CELP(analysis-by-synthesis　CELP)의 일 실시예를 도시한다.
도 7은 단기 예측 정보(short-term prediction information) 및 예측 에러 신호(prediction error signal)를 제공하는 인코더-측면(encoder-side) ACELP 단계를 설명한다.
도 8a는 오디오 디코더의 일 실시예를 도시한다.
도 8b는 오디오 디코더의 다른 실시예를 도시한다.
도 8c는 오디오 디코더의 다른 실시예를 도시한다.
도 9는 윈도우 함수의 실시예를 도시한다.
도 10은 윈도우 함수의 다른 실시예를 도시한다.
도 11은 종래 기술 윈도우 함수들 및 실시예의 윈도우 함수의 뷰 그래프들 및 딜레이(delay) 차트들을 도시한다.
도 12는 윈도우 파라미터들을 설명한다.
도 13a는 윈도우 파라미터들의 테이블에 따른 윈도우 함수들의 시퀀스를 도시한다.
도 13b는 MDTC-기반의 일 실시예에 대한 가능한 전이들을 도시한다.
도 14a는 일 실시예에서 가능한 전이들의 테이블을 도시한다.
도 14b는 일 실시예에 따라 ACELP로부터 TCX80까지 변화 윈도우를 설명한다.
도 14c는 일 실시예에 따라 TCXx 프레임으로부터 TCX20 프레임으로 TCXx 프레임으로 변화 윈도우의 일 실시예를 도시한다.
도 14d는 일 실시예에 따라 ACELP로부터 TCX20으로 변화 윈도우의 일 실시예를 설명한다.
도 14e는 일 실시예에 따라 ACELP로부터 TCX40으로 변화 윈도우의 일 실시예를 도시한다.
도 14f는 일 실시예에 따라 TCXx 프레임으로부터 TCX80 프레임으로 TCXx 프레임으로 변화에 대한 변화 윈도우의 일 실시예를 설명한다.
도 15는 일 실시예에 따라 ACELP에서 TCX80으로 변화를 설명한다.
도 16은 종래의 인코더 및 디코더 예들을 설명한다.
도 17a, 17b는 LPC 인코딩 및 디코딩을 설명한다.
도 18은 종래 기술의 크로스-페이드(cross-fade) 윈도우를 설명한다.
도 19는 종래 기술의 AMR-WB+ 윈도우들의 시퀀스를 설명한다.
도 20은 ACELP와 TCX사이의 AMR-WB+에 전송을 위해 사용되는 윈도우들을 설명한다.

이하에서, 본 발명의 실시예들이 상세하게 설명될 것이다. 이하 실시예들은 발명의 범위를 제한하지 않고, 오히려 많은 다른 실시예들 중에서 가능한 실현 또는 구현 방법으로 선택될 수 있음을 명심해야한다.

도 1은 인코딩된 프레임들을 획득하기 위해 샘플링된 오디오 신호의 많은 시간 도메인 오디오 샘플들을 포함하는 프레임들을 인코딩하도록 적응된 오디오 인코더(10)를 도시하고, 상기 오디오 인코더(10)는 오디오 샘플들의 프레임에 기반하여 예측 도메인 프레임(prediction domain frame) 및 합성 필터(synthesis filter)에 대한 계수들(coefficients)에 관한 정보를 결정하는 예측 코딩 분석 단계(12)를 포함하며, 예를 들어, 상기 예측 도메인 프레임은 여기 프레임에 기반할 수 있고, 상기 예측 도메인 프레임은 상기 합성 필터(synthesis filter)에 대한 상기 여기 신호로부터 획득할 수 있는 LPC 도메인 신호의 가중된(weighted) 샘플들 또는 샘플들을 포함할 수 있다. 다시 말해, 실시예들에서 예측 도메인 프레임은 상기 합성 필터에 대한 여기 신호(excitation signal)의 샘플들을 포함하는 여기(excitation) 프레임에 기반될 수 있다. 실시예들에서 상기 예측 도메인 프레임들은 상기 여기 프레임들(excitation frames)의 필터링된 버전들(versions)에 상응할 수 있다. 예를 들어, 지각적 필터링(perceptual filtering)은 상기 예측 도메인 프레임을 획득하기 위해 여기 프레임에 적용될 수 있다. 다른 실시예들에서 고역-통과(high-pass) 또는 저역-통과(low-pass) 필터링은 상기 예측 도메인 프레임들을 획득하기 위해 상기 여기 프레임들(excitation frames)에 적용될 수 있다. 또 다른 실시예에서, 상기 예측 도메인 프레임들은 여기 프레임들에 직접적으로 상응할 수 있다.

오디오 인코더(10)는 예측 도메인 프레임 스펙트럼들을 획득하기 위해 오버래핑(overlapping) 예측 도메인 프레임들을 상기 주파수 도메인으로 변환하는 시간-에일리어싱 도입 변환기(time-aliasing introducing transformer)(14)를 더 포함하고, 여기서 상기 시간-에일리어싱 도입 변환기(time-aliasing introducing transformer)(14)는 임계 샘플링된 방법(critically sampled way)으로 상기 오버래핑(overlapping) 예측 도메인 프레임들을 변환하도록 적응된다. 상기 오디오 인코더(10)는 상기 인코딩된 예측 도메인 프레임 스펙트럼들 및 상기 계수들(coefficients)에 기반하여 상기 인코딩된 프레임들을 획득하기 위해 상기 예측 도메인 프레임 스펙트럼들을 인코딩하는 중복성 감소(redundancy reducing) 인코더(16)를 더 포함한다.

상기 중복성 감소 인코더(16)는 상기 예측 도메인 프레임 스펙트럼들 및/또는 상기 계수들에 관한 상기 정보를 인코딩하기 위해서 허프만 코딩(Huffman coding) 또는 엔트로피 코딩(entropy coding)을 사용하도록 적응될 수 있다.

실시예들에서 상기 시간-에일리어싱(time-aliasing) 도입(introducing) 변환기(14)는 예측 도메인 프레임에서 샘플들의 평균 개수(average number of samples)와 예측 도메인 프레임 스펙트럼의 샘플들의 평균 개수(average number of samples)가 동일하도록 오버래핑(overlapping) 예측 도메인 프레임들을 변환하도록 적응될 수 있고, 그것에 의해서, 상기 임계 샘플링된 변환(critically sampled transform)을 성취한다. 게다가, 상기 시간-에일리어싱(time-aliasing) 도입 변환기(14)는 변형 이산 코사인 변환(MDCT : modified discrete cosine transformation)에 따라 오버래핑(overlapping) 예측 도메인 프레임들을 변환하도록 적응될 수 있다.

이하에서, MDCT는 도 2a-2j에서 설명된 수식들의 도움으로 더 자세하게 설명될 수 있다. 상기 변형 이산 코사인 변환(MDCT)은 더 큰 데이터 세트의 연속적인(consecutive) 블록들에서 수행되도록 디자인된, 겹쳐지는 추가적인 속성을 갖는 타입-IV 이산 코사인 변환(DCT-IV = Discrete Cosine Transform type IV)에 기반한 푸리에-관련 변환(Fourier-related transform)이고, 연속하는 블록들은 오버랩되어 그 결과 예를 들어 한 블록의 마지막 절반은 다음 블록의 처음 절반과 일치하게 된다. 이 오버래핑(overlapping)은, 상기 DCT의 에너지-집중 품질들(energy-compaction qualities) 이외에 신호 압축 애플리케이션들(applications)에 대한 특히 매력적인 MDCT를 만들기 때문에, 블록 경계들로부터 가공물들(artifacts) 스테밍(stemming)을 피하기 위해 도움을 준다. 그러므로, MDCT는 예를 들어, 오디오 압축에 대한 MP3(MP3 = MPEG2/4 layer 3), AC-3(AC-3 = Audio Codec 3 by Dolby), 오그보비스(Ogg Vorbis) 및 고급 오디오 부호화(AAC = 선진 오디오 코딩(Advanced Audio Coding))에 채택되었다.

상기 MDCT는 아래에서 더 설명될 시간-도메인 에일리어싱 소거(TDAC : time-domain aliasing cancellation))의 상기 MDCT의 기본 이론을 개발하기 위한 프린센(Princen)과 브레들리(Bradley)의 초기 연구(1986) 다음으로, 1987년에 프린센(Princen), 존슨(Johnson) 및 브레들리(Bradley)에 의해서 제안되었다. DCT 또는 DCT/DST(DST = 이산 사인 변환(Discrete Sine Tranform)) 조합의 다른 타입들에 기반한 거의 사용되지 않는 MDCT의 형태들, 뿐만 아니라 이는, 이산 사인 변환에 기반한, MDST, 유사한(analogous) 변환이 또한 존재하며, 실시예들에서 상기 시간 도메인 에일리어싱 도입 변환(14)에 의해 또한 사용될 수 있다.

MP3에서, 상기 MDCT는 상기 오디오 신호에 직접적으로 적용되지 않고, 오히려 32-대역(band) 다중위상 직교 필터(PQF = Polyphase Quadrature Filter)뱅크의 출력에 적용된다. 이 MDCT의 출력은 상기 PQF 필터 뱅크의 전형적인 에일리어싱(aliasing)을 감소시키기 위해서 에일리어스 감소 공식(alias reduction formula)에 의해 후처리(postprocessed) 된다. MDCT를 갖은 필터 뱅크의 그러한 조합은 하이브리드(hybrid) 필터 뱅크 또는 서브밴드(subband) MDCT라고 한다. 한편, AAC는 일반적으로 단순한 MDCT를 사용한다; (거의 사용되지 않는) MPEG-4 AAC-SSR 변형(소니의)만이 MDCT에 의해 후속되는 4-대역(four-band) PQF 뱅크를 사용한다. ATRAC(ATRAC = 적응형 변환 오디오 코딩(Adaptive TRansform Audio Coding))는 MDCT에 의해 후속되는 직교 대칭 필터들(quadrature mirror filters)(QMF)을 사용한다.

겹침(lapped) 변환으로, 상기 MDCT는 다른 푸리에-관련 변환들(Fourier-related transforms)에 비교해서 그것은 입력들의 절반에 해당하는 출력(동일한 수 대신)을 갖는다는 점에서 조금 특이하다. 특히, 그것은 선형 함수(linear function) F 이다 : R^2N -> R^N, 여기서 R은 실수들(real numbers)의 집합을 의미한다. 상기 2N개의 실수들 x₀, ..., x_2N-1는 도 2a에서의 공식에 따라 N개의 실수들 X₀, ..., X_N _-1로 변환된다.

이 변환의 앞에 정규화 계수, 여기서 1(unity)은 임의의 규정(convention) 및 처리들(treatments) 사이의 차이들이 있다. 상기 MDCT 및 상기 IMDCT, 아래,의 상기 정규화의 생성물만이 아래에 제약(constrained)된다.

상기 역 MDCT는 상기 IMDCT로 알려져 있다. 입력들 및 출력들의 수들이 다르기 때문에, 겉으로 보기에 상기 MDCT는 역으로 될 수 없을 것처럼 보일 수 있다. 그러나, 완벽한 가역성(invertibility)은 에러가 소거되고 본래의 데이터가 검색되도록 하면서, 연속하는 오버래핑된 블록들의 상기 오버래핑된 IMDCT들을 추가함으로써 성취될 수 있다; 이 기술은 시간-도메인 에일리어싱(time-domain aliasing) 소거(TDAC)로 알려져 있다.

상기 IMDCT는 도 2b에서의 공식에 따라 N개의 실수들 X₀, ..., X_N _- ₁를 2N개의 실수들 y₀, ..., y_2N _- ₁ 로 변환한다. 상기 DCT-IV, 직교 변환(orthogonal transform)과 같이, 상기 역(inverse)은 상기 포워드 변환(forward transform)과 같은 형태를 갖는다.

보통의 윈도우 정규화(window normalization)(아래 참조)를 갖는 윈도우된(windowed) MDCT의 경우에는, 상기 IMDCT의 앞에 상기 정규화 계수는 2가 곱해져, 2/N가 된다.

비록 상기 MDCT 공식의 직접 적용(application)이 0(N²) 연산들을 요구할지라도, 고속 푸리에 변환(fast Fourier transform (FFT))에서와 마찬가지로 상기 계산을 반복적으로 인수분해(factorizing)함으로써 단지 0(N log N) 복잡성을 갖는 것들의 계산이 가능하다. 0(N) 전-(pre-) 및 후-처리(post-processing) 단계들이 결합된, 전형적으로 DFT(FFT) 또는 DCT인, 다른 변환들을 통해서 또한 MDCT를 계산할 수 있다. 또한, 아래에 설명처럼, 상기 DCT-IV에 대한 어떤 알고리즘도 동일한 크기의 IMDCT 및 상기 MDCT를 계산하는 방법을 즉각적으로 제공한다.

전형적인 신호-압축(signal-compression) 어플리케이션에서, 상기 변환 속성들(properties)은 n = 0 및 2N 경계들에서 불연속점들(discontinuities)을 피하기 위해서, 그 점들에서 부드럽게 제로로(zero) 가는 함수를 만들므로써 상기와 같은, MDCT 및 IMDCT 공식들에서 x_n 및 y_n 을 곱한 윈도우 함수 w_n (n = 0, ..., 2N-1)을 사용함으로써 더 개선되어 진다. 즉, 상기 데이터는 상기 MDCT 전에 그리고 상기 IMDCT 후에 윈도우잉된다. 이론적으로, x 및 y는 다른 윈도우 함수들을 가질 수 있고, 특히 다른 크기들의 데이터 블록들이 결합된 상기의 경우에 대해서, 상기 윈도우 함수는 한 블록에서 다음으로 또한 변경될 수 있고, 그러나 단순성을 위해서, 같은 크기의(equal-sized) 블록을 위한 동일한 윈도우 함수들의 일반적인 경우가 우선적으로 고려된다.

상기 변환은, 대칭(symmetric) 윈도우 w_n = w_2N _-1-n에 대하여, w가 도 2c에 따른 프린센-브레들리(Princen-Bradley) 조건을 만족하는 한, 여전히 역(invertible)으로 된다, 즉 TDAC가 작동한다.

예를 들어, MP3 및 MPEG-2 AAC에 대한 도 2d 및 보비스(Vorbis)에 대한 도 2e에 주어진 다양한 다른 윈도우 함수들은 공통적이다. AC-3는 카이저-베셀 유래된 윈도우(Kaiser-Bessel derived window)를 사용하고, MPEG-4 AAC는 KBD 윈도우를 또한 사용할 수 있다.

상기 MDCT에 적용되는 윈도우들은 상기 프린센-브레들리 조건(Princen-Bradley condition)을 이행해야만 하기 때문에 신호 분석의 다른 타입들에 대해 사용된 윈도우들과 다르다는 것을 주의해라. 이 차이에 대한 이유들 중의 하나는 MDCT 윈도우들은 상기 MDCT(분석 필터 (analysis filter)) 및 상기 IDMCT(합성 필터(synthesis filter)) 모두에 대하여 두 번 적용된다는 것이다.

상기 정의들에서 볼 수 있듯이, 상기 MDCT는, 짝수(even)N에 대하여, 입력이 N/2 만큼 이동되고 두 개의 N-블록들은 동시에 변환되는, DCT-IV와 본질적으로 동일하다. 이 동일성은 더욱 신중하게 검사함으로써, TDAC와 같은 중요한 속성들(properties)이 쉽게 도출될 수 있다.

상기 DCT-IV에 대한 정확한 관계를 정의하기 위해서, DCT-IV의 좌측 경계(약 n=-1/2)에서 짝수(even), DCT-IV의 우측 경계(약 n=N-1/2)에서 홀수(odd) 등(DFT에 대한 주기적(periodic) 경계들 대신에)인 상기 DCT-IV가 교대하는 짝수/홀수 경계 조건들(even/odd boundary conditions)에 일치한다는 것을 깨달아야 한다. 이는 도 2f에서 주어진 상기 항등식들로부터 결과가 나온다. 그러므로, 만일 DCT-IV의 입력들이 길이 N의 배열 x 인 경우, 이 배열을 (x, -x_R, -x, -x_R, ...) 등으로의 확장을 생각할 수 있으며, 여기서 x_R 은 x의 역순이다.

2N 입력들 및 N 출력들을 갖는 MDCT를 고려하면, 여기서 상기 입력들은 각 N/2 크기의 4개의 블록들(a, b, c, d)로 나누어질 수 있다. 만일 상기 입력들이 N/2(상기 MDCT 정의에서 상기 +N/2 용어로부터)만큼 이동된다면, 그러면 (b, c, d)는 상기 N DCT-IV 입력들의 끝을 지나쳐서 확장되고, 그러면 입력들은 상기에 설명된 상기 경계 조건들에 따라 뒤로 "접혀"질 것이다.

그러므로, 2N 입력들 (a, b, c, d)의 상기 MDCT는 상기 N 입력들의 DCT-IV와 정확히 동일하다: (-c_R-d, a-b_R), 여기서 R은 상기와 같이 역(reversal)을 나타낸다. 이러한 방식으로, 상기 DCT-IV를 계산하기 위한 어떤 알고리즘이라도 상기 MDCT에 평범하게 적용될 수 있다.

유사하게, 상기에서 언급한 것과 같은 상기 IMDCT 공식은 DCT-IV(DCT-IV는 DCT-IV의 자체의 역이다)의 정확히 1/2이고, 여기서 상기 출력은 N/2 만큼 이동되고 2N 길이로 연장(상기 경계 조건들을 통해서)된다. 상기 역 DCT-IV는 위에서부터 상기 입력들(-c_R-d, a-b_R)을 간단히 되돌려줄 수 있다. DCT-IV는 상기 경계 조건들을 통해서 연장되고 이동될 때, DCT-IV는 도 2g에서 표시된 상기 결과를 획득한다. 상기 IMDCT 출력들의 절반은 이렇게 중복된다.

이제, TDAC가 어떻게 동작하는지 이해할 수 있다. 50% 오버랩된, 2N 블록의(c, d, e, f), 후속하는 MDCT를 계산한다고 가정한다. 상기 IMDCT는, 상기와 유사한:(c-d_R, d-c_R, e+f_R, e_R+f) / 2를 산출할 것이다. 이것은 오버래핑된 절반 내에서 이전의 IMDCT 결과와 같이 추가될 때, 상기 역전된 항들(terms)은 소거되고 회복된 상기 본래의 데이터 (c, d)를 간단하게 획득한다.

상기 용어 "시간-도메인 에일리어싱 소거"의 유래는 지금 명확하다. 논리 DCT-IV의 상기 경계들을 지나 확장된 입력 데이터의 사용은 정확하게 주파수 도메인 대신에 시간 도메인에서 에일리어싱이 발생하는 것을 제외하고, 나이키스트(Nyquist) 주파수를 넘는 주파수들은 낮은 주파수들로 에일리어싱되는 동일한 방법으로 데이터를 에일리어싱한다. 그러므로 c-d_R 등, 상기 결합들(combinations)은 우측 기호들(signs)이 추가될 때 상기 결합들(combinations)을 소거하기(cancel) 위해서 상기 결합에 대한 정확하게 올바른 부호들(signs)을 정확히 갖는다.

홀수 N(실제로 거의 사용되지 않는다)에 대하여, N/2는 정수(integer)가 아니므로 상기 MDCT는 DCT-IV의 이동 순열(shift permutation)이 아니다. 이런 경우에는, 절반 샘플만큼의 추가적인 이동(shift)은 상기 MDCT/IMDCT가 DCT-III/II와 동등하게 되는 것을 의미하고, 분석(analysis)은 상기와 유사하다.

상기, TDAC 속성(property)은 그들의 오버래핑된 절반(half)에서 다음 블록들의 IMDCT들을 추가하는 것은 상기 본래의 데이터를 회복한다는 것을 보여줌으로써 보통의 MDCT에 대해서 입증되었다. 윈도우된(windowed) MDCT에 대한 이 역 속성(inverse property)의 유도(derivation)는 단지 약간 더 복잡하다.

상술한 내용으로부터, (a,b,c,d) 및 (c,d,e,f)가 그들의 오버래핑 절반 내에서 MDCT된(Modified Discrete Cosine Transformed), IMDCT된(Inverse Modified Discrete Cosine Transformed) 및 추가된 때에 본래의 데이터, (c + d_R,c_R + d) / 2 + (c - d_R,d - c_R) / 2 = (c,d)를 획득한다는 것을 상기시켜보자.

이제, 길이 2N의 윈도우 함수에 의해서 상기 MDCT 입력들 및 상기 IMDCT 출력들 모두를 곱하는 것이 가정된다. 상기와 같이, 그것에 의하여 (w,z,z_R,w_R)의 형태이고, 여기서 w 및 z는 길이-N/2 벡터들이고 R은 앞에서와 같이 역전(reversal)을 나타내는, 대칭 윈도우 함수(symmetric window function)를 가정한다. 그러면 상기 프리센-브레들리 조건(Princen-Bradley condition)은 원소별(elementwise)로 수행되는 승법들(multiplications) 및 덧셈들(additions)의 ω²+ z_R ² = (1,1,....)로 작성될 수 있고, 또는 w 및 z를 반전시킨 ω_R ² + z² = (1,1,....)와 동일하게 작성될 수 있다.

그러므로, (a,b,c,d)를 MDCT하는(Modified Discrete Cosine Transforming) 대신에, MDCT (wa,zb,z_Rc,w_Rd)는 원소별(elementwise)로 수행되는 모든 승법들(multiplications)에 MDCT된다. 상기 윈도우 함수에 의해 (원소별(elementwise)) 이것은 IMDCT되고 다시 곱해질(multiplied) 때, 마지막-N 절반은 도면 2h에서 표시된 것과 같이 결과로서 생긴다.

상기 윈도우된 경우에서 상기 IMDCT 정규화는 2의 인수(factor) 만큼 다르기 때문에, 상기 1/2 만큼 곰셈(multiplication)은 더 이상 나타나지 않는다는 것을 유념하라. 유사하게, 도 2i에 따라 그것의 처음-N 절반에서 (c,d,e,f)의 IMDCT 및 상기 윈도우된 MDCT는 산출된다. 이러한 두 개의 절반들(halves)이 서로 추가된 때에, 본래의 데이터를 회복하는 것인 도 2j의 결과들이 얻어진다.

도 3a는 상기 오디오 인코더(10)의 다른 실시예를 묘사한다. 도 3a에 묘사된 실시예에서 상기 시간-에일리어싱(time-aliasing) 도입 변환기(14)는 윈도우잉 함수(windowing function)를 오버래핑(overlapping) 예측 도메인 프레임들에 적용하는 윈도우잉 필터(17) 및 윈도우된(windowed) 오버랩핑 예측 도메인 프레임들을 상기 예측 도메인 스펙트럼들로 컨버팅하는 컨버터(18)를 포함한다. 상기에 따라 다중 윈도우 함수들(multiple window functions)은 상상할 수 있고, 다중 윈도우 함수들의 일부는 더 아래에서 구체화될 것이다.

도 3b에 오디오 인코더(10)의 다른 실시예가 묘사된다. 도 3b에 묘사된 실시예에서 상기 시간-에일리어싱(time-aliasing) 도입 변환기(14)는 이벤트(event)를 탐색하고, 만일 이벤트(event)가 탐색된 경우에 윈도우 시퀀스 정보(window sequence information)를 제공하는 처리기(19) 및 상기 윈도우 시퀀스 정보(window sequence information)에 따라 상기 윈도우잉 함수(windowing function)를 적용하도록 적응된 윈도우잉(windowing) 필터(17)를 포함한다. 예를 들어, 상기 이벤트는 샘플링된 오디오 신호(sampled audio signal)의 프레임으로부터 분석된 어떤 신호 속성들에 따라 발생할 수 있다. 예를 들어 다른 윈도우 길이 또는 다른 윈도우 에지들(edges) 등은 예를 들어 신호의 자기상관(autocorrelation) 속성들, 음색(tonality), 일시성(transience), 등에 따라 적용될 수 있다. 바꾸어 말하면, 다른 이벤트들은 샘플링된 오디오 신호(sampled audio signal)의 프레임들의 다른 속성들의 부분으로서 발생할 수 있고, 상기 처리기(19)는 상기 오디오 신호의 프레임의 상기 속성들에 따라 다른 윈도우들의 시퀀스를 제공할 수 있다. 윈도우 시퀀스에 대한 더 상세한 시퀀스들 및 파라미터들은 아래에서 설명될 것이다.

도 3c는 오디오 인코더(10)의 다른 실시예를 보여준다. 도 3d에서 묘사된 실시예에서 상기 예측 도메인 프레임들은 시간-에일리어싱(time-aliasing) 도입 변환기(14) 뿐만 아니라 코드북 인코딩된 프레임(codebook encoded frame)을 획득하기 위해 기결정된(predetermined) 코드북에 기반하여 상기 예측 도메인 프레임들을 인코딩하도록 적응된 코드북 인코더(13)에 제공된다. 게다가, 도 3c에 묘사된 실시예는 코딩 효율성 측정(coding efficiency measure)에 기반하여 최종 인코딩된 프레임을 획득하기 위해 인코딩된 프레임 또는 코드북 인코딩된 프레임을 사용할 것인지를 결정하는 결정기를 포함한다. 도 3c에서 묘사된 실시예는 폐루프 시나리오(closed loop scenario)로 또한 불릴 수 있다. 이 시나리오에서 상기 결정기(15)는 하나의 분기(branch)는 변환 기반이고 다른 하나의 분기(branch)는 코드북 기반인 두 개의 분기(branch)로부터 인코딩된 프레임을 획득하기 위한 가능성을 갖는다. 코딩 효율성 측정(coding efficiency measure)을 결정하기 위해서, 상기 결정기는 두 개의 분기(branche)들로부터 상기 인코딩된 프레임들을 디코딩할 수 있고, 그 다음에 다른 분기(branche)로부터 에러 통계(error statistics)를 평가함으로써 상기 코딩 효율성 측정(coding efficiency measure)을 결정한다.

바꾸어 말하면, 상기 결정기(15)는 예를 들어, 분기들(branches) 모두에 대하여 전체 디코딩을 수행하는 상기 인코딩 절차로 되돌아가도록(reverting) 적응될 수 있다. 완전히 디코딩된 프레임들을 갖는 상기 결정기(15)는 도 3c에서 점선 화살표로 표시된 상기 본래의 샘플들과 상기 디코딩된 샘플들을 비교하도록 적응될 수 있다. 도 3c에서 보여주는 실시예에서 상기 결정기(15)는 상기 예측 도메인 프레임들(prediction domain frames)을 또한 제공받고, 그래서 결정기는 중복성 감소 인코더(16)로부터 인코딩된 프레임들을 디코딩할 수 있고 코드북 인코더(13)로부터 코드북 인코딩된 프레임들(encoded frames)을 또한 디코딩할 수 있고 상기 본래 인코딩된 예측 도메인 프레임들(originally encoded prediction domain frames)과 결과를 비교할 수 있다. 그래서, 상기 차이들을 비교하는 일 실시예에서, 예를 들어 신호 대 잡음 비율(signal-to-noise　ratio) 또는 통계 에러(statistical error) 또는 최소 에러(minimum error) 등의 관점에서, 또한 어떤 실시예들에서 각각의 코드율(respective code rate) 즉 상기 프레임들을 인코딩하기 위해 요구되는 비트들(bits)의 수에 관하여, 코딩 효율성 측정들(coding efficiency measures)이 결정될 수 있다. 상기 결정기(15)는 그래서 상기 코딩 효율성 측정에 기반하여, 상기 코드북 인코딩된 프레임들 또는 상기 중복성 감소 인코더(16)로부터의 인코딩된 프레임들을 최종 인코딩된 프레임들로 선택하도록 적응될 수 있다.

도 3d는 오디오 인코더(10)의 다른 실시예를 보여준다. 도 3d에서 보여주는 실시예에서 코딩 효율성 측정(coding efficiency measure)에 기반하여 상기 코드북 인코더(13) 및 상기 시간-에일리어싱(time-aliasin) 도입 변환기(14) 사이에 상기 예측 도메인 프레임들(prediction domain frames)을 스위칭하는 상기 결정기(15)에 연결된 스위치(20)가 있다. 상기 결정기(15)는, 스위치(20)의 위치, 즉, 상기 시간-에일리어싱(time-aliasing) 도입 변환기(14)에 있는 상기 변환 기반 코딩 분기(transform-based coding branch) 및 상기 중복성 감소 인코더(16) 또는 상기 코드북 인코더(13)에 있는 상기 코드북 기반 인코딩 분기(codebook based encoding branch)를 사용할 것인지 여부, 를 결정하기 위해서, 상기 샘플링된 오디오 신호의 상기 프레임들에 기반하여 코딩 효율성 측정(coding efficiency measure)을 결정하도록 적응될 수 있다. 위에 언급한 것과 같이, 상기 코딩 효율성 측정(coding efficiency measure)은 샘플링된 오디오 신호(sampled audio signal), 즉 상기 프레임들의 오디오 속성들, 또 상기 프레임이 더 음조 같은(tone-like) 것인지 또는 더 잡음 같은(noise-like) 것인지에 대한 프레임의 속성들에 기반하여 결정될 수 있다.

도 3d에서 보여주는 상기 실시예의 구성(configuration)은 상기 결정기(15)는 각각의 코딩 분기(branch)의 출력의 결과를 알지 못하고 입력 프레임들에 기반하여 결정될 수 있기 때문에, 오픈 루프 구성(open loop configuration)으로도 불린다. 또 다른 실시예에서 상기 결정기는 도 3d에서 점선 화살표로 보여지는 상기 예측 도메인 프레임들에 기반하여 결정될 수 있다. 바꾸어 말하면, 일 실시예에서, 상기 결정기(15)는 상기 샘플링된 오디오 신호의 프레임에 기반하여 결정할 수 있는 것이 아니라, 오히려 상기 예측 도메인 프레임들에 기반하여 결정할 수 있다.

이하에서, 상기 결정기(15)의 상기 결정 과정은 명백히 될 것이다. 일반적으로, 오디오 신호의 임펄스한(impulse-like) 부분 및 정상(stationary) 신호의 정상(stationary) 부분 사이의 차이(differentiation)는 상기 임펄스한(impulse-like) 특성(characteristic)이 측정되고 게다가 상기 정상같은(stationary-like) 특성(characteristic)이 측정되는 신호 처리 연산(signal processing operation)을 적용함으로써 만들어질 수 있다. 예를 들어, 그러한 측정들은 상기 오디오 신호의 파형(waveform)을 분석함으로써 수행될 수 있다. 이 때문에, 어떤 변환 기반(transform-based) 처리 또는 LPC 처리 또는 어떤 다른 처리가 수행될 수 있다. 상기 부분이 임펄스한(impulse-like)지 여부에 대하여 결정하기 위한 직관적인 방법은 예를 들어 시간 도메인 파형(time domain waveform)을 보기 위한 것 및 이 시간 도메인 파형(time domain waveform)이 규칙(regular) 또는 불규칙(irregular) 간격들(intervals)에서 피크들(peaks)을 갖는지를 결정하기 위한 것이고, 규칙 간격들(intervals)에서 피크들(peaks)은 예를 들어 코드북 인코더, 음 같은 코더(speech-like coder)에 대하여 더욱더 적합하다. 음(speech) 내에서도 유성(voiced) 및 무성(unvoiced) 부분들은 구분될 수 있다는 것을 주의하라. 상기 코드북 인코더(13)는 유성 신호 부분들(voiced signal parts) 또는 유성 프레임들(voiced frames)에 대해서 더 효율적일 수 있고, 여기서 상기 시간-에일리어싱 도입 변환기(14)를 포함하는 상기 변환 기반 분기(transform-based branch) 및 상기 중복성 감소 인코더(16)는 무성 프레임들(unvoiced frames)에 대해서 더 적합할 수 있다. 일반적으로, 상기 변환 기반 코딩(transform based coding)은 음성 신호들(voice signals) 이외의 정상 신호들(stationary signals)에 대해서 또한 더 적합할 수 있다.

예시적으로, 각각 도 4a 및 4b, 5a 및 5b에 관하여 언급한다. 임펄스한 신호 구간들(Impulse-like signal segments) 또는 신호 부분들 및 정상 신호 구간들(stationary signal segments) 또는 신호 부분들은 예시적으로 논의된다. 일반적으로, 상기 결정기(15)는 예를 들어 정상성(stationarity), 과도성(transience), 스펙트럼 백색도(spectral whiteness) 등과 같은 다른 기준에 기반하여 결정하도록 적응될 수 있다. 이하에서 예제 기준은 실시예의 부분으로서 주어진다. 특히, 유성음(voiced speech)은 시간 도메인에서 도 4a 및 주파수 도메인에서 도 4b에서 설명되고 임펄스한 신호 부분(impulse-like signal portion)에 대한 예로 논의되고, 그리고 정적 신호 부분(stationary signal portion)에 대한 예로 무성음 구간(unvoiced speech segment)은 도 5a 및 도 5b와 관련하여 논의된다.

음(Speech)은 유성(voiced), 무성(unvoiced) 또는 혼성(mixed)으로 일반적으로 분류될 수 있다. 샘플링된 유성 및 무성 구간들에 대한 시간 및 주파수 도메인 도면들은 도 4a, 4b, 5a 및 5b에 보여진다. 유성음(Voiced speech)은 시간 도메인에서 준 주기적(quasi periodic)이고 주파수 도메인에서 고조파적으로 구조되고(harmonically structured), 반면에 무성음(unvoiced speech)은 랜덤 같고(random-like) 광대역(broadband)이다. 게다가, 유성 구간들(voiced segments)의 에너지는 무성 구간들(unvoiced segments)의 에너지보다 일반적으로 높다. 유성음(voiced speech)의 단기 스펙트럼(short-term spectrum)은 유성음의 종지(fine) 및 포맷 구조(formant structure)로 특징지어진다. 상기 종지 고조파 구조(fine harmonic structure)는 음(speech)의 상기 준-주기성(quasi-periodicity)의 결과(consequence)이고 성대들(vocal cords)을 진동시키는 것에 귀착될 수 있다. 스펙트럼의 포락선(envelope)으로 또한 불리는 상기 포맷 구조는 소스(source) 및 성도들(vocal tracts)의 상호 작용 때문이다. 상기 성도들(vocal tracts)은 인두(pharynx) 및 구강(mouth cavity)으로 구성된다. 유성음(voiced speech)의 단기 스펙트럼(short-term spectrum)에 적합한 스펙트럼의 포락선(envelope)의 모양은 성문(glottal) 진동(pulse)에 기인하는 스펙트럼의 기울기(tilt)(6 dB/옥타브) 및 상기 성도(vocal tract)의 전송 특성들(transfer characteristics)과 연관된다.

상기 스펙트럼의 포락선(envelope)은 포먼트들(formants)로 불리는 피크들(peaks)의 집합에 의해 특징지어진다. 상기 포먼트들(formants)은 상기 성도(vocal tract)의 공진 모드들(resonant modes)이다. 상기 평균 성도(vocal tract)에 대해서 5kHz 아래에 3에서 5 포먼트들(formants)이 있다. 일반적으로 3kHz 아래에서 발생하는 제1의 3 포먼트들(formants)의 진폭들(amplitudes) 및 위치들(locations)은 음 합성(speech synthesis) 및 지각(perception) 모두에서 매우 중요하다. 높은 포먼트들(formants)은 광대역(wideband) 및 무성음(unvoiced speech) 표현들(representations)을 위해 또한 중요하다. 음(speech)의 상기 속성들은 다음과 같이 물리적인 음 생산 시스템들과 연관된다. 성대들(vocal cords)이 진동함으로써 생성되는 준 주기적인 성문 공기 진동들(quasi-periodic glottal air pulses)을 갖는 상기 성도(vocal tract)를 여기시키는 것이 유성음(voiced speech)을 생성한다. 상기 주기적인 진동(pulse)의 주파수는 기본 주파수(fundamental frequency) 또는 피치(pitch)라고도 한다. 상기 성도(vocal tract)에서 수축(constriction)을 통하여 공기를 강제하는 것은 무성음(unvoiced speech)을 생성한다. 비음들(Nasal sounds)은 상기 성도(vocal tract)로 비강(nasal tract)의 음향의(acoustic) 커플링(acoustic coupling) 때문이고, 파열음들은 상기 도(tract)에서 폐쇄 뒤에 구축되는 공기 압력이 갑자기 감소함으로써 감소한다.

그러므로, 시간 도메인에서 상기 정상 부분(stationary portion)은 영구적인(permanent) 반복 펄스들(repeating pulses)이 보이지 않기 때문에 예를 들어 도 4a에서 설명된 것과 같이 임펄스한 부분(impulse-like portion)으로부터 다르므로 상기 오디오 신호의 정상 부분(stationary portion)은 도 5a에서 설명된 것과 같이 시간 도메인에서 정상 부분(stationary portion) 또는 주파수 도메인에서 정상 부분(stationary portion)이 될 수 있다. 그러나, 나중에 설명될 것으로서, 상기 정상 부분들(stationary portions) 및 임펄스한 부분들(impulse-like portions) 사이의 상기 차이(differentiation)는 상기 성도(vocal tract) 및 상기 성도들(vocal tracts)의 여기(excitation)의 모델인 LPC 방법들을 사용하는 것에 의해 또한 수행될 수 있다. 상기 신호의 상기 주파수 도메인이 고려될 때, 임펄스한(impulse-like) 신호들은 상기 개별의 포먼트들(formants) 예를 들어, 도 4b에서 현저한 피크들(prominent peaks)의 현저한 모습을 보이며, 반면에 상기 정상 스펙트럼(stationary spectrum)은 도 5b에서 설명된 것과 같이 또는 특정한 톤들(specific tones)을 나타내는 어떤 현저한 피크들(prominent peaks)을 갖는 매우 지속적인 잡음 플로어(noise floor)는 그러나 도 4b에서 상기 임펄스한(impulse-like) 신호와 같이 서로로부터 그러한 규칙적인 거리를 갖지 않는 예를 들어, 음악 신호(music signal)에서 발생한 조화 신호들(harmonic signals)의 경우에 매우 넓은 스펙트럼을 갖는다.

게다가, 임펄스한(impulse-like) 부분들(portions) 및 정상(stationary) 부분들(portions)은 적시에 발생할 수 있다, 즉 적시에 상기 오디오 신호의 부분이 정상(stationary) 및 상기 오디오 신호의 다른 부분이 임펄스한(impulse-like) 것을 의미한다. 선택적으로 또는 추가적으로, 신호의 상기 특성들은 다른 주파수 대역들에서 다를 수 있다. 그러므로, 상기 오디오 신호가 정상(stationary) 또는 임펄스한(impulse-like) 것인지의 결정은 주파수-선택(frequency-selective)에 의해서 또한 수행될 수 있고 그래서 특정 주파수 대역(certain frequency band) 또는 몇 가지 특정 주파수 대역들(several certain frequency bands)은 정상(stationary)인 것으로 고려되고 다른 주파수 대역들은 임펄스한(impulse-like) 것으로 고려된다. 이 경우에는, 상기 오디오 신호의 특정 시간 부분은 정상 부분 또는 임펄스한 부분을 포함할 수 있다.

도 3d에서 보여준 상기 실시예로 돌아가면, 상기 결정기(15)는 상기 오디오 프레임들(audio frames), 상기 예측 도메인 프레임들(prediction domain frames) 또는 상기 여기 신호(excitation signal)가 오히려 예를 들어 코드북 인코더(13)에 대하여 더 적합한 임펄스한(impulse-like) 것인지 또는 상기 변환 기반 인코딩 분기(transform-based encoding branch)에 대해서 더 적합한 정상(stationary)인지를 결정하기 위해서 오디오 프레임들(audio frames), 예측 도메인 프레임들(prediction domain frames) 또는 여기 신호(excitation signal)를 분석할 수 있다.

다음에, 분석 합성 CELP 인코더는 도 6에서 논의될 수 있다. CELP 인코더의 세부 정보는 "Speech Coding: A tutorial review", Andreas Spaniers, Proceedings of IEEE, Vol. 84, No. 10, October 1994, pp. 1541-1582에서 또한 찾을 수 있다. 도 6에서 설명된 상기 CELP 인코더는 장기 예측 컴포넌트(long-term prediction component)(60) 및 단기 예측 컴포넌트(short-term prediction component)(62)를 포함한다. 게다가, 코드북은 64로 표시된 것이 사용된다. 지각에 의한 가중치 필터(perceptual weighting filter) W(z)는 66으로 구현되고, 그리고 에러 최소화 제어기(error minimization controller)는 68로 제공된다. s(n)는 입력 오디오 신호이다. 지각적으로 가중된 후에, 상기 가중 신호(weighted signal)는 상기 가중된 합성 신호(weighted synthesis signal) 및 상기 실제 가중된 예측 에러 신호(actual weighted prediction error signal) s_w(n) 사이의 에러를 계산하는 감산기(subtractor)(69)로 입력된다.

일반적으로, 상기 단기 예측(short-term prediction) A(z)는 아래에서 또 논의될 LPC 분석 단계에 의해 계산되어 진다. 이 정보에 따라, 상기 장기 예측(long-term prediction) A_L(z)는 장기 예측 이득(long-term prediction gain) b 및 딜레이(delay) T (피치 이득(pitch gain) 및 피치 딜레이(pitch delay)로 또한 알려진)를 포함한다. 상기 CELP 알고리즘은 상기 여기(excitation) 또는 예측 도메인 프레임들(prediction domain frames)을 예를 들어 가우시안(Gaussian) 시퀀스들(sequences)의 코드북(codebook)을 사용하여 인코딩한다. "A"가 "대수의"를 나타내는 ACELP 알고리즘은 특정한 대수적으로 디자인된 코드북을 갖는다.

상기 코드북은 샘플들의 수에 따라 각각의 벡터가 길이를 갖는 경우에 더 많거나 적은 벡터들을 포함할 수 있다. 이득 요소(gain factor) g는 상기 여기 벡터(excitation vector)를 스케일링하고 상기 여기 샘플들(excitation samples)은 상기 장기 합성 필터(long-term synthesis filter) 및 단기 합성 필터(short-term synthesis filter)에 의해서 필터링된다. "최적" 벡터는 지각적으로 가중된 평균 제곱 에러(mean square error)가 최소화되는 그러한 것으로 선택된다. CELP에서 서치 과정(search process)은 도 6에 설명된 합성 분석 도식(analysis-by-synthesis scheme)으로부터 분명하다. 도 6은 분석 합성(analysis-by-synthesis) CELP의 예를 단지 설명하고 그 실시예들은 도 6에서 보여주는 상기 구조로 제한되지 않는다는 것을 주의하라.

CELP에서, 장기 예측기는(long-term predictor) 이전의 여기 신호(excitation signal)를 포함하는 적응형(adaptive) 코드북(codebook)으로 자주 실행된다. 상기 장기 예측 딜레이(long-term prediction delay) 및 이득(gain)은 상기 평균 제곱 가중된 에러(mean square weighted error)를 최소화함으로써 또한 선택되는 적응형 코드북 인덱스(adaptive codebook index) 및 이득(gain)에 의해 표현된다. 이 경우에서 상기 여기 신호(excitation signal)는 적응형 코드북(adaptive codebook)으로부터 하나 및 고정된 코드북(fixed codebook)으로부터 하나인 두 개의 이득 스케일된 벡터들(gain-scaled vectors)의 추가로 구성된다. AMR-WB+에서 상기 지각에 의한 가중치 필터(perceptual weighting filter)는 LPC 필터에 기반하고, 이렇게 상기 지각적으로 가중된 신호(perceptually weighted signal)는 LPC 도메인 신호의 형태이다. AMR-WB+에서 사용된 변환 도메인 코더(transform domain coder)에서, 상기 변환은 상기 가중된 신호에 적용된다. 상기 디코더에서, 상기 여기 신호(excitation signal)는 가중치 필터들(weighting filters) 및 합성(synthesis)의 역(inverse)으로 구성되는 필터를 통하여 디코딩된 가중된 신호(decoded weighted signal)를 필터링함으로써 획득된다.

복원된(reconstructed) TCX 대상(target) x(n)는 상기 합성 필터(synthesis filter)에 적용될 수 있는 상기 여기 신호(excitation signal)를 찾기 위해 제로-상태 역 가중된 합성 필터(zero-state inverse weighted synthesis filter)

를 통하여 필터링될 수 있다. 서브프레임(subframe) 또는 프레임(frame)당(per) 보정(interpolated) LP 필터는 필터링에서 사용된다는 것을 주의하라. 일단 여기(excitation)가 결정되면, 상기 신호는 합성 필터(synthesis filter)

를 통해 상기 여기(excitation)를 필터링함으로써 그리고 나서 예를 들어 1/(1-0.68z^-1) 필터를 통해 필터링에 의해 경시함(de-emphasizing)으로써 복원될(reconstructed) 수 있다. 상기 여기(excitation)는 ACELP 적응적 코드북(adaptive codebook을 업데이트하기 위해 또한 사용될 수 있고 다음의 프레임에서 TCX로부터 ACELP로 스위칭을 허가한다는 것을 주의하라. 상기 TCX 합성의 길이는 상기 TCX 프레임 길이(오버랩 없이)로: 각각 1, 2 또는 3의 mod[]에 대하여 256, 512 또는 1024 샘플들 주어질 수 있음을 또한 주의하라.

상기 예측된 코딩 분석 단계(12)의 일 실시예의 기능성(functionality)은 실시예들에서, 상기 결정기(15)에서 LPC 분석 및 LPC 합성을 사용하는 도 7에서 보여주는 실시예에 따라 다음에 논의될 것이다.

도 7은 LPC 분석 블록(12)의 일 실시예의 더 구체적인 구현을 설명한다. 오디오 신호는 예를 들어 상기 합성 필터에 대한 계수들(coefficients)에 관한 정보인 필터 정보 A(z)를 결정하는 필터 결정 블록으로 입력된다. 이 정보는 양자화(quantized)되고 상기 디코더에 필요되는 상기 단기 예측 정보로서 출력된다. 감산기(786)에서, 상기 신호의 현재의 샘플은 입력되고 상기 현재의 샘플에 대한 예측된 값(predicted value)은 감산되고(subtracted) 그래서 이 샘플에 대해서 상기 예측 에러 신호는 선(784)에서 생성된다. 상기 예측 에러 신호는 여기 신호(excitation signal) 또는 여기 프레임(excitation frame)(일반적으로 인코딩된 후에)으로 또한 불릴 수 있다.

샘플링된 오디오 신호의 많은 시간 도메인 오디오 샘플들을 포함하는 프레임들을 획득하기 위해 인코딩된 프레임들을 디코딩하는 오디오 디코더(80)의 일 실시예는 도 8a에서 보여준다. 상기 오디오 디코더(80)는 합성 필터에 대한 계수들에 관한 정보 및 예측 도메인 프레임 스펙트럼들 또는 예측 스펙트럼의 도메인 프레임들을 획득하기 위해 인코딩된 프레임들을 디코딩하는 중복성 검색 디코더(82)를 포함한다. 상기 오디오 디코더(80)는 오버래핑 예측 도메인 프레임들(overlapping prediction domain frames)을 획득하기 위해 상기 예측 스펙트럼의 도메인 프레임을 상기 시간 도메인으로 변환하고, 연속적인(consecutive) 예측 도메인 프레임 스펙트럼들로부터 오버래핑 예측 도메인 프레임들(overlapping prediction domain frames)을 결정하도록 적응된 역 시간-에일리어싱(inverse time-aliasing) 도입 변환기(84)를 더 포함한다. 게다가, 상기 오디오 디코더(80)는 임계 샘플링된 방법(critically sampled way)으로 예측 도메인 프레임을 획득하기 위해 오버래핑 예측 도메인 프레임들을 결합하는 오버랩/추가 결합기(86)를 포함한다. 상기 예측 도메인 프레임은 LPC-기반 가중된 신호로 구성될 수 있다. 상기 오버랩/추가 결합기(86)는 예측 도메인 프레임들을 여기 프레임들(excitation frames)로 컨버팅하는 컨버터를 또한 포함할 수 있다. 상기 오디오 디코더(80)는 상기 계수들(coefficients) 및 상기 여기 프레임(excitation frame)에 기반하여 상기 합성 프레임을 결정하는 예측된 합성 단계(88)를 더 포함한다.

상기 오버랩 및 추가 결합기(86)는 예측 도메인 프레임(prediction domain frame)에서 샘플들의 평균 개수와 상기 예측 도메인 프레임 스펙트럼(prediction domain frame spectrum)의 샘플들의 평균 개수가 동일하도록 오버래핑 예측 도메인 프레임들(overlapping prediction domain frames)을 결합하도록 적응될 수 있다. 실시예들에서 역 시간-에일리어싱 도입 변환기(inverse time-aliasing introducing transformer)(84)는 위의 세부 사항, IMDCT에 따라 상기 예측 도메인 프레임 스펙트럼들을 상기 시간 도메인으로 변환하도록 적응될 수 있다.

일반적으로 블록(86)에서, "오버랩/추가 결합기(overlap/add combiner)"는 실시예들에서 선택적으로 도 8a-c에서 괄호안에 표시된 "여기 회복(excitation recovery)"이 될 수 있다. 실시예들에서 상기 오버랩/추가(overlap/add)는 LPC 가중된 도메인에서 수행될 수 있고, 그러면 가중된 신호는 가중된 필터의 역(inverse)을 통하여 필터링함으로써 상기 여기 신호로 컨버팅될 수 있다.

게다가, 실시예들에서, 예측된 합성 단계(88)는 선형 예측(linear prediction), 예를 들어 LPC에 기반하여 상기 프레임을 결정하도록 적응될 수 있다. 오디오 디코더(80)의 다른 실시예는 도 8b에 묘사된다. 도 8b에 묘사된 상기 오디오 디코더(80)는 도 8a에 묘사된 상기 오디오 디코더(80)와 같이 유사한 컴포넌트들(components)을 보여준다, 그러나, 도 8b에서 보여주는 상기 실시예에서 역 시간-에일리어싱 도입 변환기(inverse time-aliasing introducing transformer)(84)는 예측 도메인 프레임 스펙트럼들(prediction domain frame spectra)을 컨버팅된 오버래핑 예측 도메인 프레임들(overlapping prediction domain frames)로 컨버팅하는 컨버터(84a) 및 상기 오버래핑 예측 도메인 프레임들(overlapping prediction domain frames)을 획득하기 위해 윈도우잉(windowing) 함수를 상기 컨버팅된 오버랩핑 예측 도메인 프레임들(overlapping prediction domain frames)에 적용하는 윈도우잉(windowing) 필터(84b)를 더 포함한다.

도 8c는 도 8b에서 묘사된 실시예에서와 같이 유사한 구성 요소들을 갖는 오디오 디코더(80)의 다른 실시예를 보여준다. 도 8c에서 묘사된 실시예에서 상기 역 시간-에일리어싱 도입 변환기(inverse time-aliasing introducing transformer)(84)는 이벤트(event)를 탐색하고 만일 상기 이벤트가 윈도우잉(windowing) 필터(84b)에 탐색된다면 윈도우 시퀀스 정보(window sequence information)를 제공하는 처리기(processor)(84c)를 더 포함하고 상기 윈도우잉(windowing) 필터(84b)는 상기 윈도우 시퀀스 정보(window sequence information)에 따라 상기 윈도우잉(windowing) 함수를 적용하도록 적응된다. 상기 이벤트(event)는 모든 측면 정보(any side information) 또는 상기 인코딩된 프레임들에 의해 제공되거나 또는 모든 측면 정보(any side information) 또는 상기 인코딩된 프레임들로부터 얻은 표시(indication)일 수 있다.

오디오 인코더들(10) 및 오디오 디코더들(80)의 실시예들에서, 상기 각각의 윈도우잉 필터들(windowing filters) 17 및 84는 윈도우 시퀀스 정보(window sequence information)에 따라 윈도우잉 함수들(windowing functions)을 적용하도록 적응될 수 있다. 도 9는 샘플들을 감추는(masks) 윈도우인 제1 제로 부분(a first zero part), 프레임 예를 들어, 예측 도메인 프레임(prediction domain frame) 또는 오버래핑 예측 도메인 프레임(overlapping prediction domain frame)의 상기 샘플들이 변형되지 않고 통과되는 제2 바이패스 부분(a second bypass part) 및 프레임의 상기 끝에서 샘플들을 다시 감추는 제3 제로 부분(a third zero part)을 포함할 수 있는 윈도우 시퀀스 정보(window sequence information)가 있는 일반적인 직각의(rectangular) 윈도우를 묘사한다. 바꾸어 말하면, 윈도우잉(windowing) 함수들은 제1 제로 부분(a first zero part)에서 프레임의 많은 샘플들을 억제(suppress)하고, 제2 바이패스 부분(a second bypass part)에서 샘플들을 통과(pass)시키고 그 다음에 제3 제로 부분(a third zero part)에서 프레임의 끝에서 샘플들을 억제(suppress)하도록 적용될 수 있다. 이러한 맥락에서 억제하는 것(suppressing)은 윈도우의 상기 바이패스 부분의 끝 및/또는 시작에서 제로들(zeros)의 시퀀스(sequence)를 첨부하는 것에 대해 또한 언급할 수 있다. 상기 제2 바이패스 부분(second bypass part)은 상기 프레임의 상기 샘플들을 통하여 스위칭하는 상기 윈도우잉 함수(windowing function)가 단순하게 1, 예를 들어, 상기 샘플들은 변형되지 않고 통과되는 값(value)을 가질 수 있다.

도 10은 윈도우잉 시퀀스(windowing sequence) 또는 윈도우잉 함수(windowing function)의 다른 실시예를 보여주고, 여기서 상기 윈도우잉 시퀀스(windowing sequence)는 상기 제1 제로 부분(first zero part) 및 상기 제2 바이패스 부분(second bypass part) 사이에 상승 에지 부분(a rising edge part) 및 제2 바이패스 부분(second bypass part) 및 제3 제로 부분(third zero part) 사이에 하강 에지 부분(a falling edge part)을 더 포함한다. 상기 상승 에지 부분은 페이드-인(fade-in) 부분으로 또한 고려될 수 있고 상기 하강 에지 부분은 페이드-아웃(fade-out) 부분으로 고려될 수 있다. 실시예들에서, 상기 제2 바이패스 부분(second bypass part)은 상기 LPC 도메인 프레임의 상기 샘플들을 전혀 변형하지 않기 위한 이것들의 시퀀스(sequence)를 포함할 수 있다.

바꾸어 말하면, 상기 MDCT-기반의 TCX는 상기 mod[] 및 최종 모드(mode)의 last_lpd_mode 값에 의해 결정되는 lg, 많은 양자화된(quantized) 스펙트럼의 계수들(coefficients)을 상기 계산 디코더(arithmetic decoder)로부터 요구할 수 있다. 이들 두 개의 값들은 상기 역(inverse) MDCT에서 적용될 수 있는 윈도우 길이 및 모양을 또한 정의할 수 있다. 상기 윈도우는 L 샘플들의 좌측면 오버랩(a left side overlap), M 샘플들의 샘플들의 중간 부분(a middle part) 및 R 샘플들의 우측 오버랩 부분(a right overlap part)인 3개의 부분들로 구성될 수 있다. 길이 2*lg의 MDCT 윈도우를 획득하기 위해, ZL 제로들(zeros)은 좌측 및 ZR 제로들(zeros)은 우측에 추가될 수 있다.

아래의 표는 어떤 실시예들에 대한 last_lpd_mode 및 mod[]의 함수와 같은 스펙트럼의 계수들(coefficients)의 수를 설명한다:

last_lpd_mode의 값	mod[x]의 값	스펙트럼의 계수들의 수 lg	ZL	L	M	R	ZR
0	1	320	160	0	256	128	96
0	2	576	288	0	512	128	224
0	3	1152	512	128	1024	128	512
1..3	1	256	64	128	128	128	64
1..3	2	512	192	128	384	128	192
1..3	3	1024	448	128	896	128	448

상기 MDCT 윈도우는

로 주어진다.

실시예들은 다른 윈도우 함수들(window functions)의 애플리케이션(application)을 통하여 상기 MDCT, IDMCT 각각의 시스템적인 코딩 딜레이(a systematic coding delay)가 상기 본래의 MDCT와 비교할 때 낮아질 수 있는 이점을 제공할 수 있다. 이 이점에 관한 더 세부 사항을 제공하기 위해서, 도 11은 상단 첫째의 뷰 그래프는 도 11에서 위로부터 둘째의 그림(view) 그래프에서 보여주는 MDCT를 이용한 전통적인 삼각의 모양인 윈도우잉 함수들(triangular shaped windowing functions)에 기반하여 단위 시간 T에서 시스템적인 딜레이(systematic delay)를 보여주는 4개의 그림(view) 그래프를 보여준다.

여기서 고려되는 상기 시스템적인 딜레이(systematic delay)는 상기 샘플들을 전송 또는 인코딩하는 것에 대한 딜레이(delay)가 없다고 가정하여 샘플이 상기 디코더 단계에 도달한 때 샘플이 경험한 딜레이(delay)이다. 바꾸어 말하면, 도 11에서 보여주는 상기 시스템적인 딜레이(systematic delay)는 인코딩하는 것이 시작될 수 있기 전에 프레임의 상기 샘플들을 축적함으로써 일깨워진(evoked) 상기 인코딩 딜레이(encoding delay)를 고려한다. 상기에 설명된 것과 같이, T에서 상기 샘플을 디코딩하기 위해서, 0과 2T 사이의 상기 샘플들은 변환되어야 한다. 이는 다른 T의 T에서 상기 샘플에 대한 시스템적인 딜레이를 산출한다. 그러나, 상기 샘플 전 이 샘플 직후에는 디코딩될 수 있고, 2T에 집중된 상기 둘째의 윈도우의 모든 샘플들은 이용가능해야만 한다. 그러므로, 상기 시스템적인 딜레이(systematic delay)는 2T로 이동하고 둘째의 윈도우의 중심에서 T로 물러난다. 도 11에서 위로부터 셋째의 뷰 그래프는 일 실시예로 제공된 것으로 윈도우 함수의 시퀀스(sequence)를 보여준다. 상기 윈도우들의 상기 제로가 아닌 부분(non-zero part)의 상기 오버래핑 지역들(overlapping areas)이 2△t까지 감소했다는 것은 도 11에서 위로부터 둘째의 그림 차트(view chart)에서 기술(art) 윈도우들의 상태를 비교했을 때 보일 수 있다. 바꾸어 말하면, 상기 실시예들에서 사용되는 상기 윈도우 함수들은 종래 기술 윈도우들(prior art windows)과 같이 광범위하거나 넓지만, 예측되는 제1 제로 부분(a first zero part) 및 제3 제로 부분(a third zero part)을 갖는다.

바꾸어 말하면, 디코더는 제3 제로 부분(a third zero part)이 있다는 것을 이미 알고 따라서 디코딩은 각각 인코딩 이전에 시작될 수 있다. 그러므로, 상기 시스템적인 딜레이(systematic delay)는 도 11의 바닥에서 보여지는 것과 같이 2△t까지 감소될 수 있다. 바꾸어 말하면, 상기 디코더는 상기 제로 부분들을 기다릴 필요가 없고, 2△t를 절약할 수 있다. 물론 상기 디코딩 절차 이후에는 명백하고, 모든 샘플들은 동일한 시스템적인 딜레이를 갖는다. 도 11에서 상기 뷰 그래프는 샘플이 디코더에 도착할 때까지 샘플이 경험한 상기 시스템적인 딜레이를 단지 설명한다. 바꾸어 말하면, 디코딩 이후에 전체적인 시스템적인 딜레이는 종래 기술 접근법(prior art approach)에 대해서 2T이고, 상기 실시예에서 상기 윈도우들에 대해서 2T - 2△t이다.

이하에서 일 실시예는 어느 상기 MDCT는 상기 FFT를 대체하는 상기 AMR-WB+ 코덱으로 사용됨이 고려될 수 있다. 그러므로, 좌측 오버랩 지역(left overlap area) 또는 상승 에지 부분으로 "L", 상기 제2 바이패스 부분 또는 샘플들의 영역들(regions of ones)로 "M" 및 우측 오버랩 지역(right overlap area) 또는 하강 에지 부분으로 "R"을 정의하는 도 12에 따라 상기 윈도우들은 구체적으로 될 것이다. 게다가, 상기 제1 제로 및 상기 제3 제로 부분들이 고려된다. 그래서, 완전한 복원 프레임(in-frame perfect reconstruction)의 영역(region)은 도 12에서 화살표에 의해 표시되는 "PR"로 표시된다. 게다가, "T"는 예를 들어 제1 제로 부분(the first zero part), 상기 상승 에지 부분(the rising edge part) "L", 상기 제2 바이패스 부분(the second bypass part) "M", 상기 하강 에지 부분(the falling edge part) "R" 및 상기 제3 제로 부분(the third zero part)으로 구성되는 시간 도메인 샘플들의 수의 절반인 주파수 도메인 샘플들의 수와 일치하는 변환 중심(transform core)의 길이의 화살표를 표시한다. 그래서, 주파수 샘플들의 수는 상기 FFT 또는 상기 이산 코사인 변환(DCT = 이산 코사인 변환)에 대한 주파수 샘플들의 수가 T = L + M + R인 상기 MDCT를 사용할 때 MDCT에 대한 변환 코더 길이(transform coder length) T = L/2 + M + R/2 에 비하여 감소할 수 있다.

도 13a는 상단에 있는 AMR-WB+에 대한 윈도우 함수들의 예시 시퀀스의 그림(view) 그래프 설명한다. 도 13a의 상단에서 좌측부터 우측으로 상기 그림(view) 그래프는 ACELP 프레임, TCX20, TCX20, TCX40, TCX80, TCX20, TCX20, ACELP 및 ACELP를 보여준다. 점선은 이미 상기에서 설명한 대로 제로-입력 응답(zero-input response)을 보여준다.

도 13a의 아래에는 어떤 TCXx 프레임이 다른 TCXx 프레임을 따라갈 때 상기 좌측 오버래핑 부분(the left overlapping part) 또는 상기 상승 에지 부분(the rising edge part)이 L=128인 이 실시예에서 다른 윈도우 부분들에 대한 파라미터들의 테이블이 있다. ACELP 프레임이 TCXx 프레임을 따라갈 때, 유사한 윈도우들이 사용된다. 만일 TCX20 또는 TCX40 프레임이 ACELP 프레임을 따라간다면, 그러면 상기 좌측 오버래핑 부분(the left overlapping part)은, 예를 들어 L=0 무시될 수 있다. ACELP로부터 TCX80으로 변화할 때, L=128의 오버래핑 부분은 사용될 수 있다. 도 13a에 테이블에서 그림(view) 그래프로부터 완전한 복원 프레임(in-frame perfect reconstruction)에 대한 충분한 오버헤드(overhead)가 있는 만큼에 대한 비-임계 샘플링(non-critical sampling)에 머물기 위한 것이고, 가능한 빨리 임계 샘플링(critical sampling)을 스위칭하는 기본 이론이 보여질 수 있다. 바꾸어 말하면, ACELP 프레임 뒤의 단지 상기 제1 TCX 프레임은 상기 현재의 실시예와 함께 비-임계 샘플링(non-critically sampled)되어 남아있다.

도 13a의 아래에서 보여주는 테이블에서, 도 19에서 묘사된 것으로 전통적인 AMR-WB+에 대한 테이블에 관한 차이점들은 강조된다. 강조된 파라미터들(highlighted parameters)은 상기 오버래핑 지역(overlapping area)이 임계 샘플링(critically sampling)을 유지하는 동안에, 상기 윈도우의 주파수 응답이 개선되고 교차 페이딩(cross-over fading)이 더 부드럽게 수행될 수 있다는 그러한 것이 확장된 본 발명의 실시예들의 이점(advantage)을 표시한다.

도 13a의 아래에 테이블로부터 오직 ACELP에서 TCX로 변화들(transitions)에 대한 오버헤드(overhead)가 예를 들어 비-임계 샘플링(non-critical sampling)이 성취된, 오직 전이(transition) T>PR에 대하여 소개된다는 것을 볼 수 있다. 모든 TCXx에서 TCXx("x"는 어떤 프레임 기간을 나타낸다) 변화들에 대한 상기 변환 길이(transform length) T는 예를 들어 임계 샘플링(critical sampling)이 성취된 새로운 완벽하게 복원된(reconstructed) 샘플들의 수와 동일하다. 도 13b는 AMR-WB+의 상기 MDCT-기반 실시예에서 모든 가능한 변화들(transitions)에 대한 모든 윈도우들의 그래픽 표현들(graphical representations)을 갖는 테이블을 설명한다. 도 13a에 테이블에서 이미 표시된 것과 같이, 윈도우들의 좌측 부분 L은 이전의 TCX 프레임의 길이에 더 이상 좌우되지 않는다. 도 14b에서 그래픽 표현들은 다른 TCX 프레임들 사이에서 스위칭될 때 임계 샘플링(critical sampling)이 유지될 수 있다는 것을 또한 보여준다. TCX에서 ACELP로의 변화들(transitions)에 대해서, 128 샘플들의 오버헤드가 생성되는 것을 볼 수 있다. 윈도우들의 상기 좌측면이 상기 이전의 TCX 프레임의 길이에 좌우되지 않기 때문에, 도 13b에서 보여주는 상기 테이블은 도 14a에서 보여주는 것과 같이 간단해질 수 있다. 도 14a는 TCX 프레임들로부터 상기 변화들(transitions)이 한 줄로 요약될 수 있는 모든 가능한 변화들(transitions)에 대한 윈도우들의 그래픽 표현을 다시 보여준다.

도 14b는 ACELP로부터 TCX80 윈도우로 변화를 더 세부적으로 설명한다. 도 14b에서 뷰(view) 차트는 가로 좌표(abscissa)에서는 샘플들의 수 및 세로 좌표(ordinate)에서는 윈도우 함수를 보여준다. MDCT의 입력을 고려하면, 상기 좌측 제로 부분(left zero part)은 샘플 1부터 샘플 512까지 도달한다. 상기 상승 에지 부분(rising edge part)은 샘플 513 및 640 사이에, 상기 제2 바이패스 부분(second bypass part)은 641 및 1664 사이에, 상기 하강 에지 부분(falling edge part)은 1665 및 1792 사이에, 상기 제3 제로 부분(third zero part)은 1793 및 2304 사이에 있다. 상기 MDCT의 상기의 논의에 관하여, 현재의 발명에서 2304 시간 도메인 샘플들은 1152 주파수 도메인 샘플들로 변환된다. 상기의 설명에 따라, 상기 현재의 윈도우의 시간 도메인 에일리어싱 구역(time domain aliasing zone)은 예를 들어 L=128 샘플들을 가로질러 확장하는 상승 에지 부분 내에서 샘플들 513 및 640 사이에 있다. 다른 시간 도메인 에일리어싱 구역(time domain aliasing zone)은 예를 들어, R=128 샘플들의 하강 에지 부분(falling edge part) 샘플들 1665 및 1792 사이에서 확장된다. 제1 제로 부분(the first zero part) 및 제3 제로 부분(the third zero part) 때문에, M=1024 크기의 샘플 641 및 1664 사이에서 사용가능한 완전한 복원(perfect reconstruction)의 비-에일리어싱 구역(non-aliasing zone)이 있다. 도 14b에서 상기 ACELP 프레임은 샘플 640에서 점선 끝들(ends)로 표시된다. 다른 옵션들(options)은 상기 TCX 윈도우의 513 및 640 사이의 상승 에지 부분(rising edge part)의 샘플들에 관하여 유발된다. 하나의 옵션(One option)은 우선 샘플들을 폐기하고 상기 ACELP 프레임을 계속 사용하는 것이다. 다른 옵션(Another option)은 상기 TCX80 프레임에 대하여 시간 도메인 에일리어싱 소거(time domain aliasing cancelation)를 수행하기 위해 상기 ACELP 출력을 사용하는 것이다.

도 14c는 "TCXx"로 표시되는 어떤 TCX 프레임으로부터 TCX20 프레임으로 변화 및 어떤 TCXx 프레임으로 되돌아가는 변화를 설명한다. 도 14b에서 14f까지는 도 14b에 관하여 이미 묘사된 것과 같은 동일한 그림(view) 그래프 표현을 사용한다. 도 14c에서 샘플 256 주변의 중심에서 TCX20 윈도우는 묘사된다. 512 시간 도메인 샘플들은 상기 MDCT에 의해서 256 주파수 도메인 샘플들로 변환된다. 상기 시간 도메인 샘플들은 상기 제3 제로 부분에 대해서는 물론 상기 제1 제로 부분에 대한 64 샘플들을 사용한다. 그래서, M=128 크기의 비-에일리어싱 구역(non-aliasing zone)은 상기 TCX20 윈도우의 중심 주변에 확장된다. 샘플들 65 및 192 사이의 좌측 오버랩핑(left overlapping) 또는 상승 에지 부분(rising edge part)은 점선으로 표시된 것과 같은 상기의 윈도우의 하강 에지 부분(falling edge part)과 시간 도메인 에일리어싱 소거(time domain aliasing cancelation)에 대하여 결합할 수 있다. 그래서, 완전한 복원의 지역은 PR=256 크기를 초래한다. 모든 TCX 윈도우들의 모든 상승 에지 부분들(rising edge parts)이 L=128이고 모든 하강 에지 부분들(falling edge parts)을 R=128로 고정하기 때문에, 다음의 TCX 프레임들뿐만 아니라 이전의 TCX 프레임도 어떤 크기일 수 있다. ACELP로부터 TCX20까지 변화할 때 다른 윈도우는 도 14d에 표시된 것과 같이 사용될 수 있다. 도 14d로부터 볼 수 있는 것으로, 상기 상승 에지 부분(rising edge part)은, 예를 들어 직각의(rectangular) 에지 L=0으로 선택된다. 그래서, 완전한 복원의 상기 지역은 PR=256이다. 도 14e는 ACELP로부터 TCX40로 변화할 때 유사한 그림(view) 그래프를 보여주고, 또 다른 예로서; 도 14f는 어떤 TCXx 윈도우로부터 TCX80으로 어떤 TCXx 윈도우로 변화를 설명한다.

요약하면, 도 14b에서 f는 상기 MDCT 윈도우에 대한 상기 오버래핑 영역은 ACELP로부터 TCX20, TCX40 또는 ACELP로 변화하는 때의 경우를 제외하고는 항상 128 샘플들인 것을 보여준다.

TCX로부터 ACELP로 또는 ACELP로부터 TCX80로 변화할 때 다중 옵션들이 가능할 수 있다. 일 실시예에서 상기 MDCT TCX 프레임으로부터 샘플링된 상기 윈도우는 오버랩핑 지역에서 폐기될 수 있다. 다른 실시예에서 상기 윈도우된 샘플들(windowed samples)은 상기 오버래핑 영역(overlapping region)에서 상기 에일리어싱된(aliased) ACELP 샘플들에 기반하여 상기 MDCT TCX 샘플들에서 시간 도메인 에일리어싱(time domain aliasing)을 소거하도록 및 크로스-페이드(cross-fade)에 사용될 수 있다. 또 다른 실시예에서, 교차 페이딩(cross-over fading)은 상기 시간 도메인 에일리어싱(time domain aliasing)을 소거하는 것 없이 수행될 수 있다. ACELP에서 TCX로 변화에서 상기 제로-입력 응답(ZIR = zero-input response)은 윈도우잉(windowing)을 위해 인코더에서 제거될 수 있고 복원을 위해 디코더에서 추가될 수 있다. 그림들에서 다음의 ACELP 윈도우는 TCX 윈도우들 내에서 점선들로 표시된다. 현재의 실시예에서 TCX로부터 TCX로 변화할 때, 상기 윈도우된(windowed) 샘플들은 크로스-페이드(cross-fade)로 사용될 수 있다.

ACELP로부터 TCX80으로 변화할 때, 상기 프레임 길이는 길고, 시간 도메인 에일리어싱 소거(time domain aliasing cancelation) 또는 폐기 방법(discard method)으로 사용될 수 있는 상기 ACELP 프레임과 오버랩핑될 수 있다.

ACELP로부터 TCX80으로 변화할 때 상기 이전의 ACELP 프레임은 공명(ringing)을 도입할 수 있다. 상기 공명(ringing)은 LPC 필터링의 사용 때문에 이전의 프레임으로부터 오는 에러의 확산(spreading)으로 인식될 수 있다. TCX40 및 TCX20에 대하여 사용되는 ZIR 방법은 공명(ringing)에 대해 설명할 수 있다. 실시예들에서 상기 TCX80에 대한 변종(variant)은 예를 들어 상기 ACELP 프레임과 오버랩(overlap) 없이 1088의 변환 길이(transform length)를 갖는 상기 ZIR 방법을 사용하는 것이다. 다른 실시예에서 1152의 동일한 변환 길이(transform length)는 보유될 수 있고, 도 15에서와 같이 단지 상기 ZIR 전에 상기 오버랩 지역(overlap area)을 제로에 맞추는 것(zeroing)이 이용될 수 있다. 도 15는 상기 ZIR 방법을 사용하는 것 및 상기 오버랩된 지역(overlapped area)을 제로에 맞추는 것(zeroing)으로 ACELP에서 TCX80로 변화를 보여준다. 상기 ZIR 부분은 상기 ACELP 윈도우의 끝(end)을 따라 점선으로 또한 표시된다.

요약하면, 현재 발명의 실시예들은 임계 샘플링(critical sampling)이 TCX 프레임이 우선할 때, 모든 TCX 프레임들에 대하여 수행될 수 있는 이점을 제공한다. 전통적인 접근에 비하면 1/8^th의 오버헤드 감소(overhead reduction)는 성취될 수 있다. 게다가, 실시예들은 연속적인(consecutive) 프레임들 사이의 변화하는(transitional) 또는 오버랩핑 지역(overlapping area)은 항상 예를 들어, 상기 전통적인 AMR-WB+에 대해서 보다 더 긴 128 프레임들일 수 있는 이점을 제공한다. 상기 개선된 오버랩 지역들(overlap areas)은 개선된 주파수 응답 및 더 부드러운 크로스-페이드(cross-fade)를 또한 제공한다. 그래서 더 좋은 신호 품질(quality)은 전반적인 인코딩 및 디코딩 과정에서 성취될 수 있다.

본 발명의 방법들의 특정 구현 요구사항들에 따라, 본 발명의 방법들은 하드웨어 또는 소프트웨어로 구현될 수 있다. 구현은 디지털 저장 매체 특히, 디스크, DVD, 플래시 메모리 또는 CD를 사용하여 수행될 수 있고, 이들은 전자적으로 판독가능한 제어 신호들을 가지며, 이러한 신호는 본 발명의 방법들이 수행되도록 프로그래머블 컴퓨터 시스템과 협업한다. 일반적으로, 본 발명은 기계 판독가능한 매체에 저장된 컴퓨터상에서 컴퓨터 프로그램 제품이 운영될 때 본 발명의 방법들을 수행하기 위해 작동되는 프로그램 코드를 갖는 컴퓨터 프로그램 제품이다. 바꾸어 말하면, 본 발명의 방법들은 상기 컴퓨터 프로그램이 컴퓨터상에서 작동될 때 본 발명의 방법들의 적어도 하나를 수행하는 프로그램 코드를 갖는 컴퓨터 프로그램이다.

Claims

인코딩된 프레임들을 획득하기 위해 샘플링된 오디오 신호의, 여러 시간 도메인 오디오 샘플들을 포함하는, 프레임들을 인코딩하도록 구성된 오디오 인코더(10)에 있어서,
오디오 샘플들의 프레임에 기반하여 예측 도메인 프레임 및 합성 필터(synthesis filter)의 계수들에 관한 정보를 결정하는 예측 코딩 분석 스테이지(stage)(12);
예측 도메인 프레임 스펙트럼들을 획득하기 위해 오버래핑(overlapping) 예측 도메인 프레임들을 주파수 도메인으로 변환하되, 임계-샘플링된(critically-sampled) 방법으로 상기 오버래핑 예측 도메인 프레임들을 변환하도록 구성된 시간-에일리어싱(time-aliasing) 도입 변환기(14);
인코딩된 예측 도메인 프레임 스펙트럼들 및 상기 계수들에 기반하여 인코딩된 프레임들을 획득하기 위해 상기 예측 도메인 프레임 스펙트럼들을 인코딩하는 중복성(redundancy) 감소 인코더(16);
코드북(codebook) 인코딩된 예측 도메인 프레임을 획득하기 위해 기결정된(predetermined) 코드북에 기반하여 상기 예측 도메인 프레임들을 인코딩하는 코드북 인코더(13); 및
코딩 효율성 측정(coding efficiency measure)에 기반하여 최종 인코딩된 프레임을 획득하기 위해 인코딩된 예측 도메인 프레임을 사용할 것인지 코드북 인코딩된 예측 도메인 프레임을 사용할 것인지를 결정하는 결정기(15)를 포함하는 오디오 인코더(10).
청구항 1에 있어서,
상기 예측 도메인 프레임은 상기 합성 필터(synthesis filter)에 대한 여기(excitation) 신호의 샘플들을 포함하는 여기 프레임에 기반하는, 오디오 인코더(10).
청구항 1에 있어서,
상기 시간-에일리어싱(time-aliasing) 도입 변환기(14)는 상기 예측 도메인 프레임에서 샘플들의 평균 개수와 상기 예측 도메인 프레임 스펙트럼의 샘플들의 평균 개수가 동일하도록 오버래핑 예측 도메인 프레임들을 변환하도록 구성된 오디오 인코더(10).
청구항 1에 있어서,
상기 시간-에일리어싱 도입 변환기(14)는 변형 이산 코사인 변환(MDCT : modified discrete cosine transform)에 따라 오버래핑 예측 도메인 프레임들을 변환하도록 구성된 오디오 인코더(10).
청구항 1에 있어서,
상기 시간-에일리어싱 도입 변환기(14)는 오버래핑 예측 도메인 프레임들에 윈도우잉 함수(windowing function)를 적용하는 윈도우잉 필터(17) 및 윈도우된(windowed) 오버래핑 예측 도메인 프레임들을 상기 예측 도메인 프레임 스펙트럼들로 컨버팅(converting)하는 컨버터(18)를 포함하는, 오디오 인코더(10).
청구항 5에 있어서,
상기 시간-에일리어싱 도입 변환기(14)는 이벤트(event)를 탐지(detecting)하고, 이벤트가 탐지된 경우 윈도우 시퀀스 정보를 제공하는 처리기(processor)(19)를 포함하고, 상기 윈도우잉 필터(17)는 상기 윈도우 시퀀스 정보에 따라 상기 윈도우잉 함수를 적용하도록 구성된, 오디오 인코더(10).
청구항 6에 있어서,
상기 윈도우 시퀀스 정보는 제1 제로 부분(a first zero part), 제2 바이패스 부분(a second bypass part) 및 제3 제로 부분(a third zero part)을 포함하는, 오디오 인코더(10).
청구항 7에 있어서,
상기 윈도우 시퀀스 정보는 상기 제1 제로 부분과 상기 제2 바이패스 부분 사이의 상승 에지 부분(a rising edge part) 및 상기 제2 바이패스 부분과 상기 제3 제로 부분 사이의 하강 에지 부분(a falling edge part)을 포함하는, 오디오 인코더(10).
청구항 8에 있어서,
상기 제2 바이패스 부분은 상기 예측 도메인 프레임 스펙트럼들의 상기 샘플들을 변형하지 않도록 하는 윈도우들의 시퀀스를 포함하는, 오디오 인코더(10).
청구항 1에 있어서,
상기 예측 코딩 분석 스테이지(stage)(12)는 선형 예측 코딩(LPC : linear predictive coding)에 기반하여 상기 계수들에 관한 정보를 결정하도록 구성된, 오디오 인코더(10).
삭제
인코딩된 프레임들을 획득하기 위해 샘플링된 오디오 신호의, 여러 시간 도메인 오디오 샘플들을 포함하는, 프레임들을 인코딩하는 방법에 있어서,
오디오 샘플들의 프레임에 기반하여 합성 필터에 대한 계수들에 관한 정보를 결정하는 단계;
오디오 샘플들의 상기 프레임에 기반하여 예측 도메인 프레임을 결정하는 단계;
시간 에일리어싱(time aliasing)을 도입한 임계-샘플링된 방법(critically-sampled way)으로 예측 도메인 프레임 스펙트럼들을 획득하기 위해 오버래핑 예측 도메인 프레임들을 주파수 도메인으로 변환하는 단계;
상기 계수들 및 인코딩된 예측 도메인 프레임 스펙트럼들에 기반하여 인코딩된 프레임들을 획득하기 위해 상기 예측 도메인 프레임 스펙트럼들을 인코딩하는 단계;
코드북(codebook) 인코딩된 예측 도메인 프레임을 획득하기 위해 기 결정된(predetermined) 코드북에 기반하여, 코드북 인코더(13)에 의해, 상기 예측 도메인 프레임들을 인코딩하는 단계; 및
코딩 효율성 측정(coding efficiency measure)에 기반하여 최종 인코딩된 프레임을 획득하기 위해 인코딩된 예측 도메인 프레임을 사용할 것인지 코드북 인코딩된 예측 도메인 프레임을 사용할 것인지를 결정하는 단계를 포함하는 샘플링된 오디오 신호의 프레임들을 인코딩하는 방법.
인코딩된 프레임들을 획득하기 위해 샘플링된 오디오 신호의 프레임들을 인코딩하는 청구항 12의 인코딩 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
샘플링된 오디오 신호의 프레임들을 획득하기 위해, 인코딩된 프레임들을 디코딩하는 오디오 디코더(80)로서, 하나의 프레임은 여러 시간 도메인 오디오 샘플들을 포함하는, 오디오 디코더(80)에 있어서,
합성 필터 및 예측 도메인 프레임 스펙트럼들에 대한 계수들에 관한 정보를 획득하기 위해 상기 인코딩된 프레임들을 디코딩하는 중복성 검색 디코더(redundancy retrieving decoder)(82);
오버래핑 예측 도메인 프레임들을 획득하기 위해 상기 예측 도메인 프레임 스펙트럼들을 시간 도메인으로 변환하는 역 시간-에일리어싱(inverse time-aliasing introducing) 도입 변환기(84)로서, 상기 역 시간-에일리어싱 도입 변환기(84)는 연속적인(consecutive) 예측 도메인 프레임 스펙트럼들로부터 오버래핑 예측 도메인 프레임들을 결정하도록 구성되고, 상기 역 시간-에일리어싱 도입 변환기(84)는 예측 도메인 프레임 스펙트럼들을 컨버팅된 오버래핑 예측 도메인 프레임들로 컨버팅하는 컨버터(84a) 및 상기 오버래핑 예측 도메인 프레임들을 획득하기 위해 윈도우잉(windowing) 함수를 상기 컨버팅된 오버래핑 예측 도메인 프레임들에 적용하는 윈도우잉 필터(84b)를 포함하고, 상기 역 시간-에일리어싱 도입 변환기(84)는, 이벤트를 탐지하고 만일 상기 이벤트가 탐지되면 윈도우 시퀀스 정보를 상기 윈도우잉 필터(84b)로 제공하는 처리기(84c)를 포함하고, 상기 윈도우잉 필터(84b)는 상기 윈도우 시퀀스 정보에 따라 상기 윈도우잉 함수를 적용하도록 구성되며, 상기 윈도우 시퀀스 정보는 제1 제로 부분, 제2 바이패스 부분 및 제3 제로 부분을 포함하는, 상기 역 시간-에일리어싱 도입 변환기(84);
임계-샘플링된 방법으로 예측 도메인 프레임을 획득하기 위해 오버래핑 예측 도메인 프레임들을 결합하는 오버랩/추가(add) 결합기(86); 및
상기 계수들 및 상기 예측 도메인 프레임에 기반하여 오디오 샘플들의 상기 프레임들을 결정하는 예측 합성 스테이지(stage)(88)를 포함하는 오디오 디코더(80).
청구항 14에 있어서,
상기 오버랩/추가 결합기(86)는 예측 도메인 프레임 스펙트럼에서 샘플들의 평균 개수와 예측 도메인 프레임에서 샘플들의 평균 개수가 동일하도록 오버래핑 예측 도메인 프레임들을 결합하도록 구성된, 오디오 디코더(80).
청구항 14에 있어서,
상기 역 시간-에일리어싱 도입 변환기(84)는 역 변형 이산 코사인 변환(IMDCT : inverse modified discrete cosine transform)에 따라 상기 예측 도메인 프레임 스펙트럼들을 시간 도메인으로 변환하도록 구성된, 오디오 디코더(80).
청구항 14에 있어서,
상기 예측 합성 스테이지(stage)(88)는 선형 예측 코딩(LPC: linear prediction coding)에 기반하여 오디오 샘플들의 프레임을 결정하도록 구성된, 오디오 디코더(80).
청구항 17에 있어서,
상기 윈도우 시퀀스는 상기 제1 제로 부분과 상기 제2 바이패스 부분 사이의 상승 에지 부분 및 상기 제2 바이패스 부분과 상기 제3 제로 부분 사이의 하강 에지 부분을 더 포함하는 오디오 디코더(80).
청구항 18에 있어서,
상기 제2 바이패스 부분은 예측 도메인 프레임 샘플들을 변형하기 위한 윈도우들의 시퀀스를 포함하는 오디오 디코더(80).
샘플링된 오디오 신호의 프레임들을 획득하기 위해, 인코딩된 프레임들을 디코딩하는 방법으로서, 하나의 프레임은 여러 시간 도메인 오디오 샘플들을 포함하는, 디코딩하는 방법에 있어서,
합성 필터 및 예측 도메인 프레임 스펙트럼들에 대한 계수들에 관한 정보를 획득하기 위해 상기 인코딩된 프레임들을 디코딩하는 단계;
연속적인(consecutive) 예측 도메인 프레임 스펙트럼들로부터 오버래핑 예측 도메인 프레임들을 획득하기 위해 상기 예측 도메인 프레임 스펙트럼들을 시간 도메인으로 변환하는 단계;
임계 샘플링된 방법(critically sampled way)으로 예측 도메인 프레임을 획득하기 위해 오버래핑 예측 도메인 프레임들을 결합하는 단계; 및
상기 계수들 및 상기 예측 도메인 프레임에 기반하여 상기 프레임을 결정하는 단계를 포함하되,
상기 예측 도메인 프레임 스펙트럼들을 시간 도메인으로 변환하는 단계는,
상기 예측 도메인 프레임 스펙트럼들을 컨버팅된(converted) 오버래핑 예측 도메인 프레임들로 컨버팅(converting)하는 단계;
상기 오버래핑 예측 도메인 프레임들을 획득하기 위해, 윈도우잉(windowing) 필터(84b) 의해, 윈도우잉 함수를 상기 컨버팅된 오버래핑 예측 도메인 프레임들에 적용하는 단계; 및
이벤트를 탐지하고, 상기 이벤트가 탐지되면 윈도우 시퀀스 정보를 상기 윈도우잉 필터(84b)로 제공하는 단계를 포함하고,
상기 윈도우잉 필터(84b)는 상기 윈도우 시퀀스 정보에 따라 상기 윈도우잉 함수를 적용하도록 구성되고, 상기 윈도우 시퀀스 정보는 제1 제로 부분, 제2 바이패스 부분 및 제3 제로 부분을 포함하는, 인코딩된 프레임들을 디코딩하는 방법.
샘플링된 오디오 신호의 프레임들을 획득하기 위해 인코딩된 프레임들을 디코딩하는 청구항 20의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
삭제
삭제
삭제
삭제
삭제