KR20110055545A

KR20110055545A - 오디오 샘플 인코드 및 디코드용 오디오 인코더 및 디코더

Info

Publication number: KR20110055545A
Application number: KR1020117003176A
Authority: KR
Inventors: 예레미 레콤테; 필리페 고우르나이; 슈테판 바이에르; 마르쿠스 물트루스; 브루노 베셋; 베른하르트 그릴
Original assignee: 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우
Priority date: 2008-07-11
Filing date: 2009-06-26
Publication date: 2011-05-25
Also published as: CA2730204A1; WO2010003563A1; CN102089811A; BRPI0910512B1; MY159110A; MY181247A; EP2311032A1; EP3002750A1; PL3002750T3; KR101325335B1; ZA201100089B; CN102089811B; BRPI0910512A2; CA2871498C; EP3002750B1; AU2009267466A1; HK1223453A1; HK1155552A1; EP2311032B1; JP2011527453A

Abstract

제1 인코딩 영역의 오디오 샘플을 인코드하기 위한 제1 시간 영역 에일리어싱 도입 인코더로서, 제1 프레이밍 규칙, 개시 윈도우 및 정지 윈도우를 갖는 제1 시간 영역 에일리어싱 도입 인코더(110)를 포함하는, 오디오 샘플을 인코드하기 위한 오디오 인코더(100)이다. 오디오 인코더(100)는 제2 인코딩 영역의 샘플을 인코드하기 위한 제2 인코더(120)로서, 상이한 제2 프레이밍 규칙을 갖는 제2 인코더(120)를 또한 포함한다. 오디오 인코더(100)는 오디오 샘플의 특성에 따라 제1 인코더(110)로부터 제2 인코더(120)로의 전환을 위한, 그리고 제1 인코더(110)로부터 제2 인코더(120)로의 전환에 따라 제2 프레이밍 규칙을 수정하기 위한 또는 제1 인코더(110)의 개시 윈도우 또는 정지 윈도우를 수정하기 위한 - 제2 프레이밍 규칙은 수정되지 않은 채로 남아 있음 - 제어기(130)를 또한 포함한다.

Description

오디오 샘플 인코드 및 디코드용 오디오 인코더 및 디코더 {AUDIO ENCODER AND DECODER FOR ENCODING AND DECODING AUDIO SAMPLES}

본 발명은 상이한 코딩 영역들(coding domains), 예컨대 시간-영역(time-domain) 및 변환 영역(transform domain)에서의 오디오 코딩의 분야이다.

낮은 비트율 오디오(low bitrate audio) 및 스피치(speech) 코딩 기술의 컨텍스트(context)에 있어서, 주어진 비트율에서 최고의 가능성 있는 주관적 품질(subjective quality)을 갖는 그러한 신호의 낮은 비트율 코딩을 달성하기 위해, 몇몇의 상이한 코딩 기술들이 전통적으로 채용되어 왔다. 일반적인 음악(music)/소리(sound) 신호용 코더(coder)는, 지각적 모델(perceptual model)(“지각적 오디오 코딩”)에 의해 입력 신호로부터 추정되는 마스킹 역치 곡선(masking threshold curve)에 따른 양자화 오차(quantization error)의 스펙트럼의 (그리고 시간의) 형태를 형성하는 것에 의해 주관적 품질을 최적하는 것을 목표로 한다. 한편, 매우 낮은 비트율에서의 스피치의 코딩은, 그것이 인간 스피치의 프로덕션 모델(production model)에 기반할 때, 즉, 잔차 여기 신호의 효율적인 코딩과 함께 인간 성도(vocal tract)의 공명 효과를 모델링하는데 선형 예측 코딩(Linear Predictive Coding; “LPC”)을 채용하는 것에 기반할 때, 매우 효율적으로 작동하는 것이 나타났다.

이러한 2가지 상이한 접근법의 결과로, MPEG-I Layer 3(MPEG = Moving Pictures Expert Group), 또는 MPEG-2/4 Advanced Audio Coding(AAC)과 같은, 일반적인 오디오 코더는 일반적으로, 스피치 소스 모델의 이용의 결여로 인해, 전용의 LPC 기반 스피치 코더에서와 같이 매우 낮은 데이터 비율에서의 스피치 신호에 대해서도 잘 실행되지 않는다. 역으로, LPC 기반 스피치 코더는 일반적으로, 일반적인 음악 신호에 적용될 때, 마스킹 역치 곡선에 따른 코딩 왜곡의 스펙트럼 포락선(spectral envelope)을 유연성 있게 형성할 수 없는 그것들의 무능력으로 인해, 납득할 수 있는 결과를 얻지 못한다. 하기에서는, LPC 기반 코딩과 지각적 오디오 코딩의 양쪽의 장점들을 단일의 프레임워크(framework)로 결합하는 개념들이 기술되며, 따라서 양쪽의 일반적인 오디오 및 스피치 신호들에 대해 유효한 통합된 오디오 코딩을 기술한다.

전통적으로, 지각적 오디오 코더는, 유효하게 오디오 신호를 코딩하고 마스킹 곡석의 추정에 따른 양자화 왜곡을 형성하기 위해 필터뱅크(filterbank) 기반 접근법을 사용한다.

도 16a는 모노포닉(monophonic)의 지각적 코딩 시스템의 기본 블록도이다. 분석 필터뱅크(1600)는 시간 영역 샘플(time domain sample)을 서브샘플화된(subsampled) 스펙트럼 구성요소로 매핑하는데 사용된다. 스펙트럼 구성 요소의 개수에 따라, 시스템은 서브밴드 코더(subband coder)(소수의 서브 밴드, 예컨대, 32) 또는 변환 코더(transform coder)(다수의 주파수 라인, 예컨대, 512)로도 불리운다. 지각적(“음향 심리적(psychoacoustic)”) 모델(1602)은 실제 시간 의존 마스킹 역치를 추정하는데 사용된다. 스펙트럼(“서브밴드” 또는 “주파수 영역”) 구성 요소들은, 양자화 노이즈가 실제 전송 신호 아래에 숨겨지고 디코딩 후에 지각적이지 않도록, 양자화되고 코딩된다(1604). 이것은 시간 및 주파수에 걸쳐서 스펙트럼 값의 양자화의 입도(granularity)를 변화시키는 것에 의해 달성된다.

양자화되고 엔트로피-인코드된(entropy-encoded) 스펙트럼 계수 또는 서브밴드 값은, 사이드 정보(side information)와 더하여서, 전송 또는 저장되기에 적합한 인코드된 오디오 신호를 제공하는 비트스트림 포매터(bitstream formatter)(1606)내로 입력된다. 블록(1606)의 출력 비트스트림은 인터넷을 통해 전송될 수 있고 또는 임의의 기계 판독 가능 데이터 캐리어(machine readable data carrier)에 저장될 수 있다.

디코더-측에서는, 디코더 입력 인터페이스(decoder input interface)(1610)가 인코드된 비트스트림을 수신한다. 블록(1610)은 엔트로피-인코드되고 양자화된 스펙트럼/서브밴드 값을 사이드 정보로부터 분리한다. 인코드된 스펙트럼 값들은, 1610과 1620 사이에 위치되는 후프만(Huffman) 디코더와 같은 엔트로피-디코더내로 입력된다. 이러한 엔트로피 디코더의 출력은 양자화된 스펙트럼 값이다. 이러한 양자화된 스펙트럼 값은 도 16a에서 1620에 표시된 바와 같이 “역” 양자화를 실행하는 재양자화기(requantizer)내로 입력된다. 블록(1620)의 출력은, 주파수/시간 변환을 포함하는 합성 필터링(synthesis filtering) 및, 일반적으로, 출력 오디오 신호를 최종적으로 획득하기 위해 합성-측 윈도윙(windowing) 동작 및/또는 가산 및 중첩과 같은 시간 영역 에일리어싱 제거 동작(time domain aliasing cancellation operation)을 실행하는 합성 필터뱅크(1622)내로 입력된다.

전통적으로, 유효한 스피치 코딩은, 잔차 여기 신호의 유효한 코딩과 함께 인간 성도의 공명 효과를 모델링하기 위해 선형 예측 코딩(LPC)에 기반하여 왔다. LPC 및 여기 파라미터의 양쪽은 인코더로부터 디코더로 전송된다. 이러한 원리는 도 17a 및 17b에 예시되어 있다.

도 17a는 선형 예측 코딩에 기반하는 인코딩/디코딩 시스템의 인코더-측을 표시한다. 스피치 입력은, 그 출력에서, LPC 필터 계수를 제공하는, LPC 분석기(1701)내로 입력된다. 이러한 LPC 필터 계수에 기반하여, LPC 필터(1703)가 조정된다. LPC 필터는, “예측 오차 신호”로도 불리는 스펙트럼 백화 오디오 신호(spectrally whitened audio signal)를 출력한다. 이러한 스펙트럼 백화 오디오 신호는, 여기 파라미터(excitation parameter)를 생성하는 여기/잔차 코더(1705)내로 입력된다. 따라서, 스피치 출력은 한쪽에서는 여기 파라미터로 인코드되고, 다른 쪽에서는 LPC 계수로 인코드된다.

도 17b에 예시된 디코더-측에서는, 여기 파라미터가, LPC 합성 필터내로 입력될 수 있는 여기 신호를 생성하는 여기 디코더(1707)내로 입력된다. LPC 합성 필터는 전송된 LPC 필터 계수를 이용하여 조정된다. 따라서, LPC 합성 필터(1709)는 재구성 또는 합성된 스피치 출력 신호를 생성한다.

시간이 흐르면서, 다수-펄스 여기(Multi-Pulse Excitation; “MPE”), 정규 펄스 여기(Regular Pulse Excitation; “RPE”), 및 코드-여기된 선형 예측(Code-Excited Linear Prediction; “CELP”)의 유효하고 지각적으로 납득할 수 있는 잔차 (여기) 신호의 묘사에 관하여 많은 방법들이 제안되어 왔다.

선형 예측 코딩은, 과거 관찰의 선형 조합으로서 과거 값의 특정 개수의 관찰에 기반하여 시퀀스의 현재 샘플 값의 추정을 생성하도록 시도한다. 입력 신호의 여분을 감소시키기 위해서, 인코더 LPC 필터는, 그 스펙트럼 포락선의 입력 신호를 “백화”시킨다, 즉, 신호의 스펙트럼 포락선의 역의 모델이다. 역으로, 디코더 LPC 합성 필터는 신호의 스펙트럼 포락선의 모델이다. 구체적으로, 주지의 자기 회귀(auto-regressive; “AR”) 선형 예측 분석은 올-폴 추정(all-pole approximation)에 의해 신호의 스펙트럼 포락선을 모델링하는 것으로 알려져 있다.

일반적으로, 협대역(narrow band) 스피치 코더(즉, 8kHz의 샘플링 비율을 갖는 스피치 코더)는 8과 12 사이의 순서를 가진 LPC 필터를 채용한다. LPC 필터의 본질로 인해, 균일한 주파수 분해능이 전체의 주파수 범위 내내 유효하다. 이것은 지각적인 주파수 스케일(frequency scale)에 대응하지 않는다.

전통적인 LPC/CELP 기반 코딩(스피치 신호에 대해서 최상의 품질) 및 전통적인 필터뱅크 기반의 지각적 오디오 코딩 접근법(음악에 대해서 최상)의 장점들을 조합하기 위해, 이들 아키텍쳐간의 조합된 코딩이 제안되어 왔다. 「AMR-WB+(AMR-WB = Adaptive Multi-Rate WideBand) 코더 비. 바셋(B. Bessette), 알. 레페브레(R. Lefebvre), 알. 살라미(R. Salami), “UNIVERSAL SPEECH/AUDIO. CODING USING HYBRID ACELP/TCX TECHNIQUES,” Proc. IEEE ICASSP 2005, 301~304 페이지, 2005년」에서는, 2개의 교호의 코딩 커널이 LPC 잔차 신호상에 작용한다. 그 중 하나는 ACELP(ACELP = Algebraic Code Excited Linear Prediction)에 기반하며, 따라서 스피치 신호의 코딩에 대해서 대단히 유효하다. 다른 하나의 코딩 커널은 TCX(TCX = Transform Coded Excitation), 즉, 음악 신호에 대해 양호한 품질을 얻기 위해 전통의 오디오 코딩 기술을 닮은 필터 뱅크 기반 코딩 접근법에 기반한다. 입력 신호의 특성에 따라, 2개의 코딩 코드 중 하나가, LPC 잔차 신호를 송신하기 위해 짧은 기간동안 선택된다. 이러한 식으로, 80ms 지속 시간의 프레임들은, 2개의 코딩 코드들간의 결정이 만드는, 40ms 또는 20ms의 서브프레임들로 분할될 수 있다.

「AMR-WB+(AMR-WB+ = extended Adaptive Multi-Rate WideBand codec), 예컨대, 3GPP(3GPP = Third Generation Partnership Project) 기술 사양 번호 26.290, 버전 6.3.0, 2005년 6월」은, 2개의 본질적으로 상이한 모드 ACELP와 TCX 사이를 전환시킬 수 있다. ACELP 모드에 있어서, 시간 영역 신호는 대수 코드 여기(algebraic code excitation)에 의해 코드화된다. TCX 모드에 있어서, 고속 푸리에 변환(FFT = fast Fourier transform)이 사용되며, (LPC 여기가 도출될 수 있는) LPC 가중 신호의 스펙트럼 값이 벡터 양자화에 기반하여 코드화된다.

사용하고자 하는 모드의 결정은, 양쪽 옵션을 시도하고 디코드하며, 결과적인 단편적 신호 대 잡음비(NR = Signal-to-Noise Ratio)를 비교하는 것에 의해 취해질 수 있다.

이러한 경우는, 양쪽의 코딩 성능 또는 효율을 각각 평가하고 그 다음에 더 나은 SNR을 가진 것을 선택하는 폐루프 결정 - 제어 폐루프가 있으므로 - 으로도 불리운다.

오디오 및 스피치 코딩 응용에 있어서, 윈도윙이 없는 블록 변환은 실행될 수 없다는 것은 주지이다. 따라서, TCX 모드에 있어서, 신호는 8분의 1의 중첩을 가진 낮은 중첩 윈도우로 윈도윙된다. 이러한 중첩 영역은, 예컨대, 연속적인 오디오 프레임들내의 상관되지 않은 양자화 노이즈로 인한 흠결을 억제하도록, 이전의 블록 또는 프레임을 페이드-아웃(fade-out)하면서 후속하는 블록 또는 프레임을 페이드-인(fade-in)하기 위해서, 필요하다. 이러한 식으로, 비-임계 샘플링에 비교되는 오버헤드(overhead)는 합리적으로 낮게 유지되고, 폐루프 결정을 위해 필요한 디코딩은 현재 프레임의 샘플들 중 적어도 8분의 7을 재구성한다.

AMR-WB+는 TCX 모드에서 오버헤드의 8분의 1을 도입한다, 즉, 코드화될 스펙트럼 값의 개수는 입력 샘플의 개수보다 더 높은 8분의 1이다. 이것은 증가된 데이터 오버헤드의 단점을 제공한다. 또한, 대응하는 대역 통과 필터의 주파수 응답은, 연속적인 프레임들 중 8분의 1의 가파른 중첩 영역으로 인해, 불리하다.

연속적인 프레임들의 중첩 및 코드 오버헤드를 더욱 정교하게 만들기 위해서, 도 18은 윈도우 파라미터들의 정의를 예시한다. 도 18에 도시된 윈도우는, “L”로 표시되고 좌측 중첩 영역으로도 불리우는, 좌측의 상승 에지 부분, 1의 영역 또는 바이패스(bypass) 부분으로도 불리우는, “1”로 표시되는 중앙 영역, 및 “R”로 표시되고 우측 중첩 영역으로도 불리우는 하강 에지 부분을 갖는다. 또한, 도 18은 프레임내의 완벽한 재구성의 영역 “PR”을 지시하는 화살표를 도시한다. 또한, 도 18은 “T”로 표시되는, 변환 코어(transform core)의 길이를 지시하는 화살표를 도시한다.

도 19는 도 18에 따른 윈도우 파라미터의 표를 하부에서 그리고 AMR-WB+ 윈도우들의 시퀀스의 뷰 그래프(view graph)를 도시한다. 도 19의 상부에 도시된 윈도우들의 시퀀스는 ACELP, TCX20(20ms 지속시간의 프레임용), TCX20, TCX40 (40ms 지속시간의 프레임용), TCX80(80ms 지속시간의 프레임용), TCX20, TCX20, ACELP, ACELP이다.

윈도우들의 시퀀스로부터, 중앙 부분 M의 정확히 8분의 1만큼 중첩하는, 다양한 중첩 영역들을 볼 수 있다. 도 19의 하부에서의 표는, 변환 길이 “T”가 새로운 완벽하게 재구성되는 샘플 “PR”의 영역보다 항상 8분의 1만큼 더 크다는 것을 또한 나타낸다. 또한, 이것은 ACLP의 TCX로의 천이에 대한 경우만이 아니고, TCXx의 TCXx로의 천이(여기서, “x”는 임의 길이의 TCX 프레임들을 나타냄)에 대한 것이기도 하다는 것이 주목되어진다. 따라서, 각 블록에 있어서 8분의 1의 오버헤드가 도입된다, 즉, 임계 샘플링이 결코 달성되지 않는다.

TCX로부터 ACELP로의 전환시에, 윈도우 샘플들은, 예컨대, 1900으로 참조번호가 부여된 영역에 의해 도 19의 상부에 표시되는 바와 같이, 중첩 영역의 FFT-TCX 프레임으로부터 폐기된다. ACELP로부터 TCX로의 전환시에, 도 19의 상부에 점선(1910)으로 또한 표시되는, 제로 입력 응답(ZIR = zero-input response)이 윈도윙 전에 인코더에서 제거되며 리커버링(recovering)을 위해 디코더에 가산된다. TCX로부터 TCX 프레임들로의 전환시에, 윈도윙된 샘플들이 크로스 페이드(cross-fade)를 위해 사용된다. TCX 프레임들이 상이하게 양자화될 수 있기 때문에, 연속 프레임들 사이에서의 양자화 오차 또는 양자화 노이지는 상이할 수 있고 그리고/또는 독립적일 수 있다. 그와 함께, 크로스 페이드 없이 하나의 프레임으로부터 다음 프레임으로의 전환시에, 주목할만한 흠결이 발생할 수 있고, 그리하여, 크로스 페이드는 일정한 품질을 획득하기 위해 필요하다.

도 19의 하부에서의 표로부터, 크로스 페이드 영역이 프레임의 성장 길이로 성장한다는 것을 볼 수 있다. 도 20은 AMR-WB+에서의 가능성 있는 천이에 대한 상이한 윈도우들의 예시가 있는 다른 표를 제공한다. TCX로부터 ACELP로의 천이시에, 중첩 샘플들이 폐기될 수 있다. ACELP로부터 TCX로의 천이시에, ACELP로부터의 제로 입력 응답이 인코더에서 제거되고 리커버링을 위해 디코더에 가산될 수 있다.

하기에는, 시간-영역(TD = Time-Domain) 및 주파수-영역(FD = Frequency-Domain) 코딩을 활용하는 오디오 코딩이 설명될 것이다. 또한, 2개의 코딩 영역 사이에서, 전환이 활용될 수 있다. 도 21에 있어서, 제1 프레임(2101)이 FD-코더에 의해 인코드되고, TD-코더에 의해 인코드되고 제1 프레임(2101)과 영역(2102)에서 중첩하는 다른 프레임이 뒤를 잇는 동안의 시간라인이 도시된다. 시간-영역 인코드된 프레임(2103) 다음에는, 주파수-영역으로 다시 인코드되고 이전의 프레임(2103)과 영역(2104)에서 중첩하는 프레임(2105)이 있다. 중첩 영역들(2102 및 2104)은 코딩 영역이 전환될 때마다 발생한다.

이러한 중첩 영역들의 목적은 천이를 원활하게 하는 것이다. 하지만, 중첩 영역들은 여전히 코딩 효율의 손실 및 흠결을 일으키기 쉬울 수 있다. 따라서, 중첩 영역들 또는 천이들은 종종, 전송되는 정보의 일부 오버헤드, 즉 코딩 효율과, 천이의 품질, 즉, 디코드된 신호의 오디오 품질 사이의 타협으로서 선택된다. 이러한 타협을 이루기 위해서, 천이들을 다루고, 도 21에 표시된 바와 같이, 천이 윈도우들(2111, 2113 및 2115)을 설계할 때, 주의가 취해져야 한다.

주파수-영역과 시간-영역 코딩 모드들간의 천이들을 다루는 것에 관련된 일반적인 개념들은, 예컨대, 크로스 페이드 윈도우를 사용하는 것, 즉, 중첩 영역의 크기만큼의 오버헤드를 도입하는 것이다. 윈도우를 크로스-페이드하는 것, 이전 프레임을 페이드 아웃하는 것 그리고 후속하는 프레임을 동시에 페이드 인하는 것이 활용된다. 이러한 접근법은, 그것의 오버헤드로 인해, 천이가 일어날 때마다, 신호가 더 이상 임계 샘플화되지 않기 때문에, 디코딩 효율에서의 흠결을 도입한다. 임계 샘플화된 중첩 변환(lapped transform)은, 「제이. 프린센(J. Princen), 에이. 브래들리(A. Bradley), “Analysis/Synthesis Filter Bank Design Based on Time Domain Aliasing Cancellation”, IEEE Trans. ASSP, ASSP-34(5):1153-1161, 1986년」에 기술되어 있고, 예컨대, 「AAC(AAC = Advanced Audio Coding), 예컨대, Generic Coding of Moving Pictures and Associated Audio: 진보된 오디오 코딩(Advanced Audio Coding), 국제 표준(International Standard) 13818-7, ISO/IEC JTC1/SC29/WG11 Moving Pictures Expert Group, 1997년」에서 사용된다.

또한, 에일리어싱되지 않은(non-aliased) 크로스 페이드 천이들은, 「피엘더(Fielder), 루이스 디.(Louis D.), 토드 크레이그 씨.(Todd, Craig C), “The Design of a Video Friendly Audio Coding System for Distribution Applications”, 문서 번호(Paper Number) 17-008, The AES 17th International Conference: High-Quality Audio Coding(1999년 8월)」에 그리고 「피엘더(Fielder), 루이스 디.(Louis D.), 데이비슨(Davidson), 그랜트 에이.(Grant A.), “Audio Coding Tools for Digital Television Distribution”, 프리프린트 번호(Preprint Number) 5104, 108th Convention of the AES(2000년 1월)」에 기술되어 있다.

국제 특허 공개 WO 2008/071353는 시간-영역과 주파수-영역 인코더간의 전환에 대한 개념을 개시한다. 상기 개념은 시간-영역/주파수-영역 전환에 기반하는 어떠한 코덱(codec)에도 적용될 수 있다. 예를 들어, 상기 개념은 AMR-WB+ 코덱의 ACELP 모드에 따른 시간-영역 인코딩 및 주파수-영역 코덱의 예로서의 AAC에 적용될 수 있다. 도 22는 상부 브랜치(top branch)에서의 주파수-영역 디코더와 하부 브랜치에서의 시간-영역 디코더를 활용하는 종래의 인코더의 블록도를 도시한다. 주파수 디코딩 부분은, 재양자화 블록(2202) 및 역 수정 이산 코사인 변환 블록(2204)을 포함하는 AAC 디코더에 의해 예시된다. AAC에서는, 수정 이산 코사인 변환(MDCT = Modified Discrete Cosine Transfor)이 시간-영역과 주파수-영역 사이의 변환으로서 사용된다. 도 22에 있어서, 시간-영역 디코딩 경로는, 주파수-영역에서의 재양자화기(2202)의 결과와 디코더(2206)의 결과를 조합하도록, AMR-WB+ 디코더(2206)와 그 후속하는 MDCT 블록(2208)으로서 예시되어 있다.

이것은 주파수-영역에서의 조합을 가능하게 하는 반면에, 도 22에 도시되어 있지는 않지만, 중첩과 가산 스테이지(stage)가 역 MDCT(2204) 후에, 인접 블록들을, 그것들이 시간-영역에서 또는 주파수-영역에서 인코드되었는지의 여부를 고려하지 않고, 조합 및 크로스 페이드하기 위해서 사용될 수 있다.

도 22에서의 MDCT(2208), 즉 시간-영역 디코딩의 경우에 대해서의 DCT-IV 및 IDCT-IV를 회피하기 위해 국제 특허 공개 WO2008/071353에 기술되어 있는 다른 종래의 접근법에 있어서, 소위 시간-영역 에일리어싱 제거(TDAC = Time-Domain Aliasing Cancellation)에 대한 다른 접근법이 사용될 수 있다. 이것은 도 23에 도시되어 있다. 도 23은 재양자화 블록(2302) 및 IMDCT 블록(2304)을 포함하는 AAC 디코더로서 예시되는 주파수-영역 디코더를 갖는 다른 디코더를 도시한다. 시간-영역 경로는 AMR-WB+ 디코더(2306) 및 TDAC 블록(2308)에 의해 다시 예시되어 있다. 도 23에 도시된 디코더는, TDAC(2308)가 시간-영역에서 직접적으로 적합한 조합에 대해, 즉 시간 에일리어싱 제거에 대해서 필요한 시간 에일리어싱을 도입하기 때문에, 시간-영역에서, 즉 IMDCT(2304) 후에, 디코드된 블록의 조합들을 가능하게 한다. 각 AMR-WB+ 세그먼트의 첫 번째 및 최종 슈퍼프레임마다, 즉, 1024샘플들마다 MDCT를 사용하는 것을 대신하고 일부의 계산을 절약하기 위해, TDAC가 128 샘플들의 중첩 구역들 또는 영역들에서만 사용될 수 있다. AAC 처리에 의해 도입되는 보통의 시간 영역 에일리어싱이 유지될 수 있지만, AMR-WB+ 부분들에서 대응하는 역 시간-영역 에일리어싱이 도입된다.

에일리어싱되지 않은 크로스 페이드 윈도우들은, 그것들이 비임계의 샘플화된 인코드된 계수들을 생성하고, 정보의 오버헤드를 인코드에 가산하기 때문에, 그것들이 효율적으로 코딩하지 않는다는 단점을 갖는다. 예컨대, 국제 특허 공보 WO 2008/071353에서와 같이, 시간 영역 디코더에서 TDA(TDA = Time Domain Aliasing)을 도입하는 것은 이러한 오버헤드를 감소시키지만, 2개의 코더의 시간 프레이밍(temporal framing)이 서로 매치함에 따라서만 적용될 수 있다. 그게 아니라면, 코딩 효율이 다시 감소된다. 또한, 디코더 측에서의 TDA는, 특히 시간 영역 코더의 개시점에서 특히, 문제가 될 수 있다. 잠재적 리셋 후에, 시간 영역 코더 또는 디코더는 대개, 예컨대, LPC(LPC = Linear Prediction Coding)를 이용하는 시간 영역 코더 또는 디코더의 메모리들의 비어있음으로 인해서 양자화 노이즈의 버스트(burst)를 만든다. 그러면 디코더는 영구적인 또는 안정적인 상태에 있기 전에 일정 시간을 취하여 보다 균일한 양자화 노이즈를 시간에 걸쳐 배달할 것이다. 이러한 버스트 오류는 대개 청각적이기 때문에 불리하다.

따라서, 본 발명의 목적은 다수 영역에서의 오디오 코딩에서의 전환을 위한 향상된 개념을 제공하는 것이다.

상기 목적은 청구항 1에 따른 인코더, 그리고 청구항 16에 따른 인코딩을 위한 방법, 청구항 18에 따른 오디오 디코더 및 청구항 32에 따른 오디오 디코딩을 위한 방법에 의해 달성된다.

대응 코딩 영역들의 프레이밍이 적용되거나 수정된 크로스 페이드 윈도우들이 활용될 때, 시간 영역 및 주파수 영역 인코딩을 활용하는 오디오 코딩 개념에서의 향상된 전환이 달성될 수 있다는 것이 본 발명의 연구 결과이다. 예컨대, AMR-WB+가 시간 영역 코덱으로서 사용될 수 있고, AAC가 주파수-영역 코덱의 일예로서 활용될 수 있는 일실시예에 있어서, AMR-WB+ 부분의 프레이밍을 적용하거나 개개의 AAC 코딩 부분에 대해서 수정된 개시 또는 정지 윈도우를 사용하는 것에 의해, 2개의 코덱들 사이에서의 보다 유효한 전환이 실시예들에 의해 달성될 수 있다.

디코더에서 TDAC가 적용될 수 있고 에일리어싱되지 않은 크로스 페이딩 윈도우가 활용될 수 있다는 것이 본 발명의 추가적인 연구 결과이다.

본 발명의 실시예들은, 크로스 페이드 품질을 보증하는 알맞은 크로스 페이드 영역들을 유지하면서, 중첩 천이에 도입되는 오버헤드 정보가 감소될 수 있는 장점을 제공할 수 있다.

본 발명의 실시예들은 첨부 도면들을 이용하여 구체화될 것이다.
도 1a는 오디오 인코더의 일실시예를 도시한다.
도 1b는 오디오 디코더의 일실시예를 도시한다.
도 2a 내지 2j는 MDCT/IMDCT에 대한 방정식을 나타낸다.
도 3은 수정된 프레이밍을 활용하는 일실시예를 도시한다.
도 4 (a)는 시간 영역에서의 의사 주기 신호를 도시한다.
도 4 (b)는 주파수 영역에서의 유성음 신호를 도시한다.
도 5 (a)는 시간 영역에서의 노이즈-꼴 신호를 도시한다.
도 5 (b)는 주파수 영역에서의 무성음 신호를 도시한다.
도 6은 분석-합성(analysis-by-synthesis) CELP를 도시한다.
도 7은 일실시예에서의 LPC 분석 스테이지의 일 예를 예시한다.
도 8a는 수정된 정지 윈도우가 있는 일실시예를 도시한다.
도 8b는 수정된 정지-개시 윈도우가 있는 일실시예를 도시한다.
도 9는 원리적 윈도우를 도시한다.
도 10은 보다 진보된 윈도우를 도시한다.
도 11은 수정된 정지 윈도우의 일실시예를 도시한다.
도 12는 상이한 중첩 구역 또는 영역들이 있는 일실시예를 예시한다.
도 13은 수정된 개시 윈도우의 일실시예를 예시한다.
도 14는 인코더에서 적용되는 에일리어싱이 없는 수정된 정지 윈도우의 일실시예를 도시한다.
도 15는 디코더에서 적용되는 에일리어싱이 없는 수정된 정지 윈도우를 도시한다.
도 16은 종래의 인코더 및 디코더 예를 예시한다.
도 17a, 17b는 유성음 및 무성음 신호용 LPC를 예시한다.
도 18은 종래 기술의 크로스 페이드 윈도우를 예시한다.
도 19는 종래 기술의 AMR-WB+ 윈도우들의 시퀀스를 예시한다.
도 20은 ACELP와 TCX사이의 AMR-WB+에서 전송하기 위해 사용되는 윈도우를 예시한다.
도 21은 상이한 코딩 영역들에서의 연속 오디오 프레임들의 예시적인 시퀀스를 도시한다.
도 22는 상이한 영역들에서의 오디오 디코딩을 위한 종래의 접근법을 예시한다. 그리고,
도 23은 시간 영역 에일리어싱 제거에 대한 일예를 예시한다.

도 1은 오디오 샘플을 인코딩하기 위한 오디오 인코더(100)를 도시한다. 오디오 인코더(100)는 제1 인코딩 영역내의 오디오 샘플을 인코딩하기 위한 제1 시간 영역 에일리어싱 도입 인코더(time domain aliasing introducing encoder)(110)를 포함하며, 제1 시간 영역 에일리어싱 도입 인코더(110)는 제1 프레이밍 규칙(framing rule), 개시 윈도우(start window) 및 정지 윈도우(stop window)를 갖는다. 또한, 오디오 인코더(100)는 제2 인코딩 영역내의 오디오 샘플을 인코드하기 위한 제2 인코더(120)를 포함한다. 제2 인코더(120)는 오디오 샘플의 미리 정해진 프레임 사이즈 수(frame size number) 및 오디오 샘플의 코딩 웜-업 주기 수(coding warm-up period number)를 갖는다. 코딩 웜-업 주기는 일정하거나 미리 정해질 수 있고, 오디오 샘플, 오디오 샘플의 프레임 또는 오디오 신호의 시퀀스에 좌우될 수 있다. 제2 인코더(120)는 상이한 제2 프레이밍 규칙을 갖는다. 제2 인코더(120)의 프레임은 시간적으로 후속하는 오디오 샘플들의 개수의 인코드된 표현이며, 상기 개수는 오디오 샘플의 미리 정해진 프레임 사이즈 수와 동등하다.

오디오 인코더(100)는 오디오 샘플의 특성에 따라 제1 시간 영역 에일리어싱 도입 인코더(110)로부터 제2 인코더(120)로의 전환을 위한, 그리고 제1 시간 영역 에일리어싱 도입 인코더(110)로부터 제2 인코더(120)로의 전환에 따라 상기 제2 프레이밍 규칙을 수정하기 위한 또는 제1 시간 영역 에일리어싱 도입 인코더(110)의 개시 윈도우 또는 정지 윈도우를 수정하기 위한 - 제2 프레이밍 규칙은 수정되지 않은 채로 남아 있음 - 제어기(130)를 또한 포함한다.

실시예들에 있어서, 제어기(130)는 입력 오디오 샘플에 기반하여 또는 제1 시간 영역 에일리어싱 도입 인코더(110)나 제2 인코더(120)의 출력에 기반하여 오디오 샘플의 특성을 판정하도록 되어 있을 수 있다. 이것은, 입력 오디오 샘플이 제어기(130)에 제공될 수 있는, 도 1a에서의 점선으로 표시되어 있다. 전환 결정에 대한 추가적인 세부는 하기에 제공될 것이다.

실시예들에 있어서, 제어기(130)는 제1 시간 영역 에일리어싱 도입 인코더(110)와 제2 인코더(120)를, 양쪽이 오디오 샘플을 나란히 인코드하도록, 제어할 수 있고, 제어기(130)는 개개의 결과에 기반하여 전환 결정을 하고 전환 전에 수정을 행한다. 다른 실시예들에 있어서, 제어기(130)는 오디오 샘플의 특성을 분석하여 사용할 인코딩 브랜치(encoding branch)를 결정하고 다른 브랜치를 오프(off)로 전환시킬 수 있다. 그러한 실시예에 있어서, 제2 인코더(120)의 코딩 웜-업 주기가 관련있게 되며, 전환전에, 코딩 웜-업 주기가 고려되여야 하며, 그것은 하기에서 추가적으로 구체화될 것이다.

실시예들에 있어서, 제1 시간 영역 에일리어싱 도입 인코더(110)는 후속하는 오디오 샘플의 제1 프레임을 주파수 영역으로 변환하기 위한 주파수-영역 변환기를 포함할 수 있다. 제1 시간 영역 에일리어싱 도입 인코더(110)는, 후속하는 프레임이 제2 인코더(120)에 의해 인코드될 때, 제1 인코드된 프레임을 개시 윈도우로 가중시키도록 되어 있을 수 있으며, 이전의 프레임이 제2 인코더(120)에 의해 인코드될 때, 제1 인코드된 프레임을 정지 윈도우로 가중시킬 수 있다.

상이한 표기법이 사용될 수 있고, 제1 시간 영역 에일리어싱 도입 인코더(110)가 개시 윈도우 또는 정지 윈도우를 적용한다는 것이 주목되어 진다. 여기서, 그리고 나머지에 대해서, 개시 윈도우가 제2 인코더(120)로의 전환 전에 적용되고, 제2 인코더(120)로부터 제1 시간 영역 에일리어싱 도입 인코더(110)로의 되 전환시에 정지 윈도우가 제1 시간 영역 에일리어싱 도입 인코더(110)에서 적용된다고 가정한다. 일반성의 손실 없이, 표현은 제2 인코더(120)를 참조하여 역으로도 동일하게 사용될 수 있다. 혼란을 피하기 위해, 여기서는 “개시” 및 “정지”라는 표현이, 제2 인코더(120)가 개시된 때 또는 정지된 후일 때, 제1 인코더(110)에서 적용되는 윈도우를 말한다.

실시예들에 있어서, 제1 시간 영역 에일리어싱 도입 인코더(110)에서 사용되는 바와 같은 주파수 영역 변환기는 MDCT에 기반하여 제1 프레임을 주파수 영역으로 변환하도록 되어 있을 수 있고, 제1 시간 영역 에일리어싱 도입 인코더(110)는 MDCT 사이즈를 개시 및 정지 또는 수정된 개시 및 정지 윈도우로 적합시키도록 되어 있을 수 있다. MDCT 및 그 사이즈에 대한 세부는 하기에서 언급될 것이다.

실시예들에 있어서, 제1 시간 영역 에일리어싱 도입 인코더(110)는 따라서, 에일리어싱이 없는 부분 - 즉, 윈도우내에 시간-영역 에일리어싱이 없는 부분이 있음 - 을 갖는 개시 및/또는 정지 윈도우를 사용하도록 되어 있을 수 있다. 또한, 제1 시간 영역 에일리어싱 도입 인코더(110)는, 이전의 프레임이 제2 인코더(120)에 의해 인코드될 때, 윈도우의 상승 에지 부분에서 에일리어싱이 없는 부분을 갖는 개시 윈도우 및/또는 정지 윈도우를 사용하도록 되어 있을 수 있다, 즉, 제1 시간 영역 에일리어싱 도입 인코더(110)는 에일리어싱이 없는 상승 에지 부분을 갖는 정지 윈도우를 활용한다. 따라서, 제1 시간 영역 에일리어싱 도입 인코더(110)는, 후속하는 프레임이 제2 인코더(120)에 의해 인코드될 때, 에일리어싱이 없는 하강 에지 부분을 갖는 윈도우를 활용하도록, 즉, 에일리어싱이 없는 하강 에지 부분을 갖는 정지 윈도우를 이용하도록 되어 있을 수 있다.

실시예들에 있어서, 제어기(130)는, 제2 인코더(120)의 프레임들의 시퀀스 중 첫 번째 프레임이 제1 시간 영역 에일리어싱 도입 인코더(110)의 이전의 에일리어싱이 없는 부분에서 처리된 샘플들의 인코드된 표현을 포함하도록, 제2 인코더(120)를 개시시키도록 되어 있을 수 있다. 환언하면, 제1 시간 영역 에일리어싱 도입 인코더(110) 및 제2 인코더(120)의 출력은, 제1 시간 영역 에일리어싱 도입 인코더(110)로부터 인코드된 오디오 샘플의 에일리어싱이 없는 부분이 제2 인코더(120)에 의한 인코드된 오디오 샘플 출력과 중첩하도록, 제어기(130)에 의해 조절될 수 있다. 제어기(130)는 또한, 크로스-페이드 즉, 하나의 인코더를 페이드-아웃하면서 다른 인코더를 페이드-인하도록 되어 있을 수 있다.

제어기(130)는, 오디오 샘플의 코딩 웜-업 주기 수가 제1 시간 영역 에일리어싱 도입 인코더(110)의 개시 윈도우의 에일리어싱이 없는 부분을 중첩하도록 그리고 제2 인코더(120)의 후속하는 프레임이 정지 윈도우의 에일리어싱 부분과 중첩하도록, 제2 인코더(120)를 개시시키도록 되어 있을 수 있다. 환언하면, 제어기(130)는, 코딩 웜-업 주기 에일리어싱되지 않은 오디오 샘플이 제1 인코더(110)로부터 사용 가능하도록, 제2 인코더(120)를 조절할 수 있고, 에일리어싱된 오디오 샘플이 제1 시간 영역 에일리어싱 도입 인코더(110)로부터 사용 가능할 때, 제2 인코더(120)의 웜-업 주기가 종료되고 인코드된 오디오 샘플이 보통의 방식으로 제2 인코더(120)의 출력측에서 사용 가능하다.

제어기(130)는 또한, 코딩 웜-업 주기가 개시 윈도우의 에일리어싱 부분과 중첩하도록, 제2 인코더(120)를 개시시키도록 되어 있을 수 있다. 이러한 실시예에 있어서, 중첩 부분 동안에, 에일리어싱된 오디오 샘플들이 제1 시간 영역 에일리어싱 도입 인코더(110)의 출력으로부터 사용 가능하며, 제2 인코더(120)의 출력에서 증가된 양자화 노이즈를 체험할 수 있는 웜-업 주기의 인코드된 오디오 샘플이 사용 가능할 수 있다. 제어기(130)는 또한, 중첩 주기 동안에 2개의 서브의 최적으로 인코드된 오디오 시퀀스들 사이에서 크로스 페이드를 하도록 되어 있을 수 있다.

추가적인 실시예들에 있어서, 제어기(130)는 또한, 오디오 샘플의 상이한 특성에 따라 제1 인코더(110)로부터 전환하도록, 그리고 제1 시간 영역 에일리어싱 도입 인코더(110)로부터 제2 인코더(120)로의 전환에 따라 제2 프레이밍 규칙을 수정하도록 또는 제1 인코더의 개시 윈도우 또는 정지 윈도우를 수정하도록 - 제2 프레이밍 규칙은 수정되지 않은 채로 남아 있음 - 되어 있을 수 있다. 환언하면, 제어기(130)는 2개의 오디오 인코더 사이에서 역방향 및 순방향 전환을 하도록 되어 있을 수 있다.

다른 실시예들에 있어서, 제어기(130)는, 정지 윈도우의 에일리어싱이 없는 부분이 제2 인코더(120)의 프레임과 중첩하도록 제1 시간 영역 에일리어싱 도입 인코더(110)를 개시시키도록 되어 있을 수 있다. 환언하면, 실시예들에 있어서 제어기는 2개의 인코더 사이에 크로스-페이드하도록 되어 있을 수 있다. 일부의 실시예들에 있어서, 오로지 서브의 최적으로 인코드된, 즉 제1 시간 영역 에일리어싱 도입 인코더(110)로부터의 에일리어싱된 오디오 샘플이 페이드 인되는 동안, 제2 인코더의 출력이 페이드 아웃된다. 다른 실시예들에 있어서, 제어기(130)는 제2 인코더(120)의 프레임과 제1 인코더(110)의 에일리어싱되지 않은 프레임간에 크로스-페이드를 하도록 되어 있을 수 있다.

실시예들에 있어서, 제1 시간 영역 에일리어싱 도입 인코더(110)는, 「Generic Coding of Moving Pictures and Associated Audio: Advanced Audio Coding, International Standard 13818-7, ISO/IEC JTC1/SC29/WG11 Moving Pictures Expert Group, 1997년」에 따른 AAC 인코더를 포함할 수 있다.

실시예들에 있어서, 제2 인코더(120)는 「3GPP(3GPP = Third Generation Partnership Project), 기술 명세(Technical Specification) 26.290, 2005년 6월의 버전 6.3.0 “Audio Codec Processing Function; Extended Adaptive Multi-Rate-Wide Band Codec; Transcoding Functions”, 릴리즈(release) 6」에 따른 AMR-WB+ 인코더를 포함할 수 있다.

제어기(130)는 제1 AMR 슈퍼프레임(superframe)이 5개의 AMR-프레임을 포함하도록, AMR 또는 AMR-WB+ 프레이밍 규칙을 수정하도록 되어 있을 수 있고, 상기 기술 명세에 따르면, 슈퍼프레임은 4개의 보통의 AMR 프레임을 포함한다 - 상기한 기술 명세의 도 4, 페이지 18의 표 10 및 페이지 20의 도 5를 비교 -. 하기에서 더욱 상술될 바와 같이, 제어기(130)는 여분의 프레임을 AMR 슈퍼프레임에 더하도록 되어 있을 수 있다. 실시예들에 있어서, 슈퍼프레임은 임의의 슈퍼프레임의 시작 또는 끝에서의 추가 프레임에 의해 수정될 수 있다는 것, 즉, 프레이밍 규칙이 슈퍼프레임의 끝에서 잘 매칭될 수 있다는 것이 주목된다.

도 1b는 오디오 샘플의 인코드된 프레임을 디코드하기 위한 오디오 디코더(150)의 일 실시예를 도시한다. 오디오 디코더(150)는 제1 디코딩 영역의 오디오 샘플을 디코드하기 위한 제1 시간 영역 에일리어싱 도입 디코더(160)를 포함한다. 제1 시간 영역 에일리어싱 도입 디코더(160)는 제1 프레이밍 규칙, 개시 윈도우 및 정지 윈도우를 갖는다. 오디오 디코더(150)는 제2 디코딩 영역의 오디오 샘플을 디코드하기 위한 제2 디코더(170)를 더 포함한다. 제2 디코더(170)는 오디오 샘플의 미리 정해진 프레임 사이즈 수, 및 오디오 샘플의 코딩 웜-업 주기 수를 갖는다. 또한, 제2 디코더(170)는 상이한 제2 프레이밍 규칙을 갖는다. 제2 디코더(170)의 프레임은 시간적으로 후속하는 오디오 샘플의 개수의 인코드된 표현이고, 상기 개수는 오디오 샘플의 미리 정해진 프레임 사이즈 수와 동등하다.

오디오 디코더(150)는 또한, 오디오 샘플의 인코드된 프레임내의 표시(indication)에 기반하여 제1 시간 영역 에일리어싱 디코더(160)로부터 제2 디코더(170)로의 전환을 위한 제어기(180)를 포함하며, 제어기(180)는 제1 시간 영역 도입 디코더(160)로부터 제2 디코더(170)로의 전환에 따라 제2 프레이밍 규칙을 수정하도록 또는 제1 디코더(160)의 개시 윈도우 또는 정지 윈도우를 수정하도록 - 제2 프레이밍 규칙은 수정되지 않은 채로 남아 있음 - 되어 있다.

예컨대, AAC 인코더 및 디코더에서와 같은 상기 설명에 따르면, 개시 및 정지 윈도우는 인코더에서 그와 더불어 디코더에서 적용된다. 오디오 인코더(100)의 상기한 설명에 따르면, 오디오 디코더(150)는 대응하는 디코딩 구성 요소를 제공한다. 제어기(180)에 대한 전환 표시는 인코드된 프레임과 함께 비트(bit), 플래그(flag) 또는 임의의 사이드 정보(side information)에 관하여 제공될 수 있다.

실시예들에 있어서, 제1 디코더(160)는 디코드된 오디오 샘플의 제1 프레임을 시간 영역으로 변환하기 위한 시간 영역 변환기를 포함할 수 있다. 제1 시간 영역 에일리어싱 도입 디코더(160)는, 후속하는 프레임이 제2 디코더(170)에 의해 디코드될 때, 최종 디코드된 프레임을 상기 개시 윈도우로 가중시키도록 그리고/또는 이전 프레임이 제2 디코더(170)에 의해 디코드될 때, 제1 디코드된 프레임을 정지 윈도우로 가중시키도록 되어 있을 수 있다. 시간 영역 변환기는 역 MDCT(IMDCT = inverse MDCT)에 기반하여 제1 프레임을 시간 영역으로 변환하도록 되어 있고, 그리고/또는 제1 시간 영역 에일리어싱 도입 디코더(160)는 IMDCT 사이즈를 개시 및/또는 정지 또는 수정된 개시 및/또는 정지 윈도우에 적합시키도록 되어 있을 수 있으며, IMDCT 사이즈는 하기에서 더 상술될 것이다.

실시예들에 있어서, 제1 시간 영역 에일리어싱 도입 디코더(160)는 에일리어싱이 없음 또는 에일리어싱이 없는 부분을 갖는 개시 윈도우 및/또는 정지 윈도우를 활용하도록 되어 있을 수 있다. 제1 시간 영역 에일리어싱 도입 디코더(160)는 또한, 이전의 프레임이 제2 디코더(170)에 의해 디코드되었을 때 윈도우의 상승 에지 부분에서 에일리어싱이 없는 부분을 갖는 정지 윈도우를 시용하도록 되어 있을 수 있고, 그리고/또는 제1 시간 영역 에일리어싱 도입 디코더(160)는 후속하는 프레임이 제2 디코더(170)에 의해 인코드될 때 하강 에지에서 에일리어싱이 없는 부분을 갖는 개시 윈도우를 가질 수 있다.

오디오 인코더(100)의 상기한 실시예들에 대응하여, 제어기(180)는, 제2 디코더(170)의 프레임들의 시퀀스 중 제1 프레임이 제1 인코더(160)의 이전의 에일리어싱이 없는 부분에서 처리된 샘플의 디코드된 표현을 포함하도록, 제2 디코더(170)를 개시시키도록 되어 있을 수 있다. 제어기(180)는, 오디오 샘플의 코딩 웜-업 주기 수가 제1 시간-영역 에일리어싱 도입 디코더(160)의 개시 윈도우의 에일리어싱이 없는 부분과 중첩하도록 그리고 제2 디코더(170)의 후속하는 프레임이 정지 윈도우의 에일리어싱 부분과 중첩하도록, 제2 디코더(170)를 개시시키도록 되어 있을 수 있다.

다른 실시예들에 있어서, 제어기(180)는, 코딩 웜-업 주기가 개시 윈도우의 에일리어싱 부분과 중첩하도록, 제2 디코더(170)를 개시시키도록 되어 있을 수 있다.

다른 실시예들에 있어서, 제어기(180)는 또한, 인코드된 오디오 샘플로부터의 표시에 따라 제2 디코더(170)로부터 제1 디코더(160)로 전환시키도록, 그리고 제2 디코더(170)로부터 제1 디코더(160)로의 전환에 따라 제2 프레이밍 규칙을 수정하도록 또는 제1 디코더(160)의 개시 윈도우 또는 정지 윈도우를 수정하도록 - 제2 프레이밍 규칙은 수정되지 않은 채로 남아 있음 - 되어 있을 수 있다. 표시는 인코드된 프레임과 함께 플래그, 비트 또는 임의의 사이드 정보에 관하여 제공될 수 있다.

실시예들에 있어서, 제어기(180)는, 정지 윈도우의 에일리어싱 부분이 제2 디코더(170)의 프레임과 중첩하도록, 제1 시간 영역 에일리어싱 도입 디코더(160)를 개시시키도록 되어 있을 수 있다.

제어기(180)는, 상이한 디코더들의 디코드된 오디오 샘플들의 연속 프레임들 간에 크로스-페이드를 적용하도록 되어 있을 수 있다. 또한, 제어기(180)는 제2 디코더(170)의 디코드된 프레임으로부터 개시 또는 정지 윈도우의 에일리어싱 부분내에서의 에일리어싱을 판정하도록 되어 있을 수 있고, 제어기(180)는 판정된 에일리어싱에 기반하여 에일리어싱 부분내에서의 에일리어싱을 감소시키도록 되어 있을 수 있다.

실시예들에 있어서, 제어기(180)는 또한, 오디오 샘플의 코딩 웜-업 주기를 제2 디코더(170)로부터 폐기하도록 되어 있을 수 있다.

하기에서는, 수정 이산 코사인 변환(MDCT = Modified Discrete Cosine Transform) 및 IMDCT의 세부가 기술될 것이다. MDCT는 도 2a 내지 2j에 예시된 방정식의 도움으로 보다 상세하게 설명될 것이다. 수정 이산 코사인 변환은, 중첩되는 추가 특성이 있는, 즉 더 큰 데이터 세트의 연속 블록에서 실행되도록 설계된, 타입-IV 이산 코사인 변환(DCT-IV = Discrete Cosine Transform type IV)에 기반하는 푸리에-관련 변환이며, 여기서, 상기 연속 블록은, 예컨대, 하나의 블록의 최종 절반을 다음 블록의 최초 절반과 일치시키도록 중첩된다. 이러한 중첩은, DCT의 에너지-소형화 품질에 더하여, MDCT를 신호 압축 응용에 대하여 특히 매력적으로 만드는데, 그 이유는 그것이 블록 경계로부터 유래하는 흠결을 회피하도록 돕기 때문이다. 따라서, MDCT는, 예컨대, 오디오 압축에 대해서 MP3(MP3 = MPEG2/4 layer 3), AC-3(AC-3 = Audio Codec 3 by Dolby), Ogg Vorbis, 및 AAC(AAC = Advanced Audio Coding)에 채용된다.

MDCT는, 하기에서 추가적으로 기술되는, 시간-영역 에일리어싱 제거(time-domain aliasing cancellation; “TDAC”)의 MDCT의 기본 원리를 개발하기 위해, 초창기(1986)에 프린센(Princen) 및 브래들리(Bradley)에 의해 작업된 다음에, 1987년에 프린센, 존슨(Johnson), 및 브래들리에 의해 제안되었다. 유사한 변환 - 이산 사인 변환에 기반하는 MDST(MDST = Modified DST, DST = Discrete Sine Transform)와 더불어, 시간 영역 에일리어싱 도입 변환에 의해 실시예들에서 또한 사용될 수 있는, 상이한 타입의 DCT 또는 DCT/DST 조합들에 기반하는 다른, 드물게 사용되는, 형태의 MDCT - 도 존재한다.

MP3에 있어서, MDCT는 오디오 신호에 직접적으로 적용되지 않고, 오히려 32-밴드 다상 구적 필터(PQF = Polyphase Quadrature Filter) 뱅크의 출력에 적용된다. 이러한 MDCT의 출력은, PQF 필터 뱅크의 일반적인 에일리어싱을 감소시키기 위해 에일리어싱 감소 공식에 의해 후처리된다. 한편으로, 하이브리드 필터 뱅크 또는 서브밴드(subband) MDCT. AAC로 칭해지는 그러한 필터 뱅크와 MDCT의 조합은, 보통 순수한 MDCT를 사용한다; (드물게 사용되는) MPEG-4 AAC-SSR 변형(Sony에 의한)만이 4-밴드 PQF 뱅크를 사용하며 뒤이어서 MDCT. ATRAC(ATRAC = Adaptive TRansform Audio Coding)이 스택의 구적 미러 필터(stacked quadrature mirror filter)(QMF)를 사용하며 그 다음에 MDCT가 있다.

중첩 변환으로서, MDCT는, 그것이 (동일한 수 대신에) 입력의 절반의 출력을 갖는다는 점에서, 다른 푸리에-관련 변환에 비해 일반적이지 않은 비트이다. 특히, 그것은 직선 함수 F : R ^2N -> R ^N이며, R은 실수의 세트를 나타낸다. 도 2a의 공식에 따라, 2N 실수들 x_o, ..., x_2N-1은 N 실수들 X₀, ..., X_N _-1로 변환된다.

이러한 변환 앞의 표준화 계수(normalization coefficient) - 여기서는 1 - 는 임의의 관례이고 처리들 사이에서는 상이하다. MDCT와 IMDCT의 표준화의 소산만이, 하기에서는, 한정된다.

역 MDCT는 IMDCT로서 알려져 있다. 상이한 개수의 입력 및 출력이 있기 때문에, 일견하여 MDCT가 가역적이지 않아야하는 것처럼 보일 수 있다. 하지만, 완벽한 가역성이, 다음의 중첩 블록들의 중첩된 IMDCT들을 더하고, 오차들을 제거시키고 원래의 데이터를 복원시키는 것에 의해 달성된다; 이러한 기술은 시간-영역 에일리어싱 제거(TDAC)로 알려져 있다.

IMDCT는 도 2b에 따라, N 실수들 X₀, ..., X_N _-1을 2N 실수들 Y₀, ..., Y_2N _-1로 변환한다. DCT-IV와 마찬가지로, 직교 변환, 역은 순방향 변환과 동일한 형태를 갖는다.

일반적인 윈도우 표준화로 윈도윙된 MDCT의 경우에 있어서(하기 참조), IMDCT의 앞의 표준화 계수는 2가 곱해져야 한다, 즉, 2/N이 되어야 한다.

MDCT 공식의 직접적인 적용이 0(N²) 연산을 요구할지라도, 고속 푸리에 변환(FFT)에서와 같이, 계산을 귀납적으로 인수 분해하는 것에 의해 오로지 0(N 로그(log) N) 복잡성과 동일한 것을 계산할 수 있다. 0(N) 전처리 단계와 후처리 단계와 조합되는, 일반적은 DFT(FFT) 또는 DCT인, 다른 변환들을 통해 MDCT들을 계산할 수도 있다. 또한, 후술되는 바와 같이, DCT-IV에 대한 임의의 알고리즘이 동등한 사이즈의 MDCT 및 IMDCT를 계산하는 방법을 즉시로 제공한다.

일반적인 신호-압축 응용에 있어서, 변환 특성은, 함수를 그 포인트에서 0으로 평탄하게 진행시키는 것에 의해 n = 0 및 2N 경계들에서 불연속을 피하기 위해, MDCT 및 IMDCT 공식에서 x_n 및 y_n으로 곱해지는 윈도우 함수 w_n(n = 0, ..., 2N-1)를 이용하는 것에 의해 더 향상된다. 즉, 데이터는 MDCT 전에 및 IMDCT 후에 윈도윙된다. 원칙적으로, x 및 y는 상이한 윈도우 함수를 갖고, 윈도우 함수는, 특히 상이한 사이즈들의 데이터 블록들이 조합되는 경우에 대해서, 하지만, 동등한 사이즈의 블록들이 첫 번째로 간주되는 동일한 윈도우 함수의 공통 경우를 단순화시키기 위해, 하나의 블록으로부터 다음 블록으로 또한 변경될 수 있다.

변환은 가역적인채로 남아 있을 수 있다, 즉, w가 도 2c에 따른 프린센-브래들리 조건을 만족하는 한, 대칭 윈도우 w_n = w_2N _-1-n에 대해, TDAC가 작용한다.

다종다양의 상이한 윈도우 함수는 공통이면, 일예가 MP3 및 MPEG-2 AAC에 대해서 도 2d에 주어져 있고, 도 2e에서는 Vorvis에 대해서 일예가 주어져 있다. AC-3는 카이저-베셀 도출(KBD = Kaiser-Bessel Derived) 윈도우를 사용하며, MPEG-4 AAC가 또한 KBD 윈도우를 사용할 수 있다.

MDCT에 적용되는 윈도우들은, 그것들이 프린센-브래들리 조건을 만족해야하기 때문에, 신호 분석의 다른 타입들에 대해서 사용되는 윈도우들과는 상이하다는 것에 주목한다. 이러한 상이함에 대한 이유들 중 하나는, MDCT 윈도우들이 MDCT(분석 필터) 및 IMDCT(합성 필터)의 양쪽에 대해서, 2번 적용되는 것이다.

상기 정의들의 조사에 의해 알 수 있는 바와 같이, 짝수의 N에 대해서, MDCT는 DCT-IV에 본질적으로 동등하며, 입력은 N/2만큼 시프트되고 데이터의 2개의 N-블록들은 한 번에 변환된다. 이러한 등가를 더욱 주의깊게 검사하는 것에 의해, TDAC와 같은 중요한 특성들이 용이하게 도출될 수 있다.

DCT-IV에 대한 정확한 관계를 정의하기 위해서, DCT-IV가 짝수/홀수의 경계 조건들을 교번시키는 것에 대응한다는 것을 깨달아야 한다; 그것은 그것의 좌측 경계(약 n=-1/2)에서 짝수이고, 그것의 우측 경계(약 n=N-l/2)에서 홀수이며, 그리고 기타 등등(DFT에 대해서와 같이 주기적인 경계의 대신에)이다. 이것은 도 2f에서 주어진 정의로부터 뒤따른다. 따라서, 그 입력이 길이 N의 어레이 x라면, 상상은 이러한 어레이를 (x, -x_R, -x, x_R, ... )로 연장시키고 기타 등등이 상상될 수 있으며, x_R은 역순의 x를 나타낸다.

2N 입력과 N 출력을 가진 MDCT를 고려한다 - 입력은, 각각의 사이즈 N/2인 4개의 블록(a, b, c, d)으로 분할될 수 있음 -. 이것들이 (MDCT 정의에서 +N/2 항으로부터) N/2만큼 시프트된다면, (b, c, d)가 N DCT-IV 입력의 끝을 지나서 연장되고, 그래서 그것들은 상기한 경계 조건에 따라 “폴드”백(folded back) 되어야 한다.

따라서, 2개의 입력(a, b, c, d)의 MDCT는 N 입력(-c_R-d, a-b_R)의 DCT-IV에 정확히 등가이며, R은 상기한 가역성을 나타낸다. 이러한 식으로, DCT-IV를 계산하기 위한 임의의 알고리즘이 MDCT에 평범하게 적용될 수 있다.

유사하게, 상기한 IMDCT 공식은 (그 자신의 역인) DCT-IV의 정확히 1/2이며, 출력이 N/2만큼 시프트되고 (경계 조건을 통해서) 길이 2N으로 연장된다. 역 DCT-IV는 상기로부터 입력(-c_R-d, a-b_R)을 간단히 돌려주려 할 것이다. 이것이 시프트되고 경계 조건을 통해 연장될 때, 도 2g에 표시된 결과를 얻는다. IMDCT 출력의 절반은 따라서 중복된다.

이제 TDAC가 동작하는 방식을 이해할 수 있다. 다음의 50% 중첩된 2N 블록들(c, d, e, f)를 계산하는 것을 가정한다. IMDCT는 상기와 유사하게 산출할 것이다: (c-d_R, d-c_R, e+f_R, e_R+f) / 2. 이것이 이전의 중첩되는 절반의 IMDCT 결과에 더해질 때, 역 항이 삭제되고 간단히 (c, d)를 얻어서, 원래의 데이터를 복원한다.

항 “시간-영역 에일리어싱 제거”의 근원이 이제 클리어(clear)된다. 논리적 DCT-IV의 경계를 넘어 연장하는 입력 데이터의 사용은, 데이터를, 나이키스트 주파수(Nyquist frequency)를 넘는 주파수들이 더 낮은 주파수로 에일리어싱되는 것과 정확히 동일한 방식으로 - 이러한 에일리어싱이 주파수 영역 대신에 시간 영역에서 일어나는 것을 제외하고 - 에일리어싱되게 한다. 그러므로, 정확하게 권리를 갖는 조합 c-d_R과 기타 등등은 조합들에 대해서 그것들이 더해질 때 제거되도록 신호한다.

(실제로는 드물게 사용되는) 홀수 N에 대해서, N/2는 정수가 아니므로, MDCT는 단순히 DCT-IV의 시프트 치환이 아니다. 이러한 경우에, 샘플 절반만큼의 추가적인 시프트는, MDCT/IMDCT가 DCT-III/II에 동등해지며, 분석이 상기와 유사해진다는 것을 의미한다.

상기, TDAC 특성은 보통의 MDCT에 대해 입증되었고, 그것들의 절반의 중첩에 있어서 다음 블록의 IMDCT를 더하는 것이 원래의 데이터를 복원한다는 것을 나타낸다. 윈도윙된 MDCT에 대한 역 특성의 도출은 단지 약간 더 복잡하다.

(a, b, c, d) 및 (c, d, e, f)가 MDCT되고 IMDCT될 때, 그리고 그것들의 절반의 중첩에 있어서 가산될 때의 상술로부터 상기하여, 우리는 (c + d_R, c_R + d) / 2 + (c - d_R, d - c_R) / 2 = (c, d), 원래의 데이터를 획득한다.

이제, 길이 2N의 윈도우 함수에 이해 MDCT 입력과 IMDCT 출력의 양쪽을 곱셈하는 것이 가정된다. 상기와 같이, 우리는, 그리하여 형태(w, z, z_R, w_R)인, 대칭 윈도우 함수를 가정하며, w 및 z는 길이-N/2 벡터이고 R은 이전과 같이 역을 나타낸다. 그러면, 프린센-브래들리 조건은 요소별로 실행되는 곱셈 및 덧셈으로

로 기입되거나, w 및 z를 역전하여 등가적으로

로 기입될 수 있다.

따라서, MDCT (a, b, c, d)를 하는 대신에, MDCT (wa, zb, z_Rc, w_Rd)가 요소별로 실행되는 모든 곱셈으로 MDCT된다. 이것이 IMDCT되고 윈도우 함수에 의해 (요소별로) 다시 곱셈될 때, 최후의 N 절반이 도 2h에 표시되는 바와 같이 귀착된다.

IMDCT 표준화는 윈도윙된 경우에 있어서의 2배만큼 상이하기 때문에, 1/2배는 더 이상 존재하지 않는다는 것이 주목된다. 유사하게, (c, d, e, f)의 윈도윙된 MDCT 및 IMDCT가 도 2i에 따른 그 첫 번째 N 절반에 있어서 산출된다. 이러한 2개의 절반이 함께 더해질 때, 도 2j의 결과가 획득되어, 원래의 데이터를 복원한다.

하기에 있어서, 인코더 측의 제어기(130) 및 디코더 측의 제어기(180)가, 각각, 제1 코딩 영역으로부터 제2 코딩 영역으로 전환하는 것에 따라 제2 프레이밍 규칙을 수정하는 실시예가 상술될 것이다. 실시예에 있어서, 스위칭된 코더에서의 평탄한 천이, 즉, AMR-WB+과 AAC 코딩 사이의 전환이 달성된다. 평탄한 천이를 갖기 위해서, 약간의 중첩, 즉, 양쪽의 코딩 모드가 적용되는 다수의 오디오 샘플 또는 신호의 짧은 세그먼트가 활용된다. 환언하면, 하기의 상세한 설명에 있어서, 제1 시간 영역 에일리어싱 인코더(110) 및 제1 시간 영역 에일리어싱 디코더(160)가 AAC 인코딩 및 디코딩에 대응하는 일 실시예가 제공될 것이다. 제2 인코더(120) 및 디코더(170)는 ACELP 모드의 AMR-WB+에 대응한다. 실시예는, AMR-WB+의 프레이밍, 즉, 제2 프레이밍 규칙이 수정되는 개개의 제어기(130 및 180)의 하나의 옵션에 대응한다.

도 3은 다수의 윈도우 및 프레임들이 도시되어 있는 시간 라인을 도시한다. 도 3에 있어서, AAC 정규 윈도우(301)의 다음에는 AAC 개시 윈도우(302)가 있다. AAC에 있어서, AAC 개시 윈도우(302)는 긴 프레임들과 짧은 프레임들 사이에 사용된다. AAC 레거시(legacy) 프레이밍, 즉, 제1 시간 영역 에일리어싱 도입 인코더(110) 및 디코더(160)의 제1 프레임 규칙을 예시하기 위해, 짧은 AAC 윈도우들(303)의 시퀀스가 도 3에 또한 도시되어 있다. AAC 짧은 윈도우들(303)의 시퀀스는, AAC 긴 윈도우들의 시퀀스를 개시시키는, AAC 정지 윈도우(304)에 의해 종료된다. 앞서의 설명에 따르면, 본 실시예에 있어서, 제2 인코더(120), 디코더(170)가 각각 AMR-WB+의 ACELP 모드를 활용하는 것이 가정된다. AMR-WB+는 시퀀스(320)가 도 3에 도시되어 있는 동등한 사이즈의 프레임들을 활용한다. 도 3은 AMR-WB+에서의 ACELP에 따른 상이한 타입들의 프리-필터(pre-filter) 프레임들의 시퀀스를 도시힌다. AAC로부터 ACELP로의 전환 전에, 제어기(130 또는 180)는, 제1 슈퍼프레임(320)이 4개의 프레임 대신에 5개의 프레임으로 이루어지도록, ACELP의 프레이밍을 수정한다. 따라서, ACR 데이터(314)가 디코더에서 사용 가능하고, AAC 디코드된 데이터가 또한 사용 가능하다. 따라서, 제1 부분은, 이것이 각각 제2 인코더(120), 제2 디코더(170)의 코딩 웜-업 기간을 참조하는 바와 같이, 디코더에서 폐기될 수 있다. 일반적으로, 다른 실시예들에 있어서, AMR-WB+ 슈퍼프레임은 또한 슈퍼프레임의 끝에서 추가 프레임만큼 연장될 수 있다.

도 3은 2개의 모드 천이, 즉, AAC로부터 AMR-WB+로 그리고 AMR-WB+로부터 AAC로의 천이를 도시한다. 일 실시예에 있어서, AAC 코덱의 일반적인 개시/정지 윈도우들(302 및 304)이 사용되며, AMR-WB+ 코덱의 프레임 길이는 AAC 코덱의 개시/정지 윈도우의 페이드 부분을 중첩하도록 증가된다, 즉, 제2 프레이밍 규칙이 수정된다. 도 3에 따르면, AAC로부터 AMR-WB+로의 천이, 즉, 제1 시간 에일리어싱 도입 인코더(110)로부터 제2 인코더(120)로의 천이 또는 제1 시간 에일리어싱 도입 디코더(160)로부터 제2 디코더(170)로의 천이는, 각각, AAC 프레이밍을 유지하고 중첩을 커버하기 위해 천이에서 시간 영역 프레임을 연장시키는 것에 의해 처리된다. 천이에서의 AMR-WB+ 슈퍼프레임, 즉, 도 3에서의 제1 슈퍼프레임(320)은 4개의 프레임 대신에 5개의 프레임을 사용하며, 5번째 프레임은 중첩을 커버한다. 이것은 데이터 오버헤드를 도입하지만, 실시예는 AAC와 AMR-WB+ 모드 사이의 평탄한 천이가 보장되는 장점을 제공한다.

앞서 이미 언급된 바와 같이, 제어기(130)는, 상이한 분석 또는 상이한 옵션이 생각될 수 있는 오디오 샘플의 특성에 기반하여 2개의 코딩 영역 사이의 전환을 위해 적합될 수 있다. 예를 들면, 제어기(130)는 신호의 부동 단편 또는 유동 단편에 기반하여 코딩 모드를 전환할 수 있다. 다른 옵션이, 오디오 샘플이 더 유성적인 또는 무성적인 신호에 대응하는지의 여부에 기반하여 스위치될 것이다. 오디오 샘플의 특성을 판정하기 위한 구체적인 실시예를 제공하기 위해서, 하기에서는, 신호의 유성음 유사성에 기반하여 전환하는 제어기(130)의 일 실시예가 있다.

예시적으로, 의사-주기 임펄스-꼴(Quasi-periodic impulse-like) 세그먼트 또는 신호 부분 및 노이즈-꼴 신호 세그먼트 또는 신호 부분이 예시적으로 논의되는, 도 4 (a) 및 4 (b), 도 5 (a) 및 5 (b)에 대해 각각 언급된다. 일반적으로, 제어기(130, 180)는, 부동, 유동, 스펙트럼의 순백 등과 같은, 상이한 기준에 기반하여 결정하도록 적합될 수 있다. 하기에서는 예시적인 기준이 일 실시예의 부분으로서 주어진다. 구체적으로, 유성음의 스피치(voiced speech)가 도 4에서 시간 영역에 그리고 도 4 (b)에서 주파수 영역에 예시되어 있고, 예로서 의사-주기 임펄스-꼴 신호 부분에 대해 논의되며, 예로서 노이즈-꼴 신호 부분으로서 무성음의 세그먼트가 도 5 (a) 및 5 (b)와 관련하여 논의된다.

스피치는 일반적으로 유성음, 무성음 또는 혼성음으로서 분류될 수 있다. 유성음의 스피치는 시간 영역에서 의사 주기적이며 주파수 영역에서 화성적으로(harmonically) 구성되어 있으며, 무성음의 스피치는 랜덤-꼴 및 광대역이다. 추가적으로, 유성음의 세그먼트의 에너지는 일반적으로, 무성음의 세그먼트의 에너지보다 더 높다. 유성음의 스피치의 단기 스펙트럼은 그것의 정제되고 포먼트(formant)의 구조에 의해 특성화된다. 정제된 화성적 구조는 의사-주기적 스피치의 결과이며 진동하는 성대(vibrating vocal cord)에 기원된 것일 수 있다.

스펙트럼 포락선으로도 불리우는 포먼트 구조는, 소스(source) 및 성도의 상호 작용으로 인한 것이다. 성도는 인두와 구강으로 이루어진다. 유성음의 스피치의 단기 스펙트럼에 “들어맞는” 스펙트럼 포락선의 형태는, 성도의 전달 특성과 성문 펄스(glottal pulse)로 인한 스펙트럼 틸트(spectral tilt)(6dB/옥타브)와 관련된다.

스펙트럼 포락선은, 포먼트로 불리우는 피크(peak)의 세트에 의해 특성화된다. 포먼트는 성도의 공명 모드이다. 표준 성도에 있어서, 5 kHz하에 3 내지 5 포먼트가 있다. 일반적으로 3 kHz하에서 발생하는 첫 번째의 3개의 포먼트의 진폭 및 위치는 스피치 합성 및 지각의 양쪽에 있어서 매우 중요하다. 더 높은 포먼트는 또한, 광대역의 그리고 무성음의 스피치 표현에 대해서 중요하다. 스피치의 특성은 하기와 같이 물리적인 스피치 생성 시스템에 관련된다. 진동하는 성대에 의해 발생되는 의사-주기적 성문 공기 펄스로 성도를 여기시키는 것은 유성음의 스피치를 생성한다. 주기적 펄스의 주파수는 기초적인 주파수 또는 피치로 칭해진다. 성도내에서의 압축을 통해 공기를 강제하는 것은 무성음의 스피치를 생성한다. 비음(nasal sound)은 비도(nasal tract)의 성도로의 음향적인 결합으로 인한 것이며, 파열음은, 상기 도(tract)의 폐쇄 뒤에 이루어지는, 공기압을 급감시키는 것에 의해 감소된다.

따라서, 오디오 신호의 노이즈-꼴 부분은, 시간 영역에서의 부동 부분이 영구적인 반복 펄스를 나타내지 않는다는 사실로 인해서, 도 4 (a)에서 예로서 예시되어 있는 바와 같은 의사-주기 임펄스-꼴 부분과는 상이한, 도 5 (a)에 예시된 바와 같이 시간 영역의 부동 부분 또는 주파수 영역에서의 유동 부분일 수 있다. 나중에 개괄될 바와 같이, 하지만, 노이즈-꼴 부분과 의사-주기 임펄스-꼴 부분간의 차이는 또한, 여기 신호에 대한 LPC 후에 관찰될 수 있다. LPC는 성도 및 성도의 여기를 모델링하는 방법이다. 신호의 주파수 영역이 고려될 때, 임펄스-꼴 신호는 개별적인 포먼트들의 두드러진 출현, 즉 도 4 (b)에서의 현저한 피크를 나타내며, 부동의 스펙트럼은 도 5 (b)에 예시된 바와 같이 매우 넓은 스펙트럼을 갖고, 또는 화성의 신호의 경우에 있어서, 예컨대, 음악 신호에서 발생하는 특정 톤(tone)을 나타내는 일부의 현저한 피크를 갖는, 하지만 도 4 (b)에서의 임펄스-꼴 신호와 같이 서로로부터 그러한 규칙적인 거리를 갖지 않는, 매우 연속적인 노이즈 플로어(noise floor)를 갖는다.

또한, 의사-주기 임펄스-꼴 부분과 노이즈-꼴 부분은, 적시에 발생할 수 있다, 즉, 그것은 오디오 신호의 일부가 시간 맞춰 노이지(noisy)하고 오디오 신호의 다른 부분이 시간 맞춰 의사-주기적, 즉, 음조적(tonal)이라는 것을 의미한다. 대안적으로, 또는 추가적으로, 신호의 특성은 상이한 주파수 대역에서 상이할 수 있다. 따라서, 오디오 신호가 노이지한지 또는 음조적인지의 여부의 결정이 또한 주파수-선택적으로 행해질 수 있음으로써, 특정 주파수 대역 또는 몇몇의 특정한 주파수 대역이 노이지한 것으로 간주되고 다른 주파수 대역이 음조적인 것으로 간주된다. 이러한 경우에, 오디오 신호의 특정 시간 부분은 음조적 구성 요소들 및 노이지 구성 요소들을 포함할 수 있다.

다음으로, 분석-합성 CELP 인코더가 도 6에 관하여 논의될 것이다. CELP 인코더의 세부는 또한, 「“Speech Coding: A tutorial review”, 안드레아스 스파니아스(Andreas Spanias), Proceedings of IEEE, Vol. 84, No. 10, 1994년 10월, pp. 1541-1582」에서 발견될 수 있다. 도 6에 예시된 바와 같은 CELP 인코더는 장기 예측 구성 요소(60) 및 단기 예측 구성 요소(62)를 포함한다. 또한, 64에서 표시되어 있는 코드북(codebook)이 사용된다. 지각적 가중 필터(perceptual weighting filter)W(z)는 66에서 구현되며, 오차 최소화 제어기가 68에 제공되어 있다. s(n)는 시간 영역 입력 오디오 신호이다. 지각적으로 가중되고 난 후에, 가중된 신호는, 블록(66)의 출력에서의 가중된 합성 신호와 실제의 가중된 신호 s_w(n)간의 오차를 계산하는 감산기(69)내로 입력된다.

일반적으로, 단기 예측 A(z)은 하기에서 더 논의될, LPC 분석 스테이지에 의해 게산된다. 이러한 정보에 기반하여, 장기 예측 A_L(z)은 (피치 이득 및 피치 지연으로도 알려져 있는) 장기 예측 이득 b 및 지연 T를 포함한다. CELP 알고리즘은 그 다음에, 예컨대, 가우스 시퀀스(Gaussian sequence)의 코드북을 이용하여 단기 및 장기 예측 후에 획득되는 잔차 신호를 인코드한다. “A”가 “대수학”을 뜻하는 ACELP 알고리즘은 특정의 대수학적으로 설계된 코드북을 갖는다.

코드북은, 각각의 벡터가 다수의 샘플에 따른 길이를 갖는 더 많은 또는 더 적은 벡터들을 포함할 수 있다. 이득 계수 g가 코드 벡터를 스케일링하고 이득된 코드된 샘플이 장기 합성 필터 및 단기 예측 합성 필터에 의해 필터링된다. “최적의” 코드 벡터는, 지각적으로 가중된 평균 제곱 오차가 최소화되도록 선택된다. CELP에서의 검색 처리는, 도 6에 예시된 분석-합성 스킴으로부터 입증된다. 도 6은 분석-합성 CELP의 일 예만을 예시하고 실시예들이 도 6에 도시된 구조에 한정되지 않아야 한다는 것이 주목된다.

CELP에 있어서, 장기 예측기는 종종 이전의 여기 신호를 포함하는 적합 코드북으로서 구현된다. 장기 예측 지연 및 이득은, 평균 제곱 가중된 오차를 최소화하는 것에 의해 또한 선택되는, 적합 코드북 인덱스 및 이득에 의해 표현된다. 이러한 경우에 있어서, 여기 신호는 2개의 - 적합 코드북으로부터 하나 및 고정 코드북으로부터 하나의 - 이득 스케일링된 벡터의 추가로 이루어진다. AMR-WB+에서의 지각적 가중 필터는 LPC 필터에 기반하며, 따라서 지각적으로 가중된 신호는 LPC 영역 신호의 형태이다. AMR-WB+에서 사용되는 변환 영역에 있어서, 변환은 가중된 신호에 적용된다. 디코더에서, 여기 신호는, 합성 및 가중 필터의 역으로 이루어지는 필터를 통해 디코드된 가중 신호를 필터링하는 것에 의해 획득될 수 있다.

예측 코딩 분석 스테이지(12)의 일 실시예의 기능성은, 나름의 실시예들에서 제어기(130, 180)의 LPC 분석 및 LPC 합성을 이용하여 도 7에 도시된 실시예에 따라 다음에 논의될 것이다.

도 7은 LPC 분석 블록의 일 실시예의 보다 구체적인 구현을 예시한다. 오디오 신호는, 필터 정보 A(z), 즉 합성 필터에 대한 계수에 대한 정보를 판정하는, 필터 판정 블록내로 입력된다. 이러한 정보는 양자화되고 디코더에 대해 요구되는 단기 예측 정보로서 출력된다. 감산기(786)에 있어서, 현재의 신호 샘플이 입력되고 현재 샘플에 대한 예측값이 감산됨으로써, 이러한 샘플에 대해서, 예측 오차 신호가 라인(784)에서 생성된다. 예측 오차 신호는 여기 신호 또는 여기 프레임(대개 인코드된 후)으로도 칭해질 수 있다는 것에 주목한다.

도 8a는 다른 실시예로 달성되는 다른 시간 시퀀스의 윈도우들을 도시한다. 하기에서 고려되는 실시예들에 있어서, AMR-WB+ 코덱은 제2 인코더(120)에 대응하고 AAC 코덱은 제1 시간 영역 에일리어싱 도입 인코더(110)에 대응한다. 하기의 실시예는 AMR-WB+ 코덱 프레이밍을 유지하지만, 즉 제2 프레이밍 규칙은 수정되지 않은 채로 남아있지만, AMR-WB+ 코덱으로부터 AAC 코덱으로의 천이에서의 윈도윙은 수정되며, AAC 코덱의 개시/정지 윈도우들이 조작된다. 환언하면, AAC 코덱 윈도윙은 천이에서 더 길어질 것이다.

도 8a 및 8b는 이러한 실시예를 예시한다. 양쪽의 도면은 일반적인 AAC 윈도우(801)의 시퀀스를 도시하는데, 도 8a에 있어서는 새로운 수정된 정지 윈도우(802)가 도입되고 도 8b에 있어서는 새로운 정지/개시 윈도우(803)가 도입된다. ACELP에 관하여, 도 3에서의 실시예에 관하여 이미 기술되었던 바와 같이 묘사된 유사한 프레이밍이 사용된다. 도 8a 및 8b에서 묘사된 바와 같은 윈도우 시퀀스를 초래하는 실시예에 있어서, 보통의 AAC 코덱 프레이밍이 유지되지 않는다는 것, 즉, 수정된 개시, 정지 또는 개시/정지 윈도우들이 사용된다는 것이 가정된다. 도 8a에서 묘사된 제1 윈도우는 AMR-WB+로부터 AAC로의 천이에 대한 것이며, AAC 코덱은 긴 정지 윈도우(802)를 사용할 것이다. 도 8b에 표시된 바와 같은 이러한 천이에 대해서 AAC 긴 윈도우를 이용하는, AAC 코덱이 짧은 윈도우를 사용할 때의 AMR-WB+로부터 AAC로의 천이를 나타내는, 도 8b의 도움으로 다른 윈도우가 기술될 것이다. 도 8a는, ACELP의 제1 슈퍼프레임(820)은 4개의 프레임을 포함하는 것, 즉, 일반적인 ACELP 프레이밍, 즉 제2 프레이밍 규칙을 따르는 것을 나타낸다. ACELP 프레이밍 규칙을 유지시키기 위해, 즉, 제2 프레이밍 규칙이 수정되지 않게 유지되기 위해, 도 8a 및 8b에 표시된 바와 같은 수정된 윈도우들(802 및 803)이 활용된다.

따라서, 하기에서는, 윈도윙에 관하여 몇몇의 세부가, 일반적으로, 도입될 것이다.

도 9는, 윈도우 시퀀스 정보가, 윈도우가 샘플을 마스킹하는 제1의 제로(zero) 부분, 프레임의 샘플, 즉 입력 시간 영역 프레임 또는 중첩 시간 영역 프레임이 수정되지 않은 채 통과할 수 있는 제2 바이패스(bypass) 부분, 및 프레임의 끝에서 샘플을 다시 마스킹하는, 제3 제로 부분을 포함할 수 있는, 일반적인 직사각형 윈도우를 묘사한다. 환언하면, 제1 제로 부분에서의 프레임의 다수의 샘플을 억제하고, 제2 바이패스 부분에서 샘플을 통과시키며, 그 다음에 제3 제로 부분에서 프레임의 끝부분에서 샘플을 억제하는, 윈도윙 함수가 적용될 수 있다. 이러한 컨텍스트에 있어서, 억제는 또한, 윈도우의 바이패스 부분의 끝 및/또는 시작에서 제로들의 시퀀스를 추가하는 것이라고 말해질 수 있다. 제2 바이패스 부분은, 윈도윙 함수가 간단히 1의 값을 갖도록, 즉, 샘플들이 수정되지 않은 채로 통과되도록, 즉, 윈도윙 함수가 프레임의 샘플들을 통해 전환하도록 되어 있을 수 있다.

도 10은 윈도윙 시퀀스 또는 윈도윙 함수의 다른 실시예를 도시하며, 윈도윙 시퀀스는 제1 제로 부분과 제2 바이패스 부분 사이의 상승 에지 부분 및 제2 바이패스 부분과 제3 제로 부분 사이의 하강 에지 부분을 더 포함한다. 상승 에지 부분은 페이드-인 부분으로 간주될 수도 있고 하강 에지 부분은 페이드-아웃 부분으로 간주될 수 있다. 실시예들에 있어서, 제2 바이패스 부분은, 여기 프레임의 샘플들을 조금도 수정하지 않기 위한 것들의 시퀀스를 포함할 수 있다.

도 8에 도시된 실시예로 돌아와보면, 수정된 정지 윈도우는, AMR-WB+와 AAC 사이를 천이시키는 실시예에서 사용되는 바와 같이, AMR-WB+로부터 AAC로의 천이시에, 도 11에 보다 구체적으로 묘사된다. 도 11은 ACELP 프레임들(1101, 1102, 1103 및 1104)을 나타낸다. 수정된 정지 윈도우(802)는 그 다음에, AAC로의 천이를 위해, 즉, 제1 시간 영역 에일리어싱 도입 인코더(110), 디코더(160)를 위해 각각 사용된다. MDCT의 상기한 세부에 따르면, 윈도우는, 512 샘플의 제1 제로 부분을 갖는, 프레임(1102)의 중간에서 이미 개시된다. 이러한 부분 다음에는 128 샘플들을 가로질러 연장하는 윈도우의 상승 에지 부분이 있고, 128 샘플의 다음에는 본 실시예에 있어서, 576 샘플들로 연장하는 제2 바이패스 부분이 있다, 즉, 제1 제로 부분이 접혀지는 상승 에지 부분 후의 512 샘플들 다음에는 64 샘플들을 가로질러 연장하는 윈도우의 끝에서 제3 제로 부분으로부터 초래되는 제2 바이패스 부분의 추가적인 64 샘플들이 있다. 윈도우의 하강 에지 부분은, 다음의 윈도우와 중첩될, 1024 샘플들을 그와 함께 초래한다.

실시예는, 다음에 의해 구현되는, 의사 코드를 또한 이용하여 기술될 것이다:

/* Block Switching based on attacks */

If ( there is an attack) {

nextwindowSequence = SHORT_WINDOW;

}

else {

nextwindowSequence = LONG_WINDOW;

}

/* Block Switching based on ACELP Switching Decision */

if (next frame is AMR) {

nextwindowSequence = SHORT_WINDOW;

}

/* Block Switching based on ACELP Switching Decision for

STOP_WINDOW_1152 */

if (actual frame is AMR && next frame is not AMR) {

nextwindowSequence = STOP_WINDOW_1152;

}

/*Block Switching for STOPSTART_WINDOW_1152*/

if (nextwindowSequence == SHORT_WINDOW) {

if (windowSequence == STOP_WINDOW_1152) {

windowSequence = STOPSTART_WINDOW_1152;

}

도 11에 묘사된 실시예로 돌아와보면, 128 샘플들을 가로질러 연장하는 윈도우의 상승 에지 부분내에 시간 에일리어싱 폴딩 섹션(time aliasing folding section)이 있다. 이러한 섹션이 최종 ACELP 프레임(1104)과 중첩하기 때문에, ACELP 프레임(1104)의 출력이 상승 에지 부분에서 시간 에일리어싱 제거를 위해 사용될 수 있다. 에일리어싱 제거는, 상기한 예시와 일치하여, 시간 영역 또는 주파수 영역에서 실행될 수 있다. 환언하면, 최종 ACELP 프레임의 출력은 주파수 영역으로 변환될 수 있고 그 다음에 수정된 정지 윈도우(802)의 상승 에지 부분과 중첩할 수 있다. 대안적으로, TDA 또는 TDAC가 최종 ACELP 프레임에, 그것을 수정된 정지 윈도우(802)의 상승 에지 부분과 중첩시키기 전에, 적용될 수 있다.

상기 실시예는 천이에서 발생되는 오버헤드를 감소시킨다. 그것은, 시간 영역 코딩의 프레이밍, 즉, 제2 프레이밍 규칙에 대한 임의의 수정에 대한 필요를 제거한다. 또한, 그것은, 비트 할당 및 전송하는 계수들의 개수에 관하여 시간 영역 코더, 즉, 제2 인코더(120)보다 일반적으로 더욱 유연성이 있는, 주파수 영역 코더, 즉, 시간 영역 에일리어싱 도입 인코더(110)(AAC)를 또한 적합시킨다.

하기에서는, 제1 시간 영역 에일리어싱 도입 코더(110) 및 제2 코더(120), 디코더(160 및 170)의 사이에서의 각각의 전환시에, 에일리어싱이 없는 크로스 페이드를 제공하는 다른 실시예가 기술될 것이다. 이러한 실시예는, 개시 또는 재개시 프로시져(procedure)의 경우에, 특히, 낮은 비트율에서, TDAC로 인한 노이즈가 회피되는 장점을 제공한다. 장점은, 윈도우의 우측 부분 또는 하강 에지 부분의 임의의 시간 에일리어싱 없이 수정된 AAC 개시 윈도우를 갖는 실시예에 의해 달성된다. 수정된 개시 윈도우는 비대칭 윈도우이다, 즉, 윈도우의 우측 부분 또는 하강 에지 부분이 MDCT의 폴딩 포인트 전에 종료한다. 따라서, 윈도우는 시간 에일리어싱이 없다. 동시에, 중첩 영역이 128 샘플들 대신에 64 샘플들까지 실시예들에 의해 감소될 수 있다.

실시예들에 있어서, 오디오 인코더(100) 또는 오디오 디코더(150)는, 영구적이고 안정적인 상태에 있기 전에 특정 시간을 취할 수 있다. 환언하면, 시간 영역 코더, 즉, 제2 인코더(120) 및 또한 디코더(170)의 개시 기간 동안에, 특정 시간이, 예컨대, LPC의 계수를 시작시키기 위해 요구된다. 리셋의 경우에 오차를 평탄화하기 위해서, 실시예들에 있어서, AMR-WB+ 입력 신호의 좌측 부분이, 예컨대, 64 샘플들의 길이를 갖는, 인코더(120)에서 짧은 사인(sine) 윈도우로 윈도윙될 수 있다. 또한, 합성 신호의 좌측 부분은 제2 디코더(170)에서 동일 신호로 윈도윙될 수 있다. 이러한 식으로, 사인 제곱 윈도우가 AAC에 유사하게 적용될 수 있다 - 사인 제곱이 그 개시 윈도우의 우측 부분에 적용 -.

이러한 윈도윙을 이용하여, 일 실시예에 있어서, AAC로부터 AMR-WB+로의 천이가 시간-에일리어싱 없이 실행될 수 있고, 예컨대, 64 샘플들로서의 짧은 크로스-페이드 사인 윈도우에 의해 행해질 수 있다. 도 12는 AAC로부터 AMR-WB+로의 천이 및 AMR-WB+로부터 AAC로의 천이를 구현하는 시간 라인을 도시한다. 도 12는 AAC 개시 윈도우(1201)와 그 다음에 있는, AAC 윈도우(1201)와 중첩하고 64 샘플들을 가로질러 연장하는 영역(1202)을 중첩하는 AMR-WB+ 부분(1203)을 도시한다. AMR-WB+ 부분의 다음에는, 128 샘플들을 중첩하는 AAC 정지 윈도우(1205)가 있다.

도 12에 따르면, 실시예는 AAC로부터 AMR-WB+로의 천이에 개개의 에일리어싱이 없는 윈도우를 적용한다.

도 13은 AAC로부터 AMR-WB+로의 천이시에 인코더(100) 및 디코더(150), 인코더(110) 및 디코더(160)에서의 양측에 각각 적용되는, 수정된 개시 윈도우를 표시한다.

도 13에 묘사된 윈도우는 제1 제로 부분이 존재하지 않는 것을 나타낸다. 윈도우는, 1024 샘플들을 가로질러 연장하는 상승 에지 부분과 더불어 바로 시작한다, 즉, 폴딩 축이 도 13에 도시된 1024 간격의 중간에 있다. 그 다음으로는 대칭축이 1024 간격의 우측에 있다. 도 13으로부터 알 수 있는 바와 같이, 제3 제로 부분은 512 샘플들로 연장한다, 즉, 전체 윈도우의 우측 부분에, 즉, 64 샘플 간격의 중앙에서 시작으로 연장하는 바이패스 부분에 에일리어싱이 없다. 하강 에지 부분이 64 샘플들을 가로질러 연장하여, 크로스-오버 섹션(cross-over section)이 협소한 장점을 제공한다는 것을 또한 알 수 있다. 64 샘플 간격은 크로스-페이드를 위해 사용되지만, 이러한 간격에서는 에일리어싱이 존재하지 않는다. 따라서, 낮은 오버헤드만이 도입된다.

상기한 수정된 윈도우들이 있는 실시예들은, 지나치게 많은 오버헤드 정보를 인코드하는 것, 즉 샘플들의 일부를 2번 인코드하는 것을 회피할 수 있다. 상기한 상세한 설명에 따르면, 유사하게 설계된 윈도우들은, AAC 윈도우를 다시 수정하는 하나의 실시예에 따른 AMR-WB+로부터 AAC로의 천이에 대해 선택적으로 적용될 수 있고, 또한 64 샘플들까지 중첩을 감소시킨다.

따라서, 수정된 정지 윈도우는 하나의 실시예에 있어서 2304 샘플들로 길어지게 되며 1152-포인트 MDCT에서 사용된다. 윈도우의 좌측 부분은 MDCT 폴딩 축 후에 페이드-인을 시작하는 것에 의해 시간-에일리어싱을 없게 만들 수 있다. 환언하면, 제1 제로 부분을 전체 MDCT 크기의 4분의 1보다 더 크게 만드는 것에 의해서이다. 그 다음으로는, 상보적인 사인 제곱 윈도우가 AMR-WB+ 세그먼트의 최종 64 디코드된 샘플에 적용된다. 이러한 2개의 크로스-페이드 윈도우는, 오버헤드 전송 정보를 제한하는 것에 의해 AMR-WB+로부터 AAC로의 평탄한 천이를 획득할 수 있게 한다.

도 14는 일 실시예에서 인코더(100) 측에 적용될 수 있는, AMR-WB+로부터 AAC로의 천이에 대한 윈도우를 예시한다. 폴딩 축이 576 샘플들 후에 있다는 것, 즉 제1 제로 부분이 576 샘플들을 가로질러 연장된다는 것을 알 수 있다. 이것은, 전체 윈도우의 좌측이 에일리어싱이 없는 결과를 가져온다. 크로스 페이드는 윈도우의 2번째 4분의 1에서, 즉 576 샘플들 후에, 또는, 환언하면, 폴딩 축을 막 넘어서 시작한다. 크로스 페이드 섹션, 즉, 윈도우의 상승 에지 부분은, 그 다음에, 도 14에 따라 64 샘플들로 협소해질 수 있다.

도 15는 일 실시예에서 디코더(150) 측에 적용되는 AMR-WB+로부터 ACC로의 천이를 위한 윈도우를 도시한다. 윈도우는, 양쪽의 윈도우들을 인코드되는 샘플들을 통해 적용하고 그 다음에 디코드되어 다시 사인 제곱 윈도우라는 결과를 가져오는, 도 14에 기술된 윈도우와 유사하다.

하기의 의사 코드는 AAC로부터 AMR-WB+로의 전환시에, 개시 윈도우 선택 프로시져의 일 실시예를 기술한다.

이러한 실시예들은 예컨대, 다음과 같은 의사 코드를 이용하여 기술될 수도 있다:

/* Adjust to allowed Window Sequence */

if (nextwindowSequence == SHORT_WINDOW) {

if (windowSequence == LONG_WINDOW) {

if (actual frame is not AMR && next frame is AMR) {

windowSequence = START_WINDOW_AMR;

}

else {

windowSequence = START_WINDOW;

}

상기한 바와 같은 실시예들은, 천이 동안에 연속 윈도우들에서 작은 중첩 영역을 이용하는 것에 의해 생성된 정보의 오버헤드를 감소시킨다. 또한, 이러한 실시예들은, 이러한 작은 중첩 영역들이, 블록킹 흠결(blocking artifact)을 평탄화시키기에, 즉, 평탄한 크로스 페이드를 갖기에 여전히 충분하다는 장점을 제공한다. 또한, 그것은, 시간 영역 코더, 즉, 제2 인코더(120, 디코더(170) 각각의 개시로 인한 오차의 버스트의 악영향을, 페이드된 입력으로 그것을 초기화하는 것에 의해, 감소시킨다.

요약하여 말하면, 본 발명의 실시예들은, 평탄화된 크로스-오버 영역들이 높은 코딩 효율에서 다수-모드 오디오 인코딩 개념으로 실행될 수 있는, 즉, 천이 윈도우들이 전송된 추가적인 정보의 관점에서 낮은 오버헤드만을 도입한다는 장점을 제공한다. 또한, 실시예들은, 하나의 모드의 윈도윙 또는 프레이밍을 다른 것에 적합시키면서, 다수-모드 인코더를 사용하는 것을 가능케 한다.

몇몇의 양태들이 장치의 컨텍스트로 기술되었을지라도, 이러한 양태들이, 블록 또는 디바이스가 방법 단계 또는 방법 단게의 피쳐(feature)에 대응하는, 대응 모드의 설명을 또한 나타낸다는 것이 분명하다. 유사하게, 방법 단계의 컨텍스트로 기술된 양태들은, 대응 블록의 설명 또는 대응 장치의 아이템(item) 또는 피쳐를 또한 나타낸다.

진보적인 인코드된 오디오 신호는 디지털 저장 매체에 저장될 수 있고, 또는 인터넷과 같은 유선 전송 매체 또는 무선 전송 매체와 같은 전송 매체상에서 전송될 수 있다.

특정 구현의 요구에 따라, 본 발명의 실시예들은 하드웨어로 또는 소프트웨어로 구현될 수 있다. 구현은, 개개의 방법이 실행되도록 프로그램가능 컴퓨터 시스템과 협동하는(또는 협동할 수 있는), 그곳에 저장된 전기적으로 판독 가능 제어 신호를 갖는, 디지컬 저장 매체, 예컨대, 플로피 디스크, DVD, CD, ROM, PROM, EPROM, EEPROM 또는 플래시 메모리를 이용하여 행해질 수 있다.

본 발명에 따른 일부의 실시예들은, 이 명세서에 기술된 방법들 중 하나가 실행되도록, 프로그램 가능 컴퓨터 시스템과 협동할 수 있는, 전기적으로 판독 가능한 제어 신호를 갖는 데이터 캐리어(data carrier)를 포함한다.

일반적으로, 본 발명의 실시예들은 프로그램 코드를 가진 컴퓨터 프로그램 제품으로서 구현될 수 있다 - 프로그램 코드는 컴퓨터 프로그램 제품이 컴퓨터상에서 구동될 때, 방법들 중 하나를 실행하도록 동작될 수 있음 -. 프로그램 코드는 예컨대 기계 판독 가능 캐리어상에 저장될 수 있다.

다른 실시예들은, 기계 판독 가능 캐리어에 저장된, 이 명세서에 기술된 방법들 중 하나를 실행하기 위한 컴퓨터 프로그램을 포함한다.

환언하면, 진보적인 방법의 일 실시예는, 따라서, 컴퓨터 프로그램이 컴퓨터상에서 구동될 때, 이 명세서에 기술된 방법들 중 하나를 실행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.

진보적인 방법의 추가적인 실시예는, 따라서, 그곳에 기록되는, 이 명세서에 기술된 방법들 중 하나를 실행하기 위한 컴퓨터 프로그램을 포함하는, 데이터 캐리어(또는 디지털 저장 매체, 또는 컴퓨터-판독 가능 매체)이다.

진보적인 방법의 추가적인 실시예는, 따라서, 이 명세서에 기술된 방법들 중 하나를 실행하기 위한 컴퓨터 프로그램을 나타내는 신호의 시퀀스 또는 데이터 스트림(data stream)이다. 신호의 시퀀스 또는 데이터 스트림은, 예컨대, 인터넷을 통해, 데이터 통신 연결을 통해 전송되도록 예컨대 구성될 수 있다.

추가적인 실시예는, 이 명세서에 기술된 방법들 중 하나를 실행하도록 적합된 또는 구성된 처리 수단, 예컨대, 컴퓨터 또는 프로그램 가능 논리 디바이스를 포함한다.

추가적인 실시예는, 그곳에 설치된, 이 명세서에 기술된 방법들 중 하나를 실행하기 위한 컴퓨터 프로그램을 갖는 컴퓨터를 포함한다.

일부의 실시예들에 있어서, 프로그램 가능 논리 디바이스(예컨대, 필드 프로그램 가능 게이트 어레이(field programmable gate array))가 이 명세서에 기술된 방법들의 기능성들의 일부 또는 전부를 실행하기 위해 사용될 수 있다. 일부의 실시예들에 있어서, 필드 프로그램 가능 게이트 어레이는, 이 명세서에 기술된 방법들 중 하나를 실행하기 위해 마이크로프로세서와 협동할 수 있다. 일반적으로, 방법들은 임의의 하드웨어 장치에 의해 바람직하게 실행된다.

상기한 실시예들인 단지 본 발명의 원리에 대한 예시이다. 이 명세서에 기술된 세부 및 배열의 수정 및 변형이 당업자에게 명백할 것이라는 것이 이해된다. 따라서, 첨부된 특허 청구범위의 권리 범위에 의해서만 한정되고, 이 명세서의 실시예들의 기술 및 설명에 의해서 표현되는 특정 세부들에 의해서는 한정되지 않는 것으로 의도된다.

Claims

오디오 샘플(audio sample)을 인코드하기 위한 오디오 인코더(audio encoder)(100)로서,
제1 인코딩 영역(encoding domain)의 오디오 샘플을 인코드하기 위한 제1 시간 영역 에일리어싱 도입 인코더(time domain aliasing introducing encoder)(110)로서, 제1 프레이밍 규칙(framing rule), 개시 윈도우(start window) 및 정지 윈도우(stop window)를 갖는 제1 시간 영역 에일리어싱 도입 인코더(110);
제2 인코딩 영역의 샘플을 인코드하기 위한 제2 인코더(120)로서, 오디오 샘플의 미리 정해진 프레임 사이즈 수(frame size number), 및 오디오 샘플의 코딩 웜-업 주기 수(coding warm-up period number)를 갖고, 상이한 제2 프레이밍 규칙을 갖는 제2 인코더(120)이며, 상기 제2 인코더(120)의 프레임은 시간적으로 후속하는 오디오 샘플의 개수의 인코드된 표현이고, 상기 개수는 상기 오디오 샘플의 미리 정해진 프레임 사이즈 수와 동등한, 제2 인코더(120); 및
오디오 샘플의 특성에 따라 상기 제1 인코더(110)로부터 상기 제2 인코더(120)로 전환하기 위한, 그리고 상기 제1 인코더(110)로부터 상기 제2 인코더(120)로의 전환에 따라 상기 제2 프레이밍 규칙을 수정하기 위한 또는 상기 제1 인코더(110)의 개시 윈도우 또는 정지 윈도우를 수정하기 위한 - 상기 제2 프레이밍 규칙은 수정되지 않은 채로 남아 있음 - 제어기(130)를 포함하는 오디오 인코더(100).
청구항 1에 있어서,
상기 제1 시간 영역 에일리어싱 도입 인코더(110)는 후속하는 오디오 샘플의 제1 프레임을 주파수 영역으로 변환하기 위한 주파수 영역 변환기를 포함하는, 오디오 인코더(100).
청구항 2에 있어서,
상기 제1 시간 영역 에일리어싱 도입 인코더(110)는, 후속하는 프레임이 상기 제2 인코더(120)에 의해 인코드될 때 최종 프레임을 상기 개시 윈도우로 가중시키도록 그리고/또는 이전 프레임이 상기 제2 인코더(120)에 의해 인코드될 때 상기 제1 프레임을 상기 정지 윈도우로 가중시키도록 되어 있는, 오디오 인코더(100).
청구항 2 또는 3에 있어서,
상기 주파수 영역 변환기는 수정 이산 코사인 변환(modified discrete cosine transformation; “MDCT”)에 기반하여 상기 제1 프레임을 주파수 영역으로 변환하도록 되어 있고, 상기 제1 시간 영역 에일리어싱 도입 인코더(110)는 MDCT 사이즈를 상기 개시 및/또는 정지 및/또는 수정된 개시 및/또는 정지 윈도우에 적합시키도록 되어 있는, 오디오 인코더(100).
청구항 1 내지 4 중 어느 한 항에 있어서,
상기 제1 시간 영역 에일리어싱 도입 인코더(110)는 에일리어싱 부분 및/또는 에일리어싱이 없는 부분을 갖는 개시 윈도우 및/또는 정지 윈도우를 활용하도록 되어 있는, 오디오 인코더(100).
청구항 1 내지 5 중 어느 한 항에 있어서,
상기 제1 시간 영역 에일리어싱 도입 인코더(110)는, 이전의 프레임이 상기 제2 인코더(120)에 의해 인코드될 때 윈도우의 상승 에지 부분으로서 그리고 후속하는 프레임이 상기 제2 인코더(120)에 의해 인코드될 때 하강 에지 부분에서 에일리어싱이 없는 부분을 갖는 개시 윈도우 및/또는 정지 윈도우를 활용하도록 되어 있는, 오디오 인코더(100).
청구항 5 또는 6에 있어서,
상기 제어기(130)는, 상기 제2 인코더(120)의 프레임들의 시퀀스(sequence) 중 제1 프레임이 상기 제1 인코더(110)의 이전의 에일리어싱이 없는 부분에서 처리된 샘플의 인코드된 표현을 포함하도록, 상기 제2 인코더(120)를 개시시키도록 되어 있는, 오디오 인코더(100).
청구항 5 또는 6에 있어서,
상기 제어기(130)는, 상기 오디오 샘플의 코딩 웜-업 주기 수가 상기 제1 시간-영역 에일리어싱 도입 인코더(110)의 개시 윈도우의 에일리어싱이 없는 부분과 중첩하도록 그리고 상기 제2 인코더(120)의 후속하는 프레임이 상기 정지 윈도우의 에일리어싱 부분과 중첩하도록, 상기 제2 인코더(120)를 개시시키도록 되어 있는, 오디오 인코더(100).
청구항 5 내지 7 중 어느 한 항에 있어서,
상기 제어기(130)는, 상기 코딩 웜-업 주기가 상기 개시 윈도우의 에일리어싱 부분과 중첩하도록, 상기 제2 인코더(120)를 개시시키도록 되어 있는, 오디오 인코더(100).
청구항 1 내지 9 중 어느 한 항에 있어서,
상기 제어기(130)는 또한, 오디오 샘플의 상이한 특성에 따라 상기 제2 인코더(120)로부터 상기 제1 인코더(110)로 전환하도록, 그리고 상기 제2 인코더(120)로부터 상기 제1 인코더(110)로의 전환에 따라 상기 제2 프레이밍 규칙을 수정하도록 또는 상기 제1 인코더(110)의 개시 윈도우 또는 정지 윈도우를 수정하도록 - 상기 제2 프레이밍 규칙은 수정되지 않은 채로 남아 있음 - 되어 있는, 오디오 인코더(100).
청구항 10에 있어서,
상기 제어기(130)는, 상기 정지 윈도우의 에일리어싱 부분이 상기 제2 인코더(120)의 프레임을 중첩하도록, 상기 제1 시간 영역 에일리어싱 도입 인코더(110)를 개시시키도록 되어 있는, 오디오 인코더(100).
청구항 11에 있어서,
상기 제어기(130)는, 상기 정지 윈도우의 에일리어싱이 없는 부분이 상기 제2 인코더(120)의 프레임을 중첩하도록, 상기 제1 시간 영역 에일리어싱 도입 인코더(110)를 개시시키도록 되어 있는, 오디오 인코더(100).
청구항 1 내지 12 중 어느 한 항에 있어서,
상기 제1 시간 영역 에일리어싱 도입 인코더(110)는, “동화상 및 관련 오디오의 일반 코딩(Generic Coding of Moving Pictures and Associated Audio): 진보된 오디오 코딩, 국제 표준(Advanced Audio Coding, International Standard) 13818-7, ISO/IEC JTC1/SC29/WG11 동화상 전문가 그룹(Moving Pictures Expert Group), 1997”에 따른 AAC 인코더를 포함하는, 오디오 인코더(100).
청구항 1 내지 13 중 어느 한 항에 있어서,
상기 제2 인코더는 “3세대 파트너십 프로젝트(the Third Generation Partnership Project; “3GPP”), 기술 명세(technical specification; “TS”), 26.290, 2005년 6월의 버전 6.3.0”에 따른 AMR 또는 AMR-WB+ 인코더를 포함하는, 오디오 인코더(100).
청구항 14에 있어서,
상기 제어기는, 제1 AMR 슈퍼프레임(superframe)이 5개의 AMR-프레임을 포함하도록, AMR 프레이밍 규칙을 수정하도록 되어 있는, 오디오 인코더(100).
오디오 프레임을 인코드하기 위한 방법으로서,
제1 프레이밍 규칙, 개시 윈도우 및 정지 윈도우를 이용하여 제1 인코딩 영역의 오디오 샘플을 인코드하는 단계;
오디오 샘플의 미리 정해진 프레임 사이즈 수 및 오디오 샘플의 코딩 웜-업 주기 수를 이용하여 그리고 상이한 제2 프레이밍 규칙을 이용하여 제2 인코딩 영역의 오디오 샘플을 인코드하는 단계로서, 상기 제2 인코딩 영역의 프레임은 시간적으로 후속하는 오디오 샘플의 개수의 인코드된 표현이고, 상기 개수는 상기 오디오 샘플의 미리 정해진 프레임 사이즈 수와 동등한, 단계;
상기 제1 인코딩 영역으로부터 상기 제2 인코딩 영역으로 전환시키는 단계; 및
상기 제2 프레이밍 규칙을 상기 제1 인코딩 영역으로부터 상기 제2 인코딩 영역으로의 전환에 따라 수정하거나 상기 제1 인코딩 영역의 개시 윈도우 또는 정지 윈도우를 수정하는 - 상기 제2 프레이밍 규칙은 수정되지 않은 채로 남아 있음 - 단계를 포함하는 오디오 프레임의 인코드 방법.
컴퓨터 또는 프로세서에서 구동될시에 청구항 16에 기재된 방법을 실행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램.
오디오 샘플의 인코드된 프레임을 디코드하기 위한 오디오 디코더(150)로서,
제1 디코딩 영역(decoding domain)의 오디오 샘플을 디코드하기 위한 제1 시간 영역 에일리어싱 도입 디코더(time domain aliasing introducing decoder)(160)로서, 제1 프레이밍 규칙, 개시 윈도우 및 정지 윈도우를 갖는 제1 시간 영역 에일리어싱 도입 디코더(160);
제2 디코딩 영역의 오디오 샘플을 디코드하기 위한 제2 디코더(170)로서, 오디오 샘플의 미리 정해진 프레임 사이즈 수 및 오디오 샘플의 코딩 웜-업 주기 수를 갖고, 상이한 제2 프레이밍 규칙을 갖는 제2 디코더(170)이며, 상기 제2 인코더(170)의 프레임은 시간적으로 후속하는 오디오 샘플의 개수의 인코드된 표현이고, 상기 개수는 상기 오디오 샘플의 미리 정해진 프레임 사이즈 수와 동등한, 제2 디코더(170); 및
오디오 샘플의 인코드된 프레임내의 표시(indication)에 기반하여 상기 제1 디코더(160)로부터 상기 제2 디코더(170)로 전환하기 위한 제어기(180)로서, 상기 제1 디코더(160)로부터 상기 제2 디코더(170)로의 전환에 따라 상기 제2 프레이밍 규칙을 수정하도록 또는 상기 제1 디코더(160)의 개시 윈도우 또는 정지 윈도우를 수정하도록 - 상기 제2 프레이밍 규칙은 수정되지 않은 채로 남아 있음 - 되어 있는 제어기(180)를 포함하는 오디오 디코더(150).
청구항 19에 있어서,
상기 제1 디코더(160)는 디코드된 오디오 샘플의 제1 프레임을 시간 영역으로 변환하기 위한 시간 영역 변환기를 포함하는, 오디오 디코더(150).
청구항 18 또는 19에 있어서,
상기 제1 디코더(160)는, 후속하는 프레임이 상기 제2 디코더(170)에 의해 디코드될 때, 최종 디코드된 프레임을 상기 개시 윈도우로 가중시키도록 그리고/또는 이전 프레임이 제2 디코더(170)에 의해 디코드될 때, 상기 제1 디코드된 프레임을 상기 정지 윈도우로 가중시키도록 되어 있는, 오디오 디코더(150).
청구항 19 또는 20에 있어서,
상기 시간 영역 변환기는 역 MDCT(inverse modified discrete cosine transformation; “IMDCT”)에 기반하여 상기 제1 프레임을 시간 영역으로 변환하도록 되어 있고, 상기 제1 시간 영역 에일리어싱 도입 디코더(160)는 IMDCT 사이즈를 상기 개시 및/또는 정지 또는 수정된 개시 및/또는 정지 윈도우에 적합시키도록 되어 있는, 오디오 디코더(150).
청구항 18 내지 21 중 어느 한 항에 있어서,
상기 제1 시간 영역 에일리어싱 도입 디코더(160)는 에일리어싱 부분 및 에일리어싱이 없는 부분을 갖는 개시 윈도우 및/또는 정지 윈도우를 활용하도록 되어 있는, 오디오 디코더(150).
청구항 18 내지 22 중 어느 한 항에 있어서,
상기 제1 시간 영역 에일리어싱 도입 디코더(160)는, 이전의 프레임이 상기 제2 디코더(170)에 의해 디코드될 때 윈도우의 상승 에지 부분에서 그리고 후속하는 프레임이 상기 제2 디코더(170)에 의해 인코드될 때 하강 에지 부분에서 에일리어싱이 없는 부분을 갖는 개시 윈도우 및/또는 정지 윈도우를 활용하도록 되어 있는, 오디오 디코더(150).
청구항 22 또는 23에 있어서,
상기 제어기(180)는, 상기 제2 디코더(170)의 프레임들의 시퀀스 중 제1 프레임이 상기 제1 인코더(160)의 이전의 에일리어싱이 없는 부분에서 처리된 샘플의 인코드된 표현을 포함하도록, 상기 제2 디코더(170)를 개시시키도록 되어 있는, 오디오 디코더(150).
청구항 22 내지 24 중 어느 한 항에 있어서,
상기 제어기(180)는, 상기 오디오 샘플의 코딩 웜-업 주기 수가 상기 제1 시간-영역 에일리어싱 도입 디코더(160)의 개시 윈도우의 에일리어싱이 없는 부분과 중첩하도록 그리고 상기 제2 디코더(170)의 후속하는 프레임이 상기 정지 윈도우의 에일리어싱 부분과 중첩하도록, 상기 제2 디코더(170)를 개시시키도록 되어 있는, 오디오 디코더(150).
청구항 22 내지 24 중 어느 한 항에 있어서,
상기 제어기(180)는, 상기 코딩 웜-업 주기가 상기 정지 윈도우의 에일리어싱 부분과 중첩하도록, 상기 제2 디코더(170)를 개시시키도록 되어 있는, 오디오 디코더(150).
청구항 18 내지 26 중 어느 한 항에 있어서,
상기 제어기(180)는 또한, 오디오 샘플로부터의 표시에 따라 상기 제2 디코더(170)로부터 상기 제1 디코더(160)로 전환하도록, 그리고 상기 제2 디코더(170)로부터 상기 제1 디코더(160)로의 전환에 따라 상기 제2 프레이밍 규칙을 수정하도록 또는 상기 제1 디코더(160)의 개시 윈도우 또는 정지 윈도우를 수정하도록 - 상기 제2 프레이밍 규칙은 수정되지 않은 채로 남아 있음 - 되어 있는, 오디오 디코더(150).
청구항 27에 있어서,
상기 제어기(180)는, 상기 정지 윈도우의 에일리어싱 부분이 상기 제2 디코더(170)의 프레임을 중첩하도록, 상기 제1 시간 영역 에일리어싱 도입 디코더(160)를 개시시키도록 되어 있는, 오디오 디코더(150).
청구항 18 내지 28 중 어느 한 항에 있어서,
상기 제어기(180)는, 상이한 디코더들의 디코드된 오디오 샘플들의 연속 프레임들 사이에 크로스-오버 페이드(cross-over fade)를 적용하도록 되어 있는, 오디오 디코더(150).
청구항 18 내지 29 중 어느 한 항에 있어서,
상기 제어기(180)는, 상기 제2 디코더(170)의 디코드된 프레임으로부터 상기 개시 또는 정지 윈도우의 에일리어싱 부분내에서의 에일리어싱을 판정하도록 그리고 상기 판정된 에일리어싱에 기반하여 상기 에일리어싱 부분내에서의 에일리어싱을 감소시키도록 되어 있는, 오디오 디코더(150).
청구항 18 내지 30 중 어느 한 항에 있어서,
상기 제어기(180)는 상기 오디오 샘플의 코딩 웜-업 주기를 상기 제2 디코더(170)로부터 폐기하도록 되어 있는, 오디오 디코더(150).
오디오 샘플의 인코드된 프레임을 디코드하기 위한 방법으로서,
제1 디코딩 영역의 오디오 샘플을 디코드하는 단계로서, 상기 제1 디코딩 영역은 시간 에일리어싱을 도입하며, 제1 프레이밍 규칙, 개시 윈도우 및 정지 윈도우를 갖는 단계;
제2 디코딩 영역의 오디오 샘플을 디코드하는 단계로서, 상기 제2 디코딩 영역은 오디오 샘플의 미리 정해진 프레임 사이즈 수 및 오디오 샘플의 코딩 웜-업 주기 수를 갖고 상이한 제2 프레이밍 규칙을 가지며, 상기 제2 디코딩 영역의 프레임은 시간적으로 후속하는 오디오 샘플의 개수의 디코드된 표현이고, 상기 개수는 상기 오디오 샘플의 미리 정해진 프레임 사이즈 수와 동등한, 단계;
상기 오디오 샘플의 인코드된 프레임으로부터의 표시에 기반하여 상기 제1 디코딩 영역으로부터 상기 제2 디코딩 영역으로 전환하는 단계; 및
상기 제2 프레이밍 규칙을 상기 제1 코딩 영역으로부터 상기 제2 코딩 영역으로의 전환에 따라 수정하거나 상기 제1 디코딩 영역의 개시 윈도우 및/또는 정지 윈도우를 수정하는 - 상기 제2 프레이밍 규칙은 수정되지 않은 채로 남아 있음 - 단계를 포함하는 오디오 샘플의 인코드된 프레임의 디코드 방법.
컴퓨터 또는 프로세서에서 구동될시에 청구항 32에 기재된 방법을 실행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램.