KR20110040823A

KR20110040823A - 에일리어싱 스위치 기법을 이용하여 오디오 신호를 인코딩/디코딩하는 장치 및 방법

Info

Publication number: KR20110040823A
Application number: KR1020117000636A
Authority: KR
Inventors: 구일라우머 푹스; 제리미어 레콤터; 슈테판 바이어; 랄프 가이거; 마쿠스 물트루스; 게랄드 슐러; 옌스 힐쉬펠드
Original assignee: 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date: 2008-07-11
Filing date: 2009-06-17
Publication date: 2011-04-20
Also published as: RU2011102426A; KR101250309B1; US8862480B2; JP2011527446A; RU2492530C2; AR072479A1; CA2730355A1; CO6341672A2; BRPI0910783B1; AU2009267518A1; EP2301020A1; MX2011000373A; CA2730355C; MY152252A; ZA201009259B; WO2010003532A1; CN102089812B; EP2301020B1; BRPI0910783A2; PL2301020T3

Abstract

오디오 신호를 인코딩하는 장치는 에일리어싱 부분 및 추가적 부분을 가진 분석 윈도우를 이용하여 오디오 신호의 제 1 블록을 윈도우화하는 윈도워(11)를 포함한다. 이 장치는 처리된 제 1 서브블록을 획득하도록 제 1 서브블록을 윈도우화한 다음에 서브블록을 한 도메인에서 다른 도메인으로 변환함으로써 에일리어싱 부분과 관련된 오디오 신호의 제 1 서브블록을 처리하고, 처리된 제 2 서브블록을 획득하도록 제 2 서브블록을 윈도우화하기 전에 제 2 서브블록을 상기 한 도메인에서 다른 도메인으로 변환함으로써 추가적 부분과 관련된 오디오 신호의 제 2 서브블록을 처리하는 프로세서(12)를 더 포함한다. 이 장치는 변환된 제 1 블록을 획득하도록 동일한 블록 변환 규칙을 이용하여 처리된 제 1 서브블록 및 처리된 제 2 서브블록을 상기 다른 도메인에서 추가적 다른 도메인으로 변환하는 변환기(13)를 더 포함하며, 상기 변환된 제 1 블록은 어느 공지된 데이터 압축 알고리즘을 이용하여 압축될 수 있다. 따라서, 2개의 서로 다른 도메인에서 생성하는 에일리어싱 부분이 서로 정합되므로, 2개의 코딩 모드 간의 임계 샘플링된 스위치가 획득될 수 있다.

Description

에일리어싱 스위치 기법을 이용하여 오디오 신호를 인코딩/디코딩하는 장치 및 방법{APPARATUS AND METHOD FOR ENCODING/DECODING AN AUDIO SIGNAL USING AN ALIASING SWITCH SCHEME}

본 발명은 오디오 코딩, 특히 저 비트 레이트(low bit rate) 오디오 코딩 기법에 관한 것이다.

본 기술 분야에서, MP3 또는 AAC와 같은 주파수 도메인 코딩 기법은 공지되어 있다. 이들 주파수 도메인 인코더는, 시간 도메인/주파수 도메인 변환, 양자화 에러가 심리 음향(psychoacoustic) 모듈로부터의 정보를 이용하여 제어되는 연속 양자화 단계, 및 양자화된 스펙트럼 계수(spectral coefficient) 및 대응하는 보조(side) 정보가 코드 테이블을 이용하여 엔트로피 인코딩(entropy-encoding)되는 인코딩 단계에 기초로 한다.

다른 한편으로는, 3GPP TS 26.290에 기술되어 있는 바와 같이 AMR-WB+와 같은 음성 처리에 매우 적합한 인코더가 존재한다. 이와 같은 음성 코딩 기법은 시간 도메인 신호의 선형 예측 필터링(Linear Predictive filtering)을 실행한다. 이와 같은 LP 필터링은 입력 시간 도메인 신호의 선형 예측 분석으로부터 유도된다. 생성된 LP 필터 계수는 이때 양자화/코딩되어, 보조 정보로서 송신된다. 이런 프로세스는 선형 예측 코딩((Linear Predictive Coding) (LPC)으로서 공지되어 있다. 필터의 출력에서, 또한 여기 신호(excitation signal)로서 공지되어 있는 예측 잔여 신호 또는 예측 에러 신호는 ACELP 인코더의 분석-합성 단계(analysis-by-synthesis stages)를 이용하여 인코딩되거나, 선택적으로, 오버랩(overlap)에 따른 푸리에 변환(Fourier transform)을 이용하는 변환 인코더를 이용하여 인코딩된다. ACELP 코딩과, 또한 TCX 코딩이라 하는 Transform Coded eXcitation 코딩 간의 결정은 폐루프 또는 개방 루프 알고리즘을 이용하여 행해진다.

AAC 코딩 기법과 스펙트럼 대역 복제 기술을 조합하는 고효율-AAC 인코딩 기법과 같은 주파수 도메인 오디오 코딩 기법은 또한 용어 "MPEG 서라운드"로서도 알려져 있는 조인트 스테레오 또는 멀티채널 코딩 툴(tool)과도 조합될 수 있다.

다른 한편으로는, AMR-WB+와 같은 음성 인코더는 또한 고주파 인핸스먼트(enhancement) 단계 및 스테레오 기능을 갖는다.

주파수 도메인 코딩 기법은, 음악 신호에 대해 저 비트 레이트에서 고 품질을 나타낸다는 점에서 유익하다. 그러나, 문제는 저 비트레이트에서 음성 신호의 품질이다.

음성 코딩 기법은 저 비트 레이트에서 음성 신호에 대해 고품질을 나타내지만, 저 비트 레이트에서 음악 신호에 대해 불량한 품질을 나타낸다.

주파수 도메인 코딩 기법은 종종 소위 MDCT (MDCT= 수정된 이산 코사인 변환(modified discrete Cosine transform)을 이용한다. MDCT는 처음에 J. Princen, A. Bradley, "Analysis/Synthesis Filter Bank Design Based on Time Domain Aliasing Cancellation", IEEE Trans. ASSP, ASSP-34(5):1153-1161, 1986에 기술되어 있었다. MDCT 또는 MDCT 필터 뱅크는 현대식의 효율적인 오디오 코더에 널리 이용되고 있다. 이런 종류의 신호 처리는 다음의 이점을 제공한다:

처리 블록 간의 유연한 크로스 페이드(smooth cross-fade): 각 처리 블록에서의 신호가 (예컨대, 스펙트럼 계수의 양자화로 인해) 서로 다르게 변경될지라도, 블록에서 블록으로의 갑작스러운 변화로 인한 블록화 현상(blocking artifacts)이 윈도우 오버랩/가산 연산(windowed overlap/add operation) 때문에 일어나지 않는다.

임계 샘플링(critical sampling): 필터 뱅크의 출력에서의 스펙트럼 값의 수는 그의 입력에서의 시간 도메인 입력 값의 수와 동일하며, 부가적인 오버헤드 값은 송신될 필요가 있다. MDCT 필터 뱅크는 높은 주파수 선택도(selectivity) 및 코딩 이득을 제공한다.

이들의 두드러진 특성은 시간 도메인 에일리어싱(aliasing) 제거 기술을 이용함으로써 달성된다. 시간 도메인 에일리어싱 제거는 2개의 인접한 윈도우 신호(windowed signal)를 오버랩-가산함으로써 합성에서 행해진다. MDCT의 분석 및 합성 단계 간에 양자화가 적용되지 않으면, 원래의 신호의 완전한 재구성이 획득된다. 그러나, MDCT는 특히 음악 신호에 적합한 코딩 기법에 이용된다. 이와 같은 주파수 도메인 코딩 기법은 상술한 바와 같이 저 비트 레이트 또는 음성 신호에서는 품질을 저하시키지만, 특히 적합한 음성 코더는 유사한 비트 레이트에서 고 품질을 갖거나, 주파수 도메인 코딩 기법에 비해 동일한 품질에 대해 상당히 낮은 비트 레이트를 갖는다.

"Extended Adaptive Multi-Rate - Wideband (AMR-WB+) codec", 3GPP TS 26.290 V6.3.0, 2005-06, Technical Specification에서 정의된 바와 같이 소위 AMR-WB+ 코덱과 같은 음성 코딩 기술은, 특히, 한편으로는 임계 샘플링 처리에 의존하고, 다른 한편으로는 한 블록에서 다른 블록으로의 크로스오버(crossover)에 의존하는 MDCT의 우수한 특성으로부터 어떤 이점을 취할 수 없다. 그래서, 한 블록에서 다른 블록으로의 크로스오버는 비트 레이트에 대한 어떤 불이익 없이 MDCT에 의해 획득되어, 그래서, MDCT의 임계 샘플링 특성은 음성 코더에서 획득되지 않았다.

단일 하이브리드 코딩 기법 내에서 음성 코더와 오디오 코더를 조합하면, 저 비트 레이트 및 고 품질로 한 코딩 모드에서 다른 코딩 모드로의 스위치를 획득하는 방법의 문제가 여전히 존재한다.

본 발명의 목적은 개선된 인코딩/디코딩 개념을 제공하기 위한 것이다.

이 목적은 청구항 1에 따라 오디오 신호를 인코딩하는 장치, 청구항 8에 따른 인코딩된 오디오 신호, 청구항 14에 따른 인코딩된 오디오 신호를 디코딩하는 장치, 청구항 15에 따라 오디오 신호를 인코딩하는 방법, 청구항 16에 따라 인코딩된 오디오 신호를 디코딩하는 방법, 또는 청구항 17에 따른 컴퓨터 프로그램에 의해 달성된다.

본 발명의 양태는, 특히 어떤 신호에 적합하고, 한 도메인에서 동작하는 제 1 코딩 모드가 적용되고, 특히 다른 신호에 적합하고, 다른 도메인에서 동작하는 추가적 코딩 모드가 함께 이용되는 하이브리드 코딩 기법이 적용된다는 것이다.이런 코딩/디코딩 개념에서, 한 코딩 모드에서 다른 코딩 모드로의 임계 샘플링 스위치는, 인코더측 상에서, 한 윈도우화 동작에 의해 생성된 오디오 샘플의 동일한 블록이 서로 다르게 처리된다는 점에서 가능하게 행해진다. 특히, 오디오 신호의 블록의 에일리어싱 부분은, 윈도우의 에일리어싱 부분과 관련된 서브블록을 이런 서브블록의 윈도우화(windowing) 후에 한 도메인에서 다른 도메인으로 변환함으로써 처리되며, 여기서, 동일한 윈도우화 동작에 의해 획득되는 다른 서브블록은 분석 윈도우를 이용하여 이런 서브블록을 윈도우화하기 전에 한 도메인에서 다른 도메인으로 변환된다.

그 다음에, 처리된 제 1 서브블록 및 처리된 제 2 서브블록은 동일한 블록 변환 규칙을 이용하여 추가적 도메인으로 변환되어, 양자화, 엔트로피 인코딩 등과 같은 어느 공지된 데이터 압축 알고리즘을 이용하여 이때 더 처리될 수 있는 오디오 신호의 변환된 제 1 블록을 획득한다.

디코더측 상에서, 이런 블록은 다시, 블록의 에일리어싱 부분이 처리되는지 블록의 다른 추가적 부분이 처리되는지에 기초로 하여 다르게 처리된다. 에일리어싱 부분은 합성 윈도우화를 실행하기 전에 타겟 도메인으로 변환되지만, 추가적 부분은 타겟 도메인으로의 변환을 실행하기 전에 합성 윈도우화된다. 부가적으로, 임계 샘플링 특성을 획득하기 위해, 시간 도메인 에일리어싱 제거가 실행되며, 여기서, 윈도우 에일리어싱 부분 및, 오디오 데이터의 인코딩된 다른 블록의 윈도우 에일리어싱 부분이 인코딩된 오디오 신호 블록의 에일리어싱 부분을 타겟 도메인으로 변환한 후에 조합되어, 제 1 블록의 에일리어싱 부분에 대응하는 디코딩된 오디오 신호가 획득된다. 이 때문에, 윈도우 내에는 2개의 서브블록/부분이 존재한다. 한 부분/서브블록 (에일리어싱 서브블록)은 다른 도메인에 코딩되는 제 2 블록과 오버랩하는 에일리어싱 구성 요소를 가지며, 제 2 서브블록/부분 (추가적 서브블록)은 제 2 블록, 또는 제 2 블록과 다른 블록과 오버랩하는 에일리어싱 구성 요소를 가질 수 있거나 가질 수 없다.

바람직하게는, 서로에 대응하지만, 서로 다른 도메인에서 인코딩되는 어떤 부분에 도입되는 에일리어싱은 이점으로, 오디오 샘플의 동일한 윈도우 블록 내의 에일리어싱 부분 및 추가적 부분을 서로 다르게 처리함으로써 한 코딩 모드에서 다른 코딩 모드로의 임계 샘플링된 스위치를 획득하기 위해 이용된다.

이것은 분석 윈도우 및 합성 윈도우에 기초로 하는 종래 기술의 처리와는 대조적인데, 그 이유는, 지금까지, 분석 윈도우를 적용함으로써 획득된 완전한 데이터 블록이 동일하게 처리되었기 때문이다. 그러나, 본 발명에 따르면, 윈도우 블록의 에일리어싱 부분은 이 블록의 추가적 부분에 비해 서로 다르게 처리된다.

추가적 부분은 특정 개시/정지 윈도우가 이용될 시에 발생하는 넌에일리어싱(non-aliasing) 부분을 포함할 수 있다. 선택적으로, 추가적 부분은 인접한 윈도우화 프로세스의 결과의 일부와 오버랩하는 에일리어싱 부분을 포함할 수 있다. 그리고 나서, 추가적 (에일리어싱) 부분은 현재 프레임의 추가적 (에일리어싱) 부분에 비해 동일한 도메인에서 처리되는 이웃한 프레임의 에일리어싱 부분과 오버랩하고, 에일리어싱 부분은 현재 프레임의 에일리어싱 부분에 비해 서로 다른 도메인에서 처리되는 이웃한 프레임의 에일리어싱 부분과 오버랩한다.

이 구현에 따라, 추가적 부분 및 에일리어싱 부분은 함께 오디오 샘플의 블록으로의 윈도우 함수의 적용의 완전한 결과를 만들어 낸다. 추가적 부분은 완전히 에일리어싱이 없을 수 있거나, 완전히 에일리어싱일 수 있으며, 또는 에일리어싱 서브부분 및 에일리어싱이 없는 서브부분을 포함할 수 있다. 더욱이, 이들 서브부분의 순서 및 에일리어싱 부분 및 추가적 부분의 순서는 임의로 선택될 수 있다.

스위치된 오디오 코딩 기법의 바람직한 실시예에서, 입력 신호의 인접한 세그먼트는 2개의 서로 다른 도메인에서 처리될 수 있다. 예컨대, AAC는 신호 도메인 내의 MDCT를 계산하고, MTPC (Sean A. Ramprashad, "The Multimode Transform predictive Coding Paradigm", IEEE Transaction on Speech and Audio Processing, Vol. 11, No. 2, March 2003)는 LPC 잔여 도메인 내의 MDCT를 계산한다. 특히, 오버랩된 영역이 MDCT의 사용으로 인해 시간 도메인 에일리어싱 구성 요소를 가질 시에 문제가 될 수 있다. 실제로, 시간 도메인 에일리어싱은 한 코더에서 다른 코더로 진행하는 전이(transition)에서 제거될 수 없는데, 그 이유는 이들 전이가 2개의 서로 다른 도메인에서 생성되었기 때문이다. 한가지 해결책은 에일리어싱이 없는 크로스 페이드 윈도우 신호로 전이를 행하는 것이다. 스위칭된 코더는 이때 더 이상 임계적으로 샘플링되지 않고, 정보의 오버헤드(overhead)를 생성한다. 2개의 서로 다른 도메인에서 연산하여 계산되는 시간 도메인 에일리어싱 구성 요소를 제거함으로써 실시예들은 임계 샘플링 이점을 유지하도록 한다.

본 발명의 바람직한 실시예에서, 2개의 스위치는 순차적인 순서로 제공되는데, 여기서, 제 1 스위치는, 주파수 도메인 인코더를 이용하는 스펙트럼 도메인에서의 코딩과, LPC 도메인에서의 코딩, 즉, LPC 분석 단계의 출력에서의 신호의 처리 간에 결정한다. 제 2 스위치는, 예컨대 ACELP 코더를 이용하여 LPC 도메인에서의 LPC 도메인 신호를 인코딩하거나, LPC 스펙트럼 도메인에서의 LPC 도메인 신호를 코딩하기 위해 LPC 도메인에 스위칭하기 위해 제공되며, 상기 LPC 스펙트럼 도메인은 LPC 도메인 신호를 스펙트럼 도메인과 다른 LPC 스펙트럼 도메인으로 변환하는 변환기를 필요로 하는데, 그 이유는 LPC 스펙트럼 도메인이 시간 도메인 신호의 스펙트럼보다 오히려 LPC 필터링된 신호의 스펙트럼을 나타내기 때문이다.

제 1 스위치는 2개의 처리 브랜치(branch) 간에 결정하는데, 여기서, 한 브랜치는 주로 싱크 모델(sink model) 및/또는 심리 음향 모델, 즉, 청각 마스킹(auditory masking)으로 동기가 부여되고(motivated), 다른 한 브랜치는 주로 소스 모델 및 세그멘탈(segmental) SNR 계산으로 동기가 부여된다. 본보기로, 한 브랜치는 주파수 도메인 인코더를 가지며, 다른 브랜치는 음성 코더와 같은 LPC 기반 인코더를 갖는다. 소스 모델은 보통 음성 처리이며, 그래서 LPC이 일반적으로 이용된다.

제 2 스위치는 다시 2개의 처리 브랜치 간에 결정하지만, "외부(outer)" 제 1 브랜치 도메인과 다른 도메인에서 결정한다. 다시 말하면, 한 "내부(inner)" 브랜치는 주로 소스 모델 또는 SNR 계산으로 동기가 부여되고, 다른 "내부" 브랜치는 싱크 모델 및/또는 심리 음향 모델, 즉, 마스킹으로 동기가 부여되거나 적어도 주파수/스펙트럼 도메인 코딩 양태를 포함한다. 본보기로, 한 "내부" 브랜치는 주파수 도메인 인코더/스펙트럼 변환기를 가지며, 다른 브랜치는 LPC 도메인과 같은 다른 도메인 상에서 코딩하는 인코더를 갖는데, 여기서, 이 인코더는 예컨대 스펙트럼 변환 없이 입력 신호를 처리하는 CELP 또는 ACELP 양자화기/스케일러(scaler)이다.

추가적 바람직한 실시예는, 스펙트럼 도메인 인코딩 브랜치와 같은 제 1 정보 싱크 지향 인코딩 브랜치, LPC 도메인 인코딩 브랜치와 같은 제 2 정보 소스 또는 SNR 지향 인코딩 브랜치, 및 제 1 인코딩 브랜치와 제 2 인코딩 브랜치 간에 스위칭하는 스위치를 포함하는 오디오 인코더인데, 여기서, 제 2 인코딩 브랜치는 여기 신호를 생성하는 LPC 분석 단계와 같은 시간 도메인과 다른 특정 도메인내의 변환기를 포함하고, 제 2 인코딩 브랜치는 LPC 도메인 처리 브랜치와 같은 특정 도메인 및, LPC 스펙트럼 도메인 처리 브랜치와 같은 특정 스펙트럼 도메인, 및 특정 도메인 코딩 브랜치와 특정 스펙트럼 도메인 코딩 브랜치 간에 스위칭하는 부가적인 스위치를 더 포함한다.

본 발명의 추가적 실시예는, 스펙트럼 도메인 디코딩 브랜치와 같은 제 1 도메인, 제 2 도메인 내에서 여기 신호와 같은 신호를 디코딩하는 LPC 도메인 디코딩 브랜치와 같은 제 2 도메인, 및 LPC 스펙트럼 도메인과 같은 제 3 도메인 내에서 여기 신호와 같은 신호를 디코딩하는 LPC 스펙트럼 디코더 브랜치와 같은 제 3 도메인을 포함하는 오디오 디코더인데, 여기서, 제 3 도메인은 제 2 도메인으로부터 주파수 변환을 실행함으로써 획득되고,제 2 도메인 신호 및 제 3 도메인 신호에 대한 제 1 스위치가 제공되며, 제 1 도메인 디코더와 제 2 도메인 또는 제 3 도메인에 대한 디코더 간에 스위칭하는 제 2 스위치가 제공된다.

그 다음, 본 발명의 바람직한 실시예가 부착된 도면에 대해 기술된다.

도 1a는 오디오 신호를 인코딩하는 바람직한 장치 또는 방법을 개략적으로 도시한 것이다.
도 1b는 MDCT-TCX에서 AAC로의 전이를 개략적으로 도시한 것이다.
도 1c는 AAC에서 MDCT-TCX로의 전이를 개략적으로 도시한 것이다.
도 1d는 흐름도로서 본 발명의 개념의 바람직한 실시예를 도시한 것이다.
도 2는 본 발명의 실시예에서 생성하는 4개의 서로 다른 도메인 및 이들의 관계를 개략적으로 도시한 것이다.
도 3a는 오디오 신호를 디코딩하는 본 발명의 장치/방법을 예시한 기법이다.
도 3b는 본 발명의 실시예에 따른 디코딩 기법을 추가적으로 도시한 것이다.
도 4a는 양방의 인코딩 모드에 적용 가능한 MDCT와 같은 에일리어싱 변환의 상세도이다.
도 4b는 도 4a의 윈도우 함수와 유사하지만, 에일리어싱 부분 및 넌에일리어싱 부분을 가진 윈도우 함수를 도시한 것이다.
도 5는 AAC-MDCT 코딩 모드와 같은 한 코딩 모드에서 인코더 및 디코더를 개략적으로 도시한 것이다.
도 6은 AMR-WB+에서의 TCX 인코딩과 관련하여 LPC 도메인과 같은 다른 도메인에서 MDCT를 적용하는 인코더 및 디코더를 도시한 것이다.
도 7은 AAC와 AMR-WB+ 간의 전이를 위한 윈도우의 특정 시퀀스이다.
도 8a는 TCX 모드에서 AAC 모드로의 스위칭에 관련하여 인코더 및 디코더에 대한 바람직한 실시예를 도시한 것이다.
도 8b는 AAC에서 TCX로의 전이를 위한 인코더 및 디코더를 도시한 바람직한 실시예이다.
도 9a는 본 발명이 적용되는 바람직한 하이브리드 스위치된 코딩 기법의 블록도이다.
도 9b는 도 9a의 제어기에서 실행되는 프로세스를 도시한 흐름도이다.
도 10a는 하이브리드 스위치된 코딩 기법의 디코더의 바람직한 실시예이다.
도 10b는 도 10a의 전이 제어기에서 실행되는 과정을 도시한 흐름도이다.
도 11a는 본 발명이 바람직하게 적용되는 인코더의 바람직한 실시예를 도시한 것이다.
도 11b는 본 발명이 바람직하게 적용되는 바람직한 디코더를 도시한 것이다.

도 11a는 2개의 캐스케이드된(cascaded) 스위치를 가진 본 발명의 실시예를 도시한다. 모노 신호, 스테레오 신호 또는 멀티채널 신호는 스위치(200)으로 입력된다. 스위치(200)는 결정 단계(300)에 의해 제어된다. 결정 단계는, 입력으로서, 블록(200)으로 입력되는 신호를 수신한다. 선택적으로, 결정 단계(300)는 또한 모노 신호, 스테레오 신호 또는 멀티채널 신호에 포함되는 보조 정보를 수신하거나, 정보가 존재하고, 예컨대, 원래 모노 신호, 스테레오 신호 또는 멀티채널 신호를 생성할 시에 발생된 그런 신호에 적어도 관련된다.

결정 단계(300)는, 도 11a의 상위 브랜치에 도시된 주파수 인코딩 부분(400)이나 도 11a의 하위 브랜치에 도시된 LPC 도메인 인코딩 부분(500)에 신호를 공급하기 위해 스위치(200)를 작동시킨다. 주파수 도메인 인코딩 브랜치의 중요한 요소는, (나중에 논의되는 바와 같은) 공통 예비 처리 단계 출력 신호를 스펙트럼 도메인으로 변환하도록 동작하는 스펙트럼 변환 블록(411)이다. 스펙트럼 변환 블록은, MDCT 알고리즘, QMF, FFT 알고리즘, 일정수의 필터 뱅크 채널을 가진 임계 샘플링된 필터 뱅크와 같은 웨이브릿(Wavelet) 분석 또는 필터 뱅크를 포함할 수 있으며, 여기서, 이 필터 뱅크에서의 부대역 신호는 실수값 신호 또는 복소값 신호일 수 있다. 스펙트럼 변환 블록(411)의 출력은, AAC 코딩 기법으로부터 알려져 있는 바와 같이 처리 블록을 포함할 수 있는 스펙트럼 오디오 인코더(421)를 이용하여 인코딩된다.

일반적으로, 브랜치(400)의 처리는 지각 기반 모델 또는 정보 싱크 모델의 처리이다. 따라서, 이런 브랜치는 소리를 수신하는 인간 청각 기관을 모델링한다. 이와는 대조적으로, 브랜치(500)의 처리는 여기(excitation), 잔여(residual) 또는 LPC 도메인에서 신호를 생성시킬 수 있다. 일반적으로, 브랜치(500)의 처리는 음성 모델 또는 정보 생성 모델의 처리이다. 음성 신호에 대해, 이 모델은 소리를 생성시키는 인간 음성/소리 생성 기관의 모델이다. 그러나, 다른 소리 생성 모델을 필요로 하는 다른 소스로부터의 소리가 인코딩될 경우, 브랜치(500)의 처리는 다를 수 있다.

하위 인코딩 브랜치(500)에서, 중요한 요소는, LPC 필터의 특성을 제어하기 위해 이용되는 LPC 정보를 출력하는 LPC 장치(510)이다. 이 LPC 정보는 디코더로 송신된다. LPC 단계(510)의 출력 신호는 여기 신호 및/또는 가중 신호(weighted signal)로 이루어지는 LPC 도메인 신호이다.

LPC 장치는 일반적으로, 여기 신호 또는 가중 (TCX) 신호 또는 어떤 다른 신호와 같은 LPC 도메인에서의 어떤 신호일 수 있는 LPC 도메인 신호를 출력하며, 이 신호는 LPC 필터 계수를 오디오 신호에 적용함으로써 생성되었다. 더욱이, LPC 장치는 또한 이들 계수를 결정할 수 있고, 또한 이들 계수를 양자화/인코딩할 수 있다.

결정 단계에서의 결정은, 결정 단계가 음악/음성 판별을 실행하여, 음악 신호가 상위 브랜치(400)으로 입력되고, 음성 신호가 하위 브랜치(500)로 입력되는 식으로 스위치(200)를 제어하도록 신호가 적응될 수 있다. 한 실시예에서, 결정 단계는 이의 결정 정보를 출력 비트 스트림으로 공급함으로써, 디코더가 이런 결정 정보를 이용하여 정확한 디코딩 동작을 실행할 수 있다.

이와 같은 디코더는 도 11b에 도시된다. 스펙트럼 오디오 인코더(421)에 의해 출력되는 신호는, 송신 후에, 스펙트럼 오디오 디코더(431)에 입력된다. 스펙트럼 오디오 디코더(431)의 출력은 시간 도메인 변환기(440)로 입력된다. 마찬가지로, 도 11a의 LPC 도메인 인코딩 브랜치(500)의 출력은 디코더측 상에서 수신되어, LPC 여기 신호를 획득하기 위한 소자(536 및 537)에 의해 처리된다. LPC 여기 신호는 LPC 합성 단계(540)로 입력되며, 이 LPC 합성 단계(540)는, 추가적 입력으로서, 대응하는 LPC 분석 단계(510)에 의해 생성되는 LPC 정보를 수신한다. 시간 도메인 변환기(440)의 출력 및/또는 LPC 합성 단계(540)의 출력은 스위치(600)로 입력된다. 스위치(600)는 스위치 제어 신호를 통해 제어되며, 이 스위치 제어 신호는, 예컨대, 결정 단계(300)에 의해 생성되었거나, 외관상 예컨대 원래의 모노 신호, 스테레오 신호 또는 멀티채널 신호의 생성기에 의해 제공되었다. 스위치(600)의 출력은 완전한 모노 신호, 스테레오 신호 또는 멀티채널 신호이다.

스위치(200) 및 결정 단계(300)로의 입력 신호는 모노 신호, 스테레오 신호, 멀티채널 신호 또는 일반적으로 오디오 신호일 수 있다. 스위치(200)의 입력 신호, 또는 단계(200)로 입력되는 신호의 기초를 이루는 원래의 오디오 신호의 생성기와 같은 어떤 외부 소스로부터 유도될 수 있는 결정에 따라, 스위치는 주파수 인코딩 브랜치(400)와 LPC 인코딩 브랜치(500) 간에 스위칭한다. 주파수 인코딩 브랜치(400)는 스펙트럼 변환 단계(411) 및 그 다음에 연결된 양자화/코딩 단계(421)를 포함한다. 양자화/코딩 단계는 AAC 인코더와 같은 현대식 주파수 도메인 인코더로부터 공지되어 있는 바와 같은 어떤 기능을 포함할 수 있다. 더욱이, 양자화/코딩 단계(421)에서의 양자화 동작은, 주파수를 초과한 심리 음향 마스킹 임계치와 같은 심리 음향 정보를 생성하는 심리 음향 모듈을 통해 제어될 수 있으며, 여기서, 이 정보는 단계(421)로 입력된다.

LPC 인코딩 브랜치에서, 스위치 출력 신호는 LPC 보조 정보 및 LPC 도메인 신호를 생성하는 LPC 분석 단계(510)를 통해 처리된다. 여기 인코더는, LPC 도메인에서의 양자화/코딩 동작(526) 또는, LPC 스펙트럼 도메인에서의 처리값인 양자화/코딩 단계(527) 간의 LPC 도메인 신호의 추가적 처리를 스위칭하는 부가적 스위치(521)를 포함한다. 이 때문에, 스펙트럼 변환기(527)가 제공된다. 스위치(521)는, 예컨대, AMR-WB+ 기술적 사양에서 기술된 바와 같은 특정 세팅에 따라 개방 루프 방식 또는 폐루프 방식으로 제어된다.

폐루프 제어 모드에 대해, 인코더는 부가적으로, LPC 도메인 신호에 대한 역 양자화기/코더, LPC 스펙트럼 도메인 신호에 대한 역 양자화기/코더 및, 역 양자화기/코더의 출력에 대한 역 스펙트럼 변환기를 포함한다. 제 2 인코딩 브랜치의 처리 브랜치에서의 양방의 인코딩된 신호 및 다시 디코딩된 신호는 스위치 제어 장치로 입력된다. 스위치 제어 장치에서, 이들 2개의 출력 신호는 서로 및/또는 타겟 함수와 비교되거나, 양방의 신호의 왜곡의 비교에 기초로 할 수 있는 타겟 함수가 계산됨으로써, 스위치(521)가 취하는 어느 위치를 결정하기 위해 보다 낮은 왜곡을 가진 신호가 이용된다. 선택적으로, 양방의 브랜치가 일정치 않은 비트 레이트를 제공하는 경우에, 보다 낮은 비트 레이트를 제공하는 브랜치는 이 브랜치의 신호 대 잡음비가 다른 브랜치의 신호 대 잡음비보다 낮을 시에도 선택될 수 있다. 선택적으로, 타겟 함수는, 입력으로서, 특정 목표를 위한 최상의 결정을 찾기 위해 각 신호의 신호 대 잡음비 및 각 신호의 비트 레이트 및/또는 부가적 기준을 이용한다. 예컨대, 이 목표가 비트 레이트가 가능한 낮도록 하면, 타겟 함수는 역 양자화기/코더 및 역 스펙트럼 변환기에 의해 출력되는 2개의 신호의 비트 레이트에 상당히 의존한다. 그러나, 주 목표가 어떤 비트 레이트에 대한 최상의 품질을 갖기 위한 것이면, 스위치 제어는, 예컨대, 허용된 비트 레이트 이상인 각 신호를 폐기할 수 있고, 양방의 신호가 허용된 비트 레이트 이하이면, 스위치 제어는, 양호한 신호 대 잡음비를 가진, 즉 보다 적은 양자화/코딩 왜곡을 가진 신호를 선택한다.

본 발명에 따른 디코딩 기법은, 상술한 바와 같이, 도 11b에 도시된다. 3개의 가능 출력 신호 종류의 각각에 대해, 특정 디코딩/재양자화 단계(431, 536 또는 537)가 존재한다. 단계(431)는, 또한 "시간 스펙트럼" (시간 도메인 신호의 주파수 스펙트럼)이라 할 수 있고, 주파수/시간 변환기(440)를 이용하여 시간 도메인으로 변환되는 주파수 스펙트럼을 출력하지만, 단계(536)는 LPC 도메인 신호를 출력하고, 항목(537)은 또한 "LPC 스펙트럼"이라 할 수 있는 LPC 도메인 신호의 주파수 스펙트럼을 수신한다. 스위치(532)로의 입력 신호가 양자 모두 LPC 도메인에 있음을 확인하기 위해, 주파수/시간 변환기(537)는 LPC 도메인 내에 제공된다. 스위치(532)의 출력 데이터는, 인코더측에 생성 및 송신된 LPC 정보를 통해 제어되는 LPC 합성 단계(540)를 이용하여 시간 도메인으로 다시 변환된다. 그리고 나서, 블록(540) 다음에, 도 11a의 인코딩 기법으로 입력되는 신호에 의존하는 모노 신호, 스테레오 신호 또는 멀티채널 신호와 같은 오디오 신호를 최종으로 획득하기 위해, 양방의 브랜치는 스위치 제어 신호에 따라 스위칭되는 시간 도메인 정보를 갖는다.

그래서, 도 11a는 본 발명에 따라 바람직한 인코딩 기법을 도시한다. 스위치(200)의 입력에 접속되는 공통 예비 처리 기법은, 출력으로서, 조인트 스테레오 파라미터 및 모노 출력 신호를 생성시키고, 2 이상의 채널을 가진 신호인 입력 신호를 다운믹스함으로써 생성되는 서라운드/조인트 스테레오 블록(101)을 포함할 수 있다. 일반적으로, 블록(101)의 출력에서의 신호는 또한 더욱 많은 채널을 가진 신호일 수 있지만, 블록(101)의 다운믹스 기능으로 인해, 블록(101)의 출력에서의 채널의 수는 블록(101)으로 입력되는 채널의 수보다 적을 것이다.

공통 예비 처리 기법은 선택적으로 블록(101), 또는 블록(101) 이외에, 대역폭 확장 단계(102)를 포함할 수 있다. 도 11a의 실시예에서, 블록(101)의 출력은 대역폭 확장 블록(102)으로 입력되며, 이 대역폭 확장 블록(102)은, 도 11a의 인코더에서, 그의 출력에서 저 대역 신호 또는 저역 통과 신호와 같은 대역 제한 신호를 출력한다. 바람직하게는, 이 신호는 또한 (예컨대, 2 배로) 다운샘플링된다. 더욱이, 블록(102)으로 입력되는 신호의 고 대역에 대해, MPEG-4의 HE-AAC 프로파일로부터 공지되어 있는 바와 같이 스펙트럼 엔벨로프 파라미터, 역 필터링 파라미터, 잡음 플로어(noise floor) 파라미터 등과 같은 대역폭 확장 파라미터가 생성되어, 비트스트림 멀티플렉서(800)로 전송된다.

바람직하게는, 결정 단계(300)는, 예컨대, 음악 모드 또는 음성 모드 간에 결정하기 위해 블록(101)으로 입력되거나 블록(102)으로 입력되는 신호를 수신한다. 음악 모드에서, 상위 인코딩 브랜치(400)가 선택되지만, 음성 모드에서는, 하위 인코딩 브랜치(500)가 선택된다. 바람직하게는, 결정 단계는 부가적으로 조인트 스테레오 블록(101) 및/또는 대역폭 확장 블록(102)을 제어하여, 이들 블록의 기능을 특정 신호에 적응시킨다. 따라서, 결정 단계가 입력 신호의 어떤 시간 부분이 음악 모드와 같은 제 1 모드의 어떤 시간 부분임을 결정하면, 블록(101) 및/또는 블록(102)의 특정한 특징은 결정 단계(300)에 의해 제어될 수 있다. 선택적으로, 결정 단계(300)가 신호가 음성 모드 또는, 일반적으로, 제 2 LPC 도메인 모드에 있음을 결정하면, 블록(101 및 102)의 특정한 특징은 결정 단계의 출력에 따라 제어될 수 있다.

바람직하게는, 코딩 브랜치(400)의 스펙트럼 변환은 MDCT 동작을 이용하여 행해지며, MDCT 동작은, 더욱 바람직하게는, 강도 또는, 일반적으로, 뒤틀림 강도(warping strength)가 0과 높은 뒤틀림 강도 간에 제어될 수 있는 시간 뒤틀린(time-warped) MDCT 동작이다. 0 뒤틀림 강도에서, 블록(411)에서의 MDCT 동작은 본 기술 분야에 공지된 직통(straightforward) MDCT 동작이다. 시간 뒤틀림 보조 정보와 함께 시간 뒤틀림 강도는 보조 정보로서 비트스트림 멀티플렉서(800)으로 송신/입력될 수 있다.

LPC 인코딩 브랜치에서, LPC 도메인 인코더는, 피치 이득(pitch gain), 코드북 인덱스(codebook index) 및 이득과 같은 피치 래그 및/또는 코드북 정보를 계산하는 ACELP 코어(526)를 포함할 수 있다. 3GPP TS 26.290로부터 공지된 바와 같은 TCX 모드는 변환 도메인에서 지각적 가중 신호를 처리한다. 푸리에 변환된 가중 신호는 잡음 지수 양자화와 함께 스플릿 멀티레이트 격자(split multi-rate lattice) 양자화 (대수적(algebraic) VQ)를 이용하여 양자화된다. 변환은 1024, 512, 또는 256 샘플 윈도우에서 계산된다. 여기 신호는 역 가중 필터를 통해 양자화된 가중 신호를 역 필터링함으로써 복구된다.

제 1 코딩 브랜치(400)에서, 스펙트럼 변환기는 바람직하게는, 어떤 윈도우 기능을 가진 특히 적합한 MDCT 동작을 포함하고 나서, 연이어 단일 벡터 양자화 단계로 이루어질 수 있는 양자화/엔트로피 인코딩 단계를 포함하지만, 바람직하게는, 주파수 도메인 코딩 브랜치, 즉 도 11a의 항목(421) 내의 양자화기/코더와 유사한 조합된 스케일러 양자화기/엔트로피 코더이다.

제 2 코딩 브랜치에서는, LPC 블록(510) 다음에 스위치(521), 다시 그 뒤에 ACELP 블록(526) 또는 TCX 블록(527)이 존재한다. ACELP은 3GPP TS 26.190에 기술되어 있고, TCX는 3GPP TS 26.290에 기술되어 있다. 일반적으로, ACELP 블록(526)은 LPC 여기 신호를 수신한다. TCX 블록(527)은 가중 신호를 수신한다.

TCX에서, LPC 기반 가중 필터를 통해 입력 신호를 필터링함으로써 계산된 가중 신호에 변환이 적용된다. 본 발명의 바람직한 실시예에 이용되는 가중 필터는 (1-A(z/γ))/(1-μz^-1)로 주어진다. 따라서, 가중 신호는 LPC 도메인 신호이고, 그의 변환은 LPC 스펙트럼 도메인이다. ACELP 블록(526)에 의해 처리되는 신호는 여기 신호이고, 블록(527)에 의해 처리되는 신호와 상이하지만, 양방의 신호는 LPC 도메인 내에 있다. 여기 신호는 분석 필터 (1-A(z/γ))를 통해 입력 신호를 필터링함으로써 획득된다.

도 11b에 도시된 디코더측에서, 블록(537)에서의 역 스펙트럼 변환 후에, (1-μz^-1)/(1-A(z/γ))인 가중 필터의 역이 적용된다. 선택적으로, 신호는 LPC 여기 도메인으로 진행하도록 부가적으로 (1-A(z))를 통해 필터링될 수 있다. 따라서, TCX^-1 블록(537)으로부터의 신호는

을 통한 필터링에 의해 가중 도메인에서 여기 도메인으로 변환되어, 블록(536)에 이용될 수 있다. 이런 전형적 필터링은, 다음 프레임을 위해 이런 최종 코딩이 선택되는 경우에 ACELP의 적응 코드북을 공급하는 역 TCX(537)의 끝에 AMR-WB+에서 행해진다.

도 11a에서의 항목(510)이 단일 블록을 도시하지만, 블록(510)은 서로 다른 신호가 LPC 도메인 내에 있는한 이들 신호를 출력할 수 있다. 여기 신호 모드 또는 가중 신호 모드와 같은 블록(510)의 실제 모드는 실제 스위치 상태에 의존할 수 있다. 선택적으로, 블록(510)은 2개의 병렬 처리 장치를 가질 수 있다. 그래서, 블록(510)의 출력에서의 LPC 도메인은 LPC 여기 신호 또는 LPC 가중 신호 또는 어떤 다른 LPC 도메인 신호 중 하나를 나타낼 수 있다.

도 11a 또는 11b의 제 2 인코딩 브랜치 (ACELP/TCX)에서, 신호는 바람직하게는 인코딩 전에 필터 1-0.68z^-1를 통해 프리엠퍼시스된다(pre-emphasized). 도 11b의 ACELP/TCX 디코더에서, 합성된 신호는 필터 1/(1-0.68z^-1)로 디엠퍼시스된다(deemphasized). 프리엠퍼시스는, 신호가 LPC 분석 및 양자화 전에 프리엠퍼시스되는 LPC 블록(510)의 부분일 수 있다. 마찬가지로, 디엠퍼시스는 LPC 합성 블록 LPC^-1(540)의 부분일 수 있다.

바람직한 실시예에서, 제 1 스위치(200)(도 11a 참조)는 개방 루프 결정을 통해 제어되고, 제 2 스위치는 폐루프 결정을 통해 제어된다.

본보기로, 제 1 처리 브랜치에서, 제 1 LPC 도메인은 LPC 여기를 나타내고, 제 2 처리 브랜치에서, 제 2 LPC 도메인은 LPC 가중 신호를 나타낸다. 즉, 제 1 LPC 도메인 신호는 LPC 잔여 도메인으로 변환하도록 (1-A(z))를 통해 필터링함으로써 획득되지만, 제 2 LPC 도메인 신호는 LPC 가중 도메인으로 변환하도록 필터 (1-A(z/γ))/(1-μz^-1)를 통해 필터링함으로써 획득된다. 바람직한 모드에서, μ는 0.68과 동일하다.

도 11b는 도 11a의 인코딩 기법에 대응하는 디코딩 기법을 도시한다. 도 11a의 비트스트림 멀티플렉서(800)에 의해 생성되는 비트스트림은 비트스트림 디멀티플렉서(900)로 입력된다. 예컨대, 모드 검출 블록(601)을 통해 비트스트림으로부터 유도되는 정보에 따라, 디코더측 스위치(600)는, 상위 브랜치로부터의 신호 또는 하위 브랜치로부터의 신호를 대역폭 확장 블록(701)으로 전송하도록 제어된다. 대역폭 확장 블록(701)은, 비트스트림 디멀티플렉서(900)로부터 보조 정보를 수신하고, 이 보조 정보 및 모드 결정(601)의 출력에 기초로 하여, 스위치(600)에 의해 저 대역 출력에 기초로 하여 고 대역을 재구성한다.

블록(701)에 의해 생성되는 전대역 신호는 조인트 스테레오/서라운드 처리 단계(702)로 입력되고, 이 처리 단계(702)는 2개의 스테레오 채널 또는 수개의 멀티채널을 재구성한다. 일반적으로, 블록(702)은 이 블록으로 입력된 더욱 많은 채널을 출력할 것이다. 이런 응용에 따라, 블록(702)으로의 입력은 스테레오 모드에서와 같은 2개의 채널을 더 포함할 수 있고, 이 블록에 의한 출력이 이 블록으로의 입력보다 많은 채널을 갖는한 더욱 많은 채널을 더 포함할 수 있다.

하나의 브랜치만이 처리할 신호를 수신하고, 다른 브랜치는 처리할 신호를 수신하지 않도록 스위치(200)는 양방의 브랜치 간에 스위칭하도록 도시되었다. 그러나, 선택적 실시예에서는, 스위치는 또한 예컨대, 주파수 도메인 인코더(421) 및 LPC 도메인 인코더(510, 521, 526, 527) 다음에 배치될 수 있으며, 이는 양방의 브랜치(400, 500)가 동일한 신호를 병렬로 처리한다는 것을 의미한다. 그러나, 비트 레이트를 2배가 되지 않도록 하기 위해, 이들 인코딩 브랜치(400 또는 500) 중 하나에 의해 출력되는 신호만이 출력 비트스트림으로 기록되도록 선택된다. 그리고 나서, 결정 단계가 동작함으로써, 비트스트림으로 기록된 신호는 어떤 비용 함수(cost function)를 최소화하며, 여기서, 비용 함수는 생성된 비트 레이트 또는 생성된 지각적 왜곡 또는 조합된 레이트/왜곡 비용 함수일 수 있다. 그래서, 이런 모드, 또는 도면들에 도시된 모드에서, 최종으로, 인코딩 브랜치의 출력만이 주어진 지각적 왜곡에 대해서는 최저 비트 레이트를 갖거나, 주어진 비트 레이트에 대해서는 최저 지각적 왜곡을 갖는 비트스트림으로 기록되는 것을 확인하기 위해 결정 단계는 또한 폐루프 모드로 동작할 수 있다.

2개의 스위치, 즉, 제 1 스위치(200) 및 제 2 스위치(521)를 가진 구성에서는, 제 1 스위치에 대한 시간 분해능은 제 2 스위치에 대한 시간 분해능보다 낮는 것이 바람직하다. 언급된 것과 달리, 스위치 동작을 통해 스위칭될 수 있는 제 1 스위치로의 입력 신호의 블록은 LPC 도메인에서 동작하는 제 2 스위치에 의해 스위칭되는 블록보다 크다. 본보기로, 주파수 도메인/LPC 도메인 스위치(200)는 1024 샘플의 길이의 블록을 스위칭할 수 있고, 제 2 스위치(521)는 각각 256 또는 512 샘플을 가진 블록을 스위칭할 수 있다.

일반적으로, 제 1 인코딩 브랜치(400)에 이용되는 오디오 인코딩 알고리즘은 오디오 싱크 내의 상황을 반영하여 모델링한다. 오디오 정보의 싱크는 보통 인간의 귀이다. 인간의 귀는 주파수 분석기로서 모델링될 수 있다. 그래서, 제 1 인코딩 브랜치는 인코딩된 스펙트럼 정보를 출력한다. 바람직하게는, 제 1 인코딩 브랜치는 부가적으로 심리 음향 마스킹 임계치를 적용하기 위한 심리 음향 모델을 더 포함한다. 이런 심리 음향 마스킹 임계치는 오디오 스펙트럼 값을 양자화할 시에 이용되며, 여기서, 바람직하게는, 양자화 잡음이 심리 음향 마스킹 임계치 아래에 있는 스펙트럼 오디오 값을 양자화함으로써 도입되도록 양자화가 실행된다.

제 2 인코딩 브랜치는 오디오 소리의 생성을 반영하는 정보원 모델을 나타낸다. 그래서, 정보원 모델은, LPC 분석 단계, 즉, 시간 도메인 신호를 LPC 도메인으로 변환하여, 연이어 LPC 잔여 신호, 즉, 여기 신호를 처리함으로써 반영되는 음성 모델을 포함할 수 있다. 그러나, 선택적 소리원 모델은, 실생활(real world)에 존재하는 특정 소리원과 같은 어떤 기구 또는 어떤 다른 소리 생성기를 나타내는 소리원 모델이다. 서로 다른 소리원 모델 간의 선택은, 수개의 소리원 모델이, 예컨대, SNR 계산, 즉, 소리원 모델 중 어느 것이 오디오 신호의 어떤 시간 부분 및/또는 주파수 부분을 인코딩하는데 적절한 최상의 모델이다는 계산에 기초로 하여 이용 가능할 시에 실행될 수 있다. 그러나, 바람직하게는, 인코딩 브랜치 간의 스위치는 시간 도메인에서 실행되며, 즉, 어떤 시간 부분은 한 모델을 이용하여 인코딩되고, 중간 신호의 어떤 다른 시간 부분은 다른 인코딩 브랜치를 이용하여 인코딩된다.

정보원 모델은 어떤 파라미터로 표현된다. 음성 모델에 관해, 파라미터는 LPC 파라미터 및 코딩된 여기 파라미터이며, 이때, AMR-WB+와 같은 현대식 음성 코더가 고려된다. AMR-WB+는 ACELP 인코더 및 TCX 인코더를 포함한다. 이 경우에, 코딩된 여기 파라미터는 글로벌 이득(global gain), 잡음 플로어, 및 가변 길이 코드일 수 있다.

도 11a에서의 오디오 입력 신호는, 예컨대, 시간 도메인일 수 있지만, 또한, 주파수 도메인, LPC 도메인, LPC 스펙트럼 도메인 또는 어떤 다른 도메인과 같은 어떤 다른 도메인일 수 있는 제 1 도메인에 제공된다. 일반적으로, 한 도메인에서 다른 도메인으로의 변환은 어떤 잘 알려진 시간/주파수 변환 알고리즘 또는 주파수/시간 변환 알고리즘과 같은 변환 알고리즘에 의해 실행된다.

시간 도메인, 예컨대, LPC 도메인에서의 선택적 변환은 LPC 잔여 신호 또는 여기 신호를 생성시키는 시간 도메인 신호를 LPC 필터링하는 결과이다. 변환 전에 실질적인 수의 신호 샘플에 영향을 주는 필터링된 신호를 생성시키는 어떤 다른 필터링 동작은 경우에 따라 변환 알고리즘으로서 이용될 수 있다. 그래서, LPC 도메인에서 신호를 생성시키는 추가적 변환은 LPC 기반 가중 필터를 이용하여 오디오 신호를 가중시킨다. 시간/주파수 변환에서, 단일 스펙트럼 값의 수정은 변환 전에 모든 시간 도메인 값에 영향을 줄 것이다. 유사하게도, 어떤 시간 도메인 샘플의 수정은 각 주파수 도메인 샘플에 영향을 줄 것이다. 마찬가지로, LPC 도메인 상황에서의 여기 신호의 샘플의 수정은, LPC 필터의 길이로 인해, LPC 필터링 전에 실질적 수의 샘플에 영향을 줄 것이다. 마찬가지로, LPC 변환 전의 샘플의 수정은 LPC 필터의 고유 메모리 효과로 인해 이런 LPC 변환에 의해 획득되는 많은 샘플에 영향을 줄 것이다.

도 1a는 오디오 신호(10)를 인코딩하는 장치에 대한 바람직한 실시예를 도시한 것이다. 오디오 신호는, 바람직하게는, 예컨대 직통 주파수 도메인일 수 있는 제 3 도메인에서의 오디오 신호를 인코딩하기 위해 도 11a의 (400)과 같은 제 1 인코딩 브랜치를 가진 코딩 장치에 도입된다. 인코더는, 예컨대, 도 11a의 TCX 블록(527)에 의해 획득되는 바와 같은 LPC 주파수 도메인일 수 있는 제 4 도메인에 기반으로 하는 오디오 신호를 인코딩하는 제 2 인코딩 브랜치를 더 포함할 수 있다.

바람직하게는, 본 발명의 장치는 분석 윈도우 형상을 가진 제 1 분석 윈도우를 이용하여 제 1 도메인에서의 오디오 신호의 제 1 블록을 윈도우화하는 윈도워(windower)(11)를 포함하는데, 상기 분석 윈도우는, 도 8a 및 도 8b 또는 다른 도면의 문맥에서 논의된 바와 같은 L_k 또는 R_k와 같은 에일리어싱 부분, 및 도 5 또는 다른 도면에 도시된 M_k와 같은 넌에일리어싱 부분을 갖는다.

상기 장치는, 처리된 제 1 서브블록을 획득하도록 제 1 서브블록을 윈도우화한 다음에 신호 도메인 또는 직통 시간 도메인과 같은 제 1 도메인에서 LPC 도메인과 같은 제 2 도메인으로 제 1 서브블록을 변환함으로써 분석 윈도우의 에일리어싱 부분과 관련된 오디오 신호의 제 1 서브블록을 처리하고, 처리된 제 2 서브블록을 획득하도록 제 2 서브블록을 윈도우화하기 전에 직통 시간 도메인과 같은 제 1 도메인에서 LPC 도메인과 같은 제 2 도메인으로 제 2 서브블록을 변환함으로써 분석 윈도우의 추가적 부분과 관련된 오디오 신호의 제 2 서브블록을 처리하는 프로세서(12)를 더 포함한다. 본 발명의 장치는, 변환된 제 1 블록을 획득하도록 동일한 블록 변환 규칙을 이용하여 처리된 제 1 서브블록 및 처리된 제 2 서브블록을 제 2 도메인에서 LPC 주파수 도메인과 같은 제 4 도메인으로 변환하는 변환기(13)를 더 포함한다. 그 후, 이런 변환된 제 1 블록은 데이터 압축을 실행하도록 추가적 처리 단계(14)에서 더 처리될 수 있다.

바람직하게는, 추가적 처리는 또한, 입력으로서, 제 1 블록과 오버랩하는 제 1 도메인에서의 오디오 신호의 제 2 블록을 수신하며, 여기서, 시간 도메인과 같은 제 1 도메인에서의 오디오 신호의 제 2 블록은 제 3 블록, 즉, 제 2 분석 윈도우를 이용하는 직통 주파수 도메인에서 처리된다. 이런 제 2 분석 윈도우는 제 1 분석 윈도우의 에일리어싱 부분에 대응하는 에일리어싱 부분을 갖는다. 제 1 분석 윈도우의 에일리어싱 부분 및 제 2 분석 윈도우의 에일리어싱 부분은 바람직하게는 윈도우화하기 전에 원래의 오디오 신호의 동일한 오디오 샘플과 관계하고, 이들 부분은 시간 도메인 에일리어싱이 제거되며, 즉 디코더측 상에서의 오버랩-가산 절차를 받는다.

도 1b는 제 4 도메인, 예컨대 LPC 주파수 도메인에서 인코딩된 블록에서 주파수 도메인과 같은 제 3 도메인으로의 변환이 일어날 시에 발생하는 상황을 도시한다. 한 실시예에서, 제 4 도메인은 MDCT-TCX 도메인이고, 제 3 도메인은 AAC 도메인이다. MDCT-TCX 도메인에서 인코딩되는 오디오 신호에 적용된 윈도우는 에일리어싱 부분(20) 및 넌에일리어싱 부분(21)을 갖는다. 도 1b에서 "제 1 블록"이라 명명하는 동일한 블록은 추가적 에일리어싱 부분(22)을 가질 수 있거나 가질 수 없다. 넌에일리어싱 부분에 대해서도 마찬가지다. 그것은 제공될 수 있거나 제공될 수 없다.

AAC 도메인과 같은 다른 도메인에서 코딩되는 오디오 신호의 제 2 블록은 대응하는 에일리어싱 부분(23)을 포함하고, 이런 제 2 블록은 경우에 따라 넌에일리어싱 부분 또는 에일리어싱 부분과 같은 추가적 부분을 포함할 수 있으며, 이는 도 1b에서 (24)로 도시되어 있다. 그래서, 도 1b는 윈도우화하기 전에 제 1 블록의 에일리어싱 부분(20) 내의 오디오 샘플이 윈도우화하기 전에 제 2 블록의 대응하는 에일리어싱 부분(23) 내의 오디오 샘플과 동일하도록 하는 오디오 신호의 오버랩 처리를 도시한다. 그래서, 제 1 블록의 오디오 샘플은 오디오 샘플의 스트림인 오디오 신호에 분석 윈도우를 적용함으로써 획득되고, 제 2 블록은, 대응하는 에일리어싱 부분(23) 내의 샘플 및 제 2 블록의 추가적 부분(24) 내의 샘플을 포함하는 많은 오디오 샘플에 제 2 분석 윈도우를 적용함으로써 획득된다. 그래서, 에일리어싱 부분(20) 내의 오디오 샘플은 에일리어싱 부분(20)과 관련된 오디오 신호의 제 1 블록이고, 오디오 신호의 추가적 부분(21) 내의 오디오 샘플은 추가적 부분(21)과 관련된 오디오 신호의 제 2 서브블록에 대응한다.

도 1c는 도 1b에서와 유사한 상황을 도시하지만, AAC, 즉, 제 3 도메인에서 MDCT-TCX 도메인, 즉, 제 4 도메인으로의 변환을 도시한 것이다.

도 1b 및 도 1c 간의 차는, 일반적으로, 도 1b의 에일리어싱 부분(20)이 추가적 부분(21) 내의 오디오 샘플 다음에 시간적으로 생성하는 오디오 샘플을 포함하지만, 도 1c에서는, 에일리어싱 부분(20) 내의 오디오 샘플이 추가적 부분(21) 내의 오디오 샘플 전에 시간적으로 생성한다는 것이다.

도 1d는 오디오 샘플의 동일한 윈도우화된 블록의 제 2 서브블록 및 제 1 서브블록 내의 오디오 샘플로 실행되는 단계를 상세히 도시한 것이다. 일반적으로, 윈도우는 증가하는 부분 및 감소하는 부분을 가지며, 윈도우 형상에 따라, 비교적 일정한 중간 부분이 있거나 없을 수 있다.

제 1 단계(30)에서, 오디오 샘플의 스트림으로부터의 일정수의 오디오 샘플이 취해지는 블록 형성 동작이 실행된다. 특히, 블록 형성 동작(30)은 오디오 샘플이 제 1 블록에 속하고, 오디오 샘플이 도 1b 및 도 1c의 제 2 블록에 속함을 정의할 것이다.

에일리어싱 부분(20) 내의 오디오 샘플은 단계(31a)에서 윈도우화된다. 그러나, 중요하게는, 넌에일리어싱 부분, 즉, 제 2 서브블록 내의 오디오 샘플은 제 2 도메인, 즉, 단계(32)에서 바람직한 실시예에서의 LPC 도메인으로 변환된다. 그리고 나서, 제 2 서브블록 내의 오디오 샘플을 변환한 다음에, 윈도우화 동작(31b)이 실행된다. 윈도우화 동작(31b)으로 요구되는 오디오 샘플은 항목(35)으로서 도 1d에 도시된 제 4 도메인으로의 블록 변환 동작으로 입력되는 샘플을 형성한다.

블록(31a, 31b)에서의 윈도우화 동작은 도 8a, 8b, 9a, 10a와 관련하여 논의되는 바와 같이 폴딩 동작(folding operation)을 포함할 수 있거나 포함할 수 없다. 바람직하게는, 윈도우화 동작(31a, 31b)은 부가적으로 폴딩 동작을 포함한다.

그러나, 에일리어싱 부분은 블록(33)에서 LPC 도메인과 같은 제 2 도메인으로 변환된다. 따라서, (34)로 도시되는 제 4 도메인으로 변환될 샘플의 블록은 완성되고, 블록(34)은 시간/주파수 동작과 같은 한 블록 변환으로 입력되는 데이터의 한 블록을 구성한다. 바람직한 실시예에서, 제 2 도메인이 LPC 도메인이므로, 단계(35)에서와 같은 블록 변환 동작의 출력은 제 4 도메인, 즉, LPC 주파수 도메인에 있을 것이다. 블록 변환(35)으로 생성된 이런 블록은 변환된 제 1 블록(36)일 것이며, 이는, 이때, 예컨대, AMR-WB+ 코더의 TCX 데이터에 적용된 데이터 압축 동작을 포함하는 어떤 종류의 데이터 압축을 적용하기 위해 단계(37)에서 먼저 처리된다. 당연히, 모든 다른 데이터 압축 동작은 또한 블록(37)에서 실행될 수 있다. 그래서, 블록(37)은 도 1a의 항목(14)에 대응하고, 도 1d의 블록(35)은 도 1a의 항목(13)에 대응하며, 도 1d의 (31b 및 31a)에 대응하는 윈도우화 동작은 도 1a의 항목(11)에 대응하고, 추가적 부분 및 에일리어싱 부분에 대해 서로 다른 변환 및 윈도우화 간의 순서의 스케줄링(scheduling)은 도 1a의 프로세서(12)에 의해 실행된다.

도 1d는 추가적 부분이 도 1b 또는 1c의 넌에일리어싱 서브부분(21) 및 에일리어싱 서브부분(22)으로 이루어지는 경우를 도시한다. 선택적으로, 추가적 부분은 넌에일리어싱 부분 없이 에일리어싱 부분만을 포함할 수 있다. 이 경우에, 도 1b 및 1c의 (21)은 여기에 있지 않으며, (22)는 블록의 경계에서 에일리어싱 부분(20)의 경계까지 확장한다. 어쨌든, 추가적 부분/추가적 서브블록은 (완전히 에일리어싱이 없거나 완전히 에일리어싱이 있으며, 또는 에일리어싱 서브부분 및 넌에일리어싱 서브부분을 가짐과 무관하게) 동일한 방식으로 처리되지만, 에일리어싱 서브블록과는 상이하게 처리된다.

도 2는 본 발명의 바람직한 실시예에서 생성하는 서로 다른 도메인의 개요도이다.

보통은, 오디오 신호는, 예컨대, 시간 도메인일 수 있는 제 1 도메인(40)에 있을 것이다. 그러나, 본 발명은 실제로, 오디오 신호가 2개의 서로 다른 도메인에서 인코딩될 수 있고, 한 도메인에서 다른 도메인으로의 스위치가 비트레이트 최적의 방식으로, 즉, 임계 샘플링을 이용하여 실행될 필요가 있는 모든 상황에 적용한다.

제 2 도메인은, 바람직한 실시예에서, LPC 도메인(41)일 것이다. 제 1 도메인에서 제 2 도메인으로의 변환은 도 2에 도시된 바와 같이 LPC 필터/변환을 통해 행해질 것이다.

제 3 도메인은, 바람직한 실시예에서, DCT (이산 코사인 변환), DST (이산 사인 변환), 푸리에 변환 또는 고속 푸리에 변환 또는 어떤 다른 시간/주파수 변환과 같은 어떤 잘 알려진 시간/주파수 변환에 의해 획득되는 직통 주파수 도메인(42)이다.

상응하여, 제 2 도메인에서, LPC 주파수 도메인 또는, 일반적으로는, 제 2 도메인(41)에 대한 주파수 도메인과 같은 제 4 도메인(43)으로의 변환은 또한 DCT, DST, FT, FFT와 같이 어떤 잘 알려진 시간/주파수 변환 알고리즘에 의해 획득될 수 있다.

그 후, 도 2는 도 11a 또는 11b와 비교되고, 블록(421)의 출력은 제 3 도메인에서의 신호를 가질 것이다. 더욱이, 블록(526)의 출력은 제 2 도메인에서의 신호를 가질 것이며, 블록(527)의 출력은 제 4 도메인에서의 신호를 포함할 것이다. 스위치(200)으로 입력되거나, 일반적으로, 결정 단계(300) 또는 서라운드/조인트 스테레오 단계(101)로 입력되는 다른 신호는 시간 도메인과 같은 제 1 도메인에 있을 것이다.

도 3a는 오디오 데이터의 인코딩된 제 1 블록(50)을 가진 인코딩된 오디오 신호를 디코딩하는 본 발명의 장치의 바람직한 실시예를 도시하는데, 여기서, 인코딩된 블록은 에일리어싱 부분 및 추가적 부분을 갖는다. 본 발명의 디코더는, 윈도우화된 에일리어싱 부분(52)을 획득하도록 합성 윈도우화(windowing)를 실행하고, 타겟 도메인으로의 윈도우화된 추가적 부분의 변환을 실행하기 전에 추가적 부분의 합성 윈도우화를 실행하기 위한 타겟 도메인으로 에일리어싱 부분을 변환함으로써 에일리어싱 부분을 처리하는 프로세서(51)를 더 포함한다.

그래서, 디코더측 상에서, 동일한 윈도우에 속하는 블록의 부분은 서로 다르게 처리된다. 유사한 처리가 인코더측상에 적용되어, 서로 다른 도메인 간에 임계 샘플링된 스위치 오버(switch over)를 허용한다.

본 발명의 디코더는, 제 1 블록의 에일리어싱 부분에 대응하는 디코딩된 오디오 신호(55)를 획득하기 위하여, 인코딩된 제 2 블록의 에일리어싱 부분을 타겟 도메인으로 변환한 다음에 제 1 블록의 윈도우화된 에일리어싱 부분, 즉, 입력(52)과 오디오 데이터의 인코딩된 제 2 블록의 윈도우화된 에일리어싱 부분을 조합하는 시간 도메인 에일리어싱 제거기(53)를 더 포함한다. 인코딩된 제 2 블록의 윈도우화된 에일리어싱 부분은 (54)를 경유하여 시간 도메인 에일리어싱 제거기(53)로 입력된다.

바람직하게는, 시간 도메인 에일리어싱 제거기(53)는, 예컨대, 50% 오버랩을 적용하는 오버랩/가산 장치로서 구현된다. 이것은, 한 블록의 합성 윈도우의 결과치가 오디오 데이터의 인접한 인코딩된 블록의 합성 윈도우 처리의 결과치와 오버랩된다는 것을 의미하며, 여기서, 이런 오버랩은 바람직하게는 블록의 50%를 포함한다. 이것은, 초기 블록의 합성 윈도우화된 오디오 데이터의 제 2 부분이 인코딩된 오디오 데이터의 나중 제 2 블록의 제 1 부분에 샘플 방식으로 가산됨으로써, 결국은, 디코딩된 오디오 샘플이 2개의 인접한 블록의 대응하는 윈도우화된 샘플의 합이 된다는 것을 의미한다. 다른 실시예에서, 오버랩 범위는 50% 보다 많거나 적을 수 있다. 시간 도메인 에일리어싱 제거기의 조합 특징은 한 블록에서 다음 블록까지 연속 크로스 페이드를 제공하여, 어떤 블록 기반 변환 코딩 기법에서 일어나는 어떤 블록화 현상을 완전히 제거한다. 서로 다른 도메인의 에일리어싱 부분이 본 발명에 의해 조합될 수 있다는 사실로 인해, 한 도메인의 블록에서 다른 도메인의 블록으로의 임계 샘플링된 스위칭 동작이 획득된다.

한 블록에서 다른 블록으로의 하드 스위치(hard switch)가 실행되는 어떤 크로스 페이딩이 없는 스위치 인코더에 비해, 하드 스위치가 필연적으로 들을 수 있는 날카로운 소리(audible cracks) 또는 블록 경계에서의 어떤 다른 원치않는 잡음과 같은 블록화 현상을 생성시키므로, 오디오 품질이 본 발명의 절차에 의해 개선된다.

그러나, 실제로, 블록 경계에서의 그런 원치않는 예리한 잡음을 제거하는 비임계 샘플링된 크로스 페이드에 비해, 본 발명은 스위치로 인한 어떤 데이터 레이트를 증대시키지 않는다. 종래 기술에서, 동일한 오디오 샘플이 제 1 코딩 브랜치를 통해 제 1 블록에서 인코딩되고, 제 2 코딩 브랜치를 통해 제 2 블록에서 인코딩될 시에, 양방의 코딩 브랜치에서 인코딩된 샘플량은 에일리어싱 도입 없이 처리될 시에 비트 레이트를 소모시킨다. 그러나, 본 발명에 따르면, 에일리어싱은 블록 경계에서 도입된다. 그러나, 샘플의 감소로 획득되는 이런 에일리어싱 도입은, 증가된 비트 레이트 또는 비임계 샘플링된 스위치오버의 불이익 없이 시간 도메인 에일리어싱 제거기(53)에 의해 크로스 페이드 동작을 적용할 가능성을 생성시킨다.

가장 바람직한 실시예에서, 실제로 임계 샘플링된 스위치오버가 실행된다. 그러나, 또한, 어떤 상황에서, 일정량의 에일리어싱만이 도입되고, 일정량의 비트 레이트 오버헤드가 허용되는 덜 효율적인 실시예가 있을 수 있다. 그러나, 에일리어싱 부분이 이용되고 조합된다는 사실로 인해, 이들 덜 효율적인 모든 실시예들은, 그렇다 하더라도, 크로스 페이드에 의한 완전히 에일리어싱이 없는 변환 보다 더 양호하거나, 품질에 대해, 한 인코딩 브랜치에서 다른 인코딩 브랜치로의 하드 스위치보다 더 양호하다.

이와 관련해서, TCX에서의 넌에일리어싱 부분은 임계 샘플링된 코딩 샘플을 여전히 생성시킴에 주목되어야 한다. TCX에 넌에일리어싱 부분을 부가하는 것은 임계 샘플링을 손상시키지 않지만, 전이의 품질 (저 핸드오버) 및 스펙트럼 표현(representation)의 품질 (저 에너지 다짐(energy compaction))을 손상시킨다. 이 때문에, 추가적 부분이 완전히 에일리어싱하고, 에일리어싱이 없는 서브부분을 갖지 않도록 TCX에서의 넌에일리어싱 부분을 가능한 작거나 0에 가깝게 갖는 것이 바람직하다.

그 다음에, 도 3a의 절차의 바람직한 실시예를 도시하기 위해 도 3b가 논의될 것이다.

단계(56)에서, 예컨대, 제 4 도메인에서, 인코딩된 제 1 블록의 디코더 처리가 실행된다. 이런 디코더 처리는, 인코더측상에서, 도 1a의 블록(14)에서의 추가적 처리 동작에 대응하는 허프만(Huffman) 디코딩 또는 산술 디코딩과 같은 엔트로피 디코딩일 수 있다. 단계(57)에서, 완전한 제 1 블록의 주파수/시간 변환은 단계(57)에서 나타낸 바와 같이 실행된다. 도 2에 따르면, 단계(57)에서의 이런 절차는 제 2 도메인에서 완전한 제 1 블록을 생성시킨다. 이제, 본 발명에 따르면, 제 1 블록의 부분은 서로 다르게 처리된다. 특히, 에일리어싱 부분, 즉, 단계(57)의 출력의 제 1 서브블록은, 합성 윈도우를 이용한 윈도우화 동작이 실행되기 전에 타겟 도메인으로 변환될 것이다. 이것은 변환 단계(58a) 및 윈도우화 단계(59a)의 순서로 나타낸다. 제 2 서브블록, 즉, 에일리어싱이 없는 서브블록은, 현 상황에서는, 즉, 도 3b에서 항목(58a)에서의 변환 동작 없이 (59b)에서 나타낸 바와 같은 합성 윈도우를 이용하여 윈도우화된다. 블록(59a 또는 59b)에서의 윈도우화 동작은 폴딩 (언폴딩(unfolding)) 동작을 포함하거나 포함하지 않을 수 있다. 바람직하게는, 윈도우화 동작은 폴딩 (언폴딩) 동작을 포함한다.

추가적 부분에 대응하는 제 2 서브블록이 실제로 에일리어싱 서브블록인지 넌에일리어싱 서브블록인지에 따라, (59b)에서 나타낸 바와 같은 타겟 도메인으로의 변환 동작은 제 2 서브블록이 넌에일리어싱 서브블록인 경우에 어떤 TDAC 동작/조합 동작 없이 실행된다. 그러나, 제 2 서브블록이 에일리어싱 서브블록일 시에, TDAC 동작, 즉, 조합 동작(60b)은, 단계(59b)에서의 타겟 도메인으로의 변환 동작이 제 2 블록에 대한 디코딩된 오디오 신호를 계산하기 위해 획득되기 전에 다른 블록의 대응하는 부분과 함께 실행된다.

다른 브랜치에서, 즉, 제 1 서브블록에 대응하는 에일리어싱 부분에 대해, 단계(59a)에서의 윈도우화 동작의 결과는 조합 단계(60a)로 입력된다. 이런 조합 단계(60a)는 또한, 입력으로서, 제 2 블록, 즉, 도 2의 예에서의 AAC 도메인과 같은 다른 도메인에서 인코딩된 블록의 에일리어싱 부분을 수신한다. 그리고 나서, 블록(60a)의 출력은 제 1 서브블록에 대한 디코딩된 오디오 신호를 구성한다.

도 3a 및 도 3b를 비교하면, 조합 동작(60a)은 도 3a의 블록(53)에서 실행되는 처리에 대응하는 것이 자명하다. 더욱이, 프로세서(51)에 의해 실행되는 변환 동작 및 윈도우화 동작은 변환 동작에 대한 항목(58a, 58b) 및, 윈도우화 동작에 대한 (59a 및 59b)에 대응하며, 여기서, 도 3a의 프로세서(51)가 에일리어싱 부분 및 다른 부분, 즉, 제 2 서브블록에 대한 정확한 순서가 더욱 확실히 유지되게 한다.

바람직한 실시예에서, 수정된 이산 코사인 변환 (MDCT)은 한 도메인의 인코딩 동작에서 상이한 다른 도메인의 인코딩 동작으로의 임계 샘플링 스위치오버를 획득하기 위해 적용된다. 그러나, 모든 다른 변환가 또한 적용될 수 있다. 그러나, MDCT가 바람직한 실시예이므로, MDCT는 도 4a 및 도 4b에서 더욱 상세히 논의될 것이다.

도 4a는 좌측에 대한 증가 부분 및 우측에 대한 감소 부분을 가진 윈도우(70)를 도시하며, 여기서, 이 윈도우를 4개의 부분: a, b, c, 및 d로 분할할 수 있다. 도면에서 알 수 있는 바와 같이, 윈도우(70)는, 도시된 50% 오버랩/가산 상황에서 에일리어싱 부분만을 갖는다. 특히, 0에서 N까지의 샘플을 가진 제 1 부분은 앞선 윈도우(69)의 제 2 부분에 대응하고, 윈도우(70)의 샘플 N과 샘플 2N 간에 확장하는 제 2 절반은 도시된 실시예에서 윈도우 (i+1)인 윈도우(71)의 제 1 부분과 오버랩되며, 한편 윈도우(70)는 윈도우 (i)이다.

MDCT 동작은 폴딩 동작 및 후속 변환 동작 및, 특히 후속 DCT 동작의 캐스케이딩(cascading)으로서 나타낼 수 있으며, 여기서, 타입-IV의 DCT (DCT-IV)가 적용된다. 특히, 폴딩 동작은, -c_R-d로서 폴딩 블록의 제 1 부분 N/2을 계산하고, a-b_R로서 폴딩 출력의 N/2 샘플의 제 2 부분을 계산함으로써 획득되며, 여기서, R은 역 연산자(reverse operator)이다. 따라서, 폴딩 동작은 N 출력값을 생성하고, 2N 입력값은 수신된다.

디코더측 상의 대응하는 언폴딩 동작은 방정식 형식으로 또한 도 4a에 도시된다.

일반적으로, (a, b, c, d) 상의 MDCT 동작은, 도 4a에 나타낸 바와 같이, (-c_R-d, a-b_R)의 DCT-IV와 정확히 동일한 출력값을 생성한다.

이에 상응하여, 언폴딩 동작을 이용하여, IMDCT 동작은 DCT-IV 역 변환의 출력에 적용되는 언폴딩 동작의 출력을 생성한다.

그래서, 디코더측 상에서 폴딩 동작을 실행함으로써 시간 에일리어싱이 도입된다. 그 후, 폴딩 동작의 결과는 N 입력값을 필요로 하는 DCT-IV 블록 변환을 이용하여 주파수 도메인으로 변환된다.

디코더측 상에서, N 입력값은 DCT-IV^-1 동작을 이용하여 시간 도메인으로 다시 변환되어, 이런 역 변환 동작의 출력은 에일리어싱된 출력값인 2N 출력값을 획득하도록 언폴딩 동작으로 변경된다.

폴딩 동작에 의해 도입되었고, 언폴딩 동작 다음에도 여전히 존재하는 에일리어싱을 제거하기 위해, 도 3a의 시간 도메인 에일리어싱 제거기(53)에 의한 오버랩/가산 동작이 필요로 된다.

그래서, 언폴딩 동작의 결과가 이전의 IMDCT 결과와 함께 오버랩 절반부에 가산되면, 반대의 항(reversed terms)은 도 4a의 하부의 방정식에서 제거하여, 간단히, 예컨대, b 및 d를 획득하여, 원래의 데이터를 복구한다.

윈도우화된 MDCT에 대한 TDAC를 획득하기 위해, "Princen-Bradley" 조건으로서 알려져 있는 요건이 존재하며, 이는 윈도우 계수가 각 샘플에 대해 1의 결과에 관해서 시간 도메인 에일리어싱 제거기에서 조합되는 대응하는 샘플에 대해 2로 제곱한다는 것을 의미한다.

도 4a가, 예컨대, 긴 윈도우 또는 짧은 윈도우에 대해 AAC-MDCT에 적용되는 윈도우 시퀀스를 도시하지만, 도 4b는, 에일리어싱 부분 이외에, 넌에일리어싱 부분을 가진 서로 다른 윈도우 함수를 도시한 것이다.

도 4b는 0 부분(a₁ 및 d₂), 에일리어싱 부분(72a, 72b), 및 넌에일리어싱 부분(72c)을 가진 분석 윈도우 함수(72)를 도시한다.

c₂, d₁로 확장하는 에일리어싱 부분(72b)은 (73b)로 나타내는 후속 윈도우(73)의 대응하는 에일리어싱 부분을 갖는다. 이에 상응하여, 윈도우(73)는 넌에일리어싱 부분(73a)을 더 포함한다. 도 4a와 비교하면, 도 4b는, 윈도우(72)에 대한 0 부분(a₁, d₁) 또는 윈도우(73)에 대한 c₁이 존재한다는 사실로 인해, 양방의 윈도우가 넌에일리어싱 부분을 수신한다는 것이 명확해지고, 에일리어싱 부분의 윈도우 함수가 도 4a에서보다 더 가파르다. 이 때문에, 도 4b에서, 에일리어싱 부분(72a)은 L_k에 대응하고, 넌에일리어싱 부분(72c)은 부분 M_k에 대응하며, 에일리어싱 부분(72b)은 R_k에 대응한다.

폴딩 동작이 윈도우(72)에 의해 윈도우화된 샘플의 블록에 적용되면, 도 4b에 도시된 바와 같은 상황이 획득된다. 제 1 N/4 샘플로 확장하는 좌측 부분은 에일리어싱을 갖는다. N/2 샘플로 확장하는 제 2 부분은 폴딩 동작이 0 값을 가진 윈도우 부분에 적용되므로 에일리어싱이 없으며, 최종 N/4 샘플은 다시 에일리어싱이 작용된다. 폴딩 동작으로 인해, 폴딩 동작의 출력값의 수는 N과 동일하지만, 사실상, 이 실시예에서 N/2 값이 윈도우(72)를 이용하는 윈도우화 동작으로 인해 0으로 설정되었을지라도 입력은 2N이었다.

이제, DCT IV가 폴딩 동작의 결과에 적용되지만, 중요하게는, 한 코딩 모드에서 다른 코딩 모드로의 전이 상태에 있는 에일리어싱 부분(72)은 넌에일리어싱 부분과 상이하게 처리되지만, 양방의 부분은 오디오 샘플의 동일한 블록에 속하며, 중요하게는, 도 1a에서 변환기(30)에 의해 실행되는 동일한 블록 변환 동작으로 입력된다.

도 4b는 윈도우(72, 73, 74)의 윈도우 시퀀스를 더 도시하며, 여기서, 윈도우(73)는, 넌에일리어싱 부분이 존재하는 상황에서, 에일리어싱 부분만이 존재하는 상황으로의 전이(transition) 윈도우이다. 이것은 윈도우 함수를 비대칭적으로 형상을 이룸으로써 획득된다. 윈도우(73)의 우측 부분은 도 4a의 윈도우 시퀀스에서 윈도우의 우측 부분과 유사하지만, 좌측 부분은 넌에일리어싱 부분 및 (c₁에서) 대응하는 0 부분을 갖는다. 그래서, 도 4b는, AAC가 완전한 오버랩 윈도우를 이용하여 실행될 시에는 MDCT-TCX에서 AAC로의 전이를 예시하고, 또는, 선택적으로, 한 모드에서 다른 모드로의 스위칭을 위한 이유가 존재하지 않을 시에 한편으로 MDCT-TCX 및 다른 한편으로는 MDCT-AAC에 대한 정규 동작인 완전한 오버랩 방식으로 윈도우(74)가 TCX 데이터 블록을 윈도우화할 시에는 AAC에서 MDCT-TCX로의 전이가 예시된다.

그래서, 윈도우(73)는 "개시 윈도우" 또는 "정지 윈도우"인 것으로 불리워질 수 있고, 부가적으로, 일반적 블록 래스터(raster) 또는 프레임 래스터가 유지되도록 이 윈도우의 길이가 적어도 하나의 이웃한 윈도우의 길이와 동일한 바람직한 특성을 가지며, 이때, 블록은 윈도우 계수와 동일한 수, 즉 도 4b 또는 도 4a 예에서 2n 샘플을 갖도록 설정된다.

그 다음에, 인코더측 및 디코더측 상의 AAC-MDCT 절차가 도 5에 대하여 논의된다.

윈도우화 동작(80)에서, (81)로 예시되는 윈도우 함수가 적용된다. 윈도우 함수는 2개의 에일리어싱 부분(L_k 및 R_k) 및 넌에일리어싱 부분(M_k)을 갖는다. 그래서, 윈도우 함수(81)는 도 4b의 윈도우 함수(72)와 유사하다. 이런 윈도우 함수를 대응하는 다수의 오디오 샘플에 적용함으로써, R_k/L_k에 대응하는 에일리어싱 서브블록 및 M_k에 대응하는 넌에일리어싱 서브블록을 가진 오디오 샘플의 윈도우화된 블록이 생성된다.

(82)로 도시되는 폴딩 동작은 도 4b에 도시된 바와 같이 실행되고, N 출력을 생성하며, 이는 부분(L_k, R_k)이 보다 작은 수의 샘플을 갖도록 감소된다는 것을 의미한다.

그 후, 도 4a에서 MDCT 방정식과 관련하여 논의되는 바와 같이 DCT IV(83)가 실행된다. MDCT 출력은 양자화기(84)와 같은 어떤 이용 가능한 데이터 압축기 또는 어떤 공지된 AAC 툴을 실행하는 어떤 다른 장치에 의해 더 처리된다.

디코더측 상에서, 역 처리(85)가 실행된다. 그 후, 제 3 도메인에서 제 1 도메인으로의 변환은 DCT^-1 IV(86)를 통해 실행된다. 그리고 나서, 언폴딩 동작(87)은 도 4a와 관련하여 논의되는 바와 같이 실행된다. 그 후, 블록(88)에서, 합성 윈도우화 동작이 실행되고, 항목(89a 및 89b)은 함께 시간 도메인 에일리어싱 제거를 실행한다. 항목(89b)은 도 4a와 관련하여 논의되는 바와 같이 오버랩을 획득하기 위해 M_k+R_k 샘플의 지연을 적용하는 지연 장치이고, 가산기(89a)는 현재 윈도우 출력의 제 1 부분(L_k)과 같은 오디오 샘플의 현재 부분 및 이전의 윈도우의 최종 부분(R_k-1)의 조합을 실행한다. 이것은, (90)으로 나타낸 바와 같이, 에일리어싱이 없는 부분(L_k 및 M_k)을 생성시킨다. (M_k)는 시초부터 에일리어싱이 없지만, 장치(89a, 89b)에 의한 처리가 에일리어싱 부분(L_k)에서 에일리어싱을 제거한다는 것에 주목되어야 한다.

바람직한 실시예에서, AAC-MDCT에는 또한 도 4a에 도시된 바와 같이 에일리어싱 부분만을 가진 윈도우가 적용될 수 있지만, 한 코딩 모드와 다른 코딩 모드 간의 스위치에 대해, 에일리어싱 부분 및 넌에일리어싱 부분을 가진 AAC 윈도우가 적용되는 것이 바람직하다.

본 발명의 실시예는 AAC와 AMR-WB+[4] 간에 스위칭하는 스위칭된 오디오 코딩에 이용된다.

AAC는 도 5에 기술된 바와 같은 MDCT를 이용한다. AAC는 음악 신호에 매우 적합하다. 스위칭된 코딩은 입력 신호가 이전의 처리에서 음악으로서 검출되거나, 사용자에 의해 음악으로서 라벨될 시에 AAC를 이용한다.

입력 신호 프레임(k)은 3개의 사이즈의 윈도우 부분(L_k, M_k 및 R_k)에 의해 윈도우화된다. MDCT는, 양자화가 실행되는 주파수 도메인에서의 신호를 변환하기 전에 시간 도메인 에일리어싱 구성 요소를 도입한다. 사이즈(R_k-1 = L_k)의 오버랩된 이전의 윈도우화 신호를 가산한 후에, 원래의 신호 프레임의 (L_k+M_k) 제 1 샘플은 어떤 양자화 에러가 도입될 경우에 복구된다. 시간 도메인 에일리어싱은 제거된다.

그 다음에, 본 발명에 대한 TCX-MDCT 절차가 도 6과 관련하여 논의된다.

도 5의 인코더와는 대조적으로, 제 2 도메인으로의 변환은 항목(92)에 의해 실행된다. 항목(92)은, TCX 처리로부터 알려지는 바와 같이 가중 필터를 이용하여 LPC 잔여 신호를 가중시킴으로써 계산될 수 있는 LPC 잔여 신호 또는 가중 신호를 생성시키는 LPC 변환기이다. 당연히, TCX 신호도 또한 LPC 도메인 또는, 일반적으로 진술되는 제 2 도메인에서의 신호인 TCX 신호를 획득하기 위해 시간 도메인 신호를 필터링함으로써 단일 필터로 계산될 수 있다. 그래서, 제 1 도메인/제 2 도메인 변환기(92)는, 그의 출력 사이트에서, 윈도우화 장치(80)로 입력되는 신호를 제공한다. 변환기(92)를 제외하고, 도 6의 인코더의 절차는 도 5의 인코더의 절차와 유사하다. 당연히, AAC 코딩 툴이 TCX 코딩 툴과 비교될 시에, 쉽게 식별할 수 있는 도 5 및 도 6의 블록(84)의 서로 다른 데이터 압축 알고리즘을 적용할 수 있다.

디코더측 상에서, 도 5와 관련하여 논의된 바와 동일한 단계가 실행되지만, 이들 단계는 직통 주파수 도메인 (제 3 도메인)에서의 인코딩된 신호에서 실행되지 않고, 제 4 도메인, 즉, LPC 주파수 도메인에서 생성되는 코딩된 신호에서 실행된다.

그래서, 도 6에서 장치(89a, 89b)에 의한 오버랩 가산 절차는 도 5에 도시된 바와 같은 제 1 도메인에서보다는 오히려 제 2 도메인에서 실행된다.

AMR-WB+는 음성 코딩 ACELP 및 변환 기반 코딩 TCX에 기초로 한다. 1024 샘플의 각 슈퍼 프레임(super-frame)에 대해, AMR-WB+는 TCX 및 ACELP의 17개의 서로 다른 조합 간에 폐루프 결정으로 선택하며, SegSNR 객관적 평가(objective evaluation)를 이용하여 폐 결정에 따라 최상이 선택된다. AMR-WB+는 음성 및 음악 신호를 통한 음성에 적합하다. TCX의 원래의 DFT는 중대한 특성을 갖기 위해 MDCT로 대체되었다. 그 후, AMR-WB+의 TCX는 현 상태로 유지된 양자화를 제외하고는 MPTC 코딩와 동등하다. 수정된 AMR-WB+는, 입력 신호가 검출되거나 음성 또는 음악을 통한 음성으로서 라벨될 시에 스위칭된 오디오 코더에 의해 이용된다.

TCX-MDCT는 MDCT를 신호 도메인 상에서 바로 실행하지 않고, LPC 계수에 기초로 하여 분석 필터 (W(z))에 의해 신호를 필터링한 후에 MDCT를 실행한다. 이 필터는 가중 분석 필터라 하며, 동일한 시간에 TCX가 신호를 화이트하게 하여(whiten), 심리 음향 이론에 따른 포먼트 기반(formant-based) 곡선에 의해 양자화 잡음을 형상화하도록 한다.

도 5에 도시된 처리는, 도 4a에서의 완전한 오버랩 윈도우를 이용하여 TCX 모드 또는 어떤 다른 모드로의 어떤 스위칭 없이 직통 AAC-MDCT 모드 동안에 실행된다. 그러나, 전이가 검출되면, 도 7에 도시된 바와 같이, 다른 코딩 모드로의 전이를 위한 AAC 개시 윈도우, 또는 다른 코딩 모드에서 AAC 모드로의 전이를 위한 AAC 정지 윈도우인 특정 윈도우가 적용된다. AAC 정지 윈도우(93)는 (93b)로 도시된 에일리어싱 부분 및 (93a)로 도시된 넌에일리어싱 부분을 가지며, 즉, 이는 도면에서 윈도우(93)의 수평 부분으로 도시된다. 이에 상응하여, AAC 정지 윈도우(94)는 에일리어싱 부분(94b) 및 넌에일리어싱 부분(94a)을 갖는 것으로 도시된다. AMR-WB+ 부분에서, 윈도우는 도 4b의 윈도우(72)와 유사하게 적용되며, 여기서, 이 윈도우는 에일리어싱 부분(72a) 및 넌에일리어싱 부분(72c)을 갖는다. 도 7에 도시된 바와 같이 단일 AMR-WB+ 윈도우만이 개시/정지 윈도우로서 보여질 수 있지만, 바람직하게는, 50% 오버랩을 가져, 도 4a의 윈도우와 유사할 수 있는 다수의 윈도우가 있을 수 있다. 보통, AMR-WB+의 TCX는 어떤 50% 오버랩을 이용하지 않는다. 적은 오버랩, 즉 0%의 오버랩만이 고유 구형 윈도우를 이용하는 ACELP로/로부터 신속히 스위칭할 수 있도록 하기 위해 채택된다.

그러나, 전이가 일어나면, 도 7의 좌측 중심 위치에서 도시된 AMR-WB+ 개시 윈도우가 적용되고, AMR-WB+에서 AAC로의 전이가 실행되는 것으로 결정되면, AMR-WB+ 정지 윈도우가 적용된다. 개시 윈도우는 좌측으로의 에일리어싱 부분을 가지고, 정지 윈도우는 우측으로의 에일리어싱 부분을 가지며, 여기서, 이들 에일리어싱 부분은 (72a)로서 도시되고, 이들 에일리어싱 부분은 (93b 또는 94b)로 도시되는 이웃한 AAC 개시/정지 윈도우의 에일리어싱 부분에 대응한다.

도 7의 128 샘플의 2개의 오버랩된 영역에서 특정 처리가 발생한다. AAC의 시간 영역 에일리어싱을 제거하기 위해, AMR-WB+ 세그먼트의 제 1 및 최종 프레임은 강제로 TCX이도록 하고, ACELP가 아니도록 한다. 이것은 폐루프 결정에서 SegSNR 스코어(score)를 바이어스시킴으로써 행해진다. 더욱이, TCX-MDCT의 제 1 128 샘플은 특히 도 8a에 도시된 바와 같이 처리되며, 여기서, L_k=128이다.

AMR-WB+의 최종 128 샘플은 도 8b에 도시된 바와 같이 처리되며, 여기서, R_k=128이다.

도 8a는 TCX에서 AAC로의 전이를 위한 넌에일리어싱 부분의 우측으로의 에일리어싱 부분(R_k)에 대한 처리를 도시하고, 도 8b는 AAC에서 TCX로의 전이를 위한 넌에일리어싱 부분의 좌측으로의 에일리어싱 부분(L_k)의 특정 처리를 도시한다. 이런 처리는 도 6에 대해서와 유사하지만, 가중 동작, 즉, 제 1 도메인에서 제 2 도메인으로의 변환이 서로 다르게 위치된다. 특히, 도 6에서는, 윈도우화 전에 변환이 실행되지만, 도 8b에서는, 윈도우화(80) (및 폴딩(82)) 다음에 변환(92)이 실행된다. 즉, "TDA"로 나타낸 시간 도메인 에일리어싱 도입 동작이 실행된다.

디코더측 상에서, 다시, 도 6에서와 아주 유사한 처리 단계가 실행되지만, 다시, 에일리어싱 부분에 대한 역 가중의 위치가 윈도우화(88) 전에 (및 언폴딩(87) 전에) 및, 도 8a에서 (86)으로 나타낸 제 1 도메인에서 제 2 도메인으로의 변환 다음에 이루어진다.

그래서, 본 발명의 바람직한 실시예에 따르면, TCX에 대한 전이 윈도우의 에일리어싱 부분은 도 1a 또는 도 1b에 나타낸 바와 같이 처리되고, 동일한 윈도우에 대한 넌에일리어싱 부분은 도 6에 따라 처리된다.

어떠한 AAC-MDCT 윈도우에 대한 처리는 개시 윈도우 또는 정지 윈도우가 전이 시에 선택된다는 사실을 제외하고는 동일하다. 그러나, 다른 실시예에서, TCX 처리는 동일할 수 있고, AAC-MDCT 윈도우의 에일리어싱 부분은 넌에일리어싱 부분에 비해 서로 다르게 처리된다.

더욱이, 양방의 윈도우, 즉, AAC 윈도우 또는 TCX 윈도우의 양방의 에일리어싱 부분은 경우에 따라 이들의 넌에일리어싱 부분과 상이하게 처리될 수 있다. 그러나, 바람직한 실시예에서, AAC 처리는, 도 5에서 명백하듯이 그것이 오버랩-가산 절차 다음에 이미 신호 도메인 내에 있으므로, 현 상태로 행해지고, TCX 전이 윈도우는 넌에일리어싱 부분에 대해 도 6과 관련하여 도시되고, 에일리어싱 부분에 대해 도 8a 또는 8b에 도시된 바와 같이 처리되는 것이 바람직하다.

그 다음에, 도 1a의 프로세서(12)가 제어기(98)로서 도시된 도 9a가 논의될 것이다.

도 11a의 항목에 대응하는 참조 번호를 가진 도 9a의 장치는 유사한 기능을 가져, 다시 논의되지 않는다.

특히, 도 9a에 도시된 제어기(98)는 도 9b에 도시된 바와 같이 동작한다. 단계(98a)에서, 전이가 검출되며, 여기서 이런 전이는 결정 단계(300)로 나타낸다. 그 후, 제어기(98)는 스위치(521)가 어쨌든 대안(alternative)(2b)을 선택하도록 스위치(521)를 바이어스하도록 활동적이다.

그리고 나서, 단계(98b)는 제어기(98)에 의해 실행된다. 특히, 제어기는 에일리어싱 부분에서 데이터를 취해, 이 데이터를 LPC(510)로 직접 공급하지 않고, LPC 필터(510)에 의한 가중 없이, LPC 필터 전에 데이터를 TDA 블록(527a)로 직접 공급하도록 동작한다. 그 후, 이 데이터는 제어기(98)에 의해 취해져 가중되어, 즉, 제어기(98)의 출력에서 가중 필터에 의해 가중된 후에, DCT 블록(527b)에 공급된다. 제어기(98)에서의 가중 필터는 신호 분석 후에 LPC 블록(510)에서 계산된 LPC 계수를 이용한다. LPC 블록은 ACELP 또는 TCX를 공급할 수 있고, 더욱이, LPC 계수를 획득하기 위해 LPC 분석을 실행한다. MDCT 장치의 DCT 부분(527b)은 TDA 장치(527a) 및 DCT 장치(527b)로 이루어진다. 제어기(98)의 출력에서의 가중 필터는 LPC 블록(510) 내의 필터 및, AMR-WB+ TCX 처리에서 지각 필터와 같이 잠재적으로 제공되는 부가적 가중 필터와 동일한 특성을 갖는다. 그래서, 단계(98b)에서, TDA 처리, LPC 처리, 및 DCT 처리는 이런 순서로 실행된다.

추가적 부분에서의 데이터는 LPC 블록(510)으로 공급되고, 그 다음에, 도 9a에서 정규 신호 경로로 나타낸 바와 같이 MDCT 블록(527a, 527b)으로 공급된다. 이 경우에, TCX 가중 필터는 LPC 블록(510)에 속하기 때문에 도 9a에 명시적으로 도시되지 않는다.

상술한 바와 같이, 에일리어싱 부분의 데이터는, 도 8a에 도시된 바와 같이, 블록(527a)에서 윈도우화되고, 블록(527) 내에서 생성된 윈도우화 데이터는 제어기의 출력에서 LPC 필터링되어, LPC 필터링의 결과는 MDCT 블록(527)의 변환 부분(527b)에 적용된다. LPC 장치(510)에 의해 생성되는 LPC 잔여 신호를 가중시키는 TCX 가중 필터는 도 9a에 도시되지 않는다. 부가적으로, 장치(527a)는 윈도우화 단계(80)를 포함하고, 폴딩 단계(82) 및 장치(527b)는 도 8a와 관련하여 논의된 바와 같이 DCT IV 단계(83)를 포함한다. 그 후, DCT IV 단계(83/527b)는, 처리 후에 에일리어싱 부분을 수신하고, 대응하는 처리 후에 추가적 부분을 수신하여, 공통 MDCT 동작을 실행하며, 블록(528)에서의 후속 데이터 압축은 도 9b의 단계(98d)로 나타낸 바와 같이 실행된다. 그래서, 도 9a와 관련하여 논의된 바와 같이 하드웨어에 내장되거나(hardwired) 소프트웨어 제어되는 인코더의 경우에, 제어기(98)는 도 9d에 나타낸 바와 같이 서로 다른 블록(510) 및 (527a, 527b) 간에 데이터 스케줄링을 실행한다.

디코더측 상에서, 이미 논의된 도 11b에 나타낸 블록 이외에 전이 제어기(99)가 제공된다.

전이 제어기(99)의 기능은 도 10b와 관련하여 논의된다.

전이 제어기(99)가 도 10b의 단계(99a)에 도시된 바와 같이 전이를 검출하자마자, 데이터 압축 해제기(decompressor)(537a)에서의 데이터 압축 해제 다음에 전체 프레임이 MDCT^-1 단계(537b)로 공급된다. 이런 절차는 도 10b의 단계(99b)에 도시되어 있다. 그리고 나서, 단계(99c)에 도시된 바와 같이, TDAC 처리를 실행하기 전에 에일리어싱 부분이 LPC^-1 단계로 직접 공급된다. 그러나, 에일리어싱 부분은 "MDCT" 처리가 완전하지 않고, 도 8b에 도시된 바와 같이, 제 4 도메인에서 제 2 도메인으로 역 변환될 뿐이다.

도 8b의 DCT^-1 IV 단계(86)/단계(537b) 다음에 에일리어싱 부분을 도 10a의 부가적 LPC^-1 단계(537d)로 공급함으로써, 제 2 도메인에서 제 1 도메인으로의 변환이 확실하게 실행되어, 그 후, 블록(537c)에서 도 8b의 언폴딩 동작(87) 및 윈도우화 동작(88)이 실행된다. 그래서, 전이 제어기(99)는, 단계(86)의 DCT^-1 동작 다음에 블록(537b)으로부터 데이터를 수신하여, 이 데이터를 LPC^-1 블록(537d)으로 공급한다. 그리고 나서, 이런 절차의 출력은 언폴딩(87) 및 윈도우화(88)를 실행하도록 블록(537d)으로 공급된다. 그 후, 에일리어싱 부분을 윈도우화한 결과는 TDAC 블록(440b)으로 전송되어, AAC-MDCT 블록의 대응하는 에일리어싱 부분으로 오버랩-가산 동작을 실행한다. 이 때문에, 에일리어싱 블록의 처리의 순서는 다음과 같다: (537a)에서 데이터 압축, (537b)에서 DCT^-1, (537d)에서 역 LPC 및 역 TCX 지각 가중 (모두 역 가중을 의미한다), (537c)에서 TDA^-1 처리 및, (440b)에서 오버랩 및 가산.

그럼에도 불구하고, 도 6과 관련하여 논의되고, 도 10a에 도시된 정상 신호(normal signal) 흐름으로 예시된 바와 같이 TDAC 및 (540)의 역 필터링/가중 전에 프레임의 잔여 부분이 윈도우화 단계로 공급되며, 여기서, 블록(99)에 연결된 화살표는 무시된다.

이 때문에, 단계(99c)는 TDAC(440b) 다음에 에일리어싱 부분에 대한 디코딩된 오디오 신호를 생성하고, 단계(99d)는 LPC 도메인의 TDAC(537c) 및 블록(540)의 역 가중 다음에 잔여/추가적 부분에 대한 디코딩 오디오 신호를 생성한다.

어떤 구현 요건에 따라, 본 발명의 실시예는 하드웨어 또는 소프트웨어로 구현될 수 있다. 디지털 저장 매체, 예컨대, 플로피 디스크, DVD, CD, ROM, PROM, EPROM, EEPROM 또는 플래시 메모리를 이용하여 구현이 실행될 수 있으며, 이런 디지털 저장 매체는 이에 저장되는 전자식으로 판독 가능한 제어 신호를 가지고, 각각의 방법이 실행되도록 프로그램 가능한 컴퓨터 시스템과 협력한다 (또는 협력할 수 있다).

본 발명에 따른 일부 실시예는 전자식으로 판독 가능한 제어 신호를 가지고, 여기에 기술된 방법 중 하나가 실행되도록 프로그램 가능한 컴퓨터 시스템과 협력할 수 있는 데이터 캐리어를 포함한다.

일반적으로, 본 발명의 실시예는 프로그램 코드를 가진 컴퓨터 프로그램 제품으로서 구현될 수 있으며, 이 프로그램 코드는, 컴퓨터 프로그램 제품이 컴퓨터를 실행할 시에 이들 방법 중 하나를 실행하기 위해 동작 가능하다. 이 프로그램 코드는, 예컨대, 기계 판독 가능한 캐리어 상에 저장될 수 있다.

다른 실시예들은 여기에 기술되고, 기계 판독 가능한 캐리어 상에 저장되는 방법 중 하나를 실행하기 위한 컴퓨터 프로그램을 포함한다.

환언하면, 그래서, 본 발명의 방법의 실시예는 컴퓨터 프로그램이 컴퓨터를 실행할 시에 여기에 기술된 방법 중 하나를 실행하기 위해 프로그램 코드를 가진 컴퓨터 프로그램이다.

그래서, 본 발명의 방법의 다른 실시예는 여기에 기술된 방법 중 하나를 실행하기 위한 컴퓨터 프로그램을 포함하고, 기록한 데이터 캐리어 (또는 디지털 저장 매체, 또는 컴퓨터 판독 가능한 매체)이다.

그래서, 본 발명의 방법의 다른 실시예는 여기에 기술된 방법 중 하나를 실행하기 위한 컴퓨터 프로그램을 표현하는 신호의 시퀀스 또는 데이터 스트림이다. 신호의 시퀀스 또는 데이터 스트림은 예컨대 인터넷을 통해 데이터 통신 접속을 경유하여 전달되도록 구성될 수 있다.

다른 실시예는, 여기에 기술된 방법 중 하나를 실행하도록 구성되거나 적합한 처리 수단, 예컨대, 컴퓨터, 또는 프로그램 가능한 논리 장치를 포함한다.

다른 실시예는, 여기에 기술된 방법 중 하나를 실행하기 위한 컴퓨터 프로그램을 설치한 컴퓨터를 포함한다.

일부 실시예에서, 프로그램 가능한 논리 장치 (예컨대, 필드 프로그램 가능한 게이트 어레이)는 여기에 기술된 방법의 기능의 일부 또는 모두를 실행하기 위해 이용될 수 있다. 일부 실시예에서, 필드 프로그램 가능한 게이트 어레이는 여기에 기술된 방법 중 하나를 실행하기 위해 마이크로프로세서와 협력할 수 있다.

상술한 실시예들은 단지 본 발명의 원리를 위해 예시한 것이다. 여기에 기술된 배치 및 상세 사항의 수정 및 변형은 당업자에게는 자명한 것으로 이해된다. 그래서, 여기의 실시예의 설명을 통해 제시된 특정 상세 사항에 의해 제한되지 않고, 첨부한 특허청구범위의 범주에 의해서만 제한되는 것으로 의도된다.

11; 윈도워, 12; 프로세서, 13; 변환기, 53; 시간 도메인 에일리어싱 제거기, 98; 제어기

Claims

오디오 신호를 인코딩하는 장치에 있어서,
에일리어싱 부분(L_k, R_k), 및 추가적 부분(M_k)을 가진 분석 윈도우를 이용하여 상기 오디오 신호의 제 1 블록을 윈도우화하는 윈도워(11);
처리된 제 1 서브블록을 획득하도록 상기 제 1 서브블록을 윈도우화한 다음에 상기 제 1 서브블록을 상기 오디오 신호가 있는 도메인과 상이한 도메인으로 변환함으로써 상기 에일리어싱 부분과 관련된 상기 오디오 신호의 제 1 서브블록(20)을 처리하고, 처리된 제 2 서브블록을 획득하도록 상기 제 2 서브블록을 윈도우화하기 전에 상기 제 2 서브블록을 다른 도메인으로 변환함으로써 상기 추가적 부분과 관련된 상기 오디오 신호의 제 2 서브블록(21)을 처리하는 프로세서(12); 및
변환된 제 1 블록을 획득하도록 동일한 블록 변환 규칙을 이용하여 상기 처리된 제 1 서브블록 및 상기 처리된 제 2 서브블록을 상기 다른 도메인에서 추가적 도메인으로 변환하는 변환기(13)를 포함하는데,
상기 장치는 데이터 압축 알고리즘을 이용하여 상기 변환된 제 1 블록을 더 처리(14)하기 위해 구성되는 것을 특징으로 하는 오디오 신호를 인코딩하는 장치.
청구항 1에 있어서,
제 1 분석 윈도우의 에일리어싱 부분(72b)에 대응하는 에일리어싱 부분(73b)을 가진 제 2 분석 윈도우를 이용하여 상기 제 1 블록과 오버랩하는 상기 오디오 신호의 제 2 블록을 처리하기 위해 구성되는 것을 특징으로 하는 오디오 신호를 인코딩하는 장치.
청구항 1 또는 청구항 2에 있어서,
상기 오디오 신호가 위치되는 도메인은 시간 도메인이고, 상기 다른 도메인은 LPC 도메인이며, 상기 오디오 신호의 상기 제 1 블록과 오버랩하는 상기 오디오 신호의 제 2 블록이 인코딩되는 제 3 도메인은 주파수 도메인이며, 상기 변환기(13)가 변환을 위해 구성되는 상기 추가적 도메인은 LPC 주파수 도메인인데,
상기 프로세서(12)는 상기 제 1 도메인에서 상기 제 2 도메인으로 변환하는 LPC 필터를 포함하거나, 상기 변환기(13)는 입력 데이터를 DCT, DST, FFT, 또는 DFT와 같은 입력 데이터의 주파수 도메인으로 변환하는 푸리에 기반 변환 알고리즘을 포함하는 것을 특징으로 하는 오디오 신호를 인코딩하는 장치.
전술한 항 중 어느 한 항에 있어서,
상기 윈도워(11)는 출력값을 획득하도록 입력값을 폴딩하는 폴딩 함수(82)를 포함하는데, 상기 출력값의 수는 상기 입력값의 수보다 작으며, 상기 폴딩 함수는 시간 에일리어싱이 상기 출력값에 도입되도록 하는 것을 특징으로 하는 오디오 신호를 인코딩하는 장치.
전술한 항 중 어느 한 항에 있어서,
상기 윈도워(11)는 후속 실행된 폴딩 함수(82)에 대한 입력값을 획득하도록 윈도우화를 실행하도록 동작하는 것을 특징으로 하는 오디오 신호를 인코딩하는 장치.
전술한 항 중 어느 한 항에 있어서,
상기 장치는 주파수 도메인 내의 상기 오디오 신호를 인코딩하는 제 1 인코딩 브랜치(400), 및 다른 주파수 도메인에 기반으로 하는 상기 오디오 신호를 인코딩하는 제 2 인코딩 브랜치(500)를 포함하는데,
상기 제 2 인코딩 브랜치는 다른 주파수 도메인 내의 상기 오디오 신호를 인코딩하는 제 1 서브브랜치(527, 528), 및 다른 도메인 내의 상기 오디오 신호를 인코딩하는 제 2 서브브랜치(526)를 가지며, 상기 장치는 오디오 데이터의 블록이 상기 제 1 인코딩 브랜치를 이용하여 생성되는 데이터에 의해 출력 비트 스트림으로 표현되는지, 상기 제 2 인코딩 브랜치의 상기 제 1 서브브랜치 또는 상기 제 2 서브브랜치를 이용하여 생성되는 데이터에 의해 출력 비트 스트림으로 표현되는지를 결정하는 결정 단계(300)를 더 포함하며,
상기 제 1 인코딩 브랜치에서 상기 제 2 인코딩 브랜치로의 전이 또는 상기 제 2 인코딩 브랜치에서 상기 제 1 인코딩 브랜치로의 전이가 실행될 시에, 제어기(98)는 상기 제 1 서브브랜치를 위해 결정하는 상기 결정 단계(300)를 제어하기 위해 구성되는 것을 특징으로 하는 오디오 신호를 인코딩하는 장치.
전술한 항 중 어느 한 항에 있어서,
상기 추가적 부분은 넌에일리어싱 부분(M_k) 및 부가적 에일리어싱 부분, 또는 상기 오디오 신호의 이웃한 블록의 대응하는 에일리어싱 부분과 오버랩하는 에일리어싱 부분을 포함하는 것을 특징으로 하는 오디오 신호를 인코딩하는 장치.
에일리어싱 부분 및 추가적 부분을 가진 오디오 데이터의 인코딩된 제 1 블록을 갖는 인코딩된 오디오 신호를 디코딩하는 장치에 있어서,
윈도우화된 에일리어싱 부분을 획득하도록 합성 윈도우화(88)를 실행하기 전에 상기 에일리어싱 부분을 타겟 도메인으로 변환(86)함으로써 상기 에일리어싱 부분(L_k, R_k)을 처리하고, 상기 타겟 도메인으로의 변환(98)을 실행하기 전에 상기 추가적 부분의 합성 윈도우화(88)를 실행하는 프로세서(51); 및
상기 제 1 블록의 상기 에일리어싱 부분에 대응하는 디코딩된 오디오 신호를 획득하도록 상기 오디오 데이터의 인코딩된 제 1 블록의 상기 에일리어싱 부분을 상기 타겟 도메인으로 변환(91)한 다음에 상기 윈도우화된 에일리어싱 부분을 오디오 데이터의 인코딩된 제 2 블록의 윈도우화된 에일리어싱 부분과 조합하는 시간 도메인 에일리어싱 제거기(53)를 포함하는 것을 특징으로 하는 인코딩된 오디오 신호를 디코딩하는 장치.
청구항 8에 있어서,
상기 프로세서(51)는 상기 에일리어싱 부분을 제 4 도메인에서 제 2 도메인으로 변환하는 변환기(86)를 포함하고, 상기 프로세서는 상기 제 2 도메인에 표현된 상기 에일리어싱 부분을 제 1 도메인으로 변환하는 변환기(91)를 더 포함하며, 상기 변환기(86)는 블록 기반 주파수 시간 변환 알고리즘을 실행하도록 동작하는 것을 특징으로 하는 인코딩된 오디오 신호를 디코딩하는 장치.
청구항 8 또는 청구항 9에 있어서,
상기 프로세서(12)는 언폴딩 함수(87)로 입력되는 값의 수보다 큰 값의 수를 가진 출력 데이터를 획득하기 위해 상기 언폴딩 함수(87)를 실행하도록 동작하는 것을 특징으로 하는 인코딩된 오디오 신호를 디코딩하는 장치.
청구항 8, 청구항 9 또는 청구항 10 중 어느 한 항에 있어서,
상기 프로세서(12)는 상기 인코딩된 오디오 신호를 생성할 시에 이용되는 분석 윈도우 함수에 관계되는 합성 윈도우화 함수(88)를 이용하도록 동작하는 것을 특징으로 하는 인코딩된 오디오 신호를 디코딩하는 장치.
청구항 8 내지 청구항 11 중 어느 한 항에 있어서,
상기 인코딩된 오디오 신호는 상기 인코딩된 제 1 블록 및 상기 인코딩된 제 2 블록에 대한 코딩 모드를 지시하는 코딩 모드 인디케이터(indicator)를 포함하며,
상기 장치는 상기 코딩 모드 인디케이터가 코딩 모드 변경을 제 1 코딩 모드에서 다른 제 2 코딩 모드 또는 그 역으로 지시할 시에 프로세서(12)를 제어하고, 2개의 인코딩 블록 간의 코딩 모드 변경이 신호화되지 않을 시에 완전한 인코딩 블록에 대해 동일한 동작을 실행하도록 프로세서(12)를 제어하는 전이 제어기(99)를 더 포함하는 것을 특징으로 하는 인코딩된 오디오 신호를 디코딩하는 장치.
청구항 8 내지 청구항 12 중 어느 한 항에 있어서,
제 1 코딩 모드 및 제 2 코딩 모드는 엔트로피 디코딩 단계, 역양자화 단계, 언폴딩 동작을 포함하는 주파수-시간 변환 단계, 및 합성 윈도우화 단계를 포함하고,
상기 시간 도메인 에일리어싱 제거기(53)는 상기 합성 윈도우화 단계(88)에 의해 획득되는 인코딩된 블록의 대응하는 에일리어싱 부분을 가산하는 가산기(89a)를 포함하며, 상기 대응하는 에일리어싱 부분은 상기 오디오 신호의 오버랩 처리(89b)에 의해 획득되며,
상기 제 1 코딩 모드에서, 상기 시간 도메인 에일리어싱 제거기(53)는, 가산(89a)의 출력으로서, 상기 타겟 도메인 내의 디코딩된 신호를 획득하도록 상기 합성 윈도우화에 의해 획득되는 블록의 부분을 가산하기 위해 구성되며,
상기 제 2 코딩 모드에서, 상기 가산(89a)의 출력은 상기 타겟 도메인으로의 상기 가산의 출력의 변환(91)을 실행하도록 상기 프로세서(12)에 의해 처리되는 것을 특징으로 하는 인코딩된 오디오 신호를 디코딩하는 장치.
오디오 신호의 인코딩된 제 1 블록 및 상기 오디오 신호의 오버랩 인코딩된 제 2 블록을 포함하는 인코딩된 오디오 신호로서, 상기 오디오 신호의 인코딩된 제 1 블록은 에일리어싱 부분 및 추가적 부분을 포함하고, 상기 에일리어싱 부분은 상기 에일리어싱 부분을 윈도우화(80)한 다음에 상기 제 1 도메인에서 제 2 도메인으로 변환되며, 상기 추가적 부분은 제 2 서브블록을 윈도우화(80)하기 전에 상기 제 1 도메인에서 제 2 도메인으로 변환되며, 상기 제 2 서브블록은 동일한 블록 변환 규칙을 이용하여 제 4 도메인으로 변환되며,
상기 인코딩된 제 2 블록은 오디오 샘플의 오버랩 블록을 윈도우화(80)하고, 윈도우화된 블록을 제 3 도메인으로 변환함으로써 생성되고, 상기 인코딩된 제 2 블록은 오디오 샘플의 상기 인코딩된 제 1 블록의 에일리어싱 부분에 대응하는 에일리어싱 부분을 갖는 인코딩된 오디오 신호.
오디오 신호를 인코딩하는 방법에 있어서,
에일리어싱 부분(L_k, R_k), 및 추가적 부분(M_k)을 가진 분석 윈도우를 이용하여 상기 오디오 신호의 제 1 블록을 윈도우화하는 단계(11);
처리된 제 1 서브블록을 획득하도록 상기 제 1 서브블록을 윈도우화한 다음에 상기 제 1 서브블록을 상기 오디오 신호가 있는 도메인과 상이한 도메인으로 변환함으로써 상기 에일리어싱 부분과 관련된 상기 오디오 신호의 제 1 서브블록(20)을 처리하는 단계(12);
처리된 제 2 서브블록을 획득하도록 상기 제 2 서브블록을 윈도우화하기 전에 상기 제 2 서브블록을 다른 도메인으로 변환함으로써 상기 추가적 부분과 관련된 상기 오디오 신호의 제 2 서브블록(21)을 처리하는 단계;
변환된 제 1 블록을 획득하도록 동일한 블록 변환 규칙을 이용하여 상기 처리된 제 1 서브블록 및 상기 처리된 제 2 서브블록을 상기 다른 도메인에서 추가적 도메인으로 변환하는 단계(13); 및
데이터 압축 알고리즘을 이용하여 상기 변환된 제 1 블록을 더 처리하는 단계(14)를 포함하는 것을 특징으로 하는 오디오 신호를 인코딩하는 방법.
에일리어싱 부분 및 추가적 부분을 가진 오디오 데이터의 인코딩된 제 1 블록을 갖는 인코딩된 오디오 신호를 디코딩하는 방법에 있어서,
윈도우화된 에일리어싱 부분을 획득하도록 합성 윈도우화(88)를 실행하기 전에 상기 에일리어싱 부분을 타겟 도메인으로 변환(86)함으로써 상기 에일리어싱 부분(L_k, R_k)을 처리하는 단계(51);
상기 타겟 도메인으로의 변환(98)을 실행하기 전에 상기 추가적 부분의 합성 윈도우화를 실행하는 단계(88); 및
상기 제 1 블록의 상기 에일리어싱 부분에 대응하는 디코딩된 오디오 신호를 획득하도록 상기 오디오 데이터의 인코딩된 제 1 블록의 상기 에일리어싱 부분을 상기 타겟 도메인으로 변환(91)한 다음에 시간 도메인 에일리어싱 제거를 획득하도록 상기 윈도우화된 에일리어싱 부분을 오디오 데이터의 인코딩된 제 2 블록의 윈도우화된 에일리어싱 부분과 조합하는 단계(53)를 포함하는 것을 특징으로 하는 인코딩된 오디오 신호를 디코딩하는 방법.
컴퓨터를 실행할 시에, 청구항 15에 따라 인코딩하는 방법 또는 청구항 16에 따라 디코딩하는 방법을 실행하기 위한 프로그램 코드를 가진 컴퓨터 프로그램.