KR20130133816A

KR20130133816A - 예측 인코딩 및 변환 인코딩 사이에서 교번하는 낮은―지연 사운드―인코딩

Info

Publication number: KR20130133816A
Application number: KR1020137019387A
Authority: KR
Inventors: 스테판 라고트; 바라츠 코베지; 피에르 베르테트
Original assignee: 오렌지
Priority date: 2010-12-23
Filing date: 2011-12-20
Publication date: 2013-12-09
Also published as: JP2014505272A; BR112013016267A2; WO2012085451A1; CN103384900B; BR112013016267B1; CN103384900A; US9218817B2; KR101869395B1; US20130289981A1; RU2013134227A; EP2656343B1; EP2656343A1; FR2969805A1; ES2529221T3; RU2584463C2; JP5978227B2

Abstract

본 발명은 예측 코딩 프로세스에 따라 디지털 신호의 샘플들의 이전 프레임을 인코딩하는 단계(E601), 및 변환 인코딩 프로세스에 따라 디지털 신호의 샘플들의 현재 프레임을 인코딩하는 단계(E603)를 포함하는 디지털 신호를 인코딩하기 위한 방법에 관한 것이다. 상기 방법은, 현재 프레임의 제1 부분이 또한 이전 프레임의 예측 인코딩의 적어도 하나의 파라미터를 재사용하고, 재사용되지 않은 현재 프레임의 상기 제1 부분의 파라미터들만을 인코딩함으로써 이전 프레임의 예측 인코딩에 대해 제한되는 예측 인코딩에 의해 인코딩(E602)되도록 구현된다. 본 발명은 또한 설명된 인코딩 방법에 대응하는 디코딩 방법에 관한 것이다. 본 발명은 추가로 설명된 인코딩 및 디코딩 방법들을 각각 구현하는 인코더 및 디코더에 관한 것이다.

Description

예측 인코딩 및 변환 인코딩 사이에서 교번하는 낮은―지연 사운드―인코딩{LOW―DELAY SOUND―ENCODING ALTERNATING BETWEEN PREDICTIVE ENCODING AND TRANSFORM ENCODING}

본 발명은 디지털 신호들의 코딩 분야에 관한 것이다.

유리하게는, 본 발명은 교번하는 스피치 및 음악을 가지는 사운드들의 코딩에 적용된다.

스피치 사운드들을 효과적으로 코딩하기 위해, CELP(Code Excited Linear Prediction) 타입 기법들이 추천된다. 음악 사운드들을 효과적으로 코딩하기 위해, 변환 코딩 기법이 선호되어 추천된다.

CELP 타입의 인코더들은 예측 인코더들이다. 이들의 목적은 다양한 엘리먼트들: 음역을 모델링하기 위한 단기 선형 예측, 보이싱 기간 내의 성대의 진동을 모델링하기 위한 장기 예측, 및 모델링될 수 없는 "이노베이션"을 나타내기 위해 고정된 사전으로부터 유도되는 여기(백색 잡음, 대수적 여기)에 기초하여 스피치의 생산을 모델링하는 것이다.

가장 널리 사용되는 변환 인코더들(예를 들어, MPEG AAC 또는 ITU-T G.722.1 Annex C 인코더)은 변환 영역 내에서 신호를 압축시키기 위해 임계 샘플링 변환들을 사용한다. "임계 샘플링 변환"은 변환 영역 내의 계수들의 개수가 분석되는 시간적 샘플들의 개수와 동일한 변환이다.

이들 2가지 타입들의 컨텐츠를 포함하는 신호를 효과적으로 코딩하기 위한 한 가지 솔루션은 시간 경과에 따라 최상의 기법의 선택으로 구성된다. 이러한 솔루션은 3GPP(제3 세대 파트너쉽 프로젝트) 표준화 기구에 의해 특히 추천되며, AMR WB+라고 명명되는 기법이 제안된다.

이러한 기법은 AMR-WB 타입, 더 구체적으로는 ACELP("(Algebric Code Excited Linear Prediction") 타입의 CELP 기술, 및 TCX("Transform Coded eXcitation")의 모델에서 오버랩 푸리에 변환에 기초한 변환 코딩에 기초한다.

ACELP 코딩 및 TCX 코딩은 둘 모두 예측 선형 타입의 기법들이다. AMR-WB+ 코덱이 3GPP PSS("Packet Switched Streaming"), MBMS("Multimedia Broadcast/Multicast Service") 및 MMS(Multimedia Messaging Service) 서비스에 대해, 다시 말해, 알고리즘 지연에 대한 어떠한 강력한 제약도 없는 브로드캐스팅 및 저장 서비스들에 대해 개발되었다는 점에 유의해야 한다.

이러한 솔루션은 음악에 대한 불충분한 품질을 겪게 된다. 이러한 불충분함은 특히 변환 코딩으로부터 온다. 특히, 오버랩 푸리에 변환은 임계 샘플링 변환이 아니며, 따라서, 이는 차선적이다.

또한, 이러한 인코더에서 사용되는 윈도우는 에너지의 농도에 대해 최적이 아니며, 이들 가상의 사각형 윈도우들의 주파수 형상들은 차선적이다.

MPEG AAC("Advanced Audio Coding") 코딩의 원리들과 결합된 AMR-WB+ 코딩의 개선안은 ISO/MPEG에서 여전히 개발중인 MPEG USAC("Unified Speech Audio Coding") 코덱에 의해 주어진다. MPEG USAC에 의해 타겟이 되는 애플리케이션들은 대화식은 아니지만, 알고리즘 지연에 대한 강력한 제약들을 가지지 않는 브로드캐스팅 및 저장 서비스들에 대응한다.

RM0(Reference Model 0)라는 명칭의 USAC 코덱의 초기 버전은 2009년 5월 7-10일 제126차 AES 컨벤션에서 M.Neuendorf 등에 의한 논문 A Novel Scheme for Low Bitrate Unified Speech and Audio Coding - MPEG RM0에서 기술되었다. 이러한 RM0 코덱은 몇몇 코딩 코드들 사이에서 교번한다:

● 스피치 타입의 신호들에 대해: AMR-WB+ 코딩으로부터 유도된 2개의 상이한 모드들을 포함하는 LPD("Linear Predictive Domain") 모드들:

- ACELP 모드

- (AMR-WB+ 코덱과는 달리) MDCT 타입의 변환을 사용하는 wLPT("weighted Linear Predictive Transform")라는 명칭의 TCX 모드.

● 음악 타입의 신호들에 대해: 1024개 샘플들에 대해 MPTEC AAC("Advanced Audio Coding")의 MDCT("Modified Discrete Cosine Transform") 변환 코딩을 사용하는 FD("Frequency Domain") 모드.

AMR-WB+ 코덱과 비교하여, 모노 부분에 대해 USAC RM0 코딩에 의해 제공되는 다양한 메이저들은 변환 코딩에 대한 MDCT 타입의 임계 데시메이션 변환 및 대수적 코딩을 이용한 스칼라 양자화에 의한 MDCT 스펙트럼의 양자화의 사용이다. 다양한 모드들(LPD, FD)에 의해 코딩된 음향 대역이 선택된 모드에 의존한다는 점에 유의해야 하는데, 이는 ACELP 및 TCX 모드들이 동일한 내부 샘플링 주파수에서 동작하는 AMR-WB+ 코덱에 있는 경우가 아니다. 또한, USAC RM0 코덱에서의 결정 관련 모드는 1024개의 샘플들의 각각의 프레임에 대해 개방 루프에서 실행된다. 폐쇄 루프 결정이 다양한 코딩 모드들을 동시에 실행함으로써, 그리고 미리 정의된 기준에 따라 최상의 결과를 제공하는 모드를 귀납적으로 선택함으로써 이루어진다는 점에 유의한다. 개방 루프 결정의 경우, 결정은 이러한 결정이 최적인지의 여부를 테스트하지 않고 이용가능한 관측들 및 데이터의 함수로서 선험적으로 취해진다.

USAC 코덱에서, LPD 및 FD 모드들 사이의 트랜지션들은 스위칭의 실패 없이 충분한 품질을 보장하고, 각각의 모드(ACELP, TCX, FD)가 (결함의 견지에서) 특정 "서명"을 가지며, FD 및 LPD 모드들이 상이한 종류임을 알기 위해 중요하다 - FD 모드는 신호의 도메인에서의 변환 코딩에 기초하는 반면, LPD 모드들은 정확하게 관리될 필터 메모리들을 가지고 인지적으로 가중되는 필드에서 예측 선형 코딩을 사용한다. USAC RM0 코덱에서 모드 간 스위칭들의 관리는 2009년 5월 7-10일, 제126회 AES 컨벤션에서, J.　Lecomte 등에 의한 논문 "Efficient cross-fade windows for transitions between LPC-based and non-LPC based audio coding"에서 상세하게 설명된다. 이 논문에서 설명된 바와 같이, 주요 난제는 LPD에서 FD 모드 사이의 그리고 그 역의 트랜지션들에 있다. 여기서 유지되는 모든 것들은 ACELP에서 FD로의 트랜지션들의 경우이다.

동작을 완전히 이해하기 위해, 여기서 통상적인 예시적 실시예를 통한 MDCT 변환 코딩의 원리에 대한 개요가 있다.

인코더에서, MDCT 변환은 3개의 단계들 사이에서 분할된다.

● 이 경우 2M의 길이를 가지는 "MDCT 윈도우"라고 명명되는 윈도우에 의한 신호의 가중

● 길이 M의 블록을 형성하기 위한 시간-도메인 에일리어싱

● 길이 M의 DCT("Discrete Cosine Transform") 변환

MDCT 윈도우는 "쿼트(quart)"라고 명명되는 동일한 길이 M/2의 4 개의 인접한 부분들로 분할된다.

신호는 분석 윈도우에 의해 곱해지고, 이후 에일리어싱이 수행된다: 제1 쿼트(윈도우화됨)는 제2 쿼트에 대해 에일리어싱되고(즉, 시간 상에서 반전되고 오버랩됨), 제4 쿼트는 제3 쿼트에 대해 에일리어싱된다.

더 정확하게는, 하나의 쿼트의 또 다른 쿼트에 대한 에일리어싱은 후속하는 방식으로 수행된다: 제1 쿼트의 제1 샘플은 제2 쿼트의 마지막 샘플에 합산되고(또는 이로부터 감산되고), 제1 쿼트의 제2 샘플은 제2 쿼트의 끝에서 두번째 샘플에 합산되고(또는 이로부터 감산되고), 등의 식으로, 제1 쿼트의 마지막 샘플은 제2 쿼트의 첫번째 샘플에 합산된다(또는 이로부터 감산된다).

따라서, 이는, 4개 쿼트들의 기반으로, 각각의 샘플이 코딩될 신호의 2개 샘플들의 선형 결합의 결과인 2개의 에일리어싱된 쿼트를 제공한다. 이러한 선형 결합은 시간-도메인 에일리어싱이라고 명명된다.

이들 2개의 에일리어싱 쿼트들은 이후 DCT 변환 이후에 공동으로 코딩된다. 후속하는 프레임에 대해, 윈도우의 하프-오프셋(오버랩의 50%)이 존재하며, 이전 프레임의 제3 및 제4 쿼트는 이후 현재 프레임의 제1 및 제2 쿼트가 된다. 에일리어싱 이후, 동일한 샘플들의 쌍들의 제2 선형 결합은 이전 프레임 내에서, 그러나 상이한 가중들을 가지는 것으로서 송신된다.

디코더에서, 역 DCT 변환 이후, 이들 에일리어싱된 신호들의 디코딩된 버전이 이후 획득된다. 2개의 연속적인 프레임들은 동일한 쿼트들의 2개의 에일리어싱들의 결과를 포함하는데, 즉, 샘플들의 각각의 쌍에 대해, 상이한 그러나 공지된 가중들과의 2개의 선형 결합들의 결과가 존재하고: 따라서, 방정식 시스템이 입력 신호의 디코딩된 버전을 획득하기 위해 해결되고, 따라서, 시간 도메인 에일리어싱은 2개의 연속적인 디코딩된 프레임들을 사용함으로써 제거될 수 있다.

언급된 방정식 시스템들의 해결은 일반적으로 안티-에일리어싱에 의해, 주의 깊게 선택된 합성 윈도우에 의한 곱셈, 및 공통 부분들의 합산-오버랩에 의해 수행된다. 이러한 동시적인 추가-오버랩은 2개의 연속적인 디코딩된 프레임들 사이에 (양자화 에러로 인한 불연속성 없이) 소프트 트랜지션을 제공하고; 구체적으로 이러한 동작은 교차-페이드처럼 동작한다. 제1 쿼트 또는 제4 쿼트에 대한 윈도우가 각각의 샘플에 대해 제로에 있는 경우, 윈도우의 이러한 부분에서의 시간-도메인 에일리어싱 없는 MDCT 변환으로 명명된다. 이러한 경우, 소프트 트랜지션은 MDCT 변환에 의해 보장되지 않으며; 이는 예를 들어, 외부 교차-페이드와 같은 다른 수단에 의해 수행되어야 한다.

MDCT 변환의 변경 실시예들이 특히 DCT 변환의 정의에 대해, 블록이 변환되도록 시간-도메인 에일리어싱하는 방법에 대해 존재한다는 점에 유의해야 한다(예를 들어, 좌측 및 우측으로 에일리어싱된 쿼트들에 적용된 부호를 반전시키거나, 각각 제1 및 제4 쿼트들에 대해 제2 및 제3 쿼트들을 에일리어싱하는 것이 가능하다). 이들 변형예들은 윈도우화, 시간-도메인 에일리어싱, 및 이후 변환 및 최종적으로 윈도우화, 에일리어싱 및 추가-오버랩에 의해 샘플들의 블록의 감소를 통한 MDCT 합성-분석의 원리를 변경하지 않는다.

Lecomte 등에 의한 논문에 설명된 USAC RM0 인코더의 경우, ACELP 코딩에 의해 코딩된 프레임 및 FD 코딩에 의해 코딩된 프레임 사이의 트랜지션은 후속하는 방식으로 발생한다:

FD 모드에 대한 트랜지션 윈도우는 도 1에 예시된 바와 같이, 128개의 샘플들의 좌측으로의 오버랩과 함께 사용된다. 이러한 오버랩 존에서의 시간-도메인 에일리어싱은 재구성된 ACELP 프레임의 우측 상에서 "인공" 시간-도메인 에일리어싱을 도입함으로써 소거된다. 트랜지션에 대해 사용되는 MDCT 윈도우는 2304개의 샘플들의 사이즈를 가지며, DCT 변환은 1152개의 샘플들 상에서 동작하는 반면, 정상적으로 FD 모드의 프레임들은 2048개의 샘플들의 사이즈 및 1024개의 샘플들의 DCT 변환을 가지는 윈도우를 이용하여 코딩된다. 따라서, 정상 FD 모드의 MDCT 변환은 트랜지션 윈도우에 대해 직접 사용될 수 없고; 인코더는 또한 FD 모드의 트랜지션의 구현을 복잡하게 하는 이 변환의 수정된 버전을 포함해야 한다.

종래 기술의 이러한 코딩 기법들인 AMR-WB+ 또는 USAC은 100 내지 200 ms 정도의 알고리즘 지연을 가진다. 이들 지연들은 일반적으로 코딩 지연이 모바일 애플리케이션들(예를 들어: GSM EFR, 3GPP AMR 및 AMR-WB)의 스피치 인코더들에 대해 20-25　ms 정도 및 화상회의를 위한 종래의 변환 인코더들(예를 들어, ITU-T G.722.1 Annex C 및 G.719)에 대해 40 ms 정도이다.

따라서, 통상적으로 20ms의 프레임들에 대해 통상적으로 20 내지 40 ms의 정도인, 대화식 애플리케이션들과 호환가능한 알고리즘 지연 및 스피치 및 음악의 동시적인 양호한 코딩 품질과 교번적인 스피치 및 음악을 가지는 코딩 사운드들의 애플리케이션들에 대한 예상 및 변환 코딩의 기법들을 교번시키기 위한 필요성이 존재한다.

본 발명은 상황을 개선시킨다.

따라서, 본 발명은:

- 예측 코딩에 따라 디지털 신호의 샘플들의 이전 프레임을 코딩하는 단계;

- 변환 코딩에 따라 디지털 신호의 샘플들의 현재 프레임을 코딩하는 단계를 포함하는, 디지털 사운드 신호를 코딩하기 위한 방법을 제안한다.

상기 방법은 현재 프레임의 제1 부분이 이전 프레임의 예측 코딩의 적어도 하나의 파라미터를 재사용함으로써, 그리고 현재 프레임의 이러한 제1 부분의 재사용되지 않은 파라미터들만을 코딩함으로써 이전 프레임의 예측 코딩에 대해 제한된 예측 코딩에 의해서 코딩되도록 한다.

따라서, 예측 타입의 코딩들 및 변환 코딩들의 코딩들을 교번하는 코딩에 대해, 예측 코딩에 따라 코딩된 프레임 및 변환 코딩에 따라 코딩된 프레임의 통과 동안, 따라서 트랜지션 프레임이 제공된다. 현재 프레임의 제1 부분이 또한 예측 코딩에 의해 코딩된다는 사실은, 이러한 변환 프레임에 대한 변환 코딩의 메모리가 이용가능하지 않으므로 변환 코딩에 의해서만 변환 코딩되지 않은 이전프레임을 복원시키는 것이 가능하지 않은 에일리어싱 기간 동안 복원하는 것을 가능하게 한다.

추가로, 제한되지 않은 예측 코딩을 사용한다는 사실은 이러한 부분의 코딩 비트 레이트에 대한 영향을 제한하는 것을 가능하게 한다. 구체적으로, 이전 프레임에 대해 재사용되지 않은 파라미터들만이 제한된 예측 코딩에 의해 코딩된 현재 프레임의 부분에 대해 코딩된다.

또한, 이러한 프레임 부분의 코딩은, 이러한 제1 부분이 트랜지션 프레임의 시작에 위치되므로 어떠한 추가적인 지연도 도입하지 않는다.

최종적으로, 이러한 코딩 타입은 트랜지션 프레임의 코딩에 대한 또는 다른 변환-코딩된 프레임들에 대한 변환 코딩의 동일한 길이의 가중 윈도우 사이즈로 유지하는 것을 가능하게 한다. 코딩 방법의 복잡도가 이에 의해 감소된다.

하기에 언급된 다양한 특정 실시예들은 독립적으로 또는 서로 결합하여 위에서 정의된 방법의 단계들에 추가될 수 있다.

일 특정 실시예에서, 제한된 예측 코딩은 예측 코딩의 이전 프레임으로부터 카피된 예측 필터를 사용한다.

변환 코딩의 사용은 일반적으로 코딩된 세그먼트들이 거의 고정적인 경우 선택된다. 따라서, 신호의 스펙트럼-포락선 파라미터는, 예를 들어, 코딩 품질에 대한 상당한 영향을 가지지 않고, 프레임의 부분, 예를 들어, 서브프레임의 듀레이션에 대해 하나의 프레임으로부터 또다른 프레임으로 재사용될 수 있다. 따라서, 이전 프레임에 대해 사용된 예측 필터의 사용은 코딩 품질에 영향을 주지 않고, 파라미터들의 전송을 위한 추가 비트들을 없애는 것을 가능하게 한다.

변형 실시예에서, 제한된 예측 코딩은 또한 예측 코딩의 이전 프레임의 연관된 이득 및/또는 피치의 디코딩된 값을 사용한다.

이들 파라미터들은 프레임마다 크게 변경되지 않는다. 프레임마다의 이들 동일한 파라미터들의 사용은 코딩 품질에 영향을 거의 주지 않고, 모두 서브프레임의 예측 코딩을 더욱 간략화할 것이다.

또 다른 변형 실시예에서, 제한된 예측 코딩에 대해 사용되는 예측 코딩의 특정 파라미터들은 예측 코딩의 이전 프레임의 디코딩된 파라미터들에 대해 차동 모드에서 양자화된다.

따라서, 이는 트랜지션 서브프레임의 예측 코딩을 추가로 간략화하게 할 수 있다.

일 특정 실시예에 따라, 상기 방법은 현재 프레임의 제1 서브프레임의 예측 및 변환 로컬 코딩들 및 디코딩들로부터 생성되는 재구성된 신호들을 획득하는 단계 및 이들 재구성된 신호들의 교차-페이드에 의해 결합하는 단계를 포함한다.

따라서, 현재 프레임에서의 코딩 트랜지션은 소프트하며, 이상한 결함들을 유도하지 않는다.

일 특정 실시예에 따라, 재구성된 신호들의 상기 교차-페이드는 변환 코딩의 가중 윈도우의 형상의 함수로서 현재 프레임의 제1 부분의 일부분 상에서 수행된다.

이는 변환 코딩의 더 양호한 적응을 초래한다.

일 특정 실시예에 따라, 재구성된 신호들의 상기 교차-페이드는 현재 프레임의 제1 부분의 일부분 상에서 수행되고, 상기 일부분은 어떠한 시간-도메인 에일리어싱도 포함하지 않는다.

이는, 현재 프레임의 제1 부분의 변환 코딩으로부터 생성되는 재구성된 신호가 어떠한 시간-도메인 에일리어싱을 포함하지 않는 경우, 양자화 에러의 부재 시에 신호들의 완벽한 재구성을 수행하는 것을 가능하게 한다.

일 특정 실시예에서, 낮은 지연을 가지는 코딩에 대해, 변환 코딩은 윈도우의 종단 및 시작에서 제로 값의 선택된 개수의 연속적인 가중 계수들을 포함하는 가중 윈도우를 사용한다.

또다른 특정 실시예에서, 낮은-지연 코딩을 개선하기 위해, 변환 코딩은 윈도우의 적어도 하나의 종단에서 제로 값의 선택된 개수의 연속적인 가중 계수들을 포함하는 비대칭 가중 윈도우를 사용한다.

본 발명은 또한:

- 예측 코딩에 따라 수신 및 코딩되는 디지털 신호의 샘플들의 이전 프레임의 예측 디코딩 단계;

- 변환 코딩에 따라 수신 및 코딩된 디지털 신호의 샘플들의 현재 프레임의 역변환 디코딩 단계를 포함하는 디지털 사운드 신호를 디코딩하기 위한 방법에 관한 것이며, 상기 방법은, 또한 현재 프레임의 제1 부분의 이전 프레임의 예측 디코딩에 대한 제한된 예측 디코딩에 의한 디코딩 단계를 포함하도록 한다.

디코딩 방법은 코딩 방법의 대응 관계이며, 코딩 방법에 대해 설명된 것과 동일한 장점들을 제공한다.

따라서, 일 특정 실시예에서, 디코딩 방법은 이전 프레임의 예측 디코딩의 적어도 하나의 파라미터를 재사용함으로써, 그리고 현재 프레임의 제1 부분에 대해 수신된 파라미터들만을 디코딩함으로써, 제한된 예측 디코딩에 따라 수신 및 코딩된 현재 프레임의 이러한 제1 부분의 이전 프레임의 예측 디코딩에 대해 제한된 예측 디코딩에 의해 그리고 역변환에 의해 디코딩된 신호들의 교차-페이드에 의해 결합하는 단계를 포함한다.

바람직한 실시예에 따라, 제한된 예측 디코딩은 이전 프레임의 예측 디코딩에 의해 디코딩되고 사용되는 예측 필터를 사용한다.

변형 실시예에서, 제한된 예상 디코딩은 또한 디코딩 프레임의 예측 디코딩의 연관된 이득 및/또는 피치의 디코딩된 값을 사용한다.

본 발명은 또한:

- 디지털 신호의 샘플들의 이전 프레임을 코딩하기 위한 예측 코딩 모듈;

- 디지털 신호의 샘플들의 현재 프레임을 코딩하기 위한 변환 코딩 모듈을 포함하는, 디지털 사운드 신호 인코더에 관한 것이다. 인코더는 또한 이전 프레임의 예측 코딩의 적어도 하나의 파라미터를 재사용함으로써, 그리고 현재 프레임의 제1 부분에 대해 수신된 파라미터들만을 디코딩함으로써, 현재 프레임의 이러한 제1 부분을 코딩하기 위해 이전 프레임의 예측 코딩에 대해 제한되는 예측 코딩 모듈을 포함한다.

유사하게, 본 발명은:

- 예측 코딩에 따라 수신 및 코딩된 디지털 신호의 샘플들의 이전 프레임을 디코딩하기 위한 예측 디코딩 모듈;

- 변환 코딩에 따라 수신 및 코딩되는 디지털 신호의 샘플들의 현재 프레임을 디코딩하기 위한 역변환 디코딩 모듈을 포함하는, 디지털 사운드 신호 디코더에 관한 것이다. 상기 디코더는 또한 이전 프레임의 예측 디코딩의 적어도 하나의 파라미터를 재사용함으로써, 그리고, 현재 프레임의 이러한 제1 부분에 대해 수신되는 파라미터들만을 디코딩함으로써, 제한된 예측 코딩에 따라 수신 및 코딩된 현재 프레임의 제1 부분을 디코딩하기 위해 예측 프레임의 예측 디코딩에 대해 제한되는 예측 디코딩 모듈을 포함하도록 한다.

마지막으로, 본 발명은, 코드 명령들이 프로세서에 의해 실행되는 경우, 전술된 바와 같은 코딩 방법 및/또는 전술된 바와 같은 디코딩 방법의 단계들의 구현을 위한 이들 코드 명령들을 포함하는 컴퓨터 프로그램에 관한 것이다.

본 발명은 또한 전술된 바와 같은 코딩 방법 및/또는 디코딩 방법을 구현하는 컴퓨터 프로그램을 저장하는, 선택적으로는 이동식인, 인코더 또는 디코더에 포함될 수 있거나 포함되지 않을 수 있는, 프로세서에 의해 판독될 수 있는 저장 수단에 관한 것이다.

본 발명의 다른 특징들 및 장점들은 후속하는 상세한 설명 및 첨부 도면들의 검토 시에 명백해질 것이다.

도 1은 전술된, MPEG USAC 코덱의 FD 코딩 및 CELP 코딩 사이의 트랜지션에 대한 종래 기술의 트랜지션 윈도우의 예를 예시한다.
도 2는 본 발명의 일 실시예에 따른 인코더 및 코딩 방법을 블록도의 형태로 예시한다.
도 3a는 본 발명의 변환 코딩에 대해 사용되는 가중 윈도우의 예를 예시한다.
도 3b는 본 발명에 의해 사용되는 오버랩 변환 코딩 모드를 예시한다.
도 4a는 본 발명의 방법의 일 실시예에 따른 변환-코딩된 프레임 및 예측 코딩을 이용하여 코딩된 프레임 사이의 트랜지션을 예시한다.
도 4b, 4c 및 4d는 본 발명의 방법의 2가지 변형예들에 따른 변환-코딩된 프레임 및 예측 코딩을 이용하여 코딩된 프레임 사이의 트랜지션을 예시한다.
도 4e는 MDCT 변환이 비대칭 윈도우를 사용하는 경우에 대해 본 발명의 방법의 변형 실시예들 중 하나에 따른 변환 코딩된 프레임 및 예측 코딩을 이용하여 코딩된 프레임 사이의 트랜지션을 예시한다.
도 5는 본 발명의 일 실시예에 따른 디코더 또는 디코딩 방법을 예시한다.
도 6a 및 6b는 본 발명에 따른 디코딩 방법 및 코딩 방법의 주요 단계들을 흐름도의 형태로 각각 예시한다.
도 7은 본 발명에 따른 인코더 및 디코더의 한 가지 가능한 하드웨어 실시예를 예시한다.

도 2는 본 발명에 따른 코딩 방법이 적용되는 멀티모드 CELP/MDCT 인코더를 나타낸다.

이 도면은 각각의 신호 프레임에 대해 수행되는 코딩 단계들을 나타낸다.

으로 마킹되는 입력 신호는 16 kHz에서 샘플링되고, 프레임 길이는 20 ms이다. 본 발명은 일반적으로, 저 대역에서 본 발명을 적용하기 위해 선택적으로 2개의 서브-대역들로 분할된, 예를 들어, 32kHz에서 샘플링된 슈퍼-광대역 신호들에 대해 다른 샘플링 주파수들이 사용되는 경우들에 일반적으로 적용한다. 프레임 길이는 이 경우, 3GPP AMR 및 AMR-WB와 같은 모바일 인코더들의 프레임 길이에 대응하도록 선택되지만, 다른 길이들(예를 들어: 10ms)이 또한 가능하다.

관례적으로, 현재 프레임의 샘플들은

에 대응하고,

이다. 이러한 입력 신호는 주파수들을 50Hz 미만으로 감쇠시키고 연속적 컴포넌트를 제거하기 위해, 먼저 고대역 통과 필터(블록 200)에 의해 필터링되고, 이후, 256개의 샘플들의 신호 s(n)의 프레임을 획득하기 위해 12.8 kHz의 내부 주파수에서 서브샘플링된다(블록 201). 데시메이션 필터(블록 201)가 유한 임펄스 응답 필터(통상적으로 60차)에 의해 낮은 지연에서 생성된다는 점이 고려된다.

CELP 코딩 모드에서, 256개 샘플들의 현재 프레임 s(n)은 등가적 ITU-T G.722.2로서, 또는 3GPP 표준 TS 26.190에서 설명되는 12.8 kHz에서 멀티레이트 ACELP(6.6 내지 23.05 kbit/s)에 의해 고무되는 CELP 인코더에 의해 본 발명의 바람직한 실시예에 따라 코딩된다 - 이러한 알고리즘은 AMR-WB("Adaptive MultiRate-WideBand")으로 명명된다.

신호 s(n)은

에 의해 먼저 사전강조되고(블록 210), 여기서, α=0.68이며, 이후 (3GPP 표준 TS 26.190의 섹션 5에 설명된 바와 같이) ACELP 알고리즘에 의해 코딩된다(블록 211).

20ms의 연속적 프레임들은 12.8 kHz에서 256개의 시간 샘플들을 포함한다. CELP 코딩은 30ms의 신호, 즉, 5ms의 룩백 신호, 20ms의 현재 프레임 및 5ms의 룩어헤드 신호의, 메모리(또는 버퍼) buf(n),

를 사용한다.

s(n)의 사전강조 이후에 획득된 신호는

위치들에서 이러한 버퍼 내로 카피되고, 따라서,

위치들에 대응하는 현재 프레임은 5ms의 룩백 신호(

) 및 15ms의 코딩될 "새로운" 신호(

)를 포함한다 - "룩어헤드"가 서브-샘플링 필터 지연(블록 201)에 대한 보상 없이 이 경우 정확히 5ms이므로, 여기서 적용되는 CELP 코딩이 AMR-WB 표준의 ACELP 코딩과 상이하다는 점이 버퍼의 정의 내에 존재한다.

이러한 버퍼에 기초하여, CELP 코딩(블록 211)은 AMR-WB 표준의 ACELP 코딩과 유사한 방식으로 적용되는 몇몇 단계들을 포함한다; 주요 단계들은 여기서 예시적인 실시예로서 주어진다:

a) LPC 분석: 30ms의 비대칭 윈도우가 버퍼 buf(n)을 가중시키고, 이후 자동 상관이 계산된다. 이어서, 선형 예측 계수(16차)가 Levinso-Durbin 알고리즘을 통해 계산된다. 이는 LPC 선형 예측 필터 A(z)을 제공한다.

LPC 계수들의 ISP("Immittance spectral pairs") 스펙트럼 계수들로의 변환 및 (양자화된 필터

을 제공하는) 양자화가 수행된다.

최종적으로, 각각의 서브프레임에 대한 LPC 필터는 이전 프레임의 필터 및 현재 프레임의 필터 사이의 서브프레임마다 보간법에 의해 계산된다. 이러한 보간 단계에서, 룩백 프레임이 CELP 모드에 의해 코딩되었다고 여기서 가정되고, 반대의 경우, CELP 인코더의 상태들이 업데이트되었다고 가정된다.

b) 신호의 인지적 가중: 사전강조된 신호가 이후

에 의해 정의되는 필터에 의해 가중되고, 여기서

및

이다.

c) 가중된 신호(선택적으로 복잡도를 감소시키기 위해 서브-샘플링됨)의 자동 상관 함수의 최대값을 탐색함으로써 개방 루프에서의 피치의 계산.

d) 현재 프레임의 서브프레임들 각각에 대한 개방 루프에서 획득된 피치의 근처의 값들 중에서 합성에 의한 분석에 의해 폐쇄 루프에서의 "적응형 여기"를 탐색한다. 적응형 여기의 저대역 통과 필터링이 또한 수행될 수 있거나 수행되지 않을 수 있다. 따라서, 필터가 적용되는지의 여부를 표시하기 위한 비트가 생성된다. 이러한 탐색은 v(n)으로 마킹된 컴포넌트를 제공한다. 피치 및 피치 필터와 연관된 비트는 비트 스트림 내에 코딩된다.

e) 또한 합성에 의한 분석에 의해 폐쇄 루프에서, c(n)으로 마킹된 고정된 여기 또는 이노베이션을 탐색한다. 이러한 여기는 제로들 및 부호화된 임펄스들로 구성되고, 이들 임펄스들의 위치들 및 부호들은 비트 스트림에서 코딩된다.

f) 적응형 여기 및 대수적 여기의 이득들

은 각각 비트 스트림에서 공동으로 코딩된다.

이러한 예시적인 실시예에서, CELP 인코더는 20ms의 각각의 프레임을 5ms의 4개의 서브프레임들로 분할하며, 양자화된 LPC 필터는 마지막(제4) 서브프레임에 대응한다.

재구성된 신호

는, 여기의 재구성

, 선택적으로는 u(n)의 사후프로세싱, 및 양자화된 합성 필터

에 의한 필터링에 의해(3GPP 표준 TS 26.190의 섹션 5.10에서 설명된 바와 같이), 블록(211)에 포함되는 로컬 디코더에 의해 획득된다. 이러한 신호는 최종적으로, CELP 디코딩된 신호

을 획득하기 위해 전달 함수 필터

에 의해 강조 해제된다(블록 212).

자연스럽게, 전술된 실시예가 아닌 CELP 코딩의 다른 변형들은 본 발명의 속성에 영향을 주지 않고 사용될 수 있다.

일 변형에서, 블록(211)은 4가지 가능한 CELP 코딩 모드들, 즉, 넌보이싱 모드(UC), 보이싱 모드(VC), 트랜지션 모드(TC) 또는 포괄 모드(GC) 중 하나에 따라 ITU-T 표준 G.718에서 설명된 8 kbit/s에서의 CELP 코딩에 대응한다. 또다른 변형에서, CELP 코딩의 또 다른 실시예, 예를 들어, ITU-T 표준 G.718의 AMR-WB 코딩과 상호작용될 수 있는 모드에서의 ACELP 코딩이 선택된다. ISF 형태의 LPC 계수들의 표현은 스펙트럼 라인들(LSF)의 쌍들 또는 다른 등가적 표현들로 대체될 수 있다.

CELP 모드의 선택의 경우, 블록(211)은 비트 스트림에서 멀티플렉싱될 CELP 인덱스 코딩된

를 전달한다.

도 2의 MDCT 코딩 모드에서, 현재 프레임 s(n),

는 다음 변환 계수들을 획득하기 위해 바람직한 실시예에 따라 먼저 변환된다(블록 220):

여기서, M=256은 프레임 길이이고, Mz=96은 윈도우 w(n)에서 좌측 및 우측으로의 제로들의 개수이다. 윈도우 w(n)은 다음 형태로 대칭적인 "낮은 지연" 윈도우로서 바람직한 실시예에서 선택된다:

M=256 및

에 대해 이러한 낮은-지연 윈도우

는

을 취함으로써 인덱스들

에 대응하는 현재 프레임에 적용하고, 이는 64개 샘플들(5ms)의 오버랩을 가정한다.

이러한 윈도우는 도 3a에 예시된다. 윈도우가 2(M-Mz)=320개의 넌제로 샘플들, 또는 12.8kHz에서 25ms를 가짐에 유의한다. 도 3b는

를 취함으로써 윈도우 w(n)가 어떻게 적용되는지를 20ms의 각각의 시간 프레임에 적용되는지를 예시한다.

이러한 윈도우는 20ms의 현재 프레임 및 5ms의 룩어헤드 신호에 적용한다. 따라서, MDCT 코딩은 MDCT 디코더가 MDCT 윈도우의 중간 "플랫" 상에서 그리고 좌측으로의 오버랩에 의해 현재 프레임 전체를 추가-오버랩함으로써 재구성할 수 있는 범위에 대해 CELP 코딩과 동기화되며, 이는 또한 5ms의 룩어헤드 프레임에 대한 오버랩을 가진다는 점에 유의한다. 여기서, 이러한 윈도우에 대해, 현재 MDCT 프레임이 오버랩이 발생하는 프레임의 제1 부분 상에(실제로, 제1의 5ms 상에) 시간-도메인 에일리어싱을 유도한다는 점에 유의한다.

CELP 및 MDCT 인코더들/디코더들에 의해 재구성되는 프레임들이 일치하는 시간적 지원들을 가진다는 점에 주목하는 것이 중요하다. 재구성의 이러한 시간-도메인 동기화는 코딩 모델들의 스위칭을 더욱 쉽게 한다.

본 발명의 변형들에서, w(n)이 아닌 다른 윈도우들이 또한 가능하다. 블록(220)의 구현은 여기서 상세하게 주어지지 않는다. ITU-T 표준 G.718(6.11.2 및 7.10.6 조항들)에서 예가 주어진다.

계수들

은 ITU-T 표준 G.729.1의 "TDAC"("Time Domain Aliasing Cancellation")에 의해, 바람직한 실시예에서 고무되는, 블록(221)에 의해 코딩된다.

는 여기서 MDCT 코딩에 대해 각각의 프레임에 할당된 전체 비트 버짓을 마킹한다. 이산 스펙트럼 S(k)는 서브-대역들로 분할되고, 이후, 서브-대역 당 r.m.s("root mean square")에 대응하는 스펙트럼 포락선은 3dB의 단계에서 로그 도메인에서 양자화되고 엔트로피 코딩에 의해 코딩된다. 이러한 포락선 코딩에 의해 사용되는 비트 버짓은 여기서

로서 마킹되며, 이는 엔트로피 코딩으로 인해 가변적이다.

G.729.1 표준의 "TDAC" 코딩과는 달리, 미리 결정된 개수의 비트 마킹된

(버짓

의 함수)는 잡음에 의한 제로 값에서 코딩된 계수들을 "채우고" 그렇지 않은 경우 가청적인 "음악 잡음"의 결함을 마스킹하기 위해 잡음 주입 레벨들의 코딩에 대해 예약된다. 이후, 스펙트럼 S(k)의 서브-대역들은

비트들의 나머지 버짓을 가지고 구형 벡터 양자화에 의해 코딩된다. 이러한 양자화는, 이러한 상세항목들이 본 발명의 상황을 넘어 연장하므로, 서브-대역 당 비트들의 적응형 할당과 같이, 상세하게 주어지지 않는다. MDCT 모드 또는 트랜지션 모드의 선택의 경우, 블록(221)은 비트 스트림에서 멀티플렉싱될 MDCT 인덱스 코딩된

를 전달한다.

블록(222)은 디코딩된 스펙트럼

를 재구성하기 위해 블록(221)에 의해 생성되는 비트 스트림을 디코딩한다. 최종적으로, 블록(223)은 신호

를 발견하기 위해 현재 프레임을 재구성한다.

MDCT 변환 코딩의 속성(프레임들 간의 오버랩)으로 인해, 2개의 상황들이 현재 프레임의 MDCT 코딩에서 참작될 수 있다:

- 제1 경우: 이전 프레임이 MDCT 모드에 의해 코딩된다. 이러한 경우, 로컬(및 원격) 디코더에서의 MDCT 합성에 필요한 메모리(또는 상태)가 이용 가능하고, 시간-도메인 에일리어싱을 소거하기 위해 MDCT에 의해 사용되는 추가/오버랩 동작이 가능하다. MDCT 프레임은 전체 프레임에 걸쳐 정확하게 디코딩된다. 이는 MDCT 코딩/디코딩의 "정상" 동작을 수반한다.

- 제2 경우: 이전 프레임은 CELP 모드에 의해 코딩된다. 이러한 경우, (로컬 및 원격) 디코더의 재구성이 완료되지 않는다. 위에서 설명된 바와 같이, MDCT는 재구성을 위해, 디코딩될 프레임의 시간-도메인 에일리어싱을 제거하고, 또한 블록들의 영향을 방지하고, 프레임보다 더 긴 윈도우들의 사용에 의한 주파수 분해능을 증가시키기 위해, (메모리에 저장된 상태들을 가지고) 이전 프레임 및 현재 프레임 사이의 추가적/오버랩 동작을 사용한다. 가장 넓게 사용된(정현파 타입) MDCT 윈도우들을 이용하여, 시간-도메인 에일리어싱으로 인한 신호의 왜곡은 윈도우의 종단에서 더 크며, 윈도우의 중간에서 거의 제로이다. 이러한 정확한 경우, 이전 프레임이 CELP 타입인 경우, 마지막 프레임이 MDCT-변환 코딩되었으므로 MDCT 메모리가 이용가능하지 않다.

프레임의 시작에서 에일리어싱된 영역은 MDCT 변환에서 내재적인 시간-도메인 에일리어싱에 의해 중단되는 MDCT 프레임 내의 신호의 영역에 대응한다.

따라서, 현재 프레임이 MDCT 모드에 의해 코딩되고(블록들 220 내지 223), 이전 프레임이 CELP 모드에 의해 코딩된 경우(블록들 210 내지 212), CELP로부터 MDCT로의 트랜지션의 특정 처리가 필요하다.

이러한 경우, 도 4a에서 표시된 바와 같이, 제1 프레임은 CELP 모드에 의해 코딩되고, (로컬 또는 원격) CELP 디코더에 의해 완전히 재구성될 수 있다. 반면, 제2 프레임은 MDCT 모드에 의해 코딩되고; 이러한 제2 프레임이 현재 프레임인 것으로 간주된다. MDCT 윈도우의 좌측에 대한 오버랩 영역은, 이전 프레임이 MDCT에 의해 코딩되지 않았기 때문에 이러한 윈도우의 (시간-도메인 에일리어싱을 가지는) 상보적 부분이 이용가능하지 않으므로, 문제점을 부과한다. 따라서, MDCT 윈도우의 이러한 좌측 부분에서의 에일리어싱이 제거될 수 없다.

이러한 트랜지션에 대해, 본 발명에 따른 코딩 방법은 제한된 예측 코딩 또는 예측 트랜지션 인코더에 의해, 현재 프레임의 좌측에 대한 에일리어싱 영역을 나타내는, 현재 변환-코딩된(MDCT) 프레임에서, 예를 들어, 5ms의 추가 서브프레임으로서 선택된 프레임의 길이에 대해 길이 상으로 더 짧거나 동일한 샘플들의 블록의 코딩 단계를 포함한다. MDCT 트랜지션 프레임에 선행하는 프레임에서의 코딩의 타입이 CELP 코딩이 아닌 코딩 타입, 예를 들어, MICDA 코딩 또는 TCX 코딩일 수 있다는 점에 유의해야 한다. 본 발명은 일반적 경우에서, 이전 프레임이 신호의 도메인에서 MDCT 메모리들을 업데이트하지 않고 코딩함으로써 코딩되는 일반적 경우에 적용되고, 본 발명은 이전 프레임의 코딩 정보를 사용하여 트랜지션 코딩에 의해 현재 프레임의 일부분에 대응하는 샘플들의 블록을 코딩하는 것을 수반한다.

예측 트랜지션 코딩은 이전 프레임의 예측 코딩에 대해 제한되며, 이는 예측 코딩에 의해 코딩된 이전 프레임의 안정적 파라미터들을 사용하는 것 및 현재 트랜지션 프레임 내의 추가적인 서브프레임에 대해 오직 몇몇 최소 파라미터들만을 코딩하는 것을 수반한다.

따라서, 이러한 제한된 예측 코딩은 이전 프레임의 예측 코딩의 적어도 하나의 파라미터를 재사용하고, 따라서, 오직 재사용되지 않은 파라미터들만을 코딩한다. 이러한 의미에서, (코딩된 파라미터들의 제한에 의해) 이를 제한된 코딩으로 명명하는 것이 가능하다.

도 4a 내지 4e에 예시된 실시예들은, 제1 MDCT 윈도우의 좌측에 대한 오버랩은 서브프레임의 길이(5ms)보다 더 작거나 동일하다고 가정한다. 반대 경우, 하나 이상의 추가적인 CELP 서브프레임(들)은 또한 코딩되어야 하고, 적응형 여기 사전들 및/또는 오버랩의 길이에 대해 적응되는 사이즈의 고정된 사전들이 사용되어야 한다.

도 4a 내지 4e에서, 믹스된 라인(교번적인 도트들 및 대시들을 가지는 라인들은 MDCT 코딩 에일리어싱 라인들 및 MDCT 디코딩 안티-에일리어싱 라인들에 대응한다. 이들 도면들의 최상부에서, 굵은 라인들은 인코더의 입구에서 프레임들을 분리하고, 따라서 정의된 프레임이 완전히 이용가능한 경우 새로운 프레임의 인코딩을 시작하는 것이 가능하다. 인코더에서의 이들 굵은 라인들이 현재 프레임에 대응하는 것이 아니라, 각각의 프레임에 도달하는 새로운 샘플들의 블록에 대응한다는 점에 주목하는 것이 중요하며, 현재 프레임은 실제로 5ms만큼 지연된다. 최하부에서, 굵은 라인들은 디코더의 출력에서 디코딩된 프레임들을 분리한다.

트랜지션 프레임의 특정 프로세싱은 도 2의 블록들(230 내지 232)에 그리고 블록(240)에 대응한다. 이러한 프로세싱은

라고 마킹된 이전 모드, 다시 말해, 이전 프레임의 코딩이 타입(CELP 또는 MDCT)이 CELP 타입인 경우 수행된다.

CELP 및 MDCT 코딩 사이의 현재 트랜지션 프레임(도 4a 내지 4e에서의 제2 프레임)의 코딩은 블록(231)에 의해 구현되는 몇몇 단계들에 기초한다:

- 프레임의 MDCT 코딩: 도 4a의 최상부에 예시된 예시적인 실시예에서, 이러한 코딩을 위해 선택되는 윈도우는 25ms의 유효 길이를 가지는 위에서 정의된 윈도우 w(n)이다. MDCT 트랜지션 프레임(CELP 프레임에 후속하는 MDCT 프레임)에서 w(n)을 대체하기 위한 다른 형태들의 윈도우들이, 25ms와 상이할 수 있는 하나 또는 동일한 유효길이를 가지고 도 4b, 4c, 4d 및 4e에 예시된다. 도 4a의 경우에 대해, 현재 프레임의 20ms는 윈도우의 넌제로 부분의 시작에 배치되는 반면, 나머지 5ms는 룩어헤드 프레임의 제1의 5ms이다. (에일리어싱 및 이산 코사인 변환(DCT)에 의한) MDCT의 계산 이후, 따라서, MDCT 스펙트럼의 256개의 샘플들이 획득된다. 이들 계수들의 양자화는 이러한 경우 스펙트럼 포락선 및 포락선의 각각의 표준화된 서브대역에 대한 구형 벡터 양자화의 전송에 의해 수행된다. "정상" MDCT 코딩의 이전 설명과의 차이점은, 트랜지션 프레임에서의 벡터 양자화에 할당된 버짓이

가 아니라

이며,

는 트랜지션 인코더에서 필터

의 입력 여기를 생성하기 위해 유실된 정보의 전송에 필요한 비트들의 수를 나타낸다. 이러한 비트수

는 인코더에서 전체 비트 레이트의 함수로서 가변적이다.

양자화된 스펙트럼의 디코딩(도 4a 내지 4e에서의 최하부에서): (MDCT 메모리들이 이전 프레임으로부터 이용가능하지 않음으로써 추가-오버랩 없이 합성 윈도우에 의한 곱셈 및 안티-에일리어싱에 의해) 양자화된 스펙트럼 및 부분 역 MDCT 변환 동작의 재구성 이후, 시간-도메인 신호는 제1의 5ms(제1 서브프레임)가 시간-도메인 에일리어싱을 포함하는 경우 획득되고, 이후, 재구성된 신호의 15 ms, 마지막 5ms는 최종적으로, 후자가 MDCT 타입인 경우, 다음 프레임의 재구성을 위해 필요한 MDCT 메모리를 공급하는 역할을 하고, 다음 프레임이 CELP 타입인 경우, 이러한 메모리는 일반적으로 쓸모없다.

- 제한된 예측 코딩을 포함하는 트랜지션에 의한 제1 서브프레임의 코딩(예를 들어, 도 4a 내지 4e에 "TR"로 마킹된 회색 영역).

이러한 제한된 예측 코딩은 후속하는 단계들을 포함한다.

제1 서브프레임의 필터

는 예를 들어, 이전 프레임의 제4 서브프레임의 필터

를 카피함으로써 획득된다. 이는 이러한 필터를 사용해야 하는 것을 절감하며, 비트 스트림 내의 자신의 코딩과 연관된 비트들의 수를 절감한다.

이러한 선택은, CELP 및 MDCT 사이에서 교번하는 코덱에서, MDCT 모드가 주파수 도메인에서의 코딩이 시간 도메인에서보다 더 효율적인 거의 고정적인 세그먼트들에서 선택되므로, 정당하다. ACELP 및 MDCT 모드들 사이의 스위칭의 순간에서, 이러한 고정성은 일반적으로 이미 설정되며; 스펙트럼 포락선과 같은 특정 파라미터들이 프레임마다 거의 변경하지 않는다고 가정하는 것이 가능하다. 따라서, 신호의 스펙트럼 포락선을 나타내는, 이전 프레임동안 전송된 양자화된 합성 필터

가 효과적으로 재사용될 수 있다.

(룩백 여기의 사용에 의해 적응형 여기를 재구성하는 것을 가능하게 하는) 피치는 이러한 제1 트랜지션 서브프레임에 대한 폐쇄 루프 내에서 계산된다. 후자는 선택적으로 마지막 CELP 서브프레임의 피치에 대해 차동 방식으로, 비트 스트림 내에서 코딩된다. 적응형 여기

는 이로부터 추론된다. 일 변형에서, 마지막 CELP 프레임의 피치 값은 또한 이를 전송하지 않고 재사용될 수 있다.

적응형 여기

가 계수들

의 저대역 통과 필터에 의해 필터링되었는지의 여부를 표시하기 위해 하나의 비트가 할당된다. 그러나, 이러한 비트의 값은 마지막 이전 CELP 프레임으로부터 취해질 수 있다.

서브프레임의 대수적 여기에 대한 탐색은 오직 이러한 트랜지션 서브프레임에 대한 폐쇄 루프에서 수행되고, 여기 펄스들의 위치들 및 부호들의 코딩은, 여기서 다시 인코더의 비트레이트에 의존하는 비트들의 수를 이용하여, 비트 스트림 내에서 코딩된다.

각각 적응형 및 대수적 여기와 연관된 이득들

은 비트 스트림 내에서 코딩된다. 이러한 코딩에 할당된 비트들의 수는 인코더의 비트레이트에 의존한다.

일 예로서, 12.65 kbit/s의 전체 비트 레이트에 대해, 9비트가 서브프레임의 피치의 절대 코딩에 대해 예약되고, 6비트들이 이득의 코딩에 대해 예약되고, 52 비트들이 고정된 여기의 코딩에 대해 예약되고, 1비트는 적응형 여기가 필터링되는지의 여부를 표시한다. 따라서,

비트(3.4kbit/s)가 이러한 트랜지션 서브프레임의 코딩을 위해 예약되고, 따라서 트랜지션 프레임에서의 MDCT 코딩을 위한 9.25kbit/s가 유지된다.

모든 파라미터들이 획득되고 코딩되면, 획득된 여기를 가지는 필터

의 여기에 의해 유실된 서브프레임을 생성하는 것이 가능하다. 블록(231)은 또한 비트 스트림에서 멀티플렉싱될 제한된 예측 코딩의 파라미터들

을 공급한다. 블록(231)이 트랜지션 프레임에 선행하는 프레임에서 수행되는 코딩(블록 211)의, 도면에서 Mem으로 마킹된 정보를 사용한다는 점에 주목하는 것이 중요하다. 예를 들어, 정보는 마지막 서브프레임의 LPC 및 피치 파라미터들을 포함한다.

획득된 신호는 이후 현재 CELP 대 MDCT 트랜지션 프레임의 제1 서브프레임에서 재구성된 신호

를 획득하기 위해 필터

에 의해 강조해제된다(블록 232).

마지막으로, 나머지 작업은 재구성된 신호들

및

를 결합시키는 것이다. 이를 위해, 2개 신호들 사이의 선형 순차적 믹싱(교차-페이딩)이 수행되고, 후속하는 출력 신호를 제공한다(블록 240). 예를 들어, 제1 실시예에서, 이러한 교차 페이드는 도 4a에 예시된 바와 같이 후속하는 방식으로 제1의 5ms에서 수행된다:

2개 신호들 사이의 교차-페이드가 이 예에서 5ms이지만, 더 작을 수도 있다는 점에 유의해야 한다. CELP 인코더 및 MDCT 인코더가 완벽한 또는 거의 완벽한 재구성을 가진다는 가정 시에, 심지어 교차-페이드를 생략하는 것이 가능하며, 구체적으로, 프레임의 제1의 5밀리초는 (제한된 CELP에 의해) 완벽하게 코딩되며, 후속적인 15ms는 또한 (MDCT 인코더에 의해) 완벽하게 코딩된다. 교차-페이드에 의한 결함들의 감쇠는 이론적으로는 더 이상 필수적이지 않다. 이러한 경우, 신호

는 더 간단하게 기록된다:

도 4b의 변형예에서, 윈도우는 좌측으로 에일리어싱을 가지지 않는 사각형 형상과의 합성과 그리고 분석과 동일한 윈도우로 대체된다.

n<0 및 n>255에 대한 어떠한 명시도 여기서 이루어지지 않는다. n<0에 대해, w(n)의 값은 제로이고, n>255에 대해, 윈도우들은 "정상적" MDCT 코딩에 대해 사용되는 MDCT 분석 및 합성 윈도우들에 의해 결정된다.

도 4b에서의 교차-페이드는 후속하는 방식으로 수행된다:

도 4c의 변형예에서, 윈도우는 1.25 ms에 걸쳐 제로 값의 제1 부분, 이후 2.5 ms에 걸친 정현 상승 에지, 및 1.25ms에 걸친 단위 값의 플랫을 포함하는 형태를 가지는 합성에 대해 그리고 분석에 대해 동일한 윈도우에 의해 대체된다:

도 4c의 교차-페이드는 다음 방식으로 수행된다:

이는 교차-페이드가 수행되는 영역이 시간-도메인 에일리어싱으로부터 제외됨을 도시한다.

도 4d 및 4e의 변형예에서, 현재 트랜지션 프레임(

)에서 분석 및 합성 MDCT 가중 윈도우가 다음에 의해 주어진다고 가정된다:

n<0 및 n>255에 대한 어떠한 명시도 여기서 이루어지지 않는다는 점에 유의한다. n<0에 대해, w(n)의 값은 제로이고, n>255에 대해, 윈도우들은 "정상적" MDCT 코딩에 대해 사용되는 MDCT 분석 및 합성 윈도우들에 의해 결정된다.

교차-페이드가 후속하는 방식으로 수행되며, 다음을 가정한다:

도 4b 내지 4d의 교차=페이드가 또한 도 4a의 구성에서 사용될 수 있다는 점에 유의한다. 이러한 방식으로 진행하는 것의 장점은 교차-페이드가, 에일리어싱으로 인한 에러가 가장 덜 중요한 MDCT 디코딩된 부분 상에서 수행된다는 점이다. 도 4a에 표현되는 구조는 완전한 재구성에 더욱 가까워진다.

예시적인 실시예에서, 인코더가 폐쇄 루프에서의 모드 결정과 함께 동작한다는 점이 고려된다.

12.8kHz에서의 원래 신호

, 및 2개 모드들 CELP 및 MDCT 각각에 의해 재구성된 신호들

및

,

에 기초하여, 현재 프레임에 대한 모드 결정은 코딩 에러들

및

를 계산함으로써(블록들 250, 252), 이후 필터

에 의한 인지 가중을 64개 샘플들의 서브프레임들(5ms)에 의해 적용함으로써 - 여기서, 그 계수들이 CELP 코딩의 상태들로부터 도출되는(블록 211)

-, 및 최종적으로 세그먼트(5ms의 시간-도메인 단위를 가지는)에 의한 신호-대-잡음비 기준을 계산함으로써, 취해진다(블록 254). 폐쇄 루프에서의 결정의 동작(블록 254)은 더 상세하게 설명되지 않는다. 블록(554)의 결정은 비트 스트림에서 코딩되고(

) 멀티플렉싱된다.

멀티플렉서(260)는 결정 코딩된

및 비트스트림 bst 내의 코딩 모듈들로부터 온 다양한 비트들을 모듈(254)의 결정의 함수로서 결합시킨다. CELP 프레임에 대해, 비트들

이 송신되고, 순수하게 MDCT 프레임에 대해, 비트들

이 송신되고, CELP-대-MDCT 트랜지션 프레임에 대해, 비트들

및

가 송신된다.

모드 결정이 또한, 본 발명의 속성의 변경 없이, 인코더에 대해 외부에 있는 방식으로 특정되거나 개방 루프 내에서 수행될 수 있다는 점에 유의해야 한다.

본 발명의 일 실시예에 따른 디코더가 도 5에 예시된다. 디멀티플렉서(블록 511)는 비트 스트림 bst를 수신하고, 먼저 모드 인덱스

를 추출한다. 이러한 인덱스는 디코딩 모듈들 및 스위치(509)의 동작을 제어한다. 인덱스

가 CELP 프레임을 표시하는 경우, CELP 디코더(501)가 인에이블되어 CELP 인덱스들

을 디코딩한다. 여기의 재구성

에 의한, 선택적으로 u(n)의 사후 프로세싱, 및 양자화된 합성 필터

의 필터링에 의한 CELP 디코더(501)에 의해 재구성된 신호

는 CELP 디코딩된 신호

를 획득하기 위해 전달함수

를 가지는 필터에 의해 강조해제된다(블록 502). 스위치(509)는 12.8kHz에서 출력 신호

로서 이러한 신호

를 선택한다. 인덱스

가 "순수하게" MDCT 프레임 또는 트랜지션 프레임을 표시하는 경우, MDCT 디코더(503)가 인에이블되며, 후자는 MDCT 인덱스들

를 디코딩한다. 전송된 인덱스들

에 기초하여, 블록(503)은 디코딩된 스펙트럼

,

를 재구성하고, 이후 블록(504)은 신호

를 발견하기 위해 현재 프레임을 재구성한다. 트랜지션 프레임에서, 인덱스들

은 또한 모듈(505)에 의해 디코딩된다. 블록(505)이 도면에서, 트랜지션 프레임에 선행하는 프레임에서 실행하는 디코딩(블록 501)의 Mem으로 마킹된 정보를 사용함을 주목하는 것이 중요하다. 예를 들어, 정보는 마지막 서브프레임의 LPC 및 피치 파라미터들을 포함한다.

따라서, 디코더는 트랜지션 프레임의 제1 부분을 디코딩하기 위해 이전 프레임의 예측 디코딩의 적어도 하나의 파라미터를 재사용한다. 이것은 또한 재사용되지 않은 파라미터들에 대응하는 이러한 제1 부분에 대해 수신된 파라미터들만을 사용한다.

블록(505)의 출력은 제한된 예측 코딩에 의해 재구성된 신호

를 획득하기 위해 전달 함수

를 가지는 필터에 의해 강조해제된다(블록 506). 이러한 프로세싱(블록 505 내지 507)은

라고 마킹된 이전 모드, 다시 말해, 이전 프레임의 디코딩 타입(CELP 또는 MDCT)이 CELP 타입인 경우 수행된다.

트랜지션 프레임에서, 신호들

및

는 블록(507)에 의해 결합되고; 본 발명을 사용하여 인코더로서 전술된 바와 같은, 통상적으로 교차-페이드 동작은, 신호

를 획득하기 위해 프레임의 제1 부분에서 수행된다. "순수하게" MDCT 프레임의 경우, 다시 말해, 현재 및 이전 프레임들이 MDCT에 의해 코딩되는데,

이다. 스위치(509)는 12.8kHz에서의 출력 신호

로서 이러한 신호

를 선택한다. 이후, 16kHz에서 재구성된 신호

은 12.8kHz로부터 16kHz로 오버샘플링함으로써 획득된다(블록 510). 레이트의 이러한 변경이 다중위상(60차)에서 유한 임펄스 응답 필터의 보조를 통해 수행된다는 점이 고려된다.

따라서, 본 발명의 코딩 방법에 따라, 변환 코딩에 의해 코딩되는 현재 프레임의 제1 서브프레임에 대응하는 샘플들은 (일정한 비트 레이트의 경우) 변환 코딩에 대해 이용가능한 비트들의 손상에 대해 제한된 예측 인코더에 의해, 또는 (가변 비트 레이트의 경우) 전송된 비트 레이트를 증가시킴으로써 코딩된다.

도 4a에 예시된 본 발명의 실시예에서, 에일리어싱된 영역은 CELP 재구성 및 MDCT 재구성 사이의 불연속성이 없는 소프트 트랜지션을 제공하는 교차-페이드만을 수행하기 위해 사용된다.

일 변형예에서, 이러한 교차-페이드가 에일리어싱 효과가 가장 덜 중요한 에일리어싱된 영역의 제2 부분 상에서 수행될 수 있다는 점에 유의한다. 비트 레이트를 증가시킴으로써 도 4a에 예시된 이러한 변형예에서, 교차 페이드에 대해 사용된 신호의 일부분이 시간-도메인 에일리어싱에 의해 중단되므로 완전한 재구성에 대한 수렴이 존재하지 않는다.

이러한 낮은 비트 레이트 중단이 완전히 수용가능하고, 일반적으로 낮은 비트 레이트 코딩의 본질적 저하에 대해 거의 비가청적임에도 불구하고, 이러한 변형예는 투명할 수 없다.

또 다른 변형예에서, CELP 프레임(트랜지션 프레임)에 바로 후속하는 MDCT 프레임에서(도 4b에 예시된 경우), 에일리어싱 라인 상의 서브프레임의 중간에서 시작하는 사각형 윈도우를 이용하여, 좌측에 대한 에일리어싱을 가지지 않는 MDCT 변환을 사용하는 것이 가능하다.

도면의 프레임화된 회색 부분에서, 교차-페이드에서 CELP 및 MDCT 컴포넌트들의 가중들에서의 변경이 보여질 수 있다. 트랜지션 프레임의 제1의 2.5ms 동안, 출력은 제한된 예상 코딩의 디코딩된 신호와 동일하고, 이후, CELP 컴포넌트의 가중을 점진적으로 감소시키고, MDCT 윈도우의 정확한 정의의 함수로서 MDCT 컴포넌트의 가중을 증가시킴으로써 후속적인 제2의 2.5ms 동안 트랜지션이 이루어진다. 따라서, 트랜지션은 에일리어싱이 없는 디코딩된 MDCT 신호를 사용함으로써 이루어진다. 따라서, 비트 레이트를 증가시킴으로써 투명한 코딩을 획득하는 것이 가능하다. 그러나, 사각형 윈도우화는 MDCT 코딩 잡음의 존재 시에 블록 효과들을 야기할 수 있다.

도 4c는 좌측에 대한 (시간-도메인 에일리어싱을 가지는) 윈도우의 상승 부분 및 따라서, MDCT 모드에 의해 재구성된 제1의 5밀리초가 5ms의 이러한 제1 서브프레임에서 우측에 대한 에일리어싱을 가지지 않는 부분(1.25ms)을 포함하는 또다른 변형예를 예시한다. 따라서, MDCT 윈도우의 "플랫"(다시 말해, 에일리어싱이 없는 1에서의 상수 값)은 도 4a의 구성과 비교하여 제한된 예측 코딩에 의해 코딩된 서브프레임에서 좌측으로 확장된다.

다시, 도 4c의 프레임화된 회색 부분에서, 이러한 변형예에 대한 교차-페이드에서 CELP 및 MDCT 컴포넌트들의 가중들에서의 변경을 보는 것이 가능하다. 주어진 예에 따라, 제1의 3.75 밀리초 동안, 출력은 제한된 예측 디코딩에 의해 재구성된 신호와 동일하다. 이러한 영역에 대해, MDCT 컴포넌트는, 이것이 사용되지 않으므로 디코딩되지 않아야 한다. 결과적으로, 가중 윈도우의 형상은 이러한 영역에 대해 중요하지 않다. 트랜지션은 점진적으로 CELP 컴포넌트의 가중을 감소시키고 MDCT 컴포넌트의 가중을 증가시킴으로써 마지막 1.25ms 동안 이루어진다. 이러한 방식으로 진행함으로써, 높은 비트 레이트에서의 - 따라서, 양자화 에러 부재시의 - 완벽한 재구성이 보장되는데, 왜냐하면 에일리어싱에 의해 중단된 영역이 교차-페이드에서 발생하지 않기 때문이다. 이들 재구성된 신호들의 교차-페이드는 현재 프레임의 제1 부분의 변환 코딩으로부터 발생하는 재구성된 신호가 시간-도메인 에일리어싱을 포함하지 않는 윈도우의 부분 상에서 수행된다. 도 4b에서 예시되는 것에 비해 이러한 변형예의 장점은, 사각형 부분 없이, 사용되는 윈도우의 더 양호한 스펙트럼 특징 및 블록 효과들의 감소이다.

도 4b의 변형예들이, 좌측에 대한 (시간-도메인 에일리어싱을 가지는) 윈도우의 상승 부분이 0으로 단축되는 도 4c의 변형예의 극단적 경우라는 점에 유의해야 한다. 본 발명의 또다른 변형예에서, 좌측에 대한 (시간-도메인 에일리어싱을 가지는) 윈도우의 상승 부분의 길이가 비트 레이트에 의존하며: 예를 들어, 이것은 비트 레이트에서의 증가를 통해 단축된다. 이러한 경우에 사용되는 교차-페이드의 가중들은 선택된 윈도우에 대해 적응될 수 있다.

도 4a, 4b 및 4c에서, 낮은-지연의 MDCT 윈도우들이 도시되며; 후자는 윈도우의 종단 및 시작에서 제로 값의 선택된 개수의 연속적인 가중 계수들을 포함한다. 본 발명은 통상적인(정현파의) MDCT 가중 윈도우들이 사용되는 경우에 적용한다.

교차-페이드는 선형 가중들을 가지고 위에 주어진 예들에서 도시되었다. 예를 들어, 정현파 함수의 상승 에지와 같은 가중들의 변형예의 명백하게 다른 기능들이 또한 사용될 수 있다. 일반적으로, 다른 컴포넌트의 가중은 항상 전체 2개 가중들이 항상 1과 같도록 선택된다.

또한 MDCT 컴포넌트의 교차-페이드의 가중이 교차-페이드 가중들에 의해 MDCT 합성 가중 윈도우를 곱함으로써, 도시된 모든 변형예들에 대한 트랜지션 프레임의 MDCT 합성 가중 윈도우로 포함될 수 있으며, 이는 따라서 계산 복잡도를 감소시킨다는 점에 유의한다.

이러한 경우, 제한된 예측 코딩 컴포넌트 및 변환 코딩 컴포넌트 사이의 트랜지션이 우선 교차-페이드 가중들에 의해 곱해진 예측 코딩 컴포넌트, 및 두번째로, 따라서, 가중들에 의한 추가적 가중 없이, 획득된 변환 코딩 컴포넌트를 추가함으로써 이루어진다. 또한, 도 4b에 도시된 변형예의 경우, 교차-페이드 가중들의 적분이 분석 가중 윈도우에서 수행될 수 있다. 유리하게는, 교차-페이드 영역이 프레임의 에일리어싱 없는 부분에 완전히 존재하고, 원래의 분석 가중 윈도우가 에일리어싱 영역에 선행하는 샘플들에 대해 제로 값을 가지므로, 도 4b의 변형예에서 이를 수행하는 것이 가능하다.

이러한 접근법은 또한, 이러한 방식으로 분석 가중 윈도우의 스펙트럼 특징들이 선형 가중들을 가지는 삼각 윈도우에 대해 또는 도 4b의 (좌측 상의) 사각형 윈도우에 대해 실질적으로 개선되므로, 정현 교차-페이드의 가중들이 사용되는 경우 더욱 중요하다. 보다 유리하게는, 동일한 윈도우가 저장을 감소시키는 MDCT 분석 및 합성 윈도우로서 사용될 수 있다. 이러한 변형예는 도 4d에 예시된다.

여기서, 트랜지션 분석/합성 가중 윈도우의 상승 부분이 에일리어싱이 없는(에일리어싱 라인 이후) 영역 내에 있다는 점을 알 수 있다. 이러한 상승 부분은 이 경우 정현 사이클의 쿼트로서 정의되며, 따라서, 분석/합성 윈도우의 결합된 영향은 사각 사인파의 형태로 교차-페이드 가중들을 암시적으로 제공한다. 이러한 상승 부분은 MDCT 윈도우화 및 교차 페이드 모두에 대해 제공한다. 제한된 예측 코딩 컴포넌트의 교차-페이드의 가중들은 결합된 분석/합성 가중 윈도우들의 상승 부분에 대해 상보적이며, 따라서, 전체 2개 가중들이 교차-페이드가 수행되는 영역에서 항상 1을 제공한다. 정현 사이클의 쿼터로서 정의된 상승 부분을 가지는 MDCT 분석/합성 윈도우들의 예에 대해, 제한된 예측 코딩 컴포넌트에 대한 교차-페이드의 가중들은 따라서, 사각 코사인파의 형태이다(1 마이너스 사각 사인파). 따라서, 교차-페이드의 가중들은 트랜지션 프레임의 분석 및 합성 가중 윈도우 내로 모두 포함된다. 도 4d에 예시된 변형예는, 교차-페이드가 시간-도메인 에일리어싱이 없는 영역에서 수행되므로, 완벽한 높은 비트 레이트 재구성을 달성하는 것을 가능하게 한다.

본 발명은 또한 MDCT 윈도우들이 비대칭인 경우 및 MDCT 분석 및 합성 윈도우들이 ITU-T 표준 G.718과 동일하지 않은 경우에 적용한다. 이러한 예는 도 4e에 주어진다. 이 예에서, MDCT 트랜지션 윈도우의 좌측(도면의 굵은 라인) 및 교차-페이드의 가중들은 도 4d와 동일하다. 명백하게, 이미 설명된 다른 실시예들에 대응하는 윈도우 및 교차-페이드(예를 들어, 도 4a 내지 4c의 실시예들)는 트랜지션 윈도우의 좌측 부분에서 동일하게 사용될 수 있다.

도 4e에서, 비대칭 MDCT 윈도우들에 대해, 인코더에서, 트랜지션 분석 윈도우의 우측 부분이 정상적으로 사용된 MDCT 분석 윈도우의 우측 부분과 동일하며, 디코더에서, 트랜지션 MDCT 분석 윈도우의 우측 부분이 정상적으로 사용된 MDCT 합성 윈도우의 우측 부분과 동일하다는 점을 알 수 있다. 트랜지션 MDCT 가중 윈도우의 좌측에 대해서와 같이, 도 4a 내지 4d에 이미 도시된 MDCT 트랜지션 윈도우들 중 하나의 좌측 부분이 사용된다(도 4e의 예에서, 도 4d의 해당 부분이 사용된다).

교차-페이드의 가중들은, 전술된 발명의 변형 실시예들에서 설명된 바와 같이(예를 들어, 도 4a 내지 4d), 사용된 윈도우의 함수로서 선택된다.

일반적으로, 본 발명에 따라, 트랜지션 프레임 내의 MDCT 컴포넌트에 대해, 사용된 MDCT 분석 가중 윈도우의 좌측 절반은, (예를 들어, 도 4a 내지 4e의 예들 중 하나에 따라) 이러한 하프-윈도우에 대응하는 영역의 우측 부분이 시간-도메인 에일리어싱을 포함하지 않도록 선택되고, 대응하는 MDCT 합성 가중 윈도우의 좌측 절반은, 분석 및 합성 윈도우들의 결합된 영향 이후, 에일리어싱을 가지지 않는 이러한 영역이 (감쇠를 가지지 않는) 적어도 우측 상에서 1의 가중을 가지도록 선택된다. 도 4a 내지 4e는 이들 기준을 검증하는 분석 및 합성 윈도우들의 쌍들의 예들을 도시한다. 이들 예들에 따라, 트랜지션 MDCT 가중 윈도우의 좌측 절반은 분석 및 합성과 동일하지만, 이는 반드시 발명의 모든 실시예들에 있는 경우는 아니다. 예를 들어, 교차-페이드에서 MDCT 컴포넌트의 가중이 제로인 영역 내의 합성 윈도우의 형상이 이들 샘플들이 사용되지 않을 것이므로 중요하지 않으며; 이것이 심지어 계산되지 않아야 한다는 점에 유의해야 한다. 반면, 교차-페이드의 가중들에서의 분석 및 합성 윈도우들의 기여는 또한 트랜지션 MDCT 가중 윈도우의 좌측 절반 내에 상이한 분석 및 합성 윈도우들을 제공하는 일정하지 않은 방식으로 분포될 수 있다. 트랜지션 분석 및 합성 윈도우들의 우측 절반에 대한 것으로서, 이들은 변환 코딩에 의해서만 코딩되는 영역들 내에서 정상적으로 사용되는 MDCT 가중 윈도우들과 동일하다. (매우 높은 비트 레이트에서) 양자화 에러의 부재 시에 완벽한 재구성을 보장하기 위해, 제한된 예측 디코더에 의해 재구성된 신호 및 변환 디코더에 의해 재구성된 신호는 시간-도메인 에일리어싱을 가지지 않는 영역에서 수행되어야 한다. 분석 및 합성 윈도우들의 결합된 영향은 변환 디코더에 의해 재구성된 컴포넌트의 교차-페이드의 가중들을 암시적으로 적분할 수 있다.

MDCT 코딩에 할당된 비트 레이트에 대한 영향을 제한하기 위해, 이러한 제한된 예측 코딩에 대한 최소의 가능한 비트들을 사용하는 동시에 양호한 품질을 보장하는 것이 중요하다. CELP 및 MDCT를 교번하는 코덱에서, MDCT 모드는, 주파수 도메인에서의 코딩이 시간 도메인에서보다 더 효과적인 거의 고정적인 세그먼트들에서 일반적으로 선택된다. 그러나, 또한 모드 결정이, 고정성 가정이 검증됨을 보장하지 않고, 인코더에 대해 외부적으로 관리되거나 개방 루프에서 취해지는 경우들을 고려하는 것이 가능하다.

ACELP 및 MDCT 모드들 사이의 스위치의 시간에서, 이러한 고정성은 일반적으로 이미 설정되며; 스펙트럼 포락선 변경과 같은 특정 파라미터들이 프레임마다 거의 변경하지 않는다는 점이 가정될 수 있다. 따라서, 신호의 스펙트럼 포락선을 나타내는, 이전 프레임동안 전송되는 양자화된 합성 필터

는 MDCT 코딩을 위한 비트들을 절감하기 위해 재사용될 수 있다. 전송된 마지막 합성 필터는 (코딩될 신호에 가장 가까운) CELP 모드에서 사용된다.

트랜지션 프레임에서 신호를 코딩하기 위해 사용되는 정보는 피치(장기 여기와 연관됨), 여기(또는 이노베이션) 벡터, 및 여기와 연관된 이득(들)이다.

본 발명의 또다른 실시예에서, 마지막 서브프레임과 연관된 이득 및/또는 피치의 디코딩된 값은 또한 이들 파라미터들이 고정식 영역들에서 천천히 변경하므로 재사용될 수 있다. 이는 CELP로부터 MDCT로의 트랜지션동안 전송될 정보의 양을 추가로 감소시킨다.

또한, 변형 실시예에서, 이전 CELP 프레임의 마지막 서브프레임에서 디코딩된 파라미터들에 대한 몇몇 비트들에 대한 차이로서 이들 파라미터들을 양자화하는 것이 가능하다. 이러한 경우, 따라서, 이들 파라미터들에서의 느린 변경을 나타내는 정정만이 코딩된다.

CELP로부터 MDCT로의 트랜지션의 원하는 특징들 중 하나는, 높은 점근적 비트 레이트에서, CELP 및 MDCT 인코더들이 거의 완벽한 재구성을 가지는 경우, 트랜지션 프레임(CELP 프레임에 후속하는 MDCT 프레임)에서 수행되는 코딩이 그 자체가 거의 완벽한 재구성을 갖는다는 것이다. 도 4b 및 4c에 예시된 변형예들은 매우 높은 비트 레이트에서 거의 완벽한 재구성을 제공한다.

품질의 균일성의 목적으로, 제한된 예측 코딩의 이들 파라미터들에 할당된 비트들의 수는 가변적이며 전체 비트 레이트에 비례한다.

한가지 타입의 코딩으로부터 다른 타입으로의 트랜지션의 영향들을 제한하기 위해, 예측 코딩에 의해 코딩된 신호의 부분 및 변환 코딩된 프레임의 나머지(교차-페이드, 변환 컴포넌트에 대해 페이드-인, 예측 컴포넌트에 대해 페이드-아웃) 사이의 점진적 트랜지션이 수행된다. 투명한 품질을 달성하기 위해, 이러한 교차-페이드는 에일리어싱이 없는 MDCT 디코딩된 신호 상에서 수행되어야 한다.

도 4b 및 4c의 변형예들에 추가하여, 추가적인 변형예에서, 높은 비트 레이트에서 가능한 투명성을 보장하기 위해, 좌측에 대한 시간 도메인 에일리어싱이 트랜지션 프레임의 MDCT 윈도우에 대해 사용되지 않도록 MDCT 코딩의 원리가 수정된다. 이러한 변형예는, 시간-도메인 에일리어싱(블록의 사이즈의 감소)이 오직 우측에 대해서만 수행되므로, 에일리어싱된 신호의 길이가 상이하므로 MDCT 변환의 중심에서 DCT 변환의 수정된 버전을 사용하는 것을 수반한다.

본 발명이 MDCT 모드에 의해 코딩되는 (트랜지션 프레임에 대해서를 제외하고) 각각의 프레임에서 동일한 MDCT 분석 및 합성 윈도우들의 간략화된 경우에 대해 도 4a 내지 4d에서 설명된다는 점에 유의해야 한다. 본 발명의 변형예에서, 코딩은 통상적으로 20-40ms의 적어도 하나의 "긴" 윈도우 및 통상적으로 5-10ms의 일련의 짧은 윈도우들 사이의 윈도우들의 스위칭(윈도우 스위칭)을 사용할 수 있다.

또한, CELP/MDCT 모드들의 선택이 최선이 아니며, 트랜지션 프레임에서의 신호의 고정성의 가정이 검증되지 않으며, 마지막 CELP 프레임의 파라미터들(LPC, 피치)의 재사용이 가청적 저하들을 야기할 수 있는 경우, 다른 변형예들이 동일하게 정의된다. 이러한 경우들에 대해, 본 발명은 더 많은 CELP 파라미터들 및/또는 CELP 서브프레임들이 CELP로부터 MDCT로의 트랜지션 프레임에서 계속 코딩되도록 하기 위해, 전술된 방법의 상이한 트랜지션 모드를 표시하기 위해 적어도 하나의 비트의 전송을 제공한다. 예를 들어, 제1 비트는 비트 스트림의 나머지에서, LPC 필터가 코딩되는지 또는 수신된 마지막 버전이 디코더에서 사용될 수 있는지의 여부를 시그널링할 수 있으며, 또다른 비트는 피치의 값에 대해 동일한 것을 시그널링할 수 있다. 파라미터의 인코딩이 필수적인 것으로 가정되는 경우, 이는 마지막 프레임에서 전송되는 값에 대한 차이로서 수행된다.

따라서, 일반적으로, 전술된 실시예들에 따라, 본 발명에 따른 코딩 방법은 도 6a에 도시된 바와 같은 흐름도의 형태로 예시될 수 있다.

코딩될 신호 s(n)에 대해, 단계(E601)에서, 현재 프레임이 변환 코딩에 따라 코딩되며 이전 프레임이 예측 타입의 코딩에 따라 코딩되는 경우 검증이 이루어진다. 따라서, 현재 프레임은 예측 코딩 및 변환 코딩 사이의 트랜지션 코딩이다.

단계(E602)에서, 제한된 예측 코딩은 현재 프레임의 제1 부분에 적용된다. 이러한 예측 코딩은 이전 프레임에 대해 사용되는 예측 코딩에 대해 제한된다.

이러한 제한된 예측 코딩 단계 이후, 신호

이 획득된다.

현재 프레임에 대한 MDCT 코딩은 모든 현재 프레임에 대해 병렬로 단계(E603)에서 수행된다.

이러한 변환 코딩 단계 이후, 신호

가 획득된다.

본 발명에 대해 설명되는 실시예들에 따라, 방법은, 신호들의 재구성 이후, 트랜지션 프레임에서 변환 코딩 및 예측 코딩 사이에 소프트 트랜지션을 수행하게 할 수 있는, 단계(E604)에서의 교차-페이드에 의한 결합 단계를 포함한다. 이 단계 이후, 재구성된 신호

가 획득된다.

유사하게, 일반적으로, 본 발명에 따른 디코딩 방법은 도 6b를 참조하여 예시된다.

디코딩 동안, 이전 프레임이 예측 타입의 디코딩 방법에 따라 디코딩된 경우, 그리고 현재 프레임이 변환 타입의 디코딩 방법에 따라 디코딩될 경우(E605에서의 검증), 디코딩 방법은 (E606)에서, 현재 프레임의 제1 부분의 제한된 예측 디코딩에 의한 디코딩 단계를 포함한다. 이는, 또한 현재 프레임의 (E607)에서의 변환 디코딩 단계를 포함한다.

이어서, 단계(E608)가, 현재 프레임의 일부 또는 모두에 대한 교차-페이드에 의해, 각각 획득된 디코딩된 신호들

및

의 결합을 수행하기 위해, 그리고 따라서 현재 프레임의 디코딩된 신호

를 획득하기 위해, 전술된 실시예들에 따라 수행된다.

최종적으로, 본 발명은 CELP로부터 MDCT로의 트랜지션의 특정 경우에서 제시된다. 이 발명이, CELP 코딩이 MICDA, TCX와 같은 또다른 타입의 코딩에 의해 교체되고, 트랜지션 프레임의 일부에 대한 트랜지션 코딩이 트랜지션 MDCT 프레임에 선행하는 프레임의 코딩으로부터의 정보를 사용함으로써 수행되는 경우에 동등하게 적용된다는 점이 명백하다.

도 7은 본 발명의 일 실시예에 따른 인코더 또는 디코더를 제조하기에 적합한 하드웨어 디바이스를 설명한다.

이러한 디바이스 DISP는, 인코더의 경우 입력 신호

이고, 디코더의 경우 비트 스트림 bst인 디지털 신호 SIG를 수신하기 위한 입력을 포함한다.

디바이스는 또한 입력 E로부터 발생하는 신호에 대해 특히 코딩/디코딩 동작들을 수행하기에 적합한 디지털 신호 프로세서 PROC를 포함한다.

이러한 프로세서는 코딩/디코딩을 위해 디바이스를 구동하기 위해 필수적인 정보를 저장하기에 적합한 하나 이상의 메모리 유닛들 MEM에 접속된다. 예를 들어, 이들 메모리 유닛들은, 특히 예측 코딩에 따라 디지털 신호의 샘플들의 이전 프레임의 코딩 단계, 및 변환 코딩에 따라 디지털 신호의 샘플들의 현재 프레임의 코딩 단계를 적용하기 위한 전술된 코딩 방법의 적용을 위한 명령들을 포함하고, 따라서, 현재 프레임의 제1 부분은 디바이스가 인코더 타입인 경우 이전 프레임의 예측 코딩에 대해 제한되는 예측 코딩에 의해 코딩된다.

디바이스가 디코더 타입인 경우, 이들 메모리 유닛들은, 특히, 예측 코딩에 따라 수신 및 코딩된 디지털 신호의 샘플들의 이전 프레임의 예측 디코딩 단계, 변환 코딩에 따라 수신 및 코딩된 디지털 신호의 샘플들의 현재 프레임의 역변환 디코딩 단계, 및 또한 현재 프레임의 제1 부분의 이전 프레임의 예측 디코딩에 대해 제한되는 예측 디코딩에 의한 디코딩 단계를 적용하기 위한 전술된 디코딩 방법의 적용을 위한 명령들을 포함한다.

이들 메모리 유닛들은 또한 계산 파라미터들 또는 다른 정보를 포함할 수 있다.

더 일반적으로, 선택적으로는 이동식인, 인코더 또는 디코더에 통합될 수 있거나 통합되지 않을 수 있는 프로세서에 의해 판독될 수 있는 저장 수단은 본 발명에 따른 코딩 방법 및/또는 디코딩 방법을 적용하는 컴퓨터 프로그램을 저장한다. 도 6a 및 6b는 예를 들어, 이러한 컴퓨터 프로그램의 알고리즘을 예시할 수 있다.

프로세서는 또한 이들 메모리 유닛들에 결과들을 저장하기에 적합하다. 마지막으로, 디바이스는, 인코더의 경우 비트 스트림 bst 및 디코더의 경우 출력 신호

의 형태의 신호인 출력 신호 SIG*를 제공하기 위해 프로세서에 접속된 출력 S를 포함한다.

Claims

디지털 사운드 신호를 코딩하기 위한 방법으로서,
- 예측 코딩에 따라 상기 디지털 신호의 샘플들의 이전 프레임을 코딩하는 단계(E601);
- 변환 코딩에 따라 상기 디지털 신호의 샘플들의 현재 프레임을 코딩하는 단계(E603)를 포함하고,
상기 현재 프레임의 제1 부분이, 상기 이전 프레임의 예측 코딩의 적어도 하나의 파라미터를 재사용하고 상기 현재 프레임의 이러한 제1 부분의 재사용되지 않은 파라미터들만을 코딩함으로써, 상기 이전 프레임의 예측 코딩에 대해 제한된 예측 코딩에 의해 코딩(E602)되는,
디지털 사운드 신호를 코딩하기 위한 방법.
제 1 항에 있어서,
상기 제한된 예측 코딩은 예측 코딩의 상기 이전 프레임으로부터 카피된 예측 필터를 사용하는,
디지털 사운드 신호를 코딩하기 위한 방법.
제 2 항에 있어서,
상기 제한된 예측 코딩은 또한 예측 코딩의 상기 이전 프레임의 피치 및/또는 피치의 연관된 이득의 디코딩된 값을 사용하는,
디지털 사운드 신호를 코딩하기 위한 방법.
제 1 항에 있어서,
상기 제한된 예측 코딩에 대해 사용되는 예측 코딩의 특정 파라미터들이 예측 코딩의 상기 이전 프레임의 디코딩된 파라미터들에 대해 차동 모드로 양자화되는,
디지털 사운드 신호를 코딩하기 위한 방법.
제 1 항에 있어서,
상기 방법은 상기 현재 프레임의 제1 부분의 예측 및 변환 로컬 코딩들 및 디코딩들로부터 발생되는 재구성된 신호들을 획득하고, 이들 재구성된 신호들의 교차-페이드에 의해 결합하는 단계(E604)를 포함하는,
디지털 사운드 신호를 코딩하기 위한 방법.
제 5 항에 있어서,
상기 재구성된 신호들의 상기 교차-페이드는 상기 변환 코딩의 윈도우의 형상의 함수로서 상기 현재 프레임의 제1 부분의 일부분 상에서 수행되는,
디지털 사운드 신호를 코딩하기 위한 방법.
제 5 항에 있어서,
상기 재구성된 신호들의 상기 교차-페이드는 상기 현재 프레임의 제1 부분의 일부분 상에서 수행되고, 상기 일부분은 시간-도메인 에일리어싱을 포함하지 않는,
디지털 사운드 신호를 코딩하기 위한 방법.
제 1 항에 있어서,
상기 변환 코딩은 상기 윈도우의 종단 및 시작에서 제로 값의 선택된 개수의 연속적인 가중 계수들을 포함하는 가중 윈도우를 사용하는,
디지털 사운드 신호를 코딩하기 위한 방법.
제 1 항에 있어서,
상기 변환 코딩은 상기 윈도우의 적어도 하나의 종단에서 제로 값의 선택된 개수의 연속적인 가중 계수들을 포함하는 비대칭 가중 윈도우를 사용하는,
디지털 사운드 신호를 코딩하기 위한 방법.
디지털 사운드 신호를 디코딩하기 위한 방법으로서,
- 예측 코딩에 따라 수신되고 코딩된 상기 디지털 신호의 샘플들의 이전 프레임을 예측 디코딩하는 단계(E605);
- 변환 코딩에 따라 수신되고 코딩된 상기 디지털 신호의 샘플들의 현재 프레임을 역변환의 코딩하는 단계(E607)를 포함하고,
상기 방법은 또한, 상기 이전 프레임의 예측 디코딩의 적어도 하나의 파라미터를 재사용하고 상기 현재 프레임의 제1 부분에 대해 수신된 파라미터들만을 디코딩함으로써, 제한된 예측 디코딩에 따라 수신 및 코딩된 현재 프레임의 제1 부분의 상기 이전 프레임의 예측 디코딩에 대해 제한된 예측 디코딩에 의해 디코딩하는 단계(E606)를 포함하는,
디지털 사운드 신호를 디코딩하기 위한 방법.
제 10 항에 있어서,
상기 방법은 상기 현재 프레임의 제1 부분의 적어도 한 부분에 대한 제한된 예측 디코딩 및 역변환에 의해 디코딩된 신호들을 교차-페이드에 의해 결합하는 단계(E608)를 포함하는,
디지털 사운드 신호를 디코딩하기 위한 방법.
제 10 항에 있어서,
상기 제한된 예측 디코딩은 상기 이전 프레임의 예측 디코딩에 의해 디코딩되고 사용되는 예측 필터를 사용하는,
디지털 사운드 신호를 디코딩하기 위한 방법.
제 12 항에 있어서,
상기 제한된 예측 디코딩은 또한 상기 이전 프레임의 예측 디코딩의 피치 및/또는 피치의 연관된 이득의 디코딩된 값을 사용하는,
디지털 사운드 신호를 디코딩하기 위한 방법.
디지털 사운드 신호 인코더로서,
- 디지털 신호의 샘플들의 이전 프레임을 코딩하기 위한 예측 코딩 모듈(211);
- 상기 디지털 신호의 샘플들의 현재 프레임을 코딩하기 위한 변환 코딩 모듈(221)을 포함하고,
상기 인코더는 또한, 상기 이전 프레임의 예측 코딩의 적어도 하나의 파라미터를 재사용하고, 상기 현재 프레임의 제1 부분의 재사용되지 않은 파라미터들만을 코딩함으로써, 상기 현재 프레임의 이러한 제1 부분을 코딩하기 위해 상기 이전 프레임의 예측 코딩에 대해 제한되는 예측 코딩 모듈(231)을 포함하는,
디지털 사운드 신호 인코더.
디지털 사운드 신호 디코더로서,
- 예측 코딩에 따라 수신 및 코딩된 디지털 신호의 샘플들의 이전 프레임을 디코딩하기 위한 예측 디코딩 모듈(501);
- 변환 코딩에 따라 수신 및 코딩된 상기 디지털 신호의 샘플들의 현재 프레임을 디코딩하기 위한 역변환 디코딩 모듈(503)을 포함하고,
상기 디코더는 또한, 상기 이전 프레임의 예측 디코딩의 적어도 하나의 파라미터를 재사용하고, 상기 현재 프레임의 제1 부분에 대해 수신된 파라미터들만을 디코딩함으로써, 제한된 예측 코딩에 따라 수신 및 코딩된 현재 프레임의 이러한 제1 부분을 디코딩하기 위해 상기 이전 프레임의 예측 디코딩에 대해 제한되는 예측 디코딩 모듈(505)을 포함하는,
디지털 사운드 신호 디코더.
코드 명령들을 포함하는 컴퓨터 프로그램으로서,
상기 코드 명령들은, 이들 명령들이 프로세서에 의해 실행될 때, 제 1 항 내지 제 9 항 중 어느 한 항에서 청구된 바와 같은 코딩 방법 및/또는 제 10 항 내지 제 13 항 중 어느 한 항에서 청구된 바와 같은 디코딩 방법의 단계들을 구현하는,
컴퓨터 프로그램.