KR102289004B1

KR102289004B1 - 변환 코딩/디코딩으로부터 예측 코딩/디코딩으로의 천이

Info

Publication number: KR102289004B1
Application number: KR1020167014550A
Authority: KR
Inventors: 줄리엔 파우레; 스테파니 라고트
Original assignee: 오렌지
Priority date: 2013-11-15
Filing date: 2014-11-14
Publication date: 2021-08-10
Also published as: WO2015071613A3; EP3069340B1; BR112016010522A2; FR3013496A1; CN105723457B; BR112016010522B1; KR102388687B1; MX2016006253A; MX353104B; US20160293173A1; ES2651988T3; EP3069340A2; CN105723457A; WO2015071613A2; JP2017501432A; JP6568850B2; RU2016123462A; RU2675216C1; US9984696B2; KR20210077807A

Abstract

본 발명은, 수신되어 변환 코딩에 따라 코딩되는, 디지털 신호의 샘플들의 이전 프레임을 역 변환 디코딩에 따라 디코딩하는 단계(E602), 수신되어 예측 코딩에 따라 코딩되는, 디지털 신호의 샘플들의 현재 프레임을 예측 디코딩에 따라 디코딩하는 단계(E608)를 포함하는, 디지털 오디오 신호를 디코딩하는 방법에 관한 것이다. 현재 프레임의 예측 디코딩은 이전 프레임에서 발생한 임의의 적응적 딕셔너리를 사용하지 않는 천이 예측 디코딩이며, 방법은, 예측 디코딩의 적어도 하나의 상태를 기결정된 디폴트 값으로 재초기화하는 단계(E606), 현재 프레임의 예측 디코딩에 의해 합성되는 신호 세그먼트와, 이전 프레임의 디코딩의 저장된 세그먼트에 대응하는, 역 변환 디코딩에 의해 합성되는 신호 세그먼트를 결합하는 중첩-가산 단계(E609)를 추가로 포함한다. 본 발명은 예측 코딩의 적어도 하나의 상태를 기결정된 디폴트 값으로 재초기화하는 단계를 포함하는 코딩 방법에 상관적으로 관련된다. 이는 각각의 방법들을 실시하는 코더 및 디코더에 관련된다.

Description

변환 코딩/디코딩으로부터 예측 코딩/디코딩으로의 천이{TRANSITION FROM A TRANSFORM CODING/DECODING TO A PREDICTIVE CODING/DECODING}

본 발명은 디지털 신호의 코딩 분야에 관한 것이다.

본 발명에 따른 코딩은 특히 오디오 주파수 신호(음성, 음악, 또는 기타 등등)와 같은 디지털 오디오 신호의 전송 및/또는 저장을 위해 적응된다.

본 발명은 유리하게는 적어도 2개의 코딩 모드를 교번하는 멀티-모드 기법을 통해 음성, 음악, 및 혼합 컨텐츠 신호의 통합 코딩에 적용되되, 그 알고리즘 지연이 대화형 응용을 위해 적응된다(통상적으로, 40 ms 이하).

언어음을 효과적으로 코딩하기 위해, "코드 여기 선형 예측(CELP)" 타입 또는 그 변형인 "대수 코드 여기 선형 예측(ACELP)"의 기법이 주창되고, BV16, BV32, iLBC, 또는 SILK 코더와 같은 CELP 코딩의 대안들이 더 최근에 제안되었다. 다른 한편으로, 악음을 효과적으로 코딩하기 위해, 변환 코딩 기법이 주창된다.

선형 예측 코더, 특히 CELP 타입의 선형 예측 코더는 예측 코더이다. 예측 코더의 목적은, 성도를 모델링하는 단기 선형 예측, 유성 주기에 성대의 진동을 모델링하는 장기 선형 예측, 및 예측에 의해 모델링하는 것이 가능하지 않았던 "이노베이션"을 나타내기 위해 일반적으로 고정적 딕셔너리로 지칭되는 벡터 양자화 딕셔너리로부터 유래되는 여기(백색 잡음, 대수 여기)와 같은 요소들 중 적어도 일부에 기반하여 음성의 발생을 모델링하는 것이다.

가장 많이 사용되는 변환 코더(예컨대, MPEG AAC 또는 ITU-T G.722.1 부록 C 코더)는 변환 영역에서 신호를 압축하기 위해 "변형 이산 변환(MDCT)" 타입의 임계-샘플링 변환을 사용한다. "임계-샘플링 변환"은 변환 영역 내의 계수들의 수가 분석되는 시간적 샘플들의 수에 상응하는 변환을 가리킨다.

이러한 두 가지 타입의 컨텐츠를 포함하는 신호를 효과적으로 코딩하기 위한 해결방안은 최상의 기법을 시간의 경과에 따라 (프레임 단위로) 선택하는 데에 있다. 이러한 해결방안은 특히 AMR WB+(또는 향상된 AMR WB)로 지칭되는 기법을 통해 "3세대 파트너쉽 프로젝트(3GPP)" 표준화 기구에 의해 및 더 최근에는 MPEG-H "통합 음성 오디오 코딩(USAC)" 코덱에 의해 주창되었다. AMR-WB+ 및 USAC에 의해 구상되는 응용은 대화형이 아니라, 알고리즘 지연 상의 심한 제약 없이, 방송 및 저장 서비스에 대응한다.

USAC 표준은 ISO/IEC 문헌 23003-3:2012(Information technology -- MPEG audio technologies -- Part 3: Unified speech and audio coding)에 공개되어 있다.

예시를 통해, 참조 모델 0(RM0)으로 지칭되는 USAC 코덱의 초기 버전은 M. Neuendorf 등의 논문(A Novel Scheme for Low Bitrate Unified Speech and Audio Coding - MPEG RM0, 7-10 May 2009, 126th AES Convention)에 기재되어 있다. 이러한 코덱은 적어도 2개의 코딩 모드를 교번한다:

- 음성 타입의 신호에 대해: ACELP 기법을 이용한 "선형 예측 영역(LPD)" 모드,

- 음악 타입의 신호에 대해: "변형 이산 변환(MDCT)" 기법을 이용한 "주파수 영역(FD)" 모드.

ACELP 및 MDCT 코딩의 원리를 이하에 기술한다.

한편으로, CELP 코딩-그 ACELP 변형을 비롯하여-은 소스-필터 모델에 기반한 예측 코딩이다. 일반적으로, 필터는 선형 예측(선형 예측 코딩의 LPC)에 의해 획득되는 전달 함수(

)를 갖는 올-폴(all-pole) 필터에 대응한다. 실제로, 합성은 필터(

)의 양자화 버전(

)을 사용한다. 소스-즉, 예측 선형 필터(

)의 여기-는 일반적으로 성대의 진동을 모델링하는 장기 예측에 의해 획득되는 여기, 및 잡음 딕셔너리 등의 대수 코드(ACELP) 형태로 기술되는 확률 여기(또는 이노베이션)의 조합이다. "최적의" 여기에 대한 탐색은 일반적으로 형식(

)의 선형 예측 필터(

)로부터 유래되는 전달 함수(

)를 갖는 필터에 의해 가중되는 신호의 영역에서 이차 오차 기준의 최소화에 의해 수행된다. CELP 모델의 다수의 변형이 제안되었고, UIT-T G.718 표준의 CELP 코딩의 예가 이에 유지될 것이며, 여기서 2개의 LPC 필터가 프레임마다 양자화되며, LPC 여기가 분류의 함수로서 코딩되되, 모드들이 유성, 무성, 과도 음향 등을 위해 적응된다는 것을 주목한다. 또한, 여전히 선형 예측에 기반하는 BV16, BV32, iLBC, 또는 SILK 코더를 비롯한 CELP 코딩의 대안들도 제안되었다. 일반적으로, CELP 코딩을 비롯한 예측 코딩은 이력 및 다른 이유로(광대역 선형 예측 한계, 고주파수의 알고리즘 복잡도 등) 제한된 샘플링 주파수(16 kHz 이하)에서 동작한다; 그러므로, 통상적으로 16 내지 48 kHz의 주파수로 동작하기 위해, (FIR 필터, 필터 뱅크, 또는 IIR 필터에 의한) 리샘플링 동작을 또한 사용하며, 선택적으로 파라메트릭 대역 연장일 수 있는 고대역을 위한 별개의 코딩을 사용하는데-이러한 리샘플링 및 고대역 코딩 동작은 이에 검토되지 않는다.

다른 한편으로, MDCT 변환 코딩은 코더에서 3단계로 나누어진다:

1. 2개의 블록에 대응하는 길이에 걸쳐 여기서 "MDCT 윈도우"로 지칭되는 윈도우에 의한 신호의 가중,

2. (2로 나누어진 길이의) 감소된 블록을 형성하기 위한 시간적 에일리어싱(또는 "시간-영역 에일리어싱"),

3. 감소된 블록의 "이산 코사인 변환(DCT)"-IV 변환.

TDAC 변환 타입의 계산 변형예들은 DCT 변환 대신에 예컨대 푸리에 변환(FFT)을 사용할 수 있다는 것을 주목한다.

MDCT 윈도우는 일반적으로 "쿼터"로 지칭되는 동일한 길이의 4개의 인접 부분으로 나누어진다.

신호를 분석 윈도우와 곱한 후, 에일리어싱을 수행한다: 제1 쿼터(윈도윙됨)는 제2 쿼터 상에 에일리어싱되고(즉, 시간 역전 및 중첩됨), 제4 쿼터는 제3 쿼터 상에 에일리어싱된다.

보다 정확하게는, 하나의 쿼터를 다른 쿼터 상에 에일리어싱하는 것은 하기 방식으로 수행된다: 제1 쿼터의 최종 샘플이 제2 쿼터의 제1 샘플에 가산(또는 감산)될 때까지, 제1 쿼터의 제1 샘플이 제2 쿼터의 최종 샘플에 가산(또는 감산)되고, 제1 쿼터의 제2 샘플이 제2 쿼터의 끝에서 두 번째 샘플에 가산(또는 감산)되는 식이다.

그러므로, 4개의 쿼터로부터 2개의 에일리어싱된 쿼터가 획득되는데, 여기서 각각의 샘플은 코딩될 신호의 2개의 샘플의 선형 조합의 결과이다. 이러한 선형 조합은 시간적 에일리어싱으로 지칭된다. 시간적 에일리어싱은 2개의 시간적 세그먼트의 혼합에 대응하며, 각각의 "에일리어싱된 쿼터" 내의 2개의 시간적 세그먼트의 상대 레벨은 분석/합성 윈도우에 따라 좌우된다는 것을 주목한다.

이후, 이러한 2개의 에일리어싱된 쿼터는 DCT 변환 후에 함께 코딩된다. 하기 프레임에 대해, 절반 윈도우의 시프트가 있고(즉, 50% 중첩), 이전 프레임의 제3 및 제4 쿼터는 현재 프레임의 제1 및 제2 쿼터가 된다. 에일리어싱 후에, 이전 프레임에서와 같이 동일한 샘플 쌍의 제2 선형 조합이 그러나 상이한 가중치를 가지고 디스패치된다.

따라서, 디코더에서, 역 DCT 변환 후에, 이러한 에일리어싱된 신호들의 디코딩된 버전을 획득한다. 2개의 연속 프레임은 2개의 동일한 쿼터의 2개의 상이한 에일리어싱의 결과를 포함한다. 즉, 각각의 샘플 쌍에 대해, 상이하지만 알려져 있는 가중치를 갖는 2개의 선형 조합의 결과를 갖게 된다: 그러므로, 입력 신호의 디코딩된 버전을 획득하기 위해 방정식 시스템을 풀고, 그에 따라 2개의 연속 디코딩된 프레임을 사용함으로써 시간적 에일리어싱을 생략할 수 있다.

언급된 방정식 시스템들은 일반적으로 디-에일리어싱, 신중히 선택된 합성 윈도우와의 곱셈, 및 이후 공통 부분들의 중첩-가산에 의해 풀린다. 이러한 중첩-가산은 동시에 (양자화 오차로 인한 불연속 없이) 2개의 연속 디코딩된 프레임 사이의 원활한 천이를 보장한다. 실제로 이러한 동작은 크로스페이드와 같이 작용한다. 제1 쿼터 또는 제4 쿼터를 위한 윈도우가 각각의 샘플에 대해 0일 때, 혹자는 윈도우의 이러한 부분에서 시간적 에일리어싱 없이 MDCT 변환을 말한다. 이 경우, 원활한 천이가 MDCT 변환에 의해 보장되지 않고, 이는 예컨대 외부 크로스페이드와 같은 다른 수단에 의해 이행되어야 한다.

G.722.1 코딩을 비롯한 G.722.1의 부록 C에서 복합 실시에 의해 예시된 바와 같이, (MDCT 타입의 코딩을 비롯한) 변환 코딩은 이론적으로 다양한 입출력 샘플링 주파수들에 쉽게 적응될 수 있다; 그러나 선택적으로 파라메트릭 대역 연장일 수 있는 고대역의 별개의 코딩과 함께, (FIR 필터, 필터 뱅크, 또는 IIR 필터에 의한) 리샘플링을 갖는 전/후-처리 동작을 갖는 변환 코딩을 사용하는 것이 가능할 수 있다-이러한 리샘플링 및 고대역 코딩 동작은 이에 검토되지 않지만, 3GPP e-AAC+ 코더는 이와 같은 조합(리샘플링, 저대역 변환 코딩, 및 대역 연장)의 예시적인 구현예를 제공한다.

다양한 모드들(시간적 LPD에 기반한 선형 예측, 주파수 FD에 기반한 변환)에 의해 코딩되는 음향 대역은 비트레이트 및 선택되는 모드에 따라 달라질 수 있음을 이해해야 한다. 아울러, 모드 결정은 각각의 프레임에 대해 개루프로 수행될 수 있다. 즉, 결정은 유효한 관찰 및 데이터의 함수로서 선험적으로 수행되거나, 또는 AMR-WB+ 코딩에서와 같이 폐루프로 수행된다.

적어도 2개의 코딩 모드를 사용하는 코덱에서, FD 및 LPD 모드가 상이한 종류임을 인식하면서(하나는 신호의 주파수 영역 내의 변환 코딩에 의존하는 반면, 다른 하나는 각각의 프레임에서 업데이트되는 필터 메모리를 갖는 (시간적) 예측 선형 코딩을 사용함), LPD 및 FD 모드 사이의 천이는 전환 결함 없이 충분한 품질을 보장하는 데에 중요하다. USAC RM0 코덱에 대응하는 모드간 전환을 관리하는 예가 J. Lecomte 등의 논문("Efficient cross-fade windows for transitions between LPC-based and non-LPC based audio coding", 7-10 May 2009, 126th AES Convention)에 상세히 기재되어 있다. 이 논문에 설명된 바와 같이, 주된 어려움은 LPD 모드로부터 FD모드로의 및 그 반대로의 천이에 있다.

FD 타입의 코어와 LPD 타입의 코어 사이의 천이의 문제를 다루기 위해, (도 1에 도시된) 특허출원공개번호 WO2013/016262는 프레임(m)을 코딩하는 FD 타입의 코더 및 디코더(140)의 합성을 이용함으로써 프레임(m+1)을 코딩하는 LPD 타입의 코덱(130)의 필터들의 메모리들을 업데이트하되, 메모리들의 업데이트는 FD 타입의 프레임들의 코딩 중에만 필요한 것을 제안한다. 따라서, 이러한 기법은 110에서의 코딩 모드의 선택 및 (150에서의) FD로부터 LPD 타입으로의 코딩의 토글링 중에 천이 결함(아티팩트) 없이 이렇게 하는 것을 가능하게 하는데, 이는 LPD 기법으로 프레임을 코딩할 때 CELP(LPD) 코더의 메모리들(또는 상태들)이 프레임(m)의 재구성된 신호(

)에 기반하여 발생기(160)에 의해 이미 업데이트 되었기 때문이다. 2개의 코어(FD 및 LDP)가 동일한 샘플링 주파수에서 동작하지 않는 경우, 특허출원 WO2013/016262에 기재된 기법은 FD 타입의 코더의 메모리들을 리샘플링하는 단계를 제안한다.

이러한 기법의 단점은 한편으론 코더에서 디코딩된 신호에 대한 액세스를 갖는 것을 필요하게 하고, 그에 따라 코더 내의 국부 합성을 강제하는 것을 필요하게 한다는 것이다. 다른 한편으론, 이는 FD 타입의 코딩 및 디코딩 중에 (가능하게는 리샘플링 단계를 포함하는) 필터들의 메모리들을 업데이트하는 동작, 및 FD 타입의 이전 프레임 내의 CELP 타입의 분석/코딩의 수행에 이르는 일련의 동작을 수행하는 것을 필요하게 한다. 이러한 동작들은 복잡할 수 있고, LPD 타입의 천이 프레임에서 코딩하거나/디코딩하는 종래의 동작들과 중첩되어, "멀티-모드" 코딩 복잡도 스파이크를 야기한다.

그러므로, 음성과 음악의 교번을 나타내는 오디오 코딩의 대화형 응용을 위해 준비된 코더들 또는 디코더들의 복잡도의 증가를 요구하지 않는, 변환 코딩 또는 디코딩과 예측 코딩 또는 디코딩 사이의 효과적인 천이를 달성할 필요성이 존재한다.

본 발명은 상황을 개선한다. 이러한 목적을 위해, 본 발명은:

- 수신되어 변환 코딩에 따라 코딩되는, 디지털 신호의 샘플들의 이전 프레임을 역 변환 디코딩에 따라 디코딩하는 단계;

- 수신되어 예측 코딩에 따라 코딩되는, 디지털 신호의 샘플들의 현재 프레임을 예측 디코딩에 따라 디코딩하는 단계를 포함하는, 디지털 오디오 신호를 디코딩하는 방법을 제안한다. 방법은 현재 프레임의 예측 디코딩이 이전 프레임에서 발생한 임의의 적응적 딕셔너리를 사용하지 않는 천이 예측 디코딩이 되게 하며,

- 예측 디코딩의 적어도 하나의 상태를 기결정된 디폴트 값으로 재초기화하는 단계;

- 현재 프레임의 예측 디코딩에 의해 합성되는 신호 세그먼트와, 이전 프레임의 디코딩의 저장된 세그먼트에 대응하는, 역 변환 디코딩에 의해 합성되는 신호 세그먼트를 결합하는 중첩-가산 단계를 추가로 포함한다.

그러므로, 상태들의 재초기화는 이전 프레임의 디코딩된 신호의 필요성 없이 수행되며, 이는 기결정된 또는 0 상수 값을 통해 매우 간단한 방식으로 수행된다. 따라서, 디코더의 복잡도는 분석 또는 다른 계산을 요구하는 상태 메모리들을 업데이트하기 위한 기법들에 비해 감소한다. 이후, 링크를 이전 프레임과 연결하는 것을 가능하게 하는 중첩-가산 단계의 실시에 의해, 천이 아티팩트를 방지한다.

천이 예측 디코딩에 의하면, 적응적 딕셔너리가 사용되지 않기 때문에, 이러한 현재 프레임을 위해 적응적 딕셔너리의 메모리들을 재초기화하는 것이 필요하지 않다. 이는 천이의 실시를 추가로 단순화한다.

특정 구현예에서, 역 변환 디코딩은 예측 디코딩보다 작은 처리 지연을 가지며, 예측 디코딩에 의해 디코딩되는 현재 프레임의 제1 세그먼트는 이전 프레임의 디코딩 중 메모리 내의 배치 및 지연 시프트에 대응하는 이전 프레임의 디코딩에서 발생한 세그먼트로 대체된다.

이는 유리하게는 천이의 품질을 개선하기 위해 이러한 지연 시프트를 사용하는 것을 가능하게 한다.

특정 구현예에서, 역 변환 디코딩에 의해 합성되는 신호 세그먼트는 세그먼트에 사전 적용된 윈도윙을 보상하는 역 윈도우의 적용에 의해 중첩-가산 단계 전에 정정된다.

따라서, 디코딩된 현재 프레임은 원신호의 에너지에 가까운 에너지를 가진다.

변형 구현예에서, 역 변환 디코딩에 의해 합성되는 신호 세그먼트는 현재 프레임의 디코딩된 신호 세그먼트에 대응하는 샘플링 주파수에서 사전에 리샘플링된다.

이는 변환 디코딩의 샘플링 주파수가 예측 디코딩의 샘플링 주파수와 상이한 경우에 결함 없이 천이를 수행하는 것을 가능하게 한다.

본 발명의 일 구현예에서, 예측 디코딩의 상태는:

- 예측 디코딩의 내부 주파수에서 리샘플링하기 위한 필터의 상태 메모리;

- 프리-엠퍼시스/디-엠퍼시스 필터들의 상태 메모리들;

- 선형 예측 필터의 계수들;

- (미리 강조된 영역 내의) 합성 필터의 상태 메모리;

- 적응적 딕셔너리의 메모리(과거 여기);

- 저주파수 포스트-필터(LPF)의 상태 메모리;

- 고정적 딕셔너리 이득을 위한 양자화 메모리와 같은 상태들의 리스트에 있다.

이러한 상태들은 예측 디코딩을 실시하는 데에 사용된다. 이러한 상태들의 대부분은 0 값 또는 기결정된 상수 값으로 재초기화되고, 그로 인해 이러한 단계의 실시를 추가로 단순화한다. 그러나, 이러한 리스트는 완전한 것이 아니며, 다른 상태가 이 재초기화 단계에서 매우 명백히 고려될 수 있다.

본 발명의 특정 구현예에서, 현재 프레임을 위한 선형 예측 필터의 계수들의 계산은 고유 필터의 계수들을 디코딩함으로써, 및 프레임-끝, -중간, 및 -시작 선형 예측 필터에 동일한 계수들을 할당함으로써 수행된다.

실제로, 선형 예측 필터의 계수들은 재초기화되었으므로, 프레임-시작 계수들은 알려져 있지 않다. 이후, 디코딩된 값들은 완전한 프레임을 위한 선형 예측 필터의 계수들을 획득하는 데에 사용된다. 그러므로, 이는 간단한 방식으로 그러나 디코딩된 오디오 신호에 상당한 열화를 초래함 없이 수행된다.

변형 구현예에서, 현재 프레임을 위한 선형 예측 필터의 계수들의 계산은:

- 프레임-끝 필터의 계수들의 디코딩된 값들 및 프레임-시작 필터의 계수들의 기결정된 재초기화 값을 사용함으로써 프레임-중간 필터의 계수들의 디코딩된 값들을 판단하는 단계;

- 프레임-시작 필터의 계수들의 디코딩된 값들을 프레임-중간 필터의 계수들의 디코딩된 값들로 대체하는 단계;

- 프레임-끝, -중간, 및 -시작 필터의 계수들의 그에 따라 디코딩되는 값들을 사용함으로써 현재 프레임을 위한 선형 예측 필터의 계수들을 판단하는 단계를 포함한다.

따라서, 프레임-중간 필터에 대응하는 계수들은 더 낮은 오차로 디코딩된다.

다른 변형 구현예에서, 프레임-시작 선형 예측 필터의 계수들은 장기 예측 필터 계수들의 평균 값에 대응하는 기결정된 값으로 재초기화되고, 현재 프레임을 위한 선형 예측 계수들은 그에 따라 기결정되는 값들 및 프레임-끝 필터의 계수들의 디코딩된 값들을 사용함으로써 판단된다.

그러므로, 프레임-시작 계수들은 기결정된 값과 함께 알려져 있는 것으로 간주된다. 이는 더 정확한 방식으로 완전한 프레임의 계수들을 검색하는 것과 더 신속하게 예측 디코딩을 안정화하는 것을 가능하게 한다.

가능한 구현예에서, 기결정된 디폴트 값은 디코딩될 프레임의 타입에 따라 좌우된다.

따라서, 디코딩은 디코딩될 신호에 잘 적응된다.

본 발명은 또한:

- 변환 코딩에 따라 디지털 신호의 샘플들의 이전 프레임을 코딩하는 단계;

- 예측 코딩에 따라 코딩될 디지털 신호의 샘플들의 현재 프레임을 수신하는 단계를 포함하는, 디지털 오디오 신호를 코딩하는 방법에 관한 것이다. 방법은 현재 프레임의 예측 코딩이 이전 프레임에서 발생한 임의의 적응적 딕셔너리를 사용하지 않는 천이 예측 코딩이 되게 하며,

- 예측 코딩의 적어도 하나의 상태를 기결정된 디폴트 값에 의해 재초기화하는 단계를 추가로 포함한다.

그러므로, 상태들의 재초기화는 이전 프레임의 신호의 재구성 및 그에 따른 국부 디코딩의 필요성 없이 수행된다. 이는 기결정된 또는 0 상수 값을 통해 매우 간단한 방식으로 수행된다. 따라서, 코딩의 복잡도는 분석 또는 다른 계산을 요구하는 상태 메모리들을 업데이트하기 위한 기법들에 비해 감소한다.

천이 예측 코딩에 의하면, 적응적 딕셔너리가 사용되지 않기 때문에, 이러한 현재 프레임을 위해 적응적 딕셔너리의 메모리들을 재초기화하는 것이 필요하지 않다. 이는 천이의 실시를 추가로 단순화한다.

특정 구현예에서, 선형 예측 필터의 계수들은 예측 코딩의 적어도 하나의 상태의 일부를 형성하며, 현재 프레임을 위한 선형 예측 필터의 계수들의 계산은 프레임 중간 또는 끝의 단일 예측 필터의 계수들의 코딩된 값들의 판단, 및 프레임-시작 및 프레임-끝 또는 중간 예측 필터의 계수들을 위한 동일한 코딩된 값들의 할당의 판단에 의해 수행된다.

실제로, 선형 예측 필터의 계수들이 재초기화되었으므로, 프레임-시작 계수들은 알려져 있지 않다. 이후, 코딩된 값들은 완전한 프레임을 위한 선형 예측 필터의 계수들을 획득하는 데에 사용된다. 그러므로, 이는 간단한 방식으로 그러나 코딩된 음성 신호에 상당한 열화를 초래함 없이 수행된다.

따라서, 유리하게는, 예측 코딩의 적어도 하나의 상태는 직접적인 방식으로 코딩된다.

실제로, 프레임-중간 또는 프레임-시작 필터의 계수들의 세트의 코딩을 위해 일반적으로 비축되는 비트들은 예컨대 예측 코딩의 적어도 하나의 상태, 예컨대 디-엠퍼시스 필터의 메모리를 직접적인 방식으로 코딩하는 데에 사용된다.

변형 구현예에서, 선형 예측 필터의 계수들은 예측 코딩의 적어도 하나의 상태의 일부를 형성하며, 현재 프레임을 위한 선형 예측 필터의 계수들의 계산은:

- 프레임-끝 필터의 계수들의 코딩된 값들 및 프레임-시작 필터의 계수들의 기결정된 재초기화 값들을 사용함으로써 프레임-중간 필터의 계수들의 코딩된 값들을 판단하는 단계;

- 프레임-시작 필터의 계수들의 코딩된 값들을 프레임-중간 필터의 계수들의 코딩된 값들로 대체하는 단계;

- 프레임-끝, -중간, 및 -시작 필터의 계수들의 그에 따라 코딩되는 값들을 사용함으로써 현재 프레임을 위한 선형 예측 필터의 계수들을 판단하는 단계를 포함한다.

따라서, 프레임-중간 필터에 대응하는 계수들은 더 적은 비율의 오차로 코딩된다.

변형 구현예에서, 선형 예측 필터의 계수들은 예측 코딩의 적어도 하나의 상태의 일부를 형성하며, 프레임-시작 선형 예측 필터의 계수들은 장기 예측 필터 계수들의 평균 값에 대응하는 기결정된 값으로 재초기화되고, 현재 프레임을 위한 선형 예측 계수들은 그에 따라 기결정되는 값들 및 프레임-끝 필터의 계수들의 코딩된 값들을 사용함으로써 판단된다.

그러므로, 프레임-시작 계수들은 기결정된 값과 함께 알려져 있는 것으로 간주된다. 이는 완전한 프레임의 예측 계수들을 계산하기 위해 추가 분석 없이 이전 프레임의 예측 계수들의 양호한 추정을 달성하는 것을 가능하게 한다.

가능한 구현예에서, 기결정된 디폴트 값은 코딩될 프레임의 타입에 따라 좌우된다.

본 발명은 또한:

- 수신되어 변환 코딩에 따라 코딩되는, 디지털 신호의 샘플들의 이전 프레임을 디코딩할 수 있는 역 변환 디코딩 엔티티;

- 수신되어 예측 코딩에 따라 코딩되는, 디지털 신호의 샘플들의 현재 프레임을 디코딩할 수 있는 예측 디코딩 엔티티를 포함하는, 디지털 오디오 신호 디코더에 관한 것이다. 디코더는 현재 프레임의 예측 디코딩이 이전 프레임에서 발생한 임의의 적응적 딕셔너리를 사용하지 않는 천이 예측 디코딩이 되게 하며,

- 예측 디코딩의 적어도 하나의 상태를 기결정된 디폴트 값으로 재초기화할 수 있는 재초기화 모듈;

- 현재 프레임의 예측 디코딩에 의해 합성되는 신호 세그먼트와, 이전 프레임의 디코딩의 저장된 세그먼트에 대응하는, 역 변환 디코딩에 의해 합성되는 신호 세그먼트를 결합하는 중첩-가산을 수행할 수 있는 처리 모듈을 추가로 포함한다.

마찬가지로, 본 발명은:

- 디지털 신호의 샘플들의 이전 프레임을 코딩할 수 있는 변환 코딩 엔티티;

- 디지털 신호의 샘플들의 현재 프레임을 코딩할 수 있는 예측 코딩 엔티티를 포함하는, 디지털 오디오 신호 코더에 관한 것이다. 코더는 현재 프레임의 예측 코딩이 이전 프레임에서 발생한 임의의 적응적 딕셔너리를 사용하지 않는 천이 예측 코딩이 되게 하며,

- 예측 코딩의 적어도 하나의 상태를 기결정된 디폴트 값으로 재초기화할 수 있는 재초기화 모듈을 추가로 포함한다.

디코더 및 코더는 이들이 각각 실시하는 디코딩 및 코딩 방법과 동일한 이점을 제공한다.

최종적으로, 본 발명은, 코드 명령들이 프로세서에 의해 실행될 때, 전술한 바와 같은 디코딩 방법 및/또는 전술한 바와 같은 코딩 방법의 단계들을 실시하기 위한 코드 명령들을 포함하는 컴퓨터 프로그램에 관한 것이다.

본 발명은 또한, 프로세서에 의해 판독 가능하며, 가능하게는 디코더 또는 코더에 통합되며, 선택적으로 착탈 가능하고, 전술한 바와 같은 디코딩 방법 및/또는 코딩 방법을 실시하는 컴퓨터 프로그램을 저장하는 저장 수단에 관한 것이다.

본 발명의 다른 특징들 및 이점들은 이하의 상세한 설명 및 첨부 도면을 검토 시에 명확해질 것이다.
도 1은 전술한 종래 기술의 변환 코딩과 예측 코딩 사이의 천이 과정을 도시한다.
도 2는 본 발명의 실시예에 따른, 변환 코딩에 따라 코딩되는 프레임과 예측 코딩에 따라 코딩되는 프레임 사이의 코더에서의 천이를 도시한다.
도 3은 본 발명에 따른 코딩 방법 및 코더의 구현예를 도시한다.
도 4는 현재 프레임의 예측 코딩 중에 선형 예측 필터의 계수들을 판단하기 위해 특정 구현예에서 실시되는 단계들을 흐름도 형태로 도시하되, 이전 프레임은 변환 코딩에 따라 코딩되었다.
도 5는 본 발명의 실시예에 따른, 역 변환 디코딩에 따라 디코딩되는 프레임과 예측 디코딩에 따라 디코딩되는 프레임 사이의 디코더에서의 천이를 도시한다.
도 6은 본 발명에 따른 디코딩 방법 및 디코더의 구현예를 도시한다.
도 7은 현재 프레임의 예측 디코딩 중에 선형 예측 필터의 계수들을 판단하기 위해 본 발명의 구현예에서 실시되는 단계들을 흐름도 형태로 도시하되, 이전 프레임은 역 변환 디코딩에 따라 디코딩되었다.
도 8은 본 발명의 구현예에 따른 디코딩 중에 실시되는 중첩-가산 단계를 도시한다.
도 9는 변환 디코딩과 예측 디코딩이 상이한 지연을 가질 때 이들 사이의 천이의 특정 실시 모드를 도시한다.
도 10은 본 발명에 따른 코더 또는 디코더의 하드웨어 구현예를 도시한다.

도 2는 본 발명에 따른 변환 코딩과 예측 코딩 사이의 천이 중의 코딩의 원리를 개략적인 방식으로 도시한다.

예컨대 MDCT 타입의 변환 코더(FD) 또는 예컨대 ACELP 타입의 예측 코더(LPD)로 코딩될 일련의 오디오 프레임을 이에 고려한다; 본 발명에 영향을 미침 없이 추가 코딩 모드들이 가능하다는 것을 주목한다. 이 예에서, 변환 코더(FD)는 "투키(Tukey)" 타입의 작은 지연을 갖는 윈도우들을 사용하되(본 발명은 사용되는 윈도우의 타입과 무관함), 그 총 길이는 도면에 나타낸 바와 같이 2개의 프레임에 상응한다(0 값을 포함).

코딩 중에, FD 코더의 윈도우들은 윈도우의 최종 비영 부분(우측)이 입력 신호의 새로운 프레임의 끝에 대응하도록 동기화된다. 도 2에 도시된 프레임들로의 분할은 "룩어헤드"(또는 미래 신호)를 포함하고, 도 5와 관련하여 추가로 설명되는 바와 같이, 실제로 코딩되는 프레임은 그에 따라 통상적으로 시간 시프트되는(지연되는) 것을 주목한다. 천이가 없을 때, 코더는 종래 기술(MDCT)에 설명된 바와 같은 에일리어싱 및 DCT 변환 과정을 수행한다. LPD 타입의 코더에 의해 코딩되어야 할 프레임의 도착 시에, 윈도우는 적용되지 않으며, LPD 코더의 필터들에 대응하는 상태들 또는 메모리들이 기결정된 값들로 재초기화된다.

LPD 코더는 CELP 코딩이 12.8 kHz의 내부 주파수에서 동작하는 UIT-T G.718 코더로부터 유래된 것임을 이에 고려한다. 본 발명에 따른 LPD 코더는 비트레이트에 따라 2개의 내부 주파수(12.8 kHz 또는 16 kHz)에서 동작할 수 있다.

예측 코딩(LPD)의 상태에 의해, 적어도 다음 상태들이 내포된다:

- CELP 코딩의 내부 주파수(12.8 또는 16 kHz)에서 입력 주파수(fs)를 위한 리샘플링 필터의 상태 메모리. FIR 타입의 구현예가 과거 입력 신호에 대응하는 상태 메모리의 사용을 단순화한다는 것을 인식하면서, 리샘플링은 FIR 필터, 필터 뱅크, 또는 IIR 필터에 의해 내부 주파수 및 입력 주파수의 함수로서 수행될 수 있음을 이에 고려한다.

- 프리-엠퍼시스 필터(1-az^-1, 통상적으로 α= 0.68) 및 디-엠퍼시스 필터(1/(1-az^-1))의 상태 메모리들.

- 이전 프레임의 끝에서의 선형 예측 필터의 계수들 또는 "선 스펙트럼 주파수(LSF)" 또는 "이미턴스 스펙트럼 주파수(ISF)" 영역과 같은 영역에서의 그 균등한 버전.

- (미리 강조된 영역 내의) 통상적으로 16 차수의 LPC 합성 필터의 상태 메모리.

- 적응적 딕셔너리의 메모리(과거 CELP 여기).

- UIT-T G.718 표준에 정의된 바와 같은 저주파수 포스트-필터(LPF)의 상태 메모리(UIT-T G.718 표준의 7.14.1.1 조항 참조).

- (양자화가 메모리로 수행될 때) 고정적 딕셔너리 이득을 위한 양자화 메모리.

도 3은 본 발명에 따른 코더 및 코딩 방법의 구현예를 도시한다.

특정 구현예가 MDCT를 이용한 FD 변환 코덱과 ACELP 타입의 예측 코덱 사이의 천이의 프레임워크 내에 놓여있다.

모듈(301)에 의해 프레임 내에 배치하는 제1 종래 단계(E301) 후에, 결정 모듈(dec.)은 처리될 프레임이 ACELP 예측 코딩에 의해 또는 FD 변환 코딩에 의해 코딩되어야 하는지 판단한다.

변환 코딩의 경우, MDCT 변환의 완전한 단계가 변환 코딩 엔티티(302)에 의해 수행된다(E302). 이 단계는 그 중에서도 도 2에 도시된 바와 같이 배열되는 저랙(low-lag) 윈도우를 갖는 윈도윙, 에일리어싱 단계, 및 DCT 영역 내의 변환 단계를 포함한다. 이후, 프레임(FD)은 양자화 모듈(303)에 의해 단계(E303)에서 양자화된 후, 그에 따라 인코딩되는 데이터가 비트스트림 구성 모듈(305)에 의해 E305에서 비트스트림에 기재된다.

예측 코딩으로부터 변환 코딩으로의 천이의 경우는 본 발명의 요지를 형성하지 않기 때문에, 이 예에서 다루어지지 않는다.

결정 단계(dec.)가 ACELP 예측 코딩을 선택하는 경우:

- 이전 프레임(최종 ACELP) 역시 ACELP 코딩 엔티티(304)에 의해 인코딩되었고, 예측 코딩의 메모리들 또는 상태들을 업데이트하는 한편, ACELP 코딩(E304)을 계속한다. (12.8로부터 16 kHz로 및 그 반대로) CELP 코딩의 내부 샘플링 주파수들을 전환하는 문제는 여기서 다루지 않는다. 코딩되고 양자화된 정보는 단계(E305)에서 비트스트림에 기재된다.

- 또는, 이전 프레임(최종 MDCT)이 E302에서 변환 코딩 엔티티(302)에 의해 인코딩되었고, 이 경우 ACELP 예측 코딩의 메모리들 또는 상태들은 사전에 기결정되는 디폴트 값들(반드시 0은 아님)로 단계(E306)에서 재초기화된다. 이러한 재초기화 단계는 예측 코딩의 적어도 하나의 상태에 대해 재초기화 모듈(306)에 의해 실시된다.

이후, 현재 프레임을 위한 예측 코딩 단계가 예측 코딩 엔티티(308)에 의해 E308에서 실시된다.

코딩되고 양자화된 정보는 단계(E305)에서 비트스트림에 기재된다.

이러한 예측 코딩(E308)은, 특정 구현예에서, UIT-T G.718 표준에 'TC 모드'라는 명칭으로 정의된 바와 같은 천이 코딩일 수 있고, 여기서 여기의 코딩은 직접적이며, 이전 프레임에서 발생한 임의의 적응적 딕셔너리를 사용하지 않는다. 이후, 여기의, 이전 프레임과 무관한, 코딩이 수행된다. 이 구현예는 LPD 타입의 예측 코더들이 (0으로 설정되는 적응적 딕셔너리를 사용하는 종래의 CELP 코딩에 비해) 훨씬 더 신속하게 안정화되게 한다. 이는 본 발명에 따른 천이의 실시를 추가로 단순화한다.

본 발명의 변형예에서, 여기의 코딩은 천이 모드인 것이 아니라, 가능하게는 (분류를 강제하거나 제한함 없이) 적응적 딕셔너리를 사용하여 G.718과 유사한 방식으로 CELP 코딩을 사용하거나, 적응적 및 고정적 딕셔너리들과 함께 종래의 CELP 코딩을 사용할 수 있다. 그러나, 적응적 딕셔너리가 재계산되지 않았고 0으로 설정되었으므로, 코딩은 차선일 것이기 때문에, 이러한 변형예는 덜 유리하다.

다른 변형예에서, TC 모드에 의한 천이 프레임 내의 CELP 코딩은 예컨대 iLBC 타입의 코딩 모델을 사용함으로써 이전 프레임과 무관한 임의의 다른 타입의 코딩으로 대체될 수 있을 것이다.

특정 구현예에서, 현재 프레임을 위한 선형 예측 필터의 계수들을 계산하는 단계(E307)가 계산 모듈(307)에 의해 수행된다.

선형 예측 필터의 계수들의 여러 계산 모드들이 현재 프레임에 대해 가능하다. 예측 코딩(블록(304))은 G.718 표준에서와 같이 프레임마다 2번의 선형 예측 분석을 수행하되, 이전 프레임(OLD)의 끝의 LPC 계수들과 현재 프레임(MID, NEW)의 LPC 계수들 사이의 서브-프레임에 의한 보간과 함께, ISF(또는 균등한 방식의 LSF) 형태의 LPC 계수들의 코딩이 프레임의 끝(NEW)에 달성되고, LPC 계수들의 매우 감소된 비트레이트 코딩이 프레임의 중간(MID)에 달성된다는 것을 이에 고려한다.

제1 구현예에서, LPC 계수가 FD 코더에서 코딩되지 않기 때문에, FD 타입의 이전 프레임(OLD)의 예측 계수들은 알려져 있지 않다. 이후, 프레임의 중간(MID) 또는 프레임의 끝(NEW)에 대응하는 선형 예측 필터의 단일 계수 세트를 코딩할 것을 선택한다. 이러한 선택은 예컨대 코딩될 신호의 분류에 따라 이루어질 수 있다. 안정된 신호에 대해, 프레임-중간 필터의 선택이 가능할 것이다. 임의적인 선택이 또한 이루어질 수 있다; 선택이 프레임의 중간의 LPC 계수들에 관련되는 경우, 변형예에서, ("이미턴스 스펙트럼 쌍(ISP)" 영역 또는 "라인 스펙트럼 쌍(LSP)" 영역 내의) LPC 계수들의 보간은 천이 LPD 프레임에 이은 제2 LPD 프레임에서 정정될 수 있을 것이다.

획득되는 이러한 코딩된 값들에 기반하여, 동일한 코딩된 값들이 상기에 이루어진 선택에 따라 프레임 시작(OLD) 및 프레임 끝 또는 중간에 대한 예측 필터 계수들을 위해 할당된다. 실제로, 이전 프레임(OLD)의 LPC 계수들은 알려져 있지 않으므로, G.718에서와 같이 프레임 중간(MID) LPC 계수들을 코딩하는 것은 가능하지 않다. 이러한 변형예에서, LPC 계수들(OLD)이 사용되지 않기 때문에, 이들의 재초기화가 절대적으로 필요한 것은 아님을 주목한다. 이 경우, 각각의 서브-프레임에서 사용되는 계수들은 프레임에서 코딩되는 값과 동일한 방식으로 고정된다.

유리하게는, 프레임 중간(MID) 또는 프레임 시작 LPC 계수들의 세트의 코딩을 위해 비축될 수 있는 비트들은 예컨대 예측 코딩의 적어도 하나의 상태, 예컨대 디-엠퍼시스 필터의 메모리를 직접적인 방식으로 코딩하는 데에 사용된다.

제2 가능한 구현예에서, 도 4에 도시된 단계들이 실시된다. 제1 단계(E401)는, 도 3의 단계(E306)의 실시에 따른 예측 필터의 계수들 및 균등한 ISF 또는 LSF 표현들의, 즉, 예컨대 LSP 계수들에 대한 선험적 학습 기반 상의 장기 평균 값에 따른 기결정된 값들로의, 초기화이다. 단계(E402)는 프레임-끝 필터(LSP NEW)의 계수들 및 획득되는 코딩된 값들(LEP NEW Q)을 코딩하고, 프레임-시작 필터(LSP OLD)의 계수들의 기결정된 재초기화 값들은 프레임-중간 예측 필터(LSD MID)의 계수들을 코딩하기 위해 E403에서 사용된다. 프레임-시작 계수들(LSP OLD)의 값들을 프레임-중간 계수들(LSP MID Q)의 코딩된 값들로 대체하는 단계(E404)가 수행된다. 단계(E405)는 그에 따라 코딩되는 이러한 값들(LSP OLD, LSP MID Q, LSP NEW Q)에 기반하여 현재 프레임을 위한 선형 예측 필터의 계수들을 판단하는 것을 가능하게 한다.

제3 가능한 구현예에서, 이전 프레임(LSP OLD)을 위한 선형 예측 필터의 계수들은 LPC 타입의 스펙트럼 엔벨로프를 이용하여 FD 코더 변형예에서 이미 "무료로" 유효한 값으로 초기화된다. 이 경우, G.718에서 사용되는 것과 같은 "정상" 코딩의 사용이 가능할 것이며, 서브-프레임-기반 선형 예측 계수들은 예측 필터들(OLD, MID, NEW)의 값들 사이의 보간으로서 계산되고, 그러므로 이러한 동작은 LPD 코더가 추가 분석 없이 이전 프레임 내의 LPC 계수들의 양호한 추정을 달성하게 한다.

본 발명의 다른 변형예들에서, 코딩(LPD)은 디폴트에 의해 단지 LPC 계수들의 세트를 코딩할 수 있을 것이며(NEW), 이전 변형 구현예들은 계수들의 세트가 프레임 중간(MID)에서 유효하지 않다는 것을 고려하도록 간단히 적응된다.

본 발명의 변형 구현예에서, 예측 코딩의 상태들의 초기화는 예컨대 인코딩될 다양한 타입의 프레임에 대응할 수 있는 사전에 기결정되는 디폴트 값들로 수행될 수 있다(예컨대, 프레임이 유성 또는 무성 타입의 신호를 포함한다면, 초기화 값들은 상이할 수 있다).

도 5는 본 발명에 따른 변환 디코딩과 예측 디코딩 사이의 천이 중의 디코딩의 원리를 개략적인 방식으로 도시한다.

예컨대 MDCT 타입의 변환 디코더(FD) 또는 예컨대 ACELP 타입의 예측 디코더(LPD)로 디코딩될 일련의 오디오 프레임을 이에 고려한다. 이 예에서, 변환 디코더(FD)는 "투키" 타입의 작은 지연 합성 윈도우들을 사용하되(본 발명은 사용되는 윈도우의 타입과 무관함), 그 총 길이는 도면에 나타낸 바와 같이 2개의 프레임에 상응한다(0 값을 포함).

본 발명의 의미 내에서, FD 코더로 코딩된 프레임의 디코딩 후에, 역 DCT 변환이 디코딩된 프레임에 적용된다. 후자가 디-에일리어싱된 후, 합성 윈도우가 디-에일리어싱된 신호에 적용된다. FD 코더의 합성 윈도우들은 윈도우의 비영 부분(좌측)이 새로운 프레임에 대응하도록 동기화된다. 따라서, 신호가 A지점 전에 임의의 시간적 에일리어싱을 갖지 않기 때문에, 프레임은 이 지점까지 디코딩될 수 있다.

LPD 프레임의 도착의 순간에, 코더에서와 같이, 예측 디코딩의 상태들 또는 메모리들이 기결정된 값들로 재초기화된다.

예측 디코딩(LPD)의 상태에 의해, 적어도 다음 상태들이 내포된다:

- 출력 주파수(fs)에서 CELP 디코딩의 내부 주파수(12.8 또는 16 kHz)를 위한 리샘플링 필터의 상태 메모리. FIR 타입의 구현예가 과거 입력 신호에 대응하는 상태 메모리의 사용을 단순화한다는 것을 인식하면서, 리샘플링은 FIR 필터, 필터 뱅크, 또는 IIR 필터에 의해 내부 주파수 및 입력 주파수의 함수로서 수행될 수 있음을 이에 고려한다.

- 디-엠퍼시스 필터(1/(1-az^-1))의 상태 메모리들.

- 이전 프레임의 끝에서의 선형 예측 필터의 계수들 또는 선 스펙트럼 주파수(LSF) 또는 이미턴스 스펙트럼 주파수(ISF) 영역과 같은 영역 내의 그 균등한 버전.

- 적응적 딕셔너리의 메모리(과거 여기).

도 6은 본 발명에 따른 디코더 및 디코딩 방법의 구현예를 도시한다.

모듈(601)에 의해 바이너리 트레인에서 판독하는 제1 종래 단계(E601) 후에, 결정 모듈(dec.)은 처리될 프레임이 ACELP 예측 디코딩에 의해 또는 FD 변환 디코딩에 의해 디코딩되어야 하는지 판단한다.

MDCT 변환 디코딩의 경우, 변환 디코딩 엔티티(602)에 의한 디코딩 단계(E602)는 변환된 영역에서 프레임을 획득하는 것을 가능하게 한다. 단계는 또한 ACELP 디코더의 샘플링 주파수에서 리샘플링하는 단계를 포함할 수 있다. 이러한 단계는 역 MDCT 변환(E603)으로 이어지는데, 도 8을 참조하여 후술하는 바와 같이, 이는 역 DCT 변환, 시간적 디-에일리어싱, 및 합성 윈도우와, 이전 프레임과의 중첩-가산 단계의 적용을 포함한다.

시간적 에일리어싱이 취소된 부분은 프레임 배치 모듈(605)에 의해 단계(E605)에서 프레임 내에 배치된다. 시간적 에일리어싱을 포함하는 부분은, 만약에 있다면, FD 코어에 의해 디코딩되는 다음 프레임과 함께 처리 모듈(609)에 의해 E609에서 중첩-가산 단계를 수행하기 위해 메모리(MDCT Mem.) 내에 유지된다. 변형예에서, 예컨대 충분히 큰 시간적 시프트가 MDCT 디코딩과 CELP 디코딩 사이에 존재하는 경우, 중첩-가산 단계를 위해 사용되는 MDCT 디코딩의 저장된 부분은 임의의 시간적 에일리어싱을 포함하지 않는다.

이러한 단계가 도 8에 도시되어 있다. 이 도면에서, FD로부터 발생한 디코딩과 LPD로부터 발생한 디코딩 사이에 시간적 불연속이 존재한다는 것을 알 수 있다. 단계(E609)는 전술한 바와 같은 변형 코더의 메모리(MDCT Mem.), 즉 (도시된 경우에서) A지점 후에 디코딩되지만 에일리어싱을 포함하는 신호를 사용한다.

우선적으로, 신호는 변환의 에일리어싱의 지점인 B지점까지 사용된다. 특정 구현예에서, 이러한 신호는 세그먼트(AB) 상에 사전 적용된 윈도우의 역에 의해 사전에 보상된다. 따라서, 중첩-가산 단계 전에, 세그먼트(AB)는 세그먼트에 사전 적용된 윈도윙을 보상하는 역 윈도우의 적용에 의해 정정된다. 그러므로, 세그먼트는 더 이상 "윈도윙"되지 않으며, 그 에너지는 원신호의 에너지에 가깝다.

이후, 변환 디코딩에서 발생하며 예측 디코딩에서 발생하는 2개의 세그먼트(AB)는 최종 신호(AB)의 획득을 위해 가중되며 합산된다. 가중 함수는 우선적으로 (예컨대, 이차 정현파 또는 선형 타입의) 1에 상응하는 합계를 갖는다. 따라서, 중첩-가산 단계는 현재 프레임의 예측 디코딩에 의해 합성되는 신호 세그먼트와, 이전 프레임의 디코딩의 저장된 세그먼트에 대응하는, 역 변환 디코딩에 의해 합성되는 신호 세그먼트를 결합한다.

다른 특정 구현예에서, (예컨대, E602에서) 리샘플링이 아직 수행되지 않은 경우, FD 타입의 역 변환 디코딩에 의해 합성되는 신호 세그먼트는 LPD 타입의 현재 프레임의 디코딩된 신호 세그먼트에 대응하는 샘플링 주파수에서 사전에 리샘플링된다. MDCT 메모리의 이러한 리샘플링은 FIR 타입의 필터, 필터 뱅크, 또는 IIR 필터에 의해 또는 실제로 "스플라인"을 사용함으로써 종래의 기법으로 지연이 있든 없든 이행될 수 있을 것이다.

반대의 경우에, FD 및 LPD 코딩 모드들이 상이한 내부 샘플링 주파수에서 동작한다면, 대안에서, (특히 추정된 또는 코딩된 고대역의 추가로 선택적으로 후처리되는) CELP 코딩의 합성을 리샘플링하고 본 발명을 적용하는 것이 가능할 것이다. LPD 코더의 합성의 이러한 리샘플링은 FIR 타입의 필터, 필터 뱅크, IIR 필터에 의해 또는 실제로 "스플라인"을 사용함으로써 종래의 기법으로 지연이 있든 없든 이행될 수 있을 것이다

이는 변환 디코딩의 샘플링 주파수가 예측 디코딩의 샘플링 주파수와 상이한 경우 결함 없이 천이를 수행하는 것을 가능하게 한다.

특정 구현예에서, FD 디코더가 CELP(LPD) 디코더보다 적은 랙을 가진다면 2개의 디코더를 시간적으로 정렬하기 위해 중간 지연 단계(E604)를 적용하는 것이 가능하다. 이후, 2개의 디코더 사이의 랙에 대응하는 크기를 갖는 신호 부분이 메모리에 저장된다(Mem.delay).

도 9는 이러한 예시적인 경우를 도시한다. 여기서, 구현예는 LPD 예측 디코딩에서 발생한 제1 세그먼트(D)를 FD 변환 디코딩에서 발생한 세그먼트로 대체하고, 이후 세그먼트(AB) 상에 전술한 바와 같은 중첩-가산 단계(E609)를 수행하기 위해, 이러한 랙 차이(D)를 유리하게 활용할 것을 제안한다. 따라서, 역 변환 디코딩이 예측 디코딩보다 작은 처리 지연을 가질 때, 예측 디코딩에 의해 디코딩되는 현재 프레임의 제1 세그먼트는, 이전 프레임의 디코딩 중 메모리 내의 배치 및 지연 시프트에 대응하는, 이전 프레임의 디코딩에서 발생한 세그먼트로 대체된다.

도 6에서, 결정(dec.)이 ACELP 예측 디코딩의 이행이 필요함을 나타내면:

- 최종 디코딩된 프레임, 이전 프레임(최종 ACELP) 역시 ACELP 디코딩 엔티티(603)에 의해 ACELP 예측 디코딩에 따라 디코딩되었고, 예측 디코딩은 단계(E603)에서 계속되고, 따라서 오디오 프레임이 E605에서 생성된다.

- 또는, 이전 프레임(최종 MDCT)이 E602에서 변환 디코딩 엔티티(602)에 의해 디코딩되었고, 이 경우 ACELP 예측 디코딩의 상태들을 재초기화하는 단계(E606)가 적용된다. 이러한 재초기화 단계는 예측 디코딩의 적어도 하나의 상태에 대해 재초기화 모듈(606)에 의해 실시된다. 재초기화 값들은 사전에 기결정되는 디폴트 값들이다(반드시 0은 아님).

LPD 디코딩의 상태들의 초기화는 예컨대 인코딩 중에 이행된 것의 함수로서 디코딩될 다양한 타입의 프레임에 대응할 수 있는 사전에 기결정되는 디폴트 값들로 이행될 수 있다.

이후, 현재 프레임을 위한 예측 디코딩 단계가 전술한 중첩-가산 단계(E609) 전에 예측 디코딩 엔티티(608)에 의해 E608에서 실시된다. 단계는 또한 MDCT 디코더의 샘플링 주파수에서 샘플링하는 단계를 포함할 수 있다.

이러한 예측 코딩(E608)은, 특정 구현예에서, 이 해결방안이 인코더에서 선택되었다면, 천이 예측 디코딩일 수 있고, 여기서 여기의 디코딩은 직접적이며, 임의의 적응적 딕셔너리를 사용하지 않는다. 이 경우, 적응적 딕셔너리의 메모리는 재초기화될 필요가 없다.

이후, 여기의 비예측 디코딩이 수행된다. 이 경우 사전에 재초기화된 적응적 딕셔너리의 메모리를 사용하지 않기 때문에, 이러한 구현예는 LPD 타입의 예측 디코더들이 훨씬 더 신속하게 안정화되게 한다. 이는 본 발명에 따른 천이의 실시를 추가로 단순화한다. 현재 프레임을 디코딩할 때, 장기 여기의 예측 디코딩은 여기의 비예측 디코딩으로 대체된다.

특정 구현예에서, 현재 프레임을 위한 선형 예측 필터의 계수들을 계산하는 단계(E607)가 계산 모듈(607)에 의해 수행된다.

선형 예측 필터의 계수들의 여러 계산 모드들이 현재 프레임에 대해 가능하다.

제1 구현예에서, LPC 계수가 FD 코더에서 코딩되지 않고 값들이 0으로 재초기화되었기 때문에, FD 타입의 이전 프레임(OLD)의 예측 계수들은 알려져 있지 않다. 이후, 유일한 선형 예측 필터의 계수들, 즉 프레임-끝 예측 필터(NEW)에 대응하거나 프레임-중간 예측 필터(MID)에 대응하는 계수들을 디코딩할 것을 선택한다. 이후, 동일한 계수들이 프레임-끝, -중간, 및 -시작 선형 예측 필터에 할당된다.

제2 가능한 구현예에서, 도 7에 도시된 단계들이 실시된다. 제1 단계(E701)는 도 6의 단계(E606)의 실시에 따른 예측 필터(LSP OLD)의 계수들의 초기화이다. 단계(E702)는 프레임-끝 필터(LSP NEW)의 계수들 및 획득되는 디코딩된 값들(LSP NEW)을 디코딩하고, 프레임-시작 필터(LSP OLD)의 계수들의 기결정된 재초기화 값들은 프레임-중간 예측 필터(LSD MID)의 계수들을 디코딩하기 위해 E703에서 함께 사용된다. 프레임-시작 계수들(LSP OLD)의 값들을 프레임-중간 계수들(LSP MID)의 디코딩된 값들로 대체하는 단계(E704)가 수행된다. 단계(E705)는 그에 따라 디코딩되는 이러한 값들(LSP OLD, LSP MID, LSP NEW)에 기반하여 현재 프레임을 위한 선형 예측 필터의 계수들을 판단하는 것을 가능하게 한다.

제3 가능한 구현예에서, 이전 프레임(LSP OLD)을 위한 선형 예측 필터의 계수들은 예컨대 LSP 계수들의 장기 평균 값에 따른 기결정된 값으로 초기화된다. 이 경우, G.718에서 사용되는 것과 같은 "정상" 디코딩의 사용이 가능할 것이며, 서브-프레임-기반 선형 예측 계수들은 예측 필터들(OLD, MID, NEW)의 값들 사이의 보간으로서 계산된다. 따라서, 이러한 동작은 LPD 코더가 더 신속하게 안정화되게 한다.

도 10을 참조하여, 본 발명의 구현예에 따른 코더 또는 디코더를 구현하도록 적응되는 하드웨어 장치를 설명한다.

이러한 코더 또는 디코더는 통신 단자, 통신 게이트웨이, 또는 셋탑박스 타입 디코더, 또는 오디오 스트림 리더와 같은 임의의 타입의 장비에 통합될 수 있다.

이러한 장치(DISP)는, 코더의 경우 입력 신호(x(n))이며 디코더의 경우 바이너리 트레인(bst)인 디지털 신호를 수신하기 위한 입력부를 포함한다.

장치는 또한 특히 입력부(E)에서 유래한 신호에 코딩/디코딩 동작을 수행하도록 적응되는 디지털 신호 프로세서(PROC)를 포함한다.

이러한 프로세서는 코딩/디코딩과 관련하여 장치를 구동하기 위해 필요한 정보를 저장하도록 적응되는 하나 이상의 메모리 유닛(MEM)에 연결된다. 예컨대, 이러한 메모리 유닛들은 전술한 디코딩 방법을 실시하기 위한, 및 특히, 수신되어 변환 코딩에 따라 코딩되는, 디지털 신호의 샘플들의 이전 프레임의 역 변환 디코딩에 따라 디코딩하는 단계, 수신되어 예측 코딩에 따라 코딩되는, 디지털 신호의 샘플들의 현재 프레임의 예측 디코딩에 따라 디코딩하는 단계, 예측 디코딩의 적어도 하나의 상태를 기결정된 디폴트 값으로 재초기화하는 단계, 및 현재 프레임의 예측 디코딩에 의해 합성되는 신호 세그먼트와, 이전 프레임의 디코딩의 저장된 세그먼트에 대응하는, 역 변환 디코딩에 의해 합성되는 신호 세그먼트를 결합하는 중첩-가산 단계를 실시하기 위한 명령들을 포함한다.

장치가 코더 타입일 때, 이러한 메모리 유닛들은 전술한 코딩 방법을 실시하기 위한, 및 특히, 변환 코딩에 따라 디지털 신호의 샘플들의 이전 프레임을 코딩하는 단계, 예측 코딩에 따라 코딩될 디지털 신호의 샘플들의 현재 프레임을 수신하는 단계, 예측 코딩의 적어도 하나의 상태를 기결정된 디폴트 값으로 재초기화하는 단계를 실시하기 위한 명령들을 포함한다.

이러한 메모리 유닛들은 또한 계산 파라미터들 또는 다른 정보를 포함할 수 있다.

보다 일반적으로, 프로세서에 의해 판독 가능하며, 가능하게는 코더 또는 디코더에 통합되며, 선택적으로 착탈 가능한 저장 수단이 본 발명에 따른 디코딩 방법 및/또는 코딩 방법을 실시하는 컴퓨터 프로그램을 저장한다. 도 3 및 도 6은 예컨대 이와 같은 컴퓨터 프로그램의 알고리즘을 도시할 수 있다.

프로세서는 또한 이러한 메모리 유닛들에 결과를 저장하도록 구성된다. 최종적으로, 장치는, 코더의 경우 바이너리 트레인(bst) 형태의 신호이며 디코더의 경우 출력 신호(

)인 출력 신호를 제공하기 위해 프로세서에 연결되는 출력부(S)를 포함한다.

Claims

- 수신되어 변환 코딩에 따라 코딩되는, 디지털 신호의 샘플들의 이전 프레임을 역 변환 디코딩에 따라 디코딩하는 단계(E602);
- 수신되어 예측 코딩에 따라 코딩되는, 상기 디지털 신호의 샘플들의 현재 프레임을 예측 디코딩에 따라 디코딩하는 단계(E608)를 포함하는, 디지털 오디오 신호를 디코딩하는 방법에 있어서,
상기 현재 프레임의 예측 디코딩은 상기 이전 프레임에서 발생한 임의의 적응적 딕셔너리를 사용하지 않는 천이 예측 디코딩이며,
- 예측 디코딩의 적어도 하나의 상태를 기결정된 디폴트 값으로 재초기화하는 단계(E606);
- 상기 현재 프레임의 예측 디코딩에 의해 합성되는 신호 세그먼트와, 상기 이전 프레임의 디코딩의 저장된 세그먼트에 대응하는, 역 변환 디코딩에 의해 합성되는 신호 세그먼트를 결합하는 중첩-가산 단계(E609)를 추가로 포함하고,
상기 현재 프레임을 위한 선형 예측 필터의 계수들의 계산은 프레임-끝, -중간, 및 -시작 선형 예측 필터에 동일한 계수들을 할당함으로써 수행되는 것을 특징으로 하는 디코딩 방법.
제1항에 있어서,
역 변환 디코딩은 예측 디코딩보다 작은 처리 지연을 가지며, 예측 디코딩에 의해 디코딩되는 현재 프레임의 제1 세그먼트는 상기 이전 프레임의 디코딩 중 메모리 내의 배치 및 지연 시프트에 대응하는 상기 이전 프레임의 디코딩에서 발생한 세그먼트로 대체되는 것을 특징으로 하는 디코딩 방법.
제1항에 있어서,
역 변환 디코딩에 의해 합성되는 상기 신호 세그먼트는 상기 세그먼트에 사전 적용된 윈도윙을 보상하는 역 윈도우의 적용에 의해 상기 중첩-가산 단계 전에 정정되는 것을 특징으로 하는 디코딩 방법.
제1항에 있어서,
역 변환 디코딩에 의해 합성되는 상기 신호 세그먼트는 상기 현재 프레임의 상기 디코딩된 신호 세그먼트에 대응하는 샘플링 주파수에서 사전에 리샘플링되는 것을 특징으로 하는 디코딩 방법.
제1항에 있어서,
예측 디코딩의 상태는:
- 예측 디코딩의 내부 주파수에서 리샘플링하기 위한 필터의 상태 메모리;
- 프리-엠퍼시스/디-엠퍼시스 필터들의 상태 메모리들;
- 선형 예측 필터의 계수들;
- 합성 필터의 상태 메모리;
- 적응적 딕셔너리의 메모리;
- 저주파수 포스트-필터의 상태 메모리;
- 고정적 딕셔너리 이득을 위한 양자화 메모리와 같은 상태들의 리스트에 있는 것을 특징으로 하는 디코딩 방법.
제5항에 있어서,
상기 현재 프레임을 위한 상기 선형 예측 필터의 계수들의 계산은 고유 필터의 계수들을 디코딩함으로써 수행되는 것을 특징으로 하는 디코딩 방법.
제5항에 있어서,
상기 현재 프레임을 위한 상기 선형 예측 필터의 계수들의 계산은:
- 프레임-끝 필터의 계수들의 디코딩된 값들 및 프레임-시작 필터의 계수들의 기결정된 재초기화 값을 사용함으로써 프레임-중간 필터의 계수들의 디코딩된 값들을 판단하는 단계;
- 상기 프레임-시작 필터의 계수들의 디코딩된 값들을 상기 프레임-중간 필터의 계수들의 디코딩된 값들로 대체하는 단계;
- 상기 프레임-끝, -중간, 및 -시작 필터의 계수들의 그에 따라 디코딩되는 값들을 사용함으로써 상기 현재 프레임을 위한 상기 선형 예측 필터의 계수들을 판단하는 단계를 포함하는 것을 특징으로 하는 디코딩 방법.
제5항에 있어서,
프레임-시작 선형 예측 필터의 계수들은 장기 예측 필터 계수들의 평균 값에 대응하는 기결정된 값으로 재초기화되고, 상기 현재 프레임을 위한 선형 예측 계수들은 그에 따라 기결정되는 값들 및 프레임-끝 필터의 계수들의 디코딩된 값들을 사용함으로써 판단되는 것을 특징으로 하는 디코딩 방법.
- 변환 코딩에 따라 디지털 신호의 샘플들의 이전 프레임을 코딩하는 단계(E302);
- 예측 코딩에 따라 코딩될 상기 디지털 신호의 샘플들의 현재 프레임을 수신하는 단계(E308)를 포함하는, 디지털 오디오 신호를 코딩하는 방법에 있어서,
상기 현재 프레임의 예측 코딩은 상기 이전 프레임에서 발생한 임의의 적응적 딕셔너리를 사용하지 않는 천이 예측 코딩이며,
- 예측 코딩의 적어도 하나의 상태를 기결정된 디폴트 값으로 재초기화하는 단계(E306)를 추가로 포함하고,
상기 현재 프레임을 위한 선형 예측 필터의 계수들의 계산은 프레임-시작 및 프레임-끝 또는 중간 예측 필터의 계수들을 위한 동일한 코딩된 값들을 할당함으로써 수행되는 것을 특징으로 하는 코딩 방법.
제9항에 있어서,
선형 예측 필터의 계수들은 예측 코딩의 적어도 하나의 상태의 일부를 형성하며, 상기 현재 프레임을 위한 상기 선형 예측 필터의 계수들의 계산은 프레임 중간 또는 끝의 단일 예측 필터의 계수들의 코딩된 값들의 판단에 의해 수행되는 것을 특징으로 하는 코딩 방법.
제10항에 있어서,
예측 코딩의 적어도 하나의 상태는 직접적인 방식으로 코딩되는 것을 특징으로 하는 코딩 방법.
제9항에 있어서,
선형 예측 필터의 계수들은 예측 코딩의 적어도 하나의 상태의 일부를 형성하며, 상기 현재 프레임을 위한 상기 선형 예측 필터의 계수들의 계산은:
- 프레임-끝 필터의 계수들의 코딩된 값들 및 프레임-시작 필터의 계수들의 기결정된 재초기화 값들을 사용함으로써 프레임-중간 필터의 계수들의 코딩된 값들을 판단하는 단계;
- 상기 프레임-시작 필터의 계수들의 코딩된 값들을 상기 프레임-중간 필터의 계수들의 코딩된 값들로 대체하는 단계;
- 상기 프레임-끝, -중간, 및 -시작 필터의 계수들의 그에 따라 코딩되는 값들을 사용함으로써 상기 현재 프레임을 위한 상기 선형 예측 필터의 계수들을 판단하는 단계를 포함하는 것을 특징으로 하는 코딩 방법.
제9항에 있어서,
선형 예측 필터의 계수들은 예측 코딩의 적어도 하나의 상태의 일부를 형성하며, 프레임-시작 선형 예측 필터의 계수들은 장기 예측 필터 계수들의 평균 값에 대응하는 기결정된 값으로 재초기화되고, 상기 현재 프레임을 위한 선형 예측 계수들은 그에 따라 기결정되는 값들 및 프레임-끝 필터의 계수들의 코딩된 값들을 사용함으로써 판단되는 것을 특징으로 하는 코딩 방법.
- 수신되어 변환 코딩에 따라 코딩되는, 디지털 신호의 샘플들의 이전 프레임을 디코딩할 수 있는 역 변환 디코딩 엔티티(602);
- 수신되어 예측 코딩에 따라 코딩되는, 상기 디지털 신호의 샘플들의 현재 프레임을 디코딩할 수 있는 예측 디코딩 엔티티(608)를 포함하는, 디지털 오디오 신호 디코더에 있어서,
상기 현재 프레임의 예측 디코딩은 상기 이전 프레임에서 발생한 임의의 적응적 딕셔너리를 사용하지 않는 천이 예측 디코딩이며,
- 예측 디코딩의 적어도 하나의 상태를 기결정된 디폴트 값에 의해 재초기화할 수 있는 재초기화 모듈(606);
- 상기 현재 프레임의 예측 디코딩에 의해 합성되는 신호 세그먼트와, 상기 이전 프레임의 디코딩의 저장된 세그먼트에 대응하는, 역 변환 디코딩에 의해 합성되는 신호 세그먼트를 결합하는 중첩-가산을 수행할 수 있는 처리 모듈(609)을 추가로 포함하고,
상기 현재 프레임을 위한 선형 예측 필터의 계수들의 계산은 프레임-끝, -중간, 및 -시작 선형 예측 필터에 동일한 계수들을 할당함으로써 수행되는 것을 특징으로 하는 디코더.
- 디지털 신호의 샘플들의 이전 프레임을 코딩할 수 있는 변환 코딩 엔티티(302);
- 상기 디지털 신호의 샘플들의 현재 프레임을 코딩할 수 있는 예측 코딩 엔티티(308)를 포함하는, 디지털 오디오 신호 코더에 있어서,
상기 현재 프레임의 예측 코딩은 상기 이전 프레임에서 발생한 임의의 적응적 딕셔너리를 사용하지 않는 천이 예측 코딩이며,
- 예측 코딩의 적어도 하나의 상태를 기결정된 디폴트 값으로 재초기화할 수 있는 재초기화 모듈(306)을 추가로 포함하고,
상기 현재 프레임을 위한 선형 예측 필터의 계수들의 계산은 프레임-시작 및 프레임-끝 또는 중간 예측 필터의 계수들을 위한 동일한 코딩된 값들을 할당함으로써 수행되는 것을 특징으로 하는 코더.
제1항 내지 제8항 중 한 항에 따른 디코딩 방법 및/또는 제9항 내지 제13항 중 한 항에 따른 코딩 방법의 단계들을 실행하기 위한 명령들을 포함하는 컴퓨터 프로그램을 저장하는, 프로세서에 의해 판독 가능한 저장 수단.