KR101999774B1

KR101999774B1 - 부드러운 전이를 획득하기 위해 제로-입력-응답을 사용하는 오디오 디코더, 방법 및 컴퓨터 프로그램

Info

Publication number: KR101999774B1
Application number: KR1020177004348A
Authority: KR
Inventors: 엠마뉘엘 라벨리; 구일라우메 푸흐스; 사샤 디쉬; 마르쿠스 물트루스; 글체고르츠 피에트르지크; 벤자민 슈베르트
Original assignee: 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date: 2014-07-28
Filing date: 2015-07-23
Publication date: 2019-07-15
Also published as: US11922961B2; US10325611B2; US20170133026A1; MX2017001244A; TR201815658T4; PT3175453T; EP3175453B1; US20220076685A1; PL3175453T3; RU2017106091A; TW201618085A; KR20170032416A; US20200160874A1; JP6538820B2; JP2019194711A; SG11201700616WA; CA2954325A1; AU2015295588B2; JP2022174077A; EP3175453A1

Abstract

부드러운 전이를 획득하기 위해 제로 입력 응답을 사용하는 오디오 디코더, 방법 및 컴퓨터 프로그램. 인코딩된 오디오 정보(110;210;310)에 기초하여 디코딩된 오디오 정보(112;212;312)를 제공하기 위한 오디오 디코더(100;200;300)로서, 오디오 디코더는 선형 예측 도메인에서 인코딩된 오디오 프레임에 기초하여 제1 디코딩된 오디오 정보(122;222;322;S_C(n))를 제공하도록 구성된 선형 예측 도메인 디코더(120;220;320), 주파수 도메인에서 인코딩된 오디오 프레임에 기초하여 제2 디코딩된 오디오 정보(132;232;332;S_M(n))를 제공하도록 구성된 주파수 도메인 디코더(130;230;330), 및 전이 프로세서(140;240;340)를 포함한다. 전이 프로세서는 선형 예측 필터링부(148;254;346)의 제로 입력 응답(150;256;348)을 획득하도록 구성되며, 여기서 선형 예측 필터링의 초기 상태(146;252;344)는 제1 디코딩된 오디오 정보 및 제2 디코딩된 오디오 정보에 의존하여 정의된다. 전이 프로세서는 또한 제로 입력 응답에 의존하여, 선형 예측 도메인에서 인코딩된 오디오 프레임에 뒤따르는 주파수 도메인에서 인코딩된 오디오 프레임에 기초하여 제공되는, 제2 디코딩된 오디오 정보(132;232;332;S_M(n))를 수정하도록 구성된다.

Description

부드러운 전이를 획득하기 위해 제로-입력-응답을 사용하는 오디오 디코더, 방법 및 컴퓨터 프로그램{AUDIO DECODER, METHOD AND COMPUTER PROGRAM USING A ZERO-INPUT-RESPONSE TO OBTAIN A SMOOTH TRANSITION}

본 발명에 따른 실시예는 인코딩된 오디오 정보에 기초하여 디코딩된 오디오 정보를 제공하기 위한 오디오 디코더에 관한 것이다.

본 발명에 따른 다른 실시예는 인코딩된 오디오 정보에 기초하여 디코딩된 오디오 정보를 제공하기 위한 방법에 관한 것이다.

본 발명에 따른 다른 실시예는 상기 방법을 수행하기 위한 컴퓨터 프로그램에 관한 것이다.

일반적으로, 본 발명에 따른 실시예는 스위칭형 오디오 코딩에서 CELP 코덱으로부터 MDCT 기반 코덱으로의 전이(transition)를 처리하는 것에 관한 것이다.

지난 몇 년 동안 인코딩된 오디오 정보를 송신하고 저장하는 것에 대한 요구가 증가하고 있다. 또한 (예를 들어, 음악, 배경 잡음 등과 같은) 음성 및 일반 오디오 양자 모두를 포함하는 오디오 신호의 오디오 인코딩 및 오디오 디코딩에 대한 요구가 증가하고 있다.

코딩 품질을 향상시키고 또한 비트레이트 효율을 향상시키기 위해, 상이한 코딩 체계 사이에서 스위칭하는 스위칭형 (또는 스위칭) 오디오 코덱이 도입되어, 예를 들어 제1 프레임은 제1 인코딩 개념(예를 들어, CELP 기반 코딩 개념) 사용하여 인코딩되도록 하고, 후속하는 제2 오디오 프레임은 상이한 제2 코딩 개념(예를 들어, MDCT 기반 코딩 개념)을 사용하여 인코딩되도록 한다. 다시 말해서, (예를 들어, CELP 기반 코딩 개념을 사용하는) 선형 예측 코딩 도메인에서의 인코딩과 주파수 도메인에서의 코딩(예를 들어, 예컨대 FFT 변환, 역 FFT 변환, MDCT 변환 또는 역 MDCT 변환과 같은 시간 도메인 대 주파수 도메인 변환 또는 주파수 도메인 대 시간 도메인 변환에 기초하는 코딩) 사이에 스위칭이 있을 수 있다. 예를 들어, 제1 코딩 개념은 CELP 기반 코딩 개념, ACELP 기반 코딩 개념, 변환 코딩된 여기 선형 예측 도메인 기반 코딩 개념 등일 수 있다. 제2 코딩 개념은 예를 들어, FFT 기반 코딩 개념, MDCT 기반 코딩 개념, AAC 기반 코딩 개념 또는 AAC 기반 코딩 개념의 후속 개념으로 간주될 수 있는 코딩 개념일 수 있다.

다음에서는, 종래의 오디오 코더(인코더 및/또는 디코더)의 일부 예가 설명될 것이다.

예를 들어, MPEG USAC와 같은 스위칭형 오디오 코덱은 두 가지 주요 오디오 코딩 체계에 기초한다. 한 가지 코딩 체계는 예를 들어, 음성 신호를 목표로 하는 CELP 코덱이다. 다른 코딩 체계는 예를 들어, 다른 모든 오디오 신호(예를 들어, 음악, 배경 잡음)를 목표로 하는 MDCT 기반 코덱(하기에서는 간단히 MDCT라고 함)이다. 혼합 컨텐츠 신호(예를 들어, 음성이 가미된 음악(speech over music))에서, 인코더 (및 결과적으로 또한 디코더)는 종종 두 가지 인코딩 체계 사이에서 스위칭한다. 그러면, 한 모드(또는 인코딩 체계)에서 다른 모드(또는 인코딩 체계)로 스위칭할 때 임의의 아티팩트(예를 들어, 불연속으로 인한 클릭)를 피할 필요가 있다.

스위칭형 오디오 코덱은 예를 들어, CELP 대 MDCT 전이에 의해 야기되는 문제를 포함할 수 있다.

CELP 대 MDCT 전이는 일반적으로 두 가지 문제를 유발한다. 이전 MDCT 프레임 누락으로 인해 앨리어싱이 도입될 수 있다. 저/중간 비트레이트에서 동작하는 두 가지 코딩 체계의 완벽하지 않은 파형 코딩 특성으로 인해 CELP 프레임과 MDCT 프레임 사이의 경계에서 불연속성이 도입될 수 있다.

CELP 대 MDCT 전이에 의해 도입된 문제를 해결하기 위한 몇 가지 접근법이 이미 존재하며, 다음에서 논의될 것이다.

가능한 접근법은 Jeremie Lecomte, Philippe Gournay, Ralf Geiger, Bruno Bessette 및 Max Neuendorf의 논문 "Efficient cross-fade windows for transitions between LPC-based and non-LPC based audio coding"(2009년 5월자 제126회 AES 컨벤션의 페이퍼 771쪽에서 제시됨)에 기술되어 있다. 이 논문은 섹션 4.4.2에서 "ACELP 대 비LPD 모드"의 접근법을 기술한다. 예를 들어, 상기 논문의 도 8에 대해 또한 참조가 이루어진다. 앨리어싱 문제는 먼저 MDCT 좌측 폴딩 포인트가 CELP와 MDCT 프레임 사이에서 경계의 좌측으로 이동되도록 MDCT 길이(여기서는 1024에서 1152까지)를 증가시키고, 그 다음에 오버랩이 감소되도록 MDCT 윈도우의 좌측 부분을 변경하고, 마지막으로 CELP 신호와 오버랩 및 추가 연산을 사용하여 누락된 앨리어싱을 인위적으로 도입함으로써 해결된다. 불연속성 문제는 오버랩 및 추가 연산에 의해 동시에 해결된다.

이 접근법은 잘 작동하지만 CELP 디코더에 지연을 도입하는 단점이 있으며, 지연은 오버랩 길이(여기서는 128 샘플)와 같다.

다른 접근법은 Bruno Bessette의 "Forward time domain aliasing cancellation with application in weighted or original signal domain"라는 발명의 명칭을 갖는 2014년 5월 13자 제US 8,725,503 B2호에 기술되어 있다.

이 접근법에서, MDCT 길이가 변경되지 않는다(MDCT 윈도우 형상도 변경되지 않는다). 앨리어싱 문제는 별개의 변환 기반 인코더를 사용하여 앨리어싱 보정 신호를 인코딩함으로써 본원에서 해결된다. 추가적인 부가 정보 비트가 비트스트림으로 전송된다. 디코더는 앨리어싱 보정 신호를 재구성하고 그것을 디코딩된 MDCT 프레임에 부가한다. 또한, CELP 합성 필터의 제로 입력 응답(zero input response; ZIR)은 앨리어싱 보정 신호의 진폭을 감소시키고 코딩 효율을 향상시키는데 사용된다. ZIR은 또한 불연속성 문제를 현저하게 감소시키는 것을 돕는다.

이 접근법은 또한 잘 작동하지만 단점은 상당한 양의 추가적인 부가 정보를 요구하고 요구되는 비트의 수가 일반적으로 가변적으로 이는 고정 비트레이트 코덱에 적합하지 않다는 점입니다.

다른 접근법은 Stephane Ragot, Balazs Kovesi 및 Pierre Berthet의 "Low-delay sound-encoding alternating between predictive encoding and transform encoding"이라는 발명의 명칭의 2013년 10월 31일자 미국 특허 출원 제US 2013/0289981 A1호에 기술되어 있다. 상기 접근법에 따르면, MDCT는 변경되지 않지만, 오버랩 길이를 감소시키기 위해 MDCT 윈도우의 좌측 부분이 변경된다. 앨리어싱 문제를 해결하기 위해, MDCT 프레임의 시작은 CELP 코덱을 사용하여 코딩되고, 그 다음에 (Jeremie Lecomte 등의 위에서 언급된 논문과 유사하게) MDCT 신호를 완전히 대체하거나 누락된 앨리어싱 성분을 인위적으로 도입함으로써 CELP 신호는 앨리어싱을 제거(cancel)하는 데 사용된다. 불연속성 문제는 Jeremie Lecomte 등의 논문과 유사한 접근법이 사용되는 경우 오버랩-추가 연산에 의해 해결되고, 그렇지 않으면 CELP 신호와 MDCT 신호 사이의 간단한 크로스 페이드(cross-fade) 동작에 의해 해결된다.

제US 8,725,503 B2호와 유사하게, 이 접근법은 일반적으로 잘 작동하지만 단점은 추가적인 CELP에 의해 도입되는 상당한 양의 부가 정보를 요구한다는 것이다.

위에서 설명된 종래의 해결책의 관점에서, 상이한 코딩 모드 사이에서 스위칭하기 위한 향상된 특성(예를 들어, 비트레이트 오버헤드, 지연 및 복잡성 사이의 향상된 트레이드오프)을 포함하는 개념을 가질 것에 대한 요구가 있다.

본 발명에 따른 실시예는 인코딩된 오디오 정보에 기초하여 디코딩된 오디오 정보를 제공하기 위한 오디오 디코더를 고안한다. 오디오 디코더는 선형 예측 도메인에서 인코딩된 오디오 프레임에 기초하여 제1 디코딩된 오디오 정보를 제공하도록 구성된 선형 예측 도메인 디코더 및 주파수 도메인에서 인코딩된 오디오 프레임에 기초하여 제2 디코딩 오디오 정보를 제공하도록 구성된 주파수 도메인 디코더를 포함한다. 오디오 디코더는 또한 전이 프로세서를 포함한다. 전이 프로세서는 선형 예측 필터링의 제로 입력 응답을 획득하도록 구성되며, 여기서 선형 예측 필터링의 초기 상태는 제1 디코딩된 오디오 정보 및 제2 디코딩된 오디오 정보에 의존하여 정의된다. 전이 프로세서는 또한 제로 입력 응답에 의존하여 선형 예측 도메인에서 인코딩된 오디오 프레임에 뒤따르는 주파수 도메인에서 인코딩된 오디오 프레임에 기초하여 제공되는 제2 디코딩된 오디오 정보를 수정하여, 제1 디코딩된 오디오 정보와 수정된 제2 디코딩된 오디오 정보 사이의 부드러운 전이를 획득하도록 구성된다.

오디오 디코더는 선형 예측 필터의 제로 입력 응답을 사용하여 제2 디코딩된 오디오 정보를 수정함으로써 선형 예측 도메인에서 인코딩된 오디오 프레임과 주파수 도메인에서 인코딩된 후속하는 오디오 프레임 사이에 부드러운 전이가 달성될 수 있다는 결과에 기초하므로, 선형 예측 필터링의 초기 상태가 제1 디코딩된 오디오 정보 및 제2 디코딩된 오디오 정보 양자 모두를 고려하는 것을 제공한다. 따라서, 제2 디코딩된 오디오 정보는 수정된 제2 디코딩된 오디오 정보의 시작이 제1 디코딩된 오디오 정보의 끝과 유사하도록 적응(수정)될 수 있으며, 이는 제1 오디오 프레임과 제2 오디오 프레임 사이의 실질적인 불연속성을 감소시키거나 심지어 피하는 것을 돕는다. 위에서 설명된 오디오 디코더와 비교하는 경우, 제2 디코딩된 오디오 정보가 어떠한 앨리어싱도 포함하지 않더라도 개념은 일반적으로 적용가능하다. 또한, "선형 예측 필터링"이라는 용어는 선형 예측 필터의 단일 애플리케이션 및 선형 예측 필터의 다중 애플리케이션 양자 모두를 지명할 수 있다는 것에 유의해야 하며, 여기서 선형 예측 필터가 통상적으로 선형이기 때문에, 선형 예측 필터의 단일 애플리케이션은 통상적으로 동일한 선형 예측 필터의 다중 애플리케이션과 동일하다는 것을 유의해야 한다.

결론적으로, 위에서 언급된 오디오 디코더는 선형 예측 도메인에서 인코딩된 제1 오디오 프레임과 주파수 도메인(또는 변환 도메인)에서 인코딩된 후속하는 제2 오디오 프레임 사이의 부드러운 전이를 획득할 수 있게 하며, 여기서 어떠한 지연도 도입되지 않고, 계산 노력은 비교적 작다.

본 발명에 따른 다른 실시예는 인코딩된 오디오 정보에 기초하여 디코딩된 오디오 정보를 제공하기 위한 오디오 디코더를 고안한다. 오디오 디코더는 선형 예측 도메인에서(또는 동등하게는, 선형 예측 도메인 표현에서) 인코딩된 오디오 프레임에 기초하여 제1 디코딩된 오디오 정보를 제공하도록 구성된 선형 예측 도메인 디코더를 포함한다. 오디오 디코더는 또한 주파수 도메인에서(또는 동등하게는, 주파수 도메인 표현에서) 인코딩된 오디오 프레임에 기초하여 제2 디코딩된 오디오 정보를 제공하도록 구성된 주파수 도메인 디코더를 포함한다. 오디오 디코더는 또한 전이 프로세서를 포함한다. 전이 프로세서는 제1 디코딩된 오디오 정보에 의해 정의된 선형 예측 필터의 제1 초기 상태에 응답하여 선형 예측 필터의 제1 제로 입력 응답을 획득하고, 인위적 앨리어싱이 제공되고 제2 디코딩된 오디오 정보의 일부의 기여분을 포함하는, 제1 디코딩된 오디오 정보의 수정된 버전에 의해 정의된 선형 예측 필터의 제2 초기 상태에 응답하여 선형 예측 필터의 제2 제로 입력 응답을 획득하도록 구성된다. 대안으로, 전이 프로세서는 인위적 앨리어싱이 제공되고 제2 디코딩된 오디오 정보의 일부의 기여분을 포함하는, 제1 디코딩된 오디오 정보와 제1 디코딩된 오디오 정보의 수정된 버전의 결합에 의해 정의된 선형 예측 필터의 초기 상태에 응답하여 선형 예측 필터의 결합된 제로 입력 응답을 획득하도록 구성된다. 전이 프로세서는 또한 제1 제로 입력 응답 및 제2 제로 입력 응답에 의존하여 또는 결합된 제로 입력 응답에 의존하여, 선형 예측 도메인에서 인코딩된 오디오 프레임에 뒤따르는 주파수 도메인에서 인코딩된 오디오 프레임에 기초하여 제공되는 제2 디코딩된 오디오 정보를 수정하여, 제1 디코딩된 오디오 정보와 수정된 제2 디코딩된 오디오 정보 사이의 부드러운 전이를 획득하도록 구성된다.

본 발명에 따른 이러한 실시예는 선형 예측 도메인에서 인코딩된 오디오 프레임과 주파수 도메인에서(또는 일반적으로 변환 도메인에서) 인코딩된 후속하는 오디오 프레임 사이의 부드러운 전이가 선형 예측 필터의 제로 입력 응답인 신호에 기초하여 제2 디코딩된 오디오 정보를 수정함으로써 획득될 수 있다는 결과에 기초하며, 선형 예측 필터의 초기 상태는 제1 디코딩된 오디오 정보 및 제2 디코딩된 오디오 정보 양자 모두에 의해 정의된다. 이러한 선형 예측 필터의 출력 신호는 제2 디코딩된 오디오 정보(예를 들어, 제1 오디오 프레임과 제2 오디오 프레임 사이의 전이에 바로 뒤따르는 제2 디코딩된 오디오 정보의 초기 부분)를 적응시키는 데 사용될 수 있어서, 제1 디코딩된 오디오 정보를 변경할 필요없이 (선형 예측 도메인에서 인코딩된 오디오 프레임과 관련된) 제1 디코딩된 오디오 정보와 (주파수 도메인에서 또는 변환 도메인에서 인코딩된 오디오 프레임과 연관된) 수정된 제2 디코딩된 오디오 정보 사이에 부드러운 전이가 있다.

선형 예측 필터의 제로 입력 응답은 선형 예측 필터의 초기 상태가 제1 디코딩된 오디오 정보 및 제2 디코딩된 오디오 정보 양자 모두에 기초하기 때문에 부드러운 전이를 제공하는 데 매우 적합하다는 것이 밝혀졌으며, 여기서 제2 디코딩된 오디오 정보에 포함된 앨리어싱은 제1 디코딩된 오디오 정보의 수정된 버전에 도입되는 인위적 앨리어싱에 의해 보상된다.

또한, 제1 디코딩된 오디오 정보를 변경하지 않으면서 제1 제로 입력 응답 및 제2 제로 입력 응답 또는 결합된 제로 입력 응답이 선형 예측 도메인에서 인코딩된 오디오 프레임과 주파수 도메인(또는 변환 도메인)에서 인코딩된 후속하는 오디오 프레임 사이의 전이를 부드럽게 하도록 매우 잘 적응되었기 때문에, 제1 디코딩된 오디오 정보는 변경되지 않은 채로 남겨두면서, 제1 제로 입력 응답 및 제2 제로 입력 응답에 기초하여 또는 결합된 제로 입력 응답에 의존하여 제2 디코딩된 오디오 정보를 수정함으로써 디코딩 지연이 요구되지 않음이 밝혀졌는데, 제1 제로 입력 응답 및 제2 제로 입력 응답 또는 결합된 제로 입력 응답이 제2 디코딩된 오디오 정보를 수정하여 제2 디코딩된 오디오 정보는 적어도 선형 예측 도메인에서 인코딩된 오디오 프레임과 주파수 도메인에서 인코딩된 후속하는 오디오 프레임 사이의 전이 시에 제1 디코딩된 오디오 정보와 실질적으로 유사하기 때문이다.

결론적으로, 본 발명에 따른 위에서 설명된 실시예는 선형 예측 코딩 도메인에서 인코딩된 오디오 프레임과 주파수 도메인(또는 변환 도메인)에서 인코딩된 후속하는 오디오 프레임 사이의 부드러운 전이를 제공할 수 있게 하며, 여기서 (주파수 도메인에서 인코딩된 후속하는 오디오 프레임과 연관된) 제2 디코딩된 오디오 정보만이 수정되기 때문에 추가적인 지연의 도입이 회피되고, 여기서 제1 디코딩된 오디오 정보 및 제2 오디오 정보 양자 모두를 고려하게 하는 제1 제로 입력 응답 및 제2 제로 입력 응답 또는 결합된 제로 입력 응답의 사용에 의해 (실질적인 아티팩트가 없는) 양호한 품질의 전이가 달성될 수 있다.

바람직한 실시예에서, 주파수 도메인 디코더는 제2 디코딩된 오디오 정보가 앨리어싱을 포함하도록 역 랩핑(lapped) 변환을 수행하도록 구성된다. 위의 발명 개념은 주파수 도메인 디코더(또는 변환 도메인 디코더)가 앨리어싱을 도입하는 경우에도 특히 잘 작동한다는 것이 밝혀졌다. 상기 앨리어싱은 제1 디코딩된 오디오 정보의 수정 버전에서 인위적 앨리어싱을 제공함으로써 적당한 노력과 양호한 결과로 제거될 수 있음이 밝혀졌다.

바람직한 실시예에서, 주파수 도메인 디코더는 선형 예측 도메인 디코더가 제1 디코딩된 오디오 정보를 제공하는 시간 부분과 시간적으로 오버랩하는 시간 부분에서 제2 디코딩된 오디오 정보는 앨리어싱을 포함하고, 선형 예측 도메인 디코더가 제1 디코딩된 오디오 정보를 제공하는 시간 부분 다음의 시간 부분에 대해 제2 디코딩된 오디오 정보는 앨리어싱이 없도록 역 랩핑 변환을 수행하도록 구성된다. 본 발명에 따른 이 실시예는 제1 디코딩된 오디오 정보가 제공되지 않는 시간 부분을 앨리어싱이 없는 상태로 유지하는 윈도윙 및 랩핑 변환(또는 역 랩핑 변환)을 사용하는 것이 유리하다는 아이디어에 기초한다. 제1 디코딩된 오디오 정보가 제공되지 않은 시간 동안 앨리어싱 제거 정보를 제공할 필요가 없는 경우, 제1 제로 입력 응답 및 제2 제로 입력 응답 또는 결합된 제로 입력 응답은 작은 계산 노력으로 제공될 수 있음이 밝혀졌다. 다시 말해서, (예를 들어, 인위적 앨리어싱을 사용하여) 앨리어싱이 실질적으로 제거되는 초기 상태에 기초하여 제1 제로 입력 응답 및 제2 제로 입력 응답 또는 결합된 제로 입력 응답을 제공하는 것이 바람직하다. 결과적으로, 제1 제로 입력 응답 및 제2 제로 입력 응답 또는 결합된 제로 입력 응답은 실질적으로 앨리어싱이 없으며, 선형 예측 도메인 디코더가 제1 디코딩된 오디오 정보를 제공하는 시간 기간 다음의 시간 기간에 대한 제2 디코딩된 오디오 정보 내에 앨리어싱을 갖지 않는 것이 바람직하다. 이 문제와 관련하여, 제2 디코딩된 오디오 정보 및 통상적으로 "오버랩하는" 시간 기간에 대한 제2 디코딩된 오디오 정보에 포함된 앨리어싱을 보상하는 인위적 앨리어싱을 고려하여, (제1 제로 입력 응답 및 제2 제로 입력 응답 또는 결합된 제로 입력 응답이 실질적으로 감쇠하는 제1 디코딩된 오디오 정보의 연속이기 때문에) 제1 제로 입력 응답 및 제2 제로 입력 응답 또는 결합된 제로 입력 응답은 통상적으로 선형 예측 도메인 디코더가 제1 디코딩된 오디오 정보를 제공하는 시간 기간 다음의 상기 시간 기간에 대해 제공된다는 것에 유의해야 한다.

바람직한 실시예에서, 제1 디코딩된 오디오 정보의 수정된 버전을 획득하는 데 사용되는 제2 디코딩된 오디오 정보의 부분은 앨리어싱을 포함한다. 제2 디코딩된 오디오 정보 내에서 일부 앨리어싱을 허용함으로써, 윈도윙은 간단하게 유지될 수 있고, 주파수 도메인에서 인코딩된 오디오 프레임을 인코딩하는 데 필요한 정보의 과도한 증가가 회피될 수 있다. 제1 디코딩된 오디오 정보의 수정된 버전을 획득하는 데 사용되는 제2 디코딩된 오디오 정보의 부분에 포함된 앨리어싱은 오디오 품질의 심각한 저하가 없도록 위에서 언급된 인위적 앨리어싱에 의해 보상될 수 있다.

바람직한 실시예에서, 제1 디코딩된 오디오 정보의 수정된 버전을 획득하는 데 사용되는 인위적 앨리어싱은 제2 디코딩된 오디오 정보의 부분에 포함된 앨리어싱을 적어도 부분적으로 보상하며, 제2 디코딩된 오디오 정보는 제1 디코딩된 오디오 정보의 수정된 버전을 획득하는 데 사용된다. 따라서, 양호한 오디오 품질을 획득하게 될 수 있다.

바람직한 실시예에서, 전이 프로세서는 제1 디코딩된 오디오 정보에 제1 윈도윙을 적용하여 제1 디코딩된 오디오 정보의 윈도윙된 버전을 획득하고, 제1 디코딩된 오디오 정보의 시간 미러링된(time-mirrored) 버전에 제2 윈도윙을 적용하여 제1 디코딩된 오디오 정보의 시간 미러링된 버전의 윈도화된 버전을 획득하도록 구성된다. 이 경우, 전이 프로세서는 제1 디코딩된 오디오 정보의 수정된 버전을 획득하기 위해, 제1 디코딩된 오디오 정보의 윈도윙된 버전 및 제1 디코딩된 오디오 정보의 시간 미러링된 버전의 윈도윙된 버전을 결합하도록 구성될 수 있다. 본 발명에 따른 이 실시예는 제로 입력 응답의 제공을 위한 입력으로 사용되는 제1 디코딩된 오디오 정보의 수정된 버전에서 앨리어싱의 적절한 제거를 획득하기 위해 일부 윈도윙이 적용되어야 한다는 아이디어에 기초한다. 따라서, 제로 입력 응답(예를 들어, 제2 제로 입력 응답 또는 결합된 입력 제로 응답)이 선형 예측 코딩 도메인에서 인코딩된 오디오 정보와 주파수 도메인에서 인코딩된 후속하는 오디오 프레임 사이의 전이를 부드럽게 하는데 매우 적합한 것이 달성될 수 있다.

바람직한 실시예에서, 전이 프로세서는 수정된 제2 디코딩된 오디오 정보를 획득하기 위해, 선형 예측 도메인 디코더에 의해 제1 디코딩된 오디오 정보가 제공되지 않는 시간 부분에 대해, 제2 디코딩된 오디오 정보를 제1 제로 입력 응답 및 제2 제로 입력 응답과 또는 결합된 제로 입력 응답과 선형적으로 결합하도록 구성된다. 단순한 선형 결합(예를 들어, 단순한 추가 및/또는 감산, 또는 가중 선형 결합, 또는 교차 페이딩 선형 결합)은 부드러운 전이의 제공에 매우 적합하다는 것이 밝혀졌다.

바람직한 실시예에서, 전이 프로세서는 선형 예측 도메인에서 인코딩된 오디오 프레임에 대한 디코딩된 오디오 정보를 제공할 때 제2 디코딩된 오디오 정보에 의해 제1 디코딩된 오디오 정보를 변경하지 않은 채로 남겨두도록 구성되어, 선형 예측 도메인에서 인코딩된 오디오 프레임에 대해 제공된 디코딩된 오디오 정보는 주파수 도메인에서 인코딩된 후속하는 오디오 프레임에 대해 제공된 디코딩된 오디오 정보와 독립적으로 제공된다. 본 발명에 따른 개념은 충분히 부드러운 전이를 획득하기 위해 제2 디코딩된 오디오 정보에 기초하여 제1 디코딩된 오디오 정보를 변경할 것을 요구하지 않는다는 것이 밝혀졌다. 따라서, 제1 디코딩된 오디오 정보를 제2 디코딩된 오디오 정보에 의해 변경되지 않은 채로 남겨둠으로써, 지연이 회피 될 수 있는데, (주파수 도메인에서 인코딩된 후속하는 오디오 프레임과 연관된) 제2 디코딩된 오디오 정보의 디코딩이 완료되기 전일지라도 (즉, 청취자에게) 렌더링을 위해 제1 디코딩된 오디오 정보가 결과적으로 제공될 수 있기 때문이다. 대조적으로, 제로 입력 응답 (제1 및 제2 제로 입력 응답 또는 결합된 제로 입력 응답)은 제2 디코딩된 오디오 정보가 이용 가능하자마자 계산될 수 있다. 따라서, 지연이 회피될 수 있다.

바람직한 실시예에서, 오디오 디코더는 주파수 도메인에서 인코딩된 오디오 프레임의 디코딩 전에(또는 디코딩을 완료하기 전에) 주파수 도메인에서 인코딩된 오디오 프레임이 뒤따르는 선형 예측 도메인에서 인코딩된 오디오 프레임에 대한 완전히 디코딩된 오디오 정보를 제공하도록 구성된다. 이러한 개념은 제1 디코딩된 오디오 정보가 제2 디코딩된 오디오 정보에 기초하여 수정되지 않고 어떠한 지연도 회피하는 것을 돕는다는 점 때문에 가능하다.

바람직한 실시예에서, 전이 프로세서는 윈도윙된 제1 제로 입력 응답 및 윈도윙된 제2 제로 입력 응답에 의존하여 또는 윈도윙되며 결합된 제로 입력 응답에 의존하여 제2 디코딩된 오디오 정보를 수정하기 전에, 제1 제로 입력 응답 및 제2 제로 입력 응답 또는 결합된 제로 입력 응답을 윈도윙하도록 구성된다. 따라서, 전이는 특히 부드럽게 이루어질 수 있다. 또한, 매우 긴 제로 입력 응답에서 기인할 임의의 문제가 회피될 수 있다.

바람직한 실시예에서, 전이 프로세서는 선형 윈도우를 사용하여 제1 제로 입력 응답 및 제2 제로 입력 응답 또는 결합된 제로 입력 응답을 윈도윙하도록 구성된다. 선형 윈도우의 사용은 단순한 개념이지만 그럼에도 불구하고 좋은 청각적 인상을 가져 오는 것으로 밝혀졌다.

본 발명에 따른 실시예는 인코딩된 오디오 정보에 기초하여 디코딩된 오디오 정보를 제공하기 위한 방법을 고안한다. 방법은 선형 예측 도메인에서 인코딩된 오디오 프레임에 기초하여 제1 디코딩된 오디오 정보를 제공하기 위해 선형 예측 도메인 디코딩을 수행하는 단계를 포함한다. 방법은 또한 주파수 도메인에서 인코딩된 오디오 프레임에 기초하여 제2 디코딩된 오디오 정보를 제공하기 위해 주파수 도메인 디코딩을 수행하는 단계를 포함한다. 방법은 또한 제1 디코딩된 오디오 정보에 의해 정의된 선형 예측 필터링의 제1 초기 상태에 응답하여 선형 예측 필터링의 제1 제로 입력 응답을 획득하고, 인위적 앨리어싱이 제공되고 제2 디코딩된 오디오 정보의 일부의 기여분을 포함하는 제1 디코딩된 오디오 정보의 수정된 버전에 의해 정의된 선형 예측 필터링의 제2 초기 상태에 응답하여 선형 예측 필터링의 제2 제로 입력 응답을 획득하는 단계를 포함한다. 대안으로, 방법은 인위적 앨리어싱이 제공되고 제2 디코딩된 오디오 정보의 일부의 기여분을 포함하는 제1 디코딩된 오디오 정보의 수정된 버전과 제1 디코딩된 오디오 정보의 결합에 의해 정의된 선형 예측 필터링의 초기 상태에 응답하여 선형 예측 필터링의 결합된 제로 입력 응답을 획득하는 단계를 포함한다. 방법은 제1 제로 입력 응답 및 제2 제로 입력 응답에 의존하여 또는 결합된 제로 입력 응답에 의존하여, 선형 예측 도메인에서 인코딩된 오디오 프레임에 뒤따르는 주파수 도메인에서 인코딩된 오디오 프레임에 기초하여 제공되는 제2 디코딩된 오디오 정보를 수정하여, 제1 디코딩된 오디오 정보와 수정된 제2 디코딩된 오디오 정보 사이의 부드러운 전이를 획득하는 단계를 더 포함한다. 이 방법은 위에서 설명된 오디오 디코더와 유사한 고려사항에 기초하고 동일한 이점을 제공한다.

본 발명에 따른 다른 실시예는 컴퓨터 프로그램이 컴퓨터 상에서 실행되는 경우 상기 방법을 수행하기 위한 컴퓨터 프로그램을 고안한다.

본 발명에 따른 다른 실시예는 인코딩된 오디오 정보에 기초하여 디코딩된 오디오 정보를 제공하기 위한 방법을 고안한다. 방법은 선형 예측 도메인에서 인코딩된 오디오 프레임에 기초하여 제1 디코딩된 오디오 정보를 제공하는 단계를 포함한다. 방법은 또한 주파수 도메인에서 인코딩된 오디오 프레임에 기초하여 제2 디코딩된 오디오 정보를 제공하는 단계를 포함한다. 방법은 또한 선형 예측 필터링의 제로 입력 응답을 획득하는 단계를 포함하며, 여기서 선형 예측 필터링의 초기 상태는 제1 디코딩된 오디오 정보 및 제2 디코딩된 오디오 정보에 의존하여 정의된다. 방법은 또한 제로 입력 응답에 의존하여 선형 예측 도메인에서 인코딩된 오디오 프레임에 뒤따르는 주파수 도메인에서 인코딩된 오디오 프레임에 기초하여 제공되는 제2 디코딩된 오디오 정보를 수정하여, 제1 디코딩된 오디오 정보와 수정된 제2 디코딩된 오디오 정보 사이의 부드러운 전이를 획득하는 단계를 포함한다.

이 방법은 위에서 설명된 오디오 디코더와 동일한 고려사항에 기초한다.

본 발명에 따른 다른 실시예는 상기 방법을 수행하기 위한 컴퓨터 프로그램을 포함한다.

본 발명에 따른 실시예는 첨부된 도면을 참조하여 후속하여 설명될 것이며, 여기서:
도 1은 본 발명의 실시예에 따른 오디오 디코더의 개략적 인 블록 개략도를 도시한다;
도 2는 본 발명의 다른 실시예에 따른 오디오 디코더의 블록 개략도를 도시한다;
도 3은 본 발명의 다른 실시예에 따른 오디오 디코더의 블록 개략도를 도시한다;
도 4a는 MDCT 인코딩된 오디오 프레임으로부터 다른 MDCT 인코딩된 오디오 프레임으로의 전이 시의 윈도우의 개략적 표현을 도시한다;
도 4b는 CELP 인코딩된 오디오 프레임으로부터 MDCT 인코딩된 오디오 프레임으로의 전이에 사용되는 윈도우의 개략적 표현을 도시한다;
도 5a, 도 5b 및 도 5c 는 종래의 오디오 디코더에서의 오디오 신호의 그래픽 표현을 도시한다;
도 6a, 도 6b, 도 6c 및 도 6d는 종래의 오디오 디코더에서의 오디오 신호의 그래픽 표현을 도시한다;
도 7a는 이전 CELP 프레임 및 제1 제로 입력 응답에 기초하여 획득된 오디오 신호의 그래픽 표현을 도시한다;
도 7b는 이전 CELP 프레임 및 제2 제로 입력 응답의 제2 버전인 오디오 신호의 그래픽 표현을 도시한다;
도 7c는 제2 제로 입력 응답이 현재 MDCT 프레임의 오디오 신호로부터 감산되는 경우에 획득되는 오디오 신호의 그래픽 표현을 도시한다;
도 8a는 이전 CELP 프레임에 기초하여 획득된 오디오 신호의 그래픽 표현을 도시한다;
도 8b는 현재 MDCT 프레임의 제2 버전으로서 획득되는 오디오 신호의 그래픽 표현을 도시한다; 그리고
도 8c는 이전 CELP 프레임에 기초하여 획득된 오디오 신호와 MDCT 프레임의 제2 버전인 오디오 신호의 결합인 오디오 신호의 그래픽 표현을 도시한다;
도 9는 본 발명의 실시예에 따른 디코딩된 오디오 정보를 제공하기 위한 방법의 흐름도를 도시한다; 그리고
도 10은 본 발명의 다른 실시예에 따른 디코딩된 오디오 정보를 제공하기 위한 방법의 흐름도를 도시한다.

5.1. 도 1에 따른 오디오 디코더

도 1은 본 발명의 실시예에 따른 오디오 디코더(100)의 블록 개략도를 도시한다. 오디오 인코더(100)는 예를 들어, 선형 예측 도메인에서 인코딩된 제1 프레임 및 주파수 도메인에서 인코딩된 후속하는 제2 프레임을 포함할 수 있는 인코딩된 오디오 정보(110)를 수신하도록 구성된다. 오디오 디코더(100)는 또한 인코딩된 오디오 정보(110)에 기초하여 디코딩된 오디오 정보(112)를 제공하도록 구성된다.

오디오 디코더(100)는 선형 예측 도메인에서 인코딩된 오디오 프레임에 기초하여 제1 디코딩된 오디오 정보(122)를 제공하도록 구성되는 선형 예측 도메인 디코더(120)를 포함한다. 오디오 디코더(100)는 또한 주파수 도메인에서(또는 변환 도메인에서) 인코딩된 오디오 프레임에 기초하여 제2 디코딩된 오디오 정보(132)를 제공하도록 구성되는 주파수 도메인 디코더(또는 변환 도메인 디코더(130))를 포함한다. 예를 들어, 선형 예측 도메인 인코더(120)는 CELP 디코더, ACELP 디코더, 또는 여기 신호에 기초하여 그리고 선형 예측 필터 특성(또는 필터 계수)의 인코딩된 표현에 기초하여 선형 예측 필터링을 수행하는 유사한 디코더일 수 있다.

주파수 도메인 디코더(130)는 예를 들어, AAC 타입 디코더 또는 AAC 타입 디코딩에 기초하는 임의의 디코더일 수 있다. 예를 들어, 주파수 도메인 디코더(또는 변환 도메인 디코더)는 주파수 도메인 파라미터(또는 변환 도메인 파라미터)의 인코딩된 표현을 수신하고, 그에 기초하여 제2 디코딩 된 오디오 정보를 제공할 수 있다. 예를 들어, 주파수 도메인 디코더(130)는 주파수 도메인 계수(또는 변환 도메인 계수)를 디코딩하고, 스케일 팩터에 의존하여 주파수 도메인 계수(또는 변환 도메인 계수)를 스케일링하고(여기서, 스케일 팩터는 상이한 주파수 대역에 대해 제공될 수 있고, 상이한 형태로 표현될 수 있다), 예를 들어, 역 고속 푸리에 변환 또는 역 수정 이산 코사인 변환(역 MDCT)과 같은 주파수 도메인 대 시간 도메인 컨버젼(또는 변환 도메인 대 시간 도메인 컨버젼)을 수행할 수 있다.

오디오 디코더(100)는 또한 전이 프로세서(140)를 포함한다. 전이 프로세서(140)는 선형 예측 필터링의 제로 입력 응답을 획득하도록 구성되며, 여기서 선형 예측 필터링의 초기 상태는 제1 디코딩된 오디오 정보 및 제2 디코딩된 오디오 정보에 의존하여 정의된다. 또한, 전이 프로세서(140)는 또한 제로 입력 응답에 의존하여 선형 예측 도메인에서 인코딩된 오디오 프레임에 뒤따르는 주파수 도메인에서 인코딩된 오디오 프레임에 기초하여 제공되는 제2 디코딩된 오디오 정보(132)를 수정하여, 제1 디코딩된 오디오 정보와 수정된 제2 디코딩된 오디오 정보 사이의 부드러운 전이를 획득하도록 구성된다.

예를 들어, 전이 프로세서(140)는 제1 디코딩된 오디오 정보(122) 및 제2 디코딩된 오디오 정보(132)를 수신하고 그에 기초하여 초기 상태 정보(146)를 제공하는 초기 상태 결정부(144)를 포함할 수 있다. 전이 프로세서(140)는 또한 초기 상태 정보(146)를 수신하고 그에 기초하여 제로 입력 응답(150)을 제공하는 선형 예측 필터링부(148)를 포함한다. 예를 들어, 선형 예측 필터링은 초기 상태 정보(146)에 기초하여 초기화되고 제로 입력이 제공되는 선형 예측 필터에 의해 수행될 수 있다. 따라서, 선형 예측 필터링은 제로 입력 응답(150)을 제공한다. 전이 프로세서(140)는 또한 제로 입력 응답(150)에 의존하여 제2 디코딩된 오디오 정보(132)를 수정하고, 그렇게 함으로써 전이 프로세서(140)의 출력 정보를 구성하는 수정된 제2 디코딩된 오디오 정보(142)를 획득하는 수정부(152)를 포함한다. 수정된 제2 디코딩된 오디오 정보(142)는 통상적으로 제1 디코딩된 오디오 정보(122)와 연결되어, 디코딩된 오디오 정보(112)를 획득한다.

오디오 디코더(100)의 기능과 관련하여, 선형 예측 도메인에서 인코딩된 오디오 프레임(제1 오디오 프레임) 다음에 주파수 도메인에서 인코딩된 오디오 프레임(제2 오디오 프레임)이 뒤따르는 경우가 고려되어야 한다. 선형 예측 도메인에서 인코딩된 제1 오디오 프레임은 선형 예측 도메인 디코더(120)에 의해 디코딩될 것이다. 따라서, 제1 오디오 프레임과 연관되는 제1 디코딩된 오디오 정보(122)가 획득된다. 그러나, 제1 오디오 프레임과 연관된 디코딩된 오디오 정보(122)는 통상적으로 주파수 도메인에서 인코딩된 제2 오디오 프레임에 기초하여 디코딩된 임의의 오디오 정보에 의해 영향을 받지 않은 채로 남아 있다. 그러나, 제2 디코딩된 오디오 정보(132)는 주파수 도메인에서 인코딩된 제2 오디오 프레임에 기초하여 주파수 도메인 디코더(130)에 의해 제공된다.

안타깝게도, 제2 오디오 프레임과 연관된 제2 디코딩된 오디오 정보(132)는 통상적으로 제1 디코딩된 오디오 정보와 연관된 제1 디코딩된 오디오 정보(122)와의 부드러운 전이를 포함하지 않는다.

그러나, 제2 디코딩된 오디오 정보는 제1 오디오 프레임과 연관된 시간 기간과 또한 오버랩하는 시간 기간에 대해 제공된다는 점에 유의해야 한다. 제1 오디오 프레임의 시간 동안 제공되는 제2 디코딩된 오디오 정보의 부분(즉, 제2 디코딩된 오디오 정보(132)의 초기 부분)은 초기 상태 결정부(144)에 의해 평가된다. 또한, 초기 상태 결정부(144)는 또한 제1 디코딩된 오디오 정보의 적어도 일부를 평가한다. 따라서, 초기 상태 결정부(144)는 제1 디코딩된 오디오 정보의 부분(이 부분은 제1 오디오 프레임의 시간과 연관됨)에 기초하여 그리고 제2 디코딩된 오디오 정보의 부분(제2 디코딩된 오디오 정보(130)의 부분은 또한 제1 오디오 프레임의 시간과 연관됨)에 기초하여 초기 상태 정보(146)를 획득한다. 따라서, 초기 상태 정보(146)는 제1 디코딩된 정보(132)에 의존하여 그리고 제2 디코딩된 오디오 정보에도 의존하여 제공된다.

초기 상태 정보(146)는 제2 디코딩된 오디오 정보(132)(또는 초기 상태 결정부(144)에 의해 요구되는 제2 디코딩된 오디오 정보의 적어도 초기 부분)가 이용 가능하자마자 제공될 수 있다는 것에 유의해야 한다. 선형 예측 필터링부(148)는 또한 초기 상태 정보(146)가 이용 가능하자 마자 수행될 수 있는데, 선형 예측 필터링이 제1 오디오 프레임의 디코딩으로부터 이미 알려진 필터링 계수를 사용하기 때문이다. 따라서, 제2 디코딩된 오디오 정보(132)(또는 초기 상태 결정부(144)에 의해 요구되는 제2 디코딩된 오디오 정보의 적어도 초기 부분)가 이용 가능하자마자 제로 입력 응답(150)이 제공될 수 있다. 또한, 제로 입력 응답(150)은 (제1 오디오 프레임의 시간보다는) 제2 오디오 프레임의 시간과 연관된 제2 디코딩된 오디오 정보(132)의 해당 부분을 수정하는데 사용될 수 있다. 따라서, 통상적으로 제2 오디오 프레임과 연관된 시간의 시작에 놓이는 제2 디코딩된 오디오 정보의 부분이 수정된다. 결과적으로, (통상적으로 제1 오디오 프레임과 연관된 시간의 끝에서 종료하는) 제1 디코딩된 오디오 정보(122)와 수정된 제2 디코딩된 오디오 정보(142) 사이의 부드러운 전이가 달성된다(여기서, 제1 오디오 프레임과 연관된 시간을 갖는 제2 디코딩된 오디오 정보(132)의 시간 부분은 바람직하게는 폐기되고, 따라서 바람직하게는 선형 예측 필터링을 위한 초기 상태 정보의 제공에만 사용된다). 따라서, 전체 디코딩된 오디오 정보(112)는 지연없이 제공될 수 있는데, (제1 디코딩 된 오디오 정보(122)가 제2 디코딩된 오디오 정보(132)로부터 독립적이기 때문에) 제1 디코딩된 오디오 정보(122)의 제공이 지연되지 않기 때문이고, 제2 디코딩된 오디오 정보(132)가 이용 가능하자마자 수정된 제2 디코딩된 오디오 정보(142)가 제공될 수 있기 때문이다. 따라서, 선형 예측 도메인에서 인코딩된 오디오 프레임(제1 오디오 프레임)으로부터 주파수 도메인에서 인코딩된 오디오 프레임(제2 오디오 프레임)으로의 스위칭이 있더라도, 상이한 오디오 프레임 사이의 부드러운 전이가 디코딩 된 오디오 정보(112) 내에서 달성될 수 있다.

그러나, 오디오 디코더(100)는 본원에 설명된 특징 및 기능 중 임의의 것으로 보충될 수 있음에 유의해야 한다.

5.2. 도 2에 따른 오디오 디코더

도 2는 본 발명의 다른 실시예에 따른 오디오 디코더의 블록 개략도를 도시한다. 오디오 디코더(200)는 예를 들어, 선형 예측 도메인에서(또는 동등하게는, 선형 예측 도메인 표현에서) 인코딩된 하나 이상의 프레임, 및 주파수 도메인에서(또는 동등하게는, 변환 도메인에서, 또는 동등하게는 주파수 도메인 표현에서, 또는 동등하게는 변환 도메인 표현에서) 인코딩된 하나 이상의 오디오 프레임을 포함할 수 있는 인코딩된 오디오 정보(210)를 수신하도록 구성된다. 오디오 디코더(200)는 인코딩된 오디오 정보(210)에 기초하여 디코딩된 오디오 정보(212)를 제공하도록 구성되며, 여기서 디코딩된 오디오 정보(212)는 예를 들어, 시간 도메인 표현으로 있을 수 있다.

오디오 디코더(200)는 위의 설명이 적용되도록 하는, 선형 예측 도메인 디코더(120)와 실질적으로 동일한 선형 예측 도메인 디코더(220)를 포함한다. 따라서, 선형 예측 도메인 디코더(210)는 인코딩된 오디오 정보(210)에 포함된 선형 예측 도메인 표현으로 인코딩된 오디오 프레임을 수신하고, 선형 예측 도메인 표현으로 인코딩된 오디오 프레임에 기초하여, 통상적으로 시간 도메인 오디오 표현의 형태인(그리고 통상적으로 제1 디코딩된 오디오 정보(122)에 대응하는) 제1 디코딩된 오디오 정보(222)를 제공한다. 오디오 디코더(200)는 위의 설명이 적용되도록 하는, 주파수 디코더(130)와 실질적으로 동일한 주파수 도메인 디코더(230)를 또한 포함한다. 따라서, 주파수 도메인 디코더(230)는 주파수 도메인 표현으로(또는 변환 도메인 표현으로) 인코딩된 오디오 프레임을 수신하고, 그에 기초하여, 통상적으로 시간 도메인 표현의 형태인 제2 디코딩된 오디오 정보(232)를 제공한다.

오디오 디코더(200)는 또한 제2 디코딩된 오디오 정보(232)를 수정하고, 그렇게 함으로써 수정된 제2 디코딩된 오디오 정보(242)를 도출하도록 구성된 전이 프로세서(240)를 포함한다.

전이 프로세서(240)는 제1 디코딩된 오디오 정보(222)에 의해 정의된 선형 예측 필터의 초기 상태에 응답하여 선형 예측 필터의 제1 제로 입력 응답을 획득하도록 구성된다. 전이 프로세서는 또한 인위적 앨리어싱이 제공되고 제2 디코딩된 오디오 정보(232)의 부분의 기여분을 포함하는 제1 디코딩된 오디오 정보의 수정된 버전에 의해 정의된 선형 예측 필터의 제2 초기 상태에 응답하여 선형 예측 필터의 제2 제로 입력 응답을 획득하도록 구성된다. 예를 들어, 전이 프로세서(240)는 제1 디코딩된 오디오 정보(222)를 수신하고 그에 기초하여 제1 초기 상태 정보(244)를 제공하는 초기 상태 결정부(242)를 포함한다. 예를 들어, 제1 초기 상태 정보(244)는 제1 디코딩된 오디오 정보(222)의 부분, 예를 들어 제1 오디오 프레임과 연관된 시간 부분의 끝에 인접한 부분을 단순히 반영할 수 있다. 전이 프로세서(240)는 또한 초기 선형 예측 필터 상태로서 제1 초기 상태 정보(244)를 수신하고, 제1 초기 상태 정보(244)에 기초하여, 제1 제로 입력 응답(248)을 제공하도록 구성되는 (제1) 선형 예측 필터링부(246)를 포함할 수 있다. 전이 프로세서(240)는 또한 제1 디코딩된 오디오 정보(222) 또는 그것의 적어도 일부(예를 들어, 제1 오디오 프레임과 연관된 시간 부분의 끝에 인접한 부분), 및 더불어 제2 디코딩된 정보(232) 또는 그것의 적어도 일부(예를 들어, 제1 오디오 프레임과 연관된 시간 부분의 끝에 시간적으로 배열되는 제2 디코딩된 오디오 정보(232)의 시간 부분, 여기서 제2 디코딩된 오디오 정보는 예를 들어 주로 제2 오디오 프레임과 연관된 시간 부분에 대해 제공되나, 어느 정도는 선형 예측 도메인 표현으로 인코딩된 제1 오디오 프레임과 연관된 시간 부분의 끝에 대해 제공됨)를 수신하도록 구성되는 수정/앨리어싱 추가/결합부(250)를 포함한다. 수정/앨리어싱 추가/결합부는 예를 들어, 제1 디코딩된 오디오 정보의 시간 부분을 수정하고, 제1 디코딩된 오디오 정보의 시간 부분에 기초하여 인위적 앨리어싱을 추가하고, 또한 제2 디코딩된 오디오 정보의 시간 부분을 추가함으로써, 제2 초기 상태 정보(252)를 획득한다. 다시 말해, 수정/앨리어싱 추가/결합부는 제2 초기 상태 결정부의 일부일 수 있다. 제2 초기 상태 정보는 제2 초기 상태 정보에 기초하여 제2 제로 입력 응답(256)을 제공하도록 구성되는 제2 선형 예측 필터(254)의 초기 상태를 결정한다.

예를 들어, 제1 선형 예측 필터링 및 제2 선형 예측 필터링은 (이는 선형 예측 도메인 표현으로 인코딩되는) 제1 오디오 프레임에 대해 선형 예측 도메인 디코더(220)에 의해 제공되는 필터 설정(예를 들어, 필터 계수)을 사용할 수 있다. 다시 말해, 제1 및 제2 선형 예측 필터링부(246, 254)는 제1 오디오 프레임과 연관된 제1 디코딩된 오디오 정보(222)를 획득하기 위해 선형 예측 도메인 디코더(220)에 의해 또한 수행되는 동일한 선형 예측 필터링을 수행할 수 있다. 그러나, 제1 및 제2 선형 예측 필터링부(246, 254)의 초기 상태는 제1 초기 상태 결정 부(244)에 의해 그리고 (수정/앨리어싱 추가/결합부를 포함하는) 제2 초기 상태 결정부(250)에 의해 결정된 값으로 설정될 수 있다. 그러나, 선형 예측 필터(246, 254)의 입력 신호는 제로로 설정될 수 있다. 따라서, 제1 제로 입력 응답(248) 및 제2 제로 입력 응답(256)은 제1 제로 입력 응답 및 제2 제로 입력 응답이 제1 디코딩된 오디오 정보 및 제2 디코딩된 오디오 정보에 기초하여 획득되고, 선형 예측 도메인 디코더(220)에 의해 사용되는 것과 동일한 선형 예측 필터를 사용하여 형성된다.

전이 프로세서(240)는 또한 제2 인코딩된 오디오 정보(232)를 수신하고, 제1 제로 입력 응답(248)에 의존하고 제2 제로 입력 응답(256)에 의존하여 제2 디코딩된 오디오 정보(232)를 수정함으로써, 수정된 제2 디코딩된 오디오 정보(242)를 획득하는 수정부(258)를 포함한다. 예를 들어, 수정부(258)는 제2 디코딩된 오디오 정보(232)에 또는 그로부터 제1 제로 입력 응답(248)을 추가 및/또는 감산할 수 있고, 제2 디코딩된 오디오 정보에 또는 그로부터 제2 제로 입력 응답(256)을 추가 또는 감산하여 수정된 제2 디코딩된 오디오 정보(242)를 획득할 수 있다.

예를 들어, 제1 제로 입력 응답 및 제2 제로 입력 응답은 제2 오디오 프레임과 연관되는 시간 기간에 대해 제공될 수 있어서, 제2 오디오 프레임의 시간 기간과 연관되는 제2 디코딩된 오디오 정보의 부분만이 수정된다. 또한, 제1 오디오 프레임과 연관되는 시간 부분과 연관되는 제2 디코딩된 오디오 정보(232)의 값은 (제로 입력 응답에 기초하여) 수정된 제2 디코딩된 오디오 정보의 최종 제공에서 폐기될 수 있다.

또한, 오디오 디코더(200)는 바람직하게는 제1 디코딩된 오디오 정보(222)와 수정된 제2 디코딩된 오디오 정보(242)를 연결하고, 그렇게 함으로써 전체 디코딩된 오디오 정보(212)를 획득하도록 구성된다.

오디오 디코더(200)의 기능과 관련하여, 오디오 디코더(100)의 위의 설명이 참조된다. 또한, 다른 도면을 참조하여 추가적인 세부사항이 다음에서 설명될 것이다.

5.3. 도 3에 따른 오디오 디코더

도 3은 본 발명의 실시예에 따른 오디오 디코더(300)의 블록 개략도를 도시한다. 오디오 디코더(300)는 오디오 디코더(200)와 유사하므로, 차이점만이 상세히 설명될 것이다. 그렇지 않으면, 오디오 디코더(200)에 대해 앞서 제시된 위에 설명된 내용이 참조된다.

오디오 디코더(300)는 인코딩된 오디오 정보(210)에 대응할 수 있는 인코딩된 오디오 정보(310)를 수신하도록 구성된다. 또한, 오디오 디코더(300)는 디코딩된 오디오 정보(212)에 대응할 수 있는 디코딩된 오디오 정보(312)를 제공하도록 구성된다.

오디오 디코더(300)는 선형 예측 도메인 디코더(220)에 대응할 수 있는 선형 예측 도메인 디코더(320) 및 주파수 도메인 디코더(230)에 대응하는 주파수 도메인 디코더(330)를 포함한다. 선형 예측 도메인 디코더(320)는 예를 들어 선형 예측 도메인에서 인코딩된 제1 오디오 프레임에 기초하여 제1 디코딩된 오디오 정보(322)를 제공한다. 또한, 주파수 도메인 오디오 디코더(330)는 예를 들어 주파수 도메인에서(또는 변환 도메인에서) 인코딩된 (제1 오디오 프레임에 뒤따르는) 제2 오디오 프레임에 기초하여 제2 디코딩된 오디오 정보(332)를 제공한다. 제1 디코딩된 오디오 정보(322)는 제1 디코딩된 오디오 정보(222)에 대응할 수 있고, 제2 디코딩된 오디오 정보(332)는 제2 디코딩된 오디오 정보(232)에 대응할 수 있다.

오디오 디코더(300)는 또한 전체 기능면에서 전이 프로세서(340)에 대응할 수 있고, 제2 디코딩된 오디오 정보(332)에 기초하여 수정된 제2 디코딩된 오디오 정보(342)를 제공할 수 있는 전이 프로세서(340)를 포함한다.

전이 프로세서(340)는 인위적 앨리어싱이 제공되고 제2 디코딩된 오디오 정보의 일부의 기여분을 포함하는 제1 디코딩된 오디오 정보의 수정된 버전과 제1 디코딩된 오디오 정보의 결합에 의해 정의된 선형 예측 필터의 (결합된) 초기 상태에 응답하여 선형 예측 필터의 결합된 제로 입력 응답을 획득하도록 구성된다. 또한, 전이 프로세서는 결합된 제로 입력 응답에 의존하여 선형 예측 도메인에서 인코딩된 오디오 프레임에 뒤따르는 주파수 도메인에서 인코딩된 오디오 프레임에 기초하여 제공되는 제2 디코딩된 오디오 정보를 수정하여, 제1 디코딩된 오디오 정보와 수정된 제2 디코딩된 오디오 정보 사이의 부드러운 전이를 획득하도록 구성된다.

예를 들어, 전이 프로세서(340)는 제1 디코딩된 오디오 정보(322) 및 제2 디코딩된 오디오 정보(332)를 수신하고, 그에 기초하여 결합된 초기 상태 정보(344)를 제공하는 수정/앨리어싱 추가/결합부(342)를 포함한다. 예를 들어, 수정/앨리어싱 추가/결합은 초기 상태 결정으로 고려될 수 있다. 수정/앨리어싱 추가/결합부(342)는 초기 상태 결정부(242) 및 초기 상태 결정부(250)의 기능을 수행할 수 있음에 또한 유의해야 한다. 결합된 초기 상태 정보(344)는 예를 들어, 제1 초기 상태 정보(244) 및 제2 초기 상태 정보(252))의 합과 동일할 수 있다(또는 적어도 이에 대응한다). 따라서, 수정/앨리어싱 추가/결합부(342)는 예를 들어, 제1 디코딩된 오디오 정보(322)의 일부를 인위적 앨리어싱 및 더불어 제2 디코딩된 오디오 정보(332)의 일부와 결합할 수 있다. 또한, 수정/앨리어싱 추가/결합부(342)는 또한 이하에서 보다 상세히 설명되는 바와 같이, 제1 디코딩된 오디오 정보의 부분을 수정하고/하거나 제1 디코딩된 오디오 정보(322)의 윈도윙된 사본을 추가할 수 있다. 이에 따라, 결합된 초기 상태 정보(344)가 획득된다.

전이 프로세서(340)는 또한 결합된 초기 상태 정보(344)를 수신하고, 그에 기초하여 수정부(350)에 결합된 제로 입력 응답(348)을 제공하는 선형 예측 필터링부(346)를 포함한다. 선형 예측 필터링부(346)는 예를 들어, 선형 예측 디코더(320)에 의해 수행되어 제1 디코딩된 오디오 정보(322)를 획득하는 선형 예측 필터링과 실질적으로 동일한 선형 예측 필터링을 수행할 수 있다. 그러나, 선형 예측 필터링부(346)의 초기 상태는 결합된 초기 상태 정보(344)에 의해 결정될 수 있다. 또한, 결합된 제로 입력 응답(348)을 제공하기 위한 입력 신호는 제로로 설정될 수 있어서, 선형 예측 필터링부(344)는 결합된 초기 상태 정보(344)에 기초하여 제로 입력 응답을 제공한다(여기서 필터링 파라미터 또는 필터링 계수는 예를 들어, 제1 오디오 프레임과 연관된 제1 디코딩된 오디오 정보(322)를 제공하기 위해 선형 예측 도메인 디코더(320)에 의해 사용되는 필터링 파라미터 또는 필터링 계수와 동일하다). 또한, 결합된 제로 입력 응답(348)은 제2 디코딩된 오디오 정보(332)를 수정하고, 그렇게 함으로써 수정된 제2 디코딩된 오디오 정보(342)를 도출하는 데 사용된다. 예를 들어, 수정부(350)은 결합된 제로 입력 응답(348)을 제2 디코딩된 오디오 정보(332)에 추가할 수 있거나, 제2 디코딩된 오디오 정보로부터 결합된 제로 입력 응답을 감산할 수 있다.

그러나, 보다 상세한 설명을 위해, 오디오 디코더(100, 200)의 설명 및 더불어 다음의 상세한 설명을 참조한다.

5.4. 전이 개념에 대한 논의

다음에서, 오디오 디코더(100, 200, 300)에 적용 가능한 CELP 프레임으로부터 MDCT 프레임으로의 전이에 관한 몇몇 세부사항이 설명될 것이다.

또한, 종래의 개념과 비교한 차이점이 설명될 것이다.

MDCT 및 윈도윙 - 개요

본 발명에 따른 실시예에서, 앨리어싱 문제는 (예를 들어, 역 MDCT 변환을 사용하여 MDCT 계수들의 세트에 기초하여 재구성된 시간 도메인 오디오 신호의) 좌측 폴딩 포인트 CELP와 MDCT 프레임 사이에서 경계의 좌측으로 이동되도록 (예를 들어, 선형 예측 도메인에서 인코딩된 오디오 프레임에 뒤따르는 MDCT 도메인에서 인코딩된 오디오 프레임에 대해) MDCT 길이를 증가시킴으로써 해결된다. (예를 들어, "정상" MDCT 윈도우와 비교하여) MDCT 윈도우(예를 들어, 역 MDCT 변환을 사용하여 MDCT 계수의 세트에 기초하여 재구성된 시간 도메인 오디오 신호에 적용되는 윈도우)의 좌측 부분이 또한 변경되어, 오버랩이 감소된다.

예로서, 도 4a 및 도 4b는 상이한 윈도우의 그래픽 표현을 도시하며, 여기서 도 4a는 제1 MDCT 프레임(즉, 주파수 도메인에서 인코딩된 제1 오디오 프레임)으로부터 다른 MDCT 프레임(즉, 주파수 도메인에서 인코딩된 제2 오디오 프레임)으로의 전이를 위한 윈도우를 도시한다. 대조적으로, 도 4b는 CELP 프레임(즉, 선형 예측 도메인에서 인코딩된 제1 오디오 프레임)으로부터 MDCT 프레임(즉, 뒤따르는, 주파수 도메인에서 인코딩된 다음의 제2 오디오 프레임)으로의 전이를 위해 사용되는 윈도우를 도시한다.

다시 말해, 도 4a는 비교 예로서 고려될 수 있는 오디오 프레임의 시퀀스를 도시한다. 대조적으로, 도 4b는 제1 오디오 프레임이 선형 예측 도메인에서 인코딩되고 주파수 도메인에서 인코딩된 제2 오디오 프레임이 뒤따르는 시퀀스를 도시하며, 여기서 도 4b에 따른 경우는 본 발명의 실시예에 의해 특히 유리한 방식으로 취급된다.

이제 도 4a를 참조하면, 가로 좌표(410)는 밀리초로 시간을 기술하고, 세로 좌표(412)는 임의의 단위로 윈도우의 진폭(예를 들어, 윈도우의 정규화된 진폭)을 기술한다는 것에 유의해야 한다. 알 수 있는 바와 같이, 프레임 길이는 20 ms와 동일하므로, 제1 오디오 프레임과 연관된 시간 기간은 t = -20 ms와 t = 0 사이에서 연장된다. 제2 오디오 프레임과 연관된 시간 기간은 시간 t = 0에서 t = 20 ms까지 연장된다. 그러나, 디코딩된 MDCT 계수에 기초하여 역 수정된 이산 코사인 변환에 의해 제공되는 시간 도메인 오디오 샘플을 윈도윙하기 위한 제1 윈도우는 시간 t = -20 ms와 t = 8.75 ms 사이에 연장됨을 알 수 있다. 따라서, 제1 윈도우(420)의 길이는 프레임 길이(20ms)보다 길다. 따라서, t = -20 ms와 t = 0 사이의 시간이 제1 오디오 프레임에 연관되더라도, 시간 도메인 오디오 샘플은 t = -20 ms와 t = 8.75 ms 사이의 시간 동안 제1 오디오 프레임의 디코딩에 기초하여 제공된다. 따라서, 제1 인코딩된 오디오 프레임에 기초하여 제공된 시간 도메인 오디오 샘플과 제2 디코딩된 오디오 프레임에 기초하여 제공된 시간 도메인 오디오 샘플 사이에 대략 8.75 ms의 오버랩이 있다. 제2 윈도우는 422로 지정되고 시간 t = 0과 t = 28.75 ms 사이에서 연장된다는 것에 유의해야 한다.

또한, 제1 오디오 프레임에 대해 제공되고 제2 오디오 프레임에 대해 제공된 윈도윙된 시간 도메인 오디오 신호는 앨리어싱 없는 것이 아니라는 점에 유의해야 한다. 오히려, 제1 오디오 프레임에 제공된 윈도윙된 (제2) 디코딩된 오디오 정보는 시간 t = -20 ms와 t = -1.125 ms 사이의 그리고 시간 t = 0과 t = 8.75 ms 사이의 앨리어싱을 포함한다. 유사하게, 제2 오디오 프레임에 대해 제공된 윈도윙된 디코딩된 오디오 정보는 시간 t = 0과 t = 8.75 ms 사이 그리고 또한 시간 t = 20 ms와 t = 28.75 ms 사이의 앨리어싱을 포함한다. 그러나, 예를 들어, 제1 오디오 프레임에 대해 제공된 디코딩된 오디오 정보에 포함된 앨리어싱은 시간 t = 0과 t = 8.75ms 사이의 시간 부분에서 후속하는 제2 오디오 프레임에 대해 제공된 디코딩된 오디오 정보에 포함된 앨리어싱을 상쇄한다.

또한, 윈도우(420 및 422)에 대해, MDCT 폴딩 포인트 사이의 시간 지속기간은 프레임 길이와 동일한 20ms와 동일하다는 것에 유의해야 한다.

이제 도 4b를 참조하여, 상이한 경우, 즉 제2 디코딩된 오디오 정보를 제공하기 위해 오디오 디코더(100,200,300)에서 사용될 수 있는 CELP 프레임으로부터 MDCT 프레임으로의 전이를 위한 윈도우가 설명될 것이다. 도 4b에서, 가로 좌표(430)는 밀리초로 시간을 기술하고, 세로 좌표(432)는 윈도우의 진폭을 임의의 단위로 기술한다.

도 4b에서, 제1 프레임은 시간 t₁ = -20 ms와 시간 t₂ = 0ms 사이에서 연장된다. 따라서, CELP 오디오 프레임인 제1 오디오 프레임의 프레임 길이는 20ms이다. 또한, 제2, 후속하는 오디오 프레임은 시간 t₂와 t₃ = 20 ms 사이에서 연장된다. 따라서, MDCT 오디오 프레임인 제2 오디오 프레임의 길이도 20 ms이다.

다음에서, 윈도우(440)에 관한 몇 가지 세부사항이 설명될 것이다.

윈도우(440)는 시간 t₄ = - 1.25 ms와 시간 t₂ = 0 ms 사이에서 연장되는 제1 윈도우 슬로프(442)를 포함한다. 제2 윈도우 슬로프(444)는 시간 t₃ = 20ms와 시간 t₅ = 28.75 ms 사이에서 연장된다. 제2 오디오 프레임에 대한(또는 그와 연관된) (제2) 디코딩된 오디오 정보를 제공하는 수정된 이산 코사인 변환은 시간 t₄와 t₅ 사이의 시간 도메인 샘플을 제공함에 유의해야 한다. 그러나, (주파수 도메인 예를 들어, MDCT 도메인에서 인코딩된 오디오 프레임이 선형 예측 도메인에서 인코딩된 오디오 프레임을 뒤따르는 경우, 주파수 도메인 디코더(130,230,330)에서 사용될 수 있는) 수정된 이산 코사인 변환(또는, 보다 정확하게는 역 수정된 이산 코사인 변환)은 제2 오디오 프레임의 주파수 도메인 표현에 기초하여 t₄와 t₂ 사이의 시간에 대한 그리고 시간 t₃과 t₅ 사이의 시간에 대한 앨리어싱을 포함하는 시간 도메인 샘플을 제공한다. 대조적으로, 역 수정된 이산 코사인 변환은 제2 오디오 프레임의 주파수 도메인 표현에 기초하여 시간 t₂와 t₃ 사이의 시간 기간에 대한 앨리어싱이 없는 시간 도메인 샘플을 제공한다. 따라서, 제1 윈도우 슬로프(442)는 약간의 앨리어싱을 포함하는 시간 도메인 오디오 샘플과 연관되고, 제2 윈도우 슬로프(444)는 또한 약간의 앨리어싱을 포함하는 시간 도메인 오디오 샘플과 연관된다.

또한, MDCT 폴딩 포인트 사이의 시간은 제2 오디오 프레임에 대해 25 ms와 동일하다는 것에 유의해야 하며, 이는 다수의 인코딩된 MDCT 계수가 도 4a에 도시된 상황에 대해서보다 도 4b에 도시된 상황에 대해서 더 커야 함을 의미한다.

결론적으로, 오디오 디코더(100, 200, 300)는 제1 오디오 프레임 및 제1 오디오 프레임에 뒤따르는 제2 오디오 프레임 양자 모두가 주파수 도메인에서(예를 들어, MDCT 도메인에서) 인코딩되는 경우에 (예를 들어, 주파수 도메인 디코더에서 역 수정된 이산 코사인 변환의 출력의 윈도윙을 위해) 윈도우(420, 422)를 적용할 수 있다. 반면에, 오디오 디코더(100, 200, 300)는 선형 예측 도메인에서 인코딩된 제1 오디오 프레임을 뒤따르는 제2 오디오 프레임이 주파수 도메인에서(예를 들어, MDCT 도메인에서) 인코딩되는 경우에 주파수 도메인 디코더의 동작을 스위칭할 수 있다. 예를 들어, 제2 오디오 프레임이 MDCT 도메인에서 인코딩되고 CELP 도메인에서 인코딩된 이전 제1 오디오 프레임을 뒤따르는 경우, 증가된 수의 MDCT 계수들을 사용하는 역 수정된 이산 코사인 변환이 사용될 수 있다(이는 주파수 도메인에서 또한 인코딩된 이전 오디오 프레임에 뒤따르는 인코딩된 오디오 프레임의 주파수 도메인 표현과 비교할 때, 선형 예측 도메인에서 인코딩된 이전 오디오 프레임에 뒤따르는 오디오 프레임의 주파수 도메인 표현에서 인코딩된 형태로 증가된 수의 MDCT 계수가 포함됨을 의미한다). 또한, (제2 (현재) 오디오 프레임이 또한 주파수 도메인에서 인코딩된 이전 오디오 프레임을 뒤따르는 경우와 비교할 때) 주파수 도메인에서 인코딩된 제2 (현재) 오디오 프레임이 선형 예측 도메인에서 인코딩된 오디오 프레임을 뒤따르는 경우에 제2 디코딩된 오디오 정보(132)를 획득하기 위해 역 수정된 이산 코사인 변환의 출력(즉, 역 수정된 이산 코사인 변환에 의해 제공되는 시간 도메인 오디오 표현)을 윈도윙하기 위해 상이한 윈도우, 즉 윈도우(440)가 적용된다.

또한 결론적으로, (정상적인 경우와 비교할 때) 증가된 길이를 갖는 역 수정된 이산 코사인 변환은 주파수 도메인에서 인코딩된 오디오 프레임이 선형 예측 도메인에서 인코딩된 오디오 프레임을 뒤따르는 경우에 주파수 도메인 디코더(130)에 의해 적용될 수 있다. 또한, 이 경우에 윈도우(440)가 사용될 수 있다(반면 윈도우(420, 422)는 주파수 도메인에서 인코딩된 오디오 프레임이 주파수 도메인에서 인코딩된 이전 오디오 도메인을 뒤따르는 "정상적인" 경우에 사용될 수 있다).

본 발명의 개념과 관련하여, CELP 신호는 아래에서 보다 상세히 보여지는 바와 같이 임의의 추가적인 지연을 도입하지 않도록 수정되지 않는다는 것을 유의해야 한다. 대신에, 본 발명에 따른 실시예는 CELP와 MDCT 프레임 사이의 경계에서 도입될 수 있는 임의의 불연속성을 제거하는 메커니즘을 생성한다. 이 메커니즘은 (예를 들어, 선형 예측 도메인 디코더에 의해 사용되는) CELP 합성 필터의 제로 입력 응답을 사용하여 불연속성을 부드럽게 한다. 세부사항이 다음에서 주어진다.

단계별 설명 - 개관

다음에서는, 짧은 단계별 설명이 제공될 것이다. 후속하여, 보다 세부사항이 주어질 것이다.

인코더 측

1. 이전 프레임(때로는 "제1 프레임"으로도 지칭됨)이 CELP인 경우(또는 일반적으로 선형 예측 도메인에서 인코딩되는 경우), (주파수 도메인 또는 변환 도메인에서 인코딩된 프레임의 예로서 간주될 수 있는) 현재 MDCT 프레임(때로는 "제2 프레임"이라고도 지칭됨)은 상이한 MDCT 길이 및 상이한 MDCT 윈도우로 인코딩된다. 예를 들어, 이 경우 ("정상적인" 윈도우(422)보다는) 윈도우(440)가 사용될 수 있다.

2. 좌측 폴딩 포인트가 CELP와 MDCT 프레임 사이에서 경계의 좌측으로 이동되도록 MDCT 길이가 증가된다(예를 들어, 20ms에서 25ms로, 도 4a 및 도 4b를 참조). 예를 들어, (이는 MDCT 계수들의 수에 의해 정의될 수 있는) MDCT 길이는 (도 4a에 도시된 바와 같이) 20 ms의 MDCT 폴딩 포인트 사이의 "정상적인" 길이와 비교할 때, MDCT 폴딩 포인트의 길이(또는 그 사이)가 (도 4b에 도시된 바와 같이) 25 ms와 동일하도록 선택될 수 있다. 또한, MDCT 변환의 "좌측" 폴딩 포인트는 (t = 0과 t = 8.75 ms 사이의 중간보다는) 시간 t₄와 t₂ 사이에 놓여 있으며, 이는 도 4b에서 알 수 있다. 그러나, 우측 MDCT 폴딩 포인트의 위치는 (예를 들어, 시간 t₃과 t₅ 사이의 중간에서) 변경되지 않은 채로 남아 있을 수 있으며, 이는 도 4a와 도 4b의 (또는 보다 정확하게는 윈도우(422 및 440)의) 비교로부터 알 수 있다.

3. (예를 들어, 8.75ms에서 1.25ms로) 오버랩 길이가 감소되도록 MDCT 윈도우의 좌측 부분이 변경된다. 예를 들어, 이전 오디오 프레임이 선형 예측 도메인에서 인코딩되는 경우 앨리어싱을 포함하는 부분은 시간 t₄=-1.25ms와 t₂=0 사이에(즉, t=0에서 시작하여 t=20ms에서 종료하는 제2 오디오 프레임과 연관된 시간 주기 전에)) 놓인다. 대조적으로, 이전 오디오 프레임이 주파수 도메인에서(예를 들어, MDCT 도메인에서) 인코딩되는 경우 앨리어싱을 포함하는 신호 부분은 시간 t = 0과 t = 8.75 ms 사이에 놓인다.

디코더 측

1. (제1 오디오 프레임으로도 지칭되는) 이전 프레임이 CELP(또는 일반적으로 선형 예측 도메인에서 인코딩됨)인 경우, (제2 오디오 프레임으로도 지칭되는) (이는 주파수 도메인 또는 변환 도메인에서 인코딩된 프레임의 예인) 현재 MDCT 프레임은 인코더 측에서 사용된 것과 동일한 MDCT 길이 및 동일한 MDCT 윈도우로 디코딩된다. 다르게 말하면, 도 4b에 도시된 윈도윙이 제2 디코딩된 오디오 정보의 제공에 적용되고, (인코더의 측에서 사용된 수정된 이산 코사인 변환의 특성에 대응하는) 역 수정된 이산 코사인 변환에 관한 위에서 언급된 특성이 또한 적용될 수 있다.

2. CELP와 MDCT 프레임 사이의 경계에서(예를 들어, 위에서 언급된 제1 오디오 프레임과 제2 오디오 프레임 사이의 경계에서) 발생할 수 있는 임의의 불연속성을 제거하기 위해, 다음의 메커니즘이 사용된다:

a) 신호의 제1 부분은 CELP 신호(예를 들어, 제1 디코딩된 오디오 정보를 사용하여)와 오버랩 및 추가 연산을 사용하여 MDCT 신호의 오버랩 부분의(예를 들어, 역 수정된 이산 코사인 변환에 의해 제공된 시간 도메인 오디오 신호의 시간 t₄와 t₂ 사이의 신호 부분의) 누락된 앨리어싱을 인위적으로 도입함으로써 구성된다. 신호의 제1 부분의 길이는 예를 들어, 오버랩 길이(예를 들어, 1.25 ms)와 동일하다.

b) 신호의 제2 부분은 대응하는 CELP 신호(프레임 경계 바로 앞에, 예를 들어, 제1 오디오 프레임과 제2 오디오 프레임 사이에 위치하는 부분)로 신호의 제1 부분을 감산함으로써 구성된다.

c) CELP 합성 필터의 제로 입력 응답은 제로의 프레임을 필터링하고 메모리 상태로서 (또는 초기 상태로서) 신호의 제2 부분을 사용함으로써 생성된다.

d) 제로 입력 응답은 예를 들어, 다수의 샘플(예를 들어, 64개) 후에 제로로 감소하도록 윈도윙된다.

e) 윈도윙된 입력 제로 입력 응답은 MDCT 신호의 시작 부분(예를 들어, 시간 t₂ = 0에서 시작하는 오디오 부분)에 추가된다.

단계별 설명 - 디코더 기능의 상세한 설명

다음에서, 디코더의 기능이 보다 상세히 설명될 것이다.

다음 표시가 적용될 것이다: 프레임 길이는 N으로 표시되고, 디코딩된 CELP 신호는

로 표시되고, (윈도윙된 오버랩 신호를 포함하는) 디코딩된 MDCT 신호는

로 표시되고, MDCT 신호의 좌측 부분을 윈도윙하는 데 사용되는 윈도우는

이며 L은 윈도우 길이이고, CELP 합성 필터는

으로 표시되며

이고 M은 필터 순서이다.

단계 1의 상세한 설명

디코더 측 단계 1(인코더 측에서 사용되는 것과 동일한 MDCT 길이 및 동일한 MDCT 윈도우로 현재 MDCT 프레임을 디코딩) 후에, 현재 디코딩된 MDCT 프레임(예를 들어, 위에서 언급된 제2 디코딩된 오디오 정보를 구성하는 "제2 오디오 프레임"의 시간 도메인 표현)을 얻는다. (예를 들어, 도 4b를 참조하여 상세히 설명된 바와 같은 개념을 사용하여) 좌측 폴딩 포인트가 CELP와 MDCT 프레임 사이에서 경계의 좌측으로 이동되었기 때문에, 이 프레임(예를 들어, 제2 프레임)은 어떠한 앨리어싱도 포함하지 않는다. 이것은 현재 프레임에서(예를 들어, 충분히 높은 비트레이트로 시간 t₂ = 0 과 t₃ = 20 ms 사이에서) 완벽한 재구성을 얻을 수 있음을 의미한다. 그러나, 낮은 비트레이트에서, 신호는 입력 신호와 반드시 매칭할 필요가 없으므로, CELP와 MDCT 사이의 경계에서(예를 들어, 도 4b에 도시된 바와 같이 시간 t = 0에서) 불연속성이 도입될 수 있다.

이해를 용이하게 위해, 이 문제는 도 5를 참조하여 설명될 것이다. 상단 플롯(도 5a)은 디코딩된 CELP 신호

를 도시하고, 가운데 플롯(도 5b)은 (윈도윙된 오버랩 신호를 포함하는) 디코딩된 MDCT 신호

를 도시하고, 하단 플롯(도 5c)은 출력 신호 윈도윙된 오버랩 신호를 폐기하고 CELP 프레임과 MDCT 프레임을 연결함으로써 획득된 출력 신호를 도시한다. 두 프레임 사이의 경계에서(예를 들어, 시간 t = 0 ms에서) (도 5c에 도시된) 출력 신호에 명확하게 불연속성이 있다.

추가 프로세싱의 비교 예

이 문제에 대한 하나의 가능한 해결책은 MPEG USAC에서 사용된 개념을 설명하는, 위에서 언급된 참조문헌 1(J. Lecomte 등의 "Efficient cross-fade windows for transitions between LPC-based and non-LPC based audio coding")에서 제안된 접근법이다. 다음에서, 상기 참조 접근법의 간단한 설명이 제공될 것이다.

제2 버전의 디코딩된 CELP 신호

는 우선 디코딩된 CELP 신호와 동일하게 초기화되고

그 다음에 누락된 앨리어싱이 오버랩 영역에 인위적으로 도입되고

마지막으로, 디코딩된 CELP 신호의 제2 버전은 오버랩 및 추가 연산을 사용하여 획득된다.

도 6a 내지 도 6d에 도시된 바와 같이, 이러한 비교 접근법은 불연속성을 제거한다 (특히, 도 6d 참조). 이 접근법의 문제는 현재 프레임이 디코딩된 후에 과거 프레임이 수정되기 때문에, (오버랩 길이와 동일한) 추가적인 지연을 도입한다는 것이다. 저 지연 오디오 코딩과 같은 일부 애플리케이션에서는, 가능한 한 작은 지연을 갖는 것이 바람직하다(또는 심지어 요구된다).

프로세싱 단계의 상세한 설명

위에서 언급된 종래의 접근법과 대조적으로, 불연속성을 제거하기 위해 본원에서 제안된 접근법은 임의의 추가적인 지연을 갖지 않는다. (제1 오디오 프레임으로도 지칭되는) 과거 CELP 프레임을 수정하지 않고, 대신에 (선형 예측 도메인에서 인코딩된 제1 오디오 프레임에 뒤따르는 주파수 도메인에서 인코딩된 제2 오디오 프레임으로도 지칭되는) 현재 MDCT 프레임을 수정한다.

단계 a)

제1 단계에서 과거 ACELP 프레임의 "제2 버전"

이 앞서 설명된 바와 같이 계산된다. 예를 들어, 다음 계산을 사용할 수 있다:

제2 버전의 디코딩된 CELP 신호

는 우선 디코딩된 CELP 신호와 동일하게 초기화되고

그러나, 참고문헌 1(J. Lecomte 등의 "Efficient cross-fade windows for transitions between LPC-based and non-LPC-based audio coding")과 달리, 임의의 추가적인 지연을 도입하지 않기 위해, 과거 디코딩된 ACELP 신호는 과거 ACELP 프레임의 이 버전으로 대체되지 않는다. 이것은 다음 단계에서 설명되는 바와 같이 현재 MDCT 프레임을 수정하기 위한 중간 신호로 사용된다.

달리 말하면, 초기 상태 결정부(144), 수정/앨리어싱 추가/결합부(250) 또는 수정/앨리어싱 추가/결합부(342)는 예를 들어, 신호

를 초기 상태 정보(146) 또는 결합된 초기 상태 정보(344)에 대한 기여분으로서, 또는 제2 초기 상태 정보(252)로서 제공할 수 있다. 따라서, 초기 상태 결정부(144), 수정/앨리어싱 추가/결합부(250) 또는 수정/앨리어싱 추가/결합부(342)는 예를 들어, 디코딩된 CELP 신호

(윈도우 값

w

과의 곱셈)에 윈도윙을 적용하고, 윈도윙 (

)로 스케일링된 디코딩된 CELP 신호의 시간 미러링된 버전 (

)을 윈도우에 추가하고, 디코딩된 MDCT 신호

를 추가함으로써, 초기 상태 정보(146, 344)에 대한 기여분을 획득하거나, 심지어 제2 초기 상태 정보(252)를 획득할 수 있다.

단계 b)

그 개념은 또한 CELP 합성 필터에 대한 (초기 상태라고도 지칭되는) 2개의 상이한 메모리를 사용하여 (일반적으로 선형 예측 필터로 간주될 수 있는) CELP 합성 필터의 제로 입력 응답(ZIR)을 계산함으로써 2개의 신호를 생성하는 것을 포함한다.

제1 ZIR

는 이전 디코딩된 CELP 신호

를 CELP 합성 필터에 대한 메모리로 사용하여 생성된다.

여기서 M ≤ L

제2 ZIR

은 이전 디코딩된 CELP 신호의 제2 버전

을 CELP 합성 필터에 대한 메모리로 사용하여 생성된다.

여기서 M ≤ L

제1 제로 입력 응답 및 제2 제로 입력 응답은 별도로 계산될 수 있음에 유의해야 하고, 여기서 제1 제로 입력 응답은 (예를 들어, 초기 상태 결정부(242) 및 선형 예측 필터링부(246)를 사용하여) 제1 디코딩된 오디오 정보에 기초하여 획득될 수 있고, 여기서 제2 제로 입력 응답은 예를 들어, 제1 디코딩된 오디오 정보(222) 및 제2 디코딩된 오디오 정보(232)에 의존하여 "과거 CELP 프레임의 제2 버전

"을 제공할 수 있는 수정/앨리어싱 추가/결합부(250)를 사용하여, 그리고 또한 제2 선형 예측 필터링부(254)를 사용하여 계산될 수 있다. 그러나, 대안으로, 단일 CELP 합성 필터링이 적용될 수 있다. 예를 들어, 선형 예측 필터링부(148, 346)가 적용될 수 있으며, 여기서

및

의 합은 상기 (결합된) 선형 예측 필터링을 위한 입력으로 사용된다.

이는 선형 예측 필터링이 결과를 변경하지 않고 필터링 전이나 필터링 후에 결합이 수행될 수 있도록 하는 선형 연산이라는 사실 때문이다. 그러나, 부호에 따라

와

사이의 차이가 또한 (결합된) 선형 예측 필터링의 초기 상태(n

에 대해)로 사용될 수 있다.

결론적으로, 제1 초기 상태 정보

(

) 및 제2 초기 상태 정보

(

) 는 개별적으로 또는 결합 된 방식으로 획득될 수 있다. 또한, 제1 및 제2 제로 입력 응답은 개별 초기 상태 정보의 개별 선형 예측 필터링 또는 결합된 초기 상태 정보에 기초한 (결합된) 선형 예측 필터링을 사용하여 획득될 수 있다.

다음에서 보다 상세히 설명될 도 7의 플롯에 도시된 바와 같이,

및

는 연속이고,

및

는 연속이다. 또한,

와

가 또한 연속적이기 때문에

는 0에 매우 가까운 값에서 시작하는 신호이다.

도 7을 참조하여, 몇몇 세부사항이 설명될 것이다.

도 7a는 이전 CELP 프레임 및 제1 제로 입력 응답의 그래픽 표현을 도시한다. 가로 좌표(710)는 밀리초로 시간을 기술하고, 세로 좌표(712)는 임의의 단위의 진폭을 기술한다.

예를 들어, (제1 오디오 프레임이라고도 지정되는) 이전 CELP 프레임에 제공된 오디오 신호는 시간 t₇₁과 t₇₂ 사이에 나타내어진다. 예를 들어, n < 0에 대한 신호

는 시간 t₇₁과 t₇₂ 사이에 나타내어진다. 또한, 제1 제로 입력 응답은 시간 t₇₂와 t₇₃ 사이에 나타내어질 수 있다. 예를 들어, 제1 제로 입력 응답

은 시간 t₇₂와 t₇₃ 사이에 나타내어질 수 있다.

도 7b는 이전 CELP 프레임의 제2 버전 및 제2 제로 입력 응답의 그래픽 표현을 나타낸다. 가로 좌표는 720으로 지정되고, 밀리초로 시간을 나타낸다. 세로 좌표는 722로 지정되고, 임의의 단위로 진폭을 나타낸다. 이전 CELP 프레임의 제2 버전은 시간 t₇₁(-20 ms)과 t₇₂(0 ms) 사이에 나타내어지고, 제2 제로 입력 응답은 시간 t₇₂와 t₇₃(+20 ms) 사이에 나타내어진다. 예를 들어, n < 0 인 신호

은 시간 t₇₁과 t₇₂ 사이에 나타내어진다. 또한, n ≥ 0에 대해 신호

는 시간 t₇₂와 t₇₃ 사이에 나타내어진다.

또한,

와

사이의 차이가 도 7c에 도시되는데, 여기서 가로 좌표(730)는 밀리초로 시간을 지정하고, 여기서 세로 좌표(732)는 임의의 단위로 진폭을 지정한다.

또한, n ≥ 0 에 대해 제1 제로 입력 응답

은 n < 0 에 대한 신호

의 (실질적으로) 안정한 연속임에 유의해야 한다. 유사하게, n ≥ 0에 대한 제2 제로 입력 응답

은 n < 0에 대한 신호

의 (실질적으로) 안정한 연속이다.

단계 c)

현재 MDCT 신호(예를 들어, 제2 디코딩된 오디오 정보(132, 232, 332))는 현재 MDCT(즉, 현재의, 제2 오디오 프레임과 연관된 MDCT 신호)의 제2 버전(142, 242, 342)으로 대체된다.

와

는 연속적이라는 것을 보여주는 것은 간단하다:

및

이 연속적이고,

은 0에 매우 가까운 값에서 시작한다.

예를 들어,

는 제2 디코딩된 오디오 정보(132, 232, 323)에 의존하여, 그리고 (예를 들어, 도 2에 도시된 바와 같은) 제1 제로 입력 응답

및 제2 제로 입력 응답

에 의존하여, 또는 결합된 제로 입력 응답(예를 들어, 결합된 제로 입력 응답

(150, 348))에 의존하여, 수정부(152, 258, 350)에 의해 결정될 수 있다. 도 8의 플롯에서 볼 수 있는 바와 같이, 제안된 접근법은 불연속성을 제거한다.

예를 들어, 도 8a는 이전 CELP 프레임에 대한(예를 들어, 제1 디코딩된 오디오 정보의) 신호의 그래픽 표현을 도시하고, 여기서 가로 좌표(810)는 밀리초로 시간을 기술하고, 여기서 세로 좌표(812)는 임의의 단위로 진폭을 기술한다. 알 수 있는 바와 같이, 제1 디코딩된 오디오 정보는 (예를 들어, 선형 예측 도메인 디코딩에 의해) 시간 t₈₁(-20 ms)과 t₈₂(0 ms) 사이에 제공된다.

또한, 도 8b에서 알 수 있는 바와 같이, (도 4b에 도시된 바와 같이) 제2 디코딩된 오디오 정보(132, 232, 332)가 통상적으로 시간 t₄에서부터 시작하여 제공될지라도, 현재 MDCT 프레임의 제2 버전(예를 들어, 수정된 제2 디코딩된 오디오 정보(142, 242, 342))은 오직 시간 t₈₂(0 ms)에서부터 시작하여 제공된다. (도 4b에 도시된 바와 같이) 시간 t₄와 t₂ 사이에 제공된 제2 디코딩된 오디오 정보(132, 232, 332)는 현재 MDCT 프레임의 제2 버전(신호

)의 제공을 위해 직접적으로 사용되지 않고, 신호 구성요소

의 제공에만 사용됨에 유의해야 한다. 명료함을 위해, 가로 좌표(820)는 밀리초로 시간을 지정하고, 세로 좌표(822)는 임의의 단위로 진폭을 지정한다는 것을 유의해야 한다.

도 8c는 (도 8a에 도시된 바와 같은) 이전 CELP 프레임과 (도 8b에 도시된 바와 같은) 현재 MDCT 프레임의 제2 버전의 연결을 도시한다. 가로 좌표(830)는 밀리초로 시간을 기술하고, 세로 좌표(832)는 임의의 단위의 진폭을 기술한다. 알 수 있는 바와 같이, (시간 t₈₁과 t₈₂ 사이의) 이전 CELP 프레임과 (도 4b에 도시된, 시간 t₈₂에서 시작하여 예를 들어, 시간 t₅에서 종료하는) 현재 MDCT 프레임의 제2 버전 사이에 실질적으로 연속적인 전이가 있다. 따라서, (선형 예측 도메인에서 인코딩된) 제1 프레임에서 (주파수 도메인에서 인코딩된) 제2 프레임으로의 전이 시에 가청 왜곡이 방지된다.

고속으로 완벽한 재구성이 이루어짐을 보여주는 것도 간단하다: 고속에서

및

는 매우 유사하고 양자 모두 입력 신호와 매우 유사하고, 2개의 ZIR이 매우 유사하고, 결과적으로 2개의 ZIR의 차이는 0에 매우 가깝고 최종적으로

는

과 매우 유사하고 양자 모두는 입력 신호와 매우 유사하다.

단계 d)

선택적으로, 전체 현재 MDCT 프레임에 영향을 미치지 않기 위해 윈도우가 2개의 ZIR에 적용될 수 있다. 이는 예를 들어, 복잡성을 감소시키거나, 또는 ZIR이 MDCT 프레임의 끝에서 0에 가까워지지 않는 경에 유용하다.

윈도우의 일 예는 길이 P의 단순 선형 윈도우 v(n)이며,

이며, 예를 들어, P = 64이다.

예를 들어, 윈도우는 제로 입력 응답(150), 제로 입력 응답(248, 256) 또는 결합된 제로 입력 응답(348)을 프로세싱할 수 있다.

5.8. 도 9에 따른 방법

도 9는 인코딩된 오디오 정보에 기초하여 디코딩된 오디오 정보를 제공하는 방법의 플로차트를 도시한다. 방법(900)은 선형 예측 도메인에서 인코딩된 오디오 프레임에 기초하여 제1 디코딩된 오디오 정보를 제공하는 단계(910)를 포함한다. 방법(900)은 또한 주파수 도메인에서 인코딩된 오디오 프레임에 기초하여 제2 디코딩된 오디오 정보를 제공하는 단계(920)를 포함한다. 방법(900)은 또한 선형 예측 필터링의 제로 입력 응답을 획득하는 단계(930)를 포함하며, 여기서 선형 예측 필터링의 초기 상태는 제1 디코딩된 오디오 정보 및 제2 디코딩된 오디오 정보에 의존하여 정의된다.

방법(900)은 또한 제로 입력 응답에 의존하여 선형 예측 도메인에서 인코딩된 오디오 프레임에 뒤따르는 주파수 도메인에서 인코딩된 오디오 프레임에 기초하여 제공되는 제2 디코딩된 오디오 정보를 수정하여, 제1 디코딩된 오디오 정보와 수정된 제2 디코딩된 오디오 정보 사이의 부드러운 전이를 획득하는 단계(940)를 포함한다.

방법(900)은 본원에서 또한 오디오 디코더에 대해 설명된 특징 및 기능 중 임의의 것으로 보충될 수 있다.

5.10. 도 10에 따른 방법

도 10은 인코딩된 오디오 정보에 기초하여 디코딩된 오디오 정보를 제공하는 방법(1000)의 플로차트를 도시한다.

방법(1000)은 선형 예측 도메인에서 인코딩된 오디오 프레임에 기초하여 제1 디코딩된 오디오 정보를 제공하기 위해 선형 예측 도메인 디코딩을 수행하는 단계(1010)를 포함한다.

방법(1000)은 또한 주파수 도메인에서 인코딩된 오디오 프레임에 기초하여 제2 디코딩된 오디오 정보를 제공하기 위해 주파수 도메인 디코딩을 수행하는 단계(1020)를 포함한다.

방법(1000)은 또한 제1 디코딩된 오디오 정보에 의해 정의된 선형 예측 필터링의 제1 초기 상태에 응답하여 선형 예측 필터링의 제1 제로 입력 응답을 획득하는 단계(1030), 및 인위적 앨리어싱이 제공되고 제2 디코딩된 오디오 정보의 일부의 기여분을 포함하는 제1 디코딩된 오디오 정보의 수정된 버전에 의해 정의된 선형 예측 필터링의 제2 초기 상태에 응답하여 선형 예측 필터링의 제2 제로 입력 응답을 획득하는 단계(1040)를 포함한다.

대안으로, 방법(1000)은 인위적 앨리어싱이 제공되고 제2 디코딩된 오디오 정보의 일부의 기여분을 포함하는 제1 디코딩된 오디오 정보의 수정된 버전과 제1 디코딩된 오디오 정보의 결합에 의해 정의된 선형 예측 필터링의 초기 상태에 응답하여 선형 예측 필터링의 결합된 제로 입력 응답을 획득하는 단계(1050)를 포함한다.

방법(1000)은 제1 제로 입력 응답 및 제2 제로 입력 응답에 의존하여 또는 결합된 제로 입력 응답에 의존하여, 선형 예측 도메인에서 인코딩된 오디오 프레임에 뒤따르는 주파수 도메인에서 인코딩된 오디오 프레임에 기초하여 제공되는 제2 디코딩된 오디오 정보를 수정하여, 제1 디코딩된 오디오 정보와 수정된 제2 디코딩된 오디오 정보 사이의 부드러운 전이를 획득하는 단계(1060)를 또한 포함한다.

방법(1000)은 본원에서 또한 오디오 디코더에 대해 설명된 특징 및 기능 중 임의의 것으로 보충될 수 있음에 유의해야 한다.

6. 결론

결론적으로, 본 발명에 따른 실시예는 CELP 대 MDCT 전이에 관한 것이다. 이러한 전이는 일반적으로 두 가지 문제를 도입한다:

1. 누락된 이전 MDCT 프레임으로 인한 앨리어싱; 및

2. 저/중간 비트레이트에서 동작하는 두 가지 코딩 체계의 완벽하지 않은 파형 코딩 특성으로 인한 CELP 프레임과 MDCT 프레임 사이의 경계에서의 불연속성.

본 발명에 따른 실시예에서, 앨리어싱 문제는 좌측 폴딩 포인트가 CELP와 MDCT 프레임 사이에서 경계의 좌측으로 이동되도록 MDCT 길이를 증가시킴으로써 해결된다. MDCT 윈도우의 좌측 부분도 오버랩이 감소되도록 변경된다. 종래의 해결책과 달리, CELP 신호는 임의의 추가적인 지연을 도입하지 않기 위해 수정되지 않는다. 대신, CELP와 MDCT 프레임 사이의 경계에서 도입될 수 있는 임의의 불연속성을 제거하는 메커니즘이 생성된다. 이 메커니즘은 CELP 합성 필터의 제로 입력 응답을 사용하여 불연속성을 부드럽게 한다. 추가적인 세부사항이 본원에서 설명된다.

7. 대안 구현

몇몇 양상들이 장치의 맥락에서 설명되었지만, 이들 양상이 또한 대응하는 방법의 설명을 나타내는 것이 명백하며, 여기서 블록 및 디바이스는 방법 단계 또는 방법 단계의 특징에 대응한다. 유사하게, 방법 단계의 문맥에서 설명된 양상은 또한 대응하는 블록 또는 품목 또는 대응하는 장치의 특징의 설명을 나타낸다. 방법 단계의 일부 또는 전부는 예를 들어, 마이크로프로세서, 프로그램 가능 컴퓨터 또는 전자 회로와 같은 하드웨어 장치에 의해 (또는 사용하여) 실행될 수 있다. 일부 실시예에서, 가장 중요한 방법 단계 중 하나 이상이 그러한 장치에 의해 실행될 수 있다.

본 발명의 인코딩된 오디오 신호는 디지털 저장 매체에 저장될 수 있거나 인터넷과 같은 유선 송신 매체 또는 무선 송신 매체와 같은 송신 매체를 통해 송신될 수 있다.

특정 구현 요건에 따라, 본 발명의 실시예는 하드웨어로 또는 소프트웨어로 구현될 수 있다. 구현은 각각의 방법이 수행되도록 프로그래밍 가능한 컴퓨터 시스템과 협력하는(또는 협력할 수 있는) 전기적으로 판독 가능한 제어 신호가 저장된, 디지털 저장 매체, 예를 들어, 플로피 디스크, DVD, 블루 레이, CD, ROM, PROM, EPROM, EEPROM 또는 플래시 메모리를 사용하여 수행될 수 있다. 따라서, 디지털 저장 매체는 컴퓨터 판독 가능일 수 있다.

본 발명에 따른 일부 실시예는 본원에 설명된 방법 중 하나가 수행되도록 프로그램 가능 컴퓨터 시스템과 협력할 수 있는 전자 판독 가능 제어 신호를 갖는 데이터 캐리어를 포함한다.

일반적으로, 본 발명의 실시예는 컴퓨터 프로그램 제품이 컴퓨터 상에서 구동될 때 방법들 중 하나를 수행하도록 동작하는 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로서 구현될 수 있다. 프로그램 코드는 예를 들어, 머신 판독 가능 캐리어에 저장될 수 있다.

다른 실시예는 기계 판독 가능 캐리어 상에 저장된, 본원에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다.

다시 말해, 본 발명의 방법의 실시예는, 따라서, 컴퓨터 프로그램이 컴퓨터 상에서 구동될 때, 본원에 설명된 방법 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.

따라서, 본 발명의 방법의 다른 실시예는 그 위에 기록된, 본원에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함하는 데이터 캐리어(또는 디지털 저장 매체 또는 컴퓨터 판독 가능 매체)이다. 데이터 캐리어, 디지털 저장 매체 또는 기록 매체는 통상적으로 유형 및/또는 비일시적이다.

따라서, 본 발명의 방법의 다른 실시예는 본원에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 나타내는 데이터 스트림 또는 신호의 시퀀스이다. 데이터 스트림 또는 신호의 시퀀스는 데이터 통신 접속을 통해, 예를 들어, 인터넷을 통해 전송되도록 구성될 수 있다.

다른 실시예는 본원에 설명된 방법 중 하나를 수행하도록 구성되거나 적응된 프로세싱 수단, 예를 들어, 컴퓨터 또는 프로그램 가능 논리 디바이스를 포함한다.

다른 실시예는 본원에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.

본 발명에 따른 다른 실시예는 본원에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 수신기에 (예를 들어, 전자적으로 또는 광학적으로) 전송하도록 구성된 장치 또는 시스템을 포함한다. 수신기는 예를 들어, 컴퓨터, 모바일 디바이스, 메모리 디바이스 등일 수 있다. 장치 또는 시스템은 예를 들어, 컴퓨터 프로그램을 수신기에 전송하기 위한 파일 서버를 포함할 수 있다.

일부 실시예에서, 프로그램 가능 논리 디바이스(예를 들어, 필드 프로그램 가능 게이트 어레이)는 본원에 설명된 방법의 기능 중 일부 또는 전부를 수행하는 데 사용될 수 있다. 일부 실시예에서, 필드 프로그램 가능 게이트 어레이는 본원에 설명된 방법 중 하나를 수행하기 위해 마이크로프로세서와 협력할 수 있다. 일반적으로, 방법은 바람직하게는 임의의 하드웨어 장치에 의해 수행된다.

본원에 설명된 장치는 하드웨어 장치를 사용하거나, 컴퓨터를 사용하거나, 하드웨어 장치와 컴퓨터의 조합을 사용하여 구현될 수 있다.

본원에 설명된 방법은 하드웨어 장치를 사용하거나, 컴퓨터를 사용하거나, 하드웨어 장치와 컴퓨터의 조합을 사용하여 수행될 수 있다.

위에서 설명된 실시예는 본 발명의 원리를 예시하기 위한 것일 뿐이다. 본원에 설명된 구성 및 세부사항의 수정 및 변형은 당업자에게 명백할 것임을 이해한다. 따라서, 곧 있을 청구범위의 범위에 의해서만 제한되고 본원의 실시예에 대한 기술 및 설명에 의해 제공된 특정 세부사항에 의해서만 한정되는 것은 아니다.

Claims

인코딩된 오디오 정보(110;210;310)에 기초하여 디코딩된 오디오 정보(112;212;312)를 제공하기 위한 오디오 디코더(100;200;300)로서,
상기 오디오 디코더는,
선형 예측 도메인에서 인코딩된 오디오 프레임에 기초하여 제1 디코딩된 오디오 정보(122;222;322;S_C(n))를 제공하도록 구성된 선형 예측 도메인 디코더(120;220;320);
주파수 도메인에서 인코딩된 오디오 프레임에 기초하여 제2 디코딩된 오디오 정보(132;232;332;S_M(n))를 제공하도록 구성된 주파수 도메인 디코더(130;230;330); 및
전이 프로세서(140;240;340)
를 포함하고,
상기 전이 프로세서는 선형 예측 필터링부(148;254;346)의 제로 입력 응답(150;256;348)을 획득하도록 구성되고, 상기 선형 예측 필터링의 초기 상태(146;252;344)는 상기 제1 디코딩된 오디오 정보 및 상기 제2 디코딩된 오디오 정보에 의존하여 정의되고,
상기 전이 프로세서는 상기 제로 입력 응답에 의존하여, 상기 선형 예측 도메인에서 인코딩된 오디오 프레임에 뒤따르는 상기 주파수 도메인에서 인코딩된 오디오 프레임에 기초하여 제공되는 상기 제2 디코딩된 오디오 정보(132;232;332;S_M(n))를 수정하여, 상기 제1 디코딩된 오디오 정보(S_C(n))와 수정된 제2 디코딩된 오디오 정보
사이의 부드러운 전이를 획득하도록 구성되는, 오디오 디코더.
제1항에 있어서,
상기 전이 프로세서는 상기 제1 디코딩된 오디오 정보(222;S_C(n))에 의해 정의된 제1 선형 예측 필터링의 제1 초기 상태(244;S_C(n))에 응답하여 제1 선형 예측 필터링의 제1 제로 입력 응답(248;
)을 획득하도록 구성되고,
상기 전이 프로세서는 인위적 앨리어싱이 제공되고 상기 제2 디코딩된 오디오 정보(232, S_M(n))의 일부의 기여분을 포함하는 상기 제1 디코딩된 오디오 정보(222, S_C(n))의 수정된 버전
에 의해 정의된 제2 선형 예측 필터링의 제2 초기 상태(252)에 응답하여 제2 선형 예측 필터링의 제2 제로 입력 응답(256;
)을 획득하도록 구성되거나,
상기 전이 프로세서는 상기 제1 디코딩된 오디오 정보(122;322;S_C(n)), 및 인위적 앨리어싱이 제공되고 상기 제2 디코딩된 오디오 정보(132;332;S_M(n))의 일부의 기여분을 포함하는 상기 제1 디코딩된 오디오 정보(122;322;S_C(n))의 수정된 버전
의 결합에 의해 정의된 상기 선형 예측 필터링의 초기 상태(146;344)에 응답하여 상기 선형 예측 필터링의 결합된 제로 입력 응답(150;348)을 획득하도록 구성되고;
상기 전이 프로세서는 상기 제1 제로 입력 응답(248;
) 및 상기 제2 제로 입력 응답(256;
)에 의존하여, 또는 상기 결합된 제로 입력 응답(150;
)에 의존하여, 상기 선형 예측 도메인에서 인코딩된 오디오 프레임에 뒤따르는 상기 주파수 도메인에서 인코딩된 오디오 프레임에 기초하여 제공되는 상기 제2 디코딩된 오디오 정보(132;232;332;S_M(n))를 수정하여, 상기 제1 디코딩된 오디오 정보(122;222;322;S_C(n))와 상기 수정된 제2 디코딩된 오디오 정보(142;242;342;
) 사이의 부드러운 전이를 획득하도록 구성되는, 오디오 디코더.
제1항에 있어서,
상기 주파수 도메인 디코더(130;230;330)는 상기 제2 디코딩된 오디오 정보(132;232;332)가 앨리어싱을 포함하도록 역 랩핑 변환을 수행하도록 구성되는, 오디오 디코더.
제1항에 있어서,
상기 주파수 도메인 디코더(130;230;330)는 상기 선형 예측 도메인 디코더(120;220;320)가 제1 디코딩된 오디오 정보(122;222;322)를 제공하는 시간 부분과 시간적으로 오버랩하는 시간 부분에서 상기 제2 디코딩된 오디오 정보(132;232;332)가 앨리어싱을 포함하도록, 그리고 상기 선형 예측 도메인 디코더가 제1 디코딩된 오디오 정보를 제공하는 시간 부분에 뒤따르는 시간 부분에 대해 상기 제2 디코딩된 오디오 정보가 앨리어싱이 없도록, 역 랩핑 변환을 수행하도록 구성되는, 오디오 디코더.
제1항에 있어서,
상기 제1 디코딩된 오디오 정보의 수정된 버전
을 획득하는 데 사용되는 상기 제2 디코딩된 오디오 정보(132;232;332)의 부분은 앨리어싱을 포함하는, 오디오 디코더.
제5항에 있어서,
상기 제1 디코딩된 오디오 정보의 수정된 버전
을 획득하는 데 사용되는 인위적 앨리어싱은 상기 제1 디코딩된 오디오 정보의 수정된 버전을 획득하는 데 사용되는 상기 제2 디코딩된 오디오 정보(132;232;332)의 부분에 포함된 앨리어싱을 적어도 부분적으로 보상하는, 오디오 디코더.
제1항에 있어서,
상기 전이 프로세서(140;240;340)는

에 따라 또는

에 따라 제1 제로 입력 응답
또는 결합된 제로 입력 응답의 제1 성분
을 획득하도록 구성되고,

이고,
n은 시간 인덱스를 나타내고,
n=0,...,N-1에 대해,
은 시간 인덱스 n에 대한 상기 제1 제로 입력 응답, 또는 시간 인덱스 n에 대한 상기 결합된 제로 입력 응답의 제1 성분을 나타내고,
n=-L,...,-1에 대해,
은 시간 인덱스 n에 대한 제1 초기 상태(244), 또는 시간 인덱스 n에 대한 선형 예측 필터링의 초기 상태의 제1 성분을 나타내고;
m은 실행 변수를 나타내고,
M은 선형 예측 필터의 필터 길이를 나타내고;
a_m은 상기 선형 예측 필터의 필터 계수를 나타내고;
S_C(n)은 시간 인덱스 n에 대한 상기 제1 디코딩된 오디오 정보(122;222;322)의 이전 디코딩된 값을 나타내고;
N은 프로세싱 길이를 나타내는, 오디오 디코더.
제1항에 있어서,
상기 전이 프로세서(140;240;340)는 상기 제1 디코딩된 오디오 정보(122;222;322;S_C(n))에 제1 윈도윙((w(-n-1)w(-n-1))을 적용하여 상기 제1 디코딩된 오디오 정보의 윈도윙된 버전을 획득하고, 상기 제1 디코딩된 오디오 정보(122;222;322;S_C(n))의 시간 미러링된 버전(S_C(-n-L-1))에 제2 윈도윙(w(n+L)w(-n-1))을 적용하여 상기 제1 디코딩된 오디오 정보의 시간 미러링된 버전의 윈도윙된 버전을 획득하도록 구성되고,
상기 전이 프로세서는 상기 제1 디코딩된 오디오 정보의 윈도윙된 버전과 상기 제1 디코딩된 오디오 정보의 시간 미러링된 버전의 윈도윙된 버전을 결합하여, 상기 제1 디코딩된 오디오 정보의 수정된 버전(
)을 획득하도록 구성되는, 오디오 디코더.
제1항에 있어서,
상기 전이 프로세서(140;240;340)는

,
에 따라 상기 제1 디코딩된 오디오 정보 S_C(n)의 수정된 버전
을 획득하도록 구성되고,
n은 시간 인덱스를 나타내고,
w(-n-1)은 시간 인덱스 (-n-1)에 대한 윈도우 함수의 값을 나타내고;
w(n+L)은 시간 인덱스 (n+L)에 대한 윈도우 함수의 값을 나타내고;
S_C(n)은 시간 인덱스 (n)에 대한 상기 제1 디코딩된 오디오 정보(122;222;322)의 이전 디코딩된 값을 나타내고;
S_C(-n-L-1)은 시간 인덱스 (-n-L-1)에 대한 상기 제1 디코딩된 오디오 정보의 이전 디코딩된 값을 나타내고;
S_M(n)은 시간 인덱스 n에 대한 상기 제2 디코딩된 오디오 정보(132;232;332)의 디코딩된 값을 나타내고;
L은 윈도우의 길이를 기술하는, 오디오 디코더.
제1항에 있어서,
상기 전이 프로세서(140;240;340)는

에 따라 또는

에 따라 제2 제로 입력 응답(256;
) 또는 결합된 제로 입력 응답의 제2 성분
을 획득하도록 구성되고,

이고,
n은 시간 인덱스를 나타내고,
n=0,...,N-1에 대해,
은 시간 인덱스 n에 대한 상기 제2 제로 입력 응답, 또는 상기 시간 인덱스 n에 대한 상기 결합된 제로 입력 응답을 나타내고,
n=-L,...,-1에 대해,
은 시간 인덱스 n에 대한 제2 초기 상태(252), 또는 시간 인덱스 n에 대한 선형 예측 필터링의 초기 상태의 제2 성분을 나타내고;
m은 실행 변수를 나타내고,
M은 선형 예측 필터(148;254;346)의 필터 길이를 나타내고;
a_m은 상기 선형 예측 필터의 필터 계수를 나타내고;

은 시간 인덱스 n에 대한 상기 제1 디코딩된 오디오 정보의 수정된 버전의 값을 나타내고;
N은 프로세싱 길이를 나타내는, 오디오 디코더.
제1항에 있어서,
상기 전이 프로세서(140;240;340)는 상기 선형 예측 도메인 디코더(120;220;320)에 의해 제1 디코딩된 오디오 정보(122;222;322)가 제공되지 않는 시간 부분에 대해, 제1 제로 입력 응답 및 제2 제로 입력 응답과, 또는 결합된 제로 입력 응답(150;348)과 상기 제2 디코딩된 오디오 정보(132;232;332)를 선형적으로 결합하여, 상기 수정된 제2 디코딩된 오디오 정보를 획득하도록 구성되는, 오디오 디코더.
제1항에 있어서,
상기 전이 프로세서(140;240;340)는
n=0,...,N-1에 대해,

에 따라 또는
n=0,...,N-1에 대해,

에 따라 상기 수정된 제2 디코딩된 오디오 정보
을 획득하도록 구성되고,
n은 시간 인덱스를 나타내고;
S_M(n)은 시간 인덱스 n에 대한 상기 제2 디코딩된 오디오 정보의 값을 나타내고;
n=0,...,N-1에 대해,
은 시간 인덱스 n에 대한 제1 제로 입력 응답, 또는 시간 인덱스 n에 대한 결합된 제로 입력 응답의 제1 성분을 나타내고;
n=-L,...,-1에 대해,
은 시간 인덱스 n에 대한 제2 제로 입력 응답, 또는 시간 인덱스 n에 대한 상기 결합된 제로 입력 응답의 제2 성분을 나타내고;
v(n)은 윈도우 함수의 값을 나타내고;
N은 프로세싱 길이를 나타내는, 오디오 디코더.
제1항에 있어서,
상기 전이 프로세서(140;240;340)는 선형 예측 도메인에서 인코딩된 오디오 프레임에 대한 디코딩된 오디오 정보를 제공할 때, 상기 제2 디코딩된 오디오 정보(132;232;332)에 의해 상기 제1 디코딩된 오디오 정보(122;222;322)를 변경하지 않고 남겨 두도록 구성되어, 상기 선형 예측 도메인에서 인코딩된 오디오 프레임에 대해 제공된 상기 디코딩된 오디오 정보가 상기 주파수 도메인에서 인코딩된 후속하는 오디오 프레임에 대해 제공되는 디코딩된 오디오 정보와 독립적으로 제공되는, 오디오 디코더.
제1항에 있어서,
상기 오디오 디코더는 상기 주파수 도메인에서 인코딩된 오디오 프레임을 디코딩하기 전에, 상기 주파수 도메인에서 인코딩된 오디오 프레임이 뒤따르는 상기 선형 예측 도메인에서 인코딩된 오디오 프레임에 대해 완전히 디코딩된 오디오 정보(122;222;322)를 제공하도록 구성되는, 오디오 디코더.
제1항에 있어서,
상기 전이 프로세서(140;240;340)는 윈도윙된 제1 제로 입력 응답 및 윈도윙된 제2 제로 입력 응답에 의존하여 또는 윈도윙된 결합된 제로 입력 응답에 의존하여 상기 제2 디코딩된 오디오 정보(132;232;332)를 수정하기 전에, 상기 제1 제로 입력 응답(248) 및 상기 제2 제로 입력 응답(256), 또는 상기 결합된 제로 입력 응답(150;348)을 윈도윙하도록 구성되는, 오디오 디코더.
제15항에 있어서,
상기 전이 프로세서는 선형 윈도우 사용하여 상기 제1 제로 입력 응답 및 상기 제2 제로 입력 응답, 또는 상기 결합된 제로 입력 응답을 윈도윙하도록 구성되는, 오디오 디코더.
인코딩된 오디오 정보에 기초하여 디코딩된 오디오 정보를 제공하는 방법 (900)으로서,
선형 예측 도메인에서 인코딩된 오디오 프레임에 기초하여 제1 디코딩된 오디오 정보(S_C(n))를 제공하는 단계(910);
주파수 도메인에서 인코딩된 오디오 프레임에 기초하여 제2 디코딩된 오디오 정보(S_M(n))를 제공하는 단계(920);
선형 예측 필터링의 제로 입력 응답을 획득하는 단계(930)로서, 상기 선형 예측 필터링의 초기 상태는 상기 제1 디코딩된 오디오 정보 및 상기 제2 디코딩된 오디오 정보에 의존하여 정의되는, 상기 선형 예측 필터링의 제로 입력 응답을 획득하는 단계(930); 및
상기 제1 디코딩된 오디오 정보(S_C(n))와 수정된 제2 디코딩된 오디오 정보(
) 사이의 부드러운 전이를 획득하기 위해, 상기 제로 입력 응답에 의존하여, 상기 선형 예측 도메인에서 인코딩된 오디오 프레임에 뒤따르는 상기 주파수 도메인에서 인코딩된 오디오 프레임에 기초하여 제공되는 상기 제2 디코딩된 오디오 정보(S_M(n))를 수정하는 단계(940)
를 포함하는, 디코딩된 오디오 정보를 제공하는 방법.
컴퓨터 프로그램이 컴퓨터 상에서 구동할 때 제17항에 따른 방법을 수행하기 위한 컴퓨터 프로그램을 저장한 컴퓨터 판독가능 저장매체.