KR101952752B1

KR101952752B1 - 시간 도메인 여기 신호를 변형하는 오류 은닉을 사용하여 디코딩된 오디오 정보를 제공하기 위한 오디오 디코더 및 방법

Info

Publication number: KR101952752B1
Application number: KR1020177029247A
Authority: KR
Inventors: 제레미 르콩트
Original assignee: 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date: 2013-10-31
Filing date: 2014-10-27
Publication date: 2019-02-28
Also published as: EP3355306A1; CA2928974C; CA2984030C; CA2928974A1; ES2774492T3; HK1257258A1; PT3336840T; WO2015063045A1; EP3355305B1; CN105793924A; PL3063759T3; HK1259430A1; EP3063759A1; BR112016009805A2; JP2016535867A; ES2760573T3; MX2016005542A; JP6306177B2; US10276176B2; AU2017251671A1

Abstract

인코딩된 오디오 정보(210; 410)를 기초로 하여 디코딩된 오디오 정보(220; 412)를 제공하기 위한 오디오 디코더(200, 400)가 개시된다. 오디오 디코더는 오디오 프레임의 손실의 은닉을 위한 오류 은닉 오디오 정보(242; 482; 612)를 제공하도록 구성되는 오류 은닉(240; 480; 600)을 포함하고, 오류 은닉은 오류 은닉 오디오 정보를 획득하기 위하여, 손실 오디오 프레임을 선행하는 하나 이상의 오디오 프레임을 위하여 획득되는 시간 도메인 여기 신호(452; 456; 610)를 변형하도록 구성된다.

Description

시간 도메인 여기 신호를 변형하는 오류 은닉을 사용하여 디코딩된 오디오 정보를 제공하기 위한 오디오 디코더 및 방법{AUDIO DECODER AND METHOD FOR PROVIDING A DECODED AUDIO INFORMATION USING AN ERROR CONCEALMENT MODIFYING A TIME DOMAIN EXCITATION SIGNAL}

본 발명에 따른 실시 예들은 인코딩된 오디오 정보를 기초로 하여 디코딩된 오디오 정보를 제공하기 위한 오디오 디코더들을 생성한다.

본 발명에 따른 일부 실시 예들은 인코딩된 오디오 정보를 기초로 하여 디코딩된 오디오 정보를 제공하기 위한 방법들을 생성한다.

본 발명에 따른 일부 실시 예들은 상기 방법들 중 하나를 실행하기 위한 컴퓨터 프로그램들을 생성한다.

본 발명에 따른 일부 실시 예들은 변환 도메인 코덱을 위한 시간 도메인 은닉(time domain concealment)과 관련된다.

최근에 오디오 콘텐츠의 디지털 전송 및 저장을 위한 요구가 증가하고 있다. 그러나, 오디오 콘텐츠는 때때로 데이터 유닛들(예를 들면 인코딩된 주파수 도메인 표현 또는 인코딩된 시간 도메인 표현 같은 인코딩된 형태의)이 손실되는 위험을 가져오는 신뢰할 수 없는 채널을 통하여 전송된다. 일부 상황들에서, 손실 오디오 프레임들(또는 하나 이상의 손실 오디오 프레임을 포함하는 패킷들 같은, 데이터 패킷들)의 반복(재전송)을 요구하는 것이 가능할 수 있다. 그러나, 이는 일반적으로 실질적인 지연을 초래할 수 있고, 따라서 오디오 프레임들의 상당한 버퍼링을 요구할 수 있다. 다른 경우들에서, 손실 오디오 프레임들의 반복을 요구하는 것은 거의 불가능하다.

상당한 버퍼링(많은 양의 메모리를 소비할 수 있고 또한 실질적으로 오디오 코딩의 실시간 능력들을 저하시킬 수 있는)을 제공하지 않고 오디오 프레임들이 손실되는 경우에, 뛰어난, 또는 적어도 수용 가능한 오디오 품질을 획득하기 위하여 하나 이상의 오디오 프레임의 손실을 처리하기 위한 개념들을 갖는 것이 바람직하다. 특히, 오디오 프레임들이 손실되는 경우에서도, 뛰어난 오디오 품질, 또는 적어도 수용 가능한 오디오 품질을 가져오는 개념들을 갖는 것이 바람직하다.

과거에, 상이한 오디오 코딩 개념들에서 사용될 수 있는, 일부 오류 은닉 개념들이 개발되었다.

아래에 종래의 오디오 코딩 개념이 설명될 것이다.

3gpp 표준 TS 26.290에서, 오류 은닉을 갖는 변환-코딩-여기(transform-coded-excitation, TCX, 이하 TCX로 표기) 디코딩이 설명된다. 아래에, 참고문헌 [1]의 섹션 "TCX 모드 디코딩 및 신호 합성"을 기초로 하는 일부 설명들이 제공될 것이다.

국제 표준 3gpp TS 26.290에 따른 TCX 디코더가 도 7 및 8에 도시되고, 도 7 및 8은 TCX 디코더의 블록 다이어그램을 도시한다. 그러나, 도 7은 정상 작동에서 또는 부분적 패킷 손실의 경우에 TCX 디코딩과 관련된 그러한 기능적 블록들을 도시한다. 이와 대조적으로, 도 8은 TCX-256 패킷 소거 은닉의 경우에서의 TCX 디코딩의 적절한 처리를 도시한다.

케이스 1(도 8): TCX 프레임 길이가 256 샘플이고 관련 패킷이 손실될 때 TCX-256에서의 패킷-소거 은닉, 즉 BFI-TCX=(1); 및

케이스 2(도 7): 가능하게는 부분 패킷 손실들을 갖는, 정상 TCX 디코딩

아래에, 도 7 및 8과 관련하여 일부 설명들이 제공될 것이다.

언급된 것과 같이, 도 7은 정상 작동 또는 부분 패킷 손실의 경우에 TCX 디코딩을 실행하기 위한 TCX 디코더의 블록 다이어그램을 도시한다. 도 7에 따른 TCX 디코더(700)는 TCX 특이 파라미터들(710)을 수신하고 이를 기초로 하여, 디코딩된 정보(712, 714)를 제공한다.

오디오 디코더(700)는 TCX 특이 파라미터들(710) 및 정보 "BFI_TCX"를 수신하도록 구성되는, 디멀티플렉서(demultiplexer, "DEMUX TCX", 720)를 포함한다. 디멀티플렉서(720)는 TCX 특이 파라미터들(710)을 분리하고 인코딩된 여기 정보(722), 인코딩된 잡음 채움 정보(encoded noise fill-in information, 724) 및 인코딩된 글로벌 이득 정보(global gain information, 726)를 제공한다. 오디오 디코더(700)는 인코딩된 여기 정보(722), 인코딩된 잡음 채움 정보(724) 및 인코딩된 글로벌 이득 정보(726)뿐만 아니라, 일부 부가 정보(예를 들면, 비트레이트 플래그 "bit_rate_flag", 정보 "BFI_TCX" 및 TCX 프레임 길이 정보 같은)를 수신하도록 구성되는, 여기 디코더(730)를 포함한다. 여기 디코더(730)는 이를 기초로 하여, 시간 도메인 여기 신호(728, 또한 "X"로 지정된)를 제공한다. 여기 디코더(730)는 인코딩된 여기 정보(722)를 디멀티플렉싱하고 대수 벡터 양자화 파라미터(algebraic vector quantization parameter)들을 디코딩하는, 여기 정보 프로세서(732)를 포함한다. 여기 정보 프로세서(732)는 일반적으로 주파수 도메인 표현 내에 존재하고 Y로 지정된, 중간 여기 신호(intermediate excitation signal, 734)를 제공한다. 여기 디코더(730)는 또한 중간 여기 신호(734)로부터 잡음 충전된(noise filled) 여기 신호(738)를 유도하기 위하여 양자화되지 않은 부대역들 내의 잡음을 주입하도록 구성되는, 잡음 인젝터(noise injector, 736)를 포함한다. 여기 디코더는 또한 이에 의해 여전히 주파수 도메인 내에 존재하고 X'으로 지정된, 처리된 여기 신호(746)를 획득하기 위하여, 잡음 충전된 여기 신호(738)를 기초로 하여, 저-주파수 디-엠퍼시스) 연산을 실행하도록 구성되는, 적응적 저주파수 디-엠퍼시스(adaptive low frequency de-emphasis, 744)를 포함한다. 여기 디코더(730)는 또한 처리된 여기 신호(746)를 수신하고 이를 기초로 하여 주파수 도메인 여기 파라미터들(예를 들면, 처리된 여기 신호(746))의 세트에 의해 표현되는 특정 시간 부분과 관련된, 시간 도메인 여기 신호(750)를 제공하도록 구성되는, 주파수 도메인-대-시간 도메인 변환기(748)를 포함한다. 여기 디코더(730)는 또한 이에 의해 스케일링된 시간 도메인 여기 신호(754)를 획득하기 위하여 시간 도메인 여기 신호(750)를 스케일링하도록 구성되는, 스케일러(scaler, 752)를 포함한다. 스케일러(752)는 글로벌 이득 디코더(758)로부터 글로벌 이득 정보(756)를 수신하고, 차례로, 글로벌 이득 디코더(758)는 인코딩된 글로벌 이득 정보(726)를 수신한다. 여기 디코더(730)는 또한 복수의 시간 부분과 관련된 스케일링된 시간 도메인 여기 신호들(754)을 수신하는, 오버랩-가산 합성(overlap-add synthesis, 760)을 포함한다. 오버랩-가산 합성(760)은 긴 기간(개별 시간 도메인 여기 신호들(750, 754)이 제공되는 기간보다 긴) 동안 일시적으로 결합된 시간 도메인 여기 신호(728)를 획득하기 위하여, 스케일링된 시간 도메인 여기 신호들(754)을 기초로 하여 오버랩-및-가산 연산(윈도우잉 연산을 포함할 수 있는)을 실행한다.

오디오 디코더(700)는 또한 오버랩-가산 합성(760) 및 선형 예측 코딩(Linear Prediction Coding, LPC, 이하 LPC로 표기) 합성 필터 함수(772)를 정의하는 하나 이상의 LPC 계수에 의해 제공되는 시간 도메인 여기 신호(728)를 수신하는, LPC 합성(770)을 포함한다. LPC 합성(770)은 이에 의해 디코딩된 오디오 신호(712)를 획득하기 위하여, 예를 들면 시간 도메인 여기 신호(728)를 합성-필터링할 수 있는, 제 1 필터(774)를 포함할 수 있다. 선택적으로, LPC 합성(770)은 또한 이에 의해 디코딩된 오디오 신호(714)를 획득하기 위하여, 또 다른 합성 필터 함수를 사용하여 제 1 필터(774)의 출력 신호를 합성-필터링하도록 구성되는 제 2 합성 필터(772)를 포함할 수 있다.

아래에, TCX-256 패킷 소거 은닉의 경우에서의 TCX 디코딩이 설명될 것이다. 도 8은 이러한 경우에서의 TCX 디코더의 블록 다이어그램을 도시한다.

패킷 소거 은닉(800)은 또한 "pitch_tcx"로 지정되고 이전 디코딩된 TCX 프레임으로부터 획득되는, 피치 정보(810)를 수신한다. 예를 들면, 피치 정보(810)는 여기 디코더(730) 내의 처리된 여기 신호(746)로부터 우세한(dominant) 피치 추정기(747)를 사용하여 획득될 수 있다("정상" 디코딩 동안에). 게다가, 패킷 소거 은닉(800)은 예를 들면 LPC 파라미터들(772)과 동일할 수 있는, LPC 파라미터들(812)을 수신한다. 따라서, 패킷 소거 은닉(800)은 피치 정보(810) 및 LPC 파라미터들(812)을 기초로 하여, 오류 은닉 오디오 정보로서 고려될 수 있는, 오류 은닉 신호(814)를 제공하도록 구성될 수 있다. 패킷 소거 은닉(800)은 예를 들면 이전 여기를 버퍼링할 수 있는, 여기 버퍼(820)를 포함한다. 여기 버퍼(820)는 예를 들면, 대수 부호 여기 선형 예측(ACELP, 이하 ACELP로 표기)의 적응적 코드북을 이용할 수 있고, 여기 신호(822)를 제공할 수 있다. 패킷 소거 은닉(800)은 필터 함수가 도 8에 도시된 것과 같이 정의될 수 있는, 제 1 필터(824)를 더 포함할 수 있다. 따라서, 제 1 필터(824)는 여기 신호(822)의 필터링된 버전(826)을 획득하기 위하여, LPC 파라미터들(812)을 기초로 하여, 여기 신호(822)를 필터링할 수 있다. 패킷 소거 은닉은 또한 표적 정보 또는 레벨 정보(rms_wsyn)를 기초로 하여 필터링된 여기 신호(826)의 진폭을 제한할 수 있는, 진폭 제한기(amplitude limiter, 828)를 포함한다. 게다가, 패킷 소거 은닉(800)은 진폭 제한기(822)로부터 진폭 제한되고 필터링된 여기 신호(830)를 수신하고 이를 기초로 하여, 오류 은닉 신호(814)를 제공하도록 구성될 수 있는, 제 2 필터(832)를 포함할 수 있다. 제 2 필터(832)의 필터 함수는 예를 들면, 도 8에 도시된 것과 같이 정의될 수 있다.

아래에, 디코딩 및 오류 은닉에 관한 일부 상세내용이 설명될 것이다.

케이스 1(TCX-256에서의 패킷 소거 은닉)에서, 256-샘플 TCX 프레임을 디코딩하기 위하여 어떠한 정보도 이용할 수 없다. TCX 합성은 T에 의해 지연된 과거 여기를 처리함으로써 발견되며, T=pitch_tcx는 대략

과 동등한 비-선형 필터에 의해, 이전에 디코딩된 TCX 프레임에서 추정되는 피치 래그이다. 합성에서의 클릭(click)들을 방지하기 위하여

대신에 비-선형 필터가 사용된다 이러한 필터는 3 단계로 분해된다:

단계 1: T에 의해 지연된 여기 신호를 TCX 표적 도메인 내로 매핑하기 위한 다음에 의한 필터링;

단계 2: 제한기의 적용(크기는 ±rms_wsyn로 제한됨)

단계 3: 합성을 발견하도록 다음에 의한 필터링:

OVLP_TCX는 이 경우에 0으로 설정되는 것에 유의하여야 한다.

대수 벡터 양자화(Vector Quantization, VQ, 이하 VQ로 표기) 파라미터들의 디코딩

케이스 2에서, TCX 디코딩은 스케일링된 스펙트럼(X')의 각각의 양자화된 블록(

)을 기술하는 대수 VQ 파라미터들의 디코딩을 포함하며, X'는 3gpp TS 26.290의 섹션 5.3.5.7의 단계 3에 설명된 것과 같다. X'이 N의 크기를 갖고, 각각 TCX-256, 512 및 1024에 대하여 N = 288, 576 및 1152이며, 각각의 블록(

)은 8의 차원을 갖인 리콜한다(recall). 블록들(

)의 수(K)는 따라서 각각 TCX-256, 512 및 1024에 대하여 36, 72 및 144이다. 각각의 블록(

)에 대한 대수 VQ 파라미터들은 섹션 5.3.5.7에서 설명된다. 각각의 블록(

)을 위하여, 이진 지수들의 3개의 세트가 인코더에 의해 보내진다:

a) 섹션 5.3.5.7의 단계 5에서 설명된 것과 같이 단항 코드 내에 전송되는, 코드북 지수(n _k );

b) 격자점( c )을 획득하기 위하여 어떤 순열이 특정 리더(leader)에 적용되어야만 하는지를 나타내는 이른바 기저 코드북(base codebook) 내의 선택된 격자점(c)의 랭크(l _k ) (섹션 5.3.5.7의 단계 5 참조);

c) 및, 만일 양자화된 블록(

, 격자점)이 기저 코드북, 섹션에서의 단계 5의 부-단계 V1에서 계산되는 보로노이 확장 지수(Voronoi extension index) 벡터(k)의 8개의 지수 내에 없으면; 보로노이 확장 지수들로부터, 확장 벡터(z)는 3gpp TS 26.290의 참고문헌 [1]에서와 같이 계산될 수 있다. 지수 벡터( k )의 각각의 성분 내의 비트들의 수는 지수(n _k )의 단항 코드 값으로부터 획득될 수 있는 확장 순서(r)에 의해 주어진다. 스케일링 인자(M)는 M=2 ^r 에 의해 주어진다.

그리고 나서, 스케일링 인자(M), 보로노이 확장 벡터( z , RE ₈ 에서의 격자점) 및 기저 코드북에서의 격자점( c , 또한 RE ₈ 에서의 격자점)으로부터, 각각의 양자화되고 스케일링된 블록(

)은 다음과 같이 계산될 수 있다:

어떠한 보로노이 확장도 존재하지 않을 때(즉, n _k ＜5, M=1 및 z=0), 기저 코드북은 3gpp TS 26.290의 참고문헌 [1]로부터 Q₀, Q₂, Q₃ 또는 Q₄이다. 어떠한 비트도 그때 벡터( k )를 전송하는데 필요하지 않다. 그렇지 않으면,

이 충분히 크기 때문에 보로노이 확장이 사용될 때, 그때 기저 코드북으로서 참고문헌 [1]로부터 Q₃ 또는 Q₄가 사용된다. Q₃ 또는 Q₄의 선택은 섹션 5.3.5.7의 단계 5에서 설명된 것과 같이, 코드북 지수 값(n _k )에서 명시적이다.

우세한 피치 값의 추정

우세한 피치의 추정은 만일 그것이 TCX-256과 상응하고 만일 관련 패킷이 손실되면 디코딩되는 그 다음 프레임이 적절하게 외삽되도록(extrapolated) 실행된다. 이러한 추정은 TCX 표적의 스펙트럼 내의 최대 크기의 피크가 우세한 피치와 상응한다는 가정을 기초로 한다. 최대(M)를 위한 검색은 Fs/64 ㎑ 아래의 주파수에 제한되고:

이 되도록 최소 지수(1≤i _max≤N/32)가 또한 발견된다. 그리고 나서 우세한 피치는 T _est = N/i _max로서 샘플들의 수로 추정된다(이러한 값은 정수가 아닐 수 있다). 우세한 피치는 TCX-256에서 패킷-소거 은닉을 위하여 계산되는 것에 유의하여야 한다. 버퍼링 문제점들(256 샘플들에 한정되는 여기 버퍼링)을 방지하기 위하여, 만일 T _est ＞256 샘플들이면, pitch_tcx는 256으로 설정되며; 그렇지 않으면, 만일 T _est ≤256이면, 256 샘플들 내의 다중 피치 주기는 pitch_tcx를 다음과 같이 설정함으로써 방지되며:

여기서

는 -∞로 향하는 가장 가까운 정수에 대한 반올림을 나타낸다.

아래에, 일부 또 다른 종래의 개념들이 간단하게 설명될 것이다.

ISO_IEC_DIS_23003-3(참고문헌 [3])에서, 변형 이산 코사인 변환(MDCT)을 사용하는 TCX 디코딩이 통합 음성 및 오디오 코덱(Unified Speech and Audio Codec, USAC, 이하 USAC로 표기)의 맥락에서 설명된다.

종래의 고급 오디오 코딩 상태에서(예를 들면, 참고문헌 [4]를 수여), 보간 모드만이 설명된다. 참고문헌 [4]에 따르면, 고급 오디오 코딩 코어 디코더는 하나의 프레임에 의해 디코더의 지연을 증가시키는 은닉 함수를 포함한다.

유럽특허 제 EP 1207519 B1호(참고문한 [5])에서, 오류가 검출되는 프레임 내의 디코딩된 음성에 대한 또 다른 향상을 달성할 수 있는 음성 디코더 및 오류 보상 방법을 제공하는 것이 설명된다. 특허에 따르면, 음성 코딩 파라미터는 음성의 각각의 짧은 세그먼트(프레임)의 특징들을 표현하는 모드 정보를 포함한다. 음성 코더는 모드 정보에 따라 음성 디코딩을 위하여 사용되는 래그 파라미터들 및 이득 파라미터들을 적응적으로 계산한다. 게다가, 음성 디코더는 모드 정보에 따라 적응적 여기 이득 및 고정된 여기 이득의 비율을 적응적으로 제어한다. 게다가, 특허에 따른 개념은 코딩된 데이터가 오류를 포함하도록 검출되는 코딩된 데이터가 검출되는 디코딩 유닛 바로 뒤의, 어떠한 오류도 검출되지 않은 정상 디코딩 유닛 내의 디코딩된 이득 파라미터들의 값들에 따라 음성 디코딩을 위하여 사용되는 적응적 여기 이득 파라미터들 및 고정된 여기 이득 파라미터들의 적응적 제어를 포함한다.

종래 기술과 관련하여, 더 나은 청각 인상(hearing impression)을 제공하는, 오류 은닉의 부가적인 향상을 위한 필요성이 존재한다.

본 발명에 따른 일 실시 예는 인코딩된 오디오 정보를 기초로 하여 디코딩된 오디오 정보를 제공하기 위한 오디오 디코더를 생성한다. 오디오 디코더는 시간 도메인 여기 신호를 사용하여, 주파수 도메인 표현 내에 인코딩된 오디오 프레임을 뒤따르는 오디오 프레임의 손실(또는 하나 이상의 프레임 손실)을 은닉하기 위한 오류 은닉 오디오 정보를 제공하도록 구성되는 오류 은닉을 포함한다.

본 발명에 따른 이러한 실시 예는 만일 손실 오디오 프레임을 선행하는 오디오 프레임이 주파수 도메인 표현 내에 인코딩되면 시간 도메인 여기 신호를 기초로 하여 오류 은닉 오디오 정보를 제공함으로써 향상된 오류 은닉이 획득될 수 있다는 발견을 기초로 한다. 바꾸어 말하면, 비록 손실된 오디오를 선행하는 오디오 콘텐츠가 주파수 도메인 내에(즉, 주파수 도메인 표현 내에) 인코딩되더라도, 시간 도메인 여기 신호를 사용하여, 시간 도메인 오류 은닉으로 전환할 가치가 있도록, 주파수 도메인 내에 실행되는 오류 은닉과 비교할 때, 만일 시간 도메인 여기 신호를 기초로 하여 오류 은닉이 실행되면 오류 은닉의 품질은 일반적으로 더 낫다는 것이 인식되어왔다. 즉, 이는 예를 들면, 모노포닉 신호(monophonic signal) 및 대부분의 음성에 대하여 사실이다.

따라서, 본 발명은 손실 오디오 프레임을 선행하는 오디오 프레임이 주파수 도메인 내에(즉, 주파수 도메인 표현 내에) 인코딩되더라도 뛰어난 오류 은닉을 허용한다.

바람직한 실시 예에서, 주파수 도메인 표현은 복수의 스펙트럼의 값의 인코딩된 표현 및 스펙트럼 값들을 스케일링하기 위한 복수의 스케일 인자의 인코딩된 표현을 포함하거나, 또는 오디오 디코더는 LPC 파라미터들의 인코딩된 표현으로부터 스펙트럼 값들을 스케일링하기 위한 복수의 스케일 인자를 유도하도록 구성된다. 이는 주파수 도메인 잡음 정형(Frequency Domain Noise Shaping, FDSN))을 사용함으로써 수행될 수 있다. 그러나, 손실 오디오 프레임을 선행하는 오디오 프레임이 원래 실질적으로 다른 정보를 포함하는 주파수 도메인 표현(즉, 스펙트럼 값들의 스케일링을 위한 복수의 스케일 인자의 인코딩된 표현 내의 복수의 스펙트럼 값의 인코딩된 표현) 내에 인코딩되더라도 시간 도메인 여기 신호(LPC 합성을 위한 여기로서 역할을 할 수 있는)를 유도할만한 가치가 있다는 사실이 발견되었다. 예를 들면, TCX의 경우에서, 우리는 스케일 인자를 보내지 않고(인코더로부터 디코더로) LPC를 보내며 그리고 나서 디코더에서 우리는 LPC를 변형 이산 코사인 변환 빈(bin)들을 위한 스케일 인자 표현으로 변환한다. 달리 설명하면, TCX의 경우에 우리는 LPC 계수를 보내고 그리고 나서 디코더에서 우리는 그러한 LPC 계수들을 USAC에서 TCX를 위한 스케일 인자 표현으로 변환하거나 또는 AMR-WB+에서 스케일 인자는 전혀 존재하지 않는다.

바람직한 실시 예에서, 오디오 디코더는 스케일-인자 기반 스케일링을 주파수-도메인 표현으로부터 유도된 복수의 스펙트럼 값에 적용하도록 구성되는 주파수-도메인 디코더 코어를 포함한다. 이러한 경우에, 오류 은닉은 주파수 도메인 표현으로부터 유도되는 시간 도메인 여기 신호를 사용하여 복수의 인코딩된 스케일 인자를 포함하는 주파수 도메인 표현 내에 인코딩된 오디오 프레임을 뒤따르는 오디오 프레임의 손실을 은닉하기 위한 오류 은닉 오디오 정보를 제공하도록 구성된다. 본 발명에 따른 이러한 실시 예는 위에 설명된 주파수 표현으로부터 시간 도메인 여기 신호의 유도가 주파수 도메인 내에서 직접적으로 실행된 오류 은닉과 비교할 때 일반적으로 더 나은 오류 은닉 결과를 제공한다는 발견을 기초로 한다. 예를 들면, 여기 신호는 이전 프레임의 합성을 기초로 하여 생성되고, 그때 실제로 이전 프레임이 주파수 도메인(변형 이산 코사인 변환, 이산 푸리에 변환(FFT)...) 또는 시간 도메인 프레임인지는 중요하지 않다. 그러나, 만일 이전 프레임이 주파수 도메인이었으면, 특정 장점들이 관찰될 수 있다. 게다가, 예를 들면 모노포닉 신호 유사 음성을 위하여, 특히 뛰어난 결과들이 달성된다. 또 다른 예로서, 스케일 인자들은 예를 들면 그리고 나서 디코더 측 상에서 스케일 인자들로 전환되는 다항 표현(polynomial representation)을 사용하여, LPC 계수들로서 전송될 수 있다.

바람직한 실시 예에서, 오디오 디코더는 주파수 도메인 표현 내에 인코딩된 오디오 프레임을 위한 중간 양으로서 시간 도메인 여기 신호를 사용하지 않고 주파수 도메인 표현으로부터 시간 도메인 오디오 신호 표현을 유도하도록 구성되는 주파수 도메인 디코더 코어를 포함한다. 바꾸어 말하면, 손실 오디오 프레임을 선행하는 오디오 프레임이 중간 양으로서 어떠한 시간 도메인 여기 신호도 사용하지 않는(그리고 그 결과 LPC 합성을 기초로 하지 않는) "진정한" 주파수 모드 내에 인코딩되더라도 오류 은닉을 위한 시간 도메인 여기 신호의 사용이 바람직하다는 사실이 발견되었다.

바람직한 실시 예에서, 오류 은닉은 손실 오디오 프레임을 선행하는 주파수 도메인 표현 내에 인코딩된 오디오 프레임을 기초로 하여 시간 도메인 여기 신호를 획득하도록 구성된다. 이러한 경우에, 오류 은닉은 상기 시간 도메인 여기 신호를 사용하여 손실된 오디오 프레임을 은닉하기 위한 오류 은닉 오디오 정보를 제공하도록 구성된다. 바꾸어 말하면, 오류 은닉을 위하여 사용되는, 시간 도메인 여기 신호는 손실 오디오 프레임을 선행하는 주파수 도메인 표현 내에 인코딩된 오디오 프레임으로부터 유도되어야만 한다는 사실이 인식되었는데, 그 이유는 손실 오디오 프레임을 선행하는 주파수 도메인 표현 내에 인코딩된 오디오 프레임으로부터 유도되는 이러한 시간 도메인 여기 신호가 오류 은닉이 적당한 노력과 뛰어난 정확성으로 실행되도록, 손실 오디오 프레임을 선행하는 오디오 프레임의 오디오 콘텐츠의 뛰어난 표현을 제공하기 때문이다.

바람직한 실시 예에서, 오류 은닉은 선형 예측 코딩 파라미터들 및 손실된 오디오 프레임의 주파수 도메인 표현 내에 인코딩된 오디오 프레임의 오디오 콘텐츠를 표현하는 주파수 도메인 내에 인코딩된 오디오 프레임의 오디오 콘텐츠를 표현하는 시간 도메인 여기 신호의 세트를 획득하기 위하여, 손실 오디오 프레임을 선행하는 주파수 도메인 표현 내에 인코딩된 오디오 프레임을 기초로 하여 LPC 분석을 실행하도록 구성된다. 이는 손실 오디오 프레임을 선행하는 오디오 프레임이 주파수 도메인 표현(어떠한 선형 예측 코딩 파라미터들 및 시간 도메인 여기 신호이 어떠한 표현도 포함하지 않는) 내에 인코딩되더라도, 선형 예측 코딩 파라미터들 및 시간 도메인 여기 신호를 유도하기 위하여, LPC 분석을 실행하도록 노력할 가치가 충분한데, 그 이유는 뛰어난 품질 오류 은닉 오디오 정보는 상기 시간 도메인 여기 신호를 기초로 하여 많은 입력 오디오 신호들을 위하여 획득될 수 있기 때문이다. 대안으로서, 오류 은닉은 손실 오디오 프레임을 선행하는 주파수 도메인 표현 내에 인코딩된 오디오 프레임의 오디오 콘텐츠를 표현하는 시간 도메인 여기 신호를 획득하기 위하여, 손실 오디오 프레임을 선행하는 주파수 도메인 표현 내에 인코딩된 오디오 프레임을 기초로 하여 LPC 분석을 실행하도록 구성될 수 있다. 또 다른 대안으로서, 오디오 디코더는 선형 예측 코딩 파라미터 추정을 사용하여 선형 예측 코딩 파라미터들의 세트를 획득하도록 구성될 수 있거나, 또는 오디오 디코더는 변환을 사용하여 스케일 인자들의 세트를 기초로 하여 선형 예측 코딩 파라미터들의 세트를 획득하도록 구성될 수 있다. 달리 설명하면, LPC 파라미터들은 LPC 파라미터 추정을 사용하여 획득될 수 있다. 이는 주파수 도메인 표현 내에 인코딩된 오디오 프레임을 기초로 하여 윈도우잉/자가상관/레빈슨 더빈(levinson durbin)에 의하거나 또는 이전 스케일 인자로부터 직접적으로 LPC 표현으로의 변환에 의해 수행될 수 있다.

바람직한 실시 예에서, 오류 은닉은 손실 오디오 프레임을 선행하는 주파수 도메인 내에 인코딩된 오디오 프레임의 피치를 기술하는 피치(또는 래그) 정보를 획득하고, 피치 정보에 의존하여 오류 은닉 오디오 정보를 제공하도록 구성된다. 피치 정보를 고려함으로써, 오류 은닉 오디오 정보(일반적으로 적어도 하나의 손실된 오디오 프레임의 시간 기간을 포함하는 오류 은닉 오디오 신호인)가 실제 오디오 콘텐츠에 잘 적응되는 것이 달성될 수 있다.

바람직한 실시 예에서, 오류 은닉은 손실 오디오 프레임을 선행하는 주파수 도메인 표현 내에 인코딩된 오디오 프레임으로부터 유도되는 시간 도메인 여기 신호를 기초로 하여 피치 정보를 획득하도록 구성된다. 시간 도메인 여기 신호로부터 피치 정보의 유도는 높은 정확도를 가져온다는 사실이 발견되었다. 게다가, 만일 피치 정보가 시간 도메인 여기 신호에 잘 적응되면, 이는 바람직하다는 사실이 발견되었는데, 그 이유는 피치 정보가 시간 도메인 여기 신호의 변형을 위하여 사용되기 때문이다. 시간 도메인 여기 신호로부터 피치 정보를 유도함으로써, 그러한 가까운 관계가 달성될 수 있다.

바람직한 실시 예에서, 오류 은닉은 거친(coarse) 피치 정보를 결정하기 위하여, 시간 도메인 여기 신호의 교차 상관을 평가하도록 구성된다. 게다가, 오류 은닉은 거친 피치 정보에 의해 결정된 피치 주위의 폐쇄 루프 검색(closed loop search)을 사용하여 거친 피치 정보를 개선하도록 구성될 수 있다. 따라서, 적당한 계산 노력으로 고도로 정확한 피치 정보가 달성될 수 있다.

바람직한 실시 예에서, 오디오 디코더 오류 은닉은 인코딩된 오디오 정보의 부가 정보를 기초로 하여 피치 정보를 획득하도록 구성될 수 있다.

바람직한 실시 예에서, 오류 은닉은 이전에 디코딩된 오디오 프레임을 위하여 이용 가능한 피치 정보를 기초로 하여 피치 정보를 획득하도록 구성될 수 있다.

바람직한 실시 예에서, 오류 은닉은 시간 도메인 신호 상에서 또는 잔류 신호 상에서 실행되는 피치 검색을 기초로 하여 피치 정보를 획득하도록 구성된다.

달리 설명하면, 피치는 부가 정보로서 전송될 수 있거나 또는 또한 만일 예를 들면 장기간 예측(LTP)이 존재하면 이전 프레임으로부터 올 수 있다. 피치 정보는 만일 인코더에서 이용 가능하면 또한 비트스트림 내에 전송될 수 있다. 우리는 바로 시간 도메인 신호, 또는 잔류 상에서의 피치 검색을 실행할 수 있으며, 일반적으로 잔류(시간 도메인 여기 신호) 상에서 더 나은 결과를 가져온다.

바람직한 실시 예에서, 오류 은닉은 오류 은닉 오디오 신호의 합성을 위한 여기 신호를 획득하기 위하여, 손실 오디오 프레임을 선행하는 주파수 도메인 표현 내에 인코딩된 오디오 프레임으로부터 유도되는 시간 도메인 여기 신호의 피치 사이클을 한 번 또는 여러 번 복사하도록(copy) 구성된다. 시간 도메인 여기 신호를 한 번 또는 여러 번 복사함으로써, 오류 은닉 오디오 정보의 결정론적(즉, 실질적으로 주기적) 성분이 뛰어난 정확도로 획득되고 손실 오디오 프레임을 선행하는 오디오 프레임의 오디오 콘텐츠의 결정론적(즉, 실질적으로 주기적) 성분의 뛰어난 연속적이라는 것이 달성될 수 있다.

바람직한 실시 예에서, 오류 은닉은 대역폭이 주파수 도메인 표현 내에 인코딩된 오디오 프레임의 샘플링 레이트에 의존하는, 샘플링-레이트 의존 필터를 사용하여 손실 오디오 프레임을 선행하는 주파수 도메인 표현 내에 인코딩된 오디오 프레임의 주파수 도메인 표현으로부터 유도되는 시간 도메인 여기 신호의 피치 사이클을 저역 통과(low-pass) 필터링하도록 구성된다. 따라서, 시간 도메인 여기 신호는 오류 은닉 오디오 정보의 뛰어난 청각 인상을 야기하는, 이용 가능한 오디오 대역폭에 적응될 수 있다. 예를 들면, 제 1 손실 프레임 상에서만 저역 통과하는 것이 바람직하고, 바람직하게는, 우리는 또한 신호가 100% 안정적이지 않을 때만 저역 통과시킨다. 그러나, 저역 통과 필터링은 선택적이고, 제 1 피치 사이클 상에서만 실행될 수 있다는 것에 유의하여야 한다. 예를 들면, 필터는 컷-오프(cutoff) 주파수가 대역폭과 관계가 없도록, 샘플링-레이트 의존적일 수 있다.

바람직한 실시 예에서, 오류 은닉은 시간 도메인 여기 신호 또는 그것의 하나 이상의 카피를 예측된 피치에 적응시키기 위하여 손실 프레임의 끝에서 피치를 예측하도록 구성된다. 따라서, 예측된 피치는 손실 오디오 프레임이 고려될 수 있는 동안에 변경된다. 그 결과, 오류 은닉 오디오 정보 및 하나 이상의 손실 오디오 프레임을 뒤따르는 적절하게 디코딩된 프레임의 오디오 정보 사이의 전이에서의 아티팩트들이 방지된다(또는 적어도 감소되는데, 그 이유는 그것이 실제 피치가 아닌 단지 예측된 피치이기 때문이다). 예를 들면, 적응은 마지막 뛰어난 피치로부터 예측된 피치로 간다. 이는 펄스 재동기화(pulse resynchronization)에 의해 수행된다[7].

바람직한 실시 예에서, 오류 은닉은 LPC 합성을 위한 입력 신호를 획득하기 위하여, 외삽된 시간 도메인 여기 신호 및 잡음 신호를 결합하도록 구성된다. 이러한 경우에, 오류 은닉은 LPC 합성을 실행하도록 구성되고, LPC 합성은 오류 은닉 오디오 정보를 획득하기 위하여, 선형 예측 코딩 파라미터들에 의존하여 LPC 합성의 입력 신호를 필터링하도록 구성된다. 따라서, 오디오 콘텐츠의 결정론적(예를 들면, 대략 주기적) 성분 및 오디오 콘텐츠의 잡음 유사 성분 모두가 고려될 수 있다. 따라서, 오류 은닉 정보가 "자연스런" 청각 인상을 포함하는 것이 달성된다.

바람직한 실시 예에서, 오류 은닉은 손실 오디오 프레임을 선행하는 주파수 도메인 내에 인코딩된 오디오 프레임의 시간 도메인 표현을 기초로 하여 실행되는 시간 도메인 내의 상관을 사용하여, LPC 합성을 위한 입력 신호를 획득하도록 사용되는, 외삽된 시간 도메인 여기 신호의 이득을 계산하도록 구성되고, 상관 래그는 시간 도메인 여기 신호를 기초로 하여 획득되는 피치 정보에 의존하여 설정된다. 바꾸어 말하면, 주기적 성분의 강도는 오류 은닉 오디오 정보를 획득하도록 사용된다. 그러나, 위에 언급된 주기 성분의 강도의 계산은 특히 뛰어난 결과들을 제공하는 것이 발견되었는데, 그 이유는 손실 오디오 프레임을 선행하는 오디오 프레임의 실제 시간 도메인 오디오 신호가 고려되기 때문이다. 대안으로서, 여기 도메인 도는 직접적으로 시간 도메인 내의 상관이 피치 정보를 획득하도록 사용될 수 있다. 그러나, 어떠한 실시 예가 사용되는지에 의존하여, 또한 상이한 가능성들이 존재한다. 일 실시 예에서, 피치 정보는 단지 마지막 프레임의 장기간 예측으로부터 획득되는 피치 혹은 부가 정보 또는 계산된 정보로서 전송되는 피치일 수 있다.

바람직한 실시 예에서, 오류 은닉은 외삽된 시간 도메인 여기 신호와 결합된 잡음 신호를 저역 통과 필터링하도록 구성된다. 잡음 신호(일반적으로 LPC 합성 내로 입력되는)의 고역 통과 필터링은 자연스런 청각 인상을 야기한다. 예를 들면, 고역 통과 특성은 손실된 프레임의 양에 따라 변경될 수 있고, 특정 양의 프레임 손실 이후에 어떠한 고역 통과도 더 이상 존재하지 않을 수 있다. 저역 통과 특성은 또한 디코더가 구동하는 샘플링 레이트에 의존될 수 있다. 예를 들면, 고역 통과는 샘플링 레이트 의존적이고, 필터 특성은 또한 시간에 따라 (연속적인 프레임 손실에 따라) 변경될 수 있다. 고역 통과는 또한 특정 양의 프레임 손실 이후에 배경 잡음에 가까운 뛰어난 편안한 잡음을 얻도록 완전 대역 정형된 잡음만을 얻기 위하여 더 이상 어떠한 필터링도 존재하지 않도록 연속적인 프레임 손실에 따라 선택적으로 변경될 수 있다.

바람직한 실시 예에서, 오류 은닉은 프리-엠퍼시스 필터(pre-emphasis filter)를 사용하여 잡음 신호(562)의 스펙트럼 정형을 선택적으로 변경하도록 구성되고, 잡음 신호는 만일 손실 오디오 프레임을 선행하는 주파수 도메인 표현 내에 인코딩된 오디오 프레임이 유성이거나(voiced) 또는 온셋(onset)을 포함하면 외삽된 시간 도메인 여기 신호와 결합된다. 오류 은닉 오디오 정보의 청각 인상은 그러한 개념에 의해 향상될 수 있다는 것이 발견되었다. 예를 들면, 일부 경우에서 이득들 및 정형을 감소시키는 것이 더 낫고 일부 경우에서는 이를 증가시키는 것이 다 낫다.

바람직한 실시 예에서, 오류 은닉은 손실 오디오 프레임을 선행하는 주파수 도메인 표현 내에 인코딩된 오디오 프레임의 시간 도메인 표현을 기초로 하여 실행되는, 시간 도메인 내의 상관에 의존하여 잡음 신호의 이득을 계산하도록 구성된다. 잡음 신호의 이득의 그러한 결정은 특히 정확한 결과들을 제공한다는 것이 발견되었는데, 그 이유는 손실 오디오 프레임을 선행하는 오디오 프레임과 관련된 실제 시간 도메인 오디오 신호가 고려될 수 있기 때문이다. 이러한 개념을 사용하여, 이전의 뛰어난 프레임의 에너지에 가까운 은닉된 프레임의 에너지를 얻을 수 있는 것이 가능하다. 예를 들면, 잡음 신호에 대한 이득은 다음의 결과의 에너지를 측정함으로써 발생될 수 있다.: 입력 신호의 여기- 발생된 피치 기반 여기.

바람직한 실시 예에서, 오류 은닉은 오류 은닉 오디오 정보를 획득하기 위하여, 손실 오디오 프레임을 선행하는 하나 이상의 오디오 프레임을 기초로 하여 획득된 시간 도메인 여기 신호를 변형하도록 구성된다. 시간 도메인 여기 신호의 변형은 시간 도메인 여기 신호를 원하는 시간적 진화(temporal evolution)에 적응시키도록 허용한다는 것이 발견되었다. 예를 들면, 시간 도메인 여기 신호의 변형은 오류 은닉 오디오 정보 내의 오디오 콘텐츠의 결정론적(예를 들면, 실질적으로 주기적) 성분을 "페이드-아웃(fade-out)하도록" 허용한다. 게다가, 시간 도메인 여기 신호의 변형은 또한 시간 도메인 여기 신호를 (추정되거나 또는 예상되는) 피치 변이에 적응시키도록 허용한다. 이는 시간에 따라 오류 은닉 오디오 정보의 특성을 조정하도록 허용한다.

바람직한 실시 예에서, 오류 은닉은 오류 은닉 정보를 획득하기 위하여, 손실 오디오 프레임을 선행하는 하나 이상의 오디오 프레임을 기초로 하여 획득되는 시간 도메인 여기 신호의 하나 이상의 변형된 카피를 사용하도록 구성된다. 시간 도메인 여기 신호의 변형된 카피들은 적당한 노력으로 획득될 수 있고, 변형은 간단한 알고리즘을 사용하여 실행될 수 있다. 따라서, 오류 은닉 오디오 정보의 바람직한 특성들이 적당한 노력으로 달성될 수 있다.

바람직한 실시 예에서, 오류 은닉은 이에 의해 시간에 따라 오류 은닉 오디오 정보의 주기적 성분을 감소시키기 위하여, 손실 오디오 프레임을 선행하는 하나 이상의 오디오 프레임을 기초로 하여 획득되는 시간 도메인 여기 신호를, 또는 그것의 하나 이상의 카피를, 변형하도록 구성된다. 따라서, 손실 오디오 프레임을 선행하는 오디오 프레임의 오디오 콘텐츠 및 하나 이상의 손실 오디오 프레임의 오디오 콘텐츠 사이의 상관이 시간에 따라 감소되는 것이 고려될 수 있다. 또한, 오류 은닉 오디오 정보의 주기적 성분의 긴 보존에 의해 부자연스런 청각 인상이 야기되는 것이 방지될 수 있다.

바람직한 실시 예에서, 오류 은닉은 이에 의해 시간 도메인 여기 신호를 변형하기 위하여, 손실 오디오 프레임을 선행하는 하나 이상의 오디오 프레임을 기초로 하여 획득되는 시간 도메인 여기 신호를, 또는 그것의 하나 이상의 카피를, 스케일링하도록 구성된다. 스케일링 연산은 적은 노력으로 실행될 수 있고, 스케일링된 시간 도메인 여기 신호는 일반적으로 뛰어난 오류 은닉 오디오 정보를 제공한다는 것이 발견되었다.

바람직한 실시 예에서, 오류 은닉은 손실 오디오 프레임을 선행하는 하나 이상의 오디오 프레임을 기초로 하여 획득되는 시간 도메인 여기 신호를, 또는 그것의 하나 이상의 카피를, 스케일링하도록 적용되는 이득을 점진적으로 감소시키도록 구성된다. 따라서 주기적 성분의 페이드 아웃이 오류 은닉 오디오 정보 내에서 달성될 수 있다.

바람직한 실시 예에서, 오류 은닉은 손실 오디오 프레임을 선행하는 하나 이상의 오디오 프레임이 하나 이상의 파라미터에 의존하거나, 및/또는 연속적인 손실 오디오 프레임들의 수에 의존하여, 손실 오디오 프레임을 선행하는 하나 이상의 오디오 프레임을 기초로 하여 획득되는 시간 도메인 여기 신호를, 또는 그것의 하나 이상의 카피를, 스케일링하도록 적용되는 이득을 점진적으로 감소시키도록 사용되는 속도를 조정하도록 구성된다. 따라서, 결정론적(예를 들면, 적어도 대략 주기적) 성분의 오류 은닉 오디오 정보 내에 페이드 아웃되는 속도를 조정하는 것이 가능하다. 페이드 아웃의 속도는 일반적으로 손실 오디오 프레임을 선행하는 하나 이상의 오디오 프레임의 하나 이상의 파라미터로부터 알 수 있는, 오디오 콘텐츠의 특정 특성들에 적응될 수 있다. 대안으로서, 또는 부가적으로, 오류 은닉 오디오 정보의 결정론적(예를 들면, 적어도 대략 주기적) 성분을 페이드 아웃하도록 사용되는 속도를 결정할 때 연속적인 손실 오디오 프레임들의 수가 고려될 수 있으며, 이는 오류 은닉을 특정 상황에 적응시키는데 도움을 준다. 예를 들면, 음조 부분(tonal part)의 이득 및 잡음이 있는 부분의 이득은 개별적으로 페이드 아웃될 수 있다. 음조 부분에 대한 이득은 특정 양의 프레임 손실 후에 제로(zero, 0)로 집중되고 반면에 잡음의 이득은 특정한 편안한 잡음에 도달하도록 결정되는 이득에 집중된다.

바람직한 실시 예에서, 오류 은닉은 피치 주기의 큰 길이를 갖는 신호들과 비교할 때 피치 주기의 짧은 주기를 갖는 신호들을 위하여 LPC 합성 내로의 시간 도메인 여기 신호 입력이 빠르게 페이드 아웃하도록, 시간 도메인 여기 신호의 피치 주기의 길이에 의존하여, 손실 오디오 프레임을 선행하는 하나 이상의 오디오 프레임을 기초로 하여 획득되는 시간 도메인 여기 신호를, 또는 그것의 하나 이상의 카피를, 스케일링하도록 적용되는 이득을 점진적으로 감소시키기 위하여 사용되는 속도를 조정하도록 구성된다. 따라서, 짧은 피치 주기의 길이를 갖는 신호들이 높은 강도로 너무 자주 반복되는 것이 방지될 수 있는데, 그 이유는 이것이 일반적으로 부자연스런 청각 인상을 야기할 수 있기 때문이다. 따라서, 오류 은닉 오디오 정보의 전체 품질이 향상될 수 있다.

바람직한 실시 예에서, 오류 은닉은 LPC 합성 내로 입력된 시간 도메인 여기 신호의 결정론적 성분이 시간 유닛 당 작은 피치 변화를 갖는 신호들과 비교할 때 시간 유닛 당 큰 피치 변화를 갖는 신호들을 위하여 빠르게 페이드 아웃하도록, 및/또는 LPC 합성 내로 입력된 시간 도메인 여기 신호의 결정론적 성분이 피치 예측에 성공한 신호들과 비교할 때 피치 예측에 실패한 신호들을 위하여 빠르게 페이드 아웃하도록, 피치 분석 또는 피치 예측의 결과에 의존하여, 손실 오디오 프레임을 선행하는 하나 이상의 오디오 프레임을 기초로 하여 획득되는 시간 도메인 여기 신호를, 또는 그것의 하나 이상의 카피를, 스케일링하도록 적용되는 이득을 점진적으로 감소시키도록 사용되는 음성을 조정하도록 구성된다. 따라서, 페이드 아웃은 피치의 작은 불확실성을 갖는 신호들과 비교할 때 피치의 큰 불확실성을 갖는 신호들을 위하여 빠르게 만들어질 수 있다. 그러나, 피치의 상대적으로 큰 불확실성을 포함하는 신호들을 위하여 결정론적 성분을 빠르게 페이드 아웃함으로써, 가청 아티팩트들이 방지될 수 있거나 또는 적어도 상당히 감소될 수 있다.

바람직한 실시 예에서, 오류 은닉은 하나 이상의 손실 오디오 프레임의 시간에 대한 피치의 예측에 의존하여 하나 이상의 오디오 프레임을 기초로 하여 획득되는 시간 도메인 여기 신호를, 또는 그것의 하나 이상의 카피를, 시간-스케일링하도록 구성된다. 따라서, 시간 도메인 여기 신호는 오류 은닉 오디오 정보가 다 많은 자연스런 청각 인상을 포함하도록, 피치를 변경하도록 적용될 수 있다.

바람직한 실시 예에서, 오류 은닉은 하나 이상의 손실 오디오 프레임의 시간 기간보다 긴 시간을 위한 오류 은닉 오디오 정보를 제공하도록 구성된다. 따라서, 아티팩트들의 차단에 도움을 주는, 오류 은닉 오디오 정보를 기초로 하여 오버랩-및-가산(overlap-and-add) 연산을 실행하는 것이 가능하다.

바람직한 실시 예에서, 오류 은닉은 오류 은닉 오디오 정보 및 하나 이상의 손실 오디오 프레임을 뒤따르는 하나 이상의 적절하게 수신된 오디오 프레임의 시간 도메인 표현의 오버랩-및-가산을 실행하도록 구성된다. 따라서, 아티팩트들을 차단하는(또는 적어도 감소시키는) 것이 가능하다.

바람직한 실시 예에서, 오류 은닉은 손실 오디오 프레임 또는 손실 윈도우를 선행하는 적어도 세 개의 부분적으로 오버래핑하는 프레임 또는 윈도우를 기초로 하여 오류 은닉 오디오 정보를 유도하도록 구성된다. 따라서, 오류 은닉 오디오 정보는 심지어 두 개 이상의 프레임(또는 윈도우)이 오버래핑되는 코딩 모드들을 위하여 뛰어난 정확도로 획득될 수 있다(그러한 오버래핑은 지연을 감소시키는데 도움을 줄 수 있다).

본 발명에 따른 또 다른 실시 예는 인코딩된 오디오 정보를 기초로 하여 디코딩된 오디오 정보를 제공하기 위한 방법을 생성한다. 방법은 시간 도메인 여기 신호를 사용하여 주파수 도메인 표현 내에 인코딩된 오디오 프레임을 뒤따르는 오디오 프레임의 손실을 은닉하기 위한 오류 은닉 오디오 정보를 제공하는 단계를 포함한다. 이러한 방법은 위에 설명된 오디오 디코더와 동일한 고려사항들을 기초로 한다.

본 발명에 따른 또 다른 실시 예는 컴퓨터 프로그램이 컴퓨터 상에서 구동할 때 상기 방법을 실행하기 위한 컴퓨터 프로그램을 생성한다.

본 발명에 따른 또 다른 실시 예는 인코딩된 오디오 정보를 기초로 하여 디코딩된 오디오 정보를 제공하기 위한 오디오 디코더를 생성한다. 오디오 디코더는 오디오 프레임의 손실을 은닉하기 위한 오류 은닉 오디오 정보를 제공하도록 구성되는 오류 은닉을 포함한다. 오류 은닉은 오류 은닉 오디오 정보를 획득하기 위하여, 손실 오디오 프레임을 선행하는 하나 이상의 오디오 프레임을 기초로 하여 획득되는 시간 도메인 여기 신호를 변형하도록 구성된다.

본 발명에 따른 이러한 실시 예는 뛰어난 오디오 품질을 갖는 오류 은닉이 시간 도메인 여기 신호를 기초로 하여 획득될 수 있다는 개념을 기초로 하고, 손실 오디오 프레임을 선행하는 하나 이상의 오디오 프레임을 기초로 하여 획득되는 시간 도메인 여기 신호의 변형은 손실 프레임 동안에 오디오 콘텐츠의 예상되는(또는 예측되는) 변화들로의 오류 은닉 오디오 정보의 적응을 허용한다. 따라서, 아티팩트들, 및 특히 시간 도메인 여기 신호의 변함없는 사용에 의해 야기될 수 있는, 부자연스런 청각 인상이 방지될 수 있다. 그 결과, 손실 오디오 프레임들이 향상된 결과들로 은닉되도록, 오류 은닉 오디오 정보의 향상된 제공이 달성된다.

바람직한 실시 예에서, 오류 은닉은 오류 은닉 정보를 획득하기 위하여, 손실 오디오 프레임을 선행하는 하나 이상의 오디오 프레임을 위하여 획득되는 시간 도메인 여기 신호의 하나 이상의 변형된 카피를 사용하도록 구성된다. 손실 오디오 프레임을 선행하는 하나 이상의 오디오 프레임을 위하여 획득되는 시간 도메인 여기 신호의 하나 이상의 변형된 카피를 사용함으로써, 오류 은닉 오디오 정보의 뛰어난 품질이 적은 계산 노력으로 달성될 수 있다.

바람직한 실시 예에서, 오류 은닉은 이에 의해 시간에 따라 오류 은닉 오디오 정보의 주기적 성분을 감소시키기 위하여, 손실 오디오 프레임을 선행하는 하나 이상의 오디오 프레임을 위하여 획득되는 시간 도메인 여기 신호를 변형하도록 구성된다. 시간에 따라 오류 은닉 오디오 정보의 주기적 성분을 감소시킴으로써, 결정론적(예를 들면, 대략 주기적) 음향의 부자연스런 긴 보존이 방지될 수 있고, 이는 오류 은닉 오디오 정보 음향을 자연스럽게 만드는데 도움을 준다.

바람직한 실시 예에서, 오류 은닉은 이에 의해 시간 도메인 여기 신호를 변형하기 위하여, 손실 오디오 프레임을 선행하는 하나 이상의 오디오 프레임을 기초로 하여 시간 도메인 여기 신호를, 또는 그것의 하나 이상의 카피를, 스케일링하도록 구성된다. 시간 도메인 여기 신호의 스케일링은 시간에 따라 오류 은닉 오디오 정보를 변경하기 위하여 특히 효율적인 방식으로 구성된다.

바람직한 실시 예에서, 오류 은닉은 손실 오디오 프레임을 선행하는 하나 이상의 오디오 프레임을 위하여 획득되는 시간 도메인 여기 신호를, 또는 그것의 하나 이상의 카피를, 스케일링하도록 적용되는 이득을 점진적으로 감소시키도록 구성된다. 손실 오디오 프레임을 선행하는 하나 이상의 오디오 프레임을 위하여 획득되는 시간 도메인 여기 신호를, 또는 그것의 하나 이상의 카피를, 스케일링하도록 적용되는 이득이 점진적인 감소는 결정론적 성분들(예를 들면, 적어도 대략 주기적 성분들)이 페이드 아웃되도록, 오류 은닉 오디오 정보의 제공을 위한 시간 도메인 여기 신호를 획득하도록 허용한다는 것이 발견되었다. 예를 들면, 하나의 이득만 존재하지 않을 수 있다. 예를 들면, 우리는 음조 부분(또한 대략 주기적 부분으로서 언급되는)을 위한 하나의 이득, 및 잡음 부분을 위한 하나의 이득을 갖는다. 두 여기(또는 여기 성분) 모두는 상이한 속도 인자로 개별적으로 감쇠될 수 있고 그리고 나서 결과로서 생긴 두 여기(또는 여기 성분) 모두는 합성을 위하여 LPC로 제공되기 이전에 결합될 수 있다. 우리가 어떠한 배경 잡음 추정도 갖지 않는 경우에, 잡음 및 음조 부분을 위한 페이드 아웃 인자는 유사할 수 있고, 그때 우리는 그것들 고유의 이득과 곱한 두 개의 여기들의 결과 상에 적용되고 함께 결합된 하나의 페이드 아웃 인자만 가질 수 있다.

따라서, 오류 은닉 오디오 정보가 일반적으로 부자연스런 청각 인상을 제공하는, 일시적으로 확장된 결정론적(예를 들면, 적어도 대략 주기적) 오디오 성분을 포함하는 것이 방지될 수 있다.

바람직한 실시 예에서, 오류 은닉은 손실 오디오 프레임을 선행하는 하나 이상의 오디오 프레임의 하나 이상의 파라미터에 의존하거나, 및/또는 연속적인 손실 오디오 프레임들의 수에 의존하여, 손실 오디오 프레임을 선행하는 하나 이상의 오디오 프레임을 위하여 획득되는 시간 도메인 여기 신호를, 또는 그것의 하나 이상의 카피를, 스케일링하도록 적용되는 이득을 점진적으로 감소시키도록 사용되는 속도를 조정하도록 구성된다. 따라서, 오류 은닉 오디오 정보 내의 결정론적(예를 들면, 적어도 대략 주기적) 성분의 페이드 아웃 속도는 적당한 계산 노력으로 특정 상황에 적응될 수 있다. 오류 은닉 오디오정보의 제공을 위하여 사용되는 시간 도메인 여기 신호가 일반적으로 손실 오디오 프레임을 선행하는 하나 이상의 오디오 프레임을 위하여 획득되는 시간 도메인 여기 신호의 (위에 언급된 이득을 사용하여 스케일링된) 스케일링된 버전이기 때문에, (오류 은닉 오디오 정보의 제공을 위하여 시간 도메인 여기 신호를 유도하도록 사용되는) 상기 이득의 변경은 오류 은닉 오디오 정보를 특정 요구들에 적응시키기 위한 간단하나 효율적인 방법으로 구성된다. 그러나, 페이드 아웃의 속도는 또한 매우 적은 노력으로 제어 가능하다.

바람직한 실시 예에서, 오류 은닉은 LPC 합성 내로 입력된 시간 도메인 여기 신호의 결정론적 성분이 시간 유닛 당 작은 피치 변화를 갖는 신호들과 비교할 때 시간 유닛 당 큰 피치 변화를 갖는 신호들을 위하여 빠르게 페이드 아웃하도록, 및/또는 LPC 합성 내로 입력된 시간 도메인 여기 신호의 결정론적 성분이 피치 예측에 성공한 신호들과 비교할 때 피치 예측에 실패한 신호들을 위하여 빠르게 페이드 아웃하도록, 시간 도메인 여기 신호의 피치 주기의 길이에 의존하여, 손실 오디오 프레임을 선행하는 하나 이상의 오디오 프레임을 기초로 하여 획득되는 시간 도메인 여기 신호를, 또는 그것의 하나 이상의 카피를, 스케일링하도록 적용되는 이득을 점진적으로 감소시키기 위하여 사용되는 속도를 조정하도록 구성된다. 따라서, 결정론적(예를 들면, 적어도 대략 주기적) 성분은 피치의 큰 불확실성이 존재하는 신호들을 위하여 빠르게 페이드 아웃된다(시간 유닛 당 큰 피치 변화, 또는 심지어 피치 예측의 실패는 상대적으로 큰 피치의 불확실성을 나타낸다). 따라서, 실제 피치가 불확실한 상황에서 높은 결정론적 오류 은닉 오디오 정보의 제공으로부터 야기할 수 있는, 아티팩트들이 방지될 수 있다.

바람직한 실시 예에서, 오류 은닉은 하나 이상의 손실 오디오 프레임의 시간에 대한 피치의 예측에 의존하여 하나 이상의 오디오 프레임을 위하여 (또는 기초로 하여) 획득되는 시간 도메인 여기 신호를, 또는 그것의 하나 이상의 카피를, 시간-스케일링하도록 구성된다. 따라서, 오류 은닉 오디오 정보의 제공을 위하여 사용되는, 시간 도메인 여기 신호는 시간 도메인 여기 신호의 피치가 손실 오디오 프레임의 시간 주기의 요구사항들을 따르도록 변형된다(손실 오디오 프레임을 선행하는 하나 이상의 오디오 프레임을 위하여(또는 기초로 하여) 획득되는 시간 도메인 여기 신호와 비교할 때). 그 결과, 오류 은닉 오디오 정보에 의해 달성될 수 있는, 청각 인상이 향상될 수 있다.

바람직한 실시 예에서, 오류 은닉은 변형된 시간 도메인 여기 신호를 획득하기 위하여, 손실 오디오 프레임을 선행하는 하나 이상의 오디오 프레임을 디코딩하도록 사용된, 시간 도메인 여기 신호를 획득하고, 손실 오디오 프레임을 선행하는 하나 이상의 오디오 프레임을 디코딩하도록 사용된, 상기 시간 도메인 여기 신호를 변형하도록 구성된다. 이러한 경우에, 시간 도메인 은닉은 변형된 시간 도메인 여기 신호를 기초로 하여 오류 은닉 오디오 정보를 제공하도록 구성된다. 따라서, 손실 오디오 프레임을 선행하는 하나 이상의 오디오 프레임을 디코딩하기 위하여 이미 사용된, 시간 도메인 여기 신호를 재사용하는 것이 가능하다. 따라서, 시간 도메인 여기 신호가 손실 오디오 프레임을 선행하는 하나 이상의 오디오 프레임의 디코딩을 위하여 이미 획득되었으면 계산 노력이 매우 적게 유지될 수 있다.

바람직한 실시 예에서, 오류 은닉은 손실 오디오 프레임을 선행하는 하나 이상의 오디오 프레임을 디코딩하도록 사용된, 피치 정보를 획득하도록 구성된다. 이러한 경우에, 오류 은닉은 또한 상기 피치 정보에 의존하여 오류 은닉 오디오 정보를 제공하도록 구성된다. 따라서, 이전에 사용된 피치 정보는 재사용될 수 있고, 이는 피치 정보의 새로운 계산을 위한 계산 노력을 방지한다. 따라서, 오류 은닉은 특히 계산적으로 효율적이다. 예를 들면, ACELP의 경우에, 우리는 4개의 피치 래그 및 이득을 갖는다. 우리는 은닉해야만 하는 프레임의 끝에서 피치를 예측할 수 있도록 적어도 두 개의 프레임을 사용할 수 있다.

그리고 나서 이전에 설명된 프레임 당 하나 또는 두 개의 피치가 유도되는 주파수 도메인 코덱과 비교하여(우리는 두 개 이상을 가질 수 있으나 품질면에서 너무 낮지 않은 이득을 위하여 더 많은 복잡도를 더할 수 있다), 예를 들면 그때 ACELP-주파수 도메인(FD)-손실로 가는 스위치 코덱의 경우에, 우리는 더 나은 피치 정확도를 갖는데, 그 이유는 피치가 비트스트림 내에 전송되고 원래 입력 신호(디코더 내에 수행된 것과 같이 디코딩되지 않은)를 기초로 하기 때문이다. 높은 비트레이트의 경우에, 예를 들면, 우리는 또한 주파수 도메인 코딩된 프레임 당 하나의 피치 래그 및 이득, 장기간 예측 정보를 보낼 수 있다.

바람직한 실시 예에서, 오류 은닉은 시간 도메인 신호 또는 잔류 신호 상에서 실행되는 피치 검색 정보를 기초로 하여 피치 정보를 획득하도록 구성될 수 있다.

달리 설명하면, 피치는 부가 정보로서 전송될 수 있거나 또는 만일 예를 들면 장기간 예측이 존재하면 또한 이전 프레임으로부터 올 수 있다. 피치 정보는 만일 인코더에서 이용 가능하면 또한 비트스트림 내에 전송될 수 있다. 우리는 선택적으로 직접적으로 시간 도메인 신호에 대한 피치 검색 또는 일반적으로 잔류(시간 도메인 여기 신호)에 대하여 더 나은 결과들을 주는, 잔류에 대한 피치 검색을 직접적으로 수행할 수 있다.

바람직한 실시 예에서, 오류 은닉은 손실 오디오 프레임을 선행하는 하나 이상의 오디오 프레임을 디코딩하도록 사용된, 선형 예측 계수들의 세트를 획득하도록 구성된다. 이러한 경우에, 오류 은닉은 상기 선형 예측 계수들의 세트에 의존하여 오류 은닉 오디오 정보를 제공하도록 구성된다. 따라서, 오류 은닉의 효율성은 예를 들면 이전에 사용된 선형 예측 계수들의 세트 같은, 이전에 발생된(또는 이전에 디코딩된) 정보의 재사용에 의해 증가된다. 따라서 불필요하게 높은 계산 복잡도가 방지된다.

바람직한 실시 예에서, 오류 은닉은 손실 오디오 프레임을 선행하는 하나 이상의 오디오 프레임을 디코딩하도록 사용된, 선형 예측 계수들의 세트를 기초로 하여 새로운 선형 예측 계수들의 세트를 새로운 세트를 외삽하도록 구성된다. 외삽을 사용하여 이전에 사용된 선형 예측 계수들의 세트로부터, 오류 은닉 오디오정보를 제공하도록 사용되는, 새로운 선형 예측 계수들의 세트를 유도함으로써, 선형 예측 계수들의 완전한 재계산이 방지될 수 있고, 이는 계산 노력을 합리적으로 작게 유지한다. 게다가, 이전에 사용된 선형 예측 계수들의 세트의 외삽을 실행함으로써, 선형 예측 계수들의 새로운 세트가 적어도 이전에 사용된 선형 예측 계수들의 세트와 유사하다는 것이 보장될 수 있고, 이는 오류 은닉 정보를 제공할 때 불연속성들을 방지하는데 도움을 준다. 예를 들면, 특정 양의 프레임 손실 이후에 우리는 배경 잡음 LPC 정형을 추정하는 경향이 있다. 이러한 수렴(convergence)의 속도는 예를 들면, 신호 특성에 의존할 수 있다.

바람직한 실시 예에서, 오류 은닉은 손실 오디오 프레임을 선행하는 하나 이상의 오디오 프레임 내의 결정론적 신호 성분의 강도에 관한 정보를 획득하도록 구성된다. 이러한 경우에, 오류 은닉은 시간 도메인 여기 신호의 결정론적 성분을 LPC 합성(선형 예측 계수 기반 합성) 내로 입력하는지, 또는 시간 도메인 여기 신호의 잡음 신호만을 LPC 합성 내로 입력하는지를 결정하기 위하여, 손실 오디오 프레임을 선행하는 하나 이상의 오디오 프레임 내의 결정론적 신호 성분의 강도에 관한 정보를 임계 값과 비교하도록 구성된다. 따라서, 손실 오디오 프레임을 선행하는 하나 이상의 오디오 프레임 내에 작은 결정론적 신호 기여만이 존재하는 경우에 오류 은닉 오디오 정보의 결정론적(예를 들면, 적어도 대략 주기적) 성분의 제공을 생략하는 것이 가능하다. 이는 뛰어난 청각 인상을 획득하는데 도움을 준다는 것이 발견되었다.

바람직한 실시 예에서, 오류 은닉은 손실 오디오 프레임을 선행하는 오디오 프레임의 피치를 기술하는 피치 정보를 획득하고, 피치 정보에 의존하여 오류 은닉 오디오 정보를 제공하도록 구성된다. 따라서, 오류 은닉 정보의 피치를 손실 오디오 프레임을 선행하는 오디오 프레임의 피치에 적응하는 것이 가능하다. 따라서, 불연속성들이 방지되고 자연스런 청각 인상이 달성될 수 있다.

바람직한 실시 예에서, 오류 은닉은 손실 오디오 프레임을 선행하는 오디오 프레임과 관련된 시간 도메인 여기 신호를 기초로 하여 피치 정보를 획득하도록 구성된다. 시간 도메인 여기 신호를 기초로 하여 획득되는 피치 정보는 특히 신뢰할 수 있고, 또한 시간 도메인 여기 신호의 처리에 매우 잘 적응된다는 사실이 발견되었다.

바람직한 실시 예에서, 오류 은닉은 거친 피치 정보를 결정하고, 거친 피치 정보에 의해 결정된(또는 기술된) 피치 주위의 폐쇄 루프 검색을 사용하여 거친 피치 정보를 개선하기 위하여, 시간 도메인 여기 신호(또는 대안으로서, 시간 도메인 오디오 신호)의 교차 상관을 평가하도록 구성된다. 이러한 개념은 적당한 계산 노력으로 매우 정확한 피치 정보를 획득하도록 허용하는 것이 발견되었다. 바꾸어 말하면, 일부 코덱에서 우리는 시간 도메인 신호에 대하여 직접적으로 피치 검색을 수행하고 반면에 일부 다른 코덱에서 우리는 시간 도메인 여기 신호에 대한 피치 검색을 수행한다.

바람직한 실시 예에서, 오류 은닉은 손실 오디오 프레임을 선행하는 하나 이상의 오디오 프레임의 디코딩을 위하여 사용된, 이전에 계산된 피치 정보를 기초로 하고, 오류 은닉 오디오 정보의 제공을 위하여 변형된 시간 도메인 여기 신호를 획득하도록 변형되는, 시간 도메인 여기 신호의 교차 상관의 평가를 기초로 하여, 여 오류 은닉 오디오 정보의 제공을 위한 피치 정보를 획득하도록 구성된다. 이전에 계산된 피치 정보 및 시간 도메인 여기 신호를 기초로 하여 획득된(교차 상관을 사용하여) 피치 정보 모두는 피치 정보의 신뢰도를 향상시키는고 그 결과 아티팩트들 및/또는 불연속성들을 방지하는데 도움을 준다는 것이 발견되었다.

바람직한 실시 예에서, 오류 은닉은 이전에 계산된 피치 정보에 의해 표현되는 피치에 가장 가까운 피치를 표현하는 피크가 선택되도록, 이전에 계산된 피치 정보에 의존하여 피치를 표현하는 피크로서, 복수의 교차 상관의 피크 중에서, 하나의 교차 상관의 피크를 선택하도록 구성된다. 따라서, 예를 들면 다중 피크를 야기할 수 있는, 교차 상관의 가능한 애매모호함이 극복될 수 있다. 이전에 계산된 피치 정보는 이에 의해 교차 상관의 "적절한" 피크를 선택하도록 사용되고, 이는 실질적으로 신뢰도를 증가시키는데 도움을 준다. 다른 한편으로, 주로 피치 결정을 위하여 뛰어난 정확도(실질적으로 이전에 계산된 피치 정보만 기초로 하여 획득 가능한 정확도보다 더 나은)를 제공하는, 실제 시간 도메인 여기 신호가 고려된다.

바람직한 실시 예에서, 오디오 디코더는 인코딩된 오디오 정보의 부가 정보를 기초로 하여 피치 정보를 획득하도록 구성될 수 있다.

바람직한 실시 예에서, 오류 은닉은 오류 은닉 오디오 정보의 합성을 위한 여기 신호(또는 적어도 그것의 결정론적 성분)를 획득하기 위하여, 손실 오디오 프레임을 선행하는 오디오 프레임과 관련된 시간 도메인 여기 신호의 피치 사이클을 복사하도록 구성된다. 손실 오디오 프레임을 선행하는 오디오 프레임과 관련된 시간 도메인 여기 신호의 피치 사이클을 한 번 또는 여러 번 복사함으로써, 그리고 상대적으로 간단한 변형 알고리즘을 사용하여 상기 하나 이상의 카피를 변형함으로써, 오류 은닉 오디오 정보의 합성을 위한 여기 신호(또는 적어도 그것의 결정론적 성분)는 적은 계산 노력으로 획득될 수 있다. 그러나, 손실 오디오 프레임을 선행하는 오디오 프레임과 관련된 시간 도메인 여기 신호의 재사용(상기 시간 도메인 여기 신호의 복사에 의한)은 가청 불연속성들을 방지한다.

바람직한 실시 예에서, 오류 은닉은 대역폭이 주파수 도메인 표현 내에 인코딩된 오디오프레임의 샘플링 레이트에 의존하는, 샘플링 레이트 의존적 필터를 사용하여 손실 오디오 프레임을 선행하는 오디오 프레임과 관련된 시간 도메인 여기 신호의 피치 사이클을 저역 통과 필터링하도록 구성된다. 따라서, 시간 도메인 여기 신호는 오디오 콘텐츠의 뛰어난 재생을 야기하는, 오디오 디코더의 신호 대역폭에 적응된다.

상세하고 선택적인 향상들을 위하여, 예를 들면, 위의 설명들이 참조된다.

예를 들면, 제 1 손실 프레임에 대해서만 저역 통과하는 것이 바람직하고, 바람직하게는, 우리는 또한 신호가 무음(unvoiced)일 때만 저역 통과시킨다. 그러나, 저역 통과 필터링은 선택적이라는 것에 유의하여야 한다. 게다가 필터는 컷-오프 주파수가 대역폭과 독립적이 되도록, 샘플링 레이트 의존적일 수 있다.

바람직한 실시 예에서, 오류 은닉은 손실 프레임이 끝에서 피치를 예측하도록 구성된다. 이러한 경우에, 오류 은닉은 시간 도메인 여기 신호 또는 그것의 카피들을 예측된 피치에 적응시키도록 구성된다. 실제로 오류 은닉 오디오 정보의 제공을 위하여 사용되는 시간 도메인 여기 신호가 손실 오디오 프레임을 선행하는 오디오 프레임과 관련된 시간 도메인 여기 신호와 관련하여 변형되도록, 시간 도메인 여기 신호를 변형함으로써, 예상되는(또는 예측되는) 피치는 오류 은닉 오디오 정보가 실제 진화에(또는 적어도 예상되거나 또는 예측되는 진화에) 잘 적응되도록, 손실 오디오 프레임이 고려될 수 있는 동안에 변경된다. 예를 들면, 적응은 마지막 뛰어난 피치로부터 예측된 피치로 간다. 이는 펄스 재동기화에 의해 수행된다[7].

바람직한 실시 예에서, 오류 은닉은 LPC 합성을 위한 입력 신호를 획득하기 위하여, 외삽된 시간 도메인 여기 신호 및 잡음 신호를 결합하도록 구성된다. 이러한 경우에, 오류 은닉은 LPC 합성을 실행하도록 구성되고, LPC 합성은 오류 은닉 오디오 정보를 획득하기 위하여, 선형 예측 코딩 파라미터들에 의존하여 LPC 합성의 입력 신호를 필터링하도록 구성된다. 외삽된 시간 도메인 여기 신호(일반적으로 손실 오디오 프레임을 선행하는 하나 이상의 오디오 프레임을 위하여 유도되는 시간 도메인 여기 신호의 변형된 버전) 및 잡음 신호를 결합함으로써, 오디오 콘텐츠의 두 결정론적(예를 들면, 대략 주기적) 성분들 및 잡음 성분들 모두가 오류 은닉 내에 고려될 수 있다. 따라서, 오류 은닉 오디오 정보가 손실 오디오 프레임을 선행하는 프레임들에 의해 제공되는 청각 인상과 유사한 청각 인상을 제공하는 것이 달성될 수 있다.

또한, LPC 합성을 위한 입력 신호(결합된 시간 도메인 여기 신호로서 고려될 수 있는)를 획득하기 위하여, 시간 도메인 여기 신호 및 잡음 신호를 결합함으로써, 에너지(LPC 합성의 입력 신호의, 또는 심지어 LPC 합성의 출력 신호의)를 유지하는 동안에 LPC 합성을 위한 입력 오디오 신호의 결정론적 성분의 퍼센트 비율을 변경하는 것이 가능하다. 그 결과, 수용 불가능한 가청 왜곡들을 야기하지 않고 시간 도메인 여기 신호를 변형하는 것이 가능하도록, 실질적으로 오류 은닉 오디오 정보의 에너지 또는 라우드니스를 변경하지 않고 오류 은닉 오디오 정보의 특성들(예를 들면, 음조 특성들)을 변경하는 것이 가능하다.

본 발명에 따른 일 실시 예는 인코딩된 오디오 신호를 기초로 하여 디코딩된 오디오 신호를 제공하기 위한 방법을 생성한다. 방법은 오디오 프레임의 손실을 은닉하기 위한 오류 은닉 오디오 정보를 제공하는 단계를 포함한다. 오류 은닉 오디오 정보를 제공하는 단계는 오류 은닉 오디오 정보를 획득하기 위하여, 손실 오디오 프레임을 선행하는 하나 이상의 오디오 프레임을 기초로 하여 시간 도메인 여기 신호를 변형하는 단계를 포함한다.

이러한 방법은 위에 설명된 오디오 디코더와 동일한 고려사항들을 기초로 한다.

첨부된 도면들을 참조하여 본 발명의 실시 예들이 그 뒤에 설명될 것이다.
도 1은 본 발명의 일 실시 예에 따른, 오디오 디코더의 개략적인 블록 다이어그램을 도시한다.
도 2는 본 발명의 또 다른 실시 예에 따른, 오디오 디코더의 개략적인 블록 다이어그램을 도시한다.
도 3은 본 발명의 또 다른 실시 예에 따른, 오디오 디코더의 개략적인 블록 다이어그램을 도시한다.
도 4는 본 발명의 또 다른 실시 예에 따른, 오디오 디코더의 개략적인 블록 다이어그램을 도시한다.
도 5는 변환 코더를 위한 시간 도메인 은닉의 개략적인 블록 다이어그램을 도시한다.
도 6은 스위치 코덱을 위한 시간 도메인 은닉의 개략적인 블록 다이어그램을 도시한다.
도 7은 정상 작동에서 또는 부분적인 패킷 손실의 경우에 TCX 디코딩을 실행하기 위한 TCX 디코더의 개략적인 블록 다이어그램을 도시한다.
도 8은 TCX-256 패킷 소거 은닉의 경우에 TCX 디코딩을 실행하기 위한 TCX 디코더의 개략적인 블록 다이어그램을 도시한다.
도 9는 본 발명의 일 실시 예에 따라, 인코딩된 오디오 정보를 기초로 하여 디코딩된 오디오 정보를 제공하기 위한 방법의 플로우차트를 도시한다.
도 10은 본 발명의 또 다른 실시 예에 따라, 인코딩된 오디오 정보를 기초로 하여 디코딩된 오디오 정보를 제공하기 위한 방법의 플로우차트를 도시한다.
도 11은 본 발명의 또 다른 실시 예에 따른, 오디오 디코더의 개략적인 블록 다이어그램을 도시한다.

1. 도 1에 따른 오디오 디코더

도 1은 본 발명의 일 실시 예에 따른, 오디오 디코더(100)의 개략적인 블록 다이어그램을 도시한다. 오디오 디코더(100)는 예를 들면 주파수-도메인 표현 내에 인코딩된, 인코딩된 오디오 정보(110)를 수신한다. 인코딩된 오디오 정보는 예를 들면, 가끔 프레임 손실이 발생하도록, 신뢰할 수 없는 채널을 통하여 수신될 수 있다. 오디오 디코더(100)는 인코딩된 오디오 정보(110)를 기초로 하여, 디코딩된 오디오 정보(112)를 더 제공한다.

오디오 디코더(100)는 프레임 손실이 없을 때 인코딩된 오디오 정보를 기초로 하여 디코딩된 오디오 정보를 제공하는, 디코딩/처리(120)를 포함할 수 있다.

오디오 디코더(100)는 오류 은닉 오디오 정보를 제공하는, 오류 은닉(130)을 더 포함한다. 오류 은닉(130)은 시간 도메인 여기 신호를 사용하여, 주파수 도메인 표현 내에 인코딩된 오디오 프레임을 뒤따르는 오디오 프레임이 손실을 은닉하기 위한 오류 은닉 오디오 정보(132)를 제공하도록 구성된다.

바꾸어 말하면, 디코딩/처리(120)는 주파수 도메인 표현 형태로, 즉 인코딩된 값들이 상이한 주파수 빈들 내의 강도들을 기술하는 인코딩된 표현 형태로 인코딩 오디오 프레임들 위한 디코딩된 오디오 정보(122)를 제공할 수 있다. 달리 설명하면, 디코딩/처리(120)는 예를 들면, 인코딩된 오디오 정보(110)로부터 스펙트럼 값들의 세트를 유도하고, 부가적인 후처리가 존재하는 경우에 이에 의해 디코딩된 오디오 정보(122)로 구성되거나 또는 디코딩된 오디오 정보(122)의 제공을 위한 기초를 형성하는 시간 도메인 표현을 유도하도록 주파수-도메인-대-시간-도메인 변환을 실행하는, 주파수 도메인 오디오 디코더를 포함할 수 있다.

그러나, 오류 은닉(130)은 주파수 도메인 내의 오류 은닉을 사용하지 않고 오히려 예를 들면 시간 도메인 여기 신호를 기초로 하고 또한 LPC 필터 계수들(선형 예측 코딩 필터 계수들)을 기초로 하여 오디오 신호의 시간 도메인 표현(예를 들면, 오류 은닉 오디오 정보)을 제공하는, 예를 들면 LPC 합성 필터 같은, 합성 필터를 여기하는 역할을 할 수 있는, 시간 도메인 여기 신호를 사용한다.

따라서, 오류 은닉(130)은 예를 들면 손실 오디오 프레임들을 위하여, 시간 도메인 오디오 신호일 수 있는, 오류 은닉 오디오 정보(132)를 제공하고, 오류 은닉(130)에 의해 사용되는 시간 도메인 여기 신호는 주파수 도메인 표현 형태로 인코딩되는, 하나 이상의 이전의, 적절하게 수신된 오디오 프레임(손실 오디오 프레임을 선행하는)을 기초로 하거나 또는 이들로부터 유도될 수 있다. 결론적으로, 오디오 디코더(100)는 적어도 일부 오디오 프레임들이 주파수 도메인 표현 내에 인코딩되는, 인코딩된 오디오 정보를 기초로 하여 오디오 프레임의 손실에 기인하는 오디오 품질의 저하를 감소시키는, 오류 은닉을 실행(즉, 오류 은닉 오디오 정보(132)를 제공)할 수 있다. 주파수 도메인 내에 인코딩된 적절하게 수신된 오디오 프레임을 뒤따르는 프레임이 손실되더라도 시간 도메인 여기 신호를 사용하는 오류 은닉의 실행은 주파수 도메인 내에 실행되는(예를 들면, 손실 오디오 프레임을 선행하는 주파수 도메인 표현 내에 인코딩된 오디오 프레임의 주파수 도메인 표현을 사용하여) 오류 은닉과 비교할 때 향상된 오디오 품질을 가져온다는 사실을 발견하였다. 이는 손실 오디오 프레임을 선행하는 적절하게 수신된 오디오 프레임과 관련된 디코딩된 오디오 정보 및 손실 오디오 프레임과 관련된 오류 은닉 정보 사이의 평활한 전이가 시간 도메인 여기 신호를 사용하여 달성될 수 있다는 사실에 기인하는데, 그 이유는 일반적으로 시간 도메인 여기 신호를 기초로 하여 실행되는, 신호 합성이 불연속성들을 방지하는데 도움을 주기 때문이다. 따라서, 비록 주파수 도메인 표현 내에 인코딩된 적절하게 수신된 오디오 프레임을 뒤따르는 오디오 프레임이 손실되더라도, 오디오 디코더(100)를 사용하여 뛰어난(또는 적어도 수용 가능한) 청각 인상이 달성될 수 있다. 예를 들면, 시간 도메인 접근법은 음성 같은, 모노포닉 신호에 대한 향상을 가져오는데, 그 이유는 그것이 음성 코덱 은닉의 경우에서 수행되는 것에 가깝기 때문이다. LPC 합성의 사용은 불연속성들을 방지하고 프레임들의 더 나은 정형을 주는데 도움을 준다.

게다가, 오디오 디코더(100)는 개별적으로 또는 조합하여, 아래에 설명되는 특징들과 기능들 중 어느 하나에 의해 보강될 수 있다는 것에 유의하여야 한다.

2, 도 2에 따른 오디오 디코더

도 2는 본 발명의 일 실시 예에 따른 오디오 디코더(200)의 개략적인 블록 다이어그램을 도시한다. 오디오 디코더(200)는 인코딩된 오디오 정보(210)를 수신하고 이를 기초로 하여, 디코딩된 오디오 정보(220)를 제공하도록 구성된다. 인코딩된 오디오 정보(210)는 예를 들면, 시간 도메인 표현 내에 인코딩되거나, 주파수 도메인 표현 내에 인코딩되거나, 또는 시간 도메인 표현 및 주파수 도메인 표현 모두 내에 인코딩되는 오디오 프레임들의 시퀀스의 형태를 가질 수 있다. 달리 설명하면, 주파수 도메인 표현 내에 인코딩될 수 있거나, 또는 인코딩된 오디오 정보(210)의 모든 프레임은 시간 도메인 표현 내에 인코딩될 수 있다(예를 들면, 인코딩된 시간 도메인 여기 신호 및 예를 들면 LPC 파라미터들 같은, 인코딩된 신호 합성 파라미터들의 형태로). 대안으로서, 인코딩된 오디오 정보의 일부 프레임들은 주파수 도메인 표현 내에 인코딩될 수 있고, 인코딩된 오디오 정보의 일부 다른 프레임들은 예를 들면 만일 오디오 디코더(200)가 상이한 디코딩 모드들 사이를 스위칭할 수 있는 스위칭 오디오 디코더이면, 시간 도메인 표현 내에 인코딩될 수 있다. 디코딩된 오디오 정보(220)는 예를 들면, 하나 이상의 오디오 채널의 시간 도메인 표현일 수 있다.

오디오 디코더(200)는 일반적으로 예를 들면 적절하게 수신된 오디오 프레임들을 위한 디코딩된 오디오 정보(232)를 제공할 수 있는, 디코딩/처리(230)를 포함할 수 있다. 바꾸어 말하면, 디코딩/처리(230)는 주파수 도메인 표현 내에 인코딩된 하나 이상의 인코딩된 오디오 프레임을 기초로 하여 주파수 도메인 디코딩(예를 들면, 고급 오디오 코딩-형태 디코딩 등)을 실행할 수 있다. 대안으로서, 또는 부가적으로, 디코딩/처리(230)는 예를 들면 TCX-여기 선형 예측 디코딩(TCX=변환 코딩 여기) 또는 ACELP 디코딩(대수 코드북 여기 선형 예측 디코딩) 같은, 시간 도메인 표현(또는 바꾸어 말하면, 선형 예측 도메인 표현) 내에 인코딩된 하나 이상의 인코딩된 오디오 프레임을 기초로 하여 시간 도메인 디코딩(또는 선형 예측 도메인 디코딩)을 실행하도록 구성될 수 있다. 선택적으로, 디코딩/처리(230)는 상이한 디코딩 모드들 사이에서 스위칭하도록 구성될 수 있다.

오디오 디코더(200)는 하나 이상의 손실 오디오 프레임을 위한 오류 은닉 오디오 정보(242)를 제공하도록 구성되는, 오류 은닉을 더 포함한다. 오류 은닉(240)은 오디오 프레임의 손실(또는 심지어 다중 오디오 프레임의 손실)을 은닉하기 위한 오류 은닉 오디오 정보(242)를 제공하도록 구성된다. 오류 은닉(240)은 오류 은닉 오디오 정보(242)를 획득하기 위하여 손실 오디오 프레임을 선행하는 하나 이상의 오디오 프레임을 기초로 하여 획득된 시간 도메인 여기 신호를 변형하도록 구성된다. 달리 설명하면, 오류 은닉(240)은 손실 오디오 프레임을 선행하는 하나 이상의 오디오 프레임을 위한(또는 기초로 하는) 시간 도메인 여기 신호를 획득할(또는 유도할) 수 있고, 이에 의해 오류 은닉 오디오 정보(242)를 제공하도록 사용되는 시간 도메인 여기 신호를 획득하기 위하여(변형에 의해), 손실 오디오 프레임을 선행하는 하나 이상의 적절하게 수신된 오디오 프레임을 위하여(또는 기초로 하여) 획득되는, 상기 시간 도메인 여기 신호를 변형할 수 있다. 바꾸어 말하면, 변형된 시간 도메인 여기 신호는 손실 오디오 프레임(또는 심지어 다중 손실 오디오 프레임)과 관련된 오류 은닉 오디오 정보의 합성을 위한(예를 들면, LPC 합성) 입력으로서(또는 입력의 성분으로서) 사용될 수 있다. 손실 오디오 프레임을 선행하는 하나 이상의 적절하게 수신된 오디오 프레임을 기초로 하여 획득되는 시간 도메인 여기 신호를 기초로 하여 오류 은닉 오디오 정보를 제공함으로써, 가청 불연속성들이 방지될 수 있다. 다른 한편으로, 손실 오디오 프레임을 선행하는 하나 이상의 오디오 프레임을 위하여(또는 오디오 프레임으로부터) 유도되는 시간 도메인 여기 신호를 변형하고, 변형된 시간 도메인 여기 신호를 기초로 하여 오류 은닉 오디오 정보를 제공함으로써, 오디오 콘텐츠의 특성들의 변경(예를 들면, 피치 변화)을 고려하는 것이 가능하고, 또한 부자연스런 청각 인상을 방지하는 것이 가능하다(예를 들면, 결정론적(예를 들면, 적어도 대략 주기적) 신호 성분의 "페이딩 아웃"에 의해). 따라서, 오류 은닉 오디오 정보(242)가 손실 오디오 프레임을 선행하는 적절하게 수신된 오디오 프레임들을 기초로 하여 획득되는 디코딩된 오디오 정보(232)와 일부 유사성을 포함하는 것이 달성될 수 있고, 시간 도메인 여기 신호를 다소 변형함으로써 손실 오디오 프레임을 선행하는 오디오 프레임과 관련된 디코딩된 오디오 정보(232)와 비교할 때 오류 은닉 오디오 정보(242)가 다소 상이한 콘텐츠를 포함하는 것이 또한 달성될 수 있다. 오류 은닉 오디오 정보(손실 오디오 프레임과 관련된)의 제공을 위하여 사용되는 시간 도메인 여기 신호의 변형은 예를 들면, 진폭 스케일링 또는 시간 스케일링을 포함한다. 그러나, 다른 형태의 변형(또는 심지어 스케일링 및 시간 스케일링의 조합)이 가능하고, 바람직하게는 오류 은닉에 의해 획득되는(입력 정보로서) 시간 도메인 여기 신호 및 변형된 시간 도메인 여기 신호 사이의 어느 정도의 관계는 유지되어야만 한다.

결론적으로, 오디오 디코더(200)는 하나 이상의 오디오 프레임이 손실된 경우에서도 오류 은닉 오디오 정보가 뛰어난 청각 인상을 제공하도록, 오류 은닉 오디오 정보(242)를 제공하도록 허용한다. 오류 은닉은 시간 도메인 여기 신호를 기초로 하여 실행되고, 손실 오디오 프레임 동안의 오디오 콘텐츠의 시간 특성들의 변경은 손실 오디오 프레임을 선행하는 하나 이상의 오디오 프레임을 기초로 하여 획득되는 시간 도메인 여기 신호를 변형함으로써 고려된다.

게다가, 오디오 디코더(200)는 개별적으로 또는 조합하여 여기에 설명되는 특징들과 기능들 중 어느 하나에 의해 보강될 수 있다는 것에 유의하여야 한다.

3. 도 3에 따른 오디오 디코더

도 3은 본 발명의 또 다른 실시 예에 따른, 오디오 디코더(300)의 개략적인 블록 다이어그램을 도시한다.

오디오 디코더(300)는 인코딩된 오디오 정보(310)를 수신하고 이를 기초로 하여, 디코딩된 오디오 정보(312)를 제공하도록 구성된다. 오디오 디코더(300)는 또한 "비트스트림 디포머(bitsream deformer)" 또는 비트스트림 파서(bitstream parser)"로서 지정될 수 있는, 비트스트림 분석기(320)를 포함한다. 비트스트림 분석기(320)는 인코딩된 오디오 정보(310)를 수신하고 이를 기초로 하여, 주파수 도메인 표현(322) 및 가능하게는 부가적인 제어 정보(324)를 제공한다. 주파수 도메인 표현(322)은 예를 들면, 인코딩된 스펙트럼 값들(326), 인코딩된 스케일 인자들(328) 및 선택적으로, 예를 들면 잡음 채움, 중간 처리 또는 후-처리 같은, 특이 처리 단계들을 제어할 수 있는, 추가적인 부가 정보(330)를 포함할 수 있다. 오디오 디코더(300)는 또한 인코딩된 스펙트럼 값들(326)을 수신하고, 이를 기초로 하여, 디코딩된 스펙트럼 값들(342)의 세트를 제공하도록 구성되는 스펙트럼 값 디코딩(340)을 포함한다. 오디오 디코더(300)는 또한 인코딩된 스케일 인자들(328)을 수신하고 이를 기초로 하여, 디코딩된 스케일 인자들(352)의 세트를 제공하도록 구성될 수 있는, 스케일 인자 디코딩(350)을 포함할 수 있다.

스케일 인자 디코딩에 대한 대안으로서, 예를 들면 인코딩된 오디오 정보가 스케일 인자 정보보다는, 인코딩된 LPC 정보를 포함하는 경우에, LPC-대-스케일 인자 전환(354)이 사용될 수 있다. 그러나, 일부 코딩 모드들에서(예를 들면, USAC 오디오 디코더의 TCX 디코딩 모드에서 또는 증감 음성 서비스(enhanced voice service, EVS, 이하 EVS로 표기) 오디오 디코더에서) 오디오 디코더의 측에서 스케일 인자들의 세트를 유도하도록 LPC 계수들의 세트가 사용될 수 있다. 이러한 기능은 LPC-대-스케일 인자 전환(354)에 의해 달성될 수 있다.

오디오 디코더(300)는 또한 이에 의해 스케일링되고 디코딩된 스펙트럼 값들(362)을 획득하기 위하여, 스케일링된 인자들(352)의 세트를 스펙트럼 값의(342) 세트에 적용하도록 구성될 수 있는, 스케일러(360)를 포함할 수 있다. 예를 들면, 다중 디코딩된 스펙트럼 값들(342)을 포함하는 제 1 주파수 대역은 제 1 스케일 인자를 사용하여 스케일링될 수 있고, 다중 디코딩된 스펙트럼 들(342)을 포함하는 제 2 주파수 대역은 제 2 스케일 인자를 사용하여 스케일링될 수 있다. 따라서, 스케일링되고 디코딩된 스펙트럼 값들(362)의 세트가 획득된다. 오디오 디코더(300)는 일부 처리를 스케일링되고 디코딩된 스펙트럼 값들(362)에 적용할 수 있는, 선택적 처리(366)를 더 포함할 수 있다. 예를 들면, 선택적 처리(366)는 잡음 충전 또는 일부 다른 연산들을 포함할 수 있다.

오디오 디코더(300)는 또한 스케일링되고 디코딩된 스펙트럼 값들(362) 또는 그것의 처리된 버전(368)을 수신하고, 스케일링되고 디코딩된 스펙트럼 값들(362)의 세트와 관련된 시간 도메인 표현(372)을 제공하도록 구성되는 주파수-도메인-대-시간-도메인 변환(370)을 포함한다. 예를 들면, 주파수-도메인-대-시간-도메인 변환(370)은 오디오 콘텐츠의 프레임 또는 서브-프레임과 관련되는, 시간 도메인 표현(372)을 제공할 수 있다. 예를 들면, 주파수-도메인-대-시간-도메인 변환(370)은 변형 이산 코사인 변환 계수들의 세트(스케일링되고 디코딩된 스펙트럼 값들로서 고려될 수 있는)를 수신할 수 있고 이를 기초로 하여, 시간 도메인 표현(372)을 형성할 수 있는, 시간 도메인 샘플들의 블록을 제공할 수 있다.

오디오 디코더(300)는 선택적으로 이에 의해 시간 도메인 표현(372)의 후-처리된 버전(378)을 획득하기 위하여, 시간 도메인 표현(372)을 수신하고 시간 도메인 표현(372)을 다소 변형할 수 있는, 후-처리(376)를 포함할 수 있다.

오디오 디코더(300)는 또한 예를 들면 주파수-도메인-대-시간-도메인 변환(370)으로부터 시간 도메인 표현(372)을 수신할 수 있고 예를 들면, 하나 이상의 손실 오디오 프레임을 위한 오류 은닉 오디오 정보(382)를 제공할 수 있는 오류 은닉(380)을 포함한다. 바꾸어 말하면, 만일 예를 들면 상기 오디오 프레임(또는 오디오 서브-프레임)을 위하여 어떠한 인코딩된 스펙트럼 값들(326)도 이용할 수 없도록, 오디오 프레임이 손실되면, 오류 은닉(380)은 손실 오디오 프레임을 선행하는 하나 이상의 오디오 프레임과 관련된 시간 도메인 표현(372)을 기초로 하여 오류 은닉 오디오 정보를 제공할 수 있다. 오류 은닉 오디오 정보는 일반적으로 오디오 콘텐츠의 시간 도메인 표현일 수 있다.

오류 은닉(380)은 예를 들면, 위에 설명된 오류 은닉의 기능을 실행할 수 있다는 사실에 유의하여야 한다. 또한, 오류 은닉(380)은 예를 들면, 도 5를 참조하여 설명되는 오류 은닉(500)의 기능을 포함할 수 있다. 그러나, 일반적으로 설명하면, 오류 은닉(380)은 여기서 오류 은닉과 관련하여 설명되는 어떠한 특징들 및 기능들도 포함할 수 있다.

오류 은닉과 관련하여, 오류 은닉은 프레임 디코딩의 동일한 시간에 발생하지 않는다는 사실에 유의하여야 한다. 예를 들면, 만일 프레임(n)이 뛰어나면 우리는 정상 디코딩을 수행하고, 만일 우리가 그 다음 프레임을 은닉하면 결국에는 우리는 도움을 주는 일부 변수들을 저장하며, 그리고 나서 만일 n+1이 손실되면, 우리는 이전 뛰어난 프레임으로부터 오는 변수를 주는 은닉 기능을 호출한다. 우리는 또한 그 다음 프레임 손실 또는 그 다음 뛰어난 프레임으로의 복원에 대하여 도움을 주는 일부 변수들을 업데이트할 것이다.

오디오 디코더(300)는 또한 시간 도메인 표현(372, 또는 후-처리(376)가 존재하는 경우에 후-처리된 시간 도메인 표현(378))을 수신하도록 구성되는, 신호 결합(signal combination, 390)을 포함한다. 게다가, 신호 결합(390)은 일반적으로 또한 손실 오디오 프레임을 위하여 제공되는 오류 은닉 오디오 신호의 시간 도메인 표현인, 오류 은닉 오디오 정보(283)를 수신할 수 있다. 신호 결합(390)은 예를 들면, 뒤따르는 오디오 프레임들과 관련된 시간 도메인 표현들을 결합한다. 뒤따르는 적절하게 디코딩된 오디오 프레임들이 존재하는 경우에, 신호 결합(390)은 이러한 뒤따르는 적절하게 디코딩된 오디오 프레임들과 관련된 시간 도메인 표현들을 결합(예를 들면, 오버랩-및-가산)할 수 있다. 그러나, 만일 오디오 프레임이 손실되면, 신호 결합(390)은 이에 의해 적절하게 수신된 오디오 프레임 및 손실 오디오 프레임 사이의 평활한 전이를 갖도록, 손실 오디오 프레임을 선행하는 적절하게 디코딩된 오디오 프레임과 관련된 시간 도메인 표현 및 손실 오디오 프레임과 관련된 오류 은닉 오디오 정보를 결합(예를 들면, 오버랩-및-가산)할 수 있다. 유사하게, 신호 결합(390)은 손실 오디오 프레임과 관련된 오류 은닉 오디오 정보 및 손실 오디오 프레임(또는 다수의 연속적인 오디오 프레임이 손실되는 경우에 또 다른 손실 오디오 프레임과 관련된 또 다른 오류 은닉 오디오 정보)을 뒤따르는 또 다른 적절하게 디코딩된 오디오 프레임과 관련된 시간 도메인 표현을 결합(예를 들면, 오버랩-및-가산)하도록 구성될 수 있다.

따라서, 신호 결합(390)은 시간 도메인 표현(372), 또는 그것의 후-처리된 버전(378)이 적절하게 디코딩된 오디오 프레임들을 위하여 제공되도록, 그리고 오류 은닉 오디오 정보(382)가 손실 오디오 프레임들을 위하여 제공되도록, 디코딩된 오디오 정보(312)를 제공할 수 있고, 오버랩-및-가산 연산이 일반적으로 뒤따르는 오디오 프레임들의 오디오 정보(주파수-도메인-대-시간-도메인 변환(370)에 의해 제공되거나 또는 오류 은닉(380)에 의해 제공되는 것에 관계없이) 사이에서 실행된다. 일부 코덱들이 취소될 필요가 있는 오버랩 및 가산 부분에 대하여 일부 엘리어싱(aliasing)을 갖기 때문에, 선택적으로 우리가 오버랩 가산을 실행하도록 생성한 프레임의 반에 대하여 우리는 일부 인공 엘리어싱을 생성할 수 있다.

오디오 디코더(300)의 기능은 도 1에 따른 오디오 디코더(100)의 기능과 유사하다는 것에 유의하여야 하며, 부가적인 상세내용이 도 3에 도시된다. 게다가, 도 3에 따른 오디오 디코더(300)는 여기에 설명되는 어떠한 특징들과 기능들에 의해 보강될 수 있다는 것에 유의하여야 한다. 특히, 오류 은닉(380)은 오류 은닉과 관련하여 여기에 설명되는 어떠한 특징들과 기능들에 의해 보강될 수 있다.

4. 도 4에 따른 오디오 디코더(400)

도 4는 본 발명의 또 다른 실시 예에 따른 오디오 디코더(400)를 도시한다. 오디오 디코더(400)는 인코딩된 오디오 정보를 수신하고 이를 기초로 하여, 디코딩된 오디오 정보(412)를 제공하도록 구성된다. 오디오 디코더(400)는 예를 들면, 인코딩된 오디오 정보(410)를 수신하도록 구성될 수 있고, 상이한 인코딩 모드들을 사용하여 상이한 오디오 프레임들이 인코딩된다. 예를 들면, 오디오 디코더(400)는 다중-모드 오디오 디코더 또는 "스위칭" 오디오 디코더로서 고려될 수 있다. 예를 들면, 오디오 프레임들의 일부는 주파수 도메인 표현을 사용하여 인코딩될 수 있고, 인코딩된 오디오 정보는 스펙트럼 값들(예를 들면, 이산 푸리에 변환 값들 또는 변형 이산 코사인 변환 값들) 및 상이한 주파수 대역들의 스케일링을 표현하는 스케일 인자들의 인코딩된 표현을 포함한다. 게다가, 인코딩된 오디오 정보(410)는 또한 오디오 프레임들의 "시간 도메인 표현" 또는 다중 오디오 프레임의 "선형-예측-코딩 도메인 표현"을 포함할 수 있다. "선형-예측-코딩 도메인 표현"(또한 간단하게 "LPC 표현"으로서 지정되는)은 예를 들면, 여기 신호의 인코딩된 표현, 및 LPC 파라미터들(선형-예측-코딩 파라미터들)의 인코딩된 표현을 포함할 수 있고, 선형-예측-코딩 파라미터들은 예를 들면, 시간 도메인 여기 신호를 기초로 하여 오디오 신호를 재구성하도록 사용되는, 선형-예측-코딩 합성 필터를 기술한다.

아래에, 오디오 디코더(400)의 일부 상세내용이 설명될 것이다.

오디오 디코더(400)는 예를 들면 인코딩된 오디오 정보(410)를 분석할 수 있고 인코딩된 오디오 정보로부터, 예를 들면 인코딩된 스펙트럼 값들, 인코딩된 스케일 인자들 및 선택적으로, 추가적인 부가 정보를 포함하는 주파수 도메인 표현(422)을 추출할 수 있는, 비트스트림 분석기(420)를 포함한다. 비트스트림 분석기(420)는 또한 예를 들면 인코딩된 여기(426) 및 인코딩된 선형-예측-계수들(428, 또한 인코딩된 선형-예측 파라미터들로 고려될 수 있는)을 포함할 수 있는, 선형-예측 코딩 도메인 표현(424)을 추출하도록 구성될 수 있다. 게다가, 비트스트림 분석기는 선택적으로 인코딩된 오디오 정보로부터, 부가적인 처리 단계들을 제어하도록 사용될 수 있는, 추가적인 부가 정보를 추출할 수 있다.

오디오 디코더(400)는 예를 들면 실질적으로 도 3에 따른 오디오 디코더(300)의 디코딩 경로와 유사할 수 있는, 주파수 도메인 디코딩 경로(430)를 포함한다. 바꾸어 말하면, 주파수 도메인 디코딩 경로(430)는 도 3을 참조하여 위에 설명된 것과 같이 스펙트럼 값 디코딩(340), 스케일 인자 디코딩(350), 스케일러(360), 선택적 처리(366), 주파수-도메인-대-시간-도메인 변환(370), 선택적 후-처리(376) 및 오류 은닉(380)을 포함할 수 있다.

오디오 디코더(400)는 또한 선형-예측-도메인 디코딩 경로(440, 또한 시간 도메인 디코딩 경로로서 고려될 수 있는, 그 이유는 LPC 합성이 시간 도메인 내에서 실행되기 때문임)를 포함할 수 있다. 선형-예측-도메인 디코딩 경로는 비트스트림 분석기(420)에 의해 제공되는 인코딩된 여기(426)를 수신하고 이를 기초로 하여, 디코딩된 여기(452, 디코딩된 시간 도메인 여기 신호의 형태를 취할 수 있는)를 제공하는, 여기 디코딩(450)을 포함한다. 예를 들면, 여기 디코딩(450)은 인코딩된 변환-코딩-여기 정보를 수신할 수 있고, 이를 기초로 하여, 디코딩된 시간 도메인 여기 신호를 제공할 수 있다. 따라서, 여기 디코딩(450)은 예를 들면, 도 7을 참조하여 설명되는 여기 디코더(730)에 의해 실행되는 기능을 실행할 수 있다. 그러나, 대안으로서, 또는 부가적으로, 여기 디코딩(450)은 인코딩된 ACELP 여기를 수신할 수 있고, 상기 인코딩된 ACELP 여기 정보를 기초로 하여 인코딩된 시간 도메인 여기 신호(452)를 제공할 수 있다.

여기 디코딩을 위한 세 가지 상이한 선택사항이 존재한다는 것에 유의하여야 한다. 예를 들면, CELP 개념들, ACELP 코딩 개념들, CELP 코딩 개념들과 ACELP 코딩 개념들의 변형들 및 TCX 코딩 개념을 정의하는 관련 표준들 및 문헌들이 참조된다.

선형-예측-도메인 디코딩 경로(440)는 선택적으로 처리된 시간 도메인 여기 신호(456)가 시간 도메인 여기 신호(452)로부터 유도되는 처리(454)를 포함한다.

선형-예측-도메인 디코딩 경로(440)는 또한 인코딩된 선형 예측 계수들을 수신하고 이를 기초로 하여, 디코딩된 선형 예측 계수들(462)을 제공하도록 구성되는, 선형-예측 계수 디코딩(460)을 포함한다. 선형-예측 계수 디코딩(460)은 입력 정보(428)로서 선형 예측 계수의 상이한 표현들을 사용할 수 있고 출력 정보(462)로서 디코딩된 선형 예측 계수들의 상이한 표현들을 제공할 수 있다. 상세내용을 위하여, 선형 예측의 인코딩 및/또는 디코딩이 설명되는 상이한 표준 문서들이 참조된다.

선형-예측-도메인 디코딩 경로(440)는 선택적으로 디코딩된 선형 예측 계수들을 처리하고 그것의 처리된 버전(466)을 제공할 수 있는, 처리(464)를 포함한다.

선형-예측-도메인 디코딩 경로(440)는 또한 디코딩된 여기 신호(452) 또는 그것의 처리된 버전(456), 및 디코딩된 산형 예측 계수들(462) 또는 그것들의 처리된ㅇ 버전(466)을 수신하고, 디코딩된 시간 도메인 오디오 신호(472)를 제공하도록 구성되는, LPC 합성(선형-예측 코딩 합성, 470)을 포함한다. 예를 들면, LPC 합성(470)은 디코딩된 시간 도메인 오디오 신호(472)가 시간 도메인 여기 신호(452, 또는 456)의 필터링(합성-필터링)에 의해 획득되도록, 디코딩된 산형-예측 계수들(462, 또는 그것의 처리된 버전(466))에 의해 정의되는 필터링을 디코딩된 시간 도메인 오디오 신호(472) 또는 그것의 처리된 버전에 적용하도록 구성될 수 있다. 선형 예측 도메인 디코딩 경로(440)는 선택적으로 디코딩된 시간 도메인 오디오 신호(472)의 특성들을 개선하거나 또는 조정하도록 사용될 수 있는, 후-처리(474)를 포함할 수 있다.

선형-예측-도메인 디코딩 경로(440)는 또한 디코딩된 선형 예측 계수들(462, 또는 그것의 처리된 버전(566)) 및 디코딩된 시간 도메인 여기 신호(452, 또는 그것의 처리된 버전(456))을 수신하도록 구성되는, 오류 은닉(480)을 포함한다. 오류 은닉(480)은 선택적으로 예를 들면 피치 정보 같은, 부가적인 정보를 수신할 수 있다. 오류 은닉(480)은 그 결과 인코딩된 오디오 정보(410)의 프레임(또는 서브-프레임)이 손실된 경우에, 시간 도메인 오디오 신호의 형태일 수 있는, 오류 은닉 오디오 정보를 제공할 수 있다. 따라서, 오류 은닉(480)은 오류 은닉 오디오 정보(482)의 특성들이 실질적으로 손실 오디오 프레임을 선행하는 마지막 적절하게 디코딩된 오디오 프레임의 특성들에 적응되도록 오류 은닉 오디오 정보(482)를 제공할 수 있다. 오류 은닉(480)은 오류 은닉(240)과 관련하여 설명된 어떠한 특징들과 기능들도 포함할 수 있다는 것에 유의하여야 한다. 게다가, 오류 은닉(480)은 또한 도 6의 시간 도메인 은닉과 관련하여 설명되는 어떠한 특징들과 기능들도 포함할 수 있다는 것에 유의하여야 한다.

오디오 디코더(400)는 또한 디코딩된 시간 도메인 오디오 신호(372, 또는 그것의 후-처리된 버전(378)), 오류 은닉(380)에 의해 제공되는 오류 은닉 오디오 정보(382), 디코딩된 시간 도메인 오디오 신호(472, 또는 그것의 후-처리된 버전(476)) 및 오류 은닉(480)에 의해 제공되는 오류 은닉 오디오 정보(482)를 수신하도록 구성되는, 신호 결합기(또는 신호 결합(490))를 포함한다. 신호 결합기(490)는 이에 의해 디코딩된 오디오 정보(412)를 획득하기 위하여, 상기 신호들(372(또는 378), 382, 472(또는 476) 및 482)을 결합하도록 구성될 수 있다. 특히, 오버랩-및-가산 연산이 신호 결합기(490)에 의해 적용될 수 있다. 따라서, 신호 결합기(490)는 상이한 엔티티들에 의해(예를 들면, 상이한 디코딩 경로들(430, 440)에 의해) 시간 도메인 오디오 신호가 제공되는 뒤따르는 오디오 프레임들 사이에 평활한 전이들을 제공할 수 있다. 그러나, 신호 결합기(490)는 또한 만일 시간 도메인 오디오 신호가 뒤따르는 프레임들을 위하여 동일한 엔티티(예를 들면, 주파수 도메인-대-시간-도메인 변환(370) 또는 LPC 합성(470))에 의해 제공되면 평활한 전이들을 제공할 수 있다. 일부 코덱들이 취소될 필요가 있는 오버랩 및 가산 부분에 대하여 일부 엘리어싱을 갖기 때문에, 선택적으로 우리가 오버랩 가산을 실행하도록 생성한 프레임의 반에 대하여 우리는 일부 인공 엘리어싱을 생성할 수 있다. 바꾸어 말하면, 인공 시간 도메인 엘리어싱 보상(TDAC)이 선택적으로 사용될 수 있다.

또한, 신호 결합기(490)는 오류 은닉 오디오 정보(일반적으로 또한 시간 도메인 오디오 신호인)가 제공되는 프레임들로의 평활한 전이 또는 프레임들로부터의 평활한 전이를 제공할 수 있다.

요약하면, 오디오 디코더(400)는 주파수 도메인 내에 인코딩되는 오디오 프레임들 및 선형 예측 도메인 내에 인코딩되는 오디오 프레임들을 디코딩하도록 허용한다. 특히, 신호 특성들에 의존하여(예를 들면, 오디오 인코더에 의해 제공되는 시그널링 정보를 사용하여) 주파수 도메인 디코딩 경로의사용 및 선형 예측 도메인 디코딩 경로의 사용 사이를 스위칭하는 것이 가능하다. 마지막 적절하게 디코딩된 오디오 프레임이 주파수 도메인 내에(또는 동등하게, 주파수-도메인 표현 내에), 혹은 시간 도메인 내에(또는 동등하게, 시간 도메인 표현 내에, 또는 동등하게, 선형-예측 도메인 내에, 또는 동등하게 선형-예측 도메인 표현 내에) 인코딩되었는지에 의존하여, 프레임 손실의 경우에 오류 은닉 오디오 정보의 제공을 위하여 상이한 형태의 오류 은닉이 사용될 수 있다.

5. 도 5에 따른 시간 도메인 은닉

도 5는 본 발명의 일 실시 예에 따른 오류 은닉의 개략적인 블록 다이어그램을 도시한다. 도 5에 따른 오류 은닉은 전체가 500으로 지정된다.

오류 은닉(500)은 시간 도메인 오디오 신호(510)를 수신하고 이를 기초로 하여, 예를 들면, 시간 도메인 오디오 신호 형태일 수 있는, 오류 은닉 오디오 정보(512)를 제공하도록 구성된다.

오류 은닉(500)은 예를 들면, 오류 은닉 오디오 정보(512)가 오류 은닉 오류 정보(132)와 상응하도록, 오류 은닉(130)을 대체할 수 있다는 것에 유의하여야 한다. 게다가, 오류 은닉(500)은 시간 도메인 오디오 신호(510)가 시간 도메인 오디오 신호(372, 또는 시간 도메인 오디오 신호(378))과 상응하도록, 그리고 오류 은닉 오디오 정보(512)가 오류 은닉 오디오 정보(382)와 상응하도록, 오류 은닉(380)을 대체할 수 있다는 것에 유의하여야 한다.

오류 은닉(500)은 선택적으로 고려될 수 있는, 프리-엠퍼시스(520)를 포함한다. 프리-엠퍼시스는 시간 도메인 오디오 신호를 수신하고 이를 기초로 하여, 프리-엠퍼시스된 시간 도메인 오디오 신호(522)를 제공한다.

오류 은닉(500)은 또한 시간 도메인 오디오 신호(510) 또는 그것의 프리-엠퍼시스된 버전(522)을 수신하고, LPC 파라미터들(532)의 세트를 포함할 수 있는, LPC 정보(532)를 획득하도록 구성되는, LPC 분석(530)을 포함한다. 예를 들면, LPC 정보는 LPC 필터 계수들(또는 그것들의 표현)의 세트 및 시간 도메인 여기 신호(적어도 대략, LPC 분석의 입력 신호를 재구성하기 위하여, LPC 필터 계수들에 따라 구성되는 LPC 합성 필터의 여기를 위하여 적응되는)를 포함할 수 있다.

오류 은닉(500)은 또한 예를 들면 이전에 디코딩된 오디오 프레임을 기초로 하여, 피치 정보(542)를 획득하도록 구성되는, 피치 검색(540)을 포함한다.

오류 은닉(500)은 또한 LPC 분석의 결과를 기초로 하고(예를 들면, LPC 분석에 의해 결정된 시간-도메인 여기 신호를 기초로 하여), 가능하게는 피치 검색의 결과를 기초로 하여 외삽된 시간 도메인 여기 신호를 획득하도록 구성될 수 있는, 외삽(550)을 포함한다.

오류 은닉(500)은 또한 잡음 신호(562)를 제공하는, 접음 발생(560)을 포함한다. 오류 은닉(500)은 또한 외삽된 시간-도메인 여기 신호(552) 및 잡음 신호(562)를 수신하고, 이를 기초로 하여 결합된 시간 도메인 여기 신호(572)를 제공하도록 구성되는, 결합기/페이더(fader)(570)를 포함한다. 결합기/페이더(570)는 외삽된 시간 도메인 여기 신호(552) 및 잡음 신호(562)를 결합하도록 구성될 수 있고, 페이딩은 외삽된 시간 도메인 여기 신호(552, LPC 합성의 입력 신호의 결정론적 성분을 결정하는)의 상대적 기여가 시간에 따라 감소하도록, 실행될 수 있다. 그러나, 결합기/페이더의 상이한 기능이 또한 가능하다. 또한, 아래의 설명이 참조된다.

오류 은닉(500)은 또한 결합된 시간 도메인 여기 신호(572)를 수신하고 이를 기초로 하여 시간 도메인 오디오 신호(582)를 제공하는, LPC 합성(580)을 포함한다. 예를 들면, LPC 합성은 또한 시간 도메인 오디오 신호(582)를 유도하기 위하여, 결합된 시간 도메인 여기 신호(572)에 적용되는, LPC 정형 필터를 기술하는 LPC 필터 계수들을 수신할 수 있다. LPC 합성(580)은 예를 들면, 하나 이상의 이전에 디코딩된 오디오 프레임들(예를 들면, LPC 분석(530)에 의해 제공되는)을 기초로 하여 획득되는 LPC 계수들을 사용할 수 있다.

오류 은닉(500)은 또한 선택적인 것으로서 고려될 수 있는, 디-엠퍼시스(584)를 포함한다. 디-엠퍼시스(584)는 디-엠퍼시스된 오류 은닉 시간 도메인 오디오 신호(586)를 제공할 수 있다.

오류 은닉(500)은 또한 선택적으로, 뒤따르는 프레임들(또는 서브-프레임들)과 관련된 시간 도메인 오디오 신호들의 오버랩-및-가산 연산을 실행하는, 오버랩-및-가산(590)을 포함한다. 그러나, 오버랩-및-가산(590)은 선택사항으로서 고려되어야만 한다는 것에 유의하여야 하는데, 그 이유는 오류 은닉이 또한 오디오 디코더 환경에서 이미 제공된 신호 결합을 사용할 수 있기 때문이다. 예를 들면, 오버랩-및-가산(590)은 일부 실시 예들에서 오디오 디코더(300) 내의 신호 결합(390)에 의해 대체될 수 있다.

아래에, 오류 은닉(500)에 관한 일부 또 다른 상세내용이 설명될 것이다.

도 5에 따른 오류 은닉(500)은 AAC_LC 또는 AAC_ELD로서 변환 도메인 코덱의 콘텍스트를 포함한다. 달리 설명하면, 오류 은닉(500)은 그러한 변환 도메인 코덱에서의(그리고 특히, 그러한 변환 도메인 오디오 디코더에서의) 사용을 위하여 잘 적응된다. 변환 코덱만의 경우에(예를 들면, 산형-예측-도메인 디코딩 경로가 없을 때), 마지막 프레임으로부터의 출력 신호가 시작 지점으로서 사용된다. 예를 들면, 시간 도메인 오디오 신호(472)는 오류 은닉을 위한 시작 지점으로서 사용될 수 있다. 바람직하게는, 어떠한 여기 신호도 이용할 수 없으며, 단지 이전 프레임들로부터의 출력 시간 도메인 신호(예를 들면, 시간 도메인 오디오 신호(372) 같은)가 이용 가능하다.

아래에, 오류 은닉(500)의 서브-유닛들과 기능들이 더 상세히 설명될 것이다.

5.1. LPC 분석

도 5의 실시 예에서, 모든 은닉은 연속적인 프레임들 사이의 평활한 전이를 얻기 위하여 여기 도메인 내에서 실행된다. 따라서, 먼저 LPC 파라미터들의 적절한 세트를 발견(또는 더 일반적으로, 획득)하는 것이 필요하다. 도 5에 따른 실시 예에서, LPC 분석(530)은 과거 프리-엠퍼시스된 시간 도메인 신호(522) 상에서 수행된다. LPC 파라미터들(또는 LPC 필터 계수들)은 여기 신호(예를 들면, 시간 도메인 여기 신호)를 얻기 위하여 과거 합성 신호(예를 들면, 시간 도메인 오디오 신호(510)를 기초로 하거나, 또는 프리-엠퍼시스된 시간 도메인 오디오 신호(522)를 기초로 하는)의 LPC 분석을 실행하도록 사용된다.

5.3. 피치 검색

새로운 신호(예를 들면, 오류 은닉 오디오 정보)의 구성을 위하여 사용되는 피치를 얻기 위한 상이한 접근법들이 존재한다.

AAC-LTP 같은 장기간 예측 필터(long-term-prediction filter)를 사용하는 코덱의 맥락에서, 우리는 이러한 마지막 수신된 장기간 예측 피치 래그 및 고조파 부분을 발생시키기 위한 상응하는 이득을 사용한다. 이러한 경우에, 이득은 신호 내에 고조파 부분을 구성할지를 결정하도록 사용된다. 예를 들면, 만일 장기간 예측 이득이 0.6(또는 어떠한 다른 미리 결정된 값)보다 높으면, 장기간 예측 정보는 고조파 부분을 구성하도록 사용된다.

만일 이전 프레임으로부터 이용 가능한 어떠한 피치 정보도 존재하지 않으면, 예를 들면, 아래에 설명될, 두 가지 해결책이 존재한다.

예를 들면, 인코더에서 피치 검색을 수행하고 비트스트림 내에 피치 래그 및 이득을 전송하는 것이 가능하다. 이는 장기간 예측과 유사하나, 어떠한 필터링(또한 깨끗한 채널 내의 어떠한 장기간 필터링)에도 적용되지 않는다

대안으로서, 디코더 내에서 피치 검색을 실행하는 것이 가능하다. TCX의 경우에 AMR-WB 피치 검색이산 푸리에 변환 도메인 내에서 실행된다. 향상된 저지연(enhanced low delay, ELD, 이하 ELD로 표기)에서, 예를 들면 만일 변형 이산 코사인 변환 도메인이 사용되었으면 위상들은 손실되었을 것이다. 따라서, 피치 검색이 바람직하게는 여기 도메인 내에서 직접적으로 수행된다. 이는 합성 도메인에서의 피치 검색보다 더 나은 결과들을 준다. 여기 도메인 내의 피치 검색은 우선 정규화된 교차 상관에 의한 개방 루프와 함께 수행된다. 그리고 나서, 선택적으로, 우리는 특정 델타를 갖는 개방 루프 피치 주위의 폐쇄 루프 검색을 수행함으로써 피치 검색을 개선한다. ELD 윈도우잉 제한들에 기인하여, 잘못된 피치가 발견될 수 있고, 따라서 우리는 또한 발견된 피치가 정확한지 또는 그렇지 않으면 이를 폐기할지를 입증한다.

결론적으로, 손실 오디오 프레임을 선행하는 마지막 적절하게 디코딩된 오디오 프레임은 오류 은닉 오디오 정보를 제공할 때 고려될 수 있다. 일부 경우들에서, 이전 프레임(즉, 손실 오디오 프레임을 선행하는 마지막 프레임)의 디코딩으로부터 이용 가능한 피치 정보가 존재한다. 이런 경우에, 이러한 피치는 재사용될 수 있다(가능하게는 일부 외삽 및 시간에 다른 피치 변화의 고려와 함께). 우리는 또한 선택적으로 은닉된 프레임이 끝에서 우리가 필요한 피치의 외삽을 시도하기 위하여 과거의 하나 이상의 프레임의 피치를 재사용할 수 있다.

또한, 만일 결정론적(예를 들면, 적어도 대략 주기적) 신호 성분의 강도(또는 상대 강도)를 기술하는, 이용 가능한 정보(예를 들면, 장기간 예측 이득으로서 지정되는) 정보가 존재하면, 이러한 값은 결정론적(또는 고조파) 성분이 오류 은닉 오디오 정보 내에 포함되어야만 하는지를 결정하도록 사용될 수 있다. 바꾸어 말하면, 상기 값(예를 들면, 장기간 예측 이득)을 미리 결정된 임계 값과 비교함으로써, 이전에 디코딩된 오디오 프레임으로부터 유도된 시간 도메인 여기 신호가 오류 은닉 오디오 정보의 제공을 위하여 고려되어야만 하는지를 결정할 수 있다.

만일 이전 프레임으로부터(또는 더 정확하게는, 이전 프레임의 디코딩으로부터) 이용 가능한 어떠한 피치 정보도 존재하지 않으면, 상이한 선택사항들이 존재한다. 피치 정보는 오디오 인코더로부터 오디오 디코더로 전송될 수 있고, 이는 오디오 디코더를 단순화할 수 있으나 비트레이트 오버헤드를 생성한다. 대안으로서, 피치 정보는 오디오 디코더 내에서, 예를 들면 시간 도메인 여기 신호를 기초로 하는, 여기 도메인 내에서 결정될 수 있다. 예를 들면, 이전의, 적절하게 디코딩된 오디오 프레임으로부터 유도된 시간 도메인 여기 신호는 오류 은닉 오디오 정보의 제공을 위하여 사용되는 피치 정보를 식별하도록 평가될 수 있다.

5.3. 여기의 외삽 또는 고조파 부분의 생성

이전 프레임(손실 프레임을 위하여 방금 계산되었거나 또는 다중 손실 프레임을 위하여 이전의 손실 프레임에서 이미 절약된)으로부터 획득된 여기(예를 들면, 시간 도메인 여기 신호)는 마지막 피치 사이클을 프레임의 하나 반을 얻는데 필요한 만큼 여러 번 복사함으로써 여기 내의(예를 들면, LPC 합성의 입력 신호 내의) 고조파 부분(또한 결정론적 성분 또는 대략 주기적 성분으로서 지정되는)을 구성하도록 사용된다. 복잡도를 절약하기 위하여 우리는 또한 제 1 손실 프레임만을 위한 1과 1/2 프레임을 생성하고 그리고 나서 프레임의 반 만큼 다음 프레임 손실을 위한 처리로 이동하며 각각 하나의 프레임만을 생성한다. 그래서 우리는 항상 오버랩의 프레임의 반(half)에 대한 액세스를 갖는다.

뛰어난 프레임(즉, 적절하게 디코딩된 프레임) 이후의 제 1 손실 프레임의 경우에, 제 1 피치 사이클(예를 들면, 손실 오디오 프레임을 선행하는 마지막 적절하게 디코딩된 오디오 프레임을 기초로 하여 획득된 시간 도메인 여기 신호의)은 샘플링 레이트 의존적 필터로 저역 통과 필터링된다(그 이유는 ELD가 실제로 광범위한 샘플링 레이트 결합(AAC-ELD 코어로부터 스펙트럼 대역 복제 또는 AAC-ELD 듀얼 레이트 스펙트럼 대역 복제를 갖는 AAC-ELD 또는 AAC-ELD 듀얼 레이트 스펙트럼 대역 복제)을 포함하기 때문이다).

유성 신호 내의 피치는 거의 항상 변화한다. 따라서, 위에 제시된 은닉은 선택적으로, 복원에서 일부 문제점(또는 적어도 왜곡들)을 생성하는 경우가 있는데 그 이유는 은닉된 신호의 끝에서(즉, 오류 은닉 오디오 정보의 끝에서) 때때로 제 1 뛰어난 프레임의 피치와 일치하지 않기 때문이다. 따라서, 일부 실시 예들에서 복원 프레임의 시작에서 피치를 일치시키도록 은닉된 프레임의 끝에서 피치를 예측하는 것이 시도된다. 예를 들면, 손실 프레임(은닉된 프레임으로서 고려되는)의 끝에서의 피치가 예측되고, 예측의 표적은 손실 프레임(은닉된 프레임)의 끝에서 피치가 하나 이상의 손실 프레임을 뒤따르는 제 1 적절하게 디코딩된 프레임(제 1 적절하게 디코딩된 프레임은 또한 "복원 프레임"으로 불린다)의 시작에서의 피치와 근사치가 되도록 설정된다. 이는 프레임 손실 동안에 또는 제 1 뛰어난 프레임 동안에(즉, 제 1 적절하게 수신된 프레임 동안에) 수행될 수 있다. 더 나은 결과를 얻기 위하여, 선택적으로 피치 예측 및 펄스 재동기화와 같은, 일부 종래의 툴(tool)들을 재사용하고 그것들을 적응시키는 것이 가능하다. 상세내용을 위하여, 예를 들면, [6] 및 [7]이 참조된다.

만일 장기간 예측(LTP)이 주파수 도메인 코덱 내에 사용되면, 피치에 관한 정보의 시작으로서 래그를 사용하는 것이 가능하다. 그러나, 일부 실시 예들에서, 피치 윤곽을 더 잘 추적할 수 있도록 더 나은 입상도를 갖는 것이 또한 바람직하다. 따라서, 마지막 뛰어난(적절하게 디코딩된) 프레임의 시작에서 그리고 끝에서 피치 검색을 수행하는 것이 바람직하다. 신호를 이동 피치에 적응시키기 위하여, 정래기술에 존재하는, 펄스 동기화를 사용하는 것이 바람직하다.

5.4 피치의 이득

일부 실시 예들에서, 원하는 레벨에 도달하기 위하여 이전에 획득된 여기 상에 이득을 적용하는 것이 바람직하다. "피치의 이득"(예를 들면, 시간 도메인 여기 신호의 결정론적 성분의 이득, 즉, LPC 합성의 입력 신호를 획득하기 위하여, 이전에 디코딩된 오디오 프레임으로부터 유도되는 시간 도메인 여기 신호에 적용되는 이득)은 예를 들면, 마지막 뛰어난(예를 들면, 적절하게 디코딩된) 프레임의 끝에서 시간 도메인 내의 정규화된 상관을 수행함으로써 획득될 수 있다. 상관의 길이는 두 개의 서브-프레임 길이와 동등할 수 있거나, 또는 적응적으로 변경될 수 있다. 지연은 고조파 부분의 생성을 위하여 사용되는 피치 래그와 동등하다. 우리는 또한 선택적으로 제 1 손실 프레임 상에서만 이득 계산을 실행하고 그리고 나서 뒤따르는 연속적인 프레임 손실을 위한 페이드아웃(감소된 이득)을 적용할 수 있다.

"피치의 이득"은 생성될 수 있는 음조의 양(또는 결정론적, 적어도 대략 주기적 신호 성분의 양)을 결정할 것이다. 그러나, 인공 톤(tone)을 갖지 않도록 일부 정형된 잡음을 가산하는 것이 바람직하다. 만일 우리가 매우 낮은 피치의 이득을 얻으면, 우리는 정형된 잡음으로만 구성되는 신호를 구성한다.

결론적으로, 일부 경우들에서 예를 들면, 이전에 디코딩된 오디오 프레임을 기초로 하여 획득되는 시간 도메인 여기 신호는 이득에 의존하여 스케일링된다(예를 들면, LPC 합성을 위한 입력 신호를 획득하기 위하여). 따라서, 시간 도메인 여기 신호가 결정론적(적어도 대략 주기적) 신호 성분을 결정하기 때문에, 이득은 오류 은닉 오디오 정보 내의 상기 결정론적(적어도 대략 주기적) 신호 성분의 상대 강도를 결정할 수 있다. 게다가, 오류 은닉 오디오 정보는 오류 은닉 오디오 정보의 총 에너지가 적어도 어느 정도는, 손실 오디오 프레임을 선행하는 적절하게 디코딩된 오디오 프레임 및 이상적으로 또한 하나 이상의 손실 오디오 프레임을 뒤따르는 적절하게 디코딩된 오디오 프레임에 적응되도록, 또한 LPC 합성에 의해 정형되는, 잡음을 기초로 할 수 있다.

5.5 잡음 부분의 생성

임의 잡음 발생기에 의해 "혁신(innovation)"이 생성된다. 이러한 잡음은 선택적으로 유성 및 온셋 프레임들을 위하여 더 고역 통과 필터링되고 선택적으로 프리-엠퍼시스된다. 고조파 부분의 저역 통과와 관련하여, 이러한 필터(예를 들면, 고역 통과 필터)는 샘플링 레이트 의존적이다. 이러한 잡음(예를 들면, 잡음 발생기(560)에 의해 제공되는)은 가능한 한 배경 잡음에 가깝게 얻기 위하여 LPC에 의해(예를 들면, LPC 합성(580)에 의해) 정형될 것이다. 고역 통과 특성은 또한 배경 잡음에 가까운 편안한 잡음을 얻도록 전대역 정형된 잡음만을 얻기 위하여 특정 양의 프레임 손실에 대하여 더 이상 어떠한 필터링도 존재하지 않도록 연속적인 프레임들에 대하여 선택적으로 변경된다.

혁신 이득(예를 들면, 결합/페이딩(570) 내의 잡음(562)의 이득, 즉 잡음 신호(562)가 LPC 합성의 입력 신호(572) 내에 포함되는 이득)은 예를 들면, 피치(만일 존재하면)(예를 들면, 손실 오디오 프레임을 선행하는 마지막 적절하게 디코딩된 오디오 프레임을 기초로 하여 획득되는 시간 도메인 여기 신호의 "피치의 이득"을 사용하여 스케일링된, 스케일링된 버전)의 이전에 계산된 기여를 제거하고, 마지막 뛰어난 프레임의 끝에서 상관을 수행함으로써 계산된다. 피치 이득과 관련하여, 이는 선택적으로 제 1 프레임 상에서만 수행될 수 있고 그리고 나서 페이드 아웃되나, 이러한 경우에 페이드 아웃은 완전한 뮤팅(muting)을 야기하는 0으로 또는 배경 내에 존재하는 추정 잡음 레벨로 갈 수 있다. 상관의 길이는 예를 들면, 두 개의 서브-프레임과 동등하고, 지연은 고조파 부분의 생성을 위하여 사용되는 피치 래그와 동등하다.

선택적으로, 이득은 또한 만일 피치의 이득이 1이 아니면 에너지 손실에 도달하기 위하여 잡음 상에 많은 이득을 적용하기 위하여 (1-"피치의 이득")으로 곱해진다. 선택적으로, 이러한 이득은 또한 잡음의 인자에 의해 곱해진다. 이러한 잡음의 인자는 예를 들면, 이전의 유효한 프레임으로부터(예를 들면, 손실 오디오 프레임을 선행하는 마지막 적절하게 디코딩된 오디오 프레임으로부터) 온다.

5.6. 페이드 아웃

페이드 아웃은 대부분 다중 프레임 손실을 위하여 사용된다. 그러나, 페이드 아웃은 또한 단일 오디오 프레임만이 손실된 경우에서도 사용될 수 있다.

다중 프레임 손실의 경우에, LPC 파라미터들은 재계산되지 않는다. 마지막 계산된 것이 유지되거나, 또는 배경 정형으로 전환함으로써 LPC 은닉이 수행된다. 이러한 경우에, 신호의 주기성은 제로로 수렴된다. 예를 들면, 손실 오디오 프레임을 선행하는 하나 이상의 오디오 프레임을 기초로 하여 획득되는 시간 도메인 여기 신호(502)는 시간 도메인 여기 신호(552)의 상대 가중이 잡음 신호(562)의 상대 가중과 비교할 때 시간에 따라 감소되도록, 여전히 시간에 따라 점진적으로 감소되는 이득을 사용하고 반면에 잡음 신호(562)는 일정하게 유지되거나 또는 시간에 따라 점진적으로 증가하는 이득으로 스케일링된다. 그 결과, LPC 합성(580)의 입력 신호(572)는 더욱 더 "잡음 같이" 된다. 그 결과, "주기성"(더 정확하게는, LPC 합성(580)의 출력 신호(582)의 결정론적, 또는 대략 주기적 성분)은 시간에 따라 감소된다.

신호(572)의 주기성, 및/또는 신호(582)의 주기성이 0으로 수렴되는 수렴의 속도는 마지막 정확하게 수신된(또는 적절하게 디코딩된) 프레임의 파라미터들 및/또는 연속적인 소거된 프레임들의 수에 의존하고, 감쇠 인자, α에 의해 제어된다. 인자, α는 또한 LP 필터의 안정성에 의존한다. 선택적으로, 인자(α)를 피치 길이의 비율로 변경하는 것이 가능하다. 만일 피치(예를 들면, 피치와 관련된 주기 길이)가 실제로 길면, α를 "정상적"으로 유지하나, 만일 피치가 실제로 짧으면, 일반적으로 과거 여기의 동일한 부분을 여러 번 복사하는 것이 필요하다. 이는 너무 인공적으로 빠르게 들릴 것이고, 따라서 이러한 신호를 빠르게 페이드 아웃하는 것이 바람직하다.

또한 선택적으로, 만일 이용 가능하면, 우리는 피치 예측 출력을 고려할 수 있다. 만일 피치가 예측되면, 이는 피치가 이미 이전 프레임 및 그리고 나서 더 많은 프레임 내에서 변경되었다는 것을 의미하며 우리는 진실로부터 더 멀리 간다. 따라서, 이러한 경우에 음조 부분의 페이드 아웃의 속도를 약간 올리는 것이 바람직하다.

만일 피치가 너무 많이 변경되기 때문에 피치 예측이 실패되면, 이는 피치 값들이 실제로 신뢰할 수 없거나 또는 신호가 실제로 예측 불가능하다는 것을 의미한다. 따라서, 다시, 빠르게 페이드 아웃하는 것이(예를 들면, 하나 이상의 손실 프레임을 선행하는 하나 이상의 적절하게 디코딩된 오디오 프레임을 기초로 하여 획득되는 시간 도메인 여기 신호(552)를 빠르게 페이드 아웃하는 것이) 바람직하다.

5.7. LPC 합성

다시 시간 도메인을 설명하면, 두 개의 여기(음조 부분 및 잡음 부분) 뒤에 디-엠퍼시스의 가중 상에 LPC 합성(580)을 실행하는 것이 바람직하다. 달리 설명하면, 손실 오디오 프레임(음조 부분)을 선행하는 하나 이상의 적절하게 디코딩된 오디오 프레임을 기초로 하여 획득되는 시간 도메인 여기 신호(552) 및 잡음 신호(562, 잡음 부분)의 가중된 조합을 기초로 하여 LPC 합성(580)을 실행하는 것이 바람직하다. 위에 언급된 것과 같이, 시간 도메인 여기 신호(552)는 LPC 분석(530, LPC 합성(580)을 위하여 사용되는 LPC 합성 필터의 특성을 기술하는 LPC 계수들에 대하여)에 의해 획득되는 시간 도메인 여기 신호(532)와 비교할 때 변형될 수 있다. 예를 들면, 시간 도메인 여기 신호(552)는 LPC 분석(530)에 의해 획득되는 시간 도메인 여기 신호(532)의 시간 스케일링된 카피일 수 있고, 시간 스케일링은 시간 도메인 여기 신호(552)의 피치를 원하는 피치에 적응시키도록 사용될 수 있다.

5.8. 오버랩-및-가산

변환 코덱만의 경우에, 최상의 오버랩-가산을 얻기 위하여, 우리는 은닉된 프레임보다 프레임의 반을 위한 인공 신호를 생성하고 우리는 이에 대한 인공 엘리어싱을 생성한다. 그러나, 상이한 오버랩-가산 개념들이 적용될 수 있다.

규칙적인 고급 오디오 코딩 또는 TCX의 콘텍스트에서, 오버랩-및-가산은 은닉으로부터 오는 추가의 반 프레임 및 제 1 뛰어난 프레임의 제 1 부분(AAC-LD로서 저지연 윈도우들을 위하여 반 또는 그 이하일 수 있는) 사이에서 적용된다.

ELD의 스펙트럼 경우에, 제 1 손실 프레임을 위하여, 마지막 세 개의 윈도우로부터 적절한 기여를 얻도록 분석을 세 번 구동하고 그리고 나서 제 1 은닉 프레임 및 뒤따르는 모든 프레임을 위하여 분석이 한 번 더 구동되는 것이 바람직하다. 그리고 나서 변형 이산 코사인 변환 도메인 내의 뒤따르는 프레임을 위한 모든 적절한 메모리를 갖는 시간 도메인 내로 돌아가도록 하나의 ELD 합성이 수행된다.

결론적으로, LPC 합성(580)의 입력 신호(572, 및/또는 시간 도메인 여기 신호(552)))는 손실 오디오 프레임의 기간보다 긴 시간 기간 동안 제공될 수 있다. 따라서, LPC 합성(580)의 출력 신호(582)가 또한 손실 오디오 프레임보다 기간 동안 제공될 수 있다. 따라서, 오버랩-및-가산은 오류 은닉 오디오 정보(그 결과 손실 오디오 프레임의 일시적 확장보다 긴 기간 동안 획득되는) 및 하나 이상의 손실 오디오 프레임을 뒤따르는 적절하게 디코딩된 오디오 프레임을 위하여 제공되는 디코딩된 오디오 정보 사이에서 실행될 수 있다.

요약하면, 오류 은닉(500)은 오디오 프레임들이 주파수 도메인 내에 인코딩되는 경우에 잘 적응된다. 오디오 프레임이 주파수 도메인 내에 인코딩되더라도, 오류 은닉 오디오 정보의 제공은 시간 도메인 여기 신호를 기초로 하여 제공된다. 상이한 변형들이 손실 오디오 프레임을 선행하는 하나 이상의 적절하게 디코딩된 오디오 프레임을 기초로 하여 획득되는 시간 도메인 여기 신호에 적용된다. 예를 들면, LPC 분석(530)에 의해 제공되는 시간 도메인 여기 신호는 예를 들면 시간 스케일링을 사용하여, 피치 변화들에 적응된다. 게다가, LPC 분석(530)에 의해 제공되는 시간 도메인 여기 신호는 또한 LPC 합성(580)의 입력 신호(572)가 LPC 분석에 의해 획득되는 시간 도메인 여기 신호로부터 유도되는 성분 및 잡음 신호(562)를 기초로 하는 잡음 성분 모두를 포함하도록, 스케일링(이득의 적용)에 의해 변형되고, 결정론적(또는 음조, 또는 적어도 대략 주기적) 성분의 페이드 아웃이 스케일러/페이더(570)에 의해 실행될 수 있다. 그러나, LPC 합성(580)의 입력 신호(572)의 결정론적 성분은 일반적으로 KPC 분석(530)에 의해 제공되는 시간 도메인 여기 신호와 관련하여 변형된다(예를 들면, 시간 스케일링되거나 및/또는 진폭 스케일링된다).

따라서, 시간 도메인 여기 신호는 요구들에 적응될 수 있고, 부자연스런 청각 인상이 방지된다.

6 도 6에 따른 시간 도메인 은닉

도 6은 스위치 코덱을 위하여 사용될 수 있는 시간 도메인 은닉의 개략적인 블록 다이어그램을 도시한다. 예를 들면, 도 6에 따른 시간 도메인 은닉(600)은 예를 들면, 오류 은닉(240) 또는 오류 은닉(480)을 대체할 수 있다.

게다가, 도 6에 따른 실시 예는 USAC(MPEG-D/MPEG-H) 또는 EVS(3GPP)와 같은, 결합된 시간 및 주파수 도메인을 사용하는 스위치 코덱의 콘텍스트(콘텍스트 내에 사용될 수 있는)를 포함한다는 것에 유의하여야 한다. 바꾸어 말하면, 시간 도메인 은닉(600)은 주파수 도메인 디코딩 및 시간 디코딩(또는 동등하게, 선형-예측-계수 기반 디코딩) 사이의 스위칭이 존재하는 오디오 디코더들 내에서 사용될 수 있다.

그러나, 도 6에 따른 오류 은닉(600)은 또한 단지 시간 도메인(또는 동등하게, 선형-예측-계수 기반 디코딩) 내의 디코딩을 실행하는 오디오 디코더들 내에서 사용될 수 있다는 것에 유의하여야 한다.

스위칭된 코덱의 경우에(그리고 심지어 선형-예측-계수 도메인 내의 디코딩만을 실행하는 코덱의 경우에) 우리는 일반적으로 이미 이전 오디오 프레임(예를 들면, 손실 오디오 프레임을 선행하는 적절하게 디코딩된 프레임)으로부터 오는 여기 신호(예를 들면, 시간 도메인 여기 신호)를 갖는다. 그렇지 않으면(예를 들면, 만일 시간 도메인 여기 신호가 이용 가능하지 않으면), 도 5에 따른 실시 예에서 설명된 것을 수행하는 것이, 즉 LPC 분석을 실행하는 것이 가능하다.

만일 이전 프레임이 ACELP 유사였다면, 우리는 또한 이미 마지막 프레임 내의 서브-프레임들의 피치 정보를 갖는다. 만일 마지막 프레임이 장기간 예측을 갖는 TCX(변환 코딩 여기)이었으면 우리는 또한 장기간 예측으로부터 오는 래그 정보를 갖는다. 그리고 만일 마지막 프레임이 장기간 예측이 없는 주파수 도메인 내에 존재하였다면 바람직하게는 여기 도메인 내에 직접적으로 피치 검색이 수행된다(예를 들면, LPC 합성에 의해 제공되는 시간 도메인 여기 신호를 기초로 하여).

만일 시간 도메인 내에 디코더가 이미 일부 LPC 파라미터들을 사용하면, 우리는 그것들을 재사용하고 새로운 LPC 파라미터들의 세트를 외삽한다. LPC 파라미터들의 외삽은 과거 LPC, 예를 들면 만일 불연속적 전송(DTX)이 코덱 내에 존재하면 불연속적 전송 잡음 추정 동안에 유도되는 과거 세 개의 프레임 및 (선택적으로) LPC 정형의 평균을 기초로 한다.

모든 은닉은 연속적인 프레임들 사이의 더 평활한 전이를 얻기 위하여 여기 도메인 내에서 수행된다.

아래에, 도 6에 따른 오류 은닉(600)이 더 상세히 설명될 것이다.

오류 은닉(600)은 과거 여기(610) 및 과거 피치 정보(640)를 수신한다. 게다가, 오류 은닉(600)은 오류 은닉 오디오 정보(612)를 제공한다.

오류 은닉(600)에 의해 제공되는 과거 여기(610)는 예를 들면, LPC 분석(530)의 출력(532)과 상응할 수 있다는 사실에 유의하여야 한다. 게다가, 과거 피치 정보(640)는 예를 들면, 피치 검색(540)의 출력 정보(542)와 상응할 수 있다.

오류 은닉(600)은 위에 설명에서 참조된 것과 같이, 외삽(550)과 상응할 수 있는, 외삽(650)을 더 포함한다.

게다가, 오류 은닉은 위에 설명에서 참조된 것과 같이, 잡음 발생기(560)와 상응할 수 있는, 잡음 발생기(660)를 포함한다.

외삽(650)은 외삽된 시간 도메인 여기 신호(552)와 상응할 수 있는, 외삽된 시간 도메인 여기 신호(652)를 제공한다. 잡음 발생기(660)는 잡음 신호(562)와 상응할 수 있는, 잡음 신호(662)를 제공한다.

오류 은닉(600)은 또한 외삽된 시간 도메인 여기 신호(652) 및 잡음 신호(662)를 수신하고 이를 기초로 하여, LPC 합성(680)을 위한 입력 신호(672)를 제공하는, 결합기/페이더(670)를 포함하고, LPC 합성(680)은 위의 설명들이 또한 적용되는 갓과 같이, LPC 합성(580)과 상응할수 있다. LPC 합성(680)은 시간 도메인 오디오 신호(582)와 상응할 수 있는, 시간 도메인 오디오 신호(682)를 제공한다. 오류 은닉은 또한 (선택적으로) 디-엠퍼시스(584)와 상응할 수 있고 디-엠퍼시스된 오류 은닉 시간 도메인 오디오 신호(686)를 제공하는, 디-엠퍼시스(684)를 포함한다. 오류 은닉(600)은 선택적으로 오버랩-및-가산(590)과 상응할 수 있는, 오버랩-및-가산(690)을 포함한다. 그러나, 오버랩-및-가산(590)과 관련한 위의 설명들은 또한 오버랩-및-가산(690)에 적용된다. 바꾸어 말하면 오버랩-및-가산(690)은 또한 LPC 합성의 출력(682) 또는 디-엠퍼시스의 출력(686)이 오류 은닉 오디오 정보로서 고려될 수 있도록, 오디오 디코더의 전체 오버랩-및-가산에 의해 대체될 수 있다.

결론적으로, 오류 은닉(600)은 실질적으로 LPC 분석 및/또는 피치 분석을 실행할 필요없이 하나 이상의 이전에 디코딩된 오디오 프레임으로부터 오류 은닉(600)이 과거 여기 정보(610) 및 과거 피치 정보(650)를 직접적으로 획득한다는 점에서 오류 은닉(500)과 다르다. 그러나, 오류 은닉은 선택적으로, LPC 분석 및/또는 피치 분석(피치 검색)을 포함할 수 있다는 사실에 유의하여야 한다.

아래에, 오류 은닉(600)의 일부 상세내용이 더 상세히 설명될 것이다. 그러나, 특정 상세내용들은 본질적인 특징들이 아닌, 예들로서 고려되어야만 한다는 사실에 유의하여야 한다.

6.1. 피치 검색의 과거 피치

새로운 신호를 구성하는데 사용되도록 피치를 얻기 위한 상이한 접근법들이 존재한다.

고급 오디오 코딩-장기간 예측 같은, LPC 필터를 사용하는 코덱의 콘텍스트에서, 만일 마지막 프레임(손실 프레임을 선행하는)이 장기간 예측을 갖는 고급 오디오 코딩이면, 우리는 마지막 장기간 예측 피치 래그 및 상응하는 이득으로부터 오는 피치 정보를 갖는다. 이러한 경우에 우리는 우리가 신호 내의 고조파 부분을 원하는지 아닌지를 디코딩하기 위한 이득을 사용한다. 예를 들면, 만일 장기간 예측 이득이 0.6보다 크면 우리는 고조파 부분을 구성하도록 장기간 예측 정보를 사용한다.

만일 우리가 이전 프레임으로부터 이용 가능한 어떠한 피치 정보도 갖지 않으면, 예를 들면, 두 가지 다른 해결책이 존재한다.

한 가지 해결책은 인코더에서 피치 검색을 수행하고 피치 래그 및 이득을 비트스트림 내에 전송하는 것이다. 아는 장기간 예측(LTP)과 유사하나, 우리는 어떠한 필터링도(또한 깨끗한 채널 내의 어떠한 장기간 예측 필터링도) 적용하지 않는다.

또 다른 해결책은 디코더 내에 피치 검색을 실행하는 것이다. TCX의 경우에서의 AMR-WB 피치 검색이 이산 푸리에 변환 도메인 내에서 수행된다. 예를 들면 TCX에서, 우리는 변형 이산 코사인 변환 도메인을 사용하고, 그때 우리는 구문들을 손실한다. 따라서, 피치 검색은 바람직한 실시 예에서 여기 도메인 내에서 예를 들면, LPC 합성의 입력으로서 사용되는, 또는 LPC 합성을 위한 입력을 유도하도록 사용되는, 시간 도메인 여기 신호를 기초로 하여) 직접적으로 수행된다. 이는 일반적으로 합성 도메인 내에서의(예를 들면, 완전히 디코딩된 시간 도메인 여기 신호를 기초로 하는) 피치 검색의 수행보다 더 나은 결과를 가져온다.

여기 도메인 내의 피치 검색(예를 들면, 시간 도메인 여기 신호를 기초로 하는)은 우선 정규화된 교차 상관에 의한 개방 루프로 수행된다. 그리고 나서, 선택적으로, 특정 델타를 갖는 개방 루프 피치 주위의 폐쇄 루프 검색의 수행에 의해 피치 검색이 개선될 수 있다.

바람직한 구현들에서, 우리는 상관의 하나의 최대 값을 고려하지 않는다. 만일 우리가 오류가 잦지 않은 이전 프레임으로부터 피치 정보를 가지면, 우리는 정규화된 교차 상관 도메인 내의 5개의 가장 높으나 이전 프레임 피치에 가장 가까운 하나와 상응하는 피치를 선택한다. 그리고 나서 또한 발견된 최대가 윈도우 제한에 기인하는 잘못된 최대가 아닌 것이 입증된다.

결론적으로, 피치를 결정하기 위한 상이한 접근법들이 존재하고, 과거 피치(즉, 이전에 디코딩된 오디오 프레임과 관련된 피치)를 고려하는 것이 계산적으로 효율적이다. 대안으로서, 피치 장보는 오디오 인코더로부터 오디오 디코더로 전송될 수 있다. 또 다른 대안으로서, 오디오 디코더의 측에서 피치 검색이 실행될 수 있고, 피치 결정은 바람직하게는 시간 도메인 여기 신호를 기초로 하여(즉, 여기 도메인 내에서) 실행된다.

특히 신뢰할 수 있고 정확한 피치 정보를 획득하기 위하여 개방 루프 검색 및 폐쇄 루프 검색을 포함하는 두 단계 피치 검색이 실행될 수 있다. 대안으로서, 또는 부가적으로, 피치 검색이 신뢰할만한 결과를 제공하는 것을 보장하기 위하여 이전에 디코딩된 오디오 프레임으로부터의 피치 정보가 사용될 수 있다.

6.2. 여기의 외삽 또는 고조파 부분의 생성

이전 프레임(손실 오디오 프레임을 위하여 방금 계산되었거나 또는 다중 프레임 손실을 위하여 이전에 손실된 프레임 내에 이미 저장된)으로부터 획득되는 여기(예를 들면, 시간 도메인 여기 신호 형태의)는 과거 피치 사이클(예를 들면, 시간 기간이 피치의 기간과 동일한, 시간 도메인 여기 신호(610)의 일부분)을 예를 들면, (손실) 프레임의 하나 반을 얻는데 필요한 만큼 여러 번 복사함으로써 여기(예를 들면, 외삽된 시간 도메인 여기 신호(662)) 내의 고조파 부분을 구성하도록 사용된다.

훨씬 더 나은 결과들을 얻기 위하여, 선택적으로 종래 기술의 일부 툴들을 재사용하고 이를 적응시키는 것이 가능하다. 상세내용을 위하여, 예를 들면 [6] 및 [7]이 참조된다.

음성 신호 내의 피치는 거의 항상 변경된다는 사실이 발견되었다. 따라서, 위에 존재하는 은닉은 복원에서 일부 문제점들을 생성하는 경향이 있다는 사실이 발견되었는데 그 이유는 은닉된 신호의 끝에서의 피치가 때때로 제 1 뛰어난 프레임과 일치하지 않기 때문이다. 따라서, 선택적으로, 복원 프레임의 시작에서의 피치와 일치하도록 은닉된 프레임의 끝에서의 피치를 예측하는 것이 시도된다. 이러한 기능은 예를 들면, 외삽(650)에 의해 실행될 것이다.

만일 TCX 내의 장기간 예측이 사용되면, 피치에 관한 시작 정보로서 래그가 사용될 수 있다. 그러나, 피치 윤곽을 더 잘 추적할 수 있도록 더 나은 입상도를 갖는 것이 바람직하다. 따라서, 피치 검색은 선택적으로 마지막 뛰어난 프레임의 시작 및 끝에서 수행된다. 신호를 이동 피치에 적응시키기 위하여, 종래 기술에 존재하는, 펄스 재동기화가 사용될 수 있다.

결론적으로, 외삽(예를 들면, 손실 프레임을 선행하는 마지막 적절하게 디코딩된 오디오 프레임과 관련된, 또는 이를 기초로 하여 획득된 사간 도메인 여기 신호의)은 이전 오디오 프레임과 관련된 상기 시간 도메인 여기 신호의 시간 부분의 복사를 포함할 수 있고, 복사된 시간 부분은 손실 오디오 프레임 동안에 (예상되는) 피치 변화의 계산 또는 추정에 의존하여 변형될 수 있다. 피치 변화의 결정을 위하여 상이한 접근법들이 이용 가능하다.

6.3. 피치의 이득

도 6에 따른 실시 예에서, 이들은 원하는 레벨에 도달하기 위하여 이전에 획득된 여기 상에 적용된다. 피치의 이득은 예를 들면, 마지막 뛰어난 프레임에서 시간 도메인 내의 정규화된 상관을 수행함으로써 획득된다. 예를 들면, 상관의 길이는 두 개의 서브-프레임 길이와 동등할 수 있고 지연은 고조파 부분의 생성을 위하여(예를 들면, 시간 도메인 여기 신호의 복사를 위하여) 사용되는 피치 래그와 동등할 수 있다. 시간 도메인 내의 이득 계산의 수행은 여기 도메인 내의 수행보다 훨씬 더 신뢰할만한 이득을 주는 것이 발견되었다. LPC는 매 프레임마다 변경되고 그때 다른 LPC 세트에 의해 처리될 여기 신호 상으로의 이전 프레임 상에 계산된 이득의 적용은 시간 도메인 내의 기대되는 에너지를 주지 않을 것이다.

피치의 이득은 생성될 음조의 양을 결정하나, 인공 톤만 갖지 않도록 일부 정형된 잡음이 또한 추가될 것이다. 만일 피치의 매우 낮은 이득이 획득되면, 정형된 잡음으로만 구성되는 신호가 구성될 것이다.

결론적으로, 이전 프레임(또는 이전에 디코딩된 프레임을 위하여 획득된, 또는 이전에 디코딩된 프레임과 관련된 시간 도메인 여기 신호)을 기초로 하여 획득되는 시간 도메인 여기 신호를 스케일링하도록 적용되는 이득은 이에 의해 LPC 합성(680)의 입력 신호 내의, 그리고 그 결과 오류 은닉 오디오 정보 내의 음조(또는 결정론적, 또는 적어도 대략 주기적) 성분이 가중을 결정하도록 조정된다. 상기 이득은 이전에 디코딩된 프레임의 디코딩에 의해 획득되는 시간 도메인 오디오 신호에 적용되는, 상관을 기초로 하여 결정될 수 있다(그리고 상기 시간 도메인 오디오 신호는 디코딩의 과정에서 실행되는 LPC 합성을 사용하여 획득될 수 있다.).

6.4. 잡음 부분의 생성

임의 잡음 발생기(600)에 의해 혁신이 생성된다. 이러한 잡음은 또한 고역 통과 필터링되고 선택적으로 유성 및 온셋 프레임들을 위하여 프리-엠퍼시스된다. 고역 통과 필터링 및 선택적으로 유성 및 온셋 프레임들을 위하여 실행될 수 있는, 프리-엠퍼시스는 도 6에서 명시적으로 도시되지 않으나, 예를 들면, 잡음 발생기(600) 또는 결합기/페이더(670) 내에서 실행될 수 있다.

잡음은 가능한 한 배경 잡음에 가깝게 얻기 위하여 LPC에 의해 정형될 수 있다(예를 들면, 외삽(650)에 의해 획득되는 시간 도메인 여기 신호(652)와의 결합 후에).

예를 들면, 혁신 이득은 이전에 계산된 이득(만일 존재하면)이 기여를 제거하고 마지막 뛰어난 프레임의 끝에서 상관을 수행함으로써 계산될 수 있다. 상관의 길이는 두 개의 서브-프레임 길이와 동등할 수 있고 지연은 고조파 부분의 생성을 이하여 사용되는 피치 래그와 동등할 수 있다.

선택적으로, 이득은 또한 만일 피치의 이득이 1이 아니면 에너지 손실에 도달하기 위하여 잡음 상에 많은 이득을 적용하도록 (피치의 1-이득)에 의해 곱해질 수 있다. 선택적으로, 이러한 이득은 또한 잡음의 인자에 의해 곱해진다. 이러한 잡음의 인자는 이전에 유효한 프레임으로부터 올 수 있다.

결론적으로, 오류 은닉 오디오 정보의 잡음 성분은 LPC 합성(680, 및 가능하게는, 디-엠퍼시스(684))을 사용하는 잡음 발생기(660)에 의해 제공되는 잡음을 정형함으로써 획득된다. 게다가, 부가적인 고역 통과 필터링 및/또는 프리-엠퍼시스가 적용될 수 있다. LPC 합성(680)의 입력 신호(672)로의 잡음 기여의 이득(또한 "혁신 이득"으로 지정되는)은 손실 오디오 프레임을 선행하는 마지막 적절하게 디코딩된 오디오 프레임을 기초로 하여 계산될 수 있고, 결정론적(또는 적어도 주기적) 성분은 손실 오디오 프레임을 선행하는 오디오 프레임으로부터 제거될 수 있으며, 그리고 나서 손실 오디오 프레임을 선행하는 오디오 프레임의 디코딩된 시간 도메인 신호 내의 잡음 성분의 강도(또는 이득)를 결정하기 위하여 상관이 실행될 수 있다.

선택적으로, 일부 부가적인 변형들이 잡음 성분의 이득에 적용될 수 있다.

6.5. 페이드 아웃

페이드 아웃은 대부분 다중 프레임 손실을 위하여 사용된다. 그러나, 페이드 아웃은 또한 단일 오디오 프레임만이 손실되는 경우에도 사용될 수 있다.

다중 프레임 손실의 경우에, LPC 파라미터들은 재계산되지 않는다. 마지막에 계산된 파라미터가 유지되거나 또는 LPC 은닉이 위에 설명된 것과 같이 실행된다.

신호의 주기성은 제로로 수렴된다. 수렴의 속도는 마지막 정확하게 수신된(또는 정확하게 디코딩된) 프레임 및 연속적인 소거된(또는 손실된) 프레임들의 수에 의존하고, 감쇠 인자, α에 의해 제어된다. 인자, α는 또한 선형 예측 필터의 안전성에 의존한다. 선택적으로, 인자(α)는 피치 길이에 따른 비율로 변경될 수 있다. 예를 들면, 만일 피치가 실제로 길면 α는 정상으로 유지되나, 만일 피치가 실제로 짧으면, 과거의 여기의 동일한 부분을 여러 번 복사하는 것이 바람직할 수 (또는 필요할 수) 있다. 이는 너무 인공적으로 빠르게 들릴 것이라는 사실이 발견되었기 때문에, 신호는 따라서 빠르게 페이드 아웃된다.

게다가 선택적으로, 피치 예측 출력을 고려하는 것이 가능하다. 만일 피치가 예측되면, 이는 피치가 이미 이전 프레임 내에서 변경되었고 그리고 나서 더 많은 프레임이 실제로부터 더 많이 손실되는 것을 의미한다. 따라서, 이러한 경우에 음조 부분의 비트의 속도를 올리는 것이 바람직하다.

만일 피치가 너무 많이 변경되기 때문에 피치 예측이 실패되면, 이는 피치 값들이 실제로 신뢰할 수 있거나 또는 신호가 실제로 예측 가능하지 않다는 것을 의미한다. 따라서, 다시 우리는 빠르게 페이드 아웃해야만 한다

결론적으로, 외삽된 시간 도메인 여기 신호(652)의 LPC 합성(680)의 입력 신호(672)로의 기여는 일반적으로 시간에 따라 감소된다. 이는 예를 들면, 시간에 따라, 외삽된 시간 도메인 여기 신호(652)에 적용되는, 이득 값을 감소시킴으로써 달성될 수 있다. 손실 오디오 프레임을 선행하는 하나 이상의 오디오 프레임을 기초로 하여 획득되는 시간 도메인 여기 신호(552)를 (또는 그것의 하나 이상의 카피를) 스케일링하도록 적용되는 이득을 점진적으로 감소시키는데 사용되는 속도는 하나 이상의 오디오 프레임의 하나 이상의 파라미터에 의존하여(및/또는 연속적인 손실 오디오 프레임들의 수에 의존하여) 조정된다. 특히, 피치 길이 및/또는 시간에 따라 피치가 변경되는 비율, 및/또는 피치 예측이 실패하거나 또는 성공하는지의 질문이 상기 속도를 조정하도록 사용될 수 있다.

6.6. LPC 합성

다시 시간 도메인으로 돌아오면, LPC 합성(680)은 두 개의 여기(음조 부분(652) 및 잡음 부분(662)의 합계(또는 일반적으로, 가중된 결합) 상에서 실행되고 디-엠퍼시스(684)가 뒤따른다.

바꾸어 말하면, 외삽된 시간 도메인 여기 신호(652) 및 잡음 신호(662)의 가중된(페이딩) 결합의 결과는 결합된 시간 도메인 여기 신호를 형성하고 예를 들면, 합성 필터를 기술하는 LPC 계수들에 의존하여 상기 결합된 시간 도메인 여기 신호(672)를 기초로 하여 합성 필터링을 실행하는 LPC 합성(680) 내로 입력된다.

.

6.7. 오버랩-및-가산

은닉 동안에 그 다음 프레임이 모드로 무엇이 올 것인지를(예를 들면, ACELP, TCX 또는 주파수 도메인) 알 수 없기 때문에 미리 상이한 오버랩들을 준비하는 것이 바람직하다. 최상의 오버랩-및-가산을 얻기 위하여, 만일 그 다음 프레임이 변환 도메인(TCX 또는 주파수 도메인) 내에 존재하면 은닉된(손실된) 프레임보다 반 프레임 더 많은 인공 신호(예를 들면, 오류은닉 오디오 정보)가 생성될 수 있다. 게다가, 인공 엘리어싱이 신호 상에 생성될 수 있다(인공 엘리어싱은 예를 들면, 변형 이산 코사인 변환 오버랩-및-가산에 적응될 수 있다).

뛰어난 오버랩-및-가산 및 시간 도메인(ACELP) 내의 미래 프레임과의 연속성을 얻기 위하여, 우리는 긴 오버랩 가산 윈도우들을 적용할 수 있도록, 위에 설명된 것과 같이, 그러나 엘리어싱 없이 수행하거나 또는 만일 우리가 정사각형 윈도우의 사용을 원하면, 합성 버퍼의 끝에서 제로 입력 응답(ZIR)이 계산된다.

결론적으로, 스위칭 오디오 디코더(예를 들면, ACELP 디코딩, TCX 디코딩 및 주파수 도메인 디코딩(FD 디코딩)사이에서 스위칭할 수 있는)에서, 오버랩-및-가산은 주로 손실 오디오 프레임을 위하여 제공되나, 또한 손실 오디오 프레임을 뒤따르는 특정 시간 부분을 위하여 제공되는 오류 은닉 오디오 정보, 및 하나 이상의 손실 오디오 프레임의 시퀀스를 뒤따르는 제 1 적절하게 디코딩된 오디오 프레임을 위하여 제공되는 디코딩된 오디오 정보 사이에서 실행될 수 있다. 심지어 뒤따르는 오디오 프레임들 사이의 전이에서 시간 도메인 엘리어싱을 가져오는 디코딩 모드들을 위한 적절한 오버랩-및-가산을 획득하기 위하여, 엘리어싱 취소 정보(DP를 들면, 인공 엘리어싱으로서 지정되는)가 제공될 수 있다. 따라서, 손실 오디오 프레임을 뒤따르는 제 1 적절하게 디코딩된 오디오 프레임을 기초로 하여 획득되는 오류 은닉 오디오 정보 및 시간 도메인 오디오 정보 사이의 오버랩-및-가산은 엘리어싱의 취소를 야기한다.

만일 하나 이상의 손실 프레임의 시퀀스를 뒤따르는 제 1 적절하게 디코딩된 오디오 프레임이 ACELP 모드 내에 인코딩되면, LPC 필터의 제로 입력 응답(ZIR)을 기초로 할 수 있는, 특정 오버랩 정보가 계산될 수 있다.

결론적으로, 오류 은닉(600)은 스위칭 오디오 코덱에서의 사용에 상당히 적합하다. 그러나, 오류 은닉(600)은 또한 단지 TCX 모드 또는 ACELP 모드 내에 인코딩된 오디오 콘텐츠만을 디코딩하는 오디오 코덱에서 사용될 수 있다.

6.8. 결론

특히 뛰어난 오류 은닉은 시간 도메인 여기 신호를 외삽하고, 페이딩(예를 들면, 교차-페이딩)을 사용하여 외삽의 결과를 잡음 신호와 결합하며 교차-페이딩의 결과를 기초로 하여 LPC 합성을 실행하는 위에 설명된 개념에 의해 달성된다는 사실에 유의하여야 한다.

7. 도 11에 따른 오디오 디코더

도 11은 본 발명의 일 실시 예에 따른, 오디오 디코더(1100)의 개략적인 블록 다이어그램을 도시한다.

오디오 디코더(1100)는 스위칭 오디오 디코더의 일부분일 수 있다는 사실에 유의하여야 한다. 예를 들면, 오디오 디코더(1100)는 오디오 디코더(400) 내의 선형-예측-도메인 디코딩 경로(440)에 의해 대체될 수 있다.

오디오 디코더(1100)는 인코딩된 오디오 정보(1110)를 수신하고 이를 기초로 하여, 디코딩된 오디오 정보(1112)를 제공하도록 구성된다. 인코딩된 오디오 정보(1110)는 예를 들면, 인코딩된 오디오 정보(410)와 상응할 수 있고 디코딩된 오디오 정보(1112)는 예를 들면, 디코딩된 오디오 정보(412)와 상응할 수 있다.

오디오 디코더(1100)는 인코딩된 오디오 정보(1110)로부터 스펙트럼 계수들의 인코딩된 표현(1122) 및 선형-예측 코딩 계수들(1124)의 세트를 추출하도록 구성되는, 비트스트림 분석기(1120)를 포함한다. 그러나, 비트스트림 분석기(1120)는 선택적으로 인코딩된 오디오 정보(1110)로부터 부가적인 정보를 추출할 수 있다.

오디오 디코더(1100)는 또한 인코딩된 스펙트럼 계수들(1122)로부터 디코딩된 스펙트럼 값들(1132)의 세트를 제공하도록 구성되는, 스펙트럼 값 디코딩(1130)을 포함한다. 스펙트럼 계수들의 디코딩을 위하여 알려진 어떠한 디코딩 개념도 사용될 수 있다.

오디오 디코더(1100)는 또한 선형-예측-코딩 계수들의 인코딩된 표현을 기초로 하여 스케일 인자들(1142)의 세트를 제공하도록 구성되는 선형-예측-코딩 계수 대 스케일-인자 전환(1140)을 포함한다. 예를 들면, 선형-예측-코딩-계수 대 스케일-인자 전환(1140)은 USAC에서 설명되는 기능을 실행할 수 있다. 예를 들면, 선형-예측-코딩 계수들의 인코딩된 표현(1124)은 선형-예측-코딩 계수 대 스케일-인자-전환(1140)에 의해 스케일 인자들의 세트 내로 디코딩되고 전환되는 다항 표현을 포함할 수 있다.

오디오 디코더(1100)는 또한 이에 의해 스케일링되고 디코딩된 스펙트럼 값들(1152)을 획득하기 위하여, 스케일 인자들(1142)을 디코딩된 스펙트럼 값들(1132)에 적용하도록 구성되는, 스케일러(1150)를 포함한다. 게다가, 오디오 디코더(1100)는 선택적으로, 예를 들면, 위에 설명된 처리(366)와 상응할 수 있는, 처리(1160)를 포함하고, 처리된 스케일링되고 디코딩된 스펙트럼 값들(1162)이 선택적 처리(1160)에 의해 획득된다. 오디오 디코더(1100)는 또한 스케일링되고 디코딩된 스펙트럼 값들(1152, 스케일링되고 디코딩된 스펙트럼 값들(368)과 상응할 수 있는) 또는 처리된 스케일링되고 디코딩된 스펙트럼 값들(1162, 처리된 스케일링되고 디코딩된 스펙트럼 값들(368)과 상응할 수 있는)을 수신하고 이를 기초로 하여, 위에 설명된 시간 도메인 표현(372)과 상응할 수 있는, 시간 도메인 표현(1172)을 제공하도록 구성되는, 주파수-도메인-대-시간-도메인 변환(1170)을 포함한다. 오디오 디코더(1100)는 또한 예를 들면 위에 언급된 선택적 후-처리(376)와 적어도 부분적으로 상응할 수 있는, 선택적 제 1 후-처리(1174), 선택적 제 2 후-처리(1178)를 포함한다. 따라서, 오디오 디코더(1110)는 (선택적으로) 시간 도메인 오디오 표현(1172)의 후-처리된 버전(1179)을 획득한다.

오디오 디코더(1100)는 또한 시간 도메인 오디오 표현(1172) 또는 그것의 후-처리된 버전 및 선형-예측-코딩 계수들(인코딩된 형태, 또는 디코딩된 형태의)을 수신하고, 이를 기초로 하여 오류 은닉 오디오 정보(1182)를 제공하도록 구성되는 오류 은닉 블록(1180)을 포함한다.

오류 은닉 블록(1180)은 시간 도메인 여기 신호를 사용하여 주파수 도메인 표현 내에 인코딩된 오디오 프레임을 뒤따르는 오디오 프레임이 손실의 은닉을 위한 오류 은닉 오디오 정보를 제공하도록 구성되고, 따라서 오류 은닉(380)과 오류 은닉(480), 및 또한 오류 은닉(500)과 오류 은닉(600)과 유사하다.

그러나, 오류 은닉 블록(1180)은 실질적으로 LPC 분석(530)과 동일한 LPC 분석(1184)을 포함한다. 그러나, LPC 분석(1184)은 선택적으로, 분석을 용이하게 하도록(LPC 분석(530)과 비교할 때) LPC 계수들(1124)을 사용할 수 있다. LPC 분석(1184)은 실질적으로 시간 도메인 여기 신호(532, 및 또한 시간 도메인 여기 신호(610))와 동일한 시간 도메인 여기 신호(1186)를 제공한다. 게다가, 오류 은닉 블록(1180)은 예를 들면, 오류 은닉(500)의 블록들(540, 550, 560, 570, 580, 584)의 기능을 실행할 수 있거나, 또는 오류 은닉(600)의 블록들(640, 650, 660, 670, 680, 684)의 기능을 실행할 수 있는, 오류 은닉(1188)을 포함한다. 그러나, 오류 은닉 블록(1180)은 오류 은닉(500) 및 오류 은닉(600)과 약간 다르다. 예를 들면, 오류 은닉 블록(1180, LPC 분석(1184)을 포함하는)은 LPC 계수들(LPC 합성(580)을 위하여 사용되는)이 LPC 분석(530)에 의해 결정되지 않으나, (선택적으로) 비트스트림으로부터 수신된다는 점에서 오류 은닉(500)과 다르다. 게다가, LPC 분석(1184)을 포함하는, 오류 은닉 블록(1180)은 "과거 여기(610)"가 직접적으로 이용 가능하기보다는, LPC 분석(1184)에 의해 획득된다는 점에서 오류 은닉(600)과 다르다.

오디오 디코더(1100)는 또한 이에 의해 디코딩된 오디오 정보(1112)를 획득하기 위하여, 시간 도메인 오디오 표현(1172) 또는 그것의 후-처리된 버전, 및 또한 오류 은닉 오디오 정보(1182, 자연적으로, 뒤따르는 오디오 프레임들을 위하여)를 수신하고 바람직하게는 오버랩-및-가산 연산을 사용하여, 상기 신호들을 결합하도록 구성되는, 신호 결합(1190)을 포함한다.

또 다른 상세내용들을 위하여, 위의 설명들이 참조된다.

8. 도 9에 따른 방법

도 9는 인코딩된 오디오 정보를 기초로 하여 디코딩된 오디오 정보를 제공하기 위한 방법의 플로우차트를 도시한다. 도 9에 따른 방법(900)은 시간 도메인 여기 신호를 사용하여 주파수 도메인 표현 내에 인코딩된 오디오 프레임을 뒤따르는 오디오 프레임의 손실의 은닉을 위한 오류 은닉 오디오 정보를 제공하는 단계(910)를 포함한다. 도 9에 따른 방법(900)은 도 1에 따른 오디오 디코더와 동일한 고려사항들을 기초로 한다. 게다가, 방법(900)은 개별적으로 또는 조합하여, 여기에 설명된 특징들과 기능들 중 어느 하나에 의해 보강될 수 있다는 사실에 유의하여야 한다.

9. 도 10에 따른 방법

도 10은 인코딩된 오디오 정보를 기초로 하여 디코딩된 오디오 정보를 제공하기 위한 방법의 플로우차트를 도시한다. 방법(1000)은 오디오 프레임의 손실의 은닉을 위한 오류 은닉 오디오 정보를 제공하는 단계(1010)를 포함하고, 손실 오디오 프레임을 선행하는 하나 이상의 프레임을 위하여(또는 기초로 하여) 획득되는 시간 도메인 여기 신호는 오류 은닉 오디오 정보를 획득하도록 변형된다.

도 10에 따른 방법(1000)은 도 2에 따른 위에 설명된 오디오 디코더와 동일한 고려사항들을 기초로 한다.

게다가, 도 10에 따른 방법은 개별적으로 또는 조합하여, 여기에 설명된 특징들과 기능들 중 어느 하나에 의해 보강될 수 있다는 사실에 유의하여야 한다.

10. 추가 적요

위에 설명된 실시 예들에서, 다중 프레임 손실은 상이한 방법들로 처리될 수 있다. 예를 들면, 만일 두 개 이상의 프레임이 손실되면, 제 2 손실 프레임을 위한 시간 도메인 여기 신호의 주기적 부분은 제 1 손실 프레임과 관련된 시간 도메인 여기 신호의 음조 부분이 카피로부터 유도될 수 있다(또는 카피와 동일할 수 있다). 대안으로서, 제 2 손실 프레임을 위한 시간 도메인 여기 신호는 이전 손실 프레임의 합성 신호의 LPC 분석을 기초로 할 수 있다. 예를 들면 코덱에서 LPC는 모든 손실 프레임을 변경할 수 있고, 모든 손실 프레임을 위한 분석을 재수행하는 것이 일리가 있다.

11. 구현 대안들

장치의 맥락에서 일부 양상들이 설명되었으나, 이러한 양상들은 또한 블록 또는 장치가 방법 단계 또는 방법 단계의 특징과 상응하는, 상응하는 방법의 설명을 나타낸다는 것은 자명하다. 유사하게, 방법 단계의 맥락에서 설명된 양상들은 또한 상응하는 블록 아이템 혹은 상응하는 장치의 특징을 나타낸다. 일부 또는 모든 방법 단계는 예를 들면, 마이크로프로세서, 프로그램가능 컴퓨터 또는 전자 회로 같은 하드웨어 장치에 의해(또는 사용하여) 실행될 수 있다. 일부 실시 예들에서, 일부 하나 또는 그 이상의 가장 중요한 방법 단계는 그러한 장치에 의해 실행될 수 있다.

특정 구현 요구사항들에 따라, 본 발명의 실시 예는 하드웨어 또는 소프트웨어에서 구현될 수 있다. 구현은 디지털 저장 매체, 예를 들면, 그 안에 저장되는 전자적으로 판독 가능한 제어 신호들을 갖는, 플로피 디스크, DVD, 블루-레이, CD, ROM, PROM, EPROM, EEPROM 또는 플래시 메모리를 사용하여 실행될 수 있으며, 이는 각각의 방법이 실행되는 것과 같이 프로그램가능 컴퓨터 시스템과 협력한다(또는 협력할 수 있다). 따라서, 디지털 저장 매체는 컴퓨터로 판독 가능할 수 있다.

본 발명에 따른 일부 실시 예들은 여기에 설명된 방법들 중 어느 하나가 실행되는 것과 같이, 프로그램가능 컴퓨터 시스템과 협력할 수 있는, 전자적으로 판독 가능한 제어 신호들을 갖는 데이터 캐리어를 포함한다.

일반적으로, 본 발명의 실시 예들은 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로서 구현될 수 있으며, 프로그램 코드는 컴퓨터 프로그램 제품이 컴퓨터 상에서 구동할 때 방법들 중 어느 하나를 실행하도록 운영될 수 있다. 프로그램 코드는 예를 들면, 기계 판독가능 캐리어 상에 저장될 수 있다.

다른 실시 예들은 기계 판독가능 캐리어 상에 저장되는, 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터 프로그램을 포함한다.

바꾸어 말하면, 본 발명의 방법의 일 실시 예는 따라서 컴퓨터 프로그램이 컴퓨터 상에 구동할 때, 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.

본 발명의 방법의 또 다른 실시 예는 따라서 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터 프로그램을 포함하는, 그 안에 기록되는 데이터 캐리어(혹은 데이터 저장 매체, 또는 컴퓨터 판독가능 매체와 같은, 비-전이형 저장 매체)이다. 데이터 캐리어, 디지털 저장 매체 또는 기록 매체는 일반적으로 유형(tangible) 및/또는 비-전이형이다.

본 발명의 방법의 또 다른 실시 예는 따라서 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터 프로그램을 나타내는 데이터 스트림 또는 신호들의 시퀀스이다.

또 다른 실시 예는 여기에 설명된 방법들 중 어느 하나를 실행하도록 구성되거나 혹은 적용되는, 처리 수단, 예를 들면 컴퓨터, 또는 프로그램가능 논리 장치를 포함한다.

또 다른 실시 예는 그 안에 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.

일부 실시 예들에서, 여기에 설명된 방법들 중 일부 또는 모두를 실행하기 위하여 프로그램가능 논리 장치(예를 들면, 필드 프로그램가능 게이트 어레이)가 사용될 수 있다. 일부 실시 예들에서, 필드 프로그램가능 게이트 어레이는 여기에 설명된 방법들 중 어느 하나를 실행하기 위하여 마이크로프로세서와 협력할 수 있다. 일반적으로, 방법들은 바람직하게는 어떠한 하드웨어 장치에 의해 실행된다.

여기에 설명된 장치는 하드웨어 장치를 사용하거나, 또는 컴퓨터를 사용하거나, 또는 하드웨어 장치와 컴퓨터의 조합을 사용하여 구현될 수 있다.

여기에 설명된 방법들은 하드웨어 장치를 사용하거나, 또는 컴퓨터를 사용하거나, 또는 하드웨어 장치와 컴퓨터의 조합을 사용하여 실행될 수 있다.

위에 설명된 실시 예들은 단지 본 발명의 원리들을 위한 설명이다. 여기에 설명된 배치들과 상세내용들의 변형과 변경은 통상의 지식을 가진 자들에 자명할 것이라는 것을 이해할 것이다. 따라서, 본 발명은 여기에 설명된 실시 예들의 설명에 의해 표현된 특정 상세내용이 아닌 특허 청구항의 범위에 의해서만 한정되는 것으로 의도된다.

12. 결론

결론적으로, 변환 도메인 코덱들을 위한 일부 은닉이 설명되었으나, 이 분야에서, 본 발명에 따른 실시 예들은 종래의 코덱들(또는 디코더들)을 능가한다. 본 발명에 따른 실시 예들은 은닉을 위한 도메인의 변화(주파수 도메인에서 시간 또는 여기 도메인으로의)를 사용한다. 따라서, 본 발명에 따른 실시 예들은 변환 도메인 디코더들을 위한 고품질 음성 은닉을 생성한다.

변환 코딩 모드는 USAC 내의 모드와 유사하다(예를 들면, [3]을 참조). 이는 변환으로서 변형 이산 코사인 변환(MDCT)을 사용하고 주파수 도메인 내의 가중된 LPC 스펙트럼 엔벨로프를 적용함으로써 스펙트럼 잡음 정형이 달성된다(또한 "주파수 도메인 잡음 정형(FDNS)"으로서 얼려진). 달리 설명하면, 본 발명에 따른 실시 예들은 USAC 표준에서의 디코딩 개념들을 사용하는, 오디오 디코더 내에서 사용될 수 있다. 그러나, 여기에 설명된 오류 은닉 개념은 또한 "고급 오디오 코딩"과 유사하거나 또는 어떠한 고급 오디오 코딩 패밀리 코덱(family codec)(또는 디코더)인 오디오 디코더 내에서 사용될 수 있다.

본 발명에 따른 개념은 USAC뿐만 아니라 순수 주파수 도메인 코덱과 같은 스위칭된 코덱에 적용된다. 일부 경우들에서, 은닉은 시간 도메인 내에서 도는 여기 도메인 내에서 실행된다.

아래에, 시간 도메인 은닉(또는 여기 도메인 은닉)의 일부 장점들과 특징들이 설명될 것이다.

예를 들면, 또한 잡음 대체로 불리는, 도 7 및 8을 참조하여 설명된 것과 같은, 종래의 TCX 은닉은 음성-유사 신호들 또는 심지어 음조 신호들에 상당히 적합하지 않다. 본 발명에 따른 실시 예들은 시간 도메인(또는 선형-예측-코딩 디코더의 여기 도메인) 내에 적용되는 변환 도메인 코덱을 위한 새로운 은닉을 생성한다. 이는 ACELP 유사 은닉과 유사하고 은닉 품질을 증가시킨다. ACELP 유사 은닉을 위하여 피치 정보가 바람직하다는(또는 심지어 일부 경우들에서 필요하다는) 사실이 발견되었다. 따라서, 본 발명에 따른 실시 예들은 주파수 도메인 내에 코딩된 이전 프레임을 위한 신뢰할만한 피치 값들을 발견하도록 구성된다.

예를 들면 도 5 및 6에 따른 실시 예들을 기초로 하여 상이한 부분들 및 상세내용이 위에서 설명되었다.

결론적으로, 본 발명에 따른 실시 예들은 종래의 해결책들을 능가하는 오류 은닉을 생성한다.

참고문헌:

[1] 3GPP, "Audio codec processing functions; Extended Adaptive Multi-Rate - Wideband (AMR-WB+) codec; Transcoding functions," 2009, 3GPP TS 26.290.

[2] "MDCT-BASED CODER FOR HIGHLY ADAPTIVE SPEECH AND AUDIO CODING"; Guillaume Fuchs & al.; EUSIPCO 2009.

[3] ISO_IEC_DIS_23003-3_(E); Information technology - MPEG audio technologies - Part 3: Unified speech and audio coding.

[4] 3GPP, "General Audio Codec audio processing functions; Enhanced aacPlus general audio codec; Additional decoder tools," 2009, 3GPP TS 26.402.

[5] "Audio decoder and coding error compensating method", 2000, EP 1207519 B1

[6] "Apparatus and method for improved concealment of the adaptive codebook in ACELP-like concealment employing improved pitch lag estimation", 2014, PCT/EP2014/062589

[7] "Apparatus and method for improved concealment of the adaptive codebook in ACELP-like concealment employing improved pulse resynchronization", 2014, PCT/EP2014/062578

100 : 오디오 디코더
110 : (인코딩된 오디오 정보
112 : 디코딩된 오디오 정보
120 : 디코딩/처리
122 : 디코딩된 오디오 정보
130 : 오류 은닉
132 : 오류 은닉 오디오 정보
200 : 오디오 디코더
210 : 인코딩된 오디오 정보
220 : 디코딩된 오디오 정보
230 : 디코딩/처리
232 : 디코딩된 오디오 정보
240 : 오류 은닉
242 : 오류 은닉 오디오 정보
300 : 오디오 디코더
310 : 인코딩된 오디오 정보
312 : 디코딩된 오디오 정보
320 : 비트스트림 분석기
322 : 주파수 도메인 표현
324 : 부가적인 제어 정보
326 : 인코딩된 스펙트럼 값
328 : 인코딩된 스케일 인자
330 : 부가 정보
340 : 스펙트럼 값 디코딩
342 : 디코딩된 스펙트럼 값
350 : 스케일 인자 디코딩
352 : 디코딩된 스케일 인자
360 : 스케일러
362 : 스케일링되고 디코딩된 스펙트럼 값
366 : 처리
370 : 주파수-도메인-대-시간-도메인 변환
372 : 시간 도메인 표현
376 : 후-처리
378 : 시간 도메인 표현의 후-처리된 버전
380 : 오류 은닉
382 : 오류 은닉 오디오 정보
390 : 신호 결합
400 : 오디오 디코더
410 : 인코딩된 오디오 정보
412 : 디코딩된 오디오 정보
420 : 비트스트림 분석기
422 : 주파수 도메인 표현
424 : 선형-예측 코딩 도메인 표현
426 : 인코딩된 여기
428 : 인코딩된 선형-예측-계수
430 : 주파수 도메인 디코딩 경로
440 : 선형-예측-도메인 디코딩 경로
450 : 여기 디코딩
452 : 디코딩된 여기
454 : 처리
456 : 처리된 시간 도메인 여기 신호
460 : 선형-예측 계수 디코딩
462 : 디코딩된 선형 예측 계수
464 : 처리
466 : 디코딩된 선형 예측 계수들의 처리된 버전
470 : LPC 합성
472 : 디코딩된 시간 도메인 오디오 신호
474 : 후-처리
480 : 오류 은닉
482 : 오류 은닉 오디오 정보
490 : 신호 결합기
500 : 오류 은닉
512 : 오류 은닉 오디오 정보
520 : 프리-엠퍼시스
522 : 프리-엠퍼시스된 시간 도메인 오디오 신호
530 : LPC 분석
532 : LPC 파라미터
540 : 피치 검색
542 : 피치 정보
550 : 외삽
552 : 외삽된 시간-도메인 여기 신호
560 : 접음 발생
562 : 잡음 신호
570 : 결합기/페이더
572 : 결합된 시간 도메인 여기 신호
580 : LPC 합성
582 : 시간 도메인 오디오 신호
584 : 디-엠퍼시스
586 : 디-엠퍼시스된 오류 은닉 시간 도메인 오디오 신호
590 : 오버랩-및-가산
600 : 시간 도메인 은닉
610 : 과거 여기
612 : 오류 은닉 오디오 정보
640 : 과거 피치 정보
650 : 외삽
652 : 외삽된 시간 도메인 여기 신호
660 : 잡음 발생기
662 : 잡음 신호
670 : 결합기/페이더
672 : 입력 신호
680 : LPC 합성
682 : 시간 도메인 오디오 신호
684 : 디-엠퍼시스
686 : 디-엠퍼시스된 오류 은닉 시간 도메인 오디오 신호
690 : 오버랩-및-가산
700 : TCX 디코더
710 : TCX 특이 파라미터
712, 714 : 디코딩된 정보
720 : 디멀티플렉서
722 : 인코딩된 여기 정보
724 : 인코딩된 잡음 채움 정보
726 : 인코딩된 글로벌 이득 정보
728 : 시간 도메인 여기 신호
730 : 여기 디코더
732 : 여기 정보 프로세서
734 : 중간 여기 신호
736 : 잡음 인젝터
738 : 잡음 충전된 여기 신호
744 : 적응적 저주파수 디-엠퍼시스
746 : 처리된 여기 신호
748 : 주파수 도메인-대-시간 도메인 변환기
740 : 시간 도메인 여기 신호
750 : 시간 도메인 여기 신호
752 : 스케일러
754 : 스케일링된 시간 도메인 여기 신호
756 : 글로벌 이득 정보
758 : 글로벌 이득 디코더
760 : 오버랩-가산 합성
770 : LPC 합성
772 : 제 2 합성 필터
774 : 제 1 필터
800 : 패킷 소거 은닉
810 : 피치 정보
812 : LPC 파라미터
814 : 오류 은닉 신호
820 : 여기 버퍼
822 : 여기 신호
824 : 제 1 필터
826 : 필터링된 여기 신호
828 : 진폭 제한기
830 : 진폭 제한되고 필터링된 여기 신호
832 : 제 2 필터
1100 : 오디오 디코더
1110 : 인코딩된 오디오 정보
1112 : 디코딩된 오디오 정보
1120 : 비트스트림 분석기
1122 : 스펙트럼 계수들의 인코딩된 표현
1124 : 선형-예측 코딩 계수
1130 : 스펙트럼 값 디코딩
1132 : 디코딩된 스펙트럼 값
1140 : 선형-예측-코딩 계수 대 스케일-인자 전환
1142 : 스케일 인자
1150 : 스케일러
1152 : 스케일링되고 디코딩된 스펙트럼 값
1160 : 처리
1162 : 처리된 스케일링되고 디코딩된 스펙트럼 값
1170 : 주파수-도메인-대-시간-도메인 변환
1172 : 시간 도메인 표현
1179 : 시간 도메인 오디오 표현의 후-처리된 버전
1180 : 오류 은닉 블록
1182 : 오류 은닉 오디오 정보
1184 : LPC 분석
1186 : 시간 도메인 여기 신호
1188 : 오류 은닉
1190 : 신호 결합

Claims

인코딩된 오디오 정보(210; 410)를 기초로 하여 디코딩된 오디오 정보(220; 412)를 제공하기 위한 오디오 디코더(200; 400)에 있어서,
오디오 프레임의 손실의 은닉을 위한 오류 은닉 오디오 정보(242; 482; 612)를 제공하도록 구성되는 오류 은닉부(240; 480; 600);를 포함하고,
상기 오류 은닉부는 상기 오류 은닉 오디오 정보를 획득하기 위하여, 손실 오디오 프레임을 선행하는 하나 이상의 오디오 프레임을 위하여 획득되는 시간 도메인 여기 신호(452; 456; 610)를 변형하도록 구성되며,
상기 오류 은닉부(240; 480; 600)는 상기 오류 은닉 오디오 정보(242; 482; 612)의 합성(680)을 위한 여기(672) 신호를 획득하기 위하여, 상기 손실 오디오 프레임을 선행하는 상기 오디오 프레임과 관련된 상기 시간 도메인 여기 신호(452; 456; 610)의 피치 사이클을 한 번 또는 여러 번 복사하도록 구성되며,
상기 오류 은닉부(240; 480; 600)는 대역폭이 주파수 도메인 표현 내에 인코딩된 상기 오디오 프레임의 샘플링 레이트에 의존하는, 샘플링-레이트 의존 필터를 사용하여 상기 손실 오디오 프레임을 선행하는 상기 오디오 프레임과 관련된 상기 시간 도메인 여기 신호(452; 456; 610)의 상기 피치 사이클을 저역 통과 필터링하도록 구성되는, 인코딩된 오디오 정보를 기초로 하여 디코딩된 오디오 정보를 제공하기 위한 오디오 디코더.
인코딩된 오디오 정보를 기초로 하여 디코딩된 오디오 정보를 제공하기 위한 방법(1000)에 있어서,
오디오 프레임의 손실의 은닉을 위한 오류 은닉 오디오 정보를 제공하는 단계(1010);를 포함하고,
상기 오류 은닉 오디오 정보를 획득하기 위하여, 손실 오디오 프레임을 선행하는 하나 이상의 오디오 프레임을 위하여 획득되는 시간 도메인 여기 신호가 변형되며,
상기 방법은 상기 오류 은닉 오디오 정보(242; 482; 612)의 합성(680)을 위한 여기(672) 신호를 획득하기 위하여, 상기 손실 오디오 프레임을 선행하는 상기 오디오 프레임과 관련된 상기 시간 도메인 여기 신호(452; 456; 610)의 피치 사이클을 한 번 또는 여러 번 복사하는 단계를 포함하며,
상기 방법은 대역폭이 주파수 도메인 표현 내에 인코딩된 상기 오디오 프레임의 샘플링 레이트에 의존하는, 샘플링-레이트 의존 필터를 사용하여 상기 손실 오디오 프레임을 선행하는 상기 오디오 프레임과 관련된 상기 시간 도메인 여기 신호(452; 456; 610)의 상기 피치 사이클을 저역 통과 필터링하는 단계를 포함하는, 인코딩된 오디오 정보를 기초로 하여 디코딩된 오디오 정보를 제공하기 위한 방법.
컴퓨터 프로그램이 컴퓨터 상에서 구동할 때 제 2항에 따른 방법을 실행하기 위하여 컴퓨터 판독 가능 저장매체에 기록된 컴퓨터 프로그램.