KR101125429B1

KR101125429B1 - 오디오 코딩 시스템내에서 향상 계층을 발생시키는 방법 및 장치

Info

Publication number: KR101125429B1
Application number: KR1020107009055A
Authority: KR
Inventors: 제임스 피. 애슐리; 조나단 에이. 깁스; 우다르 미탈
Original assignee: 모토로라 모빌리티, 인크.
Priority date: 2007-10-25
Filing date: 2008-09-25
Publication date: 2012-03-28
Also published as: BRPI0817800A2; US8209190B2; KR20100063127A; CN101836252A; EP2206112A1; BRPI0817800A8; MX2010004479A; WO2009055192A1; RU2469422C2; US20090112607A1; CN101836252B; RU2010120878A

Abstract

동작하는 동안, 코딩될 입력 신호가 수신되고 코딩되어 코딩 오디오 신호를 생산한다. 그 다음, 코딩 오디오 신호는 복수개 이득값으로 스케일링되어, 각각이 연관된 이득값을 갖는 복수개의 스케일링된 코딩 오디오 신호를 생산하고, 입력 신호와 복수개의 스케일링된 코딩 오디오 신호 각각 사이에 존재하는 복수개 오차값이 판정된다. 그 다음, 스케일링된 코딩 오디오 신호와 연관되어 입력 신호와 스케일링된 코딩 오디오 신호 사이에 존재하는 낮은 오차값을 초래하는 이득값이 선택된다. 마지막으로, 낮은 오차값은 이득값과 함께 코딩 오디오 신호에 대한 향상 계층의 일부로서 전송된다.

Description

오디오 코딩 시스템내에서 향상 계층을 발생시키는 방법 및 장치{METHOD AND APPARATUS FOR GENERATING AN ENHANCEMENT LAYER WITHIN AN AUDIO CODING SYSTEM}

본 발명은 일반적으로 통신 시스템에 관한 것으로서, 좀더 구체적으로는, 그러한 통신 시스템에서 음성 및 오디오 신호를 코딩하는 것에 관한 것이다.

디지털 음성 및 오디오 신호의 압축은 잘 알려져 있다. 압축은 일반적으로, 통신 채널을 통해 신호를 효율적으로 전송하는데 필요하거나, 솔리드-스테이트(solid-state) 메모리 장치 또는 컴퓨터 하드 디스크와 같은, 디지털 미디어 장치에 압축 신호를 저장하는데 필요하다. 많은 압축(또는 "코딩") 기법이 존재하지만, 디지털 음성 코딩을 위해 여전히 평판이 좋은 한가지 방법은, "분석-합성(analysis-by-synthesis)" 코딩 알고리즘군의 하나인 CELP(Code Excited Linear Prediction)로 알려져 있다. 분석-합성은 일반적으로, 입력 신호와 비교되고 왜곡에 대해 분석되는 한 세트의 후보 신호를 합성하는데 디지털 모델의 다수 매개 변수가 사용되는 코딩 프로세스를 의미한다. 그 다음, 최저 왜곡을 산출하는 한 세트의 매개 변수가 전송되거나 저장되고, 최종적으로 원래 입력 신호의 추정치를 재구성하는데 사용된다. CELP는, 각각이 본질적으로 코드북 색인(codebook index)에 응답하여 코드북으로부터 검색되는 코드-벡터의 세트를 구비하는 하나 이상의 코드북을 사용하는 특별한 분석-합성 방법이다.

현대 CELP 코더에는, 상당히 낮은 데이터 속도에서 고품질의 음성 및 오디오 재생을 유지하는 것이 문제이다. CELP 음성 모델에 그다지 적합하지 않은 음악 또는 다른 범용 오디오 신호의 경우에 특히 그렇다. 이 경우, 모델 불합치(model mismatch)는, 그러한 방법을 이용하는 장비의 최종 사용자에게 용납될 수 없는 상당히 열화된 오디오 품질을 발생시킬 수 있다. 따라서, 낮은 비트 속도에서, 특히 음악 및 다른 비음성형 입력에 대한 CELP형 음성 코더의 성능을 향상시켜야 할 필요성이 남아 있다.

도 1은 종래 기술의 임베디드(embedded) 음성/오디오 압축 시스템의 블록도이다.
도 2는 도 1의 종래 기술의 향상 계층 인코더의 좀더 상세한 일례이다.
도 3은 도 1의 종래 기술의 향상 계층 인코더의 좀더 상세한 일례이다.
도 4는 향상 계층 인코더 및 디코더의 블록도이다.
도 5는 다중-계층 임베디드 코딩 시스템의 블록도이다.
도 6은 계층-4 인코더 및 디코더의 블록도이다.
도 7은 도 4 및 도 6의 인코더 동작을 표시하는 흐름도이다.

앞서 언급한 필요성을 해결하기 위해, 여기에서는 오디오 코딩 시스템내에서 향상 계층을 발생시키는 방법 및 장치가 설명된다. 동작 동안, 코딩될 입력 신호가 수신되고 코딩되어 코딩 오디오 신호(coded audio signal)를 생산한다. 그 다음, 코딩 오디오 신호는 복수개 이득값으로 스케일링되어, 각각이 연관된 이득값을 갖는 복수개의 스케일링된 코딩 오디오 신호를 생산하고, 입력 신호와 복수개의 스케일링된 코딩 오디오 신호 각각 사이에 존재하는 복수개 오차값이 판정된다. 그 다음, 입력 신호와 스케일링된 코딩 오디오 신호 사이에 존재하는 낮은 오차값을 초래하는, 스케일링된 코딩 오디오 신호와 연관되는 이득값이 선택된다. 마지막으로, 낮은 오차값은 이득값과 함께 코딩 오디오 신호에 대한 향상 계층의 일부로서 전송된다.

도 1에서는 종래 기술의 임베디드 음성/오디오 압축 시스템이 표시된다. 입력 오디오(s(n))는 먼저 코어 계층 인코더(102)에 의해 처리되는데, 이는 CELP형 음성 코딩 알고리즘을 위한 것일 수 있다. 인코딩된 비트-스트림은 채널(110)로 전송될 뿐만 아니라, 재구성된 코어 오디오 신호(s_c(n))가 발생되는 로컬 코어 계층 디코더(104)로도 입력된다. 그 다음에는, 향상 계층 인코더(106)가 신호(s(n) 및 s_c(n))의 어떤 비교에 기초해 추가 정보를 코딩하는데 사용되는데, 코어 계층 디코더(104)로부터의 매개 변수를 선택적으로 사용할 수도 있다. 코어 계층 디코더(104)에서와 같이, 코어 계층 디코더(114)는 코어 계층 비트-스트림 매개 변수를 코어 계층 오디오 신호(

)로 변환한다. 그 다음, 향상 계층 디코더(116)는 채널(110)로부터의 향상 계층 비트-스트림 및 신호(

)를 사용해 향상된 오디오 출력 신호(

)를 생산한다.

그러한 임베디드 코딩 시스템의 주요 장점은, 특정 채널(110)이 고품질 오디오 코딩 알고리즘과 연관된 대역폭 요구 사항을 지속적으로 지원하지 않을 수 있다는 것이다. 그러나, 임베디드 코더는, 향상 계층 비트-스트림이 손실 또는 손상된 경우, 채널(110)로부터 부분적인 비트-스트림(예를 들어, 코어 계층 비트-스트림만)이 수신되게 하여, 예를 들어, 코어 출력 오디오만을 생산하게 할 수 있다. 그러나, 임베디드 대 비-임베디드 코더(embedded vs. non-embedded coders) 사이에는 그리고 상이한 임베디드 코딩 최적화 목표 사이에도 품질에서의 트레이드오프(tradeoffs)가 존재한다. 다시 말해, 향상 계층 코딩 품질이 높을수록 코어 계층과 향상 계층 사이에 좀더 양호한 균형을 실현하는데 도움이 될 수 있을 뿐만 아니라, 좀더 양호한 전송 특징(예를 들어, 감소된 정체)을 위해 전반적인 데이터 속도를 감소시킬 수 있는데, 이는 향상 계층을 위한 좀더 낮은 패킷 오류율을 초래할 수 있다.

종래 기술의 향상 계층 인코더(106)의 좀더 상세한 일례가 도 2에 제시된다. 여기에서, 오차 신호 발생기(202)는, 오차 신호 인코더(204)에 의한 처리를 위해 MDCT(Modified Discrete Cosine Transform) 도메인으로 변환되는 가중된 차이 신호로 구성된다. 오차 신호(E)는 다음의 수학식 1로서 주어지는데,

여기에서, W는 코어 계층 디코더(104)로부터의 LP(Linear Prediction) 필터 계수(A(z))에 기초한 지각 가중 행렬(perceptual weighting matrix)이고, s는 입력 오디오 신호(s(n))로부터의 샘플의 벡터(즉, 프레임)이며, s_c는 코어 계층 디코더(104)로부터의 샘플의 대응 벡터이다. ITU-T Recommendation G.729.1에서 예시적 MDCT 처리가 설명된다. 그 다음, 오차 신호(E)는 오차 신호 인코더(204)에 의해 처리되어 코드워드(i_E)를 생산하는데, 코드워드(i_E)는 그 후 채널(110)로 전송된다. 이 일례의 경우에서는, 오차 신호 인코더(106)에 단 하나의 오차 신호(E)가 제시되고 오차 신호 인코더(106)가 연관된 하나의 코드워드(i_E)를 출력한다는 것에 유의하는 것이 중요하다. 그 이유는 나중에 밝혀질 것이다.

그 다음, 향상 계층 디코더(116)는 채널(110)로부터 인코딩된 비트-스트림을 수신하고 비트-스트림을 적당히 역다중화하여 코드워드(i_E)를 생산한다. 오차 신호 디코더(212)는 코드워드(i_E)를 사용해 향상 계층 오차 신호(

)를 재구성하고, 향상 계층 오차 신호(

)는 그 뒤 다음의 수학식 2와 같이 코어 계층 출력 오디오 신호(

)와 조합되어 향상된 오디오 출력 신호(

)를 생산하는데,

여기에서, MDCT^-1은 (중첩-합(overlap-add)을 포함하는) 반전 MDCT이고, W^-1은 반전 지각 가중 행렬이다.

향상 계층 인코더의 다른 일례가 도 3에 표시된다. 여기에서, 오차 신호 발생기(302)에 의한 오차 신호(E)의 발생은, 코어 계층 오디오 출력(s_c(n))에 대한 일부 변경이 수행되는 적응적 프리-스케일링(adaptive pre-scaling)을 수반한다. 이 처리는, 향상 계층 인코더(106)에서 코드워드(i_s)로서 표시된 소정 갯수의 비트가 발생되게 한다.

추가적으로, 향상 계층 인코더(106)는 오차 신호 인코더(304)로 입력되는 입력 오디오 신호(s(n)) 및 변환된 코어 계층 출력 오디오(S_c)를 표시한다. 이들 신호는 향상 계층 오차 신호(E)의 향상된 코딩을 위해 심리음향(psychoacoustic) 모델을 구성하는데 사용된다. 그 다음, 코드워드(i_s 및 i_E)는 먹스(MUX: 308)에 의해 다중화된 다음, 향상 계층 디코더(116)에 의한 후속 디코딩을 위해 채널(110)로 송신된다. 코딩된 비트-스트림은, 비트-스트림을 성분(i_s 및 i_E)으로 분리하는 디먹스(demux)(310)에 의해 수신된다. 그 다음, 코드워드(i_E)는 오차 신호 디코더(312)에 의해 향상 계층 오차 신호(

)를 재구성하는데 사용된다. 신호 조합기(314)는 스케일링 비트(i_s)를 사용하는 소정 방식으로 신호(

)를 스케일링한 다음, 그 결과를 향상 계층 오차 신호(

)와 조합하여 향상된 오디오 출력 신호(

)를 생산한다.

본 발명의 제1 실시예는 도 4에서 제시된다. 이 도면은 스케일링 유닛(401)에 의해 코어 계층 출력 신호(s_c(n))를 수신하는 향상 계층 인코더(406)를 표시한다. 이득의 소정 세트({g})가 복수개의 스케일링된 코어 계층 출력 신호({S})를 생산하는데 사용되는데, 여기에서, g_j 및 S_j는 개개 세트의 j번째 후보이다. 스케일링 유닛(401)내에서, 제1 실시예는 신호(s_c(n))를 (MDCT) 도메인에서 다음의 수학식 3과 같이 처리하는데,

여기에서, W는 소정의 지각 가중 행렬일 수 있고, s_c는 코어 계층 디코더(104)로부터의 샘플의 벡터이며, MDCT는 업계에 널리 공지되어 있는 연산이고, G_j는 이득 벡터 후보(g_j)를 이용하는 것에 의해 형성되는 이득 행렬일 수 있으며, M은 이득 벡터 후보의 수이다. 제1 실시예에서, G_j는 벡터 g_j를 대각선으로 그리고 나머지 다른 곳은 0을 (즉, 대각 행렬을) 사용하지만, 많은 가능성이 존재한다. 예를 들어, G_j는 띠행렬(band matrix)일 수 있거나 심지어 간단한 스칼라량이 곱해진 단위 행렬(I)일 수도 있다. 다른 방법으로는, 신호(S_j)를 시간 도메인에 남겨두는 것이 좀더 이로울 수 있거나, 오디오를, DFT(Discrete Fourier Transform) 도메인과 같은, 상이한 도메인으로 변환하는 것이 이로운 경우일 수도 있다. 그러한 다수 변환이 업계에 널리 공지되어 있다. 이들 경우에, 스케일링 유닛은 개개 벡터 도메인에 기초해 적합한 S_j를 출력할 수 있다.

그러나 어떤 경우에서든, 코어 계층 출력 오디오를 스케일링하는 주된 이유는, 입력 신호와 코어 계층 코덱 사이에 상당한 차이를 발생시킬 수 있는 모델 불합치(또는 다른 어떤 코딩 결함)를 보상하기 위한 것이다. 예를 들어, 입력 오디오 신호가 주로 음악 신호이고 코어 계층 코덱이 음성 모델에 기초한다면, 코어 계층 출력은 상당히 왜곡된 신호 특징을 포함할 수 있고, 이 경우, 음질의 관점에서, 신호의 추가 코딩을 적용하기 이전에 하나 이상의 향상 계층에 의해 이 신호 성분의 에너지를 선택적으로 감소시키는 것이 유익하다.

그 다음, 이득 스케일링된 코어 계층 오디오 후보 벡터(S_j) 및 입력 오디오(s(n))가 오차 신호 발생기(402)의 입력으로 사용될 수 있다. 본 발명의 바람직한 실시예에서, 입력 오디오 신호(s(n))는, S와 S_j가 상응하여 정렬되는 벡터(S)로 변환된다. 다시 말해, s(n)을 표현하는 벡터(s)는 s_c와 시간(위상) 정렬되고, 대응되는 연산이 적용될 수 있는데, 그 결과 바람직한 실시예에서는 다음의 수학식 4와 같다.

이 표현은, 입력 오디오와 MDCT 스펙트럼 도메인에서의 이득 스케일링된 코어 계층 출력 오디오 사이의 가중된 차이를 표현하는 복수개 오차 신호 벡터(E_j)를 산출한다. 상이한 도메인이 고려되는 다른 실시예에서, 상기 표현은 개개 처리 도메인에 기초해 변경될 수 있다.

그 다음, 본 발명의 제1 실시예에 따르면, 이득 선택기(404)가 복수개 오차 신호 벡터(E_j)를 평가하는데 사용되어 최적 오차 벡터(E^*), 최적 이득 매개 변수(g^*) 및, 그 결과로서, 대응되는 이득 지수(i_g)를 생산한다. 이득 선택기(404)는, 폐루프 방법(예를 들어, 왜곡 메트릭(distortion metric)의 최소화), 개루프 방법(예를 들어, 경험적 분류, 모델 성능 평가 등), 또는 2가지 방법의 조합을 수반할 수 있는 다양한 방법을 사용해 최적 매개 변수(E^* 및 g^*)를 판정할 수 있다. 바람직한 실시예에서는, 다음의 수학식 5와 같이, 원본 오디오 신호 벡터(S)와 재구성된 복합 신호 벡터 사이의 바이어스된 에너지 차이(biased energy difference)로서 주어지는 바이어스된 왜곡 메트릭이 사용될 수 있는데,

여기에서,

는 오차 신호 벡터(E_j)의 정량화된 추정치일 수 있고, β_j는 최적의 지각 이득 오차 지수(j^*)를 선택하는 판정을 보완하는데 사용되는 바이어스 항(bias term)일 수 있다. 신호 벡터의 벡터 양자화를 위한 예시적 방법은 "APPARATUS AND METHOD FOR LOW COMPLEXITY COMBINATORIAL CODING OF SIGNALS"라는 명칭의 미국특허출원 제11/531122호에 개시되어 있지만, 다른 많은 방법이 가능하다. E_j = S - S_j라는 것을 고려하면, 수학식 5는 다음의 수학식 6으로 고쳐 쓸 수 있다.

이 표현에서,

항은 정량화되지 않은 오차 신호와 정량화된 오차 신호 사이의 에너지 차이를 표현한다. 명료화를 위해, 이 양을 "잔류 에너지(residual energy)"라고 할 수 있고, 더 나아가, 최적 이득 매개 변수(g^*)가 선택되는 "이득 선택 기준"을 평가하는데 사용될 수 있다. 수학식 6에서 그러한 이득 선택 기준 하나가 제시되지만, 많은 가능성이 존재한다.

바이어스 항(β_j)에 대한 필요성은, 수학식 3 및 수학식 4에서의 오차 가중 함수(W)가 벡터(

)에 걸쳐 균등하게 지각 가능한 왜곡을 적절히 생산할 수 없는 경우로부터 발생할 수 있다. 예를 들어, 오차 스펙트럼을 어느 정도 "백색화"하려는 시도에서 오차 가중 함수(W)가 사용될 수 있지만, 사람 귀의 왜곡된 지각 때문에, 저주파수에 좀더 많은 무게를 두는 것에 어떤 이점이 있을 수 있다. 저주파수에서의 증가된 오차 가중화의 결과로서, 고주파수 신호는 향상 계층에 의해 언더-모델링(under-modeling)될 수 있다. 이들 경우에는, 고주파수의 언더-모델링이 최종적인 재구성 오디오 신호에서 불쾌하거나 부자연스러운 음향 아티팩트(sounding artifacts)를 초래하지 않도록, S_j의 고주파수 성분을 약화시키지 않는 g_j의 값을 목표로 왜곡 메트릭을 바이어스하는 것이 직접적인 유익이 될 수 있다. 그러한 일례는 발화되지 않은 음성 신호(unvoiced speech signal)의 경우일 것이다. 이 경우, 입력 오디오는 대체로, 사람 입으로부터의 공기 난류로부터 생산되는 중주파수에서 고주파수의 잡음형 신호로 이루어진다. 코어 계층 인코더는 이 유형의 파형을 직접적으로 코딩하지 않지만, 잡음 모델을 사용해 유사하게 들리는 오디오 신호를 발생할 수 있다. 이것은 입력 오디오 신호와 코어 계층 출력 오디오 신호 사이에 일반적으로 낮은 상관 관계를 초래할 수 있다. 그러나, 이 실시예에서, 오차 신호 벡터(E_j)는 입력 오디오 신호와 코어 계층 오디오 출력 신호 사이의 차이에 기초한다. 이들 신호는 상관 관계가 높지 않을 수 있으므로, 오차 신호(E_j)의 에너지가 입력 오디오나 코어 계층 출력 오디오보다 반드시 낮지 않을 수도 있다. 그런 경우, 수학식 6에서의 오차 최소화는 너무 지나친 이득 스케일링을 초래할 수 있고, 너무 지나친 이득 스케일링은 잠재적인 가청 아티팩트(potential audible artifacts)를 초래할 수 있다.

다른 경우에서, 바이어스 팩터(β_j)는 입력 오디오 및/또는 코어 계층 출력 오디오 신호의 다른 신호 특징에 기초할 수 있다. 예를 들어, 신호 스펙트럼의 PAR(peak-to-average ratio)이 그 신호의 고조파 컨텐츠(harmonic content)에 대한 지시를 제공할 수 있다. 음성 및 소정 유형의 음악과 같은 신호는 높은 고조파 컨텐츠를 그리고 그에 따라 높은 PAR을 가질 수 있다. 그러나, 음성 코덱을 통해 처리된 음악 신호는 코딩 모델 불합치로 인해 뒤떨어진 품질을 초래할 수 있고, 그 결과, 코어 계층 출력 신호 스펙트럼은 입력 신호 스펙트럼에 비해 감소된 PAR을 가질 수 있다. 이 경우, 코어 계층 출력 오디오가 좀더 낮은 에너지로 이득 스케일링될 수 있게 함으로써 복합 출력 오디오에 대해 향상 계층 코딩이 좀더 두드러진 효과를 가질 수 있게 하기 위해, 최소화 처리에서의 바이어스양을 감소시키는 것이 유익할 수 있다. 반대로, 소정 유형의 음성 또는 음악 입력 신호가 좀더 낮은 PAR을 나타낼 수도 있는데, 이 경우에는, 신호가 좀더 시끄럽게 지각될 수 있으므로, 오차 바이어스를 증가시키는 것에 의해, 코어 계층 출력 오디오의 스케일링을 줄이는 것이 유익할 수 있다. β_j를 위한 바이어스 팩터를 발생시키기 위한 함수의 일례가 다음의 수학식 7로서 주어지는데,

여기에서, λ는 소정 임계치일 수 있고, 벡터(φ_y)를 위한 PAR은 다음의 수학식 8로서 주어질 수 있으며,

여기에서,

는

= y(k);k₁≤k≤k₂와 같은 y(k)의 벡터 서브세트이다.

수학식 6으로부터 최적 이득 지수(j^*)가 판정된 후, 관련 코드워드(i_g)가 발생되고 최적 오차 벡터(E^*)가 오차 신호 인코더(410)에 송신되는데, 여기에서 E^*는 (먹스(408)에 의한) 다른 코드워드와의 다중화에 적당한 형태로 코딩되고 해당 디코더에 의한 사용을 위해 전송된다. 바람직한 실시예에서, 오차 신호 인코더(408)는 FPC(Factorial Pulse Coding)를 사용한다. 이 방법은, 벡터(E^*)의 코딩과 연관된 열거 처리(enumeration process)가

를 발생시키는데 사용되는 벡터 발생 처리와 독립이므로, 처리 복잡도의 관점에서 유리하다.

향상 계층 디코더(416)는 이들 처리를 반전하여 향상 오디오 출력(

)을 생산한다. 좀더 구체적으로, i_g 및 i_E가 디코더(416)에 의해 수신되고, i_E는 코드워드로부터 최적 오차 벡터(E^*)가 유도되는 오차 신호 디코더(412)로 송신된다. 최적 오차 벡터(E^*)는, 수신된

이 수학식 2에서와 같이 변경되어

을 생산하는 신호 조합기(414)로 전달된다.

본 발명의 제2 실시예는 도 5에 표시된 바와 같은 다중-계층 임베디드 코딩 시스템을 수반한다. 여기에서는, 이 일례를 위해 5개의 임베디드 계층이 존재한다는 것을 알 수 있다. 계층 1 및 계층 2 모두는 음성 코덱 기반일 수 있고, 계층 3, 계층 4, 및 계층 5는 MDCT 향상 계층일 수 있다. 따라서, 인코더(502 및 503)는 인코딩된 입력 신호(s(n))를 생산하고 출력하는데 음성 코덱을 이용할 수 있다. 인코더(510, 512, 및 514)는, 인코딩된 신호에 대해 상이한 향상을 각각 출력하는 향상 계층 인코더들을 구비한다. 선행 실시예와 유사하게, 계층 3(인코더(510))을 위한 오차 신호 벡터는 다음의 수학식 9로서 주어질 수 있는데,

여기에서, S = MDCT{Ws}는 가중된 변환 입력 신호이고, S₂ = MDCT{Ws₂}는 계층 1/2 디코더(506)로부터 발생되는 가중된 변환 신호이다. 이 실시예에서, 계층 3은 저속 양자화 계층(low rate quantization layer)일 수 있고, 그에 따라, 양자화된 대응 오차 신호(

=Q{E₃})를 코딩하기 위한 비교적 적은 수의 비트가 존재할 수 있다. 이러한 제약 조건하에서 우수한 품질을 제공하기 위해, E₃내의 계수 중 일부만이 양자화될 수 있다. 코딩될 계수의 위치는 고정될 수도 있고 가변적일 수도 있지만, 변경될 수 있다면, 이 위치를 식별하기 위해 디코더로 추가 정보를 송신할 것이 요구될 수 있다. 예를 들어, 코딩된 위치의 범위가 k_s에서 시작해 k_e에서 끝난다면(0 ≤ k_s < k_e < N), 양자화된 오차 신호 벡터(

)는 그 범위내에서만 0이 아닌 값을 그리고 그 범위를 벗어난 위치에 대해서는 0을 포함할 수 있다. 위치 및 범위 정보는, 사용되는 코딩 방법에 따라, 암시적일 수도 있다. 예를 들어, 오디오 코딩에서는, 주파수 대역이 지각적으로 중요하게 간주될 수 있다는 것과 신호 벡터의 코딩이 그 주파수에 집중할 수 있다는 것이 잘 알려져 있다. 이러한 환경에서, 코딩된 범위는 가변적일 수 있고, 주파수의 연속적인 세트에 미치지 않을 수도 있다. 그러나, 어떤 속도에서도, 이 신호가 양자화되고 나면, 코딩된 복합 출력 스펙트럼은 다음의 수학식 10으로서 구성될 수 있고,

코딩된 복합 출력 스펙트럼은 이후에 계층 4 인코더(512)의 입력으로서 사용된다.

계층 4 인코더(512)는 선행 실시예의 향상 계층 인코더(406)와 유사하다. 이득 벡터 후보(g_j)를 사용해, 해당 오차 벡터는 다음의 수학식 11로서 설명될 수 있는데,

여기에서, G_j는 벡터(g_j)를 대각 성분으로 갖춘 이득 행렬일 수 있다. 그러나, 현재의 실시예에서, 이득 벡터(g_j)는 양자화된 오차 신호 벡터(

)와 다음의 방식으로 관련될 수 있다. 양자화된 오차 신호 벡터(

)는, 예를 들어, 벡터 위치(k_s)에서 시작해 벡터 위치(k_e)에서 끝나는 것과 같이, 주파수 범위에서 제한적일 수 있으므로, 계층 3 출력 신호(S₃)는 그 범위내에서 상당히 정확하게 코딩되는 것으로 추정된다. 따라서, 본 발명에 따르면, 이득 벡터(g_j)는 계층 3 오차 신호 벡터, k_s 및 k_e의 코딩된 위치에 기초해 조정된다. 좀더 구체적으로, 그 위치에서의 신호 무결성(signal integrity)을 보존하기 위해, 해당되는 개개 이득 요소는 상수값(α)으로 설정될 수 있다. 다시 말해, 다음의 수학식 12와 같은데,

여기에서, 일반적으로 0≤γ_j(k)≤1이고, g_j(k)는 j번째 후보 벡터의 k번째 위치에 대한 이득이다. 바람직한 실시예에서, 상수값은 1(α=1)이지만, 많은 값이 가능하다. 또한, 주파수 범위는 여러 시작 및 종료 위치에 미칠 수 있다. 다시 말해, 수학식 12는, 오차 신호(

)의 소정 함수에 기초하는, 가변 이득의 불연속적인 범위로 분할될 수 있고, 좀더 일반적으로 다음의 수학식 13으로서 기록될 수 있다.

이 일례의 경우, 앞서 양자화된 오차 신호(

)에서의 해당 위치가 0이 아닐 경우에는 고정 이득(α)이 g_j(k)를 발생시키는데 사용되고,

에서의 해당 위치가 0일 경우에는 이득 함수(γ_j(k))가 사용된다. 한가지 가능한 이득 함수가 다음의 수학식 14로서 정의될 수 있는데,

여기에서, Δ는 스텝 사이즈(step size;예를 들어, Δ

2.2 dB)이고, α는 상수이며, M은 후보의 수(예를 들어, 단 2개 비트만을 사용해 표현될 수 있는 M = 4)이고, k_l 및 k_h는, 각각, 이득 감소가 발생할 수 있는, 저주파수 및 고주파수 컷오프이다. 매개 변수(k_l 및 k_h)의 도입은, 소정 주파수 범위에 대해서만 스케일링이 필요한 시스템에서 유용하다. 예를 들어, 소정 실시예에서, 고주파수는 코어 계층에 의해 적절히 모델링되지 않을 수 있으므로, 고주파수 대역내의 에너지는 본질적으로 입력 오디오 신호에서의 에너지보다 낮을 수 있다. 그런 경우, 그 영역 신호에서의 계층 3 출력을 스케일링하는 것으로부터는 혜택을 거의 또는 전혀 누릴 수 없을 수도 있는데, 결과적으로 전체 오차 신호 에너지가 증가할 수 있기 때문이다.

요약하면, 복수개 이득 벡터 후보(g_j)가 앞서 코딩된 신호 벡터, 이 경우에는,

의 코딩된 요소에 대한 소정 함수에 기초한다. 이는 일반적으로 다음의 수학식 15로서 표현될 수 있다.

대응되는 디코더 연산은 도 5의 오른쪽에 표시된다. 코딩된 비트 스트림의 다양한 계층(i₁ 내지 i₅)이 수신되므로, 코어 계층(계층 1) 디코더에 비해 좀더 높은 품질의 출력 신호가 향상 계층의 계층 구조(hierarchy of enhancement layers)에 대해 구축된다. 다시 말해, 이러한 특정 실시예의 경우, 처음의 2개 계층은 시간 도메인의 음성 모델 코딩(예를 들어, CELP)으로 구성되고 나머지 3개 계층은 변환 도메인 코딩(예를 들어, MDCT)으로 구성되므로, 시스템을 위한 최종 출력(

)은 다음의 수학식 16에 따라 발생되는데,

여기에서,

는 계층 2의 시간 도메인 향상 계층 신호이고,

= MDCT{Ws₂}는 계층 2 오디오 출력(

)에 대응되는 가중된 MDCT 벡터이다. 이 표현에서, 전체 출력 신호(

)는, 수신되는 연속 비트-스트림 계층의 최고 레벨로부터 판정될 수 있다. 이 실시예에서는, 레벨 계층이 낮을수록 채널로부터 올바르게 수신되는 확률이 좀더 높다고 가정되므로, 코드워드 세트({i₁}, {i₁ i₂}, {i₁ i₂ i₃} 등)가 수학식 16에서의 향상 계층 디코딩의 적합한 레벨을 판정한다.

도 6은 계층 4 인코더(512) 및 디코더(522)를 표시하는 블록도이다. 도 6에 표시된 인코더 및 디코더는, 스케일링 유닛(601 및 618)에 의해 사용되는 이득값이, 각각, 주파수 선택적 이득 발생기(603 및 616)를 통해 유도된다는 것을 제외하면, 도 4에 표시된 것과 유사하다. 동작하는 동안, 계층 3 오디오 출력(S₃)이 계층 3 인코더로부터 출력되어 스케일링 유닛(601)에 의해 수신된다. 추가적으로, 계층 3 오차 벡터(

)가 계층 3 인코더(510)로부터 출력되어 주파수 선택적 이득 발생기(603)에 의해 수신된다. 논의된 바와 같이, 양자화된 오차 신호 벡터(

)가 주파수 범위에서 제한적일 수 있으므로, 이득 벡터(g_j)는, 예를 들어, 수학식 12에서 표시된 바와 같이 위치(k_s 및 k_e)에 기초해 또는 수학식 13에서의 좀더 일반적 표현에 기초해 조정된다.

스케일링된 오디오(S_j)가 스케일링 유닛(601)으로부터 출력되어 오차 신호 발생기(602)에 의해 수신된다. 앞서 논의된 바와 같이, 오차 신호 발생기(602)는 입력 오디오 신호(S)를 수신하고 스케일링 유닛(601)에 의해 이용되는 스케일링 벡터 각각에 대한 오차값(E_j)을 판정한다. 이들 오차 벡터는 최적 이득값(g^*)에 기초한 오차 벡터 및 특정 오차(E^*)를 판정하는데 사용되는 이득값과 함께 이득 선택기 회로(604)로 전달된다. 최적 이득(g^*)을 표현하는 코드워드(i_g)가, 최적 오차 벡터(E^*)와 함께, 이득 선택기(604)로부터 출력되고, 최적 오차 벡터(E^*)는, 코드워드(i_E)가 판정되고 출력되는 인코더(610)로 전달된다. i_g 및 i_E 양자는 다중화기(608)로 출력되고 채널(110)을 통해 계층 4 디코더(522)로 전송된다.

계층 4 디코더(522)의 동작 동안, i_g 및 i_E가 수신되고 역다중화된다. 이득 코드워드(i_g) 및 계층 3 오차 벡터(

)는 주파수 선택적 이득 발생기(616)의 입력으로 사용되어 인코더(512)의 대응되는 방법에 따라 이득 벡터(g^*)를 생산한다. 그 다음, 이득 벡터(g^*)는 스케일링 유닛(618)내의 재구성된 계층 3 오디오 벡터(

)에 적용된 다음, 스케일링 유닛(618)의 출력은, 코드워드(i_E)의 디코딩을 통해 오차 신호 디코더(612)로부터 획득된 계층 4 향상 계층 오차 벡터(E^*)와 조합되어 재구성된 계층 4 오디오 출력(

)을 생산한다.

도 7은 본 발명의 제1 및 제2 실시예에 따른 인코더의 동작을 표시하는 흐름도이다. 앞서 논의된 바와 같이, 양자의 실시예는, 인코딩된 오디오를 복수개 스케일링 값으로 스케일링한 다음 최저 오차를 초래하는 스케일링 값을 선택하는 향상 계층을 이용한다. 그러나, 본 발명의 제2 실시예에서는, 주파수 선택적 이득 발생기(603)가 이득 값을 발생시키는데 이용된다.

논리 흐름은, 코어 계층 인코더가 코딩될 입력 신호를 수신하고 입력 신호를 코딩하여 코딩 오디오 신호를 생산하는 단계 701에서 시작한다. 향상 계층 인코더(406)는 코딩 오디오 신호(s_c(n))를 수신하고 스케일링 유닛(401)은 코딩 오디오 신호를 복수개 이득값으로 스케일링하여, 각각이 연관된 이득값을 갖는 복수개의 스케일링된 코딩 오디오 신호를 생산한다(단계 703). 단계 705에서는, 오차 신호 발생기(402)가 입력 신호와 복수개의 스케일링된 코딩 오디오 신호 사이에 존재하는 복수개 오차값을 판정한다. 그 다음에는, 이득 선택기(404)가 복수개 이득값으로부터 이득값을 선택한다(단계 707). 앞서 논의된 바와 같이, 이득값(g^*)은, 입력 신호와 스케일링된 코딩 오디오 신호 사이에 존재하는 낮은 오차값(E^*)을 초래하도록, 스케일링된 코딩 오디오 신호와 연관된다. 마지막으로, 단계 709에서는, 전송기(418)가 이득값(g^*)과 함께 낮은 오차값(E^*)을 코딩 오디오 신호에 대한 향상 계층의 일부로서 전송한다. 당업자라면, E^*와 g^* 모두가 전송 이전에 적절히 인코딩된다는 것을 알 수 있을 것이다.

앞서 논의된 바와 같이, 수신기측에서는, 코딩 오디오 신호가 향상 계층과 함께 수신될 것이다. 향상 계층은, 이득값(g^*) 및 이득값과 연관된 오차 신호(E^*)를 구비하는, 코딩 오디오 신호에 대한 향상이다.

특정 실시예를 참조하여 본 발명이 구체적으로 표시되고 설명되었지만, 당업자라면, 본 발명의 정신 및 범위를 벗어나지 않으면서 형태 및 세부 사항에서의 다양한 변경이 이루어질 수 있다는 것을 이해할 수 있을 것이다. 예를 들어, 상기 기술은 통신 시스템에서 채널을 통해 전송하고 수신하는 관점으로 설명되지만, 이들 기술은, 솔리드-스테이트 메모리 장치 또는 컴퓨터 하드 디스크와 같은, 디지털 미디어 장치에 대한 저장 요구 사항을 감소시킬 목적으로 신호 압축 시스템을 사용하는 시스템에도 동일하게 적용될 수 있다. 그러한 변화는 다음 청구항의 범위내에 해당될 것이다.

Claims

오디오 인코더가 신호의 코딩을 임베드(embed)하는 방법으로서,
상기 오디오 인코더가, 코딩될 입력 신호를 수신하는 단계;
상기 오디오 인코더가, 상기 입력 신호를 코딩하여 재구성(reconstructed) 오디오 신호를 생산하는 단계;
상기 오디오 인코더가, 상기 재구성 오디오 신호를 복수개 이득값으로 스케일링하여, 각각이 연관된 이득값을 갖는 복수개의 스케일링된 재구성 오디오 신호를 생산하는 단계;
상기 오디오 인코더가, 상기 입력 신호 및 상기 복수개의 스케일링된 재구성 오디오 신호 각각에 기초해 복수개 오차값을 판정하는 단계;
상기 오디오 인코더가, 상기 복수개 오차값에 기초해 상기 복수개 이득값으로부터 이득값을 선택하는 단계; 및
상기 오디오 인코더가, 상기 이득값을 코딩된 오디오 신호에 대한 향상 계층(enhancement layer)의 일부로서 전송하거나 저장하는 단계
를 포함하는, 오디오 인코더가 신호의 코딩을 임베드하는 방법.
제1항에 있어서,
상기 복수개 이득값은 주파수 선택적 이득값들(frequency selective gain values)을 포함하는, 오디오 인코더가 신호의 코딩을 임베드하는 방법.
제1항에 있어서,
상기 복수개 이득값은 앞서 인코딩된 신호 계층의 함수인 오디오 인코더가 신호의 코딩을 임베드하는 방법.
삭제
삭제
오디오 디코더가 코딩된 오디오 신호 및 상기 코딩된 오디오 신호에 대한 향상을 수신하는 방법으로서,
상기 오디오 디코더가, 상기 코딩된 오디오 신호를 수신하는 단계;
상기 오디오 디코더가, 상기 코딩된 오디오 신호에 대한 향상을 수신하는 단계 - 상기 코딩된 오디오 신호에 대한 향상은 이득값 및 상기 이득값과 연관된 오차 신호를 포함하고, 상기 이득값은 송신기에 의해 복수개 이득값으로부터 선택되고, 상기 이득값은 오디오 신호와 스케일링된 재구성 오디오 신호 사이에 존재하는 특정 오차값을 초래하는 상기 스케일링된 재구성 오디오 신호와 연관됨 - ; 및
상기 오디오 디코더가, 상기 이득값 및 상기 오차값에 기초해 상기 코딩된 오디오 신호를 향상시키는 단계
를 포함하고,
상기 이득값은 주파수 선택적 이득값을 포함하고,
상기 주파수 선택적 이득값들은,

이고,
여기에서, 일반적으로 0≤
≤1이고 g_j(k)는 j번째 후보 벡터의 k번째 위치의 이득인, 오디오 디코더가 코딩된 오디오 신호 및 상기 코딩된 오디오 신호에 대한 향상을 수신하는 방법.
코딩될 입력 신호를 수신하고 상기 입력 신호를 코딩하여 재구성 오디오 신호를 생산하는 인코더;
상기 재구성 오디오 신호를 복수개 이득값으로 스케일링하여, 각각이 연관된 이득값을 갖는 복수개의 스케일링된 재구성 오디오 신호를 생산하는 스케일링 유닛;
상기 입력 신호와 상기 복수개의 스케일링된 재구성 오디오 신호 각각 사이에 존재하는 복수개 오차값을 판정하는 오차 신호 발생기;
상기 복수개 이득값으로부터 이득값을 선택하는 이득 선택기 - 상기 이득값은 상기 입력 신호와 상기 스케일링된 재구성 오디오 신호 사이에 존재하는 상기 복수개 오차값에 기초하여 선택됨 - ; 및
상기 선택된 이득값을 코딩된 오디오 신호에 대한 향상 계층의 일부로서 전송하는 송신기
를 포함하는 장치.
제7항에 있어서,
상기 복수개 이득값은 주파수 선택적 이득값들을 포함하는 장치.
제8항에 있어서,
상기 주파수 선택적 이득값들은,

이고,
여기에서, 일반적으로 0≤≤1이고 g_j(k)는 j번째 후보 벡터의 k번째 위치의 이득인 장치.
삭제
삭제
디코더가 다중-계층 인코딩된 오디오 신호를 디코딩하는 방법으로서,
상기 디코더가, 제1 신호 디코더로부터 제1 재구성 오디오 벡터(
)를 수신하는 단계;
상기 디코더가, 제1 향상 계층 디코더로부터 제1 주파수 도메인 오차 벡터(
)를 수신하는 단계;
상기 디코더가, 적어도 상기 제1 주파수 도메인 오차 벡터에 기초해 주파수 선택적 이득 벡터(g^*)를 발생시키는 단계;
상기 디코더가, 상기 제1 재구성 오디오 신호를 상기 주파수 선택적 이득 벡터로 스케일링하여 스케일링된 재구성 오디오 신호를 생산하는 단계;
상기 디코더가, 제2 향상 계층 디코더에게 입력하기 위한 코드워드(i_E)를 수신하여 제2 향상 계층 오차 벡터(E^*)를 생산하는 단계; 및
상기 디코더가, 상기 스케일링된 재구성 오디오 신호를 상기 제2 향상 계층 오차 벡터와 조합하여 디코딩된 다중-계층 오디오 신호 출력(
)을 생산하는 단계
를 포함하는 신호 디코딩 방법.
제12항에 있어서,
상기 주파수 도메인은 MDCT 도메인을 포함하는 신호 디코딩 방법.
제12항에 있어서,
상기 주파수 선택적 이득 벡터를 발생시키는 단계는,
이득 코드워드(i_g)를 수신하는 단계; 및
상기 이득 코드워드 및 상기 제1 주파수 도메인 오차 벡터에 기초해 상기 주파수 선택적 이득 벡터를 발생시키는 단계
를 더 포함하는 신호 디코딩 방법.
제12항에 있어서,
상기 주파수 선택적 이득 벡터는 g_j(k)를 포함하며, 상기 g_j(k)는 j번째 후보 벡터의 k번째 주파수 성분의 이득인 신호 디코딩 방법.