KR101049751B1

KR101049751B1 - 오디오 코딩

Info

Publication number: KR101049751B1
Application number: KR1020057014729A
Authority: KR
Inventors: 더크 제이. 브리이브아아트; 아르놀두스 더블유. 제이. 오오멘
Original assignee: 코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date: 2003-02-11
Filing date: 2004-02-09
Publication date: 2011-07-19
Also published as: WO2004072956A1; JP2006518482A; DE602004002390D1; EP1595247A1; CN1748247B; EP1595247B1; ES2273216T3; US7181019B2; US8831759B2; US20070127729A1; CN1748247A; JP4431568B2; DE602004002390T2; US20060147048A1; ATE339759T1; KR20050095896A

Abstract

파라메트릭 스테레오 코더들은 입력 신호의 인식할 수 있게 관련된 파라미터들을 사용하여 공간 특성들을 설명한다. 이들 파라미터들 중 한 파라미터는 입력 신호들(ITD 또는 IPD) 간의 위상차이다. 이 시간 차는 이들 시간차들이 디코더에서 출력 신호들에 걸쳐서 분할되어야만 되는지에 대한 어떠한 정보 없이도, 입력 신호들 간의 상대 시간차 만을 결정한다. 부가적인 파라미터는 ITD 또는 IPD가 출력 채널들간에 분포되는 방법을 설명하는 인코딩된 신호에 포함된다. 이 목표를 위하여, 계산된 모노럴 신호 및 입력 신호들 중 한 신호 간의 지연이 사용된다.

파라메트릭 스테레오 코더, 합 신호 발생기, 윈도우 스위칭 플래그, 합성기, 비트스트림

Description

오디오 코딩{Audio coding}

본 발명은 오디오 코딩에 관한 것이다.

오디오 신호들의 파라메트릭 디스크립션들(parametric descriptions)은 특히 오디오 코딩 분야에서 계속적으로 관심 받아 왔다. 오디오 신호들을 설명하는 전송(양자화된) 파라미터들은 수신단에서 인지할 수 있게 동일한 신호를 재동기화하는 전송 성능을 거의 필요로 하지 않는다는 것이 알려져 왔다. MPEG-LII, mp3, 및 AAC(MPEGE-2 Advanced Audio Coding)와 같은 통상적인 파형 기반으로 한 오디오 코딩 방식들에서, 스테레오 신호들은 2개의 모노럴 오디오 신호들을 1비트 스트림으로 인코딩함으로써 인코딩된다. 이는 각 채널을 명백하게 인코딩하지만, 신호 채널을 인코딩하는데 필요로 되는 데이터를 2배로 하는 것을 필요로 한다.

많은 경우들에서, 2개의 채널들에 의해 반송된 내용은 주로 모노럴이다. 그러므로, 미드/사이드 스테레오 코딩 및 강도 코딩(intensity coding)과 같은 기술들과의 무관계성 및 채널간 상관을 사용하여, 비트 레이트를 절약하였다. 본 발명이 관계하는 인코딩 방법들은 채널들 중 하나의 채널을 완전히 코딩 및 다른 채널이 완전히 코딩된 채널로부터 유도될 수 있는 방법에 대한 파라메트릭 디스크립션을 코딩하는 것을 포함한다. 그러므로, 디코더에서, 통상적으로 2개의 상이한 출력 채널들을 얻도록 수정되어야만 되는 단일 오디오 신호가 이용될 수 있다. 특히, 제 2 채널을 설명하도록 사용되는 파라미터들은 채널간 시간차들(ITDs), 채널간 위상 차(IPD) 및 채널간 레벨차들(ILDs)을 포함할 수 있다.

EP-A-1107232 호는 인코딩된 신호가 좌 채널 및 우 채널입력 신호중 한 신호로부터 유도되는 정보 및 입력 신호들 중 다른 한 신호를 복구하는 파라메트릭 정보를 포함하는 스테레오 신호를 인코딩하는 방법을 설명한다.

상술된 참조문헌들에 서술된 바와 같은 파라메트릭 표현들에서, ITDs는 입력 채널들간의 위상 또는 시간 차를 표시한다. 그러므로, 디코더는 인코딩된 채널의 내용을 고려하여 ITDs에 의해 제공된 위상 차를 생성함으로써 비인코딩된 채널을 발생시킬 수 있다. 이 공정은 어느 정도의 자유롭다. 예를 들어, 단지 하나의 출력 채널(즉, 인코딩되지 않은 채널)은 규정된 위상 차로 수정될 수 있다. 대안적으로, 인코딩된 출력 채널은 규정된 위상 차로 수정될 수 있다. 제 3 예에서, 규정된 위상 차의 1/2을 한 채널에 적용할 수 있고 규정된 위상차의 -1/2을 다른 채널에 적용할 수 있다. 단지 위상차 만이 규정되어 있기 때문에, 두 채널들의 위상 시프트면에서 오프셋(또는 분포)은 고정되지 않는다. 이것이 디코딩된 음의 공간 품질에 대해서 문제가 되지 않지만, 이는 가청 아티팩트들을 발생시킬 수 있다. 이들 아티팩트들은 전체 위상 시프트가 임의적이기 때문에 발생된다. 임의의 한 인코딩 타임프레임에서 출력 채널들 중 하나 또는 두 채널에 대한 위상 수정은 이전 프레 임의 위상 수정과 호환되지 않을 수 있다. 본 출원인들은 디코더에서 정확한 전체 위상 시프트를 정확하게 예측하는 것이 곤란하였고 이전 프레임의 위상 수정에 따라서 위상 수정들을 억제하는 방법이 이미 설명되었다는 것을 발견하였다. 이는 양호하게 작업하도록 하는 문제에 대한 해법이지만, 이 문제의 원인을 제거하지는 못한다.

상술된 바와 같이, 규정된 위상 및 시간 시프트가 디코더 레벨에서 2개의 출력 채널들에 걸쳐서 분포되어야 하는지를 결정하는 것은 매우 어렵다. 디코더에서, 모노 신호 성분이 신호 사인곡선으로 이루어졌다라고 추정하자. 게다가, 이 사인곡선을 위한 ITD 파라미터는 시간에 걸쳐서 (즉, 분석 프레임에 걸쳐서) 선형적으로 증가한다. 이 예에서, 우리는 IPD가 ITD의 단지 선형 변환이라는 점을 염두에 두고서, IPD에 초점을 맞출 것이다. IPD는 단지 구간[-π: π]에서 만 정의된다. 도1은 시간 함수로서 IPD를 도시한 것이다.

제 1 신호에서, 이는 매우 이론적인 예를 도시하였지만, 이와 같은 IPD 작용은 종종 오디오 기록들(예를 들어, 좌 및 우 채널들에서 음들의 주파수가 몇 Hz 만큼 상이하게 되는 경우)에서 발생한다. 디코더의 이 기본적인 작업은 신호 입력 신호를 벗어난 2개의 출력들을 발생시킨다. 이들 출력 신호들은 IPD 파라미터들 충족하여야만 한다. 이는 2개의 출력 신호들에 단일 입력 신호를 복제하고 이 출력 신호들의 위상들을 개별적으로 수정함으로써 수행될 수 있다. 채널들 양단의 IPD의 대칭적인 분포를 추정하면, 이는 좌 출력 채널이 +IPD/2 만큼 수정되는 반면에, 우 출력 채널은 -IPD/2 만큼 위상-회전된다. 그러나, 이 방법은 시간(t)에서 발생되는 위상 점프에 의해 초래되는 명백한 가청 아티팩트들을 야기한다. 이는 도2와 관련하여 이해될 수 있는데, 이 도면에 위상 점프 발생 직전의 특정 시간 인스턴스(t-) 위상 점프 직후의 (t+)에서 좌 및 우 출력 채널들 상에 나타나는 위상 변화가 도시되어 있다. 모노 입력 신호에 대한 위상 변화들은 복소 벡터들(즉, 출력 및 입력 신호들 간의 각도가 각 출력 채널의 위상-변화를 도시한다)로서 도시되어 있다.

시간(t)에서 위상 점프 직전 및 직후의 출력 신호들 간의 큰 위상 불일치성이 존재한다는 것을 알수 있을 것이다. 즉, 각 출력 채널의 벡터가 거의 π라디안 만큼 회전된다. 출력들의 다음 프레임들이 중첩-가산(overlap-add)에 의해 결합되면, 위상 점프 직전 및 직후 출력 신호들의 중첩 부분들은 서로 소거된다. 이는 출력에서 클릭형 아티팩트들(click-like artifacts)을 발생시킨다. 이들 아티팩트들은 IPD 파라미터가 2π의 주기로 순환되기 때문에 발생되지만, IPD가 채널들 양단에 분포되면, 각 개별적인 신호의 위상-변화는 2π보다 작은 주기로 순환된다(IPD가 대칭적으로 분포되면, 위상 변화는 π의 주기로 순환된다). 따라서, 각 채널에서 위상 변화의 실제 주기는 채널들 양단의 IPD의 분포 방법에 좌우되지만, 2π보다 작게되어, 디코더에서 중첩-가산 문제들을 야기시킨다.

상기 예는 상대적으로 간단한 경우이지만, 우리는 복소 신호들(동일한 위상-수정 주파수 대역 내의 더 많은 주파수 성분들 및 시간에 걸쳐서 IPD 파라미터의 더 많은 복소 작용을 가짐)에 대해서, 출력 채널들 양단에 정확한 IPD 분포를 찾는 것이 매우 어렵다는 것을 발견하였다.

인코더에서, 채널 양단에 IPD를 분포시키는 방법을 규정하는 정보가 이용될 수 있다. 그러므로, 본 발명의 목적은 인코딩된 신호의 크기에 상당한 부가함이 없이 인코딩된 신호에서 이 정보를 유지하는 것이다.

이를 위하여, 본 발명은 본 명세서의 독립항들에 서술된 바와 같은 인코더 및 관련된 항목들을 제공한다.

채널간 시간차(ITD) 또는 위상차(IPD)는 2개의 입력 채널들 간의 상대 시간 시프트를 토대로 추정된다. 다른 한편으로, 전체 시간 시프트(OTD) 또는 전체 위상 시프트(OPD)는 전체 인코딩된 모노럴 출력 신호 및 입력 신호들 중 한 신호 간의 최적 매칭 지연(또는 위상)에 의해 결정된다. 그러므로, 인코더 레벨에서 OTD(OPD)를 분석하고 이 값을 파라미터 비트스트림에 부가하는 것이 간편하다.

이와 같은 시간차 인코딩의 장점은 OTD(OPD)가 매우 적은 비트들 만으로 인코딩될 필요가 있다는 것인데, 그 이유는 청각 시스템이 (비록 스테레오 청각 시스템이 ITD 변화들에 매우 민감할지라도)전체 위상 변화들에 상대적으로 민감하지 않기 때문이다.

상술된 문제에 대해서, OPD는 도3에 도시된 바와 같은 작용을 갖는다.

여기서, OPD는 기본적으로, 시간에 걸쳐서 좌 채널의 위상 변화를 설명하는 반면에, 우 채널의 위상-변화는 OPD (t)- IPD (t)에 의해 제공된다. 2개의 파라미터들(OPD 및 IPD)이 2π의 주기로 순환되기 때문에, 독립 출력 채널들의 이 결과의 위상 변화들은 또한 2π의 주기로 순환된다. 따라서, 두 출력 채널들의 이 결과의 위상 변화들은 입력 신호들에 제공되지 않는 위상 불연속성들을 나타내지 않는다.

이 예에서, OPD는 좌 채널의 위상 변화를 설명하는 반면에, 우 채널은 그 후에 IPD를 사용하는 좌 채널로부터 유도되는 것이라는 점에 유의하여야 한다. 이들 파라미터들의 다른 선형 조합들은 원리적으로 전송을 위하여 사용될 수 있다. 간단한 예는 OPD로 우 출력 채널의 위상 변화를 설명하기 위한 것이고 OPD 및 IPD를 사용하여 좌 채널의 위상 변화를 유도하는 것이다. 본 발명의 중요한 문제는 한 쌍의 시변 합성 필터들을 효율적으로 설명하는 것인데, 여기서 출력 채널들 간의 위상차는 하나의(값비싼) 파라미터로 설명되고 위상 변화들의 오프셋은 다른(훨씬 더 값싼) 파라미터로 설명된다.

본 발명의 실시예들이 지금부터 예로서 그리고 첨부 도면을 참조하여 상세하게 설명될 것이다.

도 1은 시간에 걸쳐서 선형적으로 증가하고 이미 서술된 IPD의 영향을 도시한 도면.

도 2는 IPD 파라미터에서 위상 점프 (t-, 좌 패널) 직전 및 (t+, 우 패널) 직후 그리고 이미 서술된 입력 채널에 대한 출력 채널들(L 및 R)의 위상 변화를 도시한 도면.

도 3은 선형적으로 증가하는 IPD 경우 및 이미 서술된 OPD 파라미터를 도시한 도면.

도 4는 본 발명을 구체화하는 인코더의 하드웨어 블록도.

도 5는 본 발명을 구체화하는 디코더의 하드웨어 블록도.

도 6은 멀티-채널 층의 대응하는 프레임들 및 모노럴 신호의 각 서브-프레임들에서 인코딩되는 전이 위치들을 도시한 도면.

실시예의 개요

본 발명의 실시예에서 공간 파라미터 발생 스테이지는 자신의 입력으로서 3개의 신호들을 취한다. 이들 신호들 중 제 1의 2개 신호(L 및 R)는 스테레오 쌍의 좌 및 우 채널들에 대응한다. 채널들 각각은 이 기술 분야에서의 종래 기술처럼, 예컨대, 필터뱅크 또는 주파수 변환을 사용하여 다수의 시간-주파수 타일(tile)들로 분할된다. 인코더로의 부가적인 입력은 다른 신호들(L, R)의 합인 모노럴 신호(S)이다. 이 신호(S)는 다른 신호들(L 및 R)의 모노럴 조합이고 다른 입력 신호들과 동일한 시간 주파수 분리를 갖는다. 인코더의 출력은 비트스트림을 디코딩시 디코더에 의해 사용되는 공간 파라미터들과 함께 모노럴 오디오 신호(S)를 포함하는 비트스트림이다.

그 후, 인코더는 L 및 R 입력 신호들 간의 시간 지연을 결정함으로써 채널간 시간 차(ITD)를 계산한다. 시간 지연은 입력 신호들 L(t, f) 및 R(t, f)의 대응하는 시간/주파수 타일들 간의 교차-상관 함수(cross-correlation function)에서의 최대값에 대응하며,

ITD = arg (max(ρ(L,R)))

이다. 여기서 ρ(L,R)은 입력 신호들 L(t, f) 및 R(t, f) 간의 교차 상관 함수를 나타낸다.

전체 시간 시프트(OTD)는 2가지 다른 방식들, 즉 합 신호(S) 및 입력 신호(L)간의 시간차 또는 합 신호(S) 및 우 입력 신호(R) 간의 시간차로서 정의될 수 있다. 이는 보다 강한(즉, 더 높은 에너지) 입력 신호에 대한 OTD를 측정하는 것이 간편한데, 이는 다음과 같이 주어진다.

if

,

OTD = arg (max(ρ(L, S)));

else

OTD = arg (max(ρ(R, S)));

end

다음에, OTD 값들은 양자화되어 비트스트림에 부가된다. π/8 라디안 정도의양자화 에러가 수용될 수 있다는 것이 밝혀졌다. 이는 ITD 값들에 대해서 수용가능한 에러와 비교하여 상대적으로 큰 양자화 에러이다. 그러므로, 공간 파라미터 비트스트림은 ILD, ITD 및 OTD와 일부 또는 전체 주파수 대역들에 대한 상관값을 포함한다. ITD 값이 전송되는 이들 주파수 대역들만이 필요로 되는 OTD라는 점에 유의하라.

디코더는 ITD, OTD 및 ILD를 토대로 한 출력의 필요한 위상 수정을 결정하여, 좌 채널(TSL) 및 우채널(TSR)에 대해 시간 시프트를 발생시킨다:

if ILD >0 (이는

을 의미한다),

TSL = OTD ;

TSR = OTD - ITD ;

else

TSL = OTD + ITD ;

TSR = OTD ;

end

실시예의 구현에 대한 상세 설명들

완전한 오디오 코더는 입력으로서 2개의 아날로그 시변 오디오 주파수 신호를 취하며, 이들 신호들을 디지털화하며, 모노럴 합 신호를 발생시키고 나서 코딩된 모노럴 신호 및 공간 파라미터들을 포함하는 출력 비트스트림을 발생시키는 것을 이해할 것이다. (대안적으로, 입력은 2개의 이미 디지털화된 신호들로부터 유도될 수 있다). 당업자는 공지된 기술들을 사용하여 이하의 대부분을 구현할 수 있다는 것을 인지할 것이다.

분석 방법들

일반적으로, 인코더(10)는 각 입력 신호(L, R)를 16개의 서브밴드 신호들로 분할하는 각 변환 모듈들(20)을 포함한다(바람직하게는 주파수가 증가되는 대역폭을 갖는다). 이 바람직한 실시예에서, 모듈들(20)은 시간/주파수 슬라이싱을 수행하기 위한 변환 동작보다 앞서 시간-윈도우잉을 사용하지만, 시간 연속 방법들이 또한 사용될 수 있다(예를 들어, 필터뱅크들).

합 신호(12)의 결정 및 파라미터들(14)의 추출을 위한 다음 단계는 분석 모듈(18) 내에서 실행되고,

대응하는 16개의 서브-밴드 신호들의 레벨 차(ILD)를 구하는 단계,

대응하는 16개의 서브 밴드 신호들의 시간 차(ITD 또는 IPD)를 구하는 단계, 및

ILDs 또는 ITDs에 의해 고려될 수 없는 파형들의 유사성 및 비유사성의 양을 설명하는 단계를 포함한다.

ILD 들의 분석

ILD는 소정 주파수 대역에 대해서 특정 시간에서 신호들의 레벨 차로 결정된다. ILD를 결정하는 한 가지 방법은 2개의 입력 채널들의 대응하는 주파수 대역의 rms 값을 측정하여 이들 rms 값들(바람직하게는 dB로 표현됨)의 비를 계산한다.

ITD 들의 분석

ITD들은 두 채널들의 파형들 간의 최적의 정합을 제공하는 시간 또는 위상 정렬에 의해 결정된다. ITD를 얻는 한 가지 방법은 2개의 대응하는 서브밴드 신호들 간의 교차 상관 함수를 계산하여 최대값을 찾는 것이다. 교차 상관 함수에서 이 최대값에 대응하는 지연은 ITD 값으로서 사용될 수 있다.

제 2 방법은 좌 및 우 서브밴드(즉, 위상 및 인벨롭 값들을 계산)의 분석 신호들을 계산하고 IPD 파라미터로서 채널들 간의 위상차를 사용한다. 여기서, 복소 필터뱅크(예를 들어, FFT)가 사용되고, 특정 빈(주파수 영역)에서 찾음으로써, 위 상 함수는 시간에 걸쳐서 유도될 수 있다. 좌 및 우 채널 둘 다에 대해 이를 행함으로써, 위상차(IPD)(오히려 2개의 필터링된 신호를 교차 상관시킴)가 추정될 수 있다.

상관 분석

이 상관은 대응하는 서브밴드 신호들 간에 최적의 정합을 제공하는 ILD 및 ITD를 우선 찾은 다음 ITD 및/또는 ILD를 보상한 후 파형들의 유사성을 측정함으로써 얻어진다. 따라서, 이 프레임워크에서, 이 상관은 ILDs 및/또는 ITDs로 인한 것이 아닐 수 있는 대응하는 서브밴드 신호들의 유사성 또는 비유사성으로서 정의된다. 이 파라미터에 대한 적절한 측정은 코히어런스인데, 이는 지연들의 세트 양단에서의 교차 상관 함수의 최대값이다. 그러나, 대응하는 서브밴드들(또한 ILDs 및/또는 ITDs를 보상하는 것이 바람직하다)의 합 신호들과 비교되는 ILD 및/또는 ITD 보상 후 차신호의 상대 에너지와 같은 다른 측정들이 또한 사용될 수 있다. 이 차 파라미터는 근본적으로, (최대) 상관의 선형 변환이다.

파라미터 양자화

파라미터들의 전송의 중요한 문제는 파라미터 표현(즉, 양자화 에러들의 크기)의 정확도인데, 이는 필요한 전송 용량 및 오디오 품질과 직접 관계된다. 이 장에서, 공간 파라미터들의 양자화에 대한 여러 문제들이 논의될 것이다. 기본적인 개념은 소위 공간 큐들(spatial cues)의 정확히-인식가능한 차들(JNDs)을 토대로 한 양자화 에러들이다. 더욱 명확하게 하면, 양자화 회로는 파라미터들의 변화들에 대한 인간 청각 시스템의 감도에 의해 결정된다. 파라미터들의 변화들에 대한 감도 는 파라미터들 자체의 값들에 강하게 좌우되기 때문에, 다음 방법들이 이산 양자화 단계들에 적용된다는 것이 널리 공지되어 있다.

ILDs 의 양자화

IID에서 변화들에 대한 감도는 ILD 자체에 좌우된다는 것이 사이코아쿠스틱 연구로부터 알려졌다. ILD가 dB로 표현되면, 0dB의 기준으로부터 대략 1dB의 편차들이 검출될 수 있는 반면에, 3dB 정도의 변화들은 기준 레벨 차가 20dB에 이른 경우 필요로 된다. 그러므로, 양자화 에러들은 좌 및 우 채널들의 신호들이 보다 큰 레벨 차를 갖는 경우 더욱 크게될 수 있다. 예를 들어, 이는 우선 얻어진 레벨 차의 비선형(압축) 변환 보다 앞서서 그리고 선형 양자화 공정 다음에 채널들 간의 레벨 차를 측정하거나 비선형 분포를 갖는 이용가능한 ILD 값들에 대한 룩업 테이블을 사용함으로써 적용될 수 있다. 바람직한 실시예에서, ILDs(dB)는 다음 세트 I중에서 최근접 값으로 양자화된다.

I=[-19 -16 -13 -10 -8 -6 -4 -2 0 2 4 6 8 10 13 16 19]

ITDs 의 양자화

인간 피험자들(human subjects)의 ITDs의 변화들에 대한 감도는 일정한 위상 임계값을 갖는 것으로서 특징지울 수 있다. 이는 지연 시간과 관련하여, ITD에 대한 양자화 단계들이 주파수에 의해 감소된다는 것을 의미한다. 대안적으로, ITD가 위상차들의 형태로 표시되면, 양자화 단계들은 주파수와 무관하게 되어야만 된다. 이를 구현하는 한 가지 방법은 양자화 단계로서 고정된 위상차를 취해야만 학 각 주파수 대역에 대해 대응하는 시간 지연을 결정한다. 그 후, 이 ITD 값은 양자화 단계로서 사용된다. 바람직한 실시예에서, ITD 양자화 단계들은 0.1라디안들(rad)의 각 서브밴드에서 일정한 위상차로 결정된다. 따라서, 각 서브밴드에 대해서, 서브밴드 중심 주파수의 0.1rad에 대응하는 시간차가 양자화 단계로서 사용된다.

다른 방법은 주파수-독립 양자화 방식을 따르는 위상차들을 전송하는 것이다. 특정 주파수를 초과하면, 인간 청각 시스템은 미세 구조의 파형들에서 ITDs에 대해 감응하지 않는다는 것이 또한 알려져 왔다. 이 현상은 최대 특정 주파수(통상적으로 2kHz)까지 ITD 파라미터들 만을 전송함으로써 사용된다.

비트스트림 감소의 제 3 방법은 동일한 서브밴드의 ILD 및/또는 상관 파라미터들에 따른 ITD 양자화 단계들을 포함한다. 큰 ILDs에 대해서, ITDs는 ef 정확하게 코딩될 수 있다. 게다가, 상관이 매우 낮으면, ITD의 변화에 대한 인간 감도가 감소된다는 것이 알려져 왔다. 그러므로, 상관이 작게되면 더욱 큰 ITD 양자화 에러들이 적용될 수 있다. 이 개념의 극단적인 예는 상관이 특정 임계값 아래인 경우 전혀 ITDs를 전송하지 못한다는 것이다.

상관의 양자화

상관의 양자화 에러는 (1) 상관 값 자체 및 (2) 가능하다면 ILD에 좌우된다. +1 근처의 상관 값들은 고 정밀도(즉, 작은 양자화 단계)로 코딩되는 반면에, 0 근처의 상관값들은 저 정밀도(큰 양자화 단계)로 코딩된다. 바람직한 실시예에서, 비선형 분포 상관값(들)의 세트는 다음의 앙상블(R)의 최근접 값으로 양자화되고,

R=[1 0.95 0.9 0.82 0.75 0.6 0.3 0]

이는 상관 값당 다른 3비트들을 필요로 한다.

현재 서브밴드의 (양자화된) ILD의 절대값이 19dB에 이르면, 이 서브밴드를 위하여 전송되는 ITD 및 상관값들은 존재하지 않는다. 특정 서브밴드의 (양자화된) 상관값이 제로에 이르면, 이 서브밴드를 위하여 전송되는 ITD 값은 존재하지 않는다.

이 방식으로, 각 프레임은 공간 파라미터들을 전송하기 위한 최대 233 비트들을 필요로 한다. 1024 샘플들의 갱신 프레임 길이 및 44.1kHz의 샘플링 레이트로 인해, 전송을 위한 최대 비트레이트는 10.25kbit/s[233*44100/1024=10.034kbit/s]에 이른다(이는 엔트로피 코딩 또는 차동 코딩을 사용하면, 이 비트레이트가 더욱 감소될 수 있다는 점에 유의하여야 한다).

동일한 서브밴드의 측정된 ILD를 따른 상관을 위한 양자화 단계들을 사용할 제 2 가능성이 존재한다. 큰 ILDs(즉, 한 채널이 주로 에너지와 관련됨)에 대해서, 상관시에 양자화 에러들은 더욱 크게 된다. 이 원리의 극단적인 예는 이 서브밴드를 위한 IID이 절대값이 특정 임계값을 넘는다면 특정 서브밴드를 위한 상관값들이 결코 전송되지 않는다는 것이다.

도 4를 더욱 상세하게 참조하면, 모듈들(20)에서, 좌 및 우 인입 신호들은 다양한 시간 프레임들(44.1kHz 샘플링 레이트에서 2048 샘플들)에서 분할되고 제곱근 Hanning 윈도우로 윈도우잉된다. 다음에, FFTs가 계산된다. 부의 FFT 주파수들은 폐기되고, 이 결과의 FFTs는 FFT 빈들의 그룹들 또는 16개의 서브밴드들로 세분된다. 서브밴드(g)에서 결합되는 FFT 빈들의 수는 주파수에 좌우된다. 낮은 주파수들에서보다 높은 주파수들에서, 더 많은 빈들이 결합된다. 현재 구현방식에서, 대략 1.8 ERBs에 대응하는 FFT 빈들은 그룹화되어, 전체 가청 주파수 범위를 표시하기 위하여 20개의 서브밴드들을 발생시킨다. (최저 주파수에서 시작하는) 각 다음 서브밴드의 이 결과의 FFT 빈들 S[g]의 수는 다음과 같다.

S=[4 4 4 5 6 8 9 12 13 17 21 25 30 38 45 55 68 82 100 477]

따라서, 제 1의 3개 서브밴드들은 4 FFT 빈들을 포함하는데, 제 4의 서브밴드는 5 FFT 빈들 등을 포함한다. 각 서브밴드에 대해서, 이 분석 모듈(18)은 대응하는 ILD, ITD 및 상관(r)을 계산한다. ITD 및 상관은 단지 다른 그룹들에 속하는 모든 FFT 빈들을 제로로 설정하여, 역 FFT 변환 보다 앞서 좌 및 우 채널들로부터의 이 결과(대역제한된)의 FFTs를 승산함으로써 계산된다. 이 결과의 교차 상관 함수는 -64 및 +63 샘플들간의 채널간 지연 내에서 피크에 대해서 스캐닝 된다. 피크에 대응하는 내부 지연은 ITD 값으로서 사용되고, 이 피크에서 교차 상관 함수의 값은 이 서브밴드의 양귀 간의 상관으로서 사용된다. 최종적으로, ILD는 단지 각 서브밴드를 위한 좌 및 우 채널들의 전력비를 취함으로써 계산된다.

합 신호의 발생

분석기(18)는 합 신호 발생기(17)를 포함한다. 합 신호 발생기는 입력 신호들의 평균인 합 신호를 발생시킨다. (다른 실시예들에서, 부가적인 처리는 예를 들어 위상 정정을 포함하는 합 신호의 발생시 실행된다. 필요한 경우, 이 합 신호는 (1) 부의 주파수들에서 삽입되는 공액 복소수, (2) 역 FFT, (3) 윈도우잉, 및 (4) 중첩-가산을 수행함으로써 시간 도메인으로 변환될 수 있다.

상술된 바와 같이 시간 및/또는 주파수 도메인에서 합 신호(12)의 표현이 제 공되면, 이 신호는 임의의 수의 종래 방식들에서 비트스트림(50)의 모노럴 층(40)에서 인코딩될 수 있다. 예를 들어, mp3 인코더는 비트스트림의 모노럴 층(40)을 발생시키도록 사용될 수 있다. 이와 같은 인코더가 입력 신호에서 고속 변화를 검출할 때, 입력 신호의 부분을 인코딩할 때 시간 및/또는 주파수 국부화를 개선시키기 위하여 특정 시간 주기 동안 사용되는 윈도우 길이를 변화시킬 수 있다. 그 후, 윈도우 스위칭 플래그는 비트스트림에 임베드되어 후에 신호를 합성하는 디코더로 스위치하는 것을 나타낸다.

그러나, 바람직한 실시예에서, WO 01/69593-a1 호에 서술된 유형의 사인곡선 코더(30)는 모노럴 층(40)을 발생시키도록 사용된다. 코더(30)는 과도 코더(transient coder)(11), 사인곡선 코더(13) 및 잡음 코더(15)를 포함한다. 과도 코더는 이 실시예에 포함된 선택적인 특징이다.

신호(12)가 과도 코더(11)로 입력될 때, 각 갱신 구간에 대해서, 이 코더는 분석 윈도우 내의 (샘플 정확도에 대한) 과도 신호 성분 및 이의 위치가 존재하는지를 추정한다. 과도 신호 성분의 위치가 결정되면, 코더(11)는 과도 신호 성분(의 주요 부분)을 추출하도록 시도한다. 예를 들어 (작은) 수의 사인곡선 성분들을 사용함으로써 추정된 시작 위치에서 바람직하게 시작하는 신호 세그먼트에 셰이프 함수를 정합시켜 셰이프 함수 아래의 내용을 결정하고, 이 정보는 과도 코드(CT)에 포함된다.

과도 성분을 줄이는 합 신호(12)는 사인곡선 코더(13)에 제공되는데, 이 코더에서 (결정론적) 사인곡선 성분들을 결정하기 위하여 분석된다. 요약하면, 사인 곡선 코더는 한 프레임 세그먼트로부터 다음 세그먼트로 링크되는 사인곡선 성분들의 트랙들로서 입력 신호를 인코딩한다. 이 트랙들은 초기에 소정 세그먼트-버쓰(birth)에서 시작하는 사인곡선에 대한 시작 주파수, 시작 진폭 및 시작 위상으로 표시된다. 그 후, 트랙내의 세그먼트가 종료(깊이)되고 이 정보가 사인곡선 코드(CS)에 포함될 때까지, 이 트랙은 주파수 차들, 진폭 차들 및 가능한 경우, 위상 차들(연속성)다음 세그먼트들로 표시된다.

과도 및 사인곡선 성분 둘 다가 덜한 신호는 주로 잡음을 포함하는 것으로 추정되고, 바람직한 실시예의 잡음 분석기(15)는 이 잡음을 표시하는 잡음 코드(CN)를 발생시킨다. 종래에, 예를 들어, WO 01/89086-A1 호에서처럼, 잡음 스펙트럼은 등가 직사각형 대역폭(ERB) 스케일에 따라서 결합된 AR(자동회귀)MA(이동 평균) 필터 파라미터들(pi,qi)을 지닌 잡음 코더로 모델링 된다. 디코더 내에서, 필터 파라미터들은 잡음의 스펙트럼을 근사화하는 주파수 응답을 갖는 주로 필터인 잡음 합성기로 공급된다. 이 합성기는 ARMA 필터링 파라미터들(pi, qi)로 백색 잡음 신호를 필터링함으로써 재구성된 잡음을 발생시킨 다음에, 이를 합성된 과도 및 사인곡선 신호들에 부가하여, 원래 합 신호의 추정값을 발생시킨다.

멀티플렉서(41)는 16ms 길이의 중첩하는 시간 세그먼트들을 표시하는 42개의 프레임들로 분할되고 매 8ms 마다 갱신되는 모노럴 오디오 층(40)을 발생시킨다. 각 프레임은 각 코드들(CT, CS 및 CN)을 포함하고 디코더에서, 연속적인 프레임들을 위한 코드들은 모노럴 합 신호를 합성시킬 때 자신들의 중첩 영역들에서 혼합된다. 본 실시예에서, 각 프레임은 단지 최대 하나의 과도 코드(CT)를 포함하고 이와 같은 과도의 예는 참조번호 (44)로 표시된다라고 추정된다.

분석기(18)는 공간 파라미터 층 발생기(19)를 더 포함한다. 이 성분은 상술된 바와 같은 각 공간 파라미터 프레임을 위한 공간 파라미터들의 양자화를 수행하다. 일반적으로, 발생기(19)는 각 공간 층 채널(14)을 프레임들(46)로 분할되는데, 도4에서, 이 프레임은 64ms 길이의 중첩하는 시간 세그먼트들을 표시하고 매 32ms 마다 갱신된다. 각 프레임은 IID, ITD, OTD 및 상관값(r)을 포함하고 디코더에서, 연속적인 프레임들에 대한 값들은 자신들의 중첩 영역들에서 혼합되어 이 신호를 합성할 때 어떤 소정 시간 동안 공간 층 파라미터들을 결정한다.

바람직한 실시예에서, 모노럴 층(40)에서 과도 코더(11)(또는 합 신호(12)에서 대응하는 분석기 모듈에 의해)에 의해 검출되는 과도 위치들은 발생기(19)에 의해 사용되어 공간 파라미터 층(들)(14)에서 불균일한 시간 세그멘테이션이 필요로 되는지를 결정한다. 인코더가 mp3 코더를 사용하여 모노럴 층을 발생시키는 경우에, 모노럴 스트림에서 윈도우 스위칭 플래그의 존재는 과도 위치의 추정값으로서 발생기에 의해 사용된다.

최종적으로, 모노럴(40) 및 공간 표현(14) 층들이 발생되면, 그 후, 이들은 멀티플렉서(43)에 의해 비트스트림(50)에 기록된다. 이 오디오 스트림(50)은 그 후 예를 들어 데이터 버스, 안테나 시스템, 저장 매체 등에 제공된다.

지금부터 도 5를 참조하면, 상술된 인코더와 결합하여 사용하기 위한 디코더(60)는 인입하는 오디오 스트림(50)을 모노럴 층(40') 및 이 경우에 단일 공간 표시층(14')으로 분할하는 디멀티플렉서(62)를 포함한다. 모노럴 층(40')은 원래 합 신호(12')의 시간 도메인 추정치를 제공하기 위하여 이 층을 발생시키는 인코더에 대응하는 종래 합성기(64)에 의해 판독된다.

그 후, 디멀티플렉서(62)에 의해 추출되는 공간 파라미터들(14')은 후-처리 모듈(66)에 의해 합 신호(12')로 인가되어, 좌 및 우 출력 신호들을 발생시킨다. 바람직한 실시예의 후-처리 모듈은 또한 모노럴 층(14') 정보를 판독하여 이 신호 내의 과도들의 위치들을 탐색하여 이들을 적절하게 처리한다. 이는 물론, 이와 같은 과도들이 단지 신호에서 인코딩되는 경우이다. (대안적으로, 합성기(64)는 이와 같은 표시를 후-처리기에 제공할 수 있다. 그러나, 이는 다른 종래 합성기(64)의 어느정도 다소간의 수정을 필요로 한다).

후-처리기(66) 내에서, 분석부에서 서술된 바와 같은 합 신호(12')의 주파수-도메인 표현이 처리를 위하여 이용될 수 있다. 이 표현은 합성기(64)에 의해 발생된 시간 도메인 파형의 윈도우잉 및 FFT 연산들에 의해 얻어질 수 있다. 그 후, 이 합 신호는 좌 및 우 출력 신호 경로들에 복제된다. 다음에, 좌 및 우 신호들 간의 상관은 파라미터(r)를 사용하는 감속기(69', 69")에 의해 수정된다.

다음에, 각 스테이지들(70', 70")에서, 좌 신호의 각 서브밴드는 값(TSL) 만큼 지연되고 우 신호는 이 서브밴드에 대응하는 비트스트림으로부터 추출되는 OTD 및 ITD의 값들로부터 제공된(양자화된) TSR만큼 지연된다. TSL 및 TSR의 값들은 상기 제공된 식들에 따라서 계산된다. 최종적으로, 좌 및 우 서브밴드들은 각 스테이지들(71', 71")에서 이 서브밴드를 위한 ILD에 따라서 스케일링된다. 그 후, 각 변환 스테이지들(72', 72")은 다음 단계들, (1) 부의 주파수들에서 삽입되는 공액 복 소수, (2) 역 FFT, (3) 윈도우잉 및 (4) 중첩-가산을 수행함으로써 출력 신호들을 시간 도메인으로 변환시킨다.

상기 코딩 방식에 대한 대안으로서, 위상 차가 인코딩될 수 있는 많은 다른 가능한 방법들이 존재한다. 예를 들어, 파라미터들은 ITD 및 특정 분포 키, 예를 들어, x를 포함할 수 있다. 그 후, 좌 채널의 위상 변화는 x*ITD로 인코딩되는 반면에, 우 채널의 위상 변화는 (1-x)*ITD로서 인코딩된다. 명백하게, 많은 다른 인코딩 방식들이 사용되어 본 발명의 실시예들을 구현할 수 있다.

본 발명이 전용 하드웨어, DSP(디지털 신호 처리기) 또는 범용 컴퓨터로 구현될 수 있다는 것을 알 수 있을 것이다. 본 발명에 따른 인코딩 방법을 실행하는 컴퓨터 프로그램을 지닌 CD-ROM 또는 DVD-ROM과 같은 접촉식 매체로 본 발명이 구현될 수 있다. 본 발명은 또한 인터넷과 같은 데이터 네트워크를 통해서 전송되는 신호 또는 브로드캐스트 서비스에 의해 전송되는 신호로서 구현될 수 있다. 본 발명은 특히 인터넷 다운로드, 인터넷 라디오, 고상 오디오(SSA), 대역폭 확장 방식들, 예를 들어, mp3PRO, CT-aacPlus(www.codingtechnologies.com 참조), 및 대부분의 오디오 코딩 방식들의 분야들에서 특정 응용을 갖는다.

Claims

오디오 신호를 코딩하는 방법에 있어서:

적어도 2개의 오디오 입력 채널들로부터 모노럴 신호(monaural signal)를 생성하는 단계; 및

상기 적어도 2개의 오디오 입력 채널들의 각각의 입력 채널에 각각 대응하는 2개의 오디오 출력 신호들의 재생을 가능하게 하기 위해 상기 모노럴 신호 및 파라미터들의 세트를 포함하는 인코딩된 신호를 생성하는 단계를 포함하고;

상기 파라미터들은 전체 시프트의 표시를 포함하며, 상기 전체 시프트는 상기 모노럴 신호와 상기 적어도 2개의 오디오 입력 채널들 중 하나의 신호 사이의 지연의 크기인 것을 특징으로 하는, 오디오 신호 코딩 방법.
제 1 항에 있어서,

상기 파라미터들은 상기 전체 시프트와 채널간 위상 또는 시간 차의 선형 결합을 포함하는, 오디오 신호 코딩 방법.
제 1 항에 있어서,

상기 전체 시프트는 전체 시간 시프트인, 오디오 신호 코딩 방법.
제 1 항에 있어서,

상기 전체 시프트는 전체 위상 시프트인, 오디오 신호 코딩 방법.
제 1 항에 있어서,

상기 전체 시프트는 상기 모노럴 신호와 상기 적어도 2개의 오디오 입력 채널들 중 하나의 상기 신호 사이의 최적 매칭 지연(또는 위상)에 의해 결정되는, 오디오 신호 코딩 방법.
제 5 항에 있어서,

상기 최적 매칭 지연은 상기 적어도 2개의 오디오 입력 채널들의 입력 신호들의 신호들의 대응하는 시간/주파수 타일들(time/frequency tiles) 사이의 교차-상관 함수(cross-correlation function)에서의 최대값에 대응하는, 오디오 신호 코딩 방법.
제 1 항에 있어서,

상기 전체 시프트는 더 큰 진폭을 갖는 상기 적어도 2개의 오디오 입력 채널들 중의 신호에 대해서 계산되는, 오디오 신호 코딩 방법.
제 1 항에 있어서,

상기 적어도 2개의 오디오 입력 채널들의 신호들 사이의 위상 차는 상기 전체 시프트보다 더 작은 양자화 에러로 인코딩되는, 오디오 신호 코딩 방법.
오디오 신호를 코딩하는 인코더에 있어서:

적어도 2개의 오디오 입력 채널들로부터 모노럴 신호를 생성하는 수단; 및

상기 적어도 2개의 오디오 입력 채널들의 각각의 입력 채널에 각각 대응하는, 2개의 오디오 출력 신호들의 재생을 가능하게 하기 위해 상기 모노럴 신호 및 파라미터들을 포함하는 인코딩된 신호를 생성하는 수단을 포함하고;

상기 파라미터들은 전체 시프트의 표시를 포함하고, 상기 전체 시프트는 상기 모노럴 신호와 상기 적어도 2개의 오디오 입력 채널들 중 하나의 신호 사이의 지연의 크기인 것을 특징으로 하는, 인코더.
인코딩된 오디오 신호를 공급하는 장치에 있어서:

오디오 신호를 수신하는 입력 수단;

인코딩된 오디오 신호를 얻기 위하여 상기 오디오 신호를 인코딩하기 위한 청구항 제 9 항에 따른 인코더; 및

상기 인코딩된 오디오 신호를 공급하기 위한 출력 수단을 포함하는, 인코딩된 오디오 신호 공급 장치.
인코딩된 오디오 신호를 기록한 컴퓨터 판독가능 기록 매체에 있어서:

상기 신호는,

적어도 2개의 오디오 입력 채널들로부터 유도된 모노럴 신호; 및

상기 적어도 2개의 오디오 입력 채널들의 각각의 입력 채널에 각각 대응하는, 2개의 오디오 출력 신호들의 재생을 가능하게 하기 위해 상기 모노럴 신호 및 파라미터들을 포함하는 인코딩된 신호를 포함하고;

상기 파라미터들은 전체 시프트의 표시를 포함하고, 상기 전체 시프트는 상기 모노럴 신호와 상기 적어도 2개의 오디오 입력 채널들 중 하나의 신호 사이의 지연의 크기인 것을 특징으로 하는, 컴퓨터 판독가능 기록 매체.
제 11 항에 있어서,

상기 파라미터들은 상기 전체 시프트와 채널간 위상 또는 시간 차의 선형 결합을 포함하는, 컴퓨터 판독가능 기록 매체.
인코딩된 모노럴 신호 및 공간 파라미터들을 포함하는 인코딩된 오디오 신호를 디코딩하는 방법으로서, 상기 인코딩된 오디오 신호로부터 상기 인코딩된 모노럴 신호 및 공간 파라미터들의 세트를 얻는 단계를 포함하는, 상기 인코딩된 오디오 신호를 디코딩하는 방법에 있어서:

상기 공간 파라미터들의 세트는 상기 인코딩된 모노럴 신호와 적어도 2개의 오디오 채널들 중 하나의 신호 사이의 지연의 크기인 전체 시프트를 표시하는 파라미터들을 포함하고;

상기 방법은 상기 파라미터들에 의해 특정된 구간만큼 시간 및 위상 오프셋되는 출력 오디오 신호들의 스테레오 쌍을 생성하는 단계를 더 포함하는 것을 특징으로 하는, 인코딩된 오디오 신호 디코딩 방법.
인코딩된 모노럴 신호 및 공간 파라미터들을 포함하는 인코딩된 오디오 신호를 디코딩하는 디코더로서, 상기 인코딩된 오디오 신호로부터 상기 인코딩된 모노럴 신호 및 공간 파라미터들의 세트를 얻는 수단을 포함하는, 상기 인코딩된 오디오 신호를 디코딩하는 디코더에 있어서:

상기 공간 파라미터들의 세트는 상기 인코딩된 모노럴 신호와 인코더에 대한 적어도 2개의 입력 오디오 채널들 중 하나의 신호 사이의 지연의 크기인 전체 시프트를 표시하는 파라미터들을 포함하고;

상기 디코더는 상기 파라미터들에 의해 특정된 구간만큼 시간 및 위상 오프셋되는 출력 오디오 신호들의 스테레오 쌍을 생성하는 수단을 더 포함하는 것을 특징으로 하는, 인코딩된 오디오 신호를 디코딩하는 디코더.
제 14 항에 있어서,

상기 전체 시프트는 상기 공간 파라미터들 내에 포함된 상기 전체 시프트와 채널간 시간 또는 위상 차의 선형 결합으로부터 얻어지는, 인코딩된 오디오 신호를 디코딩하는 디코더.
멀티-채널 출력 신호를 공급하는 장치에 있어서:

인코딩된 오디오 신호를 수신하는 입력 수단;

상기 멀티-채널 출력 신호를 얻기 위하여 상기 인코딩된 오디오 신호를 디코딩하는 청구항 제 14 항에 청구된 디코더; 및

상기 멀티-채널 출력 신호를 공급하거나 재생하는 출력 수단을 포함하는, 멀티-채널 출력 신호 공급 장치.