KR20040102164A

KR20040102164A - 공간적 오디오의 파라메터적 표시

Info

Publication number: KR20040102164A
Application number: KR10-2004-7017073A
Authority: KR
Inventors: 제이. 브리바르트덜크; 스티븐 엘. 제이. 디. 이. 밴드파
Original assignee: 코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date: 2002-04-22
Filing date: 2003-04-22
Publication date: 2004-12-03
Also published as: ES2300567T3; DE60318835D1; EP1500084B1; EP1881486B1; US20090287495A1; EP1500084A1; DE60318835T2; JP5101579B2; KR20100039433A; CN1647155A; US8331572B2; DE60326782D1; US20130094654A1; JP4714416B2; KR100978018B1; JP2005523480A; JP2009271554A; ATE385025T1; ATE426235T1; JP2012161087A

Abstract

요약하자면, 본 출원은 다중 채널 오디오 신호들의 공간적 속성들의 정신-음향적으로 자극되는 파라메터적 설명을 기재한다. 이러한 파라메터적 설명은 단지 하나의 모노럴 신호가 전송되어야 하고, 신호의 공간적 특성들을 기재하는 (양자화된) 프로모터들과 조합되어야 하기 때문에 오디오 코더들에서 강력한 비트율 감소들을 허용한다. 디코더는 공간적 파라메터들을 인가함으로써 원래량의 오디오 채널들을 형성할 수 있다. 근접한-CD-품질 스테레오 오디오를 위해, 10kbit/s 이하의 공간적 파라메터들과 연합된 비트율이 수신 단부에서 정확한 공간적 임프레션을 재생산하기에 충분해 보인다.

Description

공간적 오디오의 파라메터적 표시{Parametric representation of statial audio}

오디오 코딩 분야에서, 예를 들면 오디오 신호의 지각적 품질과 부적절히 타협하지 않고 신호를 통신하는 비트율 또는 신호를 저장하기 위한 저장 요건을 감소시키기 위해, 오디오 신호를 인코딩하는 것이 일반적으로 바람직하다. 이는 오디오 신호들이 제한된 용량의 통신 채널들을 통해 전송되어야 할 때 또는 이들 신호들이 제한된 용량을 갖는 저장 매체 상에 저장되어야 할 때 중요한 쟁점이다.

스테레오 프로그램 물질의 비트율을 감소시키기 위해 제안되고 있는 오디오 코더들에서 선행 기술의 해결책들은 다음을 포함한다:

'세기 스테레오(Intensity stereo)'. 이 알고리즘에서, 높은 주파수들(전형적으로 5kHz 이상)은 시간-변화 및 주파수-의존성 계수 인자들과 조합된 단일 오디오 신호(즉, 모노)로 표시된다.

'M/S 스테레오'. 이 알고리즘에서, 신호는 합(또는 미드, 또는 공통) 및 차이(또는 사이드, 또는 비공통) 신호로 분해된다. 이러한 분해는 때때로 주요 성분 분석 또는 시간-변화하는 계수 인자들과 조합된다. 이어서, 이들 신호는 변환 코더 또는 파형 코더에 의해 독립적으로 코딩된다. 이 알고리즘에 의해 성취된 정보 감소량은 소스 신호의 공간적 특성들에 강하게 의존한다. 예를 들면, 소스 신호가 모노럴인 경우, 상이한 신호가 0이고 폐기될 수 있다. 그러나, 좌측 및 우측 오디오 신호들의 상관 관계가 적은 경우(이는 종종 있는 경우임), 이러한 체제은 장점을 거의 제공하지 않는다.

오디오 신호들의 파라메터적 해석들은 특히 오디오 코딩 분야에서 지난 수년 동안 흥미를 끌어왔다. 오디오 신호들을 기재하는 (양자화된) 파라메터들을 전송하는 것은 수신 단부에서 지각적으로 동등한 신호를 재합성하기 위한 전송 용량을 거의 필요로 하지 않는 것으로 밝혀지고 있다. 그러나, 현재의 파라메트릭 오디오 코더들은 모노럴 신호들을 코딩하는 것에 초점을 맞추고 있고, 스테레오 신호들은 종종 이중 모노로서 처리된다.

유럽 특허 출원 EP 제 1 107 232호는 L 및 R 성분을 갖는 스테레오 신호를 인코딩하는 방법을 개시하고 있으며, 여기서 스테레오 신호는 스테레오 성분들 중 하나와, 파라메터트릭 정보 캡쳐링 단계와, 오디오 신호의 레벨 차이들로 나타낸다. 디코더에서, 다른 스테레오 성분은 인코딩된 스테레오 성분 및 파라메트릭 정보 기초로 회수된다.

본 발명은 오디오 신호들의 코딩에 관한 것으로서, 특히 다중-채널 오디오신호들의 코딩에 관한 것이다.

본 발명의 목적은 회수된 신호의 높은 지각적 품질을 생성하는 개선된 오디오 코딩을 제공하는 문제를 해결하는 것이다.

상기 문제 및 다른 문제들은 오디오 신호를 코딩하는 방법에 의해 해결되며,이 방법은,

- 적어도 2개의 입력 오디오 채널들의 조합을 포함하는 모노럴 신호를 생성하는 단계와,

- 적어도 2개의 입력 오디오 채널들의 공간적 특성들을 나타내는 공간적 파라메터들의 세트를 결정하는 단계로서, 상기 공간적 파라메터들의 세트는 적어도 2개의 입력 오디오 채널들의 파형들의 유사성의 척도를 나타내는 파라메터를 포함하는 상기 단계와,

- 모노럴의 신호 및 공간적 파라메터들의 세트를 포함하는 인코딩된 신호를 발생시키는 단계를 포함한다.

대응하는 파형들의 유사성의 척도를 포함하는 많은 공간적 속성들 및 모노럴의 오디오 신호 등의 다중-채널 오디오 신호를 인코딩함으로써 다중-채널 신호는 높은 지각적 품질로 회수될 수 있는 것으로 발명자들에 의해 밝혀졌다. 본 발명의 추가의 장점은 다중-채널 신호, 즉, 적어도 제 1 채널 및 제 2 채널을 포함하는 신호, 예를 들면 스테레오 신호, 4채널 신호 등의 효율적인 인코딩을 제공하는 것이다.

따라서, 본 발명에 따라, 다중-채널 오디오 신호들의 공간적 속성들이 파라메터화된다. 일반적인 오디오 코딩 용도들에 대해, 단지 하나의 모노럴의 오디오 신호와 조합된 이들 파라메터들을 전송하는 것은 채널들을 독립적으로 진행시키는 오디오 코더들에 비교한 입체 신호를 전송하는데 필요한 전송 용량을 감소시키는 한편, 원시 공간적 임프레션을 유지한다. 중요한 쟁점은 사람들이 청각적 대상물의 파형들을 2회 수신하더라도(좌측 귀로 1회 및 우측 귀로 1회), 단일 청각적 대상물만이 특정 위치에서 특정 크기(또는 공간적 확산도)로 인지된다.

따라서, 2개 이상의 (독립적인) 파형들로서 오디오 신호들을 기재하는 것이 불필요해 보이고, 각각 그 자신의 공간적 특성들을 갖는 청각적 대상물들의 세트로서 다중-채널 오디오를 기재하는 것이 보다 양호할 것이다. 즉각적으로 발생하는 하나의 곤란점은 청각적 대상물들의 주어진 앙상블, 예를 들면 음악 레코딩으로부터 개개의 청각적 대상물들을 자동으로 분리하는 것은 거의 불가능하다는 사실이다. 이 문제는 개개의 청각적 대상물들에서 프로그램 물질을 분할하지 않고, 오히려 청각 시스템의 효과적인 (주변) 프로세싱을 닮은 방식으로 공간적 파라메터들을 기재함으로써 회피될 수 있다. 공간적 속성들이 대응하는 파형들의 (비)유사성의 척도를 포함할 때, 효율적인 코딩이 성취되는 한편, 높은 레벨의 지각적 품질을 유지할 수 있다.

특히, 여기 제공된 다중-채널 오디오의 파라메터적 설명은 Breebaart 등에 의해 제공된 바이노럴의 프로세싱 모델에 관련된다. 이 모델은 바이노럴의 청각 시스템의 효과적인 신호 프로세싱을 기재하는 것을 목표로 한다. Breebaart 등에 의한 두 귀의 프로세싱 모델의 설명을 위해, Breebaart, J., van de Par, S. 및 Kohlrausch, A.(2001a). 상반된 측면 억제 I에 기초한 바이노럴 프로세싱 모델, 모델 셋업 (Binaural processing model based on contralateral inhibition. I. Model setup.).J. Acoust. Soc. Am.110, 1974-1088; Breebaart, J. van de Par, S. 및 Kohlrausch; A.(2001b). 상반된 측면 억제 II에 기초한 바이노럴 프로세싱모델, 스펙트럼적 파라메터들에 대한 차이 (Binaural processing model based on contralateral inhibition. II. Dependence on spectral parameters.).J. Acoust. Soc. Am.110, 1989-1088; 및 Breebaart, J., van de Par, S. 및 Kohlrausch; A.(2001c). 상반된 측면 억제 III에 기초한 바이노럴 프로세싱 모델, 일시적 파라메터들에 대한 차이 (Binaural processing model based on contralateral inhibition. III. Dependence on tempora parameters.).J. Acoust. Soc. Am.110, 1105-1117 참조. 본 발명의 이해를 돕기 위해 아래 짧은 해석이 주어진다.

바람직한 실시예에서, 공간적 파라메터들의 세트는 적어도 하나의 편재화 큐를 포함한다. 공간적 속성들이 1개 이상, 바람직하게는 2개의 편재화 큐들 뿐만 아니라 대응하는 파형들의 (비)유사성의 척도를 포함할 때, 특히 높은 레벨의 인식 품질을 유지하는 동안 특히 효율적인 코딩이 성취된다.

편재화 큐라는 용어는 오디오 신호에 기여하는 청각적 대상물들의 편재화, 예를 들면 청각적 대상물의 방향 및/또는 거리에 관한 정보를 전달하는 임의의 적절한 파라메터를 포함한다.

본 발명의 바람직한 실시예에서, 공간적 파라메터들의 세트는 채널간 레벨 차이(ILD)와, 채널간 시간차(ITD) 및 채널간 위상차(IPD) 중 선택된 것을 포함하는 적어도 2개의 편재화 큐를 포함한다. 채널간 레벨 차이 및 채널간 시간차는 수평 평면에서 가장 중요한 편재화 큐들인 것으로 고려된다.

제 1 및 제 2 오디오 채널들에 대응하는 파형들의 유사성의 척도는 대응하는파형들이 얼마나 유사하거나 또는 유사하지 않은지를 기재하는 임의의 적절한 기능일 수 있다. 따라서, 유사성의 척도는 유사성의 증가하는 함수, 예를 들면 채널간 교차-상관 관계(함수)로부터/로 결정되는 파라메터일 수 있다.

바람직한 실시예에 따라, 유사성의 척도는 상기 교차-상관 관계 함수의 최대값에서 교차-상관 관계 함수의 값에 대응한다(간섭으로서 공지됨). 최대 채널간 교차-상관 관계는 음향 소스의 인식 공간의 확산도(또는 압축도)에 강력히 관련되고, 즉 상기 편재화 큐들에 의해 고려되지 않는 추가의 정보를 제공함으로써, 이것에 의하여, 이들에 의해 전달되는 적은 정도의 잉여 정보를 갖는 파라메터들을 제공하고, 따라서 효율적인 코딩을 제공한다.

대안으로, 유사성의 다른 척도들, 예를 들면 파형들의 비유사성에 의해 증가하는 함수가 사용될 수 있다. 그러한 함수의 일 예는 1-c이고, 여기서 c는 0과 1 사이의 값들을 가정할 수 있는 교차-상관 관계이다.

본 발명의 바람직한 실시예에 따라, 공간적 특성들을 나타내는 공간적 파라메터들의 세트를 결정하는 단계는 시간 및 주파수의 함수로서 공간적 파라메터들의 세트를 결정하는 단계를 포함한다.

본 발명자들의 통찰로는 ILD, ITD (또는 IPD) 및 시간과 주파수의 함수로서 최대 상관 관계를 명시함으로써 임의의 다중 채널 오디오 신호의 공간적 속성들을 기재하는 것으로 충분하다.

본 발명의 추가의 바람직한 실시예에서, 공간적 특성들을 나타내는 공간적 파라메터들의 세트를 결정하는 단계는,

- 적어도 2개의 입력 오디오 채널들 각각을 대응하는 복수개의 주파수 대역들로 분할하는 단계와,

- 복수의 주파수 대역들 각각에 대해, 대응하는 주파수 대역 내에서 적어도 2개의 입력 오디오 채널들의 공간적 특성들을 나타내는 공간적 파라메터들의 세트를 결정하는 단계를 포함한다.

따라서, 인입하는 오디오 신호는 (바람직하게는) EPR-등급 규모로 선형으로 공간 배치된 여러 개의 대역-제한된 신호들로 분할된다. 바람직하게는, 분석 필터들은 주파수 및/또는 시간 도메인에서 부분적 오버랩을 보여준다. 이들 신호들의 대역폭은 ERB 속도에 따라, 중심 주파수에 의존한다. 순차로, 바람직하게는모든 주파수 대역에 대해,유입되는 신호들의 다음 특성들:

- 좌측 및 우측 신호들로부터 대역폭-제한된 신호 스테밍의 상대적 레벨들로 정의되는 채널간 레벨 차이 또는 ILD,

- 채널간 교차-상관 관계 함수에서 피크의 위치에 대응하는 채널간 지연(또는 페이스 시프트)로 정의되는 채널간 시간(또는 위상) 차이(ITD 또는 IPD), 및

- 최대 채널간 교차-상관 관계에 의해 파라메터화될 수 있는 ITD들 또는 ILD들에 의해 고려될 수 없는 파형들의 (비)유사성 (즉, 최대 피크의 위치에서 ㅍ준화된 교차-상관 관계 함수의 값, 또한 간섭으로서 공지됨)이 분석된다.

상기 3개의 파라메터들은 시간이 경과함에 따라 변화하지만; 바이노럴 청각 시스템은 그의 처리에 있어서 매우 느리기 때문에, 이들 특성들의 갱신 속도는 오히려 낮다(전형적으로 수십 밀리초).

여기서, (느리게) 시간-변화하는 상기 특성들은 바이노럴 청각 시스템이 이용할 수 있고, 이들 시간 및 주파수 의존 파라메터들로부터, 인지되는 청각 세계는 보다 높은 레벨들의 청각 시스템에 의해 재구축된다고 가정될 수 있다.

본 발명의 일 실시예는,

입력 신호들의 특정 조합을 구성하는 하나의 모노럴 신호, 및

공간적 파라메터들의 세트: 바람직하게는 모든 시간/주파수 슬롯에 대해 ILD들 및/또는ITD들에 의해 설명될 수 없는 파형들의 유사성 또는 비유사성을 기재하는 파라메터(예, 교차-상관 관계의 최대값) 및 2개의 편재화 큐들(ILD, 및 ITD 또는 IPD)에 의해 다중 채널 오디오 신호를 기재하는 것을 목표로 한다. 바람직하게는, 공간적 파라메터들은 각각의 추가의 청각 채널에 대해 포함된다.

파라메터들의 전송의 중요한 쟁점은 파라메터 표시(즉, 양자화 에러들의 크기)의 정확도이고, 이는 불필요한 전송 용량에 직접적으로 관련된다.

본 발명의 다른 바람직한 실시예에 따라, 모노럴 신호 및 공간적 파라메터들의 세트를 포함하는 인코딩된 신호를 발생시키는 단계는 각각 대응하는 결정된 공간적 파라메터에 상대적인 대응하는 양자화 에러를 도입하는 양자화된 공간적 파라메터들의 세트를 발생시키는 단계를 포함하고, 여기서, 도입된 양자화 에러들 중의 적어도 하나는 결정된 공간적 파라메터들 중의 적어도 하나의 값에 의존하도록 제어된다.

따라서, 파라메터들의 양자화에 의해 도입된 양자화 에러는 이들 파라메터들에서 변화들로 인간의 청각 시스템의 감응성에 따라 제어된다. 이러한 감응성은파라메터들 자체의 값들에 크게 의존한다. 따라서, 양자화 에러를 제어함으로써, 파라메터들의 값들에 의존하고, 개선된 인코딩이 성취된다.

본 발명의 장점은 오디오 코더들에서 모노럴 및 바이노럴 신호 파라메터들의 결합 해제를 제공하는 것이다. 따라서, 입체 오디오 코더들에 관련된 곤란점들 (예를 들면, 청각 간에 상관된 양자화 잡음에 비교한 청각간 상관되지 않은 양자화 잡음의 가청성, 또는 이중 모노 모드로 인코딩되는 파라메터적 코드들에서 청각간 위상 불일관성)은 강력히 감소된다는 것이다.

본 발명의 추가의 장점은 강력한 비트율 감소가 공간적 파라메터들에 필요한 낮은 갱신 속도 및 낮은 주파수 분해능으로 인해 오디오 코더들에서 성취된다. 공간적 파라메터들을 코딩하기 위해 연관된 비트율은 전형적으로 10kbit 이하라는 것이다(아래 실시예 참조).

본 발명의 추가의 장점은 현존하는 오디오 코더들과 용이하게 조합될 수 있다는 것이다. 제안된 체제은 임의의 현존하는 코딩 전략에 의해 코딩되고 인코딩될 수 있는 하나의 모노신호를 생산한다. 모노럴 디코딩 후, 여기 기재된 시스템은 적절한 공간적 속성들에 의해 입체 다중채널 신호를 재발생시킨다.

공간적 파라메터들의 세트는 오디오 코더들에서 강화층으로서 사용될 수 있다. 예를 들면, 모노 신호는 낮은 비트율만이 허용되는 경우에 전송되는 한편, 공간 강화층을 포함함으로서 디코더는 입체 음향을 재생산할 수 있다.

본 발명은 입체 신호들로만 제한되지 않고, n개의 채널들(n>1)을 포함하는 임의의 다중-채널 신호에 적용될 수 있음에 주의하자. 특히, 본 발명은 (n-1) 세트의 공간적 파라메터들이 전송되는 경우, 하나의 모노 신호로부터 n개의 채널들을 발생시키기 위해 사용될 수 있다. 이러한 경우에, 공간적 파라메터들은 단일 모노 신호로부터 n개의 상이한 오디오 채널들을 어떻게 형성할지를 기재한다.

본 발명은 상기 방법을 포함하는 상이한 방식들로 및 다음에서, 코딩된 오디오 신호를 디코딩하는 방법, 인코더, 디코더 및 추가의 생성 수단들로 구현될 수 있고, 이들 각각은 상기 제 1 방법과 관련하여 기재된 1개 이상의 이익들 및 장점들을 생성하고, 각각은 상기 제 1 방법과 관련하여 기재되고 종속항들에 개시된 바람직한 실시예들에 대응하는 1개 이상의 바람직한 실시예들을 갖는다.

상기 방법 및 다음 방법은 소프트웨어에서 구현될 수 있고, 데이터 처리 시스템 또는 컴퓨터-실행 가능한 명령들의 실행에 의해 유발되는 기타 프로세싱 수단에서 수행될 수 있음이 주목된다. 그 명령들은 컴퓨터 네트워크를 통해 저장 매체로부터 또는 다른 컴퓨터로부터 메모리, 예를 들면 RAM에 로드된 프로그램 코드 수단일 수 있다. 대안으로, 기재된 특징들은 소프트웨어 대신에 또는 소프트웨어와 조합된 하드와이어드 회로에 의해 구현될 수 있다.

본 발명은 오디오 신호를 코딩하는 인코더와 더 관련되며, 상기 인코더는,

- 적어도 2개의 입력 오디오 채널들의 조합물을 포함하는 모노럴 신호를 생성하는 수단과,

- 적어도 2개의 입력 오디오 채널들의 공간적 특성들을 나타내는 공간적 파라메터들의 세트를 결정하는 수단으로서, 공간적 파라메터들의 세트는 적어도 2개의 입력 오디오 채널들의 파형들의 유사성의 척도를 나타내는 파라메터를 포함하는, 상기 수단과,

- 모노럴 신호 및 공간적 파라메터들의 세트를 포함하는 인코딩된 신호를 발생시키는 수단을 포함한다.

모노럴 신호를 생성하는 상기 수단, 공간적 파라메터들의 세트를 결정하는 수단 뿐만 아니라 인코딩된 신호를 생성하는 수단은 임의의 적절한 회로 또는 디바이스에 의해, 예를 들면 범용 또는 특수 목적의 프로그램 가능한 마이크로프로세서들, 디지털 신호 프로세서들(DSP), 용도 특이적 집적 회로들(ASIC), 프로그램 가능한 논리 어레이들(PLA), 필드 프로그램 가능한 게이트 어레이들(FPGA), 특수 목적 전자 회로들 등 또는 이들의 조합으로서 구현될 수 있음이 주목된다.

본 발명은 오디오 신호를 공급하는 장치와 더 관련되며, 상기 장치는,

- 오디오 신호를 수용하는 입력단과,

- 인코딩된 오디오 신호를 얻기 위해 오디오 신호를 인코딩하는 상기 및 다음에 기재되는 바의 인코더와,

- 인코딩된 오디오 신호를 공급하는 출력단을 포함하는, 오디오 신호를 공급하는 장치에 관한 것이다.

이 장치는 임의의 전자 장비 도는 그러한 장비의 일부, 예를 들면 고정식 또는 휴대용 컴퓨터들, 고정식 또는 휴대용 무선 통신 장비 또는 기타 손잡이형 또는 휴대용 디바이스들, 예를 들면 매체 플레이어들, 기록 디바이스들 등일 수 있다. 휴대용 무선 통신 장비라는 용어는 모바일 전화기들, 호출기들, 커뮤니케이터들, 즉, 전자 오거나이저들, 스마트 폰들, 개인용 디지털 보조 장치들(PDA들), 손잡이형 컴퓨터들 등을 포함한다.

입력단은 아날로그 또는 디지털 형태로, 유선 접속, 예를 들면 라인 잭을 통해서 또는 무선 접속, 예를 들면 무선 신호, 또는 임의의 다른 적절한 방식으로 다중-채널 오디오 신호를 수신하는 임의의 적절한 회로 또는 디바이스를 포함할 수 있다.

유사하게, 출력단은 인코딩된 신호를 공급하는 임의의 적절한 회로 또는 디바이스를 포함할 수 있다. 그러한 출력단들의 예들은 LAN, 인터넷 등의 통신 네트워크에 신호를 제공하는 네트워크 인터페이스, 신호를 통신 채널, 예를 들면 무선 통신 채널 등을 통해 통신시키는 통신 회로를 포함한다. 다른 실시예들에서, 출력단은 저장 매체 상에 신호를 저장하는 디바이스를 포함할 수 있다.

본 발명은 인코딩된 오디오 신호와 더 관련되며, 상기 신호는,

- 적어도 2개의 오디오 채널들의 조합을 포함하는 모노럴 신호와,

- 적어도 2개의 입력 오디오 채널들의 공간적 특성들을 나타내는 공간적 파라메터들의 세트로서, 공간적 파라메터들의 세트는 적어도 2개의 입력 오디오 채널들의 파형들의 유사성의 척도를 나타내는 파라메터를 포함하는 상기 세트를 포함한다.

본 발명은 또한 그와 같이 인코딩된 신호가 그 위에 저장된 저장 매체에 관한 것이다. 여기서, 저장 매체라는 용어는 자기 테이프, 광디스크, 디지털 비디오 디스크(DVD), 컴팩트 디스크(CD 또는 CD-ROM), 미니-디스크, 하드 디스크, 플로피 디스크, 페로-전기 메모리, 전기적으로 소거 가능한 프로그램 가능한 판독 전용 메모리(EEPROM), 플래쉬 메모리, EPROM, 판독 전용 메모리(ROM), 스태틱 랜덤 액세스 메모리(SRAM), 다이내믹 랜덤 액세스 메모리(DRAM), 동기적 다이내믹 랜덤 액세스 메모리(SDRAM), 강자성 메모리, 광학 저장기, 전하 결합된 디바이스들, 스마트 카드들, PCMCIA 카드들 등을 포함하지만, 이들로만 제한되지 않는다.

본 발명은 추가로,

인코딩된 오디오 신호를 디코딩하는 방법과 더 관련되며, 상기 방법은,

- 인코딩된 오디오 신호로부터 모노럴 신호를 얻는 단계로서, 상기 모노럴 신호는 적어도 2개의 오디오 채널들의 조합을 포함하는 상기 단계와,

- 인코딩된 오디오 신호로부터 공간적 파라메터들의 세트를 얻는 단계로서, 공간적 파라메터들의 상기 세트는 적어도 2개의 입력 오디오 채널들의 파형들의 유사성의 척도를 나타내는 파라메터를 포함하는 상기 단계와,

- 모노럴 신호 및 상기 공간적 파라메터들로부터 다중-채널 출력 신호를 생성하는 단계를 포함한다.

본 발명은 추가로

인코딩된 오디오 신호를 디코딩하는 디코더와 더 관련되며, 상기 디코더는,

- 인코딩된 오디오 신호로부터 모노럴 신로를 얻는 수단으로서, 상기 모노럴 신호는 적어도 2개의 오디오 채널들의 조합을 포함하는 상기 수단과, ,

- 인코딩된 오디오 신호로부터 공간적 파라메터들의 세트를 얻는 수단으로서, 공간적 파라메터들의 상기 세트는 적어도 2개의 오디오 채널들의 파형들의 유사성의 척도를 나타내는 파라메터를 포함하는 상기 수단과,

- 모노럴 신호 및 상기 공간적 파라메터들로부터 다중-채널 출력 신호를 생성하는 수단을 포함한다.

상기 수단들은 임의의 적절한 회로 또는 디바이스, 예를 들면 범용 또는 특수-목적의 프로그램 가능한 마이크로프로세서들, 디지털 신호 처리기들(DSP), 용도 특이적 집적 회로들(ASIC), 프로그램 가능한 논리 어레이들(PLA), 필드-프로그램 가능한 게이트 어레이들(FPGA), 특수 목적의 전자 회로들 등 또는 이들의 조합물에 의해 구현될 수 있음이 주목된다.

본 발명은 디코딩된 오디오 신호를 공급하는 장치와 더 관련되며, 상기 장치는,

- 인코딩된 오디오 신호를 수신하는 입력단과,

- 다중-채널 출력 신호를 얻기 위해 상기 인코딩된 오디오 신호를 디코딩하기 위한 제 14 항에 청구된 디코더와

- 다중-채널 출력 신호를 공급 또는 재생산하는 출력단을 포함한다.

이 장치는 임의의 전자 장비 또는 상기한 바의 그러한 장비의 일부일 수 있다.

입력단은 코딩된 오디오 신호를 수신하는 임의의 적절한 회로 또는 디바이스를 포함할 수 있다. 그러한 입력단들의 예들은 LAN, 인터넷 등의 컴퓨터 네트워크를 통해 신호를 수신하는 네트워크 인터페이스, 통신 채널, 예를 들면 무선 통신 채널 등을 통해 신호를 수신하는 통신 회로를 포함한다. 다른 실시예들에서, 입력단은 저장 매체로부터 신호를 판독하는 디바이스를 포함할 수 있다.

유사하게, 출력단은 디지털 또는 아날로그 형태로 다중-채널 신호를 공급하기 위한 임의의 적절한 회로 또는 디바이스를 포함할 수 있다.

본 발명의 이들 측면 및 기타 측면들은 도면을 참조하여 아래 기재된 실시예들로부터 명확하고 명백해질 것이다.

도 1은 본 발명의 일 실시예에 따라 오디오 신호를 인코딩하는 방법의 흐름도를 도시한다.

도 2는 본 발명의 일 실시예에 따른 코딩 시스템의 개략적 블록도를 도시한다.

도 3은 오디오 신호를 합성하는데 사용하기 위한 필터 방법을 도시한다.

도 4는 오디오 신호를 합성하는데 사용하기 위한 비상관기를 도시한다.

초기 단계 S1에서, 유입되는 신호들 L 및 R은 참조 번호 101로 지시된 대역-통과 신호들로 (바람직하게는 주파수에 따라 증가하는 대역폭에 의해) 분할됨으로써, 이들의 파라메터들은 시간의 함수로서 분석될 수 있다. 시간/주파수 분할을 위한 하나의 가능한 방법은 변환 오퍼레이션에 이어 시간-윈도우화를 사용하는 것이지만, 시간-연속 방법들이 사용될 수도 있다(예, 필터 뱅크들). 이 프로세스의 시간 및 주파수 분해능은 신호에 채용되는 것이 바람직하고; 일시적인 신호들에 대해, 미세한 시간 분해능(수 밀리초의 치수) 및 거친 주파수 분해능이 바람직한 한편, 비-일시적 신호들에 대해, 보다 미세한 주파수 분해능 및 보다 거친 시간 분해능(수십 밀리초의 치수)이 바람직하다. 순차로, 단계 S2에서, 대응하는 서브 대역 신호들의 레벨 차이(ILD)가 결정되고; 단계 S3에서, 대응하는 서브대역 신호들의 시간 차이(ITD 또는 IPD)가 결정되고; 단계 S4에서 ILD들 또는 ITD들에 의해 설명될 수 없는 파형들의 유사성 또는 비유사성의 양이 기재된다. 이들 파라메터들의 분석은 아래 고찰된다.

단계 S2: ILD들의 분석

ILD는 주어진 주파수 대역에 대해 특정 시간의 경우에 신호들의 레벨 차이에 의해 결정된다. ILD를 결정하는 하나의 방법은 두 입력 채널들의 대응하는 주파수 대역의 근제곱 평균(rms) 값을 측정하고 이들 rms 값들(바람직하게는 dB로 표현됨)의 비율을 연산하는 것이다.

단계 S3: ITD들의 분석

ITD는 양 채널들의 파형들 사이에 최상의 일치를 제공하는 시간 또는 위상 정렬에 의해 결정된다. ITD를 얻는 하나의 방법은 2개의 대응하는 서브 대역 신호들 사이의 교차-상관 관계 함수를 연산하고 최대값을 찾는 것이다. 교차-상관 관계 함수에서 이러한 최대값에 대응하는 지연은 ITD 값으로서 사용될 수 있다. 제 2 방법은 좌측 및 우측 서브대역의 분석적 신호들을 연산하고(즉, 페이스 및 엔벨로프 값들을 연산함), IPD 파라메터로서 채널들 간의 (평균) 위상 차이를 사용하는 것이다.

단계 S4: 상관 관계의 분석

상관 관계는 먼저 대응하는 서브 대역 사이에 최상의 일치를 제공하는 ILD 및 ITD를 우선 발견하고, 이어서 ITD 및/또는 ILD에 대한 보상 후 파형들의 유사성을 측정함으로써 얻어진다. 따라서, 이 프레임워크에서, 상관 관계는 ILD들 및/또는 ITD들에 속할 수 없는 대응하는 서브 대역 신호들의 유사성 또는 비유사성으로서 정의된다. 이 파라메터에 대한 적절한 척도는 교차-상관 관계 함수의 최대값(즉, 지연들의 세트를 가로지를 최대값)이다. 그러나, 대응하는 서브대역들의 합 신호에 비교한 ILD 및/또는 ITD 보상 후 차이 신호의 상대적 에너지 등의 다른 척도들이 사용될 수 있다(바람직하게는 ILD들 및/또는 ITD들에 대해 역시 보상됨). 이러한 차이 파라메터는 기본적으로 (최대) 상관 관계의 선형 변환이다.

후속 단계들 S5, S6 및 S7에서, 측정된 파라메터들이 양자화된다. 파라메터들의 전송의 중요한 쟁점은 파라메터 표시의 정확도(즉, 양자화 에러들의 크기)이고, 이는 필수적인 전송 용량에 직접적으로 관련된다. 이 섹션에서, 공간적 파라메터들의 양자화와 관련된 여러 가지 쟁점들이 고찰될 것이다. 기본적인 개념은 이른 바 공간적 큐들의 바로-인식 가능한 차이들(JND들)에 대한 양자화 에러들을 기초한 것이다. 보다 명확히 하기 위해, 양자화 에러는 파라메터들에서 변화에 대한 인간 청각 시스템의 감응성에 의해 결정된다. 파라메터들의 변화들에 대한 감응성은 파라메터들 자체의 값들에 강력히 의존하기 때문에, 우리는 이산적인 양자화 단계들을 결정하기 위해 다음 방법들을 적용한다

단계 S5: ILD들의 양자화

이는 ILD에서 변화들에 대한 감응성이 ILD 자체에 의존한다는 정신 음향적연구로부터 공지된다. ILD가 dB로 표현되는 경우, 0dB의 기준치로부터 대략 1dB의 편차가 검출될 수 있는 한편, 3dB의 수치의 변화들은 기준 레벨 차이가 20dB에 상당하는 양인 경우에 필요하다. 따라서, 양자화 에러들은 좌측 및 우측 채널들의 신호가 보다 큰 레벨 차이를 갖는 경우에 보다 커질 수 있다. 예를 들면, 이는 먼저 채널들 사이의 레벨 차이를 측정하고, 이어서 얻어진 레벨 차이의 비선형(압축) 변환에 의해서 및 순차로 선형 양자화 프로세스에 의해서 또는 비선형 분포를 갖는 유효 ILD 값들에 대한 색인표을 사용함으로써 적용될 수 있다. 아래 실시예는 그러한 색인표의 일 예를 제공한다.

단계 S6: ITD들의 양자화

ITD들에서 변화들에 대한 감응성은 일정한 위상 임계값을 갖는 것으로서 특성화될 수 있다. 이는 지연 시간들의 견지에서, ITD의 양자화 단계는 주파수에 의해 감소되어야 한다. 대안으로, ITD가 위상 차이들의 형태로 나타나는 경우, 양자화 단계들은 주파수와 독립적이어야 한다. 이를 구현하는 하나의 방법은 양자화 단계로서 고정 위상 차이를 취하고 각각의 주파수 대역에 대한 대응하는 시간 지연을 결정하는 것이다. 이어서, 이러한 ITD 값은 양자화 단계로서 사용된다. 다른 방법은 주파수-독립형 양자화 체제에 따르는 위상 차이들을 전송하는 것이다. 이것은 또한 특정 주파수 이상에서, 인간의 청각 시스템이 미세 구조의 파형들에서 ITD들에 감응하지 않는 것으로 밝혀졌다. 이러한 현상은 특정 주파수(전형적으로 2kHz)에 이르기까지 ITD 파라메터들을 전송함으로써만 전개될 수 있다.

제 3의 비트스트림 감소 방법은 동일한 서브대역의 ILD 및/또는 상관 관계파라메터들에 의존하는 ITD 양자화 단계들을 포함시키는 것이다. 큰 ILD들에 대해, ITD들는 정확히 적게 코딩될 수 있다. 더욱이, 상관 관계가 매우 낮은 경우, ITD에서 변화들에 대한 인간의 감응성은 감소되는 것으로 알려졌다. 따라서, 보다 큰 ITD 양자화 에러들이 상관 관계가 적은 경우에 적용될 수 있다. 이러한 개념의 극단적인 예는 상관 관계가 특정한 임계값 이하인 경우 및/또는 ILD가 동일한 서브대역에 대해 충분히 큰 경우(전형적으로 약 20dB) ITD들를 전혀 전송하지 않는 것이다.

단계 S7: 상관 관계의 양자화

상관 관계의 양자화 에러는 (1) 상관 관계값 자체 및 가능하게는 (2) ILD에 의존한다. +1에 근사하는 상관 관계값은 큰 정확도(즉, 작은 양자화 단계)로 코딩되는 한편, 0에 근사하는 상관 관계값들은 낮은 정확도(큰 양자화 단계)로 코딩될 수 있다. 비선형으로 분포된 상관 관계 값들의 세트의 일 예가 이 실시예에 주어진다. 제 2의 확률은 동일한 서브대역의 측정된 ILD에 의존하는 상관 관계에 대한 양자화 단계들을 사용하는 것이고: 큰 ILD들(즉, 하나의 채널이 에너지의 견지에서 지배적임)에 대해, 상관 관계에서 양자화 에러들이 커진다. 이러한 원리의 극도의 실시예는 그 서브대역에 대한 ILD의 절대값이 특정 임계값 미만인 경우 특정 서브대역에 대한 상관 관계 값들을 전혀 전송하지 않는 것일 수 있다.

단계 S8에서, 모노럴 신호 S는 유입되는 오디오 신호들로부터, 예를 들면 유입되는 신호 성분들의 합 신호로서, 지배적인 신호를 결정함으로써, 유입되는 신호 성분들로부터 주요 성분 신호를 발생시킴으로서 생성된다. 이러한 프로세서는 바람직하게는 모노 신호를 생성하기기 위해, 즉 먼저 조합 전에 ITD 또는 IPD를 사용하여 서브대역 파형들을 정렬시킴으로써 추출된 공간적 파라메터들을 사용한다.

마지막으로, 단계 S9에서, 코딩된 신호(102)는 모노럴 신호 및 결정된 파라메터들로부터 발생된다. 대안으로, 합 신호 및 공간적 파라메터들은 동일하거나 또는 상이한 채널들을 통해 별개의 신호들로서 통신될 수 있다.

상기 방법은 대응하는 배치에 의해 구현될 수 있고, 예를 들면 범용 또는 특수 목적의 프로그램 가능한 마이크로프로세서들, 디지털 신호 프로세서들(DSP), 용도 특이적 집적 회로들(ASIC), 프로그램 가능한 논리 어레이들(PLA), 필드 프로그램 가능한 게이트 어레이들(FPGA), 특수 목적의 전자 회로들 등 또는 이들의 조합물로서 구현될 수 있음이 주목된다.

도 2는 본 발명의 일 실시예에 따른 코딩 시스템의 개략적 블록도를 나타낸다. 이 시스템은 인코더(201) 및 대응하는 디코더(202)를 포함한다. 디코더(201)는 2개의 성분들 L 및 R을 갖는 스테레오 신호를 수신하고, 디코더(202)로 통신되는 공간적 파라메터들 P 및 합 신호 S를 포함하는 코딩된 신호(203)를 생성한다. 이 신호(203)는 임의의 적절한 통신 채널들(204)을 통해 통신될 수 있다. 대안으로 또는 추가로, 신호는 소거 가능한 저장 매체(214), 예를 들면 메모리 카드 상에 저장될 수 있고, 이는 인코더로부터 디코더로 전송될 수 있다.

인코더(201)는 바람직하게는 각각의 시간/주파수 슬롯에 대해 유입되는 신호들 L 및 R 각각의 공간적 파라메터들을 분석하기 위한 분석 모듈들(205 및 206)을 포함한다. 인코더는 양자화된 공간적 파라메터들을 발생시키는 파라메터 추출 모듈(207); 및 적어도 2개의 입력 신호들의 특정 조합으로 구성된 합(또는 지배적) 신호를 발생시키는 조합기 모듈(208)을 더 포함한다. 인코더는 모노럴 신호 및 공간적 파라메터들을 포함하는 결과의 코딩된 신호(203)를 발생시키는 인코딩 모듈(209)을 더 포함한다. 일 실시예에서, 이 모듈(209)은 다음 함수들: 비트율 할당, 프레이밍, 손실 없는 코딩 등 중의 하나 이상을 더 수행한다.

합성(디코더(202)에서)은 좌측 및 우측 출력 신호들을 발생시키기 위해 합 신호에 공간적 파라메터들을 인가함으로써 수행된다. 따라서, 디코더(202)는 모듈(209)의 역 오퍼레이션을 수행하고, 코딩된 신호(203)로부터 파라메터들 P 및 합 신호 S를 추출하는 디코딩 모듈(210)을 포함한다. 디코더는 합(또는 지배적) 신호 및 공간적 파라메터들로부터 스테레오 성분들 L 및 R을 회수하는 합성 모듈(211)을 추가로 포함한다.

이 실시예에서, 공간적 파라메터 설명은 스테레오 오디오 신호를 인코딩하기 위해 모노럴 (단일 채널) 오디오 코더와 조합된다. 기재된 실시예는 스테레오 신호들 상에서 작업하지만, 일반적인 개념은 n-채널 오디오 신호들에 적용될 수 있음에 주의해야 한다(단, n>1).

분석 모듈들(205 및 206)에서, 좌측 및 우측으로 인입하는 신호들 L 및 R 각각은 여러 가지 시간 프레임들(예, 각각 44.1 kHz 샘플링 속도로 2048 샘플들을 포함함)에서 분할되고, 제곱근 해닝(Hanning) 윈도우로 윈도우즈된다. 순차로, FFTs가 연산된다. 음의 FFT 주파수들이 폐기되고, 결과의 FFTs가 FFT 빈들(bins)의 그룹들(서브대역들)로 부분 분할된다. 서브 대역 g에서 합해진 FFT 빈들의 수는 주파수에 의존하고; 보다 큰 주파수들에서, 보다 적은 주파수들에서 보다 많은 빈들이 조합된다. 일 실시예에서, 대략 1.8ERB들(직사각형 대역폭에 등가임)에 대응하는 FFT 빈들이 그룹화되고, 전체 가청 주파수 범위를 나타내도록 20개의 서브 대역들을 초래한다. 각각의 순차의 서브 대역의 FFT 빈들 S[g]의 결과의 수(가장 낮은 주파수에서 시작함)는 다음과 같다.

따라서, 제 1의 3개의 서브대역들은 4FFT 빈들을 포함하고, 제 4 서브대역은 5FFT 빈들을 포함한다. 각각의 서브대역에 대해, 대응하는 ILD, ITD 및 상관 관계(r)가 연산된다. ITD 및 상관 관계는 다른 군들에 속하는 모든 FFT 빈들을 0으로 설정하고, 좌측 및 우측 채널들로부터 결과의 (대역-제한된) FFT들을 승산하고, 이어서 역 FFT 변환시킴으로써 간단히 연산된다. 결과의 교차-상관 관계 함수는 -64 내지 +63 샘플들 사이의 채널간 지연 내에서 피크에 대해 스캔된다. 피크에 대응하는 내부 지연은 ITD 값으로서 사용되고, 이 피크에서 교차-상관 관계 함수의 값은 이러한 서브대역의 채널간 상관 관계로서 사용된다. 마지막으로, ILD는 각각의 서브대역에 대해 좌측 및 우측 채널들의 전력비를 취함으로써 간단히 연산된다.

조합기 모듈(208)에서, 좌측 및 우측 서브대역들은 위상 정정(일시적 정렬) 후 합산된다. 이러한 위상 상관 관계는 그러한 서브대역에 대해 연산된 ITD로부터 후속하고, ITD/2로 좌측-채널 서브밴드를 지연시키고 -ITD/2로 우측-채널 서브밴드를 지연시키는 것으로 구성된다. 이 지연은 각각의 FFT 빈의 위상 각들의 적절한변경에 의해 주파수 도메인에서 수행된다. 순차로, 합 신호는 좌측 및 우측 서브대역 신호들의 위상-변형된 버전들을 부가함으로써 연산된다. 마지막으로, 상관되지 않거나 또는 상관된 부가물을 보상하기 위해, 합 신호의 각각의 서브대역은 대응하는 서브대역의 r 상관 관계에 따라, 제곱근(2/(1+r))이 승산된다. 필요할 경우, 합 신호는 (1) 음의 주파수들에서 복수 공액들(complex conjugates)의 삽입, (2) 역 FFT, (3) 윈도우화, 및 (4)오버랩-부가에 의해 시간 도메인으로 변환될 수 있다.

파라메터 추출 모듈(207)에서, 공간적 파라메터들은 양자화되고, ILD들(dB로)는 다음 세트 I 밖의 가장 근사한 값으로 양자화된다:

ITD 양자화 단계들은 0.1rad의 각각의 서브대역의 일정한 위상 차이에 의해 결정된다. 따라서, 각각의 서브대역에 대해, 서브대역 중심 주파수의 0.1rad에 대응하는 시간 차이는 양자화 단계로서 사용된다. 2kHz 이상의 주파수들에 대해, 어떠한 ITD 정보도 전송되지 않는다.

채널간 상관 관계값 r은 다음 앙상블 R의 가장 가까운 값으로 양자화된다:

이는 상관 관계 값당 다른 3개의 비트들을 부담할 것이다.

현재 서브대역의 (양자화된) ILD의 절대값이 19dB의 양인 경우, 어떠한 ITD 및 상관 관계 값들도 이러한 서브대역으로 전송되지 않는다. 특정 서브대역의 (양자화된) 상관 관계 값이 0의 양인 경우, 어떠한 ITD 값도 그러한 서브대역에 대해 전송되지 않는다.

이러한 방식으로, 각각의 프레임은 공간적 파라메터들을 전송하기 위해 최대 233비트를 필요로 한다. 1024 프레임들의 프레임 길이에 의해, 전송을 위한 최대 비트율은 10.25kbit/s의 양이다. 엔트로피 코딩 또는 상이한 코딩을 사용하여, 이러한 비트율은 추가로 감소될 수 있음에 주의해야 한다.

디코더는 합성 모듈(211)을 포함하고, 여기서 스테레오 신호는 수신된 합 신호 및 공간적 파라메터들로부터 합성된다. 따라서, 이러한 설명의 목적으로, 합성 모듈은 상기한 바의 합 신호의 주파수-도메인 표시를 수신하는 것으로 가정된다. 이러한 표시는 시간-도메인 파형의 윈도우화 및 FFT 오퍼레이션들에 의해 얻어질 수 있다. 먼저, 합 신호는 좌측 및 우측 출력 신호들로 복제된다. 순차로, 좌측 및 우측 신호들 간의 상관 관계는 비상관기에 의해 변경된다. 바람직한 실시예에서, 아래 기재되는 바의 비상관기가 사용될 수 있다. 순차로, 좌측 신호의 각각의 서브대역은 -ITD/2 만큼 지연되고, 우측 신호는 그 서브대역에 대응하는 (양자화된) ITD 제공하는 ITD/2 만큼 지연된다. 마지막으로, 좌측 및 우측 서브대역들은 그 서브대역에 대한 ILD에 따라 스케일된다. 일 실시예에서, 상기 변형은 아래 기재된 바의 필터에 의해 수행된다. 출력 신호들을 시간 도메인으로 변환시키기 위해, 다음 단계들: (1) 음의 주파수들에서 복수 공액들의 삽입, (2) 역 FFT, (3) 윈도우화, 및 (4) 오버랩-부가가 수행된다.

도 3은 오디오 신호를 합성하는데 사용하기 위한 필터 방법을 예시한다. 초기 단계 301에서, 인입하는 오디오 신호 x(t)는 많은 프레임들로 세그먼트화된다. 세그먼트화 단계(301)는 적절한 길이의 프레임들 x_R(t), 예를 들면 500-5000 샘플들 범위에서, 1024 또는 2048개 샘플들로 분할된다.

바람직하게는, 세그먼트화는 오버래핑 분석 및 합성 윈도우 함수들을 사용하여 수행됨으로써, 프레임 경계들에 도입될 수 있는 아티팩트들을 억제한다(예, Princen, J. P. 및 Bradley, A. B.: "Analysis/synthesis filterbank design based on time domain aliasing cancellation", IEEE transactions on Acoustics, Speech and Signal processing, ASSP 34권, 1989 참조)

단계 302에서, 프레임들 x_R(t) 각각은 퓨리에 변환을 적용함으로써 주파수 도메인으로 변환되고, 바람직하게는 고속 퓨리에 변환(FFT)으로서 구현된다. n-번째 프레임 x_R(t)의 결과의 주파수 표시는 많은 주파수 성분들 X(k,n)을 포함하고, 여기서 파라메터 n은 프레임수를 지시하고, 0<k<K인, 파라메터 k는 주파수 ω_k에 대응하는 주파수 빈 또는 주파수 성분을 지시한다. 일반적으로, 주파수 도메인 성분들 X(k,n)은 복잡한 수들이다.

단계 303에서, 현재 프레임에 대한 목적하는 필터는 수신된 시간-변화하는 공간적 파라메터들에 따라 결정된다. 목적하는 필터는 n-번째 프레임에 대해 K 복잡한 중량 인자들 0<k<K, F(k,n)의 세트를 포함하는 목적하는 필터 응답으로서 표현된다. 필터 응답 F(k,n)은 2개의 실제 번호들, 즉에따라 그의 크기 a(k,n) 및 그의 위상으로 표시될 수 있다.

주파수 도메인에서, 여과된 주파수 성분들은 Y(k,n) = F(k,n)ㆍF(k,n)이고, 즉, 이들은 입력 신호의 주파수 성분들 F(k,n)과 필터 응답 F(k,n)의 승산을 초래한다. 숙련자에게 명백하듯이, 주파수 도메인에서 이러한 승산은 입력 신호 프레임 x_n(t)과 대응하는 필터 f_n(t)의 상승에 대응한다.

단계 304에서, 목적하는 필터 응답 F(k,n)은 이를 현재 프레임 X(k,n)에 적용시키기 전에 변경된다. 특히, 적용되어야 할 실제 필터 응답 F'(k,n)은 목적하는 필터 응답 F(k,n) 및 이전 프레임들의 정보(308)의 함수로서 결정된다. 바람직하게는, 이러한 정보는 다음에 따라 1개 이상의 이전 프레임들의 실제 및/또는 목적하는 필터 응답을 포함한다.

따라서, 이전 필터 응답들의 역사에 의존하는 실제 필터 응답을 만들므로서, 연속적인 프레임들 사이의 필터 응답에서 변화들에 의해 도입된 아티팩트(artifacts)들은 효율적으로 억제될 수 있다. 바람직하게는, 변환 함수 Φ의 실제 형태가 다이내믹하게-변화하는 필터 응답들로부터 초래되는 오버랩-부가된 아티팩트들을 감소시키기 위해 선택된다.

예를 들면, 변환 함수 Φ는 단일의 이전의 응답 함수의 함수일 수 있다. 예를 들면 F'(k,n) = Φ₁[F(k,n), F(k,n-1)] 또는 F'(k,n) = Φ₂[F'(k,n), F'(k,n-1)]. 다른 실시예에서, 변환 함수는 많은 이전의 응답 함수들에 걸쳐 플로팅 평균, 예를 들면 이전의 응답 함수들의 여과된 버전 등을 포함할 수 있다. 변환 함수 Φ의 바람직한 실시예들은 아래 보다 상세히 기재될 것이다.

단계 305에서, 실제 필터 응답 F'(k,n)은 Y(k,n)=F'(k,n)ㆍX(k,n)에 따라 입력 신호의 현재 프레임의 주파수 성분들 X(k,n)과 대응하는 필터 응답 인자들 F'(k,n)을 승산함으로써 현재 프레임에 적용된다.

단계 306에서, 결과의 프로세스된 주파수 성분들 Y(k,n)은 필터링된 프레임들 y_n(t)을 초래하는 시간 도메인으로 다시 변환된다. 바람직하게는, 역 변환은 역 고속 퓨리에 변환(IFFT)으로서 구현된다.

마지막으로, 단계 307에서, 필터링된 프레임들은 오버랩-부가된 방법에 의해 필터링된 신호 y(t)에 재조합된다. 그러한 오버랩 부가 방법의 효율적인 구현은 Bergmans, J. W. M.: "Digital basband transmission and recording", Kluwer, 1996에 개시된다.

일 실시예에서, 단계 304의 변환 함수 Φ는 현재 프레임과 이전 프레임 사이의 위상-변화 리미터로서 구현된다. 이러한 실시예에 따라, 대응하는 주파수 성분의 이전 샘플에 인가된 실제 위상 변형에 비교한 각각의 주파수 성분 F(k,n)의 위상 변화 δ(k)는 다음과 같이 연산된다. 즉,.

순차로, 목적하는 필터 F(k,n)의 위상 성분은 프레임들을 가로지르는 위상변화가 감소되는 방식으로, 그 변화가 오버랩-부가된 아티팩트들을 초래할 수 있는 경우에 변형된다. 이러한 실시예에 따라, 이는 실제 위상 차이가 소정의 임계값을 초과하지 않도록 보장함으로써, 예를 들면 다음에 따르는 위상 차이의 단순한 커팅에 의해 성취된다.

(1)

임계값 c는 소정의 상수, 예를 들면 π/8 내지 π/3 rad 사이의 상수일 수 있다. 일 실시예에서, 임계값 c는 상수는 아니지만, 예를 들면 시간, 주파수 및/또는 유사한 것의 함수일 수 있다. 더욱이, 위상 변화에 대한 상기 한계에 대한 대안으로, 다른 위상-변화-한계 함수들이 사용될 수 있다.

일반적으로, 상기 실시예에서, 개개의 주파수 성분에 대한 후속 시간 프레임들을 가로지르는 목적하는 위상-변화는 입출력 함수 P(δ(k))에 의해 변환되고, 실제 필터 응답 F'(k,n)은 다음 식으로 주어진다.

F'(k,n) = F'(k,n-1)ㆍexp[jP(δ(k))]. (2)

따라서, 이 실시예에 따라, 후속 시간 프레임들을 가로지르는 위상 변화의 변환 함수 P가 도입된다.

필터 응답의 변환의 다른 실시예에서, 위상 제한 공정은 음조의 적절한 척도, 예를 들면 아래 기재된 예측 방법에 의해 구동된다. 이는 잡음과 같은 신호들에서 발생하는 연속적인 프레임들 사이의 위상 점프들이 본 발명에 따른 위상-변화 제한 공정으로부터 배제될 수 있다는 장점을 갖는다. 이는, 잡음과 같은 신호들에서 그러한 위상 점프들을 제한하는 것이 합성음 또는 금속음으로서 종종 인지되는 잡음형 신호 사운드를 보다 많은 음조를 만들 수 있기 때문에 유리하다.

이러한 실시예에 따라, 예측되는 위상 에러 θ(k)=(k,n)-(k,n-1)-ω_kㆍh가 산출된다. 여기서, ω_k는 k번째 주파수 성분에 대응하는 주파수를 나타내고, h는 샘플들 중 홉 크기(hop size)를 나타낸다. 여기서, 홉 크기라는 용어는 2개의 인접한 윈도우 센터들 사이의 차이, 즉 대칭 윈도우들에 대한 분석 길이의 절반을 의미한다. 다음에서, 상기 에러는 간격 [-π, +π]으로 래핑되는 것으로 가정된다.

순차로, k번째 주파수에서 위상 예측 가능성의 양에 대한 예측 척도 P_k는 P_k= (π-｜θ(k)｜/π∈[0,1])에 따라 산출되고, 여기서 ｜ㆍ｜는 절대값을 나타낸다.

따라서, 상기 척도 P_k는 k번째 주파수 빈에서 위상-예측 가능성의 양에 따라 0과 1사이의 값을 생성한다. P_k가 1에 근접한 경우, 밑에 놓인 신호는 높은 정도의 음조를 갖는 것으로 가정될 수 있고, 즉, 실질적으로 사인파 파형을 갖는다. 그러한 신호에 대해, 위상 점프들은 예를 들면 오디오 신호의 청취자에 의해 용이하게 인지될 수 있다. 따라서, 위상 점프들은 이러한 경우에 제거되어야 하는 것이 바람직하다. 다른 한편, P_k의 값이 0에 근사하는 경우, 언더라잉 신호(underlying signal)는 잡음으로 가정될 수 있다. 잡음 신호들에 대해, 위상 점프들은 용이하게 인지되지 않고 따라서 허용될 수 있다.

따라서, 위상 제한 함수는 P_k가 소정의 임계값을 초과하는 경우에 적용되고, 즉, 척도 P_k> A, 다음에 따라 실제 필터 응답 F'(k,n)을 초래한다.

여기서, A는 각각 +1, 0인 P의 상위 및 하위 경계들에 의해 제한된다. A의 정확한 값은 실제 구현에 의존한다. 예를 들면, A는 0.6과 0.9 사이에서 선택될 수 있다.

대안으로, 음조를 추정하는 임의의 다른 적절한 척도가 사용될 수 있는 것이 이해된다. 또 다른 실시예에서, 상기 허용되는 위상 점프 c는 음조의 적절한 척도, 예를 들면 상기 척도 P_k에 의존하여 이루어짐으로써, P_k가 크거나 또는 그 역인 경우 보다 큰 위상 점프들을 허용한다.

도 4는 오디오 신호를 합성하는데 사용하기 위한 비상관기를 도시한다, 비상관기는 채널간 교차-상관 관계 r 및 채널 차이 c를 나타내는 파라메터를 포함하는 공간적 파라메터들 P의 세트 및 모노럴 신호 x를 수신하는 전역-통과 필터(401)를 포함한다. 파라메터 c는 ILD = klog(c)에 의해 채널간 레벨 차이에 관련되고, 여기서, k는 상수이고, 즉, ILD는 c의 대수에 비례하는 것에 주의하자.

바람직하게는, 전역-통과 필터는 낮은 주파수들에서보다 높은 주파수들에서 비교적 작은 지연을 제공하는 주파수-의존성 지연을 포함한다. 이는 슈뢰더-위상콤플렉스(Schroeder-phase complex)의 일 기간을 포함하는 전역-통과 필터로 전역-통과 필터의 고정된 지연을 대체함으로써 성취될 수 있다(예, M. R. Schroeder, "Synthesis of low-peak-factor signals and binary sequences with low autocorrelation", IEEE Transact. Inf. Theor. 16:85-89, 1970 참조). 비상관기는 디코더로부터 공간적 파라메터들을 수신하고 채널간 교차-상관 관계 r 및 채널 차이 c를 추출하는 분석 회로(402)를 더 포함한다. 회로(402)는 아래 고찰하게 될 혼합 매트릭스 M(α,β)를 결정한다. 혼합 매트릭스의 성분들은 변환 회로(403) 내로 공급되어, 입력 신호 x 및 여과된 신호를 추가로 수신한다. 회로(403)은 다음에 따른 혼합 오퍼레이션을 수행하고

(3)

출력 신호들 L 및 R을 초래한다.

신호들 L 및 R 사이의 상관 관계는 r=cos(α)에 따라 신호들 x 및에 의해 스팬(span)된 공간에서 신호들 L 및 R 각각을 나타내는 벡터들 사이의 각 α로서 표현될 수 있다. 결과적으로, 정확한 각 거리(correct angular distance)를 나타내는 벡터들의 임의의 쌍은 특이적 상관 관계를 갖는다.

따라서, 신호들 x 및를 소정의 상관 관계 r에 의해 신호들 L 및 R로 변환시키는 혼합 매트릭스 M은 다음과 같이 표현될 수 있다:

(4)

따라서, 전역-통과 필터링된 신호의 양은 목적하는 상관 관계에 의존한다. 더욱이, 전역-통과 신호 성분의 에너지는 양 출력 채널들에서 동일하다(하지만 180˚위상 시프트됨).

매트릭스 M이 다음 식으로 주어지는 경우,

(5)

즉, α=90˚일때, 상관되지 않은 출력 신호들(r=0)에 대응하는 경우는, 로리드센 비상관기(Lauridsen decorrelator)에 대응하는 것에 주의하자.

식(5)의 매트릭스에 의해 문제점을 예시하기 위해, 우리는 좌측 채널쪽으로 패닝(panning)하는 최고 진폭을 갖는 상황, 즉 특정 신호가 좌측 채널에만 존재하는 경우를 가정한다. 우리는 출력단들 간의 목적하는 상관 관계가 0인 것으로 추가로 가정한다. 이러한 경우에, 식(5)의 혼합 매트릭스에 의해 식(3)의 변환의 좌측 채널의 출력은를 생성한다. 따라서, 이 출력단은 그의 전역-통과 필터링된 버전과 조합된 원시 신호 x로 구성된다.

그러나, 전역-통과 필터는 통상적으로 신호의 지각할 수 있는 품질을 악화시키기 때문에, 이는 목적하지 않는 상황이다. 더욱이, 원시 신호 및 필터링된 신호의 부가는 출력 신호의 인지된 착색 등의 콤브-필터 효과들(comb-filter effects)을 초래한다. 이와 같이 가정된 극도의 상황에서, 최상의 해결책은 좌측 출력 신호가 입력 신호로 구성된다는 것이다. 이는 2개의 출력 신호들의 상관 관계가 여전히 0일 수 있는 방식이다.

보다 적당한 레벨 차이들을 갖는 상황들에서, 바람직한 상황은 보다 큰 출력 채널이 비교적 많은 원시 신호를 포함하고, 보다 유연한 출력 채널이 비교적 많은 필터링된 신호를 포함한다는 것이다. 따라서, 일반적으로, 2개의 출력단들에 함께 존재하는 원시 신호의 양을 최대화시키고, 필터링된 신호의 양을 최소화시키는 것이 바람직하다.

이러한 실시예에 따라, 이는 추가의 공통 회전을 포함하는 상이한 혼합 매트릭스를 도입함으로써 성취된다.

(6)

여기서 β는 추가의 회전이고, C는 출력 신호들 간의 상대적인 레벨 차이가 c와 동일한 것을 보장하는 스케일링 매트릭스이다. 즉,

식(3)에 식(6)의 매트릭스를 삽입함으로써 본 실시예에 따라 매트릭스화 오퍼레이션에 의해 발생된 출력 신호들을 생성한다:

따라서, 출력 신호들 L 및 R은 여전히 각 차이를 갖고, 즉, L 및 R 신호들 간의 상관 관계는 L 및 R 신호들 모두의 각 β의 추가의 화전 및 목적하는 레벨 차이에 따라 신호들 L 및 R을 스케일링 함으로써 영향을 받지 않는다.

상기한 바와 같이, 바람직하게는, L 및 R의 요약된 출력에서 원시 신호 x의 양은 최대화되어야 한다. 이러한 조건은 다음에 따라 각 β를 결정하기 위해 사용될 수 있고,

다음 조건을 생성한다.

요약하자면, 본원 발명은 다중 채널 오디오 신호들의 공간적 속성들의 정신-음향적으로 자극되는 파라메터적 설명을 기재한다. 이 파라메터적 설명은 단지 하나의 모노럴 신호가 전송되어야 하고, 신호의 공간적 특성들을 기재하는 (양자화된) 파라메터들과 조합되어야 하기 때문에 오디오 코더들에서 강력한 비트율 감소들을 허용한다. 디코더는 공간적 파라메터들을 인가함으로써 원래량의 오디오 채널들을 형성할 수 있다. 근접한-CD-품질 스테레오 오디오를 위해, 10kbit 이하의공간적 파라메터들과 연합된 비트율이 수신 단부에서 정확한 공간적 임프레션을 재생산하기에 충분해 보인다. 이 비트율은 공간적 파라메터들의 공간적 및/또는 일시적 분해능을 감소시키고/시키거나 손상 없는 압축 알코리즘들을 사용하여 공간적 파라메터들을 처리함으로써 더 축소(scaled down)될 수 있다.

상기 실시예들은 본 발명을 제한하기보다는 오히려 예시하는 것으로, 본 기술의 숙련자들은 첨부된 특허 청구의 범위에서 벗어나지 않는 많은 대안의 실시예들을 고안할 수 있음을 인식해야 한다.

예를 들면, 본 발명은 주로 2개의 편재화 큐들 ILD 및 ITD/IPD를 사용하는 실시예와 관련하여 기재하였다. 대안의 실시예들에서, 다른 편재화 큐들이 사용될 수 있다. 더욱이, 일 실시예에서, ILD, ITD/IPD, 및 채널간 교차-상관 관계는 상기한 바와 같이 결정될 수 있지만, 채널간 교차-상관 관계만이 모노럴 신호와 함께 전송됨으로서, 오디오 신호를 전송/저장하기 위해 요구된 대역폭/저장 용량을 더 감소시킬 수 있다. 대안으로, 채널간 교차-상관 관계 및 ILD 및 ITD/IPD 중의 하나가 전송될 수 있다. 이들 실시예들에서, 이 신호는 전송된 파라메터들만에 기초하여 모노럴 신호로부터 합성된다.

특허 청구의 범위에서, 괄호 안의 임의의 기호들은 특허 청구의 범위를 제한하는 것으로서 해석되지 않아야 한다. "포함하는"이라는 단어는 특허 청구의 범위에 나열된 것들 이외의 요소들 또는 단계들의 존재를 배제하지 않는다. 요소 앞에 선행하는 "하나" 또는 "한개"라는 단어는 복수개의 그러한 요소들의 존재를 배제하지 않는다.

본 발명은 여러 가지 독특한 소자들을 포함하는 하드웨어 수단 및 적절히 프로그램된 컴퓨터 수단에 의해 구현될 수 있다. 여러 소자들을 열거하는 디바이스 청구항에서, 여러 개의 이들 수단들은 하드웨어의 하나의 동일한 아이템에 의해실시될 수 있다. 특정 척도들이 상호 상이한 종속항들에 재인용된다는 단순한 사실은 이들 척도들의 조합이 유리하게 사용될 수 없다는 것을 지적하지 않는다.

Claims

오디오 신호를 코딩하는 방법으로서,

- 적어도 2개의 입력 오디오 채널들의 조합을 포함하는 모노럴 신호(monaural signal)를 생성하는 단계와,

- 적어도 2개의 입력 오디오 채널들의 공간적 특성들을 나타내는 공간적 파라메터들의 세트를 결정하는 단계로서, 상기 공간적 파라메터들의 세트는 적어도 2개의 입력 오디오 채널들의 파형들의 유사성의 척도를 나타내는 파라메터를 포함하는, 공간적 특성들을 나타내는 공간적 파라메터들의 세트를 결정하는 상기 단계와,

- 모노럴 신호 및 공간적 파라메터들의 세트를 포함하는 인코딩된 신호를 생성하는 단계를 포함하는, 오디오 신호를 코딩하는 방법.
제 1 항에 있어서, 공간적 특성들을 나타내는 공간적 파라메터들의 세트를 결정하는 상기 단계는 시간 및 주파수의 함수로서 공간적 파라메터들의 세트를 결정하는 단계를 포함하는, 오디오 신호를 코딩하는 방법.
제 2 항에 있어서, 상기 공간적 특성들을 나타내는 공간적 파라메터들의 세트를 결정하는 단계는,

- 적어도 2개의 입력 오디오 채널들 각각을 대응하는 복수의 주파수 대역들로 분할하는 단계와,

- 복수의 주파수 대역들 각각에 대해, 대응하는 주파수 대역 내에서 적어도 2개의 입력 오디오 채널들의 공간적 특성들을 나타내는 공간적 파라메터들의 세트를 결정하는 단계를 포함하는, 오디오 신호를 코딩하는 방법.
제 1 항 내지 제 3 항 중 어느 한 항에 있어서, 공간적 파라메터들의 상기 세트는 적어도 하나의 편재화 큐(localization cue)를 포함하는, 오디오 신호를 코딩하는 방법.
제 4 항에 있어서, 공간적 파라메터들의 상기 세트는 채널간 레벨 차이와, 채널간 시간차 및 채널간 위상차 중 선택된 것을 포함하는 적어도 2개의 편재화 큐들을 포함하는, 오디오 신호를 코딩하는 방법.
제 4 항 또는 제 5 항에 있어서, 유사성의 상기 척도는 편재화 큐들에 의해 설명될 수 없는 정보를 포함하는, 오디오 신호를 코딩하는 방법.
제 1 항 내지 제 6 항 중 어느 한 항에 있어서, 유사성의 상기 척도는 상기 교차-상관 관계 함수의 최대값에서 교차-상관 관계 함수의 값에 대응하는, 오디오 신호를 코딩하는 방법.
제 1 항 내지 제 7 항 중 어느 한 항에 있어서, 상기 모노럴 신호 및 공간적파라메터들의 상기 세트를 포함하는 인코딩된 신호를 생성하는 상기 단계는 양자화된 공간적 파라메터들의 세트를 생성하는 단계를 포함하며, 상기 대응하는 결정된 공간적 파라메터에 관하여 대응하는 양자화 에러를 각각 도입하며, 여기서, 상기 도입된 양자화 에러들 중 적어도 하나는 결정된 공간적 파라메터들 중의 적어도 하나의 값에 의존하도록 제어되는, 오디오 신호를 코딩하는 방법.
오디오 신호를 코딩하는 인코더로서,

- 적어도 2개의 입력 오디오 채널들의 조합을 포함하는 모노럴 신호를 생성하는 수단과,

- 적어도 2개의 입력 오디오 채널들의 공간적 특성들을 나타내는 공간적 파라메터들의 세트를 결정하는 수단으로서, 공간적 파라메터들의 상기 세트는 적어도 2개의 입력 오디오 채널들의 파형들의 유사성의 척도를 나타내는 파라메터들을 포함하는, 상기 공간적 특성들을 나타내는 공간적 파라메터들의 세트를 결정하는 수단과,

- 상기 모노럴 신호 및 공간적 파라메터들의 상기 세트를 포함하는 인코딩된 신호를 생성하는 수단을 포함하는, 오디오 신호를 코딩하는 인코더.
오디오 신호를 공급하는 장치로서,

오디오 신호를 수신하는 입력단과,

인코딩된 오디오 신호를 얻기 위해 상기 오디오 신호를 인코딩하는 제 9 항에 청구된 인코더와,

상기 인코딩된 오디오 신호를 공급하는 출력단을 포함하는, 오디오 신호를 공급하는 장치.
인코딩된 오디오 신호로서,

적어도 2개의 오디오 채널들의 조합을 포함하는 모노럴 신호와,

적어도 2개의 입력 오디오 채널들의 공간적 특성들을 나타내는 공간적 파라메터들의 세트로서, 공간적 파라메터들의 상기 세트는 적어도 2개의 입력 오디오 채널들의 파형들의 유사성의 척도를 나타내는 파라메터를 포함하는 상기 세트를 포함하는, 인코딩된 오디오 신호.
제 11 항에 청구된 인코딩된 신호가 저장된 저장 매체.
인코딩된 오디오 신호를 디코딩하는 방법으로서,

상기 인코딩된 오디오 신호로부터 모노럴 신호를 얻는 단계로서, 상기 모노럴 신호는 적어도 2개의 오디오 채널들의 조합을 포함하는 상기 모노럴 신호를 얻는 단계와,

상기 인코딩된 오디오 신호로부터 공간적 파라메터들의 세트를 얻는 단계로서, 공간적 파라메터들의 상기 세트는 적어도 2개의 입력 오디오 채널들의 파형들의 유사성의 척도를 나타내는 파라메터를 포함하는 상기 공간적 파라메터들의 세트를 얻는 단계와,

상기 모노럴 신호 및 상기 공간적 파라메터들로부터 다중-채널 출력 신호를 생성하는 단계를 포함하는, 인코딩된 오디오 신호를 디코딩하는 방법
인코딩된 오디오 신호를 디코딩하는 디코더로서,

상기 인코딩된 오디오 신호로부터 모노럴 신호를 얻는 수단으로서, 상기 모노럴 신호는 적어도 2개의 오디오 채널들의 조합을 포함하는 상기 모노럴 신호를 얻는 수단과, ,

상기 인코딩된 오디오 신호로부터 공간적 파라메터들의 세트를 얻는 수단으로서, 공간적 파라메터들의 상기 세트는 적어도 2개의 오디오 채널들의 파형들의 유사성의 척도를 나타내는 파라메터를 포함하는 상기 공간적 파라메터들의 세트를 얻는 수단과,

상기 모노럴 신호 및 상기 공간적 파라메터들로부터 다중-채널 출력 신호를 생성하는 수단을 포함하는, 인코딩된 오디오 신호를 디코딩하는 디코더.
디코딩된 오디오 신호를 공급하는 장치로서,

인코딩된 오디오 신호를 수신하는 입력단과,

다중-채널 출력 신호를 얻기 위해 상기 인코딩된 오디오 신호를 디코딩하기 위한 제 14 항에 청구된 디코더와

상기 다중-채널 출력 신호를 공급 또는 재생산하는 출력단을 포함하는, 디코딩된 오디오 신호를 공급하는 장치.