KR20080078907A

KR20080078907A - 양 귀 오디오 신호들의 복호화 제어

Info

Publication number: KR20080078907A
Application number: KR1020087017490A
Authority: KR
Inventors: 줄리아 투르쿠; 파시 오잘라
Original assignee: 노키아 코포레이션
Priority date: 2008-07-17
Filing date: 2006-01-09
Publication date: 2008-08-28

Abstract

매개변수적 부호화된 오디오 신호를 생성하기 위한 방법인데, 이 방법은 복수 개의 오디오 채널을 포함하는 다-채널 오디오 신호를 입력하는 단계; 복수 개의 오디오 채널의 적어도 하나의 결합된 신호를 생성하는 단계; 및 양 귀 오디오 신호의 합성에서 오디오 소스 위치들을 제어하기 위한 채널 구성 정보를 포함한 하나 이상의 상응하는 부가 정보 집합을 생성한다.

Description

양 귀 오디오 신호들의 복호화 제어{Controlling the decoding of binaural audio signals}

본 발명은 공간적 오디오 부호화에 그리고 특히 양 귀(binaural) 오디오 신호들의 복호화를 제어하는 것에 관련된다.

공간적 오디오 부호화에서, 2/다-채널 오디오 신호는 오디오 채널들에서 재생하려는 오디오 신호들이 서로 다르도록 처리됨으로써, 청취자들에게 오디오 소스 주변의 공간적 효과의 느낌을 제공한다. 공간적 효과는 오디오를 다-채널 또는 스테레오 재생을 위한 적당한 포맷들로 직접 기록하는 것에 의해 만들어질 수 있거나, 또는 공간적 효과는 임의의 2/다-채널 오디오 신호에서 인공적으로 만들어질 수 있는데, 그것은 공간화(spatializaton)로서 알려져 있다.

헤드폰들의 재생에 대해 인공적 공간화는 청취자의 좌우 귀를 위해 양 귀(binaural) 신호들을 생성하는 HRTF(Head Related Transfer Function) 필터링에 의해 수행될 수 있다고 일반적으로 알려져 있다. 음원 신호들은 그것들의 기점 방향에 상응하는 HRTF들로부터 유도된 필터들로 필터링된다. HRTF는 자유 장(free field)의 음원으로부터 사람 또는 인공 헤드의 귀까지 측정된, 헤드를 대체하고 헤드의 중앙에 놓이는 마이크로폰에 대한 전달 함수에 의해 나누어진 전달 함수이다. 인공적 실내 효과(예컨대 빠른 반사 및/또는 늦은 잔향음)는, 소스 표출화(externalization)와 자연도(naturalness)를 개선하기 위해, 공간화된 신호에 추가될 수 있다.

오디오 청취 및 대화 기기들의 다양성이 증가함에 따라, 호환성은 더 중요하게 된다. 공간적 오디오 포맷들 중에서 호환성은 업믹스(upmix) 및 다운믹스(downmix) 기법들을 통해 얻으려고 노력했었다. 다-채널 오디오 신호를 스테레오 포맷, 이를테면 돌비 디지털® 및 돌비 서라운드®로 변환하기 위한 그리고 스테레오 신호를 양 귀 신호로 변환하기 위한 알고리즘들이 있다는 것이 일반적으로 알려져 있다. 그러나, 이런 종류의 처리에서 원래의 다-채널 오디오 신호의 공간적 이미지는 충분히 재현될 수 없다. 헤드폰 청취를 위해 다-채널 오디오 신호를 변환하는 좋은 방법은 HRTF 필터링을 채용하는 것에 의해 원래의 라우드스피커들을 가상 라우드스피커들로 교체하는 것과 그것들(예컨대 돌비 헤드폰®)을 통해 라우드스피커 채널 신호들을 플레이하는 것이다. 그러나, 이 프로세스는 양 귀 신호를 생성하기 위해 다-채널 믹스가 항상 첫 번째로 필요하다는 불리한 점을 가진다. 즉, 다-채널(예컨대 5+1 채널들) 신호들은 먼저 복호호되고 합성되며, 그리고 HRTF들은 그 다음 양 귀 신호를 형성하기 위해 각각의 신호에 적용된다. 이것은 압축된 다-채널 포맷으로부터 양 귀 포맷으로 직접 복호화하는 것과 비교하여 계산상 무거운 접근방법이다.

양 귀 큐 부호화(BCC)는 매우 발달한 매개변수적 공간적 오디오 부호화 방법이다. BCC는 공간적 다-채널 신호를 단일(또는 몇 개의) 다운믹스된 오디오 채널로 서 그리고 추정되는 지각상 관련된 채널간 차이들의 집합을 원래의 신호로부터의 주파수와 시간의 함수로서 나타낸다. 이 방법은 임의의 라우드스피커 레이아웃을 위해 믹스된 공간적 오디오 신호가 동일하거나 다른 수의 라우드스피커들로 구성된 어느 다른 라우드스피커 레이아웃을 위해 변환되는 것을 허용한다.

따라서, BCC는 다-채널 라우드스피커 시스템들을 위해 디자인된다. 원래의 라우드스피커 레이아웃은 부호화기 출력의 내용, 즉 BCC 처리된 모노 신호 및 그것의 부가 정보(side information)를 결정하고 복호화부의 라우드스피커 레이아웃은 이 정보가 재현을 위해 어떻게 변환되는지의 방법을 결정한다. 공간적 헤드폰 재생을 위해 재현될 때, 원래의 라우드스피커 레이아웃은 생성하려는 양 귀 신호의 음원 위치들을 지시한다. 그래서, 공간적 양 귀 신호가 음원 위치들의 유연한 교대를 허용할지라도, 기존의 부호화된 BCC 신호로부터 생성된 양 귀 신호의 라우드스피커 레이아웃은 원래의 다-채널 신호의 음원 위치들에 고정된다. 이것은 향상된 공간적 효과의 적용을 제한한다.

지금 개선된 방법과 이 방법을 구현한 기술적인 장치가 발명되는데, 그것에 의해 콘텐츠 작성자는 복호화기에서 양 귀 다운믹스 프로세스를 제어할 수 있다. 본 발명의 각종 양태들은 부호화 방법, 부호화기, 복호화 방법, 복호화기, 장치, 및 컴퓨터 프로그램들은 포함하는데, 그것들은 독립 청구항에서 언급된 것에 것을 특징으로 한다. 본 발명의 각종 실시예들이 종속 청구항들에 개시되어 있다.

첫 번째 양태에 따르면, 본 발명에 따른 방법은 매개변수적 부호화된 오디오 신호를 생성한다는 아이디어에 기초하고 있는데, 이 방법은, 복수 개의 오디오 채널을 포함하는 다-채널 오디오 신호를 입력하는 단계; 복수 개의 오디오 채널의 적어도 하나의 결합된 신호를 생성하는 단계; 및 양 귀 오디오 신호의 합성에서 오디오 소스 위치들을 제어하기 위한 채널 구성 정보를 포함한 하나 이상의 상응하는 부가 정보 집합을 생성하는 단계를 포함한다. 그래서, 이 아이디어는 정적일 수 있거나 변화하기 쉬울 수 있는 채널 구성 정보, 즉 오디오 소스 위치 정보를 복호화에서 사용되는 부가 정보 속에 포함한다는 것이다. 채널 구성 정보는 콘텐츠 작성자가 헤드폰 청취자에 의해 지각된 공간적 오디오 이미지에서 음원들의 위치들의 이동을 제어하는 것을 가능하게 한다.

실시예에 따르면, 상기 오디오 소스 위치들은 양 귀 오디오 신호 시퀀스 전체에 걸쳐 정적이고, 그것에 의해 상기 방법은 상기 채널 구성 정보를 상기 양 귀 오디오 신호 시퀀스에 상응하는 상기 하나 이상의 상응하는 부가 정보 집합의 정보 필드로서 포함하는 단계를 더 포함한다.

실시예에 따르면, 상기 오디오 소스 위치들은 가변적이고, 그것에 의해 상기 방법은 상기 하나 이상의 상응하는 부가 정보 집합의 상기 채널 구성 정보를 상기 오디오 소스 위치들에서의 변동들을 반영하는 복수 개의 정보 필드로서 포함하는 단계를 더 포함한다.

실시예에 따르면, 상기 부가 정보 집합은 청취 위치에 관련한 원래의 다-채널 사운드 이미지의 라우드스피커들의 수와 위치들, 및 채용된 프레임 길이를 더 포함한다.

실시예에 따르면, 상기 부가 정보 집합은 채널간 시간차(ICTD), 채널간 레벨차(ICLD) 및 채널간 가간섭성(ICC)과 같이 양 귀 큐 부호화(BCC) 체계에서 사용되는 채널간 큐들을 더 포함한다.

실시예에 따르면, 상기 부가 정보 집합은 원래의 사운드 이미지를 기술하는 다-채널 오디오의 채널 신호들에 대한 이득 추정치들의 집합을 더 포함한다.

제2양태는 양 귀 오디오 신호를 합성하기 위한 방법을 제공하는데, 이 방법은, 복수 개의 오디오 채널들의 적어도 하나의 결합된 신호와, 다-채널 사운드 이미지를 기술하고 채널 구성 정보를 포함하는 하나 이상의 상응하는 부가 정보 집합을 포함하는 매개변수적 부호화된 오디오 신호를 입력하는 단계; 상기 상응하는 부가 정보 집합에 따라 적어도 하나의 결합된 신호를 처리하는 단계; 및 적어도 하나의 처리된 신호로부터 양 귀 오디오 신호를 합성하는 단계로서, 상기 채널 구성 정보는 양 귀 오디오 신호의 오디오 소스 위치들을 제어하는데 사용되는 단계를 포함한다.

실시예에 따르면, 적어도 하나의 결합된 신호를 처리하는 단계는, 상기 하나 이상의 상응하는 부가 정보 집합에 따라 제어되는 양 귀 큐 부호화(BCC) 신시사이즈 처리에서 적어도 하나의 결합된 신호로부터 복수 개의 오디오 채널의 원래의 오디오 신호들을 합성하는 단계; 및 복수 개의 합성된 오디오 신호를 양 귀 다운믹스 처리에 적용하는 단계를 더 포함한다.

실시예에 따르면, 적어도 하나의 결합된 신호를 처리하는 단계는, 헤드 관련 전달 함수 필터들의 미리 결정된 집합을 상기 상응하는 부가 정보 집합에 의해 결정된 비율로 적어도 하나의 결합된 신호에 적용하여 양 귀 오디오 신호를 합성하는 단계를 더 포함한다.

본 발명에 따른 구성은 상당한 이점들을 제공한다. 주요한 이점은 콘텐츠 작성자가 복호화기에서 양 귀 다운믹스 프로세스를 제어할 수 있다, 즉 콘텐츠 작성자는 물리적으로 고정된 라우드스피커 위치들을 이용한 라우드스피커 표현을 위한 것보다 양 귀 콘텐츠를 위한 동적 오디오 이미지를 설계하는데 더 많은 유연성을 가진다는 것이다. 공간적 효과는 예컨대 음원 위치들, 즉 가상 스피커들을 중앙(중간) 축으로부터 더 멀리 있게 이동하는 것에 의해 향상될 수 있다. 추가의 이점은 하나 이상의 음원이 재생 동안 옮겨질 수 있고, 그래서 특수한 오디오 효과를 가능하게 한다는 것이다.

본 발명의 추가의 양태들은 위의 방법들의 단계들을 수행하도록 구성되는 각종 장치들을 포함한다.

다음에, 본 발명의 각종 실시예들이 첨부 도면들에 관해서 더 상세하게 기술될 것인데, 도면들 중에서

도 1은 종래 기술에 따른 일반적인 양 귀 큐 부호화(BCC) 체계를 보이며;

도 2는 종래 기술에 따른 BCC 신시사이즈 체계의 일반 구조를 보이며;

도 3은 본 발명의 실시예에 따른 일반적인 양 귀 부호화 체계를 보이며;

도 4a, 4b는 본 발명의 실시예에 따른 공간적 오디오 이미지에서 음원들의 위치들의 교대를 보이며;

도 5는 본 발명의 실시예에 따른 장비의 블록도를 보이며;

도 6은 본 발명의 실시예에 따른 전자 장치를 축소된 블록도로 보인다.

다음에, 본 발명은 실시예들에 따른 부호화 및 복호화 체계들을 구현하기 위한 예시적인 플랫폼으로서 양 귀 큐 부호화(BCC)를 참조하여 설명될 것이다. 그러나, 본 발명이 BCC-형 공간적 오디오 부호화 방법들에만 제한되지 않고, 하나 이상의 오디오 채널의 원래의 집합으로부터 결합된 적어도 하나의 오디오 신호 및 적합한 공간적 부가 정보를 제공하는 어느 오디오 부호화 체계로 구현될 수 있다는 것에 주의한다.

양 귀 큐 부호화(BCC)는 단일 오디오 채널과 약간의 부가 정보로부터 임의의 수의 채널들을 가지는 다-채널 출력을 전달하는 공간적 오디오의 매개변수적 표현을 위한 일반 개념이다. 도 1은 이 개념을 도시한다. 몇(M) 개의 입력 오디오 채널이 다운믹스 처리에 의해 단일 출력(S "합") 신호에 결합된다. 병행하여, 다-채널 사운드 이미지를 기술하는 가장 현저한 채널간 큐들은 입력 채널들로부터 추출되고 BCC 부가 정보로서 간결하게 부호화된다. 그 다음 합 신호와 부가 정보 둘 다는 어 쩌면 합 신호를 부호화하기 위한 적당한 저 비트율 오디오 부호화 체계를 사용하여 수신기 측에 전송된다. 수신기 측에서, BCC 복호화기는 사용자 입력으로서 라우드스피커들의 수(N)를 알게 된다. 마지막으로, BCC 복호화기는 관련된 채널간 큐들, 이를테면 채널간 시간차(ICTD), 채널간 레벨차(ICLD) 및 채널간 가간섭성(ICC)을 운반하는 채널 출력 신호들을 합성하는 것에 의해, 전송된 합 신호 및 공간적 큐 정보로부터 라우드스피커들을 위한 다-채널(N) 출력 신호를 생성한다. 따라서, BCC 부가 정보, 즉 채널간 큐들은 특히 라우드스피커 재생을 위해 다-채널 오디오 신호의 복원을 최적화하는 것을 고려하여 선택된다.

2개의 BCC 체계, 즉 수신기에서의 렌더링을 위해 별개의 다수의 소스 신호의 전송을 의미하는 유연한 렌더링(유형 I BCC), 및 스테레오 또는 서라운드 신호의 다수의 오디오 채널들의 전송을 의미하는 자연 렌더링(유형 II BCC)이 존재한다. 유연한 렌더링을 위한 BCC는 별개의 오디오 소스 신호들(예컨대 음성 신호들, 별도로 기록된 장치들, 멀티트랙 기록)을 입력으로서 취한다. 자연 렌더링을 위한 BCC는 "최종 믹스" 스테레오 또는 다-채널 신호를 입력(예컨대 CD 오디오, DVD 서라운드)으로서 취한다. 만일 이 처리들이 기존의 부호화 기법들을 통해 수행된다면, 비트율은 오디오 채널들의 수에 비례하게 또는 적어도 거의 비례하게 규모 조정되는데, 예컨대 5.1 다-채널 시스템의 6개 오디오 채널을 전송하는 것은 하나의 오디오 채널의 거의 6배의 비트율을 필요로 한다. 그러나, 양쪽 BCC 체계들은 비트율이 하나의 오디오 채널의 전송을 위해 요구된 비트율보다 약간만 더 높아지게 하는데, BCC 부가 정보가 매우 낮은 비트율(예컨대 2 kb/s)만을 요구하기 때문이다.

도 2는 BCC 신시사이즈 체계의 일반 구조를 보인다. 전송된 모노 신호("sum")는 먼저 시간 영역에서 프레임들이 되게끔 윈도우처리되며(windowed) 그 다음 FFT 처리(고속 푸리에 변환)와 필터 뱅크(FB)에 의해 적합한 부대역들의 스펙트럼 표현으로 매핑된다. 일반적인 경우의 재생 채널들에서 ICLD와 ICTD는 채널들의 쌍들 사이, 즉 참조 채널에 관계있는 각각의 채널에 대해 각각의 부대역에 있다고 간주된다. 부대역들은 충분히 높은 주파수 분해능이 달성 되도록, 예컨대 2배의 ERB 스케일(등가 직사각형 대역폭)에 동일한 부대역 폭이 통상 적당하다고 간주되도록 선택된다. 생성하려는 각각의 출력 채널을 위해, 개개의 시간 지연들(ICTD)과 레벨 차이들(ICLD)은 스펙트럼 계수들에 부과되며, 그 뒤에, 합성된 오디오 채널들 사이의 가간섭성 및/또는 상관(ICC)의 가장 관련된 양태들을 다시 도입하는 가간섭성 신시사이즈(합성) 처리가 계속된다. 끝으로, 모든 합성된 출력 채널들은 IFFT 프로세스(역 FFT)에 의해 시간 영역 표현으로 변환된 후 다-채널 출력이 생기게 한다. BCC 접근 방법의 더 상세한 설명을 위해서는, F. Baumgarte and C. Faller: "Binaural Cue Coding - Part I: Psychoacoustic Fundamentals and Design Principles"; IEEE Transactions on Speech and Audio Processing, Vol. 11, No. 6, November 2003와, C. Faller and F. Baumgarte: "Binaural Cue Coding - Part II: Schemes and Applications", IEEE Transactions on Speech and Audio Processing, Vol. 11, No. 6, November 2003을 참조한다.

BCC는 실시예들에 따른 부호화 및 복호화 체계들을 구현하기 위한 적당한 플랫폼을 제공하는 부호화 체계들의 예이다. 실시예들의 기초를 이루는 기본 원리는 도 3에서 도시되어 있다. 실시예에 따른 부호화기는 복수 개의 입력 오디오 채널(M)을 하나 이상의 결합된 신호(S)가 되도록 결합하고 동시에 다-채널 사운드 이미지를 BCC 부가 정보(SI)로서 부호화한다. 더욱이, 부호화기는 오디오 프레젠테이션 전체에 걸쳐 정적일 수 있는 채널 구성 정보(CC), 즉 오디오 소스 위치 정보를 만들고, 그것에 의해 단일 정보 블록만이 오디오 스트림의 초기에 헤더 정보로서 필요하다. 대신에, 오디오 현장(scene)은 다이내믹하게 될 수 있고, 그것에 의하여 위치 업데이트들은 전송된 비트 스트림에 포함된다. 소스 위치 업데이트들은 본래 가변 속도이다. 그래서, 산술 부호화를 이용하면, 정보는 전송을 위해 효율적으로 부호화될 수 있다. 채널 구성 정보(CC)는 바람직하게는 부가 정보(SI) 내에서 부호화된다.

하나 이상의 합 신호(S), 부가 정보(SI) 및 채널 구성 정보(CC)는 그 다음 수신기 측에 전송되는데, 수신기 측에서 합 신호(S)는 부가 정보의 처리를 통해 유도되는 채널간 큐들에 따라 제어되는 BCC 신시사이즈 프로세스에 공급된다. BCC 신시사이즈 프로세스의 출력은 채널 구성 정보(CC)에 의해 제어되는 양 귀 다운믹스 프로세스로 제공된다. 양 귀 다운믹스 프로세스에서, HRTF들의 사용된 쌍들은 채널 구성 정보(CC)에 따라 바뀌는데, 이 교체는 헤드폰 청취자에 의해 감지된 공간적 오디오 이미지에서 음원들의 위치들을 이동시킨다.

공간적 오디오 이미지의 음원들의 위치들의 교체는 도 4a 및 4b에서 도시된다. 도 4a에서, 공간적 오디오 이미지는 헤드폰 청취자를 위해 양 귀 오디오 신호로서 만들어지는데, 이 신호에서 착각하는(phantom) 라우드스피커 위치들(즉 음원 들)은 기존의 5.1 라우드스피커 구성에 따라서 만들어진다. 청취자의 전면의 라우드스피커들(FL과 FR)은 중심 스피커(C)로부터 30도에 놓인다. 후방 스피커들(RL과 RR)은 중심으로부터 계산된 110도에 놓인다. 양 귀 효과 때문에, 음원들은 헤드폰들을 이용한 양 귀 재생 시에 실제 5.1 재생과 동일한 위치들에 있는 것처럼 보인다.

도 4b에서, 공간적 오디오 이미지는 전면 음원들(FL 및 FR)(팬텀 라우드스피커)이 향상된 공간적 이미지를 생성하기 위해 더 멀리 있게 이동하도록 양 귀 도메인에서 오디오 이미지를 렌더링하는 것을 통해 바뀐다. 이 이동은 채널 구성 정보에 따라 FL 및 FR 채널 신호들을 위해 다른 HRTF 쌍을 선택하는 것에 의해 달성된다. 대신에, 음원들의 어느 것 또는 모두는 심지어 재생 동안에도 다른 위치로 이동될 수 있다. 그래서, 콘텐츠 작성자는 양 귀 오디오 콘텐츠를 렌더링할 때 동적 오디오 이미지를 설계하는데 더 많은 유연성을 가진다.

음원들의 원활한 움직임을 허용하기 위해, 복호화기는 음원의 위치를 공간적 오디오 이미지에서 자유롭게 바꾸기 위해 충분한 수의 HRTF 쌍을 포함해야만 한다. 인간의 청각 시스템은 입사각에 의존하여 서로에 대해 2 내지 5도보다 더 가까운 2개의 음원 위치들을 구별할 수 없다고 가정될 수 있다. 그러나, HRTF의 변동의 원활함을 보간을 통한 입사각의 함수로서 이용하면, 성긴(sparser) 집합의 HRTF 필터들로써 충분한 분해능이 달성될 수 있다. 만일 360도의 전체 공간적 오디오 이미지가 커버될 필요가 있으면, HRTF 쌍들의 충분한 수는 360/10 = 36개의 HRTF 쌍이다. 물론, 대부분의 공간적 효과는 음원 위치의 계속 바뀌는 변경을 필요로 하지 않고, 그것에 의하여 심지어 36 쌍 미만의 HRTF들이 자연스럽게 사용될 수 있지만, 청취자는 통상 음원 위치의 변경을 독특하게 감지한다.

본 발명에 따른 채널 구성 정보와 그것의 공간적 오디오 이미지에서의 효과는, 채널 구성 정보가 관련된 공간적 채널간 큐들인 ICTD, ICLD 및 ICC를 운반하는 부가 정보(SI) 내에 부호화되는 기존의 BCC 코드 체계에 적용될 수 있다. BCC 복호화기는 복수 개의 라우드스피커를 위한 원래의 오디오 이미지를 수신된 합 신호(S) 및 부가 정보(SI)를 기초로 하여 합성하고, 신시사이즈 프로세스로부터의 복수 개의 출력 신호들은 HRTF 쌍들의 선택이 채널 구성 정보에 따라 제어되는 양 귀 다운믹스 프로세스에 추가로 적용될 수 있다.

그러나, BCC 처리된 모노 신호 및 그것의 부가 정보로부터 양 귀 신호를 생성하는 것은 그래서 다-채널 표현이 먼저 모노 신호 및 부가 정보를 기초로 하여 합성되고 그 다음에만 다-채널 표현으로부터 공간적 해드폰 재생을 위한 양 귀 신호들을 생성하는 것이 가능하게 되는 것을 요구한다. 이것은 양 귀 신호를 생성하는 것을 고려하여 최적화되지 않은 계산적으로는 무거운 접근방법이다.

그러므로, BCC 복호화 프로세스는 실시예에 따라 양 귀 신호를 생성하는 견지에서 단순화될 수 있는데, 다-채널 표현을 합성하는 대신에, 원래의 믹스의 각각의 라우드스피커는 청취 위치에 관하여 라우드스피커의 방향에 상응하는 한 쌍의 HRTF들로 교체된다. 단일음화된(monophonized) 신호의 각각의 주파수 채널은 여기서 부호화된 채널 구성 정보를 가지는 이득 값들의 집합에 의해 지시된 비율로 HRTF들을 구현하는 각 쌍의 필터들에 공급된다. 결과적으로, 이 프로세스는 양 귀 오디오 현장에서 원래의 것들에 상응하는 가상 라우드스피커들의 집합을 구현하는 것으로서 생각될 수 있다. 따라서, 실시예는 양 귀 오디오 신호가 어떠한 중간 BCC 신시사이즈 처리 없이 매개변수적으로 부호화된 공간적 오디오 신호로부터 직접 유도되는 것을 허용한다.

이 실시예는 도 5에 관해서 아래에서 더 설명되는데, 이 도면은 실시예에 따른 양 귀 복호화기의 블록도를 보이고 있다. 복호화기(500)는 단일음화된 신호를 위한 제1입력(502)과 채널 구성 정보를 그 속에 포함하는 부가 정보를 위한 제2입력(504)을 포함한다. 입력들(502, 504)은 실시예들을 설명하기 위한 독특한 입력들로서 보이고 있지만, 숙련된 사람은 실제 구현에서 단일음화된 신호와 부가 정보는 동일한 입력을 통해 공급될 수 있다는 것을 인정한다.

실시예에 따르면, 부가 정보는 BCC 체계들에서와 동일한 채널간 큐들, 즉 채널간 시간차(ICTD), 채널간 레벨차(ICLD) 및 채널간 가간섭성(ICC)을 포함할 필요가 없지만, 대신 각각의 주파수 대역에서 원래의 믹스의 채널들 가운데의 음압의 분배를 정의하는 이득 추정치들의 집합이면 충분하다. 채널 구성 정보는 이득 추정치들 내에 부호화될 수 있거나, 또는 그것은, 오디오 스트림의 시작부분에서 또는 전송되는 비트 스트림에 가끔 포함되는 별개의 필드에서, 헤더 정보와 같은 단일 정보 블록으로서 전송될 수 있다. 이득 추정치들과 채널 구성 정보에 더하여, 부가 정보는 바람직하게는 청취 위치에 관하여 원래의 믹스의 라우드스피커들의 수와 위치들, 뿐만 아니라 채용된 프레임 길이를 포함한다. 실시예에 따르면, 부가 정보의 부분으로서 부호화기로부터 이득 추정치들을 전송하는 것 대신에, 이득 추정치들은 복호화기에서 BCC 체계들의 채널간 큐들, 예컨대 ICLD로부터 계산된다.

복호화기(500)는 단일음화된 신호가 먼저, 채용된 프레임 길이의 시간 프레임들이 되도록 분할되고, 그 다음 이 프레임들은 적절하게 윈도우처리, 예컨대 사인 윈도우 처리된다. 적합한 프레임 길이는 프레임들이 이산 푸리에 변환(DFT)에 충분히 길면서 동시에 신호의 빠른 변동을 관리할 만큼 충분히 짧도록 조절되어야만 한다. 실험들은 적당한 프레임 길이가 약 50 ms인 것을 보여주었다. 따라서, 만일 44.1 kHz(각종 오디오 부호화 체계들에서 통상 사용됨)의 표본화 주파수가 사용되면, 프레임은, 예를 들면, 프레임 길이가 46.4 ms가 되게 하는 2048개 샘플을 포함할 수 있다. 윈도우화(windowing)는 바람직하게는 스펙트럼 변경에 의해 유발된 전이들(레벨 및 지연)을 원활하게 하기 위해 인접 윈도우들이 50%만큼 겹쳐지도록 행하여진다.

그 후, 윈도우화된 단일음화된 신호는 FFT부(508)에서 주파수 영역으로 변환된다. 이 처리는 효율적인 계산을 목표로 주파수 영역에서 행해진다. 이 목적을 위해, 신호는 필터 뱅크(510)에 공급되는데, 필터 뱅크는 신호를 정신-음향학적으로(psycho-acoustically) 동기 부여된 주파수 대역들로 나눈다. 실시예에 따르면, 필터 뱅크(510)는 신호를 일반적으로 인정받는 등가 직사각형 대역폭(ERB) 스케일을 따르는 34개 주파수 대역으로 나누어 상기 32개 주파수 대역들에서 신호 성분들(X₀, ..., X₃₁)이 있게끔 구성되도록 디자인된다.

복호화기(500)는 사전 저장된 정보로서 한 집합의 HRTF들(512, 514)을 포함하는데, 이것으로부터 각각의 라우드스피커 방향에 상응하는 HRTF들의 좌-우 쌍이 채널 구성 정보에 따라 선택된다. 예시를 위해, 좌측 신호를 위한 하나와 우측 신호를 위한 하나의 HRTF들(512, 514)의 2개의 집합이 도 5에서 보이고 있지만, 실제 구현에서 HRTF들의 하나의 집합이 충분할 것이라는 것은 명백하다. 선택된 좌-우 쌍의 HRTF들을 각각의 라우드스피커 채널 소리 레벨에 상응하게 조절하기 위해, 이득 값들(G)은 바람직하게 추정된다. 위에 언급된 바와 같이, 이득 추정치들은 부호화기로부터 수신된 부가 정보에 포함될 수 있거나, 또는 그것들은 복호화기에서 BCC 부가 정보를 기초로 하여 계산될 수 있다. 따라서, 이득은 각각의 라우드스피커 채널을 위해 시간과 주파수의 함수로서 추정되고, 원래의 믹스의 이득 레벨을 보존하기 위해, 각각의 라우드스피커 채널을 위한 이득들은 바람직하게는 각각의 이득 값의 제곱들의 합이 1이 되도록 조절된다. 이것은, 만일 N이 가상적으로 생성하려는 채널들의 수라면, N-1개의 이득 추정치들만이 부호화기로부터 전송되는 것이 필요하고, 손실 이득 값은 N-1개의 이득 값들을 기초로 하여 계산될 수 있다는 이점을 제공한다. 그러나, 숙련된 사람은 본 발명의 동작이 각 이득 값의 제곱들의 합이 1과 동일하게 되도록 조절하는 것을 필요로 하지 않지만, 복호화기는 그 합이 1과 동일하게 되도록 이득 값들의 제곱들을 크기조정(scale)할 수 있다는 것을 인정한다.

따라서, HRTF 필터들(512, 514)의 적당한 좌-우 쌍들은 채널 구성 정보에 따라 선택되고, 선택된 HRTF 쌍들은 그 다음 이득들(G)의 집합에 의해 지시된 비율로 조절되어, 조절된 HRTF 필터들(512', 514')이 생기게 한다. 다시 실제로는 원래의 HRTF 필터 크기들(512, 514)은 단지 이득 값들에 따라 스케일이 변할 뿐이고, 실시 예들의 예시를 위해, "부가의" 집합들의 HRTF들(512', 514')이 도 5에서 보이고 있다는 점에 주의한다.

각각의 주파수 대역에 대해, 모노 신호 성분들(x₀, ..., x₃₁)이 조절된 HRTF 필터들(512', 514')의 각각의 좌-우 쌍에 공급된다. 좌측 신호를 위한 그리고 우측 신호를 위한 필터 출력들은 그 다음 양쪽 양 귀 채널들을 위해 합산부(516, 518)에서 합산된다. 합산된 양 귀 신호들은 다시 사인-윈도우처리되고(sine-windowed), IFFT부들(520, 522)에서 수행되는 역 FFT 프로세스에 의해 시간 영역으로 다시 변환된다. 분석 필터가 1로 합산되지 않든지, 또는 그것들의 위상 응답이 선형이 아닐 경우에, 정상 합성 필터 뱅크는 바람직하게는 최종 양 귀 신호들(BR 및 B_L)에서의 일그러짐을 피하기 위해 사용된다.

실시예에 따르면, 양 귀 신호의 표출화, 즉 헤드 외 지역화(out-of-the-head localisation)를 강화하기 위해 적당한 실내 응답이 양 귀 신호에 추가될 수 있다. 그 목적을 위해, 복호화기는 합산부들(516, 518)과 IFFT부들(520, 522) 사이에 바람직하게 위치되는 잔향부를 포함할 수 있다. 추가된 실내 응답은 라우드스피커 청취 상황에서 실내의 효과를 모방한다. 그러나, 필요한 잔향 시간은 계산상의 복잡도가 현저히 증가되지 않도록 하기 위해 충분히 짧다.

숙련된 사람은 HRTF들이 고도로 개별적이고 평균화는 불가능하므로, 완전한 재공간화(re-spatialization)는 청취자가 소유한 유일한 HRTF 세트를 측정하는 것에 의해서만 성취될 수 있다는 것을 인정한다. 따라서, HRTF들의 사용은 처리된 음 성의 품질이 원본과 같지 않도록 필연적으로 신호를 컬러화한다. 그러나, 각각의 청취자의 HRTF들을 측정하는 것은 비현실적인 옵션이므로, 최상의 가능한 결과는 더미 헤드 또는 평균 크기와 상당한 대칭의 머리를 가지는 사람으로부터 측정된 집합 또는 모델화된 집합이 사용될 때 달성된다.

앞서 언급된 바와 같이, 실시예에 따르면 이득 추정치들은 부호화기로부터 수신되는 부가 정보에 포함될 수 있다. 결과적으로, 따라서, 본 발명의 양태는 각각의 라우드스피커 채널를 위한 이득을 주파수와 시간의 함수로서 추정하고 하나(또는 그 이상)의 결합된 채널을 따라 전송되는 부가 정보에 이득 추정치들을 포함하는 다채널 공간적 오디오 신호를 위한 부호화기에 관련된다. 더욱이, 부호화기는 콘텐츠 작성자의 명령에 따라 채널 구성 정보를 부가 정보 속에 포함한다. 결과적으로, 콘텐츠 작성자는 복호화기에서 양 귀 다운믹스 프로세스를 제어할 수 있다. 공간적 효과는 예컨대 음원들을 중심(중간)축으로부터 더 멀리 있게 이동하는 것에 의해 향상될 수 있다. 부가하여, 하나 이상의 음원은 재생 동안 이동될 수 있고, 그래서 특수한 오디오 효과를 가능하게 한다. 그러므로, 콘텐츠 작성자는 (물리적으로) 고정된 라우드스피커 위치들을 가지는 라우드스피커 표현을 위한 것보다 양 귀 콘텐츠를 위한 오디오 이미지를 디자인할 때에 더 많은 자유와 유연성을 가진다.

부호화기는, 예를 들면, 다-채널 사운드 이미지를 기술하는 채널간 큐들인 ICTD, ICLD 및 ICC에 더하여 또는 대신에 이득 추정치들을 계산하도록 추가로 배치구성된 것으로서 알려져 있는 BCC 부호화기일 수 있다. 부호화기는 채널 구성 정보 를 이득 추정치들 내에, 또는 정적 채널 구성의 경우에 오디오 스트림의 시작부의 단일 정보 블록으로서, 또는 만일 동적 구성 업데이트가 사용된다면 전송된 비트 스트림에 때때로 포함되는 별개의 필드의 단일 정보 블록으로서 부호화할 수 있다. 그 다음 합 신호와, 적어도 이득 추정치들 및 채널 구성 정보를 포함하는 부가 정보는, 합 신호를 부호화하기 위한 적당한 낮은 비트율 오디오 부호화 체계를 바람직하게 사용하여, 수신기에 전송된다.

실시예에 따르면, 만일 이득 추정치들이 부호화기에서 계산되면, 그 계산은 결합된 채널의 축적된 이득 레벨에 각 개개의 채널의 이득 레벨을 비교하는 것에 의해 수행된다. 즉, 만일 우리가 이득 레벨을 X에 의해, 원래의 라우드스피커 레이아웃을 "m"에 의해 그리고 샘플들을 "k"에 의해 표시하면, 각각의 채널에 대해, 이득 추정치는 해 보여주면, 그 다음 각각의 채널을 위해 이득 추정치는 │X_m(k)│/│X_SUM(k)│로서 계산된다. 따라서, 이득 추정치들은 모든 채널들의 총 이득 크기와 비교하여 각 개개의 채널의 비례하는 이들 크기를 결정한다.

간결함을 위하여, 이전의 예들은 입력 채널들(M)이 부호화기에서 다운믹스되어 단일 결합된(예컨대 모노) 채널을 형성하도록 기술된다. 그러나, 실시예들은 다중 입력 채널들(M)이 특정 오디오 처리 응용에 의존하여 2개 이상의 별개의 결합된 채널들(S)을 형성하도록 다운믹스되는 대체 구현예들에 동일하게 적용가능하다. 만일 다운믹싱이 다수의 결합된 채널들을 생성하면, 결합된 채널 데이터는 기존의 오디오 전송 기법을 사용하여 전송될 수 있다. 예를 들면, 만일 2개의 결합된 채널이 생성되면, 기존의 스테레오 전송 기법은 채용될 수 있다. 이 경우, BCC 복호화기는 2개의 조합된 채널로부터 양 귀 신호를 합성하기 위해 BCC 코드들을 추출하고 사용할 수 있다.

실시예에 따르면, 합성된 양 귀 신호의 가상적으로 생성된 "라우드스피커들"의 수(N)는, 특정 응용에 의존하여, 입력 채널들의 수(M)와는 다를 수(더 많거나 적을 수) 있다. 예를 들면, 입력 오디오는 7.1 서라운드 사운드에 상응할 수 있고 양 귀 출력 오디오는 5.1 서라운드 사운드에 상응하여 합성될 수 있고, 그 역도 성립한다.

위의 실시예들은 본 발명의 실시예들이 M > S인 M개의 입력 오디오 채널들을 S개의 조합된 오디오 채널들과 하나 이상의 상응하는 부가 정보 집합으로 변환하는 것과, N > S이고 N은 M과는 같거나 다를 수 있는 S개의 조합된 오디오 채널들 및 상응하는 부가 정보 집합으로부터 N개의 출력 오디오 채널들을 생성하는 것을 허용하도록 일반화될 수 있다.

하나의 조합된 채널 및 필요한 부가 정보의 전송을 위해 요구된 비트율이 매우 낮으므로, 본 발명은 이용가능한 대역폭이 무선 통신 시스템들에서처럼 부족한 자원인 시스템들에서 특히 상당히 이용 가능하다. 따라서, 실시예들은 특히 다-채널 서라운드 사운드의 특징들이 실시예들에 따른 양 귀 오디오 신호를 청취하는 헤드폰들을 통하여 소개될 수 있는 이동 단말들 또는 고품질 라우드스피커들이 전형적으로 부족한 다른 휴대형 기기에 이용가능하다. 실용적인 그 이상의 응용 분야들은 원격화상회의 서비스들인데, 전화 회의 참가자들이 회의실에서 다른 위치들에 있다는 인상을 청취자들에게 주는 것에 의해 원격화상회의의 참가자들이 쉽게 구별될 수 있다.

도 6은 본 발명에 따른 양 귀 복호화 시스템이 구현될 수 있는 데이터 처리 기기(TE)의 간략한 구조를 도시한다. 데이터 처리 기기(TE)는, 예를 들면, 이동 단말, PDA 기기 또는 개인용 컴퓨터(PC)일 수 있다. 데이터 처리 기기(TE)는 입출력 수단(I/O), 중앙처리부(CPU) 및 메모리(MEM)를 포함한다. 메모리(MEM)는 판독 전용 메모리 ROM 부분과 재기록가능한 부분, 이를테면 램(RAM)과 플래시 메모리를 포함한다. 다른 외부 파티들, 예컨대 CD-ROM, 다른 기기들 및 사용자와의 통신에 사용되는 정보는 I/O수단(I/O)을 통하여 중앙 처리 유닛(CPU)전송된다. 만일 데이터 처리 기기가 이동국으로서 구현되면, 그것은 통상 송수신기(Tx/Rx)를 구비하는데 이 송수신기는 무선 네트워크와, 전형적으로는 송수신 기지국(BTS)과 안테나를 통해 통신한다. 사용자 인터페이스(UI) 장비는 디스플레이, 키패드, 마이크로폰 및 헤드폰들을 위한 연결 수단을 전형적으로 포함한다. 데이터 처리 기기는 데이터 처리 기기에서 실행되는 각종 애플리케이션들을 제공할 수 있는 각종 하드웨어 모듈들을 위한 표준형 슬롯 또는 집적회로(IC)와 같은 연결수단(MMC)을 더 포함할 수 있다.

따라서, 본 발명에 따른 양 귀 복호화 시스템은 중앙처리부(CPU)에서 또는 데이터 처리 기기의 전용 디지털 신호 처리기(DSP)(매개변수적 코드 프로세서)에서 실행될 수 있고, 그것에 의하여 데이터 처리 기기는 복수 개의 오디오 채널의 적어도 하나의 결합된 신호와 다-채널 사운드 이미지를 기술하고 양 귀 오디오 신호의 합성 시에 오디오 소스 위치들을 제어하기 위한 채널 구성 정보를 포함하는 하나 이상의 상응하는 부가 정보 집합을 포함하는 매개변수적 부호화된 오디오 신호를 수신한다. 적어도 하나의 결합된 신호는 처리기에서 상기 상응하는 부가 정보 집합에 따라 처리된다. 매개변수적 부호화된 오디오 신호는 메모리 수단, 예컨대 CD-ROM으로부터, 또는 무선 네트워크로부터 안테나와 송수신기(Tx/Rx)를 통해 수신될 수 있다. 데이터 처리 기기는 예컨대 적당한 필터 뱅크 및 미리 결정된 헤드-관련 전달 함수 필터들을 구비한 신시사이저를 더 포함하고, 그것에 의하여 양 귀 오디오 신호는 적어도 하나의 처리된 신호로부터 합성되는데, 상기 채널 구성 정보는 양 귀 오디오 신호에서 오디오 소스 위치들을 제어하기 위해 사용된다. 양 귀 오디오 신호는 그 다음 헤드폰들을 경유하여 재생된다.

마찬가지로, 본 발명에 따른 부호화 시스템은 중앙처리부(CPU)에서 또는 데이터 처리 기기의 전용의 디지털 신호 처리기(DSP)에서 실행되어도 좋고, 그것에 의하여 데이터 처리 기기는 복수 개의 오디오 채널의 적어도 하나의 결합된 신호와 양 귀 오디오 신호의 합성에서 오디오 소스 위치들을 제어하기 위한 채널 구성 정보를 포함한 하나 이상의 상응하는 부가 정보 집합을 포함하는 매개변수적 부호화된 오디오 신호를 생성한다.

본 발명의 기능들은 단말 기기, 이를테면 이동국에, 중앙처리부(CPU) 또는 전용의 디지털 신호 처리기(DSP)에서 실행될 때 본 발명의 절차들을 구현하는 단말 기기에 영향을 미치는 컴퓨터 프로그램으로서도 구현될 수 있다. 컴퓨터 프로그램 소프트웨어의 기능들은 서로 통신하는 별개의 몇 개의 프로그램 구성요소들에 분산될 수 있다. 컴퓨터 소프트웨어는 어느 메모리 수단, 이를테면 PC의 하드 디스크 또는 CD-ROM 디스크에 저장될 수 있고 그곳으로부터 이동 단말의 메모리에 로드될 수 있다. 컴퓨터 소프트웨어는 또한 네트워크를 통하여 예를 들어 TCP/IP 프로토콜 스택을 사용하여 로드될 수 있다.

하드웨어 솔루션들 또는 하드웨어 및 소프트웨어 솔루션들의 조합을 사용하여 본 발명의 수단을 구현하는 것도 가능하다. 따라서, 위의 컴퓨터 프로그램 제품은 하드웨어 모듈을 전자 기기에 연결하기 위한 연결 수단을 포함하는 하드웨어 모듈에서의 하드웨어 솔루션, 예를 들면 ASIC 또는 FPGA 회로로서, 또는 하나 이상의 집적회로(IC)들로서 적어도 부분적으로 구현될 수 있는데, 하드웨어 모듈 또는 IC들은 상기 프로그램 테스크들을 수행하기 위한 각종 수단으로서 하드웨어 및/또는 소프트웨어로서 구현되는 각종 수단을 더 구비한다.

본 발명은 위에 기재된 실시예들로 한정되지 않고 첨부의 청구항들의 범위 내에서 변형될 수 있다는 것은 명백하다.

Claims

매개변수적 부호화된 오디오 신호를 생성하기 위한 방법에 있어서,

복수 개의 오디오 채널을 포함하는 다-채널 오디오 신호를 입력하는 단계;

복수 개의 오디오 채널의 적어도 하나의 결합된 신호를 생성하는 단계; 및

양 귀(binaural) 오디오 신호의 합성에서 오디오 소스 위치들을 제어하기 위한 채널 구성 정보를 포함한 하나 이상의 상응하는 부가 정보 집합을 생성하는 단계를 포함하는 방법.
제1항에 있어서,

상기 오디오 소스 위치들은 양 귀 오디오 신호 시퀀스 전체에 걸쳐 정적이고, 상기 방법은

상기 채널 구성 정보를 상기 양 귀 오디오 신호 시퀀스에 상응하는 상기 하나 이상의 상응하는 부가 정보 집합의 정보 필드로서 포함하는 단계를 더 포함하는 것을 특징으로 하는 방법.
제1항에 있어서,

상기 오디오 소스 위치들은 가변적이고, 상기 방법은 상기 하나 이상의 상응하는 부가 정보 집합의 상기 채널 구성 정보를 상기 오디오 소스 위치들에서의 변동들을 반영하는 복수 개의 정보 필드로서 포함하는 단계를 더 포함하는 것을 특징 으로 하는 방법.
제1항 내지 제3항 중 어느 한 항에 있어서,

상기 부가 정보 집합은 청취 위치에 관련한 원래의 다-채널 사운드 이미지의 라우드스피커들의 수와 위치들, 및 채용된 프레임 길이를 더 포함하는 것을 특징으로 하는 방법.
제1항 내지 제4항 중 어느 한 항에 있어서,

상기 부가 정보 집합은 채널간 시간차(ICTD), 채널간 레벨차(ICLD) 및 채널간 가간섭성(ICC)과 같이 양 귀 큐 부호화(BCC) 체계에서 사용되는 채널간 큐들을 더 포함하는 것을 특징으로 하는 방법.
제1항 내지 제5항 중 어느 한 항에 있어서,

상기 부가 정보 집합은 원래의 사운드 이미지를 기술하는 다-채널 오디오의 채널 신호들에 대한 이득 추정치들의 집합을 더 포함하는 것을 특징으로 하는 방법.
제6항에 있어서,

원래의 다-채널 오디오의 이득 추정치들의 집합을 시간 및 주파수의 함수로서 결정하는 단계; 및

각각의 이득 값의 제곱들의 합이 1과 동일하도록 각각의 라우드스피커에 대한 이득값들을 조절하는 단계를 더 포함하는 것을 특징으로 하는 방법.
매개변수적 부호화된 오디오 신호를 생성하기 위한 매개변수적 오디오 부호화기에 있어서,

복수 개의 오디오 채널을 포함하는 다-채널 오디오 신호를 입력하기 위한 수단;

복수 개의 오디오 채널의 적어도 하나의 결합된 신호를 생성하기 위한 수단; 및

양 귀 오디오 신호의 합성에서 오디오 소스 위치들을 제어하기 위한 채널 구성 정보를 포함한 하나 이상의 상응하는 부가 정보 집합을 생성하기 위한 수단을 포함하는 부호화기.
제8항에 있어서,

만일 상기 오디오 소스 위치들이 상기 양 귀 오디오 신호 시퀀스 전체에 걸쳐 정적이면, 상기 채널 구성 정보를, 양 귀 오디오 신호 시퀀스에 상응하는 상기 하나 이상의 상응하는 부가 정보 집합에서의 정보 필드로서 포함하기 위한 수단을 더 포함하는 것을 특징으로 하는 부호화기.
제8항 또는 제9항에 있어서,

만일 상기 오디오 소스 위치들이 가변적이면, 상기 하나 이상의 상응하는 부가 정보 집합의 상기 채널 구성 정보를 상기 오디오 소스 위치들에서의 변동들을 반영하는 복수 개의 정보 필드들로서 포함하기 위한 수단을 더 포함하는 것을 특징으로 하는 부호화기.
제8항 내지 제10항 중 어느 한 항에 있어서,

상기 부가 정보 집합은 채널간 시간차(ICTD), 채널간 레벨차(ICLD) 및 채널간 가간섭성(ICC)과 같이 양 귀 큐 부호화(BCC) 체계에서 사용되는 채널간 큐들을 더 포함하는 것을 특징으로 하는 부호화기.
제8항 내지 제11항 중 어느 한 항에 있어서,

상기 부가 정보 집합은 원래의 사운드 이미지를 기술하는 다-채널 오디오의 채널 신호들에 대한 이득 추정치들의 집합을 더 포함하는 것을 특징으로 하는 부호화기.
컴퓨터 판독가능 매체에 저장되고 데이터 처리 기기에서 실행가능한, 매개변수적 부호화된 오디오 신호를 생성하기 위한 컴퓨터 프로그램 제품에 있어서,

복수 개의 오디오 채널을 포함하는 다-채널 오디오 신호를 입력하기 위한 컴퓨터 프로그램 코드 부분;

복수 개의 오디오 채널의 적어도 하나의 결합된 신호를 생성하기 위한 컴퓨 터 프로그램 코드 부분; 및

양 귀 오디오 신호의 합성에서 오디오 소스 위치들을 제어하기 위한 채널 구성 정보를 포함한 하나 이상의 상응하는 부가 정보 집합을 생성하기 위한 컴퓨터 프로그램 코드 부분을 포함하는 컴퓨터 프로그램 제품.
양 귀 오디오 신호를 합성하기 위한 방법에 있어서,

복수 개의 오디오 채널들의 적어도 하나의 결합된 신호와, 다-채널 사운드 이미지를 기술하고 채널 구성 정보를 포함하는 하나 이상의 상응하는 부가 정보 집합을 포함하는 매개변수적 부호화된 오디오 신호를 입력하는 단계;

상기 상응하는 부가 정보 집합에 따라 적어도 하나의 결합된 신호를 처리하는 단계; 및

적어도 하나의 처리된 신호로부터 양 귀 오디오 신호를 합성하는 단계로서, 상기 채널 구성 정보는 양 귀 오디오 신호의 오디오 소스 위치들을 제어하는데 사용되는 단계를 포함하는 방법.
제14항에 있어서,

상기 부가 정보 집합은 채널간 시간차(ICTD), 채널간 레벨차(ICLD) 및 채널간 가간섭성(ICC)과 같이 양 귀 큐 부호화(BCC) 체계에서 사용되는 채널간 큐들을 더 포함하는 것을 특징으로 하는 방법.
제15항에 있어서, 적어도 하나의 결합된 신호를 처리하는 단계는,

상기 하나 이상의 상응하는 부가 정보 집합에 따라 제어되는 양 귀 큐 부호화(BCC) 신시사이즈 처리에서 적어도 하나의 결합된 신호로부터 복수 개의 오디오 채널의 원래의 오디오 신호들을 합성하는 단계; 및

복수 개의 합성된 오디오 신호를 양 귀 다운믹스 처리에 적용하는 단계를 더 포함하는 것을 특징으로 하는 방법.
제14항에 있어서,

상기 부가 정보 집합은 원래의 사운드 이미지를 기술하는 다-채널 오디오의 채널 신호들에 대한 이득 추정치들의 집합을 더 포함하는 것을 특징으로 하는 방법.
제17항에 있어서, 적어도 하나의 결합된 신호를 처리하는 단계는,

헤드 관련 전달 함수 필터들의 미리 결정된 집합을 상기 상응하는 부가 정보 집합에 의해 결정된 비율로 적어도 하나의 결합된 신호에 적용하여 양 귀 오디오 신호를 합성하는 단계를 더 포함하는 것을 특징으로 하는 방법.
제18항에 있어서,

헤드 관련 전달 함수 필터들의 미리 결정된 집합으로부터, 상기 채널 구성 정보에 따라 좌-우 쌍의 헤드 관련 전달 함수 필터들을 적용하는 단계를 더 포함하 는 것을 특징으로 하는 방법.
복수 개의 오디오 채널의 적어도 하나의 결합된 신호와, 다-채널 사운드 이미지를 기술하고 채널 구성 정보를 포함하는 하나 이상의 상응하는 부가 정보 집합을 포함하는 매개변수적 부호화된 오디오 신호를 처리하는 매개변수적 코드 처리기로서, 적어도 하나의 결합된 신호는 상기 상응하는 부가 정보에 따라 처리되는 매개변수적 코드 처리기; 및

적어도 하나의 처리된 신호로부터 양 귀 오디오 신호를 합성하는 신시사이저로서, 상기 채널 구성 정보는 양 귀 오디오 신호의 오디오 소스 위치들을 제어하는데 사용되는 신시사이저를 포함하는 매개변수적 오디오 복호화기.
제20항에 있어서,

상기 부가 정보 집합은 채널간 시간차(ICTD), 채널간 레벨차(ICLD) 및 채널간 가간섭성(ICC)과 같이 양 귀 큐 부호화(BCC) 체계에서 사용되는 채널간 큐들을 더 포함하는 것을 특징으로 하는 복호화기.
제21항에 있어서,

상기 신시사이저는, 상기 하나 이상의 상응하는 부가 정보 집합에 따라 제어되는 양 귀 큐 부호화(BCC) 신시사이즈 처리로 적어도 하나의 결합된 신호로부터 복수 개의 오디오 채널의 원래의 오디오 신호들을 합성하도록 배치구성되며; 그리 고 상기 복호화기는

상기 채널 구성 정보에 따라 양 귀 오디오 신호를 합성하기 위해 복수 개의 합성된 오디오 신호가 인가되는 양 귀 다운믹스 부를 더 포함하는 것을 특징으로 하는 복호화기.
제20항에 있어서,

상기 부가 정보 집합은 원래의 사운드 이미지를 기술하는 다-채널 오디오의 채널 신호들에 대한 이득 추정치들의 집합을 더 포함하는 것을 특징으로 하는 복호화기.
제23항에 있어서,

상기 신시사이저는 헤드 관련 전달 함수 필터들의 미리 결정된 집합을 상기 상응하는 부가 정보 집합에 의해 결정된 비율로 적어도 하나의 결합된 신호에 적용하여 양 귀 오디오 신호를 합성하도록 배치구성된 것을 특징으로 하는 복호화기.
제24항에 있어서,

상기 신시사이저는 헤드 관련 전달 함수 필터들의 미리 결정된 집합으로부터, 상기 채널 구성 정보에 따라 좌-우 쌍의 헤드 관련 전달 함수 필터들을 적용하도록 구성된 것을 특징으로 하는 복호화기.
컴퓨터 판독가능 매체에 저장되고 데이터 처리 기기에서 실행가능한 컴퓨터 프로그램 제품으로서, 복수 개의 오디오 채널의 적어도 하나의 결합된 신호와, 다-채널 사운드 이미지를 기술하고 채널 구성 정보를 포함하는 하나 이상의 상응하는 부가 정보 집합을 포함하는 매개변수적 부호화된 오디오 신호를 처리하는 컴퓨터 프로그램 제품에 있어서,

상기 상응하는 부가 정보 집합에 따라 적어도 하나의 결합된 신호의 처리를 제어하기 위한 컴퓨터 프로그램 코드 부분; 및

적어도 하나의 처리된 신호로부터 양 귀 오디오 신호를 합성하기 위한 컴퓨터 프로그램 코드 부분으로서, 상기 채널 구성 정보는 양 귀 오디오 신호의 오디오 소스 위치들을 제어하는데 사용되는 컴퓨터 프로그램 코드 부분을 포함하는 컴퓨터 프로그램 제품.
양 귀 오디오 신호를 합성하는 장치에 있어서,

복수 개의 오디오 채널들의 적어도 하나의 결합된 신호와, 다-채널 사운드 이미지를 기술하고 채널 구성 정보를 포함하는 하나 이상의 상응하는 부가 정보 집합을 포함하는 매개변수적 부호화된 오디오 신호를 입력하기 위한 수단;

상기 상응하는 부가 정보 집합에 따라 적어도 하나의 결합된 신호를 처리하기 위한 수단;

적어도 하나의 처리된 신호로부터 양 귀 오디오 신호를 합성하기 위한 수단으로서, 상기 채널 구성 정보는 양 귀 오디오 신호의 오디오 소스 위치들을 제어하 는데 사용되는 수단; 및

양 귀 오디오 신호를 오디오 재생 수단에 공급하기 위한 수단을 포함하는 장치.
제27항에 있어서, 상기 장치는 이동 단말, PDA 기기 또는 개인용 컴퓨터인 것을 특징으로 하는 장치.