KR101251426B1

KR101251426B1 - 디코딩 명령으로 오디오 신호를 인코딩하기 위한 장치 및방법

Info

Publication number: KR101251426B1
Application number: KR1020077030480A
Authority: KR
Inventors: 알란 제프리 시펠드트; 마크 스투아르트 빈톤; 찰스 키토 로빈슨
Original assignee: 돌비 레버러토리즈 라이쎈싱 코오포레이션
Priority date: 2005-06-03
Filing date: 2006-05-26
Publication date: 2013-04-05
Also published as: CN101228575B; EP1927102A2; TW200715901A; KR20080015886A; AU2006255662B2; TWI424754B; JP5191886B2; WO2006132857A3; US20080033732A1; CA2610430C; JP2008543227A; US20080097750A1; MX2007015118A; CN101228575A; WO2006132857A2; CA2610430A1; US8280743B2; IL187724A; IL187724A0; BRPI0611505A2

Abstract

생산 동안, 적어도 하나의 오디오 신호는 그를 채널 재구성하는 명령들을 유도하기 위하여 처리된다. 적어도 하나의 오디오 신호 및 명령들은 저장 또는 전송된다. 소비 동안, 적어도 하나의 오디오 신호는 명령들에 따라 채널 재구성된다. 채널 재구성 단계는 업믹싱 단계, 다운믹싱 단계, 및 공간 재구성 단계를 포함한다. 생산 동안 채널 재구성 명령들을 결정함으로써, 소비 동안 처리 자원들이 감소된다.

Description

디코딩 명령으로 오디오 신호를 인코딩하기 위한 장치 및 방법{APPARATUS AND METHOD FOR ENCODING AUDIO SIGNALS WITH DECODING INSTRUCTIONS}

DVD 플레이어들이 널리 보급됨에 따라 가정에서 멀티채널(두 개 이상의 채널) 오디오 재생 시스템의 이용이 일반화되었다. 더욱이, 멀티채널 오디오 시스템들은 차량에서 더 일반적으로 이용되고 있으며, 다음 세대 위성 및 지상 디지털 무선 시스템들은 증대되고 있는 멀티채널 재생 환경들에 멀티채널 콘텐츠를 전달하려고 한다. 그러나, 많은 경우에, 멀티채널 콘텐츠의 제공자들은 이러한 자료의 부족에 직면하고 있다. 예컨대, 대부분의 인기있는 음악은 여전히 단지 2-채널 스테레오포닉("스테레오") 트랙들로서 존재한다. 마찬가지로, 모노포닉("모노") 또는 스테레오 포맷으로 존재하는 "레가시" 콘텐츠를 멀티채널 포맷으로 "업믹스(upmix)"하기 위한 요구가 존재한다.

이러한 변환을 달성하기 위한 종래의 솔루션들이 존재하였다. 예컨대, 돌비 프로 로직 II는 원시 스테레오 기록을 취하여 스테레오 기록 그 자체로부터 유도된 스티어링 정보에 기초하여 멀티채널 업믹스를 생성할 수 있다. "돌비", "프로 로직" 및 "프로 로직 II"는 Dolby Laboratories Licensing Corporation의 상표명들이다. 소비자에게 업믹스를 전송하기 위하여, 콘텐츠 제공자는 생산 동안 레가시 콘텐츠에 업믹싱 솔루션을 적용한 후 돌비 디지털과 같은 임의의 적절한 멀티채널 전 송 포맷을 통해 소비자에게 결과적인 멀티채널 신호를 전송할 수 있다. "돌비 디지털"은 Dolby Laboratories Licensing Corporation의 상표명이다. 선택적으로, 비변경 레가시 콘텐츠는 재생동안 업믹싱 프로세스를 적용할 수 있는 소비자에게 전송될 수 있다. 이전의 경우에, 콘텐츠 제공자는 콘텐츠 제공자의 관점에서 볼 때 업믹스가 생성되는 방식에 비하여 완전한 제어를 수행한다. 더욱이, 생산측에서의 처리 제약들은 일반적으로 재생측에서 훨씬 더 작으며, 따라서 더 복잡한 업믹싱 기술을 사용할 가능성이 존재한다. 그러나, 생산측에서의 업믹싱은 일부 단점들을 가진다. 첫째, 레가시 신호에 비교하여 멀티채널 신호의 전송은 증가된 수의 오디오 채널들로 인하여 비용이 많이 든다. 또한, 만일 소비자가 멀티채널 재생 시스템을 가지고 있지 않으면, 전송된 멀티채널 신호는 전형적으로 재생 전에 다운믹싱될 필요가 있다. 이와 같이 다운믹싱된 신호는 일반적으로 원시 레가시 콘텐츠와 동일하지 않으며, 많은 경우에 원시 신호보다 사운드가 불량할 수 있다.

도 1 및 도 2는 방금 기술된 바와 같이 생산 및 소비측에 적용된 종래의 업믹싱의 예들을 도시한다. 이들 예들은 원시 신호가 M=2 채널들을 포함하고 업믹싱된 신호가 N=6 채널들을 포함한다고 가정한다. 도 1의 예에서, 업믹싱은 생산측에서 수행되는 반면에, 도 2에서 업믹싱은 소비측에서 수행된다. 업믹서가 오디오 신호들만을 수신하여 업믹스를 수행하는 도 2의 업믹싱은 때때로 "블라인드" 업믹스로써 언급된다.

도 1을 참조하면, 오디오 시스템의 생산부(production portion)(2)에서, M-채널 원시 신호들을 포함하는 하나 이상의 오디오 신호들(상기 도면들 및 다른 도 면들에서 각각의 오디오 신호는 좌측 채널, 우측 채널 등과 같은 채널을 나타낼 수 있다)은 N-채널 업믹스 신호들을 포함하는 증가된 수의 오디오 신호들을 생성하는 업믹스 장치 또는 업믹싱 기능부("업믹스부")(4)에 제공된다. 업믹스 신호들은 전송 또는 저장하기에 적절한 형식으로 N-채널 업믹스 신호들을 포맷하는 포맷터 장치 또는 포맷팅 기능부("포맷부")(6)에 공급된다. 포맷팅은 데이터-압축 인코딩을 포함할 수 있다. 포맷된 신호들은 디포맷팅 기능부 또는 디포맷터 장치("디포맷부")(10)가 포맷된 신호들을 N-채널 업믹스 신호들(또는 이들의 근사 신호들)로 복원하는 오디오 시스템의 소비부(consumption portion)(8)에 의하여 수신된다. 앞서 논의된 바와 같이, 임의의 경우에 다운믹서 장치 또는 다운믹싱 기능부("다운믹싱부")(12)는 N-채널 업믹스 신호들을 M-채널 다운믹스 신호들(또는 이들의 근사 신호들)로 다운믹싱하며, 여기서 M<N이다.

도 2를 참조하면, 오디오 시스템의 생산부(14)에서, M-채널 원시 신호들을 포함하는 하나 이상의 오디오 신호들은 전송 또는 저장하기에 적합한 형식으로 이들을 포맷하는 포맷터 장치 또는 포맷팅 기능부("포맷부")(6)에 공급된다(이들 도면들 및 다른 도면들에서, 동일한 도면부호는 동일한 장치들 및 기능부들을 나타내기 위하여 사용된다). 포맷팅은 데이터-압축 인코딩을 포함할 수 있다. 포맷된 신호들은 디포맷터 기능부 또는 디포맷팅 장치("디포맷부")(10)가 포맷된 신호들을 M-채널 원시 신호들(또는 이들의 근사 신호들)로 복원하는 오디오 시스템의 소비부(16)에 의하여 수신된다. M-채널 원시 신호들은 출력으로서 제공될 수 있으며, N-채널 업믹스 신호들을 생성하기 위하여 M-채널 원시 신호들을 업믹싱하는 업믹서 기능부 또는 업믹싱 장치("업믹싱부")(18)에 제공된다.

본 발명의 양상들은 도 1 및 도 2의 장치들에 대한 대안들을 제공한다. 예컨대, 본 발명의 임의의 양상들에 따르면, 생산부 또는 소비부에서 레가시 콘텐츠를 업믹싱하는 것보다 오히려, 예컨대 인코더의 프로세스에 의하여 레가시 콘텐츠의 분석은 예컨대 디코더의 추가 프로세스에 레가시 콘텐츠 오디오 정보와 함께 임의의 방식으로 전송되는 보조, "사이드(side)" 또는 "사이드체인(sidechain)" 정보를 생성할 수 있다. 사이드 정보가 전송되는 방식은 본 발명에서 필수적이지 않으며, 예컨대 오디오 정보에 사이드 정보를 삽입하는(예컨대 사이드 정보를 오디오 정보에 은폐하는) 단계 또는 사이드 정보를 개별적으로(예컨대 사이드 정보 그 자체의 비트스트림으로 또는 오디오 정보와 다중화하여) 전송하는 단계를 포함하는 사이드 정보를 전송하는 많은 방식들이 공지되어 있다. 본 명세서에서 "인코더" 및 "디코더"는 생산과 연관된 장치 또는 프로세스와 소비와 연관된 장치 또는 프로세스를 각각 언급하며, 이러한 장치들 및 프로세스들은 데이터 압축 "인코딩" 및 "디코딩"을 포함하거나 또는 포함하지 않을 수 있다. 인코더에 의하여 생성된 사이드 정보는 디코더가 레가시 콘텐츠를 업믹싱하도록 할 수 있다. 따라서, 디코더는 사이드 정보의 도움으로 업믹싱을 제공한다. 비록 업믹스 기술의 제어가 생산부에서 수행될지라도, 소비자는 멀티채널 재생 시스템이 이용가능하지 않은 경우에 변경되지 않고 재생될 수 있는 비변경 레가시 콘텐츠를 수신할 수 있다. 더욱이, 레가시 콘텐츠를 분석하여 고품질의 업믹싱을 위한 사이드 정보를 생성하기 위하여 인코더에서 상당한 처리 전력이 이용될 수 있으며 이에 따라 디코더는 처리 자원들을 구동하는 것보다 오히려 단지 사이드 정보를 적용하기 때문에 상당히 적은 수의 처리 자원들만을 사용한다. 마지막으로, 이러한 업믹스 사이드 정보의 전송 비용은 전형적으로 매우 낮다.

비록 본 발명 및 이의 다양한 양상들이 아날로그 또는 디지털 신호들을 포함할 수 있을지라도, 실제 응용에서는 오디오 신호들이 샘플들에 의하여 표현되는 디지털 신호 스트림들의 디지털 영역에서 대부분 또는 모든 처리 기능들이 수행될 것이다. 본 발명에 따른 신호 처리는 광대역 신호 또는 다중대역 프로세서의 각각의 주파수 대역으로 제공될 수 있으며, 일 구현에 따라 디지털 오디오가 블록들로 분할될때 샘플들의 블록과 같은 샘플들의 세트마다 한번 또는 샘플마다 한번 수행될 수 있다. 다중대역 실시예는 필터 뱅크 또는 변환 구성을 사용할 수 있다. 따라서, 도 3, 도 4A-4C, 도 5A-5C 및 도 6과 관련하여 기술된 본 발명의 실시예들은 시간 영역의 디지털 신호들(예컨대, PCM 신호들)을 수신하여 이들을 적절한 시간 대 주파수 변환기 또는 변환부에 제공하여 다중 주파수 대역들에서 처리할 수 있으며, 여기서 상기 대역은 인간의 귀의 임계 대역들과 관련될 수 있다. 처리 후에, 신호는 시간-영역으로 다시 변환될 수 있다. 원리적으로, 필터뱅크 또는 변환은 시간 대 주파수 변환 및 이의 역변환을 달성하기 위하여 사용될 수 있다. 여기에 기술된 본 발명의 양상들의 일부 상세한 실시예들은 시간 대 주파수 변환, 즉 단시간 이산 푸리에 변환(STDFT:Short-time Discrete Fourier Transform)을 사용한다. 그러나, 본 발명의 다양한 양상들은 임의의 특정 시간 대 주파수 변환기 또는 변환 프로세스의 사용에 제한되지 않는다는 것이 인식될 것이다.

본 발명의 일 양상에 따르면, 오디오 채널을 각각 나타내는 적어도 하나의 오디오 신호 또는 상기 적어도 하나의 오디오 신호와 동일한 수의 채널들을 가진 적어도 하나의 오디오 신호의 수정 신호를 처리하기 위한 방법은 상기 적어도 하나의 오디오 신호 또는 이의 수정 신호의 채널 재구성을 위한 명령들을 유도하는 단계로서, 상기 유도단계시 수신한 오디오 정보만이 상기 적어도 하나의 오디오 신호 또는 이의 수정 신호인 유도 단계; 및 (1) 상기 적어도 하나의 오디오 신호 또는 이의 수정 신호, 및 (2) 상기 채널 재구성 명령들을 포함하나 상기 채널 재구성을 위한 명령들에 의하여 채널 재구성이 이루어질 때 상기 적어도 하나의 오디오 신호 또는 이의 수정 신호의 임의의 채널 재구성을 포함하지 않는 출력을 제공하는 단계를 포함한다. 상기 적어도 하나의 오디오 신호 및 이의 수정 신호는 각각 두 개 이상의 오디오 신호들일 수 있으며, 이 경우에 상기 수정된 두 개 이상의 신호들은 매트릭스 인코딩된 수정 신호들일 수 있으며, 매트릭스 디코더 또는 액티브 매트릭스 디코더에 의하여 디코딩될 때 비수정된 두 개 이상의 오디오 신호들의 디코딩에 비하여 개선된 멀티채널 디코딩을 제공할 수 있다. 디코딩은 예컨대 채널 분리, 공간 이미징, 이미지 안정화 등을 포함하는, 매트릭스 디코더들과 같은 디코더들의 임의의 공지된 성능 특징들 측면에서 개선된다.

적어도 하나의 오디오 신호 및 이의 수정 신호가 두 개 이상의 오디오 신호들인지 또는 아닌지 간에 명령들을 채널 재구성하는 여러 대안들이 존재한다. 일 실시예에 따르면, 상기 명령들은 업믹싱(upmixing)을 위한 명령들에 따라 업믹싱될때 상기 오디오 신호들의 결과적인 수가 적어도 하나의 오디오 신호 또는 이의 수정 신호를 포함하는 오디오 신호들의 수보다 크도록 상기 적어도 하나의 오디오 신호 또는 이의 수정 신호를 업믹싱한다. 명령들을 채널 재구성하는 다른 대안들에 따르면, 적어도 하나의 오디오 신호 및 이의 수정 신호는 두 개 이상의 오디오 신호들이다. 이러한 다른 대안들 중 제 1 대안에 있어서, 명령들은 다운믹싱(down mixing)을 위한 명령들에 따라 다운믹싱될 때, 오디오 신호들의 결과적인 수가 상기 두 개 이상의 오디오 신호들을 포함하는 오디오 신호들의 수보다 작도록 상기 두개 이상의 오디오 신호들을 다운믹싱한다. 이러한 다른 대안들 중 제 2 대안에서, 명령들은 재구성을 위한 명령들에 따라 재구성될 때, 오디오 신호의 수가 동일하게 유지되나 오디오 신호들이 재생되어야 하는 하나 이상의 공간 위치들이 변경되도록 두 개 이상의 오디오 신호들을 재구성한다. 상기 출력에서 상기 적어도 하나의 오디오 신호 또는 이의 수정 신호는 각각 상기 적어도 하나의 오디오 신호 또는 이의 수정 신호의 데이터-압축 버전일 수 있다.

대안들 중 일부 대안에서, 데이터 압축이 사용되든지 간에 명령들은 상기 채널 재구성을 위한 명령들로부터 발생하는 임의의 채널 재구성과 관련 없이 유도될 수 있다. 상기 적어도 하나의 오디오 신호는 주파수 대역들로 분할되며, 상기 채널 재구성을 위한 명령들은 이러한 주파수 대역들 중 각각의 것들과 관련될 수 있다. 본 발명의 다른 양상들은 이러한 방법들을 실시하는 오디오 인코더들을 포함한다.

본 발명의 다른 양상에 따르면, 오디오 채널을 각각 나타내는 적어도 하나의 오디오 신호 또는 상기 적어도 하나의 오디오 신호와 동일한 수의 채널들을 가진 적어도 하나의 오디오 신호의 수정 신호를 처리하기 위한 방법은 상기 적어도 하나의 오디오 신호 또는 이의 수정 신호의 채널 재구성을 위한 명령들을 유도하는 단계로서, 상기 유도단계시 수신한 오디오 정보만이 상기 적어도 하나의 오디오 신호 또는 이의 수정 신호인 유도단계; (1) 상기 적어도 하나의 오디오 신호 또는 이의 수정 신호 및 (2) 채널 재구성 명령들을 포함하나 상기 채널 재구성을 위한 명령들에 의하여 채널 재구성이 이루어질 때 상기 적어도 하나의 오디오 신호 또는 이의 수정 신호의 임의의 채널 재구성을 포함하지 않는 출력을 제공하는 단계; 및 상기 출력을 수신하는 단계를 포함한다.

본 방법은 상기 채널 재구성을 위한 수신된 명령들을 사용하여 상기 수신된 적어도 하나의 오디오 신호 및 이의 수정 신호를 채널 재구성하는 단계를 더 포함할 수 있다. 상기 적어도 하나의 오디오 신호 및 이의 수정 신호는 각각 두 개 이상의 오디오 신호들일 수 있으며, 이 경우에 상기 수정된 두 개 이상의 신호들은 매트릭스 인코딩된 수정 신호들일 수 있으며, 매트릭스 디코더 또는 액티브 매트릭스 디코더에 의하여 디코딩될 때 비수정된 두 개 이상의 오디오 신호들의 디코딩에 비하여 개선된 멀티채널 디코딩을 제공할 수 있다. "개선된"은 앞서 기술된 바와같이 본 발명의 제 1 양상에서와 동일한 의미로 사용된다.

본 발명의 제 1 양상에서처럼, 명령들을 채널 재구성하는 대안들이 존재하며, 즉 상기 오디오 신호들의 수가 동일하게 유지되나 이러한 오디오 신호들이 재생되어야 하는 하나 이상의 공간 위치들이 변경되도록 업믹싱, 다운믹싱 및 재구성하는 대안들이 존재한다. 본 발명의 제 1 양상에서처럼, 출력에서 적어도 하나의 오디오 신호 또는 이의 수정 신호는 적어도 하나의 오디오 신호 또는 이의 수정 신호의 데이터 압축된 버전일 수 있으며, 이 경우에 수신단계는 적어도 하나의 오디오 신호 또는 이의 수정 신호를 데이터 압축하는 단계를 포함할 수 있다. 본 발명의 이러한 양상의 대안들 중 일부 대안에서, 데이터 압축 및 압축해제가 사용되던지간에 명령들은 채널 재구성을 위한 명령들로부터 발생하는 임의의 채널 재구성과 관련없이 유도될 수 있다.

본 발명의 제 1 양상에서처럼, 상기 적어도 하나의 오디오 신호 또는 이의 수정 신호는 주파수 대역들로 분할되며, 이 경우에 상기 채널 재구성을 위한 명령들은 이러한 주파수 대역들과 관련될 수 있다. 본 방법이 채널 재구성을 위한 수신된 명령들을 사용하여 수신된 적어도 하나의 오디오 신호 또는 이의 수정 신호를 재구성하는 단계를 포함할 때, 본 방법은 오디오 출력을 제공하는 단계; 및 (1) 상기 적어도 하나의 오디오 신호 또는 이의 수정신호 또는 (2) 상기 채널 재구성된 적어도 하나의 오디오 신호중 하나를 출력 신호로서 선택하는 단계를 더 포함할 수 있다.

본 방법이 채널 재구성을 위한 수신된 명령들을 사용하여 상기 수신된 적어도 하나의 오디오 신호 또는 이의 수정 신호를 재구성하는 단계를 더 포함하는지 간에, 본 방법은 상기 수신된 적어도 하나의 오디오 신호 또는 이의 수정 신호에 응답하여 오디오 출력을 제공하는 단계를 더 포함할 수 있으며, 이 경우에 상기 오디오 출력에서 상기 적어도 하나의 오디오 신호 또는 이의 수정 신호가 두 개 이상의 오디오 신호들일 때, 본 방법은 상기 두 개 이상의 오디오 신호들을 매트릭스 디코딩하는 단계를 더 포함할 수 있다.

본 방법이 채널 재구성을 위하여 수신된 명령들을 사용하여 수신된 적어도 하나의 오디오 신호 또는 이의 수정 신호를 재구성하는 단계를 더 포함할 때, 본 방법은 오디오 출력을 제공하는 단계를 더 포함할 수 있다.

본 발명의 다른 양상들은 이러한 방법들을 실시하는 오디오 인코딩 및 디코딩 시스템, 이러한 방법들을 실시하는 시스템에서 사용하는 오디오 인코더 및 오디오 디코더, 이러한 방법들을 실시하는 시스템에서 사용하는 오디오 인코더, 및 이러한 방법들을 실시하는 시스템에서 사용하는 오디오 디코더를 포함한다.

본 발명의 또 다른 양상에 따르면, 오디오 채널을 각각 나타내는 적어도 하나의 오디오 신호 또는 상기 적어도 하나의 오디오 신호와 동일한 수의 채널들을 가진 적어도 하나의 오디오 신호의 수정 신호를 처리하기 위한 방법은 적어도 하나의 오디오 신호 또는 이의 수정 신호와 상기 적어도 하나의 오디오 신호 또는 이의 수정 신호를 채널 재구성하는 명령들을 수신하나 상기 채널 재구성을 위한 명령들로부터 발생하는 상기 적어도 하나의 오디오 신호 또는 이의 수정 신호의 채널 재구성을 수신하지 않는 단계로서, 상기 명령들은 상기 수신된 오디오 정보만이 상기 적어도 하나의 오디오 신호 또는 이의 수정 신호인 명령 유도(instruction derivation)에 의하여 유도되는 단계; 및 상기 명령을 사용하여 상기 적어도 하나의 오디오 신호 또는 이의 수정신호를 채널 재구성하는 단계를 포함한다. 상기 적어도 하나의 오디오 신호 및 이의 수정 신호는 각각 두 개 이상의 오디오 신호들일 수 있으며, 이 경우에 상기 수정된 두 개 이상의 오디오 신호들은 매트릭스 인코딩된 수정 신호들일 수 있으며, 매트릭스 디코더 또는 액티브 매트릭스 디코더에 의하여 디코딩될 때 비수정된 두 개 이상의 오디오 신호들의 디코딩에 비하여 개선된 멀티채널 디코딩을 제공할 수 있다. "개선된"은 앞서 기술된 바와 같이 본 발명의 다른 양상에서와 동일한 방식으로 사용된다.

본 발명의 다른 양상들에서처럼, 명령들을 채널 재구성하는 대안들이 존재하며, 예컨대 오디오 신호들의 수가 동일하게 유지되나 오디오 신호들이 재생되어야 하는 하나 이상의 공간 위치가 변경되도록 업믹싱, 다운믹싱 및 재구성하는 대안들이 존재한다.

본 발명의 다른 양상에서처럼, 상기 출력에서 상기 적어도 하나의 오디오 신호 또는 이의 수정 신호는 적어도 하나의 오디오 신호 또는 이의 수정 신호의 데이터 압축 버전일 수 있으며, 이 경우에 상기 수신단계는 적어도 하나의 오디오 신호 또는 이의 수정 신호를 데이터 압축해제하는 단계를 포함할 수 있다. 본 발명의 이러한 양상의 대안들 중 일부 대안에서, 데이터 압축 및 압축해제가 사용되든지 간에 상기 명령들은 채널 재구성 명령들로부터 발생하는 임의의 채널 재구성과 관련없이 유도될 수 있다. 본 발명의 다른 양상들에서처럼, 상기 적어도 하나의 오디오 신호 또는 이의 수정 신호는 주파수 대역으로 분할되며, 이 경우에 상기 채널 재구성 명령들은 상기 주파수 대역들의 각각의 대역과 관련될 수 있다. 일 대안에 따르면, 이러한 본 발명의 양상은 오디오 출력을 제공하는 단계; 및 (1) 상기 적어도 하나의 오디오 신호 또는 이의 수정신호 또는 (2) 채널 재구성된 적어도 하나의 오디오 신호중 하나를 출력 신호로서 선택하는 단계를 더 포함할 수 있다. 다른 대안에 따르면, 이러한 본 발명의 양상은 상기 수신된 적어도 하나의 오디오 신호 또는 이의 수정 신호에 응답하여 오디오 출력을 제공하는 단계를 더 포함할 수 있으며, 이러한 경우에 상기 적어도 하나의 오디오 신호 또는 이의 수정 신호는 각각 두 개 이상의 오디오 신호들이며, 상기 두 개 이상의 오디오 신호들은 매트릭스 디코딩된다. 또 다른 대안에 따르면, 이러한 본 발명의 양상은 상기 수신되어 채널 재구성된 적어도 하나의 오디오 신호에 응답하여 오디오 출력을 제공하는 단계를 더 포함할 수 있다. 본 발명의 다른 양상들은 이러한 방법들 중 일부를 실시하는 오디오 디코더를 포함한다.

본 발명의 또 다른 양상에 따르면, 오디오 채널을 각각 나타내는 적어도 두 개의 오디오 신호 또는 상기 적어도 하나의 오디오 신호와 동일한 수의 채널들을 가진 적어도 두 개의 오디오 신호의 수정 신호를 처리하기 위한 방법은 상기 적어도 두 개의 오디오 신호 및 상기 적어도 두 개의 오디오 신호를 채널 재구성하는 명령들을 수신하나 상기 채널 재구성을 위한 명령들로부터 발생하는 상기 적어도 두 개의 오디오 신호들의 채널 재구성을 수신하지 않는 단계로서, 상기 명령들은 상기 수신된 오디오 정보만이 상기 적어도 두 개의 오디오 신호들인 명령 유도에 의하여 유도되는 단계; 및 상기 두 개 이상의 오디오 신호들을 매트릭스 디코딩하는 단계를 포함한다. 상기 매트릭스 디코딩은 상기 수신된 명령들과 관련되거나 또는 관련되지 않을 수 있다. 디코딩시에, 상기 수정된 두 개 이상의 오디오 신호들은 비수정된 두 개 이상의 오디오 신호들의 디코딩에 비하여 개선된 멀티채널 디코딩을 제공할 수 있다. 상기 수정된 두 개 이상의 오디오 신호들은 매트릭스 인코딩된 수정 신호들일 수 있으며, 매트릭스 디코더 또는 액티브 매트릭스 디코더에 의하여 디코딩될 때 수정된 두 개 이상의 오디오 신호들은 비수정된 두 개 이상의 오디오 신호들의 디코딩에 비하여 개선된 멀티채널 디코딩을 제공할 수 있다. "개선된"은 앞서 기술된 바와 같이 본 발명의 다른 양상들에서와 동일한 의미로 사용된다. 본 발명의 다른 양상은 이러한 방법들 중 일부를 실시하는 오디오 디코더를 포함한다.

본 발명의 또 다른 양상들에서, 오디오 채널을 각각 나타내는 두 개 이상의 오디오 신호들은 수정되어, 매트릭스 디코더에 의하여 디코딩될 때 상기 수정된 신호들은 비수정된 신호들의 디코딩에 비하여 개선된 멀티채널 디코딩을 제공할 수 있다. 이는 상기 오디오 신호들간의 고유 신호 특징들의 하나 이상의 차이를 수정함으로 달성될 수 있다. 이러한 고유 신호 특징들은 진폭 및 위상 중 하나 또는 둘다를 포함할 수 있다. 상기 오디오 신호들간의 고유 신호 특징들의 하나 이상의 차이를 수정하는 상기 단계는, 다수의 신호들에 상기 비수정 신호들을 업믹싱하는 단계; 및 매트릭스 인코더를 사용하여 상기 업믹싱된 신호들을 다운믹싱하는 단계를 포함할 수 있다. 선택적으로, 상기 오디오 신호들간의 고유 신호 특징들의 하나 이상의 차이를 수정하는 상기 단계는, 상기 오디오 신호들간의 상호상관을 증가 또는 감소시키는 단계를 포함할 수 있다. 상기 오디오 신호들간의 상호 상관은 하나 이상의 주파수 대역들에서 다양하게 증가 및/또는 감소될 수 있다.

본 발명의 다른 양상들은 (1) 여기에 기술된 방법들 중 일부 방법을 수행하는데 적합한 장치, (2) 컴퓨터 판독가능 매체 상에 저장되며, 컴퓨터가 여기에 기술된 방법들 중 어느 하나를 수행하도록 하는 컴퓨터 프로그램, (3) 여기에 기술된 방법들에 의하여 생성된 비트스트림, 및 (4) 여기에 기술된 방법들을 수행하는데 적합한 장치에 의하여 생성된 비트스트림을 포함한다.

도 1은 생산부 및 소비부를 가지는데 소비부에서 업믹싱이 수행되는 종래의 업믹싱 장치의 개략적인 기능 블록도를 도시한다.

도 2는 생산부 및 소비부를 가지는데 생산부에서 업믹싱이 수행되는 종래의 업믹싱 장치의 개략적인 기능 블록도를 도시한다.

도 3은 업믹싱 명령들이 생산부에서 유도되어 소비부에 제공되는 본 발명의 양상들에 대한 업믹싱 실시예를 도시한 개략적 기능 블록도들 도시한다.

도 4A는 채널 재구성을 위한 명령들이 생산부에서 유도되어 소비부에 제공되는 본 발명의 양상들의 일반화된 채널 재구성 실시예의 개략적 기능 블록도를 도시한다.

도 4B는 채널 재구성을 위한 명령들이 생산부에서 유도되어 소비부에 제공되며, 생산부에 제공된 신호들이 수정되어 채널 재구성을 위한 명령들과 관련없이 상기 재구성이 소비부에서 수행될 때 채널 재구성을 개선할 수 있는 본 발명의 양상들에 대한 다른 일반화된 채널 재구성 실시예를 기술한 개략적 기능 블록도를 도시한다.

도 4C는 생산부에 제공된 신호들이 수정되어 채널 재구성을 위한 명령들과 관련없이 상기 재구성이 소비부에서 수행될 때 채널 재구성을 개선할 수 있으며, 재구성 정보가 생산부로부터 소비부로 전송되지 않은 본 발명의 양상들에 대한 다른 일반화된 채널 재구성 실시예를 기술한 개략적 기능 블록도를 도시한다.

도 5A는 업믹서 또는 업믹싱 기능부 및 매트릭스 인코더 또는 매트릭스 인코딩 기능부를 사용함에 의해 공급된 신호들을 생산부가 수정하는 장치의 개략적 기능 블록도를 도시한다.

도 5B는 상호 상관을 감소시킴에 의해 공급된 신호들을 생산부가 수정하는 장치의 개략적 기능 블록도를 도시한다.

도 5C는 부대역 기저에 대한 상호 상관을 감소시킴에 의해 공급된 신호들을 생산부가 수정하는 장치의 개략적 기능 블록도를 도시한다.

도 6A는 인코더가 공간 코딩 시스템의 디코더에 의하여 재생될 N-채널 신호들을 수신하는, 종래의 공간 코딩 시스템의 인코더의 예를 도시한 개략적 기능 블록도를 도시한다.

도 6B는 인코더가 공간 코딩 시스템의 디코더에 의하여 재생될 N-채널 신호들을 수신하며 인코더로부터 디코더로 전송되는 M-채널 합성 신호들을 수신하는, 종래의 공간 코딩 시스템의 인코더의 예를 도시한 개략적 기능 블록도를 도시한다.

도 6C는 도 6A의 인코더 또는 도 6B의 인코더와 함께 사용가능한 종래의 공간 코딩 시스템의 디코더의 예를 도시한 개략적 기능 블록도를 도시한다.

도 7은 공간 코딩 시스템에서 사용가능한 본 발명의 양상들의 인코더 실시예를 기술한 개략적 기능 블록도를 도시한다.

도 8은 2:5 액티브 매트릭스 디코더에서 사용하기에 적합한 이상적인 종래의 5:2 매트릭스 인코더를 도시한 기능 블록도이다.

도 3은 업믹싱 장치의 본 발명의 양상들의 예를 도시한다. 장치의 생산부(20)에서, M-채널 원시 신호들(예컨대, 레가시 오디오 신호들)은 업믹싱측 정보("유도 업믹싱 정보")를 유도하는 장치 또는 기능부(21) 및 포맷터 장치 또는 포맷팅 기능부("포맷부")(22)에 공급된다. 선택적으로, 도 3의 M-채널 원시 신호들은 이하에 기술된 바와 같이 레가시 오디오 신호들의 수정된 버전일 수 있다. 포맷부(22)는 M-채널 원시 신호들, 업믹싱 측 정보 및 다른 데이터 정보, 예컨대 직렬 비트스트림 또는 병렬 비트스트림들을 포맷하거나 또는 배열하는 예컨대 다중화기 또는 다중화 기능부를 포함할 수 있다. 장치의 생산부(20)의 출력 비트스트림이 직렬인지 또는 병렬인지의 여부는 본 발명에서 필수적이지 않다. 포맷부(22)는 손실, 무손실, 또는 손실 및 무손실 인코더 또는 인코딩 기능부의 조합과 같은 적절한 데이터 압축 인코더 또는 인코딩 기능부를 포함할 수 있다. 출력 비트스트림 또는 비트스트림들이 인코딩되는지의 여부는 또한 본 발명에서 필수적이지 않다. 출력 비트스트림 또는 비트스트림들은 임의의 적절한 방식으로 전송 또는 저장된다.

도 3에서 예로서 도시된 장치의 소비부(24)에서, 출력 비트스트림 또는 비트스트림들은 수신되어 디포맷터 또는 디포맷팅 기능부("디포맷부")(26)는 M-채널 원시 신호들(또는 이들의 근사 신호들) 및 업믹싱 정보를 제공하기 위하여 포맷 부(22)의 동작을 복원한다. 디포맷부(26)는 적절한 데이터-압축 디코더 또는 디코딩 기능부를 포함할 수 있다. 업믹싱 정보 및 M-채널 원시 신호들(또는 이들의 근사 신호들)은 N-채널 업믹싱 신호들을 제공하기 위하여 업믹싱 명령들에 따라 M-채널 원시 신호들(또는 이들의 근사 신호들)을 업믹싱하는 업믹서 장치 또는 업믹싱 기능부("업믹싱부")(28)에 공급된다. 예컨대 다른 수의 채널들에 업믹싱을 각각 제공하는 업믹싱 명령들의 다중 세트들이 존재할 수 있다. 만일 업믹싱 명령들의 다중 세트들이 존재하면, 하나 이상의 세트들이 선택된다(이러한 선택은 장치의 소비부에서만 이루어질 수 있거나 또는 임의의 방식으로 선택가능할 수 있다). M-채널 원시 신호들 및 N-채널 업믹싱 신호들은 장치의 소비부(24)의 잠재적 출력들이다. 이들 신호들 중 어느 하나 또는 둘 다는 출력들(도시 안 됨)로써 제공될 수 있거나 또는 하나 또는 다른 것이 선택될 수 있으며, 이러한 선택은 예컨대 사용자 또는 소비자에 의한 자동 제어 및 수동 제어하에서 선택기 또는 선택 기능부(도시안 됨)에 의하여 구현된다. 비록 도 3이 M=2 및 N=6이라고 기호를 도시할지라도, M 및 N은 상기에 제한되지 않는다는 것이 이해되어야 한다.

본 발명의 양상들의 실제 응용의 일례에서, 각각의 스테레오 사운드 채널들을 나타내는 두 개의 오디오 신호들은 장치 또는 프로세스에 의하여 수신되며, 전형적으로 "5.1" 채널들(실제로 6개의 채널, 이러한 6개의 채널 중 한 채널은 매우 작은 데이터를 필요로 하는 저주파수 채널이다)로써 언급되는 두 개의 오디오 신호들을 업믹싱할 때 사용하기에 적합한 명령들을 유도하는 것이 바람직하다. 그 다음에, 두 개의 원시 오디오 신호들은 업믹싱 명령들과 함께 원하는 5.1 채널들을 제공하기 위하여 두 개의 오디오 신호들에 업믹싱 명령들을 제공하는 업믹서 또는 업믹싱 프로세스에 전송될 수 있다(업믹싱은 사이드 정보를 사용함). 그러나, 임의의 경우에, 두 개의 원시 오디오 신호들 및 관련 업믹싱 명령들은 업믹싱 명령들을 사용할 수 없는 장치 또는 프로세스에 의하여 수신될 수 있으나, 이는 수신된 두 개의 오디오 신호들의 업믹싱을 수행하기에 적합할 수 있으며, 여기서 업믹싱은 종종 "블라인드" 업믹싱으로서 언급된다. 이러한 블라인드 업믹싱들은 예컨대 프로 로직, 프로 로직 II, 또는 프로 로직 IIx 디코더(프로 로직, 프로 로직 II, 및 프로 로직 IIx는 Dolby Laboratories Licensing Corporation의 상표명이다)와 같은 액티브 매트릭스 디코더에 의하여 제공될 수 있다. 다른 액티브 매트릭스 디코더들이 사용될 수 있다. 이러한 액티브 매트릭스 블라인드 업믹서들은 업믹싱을 수행하기 위하여 고유 신호 특징들(그에 제공된 신호들간의 진폭 및/또는 위상 관계들과 같은 특징들)에 의지하고 이들에 응답하여 동작한다. 블라인드 업믹싱은 업믹싱 명령들(예컨대, 본 예에서 블라인드 업믹싱은 5.1 채널들을 야기하기 않을 수 있다)을 사용하기에 적합한 장치 또는 기능부에 의하여 제공된 동일한 수의 채널들을 야기하거나 또는 야기하지 않을 수 있다.

액티브 매트릭스 디코더에 의하여 수행된 "블라인드" 업믹싱은 그의 입력들이 매트릭스 인코더, 특히 디코더와 상호 보완적인 매트릭스 인코더와 같은 액티브 매트릭스 인코더와 호환가능한 장치 또는 기능부에 의하여 사전에 인코딩될 때 바람직하다. 이러한 경우에, 입력 신호들은 액티브 매트릭스 디코더에 의하여 사용되는 고유 진폭 및 위상 관계들을 가진다. 호환 장치에 의하여 사전에 인코딩되지 않는 신호들의 "블라인드" 업믹싱, 즉 진폭 또는 위상 관계들과 같은 유용한 고유 신호 특징들을 가지지 않은(또는 단지 최소로 유용한 고유 신호 특징들을 가진) 신호들은, 이하에 기술된 바와 같이, "아티스틱" 업믹서, 전형적으로 계산적으로 복잡한 업믹서로써 언급될 수 있는 업믹서에 의하여 최상으로 수행된다.

비록 본 발명의 양상들이 업믹싱을 위하여 유리하게 사용될 수 있을지라도, 본 발명의 양상들은 특정 "채널 구성"을 위하여 지정된 적어도 하나의 오디오 신호가 하나 이상의 대안 채널 구성들을 통해 재생하기 위하여 변경되는 더 일반적인 경우에 대하여 적용할 수 있다. 인코더는 예컨대 필요한 경우에 하나 이상의 대안 채널 구성들에 대하여 원시 신호를 변경하는 방법을 디코더에 명령하는 사이드 정보를 생성한다. 이와 관련하여 "채널 구성"은 예컨대 원시 오디오 신호들에 대한 재생 오디오 신호들의 수 뿐만 아니라 원시 오디오 신호들의 공간 위치들에 대하여 재생 오디오 신호들이 재생되어야 하는 공간 위치들을 포함한다. 따라서, 채널 "재구성"은 예컨대 하나 이상의 채널들이 다수의 채널들에 임의의 방식으로 매핑되는 "업믹싱", 두 개 이상의 채널들이 소수의 채널들에 임의의 방식으로 매핑되는 "다운믹싱", 채널들이 재생되어야 하는 위치들 또는 채널들이 연관된 방향들이 임의의 방식으로 변경 또는 재매핑되는 공간 위치 재구성, 및 바이노럴로부터 확성기 포맷으로의 변환(크로스토크 제거 또는 크로스토크 제거기를 가진 처리에 의하여) 또는 확성기 포맷으로부터 바이노럴로의 변환("바이노럴화" 또는 확성기 포맷으로부터 바이노럴 변환기에 의한 처리, 즉 "바이노럴라이저"에 의하여)을 포함할 수 있다. 따라서, 본 발명의 양상들에 따른 채널 재구성과 관련하여, 원시 신호의 채 널 수는 결과적인 대안 채널 구성들 중 일부의 채널수보다 작거나 또는 크거나 또는 동일할 수 있다.

공간 위치 구성의 예는 4채널 방식(quadraphonic) 구성("좌측전방, 우측전방, 좌측후방 및 우측후방을 가진 "정사각형" 레이아웃)으로부터 종래의 동영상 구성(좌측전방, 중심전방, 우측 전방 및 주변을 가진 "다이아몬드" 레이아웃)으로의 변환이다.

본 발명의 양상들의 비-업믹싱 "재구성" 애플리케이션의 예는 "청각 장면 분석을 사용하여 오디오 신호들을 결합하는 방법"이라는 명칭으로 2004년 8월 3일에 출원된 Michael John Smithers의 미국특허 출원번호 10/911,404에 개시되어 있다. Smithers는 정적 다운믹싱과 연관된 공통 빗살형 필터링 및 위상 제거 효과들을 방지하는 방식으로 신호들을 동적으로 다운믹싱하기 위한 기술을 개시한다. 예컨대, 원시 신호는 좌측, 중심 및 우측 채널들로 구성될 수 있으나, 많은 재생 환경들에서는 중심 채널이 이용가능하지 않다. 이러한 경우에, 중심 채널 신호는 스테레오 재생을 위하여 좌측 및 우측으로 혼합될 필요가 있다. Smithers에 의하여 개시된 방법은 중심 채널과 좌측 및 우측 채널들 간의 전체 평균 지연을 재생 동안 동적으로 측정한다. 그 다음에, 대응하는 보상 지연은 빗살형 필터링을 방지하기 위하여 좌측 및 우측 채널들과 혼합하기 전에 중심 채널에 적용된다. 더욱이, 전력 보상은 계산되어, 다른 위상 제거 효과들을 제거하기 위하여 각각의 다운믹싱된 채널의 각각의 유효 대역에 적용된다. 재생 동안 이러한 지연 및 전력 보상 값을 계산하는 것보다 오히려, 본 발명은 인코더에서 사이드 정보로서 상기 보상 값을 생성하 도록 하며, 그 다음에 이 값들은 종래의 스테레오 구성을 통한 재생이 요구되는 경우에 디코더에 선택적으로 적용될 수 있다.

도 4A는 일반화된 채널 재구성 장치에 대한 본 발명의 양상들의 예를 도시한다. 장치의 생산부(30)에서, M-채널 원시 신호들(레가시 오디오 신호들)은 채널 재구성 사이드 정보("유도 채널 재구성 정보")의 하나 이상의 세트들을 유도하는 장치 또는 기능부(32) 및 포맷터 장치 또는 포맷팅 기능부("포맷부")(22)에 공급된다(도 3의 예와 관련하여 기술됨). 도 4A의 M-채널 원시 신호들은 이하에 기술된 바와 같이 레가시 오디오 신호들의 수정된 버전일 수 있다. 출력 비트스트림 또는 비트스트림들은 임의의 적절한 방식으로 전송 또는 저장된다.

장치의 소비부(34)에서, 출력 비트스트림 또는 비트스트림들은 수신되어 디포맷터 장치 또는 디포맷팅 기능부("디포맷부")(26)(도 3과 관련하여 기술됨)는 M-채널 원시 신호들(또는 이들의 근사 신호들) 및 채널 재구성 정보를 제공하기 위하여 포맷부(22)의 동작을 복원한다. 채널 재구성 정보 및 M-채널 원시 신호들(또는 이들의 근사 신호들)은 N-채널 재구성된 신호들을 제공하기 위하여 명령들에 따라 채널들이 M-채널 원시 신호들(또는 이들의 근사 신호들)을 재구성하는 장치 또는 기능부("채널들의 재구성부")(36)에 적용된다. 도 3에서처럼, 예컨대 만일 명령들의 다중 세트가 존재하면, 하나 이상의 세트들이 선택된다("채널 재구성 선택")(이러한 선택은 장치의 소비부에서만 수행되거나 또는 임의의 방식으로 선택할 수 있다). 도 3에서처럼, 예컨대 M-채널 원시 신호들 및 N-채널 재구성된 신호들은 장치의 소비부(34)의 잠재적인 출력들이다. 어느 하나 또는 둘 다는 출력들(도시됨) 로서 제공되거나 또는 하나 또는 다른 것이 선택될 수 있으며, 이러한 선택은 예컨대 사용자 또는 소비자에 의한 자동 또는 수동 제어하에서 선택기 또는 선택 기능부(도시안됨)에 의하여 구현된다. 비록 도 4A가 M=3 및 N=2인 것으로 기호로 도시할지라도, M 및 N은 이에 제한되지 않는다는 것이 이해될 것이다. 앞서 언급된 바와 같이, 따라서, 채널 "재구성"은 예컨대 하나 이상의 채널들이 다수의 채널들에 임의의 방식으로 매핑되는 "업믹싱", 두 개 이상의 채널들이 소수의 채널들에 임의의 방식으로 매핑되는 "다운믹싱", 채널들이 재생되어야 하는 위치들이 임의의 방식으로 재매핑되는 공간 위치 재구성, 및 바이노럴로부터 확성기 포맷으로의 변환(크로스토크 제거 또는 크로스토크 제거기를 가진 처리에 의하여) 또는 확성기 포맷으로부터 바이노럴로의 변환("바이노럴화" 또는 확성기 포맷으로부터 바이노럴 변환기에 의한 처리, 즉 "바이노럴라이저"에 의하여)을 포함할 수 있다. 바이노럴화의 경우에, 채널 재구성은 (1) 다중 가상 채널들로의 업믹싱 및/또는 (2) 두개의 채널 스테레오포닉 바이노럴 신호 가상 업믹싱 및 가상 확성기 포지셔닝으로서 렌더링된 가상 공간 위치 재구성을 포함할 수 있으며, 이는 "명백한 사운드 소스 번역기"라는 명칭을 가진 Atal 등의 미국특허번호 3,236,949(1966년 2월 26) 및 "스테레오포닉 대 바이노럴 변환 장치"라는 명칭을 가진 Bauer의 미국특허번호 3,088,997(1963년 5월 7일 참조)에 공지되어 있다.

도 3 및 도 4A의 예와 관련하여 앞서 언급된 바와 같이, M-채널 원시 신호들의 수정된 버전은 입력들로서 사용될 수 있다. 신호들은 액티브 매트릭스 디코더와 같은 공통적으로 이용가능한 소비자 장치에 의하여 블라인드 재구성을 용이하게 하기 위하여 수정된다. 선택적으로, 비수정 신호들이 두 개의 채널 스테레오포닉 신호들일때, 수정된 신호들은 비수정된 신호들의 두 개의 채널 바이노럴화된 버전일 수 있다. 수정된 M-채널 원시 신호들은 비록 이것이 본 발명의 양상에서 필수적이지 않을지라도 비수정 신호들과 동일한 수의 채널들을 가질 수 있다. 도 4B의 예를 참조하면, 장치의 생산부(38)에서, M-채널 원시 신호들(레가시 오디오 신호들)은 오디오 신호들의 대안 또는 수정된 세트를 생성하는("교번 신호들을 생성하는") 장치 또는 기능부에 제공되는 반면에, 대안 또는 수정된 신호들은 채널 재구성 사이드 정보("유도 채널 재구성 정보")(32)의 하나 이상의 세트들을 유도하는 장치 또는 기능부 및 포맷터 장치 또는 포맷팅 기능부("포맷부")(22)(도면부호 32 및 22는 앞서 기술됨)에 제공된다. 유도 채널 재구성 정보(32)는 재구성 정보를 유도하는 것을 지원하기 위하여 생성 교번 신호들(40)로부터 비-오디오 정보를 또한 수신할 수 있다. 출력 비트스트림 또는 비트스트림들은 임의의 적절한 방식으로 전송 또는 저장된다.

장치의 소비부(42)에서, 출력 비트스트림 또는 비트스트림들은 수신되어, 디포맷부(26)(앞서 기술됨)는 M-채널 교번 신호들(또는 이들의 근사 신호들) 및 채널 재구성 정보를 제공하기 위하여 포맷부(22)의 동작을 복원한다. 채널 재구성 정보 및 M-채널 교번 신호들(또는 이들의 근사 신호들)은 N-채널 재구성된 신호들을 제공하기 위하여 명령들에 따라 채널이 M-채널 원시 신호들(또는 이들의 근사 신호들)을 재구성하는 장치 또는 기능부("재구성 채널들")(44)에 제공될 수 있다. 도 3 및 도 4A에서처럼, 만일 명령들의 다중 세트들이 존재하면, 한 세트가 선택된다 (이러한 선택은 장치의 소비부에서만 수행될 수 있거나 또는 임의의 방식으로 선택가능할 수 있다). 도 4A 예와 관련하여 앞서 언급된 바와 같이, "채널 재구성"은 예컨대 "업믹싱"(두 개의 채널 바이노럴 신호가 업믹싱된 가상 채널들을 가지도록 렌더링되는 가상 업믹싱을 포함함), "다운믹싱", 공간 위치 재구성, 및 바이노럴로부터 확성기 포맷으로의 변환 또는 확성기 포맷으로부터 바이노럴로의 변환을 포함할 수 있다. M-채널 교번 신호들(이들의 근사 신호들)은 P-채널 재구성된 신호들을 제공하기 위하여 재구성 정보와 관련없는 M-채널 교번 신호들("재구성 정보 없는 재구성 채널)(46)을 재구성하는 장치 또는 기능부에 제공될 수 있다. 채널들 P의 수는 채널들 N의 수와 동일할 필요가 없다. 앞서 논의된 바와 같이, 이러한 장치 또는 기능부(46)는 재구성이 업믹싱하는 경우에서 예컨대 액티브 매트릭스 디코더와 같은 블라인드 업믹서일 수 있다(이것의 예는 앞서 개시되어 있다.). 장치 또는 기능부(46)는 바이노럴(binaural)로부터 확성기 포맷으로 또는 확성기 포맷으로부터 바이노럴로의 변환을 제공할 수 있다. 도 4A 예의 장치 또는 기능부(36)에서처럼, 장치 또는 기능부(46)는 2-채널 바이노럴 신호가 업믹싱 및/또는 리포지셔닝된 가상 채널들을 가지도록 렌더링되는 가상 업믹싱 및/또는 가상 확성기 리포지셔닝(repositioning)을 제공할 수 있다. M-채널 교번 신호들, N-채널 재구성된 신호들 및 P-채널 재구성된 신호들은 장치의 소비부(42)의 잠재적인 출력들이다. 이들의 일부 조합은 출력들(도면에서 모두 3개가 도시됨)로서 제공될 수 있거나 또는 하나 또는 이들의 조합이 선택될 수 있으며, 이러한 선택은 예컨대 사용자 또는 소비자에 의한 자동 또는 수동 제어하에서 선택기 또는 선택 기능부(도시안됨)에 의 하여 실행될 수 있다.

다른 대안이 도 4C의 예로 기술된다. 이러한 예에서, M-채널 원시 신호들이 수정되나, 채널 재구성 정보는 전송되거나 또는 기록되지 않는다. 따라서, 유도 채널 재구성 정보(32)는 단지 M-채널 교번 신호들만이 포맷부(22)에 제공되도록 장치의 생산부(38)에서 생략될 수 있다. 따라서, 오디오 정보 외에 재구성 정보를 반송할 수 없는 레가시 전송 또는 기록 장치는 2-채널 스테레오포닉 신호와 같은 레가시형 신호만을 반송하는데 요구되며, 이는 액티브 매트릭스 디코더와 같은 단순 소비자형 업믹서에 제공되는 양호한 결과들을 제공하도록 수정되었다. 장치의 소비부(42)에서, 재구성 채널들(44)은 두 개의 잠재적 출력들, 즉 M-채널 교번 신호들 및 P-채널 재구성된 신호들 중 하나 또는 둘 다를 제공하기 위하여 생략될 수 있다.

앞서 지시된 바와 같이, 이러한 M-채널 원시 신호들(또는 이들의 근사 신호들)이 적응형 매트릭스 디코더와 같은 소비자형 업믹서에 의하여 시스템의 소비부에서 블라인딩 업믹싱하기에 더 적합하도록 오디오 시스템의 생산부에 공급된 M-채널 원시 신호들의 세트를 수정하는 것이 바람직할 수 있다.

이러한 비최적 오디오 신호들의 세트를 수정하기 위한 한 방식은 (1) 적응형 매트릭스 디코더가 동작하는 것보다 고유 신호 특징들(공급된 신호들간의 진폭 및/또는 위상 관계들과 같은 특징들)에 덜 종속되어 동작하는 장치 또는 기능부를 사용하여 신호들의 세트를 업믹싱하고, (2) 예측되는 적응형 매트릭스 디코더와 호환가능한 매트릭스 인코더를 사용하여 신호들의 비혼합 세트를 인코딩하는 것이다. 이러한 방식은 도 5A의 예와 관련하여 이하에서 기술된다.

이러한 신호들의 세트를 수정하기 위한 다른 방식은 공지된 "공간화" 및/또는 신호 합성 기술들 중 하나 이상을 적용하는 것이다. 이러한 기술들은 종종 "의사 스테레오(pseudo stereo)" 또는 "의사 쿼드(pseudo quad)" 기술들로서 특징된다. 예컨대, 한 기술은 채널들 중 하나 이상의 채널에 역상관 및/또는 다른 위상의 콘텐츠를 추가할 수 있다. 이러한 처리는 중심 이미지 안정화를 최소로 희생하면서 사운드 이미지 폭 또는 사운드 포락선을 명백하게 증가시킨다. 이는 도 5B의 예와 관련하여 기술된다. 이들 신호 특징들(폭/포락선 대 중심 이미지 안정성)간의 균형을 달성하는 경우에, 중심 이미지 안정성이 주로 저주파수 내지 중간 주파수에 의하여 결정되는 현상의 장점을 취할 수 있는 반면에, 이미지 폭 및 포락선은 주로 고주파수에 의하여 결정된다. 신호를 두 개 이상의 주파수 대역들로 분할함으로써 오디오 부대역들을 독립적으로 처리할 수 있으며, 따라서 최소 역상관을 적용하여 저주파수 및 중간 주파수에서 이미지 안정성을 유지하고 큰 역상관을 사용하여 고주파수들에서 포락선의 감지를 향상시킬 수 있다. 이는 도 5C의 예에 기술된다.

도 5A의 예를 참조하면, 장치의 생산부(48)에서, M-채널 신호들은 "아티스틱" 업믹서 장치 또는 "아티스틱" 업믹싱 기능부(아티스틱 업믹싱부)(50)로써 특징될 수 있는 것에 의하여 P-채널 신호들에 업믹싱된다. "아티스틱" 업믹서와 필수요소가 아닌 계산적으로 복잡한 업믹서는 액티브 매트릭스 디코더들이 업믹싱을 수행할때 의존하는 것보다 고유 신호 특징들(공급된 신호들간의 진폭 및/또는 위상 관계들과 같은 특징들)에 덜 종속되거나 또는 종속되지 않고 동작한다. 대신에, "아티스틱" 업믹서는 업믹서의 설계자 또는 설계자들이 특정 결과들을 달성하기에 적합할 수 있는 하나 이상의 프로세스에 따라 동작한다. 이러한 "아티스틱" 업믹서들은 많은 형식들을 취할 수 있다. 한 예는 도 7 및 "본 발명이 공간 코더에 적용된다"는 전술한 설명과 관련하여 제공된다. 도 7의 예에 따르면, 예컨대 "중심 파일-업(center pile-up)"을 최소화하기 위하여 양호한 좌측/우측 분리를 가지고 "포락선"을 개선하기 위하여 양호한 정면/후면 분리를 가진 업믹싱된 신호가 생성된다. "아티스틱" 업믹스를 수행하기 위한 특정 기술 또는 기술들을 선택하는 것은 본 발명에서 필수적이지 않다.

도 5A를 계속해서 참조하면, 업믹싱된 P-채널 신호들은 소수의 채널들, 즉 M-채널 교번 신호들을 제공하는 매트릭스 인코더 또는 매트릭스 인코딩 기능부("매트릭스 인코딩부")(52)에 제공되며, 채널들은 매트릭스 디코더에 의하여 디코딩하기에 적합한 진폭 및 위상 큐들과 같은 고유 신호 특징들로 인코딩된다. 적절한 매트릭스 인코더는 도 8과 관련하여 이하에 기술되는 5:2 매트릭스 인코더이다. 다른 매트릭스 인코더들이 또한 적절할 수 있다. 매트릭스 인코드 출력은, 앞서 기술된 바와 같이 예컨대 직렬 또는 병렬 비트스트림을 생성하는 포맷부(22)에 제공된다. 이상적으로, 아티스틱 업믹싱부(50) 및 매트릭스 인코딩부(52)의 조합은 신호들을 생성하며, 이는 종래의 소비자 액티브 매트릭스 디코더에 의하여 디코딩될 때, 아티스틱 업믹싱부(50)에 공급된 원시 신호들의 디코딩과 비교하여 개선된 청취 효과를 제공한다.

도 5A 구조의 소비부(54)에서, 출력 비트스트림 또는 비트스트림들은 수신되며, 디포맷팅부(26)(앞서 기술됨)는 M-채널 교번 신호들(또는 이들의 근사 신호들)을 제공하기 위하여 포맷팅부(22)의 동작을 복원한다. M-채널 교번 신호들(또는 이들의 근사 신호들)은 출력으로써 제공될 수 있으며, P-채널 재구성된 신호들을 제공하기 위하여 임의의 재구성 정보와 관련없는 M-채널 교번 신호들("재구성 정보 없는 재구성 채널들")(56)을 재구성하는 장치 또는 기능부에 제공될 수 있다. 채널들 P의 수는 채널들 M의 수와 동일할 필요가 없다. 앞서 논의된 바와 같이, 이러한 장치 또는 기능부(56)는 재구성이 업믹싱될 때 예컨대 액티브 매트릭스 디코더(앞서 기술됨)와 같은 블라인드 업믹서일 수 있다. M-채널 교번 신호들 및 P-채널 재구성된 신호들은 구조의 소비부(54)의 잠재적 출력들이다. 이들 중 하나 또는 둘 다가 선택될 수 있으며, 이러한 선택은 예컨대 사용자 또는 소비자에 의한 자동 또는 수동 제어하에서 선택기 또는 선택 기능부(도시안됨)에 의하여 실행될 수 있다.

도 5B의 예에서는 입력 신호들의 비최적 세트, 즉 채널들 간의 상관이 수정되는 "공간화" 타입을 수정하기 위한 다른 방식이 기술된다. 구조의 생산부(58)에서, M-채널 신호들은 역상관기 장치 또는 역상관 기능부들("역상관기")(60)의 세트에 제공된다. 신호 채널들 간의 상호 상관의 감소는 공지된 역상관 기술들 중 일부를 사용하여 개별 채널들을 독립적으로 처리함으로써 달성될 수 있다. 선택적으로, 역상관은 채널들 간에 상호 의존적으로 처리함으로써 달성될 수 있다. 예컨대, 채널들 간의 다른 위상 콘텐츠(즉, 부정 상관)는 한 채널로부터의 신호들을 스 케일링하여 반전시키고 다른 것에 혼합함으로써 달성될 수 있다. 양쪽의 경우에, 프로세스는 각각의 채널에서 처리된 및 미처리된 신호의 상대 레벨들을 조절함으로써 제어될 수 있다. 앞서 언급된 바와 같이, 중심 이미지 안정성을 최소화하면서 사운드 이미지 폭 또는 사운드 포락선을 명백하게 할 수 있다. 개별 채널들을 독립적으로 처리하는 방식의 역상관의 예는 Seefeldt 등에 의한 미국특허 출원번호 60/604,725(2004년 8월 25일 출원), 60/700,137(2005년 7월 18일 출원), 및 60/705,784(2005년 8월 5일 출원: 대리인 참조번호 DOL14901)에 개시되어 있으며, 이들 출원들은 각각 "공간 오디오 코딩에서 멀티채널 역상관"이라는 명칭을 가진다. 개별 채널들을 독립적으로 처리하는 방식의 역상관의 다른 예는 이하에서 인용된 Breebaart et al AES Convention Paper 6072 및 WO 03/090206에 개시되어 있다. 감소된 상관을 갖는 M-채널 신호들은 적절한 전송 또는 기록을 위하여 하나 이상의 비트스트림들과 같은 적절한 출력을 제공하는 앞서 언급된 포맷팅부(22)에 제공된다. 도 5B 구조의 소비부(54)는 도 5A 구조의 소비부와 동일할 수 있다.

앞서 언급된 바와 같이, 채널들 중 하나 이상의 채널에 역상관된 및/또는 다른 위상 콘텐츠를 추가하면 중심 이미지 안정성을 최소로 희생하면서 사운드 이미지 폭 또는 사운드 포락선을 명백하게 증가시킬 수 있다. 도 5C의 예에서, 폭/포락선 대 중심 이미지 안정성 간의 균형을 달성할 경우에, 신호는 두 개 이상의 주파수 대역들로 분할되며 오디오 부대역들은 독립적으로 처리되며 그 결과 최소 역상관을 적용하여 저주파수 및 중간 주파수에 이미지 안정성을 유지하고 큰 역상관을 사용하여 고주파수에서 포락선의 감지를 향상시킬 수 있다.

도 5C를 참조하면, 생산부(58')에서 M-채널 신호들은 부대역 필터 또는 부대역 필터링 기능부("부대역 필터")(62)에 제공된다. 비록 도 5C가 이러한 부대역 필터(62)를 명백하게 도시할지라도, 이러한 필터 또는 필터링 기능부가 앞서 언급된 바와 같이 다른 예들에서 사용될 수 있다는 것이 이해되어야 한다. 비록 부대역 필터(62)가 다양한 형식들을 취할 수 있을지라도, 필터 또는 필터 기능부(예컨대 필터 뱅크 또는 변환부)의 선택은 본 발명에서 필수적이지 않다. 부대역 필터(62)는 M-채널 신호들의 스펙트럼을 R 대역들로 분할하며, 이들의 각각은 각각의 역상관기에 제공될 수 있다. 도면은 대역 1에 대한 역상관기(64), 대역 2에 대한 역상관기(66), 및 대역 R에 대한 역상관기(68)를 개략적으로 도시하며, 각각의 대역은 그 자체의 역상관기를 가질 수 있다는 것이 이해되어야 한다. 일부 대역들은 역상관기에 제공될 수 없다. 역상관기들은 그들이 M-채널 신호들의 전체 스펙트럼보다 작은 스펙트럼 상에서 동작한다는 점을 제외하고 도 5B 예의 역상관기(60)와 동일하다. 단순화를 위하여, 도 5C는 단일 신호에 대한 부대역 필터 및 관련 역상관기들을 도시하며, 각각의 신호는 부대역들로 분할되고 각각의 부대역은 역상관 될 수 있다는 것이 이해되어야 한다. 역상관 후에, 각각의 신호에 대한 부대역들(존재하는 경우에)은 합산기 또는 합산 기능부("합산부")(70)에 의하여 함께 합산될 수 있다. 합산부(70) 출력은 앞서 기술된 바와 같이 직렬 또는 병렬 비트스트림을 생성하는 포맷팅부(22)에 제공된다. 도 5C 구조의 소비부(54)는 도 5A 및 도 5B 구조의 소비부와 동일할 수 있다.

공간 코딩 통합

최근에 도입된 임의의 제한된 비트율 코딩 기술들(공간 코딩에 관한 특허들, 특허 출원들 및 공보들의 전형적인 리스트 참조(이하에 기술됨))은 M 채널 합성 신호의 사운드 필드에 대하여 N 채널 입력 신호의 사운드 필드의 파라미터 모델을 포함하는 사이드 정보를 생성하기 위하여 M 채널 합성 신호(N>M)와 함께 N 채널 입력 신호를 분석한다. 전형적으로, 합성 신호는 원시 N 채널 신호와 동일한 마스터 자료로부터 유도된다. 사이드 정보 및 합성 신호는 원시 N 채널 신호의 사운드 필드의 근사치를 재생성하기 위하여 합성 신호에 파라미터 모델을 적용하는 디코더에 전송된다. 이러한 "공간 코딩" 시스템들의 주 목적은 매우 제한된 데이터량을 사용하여 원시 사운드 필드를 재생성하는 것이며, 따라서 이는 원시 사운드 필드를 시뮬레이트하는데 필요한 파라미터 모델에 대하여 제한을 실시한다. 이러한 공간 코딩 시스템들은 전형적으로 채널간 레벨 차이(ILD), 채널간 시간 또는 위상 차(ITD 또는 IPD) 및 채널간 코히어런스(ICC)와 같은 원시 N 채널 신호의 사운드 필드를 모델링하기 위하여 파라미터들을 사용한다. 전형적으로, 이러한 파라미터들은 코딩된 입력 신호의 모든 N 채널들에 대한 다중 스펙트럼 대역들에 대하여 추정되며 시간에 따라 동적으로 추정된다.

종래의 공간 코딩의 일부 예들은 도 6A-6B(인코더) 및 도 6C(디코더)에 도시된다. N-채널 원시 신호들은 공지된 단시간 이산 푸리에 변환(STDFT)와 같은 적절한 시간 대 주파수 변환을 이용하여 장치 또는 기능부("시간 대 주파수")에 의하여 주파수 영역으로 변환될 수 있다. 전형적으로, 변환은 주파수 대역들이 귀의 임계 대역들을 근사화하도록 조작된다. 채널간 진폭 차, 채널간 시간 또는 위상 차 및 채널간 상관의 추정은 각각의 대역("생성 공간 사이드 정보")에 대하여 계산된다. 만일 N-채널 원시 신호들에 대응하는 M-채널 합성 신호들이 존재하지 않으면, 이들 추정치들은 M-채널 합성 신호들에 N-채널 원시 신호들을 다운믹싱하기 위하여 이용될 수 있다(도 6A의 예에서 처럼). 선택적으로, 기존의 M 채널 합성은 동일한 시간 대 주파수 변환으로 동시에 처리될 수 있으며(명확화를 위하여 개별적으로 도시됨), N-채널 원시 신호들의 공간 파라미터들은 M-채널 합성 신호들의 공간 파라미터들과 관련하여 계산될 수 있다(도 6B의 예에서처럼). 유사하게, 만일 N-채널 원시 신호들이 이용가능하지 않으면, M-채널 합성 신호들의 이용가능 세트는 N-채널 원시 신호들을 생성하기 위하여 시간 영역에서 업믹싱될 수 있으며, 신호들의 각각의 세트는 도 6B의 예에 기술된 각각의 시간 대 주파수 장치들 또는 기능부들에 입력들의 세트를 제공한다. 합성 신호 및 추정된 공간 파라미터들은 단일 비트스트림으로 인코딩된다("포맷팅된다"). 디코더(도 6C)에서, 이러한 비트스트림은 공간 사이드 정보와 함께 M-채널 합성 신호들을 생성하기 위하여 디코딩된다("디포맷팅된다"). 합성 신호들은 주파수 영역("시간 대 주파수")으로 변환되며, 여기서 디코딩된 공간 파라미터들은 주파수 영역의 N-채널 원시 신호들을 생성하기 위하여 대응 대역들에 적용된다("공간 사이드 정보에 적용된다"). 최종적으로, 주파수 대 시간 변환("주파수 대 시간")은 N-채널 원시 신호들 또는 근사 신호들을 생성하기 위하여 적용된다. 선택적으로, 공간 사이드 정보는 무시될 수 있으며, M-채널 합성 신호들은 재생을 위하여 선택된다.

사운드 필드의 저데이터율 파라미터 표현이 추정되는 N-채널 신호들의 존재 를 종래의 공간 코딩 시스템이 가정한 반면에, 이러한 시스템은 본 발명과 함께 작동하도록 변경될 수 있다. 원시 N-채널 신호들로부터 공간 파라미터들을 추정하는 것보다 오히려, 이러한 공간 파라미터들은 레가시 M 채널 신호들의 분석으로부터 직접 생성될 수 있으며, 여기서 M<N이다. 파라미터들은 이러한 파라미터들이 적용될 때 레가시 M-채널 신호들의 적정 N-채널 업믹스가 디코더에서 생성되도록 생성 된다. 이는 M-채널 레가시 신호들로부터 원하는 업믹싱된 신호의 사운드 필드의 파라미터 표현을 직접 재생함으로써 인코더에서 실제 N-채널 업믹스 신호들을 생성하지 않고 달성될 수 있다. 도 7은 도 6C에 도시된 공간 디코더와 호환가능한 업믹싱 인코더를 도시한다. 이러한 파라미터 표현을 생성하는 추가 세부사항들은 "본 발명은 공간 코더에 적용된다."라는 표제로 제공된다.

도 7의 세부사항들을 참조할 때, 시간 영역의 M-채널 원시 신호들은 적절한 시간 대 주파수 변환("시간 대 주파수")(72)을 이용하여 주파수 영역으로 변환된다. 장치 또는 기능부(74)("사이드 정보로서 유도 업믹스 정보")는 공간 사이드 정보가 공간 코딩 시스템에서 생성되는 것과 동일한 방식으로 업믹싱 명령들을 유도한다. 공간 코딩 시스템에서 공간 사이드 정보를 생성하는 세부사항들은 여기에서 인용된 참조문헌들 중 하나 이상의 참조문헌에 기술된다. 업믹스 명령들을 구성하는 공간 코딩 파라미터들은 M-채널 원시 신호들과 함께 M-채널 원시 신호들 및 공간 코딩 파라미터들을 전송 또는 저장하기에 적합한 형식으로 포맷하는 장치 또는 기능부("포맷부")(76)에 제공된다. 포맷팅은 데이터 압축 인코딩을 포함할 수 있다.

예컨대 도 6C 디코더로써 업믹싱 될 신호들에 적용하는 장치 또는 기능부와 관련하여 방금 기술된, 파라미터 생성을 사용하는 업믹서는 도 4B, 도 4C, 도 5A 및 도 5B의 예들에서처럼 교번 신호들을 생성할 때 사용하는 계산적으로 복잡한 업믹서로써 적합할 수 있다.

비록 인코더에서 적정 N-채널 업믹스 신호들을 생성하지 않고 M-채널 레가시 신호들로부터 파라미터 표현을 직접 생성하는 것이 바람직할지라도(이하의 예에서 처럼), 이는 본 발명에서 필수적이지 않다. 선택적으로, 공간 파라미터들은 인코더에서 적정 N-채널 업믹스 신호들을 생성함으로써 유도될 수 있다. 기능적으로, 이러한 신호들은 도 7의 블록(74) 내에서 생성된다. 따라서, 이러한 대안에서조차, 명령 유도시 수신한 오디오 정보만이 M-채널 레가시 신호들이다.

도 8은 프로 로직 II 액티브 매트릭스 디코더들과 호환가능한 종래의 5:2 매트릭스 수동(선형 시간-불변) 인코더의 이상화된 기능 블록도이다. 이러한 인코더는 앞서 기술된 도 5A의 예에서 사용하기에 적합하다. 인코더는 5가지의 개별 입력 신호들, 즉 좌측, 중심, 우측, 좌측 주변, 및 우측 주변(L, C, R, LS, RS)을 허용하며, 두 가지 최종 출력들, 즉 좌측 전체 및 우측 전체(Lt 및 Rt)를 생성한다. C 입력은 동일하게 분할되며, 일정한 음향 전력을 유지하기 위하여 3dB 레벨(진폭) 감쇠(감쇠기(84)에 의하여 제공된)를 가진 L 및 R 입력들과 합산된다(각각의 결합기들(80, 82)에서). 레벨 감소된 C 입력과 각각 합산된 L 및 R 입력들은 그들과 감산적 및 가산적으로 결합된 LS 및 RS 입력들의 위상 및 레벨 시프트된 버전들을 가진다. 좌측-주변(LS) 입력은 블록(86)으로 도시된 90도 위상 시프트되며, 합산 된 L 및 레벨 감소된 C와 결합기(90)에서 감산적으로 결합하기 위하여 감쇠기(88)에서 1.2dB 정도 레벨 감소된다. 좌측-주변(LS) 입력은 Rt 출력을 제공하기 위하여 이하에 기술된 바와 같이 합산된 R, 레벨 감소된 C 및 RS의 위상 시프트된 레벨 감소된 버전과 결합기(94)에서 가산적으로 결합하기 위하여 감쇠기(92)에서 5dB 정도로 추가로 레벨 감소된다. 이상적으로 우측-주변(RS) 입력은 블록(96)에서 도시된, 90도 위상 시프트되며, 그 다음에, 합산된 R 및 레벨 감소된 C와 결합기(100)에서 가산적으로 결합하기 위하여 감쇠기(98)에서 1.2dB 정도 레벨 감소된다. 그 다음에, 우측-주변(RS) 입력은 Lt 출력을 제공하기 위하여 합산된 R, 레벨 감소된 C 및 레벨 감소되고 위상 시프트된 LS와 결합기(104)에서 감산적으로 결합하기 위하여 감쇠기(102)에서 5dB 정도의 레벨이 더 감소된다.

원리적으로, 도면에 도시된 바와 같이 각각의 주변 입력 경로에 단지 하나의 90도 위상 시프트 블록이 존재할 필요성이 있다. 실제로, 90도 위상 시프터는 실현할 수 없으며, 그 결과 4개의 모든 패스 네트워크들은 적정 90도 위상 시프트들을 실현하기 위하여 적절한 위상 시프트들과 함께 사용될 수 있다. 모든 패스 네트워크는 처리된 오디오 신호들의 음색(timbre)(주파수 스펙트럼)을 영향을 미치지 않는 장점을 가진다.

좌측-전체(Lt) 및 우측-전체(Rt) 인코딩된 신호들은 다음과 같이 표현될 수 있다.

, 및

여기서, L은 좌측 입력 신호이며, R은 우측 입력 신호이며, C는 중심 입력 신호이며, Ls는 좌측 주변 입력 신호이며, Rs는 우측 주변 입력 신호이며, "j"는 (-1)(90도 위상 편이)의 제곱근이며, "m"은 데시벨에서 지정된 감쇠를 곱한 것을 지시한다(따라서, m(-3)dB=3dB 감쇠).

선택적으로, 수식들은 다음과 같이 표현될 수 있다.

및,

여기서, 0.707은 3dB 감쇠의 근사치이며, 0.87은 1.2dB 감소의 근사치이며, 0.56은 6.2dB 감쇠의 근사치이다. 값들(0.707, 0.87 및 0.56)은 중요하지 않다. 다른 값들이 허용가능한 결과들을 얻기 위하여 사용될 수 있다. 다른 값들이 사용될 수 있는 범위는 가청 결과들이 허용가능한 것으로 시스템의 설계자가 간주하는 범위를 따른다.

본 발명을 수행하기 위한 최상의 모드

공간 코딩 배경

N 채널 신호의 채널간 코히어런스(ICC) 및 채널간 레벨 차이들(ILD)의 임계 대역 추정치들마다 사이드 정보로써 이용하는 공간 코딩 시스템을 고려한다. 합성 신호의 채널들의 수가 M=2이고 원시 신호의 채널들의 수가 N=5이라고 가정한다. 이하의 기수법을 정의한다.

는 대역 b 및 시간 블록 t에서 합성 신호 x의 채널 j의 주파수 영역 표현이다. 이 값은 디코더에 전송된 합성 신호 x에 대하여 시간 대 주파수 변환을 적용함으로서 유도된다.

는 대역 b 및 시간 블록 t에서 원시 신호 추정치 z의 채널 i의 주파수 영역 표현이다. 이 값은

에 사이드 정보를 적용함으로써 계산된다.

는 대역 b 및 시간 블록 t에서 합성 신호의 채널 j에 대한 원시 신호의 채널 i의 채널간 레벨 차이다. 이 값은 사이드 정보로서 전송된다.

는 대역 b 및 시간 블록 t에서 원시 신호의 채널 i의 채널간 코히어런스이다. 이 값은 사이드 정보로서 전송된다.

디코딩의 제 1 단계로써, N 채널 신호의 중간 주파수 영역 표현은 다음과 같이 합성 신호에 대하여 채널간 레벨 차이들을 적용함으로써 생성된다.

다음으로, Y_i의 역상관된 버전은 각각의 채널 i에 대하여 고유 역상관 필터 H_i를 적용함으로써 생성되며, 여기서 필터의 적용은 다음과 같이 주파수 영역에서의 곱셈을 통해 달성될 수 있다.

마지막으로, 원시 신호 z의 주파수 영역 추정치는

및

의 선형 조합으로서 계산되며, 여기서 채널간 코히어런스는 다음과 같이 이러한 조합의 비율을 제어한다.

그 다음에, 최종 신호 z는

에 대하여 주파수 대 시간 변환을 적용함으로써 생성된다.

공간 코더에 적용된 본 발명

M=2 채널 신호를 N=6 채널 신호로 업믹싱하기 위하여 앞서 기술된 공간 디코더를 이용하는 본 발명의 실시예를 지금 기술한다. 인코딩은 앞서 기술된 바와 같이

및

가

에 적용될 때 적정 업믹스가 디코더에서 생성되도록

로부터 사이드 정보

및

를 합성하는 단계를 필요로 한다. 앞서 지시된 바와 같이, 이러한 방법은 또한 업믹싱된 신호들이 매트릭스 인코더에 적용될 때, 즉 소비자형 액티브 매트릭스 디코더와 같은 단순한 업믹서에 의하여 업믹싱하기에 적합한 교번 신호들을 생성할 때, 사용하기에 적합한 계산적으로 복잡한 업믹싱을 제공한다.

바람직한 블라인딩 업믹싱 시스템의 제 1 단계는 2-채널 입력을 스펙트럼 영역으로 변환하는 것이다. 스펙트럼 영역으로의 변환은 역상관 필터들에 의하여 유발된 순환 컨벌루션 현상들을 방지하기 위하여 패딩된 블록 제로의 50%와 함께 75% 중첩된 DFT들을 사용하여 달성될 수 있다. 이러한 DFT 방식은 공간 코딩 시스템의 바람직한 실시예에서 사용되는 시간-주파수 변환 방식과 매칭된다. 신호의 스펙트럼 표현은 등가 직사각형 대역(ERB) 스케일에 근사한 다중 대역들로 분리되며, 이러한 밴딩(banding) 구조는 사이드 정보가 디코더에서 블라인드 업믹싱을 수행하기 위하여 사용될 수 있도록 공간 코딩 시스템에 의하여 사용된 구조와 동일하다. 각각의 대역 b에서, 공분산 매트릭스는 다음과 같은 수식으로 기술된 바와 같이 계산된다.

여기서,

는 빈(bin) k 및 블록 t에서 제 1채널의 DFT이며,

는 빈 k 및 블록 t에서 제 2 채널의 DFT이며, W는 빈들로 계수된(counted) 대역 b의 폭이며,

는 대역 b 및 블록 t에서 두 개의 입력 채널에 대한 공분산 매트릭스의 순시 추정치이다. 게다가, 앞의 수식에서

연산자는 DFT 값들의 공액을 나타낸다.

그 다음에, 공분산 매트릭스의 순시 추정치는 이하의 수식으로 기술된 바와같이 각각의 대역의 공분산 매트릭스에 적용된 단순한 1차 IIR 필터를 사용하여 각각의 블록에 대하여 평활화된다.

여기서,

는 공분산 매트릭스의 평활화된 추정치이며,

는 평활 계수이며, 평활 계수는 신호 및 대역에 종속될 수 있다.

단순한 2 내지 6 블라인드 업믹싱 시스템에 대하여 다음과 같은 채널 오더링이 정의된다.

채널	계산
좌측	1
중심	2
우측	3
좌측 주변	4
우측 주변	5
LFE	6

앞의 채널 매핑을 사용할 경우에, 평활화된 공분산 매트릭스에 대하여 각각의 채널에 대한 대역 ILD 및 ICC에 대해 하기 사항을 전개한다.

를 정의한다.

그 다음에, 채널 1(좌측)에 대하여:

채널 2(중심)에 대하여:

채널 3(우측)에 대하여:

채널 4(좌측 주변)에 대하여:

채널 5(우측 주변)에 대하여:

채널 6(LFE)에 대하여:

실제로, 방금 기술된 예에 따른 구조는 양호하게 수행되는 것으로 발견되었으며, 주변 사운드들로부터 직접 사운드들을 분리하며 직접 사운드들을 좌측 및 우측 채널들에 삽입하며, 주변 사운드들을 후방 채널들로 이동시킨다. 공간 코딩 시스템내에서 전송되는 사이드 정보를 사용하는 더 복잡한 구조들이 만들어질 수 있다.

참조문헌

이하의 특허들, 특허 출원들 및 공보들은 여기에 참조문헌으로서 통합된다.

가상 사운드 처리

AC-3(돌비 디지털)

공간 코딩

기타

구현

본 발명은 하드웨어 또는 소프트웨어 또는 이들의 조합(예컨대, 프로그램가능 논리 어레이들)로 구현될 수 있다. 다른 방식으로 특별히 지시하지 않는 한, 본 발명의 일부분으로서 포함된 알고리즘들은 임의의 특정 컴퓨터 또는 다른 장치들에만 관련되지 않는다. 특히, 다양한 범용 머신들은 여기에서 언급된 기술들로 기록된 프로그램들과 함께 사용될 수 있거나 또는 요구된 방법 단계들을 수행하는 더 전문화된 장치(예컨대, 집적회로들)를 구성하는데 더 편리할 수 있다. 따라서, 본 발명은 적어도 하나의 프로세서, 적어도 하나의 데이터 저장 시스템(휘발성 및 비휘발성 메모리 및/또는 저장 엘리먼트들을 포함함), 적어도 하나의 입력 장치 또는 포트 및 적어도 하나의 출력 장치 또는 포트를 각각 포함하는 하나 이상의 프로그램 가능 컴퓨터 시스템들 상에서 실행하는 하나 이상의 컴퓨터 프로그램들로 구현될 수 있다. 프로그램 코드는 여기에 기술된 기능들을 실행하여 출력 정보를 생성하기 위하여 입력 데이터에 적용된다. 출력 정보는 공지된 방식으로 하나 이상의 출력 장치들에 적용된다.

이러한 각각의 프로그램은 컴퓨터 시스템과 통신하기 위하여 임의의 적절한 컴퓨터 언어(기계어, 어셈블리, 또는 고레벨 절차, 논리 또는 목적 지향 프로그래밍 언어를 포함하는)로 구현될 수 있다. 임의의 경우에, 언어는 컴파일 또는 해석된 언어일 수 있다.

이러한 각각의 컴퓨터 프로그램은 저장 매체 또는 장치가 여기에 기술된 절차들을 수행하기 위하여 컴퓨터 시스템에 의하여 판독될 때 컴퓨터를 구성 및 동작시키기 위하여 범용 및 특수목적 프로그램가능 컴퓨터에 의하여 판독가능한 저장 매체 또는 장치(예컨대, 고체상태 메모리 또는 매체, 또는 자기 또는 광학 매체)상에 저장되거나 또는 다운로드 된다. 진보적인 시스템은 컴퓨터 프로그램과 함께 구성되는 컴퓨터 판독가능 저장 매체로서 구현되는 것으로 고려될 수 있으며, 여기서 상기와 같이 구성된 저장 매체는 여기에 기술된 기능들을 수행하기 위하여 컴퓨터 시스템으로 하여금 특정 및 미리 정해진 방식으로 동작하도록 한다.

본 발명의 다수의 실시예들이 기술되었다. 그럼에도 불구하고, 본 발명의 사상 및 범위를 벗어나지 않고 다양한 수정들이 이루어질 수 있다는 것이 이해되어야 한다. 예컨대, 여기에 기술된 단계들 중 일부는 독립적인 순서를 가질 수 있으며, 따라서 기술된 것과 다른 순서로 수행될 수 있다.

Claims

각 오디오 신호가 오디오 채널을 나타내는 두 개 이상의 오디오 신호를 처리하기 위한 방법에 있어서,

상기 두 개 이상의 오디오 신호의 구성을 변경함이 없이, 상기 두 개 이상의 오디오 신호를 채널 재구성하기 위한 명령을 유도하는 단계로서, 상기 유도가 수신하는 유일한 오디오 정보는 상기 두 개 이상의 오디오 신호인, 상기 유도 단계; 및

변경되지 않은 채널 구성을 가지는 두 개 이상의 오디오 신호가 오디오 채널들의 수, 오디오 채널들의 의도된 공간 위치 및 오디오 채널의 형식에 대하여 변경되지 않도록 변경되지 않는 채널 구성을 가지는 상기 두 개 이상의 오디오 신호 및 채널 재구성을 위한 상기 명령을 포함하는 포맷된 출력(output)을 생성하는 단계;를 포함하며,

상기 포맷된 출력은 채널 재구성을 위한 상기 명령을 포함하는 것을 특징으로 하는 오디오 신호를 처리하는 방법.
삭제
제1항에 있어서, 상기 오디오 신호는

오디오 신호의 스테레오포닉 쌍인 것을 특징으로 하는 오디오 신호를 처리하는 방법.
삭제
삭제
삭제
제1항에 있어서,

상기 채널 재구성하기 위한 명령을 유도하는 단계는

상기 두 개 이상의 오디오 신호를 업믹싱(upmixing)하기 위한 명령을 유도하여, 업믹싱을 위한 명령에 따라 업믹싱될 때, 결과적인 수의 오디오 신호는 상기 두 개 이상의 오디오 신호를 포함하는 오디오 신호의 수보다 더 큰 것을 특징으로 하는 오디오 신호를 처리하는 방법.
제1항에 있어서,

상기 채널 재구성하기 위한 명령을 유도하는 단계는

상기 두 개 이상의 오디오 신호를 다운믹싱(downmixing)하기 위한 명령을 유도하여, 다운믹싱을 위한 명령에 따라 다운믹싱될 때, 결과적인 수의 오디오 신호는 상기 두 개 이상의 오디오 신호를 포함하는 오디오 신호의 수보다 더 작은 것을 특징으로 하는 오디오 신호를 처리하는 방법.
제1항에 있어서,

상기 채널 재구성하기 위한 명령을 유도하는 단계는

상기 두 개 이상의 오디오 신호를 재구성하기 위한 명령을 유도하여, 재구성을 위한 명령에 따라 재구성될 때, 오디오 신호의 수는 동일하게 유지되지만 상기 오디오 신호가 재생되도록 의도된 하나 이상의 공간 위치는 변경되는, 오디오 신호를 처리하는 방법.
제1항에 있어서,

상기 출력에서 두 개 이상의 오디오 신호는,

상기 두 개 이상의 오디오 신호의 데이터-압축 버전인, 오디오 신호를 처리하는 방법.
제1항에 있어서,

상기 두 개 이상의 오디오 신호는 주파수 대역으로 분할되고,

상기 채널 재구성을 위한 명령은 상기 주파수 대역과 관련된, 오디오 신호를 처리하는 방법.
각 오디오 신호가 오디오 채널을 표현하는 두 개 이상의 오디오 신호를 처리하는 방법에 있어서,

오디오 프로세서로부터의 포맷된 출력에서, 상기 두 개 이상의 오디오 신호와 상기 두 개 이상의 오디오 신호를 채널 재구성하기 위한 명령을 수신하는 단계로서, 상기 명령은, 수신된 유일한 오디오 정보가 상기 두 개 이상의 오디오 신호인 명령 유도에 의해 유도되며, 상기 명령 유도는 상기 두 개 이상의 오디오 신호의 구성을 변경하지 않으며, 상기 두 개 이상의 오디오 신호는 상기 명령 유도에 의해 수신된 상기 두 개 이상의 오디오 신호의 변경되지 않는 채널 구성을 가지고, 변경되지 않은 채널 구성을 가지는 두 개 이상의 오디오 신호가 오디오 채널들의 수, 오디오 채널들의 의도된 공간 위치 및 오디오 채널의 형식에 대하여 변경되지 않도록 하는, 상기 수신 단계; 및

상기 명령을 사용하여 상기 두 개 이상의 오디오 신호를 채널 재구성하는 단계를 포함하는, 오디오 신호를 처리하는 방법.
삭제
삭제
삭제
삭제
제12항에 있어서,

상기 채널 재구성하기 위한 명령은

상기 두 개 이상의 오디오 신호를 업믹싱(upmixing)하기 위한 명령이고,

상기 채널 재구성은

상기 두 개 이상의 오디오 신호를 업믹싱하여, 결과적인 수의 오디오 신호는 상기 두 개 이상의 오디오 신호를 포함하는 오디오 신호의 수보다 더 큰, 오디오 신호를 처리하는 방법.
제12항에 있어서,

상기 채널 재구성하기 위한 명령은

상기 두 개 이상의 오디오 신호를 다운믹싱(downmixing)하기 위한 명령이고,

상기 채널 재구성은

상기 두 개 이상의 오디오 신호를 다운믹싱하여, 결과적인 수의 오디오 신호는 상기 두 개 이상의 오디오 신호를 포함하는 오디오 신호의 수보다 더 작은, 오디오 신호를 처리하는 방법.
제12항에 있어서,

상기 채널 재구성하기 위한 명령은

상기 두 개 이상의 오디오 신호를 재구성하기 위한 명령으로서,

오디오 신호의 수는 동일하게 유지되지만 상기 오디오 신호가 재생되도록 의도된 각각의 공간 위치는 변경되는, 오디오 신호를 처리하는 방법.
제12항에 있어서,

상기 채널 재구성하기 위한 명령은

상기 두 개 이상의 오디오 신호의 다중 가상 채널에 대해 업믹싱을 갖는 바이노럴 스테레오포닉 신호(binaural stereophonic signal)를 렌더링하기 위한 명령인, 오디오 신호를 처리하는 방법.
제12항에 있어서,

상기 채널 재구성하기 위한 명령은

가상 공간 위치 재구성을 갖는 바이노럴 스테레오포닉 신호를 렌더링하기 위한 명령인, 오디오 신호를 처리하는 방법.
제12항에 있어서,

상기 두 개 이상의 오디오 신호는 데이터 압축되고,

상기 방법은 상기 두 개 이상의 오디오 신호를 데이터 압축해제하는 단계를 더 포함하는, 오디오 신호를 처리하는 방법.
제12항에 있어서, 상기 두 개 이상의 오디오 신호는

주파수 대역으로 분할되고,

상기 채널 재구성을 위한 명령은 상기 주파수 대역의 각 대역과 관련된, 오디오 신호를 처리하는 방법.
제12항에 있어서,

오디오 출력을 제공하는 단계;

(1) 적어도 상기 두 개 이상의 오디오 신호 또는 (2) 채널 재구성된 두 개 이상의 오디오 신호 중 하나를 오디오 출력으로 선택하는 단계를 더 포함하는, 오디오 신호를 처리하는 방법.
제12항에 있어서, 상기 수신된 두 개 이상의 오디오 신호에 응답하여 오디오 출력을 제공하는 단계를 더 포함하는, 오디오 신호를 처리하는 방법.
제25항에 있어서, 상기 방법은

상기 두 개 이상의 오디오 신호를 매트릭스 디코딩하는 단계를 더 포함하는, 오디오 신호를 처리하는 방법.
제12항에 있어서,

상기 수신되어 채널 재구성된 두 개 이상의 오디오 신호에 응답하여 오디오 출력을 제공하는 단계를 더 포함하는, 오디오 신호를 처리하는 방법.
각 오디오 신호가 오디오 채널을 나타내는 적어도 두 개의 오디오 신호를 처리하기 위한 방법에 있어서,

오디오 프로세서로부터의 포맷된 출력에서, 상기 두 개 이상의 오디오 신호와 상기 두 개 이상의 오디오 신호를 채널 재구성하기 위한 명령을 수신하는 단계로서, 상기 명령은, 수신된 유일한 오디오 정보가 상기 두 개 이상의 오디오 신호인 명령 유도에 의해 유도되며, 상기 명령 유도는 상기 두 개 이상의 오디오 신호의 구성을 변경하지 않으며, 상기 두 개 이상의 오디오 신호는 상기 명령 유도에 의해 수신된 상기 두 개 이상의 오디오 신호의 변경되지 않는 채널 구성을 가지며, 변경되지 않은 채널 구성을 가지는 두 개 이상의 오디오 신호가 오디오 채널들의 수, 오디오 채널들의 의도된 공간 위치 및 오디오 채널의 형식에 대하여 변경되지 않도록 하는, 상기 수신 단계; 및

상기 두 개 이상의 오디오 신호를 매트릭스 디코딩하는 단계;를 포함하는, 오디오 신호를 처리하기 위한 방법.
제28항에 있어서, 상기 매트릭스 디코딩은 상기 수신된 명령을 참조하지 않는, 오디오 신호를 처리하기 위한 방법.
제28항에 있어서, 상기 매트릭스 디코딩은 상기 수신된 명령을 참조하는, 오디오 신호를 처리하기 위한 방법.
각 오디오 신호가 오디오 채널을 나타내는 두 개 이상의 오디오 신호를 처리하기 위한 장치에 있어서,

상기 두 개 이상의 오디오 신호의 구성을 변경함이 없이 상기 두 개 이상의 오디오 신호를 채널 재구성하기 위한 명령을 유도하기 위한 수단으로서, 상기 유도 수단이 수신하는 유일한 오디오 정보는 상기 두 개 이상의 오디오 신호인, 상기 수단; 및

변경되지 않은 채널 구성을 가지는 두 개 이상의 오디오 신호가 오디오 채널들의 수, 오디오 채널들의 의도된 공간 위치 및 오디오 채널의 형식에 대하여 변경되지 않도록 하는 변경되지 않는 채널 구성을 가지는 상기 두 개 이상의 오디오 신호를 포함하는 포맷된 출력을 생성하기 위한 수단;을 포함하며,

상기 포맷된 출력은, 채널 재구성을 위한 상기 명령을 포함하는 것을 특징으로 하는, 오디오 신호를 처리하기 위한 장치.
각 오디오 신호가 오디오 채널을 나타내는 두 개 이상의 오디오 신호를 처리하기 위한 장치에 있어서,

상기 두 개 이상의 오디오 신호의 구성을 변경함이 없이 상기 두 개 이상의 오디오 신호를 채널 재구성하기 위한 명령을 유도하기 위한 수단으로서, 상기 유도 수단이 수신하는 유일한 오디오 정보는 상기 두 개 이상의 오디오 신호인, 상기 수단; 및

변경되지 않은 채널 구성을 가지는 두 개 이상의 오디오 신호가 오디오 채널들의 수, 오디오 채널들의 의도된 공간 위치 및 오디오 채널의 형식에 대하여 변경되지 않도록 하는 변경되지 않는 채널 구성을 가지는 상기 두 개 이상의 오디오 신호를 포함하는 포맷된 출력을 생성하기 위한 수단;으로, 상기 포맷된 출력은, 채널 재구성을 위한 상기 명령을 포함하는, 생성하기 위한 수단; 및

상기 출력을 수신하기 위한 수단;을 포함하는 것을 특징으로 하는, 오디오 신호를 처리하기 위한 장치.
각 오디오 신호가 오디오 채널을 표현하는 두 개 이상의 오디오 신호를 처리하는 장치에 있어서,

오디오 프로세서로부터의 포맷된 출력에서, 상기 두 개 이상의 오디오 신호와 상기 두 개 이상의 오디오 신호를 채널 재구성하기 위한 명령을 수신하는 수단으로서, 상기 명령은, 수신된 유일한 오디오 정보가 상기 두 개 이상의 오디오 신호인 명령 유도에 의해 유도되며, 상기 명령 유도는 상기 두 개 이상의 오디오 신호의 구성을 변경하지 않으며, 상기 두 개 이상의 오디오 신호는 상기 명령 유도에 의해 수신된 상기 두 개 이상의 오디오 신호의 변경되지 않는 채널 구성을 가지며, 변경되지 않은 채널 구성을 가지는 두 개 이상의 오디오 신호가 오디오 채널들의 수, 오디오 채널들의 의도된 공간 위치 및 오디오 채널의 형식에 대하여 변경되지 않도록 하는, 상기 수신하는 수단; 및

상기 명령을 사용하여 상기 두 개 이상의 오디오 신호를 채널 재구성하는 수단;을 포함하는 오디오 신호를 처리하는 장치.
각 오디오 신호가 오디오 채널을 나타내는 적어도 두 개의 오디오 신호를 처리하기 위한 장치에 있어서,

오디오 프로세서로부터의 포맷된 출력에서, 상기 두 개 이상의 오디오 신호와 상기 두 개 이상의 오디오 신호를 채널 재구성하기 위한 명령을 수신하는 수단으로서, 상기 명령은, 수신된 유일한 오디오 정보가 상기 두 개 이상의 오디오 신호인 명령 유도에 의해 유도되며, 상기 명령 유도는 상기 두 개 이상의 오디오 신호의 구성을 변경하지 않으며, 상기 두 개 이상의 오디오 신호는 상기 명령 유도에 의해 수신된 상기 두 개 이상의 오디오 신호의 변경되지 않는 채널 구성을 가지며, 변경되지 않은 채널 구성을 가지는 두 개 이상의 오디오 신호가 오디오 채널들의 수, 오디오 채널들의 의도된 공간 위치 및 오디오 채널의 형식에 대하여 변경되지 않도록 하는, 상기 수신하는 수단; 및

상기 두 개 이상의 오디오 신호를 매트릭스 디코딩하는 수단;을 포함하는, 오디오 신호를 처리하기 위한 장치.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
제1항에 있어서,

상기 오디오 신호는

오디오 신호들의 스테레오포닉 쌍의 바이노럴화된 버전인 것을 특징으로 하는, 오디오 신호를 처리하는 방법.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제