KR101798348B1

KR101798348B1 - 다운믹스 행렬을 디코딩 및 인코딩하기 위한 방법, 오디오 콘텐츠를 제시하기 위한 방법, 다운믹스 행렬에 대한 인코더 및 디코더, 오디오 인코더 및 오디오 디코더

Info

Publication number: KR101798348B1
Application number: KR1020167013337A
Authority: KR
Inventors: 플로린 기도; 아힘 쿤츠; 베른하트 그릴
Original assignee: 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date: 2013-10-22
Filing date: 2014-10-13
Publication date: 2017-11-15
Also published as: SG11201603089VA; MX2016004924A; BR112016008787A2; CA2926986A1; US11393481B2; ES2655046T3; MY176779A; ZA201603298B; US20200090666A1; JP2016538585A; PT3061087T; RU2648588C2; EP2866227A1; US20230005489A1; US20160232901A1; TW201521013A; BR112016008787B1; EP3061087B1; CA2926986C; RU2016119546A

Abstract

오디오 콘텐츠의 복수의 입력 채널들(300)을 복수의 출력 채널들(302)에 맵핑하기 위한 다운믹스 행렬(306)을 디코딩하는 방법이 설명되며, 입력 및 출력 채널들(300, 302)은 청취자 위치에 대해 미리 결정된 위치들의 각각의 스피커들과 연관되고, 여기서 다운믹스 행렬(306)은 복수의 입력 채널들(300)의 스피커 쌍들(S₁-S₉)의 대칭성 및 복수의 출력 채널들(302)의 스피커 쌍들(S₁₀-S₁₁)의 대칭성을 활용함으로써 인코딩된다. 인코딩된 다운믹스 행렬(306)을 표현하는 인코딩된 정보가 수신되고 디코딩된 다운믹스 행렬(306)을 얻기 위해 디코딩된다.

Description

다운믹스 행렬을 디코딩 및 인코딩하기 위한 방법, 오디오 콘텐츠를 제시하기 위한 방법, 다운믹스 행렬에 대한 인코더 및 디코더, 오디오 인코더 및 오디오 디코더{Method for Decoding and Encoding a Downmix Matrix, Method for Presenting Audio Content, Encoder and Decoder for a Downmix Matrix, Audio Encoder and Audio Decoder}

본 발명은 오디오 인코딩/디코딩 분야, 특히 공간 오디오 코딩 및 공간 오디오 객체 코딩, 예를 들어 3D 오디오 코덱 시스템들의 분야에 관한 것이다. 본 발명의 실시예들은 오디오 콘텐츠의 복수의 입력 채널들을 복수의 출력 채널들에 맵핑하기 위한 다운믹스 행렬을 인코딩 및 디코딩하기 위한 방법들, 오디오 콘텐츠를 제시하기 위한 방법, 다운믹스 행렬을 인코딩하기 위한 인코더, 다운믹스 행렬을 디코딩하기 위한 디코더, 오디오 인코더 및 오디오 디코더에 관한 것이다.

공간 오디오 코딩 툴들은 해당 기술분야에 잘 알려져 있고 예를 들어, MPEG 서라운드 표준으로 표준화되어 있다. 공간 오디오 코딩은 복수의 원본 입력, 예를 들어 5개 또는 7개의 입력 채널들에서부터 시작하는데, 이 채널들은 재생 셋업에서 그 배치에 의해, 예를 들어 좌측 채널, 중앙 채널, 우측 채널, 좌측 서라운드 채널, 우측 서라운드 채널 및 저주파 강화 채널로서 식별된다. 공간 오디오 인코더는 원본 채널들로부터 하나 또는 그보다 많은 다운믹스 채널들을 도출할 수도 있고, 추가로 채널 코히어런스 값들의 채널 간 레벨 차들, 채널 간 위상 차들, 채널 간 시간 차들 등과 같은 공간 큐들에 관한 파라메트릭 데이터를 도출할 수도 있다. 원본 입력 채널들의 근사화된 버전인 출력 채널들을 최종적으로 얻기 위해 다운믹스 채널들 및 연관된 파라메트릭 데이터를 디코딩하기 위한 공간 오디오 디코더에 공간 큐들을 표시하는 파라메트릭 부가 정보와 함께 하나 또는 그보다 많은 다운믹스 채널들이 송신된다. 출력 셋업에서 채널들의 배치는 예를 들어, 5.1 포맷, 7.1 포맷 등으로 고정될 수도 있다.

또한, 공간 오디오 객체 코딩 툴들은 해당 기술분야에 잘 알려져 있고 예를 들어, MPEG SAOC 표준(SAOC = 공간 오디오 객체 코딩(Spatial Audio Object Coding))으로 표준화되어 있다. 원본 채널들에서부터 시작되는 공간 오디오 코딩과는 달리, 공간 오디오 객체 코딩은 특정 렌더링 재생 셋업에 자동으로 전용되지 않는 오디오 객체들에서부터 시작된다. 말하자면, 재생 장면에서 오디오 객체들의 배치가 탄력적이며 사용자에 의해, 예를 들어 특정 렌더링 정보를 공간 오디오 객체 코딩 디코더에 입력함으로써 설정될 수도 있다. 대안으로 또는 추가로, 렌더링 정보가 추가적인 부가 정보 또는 메타데이터로서 송신될 수도 있는데; 렌더링 정보는 재생 셋업에서 (예를 들어, 시간에 따라) 특정 오디오 객체가 배치될 위치의 정보를 포함할 수도 있다. 특정 데이터 압축을 얻기 위해, 특정 다운믹싱 정보에 따라 객체들을 다운믹싱함으로써 입력 객체들로부터 하나 또는 그보다 많은 전송 채널들을 계산하는 SAOC 인코더를 사용하여 다수의 오디오 객체들이 인코딩된다. 더욱이, SAOC 인코더는 객체 레벨 차들(OLD: object level differences), 객체 코히어런스 값들 등과 같은 객체 간 큐들을 나타내는 파라메트릭 부가 정보를 계산한다. SAC(SAC = 공간 오디오 코딩(Spatial Audio Coding))에서와 같이, 개별 시간/주파수 타일들에 대해 객체 간 파라메트릭 데이터가 계산된다. 오디오 신호의 특정 프레임(예를 들어, 1024 또는 2048개의 샘플들)에 대해, 각각의 프레임 및 각각의 주파수 대역에 대한 파라메트릭 데이터가 제공되도록 복수의 주파수 대역들(예를 들어 24, 32 또는 64개의 대역들)이 고려된다. 예를 들어, 오디오 피스가 20개의 프레임들을 가질 때 그리고 각각의 프레임이 32개의 주파수 대역들로 세분될 때, 시간/주파수 타일들의 수는 640개이다.

3D 오디오 시스템들에서는, 라우드스피커 또는 스피커 구성이 수신기에서 이용 가능할 때 수신기에서 오디오 신호의 공간감을 제공하는 것이 바람직할 수도 있지만, 이러한 구성은 원본 오디오 신호에 대한 원본 스피커 구성과 다를 수도 있다. 이러한 상황에서, 변환이 실행될 필요가 있으며, 이는 또한 "다운믹스"로 지칭되는데, 이에 따라 오디오 신호의 원본 스피커 구성에 따른 입력 채널들이 수신기의 스피커 구성에 따라 정의된 출력 채널들에 맵핑된다.

수신기에 다운믹스 행렬을 제공하기 위한 개선된 접근 방식을 제공하는 것이 본 발명의 과제이다.

이러한 과제는 제 1 항, 제 2 항 및 제 20 항의 방법에 의해, 제 24 항의 인코더, 제 26 항의 디코더, 제 28 항의 오디오 인코더, 및 제 29 항의 오디오 디코더에 의해 달성된다.

본 발명은 입력 채널 구성에서 그리고 출력 채널 구성에서 각각의 채널들과 연관된 스피커들의 배치에 관해 확인될 수 있는 대칭성들을 활용함으로써 일정한 다운믹스 행렬의 보다 효율적인 코딩이 달성될 수 있다는 결과를 기반으로 한다. 이러한 대칭성의 활용은 대칭적으로 정렬된 스피커들을 다운믹스 행렬의 공통 행/열로 결합하는 것, 예를 들어 청취자 위치에 대해, 동일한 고도각 및 동일한 절대값의, 그러나 서로 다른 부호들을 갖는 방위각을 갖는 위치를 갖는 그러한 스피커들을 가능하게 한다는 점이 본 발명의 발명자들에 의해 확인되었다. 이는 축소된 크기를 갖는, 이에 따라 원본 다운믹스 행렬과 비교할 때 보다 쉽게 그리고 보다 효율적으로 인코딩될 수 있는 콤팩트 다운믹스 행렬의 생성을 가능하게 한다.

실시예들에 따르면, 대칭 스피커 그룹들이 정의될 뿐만 아니라, 실제로 세 가지 종류들의 스피커 그룹들, 즉 앞서 언급한 대칭 스피커들, 중앙 스피커들 및 비대칭 스피커들이 생성되는데, 이들은 이후에 콤팩트 표현을 생성하는 데 사용될 수 있다. 이러한 접근 방식은 각각의 종류들로부터의 스피커들이 서로 다르게 그리고 이로써 보다 효율적으로 처리되게 하므로 유리하다.

실시예들에 따르면, 콤팩트 다운믹스 행렬의 인코딩은 실제 콤팩트 다운믹스 행렬에 관한 정보와 별개로 이득값들을 인코딩하는 것을 포함한다. 콤팩트 입력/출력 채널 구성들에 관해 입력 및 출력 대칭 스피커 쌍들 각각을 하나의 그룹으로 병합함으로써 0이 아닌 이득들의 존재를 표시하는 콤팩트 중요도 행렬을 생성함으로써 실제 콤팩트 다운믹스 행렬에 관한 정보가 인코딩된다. 이러한 접근 방식은 런 렝스 방식을 기반으로 한 중요도 행렬의 효율적인 인코딩을 가능하게 하기 때문에 유리하다.

실시예들에 따르면, 템플릿 행렬이 제공될 수도 있는데, 이는 템플릿 행렬의 행렬 엘리먼트들의 엔트리들이 콤팩트 다운믹스 행렬 내 행렬 엘리먼트들의 엔트리들에 실질적으로 대응한다는 점에서 콤팩트 다운믹스 행렬과 비슷하다. 일반적으로, 이러한 템플릿 행렬들은 인코더에 그리고 디코더에 제공되며, 단지 이러한 템플릿 행렬로 콤팩트 중요도 행렬에 엘리먼트에 관한 XOR을 적용함으로써 엘리먼트들의 수를 대폭적으로 줄이도록 하는 감소된 수의 행렬 엘리먼트들의 콤팩트 다운믹스 행렬과는 다르다. 이러한 접근 방식은 또, 예를 들어 런 렝스 방식을 사용하여 중요도 행렬을 인코딩하는 효율을 훨씬 더 높이는 것을 가능하게 하기 때문에 유리하다.

추가 실시예에 따르면, 인코딩은 일반 스피커들은 일반 스피커들에만 믹싱되고 LFE 스피커들은 LFE 스피커들에만 믹싱되는지 여부의 표시를 추가 기반으로 한다. 이는 중요도 행렬의 코딩을 더 개선하기 때문에 유리하다.

추가 실시예에 따르면, 런 렝스 코딩이 적용되어 0들의 연속으로 변환되는 1차원 벡터에 관해 콤팩트 중요도 행렬 또는 앞서 언급한 XOR 연산의 결과가 제공되는데, 이러한 0들의 연속은 1 다음에 이어지며, 이는 정보를 코딩하기 위한 매우 효율적인 가능성을 제공하기 때문에 유리하다. 훨씬 더 효율적인 코딩을 달성하기 위해, 실시예들에 따르면 제한적 골롬-라이스(Golomb-Rice) 인코딩이 런 렝스 값들에 적용된다.

각각의 출력 스피커 그룹에 대한 추가 실시예들에 따르면, 대칭성 및 분리성의 특성들이 그것들을 발생시키는 대응하는 모든 입력 스피커 그룹들에 적용되는지 여부가 표시된다. 이는 예를 들어, 좌측 및 우측 스피커들로 구성된 스피커 그룹에서, 입력 채널 그룹 내의 좌측 스피커들은 대응하는 출력 스피커 그룹 내의 좌측 채널들에만 맵핑되고, 입력 채널 그룹 내의 우측 스피커들은 출력 채널 그룹 내의 우측 스피커들에만 맵핑되며, 좌측 채널에서 우측 채널까지 어떠한 믹싱도 없기 때문에 유리하다. 이는 원본 다운믹스 행렬의 2x2 하위 행렬에서 4개의 이득값들을, 콤팩트 행렬에 삽입될 수도 있는, 또는 콤팩트 행렬이 중요도 행렬인 경우에는 개별적으로 코딩될 수도 있는 단일 이득값으로 대체하는 것을 가능하게 한다. 어떤 경우든, 코딩된 이득값들의 전체 수가 감소된다. 따라서 대칭성 및 분리성의 시그널링된 특성들은 입력 및 출력 스피커 그룹들의 각각의 쌍에 대응하는 하위 행렬들의 효율적인 코딩을 가능하게 하기 때문에 유리하다.

실시예들에 따르면, 이득값들을 코딩하기 위해 가능한 이득들의 리스트가 시그널링된 최소 및 최대 이득 그리고 또한 시그널링된 원하는 정확도를 사용하여 특정한 순서로 생성된다. 이득값들은, 일반적으로 사용되는 이득들이 리스트 또는 표의 시작에 오도록 생성된다. 이는 가장 빈번하게 사용되는 이득들에 이들을 인코딩하기 위한 최단 코드워드들을 적용함으로써 이득값들의 효율적인 인코딩을 가능하게 하기 때문에 유리하다.

한 실시예에 따르면, 생성된 이득값들이 리스트로 제공될 수 있는데, 리스트 내의 각각의 엔트리는 그와 연관된 인덱스를 갖는다. 이득값들을 코딩할 때, 실제 값들을 코딩하기보다는, 이득들의 인덱스들이 인코딩된다. 이것은 예를 들어, 제한적 골롬-라이스 인코딩 접근 방식을 적용함으로써 이루어질 수도 있다. 이득값들의 이러한 처리는 이들의 효율적인 인코딩을 가능하게 하기 때문에 유리하다.

실시예들에 따르면, 이퀄라이저(EQ: equalizer) 파라미터들이 다운믹스 행렬과 함께 송신될 수도 있다.

첨부 도면들에 관해 본 발명의 실시예들이 설명될 것이다.
도 1은 3D 오디오 시스템의 3D 오디오 인코더의 개요를 나타낸다.
도 2는 3D 오디오 시스템의 3D 오디오 디코더의 개요를 나타낸다.
도 3은 도 2의 3D 오디오 디코더로 구현될 수 있는 입체 음향 렌더러의 한 실시예를 나타낸다.
도 4는 22.2 입력 구성에서 5.1 출력 구성으로의 맵핑을 위한, 해당 기술분야에 공지되어 있는 예시적인 다운믹스 행렬을 나타낸다.
도 5는 도 4의 원본 다운믹스 행렬을 콤팩트 다운믹스 행렬로 변환하기 위한 본 발명의 한 실시예를 개략적으로 나타낸다.
도 6은 중요도 값들을 나타내는 행렬 엔트리들을 갖는 변환된 입력 및 출력 채널 구성들을 갖는 본 발명의 한 실시예에 따른 도 5의 콤팩트 다운믹스 행렬을 나타낸다.
도 7은 템플릿 행렬을 사용하여 도 5의 콤팩트 다운믹스 행렬의 구조를 인코딩하기 위한 본 발명의 추가 실시예를 나타낸다.
도 8(a)-(g)는 입력 및 출력 스피커들의 서로 다른 결합들에 따라, 도 4에 도시된 다운믹스 행렬로부터 도출될 수 있는 가능한 하위 행렬들을 나타낸다.

본 발명의 접근 방식의 실시예들이 설명될 것이다. 다음 설명은 본 발명의 접근 방식이 구현될 수 있는 3D 오디오 코덱 시스템의 시스템 개요에서 시작할 것이다.

도 1과 도 2는 실시예들에 따른 3D 오디오 시스템의 알고리즘 블록들을 보여준다. 보다 구체적으로, 도 1은 3D 오디오 인코더(100)의 개요를 보여준다. 오디오 인코더(100)는 선택적으로 제공될 수도 있는 프리렌더러/믹서 회로(102)에서 입력 신호들, 보다 구체적으로는 오디오 인코더(100)에 복수의 채널 신호들(104), 복수의 객체 신호들(106) 및 대응하는 객체 메타데이터(108)를 제공하는 복수의 입력 채널들을 수신한다. 프리렌더러/믹서(102)에 의해 처리되는 객체 신호들(106)(신호들(110) 참조)이 SAOC 인코더(112)(SAOC = 공간 오디오 객체 코딩)에 제공될 수도 있다. SAOC 인코더(112)는 USAC 인코더(116)(USAC = 통합 음성 및 오디오 코딩(Unified Speech and Audio Coding))에 제공되는 SAOC 전송 채널들(114)을 발생시킨다. 추가로, SAOC-SI(SAOC-SI = SAOC 부가 정보(SAOC Side Information)) 신호(118)가 또한 USAC 인코더(116)에 제공된다. USAC 인코더(116)는 추가로 채널 신호들 및 프리렌더링된 객체 신호들(122)뿐만 아니라 프리렌더러/믹서로부터 직접 객체 신호들(120)을 수신한다. 객체 메타데이터 정보(108)가 OAM 인코더(124)(OAM = 객체 연관 메타데이터(Object Associated Metadata))에 인가되어, 압축된 객체 메타데이터 정보(126)를 USAC 인코더에 제공한다. USAC 인코더(116)는 앞서 언급한 입력 신호들을 기초로, 128에 도시된 것과 같은 압축된 출력 신호(mp4)를 발생시킨다.

도 2는 3D 오디오 시스템의 3D 오디오 디코더(200)의 개요를 보여준다. 도 1의 오디오 인코더(100)에 의해 발생되는 인코딩된 신호(128)(mp4)가 오디오 디코더(200)에서, 보다 구체적으로는 USAC 디코더(202)에서 수신된다. USAC 디코더(202)는 수신된 신호(128)를 채널 신호들(204), 프리렌더링된 객체 신호들(206), 객체 신호들(208) 및 SAOC 전송 채널 신호들(210)로 디코딩한다. 또한, 압축된 객체 메타데이터 정보(212) 및 SAOC-SI 신호(214)가 USAC 디코더(202)에 의해 출력된다. 객체 신호들(208)은 렌더링된 객체 신호들(218)을 출력하는 객체 렌더러(216)에 제공된다. SAOC 전송 채널 신호들(210)은 렌더링된 객체 신호들(222)을 출력하는 SAOC 디코더(220)에 공급된다. 압축된 객체 메타데이터 정보(212)는 렌더링된 객체 신호들(218) 및 렌더링된 객체 신호들(222)을 발생시키기 위한 객체 렌더러(216) 및 SAOC 디코더(220)에 각각의 제어 신호들을 출력하는 OAM 디코더(224)에 공급된다. 디코더는 채널 신호들(228)을 출력하기 위해 도 2에 도시된 바와 같이, 입력 신호들(204, 206, 218, 222)을 수신하는 믹서(226)를 더 포함한다. 채널 신호들은 라우드스피커, 예를 들어 230에 표시된 것과 같은 32 채널 라우드스피커에 직접 출력될 수 있다. 신호들(228)은 채널 신호들(228)이 변환되어야 하는 방식을 표시하는 재생 레이아웃 신호를 제어 입력으로서 수신하는 포맷 변환 회로(232)에 제공될 수도 있다. 도 2에 도시된 실시예에서는, 234에 표시된 것과 같은 5.1 스피커 시스템에 신호들이 제공될 수 있는 식으로 변환이 이루어질 것이라고 가정된다. 또한, 채널 신호들(228)이 예를 들어, 238에 표시된 것과 같은 헤드폰에 대해 2개의 출력 신호들을 발생시키는 입체 음향 렌더러(236)에 제공될 수도 있다.

본 발명의 한 실시예에서, 도 1과 도 2에 도시된 인코딩/디코딩 시스템은 채널 및 객체 신호들(신호들(104, 106) 참조)의 코딩을 위한 MPEG-D USAC 코덱을 기반으로 한다. 상당한 양의 객체들을 코딩하기 위한 효율을 높이기 위해, MPEG SAOC 기술이 사용될 수도 있다. 세 가지 타입들의 렌더러들이 객체들을 채널들로 렌더링하거나, 채널들을 헤드폰들로 렌더링하거나 또는 채널들을 서로 다른 라우드스피커 셋업(도 2의 참조부호들(230, 234, 238) 참조)으로 렌더링하는 작업들을 수행할 수도 있다. 객체 신호들이 명시적으로 송신되거나 SAOC를 사용하여 파라메트릭하게 인코딩될 때, 대응하는 객체 메타데이터 정보(108)가 압축되어(신호(126) 참조) 3D 오디오 비트스트림(128)으로 멀티플렉싱된다.

도 1과 도 2에 도시된 전체 3D 오디오 시스템의 알고리즘 블록들이 아래 더 상세히 설명될 것이다.

프리렌더러/믹서(102)가 선택적으로 제공되어 채널 + 객체 입력 장면을 인코딩 전에 채널 장면으로 변환할 수 있다. 기능적으로, 이는 아래 설명될 객체 렌더러/믹서와 같다. 동시에 액티브한 객체 신호들의 수와 기본적으로 관계없는 인코더 입력에서 결정 신호 엔트로피를 보장하기 위해 객체들의 프리렌더링이 바람직할 수도 있다. 객체들의 프리렌더링에 의해, 어떠한 객체 메타데이터 송신도 요구되지 않는다. 인코더가 사용하도록 구성되는 채널 레이아웃으로 이산 객체 신호들이 렌더링된다. 각각의 채널에 대한 객체들의 가중치들이 연관된 객체 메타데이터(OAM)로부터 획득된다.

USAC 인코더(116)는 라우드스피커-채널 신호들, 이산 객체 신호들, 객체 다운믹스 신호들 및 프리렌더링된 신호들에 대한 코어 코덱이다. 이는 MPEG-D USAC 기술을 기반으로 한다. 이는 입력 채널 및 객체 할당의 기하학적 그리고 의미 정보를 기초로 채널 및 객체 맵핑 정보를 생성함으로써 상기 신호들의 코딩을 처리한다. 이러한 맵핑 정보는 입력 채널들 및 객체들이 채널 쌍 엘리먼트(CPE: channel pair element)들, 단일 채널 엘리먼트(SCE: single channel element)들, 저주파 효과(LFE: low frequency effect)들 및 쿼드 채널 엘리먼트(QCE: quad channel element)들과 같은 USAC 채널 엘리먼트들에 어떻게 맵핑되는지를 설명하며, CPE들, SCE들 및 LFE들 그리고 대응하는 정보가 디코더에 송신된다. SAOC 데이터(114, 118) 또는 객체 메타데이터(126)와 같은 모든 추가 페이로드들이 인코더의 레이트 제어에서 고려된다. 객체들의 코딩은 렌더러에 대한 상호 작용성 요건들 및 레이트/왜곡 요건들에 따라 여러 가지 방식들로 가능하다. 실시예들에 따르면, 다음의 객체 코딩 변형들이 가능하다:

프리렌더링된 객체들: 객체 신호들이 인코딩 전에 프리렌더링되고 22.2 채널 신호들로 믹싱된다. 그 이후의 코딩 체인은 22.2 채널 신호들을 참조한다.

이산 객체 파형들: 객체들이 모노포닉 파형들로서 인코더에 공급된다. 인코더는 단일 채널 엘리먼트(SCE)들을 사용하여 채널 신호들뿐만 아니라 객체들도 송신한다. 디코딩된 객체들이 수신기 측에서 렌더링되고 믹싱된다. 압축된 객체 메타데이터 정보가 수신기/렌더러에 송신된다.

파라메트릭 객체 파형들: 객체 특성들 및 이들의 상호 관계가 SAOC 파라미터들에 의해 설명된다. 객체 신호들의 다운믹스가 USAC로 코딩된다. 파라메트릭 정보가 나란히 송신된다. 다운믹스 채널들의 수는 객체들의 수 및 전체 데이터 레이트에 따라 선택된다. 압축된 객체 메타데이터 정보가 SAOC 렌더러에 송신된다.

객체 신호들에 대한 SAOC 인코더(112) 및 SAOC 디코더(220)는 MPEG SAOC 기술을 기반으로 할 수도 있다. 시스템은 더 적은 수의 송신된 채널들 및 추가 파라메트릭 데이터, 예컨대 OLD들, 객체 간 코히어런스(IOC: Inter Object Coherence)들, 다운믹스 이득(DMG: DownMix Gain)들을 기초로 다수의 오디오 객체들을 재생성, 변경 및 렌더링할 수 있다. 추가 파라메트릭 데이터는 모든 객체들을 개별적으로 송신하기 위해 요구되는 것보다 상당히 더 낮은 데이터 레이트를 나타내어, 코딩을 매우 효율적으로 만든다. SAOC 인코더(112)는 모노포닉 파형들인 객체/채널 신호들을 입력으로 취하여 (3D 오디오 비트스트림(128)으로 패킹되는) 파라메트릭 정보 및 (단일 채널 엘리먼트들을 사용하여 인코딩되고 송신되는) SAOC 전송 채널들을 출력한다. SAOC 디코더(220)는 디코딩된 SAOC 전송 채널들(210) 및 파라메트릭 정보(214)로부터 객체/채널 신호들을 재구성하고, 재생 레이아웃, 압축 해제된 객체 메타데이터 정보를 기초로 그리고 선택적으로는 사용자 상호 작용 정보를 기초로 출력 오디오 장면을 발생시킨다.

각각의 객체에 대해, 3D 공간에서 지리적 위치 및 객체들의 볼륨을 특정하는 연관된 메타데이터가 객체 특성들의 양자화에 의해 시간 및 공간상 효율적으로 인코딩되도록 객체 메타데이터 코덱(OAM 인코더(124) 및 OAM 디코더(224) 참조)이 제공된다. 압축된 객체 메타데이터인 cOAM(126)이 부가 정보로서 수신기(200)에 송신된다.

객체 렌더러(216)는 압축된 객체 메타데이터를 이용하여, 주어진 재생 포맷에 따라 객체 파형들을 발생시킨다. 각각의 객체는 그 메타데이터에 따라 특정 출력 채널로 렌더링된다. 이러한 블록의 출력은 부분적인 결과들의 합으로부터 발생한다. 채널 기반 콘텐츠뿐만 아니라 이산/파라메트릭 객체들도 모두 디코딩된다면, 채널 기반 파형들과 렌더링된 객체 파형들이 결과적인 파형들(228)을 출력하기 전에 또는 이들을 입체 음향 렌더러(236) 또는 라우드스피커 렌더러 모듈(232)과 같은 후처리기 모듈에 공급하기 전에 믹서(226)에 의해 믹싱된다.

입체 음향 렌더러 모듈(236)은 각각의 입력 채널이 가상 음원으로 표현되도록 다채널 오디오 자료의 입체 음향 다운믹스를 발생시킨다. 처리는 직교 미러 필터뱅크(QMF: Quadrature Mirror Filterbank) 도메인에서 프레임에 관해 수행되며, 입체 음향화는 측정된 입체 음향 실내 임펄스 응답들을 기반으로 한다.

라우드스피커 렌더러(232)는 송신된 채널 구성(228)과 원하는 재생 포맷 간에 변환한다. 이는 또한 "포맷 변환기"로 지칭될 수도 있다. 포맷 변환기는 더 적은 수의 출력 채널들로의 변환들을 수행하는데, 즉 이는 다운믹스들을 생성한다.

도 3은 도 2의 입체 음향 렌더러(236)의 한 실시예를 나타낸다. 입체 음향 렌더러 모듈은 다채널 오디오 자료의 입체 음향 다운믹스를 제공할 수 있다. 입체 음향화는 측정된 입체 음향 실내 임펄스 응답을 기반으로 할 수도 있다. 실내 임펄스 응답은 실제 실내의 음향 특성들의 "핑거프린트"로 여겨질 수도 있다. 실내 임펄스 응답이 측정되어 저장되고, 임의의 음향 신호들에 이 "핑거프린트"가 제공될 수 있으며, 이로써 청취자에서 실내 임펄스 응답과 연관된 실내의 음향 특성들의 시뮬레이션을 가능하게 할 수 있다. 입체 음향 렌더러(236)는 헤드 관련 전달 함수들 또는 입체 음향 실내 임펄스 응답(BRIR: Binaural Room Impulse Response)들을 사용하여 출력 채널들을 2개의 입체 음향 채널들로 렌더링하도록 프로그래밍 또는 구성될 수도 있다. 예를 들어, 모바일 디바이스들의 경우, 이러한 모바일 디바이스들에 부착된 헤드폰들 또는 라우드스피커들에 대해 입체 음향 렌더링이 요구된다. 이러한 모바일 디바이스들에서는, 제약들로 인해 디코더 및 렌더링 복잡도를 제한하는 것이 필요할 수도 있다. 이러한 처리 시나리오들에서 역상관을 생략하는 것 외에도, 다운믹서(250)를 사용하여 중간 다운믹스 신호(252)로, 즉 실제 입체 음향 변환기(254)에 대해 더 적은 수의 입력 채널을 야기하는 더 적은 수의 출력 채널들로의 다운믹스를 먼저 수행하는 것이 바람직할 수도 있다. 예를 들어, 22.2 채널 자료가 다운믹서(250)에 의해 5.1 중간 다운믹스로 다운믹싱될 수도 있고, 또는 대안으로 일종의 "숏컷" 모드에서 도 2의 SAOC 디코더(220)에 의해 중간 다운믹스가 직접 계산될 수도 있다. 다음에, 22.2 입력 채널들이 직접 렌더링되어야 했다면 44개의 HRTF 또는 BRIR 함수들을 적용하는 것과는 달리, 입체 음향 렌더링은 단지 10개의 헤드 관련 전달 함수(HRTF: Head Related Transfer Function)들 또는 BRIR 함수들을 적용해야 한다. 입체 음향 렌더링에 필요한 컨볼루션 연산들은 많은 처리 전력을 필요로 하며, 따라서 여전히 받아들일 수 있는 오디오 품질을 획득하면서 이러한 처리 전력을 감소시키는 것이 모바일 디바이스들에 특히 유용하다. 입체 음향 렌더러(236)는 (LFE 채널들을 제외한) 각각의 입력 채널이 가상 음원으로 표현되도록 다채널 오디오 자료(228)의 입체 음향 다운믹스(238)를 발생시킨다. 처리는 QMF 도메인에서 프레임에 관해 수행될 수도 있다. 입체 음향화는 측정된 입체 음향 실내 임펄스 응답들을 기반으로 하며, 직접음 및 초기 반사들이 QMF 도메인 상에서 고속 컨볼루션을 사용하여 의사 FFT 도메인에서 컨볼루션 접근 방식을 통해 오디오 자료에 각인될 수 있는 한편, 후기 잔향이 개별적으로 처리될 수 있다.

다채널 오디오 포맷들이 현재 매우 다양한 구성들에 존재하며, 이들은 예를 들어, DVD들 및 블루레이 디스크들 상에 제공된 오디오 정보를 제공하기 위해 사용되는, 앞서 상세히 설명한 것과 같은 3D 오디오 시스템에 사용된다. 한 가지 중요한 문제는 기존의 이용 가능한 소비자 물리적 스피커 셋업들과의 호환성을 유지하면서 다채널 오디오의 실시간 송신을 적응시키는 것이다. 해결책은 예를 들어, 제작에 사용된 원본 포맷으로 오디오 콘텐츠를 인코딩하는 것인데, 이는 일반적으로 상당수의 출력 채널들을 갖는다. 추가로, 다운믹스 부가 정보가 제공되어 덜 독립적인 채널들을 갖는 다른 포맷들을 발생시킨다. 예를 들어, 입력 채널들의 수 N과 출력 채널들의 수 M을 가정하면, 수신기에서의 다운믹스 프로시저는 N×M 크기를 갖는 다운믹스 행렬로 특정될 수 있다. 이러한 특정 프로시저는 앞서 설명한 포맷 변환기 또는 입체 음향 렌더러의 다운믹서에서 실행될 수도 있기 때문에, 이는 실제 오디오 콘텐츠에 의존하는 어떠한 적응적 신호 처리도 입력 신호들에 또는 다운믹싱된 출력 신호들에 적용되지 않는 것을 의미하는 수동 다운믹스를 나타낸다.

다운믹스 행렬은 오디오 정보의 물리적 믹싱과 매칭하려고 할 뿐만 아니라, 송신되는 실제 콘텐츠에 관해 자신의 지식을 사용할 수 있는 제작자의 예술적 의도들을 전달할 수도 있다. 따라서 예를 들어, 입력 및 출력 스피커들의 역할 및 위치에 관한 일반 음향 지식을 사용함으로써 수동으로, 실제 콘텐츠 및 예술적 의도에 관한 지식을 사용함으로써 수동으로, 그리고 예를 들어 주어진 출력 스피커들을 사용하여 근사치를 계산하는 소프트웨어 툴을 사용함으로써 자동으로 다운믹스 행렬들을 생성하는 여러 가지 방식들이 있다.

이러한 다운믹스 행렬들을 제공하기 위한 해당 기술분야의 다수의 공지된 접근 방식들이 있다. 그러나 기존의 방식들은 많은 가정들을 하며 실제 다운믹스 행렬의 콘텐츠 및 구조의 중요 부분을 하드코딩한다. 종래 기술 참조 [1]에서는, 5.1 채널 구성(종래 기술 참조 [2]를 참고)에서 2.0 채널 구성으로, 6.1 또는 7.1 프론트 또는 프론트 하이트 또는 서라운드 백 변형들에서 5.1 또는 2.0 채널 구성들로의 다운믹싱을 위해 명시적으로 정의되는 특정 다운믹싱 프로시저들을 사용하는 것이 설명된다. 이러한 공지된 접근 방식들의 약점은 입력 채널들 중 일부가 미리 정해진 가중치들과 믹싱되고(예를 들어, 7.1 서라운드 백을 5.1 구성으로 맵핑하는 경우에는, L, R 및 C 입력 채널들이 대응하는 출력 채널들에 직접 맵핑되고) 감소된 수의 이득값들이 다른 어떤 입력 채널들에 대해 공유된다(예를 들어, 7.1 프론트를 5.1 구성으로 맵핑하는 경우에는, L, R, Lc 및 Rc 입력 채널들이 단 하나의 이득값을 사용하여 L 및 R 출력 채널들에 맵핑된다)는 점에서 다운믹싱 방식들이 단지 제한된 자유도를 갖는다는 점이다. 더욱이, 이득들은 예를 들어, 총 8개의 레벨들로 0㏈ 내지 -9㏈의 단지 제한된 범위 및 정확도만을 갖는다. 각각의 입력 및 출력 구성 쌍에 대한 다운믹스 프로시저들을 명시적으로 설명하는 것은 어렵고 지연 준수의 대가로 기존의 표준들에 대한 부록들을 암시한다. 종래 기술 참조 [5]에서 다른 제안이 설명된다. 이러한 접근 방식은 유연성의 개선을 나타내는 명시적인 다운믹스 행렬들을 사용하지만, 이 방식은 또한 총 16개의 레벨들로 0㏈ 내지 -9㏈의 범위 및 정확도를 제한한다. 더욱이, 각각의 이득이 4 비트의 고정된 정확도로 인코딩된다.

따라서 공지된 종래 기술을 고려하여, 적당한 표현 도메인 및 양자화 방식의 선택, 그러나 또한 양자화된 값들의 무손실 코딩의 양상들을 포함하는 효율적인 다운믹스 행렬의 코딩들에 대한 개선된 접근 방식이 요구된다.

실시예들에 따르면, 제작자의 요구들에 따라 제작자에 의해 특정된 범위 및 정확도로 임의의 다운믹스 행렬들의 인코딩을 가능하게 함으로써 다운믹스 행렬들을 처리하기 위해 제한되지 않은 유연성이 달성된다. 또한, 본 발명의 실시예들은 일반적인 행렬들이 소량의 비트들을 사용하도록 매우 효율적인 무손실 코딩을 제공하며, 일반적인 행렬들에서 벗어나는 것은 단지 효율을 점진적으로 떨어뜨릴 것이다. 이것은 행렬이 일반적인 행렬과 비슷할수록, 본 발명의 실시예들에 따라 설명되는 코딩이 더 효율적일 것임을 의미한다.

실시예들에 따르면, 요구되는 정확도는 균등한 양자화에 사용되도록 제작자에 의해 1㏈, 0.5㏈ 또는 0.25㏈로서 특정될 수도 있다. 다른 실시예들에 따르면, 정확도에 대한 다른 값들이 또한 선택될 수 있다는 점이 주목된다. 이에 반해, 기존의 방식들은 약 0㏈의 값들에 대해 단지 1.5㏈ 또는 0.5㏈의 정확도를 가능하게 하는 한편, 다른 값들에 대해서는 더 낮은 정확도를 사용한다. 어떤 값들에 대해 더 개략적 양자화를 사용하는 것은 달성되는 최악의 경우의 허용 오차를 발생시키며, 디코딩된 행렬들의 해석을 더 어렵게 만든다. 기존의 기술들에서, 어떤 값들에는 더 낮은 정확도가 사용되는데, 이는 균등한 코딩을 사용하여 필요한 비트들의 수를 감소시키기 위한 간단한 수단이다. 그러나 아래 더 상세히 설명될 개선된 코딩 방식을 사용함으로써 정확도를 희생하지 않고도 사실상 동일한 결과들이 달성될 수 있다.

실시예들에 따르면, 믹싱 이득들의 값들은 최대 값, 예를 들어 +22㏈와 최소 값, 예를 들어 -47㏈ 사이로 특정될 수 있다. 이들은 또한 무한대를 제외한 값을 포함할 수도 있다. 행렬에 사용되는 유효 값 범위가 비트 스트림에서 최대 이득 및 최소 이득으로 표시됨으로써, 원하는 유연성을 제한하지 않으면서 실제로 사용되지 않는 값들에 대한 어떠한 비트들도 낭비하지 않는다.

실시예들에 따르면, 다운믹스 행렬이 제공될 오디오 콘텐츠의 입력 채널 리스트뿐만 아니라, 출력 스피커 구성을 나타내는 출력 채널 리스트도 또한 이용 가능하다고 가정된다. 이러한 리스트들은 입력 구성에서 그리고 출력 구성에서 각각의 스피커에 관한 지리적 정보, 예컨대 방위각 및 고도각을 제공한다. 선택적으로는, 또한 스피커들의 종래의 명칭들이 제공될 수도 있다.

도 4는 22.2 입력 구성에서 5.1 출력 구성으로의 맵핑을 위한, 해당 기술분야에 공지되어 있는 예시적인 다운믹스 행렬을 보여준다. 행렬의 우측 열(300)에서는, 22.2 구성에 따른 각각의 입력 채널들이 각각의 채널들과 연관된 스피커 명칭들로 표시된다. 맨 아래 행(302)은 출력 채널 구성인 5.1 구성의 각각의 출력 채널들을 포함한다. 또한, 각각의 채널들은 연관된 스피커 명칭들로 표시된다. 행렬은 믹싱 이득으로도 또한 지칭되는 이득값을 각각 보유하는 복수의 행렬 엘리먼트들(304)을 포함한다. 믹싱 이득은 주어진 입력 채널, 예를 들어 입력 채널들(300) 중 하나의 레벨이, 각각의 출력 채널(302)에 기여할 때, 어떻게 조정되는지를 나타낸다. 예를 들어, 상위 좌측 행렬 엘리먼트는 입력 채널 구성(300)에서 중앙 채널(C)이 출력 채널 구성(302)의 중앙 채널(C)에 완전히 매칭됨을 의미하는 "1"의 값을 보여준다. 마찬가지로, 2개의 구성들(L/R 채널들)에서 각각의 좌측 및 우측 채널들이 완전히 매칭되는데, 즉 입력 구성의 좌측/우측 채널들이 완전히 출력 구성의 좌측/우측 채널들에 기여한다. 다른 채널들, 예를 들어 입력 구성의 채널들(Lc, Rc)은 출력 구성(302)의 좌측 및 우측 채널들에 0.7의 감소된 레벨로 맵핑된다. 도 4로부터 알 수 있듯이, 어떠한 엔트리도 없는 행렬 엘리먼트를 통해 출력 채널에 링크된 입력 채널이 각각의 출력 채널에 기여하지 않음을 의미하는 또는 행렬 엘리먼트와 연관된 각각의 채널들이 서로 맵핑되지 않음을 의미하는 어떠한 엔트리도 없는 다수의 행렬 엘리먼트들이 또한 존재한다. 예를 들어, 좌측/우측 입력 채널들 중 어느 것도 출력 채널들(Ls/Rs)에 맵핑되지 않는다, 즉 좌측 및 우측 입력 채널들이 출력 채널들(Ls/Rs)에 기여하지 않는다. 행렬에서 보이드를 제공하는 대신, 0 이득이 또한 표시될 수 있었다.

다음에는 본 발명의 실시예들에 따라 다운믹스 행렬의 효율적인 무손실 코딩을 달성하도록 적용되는 여러 가지 기술들이 설명될 것이다. 다음 실시예들에서는, 도 4에 도시된 다운믹스 행렬의 코딩에 대한 참조가 이루어지지만, 다음에 설명되는 세부사항은 제공될 수도 있는 임의의 다른 다운믹스 행렬에 적용될 수 있음이 쉽게 명백하다. 실시예들에 따르면, 다운믹스 행렬을 디코딩하기 위한 접근 방식이 제공되는데, 여기서 다운믹스 행렬은 복수의 입력 채널들의 스피커 쌍들의 대칭성 및 복수의 출력 채널들의 스피커 쌍들의 대칭성을 활용함으로써 인코딩된다. 다운믹스 행렬이 디코더로의 그 송신에 이어, 예를 들어 인코딩된 오디오 콘텐츠 그리고 또한 다운믹스 행렬을 나타내는 인코딩된 정보 또는 데이터를 포함하는 비트스트림을 수신하는 오디오 디코더에서 디코딩되어, 원본 다운믹스 행렬에 대응하는 다운믹스 행렬을 디코더에서 구성하게 한다. 다운믹스 행렬의 디코딩은 다운믹스 행렬을 얻기 위해 다운믹스 행렬을 나타내는 인코딩된 정보를 수신하고 인코딩된 정보를 디코딩하는 것을 포함한다. 다른 실시예들에 따르면, 다운믹스 행렬을 인코딩하기 위한 접근 방식이 제공되는데, 이는 복수의 입력 채널들의 스피커 쌍들의 대칭성 및 복수의 출력 채널들의 스피커 쌍들의 대칭성을 활용하는 것을 포함한다.

본 발명의 실시예들의 다음 설명에서는, 다운믹스 행렬을 인코딩하는 맥락에서 일부 양상들이 설명될 것이지만, 해당 기술분야에서 통상의 지식을 가진 독자에게는 이러한 양상들이 또한 다운믹스 행렬을 디코딩하기 위한 대응하는 접근 방식의 설명을 나타낸다는 점이 명확하다. 비슷하게, 다운믹스 행렬을 디코딩하는 맥락에서 설명되는 양상들은 또한 다운믹스 행렬을 인코딩하기 위한 대응하는 접근 방식의 설명을 나타낸다.

실시예들에 따르면, 첫 번째 단계는 행렬에서 상당한 수의 0 엔트리들을 이용하는 것이다. 다음 단계에서는, 실시예들에 따라, 일반적으로 다운믹스 행렬에 존재하는 전역적 그리고 또한 미세한 레벨의 규칙성들을 이용한다. 세 번째 단계는 0이 아닌 이득값들의 일반적인 분포를 이용하는 것이다.

제 1 실시예에 따르면, 본 발명의 접근 방식은 오디오 콘텐츠의 제작자에 의해 제공될 수도 있는 다운믹스 행렬에서부터 시작된다. 다음 논의를 위해서는, 간단하게 할 수 있도록, 고려되는 다운믹스 행렬이 도 4의 행렬이라고 가정된다. 본 발명의 접근 방식에 따르면, 도 4의 다운믹스 행렬은 원본 행렬과 비교될 때 더 효율적으로 인코딩될 수 있는 콤팩트 다운믹스 행렬을 제공하도록 변환된다.

도 5는 방금 언급한 변환 단계를 개략적으로 나타낸다. 도 5의 상단부에는, 아래 더 상세히 설명될 방식으로 도 5의 하단부에 도시된 콤팩트 다운믹스 행렬(308)로 변환되는 도 4의 원본 다운믹스 행렬(306)이 도시된다. 본 발명의 접근 방식에 따르면, "대칭 스피커 쌍들"의 개념이 사용되는데, 이는 청취자 위치에 대해 하나의 스피커는 좌측 세미-평면에 있는 한편, 다른 스피커는 우측 세미-평면에 있음을 의미한다. 이 대칭 쌍 구성은 동일한 고도각을 갖는 한편 방위각에 대해서는 동일한 절대값을 갖지만 서로 다른 부호들을 갖는 2개의 스피커들에 대응한다.

실시예들에 따르면, 서로 다른 종류들의 스피커 그룹들, 주로 대칭 스피커들(S), 중앙 스피커들(C) 및 비대칭 스피커들(A)이 정의된다. 중앙 스피커들은 스피커 위치의 방위각 부호를 변경할 때 위치들이 변경되지 않는 그러한 스피커들이다. 비대칭 스피커들은 주어진 구성에서 다른 또는 대응하는 대칭 스피커가 없는 그러한 스피커들이며, 또는 어떤 희귀한 구성들에서는 다른 측의 스피커가 다른 고도각 또는 방위각을 가질 수 있어, 이 경우에는 대칭 쌍 대신 2개의 개별 비대칭 스피커들이 존재한다. 도 5에 도시된 다운믹스 행렬(306)에서, 입력 채널 구성(300)은 도 5의 상단부에 표시되는 9개의 대칭 스피커 쌍들(S₁ 내지 S₉)을 포함한다. 예를 들어, 대칭 스피커 쌍(S₁)은 22.2 입력 채널 구성(300)의 스피커들(Lc, Rc)을 포함한다. 또한, 22.2 입력 구성의 LFE 스피커들은 이들이 청취자 위치에 대해, 동일한 고도각 그리고 서로 다른 부호들을 갖는 동일한 절대 방위각을 갖기 때문에 대칭 스피커들이다. 22.2 입력 채널 구성(300)은 6개의 중앙 스피커들(C₁ 내지 C₆), 즉 스피커들(C, Cs, Cv, Ts, Cvr, Cb)을 더 포함한다. 입력 채널 구성에는 어떠한 비대칭 채널도 존재하지 않는다. 입력 채널 구성 이외의 출력 채널 구성(302)은 단지 2개의 대칭 스피커 쌍들(S₁₀, S₁₁)과 하나의 중앙 스피커(C₇) 그리고 하나의 비대칭 스피커(A₁)만을 포함한다.

설명되는 실시예에 따르면, 다운믹스 행렬(306)은 대칭 스피커 쌍들을 형성하는 입력 및 출력 스피커들을 함께 그룹화함으로써 콤팩트 표현(308)으로 변환된다. 각각의 스피커들을 함께 그룹화하는 것은 원본 입력 구성(300)에서와 동일한 중앙 스피커들(C₁ 내지 C₆)을 포함하는 콤팩트 입력 구성(310)을 산출한다. 그러나 원본 입력 구성(300)과 비교할 때, 대칭 스피커들(S₁ 내지 S₉)은 도 5의 하단부에 표시된 바와 같이, 각각의 쌍들이 이제 단지 단일 행만을 점유하도록 함께 각각 그룹화된다. 비슷한 방식으로, 또한 원본 출력 채널 구성(302)이 원본 중앙 및 비대칭 스피커들, 즉 중앙 스피커(C₇) 및 비대칭 스피커(A₁)를 또한 포함하는 콤팩트 출력 채널 구성(312)으로 변환된다. 그러나 각각의 스피커 쌍들(S₁₀, S₁₁)은 단일 열로 결합되었다. 따라서 도 5로부터 알 수 있듯이, 24×6이었던 원본 다운믹스 행렬(306)의 치수는 15×4의 콤팩트 다운믹스 행렬(308)의 치수로 감소되었다.

도 5에 관해 설명된 실시예에서는, 원본 다운믹스 행렬(306)에서, 입력 채널이 얼마나 강하게 출력 채널에 기여하는지를 나타내는 각각의 대칭 스피커 쌍들(S₁ 내지 S₁₁)과 연관된 믹싱 이득들은 입력 채널에서 그리고 출력 채널에서 대응하는 대칭 스피커 쌍들에 대해 대칭적으로 정렬됨을 확인할 수 있다. 예를 들어, 쌍(S₁, S₁₀)을 보면, 각각의 좌측 및 우측 채널들은 이득 0.7을 통해 결합되는 한편, 좌측/우측 채널들의 결합들은 이득 0과 결합된다. 따라서 콤팩트 다운믹스 행렬(308)에 도시된 것과 같은 식으로 각각의 채널들을 함께 그룹화할 때, 콤팩트 다운믹스 행렬 엘리먼트들(314)은 원본 행렬(306)에 관해 또한 설명된 각각의 믹싱 이득들을 포함할 수도 있다. 따라서 앞서 설명한 실시예에 따르면, "콤팩트" 표현(308)이 원본 다운믹스 행렬보다 더 효율적으로 인코딩될 수 있도록 대칭 스피커 쌍들을 함께 그룹화함으로써 원본 다운믹스 행렬의 크기가 감소된다.

도 6에 관해, 이제 본 발명의 추가 실시예가 설명될 것이다. 도 6은 또한 도 5에 관해 이미 도시 및 설명한 바와 같이 변환된 입력 및 출력 채널 구성(310, 312)을 갖는 콤팩트 다운믹스 행렬(308)을 보여준다. 도 6의 실시예에서, 도 5에서와는 다른 콤팩트 다운믹스 행렬의 행렬 엔트리들(314)은 어떠한 이득값들도 아닌 소위 "중요도 값들"을 나타낸다. 중요도 값은 각각의 행렬 엘리먼트들(314)에서, 이들과 연관된 이득들 중 임의의 이득이 0인지 여부를 표시한다. "1" 값을 보여주는 그러한 행렬 엘리먼트들(314)은 각각의 엘리먼트가 이와 연관된 이득값을 가짐을 나타내는 한편, 보이드 행렬 엘리먼트들은 이 엘리먼트와 어떠한 이득도 연관되지 않거나 0의 이득값이 연관됨을 나타낸다. 이 실시예에 따르면, 실제 이득값들을 중요도 값들로 대체하는 것은 도 6의 표현(308)이 예를 들어, 각각의 중요도 값들에 대해 1 값 또는 0 값을 표시하는 엔트리별 1 비트를 사용하여 단순히 인코딩될 수 있기 때문에 도 5와 비교할 때 콤팩트 다운믹스 행렬의 훨씬 더 효율적인 인코딩을 가능하게 한다. 추가로, 중요도 값들을 인코딩하는 것 외에도, 수신된 정보의 디코딩시 완전한 다운믹스 행렬이 재구성될 수 있도록 행렬 엘리먼트들과 연관된 각각의 이득값들을 인코딩하는 것이 또한 필요할 것이다.

다른 실시예에 따르면, 도 6에 도시된 것과 같은 콤팩트 형태인 다운믹스 행렬의 표현은 런 렝스 방식을 사용하여 인코딩될 수 있다. 이러한 런 렝스 방식에서, 행렬 엘리먼트들(314)은 행 1로 시작하여 행 15로 끝나는 행들을 연결함으로써 1차원 벡터로 변환된다. 다음에, 이 1차원 벡터는 런 렝스들, 예를 들어 1로 종결되는 연속한 0들의 수를 포함하는 리스트로 변환된다. 도 6의 실시예에서, 이는 다음의 리스트를 산출한다:

여기서 (1)은 비트 벡터가 0으로 끝나는 경우의 가상 종결부를 나타낸다. 위에 도시된 런 렝스는 총 비트 길이가 최소화되도록 적절한 코딩 방식, 예컨대 가변 길이 프리픽스 코딩을 각각의 번호에 할당하는 제한적 골롬-라이스 코딩을 사용하여 코딩될 수도 있다. 골롬-라이스 코딩 접근 방식은 다음과 같이 음이 아닌 정수 파라미터(p≥0)를 사용하여 음이 아닌 정수(n≥0)를 코딩하는 데 사용되는데: 먼저, 1진 코딩을 사용하여 번호

가 코딩되고, h의 1인 비트들에 종결 0 비트가 뒤따르고; 다음에 번호

가 p 비트를 사용하여 균등하게 코딩된다.

제한적 골롬-라이스 코딩은 n < N임이 미리 알려져 있을 때 사용되는 사소한 변형이다. 이는

인 h의 최대 가능한 값을 코딩할 때 종결 0 비트를 포함하지 않는다. 보다 정확히는,

를 인코딩하기 위해 종결 0 비트 없이 단지 h의 1인 비트들만이 사용되는데, 디코더가 이러한 상태를 암시적으로 검출할 수 있기 때문에 종결 0 비트가 요구되지 않는다.

앞서 언급한 바와 같이, 각각의 엘리먼트(314)와 연관된 이득들이 인코딩되고 또한 송신될 필요가 있으며, 이를 하기 위한 실시예들이 아래 더 상세히 설명될 것이다. 이득들의 인코딩을 상세히 논의하기 전에, 도 6에 도시된 콤팩트 다운믹스 행렬의 구조를 인코딩하기 위한 추가 실시예들이 이제 설명될 것이다.

도 7은 일반적인 콤팩트 행렬들은 오디오 인코더 및 오디오 디코더에서 모두 이용 가능한 템플릿 행렬과 일반적으로 비슷하도록 어떤 의미 있는 구조를 갖는다는 사실을 이용함으로써 콤팩트 다운믹스 행렬의 구조를 인코딩하기 위한 추가 실시예를 설명한다. 도 7은 도 6에 또한 도시된 것과 같이, 중요도 값들을 갖는 콤팩트 다운믹스 행렬(308)을 보여준다. 추가로, 도 7은 동일한 입력 및 출력 채널 구성(310', 312')을 갖는 가능한 템플릿 행렬(316)의 일례를 보여준다. 콤팩트 다운믹스 행렬과 같은 템플릿 행렬은 각각의 템플릿 행렬 엘리먼트들(314')에 중요도 값들을 포함한다. 중요도 값들은 앞서 언급한 바와 같이, 콤팩트 다운믹스 행렬과 단지 "비슷한" 템플릿 행렬은 엘리먼트들(314') 중 일부가 상이하다는 점을 제외하면, 콤팩트 다운믹스 행렬과 기본적으로 동일한 방식으로 엘리먼트들(314') 사이에 분산된다. 콤팩트 다운믹스 행렬(308)에서 행렬 엘리먼트들(318, 320)은 어떠한 이득값들도 포함하지 않는 한편, 템플릿 행렬(316)은 대응하는 행렬 엘리먼트들(318', 320')에 중요도 값을 포함한다는 점에서 템플릿 행렬(316)은 콤팩트 다운믹스 행렬(308)과 다르다. 따라서 강조된 엔트리들(318', 320')에 관해 템플릿 행렬(316)은 인코딩될 필요가 있는 콤팩트 행렬과는 다르다. 도 6과 비교할 때, 콤팩트 다운믹스 행렬의 훨씬 더 효율적인 코딩을 달성하기 위해, 2개의 행렬들(308, 316)에서 대응하는 행렬 엘리먼트들(314, 314')이 논리적으로 결합되어, 도 6에 관해 설명한 것과 비슷한 방식으로, 앞서 설명한 것과 비슷한 방식으로 인코딩될 수 있는 1차원 벡터를 얻는다. 행렬 엘리먼트들(314, 314') 각각에는 XOR 연산이 가해질 수 있는데, 보다 구체적으로는 콤팩트 템플릿을 사용하여 엘리먼트에 관한 논리적 XOR 연산이 콤팩트 행렬에 적용되어, 다음의 런 렝스들을 포함하는 리스트로 변환되는 1차원 벡터를 산출한다:

이 리스트는 이제 예를 들어, 제한적 골롬-라이스 코딩을 또한 사용함으로써 인코딩될 수 있다. 도 6에 관해 설명한 실시예와 비교하면, 이 리스트는 훨씬 더 효율적으로 인코딩될 수 있음이 확인될 수 있다. 최선의 경우에는, 콤팩트 행렬이 템플릿 행렬과 동일할 때, 전체 벡터는 단지 0들만으로 구성되고, 단 하나의 런 렝스 번호만이 인코딩될 필요가 있다.

템플릿 행렬의 사용에 관해서는, 도 7에 관해 설명된 바와 같이, 인코더와 디코더 둘 다, 스피커들의 리스트에 의해 결정되는 입력 또는 출력 구성과는 달리, 한 세트의 입력 및 출력 스피커들에 의해 고유하게 결정되는 이러한 콤팩트 템플릿들의 미리 정해진 세트를 가질 필요가 있다는 점이 주목된다. 이것은 입력 및 출력 스피커들의 순서가 템플릿 행렬의 결정에 관련되지 않으며, 말하자면 그 순서는 주어진 콤팩트 행렬의 순서와 매칭하는 데 사용하기 전에 치환될 수 있음을 의미한다.

다음에는, 앞서 언급한 바와 같이, 콤팩트 다운믹스 행렬에 더는 존재하지 않으며 역시 인코딩되어 송신될 필요가 있는, 원본 다운믹스 행렬로 제공되는 믹싱 이득들의 인코딩에 관한 실시예들이 설명될 것이다.

도 8은 믹싱 이득들을 인코딩하기 위한 실시예를 설명한다. 이 실시예는 입력 및 출력 스피커 그룹들, 즉 그룹들 S(대칭인 L 및 R), C(중앙) 및 A(비대칭)의 서로 다른 결합들에 따라, 원본 다운믹스 행렬에서 하나 또는 그보다 많은 0이 아닌 엔트리들에 대응하는 하위 행렬들의 특성들을 이용한다. 도 8은 입력 및 출력 스피커들, 즉 대칭 스피커들(L, R), 중앙 스피커들(C) 및 비대칭 스피커들(A)의 서로 다른 결합들에 따라, 도 4에 도시된 다운믹스 행렬로부터 도출될 수 있는 가능한 하위 행렬들을 설명한다. 도 8에서, a, b, c 및 d인 문자들은 임의의 이득값들을 나타낸다.

도 8(a)은 도 4의 행렬로부터 도출될 수 있는 4개의 가능한 하위 행렬들을 보여준다. 첫 번째 행렬은 2개의 중앙 채널들, 예를 들어 입력 구성(300)의 스피커들(C)과 출력 구성(302)의 스피커(C)의 맵핑을 정의하는 하위 행렬이며, 이득값 "a"는 행렬 엘리먼트 [1,1](도 4에서 상부 좌측 엘리먼트)에 표시된 이득값이다. 도 8(a)에서 두 번째 하위 행렬은 예를 들어, 2개의 대칭 입력 채널들, 예를 들어 입력 채널들(Lc, Rc)을 출력 채널 구성의 중앙 스피커, 예컨대 스피커(C)에 맵핑하는 것을 나타낸다. 이득값들 "a" 및 "b"는 행렬 엘리먼트들 [1,2] 및 [1,3]에 표시된 이득값들이다. 도 8(a)의 세 번째 하위 행렬은 도 4의 입력 구성(300)의 중앙 스피커(C), 예컨대 스피커(Cvr)를 출력 구성(302)의 2개의 대칭 채널들, 예컨대 채널들(Ls, Rs)에 맵핑하는 것과 관련된다. 이득값들 "a" 및 "b"는 행렬 엘리먼트들 [4,21] 및 [5,21]에 표시된 이득값들이다. 도 8(a)의 네 번째 하위 행렬은 2개의 대칭 채널들이 맵핑되는, 예를 들어 입력 구성(300)의 채널들(L, R)이 출력 구성(302)의 채널들(L, R)에 맵핑되는 경우를 나타낸다. 이득값들 "a" 내지 "d"는 행렬 엘리먼트들 [2,4], [2,5], [3,4] 및 [3,5]에 표시된 이득값들이다.

도 8(b)은 비대칭 스피커들을 맵핑할 때의 하위 행렬들을 보여준다. 첫 번째 표현은 2개의 비대칭 스피커들을 맵핑함으로써 얻어진 하위 행렬이다(이러한 하위 행렬에 대한 어떠한 예도 도 4에 주어지 않음). 도 8(b)의 두 번째 하위 행렬은 2개의 대칭 입력 채널들을 비대칭 출력 채널에 맵핑하는 것과 관련되는데, 이러한 맵핑은 도 4의 실시예에서 예를 들어, 2개의 대칭 입력 채널들(LFE, LFE2)을 출력 채널(LFE)로 맵핑하는 것이다. 이득값들 "a" 및 "b"는 행렬 엘리먼트들 [6,11] 및 [6,12]에 표시된 이득값들이다. 도 8(b)의 세 번째 하위 행렬은 입력 비대칭 스피커가 출력 스피커들의 대칭 쌍에 매칭되는 경우를 나타낸다. 예시적인 경우에는 어떠한 비대칭 입력 스피커도 없다.

도 8(c)은 중앙 스피커들을 비대칭 스피커들에 맵핑하기 위한 2개의 하위 행렬들을 보여준다. 첫 번째 하위 행렬은 입력 중앙 스피커를 비대칭 출력 스피커에 맵핑하고(이러한 하위 행렬에 대한 어떠한 예도 도 4에 주어지 않음), 두 번째 하위 행렬은 비대칭 입력 스피커를 중앙 출력 스피커에 맵핑한다.

이 실시예에 따르면, 각각의 출력 스피커 그룹에 대해, 대응하는 열이 모든 엔트리들에 대해 대칭성 및 분리성의 특성들을 충족하는지 여부가 체크되고, 이 정보는 2 비트를 사용하여 부가 정보로서 송신된다.

대칭성 특성은 도 8(d) 및 8(e)에 관해 설명될 것이고 L 및 R 스피커들을 포함하는 S 그룹이 동일한 이득으로 중앙 스피커 또는 비대칭 스피커로 또는 그러한 스피커로부터 믹싱됨을, 또는 S 그룹이 다른 S 그룹으로 또는 다른 S 그룹으로부터 동일하게 믹싱됨을 의미한다. S 그룹을 믹싱할 방금 언급한 두 가지 가능성들이 도 8(d)에 도시되며, 2개의 하위 행렬들은 도 8(a)에 관해 앞서 설명한 세 번째 및 네 번째 하위 행렬들에 대응한다. 방금 언급한 대칭성 특성, 즉 믹싱이 동일한 이득을 사용하는 대칭성 특성을 적용하는 것은 동일한 이득값을 사용하여 입력 중앙 스피커(C)가 대칭 스피커 그룹(S)에 맵핑되는 도 8(e)에 도시된 첫 번째 하위 행렬을 산출한다(예를 들어, 도 4에서 입력 스피커(Cvr)의 출력 스피커들(Ls, Rs)로의 맵핑 참조). 이는 또한 예를 들어, 출력 채널들의 중앙 스피커(C)에 대한 입력 스피커들(Lc, Rc)의 맵핑을 검토할 때 반대로 적용되는데; 여기서 동일한 대칭성 특성이 발견될 수 있다. 대칭성 특성은 추가로, 도 8(e)에 도시된 두 번째 하위 행렬로 이어지는데, 이에 따라 대칭성 스피커들 사이의 믹싱은 좌측 스피커들의 맵핑과 우측 스피커들의 맵핑이 동일한 이득 계수를 사용하고 좌측 스피커를 우측 스피커에 그리고 우측 스피커를 좌측 스피커에 맵핑하는 것 또한 동일한 이득값을 사용하여 이루어진다는 동일한 의미이다. 이는 예를 들어, 이득값 "a" = 1 및 이득값 "b" = 0으로 입력 채널들(L, R)을 출력 채널들(L, R)에 맵핑하는 것에 관해 도 4에 도시된다.

분리성 특성은 대칭 그룹이 모든 신호들을 좌측에서 좌측으로 그리고 모든 신호들을 우측에서 우측으로 유지함으로써 다른 대칭 그룹으로 또는 다른 대칭 그룹으로부터 믹싱됨을 의미한다. 이는 도 8(a)에 관해 앞서 설명한 제 4 하위 행렬에 대응하는, 도 8(f)에 도시된 하위 행렬에 대해 적용된다. 방금 언급한 분리성 특성의 적용은 도 8(g)에 도시된 하위 행렬로 이어지는데, 이에 따라 좌측 입력 채널은 좌측 출력 채널에만 맵핑되고 우측 입력 채널은 우측 출력 채널에만 입력되며, 0의 이득 계수들로 인해 어떠한 "채널 간" 맵핑도 존재하지 않는다.

공지된 대다수의 다운믹스 행렬들에서 접하게 되는 앞서 언급한 두 가지 특성들의 사용은 코딩될 필요가 있는 이득들의 실제 개수를 상당히 더 감소시키는 것을 가능하게 하고 그리고 또한 분리성 특성을 충족하는 경우에 상당수의 0 이득들에 대해 요구되는 코딩을 직접 제거한다. 예를 들어, 중요도 값들을 포함하는 도 6의 콤팩트 행렬을 고려할 때 그리고 앞서 언급한 특성들을 원본 다운믹스 행렬에 적용할 때, 분리성 및 대칭성 특성들로 인해 각각의 중요도 값들과 연관된 각각의 이득값들이 디코딩시 원본 다운믹스 행렬 사이에 어떻게 분포될 필요가 있는지가 알려지기 때문에, 예를 들어 도 5에서 하단부에 도시된 것과 같은 방식으로 각각의 중요도 값들에 대한 단일 이득값을 정의하는 것으로 충분하다고 확인될 수 있다. 따라서 도 6에 도시된 행렬에 관해 도 8의 앞서 설명한 실시예를 적용할 때, 디코더가 원본 다운믹스 행렬을 재구성할 수 있게 하기 위해 인코딩되어 인코딩된 중요도 값들과 함께 송신될 필요가 있는 19개의 이득값들만을 제공하는 것으로 충분하다.

다음에는, 원본 다운믹스 행렬에서, 예를 들어 오디오 콘텐츠의 제작자에 의해 원본 이득값들을 정의하는 데 사용될 수도 있는 이득들의 표를 동적으로 생성하기 위한 한 실시예가 설명될 것이다. 이 실시예에 따르면, 지정된 정확도를 사용하여 최소 이득값(minGain)과 최대 이득값(maxGain) 사이의 이득들의 표가 동적으로 생성된다. 바람직하게는, 가장 빈번하게 사용되는 값들 그리고 또한 더 "대략적인" 값들이 다른 값들, 즉 그렇게 자주 사용되지는 않는 값들 또는 그렇게 대략적이진 않은 값들보다 표 또는 리스트의 시작에 더 가깝게 정렬되도록 표가 생성된다. 한 실시예에 따르면, maxGain, minGain 및 정확도 레벨을 사용하는 가능한 값들의 리스트가 다음과 같이 생성될 수 있다:

- 3㏈의 정수배들을 더하여, 0㏈에서부터 minGain까지 내려가고;

- 3㏈의 정수배들을 더하여, 3㏈에서부터 maxGain까지 올라가고;

- 1㏈의 나머지 정수배들을 더하여, 0㏈에서부터 minGain까지 내려가고;

- 1㏈의 나머지 정수배들을 더하여, 1㏈에서부터 maxGain까지 올라가고;

정확도 레벨이 1㏈라면 여기서 중단하고;

- 0.5㏈의 나머지 정수배들을 더하여, 0㏈에서부터 minGain까지 내려가고;

- 0.5㏈의 나머지 정수배들을 더하여, 0.5㏈에서부터 maxGain까지 올라가고;

정확도 레벨이 0.5㏈라면 여기서 중단하고;

- 0.25㏈의 나머지 정수배들을 더하여, 0㏈에서부터 minGain까지 내려가고;

- 0.25㏈의 나머지 정수배들을 더하여, 0.25㏈에서부터 maxGain까지 올라간다.

예를 들어, maxGain이 2㏈이고 minGain이 -6㏈이며, 정확도가 0.5㏈일 때, 다음의 리스트가 생성된다:

0, -3, -6, -1, -2, -4, -5, 1, 2, -0.5, -1.5, -2.5, -3.5, -4.5, -5.5, 0.5, 1.5.

위의 실시예와 관련하여, 본 발명은 위에 표시된 값들로 한정되는 것은 아니며, 말하자면 3㏈의 정수배를 사용하고 0㏈에서부터 시작하는 대신, 상황들에 따라 다른 값들이 선택될 수도 있고 또한 정확도 레벨에 대한 다른 값들이 선택될 수도 있다는 점이 주목된다.

일반적으로, 이득값들의 리스트가 다음과 같이 생성될 수 있다:

- 최소 이득을 포함하여 최소 이득부터 시작 이득값을 포함하여 시작 이득값까지 감소하는 순서로 제 1 이득값의 정수배들을 더하고;

- 시작 이득값을 포함하여 시작 이득값부터 최대 이득을 포함하여 최대 이득까지 증가하는 순서로 제 1 이득값의 나머지 정수배들을 더하고;

- 최소 이득을 포함하여 최소 이득부터 시작 이득값을 포함하여 시작 이득값까지 감소하는 순서로 제 1 정확도 레벨의 나머지 정수배들을 더하고;

- 시작 이득값을 포함하여 시작 이득값부터 최대 이득을 포함하여 최대 이득까지 증가하는 순서로 제 1 정확도 레벨의 나머지 정수배들을 더하고;

- 정확도 레벨이 제 1 정확도 레벨이라면 여기서 중단하고;

- 최소 이득을 포함하여 최소 이득부터 시작 이득값을 포함하여 시작 이득값까지 감소하는 순서로 제 2 정확도 레벨의 나머지 정수배들을 더하고;

- 시작 이득값을 포함하여 시작 이득값부터 최대 이득을 포함하여 최대 이득까지 증가하는 순서로 제 2 정확도 레벨의 나머지 정수배들을 더하고;

- 정확도 레벨이 제 2 정확도 레벨이라면 여기서 중단하고;

- 최소 이득을 포함하여 최소 이득부터 시작 이득값을 포함하여 시작 이득값까지 감소하는 순서로 제 3 정확도 레벨의 나머지 정수배들을 더하고;

- 시작 이득값을 포함하여 시작 이득값부터 최대 이득을 포함하여 최대 이득까지 증가하는 순서로 제 3 정확도 레벨의 나머지 정수배들을 더한다.

위의 실시예에서, 시작 이득값이 0일 때, 나머지 값들을 증가하는 순서로 더하고 연관된 다중도 조건을 충족하는 부분들은 처음에 제 1 이득값이나 제 1 또는 제 2 또는 제 3 정확도 레벨을 더할 것이다. 그러나 일반적인 경우에, 나머지 값들을 증가하는 순서로 더하는 부분들은 처음에는, 시작 이득값을 포함하여 시작 이득값에서부터 최대 이득을 포함하여 최대 이득까지의 간격으로 가장 작은 값을 더하여, 연관된 다중도 조건을 충족할 것이다. 대응하게, 나머지 값들을 감소하는 순서로 더하는 부분들은 처음에는, 최소 이득을 포함하여 최소 이득에서부터 시작 이득값을 포함하여 시작 이득값까지의 간격으로 가장 큰 값을 더하여, 연관된 다중도 조건을 충족할 것이다.

위의 것과 비슷하지만 시작 이득값 = 1㏈(제 1 이득값 = 3㏈, maxGain = 2㏈, minGain = -6㏈ 그리고 정확도 레벨 = 0.5㏈)인 예를 고려하면 다음이 산출된다:

아래로: 0, -3, -6

위로: [공백]

아래로: 1, -2, -4, -5

위로: 2

아래로: 0.5, -0.5, -1.5, -2.5, -3.5, -4.5, -5.5

위로: 1.5

이득값을 인코딩하기 위해, 바람직하게는 표에서 이득이 검색되고 표 내에서의 이득의 위치가 출력된다. 모든 이득들이 예를 들어, 1㏈, 0.5㏈ 또는 0.25㏈의 지정된 정확도의 가장 가까운 정수배로 미리 양자화되기 때문에 원하는 이득이 항상 발견될 것이다. 선호되는 실시예에 따르면, 이득값들의 위치들은 표에서의 위치를 표시하는, 이들과 연관된 인덱스를 갖고, 이득들의 인덱스들은 예를 들어, 제한적 골롬-라이스 코딩 접근 방식을 사용하여 인코딩될 수 있다. 이는 큰 인덱스들보다 작은 인덱스들이 더 적은 수의 비트들을 사용하는 결과를 야기하며, 이런 식으로, 0㏈, -3㏈ 또는 -6㏈와 같은 일반적인 값들 또는 빈번하게 사용되는 값들은 가장 적은 수의 비트들을 사용할 것이고, 또한 -4㏈와 같은 더 "대략적인" 값들은 그렇게 대략적인 수들은 아닌(예를 들어, -4.5㏈) 더 적은 수의 비트들을 사용할 것이다. 따라서 앞서 설명한 실시예를 사용함으로써, 오디오 콘텐츠의 제작자가 이득들의 원하는 리스트를 생성할 수 있을 뿐만 아니라, 이러한 이득들이 또한 또 다른 실시예에 따라, 앞서 설명한 모든 접근 방식들을 적용할 때, 다운믹스 행렬들의 상당히 효율적인 코딩이 달성될 수 있도록 매우 효율적으로 인코딩될 수 있다.

앞서 설명한 기능은 도 1에 관해 앞서 설명한 것과 같은 오디오 인코더의 일부일 수도 있고, 대안으로 이는 비트 스트림으로 수신기 또는 디코더 쪽으로 송신될 오디오 인코더에 대한 다운믹스 행렬의 인코딩된 버전을 제공하는 개별 인코더 디바이스에 의해 제공될 수 있다.

수신기 측에서 인코딩된 콤팩트 다운믹스 행렬의 수신시, 실시예들에 따르면 디코딩하기 위한 방법이 제공되는데, 이 방법은 인코딩된 콤팩트 다운믹스 행렬을 디코딩하고 그룹화된 스피커들을 단일 스피커들로 그룹 해제(분리)함으로써, 원본 다운믹스 행렬을 산출한다. 행렬의 인코딩이 중요도 값들 및 이득값들을 인코딩하는 것을 포함하는 경우, 디코딩 단계 동안, 이들은 중요도 값들을 기초로 그리고 원하는 입력/출력 구성을 기초로, 다운믹스 행렬이 재구성될 수 있고 각각의 디코딩된 이득들이 재구성된 다운믹스 행렬의 각각의 행렬 엘리먼트들에 연관될 수 있도록 디코딩된다. 이는 완전한 다운믹스 행렬을, 포맷 변환기에서 이를 사용할 수 있는 오디오 디코더, 예를 들어 도 2, 도 3 및 도 4에 관해 앞서 설명한 오디오 디코더에 산출하는 개별 디코더에 의해 수행될 수도 있다.

따라서 앞서 정의된 것과 같은 본 발명의 접근 방식은 서로 다른 출력 채널 구성을 갖는 수신 시스템에 특정 입력 채널 구성을 갖는 오디오 콘텐츠를 제시하기 위한 시스템 및 방법을 또한 제공하며, 여기서 다운믹스에 대한 추가 정보가 인코딩된 비트 스트림과 함께 인코더 측에서 디코더 측으로 송신되고, 본 발명의 접근 방식에 따르면, 다운믹스 행렬들의 매우 효율적인 코딩으로 인해 오버헤드가 명백히 감소된다.

다음에는 효율적인 정적 다운믹스 행렬 코딩을 구현하는 추가 실시예가 설명된다. 보다 구체적으로, 선택적인 EQ 코딩을 이용하는 정적 다운믹스 행렬에 대한 한 실시예가 설명될 것이다. 앞서 또한 언급한 바와 같이, 다채널 오디오와 관련된 한 가지 문제는 기존의 이용 가능한 소비자 물리적 스피커 셋업들과의 호환성을 유지하면서 다채널 오디오의 실시간 송신을 적응시키는 것이다. 한 가지 해결책은 원본 생성 포맷인 오디오 콘텐츠와 함께 다운믹스 부가 정보를 제공하여, 필요에 따라 덜 독립적인 채널들을 갖는 다른 포맷들을 발생시키는 것이다. inputCount 입력 채널들 및 outputCount 출력 채널들을 가정하면, inputCount×outputCount 크기의 다운믹스 행렬로 다운믹스 프로시저가 지정된다. 이러한 특정 프로시저는 수동 다운믹스를 나타내는데, 이는 실제 오디오 콘텐츠에 따른 어떠한 적응적 신호 처리도 입력 신호들에 또는 다운믹싱된 출력 신호들에 적용되지 않음을 의미한다. 이제 설명되는 실시예에 따른 본 발명의 접근 방식은 적당한 표현 도메인 및 양자화 방식의 선택에 관한, 그러나 또한 양자화된 값들의 무손실 코딩에 관한 양상들을 포함하는 다운믹스 행렬들의 효율적인 인코딩을 위한 완벽한 방식을 설명한다. 각각의 행렬 엘리먼트는 레벨 주어진 입력 채널이 주어진 출력 채널에 기여하는 레벨을 조정하는 믹싱 이득을 나타낸다. 이제 설명되는 실시예는 제작자의 요구들에 따라 제작자에 의해 특정될 수 있는 범위 및 정확도로 임의의 다운믹스 행렬들의 인코딩을 가능하게 함으로써 제한되지 않은 유연성을 달성하는 것을 목표로 한다. 또한, 효율적인 무손실 코딩이 요구되어, 일반적인 행렬들은 소량의 비트들을 사용하고, 일반적인 행렬들에서 벗어나는 것은 단지 효율을 점진적으로 떨어뜨릴 것이다. 이는 행렬이 일반적인 행렬과 비슷할수록, 그 코딩이 더 효율적일 것임을 의미한다. 실시예들에 따르면, 요구되는 정확도는 균등한 양자화에 사용되도록 제작자에 의해 1㏈, 0.5㏈ 또는 0.25㏈로서 특정될 수 있다. 믹싱 이득들의 값들은 최대 +22㏈ 내지 최소 -47㏈ 포함 최소 -47㏈로 특정될 수도 있고, 또한 -∞ 값(선형 도메인에서는 0)을 포함할 수도 있다. 다운믹스 행렬에 사용되는 유효 값 범위가 비트 스트림에서 최대 이득값(maxGain) 및 최소 이득값(minGain)으로 표시되며, 이에 따라 유연성을 제한하지 않으면서 실제로 사용되지 않는 값들에 대한 어떠한 비트들도 낭비하지 않는다.

각각의 스피커에 관한 지리적 정보, 예컨대 방위각 및 고도각 그리고 선택적으로 종래 기술 참조 [6] 또는 참조 [7]에 따른 스피커 종래 명칭을 제공하는 입력 채널 리스트 그리고 또한 출력 채널 리스트가 이용 가능하다고 가정하면, 실시예들에 따라 다운믹스 행렬을 인코딩하기 위한 알고리즘은 아래 표 1에 도시된 것과 같을 수 있다:

표 1 - DownmixMatrix의 신택스

실시예들에 따라 이득값들을 정의하기 위한 알고리즘은 아래 표 2에 도시된 것과 같을 수 있다:

표 2 - DecodeGainValue의 신택스

실시예들에 따라 판독된 범위 함수를 정의하기 위한 알고리즘이 아래 표 3에 도시된 것과 같을 수 있다:

표 3 - ReadRange의 신택스

실시예들에 따라 이퀄라이저 구성을 정의하기 위한 알고리즘은 아래 표 4에 도시된 것과 같을 수 있다:

표 4 - EqualizerConfig의 신택스

실시예들에 따른 다운믹스 행렬의 엘리먼트들은 아래 표 5에 도시된 것과 같을 수 있다:

표 5 - DownmixMatrix의 엘리먼트들

주어진 음이 아닌 정수 파라미터((p≥ 0)를 사용하여 다음과 같이 임의의 음이 아닌 정수(n≥0)를 코딩하는 데 골롬-라이스 코딩이 사용되는데: h의 1인 비트들에 종결 0 비트가 뒤따르기 때문에 먼저 1진 코딩을 사용하여 번호

를 코딩하고; 다음에 번호

를 p 비트를 사용하여 균등하게 코딩한다.

제한적 골롬-라이스 코딩은 주어진 정수(N≥1)에 대해, n < N임이 미리 알려져 있을 때 사용되는 사소한 변형이다. 이는

아래 설명되는 함수 ConvertToCompactConfig ( paramConfig , paramCount )는 paramCount 스피커들로 구성된 주어진 paramConfig 구성을 compactParamCount 스피커 그룹들로 구성된 콤팩트한 compactParamConfig 구성으로 변환하는 데 사용된다. compactParamConfig[i].pairType 필드는 그룹이 한 쌍의 대칭 스피커들을 나타낼 때는 SYMMETRIC(S), 그룹이 중앙 스피커를 나타낼 때는 CENTER(C), 또는 그룹이 대칭 쌍 없는 스피커를 나타낼 때는 ASYMMETRIC(A)일 수 있다.

inputConfig 및 inputCount로 표현된 입력 채널 구성 및 outputConfig 및 outputCount로 표현된 출력 채널 구성과 매칭하는 콤팩트 템플릿 행렬을 찾기 위해 함수 FindcompactTemplate ( inputConfig , inputCount , outputConfig , outputCount )가 사용된다.

인코더와 디코더 모두에서 이용 가능한 콤팩트 템플릿 행렬들의 미리 정해진 리스트에서, 관련 없는 실제 스피커 순서와 관계없이, inputConfig와 동일한 세트의 입력 스피커들 및 outputConfig와 동일한 세트의 출력 스피커들을 갖는 것을 탐색함으로써 콤팩트 템플릿 행렬이 발견된다. 발견된 콤팩트 템플릿 행렬로 돌아가기 전에, 함수는 주어진 입력 구성으로부터 도출된 스피커들 그룹들의 순서와 주어진 출력 구성으로부터 도출된 스피커들 그룹들의 순서를 매칭시키기 위해 함수의 라인들과 열들을 재정렬할 필요가 있을 수도 있다.

매칭하는 콤팩트 템플릿 행렬이 발견되지 않는다면, 함수는 모든 엔트리들에 대해 1 값을 갖는, 정확한 수의 (입력 스피커 그룹들의 계산된 수인) 라인들 및 (출력 스피커 그룹들의 계산된 수인) 열들을 갖는 행렬로 돌아갈 것이다.

스피커 paramConfig[i]에 대응하는 대칭 스피커에 대해 paramConfig 및 paramCount로 표현되는 채널 구성을 찾기 위해 함수 SearchForSymmetricSpeaker ( paramConfig , paramCount, i)가 사용된다. 이 대칭 스피커 paramConfig[j]는 스피커 paramConfig[i] 뒤에 위치될 것이며, 따라서 j는 i+1에서 paramConfig - 1까지를 포함하는 범위에 있을 수 있다. 추가로, 이는 이미 스피커 그룹의 일부는 아닐 것이며, 이는 paramConfig [j]. alreadyUsed가 거짓일 것임을 의미한다.

함수 readRange()는 0 … alphabetSize - 1까지 포함하는 범위에서 균등하게 분포된 정수를 판독하는 데 사용되는데, 이는 alphabetSize 가능한 값들 전체를 가질 수 있다. 이는 단순히 ceil(log2(alphabetSize)) 비트들을 판독하여, 그러나 미사용 값들은 사용하지 않고 이루어질 수도 있다. 예를 들어, alphabetSize가 3일 때, 함수는 정수 0에 대해서는 단 하나의 비트를 그리고 정수 1과 정수 2에 대해서는 2개의 비트들을 사용할 것이다.

정확도 precisionLevel로 minGain과 maxGain 사이의 가능한 모든 이득들의 리스트를 포함하는 이득 표 GainTable을 동적으로 생성하기 위해 함수 generateGainTable(maxGain, minGain , precisionLevel )이 사용된다. 가장 빈번하게 사용되는 값들 그리고 또한 더 "대략적인" 값들이 일반적으로 리스트의 시작에 더 가깝도록 값들의 순서가 선택된다. 가능한 모든 이득값들의 리스트를 갖는 이득 표는 다음과 같이 생성된다:

- precisionLevel이 (1㏈에 대응하는) 0이라면 여기서 중단하고;

- precisionLevel이 (0.5㏈에 대응하는) 1이라면 여기서 중단하고;

예를 들어, maxGain이 2㏈이고 minGain이 -6㏈이며, precisionLevel이 0.5㏈일 때, 다음의 리스트: 0, -3, -6, -1, -2, -4, -5, 1, 2, -0.5, -1.5, -2.5, -3.5, -4.5, -5.5, 0.5, 1.5를 생성한다.

실시예들에 따른 이퀄라이저 구성에 대한 엘리먼트들은 아래 표 6에 도시된 것과 같을 수 있다:

표 6 - EqualizerConfig의 엘리먼트들

다음에는, 다운믹스 행렬의 디코딩에서 시작하여, 실시예들에 따른 디코딩 프로세스의 양상들이 설명될 것이다.

신택스 엘리먼트 DownmixMatrix()는 다운믹스 행렬 정보를 포함한다. 디코딩은 처음에, 가능해진다면 신택스 엘리먼트 EqualizerConfig()로 표현된 이퀄라이저 정보를 판독한다. 다음에, precisionLevel, maxGain 및 minGain 필드들이 판독된다. 함수 ConvertToCompactConfig()를 사용하여 입력 및 출력 구성들이 콤팩트 구성들로 변환된다. 다음에, 각각의 출력 스피커 그룹에 대해 분리성 및 대칭성 특성들이 충족되는지 여부를 표시하는 플래그들이 판독된다.

다음에, a) 엔트리당 1 비트를 사용하여 원시로, 또는 b) 런 렝스들의 제한적 골롬-라이스 코딩을 사용하고, 다음에 flactCompactMatrix로부터의 디코딩된 비트들을 compactDownmixMatrix로 복제하고 compactTemplate 행렬을 적용하여, 중요도 행렬 compactDownmixMatrix가 판독된다.

마지막으로, 0이 아닌 이득들이 판독된다. compactDownmixMatrix의 각각의 0이 아닌 엔트리에 대해, 대응하는 입력 그룹의 pairType 필드 및 대응하는 출력 그룹의 pairType 필드에 따라, 최대 2×2 크기의 하위 행렬이 재구성되어야 한다. 분리성 및 대칭성 연관 특성들을 사용하여, 다수의 이득값들이 함수 DecodeGainValue()를 사용하여 판독된다. 함수 ReadRange()를 사용거나 가능한 모든 이득값들을 포함하는 gainTable 표 내의 이득이 인덱스들의 제한적 골롬-라이스 코딩을 사용함으로써 이득값이 균등하게 코딩될 수 있다.

이제, 이퀄라이저 구성의 디코딩 양상들이 설명될 것이다. 신택스 엘리먼트 EqualizerConfig()은 입력 채널들에 적용될 이퀄라이저 정보를 포함한다. 다수의 numEqualizers 이퀄라이저 필터들이 먼저 디코딩되고, 이후에 eqIndex[i]를 사용하는 특정 입력 채널들에 대해 선택된다. eqPrecisionLevel 및 eqExtendedRange 필드들은 스케일링 이득들의 그리고 피크 필터 이득들의 양자화 정확도 및 이용 가능한 범위를 나타낸다.

각각의 이퀄라이저 필터는 피크 필터들의 다수의 numSections 및 하나의 scalingGain으로 된 직렬 케스케이드이다. 각각의 피크 필터는 그 centerFreq, qualityFactor 및 centerGain으로 완전히 정의된다.

주어진 이퀄라이저 필터에 속하는 피크 필터들의 centerFreq 파라미터들은 감소하지 않는 순서로 주어져야 한다. 파라미터는 10 … 24000㎐까지로 제한되며, 이는 다음과 같이 계산된다:

피크 필터의 qualityFactor 파라미터는 0.05의 정확도로 0.05 내지 1.0까지의 그리고 0.1의 정확도로 1.1에서부터 11.3까지의 값들을 나타낼 수 있으며, 이는 다음과 같이 계산된다:

주어진 eqPrecisionLevel에 대응하는 ㏈ 단위의 정확도를 제공하는 벡터 eqPrecisions, 및 주어진 eqExtendedRange 및 eqPrecisionLevel에 대응하는 이득들에 대해 ㏈ 단위로 최소 값 및 최대 값을 제공하는 eqMinRanges 및 eqMaxRanges 행렬들이 유도된다.

eqPrecisions[4] = {1.0, 0.5, 0.25, 0.1};

eqMinRanges[2][4] = {{-8.0, -8.0, -8.0, -6.4}, {-16.0, -16.0, -16.0, -12.8}};

eqMaxRanges[2][4] = {{7.0, 7.5, 7.75, 6.3}, {15.0, 15.5, 15.75, 12.7}};

파라미터 scalingGain은 정확도 레벨 min(eqPrecisionLevel + 1,3)을 사용하는데, 이는 이미 마지막 정확도 레벨이 아니라면 다음으로 양호한 정확도 레벨이다. centerGainIndex 및 scalingGainIndex 필드들로부터 이득 파라미터들 centerGain 및 scalingGain으로의 맵핑들이 다음과 같이 계산된다:

일부 양상들은 장치와 관련하여 설명되었지만, 이러한 양상들은 또한 대응하는 방법의 설명을 나타내며, 여기서 블록 또는 디바이스는 방법 단계 또는 방법 단계의 특징에 대응한다는 점이 명백하다. 비슷하게, 방법 단계와 관련하여 설명한 양상들은 또한 대응하는 장치의 대응하는 블록 또는 항목 또는 특징의 설명을 나타낸다. 방법 단계들의 일부 또는 전부가 예를 들어, 마이크로프로세서, 프로그래밍 가능한 컴퓨터 또는 전자 회로와 같은 하드웨어 장치에 의해(또는 사용하여) 실행될 수도 있다. 일부 실시예들에서, 가장 중요한 방법 단계들 중 하나 또는 그보다 많은 단계가 이러한 장치에 의해 실행될 수도 있다.

특정 구현 요건들에 따라, 본 발명의 실시예들은 하드웨어로 또는 소프트웨어로 구현될 수 있다. 구현은 각각의 방법이 수행되도록 프로그래밍 가능 컴퓨터 시스템과 협력하는(또는 협력할 수 있는) 전자적으로 판독 가능 제어 신호들이 저장된 디지털 저장 매체, 예를 들어 플로피 디스크, 하드디스크, DVD, 블루레이, CD, ROM, PROM, EPROM, EEPROM 또는 플래시 메모리와 같은 비-일시적 저장 매체를 사용하여 수행될 수 있다. 따라서 디지털 저장 매체는 컴퓨터 판독 가능할 수도 있다.

일반적으로, 본 발명의 실시예들은 컴퓨터 프로그램 물건이 컴퓨터 상에서 실행될 때, 방법들 중 하나를 수행하기 위해 작동하는 프로그램 코드를 갖는 컴퓨터 프로그램 물건으로서 구현될 수 있다.

삭제

다른 실시예들은 기계 판독 가능 반송파 상에 저장된, 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다.

즉, 본 발명의 방법의 한 실시예는 이에 따라, 컴퓨터 상에서 컴퓨터 프로그램이 실행될 때 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.

따라서 본 발명의 방법의 추가 실시예는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함하여 그 위에 기록된 디지털 저장 매체, 또는 컴퓨터 판독 가능 매체이다. 디지털 저장 매체 또는 레코딩된 매체는 통상적으로 유형적이고 그리고/또는 비-일시적이다.

따라서 본 발명의 방법의 추가 실시예는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 나타내는 신호들의 데이터 스트림 또는 시퀀스이다.

추가 실시예는 처리 수단, 예를 들어 본 명세서에서 설명한 방법들 중 하나를 수행하도록 구성 또는 프로그래밍된 컴퓨터 또는 프로그래밍 가능 로직 디바이스를 포함한다.

추가 실시예는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.

본 발명에 따른 추가 실시예는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 수신기에 (예를 들어, 전자적으로 또는 광학적으로) 전송하도록 구성된 장치 또는 시스템을 포함한다. 수신기는 예를 들어, 컴퓨터, 모바일 디바이스, 메모리 디바이스 등일 수도 있다. 장치 또는 시스템은 예를 들어, 컴퓨터 프로그램을 수신기에 전송하기 위한 파일 서버를 포함할 수도 있다.

일부 실시예들에서, 프로그래밍 가능 로직 디바이스(예를 들어, 필드 프로그래밍 가능 게이트 어레이)는 본 명세서에서 설명한 방법들의 기능들 중 일부 또는 전부를 수행하는데 사용될 수 있다. 일부 실시예들에서, 필드 프로그래밍 가능 게이트 어레이는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위해 마이크로프로세서와 협력할 수 있다. 일반적으로, 방법들은 바람직하게 임의의 하드웨어 장치에 의해 수행된다.

앞서 설명한 실시예들은 단지 본 발명의 원리들에 대한 예시일 뿐이다. 본 명세서에서 설명한 어레인지먼트들 및 세부사항들의 수정들 및 변형들이 다른 당업자들에게 명백할 것이라고 이해된다. 따라서 이는 본 명세서의 실시예들의 묘사 및 설명에 의해 제시된 특정 세부사항들로가 아닌, 첨부된 특허청구범위로만 한정되는 것을 취지로 한다.

문헌

[1] Information technology - Coding of audio-visual objects - Part 3: Audio, AMENDMENT 4: New levels for AAC profiles, ISO/IEC 14496-3:2009/DAM 4, 2013.

[2] ITU-R BS.775-3, "Multichannel stereophonic sound system with and without accompanying picture," Rec., International Telecommunications Union, Geneva, Switzerland, 2012.

[3] K. Hamasaki, T. Nishiguchi, R. Okumura, Y. Nakayama and A. Ando, "A 22.2 Multichannel Sound System for Ultrahigh-definition TV (UHDTV)," SMPTE Motion Imaging J., pp. 40-49, 2008.

[4] ITU-R Report BS.2159-4, "Multichannel sound technology in home and broadcasting applications", 2012.

[5] Enhanced audio support and other improvements, ISO/IEC 14496-12:2012 PDAM 3, 2013.

[6] International Standard ISO/IEC 23003-3:2012, Information technology - MPEG audio technologies - Part 3: Unified Speech and Audio Coding, 2012.

[7] International Standard ISO/IEC 23001-8:2013, Information technology - MPEG systems technologies - Part 8: Coding-independent code points, 2013.

Claims

오디오 콘텐츠의 복수의 입력 채널들(300)을 복수의 출력 채널들(302)에 맵핑하기 위한 다운믹스 행렬(306)을 디코딩하기 위한 방법으로서,
상기 입력 및 출력 채널들(300, 302)은 청취자 위치에 대해 미리 결정된 위치들의 각각의 스피커들과 연관되고, 상기 다운믹스 행렬(306)은 상기 복수의 입력 채널들(300)의 스피커 쌍들(S₁-S₉)의 대칭성 및 상기 복수의 출력 채널들(302)의 스피커 쌍들(S₁₀-S₁₁)의 대칭성을 활용함으로써 인코딩되며, 상기 방법은,
인코더로부터 인코딩된 다운믹스 행렬(306)을 표현하는 인코딩된 정보를 수신하는 단계; 및
디코딩된 다운믹스 행렬(306)을 얻기 위해 상기 인코딩된 정보를 디코딩하는 단계를 포함하며,
상기 다운믹스 행렬(306)에서 입력 및 출력 채널들(300, 302)의 각각의 쌍들(S₁-S₁₁)은 주어진 입력 채널(300)이 주어진 출력 채널(302)에 기여하는 레벨을 적응시키기 위한 연관된 각각의 믹싱 이득들을 갖고,
상기 방법은,
상기 다운믹스 행렬(306)을 표현하는 정보로부터 인코딩된 중요도 값들을 디코딩하는 단계 ― 각각의 중요도 값들은 상기 입력 채널들(300)의 대칭 스피커 그룹들과 상기 출력 채널들(302)의 대칭 스피커 그룹들의 쌍들(S₁-S₁₁)에 할당되고, 상기 중요도 값은 상기 입력 채널들(300) 중 하나 또는 그보다 많은 입력 채널에 대한 믹싱 이득이 0인지 아닌지를 표시함 ―; 및
상기 다운믹스 행렬(306)을 표현하는 정보로부터 인코딩된 믹싱 이득들을 디코딩하는 단계를 더 포함하는,
다운믹스 행렬(306)을 디코딩하기 위한 방법.
제 1 항에 있어서,
상기 중요도 값들은 0인 믹싱 이득을 나타내는 제 1 값 및 0이 아닌 믹싱 이득을 나타내는 제 2 값을 포함하고,
상기 중요도 값들을 디코딩하는 단계는 상기 중요도 값들을 미리 정해진 순서로 연결하는 런 렝스 인코딩된 1차원 벡터를 디코딩하는 단계를 포함하는,
다운믹스 행렬(306)을 디코딩하기 위한 방법.
제 1 항에 있어서,
상기 중요도 값들을 디코딩하는 단계는 상기 입력 채널들(300)의 스피커 그룹들과 상기 출력 채널들(302)의 스피커 그룹들의 동일한 쌍들을 가지며 이들과 연관된 템플릿 중요도 값들을 갖는 템플릿을 기반으로 하는,
다운믹스 행렬(306)을 디코딩하기 위한 방법.
제 3 항에 있어서,
상기 중요도 값들과 상기 템플릿 중요도 값들을 논리 결합하며 중요도 값과 템플릿 중요도 값이 동일함을 제 1 값으로 그리고 중요도 값과 템플릿 중요도 값이 서로 다름을 제 2 값으로 나타내는 런 렝스 인코딩된 1차원 벡터를 디코딩하는 단계를 포함하는,
다운믹스 행렬(306)을 디코딩하기 위한 방법.
제 2 항에 있어서,
상기 런 렝스 인코딩된 1차원 벡터를 디코딩하는 단계는 런 렝스들을 포함하는 리스트를 상기 1차원 벡터로 변환하는 단계를 포함하며,
런 렝스는 상기 제 1 값으로 종결되는 연속한 제 1 값들의 수인,
다운믹스 행렬(306)을 디코딩하기 위한 방법.
제 2 항에 있어서,
런 렝스들은 골롬-라이스(Golomb-Rice) 코딩 또는 제한적 골롬-라이스 코딩을 사용하여 인코딩되는,
다운믹스 행렬(306)을 디코딩하기 위한 방법.
제 1 항에 있어서,
상기 다운믹스 행렬(306)을 디코딩하는 것은,
대칭성 특성 및 분리성 특성이 충족되는지 여부를 출력 채널들(302)의 각각의 그룹에 대한 다운믹스 행렬(306)에 표시하는 다운믹스 행렬 정보를 표현하는 정보로부터 디코딩하는 것을 포함하고,
상기 대칭성 특성은 출력 채널들(302)의 그룹이 단일 입력 채널(300)로부터 동일한 이득과 믹싱됨을 또는 출력 채널들(302)의 그룹이 입력 채널들(300)의 그룹으로부터 동일하게 믹싱됨을 표시하며, 상기 분리성 특성은 출력 채널들(302)의 그룹이 각각의 좌측 또는 우측에 모든 신호들을 유지하면서 입력 채널들(300)의 그룹으로부터 믹싱됨을 표시하는,
다운믹스 행렬(306)을 디코딩하기 위한 방법.
제 7 항에 있어서,
상기 대칭성 특성 및 상기 분리성 특성을 충족하는 출력 채널들(302)의 그룹들에 대해 단일 믹싱 이득이 제공되는,
다운믹스 행렬(306)을 디코딩하기 위한 방법.
제 1 항에 있어서,
상기 믹싱 이득들을 유지하는 리스트를 제공하는 단계 ― 각각의 믹싱 이득은 상기 리스트 내의 인덱스와 연관됨 ―;
상기 다운믹스 행렬(306)을 표현하는 정보로부터 상기 리스트 내의 인덱스들을 디코딩하는 단계; 및
상기 리스트 내의 디코딩된 인덱스들에 따라 상기 리스트로부터 상기 믹싱 이득들을 선택하는 단계를 포함하는,
다운믹스 행렬(306)을 디코딩하기 위한 방법.
제 9 항에 있어서,
상기 인덱스들은 골롬-라이스 코딩 또는 제한적 골롬-라이스 코딩을 사용하여 인코딩되는,
다운믹스 행렬(306)을 디코딩하기 위한 방법.
제 9 항에 있어서,
상기 리스트를 제공하는 단계는,
상기 다운믹스 행렬(306)을 표현하는 정보로부터 최소 이득값, 최대 이득값 및 원하는 정확도를 디코딩하는 단계; 및
상기 최소 이득값과 상기 최대 이득값 사이의 복수의 이득값들을 포함하는 리스트를 생성하는 단계를 포함하며,
상기 이득값들은 상기 원하는 정확도로 제공되고,
상기 이득값들이 일반적으로 더 빈번하게 사용될수록 상기 이득값들이 상기 리스트의 시작에 더 가까우며,
상기 리스트의 시작은 가장 작은 인덱스들을 갖는,
다운믹스 행렬(306)을 디코딩하기 위한 방법.
제 11 항에 있어서,
상기 이득값들의 리스트는 다음과 같이 생성되는데,
- 상기 최소 이득을 포함하여 상기 최소 이득부터 시작 이득값을 포함하여 상기 시작 이득값까지 감소하는 순서로 제 1 이득값의 정수배들을 더하고;
- 상기 시작 이득값을 포함하여 상기 시작 이득값부터 상기 최대 이득을 포함하여 상기 최대 이득까지 증가하는 순서로 상기 제 1 이득값의 나머지 정수배들을 더하고;
- 상기 최소 이득을 포함하여 상기 최소 이득부터 상기 시작 이득값을 포함하여 상기 시작 이득값까지 감소하는 순서로 제 1 정확도 레벨의 나머지 정수배들을 더하고;
- 상기 시작 이득값을 포함하여 상기 시작 이득값부터 상기 최대 이득을 포함하여 상기 최대 이득까지 증가하는 순서로 상기 제 1 정확도 레벨의 나머지 정수배들을 더하고;
- 정확도 레벨이 상기 제 1 정확도 레벨이라면 여기서 중단하고;
- 상기 최소 이득을 포함하여 상기 최소 이득부터 상기 시작 이득값을 포함하여 상기 시작 이득값까지 감소하는 순서로 제 2 정확도 레벨의 나머지 정수배들을 더하고;
- 상기 시작 이득값을 포함하여 상기 시작 이득값부터 상기 최대 이득을 포함하여 상기 최대 이득까지 증가하는 순서로 상기 제 2 정확도 레벨의 나머지 정수배들을 더하고;
- 정확도 레벨이 상기 제 2 정확도 레벨이라면 여기서 중단하고;
- 상기 최소 이득을 포함하여 상기 최소 이득부터 상기 시작 이득값을 포함하여 상기 시작 이득값까지 감소하는 순서로 제 3 정확도 레벨의 나머지 정수배들을 더하고;
- 상기 시작 이득값을 포함하여 상기 시작 이득값부터 상기 최대 이득을 포함하여 상기 최대 이득까지 증가하는 순서로 상기 제 3 정확도 레벨의 나머지 정수배들을 더하는,
다운믹스 행렬(306)을 디코딩하기 위한 방법.
제 12 항에 있어서,
상기 시작 이득값 = 0㏈이고, 상기 제 1 이득값 = 3㏈이고, 상기 제 1 정확도 레벨 = 1㏈이고, 상기 제 2 정확도 레벨 = 0.5㏈이고, 상기 제 3 정확도 레벨 = 0.25㏈인,
다운믹스 행렬(306)을 디코딩하기 위한 방법.
제 1 항에 있어서,
대칭 스피커 쌍들(S₁-S₉)과 연관된 상기 다운믹스 행렬(306) 내의 입력 채널들(300) 및 대칭 스피커 쌍들(S₁₀-S₁₁)과 연관된 상기 다운믹스 행렬(306) 내의 출력 채널들(302)이 공통 열들 또는 행들로 함께 그룹화되는 콤팩트 행렬을 디코딩하는 단계를 포함하며,
콤팩트 다운믹스 행렬(308)을 디코딩하는 단계는,
상기 인코딩된 중요도 값들 및 상기 인코딩된 믹싱 이득들을 수신하는 단계,
상기 중요도 값들을 디코딩하고, 디코딩된 콤팩트 다운믹스 행렬(308)을 생성하고, 상기 믹싱 이득들을 디코딩하는 단계,
디코딩된 믹싱 이득들을 이득이 0이 아님을 표시하는 대응하는 중요도 값들에 할당하는 단계, 및
상기 디코딩된 다운믹스 행렬(306)을 얻기 위해 함께 그룹화된 상기 입력 채널들(300)과 상기 출력 채널들(302)의 그룹화를 해제하는 단계를 포함하는,
다운믹스 행렬(306)을 디코딩하기 위한 방법.
오디오 콘텐츠의 복수의 입력 채널들(300)을 복수의 출력 채널들(302)에 맵핑하기 위한 다운믹스 행렬(306)을 인코딩하기 위한 방법으로서,
상기 입력 및 출력 채널들(300, 302)은 청취자 위치에 대해 미리 결정된 위치들의 각각의 스피커들과 연관되고,
상기 다운믹스 행렬(306)을 인코딩하는 것은 상기 복수의 입력 채널들(300)의 스피커 쌍들(S₁-S₉)의 대칭성 및 상기 복수의 출력 채널들(302)의 스피커 쌍들(S₁₀-S₁₁)의 대칭성을 활용하는 것을 포함하며,
상기 다운믹스 행렬(306)에서 입력 및 출력 채널들(300, 302)의 각각의 쌍들(S₁-S₁₁)은 주어진 입력 채널(300)이 주어진 출력 채널(302)에 기여하는 레벨을 적응시키기 위한 연관된 각각의 믹싱 이득들을 갖고,
각각의 중요도 값들은 상기 입력 채널들(300)의 대칭 스피커 그룹들과 상기 출력 채널들(302)의 대칭 스피커 그룹들의 쌍들(S₁-S₁₁)에 할당되며, 상기 중요도 값은 상기 입력 채널들(300) 중 하나 또는 그보다 많은 입력 채널에 대한 믹싱 이득이 0인지 아닌지를 표시하고,
상기 방법은,
상기 중요도 값들을 인코딩하는 단계, 및
상기 믹싱 이득들을 인코딩하는 단계를 더 포함하는,
다운믹스 행렬(306)을 인코딩하기 위한 방법.
제 15 항에 있어서,
상기 중요도 값들은 0인 믹싱 이득을 나타내는 제 1 값 및 0이 아닌 믹싱 이득을 나타내는 제 2 값을 포함하고,
상기 중요도 값들을 인코딩하는 단계는 상기 중요도 값들을 미리 정해진 순서로 연결함으로써 1차원 벡터를 형성하는 단계 및 런 렝스 방식을 사용하여 상기 1차원 벡터를 인코딩하는 단계를 포함하는,
다운믹스 행렬(306)을 인코딩하기 위한 방법.
제 15 항에 있어서,
상기 중요도 값들을 인코딩하는 단계는, 상기 입력 채널들(300)의 스피커 그룹들과 상기 출력 채널들(302)의 스피커 그룹들의 동일한 쌍들을 가지며 이들과 연관된 템플릿 중요도 값들을 갖는 템플릿을 기반으로 하는,
다운믹스 행렬(306)을 인코딩하기 위한 방법.
제 17 항에 있어서,
중요도 값과 템플릿 중요도 값이 동일함을 제 1 값으로 그리고 중요도 값과 템플릿 중요도 값이 서로 다름을 제 2 값으로 나타내는 1차원 벡터를 생성하기 위해 상기 중요도 값들과 상기 템플릿 중요도 값들을 논리 결합하는 단계, 및
상기 1차원 벡터를 런 렝스 방식으로 인코딩하는 단계를 포함하는,
다운믹스 행렬(306)을 인코딩하기 위한 방법.
제 16 항에 있어서,
상기 1차원 벡터를 인코딩하는 단계는 상기 1차원 벡터를 런 렝스들을 포함하는 리스트로 변환하는 단계를 포함하며,
런 렝스는 상기 제 1 값으로 종결되는 연속한 제 1 값들의 수인,
다운믹스 행렬(306)을 인코딩하기 위한 방법.
제 16 항에 있어서,
런 렝스들은 골롬-라이스 코딩 또는 제한적 골롬-라이스 코딩을 사용하여 인코딩되는,
다운믹스 행렬(306)을 인코딩하기 위한 방법.
제 15 항에 있어서,
상기 다운믹스 행렬(306)을 인코딩하는 것은 대칭 스피커 쌍들(S₁-S₉)과 연관된 상기 다운믹스 행렬(306) 내의 입력 채널들(300) 및 대칭 스피커 쌍들(S₁₀-S₁₁)과 연관된 상기 다운믹스 행렬(306) 내의 출력 채널들(302)을 공통 열들 또는 행들로 함께 그룹화함으로써 상기 다운믹스 행렬을 콤팩트 다운믹스 행렬(308)로 변환하는 것, 그리고 상기 콤팩트 다운믹스 행렬(308)을 인코딩하는 것을 포함하는,
다운믹스 행렬(306)을 인코딩하기 위한 방법.
제 1 항에 있어서,
라우드스피커의 미리 결정된 위치는 상기 청취자 위치에 대한 스피커 위치의 방위각 및 고도각에 따라 정의되고,
동일한 고도각을 갖고 동일한 절대값의, 그러나 서로 다른 부호들을 갖는 방위각을 갖는 스피커들에 의해 대칭 스피커 쌍(S₁-S₁₁)이 형성되는,
다운믹스 행렬(306)을 디코딩하기 위한 방법.
제 1 항에 있어서,
상기 입력 및 출력 채널들(302)은 하나 또는 그보다 많은 중앙 스피커들 및 하나 또는 그보다 많은 비대칭 스피커들과 연관된 채널들을 더 포함하며,
비대칭 스피커는 상기 입력/출력 채널들(302)로 정의된 구성에서 다른 대칭 스피커가 없는,
다운믹스 행렬(306)을 디코딩하기 위한 방법.
복수의 입력 채널들(300)을 갖는 오디오 콘텐츠를 상기 입력 채널들(300)과는 다른 복수의 출력 채널들(302)을 갖는 시스템에 제시하기 위한 방법으로서,
상기 입력 채널들(300)을 상기 출력 채널들(302)에 맵핑하기 위한 다운믹스 행렬(306) 및 상기 오디오 콘텐츠를 제공하는 단계,
상기 오디오 콘텐츠를 인코딩하는 단계;
제 15 항에 따라 상기 다운믹스 행렬(306)을 인코딩하는 단계;
인코딩된 오디오 콘텐츠 및 인코딩된 다운믹스 행렬(306)을 상기 시스템에 송신하는 단계;
상기 오디오 콘텐츠를 디코딩하는 단계;
제 1 항에 따라 다운믹스 행렬(306)을 디코딩하는 단계; 및
디코딩된 다운믹스 행렬(306)을 사용하여 상기 오디오 콘텐츠의 입력 채널들(300)을 상기 시스템의 출력 채널들(302)에 맵핑하는 단계를 포함하며,
상기 다운믹스 행렬(306)은 제 1 항 내지 제 23 항 중 한 항의 방법에 따라 인코딩/디코딩되는,
오디오 콘텐츠를 제시하기 위한 방법.
제 24 항에 있어서,
상기 다운믹스 행렬(306)은 사용자에 의해 특정되는,
오디오 콘텐츠를 제시하기 위한 방법.
제 24 항에 있어서,
상기 입력 채널들(300) 또는 상기 다운믹스 행렬의 엘리먼트들(304)에 연관된 이퀄라이저 파라미터들을 송신하는 단계를 더 포함하는,
오디오 콘텐츠를 제시하기 위한 방법.
제 1 항 내지 제 23 항 중 한 항의 방법을 실행하기 위한 명령들을 저장하는 비-일시적 컴퓨터 판독 가능 기록 매체.
오디오 콘텐츠의 복수의 입력 채널들(300)을 복수의 출력 채널들(302)에 맵핑하기 위한 다운믹스 행렬(306)을 인코딩하기 위한 인코더로서,
상기 입력 및 출력 채널들(302)은 청취자 위치에 대해 미리 결정된 위치들의 각각의 스피커들과 연관되고, 상기 인코더는,
제 15 항에 따라 상기 다운믹스 행렬(306)을 인코딩하도록 구성된 프로세서를 포함하는,
다운믹스 행렬(306)을 인코딩하기 위한 인코더.
오디오 콘텐츠의 복수의 입력 채널들(300)을 복수의 출력 채널들(302)에 맵핑하기 위한 다운믹스 행렬(306)을 디코딩하기 위한 디코더로서,
상기 입력 및 출력 채널들(302)은 청취자 위치에 대해 미리 결정된 위치들의 각각의 스피커들과 연관되고, 상기 다운믹스 행렬(306)은 상기 복수의 입력 채널들(300)의 스피커 쌍들(S₁-S₉)의 대칭성 및 상기 복수의 출력 채널들(302)의 스피커 쌍들(S₁₀-S₁₁)의 대칭성을 활용함으로써 인코딩되며, 상기 디코더는,
제 1 항에 따라 동작하도록 구성된 프로세서를 포함하는,
다운믹스 행렬(306)을 디코딩하기 위한 디코더.
오디오 신호를 인코딩하기 위한 오디오 인코더로서,
제 28 항의 인코더를 포함하는,
오디오 인코더.
인코딩된 오디오 신호를 디코딩하기 위한 오디오 디코더로서,
제 29 항의 디코더를 포함하는,
오디오 디코더.
제 31 항에 있어서,
디코딩된 다운믹스 행렬(306)을 수신하기 위해 상기 디코더에 연결되며 수신된 상기 디코딩된 다운믹스 행렬(306)에 따라 디코딩된 오디오 신호의 포맷을 변환하도록 동작하는 포맷 변환기를 포함하는,
오디오 디코더.
제 24 항의 방법을 실행하기 위한 명령들을 저장하는 비-일시적 컴퓨터 판독 가능 기록 매체.