KR20100131467A

KR20100131467A - 복수의 오디오 채널들을 캡쳐하고 렌더링하는 장치

Info

Publication number: KR20100131467A
Application number: KR1020107021728A
Authority: KR
Inventors: 파시 오잘라
Original assignee: 노키아 코포레이션
Priority date: 2008-03-03
Filing date: 2008-03-03
Publication date: 2010-12-15
Also published as: US20110002469A1; WO2009109217A1; CN101960865A; EP2250821A1

Abstract

복수의 오디오 소스들로부터 오디오 소스들의 부분집합을 선택하고 그리고
오디오 소스들의 상기 선택된 부분집합으로부터 장치로 신호들을 전송하는 것을 포함하는 방법으로서, 상기 오디오 소스들의 부분집합은 상기 장치에 의해 제공된 정보에 의존하여 선택되는 방법이 개시된다.

Description

복수의 오디오 채널들을 캡쳐하고 렌더링하는 장치{Apparatus for capturing and rendering a plurality of audio channels}

본 발명은 오디오 캡쳐 (capture) 및 오디오 렌더링 (rendering)에 관련되며, 그리고 더 상세하게는, 전적으로는 아니지만, 패킷 교환 네트워크를 통한 실-시간 멀티미디어 전송에 관련된다.

마이크로폰 어레이의 출력들에 가중치를 적절하게 부여하여 오디오 신호 출발 방향을 추정하고 특정 방향으로 집중시키기 위한 여러 가지 빔 형성 (beam forming) 방법들이 알려져 있다. 이런 방법들의 응용들은 잠수함 음역 감시부터 모바일 전화기들에서 능동적인 소음 제거까지의 범위에 존재한다.

빔 형성 기능은 센서들의 출력에서의 위상 차이들에 의존하기 때문에, 빔 형성 방법에서 사용되기 위해, 상기 마이크로폰 어레이는 특히 마이크로폰의 상대적인 위치들에 관련하여 주의 깊게 조립될 필요가 있다. 또한, 상기 위상 차이들을 이용할 수 있기 위해서, 상기 마이크로폰들의 거리는 수신되는 오디오 신호들의 파장에 의해 제한된다. 즉, 센서들 사이의 거리는 상기 파장의 반 보다 더 작아야만 한다.

전형적인 빔 형성 마이크로폰 어레이의 출력은 모노 신호이다. 각 개별 센서의 출력은 가중치가 부여되고 그리고 빔 형성의 목적들에 따라서 적절하게 지연된 후에 함께 더해진다. 출력은 단일 채널 오디오 그리고 상기 마이크로폰 어레이 설정들에 대응하는 출발의 방향으로 구성되기 때문에, 그래서, 상기 빔 형성 이후에 이용 가능한 어떤 다중 채널 오디오도 존재하지 않는다. 그러므로, 오디오 무대 장면 (scene)을 추가로 분석하고 탐구하는 것으로 구성된 어떤 후 처리 (post processing)도 수신 엔티티에서는 가능하지 않다.

현존하는 방향 선택식의 레코딩은, 근접 기반 (closely based) 마이크로폰들의 알려진 마이크로폰 어레이들의 출력에 적용된 빔 형성 기술들 또는 관심 대상의 오디오 무대 장면을 커버하는 마이크로폰 그리드로부터 선택된 대규모의 마이크로폰 어레이들을 이용하는 것 중의 어느 하나를 이용하여 수행되는 것이 일반적이다.

소스 (source) 트래킹 그리고 소스 선택은 빔 형성을 이용하여 수행될 수 있을 것이다. 예를 들면, 앰비소닉 (Ambisonic) 기술은, 예를 들면, 캡쳐된 오디오 상에서 방향 정보를 생성하기 위한 일치된 마이크로폰 세팅을 이용한 잘 정의된 마이크로폰 세팅을 필요로 한다.

센서 어레이 또는 매트릭스는, 예를 들면, 모바일 전화기들의 네트워크를 구비한 애드 혹 (ad hoc) 기반으로 형성될 수 있을 것이다. 그런 배열에서, 상기 센서 위치는 알려지지 않았으며, 그리고 이는 빔 형성 알고리즘들을 위해서는 어려움들의 원인이 될 수 있을 것이다. 그러나, 각 센서에 대한 위치 정보는 가능하다면 수신 단말에서의 추가 분석을 위해서 각 채널에 부착될 수 있을 것이다. 상기 마이크로폰 위치 정보는 다중 채널 오디오 표현을 생성하기 위해서 또한 필요할 수 있을 것이다. 다시 말하면, 다양한 확성 스피커 구성으로 오디오 콘텐트를 패닝 (panning)하는 것은 상기 사운드 소스의 의도된 위치에 대해서 알고 있을 것을 필요로 한다. 이는 상기 오디오 소스들 사이에서 상관 (correlation)이 존재할 때에는 특히 그렇다.

MPEG 표준은 오브젝트 (object) 기반의 오디오 코딩을 현재 시험하고 있다. 오브젝트 기반의 오디오 코딩의 의도는 전통적인 서라운드 사운드 오디오 코딩과 유사하다. 그러나, 상기 오브젝트 기반의 인코더는 개별 입력 신호들 (또는 오브젝트들)을 수신하며 그리고 하나 또는 그 이상의 다운 믹스 신호들에 사이트 정보의 스트림을 더한 것을 산출한다. 수신하는 측에서, 상기 디코더는, 원하는 개수의 출력 채널들과 스피커 셋업에 대한 출력을 생성하는 믹서/렌더링 단으로 전달되는 오브젝트 출력들의 세트를 산출한다. 이 믹서/렌더러 (mixer/renderer)의 파라미터들은 사용자 입력들에 의존하여 변할 수 있을 것이며 그래서 실-시간의 인터액티브 (interactive) 오디오 합성을 가능하게 할 수 있다.

오브젝트 기반의 오디오 디코딩에서 사용되는 오디오 오브젝트들은 사용자 선호도를 기반으로 하는 오디오 무대 장면에서의 위치들일 수 있을 것이다. 도 1은 기본적인 오브젝트 기반의 코더 구조를 제시한다. 도 1에서 도시된 구조에서, 멀티-채널/오브젝트 인코더 (2)는 복수의 입력 오디오 채널/오디오 신호들을 수신하고 그리고 그 신호들을 전송하기 위해 인코딩한다. 그 인코딩된 신호들은 멀티-채널/오브젝트 디코더 (4)에서 수신되며, 그 디코더에서 상기 수신된 신호를 원래의 입력 오디오 채널/오브젝트 신호들로 디코딩한다. 믹서/렌더러 (6)는 상기 디코딩된 오디오 채널들/오브젝트들을 상기 디코더 (4)로부터 수신하고 그리고 사용자 인터액션 신호 (8)를 또한 수신한다. 상기 믹서/렌더러는 상기 디코딩된 오디오 채널들/오브젝트들 그리고 상기 사용자 입력 (8)에 의존하여 몇몇의 출력 오디오 채널들/오브젝트들을 생성한다.

출력 오디오 채널들/오브젝트들의 개수는 입력 채널들/오브젝트들의 개수와 동일할 필요는 없다. 예를 들면, 상기 믹서/렌더러 (6)의 출력은 스테레오부터 N 채널 출력으로의 어떤 확성 스피커 출력 구성에 대해서도 의도될 수 있을 것이다. 또한, 상기 출력은 헤드폰 청취를 위해서 입체 음향 포맷으로 렌더링될 수 있을 것이다.

개인화 된 오디오 서비스 (Personalised Audio Service (PAS))로 불리는 오브젝트 기반의 오디오 코딩을 위한 관련된 개념은 오브젝트 기반의 오디오 프로세싱을 위해서 개시되었다. 종래의 멀티-채널 오디오 애플리케이션에서, 단일의 미리 예정된 오디오 무대 장면만이 사용자에게 제공된다. 그러므로, 오디오 표현을 제어하기 위한 어떤 유연성도 존재하지 않는다. 그러나, 상기 PAS 개념은 사용자 인터액션들 또는 제어 신호들을 적용함으로써 개인화 된 사운드 무대를 생성하기 위해 사용될 수 있는 개별적인 오디오 오브젝트들을 배송한다. 이는 사용자들이 자신들의 요구 사항들에 따라서 자신의 오디오 무대 장면을 제어하기 위해 큰 소리, 방향 및 거리와 같은 오디오 오브젝트들의 특성들을 제어할 수 있다는 것을 의미한다. PAS 시스템들의 주요 목표는 브로드캐스팅 서비스들이다. 상기 PAS 개념에 의해 고려되는 추가의 시나리오는 오디오 제어의 인터액티비티 (interactivity) 및 사용자 선호도를 제공하는 것이다.

도 2는 유연한 렌더링을 위해서 독립적인 오디오 오브젝트들을 구비한 PAS 개념을 제시한다. 도 1의 구조와의 유사성은 도 2에 도시된 것과 같은 상기 PAS 개념에서 명백하다. 오디오 무대 장면을 커버하는 복수의 오브젝트들 또는 복수의 오디오 채널들은 전송을 위해 인코더 (2)에서 인코딩된다. 상기 전송된 신호는 디코더 (4)에서 수신되어 구성물 오디오 채널들/오브젝터들로 디코딩된다. 그리고, 원하는 오디오 무대 장면이 상기 디코딩된 오디오 채널들/오브젝트들 그리고 상기 사용자 인터액션 (8)에 의존하여 렌더링된다.

사용자는 위치 및 명암도 등과 같은 3D 공간 정보를 제어할 수 있을 것이다. 추가로, 상기 사용자는 여러 가지의 이용 가능한 3D 무대 장면들 사이에서 선택할 수 있을 것이다.

그러나, 도 1 및 도 2의 각각의 구조들의 경우에, 재생될 오디오 무대 장면 내의 오디오 오브젝트들 각각에 관련된 정보를 송신할 것이 필요하다. 사용자 선호도에 따라서 최종 오디오 무대 장면을 렌더링하는데 있어서 오브젝트가 사용되지 않는다고 해도 그것은 사실이다. 또한, 개별 오브젝트들을 상기 오디오 무대 장면으로부터 격리시키는 것은 방향성 빔 형성 기술을 사용할 것을 필요로 하며, 그래서 원래의 오디오 무대 장면을 모니터하기 위해 사용되는 마이크로폰들의 위치에 대해 엄격하게 제한을 한다. 이는 도 1 및 도 2의 구조들에 마이크로폰들의 애드-혹 네트워크를 결합하여 사용하도록 하는 것이 불가능하다는 것을 또한 의미한다.

본 발명의 목적은 이런 문제점들에 중점을 두어 해결하거나 또는 적어도 완화시키려는 것이다.

본 발명의 첫 번째 모습에 따르면, 복수의 오디오 소스들로부터 오디오 소스들의 부분집합을 선택하고 그리고 오디오 소스들의 상기 선택된 부분집합으로부터 장치로 신호들을 전송하는 것을 포함하는 방법으로서, 상기 오디오 소스들의 부분집합은 상기 장치에 의해 제공된 정보에 의존하여 선택되는 방법이 제공된다.

일 실시예에 따르면, 상기 방법은 오디오 소스들의 상기 부분집합으로부터 상기 신호들을 전송하기 전에 인코딩하는 것을 더 포함할 수 있을 것이다. 상기 복수의 오디오 소스들은 마이크로폰 격자에 복수의 마이크로폰들을 포함할 수 있을 것이며, 또는 상기 복수의 오디오 소스들은 빔 형성 (beam forming)을 위해 적합한 마이크로폰 어레이를 포함할 수 있을 것이다. 상기 장치에 의해 제공된 상기 정보는 가상의 청취자 좌표들을 포함할 수 있을 것이며, 또는 오디오 소스 선택 정보를 포함할 수 있을 것이다. 상기 방법은, 상기 복수의 오디오 소스들에 관련된 구성 정보를 상기 장치로 제공하는 것을 더 포함할 수 있을 것이다. 상기 장치에 의해 제공된 상기 정보는 상기 복수의 오디오 소스들에 관련한 상기 구성 정보에 의존하여 생성될 수 있을 것이다. 상기 구성 정보는 상기 오디오 소스들에 관련된 상대적인 위치 정보를 포함할 수 있을 것이다. 상기 구성 정보는 상기 오디오 소스들에 관련된 방위 (orientation) 정보를 포함할 수 있을 것이다.

본 발명의 추가의 모습에 따르면, 복수의 오디오 소스들로부터의 오디오 소스들의 원하는 부분집합과 관련된 정보를 생성하고, 상기 정보를 장치로 공급하고 그리고 상기 장치에 의해 전송된 신호들을 수신하는 것을 포함하는 방법이 제공된다.

일 실시예에 따르면, 상기 개시된 방법은, 상기 오디오 소스들의 원하는 부분집합에 관련된 복수의 오디오 채널들을 합성하기 위해 상기 수신한 신호들을 디코딩하는 것을 더 포함할 수 있을 것이다. 상기 방법은, 원하는 오디오 무대 장면 (scene)을 제공하기 위해 상기 합성된 오디오 채널들을 렌더링하는 것을 더 포함할 수 있을 것이다. 오디오 소스들의 원하는 부분집합에 관련된 상기 정보는 가상의 청취자 좌표들을 포함할 수 있을 것이며 또는 오디오 소스 선택 정보를 포함할 수 있을 것이다. 상기 방법은, 상기 복수의 오디오 소스들의 구성에 관련된 구성 정보를 수신하는 것을 더 포함할 수 있을 것이다. 오디오 소스들의 원하는 부분집합에 관련된 상기 정보는 상기 구성 정보에 의존하여 생성될 수 있을 것이다. 상기 구성 정보는 상기 오디오 소스들에 관련된 상대적인 위치 정보를 포함한다. 상기 구성 정보는 상기 오디오 소스들에 관련된 방위 정보를 포함할 수 있을 것이다. 상기 합성된 오디오 채널들을 렌더링하는 것은 원하는 오디오 무대 장면을 제공하기 위해 상기 복수의 오디오 소스들에 관련된 상기 구성 정보에 의존하여, 상기 합성된 신호들을 렌더링하는 것을 더 포함할 수 있을 것이다.

본 발명의 추가의 모습에 따르면, 추가의 장치에 의해 제공된 정보에 의존하여 복수의 오디오 소스들의 부분집합을 선택하도록 구성된 오디오 소스 선택기 및 상기 오디오 소스들의 상기 부분집합으로부터의 신호들을 인코딩하도록 구성되고 그리고 상기 인코딩된 신호를 상기 추가의 장치로 전송하도록 구성된 인코더를 포함하는 장치가 제공된다.

본 발명의 일 실시예에 따르면, 상기 복수의 오디오 소스들은 마이크로폰 격자에 복수의 마이크로폰들을 포함할 수 있을 것이며, 또는 상기 복수의 오디오 소스들은 빔 형성을 위해 적합한 마이크로폰 어레이를 포함할 수 있을 것이다. 상기 추가의 장치에 의해 제공된 상기 정보는 가상의 청취자 좌표들을 포함할 수 있을 것이며 또는 그 정보는 오디오 소스 선택 정보를 포함할 수 있을 것이다. 상기 장치는, 상기 복수의 오디오 소스들에 관련된 구성 정보를 상기 추가의 장치로 제공하도록 구성된 공급 유닛을 더 포함할 수 있을 것이다. 상기 구성 정보는 상기 오디오 소스들에 관련된 상대적인 위치 정보를 포함할 수 있을 것이다. 상기 구성 정보는 상기 오디오 소스들에 관련된 방위 정보를 포함할 수 있을 것이다.

본 발명의 추가의 모습에 따르면, 원하는 오디오 무대 장면에 관련된 정보를 추가의 장치로 제공하도록 구성된 제어기 및 인코딩된 신호를 상기 추가의 장치로부터 수신하여 그 신호를 디코딩하도록 구성된 디코더를 포함하는 장치가 제공된다.

본 발명의 일 실시예에 따르면, 상기 장치는, 상기 디코더로부터 디코딩된 신호들을 수신하도록 구성된 렌더러를 더 포함할 수 있을 것이며, 그리고 상기 제어기는 상기 렌더러로 제어 신호를 제공하도록 또한 구성되며, 상기 렌더러는 원하는 오디오 무대 장면을 상기 디코딩된 신호 및 상기 제어 신호에 의존하여 생성하도록 또한 구성된다. 오디오 소스들의 원하는 부분집합에 관련된 상기 정보는 가상의 청취자 좌표들을 또는 오디오 소스 선택 정보를 포함할 수 있을 것이다. 상기 제어기는 상기 복수의 오디오 소스들의 구성에 관련된 구성 정보를 수신하도록 또한 구성될 수 있을 것이다. 상기 구성 정보는 상기 오디오 소스들에 관련된 상대적인 위치 정보를 포함할 수 있을 것이다. 상기 구성 정보는 상기 오디오 소스들에 관련된 방위 정보를 포함할 수 있을 것이다.

본 발명의 추가의 모습에 따르면, 원하는 오디오 무대 장면에 관련된 정보를 추가의 장치로 제공하는 수단 및 인코딩된 신호를 상기 추가의 장치로부터 수신하고, 그 신호를 디코딩하는 수단을 포함하는 장치가 제공된다.

본 발명의 추가의 모습에 따르면, 추가의 장치에 의해 제공된 정보에 의존하여 복수의 오디오 소스들의 부분집합을 선택하는 선택 수단 및 오디오 소스들의 상기 부분집합으로부터의 신호들을 인코딩하고 그리고 그 인코딩된 신호를 상기 추가의 장치로 전송하는 인코딩 수단을 포함하는 장치가 제공된다.

본 발명의 추가의 모습에 따르면, 컴퓨터 프로그램 코드 수단으로서, 상기 프로그램이 프로세서 상에서 동작할 때에 상기 개시된 방법의 단계들 중의 어떤 단계도 수행하도록 적응된 컴퓨터 프로그램 코드 수단이 제공된다.

본 발명의 추가의 모습에 따르면, 상기 개시된 장치를 포함하는 전자 기기 또는 칩셋이 제공된다.

원하는 오디오 프로세싱이 수신 단에서 멀티 채널 오디오에 적용되어, 오디오 콘텐트 상에서의 여러 뷰들을 생성하는 것이 가능하며, 다중 채널 및 서라운드 오디오 코딩은 선택된 오디오 콘텐트의 낮은 비트 레이트 전송을 가능하게 한다. 그리고, 종래 기술과 비교하면, 캡쳐 엔티티와 수신기 엔티티 사이에서 전송될 데이터의 양이 아주 줄어들도록 하는 효과를 제공한다.

본 발명의 실시예는 첨부된 도면들을 참조하여 예로서만 이제 설명될 것이다.
도 1은 종래 기술인 오브젝트 기반의 오디오 코딩 및 렌더링 시스템을 도시한다.
도 2는 개인화된 오디오 서비스 개념을 구체화하는 종래 기술인 시스템을 도시한다.
도 3은 본 발명의 엘리먼트들을 구현하기에 적합한 사용자 장비를 도시한다.
도 4는 본 발명의 일 실시예에 따른 청취자의 가상적인 경로와 같이 마이크로폰 격자를 도시한다.
도 5는 본 발명의 일 실시예에 따라 마이크로폰 격자에서 마이크로폰들을 선택하는 시스템을 도시한다.
도 6은 본 발명의 일 실시예에 따라 채널/오브젝터 선택을 위한 피드백 루프를 구비한 멀티 채널/오브젝트 기반의 오디오 코딩 시스템을 도시한다.
도 7은 본 발명의 일 실시예에 따른 방법을 도시한다.

본 발명의 실시예들은 특별한 예들로 그리고 바람직한 실시예들을 특히 참조하여 여기에서 설명된다. 본 발명이 속하는 기술 분야의 통상의 지식을 가진 자에게는 여기에서 주어진 특정 실시예들의 상세한 내용들로 본 발명이 한정되는 것은 아니라는 것이 이해될 것이다.

본 발명의 일 실시예에 따르면, 임의의 센서 구성으로부터의 멀티-채널 오디오 정보는 선택적인 멀티-채널 오디오 인코딩을 이용하여 전송될 수 있을 것이다. 마이크로폰 어레이 또는 격자에 의해 제공되는 복수의 입력 채널들의 부분집합은 상기 신호가 예를 들면 BCC 코딩, MPS로도 알려진 MPEG 공간 오디오 코더 (Spatial Audio Coder (SAC)), MPEG 공간 오브젝트-기반 오디오 코더 (Spatial Object-based Audio Coder (SAOC)) 또는 지향성 오디오 코딩 (Directional Audio Coding (DirAC))을 이용하여 인코딩된 이후에 선택될 수 있을 것이다. 본 발명의 일 실시예에 따르면, 두 채널들만이 선택될 수 있을 것이며, 그래서, 사용될 더 간단한 스테레오 코딩을 허용할 수 있을 것이다.

본 발명의 일 실시예에 따르면, 멀티-채널 콘텐트를 효율적으로 인코딩하기 위해, 상기 마이크로폰 어레이 내에 있는 마이크로폰들의 상대적인 위치들을 설명하는 정보를 제공하는 것이 필요할 수 있을 것이다. 또한, 상기 상대적인 위치들과 같은 상기 오디오 소스들에 관한 정보는 상기 오디오 콘텐트에 대한 표현들을 생성하는데 있어서 유용할 수 있을 것이다.

예를 들면, 5.1과 같은 임의의 확성 스피커 구성을 이용한 오디오 무대 장면 표현은 오디오 소스들을 상기 스피커 위치들로 패닝할 것을 필요로 할 수 있을 것이다. 상기 마이크로폰 위치들에 상대적인 청취자의 위치가 알려지면, 상기 소스들은 어떤 임의 확성 스피커 구성으로 패닝될 수 있을 것이다. 대안으로, 스테레오 표현의 헤드폰 청취가 지원될 수 있을 것이다.

본 발명의 일 실시예에 따르면, 마이크로폰 구성, 예를 들면 상대적인 위치와 방위 (orientation)에 관련된 정보는 상기 오디오 무대 장면 내에서의 청취자의 원하는 위치를 결정하고 제어하는데 있어서 사용될 수 있을 것이다. 예시의 일 실시예에서, 상기 마이크로폰 네트워크의 레이아웃은 시간에 따라서 변경될 수 있을 것이다. 그런 변경들을 허용하기 위해, 상기 구성 정보를 업데이트하는 것은 갭쳐 레이아웃의 동적인 속성이 관리될 것을 허용하기 위한 충분한 속도일 것이 요청될 수 있을 것이다.

본 발명의 일 실시예에 따르면, 상기 오디오 무대 장면 (audio scene)은 임의 구성으로 배열된 마이크로폰들의 격자 또는 어레이를 이용하여 캡쳐될 수 있을 것이다. 관심 대상인 포인트가 복수의 마이크로폰들로 커버될 수 있을 것이기 때문에, 상기 오디오 무대 장면은 빔 형성 기술들을 이용하거나 멀티 마이크로폰 레코딩 중의 어느 하나에 의해서 조사될 수 있을 것이다. 이전에 언급된 것과 같이, 빔 형성 기술들을 이용하는 것을 위해, 마이크로폰 어레이가 양호하게 정의될 것이 필요하며, 그리고 상기 마이크로폰들 사이에서의 거리에 관한 엄격한 요구 사항들이 존재한다. 하나의 예시의 실시예에 따르면, 상기 빔 형성에 관련된 프로세싱이 사용자 제어를 기반으로 하여 수신기에서 수행될 수 있을 것이며, 필요한 마이크로폰 데이터는 빔 형성 계산들에서 사용되기 위해서 상기 수신기로 공급된다.

본 발명의 일 실시예에 따른 코덱을 통합할 수 있을 예시의 전자 기기 (10)의 개략적인 블록도를 보여주는 도 3을 먼저 참조한다. 상기 전자 기기 (10)는 예를 들면 무선 통신 시스템의 모바일 단말 또는 사용자 장비일 수 있을 것이다.

상기 전자 기기 (10)는 마이크로폰 (11)을 포함할 수 있을 것이며, 이는 아날로그-디지털 컨버터 (14)를 경유하여 프로세서 (21)로 링크된다. 상기 프로세서 (21)는 디지터-아날로그 컨버터 (32)를 경유하여 확성 스피커 (33)로 또한 링크된다. 상기 프로세서 (21)는 트랜시버 (TX/RX) (13)로, 사용자 인터페이스 (15)로 그리고 메모리 (22)로 또한 링크된다.

상기 프로세서 (21)는 다양한 프로그램 코드들을 실행시키도록 설정될 수 있을 것이다. 구현된 프로그램 코드들은 오디오 디코딩 코드 그리고 믹서/렌더링 코드를 포함할 수 있을 것이다. 상기 구현된 프로그램 코드들 (23)은 필요할 때면 언제나 상기 프로세서 (21)가 인출할 수 있도록 예를 들면 상기 메모리 (22)에 저장될 수 있을 것이다. 상기 메모리 (22)는 데이터, 예를 들면, 본 발명에 따라서 인코딩된 데이터를 저장하기 위한 부분 (24)을 또한 제공할 수 있다. 상기 구현된 프로그램 코드들은 본 발명의 실시예들에서 하드웨어 또는 펌웨어로 구현될 수 있을 것이다.

사용자 인터페이스 (15)는 사용자가, 예를 들면, 키패드를 통해서 상기 전자 기기 (10)에 명령들을 입력하고 그리고/또는 그 전자 기기 (10)로부터, 예를 들면, 디스플레이를 경유해서 정보를 얻는 것을 가능하게 한다. 상기 트랜시버 (13)는, 예를 들면, 무선 통신 네트워크를 통해서 다른 전자 기기들과의 통신을 가능하게 한다.

상기 전자 기기 (10)의 구조는 보충될 수 있으며 그리고 다양한 방식들로 변경될 수 있다는 것을 다시 한번 더 이해하여야 한다.

도 4는 본 발명의 일 실시예에 따라서 사용될 수 있을 것과 같은, 관심 대상의 영역 주변에 위치한 마이크로폰 (9)의 결정론적인 격자를 도시한다. 마이크로폰 격자에 의해 커버되는 영역은, 예를 들면, 그 공간 주변으로 가상 청취자 위치 (12)를 이동시킴으로써 조사될 수 있을 것이다. 원하는 청취자 위치에 상대적인 마이크로폰들의 위치들과 같은 상기 마이크로폰 구성들에 관련된 정보를 이용하여 적절한 마이크로폰들을 선택함으로써, 상기 마이크로폰 어레이에 의해 커버되는 상기 영역 내에서 상기 가상 청취자의 위치를 정하는 것이 가능하다.

도 5는 본 발명의 일 실시예에 따른 마이크로폰 선택 과정을 도시한다. 멀티뷰 제어기 (16) 또는 간단하게 제어기가 수신기 엔티티에 제공된다. 마이크로폰 구성 저장부 (18)에 의해, 마이크로폰 구성에 관련된 정보 (19)가 상기 멀티뷰 제어기 (16)로 제공된다. 상기 멀티뷰 제어기는 원하는 가상 청취자 위치 (12)와 상기 마이크로폰 구성 (9)에 관련된 방위 정보를 결정하기 위해, 그리고 오디오 무대 장면의 동적인 렌더링의 경우에는 상기 가상 청취자 위치 (12)의 이동들을 또한 결정하기 위해 상기 마이크로폰 구성 정보 (19)를 이용할 수 있을 것이다. 상기 멀티뷰 제어기 (16)는 상기 가상 청취자 위치 정보 (20)를 상기 오디오 캡쳐 엔티티 내의 마이크로폰 선택기 (14)에게 제공한다.

상기 청취자 위치는 상기 마이크로폰 격자/그리드 구성 및 위치 정보를 이용하여 결정될 수 있을 것이다. 상기 구성 및 위치 정보는 단 한번만 전송될 필요가 있을 수 있다. 자연스럽게, 동적인 구성을 위해서, 상기 정보가 변경될 때마다 업데이트를 할 필요가 있다.

그래서, 상기 원하는 오디오 무대 장면을 생성하기 위해서 상기 필요한 오디오 정보를 제공하도록, 상기 멀티뷰 제어기 (16)에 의해 제공된 상기 가상 청취자의 좌표들 (20)을 기반으로 하고 그리고 상기 마이크로폰 구성 정보를 또한 기반으로 하여 상기 마이크로폰 격자 (10) 중의 마이크로폰들의 부분집합이 선택될 수 있을 것이다. 상기 마이크로폰 선택기 (14)는, 그것이 아래에서 보여지는 것과 같이 이 예에서 마이크로폰 소스들로서 제시되는 복수의 오디오 소스들의 부분집합을 선택하도록 구성되는 것이 보통일 것이기 때문에 오디오 소스 선택기로서 간주될 수 있을 것이다.

사용자는 마이크로폰 구성을 알 필요가 없다. 위치, 이동 및 방위를 제어하는 것은 (선험적으로) 알려진 또는 감지된 오디오 무대 장면만을 기반으로 하여 실행될 수 있을 것이다. 대안으로, 사용자는 알려진 오디오 무대 장면 또는 관심 대상의 위치를 기반으로 하여 절대적인 위치, 방위 또는 이동 궤도를 선택하기를 원할 수 있을 것이다. 이런 경우에, 사용자는 공간과 이용 가능한 멀티뷰 레이아웃을 알고 있을 필요가 있을 수 있다. 상기 사용자는 상기 멀티뷰 제어기 (16)로 그와 같은 원하는 위치 등을 제공할 수 있을 것이며, 그러면 상기 멀티뷰 제어기는 그 원하는 오디오 무대 장면을 렌더링하는 것을 허용하기 위해서 필요한 제어 신호 및 구성 신호를 제공할 수 있을 것이다.

더군다나, 본 발명의 일 실시예에 따르면, 모니터될 마이크로폰들의 개수는 수신기 엔티티에 의해 제공된 정보를 기반으로 하여 캡쳐 엔티티에서 국지적으로 제어되거나 또는 끝 단 (far end)으로부터 제어될 수 있을 것이다. 캡쳐된 오디오 무대 장면의 "너비 (wideness)"를 선택하는 것은 오디오 특성들 또는 오디오 콘텐트를 기반으로 할 수 있을 것이다. 예를 들면, 주위의 소음을 복수의 마이크로폰들로 캡쳐하는 것이 바람직할 수 있을 것이다. 추가로, 여러 개의 마이크로폰들은 빔 형성 기능을 나중에 가능하게 하기 위해, 수신한 멀티 채널 콘텐트를 기반으로 하여 수신 엔티티에서 활용될 수 있을 것이다. 또한, 관심 대상의 영역 내에 여러 개의 상이한 오디오 소스들이 존재하면 여러 개의 마이크로폰들, 즉, 여러 개의 입력 채널들을 활용하는 것이 이득이 될 수 있을 것이다.

도 6은 본 발명의 일 실시예에 따른 멀티뷰 오디오 캡쳐, 코딩, 전송, 렌더링 및 제어 구조를 제시한다. 마이크로폰 격자 (9)로부터의 마이크로폰들 (오디오 소스들)의 부분집합은, 도 5를 참조하여 상기에서 설명된 것과 같이, 상기 수신기 엔티티에서 상기 멀티뷰 제어기 (16)에 의해 제공된 채널/오브젝트 선택 신호를 기반으로 하여 마이크로폰 선택 엔티티 (14)에 의해 선택된다. 마이크로폰들의 상기 선택된 부분집합으로부터 캡쳐된 오디오는 그러면 인코더 (2)로 제공된다. 상기 캡쳐된 오디오 신호들은, 전송을 위해서 상기 신호를 압축하기 위해 어떤 멀티 채널 오디오 코딩 방식을 사용하여 상기 인코더 (2)에 의해 인코딩될 수 있을 것이다. 예를 들면, MPEG 서라운드, SAOC, DirAC 또는 심지어는 종래의 스테레오 코덱 (단지 두 개의 채널들만이 선택된 경우임)이 적용될 수 있을 것이다. 하나 또는 그 이상의 이산 입력 채널들이 모노 코덱 또는 복수의 모노, 스테레오 및 멀티 채널 코덱들을 이용하여 또한 인코딩될 수 있을 것이다.

대응 디코더 (4)는, 렌더링 목적으로 사용될 멀티 채널 콘텐트를 상기 전송된 신호로부터 합성한다.

상기 디코더에 의해 제공되는 디코딩된 멀티 채널 콘텐트는 상기 믹서/렌더러 (6)로 인가된다. 상기 믹서/렌더러는 상기 멀티뷰 제어 (16)에 의해 제공된 인터액션/제어 신호 및 상기 디코딩된 오디오 채널들을 기반으로 하여 원하는 오디오 무대 장면을 렌더링할 수 있을 것이다. 상기 오디오 믹서/렌더러 (6)의 출력은 홈 시어터에서 사용되는 것과 같은 전통적인 5.1 구성과 같은 멀티채널 확성 스피커 레이아웃의 어느 하나일 수 있을 것이며, 대안으로, 상기 오디오 무대 장면은 콘텐트가 스테레오 또는 두 귀용 포맷으로 렌더링되는 콘텐트인 경우에 헤드폰들을 사용하여 제시될 수 있다. 출력 채널들의 개수는 하나의 입력 채널만이 추적되거나 또는 빔 형성이 믹서/렌더러 (6)에서 동작을 선 (post) 처리하는 것처럼 수행되면 또한 하나로 제한될 수 있을 것이다.

상기 디코더 (4) 이후의 렌더러 (6)는 청취자가 상기 마이크로폰 위치들에 상대적인 원하는 위치에 위치되도록 하는 방식으로 상기 소스의 패닝을 수행하거나 그리고/또는 (마이크로폰 위치들에 대한 요구 사항들이 충족되면) 빔 형성을 수행할 수 있을 것이다.

도 7은 본 발명의 일 실시예에 따른 방법을 도시한다. 상기 방법은 S1에서 오디오 소스들 (예를 들면, 마이크로폰들)에 관련된 정보를 공급하는 단계를 포함하며, S2에서 이 오디오 소스들은 수신기 엔티티에서 수신된다. 그러면, 이 정보는 오디오 무대 장면이 모니터되고 있는 범위 내에서 가상의 청취자의 원하는 위치와 방위를 설명하는 가상 청취자 좌표들을 생성하기 위해 S3에서 상기 수신기 엔티티에서 사용될 수 있을 것이다. 다른 실시예들에서, 상기 가상의 청취자 좌표들은 이용 가능한 오디오 소스들의 집합으로부터의 오디오 소스들의 원하는 부분집합에 관련하여 생성된 정보의 일부 다른 형상에 의해 대체될 수 있을 것이다. 상기 가상의 청취자 좌표들, 또는 생성된 정보는 그러면 S4에서 캡쳐 엔티티로 공급된다. 상기 가상의 청취자 좌표들 (또는 생성된 정보) 그리고 상기 오디오 소스 구성에 관련된 정보는 상기 수신기로 공급될 이용 가능한 오디오 채널들의 부분집합을 선택하기 위해 S5에서 사용될 수 있을 것이다. S6에서, 상기 오디오 채널들의 상기 선택된 부분집합은 상기 수신기로 전송되기 위해서 인코딩된다. 그 전송된 인코딩된 신호들은 수신기 엔티티에서 수신되어 S7에서 디코딩되며, 그 디코딩된 신호들은 원하는 오디오 무대 장면을 렌더링하기 위해 또는 합성하기 위해 상기 수신기에서 사용될 수 있을 것이다.

디코딩되고 렌더링된 오디오 무대 장면을 기반으로, 상기 사용자는 S4에서 상기 가상 청취자의 위치와 방위를 변경함으로써 상기 시스템과 인터액트할 수 있을 것이며 그리고 S5 단계에서 결국 마이크로폰 격자에서 오디오 채널들을 선택하는 것에 영향을 미칠 수 있을 것이다. 또한, 상기 시스템은, 예를 들면 빔 형성을 위한 더 나은 마이크로폰 구성을 선택하기 위해, 인출한 오디오 장면을 기반으로 하여 위치와 방위를 자동적으로 조절할 수 있을 것이다.

본 발명의 실시예들은 다음과 같은 이점들 중의 하나 또는 그 이상을 제공할 수 있을 것이다:

- 빔 형성과 같은 어떤 원하는 오디오 프로세싱이 수신 단에서 멀티 채널 오디오에 적용될 수 있을 것이다. 그래서 오디오 콘텐트 상에서의 여러 뷰들을 생성하는 것이 가능하다.

- 상기 다중 채널 및 서라운드 오디오 코딩은 상기 선택된 오디오 콘텐트의 낮은 비트 레이트 전송을 가능하게 한다. 또한, 상기 전송 내에 포함될 채널들의 개수는 사용자 요구 사항들을 기반으로 하여 또는 오디오 상태들 및 관심 대상에 존재하는 콘텐트을 기반으로 하여 선택될 수 있을 것이다.

특히, 종래 기술인 PAS (Personalized Audio Service) 개념과 비교하면, 본 발명의 일부 실시예들은 상기 캡쳐 엔티티와 수신기 엔티티 사이에서 전송될 데이터의 양이 아주 줄어들도록 하며, 이는 상기 원하는 오디오 장면을 렌더링하기 위해 상기 수신기에 의해 요청되는 그런 신호들을 전송할 필요만이 있을 뿐이기 때문이다.

상기 설명된 실시예들은, 오디오 무대 장면이 수신기 엔티티에서 재생성되도록 하는, 원격지-존재 (tele-presence) 서비스 및 내가-보는-것을-보게 하는 (see-what-I- see) 서비스에 적용될 수 있을 것이다. 본 발명의 실시예들은 음성 및 오디오 코딩, 미디어 적응, 패킷 교환 네트워크를 통한 실시간 멀티미디어 전송 (예를 들면, IP를 통한 음성 (VoIP))에 관련될 수 있을 것이다.

본 발명의 일부 실시예들에 따르면, 상기 수신기 엔티티는 모바일 네트워크 내의 사용자 장비를 포함할 수 있을 것이다. 또한, 상기 마이크로폰 격자는 관심 대상의 영역을 덮는 어떤 알려진 유형의 오디오 소스들의 임의 격자를 포함할 수 있을 것이다. 상기 마이크로폰 격자에 대한 상대적인 위치 정보는 미리-구성될 수있을 것이며, 또는, 예를 들면, GPS를 이용하여 실시간으로 생성될 수 있을 것이다.

상기 사용자 장비라는 용어는 모바일 전화기들, 휴대용 데이터 프로세싱 기기들 또는 휴대용 웹 브라우저들과 같은 어떤 적합한 유형의 무선 사용자 장비를 포함하려는 의도라는 것이 이해될 것이다.

일반적으로, 본 발명의 다양한 실시예들은 하드웨어 또는 특수 목적 회로, 소프트웨어, 로직 또는 그것들의 어떤 결합으로 구현될 수 있을 것이다. 예를 들면, 일부 모습은 하드웨어로 구현될 수 있을 것이며, 다른 모습들은 제어기, 마이크로프로세서 또는 다른 컴퓨팅 기기에 의해 실행될 수 있을 펌웨어나 소프트웨어로 구현될 수 있을 것이지만, 본 발명은 그런 것들로 제한되는 것은 아니다. 본 발명의 다양한 모습들이 블록도, 흐름도 또는 어떤 다른 도면의 표현으로서 설명되고 예시되었지만, 이런 여기에서 설명된 블록들, 장치들, 시스템들, 기술 또는 방법은, 비-한정 예들로서, 하드웨어, 소프트웨어, 펌웨어, 특수 목적 회로나 로직, 범융 하드웨어 또는 제어기 또는 다른 컴퓨팅 기기 또는 그런 것들의 일부 결합으로 구현될 수 있을 것이다.

예를 들면, 본 발명의 실시예들은 칩셋, 즉, 서로 간에 서로 통신하는 일련의 집적 회로들로서 구현될 수 있을 것이다. 상기 칩셋은 코드를 실행하도록 배치된 마이크로프로세서, ASIC (application specific integrated circuit), 또는 상기에서 설명된 동작들을 수행하기 위한 프로그램 가능한 디지털 신호 프로세서를 포함할 수 있을 것이다.

본 발명의 실시예들은 프로세서 엔티티에서와 같은 모바일 기기의 데이터 프로세서에 의해 실행 가능항 컴퓨터 소프트웨어에 의해 또는 하드웨어에 의해 또는 소프트웨어와 하드웨어의 결합에 의해 구현될 수 있을 것이다. 또한, 이런 면에서, 도면들에서의 로직 흐름의 어떤 블록들은 프로그램 단계들 또는 상호 접속된 로직 회로들, 블록들 및 기능들, 또는 프로그램 단계들과 로직 회로, 블록들 및 기능들의 결합을 나타낼 수 있을 것이라는 것에 유의해야만 한다.

본 발명의 실시예들은 집적 회로 모듈들과 같은 다양한 컴포넌트들에서 수행될 수 있을 것이다. 집적 회로들의 설계는 대체로 고도로 자동화된 프로세스이다. 로직 레벨 설계를 반도체 기판 상에서 에칭되어 형성될 준비가 된 반도체 회로 설계로 변환하기 위해 복잡하고 강력한 소프트웨어 도구들이 이용 가능하다.

캘리포니아 마운틴 뷰 (Mountain View)의 Synopsys, Inc. 그리고 캘피포니아 산 호세의 Cadence Design에 의해 제공되는 프로그램들과 같은 프로그램들은 미리-저장된 설계 모듈들의 라이브러리만이 아니라 잘 설립된 설계 규칙들을 이용하여 자동적으로 반도체 칩 상에 도선들을 라우팅하고 부품들을 위치시킨다. 일단 반도체 회로를 위한 설계가 완료되면, 표준화된 전자 포맷 (예를 들면, Opus, GDSII 또는 유사한 것)의 결과 설계는 조립을 위해 반도체 조립 설비 또는 "fab"으로 전송될 수 있을 것이다.

전술할 설명은 본 발명의 예시적인 실시예에 대한 완전하면서 정보를 주는 설명을 예시 및 한정하지 않는 예들로서 제공하였다. 그러나, 다양한 수정들 및 적응들은, 동반된 도면들 및 첨부된 청구범위와 결합하여 전술한 설명을 참조한 본 발명이 속한 기술분야의 통상의 지식을 가진 자들에게는 자명하게 될 수 있을 것이다. 그러나, 본 발명의 교시들의 그와 같은 유사한 수정들은 첨부된 청구범위에서 정의된 것과 같은 본 발명의 범위 내에 여전히 속할 것이다.

Claims

복수의 오디오 소스들로부터 오디오 소스들의 부분집합을 선택하고; 그리고
오디오 소스들의 상기 선택된 부분집합으로부터 장치로 신호들을 전송하는 것을 포함하는 방법으로서,
상기 오디오 소스들의 부분집합은 상기 장치에 의해 제공된 정보에 의존하여 선택되는, 방법.
제1항에 있어서, 상기 방법은,
오디오 소스들의 상기 부분집합으로부터 상기 신호들을 전송하기 전에 인코딩하는 것을 더 포함하는, 방법.
제1항 또는 제2항에 있어서,
상기 복수의 오디오 소스들은 마이크로폰 격자에 복수의 마이크로폰들을 포함하는, 방법.
제1항 내지 제3항 중의 어느 한 항에 있어서,
상기 복수의 오디오 소스들은 빔 형성 (beam forming)을 위해 적합한 마이크로폰 어레이를 포함하는, 방법.
제1항 내지 제4항 중의 어느 한 항에 있어서,
상기 장치에 의해 제공된 상기 정보는 가상의 청취자 좌표들을 포함하는, 방법.
제1항 내지 제4항 중의 어느 한 항에 있어서,
상기 장치에 의해 제공된 상기 정보는 오디오 소스 선택 정보를 포함하는, 방법.
제1항 내지 제6항 중의 어느 한 항에 있어서, 상기 방법은,
상기 복수의 오디오 소스들에 관련된 구성 정보를 상기 장치로 제공하는 것을 더 포함하는, 방법.
제7항에 있어서,
상기 장치에 의해 제공된 상기 정보는 상기 복수의 오디오 소스들에 관련한 상기 구성 정보에 의존하여 생성되는, 방법.
제7항 또는 제8항에 있어서,
상기 구성 정보는 상기 오디오 소스들에 관련된 상대적인 위치 정보를 포함하는, 방법.
제7항 내지 제9항 중의 어느 한 항에 있어서,
상기 구성 정보는 상기 오디오 소스들에 관련된 방위 (orientation) 정보를 포함하는, 방법.
복수의 오디오 소스들로부터의 오디오 소스들의 원하는 부분집합과 관련된 정보를 생성하고;
상기 정보를 장치로 공급하고; 그리고
상기 장치에 의해 전송된 신호들을 수신하는 것을 포함하는 방법.
제11항에 있어서, 상기 방법은,
상기 오디오 소스들의 원하는 부분집합에 관련된 복수의 오디오 채널들을 합성하기 위해 상기 수신한 신호들을 디코딩하는 것을 더 포함하는, 방법.
제12항에 있어서, 상기 방법은,
원하는 오디오 무대 장면 (scene)을 제공하기 위해 상기 합성된 오디오 채널들을 렌더링하는 것을 더 포함하는, 방법.
제11항 또는 제12항에 있어서,
오디오 소스들의 원하는 부분집합에 관련된 상기 정보는 가상의 청취자 좌표들을 포함하는, 방법.
제11항 내지 제13항 중의 어느 한 항에 있어서,
오디오 소스들의 원하는 부분집합에 관련된 상기 정보는 오디오 소스 선택 정보를 포함하는, 방법.
제11항 내지 제15항 중의 어느 한 항에 있어서, 상기 방법은,
상기 복수의 오디오 소스들의 구성에 관련된 구성 정보를 수신하는 것을 더 포함하는, 방법.
제16항에 있어서,
오디오 소스들의 원하는 부분집합에 관련된 상기 정보는 상기 구성 정보에 의존하여 생성되는, 방법.
제16항 또는 제17항에 있어서,
상기 구성 정보는 상기 오디오 소스들에 관련된 상대적인 위치 정보를 포함하는, 방법.
제16항 내지 제18항 중의 어느 한 항에 있어서,
상기 구성 정보는 상기 오디오 소스들에 관련된 방위 정보를 포함하는, 방법.
제13항에 따른 제16항에 있어서,
상기 합성된 오디오 채널들을 렌더링하는 것은 원하는 오디오 무대 장면을 제공하기 위해 상기 복수의 오디오 소스들에 관련된 상기 구성 정보에 의존하여, 상기 합성된 신호들을 렌더링하는 것을 더 포함하는, 방법.
추가의 장치에 의해 제공된 정보에 의존하여 복수의 오디오 소스들의 부분집합을 선택하도록 구성된 오디오 소스 선택기; 및
상기 오디오 소스들의 상기 부분집합으로부터의 신호들을 인코딩하도록 구성되고 그리고 상기 인코딩된 신호를 상기 추가의 장치로 전송하도록 구성된 인코더;를 포함하는, 장치.
제21항에 있어서,
상기 복수의 오디오 소스들은 마이크로폰 격자에 복수의 마이크로폰들을 포함하는, 장치.
제21항에 있어서,
상기 복수의 오디오 소스들은 빔 형성을 위해 적합한 마이크로폰 어레이를 포함하는, 장치.
제21항 내지 제23항 중의 어느 한 항에 있어서,
상기 추가의 장치에 의해 제공된 상기 정보는 가상의 청취자 좌표들을 포함하는, 장치.
제21항 내지 제23항 중의 어느 한 항에 있어서,
상기 장치에 의해 제공된 상기 정보는 오디오 소스 선택 정보를 포함하는, 장치.
제21항 내지 제25항 중의 어느 한 항에 있어서, 상기 장치는,
상기 복수의 오디오 소스들에 관련된 구성 정보를 상기 추가의 장치로 제공하도록 구성된 공급 유닛을 더 포함하는, 장치.
제26항에 있어서,
상기 구성 정보는 상기 오디오 소스들에 관련된 상대적인 위치 정보를 포함하는, 장치.
제26항 또는 제27항에 있어서,
상기 구성 정보는 상기 오디오 소스들에 관련된 방위 정보를 포함하는, 장치.
원하는 오디오 무대 장면에 관련된 정보를 추가의 장치로 제공하도록 구성된 제어기; 및
인코딩된 신호를 상기 추가의 장치로부터 수신하여 그 신호를 디코딩하도록 구성된 디코더;를 포함하는, 장치.
제29항에 있어서, 상기 장치는,
상기 디코더로부터 디코딩된 신호들을 수신하도록 구성된 렌더러;를 더 포함하며,
그리고 상기 제어기는 상기 렌더러로 제어 신호를 제공하도록 또한 구성되며;
상기 렌더러는 원하는 오디오 무대 장면을 상기 디코딩된 신호 및 상기 제어 신호에 의존하여 생성하도록 또한 구성된, 장치.
제29항 또는 제30항에 있어서,
오디오 소스들의 원하는 부분집합에 관련된 상기 정보는 가상의 청취자 좌표들을 포함하는, 장치.
제29항 또는 제30항에 있어서,
오디오 소스들의 원하는 부분집합에 관련된 상기 정보는 오디오 소스 선택 정보를 포함하는, 장치.
제29항 내지 제32항 중의 어느 한 항에 있어서,
상기 제어기는 상기 복수의 오디오 소스들의 구성에 관련된 구성 정보를 수신하도록 또한 구성된, 장치.
제33항에 있어서,
상기 구성 정보는 상기 오디오 소스들에 관련된 상대적인 위치 정보를 포함하는, 장치.
제33항 또는 제34항에 있어서,
상기 구성 정보는 상기 오디오 소스들에 관련된 방위 정보를 포함하는, 장치.
원하는 오디오 무대 장면에 관련된 정보를 추가의 장치로 제공하는 수단; 및
인코딩된 신호를 상기 추가의 장치로부터 수신하고, 그 신호를 디코딩하는 수단을 포함하는, 장치.
추가의 장치에 의해 제공된 정보에 의존하여 복수의 오디오 소스들의 부분집합을 선택하는 선택 수단; 및
오디오 소스들의 상기 부분집합으로부터의 신호들을 인코딩하고 그리고 그 인코딩된 신호를 상기 추가의 장치로 전송하는 인코딩 수단을 포함하는 장치.
컴퓨터 프로그램 코드 수단으로서,
상기 프로그램이 프로세서 상에서 동작할 때에 제1항 내지 제20항의 단계들 중의 어떤 단계도 수행하도록 적응된 컴퓨터 프로그램 코드 수단.
제21항 내지 제37항 중의 어느 한 항의 장치를 포함하는 전자 기기.
제21항 내지 제37항 중의 어느 한 항의 장치를 포함하는 칩셋.