KR102483042B1

KR102483042B1 - 근거리/원거리 렌더링을 사용한 거리 패닝

Info

Publication number: KR102483042B1
Application number: KR1020197001372A
Authority: KR
Inventors: 에드워드 스테인; 마틴 월쉬; 구앙지 시; 데이비드 코셀로
Original assignee: 디티에스, 인코포레이티드
Priority date: 2016-06-17
Filing date: 2017-06-16
Publication date: 2022-12-29
Also published as: TWI744341B; US20190215638A1; JP2019523913A; US10200806B2; WO2017218973A1; US20170366912A1; CN109891502A; US10231073B2; US20170366913A1; US10820134B2; EP3472832A4; TW201810249A; KR20190028706A; EP3472832A1; CN109891502B; US20170366914A1; US9973874B2; JP7039494B2

Abstract

여기에 기술된 방법 및 장치는 디코딩 프로세스가 헤드 트래킹을 용이하게 하는 "사운드 장면"으로서 풀 3D 오디오 믹스(예를 들어, 방위각, 고도 및 깊이)를 최적으로 표현한다. 청취자의 방향(예를 들어, 요, 피치, 롤) 및 3D 위치(예를 들어, x, y, z)에 대해 사운드 장면 렌더링이 수정될 수 있다. 이것은 사운드 장면 소스 위치를 청취자와 관련된 위치로 제한하는 대신 3D 위치로서 처리하는 능력을 제공한다. 본 명세서에서 논의된 시스템 및 방법은 DTS HD와 같은 기존의 오디오 코덱을 통한 전송과의 호환성을 제공하면서도 7.1 채널 믹스보다 실질적으로 더 많은 정보(예를 들어, 깊이, 높이)를 전달하기 위하여, 임의의 수의 오디오 채널에서 이러한 장면을 완전히 나타낼 수 있다.

Description

근거리장/원거리장 렌더링을 사용한 거리 패닝

관련 출원 및 우선권 주장

이 출원은 2016년 6월 17일자로 출원된 "근거리장 및 원거리장 렌더링을 이용한 거리 패닝을 위한 시스템 및 방법(Systems and Methods for Distance Panning using Near and Far Field Rendering)"이라는 명칭의 미국 가출원 번호 제62/351,585호와 관련되어 있으며, 이에 대한 우선권을 주장하고, 그 전체 내용이 본 명세서에 참조로 포함된다.

기술 분야

이 특허 문헌에 기재된 기술은 사운드 재생 시스템에서 공간 오디오(spatial audio)를 합성하는 것에 관한 방법 및 장치에 관한 것이다.

공간 오디오 재생은 수십 년 동안 오디오 엔지니어 및 가전 산업의 관심을 끌어 왔다. 공간 사운드 재생을 위해서는 애플리케이션의 콘텍스트(예를 들어, 콘서트 성능, 영화관, 가정용 하이파이 설치, 컴퓨터 디스플레이, 개별 헤드-마운티드 디스플레이)에 따라 구성되어야 하는 2 채널 또는 다중 채널 전자 음향 시스템(예를 들어, 라우드 스피커, 헤드폰)을 필요로 하고, 이는 참조로 본 명세서에 포함되는 Jot, Jean-Marc, "음악, 멀티미디어 및 인터랙티브 휴먼-컴퓨터 인터페이스를 위한 사운드의 실시간 공간 처리(Real-time Spatial Processing for Sounds for Music, Multimedia and Interactive Human-Computer Interfaces)", IRCAM, 1 Place Igor-Stravinsky 1997(이하, "Jot, 1997")에 더 기재되어 있다.

영화 및 홈 비디오 엔터테인먼트 산업을 위한 오디오 레코딩 및 재생 기술의 개발은 다양한 다중 채널 "서라운드 사운드" 레코딩 포맷(가장 주목할 만한 것은 5.1 포맷 및 7.1 포맷)의 표준화를 가져왔다. 다양한 오디오 레코딩 포맷이 레코딩에서 3차원 오디오 큐(cue)를 인코딩하기 위해 개발되었다. 이러한 3-D 오디오 포맷은 앰비소닉스(Ambisonics) 및 NHK 22.2 포맷과 같이 높은(elevated) 라우드 스피커 채널을 포함하는 개별 다중 채널 오디오 포맷을 포함한다.

다운믹스(downmix)는 캘리포니아 주 칼라바사스 소재 DTS 사의 DTS-ES 및 DTS-HD와 같은 다양한 다중 채널 디지털 오디오 포맷의 사운드 트랙 데이터 스트림에 포함된다. 이 다운믹스는 역 호환 가능하며(backward-compatible), 레거시 디코더로 디코딩하여 기존 플레이백 장비에서 재생할 수 있다. 이 다운믹스는 레거시 디코더에 의해 무시되지만 비(non)-레거시 디코더에 의해 사용될 수 있는 추가적인 오디오 채널을 전달하는 데이터 스트림 확장(extension)을 포함한다. 예를 들어, DTS-HD 디코더는 이러한 추가 채널을 복구하고, 역 호환 다운믹스에서 해당 기여도를 빼고, 이들을 높은 라우드 스피커 위치를 포함할 수 있는 역 호환 포맷과 상이한 타겟 공간 오디오 포맷으로 렌더링할 수 있다. DTS-HD에서, 역 호환 믹스 및 타겟 공간 오디오 포맷에서의 추가 채널의 기여는 믹싱 계수들의 세트(예를 들어, 각 라우드 스피커 채널에 대해 하나)에 의해 기술된다. 사운드 트랙이 의도하는 타겟 공간 오디오 포맷은 인코딩 단계에서 지정된다.

이 접근법은 레거시 서라운드 사운드 디코더와 호환 가능한 데이터 스트림의 형태 및 인코딩/제작(production) 단계 동안 또한 선택된 하나 이상의 대안적인 타겟 공간 오디오 포맷의 다중 채널 오디오 사운드 트랙의 인코딩을 허용한다. 이들 대안적인 타겟 포맷은 3 차원 오디오 큐의 개선된 재생에 적합한 포맷을 포함할 수 있다. 그러나, 이 방식의 하나의 한계는 또다른 타겟 공간 오디오 포맷에 대한 동일한 사운드 트랙을 인코딩하는 것이 새로운 포맷에 대해 믹싱된 새로운 버전의 사운드 트랙을 레코딩하고 인코딩하기 위하여 제작 설비로 복귀하는 것을 요구한다는 것이다.

객체 기반 오디오 장면 코딩은 타겟 공간 오디오 포맷과는 독립적인 사운드 트랙 인코딩을 위한 일반적인 솔루션을 제공한다. 객체 기반 오디오 장면 코딩 시스템의 예는 MPEG-4 AABIFS(Advanced Audio Binary Format for Scenes)이다. 이러한 접근법에서, 소스 신호들 각각은 렌더 큐 데이터 스트림과 함께 개별적으로 전송된다. 이 데이터 스트림은 공간 오디오 장면 렌더링 시스템의 파라미터의 시변(time-varying) 값을 전달한다. 이 파라미터들의 세트는 포맷에 독립적인 오디오 장면 기술(description)의 형태로 제공될 수 있어, 사운드 트랙은 이 포맷에 따라 렌더링 시스템을 설계함으로써 임의의 타겟 공간 오디오 포맷으로 렌더링될 수 있다. 각 소스 신호는 관련된 렌더링 큐와 함께 "오디오 객체"를 정의한다. 이 접근법은 렌더러가 재생 마지막에 선택된 임의의 타겟 공간 오디오 포맷으로 각 오디오 객체를 렌더링하는데 이용 가능한 가장 정확한 공간 오디오 합성 기술을 구현할 수 있게 한다. 객체 기반 오디오 장면 코딩 시스템은 또한 리믹싱, 음악 재해석(예를 들어, 가라오케) 또는 장면에서의 가상 네비게이션(예를 들어, 비디오 게임)을 포함하는, 디코딩 단계에서 렌더링된 오디오 장면의 인터랙티브 수정을 가능하게 한다.

저비트율(low-bit-rate) 송신 또는 다중 채널 오디오 신호의 저장에 대한 필요성은 BCC(Binaural Cue Coding) 및 MPEG-서라운드를 포함하는 새로운 주파수-도메인 SAC(Spatial Audio Coding) 기술의 개발을 촉발시켰다. 예시적인 SAC 기술에서, M-채널 오디오 신호는 시간-주파수 도메인에서 원래의 M-채널 신호에 존재하는 채널 간 관계(채널 간 상관 관계 및 레벨 차이)를 설명하는 공간 큐 데이터 스트림을 동반하는 다운믹스 오디오 신호의 형태로 인코딩된다. 다운믹스 신호는 M 개 미만의 오디오 채널을 포함하고, 공간 큐 데이터 속도는 오디오 신호 데이터 속도에 비해 작기 때문에, 이 코딩 방식은 데이터 속도를 상당히 감소시킨다. 또한, 다운믹스 포맷은 레거시 장비와의 역 호환성을 용이하게 하도록 선택될 수 있다.

미국 특허 출원 제2007/0269063호에 설명된 SASC(Spatial Audio Scene Coding)이라 불리는 이 방법의 변형 예에서, 디코더에 전송된 시간-주파수 공간 큐 데이터는 포맷에 독립적이다. 이것은 인코딩된 사운드 트랙 데이터 스트림에서 역 호환 다운믹스 신호를 전달하는 능력을 유지하면서, 임의의 타겟 공간 오디오 포맷에서 공간 재생을 가능하게 한다. 그러나, 이 방식에서는 인코딩된 사운드 트랙 데이터는 분리 가능한 오디오 객체를 정의하지 않는다. 대부분의 레코딩에서, 사운드 장면의 상이한 위치들에 있는 다중 음원은 시간-주파수 도메인에서 동시에 존재한다. 이 경우에, 공간 오디오 디코더는 다운믹스 오디오 신호에서 그들의 기여를 분리할 수 없다. 결과적으로, 오디오 재생의 공간 충실도는 공간 위치 파악(spatial localization) 에러에 의해 손상될 수 있다.

MPEG SAOC(Spatial Audio Object Coding)은 인코딩된 사운드 트랙 데이터 스트림이 시간-주파수 큐 데이터 스트림과 함께 역 호환 다운믹스 오디오 신호를 포함한다는 점에서 MPEG-서라운드와 유사하다. SAOC는 모노 또는 2-채널 다운믹스 오디오 신호로 M 개의 오디오 객체를 전송하도록 설계된 다중 객체 코딩 기술이다. SAOC 다운믹스 신호와 함께 전송된 SAOC 큐 데이터 스트림은 모노 또는 2-채널 다운믹스 신호의 각 채널에서 각각의 객체 입력 신호에 적용되는 믹싱 계수를 각 주파수 부대역에서 기술하는 시간-주파수 객체 믹스 큐를 포함한다. 또한, SAOC 큐 데이터 스트림은 오디오 객체가 디코더 측에서 개별적으로 후처리(post-process)되도록 하는 주파수 도메인 객체 분리 큐를 포함한다. SAOC 디코더에서 제공되는 객체 후처리 기능은 객체 기반 공간 오디오 장면 렌더링 시스템의 기능을 모방하고 다중 타겟 공간 오디오 포맷을 지원한다.

SAOC는 객체 기반 및 포맷에 독립적인 3차원 오디오 장면 기술과 함께 다중 오디오 객체 신호의 저비트율 전송 및 계산상 효율적인 공간 오디오 렌더링을 위한 방법을 제공한다. 그러나, SAOC 인코딩된 스트림의 레거시 호환성은 SAOC 오디오 다운믹스 신호의 2-채널 스테레오 재생으로 제한되므로, 기존의 다중 채널 서라운드 사운드 코딩 포맷을 확장하는 데 적합하지 않다. 또한, SAOC 디코더에서 오디오 객체 신호에 적용된 렌더링 동작이 인위적인 잔향과 같은 특정 유형의 후처리 효과를 포함하는 경우, SAOC 다운믹스 신호가 렌더링된 오디오 장면을 지각적으로 나타내지는 않는다는 점에 유의해야 한다(이러한 효과들은 렌더링 장면에서 들을 수 있을 것이지만, 처리되지 않은 객체 신호를 포함하는 다운믹스 신호에는 동시에 통합되지 않기 때문이다).

또한, SAOC는 SAC 및 SASC 기술과 동일한 제약을 겪는다: SAOC 디코더는 시간-주파수 도메인에서 동시에 존재하는 오디오 객체 신호를 다운믹스 신호에서 완전히 분리할 수 없다. 예를 들어, SAOC 디코더에 의한 객체의 광범위한 증폭 또는 감쇠는 전형적으로 렌더링된 장면의 오디오 품질의 용인할 수 없는 감소를 가져온다.

공간 인코딩된 사운드 트랙은 2 가지 보완적인 접근법, 즉 (a) 기존의 사운드 장면을 일치하거나 밀접하게 간격을 둔 마이크로폰 시스템(본질적으로 장면 내의 청취자의 가상 위치 또는 그 부근에 배치됨)으로 레코딩하는 것, 또는 (b) 가상 사운드 장면을 합성하는 것에 의해 생성될 수 있다.

전통적인 3D 바이노럴 오디오 레코딩을 사용하는 제1 접근법은 거의 틀림없이 '더미 헤드(dummy head)' 마이크로폰의 사용을 통해 가능한 한 '당신이 거기에 있다(you are there)' 경험에 가깝게 생성한다. 이 경우 사운드 장면은 일반적으로 귀에 마이크로폰이 배치된 음향 마네킹을 사용하여 라이브로 캡처된다. 레코딩된 오디오가 헤드폰을 통해 귀에 리플레이되는 바이노럴 재생은 원래의 공간 인식을 재현(recreate)하는 데 사용된다. 전통적인 더미 헤드 레코딩의 한계 중 하나는 라이브 이벤트를 캡처만 할 수 있으며 더미의 관점과 헤드 배향에서만 캡처할 수 있다는 것이다.

제2 접근법에서, 더미 헤드(또는 프로브 마이크로폰이 외이도 내에 삽입된 인간의 헤드) 주변의 HRTF(head related transfer function)의 선택을 샘플링하고 이들 측정치를 보간하여 그 사이의 임의의 위치에 대해 측정된 HRTF를 근사화함으로써 바이노럴 청취를 에뮬레이션하기 위한 디지털 신호 처리(digital signal processing, DSP) 기술이 개발되었다. 가장 일반적인 기법은 측정된 모든 동측 및 반대측 HRTF를 최소 위상으로 변환하고, HRTF 페어(pair)를 도출하기 위해 이들 사이에서 선형 보간을 수행하는 것이다. 적절한 ITD(interaural time delay)과 결합된 HRTF 페어는 원하는 합성 위치에 대한 HRTF를 나타낸다. 이러한 보간은 일반적으로 시간 도메인에서 수행되고, 이는 일반적으로 시간-도메인 필터들의 선형 조합을 포함한다. 또한, 보간은 주파수 도메인 분석(예를 들어, 하나 이상의 주파수 부대역들에 대해 수행된 분석)을 포함할 수 있으며, 주파수 도메인 분석 출력들 사이에서의 선형 보간이 뒤따른다. 시간 도메인 분석은 계산상 더 효율적인 결과를 제공하는 반면, 주파수 도메인 분석은 보다 정확한 결과를 제공할 수 있다. 일부 실시 예들에서, 보간은 시간-주파수 분석과 같은 시간 도메인 분석 및 주파수 도메인 분석의 조합을 포함할 수 있다. 거리 큐는 에뮬레이션된 거리와 관련하여 소스의 이득을 줄임으로써 시뮬레이션될 수 있다.

이러한 접근법은 두 귀의 HRTF 차이가 거리에 따라 무시할 만한 변화를 갖는 원거리장에서 음원을 에뮬레이션하는데 사용되었다. 그러나, 소스가 헤드에 더 가까워짐에 따라(예를 들어, "근거리장"), 헤드의 크기는 음원의 거리에 비해 중요해진다. 이 전이의 위치는 주파수에 따라 다르지만, 관례에 따르면 소스는 약 1 미터를 밖에 있다고 한다(예를 들어, "원거리장"). 음원이 청취자의 근거리장 내로 더 들어감에 따라, 특히 더 낮은 주파수에서 두 귀의 HRTF 변화가 중요해진다.

일부 HRTF 기반 렌더링 엔진은 원거리장 HRTF 측정치의 데이터베이스를 사용하고, 이는 모두 청취자로부터 일정한 방사상 거리에서 측정된 것을 포함한다. 결과적으로, 원거리장 HRTF 데이터베이스 내의 원래의 측정치보다 훨씬 더 가까운 음원에 대해 변화하는 주파수-종속적인 HRTF 큐를 정확하게 에뮬레이션하는 것은 어렵다.

많은 현대의 3D 오디오 공간화 제품은, 근거리장 HRTF를 모델링하는 복잡성이 전통적으로 너무 비싸고 근거리장 음향 이벤트가 전형적인 인터랙티브 오디오 시뮬레이션에서 매우 흔하지는 않았기 때문에, 근거리장를 무시하기로 선택한다. 그러나 가상 현실(virtual reality, VR) 및 증강 현실(augmented reality, AR) 애플리케이션의 출현으로 인해, 가상 객체가 사용자의 헤드에 더 가깝게 존재하는 여러 애플리케이션이 만들어졌다. 그러한 객체 및 이벤트에 대한 보다 정확한 오디오 시뮬레이션이 필요하게 되었다.

이전에 공지된 HRTF 기반 3D 오디오 합성 모델은 청취자 주위의 고정된 거리에서 측정되는 단일 세트의 HRTF 페어(즉, 동측 및 반대측)을 사용한다. 이러한 측정은 일반적으로 거리가 멀어질수록 HRTF가 크게 변하지 않는 원거리장에서 발생한다. 결과적으로, 더 멀리 떨어진 음원은 원거리장 HRTF 필터의 적절한 페어를 통해 소스를 필터링하고, 거리에 따른 에너지 손실을 에뮬레이션하는 주파수에 독립적인 이득에 따라 결과 신호를 스케일링함으로써(예를 들어, 역제곱 법칙(invert-square law)), 에뮬레이션될 수 있다.

그러나, 사운드가 헤드에 더 가까워짐에 따라, 동일한 입사각에서, HRTF 주파수 응답은 각각의 귀에 비해 크게 변할 수 있고, 더 이상 원거리장 측정으로 효과적으로 에뮬레이션될 수 없다. 객체가 헤드에 더 가까워짐에 따라 객체의 사운드를 에뮬레이션하는 이러한 시나리오는 더 면밀한 검사와 객체들 및 아바타들과의 상호 작용이 더욱 보편화될 가상 현실과 같은 더 새로운 애플리케이션의 경우 특히 흥미로울 것이다.

헤드 트랙킹 및 6 자유도의 상호 작용을 가능하게 하기 위해 풀(full) 3D 객체(예를 들어, 오디오 및 메타 데이터 위치)의 전송이 사용되었지만, 이러한 접근법은 소스 별 다중 오디오 버퍼를 필요로 하며, 더 많은 소스가 사용될수록 복잡성이 크게 증가한다. 이러한 접근법은 동적 소스 관리가 필요할 수도 있다. 그러한 방법은 기존 오디오 포맷에 쉽게 통합될 수 없다. 다중 채널 믹스는 또한 고정된 수의 채널에 대한 고정 오버헤드를 가지고 있지만, 충분한 공간 해상도를 설정하려면 일반적으로 높은 채널 카운트를 필요로 한다. 매트릭스 인코딩 또는 앰비소닉스와 같은 기존의 장면 인코딩은 더 낮은 채널 카운트를 갖지만, 청취자로부터 오디오 신호의 원하는 깊이 또는 거리를 나타내는 메커니즘을 포함하지 않는다.

도 1a-1c는 예시적인 오디오 소스 위치에 대한 근거리장 및 원거리장 렌더링의 개략도이다.
도 2a-2c는 거리 큐를 갖는 바이노럴 오디오를 생성하기 위한 알고리즘 흐름도이다.
도 3a는 HRTF 큐를 추정하는 방법을 도시한다.
도 3b는 HRIR(head-related impulse response) 보간 방법을 나타낸다.
도 3c는 HRIR 보간의 방법이다.
도 4는 2 개의 동시 음원에 대한 제1 개략도이다.
도 5는 2 개의 동시 음원에 대한 제2 개략도이다.
도 6은 방위각, 고도 및 반경(θ, φ, r)의 함수인 3D 음원에 대한 개략도이다.
도 7은 3D 음원에 근거리장 및 원거리장 렌더링을 적용하기 위한 제1 개략도이다.
도 8은 3D 음원에 근거리장 및 원거리장 렌더링을 적용하기 위한 제2 개략도이다.
도 9는 HRIR 보간의 제1 시간 지연 필터 방법을 도시한다.
도 10은 HRIR 보간의 제2 시간 지연 필터 방법을 도시한다.
도 11은 HRIR 보간의 단순화된 제2 시간 지연 필터 방법을 도시한다.
도 12는 단순화된 근거리장 렌더링 구조를 도시한다.
도 13은 단순화된 2 소스 근거리장 렌더링 구조를 도시한다.
도 14는 헤드 트래킹을 갖는 액티브 디코더의 기능 블록도이다.
도 15는 깊이 및 헤드 트래킹을 갖는 액티브 디코더의 기능 블록도이다.
도 16은 단일 스티어링 채널 'D'를 갖는 깊이 및 헤드 트래킹을 갖는 대안적인 액티브 디코더의 기능 블록도이다.
도 17은 메타 데이터 깊이만 있는 깊이 및 헤드 트래킹을 갖는 액티브 디코더의 기능 블록도이다.
도 18은 가상 현실 애플리케이션에 대한 예시적인 최적 전송 시나리오를 도시한다.
도 19는 액티브 3D 오디오 디코딩 및 렌더링을 위한 일반화된 아키텍처를 도시한다.
도 20은 3 개의 깊이에 대한 깊이-기반 서브 믹싱의 예를 도시한다.
도 21은 오디오 렌더링 장치의 일부의 기능 블록도이다.
도 22는 오디오 렌더링 장치의 일부의 개략적인 블록도이다.
도 23은 근거리장 및 원거리장 오디오 소스 위치의 개략도이다.
도 24는 오디오 렌더링 장치의 일부의 기능 블록도이다.

여기에 기술된 방법 및 장치는 디코딩 프로세스가 헤드 트래킹을 용이하게 하는 "사운드 장면"으로서 풀 3D 오디오 믹스(예를 들어, 방위각, 고도 및 깊이)를 최적으로 표현한다. 청취자의 배향(예를 들어, 요, 피치, 롤) 및 3D 위치(예를 들어, x, y, z)에 대해 사운드 장면 렌더링이 수정될 수 있다. 이렇게 하면 사운드 장면 소스 위치를 청취자에 대한 위치로 제한되는 대신 3D 위치로서 처리할 수 있는 능력이 제공된다. 여기에 논의된 시스템 및 방법은 DTS HD와 같은 기존 오디오 코덱을 통한 전송과의 호환성을 제공하면서도 7.1 채널 믹스보다 실질적으로 더 많은 정보(예를 들어, 깊이, 높이)를 전달할 수 있도록 임의의 수의 오디오 채널에서 이러한 장면을 완벽하게 나타낼 수 있다. 이 방법은 헤드 트래킹 특징이 특히 VR 애플리케이션에 도움이 될 DTS Headphone:X를 통해 또는 임의의 채널 레이아웃으로 쉽게 디코딩될 수 있다. 이 방법은 DTS Headphone:X에 의해 가능해지는 VR 모니터링과 같은 VR 모니터링을 갖춘 콘텐츠 제작 툴에 실시간으로 사용될 수도 있다. 디코더의 풀 3D 헤드 트래킹은 또한 레거시 2D 믹스(예를 들어, 방위각 및 고도만)를 수신할 때 역 호환 가능하다.

일반적인 정의들

첨부된 도면과 관련하여 이하에 설명되는 상세한 설명은 본 발명 내용(the present subject matter)의 현재 선호되는 실시 예의 설명으로서 의도되며, 본 발명 내용이 구성되거나 사용될 수 있는 유일한 형태를 나타내려는 의도는 아니다. 설명은 예시된 실시 예와 관련하여 본 발명 내용을 개발하고 동작시키기 위한 기능 및 단계들의 시퀀스를 설명한다. 동일하거나 균등한 기능 및 시퀀스는 본 발명 내용의 범위 내에 포함되는 것으로 또한 의도되는 상이한 실시 예들에 의해 달성될 수 있음을 이해해야 한다. 또한 관계형 용어(예를 들어, 제1, 제2)의 사용은 그러한 엔티티들 간의 임의의 실제적인 그러한 관계 또는 순서를 반드시 요구하거나 암시하지 않고 다른 엔티티와 구별하기 위해서만 사용되는 것으로 이해되어야 한다.

본 발명 내용은 오디오 신호들(즉, 물리적 사운드를 나타내는 신호들)을 처리하는 것과 관련된다. 이러한 오디오 신호들은 디지털 전자 신호로 표현된다. 다음 논의에서는, 개념을 설명하기 위해 아날로그 파형을 도시하거나 논의할 수 있다. 그러나, 본 발명 내용의 전형적인 실시 예는 디지털 바이트 또는 워드의 시계열의 콘텍스트에서 동작하며, 이들 바이트 또는 워드는 아날로그 신호 또는 궁극적으로 물리적 사운드의 이산 근사를 형성한다는 것을 이해해야 한다. 이산 디지털 신호는 주기적으로 샘플링된 오디오 파형의 디지털 표현에 대응한다. 균일한 샘플링의 경우, 관심 주파수에 대한 나이퀴스트(Nyquist) 샘플링 정리를 충족시키기에 충분한 속도로 또는 그보다 높은 속도로 파형이 샘플링된다. 전형적인 실시 예에서, 약 44,100 샘플/초(예를 들어, 44.1 kHz)의 균일한 샘플링 속도가 사용될 수 있지만, 더 높은 샘플링 속도(예를 들어, 96 kHz, 128 kHz)가 대안적으로 사용될 수 있다. 양자화 방식 및 비트 해상도는 표준 디지털 신호 처리 기술에 따라 특정 애플리케이션의 요구 사항을 충족시키도록 선택되어야 한다. 본 발명 내용의 기술 및 장치는 전형적으로 다수의 채널에서 상호 종속적으로 적용될 것이다. 예를 들어, 그것은 (예를 들어, 2 개보다 많은 채널을 갖는) "서라운드" 오디오 시스템의 콘텍스트에서 사용될 수 있다.

여기에서 사용되는 "디지털 오디오 신호" 또는 "오디오 신호"는 단지 수학적인 추상화를 기술하는 것이 아니고, 대신 머신 또는 장치에 의해 검출될 수 있는 물리적 매체에 내장되거나 운반되는 정보를 의미한다. 이 용어는 레코딩 또는 전송된 신호를 포함하며, PCM(pulse code modulation) 또는 기타 인코딩을 포함한 임의의 형태의 인코딩을 통한 전달을 포함하는 것으로 이해해야 한다. 출력, 입력 또는 중간 오디오 신호는 미국 특허 제5,974,380호; 제5,978,762호; 및 제6,487,535호에 기재된 바와 같이, MPEG, ATRAC, AC3 또는 DTS사의 독점적인 방법을 포함하는 임의의 다양한 공지된 방법에 의해 인코딩되거나 압축될 수 있다. 당업자에게 명백한 바와 같이, 특정 압축 또는 인코딩 방법을 수용하기 위해, 계산의 일부 수정이 요구될 수 있다.

소프트웨어에서, 오디오 "코덱"은 주어진 오디오 파일 포맷 또는 스트리밍 오디오 포맷에 따라 디지털 오디오 데이터를 포맷하는 컴퓨터 프로그램을 포함한다. 대부분의 코덱은 퀵타임 플레이어, XMMS, 윈앰프(Winamp), 윈도우 미디어 플레이어, 프로 로직, 또는 다른 코덱들과 같은 하나 이상의 멀티미디어 플레이어에 인터페이스하는 라이브러리로서 구현된다. 하드웨어에서, 오디오 코덱은 아날로그 오디오를 디지털 신호로서 인코딩하고, 디지털을 다시 아날로그로 디코딩하는 단일 또는 다중 디바이스를 지칭한다. 다시 말해서, 오디오 코덱은 공통 클록을 사용하는 아날로그-디지털 컨버터(analog-to-digital converter, ADC) 및 디지털-아날로그 컨버터(digital-to-analog converter, DAC)를 모두 포함한다.

오디오 코덱은 DVD 플레이어, 블루-레이(Blue-Ray) 플레이어, TV 튜너, CD 플레이어, 핸드 헬드 플레이어, 인터넷 오디오/비디오 디바이스, 게임 콘솔, 이동 전화 또는 다른 전자 디바이스와 같은 소비자 전자 디바이스에서 구현될 수 있다. 소비자 전자 디바이스는 IBM PowerPC, Intel Pentium(x86) 프로세서 또는 다른 프로세서와 같은 하나 이상의 통상적인 유형의 그러한 프로세서를 나타낼 수 있는 중앙 처리 장치(Central Processing Unit, CPU)를 포함한다. 랜덤 액세스 메모리(Random Access Memory, RAM)는 CPU에 의해 수행된 데이터 처리 동작의 결과를 일시적으로 저장하고, 전형적으로 전용 메모리 채널을 통해 이에 상호 접속된다. 소비자 전자 디바이스는 또한 입/출력(I/O) 버스를 통해 CPU와 또한 통신하는 하드 드라이브와 같은 영구 저장 디바이스를 포함할 수 있다. 테이프 드라이브, 광 디스크 드라이브 또는 기타 저장 디바이스와 같은 다른 유형의 저장 디바이스도 연결될 수 있다. 그래픽 카드는 또한 비디오 버스를 통해 CPU에 연결될 수 있으며, 그래픽 카드는 디스플레이 데이터를 나타내는 신호를 디스플레이 모니터에 전송한다. 키보드 또는 마우스와 같은 외부 주변 데이터 입력 디바이스는 USB 포트를 통해 오디오 재생 시스템에 연결될 수 있다. USB 제어기는 USB 포트에 연결된 외부 주변 장치를 위해 CPU로의 그리고 CPU로부터의 데이터 및 명령어들을 변환(translate)한다. 프린터, 마이크로폰, 스피커 또는 다른 디바이스와 같은 추가 디바이스가 소비자 전자 디바이스에 연결될 수 있다.

소비자 전자 디바이스는 워싱턴주 레드몬드 소재 마이크로소프트사의 윈도우즈(WINDOWS), 캘리포니아주 쿠퍼티노 소재 애플사의 MAC OS와 같은 그래픽 사용자 인터페이스(graphic user interface, GUI)를 갖는 운영 체제, 안드로이드(Android)와 같은 모바일 운영 체제를 위해 설계된 다양한 버전의 모바일 GUI, 또는 다른 운영 체제를 사용할 수 있다. 소비자 전자 디바이스는 하나 이상의 컴퓨터 프로그램을 실행할 수 있다. 일반적으로, 운영 체제 및 컴퓨터 프로그램은 컴퓨터 판독 가능 매체에 유형적으로(tangibly) 구현되며, 컴퓨터 판독 가능 매체는 하드 드라이브를 포함하는 고정 또는 착탈식 데이터 저장 디바이스 중 하나 이상을 포함한다. 운영 체제 및 컴퓨터 프로그램 모두는 CPU에 의한 실행을 위해 전술한 데이터 저장 디바이스로부터 RAM으로 로딩될 수 있다. 컴퓨터 프로그램은 CPU에 의해 판독되고 실행될 때 CPU로 하여금 본 발명 내용의 단계 또는 특징을 실행하는 단계를 수행하게 하는 명령어들을 포함할 수 있다.

오디오 코덱은 다양한 구성 또는 아키텍처를 포함할 수 있다. 임의의 그러한 구성 또는 아키텍처는 본 발명 내용의 범위를 벗어나지 않고 쉽게 대체될 수 있다. 당업자는 상기 기술된 시퀀스가 컴퓨터 판독 가능 매체에 가장 일반적으로 사용되지만, 본 발명 내용의 범위를 벗어나지 않고 대체될 수 있는 다른 기존 시퀀스가 존재함을 인식할 것이다.

오디오 코덱의 일 실시 예의 구성 요소는 하드웨어, 펌웨어, 소프트웨어, 또는 이들의 임의의 조합에 의해 구현될 수 있다. 하드웨어로 구현되는 경우, 오디오 코덱은 단일 오디오 신호 프로세서에 사용되거나 다양한 처리 컴포넌트들 간에 분산될 수 있다. 소프트웨어로 구현되는 경우, 본 발명 내용의 실시 예의 요소들은 필요한 작업을 수행하기 위한 코드 세그먼트들을 포함할 수 있다. 소프트웨어는 바람직하게는 본 발명 내용의 일 실시 예에서 설명된 동작을 수행하기 위한 실제 코드를 포함하거나, 동작을 에뮬레이션하거나 시뮬레이션하는 코드를 포함한다. 프로그램 또는 코드 세그먼트는 프로세서 또는 머신 액세스 가능 매체에 저장되거나, 전송 매체를 통해 반송파(예를 들어, 반송파에 의해 변조된 신호)로 구현된 컴퓨터 데이터 신호에 의해 전송될 수 있다. "프로세서 판독 가능 또는 액세스 가능 매체" 또는 "머신 판독 가능 또는 액세스 가능 매체"는 정보를 저장, 전송 또는 전달(transfer)할 수 있는 임의의 매체를 포함할 수 있다.

프로세서 판독 가능 매체의 예는 전자 회로, 반도체 메모리 디바이스, 판독 전용 메모리(read only memory, ROM), 플래시 메모리, EPROM(erasable programmable ROM, EPROM), 플로피 디스켓, CD(compact disk) ROM, 광학 디스크, 하드 디스크, 광섬유 매체, 무선 주파수(radio frequency, RF) 링크 또는 다른 매체를 포함한다. 컴퓨터 데이터 신호는 전자 네트워크 채널, 광 섬유, 공기, 전자기, RF 링크 또는 다른 전송 매체와 같은 전송 매체를 통해 전파할 수 있는 임의의 신호를 포함할 수 있다. 코드 세그먼트는 인터넷, 인트라넷 또는 다른 네트워크와 같은 컴퓨터 네트워크를 통해 다운로드될 수 있다. 머신 액세스 가능 매체는 제조 물품에 구현될 수 있다. 머신 액세스 가능 매체는 머신에 의해 액세스될 때 머신으로 하여금 다음에 설명된 동작을 수행하게 하는 데이터를 포함할 수 있다. 여기서 "데이터"라는 용어는 프로그램, 코드, 데이터, 파일 또는 기타 정보를 포함할 수 있는 머신 판독 가능 목적을 위해 인코딩된 임의의 유형의 정보를 지칭한다.

본 발명 내용의 실시 예의 전부 또는 일부는 소프트웨어에 의해 구현될 수 있다. 소프트웨어는 서로 결합된 여러 모듈을 포함할 수 있다. 소프트웨어 모듈은 변수, 파라미터, 인수(argument), 포인터, 결과, 업데이트된 변수, 포인터 또는 다른 입력 또는 출력을 생성, 전송, 수신 또는 처리하기 위해 다른 모듈에 연결된다. 소프트웨어 모듈은 플랫폼에서 실행되고 있는 운영 체제와 상호 작용하는 소프트웨어 드라이버 또는 인터페이스일 수도 있다. 소프트웨어 모듈은 또한 하드웨어 디바이스로 또는 하드웨어 디바이스로부터 데이터를 구성, 설정(set up), 초기화, 전송 또는 수신하는 하드웨어 드라이버일 수도 있다.

본 발명 내용의 일 실시 예는 일반적으로 플로우챠트, 흐름도, 구조도 또는 블록도로서 묘사된 프로세스로서 설명될 수 있다. 블록도가 동작들을 순차적 프로세스로서 기술할지라도, 많은 동작들을 병렬 또는 동시에 수행할 수 있다. 또한, 동작들의 순서를 재정렬할 수 있다. 프로세스의 동작들이 완료될 때 프로세스가 종료될 수 있다. 프로세스는 방법, 프로그램, 프로시져 또는 단계들의 다른 그룹에 해당할 수 있다.

이 설명은 특히 헤드폰(예를 들어, 헤드셋) 애플리케이션에서 오디오 신호를 합성하는 방법 및 장치를 포함한다. 본 개시의 양태는 헤드셋을 포함하는 예시적인 시스템의 콘텍스트에서 제시되었지만, 설명된 방법 및 장치는 그러한 시스템으로 제한되지 않으며, 본 명세서의 교시는 오디오 신호 합성을 포함하는 다른 방법 및 장치에 적용 가능하다는 것을 이해해야 한다. 이하의 설명에서 사용되는 바와 같이, 오디오 객체는 3D 위치 데이터를 포함한다. 따라서, 오디오 객체는 일반적으로 위치가 동적인 3D 위치 데이터와 오디오 소스의 특정한 결합된 표현을 포함하는 것으로 이해되어야 한다. 대조적으로, "음원(sound source)"은 최종 믹스 또는 렌더링에서 플레이백(playback) 또는 재생(reproduction)을 위한 오디오 신호이며, 의도된 정적 또는 동적 렌더링 방법 또는 목적을 갖고 있다. 예를 들어, 소스가 "Front Left" 신호이거나, 소스가 "LFE(low frequency effects)" 채널로 플레이되거나 오른쪽으로 90도 패닝(panning)될 수 있다.

여기에 설명된 실시 예는 오디오 신호의 처리에 관한 것이다. 일 실시 예는 근거리장 청각 이벤트의 인상을 생성하기 위해 적어도 한 세트의 근거리장 측정이 사용되는 방법을 포함하며, 근거리장 모델은 원거리장 모델과 병렬로 실행된다. 지정된 근거리장 및 원거리장 모델에 의해 시뮬레이션된 영역들 사이의 공간 영역에서 시뮬레이션될 청각 이벤트는 두 모델 간의 크로스페이딩(crossfading)에 의해 생성된다.

여기에 기술된 방법 및 장치는 근거리장에서부터 원거리장의 경계까지에 걸친 기준 헤드로부터 다양한 거리에서 합성되거나 측정된 HRTF(head related transfer function)의 다중 세트를 사용한다. 부가적인 합성 또는 측정된 전달 함수(transfer function)는 헤드의 내부까지, 즉 근거리장보다 더 가까운 거리까지 연장하는데 사용될 수 있다. 또한, HRTF의 각 세트의 상대적인 거리-관련 이득은 원거리장 HRTF 이득으로 정규화된다.

도 1a-1c는 예시적인 오디오 소스 위치에 대한 근거리장 및 원거리장 렌더링의 개략도이다. 도 1a는 근거리장 및 원거리장 영역을 포함하여 청취자를 기준으로 사운드 공간에서 오디오 객체의 위치를 찾는 기본 예이다. 도 1a는 2 개의 반경을 사용하는 예를 제시하지만, 사운드 공간은 도 1c에 도시된 바와 같이 2 개가 넘는 반경을 사용하여 표현될 수 있다. 특히, 도 1c는 임의의 수의 중요한 반경을 사용하여 도 1a의 확장 예를 도시한다. 도 1b는 구형 표현(21)을 사용하여, 도 1a의 예시적인 구형 표현을 도시한다. 특히 도 1c는 객체(22)가 기준 평면 상의 관련된 높이(23), 및 관련된 투영(projection)(25), 관련된 고도(27), 및 관련된 방위각(29)을 가질 수 있음을 도시한다. 이러한 경우에, 임의의 적절한 수의 HRTF가 반경 Rn의 풀 3D 구 상에서 샘플링될 수 있다. 각 공통-반경 HRTF 세트의 샘플링은 동일할 필요가 없다.

도 1a-1b에 도시된 바와 같이, 원 R1은 청취자로부터의 원거리장 거리를 나타내고, 원 R2는 청취자로부터의 근거리장 거리를 나타낸다. 도 1c에 도시된 바와 같이, 객체는 원거리장 위치, 근거리장 위치, 그 사이 어딘가, 근거리장 안쪽 또는 원거리장 바깥쪽에 위치될 수 있다. 복수의 HRTF(H_xy)는 원점에 중심이 맞춰진 링 R1 및 R2 상의 위치에 관련되도록 도시되며, 여기서 x는 링 번호를 나타내고, y는 링 상의 위치를 나타낸다. 이러한 세트를 "공통-반경 HRTF 세트"라고 한다. 4 개의 위치 가중치는 도면의 원거리장 세트에 도시되고, 2 개는 W_xy 규칙을 사용하여 근거리장 세트에 도시되며, 여기서 x는 링 번호를 나타내고 y는 링 상의 위치를 나타낸다. WR1 및 WR2는 객체를 공통-반경 HRTF 세트의 가중치 조합으로 분해(decompose)하는 방사상 가중치를 나타낸다.

도 1a 및 1b에 도시된 예에서, 오디오 객체가 청취자의 근거리장를 통과할 때, 헤드의 중심까지의 방사상 거리가 측정된다. 이 방사상 거리를 제한한 두 개의 측정된 HRTF 데이터 세트가 식별된다. 각 세트에 대해, 적절한 HRTF 페어(동측 및 반대측)가 음원 위치의 원하는 방위각 및 고도에 기초하여 유도된다. 최종 결합 HRTF 페어는 각각의 새로운 HRTF 페어의 주파수 응답을 보간함으로써 생성된다. 이 보간은 렌더링될 음원의 상대적 거리 및 각 HRTF 세트의 실제 측정된 거리에 기초할 가능성이 높을 것이다. 그 후 렌더링될 음원은 유도된 HRTF 페어에 의해 필터링되고, 결과 신호의 이득은 청취자의 헤드까지의 거리에 기초하여 증가되거나 감소된다. 음원이 청취자의 귀 중 하나에 매우 가까워질 때 포화를 피하기 위해 이 이득이 제한될 수 있다.

각각의 HRTF 세트는 수평 평면에서만 이루어진 측정 또는 합성 HRTF의 세트를 스팬(span)할 수 있거나, 청취자 주위의 전체 구의 HRTF 측정치를 나타낼 수 있다. 또한, 각 HRTF 세트는 방사상 측정된 거리에 기초하여 더 적은 또는 더 많은 수의 샘플을 가질 수 있다.

도 2a-2c는 거리 큐들로 바이노럴 오디오를 생성하기 위한 알고리즘 흐름도이다. 도 2a는 본 발명 내용의 양태에 따른 샘플 흐름을 나타낸다. 오디오 객체의 오디오 및 위치 메타 데이터(10)는 라인(12)에 입력된다. 이 메타 데이터는 블록(13)에 도시된 방사상 가중치(WR1 및 WR2)를 결정하는데 사용된다. 또한, 블록(14)에서, 원거리장 경계 내부 또는 외부에 객체가 위치되는지 여부를 결정하기 위하여 메타 데이터가 평가된다. 객체가 라인(16)에 의해 표시된 원거리장 영역 내에 있다면, 다음 단계(17)는 도 1a에 도시된 W11 및 W12와 같은 원거리장 HRTF 가중치를 결정하는 것이다. 객체가 라인(18)에 의해 표시된 바와 같이 원거리장 내에 위치되지 않으면, 블록(20)에 의해 도시된 바와 같이, 객체가 근거리장 경계 내에 위치되는지 여부를 결정하기 위해 메타 데이터가 평가된다. 라인(22)으로 나타낸 바와 같이, 객체가 근거리장 및 원거리장 경계 사이에 위치되면, 다음 단계는 원거리장 HRTF 가중치(블록 17) 및 도 1a의 W21 및 W22와 같은 근거리장 HRTF 가중치(블록 23) 모두를 결정하는 것이다. 라인(24)으로 나타낸 바와 같이, 객체가 근거리장 경계 내에 위치되면, 다음 단계는 블록(23)에서 근거리장 HRTF 가중치를 결정하는 것이다. 일단 적절한 방사상 가중치, 근거리장 HRTF 가중치 및 원거리장 HRTF 가중치가 계산되었으면, 이들은 26, 28에서 결합된다. 마지막으로, 결합된 가중치로 오디오 객체가 그 후 필터링되어(블록(30)), 거리 큐를 갖는 바이노럴 오디오를 생성한다(32). 이러한 방식으로, 방사상 가중치는 각 공통-반경 HRTF 세트로부터 HRTF 가중치를 더 스케일링하고 거리 이득/감쇠를 생성하여 객체가 원하는 위치에 있다는 의미를 재현(recreate)하는데 사용된다. 이 동일한 접근법은 원거리장 밖의 값이 방사상 가중치에 의해 적용되는 거리 감쇠를 초래하는 임의의 반경으로 확장될 수 있다. "내부(interior)"라고 불리는 근거리장 경계(R2)보다 작은 임의의 반경은 단지 HRTF의 근거리장 세트의 일부 조합에 의해 재현될 수 있다. 단일 HRTF는 청취자의 귀 사이에 위치하는 것으로 인식되는 모노포닉 "중간 채널"의 위치를 나타내기 위해 사용될 수 있다.

도 3a는 HRTF 큐를 추정하는 방법을 도시한다. H_L(θ, φ) 및 H_R(θ, φ)는 단위 구(원거리장) 상의 (방위각 = θ, 고도 = φ)에서 소스에 대한 좌, 우 귀에서 측정된 최소 위상 HRIR(head-related impulse response)를 나타낸다. τ_L과 τ_R은 각 귀까지의 TOF(time of flight)를 나타낸다(일반적으로 과도한 공통 지연이 제거됨).

도 3b는 HRIR 보간 방법을 나타낸다. 이 경우, 사전 측정된 최소 위상의 왼쪽 귀와 오른쪽 귀의 HRIR의 데이터베이스가 있다. 주어진 방향의 HRIR은 저장된 원거리장 HRIR의 가중된 조합을 합함으로써 유도된다. 가중치는 각도 위치의 함수로 결정되는 이득의 배열에 의해 결정된다. 예를 들어, 4 개의 가장 가까운 샘플링된 HRIR의 원하는 위치로의 이득은 소스까지의 각거리(angular distance)에 비례하는 양의 이득을 가질 수 있으며, 다른 모든 이득은 0으로 설정된다. 대안으로, HRIR 데이터베이스가 방위각 및 고도 방향 모두에서 샘플링되는 경우, VBAP/VBIP 또는 이와 유사한 3D 패너(panner)를 사용하여 3 개의 가장 가까운 측정된 HRIR에 이득을 적용할 수 있다.

도 3c는 HRIR 보간 방법이다. 도 3c는 도 3b의 단순화된 버전이다. 두꺼운 라인은 (우리 데이터베이스에 저장된 HRIR의 수와 동일한) 하나를 초과하는 채널의 버스를 의미한다. G(θ, φ)는 HRIR 가중치 이득 어레이를 나타내고, 그것은 왼쪽 귀와 오른쪽 귀에 대해 동일하다고 가정될 수 있다. H_L(f), Η_R(f)은 왼쪽 귀와 오른쪽 귀 HRIR의 고정된 데이터베이스를 나타낸다.

또한, 타겟 HRTF 페어를 유도하는 방법은 알려진 기술들(시간 또는 주파수 도메인)에 기초하여 가장 가까운 측정 링들 각각으로부터 2 개의 가장 가까운 HRTF을 보간하고, 그 다음에 소스까지의 방사상 거리에 기초하여 2 개의 측정 사이에 보간하는 것이다. 이들 기술은 O1에 위치된 객체에 대해 수학식 1에 의해, O2에 위치된 객체에 대해 수학식 2에 의해 기술된다. H_xy는 측정된 링 y에서 위치 인덱스 x에서 측정된 HRTF 페어를 나타낸다. H_xy는 주파수 종속 함수이며, α, β 및 δ는 모두 보간 가중치 함수이다. 그들은 또한 주파수의 함수일 수 있다.

이 예에서, 측정된 HRTF 세트는 청취자 주위의 링에서 측정되었다(방위각, 고정 반경). 다른 실시 예에서, HRTF는 구 주위에서 측정되었을 수 있다(방위각 및 고도, 고정 반경). 이 경우, HRTF는 문헌에 기술된 바와 같이 2 개 이상의 측정 사이에서 보간될 것이다. 방사상 보간은 동일하게 유지될 것이다.

HRTF 모델링의 하나의 다른 요소는 음원이 헤드에 가깝게 도달함에 따라 오디오의 음량이 기하급수적으로 증가하는 것과 관련된다. 일반적으로 사운드의 음량은 헤드까지의 거리가 반으로 줄어들 때마다 배가 될 것이다. 따라서, 예를 들어, 0.25 m에서의 음원은 1 m에서 측정했을 때 동일한 사운드보다 약 4 배 더 클 것이다. 마찬가지로, 0.25 m에서 측정된 HRTF의 이득은 1 m에서 측정된 동일한 HRTF의 4 배가 될 것이다. 이 실시 예에서, 모든 HRTF 데이터베이스의 이득은 인지된 이득이 거리에 따라 변하지 않도록 정규화된다. 이것은 HRTF 데이터베이스가 최대 비트 해상도로 저장될 수 있음을 의미한다. 그 후, 거리-관련 이득은 또한 렌더링 시간에 도출된 근거리장 HRTF 근사에 적용될 수 있다. 이것은 구현자가 원하는 거리 모델이 무엇이든 사용할 수 있도록 해 준다. 예를 들어, HRTF 이득은 헤드에 더 가까워질 때 최대로 제한될 수 있으며, 이로 인해 신호 이득이 너무 왜곡되거나 리미터(limiter)를 지배하는 것을 감소시키거나 방지할 수 있다.

도 2b는 청취자로부터 2보다 많은 방사상 거리를 포함하는 확장 알고리즘을 나타낸다. 선택적으로, 이 구성에서 각 관심 반경에 대해 HRTF 가중치를 계산할 수 있지만, 오디오 객체의 위치와 관련이 없는 거리의 경우 일부 가중치가 제로일 수 있다. 몇몇 경우들에서, 도 2a에 도시된 바와 같이, 제로 가중치를 초래할 이러한 계산이 조건부로 생략될 수 있다.

도 2c는 ITD(interaural time delay)를 계산하는 것을 포함하는 또 다른 예를 도시한다. 원거리장에서는, 측정된 HRTF 사이를 보간함으로써 원래 측정되지 않은 위치에서 근사 HRTF 페어를 도출하는 것이 일반적이다. 이는 측정된 무반향(anechoic) HRTF 페어를 최소 위상 등가(equivalent)로 변환하고 ITD를 부분 시간 지연(fractional time delay)으로 근사시킴으로써 종종 수행된다. 단 하나의 HRTF 세트가 있고 그 HRTF 세트가 고정된 거리에서 측정되기 때문에 이는 원거리장에서 잘 작동한다. 일 실시 예에서, 음원의 방사상 거리가 결정되고 2 개의 가장 가까운 HRTF 측정 세트가 식별된다. 소스가 가장 먼 세트보다 멀리 있는 경우, 구현은 사용 가능한 원거리장 측정 세트가 하나뿐이었다면 행해졌을 구현과 동일하다. 근거리장 내에서, 2 개의 HRTF 페어가 모델링될 음원까지의 2 개의 가장 가까운 HRTF 데이터베이스 각각으로부터 유도되고, 이들 HRTF 페어는 추가로 보간되어, 타겟의 기준 측정 거리까지의 상대적 거리에 기초하여 타겟 HRTF 페어를 유도한다. 타겟 방위각 및 고도에 필요한 ITD는 그 후 ITD의 룩업 테이블 또는 우드워스(Woodworth)에 의해 정의된 것과 같은 공식으로부터 유도된다. ITD 값은 근거리장 내외부의 유사한 방향의 경우 크게 상이하지 않다는 것을 유의해야 한다.

도 4는 2 개의 동시 음원에 대한 제1 개략도이다. 이 방식을 사용하여, HRIR이 고정된 채로 점선 내의 섹션이 어떻게 각거리의 함수인지 유의해야 한다. 동일한 왼쪽 귀와 오른쪽 귀 HRIR 데이터베이스가 이 구성에서 두 번 구현된다. 다시, 굵은 화살표는 데이터베이스의 HRIR 수와 동일한 신호들의 버스를 나타낸다.

도 5는 2 개의 동시 음원에 대한 제2 개략도이다. 도 5는 각각의 새로운 3D 소스에 대해 HRIR을 보간할 필요가 없음을 보여준다. 우리는 선형적이고 시간 불변 인 시스템을 가지고 있기 때문에, 그 출력은 고정된 필터 블록 앞에 믹싱될 수 있다. 이와 같이 더 많은 소스를 추가하는 것은, 3D 소스의 수에 관계 없이 고정 필터 오버헤드가 한 번만 발생한다는 것을 의미한다.

도 6은 방위각, 고도 및 반경(θ, φ, r)의 함수인 3D 음원에 대한 개략도이다. 이 경우, 입력은 소스까지의 반경 거리에 따라 스케일링(scale)되며, 일반적으로 표준 거리 롤오프 곡선(distance roll-off curve)을 기반으로 한다. 이 방식의 한 가지 문제점은, 원거리장에서 이러한 종류의 주파수 독립적인 거리 스케일링이 작동하는 반면, 소스가 고정(θ, φ)에 대해 헤드에 더 가까워지면서 HRIR의 주파수 응답이 변하기 시작하기 때문에, 근거리장(r <1)에서 잘 작동하지 않는다는 것이다.

도 7은 3D 음원에 근거리장 및 원거리장 렌더링을 적용하기 위한 제1 개략도이다. 도 7에서, 방위각, 고도 및 반경의 함수로서 표현되는 단일 3D 소스가 있다고 가정한다. 표준 기술은 단일 거리를 구현한다. 본 발명 내용의 다양한 양태에 따르면, 2 개의 분리된 원거리장 및 근거리장 HRIR 데이터베이스가 샘플링된다. 그런 다음, 이러한 두 개의 데이터베이스 간에 크로스페이딩이 방사상 거리 r < 1의 함수로서 적용된다. 근거리장 HRIR은 측정에서 보이는 임의의 주파수 독립적인 거리 이득을 줄이기 위해 원거리장 HRIR로 이득 정규화된다. 이러한 이득은 r < 1일 때 g(r)에 의해 정의된 거리 롤오프 함수를 기반으로 입력에서 재삽입된다. r > 1 인 경우 g_FF(r) = 1 및 g_NF(r) = 0이라는 것을 유의해야 한다. r < 1일 때 g_FF(r), g_NF(r)은 거리의 함수, 예를 들어 g_FF(r) = a, g_NF(r) = 1 - a라는 것을 유의해야 한다.

도 8은 3D 음원에 근거리장 및 원거리장 렌더링을 적용하는 제2 개략도이다. 도 8은 도 7과 유사하지만, 2 세트의 근거리장 HRIR이 헤드로부터 상이한 거리에서 측정된다. 이는 방사상 거리에 따른 근거리장 HRIR 변화의 더 나은 샘플링 커버리지를 제공한다.

도 9는 HRIR 보간의 제1 시간 지연 필터 방법을 도시한다. 도 9는 도 3b의 대안이다. 도 3b와 대조적으로, 도 9는 HRIR 시간 지연이 고정 필터 구조의 일부로서 저장되는 것을 제공한다. 이제 ITD는 유도된 이득을 기반으로 HRIR과 보간된다. ITD는 3D 소스 각도를 기반으로 업데이트되지 않는다. 이 예는 불필요하게 동일한 이득 네트워크를 두 번 적용한다는 것을 유의해야 한다.

도 10은 HRIR 보간의 제2 시간 지연 필터 방법을 나타낸다. 도 10은 두 귀 G(θ, φ) 및 단일의 더 큰 고정된 필터 구조 H(f)에 대한 하나의 이득 세트를 적용함으로써, 도 9에서 이득의 이중 적용을 극복한다. 이 구성의 한 가지 이점은 이득의 수의 절반 및 해당 채널 수를 사용한다는 것이지만, HRIR 보간 정확도를 희생시켜야 한다.

도 11은 HRIR 보간의 단순화된 제2 시간 지연 필터 방법을 도시한다. 도 11은 도 5와 관련하여 설명된 것과 유사하게, 2 개의 상이한 3D 소스를 갖는 도 10의 단순화된 도면이다. 도 11에 도시된 바와 같이, 구현은 도 10으로부터 단순화된다.

도 12는 단순화된 근거리장 렌더링 구조를 도시한다. 도 12는 (하나의 소스에 대해) 보다 단순화된 구조를 사용하여 근거리장 렌더링을 구현한다. 이 구성은 도 7과 유사하지만, 구현이 더 간단하다.

도 13은 단순화된 2 소스 근거리장 렌더링 구조를 도시한다. 도 13은 도 12와 유사하지만, 2 세트의 근거리장 HRIR 데이터베이스를 포함한다.

이전의 실시 예들은 각각의 소스 위치 업데이트 및 각각의 3D 음원에 대해 상이한 근거리장 HRTF 페어가 계산되는 것으로 가정한다. 따라서, 처리 요구 사항은 렌더링될 3D 소스의 수에 따라 선형적으로 스케일링될 것이다. 일반적으로 3D 오디오 렌더링 솔루션을 구현하는 데 사용되고 있는 프로세서가 할당(allot)된 리소스를 꽤 빨리 비-결정적 방식으로(임의의 주어진 시간에 렌더링될 콘텐츠에 따라 다를 수 있음) 초과하기 때문에, 이것은 일반적으로 바람직하지 않은 특징이다. 예를 들어, 많은 게임 엔진의 오디오 처리 버짓은 최대 CPU의 3 %일 수 있다.

도 21은 오디오 렌더링 장치의 일부의 기능 블록도이다. 가변적인 필터링 오버헤드와 대조적으로, 고정되고 예측 가능한 필터링 오버헤드와 소스 별 훨씬 더 작은 오버헤드를 가지는 것이 바람직하다. 이렇게 하면 주어진 리소스 버짓에 대하여 더 결정적인 방식으로 더 많은 수의 음원를 렌더링할 수 있다. 그러한 시스템이 도 21에 기술되어 있다. 이 토폴로지 뒤의 이론은 "3D 오디오 인코딩 및 렌더링 기술의 비교 연구(A Comparative Study of 3-D Audio Encoding and Rendering Techniques)"에 기술되어 있다.

도 21은 고정된 필터 네트워크(60), 믹서(62) 및 객체 별 이득 및 지연의 부가적인 네트워크(64)를 사용하는 HRTF 구현을 도시한다. 이 실시 예에서, 객체 별 지연의 네트워크는 각각 입력(72, 74 및 76)을 갖는 3 개의 이득/지연 모듈(66, 68 및 70)을 포함한다.

도 22는 오디오 렌더링 장치의 일부의 개략적인 블록도이다. 특히, 도 22는도 21에 개략적으로 도시된 기본 토폴로지를 사용하는 실시 예를 도시하며, 고정 오디오 필터 네트워크(80), 믹서(82), 및 객체 별 이득 지연 네트워크(84)를 포함한다. 이 예에서, 도 2c 흐름도에 기술된 바와 같이, 소스 별 ITD 모델은 객체 별 더 정확한 지연 제어를 허용한다. 음원은 객체 별 이득 지연 네트워크(84)의 입력(86)에 적용되고, 이는 각 측정 세트의 방사상 거리에 대한 사운드의 거리에 기초하여 도출되는, 한 페어의 에너지-보존 이득 또는 가중치(88, 90)를 적용함으로써, 근거리장 HRTF 및 원거리장 HRTF 사이에 파티션된다. ITD(Interaural time delay)(92, 94)은 우측 신호에 대해 좌측 신호를 지연시키기 위해서 적용된다. 신호 레벨은 블록(96, 98, 100 및 102)에서 추가로 조정된다.

이 실시 예는 단일 3D 오디오 객체, 약 1 m보다 멀리 떨어진 4 개의 위치를 나타내는 원거리장 HRTF 세트 및 약 1 미터보다 가까운 4 개의 위치를 나타내는 근거리장 HRTF 세트를 사용한다. 임의의 거리 기반 이득 또는 필터링이 이 시스템의 입력의 오디오 객체 업스트림에 이미 적용되었다고 가정된다. 이 실시 예에서 원거리장에 위치된 모든 소스에 대해 G_NEAR = 0이다.

좌측 귀 신호 및 우측 귀 신호는 근거리장 및 원거리장 신호 기여(contribution)에 대한 ITD를 모방하기 위해 서로에 대해 지연된다. 좌측 귀 및 우측 귀에 대한 각각의 신호 기여 및 근거리장 및 원거리장은 샘플링된 HRTF 위치에 대한 오디오 객체의 위치에 의해 값이 결정되는 4 개의 이득의 매트릭스에 의해 가중화(weigh)된다. HRTF들(104, 106, 108 및 110)은 최소 위상 필터 네트워크에서와 같이 양이간 지연(interaural delay)이 제거되어 저장된다. 각 필터 뱅크의 기여는 좌측(112) 또는 우측(114) 출력으로 합쳐져서, 바이노럴 청취를 위해 헤드폰으로 전송된다.

메모리 또는 채널 대역폭에 의해 제약되는 구현의 경우, 유사한 사운드 결과를 제공했지만 소스별로 ITD를 구현할 필요가 없는 시스템을 구현하는 것이 가능하다.

도 23은 근거리장 및 원거리장 오디오 소스 위치의 개략도이다. 특히, 도 23은 고정된 필터 네트워크(120), 믹서(122) 및 객체 별 이득의 추가 네트워크(124)를 사용하는 HRTF 구현을 도시한다. 이 경우에는 소스 별 ITD가 적용되지 않는다. 객체 별 처리는 믹서(122)에 제공되기 전에, 공통-반경 HRTF 세트(136, 138) 별 HRTF 가중치 및 방사상 가중치(130, 132)를 적용한다.

도 23에 도시된 경우에, 고정 필터 네트워크는 원래 HRTF 페어의 ITD가 유지되는 HRTF 세트(126, 128)를 구현한다. 그 결과, 구현은 근거리장 및 원거리장 신호 경로에 대한 단일 이득 세트(136, 138)만을 필요로 한다. 음원은 객체 별 이득 지연 네트워크(124)의 입력(134)에 인가되고, 각 측정된 세트의 방사상 거리에 대한 사운드의 거리에 기초하여 도출되는, 한 페어의 에너지 또는 진폭 보존 이득들(130, 132)을 적용함으로써, 근거리장 HRTF 및 원거리장 HRTF 사이에 파티션된다. 신호 레벨은 블록(136) 및 블록(138)에서 더 조정된다. 각 필터 뱅크의 기여는 좌측(140) 또는 우측(142) 출력으로 합쳐지고, 바이노럴 청취를 위해 헤드폰으로 보내진다.

이 구현은 렌더링된 객체의 공간 해상도가 각각 상이한 시간 지연을 갖는 둘 이상의 반대측 HRTF들 사이의 보간으로 인해 덜 집중될 것이라는 단점이 있다. 충분히 샘플링된 HRTF 네트워크를 사용하여 관련 인공물(artifact)의 가청성을 최소화할 수 있다. 희소하게 샘플링된 HRTF 세트의 경우, 특히 샘플링된 HRTF 위치 사이에서, 반대측 필터 합산과 관련된 콤 필터링(comb filtering)이 들릴 수 있다.

기술된 실시 예들은 유효한 인터랙티브 3D 오디오 경험 및 좌우 귀에 근접하게 샘플링된 한 페어의 근거리장 HRTF를 제공하기에 충분한 공간 해상도로 샘플링된 적어도 한 세트의 원거리장 HRTF를 포함한다. 이 경우, 근거리장 HRTF 데이터 공간이 희박하게 샘플링되지만, 그 효과는 여전히 매우 확신할 수 있다. 더 단순화시키면, 단일 근거리장 또는 "중간" HRTF가 사용될 수 있다. 그러한 최소한의 경우, 원거리장 세트가 액티브일 때만 방향성이 가능하다.

도 24는 오디오 렌더링 장치의 일부의 기능 블록도이다. 도 24는 오디오 렌더링 장치의 일부의 기능 블록도이다. 도 24는 전술한 도면의 단순화된 구현을 나타낸다. 실용적인 구현은 3 차원 청취 공간 주위에서 또한 샘플링되는 더 큰 세트의 샘플링된 원거리장 HRTF 위치를 가질 가능성이 높다. 또한, 다양한 실시 예에서, 출력은 스피커 재생에 적합한 트랜스오럴 신호를 생성하기 위해 누화 제거와 같은 부가적인 처리 단계를 거칠 수 있다. 유사하게, 공통-반경 세트를 가로 지르는 거리 패닝은 저장/전송/트랜스코딩 또는 다른 적절히 구성된 네트워크 상에서의 다른 지연된 렌더링에 적합하도록, 서브믹스(예를 들어, 도 23의 믹싱 블록(122))를 생성하는데 사용될 수 있다는 것을 유의해야 한다.

상기 설명은 사운드 공간에서 오디오 객체의 근거리장 렌더링을 위한 방법 및 장치를 설명한다. 근거리장와 원거리장 모두에서 오디오 객체를 렌더링하는 능력은, 객체 뿐만 아니라 앰비소닉스, 매트릭스 인코딩 등과 같이 액티브 스티어링/패닝으로 디코딩된 임의의 공간 오디오 믹스의 깊이를 완벽하게 렌더링하는 능력을 가능하게 하여, 이에 따라, 수평 평면에서 단순 회전 이상의 풀 병진 헤드 트래킹(예를 들어, 사용자 이동)을 가능하게 한다. 예를 들어, 캡쳐 또는 앰비소닉 패닝에 의해 생성된 앰비소닉 믹스에 깊이 정보를 첨부하는 방법 및 장치가 이제 설명될 것이다. 여기에 설명된 기술은 1차 앰비소닉스를 예로서 사용할 것이지만, 3차 또는 더 고차의 앰비소닉스에도 또한 적용될 수 있다.

앰비소닉 기초

다중 채널 믹스가 다수의 입력 신호로부터의 기여로서 사운드를 캡처하는 경우, 앰비소닉스는 단일 포인트로부터 사운드 필드 내의 모든 사운드의 방향을 나타내는 고정된 신호 세트를 캡처/인코딩하는 방법이다. 다시 말해서, 동일한 앰비소닉 신호를 사용하여, 임의의 수의 라우드 스피커에서 사운드 필드를 다시 렌더링할 수 있다. 다중 채널의 경우, 채널의 조합으로 인해 생성된 소스를 재생하는 것으로 제한된다. 높이가 없다면, 높이 정보는 전송되지 않는다. 반면, 앰비소닉스는 항상 풀 지향성 화상을 전송하고, 재생 시점에서만 제한된다.

관심 지점에서 주로 가상 마이크로폰으로 간주될 수 있는, 1차(B-Format) 패닝 방정식 세트를 고려한다:

W = S * 1/√2, 여기서, W = 옴니 컴포넌트;

X = S * cos(θ) * cos(φ), 여기서 X = 도 8 전면으로 향함(pointed front);

Y = S * sin(θ) * cos(φ), 여기서 Y = 도 8 우측으로 향함(pointed right);

Z = S * sin(φ), 여기서 Z = 도 8 위로 향함(pointed up);

그리고 S는 패닝되고 있는 신호이다.

이들 4 개의 신호로부터, 임의의 방향으로 향한 가상 마이크로폰이 생성될 수 있다. 따라서, 디코더는 렌더링에 사용되고 있는 각 라우드 스피커를 가리키는 가상 마이크로폰을 재생성할 책임이 대개 있다. 이 기법은 상당 부분 작동하지만, 응답을 캡쳐하기 위하여 실제 마이크로폰을 사용하는 것이나 다름 없을 뿐이다. 결과적으로, 디코딩된 신호는 각 출력 채널에 대해 원하는 신호를 가질 것이지만, 각 채널에는 일정량의 누설(leakage) 또는 "흘림(bleed)"이 포함될 것이므로, 특히 간격이 일정하지 않다면, 디코더 레이아웃을 가장 잘 나타내는 디코더를 설계하는 데 있어 몇 가지 기술이 있다. 이것이 많은 앰비소닉 재생 시스템이 대칭 레이아웃(사각형(quad), 육각형 등)을 사용하는 이유이다.

디코딩이 WXYZ 방향성 스티어링 신호의 조합된 가중치에 의해 달성되기 때문에, 헤드 트랙킹은 이러한 종류의 솔루션에 의해 자연적으로 지원된다. B-포맷을 회전하려면, 디코딩 전에 WXYZ 신호에 회전 매트릭스가 적용될 수 있고, 결과는 올바르게 조정된 방향으로 디코딩될 것이다. 그러나, 그러한 솔루션은 병진(translation)(예를 들어, 청취자 위치에서의 사용자 이동 또는 변경)을 구현할 수 없다.

액티브 디코드 확장

누설을 방지하고 비-균일 레이아웃의 성능을 향상시키는 것이 바람직하다. Harpex 또는 DirAC와 같은 액티브 디코딩 솔루션은 디코딩을 위한 가상 마이크로폰을 형성하지 않는다. 대신, 그들은 사운드 필드의 방향을 검사하고, 신호를 재생성하고, 각 시간-주파수에 대해 식별한 방향으로 구체적으로 렌더링한다. 이것은 디코딩의 방향성을 크게 향상시키지만, 각 시간-주파수 타일은 어려운 결정을 필요로하기 때문에 방향성을 제한한다. DirAC의 경우, 그것은 시간-주파수 당 단방향 가정을 한다. Harpex의 경우, 두 가지 방향성 파면이 검출될 수 있다. 어느 시스템에서든, 디코더는 방향성 결정이 얼마나 부드럽고 얼마나 힘든지에 대한 제어를 제공할 수 있다. 이러한 제어는 본 명세서에서 "포커스(Focus)"의 파라미터로서 지칭되고, 이는 소프트 포커스, 내부 패닝, 또는 방향성의 주장을 부드럽게 하는 다른 방법을 허용하는 유용한 메타 데이터 파라미터일 수 있다.

액티브 디코더의 경우에도, 거리는 중요한 누락 함수(missing function)이다. 방향이 앰비소닉 패닝 방정식에서 직접 인코딩되는 반면, 소스 거리에 대한 정보는 소스 거리를 기반으로 하는 레벨 또는 잔향 비의 간단한 변경 이상으로 직접 인코딩할 수 없다. 앰비소닉 캡처/디코딩 시나리오에서는, 마이크로폰 "근사(closeness)" 또는 "마이크로폰 근접(proximity)"를 위한 스펙트럼 보상이 있을 수 있고 있어야 하지만, 이것은 예를 들어 한 소스를 2 미터에서 다른 소스를 4 미터에서 액티브하게 디코딩하는 것을 허용하지 않는다. 이것은 신호가 방향성 정보만을 전달하는 것으로 제한되기 때문이다. 사실, 패시브 디코더 성능은 청취자가 스위트 스팟에 완벽하게 위치하고 모든 채널이 등거리라면 누설이 문제가 되지 않을 것이라는 사실에 의존한다. 이러한 조건은 의도된 사운드 필드의 재현을 극대화한다.

더욱이, B-포맷 WXYZ 신호에서의 회전의 헤드 트래킹 솔루션은 병진(translation)을 가진 변환 매트릭스를 허용하지 않을 것이다. 좌표가 투영 벡터(예를 들어, 동종 좌표)를 허용할 수는 있지만, 동작 후 다시 인코딩하는 것은 어렵거나 불가능하고(수정이 손실되는 결과를 가져올 수 있음), 그것을 렌더링하는 거도 어렵거나 불가능하다. 이러한 한계를 극복하는 것이 바람직할 것이다.

병진 운동을 갖는 헤드 트래킹

도 14는 헤드 트랙킹을 갖는 액티브 디코더의 기능 블록도이다. 위에서 논의된 바와 같이, 직접 B-포맷 신호에서 인코딩된 깊이 고려 사항은 없다. 디코드시, 렌더러는 이 사운드 필드가 라우드 스피커 거리에서 렌더링된 사운드 필드의 일부인 소스의 방향을 나타내는 것으로 가정할 것이다. 그러나, 액티브 스티어링을 사용함으로써, 형성된 신호를 특정 방향으로 렌더링하는 기능은 패너(panner)의 선택에 의해서만 제한된다. 기능적으로, 이것은 도 14에 의해 나타내어지며, 도 14는 헤드 트랙킹을 갖는 액티브 디코더를 도시한다.

선택된 패너가 위에서 설명된 근거리장 렌더링 기법을 사용하는 "거리 패너"인 경우, 청취자가 이동할 때, 절대 좌표를 가진 풀 3D 공간에서 각 신호를 완전히 렌더링하기 위해 필요한 회전 및 병진을 포함하는 동종 좌표 변환 매트릭스에 의해 소스 위치(이 경우 빈(bin) 그룹 별로 공간 분석의 결과)가 수정될 수 있다. 예를 들어, 도 14에 도시된 액티브 디코더는 입력 신호(28)를 수신하고 FFT(30)를 사용하여 신호를 시간 도메인으로 변환한다. 공간 분석(32)은 시간 도메인 신호를 사용하여, 하나 이상의 신호의 상대적 위치를 결정한다. 예를 들어, 공간 분석(32)은 제1 음원이 사용자의 정면(예를 들어, 0 ° 방위각)에 위치하고 제2 음원이 사용자의 우측(예컨대, 90 ° 방위각)에 위치하는 것으로 결정할 수 있다. 신호 형성(34)은 시간 도메인 신호를 사용하여 이들 소스를 생성하고, 이들 소스는 관련된 메타 데이터와 함께 사운드 객체로서 출력된다. 액티브 스티어링(38)은 공간 분석(32) 또는 신호 형성(34)으로부터 입력을 수신하고 신호를 회전(예를 들어, 패닝)할 수 있다. 특히, 액티브 스티어링(38)은 신호 형성(34)으로부터 소스 출력을 수신할 수 있고, 공간 분석(32)의 출력에 기초하여 소스를 패닝할 수 있다. 액티브 스티어링(38)은 또한 헤드 트래커(36)로부터 회전 또는 병진 입력을 수신할 수 있다. 회전 또는 병진 입력에 기초하여, 액티브 스티어링은 음원을 회전 또는 병진한다. 예를 들어, 헤드 트래커(36)가 90°반 시계 방향 회전을 표시하면, 제1 음원은 사용자의 정면으로부터 좌측으로 회전하고, 제2 음원은 사용자의 우측으로부터 정면으로 회전할 것이다. 일단 임의의 회전 또는 병진 입력이 액티브 스티어링(38)에 적용되면, 역 FFT(40)에 출력이 제공되어, 하나 이상의 원거리장 채널(42) 또는 하나 이상의 근거리장 채널(44)을 생성하는데 사용된다. 소스 위치의 수정은 또한 3D 그래픽 분야에서 사용되는 소스 위치의 수정과 유사한 기술을 포함할 수 있다.

액티브 스티어링의 방법은 (공간 분석으로부터 계산된) 방향 및 VBAP와 같은 패닝 알고리즘을 사용할 수 있다. 방향 및 패닝 알고리즘을 사용함으로써, 병진 운동을 지원하는 계산량 증가는 주로 (회전에만 필요한 3×3과는 달리) 4×4 변환 매트릭스, 거리 패닝(원래 패닝 방법의 대략 두 배), 및 근거리장 채널에 대한 추가 IFFT(inverse fast Fourier transform)에 대한 변화의 비용이다. 이 경우 4×4 회전 및 패닝 동작은 신호가 아니라 데이터 좌표에 대한 것이고, 이것은 빈 그룹화(bin grouping)가 증가함에 따라 계산 비용이 절감되는 것을 의미한다는 것을 유의해야 한다. 도 14의 출력 믹스는 위에서 논의되고 도 21에 도시된 바와 같이 근거리장 지원을 갖는 유사하게 구성된 고정 HRTF 필터 네트워크에 대한 입력으로서의 역할을 할 수 있고, 따라서, 도 14는 앰비소닉 객체를 위한 이득/지연 네트워크로서의 기능을 수행할 수 있다.

깊이 인코딩(Depth Encoding)

일단 디코더가 병진 운동을 갖는 헤드 트랙킹을 지원하고 (액티브 디코딩 때문에) 합리적으로 정확한 렌더링을 가지면, 소스까지의 깊이를 직접 인코딩하는 것이 바람직할 것이다. 다시 말해서, 콘텐츠 생성 중에 깊이 표시기를 추가하는 것을 지원하기 위하여 전송 포맷 및 패닝 방정식을 수정하는 것이 바람직할 것이다. 믹스의 음량 및 잔향 변경과 같은 깊이 큐를 적용하는 일반적인 방법과 달리, 이 방법을 사용하면 믹스에서 소스의 거리를 복구할 수 있으므로, 생성 측의 최종 플레이백 기능이 아니라, 최종 플레이백 기능을 위해 렌더링될 수 있다. 허용 가능한 계산 비용, 복잡성 및 역 호환과 같은 요구 사항에 따라 트레이드 오프될 수 있는 상이한 트레이드 오프들을 가진 3가지 방법이 여기서 논의된다.

깊이 기반 서브 믹싱(N 믹스)

도 15는 깊이 및 헤드 트래킹을 갖는 액티브 디코더의 기능 블록도이다. 가장 직접적인 방법은 "N" 개의 독립적인 B-포맷 믹스의 병렬 디코드를 지원하는 것이고, 각각은 관련된 메타 데이터(또는 추정된) 깊이를 가진다. 예를 들어, 도 15는 깊이 및 헤드 트래킹을 갖는 액티브 디코더를 도시한다. 이 예에서 근거리장 및 원거리장 B-포맷은 선택적 "중간(Middle)" 채널과 함께 독립적인 믹스로서 렌더링된다. 대부분의 구현이 근거리장 높이 채널을 렌더링하지 못할 수 있으므로, 근거리장 Z-채널은 또한 선택적이다. 드롭(drop)될 때, 높이 정보는 원거리/중간에서 또는 근거리장 인코딩에 대해 아래에 논의된 가짜 근접(Faux Proximity)("Froximity") 방법을 사용하여 투영(project)된다. 다양한 깊이 믹스(근거리, 원거리, 중간 등)가 분리를 유지한다는 점에서, 결과는 전술한 "거리 패너"/ "근거리장 렌더러"와 동등한 앰비소닉이다. 그러나, 이 경우 임의의 디코딩 구성에 대해 총 8개 또는 9개의 채널만의 전송이 있고, 각 깊이에 완전히 독립적인 유연한 디코딩 레이아웃이 있다. 거리 패너와 마찬가지로, 이것은 "N" 믹스로 일반화되어 있지만, 대부분의 경우 두 가지가 사용될 수 있고(하나는 원거리장 그리고 하나는 근거리장), 이에 의해 원거리장보다 더 먼 소스는 거리 감쇠를 가지고 원거리장에서 믹스되고, 근거리장 내부의 소스는 반경 0에서 소스가 방향 없이 렌더링되도록 "Froximity" 스타일 수정 또는 투영이 있거나 없이 근거리장 믹스에 배치된다.

이 프로세스를 일반화하기 위해, 각각의 믹스와 일부 메타 데이터를 연관시키는 것이 바람직할 것이다. 이상적으로 각 믹스는 (1) 믹스의 거리, (2) 믹스의 포커스(또는 믹스가 얼마나 급격하게 디코딩되어야 하는지 - 따라서, 헤드 안의 믹스가 너무 많은 액티브 스티어링으로 디코딩되지 않음)로 태깅될 것이다. 다른 실시 예들은 거의 반사(또는 튜닝 가능한 반사 엔진)를 갖는 HRIR의 선택이 있는 경우 어느 공간 모델을 사용할지 나타내기 위하여 웨트(Wet)/드라이(Dry) 믹스 파라미터를 사용할 수 있다. 바람직하게는, 8-채널 믹스로서 전송하기 위해 추가 메타 데이터가 필요하지 않도록 적절한 가정이 레이아웃에 대하여 이루어질 것이고, 따라서, 기존 스트림 및 툴과 호환될 수 있다.

(WXYZD에서와 같은) 'D' 채널

도 16은 단일 스티어링 채널 'D'를 갖는 깊이 및 헤드 트래킹을 갖는 대안적인 액티브 디코더의 기능 블록도이다. 도 16은 가능한 중복 신호 세트(WXYZnear)가 하나 이상의 깊이(또는 거리) 채널 'D'로 대체되는 대안적인 방법이다. 깊이 채널은 앰비소닉 믹스의 유효 깊이에 대한 시간-주파수 정보를 인코딩하는 데 사용되고, 이것은 각 주파수에서 음원을 거리 렌더링하기 위해 디코더에 의해 사용될 수 있다. 'D' 채널은 예를 들어 0의 값(원점에서 헤드에 있음)으로서 복구될 수 있는 정규화된 거리로서 인코딩할 것이고, 0.25는 정확히 근거리장에 있고, 원거리장에서 완전히 렌더링되는 소스의 경우, 최대 1이다. 이러한 인코딩은 OdBFS와 같은 절대 값 참조를 사용하거나, "W" 채널과 같은 다른 채널들 중 하나 이상에 대한 상대적 크기 및/또는 위상에 의해 성취될 수 있다. 원거리장을 벗어남으로써 발생하는 임의의 실제 거리 감쇠는 레거시 솔루션에서와 같이 믹스의 B-포맷 부분에 의해 처리된다.

이러한 방식으로 거리 m을 처리함으로써, B-포맷 채널은 D 채널(들)을 드롭함으로써 기능적으로 정상 디코더와 역 호환 가능하고, 결과적으로 1의 거리 또는 "원거리장"이 가정된다. 그러나, 우리의 디코더는 이 신호(들)를 사용하여 근거리장 안밖으로 스티어링할 수 있을 것이다. 외부 메타 데이터가 필요 없기 때문에, 이 신호는 레거시 5.1 오디오 코덱과 호환될 수 있다. "N 믹스" 솔루션과 마찬가지로, 추가 채널(들)은 신호 속도이며, 모든 시간-주파수에 대해 정의된다. 이것은 B-포맷 채널과 동기화된 상태에서 유지되는 한, 임의의 빈 그룹화 또는 주파수 도메인 타일링과 또한 호환 가능하다는 것을 의미한다. 이 두 가지 호환성 요소는 이것을 특히 확장 가능한 솔루션으로 만든다. D 채널을 인코딩하는 한 가지 방법은, 각 주파수에서 W 채널의 상대적인 크기를 사용하는 것이다. 특정 주파수에서 D 채널의 크기가 해당 주파수에서 W 채널의 크기와 정확히 일치하면, 해당 주파수에서의 유효 거리는 1 또는 "원거리장"이다. 특정 주파수에서의 D 채널의 크기가 0이면, 해당 주파수에서 유효 거리는 0이며 이는 청취자의 헤드의 중간에 해당한다. 다른 예에서 특정 주파수에서 D 채널의 크기가 해당 주파수에서 W 채널의 크기의 0.25이면, 유효 거리는 0.25 또는 "근거리장"이다. 동일한 아이디어를 사용하여 각 주파수에서 W 채널의 상대적인 전력을 사용하여 D 채널을 인코딩할 수 있다.

D 채널을 인코딩하는 또 다른 방법은 각 주파수와 관련된 음원 방향(들)을 추출하기 위해 디코더에 의해 사용된 것과 정확히 동일한 방향 분석(공간 분석)을 수행하는 것이다. 특정 주파수에서 하나의 음원만 검출되면, 음원과 관련된 거리가 인코딩된다. 특정 주파수에서 2 개 이상의 음원이 검출되면, 음원과 관련된 거리의 가중 평균이 인코딩된다.

대안으로, 거리 채널은 특정 시간 프레임에서 각각의 개별 음원의 주파수 분석을 수행함으로써 인코딩될 수 있다. 각 주파수에서의 거리는 해당 주파수에서 가장 지배적인 음원과 관련된 거리로서 또는 해당 주파수에서의 액티브 음원과 관련된 거리의 가중 평균으로서 인코딩될 수 있다. 상술한 기술들은 총 N 개의 채널들로 확장하는 것과 같이 부가적인 D 개의 채널들로 확장될 수 있다. 디코더가 각 주파수에서 다수의 음원 방향을 지원할 수 있는 경우, 이러한 다수의 방향에서 연장 거리를 지원하기 위해 추가 D 채널이 포함될 수 있다. 소스 방향과 소스 거리가 올바른 인코딩/디코딩 순서로 관련되어 유지되도록 보장하기 위하여, 주의를 기울여야 한다.

가짜 근접 또는 "Froximity" 인코딩은 대안적인 코딩 시스템이고, 'D' 채널의 추가는 XYZ의 신호에 대한 W의 신호 비율이 원하는 거리를 표시하도록 'W 채널을 수정하는 것이다. 그러나, 일반적인 디코더는 디코딩시 에너지 보존을 보장하기 위해 채널들의 고정된 비율을 필요로 하기 때문에, 이 시스템은 표준 B-포맷과 역 호환되지 않는다. 이 시스템은 이러한 레벨 변동을 보상하기 위해 "신호 형성" 섹션에서 액티브 디코딩 로직을 필요로 할 것이며, 인코더는 XYZ 신호를 사전 보상하기 위해 방향 분석을 필요로 할 것이다. 또한, 시스템은 다수의 상관된 소스를 반대쪽으로 스티어링할 때 한계가 있다. 예를 들어, 좌측/우측, 앞/뒤, 또는 위/아래의 2 개의 소스는 XYZ 인코딩에서 0으로 줄어들 것이다. 이와 같이, 디코더는 해당 대역에 대해 "제로 방향" 가정을 하고, 두 소스를 중간으로 렌더링하도록 강제될 것이다. 이 경우, 분리된 D 채널은 소스가 모두 'D'의 거리를 가지도록 스티어링되게 할 수 있었을 것이다.

근접성을 표시하기 위한 근접 렌더링의 능력을 최대화하기 위해, 선호되는 인코딩은 소스가 가까워짐에 따라 W 채널 에너지를 증가시키는 것일 것이다. 이는 XYZ 채널의 무료(complimentary) 감소에 의해 균형을 이룰 수 있다. 이 스타일의 근접성은 전반적인 정규화 에너지를 증가시키면서 "지향성"을 낮춤으로써 "근접성"을 동시에 인코딩하므로, 결과적으로 더 많은 "현재"의 소스가 된다. 이것은 액티브 디코딩 방법들 또는 동적 깊이 향상에 의해 더욱 향상될 수 있을 것이다.

도 17은 메타 데이터 깊이만을 갖는 깊이 및 헤드 트래킹을 갖는 액티브 디코더의 기능 블록도이다. 대안적으로, 전체 메타 데이터를 사용하는 것은 선택적이다. 이 대안에서, B-포맷 신호는 그와 함께 전송될 수 있는 메타 데이터로만 증강된다. 이는 도 17에 도시된다. 최소한, 메타 데이터는 (믹스를 근거리 또는 원거리로 라벨링하는 것과 같이) 전체 앰비소닉 신호에 대한 깊이를 정의하지만, 하나의 소스가 전체 믹스의 거리를 수정하는 것을 막기 위하여 다수의 주파수 대역에서 이상적으로 샘플링될 것이다.

예를 들어, 요구되는 메타 데이터는 믹스를 렌더링하기 위하여 깊이(또는 반경) 및 "포커스"를 포함하는데, 이는 위의 N 믹스 솔루션과 동일한 파라미터이다. 바람직하게, 이 메타 데이터는 동적이며, 콘텐츠와 함께 변할 수 있고, 주파수마다 또는 적어도 그룹화된 값의 임계 대역 내에 있다.

일례에서, 선택적 파라미터는 웨트/드라이 믹스를 포함하거나, 거의 초기 반사 또는 "룸 사운드"를 포함할 수 있다. 이것은 그 후 초기 반사/리버브(reverb) 믹스 레벨에 대한 제어로서 렌더러에 주어질 수 있다. 이것은 근거리장 또는 원거리장 BRIR(binaural room impulse response)를 사용하여 달성될 수 있다는 것을 유의해야 하고, BRIR은 또한 거의 드라이하다.

공간 신호의 최적 전송

상기 방법들에서, 우리는 앰비소닉 B-포맷을 확장시키는 특별한 경우를 설명하였다. 이 문서의 나머지 부분에서는 더 넓은 의미에서 공간 장면 코딩으로의 확장에 초점을 맞출 것이지만, 본 발명 내용의 핵심 요소를 강조하는 데 도움이 된다.

도 18은 가상 현실 애플리케이션을 위한 예시적인 최적 전송 시나리오를 도시한다. 전송 대역폭을 비교적 낮게 유지하면서 고급 공간 렌더러의 성능을 최적화하는 복잡한 사운드 장면의 효율적인 표현을 식별하는 것이 바람직하다. 이상적인 솔루션에서는 표준 오디오 전용 코덱과 호환이 유지되는 최소 수의 오디오 채널로 복잡한 사운드 장면(다중 소스, 베드 믹스 또는 높이 및 깊이 정보를 포함한 풀 3D 위치 지정이 가능한 사운드 필드)을 완벽하게 표현할 수 있다. 다시 말해서, 새로운 코덱을 만들거나 메타 데이터 측면 채널에 의존하지 말고, 기존의 전송 경로(일반적으로 오디오 전용)를 통해 최적의 스트림을 전송하는 것이 이상적일 것이다. "최적" 전송은 높이 및 깊이 렌더링과 같은 고급 특징의 애플리케이션 우선 순위에 따라 다소 주관적이라는 것이 명백해진다. 이 설명의 목적을 위해, 가상 현실과 같은 풀 3D 및 헤드 또는 위치 트래킹이 필요한 시스템에 중점을 둘 것이다. 일반화된 시나리오는 도 18에 제공되고, 도 18은 가상 현실을 위한 예시적인 최적 전송 시나리오이다.

출력 포맷에 구속받지 않고 임의의 레이아웃 또는 렌더링 방법으로의 디코딩을 지원하는 것이 바람직하다. 애플리케이션은 임의의 수의 오디오 객체(위치를 가진 모노 스템), 베이스/베드 믹스 또는 기타 사운드 필드 표현(예를 들어, 앰비소닉스)을 인코딩하려고 시도하고 있을 수 있다. 선택적인 헤드/위치 트래킹을 사용하면, 재배포를 위해 소스를 복구하거나 렌더링 중에 부드럽게 회전/병진할 수 있다. 더욱이 잠재적으로 비디오가 있기 때문에 오디오는 상대적으로 높은 공간 해상도로 생성되어야 음원의 시각적 표현에서 분리되지 않는다. 본 명세서에 설명된 실시 예는 비디오를 필요로 하지 않는다는 것을 유의해야 한다(포함되지 않은 경우, A/V 먹싱(muxing) 및 디먹싱(demuxing)은 필요하지 않음). 또한, 다중 채널 오디오 코덱은 전송을 위해 컨테이너 포맷으로 오디오를 패키징하는 한, 무손실 PCM 웨이브 데이터만큼 단순하거나 저비트율 인식 코더(perceptual coder)만큼 앞선 것일 수 있다.

객체들, 채널들, 및 장면 기반 표현

가장 완전한 오디오 표현은 독립적인 객체(원하는 결과를 얻기 위해 올바른 방법 및 위치로 렌더링하기 위해, 각각은 하나 이상의 오디오 버퍼 및 필요한 메타 데이터로 구성됨)를 유지함으로써 달성된다. 이것은 동적인 소스 관리가 필요할 수 있기 때문에, 최대 양의 오디오 신호를 필요로 하며, 더 문제가 될 수 있다.

채널 기반 솔루션은 렌더링될 것의 공간 샘플링으로서 볼 수 있다. 결국, 채널 표현은 최종 렌더링 라우드 스피커 레이아웃 또는 HRTF 샘플링 해상도와 일치해야 한다. 일반화된 업/다운믹스 기술이 상이한 포맷으로의 적응을 허용하는 반면, 한 포맷에서 다른 포맷으로의 각 천이, 헤드/위치 트래킹을 위한 적응 또는 다른 천이는 "리패닝(repanning)" 소스를 초래할 것이다. 이것은 최종 출력 채널들 사이의 상관 관계를 증가시킬 수 있으며, HRTF의 경우 감소된 외재화(externalization)를 초래할 수 있다. 다른 한편, 채널 솔루션은 기존 믹싱 아키텍처와 매우 호환되며, 추가 소스에 견고하며, 추가 소스를 언제든지 베드믹스에 추가하는 것은 이미 믹스에 있는 소스의 전송 위치에 영향을 주지 않는다.

장면 기반 표현은 오디오 채널을 사용하여 위치 오디오의 설명을 인코딩함으로써 한 단계 더 나아간다. 이것은 최종 포맷이 스테레오 페어로서 플레이될 수 있거나 원래 사운드 장면에 더 가까운 더 많은 공간 믹스로 "디코딩"될 수 있는 매트릭스 인코딩과 같은 채널 호환 옵션을 포함할 수 있다. 대안적으로, 직접 플레이되거나 플레이되지 않을 수 있지만, 공간적으로 디코딩되어 임의의 출력 포맷으로 렌더링될 수 있는 신호들의 세트로서 사운드 필드 설명을 직접 "캡처"하기 위하여 앰비소닉스(B-포맷, UHJ, HOA 등)와 같은 솔루션이 사용될 수 있다. 그러한 장면 기반 방법은 제한된 수의 소스에 대해 유사한 공간 해상도를 제공하면서 채널 카운트를 상당히 감소시킬 수 있다; 그러나 장면 레벨에서 다수의 소스의 상호 작용은 본질적으로 개별 소스가 손실된 지각 방향 인코딩으로 포맷을 감소시킨다. 결과적으로, 디코드 프로세스 중에 소스 누설 또는 흐려짐(blurring)이 발생하여 유효 해상도가 낮아질 수 있다(채널을 희생하는 더 높은 차수의 앰비소닉스 또는 주파수 도메인 기술로 개선될 수 있음).

개선된 장면 기반 표현은 다양한 코딩 기술을 사용하여 달성될 수 있다. 예를 들어 액티브 디코딩은 인코딩된 신호에 대한 공간 분석을 수행하거나 신호의 부분/패시브 디코딩을 수행한 다음 개별 패닝을 통해 신호의 해당 부분을 검출된 위치로 직접 렌더링함으로써, 장면 기반 인코딩의 누설을 감소시킨다. 예를 들어, DTS 뉴럴 서라운드(Neural Surround)의 매트릭스 디코딩 프로세스 또는 DirAC의 B-포맷 프로세싱이다. 경우에 따라, Harpex(High Angular Resolution Planewave Expansion)의 경우와 같이, 여러 방향이 검출되고 렌더링될 수 있다.

다른 기술은 주파수 인코딩/디코딩을 포함할 수 있다. 대부분의 시스템은 주파수에 종속되는 처리의 이점을 크게 누릴 것이다. 시간-주파수 분석 및 합성의 오버헤드 비용으로, 공간-분석이 주파수-도메인에서 수행되어, 비-중첩 소스들이 각각의 방향으로 독립적으로 스티어링되도록 할 수 있다.

추가적인 방법은 인코딩을 알리기 위해 디코딩의 결과를 사용하는 것이다. 예를 들어, 다중 채널 기반 시스템이 스테레오 매트릭스 인코딩으로 축소되고 있을 때이다. 매트릭스 인코딩은 첫 번째 패스(pass)에서 이루어지고, 디코딩되며, 원래의 다중 채널 렌더링과 비교하여 분석된다. 검출된 에러를 기반으로, 최종 디코딩된 출력을 원본 다중 채널 콘텐츠와 보다 잘 정렬시킬 수정으로 두 번째 패스 인코딩이 이루어진다. 이러한 유형의 피드백 시스템은 이미 상술된 주파수 종속적인 액티브 디코딩을 이미 갖는 방법들에 가장 적용 가능하다.

깊이 렌더링 및 소스 병진 운동

본 명세서에서 앞서 설명된 거리 렌더링 기술은 바이노럴 렌더링에서 깊이/근접성의 감각을 달성한다. 이 기술은 거리 패닝을 사용하여, 두 개 이상의 참조 거리에 걸쳐 음원을 분배한다. 예를 들어, 원거리장 HRTF 및 근거리장 HRTF의 가중 밸런스가 타겟 깊이를 달성하기 위해 렌더링된다. 다양한 깊이의 서브 믹스를 생성하기 위하여 그러한 거리 패너를 사용하는 것은 또한 깊이 정보의 인코딩/전송에 유용할 수 있다. 근본적으로, 서브 믹스는 모두 장면 인코딩의 동일한 지향성을 나타내지만, 서브 믹스의 조합은 그들의 상대적인 에너지 분포를 통해 깊이 정보를 드러낸다. 이러한 분포는 (1) 깊이의 직접 양자화("근거리" 및 "원거리"와 같은 관련성을 위해 고르게 분포되거나 그룹화됨); 또는 (2) 소정의 기준 거리보다 가깝거나 멀리 있는 상대적인 스티어링(예를 들어, 일부 신호는 원거리장 믹스의 나머지보다 더 가까운 것으로 이해됨)일 수 있다.

거리 정보가 전송되지 않는 경우에도, 디코더는 깊이 패닝을 사용하여 소스의 병진 운동을 포함하는 3D 헤드 트래킹을 구현할 수 있다. 믹스에 표현된 소스는 방향 및 기준 거리에서 비롯된 것으로 가정한다. 청취자가 공간에서 움직일 때, 청취자로부터 소스까지의 절대 거리에 변화의 감각을 도입하기 위해 거리 패너를 사용하여 소스를 다시 패닝할 수 있다. 풀 3D 바이노럴 렌더러가 사용되지 않는다면, 예를 들어 공동 소유된 미국 특허 제9,332,373호에 기술된 바와 같이, 깊이의 인식을 변경하는 다른 방법이 확장에 의해 사용될 수 있으며, 그 내용은 본 명세서에 참고로 포함된다. 중요한 것은, 오디오 소스의 병진 운동은 여기에 설명된 것처럼 수정된 깊이 렌더링을 요구한다는 것이다.

전송 기술

도 19는 액티브 3D 오디오 디코딩 및 렌더링을 위한 일반화된 아키텍처를 도시한다. 인코더의 수용 가능한 복잡성 또는 기타 요구 사항에 따라 다음 기술을 사용할 수 있다. 아래에 논의된 모든 솔루션은 위에서 설명한 대로 주파수 종속적인 액티브 디코딩의 혜택을 받는 것으로 가정한다. 또한 깊이 정보를 인코딩하는 새로운 방법에 주로 초점을 맞추고 있으며, 이 계층 구조를 사용하려는 동기는 오디오 객체 이외에, 깊이가 클래식 오디오 포맷으로 직접 인코딩되지 않는다는 것임을 알 수 있다. 예를 들어, 깊이는 재도입되어야 하는 누락 치수(dimension)이다. 도 19는 아래에서 논의되는 솔루션에 사용되는 액티브 3D 오디오 디코딩 및 렌더링을 위한 일반화된 아키텍처에 대한 블록도이다. 신호 경로는 명확성을 위해 단일 화살표로 도시되어 있지만, 이들은 임의의 수의 채널 또는 바이노럴/트랜스오럴(transaural) 신호 페어를 나타냄을 이해해야 한다.

도 19에서 알 수 있는 바와 같이, 오디오 신호 및 선택적으로 오디오 채널을 통해 전송된 데이터 또는 메타 데이터는 각각의 시간-주파수 빈을 렌더링하기 위해 원하는 방향 및 깊이를 결정하는 공간 분석에서 사용된다. 오디오 소스는 신호 형성을 통해 재구성되며, 신호 형성은 오디오 채널, 패시브 매트릭스 또는 앰비소닉 디코딩의 가중화된 합으로서 볼 수 있다. "오디오 소스"는 그 후 헤드 또는 위치 트래킹을 통한 청취자 이동에 대한 임의의 조정을 포함하는 최종 오디오 포맷에서 원하는 위치로 액티브하게 렌더링된다.

이러한 프로세스가 시간 주파수 분석/합성 블록 내에 도시되어 있지만, 주파수 처리가 FFT에 기초할 필요는 없다는 것이 이해되며, 그것은 임의의 시간 주파수 표현일 수 있다. 또한, 중요한 블록들의 전부 또는 일부는 (주파수 종속적인 처리 없이) 시간 도메인에서 수행될 수 있다. 예를 들어, 이 시스템은 시간 및/또는 주파수 도메인 처리의 추가적인 믹스에서 HRTF/BRTR의 세트에 의해 나중에 렌더링될 새로운 채널 기반 오디오 포맷을 생성하는데 사용될 수 있다.

도시된 헤드 트랙커는 3D 오디오가 조정되어야 하는 회전 및/또는 병진 ㅇ우운동의 임의의 표시인 것으로 이해된다. 일반적으로, 조정은 요/피치/롤(Yaw/Pitch/Roll), 쿼터니온(quaternion) 또는 회전 매트릭스 및 상대적 배치를 조정하는 데 사용되는 청취자의 위치가 될 것이다. 오디오가 의도된 사운드 장면이나 시각적 컴포넌트와 절대적인 정렬을 유지하도록 조정이 수행된다. 액티브 스티어링은 가장 가능성이 있는 애플리케이션의 장소이지만, 이 정보는 또한 소스 신호 형성과 같은 다른 프로세스의 결정을 알리는 데 사용될 수 있음을 이해해야 한다. 회전 및/또는 병진 운동의 표시를 제공하는 헤드 트래커는 헤드 착용 가상 현실 또는 증강 현실 헤드셋, 관성 또는 위치 센서를 가진 휴대용 전자 디바이스, 또는 다른 회전 및/또는 병진 추적 전자 디바이스로부터의 입력을 포함할 수 있다. 헤드 트래커 회전 및/또는 병진 운동은 또한 전자 제어기로부터의 사용자 입력과 같은 사용자 입력으로서 제공될 수 있다.

세 가지 레벨의 솔루션이 제공되며 아래에서 자세히 논의된다. 각 레벨에는 적어도 기본 오디오 신호가 있어야 한다. 이 신호는 임의의 공간 포맷 또는 장면 인코딩일 수 있으며, 일반적으로 다중 채널 오디오 믹스, 매트릭스/위상 인코딩된 스테레오 페어 또는 앰비소닉 믹스의 일부 조합일 것이다. 각각은 전통적인 표현을 기반으로 하기 때문에, 각 서브 믹스가 특정 거리 또는 거리의 조합에 대해 좌측/우측, 앞/뒤 및 이상적으로 위/아래(높이)를 나타낼 것으로 예상된다.

오디오 샘플 스트림을 나타내지 않는 추가적인 선택적 오디오 데이터 신호는 메타 데이터로서 제공되거나 오디오 신호로서 인코딩될 수 있다. 그것들은 공간 분석이나 스티어링을 알리는 데 사용될 수 있다; 그러나, 데이터는 오디오 신호를 완전히 나타내는 기본 오디오 믹스에 보조적인 것으로 가정되기 때문에, 일반적으로 최종 렌더링을 위해 오디오 신호를 형성할 필요가 없다. 메타 데이터를 사용할 수 있다면, 솔루션은 또한 "오디오 데이터"도 사용하지 않을 것이지만, 하이브리드 데이터 솔루션이 가능할 것으로 예상된다. 유사하게, 가장 단순하고 가장 역 호환 가능한 시스템은 진정한 오디오 신호에만 의존할 것이라고 가정한다.

깊이-채널 코딩

깊이-채널 코딩 또는 "D" 채널의 개념은 주어진 서브 믹스의 각 시간-주파수 빈에 대한 주요 깊이/거리가 각각의 빈에 대한 크기 및/또는 위상에 의해 오디오 신호로 인코딩되는 것이다. 예를 들어, 최대/기준 거리에 상대적인 소스 거리는 OdBFS를 기준으로 핀 별 크기에 의해 인코딩되어 -inf dB는 거리가 없는 소스이고 전체 스케일은 기준/최대 거리에서의 소스이다. 레거시 믹싱 포맷에서 이미 가능했던 레벨 또는 거리의 다른 믹스 레벨 표시의 감소에 의해서만 소스가 변경되는 것으로 간주되는 것은 기준 거리 또는 최대 거리를 넘는 것으로 가정된다. 다시 말해서, 최대/기준 거리는 소스가 깊이 코딩을 하지 않고 일반적으로 렌더링되는 전통적인 거리이며, 이는 전술한 원거리장이라고도 지칭된다.

대안적으로, "D" 채널은 깊이가 다른 기본 채널들 중 하나 이상에 대한 "D" 채널의 크기 및/또는 위상의 비율로서 인코딩되도록 하는 스티어링 신호일 수 있다. 예를 들어, 깊이는 앰비소닉스에서 옴니 "W" 채널에 대한 "D"의 비율로서 인코딩될 수 있다. OdBFS 또는 다른 절대 레벨 대신에 인코딩을 다른 신호에 대해 상대적이도록 함으로써, 인코딩은 오디오 코덱의 인코딩 또는 레벨 조정과 같은 다른 오디오 프로세스에 보다 강건할 수 있다.

디코더가 이 오디오 데이터 채널에 대한 인코딩 가정을 알고 있는 경우, 디코더 시간-주파수 분석 또는 지각 그룹화가 인코딩 프로세스에서 사용된 것과 상이하더라도 필요한 정보를 복구할 수 있을 것이다. 이러한 시스템의 주된 어려움은 주어진 서브 믹스에 대해 단일 깊이 값을 인코딩해야 한다는 것이다. 다수의 중첩된 소스가 표현되어야 하는지 여부를 의미하므로, 그들은 별도의 믹스로 전송되어야 하거나 주요 거리가 선택되어야 한다. 다중 채널 베드 믹스와 함께 이 시스템을 사용할 수는 있지만, 시간-주파수 스티어링이 이미 디코더에서 분석되고 있고 채널 카운트가 최소로 유지되고 있는 앰비소닉 또는 매트릭스 인코딩 장면을 강화하는 데 이러한 채널을 사용할 가능성이 더 크다.

앰비소닉 기반 인코딩

제안된 앰비소닉 솔루션에 대한 보다 상세한 설명은 상기 "깊이 코딩을 사용하는 앰비소닉" 섹션을 참고하라. 이러한 접근법은 B-포맷 + 깊이를 전송하기 위한 최소 5-채널 믹스 W, X, Y, Z 및 D를 초래할 것이다. 깊이 인코딩이 X, Y, Z 방향성 채널에 대한 W(무지향성 채널)의 에너지 비율에 의해 기존 B-포맷에 통합되어야 하는 가짜 근접성 또는 "Froximity" 방법이 또한 논의된다. 4 개의 채널만의 전송을 허용하는 경우, 다른 4-채널 인코딩 방식에서 가장 잘 처리할 수 있는 다른 단점이 있다.

매트릭스 기반 인코딩

매트릭스 시스템은 이미 전송된 것에 깊이 정보를 부가하기 위해 D 채널을 이용할 수 있다. 예를 들어, 단일 스테레오 페어는 각각의 부대역에서 소스에 대한 방위각 및 고도 헤딩을 둘다 나타내기 위해 이득-위상 인코딩된다. 따라서, 3 개의 채널(MatrixL, MatrixR, D)은 풀 3D 정보를 전송하기에 충분할 것이며, MatrixL, MatrixR은 역 호환성 스테레오 다운믹스를 제공한다.

대안적으로, 높이 정보는 높이 채널(MatrixL, MatrixR, HeightMatrixL, HeightMatrixR, D)에 대한 별도의 매트릭스 인코딩으로서 전송될 수 있다. 그러나이 경우 "D" 채널과 비슷한 "높이"를 인코딩하는 것이 유리할 수 있다. 그것은 (MatrixL, MatrixR, H, D)를 제공할 것이고, MatrixL 및 MatrixR은 역 호환성 스테레오 다운믹스를 나타내며, H 및 D는 위치 스티어링만을 위한 선택적인 오디오 데이터 채널이다.

특별한 경우에, "H" 채널은 본질적으로 B-포맷 믹스의 "Z" 또는 높이 채널과 유사할 수 있다. 스티어링 업을 위해 양의 신호를 사용하고, 스티어링 다운을 위해 음의 신호를 사용하는 것 - "H"와 매트릭스 채널 사이의 에너지 비율의 관계는 얼마나 멀리 스티어링 업 또는 다운할지를 표시할 것이다. "Z" 대 "W" 채널의 에너지 비율이 B-포맷 믹스에서와 거의 비슷하다.

깊이-기반 서브 믹싱

깊이 기반 서브 믹싱은 원거리(전형적 렌더링 거리) 및 근거리(근접성)와 같은 상이한 키 깊이에서 2 이상의 믹스를 생성하는 것을 포함한다. 깊이 제로 또는 "중간" 채널 및 원거리(최대 거리 채널)에 의해 완전한 설명을 얻을 수 있지만, 전송된 심도가 깊을수록, 최종 렌더러가 더 정확하고 유연해진다. 다시 말해서, 서브 믹스의 수는 각 개별 소스의 깊이에 대한 양자화로서 작용한다. 양자화된 깊이에서 정확하게 해당하는 소스는 가장 높은 정확도로 직접 인코딩되므로, 서브 믹스가 렌더러를 위한 상대적 깊이에 대응하는 것이 또한 유리하다. 예를 들어, 바이노럴 시스템에서 근거리장 믹스 깊이는 근거리장 HRTF의 깊이와 대응해야 하고, 원거리장는 우리의 원거리장 HRTF에 대응해야 한다. 깊이 코딩에 비하여 이 방법의 주된 이점은 믹싱이 추가적이고, 다른 소스에 대한 고급 지식이나 사전 지식이 필요하지 않다는 것이다. 어떤 의미에서는 그것은 "완전한(complete)" 3D 믹스의 전송이다.

도 20은 3 개의 깊이에 대한 깊이-기반 서브 믹싱의 예를 도시한다. 도 20에 도시된 바와 같이, 3 개의 깊이는 중간(헤드의 중심을 의미), 근거리장(청취자 헤드의 주변을 의미) 및 원거리장(우리의 전형적인 원거리장 믹스 거리를 의미)를 포함할 수 있다. 임의의 수의 깊이가 사용될 수 있지만, (도 1a와 같이) 도 20은 HRTF가 헤드(근거리장) 바로 근처 및 1 미터보다 큰 전형적인 원거리장 거리 및 전형적으로 2-3 미터에서 샘플링된 바이노럴 시스템에 대응한다. 소스 "S"가 정확히 원거리장의 깊이일 때, 그것은 원거리장 믹스에만 포함될 것이다. 소스가 원거리장 너머로 연장될 때, 그 레벨은 감소할 것이고 선택적으로 그것은 더 울려퍼지거나 덜 "직접적인" 사운딩이 될 것이다. 다시 말해서, 원거리장 믹스는 정확히 표준 3D 레거시 애플리케이션에서 다뤄질 방식이다. 소스가 근거리장 쪽으로 천이됨에 따라, 소스는 더 이상 원거리장 믹스에 기여하지 않을 곳으로부터 정확히 근거리장에 있는 지점까지 원거리장 및 근거리장 믹스와 동일한 방향에서 인코딩된다. 믹스 사이의 크로스 페이딩 동안, 전체 소스 이득이 증가할 수 있고, "근접성"의 감각을 연출하기 위하여 렌더링이 더 직접적/드라이해질 수 있다. 만일 소스가 헤드의 중간("M") 내로 계속되도록 허용된다면, 그것은 결국 청취자가 방향을 인지하지 못하고 마치 헤드 내부에서 나오고 있는 것처럼 인지하도록, 다수의 근거리장 HRTF 또는 하나의 대표적인 중간 HRTF 상에 결국 렌더링될 것이다. 인코딩 측에서 이러한 내부 패닝을 수행하는 것이 가능한 반면, 중간 신호를 전송하면 최종 렌더러가 헤드 트랙킹 동작에서 소스를 더 잘 조작할 수 있을 뿐만 아니라 최종 렌더러의 기능에 기초하여 "중간-패닝" 소스에 대한 최종 렌더링 방법을 선택할 수 있다.

이 방법은 2 개 이상의 독립적인 믹스 사이의 크로스 페이딩에 의존하기 때문에, 깊이 방향을 따라 소스가 더 많이 분리된다. 예를 들어, 유사한 시간-주파수 콘텐츠를 가진 소스(S1 및 S2)는 동일하거나 상이한 방향, 상이한 깊이를 가질 수 있으며 완전히 독립된 상태를 유지할 수 있다. 디코더 측에서, 원거리장은 기준 거리 D1의 거리를 모두 갖는 소스들의 믹스로서 취급될 것이며, 근거리장은 기준 거리 D2를 모두 갖는 소스들의 믹스로서 취급될 것이다. 그러나, 최종 렌더링 가정에 대한 보상이 있어야 한다. Dl = 1(소스 레벨이 OdB인 최대 기준 거리) 및 D2 = 0.25(소스 레벨이 +12dB라고 가정되는 근접성에 대한 기준 거리)인 경우를 예로 든다. 렌더러는 D1에서 렌더링하는 소스에 대해 12dB 이득 및 D1에서 렌더링하는 소스에 대해 0dB 이득을 적용할 거리 패너를 사용하고 있기 때문에, 전송된 믹스는 타겟 거리 이득에 대해 보상되어야 한다.

예를 들어, 믹서가 D1과 D2 사이의 절반 거리 D(50%는 근거리 및 50%는 원거리)에 소스 S1를 배치하면, 이상적으로 6dB의 소스 이득을 가지게 될 것이고, 이는 원거리장에서 "S1 원거리" 6dB로서 인코딩되어야 하고, 근거리장에서 "S1 근거리" -6dB(6dB-12dB)로서 인코딩되어야 한다. 시스템은 디코딩되고 다시 렌더링될 때, +6dB(또는 6dB-12dB+12dB)에서 S1 근거리를 플레이하고, +6dB(6dB+0dB+0dB)에서 S1 원거리를 플레이할 것이다.

유사하게, 믹서가 동일한 방향으로 거리 D = D1에 소스 S1를 배치한다면, 원거리장에서만 OdB의 소스 이득으로 인코딩될 것이다. 그런 다음 렌더링하는 동안 청취자가 S1 방향으로 이동하여, D가 D1과 D2의 중간에서 다시 동일해지고, 렌더링 측의 거리 패너가 다시 6dB 소스 이득을 적용하고 근거리 HRTF와 원거리 HRTF 사이에 S1를 재분배할 것이다. 이것은 전술한 바와 같은 동일한 최종 렌더링을 초래한다. 이것은 단지 예시적인 것이며 거리 이득이 사용되지 않는 경우를 포함하는 다른 값이 전송 포맷에서 수용될 수 있음을 이해할 것이다.

앰비소닉 기반 인코딩

앰비소닉 장면들의 경우, 최소 3D 표현은 4-채널 B-포맷(W, X, Y, Z) + 중간 채널로 구성된다. 추가 깊이는 일반적으로 각각 4 개의 채널의 추가 B-포맷 믹스로 제시될 것이다. 전체 원거리-근거리-중간 인코딩은 9 개의 채널을 필요로 할 것이다. 그러나 근거리장이 높이 없이 종종 렌더링되기 때문에, 근거리장을 수평으로만 단순화하는 것이 가능하다. 그 후, 상대적으로 효과적인 구성이 8 개의 채널(W, X, Y, Z 원거리장, W, X, Y 근거리장, 중간)로 달성될 수 있다. 이 경우, 근거리장으로 패닝되는 소스는 원거리장 및/또는 중간 채널의 조합으로 투영된 높이를 가진다. 이것은 주어진 거리에서 소스 높이가 증가할 때 사인/코사인 페이드(또는 유사하게 간단한 방법)를 사용하여 달성될 수 있다.

만일 오디오 코덱에 7 개 이하의 채널이 필요한 경우, (W X Y Z Mid)의 최소 3D 표현 대신 (W, X, Y, Z 원거리장, W, X, Y 근거리장)를 전송하는 것이 여전히 바람직하다. 트레이드 오프는 여러 소스에 대한 깊이 정확도 대(versus) 헤드에 대한 완벽한 제어에 있다. 소스 위치가 근거리장 이상으로 제한되는 것이 허용 가능한 경우, 추가 지향성 채널은 최종 렌더링의 공간 분석 중에 소스 분리를 개선할 것이다.

매트릭스 기반 인코딩

유사한 확장에 의해, 다수의 매트릭스 또는 이득/위상 인코딩된 스테레오 페어가 사용될 수 있다. 예를 들어, MatrixFarL, MatrixFarR, MatrixNearL,MatrixNearR, Middle, LFE의 5.1 전송이 풀 3D 사운드 필드에 필요한 모든 정보를 제공할 수 있다. 매트릭스 페어가 높이를 완전히 인코딩할 수 없는 경우(예를 들어, DTS 뉴럴(Neural)과 역 호환되도록 하려는 경우) 추가 MatrixFarHeight 페어를 사용할 수 있다. 높이 스티어링 채널을 사용하는 하이브리드 시스템은 D 채널 코딩에서 논의된 것과 유사하게 추가될 수 있다. 그러나, 7-채널 믹스의 경우 위와 같은 앰비소닉 사운드가 바람직하다는 것이 예상된다.

다른 한편으로, 완전한 방위각 및 고도 방향이 매트릭스 페어로부터 디코딩될 수 있는 경우, 이 방법에 대한 최소 구성은 심지어 임의의 저비트율 코딩 전에 요구된 전송 대역폭에서 이미 상당한 절약인 3 개의 채널(MatrixL, MatrixR, Mid)이다.

메타 데이터/코덱

("D" 채널 코딩과 같은) 전술한 방법들은 데이터가 오디오 코덱의 다른 면에서 정확하게 복원되는 것을 보장하는 보다 쉬운 방법으로서 메타 데이터에 의해 도움을 받을 수 있다. 그러나, 이러한 방법은 더 이상 레거시 오디오 코덱과 호환되지 않는다.

하이브리드 솔루션

위에서 별도로 논의되었지만, 각각의 깊이 또는 서브 믹스의 최적의 인코딩은 애플리케이션 요구 사항에 따라 상이할 수 있다는 것이 잘 이해된다. 위에서 언급했듯이, 앰비소닉 스티어링을 가진 매트릭스 인코딩의 하이브리드를 사용하여, 매트릭스로 인코딩된 신호에 높이 정보를 추가하는 것이 가능하다. 유사하게, 깊이 기반 서브 믹스 시스템에서 하나의, 임의의, 또는 모든 서브 믹스에 대해 D-채널 코딩 또는 메타 데이터를 사용하는 것이 가능하다.

또한, 깊이-기반 서브 믹싱이 중간 스테이징 포맷으로서 사용되는 것이 가능하고, 일단 믹스가 완료되면, 채널 카운트를 더 감소시키기 위해 "D" 채널 코딩이 사용될 수 있다. 기본적으로 여러 깊이 믹스를 단일 믹스 + 깊이로 인코딩한다.

사실, 여기서의 주요한 제안은 우리가 기본적으로 3 가지를 모두 사용한다는 것이다. 믹스는 먼저 거리 패너를 사용하여 깊이 기반 서브 믹스로 분해(decompose)되고, 이에 의해 각 서브 믹스의 깊이가 일정해지고 전송되지 않은 암시된 깊이 채널을 허용한다. 그러한 시스템에서, 깊이 코딩은 우리의 깊이 제어를 증가시키는 데 사용되고 있는 반면, 서브 믹싱은 단일 방향 믹스를 통해 달성되는 것보다 나은 소스 방향 분리를 유지하는 데 사용된다. 그 후 최종적인 절충안은 오디오 코덱, 최대 허용 대역폭 및 렌더링 요구 사항과 같은 애플리케이션 세부 사항을 기반으로 선택될 수 있다. 또한, 이들 선택은 전송 포맷에서 각각의 서브 믹스에 대해 상이할 수 있고, 최종 디코딩 레이아웃은 여전히 상이할 수 있고, 특정 채널을 렌더링하는 렌더러 능력에만 의존할 수 있음이 이해된다.

본 개시는 상세히 예시적인 실시 예를 참조하여 설명되었지만, 실시 예들의 범위를 벗어나지 않으면서 다양한 변경 및 수정이 이루어질 수 있음은 당업자에게 명백할 것이다. 따라서, 본 개시는 첨부된 청구항 및 그 균등 범위 내에 있는 경우 본 개시의 수정 및 변형을 포함하는 것으로 의도된다.

본 명세서에 개시된 방법 및 장치를 더 잘 설명하기 위해, 실시 예들의 비 제한적인 목록이 여기에 제공된다.

예 1은 근거리장 바이노럴 렌더링 방법이며, 음원 및 오디오 객체 위치를 포함하는 오디오 객체를 수신하는 단계; 상기 오디오 객체 위치 및 위치 메타 데이터 - 상기 위치 메타 데이터는 청취자 위치 및 청취자 배향을 표시함 - 에 기초하여 방사상 가중치의 세트를 결정하는 단계; 상기 오디오 객체 위치, 상기 청취자 위치 및 상기 청취자 배향에 기초하여 소스 방향을 결정하는 단계; 적어도 하나의 HRTF 방사상 경계에 대한 상기 소스 방향에 기초하여 HRTF(head-related transfer function) 가중치의 세트 - 상기 적어도 하나의 HRTF 방사상 경계는 근거리장 HRTF 오디오 경계 반경 및 원거리장 HRTF 오디오 경계 반경 중 적어도 하나를 포함함 - 를 결정하는 단계; 상기 방사상 가중치의 세트 및 상기 HRTF 가중치의 세트에 기초하여, 오디오 객체 방향 및 오디오 객체 거리를 포함하는 3D 바이노럴 오디오 객체 출력을 생성하는 단계; 및 상기 3D 바이노럴 오디오 객체 출력에 기초하여 바이노럴 오디오 출력 신호를 변환하는 단계를 포함한다.

예 2에서, 예 1의 발명 내용(subject matter)은 헤드 트래커 및 사용자 입력 중 적어도 하나로부터 상기 위치 메타 데이터를 수신하는 단계를 선택적으로 포함한다.

예 3에서, 예 1 내지 2 중 임의의 하나 이상의 발명 내용은, 상기 HRTF 가중치의 세트를 결정하는 단계는, 상기 오디오 객체 위치가 원거리장 HRTF 오디오 경계 반경 너머에 있다고 결정하는 단계를 포함하고; 상기 HRTF 가중치의 세트를 결정하는 단계는 또한 레벨 롤오프(level roll-off) 및 직접 잔향 비 중 적어도 하나에 또한 기초하는 것을 선택적으로 포함한다.

예 4에서, 예 1 내지 3 중 임의의 하나 이상의 발명 내용은, HRTF 방사상 경계가 중요한(of significance) HRTF 오디오 경계 반경을 포함하고, 상기 중요한 HRTF 오디오 경계 반경은 근거리장 HRTF 오디오 경계 반경과 원거리장 HRTF 오디오 경계 반경 사이의 간극 반경을 정의하는 것을 선택적으로 포함한다.

예 5에서, 예 4의 발명 내용은 상기 오디오 객체 반경을 근거리장 HRTF 오디오 경계 반경 및 원거리장 HRTF 오디오 경계 반경과 비교하는 단계를 선택적으로 포함하며, HRTF 가중치의 세트를 결정하는 단계는 상기 오디오 객체 반경 비교에 기초하여 근거리장 HRTF 가중치 및 원거리장 HRTF 가중치의 조합을 결정하는 단계를 포함한다.

예 6에서, 예 1 내지 5 중 임의의 하나 이상의 발명 내용은 3D 바이노럴 오디오 객체 출력이 상기 결정된 ITD 및 적어도 하나의 HRTF 방사상 경계에 또한 기초하는 것을 선택적으로 포함한다.

예 7에서, 예 6의 발명 내용은 상기 오디오 객체 위치가 근거리장 HRTF 오디오 경계 반경 너머에 있다고 결정하는 단계를 선택적으로 포함하며, 상기 ITD를 결정하는 단계는 상기 결정된 소스 방향에 기초하여 부분 시간 지연(fractional time delay)을 결정하는 단계를 포함한다.

예 8에서, 예 6 내지 예 7 중 임의의 하나 이상의 발명 내용은 상기 오디오 객체 위치가 근거리장 HRTF 오디오 경계 반경 상에 또는 그 안에 있다고 결정하는 단계를 선택적으로 포함하며, 상기 ITD를 결정하는 단계는 상기 결정된 소스 방향에 기초하여 근거리장 시간 양이간 지연(time interaural delay)을 결정하는 단계를 포함한다.

예 9에서, 예 1 내지 예 8 중 임의의 하나 이상의 발명 내용은 3D 바이노럴 오디오 객체 출력이 시간-주파수 분석에 기초하는 것을 선택적으로 포함한다.

예 10은 6 자유도 음원 트래킹 방법으로서, 기준 배향을 포함하는 적어도 하나의 음원을 나타내는 공간 오디오 신호를 수신하는 단계; 상기 적어도 하나의 공간 오디오 신호 기준 배향에 대한 청취자의 물리적 움직임을 나타내는 3D 모션 입력을 수신하는 단계; 상기 공간 오디오 신호에 기초하여 공간 분석 출력을 생성하는 단계; 상기 공간 오디오 신호 및 상기 공간 분석 출력에 기초하여 신호 형성 출력을 생성하는 단계; 상기 신호 형성 출력, 상기 공간 분석 출력 및 상기 3D 모션 입력에 기초하여, 상기 공간 오디오 신호 기준 배향에 대한 청취자의 물리적 움직임에 의해 초래되는 적어도 하나의 음원의 업데이트된 겉보기(apparent) 방향 및 거리를 나타내는 액티브 스티어링 출력을 생성하는 단계; 및 상기 액티브 스티어링 출력에 기초하여 오디오 출력 신호를 변환하는 단계를 포함한다.

예 11에서, 예 10의 발명 내용은 청취자의 물리적 움직임이 회전 및 병진 중 적어도 하나를 포함하는 것을 선택적으로 포함한다.

예 12에서, 예 11의 발명 내용은 헤드 트래킹 디바이스 및 사용자 입력 디바이스 중 적어도 하나로부터의 3D 모션 입력을 선택적으로 포함한다.

예 13에서, 예 10 내지 예 12 중 임의의 하나 이상의 발명 내용은 상기 액티브 스티어링 출력에 기초하여 복수의 양자화된 채널을 생성하는 단계를 선택적으로 포함하고, 상기 복수의 양자화된 채널 각각은 미리 결정된 양자화된 깊이에 대응한다.

예 14에서, 예 13의 발명 내용은 복수의 양자화된 채널로부터 헤드폰 재생에 적합한 바이노럴 오디오 신호를 생성하는 단계를 선택적으로 포함한다.

예 15에서, 예 14의 발명 내용은 누화 제거(crosstalk cancellation)를 적용함으로써 라우드 스피커 재생에 적합한 트랜스오럴 오디오 신호를 생성하는 단계를 선택적으로 포함한다.

예 16에서, 예 10 내지 예 15 중 임의의 하나 이상의 발명 내용은 상기 형성된 오디오 신호 및 업데이트된 겉보기 방향으로부터 헤드폰 재생에 적합한 바이노럴 오디오 신호를 생성하는 단계를 선택적으로 포함한다.

예 17에서, 예 16의 발명 내용은 누화 제거를 적용함으로써 라우드 스피커 재생에 적합한 트랜스오럴 오디오 신호를 생성하는 단계를 선택적으로 포함한다.

예 18에서, 예 10 내지 예 17 중 임의의 하나 이상의 발명 내용은 모션 입력이 3 개의 직교 모션 축들 중 적어도 하나에서의 움직임을 포함하는 것을 선택적으로 포함한다.

예 19에서, 예 18의 발명 내용은 상기 모션 입력이 3 개의 직교 모션 축들 중 적어도 하나를 중심으로 한 회전을 포함하는 것을 선택적으로 포함한다.

예 20에서, 예 10 내지 예 19 중 임의의 하나 이상의 발명 내용은 상기 모션 입력이 헤드-트래커 모션을 포함하는 것을 선택적으로 포함한다.

예 21에서, 예 10 내지 예 20 중 임의의 하나 이상의 발명 내용은 상기 공간 오디오 신호가 적어도 하나의 앰비소닉 사운드 필드를 포함하는 것을 선택적으로 포함한다.

예 22에서, 예 21의 발명 내용은 적어도 하나의 앰비소닉 사운드 필드가 1차 사운드 필드, 더 고차의 사운드 필드 및 하이브리드 사운드 필드 중 적어도 하나를 포함하는 것을 선택적으로 포함한다.

예 23에서, 예 21 내지 예 22 중 임의의 하나 이상의 발명 내용은 상기 공간 사운드 필드 디코딩을 적용하는 단계는 시간-주파수 사운드 필드 분석에 기초하여 적어도 하나의 앰비소닉 사운드 필드를 분석하는 단계를 포함하며; 상기 적어도 하나의 음원의 업데이트된 겉보기 방향은 상기 시간-주파수 사운드 필드 분석에 기초하는 것을 선택적으로 포함한다.

예 24에서, 예 10 내지 예 23 중 임의의 하나 이상의 발명 내용은 상기 공간 오디오 신호가 매트릭스 인코딩된 신호를 포함하는 것을 선택적으로 포함한다.

예 25에서, 예 24의 발명 내용은 상기 공간 매트릭스 디코딩을 적용하는 단계가 시간-주파수 매트릭스 분석에 기초하고; 상기 적어도 하나의 음원의 업데이트된 겉보기 방향이 상기 시간-주파수 매트릭스 분석에 기초하는 것을 선택적으로 포함한다.

예 26에서, 예 25의 발명 내용은 상기 공간 매트릭스 디코딩을 적용하는 단계는 높이 정보를 보존하는 것을 선택적으로 포함한다.

예 27은 깊이 디코딩 방법으로서, 음원 깊이에서 적어도 하나의 음원를 나타내는 공간 오디오 신호를 수신하는 단계; 상기 공간 오디오 신호 및 상기 음원 깊이에 기초하여 공간 분석 출력을 생성하는 단계; 상기 공간 오디오 신호 및 상기 공간 분석 출력에 기초하여 신호 형성 출력을 생성하는 단계; 상기 신호 형성 출력 및 상기 공간 분석 출력에 기초하여, 상기 적어도 하나의 음원의 업데이트된 겉보기 방향을 나타내는 액티브 스티어링 출력을 생성하는 단계; 및 상기 액티브 스티어링 출력에 기초하여 오디오 출력 신호를 변환하는 단계를 포함한다.

예 28에서, 예 27의 발명 내용은 적어도 하나의 음원의 업데이트된 겉보기 방향이 적어도 하나의 음원에 대한 청취자의 물리적 움직임에 기초하는 것을 선택적으로 포함한다.

예 29에서, 예 27 내지 예 28 중 임의의 하나 이상의 발명 내용은 복수의 공간 오디오 신호 서브 세트들 중 적어도 하나가 앰비소닉 사운드 필드 인코딩된 오디오 신호를 포함하는 것을 선택적으로 포함한다.

예 30에서, 예 29의 발명 내용은 앰비소닉 사운드 필드 인코딩된 오디오 신호가 1차 앰비소닉 오디오 신호, 더 고차의 앰비소닉 오디오 신호 및 하이브리드 앰비소닉 오디오 신호 중 적어도 하나를 포함하는 것을 선택적으로 포함한다.

예 31에서, 예 27 내지 예 30 중 임의의 하나 이상의 발명 내용은 상기 공간 오디오 신호가 복수의 공간 오디오 신호 서브 세트를 포함하는 것을 선택적으로 포함한다.

예 32에서, 예 31의 발명 내용은, 복수의 공간 오디오 신호 서브 세트들 각각이 관련된 서브 세트 깊이를 포함하고, 상기 공간 분석 출력을 생성하는 단계는, 복수의 디코딩된 서브 세트 깊이 출력을 생성하기 위하여 각 관련된 서브 세트 깊이에서 복수의 공간 오디오 신호 서브세트들 각각을 디코딩하는 단계; 및 상기 공간 오디오 신호에서 상기 적어도 하나의 음원의 순 깊이 지각(net depth perception)을 생성하기 위하여 상기 복수의 디코딩된 서브 세트 깊이 출력들을 결합하는 단계를 포함하는 것을 선택적으로 포함한다.

예 33에서, 예 32의 발명 내용은 상기 복수의 공간 오디오 신호 서브 세트들 중 적어도 하나가 고정된 위치 채널을 포함하는 것을 선택적으로 포함한다.

예 34에서, 예 32 내지 예 33 중 임의의 하나 이상의 발명 내용은 상기 고정된 위치 채널이 좌측 귀 채널, 우측 귀 채널 및 중간 채널 중 적어도 하나를 포함하는 것을 선택적으로 포함하고, 상기 중간 채널은 상기 좌측 귀 채널과 상기 우측 귀 채널 사이에 위치된 채널의 지각을 제공한다.

예 35에서, 예 32 내지 예 34 중 임의의 하나 이상의 발명 내용은 상기 복수의 공간 오디오 신호 서브 세트들 중 적어도 하나가 앰비소닉 사운드 필드 인코딩된 오디오 신호를 포함하는 것을 선택적으로 포함한다.

예 36에서, 예 35의 발명 내용은 상기 공간 오디오 신호가 1차 앰비소닉 오디오 신호, 더 고차의 앰비소닉 오디오 신호 및 하이브리드 앰비소닉 오디오 신호 중 적어도 하나를 포함하는 것을 선택적으로 포함한다.

예 37에서, 예 32 내지 예 36 중 임의의 하나 이상의 발명 내용은 상기 복수의 공간 오디오 신호 서브 세트들 중 적어도 하나가 매트릭스 인코딩된 오디오 신호를 포함하는 것을 선택적으로 포함한다.

예 38에서, 예 37의 발명 내용은 상기 매트릭스 인코딩된 오디오 신호가 보존된 높이 정보를 포함하는 것을 선택적으로 포함한다.

예 39에서, 예 31 내지 예 38 중 임의의 하나 이상의 발명 내용은 상기 복수의 공간 오디오 신호 서브 세트들 중 적어도 하나가 관련된 가변 깊이 오디오 신호를 포함하는 것을 선택적으로 포함한다.

예 40에서, 예 39의 발명 내용은 각각의 관련된 가변 깊이 오디오 신호가 관련된 기준 오디오 깊이 및 관련된 가변 오디오 깊이를 포함하는 것을 선택적으로 포함한다.

예 41에서, 예 39 내지 예 40 중 임의의 하나 이상의 발명 내용은 각각의 관련된 가변 깊이 오디오 신호가 상기 복수의 공간 오디오 신호 서브 세트 각각의 유효 깊이에 관한 시간-주파수 정보를 포함하는 것을 선택적으로 포함한다.

예 42에서, 예 40 내지 예 41 중 임의의 하나 이상의 발명 내용은 상기 관련된 기준 오디오 깊이에서 상기 형성된 오디오 신호를 디코딩하는 단계를 선택적으로 포함하고, 상기 디코딩 단계는 상기 관련된 가변 오디오 깊이로 폐기하는 단계; 및 상기 관련된 기준 오디오 깊이로 상기 복수의 공간 오디오 신호 서브 세트들 각각을 디코딩하는 단계를 포함한다.

예 43에서, 예 39 내지 예 42 중 임의의 하나 이상의 발명 내용은 상기 복수의 공간 오디오 신호 서브 세트들 중 적어도 하나가 앰비소닉 사운드 필드 인코딩된 오디오 신호를 포함하는 것을 선택적으로 포함한다.

예 44에서, 예 43의 발명 내용은 상기 공간 오디오 신호가 1차 앰비소닉 오디오 신호, 더 고차의 앰비소닉 오디오 신호 및 하이브리드 앰비소닉 오디오 신호 중 적어도 하나를 포함하는 것을 선택적으로 포함한다.

예 45에서, 예 39 내지 44 중 임의의 하나 이상의 발명 내용은 상기 복수의 공간 오디오 신호 서브 세트들 중 적어도 하나가 매트릭스 인코딩된 오디오 신호를 포함하는 것을 선택적으로 포함한다.

예 46에서, 예 45의 발명 내용은 상기 매트릭스 인코딩된 오디오 신호가 보존된 높이 정보를 포함하는 것을 선택적으로 포함한다.

예 47에서, 예 31 내지 46 중 임의의 하나 이상의 발명 내용은 상기 복수의 공간 오디오 신호 서브 세트 각각이 관련된 깊이 메타 데이터 신호를 포함하고, 상기 깊이 메타 데이터 신호는 음원 물리적 위치 정보를 포함하는 것을 선택적으로 포함한다.

예 48에서, 예 47의 발명 내용은 상기 음원 물리적 위치 정보가 기준 위치 및 기준 배향에 관한 위치 정보를 포함하고; 상기 음원 물리적 위치 정보는 물리적 위치 깊이 및 물리적 위치 방향 중 적어도 하나를 포함하는 것을 선택적으로 포함한다.

예 49에서, 예 47 내지 48 중 임의의 하나 이상의 발명 내용은 상기 복수의 공간 오디오 신호 서브 세트들 중 적어도 하나가 앰비소닉 사운드 필드 인코딩된 오디오 신호를 포함하는 것을 선택적으로 포함한다.

예 50에서, 예 49의 발명 내용은 상기 공간 오디오 신호가 1차 앰비소닉 오디오 신호, 더 고차의 앰비소닉 오디오 신호 및 하이브리드 앰비소닉 오디오 신호 중 적어도 하나를 포함하는 것을 선택적으로 포함한다.

예 51에서, 예 47 내지 50 중 임의의 하나 이상의 발명 내용은 상기 복수의 공간 오디오 신호 서브 세트들 중 적어도 하나가 매트릭스 인코딩된 오디오 신호를 포함하는 것을 선택적으로 포함한다.

예 52에서, 예 51의 발명 내용은 상기 매트릭스 인코딩된 오디오 신호가 보존된 높이 정보를 포함하는 것을 선택적으로 포함한다.

예 53에서, 예 27 내지 52 중 임의의 하나 이상의 발명 내용은 상기 오디오 출력이 대역 분할 및 시간-주파수 표현 중 적어도 하나를 사용하여 하나 이상의 주파수에서 독립적으로 수행되는 것을 선택적으로 포함한다.

예 54는 깊이 디코딩 방법으로서, 음원 깊이에서 적어도 하나의 음원를 나타내는 공간 오디오 신호를 수신하는 단계; 상기 공간 오디오 신호에 기초하여, 상기 적어도 하나의 음원의 겉보기 순 깊이 및 방향을 나타내는 오디오 출력을 생성하는 단계; 액티브 스티어링 출력에 기초하여 오디오 출력 신호를 변환하는 단계를 포함한다.

예 55에서, 예 54의 발명 내용은 상기 적어도 하나의 음원의 겉보기 방향이 적어도 하나의 음원에 대한 청취자의 물리적 움직임에 기초하는 것을 선택적으로 포함한다.

예 56에서, 예 54 내지 55 중 임의의 하나 이상의 발명 내용은 상기 공간 오디오 신호가 1차 앰비소닉 오디오 신호, 더 고차의 앰비소닉 오디오 신호 및 하이브리드 앰비소닉 오디오 신호 중 적어도 하나를 포함하는 것을 선택적으로 포함한다.

예 57에서, 예 54 내지 56 중 임의의 하나 이상의 발명 내용은 상기 공간 오디오 신호가 복수의 공간 오디오 신호 서브 세트를 포함하는 것을 선택적으로 포함한다.

예 58에서, 예 57의 발명 내용은 상기 복수의 공간 오디오 신호 서브 세트들 각각이 관련된 서브 세트 깊이를 포함하고, 상기 신호 형성 출력을 생성하는 단계는, 복수의 디코딩된 서브 세트 깊이 출력을 생성하기 위하여 각 관련된 서브 세트 깊이에서 복수의 공간 오디오 신호 서브 세트들 각각을 디코딩하는 단계; 및 상기 공간 오디오 신호에서 적어도 하나의 음원의 순 깊이 지각을 생성하기 위해 상기 복수의 디코딩된 서브 세트 깊이 출력들을 결합하는 단계를 포함하는 것을 선택적으로 포함한다.

예 59에서, 예 58의 발명 내용은 상기 복수의 공간 오디오 신호 서브 세트들 중 적어도 하나가 고정된 위치 채널을 포함하는 것을 선택적으로 포함한다.

예 60에서, 예 58 내지 예 59 중 임의의 하나 이상의 발명 내용은 상기 고정된 위치 채널이 좌측 귀 채널, 우측 귀 채널 및 중간 채널 중 적어도 하나를 포함하는 것을 선택적으로 포함하고, 상기 중간 채널은 상기 좌측 귀 채널과 상기 우측 귀 채널 사이에 위치된 채널의 지각을 제공한다.

예 61에서, 예 58 내지 예 60 중 임의의 하나 이상의 발명 내용은 상기 복수의 공간 오디오 신호 서브 세트들 중 적어도 하나가 앰비소닉 사운드 필드 인코딩된 오디오 신호를 포함하는 것을 선택적으로 포함한다.

예 62에서, 61의 발명 내용은 상기 공간 오디오 신호가 1차 앰비소닉 오디오 신호, 더 고차의 앰비소닉 오디오 신호 및 하이브리드 앰비소닉 오디오 신호 중 적어도 하나를 포함하는 것을 선택적으로 포함한다.

예 63에서, 예 58 내지 62 중 임의의 하나 이상의 발명 내용은 상기 복수의 공간 오디오 신호 서브 세트들 중 적어도 하나가 매트릭스 인코딩된 오디오 신호를 포함하는 것을 선택적으로 포함한다.

예 64에서, 예 63의 발명 내용은 상기 매트릭스 인코딩된 오디오 신호가 보존된 높이 정보를 포함하는 것을 선택적으로 포함한다.

예 65에서, 예 57 내지 64 중 임의의 하나 이상의 발명 내용은 상기 복수의 공간 오디오 신호 서브 세트들 중 적어도 하나가 관련된 가변 깊이 오디오 신호를 포함하는 것을 선택적으로 포함한다.

예 66에서, 예 65의 발명 내용은 각각의 관련된 가변 깊이 오디오 신호가 관련된 기준 오디오 깊이 및 관련된 가변 오디오 깊이를 포함하는 것을 선택적으로 포함한다.

예 67에서, 예 65 내지 예 66 중 임의의 하나 이상의 발명 내용은 각각의 관련된 가변 깊이 오디오 신호가 상기 복수의 공간 오디오 신호 서브 세트 각각의 유효 깊이에 관한 시간-주파수 정보를 포함하는 것을 선택적으로 포함한다.

예 68에서, 예 66 내지 예 67 중 임의의 하나 이상의 발명 내용은 관련된 기준 오디오 깊이에서 상기 형성된 오디오 신호를 디코딩하는 단계를 선택적으로 포함하며, 상기 디코딩 단계는 관련된 가변 오디오 깊이로 폐기하는 단계; 및 상기 관련된 기준 오디오 깊이로 상기 복수의 공간 오디오 신호 서브 세트들 각각을 디코딩하는 단계를 포함한다.

예 69에서, 예 65 내지 예 68 중 임의의 하나 이상의 발명 내용은 상기 복수의 공간 오디오 신호 서브 세트들 중 적어도 하나가 앰비소닉 사운드 필드 인코딩된 오디오 신호를 포함하는 것을 선택적으로 포함한다.

예 70에서, 예 69의 발명 내용은 상기 공간 오디오 신호가 1차 앰비소닉 오디오 신호, 더 고차의 앰비소닉 오디오 신호 및 하이브리드 앰비소닉 오디오 신호 중 적어도 하나를 포함하는 것을 선택적으로 포함한다.

예 71에서, 예 65 내지 예 70 중 임의의 하나 이상의 발명 내용은 상기 복수의 공간 오디오 신호 서브 세트들 중 적어도 하나가 매트릭스 인코딩된 오디오 신호를 포함하는 것을 선택적으로 포함한다.

예 72에서, 예 71의 발명 내용은 상기 매트릭스 인코딩된 오디오 신호가 보존된 높이 정보를 포함하는 것을 선택적으로 포함한다.

예 73에서, 실시 예 57 내지 72 중 임의의 하나 이상의 발명 내용은 상기 복수의 공간 오디오 신호 서브 세트 각각이 관련된 깊이 메타 데이터 신호를 포함하고, 상기 깊이 메타 데이터 신호는 음원 물리적 위치 정보를 포함하는 것을 선택적으로 포함한다.

예 74에서, 예 73의 발명 내용은 상기 음원 물리적 위치 정보가 기준 위치 및 기준 배향에 대한 위치 정보를 포함하고; 상기 음원 물리적 위치 정보는 물리적 위치 깊이 및 물리적 위치 방향 중 적어도 하나를 포함하는 것을 선택적으로 포함한다.

예 75에서, 예 73 내지 예 74 중 임의의 하나 이상의 발명 내용은 상기 복수의 공간 오디오 신호 서브 세트들 중 적어도 하나가 앰비소닉 사운드 필드 인코딩된 오디오 신호를 포함하는 것을 선택적으로 포함한다.

예 76에서, 예 75의 발명 내용은 상기 공간 오디오 신호가 1차 앰비소닉 오디오 신호, 더 고차의 앰비소닉 오디오 신호 및 하이브리드 앰비소닉 오디오 신호 중 적어도 하나를 포함하는 것을 선택적으로 포함한다.

예 77에서, 예 73 내지 예 76 중 임의의 하나 이상의 발명 내용은 상기 복수의 공간 오디오 신호 서브 세트들 중 적어도 하나가 매트릭스 인코딩된 오디오 신호를 포함하는 것을 선택적으로 포함한다.

예 78에서, 실시 예 77의 발명 내용은 상기 매트릭스 인코딩된 오디오 신호가 보존된 높이 정보를 포함하는 것을 선택적으로 포함한다.

예 79에서, 예 54 내지 예 78 중 임의의 하나 이상의 발명 내용은 상기 신호 형성 출력을 생성하는 단계는 시간-주파수 스티어링 분석에 또한 기초하는 것을 선택적으로 포함한다.

예 80은 근거리장 바이노럴 렌더링 시스템으로서, 프로세서 및 트랜스듀서를 포함하고, 상기 프로세서는, 음원 및 오디오 객체 위치를 포함하는 오디오 객체를 수신하고; 상기 오디오 객체 위치 및 위치 메타 데이터 - 상기 위치 메타 데이터는 청취자 위치 및 청취자 배향을 표시함 - 에 기초하여, 방사상 가중치의 세트를 결정하고; 상기 오디오 객체 위치, 상기 청취자 위치 및 상기 청취자 배향에 기초하여 소스 방향을 결정하고; 근거리장 HRTF 오디오 경계 반경 및 원거리장 HRTF 오디오 경계 반경 중 적어도 하나를 포함하는 적어도 하나의 HRTF 방사상 경계에 대한 상기 소스 방향에 기초하여 HRTF 가중치의 세트를 결정하고; 상기 방사상 가중치의 세트 및 상기 HRTF 가중치의 세트에 기초하여, 오디오 객체 방향 및 오디오 객체 거리를 포함하는 3D 바이노럴 오디오 객체 출력을 생성하도록 구성되며; 상기 트랜스듀서는 3D 바이노럴 오디오 객체 출력에 기초하여 바이노럴 오디오 출력 신호를 가청 바이노럴 출력으로 변환하도록 구성된다.

예 81에서, 예 80의 발명 내용은 상기 프로세서가 헤드 트래커 및 사용자 입력 중 적어도 하나로부터 위치 메타 데이터를 수신하도록 또한 구성되는 것을 선택적으로 포함한다.

예 82에서, 예 80 내지 예 81 중 임의의 하나 이상의 발명 내용은, 상기 HRTF 가중치의 세트를 결정하는 것은, 상기 오디오 객체 위치가 원거리장 HRTF 오디오 경계 반경 너머에 있다고 결정하는 것을 포함하고, 상기 HRTF 가중치의 세트를 결정하는 것은 레벨 롤오프 및 직접 잔향 비 중 적어도 하나에 추가로 기초하는 것을 선택적으로 포함한다.

예 83에서, 예 80 내지 예 82 중 임의의 하나 이상의 발명 내용은, HRTF 방사상 경계가 중요한 HRTF 오디오 경계 반경을 포함하고, 상기 중요한 HRTF 오디오 경계 반경은 근거리장 HRTF 오디오 경계 반경과 원거리장 HRTF 오디오 경계 반경 사이의 간극 반경을 정의하는 것을 선택적으로 포함한다.

예 84에서, 예 83의 발명 내용은 상기 프로세서가 오디오 객체 반경을 근거리장 HRTF 오디오 경계 반경 및 원거리장 HRTF 오디오 경계 반경과 비교하도록 또한 구성되는 것을 선택적으로 포함하고, HRTF 가중치의 세트를 결정하는 것은 상기 오디오 객체 반경 비교에 기초하여 근거리장 HRTF 가중치 및 원거리장 HRTF 가중치의 조합을 결정하는 것을 포함한다.

실시 예 85에서, 예 80 내지 예 84 중 임의의 하나 이상의 발명 내용은 3D 바이노럴 오디오 객체 출력이 상기 결정된 ITD 및 적어도 하나의 HRTF 방사상 경계에 또한 기초하는 것을 선택적으로 포함한다.

예 86에서, 예 85의 발명 내용은 상기 프로세서가 오디오 객체 위치가 근거리장 HRTF 오디오 경계 반경 너머에 있다고 결정하도록 또한 구성되는 것을 선택적으로 포함하며, 상기 ITD를 결정하는 것은 상기 결정된 소스 방향에 기초하여 부분 시간 지연을 결정하는 것을 포함한다.

예 87에서, 예 85 내지 예 86 중 임의의 하나 이상의 발명 내용은 상기 프로세서가 또한 오디오 객체 위치가 근거리장 HRTF 오디오 경계 반경 상에 또는 그 안에 있다고 결정하도록 구성되는 것을 선택적으로 포함하며, 상기 ITD를 결정하는 것은 결정된 소스 방향에 기초하여 근거리장 시간 양이간 지연을 결정하는 것을 포함한다.

예 88에서, 예 80 내지 예 87 중 임의의 하나 이상의 발명 내용은 3D 바이노럴 오디오 객체 출력이 시간-주파수 분석에 기초하는 것을 선택적으로 포함한다.

예 89는 6 자유도 음원 트래킹 시스템으로서, 프로세서 및 트랜스듀서를 포함하고, 상기 프로세서는 기준 배향을 포함하는 적어도 하나의 음원을 나타내는 공간 오디오 신호를 수신하고; 상기 적어도 하나의 공간 오디오 신호 기준 배향에 대한 청취자의 물리적 움직임을 나타내는 3D 모션 입력을 수신하고; 상기 공간 오디오 신호에 기초하여 공간 분석 출력을 생성하고; 상기 공간 오디오 신호 및 상기 공간 분석 출력에 기초하여 신호 형성 출력을 생성하고; 상기 신호 형성 출력, 상기 공간 분석 출력 및 상기 3D 모션 입력에 기초하여, 상기 공간 오디오 신호 기준 배향에 대한 청취자의 물리적 움직임에 의해 초래되는 적어도 하나의 음원의 업데이트된 겉보기 방향 및 거리를 나타내는 액티브 스티어링 출력을 생성하도록 구성되고; 상기 트랜스듀서는 상기 액티브 스티어링 출력에 기초하여 오디오 출력 신호를 가청 바이노럴 출력으로 변환하도록 구성된다.

예 90에서, 예 89의 발명 내용은 청취자의 물리적 움직임이 회전 및 병진(translation) 중 적어도 하나를 포함하는 것을 선택적으로 포함한다.

예 91에서, 예 89 내지 예 90 중 임의의 하나 이상의 발명 내용은 상기 복수의 공간 오디오 신호 서브 세트들 중 적어도 하나가 앰비소닉 사운드 필드 인코딩된 오디오 신호를 포함하는 것을 선택적으로 포함한다.

예 92에서, 예 91의 발명 내용은 상기 공간 오디오 신호가 1차 앰비소닉 오디오 신호, 더 고차의 앰비소닉 오디오 신호 및 하이브리드 앰비소닉 오디오 신호 중 적어도 하나를 포함하는 것을 선택적으로 포함한다.

예 93에서, 예 91 내지 예 92 중 임의의 하나 이상의 발명 내용은 상기 모션 입력 디바이스가 헤드 트래킹 디바이스 및 사용자 입력 디바이스 중 적어도 하나를 포함하는 것을 선택적으로 포함한다.

예 94에서, 예 89 내지 예 93 중 임의의 하나 이상의 발명 내용은 상기 프로세서가 상기 액티브 스티어링 출력에 기초하여 복수의 양자화된 채널을 생성하도록 또한 구성되는 것을 선택적으로 포함하고, 상기 복수의 양자화된 채널 각각은 미리 결정된 양자화된 깊이에 대응한다.

예 95에서, 예 94의 발명 내용은 상기 트랜스듀서가 헤드폰을 포함하는 것을 선택적으로 포함하고, 상기 프로세서는 또한 복수의 양자화된 채널로부터 헤드폰 재생에 적합한 바이노럴 오디오 신호를 생성하도록 구성된다.

예 96에서, 예 95의 발명 내용은 상기 트랜스듀서가 라우드 스피커를 포함하는 것을 선택적으로 포함하고, 상기 프로세서는 또한 누화 제거를 적용함으로써 라우드 스피커 재생에 적합한 트랜스오럴 오디오 신호를 생성하도록 구성된다.

예 97에서, 예 89 내지 예 96 중 임의의 하나 이상의 발명 내용은 상기 트랜스듀서가 헤드폰을 포함하는 것을 선택적으로 포함하고, 상기 프로세서는 또한 상기 형성된 오디오 신호 및 업데이트된 겉보기 방향으로부터 헤드폰 재생에 적합한 바이노럴 오디오 신호를 생성하도록 구성된다.

예 98에서, 예 97의 발명 내용은 상기 트랜스듀서가 라우드 스피커를 포함하는 것을 선택적으로 포함하고, 상기 프로세서는 또한 누화 제거를 적용함으로써 라우드 스피커 재생에 적합한 트랜스오럴 오디오 신호를 생성하도록 구성된다.

예 99에서, 예 89 내지 예 98 중 임의의 하나 이상의 발명 내용은 모션 입력이 3 개의 직교 모션 축들 중 적어도 하나에서의 움직임을 포함하는 것을 선택적으로 포함한다.

예 100에서, 예 99의 발명 내용은 상기 모션 입력이 3 개의 직교 모션 축들 중 적어도 하나를 중심으로 한 회전을 포함하는 것을 선택적으로 포함한다.

예 101에서, 예 89 내지 예 100 중 임의의 하나 이상의 발명 내용은 상기 모션 입력이 헤드 트래커 모션을 포함하는 것을 선택적으로 포함한다.

예 102에서, 예 89 내지 예 101 중 임의의 하나 이상의 발명 내용은 상기 공간 오디오 신호가 적어도 하나의 앰비소닉 사운드 필드를 포함하는 것을 선택적으로 포함한다.

예 103에서, 예 102의 발명 내용은 상기 적어도 하나의 앰비소닉 사운드 필드가 1차 사운드 필드, 더 고차의 사운드 필드 및 하이브리드 사운드 필드 중 적어도 하나를 포함하는 것을 선택적으로 포함한다.

예 104에서, 예 102 내지 예 103 중 임의의 하나 이상의 발명 내용은 상기 공간 사운드 필드 디코딩을 적용하는 것이 시간-주파수 사운드 필드 분석에 기초하여 적어도 하나의 앰비소닉 사운드 필드를 분석하는 것을 포함하며; 상기 적어도 하나의 음원의 업데이트된 겉보기 방향은 상기 시간-주파수 사운드 필드 분석에 기초하는 것을 선택적으로 포함한다.

예 105에서, 예 89 내지 예 104 중 임의의 하나 이상의 발명 내용은 상기 공간 오디오 신호가 매트릭스 인코딩된 신호를 포함하는 것을 선택적으로 포함한다.

예 106에서, 예 105의 발명 내용은 상기 공간 매트릭스 디코딩을 적용하는 것이 시간-주파수 매트릭스 분석에 기초하고; 상기 적어도 하나의 음원의 업데이트된 겉보기 방향이 상기 시간-주파수 매트릭스 분석에 기초하는 것을 선택적으로 포함한다.

예 107에서, 예 106의 발명 내용은 상기 공간 매트릭스 디코딩을 적용하는 것이 높이 정보를 보존하는 것을 선택적으로 포함한다.

예 108은 깊이 디코딩 시스템으로서, 프로세서 및 트랜스듀서를 포함하고, 상기 프로세서는 음원 깊이에서 적어도 하나의 음원를 나타내는 공간 오디오 신호를 수신하고; 상기 공간 오디오 신호 및 상기 음원 깊이에 기초하여 공간 분석 출력을 생성하고; 상기 공간 오디오 신호 및 상기 공간 분석 출력에 기초하여 신호 형성 출력을 생성하며; 상기 신호 형성 출력 및 상기 공간 분석 출력에 기초하여 상기 적어도 하나의 음원의 업데이트된 겉보기 방향을 나타내는 액티브 스티어링 출력을 생성하도록 구성되고; 상기 트랜스듀서는 상기 액티브 스티어링 출력에 기초하여 상기 오디오 출력 신호를 가청 바이노럴 출력으로 변환하도록 구성된다.

예 109에서, 예 108의 발명 내용은 적어도 하나의 음원의 업데이트된 겉보기 방향이 적어도 하나의 음원에 대한 청취자의 물리적 움직임에 기초하는 것을 선택적으로 포함한다.

예 110에서, 예 108 내지 예 109 중 임의의 하나 이상의 발명 내용은 상기 공간 오디오 신호가 1차 앰비소닉 오디오 신호, 더 고차의 앰비소닉 오디오 신호 및 하이브리드 앰비소닉 오디오 신호 중 적어도 하나를 포함하는 것을 선택적으로 포함한다.

예 111에서, 예 108 내지 예 110 중 임의의 하나 이상의 발명 내용은 상기 공간 오디오 신호가 복수의 공간 오디오 신호 서브 세트를 포함하는 것을 선택적으로 포함한다.

예 112에서, 예 111의 발명 내용은 복수의 공간 오디오 신호 서브 세트들 각각이 관련된 서브 세트 깊이를 포함하고, 상기 공간 분석 출력을 생성하는 것은, 복수의 디코딩된 서브 세트 깊이 출력을 생성하기 위하여 각 관련된 서브 세트 깊이에서 복수의 공간 오디오 신호 서브 세트들 각각을 디코딩하고; 상기 공간 오디오 신호에서 상기 적어도 하나의 음원의 순 깊이 지각을 생성하기 위하여 상기 복수의 디코딩된 서브 세트 깊이 출력들을 결합하는 것을 포함하는 것을 선택적으로 포함한다.

예 113에서, 예 112의 발명 내용은 상기 복수의 공간 오디오 신호 서브 세트들 중 적어도 하나가 고정된 위치 채널을 포함하는 것을 선택적으로 포함한다.

예 114에서, 예 112 내지 예 113 중 임의의 하나 이상의 발명 내용은 상기 고정된 위치 채널이 좌측 귀 채널, 우측 귀 채널 및 중간 채널 중 적어도 하나를 포함하는 것을 선택적으로 포함하고, 상기 중간 채널은 상기 좌측 귀 채널과 상기 우측 귀 채널 사이에 위치된 채널의 지각을 제공한다.

예 115에서, 예 112 내지 예 114 중 임의의 하나 이상의 발명 내용은 상기 복수의 공간 오디오 신호 서브 세트들 중 적어도 하나가 앰비소닉 사운드 필드 인코딩된 오디오 신호를 포함하는 것을 선택적으로 포함한다.

예 116에서, 예 115의 발명 내용은 상기 공간 오디오 신호가 1차 앰비소닉 오디오 신호, 더 고차의 앰비소닉 오디오 신호 및 하이브리드 앰비소닉 오디오 신호 중 적어도 하나를 포함하는 것을 선택적으로 포함한다.

예 117에서, 예 112 내지 예 116 중 임의의 하나 이상의 발명 내용은 상기 복수의 공간 오디오 신호 서브 세트들 중 적어도 하나가 매트릭스 인코딩된 오디오 신호를 포함하는 것을 선택적으로 포함한다.

예 118에서, 예 117의 발명 내용은 상기 매트릭스 인코딩된 오디오 신호가 보존된 높이 정보를 포함하는 것을 선택적으로 포함한다.

예 119에서, 예 111 내지 예 118 중 임의의 하나 이상의 발명 내용은 상기 복수의 공간 오디오 신호 서브 세트들 중 적어도 하나가 관련된 가변 깊이 오디오 신호를 포함하는 것을 선택적으로 포함한다.

예 120에서, 예 119의 발명 내용은 각각의 관련된 가변 깊이 오디오 신호가 관련된 기준 오디오 깊이 및 관련된 가변 오디오 깊이를 포함하는 것을 선택적으로 포함한다.

예 121에서, 예 119 내지 예 120 중 임의의 하나 이상의 발명 내용은 각각의 관련된 가변 깊이 오디오 신호가 상기 복수의 공간 오디오 신호 서브 세트 각각의 유효 깊이에 관한 시간-주파수 정보를 포함하는 것을 선택적으로 포함한다.

예 122에서, 예 120 내지 예 121 중 임의의 하나 이상의 발명 내용은 상기 프로세서가 상기 관련된 기준 오디오 깊이에서 상기 형성된 오디오 신호를 디코딩하도록 또한 구성되는 것을 선택적으로 포함하고, 상기 디코딩하는 것은 상기 관련된 가변 오디오 깊이로 폐기하고; 상기 관련된 기준 오디오 깊이로 상기 복수의 공간 오디오 신호 서브 세트들 각각을 디코딩하는 것을 포함한다.

예 123에서, 예 119 내지 예 122 중 임의의 하나 이상의 발명 내용은 상기 복수의 공간 오디오 신호 서브 세트들 중 적어도 하나가 앰비소닉 사운드 필드 인코딩된 오디오 신호를 포함하는 것을 선택적으로 포함한다.

예 124에서, 예 123의 발명 내용은 상기 공간 오디오 신호가 1차 앰비소닉 오디오 신호, 더 고차의 앰비소닉 오디오 신호 및 하이브리드 앰비소닉 오디오 신호 중 적어도 하나를 포함하는 것을 선택적으로 포함한다.

예 125에서, 예 119 내지 예 124 중 임의의 하나 이상의 발명 내용은 상기 복수의 공간 오디오 신호 서브 세트들 중 적어도 하나가 매트릭스 인코딩된 오디오 신호를 포함하는 것을 선택적으로 포함한다.

예 126에서, 예 125의 발명 내용은 상기 매트릭스 인코딩된 오디오 신호가 보존된 높이 정보를 포함하는 것을 선택적으로 포함한다.

예 127에서, 예 111 내지 126 중 임의의 하나 이상의 발명 내용은 상기 복수의 공간 오디오 신호 서브 세트들 각각이 관련된 깊이 메타 데이터 신호를 포함하고, 상기 깊이 메타 데이터 신호는 음원 물리적 위치 정보를 포함하는 것을 선택적으로 포함한다.

예 128에서, 예 127의 발명 내용은 상기 음원 물리적 위치 정보가 기준 위치 및 기준 배향에 대한 위치 정보를 포함하고; 상기 음원 물리적 위치 정보는 물리적 위치 깊이 및 물리적 위치 방향 중 적어도 하나를 포함하는 것을 선택적으로 포함한다.

예 129에서, 예 127 내지 128 중 임의의 하나 이상의 발명 내용은 상기 복수의 공간 오디오 신호 서브 세트들 중 적어도 하나가 앰비소닉 사운드 필드 인코딩된 오디오 신호를 포함하는 것을 선택적으로 포함한다.

예 130에서, 예 129의 발명 내용은 상기 공간 오디오 신호가 1차 앰비소닉 오디오 신호, 더 고차의 앰비소닉 오디오 신호 및 하이브리드 앰비소닉 오디오 신호 중 적어도 하나를 포함하는 것을 선택적으로 포함한다.

예 131에서, 예 127 내지 예 130 중 임의의 하나 이상의 발명 내용은 상기 복수의 공간 오디오 신호 서브 세트들 중 적어도 하나가 매트릭스 인코딩된 오디오 신호를 포함하는 것을 선택적으로 포함한다.

예 132에서, 예 131의 발명 내용은 상기 매트릭스 인코딩된 오디오 신호가 보존된 높이 정보를 포함하는 것을 선택적으로 포함한다.

예 133에서, 예 108 내지 132 중 임의의 하나 이상의 발명 내용은 상기 오디오 출력이 대역 분할 및 시간-주파수 표현 중 적어도 하나를 사용하여 하나 이상의 주파수에서 독립적으로 수행되는 것을 선택적으로 포함한다.

예 134는 깊이 디코딩 시스템으로서, 프로세서 및 트랜스듀서를 포함하고, 상기 프로세서는 음원 깊이에서 적어도 하나의 음원를 나타내는 공간 오디오 신호를 수신하고; 상기 공간 오디오 신호에 기초하여, 상기 적어도 하나의 음원의 겉보기 순 깊이 및 방향을 나타내는 오디오 출력을 생성하도록 구성되고; 상기 트랜스듀서는 액티브 스티어링 출력에 기초하여 오디오 출력 신호를 가청 바이노럴 출력으로 변환하도록 구성된다.

예 135에서, 실시 예 134의 발명 내용은 적어도 하나의 음원의 겉보기 방향이 적어도 하나의 음원에 대한 청취자의 물리적 움직임에 기초하는 것을 선택적으로 포함한다.

예 136에서, 예 134 내지 예 135 중 임의의 하나 이상의 발명 내용은 상기 공간 오디오 신호가 1차 앰비소닉 오디오 신호, 더 고차의 앰비소닉 오디오 신호 및 하이브리드 앰비소닉 오디오 신호 중 적어도 하나를 포함하는 것을 선택적으로 포함한다.

예 137에서, 예 134 내지 예 136 중 임의의 하나 이상의 발명 내용은 상기 공간 오디오 신호가 복수의 공간 오디오 신호 서브 세트를 포함하는 것을 선택적으로 포함한다.

예 138에서, 예 137의 발명 내용은 상기 복수의 공간 오디오 신호 서브 세트들 각각이 관련된 서브 세트 깊이를 포함하고, 상기 신호 형성 출력을 생성하는 것은, 복수의 디코딩된 서브 세트 깊이 출력을 생성하기 위하여 복수의 공간 오디오 신호 서브 세트들 각각을 각 관련된 서브 세트 깊이에서 디코딩하고; 및 상기 공간 오디오 신호에서 적어도 하나의 음원의 순 깊이 지각을 생성하기 위해 상기 복수의 디코딩된 서브 세트 깊이 출력들을 결합하는 것을 포함하는 것을 선택적으로 포함한다.

예 139에서, 예 138의 발명 내용은 상기 복수의 공간 오디오 신호 서브 세트들 중 적어도 하나가 고정된 위치 채널을 포함하는 것을 선택적으로 포함한다.

예 140에서, 예 138 내지 예 139 중 임의의 하나 이상의 발명 내용은 상기 고정된 위치 채널이 좌측 귀 채널, 우측 귀 채널 및 중간 채널 중 적어도 하나를 포함하는 것을 선택적으로 포함하고, 상기 중간 채널은 상기 좌측 귀 채널과 상기 우측 귀 채널 사이에 위치된 채널의 지각을 제공한다.

예 141에서, 예 138 내지 예 140 중 임의의 하나 이상의 발명 내용은 상기 복수의 공간 오디오 신호 서브 세트들 중 적어도 하나가 앰비소닉 사운드 필드 인코딩된 오디오 신호를 포함하는 것을 선택적으로 포함한다.

예 142에서, 예 141의 발명 내용은 상기 공간 오디오 신호가 1차 앰비소닉 오디오 신호, 더 고차의 앰비소닉 오디오 신호 및 하이브리드 앰비소닉 오디오 신호 중 적어도 하나를 포함하는 것을 선택적으로 포함한다.

예 143에서, 예 138 내지 예 142 중 임의의 하나 이상의 발명 내용은 상기 복수의 공간 오디오 신호 서브 세트들 중 적어도 하나가 매트릭스 인코딩된 오디오 신호를 포함하는 것을 선택적으로 포함한다.

예 144에서, 예 143의 발명 내용은 상기 매트릭스 인코딩된 오디오 신호가 보존된 높이 정보를 포함하는 것을 선택적으로 포함한다.

예 145에서, 예 137 내지 144 중 임의의 하나 이상의 발명 내용은 상기 복수의 공간 오디오 신호 서브 세트들 중 적어도 하나가 관련된 가변 깊이 오디오 신호를 포함하는 것을 선택적으로 포함한다.

예 146에서, 예 145의 발명 내용은 각각의 관련된 가변 깊이 오디오 신호가 관련된 기준 오디오 깊이 및 관련된 가변 오디오 깊이를 포함하는 것을 선택적으로 포함한다.

예 147에서, 예 145 내지 예 146 중 임의의 하나 이상의 발명 내용은 각각의 관련된 가변 깊이 오디오 신호가 상기 복수의 공간 오디오 신호 서브 세트들 각각의 유효 깊이에 관한 시간-주파수 정보를 포함하는 것을 선택적으로 포함한다.

예 148에서, 예 146 내지 예 147 중 임의의 하나 이상의 발명 내용은 상기 프로세서가 또한 관련된 기준 오디오 깊이에서 상기 형성된 오디오 신호를 디코딩하도록 구성되는 것을 선택적으로 포함하며, 상기 디코딩하는 것은 관련된 가변 오디오 깊이로 폐기하고; 상기 관련된 기준 오디오 깊이로 상기 복수의 공간 오디오 신호 서브 세트들 각각을 디코딩하는 것을 포함한다.

예 149에서, 예 145 내지 예 148 중 임의의 하나 이상의 발명 내용은 상기 복수의 공간 오디오 신호 서브 세트들 중 적어도 하나가 앰비소닉 사운드 필드 인코딩된 오디오 신호를 포함하는 것을 선택적으로 포함한다.

예 150에서, 예 149의 발명 내용은 상기 공간 오디오 신호가 1차 앰비소닉 오디오 신호, 더 고차의 앰비소닉 오디오 신호 및 하이브리드 앰비소닉 오디오 신호 중 적어도 하나를 포함하는 것을 선택적으로 포함한다.

예 151에서, 예 145 내지 예 150 중 임의의 하나 이상의 발명 내용은 상기 복수의 공간 오디오 신호 서브 세트들 중 적어도 하나가 매트릭스 인코딩된 오디오 신호를 포함하는 것을 선택적으로 포함한다.

예 152에서, 예 151의 발명 내용은 상기 매트릭스 인코딩된 오디오 신호가 보존된 높이 정보를 포함하는 것을 선택적으로 포함한다.

예 153에서, 실시 예 137 내지 152 중 임의의 하나 이상의 발명 내용은 상기 복수의 공간 오디오 신호 서브 세트들 각각이 관련된 깊이 메타 데이터 신호를 포함하고, 상기 깊이 메타 데이터 신호는 음원 물리적 위치 정보를 포함하는 것을 선택적으로 포함한다.

예 154에서, 예 153의 발명 내용은 상기 음원 물리적 위치 정보가 기준 위치 및 기준 배향에 관한 위치 정보를 포함하고; 상기 음원 물리적 위치 정보는 물리적 위치 깊이 및 물리적 위치 방향 중 적어도 하나를 포함하는 것을 선택적으로 포함한다.

예 155에서, 예 153 내지 예 154 중 임의의 하나 이상의 발명 내용은 상기 복수의 공간 오디오 신호 서브 세트들 중 적어도 하나가 앰비소닉 사운드 필드 인코딩된 오디오 신호를 포함하는 것을 선택적으로 포함한다.

예 156에서, 예 155의 발명 내용은 상기 공간 오디오 신호가 1차 앰비소닉 오디오 신호, 더 고차의 앰비소닉 오디오 신호 및 하이브리드 앰비소닉 오디오 신호 중 적어도 하나를 포함하는 것을 선택적으로 포함한다.

예 157에서, 예 153 내지 예 156 중 임의의 하나 이상의 발명 내용은 상기 복수의 공간 오디오 신호 서브 세트들 중 적어도 하나가 매트릭스 인코딩된 오디오 신호를 포함하는 것을 선택적으로 포함한다.

예 158에서, 예 157의 발명 내용은 상가 매트릭스 인코딩된 오디오 신호가 보존된 높이 정보를 포함하는 것을 선택적으로 포함한다.

예 159에서, 예 134 내지 예 158 중 임의의 하나 이상의 발명 내용은 상기 신호 형성 출력을 생성하는 것은 시간-주파수 스티어링 분석에 또한 기초하는 것을 선택적으로 포함한다

예 160은 적어도 하나의 머신 판독 가능 저장 매체로서, 복수의 명령어들을 포함하고, 상기 복수의 명령어들은 컴퓨터-제어 근거리장 바이노럴 렌더링 디바이스의 프로세서 회로로 실행되는 것에 응답하여, 상기 디바이스로 하여금, 음원 및 오디오 객체 위치를 포함하는 오디오 객체를 수신하고; 상기 오디오 객체 위치 및 위치 메타 데이터 - 상기 위치 메타 데이터는 청취자 위치 및 청취자 배향을 표시함 - 에 기초하여, 방사상 가중치의 세트를 결정하고; 상기 오디오 객체 위치, 상기 청취자 위치 및 상기 청취자 배향에 기초하여 소스 방향을 결정하고; 근거리장 HRTF 오디오 경계 반경 및 원거리장 HRTF 오디오 경계 반경 중 적어도 하나를 포함하는 적어도 하나의 HRTF 방사상 경계에 대한 상기 소스 방향에 기초하여 HRTF 가중치의 세트를 결정하고; 상기 방사상 가중치의 세트 및 상기 HRTF 가중치의 세트에 기초하여, 오디오 객체 방향 및 오디오 객체 거리를 포함하는 3D 바이노럴 오디오 객체 출력을 생성하며; 상기 3D 바이노럴 오디오 객체 출력에 기초하여 바이노럴 오디오 출력 신호를 변환하게 한다.

예 161에서, 예 160의 발명 내용은 상기 명령어들이 또한 상기 디바이스로 하여금 헤드 트래커 및 사용자 입력 중 적어도 하나로부터 위치 메타 데이터를 수신하게 하는 것을 선택적으로 포함한다.

예 162에서, 예 160 내지 예 161 중 임의의 하나 이상의 발명 내용은 상기 HRTF 가중치의 세트를 결정하는 것은, 오디오 객체 위치가 원거리장 HRTF 오디오 경계 반경 너머에 있다고 결정하는 것을 포함하고; 상기 HRTF 가중치의 세트를 결정하는 것은 또한 레벨 롤오프 및 직접 잔향 비 중 적어도 하나에 또한 기초하는 것을 선택적으로 포함한다.

예 163에서, 예 160 내지 예 162 중 임의의 하나 이상의 발명 내용은 HRTF 방사상 경계가 중요한 HRTF 오디오 경계 반경을 포함하고, 중요한 HRTF 오디오 경계 반경은 근거리장 HRTF 오디오 경계 반경과 원거리장 HRTF 오디오 경계 반경 사이의 간극 반경을 정의하는 것을 선택적으로 포함한다.

예 164에서, 예 163의 발명 내용은 상기 명령어들이 또한 상기 디바이스로 하여금 상기 오디오 객체 반경을 근거리장 HRTF 오디오 경계 반경 및 원거리장 HRTF 오디오 경계 반경과 비교하게 하고, HRTF 가중치의 세트를 결정하는 것은 상기 오디오 객체 반경 비교에 기초하여 근거리장 HRTF 가중치 및 원거리장 HRTF 가중치의 조합을 결정하는 것을 포함하는 것을 선택적으로 포함한다.

예 165에서, 예 160 내지 164 중 임의의 하나 이상의 발명 내용은 3D 바이노럴 오디오 객체 출력이 상기 결정된 ITD 및 적어도 하나의 HRTF 방사상 경계에 또한 기초하는 것을 선택적으로 포함한다.

예 166에서, 예 165의 발명 내용은 상기 명령어들이 또한 상기 디바이스로 하여금 오디오 객체 위치가 근거리장 HRTF 오디오 경계 반경 너머에 있다고 결정하게 하고, 상기 ITD를 결정하는 것은 상기 결정된 소스 방향에 기초하여 부분 시간 지연을 결정하는 것을 포함하는 것을 선택적으로 포함한다.

예 167에서, 예 165 내지 166 중 임의의 하나 이상의 발명 내용은 상기 명령어들이 또한 상기 디바이스로 하여금 상기 오디오 객체 위치가 근거리장 HRTF 오디오 경계 반경 상에 또는 그 안에 있다고 결정하게 하고, 상기 ITD를 결정하는 것은 상기 결정된 소스 방향에 기초하여 근거리장 시간 양이간 지연을 결정하는 것을 포함하는 것을 선택적으로 포함한다.

예 168에서, 예 160 내지 예 167 중 임의의 하나 이상의 발명 내용은 3D 바이노럴 오디오 객체 출력이 시간-주파수 분석에 기초하는 것을 선택적으로 포함한다.

예 169는 적어도 하나의 머신 판독 가능 저장 매체로서, 복수의 명령어들을 포함하고, 상기 복수의 명령어들은 컴퓨터-제어 6 자유도 음원 트래킹 디바이스의 프로세서 회로로 실행되는 것에 응답하여, 상기 디바이스로 하여금, 기준 배향을 포함하는 적어도 하나의 음원을 나타내는 공간 오디오 신호를 수신하고; 상기 적어도 하나의 공간 오디오 신호 기준 배향에 대한 청취자의 물리적 움직임을 나타내는 3D 모션 입력을 수신하고; 상기 공간 오디오 신호에 기초하여 공간 분석 출력을 생성하고; 상기 공간 오디오 신호 및 상기 공간 분석 출력에 기초하여 신호 형성 출력을 생성하고; 상기 신호 형성 출력, 상기 공간 분석 출력 및 상기 3D 모션 입력에 기초하여, 상기 공간 오디오 신호 기준 배향에 대한 청취자의 물리적 움직임에 의해 초래되는 적어도 하나의 음원의 업데이트된 겉보기 방향 및 거리를 나타내는 액티브 스티어링 출력을 생성하며; 상기 액티브 스티어링 출력에 기초하여 오디오 출력 신호를 변환하게 한다.

예 170에서, 예 169의 발명 내용은 청취자의 물리적 움직임이 회전 및 병진 중 적어도 하나를 포함하는 것을 선택적으로 포함한다.

예 171에서, 예 169 내지 예 170 중 임의의 하나 이상의 발명 내용은 상기 복수의 공간 오디오 신호 서브 세트들 중 적어도 하나가 앰비소닉 사운드 필드 인코딩된 오디오 신호를 포함하는 것을 선택적으로 포함한다.

예 172에서, 예 171의 발명 내용은 상기 공간 오디오 신호가 1차 앰비소닉 오디오 신호, 더 고차의 앰비소닉 오디오 신호 및 하이브리드 앰비소닉 오디오 신호 중 적어도 하나를 포함하는 것을 선택적으로 포함한다.

예 173에서, 예 171 내지 예 172 중 임의의 하나 이상의 발명 내용은 헤드 트래킹 디바이스 및 사용자 입력 디바이스 중 적어도 하나로부터의 3D 모션 입력을 선택적으로 포함한다.

예 174에서, 예 169 내지 예 173 중 임의의 하나 이상의 발명 내용은 상기 명령어들이 또한 상기 디바이스로 하여금 상기 액티브 스티어링 출력에 기초하여 복수의 양자화된 채널을 생성하게 하는 것을 선택적으로 포함하고, 상기 복수의 양자화된 채널 각각은 미리 결정된 양자화된 깊이에 대응한다.

예 175에서, 예 174의 발명 내용은 상기 명령어들이 또한 상기 디바이스로 하여금 복수의 양자화된 채널로부터 헤드폰 재생에 적합한 바이노럴 오디오 신호를 생성하게 하는 것을 선택적으로 포함한다.

예 176에서, 예 175의 발명 내용은 상기 명령어들이 또한 상기 디바이스로 하여금 누화 취소를 적용함으로써 라우드 스피커 재생에 적합한 트랜스오럴 오디오 신호를 생성하게 하는 것을 선택적으로 포함한다.

예 177에서, 예 169 내지 예 176 중 임의의 하나 이상의 발명 내용은 상기 명령어들이 또한 상기 디바이스로 하여금 상기 형성된 오디오 신호 및 업데이트된 겉보기 방향으로부터 헤드폰 재생에 적합한 바이노럴 오디오 신호를 생성하게 하는 것을 선택적으로 포함한다.

예 178에서, 예 177의 발명 내용은 상기 명령어들이 또한 상기 디바이스로 하여금 누화 취소를 적용함으로써 라우드 스피커 재생에 적합한 트랜스오럴 오디오 신호를 생성하게 하는 것을 선택적으로 포함한다.

예 179에서, 예 169 내지 예 178 중 임의의 하나 이상의 발명 내용은 상기 모션 입력이 3 개의 직교 모션 축들 중 적어도 하나에서의 움직임을 포함하는 것을 선택적으로 포함한다.

예 180에서, 예 179의 발명 내용은 상기 모션 입력이 3 개의 직교 모션 축들 중 적어도 하나를 중심으로 한 회전을 포함하는 것을 선택적으로 포함한다.

예 181에서, 예 169 내지 예 180 중 임의의 하나 이상의 발명 내용은 상기 모션 입력이 헤드 트래커 모션을 포함하는 것을 선택적으로 포함한다.

예 182에서, 예 169 내지 예 181 중 임의의 하나 이상의 발명 내용은 상기 공간 오디오 신호가 적어도 하나의 앰비소닉 사운드 필드를 포함하는 것을 선택적으로 포함한다.

예 183에서, 예 182의 발명 내용은 상기 앰비소닉 사운드 필드가 1차 사운드 필드, 더 고차의 사운드 필드 및 하이브리드 사운드 필드 중 적어도 하나를 포함하는 것을 선택적으로 포함한다.

예 184에서, 예 182 내지 예 183 중 임의의 하나 이상의 발명 내용은 상기 공간 사운드 필드 디코딩을 적용하는 것은 시간-주파수 사운드 필드 분석에 기초하여 적어도 하나의 앰비소닉 사운드 필드를 분석하는 것을 포함하며; 상기 적어도 하나의 음원의 업데이트된 겉보기 방향은 상기 시간-주파수 사운드 필드 분석에 기초하는 것을 선택적으로 포함한다.

예 185에서, 예 169 내지 예 184 중 임의의 하나 이상의 발명 내용은 상기 공간 오디오 신호는 매트릭스 인코딩된 신호를 포함하는 것을 선택적으로 포함한다.

예 186에서, 예 185의 발명 내용은 상기 공간 매트릭스 디코딩을 적용하는 것이 시간-주파수 매트릭스 분석에 기초하고; 상기 적어도 하나의 음원의 업데이트된 겉보기 방향이 상기 시간-주파수 매트릭스 분석에 기초하는 것을 선택적으로 포함한다.

예 187에서, 예 186의 발명 내용은 상기 공간 매트릭스 디코딩을 적용하는 것이 높이 정보를 보존하는 것을 선택적으로 포함한다.

예 188은 적어도 하나의 머신 판독 가능 저장 매체로서, 복수의 명령어들을 포함하고, 상기 복수의 명령어들은 컴퓨터-제어 깊이 코딩 디바이스의 프로세서 회로로 실행되는 것에 응답하여 상기 디바이스로 하여금, 음원 깊이에서 적어도 하나의 음원를 나타내는 공간 오디오 신호를 수신하고; 상기 공간 오디오 신호 및 상기 음원 깊이에 기초하여 공간 분석 출력을 생성하고; 상기 공간 오디오 신호 및 상기 공간 분석 출력에 기초하여 신호 형성 출력을 생성하고; 상기 신호 형성 출력 및 상기 공간 분석 출력에 기초하여, 적어도 하나의 음원의 업데이트된 겉보기 방향을 나타내는 액티브 스티어링 출력을 생성하며; 상기 액티브 스티어링 출력에 기초하여 오디오 출력 신호를 변환하게 한다.

예 189에서, 예 188의 발명 내용은 적어도 하나의 음원의 업데이트된 겉보기 방향이 적어도 하나의 음원에 대한 청취자의 물리적 움직임에 기초하는 것을 선택적으로 포함한다.

예 190에서, 예 188 내지 예 189 중 임의의 하나 이상의 발명 내용은 상기 공간 오디오 신호가 1차 앰비소닉 오디오 신호, 더 고차의 앰비소닉 오디오 신호 및 하이브리드 앰비소닉 오디오 신호 중 적어도 하나를 포함하는 것을 선택적으로 포함한다.

예 191에서, 예 188 내지 예 190 중 임의의 하나 이상의 발명 내용은 상기 공간 오디오 신호가 복수의 공간 오디오 신호 서브 세트를 포함하는 것을 선택적으로 포함한다.

예 192에서, 예 191의 발명 내용은 상기 복수의 공간 오디오 신호 서브 세트들 각각이 관련된 서브 세트 깊이를 포함하고, 상기 명령어들이 상기 디바이스로 하여금 상기 공간 분석 출력을 생성하게 하는 것은, 명령어들이 상기 디바이스로 하여금 복수의 디코딩된 서브 세트 깊이 출력을 생성하기 위하여 각 관련된 서브 세트 깊이에서 복수의 공간 오디오 신호 서브 세트들 각각을 디코딩하고; 상기 공간 오디오 신호에서 상기 적어도 하나의 음원의 순 깊이 지각을 생성하기 위하여 상기 복수의 디코딩된 서브 세트 깊이 출력들을 결합하게 하는 것을 포함하는 것을 선택적으로 포함한다.

예 193에서, 예 192의 발명 내용은 상기 복수의 공간 오디오 신호 서브 세트들 중 적어도 하나가 고정된 위치 채널을 포함하는 것을 선택적으로 포함한다.

예 194에서, 예 192 내지 예 193 중 임의의 하나 이상의 발명 내용은 상기 고정된 위치 채널이 좌측 귀 채널, 우측 귀 채널 및 중간 채널 중 적어도 하나를 포함하는 것을 선택적으로 포함하고, 상기 중간 채널은 상기 좌측 귀 채널과 상기 우측 귀 채널 사이에 위치된 채널의 지각을 제공한다.

예 195에서, 예 192 내지 예 194 중 임의의 하나 이상의 발명 내용은 상기 복수의 공간 오디오 신호 서브 세트들 중 적어도 하나가 앰비소닉 사운드 필드 인코딩된 오디오 신호를 포함하는 것을 선택적으로 포함한다.

예 196에서, 예 195의 발명 내용은 상기 공간 오디오 신호가 1차 앰비소닉 오디오 신호, 더 고차의 앰비소닉 오디오 신호 및 하이브리드 앰비소닉 오디오 신호 중 적어도 하나를 포함하는 것을 선택적으로 포함한다.

예 197에서, 예 192 내지 예 196 중 임의의 하나 이상의 발명 내용은 상기 복수의 공간 오디오 신호 서브 세트들 중 적어도 하나가 매트릭스 인코딩된 오디오 신호를 포함하는 것을 선택적으로 포함한다.

예 198에서, 예 197의 발명 내용은 상기 매트릭스 인코딩된 오디오 신호가 보존된 높이 정보를 포함하는 것을 선택적으로 포함한다.

예 199에서, 예 191 내지 예 198 중 임의의 하나 이상의 발명 내용은 상기 복수의 공간 오디오 신호 서브 세트들 중 적어도 하나가 관련된 가변 깊이 오디오 신호를 포함하는 것을 선택적으로 포함한다.

예 200에서, 예 199의 발명 내용은 각각의 관련된 가변 깊이 오디오 신호가 관련된 기준 오디오 깊이 및 관련된 가변 오디오 깊이를 포함하는 것을 선택적으로 포함한다.

예 201에서, 예 199 내지 예 200 중 임의의 하나 이상의 발명 내용은 각각의 관련된 가변 깊이 오디오 신호가 상기 복수의 공간 오디오 신호 서브 세트 각각의 유효 깊이에 관한 시간-주파수 정보를 포함하는 것을 선택적으로 포함한다.

예 202에서, 예 200 내지 예 201 중 임의의 하나 이상의 발명 내용은 상기 명령어들이 또한 상기 디바이스로 하여금 상기 관련된 기준 오디오 깊이에서 상기 형성된 오디오 신호를 디코딩하게 하고, 상기 명령어들이 상기 디바이스로 하여금 상기 형성된 오디오 신호를 디코딩하게 하는 것은 상기 명령어들이 상기 다비이스로 하여금 상기 관련된 가변 오디오 깊이로 폐기하고; 상기 관련된 기준 오디오 깊이로 상기 복수의 공간 오디오 신호 서브 세트들 각각을 디코딩하게 하는 것을 선택적으로 포함한다.

예 203에서, 예 199 내지 예 202 중 임의의 하나 이상의 발명 내용은 상기 복수의 공간 오디오 신호 서브 세트들 중 적어도 하나가 앰비소닉 사운드 필드 인코딩된 오디오 신호를 포함하는 것을 선택적으로 포함한다.

예 204에서, 예 203의 발명 내용은 상기 공간 오디오 신호가 1차 앰비소닉 오디오 신호, 더 고차의 앰비소닉 오디오 신호 및 하이브리드 앰비소닉 오디오 신호 중 적어도 하나를 포함하는 것을 선택적으로 포함한다.

예 205에서, 예 199 내지 204 중 임의의 하나 이상의 발명 내용은 상기 복수의 공간 오디오 신호 서브 세트들 중 적어도 하나가 매트릭스 인코딩된 오디오 신호를 포함하는 것을 선택적으로 포함한다.

예 206에서, 예 205의 발명 내용은 상기 매트릭스 인코딩된 오디오 신호가 보존된 높이 정보를 포함하는 것을 선택적으로 포함한다.

예 207에서, 예 191 내지 206 중 임의의 하나 이상의 발명 내용은 상기 복수의 공간 오디오 신호 서브 세트들 각각이 관련된 깊이 메타 데이터 신호를 포함하고, 상기 깊이 메타 데이터 신호는 음원 물리적 위치 정보를 포함하는 것을 선택적으로 포함한다.

예 208에서, 예 207의 발명 내용은 상기 음원 물리적 위치 정보가 기준 위치 및 기준 배향에 대한 위치 정보를 포함하고; 상기 음원 물리적 위치 정보는 물리적 위치 깊이 및 물리적 위치 방향 중 적어도 하나를 포함하는 것을 선택적으로 포함한다.

예 209에서, 예 207 내지 208 중 임의의 하나 이상의 발명 내용은 상기 복수의 공간 오디오 신호 서브 세트들 중 적어도 하나가 앰비소닉 사운드 필드 인코딩된 오디오 신호를 포함하는 것을 선택적으로 포함한다.

예 210에서, 예 209의 발명 내용은 상기 공간 오디오 신호가 1차 앰비소닉 오디오 신호, 더 고차의 앰비소닉 오디오 신호 및 하이브리드 앰비소닉 오디오 신호 중 적어도 하나를 포함하는 것을 선택적으로 포함한다.

예 211에서, 예 207 내지 210 중 임의의 하나 이상의 발명 내용은 상기 복수의 공간 오디오 신호 서브 세트들 중 적어도 하나가 매트릭스 인코딩된 오디오 신호를 포함하는 것을 선택적으로 포함한다.

예 212에서, 예 211의 발명 내용은 상기 매트릭스 인코딩된 오디오 신호가 보존된 높이 정보를 포함하는 것을 선택적으로 포함한다.

예 213에서, 예 188 내지 212 중 임의의 하나 이상의 발명 내용은 상기 오디오 출력이 대역 분할 및 시간-주파수 표현 중 적어도 하나를 사용하여 하나 이상의 주파수에서 독립적으로 수행되는 것을 선택적으로 포함한다.

예 214는 적어도 하나의 머신 판독 가능 저장 매체로서, 복수의 명령어들을 포함하고, 상기 명령어들은 컴퓨터-제어 길이 디코딩 디바이스의 프로세서 회로로 실행되는 것에 응답하여 상기 디바이스로 하여금, 음원 깊이에서 적어도 하나의 음원를 나타내는 공간 오디오 신호를 수신하고; 상기 공간 오디오 신호에 기초하여, 상기 적어도 하나의 음원의 겉보기 순 깊이 및 방향을 나타내는 오디오 출력을 생성하고; 액티브 스티어링 출력에 기초하여 오디오 출력 신호를 변환하게 한다.

예 215에서, 예 214의 발명 내용은 상기 적어도 하나의 음원의 겉보기 방향이 적어도 하나의 음원에 대한 청취자의 물리적 움직임에 기초하는 것을 선택적으로 포함한다.

예 216에서, 예 214 내지 215 중 임의의 하나 이상의 발명 내용은 상기 공간 오디오 신호가 1차 앰비소닉 오디오 신호, 더 고차의 앰비소닉 오디오 신호 및 하이브리드 앰비소닉 오디오 신호 중 적어도 하나를 포함하는 것을 선택적으로 포함한다.

예 217에서, 예 214 내지 216 중 임의의 하나 이상의 발명 내용은 상기 공간 오디오 신호가 복수의 공간 오디오 신호 서브 세트를 포함하는 것을 선택적으로 포함한다.

예 218에서, 예 217의 발명 내용은 상기 복수의 공간 오디오 신호 서브 세트들 각각이 관련된 서브 세트 깊이를 포함하고, 상기 명령어들이 상기 디바이스로 하여금 신호 형성 출력을 생성하게 하는 것은, 상기 명령어들이 상기 디바이스로 하여금 복수의 디코딩된 서브 세트 깊이 출력을 생성하기 위하여 각각의 관련된 서브 세트 깊이에서 상기 복수의 공간 오디오 신호 서브 세트들 각각을 디코딩하고, 상기 공간 오디오 신호에서 적어도 하나의 음원의 순 깊이 지각을 생성하기 위해 상기 복수의 디코딩된 서브 세트 깊이 출력들을 결합하게 하는 것을 포함하는 것을 선택적으로 포함한다.

예 219에서, 예 218의 발명 내용은 상기 복수의 공간 오디오 신호 서브 세트들 중 적어도 하나가 고정된 위치 채널을 포함하는 것을 선택적으로 포함한다.

예 220에서, 예 218 내지 219 중 임의의 하나 이상의 발명 내용은 상기 고정된 위치 채널이 좌측 귀 채널, 우측 귀 채널 및 중간 채널 중 적어도 하나를 포함하는 것을 선택적으로 포함하고, 상기 중간 채널은 상기 좌측 귀 채널과 상기 우측 귀 채널 사이에 위치된 채널의 지각을 제공한다.

예 221에서, 예 218 내지 220 중 임의의 하나 이상의 발명 내용은 상기 복수의 공간 오디오 신호 서브 세트들 중 적어도 하나가 앰비소닉 사운드 필드 인코딩된 오디오 신호를 포함하는 것을 선택적으로 포함한다.

예 222에서, 예 221의 발명 내용은 상기 공간 오디오 신호가 1차 앰비소닉 오디오 신호, 더 고차의 앰비소닉 오디오 신호 및 하이브리드 앰비소닉 오디오 신호 중 적어도 하나를 포함하는 것을 선택적으로 포함한다.

예 223에서, 예 218 내지 222 중 임의의 하나 이상의 발명 내용은 상기 복수의 공간 오디오 신호 서브 세트들 중 적어도 하나가 매트릭스 인코딩된 오디오 신호를 포함하는 것을 선택적으로 포함한다.

예 224에서, 예 223의 발명 내용은 상기 매트릭스 인코딩된 오디오 신호가 보존된 높이 정보를 포함하는 것을 선택적으로 포함한다.

예 225에서, 예 217 내지 224 중 임의의 하나 이상의 발명 내용은 상기 복수의 공간 오디오 신호 서브 세트들 중 적어도 하나가 관련된 가변 깊이 오디오 신호를 포함하는 것을 선택적으로 포함한다.

예 226에서, 예 225의 발명 내용은 각각의 관련된 가변 깊이 오디오 신호가 관련된 기준 오디오 깊이 및 관련된 가변 오디오 깊이를 포함하는 것을 선택적으로 포함한다.

예 227에서, 예 225 내지 예 226 중 임의의 하나 이상의 발명 내용은 각각의 관련된 가변 깊이 오디오 신호가 상기 복수의 공간 오디오 신호 서브 세트 각각의 유효 깊이에 관한 시간-주파수 정보를 포함하는 것을 선택적으로 포함한다.

예 228에서, 예 226 내지 예 227 중 임의의 하나 이상의 발명 내용은 상기 명령어들이 상기 디바이스로 하여금 관련된 기준 오디오 깊이에서 상기 형성된 오디오 신호를 디코딩하게 하고, 상기 명령어들이 상기 디바이스로 하여금 상기 형성된 오디오 신호를 디코딩하게 하는 것은 상기 명령어들이 상기 디바이스로 하여금 관련된 가변 오디오 깊이로 폐기하고; 상기 관련된 기준 오디오 깊이로 상기 복수의 공간 오디오 신호 서브 세트들 각각을 디코딩하게 하는 것을 포함하는 것을 선택적으로 포함한다.

예 229에서, 예 225 내지 예 228 중 임의의 하나 이상의 발명 내용은 상기 복수의 공간 오디오 신호 서브 세트들 중 적어도 하나가 앰비소닉 사운드 필드 인코딩된 오디오 신호를 포함하는 것을 선택적으로 포함한다.

예 230에서, 예 229의 발명 내용은 상기 공간 오디오 신호가 1차 앰비소닉 오디오 신호, 더 고차의 앰비소닉 오디오 신호 및 하이브리드 앰비소닉 오디오 신호 중 적어도 하나를 포함하는 것을 선택적으로 포함한다.

예 231에서, 예 225 내지 예 230 중 임의의 하나 이상의 발명 내용은 상기 복수의 공간 오디오 신호 서브 세트들 중 적어도 하나가 매트릭스 인코딩된 오디오 신호를 포함하는 것을 선택적으로 포함한다.

예 232에서, 예 231의 발명 내용은 상기 매트릭스 인코딩된 오디오 신호가 보존된 높이 정보를 포함하는 것을 선택적으로 포함한다.

예 233에서, 예 217 내지 232 중 임의의 하나 이상의 발명 내용은 상기 복수의 공간 오디오 신호 서브 세트 각각이 관련된 깊이 메타 데이터 신호를 포함하고, 상기 깊이 메타 데이터 신호는 음원 물리적 위치 정보를 포함하는 것을 선택적으로 포함한다.

예 234에서, 예 233의 발명 내용은 상기 음원 물리적 위치 정보가 기준 위치 및 기준 배향에 관한 위치 정보를 포함하고; 상기 음원 물리적 위치 정보는 물리적 위치 깊이 및 물리적 위치 방향 중 적어도 하나를 포함하는 것을 선택적으로 포함한다.

예 235에서, 예 233 내지 예 234 중 임의의 하나 이상의 발명 내용은 상기 복수의 공간 오디오 신호 서브 세트들 중 적어도 하나가 앰비소닉 사운드 필드 인코딩된 오디오 신호를 포함하는 것을 선택적으로 포함한다.

예 236에서, 예 235의 발명 내용은 상기 공간 오디오 신호가 1차 앰비소닉 오디오 신호, 더 고차의 앰비소닉 오디오 신호 및 하이브리드 앰비소닉 오디오 신호 중 적어도 하나를 포함하는 것을 선택적으로 포함한다.

예 237에서, 예 233 내지 예 236 중 임의의 하나 이상의 발명 내용은 상기 복수의 공간 오디오 신호 서브 세트들 중 적어도 하나가 매트릭스 인코딩된 오디오 신호를 포함하는 것을 선택적으로 포함한다.

예 238에서, 예 237의 발명 내용은 상기 매트릭스 인코딩된 오디오 신호가 보존된 높이 정보를 포함하는 것을 선택적으로 포함한다.

예 239에서, 예 214 내지 예 238 중 임의의 하나 이상의 발명 내용은 상기 신호 형성 출력을 생성하는 것은 시간-주파수 스티어링 분석에 또한 기초하는 것을 선택적으로 포함한다.

상기 상세한 설명은 상세한 설명의 일부를 형성하는 첨부 도면에 대한 참조를 포함한다. 도면은 예시적으로 특정 실시 예를 나타낸다. 이들 실시 예는 또한 본 명세서에서 "예(examples)"로도 지칭된다. 그러한 예들은 도시되거나 설명된 것들에 추가된 요소들을 포함할 수 있다. 또한, 발명 내용은 특정 예(또는 그 하나 이상의 양태)에 관하여 또는 본 명세서에 도시되거나 기술된 다른 예들(또는 그 하나 이상의 양태)에 관하여 도시되거나 기술된 요소들(또는 그 하나 이상의 양태)의 임의의 조합 또는 순열을 포함할 수 있다.

이 문서에서, 용어 "a" 또는 "an"는 특허 문헌에서 일반적으로 사용되는 것으로서 사용되어, "적어도 하나" 또는 "하나 이상"의 임의의 다른 예 또는 사용과 독립적으로, 하나 또는 하나보다 많은 것을 포함한다. 이 문서에서, "또는"이라는 용어는 달리 명시되지 않는 한, "A 또는 B"는 "A이지만, B는 아님", "B이지만, A는 아님" 및 "A 및 B"를 포함하도록 배타적이지 않은 것을 지칭하도록 사용된다. 이 문서에서, "포함하는(including)" 및 "in which"라는 용어는 각각의 용어 "포함하는(comprising)" 및 "wherein"의 평이한 영어 동의어로서 사용된다. 또한, 이하의 청구범위에서, "포함하는(including)" 및 "포함하는(comprising)"이라는 용어는 개방형(open-ended)이며, 즉, 청구항에서 그러한 용어 뒤에 나열된 것들 외의 요소들을 포함하는 시스템, 디바이스, 물품, 조성물, 공식화(formulation) 또는 프로세스는 여전히 그 청구항의 범위에 포함되는 것으로 간주된다. 또한, 이하의 청구범위에서, "제1", "제2" 및 "제3" 등의 용어는 단지 라벨로서 사용되며, 그들의 대상에 수치적인 요구를 부과하려는 것은 아니다.

상기 설명은 예시적이고 제한하려는 것은 아닌 의도이다. 예를 들어, 상술된 예들(또는 그것의 하나 이상의 양태들)은 서로 조합되어 사용될 수 있다. 상기 설명을 검토하면 예를 들어 당업자에 의해서 다른 실시 예가 사용될 수 있다. 독자가 기술 개시의 본질을 신속하게 확인할 수 있도록 요약서가 제공된다. 요약서는 청구범위의 범위 또는 의미를 해석하거나 제한하는 데 사용되지 않을 것이라는 이해 하에 제출된다. 상기 상세한 설명에서, 다양한 특징들이 함께 그룹화되어 본 개시를 간소화할 수 있다. 이것은 특허청구되지 않은 개시된 특징이 모든 청구항에 필수적이라는 것을 의미하는 것으로 해석되어서는 안 된다. 오히려, 발명 내용은 특정 개시된 실시 예의 모든 특징보다 적은 데 존재할 수 있다. 따라서, 이하의 청구 범위는 상세한 설명에 포함되며, 각 청구항은 별개의 실시 예로서 독자적으로 기재되며, 그러한 실시 예들은 다양한 조합 또는 순열로 서로 결합될 수 있다. 그 범위는 첨부된 청구범위와 함께, 그러한 청구범위에 해당하는 균등물의 전체 범위를 참조하여 결정되어야 한다.

Claims

근거리장 바이노럴 렌더링(near-field binaural rendering) 방법에 있어서,
음원 및 오디오 객체 위치를 포함하는 오디오 객체를 수신하는 단계;
상기 오디오 객체 위치 및 위치 메타 데이터 - 상기 위치 메타 데이터는 청취자 위치 및 청취자 배향을 표시함 - 에 기초하여, 방사상 가중치(radial weight)의 세트를 결정하는 단계;
상기 오디오 객체 위치, 상기 청취자 위치 및 상기 청취자 배향에 기초하여 소스 방향을 결정하는 단계;
근거리장(near-field) HRTF(head-related transfer function) 오디오 경계 반경 및 원거리장(far-field) HRTF 오디오 경계 반경 중 적어도 하나를 포함하는 적어도 하나의 HRTF 방사상 경계에 대한 상기 소스 방향에 기초하여, HRTF 가중치의 세트를 결정하는 단계;
상기 방사상 가중치의 세트 및 상기 HRTF 가중치의 세트에 기초하여, 오디오 객체 방향 및 오디오 객체 거리를 포함하는 3D 바이노럴 오디오 객체 출력을 생성하는 단계; 및
상기 3D 바이노럴 오디오 객체 출력에 기초하여 바이노럴 오디오 출력 신호를 변환(transduce)하는 단계를 포함하는 근거리장 바이노럴 렌더링 방법.
제1항에 있어서, 헤드 트래커(head tracker) 및 사용자 입력 중 적어도 하나로부터 상기 위치 메타 데이터를 수신하는 단계를 더 포함하는 근거리장 바이노럴 렌더링 방법.
제1항에 있어서,
상기 HRTF 가중치의 세트를 결정하는 단계는, 상기 오디오 객체 위치가 상기 원거리장 HRTF 오디오 경계 반경 너머에 있다고 결정하는 단계를 포함하고,
상기 HRTF 가중치의 세트를 결정하는 단계는, 레벨 롤오프(level roll-off) 및 직접 잔향 비(direct reverberant ratio) 중 적어도 하나에 더 기초하는 것인 근거리장 바이노럴 렌더링 방법.
제1항에 있어서, 상기 HRTF 방사상 경계는 중요한(of significance) HRTF 오디오 경계 반경을 포함하고, 상기 중요한 HRTF 오디오 경계 반경은 상기 근거리장 HRTF 오디오 경계 반경과 상기 원거리장 HRTF 오디오 경계 반경 사이의 간극 반경(interstitial radius)을 정의하는 것인 근거리장 바이노럴 렌더링 방법.
제4항에 있어서, 상기 오디오 객체 반경을 상기 근거리장 HRTF 오디오 경계 반경 및 상기 원거리장 HRTF 오디오 경계 반경과 비교하는 단계를 더 포함하고, 상기 HRTF 가중치의 세트를 결정하는 단계는, 상기 오디오 객체 반경 비교에 기초하여 근거리장 HRTF 가중치 및 원거리장 HRTF 가중치의 조합을 결정하는 단계를 포함하는 것인 근거리장 바이노럴 렌더링 방법.
제1항에 있어서, ITD(interaural time delay)를 결정하는 단계를 더 포함하고, 3D 바이노럴 오디오 객체 출력을 생성하는 단계는, 상기 결정된 ITD 및 상기 적어도 하나의 HRTF 방사상 경계에 더 기초하는 것인 근거리장 바이노럴 렌더링 방법.
근거리장 바이노럴 렌더링 시스템에 있어서,
프로세서 - 상기 프로세서는:
음원 및 오디오 객체 위치를 포함하는 오디오 객체를 수신하고;
상기 오디오 객체 위치 및 위치 메타 데이터 - 상기 위치 메타 데이터는 청취자 위치 및 청취자 배향을 표시함 - 에 기초하여, 방사상 가중치의 세트를 결정하고;
상기 오디오 객체 위치, 상기 청취자 위치 및 상기 청취자 배향에 기초하여 소스 방향을 결정하고;
근거리장 HRTF 오디오 경계 반경 및 원거리장 HRTF 오디오 경계 반경 중 적어도 하나를 포함하는 적어도 하나의 HRTF 방사상 경계에 대한 상기 소스 방향에 기초하여, HRTF 가중치의 세트를 결정하며; 그리고
상기 방사상 가중치의 세트 및 상기 HRTF 가중치의 세트에 기초하여, 오디오 객체 방향 및 오디오 객체 거리를 포함하는 3D 바이노럴 오디오 객체 출력을 생성하도록 구성됨 -; 및
상기 3D 바이노럴 오디오 객체 출력에 기초하여 바이노럴 오디오 출력 신호를 변환하기 위한 트랜스듀서를 포함하는, 근거리장 바이노럴 렌더링 시스템.
제7항에 있어서, 상기 프로세서는 또한, 헤드 트래커 및 사용자 입력 중 적어도 하나로부터 상기 위치 메타 데이터를 수신하도록 구성되는 것인 근거리장 바이노럴 렌더링 시스템.
제7항에 있어서, 상기 HRTF 가중치의 세트를 결정하는 것은, 상기 오디오 객체 위치가 상기 원거리장 HRTF 오디오 경계 반경 너머에 있다고 결정하는 것을 포함하고,
상기 HRTF 가중치의 세트를 결정하는 것은 레벨 롤-오프 및 직접 잔향 비 중 적어도 하나에 더 기초하는 것인 근거리장 바이노럴 렌더링 시스템.
제7항에 있어서, 상기 HRTF 방사상 경계는 중요한 HRTF 오디오 경계 반경을 포함하고, 상기 중요한 HRTF 오디오 경계 반경은 상기 근거리장 HRTF 오디오 경계 반경과 상기 원거리장 HRTF 오디오 경계 반경 사이의 간극 반경을 정의하는 것인 근거리장 바이노럴 렌더링 시스템.
제10항에 있어서, 상기 프로세서는 또한 상기 오디오 객체 반경을 상기 근거리장 HRTF 오디오 경계 반경 및 상기 원거리장 HRTF 오디오 경계 반경과 비교하도록 구성되고, 상기 HRTF 가중치의 세트를 결정하는 것은, 상기 오디오 객체 반경 비교에 기초하여 근거리장 HRTF 가중치 및 원거리장 HRTF 가중치의 조합을 결정하는 것을 포함하는 것인 근거리장 바이노럴 렌더링 시스템.
제7항에 있어서, 상기 프로세서는 또한 ITD(interaural time delay)를 결정하도록 구성되며, 상기 3D 바이노럴 오디오 객체 출력을 생성하는 것은 상기 결정된 ITD 및 상기 적어도 하나의 HRTF 방사상 경계에 더 기초하는 것인 근거리장 바이노럴 렌더링 시스템.
적어도 하나의 머신 판독 가능 저장 매체에 있어서, 복수의 명령어들을 포함하고, 상기 복수의 명령어들은, 컴퓨터-제어 근거리장 바이노럴 렌더링 디바이스의 프로세서 회로로 실행되는 것에 응답하여, 상기 디바이스로 하여금,
음원 및 오디오 객체 위치를 포함하는 오디오 객체를 수신하고;
상기 오디오 객체 위치 및 위치 메타 데이터 - 상기 위치 메타 데이터는 청취자 위치 및 청취자 배향을 표시함 - 에 기초하여, 방사상 가중치의 세트를 결정하고;
상기 오디오 객체 위치, 상기 청취자 위치 및 상기 청취자 배향에 기초하여 소스 방향을 결정하고;
근거리장 HRTF 오디오 경계 반경 및 원거리장 HRTF 오디오 경계 반경 중 적어도 하나를 포함하는 적어도 하나의 HRTF 방사상 경계에 대한 상기 소스 방향에 기초하여 HRTF 가중치의 세트를 결정하고;
상기 방사상 가중치의 세트 및 상기 HRTF 가중치의 세트에 기초하여, 오디오 객체 방향 및 오디오 객체 거리를 포함하는 3D 바이노럴 오디오 객체 출력을 생성하며;
상기 3D 바이노럴 오디오 객체 출력에 기초하여 바이노럴 오디오 출력 신호를 변환하게 하는 것인 머신 판독 가능 저장 매체.
제13항에 있어서, 상기 HRTF 방사상 경계는 중요한 HRTF 오디오 경계 반경을 포함하고, 상기 중요한 HRTF 오디오 경계 반경은 상기 근거리장 HRTF 오디오 경계 반경과 상기 원거리장 HRTF 오디오 경계 반경 사이의 간극 반경을 정의하는 것인 머신 판독 가능 저장 매체.
제14항에 있어서, 상기 명령어들은 또한 상기 디바이스로 하여금 상기 오디오 객체 반경을 상기 근거리장 HRTF 오디오 경계 반경 및 상기 원거리장 HRTF 오디오 경계 반경과 비교하게 하고, 상기 HRTF 가중치의 세트를 결정하는 것은, 상기 오디오 객체 반경 비교에 기초하여 근거리장 HRTF 가중치 및 원거리장 HRTF 가중치의 조합을 결정하는 것을 포함하는 것인 머신 판독 가능 저장 매체.