KR102622714B1

KR102622714B1 - 앰비소닉 깊이 추출

Info

Publication number: KR102622714B1
Application number: KR1020207032295A
Authority: KR
Inventors: 에드워드 스타인
Original assignee: 디티에스, 인코포레이티드
Priority date: 2018-04-08
Filing date: 2018-12-06
Publication date: 2024-01-08
Also published as: WO2019199359A1; US20190310759A1; EP3777244A4; EP3777244A1; EP3776157A1; CN112262585B; CN112437911A; WO2019199610A1; US10609503B2; US11036350B2; KR20210003790A; CN112262585A; US20190313200A1; KR20210006909A

Abstract

본 명세서에 설명된 시스템들 및 방법들은, 청취자에 대한 방위각, 앙각 및/또는 깊이에 대해 혼합된 콘텐트를 포함할 수 있는 것과 같이, 인코딩된 3D 오디오 믹스들로부터 상이한 오디오 소스 컴포넌트들을 식별, 조작 및 렌더링하도록 구성될 수 있다. 시스템들 및 방법들은 공간 성능이 특정 재생 환경 또는 플랫폼에 맞춤화되도록 허용하기 위해 깊이 인코딩 및 디코딩을 디커플링시키도록 구성될 수 있다. 일례에서, 시스템들 및 방법들은 6 자유도(예를 들어, 요, 피치, 롤 배향, 및 x, y, z 위치)에 걸친 추적을 포함하여 청취자 추적을 수반하는 애플리케이션들에서 렌더링을 개선한다.

Description

앰비소닉 깊이 추출

[관련 출원 및 우선권 주장]

본 출원은, 2018년 4월 8일에 출원되고 발명의 명칭이 "Single Depth Extraction from Extended Depth Ambisonics / ESAF"인 미국 가출원 제62/654,435호와 관련되고 그에 대한 우선권을 주장하며, 상기 출원 전체는 참조로 본 명세서에 통합된다.

[관련 기술]

본 특허 문헌에 설명된 기술은 사운드 재생 시스템에서 공간 오디오를 합성하기 위한 시스템들 및 방법들에 관한 것이다.

공간 오디오 재생은 수십년 동안 오디오 기술자들 및 소비자 전자기기 산업에서 관심받아 왔다. 공간 사운드 재생은, 본 명세서에 참조로 통합된 Jot, Jean-Marc, "Real-time Spatial Processing of Sounds for Music, Multimedia and Interactive Human-Computer Interfaces," IRCAM, 1 Place IgorStravinsky 1997, (이하 "Jot, 1997")에서 추가로 설명되는, 애플리케이션의 상황(예를 들어, 콘서트 공연, 영화관, 가정용 hi-fi 설치, 컴퓨터 디스플레이, 개인적인 머리 장착 디스플레이)에 따라 구성되어야 하는 2-채널 또는 멀티-채널 전자-음향 시스템(예를 들어, 라우드스피커들, 헤드폰들)을 요구한다.

영화 및 홈 비디오 엔터테인먼트 산업을 위한 오디오 레코딩 및 재생 기술들의 개발은 다양한 멀티-채널 "서라운드 사운드" 레코딩 포맷들(특히 5.1 및 7.1 포맷들)을 도출해 왔다. 다양한 오디오 레코딩 포맷들은 레코딩에서 3차원 오디오 큐(cue)들을 인코딩하기 위해 개발되어 왔다. 이러한 3-D 오디오 포맷들은 NHK 22.2 포맷과 같은 상승된 라우드스피커 채널들을 포함하는 앰비소닉 및 이산적 멀티-채널 오디오 포맷들을 포함한다.

다운믹스(downmix)는 캘리포니아, 칼라바사스의 DTS, Inc.로부터의 DTS-ES 및 DTS-HD와 같은 다양한 멀티-채널 디지털 오디오 포맷들의 사운드트랙 데이터 스트림에 포함된다. 이러한 다운믹스는 역호환가능하고, 레거시 디코더들에 의해 디코딩되고 기존의 재생 장비 상에서 재생될 수 있다. 이러한 다운믹스는 레거시 디코더들에 의해 무시되지만 넌-레거시 디코더들에 의해 사용될 수 있는 추가적인 오디오 채널들을 반송하는 데이터 스트림 확장을 포함한다. 예를 들어, DTS-HD 디코더는 이러한 추가 채널들을 복구하고, 역호환가능한 다운믹스에서 이들의 기여도를 공제하고, 이들을, 상승된 라우드스피커 위치들을 포함할 수 있는 역호환가능한 포맷과는 상이한 타겟 공간 오디오 포맷으로 렌더링할 수 있다. DTS-HD에서, 역호환가능한 믹스 및 타겟 공간 오디오 포맷에서 추가적인 채널들의 기여는 믹싱 계수들의 세트(예를 들어, 각각의 라우드스피커 채널에 대해 하나씩)에 의해 설명된다. 사운드트랙이 의도되는 타겟 공간 오디오 포맷들은 인코딩 스테이지에서 특정된다.

이러한 접근법은 레거시 서라운드 사운드 디코더들과 호환가능한 데이터 스트림 및 인코딩/제작 스테이지 동안 또한 선택된 하나 이상의 대안적인 타겟 공간 오디오 포맷들의 형태로 멀티-채널 오디오 사운드트랙의 인코딩을 허용한다. 이러한 대안적인 타겟 포맷들은 3차원 오디오 큐들의 개선된 재생에 적합한 포맷들을 포함할 수 있다. 그러나, 이러한 방식의 하나의 제한은, 새로운 포맷으로 믹싱되는 사운드트랙의 새로운 버전을 레코딩 및 인코딩하기 위해 다른 타겟 공간 오디오 포맷에 대해 동일한 사운드트랙을 인코딩하는 것이 제작 설비로의 복귀를 요구한다는 점이다.

객체 기반 오디오 장면 코딩은 타겟 공간 오디오 포맷과는 독립적인 사운드트랙 인코딩에 대한 일반적인 솔루션을 제공한다. 객체 기반 오디오 장면 코딩 시스템의 예는 MPEG-4 AABIFS(Advanced Audio Binary Format for Scenes)이다. 이러한 접근법에서, 소스 신호들 각각은 렌더 큐 데이터 스트림과 함께 개별적으로 송신된다. 이러한 데이터 스트림은 공간 오디오 장면 렌더링 시스템의 파라미터들의 시변 값들을 반송한다. 이러한 파라미터들의 세트는 포맷 독립적인 오디오 장면 설명의 형태로 제공될 수 있어서, 사운드트랙은 이러한 포맷에 따라 렌더링 시스템을 설계함으로써 임의의 타겟 공간 오디오 포맷으로 렌더링될 수 있다. 각각의 소스 신호는 그와 연관된 렌더 큐들과 함께 "오디오 객체"를 정의한다. 이러한 접근법은, 렌더러가 재생 목적으로 선택된 임의의 타겟 공간 오디오 포맷으로 각각의 오디오 객체를 렌더링하기 위해 이용가능한 가장 정확한 공간 오디오 합성 기술을 구현할 수 있게 한다. 객체 기반 오디오 장면 코딩 시스템들은 또한 리믹싱, 음악의 재해석(예를 들어, 가라오케) 또는 장면 내의 가상 내비게이션(예를 들어, 비디오 게이밍)을 포함하는 디코딩 스테이지에서 렌더링된 오디오 장면의 상호작용형 수정들을 허용한다.

낮은 비트 레이트 송신 또는 멀티-채널 오디오 신호의 저장을 위한 필요성은 바이노럴 큐 코딩(Binaural Cue Coding; BCC) 및 MPEG-서라운드를 포함하는 새로운 주파수-도메인 공간 오디오 코딩(SAC) 기술들의 개발을 자극하였다. 예시적인 SAC 기술에서, M-채널 오디오 신호는, 시간-주파수 도메인에서 원래의 M-채널 신호(채널간 상관 및 레벨 차이들)에 존재하는 채널간 관계들을 설명하는 공간 큐 데이터 스트림에 수반되는 다운믹스 오디오 신호의 형태로 인코딩된다. 다운믹스 신호가 M개보다 적은 오디오 채널들을 포함하고 공간 큐 데이터 레이트가 오디오 신호 데이터 레이트에 비해 작기 때문에, 이러한 코딩 접근법은 데이터 레이트를 상당히 감소시킨다. 추가적으로, 다운믹스 포맷은 레거시 장비와의 역호환성을 용이하게 하기 위해 선택될 수 있다.

미국 특허 출원 제2007/0269063호에 설명된 바와 같은 공간 오디오 장면 코딩(Spatial Audio Scene Coding; SASC)으로 지칭되는 이러한 접근법의 변형에서, 디코더에 송신되는 시간-주파수 공간 큐 데이터는 포맷 독립적이다. 이는, 임의의 타겟 공간 오디오 포맷으로 공간 재생을 가능하게 하는 한편, 인코딩된 사운드트랙 데이터 스트림에서 역호환가능한 다운믹스 신호를 반송하는 능력을 보유한다. 그러나, 이러한 접근법에서, 인코딩된 사운드트랙 데이터는 분리가능한 오디오 객체들을 정의하지 않는다. 대부분의 레코딩들에서, 사운드 장면 내의 상이한 위치들에 위치된 다수의 사운드 소스들은 시간-주파수 도메인에 공존한다. 이러한 경우, 공간 오디오 디코더는 다운믹스 오디오 신호에서 이들의 기여들을 분리할 수 없다. 그 결과, 오디오 재생의 공간 충실도는 공간 국부화 에러들에 의해 손상될 수 있다.

MPEG 공간 오디오 객체 코딩(SAOC)은, 인코딩된 사운드트랙 데이터 스트림이 시간-주파수 큐 데이터 스트림과 함께 역호환가능 다운믹스 오디오 신호를 포함한다는 점에서 MPEG-서라운드와 유사하다. SAOC는 모노 또는 2-채널 다운믹스 오디오 신호에서 M개의 오디오 객체들을 송신하도록 설계된 다수의 객체 코딩 기술이다. SAOC 다운믹스 신호와 함께 송신된 SAOC 큐 데이터 스트림은, 각각의 주파수 서브대역에서, 모노 또는 2-채널 다운믹스 신호의 각각의 채널에서 각각의 객체 입력 신호에 적용되는 믹싱 계수를 설명하는 시간-주파수 객체 믹스 큐들을 포함한다. 추가적으로, SAOC 큐 데이터 스트림은 오디오 객체들이 디코더 측에서 개별적으로 후처리될 수 있도록 하는 주파수 도메인 객체 분리 큐들을 포함한다. SAOC 디코더에서 제공되는 객체 후처리 기능들은 객체 기반 공간 오디오 장면 렌더링 시스템의 능력들을 모방하고 다수의 타겟 공간 오디오 포맷들을 지원한다.

SAOC는 객체 기반 및 포맷 독립적인 3차원 오디오 장면 설명과 함께 낮은 비트 레이트 송신 및 다수의 오디오 객체 신호들의 연산 효율적인 공간 오디오 렌더링을 위한 방법을 제공한다. 그러나, SAOC 인코딩된 스트림의 레거시 호환성은 SAOC 오디오 다운믹스 신호의 2-채널 스테레오 재생으로 제한되고, 따라서 기존의 멀티-채널 서라운드 사운드 코딩 포맷들을 확장하기에는 적합하지 않다. 또한, 오디오 객체 신호들에 대한 SAOC 디코더에서 적용된 렌더링 동작들이 인공 잔향과 같은 특정 유형들의 후처리 효과들을 포함하는 경우 SAOC 다운믹스 신호는 렌더링된 오디오 장면을 지각적으로 대표하지 않는다는 점에 유의해야 한다(이는, 이러한 효과들이 렌더링 장면에서 가청적일 것이지만, 프로세싱되지 않은 객체 신호들을 포함하는 다운믹스 신호에서는 동시에 통합되지 않기 때문이다).

추가적으로, SAOC는 SAC 및 SASC 기술들과 같은 동일한 제한을 겪어서: SAOC 디코더는 시간-주파수 도메인에서 공존하는 오디오 객체 신호들을 다운믹스 신호에서 완전히 분리할 수는 없다. 예를 들어, SAOC 디코더에 의한 객체의 광범위한 증폭 또는 감쇠는 일반적으로 렌더링된 장면의 오디오 품질에서 허용할 수 없는 감소를 도출한다.

공간적으로 인코딩된 사운드트랙은 2개의 상보적 접근법들에 의해 제작될 수 있다: (a) 일치하는 또는 밀접하게 이격된 마이크로폰 시스템에 의한 기존의 사운드 장면의 레코딩(본질적으로 장면 내의 청취자의 가상 위치에 또는 그 근처에 배치됨) 또는 (b) 가상 사운드 장면을 합성함.

종래의 3D 바이노럴 오디오 레코딩을 사용하는 제1 접근법은 '더미 헤드(dummy head)' 마이크로폰들의 사용을 통해 가능한 한 'you are there' 경험에 가까운 경험을 생성한다. 이러한 경우, 사운드 장면은 일반적으로, 귀에 마이크로폰이 배치된 음향 마네킹을 사용하여 라이브 캡처된다. 이어서, 원래의 공간 지각을 재현하기 위해, 레코딩된 오디오가 헤드폰을 통해 귀에서 재생되는 바이노럴 재생이 사용된다. 전통적인 더미 헤드의 레코딩들의 제한들 중 하나는 그들이 단지 라이브 이벤트들만을 그리고 더미 지각 및 머리 배향으로부터만 캡처할 수 있다는 점이다.

제2 접근법에 있어서, 디지털 신호 프로세싱(DSP) 기술들은 더미 헤드(또는 외이도에 프로브 마이크로폰들이 삽입된 인간 머리) 주위의 머리 관련 전달 함수(head related transfer function; HRTF)들의 선택을 샘플링하고 그 사이의 임의의 위치에 대해 측정되었을 HRTF를 근사화하기 위해 그러한 측정들을 보간함으로써 바이노럴 청취를 에뮬레이트하도록 개발되었다. 가장 통상적인 기술은 모든 측정된 동측(ipsilateral) 및 반대측 HRTF들을 최소 위상으로 변환하고 HRTF 쌍을 유도하기 위해 이들 사이에서 선형 보간을 수행하는 것이다. 적절한 귀간 시간 지연(interaural time delay; ITD)과 조합된 HRTF 쌍은 원하는 합성 위치에 대한 HRTF들을 표현한다. 이러한 보간은 일반적으로 시간 도메인 필터들의 선형 조합을 통상적으로 포함하는 시간 도메인에서 수행된다. 보간은 또한 주파수 도메인 분석(예를 들어, 하나 이상의 주파수 서브대역들에 대해 수행된 분석), 및 후속하는 주파수 도메인 분석 출력들 사이의 선형 보간을 포함할 수 있다. 시간 도메인 분석은 더 연산 효율적인 결과들을 제공할 수 있는 반면, 주파수 도메인 분석은 더 정확한 결과들을 제공할 수 있다. 일부 실시예들에서, 보간은 시간-주파수 분석과 같은 시간 도메인 분석 및 주파수 도메인 분석의 조합을 포함할 수 있다. 에뮬레이트된 거리와 관련하여 소스의 이득을 감소시킴으로써 거리 큐들이 시뮬레이션될 수 있다.

이러한 접근법은 원거리에서 사운드 소스들을 에뮬레이트하기 위해 사용되고, 여기서 귀간 HRTF 거리들은 무시가능한 거리 변화를 갖는다. 그러나, 소스가 머리에 점점 더 가까워짐에 따라(예를 들어, "근거리"), 머리의 크기는 사운드 소스의 거리에 대해 상당하게 된다. 이러한 전환의 위치는 주파수에 따라 다르지만, 관례에 따르면 소스가 약 1 미터 초과인 것(예를 들어, "원거리")이다. 음원이 청취자의 근거리로 추가로 진행함에 따라, 귀간 HRTF 변화들은 특히 더 낮은 주파수들에서 상당하게 된다.

일부 HRTF 기반 렌더링 엔진들은, 청취자로부터 일정한 방사상 거리에서 측정된 모든 것을 포함하는 원거리 HRTF 측정들의 데이터베이스를 사용한다. 결과적으로, 원거리 HRTF 데이터베이스 내의 원래 측정들보다 훨씬 더 가까운 음원에 대해 변화하는 주파수-의존적 HRTF 큐들을 정확하게 에뮬레이트하는 것은 곤란하다.

많은 현대적인 3D 오디오 공간화 제품들은 근거리를 무시하도록 선택하는데, 이는, 근거리 HRTF들을 모델링하는 복잡도들이 전통적으로 너무 비싸고 근거리 음향 이벤트들이 전통적으로 통상적인 상호작용형 오디오 시뮬레이션들에서 매우 통상적이지는 않기 때문이다. 그러나, 가상 현실(VR) 및 증강 현실(AR) 애플리케이션들의 출현은, 가상 객체들이 종종 사용자의 머리에 더 가까이에서 발생할 몇몇 애플리케이션들을 도출하였다. 이러한 객체들 및 이벤트들의 보다 정확한 오디오 시뮬레이션들은 필수적이 되었다.

이전에 공지된 HRTF 기반 3D 오디오 합성 모델들은 청취자 주위의 고정 거리에서 측정되는 HRTF 쌍들(즉, 동측 및 반대측)의 단일 세트를 사용한다. 이러한 측정들은 일반적으로 근거리에서 발생하는데, 여기서 HRTF는 거리가 감소함에 따라 상당히 변하지 않는다. 결과적으로, 더 멀리 있는 음원들은, 원거리 HRTF 필터들의 적절한 쌍을 통해 소스를 필터링하고 거리에 따른 에너지 손실을 에뮬레이트하는 주파수-독립적 이득들에 따라 결과적 신호를 스케일링함으로써 에뮬레이트될 수 있다(예를 들어, 역제곱 법칙).

그러나, 사운드들이 머리에 점점 더 가까워짐에 따라, 동일한 입사 각도에서, HRTF 주파수 응답은 각각의 귀에 대해 상당히 변할 수 있고 더 이상 원거리 측정들로 효과적으로 에뮬레이트되지 않을 수 있다. 객체들이 머리에 더 가까워짐에 따라 객체들의 사운드를 에뮬레이트하는 이러한 시나리오는 특히 가상 현실과 같은 더 새로운 애플리케이션들에서 관심 대상이고, 여기서 객체들 및 아바타들과의 더 밀접한 조사 및 상호작용은 더 우세해질 것이다.

완전한 3D 객체들의 송신(예를 들어, 오디오 및 메타데이터 위치)은 머리 추적 및 상호작용을 가능하게 하기 위해 사용되어 왔지만, 이러한 접근법은 소스마다 다수의 오디오 버퍼들을 요구하고 더 많은 소스들이 사용될수록 복잡도를 크게 증가시킨다. 이러한 접근법은 또한 동적 소스 관리를 요구할 수 있다. 이러한 방법들은 기존의 오디오 포맷들에 용이하게 통합될 수 없다. 멀티 채널 믹스들은 또한 고정된 수의 채널들에 대해 고정된 오버헤드를 갖지만, 통상적으로 충분한 공간 분해능을 확립하기 위해 높은 채널 카운트들을 요구한다. 매트릭스 인코딩 또는 앰비소닉과 같은 기존의 장면 인코딩들은 더 낮은 채널 카운트들을 갖지만, 청취자로부터의 오디오 신호들의 원하는 깊이 또는 거리를 표시하는 메커니즘을 포함하지 않는다.

일정한 비율로 반드시 도시되지는 않는 도면들에서, 동일한 참조부호들은 상이한 도면들에서 유사한 컴포넌트들을 설명할 수 있다. 상이한 문자 접미사들을 갖는 동일한 참조부호들은 유사한 컴포넌트들의 상이한 경우들을 나타낼 수 있다. 도면들은 본 문헌에서 논의하는 다양한 실시예들을 제한이 아닌 예로서 일반적으로 예시한다.
도 1a 내지 도 1c는 예시적인 오디오 소스 위치에 대한 근거리 및 원거리 렌더링의 개략도들이다.
도 2a 내지 도 2c는 거리 큐들을 갖는 바이노럴 오디오를 생성하기 위한 알고리즘 흐름도들이다.
도 3a는 HRTF 큐들을 추정하는 방법을 도시한다.
도 3b는 머리 관련 임펄스 응답(head-related impulse response; HRIR) 보간 방법들 도시한다.
도 3c는 HRIR 보간 방법이다.
도 4는 2개의 동시 음원들에 대한 제1 개략도이다.
도 5는 2개의 동시 음원들에 대한 제2 개략도이다.
도 6은 방위각, 앙각 및 반경(θ, , r)의 함수인 3D 음원에 대한 개략도이다.
도 7은 3D 음원에 근거리 및 원거리 렌더링을 적용하기 위한 제1 개략도이다.
도 8은 3D 음원에 근거리 및 원거리 렌더링을 적용하기 위한 제2 개략도이다.
도 9는 HRIR 보간의 제1 시간 지연 필터 방법을 도시한다.
도 10은 HRIR 보간의 제2 시간 지연 필터 방법을 도시한다.
도 11은 HRIR 보간의 단순화된 제2 시간 지연 필터 방법을 도시한다.
도 12는 단순화된 근거리 렌더링 구조를 도시한다.
도 13은 단순화된 2-소스 근거리 렌더링 구조를 도시한다.
도 14는 머리 추적을 갖는 능동 디코더의 기능 블록도이다.
도 15는 깊이 및 머리 추적을 갖는 능동 디코더의 기능 블록도이다.
도 16은 단일 스티어링 채널 'D'에 의한 깊이 및 머리 추적을 갖는 대안적인 능동 디코더의 기능 블록도이다.
도 17은 오직 메타데이터 깊이에 의한 깊이 및 머리 추적을 갖는 능동 디코더의 기능 블록도이다.
도 18은 가상 현실 애플리케이션들에 대한 예시적인 최적의 송신 시나리오를 도시한다.
도 19는 능동 3D 오디오 디코딩 및 렌더링을 위한 일반화된 아키텍처를 도시한다.
도 20은 3개의 깊이들에 대한 깊이 기반 서브믹싱의 예를 도시한다.
도 21은 오디오 렌더링 장치의 일부분의 기능 블록도이다.
도 22는 오디오 렌더링 장치의 일부분의 개략적 블록도이다.
도 23은 근거리 및 원거리 오디오 소스 위치의 개략도이다.
도 24는 오디오 렌더링 장치의 일부분의 기능 블록도이다.
도 25는 일반적으로 특정 소스를 렌더링하는 방법을 결정하기 위해 깊이 정보를 사용하는 것을 포함하는 방법의 예를 예시한다.
도 26은 일반적으로 업데이트된 청취자 위치를 수용하기 위해 HRTF들을 업데이트하는 것을 포함하는 예를 예시한다.
도 27a 내지 도 27c는 일반적으로 깊이 추출을 갖거나 갖지 않는 인코딩 및/또는 디코딩 프로세스들의 예들을 예시한다.

본 명세서에 설명된 방법들 및 장치는, 디코딩 프로세스가 머리 추적을 용이하게 하는 "사운드 장면들"로서 전체 3D 오디오 믹스들(예를 들어, 방위각, 앙각 및 깊이)을 최적으로 표현한다. 사운드 장면 렌더링은 청취자의 배향(예를 들어, 요, 피치, 롤) 및 3D 위치(예를 들어, x, y, z)에 대해 수정될 수 있다. 이는, 청취자에 대한 위치들로 제한되는 대신에 사운드 장면 소스 위치들을 3D 위치들로서 다루는 능력을 제공한다. 깊이를 소스에 직접 인코딩함으로써 사운드 장면 렌더링이 증강될 수 있다. 이는, 콘텐트 제작 동안 깊이 표시자들을 추가하는 것을 지원하기 위해 송신 포맷 및 패닝(panning) 방정식들을 수정하는 능력을 제공한다. 믹스의 음량 및 잔향 변화들과 같은 깊이 큐들을 적용하는 일반적인 방법들과는 달리, 이러한 방법은 믹스에서 소스의 거리를 복구하는 것이 가능하여, 제작 측에서보다는 최종 재생 능력들에 대해 렌더링될 수 있다. 본 명세서에서 논의되는 시스템들 및 방법들은 DTS HD와 같은 기존 오디오 코덱들을 통한 송신과의 호환성을 제공하기 위해 임의의 수의 오디오 채널들에서 이러한 장면들을 완전히 표현하지만, 7.1 채널 믹스보다 상당히 더 많은 정보(예를 들어, 깊이, 높이)를 반송할 수 있다. 방법들은 임의의 채널 레이아웃에 대해 또는 DTS 헤드폰:X를 통해 용이하게 디코딩될 수 있고, 여기서 머리 추적 특징들은 특히 VR 애플리케이션들에서 유리할 것이다. 방법들은 또한 DTS 헤드폰:X에 의해 가능하게 되는 VR 모니터링과 같은 VR 모니터링을 갖는 콘텐트 제작 도구들에 대해 실시간으로 이용될 수 있다. 디코더의 전체 3D 머리 추적은 또한 레거시 2D 믹스들(예를 들어, 오직 방위각 및 앙각)을 수신할 때 역호환된다.

일반적 정의들

첨부된 도면들과 관련하여 아래에 기술된 상세한 설명은 본 청구물의 현재 바람직한 실시예에 대한 설명으로서 의도된 것이며, 본 청구물이 구성되거나 사용될 수 있는 유일한 형태를 표현하려는 의도가 아니다. 설명은 예시된 실시예와 관련하여 본 청구물을 개발 및 동작시키기 위한 기능들 및 단계들의 시퀀스를 기술한다. 동일하거나 균등한 기능들 및 시퀀스들은 또한 본 청구물의 범위 내에 포함되도록 의도된 상이한 실시예들에 의해 달성될 수 있음을 이해해야 한다. 관계적 용어들(예를 들어, 제1, 제2) 의 사용은 그러한 엔티티들 사이의 임의의 실제 그러한 관계 또는 순서를 반드시 요구하거나 암시하지 않고서 단지 다른 엔티티와 구별하기 위해서만 사용된다는 것이 추가로 이해된다.

본 청구물은 오디오 신호들(즉, 물리적 사운드를 표현하는 신호들)을 프로세싱하는 것과 관련된다. 이러한 오디오 신호들은 디지털 전자 신호들에 의해 표현된다. 하기 논의에서, 개념들을 예시하기 위해 아날로그 파형들이 도시되거나 논의된다. 그러나, 본 청구물의 통상적인 실시예들은 시계열적인 디지털 바이트들 또는 워드들의 상황에서 동작할 것이고, 여기서 이러한 바이트들 또는 워드들은 아날로그 신호 또는 궁극적으로 물리적 사운드의 이산적 근사치를 형성함을 이해해야 한다. 이산적 디지털 신호는 주기적으로 샘플링된 오디오 파형의 디지털 표현에 대응한다. 균일한 샘플링의 경우, 파형은 관심 주파수들에 대한 나이퀴스트 샘플링 정리(Nyquist sampling theorem)를 충족시키기에 충분한 속도 또는 그 이상으로 샘플링된다. 전형적인 실시예에서, 대략 44,100 초당 샘플의 균일한 샘플링 레이트(예를 들어, 44.1 kHz)가 사용될 수 있지만, 더 높은 샘플링 레이트들(예를 들어, 96 kHz, 128 kHz)이 대안적으로 사용될 수 있다. 양자화 방식 및 비트 분해능은 표준 디지털 신호 프로세싱 기술들에 따라 특정 애플리케이션의 요건들을 충족시키도록 선택되어야 한다. 본 청구물의 기술들 및 장치는 일반적으로 다수의 채널들에서 상호의존적으로 적용될 것이다. 예를 들어, 이는 "서라운드" 오디오 시스템(예를 들어, 2개 초과의 채널들을 가짐)의 상황에서 사용될 수 있다.

본 명세서에서 사용되는 바와 같이, "디지털 오디오 신호" 또는 "오디오 신호"는 단순한 수학적 추상화를 설명하는 것인 아니라, 그 대신 머신 또는 장치에 의한 검출이 가능한 물리적 매체에 구현되는 또는 그에 의해 반송되는 정보를 표현한다. 이러한 용어들은 레코딩되거나 송신된 신호들을 포함하며, 펄스 코드 변조(PCM) 또는 기타 인코딩을 포함하는 임의의 형태의 인코딩에 의한 전달을 포함하는 것으로 이해해야 한다. 출력들, 입력들, 또는 중간 오디오 신호들은, 미국 특허 제5,974,380호; 제5,978,762호; 및 제6,487,535호에 설명된 바와 같은 DTS, Inc.의 독자적 방법들 또는 MPEG, ATRAC, AC3을 포함하는 다양한 공지된 방법들 중 임의의 것에 의해 인코딩 또는 압축될 수 있다. 당업자들에게 자명한 바와 같이, 계산들의 일부 수정은 특정 압축 또는 인코딩 방법을 수용하도록 요구된다.

소프트웨어에서, 오디오 "코덱"은 주어진 오디오 파일 포맷 또는 스트리밍 오디오 포맷에 따라 디지털 오디오 데이터를 포맷하는 컴퓨터 프로그램을 포함한다. 대부분의 코덱들은 QuickTime Player, XMMS, Winamp, Windows Media Player, Pro Logic 또는 다른 코덱들과 같이 하나 이상의 멀티미디어 플레이어들에 인터페이싱하는 라이브러리들로서 구현된다. 하드웨어에서, 오디오 코덱은 아날로그 오디오를 디지털 신호들로 인코딩하고 디지털을 다시 아날로그로 디코딩하는 단일의 또는 다수의 디바이스들을 지칭한다. 즉, 이는, 공통 클럭에서 실행되는 아날로그-디지털 변환기(ADC) 및 디지털-아날로그 변환기(DAC) 둘 모두를 포함한다.

오디오 코덱은 DVD 플레이어, 블루 레이 플레이어, TV 튜너, CD 플레이어, 핸드헬드 플레이어, 인터넷 오디오/비디오 디바이스, 게임 콘솔, 휴대폰, 또는 다른 전자 디바이스와 같은 소비자 전자 디바이스에서 구현될 수 있다. 소비자 전자 디바이스는 중앙 처리 장치(CPU)를 포함하고, 이는 하나 이상의 종래 유형들의 이러한 프로세서들, 예를 들어, IBM PowerPC, Intel Pentium(x86) 프로세서들 또는 다른 프로세서를 표현할 수 있다. 랜덤 액세스 메모리(RAM)는 CPU에 의해 수행된 데이터 프로세싱 동작들의 결과들을 일시적으로 저장하고, 전용 메모리 채널을 통해 CPU에 상호연결된다. 소비자 전자 디바이스는, 또한 입력/출력(I/O) 버스를 통해 CPU와 통신하는 하드 드라이브와 같은 영구 저장 디바이스들을 또한 포함할 수 있다. 테이프 드라이브들, 광 디스크 드라이브들 또는 다른 저장 디바이스들과 같은 다른 유형들의 저장 디바이스들이 또한 연결될 수 있다. 그래픽 카드는 또한 비디오 버스를 통해 CPU에 연결될 수 있고, 여기서 그래픽 카드는 디스플레이 데이터를 표현하는 신호들을 디스플레이 모니터에 송신한다. 키보드 또는 마우스와 같은 외부 주변 데이터 입력 디바이스들은 USB 포트를 통해 오디오 재생 시스템에 연결될 수 있다. USB 제어기는 USB 포트에 연결된 외부 주변기기들에 대한 데이터 및 명령어들을 CPU로 또는 CPU로부터 변환한다. 추가적인 디바이스들, 예를 들어, 프린터들, 마이크로폰들, 스피커들 또는 다른 디바이스들이 소비자 전자 디바이스에 연결될 수 있다.

소비자 전자 디바이스는 그래픽 사용자 인터페이스(GUI)를 갖는 운영 체제, 예를 들어, 워싱턴 레드몬드의 Microsoft Corporation으로부터의 WINDOWS, 캘리포니아 쿠퍼티노의 Apple, Inc.로부터의 MAC OS, 모바일 운영 체제들에 대해 설계된 다양한 버전들의 모바일 GUI들 또는 다른 운영 체제들을 사용할 수 있다. 소비자 전자 디바이스는 하나 이상의 컴퓨터 프로그램들을 실행할 수 있다. 일반적으로, 운영 체제 및 컴퓨터 프로그램들은 컴퓨터 판독가능 매체에서 유형적으로 구현되고, 여기서 컴퓨터 판독가능 매체는 하드 드라이브를 포함하는 고정식 또는 착탈식 데이터 저장 디바이스들 중 하나 이상을 포함한다. 운영 체제 및 컴퓨터 프로그램들 둘 모두는 전술된 데이터 저장 디바이스들로부터 CPU에 의한 실행을 위해 RAM에 로딩될 수 있다. 컴퓨터 프로그램들은 CPU에 의해 판독되고 실행될 때 CPU가 본 청구물의 단계들 또는 특징들을 실행하는 단계들을 수행하게 하는 명령어들을 포함할 수 있다.

오디오 코덱은 다양한 구성들 또는 아키텍처들을 포함할 수 있다. 임의의 이러한 구성 또는 아키텍처는 본 청구물의 범위를 벗어남이 없이 쉽게 대체될 수 있다. 당업자는 전술된 시퀀스들이 컴퓨터 판독가능 매체들에서 가장 통상적으로 사용되지만, 본 청구물의 범위를 벗어남이 없이 대체될 수 있는 다른 기존의 시퀀스들이 존재함을 인식할 것이다.

오디오 코덱의 일 실시예의 요소들은 하드웨어, 펌웨어, 소프트웨어 또는 이들의 임의의 조합에 의해 구현될 수 있다. 하드웨어로서 구현되는 경우, 오디오 코덱은 단일 오디오 신호 프로세서 상에서 이용되거나 다양한 프로세싱 컴포넌트들 사이에서 분산될 수 있다. 소프트웨어로 구현되는 경우, 본 청구물의 실시예의 요소들은 필요한 작업들을 수행하기 위한 코드 세그먼트들을 포함할 수 있다. 소프트웨어는 바람직하게는 본 청구물의 일 실시예에서 설명된 동작들을 수행하기 위한 실제 코드를 포함하거나, 동작들을 에뮬레이트 또는 시뮬레이션하는 코드를 포함한다. 프로그램 또는 코드 세그먼트들은 프로세서 또는 머신 액세스가능 매체에 저장되거나, 송신 매체를 통해 반송파에서 구현되는 컴퓨터 데이터 신호(예를 들어, 캐리어에 의해 변조된 신호)에 의해 송신될 수 있다. "프로세서 판독가능 또는 액세스가능 매체" 또는 "머신 판독가능 또는 액세스가능 매체"는 정보를 저장, 송신 또는 전송할 수 있는 임의의 매체를 포함할 수 있다.

프로세서 판독가능 매체의 예들은 전자 회로, 반도체 메모리 디바이스, 판독 전용 메모리(ROM), 플래시 메모리, 소거가능한 프로그래밍가능 ROM(EPROM), 플로피 디스켓, 컴팩트 디스크(CD) ROM, 광 디스크, 하드 디스크, 광섬유 매체, 무선 주파수(RF) 링크 또는 다른 매체들을 포함한다. 컴퓨터 데이터 신호는 전자 네트워크 채널들, 광섬유들, 공기, 전자기, RF 링크들 또는 다른 송신 매체들과 같은 송신 매체를 통해 전파할 수 있는 임의의 신호를 포함할 수 있다. 코드 세그먼트들은 인터넷, 인트라넷 또는 다른 네트워크와 같은 컴퓨터 네트워크들을 통해 다운로드될 수 있다. 머신 액세스가능 매체는 제조품으로 구현될 수 있다. 머신 액세스가능 매체는, 머신에 의해 액세스될 때, 머신으로 하여금 다음에 설명된 동작을 수행하게 하는 데이터를 포함할 수 있다. 여기서 용어 "데이터"는 프로그램, 코드, 데이터, 파일 또는 다른 정보를 포함할 수 있는, 머신 판독가능 목적으로 인코딩된 모든 유형의 정보를 지칭한다.

본 청구물의 실시예 전부 또는 일부는 소프트웨어에 의해 구현될 수 있다. 소프트웨어는 서로 결합된 몇몇 모듈들을 포함할 수 있다. 소프트웨어 모듈은 다른 모듈에 결합되어 변수들, 파라미터들, 아규먼트들, 포인터들, 결과들, 업데이트된 변수들, 포인터들 또는 다른 입력들 또는 출력들을 생성, 송신, 수신 또는 프로세싱한다. 소프트웨어 모듈은 또한 플랫폼 상에서 실행되는 운영 체제와 상호작용하기 위한 소프트웨어 드라이버 또는 인터페이스일 수 있다. 소프트웨어 모듈은 또한 하드웨어 디바이스에 또는 그로부터 데이터를 구성, 셋업, 초기화, 전송 또는 수신하기 위한 하드웨어 드라이버일 수 있다.

본 청구물의 일 실시예는 통상적으로 흐름도, 흐름 다이어그램, 구조도, 또는 블록도로서 도시되는 프로세스로서 설명될 수 있다. 블록도가 순차적인 프로세스로서 동작들을 설명할 수 있지만, 동작들의 대부분은 병렬로 또는 동시에 수행될 수 있다. 또한, 동작들의 순서는 재배열될 수 있다. 프로세스는, 그의 동작들이 완료되는 경우 종결될 수 있다. 프로세스는 방법, 프로그램, 절차 또는 다른 단계들의 그룹에 대응할 수 있다.

이러한 설명은 특히 헤드폰(예를 들어, 헤드셋) 애플리케이션들에서 오디오 신호들을 합성하기 위한 방법 및 장치를 포함한다. 본 개시의 양태들이 헤드셋을 포함하는 예시적인 시스템들의 상황에서 제시되지만, 설명된 방법들 및 장치는 그러한 시스템들로 제한되지 않으며 본 명세서의 교시들은 오디오 신호들을 합성하는 것을 포함하는 다른 방법들 및 장치에 적용가능하다는 것을 이해해야 한다. 다음 설명에서 사용되는 바와 같이, 오디오 객체들은 3D 위치 데이터를 포함한다. 따라서, 오디오 객체는, 일반적으로 위치에서 동적인 3D 위치 데이터를 갖는 오디오 소스의 특정 조합 표현을 포함하는 것으로 이해되어야 한다. 반대로, "음원"은 최종 믹스 또는 렌더에서 재생 또는 재현을 위한 오디오 신호이며 의도된 정적 또는 동적 렌더링 방법 또는 목적을 갖는다. 예를 들어, 소스는 신호 "전방 좌측"일 수 있거나, 소스는 낮은 주파수 효과들(low frequency effects; "LFE") 채널로 재생되거나 우측으로 90도 패닝될 수 있다.

본 명세서에 설명된 실시예들은 오디오 신호들의 프로세싱에 관한 것이다. 일 실시예는, 근거리 청각 이벤트들의 인상을 생성하기 위해 적어도 하나의 근거리 측정들의 세트가 사용되는 방법을 포함하며, 여기서 근거리 모델은 원거리 모델과 병렬적으로 실행된다. 지정된 근거리 및 원거리 모델들에 의해 시뮬레이션된 영역들 사이의 공간 영역에서 시뮬레이션될 청각 이벤트들은 2개의 모델들 사이의 크로스페이딩(crossfading)에 의해 생성된다.

본 명세서에 설명된 방법 및 장치는 근거리로부터 원거리의 경계까지 걸쳐 있는 기준 머리로부터의 다양한 거리들에서 합성 또는 측정된 다수의 머리 관련 전달 함수(HRTF)들의 세트들을 사용한다. 추가적인 합성 또는 측정된 전달 함수들은 머리의 내부로, 즉, 근거리보다 가까운 거리들에 대해 확장하기 위해 사용될 수 있다. 또한, HRTF들의 각각의 세트의 상대적 거리 관련 이득들은 원거리 HRTF 이득들로 정규화된다.

도 1a 내지 도 1c는 예시적인 오디오 소스 위치에 대한 근거리 및 원거리 렌더링의 개략도들이다. 도 1a는 근거리 및 원거리 영역들을 포함하는, 청취자에 대한 사운드 공간에 오디오 객체를 위치설정하는 기본적인 예이다. 도 1a는 2개의 반경들을 사용하는 예를 제시하지만, 사운드 공간은 도 1c에 도시된 바와 같이 2개 초과의 반경들을 사용하여 표현될 수 있다. 특히, 도 1c는 임의의 수의 중요 반경들을 사용하는 도 1a의 확장의 예를 도시한다. 도 1b는 구형 표현(21)을 사용하는 도 1a의 예시적인 구형 확장을 도시한다. 특히, 도 1b는 객체(22)가 연관된 높이(23), 지면 상으로의 연관된 돌출부(25), 연관된 앙각(27) 및 연관된 방위각(29)을 가질 수 있음을 도시한다. 이러한 경우, 임의의 적절한 수의 HRTF들이 반경 Rn의 완전한 3D 구 상에서 샘플링될 수 있다. 각각의 공통 반경 HRTF 세트 내의 샘플링은 동일할 필요가 없다.

도 1a 및 도 1b에 도시된 바와 같이, 원 R1은 청취자로부터 원거리를 표현하고, 원 R2는 청취자로부터 근거리를 표현한다. 도 1c에 도시된 바와 같이, 객체는 원거리 위치, 근거리 위치, 그 사이의 어딘가, 근거리 내부 또는 원거리를 넘어서 위치될 수 있다. 복수의 HRTF들(H_xy)은 원점을 중심으로 하는 링들 R1 및 R2 상의 위치들과 관련되는 것으로 도시되며, 여기서 x는 링 번호를 표현하고 y는 링 상의 위치를 표현한다. 이러한 위치적으로 관련된 HRTF들은 "공통 반경 HRTF 세트"로 지칭될 것이다. 4개의 위치 가중치들이 도면의 원거리 세트에 도시되고, 관례 W_xy를 사용하여 근거리 세트 내에 2개가 도시되며, 여기서 x는 링 번호를 표현하고, y는 링 상의 위치를 표현한다. 표시자들 W_R1 및 W_R2는 객체를 공통 반경 HRTF 세트들의 가중된 조합으로 분해하기 위해 사용할 수 있는 반경 가중치들을 표현한다.

도 1a 및 도 1b에 도시된 예들에서, 오디오 객체들이 청취자의 근거리를 통과할 때, 머리의 중심까지의 반경 거리가 측정된다. 이러한 반경 거리를 한정하는 2개의 측정된 HRTF 데이터 세트들이 식별된다. 각각의 세트에 대해, 적절한 HRTF 쌍(동측 및 반대측)이 음원 위치의 원하는 방위각과 앙각에 기초하여 유도된다. 이어서, 각각의 새로운 HRTF 쌍의 주파수 응답들을 보간함으로써 최종 조합된 HRTF 쌍이 생성된다. 이러한 보간은 렌더링될 음원의 상대적 거리와 각각의 HRTF 세트의 실제 측정된 거리에 기초할 것이다. 렌더링될 음원은 유도 HRTF 쌍에 의해 필터링되고, 생성된 신호의 이득은 청취자의 머리까지의 거리에 기초하여 증가 또는 감소된다. 이러한 이득은 음원이 청취자의 귀 중 하나에 매우 근접하게 될 때 포화를 회피하도록 제한될 수 있다.

각각의 HRTF 세트는 오직 수평면에서 행해진 측정들 또는 합성 HRTF들의 세트에 걸쳐 있을 수 있거나, 또는 청취자 주위의 HRTF 측정들의 완전한 구를 표현할 수 있다. 추가적으로, 각각의 HRTF 세트는 측정된 반경 거리에 기초하여 더 적거나 더 많은 수의 샘플들을 가질 수 있다.

도 2a 내지 도 2c는 거리 큐들을 갖는 바이노럴 오디오를 생성하는 예들을 표시하는 알고리즘 흐름도들이다. 도 2a는 본 청구물의 양태들에 따른 예시적인 플로우를 표현한다. 오디오 객체의 오디오 및 위치 메타데이터(10)는 라인(12) 상의 입력이다. 이러한 메타데이터는 블록(13)에 도시된 반경 가중치들 W_R1 및 W_R2를 결정하기 위해 사용된다. 또한, 블록(14)에서, 메타데이터는 객체가 원거리 경계 내부에 위치되는지 또는 외부에 위치되는지 여부를 결정하기 위해 평가된다. 객체가 라인(16)에 의해 표현된 원거리 영역 이내인 경우, 다음 단계(17)는 도 1a에 도시된 W₁₁ 및 W₁₂와 같은 원거리 HRTF 가중치들을 결정하는 것이다. 객체가 라인(18)에 의해 표현된 바와 같이 원거리 내에 위치되지 않으면, 블록(20)에 의해 도시된 바와 같이, 객체가 근거리 경계 내에 위치되는지 여부를 결정하기 위해 메타데이터가 평가된다. 라인(22)에 의해 표현된 바와 같이 객체가 근거리와 원거리 경계들 사이에 위치되면, 다음 단계는 원거리 가중치들(블록(17)) 및 근거리 HRTF 가중치들, 예를 들어, 도 1a의 W₂₁ 및 W₂₂(블록(23)) 둘 모두를 결정하는 것이다. 라인(24)에 의해 표현된 바와 같이 객체가 근거리 경계 내에 위치되면, 다음 단계는 블록(23)에서 근거리 HRTF 가중치들을 결정하는 것이다. 적절한 반경 가중치들, 근거리 HRTF 가중치들 및 원거리 필드 HRTF 가중치들이 계산되면, 이들은 26, 28에서 조합된다. 마지막으로, 거리 큐들(32)을 갖는 바이노럴 오디오를 생성하기 위해 오디오 객체는 조합된 가중치들로 필터링된다(블록(30)). 이러한 방식으로, 반경 가중치들은, 각각의 공통 반경 HRTF 세트로부터 더 멀리 HRTF 가중치들을 스케일링하고 객체가 원하는 위치에 위치된 감각을 재현하기 위한 거리 이득/감쇠를 생성하기 위해 사용된다. 이러한 동일한 접근법은, 원거리를 넘은 값들이 반경 가중치에 의해 적용된 거리 감쇠를 초래하는 모든 반경으로 확장될 수 있다. "내부"로 지칭되는 근거리 경계(R2) 미만의 임의의 반경은 오직 HRTF들의 근거리 세트의 일부 조합에 의해 재현될 수 있다. 단일 HRTF는 청취자들의 귀 사이에 위치되는 것으로 인지되는 단조적 "중간 채널"의 위치를 표현하기 위해 사용될 수 있다.

도 3a는 HRTF 큐들을 추정하는 방법을 도시한다. HL(θ, ) 및 HR(θ, ?)은 단위 구(원거리) 상에서 (방위각 = θ, 앙각 = )에 있는 소스에 대한 좌측 및 우측 귀에서 측정된 최소 위상 머리 관련 임펄스 응답(HRIR)들을 표현한다. τ_L 및 τ_R은 각각의 귀에 대한 비행 시간을 표현한다(일반적으로 초과 공통 지연이 제거됨).

도 3b는 HRIR 보간 방법을 도시한다. 이러한 경우, 미리 측정된 최소 위상 좌측 귀 및 우측 귀 HRIR들의 데이터베이스가 있다. 주어진 방향에서 HRIR들은 저장된 원거리 HRIR들의 가중된 조합을 합산함으로써 유도된다. 가중치는 각도 위치의 함수로 결정되는 이득들의 어레이에 의해 결정된다. 예를 들어, 원하는 위치에 대한 4개의 가장 가까운 샘플링된 HRIR들의 이득들은 소스에 대한 각도 거리에 비례하는 양의 이득들을 가질 수 있고, 모든 다른 이득들은 0으로 설정된다. 대안적으로, HRIR 데이터베이스가 방위각 및 앙각 방향들 둘 모두에서 샘플링된 경우, 3개의 가장 가까운 측정된 HRIR들에 이득들을 적용하기 위해 VBAP/VBIP 또는 유사한 3D 패너(panner)가 사용될 수 있다.

도 3c는 HRIR 보간 방법이다. 도 3c는 도 3b의 단순화된 버전이다. 굵은 라인은 하나 초과의 채널들의 버스를 의미한다(데이터베이스에 저장된 HRIR들의 수와 동일함). G(θ, )는 HRIR 가중치 이득 어레이를 표현하고, 이는 좌측 및 우측 귀에 대해 동일한 것으로 가정될 수 있다. H_L(f), H_R(f)는 좌측 및 우측 귀 HRIR들의 고정된 데이터베이스들을 표현한다.

또한 추가로, 타겟 HRTF 쌍을 유도하는 방법은, 공지된 기술들(시간 또는 주파수 도메인)에 기초하여 가장 가까운 측정 링들 각각으로부터 2개의 가장 가까운 HRTF들을 보간하고 이어서 소스에 대한 반경 거리에 기초하여 그러한 2개의 측정들 사이를 추가로 보간하는 것이다. 이러한 기술들은 O1에 위치된 객체에 대해 방정식 (1) 및 O2에 위치된 객체에 대해 방정식 (2)에 의해 설명된다. H_xy는 측정된 링 y에서의 위치 인덱스 x에서 측정된 HRTF 쌍을 표현함에 유의한다. H_xy는 주파수 의존적 함수이고, α, β, 및 δ 모두는 보간 가중치 함수들이다. 이들은 또한 주파수의 함수일 수 있다.

(1)

(2)

이러한 예에서, 측정된 HRTF 세트들은 청취자 주위의 링들(방위각, 고정된 반경)에서 측정되었다. 다른 실시예들에서, HRTF들은 구 주위(방위각 및 앙각, 고정된 반경)에서 측정되었을 수 있고, HRTF들은 2개 이상의 측정들 사이에서 보간될 수 있다. 반경 보간은 동일하게 유지될 것이다.

HRTF 모델링의 하나의 다른 요소는 음원이 머리에 더 가까워짐에 따라 오디오의 음량의 지수적 증가와 관련된다. 일반적으로, 사운드의 음량은 머리에 대한 거리의 매 절반마다 2배가 될 것이다. 따라서, 예를 들어, 0.25 m에 있는 음원은 그 사운드가 1 m에서 측정될 때보다 약 4배 더 클 것이다. 유사하게, 0.25 m에서 측정된 HRTF의 이득은 1 m에서 측정된 동일한 HRTF의 이득의 4배일 것이다. 이러한 실시예에서, 모든 HRTF 데이터베이스들의 이득들은 인지된 이득들이 거리에 따라 변하지 않도록 정규화된다. 이는, HRTF 데이터베이스들이 최대 비트 분해능으로 저장될 수 있음을 의미한다. 이어서, 렌더링 시간에 유도된 근거리 HRTF 근사치에 거리 관련 이득들이 적용될 수 있다. 이는, 구현자가 자신이 원하는 거리 모델을 사용하도록 허용한다. 예를 들어, HRTF 이득은 머리에 가까워짐에 따라 일부 최대값으로 제한될 수 있으며, 이는 신호 이득이 너무 왜곡되거나 리미터(limiter)를 지배하는 것을 감소시키거나 방지할 수 있다.

도 2b는 청취자로부터 2개 초과의 반경 거리들을 포함하는 확장된 알고리즘을 표현한다. 선택적으로 이러한 구성에서, HRTF 가중치들은 각각의 관심 반경에 대해 계산될 수 있지만, 일부 가중치들은 오디오 객체의 위치와 관련이 없는 거리들에 대해 0이 될 수 있다. 일부 경우에서, 이러한 연산들은 0 가중치들을 초래할 수 있고 도 2a의 예에서와 같이 조건부로 생략될 수 있다.

도 2c는 귀간 시간 지연(ITD)을 계산하는 것을 포함하는 또 다른 예를 도시한다. 원거리에서는, 측정된 HRTF들 사이를 보간함으로써 원래 측정되지 않은 위치들에서 대략적인 HRTF 쌍들을 유도하는 것이 일반적이다. 이는 종종, 측정된 무반향(anechoic) HRTF 쌍들을 이들의 최소 위상 등가값들로 변환하고 단편적인 시간 지연으로 ITD를 근사화함으로써 수행된다. 이것은 오직 한 세트의 HRTF들만이 존재할 때 원거리에서 잘 작동하며, 그 HRTF 세트는 일부 고정된 거리에서 측정된다. 일 실시예에서, 음원의 방사상 거리가 결정되고 2개의 가장 가까운 HRTF 측정 세트들이 식별된다. 소스가 가장 먼 세트를 넘어서는 경우, 구현은, 오직 하나의 원거리 측정 세트만이 이용가능한 경우와 동일하다. 근거리 내에서, 2개의 HRTF 쌍들은 모델링될 음원에 대해 2개의 가장 가까운 HRTF 데이터베이스들 각각으로부터 유지되며, 이러한 HRTF 쌍들은 기준 측정 거리에 대한 타겟의 상대적 거리에 기초하여 타겟 HRTF 쌍을 유도하도록 추가로 보간된다. 이어서, 타겟 방위각 및 앙각에 대해 요구되는 ITD가 ITD들의 룩업 테이블로부터 유도되거나 계산될 수 있다. ITD 값들은 근거리 안팎에서 유사한 방향들에 대해 크게 상이하지 않을 수 있음에 유의한다.

도 4는 2개의 동시 음원들에 대한 제1 개략도이다. 이러한 방식을 사용하면, 점선들 내의 섹션은 HRIR들이 고정된 상태로 유지되는 동안 각도 거리의 함수일 수 있다. 동일한 좌측 및 우측 귀 HRIR 데이터베이스들이 이러한 구성에서 두번 구현된다. 다시, 굵은 화살표들은 데이터베이스의 HRIR들의 수와 동일한 신호들의 버스를 표현한다.

도 5는 2개의 동시 음원들에 대한 제2 개략도이다. 도 5는 각각의 새로운 3D 소스에 대해 HRIR들을 보간할 필요가 없음을 도시한다. 선형 시간 불변 시스템의 경우, 그 출력은 고정된 필터 블록들에 앞서 믹싱될 수 있다. 즉, 사용된 3D 소스들의 수에 관계없이 고정된 필터 오버헤드는 통합되고 한번 발생될 수 있다.

도 6은 방위각, 앙각 및 반경(θ, , r)의 함수인 3D 음원에 대한 개략도이다. 이러한 예에서, 입력은 소스에 대한 반경 거리에 따라 스케일링되고, 표준 거리 롤-오프(roll-off) 곡선에 기초할 수 있다. 이러한 접근법에서의 하나의 문제점은, 이러한 종류의 주파수 독립적 거리 스케일링이 원거리에서 작동하는 동안, 근거리(예를 들어, r < 1)에서는 잘 작동하지 않을 수 있다는 점인데, 이는 소스가 고정된 (θ, )에 대해 머리에 근접함에 따라 HRIR들의 주파수 응답이 변할 수 있기 때문이다.

도 7은 3D 음원에 근거리 및 원거리 렌더링을 적용하기 위한 제1 개략도이다. 도 7에서, 방위각, 앙각 및 반경의 함수로 표현되는 단일 3D 소스가 있다고 가정한다. 하나의 기술은 단일 거리를 구현한다. 본 청구물의 다양한 양태들에 따르면, 2개의 별개의 원거리 및 근거리 HRIR 데이터베이스들이 샘플링된다. 이어서, 반경 거리 r <1의 함수로 이러한 2개의 데이터베이스들 사이에서 크로스페이딩이 적용된다. 근거리 HRIRS는 측정에서 보이는 주파수 독립 거리 이득들을 감소시키기 위해 원거리 HRIRS로 이득 정규화된다. r < 1인 경우 g(r)에 의해 정의된 거리 롤-오프 함수에 기초하여 입력에서 이러한 이득들이 재삽입된다. 일례에서, r > 1인 경우 g_FF(r) = 1 및 g_NF(r) = 0이고, r < 1인 경우 g_FF(r) 및 g_NF(r)은 거리의 함수들이어서, 예를 들어, g_FF(r) = a, g_NF(r) = 1 - a이다.

도 8은 3D 음원에 근거리 및 원거리 렌더링을 적용하기 위한 제2 개략도이다. 도 8은 도 7과 유사하지만, 근거리 HRIR들의 2개의 세트들은 머리로부터 상이한 거리들에서 측정된다. 이러한 예는 반경 거리에 따른 근거리 HRIR 변화들의 더 양호한 샘플링 커버리지를 제공할 수 있다.

도 9는 HRIR 보간의 제1 시간 지연 필터 방법을 도시한다. 도 9는 도 3b에 대한 대안일 수 있다. 도 3b와는 반대로, 도 9는 HRIR 시간 지연들이 고정 필터 구조의 일부로서 저장되는 것을 제공한다. 도 9의 예에서, ITD들은 유도된 이득들에 기초하여 HRIR들로 보간된다. ITD는 3D 소스 각도에 기초하여 업데이트되지 않는다. 이러한 예에서, 동일한 이득 네트워크(예를 들어, 도 9에서 블록(80)에 의해 표시됨)가 2배로 적용된다.

도 10은 HRIR 보간의 제2 시간 지연 필터 방법을 도시한다. 도 10은 네트워크 블록(90)을 통해 이득들의 하나의 세트를 적용함으로써, 예를 들어, 양쪽 귀에 대해 함수 G(θ, )를 사용하고 단일 귀에 대해 더 큰 필터 구조 H(f)를 사용함으로써 도 9의 이득의 이중 적용을 극복한다. 도 10의 예에 도시된 구성의 하나의 이점은, 이것이 이득들의 수 및 대응하는 채널들의 수의 절반을 사용한다는 점이지만 이러한 이점은 HRIR 보간 정확도를 대가로 이루어질 수 있다.

도 11은 HRIR 보간의 단순화된 제2 시간 지연 필터 방법을 도시한다. 도 11은 도 5의 예와 유사한 2개의 상이한 3D 소스들을 갖는 도 10의 단순화된 도시이다.

도 12는 단순화된 근거리 렌더링 구조를 도시한다. 도 12는 (하나의 소스에 대해) 더 단순화된 구조를 사용하여 근거리 렌더링을 구현한다. 이러한 구성은 도 7의 예와 유사하지만, 더 간단한 구현을 갖는다.

도 13은 단순화된 2-소스 근거리 렌더링 구조를 도시한다. 도 13은 도 12와 유사하지만, 근거리 HRIR 데이터베이스들의 2개의 세트들을 포함한다.

이전 실시예들은, 상이한 근거리 HRTF 쌍이 각각의 소스 위치 업데이트로 그리고 각각의 3D 음원에 대해 계산된다고 가정한다. 이와 같이, 프로세싱 요건들은 렌더링될 3D 소스들의 수로 선형으로 스케일링할 것이다. 이는 일반적으로 바람직하지 않은 특징인데, 그 이유는, 3D 오디오 렌더링 솔루션을 구현하기 위해 사용되는 프로세서가 그에 할당된 자원들을 매우 빠르게 그리고 비결정적인 방식으로(아마도 임의의 주어진 시간에 렌더링될 콘텐트에 의존함) 넘어설 수 있기 때문이다. 예를 들어, 많은 게임 엔진들의 오디오 프로세싱 버짓(budget)은 CPU의 최대 3%일 수 있다.

도 21은 오디오 렌더링 장치의 일부분의 기능 블록도이다. 가변 필터링 오버헤드와는 반대로, 더 적은 소스당 오버헤드를 갖는 고정되고 예측가능한 필터링 오버헤드를 갖는 것이 바람직할 수 있다. 이는 더 많은 수의 음원들이 주어진 소스 버짓에 대해 그리고 더 결정적인 방식으로 렌더링되도록 허용할 수 있다.

도 21은 고정 필터 네트워크(60), 믹서(62) 및 객체당 이득들 및 지연들의 추가 네트워크(64)를 사용하는 HRTF 구현을 예시한다. 이러한 실시예에서, 객체당 지연들의 네트워크는 각각 입력들(72, 74, 76)을 갖는 3개의 이득/지연 모듈들(66, 68, 및 70)을 포함한다.

도 22는 오디오 렌더링 장치의 일부분의 개략적 블록도이다. 특히, 도 22는 고정 오디오 필터 네트워크(80), 믹서(82) 및 객체당 이득 지연 네트워크(84)를 포함하는 도 21에 약술된 기본적 토폴로지를 사용하는 실시예를 예시한다. 이러한 예에서, 소스당 ITD 모델은 도 2c의 흐름도에 설명된 바와 같이, 객체당 더 정확한 지연 제어들을 허용한다. 음원은 객체당 이득 지연 네트워크(84)의 입력(86)에 적용되며, 이는, 각각의 측정된 세트의 반경 거리에 대한 사운드의 거리에 기초하여 유도되는 한 쌍의 에너지 보존 이득들 또는 가중치들(88, 90)을 적용함으로써 근거리 HRTF들과 원거리 HRTF들 사이에서 파티셔닝된다. 귀간 시간 지연(ITD)들(92, 94)은 우측 신호에 대해 좌측 신호를 지연시키기 위해 적용된다. 신호 레벨들은 블록(96, 98, 100, 및 102)에서 추가로 조정된다.

이러한 실시예는, 단일 3D 오디오 객체, 약 1미터보다 먼 4개의 위치들을 표현하는 원거리 HRTF 세트 및 약 1미터보다 가까운 4개의 위치들을 표현하는 근거리 HRTF 세트를 사용한다. 거리 기반 이득들 또는 필터링이 이러한 시스템 입력의 업스트림에서 오디오 객체에 이미 적용되었다고 가정한다. 이러한 실시예에서, 원거리에 위치된 모든 소스들에 대해 G_NEAR = 0이다.

좌측 귀 및 우측 귀 신호들은 근거리 및 원거리 신호 기여들 둘 모두에 대한 ITD들을 모방하기 위해 서로에 대해 지연된다. 좌측 및 우측 귀들, 및 근거리 및 원거리들에 대한 각각의 신호 기여는 샘플링된 HRTF 위치들에 대한 오디오 객체의 위치에 의해 결정되는 값들을 갖는 4개의 이득들의 매트릭스에 의해 가중된다. HRTF들(104, 106, 108, 110)은 최소 위상 필터 네트워크에서와 같이 귀간 지연들이 제거된 상태로 저장된다. 각각의 필터 뱅크의 기여들은 좌측(112) 또는 우측(114) 출력으로 합산되고 바이노럴 청취를 위해 헤드폰에 전송된다.

메모리 또는 채널의 대역폭에 의해 제한되는 구현들을 위해, 유사한 사운딩 결과들을 제공하지만 소스 단위로 ITD들을 구현할 필요가 없는 시스템을 구현하는 것이 가능하다.

도 23은 근거리 및 원거리 오디오 소스 위치의 개략도이다. 특히, 도 23은 고정 필터 네트워크(120), 믹서(122) 및 객체당 이득들의 추가 네트워크(124)를 사용하는 HRTF 구현을 예시한다. 소스당 ITD는 이러한 경우에 적용되지 않는다. 믹서(122)에 제공되기 전에, 객체당 프로세싱은 공통-반경 HRTF 세트들(136 및 138)마다의 HRTF 가중치들 및 반경 가중치들(130, 132)을 적용한다.

도 23에 도시된 경우에, 고정 필터 네트워크는 HRTF들(126, 128)의 세트를 구현하고, 여기서 원래의 HRTF 쌍들의 ITD들은 유지된다. 그 결과, 구현은 오직 근거리 및 원거리 신호 경로들에 대한 이득들(136, 138)의 단일 세트만을 요구한다. 음원은 객체당 이득 지연 네트워크(124)의 입력(134)에 적용되며, 각각의 측정된 세트의 반경 거리에 대한 사운드의 거리에 기초하여 유도되는 한 쌍의 에너지 또는 진폭 보존 이득들(130, 132)을 적용함으로써 근거리 HRTF들과 원거리 HRTF들 사이에서 파티셔닝된다. 신호 레벨들은 블록(136 및 138)에서 추가로 조정된다. 각각의 필터 뱅크의 기여들은 좌측(140) 또는 우측(142) 출력으로 합산되고 바이노럴 청취를 위해 헤드폰에 전송된다.

이러한 구현은, 상이한 시간 지연들을 각각 갖는 2개 이상의 반대측 HRTF들 사이의 보간 때문에 렌더링된 객체의 공간 분해능이 덜 집중될 것이라는 단점을 갖는다. 충분히 샘플링된 HRTF 네트워크를 이용하여 연관된 아티팩트들의 가청도가 최소화될 수 있다. 드물게 샘플링된 HRTF 세트들의 경우, 특히 샘플링된 HRTF 위치들 사이에서 반대측 필터 합산과 연관된 콤(comb) 필터링이 가청적일 수 있다.

설명된 실시예들은, 좌측 및 우측 귀들에 근접하게 샘플링된 한 쌍의 근거리 HRTF들 및 유효한 상호작용형 3D 오디오 경험을 제공하기 위해 충분한 공간 분해능으로 샘플링되는 원거리 HRTF들의 적어도 하나의 세트를 포함한다. 이러한 경우, 근거리 HRTF 데이터 공간은 드물게 샘플링되지만, 효과는 여전히 매우 확실할 수 있다. 추가적인 단순화에서, 단일 근거리 또는 "중간" HRTF"가 사용될 수 있다. 이러한 최소한의 경우들에서, 방향성은 원거리 세트가 활성화된 경우에만 가능하다.

도 24는 오디오 렌더링 장치의 일부분의 기능 블록도이다. 일례에서, 도 24는 위에서 논의된 다양한 예들의 단순화된 구현을 표현한다. 실제 구현들은, 3차원 청취 공간 주위에서 또한 샘플링되는 더 큰 세트의 샘플링된 원거리 HRTF 위치들을 가질 것이다. 더욱이, 다양한 실시예들에서, 출력들은 스피커 재생에 적합한 트랜스오럴 신호들을 생성하기 위해 크로스토크 제거와 같은 추가적인 프로세싱 단계들을 겪을 수 있다. 유사하게, 다른 적절히 구성된 네트워크들에 대한 저장/송신/트랜스코딩 또는 다른 지연된 렌더링에 적합하도록, 서브믹스(예를 들어, 도 23의 믹싱 블록(122))를 생성하기 위해 공통 반경 세트들에 걸친 거리 패닝이 사용될 수 있음에 주목한다.

상기 설명은 사운드 공간에서 오디오 객체의 근거리 렌더링을 위한 방법들 및 장치를 설명한다. 근거리 및 원거리 둘 모두에서 오디오 객체를 렌더링하는 능력은, 단지 객체들 뿐만 아니라 앰비소닉, 매트릭스 인코딩 등과 같은 능동 스티어링/패닝으로 디코딩된 임의의 공간 오디오 믹스의 깊이를 완전히 렌더링하는 능력을 가능하게 하며, 이에 따라 수평면에서의 간단한 회전을 넘어서는 완전히 병진적인 머리 추적(예를 들어, 사용자 이동) 또는 6-자유도(6-degrees-of-freedom; 6-DOF) 추적 및 렌더링을 가능하게 한다. 예를 들어, 캡처 또는 앰비소닉 패닝에 의해 생성된 앰비소닉 믹스에 깊이 정보를 첨부하는 방법들 및 장치가 이제 설명될 것이다. 본 명세서에 설명된 기술들은 일반적으로 1차 앰비소닉을 예로서 사용하지만, 이 기술들은 3차 이상의 앰비소닉에 또한 적용될 수 있다.

앰비소닉 기초

멀티 채널 믹스가 다수의 착신 신호들로부터의 기여로서 사운드를 캡처할 경우, 앰비소닉은 단일 포인트로부터의 사운드필드에서 모든 사운드들의 방향을 표현하는 신호들의 고정 세트를 캡처 또는 인코딩하는 것을 제공한다. 즉, 임의의 수의 라우드스피커들 상에서 사운드필드를 다시 렌더링하기 위해 동일한 앰비소닉 신호가 사용될 수 있다. 멀티 채널의 경우, 채널들의 조합들로부터 유래하는 소스들을 재현하는 것으로 제한될 수 있다. 예를 들어, 높이 채널들이 없으면, 어떠한 높이 정보도 송신되지 않는다. 다른 한편, 앰비소닉에서는, 전체 방향성 픽처에 대한 정보가 캡처 및 송신되고, 제한들은 일반적으로, 재현 포인트에만 부과된다.

1차(예를 들어, B-포맷) 패닝 방정식들의 세트를 고려하며, 이는 대체로 관심 포인트에서 가상 마이크로폰들로 고려될 수 있다.

, 여기서 W = 옴니 컴포넌트;

, 여기서 X = 도 8에서 전방을 향함;

, 여기서 Y = 도 8에서 우측을 향함;

, 여기서 Z = 도 8에서 위를 향함;

및 S는 패닝될 신호이다.

이러한 4개의 신호들(W, X, Y, 및 Z)에 대해, 임의의 방향으로 향하는 가상 마이크로폰이 생성될 수 있다. 이와 같이, 신호들을 수신하는 디코더는 대체로 렌더링을 위해 사용되는 스피커들 각각으로 향하는 가상 마이크로폰을 재현하는 것을 담당한다. 이러한 기술은 대체로 잘 작동하지만, 일부 경우들에서 이는 오직 응답을 캡처하기 위해 실제 마이크로폰들을 사용하는 만큼만 양호하다. 그 결과, 디코딩된 신호가 각각의 출력 채널에 대해 원하는 신호를 가질 수 있지만, 각각의 채널은 또한 특정 양의 누설 또는 "블리드(bleed)"가 포함되어 있을 것이어서, 특히 균일하지 않은 공간을 갖는 경우 디코더 레이아웃을 최상으로 표현하는 디코더를 설계하는 일부 기술이 존재한다. 이는, 많은 앰비소닉 재생 시스템들이 대칭적 레이아웃들(사변형들, 육각형들 등)을 사용하는 이유이다.

머리 추적은 통상적으로 이러한 종류들의 솔루션들에 의해 지원되는데, 이는 WXYZ 방향성 스티어링 신호들의 조합된 가중치에 의해 디코딩이 달성되기 때문이다. 예를 들어, B-포맷 믹스를 회전시키기 위해, 디코딩 이전에 회전 매트릭스가 WXYZ 신호들과 함께 적용될 수 있고, 결과들은 적절히 조정된 방향들로 디코딩될 것이다. 그러나, 이러한 솔루션은 병진(예를 들어, 사용자 이동 또는 청취자 위치의 변화)을 구현하지 못할 수 있다.

능동 디코딩 확장

누설에 대항하고 균일하지 않은 레이아웃들의 성능을 개선하는 것이 바람직하다. Harpex 또는 DirAC와 같은 능동 디코딩 솔루션들은 디코딩을 위한 가상 마이크로폰들을 형성하지 않는다. 그 대신, 이들은 사운드필드의 방향을 검사하고, 신호를 재현하고, 특히 각각의 시간-주파수에 대해 이들이 식별한 방향에서 렌더링한다. 이는 디코딩의 지향성을 크게 개선하지만, 각각의 시간-주파수 타일이 경판정을 사용하기 때문에 방향성을 제한한다. DirAC의 경우, 시간-주파수마다 단일 방향 가정을 한다. Harpex의 경우, 2개의 방향성 파면들이 검출될 수 있다. 어느 시스템에서든, 디코더는 방향성 판정들이 얼마나 부드러운지 또는 얼마나 견고한지에 대한 제어를 제공할 수 있다. 이러한 제어는 본 명세서에서 "포커스"의 파라미터로서 지칭되며, 이는 소프트 포커스, 내부 패닝, 또는 방향성의 주장을 연화하는 다른 방법들을 허용하기 위한 유용한 메타데이터 파라미터일 수 있다.

능동 디코더의 경우들에서도, 거리는 중요한 누락 함수이다. 방향은 앰비소닉 패닝 방정식들에서 직접 인코딩되지만, 소스 거리에 대한 어떠한 정보도 소스 거리에 기초한 레벨 또는 반향 비까지 간단한 변화들을 넘어서 직접 인코딩될 수 없다. 앰비소닉 캡처/디코딩 시나리오들에서, 마이크로폰 "밀접성" 또는 "마이크로폰 근접도"에 대한 스펙트럼 보상이 있을 수 있고 있어야 하지만, 이는 예를 들어, 2미터에 있는 하나의 소스, 및 4미터에 있는 다른 소스를 능동적으로 디코딩하는 것을 허용하지 않는다. 이는, 신호들이 오직 방향성 정보만을 반송하는 것으로 제한되기 때문이다. 실제로, 수동 디코더 성능은, 청취자가 완전히 스위트스폿(sweetspot)에 위치되고 모든 채널들이 등거리에 있는 경우 누설은 거의 문제가 되지 않을 것이라는 사실에 의존한다. 이러한 조건들은 의도된 사운드필드의 재현을 최대화한다.

또한, B-포맷 WXYZ 신호들에서의 회전들의 머리 추적 솔루션은 병진에 의한 변환 매트릭스들을 허용하지 않을 것이다. 좌표가 투영 벡터를 허용할 수 있지만(예를 들어, 균질 좌표), 동작 이후 다시 인코딩하는 것은 곤란하거나 불가능하고 이를 렌더링하는 것은 곤란하거나 불가능할 수 있다(누락되는 수정을 초래할 것이다). 이러한 제한들을 극복하는 것이 바람직할 것이다.

병진에 의한 머리 추적

도 14는 머리 추적을 갖는 능동 디코더의 기능 블록도이다. 앞서 논의된 바와 같이, B-포맷 신호에서는 직접 인코딩된 어떠한 깊이 고려들도 없다. 디코딩 측에서, 렌더러는, 이러한 사운드필드가 라우드스피커의 거리에서 렌더링된 사운드필드의 일부인 소스들의 방향들을 표현한다고 가정할 것이다. 그러나, 능동 스티어링을 사용함으로써, 형성된 신호를 특정 방향으로 렌더링하는 능력은 오직 패너의 선택에 의해서만 제한된다. 기능적으로, 이는 머리 추적을 갖는 능동 디코더를 도시하는 도 14에 의해 표현된다.

선택된 패너가 앞서 설명된 근거리 렌더링 기술들을 사용하는 "거리 패너"인 경우, 청취자가 이동함에 따라, 소스 위치들(이러한 경우 빈-그룹(bin-group)당 공간 분석의 결과)은, 절대적 좌표를 갖는 완전한 3D 공간에서 각각의 신호를 완전히 렌더링하기 위해 필요한 회전들 및 병진들을 포함하는 균질한 좌표 변환 매트릭스에 의해 수정될 수 있다. 예를 들어, 도 14에 도시된 능동 디코더는 입력 신호(28)를 수신하고 이 신호를 FFT(30)를 사용하여 시간 도메인으로 변환한다. 변환된 신호는, 공간 분석(32)을 사용하여, 예를 들어, 하나 이상의 신호들의 상대적 위치를 결정하기 위해 시간 도메인 신호를 사용하여 프로세싱될 수 있다. 예를 들어, 공간 분석(32)은 제1 음원이 사용자의 정면(예를 들어, 0° 방위각)에 위치되고 제2 음원이 사용자의 우측(예를 들어, 90° 방위각)에 위치된다고 결정할 수 있다. 일례에서, (예를 들어, 도 14, 도 15, 도 16, 도 17 및 도 19의 예들 중 임의의 예에 대한) 블록(32)의 공간 분석은, 본 명세서의 다른 곳에서 논의된 바와 같이, 가상 소스가 하나 이상의 공간 오디오 신호들로부터의 정보에 기초하고 공간 오디오 신호들 각각은 기준 위치에 대해 각각의 상이한 기준 깊이에 대응하는 경우를 포함하여, 청취자 위치에 대해 의도된 깊이로 렌더링되도록 가상 소스를 위치설정하는 것을 포함할 수 있다. 일례에서, 공간 오디오 신호는 서브믹스의 일부분이거나 이를 포함한다. 신호 형성(34)은 시간 도메인 신호를 사용하여 이러한 소스들을 생성하고, 이는 연관된 메타데이터와 함께 사운드 객체들로서 출력된다. 능동 스티어링(38)은 공간 분석(32) 또는 신호 형성(34)으로부터 입력들을 수신하고 신호들을 회전(예를 들어, 패닝)시킬 수 있다. 특히, 능동 스티어링(38)은 신호 형성(34)으로부터 소스 출력들을 수신할 수 있고, 공간 분석(32)의 출력들에 기초하여 소스를 패닝할 수 있다. 능동 스티어링(38)은 또한 머리 추적기(36)로부터 회전 또는 병진 입력을 수신할 수 있다. 회전 또는 병진 입력에 기초하여, 활성 스티어링은 음원들을 회전하거나 병진시킨다. 예를 들어, 머리 추적기(36)가 반시계 방향으로 90° 회전을 표시하면, 제1 음원은 사용자의 정면에서 좌측으로 회전할 것이고 제2 음원은 사용자의 우측에서 정면으로 회전할 것이다. 임의의 회전 또는 병진 입력이 능동 스티어링(38)에서 적용되면, 출력은 역 FFT(40)에 제공되고 하나 이상의 원거리 채널들(42) 또는 하나 이상의 근거리 채널들(44)을 생성하는 데 사용된다. 소스 위치들의 수정은 또한 3D 그래픽 분야에서 사용되는 바와 같이 소스 위치들의 수정과 유사한 기술들을 포함할 수 있다.

능동 스티어링 방법은 VBAP와 같이 방향(공간 분석으로부터 컴퓨팅됨) 및 패닝 알고리즘을 사용할 수 있다. 방향 및 패닝 알고리즘을 사용함으로써, 병진을 지원하기 위한 연산적 증가는 주로 (오직 회전에만 필요한 3x3과는 반대로) 4x4 변환 매트릭스에 대한 변화, 거리 패닝(대략 오리지널 패닝 방법의 2배), 및 근거리 채널들에 대한 추가적인 고속 푸리에 역변환(IFFT)들을 대가로 한다. 이러한 경우, 4x4 회전 및 패닝 동작들은 신호가 아닌 데이터 좌표에 대해 이루어지고, 이는 증가되는 빈 그룹화에 따라 연산 비용이 줄어드는 것을 의미한다. 도 14의 출력 믹스는 앞서 논의되고 도 21에 도시된 바와 같이 근거리 지원으로 유사하게 구성된 고정 HRTF 필터 네트워크에 대한 입력으로서의 역할을 할 수 있고, 따라서 도 14는 기능적으로 앰비소닉 목적으로 이득/지연 네트워크로서의 역할을 할 수 있다.

깊이 인코딩

디코더가 병진을 갖는 머리 추적을 지원하고 (능동 디코딩으로 인해) 매우 정확한 렌더링을 가지면, 소스에 대한 깊이를 직접 인코딩하는 것이 바람직할 것이다. 즉, 콘텐트 제작 동안 깊이 표시자들을 추가하는 것을 지원하기 위해 송신 포맷 및 패닝 방정식들을 수정하는 것이 바람직할 것이다. 믹스의 음량 및 잔향 변화들과 같은 깊이 큐들을 적용하는 일반적인 방법들과는 달리, 이러한 방법은 믹스에서 소스의 거리를 복구하는 것이 가능하여, 제작 측에서보다는 최종 재생 능력들에 대해 렌더링될 수 있다. 상이한 트레이드 오프들을 갖는 3개의 방법들이 본 명세서에서 논의되며, 여기서 트레이드 오프들은 허용가능한 연산 비용, 복잡성 및 역호환성과 같은 요건들에 따라 이루어질 수 있다.

깊이 기반 서브믹싱(N 믹스들)

도 15는 깊이 및 머리 추적을 갖는 능동 디코더의 기능 블록도이다. 일례에서, 도 15는 연관된 메타데이터(또는 가정된) 깊이를 각각 갖는 "N"개의 독립적인 B-포맷 믹스들의 병렬적 디코딩을 지원하는 방법을 제공한다. 도 15의 예에서, 근거리 및 원거리 B-포맷들은 선택적인 "중간" 채널과 함께 독립적인 믹스들로서 렌더링된다. 근거리 Z-채널이 또한 선택적인데, 이는 일부 구현들이 근거리 높이 채널들을 렌더링하지 않을 수 있기 때문이다. 드롭될 때, 높이 정보는 원거리/중간 거리에서 또는 근거리 인코딩에 대해 아래에서 논의되는 거짓 근접도("Froximity") 방법들을 사용하여 투영된다. 결과들은, 다양한 깊이 믹스들(근거리, 원거리, 중간 등)이 분리를 유지한다는 점에서 전술된 "거리 패너"/"근거리 렌더러"와 등가인 앰비소닉이다. 그러나, 예시된 경우에, 임의의 디코딩 구성에 대해 총 8개 또는 9개의 채널들의 송신이 있고, 각각의 깊이에 대해 완전히 독립적인 유연한 디코딩 레이아웃이 있다. 거리 패너에서와 같이, 이는 "N"개의 믹스들로 일반화될 수 있지만, 많은 경우들에서 2개의 믹스들이 사용될 수 있고(예를 들어, 원거리에 대한 하나의 믹스 및 근거리에 대한 하나의 믹스), 원거리보다 멀리 있는 소스들은 거리 감쇠에서와 같이 원거리에서 믹싱될 수 있다. 근거리 내부의 소스들은, 반경 0에 있는 소스가 방향없이 렌더링되도록, "Froximity" 스타일 수정들 또는 투영을 이용하여 또는 이를 이용함이 없이 근거리 믹스에 배치될 수 있다.

이러한 프로세스를 일반화하기 위해, 일부 메타데이터를 각각의 믹스와 연관시키는 것이 바람직할 것이다. 일례에서, 각각의 믹스는 다음과 같이 태그될 수 있다: (1) 믹스의 거리, 및 (2) 믹스의 포커스(예를 들어, 머리 내부의 믹스들이 너무 많은 능동 스티어링으로 디코딩되지 않도록, 예를 들어, 믹스가 얼마나 예리하게 디코딩되어야 하는지의 표시). 다른 실시예들은 습식/건식 믹스 파라미터를 사용하여 더 많거나 더 적은 반사들(또는 튜닝가능한 반사 엔진)을 갖는 HRIR들의 선택이 있는 경우 어느 공간 모델을 사용할지를 표시할 수 있다. 바람직하게는, 레이아웃에 대해 적절한 가정들이 이루어져서, 이를 8-채널 믹스로서 전송하기 위해 어떠한 추가적인 메타데이터도 필요하지 않고, 따라서 이를 기존의 스트림들 및 도구들과 호환가능하게 한다.

(WXYZD에서와 같은) 'D' 채널

도 16은 단일 스티어링 채널 'D'에 의한 깊이 및 머리 추적을 갖는 대안적인 능동 디코더의 기능 블록도이다. 도 16은, 가능하게는 여분의 신호들의 세트(WXYZnear)가 하나 이상의 깊이(또는 거리) 채널 'D'로 대체되는 대안적인 방법이다. 깊이 채널은 앰비소닉 믹스의 유효 깊이에 대한 시간-주파수 정보를 인코딩하는 데 사용되며, 이는, 각각의 주파수에서 음원들을 렌더링하는 거리에 대해 디코더에 의해 사용될 수 있다. 'D' 채널은 일례로서 0의 값(원점에서 머리에 있음)으로 복구될 수 있는 정규화된 거리로서 인코딩할 것이고, 0.25는 정확하게 근거리에 있고, 원거리에서 완전히 렌더링된 소스에 대해 최대 1이다. 이러한 인코딩은 OdBFS와 같은 절대 값 기준을 사용함으로써 또는 "W" 채널들과 같은 다른 채널들 중 하나 이상에 대한 상대적 크기 및/또는 위상에 의해 달성될 수 있다. 원거리를 넘어서는 것으로부터 얻어지는 임의의 실제 거리 감쇠는 레거시 솔루션들에서와 같이 믹스의 B-포맷 부분에 의해 처리된다.

이러한 방식으로 거리 m을 처리함으로써, B-포맷 채널들은 D 채널(들)을 드롭시켜 1의 거리 또는 "원거리"가 가정되게 하여 정규의 디코더들과 기능적으로 역호환가능하다. 그러나, 우리의 디코더는 근거리 안팎으로 스티어링하기 위해 이러한 신호(들)를 사용할 수 있을 것이다. 어떠한 외부 메타데이터도 요구되지 않기 때문에, 신호는 레거시 5.1 오디오 코덱과 호환가능할 수 있다. "N개의 믹스들" 솔루션에서와 같이, 여분의 채널(들)은 신호 레이트이고 모든 시간-주파수에 대해 정의된다. 이는, B-포맷 채널들과 동기화되어 유지되는 한 임의의 빈-그룹화 또는 주파수 도메인 타일링과 또한 호환가능한 것을 의미한다. 이러한 2개의 호환성 팩터들은 이를 특히 스케일링가능한 솔루션이 되게 한다. D 채널을 인코딩하는 하나의 방법은 각각의 주파수에서 W 채널의 상대적 크기를 사용하는 것이다. 특정 주파수에서 D 채널의 크기가 그 주파수에서 W 채널과 정확히 동일한 크기이면, 그 주파수에서 유효 거리는 1 또는 "원거리"이다. 특정 주파수에서 D 채널의 크기가 0이면, 그 주파수에서 유효 거리는 0이고, 이는 청취자의 머리의 중간에 대응한다. 다른 예에서, 특정 주파수에서 D 채널의 크기가 그 주파수에서 W 채널의 크기의 0.25이면, 유효 거리는 0.25 또는 "근거리"이다. 동일한 아이디어는 각각의 주파수에서 W 채널의 상대적 전력을 사용하여 D 채널을 인코딩하기 위해 사용될 수 있다.

D 채널을 인코딩하는 다른 방법은 각각의 주파수와 연관된 음원 방향(들)을 추출하기 위해 디코더에 의해 사용되는 것과 정확히 동일하게 방향성 분석(공간 분석)을 수행하는 것이다. 특정 주파수에서 오직 하나의 음원만이 검출되면, 그 음원과 연관된 거리가 인코딩된다. 특정 주파수에서 하나 초과의 음원만이 검출되면, 그 음원들과 연관된 거리들의 가중된 평균이 인코딩된다.

대안적으로, 거리 채널은 특정한 시간 프레임에서 각각의 개별적인 음원의 주파수 분석을 수행함으로써 인코딩될 수 있다. 각각의 주파수에서의 거리는, 그 주파수에서 가장 우세한 음원과 관련된 거리 또는 그 주파수에서 능동 음원들과 연관된 거리들의 가중된 평균으로서 인코딩될 수 있다. 전술된 기술들은 총 N개의 채널들로 확장되는 것과 같이 추가적인 D개의 채널들로 확장될 수 있다. 디코더가 각각의 주파수에서 다수의 음원 방향들을 지원할 수 있는 경우, 추가적인 D 채널들은 이러한 다수의 방향들에서 확장 거리를 지원하도록 포함될 수 있다. 소스 방향들 및 소스 거리들이 정확한 인코딩/디코딩 순서에 의해 연관되어 유지되는 것을 보장하기 위해 주의가 필요할 것이다.

거짓 근접도 또는 "Froximity" 인코딩은, 예를 들어, W에서의 신호 대 XYZ의 신호들의 비가 원하는 거리를 표시하도록 'W' 채널을 수정하기 위해, 'D' 채널의 추가를 위한 대안적인 코딩 시스템이다. 그러나, 디코딩 시에 에너지 보존을 보장하기 위해 통상적인 디코더가 채널들의 고정 비들을 요구하기 때문에, 이러한 시스템은 표준 B-포맷에 대해 역호환가능하지 않다. 이러한 시스템은 이러한 레벨 변동들을 보상하기 위해 "신호 형성" 섹션에서 능동 디코딩 로직을 요구할 것이고, 인코더는 XYZ 신호들을 사전 보상하기 위해 방향 분석을 요구할 것이다. 추가로, 시스템은 다수의 상관된 소스들을 반대쪽으로 스티어링할 때 제한들을 갖는다. 예를 들어, 2개의 소스들의 측면 좌측/측면 우측, 전방/후방 또는 최상부/바닥은 XYZ 인코딩 상에서 0으로 감소될 것이다. 이와 같이, 디코더는 그 대역에 대해 "제로 방향" 가정을 하고 소스들 둘 모두를 중간으로 렌더링하도록 강제될 것이다. 이러한 경우, 별개의 D 채널은 소스들 둘 모두가 'D'의 거리를 갖도록 스티어링되게 허용할 수 있다.

근접도를 표시하기 위한 근접도 렌더링의 능력을 최대화하기 위해, 바람직한 인코딩은 소스가 더 가까워짐에 따라 W 채널 에너지를 증가시킬 것이다. 이것은 XYZ 채널들의 상보적 감소에 의해 밸런싱될 수 있다. 이러한 스타일의 근접도는 전체 정규화 에너지를 증가시키면서 "지향성"을 낮춤으로써 "근접도"를 동시에 인코딩하여 더 많은 "현재" 소스를 생성한다. 이는 능동 디코딩 방법들 또는 동적 깊이 향상에 의해 추가로 향상될 수 있다.

도 17은 오직 메타데이터 깊이에 의한 깊이 및 머리 추적을 갖는 능동 디코더의 기능 블록도이다. 대안적으로, 완전한 메타데이터를 사용하는 것은 옵션이다. 이러한 대안에서, B-포맷 신호는 오직 그와 함께 전송될 수 있는 메타데이터에 의해서만 증강된다. 이는 도 17에 도시되어 있다. 최소한, 메타데이터는 (믹스를 근처에 또는 멀리 있는 것으로 라벨링하는 것과 같이) 전체 앰비소닉 신호에 대한 깊이를 정의하지만, 하나의 소스가 전체 믹스의 거리를 수정하는 것을 방지하기 위해 이상적으로는 다수의 주파수 대역들에서 샘플링될 것이다.

일례에서, 요구되는 메타데이터는 믹스를 렌더링하기 위해 깊이(또는 반경) 및 "포커스"를 포함하고, 이는 상기 N개의 믹스 솔루션과 동일한 파라미터들이다. 바람직하게는, 이러한 메타데이터는 동적이고 콘텐트와 함께 변할 수 있으며, 주파수 별로 또는 적어도 그룹화된 값들의 임계 대역 내에 있다.

일례에서, 선택적인 파라미터들은 습식/건식 믹스를 포함할 수 있거나, 또는 더 많거나 적은 이른 반사들 또는 "룸 사운드"를 가질 수 있다. 이어서, 이는 이른 반사/리버브(reverb) 믹스 레벨에 대한 제어로서 렌더러에게 제공될 수 있다. 이는 근거리 또는 원거리 바이노럴 룸 임펄스 응답(BRIR)들을 사용하여 달성될 수 있으며, 여기서 BRIR들은 또한 대략적으로 건식임에 유의해야 한다.

공간 신호들의 최적의 송신

상기 방법들에서, 앰비소닉 B-포맷을 확장시키는 특정한 경우를 설명하였다. 본 문헌의 나머지에 대해, 더 넓은 상황에서 공간 장면 코딩으로의 확장에 초점을 맞출 것이지만, 이는 본 청구물의 핵심 요소들을 강조하는데 도움이 된다.

도 18은 가상 현실 애플리케이션들에 대한 예시적인 최적의 송신 시나리오를 도시한다. 송신 대역폭을 비교적 낮게 유지하면서 진보된 공간 렌더러의 성능을 최적화하는 복잡한 사운드 장면들의 효율적인 표현들을 식별하는 것이 바람직하다. 이상적인 솔루션에서, 복잡한 사운드 장면(다수의 소스들, 베드 믹스들 또는 높이 및 깊이 정보를 포함한 완전한 3D 위치설정을 갖는 사운드필드들)은 표준 오디오-전용 코덱들과 호환가능하게 유지되는 최소 수의 오디오 채널들로 완전히 표현될 수 있다. 즉, 새로운 코덱을 생성하거나 메타데이터 사이드 채널에 의존하는 것이 아니라, 통상적으로 오디오 전용인 기존의 송신 경로들을 통해 최적의 스트림을 반송하는 것이 이상적일 것이다. "최적의" 송신은 높이 및 깊이 렌더링과 같은 진보된 특징들의 애플리케이션 우선순위에 따라 다소 주관적이 되는 것은 자명하다. 본 설명의 목적을 위해, 가상 현실과 같은 완전한 3D 및 머리 또는 위치 추적을 요구하는 시스템에 집중할 것이다. 일반화된 시나리오가 도 18에 제공되며, 이는 가상 현실을 위한 예시적인 최적의 송신 시나리오이다.

출력 포맷을 불가지론적으로 남겨두고 임의의 레이아웃으로의 디코딩 또는 렌더링 방법을 지원하는 것이 바람직하다. 애플리케이션은 임의의 수의 오디오 객체들(위치와의 모노 스템(stem)들), 베이스/베드믹스들 또는 다른 사운드필드 표현들(예를 들어, 앰비소닉)을 인코딩하려 시도할 수 있다. 선택적인 머리/위치 추적을 사용하는 것은 재분포를 위해 또는 렌더링 동안 부드럽게 회전/병진시키기 위해 소스들의 복구를 허용한다. 또한, 잠재적으로 비디오가 있기 때문에 오디오는 음원들의 시각적 표현들로부터 분리되지 않도록 비교적 높은 공간 분해능으로 생성되어야 한다. 본 명세서에 설명된 실시예들은 비디오를 요구하지 않음에 유의해야 한다(포함되지 않는 경우, A/V 멀티플렉싱 및 디멀티플렉싱이 필요하지 않다). 추가로, 멀티 채널 오디오 코덱은 전송을 위해 오디오를 콘테이너 포맷으로 패키징하는 한, 무손실 PCM 웨이브 데이터만큼 간단하거나 또는 낮은 비트레이트 지각 코더들처럼 진보될 수 있다.

객체들, 채널들 및 장면 기반 표현

가장 완전한 오디오 표현은 독립적인 객체들(각각 하나 이상의 오디오 버퍼들 및 원하는 결과를 달성하기 위해 현재 방법 및 위치로 이들을 렌더링하기 위해 필요한 메타데이터로 이루어짐)을 유지함으로써 달성된다. 이는, 가장 많은 양의 오디오 신호들을 요구하고, 동적 소스 관리를 요구할 수 있기 때문에 더 문제가 될 수 있다.

채널 기반 솔루션들은 렌더링될 것의 공간 샘플링으로서 간주될 수 있다. 결국, 채널 표현은 최종 렌더링 스피커 레이아웃 또는 HRTF 샘플링 분해능과 일치해야 한다. 일반화된 업/다운믹스 기술들은 다른 포맷들에 대한 적응, 하나의 포맷으로부터 다른 포맷으로의 각각의 전환, 머리/위치 추적을 위한 적응을 허용할 수 있거나, 또는 다른 전환이 소스들을 "리패닝(repanning)"하는 것을 도출할 것이다. 이는, 최종 출력 채널들 사이의 상관을 증가시킬 수 있고, HRTF들의 경우 감소된 외부화를 초래할 수 있다. 다른 한편, 채널 솔루션들은 기존의 믹싱 아키텍처들과 매우 호환가능하고 추가적인 소스들에 대해 견고하며, 여기서 임의의 시간에 베드믹스에 추가적인 소스들을 추가하는 것은 이미 믹스에 있는 소스들의 송신되는 위치에 영향을 미치지 않는다.

장면 기반 표현들은 위치 오디오의 설명들을 인코딩하기 위해 오디오 채널들을 사용함으로써 추가로 진행된다. 이는, 최종 포맷이 스테레오 쌍으로서 재생되거나 원래의 사운드 장면에 더 가까운 더 공간적인 믹스로 "디코딩"될 수 있는 매트릭스 인코딩과 같은 채널 호환가능한 옵션들을 포함할 수 있다. 대안적으로, 앰비소닉(B-포맷, UHJ, HOA 등)과 같은 솔루션들은, 직접 재생될 수 있거나 재생되지 않을 수 있지만 임의의 출력 포맷으로 공간적으로 디코딩 및 렌더링될 수 있는 신호들의 세트로서 직접 사운드필드 설명을 "캡처"하기 위해 사용될 수 있다. 이러한 장면 기반 방법들은 제한된 수의 소스들에 대한 유사한 공간 분해능을 제공하면서 채널 카운트를 상당히 감소시킬 수 있지만; 장면 레벨에서 다수의 소스들의 상호작용은 본질적으로 포맷을 개별적인 소스들이 누락된 인지 방향 인코딩으로 감소시킨다. 결과적으로, 디코딩 프로세스 동안 소스 누설 또는 블러링이 발생하여 유효 분해능을 낮출 수 있다(이는, 채널들을 대가로 고차 앰비소닉에 의해 또는 주파수 도메인 기술들에 의해 개선될 수 있다).

개선된 장면 기반 표현은 다양한 코딩 기술들을 사용하여 달성될 수 있다. 능동 디코딩은, 예를 들어, 인코딩된 신호들에 대한 공간 분석 또는 신호들의 부분적/수동적 디코딩을 수행하고 이어서 이산적 패닝을 통해 신호의 그 부분을 검출된 위치로 직접 렌더링함으로써 장면 기반 인코딩의 누설을 감소시킨다. 예를 들어, DTS 중립 서라운드의 매트릭스 디코딩 프로세스 또는 DirAC의 B-포맷 프로세싱. 일부 경우들에서, Harpex(High Angular Resolution Planewave Expansion)의 경우처럼 다수의 방향들이 검출 및 렌더링될 수 있다.

다른 기술은 주파수 인코딩/디코딩을 포함할 수 있다. 대부분의 시스템들은 주파수 의존적 프로세싱으로부터 상당히 이점을 얻을 것이다. 시간-주파수 분석 및 합성의 오버헤드 비용으로, 공간 분석이 주파수 도메인에서 수행될 수 있어서, 중첩되지 않는 소스들이 그들 각각의 방향들로 독립적으로 스티어링되도록 허용할 수 있다.

추가적인 방법은 인코딩을 통지하기 위해 디코딩 결과들을 사용하는 것이다. 예를 들어, 멀티 채널 기반 시스템은 스테레오 매트릭스 인코딩으로 감소된다. 매트릭스 인코딩은 제1 패스(pass)에서 이루어지고, 디코딩되고 원래의 멀티 채널 렌더링에 대해 분석된다. 검출된 에러들에 기초하여, 제2 패스 인코딩은, 최종 디코딩된 출력을 원래의 멀티 채널 콘텐트에 더 양호하게 정렬시킬 정정들에 의해 이루어진다. 이러한 유형의 피드백 시스템은 이미 위에서 설명된 주파수 의존적 능동 디코딩을 갖는 방법들에 가장 적합하다.

깊이 렌더링 및 소스 병진

본 명세서에서 이전에 설명된 거리 렌더링 기술들은 바이노럴 렌더링들에서 깊이/근접도의 감각을 달성한다. 이 기술은 거리 패닝을 사용하여 2개 이상의 기준 거리들에 걸쳐 음원을 분포시킨다. 예를 들어, 원거리 및 근거리 HRTF들의 가중된 밸런스는 타겟 깊이를 달성하기 위해 렌더링된다. 다양한 깊이들에서 서브믹스들을 생성하기 위해 이러한 거리 패너를 사용하는 것은 깊이 정보의 인코딩/송신에서 또한 유용할 수 있다. 일반적으로, 서브믹스들은 장면 인코딩의 동일한 방향성을 표현하지만, 서브믹스들의 조합은 그들의 상대적인 에너지 분포들을 통해 깊이 정보를 드러낸다. 이러한 에너지 분포들은 깊이의 직접적인 양자화를 포함할 수 있어서, 예를 들어 "근거리" 및 "원거리"와 같은 관련성에 대해 균등하게 분포 또는 그룹화된다. 일례에서, 이러한 에너지 분포들은, 기준 거리에 대한 상대적인 스티어링 또는 밀접도 또는 원거리를 포함할 수 있어서, 예를 들어, 일부 신호는 원거리 믹스의 나머지보다 더 가까운 것으로 이해된다.

어떠한 거리 정보도 송신되지 않는 예에서, 디코더는 소스들의 병진들을 포함하는 3D 머리 추적을 구현하기 위해 깊이 패닝을 사용할 수 있다. 일례에서, 믹스에서 표현되는 소스들은 기준 방향 및 기준 거리로부터 발신되는 것으로 가정될 수 있다. 청취자가 공간에서 이동함에 따라, 소스들은 청취자로부터 소스까지의 절대적 거리에서 변화들의 감지를 도입하기 위해 거리 패너를 사용하여 다시 리패닝될 수 있다. 완전한 3D 바이노럴 렌더러가 사용되지 않으면, 예를 들어, 본원과 소유자가 동일하며 그 내용이 참조로 본 명세서에 통합된 미국 특허 제9,332,373호에 설명된 바와 같이 청취자의 깊이의 인지를 수정하기 위한 다른 방법들이 사용될 수 있다. 중요하게는, 오디오 소스들의 병진은 본 명세서에 설명될 수정된 깊이 렌더링을 요구한다.

송신 기술들

도 19는 능동 3D 오디오 디코딩 및 렌더링을 위한 일반화된 아키텍처를 도시한다. 하기 기술들은 인코더의 허용가능한 복잡도 또는 다른 요건들에 따라 이용가능하다. 본 명세서에서 논의된 일부 솔루션들은 전술된 바와 같이 주파수 의존적 능동 디코딩으로부터 이익을 얻는 것으로 가정된다. 깊이 정보를 인코딩하는 동안 몇몇 기술들에 초점을 맞추며, 여기서 계층구조를 사용하기 위한 동기는, 오디오 객체들 이외에 깊이가 전통적인 오디오 포맷들 중 임의의 것에 의해 직접 인코딩되지 않는다는 점이다. 즉, 깊이는 재도입될 필요가 있는 "누락된" 차원일 수 있다. 도 19는 깊이 추출 및 재도입을 포함 또는 사용할 수 있는 능동 3D 오디오 디코딩 및 렌더링을 위해 일반화된 아키텍처에 대한 블록도이다. 신호 경로들은 명확성을 위해 단일 화살표들로 도시되지만, 이들은 임의의 수의 채널들 또는 바이노럴/트랜스오럴 신호들 또는 신호 쌍들을 표현함을 이해해야 한다.

도 19의 예에서, 오디오 신호들 및 선택적으로 오디오 채널들을 통해 전송된 데이터 또는 메타데이터는 공간 분석(32)을 사용하여 프로세싱된다. 공간 분석(32)에서, 예를 들어, 다수의 시간-주파수 빈들 각각에 대해 정보를 렌더링할 원하는 방향 및/또는 깊이가 결정될 수 있다. 오디오 소스들은, 오디오 채널들, 수동 매트릭스 또는 앰비소닉 디코딩의 가중된 합산을 제공하는 것을 포함할 수 있는 것처럼 신호 형성(34)을 통해 재구성될 수 있다. 이어서, 오디오 소스들은 예를 들어, 머리 추적기(36)로부터 머리 또는 위치 추적을 통해 청취자 이동에 대한 임의의 조정들을 포함하는 최종 오디오 포맷에서 원하는 위치들로의 능동 스티어링(38)에 의해 능동 렌더링된다.

예시된 프로세스들은 (예를 들어, FFT(30) 및 IFFT(40) 모듈들에 의해 표시된 바와 같이) 시간-주파수 분석/합성 프로세싱 블록 내에서 발생하지만, 주파수 프로세싱은 FFT에 기초할 필요가 없고 그 대신 임의의 다른 시간-주파수 표현을 사용할 수 있음이 이해된다. 추가적으로, 키 블록들의 전부 또는 일부는 시간 도메인에서 (주파수 의존적 프로세싱 없이) 수행될 수 있다. 예를 들어, 이러한 시스템은 예를 들어, 시간 및/또는 주파수 도메인 프로세싱의 다른 믹스에서, HRTF들/BRIR들의 세트에 의해 추후에 렌더링될 수 있는 새로운 채널-기반 오디오 포맷을 생성하기 위해 사용될 수 있다.

머리 추적기(36)는, 3D 오디오가 특정 청취자에 대해 조정되어야 하는 회전 및/또는 병진의 임의의 표시인 것으로 이해될 수 있다. 통상적으로, 조정은 요/피치/롤, 쿼터니언(quaternion) 또는 회전 매트릭스, 및 상대적 배치를 조정하기 위해 사용되는 청취자의 위치일 것이다. 조정들은, 오디오 프로그램이 의도된 사운드 장면 또는 다른 시각적 컴포넌트들과의 절대적인 정렬을 유지하도록 수행될 수 있다. 능동 스티어링이 가능성있는 애플리케이션일 수 있는 한편, 이러한 위치 정보는 소스 시그널링 형성과 같은 다른 프로세스들에서 판정들을 통지하기 위해 사용될 수 있다. 일례에서, 머리 추적기(36)는 청취자의 위치 또는 배향을 감지하도록 구성된 청취자 착용 센서들 또는 다른 환경 센서들로부터 결정될 수 있는 바와 같이 청취자의 머리 회전 및/또는 병진의 표시를 제공한다. 일례에서, 청취자 착용 센서는 머리 착용 가상 현실 또는 증강 현실 헤드셋, 관성 또는 위치 센서들을 갖는 휴대용 전자 디바이스, 또는 다른 회전 및/또는 병진 추적 전자 디바이스로부터의 입력을 포함할 수 있다. 회전 및/또는 병진에 대한 머리 추적기(36)로부터의 위치 정보는 전자 제어기로부터의 사용자 입력과 같은 사용자 입력으로서 제공될 수 있다.

다양한 솔루션들이 아래에서 제공되고 논의된다. 각각의 솔루션은 적어도 1차 오디오 신호를 포함하거나 사용한다. 이러한 신호는 임의의 공간 포맷 또는 장면 인코딩된 신호일 수 있고, 일부 예들에서, 멀티 채널 오디오 믹스, 매트릭스/위상 인코딩된 스테레오 쌍들 또는 앰비소닉 믹스들의 조합일 수 있다. 일례에서, 각각의 신호는 종래의 표현에 기초하고, 각각의 서브믹스는, 예를 들어, 특정 거리 또는 거리들의 조합에 대해 좌측/우측, 전방/후방 및 이상적으로 최상부/바닥(높이)을 표현하는 것으로 예상될 수 있다.

오디오 샘플 스트림들을 표현하지 않는 추가적인 선택적 오디오 데이터 신호들은 메타데이터로서 제공되거나 오디오 신호들로서 인코딩될 수 있다. 이들은 공간 분석 또는 스티어링을 통지하기 위해 사용될 수 있지만; 데이터가 1차 오디오 믹스들에 대해 부수적인 것으로 가정되기 때문에, 이들은 통상적으로 최종 렌더링을 위한 오디오 신호들을 형성하도록 요구되지 않는다. 일반적으로, 메타데이터가 이용가능한 경우, 솔루션은 "오디오 데이터"를 사용하지 않을 것이지만, 하이브리드 데이터 솔루션들이 또한 가능한 것으로 예상될 수 있다. 유사하게, 가장 간단하고 가장 역호환가능한 시스템들은 진정한 오디오 신호들에만 의존할 것으로 가정될 수 있다.

깊이-채널 코딩

깊이 채널 코딩 또는 "D" 채널은, 예를 들어, 각각의 빈에 대해 크기 및/또는 위상을 사용하여 오디오 신호로 인코딩되는 주어진 서브믹스의 각각의 시간-주파수 빈에 대한 1차 깊이/거리에 대한 정보를 포함한다. 예를 들어, 최대/기준 거리에 대한 소스 거리는, -inf dB가 어떠한 거리도 갖지 않는 소스이고 전체 스케일이 기준 또는 최대 거리에 있는 소스이도록 0 dBFS에 대해 상대적인 핀당 크기에 의해 인코딩된다. 레거시 믹싱 포맷들에서 가능할 수 있는 것과 같이, 기준 거리 또는 최대 거리를 넘어서 소스들은 레벨의 감소 또는 다른 거리의 믹스-레벨 표시들에 의해서만 변경된 것으로 고려되는 것으로 가정될 수 있다. 즉, 최대 또는 기준 거리는 때때로 원거리로 지칭되는 깊이 코딩 없이 소스가 다른 방식으로 렌더링되는 거리일 수 있다.

대안적으로, "D" 채널은, 다른 1차 채널들 중 하나 이상에 대한 "D" 채널의 크기 및/또는 위상의 비로서 깊이가 인코딩되도록 하는 스티어링 신호일 수 있다. 예를 들어, 깊이는 앰비소닉의 옴니 "W" 채널에 대한 "D"의 비로서 인코딩될 수 있다. 0 dBFS 또는 일부 다른 절대적 레벨 대신 다른 신호들에 대해 이를 수행함으로써, 인코딩은 오디오 코덱의 인코딩 또는 레벨 조정들과 같은 다른 오디오 프로세스에 대해 더 견고할 수 있다.

디코더가 이러한 오디오 데이터 채널의 인코딩 가정들을 인식하면, 디코더 시간-주파수 분석 또는 개념적 그룹화가 인코딩 프로세스에서 사용되는 것과 상이하더라도 필요한 정보를 복구할 수 있을 것이다. 이러한 시스템들로 해결되어야 할 문제점은 주어진 서브믹스에 대해 단일 깊이 값이 인코딩되는 것일 수 있다. 따라서, 다수의 중첩하는 소스들이 표현되는 경우, 소스들은 별개의 믹스들에서 전송되거나 지배적인 거리가 선택된다. 이러한 시스템을 멀티 채널 베드믹스들과 함께 사용하는 것이 가능하지만, 이러한 채널은 앰비소닉 또는 매트릭스 인코딩된 장면들을 증강시키기 위해 사용될 것이고, 여기서 시간-주파수 스티어링은 이미 디코더에서 분석되고 있고 채널 카운트는 최소로 유지된다.

앰비소닉 기반 인코딩

제안된 앰비소닉 솔루션들의 더 상세한 설명의 경우, 앞선 "깊이 코딩을 갖는 앰비소닉" 섹션을 참조한다. 이러한 접근법들은 깊이를 갖는 B-포맷 신호들을 송신하기 위한 최소한의 5-채널 믹스 W, X, Y, Z 및 D를 초래할 것이다. 거짓 근접도 또는 "Froximity" 모델은 또한, 깊이 인코딩이 X, Y, Z 방향성 채널들에 대한 W(무지향성 채널)의 에너지 비들에 의해 기존의 B-포맷으로 통합되어야 하는 경우에 논의된다. 이는 오직 4개의 채널들만의 송신을 허용하지만, 다른 4-채널 인코딩 방식들에 의해 최상으로 다루어질 수 있는 다른 단점들을 갖는다.

매트릭스 기반 인코딩들

일례에서, 매트릭스 시스템은 이미 송신된 것에 깊이 정보를 추가하기 위해 D 채널을 이용할 수 있다. 일례에서, 각각의 서브대역에서 소스에 대한 방위각 및 앙각 방향들 둘 모두를 표현하기 위해 단일 스테레오 쌍이 이득-위상 인코딩된다. 따라서, 3개의 채널들(예를 들어, MatrixL, MatrixR, D)은 완전한 3D 정보를 송신하기에 충분할 것이고, MatrixL 및 MatrixR 신호들은 역호환가능한 스테레오 다운믹스를 제공할 수 있다.

대안적으로, 높이 정보는 높이 채널들(MatrixL, MatrixR, HeightMatrixL, HeightMatrixR, D)에 대한 별개의 매트릭스 인코딩으로서 송신될 수 있다. 그러나, 그 경우, "D" 채널과 유사한 "높이"를 인코딩하는 것이 유리할 수 있다. 그것은, (MatrixL, MatrixR, H, D)를 제공할 것이고, 여기서 MatrixL 및 MatrixR은 역호환가능한 스테레오 다운믹스를 표현하고, H 및 D는 위치 스티어링에 대한 선택적인 오디오 데이터 채널들이다.

특수한 경우에, "H" 채널은 본질상 "Z" 또는 B-포맷 믹스의 높이 채널에 유사할 수 있다. 스티어링 업에 대해 포지티브 신호를 그리고 스티어링 다운에 대해 네거티브 신호를 사용하면, "H"와 매트릭스 채널들 사이의 에너지 비들의 관계는, B-포맷 믹스에서 "W" 채널들에 대한 "Z"의 에너지 비를 사용하는 것과 유사하게 신호를 위 또는 아래로 얼마나 멀리 스티어링할지를 표시하기 위해 사용될 수 있다.

깊이 기반 서브믹싱

깊이 기반 서브믹싱은 먼 깊이(예를 들어, 전형적인 렌더링 거리에 대응함) 및 가까운 깊이(예를 들어, 근접도)와 같은 상이한 깊이들에서 2개 이상의 믹스들을 포함하거나 사용할 수 있다. 완전한 설명은 깊이 0 또는 "중간" 채널 및 먼(예를 들어, 최대 거리) 채널에 의해 달성될 수 있지만, 더 송신된 깊이들은 최종 렌더링에서 더 많은 정확도 및 유연성에 대응할 수 있다. 즉, 다수의 이용가능한 서브믹스들은 각각의 개별적인 소스의 깊이에 대한 양자화로서 작용할 수 있다. 정확하게 양자화된 깊이에 속하는 소스들은 최고 정확도로 직접 인코딩될 수 있어서, 서브믹스들이 렌더러에 대한 관련된 깊이들에 대응하는 것이 또한 유리하다. 예를 들어, 바이노럴 시스템에서, 근거리 믹스 깊이는 근거리 HRTF들의 깊이에 대응해야 하고, 원거리는 근거리 HRTF들에 대응해야 한다. 깊이 코딩에 대한 이러한 방법의 주요 이점은, 믹싱이 가산적이고 다른 소스들에 대한 진보된 또는 이전의 지식을 요구하지 않는다. 어떤 의미에서, 이는 "완전한" 3D 믹스의 송신이다.

도 20은 3개의 깊이들에 대한 깊이 기반 서브믹싱의 예를 도시한다. 도 20에 도시된 바와 같이, 3개의 깊이들은 중간(머리의 중심을 의미함), 근거리(청취자들의 머리 주변을 의미함) 및 원거리(전형적인 원거리 믹스 거리를 의미함)를 포함할 수 있다. 임의의 수의 깊이들이 사용될 수 있지만, 도 20(도 1a와 유사함)은, HRTF들이 머리에 매우 근접하게 샘플링되고(예를 들어, 근거리에 대응함) 전형적인 원거리, 예를 들어, 1 미터 초과 및 전형적으로 2 내지 3 미터에서 샘플링되는 바이노럴 시스템에 대응한다. 소스 "S"가 정확하게 원거리의 깊이일 때, 이는 오직 원거리 믹스에 포함될 것이다. 소스가 원거리를 넘어서 확장됨에 따라, 그 레벨은 감소할 수 있고, 선택적으로 더 많은 반향 또는 더 적은 "직접" 사운딩이 될 수 있다. 즉, 원거리 믹스는, 표준 3D 레거시 애플리케이션들에서 취급될 방식이다. 소스가 근거리를 향해 전환함에 따라, 소스는 더 이상 원거리 믹스에 기여하지 않을 정확히 근거리에 있는 포인트까지 원거리 및 근거리 믹스들 둘 모두의 동일한 방향에서 인코딩된다. 믹스들 사이의 이러한 크로스페이딩 동안, 전체 소스 이득은 증가할 수 있고 렌더링은 "근접도"의 감지를 생성하기 위해 더 직접적이거나 건식이 될 수 있다. 소스가 계속 머리의 중간("M")이면, 소스는 궁극적으로, 청취자가 그 방향을 인지하지 않지만, 그 대신 청취자가 머리 내부로부터 오고 있는 것처럼 소스를 인지하도록 다수의 근거리 HRTF들 또는 하나의 대표적인 중간 HRTF에 대해 렌더링될 것이다. 인코딩 측에서 이러한 내부 패닝을 수행하는 것이 가능하지만, 중간 신호를 송신하는 것은 최종 렌더러가 최종 렌더러의 능력들에 기초하여 "중간-패닝된" 소스들에 대한 최종 렌더링 접근법을 선택할 때 뿐만 아니라 머리 추적 동작들에서 소스를 더 양호하게 조작하도록 허용한다.

이러한 방법은 2개 이상의 독립적인 믹스들 사이의 크로스페이딩에 의존하기 때문에, 깊이 방향을 따라 소스들의 더 많은 분리도가 존재한다. 예를 들어, 소스 S1, 및 유사한 시간-주파수 콘텐트를 갖는 S2는 동일하거나 상이한 방향들, 상이한 깊이들을 갖고 완전히 독립적으로 유지될 수 있다. 디코더 측에서, 원거리는, 모두 기준 거리 D1을 갖는 소스들의 믹스로서 취급될 수 있고, 근거리는 모두 상이한 기준 거리 D2를 갖는 소스들의 믹스로서 취급될 것이다. 그러나, 최종 렌더링 가정들에 대한 보상이 있어야 한다. 예를 들어, D1 = 1(소스 레벨이 0dB인 기준 최대 거리) 및 D2 = 0.25(소스 레벨이 +12dB로 가정되는 근접도에 대한 기준 거리)를 취한다. 렌더러는 D2에서 렌더링하는 소스들에 대해 12dB 이득 및 D1에서 렌더링하는 소스들에 대해 0dB를 적용할 거리 패너를 사용하고 있기 때문에, 송신된 믹스들은 타겟 거리 이득에 대해 보상되어야 한다.

일례에서, 믹서가 D1과 D2의 중간 거리 D(근거리에서 50% 및 원거리에서 50%)에 소스 S1을 배치하면, 믹싱된 소스는 이상적으로 소스 이득의 6dB를 가질 것이다. 일례에서, 이는 원거리에서 6dB를 갖는 "S1 원거리" 및 근거리에서 -6dB(예를 들어, 6dB - 12dB)의 "S1 근거리"로서 인코딩될 수 있다. 디코딩되고 다시 렌더링될 때, 시스템은 +6dB(예를 들어, 6dB - 12dB + 12dB)에서 S1 근거리 및 +6dB(예를 들어, 6dB + 0dB + 0dB)에서 S1 원거리로 작용할 것이다.

유사하게, 믹서가 동일한 방향에서 거리 D = D1에 소스 S1을 배치하면, 이는 오직 원거리에서 0dB의 소스 이득으로 인코딩될 것이다. 렌더링 동안, D가 D1과 D2 사이의 중간 거리와 다시 동일하도록 청취자가 S1의 거리에서 이동하면, 렌더링 측의 거리 패너는 6dB 소스 이득을 다시 적용하고 근거리와 원거리 HRTF들 사이에서 S1을 재분배할 것이다. 이는 앞서 논의된 바와 같은 동일한 최종 렌더링을 초래한다. 이는 단지 예시적이며, 어떠한 거리 이득들도 사용되지 않는 경우들을 포함하는 다른 값들이 송신 포맷에서 수용될 수 있음이 이해된다.

앰비소닉 기반 인코딩들

앰비소닉 장면들의 경우, 최소 3D 표현은 중간 채널을 갖는 4-채널 B-포맷(W, X, Y, Z)으로 이루어진다. 추가적인 깊이들은 각각 4개의 채널들의 추가적인 B-포맷 믹스들에 제시될 수 있다. 일례에서, 완전한 원-근-중간 인코딩은 9개의 채널들을 요구할 것이다. 그러나, 근거리는 종종 높이 없이 렌더링되기 때문에, 근거리를 오직 수평이 되도록 단순화시키는 것이 가능하다. 이어서, 비교적 효과적인 구성이 8개의 채널들(W, X, Y, Z 원거리, W, X, Y 근거리, 중간)에서 달성될 수 있다. 이러한 경우, 근거리로 패닝된 소스들은 원거리 및/또는 중간 채널의 조합으로 투영된 그들의 높이를 가질 수 있다. 이는, 주어진 거리에서 소스 앙각이 증가함에 따라 사인/코사인 페이드(또는 유사한 프로세싱 방법)를 사용하여 달성될 수 있다.

오디오 코덱이 7개 이하의 채널들을 요구하면, (W X Y Z 중간)의 최소 3D 표현 대신 (W, X, Y, Z 원거리, W, X, Y 근거리)를 전송하는 것이 여전히 바람직할 수 있다. 트레이드 오프는 다수의 소스들에 대한 깊이 정확도 대 머리에 대한 완전한 제어에 있다. 소스 위치가 근거리 이상으로 제한되는 것이 허용가능하면, 추가적인 방향성 채널들이 최종 렌더링의 공간 분석 동안 소스 분리를 개선할 것이다.

매트릭스 기반 인코딩들

유사한 확장에 의해, 다수의 매트릭스 및/또는 이득/위상 인코딩된 스테레오 쌍들이 사용될 수 있다. 예를 들어, MatrixFarL, MatrixFarR, MatrixNearL, MatrixNearR, Middle, LFE의 5.1 송신은 완전한 3D 사운드필드에 대한 정보를 제공할 수 있다. 매트릭스 쌍들이 높이를 완전히 인코딩할 수 없으면(예를 들어, 역호환성이 바람직하면), 추가적인 MatrixFarHeight 쌍이 사용될 수 있다. 높이 스티어링 채널을 사용하는 하이브리드 시스템은, D 채널 코딩에 대해 앞서 논의된 것과 유사하게 추가될 수 있다. 그러나, 7-채널 믹스에 대해, 상기 앰비소닉 방법들이 바람직한 것으로 예상된다.

한편, 완전한 방위각 및 앙각 방향이 매트릭스 쌍으로부터 디코딩될 수 있으면, 이러한 방법에 대한 최소 구성은 3개의 채널들(MatrixL, MatrixR, 중간)이고 이는, 임의의 낮은 비트레이트 코딩 이전에도 요구되는 송신 대역폭에서 이미 상당한 절감들이다.

메타데이터/코덱들

본 명세서에 설명된 방법들(예를 들어, "D" 채널 코딩)은 오디오 코덱의 디코더 측에서 데이터가 정확하게 복구되는 것을 보장하기 위해 사용될 수 있는 것과 같이 메타데이터에 의해 보조될 수 있다. 그러나, 이러한 방법들은 일반적으로 레거시 오디오 코덱들과 호환가능하지 않다.

하이브리드 솔루션

앞서 별개로 논의되지만, 각각의 깊이 또는 서브믹스의 최적의 인코딩은 애플리케이션 요건들에 따라 상이할 수 있음이 잘 이해된다. 앞서 언급된 바와 같이, 매트릭스-인코딩된 신호들에 높이 정보를 추가하기 위해 앰비소닉 스티어링을 갖는 매트릭스 인코딩의 하이브리드를 사용하는 것이 가능하다. 유사하게, 깊이 기반 서브믹스 시스템에서 서브믹스들 중 하나, 임의의 것 또는 전부에 대해 D-채널 코딩 또는 메타데이터를 사용하는 것이 가능하다.

깊이 기반 서브믹싱이 중간 스테이지 포맷으로서 사용될 수 있는 것이 또한 가능하다. 믹스가 완료되면, "D" 채널 코딩은 채널 카운트를 추가로 감소시키고, 이에 따라 다수의 깊이 믹스들을 단일 믹스 플러스 깊이로 인코딩하기 위해 사용될 수 있다.

일례에서, 몇몇 기술들이 함께 사용될 수 있다. 믹스는 먼저 거리 패너에 의해 깊이 기반 서브믹스들로 분해될 수 있고, 이에 따라 각각의 서브믹스의 깊이는 일정하여, 송신되지 않는 암시된 깊이 채널을 허용한다. 이러한 시스템에서, 단일 방향성 믹스를 통해 달성될 것보다 더 양호한 소스 방향 분리를 유지하기 위해 서브믹싱이 사용될 수 있는 동안 깊이 제어를 증가시키기 위해 깊이 코딩이 사용될 수 있다. 특정 오디오 코덱, 최대 허용가능한 대역폭 또는 다른 렌더링 요건들과 같은 애플리케이션 특정적 파라미터들에 기초하여 최종 절충이 선택될 수 있다. 예를 들어 특정 송신 포맷에서, 다양한 관심들이 각각의 서브믹스에 대해 상이하게 밸런싱될 수 있고, 최종 디코딩 레이아웃은 여전히 상이할 수 있다는 것이 이해될 수 있다. 예를 들어, 최종 디코딩은 특정 채널들을 렌더링하기 위해 특정 렌더러 능력들에 의존할 수 있다.

본원에 논의된 다양한 시스템들 및 방법들은, 청취자에 대한 각각의 상이한 방위각, 앙각 및 깊이 위치들에 대해 제공될 수 있는 것과 같이, 최적으로 인코딩된 3D 오디오 믹스들 또는 서브믹스들로부터 개별적인 오디오 소스 컴포넌트들을 식별, 조작 및 렌더링하도록 구성될 수 있다. 일례에서, 시스템들 및 방법들은 다양한 깊이 인코딩 기술들 및 대응하는 디코더 또는 렌더러 요건들의 디커플링을 용이하게 한다. 본 명세서에 설명된 바이노럴 렌더러와 같은 일부 예들에서, 공간 성능이 특정 재생 환경 또는 플랫폼(예를 들어, 모바일, PC, VR, AR, 홈 시어터 등)에 맞춤화되게 허용하도록 구성될 수 있다. 본 명세서에 논의된 다양한 예들은 또한 (예를 들어, 머리 추적기(36) 및 요, 피치, 롤 배향 + X, Y 및/또는 Z 위치 정보를 통해) 6 자유도 청취자 추적을 포함하거나 사용하는 애플리케이션들에 대해 렌더링을 개선하기 위해 사용될 수 있다.

일례에서, 예를 들어, 깊이 기반 서브믹스들의 세트를 사용하여 3D 오디오 믹스들을 송신하기 위한 전술된 시스템들 및 방법들에 대해 다양한 개선들이 이루어질 수 있다. 일례에서, 3D 오디오 믹스는 기준 청취자 위치에 대한 적어도 2개의 각각의 상이한 깊이들에 대응하는 것과 같이 신호들의 적어도 2개의 상이한 믹스들을 포함하거나 사용할 수 있다. 3D 오디오 믹스는 임의의 레벨의 깊이 양자화를 포함할 수 있는데, 즉, 이는 최대 n개의 상이한 믹스들을 포함할 수 있다. 일례에서, n개의 믹스들 중 적어도 하나는 공간 정보를 포함하거나 표현할 수 있다. 즉, 적어도 하나의 믹스는 오디오 신호들 중 하나 이상에 대한 방향 정보를 포함할 수 있다. 이러한 3D 오디오 믹스들의 일부 예들은 앰비소닉, 다수의 채널들(예를 들어, 서라운드 사운드) 및 매트릭스-인코딩된 신호들을 포함할 수 있다. 일례에서, 방향 정보는 높이 정보를 포함할 수 있고 그리고/또는 청취자로부터의 각각의 거리들의 구에 대한 모든 방향들을 표현하는 정보를 포함할 수 있다(예를 들어, 도 1b의 예 참조). 당업자들은, 불규칙한 다각형들 등과 같이 멀티 채널 스피커 시스템들에 대해 다른 형상들이 가능함을 인식할 것이다. 그러나, 이러한 시스템들은 상이한 각각의 깊이들에서 추가적인 또는 더 많은 서브믹스들을 갖는 것으로 고려될 수 있거나 그들의 정규화된 채널 깊이들을 가질 수 있다. 일례에서, 연관된 중간 깊이들 및 제한된 공간 정보를 갖는 다수의 믹스들을 포함하거나 사용하는 시스템들 또는 방법들이 사용될 수 있다. 일례에서, 공간 제한들을 갖지 않는 하나의 믹스(예를 들어, 방향성 정보 없는 믹스)를 포함하거나 사용하고, 믹스는 예를 들어, 깊이 = 0에(예를 들어, 청취자에 대한 기준 위치에) 대응하는 것일 수 있는 시스템들 또는 방법들이 사용될 수 있다. 도 20의 예에서, 깊이 = 0에 대응하는 믹스는 중간 채널을 포함하는 것으로 지칭된다.

일례에서, 하나 이상의 오디오 소스들이 3D 오디오 믹스에 추가될 수 있다. 소스를 추가하기 위해, 소스는 각각의 깊이에서 방향성 믹스들과 함께 본 명세서에서 논의된 시스템들 및 방법들을 사용하여 렌더링될 수 있으며, 이들 각각의 서브믹스 기여들은 소스의 실제 또는 의도된 깊이에 따라 가중될 수 있다. 일례에서, 방향성 기여들은 사용되고 있는 특정 공간 오디오 포맷과 연관된 패닝 제한들에 의해 결정될 수 있다. 예를 들어, 다른 기술들 및 패닝 관례들 중에서, 벡터 베이스 진폭 패닝(vector base amplitude panning; VBAP) 또는 에너지 기반 벡터 베이스 강도 패닝(vector base intensity panning; VBIP)을 사용하여 또는 퍼스-말함(Furse-Malham; FuMa) 가중치를 사용하여 채널들이 패닝될 수 있다. 거리 가중치는 관례에 의해 유사하게 선택될 수 있다. 예를 들어, 2개의 서브믹스 깊이들 사이의 거리에 있는 소스는 인접한 서브믹스들 각각에 대해 동일한 기여들에 의해 표현될 수 있다. 그러나, 추가될 소스가 서브믹스들 중 특정 서브믹스와 중첩하는 경우, 소스는 서브믹스들 중 그 특정 서브믹스에 지배적으로 기여할 수 있고 다른 서브믹스(들)에 대해 더 적은 또는 제로의 영향 또는 기여를 가질 수 있다. 중간 값들이 2개의 극단들 사이에 전환될 것이다. 일례에서, 이러한 서브믹싱은 실질적으로 연속적일 수 있으며, 상대적인 거리들에 기초하는 것과 같이 인접한 서브믹스들 사이의 선형 크로스페이딩을 표현할 수 있다. 일례에서, 선택된 기능이 일대일 맵핑에 따라 단조적이고 그에 따라 가역적인 경우, 비선형 크로스페이딩이 유사하게 사용될 수 있다. 일례에서, 대수적, 뒤틀림, 조각별 또는 다른 페이딩 또는 신호 혼합 방법들이 사용될 수 있다.

앞서 논의된 바와 같이, 예는 원거리 및 근거리에 대응하는 상이한 서브믹스들을 포함할 수 있다(또는 청취자의 머리 근처의 소스들을 표현하기 위해 믹스들을 근사화함). 예를 들어, 포함될 소스 또는 믹스가 렌더러에 대해 알려진 원거리 및 근거리 입력들과 충분히 정렬될 때, 원거리 및 근거리에서 렌더링되는 소스들의 조합은 포함될 주어진 소스의 의도된 깊이를 근사화하는 조합된 오디오 이미지를 생성한다.

일례에서, 포함될 소스 또는 믹스는 객체(22)에 대해 도 1a의 예에 도시된 바와 같이, 근거리와 원거리 사이의 중간에 위치된다. 일례에서, 객체(22)가 근거리와 원거리 사이의 객체(22)의 위치에서 렌더링된다는 청취자에 의한 감각 또는 인지를 생성하기 위해, 상이한 깊이들(예를 들어, 도 1a에서 Hxx로 표기됨)에서 공간/방향성 HRTF들의 가중치들을 사용하고 깊이 가중치들(예를 들어, 도 1a에서 Wxx로 표기됨)을 크로스페이딩하여 합성 소스(예를 들어, 객체(22))를 렌더링하기 위해 바이노럴 렌더러가 사용될 수 있다. 일례에서, 도 1a에 예시된 바와 같이 디코딩이 가중치들 W₁₁, W₁₂, W₂₁ 및 W₂₂를 도출하도록 다수의 소스들이 혼합되면, 각각의 깊이에 대한 각각의 기여들은 WR1 및 WR2에 대한 가중치들에 따라 분할될 수 있다.

일례에서, 본 명세서에 논의된 시스템들 및 방법들은 다수의 방향성 믹스들 각각에 대한 청취자 위치를 수용하기 위해 공간 재배치 또는 추적을 포함하거나 사용할 수 있다. 즉, 시스템들 및 방법들은, 청취자 위치가 시간에 걸쳐 변할 때를 포함하여, 청취자 위치에 따라 업데이트된 깊이 및/또는 방향 특성들로 다수의 서브믹스들을 렌더링하도록 구성될 수 있다. 그 결과, 청취자는 렌더링될 오디오 소스가 3D 공간에 고정된 것으로 인식할 수 있고(예를 들어, 렌더링될 소스가 고정되도록 의도된 경우) 청취자는 그 주위를 자유롭게 이동한다. 이러한 방법들은 또한 실제 청취자 추적 없이 시뮬레이션될 수 있다. 이러한 예들에서, 청취자 관점은 자동화, 마우스/키보드 입력들 또는 다른 제어 입력들과 같은 다른 수단에 의해 제어된다.

해결되어야 할 문제점은, 공통 소스에 대응하는 특정 소스 또는 정보가 하나 초과의 서브믹스로 인코딩될 때 서브믹스를 디코딩 및 렌더링하는 것을 포함할 수 있다. 예를 들어, 렌더링 문제들은, 특정 소스의 기여들이 상이한 서브믹스들과는 독립적으로 취급될 때 제시될 수 있다. 예를 들어, 청취자가 서브믹스들의 공간 위치설정에 대해 이동할 때, 청취자는, (예를 들어, 제2 공간 위치 또는 깊이와 연관된 제2 서브믹스로 인해) 청취자가 동일한 특정 소스의 제2 컴포넌트에 직면하는 것과 상이한 위치에 있는 특정 소스의 제1 컴포넌트에 직면할 수 있다(예를 들어, 제1 공간 위치 또는 깊이와 연관된 제1 서브믹스로 인해).

또한, 공간 충실도의 결핍은 서브믹스 깊이 양자화가 낮을 때 고정 위치들에서 노출될 수 있다. 예를 들어, 시스템이 제한된 수의 오디오 채널들(예를 들어, 5개의 오디오 채널들)을 송신할 수 있으면, 선택된 채널들은 WXYZ가 앰비소닉 채널들이고 M이 중간 채널인 경우 WXYZ+M일 수 있다. 원거리 앰비소닉으로부터 M까지 연속적인 크로스페이드가 가능한 동안, 소스 조합의 심리 음향 효과들은 소스가 청취자의 머리에 접근함에 따라 부드러운 또는 연속적인 궤적을 제공할만큼 충분히 강하지 않을 수 있고, 이는 결국 청취자를 향한 소스들의 인지된 붕괴를 초래할 수 있다. 렌더러가 중간 깊이들에 대응하는 정보를 제공하기 위해 수신된 서브믹스들을 사용하도록 구성되면, 먼저 특정 소스의 진정한 또는 원하는 깊이를 식별하고 이어서 원하는 깊이에서 그 조합을 렌더링하는 것이 바람직할 것이다.

깊이 추출

본 발명자는 전술된 문제점들에 대한 솔루션이 깊이 추출을 위한 시스템들 및 방법들을 포함하거나 사용할 수 있음을 인식하였다. 시스템들 및 방법들은, 특정 디코더들의 렌더링 능력들로부터 인코딩 포맷을 디커플링시켜서, 레거시 시스템들을 포함하는 광범위한 플랫폼들 및 시스템들(예를 들어, 이동 전화들, PC들, 홈 시어터들, VR, AR 등을 포함하는 플랫폼들) 상에 배치될 수 있는 더 모듈식이고 스케일링가능한 솔루션을 제공하는 것을 더 포함할 수 있다. 본 명세서에 논의된 다양한 솔루션들은 시간-도메인 및/또는 주파수-도메인 프로세싱을 사용하여 하나의 또는 다수의 오디오 소스들에 대해 독립적으로 또는 동시적으로 적용될 수 있다. 간략화를 위해, 다음의 예는 주파수 도메인에서의 프로세싱으로 소스들을 분석하는 것을 설명한다. 이 예에서, 소스들 또는 소스 컴포넌트들은, 원거리 앰비소닉 믹스(예를 들어, 신호들 WXYZ를 포함함)를 포함하고 0의 깊이를 갖는 중간 채널(예를 들어, 신호 M을 포함함)을 포함하는 3D 공간 오디오 서브믹스에서 인코딩된다.

도 25는 일반적으로 특정 소스를 렌더링하는 방법을 결정하기 위해 깊이 정보를 사용하는 것을 포함하는 방법(2500)의 예를 예시한다. 이 예에서, 특정 소스에 대한 정보는 렌더링할 오디오 프로그램을 포함하는 하나 이상의 서브믹스들에 포함될 수 있다. 단계(2510)에서, 예는, 특정 오디오 소스에 대한 정보가 서브믹스들 각각에 포함되는지 또는 포함될 가능성이 있는지 여부를 검출하기 위해 서브믹스들을 분석하는 것을 포함할 수 있다. 즉, 특정 오디오 소스의 다양한 후보 컴포넌트들은, 후보 컴포넌트들이 관심있는 특정 오디오 소스에 대응하는지 여부를 결정하기 위해 분석 또는 식별될 수 있다. 일례에서, 서브믹스는, 분석될 수 있는 시간-주파수 표현을 생성하기 위해 FFT(30) 또는 다른 시간-주파수 필터 뱅크를 사용하여 프로세싱될 수 있다. 일례에서, 단계(2510)는, 서브믹스들 각각의 옴니(omni) 채널들(예를 들어, 신호들 W 및 M을 사용함)에 대응하는 대표적인 시간-주파수 타일들에서 신호 에너지들을 검출함으로써 공간 오디오 믹스들에서 특정 오디오 소스를 검출하는 것을 포함한다. 일례에서, 신호 에너지들은 특정 오디오 소스에 대응하는 대역에서 핵심 주파수 빈들에 대응하는 또는 다수의 빈들의 평균의 진폭 또는 RMS 에너지들로서 측정될 수 있다. 일례에서, 하나 이상의 빈들 또는 대역들은 예를 들어, 다른 것들 중에서도 바크(Bark) 또는 ERB 스케일을 사용하여 지각적으로 그룹화될 수 있다. 일례에서, 이러한 빈 또는 대역 정보는 예를 들어, 망각 팩터, 누설 통합기 또는 유사한 방법을 사용하여 시간에 걸쳐 평활화될 수 있다.

단계(2520)는 특정 오디오 소스가 서브믹스들 중 하나 초과에 존재하는지 여부를 결정하는 것을 포함할 수 있다. 특정 오디오 소스에 대응하는 정보가 적어도 2개의 서브믹스들에서 검출되지 않을 때, 어떠한 추가적인 비교도 필요하지 않을 수 있고 각각의 서브믹스들은 그들 각각의 믹스 깊이들에서 유지될 수 있다. 따라서, 단계(2530)에서, 적어도 2개의 서브믹스들을 포함하는 오디오 프로그램은 그들 각각의 믹스 깊이들(예를 들어, 원거리 및 근거리 깊이들)에서 서브믹스들을 사용하여 렌더링될 수 있다. 따라서, 특정 오디오 소스에 대한 임의의 기여들은 서브믹스가 의도된 공간 깊이에서 제공될 것이고, 제로인 임의의 특정 오디오 소스 컴포넌트들은, 이러한 기여들이 부정확한 깊이에서 "렌더링될" 때를 포함하여 특정 오디오 소스의 국부화의 정확도에 대한 청취자의 인지에 영향을 미치지 않을 것이다.

단계(2520)에서, 특정 오디오 소스가 하나 초과의 서브믹스에 존재하는 것으로 결정되면, 예는 단계(2540) 및/또는 단계(2550)에서 계속될 수 있다.

단계(2540)에서, 특정 오디오 소스의 의도된 깊이는 상이한 서브믹스들 각각에 대해 검출될 수 있다. 일례에서, 의도된 깊이 정보는 서브믹스들 또는 채널들 중 하나와 연관된 메타데이터로부터 결정될 수 있다. 예에서, 특정 오디오 소스에 대응하는 신호들 또는 정보가 각각의 옴니 채널들 중 하나 이상에서 검출될 때, 대응하는 검출된 신호 레벨들은 예를 들어, 비를 사용하여 비교될 수 있다. 비는, 소스의 원래 의도된 깊이를 추정하기 위해, 예를 들어, 인코딩 방식에 대한 지식과 함께 사용될 수 있다. 비를 사용하는 것 이외의 기술들이 유사하게 사용될 수 있다. 예를 들어, 단계(2540)는 인코딩 기능에서 사용되는 반경 패닝 가중치들의 역함수를 포함하거나 사용할 수 있다. 일례에서, 단계(2540)는 다양한 지원되는 깊이들에서 깊이 양자화의 값들을 갖는 룩업 테이블을 포함하거나 사용할 수 있다. 이러한 예에서, 특정 오디오 소스에 대한 깊이를 할당 또는 추정하기 위해 가장 가까운 근사치 또는 보간된 값이 사용될 수 있다. 다른 예에서, 단계(2540)는 상이한 서브믹스들로부터의 정보의 콘텍스트 또는 콘텐트에 의해 암시되는 깊이 표시 정보를 포함하거나 사용할 수 있다.

단계(2550)는 동일한 특정 오디오 소스에 대한 정보가 렌더링될 서브믹스들에 표현된다는 신뢰도를 결정하는 것을 포함할 수 있다. 즉, 단계(2550)는, 분석된 정보가 기존의 서브믹스들 중 하나와 연관되는 것 이외에 깊이를 포함하는 특정 위치 또는 깊이에서 함께 렌더링될 공통 가상 소스에 대응함을 검증하는 것을 포함할 수 있다. 일례에서, 서브믹스에 또한 포함되는, 특정 오디오 소스 이외의 제2 오디오 소스가 존재할 수 있다. 이상적으로, 특정 오디오 소스 및 제2 오디오 소스는 상이한 주파수 또는 스펙트럼 콘텐트에 의해 분리 또는 차별화될 것이다. 그러나, 주파수에 중첩이 있을 때, (예를 들어, 단계(2540)로부터) 추정된 깊이들이 정확하다는 더 적은 신뢰도가 존재할 수 있다. 다른 예들에서, 깊이는 특정 오디오 소스 및 제2 오디오 소스가 서로 변조할 때 변동될 수 있다. 일례에서, 이러한 콘텐트 중첩들 또는 변동들에 대한 솔루션은 오디오 소스들이 실제로 관련되는지 아닌지에 대한 신뢰도를 결정하는 것을 포함한다.

일례에서, 단계(2550)에서 신뢰도를 결정하는 것은, 상이한 서브믹스들 또는 공간 오디오 신호들로부터 특정 오디오 소스의 하나 이상의 후보 컴포넌트들 사이의 관련성 메트릭 또는 귀속의 표시를 제공하기 위한 다양한 수단 또는 방법들을 포함할 수 있다. 일례에서, 단계(2550)에서 신뢰도를 결정하는 것은 신호 상관에 대한 정보를 포함하거나 사용할 수 있다. 예를 들어, 각각의 서브믹스들의 옴니 신호 컴포넌트들 사이에 높은 상관이 존재하는 경우, 결정된 신뢰도가 높아서 특정 오디오 소스 및 제2 오디오 소스는 동일한 소스를 지칭할 수 있다. 단계(2550)에서 결정된 신뢰도가 특정 신뢰도 임계 레벨을 충족하거나 초과하면, 예는 오디오 프로그램을 렌더링하는 단계(2560)에서 계속될 수 있다. 단계(2560)에서 낮은 상관이 결정되면, 소스 컴포넌트 위치들은 렌더링 시에 비교적 터치되지 않거나 수정되지 않을 수 있다. 일례에서, 소스 위치의 변화를 다시 스케일링하기 위해 다양한 기능들이 사용될 수 있다.

일례에서, 단계(2550)에서 신뢰도를 결정하는 것은 방향 정보를 포함하거나 사용할 수 있다. 예를 들어, 서브믹스들 또는 신호들 둘 모두가 특정 오디오 소스 및 제2 오디오 소스와 연관된 방향성 컴포넌트들을 포함할 때, 단계(2550)의 결정은 방향성 컴포넌트들이 공동 위치되거나 공간에서 대응하는지 여부에 대한 정보를 포함할 수 있다. 서브믹스들이 충분한 방향성 정보를 포함하지 않으면, 소스는, 예를 들어, 원거리 및 중간 채널들 둘 모두에 동일하게 포함되는 경우 제로가 아닌 깊이에서 검출될 수 있다. 원거리 소스가 검출된 깊이로 렌더링하도록 조정될 수 있는 동안, 중간 채널에는 렌더링을 수행할 방향이 없다. 이러한 경우, 원거리의 방향성 컴포넌트가 중간 신호에 대해 가정될 수 있다.

일례에서, 단계(2550)에서의 신뢰도 결정의 다양한 예들은, 예를 들어, 신뢰도를 추가로 증가시키기 위해 적절한 가중치와 함께 사용되거나 조합될 수 있다. 신뢰도 컴포넌트들 또는 합성 신뢰도 메트릭은 다양한 방법들을 통해 평활화되어 최종 신뢰도 "C"를 도출할 수 있다.

특정 오디오 소스가 다수의 서브믹스들 내에 있는지 또는 그 안에 정보를 포함하는지 여부에 대한 판정들은 분석에서 사용되는 서브믹스들과 함께 변할 수 있다. 또한, 2진 판정들 또는 급격한 이동들은 오디오 아티팩트들을 생성할 수 있고, 따라서, 렌더링에서 사용되는 깊이 추정들 및 또는 최종 패닝 가중치들을 평활화하는 것이 도움이 될 수 있다. 이는, 망각 팩터 또는 누설 통합기 등을 포함하는 몇몇 방법들 중 하나를 통해 달성될 수 있다. 일례는 방정식 Depth(n) = (1-)*NewEstimate(n) + *Depth(n-1)을 사용하는 것을 포함할 수 있고, 여기서 는 깊이의 변화를 나타내는 1에 더 가까운 값들을 갖는 망각 팩터이다.

단계(2560)에서, 그 의도된 위치에서 렌더링된 특정 오디오 소스를 포함하는 오디오 프로그램이 렌더링될 수 있다. 예를 들어, 단계(2560)는 그 의도된 위치에서 특정 오디오 소스를 렌더링하기 위해 단계(2540)로부터 추정된 깊이들 및 오디오 서브믹스들의 각각의 컴포넌트들을 포함하거나 사용할 수 있다.

일례에서, 단계(2560)는 서브믹스 깊이 수정들로 오디오 프로그램을 렌더링하는 것을 포함한다. 특정 오디오 소스 컴포넌트들은 서브믹스들에서 믹싱되고 "SFar" 및 "SMid"로 지정된 서브-소스들로서 검출될 수 있고, 각각의 추정된 깊이들 "D" 및 신뢰도 "C"를 가질 수 있다. 일례에서, SFar은 원거리 반경 R 및 방향(θ,)의 구형 위치를 가질 수 있다. SMid는 0의 반경 및 원거리로부터 가정된 방향(θ,)으로 참조될 수 있다. 이어서, 예를 들어, 각각의 서브-소스의 반경에서의 차이에 신뢰도를 적용함으로써, 서브-소스들의 깊이가 수정될 수 있다:

SMid 수정된 반경 = C*D

SFar 수정된 반경 = C*(D-Rfar)+RFar

알 수 있는 바와 같이, 신뢰도가 1에 접근할 때, 소스들 둘 모두의 수정된 반경은 의도된 소스 거리인 D와 동일할 것이다.

도 26은 일반적으로 업데이트된 청취자 위치를 수용하기 위해 다양한 원래 소스 위치들(삼각형들로 표기됨)로부터 HRTF 위치들(다이아몬드들로 표기됨)로 정보를 재분배하는 것을 포함하는 예(2600)를 예시한다. 예(2600)에서, 입력은 삼각형들로 표기되는 원거리 소스들의 대표적인 분포만을 포함한다. 다른 위치들이 가능하고 대표적인 거동에 의해 추론될 수 있다. 이 예에서, 청취자는 청취 환경 내에서 제1 청취자 위치(2601)로부터 제2 청취자 위치(2602)로 이동한다. 제1 청취자 위치(2601)에서, 청취자는 제1 시선 방향 θ₀(예를 들어, 도면에서 "위" 또는 "전방" 방향에 대해 0도)을 갖고, 제2 청취자 위치(2602)에서, 청취자는 θ₀으로부터 오프셋되는 상이한 제2 시선 방향 θ_LOOK을 갖는다. 청취자가 제1 청취자 위치(2601)에 위치될 때, 디코더는, 최종 3D 오디오 렌더러의 HRTF 위치들에 대응하는 청취자 주위에 위치된 복수의 채널들에 대한 소스 신호들을 디코딩하는 것과 같이 표준 수단을 통해 앰비소닉 프로그램 정보를 렌더링할 수 있다. 청취자가 제2 청취자 위치(2602)로 이동하거나 병진함에 따라, 청취자에 대한 소스 신호들에 대한 디코딩은 새로운 청취자 위치를 수용할 수 있어서, 청취자에 대한 업데이트된 근거리(2611)에 있는 또는 그 근처에 있는 앰비소닉 프로그램으로부터의 일부 정보는 근거리 HRTF 채널들을 사용하여 렌더링될 수 있고 청취자에 대해 원거리(2612)에 남아 있는 일부 정보는 원거리 HRTF 채널들을 사용하여 렌더링될 수 있다.

일례에서, 머리 추적기(36)로부터의 정보는 예를 들어, 청취자 이동의 크기 및 방향을 결정하기 위해 추가적인 프로세싱 또는 능동 스티어링(38)에 대해 수신되고 고려될 수 있다. 즉, 머리 추적기(36)로부터의 정보를 사용하여, 청취자 위치 또는 관점에서의 변화들은, 예를 들어, 유효 소스 반경들(예를 들어, 하나 이상의 서브믹스 기준 깊이들에 대해 상대적이고 이동 방향에 의존함) 중 하나 이상 및 청취자의 시선 방향(θ,)에 대한 변화들을 실시하기 위한 능동 디코딩을 사용함으로써 수용될 수 있다. 머리 추적 동작들이 상대적 신호 조작들을 포함하는 수동 디코딩과는 달리, 능동 디코딩은 오디오 소스들의 특정 방향 좌표들을 식별하기 위해 사용될 수 있다. 이러한 경우들에서, 조정들은 수정된 청취자 좌표들을 제공하는 것과 같이 관점에서의 상대적 시프트를 표현하도록 선택된 아핀(affine) 변환 매트릭스 또는 쿼터니언 동작을 사용하여 청취자 좌표를 프로세싱함으로써 실현될 수 있다. 수정된 좌표는 새로운 또는 업데이트된 위치 또는 시선 방향에서 청취자에 대한 오디오 프로그램을 렌더링하기 위해 원래의 오디오 신호 컴포넌트들 또는 서브믹스들과 함께 사용될 수 있다.

하나 이상의 서브믹스들에 대한 청취자에 대한 수정된 깊이 정보는 다양한 방식들로 적용될 수 있다. 일례에서, 수정된 깊이 정보는, 청취자에 대한 다양한 소스들의 최종 위치들과 연관된 새로운 위치들로 서브믹스들이 렌더링될 수 있는 능동 렌더링 애플리케이션들에서 사용될 수 있다. 일례에서, 새로 검출된 깊이 및 조합된 위치를 표현하는 메타데이터를 갖는 단조적 스템과 같은 새로운 오디오 스템 정보를 생성하기 위해 다양한 소스들이 조합될 수 있다. 이러한 예에서, 추출된 소스 및 위치 파라미터들은 소스들을 재현하기 위해 다양한 다른 객체 기반 렌더링 시스템들을 사용하여 적용될 수 있다.

도 27a는 일반적으로 근거리 정보(반경 R2에 대응함) 및 원거리 정보(반경 R1에 대응함)를 사용하여 예시된 위치에 위치된 제1 청취자에 대해 인코딩되는 소스 S를 포함하는 예(2700)를 예시한다. 도 27a의 예에서, 소스 S는 근거리 소스 컴포넌트 SN 및 원거리 소스 컴포넌트 SF로서 표현된다. 즉, SN 및 SF는 청취자에 대해 함께 렌더링될 때 및 청취자가 예시된 위치에 위치될 때 소스 S를 생성하는 2개의 상이한 서브믹스들에 대응하는 앰비소닉 정보를 표현한다.

도 27b는 일반적으로, 청취자가 새로운 위치에 위치되지만 깊이 추출이 없을 때 청취자에 대한 소스 렌더링을 도시하는 예(2701)를 예시한다. 이러한 예에서, 원하는 소스 S의 위치가 알려지지 않을 수 있기 때문에, 소스 SN은 업데이트된 청취자 위치에 대해 근거리 및 원거리 신호들의 조합으로 분포될 수 있고, 소스 SF는 근거리 내에만 제공될 수 있다. 이러한 예에서, 파선들은 각각의 소스들 SN 및 SF로부터 새로운 위치에 있는 청취자에 대한 다양한 HRTF들(Hxx로 표기됨)로의 기여들을 도시한다. 원래의 소스 위치 S는 음영된 원으로 표시되고, 이는 이 예에서 HRTF의 위치 H21과 일치한다. 그러나, 이 예에서, 소스 S는, 그 수정되지 않은 위치들을 둘러싸는 다수의 HRTF들에 분배되고 있는 S에 대한 다양한 기여들, 즉, SN 및 SF 때문에 업데이트된 청취자 위치에서 청취자에 대해 적절히 국부화되지 않을 것이고, 이는 공간 및/또는 팀브랄 스미어링(timbral smearing)을 초래할 수 있다. 즉, 업데이트된 HRTF들을 사용하여 근거리 소스 컴포넌트 SN 및 원거리 소스 컴포넌트 SF를 단순히 렌더링하는 것은 업데이트된 청취자 위치에서 청취자에 의해 인지되는 소스의 부적절한 국부화를 초래할 수 있다.

도 27c는 일반적으로 깊이 추출에 의해 새로운 소스 위치를 렌더링하는 소스를 도시하는 예(2702)를 예시한다. 이 예에서, 근거리 소스 컴포넌트 SN으로부터의 정보 및 원거리 소스 컴포넌트 SF로부터의 정보는 소스 S의 원래 의도된 위치에 대응하는 공통 소스 위치 S'로 "풀링"될 수 있다. 일례에서, 위치 S'에서 소스 렌더링은, 근거리 및 원거리 서브믹스들 각각에서 소스 컴포넌트 정보가 공통 소스(즉, 공통 소스의 일부인 것으로 또는 일부로 의도되게 결정될 수 있도록 하는 공통 오디오 정보)에 충분히 대응할 때 발생한다. 이 예에서, 위치 S'는 근거리 HRTF H21에 속하기 때문에, 소스는 그 위치로부터 완전히 렌더링되어, 예시적인 디코더/렌더러에 대한 최대 국부화 정확도를 초래할 수 있다.

예(2702)는 가상 소스 S에 대응하는 소스 정보 SN을 근거리 서브믹스에서 식별하는 것을 포함할 수 있다. 예(2702)는 동일한 가상 소스 S에 대응하는 소스 정보 SF를 원거리 서브믹스에서 식별하는 것을 더 포함할 수 있다. 소스 정보 SN 및 SF의 관련성에 따라, 각각의 서브믹스들로부터 소스 정보를 렌더링할 깊이들이 결정될 수 있다. 즉, SN 및 SF의 정보가 (예를 들어, 주파수 콘텐트, 진폭, 타이밍 등의 관점에서) 얼마나 관련되는지에 기초하여, 정보를 렌더링할 깊이들은, 업데이트된 청취자 위치에 있는 청취자가 실질적으로 S(또는 업데이트된 청취자 위치에 대한 S')의 위치에서 의도된 것처럼 가상 소스 S를 인지하도록 선택될 수 있다.

본 명세서의 다른 곳에 논의된 바와 같이, 각각의 상이한 서브믹스들로부터 의도된 가상 소스 S까지 소스 정보 SN 및 SF의 관련성을 결정하기 위해 다양한 프로세싱이 사용될 수 있다. 일례에서, 동일한 가상 소스에 대한 소스 정보 SN 및 SF의 귀속을 표시하기 위해 신뢰도 메트릭이 사용될 수 있다. 이어서, 정보 SN 및 SF를 렌더링할 깊이들은, 신뢰도 메트릭을 사용하여, 예를 들어, 그 각각의 기준 위치들로부터 S'까지 깊이 스펙트럼을 따라 하나의 또는 둘 모두의 깊이들을 비례적으로 조정함으로써 결정될 수 있다. 신뢰도 메트릭은, 다른 것들 중에서도, 상이한 서브믹스들에서 소스 S의 에너지 비 또는 상대적 분포를 포함할 수 있거나, 상관을 포함할 수 있다. 소스 정보 SN 및 SF가 무관한 것으로 발견되는 경우들에서, 깊이 추출없이 렌더링하는 것(예를 들어, 도 27b 참조)이 그 대신 사용될 수 있다.

본 개시는 본 개시의 예시적인 실시예들을 참조하여 상세히 설명되었지만, 실시예들의 범위를 벗어남이 없이 본 개시 내에서 다양한 변화들 및 수정들이 이루어질 수 있음은 당업자에게 자명할 것이다. 따라서, 본 개시는, 본 개시의 수정들 및 변형들이 첨부된 청구항들 및 이들의 균등물들의 범위 내에 속하면 이를 커버하도록 의도된다.

본 명세서에 개시된 방법들, 시스템들, 디바이스들 및 장치들을 더 잘 예시하기 위해, 예시적인 실시예들의 비제한적인 목록이 여기에 제공된다.

예1은 청취자 위치에 대해 의도된 깊이로 렌더링되도록 가상 소스를 위치설정하기 위한 방법과 같은 청구물을 포함하거나 사용할 수 있고, 가상 소스는 제1 청취자 위치에 대해 공간적으로 함께 렌더링되도록 구성된 2개 이상의 공간 오디오 신호들로부터의 정보를 포함하고, 공간 오디오 신호들 각각은 기준 위치에 대해 상이한 깊이에 대응한다. 예1에서, 방법은, 공간 오디오 신호들 각각에서, 가상 소스의 각각의 후보 컴포넌트들을 식별하는 단계, 공간 오디오 신호들로부터 가상 소스의 식별된 후보 컴포넌트들에 대한 제1 관련성 메트릭을 결정하는 단계, 및 제1 청취자 위치에 있는 청취자가 실질적으로 의도된 깊이로 가상 소스를 인지하도록, 제1 관련성 메트릭을 사용하여, 제1 청취자 위치에 있는 청취자에 대해 공간 오디오 신호들로부터의 후보 컴포넌트들을 렌더링할 깊이들을 결정하는 단계를 포함한다.

예2는 예1의 청구물을 포함할 수 있고, 선택적으로 예1의 청구물과 조합되어, 제1 관련성 메트릭에 대한 신뢰도를 결정하는 단계를 포함할 수 있고, 신뢰도는, 가상 소스에 대한 하나 이상의 후보 컴포넌트들의 귀속을 표시한다. 예2에서, 후보 컴포넌트들을 렌더링할 깊이들을 결정하는 단계는, 결정된 신뢰도에 기초하여 깊이들을 비례적으로 조정하는 단계를 포함할 수 있고, 깊이들을 비례적으로 조정하는 단계는, 공간 오디오 신호 컴포넌트들을 그들 각각의 기준 위치들로부터 깊이 스펙트럼을 따라 의도된 깊이로 위치설정하는 단계를 포함할 수 있다.

예3은 예2의 청구물을 포함할 수 있고, 선택적으로 예2의 청구물과 조합되어, 제1 관련성 메트릭에 대한 신뢰도를 결정하는 단계는 후보 컴포넌트들의 트렌드, 이동 평균 또는 평활화된 특징에 대한 정보를 사용하는 단계를 포함할 수 있다.

예4는 예2 또는 예3의 청구물을 포함할 수 있고, 선택적으로 예2 또는 예3의 청구물과 조합되어, 제1 관련성 메트릭에 대한 신뢰도를 결정하는 단계는 후보 컴포넌트들 중 2개 이상의 각각의 공간 분포들 또는 방향들이 대응하는지 여부를 결정하는 단계를 포함할 수 있다.

예5는 예2, 예3 또는 예4의 청구물을 포함할 수 있고, 선택적으로 예2, 예3 또는 예4의 청구물과 조합되어, 제1 관련성 메트릭에 대한 신뢰도를 결정하는 단계는 가상 소스의 후보 컴포넌트들 중 적어도 2개 사이의 상관을 결정하는 단계를 포함할 수 있다.

예6은 예1 내지 예5 중 임의의 하나 이상을 포함할 수 있고, 선택적으로 예1 내지 예5 중 임의의 하나 이상과 조합되어, 제1 관련성 메트릭을 결정하는 단계는 후보 컴포넌트들 중 2개의 각각의 신호 레벨들의 비를 사용하는 단계를 포함할 수 있다.

예7은 예1 내지 예6 중 임의의 하나 이상을 포함할 수 있고, 선택적으로 예1 내지 예6 중 임의의 하나 이상과 조합되어, 제1 관련성 메트릭을 결정하는 단계는, 룩업 테이블로부터, 공간 오디오 신호 컴포넌트들을 렌더링할 때 사용하기 위한 각각의 신호 레벨들의 비를 조회하는 단계를 포함할 수 있고, 비는 의도된 깊이에 기초하여 룩업 테이블로부터 선택된다. 추가적으로 또는 대안적으로, 예7은 예1 내지 예6 중 임의의 하나 이상을 포함할 수 있고, 선택적으로 예1 내지 예6 중 임의의 하나 이상과 조합되어, (1) 제1 관련성 메트릭의 값을 제1 관련성 메트릭 및 각각의 대응하는 깊이들에 대한 잠재적인 값들을 포함하는 룩업 테이블 내의 값들과 비교하는 단계, 및 비교의 결과에 기초하여 후보 컴포넌트들을 렌더링할 깊이들을 선택하는 단계를 포함하는 후보 컴포넌트들을 렌더링할 깊이들을 결정하는 단계를 포함할 수 있다. 깊이들을 선택하는 것은, 예를 들어, 룩업 테이블 내의 메트릭에 대한 잠재적인 값들 중 하나 이상과 제1 관련성 메트릭의 값 사이의 유사성 또는 밀접성에 기초할 수 있다.

예8은 예1 내지 예7 중 임의의 하나 이상을 포함할 수 있고, 선택적으로 예1 내지 예7 중 임의의 하나 이상과 조합되어, 후보 컴포넌트들을 사용하여 제1 청취자 위치에 있는 청취자에 대한 오디오 출력 신호를 렌더링하는 단계를 더 포함할 수 있고, 오디오 출력 신호를 렌더링하는 단계는 결정된 깊이들에 따라 공간 오디오 신호들을 프로세싱하기 위해 HRTF 렌더러 회로 또는 웨이브필드 합성 회로를 사용하는 단계를 포함한다.

예9는 예1 내지 예8 중 임의의 하나 이상을 포함할 수 있고, 선택적으로 예1 내지 예8 중 임의의 하나 이상과 조합되어, 공간 오디오 신호들은 다수의 시간-주파수 신호들을 포함할 수 있고, 가상 소스의 각각의 후보 컴포넌트들을 식별하는 단계는 시간-주파수 신호들에서 이산적 주파수 대역들에 대응하는 후보 컴포넌트들을 식별하는 단계를 포함하고, 제1 관련성 메트릭을 결정하는 단계는 이산적 주파수 대역들에 대응하는 후보 컴포넌트들을 포함한다.

예10은 예1 내지 예9 중 임의의 하나 이상을 포함할 수 있고, 선택적으로 예1 내지 예9 중 임의의 하나 이상과 조합되어, 청취자의 업데이트된 위치에 대한 정보를 수신하는 단계, 및 업데이트된 위치에 있는 청취자가 실질적으로 제1 청취자 위치에 대해 의도된 깊이에 대응하는 위치에서 가상 소스를 인지하도록 업데이트된 위치에서 청취자에 대한 공간 오디오 신호들로부터의 후보 컴포넌트들을 렌더링할 상이한 업데이트된 깊이들을 결정하는 단계를 포함할 수 있다.

예11은 예1 내지 예10 중 임의의 하나 이상을 포함할 수 있고, 선택적으로 예1 내지 예10 중 임의의 하나 이상과 조합되어, 제1 깊이에 대응하는 오디오 정보를 갖는 제1 공간 오디오 신호를 수신하는 단계, 및 제2 깊이에 대응하는 오디오 정보를 갖는 제2 공간 오디오 신호를 수신하는 단계를 포함할 수 있다. 예11에서, 후보 컴포넌트들을 렌더링할 깊이들을 결정하는 단계는 제1 및 제2 깊이들 사이의 중간 깊이를 결정하는 단계를 포함하고, 제1 및 제2 공간 오디오 신호들은 (1) 각각 근거리 및 원거리 서브믹스들, 또는 (2) 각각 제1 및 제2 앰비소닉 신호들을 포함한다.

예12는 예1 내지 예11 중 임의의 하나 이상을 포함할 수 있고, 선택적으로 예1 내지 예11 중 임의의 하나 이상과 조합되어, 2개 이상의 공간 오디오 신호들과 연관된 깊이 표시 메타데이터 및 2개 이상의 공간 오디오 신호들의 콘텍스트 또는 콘텐트에 의해 암시되는 깊이 표시 정보 중 하나 이상을 사용하여 의도된 깊이를 결정하는 단계를 포함할 수 있다.

예13은 예1 내지 예12 중 임의의 하나 이상을 포함할 수 있고, 선택적으로 예1 내지 예12 중 임의의 하나 이상과 조합되어, 결정된 깊이들 및 후보 컴포넌트들을 사용하여 가상 소스에 대한 강화된 소스 신호를 생성하는 단계를 포함할 수 있다.

예14는 예1 내지 예13 중 임의의 하나 이상을 포함할 수 있고, 선택적으로 예1 내지 예13 중 임의의 하나 이상과 조합되어, 가상 소스의 후보 컴포넌트들 각각이 방향성 특성을 포함하는지 여부를 결정하는 단계, 및 후보 컴포넌트들 중 특정 후보 컴포넌트에 방향성 특성이 없으면, 동일한 가상 소스의 후보 컴포넌트들 중 상이한 후보 컴포넌트로부터의 방향성 특성에 기초하여 후보 컴포넌트들 중 특정 후보 컴포넌트에 대한 방향성 특성을 할당하는 단계를 포함할 수 있다.

예15는 청취자 위치에 대해 의도된 깊이로 렌더링되도록 가상 오디오 소스를 위치설정하기 위해 오디오 정보를 프로세싱하기 위한 시스템과 같은 청구물을 포함하거나 사용할 수 있고, 가상 소스는 제1 청취자 위치에 대해 공간적으로 함께 렌더링되도록 구성된 2개 이상의 공간 오디오 신호들로부터의 정보를 포함하고, 공간 오디오 신호들 각각은 기준 위치에 대해 상이한 깊이에 대응한다. 예15는, 공간 오디오 신호들 각각에서, 가상 소스의 각각의 후보 컴포넌트들을 식별하고, 공간 오디오 신호들로부터 가상 소스의 식별된 후보 컴포넌트들에 대한 제1 관련성 메트릭을 결정하고, 제1 청취자 위치에 있는 청취자가 실질적으로 의도된 깊이로 가상 소스를 인지하도록, 제1 관련성 메트릭을 사용하여, 제1 청취자 위치에 있는 청취자에 대해 공간 오디오 신호들로부터의 후보 컴포넌트들을 렌더링할 깊이들을 결정하도록 구성된 오디오 신호 깊이 프로세서 회로를 포함할 수 있다. 예15의 시스템은 선택적으로, 예1 내지 예14의 방법들, 단계들 또는 프로세스들 중 하나 이상을 수행하도록 구성될 수 있다.

예16은 예15의 청구물을 포함할 수 있고, 선택적으로 예15의 청구물과 조합되어, 후보 컴포넌트들을 사용하여 제1 청취자 위치에 있는 청취자에 대한 오디오 출력 신호를 제공하도록 구성되는 렌더링 회로를 포함할 수 있고, 오디오 출력 신호는 결정된 깊이들에 따라 공간 오디오 신호들의 HRTF 또는 웨이브필드 합성 프로세싱을 사용하여 제공된다.

예17은 예15 또는 예16을 포함할 수 있고, 선택적으로 예15 또는 예16과 조합되어, 청취자의 업데이트된 위치에 대한 정보를 감지하도록 구성되는 청취자 머리 추적기를 포함할 수 있다. 예17에서, 프로세서 회로는, 업데이트된 위치에 있는 청취자가 실질적으로 제1 청취자 위치에 대해 의도된 깊이에서 가상 소스를 인지하도록 업데이트된 위치에서 청취자에 대한 공간 오디오 신호들로부터의 후보 컴포넌트들을 렌더링할 상이한 업데이트된 깊이들을 결정하도록 구성될 수 있다.

예18은 청취자 위치에 대해 의도된 깊이로 렌더링되도록 가상 소스를 위치설정하기 위한 방법과 같은 청구물을 포함하거나 사용할 수 있고, 하나 이상의 공간 오디오 신호들로부터의 정보에 기초하는 가상 소스 및 공간 오디오 신호들 각각은 기준 위치에 대해 각각의 상이한 기준 깊이에 대응한다. 예18은 다수의 공간 오디오 신호들 각각에서, 가상 소스의 각각의 후보 컴포넌트들을 식별하는 단계, 공간 오디오 신호들로부터 가상 소스의 식별된 후보 컴포넌트들에 대한 제1 관련성 메트릭을 결정하는 단계, 및 제1 관련성 메트릭에 대한 신뢰도를 결정하는 단계를 포함할 수 있고, 신뢰도는, 가상 소스에 대한 하나 이상의 후보 컴포넌트들의 귀속을 표시한다. 예18에서, 제1 관련성 메트릭이 콘텐트 내의 대응성 및/또는 식별된 후보 컴포넌트들 사이의 위치를 표시할 때, 예는, 청취자가 실질적으로 의도된 깊이에서 가상 소스를 인지하도록 제1 청취자 위치에 있는 청취자에 대해 후보 컴포넌트들을 렌더링할 제1 깊이들을 결정하는 단계를 포함하고, 결정된 제1 깊이들 중 적어도 하나는 그 대응하는 기준 깊이 이외의 것이다. 예18에서, 제1 관련성 메트릭이 콘텐트 내의 비대응성 또는 식별된 후보 컴포넌트들 사이의 위치를 표시할 때, 예는, 청취자가 실질적으로 의도된 깊이에서 가상 소스를 인지하도록 제1 청취자 위치에 있는 청취자에 대해 후보 컴포넌트들을 렌더링할 제2 깊이들을 결정하는 단계 - 결정된 제2 깊이들은 기준 깊이들에 대응함 - 를 포함한다. 예18의 방법은 선택적으로, 예15의 시스템을 포함하는 것과 같이 다양한 시스템들에 의해 전체적으로 또는 부분적으로 수행될 수 있다.

예19는 예18의 청구물을 포함할 수 있고, 선택적으로 예18의 청구물과 조합되어, 제1 관련성 메트릭에 대한 신뢰도를 결정하는 단계는 후보 컴포넌트들의 트렌드, 이동 평균 또는 평활화된 특징에 대한 정보를 사용하는 단계를 포함할 수 있다.

예20은 예18 또는 예19를 포함할 수 있고, 선택적으로 예18 또는 예19와 조합되어, 후보 컴포넌트들을 렌더링할 제1 깊이들을 결정하는 단계는, 결정된 신뢰도에 기초하여 기준 깊이들을 비례적으로 조정하는 단계를 포함할 수 있고, 비례적으로 조정하는 단계는 공간 오디오 신호 컴포넌트들을 그들 각각의 기준 위치들로부터 깊이 스펙트럼을 따라 의도된 깊이로 위치설정하는 단계를 포함한다.

이러한 예들 각각은 단독으로 사용되거나 또는 다양한 조합들 및 치환들과 조합될 수 있다.

상기 상세한 설명은 상세한 설명의 일부를 형성하는 첨부한 도면들에 대한 참조를 포함한다. 도면들은 예시의 방식으로 특정 실시예들을 도시한다. 이들 실시예들은 "예들"로서 본원에서 또한 지칭된다. 이러한 예들은 도시되거나 설명된 것들에 부가하여 요소들을 포함할 수 있다. 더욱이, 청구물은 본원에 도시되거나 설명된 특정한 예(또는 그것의 하나 이상의 양태들)에 관하여, 또는 다른 예들(또는 그것의 하나 이상의 양태들)에 관하여, 도시되거나 설명된 이들 요소들(또는 그것의 하나 이상의 양태들)의 임의의 조합 또는 치환을 포함할 수 있다.

본 문헌에서, 용어들 단수 관사("a" 또는 "an")는 "적어도 하나" 또는 "하나 이상"의 임의의 다른 경우들 또는 사용들과 독립적으로, 하나 또는 하나보다 많은 을 포함하도록, 특허 문헌들에 일반적으로 사용된다. 본 문헌에서, 용어 "또는"은 비배타적 합(nonexclusive or)을 지칭하도록 사용되어, "A 또는 B"는 다르게 나타내지 않으면, "A이지만 B는 아닌", "B이지만 A는 아닌", 그리고 "A 및 B"를 포함한다. 본 문헌에서, 용어들 "포함하는" 및 "여기서(in which)"는 각각의 용어들 "구비하는" 및 "여기서(wherein)"의 평이한 영문 등가물로서 사용된다. 또한, 아래의 청구항들에서, 용어들 "포함하는" 및 "구비하는"은 오픈-엔디드(open-ended)이고, 즉, 청구항에서 이러한 용어 이후에 리스트된 것들 이외의 요소들을 포함하는 시스템, 디바이스, 관사, 조성, 공식 또는 프로세스가 그 청구항의 범위 내에 있는 것으로 여전히 여겨진다. 더욱이, 아래의 특허청구범위에서, 용어 "제1", "제2", 및 "제3" 등은 단지 라벨로서 사용되며, 이들의 대상에 수치적 요건을 부과하도록 의도되지 않는다.

상기 설명은 예시적인 것으로 의도되지만, 제한적인 것은 아니다. 예를 들어, 상술한 예들(또는 그것의 하나 이상의 양태들)은 서로 조합하여 사용될 수 있다. 상기 설명을 검토할 때, 본 기술분야의 통상의 기술자에 의해 다른 실시예들이 사용될 수 있다. 요약은 독자가 기술적 개시의 본질을 신속하게 확인할 수 있게 하도록 제공된다. 요약은, 청구항들의 범위 또는 의미를 해석하거나 제한하기 위해 사용되지 않을 것이라는 이해로 제출되었다. 상기 상세한 설명에서, 다양한 특징들이 개시내용을 간소화하기 위해 함께 그룹화될 수 있다. 이것은 청구되지 않은 개시된 특징이 임의의 청구항에 본질적이라는 것을 의도하는 것으로서 해석되어서는 안된다. 오히려, 본 주제는 특정한 개시된 실시예의 모든 특징들보다 적을 수 있다. 따라서, 아래의 청구항들은 상세한 설명에 통합되며, 각각의 청구항은 개별 실시예로서 자체적으로 존재하고, 이러한 실시예들은 다양한 조합들 또는 치환들에서 서로 결합될 수 있는 것으로 고려된다. 범위는 이러한 청구항들이 부여되는 등가물들의 전체 범위와 함께, 첨부한 청구항을 참조하여 결정되어야 한다.

Claims

청취자 위치에 대해 의도된 깊이로 렌더링되도록 가상 소스를 위치설정하기 위한 방법으로서,
상기 가상 소스는 제1 청취자 위치에 대해 공간적으로 함께 렌더링되도록 구성된 2개 이상의 공간 오디오 서브믹스 신호로부터의 정보를 포함하고, 상기 공간 오디오 서브믹스 신호 각각은 기준 위치에 대해 각각의 상이한 기준 깊이에 대응하고, 상기 방법은,
상기 공간 오디오 서브믹스 신호 각각에서, 상기 가상 소스의 각각의 후보 컴포넌트를 식별하는 단계;
상기 공간 오디오 서브믹스 신호로부터 상기 가상 소스의 상기 식별된 후보 컴포넌트에 대한 제1 관련성 메트릭을 결정하는 단계; 및
상기 제1 청취자 위치에 있는 청취자가 실질적으로 상기 의도된 깊이로 상기 가상 소스를 인지하도록, 상기 제1 관련성 메트릭을 사용하여, 상기 제1 청취자 위치에 있는 상기 청취자에 대해 상기 공간 오디오 서브믹스 신호로부터의 상기 후보 컴포넌트를 렌더링할, 상기 공간 오디오 서브믹스 신호의 각각의 상기 기준 깊이 이외의 깊이를 결정하는 단계
를 포함하는, 방법.
제1항에 있어서,
상기 제1 관련성 메트릭에 대한 신뢰도를 결정하는 단계를 더 포함하고,
상기 신뢰도는, 상기 가상 소스에 대한 상기 하나 이상의 후보 컴포넌트의 귀속을 표시하고;
상기 후보 컴포넌트를 렌더링할 깊이를 결정하는 단계는, 상기 결정된 신뢰도에 기초하여 상기 깊이를 비례적으로 조정하는 단계를 포함하고, 상기 비례적으로 조정하는 단계는 상기 공간 오디오 신호 컴포넌트를 그 각각의 기준 위치로부터 깊이 스펙트럼을 따라 상기 의도된 깊이로 위치설정하는 단계를 포함하는 것인, 방법.
제2항에 있어서,
상기 제1 관련성 메트릭에 대한 신뢰도를 결정하는 단계는 상기 후보 컴포넌트의 트렌드, 이동 평균 또는 평활화된 특징에 대한 정보를 사용하는 단계를 포함하는 것인, 방법.
제2항에 있어서,
상기 제1 관련성 메트릭에 대한 신뢰도를 결정하는 단계는 상기 후보 컴포넌트 중 2개 이상의 각각의 공간 분포 또는 방향이 대응하는지 여부를 결정하는 단계를 포함하는 것인, 방법.
제2항에 있어서,
상기 제1 관련성 메트릭에 대한 신뢰도를 결정하는 단계는 상기 가상 소스의 상기 후보 컴포넌트 중 적어도 2개 사이의 상관을 결정하는 단계를 포함하는 것인, 방법.
제1항에 있어서,
상기 제1 관련성 메트릭을 결정하는 단계는 상기 후보 컴포넌트 중 2개의 각각의 신호 레벨의 비를 사용하는 단계를 포함하는 것인, 방법.
제1항에 있어서,
상기 후보 컴포넌트를 렌더링할 깊이를 결정하는 단계는,
상기 제1 관련성 메트릭의 값을 상기 제1 관련성 메트릭 및 각각의 대응하는 깊이에 대한 잠재적인 값을 포함하는 룩업 테이블 내의 값과 비교하는 단계, 및
상기 비교의 결과에 기초하여 상기 후보 컴포넌트를 렌더링할 깊이를 선택하는 단계
를 포함하는 것인, 방법.
제1항에 있어서,
상기 후보 컴포넌트를 사용하여 상기 제1 청취자 위치에 있는 상기 청취자에 대한 오디오 출력 신호를 렌더링하는 단계를 더 포함하고, 상기 오디오 출력 신호를 렌더링하는 단계는 상기 결정된 깊이에 따라 상기 공간 오디오 서브믹스 신호를 프로세싱하기 위해 HRTF 렌더러 회로 또는 웨이브필드(wavefield) 합성 회로를 사용하는 단계를 포함하는 것인, 방법.
제1항에 있어서,
상기 공간 오디오 서브믹스 신호는 다수의 시간-주파수 신호를 포함하고, 상기 가상 소스의 각각의 후보 컴포넌트를 식별하는 단계는 상기 시간-주파수 신호에서 이산적 주파수 대역에 대응하는 후보 컴포넌트를 식별하는 단계를 포함하고, 상기 제1 관련성 메트릭을 결정하는 단계는 상기 이산적 주파수 대역에 대응하는 상기 후보 컴포넌트를 포함하는 것인, 방법.
제1항에 있어서,
상기 청취자의 업데이트된 위치에 대한 정보를 수신하는 단계, 및
상기 업데이트된 위치에 있는 상기 청취자가 실질적으로 상기 제1 청취자 위치에 대해 상기 의도된 깊이에 대응하는 위치에서 상기 가상 소스를 인지하도록 상기 업데이트된 위치에서 상기 청취자에 대한 상기 공간 오디오 서브믹스 신호로부터의 상기 후보 컴포넌트를 렌더링할 상이한 업데이트된 깊이를 결정하는 단계
를 더 포함하는, 방법.
제1항에 있어서,
제1 깊이에 대응하는 오디오 정보를 갖는 제1 공간 오디오 서브믹스 신호를 수신하는 단계; 및
제2 깊이에 대응하는 오디오 정보를 갖는 제2 공간 오디오 서브믹스 신호를 수신하는 단계
를 더 포함하고;
상기 후보 컴포넌트를 렌더링할 깊이를 결정하는 단계는 상기 제1 깊이와 상기 제2 깊이 사이의 중간 깊이를 결정하는 단계를 포함하고;
상기 제1 및 제2 공간 오디오 서브믹스 신호는 (1) 각각 근거리 및 원거리 서브믹스(submix), 또는 (2) 각각 제1 및 제2 앰비소닉(ambisonic) 신호를 포함하는 것인, 방법.
제1항에 있어서,
상기 2개 이상의 공간 오디오 서브믹스 신호와 연관된 깊이 표시 메타데이터 및 상기 2개 이상의 공간 오디오 서브믹스 신호의 콘텍스트 또는 콘텐트에 의해 암시되는 깊이 표시 정보 중 하나 이상을 사용하여 상기 의도된 깊이를 결정하는 단계를 더 포함하는, 방법.
제1항에 있어서,
상기 결정된 깊이 및 상기 후보 컴포넌트를 사용하여 상기 가상 소스에 대한 강화된 소스 신호를 생성하는 단계를 더 포함하는, 방법.
제1항에 있어서,
상기 가상 소스의 상기 후보 컴포넌트 각각이 방향성 특성을 포함하는지 여부를 결정하는 단계; 및
상기 후보 컴포넌트 중 특정 후보 컴포넌트에 방향성 특성이 없으면, 동일한 가상 소스의 상기 후보 컴포넌트 중 상이한 후보 컴포넌트로부터의 방향성 특성에 기초하여 상기 후보 컴포넌트 중 상기 특정 후보 컴포넌트에 대하여 방향성 특성을 할당하는 단계
를 더 포함하는, 방법.
청취자 위치에 대해 의도된 깊이로 렌더링되도록 가상 오디오 소스를 위치설정하기 위해 오디오 정보를 프로세싱하기 위한 시스템으로서,
상기 가상 오디오 소스는 제1 청취자 위치에 대해 공간적으로 함께 렌더링되도록 구성된 2개 이상의 공간 오디오 서브믹스 신호로부터의 정보를 포함하고, 상기 공간 오디오 서브믹스 신호 각각은 기준 위치에 대해 각각의 상이한 기준 깊이에 대응하고, 상기 시스템은,
오디오 신호 깊이 프로세서 회로를 포함하고, 상기 오디오 신호 깊이 프로세서 회로는,
상기 공간 오디오 서브믹스 신호 각각에서, 상기 가상 오디오 소스의 각각의 후보 컴포넌트를 식별하고;
상기 공간 오디오 서브믹스 신호로부터 상기 가상 오디오 소스의 상기 식별된 후보 컴포넌트에 대한 제1 관련성 메트릭을 결정하고;
상기 제1 청취자 위치에 있는 청취자가 실질적으로 상기 의도된 깊이로 상기 가상 오디오 소스를 인지하도록, 상기 제1 관련성 메트릭을 사용하여, 상기 제1 청취자 위치에 있는 상기 청취자에 대해 상기 공간 오디오 서브믹스 신호로부터의 상기 후보 컴포넌트를 렌더링할, 상기 공간 오디오 서브믹스 신호의 각각의 상기 기준 깊이 이외의 깊이를 결정하도록 구성되는 것인, 시스템.
제15항에 있어서,
상기 후보 컴포넌트를 사용하여 상기 제1 청취자 위치에 있는 상기 청취자에 대한 오디오 출력 신호를 제공하도록 구성되는 렌더링 회로를 더 포함하고, 상기 오디오 출력 신호는 상기 결정된 깊이 및 재생 시스템의 특성에 따라 상기 공간 오디오 서브믹스 신호의 HRTF 바이노럴(binaural)/트랜스오럴(transaural) 또는 웨이브필드 합성 프로세싱을 사용하여 제공되는 것인, 시스템.
제15항에 있어서,
상기 청취자의 업데이트된 위치에 대한 정보를 감지하도록 구성되는 청취자 머리 추적기를 더 포함하고;
상기 프로세서 회로는, 상기 업데이트된 위치에 있는 상기 청취자가 실질적으로 상기 제1 청취자 위치에 대해 상기 의도된 깊이에서 상기 가상 오디오 소스를 인지하도록 상기 업데이트된 위치에서 상기 청취자에 대한 상기 공간 오디오 서브믹스 신호로부터의 상기 후보 컴포넌트를 렌더링할 상이한 업데이트된 깊이를 결정하도록 구성되는 것인, 시스템.
청취자 위치에 대해 의도된 깊이로 렌더링되도록 가상 소스를 위치설정하기 위한 방법으로서,
하나 이상의 공간 오디오 신호로부터의 정보에 기초하는 상기 가상 소스 및 상기 공간 오디오 신호 각각은 기준 위치에 대해 각각의 상이한 기준 깊이에 대응하고, 상기 방법은,
다수의 공간 오디오 신호 각각에서, 상기 가상 소스의 각각의 후보 컴포넌트를 식별하는 단계;
상기 공간 오디오 신호로부터 상기 가상 소스의 상기 식별된 후보 컴포넌트에 대한 제1 관련성 메트릭을 결정하는 단계; 및
상기 제1 관련성 메트릭에 대한 신뢰도를 결정하는 단계 - 상기 신뢰도는, 상기 가상 소스에 대한 상기 하나 이상의 후보 컴포넌트의 귀속을 표시함 -;
상기 제1 관련성 메트릭에 대한 신뢰도가 콘텐트 내의 대응성 및 상기 식별된 후보 컴포넌트 사이의 위치 중 적어도 하나를 표시할 때, 상기 청취자가 실질적으로 상기 의도된 깊이에서 상기 가상 소스를 인지하도록 제1 청취자 위치에 있는 청취자에 대해 상기 후보 컴포넌트를 렌더링할 제1 깊이를 결정하는 단계 - 상기 결정된 제1 깊이 중 적어도 하나는 그 대응하는 기준 깊이 이외의 것임 -; 및
상기 제1 관련성 메트릭에 대한 신뢰도가 콘텐트 내의 비-대응성 또는 상기 식별된 후보 컴포넌트 사이의 위치를 표시할 때, 상기 청취자가 실질적으로 상기 의도된 깊이에서 상기 가상 소스를 인지하도록 상기 제1 청취자 위치에 있는 상기 청취자에 대해 상기 후보 컴포넌트를 렌더링할 제2 깊이를 결정하는 단계 - 상기 결정된 제2 깊이는 상기 기준 깊이에 대응함 -
를 포함하는, 방법.
제18항에 있어서,
상기 제1 관련성 메트릭에 대한 신뢰도를 결정하는 단계는 상기 후보 컴포넌트의 트렌드, 이동 평균 또는 평활화된 특징에 대한 정보를 사용하는 단계를 포함하는 것인, 방법.
제18항에 있어서,
상기 후보 컴포넌트를 렌더링할 깊이를 결정하는 단계는, 상기 결정된 신뢰도에 기초하여 상기 기준 깊이를 비례적으로 조정하는 단계를 포함하고, 상기 비례적으로 조정하는 단계는 상기 공간 오디오 신호 컴포넌트를 그 각각의 기준 위치로부터 깊이 스펙트럼을 따라 상기 의도된 깊이로 위치설정하는 단계를 포함하는 것인, 방법.