KR102586089B1

KR102586089B1 - 파라메트릭 바이너럴 출력 시스템 및 방법을 위한 머리추적

Info

Publication number: KR102586089B1
Application number: KR1020187014045A
Authority: KR
Inventors: 더크 예론 브리바트; 데이비드 매튜 쿠퍼; 마크 에프. 데이비스; 데이비드 에스. 맥그래스; 크리스토퍼 케링; 해럴드 문트; 론다 제이. 윌슨
Original assignee: 돌비 레버러토리즈 라이쎈싱 코오포레이션; 돌비 인터네셔널 에이비
Priority date: 2015-11-17
Filing date: 2016-11-17
Publication date: 2023-10-10
Also published as: AU2016355673A1; CA3080981C; US10893375B2; MY188581A; SG11201803909TA; WO2017087650A1; EP4236375A2; AU2016355673B2; ES2950001T3; IL259348B; BR122020025280B1; AU2020200448A1; EP3378239A1; AU2020200448B2; CN113038354A; BR112018010073B1; CA3080981A1; EP3716653A1; UA125582C2; US20190342694A1

Abstract

플레이백을 위한 채널 또는 오브젝트 기반 입력 오디오를 인코딩하는 방법으로서, 본 방법은: (a) 채널 또는 오브젝트 기반 입력 오디오를 초기 출력 프레젠테이션으로 초기에 렌더링하는 단계; (b) 채널 또는 오브젝트 기반 입력 오디오로부터 우세한 오디오 컴포넌트의 추정치를 결정하고, 초기 출력 프레젠테이션을 우세한 오디오 컴포넌트에 매핑하기 위한 일련의 우세한 오디오 컴포넌트 가중 인자들을 결정하는 단계; (c) 우세한 오디오 컴포넌트 방향 또는 위치의 추정치를 결정하는 단계; 및 (d) 초기 출력 프레젠테이션, 우세한 오디오 컴포넌트 가중 인자들, 우세한 오디오 컴포넌트 방향 또는 위치를 플레이백을 위한 인코딩된 신호로서 인코딩하는 단계를 포함한다.

Description

파라메트릭 바이너럴 출력 시스템 및 방법을 위한 머리추적

본 발명은 머리추적을 임의로 이용할 때 개선된 형태의 파라메트릭 바이너럴 출력을 위한 시스템들 및 방법들을 제공한다.

참조 문헌들

Gundry, K., "A New Matrix Decoder for Surround Sound," AES 19th International Conf., Schloss Elmau, Germany, 2001.

Vinton, M., McGrath, D., Robinson, C., Brown, P., "Next generation surround decoding and up-mixing for consumer and professional applications", AES 57th International Conf, Hollywood, CA, USA, 2015.

Wightman, F. L., and Kistler, D. J. (1989). "Headphone simulation of free-field listening. I. Stimulus synthesis," J. Acoust. Soc. Am. 85, 858-867.

ISO/IEC 14496-3:2009 - Information technology -- Coding of audio-visual objects -- Part 3: Audio, 2009.

Mania, Katerina, et al. "Perceptual sensitivity to head tracking latency in virtual environments with varying degrees of scene complexity." Proceedings of the 1st Symposium on Applied perception in graphics and visualization. ACM, 2004.

Allison, R. S., Harris, L. R., Jenkin, M., Jasiobedzka, U., & Zacher, J. E. (2001, March). Tolerance of temporal delay in virtual environments. In Virtual Reality, 2001. Proceedings. IEEE (pp. 247-254). IEEE.

Van de Par, Steven, and Armin Kohlrausch. "Sensitivity to auditory-visual asynchrony and to jitter in auditory-visual timing." Electronic Imaging. International Society for Optics and Photonics, 2000.

명세서 전반에 걸친 배경 기술의 임의의 논의는 이러한 기술이 그 분야에서의 공통적인 일반 지식으로 널리 알려지거나 그 일부를 형성한다는 것의 인정으로서 결코 간주되지 않아야 한다.

콘텐츠 생성, 코딩, 분배 및 오디오 콘텐츠의 재생은 전통적으로 채널 기반이다. 즉, 하나의 특정 타겟 플레이백 시스템이 콘텐츠 에코시스템 전반에 걸친 콘텐츠에 대해 참작된다. 이러한 타겟 플레이백 시스템들의 예들은 모노, 스테레오, 5.1, 7.1, 7.1.4 등이다.

콘텐츠가 의도된 것과는 상이한 플레이백 시스템 상에서 재생될 경우, 다운-믹싱 또는 업-믹싱이 적용될 수 있다. 예를 들어, 5.1 콘텐츠는 특정한 공지된 다운-믹스 방정식들을 사용함으로써 스테레오 플레이백 시스템 상에서 재생될 수 있다. 또 다른 예는, Dolby Pro Logic과 같은 소위 행렬 인코더들에 의해 사용되는 것과 같은 스테레오 신호 내에 존재하는 정보에 의해 안내될 수 있거나 안내될 수 없는 소위 업-믹싱 프로세스를 포함할 수 있는, 7.1 스피커 셋업 상에서의 스테레오 콘텐츠의 플레이백이다. 업-믹싱 프로세스를 안내하기 위해, 다운-믹싱 이전의 신호들의 원래 위치에 대한 정보는 다운-믹스 방정식들에 특정 위상관계들을 포함시킴으로써, 또는 상기와 상이하게, 복소-값 다운-믹스 방정식들을 적용함으로써 암시적으로 시그널링될 수 있다. 2차원으로 배치되는 스피커들을 이용하여 콘텐츠에 대한 복소값 다운-믹스 계수들을 사용하는 이러한 다운-믹스 방법의 널리-알려진 예는 LtRt이다(Vinton et al. 2015).

결과적인 (스테레오) 다운-믹스 신호가 스테레오 라우드스피커 시스템 상에서 재생될 수 있거나, 또는 서라운드 및/또는 높이(height) 스피커들을 이용하여 라우드스피커 셋업들로 업-믹스될 수 있다. 신호의 의도된 위치는 채널-내 위상 관계들로부터 업-믹서에 의해 유도될 수 있다. 예를 들어, LtRt 스테레오 표현에서, 이상(out-of-phase)인(예를 들어, -1에 가까운 채널-간 파형 정규화된 교차-상관 계수를 가지는) 신호는 하나 이상의 서라운드 스피커에 의해 이상적으로 재생되어야 하는 반면, 양의 상관 계수(+1에 가까움)는 신호가 청취자의 정면에서 스피커들에 의해 재생되어야 함을 나타낸다.

스테레오 다운-믹스로부터 멀티-채널 신호를 재생성하기 위해 그 정책들에 있어서 상이한 다양한 업-믹싱 알고리즘들 및 정책들이 개발되어 왔다. 비교적 간단한 업-믹서들에서, 스테레오 파형 신호들의 정규화된 교차-상관 계수가 시간의 함수로서 추적되는 반면, 신호(들)는 정규화된 교차-상관 계수의 값에 따라 전방 또는 후방 스피커들에 대해 조정된다(steer). 이 방식은 동시에 단 하나의 음향 오브젝트가 존재하는 비교적 간단한 콘텐츠에 대해 적절히 작용한다. 더 진보된 업-믹서들은 스테레오 입력으로부터 멀티-채널 출력으로의 신호 흐름을 제어하도록 특정 주파수 영역들로부터 유도되는 통계 정보에 기초한다(Gundry 2001, Vinton et al. 2015). 구체적으로, 조정된 또는 우세한 컴포넌트 및 스테레오(확산) 잔차 신호에 기초하는 신호 모델은 개별 시간/주파수 타일들에서 사용될 수 있다. 우세한 컴포넌트 및 잔차 신호들의 추정 이외에, 방향(방위각에서, 가능하게는, 고도가 상승된) 각도 역시 추정되며, 후속적으로 우세한 컴포넌트 신호가 하나 이상의 라우드스피커에 대해 조정되어 플레이백 동안 (추정된) 위치를 재구성한다.

행렬 인코더들 및 디코더/업-믹서들의 사용은 채널-기반 콘텐츠에 제한되지 않는다. 오디오 산업에서의 최근 개발들은 채널들보다는 오디오 오브젝트들에 기초하는데, 여기서 하나 이상의 오브젝트는 오디오 신호, 및 다른 것들 중 특히, 시간의 함수로서 그것의 의도되는 위치를 나타내는 연관된 메타데이터로 구성된다. 이러한 오브젝트-기반 오디오 콘텐츠에 대해, Vinton et al. 2015에서 개요화된 바와 같이, 행렬 인코더들 역시 사용될 수 있다. 이러한 시스템에서, 오브젝트 신호들은 오브젝트 위치 메타데이터에 종속적인 다운-믹스 계수들을 가지는 스테레오 신호 표현으로 다운-믹스된다.

행렬-인코딩된 콘텐츠의 업-믹싱 및 재생은 라우드스피커들 상에서의 플레이백으로 반드시 제한되지는 않는다. 우세한 컴포넌트 신호 및 (의도된) 위치로 구성되는 조정된 또는 우세한 컴포넌트의 표현은 머리-관련 임펄스 응답(HRIR)들과의 컨볼루션에 의해 헤드폰 상에서의 재생을 허용한다(Wightman et al. 1989). 이 방법을 구현하는 시스템의 간단한 개략도가 도 1에서 1로 도시된다. 행렬 인코딩된 포맷인 입력 신호(2)는 먼저 우세한 컴포넌트 방향 및 크기를 결정하도록 분석된다(3). 우세한 컴포넌트 신호는 우세한 컴포넌트 방향에 기초하여 룩업(6)으로부터 유도되는 HRIR들의 쌍에 의해 컨볼빙되어(4, 5), 헤드폰 플레이백(7)을 위한 출력 신호를 컴퓨팅하고, 따라서 플레이백 신호는 우세한 컴포넌트 분석 스테이지(3)에 의해 결정된 방향으로부터 오는 것으로 인지된다. 이러한 방식은 광-대역 신호들뿐만 아니라 개별 서브대역들에 대해서도 적용될 수 있고, 다양한 방식들로 잔차(또는 확산) 신호들의 전용 프로세싱을 이용하여 증강될 수 있다.

행렬 인코더들의 사용은 AV 수신기들에의 분배 및 AV 수신기들 상에서의 재생에 대해 매우 적합하지만, 낮은 전송 데이터 레이트들 및 낮은 전력 소모를 요구하는 모바일 응용예들에 대해서는 문제가 있을 수 있다.

채널 또는 오브젝트-기반 콘텐츠가 사용되는지의 여부와는 무관하게, 행렬 인코더들 및 디코더들은 행렬 인코더로부터 디코더로 분배되는 신호들의 다소 정확한 채널-간 위상 관계들에 의존한다. 다시 말해, 분배 포맷은 대체로 파형을 보존해야 한다. 파형 보존에 대한 이러한 의존성은 비트-레이트 제약 조건들에서는 문제가 있을 수 있는데, 여기서 오디오 코덱들은 더 양호한 오디오 품질을 획득하기 위해 파형 코딩 툴들보다는 파라메트릭 방법들을 채택한다. 일반적으로 파형 보존적이지 않은 것으로 알려진 이러한 파라메트릭 툴들의 예들은, MPEG-4 오디오 코덱들(ISO/IEC 14496-3:2009)로서 구현되는 바와 같은, 스펙트럼 대역 복제, 파라메트릭 스테레오, 공간 오디오 코딩 등으로 종종 지칭된다.

이전 섹션에서 개요화된 바와 같이, 업-믹서는 신호들의 분석 및 조정(또는 HRIR 컨볼루션)으로 구성된다. AV 수신기들과 같은 동력 디바이스들에 대해, 이것은 일반적으로 문제점들을 야기하진 않지만, 모바일 폰들 및 태블릿들과 같은 배터리-작동 디바이스들에 대해, 이들 프로세스들과 연관된 계산상의 복잡성 및 대응하는 메모리 요건들은 배터리 수명에 대한 이들의 부정적인 영향으로 인해 종종 바람직하지 않다.

전술된 분석은 통상적으로 또한 추가의 오디오 레이턴시를 도입한다. 이러한 오디오 레이턴시는, (1) 그것이 상당량의 메모리 및 프로세싱 전력을 요구하는 오디오-비디오 립 싱크를 유지하기 위한 비디오 지연들을 요구하고, (2) 머리 추적의 경우 머리 움직임들과 오디오 렌더링 간의 비동기성/레이턴시를 야기할 수 있기 때문에 바람직하지 않다.

행렬-인코딩된 다운-믹스는 또한, 강한 이상 신호 컴포넌트들의 잠재적 존재로 인해, 스테레오 라우드스피커들 또는 헤드폰들에 대해 최적의 소리를 내지 않을 수 있다.

개선된 형태의 파라메트릭 바이너럴 출력을 제공하는 것이 발명의 목적이다.

본 발명의 제1 양태에 따르면, 플레이백을 위한 채널 또는 오브젝트 기반 입력 오디오를 인코딩하는 방법이 제공되며, 본 방법은: (a) 채널 또는 오브젝트 기반 입력 오디오를 초기 출력 프레젠테이션(즉, 초기 출력 표현)으로 초기에 렌더링하는 단계; (b) 채널 또는 오브젝트 기반 입력 오디오로부터 우세한 오디오 컴포넌트의 추정치를 결정하고, 초기 출력 프레젠테이션을 우세한 오디오 컴포넌트로 매핑하기 위한 일련의 우세한 오디오 컴포넌트 가중 인자들을 결정하는 단계; (c) 우세한 오디오 컴포넌트 방향 또는 위치의 추정치를 결정하는 단계; 및 (d) 초기 출력 프레젠테이션, 우세한 오디오 컴포넌트 가중 인자들, 우세한 오디오 컴포넌트 방향 또는 위치를 플레이백을 위한 인코딩된 신호로서 인코딩하는 단계를 포함한다. 초기 출력 프레젠테이션을 우세한 오디오 컴포넌트로 매핑하기 위한 일련의 우세한 오디오 컴포넌트 가중 인자들을 제공하는 것은 우세한 오디오 컴포넌트 가중 인자들 및 초기 출력 프레젠테이션을 이용하여 우세한 컴포넌트의 추정치를 결정하는 것을 가능하게 할 수 있다.

일부 실시예들에서, 본 방법은 잔차 믹스의 추정치가 우세한 오디오 컴포넌트 또는 그 추정치 중 어느 하나의 렌더링보다 더 적은 초기 출력 프레젠테이션라고 결정하는 단계를 더 포함한다. 본 방법은 또한 채널 또는 오브젝트 기반 입력 오디오의 무향 바이너럴 믹스를 생성하는 단계, 및 잔차 믹스의 추정치를 결정하는 단계를 포함할 수 있고, 잔차 믹스의 추정치는 우세한 오디오 컴포넌트 또는 그 추정치 중 어느 하나의 렌더링보다 더 적은 무향 바이너럴 믹스일 수 있다. 또한, 본 방법은 초기 출력 프레젠테이션을 잔차 믹스의 추정치에 매핑하기 위한 일련의 잔차 행렬 계수들을 결정하는 단계를 포함할 수 있다.

초기 출력 프레젠테이션은 헤드폰 또는 라우드스피커 프레젠테이션을 포함할 수 있다. 채널 또는 오브젝트 기반 입력 오디오는 시간 및 주파수 타일링될 수 있고, 인코딩 단계는 일련의 시간 단계들 및 일련의 주파수 대역들에 대해 반복될 수 있다. 초기 출력 프레젠테이션은 스테레오 스피커 믹스를 포함할 수 있다.

본 발명의 추가적인 양태에 따르면, 인코딩된 오디오 신호를 디코딩하는 방법이 제공되고, 인코딩된 오디오 신호는: 제1 (예를 들어, 초기) 출력 프레젠테이션(예를 들어, 제1/초기 출력 표현); 우세한 오디오 컴포넌트 방향 및 우세한 오디오 컴포넌트 가중 인자들을 포함하고; 본 방법은: (a) 우세한 오디오 컴포넌트 가중 인자들 및 초기 출력 프레젠테이션을 이용하여 추정된 우세한 컴포넌트를 결정하는 단계; (b) 우세한 오디오 컴포넌트 방향에 따라 의도된 청취자에 대한 공간 위치에서의 바이너럴화를 이용하여 추정된 우세한 컴포넌트를 렌더링하여 렌더링된 바이너럴화된 추정된 우세한 컴포넌트를 형성하는 단계; (c) 제1(예를 들어, 초기) 출력 프레젠테이션으로부터 잔차 컴포넌트 추정치를 재구성하는 단계; 및 (d) 렌더링된 바이너럴화된 추정된 우세한 컴포넌트와 잔차 컴포넌트 추정치를 조합하여 출력 공간화된 오디오 인코딩된 신호를 형성하는 단계를 포함한다.

인코딩된 오디오 신호는 잔차 오디오 신호를 표현하는 일련의 잔차 행렬 계수들을 더 포함할 수 있고, 단계(c)는 (c1) 잔차 행렬 계수들을 제1(예를 들어, 초기) 출력 프레젠테이션에 적용하여 잔차 컴포넌트 추정치를 재구성하는 단계를 더 포함할 수 있다.

일부 실시예들에서, 잔차 컴포넌트 추정치는 제1(예를 들어, 초기) 출력 프레젠테이션으로부터 렌더링된 바이너럴화된 추정된 우세한 컴포넌트를 차감함으로써 재구성될 수 있다. 단계(b)는 의도된 청취자의 머리 배향을 나타내는 입력 머리추적 신호에 따라 추정된 우세한 컴포넌트의 초기 회전을 포함할 수 있다.

본 발명의 추가적인 양태에 따르면, 헤드폰을 사용하는 청취자를 위한 오디오 스트림의 디코딩 및 재생을 위한 방법이 제공되며, 본 방법은: (a) 제1 오디오 표현 및 추가의 오디오 변환 데이터를 포함하는 데이터 스트림을 수신하는 단계; (b) 청취자의 배향을 표현하는 머리 배향 데이터를 수신하는 단계; (c) 제1 오디오 표현 및 수신된 변환 데이터에 기초하여 하나 이상의 보조 신호(들)를 생성하는 단계; (d) 제1 오디오 표현 및 보조 신호(들)의 조합으로 구성되는 제2 오디오 표현을 생성하는 단계 - 여기서 보조 신호(들) 중 하나 이상은 머리 배향 데이터에 응답하여 수정됨 - ; 및 (e) 제2 오디오 표현을 출력 오디오 스트림으로서 출력하는 단계를 포함한다.

일부 실시예들에서는 음원 위치로부터 청취자의 귀까지의 음향 경로의 시뮬레이션을 구성하는 보조 신호들의 수정을 더 포함할 수 있다. 변환 데이터는 행렬화 계수들, 및 음원 위치 또는 음원 방향 중 적어도 하나로 구성될 수 있다. 변환 프로세스는 시간 또는 주파수의 함수로서 적용될 수 있다. 보조 신호들은 적어도 하나의 우세한 컴포넌트를 나타낼 수 있다. 음원 위치 또는 방향은 변환 데이터의 일부로서 수신될 수 있고, 머리 배향 데이터에 응답하여 회전될 수 있다. 일부 실시예들에서, 최대 회전량은 방위각 또는 고도에서 360도 미만의 값으로 제한된다. 2차 표현은 변환 또는 필터뱅크 도메인에서 행렬화함으로써 제1 표현으로부터 획득될 수 있다. 변환 데이터는 추가의 행렬화 계수들을 더 포함할 수 있고, 단계(d)는 제1 오디오 프레젠테이션와 보조 오디오 신호(들)를 조합하기 이전에 추가의 행렬화 계수들에 응답하여 제1 오디오 프레젠테이션을 수정하는 단계를 더 포함할 수 있다.

발명의 실시예들이 이제, 첨부 도면들을 참조하여, 단지 예로써 기술될 것이다.
도 1은 행렬-인코딩된 콘텐츠에 대한 헤드폰 디코더를 개략적으로 예시한다.
도 2는 실시예에 따른 인코더를 개략적으로 예시한다.
도 3은 디코더의 개략적 블록도이다.
도 4는 인코더의 상세화된 시각화이다.
도 5는 디코더의 한 형태를 더 상세하게 예시한다.

실시예들은, (1) 스테레오 플레이백과 호환가능하고, (2) 머리 추적을 포함한 바이너럴 플레이백을 허용하고, (3) 디코더 복잡성이 낮고, (4) 행렬 인코딩에 의존하지는 않지만 그럼에도 이와 호환가능한, 오브젝트 또는 채널 기반 오디오 콘텐츠를 나타내기 위한 시스템 및 방법을 제공한다.

이는, 조정된 또는 우세한 컴포넌트들에만 기초한 바이너럴 렌더링과 전체 콘텐츠의 원하는 바이너럴 프레젠테이션 간의 에러를 최소화하는 추가의 파라미터들과 함께, 다운-믹스로부터 이러한 우세한 컴포넌트들을 예측하기 위한 가중들을 포함하는 하나 이상의 우세한 컴포넌트(또는 우세한 오브젝트 또는 그 조합)의 인코더-측 분석을 조합함으로써 달성된다.

실시예에서, 우세한 컴포넌트(또는 다수의 우세한 컴포넌트)의 분석은 디코더/렌더러보다는 인코더에서 제공된다. 오디오 스트림은 이후 우세한 컴포넌트의 방향을 나타내는 메타데이터, 및 우세한 컴포넌트(들)가 어떻게 연관된 다운-믹스 신호로부터 획득될 수 있는지에 대한 정보를 이용하여 증강된다.

도 2는 바람직한 실시예의 인코더(20)의 한 형태를 예시한다. 오브젝트 또는 채널-기반 콘텐츠(21)는 우세한 컴포넌트(들)를 결정하기 위해 분석(23)을 거친다. 이 분석은 시간 및 주파수의 함수로서 발생할 수 있다(오디오 콘텐츠가 시간 타일들 및 주파수 서브타일들로 분절된다고 가정함). 이 프로세스의 결과는 우세한 컴포넌트 신호(26)(또는 다수의 우세한 컴포넌트 신호들), 및 연관된 위치(들) 또는 방향(들) 정보(25)이다. 후속적으로, 가중들이 추정되고(24) 출력되어(27) 전송된 다운-믹스로부터의 우세한 컴포넌트 신호(들)의 재구성을 허용한다. 이 다운-믹스 생성기(22)는 LtRt 다운-믹스 규칙을 반드시 지킬 필요는 없지만, 음이 아닌(non-negative), 실수값 다운-믹스 계수들을 사용하는 표준 ITU(LoRo) 다운-믹스일 수 있다. 마지막으로, 출력 다운-믹스 신호(29), 가중들(27), 및 위치 데이터(25)는 오디오 인코더(28)에 의해 패키지화되어 분배를 위해 준비된다.

이제 도 3을 참조하면, 바람직한 실시예의 대응하는 디코더(30)가 예시된다. 오디오 디코더는 다운-믹스 신호를 재구성한다. 신호가 입력되고(31), 오디오 디코더(32)에 의해 우세한 컴포넌트들의 다운-믹스 신호, 가중들 및 방향으로 언패킹된다. 후속적으로, 우세한 컴포넌트 추정 가중들이 조정된 컴포넌트(들)를 재구성하는데(34) 사용되며, 이는 전송된 위치 또는 방향 데이터를 사용하여 렌더링된다(36). 위치 데이터는 머리 회전 또는 병진운동(translation) 정보(38)에 따라 임의로 수정될 수 있다(33). 추가로, 재구성된 우세한 컴포넌트(들)는 다운-믹스로부터 차감될 수 있다(35). 임의로, 다운-믹스 경로 내에 우세한 컴포넌트(들)의 차감이 존재하지만, 대안적으로, 하기에 기술되는 바와 같이, 이러한 차감은 인코더에서도 발생할 수 있다.

차감기(35)에서의 재구성된 우세한 컴포넌트의 제거 또는 무효화를 개선하기 위해, 우세한 컴포넌트 출력은, 차감 이전에 전송된 위치 또는 방향 데이터를 사용하여 먼저 렌더링될 수 있다. 이러한 임의적인 렌더링 스테이지(39)가 도 3에 도시된다.

이제 인코더를 초기에 더 상세히 설명하기 위해, 도 4는 오브젝트-기반(예를 들어, Dolby Atmos) 오디오 콘텐츠를 프로세싱하기 위한 인코더(40)의 한 형태를 도시한다. 오디오 오브젝트들은 원래 Atmos 오브젝트들(41)로서 저장되고, 하이브리드 복소-값 직교 미러 필터(hybrid complex-valued quadrature mirror filter)(HCQMF) 뱅크(42)를 사용하여 시간 및 주파수 타일들로 초기에 분할된다. 입력 오브젝트 신호들은, 대응하는 시간 및 주파수 인덱스들을 생략할 때 x_i[n]으로 표기될 수 있고; 현재 프레임 내의 대응하는 위치는 단위 벡터 로 주어지고, 인덱스 i는 오브젝트 번호를 지칭하고, 인덱스 n은 시간(예를 들어, 서브 대역 샘플 인덱스)을 지칭한다. 입력 오브젝트 신호들 x_i[n]은 채널 또는 오브젝트 기반 입력 오디오에 대한 예이다.

무향의, 서브 대역, 바이너럴 믹스 는 위치 에 대응하는 HRIR들의 서브-대역 표현을 표현하는 복소-값 스칼라들 (예컨대, 원-탭 HRTF들(48))을 사용하여 생성된다(43):

대안적으로, 바이너럴 믹스 는 머리-관련 임펄스 응답(HRIR)들을 사용하여 컨볼루션에 의해 생성될 수 있다. 추가로, 스테레오 다운-믹스 (초기 출력 프레젠테이션을 예시적으로 구현함)는 진폭-패닝(amplitude-panning) 이득 계수들 을 사용하여 생성된다(44):

우세한 컴포넌트의 방향 벡터 (우세한 오디오 컴포넌트 방향 또는 위치를 예시적으로 구현함)는 각각의 오브젝트에 대한 단위 방향 벡터들의 가중된 합산을 초기에 계산함으로써 우세한 컴포넌트(45)를 컴퓨팅하여 추정될 수 있고:

는 신호 의 에너지:

이고, 는 복소 공액 연산자이다.

우세한/조정된 신호 d[n](우세한 오디오 컴포넌트를 예시적으로 구현함)은 후속적으로:

로 주어지고, 는 단위 벡터들 사이의 거리가 증가할수록 감소하는 이득을 생성하는 함수이다. 예를 들어, 고차 구형 고조파들에 기초하는 지향성 패턴을 가지는 가상 마이크로폰을 생성하기 위해, 일 구현예는:

에 대응하고, 는 2 또는 3차원 좌표계에서의 단위 방향 벡터를 나타내고, (.)는 2개 벡터에 대한 내적 연산자이고, a, b, c는 예시적인 파라미터들(예를 들어, a=b=0.5; c=1)이다.

가중들 또는 예측 계수들 이 계산되고(46) 추정되는 조정된 신호 를 컴퓨팅하기 위해 사용되며(47):

가중들 은 다운-믹스 신호들이 주어지는 경우 d[n]과 사이의 평균 제곱 에러를 최소화시킨다. 가중들 은 초기 출력 프레젠테이션(예를 들어, )를 우세한 오디오 컴포넌트(예를 들어, )에 매핑하기 위한 우세한 오디오 컴포넌트 가중 인자들의 예이다. 이러한 가중들을 유도하기 위해 알려진 방법은 최소 평균-제곱 에러(MMSE) 예측기를 적용하는 것이며:

는 신호들 a 및 신호들 b에 대한 신호들 간의 공분산 행렬이고, 는 정규화 파라미터이다.

후속적으로 무향 바이너럴 믹스 로부터 우세한 컴포넌트 신호 의 렌더링된 추정치를 차감하여 우세한 신호 의 방향/위치 와 연관된 HRTF들(HRIR들)을 사용하여 잔차 바이너럴 믹스 를 생성할 수 있다:

마지막으로, 최소 평균 제곱 에러 추정치들을 사용하여 스테레오 믹스 로부터 잔차 바이너럴 믹스 의 재구성을 허용하는, 예측 계수들 또는 가중들 의 또 다른 세트가 추정되고(51):

는 표현 a와 표현 b에 대한 신호들 사이의 공분산 행렬이고, 은 정규화 파라미터이다. 예측 계수들 또는 가중들 은 초기 출력 프레젠테이션(예를 들어, )를 잔차 바이너럴 믹스 의 추정치에 매핑하기 위한 잔차 행렬 계수들의 예이다. 위의 표현은 임의의 예측 손실들을 해소하기 위해 추가의 레벨 제한들을 거칠 수 있다. 인코더는 후속하는 정보를 출력한다:

스테레오 믹스 (초기 출력 프레젠테이션을 예시적으로 구현함);

우세한 컴포넌트를 추정하기 위한 계수들 (우세한 오디오 컴포넌트 가중 인자들을 예시적으로 구현함);

우세한 컴포넌트의 위치 또는 방향 ;

그리고 임의적으로, 잔차 가중들 (잔차 행렬 계수들을 예시적으로 구현함).

위 기재가 단일의 우세한 컴포넌트에 기초한 렌더링에 관한 것이지만, 일부 실시예들에서 인코더는 다수의 우세한 컴포넌트를 검출하고, 다수의 우세한 컴포넌트 각각에 대한 가중들 및 방향들을 결정하고, 무향 바이너럴 믹스 Y로부터 다수의 우세한 컴포넌트 각각을 렌더링 및 차감하고, 이후 다수의 우세한 컴포넌트 각각이 무향 바이너럴 믹스 Y로부터 차감된 이후 잔차 가중들을 결정하도록 적응될 수 있다.

디코더/ 렌더러

도 5는 디코더/렌더러(60)의 한 형태를 더 자세하게 예시한다. 디코더/렌더러(60)는 언패킹된 입력 정보 로부터 청취자(71)에게 출력하기 위한 바이너럴 믹스 를 재구성하는 것을 목표로 하는 프로세스를 적용한다. 여기서, 스테레오 믹스 는 제1 오디오 표현의 예이고, 예측 계수들 또는 가중들 및/또는 우세한 컴포넌트 신호 의 위치/방향 은 추가의 오디오 변환 데이터의 예들이다.

초기에, 스테레오 다운-믹스는 HCQMF 분석 뱅크(61)와 같은, 적절한 필터뱅크 또는 변환(61)을 사용하여 시간/주파수 타일들로 분할된다. 이산 푸리에 변환, (수정된) 코사인 또는 사인 변환, 시간-도메인 필터뱅크, 또는 웨이블렛 변환들과 같은 다른 변환들 역시 동등하게 적용될 수 있다. 후속적으로, 추정된 우세한 컴포넌트 신호 는 예측 계수 가중들 을 사용하여 컴퓨팅된다(63):

추정된 우세한 컴포넌트 신호 는 보조 신호의 예이다. 따라서, 이 단계는 상기 제1 오디오 표현 및 수신된 변환 데이터에 기초하여 하나 이상의 보조 신호(들)를 생성하는 것에 대응한다고 할 수 있다.

이 우세한 컴포넌트 신호는 후속적으로 전송된 위치/방향 데이터 에 기초하여 HRTF들(69)을 이용하여 렌더링되고(65) 수정되고(68), 가능하게는 머리 추적기(62)로부터 획득되는 정보에 기초하여 수정된다(회전된다). 마지막으로, 전체 무향 바이너럴 출력은 예측 계수 가중들 에 기초하여 재구성된 잔차들 과 합산되는(66) 렌더링된 우세한 컴포넌트 신호로 구성된다:

전체 무향 바이너럴 출력은 제2 오디오 표현의 예이다. 따라서, 이 단계는 상기 제1 오디오 표현과 상기 보조 신호(들)의 조합으로 구성되는 제2 오디오 표현을 생성하는 것에 대응한다고 할 수 있으며, 여기서 상기 보조 신호(들) 중 하나 이상은 상기 머리 배향 데이터에 응답하여 수정된다.

하나 초과의 우세한 신호에 대한 정보가 수신되는 경우, 각각의 우세한 신호가 렌더링되어 재구성된 잔차 신호에 더해질 수 있다는 것에 추가로 유의해야 한다.

머리 회전 또는 병진운동이 가해지지 않은 한, 출력 신호들 은 (평균-제곱근 에러의 견지에서)

인 한, 기준 바이너럴 신호들 에 매우 가까워야 한다.

핵심 특성들

위의 방정식 공식화로부터 관측될 수 있는 바와 같이, 스테레오 프레젠테이션으로부터 무향 바이너럴 프레젠테이션을 구성하기 위한 효과적인 연산은 2x2 행렬(70)로 구성되는데, 여기서 행렬 계수들은 전송된 정보 및 머리 추적기 회전 및/또는 병진운동에 종속적이다. 이는, 우세한 컴포넌트의 분석이 디코더 대신 인코더에 적용되기 때문에, 프로세스의 복잡성이 상대적으로 낮음을 나타낸다.

우세한 컴포넌트가 추정되지 않는 경우(예를 들어, ), 기술되는 해법은 파라메트릭 바이너럴 방법과 등가이다.

머리 회전/머리 추적으로부터 특정 오브젝트들을 배제하려는 요구가 존재하는 경우, 이들 오브젝트는 (1) 우세한 컴포넌트 방향 분석, 및 (2) 우세한 컴포넌트 신호 예측으로부터 배제될 수 있다. 그 결과, 이들 오브젝트는 계수들 을 통해 스테레오로부터 바이너럴로 전환될 것이며, 따라서 임의의 머리 회전 또는 병진운동에 의해 영향을 받지 않을 것이다.

유사한 개념 선에서, 오브젝트들은 '통과' 모드로 설정될 수 있는데, 이는 바이너럴 프레젠테이션에서, 이들이 HRIR 컨볼루션보다는 진폭 패닝을 거칠 것임을 의미한다. 이는 원-탭 HRTF들 대신 단순히 계수들 에 대한 진폭-패닝 이득들 또는 임의의 다른 적절한 바이너럴 프로세싱을 사용함으로써 획득될 수 있다.

확장들

실시예들은, 다른 채널 카운트들도 사용될 수 있기 때문에, 스테레오 다운-믹스들의 사용으로 제한되지 않는다.

도 5를 참조하여 기술된 디코더(60)는 렌더링된 우세한 컴포넌트 방향 플러스 행렬 계수들 에 의해 행렬화되는 입력 신호로 구성되는 출력 신호를 가진다. 후자의 계수들은 다양한 방식들로, 예를 들어 다음과 같이 도출될 수 있다:

1. 계수들 은 신호들 의 파라메트릭 재구성에 의해 인코더에서 결정될 수 있다. 다시 말해, 이 구현예에서, 계수들 은 원래 입력 오브젝트들/채널들을 바이너럴 방식으로 렌더링할 때 획득되었을 바이너럴 신호들 의 충실한 재구성을 목표로 하는데; 다시 말해, 계수들 은 콘텐츠에 의해 만들어진다(content driven).

2. 계수들 은 고정된 공간 위치들에 대해, 예를 들어, +/- 45도의 방위각들에서 HRTF들을 표현하기 위해 인코더로부터 디코더로 송신될 수 있다. 다시 말해, 잔차 신호는 특정 위치들에서 2개의 가상 라우드스피커를 통한 재생을 시뮬레이트하도록 프로세싱된다. HRTF들을 표현하는 이들 계수들이 인코더로부터 디코더로 전송됨에 따라, 가상 스피커들의 위치들은 시간 및 주파수 상에서 변경할 수 있다. 이 접근법이 정적 가상 스피커들을 사용하여 잔차 신호를 표현하도록 사용되는 경우, 계수들 은 인코더로부터 디코더로의 전송을 필요로 하지 않으며, 대신, 디코더에서 하드배선될 수 있다. 이러한 접근법의 변형은 디코더에서 이용가능한 제한된 세트의 정적 위치들로 구성될 것이며, 그들의 대응하는 계수들은 이고, 어느 정적 위치가 잔차 신호를 프로세싱하기 위해 사용되는지에 대한 선택이 인코더로부터 디코더로 시그널링된다.

신호들 은, 결과적인 업-믹스된 신호들의 바이너럴 렌더링에 선행하여, 디코더에서 이들 신호들의 통계적 분석에 의해 2개 초과의 신호들을 재구성하는, 소위 업-믹서를 거칠 수 있다.

기술된 방법들은 전송되는 신호 Z가 바이너럴 신호인 시스템에도 적용될 수 있다. 그런 특별한 경우, 도 5의 디코더(60)는 그대로 유지되는 반면, 도 4에서 '스테레오(LoRo) 믹스를 생성함'으로 라벨링된 블록(44)은 신호 쌍 Y을 생성하는 블록과 동일한 '무향 바이너럴 믹스를 생성함'(43)(도 4)으로 대체되어야 한다. 추가로, 다른 형태들의 믹스들이 요건들에 따라 생성될 수 있다.

이 접근법은 오브젝트들 또는 채널들의 특정 서브세트로 구성되는 전송된 스테레오 믹스로부터 하나 이상의 FDN 입력 신호(들)를 재구성하는 방법들로 확장될 수 있다.

본 접근법은 다수의 우세한 컴포넌트들이 전송된 스테레오 믹스로부터 예측되는 것, 및 디코더 측에서 렌더링되는 것으로 확장될 수 있다. 각각의 시간/주파수 타일에 대한 하나의 우세한 컴포넌트만을 예측하는 것에 대한 기본적인 제한은 존재하지 않는다. 특히, 우세한 컴포넌트들의 개수는 각각의 시간/주파수 타일에서 상이할 수 있다.

해석

이 명세서 전반에 걸친 "일 실시예", "일부 실시예들" 또는 "실시예"에 대한 참조는 실시예와 관련하여 기술되는 특별한 피처, 구조 또는 특징이 본 발명의 적어도 하나의 실시예에 포함되는 것을 의미한다. 따라서, 이 명세서 전반의 여러 곳들에서의 구문들 "일 실시예에서", "일부 실시예들에서" 또는 "실시예에서"의 출현들은 반드시 모두 동일한 실시예를 참조하지는 않지만, 그럴 수도 있다. 또한, 특별한 피처들, 구조들 또는 특징들은, 하나 이상의 실시예들에서, 이 개시내용으로부터 본 기술분야의 통상의 기술자에게 명백할 바와 같이, 임의의 적절한 방식으로 조합될 수 있다.

본원에서 사용되는 바와 같이, 다른 방식으로 특정되지 않는 한, 공통적인 오브젝트를 기술하기 위한, 서수 형용사들 "제1", "제2", "제3" 등의 사용은 단순히, 유사한 오브젝트들의 상이한 인스턴스들이 지칭됨을 나타내며, 그렇게 기술되는 오브젝트들이 시간상으로, 공간상으로, 순위에 있어서, 또는 임의의 다른 방식으로, 반드시 주어진 시퀀스이어야 함을 내포하도록 의도되지는 않는다.

하기의 청구항들 및 본원의 기재에서, 용어들 포함하는(comprising), 구성되는(comprised of) 또는 포함한다(which comprises) 중 임의의 하나는 적어도 후속하는 엘리먼트들/특징들을 포함하지만, 다른 것들을 배제하지 않는 것을 의미하는 개방 용어이다. 따라서, 포함하는이란 용어는, 청구항에서 사용될 때, 그 다음에 열거되는 수단 또는 엘리먼트들 또는 단계들로 제한되는 것으로서 해석되지 않아야 한다. 예를 들어, 표현 A 및 B를 포함하는 디바이스의 범위는 엘리먼트들 A 및 B만으로 구성되는 디바이스들로 제한되지 않아야 한다. 본원에 사용되는 바와 같은 용어들 포함하는(including) 또는 포함한다(which includes 또는 that includes) 중 임의의 하나는 또한 적어도 그 용어를 따르는 엘리먼트들/피처들을 포함하지만, 다른 것들을 배제하지 않는 것을 또한 의미하는 개방 용어이다. 따라서, 포함하는(including)은 포함하는(comprising)과 유의어이며, 이를 의미한다.

본원에서 사용되는 바와 같이, 용어 "예시적인"은, 품질을 나타내는 것이 아니라, 예들을 제공하는 의미로 사용된다. 즉, "예시적인 실시예"는, 반드시 예시적인 품질의 실시예인 것이 아니라, 예로서 제공되는 실시예이다.

발명의 예시적인 실시예들의 위 기재에서, 발명의 다양한 피처들은, 개시내용을 개요화하고 다양한 발명 양태들 중 하나 이상의 이해를 보조할 목적으로 단일의 실시예, 도면, 또는 그 기재로 때때로 함께 그룹화된다는 것이 인지되어야 한다. 그러나, 개시내용의 이러한 방법은, 청구되는 발명이 각각의 청구항에 명시적으로 인용되는 것보다 더 많은 피처들을 요구한다는 의도를 반영하는 것으로서 해석되지 않아야 한다. 오히려, 후속하는 청구항들이 반영하는 바와 같이, 발명 양태들은 단일의 이전에 개시된 실시예의 모두보다 더 적은 피처들에 존재한다. 따라서, 상세한 설명에 후속하는 청구항들은 이에 의해 이 상세한 설명에 명시적으로 포함되고, 각각의 청구항은 그 자체로 이 발명의 별도의 실시예로서 존재한다.

또한, 본원에 기술되는 일부 실시예들이 다른 실시예들에 포함된 일부 피처들을 포함하고 다른 피처들을 포함하지 않지만, 본 기술분야의 통상의 기술자에 의해 이해될 바와 같이, 상이한 실시예들의 피처들의 조합들이 발명의 범위 내에 있는 것으로 의도되고, 상이한 실시예들을 형성한다. 예를 들어, 후속하는 실시예들에서, 청구되는 실시예들 중 임의의 것이 임의의 조합으로 사용될 수 있다.

또한, 실시예들 중 일부가 컴퓨터 시스템의 프로세서에 의해 또는 기능을 수행하는 다른 수단에 의해 구현될 수 있는 방법 또는 방법의 엘리먼트들의 조합으로서 본원에 기술된다. 따라서, 이러한 방법 또는 방법의 엘리먼트를 수행하기 위한 필수 명령어들을 가지는 프로세서는 방법 또는 방법의 엘리먼트를 수행하기 위한 수단을 형성한다. 더욱이, 본원에서 장치 실시예로 기술된 엘리먼트는 발명을 수행할 목적으로 엘리먼트에 의해 형성되는 기능을 수행하기 위한 수단의 예이다.

본원에 제공되는 기재에서는, 다수의 특정 상세사항들이 설명된다. 그러나, 발명의 실시예들이 이들 특정 상세사항들 없이도 구현될 수 있다는 것이 이해된다. 다른 경우들에서, 널리-알려진 방법들, 구조들 및 기법들은 이 기재의 이해를 모호하게 하지 않기 위해 상세히 도시되지 않는다.

유사하게, 결합되는이란 용어가, 청구항들에서 사용될 때, 직접 접속들에만 제한되는 것으로서 해석되지 않아야 한다는 것이 주목된다. 용어들 "결합되는" 및 "접속되는"은, 이들의 파생어들과 함께 사용될 수 있다. 이들 용어들이 서로에 대해 유의어로서 의도되지 않는다는 것이 이해되어야 한다. 따라서, 디바이스 B에 결합된 디바이스 A의 표현의 범위는, 디바이스 A의 출력이 디바이스 B의 입력에 직접 접속되는 디바이스들 또는 시스템들로 제한되지 않아야 한다. 그것은, 다른 디바이스들 또는 수단을 포함하는 경로일 수 있는, A의 출력과 B의 입력 사이의 경로가 존재함을 의미한다. "결합되는"은 둘 이상의 엘리먼트가 직접적인 물리적 또는 전기적 접촉을 하거나, 또는 둘 이상의 엘리먼트가 서로 직접적인 접촉을 하지는 않지만 여전히 서로 협력하거나 상호작용함을 의미할 수 있다.

따라서, 발명의 실시예들이 기술되었지만, 본 기술분야의 통상의 기술자는 발명의 사상으로부터 벗어나지 않고 이에 대한 다른 그리고 추가적인 수정들이 이루어질 수 있음을 인지할 것이며, 모든 이러한 변경들 및 수정들을 발명의 범위 내에 드는 것으로서 청구하는 것이 의도된다. 예를 들어, 위에 주어진 임의의 공식들은 사용될 수 있는 절차들을 단지 대표한다. 블록도들로부터 기능성이 추가되거나 삭제될 수 있고, 동작들이 기능 블록들 사이에서 교환될 수 있다. 본 발명의 범위 내에서 기술된 방법들에 대해 단계들이 추가되거나 삭제될 수 있다.

본 발명의 다양한 양태들이 후속하는 열거된 예시적인 실시예(EEES)들로부터 이해될 수 있다:

EEE 1. 플레이백을 위한 채널 또는 오브젝트 기반 입력 오디오를 인코딩하는 방법으로서, 본 방법은:

(a) 채널 또는 오브젝트 기반 입력 오디오를 초기 출력 프레젠테이션으로 초기에 렌더링하는 단계;

(b) 채널 또는 오브젝트 기반 입력 오디오로부터 우세한 오디오 컴포넌트의 추정치를 결정하고, 초기 출력 프레젠테이션을 우세한 오디오 컴포넌트에 매핑하기 위한 일련의 우세한 오디오 컴포넌트 가중 인자들을 결정하는 단계;

(c) 우세한 오디오 컴포넌트 방향 또는 위치의 추정치를 결정하는 단계; 및

(d) 초기 출력 프레젠테이션, 우세한 오디오 컴포넌트 가중 인자들, 우세한 오디오 컴포넌트 방향 또는 위치를 플레이백을 위한 인코딩된 신호로서 인코딩하는 단계

를 포함한다.

EEE 2. EEE 1의 방법은, 잔차 믹스의 추정치가 우세한 오디오 컴포넌트 또는 우세한 오디오 컴포넌트의 추정치 중 어느 하나의 렌더링보다 더 적은 초기 출력 프레젠테이션인 것으로 결정하는 단계를 더 포함한다.

EEE 3. EEE 1의 방법은, 채널 또는 오브젝트 기반 입력 오디오의 무향 바이너럴 믹스를 생성하고, 잔차 믹스의 추정치를 결정하는 단계를 더 포함하고, 잔차 믹스의 추정치는 우세한 오디오 컴포넌트 또는 우세한 오디오 컴포넌트의 추정치 중 어느 하나의 렌더링보다 더 적은 무향 바이너럴 믹스이다.

EEE 4. EEE 2 또는 3의 방법은, 초기 출력 프레젠테이션을 잔차 믹스의 추정치에 매핑하기 위한 일련의 잔차 행렬 계수들을 결정하는 단계를 더 포함한다.

EEE 5. 임의의 이전 EEE의 방법에서, 상기 초기 출력 프레젠테이션은 헤드폰 또는 라우드스피커 프레젠테이션을 포함한다.

EEE 6. 임의의 이전 EEE의 방법에서, 상기 채널 또는 오브젝트 기반 입력 오디오는 시간 및 주파수 타일링되고, 상기 인코딩 단계는 일련의 시간 단계들 및 일련의 주파수 대역들에 대해 반복된다.

EEE 7. 임의의 이전 EEE의 방법에서, 상기 초기 출력 프레젠테이션은 스테레오 스피커 믹스를 포함한다.

EEE 8. 인코딩된 오디오 신호를 디코딩하는 방법으로서, 인코딩된 오디오 신호는:

- 제1 출력 프레젠테이션;

- 우세한 오디오 컴포넌트 방향 및 우세한 오디오 컴포넌트 가중 인자들

을 포함하고, 본 방법은:

(a) 우세한 오디오 컴포넌트 가중 인자들 및 초기 출력 프레젠테이션을 이용하여 추정된 우세한 컴포넌트를 결정하는 단계;

(b) 우세한 오디오 컴포넌트 방향에 따라 의도된 청취자에 대한 공간 위치에서의 바이너럴화를 이용하여 추정된 우세한 컴포넌트를 렌더링하여 렌더링된 바이너럴화된 추정된 우세한 컴포넌트를 형성하는 단계;

(c) 제1 출력 프레젠테이션으로부터 잔차 컴포넌트 추정치를 재구성하는 단계; 및

(d) 렌더링된 바이너럴화된 추정된 우세한 컴포넌트 및 잔차 컴포넌트 추정치를 조합하여 출력 공간화된 오디오 인코딩된 신호를 형성하는 단계

를 포함한다.

EEE 9. EEE 8의 방법에서, 상기 인코딩된 오디오 신호는 잔차 오디오 신호를 표현하는 일련의 잔차 행렬 계수들을 더 포함하고, 상기 단계(c)는:

(c1) 상기 잔차 행렬 계수들을 제1 출력 프레젠테이션에 적용하여 잔차 컴포넌트 추정치를 재구성하는 단계를 더 포함한다.

EEE 10. EEE 8의 방법에서, 잔차 컴포넌트 추정치는 제1 출력 프레젠테이션으로부터 렌더링된 바이너럴화된 추정된 우세한 컴포넌트를 차감함으로써 재구성된다.

EEE 11. EEE 8의 방법에서, 상기 단계(b)는 의도된 청취자의 머리 배향을 나타내는 입력 머리추적 신호에 따른 추정된 우세한 컴포넌트의 초기 회전을 포함한다.

EEE 12. 헤드폰을 사용하는 청취자에 대한 오디오 스트림의 디코딩 및 재생을 위한 방법으로서, 본 방법은:

(a) 제1 오디오 표현 및 추가의 오디오 변환 데이터를 포함하는 데이터 스트림을 수신하는 단계;

(b) 청취자의 배향을 표현하는 머리 배향 데이터를 수신하는 단계;

(c) 상기 제1 오디오 표현 및 수신된 변환 데이터에 기초하여 하나 이상의 보조 신호(들)를 생성하는 단계;

(d) 상기 제1 오디오 표현 및 상기 보조 신호(들)의 조합으로 구성되는 제2 오디오 표현을 생성하는 단계 - 상기 보조 신호(들) 중 하나 이상은 상기 머리 배향 데이터에 응답하여 수정됨 - ; 및

(e) 제2 오디오 표현을 출력 오디오 스트림으로서 출력하는 단계

를 포함한다.

EEE 13. EEE 12에 따른 방법에서, 보조 신호들의 수정은 음원 위치로부터 청취자의 귀까지의 음향 경로의 시뮬레이션으로 구성된다.

EEE 14. EEE 12 또는 13에 따른 방법에서, 상기 변환 데이터는 행렬화 계수들, 및 음원 위치 또는 음원 방향 중 적어도 하나로 구성된다.

EEE 15. EEE들 12 내지 14 중 임의의 EEE에 따른 방법에서, 변환 프로세스는 시간 또는 주파수의 함수로서 적용된다.

EEE 16. EEE들 12 내지 15 중 임의의 EEE에 따른 방법에서, 보조 신호들은 적어도 하나의 우세한 컴포넌트를 표현한다.

EEE 17. EEE들 12 내지 16 중 임의의 EEE에 따른 방법에서, 변환 데이터의 일부로서 수신되는 음원 위치 또는 방향은 머리 배향 데이터에 응답하여 회전된다.

EEE 18. EEE 17에 따른 방법에서, 회전의 최대량은 방위각 또는 고도에서 360도 미만의 값으로 제한된다.

EEE 19. EEE들 12 내지 18 중 임의의 EEE에 따른 방법에서, 2차 표현은 변환 또는 필터뱅크 도메인에서 행렬화에 의해 제1 표현으로부터 획득된다.

EEE 20. EEE들 12 내지 19 중 임의의 EEE에 따른 방법에서, 변환 데이터는 추가의 행렬화 계수들을 더 포함하고, 단계(d)는 제1 오디오 표현과 보조 오디오 신호(들)를 조합하기 이전에, 추가의 행렬화 계수들에 응답하여 제1 오디오 표현을 수정하는 단계를 더 포함한다.

EEE 21. 장치로서, EEE들 1 내지 20 중 임의의 하나의 방법을 수행하도록 구성되는, 하나 이상의 디바이스를 포함한다.

EEE 22. 컴퓨터 판독가능 저장 매체로서, 하나 이상의 프로세서에 의해 실행될 때, 하나 이상의 디바이스로 하여금 EEE들 1 내지 20 중 임의의 하나의 방법을 수행하게 하는 명령어들의 프로그램을 포함한다.

Claims

플레이백을 위한 채널 또는 오브젝트 기반 입력 오디오를 인코딩하는 방법으로서,
(a) 상기 채널 또는 오브젝트 기반 입력 오디오를 초기 출력 프레젠테이션으로 초기에 렌더링하는 단계;
(b) 우세한 오디오 컴포넌트 가중 인자들 및 상기 초기 출력 프레젠테이션을 이용하여 우세한 오디오 컴포넌트의 추정치를 결정할 수 있게 하기 위해, 상기 채널 또는 오브젝트 기반 입력 오디오로부터 우세한 오디오 컴포넌트의 추정치를 결정하고, 상기 초기 출력 프레젠테이션을 상기 우세한 오디오 컴포넌트에 매핑하기 위한 일련의 우세한 오디오 컴포넌트 가중 인자들을 결정하는 단계;
(c) 상기 우세한 오디오 컴포넌트 방향 또는 위치의 추정치를 결정하는 단계; 및
(d) 상기 초기 출력 프레젠테이션, 상기 우세한 오디오 컴포넌트 가중 인자들, 상기 우세한 오디오 컴포넌트 방향 또는 위치를 플레이백을 위한 인코딩된 신호로서 인코딩하는 단계
를 포함하는 방법.
제1항에 있어서,
잔차 믹스(residual mix)의 추정치가 상기 우세한 오디오 컴포넌트 또는 상기 우세한 오디오 컴포넌트의 추정치 중 어느 하나의 렌더링보다 더 적은 상기 초기 출력 프레젠테이션인 것으로 결정하는 단계를 더 포함하는 방법.
제1항에 있어서,
상기 채널 또는 오브젝트 기반 입력 오디오의 무향 바이너럴 믹스(anechoic binaural mix)를 생성하고, 잔차 믹스의 추정치를 결정하는 단계를 더 포함하고, 상기 잔차 믹스의 추정치는 상기 우세한 오디오 컴포넌트 또는 상기 우세한 오디오 컴포넌트의 추정치 중 어느 하나의 렌더링보다 더 적은 상기 무향 바이너럴 믹스인 방법.
제2항 또는 제3항에 있어서,
상기 초기 출력 프레젠테이션을 상기 잔차 믹스의 추정치에 매핑하기 위한 일련의 잔차 행렬 계수들을 결정하는 단계를 더 포함하는 방법.
제1항 내지 제3항 중 어느 한 항에 있어서,
상기 초기 출력 프레젠테이션은 헤드폰 또는 라우드스피커 프레젠테이션을 포함하는 방법.
제1항 내지 제3항 중 어느 한 항에 있어서,
상기 채널 또는 오브젝트 기반 입력 오디오는 시간 및 주파수 타일링되고(tiled), 상기 인코딩 단계는 일련의 시간 단계들 및 일련의 주파수 대역들에 대해 반복되는 방법.
제1항 내지 제3항 중 어느 한 항에 있어서,
상기 초기 출력 프레젠테이션은 스테레오 스피커 믹스를 포함하는 방법.
인코딩된 오디오 신호를 디코딩하는 방법으로서, 상기 인코딩된 오디오 신호는:
- 초기 출력 프레젠테이션;
- 우세한 오디오 컴포넌트 방향 및 우세한 오디오 컴포넌트 가중 인자들
을 포함하고, 상기 방법은:
(a) 상기 우세한 오디오 컴포넌트 가중 인자들 및 초기 출력 프레젠테이션을 이용하여 추정된 우세한 오디오 컴포넌트를 결정하는 단계;
(b) 상기 우세한 오디오 컴포넌트 방향에 따라 의도된 청취자에 대한 공간 위치에서의 바이너럴화(binauralization)를 이용하여 상기 추정된 우세한 오디오 컴포넌트를 렌더링하여 렌더링된 바이너럴화된 추정된 우세한 오디오 컴포넌트를 형성하는 단계;
(c) 상기 초기 출력 프레젠테이션으로부터 잔차 컴포넌트 추정치를 재구성하는 단계; 및
(d) 상기 렌더링된 바이너럴화된 추정된 우세한 오디오 컴포넌트 및 상기 잔차 컴포넌트 추정치를 조합하여 출력 공간화된 오디오 인코딩된 신호를 형성하는 단계
를 포함하는 방법.
제8항에 있어서,
상기 인코딩된 오디오 신호는 잔차 오디오 신호를 표현하는 일련의 잔차 행렬 계수들을 더 포함하고, 상기 단계(c)는:
(c1) 상기 잔차 행렬 계수들을 상기 초기 출력 프레젠테이션에 적용하여 상기 잔차 컴포넌트 추정치를 재구성하는 단계를 더 포함하는 방법.
제8항에 있어서,
상기 잔차 컴포넌트 추정치는 상기 초기 출력 프레젠테이션으로부터 상기 렌더링된 바이너럴화된 추정된 우세한 오디오 컴포넌트를 차감함으로써 재구성되는 방법.
제8항 내지 제10항 중 어느 한 항에 있어서,
상기 단계(b)는 의도된 청취자의 머리 배향을 나타내는 입력 머리추적 신호에 따른 상기 추정된 우세한 오디오 컴포넌트의 초기 회전을 포함하는 방법.
헤드폰을 사용하는 청취자에 대한 오디오 스트림의 디코딩 및 재생을 위한 방법으로서,
(a) 제1 오디오 표현 및 추가의 오디오 변환 데이터를 포함하는 데이터 스트림을 수신하는 단계;
(b) 상기 청취자의 배향을 표현하는 머리 배향 데이터를 수신하는 단계;
(c) 상기 제1 오디오 표현 및 수신된 추가의 오디오 변환 데이터에 기초하여 하나 이상의 보조 신호(들)를 생성하는 단계;
(d) 상기 제1 오디오 표현 및 상기 보조 신호(들)의 조합으로 구성되는 제2 오디오 표현을 생성하는 단계 - 상기 보조 신호(들) 중 하나 이상은 상기 머리 배향 데이터에 응답하여 수정됨 - ; 및
(e) 상기 제2 오디오 표현을 출력 오디오 스트림으로서 출력하는 단계
를 포함하는 방법.
제12항에 있어서,
상기 보조 신호들의 수정은 음원 위치로부터 상기 청취자의 귀까지의 음향 경로의 시뮬레이션으로 구성되는 방법.
제12항 또는 제13항에 있어서,
상기 변환 데이터는 행렬화 계수들, 및 음원 위치 또는 음원 방향 중 적어도 하나로 구성되는 방법.
제12항 또는 제13항 있어서,
상기 하나 이상의 보조 신호(들)를 생성하는 단계 및 상기 제2 오디오 표현을 생성하는 단계는 시간 또는 주파수의 함수로서 적용되는 방법.
제12항 또는 제13항 있어서,
상기 보조 신호들은 적어도 하나의 우세한 오디오 컴포넌트를 표현하는 방법.
제12항 또는 제13항에 있어서,
상기 변환 데이터의 일부로서 수신되는 음원 위치 또는 방향은 상기 머리 배향 데이터에 응답하여 회전되는 방법.
제17항에 있어서,
회전의 최대량은 방위각 또는 고도에서 360도 미만의 값으로 제한되는 방법.
제12항 또는 제13항 있어서,
상기 제2 오디오 표현은 변환 또는 필터뱅크 도메인에서 행렬화에 의해 상기 제1 오디오 표현으로부터 획득되는 방법.
제12항 또는 제13항 있어서,
상기 변환 데이터는 추가의 행렬화 계수들을 더 포함하고, 단계(d)는 상기 제1 오디오 표현과 상기 보조 신호(들)를 조합하기 이전에, 상기 추가의 행렬화 계수들에 응답하여 제1 오디오 프레젠테이션을 수정하는 단계를 더 포함하는 방법.
장치로서,
제1항 내지 제3항, 제8항 내지 제10항, 제12항, 제13항 중 어느 한 항의 방법을 수행하도록 구성된, 하나 이상의 디바이스를 포함하는 장치.
컴퓨터 판독가능 저장 매체로서,
하나 이상의 프로세서에 의해 실행될 때, 하나 이상의 디바이스로 하여금 제1항 내지 제3항, 제8항 내지 제10항, 제12항, 제13항 중 어느 한 항의 방법을 수행하게 하는 명령어들의 프로그램을 포함하는 컴퓨터 판독가능 저장 매체.