KR20210031796A

KR20210031796A - 공간화 오디오를 갖는 가상 현실, 증강 현실 및 혼합 현실 시스템들

Info

Publication number: KR20210031796A
Application number: KR1020217007740A
Authority: KR
Inventors: 그레고리 미카엘 링크
Original assignee: 매직 립, 인코포레이티드
Priority date: 2016-09-14
Filing date: 2017-09-13
Publication date: 2021-03-22
Also published as: US10448189B2; KR102230645B1; EP3513405B1; JP6821795B2; CN109691141B; JP2021073763A; EP3513405A1; EP4254403A2; CA3034916A1; CN109691141A; AU2022201898A1; CN114885274B; KR20190052086A; CN114885274A; AU2017327387B2; IL265214A; EP3513405A4; US20180077513A1; JP7165215B2; US20200008005A1

Abstract

공간화 오디오 시스템은 청취자의 머리 포즈를 검출하기 위한 센서를 포함한다. 시스템은 또한 제1 스테이지 및 제2 스테이지에서 오디오 데이터를 렌더링하기 위한 프로세서를 포함한다. 제1 스테이지는 제1 복수의 소스들에 대응하는 제1 오디오 데이터를 제2 복수의 소스들에 대응하는 제2 오디오 데이터로 렌더링하는 것을 포함한다. 제2 스테이지는, 상기 청취자의 검출된 머리 포즈에 기반하여, 제2 복수의 소스들에 대응하는 제2 오디오 데이터를 제3 복수의 소스들에 대응하는 제3 오디오 데이터로 렌더링하는 것을 포함한다. 제2 복수의 소스들은 제1 복수의 소스들보다 더 적은 소스들로 구성된다.

Description

공간화 오디오를 갖는 가상 현실, 증강 현실 및 혼합 현실 시스템들{VIRTUAL REALITY, AUGMENTED REALITY, AND MIXED REALITY SYSTEMS WITH SPATIALIZED AUDIO}

[0001] 본 개시내용은 공간화 오디오 시스템들을 갖는 가상 현실, 증강 현실 및/또는 혼합 현실 시스템들, 및 이들을 사용하여 공간화 오디오를 포함하는 가상 현실, 증강 현실 및/또는 혼합 현실 경험을 생성하기 위한 방법들에 관한 것이다.

[0002] 현대 컴퓨팅 및 디스플레이 기술들은 소위 "혼합 현실(MR: mixed reality)", "가상 현실(VR: virtual reality)" 및/또는 "증강 현실(AR: augmented reality)" 경험들을 위한 혼합 현실 시스템들의 개발을 가능하게 하였다. 이것은 머리-장착 디스플레이를 통해 사용자에게 컴퓨터-생성 이미저리를 제공함으로써 이루어질 수 있다. 이러한 이미저리는 시뮬레이팅된 환경에서 사용자를 몰입시키는 감지 경험을 생성한다. VR 시나리오는 통상적으로 실제 실세계 시각 입력에 대한 투명성(transparency) 없는 디지털 또는 가상 이미지 정보의 프리젠티이션을 수반할 수 있다.

[0003] AR 시스템은 일반적으로 시뮬레이팅된 엘리먼트들로 실세계 환경을 보충한다. 예컨대, AR 시스템들은 머리-장착 디스플레이를 통해 주변 실세계 환경의 뷰를 사용자에게 제공할 수 있다. 그러나, 컴퓨터-생성 이미저리는 또한 실세계 환경을 향상시키기 위해 디스플레이 상에 제공될 수 있다. 이러한 컴퓨터-생성 이미저리는 실세계 환경에 상황적으로 관련된 엘리먼트들을 포함할 수 있다. 그러한 엘리먼트들은 시뮬레이팅된 텍스트, 이미지들, 오브젝트들 등을 포함할 수 있다. MR 시스템들은 또한 시뮬레이팅된 오브젝트들을 실세계 환경에 도입하지만, 이들 오브젝트들은 통상적으로 AR 시스템들에서보다 더 큰 상호작용 정도를 특징으로 한다. 시뮬레이팅된 엘리먼트들은 종종 실시간으로 상호작용할 수 있다. 사용자 경험을 개선하기 위해 공간화 오디오가 VR/AR/MR 시나리오들에 제공될 수 있다.

[0004] 다양한 광학 시스템들은 VR/AR/MR 시나리오들을 디스플레이하기 위한 다수의 깊이들의 이미지들을 생성할 수 있다. 그러한 일부 광학 시스템들은 2014년 11월 27일에 출원된 미국 특허 출원 일련번호 제14/555,585호(대리인 문서 번호 ML.20011.00) 및 미국 특허 출원 일련번호 제14/738,877호(대리인 문서 번호 ML.20019.00)에 설명되어 있으며, 이들의 내용들은 본원에 인용에 의해 사전에 통합되었다.

[0005] 현재의 공간화 오디오 시스템들은, 가상 오브젝트들을 광학적으로뿐만 아니라 음성학적으로 렌더링하기 위하여 3-D 광학 시스템들, 이를테면, 3-D 시네마, 3-D 비디오 게임들, 및 가상 현실, 증강 현실 및/또는 혼합 현실 시스템들의 3-D 광학 시스템들과 협력할 수 있다. 오브젝트들은, 그들이 3-차원 공간의 개개의 포지션들에 위치된 실제 물리적 오브젝트들이 아니라는 점에서 "가상"이다. 대신에, 가상 오브젝트들은 청중 멤버들의 눈들 및/또는 귀들에 각각 지향되는 광 빔들 및/또는 사운드파들에 의해 자극될 때 뷰어들 및/또는 청취자들의 뇌들(예컨대, 광학 및/또는 청각 중추들)에만 존재한다. 불행하게도, 현재의 공간화 오디오 시스템들의 청취자 포지션 및 배향 요건들은 부적당한 위치에 있는 청취자들에 대해 실현 가능한 방식으로 가상 오브젝트들의 오디오 부분들을 생성하는 시스템들의 능력을 제한한다.

[0006] 현재의 공간화 오디오 시스템들, 이를테면 홈 시어터들 및 비디오 게임들을 위한 시스템들은 "5.1" 및 "7.1" 포맷들을 활용한다. 5.1 공간화 오디오 시스템은 좌측 및 우측 전방 채널들, 좌측 및 우측 후방 채널들, 중심 채널 및 서브우퍼를 포함한다. 7.1 공간화 오디오 시스템은 5.1 오디오 시스템의 채널들 및 의도된 청취자와 정렬된 좌측 및 우측 채널들을 포함한다. 위에 언급된 채널들 각각은 별개의 스피커에 대응한다. 시네마 오디오 시스템들 및 시네마 등급 홈 시어터 시스템들은 의도된 청취자 위로부터 전달되도록 구성된 채널들을 부가하는 DOLBY ATMOS를 포함하며, 이로써 사운드 필드 내의 청취자가 몰입하게 하고, 사운드로 청취자를 둘러싼다.

[0007] 공간화 오디오 시스템들의 개선들에도 불구하고, 현재의 공간화 오디오 시스템들은, 복수의 청취자들의 개개의 위치들 및 배향들은 말할 것도 없고 청취자의 위치 및 배향을 고려할 수 없다. 따라서, 현재의 공간화 오디오 시스템들은 모든 청취자들이 사운드 필드의 중심에 인접하게 포지셔닝되고 시스템의 중심 채널을 향해 배향되며 최적화 성능을 위한 청취자 포지션 및 배향 요건들을 갖는다는 가정 하에 사운드 필드들을 생성한다. 따라서, 전형적인 일-대-다 시스템에서, 공간화 오디오는, 만일 청취자가 예상된 배향의 반대쪽을 향하고 있는 것 같으면, 사운드가 후방들에서 나오는 것처럼 들리도록 그 청취자에게 전달될 수 있다. 그러한 오정렬된 사운드는 감지 및 인지 부조화로 이어지며, 공간화 오디오 경험 및 그와 함께 제공된 임의의 VR/AR/MR 경험을 저하할 수 있다. 심각한 경우들에서, 감지 및 인지 부조화는 사용자들로 하여금 공간화 오디오 경험들 또는 그와 함께 제공된 VR/AR/MR 경험들을 회피하게 하는 것으로 이어질 수 있는 생리적 부작용들, 이를테면 두통들, 구역질, 불편함 등을 유발할 수 있다.

[0008] 유사한 기술 공간에서, 혼합 미디어 시스템들, 이를테면 테마 파크 놀이기구들(즉, DISNEY'S STAR TOURS)에서 발견되는 시스템들은 광들 및 모션과 같은 실생활 특수 효과들을 3-D 영화 및 공간화 오디오에 부가할 수 있다. 3-D 혼합 미디어 시스템들의 사용자들은 통상적으로 3-D 이미저리의 시스템 생성을 가능하게 하는 안경을 착용하도록 요구된다. 이러한 안경은, 통상의 아나글립(anaglyph) 입체 3-D 시스템들에서와 같이, 상이한 편광들 또는 컬러 필터들을 가진 좌측 및 우측 렌즈들을 포함할 수 있다. 3-D 혼합 미디어 시스템은, 입체 안경을 착용한 사용자들이 자신들의 좌측 및 우측 눈에서 약간 상이한 이미지들을 보도록 상이한 편광들 또는 컬러들을 가진 오버랩핑 이미지들을 투사한다. 이들 이미지들의 차이들은 3-D 광학 이미지들을 생성하도록 이용된다. 그러나, 이러한 시스템들은 엄청나게 비싸다. 더욱이, 이러한 혼합 미디어 시스템들은 현재의 공간화 오디오 시스템들의 고유한 사용자 포지션 및 배향 요건들을 해결하지 못한다.

[0009] 이러한 이슈들을 해결하기 위해, 일부 VR/AR/MR 시스템들은 공간화 오디오 시스템에 동작 가능하게 커플링된 머리 장착 스피커들을 포함하여, 스피커들과 사용자/청취자의 귀들 사이의 "알려진" 포지션 및 배향 관계를 사용하여 공간화 오디오가 렌더링될 수 있다. 이러한 VR/AR/MR 시스템들의 다양한 예들은 미국 가특허 출원 일련번호 제62/369,561호에 설명되며, 그 내용들은 본원에 인용에 의해 사전에 통합되었다. 이러한 VR/AR/MR 시스템들이 위에서 설명된 청취자 포지션 이슈를 해결하지만, 시스템들은, 사용자의 빠른 머리 움직임들로 인지 부조화를 발생시킬 수 있는 프로세싱 시간, 지연 및 레이턴시에 관련된 한계들을 여전히 갖는다.

[0010] 예컨대, 일부 VR/AR/MR 시스템은 머리 장착 스피커들을 통해 사용자/청취자에게 공간화 오디오를 전달한다. 따라서, 가상 사운드 소스(예컨대, 새)가 (VR/AR/MR 시스템에 의해 검출될 수 있는) 제1 포즈의 사용자/청취자의 우측에 가상으로 위치되면, VR/AR/MR 시스템은, 사용자/청취자의 우측으로부터 발생하는 것처럼 들리는 가상 사운드 소스에 대응하여 생성된 사운드(예컨대, 처핑(chirping))를 전달할 수 있다. VR/AR/MR 시스템은, 사용자/청취자의 우측 귀에 인접하게 장착된 하나 이상의 스피커들을 통해 사운드 대부분을 전달할 수 있다. 사용자/청취자가 가상 사운드 소스를 향해 자신의 머리를 돌리면, VR/AR/MR 시스템은 제2 포즈를 검출하고, 사용자/청취자 앞에서 발생하는 것처럼 들리는 가상 사운드 소스에 대응하여 생성된 사운드를 전달할 수 있다.

[0011] 그러나, 사용자/청취자가 가상 사운드 소스를 향하여 자신의 머리를 빠르게 돌리면, VR/AR/MR 시스템은 사용자/청취자의 포즈에 기반하여 가상 사운드를 생성하는 시스템 및 방법의 다양한 제한들에 관련된 지연 또는 레이턴시를 경험할 것이다. 예시적인 가상 사운드 생성 방법은, 그 중에서도, (1) 포즈 변화를 검출하는 것, (2) 검출된 포즈 변화를 프로세서에 통신하는 것, (3) 변경된 포즈에 기반하여 새로운 오디오 데이터를 생성하는 것, (4) 새로운 오디오 데이터를 스피커들에 통신하는 것, 및 (5) 새로운 오디오 데이터에 기반하여 가상 사운드를 생성하는 것을 포함한다. 포즈 변화를 검출하는 것과 가상 사운드를 생성하는 것 사이의 이러한 단계들은, 사용자/청취자가 포즈를 빠르게 변경할 때 VR/AR/MR 경험과 연관된 공간화 오디오에서 인지 부조화를 유도할 수 있는 지연 또는 레이턴시를 초래할 수 있다.

[0012] 가상 사운드(예컨대, 처프)가 가상 오브젝트(예컨대, 새)의 이미지와 상이한 위치로부터 발현되는 것처럼 들릴 수 있기 때문에, VR/AR/MR 경험과 연관된 공간화 오디오는 인지 부조화를 보여준다. 그러나, 모든 공간화 오디오 시스템들이 사용자/청취자에 대해 가상 위치들 및 배향들을 갖는 가상 사운드 소스들을 포함하기 때문에, (VR/AR/MR 시스템이 있거나 없는) 모든 공간화 오디오 시스템들은 빠른 포즈 변화의 경우 인지 부조화를 초래할 수 있다. 예컨대, 가상 새가 청취자의 우측에 위치되면, 처프는, 사용자의 머리의 배향, 또는 그 배향이 얼마나 빨리 변하는지에 관계없이 공간의 동일한 지점에서 발현되는 것처럼 보인다.

[0013] 일 실시예에서, 공간화 오디오 시스템은 청취자의 머리 포즈를 검출하기 위한 센서를 포함한다. 시스템은 또한 제1 스테이지 및 제2 스테이지에서 오디오 데이터를 렌더링하기 위한 프로세서를 포함한다. 제1 스테이지는 제1 복수의 소스들에 대응하는 제1 오디오 데이터를 제2 복수의 소스들에 대응하는 제2 오디오 데이터로 렌더링하는 것을 포함한다. 제2 스테이지는, 청취자의 검출된 머리 포즈에 기반하여, 제2 복수의 소스들에 대응하는 제2 오디오 데이터를 제3 복수의 소스들에 대응하는 제3 오디오 데이터로 렌더링하는 것을 포함한다. 제2 복수의 소스들은 제1 복수의 소스들보다 더 적은 소스들로 구성된다.

[0014] 다른 실시예에서, 공간화 오디오 시스템은 제1 시간에서 청취자의 제1 머리 포즈를 검출하고, 제2 시간에서 제2 머리 포즈를 검출하기 위한 센서를 포함하고, 제2 시간은 제1 시간 이후이다. 시스템은 또한 제1 스테이지 및 제2 스테이지에서 오디오 데이터를 렌더링하기 위한 프로세서를 포함한다. 제1 스테이지는, 청취자의 검출된 제1 머리 포즈에 기반하여, 제1 복수의 소스들에 대응하는 제1 오디오 데이터를 제2 복수의 소스들에 대응하는 제2 오디오 데이터로 렌더링하는 것을 포함한다. 제2 스테이지는, 청취자의 검출된 제2 머리 포즈에 기반하여, 제2 복수의 소스들에 대응하는 제2 오디오 데이터를 제3 복수의 소스들에 대응하는 제3 오디오 데이터로 렌더링하는 것을 포함한다. 제2 복수의 소스들은 제1 복수의 소스들보다 더 적은 소스들로 구성된다.

[0015] 또 다른 실시예에서, 공간화 오디오를 렌더링하는 방법은 제1 복수의 소스들에 대응하는 제1 오디오 데이터를 제2 복수의 소스들에 대응하는 제2 오디오 데이터로 렌더링하는 단계를 포함한다. 방법은 또한 청취자의 머리 포즈를 검출하는 단계를 포함한다. 방법은, 청취자의 검출된 머리 포즈에 기반하여, 제2 복수의 소스들에 대응하는 제2 오디오 데이터를 제3 복수의 소스들에 대응하는 제3 오디오 데이터로 렌더링하는 단계를 더 포함한다. 제2 복수의 소스들은 제1 복수의 소스들보다 더 적은 소스들로 구성된다.

[0016] 또 다른 실시예에서, 공간화 오디오를 렌더링하는 방법은 청취자의 제1 머리 포즈를 검출하는 단계를 포함한다. 방법은 또한, 청취자의 검출된 제1 머리 포즈에 기반하여, 제1 복수의 소스들에 대응하는 제1 오디오 데이터를 제2 복수의 소스들에 대응하는 제2 오디오 데이터로 렌더링하는 단계를 포함한다. 방법은 청취자의 제2 머리 포즈를 검출하는 단계를 더 포함한다. 또한, 방법은, 청취자의 검출된 제2 머리 포즈에 기반하여, 제2 복수의 소스들에 대응하는 제2 오디오 데이터를 제3 복수의 소스들에 대응하는 제3 오디오 데이터로 렌더링하는 단계를 포함한다. 제2 복수의 소스들은 제1 복수의 소스들보다 더 적은 소스들로 구성된다.

[0017] 또 다른 실시예에서, 컴퓨터 프로그램 제품은 비-일시적인 컴퓨터 판독 가능 매체에 포함되고, 컴퓨터 판독 가능 매체는 명령들의 시퀀스를 저장하고, 명령들의 시퀀스는, 프로세서에 의해 실행될 때, 프로세서로 하여금 공간화 오디오를 렌더링하기 위한 방법을 실행하게 한다. 방법은 제1 복수의 소스들에 대응하는 제1 오디오 데이터를 제2 복수의 소스들에 대응하는 제2 오디오 데이터로 렌더링하는 단계를 포함한다. 방법은 또한 청취자의 머리 포즈를 검출하는 단계를 포함한다. 방법은, 청취자의 검출된 머리 포즈에 기반하여, 제2 복수의 소스들에 대응하는 제2 오디오 데이터를 제3 복수의 소스들에 대응하는 제3 오디오 데이터로 렌더링하는 단계를 더 포함한다. 제2 복수의 소스들은 제1 복수의 소스들보다 더 적은 소스들로 구성된다.

[0018] 또 다른 실시예에서, 컴퓨터 프로그램 제품은 비-일시적인 컴퓨터 판독 가능 매체에 포함되고, 컴퓨터 판독 가능 매체는 명령들의 시퀀스를 저장하고, 명령들의 시퀀스는, 프로세서에 의해 실행될 때, 프로세서로 하여금 공간화 오디오를 렌더링하기 위한 방법을 실행하게 한다. 방법은 청취자의 제1 머리 포즈를 검출하는 단계를 포함한다. 방법은 또한, 청취자의 검출된 제1 머리 포즈에 기반하여, 제1 복수의 소스들에 대응하는 제1 오디오 데이터를 제2 복수의 소스들에 대응하는 제2 오디오 데이터로 렌더링하는 단계를 포함한다. 방법은 청취자의 제2 머리 포즈를 검출하는 단계를 더 포함한다. 또한, 방법은, 청취자의 검출된 제2 머리 포즈에 기반하여, 제2 복수의 소스들에 대응하는 제2 오디오 데이터를 제3 복수의 소스들에 대응하는 제3 오디오 데이터로 렌더링하는 단계를 포함한다. 제2 복수의 소스들은 제1 복수의 소스들보다 더 적은 소스들로 구성된다.

[0019] 하나 이상의 실시예들에서, 센서는 관성 측정 유닛이다. 제1 및/또는 제2 복수의 소스들은 가상 사운드 소스들일 수 있다. 센서는, 제1 스테이지 후에 그리고 제2 스테이지 전에 청취자의 머리 포즈를 검출할 수 있다. 센서는 제2 스테이지 직전에 청취자의 머리 포즈를 검출할 수 있다.

[0020] 하나 이상의 실시예들에서, 제3 복수의 소스들은 제2 복수의 소스들보다 더 적은 소스들 또는 제2 복수의 소스들과 동일한 수의 소스들로 구성된다. 제1 오디오 데이터는 완전한 오디오 스트림 데이터 세트이다. 제2 복수의 소스들은 8개 이하의 소스들로 구성될 수 있다.

[0021] 하나 이상의 실시예들에서, 제1, 제2 및/또는 제3 복수의 소스들 각각은 상이한 포지션/배향에 대응한다. 제1 복수의 소스들은 제1 복수의 포지션들에 대응할 수 있다. 제2 복수의 소스들은 제2 복수의 포지션들에 대응할 수 있고, 제2 복수의 포지션들 각각은 제1 복수의 포지션들 각각보다 청취자에 더 가까울 수 있다. 제2 복수의 포지션들은 단일 평면에 위치되지 않을 수 있다.

[0022] 하나 이상의 실시예들에서, 시스템은 또한 제3 오디오 데이터에 기반하여 사운드를 생성하기 위해, 제3 복수의 소스들에 대응하는 복수의 스피커들을 포함한다. 제3 복수의 소스들 각각은 상이한 포지션에 대응할 수 있고, 복수의 스피커들 각각은 개개의 상이한 포지션에서의 제3 복수의 소스들의 개개의 소스에 대응할 수 있다.

[0023] 하나 이상의 실시예들에서, 제2 스테이지는, 청취자의 검출된 머리 포즈 및 제2 복수의 소스들의 개개의 포지션들/배향들에 기반하여, 제2 복수의 소스들에 대응하는 제2 오디오 데이터를 제3 복수의 소스들에 대응하는 제3 오디오 데이터로 렌더링하는 것을 포함할 수 있다. 제2 스테이지는 청취자의 병진운동(translation)보다 회전에 더 민감할 수 있다. 제2 스테이지는 회전-전용 오디오 변환일 수 있다. 제2 복수의 소스들 각각은 청취자의 머리로부터 약 6 인치 내지 약 12 인치 내에 위치될 수 있다.

[0024] 하나 이상의 실시예들에서, 센서는 제1 스테이지 전에 청취자의 제1 머리 포즈를 검출한다. 센서는, 제1 스테이지 후에 그리고 제2 스테이지 전에 청취자의 제2 머리 포즈를 검출할 수 있다. 센서는 제2 스테이지 직전에 청취자의 제2 머리 포즈를 검출할 수 있다.

[0025] 하나 이상의 실시예들에서, 제2 스테이지는, 청취자의 검출된 제2 머리 포즈 및 제2 복수의 소스들의 개개의 포지션들/배향들에 기반하여, 제2 복수의 소스들에 대응하는 제2 오디오 데이터를 제3 복수의 소스들에 대응하는 제3 오디오 데이터로 렌더링하는 것을 포함한다.

[0026] 하나 이상의 실시예들에서, 방법은 또한 제1 오디오 데이터를 렌더링한 후에 그리고 제2 오디오 데이터를 렌더링하기 전에, 청취자의 머리 포즈를 검출하는 단계를 포함한다. 방법은 또한 제2 오디오 데이터를 렌더링하기 직전에, 청취자의 머리 포즈를 검출하는 단계를 포함할 수 있다. 방법은 또한 제3 오디오 데이터에 기반하여, 제3 복수의 소스들에 대응하는 복수의 스피커들을 통해 사운드를 생성하는 단계를 포함할 수 있다. 방법은 또한 청취자의 검출된 머리 포즈 및 제2 복수의 소스들의 개개의 포지션들/배향들에 기반하여, 제2 복수의 소스들에 대응하는 제2 오디오 데이터를 제3 복수의 소스들에 대응하는 제3 오디오 데이터로 렌더링하는 단계를 포함할 수 있다.

[0027] 하나 이상의 실시예들에서, 제2 복수의 소스들에 대응하는 제2 오디오 데이터를 제3 복수의 소스들에 대응하는 제3 오디오 데이터로 렌더링하는 단계는 청취자의 병진운동보다 회전에 더 민감하다. 제2 복수의 소스들에 대응하는 제2 오디오 데이터를 제3 복수의 소스들에 대응하는 제3 오디오 데이터로 렌더링하는 단계는 회전-전용 오디오 변환일 수 있다.

[0028] 하나 이상의 실시예들에서, 방법은 또한 제1 오디오 데이터를 렌더링하기 전에, 청취자의 제1 머리 포즈를 검출하는 단계를 포함한다. 방법은 또한 제1 오디오 데이터를 렌더링한 후에 그리고 제2 오디오 데이터를 렌더링하기 전에, 청취자의 제2 머리 포즈를 검출하는 단계를 포함할 수 있다. 방법은 또한 제2 오디오 데이터를 렌더링하기 직전에, 청취자의 제2 머리 포즈를 검출하는 단계를 포함할 수 있다.

[0029] 하나 이상의 실시예들에서, 방법은 또한 청취자의 검출된 제2 머리 포즈 및 제2 복수의 소스들의 개개의 포지션들/배향들에 기반하여, 제2 복수의 소스들에 대응하는 제2 오디오 데이터를 제3 복수의 소스들에 대응하는 제3 오디오 데이터로 렌더링하는 단계를 포함한다.

[0030] 도면들은 본 발명의 다양한 실시예들의 설계 및 유용성을 예시한다. 도면들은 실척대로 도시된 것이 아니며, 유사한 구조들 또는 기능들의 엘리먼트들은 도면들 전반에 걸쳐 동일한 참조 번호들로 표현된다는 것이 주목되어야 한다. 본 발명의 다양한 실시예들의 위에서-언급된 및 다른 장점들 및 목적들을 획득하기 위한 방식을 더 잘 인지하기 위해, 위에서 간략하게 설명된 본 발명들의 더 상세한 설명이 본 발명의 특정 실시예들을 참조하여 제공될 것이고, 그 특정 실시예들은 첨부 도면들에서 예시된다. 이러한 도면들이 본 발명의 단지 전형적인 실시예들만을 묘사하고 그에 따라 본 발명의 범위를 제한하는 것으로 간주되지 않아야 한다는 것이 이해되면서, 본 발명은 첨부 도면들의 사용을 통해 부가적인 특성 및 세부사항과 함께 기술 및 설명될 것이다.
[0031] 도 1은 일 실시예에 따른, 웨어러블 AR/MR 사용자 디바이스를 통한 증강 현실/혼합 현실의 사용자의 뷰를 도시한다.
[0032] 도 2는 사용자/청취자의 머리에 착용되는, 일 실시예에 따른 공간화 오디오 시스템의 개략적인 평면도이다.
[0033] 도 3은, 도 2에 도시된 바와 같이 사용자/청취자의 머리에 착용된 공간화 오디오 시스템의 개략적인 배면도이다.
[0034] 도 4는, 도 2에 도시된 바와 같이 사용자/청취자의 머리에 착용되는 공간화 오디오 시스템의 더욱 상세한 개략적인 평면도이다.
[0035] 도 5 내지 8은 다양한 실시예에 따른, 사용자/청취자의 머리에 착용된 공간화 오디오 시스템들의 부분 사시도들 및 부분 개략도들이다.
[0036] 도 9는 일 실시예에 따른 포즈-민감 공간화 오디오 시스템의 상세한 개략도이다.
[0037] 도 10은 실제의 물리적 오디오 소스에 의해 생성된 공간화 사운드 필드의 개략도이다.
[0038] 도 11은 일 실시예에 따른, 다양한 가상 사운드 소스들 및 가상 오브젝트를 포함하는 공간화 오디오 경험의 개략적인 배면도이다.
[0039] 도 12는, 도 11에 도시된 공간화 오디오 경험의 개략적인 측면도이다.
[0040] 도 13 및 14는 일 실시예에 따른 포즈-민감 공간화 오디오 경험을 수신하는 사용자/청취자의 평면도들이고, 도 13에서, 사용자/청취자는 전방을 향하는 반면에, 도 14에서, 사용자/청취자는 좌측을 향한다.
[0041] 도 15 및 17은 2개의 실시예들에 따른 공간화 오디오 시스템을 활용하는, 늦은 프레임 시간 와핑, 포즈-민감 오디오 프로세싱(late-frame time warp, pose-sensitive audio processing)의 방법들을 도시하는 흐름도들이다.
[0042] 도 16은 일 실시예에 따른 늦은 프레임 시간 와핑 오디오 프로세싱을 개략적으로 도시한다.

[0043] 본 발명의 다양한 실시예들은 단일 실시예 또는 다수의 실시예들에서 공간화 오디오 시스템들을 위한 시스템들, 방법들 및 제조 물품들에 관한 것이다. 본 발명의 다른 목적들, 특징들 및 장점들은 상세한 설명, 도면들 및 청구항들에서 설명된다.

[0044] 당업자들이 본 발명을 실시하는 것을 가능하게 하도록 본 발명의 예시적인 예들로서 제공되는 도면들을 참조하여 다양한 실시예들이 이제 상세하게 설명될 것이다. 특히, 이하의 도면들 및 예들은 본 발명의 범위를 제한하는 것으로 의도되지 않는다. 본 발명의 소정의 엘리먼트들이 알려진 컴포넌트들(또는 방법들 또는 프로세스들)을 사용하여 부분적으로 또는 완전히 구현될 수 있는 경우, 본 발명의 이해에 필수적인 그러한 알려진 컴포넌트들(또는 방법들 또는 프로세스들)의 그들 부분들만이 설명될 것이며, 그러한 알려진 컴포넌트들(또는 방법들 또는 프로세스들)의 다른 부분들의 상세한 설명들은 본 발명을 불명료하게 하지 않기 위해 생략될 것이다. 또한, 다양한 실시예들은 예시로서 본원에서 언급된 컴포넌트들에 대한 현재 알려진 등가물들 및 미래에 알려질 등가물들을 포함한다.

[0045] 공간화 오디오 시스템들은 AR/MR 시스템들과 독립적으로 구현될 수 있지만, 이하의 다수의 실시예들은 단지 예시 목적들을 위해 AR/MR 시스템들과 관련하여 설명된다. 추가로, 본원에 설명된 공간화 오디오 시스템들은 또한 VR 시스템들과 동일한 방식으로 사용될 수 있다.

문제점들 및 솔루션들의 요약

[0046] 공간화 오디오 시스템들, 이를테면, 2-D/3-D 시네마 시스템들, 2-D/3-D 비디오 게임들 및 VR/AR/MR 시스템들과 함께 사용되거나 이들의 부분들을 형성하기 위한 것들은 실세계, 물리적 3-D 공간에서 가상 위치들을 갖는 가상 오브젝트들에 대응하는 공간화 오디오를 렌더링, 제공 및 방출한다. 본 출원에 사용된 바와 같이, 오디오 또는 사운드를 "방출하는 것", "생성하는 것" 또는 "제공하는 것"은 사운드(이음속(sub-sonic) 저주파수 사운드파들을 포함함)로서 인간의 청각 시스템에 의해 지각될 수 있는 사운드파들의 형성을 유발하는 것을 포함하지만 이에 제한되지 않는다. 이러한 가상 위치들은 통상적으로, 좌표계(예컨대, 공간화 오디오 시스템에 대한 알려진 배향 및 원점에서의 공간화 오디오 시스템에 대한 좌표계)를 사용하여 공간화 오디오 시스템에 "알려진다"(즉 이에 기록됨). 가상 오브젝트들과 연관된 가상 오디오 소스들은 콘텐츠, 포지션 및 배향을 갖는다. 가상 오디오 소스들의 다른 특징은, 청취자로부터의 거리의 제곱으로서 떨어지는(full off) 볼륨이다. 그러나, 현재의 공간화 오디오 시스템들(예컨대, 5.1 공간화 오디오 시스템들, 7.1 공간화 오디오 시스템들, 시네마 오디오 시스템들 및 심지어 일부 머리-착용 오디오 시스템들)은 모두 공간화 오디오 시스템들이 현실적 공간화 오디오를 생성할 수 있는 청취자들의 수 및 특징들을 제한하는 청취자 포지션 및 배향 제약들을 갖는다.

[0047] 본원에서 설명된 일부 실시예들에 따른 머리-착용 공간화 오디오 시스템들은, 다양한 가상 오브젝트들과 연관된 오디오가 개개의 가상 오브젝트들에 대응하는 가상 포지션들로부터 발생하는 것처럼 들리도록 공간화 오디오를 보다 정확하게 렌더링하기 위해 사용자/청취자의 포즈(예컨대, 포지션 및 배향)를 추적한다. 또한, 본원에서 설명된 일부 실시예들에 따른 시스템들은, 다양한 가상 오브젝트들과 연관된 방향성 오디오가 개개의 가상 오브젝트들에 적합한 가상 방향들에서 (예컨대, 가상 캐릭터의 머리 후방으로부터가 아니라 가상 캐릭터의 입으로부터) 전파되는 것으로 나타나도록 공간화 오디오를 보다 정확하게 렌더링하기 위해 사용자/청취자의 머리 포즈를 추적한다. 더욱이, 본원에서 설명된 일부 실시예들에 따른 시스템들은, 다양한 가상 오브젝트들과 연관된 오디오가 실제 물리적 및 가상 오브젝트들로부터 적합하게 반사되는 것처럼 들리도록 공간화 오디오의 그들의 렌더링에서 다른 실제 물리적 및 가상 오브젝트들을 포함한다.

[0048] 그러나, 포즈 추적 기반의 오디오 렌더링을 포함하는 머리-착용 공간화 오디오 시스템들조차도, 포즈 변화를 검출하는 것과 그와 연관된 가상 사운드의 제공 사이의 시스템 지연 및 레이턴시에 영향을 받기 쉽다. 이러한 시스템 지연 및 레이턴시는 가상 사운드 소스의 가상 포지션과 가상 사운드 소스에 대응하는 가상 사운드의 실제 포지션 사이의 인지 부조화를 유발할 수 있다. 시스템 지연 및 레이턴시는 특히, 인지 부조화의 크기/정도를 증가시킬 수 있는 빠른 포즈 변화들(예컨대, 빠른 머리 움직임들)에서 문제가 된다.

[0049] 본원에 설명된 공간화 오디오 시스템은 2 스테이지 오디오 데이터 렌더링 프로세스를 수행한다. 제1 스테이지에서, 시스템은 제1 복수의 소스들에 대응하는 제1 오디오 데이터를 제2 복수의 소스들에 대응하는 제2 오디오 데이터로 렌더링한다. 제1 스테이지는 머리 포즈 추정치를 고려할 수 있다. 제2 복수의 소스들은 제1 복수의 소스들과 비교하여 더 적은 소스들을 갖고, 이로써 오디오 데이터를 간소화한다. 제2 스테이지에서, 시스템은 제2 오디오 데이터를 제3 복수의 소스들(예컨대, 시스템 스피커들)에 대응하는 제3 오디오 데이터로 렌더링한다. 제2 스테이지는 제3 오디오 데이터를 더 정확하게 렌더링하기 위해 사용자/청취자의 가장 최근에 이용 가능한 머리 포즈 추정치를 고려한다. 제1 스테이지의 이전 프로세싱은 제3 오디오 데이터를 렌더링하는 데 요구된 프로세서 사이클들 및 시간을 감소시켰다. 따라서, 오디오 프로세싱을 2개의 스테이지들로 분할하고, 제2의 나중의 더 간단한 스테이지에서 더 최신의 머리 포즈를 고려하는 것은 머리 포즈를 추정하는 것과 그에 기반한 가상 사운드의 제공 사이의 시스템 지연 및 레이턴시를 감소시킨다.

공간화 오디오 시스템들

[0050] AR/MR 시나리오들은 종종, 실세계 오브젝트들에 대한 관계들에서 가상 오브젝트들에 대응하는 이미지들 및 사운드의 제공을 포함한다. 예컨대, 도 1을 참조하면, 증강 현실 장면(100)이 묘사되며, 여기서 AR/ MR 기술의 사용자는 배경에 있는 사람들, 나무들, 빌딩들, 및 실세계의 물리적 콘크리트 플랫폼(104)을 특징으로 하는 실세계의 물리적 공원형 세팅(102)을 본다. 이들 아이템들 외에도, AR/MR 기술의 사용자는 또한, 그가 실세계의 물리적 플랫폼(104) 상에 서있는 가상 로봇 동상(106), 및 호박벌의 의인화인 것으로 보여지는 날고 있는 가상 만화형 아바타 캐릭터(108)를 보는 것을 지각하는데, 심지어 이들 가상 오브젝트들(106, 108)은 실세계에 존재하지 않는다.

[0051] 믿을 수 있거나 통과 가능한 AR/MR 장면(100)을 제공하기 위해, 가상 오브젝트들(예컨대, 로봇 동상(106) 및 호박벌(108))은 그것들과 각각 연관된 동기화되는 공간화 오디오를 가질 수 있다. 예컨대, 로봇 동상(106)과 연관된 기계식 사운드들은, 이들이 로봇 동상(106)에 대응하는 가상 위치로부터 발현되는 것처럼 들리도록 생성될 수 있다. 유사하게, 호박벌(108)과 연관된 윙윙거리는 사운드는, 이들이 호박벌(108)에 대응하는 가상 위치로부터 발현되는 것처럼 들리도록 생성될 수 있다.

[0052] 공간화 오디오는 포지션 외에도, 배향을 가질 수 있다. 예컨대, 호박벌(108)과 연관된 "만화형" 음성은 호박벌(108)의 입(110)으로부터 발현되는 것처럼 들릴 수 있다. 호박벌(108)이 도 1에 묘사된 시나리오에서 시청자/청취자를 향하고 있지만, 호박벌(108)은 시청자/청취자가 가상 호박벌(108) 뒤에서 이동한 시나리오와 같은 다른 시나리오에서 시청자/청취자를 등질 수 있다. 이 경우에, 호박벌(108)의 음성은 시나리오 내의 다른 오브젝트들(예컨대, 로봇 동상(106))로부터의 반사된 사운드로서 렌더링될 것이다.

[0053] 일부 실시예들에서, 가상 사운드는, 그것이 실제 물리적 오브젝트로부터 발현되는 것처럼 들리도록 생성될 수 있다. 예컨대, 가상 새(bird) 사운드는, 그것이 AR/MR 장면(100)의 실제 나무들로부터 발생하는 것처럼 들리도록 생성될 수 있다. 유사하게, 가상 스피치는, 그것이 AR/MR 장면(100)의 실제 사람들로부터 발생하는 것처럼 들리도록 생성될 수 있다. AR/MR 컨퍼런스에서, 가상 스피치는, 그것이 실제 사람의 입으로부터 발현되는 것처럼 들리도록 생성될 수 있다. 가상 스피치는 실제 사람의 음성 또는 완전히 상이한 음성처럼 사운딩될 수 있다. 일 실시예에서, 가상 스피치는 청취자 주위의 복수의 사운드 소스들로부터 동시에 발현되는 것처럼 들릴 수 있다. 다른 실시예에서, 가상 스피치는 청취자의 신체 내부로부터 발현되는 것처럼 들릴 수 있다.

[0054] 유사한 방식으로, VR 시나리오들은 또한, 음향심리학 효과들을 최소화하면서, 보다 정확하고 덜 거슬리는 공간화 오디오 생성 및 전달의 이익을 누릴 수 있다. AR/MR 시나리오들과 유사하게, VR 시나리오들은 또한 공간화 오디오를 렌더링하는 하나 이상의 이동하는 시청자/청취자 유닛들을 고려해야 한다. 포지션, 배향 및 볼륨의 관점에서 공간화 오디오를 정확하게 렌더링하는 것은 VR 시나리오들의 몰입감을 개선하거나, 또는 VR 시나리오들을 적어도 손상시키지 않을 수 있다.

[0055] 도 2는 청취자의 머리(200)에 착용된 공간화 오디오 시스템(202)을 청취자의 머리(200) 위로부터의 평면도로 개략적으로 묘사한다. 도 2에 도시된 바와 같이, 공간화 오디오 시스템(202)은 프레임(204) 및 프레임(204)에 부착된 4개의 스피커들(206-1, 206-2, 206-3, 206-4)을 포함한다. 공간화 오디오 시스템(202)이 청취자의 머리(200)에 착용될 때, 스피커(206-1)가 청취자의 머리(200)의 전방(F) 좌측(L)에 있도록, 스피커(206-1)가 프레임(204)에 부착된다. 공간화 오디오 시스템(202)이 청취자의 머리(200)에 착용될 때, 스피커(206-2)가 청취자의 머리(200)의 전방(F) 우측(R)에 있도록, 스피커(206-2)가 프레임(204)에 부착된다. 공간화 오디오 시스템(202)이 청취자의 머리(200)에 착용될 때, 스피커(206-3)가 청취자의 머리(200)의 후방(B) 좌측(L)에 있도록, 스피커(206-3)가 프레임(204)에 부착된다. 공간화 오디오 시스템(202)이 청취자의 머리(200)에 착용될 때, 스피커(206-4)가 청취자의 머리(200)의 후방(B) 우측(R)에 있도록, 스피커(206-4)가 프레임(204)에 부착된다. 스피커들(206-1, 206-2, 206-3, 206-4) 모두는 청취자의 머리(200)쪽으로 향한다. 도 2에 묘사된 공간화 오디오 시스템 스피커 배치는 공간화 오디오의 생성을 가능하게 한다.

[0056] 본 출원에 사용된 바와 같이, "스피커"는, 전형적인 인간 청취 범위 외부의 사운드를 포함하는 사운드를 생성하는 임의의 디바이스를 포함하지만, 이에 제한되지 않는다. 사운드가 기본적으로 공기 분자들의 움직임이기 때문에, 사운드를 생성하기 위해 많은 상이한 타입들의 스피커들이 사용될 수 있다. 도 2에 묘사된 스피커들(206-1, 206-2, 206-3, 206-4) 중 하나 이상은, 사운드를 생성하기 위해 표면을 진동시키는 진동 트랜스듀서 또는 종래의 전자다이내믹 스피커일 수 있다. 진동 트랜스듀서들을 포함하는 실시예들에서, 트랜스듀서들은, 청취자의 두개골 및 프레임(204)을 포함(그러나 이에 제한되지 않음)하여, 사운드를 생성하기 위해 임의의 표면들을 진동시킬 수 있다. 스피커들(206-1, 206-2, 206-3, 206-4)은, 스피커들(206-1, 206-2, 206-3, 206-4)이 대체 및/또는 업그레이드될 수 있도록 프레임(204)에 제거가능하게 (예컨대, 자기적으로) 부착될 수 있다.

[0057] 도 3은, 청취자의 머리(200) 후방의 배면도로부터 도 2에 묘사된 공간화 오디오 시스템(202)을 개략적으로 묘사한다. 도 3에 도시된 바와 같이, 공간화 오디오 시스템(202)의 프레임(204)은, 공간화 오디오 시스템(202)이 청취자의 머리(200)에 착용될 때, 프레임(204)의 전방이 청취자의 머리(200) 위(A)에 있고, 프레임(204)의 후방은 청취자의 머리(200) 아래(U)에 있도록 구성될 수 있다. 공간화 오디오 시스템(202)의 4개의 스피커들(206-1, 206-2, 206-3, 206-4)이 프레임(204)에 부착되기 때문에, 공간화 오디오 시스템(202)이 청취자의 머리(200)에 착용될 때, 스피커들은 또한 청취자의 머리(200) 위(A)(206-1, 206-2) 및 아래(U)(206-3, 206-4)에 배치된다. 도 3에 묘사된 스피커 배치는 공간화 오디오, 특히, 청취자의 머리(200) 위(A) 및 아래(U)의 평면들에 위치된 가상 오디오 소스들을 포함하는 공간화 오디오의 생성을 가능하게 한다.

[0058] 스피커들(206-1, 206-2, 206-3, 206-4)이 청취자의 머리(200)쪽으로 향한다고 언급되었지만, 도 4에 도시된 바와 같이, 스피커들(206-1, 206-2, 206-3, 206-4)이 청취자의 귀들(208-L, 208-R)쪽으로 향하는 것으로 설명하는 것이 더 정확하다. 도 4는 도 2에 묘사된 평면도와 유사한 평면도이다. 스피커들(206-1, 206-3)은 청취자의 좌측 귀(208-L)쪽으로 향한다. 스피커들(206-2, 206-4)은 청취자의 우측 귀(208-R)쪽으로 향한다. 스피커들(206-1, 206-2, 206-3, 206-4)을 청취자의 귀들(208-L, 208-R)쪽으로 향하게 하는 것은 청취자에 대한 공간화 오디오를 렌더링하는데 필요한 볼륨을 최소화한다. 이는, 결국, 공간화 오디오 시스템(202)으로부터 누설되는(즉, 의도되지 않은 청취자들쪽으로 지향되는) 사운드의 양을 감소시킨다. 각각의 스피커(206-1, 206-2, 206-3, 206-4)는 청취자의 귀들(208-L, 208-R) 중 하나쪽으로 공간화 오디오를 집중시키기 위해 우세하게는 원추형 블룸의 사운드파들(conical bloom of sound waves)을 생성할 수 있다. 프레임(204)은 또한 공간화 오디오를 청취자의 귀들(208-L, 208-R)쪽으로 집중시키도록 구성될 수 있다. 예컨대, 프레임(204)은 공간화 오디오를 지향시키기 위한 음향 도파관을 포함하거나 이를 형성할 수 있다.

[0059] 도 2 내지 4의 시스템(202)이 4개의 스피커들(206-1, 206-2, 206-3, 206-4)을 포함하지만, 다른 공간화 오디오 시스템들은 더 적거나 더 많은 스피커들을 포함할 수 있다. 일 실시예에서, 공간화 오디오 시스템은, 사용자/청취자의 머리에 대해 기울어진 사운드 소스들을 더 정확하고 정밀하게 이미징하기 위해 (사용자/청취자에 대해) Z 축을 따라 적어도 2개의 평면들에서 서로로부터 변위된 6개의 스피커들(및 대응하는 사운드 채널들)을 포함한다.

[0060] 이제 도 5 내지 8을 참조하면, 일부 예시적인 공간화 오디오 시스템 컴포넌트 옵션들이 예시된다. 도 5에 도시된 바와 같이, 복수의 스피커들(206)에 커플링된 프레임(204)을 포함하는 머리-장착 공간화 오디오 시스템(202)은 청취자에 의해 청취자의 머리(200)에 착용된다. 다음은 예시적인 공간화 오디오 시스템(202)의 가능한 컴포넌트들을 설명한다. 설명된 컴포넌트들 모두가 공간화 오디오 시스템(202)을 구현하는 데 필요한 것은 아니다.

[0061] 도 5 내지 8에 도시되지 않지만, 다른 쌍의 스피커들(206)은 공간화 사운드를 제공하기 위해 청취자의 머리(206)의 다른 측 상에서 청취자의 머리(200)에 인접하게 포지셔닝된다. 이로써, 이러한 공간화 오디오 시스템(202)은 도 2 내지 4에 묘사된 시스템들과 같은 총 4개의 스피커들(206)을 포함한다. 도 5, 7 및 8에 묘사된 공간화 오디오 시스템(202)의 스피커들(206)이 개개의 프레임들(204)에 부착되지만, 공간화 오디오 시스템(202)의 스피커들(206) 중 일부 또는 전부는, 도 6에 묘사된 실시예에 도시된 바와 같이, 헬멧 또는 모자(212)에 부착되거나 이에 임베딩될 수 있다.

[0062] 공간화 오디오 시스템(202)의 스피커들(206)은, 다양한 구성들로 장착될 수 있는 로컬 프로세싱 및 데이터 모듈(216)에, 이를테면, 유선 리드 및/또는 무선 연결성(214)에 의해, 동작 가능하게 커플링되는데, 이를테면, 프레임(204)에 고정적으로 부착되거나, 도 6에 묘사된 실시예에 도시된 바와 같이 헬멧 또는 모자(212)에 고정적으로 부착되고/그에 임베딩되거나, 도 7의 실시예에 도시된 바와 같이 백팩-스타일 구성으로 청취자의 몸통(218)에 제거가능하게 부착되거나, 도 8의 실시예에 도시된 바와 같이 벨트-커플링 스타일 구성으로 청취자의 엉덩이(220)에 제거가능하게 부착된다.

[0063] 로컬 프로세싱 및 데이터 모듈(216)은 하나 이상의 전력-효율적 프로세서들 또는 제어기들뿐만 아니라 디지털 메모리, 이를테면, 플래시 메모리를 포함할 수 있고, 이들 둘 모두는 데이터의 프로세싱, 캐싱 및 저장을 보조하는 데 활용될 수 있다. 데이터는 프레임(204)에 동작가능하게 커플링될 수 있는 센서들, 이를테면, 이미지 캡처 디바이스들(이를테면, 가시 광 및 적외선 광 카메라들), 관성 측정 유닛들("IMU")(가속도계들 및/또는 자이로스코프들을 포함함), 컴퍼스들, 마이크로폰들, GPS 유닛들, 및/또는 라디오 디바이스들로부터 캡처될 수 있다. 대안적으로 또는 부가적으로, 데이터는 원격 프로세싱 모듈(222) 및/또는 원격 데이터 저장소(224)를 사용하여 획득 및/또는 프로세싱되어, 가능하게는 그러한 프로세싱 또는 리트리벌(retrieval) 후에 스피커들(206)에 의한 사운드의 생성을 가능하게 하고/지시할 수 있다. 로컬 프로세싱 및 데이터 모듈(216)은, 원격 프로세싱 모듈(222) 및 원격 데이터 저장소(224)가 서로 동작가능하게 커플링되고 로컬 프로세싱 및 데이터 모듈(216)에 대해 자원들로서 이용가능하도록, 이를테면, 유선 또는 무선 통신 링크들(226, 228)을 통해 이들 원격 모듈들(222, 224)에 동작가능하게 커플링될 수 있다.

[0064] 일 실시예에서, 원격 프로세싱 모듈(222)은 오디오 데이터 및/또는 정보를 분석 및 프로세싱하도록 구성된 하나 이상의 비교적 강력한 프로세서들 또는 제어기들을 포함할 수 있다. 일 실시예에서, 원격 데이터 저장소(224)는, "클라우드" 자원 구성에서 인터넷 또는 다른 네트워킹 구성을 통해 이용가능할 수 있는 비교적 대규모 디지털 데이터 저장 설비를 포함할 수 있다. 그러나, 시스템 지연 및 레이턴시를 최소화하기 위해, 가상 사운드 렌더링(특히 검출된 포즈 정보에 기반함)은 로컬 프로세싱 및 데이터 모듈(216)로 제한될 수 있다. 일 실시예에서, 모든 데이터는 저장되며, 모든 컴퓨테이션은 임의의 원격 모듈들로부터 완전히 자율적인 사용을 허용하는 로컬 프로세싱 및 데이터 모듈(216)에서 수행된다.

[0065] 하나 이상의 실시예들에서, 통상적으로, 공간화 오디오 시스템은 특정 청취자의 머리에 맞춰지며, 스피커들은 청취자의 귀들에 정렬된다. 이들 구성 단계들은, 임의의 생리적 부작용들, 이를테면 두통, 구역질, 불편함 등을 유발함 없이, 청취자에게 최적의 공간화 오디오 경험이 제공되는 것을 보장하기 위해 사용될 수 있다. 따라서, 하나 이상의 실시예들에서, 청취자-착용 공간화 오디오 시스템은 각각의 개별 청취자를 위해 (물리적 및 디지털 방식 둘 모두로) 구성되며, 프로그램들의 세트는 청취자를 위해 특별히 조정될 수 있다. 예컨대, 일부 실시예들에서, 청취자 착용 공간화 오디오 시스템은, 청취자의 귀들과 머리 착용 공간화 오디오 시스템의 스피커들 간의 개개의 거리들, 및 청취자의 머리의 3-D 맵핑을 검출하거나 이들을 제공받을 수 있다. 이들 측정들 모두는 정해진 청취자에게 맞춰지도록 맞춤화된 머리-착용 공간화 오디오 시스템을 제공하기 위해 사용될 수 있다. 다른 실시예들에서, 이러한 측정들은 공간화 오디오 기능들을 수행하는 데 필요하지 않을 수 있다. 예컨대, 가상 오디오 소스들의 덜 정확한 공간화가 있을 가능성이 있지만, 정밀하지 않은 맞춤 공간화 오디오 시스템은 다양한 청취자들에 의해 편안하게 사용될 수 있다.

[0066] 공간화 오디오 시스템을 구현할 필요는 없지만, 도 5 내지 8에 도시된 바와 같이, 디스플레이(230)는 (예컨대, 공간화 오디오 경험 이외에 광학 AR/MR 경험을 위해) 프레임(204)에 커플링될 수 있다. 예시적인 AR/MR 디스플레이들은 미국 특허 출원 일련 번호 제14/738,877호(대리인 문서 번호 ML.20019.00) 및 제14/555,585호(대리인 문서 번호 ML.20011.00)에서 설명되었고, 이들의 내용들은 이전에 인용에 의해 본원에 포함되었다. 디스플레이(230)를 포함하는 실시예들에서, 로컬 프로세싱 및 데이터 모듈(216), 원격 프로세싱 모듈(222) 및 원격 데이터 저장소(224)는 공간화 오디오 데이터 외에도 3-D 비디오 데이터를 프로세싱할 수 있다.

[0067] 도 9는 유선 리드 및/또는 무선 연결성(814)을 통해 로컬 프로세싱 및 데이터 모듈(816)에 동작가능하게 커플링되는 복수의 스피커들(806-1, 806-2)을 포함하는, 일 실시예에 따른 포즈-민감 공간화 오디오 시스템(802)을 묘사한다. 포즈-민감 공간화 오디오 시스템(802)은 또한, 유선 리드 및/또는 무선 연결성(814)을 통해 로컬 프로세싱 및 데이터 모듈(816)에 동작가능하게 커플링된 머리 포즈 센서(832)를 포함한다. 머리 포즈 센서(832)는 청취자/사용자의 머리 포즈 데이터를 수집하도록 구성된다. 머리 포즈 센서(832)는 이미지 캡처 디바이스들(이를테면, 가시 광 및 적외선 광 카메라들), 관성 측정 유닛(IMU)들(가속도계들 및 자이로스코프들을 포함함), 컴퍼스들, 마이크로폰들, GPS 유닛들 또는 라디오 디바이스들 중 하나 이상을 포함할 수 있다. 도 9에 묘사된 포즈-민감 공간화 오디오 시스템(802)이 단지 2개의 스피커들(806-1, 806-2)만을 포함하지만, 다른 실시예들에 따른 공간화 오디오 시스템들은 더 많은 스피커들을 포함할 수 있다.

[0068] 포즈-민감 공간화 오디오 시스템(802)은, 적어도 머리 포즈 센서(832)에 의해 수집된 머리 포즈 데이터에 기반하여, 포즈-민감 공간화 오디오 시스템(802)을 착용하고 있는 청취자/사용자의 머리 포즈(예컨대, 포지션 및 배향)를 결정하는 머리 포즈 프로세서(834)를 더 포함한다. 본 출원에서 사용되는 바와 같이, "머리 포즈 프로세서"는 하나 이상의 별개의 그리고 독립적인 소프트웨어, 및/또는 컴퓨터가 머리 포즈를 결정할 수 있기 전에 범용 컴퓨터에 부가되어야 하는 컴퓨터의 하드웨어 컴포넌트들, 및 이들에 부가되는 이러한 컴포넌트들을 갖는 컴퓨터들을 포함(그러나 이에 제한되지 않음)한다.

[0069] 포즈-민감 공간화 오디오 시스템(802)은, 적어도 머리 포즈 프로세서(834)에 의해 결정되는 머리 포즈에 기반하여, 포즈-민감 공간화 오디오 시스템(802)을 착용하고 있는 청취자/사용자에게 전달될 공간화 오디오에 대한 공간화 오디오 데이터를 생성하는 공간화 오디오 프로세서(836)를 더 포함한다. 생성된 공간화 오디오 데이터는 공간화 사운드 필드에서 각각의 가상 오디오 소스에 대한 콘텐츠, 포지션, 배향 및 볼륨 데이터를 포함할 수 있다. 본 출원에서 사용되는 바와 같이, "오디오 프로세서"는, 하나 이상의 별개의 그리고 독립적인 소프트웨어, 및/또는 컴퓨터가 공간화 오디오 데이터를 생성할 수 있기 전에 범용 컴퓨터에 부가되어야 하는 컴퓨터의 하드웨어 컴포넌트들, 및 이들에 부가되는 이러한 컴포넌트들을 갖는 컴퓨터들을 포함하지만 이제 제한되지 않는다. 또한, 공간화 오디오 프로세서(836)는 공간화 오디오를 청취자/사용자에게 전달하기 위해, 공간화 오디오 데이터에 기반하여 복수의 스피커들(806-1, 806-2)에 대한 오디오 신호들을 생성할 수 있다. 도 9에 개략적으로 도시된 포즈-민감 공간화 오디오 시스템(802)은 도 5-8에 도시된 공간화 오디오 시스템들(202)과 유사한 방식으로 컴포넌트들로 분할될 수 있다.

[0070] 도 10은 실제 물리적 오디오 소스(302)에 의해 생성된 공간화 사운드 필드(300)를 묘사한다. 실제 물리적 사운드 소스(302)는 위치 및 배향을 갖는다. 실제 물리적 사운드 소스(302)는 많은 부분들을 갖는 사운드파를 생성한다. 청취자의 머리(200)에 대한 실제 물리적 사운드 소스(302)의 위치 및 배향으로 인해, 사운드파의 제1 부분(306)은 청취자의 좌측 귀(208-L)로 지향된다. 사운드파의 제2 부분(306')은 청취자의 머리(200)로부터 멀어지게 그리고 공간화 사운드 필드(300) 내의 오브젝트(304)쪽으로 지향된다. 사운드파의 제2 부분(306')은, 반사된 제3 부분(306")을 생성하는 오브젝트(304)로부터 반사되며, 이는 청취자의 우측 귀(208-R)로 지향된다. 사운드파의 제1 부분(306) 및 제2 및 제3 부분들(306', 306")에 의해 이동되는 상이한 거리들 때문에, 이들 부분들은 청취자의 좌측 및 우측 귀들(208-L, 208-R)에 약간 다른 시간들에 도달할 것이다. 또한, 오브젝트(304)는 사운드파의 반사된 제3 부분(306")의 사운드를, 그 사운드가 청취자의 우측 귀(208-R)에 도달하기 전에 변화시킬 수 있다.

[0071] 심지어 어떠한 오브젝트(304)도 존재하지 않을 때, 실제 물리적 사운드 소스(302)로부터의 사운드파들은 청취자의 귀들(208-L, 208-R) 둘 모두에서 청취될 수 있다. 사운드 소스(302)가 (도 10에서와 같이) 청취자의 좌측에 배치되면, 사운드가 먼저 좌측 귀(208-L)에서 그리고 나중에(예컨대, 800 마이크로초) 우측 귀(208-R)에서 들릴 수 있도록, 사운드 소스(302)로부터 방출되는 사운드파들이 청취자에게 청취될 수 있다. 사실상, 인간의 뇌의 청각 중추는 공간화 사운드의 소스들을 로케이팅하기 위해 이러한 지연을 분석한다. 사운드는 또한 우측 귀(208-R)와 비교하여 좌측 귀(208-L)에서 더 크게 들리수 있다.

[0072] 도 10에 묘사된 공간화 사운드 필드(300)는 단지 하나의 실제 물리적 사운드 소스(302) 및 하나의 오브젝트(304)를 포함하는 매우 간단한 것이다. 심지어 이러한 간단한 공간화 사운드 필드(300)를 재생하는 공간화 오디오 시스템(202)은 사운드파들의 다양한 반사들 및 변조들을 고려해야 한다. 내부에 하나 초과의 사운드 소스 및/또는 사운드파(들)와 상호작용하는 하나 초과의 오브젝트를 갖는 공간화 사운드 필드들은 기하급수적으로 더욱 복잡하다. 공간화 오디오 시스템들(202)은 이 점차 복잡해지는 공간화 사운드 필드들을 재생하기 위해 점점 더 강력해져야 한다. 도 9에 묘사된 공간화 오디오 프로세서(236)는 로컬 프로세싱 및 데이터 모듈(216)의 일부이지만, 다른 실시예들에서 더 강력한 공간화 오디오 프로세서(236)는 로컬 프로세싱 및 데이터 모듈(216)에서의 공간 및 전력을 보존하기 위해, 원격 프로세싱 모듈(222)의 일부일 수 있다.

공간화 오디오 경험

[0073] 도 11은, 일 실시예에 따른 공간화 오디오 경험(400)을 사용자/청취자의 머리(200) 뒤에서 전방을 향하는 사시도로 묘사한다. 공간화 오디오 경험(400)을 구현하기 위해, 사용자/청취자 및 복수의 스피커들의 상대적인 포지션 및 배향이 공간화 오디오 시스템에 제공된다. 예컨대, 사용자/청취자는 알려진 "크기(fit)"를 갖는 머리-장착 공간화 오디오 시스템(도시되지 않음)을 착용할 수 있다.

[0074] 공간화 오디오 경험(400)은 제1 및 제2 가상 오디오 소스들(402-1, 402-2)을 포함한다. 이러한 가상 오디오 소스들(402-1, 402-2)은 사용자에게 제공되는 시각적 정보에 대응할 수 있다. 예컨대, 제1 가상 오디오 소스(402-1)는 AR/MR 경험에서 가상 캐릭터에 대응할 수 있고, 제2 가상 오디오 소스(402-2)는 AR/MR 경험에서 가상 호른(horn)에 대응할 수 있다. 가상 캐릭터 및 가상 호른은 공간화 오디오/AR/MR 시스템(도 11에 도시되지 않음, 도 5 내지 8 참조)의 프레임에 커플링된 디스플레이 상에서 사용자에게 디스플레이될 수 있다. 다른 실시예들에서, 가상 오디오 소스들(402-1, 402-2)은 임의의 시각적 정보에 대응하지 않을 수 있다.

[0075] 도 11은 또한, 청취자의 좌측 귀(208-L)로 지향되는 제1 가상 오디오 소스(402-1)(즉, 가상 캐릭터)에 대응하는 사운드파의 일부(406)를 묘사한다. 도 11은 가상 오브젝트(404)로 지향되는 제2 가상 오디오 소스(402-2)(즉, 가상 호른)에 대응하는 사운드파의 제1 부분(406')을 추가로 묘사한다. 제1 부분(406')은 청취자의 우측 귀(208-R)로 지향되는 제2 부분(406")을 형성하는 가상 오브젝트(404)로부터 반사한다.

[0076] 도 12는, 도 11에 묘사된 공간화 오디오 경험(400)의 실시예를 측면도로 묘사한다. 도 12는, 제1 가상 오디오 소스(402-1)(즉, 가상 캐릭터)가 가상으로 청취자의 좌측 귀(208-L) 약간 아래에 위치되는 것을 도시한다. 도 12는 또한, 제2 가상 오디오 소스(402-2)(즉, 가상 호른)가 가상으로 청취자의 우측 귀(208-R) 약간 위에 위치되고, 가상 오브젝트(404)가 청취자의 우측 귀(208-R)와 제2 가상 오디오 소스(402-2) 사이에 가상 높이를 갖는 것을 도시한다.

[0077] 일부 실시예들에서, 제1 및 제2 가상 오디오 소스들(402-1(즉, 가상 캐릭터) 및 402-2(즉, 가상 호른))은 AR/MR 디스플레이(204)를 사용하여 디스플레이된다. AR/MR 디스플레이는, 제2 가상 오디오 소스(402-2)의 가상 위치가 시청자의 포즈 또는 포지션과 독립적인 가상 세계에 세팅되도록 "세계-중심" 뷰에 제2 가상 오디오 소스(402-2)(및 임의의 가상 오브젝트)를 디스플레이하도록 구성될 수 있다. 따라서, 시청자들이 자신들의 머리들을 제2 가상 오디오 소스(402-2)로부터 멀어지게 돌리면, 시청자들은 더 이상 가상 오브젝트를 보지 않을 것이다.

[0078] 제1 및 제2 가상 오디오 소스(402-1, 402-2)는 실제 물리적 위치들을 갖지 않지만, 이들의 가상 위치들은 제1 및 제2 가상 오디오 소스(402-1, 402-2)에 대응하는 각각의 공간화 오디오를 렌더링하는 데 중요하다. 도 11 및 도 12에 묘사된 공간화 오디오 경험(400)이 단지 2개의 가상 오디오 소스(402-1, 402-2)만을 포함하지만, 다른 공간화 오디오 경험들은 더 많거나 더 적은 가상 오디오 소스들을 포함할 수 있다. 예컨대, 전형적인 영화 장면은, 많은 가상 오디오 소스들, 이를테면, 배경 음악, 배경 잡음, 물리적 액션들과 연관된 사운드들 및 대화를 포함할 수 있다. 이러한 많은 가상 오디오 소스들을 정확하게 재생하는 것은, 공간화 오디오 경험에 대한 청취자의 즐거움을 증가시킨다.

[0079] 공간화 오디오 경험(400)은, 경험(400)을 생성하고 전달하기 위해 본원에서 사용되는 AR/MR 및 공간화 오디오 시스템들의 실시예들을 참조하여 설명되었다. 다른 비디오 및 오디오 시스템들은, 비록 정확도 및 정밀도의 레벨들이 상이하지만, 공간화 오디오 경험(400)을 전달하도록 구성될 수 있다.

[0080] 공간화 오디오 경험이 일반적으로 위에 설명되지만, 일부 공간화 오디오 경험들은 사용자/청취자의 포즈를 고려한다. 예컨대, 오디오 렌더링은, 아래에 설명되는 바와 같이, 사용자/청취자의 검출된 포즈에 기반하여 수정될 수 있다.

포즈-민감 공간화 오디오 시스템

[0081] 도 13은 포즈-민감 공간화 오디오 경험(700)을 사용자에게 제공하도록 구성된 포즈-민감 공간화 오디오 시스템(802)을, 평면도로, 도시한다. 예컨대, 포즈-민감 공간화 오디오 경험(700)은 제1 및 제2 가상 오디오 소스들(702-1, 702-2)을 포함한다. 제1 가상 오디오 소스(702-1)는 AR/MR 경험에서 가상 캐릭터에 대응할 수 있고, 제2 가상 오디오 소스(702-2)는 AR/MR 경험에서 가상 호른에 대응할 수 있다. 공간화 오디오 경험(700)은 "세계-중심" 경험이며, 여기서 가상 오디오 소스들(702-1, 702-2)은 사용자의 포즈와 독립적인 세계의 개개의 가상 위치들을 갖는다.

[0082] 사용자는, 프레임(804) 및 프레임(804)에 부착된 4개의 스피커들(806-1, 806-2, 806-3, 806-4)을 포함하는 공간화 오디오 시스템(802)을 착용한다. 스피커(806-1)는, 공간화 오디오 시스템(802)이 청취자의 머리(200)에 착용될 때, 스피커(806-1)가 청취자의 머리(200)의 전방(F) 좌측(L)에 있도록 프레임(804)에 부착된다. 스피커(806-2)는, 공간화 오디오 시스템(802)이 청취자의 머리(200)에 착용될 때, 스피커(806-2)가 청취자의 머리(200)의 전방(F) 우측(R)에 있도록, 프레임(804)에 부착된다. 스피커(806-3)는, 공간화 오디오 시스템(802)이 청취자의 머리(200)에 착용될 때, 스피커(806-3)가 청취자의 머리(200)의 후방(B) 좌측(L)에 있도록, 프레임(804)에 부착된다. 스피커(806-4)는, 공간화 오디오 시스템(802)이 청취자의 머리(200)에 착용될 때, 스피커(806-4)가 청취자의 머리(200)의 후방(B) 우측(R)에 있도록, 프레임(804)에 부착된다. 스피커들(806-1, 806-2, 806-3, 806-4) 모두는 청취자의 머리(200)쪽으로 향하게 된다.

[0083] 사용자의 머리(200)가 도 13에 도시된 포즈인 경우, 제1 및 제2 가상 오디오 소스들(702-1, 702-2)로부터의 가상 사운드는 사용자의 머리(200)의 전방(F) 우측(R)으로부터 각각 발현되는 것처럼 들려야 한다. 따라서, 제1 가상 오디오 소스(702-1)에 대응하는 가상 사운드는 사용자의 머리(200)의 전방(F)에 위치된 스피커들(806-1, 806-2)로부터 방출될 수 있다. 유사하게, 제2 가상 오디오 소스(702-2)에 대응하는 가상 사운드는 사용자의 머리(200)의 우측(R)에 위치된 스피커들(806-2, 806-4)로부터 방출될 수 있다. 가상 사운드가 스피커들로부터 방출되도록 오디오 데이터를 렌더링하는 것은, 제1 및 제2 가상 오디오 소스들(702-1, 702-2)의 가상 포지션들과 일치하는 공간화 오디오 경험을 발생시킨다.

[0084] 도 14는, 도 13에 도시된 동일한 포즈-민감 공간화 오디오 경험(700)을 사용자에게 제공하는 포즈-민감 공간화 오디오 시스템(802)을, 도 13의 평면도와 유사한 평면도로, 도시한다. 그러나, 도 14에서, 착용된 공간화 오디오 시스템(802)과 함께 사용자/청취자의 머리(200)는 좌측으로 90°회전되었다. 이러한 구성에서, 공간화 오디오 시스템(802)의 기준 프레임은 좌측으로 90°회전되었다. 따라서, 사용자/청취자의 머리(200)의 우측(B)은 제1 가상 오디오 소스(702-1)를 향하고 있는 반면, 사용자/청취자의 머리(200)의 후방(R)은 제2 가상 오디오 소스(702-2)를 향한다.

[0085] 사용자의 머리(200)가 도 14에 도시된 포즈인 경우, 제1 및 제2 가상 오디오 소스들(702-1, 702-2)로부터의 가상 사운드는 사용자의 머리(200)의 우측(R) 및 후방(B)으로부터 각각 발현되는 것처럼 들려야 한다. 따라서, 제1 가상 오디오 소스(702-1)에 대응하는 가상 사운드는 사용자의 머리(200)의 우측(R)에 위치된 스피커들(806-2, 806-4)로부터 방출될 수 있다. 유사하게, 제2 가상 오디오 소스(702-2)에 대응하는 가상 사운드는 사용자의 머리(200)의 후방(B)에 위치된 스피커들(806-3, 806-4)로부터 방출될 수 있다. 사용자/청취자의 포즈를 고려하면서, 가상 사운드가 적합한 스피커들로부터 방출되도록 오디오 데이터를 렌더링하는 것은, 제1 및 제2 가상 오디오 소스들(702-1, 702-2)의 가상 포지션들과 일치하는 공간화 오디오 경험을 발생시킨다. 이러한 포즈-민감 공간화 오디오 경험은, 세계-중심 방식으로 배치된 가상 객체들을 갖는 그럴듯함 또는 만족할 만한 가상 세계를 촉진한다.

[0086] 도 9에 도시된 포즈-민감 공간화 오디오 시스템(802)에 대해 위에 설명된 바와 같이, 공간화 오디오 시스템(802)은 사용자/청취자의 머리 포즈를 입수할 수 있고, 그 머리 포즈를 활용하여 오디오 데이터를 렌더링하고 오디오 데이터에 대응하는 오디오를 제공할 수 있다. 제공된 오디오는 가상 객체 및 사용자/청취자의 머리(200)의 포지션과 일치한다. 예컨대, 제2 가상 오디오 소스(702-2)(가상 혼)에 대응하는 사운드와 같은, 포즈-민감 공간화 오디오 경험(700)에서의 사운드는, 사용자/청취자가 청취자의 머리(200) 우측 약간 위에 위치된 것으로 오디오 소스를 인지하도록 제공되어야 한다(도 11 및 12 참조). 이러한 방식으로, 공간화 오디오 시스템(802)은 각각의 사용자/청취자에 대한 공간화 오디오를 더 정확하고 정밀하게 생성할 수 있다.

[0087] 도 13 및 14에 도시된 공간화 오디오 시스템(802)이 4개의 스피커들(806-1, 806-2, 806-3, 806-4)을 포함하지만, 다른 공간화 오디오 시스템들은 더 적거나 더 많은 스피커들(806)을 포함할 수 있다. 스피커들(806)의 수, 타입, 포지션 및 배향은 사용자들/청취자들로의 공간화 오디오의 제공을 최적화하도록 조정될 수 있다. 예컨대, 저주파수 사운드들을 제공하기 위해 더 큰 스피커들(예컨대, 서브우퍼들)이 사용될 수 있는 반면에, 고주파수 및 중간 주파수 사운드들을 제공하기 위해 더 작은 스피커들이 사용될 수 있다.

[0088] 다양한 실시예들에 따른 공간화 오디오 시스템들의 다양한 양상들이 설명되었지만, 공간화 오디오 시스템들(예컨대, 202, 802)을 사용하여 (예컨대, 공간화 오디오 경험에서) 공간화 오디오를 제공하는 방법들이 이제 설명될 것이다. 설명되는 방법들은 더 정확하고 정밀한 공간적 오디오 경험을 생성하기 위해 포즈에 민감하다. 또한, 설명되는 방법들은 시스템 지연/레이턴시 관련 아티팩트들의 양을 감소시키기 위해 늦은 프레임 시간 와핑 오디오 프로세싱(late-frame time warp audio processing)을 포함한다.

감지 레이턴시 및 오디오 프로세싱

[0089] 위에 설명된 바와 같이, 포즈 센서가 (예컨대, 머리 포즈 변화를 초래하는 머리 및/또는 신체의) 모션을 캡처하는 시간과, 오디오 데이터가 그 모션에 기반하여 렌더링되고 대응하는 사운드가 사용자/청취자에게 제공되는 시간 사이에 사용자/청취자의 머리 포즈에 관한 공간화 오디오 시스템의 정보가 변할 때, 감지 레이턴시는 가상 사운드 소스들이 가상 세계에 세계-중심 방식으로 "고착"되는 문제들(예컨대, 아티팩트들)을 공간화 오디오 시스템들에서 발생시킨다. 예시적인 감지 레이턴시 아티팩트는, 가상 오브젝트에 대응하는 가상 사운드가 그 가상 오브젝트의 가상 위치와 상이한 가상 위치로부터 발현되는 것처럼 들릴 것이다. 사용자/청취자의 머리의 회전 및 틸팅은, 회전 방향과 비교하여 병진운동 방향을 빠르게 변경하는 머리의 제한된 능력으로 인해, 사용자/청취자의 머리의 병진운동보다 감지 레이턴시 문제를 더 많이 갖는다. 포즈 또는 모션 캡처와 가상 사운드 제공 사이의 통상적인 시간이 대략 밀리초("ms") 정도이기 때문에, 방향 변화의 속도는 감지 레이턴시 문제들을 초래하는 변화의 타입을 결정한다.

[0090] 인간의 뇌는 사운드들(예컨대, 비트들)을 구별하고, 및 사운드 소스들을 회전 평면들(예컨대, 도 3에서 전방, 우측, 후방, 좌측)에 로케이팅하는 데 능숙하다. 따라서, 오디오 "프레임들"은, 사용자/청취자에게 현실적인 공간화 오디오 경험을 제공하기 위해 약 4-10ms마다 생성/업데이트되어야 한다. 비교하면, 현실적인 시각 경험(예컨대, 영화(motion picture))을 제공하도록 디스플레이되는 시각 "프레임들"은 약 8-17ms마다 생성/업데이트될 수 있다.

[0091] 비디오 프로세싱이 통상적으로 형상들을 하나 이상의 평평한 투사 평면들로 병합하는 반면, 오디오 프로세싱은 별개의 포지션들 및 배향들을 갖는 다수의 사운드 소스들(예컨대, "스피커들")을 사운드 검출기들(예컨대, "마이크로폰들")에 대한 다수의 채널들로 병합하기 때문에, 오디오 프로세싱은 비디오 프로세싱과 상이하다. 오디오 프로세싱이 사운드 소스들을 병합하는 것으로 설명되지만, "병합"되는 것은 그러한 사운드 소스들에 대응하는 오디오 데이터이다.

늦은 프레임 시간 와핑 오디오 프로세싱

[0092] 도 15는 일 실시예에 따른, 감지 레이턴시 아티팩트를 최소화하는 포즈-민감 오디오 프로세싱의 방법(500)을 도시한다. 포즈-민감 오디오 프로세싱 방법(500)은, 포즈 변화를 검출하는 것과 검출된 포즈 변화에 기반하여 사운드를 생성하는 것 사이의 지연/레이턴시를 최소화하기 위해 늦은 프레임 시간 와핑 기술을 활용한다. 방법(500)은, 예컨대, 위에 설명된 공간화 오디오 시스템(802)을 활용하여 구현될 수 있다. 요약하면, 방법(500)은 오디오 프로세싱을 2개의 스테이지들, 즉, 오디오 데이터를 중간 포맷으로 부분적으로 프로세싱하는 제1 스테이지; 및 포즈 데이터를 활용하여 프로세싱을 빠르게 완료하는, 계산적으로 덜 집중적인/덜 힘든(taxing) 제2 스테이지로 분할한다.

[0093] 단계(502)에서, 공간화 오디오 시스템(802)(예컨대, 그의 오디오 프로세서(236))은 제1 복수(예컨대, N개)의 오디오 소스들에 대한(즉, 대응하는) 제1 오디오 데이터를 수신한다. 소스 오디오 데이터는 공간화 오디오 시스템(802)의 스피커들(806)을 통해 사용자/청취자에게 전달되도록 의도된 사운드에 대응한다. 소스 오디오 데이터는, 사운드 생성/전달과 실질적으로 동시에 유선 또는 무선 연결을 통해 데이터베이스로부터 수신될 수 있다. 대안적으로, 소스 오디오 데이터는 사운드의 생성/전달 전에 수신되고 공간화 오디오 시스템(802) 상에 저장될 수 있다.

[0094] 도 16은 일 실시예에 따른 늦은 프레임 시간 와핑 오디오 프로세싱 방법(600)을 개략적으로 도시한다. 제1 오디오 데이터에 대응하는 제1 복수의 오디오 소스들(602) 각각은 별로서 도시된다. 도 16에 도시된 바와 같이, 제1 복수의 오디오 소스들(602)은 6개의 오디오 소스들(602)을 포함한다. 물론, 오디오 소스들(602)의 수는 이러한 실시예에서 임의적이며, 제한하는 것으로 의도되지 않는다. 제1 복수의 오디오 소스들(602) 각각은 가상 사운드 소스에 대응할 수 있다.

[0095] 단계(504)에서, 공간화 오디오 시스템(802)(예컨대, 그의 오디오 프로세서(236))은 제1 오디오 데이터를 제2 복수(예컨대, M개)의 오디오 소스들에 대한(즉, 대응하는) 제2 오디오 데이터로 렌더링/프로세싱/변환한다. 단계(504)는 위에 설명된 2-스테이지 오디오 프로세싱의 제1 스테이지에 대응한다. 제1 스테이지는 또한 프로세스의 "병합 페이즈"로 알려져 있다. 제2 복수(예컨대, M개)의 오디오 소스들의 수는 제1 복수(예컨대, N개)의 오디오 소스들의 수 이하일 수 있다. 제2 복수의 오디오 소스들의 수를 감소시키는 것은 제2 스테이지에서 오디오 프로세싱을 단순화한다(후술됨). 제2 복수(예컨대, M개)의 오디오 소스들의 수는 이론적으로 제1 복수(예컨대, N개)의 오디오 소스들의 수보다 더 클 수 있지만, 이러한 모델은 계산적으로 덜 집중적인 제2 스테이지를 초래하지 않을 수 있다. 단계(504)에서의 2-스테이지 오디오 프로세싱의 제1 스테이지는 또한, 현재 공간화 오디오 시스템(802)을 착용하고 있는 사용자/청취자의 포즈(예컨대, 머리 포즈) 추정치를 고려할 수 있다(도 17 참조).

[0096] 도 16에서, 제1 오디오 데이터에 대응하는 제2 복수의 오디오 소스들(604) 각각은 원으로 도시된다. 제2 복수의 오디오 소스들(604) 각각은 2-스테이지 오디오 프로세싱에서 중간 노드로서 기능하는 가상 마이크로폰/스피커이다. 이들 오디오 소스들(604)은, 단계(504)에서의 제1 스테이지 오디오 프로세싱이 제1 복수의 오디오 소스들(602) 각각에 의해 생성된 가상 사운드를 제2 복수의 오디오 소스들(604) 각각의 위치에 "기록"함으로써 제2 복수의 오디오 소스들(604) 각각을 렌더링한다는 점에서, 가상 마이크로폰들이다. 이와 같이, 제2 복수의 오디오 소스들(604) 각각은 제1 복수의 오디오 소스들(602) 각각으로부터의 오디오 데이터를 포함할 수 있다. 이것은, 제1 복수의 오디오 소스들(602) 각각과 제2 복수의 오디오 소스들(604) 각각을 연결하는 점선들로 도 16에 도시된다. 이들 오디오 소스들(604)은, 제2 스테이지 오디오 프로세싱(후술됨)에서, 제2 복수의 오디오 소스들(604)이 오디오 프로세싱을 위한 사운드의 소스로서 기능한다는 점에서, 가상 스피커들이다.

[0097] 이들 오디오 소스들/중간 노드들(604)은 사용자/청취자의 머리 주변의 3-D 공간에서 부유(float)하지만, 반드시 이와 결합되는 것은 아니다. 특히, 제1 오디오 렌더링 스테이지의 시작에서, 오디오 소스들/중간 노드들(604)은, 사용자의 머리 포즈의 그 다음 가장 양호한 추정치에 기반하여 공간에서 포지셔닝될 수 있고, 그들은 그 오디오 블록의 지속기간 동안 거기에서 유지될 수 있다. 제2 오디오 렌더링 스테이지에서, 그 위치들로부터의 사운드는 사용자의 새로운 가장 양호한 추정된 포즈에 기반하여 렌더링될 수 있다. 일부 실시예들에서, 제2 복수의 오디오 소스들/중간 노드들(604)은 3-D 공간에 배치된 가상 사운드 소스들에 대응하는 오디오 데이터를 더 정확하게 렌더링하기 위해 하나 초과의 평면(즉, 하나 초과의 수직 높이)에 배치된다. 일부 실시예들에서, 제2 복수의 오디오 소스들/중간 노드들(604)의 수는 제2 스테이지(후술됨)의 계산 복잡성을 감소시키기 위해 8개 미만이다. 일부 실시예들에서, 제2 복수의 오디오 소스들/중간 노드들(604)은 청취자의 머리로부터 약 6 인치(15.24 cm) 내지 약 12 인치(30.48 cm) 내에 배치된다. 일부 실시예들에서, 중간 노드들(604)은, 원점이 사용자의 머리 포지션에 고정되는 로컬 좌표계에 고정되지만, 배향은 사용자의 환경의 관성 기준 프레임에 대응하는 공통 세계 좌표계에 고정된다.

[0098] 단계(506)에서, 공간화 오디오 시스템(802)(예컨대, 그의 머리 포즈 프로세서(234))은 현재 공간화 오디오 시스템(802)을 착용하고 있는 사용자/청취자의 가장 최신의 포즈 추정치(예컨대, 머리 포즈)를 결정한다. 가장 최신의 포즈 추정치를 결정하는 부분으로서, 공간화 오디오 시스템(802)은 가장 최근에 이용 가능한 포즈 데이터(예컨대, 머리 포즈 센서(232)를 통해 머리 포즈 데이터)를 수집할 수 있다. 머리 포즈 센서(232)는 이미지 캡처 디바이스들(이를테면, 가시 및 적외선 광 카메라들), 관성 측정 유닛들(가속도계들 및 자이로스코프들을 포함함), 컴퍼스들, 마이크로폰들, GPS 유닛들 및 라디오 디바이스들 중 하나 이상을 포함할 수 있다. 머리 포즈 센서(232)는 이미지들, 가속도 및 자이로스코픽 정보, 컴퍼스 정보, 사운드들, GPS 정보 및 라디오 송신들 중 하나 이상의 형태로 머리 포즈 데이터를 수집할 수 있다. 이러한 데이터 모두는 사용자/청취자의 머리 포즈를 결정하는 데 사용될 수 있다. 머리 포즈 프로세서(234)에 의해 수행되는 계산들은 (예컨대, 머리 포즈 센서(232)를 통해) 수집된 포즈 데이터의 타입(들)에 의존하여 변한다.

[0099] 단계(508)에서, 공간화 오디오 시스템(802)(예컨대, 그의 오디오 프로세서(236))은 제2 오디오 데이터를 제3 복수(예컨대, K개)의 오디오 소스들에 대한(즉, 대응하는) 제3 오디오 데이터로 렌더링/프로세싱/변환한다. 단계(508)는 위에 설명된 2-스테이지 오디오 프로세싱의 제2 스테이지에 대응한다. 제3 복수(예컨대, K개)의 오디오 소스들의 수는 제2 복수(예컨대, M개)의 오디오 소스들의 수 이하일 수 있다. 제3 복수(예컨대, K개)의 오디오 소스들의 수는 이론적으로 제2 복수(예컨대, M개)의 오디오 소스들의 수보다 더 클 수 있지만, 이 모델은 덜 일반적일 것이다.

[00100] 도 16에서, 제3 오디오 데이터에 대응하는 제3 복수의 오디오 소스들(606) 각각은 삼각형으로 도시된다. 제3 복수의 오디오 소스들(606)은 4개의 오디오 소스들(606)을 포함한다. 물론, 오디오 소스들(602)의 수는 이러한 실시예에서 임의적이며, 제한하는 것으로 의도되지 않는다. 제3 복수의 오디오 소스들(606) 각각은 물리적 스피커(806)에 대응할 수 있다. 단계(508)의 제2 스테이지 동안, 오디오 프로세서(236)는 제2 복수의 오디오 소스들/중간 노드들(604) 각각의 정확한 가상 공간 위치에 대한 액세스를 갖는다. 이러한 정보는 2-스테이지 오디오 프로세싱 및 시스템 레이턴시의 계산적인 복잡성을 감소시켰다.

[00101] 오디오 데이터를 렌더링할 목적으로, 제3 복수의 오디오 소스들(606) 각각은, 위에 설명된 바와 같이, 가상 마이크로폰으로서 기능한다. 이러한 오디오 소스들(606)은, 단계(508)의 제2 스테이지 오디오 프로세싱이 제2 복수의 오디오 소스들(604) 각각에 의해 생성된 가상 사운드를 제3 복수의 오디오 소스들(606) 각각의 위치에 "기록"함으로써 제3 복수의 오디오 소스들(606) 각각을 렌더링한다는 점에서 가상 마이크로폰들로서 기능한다. 이와 같이, 제3 복수의 오디오 소스들(606) 각각은 제2 복수의 오디오 소스들(604) 각각으로부터의 오디오 데이터를 포함할 수 있다. 이것은, 제2 복수의 오디오 소스들(604) 각각과 제3 복수의 오디오 소스들(606) 각각을 연결하는 점선들로 도 16에 도시된다. 위에 설명된 바와 같이, 이들 오디오 소스들(606)은 가상 사운드를 사용자/청취자에 제공하기 위한 실세계 물리적 스피커들(806)에 대응한다.

[00102] 단계(508)의 제2 스테이지 오디오 프로세싱 동안에, 공간화 오디오 시스템(802)(예컨대, 그의 오디오 프로세서(236))은, 단계(506)에서 결정된 가장 최신의 포즈 추정치에 적어도 부분적으로 기반하여 제2 오디오 데이터를 제3 오디오 데이터로 렌더링/프로세싱/변환한다. 예컨대, 도 14 및 16에 도시된 바와 같이 사용자/청취자의 머리가 좌측으로 회전되면, 공간화 오디오 시스템(802)은, 제3 복수의 오디오 소스들(606)이 우측으로 약간 회전되도록 제3 오디오 데이터를 렌더링할 것이다. 이와 같이, 사용자/청취자의 좌측에 대한 가상 오브젝트에 대응하는 가상 사운드는 사용자/청취자의 머리의 전방에서 발생하는 것처럼 보인다. 공간화 오디오 데이터는 또한 요(yaw) 이외에 사용자/청취자의 머리의 피치(pitch) 및 롤(roll)을 고려하도록 렌더링될 수 있다. 또한, 공간화 오디오 데이터는 사용자/청취자의 머리로부터의 가상 사운드 소스들의 가상 거리를 고려하도록 렌더링될 수 있다.

[00103] 음성 프로세싱의 일부가 이미 단계(504)에서 제1 스테이지 오디오 프로세싱에서 발생하였기 때문에, 단계(508)의 제2 스테이지 오디오 프로세싱은 제1 스테이지 오디오 프로세싱보다 계산적으로 덜 집중적이다. 계산적인 복잡성은, 특히 오디오 소스들의 제1 복수(602)(오리지널 수신된 오디오 데이터)와 제2 복수(604)(중간 노드들) 사이의 오디오 소스들의 수를 감소시킴으로써 감소된다. 감소된 계산적인 복잡성은 감지 레이턴시 및 시스템 지연을 감소시킨다.

[00104] 일부 실시예들에서, 최소의 포즈 변화가 있을 때, 단계(508)의 제2 스테이지 오디오 프로세싱은 제2 복수의 오디오 소스들(604)을 단지 최소로 변경한다. 다른 실시예들에서, 최소의 포즈 변화가 있을 때, 단계(508)의 제2 스테이지 오디오 프로세싱은 제2 복수의 오디오 소스들(604)의 수만을 변경할 수 있다.

[00105] 단계(510)에서, 공간화 오디오 시스템(802)(예컨대, 스피커들(806-1, 806-2, 806-3, 806-4))은 제3 오디오 데이터에 기반하여 공간화 사운드를 제공한다. 도 2 내지 8, 13 및 14에 도시된 스피커들과 같은 스피커들(806)의 구성들은 3개의 축들(예컨대, X, Y 및 Z 축들)을 따라 가변적인 사운드(예컨대, 공간화 오디오)의 제공을 가능하게 한다.

[00106] 도 17은 다른 실시예에 따른, 감지 레이턴시 아티팩트들을 최소화하는 포즈-민감 오디오 프로세싱의 방법(500')을 도시한다. 도 17에 도시된 방법(500')의 단계들(502 및 510)은 도 15에 도시된 방법(500)에서의 대응하는 단계들과 동일하다. 단계들(504', 506' 및 508')은 도 15에 도시된 방법(500)의 대응하는 단계들과 유사하다. 도 15에 도시된 방법(500)에서와 같이, 단계(502)에서, 공간화 오디오 시스템(802)(예컨대, 그의 오디오 프로세서(236))은 제1 복수(예컨대, N개)의 오디오 소스들에 대한(즉, 대응하는) 제1 오디오 데이터를 수신한다.

[00107] 도 17에 도시된 방법(500')은 단계들(502 및 504') 사이의 단계(503)를 포함한다. 단계(503)에서, 공간화 오디오 시스템(802)(예컨대, 그의 머리 포즈 프로세서(234))은 현재 공간화 오디오 시스템(802)을 착용하고 있는 사용자/청취자의 제1 포즈 추정치(예컨대, 머리 포즈)를 결정한다. 제1 포즈 추정치를 결정하는 부분으로서, 공간화 오디오 시스템(802)은 단계(503)에서 시스템(802)에 이용 가능한 포즈 데이터(예컨대, 머리 포즈 센서(232)를 통한 머리 포즈 데이터)를 수집할 수 있다. 머리 포즈 센서(232)는 이미지 캡처 디바이스들(이를테면, 가시 및 적외선 광 카메라들), 관성 측정 유닛들(가속도계들 및 자이로스코프들을 포함함), 컴퍼스들, 마이크로폰들, GPS 유닛들 및 라디오 디바이스들 중 하나 이상을 포함할 수 있다. 머리 포즈 센서(232)는 이미지들, 가속도 및 자이로스코픽 정보, 컴퍼스 정보, 사운드들, GPS 정보 및 라디오 송신들 중 하나 이상의 형태로 머리 포즈 데이터를 수집할 수 있다. 이러한 데이터 모두는 사용자/청취자의 제1 머리 포즈를 결정하는 데 사용될 수 있다. 머리 포즈 프로세서(234)에 의해 수행되는 계산들은 (예컨대, 머리 포즈 센서(232)를 통해) 수집된 포즈 데이터의 타입(들)에 의존하여 변한다.

[00108] 단계(504')에서, 공간화 오디오 시스템(802)(예컨대, 그의 오디오 프로세서(236))은, 도 15에 도시된 방법(500)의 단계(504)와 유사하게, 제1 오디오 데이터를 제2 복수(예컨대, M개)의 오디오 소스들에 대한(즉, 대응하는) 제2 오디오 데이터로 렌더링/프로세싱/변환한다. 차이는, 도 17에 도시된 방법(500')에서, 단계(504')의 2-스테이지 오디오 프로세싱의 제1 스테이지가 단계(503)로부터의, 공간화 오디오 시스템(802)을 현재 착용하고 있는 사용자/청취자의 제1 포즈(예컨대, 머리 포즈) 추정치를 명시적으로 고려한다는 것이다. 단계(503)에서 이용 가능한 포즈 추정치를 고려하는 것은 제1 스테이지 오디오 프로세싱/렌더링의 정확도를 개선한다.

[00109] 단계(506')에서, 공간화 오디오 시스템(802)(예컨대, 그의 머리 포즈 프로세서(234))은 현재 공간화 오디오 시스템(802)을 착용하고 있는 사용자/청취자의 제2 포즈 추정치(예컨대, 머리 포즈)를 결정한다. 제2 포즈 추정치는 단계(506')에서 가장 최신의 포즈 추정치이다. 가장 최신의 포즈 추정치를 결정하는 부분으로서, 공간화 오디오 시스템(802)은 가장 최근에 이용 가능한 포즈 데이터(예컨대, 머리 포즈 센서(232)를 통해 머리 포즈 데이터)를 수집할 수 있다. 단계(506')는 도 15에 도시된 방법(500)의 단계(506)와 매우 유사하다.

[00110] 단계(508')에서, 공간화 오디오 시스템(802)(예컨대, 그의 오디오 프로세서(236))은 제2 오디오 데이터를 제3 복수(예컨대, K개)의 오디오 소스들에 대한(즉, 대응하는) 제3 오디오 데이터로 렌더링/프로세싱/변환한다. 단계(508')의 제2 스테이지 오디오 프로세싱은 단계(506')에서 결정된 공간화 오디오 시스템(802)을 현재 착용하고 있는 사용자/청취자의 제2 포즈(예컨대, 머리 포즈)의 추정치를 고려한다. 단계(506')에서 이용 가능한 제2 포즈 추정치를 고려하는 것은, 제2 스테이지 오디오 프로세싱/렌더링의 정확도를 개선한다. 도 17에 도시된 방법(500')에서의 제2 포즈 추정치는 도 15에 도시된 방법(500)에서의 가장 최신의 머리 포즈 추정치와 유사하다.

[00111] 단계(510)에서, 공간화 오디오 시스템(802)(예컨대, 스피커들(806-1, 806-2, 806-3, 806-4))은 제3 오디오 데이터에 기반하여 공간화 사운드를 제공한다. 단계(510)는 도 15에 도시된 방법(500)의 대응하는 단계와 동일하다.

[00112] 도 15 내지 17에 도시되고 위에 설명된 2-스테이지 오디오 프로세싱은 약간의 작은 아티팩트들을 도입할 수 있다. 예시적인 작은 아티팩트는, 제1 복수의 오디오 소스(602)와 제2 복수의 오디오 소스(604) 사이의 약간의 오정렬로 인한 오디오 소스의 외관상 위치의 약간의 오정렬이다. 제2 복수로부터의 중간 노드(604)를 통해 사운드를 개념적으로 전달하는 것은 약간의 오정렬을 초래할 수 있다. 추가로, 중간 노드들(604)의 "웹(web)" 내부에 가상으로 위치된 사운드 소스로부터의 가상 사운드는, 중간 노드로 이동하여 이어서 사용자/청취자로 되돌아가는 거리와 비교하여 더 짧은 오리지널 거리로 인해, 약간 지연된 도달 시간을 가질 수 있다. 그러나, 이러한 작은 아티팩트들은 위에서 설명한 감지 레이턴시로 인한 주요 아티팩트들보다 공간화 오디오 경험에 훨씬 더 작은 영향을 갖는다.

[00113] 위에 설명된 늦은 프레임 시간 와핑, 포즈-민감 오디오 프로세싱은, 사용자/청취자의 포즈 변화들에도 불구하고, 가상 공간화 오디오의 보다 지각적으로 더 정확한 렌더링을 초래한다. 가상 공간화 오디오의 렌더링은 다양한 표면들로부터의 오디오 반사들을 모델링하기 위한 요건들, 거리로 인한 페이즈 및 각도 변동 및 간섭으로 인해 계산적으로 값비쌀 수 있다. 오디오 소스들을 더 적은 중간 노드들/소스들로 병합하는 제1 스테이지 및 가장 최근에 획득한 포즈 정보를 감안하기 위해 중간 노드들/소스들로부터의 오디오 데이터를 마지막으로 렌더링하는 제2 스테이지를 갖는 2-스테이지 오디오 프로세싱은 더 정확한 렌더링을 초래한다. 프로세스는 포즈 정보의 획득 후에 시스템 레이턴시를 감소시킨다.

[00114] 위에 설명된 늦은 프레임 시간 와핑, 포즈-민감 오디오 프로세싱 방법들(500, 600)이 특정 위치들에서 특정 수들의 오디오 소스들을 포함하지만, 이러한 수들 및 위치들은 예시적이며, 제한하도록 의도되는 것은 아니다. 추가로, 프로세싱 스테이지들의 수는 또한 예시적이며, 제한하도록 의도되는 것은 아니다.

[00115] 본 발명의 다양한 예시적 실시예들이 본원에서 설명된다. 비-제한적인 의미로 이들 예들에 대한 참조가 이루어진다. 그 예들은, 본 발명의 더 넓게 적용가능한 양상들을 예시하기 위해 제공된다. 본 발명의 실제 사상 및 범위를 벗어나지 않으면서, 다양한 변화들이 설명된 본 발명에 대해 이루어질 수 있고 등가물들이 대체될 수 있다. 게다가, 특정 상황, 재료, 재료의 구성물, 프로세스, 프로세스 동작(들) 또는 단계(들)를 본 발명의 목적(들), 사상 또는 범위에 적응시키기 위해 많은 수정들이 이루어질 수 있다. 추가로, 당업자들에 의해 인지될 바와 같이, 본원에서 설명되고 예시된 개별 변동들 각각은, 본 발명들의 범위 또는 사상을 벗어나지 않으면서, 다른 수개의 실시예들 중 임의의 실시예의 특징들로부터 용이하게 분리되거나 또는 그 특징들과 결합될 수 있는 이산 컴포넌트들 및 특징들을 갖는다. 그러한 모든 수정들은 본 개시내용과 연관된 청구항들의 범위 내에 있는 것으로 의도된다.

[00116] 본 발명은 대상 디바이스들을 사용하여 수행될 수 있는 방법들을 포함한다. 방법들은 그러한 적절한 디바이스를 제공하는 동작을 포함할 수 있다. 그러한 제공은 최종 사용자에 의해 수행될 수 있다. 다시 말해서, "제공하는" 동작은 단지 대상 방법에서 필요한 디바이스를 제공하도록 최종 사용자가 획득, 액세스, 접근, 포지셔닝, 셋업, 활성화, 파워-업 또는 그렇지 않으면 동작하게 요구한다. 본원에서 언급된 방법들은 논리적으로 가능한 언급된 이벤트들의 임의의 순서뿐만 아니라 이벤트들의 언급된 순서로 수행될 수 있다.

[00117] 재료 선택 및 제조에 관한 세부사항들과 함께 본 발명의 예시적인 양상들이 위에 기재되었다. 본 발명의 다른 세부사항들에 대해, 이들은 위에서-참조된 특허들 및 공개물들과 관련하여 인지될 뿐만 아니라 당업자들에 의해 일반적으로 알려지거나 인지될 수 있다. 공통적으로 또는 논리적으로 이용되는 바와 같은 부가적인 동작들의 측면들에서 본 발명의 방법-기반 양상들에 대해 동일한 것이 참으로 유지될 수 있다.

[00118] 게다가, 본 발명이 다양한 특징들을 선택적으로 통합하는 수개의 예들을 참조하여 설명되었지만, 본 발명은, 본 발명의 각각의 변동에 관해 고려될 때 설명되거나 또는 표시되는 것으로 제한되지 않는다. 본 발명의 실제 사상 및 범위를 벗어나지 않으면서, 다양한 변화들이 설명된 본 발명에 대해 이루어질 수 있고 (본원에서 인용되는지 또는 일부 간략화를 위해 포함되지 않는지에 관계없이) 등가물들이 대체될 수 있다. 게다가, 값들의 범위가 제공되는 경우, 그 범위의 상한과 하한 간의 모든 각각의 중간값 및 그 언급된 범위 내의 임의의 다른 언급된 또는 중간값이 본 발명 내에 포함된다는 것이 이해된다.

[00119] 또한, 설명된 본 발명의 변동들의 임의의 선택적인 특징이 독립적으로 또는 본원에서 설명된 특징들 중 임의의 하나 이상의 특징과 조합하여 기재되고 청구될 수 있다는 것이 고려된다. 단수형 아이템들에 대한 참조는 복수의 동일한 아이템들이 존재하는 가능성을 포함한다. 보다 상세하게는, 본원에서 그리고 그와 연관된 청구항들에서 사용되는 바와 같이, 단수형들은, 달리 상세하게 언급되지 않으면 복수의 지시물들을 포함한다. 다시 말해서, 물품들의 사용은, 본 개시내용과 연관된 위의 설명뿐만 아니라 청구항들에서 대상 아이템 중 "적어도 하나"를 허용한다. 그러한 청구항들이 임의의 선택적인 엘리먼트를 배제하도록 선발될 수 있다는 것이 추가로 주목된다. 그러므로, 이러한 진술은 청구항 엘리먼트들의 인용과 관련하여 "단독으로", "유일한" 등으로서 그러한 배타적인 전문용어의 사용 또는 "네거티브" 제한의 사용에 대한 선행 기반의 역할을 하도록 의도된다.

[00120] 그러한 배타적인 전문용어의 사용 없이, 본 개시내용과 연관된 청구항들의 용어 "포함하다"는, 주어진 수의 엘리먼트들이 그러한 청구항들에서 열거되는지 또는 특징의 부가가 그러한 청구항들에서 기재된 엘리먼트의 성질을 변환시키는 것으로 간주될 수 있는지에 관계없이, 임의의 부가적인 엘리먼트의 포함을 허용해야 한다. 본원에서 상세하게 정의된 것을 제외하고, 본원에서 사용된 모든 기술 용어들 및 과학 용어들은 청구 유효성을 유지하면서 가능한 일반적으로 이해되는 의미로 광범위하게 주어질 것이다.

[00121] 본 발명의 폭은 제공된 예들 및/또는 대상 명세서로 제한되는 것이 아니라 오히려 본 개시내용과 연관된 청구 언어의 범위에 의해서만 제한된다.

[00122] 전술한 명세서에서, 본 발명은 본 발명의 특정 실시예들을 참조하여 설명되었다. 그러나, 본 발명의 더 넓은 사상 및 범위를 벗어나지 않으면서 다양한 변형들 및 변화들이 본 발명에 행해질 수 있다는 것은 명백할 것이다. 예컨대, 위에서-설명된 프로세스 흐름들은, 프로세스 액션들의 특정한 순서를 참조하여 설명된다. 그러나, 설명된 프로세스 동작들 대부분의 순서는 본 발명의 범위 또는 동작에 영향을 주지 않으면서 변화될 수 있다. 그에 따라서, 명세서 및 도면들은 제한적인 의미보다는 예시적인 의미로 간주될 것이다.

Claims

청취자의 머리 포즈를 검출하기 위한 센서, 및
프로세서를 포함하고,
상기 프로세서는,
상기 청취자의 검출된 머리 포즈에 기반하여, 제1 복수의 소스들에 대응하는 제1 오디오 데이터를 제2 복수의 소스들에 대응하는 제2 오디오 데이터로 렌더링하고 ― 상기 제1 복수의 소스들 각각은 제1 복수의 포지션들의 개개의 포지션들을 갖고, 상기 제2 복수의 소스들 각각은 제2 복수의 포지션들의 개개의 포지션들을 가짐 ―,
상기 제2 오디오 데이터에 기반하여, 상기 청취자에 대한 상기 제1 오디오 데이터에 대응하는 공간화 사운드 필드를 재생하며,
상기 제2 복수의 소스들은 상기 제1 복수의 소스들보다 더 적은 소스들로 구성되고, 그리고
상기 제1 오디오 데이터를 상기 제2 오디오 데이터로 렌더링하는 것은, 상기 제2 복수의 소스들 각각이 상기 제2 복수의 포지션들의 개개의 포지션에서 상기 제1 복수의 소스들에 의해 생성된 가상 사운드를 기록하는 것을 포함하는,
공간화 오디오 시스템(spatialized audio system).
제1 항에 있어서,
상기 제1 복수의 소스들은 가상 사운드 소스들인,
공간화 오디오 시스템.
제1 항에 있어서,
상기 제2 복수의 소스들은 가상 사운드 소스들인,
공간화 오디오 시스템.
제1 항에 있어서,
상기 제1 오디오 데이터를 상기 제2 오디오 데이터로 렌더링하는 것은, 상기 제1 오디오 데이터를 상기 제2 오디오 데이터로 와핑(warp)하는 것을 포함하는,
공간화 오디오 시스템.
제1 항에 있어서,
상기 센서는,
상기 프로세서가 상기 제1 오디오 데이터를 상기 제2 오디오 데이터로 렌더링하기 직전에 상기 청취자의 머리 포즈를 검출하는,
공간화 오디오 시스템.
제1 항에 있어서,
상기 제1 오디오 데이터는 완전한 오디오 스트림 데이터 세트인,
공간화 오디오 시스템.
제1 항에 있어서,
상기 제2 복수의 소스들은 8개 이하의 소스들로 구성되는,
공간화 오디오 시스템.
제1 항에 있어서,
상기 제2 복수의 포지션들 각각은 상이한 포지션인,
공간화 오디오 시스템.
제1 항에 있어서,
상기 제2 복수의 포지션들 각각은 상기 제1 복수의 포지션들 각각보다 상기 청취자에 더 가까운,
공간화 오디오 시스템.
제1 항에 있어서,
상기 제2 복수의 포지션들은 단일 평면에 위치되지 않는,
공간화 오디오 시스템.
제1 항에 있어서,
상기 제2 오디오 데이터에 기반하여 사운드를 생성하기 위해, 상기 제2 복수의 소스들에 대응하는 복수의 스피커들을 더 포함하는,
공간화 오디오 시스템.
제11 항에 있어서,
상기 복수의 스피커들 각각은 상기 제2 복수의 포지션들 각각에서의 상기 제2 복수의 소스들의 개개의 소스에 대응하는,
공간화 오디오 시스템.
제1 항에 있어서,
상기 제1 오디오 데이터를 상기 제2 오디오 데이터로 렌더링하는 것은, 상기 제1 복수의 소스들의 개개의 포지션들에 추가적으로 기반하는,
공간화 오디오 시스템.
제1 항에 있어서,
상기 제1 오디오 데이터를 상기 제2 오디오 데이터로 렌더링하는 것은, 상기 청취자의 병진운동(translation)보다 회전에 더 민감한,
공간화 오디오 시스템.
제1 항에 있어서,
상기 제1 오디오 데이터를 상기 제2 오디오 데이터로 렌더링하는 것은, 회전-전용 오디오 변환인,
공간화 오디오 시스템.
제1 항에 있어서,
상기 센서는 상기 청취자의 제2 머리 포즈를 검출하고,
상기 프로세서는 상기 청취자의 검출된 제2 머리 포즈에 기반하여, 상기 제2 오디오 데이터를 제3 복수의 소스들에 대응하는 제3 오디오 데이터로 렌더링하도록 구성되고 ― 상기 제3 복수의 소스들 각각은 제3 복수의 포지션들 중 하나를 가짐 ―, 그리고
상기 제2 오디오 데이터를 상기 제3 오디오 데이터로 렌더링하는 것은, 상기 제3 복수의 소스들 각각이 상기 제3 복수의 포지션들의 개개의 포지션에서 상기 제2 복수의 소스들에 의해 생성된 가상 사운드를 기록하는 것을 포함하는,
공간화 오디오 시스템.
제16 항에 있어서,
상기 제2 오디오 데이터를 상기 제3 오디오 데이터로 렌더링하는 것은, 상기 제2 오디오 데이터를 상기 제3 오디오 데이터로 와핑하는 것을 포함하는,
공간화 오디오 시스템.
제16 항에 있어서,
상기 센서는,
상기 프로세서가 상기 제2 오디오 데이터를 상기 제3 오디오 데이터로 렌더링하기 직전에 상기 청취자의 제2 머리 포즈를 검출하는,
공간화 오디오 시스템.
제16 항에 있어서,
상기 제3 복수의 소스들은 상기 제2 복수의 소스들보다 적은 수의 소스들로 구성되는,
공간화 오디오 시스템.
제16 항에 있어서,
상기 제3 오디오 데이터에 기반하여 사운드를 생성하기 위해, 상기 제3 복수의 소스들에 대응하는 복수의 스피커들을 더 포함하는,
공간화 오디오 시스템.