KR20220011152A - 룸 모드의 로컬 효과를 통합하기 위한 음향 필터 결정 - Google Patents

룸 모드의 로컬 효과를 통합하기 위한 음향 필터 결정 Download PDF

Info

Publication number
KR20220011152A
KR20220011152A KR1020217041515A KR20217041515A KR20220011152A KR 20220011152 A KR20220011152 A KR 20220011152A KR 1020217041515 A KR1020217041515 A KR 1020217041515A KR 20217041515 A KR20217041515 A KR 20217041515A KR 20220011152 A KR20220011152 A KR 20220011152A
Authority
KR
South Korea
Prior art keywords
target area
room
user
headset
audio
Prior art date
Application number
KR1020217041515A
Other languages
English (en)
Inventor
가리 세바스티아 비센스 아멘구알
칼 쉬슬러
필립 로빈슨
Original Assignee
페이스북 테크놀로지스, 엘엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 페이스북 테크놀로지스, 엘엘씨 filed Critical 페이스북 테크놀로지스, 엘엘씨
Publication of KR20220011152A publication Critical patent/KR20220011152A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/033Headphones for stereophonic communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/15Transducers incorporated in visual displaying devices, e.g. televisions, computer displays, laptops
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Stereophonic System (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

본 명세서에서는 룸 모드들의 로컬 효과들을 통합하기 위한 음향 필터 결정이 제시된다. 타겟 영역의 모델은 타겟 영역의 3차원 가상 표현에 부분적으로 기초하여 결정된다. 일부 실시예들에서, 모델은 후보 모델들의 그룹으로부터 선택된다. 타겟 영역의 룸 모드들은 모델의 형태 및/또는 치수에 기초하여 결정된다. 룸 모드 파라미터들은 타겟 영역 내의 사용자의 포지션 및 룸 모드들 중 적어도 하나에 기초하여 결정된다. 룸 모드 파라미터들은 오디오 콘텐트에 적용될 때 적어도 하나의 룸 모드와 연관된 주파수들에서 및 사용자 포지션에서 음향 왜곡을 시뮬레이션하는 음향 필터를 나타낸다. 음향 왜곡을 시뮬레이션한다. 음향 필터는 룸 모드 파라미터에 기초하여 헤드셋에서 생성되고, 오디오 콘텐트를 제공하기 위해 사용된다.

Description

룸 모드의 로컬 효과를 통합하기 위한 음향 필터 결정
관련 출원의 교차 참조
본 출원은 2019년 5월 21일에 출원된 미국 출원 번호 16/418,426로부터의 우선권을 주장하며, 그 내용은 모든 목적을 위해 그 전체가 여기에 참조로 포함된다.
배경
본 개시는 일반적으로 오디오의 프리젠테이션에 관한 것이고, 특히 룸 모드(room modes)의 로컬 효과를 통합하기 위한 음향 필터의 결정에 관한 것이다.
물리적 영역(예를 들어, 룸)은 하나 이상의 룸 모드들을 가질 수 있다. 룸 모드들은 다양한 룸 표면들에서 반사되는 사운드에 의해 야기된다. 룸 모드는 룸의 주파수 응답에서 안티 노드(피크(peaks))와 노드(딥(dips))를 모두 야기할 수 있다. 이러한 정상파의 노드와 안티노드로 인해 공진 주파수의 크기(loudness)가 룸의 상이한 위치들에서 달라진다. 또한, 룸 모드의 효과는 특히 욕실, 사무실, 및 소규모 회의실과 같은 작은 방들에서 두드러질 수 있다. 기존의 가상 현실 시스템들은 특정 가상 현실 환경과 연관되는 룸 모드들을 설명하지 못한다. 그 시스템들은 일반적으로 환경의 물리적 모델링과 관련이 없는 낮은 주파수 또는 예술적 렌더링에서 신뢰할 수 없는 기하학적 음향 시뮬레이션에 의존한다. 따라서, 기존의 가상 현실 시스템들에 의해 제공되는 오디오는 가상 현실 환경(예를 들어, 작은 룸들)과 연관된 현실감이 부족할 수 있다.
본 개시의 실시예들은 룸 모드의 로컬 효과를 통합하기 위한 음향 필터를 결정하기 위한 방법, 컴퓨터 판독가능한 매체, 및 장치를 지원한다.
일부 실시예들에서, 타겟 영역(예를 들어, 가상 영역, 사용자의 물리적 환경 등)의 모델은 타겟 영역의 3차원(3D) 가상 표현에 부분적으로 기초하여 결정된다. 타겟 영역의 룸 모드는 모델을 사용하여 결정된다. 하나 이상의 룸 모드 파라미터들은 타겟 영역 내의 사용자의 포지션 및 룸 모드들 중 적어도 하나에 기초하여 결정된다. 하나 이상의 룸 모드 파라미터들은 음향 필터를 나타낸다(describe). 음향 필터는 하나 이상의 룸 모드 파라미터들에 기초하여 생성될 수 있다. 음향 필터는 적어도 하나의 룸 모드와 연관된 주파수에서 음향 왜곡을 시뮬레이션한다. 오디오 콘텐트는 부분적으로 음향 필터에 기초하여 제공된다. 오디오 콘텐트는 타겟 영역 내의 객체(예를 들어, 가상 객체)로부터 발생되는 것처럼 보이도록 제공된다.
본 발명에 따라, 장치가 제공되며, 상기 장치는: 타겟 영역의 3차원 가상 표현에 부분적으로 기초하여 타겟 영역의 모델을 결정하도록 구성된 매칭 모듈(matching module); 상기 모델을 사용하여 타겟 영역의 룸 모드들을 결정하도록 구성된 룸 모드 모듈; 및 타겟 영역 내의 사용자의 포지션 및 룸 모드들 중 적어도 하나의 룸 모델에 기초하여 하나 이상의 룸 모드 파라미터들을 결정하도록 구성된 음향 필터 모듈을 포함하고, 하나 이상의 룸 모드 파라미터들은 사용자에게 오디오 콘텐트를 제공하기 위해 헤드셋에 의해 사용되는 음향 필터를 나타내며(describe), 오디오 콘텐트에 적용되는 음향 필터는 적어도 하나의 룸 모드와 연관된 주파수들에서 및 사용자의 포지션에서 음향 왜곡을 시뮬레이션한다.
선택적으로, 매칭 모듈은, 3차원 가상 표현을 복수의 후보 모델들과 비교하고 3차원 가상 표현과 매칭하는(match) 복수의 후보 모델들 중 하나를 타겟 영역의 모델로 식별함으로써, 타겟 영역의 3차원 재구성에 부분적으로 기초하여 타겟 영역의 모델을 결정하도록 구성된다.
선택적으로, 룸 모드 모듈은 모델의 형태(shape)에 기초하여 룸 모드들을 결정함으로써 모델을 사용하여 타겟 영역의 룸 모드들을 결정하도록 구성된다.
선택적으로, 음향 왜곡은 주파수의 함수로서의 증폭을 나타낸다.
선택적으로, 음향 필터 모듈은 헤드셋에서 오디오 콘텐트를 렌더링하기 위해 음향 필터를 나타내는 파라미터들을 헤드셋으로 전송하도록 구성된다.
본 발명에 따라, 방법이 더 제공되며, 상기 방법은: 타겟 영역의 3차원 가상 표현에 부분적으로 기초하여 타겟 영역의 모델을 결정하는 단계; 상기 모델을 사용하여 타겟 영역의 룸 모드들을 결정하는 단계; 및 타겟 영역 내의 사용자의 포지션 및 룸 모드들 중 적어도 하나에 기초하여 하나 이상의 룸 모드 파라미터들을 결정하는 단계를 포함하고, 하나 이상의 룸 모드 파라미터들은 사용자에게 오디오 콘텐트를 제공하기 위해 헤드셋에 의해 사용되는 음향 필터를 나타내며, 오디오 콘텐트에 적용되는 음향 필터는 적어도 하나의 룸 모드와 연관된 주파수들에서 및 사용자의 포지션에서 음향 왜곡을 시뮬레이션한다.
선택적으로, 방법은 헤드셋으로부터 타겟 영역의 적어도 일부를 나타내는 깊이 정보를 수신하는 단계; 및 상기 깊이 정보를 사용하여 상기 3차원 재구성의 적어도 일부를 생성하는 단계를 더 포함한다.
선택적으로, 타겟 영역의 3차원 재구성에 부분적으로 기초하여 타겟 영역의 모델을 결정하는 단계는 3차원 가상 표현을 복수의 후보 모델들과 비교하는 단계; 및 3차원 가상 표현과 매칭하는 복수의 후보 모델들 중 하나를 타겟 영역의 모델로 식별하는 단계를 포함한다.
선택적으로, 방법은 타겟 영역의 적어도 일부의 컬러 이미지 데이터를 수신하는 단계; 컬러 이미지 데이터를 사용하여 타겟 영역의 일부에서 표면들의 재료 조성(material composition)을 결정하는 단계; 표면의 재료 조성에 기초하여 각 표면에 대한 감쇠 파라미터를 결정하는 단계; 및 각 표면의 감쇠 파라미터로 모델을 업데이트하는 단계를 포함한다.
선택적으로, 모델을 사용하여 타겟 영역의 룸 모드들을 결정하는 단계는 모델의 형태에 기초하여 룸 모드들을 결정하는 단계를 더 포함한다.
선택적으로, 방법은 헤드셋에서 오디오 콘텐트를 렌더링하기 위해 음향 필터를 나타내는 파라미터들을 헤드셋으로 전송하는 단계를 더 포함한다.
선택적으로, 타겟 영역은 가상 영역이다. 선택적으로, 가상 영역은 사용자의 물리적 환경과 다르다. 선택적으로, 타겟 영역은 사용자의 물리적 환경이다.
본 발명에 따라, 또 다른 방법이 제공되며, 상기 방법은 하나 이상의 룸 모드 파라미터들에 기초하여 음향 필터를 생성하는 단계로서, 상기 음향 필터는 타겟 영역의 적어도 하나의 룸 모드와 연관된 주파수들에서 및 타겟 영역 내의 사용자의 포지션에서 음향 왜곡을 시뮬레이션하는, 상기 음향 필터를 생성하는 단계; 및 음향 필터를 사용하여 사용자에게 오디오 콘텐트를 제공하는 단계로서, 상기 오디오 콘텐트는 타겟 영역 내의 객체로부터 발생되고 타겟 영역 내의 사용자의 포지션에서 수신되는 것처럼 보이는, 상기 오디오 콘텐트를 제공하는 단계를 포함한다.
선택적으로, 음향 필터는 적어도 하나의 룸 모드의 모달 주파수들에서 Q 값 또는 이득을 갖는 복수의 무한 임펄스 응답 필터들을 포함한다. 선택적으로, 음향 필터는 적어도 하나의 룸 모드의 모달 주파수들에서 Q 값 또는 이득을 갖는 복수의 전체 통과 필터들(all-pass filters)을 더 포함한다.
선택적으로, 방법은 룸 모드 쿼리(room mode query)를 오디오 서버에 전송하는 단계로서, 상기 룸 모드 쿼리는 타겟 영역의 가상 정보 및 사용자의 위치 정보를 포함하는, 상기 룸 모드 쿼리를 전송하는 단계; 및 오디오 서버로부터 하나 이상의 룸 모드 파라미터들을 수신하는 단계를 더 포함한다.
선택적으로, 방법은 적어도 하나의 룸 모드 및 사용자의 포지션 변화들에 기초하여 음향 필터를 동적으로 조정하는 단계를 더 포함한다.
도 1은 하나 이상의 실시예들에 따라 룸에서 룸 모드들의 로컬 효과들을 예시한다.
도 2는 하나 이상의 실시예들에 따라 큐브 룸의 축 모드들, 접선 모드, 및 경사 모드를 예시한다.
도 3은 하나 이상의 실시예들에 따른 오디오 시스템의 블록도이다.
도 4는 하나 이상의 실시예들에 따른 오디오 서버의 블록도이다.
도 5는 하나 이상의 실시예들에 따라 음향 필터를 나타내는 룸 모드 파라미터들을 결정하기 위한 프로세스를 도시하는 흐름도이다.
도 6은 하나 이상의 실시예들에 따른 오디오 어셈블리의 블록도이다.
도 7은 하나 이상의 실시예들에 따라 음향 필터에 부분적으로 기초하여 오디오 콘텐트를 제공하는 프로세스를 예시하는 흐름도이다.
도 8은 하나 이상의 실시예들에 따라 헤드셋 및 오디오 서버를 포함하는 시스템 환경의 블록도이다.
도 9는 하나 이상의 실시예들에 따라 오디오 어셈블리를 포함하는 헤드셋의 사시도이다.
도면들은 단지 예시의 목적들로 본 개시내용의 실시예들을 도시한다. 당업자는 다음의 설명으로부터 본 명세서에서 예시된 구조들 및 방법들의 대안적인 실시예들이 본 명세서에서 기술된 본 개시내용의 원리들, 또는 언급된 이점들로부터 벗어나지 않고 채용될 수 있음을 쉽게 인식할 것이다.
본 개시의 실시예들은 인공 현실 시스템을 포함하거나 이와 함께 구현될 수 있다. 인공 현실은 사용자에게 제공 전에 일부 방식으로 조정된 현실의 형태이고, 이는 예를 들어 가상 현실(VR), 증강 현실(AR), 혼합 현실(MR), 하이브리드 현실 또는 이들의 일부 조합 및/또는 유도물을 포함할 수 있다. 인공 현실 콘텐트는 완전하게 생성된 콘텐트 또는 캡처된 (예를 들어, 실세계(real-world)) 콘텐트와 결합되는 생성된 콘텐트를 포함할 수 있다. 인공 현실 콘텐트는 비디오, 오디오, 햅틱 피드백, 또는 그들의 일부 조합을 포함할 수 있으며, 그들 중 임의의 것은 단일 채널로 또는 다중 채널들(예컨대, 뷰어에게 3차원 효과를 생성하는 스테레오 비디오와 같음)로 제공될 수 있다. 부가적으로, 일부 실시예들에서, 인공 현실은 또한 예를 들어 인공 현실에서 콘텐트를 생성하고/하거나 인공 현실에서 달리 사용되는(예를 들어, 활동들을 수행하는), 애플리케이션들, 제품들, 액세서리들, 서비스들 또는 이들의 일부 조합과 관련될 수 있다. 인공 현실 콘텐츠를 제공하는 인공 현실 시스템은 헤드셋, 호스트 컴퓨터 시스템에 연결된 헤드 마운트 디스플레이(HMD), 독립형 HMD, 근안 디스플레이(NED), 모바일 디바이스 또는 컴퓨팅 시스템, 또는 인공 현실 콘텐트를 한명 이상의 뷰어들에게 제공할 수 있는 임의의 다른 하드웨어 플랫폼을 포함하는 다양한 플랫폼들에서 구현될 수 있다.
룸 모드들의 로컬 효과들을 통합하기 위한 음향 필터의 결정을 위한 오디오 시스템이 여기에 제공된다. 오디오 어셈블리에 의해 제공되는 오디오 콘텐트는 사용자의 타겟 영역과 연관된 룸 모드들에 의해 야기될 수 있는 음향 왜곡(예를 들어, 포지션 및 주파수의 함수로서의 증폭)이 제공된 오디오 콘텐트의 일부가 될 수 있도록 음향 필터를 사용하여 필터링된다. 여기에서 사용되는 증폭은 신호 강도의 증가 또는 감소를 나타내는 데 사용될 수 있다. 타겟 영역은 가상 영역 또는 사용자에 의해 점유되는 로컬 영역일 수 있다. 가상 영역은 로컬 영역, 일부 다른 가상 영역, 또는 이들의 일부 조합에 기초할 수 있다. 예를 들어, 로컬 영역은 오디오 시스템의 사용자에 의해 점유되는 거실(living room)일 수 있고, 가상 영역은 가상 콘서트 경연장 또는 가상 회의실일 수 있다.
오디오 시스템은 오디오 서버에 통신 가능하게 결합된 오디오 어셈블리를 포함한다. 오디오 어셈블리는 사용자가 착용한 헤드셋에서 구현될 수 있다. 오디오 어셈블리는 (예를 들어, 네트워크를 통해) 오디오 서버로부터 하나 이상의 룸 모드 파라미터들을 요청할 수 있다. 상기 요청은, 예를 들면, 타겟 영역의 적어도 일부의 시각 정보(깊이 정보, 컬러 정보 등), 사용자의 위치 정보, 가상 사운드 소스의 위치 정보, 사용자에 의해 점유되는 로컬 영역의 시각 정보, 또는 이들의 일부 조합을 포함할 수 있다.
오디오 서버는 하나 이상의 룸 모드 파라미터들을 결정한다. 오디오 서버는 상기 요청의 정보를 사용하여 타겟 영역의 모델을 식별 및/또는 생성한다. 일부 실시예들에서, 오디오 서버는 상기 요청에서의 타겟 영역의 시각 정보에 기초하여 타겟 영역의 적어도 일부의 3D 가상 표현을 개발한다(develop). 오디오 서버는 3D 가상 표현을 사용하여 복수의 후보 모델들로부터 모델을 선택한다. 오디오 서버는 모델을 사용하여 타겟 영역의 룸 모드들을 결정한다. 예를 들어, 오디오 서버는 모델의 형태나 치수들에 기초하여 룸 모드들을 결정한다. 룸 모드들은 하나 이상의 유형들의 룸 모드들을 포함할 수 있다. 룸 모드들의 유형들은 예를 들어 축 모드(axial modes), 접선 모드(tangential modes), 및 경사 모드(oblique modes)를 포함할 수 있다. 각각의 유형에 대해, 룸 모드들은 1차 모드, 고차 모드, 또는 이들의 일부 조합을 포함할 수 있다. 오디오 서버는 사용자의 포지션 및 룸 모드들 중 적어도 하나에 기초하여 하나 이상의 룸 모드 파라미터들(예를 들어, Q 팩터, 이득, 진폭, 모달 주파수 등)을 결정한다. 오디오 서버는 또한 가상 사운드 소스의 위치 정보를 사용하여 룸 모드 파라미터들을 결정할 수 있다. 예를 들어, 오디오 서버는 가상 사운드 소스의 위치 정보를 사용하여 룸 모드가 활성화되는지(excited) 여부를 결정한다. 오디오 서버는 가상 사운드 소스가 안티노드 포지션(antinode position)에 위치한다는 데 기초하여 룸 모드가 활성화되지 않은 것으로 결정할 수 있다.
룸 모드 파라미터들은 오디오 콘텐트에 적용될 때 타겟 영역 내의 사용자의 포지션에서 음향 왜곡을 시뮬레이션하는 음향 필터를 나타낸다. 음향 왜곡은 적어도 하나의 룸 모드와 연관된 주파수들에서의 증폭을 나타낼 수 있다. 오디오 서버는 룸 모드 파라미터들 중 하나 이상을 헤드셋으로 전송한다.
오디오 어셈블리는 오디오 서버로부터의 하나 이상의 룸 모드 파라미터들을 사용하여 음향 필터를 생성한다. 오디오 어셈블리는 생성된 음향 필터를 사용하여 오디오 콘텐트를 제공한다. 일부 실시예들에서, 오디오 어셈블리는 사용자의 포지션 변화들 및/또는 사용자와 가상 객체들 사이의 상대적 포지션 변화들을 동적으로 검출하고, 변화들에 기초하여 음향 필터를 업데이트한다.
일부 실시예들에서, 오디오 콘텐트는 공간화된 오디오 콘텐트이다. 공간화된 오디오 콘텐트는 사용자 주변 환경의 하나 이상의 지점들(예를 들어, 타겟 영역의 가상 객체)에서 발생하는 것처럼 보이는 방식으로 제공되는 오디오 콘텐트이다.
일부 실시예들에서, 타겟 영역은 사용자의 로컬 영역일 수 있다. 예를 들어, 타겟 영역은 사용자가 앉아 있는 사무실 공간이다. 타겟 영역이 실제 사무실이기 때문에, 오디오 어셈블리는 실제 사운드 소스가 사무실의 특정 위치로부터 들리는 방법과 일치하는 방식으로, 제공된 오디오 콘텐트를 공간화하도록 하는 음향 필터를 생성한다.
일부 다른 실시예들에서, 타겟 영역은 (예를 들어, 헤드셋을 통해) 사용자에게 제공되는 가상 영역이다. 예를 들어, 타겟 영역은 가상 회의실일 수 있다. 타겟 영역이 가상 회의실이기 때문에, 오디오 어셈블리는 실제 사운드 소스가 가상 회의실의 특정 위치로부터 들리는 방법과 일치하는 방식으로, 제공된 오디오 콘텐트를 공간화하도록 하는 음향 필터를 생성한다. 예를 들어, 사용자는 그가(그녀가) 가상 스피커가 말하고 있는 것을 보고 있는 가상 청중과 함께 앉아 있는 것처럼 보이게 하는 가상 콘텐트를 제공받을 수 있다. 그리고 음향 필터에 의해 수정되는 제공된 오디오 콘텐트는 스피커가 회의실에서 말한 것처럼 사용자에게 들리게 한다 - 이는 사용자가 (큰 회의실과는 상당히 상이한 음향 특성들을 갖는) 사무실에 실제로 있음에도 불구하고 그렇다 -.
도 1은 하나 이상의 실시예들에 따라 룸(100)에서 룸 모드들의 로컬 효과들을 예시한다. 사운드 소스(105)는 룸(100) 내부에 위치하고 음파를 룸(100) 내부로 방출한다. 음파는 룸(100)의 근본적인 공진을 야기하고, 룸 모드들이 룸(100)에서 발생한다. 도 1은 룸의 제1 모달 주파수에서의 1차 모드(110) 및 제1 모달 주파수의 2배인 제2 모달 주파수에서의 2차 모드(120)를 도시한다. 도 1에는 도시되지 않았으나, 룸(100)에는 더 높은 차수들의 룸 모드들이 존재할 수 있다. 1차 모드(110) 및 2차 모드(120)는 모두 축 모드일 수 있다.
룸 모드들은 룸(100)의 형태, 치수, 및/또는 음향 특성들에 따라 달라진다. 룸 모드들은 룸(100) 내의 서로 다른 위치들에서 서로 다른 양들의 음향 왜곡을 야기한다. 음향 왜곡은 모달 주파수들(및 모달 주파수들의 배수)에서 오디오 신호의 양의 증폭(즉, 진폭의 증가) 또는 음의 증폭(즉, 감쇠)일 수 있다.
1차 모드(110) 및 2차 모드(120)는 룸(100)의 서로 다른 포지션들에서 피크(peaks)와 딥(dips)을 가지며, 이는 룸(100) 내의 포지션 및 주파수의 함수로서 음파의 상이한 증폭 레벨들을 야기한다. 도 1은 룸(100) 내의 3개의 상이한 포지션들(130, 140 및 150)을 도시한다. 포지션(130)에서, 1차 모드(110) 및 2차 모드(120)는 각각 피크를 갖는다. 포지션(140)으로 이동하면, 1차 모드(110) 및 2차 모드(120)가 모두 감소하고, 2차 모드(120)는 딥(dip)을 갖는다. 포지션(150)으로 더 이동하면, 1차 모드(110)에 널(null)이 있게 되고, 2차 모드(120)에 피크가 있게 된다. 1차 모드(110)와 2차 모드(120)의 효과들을 결합하면, 오디오 신호의 증폭은 포지션(130)에서 가장 높고 포지션(150)에서 가장 낮다. 따라서, 사용자가 감지하는 사운드는 이들이 있게 되는 룸과 이들이 룸 내에 있게 되는 장소에 기초하여 크게 달라질 수 있다. 아래에서 설명하는 바와 같이, 사용자에 의해 점유되는 타겟 영역에 대한 룸 모드들을 시뮬레이션하고, 룸 모드들을 고려하여 오디오 콘텐트를 사용자에게 제공함으로써 사용자에게 추가적인 수준의 사실감을 제공하는 시스템이 설명된다.
도 2는 하나 이상의 실시예들에 따라 큐브 룸의 축 모드들(210), 접선 모드(220), 및 경사 모드(230)를 예시한다. 룸 모드들은 다양한 룸 표면들에서 반사되는 사운드에 의해 야기된다. 도 2의 룸은 정육면체 형태이며 6개의 표면들(벽 4개, 천장 1개, 바닥 1개)을 포함한다. 룸에는 3가지 유형들의 모드들: 축 모드(210), 접선 모드(220) 및 경사 모드(230)이 있으며, 이들은 도 2에서 대시 라인들로 표시된다. 축 모드(210)는 룸의 두 평행한 표면들 사이에 공진을 수반한다. 3개의 축 모드들(210)이 룸 내에서 발생한다: 하나는 천장과 바닥을 수반하고, 다른 두 개는 각각 한 쌍의 평행한 벽들을 수반한다. 다른 형태들의 룸들인 경우, 상이한 수의 축 모드들(210)이 발생할 수 있다. 접선 모드(220)는 두 세트의 평행한 표면들, 모두 천장과 바닥이 있는 4개의 벽들 또는 2개의 벽들을 수반한다. 경사 룸 모드(230)는 룸의 6개 표면들 모두를 수반한다.
축의 룸 모드들(210)은 3가지 유형의 모드들 중 가장 강력한 모드이다. 접선의 룸 모드들(220)은 축의 룸 모드(210)의 절반 정도 강할 수 있고, 경사의 룸 모드들(230)은 축의 룸 모드(210)의 1/4만큼 강할 수 있다. 일부 실시예들에서, 오디오 콘텐트에 적용될 때 룸 내의 음향 왜곡을 시뮬레이션하는 음향 필터는 축의 룸 모드들(210)에 기초하여 결정된다. 일부 다른 실시예들에서, 접선의 룸 모드들(220) 및/또는 경사의 룸 모드들(230)이 또한 음향 필터를 결정하는 데 사용된다. 축의 룸 모드(210), 접선의 룸 모드(220), 및 경사의 룸 모드(230) 각각은 일련의 모달 주파수들에서 발생할 수 있다. 3가지 유형의 룸 모드들의 모달 주파수들은 상이할 수 있다.
도 3은 하나 이상의 실시예들에 따른 오디오 시스템(300)의 블록도다. 오디오 시스템(300)은 네트워크(330)를 통해 오디오 서버(320)에 연결된 헤드셋(310)을 포함한다. 헤드셋(310)은 룸(350)에서 사용자(340)에 의해 착용될 수 있다.
네트워크(330)는 헤드셋(310)을 오디오 서버(320)에 연결한다. 네트워크(330)는 무선 및/또는 유선 통신 시스템들 모두를 사용하여 타겟 영역 및/또는 광역 네트워크들의 임의의 조합을 포함할 수 있다. 예를 들어, 네트워크(330)는 모바일 전화 네트워크들뿐만 아니라 인터넷을 포함할 수 있다. 한 실시예에서, 네트워크(330)는 표준 통신 기술 및/또는 프로토콜들을 사용한다. 따라서, 네트워크(330)는 이더넷, 802.11, 마이크로웨이브 액세스를 위한 전세계 상호 운용성(WiMAX: worldwide interoperability for microwave access), 2G/3G/4G 모바일 통신 프로토콜, 디지털 가입자 회선(DSL), 비동기 전송 모드(ATM), 인피니밴드(InfiniBand), PCI 익스프레스 어드밴스드 스위칭 등과 같은 기술들을 사용하는 링크들을 포함할 수 있다. 유사하게, 네트워크(330)에서 사용되는 네트워킹 프로토콜들은 다중 프로토콜 레이블 스위칭(MPLS), 전송 제어 프로토콜/인터넷 프로토콜(TCP/IP), 사용자 데이터그램 프로토콜(UDP), 하이퍼텍스트 전송 프로토콜(HTTP), 단순 메일 전송 프로토콜(SMTP), 파일 전송 프로토콜(FTP) 등을 포함할 수 있다. 네트워크(330)을 통해 교환되는 데이터는 이진 형식의 이미지 데이터를 포함하는 기술들 및/또는 포맷들(예를 들어, 포터블 네트워크 그래픽(Portable Network Graphics)(PNG)), HTML(Hypertext Markup Language), XML(Extensible Markup Language) 등을 사용하여 표현될 수 있다. 또한, 링크들의 모두 또는 일부는 보안 소켓 계층(SSL), 전송 계층 보안(TLS), 가상 사설망(VPN), 인터넷 프로토콜 보안(IPsec) 등과 같은 통상의 암호화 기술들을 사용하여 암호화될 수 있다. 네트워크(330)는 또한 동일한 또는 상이한 룸들에 위치한 다중의 헤드셋들을 동일한 오디오 서버(320)에 연결할 수 있다.
헤드셋(310)은 사용자에게 미디어 콘텐트를 제공한다. 일 실시예들에서, 헤드셋(310)은 예를 들어, NED 또는 HMD일 수 있다. 일반적으로, 헤드셋(310)은 헤드셋(310)의 렌즈 중 하나 또는 둘 다를 사용하여 미디어 콘텐트가 제공되도록 사용자의 얼굴에 착용될 수 있다. 그러나, 헤드셋(310)은 또한, 미디어 콘텐트가 다른 방식으로 사용자에게 제공되도록 사용될 수도 있다. 헤드셋(310)에 의해 제시되는 미디어 콘텐트의 예들은 하나 이상의 이미지들, 비디오 콘텐트, 오디오 콘텐트, 또는 이들의 일부 조합을 포함한다. 헤드셋(310)은 오디오 어셈블리를 포함하고, 또한 적어도 하나의 깊이 카메라 어셈블리(DCA) 및/또는 적어도 하나의 수동 카메라 어셈블리(PCA)를 포함할 수 있다. 도 8과 관련하여 아래에서 자세히 설명되는 바와 같이, DCA는 타겟 영역(예를 들어, 룸(350))의 일부 또는 전체에 대한 3D 기하학 형상(geometry)을 나타내는 깊이 이미지 데이터를 생성하고, PCA는 타겟 영역의 일부 또는 전체에 대한 컬러 이미지 데이터를 생성한다. 일부 실시예들에서, 헤드셋(310)의 DCA 및 PCA는 룸(350)의 시각 정보를 결정하기 위해 헤드셋(310)에 장착된 SLAM(Simultaneous Localization and Mapping) 센서들의 일부이다. 따라서, 적어도 하나의 DCA에 의해 캡처된 깊이 이미지 데이터 및/또는 적어도 하나의 PCA에 의해 캡처된 컬러 이미지 데이터는 헤드셋(310)의 SLAM 센서들에 의해 결정된 시각 정보라고 할 수 있다. 또한, 헤드셋(310)은 타겟 영역 내에서 헤드셋(310)의 포지션(예를 들어, 위치 및 포즈)을 추적하는 IMU(Inertial Measurement Unit) 또는 포지션 센서들을 포함할 수 있다. 헤드셋(310)은 또한 타겟 영역 내에서 헤드셋(310)의 위치를 추가로 추적하기 위해 GPS(Global Positioning System) 수신기를 포함할 수 있다. 타겟 영역 내에서 헤드셋(310)의 포지션(지향방향 포함)은 헤드셋(310)의 위치 정보라고 지칭된다. 헤드셋의 위치 정보는 헤드셋(310)의 사용자(340)의 포지션을 나타낼 수 있다.
오디오 어셈블리는 오디오 콘텐트를 사용자(340)에게 제공한다. 오디오 콘텐트는 타겟 영역 내의 객체(실제 또는 객체)로부터 발생하는 것처럼 보이도록 하는 방식으로 제공될 수 있으며, 이는 또한 공간화된 오디오 콘텐트라고 알려져 있다. 타겟 영역은 룸(350)과 같은 사용자의 물리적 환경 또는 가상 영역일 수 있다. 예를 들어, 오디오 어셈블리에 의해 제공되는 오디오 콘텐트는 가상 회의실의 가상 스피커로부터 발생하는 것처럼 보일 수 있다(헤드셋(310)을 통해 사용자(340)에게 제공됨). 일부 실시예들에서, 타겟 영역 내의 사용자(340)의 포지션과 연관된 룸 모드들의 로컬 효과들은 오디오 콘텐트에 통합된다. 룸 모드들의 로컬 효과들은 타겟 영역 내의 사용자(340)의 포지션에서 발생하는 음향 왜곡(특정 주파수의)으로 표현된다. 음향 왜곡은 타겟 영역에서 사용자의 포지션이 변화함에 따라 변화될 수 있다. 일부 실시예들에서, 타겟 영역은 룸(350)이다. 일부 다른 실시예들에서, 타겟 영역은 가상 영역이다. 가상 영역은 룸(350)과는 상이한 실제 룸에 기초할 수 있다. 예를 들어, 룸(350)은 사무실이다. 타겟 영역은 회의실에 기초하는 가상 영역이다. 오디오 어셈블리에 의해 제공되는 오디오 콘텐트는 회의실에 있는 스피커로부터의 음성일 수 있다. 회의실 내의 포지션은 타겟 영역 내에서 사용자의 포지션에 대응한다. 오디오 콘텐트는 회의실의 스피커로부터 발생하고 회의실 내의 포지션에서 수신되는 것처럼 보이도록 렌더링된다.
오디오 어셈블리는 음향 필터를 사용하여 룸 모드들의 로컬 효과들을 통합한다. 오디오 어셈블리는 오디오 서버(320)에 룸 모드 쿼리(room mode query)를 전송함으로써 음향 필터를 요청한다. 룸 모드 쿼리는 하나 이상의 룸 모드 파라미터들에 대한 요청이며, 이를 기초로 하여 오디오 어셈블리는 오디오 콘텐트에 적용될 때 룸 모드들에 의해 야기되는 음향 왜곡(예를 들어, 포지션 및 주파수의 함수로서의 증폭)을 시뮬레이션하는 음향 필터를 생성할 수 있다. 룸 모드 쿼리는 타겟 영역(예를 들어, 룸(350) 또는 가상 영역)의 일부 또는 전체를 나타내는 시각 정보, 사용자의 위치 정보, 오디오 콘텐트의 정보, 또는 이들의 조합을 포함할 수 있다. 시각 정보는 타겟 영역의 일부 또는 전체의 3D 기하학 형상을 나타내고 타겟 영역의 일부 또는 전체의 컬러 이미지 데이터를 포함할 수도 있다. 일부 실시예들에서, 타겟 영역의 시각 정보는 헤드셋(310)(예를 들어, 타겟 영역이 룸(350)인 실시예들에서) 및/또는 다른 디바이스에 의해 캡처될 수 있다. 사용자의 위치 정보는 타겟 영역 내에서 사용자(340)의 포지션을 나타내고, 헤드셋(310)의 위치 정보 또는 사용자(340)의 포지션을 나타내는 정보를 포함할 수 있다. 오디오 콘텐트의 정보는, 예를 들어, 오디오 콘텐트의 가상 사운드 소스의 위치를 나타내는 정보를 포함한다. 오디오 콘텐트의 가상 사운드 소스는 타겟 영역의 실제 객체 및/또는 가상 객체일 수 있다. 헤드셋(310)은 네트워크(330)를 통해 오디오 서버(320)로 룸 모드 쿼리를 전달할 수 있다.
일부 실시예들에서, 헤드셋(310)은 오디오 서버(320)로부터 음향 필터를 나타내는 하나 이상의 룸 모드 파라미터들을 획득한다. 룸 모드 파라미터들은 오디오 콘텐트에 적용될 때 타겟 영역에서 하나 이상의 룸 모드들에 의해 야기되는 음향 왜곡을 시뮬레이션하는 음향 필터를 나타낸느 파라미터들이다. 룸 모드 파라미터들은 Q 팩터, 이득, 진폭, 룸 모드들의 모달 주파수들, 음향 필터를 나타내는 일부 다른 특징, 또는 이들의 일부 조합을 포함한다. 헤드셋(310)은 오디오 콘텐트를 렌더링하기 위한 필터들을 생성하기 위해 룸 모드 파라미터들을 사용한다. 예를 들어, 헤드셋(310)은 무한 임펄스 응답 필터들 및/또는 전체 통과 필터들을 생성한다. 무한 임펄스 응답 필터들 및/또는 전체 통과 필터들은 Q 값과 각각의 모달 주파수에 대응하는 이득을 포함한다. 헤드셋(310)의 동작들 및 구성요소들에 관한 추가 세부사항들은 도 4, 도 8, 및 도 9와 관련하여 아래에서 논의된다.
오디오 서버(320)는 헤드셋(310)으로부터 수신된 룸 모드 쿼리에 기초하여 하나 이상의 룸 모드 파라미터들을 결정한다. 오디오 서버(320)는 타겟 영역의 모델을 결정한다. 일부 실시예들에서, 오디오 서버(320)는 타겟 영역의 시각 정보에 기초하여 모델을 결정할 수 있다. 예를 들어, 오디오 서버(320)는 시각 정보에 기초하여 타겟 영역의 적어도 일부의 3D 가상 표현을 획득한다. 오디오 서버(320)는 3D 가상 표현을 후보 모델들의 그룹과 비교하고 3D 가상 표현과 매칭하는 후보 모델을 모델로 식별한다. 일부 실시예들에서, 후보 모델은 룸의 형태, 룸의 하나 이상의 치수들, 또는 룸 내의 표면들의 재료 음향 파라미터들(예를 들어, 감쇠 파라미터)을 포함하는 룸의 모델이다. 후보 모델들의 그룹은 상이한 형태들, 상이한 치수들, 및 상이한 표면들을 갖는 룸들의 모델들을 포함할 수 있다. 타겟 영역의 3D 가상 표현은 타겟 영역의 형태 및/또는 치수를 정의하는 타겟 영역의 3D 메쉬(mesh)를 포함한다. 3D 가상 표현은 하나 이상의 재료 음향 파라미터들(예를 들어, 감쇠 파라미터)을 사용하여 타겟 영역 내 표면들의 음향 특성들을 나타낼 수 있다. 오디오 서버(320)는 후보 모델과 3D 가상 표현 사이의 차이가 임계값 미만이라는 결정에 기초하여 후보 모델이 3D 가상 표현과 매칭한다고 결정한다. 상기 차이는 형태, 치수, 표면의 음향 특성 등의 차이를 포함할 수 있다. 일부 실시예들에서, 오디오 서버(320)는 후보 모델과 3D 가상 표현 사이의 차이를 결정하기 위해 적합 메트릭(fit metric)을 사용한다. 적합 메트릭은 하우스도르프 거리(Hausdorff distance)에서의 제곱 오차, 개방도(openness)(예를 들어, 실내 대 실외), 볼륨 등과 같은 하나 이상의 기하학적 피처들에 기초할 수 있다. 임계값은 룸 모드 변화의 지각적인 눈에 띄는 차이(just noticeable differences)(JND)에 기초할 수 있다. 예를 들어, 사용자가 모달 주파수의 10% 변화를 검출할 수 있는 경우, 최대 10%의 모달 주파수 변화를 초래하는 기하학적 편차가 허용될 것이다. 임계값은 10%의 모달 주파수 변화를 초래하는 기하학적 편차들일 수 있다.
오디오 서버(320)는 모델을 사용하여 타겟 영역의 룸 모드들을 결정한다. 예를 들어, 오디오 서버(320)는 룸 모드들을 결정하기 위해 수치 시뮬레이션 기술들(예를 들어, 유한 요소 방법, 경계(boundary) 요소 방법, 유한 차분 시간 도메인 방법 등)과 같은 기존 기술들을 사용한다. 일부 실시예들에서, 오디오 서버(300)는 룸 모드들을 결정하기 위해 모델의 형태, 치수, 및/또는 재료 음향 파라미터들에 기초하여 룸 모드들을 결정한다. 룸 모드들은 축 모드들, 접선 모드들, 및 경사 모드들 중 하나 이상을 포함할 수 있다. 일부 실시예들에서, 오디오 서버(320)는 사용자의 포지션에 기초하여 룸 모드들을 결정한다. 예를 들어, 오디오 서버(320)는 사용자의 포지션에 기초하여 타겟 영역을 식별하고, 상기 식별에 기초하여 타겟 영역의 룸 모드들을 검색할 수 있다.
오디오 서버(330)는 타겟 영역 내 사용자의 포지션 및 룸 모드들 중 적어도 하나에 기초하여 하나 이상의 룸 모드 파라미터들을 결정한다. 룸 모드 파라미터들은 오디오 콘텐트에 적용될 때 적어도 하나의 룸 모드와 연관된 주파수들에 대해 타겟 영역 내의 사용자 포지션에서 발생하는 음향 왜곡을 시뮬레이션하는 음향 필터를 나타낸다. 오디오 서버(320)는 오디오 콘텐트를 렌더링하기 위해 룸 모드 파라미터들을 헤드셋(310)으로 전송한다. 일부 실시예들에서, 오디오 서버(330)는 룸 모드 파라미터들에 기초하여 음향 필터를 생성하고, 음향 필터를 헤드셋(310)으로 전송할 수 있다.
도 4는 하나 이상의 실시예들에 따른 오디오 서버(400)의 블록도다. 오디오 서버(400)의 일 실시예는 오디오 서버(300)이다. 오디오 서버(400)는 오디오 어셈블리로부터의 룸 모드 쿼리에 응답하여 타겟 영역의 하나 이상의 룸 모드 파라미터들을 결정한다. 오디오 서버(400)는 데이터베이스(410), 매핑 모듈(420), 매칭 모듈(430), 룸 모드 모듈(440), 및 음향 필터 모듈(450)을 포함한다. 다른 실시예들에서, 오디오 서버(400)는 임의의 추가 모듈과 함께 나열된 모듈들의 임의의 조합을 가질 수 있다. 오디오 서버(400)의 하나 이상의 프로세서들(미도시)은 오디오 서버(400) 내의 모듈들의 일부 또는 전부를 실행할 수 있다.
데이터베이스(410)는 오디오 서버(400)에 대한 데이터를 저장한다. 저장된 데이터는 가상 모델, 후보 모델, 룸 모드, 룸 모드 파라미터, 음향 필터, 오디오 데이터, 시각 정보(깊이 정보, 컬러 정보 등), 룸 모드 쿼리, 오디오 서버(400)에 의해 사용될 수 있는 다른 정보, 또는 이들의 일부 조합을 포함할 수 있다.
가상 모델은 하나 이상의 영역들과 해당 영역들의 음향 특성(예를 들어, 룸 모드)을 나타낸다. 가상 모델의 각 위치는 대응하는 영역에 대한 음향 특성(예를 들어, 룸 모드)과 연관된다. 가상 모델에서 음향 특성이 설명되는 영역들은 가상 영역, 물리적 영역, 또는 이들의 일부 조합을 포함한다. 물리적 영역은 가상 영역이 아닌 실제 영역(예를 들어, 실제 물리적 룸)이다. 물리적 영역들의 예들은 회의실, 욕실, 복도, 사무실, 침실, 식당, 야외 공간(예를 들어, 안뜰, 정원, 공원 등), 거실, 강당, 일부 다른 실제 영역, 또는 이들의 일부 조합을 포함한다. 가상 영역은 완전히 허구일 수 있고/있거나 실제 물리적 영역에 기초할(예를 들어, 물리적 룸을 가상 영역으로 렌더링) 수 있는 공간을 나타낸다. 예를 들어, 가상 영역은 가상의 던전, 가상 회의실의 렌더링 등이 될 수 있다. 가상 영역은 실제 장소들에 기초할 수 있음을 유의해야 한다. 예를 들어, 가상 회의실은 실제 회의 센터에 기초할 수 있다. 가상 모델의 특정 위치는 룸(350) 내의 헤드셋(310)의 현재 물리적 위치에 대응할 수 있다. 룸(350)의 음향 특성들은 매핑 모듈(420)로부터 획득된 가상 모델 내의 위치에 기초하여 가상 모델로부터 검색될 수 있다.
룸 모드 쿼리는 타겟 영역 내 사용자의 포지션에 대한 타겟 영역의 룸 모드 효과들을 통합하는 데 사용되는 음향 필터를 나타내는 룸 모드 파라미터들에 대한 요청이다. 룸 모드 쿼리는 타겟 영역 정보, 사용자 정보, 오디오 콘텐트 정보, 오디오 서버(320)가 음향 필터를 결정하기 위해 사용할 수 있는 일부 다른 정보, 또는 이들의 일부 조합을 포함한다. 타겟 영역 정보는 타겟 영역을 나타내는 정보이다(예를 들어, 기하학 형상, 그 내부의 객체, 재료(materials), 컬러 등). 이는 타겟 영역의 깊이 이미지 데이터, 타겟 영역의 컬러 이미지 데이터, 또는 이들의 조합을 포함할 수 있다. 사용자 정보는 사용자를 나타내는 정보이다. 그것은 타겟 영역 내에서 사용자의 포지션을 나타내는 정보, 사용자가 물리적으로 위치한 물리적 영역의 정보, 또는 이들의 일부 조합을 포함할 수 있다. 오디오 콘텐트 정보는 오디오 콘텐트를 나타내는 정보이다. 그것은 오디오 콘텐트의 가상 사운드 소스의 위치 정보, 오디오 콘텐트의 물리적 사운드 소스의 위치 정보, 또는 이들의 조합을 포함할 수 있다.
후보 모델들은 상이한 형태들 및/또는 치수들을 갖는 룸들의 모델들일 수 있다. 오디오 서버(400)는 후보 모델들을 사용하여 타겟 영역의 모델을 결정한다.
매핑 모듈(420)은 룸 모드 쿼리의 정보를 가상 모델 내의 위치에 매핑한다. 매핑 모듈(420)은 타겟 영역에 대응하는 가상 모델 내의 위치를 결정한다. 일부 실시예들에서, 매핑 모듈(420)은 (i) 타겟 영역의 정보 및/또는 사용자의 포지션 정보와 (ii) 가상 모델 내의 영역의 대응하는 구성 사이의 매핑을 식별하기 위해 가상 모델을 검색한다. 가상 모델 내의 영역은 물리적 영역 및/또는 가상 영역을 나타낼 수 있다. 일 실시예에서, 매핑은 타겟 영역의 시각 정보의 기하학 형상을 가상 모델 내의 위치와 연관된 기하학 형상과 매칭시킴으로써 수행된다. 다른 실시예들에서, 매핑은 사용자의 포지션 정보를 가상 모델 내의 위치와 매칭시킴으로써 수행된다. 예를 들어, 타겟 영역이 가상 영역인 실시예들에서, 매핑 모듈(420)은 사용자의 포지션을 나타내는 정보에 기초하여 가상 모델에서 가상 영역과 연관된 위치를 식별한다. 매칭(match)은 가상 모델 내의 위치가 타겟 영역의 표현임을 암시한다.
매칭이 발견되면, 매핑 모듈(420)은 가상 모델 내의 위치와 연관된 룸 모드들을 검색하고 룸 모드 파라미터들을 결정하기 위해 음향 필터 모듈(450)에 룸 모드들을 보낸다. 일부 실시예들에서, 가상 모델은 타겟 영역과 매칭하는 가상 모델 내의 위치와 연관된 룸 모드들을 포함하지 않지만 위치와 연관된 후보 모델을 포함한다. 매핑 모듈(420)은 타겟 영역의 룸 모드들을 결정하기 위해 후보 모델을 검색하고 이를 룸 모드 모듈(440)에 전송할 수 있다. 일부 실시예들에서, 가상 모델은 타겟 영역과 매칭하는 가상 모델 내의 위치와 연관된 룸 모드들 또는 후보 모델들을 포함하지 않는다. 매핑 모듈(420)은 타겟 영역의 모델을 결정하기 위해 위치의 3D 표현을 검색하고 이를 매칭 모듈(440)에 전송할 수 있다.
매칭이 발견되지 않는 경우, 이는 타겟 영역의 구성이 가상 모델에 의해 아직 나타나고 있지 않았음을 나타낸다. 이러한 경우, 매핑 모듈(420)은 룸 모드 쿼리의 시각 정보에 기초하여 타겟 영역의 3D 가상 표현을 개발하고 3D 가상 표현으로 가상 모델을 업데이트할 수 있다. 타겟 영역의 3D 가상 표현은 타겟 영역의 3D 메쉬를 포함할 수 있다. 3D 메쉬는 타겟 영역의 경계들을 나타내는 지점들 및/또는 선들을 포함한다. 3D 가상 표현은 또한 벽, 천장, 바닥, 가구 표면, 가전 제품 표면, 다른 유형의 객체들의 표면 등과 같은 타겟 영역 내의 표면들의 가상 표현을 포함할 수 있다. 일부 실시예들에서, 가상 모델은 가상 영역 내의 표면들의 음향 특성들을 나타내기 위해 하나 이상의 재료 음향 파라미터들(예를 들어, 감쇠 파라미터)을 사용한다. 일부 실시예들에서, 매핑 모듈(420)은 3D 가상 표현을 포함하고 가상 영역 내의 표면들의 음향 특성들을 나타내기 위해 하나 이상의 재료 음향 파라미터들을 사용하는 새로운 모델을 개발할 수 있다. 새로운 모델은 데이터베이스(410)에 저장될 수 있다.
매핑 모듈(420)은 또한 매칭 모듈(430) 및 룸 모드 모듈(440) 중 적어도 하나에 매칭이 발견되지 않음을 알릴 수 있고, 따라서 매칭 모듈(430)이 타겟 영역의 모델을 결정할 수 있고 룸 모드 모듈(440)이 모델을 사용하여 타겟 영역의 룸 모드들을 결정할 수 있다.
일부 실시예들에서, 매핑 모듈(420)은 또한 사용자가 물리적으로 위치하는 로컬 영역(예를 들어, 룸(350))에 대응하는 가상 모델 내의 위치를 결정할 수 있다.
타겟 영역은 로컬 영역과 상이할 수 있다. 예를 들어, 로컬 영역은 사용자가 앉아 있는 사무실이지만, 타겟 영역은 가상 영역(예를 들어, 가상 회의실)이다.
매칭이 발견되면, 매핑 모듈(420)은 타겟 영역에 대응하는 가상 모델 내의 위치와 연관된 룸 모드들을 검색하고 룸 모드 파라미터들을 결정하기 위해 음향 필터 모듈(450)에 룸 모드들을 보낸다. 매칭이 발견되지 않는 경우, 매핑 모듈(420)은 룸 모드 쿼리의 시각 정보에 기초하여 타겟 영역의 3D 가상 표현을 개발하고 타겟 영역의 3D 가상 표현으로 가상 모델을 업데이트할 수 있다. 매핑 모듈(420)은 또한 매칭 모듈(430) 및 룸 모드 모듈(440) 중 적어도 하나에 매칭이 발견되지 않음을 알릴 수 있고, 따라서 매칭 모듈(430)이 타겟 영역의 모델을 결정할 수 있고 룸 모드 모듈(440)이 모델을 사용하여 타겟 영역의 룸 모드들을 결정할 수 있다.
매칭 모듈(430)은 타겟 영역의 3D 가상 표현에 기초하여 타겟 영역의 모델을 결정한다. 타겟 영역을 예로 들면, 일부 실시예들에서 매칭 모듈(430)은 복수의 후보 모델들로부터 모델을 선택한다. 후보 모델은 룸 내의 형태, 치수, 또는 표면에 대한 정보를 포함하는 룸의 모델일 수 있다. 후보 모델들의 그룹은 상이한 형태들(예를 들어, 정사각형, 원형, 삼각형 등), 상이한 치수들(예를 들어, 신발 상자, 큰 회의실 등), 및 상이한 표면들을 가진 룸들의 모델들을 포함할 수 있다. 매칭 모듈(430)은 타겟 영역의 3D 가상 표현을 각각의 후보 모델과 비교하고, 후보 모델이 3D 가상 표현과 매칭하는지 여부를 결정한다. 매칭 모듈(430)은 후보 모델과 3D 가상 표현 사이의 차이가 임계값 미만이라는 결정에 기초하여 후보 모델이 3D 가상 표현과 매칭한다고 결정한다. 상기 차이는 형태, 치수, 표면의 음향 특성 등의 차이를 포함할 수 있다. 일부 실시예들에서, 매칭 모듈(430)은 3D 가상 표현이 다중의 후보 모델들과 매칭한다고 결정할 수 있다. 매칭 모듈(430)은 가장 잘 매칭되는 후보 모델, 즉 3차원 가상 표현과 가장 작은 차이를 갖는 후보 모델을 선택한다.
일부 실시예들에서, 매칭 모듈(430)은 후보 모델의 형태와 3D 가상 표현에 포함된 3D 메시의 형태를 비교한다. 예를 들어, 매칭 모듈(430)은 3D 메쉬 타겟 영역의 중심으로부터 여러 방향들에서의 광선들을 추적하고 광선들이 3D 메쉬와 교차하는 지점들을 결정하고 계산한다. 매칭 모듈(430)은 이러한 지점들과 매칭되는 후보 모델을 식별한다. 매칭 모듈(430)은 후보 모델과 타겟 영역의 임의의 크기 차이를 비교로부터 제외하기 위해 후보 모델을 축소 또는 확장할 수 있다.
룸 모드 모듈(440)은 타겟 영역의 모델을 사용하여 타겟 영역의 룸 모드들을 결정한다. 룸 모드들은: 축 모드, 접선 모드, 및 경사 모드의 3가지 유형의 룸 모드들 중 적어도 하나를 포함할 수 있다. 일부 실시예들에서, 룸 모드의 각각의 유형에 대해, 룸 모드 모듈(440)은 1차 모드를 결정하고 또한 더 높은 차수의 모드들을 결정할 수 있다. 룸 모드 모듈(440)은 모델의 형태 및/또는 치수에 기초하여 룸 모드들을 결정한다. 예를 들어, 모델이 직사각형의 균일한 형태를 갖는 실시예들에서, 룸 모드 모듈(440)은 모델의 축, 접선, 및 경사 모드들을 결정한다. 일부 실시예들에서, 룸 모드 모듈(440)은 가청 또는 재생 가능한 주파수 범위(예를 들어, 63Hz)의 더 낮은 주파수로부터 타겟 영역의 슈뢰더 주파수(Schroeder frequency)까지의 범위 내에 속하는 룸 모드들을 계산하기 위해 모델의 치수들을 사용한다. 타겟 영역의 슈뢰더 주파수는 룸 모드들이 개별적으로 구분할 수 없을 정도로 주파수가 너무 촘촘하게 겹치는 주파수일 수 있다. 룸 모드 모듈(440)은 타겟 영역의 볼륨 및 타겟 영역의 잔향 시간(예를 들어, RT60)에 기초하여 슈뢰더 주파수를 결정할 수 있다. 룸 모드 모듈(440)은 룸 모드들을 결정하기 위해 예를 들어 수치 시뮬레이션 기술(유한 요소 방법, 경계 요소 방법, 유한 차분 시간 도메인 방법 등)을 사용할 수 있다.
일부 실시예들에서, 룸 모드 모듈(440)은 룸 모드들을 결정하기 위해 타겟 영역의 3D 가상 표현 내의 표면들의 재료 음향 파라미터들(예를 들어, 감쇠 파라미터)를 사용한다. 예를 들어, 룸 모드 모듈(440)은 타겟 영역의 컬러 이미지 데이터를 사용하여 표면들의 재료 조성을 결정할 수 있다. 룸 모드 모듈(440)은 표면의 재료 조성에 기초하여 각 표면에 대한 감쇠 파라미터를 결정하고 재료 조성 및 감쇠 파라미터들로 모델을 업데이트한다.
일 실시예에서, 룸 모드 모듈(440)은 표면들의 재료 조성을 결정하기 위해 기계 학습 기술들을 사용한다. 초기화 모듈(230)은 타겟 영역의 이미지 데이터(또는 표면과 관련된 이미지 데이터의 일부) 및/또는 오디오 데이터를 기계 학습 모델에 입력할 수 있고, 기계 학습 모델은 각 표면의 재료 조성을 출력한다. 기계 학습 모델은 선형 지원 벡터 기계(선형 SVM), 다른 알고리즘들에 대한 부스팅(예를 들어, AdaBoost), 신경망, 로지스틱 회귀, 나이브 베이즈, 메모리 기반 학습, 랜덤 포레스트, 배그드 트리(bagged trees), 의사결정 트리(decision trees), 부스트 트리(boosted trees), 또는 부스트 스터프(boosted stumps)와 같은 다양한 기계 학습 기술들로 트레이닝될 수 있다. 기계 학습 모델 트레이닝의 일부로서, 트레이닝 세트가 형성된다. 트레이닝 세트는 표면 그룹의 이미지 데이터 및/또는 오디오 데이터 및 그룹 내 표면들의 재료 조성을 포함한다.
각각의 룸 모드 또는 다중 룸 모드들의 조합에 대해, 룸 모드 모듈(440)은 주파수 및 포지션의 함수로서 증폭을 결정한다. 증폭은 해당 룸 모드(들)에 의해 야기된 신호 강도의 증가 또는 감소를 포함한다.
음향 필터 모듈(450)은 타겟 영역 내 사용자의 포지션 및 룸 모드들 중 적어도 하나에 기초하여 타겟 영역의 하나 이상의 룸 모드 파라미터들을 결정할 수 있다. 일부 실시예들에서, 음향 필터 모듈(450)은 타겟 영역 내의 포지션(예를 들어, 사용자의 포지션) 및 주파수의 함수로서 증폭에 기초하여 룸 모드 파라미터들을 결정한다. 룸 모드 파라미터들은 사용자의 포지션에서 룸 모드들 중 적어도 하나에 의해 야기되는 음향 왜곡을 나타낸다. 일부 실시예들에서, 음향 필터 모듈(450)은 또한 음향 왜곡을 결정하기 위해 오디오 콘텐트의 사운드 소스의 포지션을 사용한다.
일부 실시예들에서, 오디오 콘텐트는 헤드셋 외부에 있는 하나 이상의 스피커들에 의해 렌더링된다. 음향 필터 모듈(450)은 사용자의 로컬 영역의 하나 이상의 룸 모드 파라미터들을 결정한다. 일부 실시예들에서, 타겟 영역은 로컬 영역과 상이하다. 예를 들어, 사용자의 로컬 영역은 사용자가 앉아 있는 사무실이고, 타겟 영역은 가상 사운드 소스(예를 들어, 스피커)를 포함하는 가상 회의실이다. 로컬 영역의 룸 모드 파라미터들은 헤드셋 외부의 스피커(예를 들어, 콘솔에 있거나 콘솔에 결합됨)로부터의 오디오 콘텐트를 렌더링하는 데 사용될 수 있는 로컬 영역의 음향 필터를 나타낸다. 로컬 영역의 음향 필터는 로컬 영역에 있는 사용자의 포지션에서 로컬 영역의 룸 모드들을 완화한다. 일부 실시예들에서, 음향 필터 모듈(450)은 룸 모드 모듈(440)에 의해 결정된 로컬 영역의 하나 이상의 룸 모드들에 기초하여 로컬 영역의 룸 모드 파라미터들을 결정한다. 로컬 영역의 룸 모드들은 매핑 모듈(420) 또는 매칭 모듈(430)에 의해 결정된 로컬 영역의 모델에 기초하여 결정될 수 있다.
도 5는 하나 이상의 실시예들에 따라 음향 필터를 나타내는 룸 모드 파라미터들을 결정하기 위한 프로세스(500)를 도시하는 흐름도이다. 도 5의 프로세스(500)는 장치의 구성요소들, 예를 들어 도 4의 오디오 서버(400)에 의해 수행될 수 있다. 다른 엔티티들(예를 들어, 헤드셋 및/또는 콘솔의 부분들)은 다른 실시예들에서 프로세스의 일부 또는 모든 단계들을 수행할 수 있다. 마찬가지로, 실시예들은 상이한 및/또는 추가 단계들을 포함하거나 상이한 순서들로 그 단계들을 수행할 수 있다.
오디오 서버(400)는 타겟 영역의 3D 가상 표현에 부분적으로 기초하여 타겟 영역의 모델을 결정한다(510). 타겟 영역은 로컬 영역 또는 가상 영역일 수 있다. 가상 영역은 실제 룸에 기초할 수 있다. 일부 실시예들에서, 오디오 서버는 타겟 영역 내의 사용자의 포지션에 기초하여 데이터베이스로부터 모델을 검색함으로써 모델을 결정한다(510). 예를 들어, 데이터베이스는 하나 이상의 영역들을 나타내고 해당 영역들의 모델들을 포함하는 가상 모델을 저장한다. 각 영역은 가상 모델 내의 위치에 대응한다. 영역은 가상 영역, 물리적 영역, 또는 이들의 일부 조합을 포함한다. 오디오 서버(400)는, 예를 들어, 타겟 영역 내의 사용자의 포지션에 기초하여 가상 모델에서 타겟 영역과 연관된 위치를 식별할 수 있다. 오디오 서버(400)는 식별된 위치와 연관된 모델을 검색한다. 다른 일부 실시예들에서, 오디오 서버(400)는 예를 들어 헤드셋으로부터 타겟 영역의 적어도 일부를 나타내는 깊이 정보를 수신한다. 일부 실시예들에서, 오디오 서버(400)는 깊이 정보를 사용하여 3D 가상 표현의 적어도 일부를 생성한다. 오디오 서버(400)는 3D 가상 표현을 복수의 후보 모델들과 비교한다. 오디오 서버(400)는 3차원 가상 표현과 매칭하는 복수의 후보 모델들 중 하나를 타겟 영역의 모델로 식별한다. 일부 실시예들에서, 오디오 서버(400)는 후보 모델의 형태와 3D 가상 표현 간의 차이가 임계값 미만이라는 결정에 기초하여 후보 모델이 3차원 가상 표현과 매칭한다고 결정한다. 오디오 서버(400)는 비교 동안 후보 모델을 축소 또는 확장하여 후보 모델과 3D 가상 표현의 치수 차이를 제거할 수 있다. 일부 실시예들에서, 오디오 서버(400)는 3D 가상 표현의 각 표면에 대한 감쇠 파라미터를 결정하고 감쇠 파라미터로 모델을 업데이트한다.
오디오 서버(400)는 모델을 사용하여 타겟 영역의 룸 모드들을 결정한다(520). 일부 실시예들에서, 오디오 서버(320)는 모델의 형태에 기초하여 룸 모드들을 결정한다. 룸 모드들은 기존 기술들을 사용하여 산출될 수 있다. 오디오 서버(400)는 또한 룸 모드들을 결정하기 위해 3D 가상 표현에서 표면들의 감쇠 파라미터들 및/또는 모델의 치수들을 사용할 수 있다. 룸 모드들은 축 모드, 접선 모드, 또는 경사 모드를 포함할 수 있다. 일부 실시예들에서, 룸 모드들은 가청 주파수 범위(예를 들어, 63Hz)의 더 낮은 주파수로부터 타겟 영역의 슈뢰더 주파수까지의 범위 내에 속한다. 룸 모드들은 타겟 영역 내 포지션의 함수로 특정 주파수들에서의 사운드 증폭을 나타낸다. 오디오 서버(400)는 다중의 룸 모드들의 조합에 대응하는 증폭을 결정할 수 있다.
오디오 서버(400)는 타겟 영역 내 사용자의 포지션 및 룸 모드들 중 적어도 하나에 기초하여 하나 이상의 룸 모드 파라미터들(예를 들어, Q 팩터 등)을 결정한다(530). 룸 모드는 주파수 및 포지션의 함수로서 신호 강도의 증폭에 의해 표현된다. 일부 실시예들에서, 오디오 서버(400)는 주파수 및 포지션의 함수로서 증폭을 더 완전히 나타내기 위해 하나보다 많은 룸 모드들과 연관된 증폭을 결합한다. 오디오 서버(400)는 사용자의 포지션에서 주파수의 함수로서 증폭을 결정한다. 오디오 서버(400)는 사용자의 포지션에서 주파수 및 증폭의 함수에 기초하여 룸 모드 파라미터들을 결정한다. 룸 모드 파라미터들은 오디오 콘텐트에 적용될 때 적어도 하나의 룸 모드와 연관된 주파수들에서 사용자 포지션에서의 음향 왜곡을 시뮬레이션하는 음향 필터를 나타낸다. 일부 실시예들에서, 적어도 하나의 룸 모드는 1차 축 모드이다. 일부 실시예들에서, 오디오 서버(320)는 타겟 영역 내의 사용자의 포지션에서 적어도 하나의 룸 모드에 대응하는 증폭에 기초하여 하나 이상의 룸 모드 파라미터들을 결정한다. 음향 필터는 오디오 콘텐트를 사용자에게 제공하기 위해 헤드셋에 의해 사용될 수 있다.
도 6는 하나 이상의 실시예들에 따른 오디오 어셈블리(600)의 블록도다. 오디오 어셈블리(600)의 일부 또는 전부는 헤드셋(예를 들어, 헤드셋(310))의 일부일 수 있다. 오디오 어셈블리(600)는 스피커 어셈블리(610), 마이크로폰 어셈블리(620), 및 오디오 컨트롤러(630)를 포함한다. 일 실시예에서, 오디오 어셈블리(600)는 예를 들어, 오디오 어셈블리(600)의 상이한 구성요소들의 동작들을 제어하기 위해 입력 인터페이스(도 6에 도시되지 않음)를 더 포함한다. 다른 실시예들에서, 오디오 어셈블리(600)는 임의의 추가 구성요소들과 함께 나열된 구성요소들의 임의의 조합을 가질 수 있다. 일부 실시예들에서, 오디오 서버(400)의 기능들 중 하나 이상은 오디오 어셈블리(600)에 의해 수행될 수 있다.
스피커 어셈블리(610)는 예를 들어 오디오 컨트롤러(630)로부터의 오디오 지시들에 기초하여 사용자의 귀를 위한 사운드를 생성한다. 일부 실시예들에서, 스피커 어셈블리(610)는 예를 들어 오디오 컨트롤러(630)로부터의 오디오 지시들에 따라 사용자의 귀에서 공기중 음향 압력파를 생성함으로써 사운드를 생성하는 한 쌍의 공기 전도 변환기들(예를 들어, 각각의 귀에 대해 하나씩)로서 구현된다. 스피커 어셈블리(610)의 각각의 공기 전도 변환기는 주파수 범위의 상이한 부분들을 커버하기 위해 하나 이상의 변환기들을 포함할 수 있다. 예를 들어, 압전 변환기는 주파수 범위의 제1 부분을 커버하기 위해 사용될 수 있고, 이동 코일 변환기는 주파수 범위의 제2 부분을 커버하기 위해 사용될 수 있다. 일부 다른 실시예들에서, 스피커 어셈블리(610)의 각각의 변환기는 사용자의 머리에서 대응하는 뼈를 진동시킴으로써 사운드를 생성하는 골전도 변환기로서 구현된다. 골전도 변환기로 구현된 각 변환기는 사용자의 뼈의 일부에 결합된 귓바퀴 뒤에 배치되어 사용자의 달팽이관 쪽으로 전파하는 조직 매개(tissue-borne) 음향 압력파를 생성하는 사용자의 뼈 부분을 진동시킬 수 있으며, 그에 따라 고막을 우회한다. 일부 다른 실시예들에서, 스피커 어셈블리(610)의 각각의 변환기는 외이 주위의 귀 연골의 하나 이상의 부분들(예를 들어, 귓바퀴(pinna), 이주(tragus), 귀 연골의 일부 다른 부분, 또는 이들의 일부 조합)을 진동시킴으로써 사운드를 생성하는 연골 전도 변환기로 구현된다. 연골 전도 변환기는 귀 연골의 하나 이상의 부분들을 진동시킴으로써 공기 매개 음향 압력파를 생성한다.
마이크로폰 어셈블리(620)는 타겟 영역으로부터의 사운드를 검출한다. 마이크로폰 어셈블리(620)는 복수의 마이크로폰들을 포함할 수 있다. 복수의 마이크로폰들은 예를 들어 각 귀에 대해 외이도 입구에서 사운드를 측정하도록 구성된 적어도 하나의 마이크로폰, 타겟 영역으로부터의 사운드를 캡처하도록 위치된 하나 이상의 마이크로폰들, 사용자로부터의 사운드(예를 들어, 사용자 음성)을 캡처하도록 위치된 하나 이상의 마이크로폰들, 또는 이들의 일부 조합을 포함할 수 있다.
오디오 컨트롤러(630)는 룸 모드 파라미터들을 요청하기 위해 룸 모드 쿼리를 생성한다. 오디오 컨트롤러(630)는 타겟 영역의 시각 정보 및 사용자의 위치 정보에 적어도 부분적으로 기초하여 룸 모드 쿼리를 생성할 수 있다. 오디오 컨트롤러(630)는 예를 들어 헤드셋(310)의 하나 이상의 카메라들로부터 타겟 영역의 시각 정보를 획득할 수 있다. 시각 정보는 타겟 영역의 3D 기하학 형상을 나타낸다. 시각 정보는 깊이 이미지 데이터, 컬러 이미지 데이터, 또는 이들의 조합을 포함할 수 있다. 깊이 이미지 데이터는 타겟 영역의 벽, 바닥 및 천장의 표면들과 같은 타겟 영역의 표면들에 의해 정의되는 타겟 영역의 형태에 대한 기하학 형상 정보를 포함할 수 있다. 컬러 이미지 데이터는 타겟 영역의 표면들과 연관된 음향 재료들에 관한 정보를 포함할 수 있다. 오디오 컨트롤러(630)는 헤드셋(310)으로부터 사용자의 위치 정보를 획득할 수 있다. 일 실시예에서, 사용자의 위치 정보는 헤드셋의 위치 정보를 포함한다. 다른 실시예에서, 사용자의 로컬 정보는 실제 룸 또는 가상 룸에서 사용자의 포지션을 지정한다.
오디오 컨트롤러(630)는 오디오 서버(400)로부터 수신된 룸 모드 파라미터들에 기초하여 음향 필터를 생성하고 음향 필터를 사용하여 오디오 콘텐트를 제공하기 위해 스피커 어셈블리(610)에 오디오 지시들을 제공한다. 예를 들어, 오디오 컨트롤러(630)는 룸 모드 파라미터들에 기초하여 종 형태의(bell-shaped) 파라메트릭 무한 임펄스 응답 필터들을 생성한다. 종 형태의 파라메트릭 무한 임펄스 응답 필터는 각 모드 주파수에 대응하는 Q 값 및 이득을 포함한다. 일부 실시예들에서, 오디오 컨트롤러(630)는 예를 들어 모달 주파수들에서 오디오 신호의 진폭을 증가시킴으로써 오디오 신호를 렌더링하기 위해 이러한 필터들을 적용한다. 일부 실시예들에서, 오디오 컨트롤러(630)는 인공 반향기(artificial reverberator)(예를 들어, 슈뢰더(Schroeder), FDN, 또는 중첩된 전체 통과 반향기(nested all-pass reverberator))의 피드백 루프 내에 이러한 필터를 배치하거나 모달 주파수들에서 반향 시간을 수정한다. 오디오 컨트롤러(630)는 사용자의 타겟 영역과 연관된 룸 모드들에 의해 야기될 음향 왜곡(예를 들어, 주파수 및 포지션의 함수로서의 증폭)이 제공된 오디오 콘텐트의 일부일 수 있도록 오디오 콘텐트에 음향 필터를 적용한다.
다른 예로서, 오디오 컨트롤러(630)는 룸 모드 파라미터들에 기초하여 전체 통과 필터들을 생성한다. 전체 통과 필터들은 모달 주파수들을 중심으로 Q 값을 갖는다. 오디오 컨트롤러(630)는 모달 주파수들에서 오디오 신호를 지연시키고 모달 주파수들에서 링잉(ringing)의 지각(perception)을 생성하기 위해 전체 통과 필터를 사용한다. 일부 실시예들에서, 오디오 컨트롤러(630)는 오디오 신호를 렌더링하기 위해 종 형태의 파라메트릭 무한 임펄스 응답 필터 및 전체 통과 필터 둘 다를 사용한다. 일부 실시예들에서, 오디오 컨트롤러(630)는 사용자의 포지션 변화에 기초하여 필터를 동적으로 업데이트한다.
도 7은 하나 이상의 실시예들에 따라 음향 필터를 사용함으로써 오디오 콘텐트를 제공하는 프로세스(700)를 예시하는 흐름도이다. 도 7의 프로세스(700)는 장치의 구성요소들, 예를 들어 도 6의 오디오 어셈블리(600)에 의해 수행될 수 있다. 다른 엔티티들(예를 들어, 도 9의 헤드셋(900)의 구성요소들 및/또는 도 8에 도시된 구성요소들)은 다른 실시예들에서 프로세스의 일부 또는 모든 단계들을 수행할 수 있다. 마찬가지로, 실시예들은 상이한 및/또는 추가 단계들을 포함하거나 상이한 순서들로 그 단계들을 수행할 수 있다.
오디오 어셈블리(600)는 하나 이상의 룸 모드 파라미터들에 기초하여 음향 필터를 생성한다(710). 콘텐트에 적용되는 음향 필터는 타겟 영역 내의 사용자 포지션에서 및 타겟 영역의 적어도 하나의 룸 모드와 연관된 주파수들에서 음향 왜곡을 시뮬레이션한다. 음향 왜곡은 타겟 영역에서 사운드가 방출될 때 타겟 영역 내 사용자의 포지션에서의 증폭으로 표현된다. 타겟 영역은 가상 영역 또는 사용자의 로컬 영역일 수 있다. 일부 실시예들에서, 음향 필터는 룸 모드의 모달 주파수들에서 Q 값 및 이득을 갖는 무한 임펄스 응답 필터 및/또는 모달 주파수들에 중심을 둔 Q 값을 갖는 전체 통과 필터를 포함한다.
일부 실시예들에서, 하나 이상의 룸 모드 파라미터들은 오디오 서버, 예를 들어, 오디오 서버(400)로부터 오디오 어셈블리(600)에 의해 수신된다. 오디오 어셈블리는 룸 모드 쿼리를 오디오 서버에 보내고, 오디오 서버는 룸 모드 쿼리의 정보에 기초하여 하나 이상의 룸 모드 파라미터들을 결정한다. 일부 다른 실시예들에서, 오디오 어셈블리(600)는 타겟 영역의 적어도 하나의 룸 모드에 기초하여 하나 이상의 룸 모드 파라미터들을 결정한다. 타겟 영역의 적어도 하나의 룸 모드는 오디오 서버에 의해 결정되고, 오디오 어셈블리(600)로 전송될 수 있다.
오디오 어셈블리(600)는 음향 필터를 사용하여 사용자에게 오디오 콘텐트를 제공한다(720). 예를 들어, 오디오 어셈블리(600)는 사용자의 타겟 영역과 연관된 룸 모드들에 의해 야기될 음향 왜곡(예를 들어, 신호 강도의 증가 또는 감소)이 제공된 오디오 콘텐트의 일부일 수 있도록 오디오 콘텐트에 음향 필터를 적용한다. 오디오 콘텐트는 사용자가 물리적으로 타겟 영역에 위치되지 않더라도 타겟 영역 내의 객체로부터 발생되고 타겟 영역 내 사용자의 포지션에서 수신되는 것처럼 보이게 된다. 예를 들어, 사용자는 사무실에 앉아 있고 오디오 콘텐트(예를 들어, 뮤지컬)는 가상 회의실의 스피커로부터 발생되고 가상 회의실 내 사용자의 포지션에서 수신되는 것처럼 보이도록 제공될 수 있다.
시스템 환경
도 8은 하나 이상의 실시예들에 따라 헤드셋(810) 및 오디오 서버(400)를 포함하는 시스템 환경(800)의 블록도이다. 시스템(800)은 가상 현실, 증강 현실, 혼합 현실 환경, 또는 이들의 일부 조합과 같은 인공 현실 환경에서 동작할 수 있다. 도 8에 도시된 시스템(800)은 헤드셋(810), 오디오 서버(400), 및 콘솔(860)에 결합된 입력/출력(I/O) 인터페이스(840)를 포함한다. 헤드셋(810), 오디오 서버(400), 및 콘솔(860)은 네트워크(880)를 통해 통신한다. 도 8는 하나의 헤드셋(810) 및 하나의 I/O 인터페이스(850)를 포함하는 예시적인 시스템(800)을 도시하지만, 다른 실시예들에서는, 임의의 수의 이러한 구성요소들이 시스템(800)에 포함될 수 있다. 예를 들어, 다수의 헤드셋들(810)이 있을 수 있으며, 이들 각각은 연관된 I/O 인터페이스(850)를 갖고, 각각의 헤드셋(810) 및 I/O 인터페이스(850)는 콘솔(860)과 통신한다. 대안적인 구성들에서, 상이한 및/또는 추가의 구성요소들이 시스템(800)에 포함될 수 있다. 추가적으로, 도 8에 도시된 하나 이상의 구성요소와 관련하여 기술된 기능은 일부 실시예들에서 도 8과 관련하여 기술된 것과 다른 방식으로 구성요소들 사이에 분산될 수 있다. 예를 들어, 콘솔(860)의 기능의 일부 또는 전부는 헤드셋(810)에 의해 제공될 수 있다.
헤드셋(810)은 디스플레이 어셈블리(815), 광학 블록(820), 하나 이상의 포지션 센서들(835), DCA(830), 관성 측정 유닛(IMU)(825), PCA(840), 및 오디오 어셈블리(600)를 포함한다. 헤드셋(810)의 일부 실시예들은 도 8와 관련하여 설명된 것들과 상이한 구성 요소들을 갖는다. 추가로, 도 8와 관련하여 기술된 다양한 구성 요소들에 의해 제공되는 기능은 다른 실시예들에서 헤드셋(810)의 구성요소들 사이에서 상이하게 분포될 수 있거나, 또는 헤드셋(810)로부터 멀리 떨어진 별도의 어셈블리들에서 캡처될 수 있다. 헤드셋(810)의 실시예들은 도 3의 헤드셋(310) 또는 도 9의 헤드셋(900)이다.
디스플레이 어셈블리(815)는 콘솔(860)로부터 수신된 데이터에 따라 사용자에게 2D 또는 3D 이미지들을 디스플레이하는 전자 디스플레이를 포함할 수 있다. 이미지들은 사용자의 로컬 영역의 이미지들, 로컬 영역으로부터의 광과 결합된 가상 객체들의 이미지들, 가상 영역의 이미지들, 또는 이들의 일부 조합을 포함할 수 있다. 가상 영역은 사용자로부터 멀리 떨어진 실제 룸에 매핑될 수 있다. 다양한 실시예들에서, 디스플레이 어셈블리(815)는 단일 전자 디스플레이 또는 다중 전자 디스플레이들(예를 들어, 사용자의 각각의 눈에 대한 디스플레이)을 포함한다. 전자 디스플레이의 예들은 액정 디스플레이(LCD), 유기 발광 다이오드(OLED) 디스플레이, 액티브 매트릭스 유기 발광 다이오드 디스플레이(AMOLED), 도파관 디스플레이, 일부 다른 디스플레이, 또는 이들의 일부 조합을 포함한다.
광학 블록(820)은 전자 디스플레이로부터 수신된 이미지 광을 확대하고, 이미지 광과 연관된 광학 에러들을 수정하고, 수정된 이미지 광을 헤드셋(810)의 사용자에게 제공한다. 다양한 실시예들에서, 광학 블록(820)은 하나 이상의 광학 요소들을 포함한다. 광학 블록(820)에 포함된 예시적인 광학 요소들은: 조리개, 프레넬 렌즈(Fresnel lens), 볼록 렌즈, 오목 렌즈, 필터, 반사면, 또는 이미지 광에 영향을 주는 임의의 다른 적절한 광학 요소를 포함한다. 더욱이, 광학 블록(820)은 상이한 광학 소자들의 조합을 포함할 수 있다. 일부 실시예들에서, 광학 블록(820)의 광학 소자들 중 하나 이상은 부분 반사 또는 반사 방지 코팅들과 같은 하나 이상의 코팅을 가질 수 있다.
광학 블록(820)에 의한 이미지 광의 확대 및 포커싱은 전자 디스플레이가 물리적으로 더 작게 되도록 하고, 더 가볍게 되도록 하고, 더 큰 디스플레이보다 더 적은 전력을 소비하게 한다. 추가적으로, 확대는 전자 디스플레이에 의해 제공된 콘텐츠의 시야를 증가시킬 수 있다. 예를 들어, 디스플레이된 콘텐트의 시야는 디스플레이된 콘텐트가 사용자 시야의 거의 모두(예를 들어, 약 110도 대각선)를 사용하여 제공되고, 일부 경우들에서는 사용자 시야의 모두를 사용하여 제공되도록 된다. 추가적으로, 일부 실시예들에서, 확대는 광학 요소들을 추가하거나 제거함으로써 조정될 수 있다.
일부 실시예들에서, 광학 블록(820)은 하나 이상의 광학 에러 유형을 수정하도록 설계될 수 있다. 광학 에러의 예들은 배럴 또는 핀쿠션 왜곡(barrel or pincushion distortion), 세로 색수차 또는 가로 색수차를 포함한다. 광학 에러의 다른 유형들은 구면 수차, 색수차, 또는 렌즈 상면 만곡(lens field curvature), 난시 또는 광학 에러의 기타 유형으로 인한 에러들을 더 포함할 수 있다. 일부 실시예들에서, 디스플레이를 위해 전자 디스플레이에 제공된 콘텐트는 사전 왜곡되고(pre-distorted), 광학 블록(820)은 콘텐트에 기초하여 발생된 전자 디스플레이로부터의 이미지 광을 수신한 후 왜곡을 수정한다.
IMU(825)는 포지션 센서들(835) 중 하나 이상으로부터 수신된 측정 신호들에 기초하여 헤드셋(810)의 포지션을 나타내는 데이터를 생성하는 전자 디바이스이다. 포지션 센서(835)는 헤드셋(810)의 움직임에 응답하여 하나 이상의 측정 신호들을 생성한다. 포지션 센서(835)의 예들은 하나 이상의 가속도계, 하나 이상의 자이로스코프, 하나 이상의 자력계, 모션을 검출하는 다른 적합한 유형의 센서, IMU(825)의 에러 정정에 사용되는 유형의 센서, 또는 이들의 일부 조합을 포함한다. 포지션 센서들(835)은 IMU(825)의 외부, IMU(825)의 내부, 또는 이들의 일부 조합에 위치할 수 있다.
DCA(830)는 룸과 같은 타겟 영역의 깊이 이미지 데이터를 생성한다. 깊이 이미지 데이터는 이미징 디바이스로부터의 거리를 정의하는 픽셀 값들을 포함하고, 따라서 깊이 이미지 데이터에서 캡처된 위치의들 (예를 들어, 3D) 매핑을 제공한다. 도 8의 DCA(830)는 광 프로젝터(833), 하나 이상의 이미징 디바이스들(825), 및 컨트롤러(830)를 포함한다. 일부 다른 실시예들에서, DCA(830)는 스테레오로 이미지화하는 카메라들의 세트를 포함한다.
광 프로젝터(833)는 타겟 영역 내 객체들에서 반사되고 깊이 이미지 데이터를 생성하기 위해 이미징 디바이스(835)에 의해 캡처되는 구조화된 광 패턴 또는 다른 광(예를 들어, 비행 시간(time-of flight)을 위한 적외선 플래시)을 투사할 수 있다. 예를 들어, 광 프로젝터(833)는 헤드셋(810)을 둘러싸는 타겟 영역의 일부 상에 상이한 유형들(예를 들어, 선, 격자 또는 도트)의 복수의 구조화된 광(SL) 요소들을 투사할 수 있다. 다양한 실시예들에서, 광 프로젝터(833)는 이미터 및 회절 광학 요소를 포함한다. 이미터는 광(예를 들어, 적외선 광)으로 회절 광학 요소를 조명하도록 구성된다. 조명된 회절 광학 요소는 복수의 SL 요소들을 포함하는 SL 패턴을 타겟 영역으로 투사한다. 예를 들어, 조명된 회절 광학 요소에 의해 투사된 SL 요소들의 각각은 회절 광학 요소 상의 특정 위치와 연관된 도트이다.
DCA(830)에 의해 타겟 영역으로 투사된 SL 패턴은 타겟 영역의 다양한 표면들 및 객체들과 마주치면서 변형된다. 하나 이상의 이미징 디바이스들(825) 각각은 타겟 영역의 하나 이상의 이미지들을 캡처하도록 구성된다. 캡처된 하나 이상의 이미지들 각각은 광 프로젝터(833)에 의해 투사되고 타겟 영역 내 객체들에 의해 반사되는 복수의 SL 요소들(예를 들어, 도트들)을 포함할 수 있다. 하나 이상의 이미징 디바이스들(825) 각각은 검출기 어레이, 카메라, 또는 비디오 카메라일 수 있다.
일부 실시예들에서, 광 프로젝터(833)는 로컬 영역에서 객체들로부터 반사되고 이미징 디바이스(835)에 의해 캡처되는 광 펄스들을 투사하여 비행 시간 기술들을 사용함으로써 깊이 이미지 데이터를 생성한다. 예를 들어, 광 프로젝터(833)는 비행 시간을 위한 적외선 플래시를 투사한다. 이미징 디바이스(835)는 객체들에 의해 반사된 적외선 플래시를 캡처한다. 컨트롤러(837)는 객체들까지의 거리를 결정하기 위해 이미징 디바이스(835)로부터의 이미지 데이터를 사용할 수 있다. 컨트롤러(837)는 이미징 디바이스(835)가 광 프로젝터(833)에 의한 광 펄스들의 투사와 동기화하여 반사된 광 펄스들을 캡처하도록 지시들을 이미징 디바이스(835)에 제공할 수 있다.
컨트롤러(837)는 이미징 디바이스(835)에 의해 캡처된 광에 기초하여 깊이 이미지 데이터를 생성한다. 컨트롤러(837)는 또한, 깊이 이미지 데이터를 콘솔(860), 오디오 컨트롤러(420), 또는 일부 다른 구성요소에 제공할 수 있다.
PCA(840)는 컬러(예를 들어, RGB) 이미지 데이터를 생성하는 하나 이상의 수동 카메라들을 포함한다. 능동 발광 및 반사를 사용하는 DCA(830)와 달리, PCA(840)은 타겟 영역의 환경으로부터의 광을 캡처하여 이미지 데이터를 생성한다. 이미징 디바이스로부터의 깊이 또는 거리를 정의하는 픽셀 값들 대신에, 상기 이미지 데이터의 픽셀 값들은 이미징 데이터에서 캡처된 객체들의 가시적 컬러(visible color)를 정의할 수 있다. 일부 실시예들에서, PCA(840)는 수동 이미징 디바이스에 의해 캡처된 광에 기초하여 컬러 이미지 데이터를 생성하는 컨트롤러를 포함한다. 일부 실시예들에서, DCA(830) 및 PCA(840)는 공통 컨트롤러를 공유한다. 예를 들어, 공통 컨트롤러는 가시 스펙트럼(예를 들어, 이미지 데이터) 및 적외선 스펙트럼(예를 들어, 깊이 이미지 데이터)에서 캡처된 하나 이상의 이미지들 각각을 서로 매핑할 수 있다. 하나 이상의 실시예들에서, 공통 컨트롤러는 추가적으로 또는 대안적으로 타겟 영역의 하나 이상의 이미지들을 오디오 컨트롤러 또는 콘솔(860)에 제공하도록 구성된다.
오디오 어셈블리(600)는 오디오 콘텐트에 룸 모드들의 로컬 효과들을 통합하기 위해 음향 필터를 사용하여 헤드셋(810)의 사용자에게 오디오 콘텐트를 제공한다. 일부 실시예들에서, 오디오 어셈블리(600)는 음향 필터를 나타내는 룸 모드 파라미터들을 요청하기 위해 오디오 서버(400)에 룸 모드 쿼리를 전송한다. 룸 모드 쿼리는 타겟 영역의 가상 정보, 사용자의 위치 정보, 오디오 콘텐트의 정보, 또는 이들의 조합을 포함한다. 오디오 어셈블리(600)는 네트워크(880)를 통해 오디오 서버(400)로부터 룸 모드 파라미터들을 수신한다. 오디오 어셈블리(600)는 오디오 콘텐트를 렌더링하기 위한 일련의 필터들(예를 들어, 무한 임펄스 응답 필터, 전체 통과 필터 등)을 생성하기 위해 룸 모드 파라미터들을 사용한다. 필터들은 모달 주파수들에서 Q 값 및 이득을 가지며 타겟 영역 내의 사용자 포지션에서 음향 왜곡을 시뮬레이션한다. 오디오 콘텐트는 공간화되며, 제공될 때 타겟 영역 내의 객체(예를 들어, 가상 객체 또는 실제 객체)로부터 발생되고 타겟 영역 내의 사용자 포지션에서 수신되는 것처럼 보이게 된다.
일 실시예에서, 타겟 영역은 사용자의 로컬 영역의 적어도 일부이고, 공간화된 오디오 콘텐트는 로컬 영역의 가상 객체로부터 발생하는 것처럼 보일 수 있다. 다른 실시예에서, 타겟 영역은 가상 영역이다. 예를 들어, 사용자는 작은 사무실에 있지만 타겟 영역은 가상 스피커가 말을 하는 커다란 가상 회의실이다. 가상 회의실은 소규모 사무실과는 상이한 예를 들어 룸 모드들과 같은 음향 속성들을 가지고 있다. 오디오 어셈블리(600)는, 음성이 가상 회의실의 가상 스피커로부터 발생하는 것처럼(즉, 마치 실제 위치인 것처럼 회의실의 룸 모드들을 사용하고 소규모 사무실의 룸 모드들을 사용하지 않음) 사용자에게 음성을 제공한다.
오디오 서버(400)는 오디오 어셈블리(600)로부터의 룸 모드 쿼리의 정보에 기초하여 타겟 영역의 하나 이상의 룸 모드 파라미터들을 결정한다. 일부 실시예들에서, 오디오 서버(400)는 타겟 영역의 3D 표현에 기초하여 타겟 영역의 모델을 결정한다. 타겟 영역의 3D 표현은 타겟 영역의 시각 정보 및/또는 타겟 영역 내의 사용자의 포지션을 나타내는 사용자의 위치 정보와 같은 룸 모드 쿼리의 정보에 기초하여 결정될 수 있다. 오디오 서버(400)는 3D 표현을 후보 모델들과 비교하고 3D 표현과 매칭하는 후보 모델을 타겟 영역의 모델로 선택한다. 오디오 서버(400)는 예를 들면 모델의 형태 및/또는 치수 등에 기초하여 모드를 사용하여 타겟 영역의 룸 모드들을 결정한다. 룸 모드들은 주파수 및 포지션의 함수로서 증폭에 의해 표현될 수 있다. 오디오 서버(400)는 타겟 영역에서 사용자의 포지션 및 룸 모드들 중 적어도 하나에 기초하여 하나 이상의 룸 모드 파라미터들을 결정한다.
일부 실시예들에서, 오디오 어셈블리(600)는 오디오 서버(400)의 기능의 일부 또는 전부를 갖는다. 헤드셋(810)의 오디오 어셈블리(600)와 오디오 서버(400)는 유선 또는 무선 통신 링크(예를 들어, 네트워크(880))를 통해 통신할 수 있다.
I/O 인터페이스(850)는 사용자가 동작 요청들(action requests)을 보내고 콘솔(860)로부터 응답들을 수신하도록 허용하는 디바이스이다. 동작 요청은 특정 동작을 수행하기 위한 요청이다. 예를 들어, 동작 요청은 이미지 또는 비디오 데이터의 시작 또는 종료를 위한 지시, 또는 애플리케이션 내에서의 특정 동작을 수행하기 위한 지시일 수 있다. I/O 인터페이스(850)는 하나 이상의 입력 디바이스를 포함할 수 있다. 예시적인 입력 디바이스들은: 키보드, 마우스, 게임 컨트롤러, 또는 동작 요청들을 수신하고 동작 요청들을 콘솔(860)에 전달하기 위한 임의의 다른 적절한 디바이스를 포함한다. I/O 인터페이스(850)에 의해 수신된 동작 요청은 그 동작 요청에 대응하는 동작을 수행하는 콘솔(860)로 전달된다. 일부 실시예들에서, I/O 인터페이스(850)는 I/O 인터페이스(850)의 초기 포지션에 대한 I/O 인터페이스(850)의 추정된 포지션을 나타내는 교정 데이터를 캡처하는 전술한 바와 같이 IMU(825)를 포함한다. 일부 실시예들에서, I/O 인터페이스(850)는 콘솔(860)로부터 수신된 지시들에 따라 사용자에게 햅틱 피드백을 제공할 수 있다. 예를 들어, 동작 요청이 수신된 후 햅틱 피드백이 제공되거나, 콘솔(860)이 동작을 수행한 후 I/O 인터페이스(850)가 햅틱 피드백을 발생시키게 하는 지시들을 콘솔(860)이 I/O 인터페이스(850)에 전달한다.
콘솔(860)은 DCA(830), PCA(840), 헤드셋(810), 및 I/O 인터페이스(850) 중 하나 이상으로부터 수신된 정보에 따라 처리하기 위해 콘텐츠를 헤드셋(810)에 제공한다. 도 8에 도시된 예에서, 콘솔(860)은 애플리케이션 저장소(863), 추적 모듈(865), 및 엔진(867)을 포함한다. 콘솔(860)의 일부 실시예들은 도 8와 관련하여 기술된 것들과는 다른 모듈들 또는 구성요소들을 갖는다. 유사하게, 아래에서 추가로 설명되는 기능들은 도 8와 관련하여 기술된 것과 다른 방식으로 콘솔(860)의 구성요소들 사이에 분산될 수 있다. 일부 실시예들에서, 콘솔(860)과 관련하여 본 명세서에서 논의된 기능은 헤드셋(810) 또는 원격 시스템에서 구현될 수 있다.
애플리케이션 저장소(863)는 콘솔(860)에 의해 실행하기 위한 하나 이상의 애플리케이션을 저장한다. 애플리케이션은 프로세서에 의해 실행될 때 사용자에 제공하기 위한 콘텐트를 생성하는 지시들의 그룹이다. 애플리케이션에 의해 발생된 콘텐트는 헤드셋(810) 또는 I/O 인터페이스(850)의 움직임을 통해 사용자로부터 수신된 입력들에 응답할 수 있다. 애플리케이션들의 예들은: 게임 애플리케이션들, 회의 애플리케이션들, 비디오 재생 애플리케이션들, 또는 다른 적절한 애플리케이션들을 포함한다.
추적 모듈(865)은 하나 이상의 교정 파라미터들을 사용하여 시스템(800)의 로컬 영역을 교정하고, 헤드셋(810) 또는 I/O 인터페이스(850)의 포지션 결정에서 에러를 줄이기 위해 하나 이상의 교정 파라미터를 조정할 수 있다. 예를 들어, 추적 모듈(865)은 DCA(830)에 의해 캡처된 SL 요소들의 포지션들을 보다 정확하게 결정하기 위해 DCA(830)의 포커스를 조정하도록 교정 파라미터를 DCA(830)에 전달한다. 추적 모듈(865)에 의해 수행된 교정은 또한 헤드셋(810)의 IMU(825) 및/또는 I/O 인터페이스(850)에 포함된 IMU(825)로부터 수신된 정보를 고려한다. 추가적으로, 헤드셋(810)의 추적이 손실되면(예를 들어, DCA(830)가 투사된 SL 요소들의 적어도 임계 수의 시선(line of sight)을 손실), 추적 모듈(865)은 시스템(800)의 일부 또는 전부를 재교정할 수 있다.
추적 모듈(865)은 DCA(830), PCA(840), 하나 이상의 포지션 센서들(835), IMU(825), 또는 이들의 일부 조합으로부터의 정보를 사용하여 헤드셋(810) 또는 I/O 인터페이스(850)의 움직임을 추적한다. 예를 들어, 추적 모듈(865)은 헤드셋(810)으로부터의 정보에 기초하여 로컬 영역의 매핑에서 헤드셋(810)의 기준 지점의 포지션을 결정한다. 추적 모듈(865)은 또한 로컬 영역 또는 가상 영역에서 객체(실제 객체 또는 가상 객체)의 포지션들을 결정할 수 있다. 추가적으로, 일부 실시예들에서, 추적 모듈(865)은 헤드셋(810)의 미래 위치를 예측하기 위해 DCA(830)로부터의 로컬 영역의 표현뿐만 아니라 IMU(825)로부터 헤드셋(810)의 포지션을 나타내는 데이터의 부분들을 사용할 수 있다. 추적 모듈(865)은 헤드셋(810) 또는 I/O 인터페이스(850)의 추정된 또는 예측된 미래 포지션을 엔진(867)에 제공한다.
엔진(867)은 또한 애플리케이션들을 실행하고, 추적 모듈(865)로부터 헤드셋(810)의 포지션 정보, 가속도 정보, 속도 정보, 예측된 미래 포지션들, 또는 이들의 일부 조합을 수신한다. 수신된 정보에 기초하여, 엔진(867)은 사용자에게 제공하기 위해 헤드셋(810)에 제공할 콘텐트를 결정한다. 예를 들어, 수신된 정보가 사용자가 타겟 영역의 포지션에 있다는 것을 나타내면, 엔진(867)은 타겟 영역과 연관된 가상 콘텐트(예를 들어, 이미지 및 오디오)를 생성한다. 타겟 영역은 가상 영역, 예를 들어, 가상 회의실일 수 있다. 엔진(867)은 헤드셋(810)이 사용자에게 디스플레이하도록 가상 회의실의 이미지들 및 가상 회의실에서의 행해진 음성들을 생성할 수 있다. 타겟 영역은 사용자의 로컬 영역일 수 있다. 엔진(867)은 로컬 영역으로부터의 실제 객체와 결합된 가상 객체들의 이미지들 및 가상 객체 또는 실제 객체와 연관된 오디오 콘텐트를 생성할 수 있다. 다른 예로서, 수신된 정보가 사용자가 왼쪽을 봤음을 나타내는 경우, 엔진(867)은 가상 타겟 영역에서 또는 추가 콘텐트로 타겟 지역을 증강하는 타겟 영역에서 사용자의 움직임을 미러링하는 헤드셋(810)에 대한 콘텐트를 발생시킨다. 추가적으로, 엔진(867)은 I/O 인터페이스(850)로부터 수신된 동작 요청에 응답하여 콘솔(860) 상에서 실행되는 애플리케이션 내에서 동작을 수행하고, 동작이 수행되었다는 피드백을 사용자에게 제공한다. 제공된 피드백은 헤드셋(810)를 통한 시각적 또는 청각적 피드백이거나 또는 I/O 인터페이스(850)를 통한 햅틱 피드백일 수 있다.
도 9는 하나 이상의 실시예들에 따라 오디오 어셈블리를 포함하는 헤드셋(900)의 사시도이다. 헤드셋(900)은 도 3의 헤드셋(330) 또는 도 8의 헤드셋(810)의 실시예일 수 있다. 일부 실시예들(도 9에 도시됨)에서, 헤드셋(900)은 NED로서 구현된다. 대안적인 실시예들(도 9에 도시되지 않음)에서, 헤드셋(900)은 HMD로서 구현된다. 일반적으로, 헤드셋(900)은 헤드셋(900)의 렌즈(910) 중 하나 또는 둘 다를 사용하여 콘텐트(예를 들어, 미디어 콘텐트)가 제공되도록 사용자의 얼굴에 착용될 수 있다. 그러나, 헤드셋(900)은 또한, 미디어 콘텐트가 다른 방식으로 사용자에게 제공되도록 사용될 수도 있다. 헤드셋(900)에 의해 제시되는 미디어 콘텐트의 예들은 하나 이상의 이미지들, 비디오, 오디오, 또는 이들의 일부 조합을 포함한다. 헤드셋(900)은 다른 구성요소들 중에서도, 프레임(905), 렌즈(910), DCA(925), PCA(930), 포지션 센서(940), 및 오디오 어셈블리를 포함할 수 있다. DCA(925) 및 PCA(930)는 헤드셋(900)의 일부 또는 전체를 둘러싸는 타겟 영역의 시각 정보를 캡처하기 위해 헤드셋(900)에 장착된 SLAM 센서들의 일부일 수 있다. 도 9는 헤드셋(900) 상의 예시적인 위치들에서 헤드셋(900)의 구성요소들을 도시하지만, 구성요소들은 헤드셋(900), 헤드셋(900)과 페어링된 주변 디바이스, 또는 이들의 일부 조합의 다른 곳에도 위치할 수 있다.
헤드셋(900)은 사용자의 시력을 교정 또는 향상시키고, 사용자의 눈을 보호하거나, 또는 사용자에게 이미지들을 제공할 수 있다. 헤드셋(900)은 사용자의 시력에서의 결함들을 교정하는 안경일 수 있다. 헤드셋(900)은 태양으로부터 사용자의 눈을 보호하는 선글라스일 수 있다. 헤드셋(900)은 충격으로부터 사용자의 눈을 보호하는 보안경일 수 있다. 헤드셋(900)은 야간에 사용자의 시야(vision)를 향상시키기 위한 야간 시야 디바이스(night vision device) 또는 적외선 고글일 수 있다. 헤드셋(900)은 사용자를 위한 인공 현실 콘텐트를 생성하는 근안 디스플레이일 수 있다. 대안적으로, 헤드셋(900)은 렌즈(910)를 포함하지 않을 수 있으며 사용자에게 오디오 콘텐트(예를 들어, 음악, 라디오, 팟캐스트)를 제공하는 오디오 어셈블리를 갖는 프레임(905)일 수 있다.
프레임(905)은 헤드셋(900)의 다른 구성요소들을 유지하다. 프레임(905)은 렌즈(910)를 고정하는 전방부(front part) 및 사용자의 머리에 부착되는 끝 부분(end pieces)를 포함한다. 프레임(905)의 전방부는 사용자의 코의 맨 위 부분에 걸친다. 상기 끝 부분(예를 들어, 안경 다리)은 사용자의 관자놀이에 부착되는 프레임(905)의 부분들이다. 상기 끝 부분의 길이는 다양한 사용자들에 맞게 조정 가능(예를 들어, 조정 가능한 안경 다리의 길이)할 수 있다. 상기 끝 부분은 또한 사용자의 귀 뒤에서 감기는 부분(예를 들어, 안경 다리 끝(temple tip), 이어 피스(ear piece))을 포함할 수 있다.
렌즈(910)는 헤드셋(900)을 착용한 사용자에게 광을 제공하거나 전달한다. 렌즈(910)는 사용자의 시력 결함들을 교정하는 데 도움이 되는 처방된 렌즈(prescription lens)(예를 들어, 단 초점, 이중 초점 및 삼중 초점, 또는 진행성 다초점(progressive))을 포함할 수 있다. 처방된 렌즈는 헤드셋(900)을 착용한 사용자에게 주변 광을 전달한다. 전달된 주변 광은 사용자 시력의 결함들을 교정하기 위해 처방된 렌즈에 의해 변경될 수 있다. 렌즈(910)는 태양으로부터 사용자의 눈을 보호하기 위한 편광 렌즈(polarized lens) 또는 착색 렌즈(tinted lens)를 포함할 수 있다. 렌즈(910)는 도파관 디스플레이의 일부로서 하나 이상의 도파관들을 포함할 수 있으며, 여기서 이미지 광은 도파관의 단부 또는 가장자리를 통해 사용자의 눈에 결합된다. 렌즈(910)는 이미지 광을 제공하기 위한 전자 디스플레이를 포함할 수 있으며, 또한 전자 디스플레이로부터의 이미지 광을 확대하기 위한 광학 블록을 포함할 수 있다. 렌즈(910)는 디스플레이 어셈블리(815)와 광학 블록(820)의 조합의 실시예들일 수 있다.
DCA(925)는 룸과 같이 헤드셋(330)을 둘러싸는 로컬 영역에 대한 깊이 정보를 나타내는 깊이 정보 데이터를 캡처한다. DCA(925)는 DCA(830)의 일 실시예일 수 있다. 일부 실시예들에서, DCA(925)는 광 프로젝터(예를 들어, 비행 시간을 위한 구조화 광 및/또는 플래시 조명), 이미징 디바이스, 및 컨트롤러(도 9에 도시되지 않음)를 포함할 수 있다. 캡처된 데이터는 광 프로젝터에 의해 로컬 영역에 투사된 광의 이미징 디바이스에 의해 캡처된 이미지들일 수 있다. 일 실시예에서, DCA(925)는 스테레오로 로컬 영역의 부분들을 캡처하도록 지향되는 2개 이상의 카메라들 및 컨트롤러를 포함할 수 있다. 캡처된 데이터는 스테레오로 로컬 영역의 2개 이상의 카메라들에 의해 캡처된 이미지들일 수 있다. DCA(925)의 컨트롤러는 캡처된 데이터 및 깊이 결정 기술들(예를 들어, 구조화된 광, 비행 시간, 스테레오 이미징 등)을 사용하여 로컬 영역의 깊이 정보를 계산한다. 깊이 정보에 기초하여, DCA(925)의 컨트롤러는 로컬 영역 내에서 헤드셋(330)의 절대 포지션 정보를 결정한다. DCA(925)는 헤드셋(330)과 통합되거나 헤드셋(330) 외부의 로컬 영역 내에 위치할 수 있다. 일부 실시예들에서, DCA(925)의 컨트롤러는, 예를 들어 오디오 서버(400)와의 통신 및 추가 프로세싱을 위해, 깊이 이미지 데이터를 헤드셋(330)의 오디오 컨트롤러(920)로 전송할 수 있다.
PCA(930)는 컬러(예를 들어, RGB) 이미지 데이터를 생성하는 하나 이상의 수동 카메라들을 포함한다. PCA(930)는 PCA(840)의 일 실시예일 수 있다. 능동 발광 및 반사를 사용하는 DCA(925)와 달리, PCA(930)은 로컬 영역의 환경으로부터의 광을 캡처하여 컬러 이미지 데이터를 생성한다. 이미징 디바이스로부터의 깊이 또는 거리를 정의하는 픽셀 값들 대신에, 상기 컬러 이미지 데이터의 픽셀 값들은 이미지 데이터에서 캡처된 객체들의 가시적 컬러들을 정의할 수 있다. 일부 실시예들에서, PCA(930)는 수동 이미징 디바이스에 의해 캡처된 광에 기초하여 컬러 이미지 데이터를 생성하는 컨트롤러를 포함한다. PCA(930)는 예를 들어 오디오 서버(400)와의 통신 및 추가 프로세싱을 위해 컬러 이미지 데이터를 오디오 컨트롤러(920)에 제공할 수 있다.
일부 실시예들에서, DCA(925) 및 PCA(930)는 깊이 정보를 생성하기 위해 스테레오 이미징을 사용하는 컬러 카메라 시스템과 같이 동일한 카메라 어셈블리이다.
포지션 센서(940)는 헤드셋(9010)의 움직임에 응답하여 하나 이상의 측정 신호들에 기초하여 헤드셋(900)의 위치 정보를 생성한다. 포지션 센서(940)는 포지션 센서들(835) 중 하나의 실시예일 수 있다. 포지션 센서(940)는 헤드셋(900)의 프레임(905)의 일부에 위치될 수 있다. 포지션 센서(940)는 포지션 센서, IMU, 또는 둘 다를 포함할 수 있다. 헤드셋(900)의 일부 실시예들은 포지션 센서(940)를 포함하거나 포함하지 않을 수 있고, 또는 하나보다 많은 포지션 센서들(940)을 포함할 수 있다. 포지션 센서(940)가 IMU를 포함하는 실시예들에서, IMU는 포지션 센서(940)로부터의 측정 신호들에 기초하여 IMU 데이터를 생성한다. 포지션 센서(940)의 예들은 하나 이상의 가속도계, 하나 이상의 자이로스코프, 하나 이상의 자력계, 모션을 검출하는 다른 적합한 유형의 센서, IMU()의 에러 정정에 사용되는 유형의 센서, 또는 이들의 일부 조합을 포함한다. 포지션 센서(940)는 IMU 외부, IMU 내부, 또는 이들의 일부 조합에 위치될 수 있다.
하나 이상의 측정 신호들에 기초하여, 포지션 센서(940)는 헤드셋(900)의 초기 포지션에 대한 헤드셋(900)의 현재 포지션을 추정한다. 추정된 포지션은 헤드셋(900)의 위치 및/또는 헤드셋(900) 또는 헤드셋(900)을 착용한 사용자의 머리의 지향방향, 또는 이들의 조합을 포함할 수 있다. 지향방향은 기준 지점에 대한 각각의 귀의 포지션에 대응할 수 있다. 일부 실시예들에서, 포지션 센서(940)는 헤드셋(900)의 현재 포지션을 추정하기 위해 DCA(925)로부터의 깊이 정보 및/또는 절대 포지션 정보를 사용한다. 포지션 센서(940)는 병진 운동(전진/후퇴, 상/하, 좌/우)을 측정하기 위한 다중 가속도계들 및 회전 운동(예를 들어, 피치(pitch), 요(yaw), 및 롤(roll))을 측정하기 위한 다중 자이로스코프들을 포함한다. 일부 실시예들에서, IMU는 측정 신호들을 빠르게 샘플링하고, 샘플링된 데이터로부터 헤드셋(900)의 추정된 포지션을 계산한다. 예를 들어, IMU는 속도 벡터를 추정하기 위해 시간에 걸쳐 가속도계들로부터 수신된 측정 신호들을 통합하고, 헤드셋(900) 상의 기준 지점의 추정된 포지션을 결정하기 위해 시간에 걸쳐 속도 벡터를 통합한다. 기준 지점은 헤드셋(900)의 포지션을 나타내는 데 사용될 수 있는 지점이다. 기준 지점은 일반적으로 영역의 한 지점으로 정의될 수 있지만, 실제로 기준 지점은 헤드셋(900) 내의 지점으로서 정의된다.
오디오 어셈블리는 오디오 콘텐트를 렌더링하여 룸 모드들의 로컬 효과들을 통합한다. 헤드셋(900)의 오디오 어셈블리는 도 6과 관련하여 위에서 설명된 오디오 어셈블리(600)의 실시예이다. 일부 실시예들에서, 오디오 어셈블리는 음향 필터에 대한 쿼리를 오디오 서버(예를 들어, 오디오 서버(400))에 전송한다. 오디오 어셈블리는 오디오 서버로부터 룸 모드 파라미터들을 수신하고 오디오 콘텐트를 제공하기 위해 음향 필터를 생성한다. 음향 필터는 무한 임펄스 응답 필터 및/또는 룸 모드들의 모달 주파수들에서 Q 값 및 이득을 갖는 전체 통과 필터를 포함할 수 있다. 일부 실시예들에서, 오디오 어셈블리는 스피커들(915a, 915b), 음향 센서들(935)의 어레이, 및 오디오 컨트롤러(920)를 포함한다.
스피커들(915a, 915b)은 사용자의 귀를 위한 사운드를 생성한다. 스피커들(915a, 915b)은 도 6의 스피커 어셈블리(610)의 변환기들의 실시예들이다. 스피커들(915a, 915b)은 오디오 컨트롤러(920)로부터 오디오 지시들을 수신하여 사운드를 생성한다. 스피커(915a)는 오디오 컨트롤러(920)로부터 좌측 오디오 채널을 획득하고, 스피커(915b)는 오디오 컨트롤러(920)로부터 우측 오디오 채널을 획득할 수 있다. 도 9에 도시된 바와 같이, 각각의 스피커(915a, 915b)는 프레임(905)의 끝 부분에 결합되고 사용자의 대응하는 귀의 입구 앞에 배치된다. 스피커들(915a, 915b)이 프레임(905)의 외부에 도시되어 있지만, 스피커들(915a, 915b)은 프레임(905)에 포함될 수 있다. 일부 실시예들에서, 각각의 귀에 대한 개별 스피커들(915a, 915b) 대신에, 헤드셋(330)은 제공된 오디오 콘텐트의 방향성을 개선하기 위해 예를 들어 프레임(905)의 끝 부분들에 통합된 스피커 어레이(도 9에 도시되지 않음)를 포함한다.
음향 센서들(935)의 어레이는 헤드셋(330)의 일부 또는 전부를 둘러싸는 로컬 영역에서 사운드를 모니터링하고 기록한다. 음향 센서들(935)의 어레이는 도 6의 마이크로폰 어셈블리(620)의 실시예이다. 도 9에 도시된 바와 같이, 음향 센서들(935)의 어레이는 헤드셋(330) 상에 위치되는 다중의 음향 검출 위치들을 갖는 다중의 음향 센서들을 포함한다.
오디오 컨트롤러(920)는 오디오 서버에 룸 모드 쿼리를 전송함으로써 오디오 서버(예를 들어, 오디오 서버(400))로부터 하나 이상의 룸 모드 파라미터들을 요청한다. 룸 모드 쿼리는 타겟 영역 정보, 사용자 정보, 오디오 콘텐트 정보, 오디오 서버(320)가 음향 필터를 결정하기 위해 사용할 수 있는 일부 다른 정보, 또는 이들의 일부 조합을 포함한다. 일부 실시예들에서, 오디오 컨트롤러(920)는 헤드셋(900)에 연결된 콘솔(예를 들어, 콘솔(860))로부터의 정보에 기초하여 룸 모드 쿼리를 생성한다. 오디오 서버(920)는 타겟 영역의 이미지들에 기초하여 타겟 영역의 적어도 일부를 나타내는 시각 정보를 생성할 수 있다. 일부 실시예들에서, 오디오 컨트롤러(920)는 헤드셋(900)의 다른 구성요소들로부터의 정보에 기초하여 룸 모드 쿼리를 생성한다. 예를 들어, 타겟 영역의 적어도 일부를 나타내는 시각 정보는 DCA(925)에 의해 캡처된 깊이 이미지 데이터 및/또는 PCA(930)에 의해 캡처된 컬러 이미지 데이터를 포함할 수 있다. 사용자의 위치 정보는 포지션 센서(940)에 의해 결정될 수 있다.
오디오 컨트롤러(920)는 오디오 서버로부터 수신된 룸 모드 파라미터들에 기초하여 음향 필터를 생성한다. 오디오 컨트롤러(920)는 음향 필터를 사용하여 사운드를 생성하기 위해 스피커들(915a, 915b)에 오디오 지시들을 제공하여, 타겟 영역의 룸 모드들의 로컬 효과들이 사운드에 통합되도록 한다. 오디오 컨트롤러(920)는 도 6의 오디오 컨트롤러(630)의 실시예일 수 있다.
일 실시예에서, 통신 모듈(예를 들어, 트랜시버)은 오디오 컨트롤러(920)에 통합될 수 있다. 다른 실시예에서, 통신 모듈은 오디오 컨트롤러(920)의 외부에 있을 수 있고 오디오 컨트롤러(920)에 결합된 별도의 모듈로서 프레임(905)에 통합될 수 있다.
추가 구성 정보
본 개시의 실시예들에 대한 상술한 설명은 예시의 목적으로 제공되었다; 이러한 것은 포괄적인 것으로 의도되지 않았으며, 본 개시내용을 개시된 정확한 형태들로 제한하려 의도되지 않았다. 당업자들는 위의 개시내용에 비추어 많은 수정들 및 변형들이 가능하다는 것을 인식할 수 있다.
본 설명의 일부 부분들은 정보에 대한 동작들의 알고리즘들 및 상징적 표현들의 관점에서 본 개시내용의 실시예들을 기술한다. 이러한 알고리즘적 설명들 및 표현들은 데이터 처리 분야의 당업자들에 의해 그의 작업의 내용을 다른 당업자들에게 효과적으로 전달하기 위해 일반적으로 사용된다. 이들 동작들은 기능적으로, 계산적으로 또는 논리적으로 설명되었지만, 컴퓨터 프로그램들 또는 등가의 전기 회로들, 마이크로코드, 등에 의해 구현되는 것으로 이해된다. 더욱이, 이러한 동작들의 배열들을 일반성 손실 없이 모듈들로 지칭하는 것이 때때로 편리한 것으로 입증되었다. 기술된 동작들 및 관련 모듈들은 소프트웨어, 펌웨어, 하드웨어, 또는 이들의 임의의 조합으로 구현될 수 있다.
본 명세서에서 기술된 단계들, 동작들 또는 프로세스들의 어떠한 것도 하나 이상의 하드웨어 또는 소프트웨어 모듈들로 단독으로 또는 다른 디바이스와 조합하여 수행되거나 구현될 수 있다. 한 실시예에서, 소프트웨어 모듈은 컴퓨터 프로그램 코드를 포함하는 컴퓨터 판독 가능한 매체를 포함하는 컴퓨터 프로그램 제품으로 구현되며, 컴퓨터 프로그램 코드는 컴퓨터 프로세서에 의해 실행되어 설명된 단계들, 동작들 또는 프로세스들 중 임의의 것 또는 모두를 수행할 수 있다.
본 개시내용의 실시예들은 또한 본 명세서의 동작들을 수행하기 위한 장치에 관한 것일 수 있다. 이러한 장치는 필요한 목적들을 위해 특별히 구성될 수 있고/있거나, 컴퓨터에 저장된 컴퓨터 프로그램에 의해 선택적으로 활성화되거나 재구성되는 범용 컴퓨팅 디바이스를 포함할 수 있다. 이러한 컴퓨터 프로그램은 비일시적인, 유형의 컴퓨터 판독 가능한 저장 매체, 또는 전자 지시들을 저장하기에 적합한 임의의 유형의 매체에 저장될 수 있고, 이러한 매체는 컴퓨터 시스템 버스에 결합될 수 있다. 또한, 본 명세서에서 언급된 임의의 컴퓨팅 시스템들은 단일 프로세서를 포함할 수 있거나 증가된 컴퓨팅 능력을 위해 다중 프로세서 설계들을 채용하는 아키텍처일 수 있다.
본 개시내용의 실시예들은 또한 본 명세서에 기술된 컴퓨팅 프로세스에 의해 생성되는 제품에 관한 것일 수 있다. 이러한 제품은 컴퓨팅 프로세스로부터 초래된 정보를 포함할 수 있으며, 여기서 정보는 비일시적, 유형의 컴퓨터 판독 가능한 저장 매체에 저장되며, 여기에 설명된 컴퓨터 프로그램 제품 또는 다른 데이터 조합의 임의의 실시예들을 포함할 수 있다.
본 명세서에서 사용된 언어는 원칙적으로 가독성 및 교육 목적으로 선택되었으며, 본 발명의 주제를 정확하게 기술하거나 제한하기 위해 선택되지 않았을 수 있다. 그러므로, 본 개시내용의 범주는 이러한 상세한 설명에 의해 제한되는 것이 아니라, 여기에 기초한 본 출원에 대해 주장하는 청구범위에 의해 제한되는 것으로 의도된다. 따라서, 실시예들의 개시내용은 다음의 청구범위에 제시된 본 개시내용의 범주를 예시하기 위한 것이지 제한하기 위한 것은 아니다.

Claims (15)

  1. 방법으로서:
    타겟 영역의 3차원 가상 표현에 부분적으로 기초하여 타겟 영역의 모델을 결정하는 단계;
    상기 모델을 사용하여 상기 타겟 영역의 룸 모드들을 결정하는 단계; 및
    상기 타겟 영역 내의 사용자의 포지션 및 상기 룸 모드들 중 적어도 하나에 기초하여 하나 이상의 룸 모드 파라미터들을 결정하는 단계로서, 상기 하나 이상의 룸 모드 파라미터들은 사용자에게 오디오 콘텐트를 제공하기 위해 헤드셋에 의해 사용되는 음향 필터를 나타내고, 오디오 콘텐트에 적용되는 상기 음향 필터는 적어도 하나의 룸 모드와 연관된 주파수들 및 사용자의 포지션에서 음향 왜곡을 시뮬레이션하는, 상기 하나 이상의 룸 모드 파라미터들을 결정하는 단계를 포함하는, 방법.
  2. 제1항에 있어서,
    상기 헤드셋으로부터 상기 타겟 영역의 적어도 일부를 나타내는 깊이 정보를 수신하는 단계; 및
    상기 깊이 정보를 사용하여 3차원 재구성의 적어도 일부를 생성하는 단계를 더 포함하는, 방법.
  3. 제1항에 있어서, 타겟 영역의 3차원 재구성에 부분적으로 기초하여 타겟 영역의 모델을 결정하는 단계는:
    상기 3차원 가상 표현을 복수의 후보 모델들과 비교하는 단계; 및
    상기 3차원 가상 표현과 매칭하는 상기 복수의 후보 모델들 중 하나를 타겟 영역의 모델로 식별하는 단계를 포함하고;
    상기 모델을 사용하여 상기 타겟 영역의 룸 모드들을 결정하는 단계는 상기 모델의 형태에 기초하여 룸 모드들을 결정하는 단계를 더 포함하는, 방법.
  4. 제1항에 있어서,
    상기 타겟 영역의 적어도 일부의 컬러 이미지 데이터를 수신하는 단계;
    상기 컬러 이미지 데이터를 사용하여 상기 타겟 영역의 일부에서 표면들의 재료 조성(material composition)을 결정하는 단계;
    상기 표면의 재료 조성에 기초하여 각 표면에 대한 감쇠 파라미터를 결정하는 단계; 및
    상기 각 표면의 감쇠 파라미터로 모델을 업데이트하는 단계를 더 포함하는, 방법.
  5. 제1항에 있어서, 헤드셋에서 오디오 콘텐트를 렌더링하기 위해 상기 음향 필터를 나타내는 파라미터들을 헤드셋으로 전송하는 단계를 더 포함하는, 방법.
  6. 제1항에 있어서, 상기 타겟 영역은 가상 영역이고, 상기 가상 영역은 사용자의 물리적 환경과 다른, 방법.
  7. 제1항에 있어서, 상기 타겟 영역은 사용자의 물리적 환경인, 방법.
  8. 장치로서:
    타겟 영역의 3차원 가상 표현에 부분적으로 기초하여 타겟 영역의 모델을 결정하도록 구성된 매칭 모듈(matching module);
    상기 모델을 사용하여 상기 타겟 영역의 룸 모드들을 결정하도록 구성된 룸 모드 모듈; 및
    상기 타겟 영역 내의 사용자의 포지션 및 상기 룸 모드들 중 적어도 하나의 룸 모드에 기초하여 하나 이상의 룸 모드 파라미터들을 결정하도록 구성된 음향 필터 모듈로서, 상기 하나 이상의 룸 모드 파라미터들은 사용자에게 오디오 콘텐트를 제공하기 위해 헤드셋에 의해 사용되는 음향 필터를 나타내고, 오디오 콘텐트에 적용되는 상기 음향 필터는 적어도 하나의 룸 모드와 연관된 주파수들 및 사용자의 포지션에서 음향 왜곡을 시뮬레이션하는, 상기 음향 필터 모듈을 포함하는, 장치.
  9. 제8항에 있어서,
    상기 매칭 모듈은:
    3차원 가상 표현을 복수의 후보 모델들과 비교하고,
    상기 3차원 가상 표현과 매칭하는 복수의 후보 모델들 중 하나를 상기 타겟 영역의 모델로 식별함으로써,
    상기 타겟 영역의 3차원 재구성에 부분적으로 기초하여 상기 타겟 영역의 모델을 결정하도록 구성되는, 장치.
  10. 제8항에 있어서, 상기 룸 모드 모듈은 상기 모델의 형태에 기초하여 상기 룸 모드들을 결정함으로써 상기 모델을 사용하여 상기 타겟 영역의 룸 모드들을 결정하도록 구성되는, 장치.
  11. 제8항에 있어서, 상기 음향 필터 모듈은 상기 헤드셋에서 오디오 콘텐트를 렌더링하기 위해 상기 음향 필터를 나타내는 파라미터들을 상기 헤드셋으로 전송하도록 구성되는, 장치.
  12. 방법으로서:
    하나 이상의 룸 모드 파라미터들에 기초하여 음향 필터를 생성하는 단계로서, 상기 음향 필터는 타겟 영역의 적어도 하나의 룸 모드와 연관된 주파수들에서 및 타겟 영역 내의 사용자의 포지션에서 음향 왜곡을 시뮬레이션하는, 상기 음향 필터를 생성하는 단계; 및
    상기 음향 필터를 사용하여 사용자에게 오디오 콘텐트를 제공하는 단계로서, 상기 오디오 콘텐트는 상기 타겟 영역 내의 객체로부터 발생되고 상기 타겟 영역 내의 사용자의 포지션에서 수신되는 것처럼 보이는, 상기 오디오 콘텐트를 제공하는 단계를 포함하는, 방법.
  13. 제12항에 있어서, 상기 음향 필터는 적어도 하나의 룸 모드의 모달 주파수들에서 Q 값 또는 이득을 갖는 복수의 무한 임펄스 응답 필터들을 포함하는, 방법.
  14. 제12항에 있어서, 상기 음향 필터는 적어도 하나의 룸 모드의 모달 주파수들에서 Q 값 또는 이득을 갖는 복수의 전체 통과 필터들(all-pass filters)을 더 포함하는, 방법.
  15. 제12항에 있어서,
    룸 모드 쿼리(room mode query)를 오디오 서버에 전송하는 단계로서, 상기 룸 모드 쿼리는 상기 타겟 영역의 가상 정보 및 사용자의 위치 정보를 포함하는, 상기 룸 모드 쿼리를 전송하는 단계;
    상기 오디오 서버로부터 하나 이상의 룸 모드 파라미터들을 수신하는 단계; 및
    적어도 하나의 룸 모드 및 사용자의 포지션 변화들에 기초하여 상기 음향 필터를 동적으로 조정하는 단계를 더 포함하는, 방법.
KR1020217041515A 2019-05-21 2020-04-16 룸 모드의 로컬 효과를 통합하기 위한 음향 필터 결정 KR20220011152A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/418,426 2019-05-21
US16/418,426 US10856098B1 (en) 2019-05-21 2019-05-21 Determination of an acoustic filter for incorporating local effects of room modes
PCT/US2020/028450 WO2020236356A1 (en) 2019-05-21 2020-04-16 Determination of an acoustic filter for incorporating local effects of room modes

Publications (1)

Publication Number Publication Date
KR20220011152A true KR20220011152A (ko) 2022-01-27

Family

ID=70680580

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217041515A KR20220011152A (ko) 2019-05-21 2020-04-16 룸 모드의 로컬 효과를 통합하기 위한 음향 필터 결정

Country Status (7)

Country Link
US (2) US10856098B1 (ko)
EP (1) EP3935870A1 (ko)
JP (1) JP2022533881A (ko)
KR (1) KR20220011152A (ko)
CN (1) CN113812171A (ko)
TW (1) TW202112145A (ko)
WO (1) WO2020236356A1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10026226B1 (en) * 2014-06-10 2018-07-17 Ripple Inc Rendering an augmented reality object
US10930038B2 (en) 2014-06-10 2021-02-23 Lab Of Misfits Ar, Inc. Dynamic location based digital element
GB2603515A (en) * 2021-02-05 2022-08-10 Nokia Technologies Oy Appartus, method and computer programs for enabling audio rendering
US11582571B2 (en) 2021-05-24 2023-02-14 International Business Machines Corporation Sound effect simulation by creating virtual reality obstacle

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007068257A1 (en) * 2005-12-16 2007-06-21 Tc Electronic A/S Method of performing measurements by means of an audio system comprising passive loudspeakers
US8767968B2 (en) 2010-10-13 2014-07-01 Microsoft Corporation System and method for high-precision 3-dimensional audio for augmented reality
US9615171B1 (en) * 2012-07-02 2017-04-04 Amazon Technologies, Inc. Transformation inversion to reduce the effect of room acoustics
GB201318802D0 (en) * 2013-10-24 2013-12-11 Linn Prod Ltd Linn Exakt
WO2015062864A1 (en) * 2013-10-29 2015-05-07 Koninklijke Philips N.V. Method and apparatus for generating drive signals for loudspeakers
JP6251054B2 (ja) * 2014-01-21 2017-12-20 キヤノン株式会社 音場補正装置及びその制御方法、プログラム
US10440498B1 (en) * 2018-11-05 2019-10-08 Facebook Technologies, Llc Estimating room acoustic properties using microphone arrays

Also Published As

Publication number Publication date
EP3935870A1 (en) 2022-01-12
US20210044916A1 (en) 2021-02-11
JP2022533881A (ja) 2022-07-27
WO2020236356A1 (en) 2020-11-26
TW202112145A (zh) 2021-03-16
US11218831B2 (en) 2022-01-04
US10856098B1 (en) 2020-12-01
CN113812171A (zh) 2021-12-17
US20200374648A1 (en) 2020-11-26

Similar Documents

Publication Publication Date Title
US11523247B2 (en) Extrapolation of acoustic parameters from mapping server
US10721521B1 (en) Determination of spatialized virtual acoustic scenes from legacy audiovisual media
US11218831B2 (en) Determination of an acoustic filter for incorporating local effects of room modes
US10959038B2 (en) Audio system for artificial reality environment
US11671784B2 (en) Determination of material acoustic parameters to facilitate presentation of audio content
US11234092B2 (en) Remote inference of sound frequencies for determination of head-related transfer functions for a user of a headset
US11112389B1 (en) Room acoustic characterization using sensors
US10897570B1 (en) Room acoustic matching using sensors on headset
US11605191B1 (en) Spatial audio and avatar control at headset using audio signals
JP2022546161A (ja) 個別化された空間オーディオを作り出すためにビームフォーミングを介して耳殻情報を推論すること
US20230093585A1 (en) Audio system for spatializing virtual sound sources
US11598962B1 (en) Estimation of acoustic parameters for audio system based on stored information about acoustic model
US12008700B1 (en) Spatial audio and avatar control at headset using audio signals

Legal Events

Date Code Title Description
E902 Notification of reason for refusal