KR20230040347A - 개별화된 사운드 프로파일들을 사용하는 오디오 시스템 - Google Patents

개별화된 사운드 프로파일들을 사용하는 오디오 시스템 Download PDF

Info

Publication number
KR20230040347A
KR20230040347A KR1020237004655A KR20237004655A KR20230040347A KR 20230040347 A KR20230040347 A KR 20230040347A KR 1020237004655 A KR1020237004655 A KR 1020237004655A KR 20237004655 A KR20237004655 A KR 20237004655A KR 20230040347 A KR20230040347 A KR 20230040347A
Authority
KR
South Korea
Prior art keywords
sound
user
sound source
local area
signal
Prior art date
Application number
KR1020237004655A
Other languages
English (en)
Inventor
윌리엄 오웬 브리미조인
토마스 프리티오프 닐스 런너
필립 로빈슨
래비시 메라
Original Assignee
메타 플랫폼즈 테크놀로지스, 엘엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 메타 플랫폼즈 테크놀로지스, 엘엘씨 filed Critical 메타 플랫폼즈 테크놀로지스, 엘엘씨
Publication of KR20230040347A publication Critical patent/KR20230040347A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1041Mechanical or electronic switches, or control elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/0093Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00 with means for monitoring data relating to the user, e.g. head-tracking, eye-tracking
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/017Head mounted
    • G02B27/0172Head mounted characterised by optical features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1016Earpieces of the intra-aural type
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/40Arrangements for obtaining a desired directivity characteristic
    • H04R25/407Circuits for combining signals of a plurality of transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/033Headphones for stereophonic communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • H04S1/005For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/017Head mounted
    • G02B2027/0178Eyeglass type
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2225/00Details of deaf aids covered by H04R25/00, not provided for in any of its subgroups
    • H04R2225/61Aspects relating to mechanical or electronic switches or control elements, e.g. functioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2420/00Details of connection covered by H04R, not provided for in its groups
    • H04R2420/01Input selection or mixing for amplifiers or loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2420/00Details of connection covered by H04R, not provided for in its groups
    • H04R2420/07Applications of wireless loudspeakers or wireless microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/01Aspects of volume control, not necessarily automatic, in sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2460/00Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
    • H04R2460/01Hearing devices using active noise cancellation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2460/00Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
    • H04R2460/07Use of position data from wide-area or local-area positioning systems in hearing devices, e.g. program or information selection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/55Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception using an external connection, either wireless or wired
    • H04R25/554Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception using an external connection, either wireless or wired using a wireless connection, e.g. between microphone and amplifier or using Tcoils

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Optics & Photonics (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Graphics (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Neurosurgery (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Stereophonic System (AREA)

Abstract

오디오 콘텐츠를 사용자에게 제공하기 위한 시스템. 시스템은 헤드셋(100)의 프레임(110)에 커플링된 하나 이상의 마이크로폰(210)을 포함한다. 하나 이상의 마이크로폰(210)은 로컬 영역으로부터 사운드를 캡처한다. 시스템은 오디오 제어기(150)를 더 포함하고, 오디오 제어기(150)는 헤드셋(100)에 통합되고, 사용자에 의해 착용된 인이어 디바이스(185)에 통신가능하게 커플링된다. 오디오 제어기(150)는 캡처된 사운드에 기초하여 로컬 영역에서 하나 이상의 사운드 소스를 식별한다. 오디오 제어기(150)는 추가로, 하나 이상의 사운드 소스 중 타겟 사운드 소스를 결정하고, 캡처된 사운드 내의 타겟 사운드 소스와 연관된 사운드 신호에 적용하기 위한 하나 이상의 필터를 결정한다. 오디오 제어기(150)는 추가로, 하나 이상의 필터를 사운드 신호에 적용함으로써 증강된 사운드 신호를 생성하고, 사용자에게 제공하기 위해 증강된 사운드 신호를 인이어 디바이스(185)에 제공한다.

Description

개별화된 사운드 프로파일들을 사용하는 오디오 시스템
본 개시내용은 일반적으로 오디오 콘텐츠를 생성하는 것에 관한 것으로, 더 구체적으로, 각각의 사용자들에 대해 개별화된 사운드 프로파일들을 사용하는 오디오 시스템에 관한 것이다.
다수의 사운드 소스들을 갖는 환경들에서, 청취자는 다른 사운드 소스들로부터의 사운드를 청취 거부하면서 특정 사운드 소스를 청취하는 것에서 어려움을 겪을 수 있다. 예컨대, 다수의 사람들이 동시에 말하고 있는 분주한 룸에서, 청취자가 룸 내의 다른 화자들의 사운드들에 대해 특정 화자의 말을 분별하는 것이 어려울 수 있다. 이러한 현상은 칵테일 파티 문제로서 알려져 있다. 칵테일 파티 문제는 부분적인 청력 손실을 갖는 사람들에 대해 더 심각한 문제를 야기할 수 있다. 청력 손실은 노화, 외상, 및 유전적 결함들과 같은 요인들에 기인할 수 있다. 청력 손실을 갖는 사람들은 그 사람이 관심을 갖는 사운드 소스를 방해하는 사운드 소스들이 있을 때 더 심각한 영향을 받을 것이다.
헤드셋 상의 오디오 시스템은 오디오 콘텐츠가 사용자에게 제공되기 전에 오디오 콘텐츠에 적용하기 위한 하나 이상의 필터를 생성한다. 하나 이상의 필터는 사용자의 사운드 프로파일에 기초하여 생성될 수 있다. 사용자의 사운드 프로파일은 사용자가 상이한 주파수들에서 사운드들을 얼마나 양호하게 청취하는지를 설명하는 사용자에 관한 개인화된 사운드 정보이다. 그리고 일부 경우들에서, 사용자는 어느 정도의 청력 손실을 가질 수 있고, 이는 그들의 사운드 프로파일에서 캡처된다. 사용자의 청력 손실의 일부 또는 전부를 보상하기 위해, 사운드 소스(즉, 타겟 사운드 소스)에 의해 방출되는 오디오 콘텐츠 내의 사운드 신호는 증강된 사운드 신호를 생성하기 위해 하나 이상의 필터에 의해 강화될 수 있다. 일부 실시예들에서, 헤드셋은 (예컨대, 헤드셋 상의 스피커 조립체를 통해) 사용자에게 증강된 사운드 신호를 제공한다. 일부 실시예들에서, 헤드셋은 헤드셋에 통신가능하게 커플링된 하나 이상의 인이어 디바이스에 증강된 사운드 신호를 제공하고, 하나 이상의 인이어 디바이스는 사용자에게 증강된 사운드 신호를 제공한다. 일부 실시예들에서, 헤드셋은 하나 이상의 인이어 디바이스에 하나 이상의 필터를 제공하고, 하나 이상의 인이어 디바이스는 증강된 사운드 신호를 생성하기 위해 하나 이상의 필터를 사운드 신호에 적용한 후에, 사용자에게 증강된 사운드 신호를 제공한다.
일부 실시예들에서, 하나 이상의 필터는 사운드를 억제하기 위해 생성될 수 있다. 예컨대, 하나 이상의 필터는 로컬 영역 내의 하나 이상의 사운드 소스(예컨대, 팬들, 타겟 사운드 소스가 아닌 사람들 등)로부터의 오디오 콘텐츠를 억제하기 위해 사용될 수 있다. 그리고 일부 실시예들에서, 하나 이상의 필터는 인이어 디바이스들로부터의 누설 신호(로컬 영역으로 누설되는 증강된 사운드 신호)를 억제하기 위해 사용될 수 있다.
일부 실시예들에서, 사용자에게 제공하기 위해 사운드 신호를 증강하기 위한 방법이 설명된다. 방법은 (예컨대, 헤드셋 상에 배열된) 하나 이상의 마이크로폰에 의해 로컬 영역으로부터 사운드를 캡처하는 단계를 포함한다. 방법은 캡처된 사운드에 기초하여 로컬 영역에서 하나 이상의 사운드 소스를 식별하는 단계를 더 포함한다. 방법은 하나 이상의 사운드 소스 중 타겟 사운드 소스를 결정하는 단계를 더 포함한다. 방법은 캡처된 사운드 내의 타겟 사운드 소스와 연관된 사운드 신호에 적용하기 위한 하나 이상의 필터를 결정하는 단계를 더 포함한다. 방법은 하나 이상의 필터를 사운드 신호에 적용함으로써 증강된 사운드 신호를 생성하는 단계를 더 포함한다. 방법은 사용자에게 제공하기 위해 증강된 사운드 신호를 스피커 조립체에 제공하는 단계를 더 포함한다. 일부 실시예들에서, 스피커 조립체는 헤드셋 상에 있다. 다른 실시예들에서, 스피커 조립체는 하나 이상의 인이어 디바이스 상에 있다.
일부 실시예들에서, 사용자에게 제공하기 위해 사운드 신호를 증강하는 시스템이 설명된다. 시스템은 헤드셋의 프레임에 커플링된 하나 이상의 마이크로폰을 포함한다. 하나 이상의 마이크로폰은 로컬 영역으로부터 사운드를 캡처하도록 구성된다. 시스템은 오디오 제어기를 더 포함하고, 오디오 제어기는 헤드셋에 통합되고, 사용자에 의해 착용된 인이어 디바이스에 통신가능하게 커플링된다. 오디오 제어기는 캡처된 사운드에 기초하여 로컬 영역에서 하나 이상의 사운드 소스를 식별하도록 구성된다. 오디오 제어기는 하나 이상의 사운드 소스 중 타겟 사운드 소스를 결정하도록 추가로 구성된다. 오디오 제어기는 캡처된 사운드 내의 타겟 사운드 소스와 연관된 사운드 신호에 적용하기 위한 하나 이상의 필터를 결정하도록 추가로 구성된다. 오디오 제어기는 하나 이상의 필터를 사운드 신호에 적용함으로써 증강된 사운드 신호를 생성하도록 추가로 구성된다. 오디오 제어기는 사용자에게 제공하기 위해 증강된 사운드 신호를 인이어 디바이스에 제공하도록 추가로 구성된다. 본 개시내용의 방법들을 수행하기 위한 명령어들을 저장하도록 구성된 비일시적 컴퓨터 판독가능 저장 매체들의 실시예들이 또한 설명된다.
본 개시내용의 제1 양태에 따르면, 방법이 제공되고, 그 방법은,
하나 이상의 마이크로폰에 의해 로컬 영역으로부터 사운드를 캡처하는 단계;
캡처된 사운드에 기초하여 로컬 영역에서 하나 이상의 사운드 소스를 식별하는 단계;
하나 이상의 사운드 소스 중 타겟 사운드 소스를 결정하는 단계;
캡처된 사운드 내의 타겟 사운드 소스와 연관된 사운드 신호에 적용하기 위한 하나 이상의 필터를 결정하는 단계;
하나 이상의 필터를 사운드 신호에 적용함으로써, 증강된 사운드 신호를 생성하는 단계; 및
사용자에게 제공하기 위해 증강된 사운드 신호를 스피커 조립체에 제공하는 단계
를 포함한다.
방법은,
타겟 사운드 소스가 로컬 영역 내의 상이한 사운드 소스의 임계 거리 내에 있다는 것을 검출하는 단계; 및
적어도 임계 거리 초과의 분리 거리로 타겟 사운드 소스와 상이한 사운드 소스 사이의 공간적 분리를 증가시키기 위해 하나 이상의 필터 중 적어도 하나를 업데이트하는 단계
를 더 포함할 수 있고,
사용자에게 제공되는 증강된 사운드 신호는 사운드가 타겟 사운드 소스로부터 유래하는 것으로 나타나게 하고, 상이한 사운드 소스로부터의 사운드가 타겟 사운드 소스로부터 적어도 분리 거리에 있는 로컬 영역 내의 위치로부터 유래하는 것으로 나타나게 한다.
하나 이상의 필터는 사용자의 사운드 프로파일에 부분적으로 기초할 수 있고, 사운드 프로파일은 적어도 사용자 청력도를 포함하고,
방법은,
사용자 피드백에 기초하여 사용자의 사운드 프로파일을 업데이트하는 단계를 더 포함한다.
하나 이상의 필터는 로컬 영역 내의 상기 사용자의 위치, 로컬 영역 내의 하나 이상의 사운드 소스 각각의 위치, 로컬 영역의 하나 이상의 음향 파라미터, 및 로컬 영역 내의 사운드 소스들의 타입들 중 하나 이상에 부분적으로 기초할 수 있다.
캡처된 사운드 내의 타겟 사운드 소스와 연관된 사운드 신호에 적용하기 위한 하나 이상의 필터를 결정하는 단계는,
복수의 광역 동적 범위 압축 필터들로부터 타겟 사운드 소스에 대응하는 광역 동적 범위 압축 필터를 선택하는 단계를 포함할 수 있고,
복수의 광역 동적 범위 압축 필터들 각각은 복수의 사운드 소스들의 상이한 각각의 사운드 소스에 대응한다.
사용자에게 제공하기 위해 증강된 사운드 신호를 스피커 조립체에 제공하는 단계는,
사용자에 의해 착용된 인이어 디바이스의 스피커 조립체에 증강된 사운드 신호를 제공하는 단계를 포함할 수 있다.
하나 이상의 마이크로폰에 의해 로컬 영역으로부터 사운드를 캡처하는 단계는,
헤드셋의 프레임에 커플링된 하나 이상의 마이크로폰에 의해 로컬 영역으로부터 사운드를 캡처하는 단계를 포함할 수 있고,
헤드셋은 인이어 디바이스로부터 분리되고 인이어 디바이스에 통신가능하게 커플링된다.
방법은,
하나 이상의 마이크로폰에 의해 인이어 디바이스로부터 누설 신호를 캡처하는 단계;
누설 신호를 실질적으로 방지하기 위해 완화 신호를 결정하는 단계 ― 완화 신호는 누설 신호에 대해 역위상임 ―; 및
헤드셋에 커플링된 별개의 스피커 조립체에 완화 신호를 출력 신호로서 제공하는 단계
를 더 포함할 수 있다.
타겟 사운드 소스를 결정하는 단계는 사용자의 시선에 부분적으로 기초할 수 있다.
타겟 사운드 소스를 결정하는 단계는 사용자에 의해 제공되는 구두 신호(verbal cue)에 기초할 수 있다.
타겟 사운드 소스를 결정하는 단계는,
사용자에 의해 수행되는 제스처의 이미지를 캡처하는 단계;
제스처가 사운드 소스의 선택에 대응한다고 결정하는 단계; 및
사운드 소스를 타겟 사운드 소스로서 선택하는 단계
를 포함할 수 있다.
방법은 컴퓨터에 의해 구현될 수 있다.
본 개시내용의 제2 양태에 따르면, 시스템이 제공되고, 그 시스템은,
헤드셋의 프레임에 커플링된 하나 이상의 마이크로폰 ― 하나 이상의 마이크로폰은 로컬 영역으로부터 사운드를 캡처하도록 구성됨 ―; 및
헤드셋에 통합되고, 사용자에 의해 착용된 인이어 디바이스에 통신가능하게 커플링된 오디오 제어기
를 포함하고,
오디오 제어기는,
캡처된 사운드에 기초하여 로컬 영역에서 하나 이상의 사운드 소스를 식별하고,
하나 이상의 사운드 소스 중 타겟 사운드 소스를 결정하고,
캡처된 사운드 내의 타겟 사운드 소스와 연관된 사운드 신호에 적용하기 위한 하나 이상의 필터를 결정하고,
하나 이상의 필터를 사운드 신호에 적용함으로써, 증강된 사운드 신호를 생성하고,
사용자에게 제공하기 위해 증강된 사운드 신호를 인이어 디바이스에 제공하도록
구성된다.
오디오 제어기는,
타겟 사운드 소스가 로컬 영역 내의 상이한 사운드 소스의 임계 거리 내에 있다는 것을 검출하고,
적어도 임계 거리 초과의 분리 거리로 타겟 사운드 소스와 상이한 사운드 소스 사이의 공간적 분리를 증가시키기 위해 하나 이상의 필터 중 적어도 하나를 업데이트하도록
추가로 구성될 수 있고,
사용자에게 제공되는 증강된 사운드 신호는 사운드가 타겟 사운드 소스로부터 유래하는 것으로 나타나게 하고, 상이한 사운드 소스로부터의 사운드가 타겟 사운드 소스로부터 적어도 분리 거리에 있는 로컬 영역 내의 위치로부터 유래하는 것으로 나타나게 한다.
캡처된 사운드 내의 타겟 사운드 소스와 연관된 사운드 신호에 적용하기 위한 하나 이상의 필터를 결정하는 것은, 복수의 광역 동적 범위 압축 필터들로부터 타겟 사운드 소스에 대응하는 광역 동적 범위 압축 필터를 선택하는 것을 포함할 수 있고,
복수의 광역 동적 범위 압축 필터들 각각은 복수의 사운드 소스들의 상이한 각각의 사운드 소스에 대응한다.
하나 이상의 마이크로폰은 인이어 디바이스로부터 누설 신호를 캡처할 수 있고,
오디오 제어기는,
누설 신호를 실질적으로 방지하기 위해 완화 신호를 결정하고 ― 완화 신호는 누설 신호에 대해 역위상임 ―,
헤드셋에 커플링된 별개의 스피커 조립체에 완화 신호를 출력 신호로서 제공하도록
추가로 구성될 수 있다.
하나 이상의 필터는 로컬 영역 내의 상기 사용자의 위치, 로컬 영역 내의 하나 이상의 사운드 소스 각각의 위치, 로컬 영역의 하나 이상의 음향 파라미터, 및 로컬 영역 내의 사운드 소스들의 타입들 중 하나 이상에 부분적으로 기초할 수 있다.
타겟 사운드 소스는 사용자의 시선에 부분적으로 기초하여 오디오 제어기에 의해 결정될 수 있다.
본 개시내용의 제3 양태에 따르면, 비일시적 컴퓨터 판독가능 저장 매체가 제공되고, 비일시적 컴퓨터 판독가능 저장 매체는 명령어들을 저장하고, 명령어들은, 하나 이상의 프로세서에 의해 실행될 때, 하나 이상의 프로세서로 하여금 동작들을 수행하게 하고,
동작들은,
하나 이상의 마이크로폰에 의해 로컬 영역으로부터 사운드를 캡처하는 동작;
캡처된 사운드에 기초하여 로컬 영역에서 하나 이상의 사운드 소스를 식별하는 동작;
하나 이상의 사운드 소스 중 타겟 사운드 소스를 결정하는 동작;
캡처된 사운드 내의 타겟 사운드 소스와 연관된 사운드 신호에 적용하기 위한 하나 이상의 필터를 결정하는 동작;
하나 이상의 필터를 사운드 신호에 적용함으로써, 증강된 사운드 신호를 생성하는 동작; 및
사용자에게 제공하기 위해 증강된 사운드 신호를 스피커 조립체에 제공하는 동작
을 포함한다.
명령어들은 추가로, 하나 이상의 프로세서로 하여금 동작들을 수행하게 할 수 있고,
동작들은,
타겟 사운드 소스가 로컬 영역 내의 상이한 사운드 소스의 임계 거리 내에 있다는 것을 검출하는 동작; 및
적어도 임계 거리 초과의 분리 거리로 타겟 사운드 소스와 상이한 사운드 소스 사이의 공간적 분리를 증가시키기 위해 하나 이상의 필터 중 적어도 하나를 업데이트하는 동작
을 더 포함하고,
사용자에게 제공되는 증강된 사운드 신호는 사운드가 타겟 사운드 소스로부터 유래하는 것으로 나타나게 하고, 상이한 사운드 소스로부터의 사운드가 타겟 사운드 소스로부터 적어도 분리 거리에 있는 로컬 영역 내의 위치로부터 유래하는 것으로 나타나게 한다.
캡처된 사운드 내의 타겟 사운드 소스와 연관된 사운드 신호에 적용하기 위한 하나 이상의 필터를 결정하는 동작은,
복수의 광역 동적 범위 압축 필터들로부터 타겟 사운드 소스에 대응하는 광역 동적 범위 압축 필터를 선택하는 동작을 포함할 수 있고,
복수의 광역 동적 범위 압축 필터들 각각은 복수의 사운드 소스들의 상이한 각각의 사운드 소스에 대응한다.
도 1a는 하나 이상의 실시예에 따른, 아이웨어 디바이스로서 구현된 헤드셋의 사시도이다.
도 1b는 하나 이상의 실시예에 따른, 머리 장착형 디스플레이로서 구현된 헤드셋의 사시도이다.
도 2는 하나 이상의 실시예에 따른 오디오 시스템의 블록도이다.
도 3은 하나 이상의 실시예에 따른, 하나 이상의 사운드 소스를 포함하는 로컬 영역의 예이다.
도 4는 하나 이상의 실시예에 따른, 사용자에게 제공하기 위해 사운드 신호를 증강하기 위한 프로세스를 예시하는 흐름도이다.
도 5는 하나 이상의 실시예에 따른, 헤드셋 및 하나 이상의 인이어 디바이스를 포함하는 시스템이다.
도면들은 단지 예시의 목적들을 위해 다양한 실시예들을 도시한다. 관련 기술분야의 통상의 기술자는 이하의 논의로부터, 본원에서 예시되는 구조들 및 방법들의 대안적인 실시예들이 본원에서 설명되는 원리들로부터 벗어나지 않으면서 이용될 수 있다는 것을 쉽게 인식할 것이다.
헤드셋 상의 오디오 시스템은 오디오 콘텐츠가 사용자에게 제공되기 전에 오디오 콘텐츠에 적용하기 위한 하나 이상의 필터를 생성한다. 오디오 콘텐츠는 헤드셋을 둘러싸는 로컬 영역으로부터의 재방송된 캡처된 사운드, 헤드셋에 의해 제공하는 가상 사운드, 모바일 디바이스(예컨대, 모바일 폰)에 의해 제공되는 음악 및/또는 오디오(예컨대, 콜로부터의 것), 또는 그들의 일부 조합을 포함할 수 있다. 사운드는 하나 이상의 사운드 신호를 포함하고, 여기서, 각각의 사운드 신호는 사운드 소스와 연관된다. 사운드 소스는 사용자, 사람, 헤드셋을 착용한 사람, 동물, 스피커(예컨대, 인이어 디바이스의 스피커), 기계 디바이스 또는 헤드셋을 둘러싸는 로컬 영역에서 사운드를 방출하는 임의의 다른 실세계 객체와 같은 실세계 사운드 소스, 로컬 영역 내의 사용자에게 제공되는 가상 객체와 같은 가상 사운드 소스, 또는 모바일 폰 스피커, 태블릿 스피커 또는 로컬 영역에서 사운드를 방출하는 임의의 다른 모바일 디바이스 스피커와 같은 모바일 디바이스 사운드 소스일 수 있다. 일부 실시예들에서, 오디오 시스템은 특정 사운드 소스(즉, 타겟 사운드 소스)에 의해 방출되는 사운드 신호에 적용될 하나 이상의 필터(예컨대, 저역 통과, 고역 통과, 동적 범위 압축 필터 등)을 생성한다. 사운드 신호에 적용되는 하나 이상의 필터는, 예컨대, 사운드 신호의 특정 주파수들(예컨대, 10 kHz 초과의 주파수들)을 증폭하는 것, 사운드 신호에 특정 이득을 (광역 동적 범위 압축 필터를 사용하여) 적용하는 것, 사운드 신호를 공간화하는 것, 사운드 신호의 특정 주파수들을 감쇠시키는 것, 특정 주파수들의 강도를 이퀄라이징하는 것, 사운드 신호에 일부 다른 조정을 적용하는 것, 특정 주파수들에 다중 대역 리미터를 적용하는 것, 또는 그들의 일부 조합을 수행할 수 있다. 일부 실시예들에서, 오디오 시스템은 다른 사운드 소스(들)에 의해 방출되는 다른 사운드 신호(들)에 적용될 하나 이상의 필터를 생성한다. 다른 사운드 신호(들)에 적용되는 하나 이상의 필터는 이러한 사운드 신호들의 특정 주파수들을 감소 또는 제거할 수 있다. 오디오 콘텐츠가 시간 경과에 따라 변화됨에 따라 필터들 중 일부 또는 전부가 동적으로 조정될 수 있다.
오디오 시스템은 로컬 영역의 모델에 저장된 암시적 사용자 피드백(예컨대, 눈 추적 정보)에 부분적으로 기초하여 타겟 사운드 소스를 식별할 수 있다. 로컬 영역의 모델은 로컬 영역 내의 각각의 사운드 소스(사용자를 포함함)에 대한 포지션들, 움직임들, 및 음향을 추적하고, 로컬 영역을 설명하는 음향 파라미터들을 저장한다. 일부 실시예들에서, 오디오 시스템은 명시적 사용자 입력에 기초하여 타겟 사운드 소스를 식별할 수 있다.
오디오 시스템에 의해 생성되는 하나 이상의 필터는 사용자의 사운드 프로파일에 기초할 수 있다. 사용자의 사운드 프로파일은 사용자가 상이한 주파수들에서 사운드들을 얼마나 양호하게 청취하는지를 설명하는 사용자에 관한 개인화된 사운드 정보이다. 사운드 프로파일은 청력도(audiogram)들, 불쾌 역치 테스트(loudness discomfort level test) 결과들, 소음 속 어음 테스트(speech-in-noise test) 결과들, 스펙트럼-시간 구별(spectro-temporal discrimination) 결과들, 시간적 미세 구조 테스트(temporal fine-structure test) 결과들, 인지 수행 테스트 결과들, 자가 보고 청력 능력들, 일부 다른 청력 테스트 결과, 또는 그들의 일부 조합을 포함할 수 있다. 일부 경우들에서, 사용자는 어느 정도의 청력 손실을 가질 수 있고, 이는 그들의 사운드 프로파일에서 캡처된다. 사용자의 청력 손실의 일부 또는 전부를 보상하기 위해, 타겟 사운드 소스에 의해 방출되는 사운드 신호는 증강된 사운드 신호를 생성하기 위해 하나 이상의 필터에 의해 강화될 수 있다. 일부 실시예들에서, 사용자에게 더 양호한 품질의 사운드를 제공하기 위해, 타겟 사운드 소스에 의해 방출되는 사운드 신호는 사운드 신호를 더 양호하게 공간화하기 위해 증강될 수 있거나 또는 피드백을 감소시키기 위해 증강될 수 있다. 일부 실시예들에서, 다른 사운드 소스들에 의해 방출되는 오디오 콘텐츠 내의 하나 이상의 다른 사운드 신호는 하나 이상의 필터에 의해 억제될 수 있다. 일부 실시예들에서, 오디오 시스템에 의해 생성된 하나 이상의 필터는 로컬 영역의 모델에 기초할 수 있다.
일부 실시예들에서, 오디오 시스템은 식별된 타겟 사운드 소스에 의해 방출되는 사운드 신호에 하나 이상의 필터를 적용할 수 있다. 다른 실시예에서, 인이어 디바이스들은 하나 이상의 필터를 사운드 신호에 적용한다. 사운드 신호에 필터들을 적용함으로써, 증강된 사운드 신호가 생성된다. 일부 실시예들에서, 헤드셋은 (예컨대, 헤드셋 상의 스피커 조립체를 통해) 사용자에게 증강된 사운드 신호를 제공한다. 일부 실시예들에서, 헤드셋은 헤드셋에 통신가능하게 커플링된 하나 이상의 인이어 디바이스에 증강된 사운드 신호를 제공하고, 하나 이상의 인이어 디바이스는 사용자에게 증강된 사운드 신호를 제공한다. 일부 실시예들에서, 헤드셋은 하나 이상의 인이어 디바이스에 하나 이상의 필터를 제공하고, 하나 이상의 인이어 디바이스는 증강된 사운드 신호를 생성하기 위해 하나 이상의 필터를 사운드 신호에 적용한 후에, 사용자에게 증강된 사운드 신호를 제공한다.
현재의 오디오 강화 기술들은 칵테일 파티 문제를 효과적으로 해결하는 것이 가능하지 않다. 예컨대, 종래의 보청기들은 매우 작은 폼 팩터를 갖고, 그에 따라, 그들은 큰 멀티 마이크로폰 어레이들을 위한 룸을 갖지 않는다. 더욱이, 작은 폼 팩터는 프로세싱 부하 및 전력 소비와 관련하여 제한들을 부과한다. 상기된 바를 유념하면, 종래의 보청기들이 일반적으로 붐비는 식당에서 사운드 소스로부터의 사운드를 격리 및 강화하는 데 열악한 작업을 수행하는(즉, 칵테일 문제를 실제로 완화하지 못하는) 이유가 분명하다. 대조적으로, 여기서 설명되는 오디오 시스템은 훨씬 더 큰 폼 팩터를 갖는 헤드셋의 부분이고, 훨씬 더 큰 마이크로폰 어레이, 더 큰 전력 소스, 및 더 강력한 프로세싱 능력을 포함할 수 있다. 따라서, 이는 잠재적으로 인이어 디바이스들이 매우 단순한 디자인을 갖는 것을 허용할 수 있다. 큰 마이크로폰 어레이는 (종래의 보청기들에 비해) 로컬 영역 내의 사운드 소스 위치들을 해결하는 훨씬 개선된 능력이, 오디오 시스템의 프로세싱 능력들과 조합하여, 칵테일 파티 문제를 크게 완화하고 일부 경우들에서는 이를 해결하는 것을 허용한다. 더욱이, 오디오 시스템은 사용자에 대한 오디오 콘텐츠를 생성하기 위해 사용자의 사운드 프로파일을 사용함으로써 사용자의 청력 손실을 보상할 수 있다.
본 발명의 실시예들은 인공 현실 시스템을 포함하거나 또는 그와 함께 구현될 수 있다. 인공 현실은 사용자에게 제공하기 전에 일부 방식으로 조정된 현실의 형태이고, 이는, 예컨대, 가상 현실(VR), 증강 현실(AR), 혼합 현실(MR), 하이브리드 현실, 또는 그들의 일부 조합 및/또는 파생물들을 포함할 수 있다. 인공 현실 콘텐츠는 완전히 생성된 콘텐츠 또는 캡처된(예컨대, 실세계) 콘텐츠와 조합된 생성된 콘텐츠를 포함할 수 있다. 인공 현실 콘텐츠는 비디오, 오디오, 햅틱 피드백, 또는 그들의 일부 조합을 포함할 수 있고, 그들 중 임의의 것은 단일 채널 또는 다수의 채널들(이를테면, 시청자에게 3차원 효과를 생성하는 스테레오 비디오)에서 제공될 수 있다. 추가적으로, 일부 실시예들에서, 인공 현실은 또한, 인공 현실에서 콘텐츠를 생성하는 데 사용되고/되거나 그렇지 않으면 인공 현실에서 사용되는 애플리케이션들, 제품들, 액세서리들, 서비스들, 또는 그들의 일부 조합과 연관될 수 있다. 인공 현실 콘텐츠를 제공하는 인공 현실 시스템은 호스트 컴퓨터 시스템에 연결된 웨어러블 디바이스(예컨대, 헤드셋), 독립형 웨어러블 디바이스(예컨대, 헤드셋), 모바일 디바이스 또는 컴퓨팅 시스템, 또는 하나 이상의 시청자에게 인공 현실 콘텐츠를 제공할 수 있는 임의의 다른 하드웨어 플랫폼을 포함하는 다양한 플랫폼들 상에서 구현될 수 있다.
도 1a는 하나 이상의 실시예에 따른, 아이웨어 디바이스로서 구현된 헤드셋(100)의 사시도이다. 일부 실시예들에서, 아이웨어 디바이스는 NED(near eye display)이다. 일반적으로, 헤드셋(100)은 헤드셋(100)의 디스플레이 조립체 및/또는 오디오 시스템을 사용하여 콘텐츠(예컨대, 미디어 콘텐츠)가 제공되도록 사용자의 얼굴에 착용될 수 있다. 미디어 콘텐츠의 예들은 하나 이상의 이미지, 비디오, 오디오, 또는 그들의 일부 조합을 포함한다. 그러나, 헤드셋(100)은 또한, 미디어 콘텐츠가 상이한 방식으로 사용자에게 제공되도록 사용될 수 있다. 예컨대, 오디오 콘텐츠는 사용자에 의해 착용된 인이어 디바이스들(185) 중 하나 또는 둘 모두를 사용하여 제공될 수 있다. 헤드셋(100)은 프레임(110)을 포함하고, 다른 구성요소들 중에서도 특히, 하나 이상의 디스플레이 요소(120)를 포함하는 디스플레이 조립체, 하나 이상의 이미징 디바이스(130), 깊이 카메라 조립체(DCA), 포지션 센서(190), 패시브 카메라 조립체(PCA), 눈 추적 시스템, 및 오디오 시스템을 포함할 수 있다. 도 1a는 헤드셋(100)의 예시적인 위치들에서 헤드셋(100)의 구성요소들을 예시하지만, 구성요소들은 헤드셋(100) 상의 다른 위치에 위치되거나, 헤드셋(100)과 페어링된 주변 디바이스 상에 위치되거나, 또는 그들의 일부 조합에 위치될 수 있다. 유사하게, 도 1a에 도시된 것보다 더 많거나 또는 더 적은 구성요소들이 헤드셋(100) 상에 있을 수 있다.
프레임(110)은 헤드셋(100)의 다른 구성요소들을 홀딩한다. 프레임(110)은 하나 이상의 디스플레이 요소(120)를 홀딩하는 전방 부분 및 사용자의 머리에 부착하기 위한 엔드 피스들(예컨대, 템플들)을 포함한다. 프레임(110)의 전방 부분은 사용자의 코의 상단을 브리징한다. 엔드 피스들의 길이는 상이한 사용자들에게 피팅되도록 조정가능할 수 있다(예컨대, 조정가능 템플 길이). 엔드 피스들은 또한, 사용자의 귀 뒤로 감기는 부분(예컨대, 템플 팁, 이어 피스)을 포함할 수 있다.
하나 이상의 디스플레이 요소(120)는 헤드셋(100)을 착용한 사용자에게 광을 제공한다. 예시된 바와 같이, 헤드셋은 사용자의 각각의 눈에 대해 디스플레이 요소(120)를 포함한다. 일부 실시예들에서, 디스플레이 요소(120)는 헤드셋(100)의 아이박스에 제공되는 이미지 광을 생성한다. 아이박스는 헤드셋(100)을 착용하고 있는 동안 사용자의 눈이 점유하는 공간 내의 위치이다. 예컨대, 디스플레이 요소(120)는 도파관 디스플레이일 수 있다. 도파관 디스플레이는 광 소스(예컨대, 2차원 소스, 하나 이상의 라인 소스, 하나 이상의 포인트 소스 등) 및 하나 이상의 도파관을 포함한다. 광 소스로부터의 광은 헤드셋(100)의 아이박스에 동공 복제가 있는 방식으로 광을 출력하는 하나 이상의 도파관 내로 인커플링된다. 하나 이상의 도파관으로부터 광의 아웃커플링 및/또는 인커플링은 하나 이상의 회절 격자를 사용하여 수행될 수 있다. 일부 실시예들에서, 도파관 디스플레이는 광 소스로부터의 광을 하나 이상의 도파관 내로 인커플링될 때 스캐닝하는 스캐닝 요소(예컨대, 도파관, 미러 등)를 포함한다. 일부 실시예들에서, 디스플레이 요소들(120) 중 하나 또는 둘 모두는 불투명하고, 헤드셋(100) 주위의 로컬 영역으로부터의 광을 투과시키지 않는다는 점에 유의한다. 로컬 영역은 헤드셋(100)을 둘러싸는 영역이다. 예컨대, 로컬 영역은 헤드셋(100)을 착용한 사용자가 내부에 있는 룸일 수 있거나, 또는 헤드셋(100)을 착용한 사용자가 외부에 있을 수 있고 로컬 영역은 외부 영역이다. 이러한 맥락에서, 헤드셋(100)은 VR 콘텐츠를 생성한다. 대안적으로, 일부 실시예들에서, 디스플레이 요소들(120) 중 하나 또는 둘 모두는 적어도 부분적으로 투명하고, 그에 따라, 로컬 영역으로부터의 광이 하나 이상의 디스플레이 요소로부터의 광과 조합되어 AR 및/또는 MR 콘텐츠를 생성할 수 있다.
일부 실시예들에서, 디스플레이 요소(120)는 이미지 광을 생성하지 않고, 대신에, 로컬 영역으로부터의 광을 아이박스로 투과시키는 렌즈이다. 예컨대, 디스플레이 요소들(120) 중 하나 또는 둘 모두는 보정을 갖지 않는 렌즈(비처방) 또는 사용자의 시력의 결함들을 보정하는 것을 돕기 위한 처방 렌즈(예컨대, 단초점, 이중초점, 및 삼중초점, 또는 누진)일 수 있다. 일부 실시예들에서, 디스플레이 요소(120)는 태양으로부터 사용자의 눈들을 보호하기 위해 편광 및/또는 착색될 수 있다.
일부 실시예들에서, 디스플레이 요소(120)는 추가적인 광학계 블록(도시되지 않음)을 포함할 수 있다는 점에 유의한다. 광학계 블록은 디스플레이 요소(120)로부터의 광을 아이박스로 지향시키는 하나 이상의 광학 요소(예컨대, 렌즈, 프레넬 렌즈 등)를 포함할 수 있다. 광학계 블록은, 예컨대, 이미지 콘텐츠의 일부 또는 전부에서 수차들을 보정하거나, 이미지의 일부 또는 전부를 확대하거나, 또는 그들의 일부 조합을 수행할 수 있다.
일부 실시예들에서, 헤드셋(100)은 헤드셋(100)을 둘러싸는 로컬 영역에 대한 시각적 정보를 캡처하는 하나 이상의 이미징 디바이스(130)를 포함할 수 있다. 일부 실시예들에서, 이미징 디바이스들(130)은 깊이 카메라 조립체(DCA)에 의해 활용된다. DCA는 헤드셋(100)을 둘러싸는 로컬 영역의 부분에 대한 깊이 정보를 결정한다. DCA는 하나 이상의 이미징 디바이스(130) 및 DCA 제어기(도 1a에 도시되지 않음)를 포함하고, 조명기(140)를 또한 포함할 수 있다. 일부 실시예들에서, 조명기(140)는 로컬 영역의 부분을 광으로 조명한다. 광은, 예컨대, 적외선(IR), 비행 시간(time-of-flight)을 위한 IR 플래시 등의 구조형 광(예컨대, 도트 패턴, 바(bar)들 등)일 수 있다. 일부 실시예들에서, 하나 이상의 이미징 디바이스(130)는 조명기(140)로부터의 광을 포함하는 로컬 영역의 부분의 이미지들을 캡처한다. 예시된 바와 같이, 도 1a는 단일 조명기(140) 및 2개의 이미징 디바이스들(130)을 도시한다. 대안적인 실시예들에서, 조명기(140) 및 적어도 2개의 이미징 디바이스들(130)이 없다.
DCA 제어기는 캡처된 이미지들 및 하나 이상의 깊이 결정 기법을 사용하여 로컬 영역의 부분에 대한 깊이 정보를 컴퓨팅한다. 깊이 결정 기법은, 예컨대, 직접 비행 시간(ToF) 깊이 감지, 간접 ToF 깊이 감지, 구조형 광, 패시브 스테레오 분석, 액티브 스테레오 분석(조명기(140)로부터의 광에 의해 장면에 추가되는 텍스처를 사용함), 장면의 깊이를 결정하기 위한 일부 다른 기법, 또는 그들의 일부 조합일 수 있다.
포지션 센서(190)는 하나 이상의 측정 신호를 생성하고 헤드셋(100)에 관한 포지션 정보를 추정한다. 포지션 정보는 로컬 영역 내의 헤드셋(100)의 포지션, 헤드셋(100)의 배향, 헤드셋(100)의 속도, 또는 그들의 일부 조합을 포함할 수 있다. 사용자에 의해 착용된 헤드셋(100)의 포지션 정보는 사용자의 머리에 관한 포지션 정보에 대응한다. 포지션 센서(190)는 헤드셋(100)의 프레임(110)의 부분 상에 위치될 수 있다. 포지션 센서(190)는 관성 측정 유닛(IMU)을 포함할 수 있다. 포지션 센서(190)의 예들은 하나 이상의 가속도계, 하나 이상의 자이로스코프, 하나 이상의 자력계, 운동을 검출하는 다른 적합한 타입의 센서, IMU의 에러 보정을 위해 사용되는 타입의 센서, 또는 그들의 일부 조합을 포함한다. 포지션 센서(190)는 IMU 외부, IMU 내부, 또는 그들의 일부 조합에 위치할 수 있다.
일부 실시예들에서, 헤드셋(100)은 헤드셋(100)의 위치에 대한 SLAM(simultaneous localization and mapping) 및 로컬 영역의 모델의 업데이트를 제공할 수 있다. 예컨대, 헤드셋(100)은 컬러 이미지 데이터를 생성하는 패시브 카메라 조립체(PCA)를 포함할 수 있다. PCA는 로컬 영역의 일부 또는 전부의 이미지들을 캡처하는 하나 이상의 이미징 디바이스(130)(예컨대, RGB 카메라들)를 포함할 수 있다. PCA에 의해 캡처된 이미지들 및 DCA에 의해 결정된 깊이 정보는 로컬 영역(즉, 각각의 사운드 소스가 로컬 영역 내에 위치됨) 내의 하나 이상의 사운드 소스에 관한 포지션 정보를 결정하거나, 각각의 사운드 소스의 포지션을 포함하는 로컬 영역의 모델을 생성하거나, 시간 경과에 따라 로컬 영역의 모델을 업데이트하거나(즉, 하나 이상의 사운드 소스가 포지션을 변경함에 따라 모델을 업데이트함), 또는 그들의 일부 조합을 수행하기 위해 사용될 수 있다. 게다가, 포지션 센서(190)는 로컬 영역의 모델에서 헤드셋(100)의 포지션(예컨대, 위치, 배향, 및 속도)을 추적한다. 일부 실시예들에서, 로컬 영역의 모델은 헤드셋(예컨대, 오디오 시스템), 외부 시스템(예컨대, 맵핑 서버), 모바일 디바이스, 또는 그들의 임의의 조합에 저장된다.
일부 실시예들에서, PCA는 로컬 영역 내의 각각의 실세계 사운드 소스에 대한 사운드 소스의 타입을 식별하기 위해 객체 인식 모델을 사용할 수 있다. 사운드 소스의 타입은 로컬 영역에서 사운드를 방출하는 엔티티의 분류이다. 예컨대, PCA는 실세계 사운드 소스의 타입을 식별하기 위해 객체 인식을 사용할 수 있다. 실세계 사운드 소스는, 예컨대, 사람, 헤드셋을 착용한 사람, 스피커, 동물, 기계적 디바이스, 로컬 영역에서 사운드를 방출하는 일부 다른 실세계 엔티티, 또는 그들의 일부 조합일 수 있다. PCA는 각각의 사운드 소스의 타입을 포함하도록 로컬 영역의 모델을 업데이트할 수 있다. PCA는 또한, 각각의 사람 또는 헤드셋을 착용한 사람에 의해 수행되는 제스처들을 추적함으로써 로컬 영역의 모델을 업데이트할 수도 있다. 제스처는 말하기, 손 흔들기, 손 들기, 실세계 객체를 사용자에게 건네기, 또는 사람 또는 헤드셋을 착용한 사람에 의해 수행되는 일부 다른 제스처를 포함할 수 있다.
일부 실시예들에서, PCA는 사용자의 이미지들을 캡처할 수 있다. 사용자의 PCA에 의해 캡처된 이미지들은 사용자에 의해 수행된 제스처들로 로컬 영역의 모델을 업데이트하기 위해 사용될 수 있다. 제스처는 커맨드를 표시하는 사용자에 의해 수행되는 임의의 움직임(즉, 암시적 사용자 입력)이다. 사용자에 의해 수행되는 제스처는, 예컨대, 사용자의 손(들), 손가락(들), 팔(들)에 의한 포인팅 제스처, 커맨드를 표시하는 사용자에 의해 수행되는 일부 다른 움직임, 또는 그들의 일부 조합을 포함할 수 있다.
일부 실시예들에서, 헤드셋(100)은 헤드셋(100)을 착용한 사용자의 눈(들)의 하나 이상의 이미지를 캡처하는 하나 이상의 이미징 디바이스(130)를 포함할 수 있다. 일부 실시예들에서, 이미징 디바이스들(130)은 캡처된 이미지들에 기초하여 사용자의 눈과 연관된 눈 추적 정보를 결정하기 위해 눈 추적 시스템에 의해 활용된다. 눈 추적 시스템은 또한, IR 광으로 눈을 조명하는 하나 이상의 광 소스(도시되지 않음)를 포함할 수 있다. 광 소스는, 예컨대, 수직 캐비티 방출 레이저, 발광 다이오드(LED), 마이크로 LED, 적외선 광 IR의 일부 다른 소스, 또는 그들의 일부 조합일 수 있다. 눈 추적 시스템에 의해 활용되는 하나 이상의 이미징 디바이스(130)는 하나 이상의 광 소스로부터의 IR 광으로 조명된 눈들 중 하나 또는 둘 모두의 이미지들을 캡처하도록 구성된다.
눈 추적 시스템은 캡처된 이미지들 및 깊이 결정 기법을 사용하여 사용자의 눈들 중 하나 또는 둘 모두에 대한 눈 추적 정보를 결정할 수 있다. 깊이 결정 기법들은, 예컨대, 구조형 광, 비행 시간, 스테레오 이미징, 관련 기술분야의 통상의 기술자에게 친숙한 일부 다른 깊이 결정 방법 등을 포함할 수 있다. 일부 실시예들에서, 눈 추적 센서는 사용자의 눈의 모델 및 캡처된 이미지들에 기초하여 눈 추적 정보를 결정한다. 눈 추적 시스템에 의해 결정된 눈 추적 정보는, 예컨대, 시선 정보, 동공 측정 정보, 또는 그들의 일부 조합을 포함할 수 있다. 사용자의 시선은 사용자가 바라보고 있는 방향(예컨대, 사용자의 눈 배향)이다. 사용자의 동공 측정 정보는 동공 사이즈 및 동공 반응성이다. 시선 정보와 동공 측정 정보 중 하나 또는 둘 모두는 사용자가 주의를 기울이고 있는 위치(예컨대, 암시적 사용자 입력)를 결정하기 위해 사용될 수 있다.
눈 추적 시스템에 의해 결정된 눈 추적 정보는 사용자의 시선을 결정하기 위해 헤드셋(110)의 결정된 포지션(예컨대, 포지션 센서(190)를 사용하여 결정됨)과 조합될 수 있다. 예컨대, 사용자의 눈 배향(이는 사용자의 머리에 대한 사용자의 눈의 배향을 표시함)에 대응하는 벡터가 헤드셋의 포지션(이는 로컬 영역 내의 헤드셋의 위치 및 배향을 표시함)에 대응하는 벡터에 추가되어, 사용자의 시선(이는 로컬 환경에서 사용자가 바라보고 있는 방향을 표시함)에 대응하는 벡터를 결정할 수 있다. 로컬 영역의 모델은 사용자의 시선 벡터를 포함할 수 있다. 일부 실시예들에서, 로컬 영역의 모델은 사용자에 대한 맵핑된 시선 벡터들의 이력을 포함할 수 있다. 사용자의 시선을 결정함으로써, 로컬 영역에서 사용자가 바라보고 있는 방향이 식별되고, 이는 로컬 영역 내의 다른 사운드 소스들의 포지션들(예컨대, 오디오 시스템에 의해 결정됨)에 대한 지식과 조합되어, 사운드 소스들 중 사용자가 바라보고 있는 사운드 소스를 결정하는 것을 허용한다.
일부 실시예들에서, 눈 추적 시스템은 PCA에 의해 활용되는 하나 이상의 이미징 디바이스(130)의 시야 내의 로컬 영역을 묘사하는 하나 이상의 이미지를 PCA로부터 수신할 수 있고, 결정된 시선을 수신된 이미지 내의 위치로 맵핑한다. 로컬 영역의 모델은 시선을 포함하도록 업데이트될 수 있다.
오디오 시스템은 헤드셋(100) 및/또는 인이어 디바이스들(185)을 통해 사용자에게 오디오 콘텐츠를 제공한다. 오디오 시스템은 마이크로폰 어레이, 오디오 제어기(150), 및 트랜스듀서 어레이를 포함한다. 그러나, 다른 실시예들에서, 오디오 시스템은 상이한 및/또는 추가적인 구성요소들을 포함할 수 있다. 유사하게, 일부 경우들에서, 오디오 시스템의 구성요소들을 참조하여 설명되는 기능성은 여기서 설명되는 것과 상이한 방식으로 구성요소들 사이에서 분산될 수 있다. 예컨대, 제어기의 기능들 중 일부 또는 전부는 원격 서버에 의해 수행될 수 있다.
마이크로폰 어레이는 헤드셋(100)의 로컬 영역 내에서 사운드들을 검출한다. 마이크로폰들(180)은 로컬 영역(예컨대, 룸)에서 하나 이상의 실세계 사운드 소스로부터 방출되는 사운드들을 캡처한다. 마이크로폰 어레이는 복수의 마이크로폰들(180)을 포함한다. 마이크로폰들(180)은 음향파 센서들, 사운드 트랜스듀서들, 또는 사운드들을 검출하는 데 적합한 유사한 센서들일 수 있다. 마이크로폰(180)들의 수 및/또는 위치들은 도 1a에 도시된 것과 상이할 수 있다. 예컨대, 마이크로폰 위치들의 수는 수집되는 오디오 정보의 양 및 정보의 감도 및/또는 정확도를 증가시키기 위해 증가될 수 있다. 마이크로폰 위치들은 마이크로폰(180)이 헤드셋(100)을 착용한 사용자를 둘러싸는 광범위한 방향들에서 사운드들을 검출할 수 있도록 배향될 수 있다. 각각의 마이크로폰(180)은 사운드를 검출하고 검출된 사운드를 전자 포맷(아날로그 또는 디지털)으로 변환하도록 구성된다. 일부 실시예들에서, 마이크로폰들(180)은 헤드셋(100)의 외부 표면 상에 배치되거나, 헤드셋(100)의 내부 표면 상에 배치되거나, 헤드셋(100)으로부터 분리되거나(예컨대, 일부 다른 디바이스의 부분), 또는 그들의 일부 조합일 수 있다.
일 실시예에서, 마이크로폰 어레이는 인이어 디바이스들(185)로부터 방출되는 누설 신호를 캡처한다. 다른 실시예들에서, 마이크로폰 어레이는 헤드셋(100)의 오디오 시스템의 트랜스듀서 어레이로부터 방출되는 누설 신호를 캡처할 수 있다. 누설 신호는 인이어 디바이스들(185)을 통해 또는 헤드셋(100)의 오디오 시스템을 통해 사용자에게 오디오 콘텐츠로서 제공되는 증강된 사운드 신호와 동위상인 사운드 신호이다. 누설 신호는 로컬 영역에서 다른 사람들에 의해 청취되거나 또는 다른 헤드셋 디바이스들에 의해 캡처될 수 있다.
헤드셋(100)의 트랜스듀서 어레이는 오디오 제어기(150)로부터의 명령어들에 따라 하나 이상의 사운드 신호를 사용자에게 제공할 수 있다. 예컨대, 헤드셋(100)의 트랜스듀서 어레이는 오디오 제어기로부터의 명령어들에 따라 증강된 사운드 신호를 사용자에게 제공할 수 있다. 트랜스듀서 어레이는 복수의 트랜스듀서들을 포함한다. 트랜스듀서는 스피커(160) 또는 조직 트랜스듀서(170)(예컨대, 뼈 전도 트랜스듀서 또는 연골 전도 트랜스듀서)일 수 있다. 스피커들(160)의 수 및/또는 위치들은 도 1a에 도시된 것과 상이할 수 있다. 예컨대, 스피커들(160)은 헤드셋(100)의 프레임(110)에 내장될 수 있다. 일부 실시예들에서, 각각의 귀에 대한 개별 스피커들 대신에, 헤드셋(100)은 제공되는 오디오 콘텐츠의 방향성을 개선하기 위해 프레임(110)에 통합된 다수의 스피커들을 포함하는 스피커 어레이를 포함한다. 조직 트랜스듀서(170)는 사용자의 머리에 커플링되고 사용자의 조직(예컨대, 뼈 또는 연골)을 직접 진동시켜서 사운드를 생성한다. 트랜스듀서들의 수 및/또는 위치들은 도 1a에 도시된 것과 상이할 수 있다.
트랜스듀서 어레이는 오디오 제어기(150)의 명령어들에 따라 완화 신호를 출력할 수 있다. 완화 신호는 원거리장에서 인이어 디바이스들(185)에 의해 방출되는 누설 신호를 실질적으로 상쇄하고, 그에 따라, 로컬 영역 내의 다른 사람들 또는 헤드셋들이 원거리장에서 누설 신호를 청취 또는 컵처할 수 없게 된다.
오디오 제어기(150)는 오디오 시스템의 동작을 제어한다. 오디오 제어기(150)는 프로세서 및 컴퓨터 판독가능 저장 매체를 포함할 수 있다. 오디오 제어기(150)는 로컬 영역 내의 사운드 소스(실세계 사운드 소스 또는 가상 사운드 소스)를 타겟 사운드 소스로서 식별할 수 있다. 일부 실시예들에서, 오디오 제어기(150)는 로컬 영역의 모델에 저장된 암시적 사용자 입력에 기초하여 타겟 사운드 소스를 식별한다. 일부 실시예들에서, 오디오 제어기(150)는 명시적 사용자 입력(예컨대, 사용자에 의해 제공되는 구두 신호)에 기초하여 타겟 사운드 소스를 식별한다.
오디오 제어기(150)는 사용자의 사운드 프로파일에 기초하여, 마이크로폰 어레이에 의해 캡처된 하나 이상의 사운드 신호에 적용하기 위한 하나 이상의 필터를 생성할 수 있다. 하나 이상의 필터는, 예컨대, 타겟 사운드 소스에 의해 방출되는 사운드에 대응하는 사운드 신호, 다른 사운드 소스들에 의해 방출되는 사운드에 대응하는 사운드 신호, 또는 그들의 일부 조합에 적용될 수 있다. 일부 실시예들에서, 오디오 제어기(150)는 로컬 영역의 모델을 사용하여 하나 이상의 필터를 생성할 수 있다. 일부 실시예들에서, 하나 이상의 필터는 타겟 사운드 소스에 의해 방출되는 사운드에 대응하는 사운드 신호를 (예컨대, 특정 주파수들을 증폭하는 것, 오디오를 이퀄라이징하는 것 등에 의해) 강화할 수 있다. 일부 실시예들에서, 오디오 제어기(150)는 타겟 사운드 소스에 의해 방출되는 사운드에 대응하는 사운드 신호에 하나 이상의 필터를 적용함으로써 증강된 신호를 생성한다. 일부 실시예들에서, 오디오 제어기(150)는 인이어 디바이스들(185)에게 하나 이상의 필터를 사운드 신호에 적용하여 증강된 신호를 생성하라는 명령어들을 제공한다.
오디오 제어기(150)는 로컬 영역 내의 다른 사운드 소스(들)에 의해 방출되는 사운드에 대응하는 사운드 신호(들)를 (예컨대, 특정 주파수들을 필터링함으로써) 억제하는 하나 이상의 필터를 생성할 수 있다. 일 실시예에서, 오디오 제어기(150)는 완화 신호를 결정한다. 완화 신호는 인이어 디바이스들(185)에 의해 방출되는 누설 신호에 대해 역위상인 사운드 신호이다. 누설 신호는 로컬 영역에서 다른 사람들에 의해 청취되고/되거나 다른 디바이스들(예컨대, 헤드셋들)에 의해 캡처되어 사용자의 프라이버시를 방해할 수 있다. 일부 실시예들에서, 누설 신호는 마이크로폰 어레이에 의해 캡처될 수 있다. 오디오 제어기는 누설 신호의 주파수들을 필터링하는 필터를 생성한다. 오디오 제어기는 이 필터를 누설 신호에 적용하여 완화 신호를 생성한다. 완화 신호는 오디오 제어기(150)에 의해 출력 신호로서 트랜스듀서 어레이에 제공된다. 완화 신호는 원거리장에서 누설 신호를 억제하여 사용자에게 더 많은 프라이버시를 제공한다.
일부 실시예들에서, 오디오 제어기(150)는 타겟 사운드 소스가 아니라고 결정된 사운드 소스들에 의해 방출되는 사운드에 대응하는 사운드 신호들을 억제하는 하나 이상의 필터를 생성할 수 있다. 다른 사운드 소스들에 의해 방출되는 사운드에 대응하는 사운드 신호들의 억제는 칵테일 파티 문제를 해결하는 것을 돕는다. 예컨대, 다른 사운드 소스들(예컨대, 군중 내의 복수의 사람들)과 연관된 사운드 신호들의 주파수들을 억제함으로써, 오디오 제어기(150)는 타겟 사운드 소스(예컨대, 사용자가 대화 중인 사람)와 연관된 사운드 신호에 임의의 필터를 적용하지 않으면서도, 타겟 사운드 소스에 의해 방출되는 사운드를 강화할 수 있다. 다른 예에서, 다른 사운드 소스들과 연관된 사운드 신호들 내의 주파수들을 억제하고, 타겟 사운드 소스와 연관된 사운드 신호 내의 주파수들을 강화함으로써, 오디오 제어기(150)는 칵테일 파티 문제를 해결할 수 있다. 일부 실시예들에서, 오디오 제어기(150)는 하나 이상의 다른 사운드 소스와 연관된 하나 이상의 사운드 신호 내의 주파수들이 타겟 사운드 소스와 연관된 사운드 신호 내의 주파수들과 유사할 수 있다고 결정할 수 있다. 이 실시예에서, 오디오 제어기(150)는 다른 사운드 소스들과 연관된 사운드 신호들을 강화하지 않고 타겟 사운드 소스와 연관된 사운드 신호만을 강화하도록 결정할 수 있다.
일부 실시예들에서, 인이어 디바이스들(185)은 오디오 제어기(150)로부터의 명령어들에 따라 증강된 사운드 신호를 사용자에게 제공한다. 인이어 디바이스들(185)은 통신 유닛(도시되지 않음) 및 스피커(165)를 포함할 수 있다. 인이어 디바이스들(185)은 사용자에 의해 착용되고(예컨대, 사용자의 각각의 외이도들에 배치됨), 스피커들(165)을 통해 증강된 사운드 신호를 사용자에게 제공할 수 있다. 일부 실시예들에서, 인이어 디바이스들(185)은 헤드셋(100)에 통신가능하게 커플링된 보청기들이다. 일부 실시예들에서, 인이어 디바이스들(185)은 오디오 제어기(150)로부터의 명령어들에 따라 증강된 사운드 신호를 생성하기 위해 하나 이상의 필터를 사운드 신호에 적용한다. 이어서, 인이어 디바이스들(185)은 스피커들(165)을 통해 증강된 사운드 신호를 사용자에게 제공할 수 있다. 도 1a는 사용자의 각각의 귀에 대한 인이어 디바이스(185)를 예시하지만, 다른 실시예들에서, 하나의 귀에 대한 단일 인이어 디바이스(185)만이 있고 다른 귀에 대한 인이어 디바이스는 없을 수 있다.
오디오 시스템과 관련된 추가적인 세부사항들은 도 2에서 아래에서 논의되고, 헤드셋(100)의 구성요소들과 관련된 추가적인 세부사항들은 도 5와 관련하여 아래에서 논의된다.
도 1b는 하나 이상의 실시예에 따른, HMD로서 구현된 헤드셋(105)의 사시도이다. AR 시스템 및/또는 MR 시스템을 설명하는 실시예들에서, HMD의 전방 측의 부분들은 가시 대역(~380 nm 내지 750 nm)에서 적어도 부분적으로 투명하고, HMD의 전방 측과 사용자의 눈 사이에 있는 HMD의 부분들은 적어도 부분적으로 투명하다(예컨대, 부분적으로 투명한 전자 디스플레이). HMD는 전방 강체(115) 및 밴드(175)를 포함한다. 헤드셋(105)은 도 1a를 참조하여 위에서 설명된 것과 동일한 구성요소들 중 다수를 포함하지만 HMD 폼 팩터와 통합되도록 수정된다. 예컨대, HMD는 하나 이상의 이미징 디바이스(130), 깊이 카메라 조립체(DCA), 포지션 센서(190), 패시브 카메라 조립체(PCA), 눈 추적 시스템, 및 오디오 시스템을 포함한다. 도 1b는 조명기(140), 복수의 스피커들(160), 복수의 마이크로폰들(180), 및 스피커(165)를 갖는 인이어 디바이스(185)를 도시한다. 도 1b는 인이어 디바이스(185)를 예시하지만, 다른 실시예들에서, 각각의 귀에 대해 하나씩 2개의 인이어 디바이스들(185)이 있을 수 있다.
도 2는 하나 이상의 실시예에 따른 오디오 시스템(200)의 블록도이다. 도 1a 또는 도 1b의 오디오 시스템은 오디오 시스템(200)의 실시예일 수 있다. 도 2의 실시예에서, 오디오 시스템(200)은 마이크로폰 어레이(210), 트랜스듀서 어레이(220), 및 오디오 제어기(230)를 포함한다. 일부 실시예들에서, 오디오 시스템(200)은 또한 인이어 디바이스들(270)을 포함한다. 오디오 시스템(200)의 일부 실시예들은 여기서 설명되는 것들과 상이한 구성요소들을 갖는다. 유사하게, 일부 경우들에서, 기능들은 여기서 설명되는 것과 상이한 방식으로 구성요소들 사이에서 분산될 수 있다. 오디오 시스템(200)의 적어도 일부는 헤드셋에 통합되고, 일부 경우들에서, 오디오 시스템(200)은 또한 인이어 디바이스들(270)을 포함할 수 있다. 추가적으로, 도 2에 도시된 구성요소들 중 하나 이상과 함께 설명되는 기능성은 하나 이상의 외부 구성요소 사이에서 분산될 수 있다. 예컨대, 오디오 제어기(230)의 기능성 중 일부 또는 전부는 연결된 모바일 디바이스(예컨대, 모바일 폰)에 의해 수행될 수 있다.
마이크로폰 어레이(210)는 마이크로폰 어레이(210)를 둘러싸는 로컬 영역 내에서 사운드를 캡처한다. 마이크로폰 어레이(210)는 복수의 음향 센서들을 포함할 수 있고, 그 복수의 음향 센서들은 각각 음파의 기압 변동들을 검출하고 검출된 사운드들을 전자 포맷(아날로그 또는 디지털)으로 변환한다. 복수의 음향 센서들은 헤드셋(예컨대, 헤드셋(100) 및/또는 헤드셋(105)), 인이어 디바이스들(270), 일부 다른 연결된 디바이스(예컨대, 모바일 폰), 또는 그들의 일부 조합 상에 포지셔닝될 수 있다. 음향 센서는, 예컨대, 마이크로폰, 진동 센서, 가속도계, 또는 그들의 임의의 조합일 수 있다. 음향 센서들의 수를 증가시킴으로써, 사운드 소스들 중 임의의 것에 의해 생성되는 음장을 설명하는 정보(예컨대, 방향성)의 정확도가 개선될 수 있다.
일 실시예에서, 마이크로폰 어레이는 로컬 영역 내의 하나 이상의 실세계 사운드 소스에 의해 방출되는 사운드들을 캡처할 수 있다. 캡처된 사운드들은 복수의 사운드 신호들(즉, 각각의 사운드 소스에 대한 사운드 신호)을 포함할 수 있다. 사운드 신호들은 사운드 신호를 오디오 콘텐츠로서 사용자에게 제공하기 전에 적어도 하나의 사운드 신호를 강화할 수 있는 하나 이상의 필터의 결정과 같은 추가의 프로세싱을 위해 오디오 제어기(230)에 제공된다. 일부 실시예들에서, 캡처된 사운드들은 인이어 디바이스들(270)의 트랜스듀서(예컨대, 내부 트랜스듀서(275)) 또는 트랜스듀서 어레이(220) 내의 하나 이상의 트랜스듀서에 의해 방출되는 누설 신호를 포함할 수 있다.
일부 실시예들에서, 트랜스듀서 어레이(220)는 하나 이상의 사운드 신호를 사용자에게 제공한다. 트랜스듀서 어레이(220)는 복수의 트랜스듀서들을 포함한다. 트랜스듀서는, 예컨대, 스피커(예컨대, 스피커(160)), 조직 트랜스듀서(예컨대, 조직 트랜스듀서(170)), 사운드 신호들을 사용자에게 제공하는 일부 다른 디바이스, 또는 그들의 일부 조합일 수 있다. 조직 트랜스듀서는 뼈 전도 트랜스듀서 또는 연골 전도 트랜스듀서로서 기능하도록 구성될 수 있다. 트랜스듀서 어레이(220)는 (예컨대, 하나 이상의 스피커를 통한) 공기 전도, (하나 이상의 뼈 전도 트랜스듀서를 통한) 뼈 전도, (하나 이상의 연골 전도 트랜스듀서를 통한) 연골 전도 오디오 시스템, 또는 그들의 일부 조합을 통해 오디오 콘텐츠를 제공할 수 있다. 일부 실시예들에서, 트랜스듀서 어레이(220)는 주파수 범위의 상이한 부분들을 커버하기 위해 하나 이상의 트랜스듀서를 포함할 수 있다. 예컨대, 주파수 범위의 제1 부분을 커버하기 위해 압전 트랜스듀서가 사용될 수 있고, 주파수 범위의 제2 부분을 커버하기 위해 가동 코일 트랜스듀서가 사용될 수 있다.
뼈 전도 트랜스듀서들은 사용자의 머리 내의 뼈/조직을 진동시킴으로써 음압파들을 생성한다. 뼈 전도 트랜스듀서는 헤드셋의 부분에 커플링될 수 있고, 사용자의 두개골의 부분에 커플링된 귓바퀴 뒤에 있도록 구성될 수 있다. 뼈 전도 트랜스듀서는 오디오 제어기(230)로부터 진동 명령어들을 수신하고, 수신된 명령어들에 따라 사용자의 두개골의 부분을 진동시킨다. 뼈 전도 트랜스듀서로부터의 진동들은 고막을 우회하여 사용자의 달팽이관을 향해 전파되는 조직 전달 음압파를 생성한다.
연골 전도 트랜스듀서들은 사용자의 귀들의 귓바퀴 연골의 하나 이상의 부분을 진동시킴으로써 음압파들을 생성한다. 연골 전도 트랜스듀서는 헤드셋의 부분에 커플링될 수 있고, 귀의 귓바퀴 연골의 하나 이상의 부분에 커플링되도록 구성될 수 있다. 예컨대, 연골 전도 트랜스듀서는 사용자의 귀의 귓바퀴의 후방측에 커플링될 수 있다. 연골 전도 트랜스듀서는 외이 주위의 귓바퀴 연골을 따르는 임의의 위치(예컨대, 이개, 이주, 귓바퀴 연골의 일부 다른 부분, 또는 그들의 일부 조합)에 위치될 수 있다. 귓바퀴 연골의 하나 이상의 부분을 진동시키는 것은: 외이도 외부의 공기 전달 음압파들; 외이도의 일부 부분들을 진동시킴으로써 외이도 내에 공기 전달 음압파를 생성하는 조직 전달 음압파들; 또는 그들의 일부 조합을 생성할 수 있다. 생성된 공기 전달 음압파들은 외이도를 따라 아래로 고막을 향해 전파된다.
일부 실시예들에서, 트랜스듀서 어레이(220)는 오디오 제어기(230)에 의해 제공되는 명령어들에 따라 증강된 사운드 신호를 오디오 콘텐츠로서 사용자에게 제공할 수 있다. 오디오 콘텐츠가 헤드셋의 트랜스듀서 어레이(220)에 의해서만 제공되는 이러한 실시예들에서, 트랜스듀서 어레이는 누설 신호를 완화하기 위해 하나 이상의 다이폴 스피커 조립체을 포함할 수 있다. 다이폴 스피커 조립체 구조 및 동작은, 예컨대, 2020년 1월 8일자로 출원된 미국 특허 출원 제16/737,316호, 2019년 8월 29일자로 출원된 미국 특허 출원 제16/555,058호, 및 2020년 2월 13일자로 출원된 미국 특허 출원 제16/790,613호에서 추가로 설명되고, 이로써, 그들의 내용은 그 전체가 참조로 포함된다. 다른 실시예들에서, 트랜스듀서 어레이(220)는 오디오 제어기(230)로부터 완화 신호를 출력하라는 명령어들을 수신할 수 있다. 이러한 실시예들에서, 오디오 콘텐츠는 인이어 디바이스들(270)에 의해서만 제공된다.
일부 실시예들에서, 인이어 디바이스들(270)은 오디오 제어기(230)에 의해 제공되는 명령어들에 따라 증강된 사운드 신호를 오디오 콘텐츠로서 사용자에게 제공할 수 있다. 인이어 디바이스들(270)은 도 1a 또는 도 1b의 인이어 디바이스들(185)의 실시예들일 수 있다. 각각의 인이어 디바이스(270)는 적어도 통신 유닛(273) 및 내부 트랜스듀서(275)를 포함한다. 일부 실시예들에서, 하나 이상의 인이어 디바이스(270)는 배터리, 외부 트랜스듀서, 인이어 오디오 제어기, 외부 마이크로폰, 내부 마이크로폰, 여기서 논의되지 않은 일부 다른 구성요소들, 또는 그들의 일부 조합을 포함할 수 있다. 일부 실시예들에서, 인이어 디바이스들(270) 중 하나 이상은, 예컨대, 오디오 시스템(200)에 통신가능하게 커플링된 이어버드들일 수 있다. 통신 유닛(273)은 수신기를 포함하고, 일부 실시예들에서, 송신기를 또한 포함할 수 있다. 일부 실시예들에서, 통신 유닛(273)은 외부 마이크로폰 및/또는 내부 마이크로폰에 의해 캡처된 사운드들을 오디오 제어기(230)에 제공할 수 있다. 통신 유닛(273)은 오디오 제어기(230)로부터 명령어들을 수신할 수 있다. 명령어들은 증강된 사운드 신호 및/또는 타겟 사운드 소스에 의해 방출되는 사운드 신호에 적용하기 위한 하나 이상의 필터를 포함할 수 있다. 일부 실시예들에서, 인이어 오디오 제어기는 증강된 사운드 신호를 생성하기 위해 하나 이상의 필터를 사운드 신호에 적용할 수 있다. 내부 트랜스듀서(275)는 증강된 사운드 신호를 사용자에게 제공한다. 각각의 인이어 디바이스(270)는 외이도를 적어도 부분적으로 막도록 사용자의 외이도 내에 피팅되도록 구성된다.
사용자로의 증강된 사운드 신호의 제공들 동안, 인이어 디바이스들(270)은 누설 신호를 방출할 수 있다. 누설 신호는 로컬 영역에서 다른 사람들에 의해 청취되고/되거나 다른 디바이스들(예컨대, 헤드셋들)에 의해 캡처되어 사용자의 프라이버시를 방해할 수 있다. 일부 실시예들에서, 누설 신호는 마이크로폰 어레이(210)에 의해 모니터링되고, 트랜스듀서 어레이(220)에 의해 출력되는 완화 신호에 의해 원거리장에서 실질적으로 완화될 수 있다. 이는 도 1a에서 더 상세히 논의된다.
오디오 제어기(230)는 오디오 시스템(200)의 동작을 제어한다. 도 2의 실시예에서, 오디오 제어기(230)는 데이터 저장소(235), 교정 모듈(237), DOA 추정 모듈(240), 전달 함수 모듈(245), 추적 모듈(250), 소스 식별 모듈(255), 사운드 필터 모듈(260), 및 통신 모듈(265)을 포함한다. 일부 실시예들에서, 오디오 제어기(230)는 헤드셋 내부에 위치될 수 있다. 오디오 제어기(230)의 일부 실시예들은 여기서 설명되는 것들과 상이한 구성요소들을 갖는다. 유사하게, 기능들은 여기서 설명되는 것과 상이한 방식들로 구성요소들 사이에서 분산될 수 있다. 예컨대, 오디오 제어기(230)의 일부 기능들은 헤드셋 외부에서 수행될 수 있다.
데이터 저장소(235)는 오디오 시스템(200)에 의한 사용을 위한 데이터를 저장한다. 데이터 저장소(235) 내의 데이터는 오디오 시스템(200)의 로컬 영역에서 레코딩된 사운드들, 도달 방향(direction of arrival)(DOA) 추정치들, 사운드 소스 위치들, 타겟 사운드 소스, 머리 관련 전달 함수(head-related transfer function)(HRTF)들, 하나 이상의 센서에 대한 전달 함수들, 음향 센서들 중 하나 이상에 대한 어레이 전달 함수(array transfer function)(ATF)들, 로컬 영역의 모델, 사용자 입력, 사용자의 하나 이상의 청력도들, 사용자에 대한 소음 속 어음 테스트 결과들, 사용자에 대한 스펙트럼-시간 구별 결과들, 사용자의 사운드 프로파일, 사운드 필터들, 사운드 신호들, 오디오 시스템(200)에 의한 사용과 관련된 다른 데이터, 또는 그들의 임의의 조합을 포함할 수 있다.
로컬 영역의 모델은 로컬 영역 내의 각각의 사운드 소스(사용자를 포함함)의 포지션들, 움직임들, 및 음향을 추적하고, 로컬 영역을 설명하는 음향 파라미터들을 저장한다. 로컬 영역의 모델은 사용자에 관한 포지션 정보(예컨대, 로컬 영역 내의 사용자의 위치, 배향, 및/또는 속도), 사용자에 관한 움직임 정보(예컨대, 사용자에 관한 눈 추적 정보 및/또는 사용자에 의해 수행되는 제스처들), 및 사용자에 관한 음향 정보(예컨대, 사용자에 의해 방출되는 사운드를 강화 또는 억제하기 위한 하나 이상의 필터)를 포함할 수 있다. 로컬 영역의 모델은 또한, 사운드 소스들에 관한 포지션 정보(예컨대, 로컬 영역 내의 각각의 사운드 소스의 위치), 사운드 소스들 중 일부 또는 전부에 관한 타입 정보(예컨대, 사운드 소스가 사람인 것, 사운드 소스가 가상 객체인 것 등)를 포함할 수 있고, 로컬 영역의 모델은 또한, 로컬 영역을 설명하는 음향 파라미터들(예컨대, 잔향 시간)을 포함할 수 있다. 일부 실시예들에서, 오디오 시스템은 시간 경과에 따라 사용자에 관한 업데이트된 정보 및/또는 사운드 소스들에 관한 업데이트된 정보 및/또는 로컬 영역에 관한 업데이트된 정보로 로컬 영역의 모델을 업데이트한다.
교정 모듈(237)은 사용자의 사운드 프로파일을 생성한다. 사운드 프로파일은 사용자가 상이한 주파수들에서 사운드들을 얼마나 잘 청취하는지를 설명하는 사용자에 관한 개인화된 사운드 정보이다. 사운드 프로파일은 하나 이상의 청력도, 불쾌 역치 테스트 결과들, 소음 속 어음 테스트 결과들, 스펙트럼-시간 구별 결과들, 시간적 미세 구조 테스트 결과들, 인지 수행 테스트 결과들, 자가 보고 청력 능력들, 일부 다른 청력 테스트 결과, 또는 그들의 일부 조합을 포함할 수 있다. 일부 실시예들에서, 사운드 프로파일은 하나 이상의 EEG 테스트 결과, 동공 측정, 사용자의 심장 활동 파라미터들, 또는 사용자의 일부 다른 생체신호 테스트 결과로부터의 정보를 포함할 수 있다. 일부 실시예들에서, 교정 모듈(237)은 트랜스듀서 어레이(220) 및/또는 인이어 디바이스들(270)을 통해 오디오 콘텐츠를 사용자에게 제공함으로써 사운드 프로파일을 생성한다. 오디오 콘텐츠는 (예컨대, 순음들을 사용하여) 상이한 주파수들로 제공되고, 사용자는 그들이 오디오 콘텐츠를 청취하는지/오디오 콘텐츠를 청취할 때와 관련된 피드백을 제공한다. 일부 실시예들에서, 오디오 콘텐츠는 더 복잡한 스펙트럼 시간적으로 변화되는 신호들을 사용하여 제공된다. 일부 실시예들에서, 피드백은 오디오 시스템(200)에 통신가능하게 커플링된 I/O 인터페이스를 통해 사용자에 의해 제공될 수 있다. 다른 실시예들에서, 사용자는 그들이 오디오 콘텐츠를 청취하는지/오디오 콘텐츠를 청취할 때를 나타내는 헤드셋의 PCA에 의해 캡처되는 제스처(예컨대, 섬업(thumbs up))를 수행할 수 있다. 일부 실시예들에서, 사용자는 마이크로폰 어레이(210)에 의해 캡처되는 피드백으로서 구두 신호를 제공할 수 있다. 일부 실시예들에서, 교정 모듈(237)은 I/O 인터페이스를 통해 또는 오디오 시스템(200)에 통신가능하게 커플링된 일부 다른 외부 시스템을 통해 사용자 및/또는 청력학자로부터 사운드 프로파일을 수집한다.
교정 모듈(237)은 시간 경과에 따라 필요한 대로 사용자의 사운드 프로파일을 업데이트할 수 있다. 예컨대, 오디오 시스템(200)의 동작 동안, 교정 모듈은 헤드셋 및/또는 인이어 디바이스들(270)의 성능과 관련된 피드백을 사용자로부터 수신할 수 있다. 사용자 피드백은 제공된 오디오 콘텐츠와 관련된 피드백(예컨대, 제스처 또는 구두 신호)을 포함할 수 있다. 수신된 피드백에 기초하여, 교정 모듈(237)은 그에 따라 사용자의 사운드 프로파일을 업데이트할 수 있다. 일부 실시예들에서, 사용자 피드백은 덜 분명할 수 있다. 예컨대, 사용자는 제공되는 오디오 콘텐츠가 특정 주파수 대역(예컨대, 더 높은 주파수)에 있을 때 볼륨을 올리는 경향을 가질 수 있다. 시간 경과에 따라, 교정 모듈(237)은 이 패턴을 식별하고, 사운드 프로파일을 조정하여 특정 주파수 대역에서의 청력 손실을 반영한다. 다른 예에서, 사용자는 제공되는 오디오 콘텐츠가 특정 주파수 대역에 있을 때 머리 및/또는 눈들을 더 빈번하게 움직일 수 있다. 시간 경과에 따라, 교정 모듈(237)은 이 패턴을 식별하고, 사운드 프로파일을 조정하여 특정 주파수 대역에서의 청력 손실을 반영한다. 이어서, 업데이트된 사운드 프로파일은 특정 주파수 대역에서의 청력 손실을 고려하는 필터들을 생성하기 위해 사용될 수 있다.
DOA 추정 모듈(240)은 마이크로폰 어레이(210)로부터의 캡처된 사운드에 부분적으로 기초하여 로컬 영역 내의 사운드 소스들을 로컬화(localize)하도록 구성된다. 로컬화는 오디오 시스템(200)의 사용자에 대해 사운드 소스들이 위치된 위치를 결정하는 프로세스이다. DOA 추정 모듈(240)은 DOA 분석을 수행하여, 로컬 영역 내의 하나 이상의 사운드 소스를 로컬화하고, 그에 따라 로컬 영역의 모델을 업데이트한다. DOA 분석은 사운드들이 유래한 방향을 결정하기 위해, 마이크로폰 어레이(210)에서의 각각의 사운드의 강도, 스펙트럼들, 및/또는 도달 시간을 분석하는 것을 포함할 수 있다. 일부 경우들에서, DOA 분석은 오디오 시스템(200)이 위치된 주위 음향 환경을 분석하기 위한 임의의 적합한 알고리즘을 포함할 수 있다.
예컨대, DOA 분석은 마이크로폰 어레이(210)로부터 입력 신호들을 수신하고, 디지털 신호 프로세싱 알고리즘들을 입력 신호들에 적용하여 도달 방향을 추정하도록 설계될 수 있다. 이러한 알고리즘들은, 예컨대, 입력 신호가 샘플링되는 지연 및 합산 알고리즘들을 포함할 수 있고, 샘플링된 신호의 결과적인 가중 및 지연된 버전들은 함께 평균화되어 DOA를 결정한다. LMS(least mean squared) 알고리즘이 적응 필터를 생성하기 위해 또한 구현될 수 있다. 이어서, 이 적응 필터는 신호 강도의 차이들, 예컨대, 도달 시간의 차이들을 식별하기 위해 사용될 수 있다. 이어서, 이러한 차이들은 DOA를 추정하기 위해 사용될 수 있다. 다른 실시예에서, DOA는 입력 신호들을 주파수 도메인으로 변환하고, 프로세싱할 시간-주파수(TF) 도메인 내의 특정 빈들을 선택함으로써 결정될 수 있다. 각각의 선택된 TF 빈은 그 빈이 직접 경로 오디오 신호를 갖는 오디오 스펙트럼의 부분을 포함하는지 여부를 결정하기 위해 프로세싱될 수 있다. 이어서, 직접 경로 신호의 부분을 갖는 그러한 빈들은 마이크로폰 어레이(210)가 직접 경로 오디오 신호를 수신한 각도를 식별하기 위해 분석될 수 있다. 이어서, 결정된 각도는 수신된 입력 신호에 대한 DOA를 식별하기 위해 사용될 수 있다. 위에서 열거되지 않은 다른 알고리즘들이 또한, DOA를 결정하기 위해 단독으로 또는 위의 알고리즘들과 조합하여 사용될 수 있다.
전달 함수 모듈(245)은 하나 이상의 음향 전달 함수를 생성하도록 구성된다. 일반적으로, 전달 함수는 각각의 가능한 입력 값에 대한 대응하는 출력 값을 제공하는 수학 함수이다. 검출된 사운드들의 파라미터들에 기초하여, 전달 함수 모듈(245)은 오디오 시스템과 연관된 하나 이상의 음향 전달 함수를 생성한다. 음향 전달 함수들은 어레이 전달 함수(ATF)들, 머리 관련 전달 함수(HRTF)들, 다른 타입들의 음향 전달 함수들, 또는 그들의 일부 조합일 수 있다. ATF는 마이크로폰(예컨대, 마이크로폰 어레이(210)의 마이크로폰 및/또는 인이어 디바이스들(270)의 외부 마이크로폰)이 공간 내의 포인트로부터 사운드를 수신하는 방법을 특성화한다.
ATF는 사운드 소스들과 마이크로폰 어레이(210) 내의 음향 센서들에 의해 수신된 대응하는 사운드 사이의 관계를 특성화하는 다수의 전달 함수들을 포함한다. 따라서, 사운드 소스에 대해, 마이크로폰 어레이(210) 내의 음향 센서들 각각에 대한 대응하는 전달 함수가 있다. 그리고 집합적으로, 전달 함수들의 세트는 ATF로 지칭된다. 따라서, 각각의 사운드 소스에 대해, 대응하는 ATF가 있다. 마이크로폰 어레이(210)에 대한 특정 사운드 소스 위치에 대한 ATF는 사운드가 사람의 귀들로 이동할 때 사운드에 영향을 미치는 사람의 해부구조(예컨대, 귀 형상, 어깨들 등)로 인해 사용자마다 상이할 수 있다. 따라서, 마이크로폰 어레이(210)의 ATF들은 오디오 시스템(200)의 각각의 사용자에 대해 개인화된다.
일부 실시예들에서, 전달 함수 모듈(245)은 오디오 시스템(200)의 사용자에 대해 하나 이상의 HRTF를 결정한다. HRTF는 귀가 공간 내의 포인트로부터 사운드를 수신하는 방법을 특성화한다. 사람에 대한 특정 사운드 소스 위치에 대한 HRTF는 사운드가 사람의 귀들로 이동할 때 사운드에 영향을 미치는 사람의 해부구조(예컨대, 귀 형상, 어깨들 등)로 인해 사람의 각각의 귀에 대해 고유하다(그리고 사람에 대해 고유함). 일부 실시예들에서, 전달 함수 모듈(245)은 교정 프로세스를 사용하여 사용자에 대한 HRTF들을 결정할 수 있다. 일부 실시예들에서, 전달 기능 모듈(245)은 사용자에 관한 정보를 원격 시스템에 제공할 수 있다. 원격 시스템은, 예컨대, 머신 학습을 사용하여 사용자에 대해 맞춤화된 HRTF들의 세트를 결정하고, 맞춤화된 HRTF들의 세트를 오디오 시스템(200)에 제공한다.
추적 모듈(250)은 하나 이상의 사운드 소스의 위치들을 추적하도록 구성된다. 추적 모듈(250)은 현재 DOA 추정치들을 비교하고, 그들을 이전 DOA 추정치들의 저장된 이력과 비교할 수 있다. 일부 실시예들에서, 오디오 시스템(200)은 초당 1회 또는 밀리초당 1회와 같은 주기적인 스케줄에 따라 DOA 추정치들을 재계산할 수 있다. 추적 모듈(250)은 현재 DOA 추정치들을 이전 DOA 추정치들과 비교할 수 있고, 사운드 소스에 대한 DOA 추정치의 변화에 응답하여, 추적 모듈(250)은 사운드 소스가 움직였다고 결정할 수 있다. 일부 실시예들에서, 추적 모듈(250)은 헤드셋으로부터(예컨대, DCA 및/또는 PCA로부터) 또는 일부 다른 외부 소스로부터 수신된 시각적 정보에 기초하여 위치의 변화를 검출할 수 있다. 추적 모듈(250)은 시간 경과에 따라 하나 이상의 사운드 소스의 움직임을 추적할 수 있다. 추적 모듈(250)은 로컬 영역의 모델에 각각의 시점에서의 각각의 사운드 소스의 위치 및 사운드 소스들의 수에 대한 값들을 저장할 수 있다. 사운드 소스들의 위치들 또는 수의 값의 변화에 응답하여, 추적 모듈(250)은 사운드 소스가 움직였다고 결정할 수 있고, 로컬 영역의 모델은 그에 따라 업데이트된다. 추적 모듈(250)은 로컬화 분산의 추정치를 계산할 수 있다. 로컬화 분산은 움직임의 변화의 각각의 결정에 대한 신뢰 레벨로서 사용될 수 있다.
소스 식별 모듈(255)은 로컬 영역 내의 복수의 사운드 소스들 중 임의의 주어진 시간에 사용자가 관심을 갖는 사운드 소스(예컨대, 타겟 사운드 소스)를 결정하도록 구성된다. 타겟 사운드 소스는 실세계 사운드 소스 또는 가상 사운드 소스일 수 있다. 일 실시예에서, 소스 식별 모듈(255)은 로컬 영역의 모델에 저장된 암시적 사용자 입력 및/또는 사용자에 의해 직접 제공된 명시적 사용자 입력에 부분적으로 기초하여 타겟 사운드 소스를 결정한다. 예컨대, 로컬 영역의 모델은 사용자에 관한 포지션 정보, 사운드 소스들에 관한 포지션 정보, 및 사용자에 대한 눈 추적 정보를 포함한다. 맵핑된 시선 벡터(즉, 암시적 사용자 입력)에 기초하여, 소스 식별 모듈(255)은 타겟 사운드 소스가 사용자가 바라보고 있는 사운드 소스인지를 결정한다. 일부 실시예들에서, 사용자의 시선은 로컬 영역의 모델에서 시간 경과에 따라 추적되고, 타겟 사운드 소스는 임계 시간량 동안(예컨대, 3초 동안, 5초 동안 등) 사용자가 바라보고 있는 사운드 소스이다. 다른 예에서, 로컬 영역의 모델은 사용자에 관한 제스처 정보(즉, 암시적 사용자 입력)를 포함한다. 사용자에 의해 수행되는 식별된 제스처(예컨대, 손가락으로 포인팅하는 것)에 기초하여, 소스 식별 모듈(255)은 타겟 사운드 소스가 사용자에 의해 포인팅되고 있는 사운드 소스인지를 결정한다. 일부 실시예들에서, 소스 식별 모듈(255)은 명시적 사용자 입력에 기초하여 타겟 사운드 소스를 결정한다. 예컨대, 사용자는 마이크로폰 어레이에 의해 캡처되는 구두 신호(예컨대, 어떤 사운드 소스가 타겟 사운드 소스가 되어야 하는지를 말함)를 제공할 수 있다. 이러한 사용자 입력에 기초하여, 소스 식별 모듈(255)은 타겟 사운드 소스가 사용자에 의해 표시된 사운드 소스라고 결정한다.
사운드 필터 모듈(260)은 하나 이상의 사운드 신호에 적용하기 위한 하나 이상의 필터를 결정한다. 사운드 신호들은 타겟 사운드 소스에 의해 방출되는 사운드 및/또는 다른 사운드 소스들에 의해 방출되는 사운드(예컨대, 인이어 디바이스들(270)에 의해 방출되는 누설 사운드)에 대응할 수 있다. 일부 실시예들에서, 하나 이상의 사운드 필터는 타겟 사운드 소스와 연관된 사운드 신호가 강화되게 할 수 있다. 일부 실시예들에서, 사운드 필터 모듈(260)은 로컬 영역 내의 다른 사운드 소스들과 연관된 사운드들을 필터링(즉, 감소 또는 제거)하는 하나 이상의 사운드 필터를 결정한다. 일부 실시예들에서, 사운드 필터 모듈(260)은 타겟 사운드 소스에 의해 방출되는 사운드 신호가 필터(예컨대, 전달 함수 모듈(245)에 의해 결정된 하나 이상의 HRTF)로 공간화될 필요가 있을 수 있다고 결정할 수 있다. 일부 실시예들에서, 사운드 필터 모듈(260)은 특정 주파수들에서의 높은 음압 레벨들과 연관된 불편을 방지하기 위해 하나 이상의 필터(예컨대, 다중 대역 리미터)를 결정할 수 있다. 일부 실시예들에서, 사운드 필터 모듈(260)은 피드백을 억제하기 위해 하나 이상의 필터를 식별할 수 있다. 예컨대, 모든 또는 특정 주파수 대역들을 특정 양만큼(예컨대, 5 Hz, 20 Hz, 50 Hz 등만큼) 전치하는 주파수 전치 필터가 식별될 수 있다.
사운드 필터 모듈(260)은 사용자의 사운드 프로파일에 기초하여 하나 이상의 필터를 결정할 수 있다. 예컨대, 사운드 필터 모듈(260)은 사용자가 청취하는 데 어려움이 있는 특정 주파수들에 관한 정보를 포함한 사용자의 사운드 프로파일에 기초하여 특정 주파수들을 증폭하는 필터를 선택할 수 있다. 다른 예에서, 사운드 필터 모듈(260)은 사용자가 사운드를 청취하기 위해 사운드가 얼마나 강해질 필요가 있는지에 관한 정보를 포함한 사용자의 사운드 프로파일에 기초하여, 복수의 광역 동적 범위 압축 필터들로부터 광역 동적 범위 압축 필터를 선택할 수 있다. 광역 동적 범위 압축 필터는 사운드 신호에 비선형 이득을 적용한다. 예컨대, 광역 동적 범위 압축 필터는 부드러운 사운드들(즉, 낮은 강도 사운드들)을 많은 양만큼, 중간 사운드들(즉, 중간 범위 강도 사운드들)을 중간 정도의 양만큼, 그리고 큰 사운드들(즉, 높은 강도 사운드들)을 작은 양만큼 증폭할 수 있다. 다른 예에서, 광역 동적 범위 압축 필터는 사용자에게 제공되는 사운드를 이퀄라이징하기 위해 주파수에 기초하여 사운드 신호를 증폭할 수 있다. 각각의 고유한 사운드 신호는 자신 고유의 고유한 광역 동적 범위 압축 필터를 가질 수 있다. 사운드 필터 모듈(260)은 타겟 사운드 소스와 연관된 사운드 신호에 적용하기 위한 적절한 광역 동적 범위 압축 필터를 결정한다.
일부 실시예들에서, 사운드 필터 모듈(260)은 로컬 영역의 모델에 기초하여 필터를 생성한다. 로컬 영역의 모델은 로컬 영역 내의 사운드 소스들의 타입들을 포함할 수 있다. 예컨대, 로컬 영역 내의 적어도 하나의 사운드 소스(즉, 타겟 사운드 소스가 아님)는 기계 디바이스일 수 있다. 사운드 필터 모듈(260)은 기계 디바이스에 의해 방출되는 사운드의 주파수를 감소 또는 제거하기 위한 사운드 필터를 결정할 수 있다. 로컬 영역의 모델은 로컬 영역의 음향 특성들을 설명하는 음향 파라미터들을 포함할 수 있다. 음향 파라미터들은, 예컨대, 잔향 시간, 잔향 레벨, 룸 임펄스 응답 등을 포함할 수 있다. 일부 실시예들에서, 사운드 필터 모듈(260)은 음향 파라미터들 중 하나 이상을 계산하고, 로컬 영역의 모델에 파라미터들을 저장한다. 일부 실시예들에서, 사운드 필터 모듈(260)은 맵핑 서버로부터 음향 파라미터들을 (예컨대, 도 5와 관련하여 아래에서 설명되는 바와 같이) 요청하고, 로컬 영역의 모델에 파라미터들을 저장한다. 사운드 필터 모듈(260)은 로컬 영역의 높은 잔향 시간에 기초하여, 다른 사운드 소스들에 의해 방출되는 사운드(즉, 타겟 사운드 소스에 의해 방출되는 사운드가 아님)의 주파수들을 감소 또는 제거하는 하나 이상의 사운드 필터를 결정할 수 있다.
사운드 필터 모듈(260)은 식별된 타겟 소스가 로컬 영역 내의 상이한 사운드 소스의 임계 거리 내에 있다는 것을 검출할 수 있다. 예컨대, 사운드 필터 모듈(260)은 식별된 타겟 소스가 상이한 사운드 소스의 임계 거리 내에 있는지를 결정하기 위해, 하나 이상의 결정된 사운드 소스 위치 및 로컬 영역의 모델을 활용할 수 있다. 임계 거리는 각각의 사운드 소스에 대해 고유할 수 있다. 예컨대, 사운드 소스에 대한 임계 거리는, 예컨대, 사운드 소스에 의해 방출되는 사운드의 주파수들, 사운드 소스에 의해 방출되는 사운드의 강도들, 및 사용자의 사운드 프로파일, 또는 그들의 일부 조합에 기초할 수 있다. 예컨대, 특정 주파수들 및/또는 특정 강도들은 사용자가 그들을 청취하기 위해 더 멀리 이격될 필요가 있을 수 있다. 사운드 필터 모듈(260)은 적어도 임계 거리 초과의 분리 거리로 타겟 사운드 소스와 상이한 사운드 소스 사이의 공간적 분리를 증가시키기 위해 하나 이상의 필터 중 적어도 하나를 (예컨대, HRTF를 업데이트함으로써) 업데이트한다. 이 실시예에서, 증강된 사운드 신호는 사운드가 타겟 사운드 소스로부터 유래하는 것으로 나타나게 하고, 상이한 사운드 소스로부터의 사운드가 타겟 사운드 소스로부터 적어도 분리 거리에 있는 로컬 영역 내의 위치로부터 유래하는 것으로 나타나게 한다. 이 실시예는 도 3에서 더 상세히 설명된다.
사운드 필터 모듈(260)은 증강된 사운드 신호를 생성하기 위해 하나 이상의 필터를 사운드 신호에 적용할 수 있다. 일부 실시예들에서, 증강된 사운드 신호는 사용자에게 제공하기 위해 트랜스듀서 어레이(320)에 제공될 수 있다. 다른 실시예들에서, 증강된 사운드 신호는 통신 모듈(270)에 제공될 수 있다. 일부 실시예들에서, 인이어 디바이스들(270)은 하나 이상의 필터를 사운드 신호에 적용한다.
통신 모듈(265)은 오디오 시스템(200)에 통신가능하게 커플링된 하나 이상의 외부 시스템과 통신한다. 통신 모듈(265)은 수신기(예컨대, 안테나) 및 송신기를 포함할 수 있다. 외부 시스템들은, 예컨대, 헤드셋의 일부 다른 구성요소, 인공 현실 콘솔, I/O 인터페이스, 맵핑 서버, 인이어 디바이스들(270) 등을 포함할 수 있다. 통신 모듈(265)은 로컬 영역의 모델과 관련된 데이터를 맵핑 서버와 전송 및 수신할 수 있다. 통신 모듈(265)은 인이어 디바이스들(270)의 통신 유닛(273)과 데이터(예컨대, 하나 이상의 필터, 증강된 사운드 신호)를 전송하고 데이터(예컨대, 캡처된 사운드)를 수신할 수 있다. 통신 모듈(265)은 외부 시스템(예컨대, I/O 인터페이스)으로부터 데이터(예컨대, 사용자의 사운드 프로파일, 사용자 피드백)를 수신할 수 있다.
오디오 제어기(230)에 의해 수행되는 프로세싱 및 컴퓨테이션들은 사용자에게 제공되는 오디오 콘텐츠에 대한 더 양호한 강화를 허용한다. 예컨대, 청력 손실을 겪고 있는 사용자는, 사용자가 청취하는 데 어려움이 있는 주파수의 사운드를 방출하는 타겟 사운드 소스를 식별하고, 사운드의 그러한 특정 주파수들을 강화(증폭)하는 타겟 사운드 소스에 의해 방출되는 사운드에 적용하기 위한 하나 이상의 필터를 생성하는 오디오 제어기(230)로부터 이익들을 얻는다. 로컬 영역에 위치된 사운드 소스들은 헤드셋의 마이크로폰 어레이(210)에 의해 더 양호하게 추적되고, 이는 타겟 사운드 소스의 더 양호한 식별을 허용한다. 또한, 오디오 제어기(230)에 의해 수행되는 프로세싱 및 컴퓨테이션들은 인이어 디바이스들(270)이 더 개별화되고 강화된 오디오 콘텐츠를 사용자에게 제공하는 것을 허용한다.
도 3은 하나 이상의 실시예에 따른, 하나 이상의 사운드 소스를 포함하는 로컬 영역(300)의 예이다. 로컬 영역(300)은 복수의 사운드 소스들(예컨대, 실세계 사운드 소스(340), 실세계 사운드 소스(350), 실세계 사운드 소스(360), 및 가상 사운드 소스(390)) 근처에 있는 헤드셋(320)을 착용한 사용자(310)를 포함한다. 실세계 사운드 소스(340)는 기계 디바이스로서 묘사되고, 실세계 사운드 소스(350)는 사람으로서 묘사되고, 실세계 사운드 소스(360)는 다른 사람으로서 묘사되고, 가상 사운드 소스(390)는 외계인으로서 묘사된다. 일부 실시예들에서, 헤드셋(320)은 도 1a의 헤드셋(100) 또는 도 1b의 헤드셋(105)일 수 있다. 일 실시예에서, 사용자(310)는 또한, 도 1a 및 도 1b의 인이어 디바이스들(185)의 실시예일 수 있는 인이어 디바이스(도시되지 않음)를 착용할 수 있다. 복수의 사운드 소스들은 어느 정도의 청력 손실을 갖는 사용자(310)에 의해 한 번에 모두 청취될 때 일관적이지 않을 수 있는 사운드를 집합적으로 생성할 수 있다. 일부 실시예들에서, 사용자(310)(청력 손실을 갖거나 또는 갖지 않음)에게 실세계 사운드 소스(350)에 의해 생성되는 사운드는 실세계 사운드 소스(360)에 의해 생성되는 사운드와 구별가능하지 않을 수 있다. 오디오 시스템은 사용자(310)에게 제공되는 오디오 콘텐츠를 강화하기 위해, 사운드 소스들(340, 350, 360, 390) 중 임의의 것 또는 모두에 의해 방출되는 사운드에 적용하기 위한 하나 이상의 필터를 생성할 수 있다.
헤드셋(320)의 오디오 시스템(예컨대, 오디오 시스템(200))은 도 2를 참조하여 위에서 설명된 바와 같이 사용자 입력에 기초하여 또는 로컬 영역(300)의 모델에 기초하여 타겟 사운드 소스(예컨대, 사운드 소스(350))를 식별한다. 도 3의 예시된 실시예에서, 오디오 시스템은 로컬 영역(300)의 모델에 포함된 사용자에 의해 제공되는 암시적 피드백에 기초하여(예컨대, 시선 벡터(330)에 기초하여) 타겟 사운드 소스를 결정할 수 있다. 시선 벡터(330)는 실세계 사운드 소스(350)의 포지션을 향해 지향된다고 결정되고, 오디오 시스템은 실세계 사운드 소스(350)를 타겟 사운드 소스인 것으로 식별한다. 헤드셋(320)의 오디오 시스템은 헤드셋(320)에 의해 제공되고/되거나 사용자(310)에 의해 착용된 인이어 디바이스들(도시되지 않음)에 의해 제공되는 오디오 콘텐츠에 적용될 수 있는 하나 이상의 필터를 결정한다. 오디오 시스템은 사용자(310)의 사운드 프로파일, 로컬 영역(300)의 모델, 또는 그들 둘 모두에 기초하여 필터들을 결정한다.
오디오 시스템은 타겟 사운드 소스에 의해 방출되는 사운드의 더 양호한 공간화를 제공하기 위해 하나 이상의 필터 중 적어도 하나를 업데이트할 수 있다. 예시된 실시예에서, 임계 거리(370)가 묘사된다. 임계 거리(370)는 실세계 사운드 소스(350)(즉, 이 예에서는 타겟 사운드 소스)의 중심으로부터 외측으로 측정된 미리 결정된 구형 거리이다. 임계 거리(370)는, 예컨대, 실세계 사운드 소스(350)에 의해 방출되는 사운드의 주파수, 실세계 사운드 소스(350)에 의해 방출되는 사운드의 진폭, 사용자(310)의 사운드 프로파일, 또는 그들의 일부 조합에 따라 결정될 수 있다. 오디오 시스템은 실세계 사운드 소스(360)가 타겟 사운드 소스(즉, 실세계 사운드 소스(350))의 임계 거리(370) 내에 있다는 것을 검출할 수 있다. 오디오 시스템은 적어도 임계 거리(370) 초과의 분리 거리(380)가 되도록 타겟 사운드 소스와 실세계 사운드 소스(360) 사이의 공간적 분리를 증가시키기 위해 하나 이상의 필터 중 적어도 하나를 (예컨대, HRTF를 업데이트함으로써) 업데이트한다. 일부 실시예들에서, 업데이트된 필터는 오디오 시스템에 의해 타겟 사운드 소스와 연관된 사운드 신호에 적용될 수 있다. 다른 실시예들에서, 업데이트된 필터는 인이어 디바이스들에 의해 타겟 사운드 소스와 연관된 사운드 신호에 적용될 수 있다. 증강된 사운드 신호(즉, 필터 적용 후의 사운드 신호)는 사운드가 타겟 사운드 소스로부터 유래하는 것으로 나타나게 하고, 실세계 사운드 소스(360)로부터의 사운드가 조정된 사운드 소스(365)에 대응하는 로컬 영역 내의 위치로부터 유래하는 것으로 나타나게 한다. 이제, 사용자(310)는 2개의 실세계 사운드 소스들(350, 360)을 구별하는 것이 가능할 수 있고, 일부 실시예들에서, 실세계 사운드 소스(350)를 더 쉽게 청취할 수 있다.
도 4는 하나 이상의 실시예에 따른, 사용자에게 제공하기 위해 사운드 신호를 증강하기 위한 프로세스(400)를 예시하는 흐름도이다. 도 4에 도시된 프로세스는 오디오 시스템(예컨대, 오디오 시스템(200))의 구성요소들에 의해 수행될 수 있다. 다른 실시예들에서, 다른 엔티티들이 도 4의 단계들 중 일부 또는 전부를 수행할 수 있다. 실시예들은 상이한 및/또는 추가적인 단계들을 포함할 수 있거나 또는 상이한 순서들로 단계들을 수행할 수 있다.
오디오 시스템은 로컬 영역으로부터 사운드를 캡처한다(410). 일 실시예에서, 오디오 시스템은 사용자에 의해 착용된 헤드셋의 프레임에 커플링된 하나 이상의 마이크로폰을 사용하여 사운드를 캡처한다.
오디오 시스템은 캡처된 사운드에 기초하여 로컬 영역에서 하나 이상의 사운드 소스를 식별한다(420). 마이크로폰들에 의해 수집되는 캡처된 사운드와 헤드셋의 DCA 및/또는 PCA에 의해 수집되는 캡처된 이미지들은 로컬 영역의 모델을 결정하기 위해 조합될 수 있다. 로컬 영역의 모델은 하나 이상의 사운드 소스의 포지션을 묘사한다.
오디오 시스템은 하나 이상의 사운드 소스 중 타겟 사운드 소스를 결정한다(430). 일부 실시예들에서, 오디오 시스템은 로컬 영역의 모델에 저장된 암시적 사용자 입력 및/또는 사용자에 의해 직접 제공된 명시적 사용자 입력에 기초하여 타겟 사운드 소스를 결정한다. 예컨대, 로컬 영역의 모델은 타겟 사운드 소스의 결정에서 오디오 시스템에 의해 활용되는 맵핑된 시선 벡터(즉, 암시적 사용자 입력)를 포함할 수 있다. 맵핑된 시선 벡터는 헤드셋의 눈 추적 시스템에 의해 결정되었을 수 있다. 일부 실시예들에서, 오디오 시스템은 명시적 사용자 입력(예컨대, 타겟 사운드 소스를 지정하는 사용자로부터의 구두 신호)을 활용할 수 있다. 구두 신호는 마이크로폰들에 의해 캡처될 수 있다.
오디오 시스템은 타겟 사운드 소스와 연관된 사운드 신호에 적용하기 위한 하나 이상의 필터를 결정한다(440). 일부 실시예들에서, 오디오 시스템은 사용자의 사운드 프로파일에 기초하여 하나 이상의 필터를 결정한다. 사운드 프로파일은 사용자가 상이한 주파수들에서 사운드들을 얼마나 잘 청취하는지를 설명하는 사용자에 관한 개인화된 사운드 정보이다. 사운드 프로파일은 오디오 시스템에 저장될 수 있다. 사운드 프로파일에 기초하여, 오디오 시스템은 타겟 사운드 소스와 연관된 사운드 신호를 강화하는 필터를 적용하도록 결정할 수 있다. 일부 실시예들에서, 오디오 시스템은 로컬 영역의 모델에 기초하여, 타겟 사운드 소스와 연관된 사운드 신호를 더 양호하게 공간화하는 필터를 적용하도록 결정할 수 있다. 일부 실시예들에서, 오디오 시스템은 로컬 영역에 위치된 다른 사운드 소스들과 연관된 다른 사운드에 적용하기 위한 하나 이상의 필터를 결정할 수 있다.
오디오 시스템은 하나 이상의 필터를 사운드 신호에 적용함으로써 증강된 사운드 신호를 생성한다(450). 일 실시예에서, 증강된 사운드 신호는 타겟 사운드 소스로부터 유래하는 것으로 나타나는 사운드가 로컬 내의 다른 사운드 소스들에 의해 방출되는 사운드와 구별가능하게 한다. 예컨대, 증강된 사운드 신호는 사운드가 타겟 사운드 소스로부터 유래하는 것으로 나타나게 하고, 상이한 사운드 소스로부터의 사운드가 타겟 사운드 소스로부터 적어도 분리 거리에 있는 로컬 영역 내의 위치로부터 유래하는 것으로 나타나게 한다.
오디오 시스템은 사용자에게 제공하기 위해 증강된 사운드 신호를 스피커 조립체에 제공한다(460). 일 실시예에서, 증강된 사운드 신호는 사용자에 의해 착용된 인이어 디바이스의 스피커 조립체에 제공된다. 다른 실시예에서, 증강된 사운드 신호는 헤드셋의 스피커 조립체에 제공된다.
일부 실시예들에서, 오디오 시스템은 하나 이상의 필터를 인이어 디바이스들에 제공한다. 인이어 디바이스들은 하나 이상의 필터를 사운드 신호에 적용함으로써 증강된 사운드 신호를 생성한다.
오디오 시스템에 의해 수행되는 프로세싱 및 컴퓨테이션들(예컨대, 타겟 사운드 소스의 식별, 타겟 사운드 소스에 의해 방출되는 사운드에 적용하기 위한 하나 이상의 필터의 생성 등)은 사용자에게 제공되는 오디오 콘텐츠에 대한 더 양호한 강화를 허용한다. 예컨대, 청력 손실을 겪고 있는 사용자는, 사용자가 청취하는 데 어려움이 있는 주파수의 사운드를 방출하는 타겟 사운드 소스를 식별하고, 사운드의 그러한 특정 주파수들을 강화(증폭)하는 타겟 사운드 소스에 의해 방출되는 사운드에 적용하기 위한 하나 이상의 필터를 생성하는 오디오 제어기(230)로부터 이익들을 얻는다. 로컬 영역에 위치된 사운드 소스들은 헤드셋의 마이크로폰 어레이(210)에 의해 더 양호하게 추적되고, 이는 타겟 사운드 소스의 더 양호한 식별을 허용한다. 또한, 오디오 시스템에 의해 수행되는 프로세싱 및 컴퓨테이션들은 인이어 디바이스들이 현재 보청기 디바이스들과 비교할 때 더 개별화되고 강화된 오디오 콘텐츠를 사용자에게 제공하는 것을 허용한다.
도 5는 하나 이상의 실시예에 따른, 헤드셋(505) 및 하나 이상의 인이어 디바이스(580)를 포함하는 시스템(500)이다. 일부 실시예들에서, 헤드셋(505)은 도 1a의 헤드셋(100) 또는 도 1b의 헤드셋(105)일 수 있다. 시스템(500)은 인공 현실 환경에서 동작할 수 있다. 도 5에 의해 도시된 시스템(500)은 헤드셋(505), 콘솔(515)에 커플링된 입력/출력(I/O) 인터페이스(510), 네트워크(520), 맵핑 서버(525), 및 인이어 디바이스(580)를 포함한다. 도 5는 하나의 헤드셋(505), 하나의 I/O 인터페이스(510), 및 하나의 인이어 디바이스(580)를 포함하는 예시적인 시스템(500)을 도시하지만, 다른 실시예들에서, 임의의 수의 이러한 구성요소들이 시스템(500)에 포함될 수 있다. 예컨대, 연관된 헤드셋과 통신하는 2개의 인이어 디바이스들이 있을 수 있다. 다른 예에서, 연관된 I/O 인터페이스(510)를 각각 갖는 다수의 헤드셋들이 있을 수 있고, 각각의 헤드셋 및 I/O 인터페이스(510)는 콘솔(515)과 통신한다. 대안적인 구성들에서, 상이한 및/또는 추가적인 구성요소들이 시스템(500)에 포함될 수 있다. 추가적으로, 도 5에 도시된 구성요소들 중 하나 이상과 함께 설명되는 기능성은 일부 실시예들에서 도 5와 함께 설명되는 것과 상이한 방식으로 구성요소들 사이에서 분산될 수 있다. 예컨대, 콘솔(515)의 기능성 중 일부 또는 전부는 헤드셋(505)에 의해 제공될 수 있다.
헤드셋(505)은 디스플레이 조립체(530), 광학계 블록(535), 하나 이상의 포지션 센서(540), DCA(545), PCA(550), 눈 추적 시스템(555), 및 오디오 시스템(560)을 포함한다. 헤드셋(505)의 일부 실시예들은 도 5와 함께 설명되는 것들과 상이한 구성요소들을 갖는다. 추가적으로, 도 5와 함께 설명되는 다양한 구성요소들에 의해 제공되는 기능성은 다른 실시예들에서 헤드셋(505)의 구성요소들 사이에서 상이하게 분산될 수 있거나 또는 헤드셋(505)으로부터 원거리에 있는 별개의 조립체들에서 캡처될 수 있다.
디스플레이 조립체(530)는 콘솔(515)로부터 수신된 데이터에 따라 사용자에게 콘텐츠를 디스플레이한다. 디스플레이 조립체(530)는 하나 이상의 디스플레이 요소(예컨대, 디스플레이 요소들(120))를 사용하여 콘텐츠를 디스플레이한다. 디스플레이 요소는, 예컨대, 전자 디스플레이일 수 있다. 다양한 실시예들에서, 디스플레이 조립체(530)는 단일 디스플레이 요소 또는 다수의 디스플레이 요소들(예컨대, 사용자의 각각의 눈에 대한 디스플레이)을 포함한다. 전자 디스플레이의 예들은: 액정 디스플레이(LCD), 유기 발광 다이오드(OLED) 디스플레이, 활성 매트릭스 유기 발광 다이오드 디스플레이(AMOLED), 도파관 디스플레이, 일부 다른 디스플레이, 또는 그들의 일부 조합을 포함한다. 일부 실시예들에서, 디스플레이 요소는 또한, 광학계 블록(535)의 기능성 중 일부 또는 전부를 포함할 수 있다는 점에 유의한다.
광학계 블록(535)은 전자 디스플레이로부터 수신된 이미지 광을 확대하고, 이미지 광과 연관된 광학 에러들을 보정하고, 보정된 이미지 광을 헤드셋(505)의 아이박스들 중 하나 또는 둘 모두에 제공한다. 다양한 실시예들에서, 광학계 블록(535)은 하나 이상의 광학 요소를 포함한다. 광학계 블록(535)에 포함된 예시적인 광학 요소들은: 애퍼처, 프레넬 렌즈, 볼록 렌즈, 오목 렌즈, 필터, 반사 표면, 또는 이미지 광에 영향을 미치는 임의의 다른 적합한 광학 요소를 포함한다. 더욱이, 광학계 블록(535)은 상이한 광학 요소들의 조합들을 포함할 수 있다. 일부 실시예들에서, 광학계 블록(535) 내의 광학 요소들 중 하나 이상은 부분 반사 또는 반사 방지 코팅들과 같은 하나 이상의 코팅을 가질 수 있다.
광학계 블록(535)에 의한 이미지 광의 확대 및 집속은 전자 디스플레이가 물리적으로 더 작고, 더 가볍고, 더 큰 디스플레이들보다 더 적은 전력을 소비하는 것을 허용한다. 추가적으로, 확대는 전자 디스플레이에 의해 제공되는 콘텐츠의 시야를 증가시킬 수 있다. 예컨대, 디스플레이된 콘텐츠의 시야는 디스플레이된 콘텐츠가 사용자의 시야의 거의 전부(예컨대, 대략 110도 대각선) 그리고 일부 경우들에서는 전부를 사용하여 제공되게 한다. 추가적으로, 일부 실시예들에서, 확대의 양은 광학 요소들을 추가 또는 제거함으로써 조정될 수 있다.
일부 실시예들에서, 광학계 블록(535)은 하나 이상의 타입의 광학 에러를 보정하도록 설계될 수 있다. 광학 에러의 예들은 배럴(barrel) 또는 핀쿠션(pincushion) 왜곡, 종 색수차들, 또는 횡 색수차들을 포함한다. 다른 타입들의 광학 에러들은 구면 수차들, 색수차들, 또는 렌즈 필드 곡률로 인한 에러들, 비점수차들, 또는 임의의 다른 타입의 광학 에러를 더 포함할 수 있다. 일부 실시예들에서, 디스플레이를 위해 전자 디스플레이에 제공되는 콘텐츠는 미리 왜곡되고, 광학계 블록(535)은 콘텐츠에 기초하여 생성된 이미지 광을 전자 디스플레이로부터 수신할 때 왜곡을 보정한다.
포지션 센서(540)는 헤드셋(505)에 관한 포지션 정보를 표시하는 데이터를 생성하는 전자 디바이스이다. 포지션 센서(540)는 헤드셋(505)의 운동에 응답하여 하나 이상의 측정 신호를 생성할 수 있다. 포지션 센서(540)는 포지션 센서(190)의 실시예이다. 포지션 센서(540)의 예들은: 하나 이상의 IMU, 하나 이상의 가속도계, 하나 이상의 자이로스코프, 하나 이상의 자력계, 운동을 검출하는 다른 적합한 타입의 센서, 또는 그들의 일부 조합을 포함한다. 포지션 센서(540)는 병진 운동(앞/뒤, 위/아래, 좌/우)을 측정하기 위한 다수의 가속도계들 및 회전 운동(예컨대, 피치, 요, 롤)을 측정하기 위한 다수의 자이로스코프들을 포함할 수 있다. 일부 실시예들에서, IMU는 측정 신호들을 신속하게 샘플링하고, 샘플링된 데이터로부터 헤드셋(505)의 추정된 포지션을 계산한다. 예컨대, IMU는 시간 경과에 따라 가속도계들로부터 수신된 측정 신호들을 통합하여 속도 벡터를 추정하고, 시간 경과에 따른 속도 벡터를 통합하여 헤드셋(505) 상의 기준 포인트의 추정된 포지션을 결정한다. 기준 포인트는 헤드셋(505)의 포지션을 설명하기 위해 사용될 수 있는 포인트이다. 기준 포인트는 일반적으로 공간 내의 포인트로서 정의될 수 있지만, 실제로, 기준 포인트는 헤드셋(505) 내의 포인트로서 정의된다. 포지션 센서(540)의 추가의 동작은 도 1a와 관련하여 위에서 설명된다.
DCA(545)는 로컬 영역의 부분에 대한 깊이 정보를 생성한다. DCA는 하나 이상의 이미징 디바이스 및 DCA 제어기를 포함한다. DCA(545)는 조명기를 또한 포함할 수 있다. DCA(545)의 동작 및 구조는 도 1a와 관련하여 위에서 설명된다.
PCA(550)는 로컬 영역에 대한 컬러 이미지 데이터를 생성한다. PCA는 로컬 영역의 일부 또는 전부의 이미지들을 캡처하는 하나 이상의 이미징 디바이스를 포함할 수 있다. 일부 실시예들에서, PCA(550)는 로컬 영역 내의 하나 이상의 사운드 소스(사용자를 포함함)의 이미지들을 캡처할 수 있다. PCA(550)의 동작 및 구조에 관한 추가의 설명은 도 1a와 관련하여 위에서 설명된다.
눈 추적 시스템(555)은 헤드셋(505)을 착용한 사용자의 눈과 연관된 눈 추적 정보를 결정한다. 눈 추적 시스템(555)에 의해 결정된 눈 추적 정보는, 예컨대, 시선 정보를 포함할 수 있다. 일부 실시예들에서, 눈 추적 시스템(555)은 동공 사이즈 및 반응성과 같은 동공 측정 정보를 결정한다. 시선 정보 및/또는 동공 측정 정보는 사용자가 바라보고 있는 위치를 결정하기 위해 사용될 수 있다. 눈 추적 시스템(555)은 사용자의 눈(들)을 추적하기 위해 하나 이상의 이미징 디바이스를 활용할 수 있다. 눈 추적 시스템의 추가의 동작은 도 1a와 관련하여 위에서 설명된다.
오디오 시스템(560)은 사운드 신호들에 적용하기 위한 하나 이상의 필터를 생성한다. 오디오 시스템(560)은 위에서 설명된 오디오 시스템(200)과 실질적으로 동일하다. 오디오 시스템(560)은 하나 이상의 마이크로폰, 하나 이상의 트랜스듀서, 및 오디오 제어기를 포함할 수 있다. 일부 실시예들에서, 오디오 시스템은 로컬 영역의 모델에 저장된 암시적 사용자 피드백 및/또는 명시적 사용자 피드백에 기초하여 로컬 영역 내의 타겟 사운드 소스를 식별할 수 있다. 일부 실시예들에서, 오디오 시스템은 타겟 사운드 소스와 연관된 사운드 신호에 적용하기 위한 하나 이상의 필터를 생성한다. 일부 실시예들에서, 오디오 시스템은 로컬 영역 내의 다른 사운드 소스들과 연관된 사운드 신호에 적용하기 위한 하나 이상의 필터를 생성한다.
I/O 인터페이스(510)는 사용자가 정보를 제공하고, 액션 요청들을 콘솔(515)로 전송하고, 콘솔(515)로부터 응답들을 수신하는 것을 허용하는 디바이스이다. 사용자는 오디오 시스템(560)에 저장될 정보(예컨대, 사용자의 사운드 프로파일)를 제공할 수 있다. 액션 요청은 특정 액션을 수행하라는 요청이다. 예컨대, 액션 요청은 이미지 또는 비디오 데이터의 캡처를 시작 또는 종료하라는 명령어 또는 애플리케이션 내의 특정 액션을 수행하라는 명령어일 수 있다. I/O 인터페이스(510)는 하나 이상의 입력 디바이스를 포함할 수 있다. 예시적인 입력 디바이스들은: 키보드, 마우스, 게임 제어기, 또는 액션 요청들을 수신하고 액션 요청들을 콘솔(515)로 통신하기 위한 임의의 다른 적합한 디바이스를 포함한다. I/O 인터페이스(510)에 의해 수신된 액션 요청은 액션 요청에 대응하는 액션을 수행하는 콘솔(515)로 통신된다. 일부 실시예들에서, I/O 인터페이스(510)는 I/O 인터페이스(510)의 초기 포지션에 대한 I/O 인터페이스(510)의 추정된 포지션을 표시하는 교정 데이터를 캡처하는 IMU를 포함한다. 일부 실시예들에서, I/O 인터페이스(510)는 콘솔(515)로부터 수신된 명령어들에 따라 햅틱 피드백을 사용자에게 제공할 수 있다. 예컨대, 액션 요청이 수신될 때 햅틱 피드백이 제공되거나, 또는 콘솔(515)은 I/O 인터페이스(510)로 하여금 콘솔(515)이 액션을 수행할 때 햅틱 피드백을 생성하게 하는 명령어들을 I/O 인터페이스(510)로 통신한다.
콘솔(515)은 DCA(545), 헤드셋(505), 및 I/O 인터페이스(510) 중 하나 이상으로부터 수신된 정보에 따라 프로세싱하기 위해 콘텐츠를 헤드셋(505)에 제공한다. 도 5에 도시된 예에서, 콘솔(515)은 애플리케이션 저장소(565), 추적 모듈(570), 및 엔진(575)을 포함한다. 콘솔(515)의 일부 실시예들은 도 5와 함께 설명되는 것들과 상이한 모듈들 또는 구성요소들을 갖는다. 유사하게, 아래에서 추가로 설명되는 기능들은 도 5와 함께 설명되는 것과 상이한 방식으로 콘솔(515)의 구성요소들 사이에서 분산될 수 있다. 일부 실시예들에서, 콘솔(515)에 대해 여기서 논의되는 기능성은 헤드셋(505) 또는 원격 시스템에서 구현될 수 있다.
애플리케이션 저장소(565)는 콘솔(515)에 의한 실행을 위한 하나 이상의 애플리케이션을 저장한다. 애플리케이션은 프로세서에 의해 실행될 때 사용자에게 제공하기 위한 콘텐츠를 생성하는 명령어들의 그룹이다. 애플리케이션에 의해 생성되는 콘텐츠는 I/O 인터페이스(510) 또는 헤드셋(505)의 움직임을 통해 사용자로부터 수신된 입력들에 응답하여 이루어질 수 있다. 애플리케이션의 예들은: 게이밍 애플리케이션들, 회의 애플리케이션들, 비디오 재생 애플리케이션들, 또는 다른 적합한 애플리케이션들을 포함한다.
추적 모듈(570)은 하나 이상의 포지션 센서(540)로부터의 정보를 사용하여 헤드셋(505)의 움직임을 추적한다. 예컨대, 추적 모듈(570)은 헤드셋(505)으로부터의 정보에 기초하여, 로컬 영역의 맵핑 내의 헤드셋(505)의 기준 포인트의 포지션을 결정한다. 추가적으로, 일부 실시예들에서, 추적 모듈(570)은 포지션 센서(540)로부터의 헤드셋(505)의 포지션을 표시하는 데이터의 부분들뿐만 아니라 DCA(545)로부터의 로컬 영역의 표현들을 사용하여 헤드셋(505)의 향후의 위치를 예측할 수 있다. 추적 모듈(570)은 헤드셋(505)의 추정된 또는 예측된 향후의 포지션을 엔진(575)에 제공한다.
엔진(575)은 애플리케이션들을 실행하고, 추적 모듈(570)로부터 헤드셋(505)의 포지션 정보, 가속도 정보, 속도 정보, 예측된 향후의 포지션들, 또는 그들의 일부 조합을 수신한다. 수신된 정보에 기초하여, 엔진(575)은 사용자에게 제시하기 위해 헤드셋(505)에 제공하기 위한 콘텐츠를 결정한다. 예컨대, 수신된 정보가 사용자가 좌측을 바라보았다는 것을 표시하는 경우, 엔진(575)은 가상 로컬 영역 또는 로컬 영역 내의 사용자의 움직임을 미러링하는 헤드셋(505)에 대한 콘텐츠를 생성하여, 추가적인 콘텐츠로 로컬 영역을 증강한다. 추가적으로, 엔진(575)은 I/O 인터페이스(510)로부터 수신된 액션 요청에 응답하여 콘솔(515) 상에서 실행되는 애플리케이션 내의 액션을 수행하고, 액션이 수행되었다는 피드백을 사용자에게 제공한다. 제공된 피드백은 헤드셋(505)을 통한 시각적 또는 청각적 피드백일 수 있거나 또는 I/O 인터페이스(510)를 통한 햅틱 피드백일 수 있다.
네트워크(520)는 헤드셋(505) 및/또는 콘솔(515)을 맵핑 서버(525)에 커플링한다. 네트워크(520)는 무선 및/또는 유선 통신 시스템들 둘 모두를 사용하는 로컬 영역 및/또는 광역 네트워크들의 임의의 조합을 포함할 수 있다. 예컨대, 네트워크(520)는 모바일 전화 네트워크들뿐만 아니라 인터넷을 포함할 수 있다. 일 실시예에서, 네트워크(520)는 표준 통신 기술들 및/또는 프로토콜들을 사용한다. 따라서, 네트워크(520)는 이더넷, 802.11, WiMAX(worldwide interoperability for microwave access), 2G/3G/4G 모바일 통신 프로토콜들, DSL(digital subscriber line), ATM(asynchronous transfer mode), 인피니밴드(InfiniBand), PCI 익스프레스 어드밴스드 스위칭 등과 같은 기술들을 사용하는 링크들을 포함할 수 있다. 유사하게, 네트워크(520) 상에서 사용되는 네트워킹 프로토콜들은 MPLS(multiprotocol label switching), TCP/IP(transmission control protocol/Internet protocol), UDP(User Datagram Protocol), HTTP(hypertext transport protocol), SMTP(simple mail transfer protocol), FTP(file transfer protocol)를 포함할 수 있다. 네트워크(520)를 통해 교환되는 데이터는 이진 형태의 이미지 데이터를 포함하는 기술들 및/또는 포맷들(예컨대, PNG(Portable Network Graphics), HTML(hypertext markup language), XML(extensible markup language) 등)을 사용하여 표현될 수 있다. 추가하여, 링크들 중 일부 또는 전부는 SSL(secure sockets layer), TLS(transport layer security), VPN(virtual private network)들, IPsec(Internet Protocol security) 등과 같은 종래의 암호화 기술들을 사용하여 암호화될 수 있다.
맵핑 서버(525)는 복수의 공간들을 설명하는 모델을 저장하는 데이터베이스를 포함할 수 있고, 여기서, 모델 내의 하나의 위치는 헤드셋(505)의 로컬 영역의 현재 구성에 대응한다. 맵핑 서버(525)는 네트워크(520)를 통해 헤드셋(505)으로부터 로컬 영역의 적어도 일부를 설명하는 정보 및/또는 로컬 영역에 대한 위치 정보를 수신한다. 맵핑 서버(525)는 수신된 정보 및/또는 위치 정보에 기초하여 헤드셋(505)의 로컬 영역과 연관된 모델 내의 위치를 결정한다. 맵핑 서버(525)는 모델 내의 결정된 위치 및 결정된 위치와 연관된 임의의 음향 파라미터들에 부분적으로 기초하여, 로컬 영역과 연관된 하나 이상의 음향 파라미터를 결정(예컨대, 검색)한다. 맵핑 서버(525)는 로컬 영역의 위치 및 로컬 영역과 연관된 음향 파라미터들의 임의의 값들을 헤드셋(505)으로 송신할 수 있다.
실시예들의 전술된 설명은 예시를 위해 제공되었고; 이는 포괄적이거나 또는 개시되는 정확한 형태들로 특허권을 제한하는 것으로 의도되지 않는다. 관련 기술분야의 통상의 기술자는 위의 개시내용을 고려하여 다수의 수정들 및 변형들이 가능하다는 것을 인식할 수 있다.
이 설명의 일부 부분들은 정보에 대한 동작들의 심볼 표현들 및 알고리즘들의 측면에서 실시예들을 설명한다. 이러한 알고리즘 설명들 및 표현들은, 데이터 프로세싱 기술분야의 통상의 기술자에 의해, 그들의 작업의 내용을 관련 기술분야의 다른 통상의 기술자에게 효과적으로 전달하기 위해 일반적으로 사용된다. 이러한 동작들은, 기능적으로, 계산적으로, 또는 논리적으로 설명되지만, 컴퓨터 프로그램들 또는 등가의 전기 회로들, 마이크로코드 등에 의해 구현되는 것으로 이해된다. 게다가, 일반성을 잃지 않으면서, 동작들의 이러한 배열들을 모듈들로서 나타내는 것이 때때로 편리한 것으로 또한 입증되었다. 설명되는 동작들 및 그들의 연관된 모듈들은 소프트웨어, 펌웨어, 하드웨어, 또는 그들의 임의의 조합들로 구현될 수 있다.
여기서 설명되는 단계들, 동작들, 또는 프로세스들 중 임의의 것은 하나 이상의 하드웨어 또는 소프트웨어 모듈들로 단독으로 또는 다른 디바이스들과 조합하여 수행 또는 구현될 수 있다. 일 실시예에서, 소프트웨어 모듈은 설명되는 단계들, 동작들, 또는 프로세스들 중 임의의 것 또는 모두를 수행하기 위해 컴퓨터 프로세서에 의해 실행될 수 있는 컴퓨터 프로그램 코드를 포함하는 컴퓨터 판독가능 매체를 포함하는 컴퓨터 프로그램 제품으로 구현된다.
실시예들은 또한, 본원의 동작들을 수행하기 위한 장치와 관련될 수 있다. 그러한 장치는 요구되는 목적들을 위해 특별히 구성될 수 있고/있거나, 그 장치는 컴퓨터에 저장된 컴퓨터 프로그램에 의해 선택적으로 활성화 또는 재구성되는 범용 컴퓨팅 디바이스를 포함할 수 있다. 이러한 컴퓨터 프로그램은 비일시적 유형의 컴퓨터 판독가능 저장 매체, 또는 컴퓨터 시스템 버스에 커플링될 수 있는 전자 명령어들을 저장하는 데 적합한 모든 타입의 매체들에 저장될 수 있다. 게다가, 본 명세서에서 언급되는 임의의 컴퓨팅 시스템들은 단일 프로세서를 포함할 수 있거나 또는 증가된 컴퓨팅 능력을 위해 다수의 프로세서 설계들을 이용하는 아키텍처들일 수 있다.
실시예들은 또한, 여기서 설명되는 컴퓨팅 프로세스에 의해 생산되는 제품과 관련될 수 있다. 이러한 제품은 컴퓨팅 프로세스로부터 기인하는 정보를 포함할 수 있고, 여기서, 정보는 비일시적 유형의 컴퓨터 판독가능 저장 매체 상에 저장되고, 여기서 설명되는 컴퓨터 프로그램 제품 또는 다른 데이터 조합의 임의의 실시예를 포함할 수 있다.
마지막으로, 본 명세서에서 사용되는 언어는 주로 가독성 및 교육 목적들을 위해 선택되었고, 이는 특허권을 표시하거나 또는 한정하기 위해 선택된 것이 아닐 수 있다. 따라서, 특허권의 범위는 이 상세한 설명에 의해 제한되는 것이 아니라 여기에 기초한 출원을 발행하는 임의의 청구항들에 의해 제한되는 것으로 의도된다. 따라서, 실시예들의 개시내용은 다음의 청구항들에서 제시되는 특허권의 범위를 제한하는 것이 아니라 예시하는 것으로 의도된다.

Claims (20)

  1. 방법에 있어서,
    하나 이상의 마이크로폰에 의해 로컬 영역으로부터 사운드를 캡처하는 단계;
    캡처된 사운드에 기초하여 상기 로컬 영역에서 하나 이상의 사운드 소스를 식별하는 단계;
    상기 하나 이상의 사운드 소스 중 타겟 사운드 소스를 결정하는 단계;
    상기 캡처된 사운드 내의 상기 타겟 사운드 소스와 연관된 사운드 신호에 적용하기 위한 하나 이상의 필터를 결정하는 단계;
    상기 하나 이상의 필터를 상기 사운드 신호에 적용함으로써, 증강된 사운드 신호를 생성하는 단계; 및
    사용자에게 제공하기 위해 상기 증강된 사운드 신호를 스피커 조립체에 제공하는 단계
    를 포함하는, 방법.
  2. 제1항에 있어서,
    상기 타겟 사운드 소스가 상기 로컬 영역 내의 상이한 사운드 소스의 임계 거리 내에 있다는 것을 검출하는 단계; 및
    적어도 상기 임계 거리 초과의 분리 거리로 상기 타겟 사운드 소스와 상기 상이한 사운드 소스 사이의 공간적 분리를 증가시키기 위해 상기 하나 이상의 필터 중 적어도 하나를 업데이트하는 단계
    를 더 포함하고,
    상기 사용자에게 제공되는 상기 증강된 사운드 신호는 사운드가 상기 타겟 사운드 소스로부터 유래하는 것으로 나타나게 하고, 상기 상이한 사운드 소스로부터의 사운드가 상기 타겟 사운드 소스로부터 적어도 상기 분리 거리에 있는 상기 로컬 영역 내의 위치로부터 유래하는 것으로 나타나게 하는, 방법.
  3. 제1항 또는 제2항에 있어서,
    상기 하나 이상의 필터는 상기 사용자의 사운드 프로파일에 부분적으로 기초하고, 상기 사운드 프로파일은 적어도 사용자 청력도를 포함하고,
    상기 방법은,
    사용자 피드백에 기초하여 상기 사용자의 상기 사운드 프로파일을 업데이트하는 단계를 더 포함하는, 방법.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서,
    상기 하나 이상의 필터는 상기 로컬 영역 내의 상기 사용자의 위치, 상기 로컬 영역 내의 상기 하나 이상의 사운드 소스 각각의 위치, 상기 로컬 영역의 하나 이상의 음향 파라미터, 및 상기 로컬 영역 내의 사운드 소스들의 타입들 중 하나 이상에 부분적으로 기초하는, 방법.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서,
    상기 캡처된 사운드 내의 상기 타겟 사운드 소스와 연관된 사운드 신호에 적용하기 위한 하나 이상의 필터를 결정하는 단계는,
    복수의 광역 동적 범위 압축 필터들로부터 상기 타겟 사운드 소스에 대응하는 광역 동적 범위 압축 필터를 선택하는 단계를 포함하고,
    상기 복수의 광역 동적 범위 압축 필터들 각각은 복수의 사운드 소스들의 상이한 각각의 사운드 소스에 대응하는, 방법.
  6. 제1항 내지 제5항 중 어느 한 항에 있어서,
    상기 사용자에게 제공하기 위해 상기 증강된 사운드 신호를 스피커 조립체에 제공하는 단계는,
    상기 사용자에 의해 착용된 인이어 디바이스의 스피커 조립체에 상기 증강된 사운드 신호를 제공하는 단계를 포함하는, 방법.
  7. 제6항에 있어서,
    상기 하나 이상의 마이크로폰에 의해 로컬 영역으로부터 사운드를 캡처하는 단계는,
    헤드셋의 프레임에 커플링된 하나 이상의 마이크로폰에 의해 상기 로컬 영역으로부터 사운드를 캡처하는 단계를 포함하고,
    상기 헤드셋은 상기 인이어 디바이스로부터 분리되고 상기 인이어 디바이스에 통신가능하게 커플링되는, 방법.
  8. 제6항 또는 제7항에 있어서,
    하나 이상의 마이크로폰에 의해 상기 인이어 디바이스로부터 누설 신호를 캡처하는 단계;
    상기 누설 신호를 실질적으로 방지하기 위해 완화 신호를 결정하는 단계 ― 상기 완화 신호는 상기 누설 신호에 대해 역위상임 ―; 및
    헤드셋에 커플링된 별개의 스피커 조립체에 상기 완화 신호를 출력 신호로서 제공하는 단계
    를 더 포함하는, 방법.
  9. 제1항 내지 제8항 중 어느 한 항에 있어서,
    상기 타겟 사운드 소스를 결정하는 단계는 상기 사용자의 시선에 부분적으로 기초하는, 방법.
  10. 제1항 내지 제9항 중 어느 한 항에 있어서,
    상기 타겟 사운드 소스를 결정하는 단계는 상기 사용자에 의해 제공되는 구두 신호(verbal cue)에 부분적으로 기초하는, 방법.
  11. 제1항 내지 제10항 중 어느 한 항에 있어서,
    상기 타겟 사운드 소스를 결정하는 단계는,
    상기 사용자에 의해 수행되는 제스처의 이미지를 캡처하는 단계;
    상기 제스처가 사운드 소스의 선택에 대응한다고 결정하는 단계; 및
    상기 사운드 소스를 상기 타겟 사운드 소스로서 선택하는 단계
    를 포함하는, 방법.
  12. 시스템에 있어서,
    헤드셋의 프레임에 커플링된 하나 이상의 마이크로폰 ― 상기 하나 이상의 마이크로폰은 로컬 영역으로부터 사운드를 캡처하도록 구성됨 ―; 및
    상기 헤드셋에 통합되고, 사용자에 의해 착용된 인이어 디바이스에 통신가능하게 커플링된 오디오 제어기
    를 포함하고,
    상기 오디오 제어기는,
    캡처된 사운드에 기초하여 상기 로컬 영역에서 하나 이상의 사운드 소스를 식별하고,
    상기 하나 이상의 사운드 소스 중 타겟 사운드 소스를 결정하고,
    상기 캡처된 사운드 내의 상기 타겟 사운드 소스와 연관된 사운드 신호에 적용하기 위한 하나 이상의 필터를 결정하고,
    상기 하나 이상의 필터를 상기 사운드 신호에 적용함으로써, 증강된 사운드 신호를 생성하고,
    사용자에게 제공하기 위해 상기 증강된 사운드 신호를 상기 인이어 디바이스에 제공하도록
    구성되는, 시스템.
  13. 제12항에 있어서,
    상기 오디오 제어기는,
    상기 타겟 사운드 소스가 상기 로컬 영역 내의 상이한 사운드 소스의 임계 거리 내에 있다는 것을 검출하고,
    적어도 상기 임계 거리 초과의 분리 거리로 상기 타겟 사운드 소스와 상기 상이한 사운드 소스 사이의 공간적 분리를 증가시키기 위해 상기 하나 이상의 필터 중 적어도 하나를 업데이트하도록
    추가로 구성되고,
    상기 사용자에게 제공되는 상기 증강된 사운드 신호는 사운드가 상기 타겟 사운드 소스로부터 유래하는 것으로 나타나게 하고, 상기 상이한 사운드 소스로부터의 사운드가 상기 타겟 사운드 소스로부터 적어도 상기 분리 거리에 있는 상기 로컬 영역 내의 위치로부터 유래하는 것으로 나타나게 하는, 시스템.
  14. 제12항 또는 제13항에 있어서,
    상기 캡처된 사운드 내의 상기 타겟 사운드 소스와 연관된 사운드 신호에 적용하기 위한 하나 이상의 필터를 결정하는 것은, 복수의 광역 동적 범위 압축 필터들로부터 상기 타겟 사운드 소스에 대응하는 광역 동적 범위 압축 필터를 선택하는 것을 포함하고,
    상기 복수의 광역 동적 범위 압축 필터들 각각은 복수의 사운드 소스들의 상이한 각각의 사운드 소스에 대응하는, 시스템.
  15. 제12항 내지 제14항 중 어느 한 항에 있어서,
    상기 하나 이상의 마이크로폰은 상기 인이어 디바이스로부터 누설 신호를 캡처하고,
    상기 오디오 제어기는,
    상기 누설 신호를 실질적으로 방지하기 위해 완화 신호를 결정하고 ― 상기 완화 신호는 상기 누설 신호에 대해 역위상임 ―,
    상기 헤드셋에 커플링된 별개의 스피커 조립체에 상기 완화 신호를 출력 신호로서 제공하도록
    추가로 구성되는, 시스템.
  16. 제12항 내지 제15항 중 어느 한 항에 있어서,
    상기 하나 이상의 필터는 상기 로컬 영역 내의 상기 사용자의 위치, 상기 로컬 영역 내의 상기 하나 이상의 사운드 소스 각각의 위치, 상기 로컬 영역의 하나 이상의 음향 파라미터, 및 상기 로컬 영역 내의 사운드 소스들의 타입들 중 하나 이상에 부분적으로 기초하는, 시스템.
  17. 제12항 내지 제16항 중 어느 한 항에 있어서,
    상기 타겟 사운드 소스는 상기 사용자의 시선에 부분적으로 기초하여 상기 오디오 제어기에 의해 결정되는, 시스템.
  18. 비일시적 컴퓨터 판독가능 저장 매체에 있어서,
    명령어들을 저장하고,
    상기 명령어들은, 하나 이상의 프로세서에 의해 실행될 때, 상기 하나 이상의 프로세서로 하여금 동작들을 수행하게 하고,
    상기 동작들은,
    하나 이상의 마이크로폰에 의해 로컬 영역으로부터 사운드를 캡처하는 동작;
    캡처된 사운드에 기초하여 상기 로컬 영역에서 하나 이상의 사운드 소스를 식별하는 동작;
    상기 하나 이상의 사운드 소스 중 타겟 사운드 소스를 결정하는 동작;
    상기 캡처된 사운드 내의 상기 타겟 사운드 소스와 연관된 사운드 신호에 적용하기 위한 하나 이상의 필터를 결정하는 동작;
    상기 하나 이상의 필터를 상기 사운드 신호에 적용함으로써, 증강된 사운드 신호를 생성하는 동작; 및
    사용자에게 제공하기 위해 상기 증강된 사운드 신호를 스피커 조립체에 제공하는 동작
    을 포함하는, 비일시적 컴퓨터 판독가능 저장 매체.
  19. 제18항에 있어서,
    상기 명령어들은 추가로 상기 하나 이상의 프로세서로 하여금 동작들을 수행하게 하고,
    상기 동작들은,
    상기 타겟 사운드 소스가 상기 로컬 영역 내의 상이한 사운드 소스의 임계 거리 내에 있다는 것을 검출하는 동작; 및
    적어도 상기 임계 거리 초과의 분리 거리로 상기 타겟 사운드 소스와 상기 상이한 사운드 소스 사이의 공간적 분리를 증가시키기 위해 상기 하나 이상의 필터 중 적어도 하나를 업데이트하는 동작
    을 더 포함하고,
    상기 사용자에게 제공되는 상기 증강된 사운드 신호는 사운드가 상기 타겟 사운드 소스로부터 유래하는 것으로 나타나게 하고, 상기 상이한 사운드 소스로부터의 사운드가 상기 타겟 사운드 소스로부터 적어도 상기 분리 거리에 있는 상기 로컬 영역 내의 위치로부터 유래하는 것으로 나타나게 하는, 비일시적 컴퓨터 판독가능 저장 매체.
  20. 제18항 또는 제19항에 있어서,
    상기 캡처된 사운드 내의 상기 타겟 사운드 소스와 연관된 사운드 신호에 적용하기 위한 하나 이상의 필터를 결정하는 동작은,
    복수의 광역 동적 범위 압축 필터들로부터 상기 타겟 사운드 소스에 대응하는 광역 동적 범위 압축 필터를 선택하는 동작을 포함하고,
    상기 복수의 광역 동적 범위 압축 필터들 각각은 복수의 사운드 소스들의 상이한 각각의 사운드 소스에 대응하는, 비일시적 컴퓨터 판독가능 저장 매체.
KR1020237004655A 2020-07-15 2021-06-05 개별화된 사운드 프로파일들을 사용하는 오디오 시스템 KR20230040347A (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202063052016P 2020-07-15 2020-07-15
US63/052,016 2020-07-15
US16/945,388 US11245984B1 (en) 2020-07-15 2020-07-31 Audio system using individualized sound profiles
US16/945,388 2020-07-31
PCT/US2021/036053 WO2022015427A1 (en) 2020-07-15 2021-06-05 Audio system using individualized sound profiles

Publications (1)

Publication Number Publication Date
KR20230040347A true KR20230040347A (ko) 2023-03-22

Family

ID=79293164

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020237004655A KR20230040347A (ko) 2020-07-15 2021-06-05 개별화된 사운드 프로파일들을 사용하는 오디오 시스템

Country Status (6)

Country Link
US (3) US11245984B1 (ko)
EP (3) EP4236360A3 (ko)
JP (1) JP2023534154A (ko)
KR (1) KR20230040347A (ko)
CN (1) CN116134838A (ko)
WO (1) WO2022015427A1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11245984B1 (en) * 2020-07-15 2022-02-08 Facebook Technologies, Llc Audio system using individualized sound profiles
EP3989602A1 (en) * 2020-10-23 2022-04-27 Oticon Medical A/S Distortion compensation for bone anchored hearing device
CN114900771B (zh) * 2022-07-15 2022-09-23 深圳市沃特沃德信息有限公司 基于辅音耳机的音量调节优化方法、装置、设备及介质

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7415117B2 (en) * 2004-03-02 2008-08-19 Microsoft Corporation System and method for beamforming using a microphone array
US9078057B2 (en) * 2012-11-01 2015-07-07 Csr Technology Inc. Adaptive microphone beamforming
EP2876900A1 (en) 2013-11-25 2015-05-27 Oticon A/S Spatial filter bank for hearing system
US20160080874A1 (en) * 2014-09-16 2016-03-17 Scott Fullam Gaze-based audio direction
JP2016208348A (ja) * 2015-04-24 2016-12-08 セイコーエプソン株式会社 表示装置、表示装置の制御方法、及び、プログラム
US9949030B2 (en) * 2016-06-06 2018-04-17 Bose Corporation Acoustic device
US10555071B2 (en) * 2018-01-31 2020-02-04 Bose Corporation Eyeglass headphones
DK3588982T5 (da) * 2018-06-25 2024-02-26 Oticon As Høreanordning der omfatter et feedback-reduktionssystem
US10812896B2 (en) 2019-03-21 2020-10-20 Facebook Technologies, Llc High compliance microspeakers for vibration mitigation in a personal audio device
US10638252B1 (en) * 2019-05-20 2020-04-28 Facebook Technologies, Llc Dynamic adjustment of signal enhancement filters for a microphone array
CN110473567B (zh) * 2019-09-06 2021-09-14 上海又为智能科技有限公司 基于深度神经网络的音频处理方法、装置及存储介质
US10869120B1 (en) 2020-01-08 2020-12-15 Facebook Technologies, Llc Headset dipole audio assembly
US10893357B1 (en) * 2020-02-13 2021-01-12 Facebook Technologies, Llc Speaker assembly for mitigation of leakage
US11134349B1 (en) * 2020-03-09 2021-09-28 International Business Machines Corporation Hearing assistance device with smart audio focus control
US11245984B1 (en) * 2020-07-15 2022-02-08 Facebook Technologies, Llc Audio system using individualized sound profiles

Also Published As

Publication number Publication date
US11843926B2 (en) 2023-12-12
JP2023534154A (ja) 2023-08-08
EP4236360A2 (en) 2023-08-30
EP4183142A1 (en) 2023-05-24
EP4236360A3 (en) 2023-10-04
EP4236361A2 (en) 2023-08-30
WO2022015427A1 (en) 2022-01-20
US20220116705A1 (en) 2022-04-14
US20220021972A1 (en) 2022-01-20
US11245984B1 (en) 2022-02-08
EP4236361A3 (en) 2023-10-04
CN116134838A (zh) 2023-05-16
US20240056733A1 (en) 2024-02-15

Similar Documents

Publication Publication Date Title
US11579837B2 (en) Audio profile for personalized audio enhancement
US11843926B2 (en) Audio system using individualized sound profiles
US11561757B2 (en) Methods and system for adjusting level of tactile content when presenting audio content
US11670321B2 (en) Audio visual correspondence based signal augmentation
KR20220069044A (ko) 오디오 콘텐트를 제공하기 위한 머리 관련 전달 함수의 동적 맞춤화
US11743648B1 (en) Control leak implementation for headset speakers
US10979838B2 (en) Power reduction via smart microphone selection using environmental intelligence
US11290837B1 (en) Audio system using persistent sound source selection for audio enhancement
US20230093585A1 (en) Audio system for spatializing virtual sound sources
US11681492B2 (en) Methods and system for controlling tactile content
US11171621B2 (en) Personalized equalization of audio output based on ambient noise detection
US11006197B1 (en) Ear-plug device with in-ear cartilage conduction transducer
US20220180885A1 (en) Audio system including for near field and far field enhancement that uses a contact transducer

Legal Events

Date Code Title Description
A201 Request for examination