KR20230030563A - 레거시 시청각 매체들로부터의 공간화된 가상 음향 장면들의 결정 - Google Patents

레거시 시청각 매체들로부터의 공간화된 가상 음향 장면들의 결정 Download PDF

Info

Publication number
KR20230030563A
KR20230030563A KR1020227000717A KR20227000717A KR20230030563A KR 20230030563 A KR20230030563 A KR 20230030563A KR 1020227000717 A KR1020227000717 A KR 1020227000717A KR 20227000717 A KR20227000717 A KR 20227000717A KR 20230030563 A KR20230030563 A KR 20230030563A
Authority
KR
South Korea
Prior art keywords
audio
local area
video
acoustic
sound
Prior art date
Application number
KR1020227000717A
Other languages
English (en)
Inventor
필립 로빈슨
가리 세바스티아 비센스 아멘구알
앤드루 로빗
칼 쉬슬러
피터 헨리 마레쉬
Original Assignee
메타 플랫폼즈 테크놀로지스, 엘엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 메타 플랫폼즈 테크놀로지스, 엘엘씨 filed Critical 메타 플랫폼즈 테크놀로지스, 엘엘씨
Publication of KR20230030563A publication Critical patent/KR20230030563A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4398Processing of audio elementary streams involving reformatting operations of audio signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8106Monomedia components thereof involving special audio data, e.g. different tracks for different languages
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/326Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only for microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/033Headphones for stereophonic communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • H04S7/306For headphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Otolaryngology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Stereophonic System (AREA)

Abstract

오디오 시스템은 2차원(2-D) 사운드를 갖는 레거시 비디오(legacy video)로부터 3차원(3-D) 사운드를 갖는 가상 음향 환경들을 생성한다. 시스템은 비디오 내의 음원들을 2-D로부터 3-D 기하학적 구조로 재배치하여 헤드셋을 사용하여 뷰잉될 수 있는 비디오의 몰입형 3-D 가상 장면을 생성한다. 그에 따라, 오디오 프로세싱 시스템은 비디오의 하나 이상의 소스들에 의해 생성되는 플랫(flat) 모노 또는 스테레오 오디오를 포함하는 비디오를 얻는다. 시스템은 개별적인 오디오 소스들을 분할함으로써 각각의 소스로부터 오디오를 분리한다. 각각의 소스의 직접 사운드 성분을 얻기 위해 각각의 소스로부터의 오디오로부터 잔향이 제거된다. 직접 사운드 성분은 그 다음, 비디오의 로컬 영역에 대해 얻어진 음향 특성들에 기초하여 3-D 오디오를 생성하기 위해 비디오의 3-D 로컬 영역에 대해 재공간화된다.

Description

레거시 시청각 매체들로부터의 공간화된 가상 음향 장면들의 결정
본 발명은 일반적으로, 헤드셋에서 오디오의 제공에 관한 것이고, 구체적으로 레거시 시청각 매체들(legacy audiovisual media)로부터의 공간화된 가상 음향 장면들의 결정에 관한 것이다.
인간들은 귀들의 각각의 세트에서 지각된 사운드를 무의식적으로 비교함으로써 음원의 위치를 결정할 수 있다. 2명의 사용자들의 귀들에서 지각된 사운드는 각각의 사용자에 대한 음원의 방향 및 위치 뿐만 아니라, 사운드가 지각되는 룸의 주변 환경에 의존하여 상이할 수 있다. 그러나, 음향 반사 표면들을 갖는 환경들에서의 녹음들은 소스로부터 마이크로폰까지의 직접 사운드에 더하여, 이들 반사 표면들의 방향으로부터 반사된 사운드를 포함한다. 이들 녹음들이 모노 또는 스테레오로 혼합될 때, 반사들에 포함된 공간 정보가 축소되고 손실된다. 그에 따라, 스테레오 스피커들이나 헤드폰들을 위해 원래 생성된 많은 레거시 비디오 매체들은 완전한 오디오 공간화를 포함하지 않는다.
본 발명에 따르면, 방법이 제공되고, 방법은: 오디오 프로세싱 시스템에 의해, 비디오의 오디오 성분을 비디오의 제1 음원에 대한 제1 오디오 및 비디오의 제2 음원에 대한 제2 오디오로 분할하는 단계로서, 오디오 성분은 2차원 오디오인, 상기 분할하는 단계; 제1 오디오 및 제2 오디오의 직접 사운드 성분을 얻기 위해 제1 오디오 및 제2 오디오로부터 잔향을 제거하는 단계; 비디오와 연관된 로컬 영역에 대해, 로컬 영역의 음향 특성들을 얻는 단계; 및 오디오 프로세싱 시스템에 의해, 로컬 영역의 음향 특성들을 사용하여 제1 오디오 및 제2 오디오의 직접 사운드 성분으로 비디오에 대한 3차원 오디오를 생성하는 단계를 포함한다.
바람직하게, 로컬 영역의 음향 특성들을 얻는 단계는: 비디오의 시각적 성분으로부터 로컬 영역의 시각적 특징들을 식별하는 단계; 로컬 영역의 식별된 시각적 특징들을 데이터베이스에 저장된 실세계 공간들의 시각적 특징들과 비교하는 단계로서, 데이터베이스는 실세계 공간들의 음향 특성들에 대한 실세계 공간들의 시각적 특징들의 매핑(mapping)을 포함하는, 상기 비교하는 단계; 및 식별된 시각적 특징들이 데이터베이스에 저장된 실세계 공간의 시각적 특징들과 매칭(matching)하는 것에 응답하여, 제1 오디오 및 제2 오디오의 3차원 오디오를 생성하기 위해 실세계 공간의 음향 특성들을 사용하는 단계를 포함한다.
편리하게, 로컬 영역의 음향 특성들을 얻는 단계는: 로컬 영역의 시각적 특징들을 식별하기 위해 비디오의 시각적 성분을 분석하는 단계; 및 로컬 영역의 시각적 특징들에 기초하여 로컬 영역의 음향 특성들을 추정하는 단계를 포함한다.
바람직하게, 로컬 영역의 시각적 특징들에 기초하여 로컬 영역의 음향 특성들을 추정하는 단계는: 로컬 영역의 시각적 특징들에, 알려진 공간들의 시각적 특징들을 알려진 공간들의 음향 특성들과 상관시키는 기계 학습 모델을 적용하는 단계를 포함한다.
편리하게, 로컬 영역의 음향 특성들을 얻는 단계는: 제1 오디오 및 제2 오디오의 잔향을 식별하기 위해 오디오 성분을 분석하는 단계; 및 제1 오디오 및 제2 오디오의 잔향으로부터 로컬 영역의 음향 특성들을 결정하는 단계를 더 포함한다.
바람직하게, 3차원 오디오를 생성하는 단계는: 제1 오디오 및 제2 오디오를 비디오에서 캡쳐된 로컬 영역의 음향 특성들과 매칭시키기 위해 제1 음원 및 제2 음원에 대한 로컬 영역 임펄스 응답을 생성하는 단계를 포함한다.
편리하게, 방법은: 사용자가 착용한 헤드셋으로부터, 헤드셋의 위치 또는 방향 중 적어도 하나에 대한 데이터를 얻는 단계로서, 위치 또는 방향 중 적어도 하나는 비디오에 대한 사용자의 뷰잉 관점에 대응하는, 상기 데이터를 얻는 단계; 및 헤드셋의 위치 또는 방향 중 적어도 하나에 대한 데이터 및 비디오에서 캡쳐된 로컬 영역의 음향 특성들에 기초하여 제1 음원 및 제2 음원에 대한 로컬 영역 임펄스 응답을 조정하는 단계를 더 포함한다.
바람직하게, 비디오에 대한 3차원 오디오를 생성하는 단계는: 바이노럴 합성(binaural synthesis)을 사용하여, 제1 음원 및 제2 음원의 각각에 대한 임펄스 응답을 조합하는 단계를 더 포함한다.
편리하게, 비디오에 대한 3차원 오디오를 생성하는 단계는 제1 오디오로 하여금 사용자에 의해 로컬 영역 내의 제1 객체로부터 발생하는 것으로서 지각되게 하고 제2 오디오로 하여금 사용자에 의해 로컬 영역 내의 제2 객체로부터 발생하는 것으로서 지각되게 한다.
본 발명의 또 다른 양태에 따르면, 방법이 제공되고, 방법은: 시각적 성분 및 오디오 성분을 포함하는 비디오를 얻는 단계로서, 오디오 성분은 2차원 오디오인, 상기 비디오를 얻는 단계; 오디오 성분으로부터 음원을 식별하는 단계; 2차원 오디오의 직접 사운드 성분을 얻기 위해 오디오 성분으로부터 잔향을 제거하는 단계; 비디오와 연관된 로컬 영역에 대해, 로컬 영역의 음향 특성들을 얻는 단계; 및 로컬 영역의 음향 특성들을 사용하여 2차원 오디오의 직접 사운드 성분으로 비디오에 대한 3차원 오디오를 생성하는 단계를 포함한다.
바람직하게, 3차원 오디오를 생성하는 단계는: 오디오 성분을 비디오에서 캡쳐된 로컬 영역의 음향 특성들과 매칭시키기 위해 음원에 대한 로컬 영역 임펄스 응답을 생성하는 단계를 포함한다.
편리하게, 로컬 영역의 음향 특성들을 얻는 단계는: 시각적 성분으로부터 로컬 영역의 시각적 특징들을 식별하는 단계; 로컬 영역의 식별된 시각적 특징들을 데이터베이스에 저장된 실세계 공간들의 시각적 특징들과 비교하는 단계로서, 데이터베이스는 실세계 공간들의 음향 특성들에 대한 실세계 공간들의 시각적 특징들의 매핑을 포함하는, 상기 비교하는 단계; 및 식별된 시각적 특징들이 데이터베이스에 저장된 실세계 공간의 시각적 특징들과 매칭하는 것에 응답하여, 오디오 성분의 3차원 오디오를 생성하기 위해 실세계 공간의 음향 특성들을 사용하는 단계를 포함한다.
바람직하게, 로컬 영역의 음향 특성들을 얻는 단계는: 로컬 영역의 시각적 특징들을 식별하기 위해 시각적 성분을 분석하는 단계; 및 로컬 영역의 시각적 특징들에, 알려진 공간들의 시각적 특징들을 알려진 공간들의 음향 특성들과 상관시키는 기계 학습 모델을 적용함으로써 로컬 영역의 음향 특성들을 추정하는 단계를 포함한다.
편리하게, 로컬 영역의 음향 특성들을 얻는 단계는: 오디오 성분의 잔향을 식별하기 위해 오디오 성분을 분석하는 단계; 및 오디오 성분의 잔향으로부터 로컬 영역의 음향 특성들을 결정하는 단계를 더 포함한다.
본 발명의 또 다른 양태에 따르면, 지시들을 포함하는 비 일시적 컴퓨터 판독가능한 저장 매체가 제공되고, 지시들은 프로세서에 의해 실행될 때, 프로세서로 하여금: 비디오의 오디오를 비디오의 제1 음원에 대한 제1 오디오 및 제2 음원에 대한 제2 오디오로 분할하게 하는 것으로서, 오디오는 2차원 모노 또는 스테레오 오디오인, 상기 제1 오디오 및 제2 오디오로 분할하게 하고; 제1 오디오 및 제2 오디오의 직접 사운드 성분을 얻기 위해 제1 오디오 및 제2 오디오로부터 잔향을 제거하게 하고; 비디오와 연관된 로컬 영역에 대해, 로컬 영역의 음향 특성들을 얻게 하며; 비디오와 연관된 로컬 영역의 음향 특성들을 사용하여 제1 오디오 및 제2 오디오의 직접 사운드 성분으로 비디오에 대한 3차원 오디오를 생성하게 하고, 3차원 오디오는 제1 음원으로 하여금 로컬 영역 내의 제1 객체로부터 발생하는 것으로 나타나게 하고 제2 음원으로 하여금 로컬 영역 내의 제2 객체로부터 발생하는 것으로 나타나게 한다.
바람직하게, 3차원 오디오를 생성하는 것은: 제1 오디오 및 제2 오디오를 비디오에서 캡쳐된 로컬 영역의 음향 특성들과 매칭시키기 위해 제1 음원 및 제2 음원에 대한 로컬 영역 임펄스 응답을 생성하는 것을 포함한다.
편리하게, 프로세서에 의해 실행될 때, 지시들은 또한 프로세서로 하여금: 사용자가 착용한 헤드셋으로부터, 헤드셋의 위치 또는 방향 중 적어도 하나에 대한 데이터를 얻게 하는 것으로서, 위치 및 방향 중 적어도 하나는 비디오에서 콘텐트를 뷰잉하는 사용자의 관점에 대응하는, 상기 데이터를 얻게 하고; 헤드셋의 위치 또는 방향 중 적어도 하나에 대한 데이터 및 비디오에서 캡쳐된 로컬 영역의 음향 특성들에 기초하여 제1 음원 및 제2 음원에 대한 로컬 영역 임펄스 응답을 조정하게 한다.
바람직하게, 로컬 영역의 음향 특성들을 얻는 것은: 로컬 영역의 시각적 특성들을 식별하는 것; 로컬 영역의 식별된 시각적 특성들을 데이터베이스에 저장된 실세계 공간들의 시각적 특성들과 비교하는 것; 및 식별된 시각적 특성들이 데이터베이스에 저장된 실세계 공간의 시각적 특성들과 매칭하는 것에 응답하여, 비디오에 대한 3차원 오디오를 생성하기 위해 데이터베이스에 저장된 실세계 공간의 음향 특성들을 사용하는 것을 더 포함한다.
편리하게, 로컬 영역의 음향 특성들을 얻는 것은: 로컬 영역의 시각적 특성들을 분석하는 것; 및 로컬 영역의 시각적 특성들에 기초하여 로컬 영역의 공간 특성들을 추정하는 것을 더 포함한다.
바람직하게, 로컬 영역의 음향 특성들을 얻는 것은: 제1 음원 및 제2 음원의 잔향을 식별하는 것; 및 식별된 잔향으로부터 로컬 영역의 음향 특성들을 식별하는 것을 더 포함한다.
2차원(2-D) 오디오(예컨대, 모노 또는 스테레오 사운드)를 갖는 레거시 비디오로부터 3차원(3-D) 오디오를 갖는 가상 음향 환경들을 생성하기 위한 방법이 개시된다. 방법은 비디오 내의 하나 이상의 음원들로부터의 2-D 오디오를 3-D 오디오로 변환한다. 3-D 오디오는 헤드셋을 사용하여 뷰잉될 수 있는 비디오의 몰입형 3-D 가상 장면을 생성하기 위해 사용할 수 있다. 그에 따라, 오디오 프로세싱 시스템은 비디오에서 2개 이상의 음원들에 의해 생성되는 2-D 오디오를 포함하는 비디오를 얻는다. 시스템은 소스 분리 기술을 사용하여 개별적인 음원들을 분할함으로써 각각의 음원으로부터 오디오를 분리한다. 오디오에 수반되는 잔향(예컨대, 반사된 사운드)은 비디오의 각각의 소스로부터의 오디오로부터 제거되어 각각의 소스의 직접 사운드 성분을 얻는다. 직접 사운드 성분은 그 다음, 비디오의 로컬 영역으로 재공간화되어 3-D 오디오를 생성한다.
각각의 직접 사운드 성분을 재공간화하기 위해, 시스템은 비디오와 연관된 로컬 영역의 음향 특성들을 얻는다. 오디오 프로세싱 시스템은 1) 비디오의 시각적 특징들을 매핑 서버의 데이터베이스에 저장된 공간들의 특징들과 비교함으로써, 2) 로컬 영역의 음향 특성들을 얻기 위해 오디오의 잔향을 분석함으로써, 3) 로컬 영역의 음향 특성들을 추정하기 위해 비디오의 시각적 특징들을 분석함으로써, 및 4) 로컬 영역의 음향 특성들을 추정하기 위해 잔향을 분석하는 것과 시각적 특징들을 분석하는 것의 조합에 의해 로컬 영역의 음향 특성들을 얻을 수 있다.
그에 따라, 오디오 프로세싱 시스템은 각각의 음원에 대해 로컬 영역 임펄스 응답을 생성하여 오디오가 비디오에서 캡쳐된 로컬 영역의 음향 특성들과 매칭하게 한다. 이것은 비디오의 사운드가 그것이 로컬 영역의 실제 음원들의 각각으로부터 발생하는 것처럼 나타나는 것을 허용한다. 게다가, 로컬 영역 임펄스 응답은 또한, 룸에서의 사용자의 위치 및/또는 로컬 영역의 음원들에 대한 사용자의 위치를 취할 수 있다. 예를 들면, 오디오 프로세싱 시스템은 사용자가 가상 장면 내에서 보고 있는 곳과 같은, 비디오 내의 사용자의 관점에 대응하는 사용자가 착용한 헤드셋의 위치 및/또는 방향에 대한 데이터를 얻을 수 있다. 오디오 프로세싱 시스템은 그 다음, 헤드셋의 위치 또는 방향 및 비디오에서 캡쳐된 로컬 영역의 음향 특성들에 기초하여 각각의 음원에 대한 로컬 영역 임펄스 응답을 조정할 수 있다. 따라서, 사용자가 음원으로부터 눈길을 돌리기 위해 그들의 고개를 돌릴 때, 사운드는 비디오에서 사운드가 소스의 방향으로부터 발생하는 것으로 헤드셋을 착용한 사용자에 의해 계속 지각될 것이다.
도 1은 하나 이상의 실시예들에 따른, 오디오 소스 분리를 위한 흐름도.
도 2는 하나 이상의 실시예들에 따른, 로컬 영역 음향 특성들을 얻기 위한 흐름도.
도 3은 하나 이상의 실시예들에 따른, 로컬 영역 음향 특성들을 얻기 위한 흐름도.
도 4는 하나 이상의 실시예들에 따른, 비디오로부터 로컬 영역 음향 특성들을 추정하기 위한 흐름도.
도 5는 하나 이상의 실시예들에 따른, 오디오 프로세싱 시스템의 블록도.
도 6은 하나 이상의 실시예들에 따른, 레거시 시청각 매체들로부터 공간화된 음향 데이터를 유도하기 위한 프로세스를 도시하는 흐름도.
도 7은 하나 이상의 실시예들에 따른, 매핑 서버의 블록도.
도 8a는 하나 이상의 실시예들에 따른, 안경류 디바이스(eyewear device)로서 구현된 헤드셋의 사시도.
도 8b는 하나 이상의 실시예들에 따른, 머리 장착 디스플레이로서 구현된 헤드셋의 사시도.
도 9는 하나 이상의 실시예들에 따른, 오디오 시스템의 블록도.
도 10은 하나 이상의 실시예들에 따른, 헤드셋, 매핑 서버, 및 오디오 프로세싱 시스템을 포함하는 시스템 환경의 블록도.
도 11은 하나 이상의 실시예들에 따른, 헤드셋의 블록도.
도면들은 단지 예시의 목적들을 위해 본 발명의 실시예들을 묘사한다. 당업자는 본 명세서에 도시된 구조들 및 방법들의 대안적인 실시예들이 본 명세서에서 설명된 본 발명의 원리들, 또는 설명된 이득들을 벗어나지 않고 이용될 수 있음을 다음의 설명으로부터 용이하게 인식할 것이다.
개요
많은 양의 레거시 비디오 매체들(예컨대, 시네마틱 영화들, TV 쇼들, 유튜브 비디오, 등)은 오디오 공간화를 포함하지 않는다. 오디오 공간화는 청취자에게 가상 3-D 환경 내에서 음원의 인상을 주기 위해 프로세싱된 오디오이다. 오디오 공간화는 사용자에게 그들이 실제3-D 환경에 있음을 제안하는, 인공 현실 시스템에 대한 몰입감에 기여한다. 최근에는, 기계 학습 방법들을 사용하여 이들 레거시 비디오들을 분석하고 개별적인 오디오 소스들을 분리하는 것이 가능해졌다. 이것은 비디오에서 하나의 음원만 청취하고/거나 개별적인 악기 트랙들의 일부 또는 전부와 음악 앙상블을 재혼합하는 것과 같은 많은 가능성들을 허용한다. 부가적으로, 공간들의 공간적 및/또는 음향 속성들을 크라우드 소싱(crowd sourcing)하고 저장하는 매핑 서버와 결부하여, 오디오 소스들은 레거시 녹음으로부터 유도된 이용가능한 몰입형 3-D 인공 현실 장면을 생성하기 위해 3-D 기하학적 구조로 재배치될 수 있다.
레거시 시청각 매체들(예컨대, 2-D 비디오 파일)로부터 공간화된 음향 데이터를 유도하기 위한 오디오 프로세싱 시스템 및 방법이 설명된다. 시스템 및 방법은 일부 실시예들에서, 오디오를 갖는 레거시 비디오로부터 가상 음향 환경들을 생성하기 위해 매핑 서버로부터의 정보를 활용하면서 신호 프로세싱 기술들을 적용한다. 시스템은 시청각 매체들의 각각의 음원으로부터 사운드를 분리하여 각각의 음원에 대한 직접 사운드 성분을 얻음으로써 이것을 달성한다(예컨대, 하나 이상의 잔향 제거 기술들을 적용함으로써). 시스템은 오디오 소스를 비디오에 묘사된 로컬 영역의 3-D 기하학적 구조로 재로컬화하기 위해 매체 파일 및 매핑 서버, 및/또는 매체 시청각 매체들과 연관된 위치 정보를 사용할 수 있다. 시스템은 하나의 실시예에서, 로컬 영역의 3-D 기하학적 구조를 사용하여 각각의 오디오 소스에 대한 로컬 영역 임펄스 응답을 얻기 위해 음향 시뮬레이션을 수행한다. 시스템은 로컬 영역 임펄스 응답을 사용하여 공간화된 오디오 콘텐트를 제공하는 인공 현실 헤드셋에 로컬 영역 임펄스 응답을 제공할 수 있다(예컨대, 로컬 영역의 실제 또는 가상 표현 내에서).
본 발명의 실시예들은 인공 현실 시스템을 포함하거나 이와 결부하여 구현될 수 있다. 인공 현실은 예컨대, 가상 현실(VR), 증강 현실(AR), 혼합 현실(MR), 하이브리드 현실, 또는 그들의 일부 조합 및/또는 파생물들을 포함할 수 있는, 사용자에게 제공되기 전에 일부 방식으로 조정된 현실의 일 형태이다. 인공 현실 콘텐트는 캡쳐된(예컨대, 실세계) 콘텐트와 조합된 생성된 콘텐트 또는 완전히 생성된 콘텐트를 포함할 수 있다. 인공 현실 콘텐트는 비디오, 오디오, 햅틱 피드백, 또는 그들의 일부 조합을 포함할 수 있으며, 그들 중 임의의 것은 단일 채널로 또는 다수의 채널들(예컨대, 뷰어에게 3차원 효과를 생성하는 스테레오 비디오와 같음)로 제공될 수 있다. 부가적으로, 일부 실시예들에서, 인공 현실은 예컨대, 인공 현실에서 콘텐트를 생성하기 위해 사용되고/거나 그렇지 않으면, 인공 현실에서 사용되는(예컨대, 인공 현실에서 활동들을 수행하는) 애플리케이션들, 제품들, 액세서리들, 서비스들, 또는 그들의 일부 조합과 또한 연관될 수 있다. 인공 현실 콘텐트를 제공하는 인공 현실 시스템은 호스트 컴퓨터 시스템에 연결된 머리 장착 디스플레이(HMD), 독립형 HMD, 근안 디스플레이(NED), 모바일 디바이스 또는 컴퓨팅 시스템, 또는 인공 현실 콘텐트를 한명 이상의 뷰어들에게 제공할 수 있는 임의의 다른 하드웨어 플랫폼을 포함하는 다양한 플랫폼들에서 구현될 수 있다.
소스 분리
모노 또는 스테레오 오디오를 포함하는 비디오에 대해, 오디오 프로세싱 시스템은 장면의 각각의 오디오 소스에 대한 모노 트랙들을 유도하기 위해 하나 이상의 소스 분리 기술들을 적용한다. 도 1은 하나 이상의 실시예들에 따른, 오디오 소스 분리를 위한 흐름도(100)이다. 도 1에서, 오디오 프로세싱 시스템은 완전한 오디오 공간화(예컨대, 모노 또는 스테레오 오디오)를 갖지 않는 비디오(105)를 얻는다. 그에 따라, 오디오 프로세싱 시스템은 오디오 성분(110)을 시각적 성분(115)으로부터 분리하고, 이 예에서, 오디오 성분(110) 내의 음원들을 하나 이상의 소스 분리(120) 기술들을 사용하여 개별적인 음원들로 분할한다. 하나의 실시예에서, 하나 이상의 소스 분리(120) 기술들은 당업자에게 알려진 기존의 소스 분리 기술들이다. 예를 들면, 소스 분리 방법은 비디오들의 각각의 객체에 대한 잠재된 사운드 표현을 발견하기 위해 주석이 없는 비디오들의 컬렉션을 활용할 수 있다. 구체적으로, 이미지 인식 도구들은 각각의 비디오에 있는 객체들을 추론하기 위해 사용될 수 있으며 각각의 비디오의 오디오에 대해 비 음수 행렬 인수 분해(NMF)가 수행되어 그것의 주파수 기반 벡터들의 세트를 복구할 수 있다. 이 지점에서, 어떤 오디오 베이스들이 어떤 가시적인 객체(들)에 수반되는지는 알려지지 않는다. 연관을 복구하기 위해, 오디오 베이스들을 검출된 시각적 객체들의 분포에 매핑하는 다중 인스턴스 다중 레이블 학습(multi-instance multi-label learning; MIML)을 위한 신경망이 구성된다. 이 오디오 기반 객체 연관 네트워크로부터, 각각의 시각적 객체에 연결된 오디오 베이스들이 추출되어, 그것의 원형의 스펙트럼 패턴들을 생성한다. 마지막으로, 새로운 비디오가 주어지면, 학습된 객체 별 오디오 베이스들은 오디오 소스 분리를 수행하기 위해 사용될 수 있다. 다른 소스 분리 기술들이 또한 사용될 수 있다.
다시 도 1을 참조하면, 비디오(105)는 음악을 연주하는 2명의 개인들을 포함한다. 한명의 개인은 기타를 연주하고 있고 제1 음원(120)에 대응하고 다른 개인은 색소폰을 연주하고 있고 제2 음원(125)에 대응한다. 그에 따라, 비디오(105)의 오디오 성분(110)으로부터, 하나 이상의 음원 분리(120) 기술들은 오디오 성분(110)을 제1 음원(120)으로부터의 제1 오디오(135) 및 제2 음원(125)으로부터의 제2 오디오(140)로 분할한다.
이 지점에서, 제1 오디오(135)는 제1 음원(125)으로부터의 오디오 뿐만 아니라, 비디오(105)의 환경에서 벽들이나 다른 객체들로부터 반사된 제1 음원(125)으로부터의 사운드를 포함한다. 유사하게, 제2 오디오(140)는 제2 음원(130)으로부터의 오디오 뿐만 아니라, 환경의 벽들 및 다른 객체들로부터 반사된 제2 음원(120)으로부터의 사운드를 포함한다. 이 반사된 사운드는 잔향으로서 언급된다. 예를 들면, 환경의 크기, 바닥 및 벽들의 재질, 등에 의존하여, 반사된 사운드의 음향 특성들이 크게 달라질 수 있다. 이러한 녹음이 모노 또는 스테레오로 혼합될 때, 반사들에 포함된 공간 정보가 축소되고 손실된다. 따라서, 소스 분리(120) 후에, 제1 오디오(135) 및 제2 오디오(140)는 여전히 반사된 사운드 에너지를 포함하지만, 그들 반사들에 관한 어떠한 방향 정보도 포함하지 않는다. 이와 같이, 공간적 몰입이 깨지고, 분리된 소스들은 3-D 기하학적 구조에 현실적으로 배치되지 않을 수 있다다. 따라서, 오디오 프로세싱 시스템은 제1 오디오(135) 및 제2 오디오(140)로부터 잔향을 제거하여 제1 음원(125) 및 제2 음원(130)과 연관된 직접 사운드 성분을 얻는다. 직접 사운드 성분은 따라서, 음원으로부터 직접적으로 발생하고(즉, 신호의 직접 사운드 전용 성분) 임의의 잔향을 포함하지 않는다. 하나의 실시예에서, 제1 오디오(130) 및 제2 오디오(135)로부터 잔향을 제거하는 것은 당업자에게 알려진 기존의 잔향 제거 기술들을 사용한다. 예를 들면, 잔향은 환경의 수학적 모델을 이용하고 환경의 음향 특성들을 추정한 후에, 원래 신호에 대한 추정치를 형성함으로써 소거될 수 있다. 또 다른 예에서, 잔향은 그것을 일 유형의 잡음으로 취급하고 잔향에 구체적으로 적응된 잡음 제거 프로세스를 수행함으로써 억제될 수 있다. 또 다른 예에서, 원래의 잔향이 제거된 신호는 예를 들면, 심층 신경망 기계 학습 접근법 또는 대안적으로 다중 채널 선형 필터를 사용하여 추정될 수 있다. 이들 접근법들 중 일부에서, 잔향 제거 기술들은 선형 예측에 기초한다. 다른 잔향 제거 기술들 및 접근법들이 또한 사용될 수 있다.
직접 사운드 성분은 그 다음, 3-D 오디오를 생성하기 위해 비디오(105)의 3-D 로컬 영역으로 재공간화된다. 제1 음원(120) 및 제2 음원(125)의 직접 사운드 성분을 재공간화하기 위해, 오디오 프로세싱 시스템은 비디오(105)에서 로컬 영역의 음향 특성들을 얻는다. 비디오(105)에서 로컬 영역의 음향 특성들은 로컬 영역의 기하학적 구조와 같은, 로컬 영역의 시각적 특징들을 사용하거나, 오디오 성분(110)과 연관된 잔향 시간, 사운드 감쇠, 흡음, 사운드 확산, 등과 같은 로컬 영역의 오디오 특징들, 또는 시각적 및 오디오 특징들 둘 모두의 조합을 분석함으로써 추정될 수 있다.
로컬 영역은 기타 및 색소폰으로부터의 사운드가 반사, 잔향, 또는 그렇지 않으면 전파되고 로컬 영역의 공간 및 음향 특성들이, 사운드가 공간 내에서 어떻게 이동하는지, 따라서 공간 내에서 사용자나 개인에게 어떻게 "소리가 울리는"지에 영향을 미치는 제1 음원(120) 및 제2 음원(125)을 둘러싸는 공간 또는 환경이다. 따라서, 로컬 영역은 룸, 콘서트 홀, 교회, 등과 같은 밀폐된 공간이 될 수 있거나, 로컬 영역은 외부일 수 있다. 이들 로컬 영역들의 각각의 특성들, 그들 안의 객체들, 및 로컬 영역에서의 및 객체들에 대한 사용자의 위치는 사용자가 사운드를 지각하는 방법에 영향을 미친다. 그에 따라, 오디오 프로세싱 시스템은 비디오와 연관된 로컬 영역의 특성들을 얻고 로컬 영역에 대한 이 정보가 얻어질 수 있는 다수의 방식들이 존재한다. 이들은 오디오 프로세싱 시스템이 1) 비디오(105)의 시각적 성분(115)의 시각적 특징들을 매핑 서버의 데이터베이스에 저장된 공간들의 특징들과 비교하는 것, 2) 로컬 영역의 음향 특성들을 얻기 위해 오디오 성분(110)의 잔향을 분석하는 것, 3) 로컬 영역의 음향 특성들을 추정하기 위해 비디오(105)의 시각적 성분(115)을 분석하는 것, 및 4) 로컬 영역의 음향 특성들을 추정하기 위해 잔향을 분석하고 시각적 성분들(115)을 분석하는 것의 조합을 포함한다.
도 2는 하나 이상의 실시예들에 따른, 로컬 영역 공간 특성들을 얻기 위한 흐름도(200)이다. 오디오 프로세싱 시스템은 이 예에서, 로컬 영역의 시각적 특징들을 식별하고 그들 특징들을 음향 및/또는 공간 특성들이 알려지는 공간들에 매핑된 특징들의 데이터베이스와 비교함으로써 오디오를 로컬 영역으로 공간화하기 위한 특성들을 얻는다. 이 예에서, 비디오(105)의 시각적 성분들(115)은 비디오(105) 내의 로컬 영역의 시각적 특징들(205)을 식별하기 위해 분석된다. 시각적 특징들(205)은 하나의 공간을 가구의 조합, 가구 배치, 삽화, 삽화 위치, 건축 디자인, 컬러, 등을 포함할 수 있는 또 다른 공간과 구별하는 구별되는 시각적 특징들이다. 오디오 프로세싱 시스템은 그 다음, 로컬 영역의 이들 식별된 시각적 특징들(205)을 매핑 서버(250)의 데이터베이스에 저장된 실세계 공간들의 특징들과 비교한다(210). 매핑 서버(250)는 이 실시예에서, 매핑 서버(250)가 룸/공간 매핑 능력들을 갖는 헤드셋을 착용한 사용자들로부터의 크라우드 소싱 음향 및/또는 공간 데이터로부터 수신하는 공간들의 공간적 및/또는 음향 특성들을 저장한다. 매핑 서버(250)는 도 7을 참조하여 더 상세하게 논의된다. 그에 따라, 로컬 영역의 시각적 특징들(205)과 매핑 서버(250)의 데이터베이스에 저장된 실세계 공간의 특징들 사이의 매치(215)를 식별하는 것에 응답하여, 오디오 프로세싱 시스템은 제1 오디오(130) 및 제2 오디오(135)의 직접 사운드 성분을 재공간화하기 위해 그 공간의 사운드 및/또는 공간 특성들을 얻는다(220). 다양한 실시예들에서, 매핑 서버(250250)는 오디오 프로세싱 시스템과 별개이거나 오디오 프로세싱 시스템의 일부이다.
도 3은 하나 이상의 실시예들에 따른, 로컬 영역 특성들을 얻기 위한 흐름도(300)이다. 오디오 프로세싱 시스템은 이 예에서, 제1 오디오(130) 및 제2 오디오(135)에 대한 오디오 성분(110)의 잔향을 분석함으로써 로컬 영역의 음향 특성들을 얻는다. 하나의 실시예에서, 잔향(305)을 분석하는 것은 RT60 추정 또는 또 다른 음향 분석 도구를 사용하여 잔향 시간 감쇠를 산출하는 것을 포함한다. 잔향 시간 감쇠를 통해, 시스템은 로컬 영역의 특성들을 역설계(reverse engineering)하고 이들 특성들을 제1 오디오(130) 및 제2 오디오(135)의 직접 사운드 성분에 적용할 수 있다. 로컬 영역의 이들 특성들을 통해, 오디오 프로세싱 시스템은 잔향의 분석에 기초하여 결정된 로컬 영역의 특성들을 사용하여 직접 사운드 성분들로 비디오에 대한 3-D 오디오를 생성하기 위해 오디오를 재공간화한다.
도 4는 하나 이상의 실시예들에 따른, 비디오로부터 로컬 영역 특성들을 추정하기 위한 흐름도(400)이다. 시스템은 이 예에서, 비디오(105) 내에서 보여지는 로컬 영역의 특징들(405)을 식별하기 위해 비디오(105)의 시각적 성분(115)을 분석함으로써 로컬 영역의 특성들을 얻는다. 하나의 실시예에서, 로컬 영역 특성들을 추정하기 위해 사용된 특징들은 도 2과 관련하여 상기 논의된 것과 동일하다. 다른 실시예들에서, 이들 특징들은 특히, 환경의 사운드에 영향을 미칠 특징들에 관한 것이다. 예를 들면, 이들 특징들은 로컬 영역이 실내 또는 실외인지의 여부를 결정하고, 로컬 영역의 크기(예컨대, 방 기하학적 구조, 벽들의 깊이, 복도들의 수렴 지점들, 등)를 추정하고, 로컬 영역에서 잔향에 영향을 미칠 객체들(예컨대, 카페트, 단단한 나무 바닥들, 공간 체적(empty volume), 로컬 영역에서의 객체들, 등)을 식별하고, 등을 위해 사용된 특징들을 포함할 수 있다. 오디오 프로세싱 시스템이 비디오(105)에서 식별하는 이들 특징들을 통해, 오디오 프로세싱 시스템은 로컬 영역의 특성들(410)을 추정한다. 하나의 실시예에서, 오디오 프로세싱 시스템은 기계 학습 모델을 사용하여 그들의 대응하는 음향 특성들이 알려지는 비디오들의 시각적 특징들을 상관시킨다. 기계 학습 모델은 또한, 오디오 특징들(예컨대, 잔향 시간, 사운드 감쇠, 흡음, 사운드 확산, 등)을 알려진 음향 특성들과 상관시킬 수 있다. 그에 따라, 기계 학습 모델은 시각적 특징들 및 일부 실시예들에서, 비디오들의 알려진 환경들의 오디오 특징들을 그들의 음향 특성들에 매핑한다. 이것은 오디오 프로세싱 시스템이 새로운 비디오로부터의 시각적 특징들 및/또는 오디오 특징들에 기초하여 새로운 비디오의 로컬 영역(즉, 시스템에 알려지지 않은 영역)의 음향 특성들을 추정하는 것을 허용한다.
음향 특성들을 사용하여, 오디오 프로세싱 시스템은 제1 음원(125) 및 제2 음원(130)에 대한 로컬 영역 임펄스 응답을 생성하여 제1 오디오(135) 및 제2 오디오(140)가 비디오(105)에서 캡쳐된 로컬 영역의 음향 특성들에 매칭하게 한다. 이것은 사운드가 심지어 헤드셋을 통해 비디오(105)를 뷰잉하는 사용자가 기타리스트 및 색소폰 연주자로부터 눈길을 돌리기 위해 그들의 머리를 돌릴 때 로컬 영역의 제1 음원(125) 및 제2 음원(130)로부터 발생하는 것처럼 사운드가 나타나는 것을 허용한다.
게다가, 로컬 영역 임펄스 응답은 또한, 로컬 영역의 오디오 소스들에 대한 룸 및/또는 사용자의 위치에서 및 로컬 영역 임펄스 응답으로부터 사용자의 위치를 취할 수 있다. 이것을 성취하기 위해, 오디오 프로세싱 시스템은 룸에서 사용자의 위치 및/또는 오디오 소스들에 대한 사용자의 위치를 설명하기 위해 머리 관련 전달 함수들(HRTF)을 통합할 수 있다. HRTF들은 사용자의 귀가 공간의 하나의 지점으로부터 사운드를 수신하는 방법을 특징짓는다. HRTF들은 2019년 4월 22일에 출원된 미국 특허 출원 번호 제16/390,918 호에서 상세하게 설명되고, 이는 본 명세서에 전체적으로 참조로서 통합된다. 예를 들면, 시스템은 사용자가 비디오 내에서 보고 있는 곳과 같은, 비디오 내의 사용자의 관점에 대응하는 사용자가 착용한 헤드셋의 위치 및/또는 방향에 대한 데이터를 얻을 수 있다. 시스템은 그 다음, 헤드셋의 위치 또는 방향 및 비디오에서 캡쳐된 로컬 영역의 사운드 특성들 또는 공간 특성들에 기초하여 각각의 오디오 소스에 대한 로컬 영역 임펄스 응답을 조정할 수 있다. 하나의 실시예에서, 이것은 가상 장면 내의 청취자 위치 및 방향에 기초하여, 적절한 모노 트랙으로 각각의 공간 룸 임펄스 응답을 상호 작용으로 컨볼빙(convolving)하기 위해 바이노럴 합성 기술들을 활용하는 것을 포함한다. 따라서, 사용자가 기타리스트 및 색소폰 연주자로부터 눈길을 돌리기 위해 그들의 머리를 돌릴 때, 사운드는 비디오(105)에서 사운드가 그들의 방향으로부터 발생하는 것으로 헤드셋을 착용한 사용자에 의해 계속 지각될 것이다.
오디오 프로세싱 시스템
도 5는 하나 이상의 실시예들에 따른, 오디오 프로세싱 시스템(500)의 블록도이다. 인공 현실(예컨대, 가상 현실, 증강 현실, 등)의 출현으로, 오래된 영화들을 포함하는 이들 레거시 비디오들은 이제, 머리 장착 디스플레이를 착용한 사용자에 의해 뷰잉될 수 있다. 그러나, 이들 더 오래된 영화들은 원래 스테레오 스피커들 또는 헤드폰들을 위해 생성된 2-D 오디오를 포함하고, 따라서 전체 오디오 공간화를 포함하지 않는다. 따라서, 오디오 프로세싱 시스템은 2-D 레거시 비디오들을 얻고 이들 레거시 비디오들에 대한 3-D 오디오를 생성하기 위해 공간화된 음향 데이터를 유도한다. 오디오 프로세싱 시스템(500)은 소스 분리 모듈(505), 잔향 제거 모듈(510), 로컬 영역 특성 모듈(515), 및 3-D 오디오 생성 모듈(530)을 포함한다. 로컬 영역 특성 모듈(515)은 오디오 분석 모듈(520) 및 시각적 성분 분석 모듈(525)을 더 포함한다. 다른 실시예들에서, 오디오 프로세싱 시스템(500)은 임의의 부가적인 모듈들과 함께 나열된 모듈들의 임의의 조합을 가질 수 있다.
소스 분리 모듈(505)은 각각의 음원을 식별하고 분리하기 위해 비디오의 오디오 성분을 분석한다. 이것은 하나 이상의 소스 분리 기술들을 사용하여 각각의 음원에 대해 별개의 오디오를 생성하기 위해 음원들을 분할하는 것을 포함한다. 예를 들면, 비디오가 두 사람이 대화하는 토크쇼인 경우, 소스 분리 모듈(505)은 각각의 사람의 대화를 분리할 것이다. 이 지점에서, 각각의 음원으로부터의 오디오는 비디오의 로컬 영역에 있는 벽들이나 다른 객체들로부터 반사된 사운드를 포함한다. 반사된 사운드는 잔향이며, 잔향이 있는 오디오가 모노 또는 스테레오 오디오에 혼합될 때, 반사들에 포함된 공간 정보가 축소되고 손실된다.
잔향 제거 모듈(510)은 각각의 음원에 대한 오디오를 수신하고 각각의 음원에 대한 직접 사운드 성분을 얻기 위해 그로부터 잔향을 제거한다. 직접 사운드 성분은 음원으로부터 직접적으로 발생하고 잔향을 포함하지 않는 사운드이다.
로컬 영역 특성 모듈(515)은 각각의 오디오 소스를 재공간화하는데 사용하기 위해 비디오에서 캡쳐된 로컬 영역의 음향 특성들을 얻는다. 상기 설명된 바와 같이, 로컬 영역 특성 모듈(515)이 로컬 영역의 음향 특성들을 얻을 수 있는 다수의 방식들이 존재한다. 이러한 이유로, 로컬 영역 특성 모듈(515)은 오디오 분석 모듈(520) 및 시각적 성분 분석 모듈(525)을 더 포함한다.
로컬 영역 특성 모듈(515)의 오디오 분석 모듈(520)은 로컬 영역의 사운드 특성들을 얻기 위해 오디오 성분의 잔향을 분석한다. 하나의 실시예에서, 잔향을 분석하는 것은 잔향 시간 감쇠를 산출하는 것을 포함한다(예컨대, RT60 추정, 등을 사용하여). 잔향 시간 감쇠를 통해, 시스템은 로컬 영역의 음향 특성들을 역설계할 수 있다. 따라서, 로컬 영역 특성 모듈(515)은 로컬 영역에서 잔향을 역설계함으로써 로컬 영역의 음향 특성들을 얻는다.
로컬 영역 특성 모듈(515)의 시각적 성분 분석 모듈(525)은 하나의 실시예에서, 비디오의 시각적 성분으로부터 시각적 특징들을 식별하고 도 7에 대해 논의된, 매핑 서버(250)의 데이터베이스에 저장된 공간들의 특징들과 시각적 특징들을 비교한다. 로컬 영역의 시각적 특징들과 매핑 서버(250)의 데이터베이스에 저장된 공간들의 특징들 사이의 매치를 식별하는 것에 응답하여, 로컬 영역 특성 모듈은 비디오에서 각각 음원의 재공간화에 사용하기 위해 공간의 음향 특성들을 얻는다. 따라서, 이 실시예에서, 로컬 영역 특성 모듈(515)은 로컬 영역의 시각적 특징들과 매핑 서버(250)의 데이터베이스에 저장된 공간들의 특징들 사이의 매치에 기초하여 매핑 서버로부터 로컬 영역의 음향 특성들을 얻는다.
로컬 영역 특성 모듈(515)의 시각적 요소 분석 모듈(525)은 또 다른 실시예에서, 로컬 영역의 음향 특성들을 추정하기 위해 비디오의 시각적 요소로부터 시각적 특징들을 식별한다. 하나의 실시예에서, 로컬 영역 특성 모듈(515)은 기계 학습 모델을 사용하여 비디오들의 시각적 특징들을 알려진 음향 특성들과 상관시킨다. 기계 학습 모델은 또한, 오디오 특징들(예컨대, 잔향 시간, 사운드 감쇠, 흡음, 사운드 확산, 등)을 알려진 음향 특성들과 상관시킬 수 있다. 그에 따라, 기계 학습 모델은 시각적 특징들 및 일부 실시예들에서, 비디오들의 알려진 환경들의 오디오 특징들을 그들의 음향 특성들에 매핑한다. 이것은 로컬 영역 특성 모듈(515)이 비디오로부터의 시각적 특징들 및/또는 오디오 특징들에 기초하여 알려지지 않은 비디오에서 로컬 영역의 음향 특성들을 추정하는 것을 허용한다. 그에 따라, 이 실시예에서, 로컬 영역 특성 모듈(515)은 비디오에서 로컬 영역의 시각적 특징들에 기초하여 음향 특성들을 추정함으로써 로컬 영역의 음향 특성들을 얻는다.
3-D 오디오 생성 모듈(530)은 3-D 오디오를 생성하기 위해 얻어진 음향 특성들을 사용하여 레거시 비디오로부터 각각의 음원의 직접 사운드 성분을 재공간화한다. 음향 특성들을 사용하여, 3-D 오디오 생성 모듈(530)은 각각의 음원에 대한 로컬 영역 임펄스 응답을 생성하여 각각의 음원과 연관된 분리된 오디오가 비디오에서 캡쳐된 로컬 영역의 음향 특성들과 매칭하게 한다. 이것은 사운드가 그것이 로컬 영역의 그것의 각각의 소스로부터 발생하는 것처럼 나타나는 것을 허용한다.
레거시 시청각 매체들로부터 공간화된 음향 데이터를 유도하기 위한 방법
도 6은 하나 이상의 실시예들에 따른, 레거시 시청각 매체들로부터 공간화된 음향 데이터를 유도하기 위한 프로세스(600)를 도시하는 흐름도이다. 도 6의 프로세스(600)는 장치의 구성요소들 예컨대, 매핑 서버(250) 오디오 프로세싱 시스템(500)에 의해 수행될 수 있다. 다른 개체들(예컨대, 헤드셋(800 또는 805)의 구성요소들, 도 7의 매핑 서버(250), 및/또는 도 11에 도시된 구성요소들)은 다른 실시예들에서 프로세스의 일부 또는 모든 단계들을 수행할 수 있다. 마찬가지로, 실시예들은 상이한 및/또는 부가적인 단계들을 포함하거나, 상이한 순서들로 단계들을 수행할 수 있다.
오디오 프로세싱 시스템(500)은 시각적 성분 및 오디오 성분을 포함하는 비디오를 얻는다(605). 오디오 성분은 비디오의 제1 음원 및 제2 음원에 의해 생성된다. 오디오 성분은 원래 모노 또는 스테레오 오디오를 위해 혼합된 플랫(flat) 2차원 오디오이며 임의의 공간화를 포함하지 않는다.
오디오 프로세싱 시스템(500)은 오디오 성분을 제1 음원에 대한 제1 오디오 및 제2 음원에 대한 제2 오디오로 분할한다(610). 분할은 비디오 내에서 각각의 개별적인 음원의 오디오를 분리한다. 각각의 개별적인 음원의 분리된 오디오는 여전히 각각의 개별적인 음원과 연관된 사운드 반사들을 포함한다.
오디오 프로세싱 시스템(500)은 사운드 반사들이 없는 제1 오디오 및 제2 오디오의 직접 사운드 성분을 얻기 위해 제1 오디오 및 제2 오디오로부터 잔향을 제거한다(615).
오디오 프로세싱 시스템(500)은 로컬 영역의 음향 특성들을 얻는다(620). 상기 설명된 바와 같이, 오디오 프로세싱 시스템(500)이 음향 특성들을 획득하는(620) 다수의 방법들이 존재하고 이들은 1) 비디오의 시각적 성분의 시각적 특징들을 매핑 서버의 데이터베이스에 저장된 공간들의 특징들과 비교하는 단계, 2) 로컬 영역의 음향 특성들을 얻기 위해 오디오 성분의 잔향을 분석하는 단계, 3) 로컬 영역의 음향 특성들을 추정하기 위해 비디오의 시각적 성분을 분석하는 단계, 및 4) 로컬 영역의 음향 특성들을 추정하기 위해 잔향을 분석하는 단계와 시각적 성분들을 분석하는 단계의 조합을 포함한다.
오디오 프로세싱 시스템(500)은 로컬 영역의 음향 특성들을 사용하여 제1 오디오 및 제2 오디오의 직접 사운드 성분으로 비디오에 대한 3-D 오디오를 생성한다(625). 이것은 오디오의 공간 특성들이 비디오에서 캡쳐된 로컬 영역의 사운드 및/또는 공간 특성들과 매칭하도록 각각의 오디오 소스에 대한 로컬 영역 임펄스 응답을 생성하는 것을 포함한다. 이것은 사운드가 그것이 로컬 영역의 실제 소스들의 각각으로부터 발생하는 것처럼 나타나는 것을 허용한다.
물리적 공간들의 가상 모델들을 저장하는 매핑 서버
도 7은 하나 이상의 실시예들에 따른, 매핑 서버(250)의 블록도이다. 매핑 서버(250)는 3-D 오디오의 생성을 용이하게 한다. 매핑 서버(250)는 룸/공간 매핑 능력들을 갖는 헤드셋을 착용한 사용자들로부터의 크라우드 소싱 음향 및/또는 공간 데이터로부터 매핑 서버(250)가 수신하는 공간들의 음향 특성들을 저장한다. 매핑 서버(250)는 복수의 공간들 및 그들 공간들의 음향 특성들을 설명하는 가상 모델을 저장하는 데이터베이스를 포함한다. 이 기능을 용이하게 하기 위해, 매핑 서버(250)는 네트워크를 통해 다수의 헤드셋들로부터, 많은 상이한 위치들에 위치된 많은 룸들의 적어도 일부를 설명하는 시각적 정보를 수신한다. 매핑 서버(250)는 수신된 시각적 정보 및/또는 위치 정보에 기초하여, 공간(예컨대, 로컬 영역)의 현재 구성과 연관되는 가상 모델에서의 위치를 결정한다. 매핑 서버(250)는 가상 모델에서의 결정된 위치 및 결정된 위치와 연관된 임의의 음향 특성들에 부분적으로 기초하여, 공간의 현재 구성과 연관된 음향 특성들의 세트를 결정(예컨대, 검색)한다. 매핑 서버(250)는 오디오 프로세싱 시스템(500)에서 3-D 오디오 콘텐트를 생성하기 위해 오디오 프로세싱 시스템(500)에 음향 특성들의 세트에 대한 정보를 제공할 수 있다(예컨대, 네트워크를 통해). 일부 실시예들에서, 매핑 서버(250)의 구성요소들 중 일부는 유선 연결(도 6에 도시되지 않음)을 통해 헤드셋에 연결된 또 다른 디바이스(예컨대, 콘솔)와 통합될 수 있다. 매핑 서버(250)의 동작들 및 구성요소들에 관한 부가적인 상세들은 도 7 및 도 10과 관련하여 하기에 논의된다.
매핑 서버(250)는 가상 모델 데이터베이스(705), 통신 모듈(710), 매핑 모듈(715), 및 음향 분석 모듈(720)을 포함한다. 다른 실시예들에서, 매핑 서버(250)는 임의의 부가적인 모듈들로 나열된 모듈들의 임의의 조합을 가질 수 있다. 일부 다른 실시예들에서, 매핑 서버(250)는 도 7에 도시된 모듈들의 기능들을 조합하는 하나 이상의 모듈들을 포함한다. 매핑 서버(250)의 프로세서(도 7에 도시되지 않음)는 가상 모델 데이터베이스(705), 통신 모듈(710), 매핑 모듈(715), 음향 분석 모듈(720), 하나 이상의 다른 모듈들 또는 도 7에 도시된 모듈들의 기능들을 조합하는 모듈들 중 일부 또는 전부를 실행할 수 있다.
가상 모델 데이터베이스(705)는 복수의 물리적 공간들 및 그들 물리적 공간들의 음향 특성들을 설명하는 가상 모델을 저장한다. 가상 모델에서의 각각의 위치는 고유한 음향 조건과 연관된 특정 구성을 가지는 로컬 영역 내의 하나 이상의 헤드셋들에 의해 매핑된 물리적 위치에 대응한다. 고유한 음향 조건은 음향 특성들의 고유한 세트로 표현된 음향 특성들의 고유한 세트를 가지는 로컬 영역의 조건을 표현한다. 가상 모델에서의 각각의 위치는 로컬 영역의 하나의 구성을 표현하는 대응하는 물리적 공간에 대한 음향 특성들의 세트와 연관된다. 음향 특성들의 세트는 로컬 영역의 그 하나의 특정한 구성의 다양한 음향 특성들을 설명한다. 가상 모델에서 음향 특성들이 설명되는 물리적 공간들은 회의실, 욕실, 복도, 사무실, 침실, 식당, 및 거실을 포함하지만, 이로 제한되지 않는다. 일부 실시예들에서, 물리적 공간들은 특정 외부 공간들(예컨대, 파티오, 정원, 등) 또는 다양한 내부 및 외부 공간들의 조합일 수 있다.
통신 모듈(710)은 네트워크를 통해 헤드셋들과 통신하는 모듈이다. 통신 모듈(710)은 헤드셋들로부터, 헤드셋들이 관찰하는 로컬 영역들의 적어도 일부를 설명하는 시각적 정보를 수신한다. 하나 이상의 실시예들에서, 시각적 정보는 로컬 영역들의 적어도 일부에 대한 이미지 데이터를 포함한다. 예를 들면, 통신 모듈(710)은 공간의 벽들, 바닥 및 천장의 표면들과 같은, 로컬 영역의 표면들에 의해 정의된 로컬 영역의 형상에 관한 정보와 함께 헤드셋의 깊이 카메라 어셈블리(DCA)에 의해 캡쳐된 깊이 이미지 데이터를 수신한다. 통신 모듈(710)은 또한, 헤드셋의 수동 카메라 어셈블리(PCA)에 의해 캡쳐된 컬러 이미지 데이터를 수신할 수 있다. 매핑 서버(250)는 상이한 음향 물질들을 로컬 영역의 표면들과 연관시키기 위해 컬러 이미지 데이터를 사용할 수 있다. 통신 모듈(710)은 헤드셋으로부터 수신된 시각적 정보(예컨대, 깊이 이미지 데이터 및 컬러 이미지 데이터)를 매핑 모듈(715)에 제공할 수 있다.
매핑 모듈(715)은 헤드셋으로부터 수신된 시각적 정보를 가상 모델의 위치에 매핑한다. 매핑 모듈(715)은 헤드셋(710)이 위치되는 현재 물리적 공간 즉, 로컬 영역의 현재 구성에 대응하는 가상 모델의 위치를 결정한다. 매핑 모듈(715)은 (i) 적어도 예컨대, 물리적 공간의 표면들의 기하학적 구조에 관한 정보 및 표면들의 음향 물질들에 관한 정보를 포함하는 시각적 정보와 (ii) 가상 모델 내의 물리적 공간의 대응하는 구성 사이의 매핑을 발견하기 위해 가상 모델을 통해 검색한다. 매핑은 수신된 시각적 정보의 기하학적 구조 및/또는 음향 물질 정보를 가상 모델 내의 물리적 공간의 구성의 일부로 저장되는 기하학적 구조 및/또는 음향 물질 정보와 매칭시킴으로써 수행된다. 가상 모델 내의 물리적 공간의 대응하는 구성은 헤드셋이 현재 위치되는 물리적 공간의 모델에 대응한다. 어떠한 매칭도 발견되지 않으면, 이것은 물리적 공간의 현재 구성이 아직 가상 모델 내에서 모델링되지 않음을 나타낸다. 이러한 경우에, 매핑 모듈(715)은 어떠한 매칭도 발견되지 않음을 음향 분석 모듈(720)에 알릴 수 있고, 음향 분석 모듈(720)은 수신된 시각적 정보에 적어도 부분적으로 기초하여 음향 특성들의 세트를 결정한다.
음향 분석 모듈(720)은 매핑 모듈(715)로부터 얻어진 가상 모델에서의 결정된 위치 및 결정된 위치와 연관된 가상 모델에서의 임의의 음향 특성들에 부분적으로 기초하여, 헤드셋의 물리적 위치와 연관된 음향 특성들의 세트를 결정한다. 일부 실시예들에서, 음향 분석 모듈(720)은 음향 특성들의 세트가 특정 공간 구성과 연관되는 가상 모델에서의 결정된 위치에 저장됨에 따라, 가상 모델로부터 음향 특성들의 세트를 검색한다. 일부 다른 실시예들에서, 음향 분석 모듈(720)은 헤드셋으로부터 수신된 시각적 정보에 적어도 부분적으로 기초하여, 가상 모델의 특정 공간 구성에 대해 음향 특성들의 이전에 결정된 세트를 조정함으로써 음향 특성들의 세트를 결정한다. 예를 들면, 음향 분석 모듈(720)은 음향 특성들의 세트를 결정하기 위해 수신된 시각적 정보를 사용하여 오프라인 음향 시뮬레이션을 실행할 수 있다.
일부 실시예들에서, 음향 분석 모듈(720)은 공간 의존적 사전 계산된 음향 특성들(예컨대, 공간 의존적 잔향 시간, 공간 의존적 직접 대 잔향 비, 등)을 생성하기 위해 음향 시뮬레이션들을 수행할 수 있다. 공간 의존적 사전 계산된 음향 특성들은 가상 모델 데이터베이스(705)에서 가상 모델의 적절한 위치들에 저장될 수 있다. 음향 분석 모듈(720)은 물리적 공간의 기하학적 구조 및/또는 음향 물질들이 변경될 때마다 사전 계산된 음향 특성들을 사용하여 공간 의존적 음향 특성들을 재계산할 수 있다. 음향 분석 모듈(720)은 룸 기하학적 구조에 관한 정보, 음향 물질 속성 추정치들, 및/또는 인간 점유 레벨에 관한 정보(예컨대, 비어 있음, 부분적으로 가득함, 가득함)와 같지만 이들로 제한되지 않는, 음향 시뮬레이션들을 위한 다양한 입력들을 사용할 수 있다. 음향 특성들은 다양한 점유 레벨들, 및 룸의 다양한 상태들(예컨대, 열린 창문들, 닫힌 창문들, 열린 커튼들, 닫힌 커튼들, 등)에 대해 시뮬레이팅될 수 있다. 룸의 상태가 변경되면, 매핑 서버(250)는 오디오 콘텐트를 사용자에게 제공하기 위한 음향 특성들의 적절한 세트를 결정하고 이를 헤드셋에 전달할 수 있다. 그렇지 않으면, 음향 특성들의 적절한 세트가 이용가능하지 않은 경우, 매핑 서버(250)는(예컨대, 음향 분석 모듈(720)을 통해) 음향 특성들의 새로운 세트를 산출하고(예컨대, 음향 시뮬레이션들을 통해) 음향 특성들의 새로운 세트를 헤드셋에 전달할 것이다.
일부 실시예들에서, 매핑 서버(250)는 로컬 영역의 주어진 구성에 대한 전체(측정되거나 시뮬레이팅됨) 룸 임펄스 응답을 저장한다. 예를 들면, 로컬 영역의 구성은 헤드셋 및 음원의 특정 공간적 배열에 기초할 수 있다. 매핑 서버(250)는 룸 임펄스 응답을 네트워크 송신의 정의된 대역폭(예컨대, 네트워크(720)의 대역폭)을 위해 적합한 음향 특성들의 세트로 감소시킬 수 있다. 전체 임펄스 응답의 파라미터화된 버전을 표현하는 음향 특성들의 세트는 예컨대, 가상 모드의 일부로서 가상 모델 데이터베이스(705)에, 또는 매핑 서버(250)의 별개의 비 일시적 컴퓨터 판독가능한 저장 매체(도 7에 도시되지 않음)에 저장될 수 있다. 매핑 서버(250) 및 그것의 기능은 2019년 3월 27일에 출원된 미국 특허 출원 번호 제16/366,484 호에서 또한 설명되고, 이는 전체적으로 참조로서 통합된다.
예시적인 헤드셋들
도 8a는 하나 이상의 실시예들에 따른, 안경류 디바이스로서 구현된 헤드셋(800)의 사시도이다. 일부 실시예들에서, 안경류 디바이스는 근안 디스플레이(NED)이다. 일반적으로, 헤드셋(800)은 콘텐트(예컨대, 매체 콘텐트)가 디스플레이 어셈블리 및/또는 오디오 시스템을 사용하여 제공되도록 사용자의 얼굴에 착용될 수 있다. 그러나, 헤드셋(800)은 또한, 매체 콘텐트가 상이한 방식으로 사용자에게 제공되도록 사용될 수 있다. 헤드셋(800)에 의해 제공된 매체 콘텐트의 예들은 하나 이상의 이미지들, 비디오, 오디오, 또는 이들의 일부 조합을 포함한다. 헤드셋(800)은 프레임을 포함하고, 다른 구성요소들 중에서, 하나 이상의 디스플레이 요소들(820)을 포함하는 디스플레이 어셈블리, 깊이 카메라 어셈블리(DCA), 오디오 시스템, 및 위치 센서(890)를 포함할 수 있다. 도 8a가 헤드셋(800)의 예시적인 위치들에 있는 헤드셋(800)의 구성요소들을 도시하지만, 구성요소들은 헤드셋(800), 헤드셋(800)과 쌍을 이룬 주변 디바이스, 또는 이들의 일부 조합의 어딘가에 위치될 수 있다. 유사하게, 헤드셋(800)에는 도 8a에 도시된 것보다 많거나 적은 구성요소들이 존재할 수 있다.
프레임(810)은 헤드셋(800)의 다른 구성요소들을 유지한다. 프레임(810)은 사용자의 머리에 부착하기 위한 하나 이상의 디스플레이 요소들(820) 및 단부 피스들(예컨대, 관자놀이들)을 유지하는 전면 부분을 포함한다. 프레임(810)의 전면 부분은 사용자의 코의 상단을 연결한다. 단부 피스들의 길이는 상이한 사용자들에 맞게 조정가능할 수 있다(예컨대, 조정가능한 관자놀이 길이). 단부 피스들은 또한, 사용자의 귀 뒤에서 말리는 부분(예컨대, 관자놀이 팁, 이어 피스)을 포함할 수 있다.
하나 이상의 디스플레이 요소들(820)은 헤드셋(800)을 착용한 사용자에게 광을 제공한다. 도시된 바와 같이, 헤드셋은 사용자의 각각의 눈에 대한 디스플레이 요소(820)를 포함한다. 일부 실시예들에서, 디스플레이 요소(820)는 헤드셋(800)의 아이박스(eyebox)에 제공되는 이미지 광을 생성한다. 아이박스는 헤드셋(800)을 착용하는 동안 사용자의 눈이 차지하는 공간의 위치이다. 예를 들면, 디스플레이 요소(820)는 도파관 디스플레이일 수 있다. 도파관 디스플레이는 광원(예컨대, 2차원 소스, 하나 이상의 라인 소스들, 하나 이상의 지점 소스들, 등) 및 하나 이상의 도파관들을 포함한다. 광원으로부터의 광은 헤드셋(800)의 아이박스에 동공 복제가 존재하게 하는 방식으로 광을 출력하는 하나 이상의 도파관들에 인커플링(in-coupling)된다. 하나 이상의 도파관들로부터의 광의 인커플링 및/또는 아웃커플링(outcoupling)은 하나 이상의 회절 격자들을 사용하여 행해질 수 있다. 일부 실시예들에서, 도파관 디스플레이는 광원으로부터의 광이 하나 이상의 도파관들에 인커플링될 때 이를 스캔하는 스캐닝 요소(예컨대, 도파관, 거울, 등)를 포함한다. 일부 실시예들에서, 디스플레이 요소들(820) 중 하나 또는 둘 모두가 불투명하고 헤드셋(800) 주변의 로컬 영역으로부터 광을 투과하지 않는다는 점에 유의한다. 로컬 영역은 헤드셋(800)을 둘러싸는 영역이다. 예를 들면, 로컬 영역은 헤드셋(800)을 착용한 사용자가 내부에 있는 룸일 수 있거나, 헤드셋(800)을 착용한 사용자가 외부에 있을 수 있거나 로컬 영역은 외부 영역이다. 이 맥락에서, 헤드셋(800)은 VR 콘텐트를 생성한다. 대안적으로, 일부 실시예들에서, 디스플레이 요소들(820) 중 하나 또는 둘 모두는 로컬 영역으로부터의 광이 하나 이상의 디스플레이 요소들로부터의 광과 조합하여 AR 및/또는 MR 콘텐트를 생성할 수 있도록, 적어도 부분적으로 투명하다.
일부 실시예들에서, 디스플레이 요소(820)는 이미지 광을 생성하지 않고, 대신에 로컬 영역으로부터 아이박스로 광을 투과시키는 렌즈이다. 예를 들면, 디스플레이 요소들(820) 중 하나 또는 둘 모두는 사용자의 시력의 결함들을 정정하는데 도움이 되는 정정 없는 렌즈(비 처방) 또는 처방 렌즈(예컨대, 단초점, 이중 초점 및 삼중 초점, 또는 누진)일 수 있다. 일부 실시예들에서, 디스플레이 요소(820)는 사용자의 눈들을 태양으로부터 보호하기 위해 편광 및/또는 착색될 수 있다.
일부 실시예들에서, 디스플레이 요소(820)가 부가적인 광학 블록(도시되지 않음)을 포함할 수 있음에 유의한다. 광학 블록은 디스플레이 요소(820)로부터 아이박스로 광을 지향시키는 하나 이상의 광학 요소들(예컨대, 렌즈, 프레넬 렌즈, 등)을 포함할 수 있다. 광학 블록은 예컨대, 이미지 콘텐트의 일부 또는 전부의 수차들을 정정하고, 이미지의 일부 또는 전부, 또는 이들의 일부 조합을 확대할 수 있다.
DCA는 헤드셋(800)을 둘러싸는 로컬 영역의 일부에 대한 깊이 정보를 결정한다. DCA는 하나 이상의 이미징 디바이스들(830) 및 DCA 제어기(도 8a에 도시되지 않음)를 포함하고, 또한 조명기(840)를 포함할 수 있다. 일부 실시예들에서, 조명기(840)는 광으로 로컬 영역의 일부를 조명한다. 광은 예컨대, 적외선(IR)의 구조화된 광(예컨대, 점 패턴, 바(bar)들, 등), 비행 시간(time-of-flight)을 위한 IR 플래시, 등일 수 있다. 일부 실시예들에서, 하나 이상의 이미징 디바이스들(830)은 조명기(840)로부터의 광을 포함하는 로컬 영역의 부분의 이미지들을 캡쳐한다. 도시된 바와 같이, 도 8a는 단일 조명기(840) 및 2개의 이미징 디바이스들(830)을 도시한다. 대안적인 실시예들에서, 어떠한 조명기(840) 및 적어도 2개의 이미징 디바이스들(830)도 존재하지 않는다.
DCA 제어기는 캡쳐된 이미지들 및 하나 이상의 깊이 결정 기술들을 사용하여 로컬 영역의 일부에 대한 깊이 정보를 계산한다. 깊이 결정 기술은 예컨대, 직접 비행 시간(ToF) 깊이 감지, 간접 ToF 깊이 감지, 구조화 광, 수동 스테레오 분석, 능동 스테레오 분석(조명기(840)로부터의 광에 의해 장면에 부가된 텍스처를 사용함), 장면의 깊이를 결정하기 위한 일부 다른 기술, 또는 그들의 일부 조합일 수 있다.
오디오 시스템은 오디오 콘텐트를 제공한다. 오디오 시스템은 트랜스듀서 어레이, 센서 어레이, 및 오디오 제어기(850)를 포함한다. 그러나, 다른 실시예들에서, 오디오 시스템은 상이하고/거나 부가적인 구성요소들을 포함할 수 있다. 유사하게, 일부 경우들에서, 오디오 시스템의 구성요소들을 참조하여 설명된 기능은 본 명세서에서 설명된 것과 상이한 방식으로 구성요소들 사이에 분산될 수 있다. 예를 들면, 제어기의 기능들 중 일부 또는 전부는 원격 서버에 의해 수행될 수 있다.
트랜스듀서 어레이는 사용자에게 사운드를 제공한다. 트랜스듀서 어레이는 복수의 트랜스듀서들을 포함한다. 트랜스듀서는 스피커(860) 또는 조직 트랜스듀서(870)(예컨대, 골 전도 트랜스듀서 또는 연골 전도 트랜스듀서)일 수 있다. 스피커들(860)이 프레임(810) 외부에 도시될지라도, 스피커들(860)은 프레임(810)으로 둘러싸여질 수 있다. 일부 실시예들에서, 각각의 귀에 대한 개별적인 스피커들 대신에, 헤드셋(800)은 제공된 오디오 콘텐트의 방향성을 개선하기 위해 프레임(810)에 통합된 다수의 스피커들을 포함하는 스피커 어레이를 포함한다. 조직 트랜스듀서(870)는 사용자의 머리에 결합하고 사용자의 조직(예컨대, 골 또는 연골)을 직접 진동시켜 사운드를 생성한다. 트랜스듀서들의 수 및/또는 위치들은 도 8a에 도시된 것과 상이할 수 있다.
센서 어레이는 헤드셋(800)의 로컬 영역 내의 사운드들을 검출한다. 센서 어레이는 복수의 음향 센서들(880)을 포함한다. 음향 센서(880)는 로컬 영역(예컨대, 룸)의 하나 이상의 음원들로부터 방출된 사운드들을 캡쳐한다. 각각의 음향 센서는 사운드를 검출하고 검출된 사운드를 전자 포맷(아날로그 또는 디지털)으로 변환하도록 구성된다. 음향 센서들(880)은 사운드들을 검출하기 위해 적합한 음향파 센서들, 마이크로폰들, 음향 트랜스듀서들, 또는 유사한 센서들일 수 있다.
일부 실시예들에서, 하나 이상의 음향 센서들(880)은 각각의 귀의 외이도에 배치될 수 있다(예컨대, 바이노럴 마이크로폰들로서의 역할을 함). 일부 실시예들에서, 음향 센서들(880)은 헤드셋(800)의 외부 표면에 배치되거나, 헤드셋(800)의 내부 표면에 배치되거나, 헤드셋(800)으로부터 분리될 수 있거나(예컨대, 일부 다른 디바이스의 일부), 또는 이들의 일부 조합일 수 있다. 음향 센서들(880)의 수 및/또는 위치들은 도 8a에 도시된 것과 상이할 수 있다. 예를 들면, 음향 검출 위치들의 수는 수집된 오디오 정보의 양 및 정보의 감도 및/또는 정확도를 증가시키기 위해 증가될 수 있다. 음향 감지 위치들은 마이크로폰이 헤드셋(800)을 착용한 사용자 주변의 광범위한 방향들에서 사운드들을 검출할 수 있도록 지향될 수 있다.
오디오 제어기(850)는 센서 어레이에 의해 검출된 사운드들을 설명하는 센서 어레이로부터의 정보를 프로세싱한다. 오디오 제어기(850)는 프로세서 및 컴퓨터 판독가능한 저장 매체를 포함할 수 있다. 오디오 제어기(850)는 도달 방향(DOA) 추정치들을 생성하거나, 음향 전달 함수들(예컨대, 어레이 전달 함수들 및/또는 머리 관련 전달 함수들)을 생성하거나, 음원들의 위치를 추적하거나, 음원들의 방향으로 빔들을 형성하거나, 음원들을 분류하거나, 스피커들(860)을 위한 사운드 필터들을 생성하거나, 이들의 일부 조합을 행하도록 구성될 수 있다.
위치 센서(890)는 헤드셋(800)의 동작에 응답하여 하나 이상의 측정 신호들을 생성한다. 위치 센서(890)는 헤드셋(800)의 프레임(810)의 일부에 위치될 수 있다. 위치 센서(890)는 관성 측정 유닛(IMU)을 포함할 수 있다. 위치 센서(890)의 예들은: 하나 이상의 가속도계들, 하나 이상의 자이로스코프들, 하나 이상의 자력계들, 동작을 검출하는 다른 적합한 유형의 센서, IMU의 오류 정정을 위해 사용된 일 유형의 센서, 또는 이들의 일부 조합을 포함할 수 있다. 위치 센서(890)는 IMU 외부에, IMU 내부에, 또는 이들의 일부 조합에 위치될 수 있다.
일부 실시예들에서, 헤드셋(800)은 헤드셋(800)의 위치에 대한 동시 로컬화 및 매핑(simultaneous localization and mapping; SLAM) 및 로컬 영역의 모델의 업데이팅을 제공할 수 있다. 예를 들면, 헤드셋(800)은 컬러 이미지 데이터를 생성하는 수동 카메라 어셈블리(PCA)를 포함할 수 있다. PCA는 로컬 영역의 일부 또는 전부의 이미지들을 캡쳐하는 하나 이상의 RGB 카메라들을 포함할 수 있다. 일부 실시예들에서, DCA의 이미징 디바이스들(830)의 일부 또는 전부는 또한, PCA로서 기능할 수 있다. PCA에 의해 캡쳐된 이미지들 및 DCA에 의해 결정된 깊이 정보는 로컬 영역의 파라미터들을 결정하거나, 로컬 영역의 모델을 생성하거나, 로컬 영역의 모델을 업데이트하거나, 이들의 일부 조합을 위해 사용될 수 있다. 또한, 위치 센서(890)는 룸 내에서 헤드셋(800)의 위치(예컨대, 장소 및 포즈)를 추적한다. 헤드셋(800)의 구성요소들에 관한 부가적인 상세들은 도 9 내지 도 11과 관련하여 하기에 논의된다.
도 8b는 하나 이상의 실시예들에 따른, HMD로서 구현된 헤드셋(805)의 사시도이다. AR 시스템 및/또는 MR 시스템을 설명하는 실시예들에서, HMD의 전면 측의 부분들은 가시 대역(~380nm 내지 750nm)에서 적어도 부분적으로 투명하고, HMD의 전면 측과 사용자의 눈 사이에 있는 HMD 부분들은 적어도 부분적으로 투명하다(예컨대, 부분적으로 투명한 전자 디스플레이). HMD는 전면 강체(815) 및 밴드(875)를 포함한다. 헤드셋(805)은 도 8a을 참조하여 상기 설명되지만, HMD 폼 팩터(form factor)와 통합되도록 수정된 많은 동일한 구성요소들을 포함한다. 예를 들면, HMD는 디스플레이 어셈블리, DCA, 오디오 시스템, 및 위치 센서(890)를 포함한다. 도 8b는 조명기(840), 복수의 스피커들(860), 복수의 이미징 디바이스들(830), 복수의 음향 센서들(880), 및 위치 센서(890)를 도시한다.
헤드셋 오디오 시스템
도 9는 하나 이상의 실시예들에 따른, 오디오 시스템(900)의 블록도이다. 도 8a 또는 도 8b의 오디오 시스템은 오디오 시스템(900)의 일 실시예일 수 있다. 오디오 시스템(900)은 사용자를 위한 하나 이상의 음향 전달 함수들을 생성한다. 오디오 시스템(900)은 그 다음, 사용자를 위한 오디오 콘텐트를 생성하기 위해 하나 이상의 음향 전달 함수들을 사용할 수 있다. 도 9의 실시예에서, 오디오 시스템(900)은 트랜스듀서 어레이(910), 센서 어레이(920), 및 오디오 제어기(930)를 포함한다. 오디오 시스템(900)의 일부 실시예들은 본 명세서에서 설명된 것들과 상이한 구성요소들을 갖는다. 유사하게, 일부 경우들에서, 본 명세서에서 설명된 것과 상이한 방식으로 구성요소들 사이에 기능들이 분산될 수 있다.
트랜스듀서 어레이(910)는 오디오 콘텐트를 제공하도록 구성된다. 트랜스듀서 어레이(910)는 복수의 트랜스듀서들을 포함한다. 트랜스듀서는 오디오 콘텐트를 제공하는 디바이스이다. 트랜스듀서는 예컨대, 스피커(예컨대, 스피커(860)), 조직 트랜스듀서(예컨대, 조직 트랜스듀서(870)), 오디오 콘텐트를 제공하는 일부 다른 디바이스, 또는 이들의 일부 조합일 수 있다. 조직 트랜스듀서는 골 전도 트랜스듀서 또는 연골 전도 트랜스듀서로서 기능하도록 구성될 수 있다. 트랜스듀서 어레이(910)는 공기 전도를 통해(예컨대, 하나 이상의 스피커들을 통해), 골 전도를 통해(하나 이상의 골 전도 트랜스듀서를 통해), 연골 전도 오디오 시스템을 통해(하나 이상의 연골 전도 트랜스듀서들을 통해), 또는 이들의 일부 조합을 통해 오디오 콘텐트를 제공할 수 있다. 일부 실시예들에서, 트랜스듀서 어레이(910)는 주파수 범위의 상이한 부분들을 커버하기 위해 하나 이상의 트랜스듀서들을 포함할 수 있다. 예를 들면, 압전 트랜스듀서는 주파수 범위의 제1 부분을 커버하기 위해 사용될 수 있고 이동 코일 트랜스듀서는 주파수 범위의 제2 부분을 커버하기 위해 사용될 수 있다.
골 전도 트랜스듀서들은 사용자의 머리에서 골/조직을 진동시킴으로써 음압파들을 생성한다. 골 전도 트랜스듀서는 헤드셋의 일부에 결합될 수 있고, 사용자의 두개골의 일부에 결합된 귓바퀴 뒤에 있도록 구성될 수 있다. 골 전도 트랜스듀서는 오디오 제어기(930)로부터 진동 지시들을 수신하고, 수신된 지시들에 기초하여 사용자의 두개골의 일부를 진동시킨다. 골 전도 트랜스듀서로부터의 진동들은 고막을 우회하여 사용자의 달팽이관을 향해 전파되는 조직 매개 음압파를 생성한다.
연골 전도 트랜스듀서들은 사용자 귀들의 귀 연골의 하나 이상의 부분들을 진동시킴으로써 음압파들을 생성한다. 연골 전도 트랜스듀서는 헤드셋의 일부에 결합될 수 있고, 귀의 귀 연골의 하나 이상의 부분들에 결합되도록 구성될 수 있다. 예를 들면, 연골 전도 트랜스듀서는 사용자 귀의 귓바퀴 뒤쪽에 결합할 수 있다. 연골 전도 트랜스듀서는 외이 주위의 귀 연골을 따라 어딘가에 위치될 수 있다(예컨대, 귓바퀴, 이주, 귀 연골의 일부 다른 부분, 또는 이들의 일부 조합). 귀 연골의 하나 이상의 부분들을 진동시키는 것은 외이도 외부의 공기 중 음압파들; 외이도의 일부 부분들로 하여금 진동하게 하여 그에 의해, 외이도 내에서 공기 중 음압파를 생성하는 조직 매개 음압파; 또는 이들의 일부 조합을 생성할 수 있다. 생성된 공기 중 음압파들은 고막을 향해 외이도 아래로 전파된다.
트랜스듀서 어레이(910)는 오디오 제어기(930)로부터의 지시들에 따라 오디오 콘텐트를 생성한다. 일부 실시예들에서, 오디오 콘텐트는 공간화된다. 공간화된 오디오 콘텐트는 특정한 방향 및/또는 타겟 영역(예컨대, 로컬 영역의 객체 및/또는 가상 객체)으로부터 발생하는 것으로 보이는 오디오 콘텐트이다. 예를 들면, 공간화된 오디오 콘텐트는 오디오 시스템(900)의 사용자로부터 룸을 가로질러 가상 가수로부터 사운드가 발생하는 것처럼 보이게 할 수 있다. 트랜스듀서 어레이(910)는 착용가능한 디바이스(예컨대, 헤드셋(800) 또는 헤드셋(805))에 결합될 수 있다. 대안적인 실시예들에서, 트랜스듀서 어레이(910)는 착용가능한 디바이스로부터 분리되는(예컨대, 외부 콘솔에 결합된) 복수의 스피커들일 수 있다.
센서 어레이(920)는 센서 어레이(920)를 둘러싸는 로컬 영역 내의 사운드들을 검출한다. 센서 어레이(920)는 음파의 기압 변화들을 각각 검출하고 검출된 사운드들을 전자 포맷(아날로그 또는 디지털)으로 변환하는 복수의 음향 센서들을 포함할 수 있다. 복수의 음향 센서들은 헤드셋(예컨대, 헤드셋(800) 및/또는 헤드셋(805))에, 사용자에(예컨대, 사용자의 외이도에), 넥밴드(neckband)에, 또는 이들의 일부 조합에 배치될 수 있다. 음향 센서는 예컨대, 마이크로폰, 진동 센서, 가속도계, 또는 이들의 임의의 조합일 수 있다. 일부 실시예들에서, 센서 어레이(920)는 복수의 음향 센서들 중 적어도 일부를 사용하여 트랜스듀서 어레이(910)에 의해 생성된 오디오 콘텐트를 모니터링하도록 구성된다. 센서들의 수를 증가시키는 것은 트랜스듀서 어레이(910)에 의해 생성된 음장 및/또는 로컬 영역으로부터의 사운드를 설명하는 정보(예컨대, 방향성)의 정확도를 개선할 수 있다.
오디오 제어기(930)는 오디오 시스템(900)의 동작을 제어한다. 도 9의 실시예에서, 오디오 제어기(930)는 데이터 저장장치(935), DOA 추정 모듈(940), 전달 함수 모듈(950), 추적 모듈(960), 빔포밍 모듈(970), 및 사운드 필터 모듈(980)을 포함한다. 오디오 제어기(930)는 일부 실시예들에서 헤드셋 내부에 위치될 수 있다. 오디오 제어기(930)의 일부 실시예들은 본 명세서에서 설명된 것들과 상이한 구성요소들을 갖는다. 유사하게, 기능들은 본 명세서에서 설명된 것과 상이한 방식들로 구성요소들 사이에 분산될 수 있다. 예를 들면, 제어기의 일부 기능들은 헤드셋 외부에서 수행될 수 있다.
데이터 저장장치(935)는 오디오 시스템(900)에서 사용하기 위한 데이터를 저장한다. 데이터 저장장치(935)의 데이터는 오디오 시스템(900)의 로컬 영역에 녹음된 사운드들, 오디오 콘텐트, 머리 관련 전달 함수들(HRTFs), 하나 이상의 센서들에 대한 전달 함수들, 음향 센서들 중 하나 이상에 대한 어레이 전달 함수들(ATFs), 음원 위치들, 로컬 영역의 가상 모델, 도달 방향 추정치들, 사운드 필터들, 및 오디오 시스템(900)에 위한 사용을 위해 관련된 다른 데이터, 또는 이들의 임의의 조합을 포함할 수 있다.
DOA 추정 모듈(940)은 센서 어레이(920)로부터의 정보에 부분적으로 기초하여 로컬 영역에서 음원들을 로컬화도록 구성된다. 로컬화는 오디오 시스템(900)의 사용자에 대해 음원들이 위치되는 곳을 결정하는 프로세스이다. DOA 추정 모듈(940)은 DOA 분석을 수행하여 로컬 영역 내의 하나 이상의 음원들을 로컬화한다. DOA 분석은 사운드들이 발생한 방향을 결정하기 위해 센서 어레이(920)에서 각각의 사운드의 세기, 스펙트럼, 및/또는 도달 시간을 분석하는 것을 포함할 수 있다. 일부 경우들에서, DOA 분석은 오디오 시스템(900)이 위치되는 주변 음향 환경을 분석하기 위한 임의의 적합한 알고리즘을 포함할 수 있다.
예를 들면, DOA 분석은 센서 어레이(920)로부터 입력 신호들을 수신하고 도달 방향을 추정하기 위해 입력 신호들에 디지털 신호 프로세싱 알고리즘들을 적용하도록 설계될 수 있다. 이들 알고리즘들은 예를 들면, 입력 신호가 샘플링되는 지연 및 합 알고리즘들을 포함할 수 있으며, 샘플링된 신호의 결과적인 가중되고 지연된 버전들은 DOA를 결정하기 위해 함께 평균화된다. 적응형 필터를 생성하기 위해 최소 평균 제곱(LMS) 알고리즘이 또한 구현될 수 있다. 이 적응형 필터는 그 다음, 예를 들면 신호 세기의 차들, 또는 도달 시간의 차들을 식별하기 위해 사용될 수 있다. 이들 차들은 그 다음, DOA를 추정하기 위해 사용될 수 있다. 또 다른 실시예에서, DOA는 입력 신호들을 주파수 도메인으로 변환하고 프로세싱할 시간 주파수(TF) 도메인 내의 특정 빈(bin)들을 선택함으로써 결정될 수 있다. 각각의 선택된 TF 빈은 그 빈이 직접 경로 오디오 신호를 갖는 오디오 스펙트럼의 일부를 포함하는지의 여부를 결정하기 위해 프로세싱될 수 있다. 직접 경로 신호의 일부를 가지는 이들 빈들은 그 다음, 센서 어레이(920)가 직접 경로 오디오 신호를 수신한 각도를 식별하기 위해 분석될 수 있다. 결정된 각도는 그 다음, 수신된 입력 신호에 대한 DOA를 식별하기 위해 사용될 수 있다. 상기 나열되지 않은 다른 알고리즘들은 또한, DOA를 결정하기 위해 단독으로 또는 상기 알고리즘들과 조합하여 사용될 수 있다.
일부 실시예들에서, DOA 추정 모듈(940)은 또한, 로컬 영역 내의 오디오 시스템(900)의 절대 위치에 대해 DOA를 결정할 수 있다. 센서 어레이(920)의 위치는 외부 시스템(예컨대, 헤드셋의 일부 다른 구성요소, 인공 현실 콘솔, 매핑 서버, 위치 센서(예컨대, 위치 센서(890)), 등)으로부터 수신될 수 있다. 외부 시스템은 로컬 영역과 오디오 시스템(900)의 위치가 매핑되는 로컬 영역의 가상 모델을 생성할 수 있다. 수신된 위치 정보는 오디오 시스템(900)(예컨대, 센서 어레이(920)의)의 일부 또는 전부의 위치 및/또는 방향을 포함할 수 있다. DOA 추정 모듈(940)은 수신된 위치 정보에 기초하여 추정된 DOA를 업데이트할 수 있다.
전달 함수 모듈(950)은 하나 이상의 음향 전달 함수들을 생성하도록 구성된다. 일반적으로, 전달 함수는 각각의 가능한 입력 값에 대응하는 출력 값을 제공하는 수학 함수이다. 검출된 사운드들의 파라미터들에 기초하여, 전달 함수 모듈(950)은 오디오 시스템과 연관된 하나 이상의 음향 전달 함수들을 생성한다. 음향 전달 함수들은 어레이 전달 함수들(ATFs), 머리 관련 전달 함수들(HRTFs), 다른 유형들의 음향 전달 함수들, 또는 이들의 일부 조합일 수 있다. ATF는 마이크로폰이 공간의 한 지점으로부터 사운드를 수신하는 방법을 특징짓는다.
ATF는 사운드 사운드들과 센서 어레이(920)의 음향 센서들에 의해 수신된 대응하는 사운드 사이의 관계를 특징짓는 다수의 전달 함수들을 포함한다. 그에 따라, 음원에 대해, 센서 어레이(920)의 음향 센서들의 각각에 대한 대응하는 전달 함수가 존재한다. 그리고, 집합적으로 전달 함수들의 세트는 ATF로서 언급된다. 그에 따라, 각각의 음원에 대해, 대응하는 ATF가 존재한다. 음원이 예컨대, 로컬 영역, 사용자, 또는 트랜스듀서 어레이(910)의 하나 이상의 트랜스듀서들에서 사운드를 생성하는 사람 또는 무언가일 수 있다는 점에 유의한다. 센서 어레이(920)에 대한 특정한 음원 위치에 대한 ATF는 사운드가 사람의 귀들로 이동함에 따라 사운드에 영향을 미치는 사람의 해부학적 구조(예컨대, 귀 형상, 어깨들, 등)로 인해 사용자마다 상이할 수 있다. 그에 따라, 센서 어레이(920)의 ATF들은 오디오 시스템(900)의 각각의 사용자에 대해 개인화된다.
일부 실시예들에서, 전달 함수 모듈(950)은 오디오 시스템(900)의 사용자에 대한 하나 이상의 HRTF들을 결정한다. HRTF는 귀가 공간의 한 지점으로부터 사운드를 수신하는 방법을 특징짓는다. 사람과 관련된 특정한 소스 위치에 대한 HRTF는 사운드가 사람의 귀들로 이동함에 따라 사운드에 영향을 미치는 사람의 해부학적 구조(예컨대, 귀 형상, 어깨들, 등)로 인해 사람의 각각의 귀에 대해 고유하다(및 사람에 대해 고유함). 일부 실시예들에서, 전달 함수 모듈(950)은 교정 프로세스를 사용하여 사용자에 대한 HRTF들을 결정할 수 있다. 일부 실시예들에서, 전달 함수 모듈(950)은 사용자에 관한 정보를 원격 시스템에 제공할 수 있다. 원격 시스템은 예컨대, 기계 학습을 사용하여 사용자에게 맞춤화되는 HRTF들의 세트를 결정하고, 오디오 시스템(900)에 HRTF들의 맞춤화된 세트를 제공한다.
추적 모듈(960)은 하나 이상의 음원들의 위치들을 추적하도록 구성된다. 추적 모듈(960)은 현재 DOA 추정치들을 비교하고 그들을 이전 DOA 추정치들의 저장된 이력과 비교할 수 있다. 일부 실시예들에서, 오디오 시스템(900)은 초 당 1회 또는 밀리초 당 1회와 같은 주기적 스케줄에 따라 DOA 추정치들을 재산출할 수 있다. 추적 모듈은 현재 DOA 추정치들을 이전 DOA 추정치들과 비교할 수 있고, 음원에 대한 DOA 추정치의 변경에 응답하여, 추적 모듈(960)은 음원이 이동했다고 결정할 수 있다. 일부 실시예들에서, 추적 모듈(960)은 헤드셋 또는 일부 다른 외부 소스로부터 수신된 시각적 정보에 기초하여 위치의 변경을 검출할 수 있다. 추적 모듈(960)은 시간에 따른 하나 이상의 음원들의 이동을 추적할 수 있다. 추적 모듈(960)은 각각의 시점에서의 음원들의 수 및 각각의 음원의 위치에 대한 값들을 저장할 수 있다. 음원들의 수 또는 위치들의 값의 변경에 응답하여, 추적 모듈(960)은 음원이 이동했다고 결정할 수 있다. 추적 모듈(960)은 로컬화 분산의 추정치를 산출할 수 있다. 로컬화 분산은 이동의 변화의 각각의 결정에 대한 신뢰 레벨로서 사용될 수 있다.
빔포밍 모듈(beamforming module)(970)은 다른 영역들로부터의 사운드들을 덜 강조하면서(de-emphasizing) 특정 영역 내의 음원들로부터의 사운드들을 선택적으로 강조하기 위해 하나 이상의 ATF들을 프로세싱하도록 구성된다. 센서 어레이(920)에 의해 검출된 사운드들을 분석함에 있어서, 빔포밍 모듈(970)은 로컬 영역의 특정한 영역의 외부로부터 발생한 사운드를 덜 강조하면서 그 특정한 영역으로부터 연관된 사운드를 강조하기 위해 상이한 음향 센서들로부터의 정보를 조합할 수 있다. 빔포밍 모듈(970)은 예컨대, DOA 추정 모듈(940) 및 추적 모듈(960)로부터의 상이한 DOA 추정치들에 기초하여 로컬 영역의 다른 음원들로부터의 특정한 음원으로부터 사운드와 연관된 오디오 신호를 분리할 수 있다. 빔포밍 모듈(970)은 따라서, 로컬 영역의 별개의 음원들을 선택적으로 분석할 수 있다. 일부 실시예들에서, 빔포밍 모듈(970)은 음원으로부터의 신호를 향상시킬 수 있다. 예를 들면, 빔포밍 모듈(970)은 특정 주파수들의 위, 아래, 또는 그들 사이의 신호들을 제거하는 사운드 필터들을 적용할 수 있다. 신호 향상은 센서 어레이(920)에 의해 검출된 다른 사운드들에 비해 주어진 식별된 음원과 연관된 사운드들을 향상시키는 역할을 한다.
사운드 필터 모듈(980)은 트랜스듀서 어레이(910)에 대한 사운드 필터들을 결정한다. 일부 실시예들에서, 사운드 필터들은 오디오 콘텐트가 타겟 영역으로부터 발생하는 것처럼 보이도록, 오디오 콘텐트로 하여금 공간화되게 한다. 사운드 필터 모듈(980)은 사운드 필터들을 생성하기 위해 HRTF들 및/또는 음향 파라미터들을 사용할 수 있다. 음향 파라미터들은 로컬 영역의 음향 속성들을 설명한다. 음향 파라미터들은 예컨대, 잔향 시간, 잔향 레벨, 룸 임펄스 응답, 등을 포함할 수 있다. 일부 실시예들에서, 사운드 필터 모듈(980)은 음향 파라미터들 중 하나 이상을 산출한다. 일부 실시예들에서, 사운드 필터 모듈(980)은 매핑 서버로부터 음향 파라미터들을 요청한다(예컨대, 도 7에 설명된 바와 같음).
사운드 필터 모듈(980)은 트랜스듀서 어레이(910)에 사운드 필터들을 제공한다. 일부 실시예들에서, 사운드 필터들은 주파수의 함수로서 사운드들의 양의 또는 음의 증폭을 야기할 수 있다.
시스템 환경
도 10은 하나 이상의 실시예들에 따른, 헤드셋(1010), 매핑 서버(250), 및 오디오 프로세싱 시스템(500)을 포함하는 시스템 환경(1000)의 블록도이다. 시스템(1000)은 사용자(1015)에 의해 착용될 수 있는 헤드셋(1010)을 포함한다. 헤드셋(1010)은 네트워크(1020)를 통해 매핑 서버(250) 및 오디오 프로세싱 시스템(500)에 연결된다. 일부 실시예들에서, 오디오 프로세싱 시스템(500)은 매핑 서버(250)의 부분이거나 그 반대도 마찬가지이다.
네트워크(1020)는 헤드셋(1010), 매핑 서버(250), 및 오디오 프로세싱 시스템(500)을 연결한다. 네트워크(1020)는 무선 및/또는 유선 통신 시스템들 둘 모두를 사용하는 근거리 및/또는 광역 네트워크들의 임의의 조합을 포함할 수 있다. 예를 들면, 네트워크(1020)는 모바일 전화 네트워크들 뿐만 아니라, 인터넷을 포함할 수 있다. 하나의 실시예에서, 네트워크(1020)는 표준 통신 기술들 및/또는 프로토콜들을 사용한다. 따라서, 네트워크(1020)는 이더넷, 802.11, 마이크로파 액세스를 위한 전세계 상호운용성(WiMAX), 2G/3G/4G 모바일 통신 프로토콜들, 디지털 가입자 회선(DSL), 비동기식 전송 모드(ATM), 인피니밴드, PCI 익스프레스 고급 스위칭, 등과 같은 기술들을 사용하는 링크들을 포함할 수 있다. 유사하게, 네트워크(1020)에서 사용된 네트워킹 프로토콜들은 다중프로토콜 라벨 스위칭(MPLS), 송신 제어 프로토콜/인터넷 프로토콜(TCP/IP), 사용자 데이터그램 프로토콜(UDP), 하이퍼텍스트 전송 프로토콜(HTTP), 단순 메일 전송 프로토콜(SMTP), 파일 전송 프로토콜(FTP), 등을 포함할 수 있다. 네트워크(1020)를 통해 교환된 데이터는 이진 형태의 이미지 데이터(예컨대, 휴대용 네트워크 그래픽들(PNG)), 하이퍼텍스트 마크업 언어(HTML), 확장가능한 마크업 언어(XML), 등을 포함하는 기술들 및/또는 포맷들을 사용하여 표현될 수 있다. 게다가, 보안 소켓 계층(SSL), 전송 계층 보안(TLS), 가상 사설 네트워크들(VPNs), 인터넷 프로토콜 보안(IPsec), 등과 같은 종래의 암호 기술들을 사용하여 링크들의 전부 또는 일부가 암호화될 수 있다. 네트워크(1020)는 또한, 동일하거나 상이한 룸들에 위치된 다수의 헤드셋들을 동일한 매핑 서버(250) 및 오디오 프로세싱 시스템(500)에 연결할 수 있다.
헤드셋(1010)은 사용자에게 매체들을 제공한다. 하나의 실시예에서, 헤드셋(1010)은 도 8a에 도시된 헤드셋(800)과 같은 NED일 수 있다. 또 다른 실시예에서, 헤드셋(1010)은 도 8b에 도시된 헤드셋(805)과 같은 HMD일 수 있다. 일반적으로, 헤드셋(1010)은 헤드셋의 하나 또는 양쪽 렌즈들을 사용하여 콘텐트(예컨대, 매체 콘텐트)가 제공되도록 사용자의 얼굴에 착용될 수 있다. 그러나, 헤드셋(1010)은 또한, 매체 콘텐트가 상이한 방식으로 사용자에게 제공되도록 사용될 수 있다. 헤드셋(1010)에 의해 제공된 매체 콘텐트의 예들은 하나 이상의 이미지들, 비디오, 오디오, 또는 그들의 일부 조합을 포함한다.
오디오 프로세싱 시스템(500)은 레거시 비디오들로부터 3-D 오디오를 생성한다. 레거시 비디오들은 3-D 공간화된 오디오와 함께 비디오를 뷰잉할 수 있는 헤드셋(1010)을 통해 사용자(1015)에게 제공될 수 있다. 오디오 프로세싱 시스템(500)은 3-D 공간화된 오디오를 네트워크(1020)를 통해 또는 또 다른 개체를 통해 헤드셋(1010)에 직접적으로 제공할 수 있다.
도 11은 하나 이상의 실시예들에 따른, 헤드셋(1010)의 시스템(1100)이다. 시스템(1100)은 인공 현실 환경 예컨대, 가상 현실, 증강 현실, 혼합 현실 환경, 또는 그들의 일부 조합에서 동작할 수 있다. 도 11에 의해 도시된 시스템(1100)은 헤드셋(1010), 매핑 서버(250) 및 콘솔(1155)에 결합되는 입력/출력(I/O) 인터페이스(1150)를 포함한다. 도 11이 하나의 헤드셋(1010) 및 하나의 I/O 인터페이스(1150)를 포함하는 일 예시적인 시스템(1100)을 도시하지만, 다른 실시예들에서 임의의 수의 이들 구성요소들이 시스템(1100)에 포함될 수 있다. 예를 들면, 각각이 연관된 I/O 인터페이스(1150)를 갖는 다수의 헤드셋들(1010)이 존재할 수 있고, 각각의 헤드셋(1010) 및 I/O 인터페이스(1150)는 콘솔(1155)과 통신한다. 대안적인 구성들에서, 상이하고/하거나 부가적인 구성요소들이 시스템(1100)에 포함될 수 있다. 부가적으로, 도 11에 도시된 구성요소들 중 하나 이상과 결부하여 설명된 기능은 일부 실시예들에서 도 11과 결부하여 설명된 것과 상이한 방식으로 구성요소들 사이에 분산될 수 있다. 예를 들면, 콘솔(1155)의 기능 중 일부 또는 전부는 헤드셋(1010)에 의해 제공될 수 있다.
헤드셋(1010)은 렌즈(1112), 광학 블록(1105), 하나 이상의 위치 센서들(1115), DCA(1120), 관성 측정 유닛(IMU)(1110), PCA(1140), 및 오디오 시스템(1145)을 포함한다. 헤드셋(1010)의 일부 실시예들은 도 11과 결부하여 설명된 것들과 상이한 구성요소들을 갖는다. 부가적으로, 도 11과 결부하여 설명된 다양한 구성요소들에 의해 제공된 기능은 다른 실시예들에서 헤드셋(1010)의 구성요소들 사이에 상이하게 분산되거나, 헤드셋(1010)으로부터 멀리 떨어져 있는 별개의 어셈블리들에서 캡쳐될 수 있다.
렌즈(1112)는 콘솔(1155)로부터 수신된 데이터에 따라 2D 또는 3D 이미지들을 사용자에게 디스플레이하는 전자 디스플레이를 포함할 수 있다. 다양한 실시예들에서, 렌즈(1112)는 단일 전자 디스플레이 또는 다수의 전자 디스플레이들(예로서, 사용자의 각각의 눈을 위한 디스플레이)을 포함한다. 전자 디스플레이의 예들은: 액정 디스플레이(LCD), 유기 발광 다이오드(OLED) 디스플레이, 능동 매트릭스 유기 발광 다이오드 디스플레이(AMOLED), 일부 다른 디스플레이, 또는 그들의 일부 조합을 포함한다.
광학 블록(1105)은 전자 디스플레이로부터의 수신된 이미지 광을 확대하고, 이미지 광과 연관된 광학 오류들을 정정하며, 정정된 이미지 광을 헤드셋(1010)의 사용자에게 제공한다. 다양한 실시예들에서, 광학 블록(1105)은 하나 이상의 광학 요소들을 포함한다. 광학 블록(1105)에 포함된 예시적인 광학 요소들은: 개구부, 프레넬 렌즈, 볼록 렌즈, 오목 렌즈, 필터, 반사 표면, 또는 이미지 광에 영향을 주는 임의의 다른 적합한 광학 요소를 포함한다. 게다가, 광학 블록(1105)은 상이한 광학 요소들의 조합들을 포함할 수 있다. 일부 실시예들에서, 광학 블록(1105)에서 광학 요소들 중 하나 이상은 부분적인 반사 또는 반사 방지 코팅들과 같은 하나 이상의 코팅들을 가질 수 있다.
광학 블록(1105)에 의한 이미지 광의 확대 및 집속은 전자 디스플레이가 물리적으로 더 작고, 덜 무게가 나가며, 더 큰 디스플레이들보다 전력을 덜 소비하게 하는 것을 허용한다. 부가적으로, 확대는 전자 디스플레이에 의해 제공된 콘텐트의 시야를 증가시킬 수 있다. 예를 들면, 디스플레이된 콘텐트의 시야는 디스플레이된 콘텐트가 거의 전부(예로서, 대략 90°대각선), 및 일부 경우들에서 사용자의 시야의 전부를 사용하여 제공되도록 하는 것이다. 부가적으로, 일부 실시예들에서, 확대량은 광학 요소들을 부가하거나 제거함으로써 조정될 수 있다.
일부 실시예들에서, 광학 블록(1105)은 하나 이상의 유형들의 광학 오류를 정정하도록 설계될 수 있다. 광학 오류의 예들은 배럴 또는 핀쿠션 왜곡, 종방향 색 수차들, 또는 횡방향 색 수차들을 포함한다. 다른 유형들의 광학 오류들은 구면 수차들, 코마틱 수차들, 또는 렌즈 필드 곡률로 인한 오류들, 비점 수차(astigmatism)들, 또는 임의의 다른 유형의 광학 오류를 더 포함할 수 있다. 일부 실시예들에서, 디스플레이하기 위해 전자 디스플레이에 제공된 콘텐트는 사전 왜곡되고, 광학 블록(1105)은 그것이 콘텐트에 기초하여 생성된 전자 디스플레이로부터 이미지 광을 수신할 때 왜곡을 정정한다.
IMU(1110)는 위치 센서들(1115) 중 하나 이상으로부터 수신된 측정 신호들에 기초하여 헤드셋(1010)의 위치를 나타내는 데이터를 생성하는 전자 디바이스이다. 위치 센서(1040)는 헤드셋(1010)의 동작에 응답하여 하나 이상의 측정 신호들을 생성한다. 위치 센서들(1115)의 예들은: 하나 이상의 가속도계들, 하나 이상의 자이로스코프들, 하나 이상의 자력계들, 동작을 검출하는 또 다른 적합한 유형의 센서, IMU(1110)의 오류 정정을 위해 사용된 일 유형의 센서, 또는 그들의 일부 조합을 포함한다. 위치 센서들(1115)은 IMU(1110) 외부, IMU(1110) 내부, 또는 그들의 일부 조합에 위치될 수 있다.
DCA(1120)는 룸과 같은 로컬 영역의 깊이 이미지 데이터를 생성한다. 깊이 이미지 데이터는 이미징 디바이스로부터의 거리를 정의하는 픽셀 값들을 포함하고 따라서, 깊이 이미지 데이터에서 캡쳐된 위치들의 (예컨대, 3D) 매핑을 제공한다. DCA(1120)는 광 투영기(1125), 하나 이상의 이미징 디바이스들(1130), 및 제어기(1135)를 포함한다. 광 투영기(1125)는 깊이 이미지 데이터를 생성하기 위해 로컬 영역의 객체들로부터 반사되고, 이미징 디바이스(625)에 의해 캡쳐되는 구조화된 광 패턴 또는 다른 광을 투영할 수 있다.
예를 들면, 광 투영기(1125)는 헤드셋(1010)을 둘러싸는 로컬 영역의 일부에 상이한 유형들(예컨대, 라인들, 격자들, 또는 점들)의 복수의 구조화된 광(SL) 요소들을 투영할 수 있다. 다양한 실시예들에서, 광 투영기(1125)는 방출기 및 패턴 플레이트(pattern plate)를 포함한다. 방출기는 광(예컨대, 적외선)으로 패턴 플레이트를 조명하도록 구성된다. 조명된 패턴 플레이트는 복수의 SL 요소들을 포함하는 SL 패턴을 로컬 영역으로 투영한다. 예를 들면, 조명된 패턴 플레이트에 의해 투영된 SL 요소들의 각각은 패턴 플레이트의 특정한 위치와 연관된 점이다.
DCA(1120)에 의해 투영된 각각의 SL 요소는 전자기 스펙트럼의 적외선 부분의 광을 포함한다. 일부 실시예들에서, 조명원은 적외선이 인간에게 보이지 않도록 적외선으로 패턴 플레이트를 조명하도록 구성된 레이저이다. 일부 실시예들에서, 조명원은 펄스화될 수 있다. 일부 실시예들에서, 조명원은 광이 눈에 보이지 않도록 가시적이고 펄스화될 수 있다.
DCA(1120)에 의해 로컬 영역으로 투영된 SL 패턴은 그것이 로컬 영역의 다양한 표면들 및 객체들과 조우함에 따라 변형된다. 하나 이상의 이미징 디바이스들(1130)은 각각 로컬 영역의 하나 이상의 이미지들을 캡쳐하도록 구성된다. 캡쳐된 하나 이상의 이미지들의 각각은 광 투영기(1125)에 의해 투영되고 로컬 영역의 객체들에 의해 반사된 복수의 SL 요소들(예컨대, 점들)을 포함할 수 있다. 하나 이상의 이미징 디바이스들(1130)의 각각은 검출기 어레이, 카메라, 또는 비디오 카메라일 수 있다.
제어기(1135)는 이미징 디바이스(625)에 의해 캡쳐된 광에 기초하여 깊이 이미지 데이터를 생성한다. 제어기(1135)는 또한, 콘솔(1155), 오디오 제어기(1020), 또는 일부 다른 구성요소에 깊이 이미지 데이터를 제공할 수 있다.
PCA(1140)는 컬러(예컨대, RGB) 이미지 데이터를 생성하는 하나 이상의 수동 카메라들을 포함한다. 능동 발광 및 반사를 사용하는 DCA(1120)와 달리, PCA(1140)는 이미지 데이터를 생성하기 위해 로컬 영역의 환경으로부터 광을 캡쳐한다. 이미징 디바이스로부터의 깊이 또는 거리를 정의하는 픽셀 값들보다는, 이미지 데이터의 픽셀 값들은 이미징 데이터에서 캡쳐된 객체들의 가시적 컬러를 정의할 수 있다. 일부 실시예들에서, PCA(1140)는 수동 이미징 디바이스에 의해 캡쳐된 광에 기초하여 컬러 이미지 데이터를 생성하는 제어기를 포함한다. 일부 실시예들에서, DCA(1120) 및 PCA(1140)는 공통 제어기를 공유한다. 예를 들면, 공통 제어기는 가시 스펙트럼(예컨대, 이미지 데이터)에서 및 적외선 스펙트럼(예컨대, 깊이 이미지 데이터)에서 캡쳐된 하나 이상의 이미지들의 각각을 서로 매핑할 수 있다. 하나 이상의 실시예들에서, 공통 제어기는 부가적으로 또는 대안적으로, 로컬 영역의 하나 이상의 이미지들을 오디오 제어기(1020) 또는 콘솔(1155)에 제공하도록 구성된다.
오디오 시스템(900)은 헤드셋(1010)이 위치되는 로컬 영역의 음향 속성을 표현하는 음향 파라미터들의 세트를 사용하여 헤드셋(1010)의 사용자에게 오디오 콘텐트를 제공한다. 오디오 시스템(900)은 로컬 영역 내의 객체(예컨대, 가상 객체 또는 실제 객체)로부터 발생하는 것처럼 보이도록 오디오 콘텐트를 제공한다. 오디오 시스템(900)은 로컬 영역의 적어도 일부를 설명하는 정보를 얻을 수 있다. 오디오 시스템(900)은 매핑 서버(250)에서 음향 파라미터들의 세트의 결정을 위해 정보를 매핑 서버(250)에 전달할 수 있다. 오디오 시스템(900)은 또한, 매핑 서버(250)로부터 음향 파라미터들의 세트를 수신할 수 있다.
일부 실시예들에서, 오디오 시스템(900)은 임계 변경을 초과하는 로컬 영역의 음향 조건의 변경에 응답하여, 로컬 영역의 특정 구성에 대한 재구성된 임펄스 응답을 표현하는 음향 특성들의 조정된 세트로 음향 특성들의 세트를 선택적으로 외삽한다. 오디오 시스템(900)은 재구성된 임펄스 응답에 적어도 부분적으로 기초하여 헤드셋(1010)의 사용자에게 오디오 콘텐트를 제공할 수 있다.
일부 실시예들에서, 오디오 시스템(900)은 로컬 영역의 사운드를 모니터링하고 대응하는 오디오 스트림을 생성한다. 오디오 시스템(900)은 오디오 스트림에 적어도 부분적으로 기초하여, 음향 특성들의 세트를 조정할 수 있다. 오디오 시스템(900)은 또한, 시간에 따른 로컬 영역의 음향 속성의 변경이 임계 변경을 초과한다는 결정에 응답하여, 다양한 물리적 공간들 및 그들 공간들의 음향 속성들을 설명하는 가상 모델을 업데이트하기 위해 오디오 스트림을 매핑 서버(250)에 선택적으로 전달할 수 있다. 헤드셋(1010)의 오디오 시스템(900) 및 매핑 서버(250)는 유선 또는 무선 통신 링크(예컨대, 도 10의 네트워크(620))를 통해 통신할 수 있다.
I/O 인터페이스(1150)는 사용자가 동작 요청들을 전송하고 콘솔(1155)로부터 응답들을 수신하는 것을 허용하는 디바이스이다. 동작 요청은 특정한 동작을 수행하기 위한 요청이다. 예를 들면, 동작 요청은 이미지 또는 비디오 데이터의 캡쳐를 시작 또는 종료하기 위한 지시, 또는 애플리케이션 내에서 특정한 동작을 수행하기 위한 지시일 수 있다. I/O 인터페이스(1150)는 하나 이상의 입력 디바이스들을 포함할 수 있다. 예시적인 입력 디바이스들은: 키보드, 마우스, 게임 제어기, 또는 동작 요청들을 수신하고 동작 요청들을 콘솔(1155)에 전달하기 위한 임의의 다른 적합한 디바이스를 포함한다. I/O 인터페이스(1150)에 의해 수신된 동작 요청은 콘솔(1155)에 전달되고, 상기 콘솔은 동작 요청에 대응하는 동작을 수행한다. 일부 실시예들에서, I/O 인터페이스(1150)는 I/O 인터페이스(1150)의 초기 위치에 대한 I/O 인터페이스(1150)의 추정된 위치를 나타내는 교정 데이터를 캡쳐하는, 상기 또한 설명된 바와 같은 IMU(1110)를 포함한다. 일부 실시예들에서, I/O 인터페이스(1150)는 콘솔(1155)로부터 수신된 지시들에 따라 햅틱 피드백을 사용자에게 제공할 수 있다. 예를 들면, 햅틱 피드백은 동작 요청이 수신될 때 제공되거나, 콘솔(1155)은 I/O 인터페이스(1150)에 지시들을 전달하여 I/O 인터페이스(1150)로 하여금 콘솔(1155)이 동작을 수행할 때 햅틱 피드백을 생성하게 한다.
콘솔(1155)은: DCA(1120), PCA(1140), 헤드셋(1010), 및 I/O 인터페이스(1150) 중 하나 이상으로부터 수신된 정보에 따라 프로세싱하기 위한 콘텐트를 헤드셋(1010)에 제공한다. 도 11에 도시된 예에서, 콘솔(1155)은 애플리케이션 저장장치(1160), 추적 모듈(1165), 및 엔진(1170)을 포함한다. 콘솔(1155)의 일부 실시예들은 도 11과 결부하여 설명된 것들과 상이한 모듈들 또는 구성요소들을 갖는다. 유사하게, 하기에 또한 설명된 기능들은 도 11과 결부하여 설명된 것과 상이한 방식으로 콘솔(1155)의 구성요소들 사이에 분산될 수 있다. 일부 실시예들에서, 콘솔(1155)과 관련하여 본 명세서에서 논의된 기능은 헤드셋(1010), 또는 원격 시스템에서 구현될 수 있다.
애플리케이션 저장장치(1160)는 콘솔(1155)에 의해 실행하기 위한 하나 이상의 애플리케이션들을 저장한다. 애플리케이션은 프로세서에 의해 실행될 때, 사용자에게 제공하기 위한 콘텐트를 생성하는 지시들의 그룹이다. 애플리케이션에 의해 생성된 콘텐트는 헤드셋(1010) 또는 I/O 인터페이스(1150)의 이동을 통해 사용자로부터 수신된 입력들에 응답할 수 있다. 애플리케이션들의 예들은: 게이밍 애플리케이션들, 회의 애플리케이션들, 비디오 재생 애플리케이션들, 또는 다른 적합한 애플리케이션들을 포함한다.
추적 모듈(1165)은 하나 이상의 교정 파라미터들을 사용하여 시스템(1100)의 로컬 영역을 교정하고 헤드셋(1010)의 또는 I/O 인터페이스(1150)의 위치의 결정 시에 오류를 감소시키기 위해 하나 이상의 교정 파라미터들을 조정할 수 있다. 예를 들면, 추적 모듈(1165)은 DCA(1120)에 의해 캡쳐된 SL 요소들의 위치들을 더 정확하게 결정하기 위해 DCA(1120)의 초점을 조정하도록 교정 파라미터를 DCA(1120)에 전달한다. 추적 모듈(1165)에 의해 수행된 교정은 또한, 헤드셋(1010)의 IMU(1110) 및/또는 I/O 인터페이스(1150)에 포함된 IMU(1110)로부터 수신된 정보를 설명한다. 부가적으로, 헤드셋(1010)의 추적이 실패하면(예로서, DCA(1120)가 적어도 임계 수의 투영된 SL 요소들의 가시선을 놓쳐버림), 추적 모듈(1165)은 시스템(1100)의 일부 또는 전부를 재교정할 수 있다.
추적 모듈(1165)은 DCA(1120), PCA(1140), 하나 이상의 위치 센서들(1115), IMU(1110) 또는 그들의 일부 조합으로부터의 정보를 사용하여 헤드셋(1010)의 또는 I/O 인터페이스(1150)의 이동들을 추적한다. 예를 들면, 추적 모듈(1165)은 헤드셋(1010)으로부터의 정보에 기초하여 로컬 영역의 매핑 시에 헤드셋(1010)의 기준 지점의 위치를 결정한다. 추적 모듈(1165)은 또한, 객체 또는 가상 객체의 위치들을 결정할 수 있다. 부가적으로, 일부 실시예들에서, 추적 모듈(1165)은 헤드셋(1010)의 미래 위치를 예측하기 위해 DCA(1120)로부터의 로컬 영역의 표현들 뿐만 아니라, IMU(1110)로부터의 헤드셋(1010)의 위치를 나타내는 데이터의 부분들을 사용할 수 있다. 추적 모듈(1165)은 헤드셋(1010) 또는 I/O 인터페이스(1150)의 추정되거나 예측된 미래 위치를 엔진(1170)에 제공한다.
엔진(1170)은 애플리케이션들을 실행하고 추적 모듈(1165)로부터 헤드셋(1010)의 위치 정보, 가속 정보, 속도 정보, 예측된 미래 위치들, 또는 그들의 일부 조합을 수신한다. 수신된 정보에 기초하여, 엔진(1170)은 사용자에게 제공하기 위해 헤드셋(1010)에 제공할 콘텐트를 결정한다. 예를 들면, 수신된 정보가 사용자가 좌측을 보았음을 나타내면, 엔진(1170)은 가상 로컬 영역에서 또는 부가적인 콘텐트로 로컬 영역을 증강시키는 로컬 영역에서 사용자의 이동을 미러링하는 헤드셋(1010)에 대한 콘텐트를 생성한다. 부가적으로, 엔진(1170)은 I/O 인터페이스(1150)로부터 수신된 동작 요청에 응답하여 콘솔(1155)에서 실행되는 애플리케이션 내에서 동작을 수행하고 동작이 수행되었다는 피드백을 사용자에게 제공한다. 제공된 피드백은 헤드셋(1010)를 통한 시각적 또는 청취가능한 피드백이거나 I/O 인터페이스(1150)를 통한 햅틱 피드백일 수 있다.
부가적인 구성 정보
본 발명에 따른 실시예들은 특히, 방법, 시스템 및 저장 매체에 관한 첨부된 청구항들에 개시되고, 하나의 청구항 범주 예컨대, 방법에 언급된 임의의 특징은 또 다른 청구항 범주 예컨대, 장치, 저장 매체, 시스템, 및 컴퓨터 프로그램 제품에서 또한 청구될 수 있다. 첨부된 청구항들의 종속성들 또는 역 참조들은 단지 공식적인 이유들로 인해 선택된다. 그러나, 임의의 이전 청구항들(특히 다중 종속성들)에 대한 고의적인 역 참조로부터 발생하는 임의의 주제가 또한 청구될 수 있어서, 청구항들과 그들의 특징들의 임의의 조합이 개시되게 하고 첨부된 청구항들에서 선택된 종속성들에 관계없이 청구될 수 있게 한다. 청구될 수 있는 주제는 첨부된 청구항들에 제공된 바와 같이 특징들의 조합들 뿐만 아니라, 청구항들의 특징들의 임의의 다른 조합을 포함하고, 청구항들에 언급된 각각의 특징은 청구항들의 임의의 다른 특징 또는 다른 특징들의 조합과 조합될 수 있다. 또한, 본 명세서에서 설명되거나 묘사된 실시예들 및 특징들 중 임의의 것은 별개의 청구항에서 및/또는 본 명세서에서 설명되거나 묘사된 임의의 실시예 또는 특징과 또는 첨부된 청구항들의 특징들 중 임의의 것과의 임의의 조합으로 청구될 수 있다.
이 설명의 일부 부분들은 정보에 대한 연산들의 상징적 표현들 및 알고리즘들의 관점에서 본 발명의 실시예들을 설명한다. 이들 알고리즘적 설명들 및 표현들은 데이터 프로세싱 분야들의 숙련가들의 작업의 핵심을 다른 당업자들에게 효과적으로 전달하기 위해 상기 데이터 프로세싱 분야들의 숙련가들에 의해 공통적으로 사용된다. 기능적으로, 계산적으로, 또는 논리적으로 설명될지라도, 이들 동작들은 컴퓨터 프로그램들 또는 등가 전기 회로들, 마이크로코드, 등에 의해 구현되는 것으로 이해된다. 또한, 이들 동작들의 배열들을 일반성의 손실 없이, 모듈들로서 언급하는 것이 때때로 편리한 것으로 또한 입증되었다. 설명된 동작들 및 그들의 연관된 모듈들은 소프트웨어, 펌웨어, 하드웨어, 또는 그들의 임의의 조합들로 구현될 수 있다.
본 명세서에서 설명된 단계들, 동작들, 또는 프로세스들 중 임의의 것은 단독으로 또는 다른 디바이스들과 조합하여 하나 이상의 하드웨어 또는 소프트웨어 모듈들로 수행되거나 구현될 수 있다. 하나의 실시예에서, 소프트웨어 모듈은 컴퓨터 프로그램 코드를 포함하는 컴퓨터 판독가능한 매체를 포함하는 컴퓨터 프로그램 제품으로 구현되며, 상기 컴퓨터 프로그램 코드는 설명된 단계들, 동작들, 또는 프로세스들 중 임의의 것 또는 전부를 수행하기 위해 컴퓨터 프로세서에 의해 실행될 수 있다.
본 발명의 실시예들은 또한, 본 명세서에서의 동작들을 수행하기 위한 장치에 관한 것일 수 있다. 이 장치는 요구된 목적들을 위해 특수하게 구성될 수 있고/거나, 그것은 컴퓨터에 저장된 컴퓨터 프로그램에 의해 선택적으로 활성화되거나 재구성된 범용 컴퓨팅 디바이스를 포함할 수 있다. 이러한 컴퓨터 프로그램은 비 일시적인 유형의 컴퓨터 판독가능한 저장 매체, 또는 컴퓨터 시스템 버스에 결합될 수 있는 전자 지시들을 저장하기 위해 적합한 임의의 유형의 매체들에 저장될 수 있다. 또한, 본 명세서에서 언급된 임의의 컴퓨팅 시스템들은 단일 프로세서를 포함할 수 있거나 증가된 컴퓨팅 능력을 위해 다수의 프로세서 설계들을 이용하는 아키텍처들일 수 있다.
본 발명의 실시예들은 또한, 본 명세서에서 설명된 컴퓨팅 프로세스에 의해 생성되는 제품에 관한 것일 수 있다. 이러한 제품은 컴퓨팅 프로세스로부터 발생하는 정보를 포함할 수 있고, 여기서 정보는 비 일시적인 유형의 컴퓨터 판독가능한 저장 매체에 저장되며 본 명세서에서 설명된 컴퓨터 프로그램 제품 또는 다른 데이터 조합의 임의의 실시예를 포함할 수 있다.
마지막으로, 본 명세서에서 이용된 언어는 원칙적으로, 가독성 및 교육 목적들을 위해 선택되었으며, 그것은 독창적인 주제를 상세하게 설명하거나 제한하기 위해 선택되지 않았을 수 있다. 따라서, 본 발명의 범위가 이 상세한 설명에 의해 제한되는 것이 아니라, 오히려 여기에 기초한 출원에 관해 발행되는 임의의 청구항들에 의해 제한되는 것으로 의도된다. 그에 따라, 실시예들의 개시는 본 발명의 범위를 제한하는 것이 아니라 예시적인 것으로 의도되며, 이는 다음의 청구항들에서 제시된다.

Claims (15)

  1. 방법에 있어서:
    오디오 프로세싱 시스템에 의해, 비디오의 오디오 성분을 상기 비디오의 제1 음원에 대한 제1 오디오 및 상기 비디오의 제2 음원에 대한 제2 오디오로 분할하는 단계로서, 상기 오디오 성분은 2차원 오디오인, 상기 분할하는 단계;
    상기 제1 오디오 및 상기 제2 오디오의 직접 사운드 성분을 얻기 위해 상기 제1 오디오 및 상기 제2 오디오로부터 잔향을 제거하는 단계;
    상기 비디오와 연관된 로컬 영역에 대해, 상기 로컬 영역의 음향 특성들을 얻는 단계; 및
    상기 오디오 프로세싱 시스템에 의해, 상기 로컬 영역의 음향 특성들을 사용하여 상기 제1 오디오 및 상기 제2 오디오의 직접 사운드 성분으로 상기 비디오에 대한 3차원 오디오를 생성하는 단계를 포함하는, 방법.
  2. 제1항에 있어서, 상기 로컬 영역의 음향 특성들을 얻는 단계는:
    상기 비디오의 시각적 성분으로부터 상기 로컬 영역의 시각적 특징들을 식별하는 단계;
    상기 로컬 영역의 식별된 시각적 특징들을 데이터베이스에 저장된 실세계 공간들의 시각적 특징들과 비교하는 단계로서, 상기 데이터베이스는 상기 실세계 공간들의 음향 특성들에 대한 상기 실세계 공간들의 시각적 특징들의 매핑(mapping)을 포함하는, 상기 비교하는 단계; 및
    상기 식별된 시각적 특징들이 상기 데이터베이스에 저장된 실세계 공간의 시각적 특징들과 매칭(matching)하는 것에 응답하여, 상기 제1 오디오 및 상기 제2 오디오의 3차원 오디오를 생성하기 위해 상기 실세계 공간의 음향 특성들을 사용하는 단계를 포함하는, 방법.
  3. 제1항에 있어서, 상기 로컬 영역의 음향 특성들을 얻는 단계는:
    상기 로컬 영역의 시각적 특징들을 식별하기 위해 상기 비디오의 시각적 성분을 분석하는 단계; 및
    상기 로컬 영역의 시각적 특징들에 기초하여 상기 로컬 영역의 음향 특성들을 추정하는 단계를 포함하는, 방법.
  4. 제3항에 있어서, 상기 로컬 영역의 시각적 특징들에 기초하여 상기 로컬 영역의 음향 특성들을 추정하는 단계는:
    상기 로컬 영역의 시각적 특징들에, 알려진 공간들의 시각적 특징들을 알려진 공간들의 음향 특성들과 상관시키는 기계 학습 모델을 적용하는 단계를 포함하는, 방법.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서, 상기 로컬 영역의 음향 특성들을 얻는 단계는:
    상기 제1 오디오 및 상기 제2 오디오의 잔향을 식별하기 위해 상기 오디오 성분을 분석하는 단계; 및
    상기 제1 오디오 및 상기 제2 오디오의 잔향으로부터 상기 로컬 영역의 음향 특성들을 결정하는 단계를 더 포함하는, 방법.
  6. 제1항 내지 제5항 중 어느 한 항에 있어서, 상기 3차원 오디오를 생성하는 단계는:
    상기 제1 오디오 및 상기 제2 오디오를 상기 비디오에서 캡쳐된 로컬 영역의 음향 특성들과 매칭시키기 위해 상기 제1 음원 및 상기 제2 음원에 대한 로컬 영역 임펄스 응답을 생성하는 단계를 포함하는, 방법.
  7. 제6항에 있어서,
    사용자가 착용한 헤드셋으로부터, 상기 헤드셋의 위치 또는 방향 중 적어도 하나에 대한 데이터를 얻는 단계로서, 위치 또는 방향 중 적어도 하나는 상기 비디오에 대한 상기 사용자의 뷰잉 관점에 대응하는, 상기 데이터를 얻는 단계; 및
    상기 헤드셋의 위치 또는 방향 중 적어도 하나에 대한 데이터 및 상기 비디오에서 캡쳐된 로컬 영역의 음향 특성들에 기초하여 상기 제1 음원 및 상기 제2 음원에 대한 로컬 영역 임펄스 응답을 조정하는 단계를 더 포함하는, 방법.
  8. 제1항 내지 제7항 중 어느 한 항에 있어서,
    a) 상기 비디오에 대한 상기 3차원 오디오를 생성하는 단계는, 바이노럴 합성(binaural synthesis)을 사용하여, 상기 제1 음원 및 상기 제2 음원의 각각에 대한 임펄스 응답을 조합하는 단계를 더 포함하거나;
    b) 상기 비디오에 대한 3차원 오디오를 생성하는 단계는 상기 제1 오디오로 하여금 상기 사용자에 의해 상기 로컬 영역 내의 제1 객체로부터 발생하는 것으로서 지각되게 하고 상기 제2 오디오로 하여금 상기 사용자에 의해 상기 로컬 영역 내의 제2 객체로부터 발생하는 것으로서 지각되게 하는 것
    중 어느 하나 이상인, 방법.
  9. 방법에 있어서:
    시각적 성분 및 오디오 성분을 포함하는 비디오를 얻는 단계로서, 상기 오디오 성분은 2차원 오디오인, 상기 비디오를 얻는 단계;
    상기 오디오 성분으로부터 음원을 식별하는 단계;
    상기 2차원 오디오의 직접 사운드 성분을 얻기 위해 상기 오디오 성분으로부터 잔향을 제거하는 단계;
    상기 비디오와 연관된 로컬 영역에 대해, 상기 로컬 영역의 음향 특성들을 얻는 단계; 및
    상기 로컬 영역의 음향 특성들을 사용하여 상기 2차원 오디오의 직접 사운드 성분으로 상기 비디오에 대한 3차원 오디오를 생성하는 단계를 포함하는, 방법.
  10. 제9항에 있어서, 상기 3차원 오디오를 생성하는 단계는:
    상기 오디오 성분을 상기 비디오에서 캡쳐된 로컬 영역의 음향 특성들과 매칭시키기 위해 상기 음원에 대한 로컬 영역 임펄스 응답을 생성하는 단계를 포함하는, 방법.
  11. 제9항 또는 제10항에 있어서,
    상기 로컬 영역의 음향 특성들을 얻는 단계는:
    상기 시각적 성분으로부터 상기 로컬 영역의 시각적 특징들을 식별하는 단계;
    상기 로컬 영역의 식별된 시각적 특징들을 데이터베이스에 저장된 실세계 공간들의 시각적 특징들과 비교하는 단계로서, 상기 데이터베이스는 상기 실세계 공간들의 음향 특성들에 대한 상기 실세계 공간들의 시각적 특징들의 매핑을 포함하는, 상기 비교하는 단계; 및
    상기 식별된 시각적 특징들이 상기 데이터베이스에 저장된 실세계 공간의 시각적 특징들과 매칭하는 것에 응답하여, 상기 오디오 성분의 3차원 오디오를 생성하기 위해 상기 실세계 공간의 음향 특성들을 사용하는 단계를 포함하는, 방법.
  12. 제9항 또는 제10항에 있어서,
    a) 상기 로컬 영역의 음향 특성들을 얻는 단계는:
    상기 로컬 영역의 시각적 특징들을 식별하기 위해 상기 시각적 성분을 분석하는 단계; 및
    상기 로컬 영역의 시각적 특징들에, 알려진 공간들의 시각적 특징들을 알려진 공간들의 음향 특성들과 상관시키는 기계 학습 모델을 적용함으로써 상기 로컬 영역의 음향 특성들을 추정하는 단계를 포함하거나;
    b) 상기 로컬 영역의 음향 특성들을 얻는 단계는:
    상기 오디오 성분의 잔향을 식별하기 위해 상기 오디오 성분을 분석하는 단계; 및
    상기 오디오 성분의 잔향으로부터 상기 로컬 영역의 음향 특성들을 결정하는 단계를 더 포함하는 것
    중 어느 하나 이상인, 방법.
  13. 지시들을 포함하는 비 일시적 컴퓨터 판독가능한 저장 매체에 있어서,
    상기 지시들은 프로세서에 의해 실행될 때, 상기 프로세서로 하여금:
    비디오의 오디오를 상기 비디오의 제1 음원에 대한 제1 오디오 및 제2 음원에 대한 제2 오디오로 분할하게 하고 - 상기 오디오는 2차원 모노 또는 스테레오 오디오임 -;
    상기 제1 오디오 및 상기 제2 오디오의 직접 사운드 성분을 얻기 위해 상기 제1 오디오 및 상기 제2 오디오로부터 잔향을 제거하게 하고;
    상기 비디오와 연관된 로컬 영역에 대해, 상기 로컬 영역의 음향 특성들을 얻게 하고;
    상기 비디오와 연관된 상기 로컬 영역의 음향 특성들을 사용하여 상기 제1 오디오 및 상기 제2 오디오의 직접 사운드 성분으로 상기 비디오에 대한 3차원 오디오를 생성하게 하고,
    상기 3차원 오디오는 상기 제1 음원으로 하여금 상기 로컬 영역 내의 제1 객체로부터 발생하는 것으로 나타나게 하고 상기 제2 음원으로 하여금 상기 로컬 영역 내의 제2 객체로부터 발생하는 것으로 나타나게 하는, 비 일시적 컴퓨터 판독가능한 저장 매체.
  14. 제13항에 있어서, 상기 3차원 오디오를 생성하는 것은:
    상기 제1 오디오 및 상기 제2 오디오를 상기 비디오에서 캡쳐된 로컬 영역의 음향 특성들과 매칭시키기 위해 상기 제1 음원 및 상기 제2 음원에 대한 로컬 영역 임펄스 응답을 생성하는 것을 포함하고,
    선택적으로 상기 지시들은 또한, 상기 프로세서에 의해 실행될 때 상기 프로세서로 하여금:
    사용자가 착용한 헤드셋으로부터, 상기 헤드셋의 위치 또는 방향 중 적어도 하나에 대한 데이터를 얻게 하고 - 위치 및 방향 중 적어도 하나는 상기 비디오에서 콘텐트를 뷰잉하는 사용자의 관점에 대응함 -;
    상기 헤드셋의 위치 또는 방향 중 적어도 하나에 대한 데이터 및 상기 비디오에서 캡쳐된 로컬 영역의 음향 특성들에 기초하여 상기 제1 음원 및 상기 제2 음원에 대한 로컬 영역 임펄스 응답을 조정하게 하는, 비 일시적 컴퓨터 판독가능한 저장 매체.
  15. 제13항 또는 제14항에 있어서,
    a) 상기 로컬 영역의 음향 특성들을 얻는 것은:
    상기 로컬 영역의 시각적 특성들을 식별하는 것;
    상기 로컬 영역의 식별된 시각적 특성들을 데이터베이스에 저장된 실세계 공간들의 시각적 특성들과 비교하는 것; 및
    상기 식별된 시각적 특성들이 상기 데이터베이스에 저장된 실세계 공간의 시각적 특성들과 매칭하는 것에 응답하여, 상기 비디오에 대한 3차원 오디오를 생성하기 위해 상기 데이터베이스에 저장된 상기 실세계 공간의 음향 특성들을 사용하는 것을 더 포함하거나;
    b) 상기 로컬 영역의 음향 특성들을 얻는 것은:
    상기 로컬 영역의 시각적 특성들을 분석하는 것; 및
    상기 로컬 영역의 시각적 특성들에 기초하여 상기 로컬 영역의 공간 특성들을 추정하는 것을 더 포함하거나;
    c) 상기 로컬 영역의 음향 특성들을 얻는 것은:
    상기 제1 음원 및 상기 제2 음원의 잔향을 식별하는 것; 및
    상기 식별된 잔향으로부터 상기 로컬 영역의 음향 특성들을 식별하는 것을 더 포함하는 것
    중 어느 하나 이상인, 비 일시적 컴퓨터 판독가능한 저장 매체.
KR1020227000717A 2019-06-24 2020-07-24 레거시 시청각 매체들로부터의 공간화된 가상 음향 장면들의 결정 KR20230030563A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/450,688 US10721521B1 (en) 2019-06-24 2019-06-24 Determination of spatialized virtual acoustic scenes from legacy audiovisual media
PCT/IB2020/057032 WO2020261250A1 (en) 2019-06-24 2020-07-24 Determination of spatialized virtual acoustic scenes from legacy audiovisual media

Publications (1)

Publication Number Publication Date
KR20230030563A true KR20230030563A (ko) 2023-03-06

Family

ID=71611755

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020227000717A KR20230030563A (ko) 2019-06-24 2020-07-24 레거시 시청각 매체들로부터의 공간화된 가상 음향 장면들의 결정

Country Status (6)

Country Link
US (1) US10721521B1 (ko)
EP (1) EP3935873A1 (ko)
JP (1) JP2022538511A (ko)
KR (1) KR20230030563A (ko)
CN (1) CN114258687A (ko)
WO (1) WO2020261250A1 (ko)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11617050B2 (en) 2018-04-04 2023-03-28 Bose Corporation Systems and methods for sound source virtualization
JP2022515266A (ja) * 2018-12-24 2022-02-17 ディーティーエス・インコーポレイテッド 深層学習画像解析を用いた室内音響シミュレーション
KR20210087249A (ko) * 2020-01-02 2021-07-12 엘지전자 주식회사 촬영장치 및 그 제어방법
US11240621B2 (en) * 2020-04-11 2022-02-01 LI Creative Technologies, Inc. Three-dimensional audio systems
US11356795B2 (en) * 2020-06-17 2022-06-07 Bose Corporation Spatialized audio relative to a peripheral device
US12014748B1 (en) * 2020-08-07 2024-06-18 Amazon Technologies, Inc. Speech enhancement machine learning model for estimation of reverberation in a multi-task learning framework
US11982738B2 (en) 2020-09-16 2024-05-14 Bose Corporation Methods and systems for determining position and orientation of a device using acoustic beacons
GB2600433B (en) * 2020-10-28 2023-08-09 Sony Interactive Entertainment Inc Audio processing
US11750745B2 (en) 2020-11-18 2023-09-05 Kelly Properties, Llc Processing and distribution of audio signals in a multi-party conferencing environment
US11470162B2 (en) 2021-01-30 2022-10-11 Zoom Video Communications, Inc. Intelligent configuration of personal endpoint devices
CN113099374B (zh) * 2021-03-30 2022-08-05 四川省人工智能研究院(宜宾) 一种基于多重注意力视听融合的音频立体化方法
US20220386062A1 (en) * 2021-05-28 2022-12-01 Algoriddim Gmbh Stereophonic audio rearrangement based on decomposed tracks
JP2023137650A (ja) * 2022-03-18 2023-09-29 ヤマハ株式会社 音信号処理方法及び音信号処理装置
US20240220866A1 (en) * 2022-10-28 2024-07-04 International Business Machines Corporation Multimodal machine learning for generating three-dimensional audio

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007158527A (ja) * 2005-12-01 2007-06-21 Sony Corp 信号処理装置、信号処理方法、再生装置、記録装置
US8036767B2 (en) * 2006-09-20 2011-10-11 Harman International Industries, Incorporated System for extracting and changing the reverberant content of an audio input signal
US8767968B2 (en) * 2010-10-13 2014-07-01 Microsoft Corporation System and method for high-precision 3-dimensional audio for augmented reality
US10848899B2 (en) * 2016-10-13 2020-11-24 Philip Scott Lyren Binaural sound in visual entertainment media
US10388268B2 (en) * 2017-12-08 2019-08-20 Nokia Technologies Oy Apparatus and method for processing volumetric audio
US10735884B2 (en) * 2018-06-18 2020-08-04 Magic Leap, Inc. Spatial audio for interactive audio environments

Also Published As

Publication number Publication date
JP2022538511A (ja) 2022-09-05
US10721521B1 (en) 2020-07-21
EP3935873A1 (en) 2022-01-12
WO2020261250A1 (en) 2020-12-30
CN114258687A (zh) 2022-03-29

Similar Documents

Publication Publication Date Title
US10721521B1 (en) Determination of spatialized virtual acoustic scenes from legacy audiovisual media
US10880668B1 (en) Scaling of virtual audio content using reverberent energy
US10959038B2 (en) Audio system for artificial reality environment
KR20210141707A (ko) 매핑 서버를 사용하는 헤드셋에 대한 음향 파라미터들의 결정
US10897570B1 (en) Room acoustic matching using sensors on headset
US10812929B1 (en) Inferring pinnae information via beam forming to produce individualized spatial audio
US11638110B1 (en) Determination of composite acoustic parameter value for presentation of audio content
US11470439B1 (en) Adjustment of acoustic map and presented sound in artificial reality systems
US12069463B2 (en) Dynamic time and level difference rendering for audio spatialization
KR20220011152A (ko) 룸 모드의 로컬 효과를 통합하기 위한 음향 필터 결정
CN117981347A (zh) 用于对虚拟声源进行空间化的音频系统
US11012804B1 (en) Controlling spatial signal enhancement filter length based on direct-to-reverberant ratio estimation
KR20220162694A (ko) 연골 전도를 사용하는 머리-관련 전달 함수 결정
US11832084B2 (en) Equalization based on diffuse field representation of head-related transfer function and transducer-specific data
US11598962B1 (en) Estimation of acoustic parameters for audio system based on stored information about acoustic model
US20240346729A1 (en) Synchronizing video of an avatar with locally captured audio from a user corresponding to the avatar
US20220322028A1 (en) Head-related transfer function determination using reflected ultrasonic signal
CN118632166A (zh) 使用头戴式设备框架上的多对对称放置的声学传感器进行空间音频捕获

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
WITB Written withdrawal of application