KR20210065198A - Ar에서의 자연어 번역 - Google Patents

Ar에서의 자연어 번역 Download PDF

Info

Publication number
KR20210065198A
KR20210065198A KR1020217015609A KR20217015609A KR20210065198A KR 20210065198 A KR20210065198 A KR 20210065198A KR 1020217015609 A KR1020217015609 A KR 1020217015609A KR 20217015609 A KR20217015609 A KR 20217015609A KR 20210065198 A KR20210065198 A KR 20210065198A
Authority
KR
South Korea
Prior art keywords
words
user
spoken
speaking
generated
Prior art date
Application number
KR1020217015609A
Other languages
English (en)
Inventor
앤드류 로비트
안토니오 존 밀러
필립 로빈슨
스코트 셀폰
Original Assignee
페이스북 테크놀로지스, 엘엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 페이스북 테크놀로지스, 엘엘씨 filed Critical 페이스북 테크놀로지스, 엘엘씨
Publication of KR20210065198A publication Critical patent/KR20210065198A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1781Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions
    • G10K11/17821Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions characterised by the analysis of the input signals only
    • G10K11/17823Reference signals, e.g. ambient acoustic environment
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1781Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions
    • G10K11/17821Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions characterised by the analysis of the input signals only
    • G10K11/17827Desired external signals, e.g. pass-through audio such as music or speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1787General system configurations
    • G10K11/17873General system configurations using a reference signal without an error signal, e.g. pure feedforward
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1807Speech classification or search using natural language modelling using prosody or stress
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1083Reduction of ambient noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K2210/00Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
    • G10K2210/30Means
    • G10K2210/301Computational
    • G10K2210/3044Phase shift, e.g. complex envelope processing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • H04R2430/23Direction finding using a sum-delay beam-former
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2460/00Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
    • H04R2460/01Hearing devices using active noise cancellation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2460/00Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
    • H04R2460/07Use of position data from wide-area or local-area positioning systems in hearing devices, e.g. program or information selection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/11Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/15Transducers incorporated in visual displaying devices, e.g. televisions, computer displays, laptops
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Otolaryngology (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Stereophonic System (AREA)

Abstract

AR에서 자연어 번역을 수행하기 위한 개시된 컴퓨터-구현 방법은 제 1 언어로 말하는 사용자가 말한 단어들을 포함하는 오디오 입력 스트림을 액세스하는 것을 포함할 수 있다. 상기 방법은 다음으로 말한 단어들이 듣는 사용자에 이르기 전에 억제되도록 오디오 입력 스트림에서의 단어들에 대한 능동 잡음 소거를 수행하는 것을 포함할 수 있다. 더 나아가, 방법은 말하는 사용자가 말한 단어들을 식별하기 위해 오디오 입력 스트림을 프로세싱하는 것, 및 말하는 사용자가 말한 식별된 단어들을 제 2의, 상이한 언어로 번역하는 것을 포함할 수 있다. 상기 방법은 또한 번역된 단어들을 사용하여 제 2의, 상이한 언어로 말한 단어들을 생성하는 것, 및 제 2 언어로 생성된 말한 단어들을 듣는 사용자에게 리플레이하는 것을 포함할 수 있다. 다양한 다른 방법들, 시스템들, 및 컴퓨터-판독 가능한 미디어가 또한 개시된다.

Description

AR에서의 자연어 번역
관련 출원에 대한 상호 참조
본 출원은 그 개시가 전체적으로, 참조로서 통합되는, 2018년 10월 25일에 출원된, 미국 정규 출원 번호 제16/170,639호의 이익을 주장한다.
현대의 스마트폰들 및 다른 전자 디바이스들은 매우 다양한 기능들을 수행할 수 있다. 많은 이들 기능들은 전화기의 핵심적인 운영 시스템에 의해 제공되며, 많은 부가적인 기능들은 애플리케이션들을 통해 부가될 수 있다. 현재 가장 최신의 스마트폰들에 내장된 기능의 일 부분은 "텍스트-투-스피치" 또는 TTS로서 불리우는 기능이다.
TTS는 사용자가 단어 또는 구절을 전자 디바이스로 타이핑하도록 허용하며, 전자 디바이스는 쓰여진 단어들을 말하는 컴퓨터화된 음성을 렌더링할 것이다. TTS 기능은 또한 사용자에게 문서들 또는 책들을 다시 읽어주기 위해 사용될 수 있다. TTS의 정반대는 스피치-투-텍스트(STT)이며, 이것은 또한 통상적으로 가장 최신의 스마트폰들에 의해 제공된다.
더 나아가, 많은 스마트폰들은 언어 번역을 수행하는 애플리케이션들을 구동할 수 있다. 예를 들어, 몇몇 경우들에서, 사용자는 하나의 언어로 음성 입력을 청취하고, 단어들을 다른 언어로 번역하며, 그 후 번역된 언어로 단어들을 사용자에게 플레이할 수 있는 애플리케이션을 개시할 수 있다. 다른 경우들에서, 애플리케이션은 단어들을 번역하며, 단어들을 쓰여진 형태로 다시 사용자에게 제공할 수 있다.
이하에서 더 상세하게 설명될 바와 같이, 본 개시는 또 다른 언어를 말하는 사람과 대화하는 방법들을 설명한다. 종래의 기술들과 대조적으로, 그러나, 여기에서의 실시예들은 외국어로 말하는 사람을 음소거하기 위해 능동 잡음 소거를 구현하며 외국 화자의 단어들의 번역을 듣는 사용자를 위해 재생한다. 따라서, 듣는 사용자가 움직이는 외국 화자의 입술들을 보는 동안, 듣는 사용자는 단지 외국 화자의 단어들의 번역된 버전만을 들을 것이다. 외국 화자의 단어들을 제거하고, 그것들을 청취자가 이해하는 단어들로 대체함으로써, 청취자는 화자를 이해하는데 훨씬 더 용이할 것이다. 외국 화자 및 번역 양쪽 모두를 동시에 듣거나, 또는 외국 화자가 말하며, 그 후 번역된 버전이 출력되는 동안 기다려야 하는 대신에, 여기에서의 시스템들은 청취자가 대체로 외국 화자가 그들에게 말할 때 외국 화자의 단어들의 번역된 버전을 듣도록 실시간으로 동작한다. 게다가, 외국 화자의 단어들 및 번역된 단어들 양쪽 모두를 듣는 대신에, 능동 잡음 소거의 구현으로 인해, 듣는 사용자는 단지 번역된 단어들만을 들을 것이다. 이것은 대화에 대한 듣는 사용자의 이해를 크게 강화할 것이며 사람들이 더 큰 용이함을 갖고 및 더 높은 레벨의 이해를 갖고 대화하도록 허용할 것이다.
몇몇 경우들에서, 능동 잡음 소거 및 번역 특징들은 증강 현실(AR) 또는 가상 현실(VR) 디바이스들 상에서 제공될 수 있다. 실제로, 일 예에서, AR 헤드셋을 착용한 듣는 사용자는 듣는 사용자가 이해하지 못하는 언어를 말하고 있는 외국 화자와 이야기할 수 있다. 외국 화자가 말할 때, 능동 잡음 소거는 듣는 사용자의 AR 헤드셋에 의해 외국 화자의 단어들에 적용될 수 있다. 그 후, 이어피스에서 또는 다른 가청 수단을 통해, 외국 화자의 번역된 단어들이 AR 헤드 셋을 통해 듣는 사용자에게 재생된다. 이것은 실시간으로 발생할 수 있으며, 이와 같이, 듣는 사용자는 외국 화자의 단어들을 명확하고 정확하게 따라갈 수 있다. 이러한 실시예들에서, 듣는 사용자는 단지 외국 화자의 단어들의 번역된 버전만을 들을 것이며 외국 화자가 말한 단어들을 필터링하거나 또는 무시하려고 노력할 필요가 없을 것이다. 외국 화자가 또한 이러한 AR 헤드셋을 착용하였다면, 둘은 화자의 실제 단어들(어쨌든 청취자에게 이해할 수 없을)에 의해 지장을 주지 않고, 각각 그들의 모국어로 말하고 각각 그들의 모국어로 대답하면서, 앞뒤로 대화를 나눌 수 있다. 더 나아가, 몇몇 실시예들에서, 청취자에게 번역된 단어들을 말하는 음성은 그것이 외국의 말하는 사용자에서 온 것처럼 들리도록 개인화될 수 있다.
일 예에서, AR에서 자연어 번역을 수행하기 위한 컴퓨터-구현 방법은 말하는 사용자로부터 수신된 오디오 입력 스트림을 액세스하는 것을 포함할 수 있다. 상기 오디오 입력 스트림은 제 1 언어로 상기 말하는 사용자가 말한 단어들을 포함한다. 상기 방법은 다음으로 말한 단어들이 듣는 사용자에게 이르기 전에 억제되도록 말하는 사용자로부터 수신된 오디오 입력 스트림에서의 단어들에 대한 능동 잡음 소거를 수행하는 것을 포함할 수 있다. 더 나아가, 상기 방법은 말하는 사용자가 말한 단어들을 식별하기 위해 상기 오디오 입력 스트림을 프로세싱하는 것, 및 상기 말하는 사용자가 말한 상기 식별된 단어들을 제 2의, 상이한 언어로 번역하는 것을 포함할 수 있다. 상기 방법은 또한 상기 번역된 단어들을 사용하여, 상기 제 2의, 상이한 언어로 말한 단어들을 생성하는 것, 및 상기 제 2 언어로 상기 생성된 말한 단어들을 듣는 사용자에게 리플레이하는 것을 포함할 수 있다.
몇몇 예들에서, 상기 생성된 말한 단어들은 말하는 사용자에게 개인화될 수 있으며, 따라서, 상기 제 2 언어로 상기 생성된 말한 단어들은 말하는 사용자에 의해 말하여지는 것처럼 들린다. 몇몇 예들에서, 생성된 말한 단어들을 개인화하는 것은 말하는 사용자가 다양한 단어들 또는 음절들을 어떻게 발음하는지를 결정하기 위해 오디오 입력 스트림을 프로세싱하는 것, 및 결정된 발음들을 상기 생성된 말한 단어들에 적용하는 것을 추가로 포함할 수 있다. 상기 생성된 말한 단어들의 리플레이 동안, 개인화는 말하는 사용자가 어떻게 단어들 또는 음절들을 발음하는지를 컴퓨터가 결정할 때 리플레이된 단어들에 동적으로 적용될 수 있다. 몇몇 예들에서, 말하는 사용자는 음성 샘플들을 제공할 수 있다. 이들 음성 샘플들은 오디오 입력 스트림을 수신하기 전에 말하는 사용자가 단어들 또는 음절들을 어떻게 발음하는지를 결정하기 위해 사용될 수 있다.
몇몇 예들에서, 상기 생성된 말한 단어들을 상기 듣는 사용자에게 재생하는 것은 말하는 사용자가 어떤 방향으로부터 말하고 있는지를 결정하는 것 및 말한 단어들이 말하는 사용자의 결정된 방향에서 온 것처럼 들리도록 상기 생성된 말한 단어들의 재생을 공간화하는 것을 추가로 포함할 수 있다. 말하는 사용자가 어떤 방향으로부터 말하고 있는지를 결정하는 것은 말하는 사용자와 연관된 디바이스에 대한 위치 데이터를 수신하는 것, 상기 수신된 위치 데이터에 기초하여 상기 말하는 사용자가 어떤 방향으로부터 말하고 있는지를 결정하는 것, 및 말한 단어들이 말하는 사용자의 결정된 방향에서 온 것처럼 들리도록 상기 생성된 말한 단어들의 재생을 공간화하는 것을 포함할 수 있다.
몇몇 예들에서, 말하는 사용자가 어떤 방향에서 말하고 있는지를 결정하는 것은 말하는 사용자로부터 온 음파들에 대한 도착의 방향을 산출하는 것, 상기 산출된 도착의 방향에 기초하여 상기 말하는 사용자가 어떤 방향으로부터 말하고 있는지를 결정하는 것, 및 상기 말한 단어들이 상기 결정된 말하는 사용자의 방향에서 온 것처럼 들리도록 상기 생성된 말한 단어들의 재생을 공간화하는 것을 추가로 포함할 수 있다.
몇몇 예들에서, 말하는 사용자가 어떤 방향으로부터 말하고 있는지를 결정하는 것은 듣는 사용자의 눈들의 움직임을 추적하는 것, 상기 듣는 사용자의 눈들의 추적된 움직임들에 기초하여 상기 말하는 사용자가 어떤 방향으로부터 말하고 있는지를 결정하는 것, 및 말한 단어들이 상기 말하는 사용자의 결정된 방향에서 온 것처럼 들리도록 상기 생성된 말한 단어들의 재생을 공간화하는 것을 추가로 포함할 수 있다.
몇몇 예들에서, 상기 말하는 사용자가 말한 단어들을 식별하기 위해 오디오 입력 스트림을 프로세싱하는 것은 상기 말하는 사용자가 말한 단어들을 식별하기 위해 스피치-투-텍스트(STT) 프로그램을, 및 번역된 말한 단어들을 생성하기 위해 텍스트-투-스피치(TTS) 프로그램을 구현하는 것을 포함할 수 있다. 상기 방법은 또한 말하는 사용자와 연관된 음성 프로필을 다운로드하는 것 및 생성된 말한 단어들을 개인화하기 위해 상기 말하는 사용자와 연관된 다운로드된 음성 프로필을 사용하는 것을 포함할 수 있으며, 따라서 제 2 언어로 리플레이된 생성된 말한 단어들은 말하는 사용자에 의해 말하여지는 것처럼 들린다.
몇몇 예들에서, 상기 방법은 말하는 사용자와 연관된 저장된 오디오 데이터를 액세스하는 것, 및 그 후 생성된 말한 단어들을 개인화하기 위해 액세스된 저장된 오디오 데이터를 사용하는 것을 추가로 포함할 수 있다. 이와 같이, 제 2 언어로 리플레이된 생성된 말한 단어들은 말하는 사용자에 의해 말하여지는 것처럼 들릴 수 있다. 몇몇 예들에서, 상기 방법은 말하는 사용자가 말한 단어들을 파싱하는 것, 단어들 중 적어도 하나가 듣는 사용자에 의해 이해되는 언어로 말하여지는지를 결정하는 것, 및 듣는 사용자에 의해 이해되는 언어로 말한 단어들에 대한 능동 잡음 소거를 파싱하는 것을 추가로 포함할 수 있다.
몇몇 예들에서, 상기 오디오 입력 스트림은 적어도 두 개의 상이한 말하는 사용자들이 말한 단어들을 포함한다. 상기 방법은 그 후 상이한 음성 패턴들에 따라 두 명의 말하는 사용자들을 구별하는 것, 및 양쪽 말하는 사용자들 모두에 대한 능동 잡음 소거를 수행하면서, 제 1 말하는 사용자에 대한 말한 단어들을 생성하는 것을 포함할 수 있다. 더 나아가, 몇몇 예들에서, 상기 방법은 제 1 사용자가 특정된 시간의 양 동안 말하는 것을 중단할 때까지 제 2 말하는 사용자에 대한 생성된 말한 단어들을 저장하는 것, 및 그 후 제 2 말하는 사용자에 대한 상기 생성된 말한 단어들을 재생하는 것을 포함할 수 있다.
몇몇 예들에서, 상기 방법은 제 1 말하는 사용자가 말하는 동안 제 2 말하는 사용자에 대한 음성 모델을 생성하는 것을 추가로 포함한다. 상기 방법은 또한 두 명의 말하는 사용자들의 각각에 대한 생성된 말한 단어들을 개인화하는 것을 포함할 수 있으며, 따라서 제 2 언어로 생성된 말한 단어들은 각각의 말하는 사용자들의 음성에서 온 것처럼 들린다.
또한, AR에서 자연어 번역을 수행하기 위한 대응하는 시스템은 제 1 언어로 말하는 사용자가 말한 단어들을 포함하는 오디오 입력 스트림을 액세스하는 오디오 액세싱 모듈을 포함한, 메모리에 저장된 여러 개의 모듈들을 포함할 수 있다. 시스템은 또한 말한 단어들이 듣는 사용자에게 이르기 전에 억제되도록 오디오 입력 스트림에서의 단어들에 대한 능동 잡음 소거를 수행하는 잡음 소거 모듈을 포함할 수 있다. 시스템은 말하는 사용자가 말한 단어들을 식별하기 위해 오디오 입력 스트림을 프로세싱하는 오디오 프로세싱 모듈을 추가로 포함할 수 있다. 번역 모듈은 말하는 사용자가 말한 식별된 단어들을 제 2의, 상이한 언어로 번역할 수 있으며, 스피치 생성기는 번역된 단어들을 사용하여 제 2의, 상이한 언어로 말한 단어들을 생성할 수 있다. 재생 모듈은 제 2 언어로 생성된 말한 단어들을 듣는 사용자에게 리플레이할 수 있다.
몇몇 예들에서, 상기 설명된 방법은 컴퓨터-판독 가능한 매체상에서 컴퓨터-판독 가능한 명령들로서 인코딩될 수 있다. 예를 들어, 컴퓨터-판독 가능한 매체는 컴퓨팅 디바이스의 적어도 하나의 프로세서에 의해 실행될 때, 상기 컴퓨팅 디바이스로 하여금 제 1 언어로 말하는 사용자가 말한 단어들을 포함하는 오디오 입력 스트림을 액세스하게 하고, 말한 단어들이 듣는 사용자에게 이르기 전에 억제되도록 오디오 입력 스트림에서의 단어들에 대한 능동 잡음 소거를 수행하게 하고, 말하는 사용자가 말한 단어들을 식별하기 위해 오디오 입력 스트림을 프로세싱하게 하고, 말하는 사용자가 말한 식별된 단어들을 제 2의, 상이한 언어로 번역하게 하고, 번역된 단어들을 사용하여 제 2의, 상이한 언어로 말한 단어들을 생성하게 하며, 제 2 언어로 생성된 말한 단어들을 듣는 사용자에게 리플레이하게 할 수 있는 하나 이상의 컴퓨터-실행 가능한 명령들을 포함할 수 있다.
상기 언급된 실시예들 중 임의의 것으로부터의 특징들은 여기에서 설명된 일반적인 원리들에 따라 서로 조합하여 사용될 수 있다. 이들 및 다른 실시예들, 특징들, 및 이점들은 수반된 도면들 및 청구항들과 함께 다음의 상세한 설명을 판독할 때 더 완전하게 이해될 것이다.
본 발명에 따른 실시예들은 특히 방법, 시스템, 및 저장 매체에 관한 첨부된 청구항들에서 개시되며, 여기에서 하나의 청구항 카테고리, 예컨대 방법에서 언급된 임의의 특징은 또 다른 청구항 카테고리, 예컨대, 시스템, 저장 매체, 및 컴퓨터 프로그램 제품에서 또한 주장될 수 있다. 첨부된 청구항들에서 종속성들 또는 역 참조들은 단지 형식적인 이유들로 택하여진다. 그러나, 임의의 이전 청구항들(특히 다수의 종속성들)에 대한 의도적인 역 참조에서 기인한 임의의 주제가 또한 주장될 수 있으며, 따라서 청구항들 및 그것의 특징들의 임의의 조합이 개시되며 첨부된 청구항들에서 택하여진 종속성들에 관계없이 주장될 수 있다. 주장될 수 있는 주제는 첨부된 청구항들에서 제시된 바와 같은 특징들의 조합들뿐만 아니라 청구항들에서의 특징들의 임의의 다른 조합을 또한 포함하며, 청구항들에서 언급된 각각의 특징은 청구항들에서 임의의 다른 특징 또는 다른 특징들의 조합과 조합될 수 있다. 더욱이, 여기에서 설명되거나 또는 묘사된 실시예들 및 특징들 중 임의의 것은 별개의 청구항에서 및/또는 여기에서 설명되거나 또는 묘사된 임의의 실시예 또는 특징과 또는 첨부된 청구항들의 특징들 중 임의의 것과 임의로 조합하여 주장될 수 있다.
본 발명에 따른 실시예에서, 하나 이상의 컴퓨터-판독 가능한 비-일시적 저장 미디어는 실행될 때 본 발명 또는 상기 언급된 실시예들 중 임의의 것에 따른 방법을 수행하도록 동작 가능한 소프트웨어를 구체화할 수 있다.
본 발명에 따른 실시예에서, 시스템은: 하나 이상의 프로세서들; 및 상기 프로세서들에 결합되며 상기 프로세서들에 의해 실행 가능한 명령들을 포함한 적어도 하나의 메모리를 포함할 수 있으며, 상기 프로세서들은 상기 명령들을 실행할 때 본 발명 또는 상기 언급된 실시예들 중 임의의 것에 따른 방법을 수행하도록 동작 가능하다.
본 발명에 따른 실시예에서, 바람직하게는, 컴퓨터-판독 가능한 비-일시적 저장 미디어를 포함한, 컴퓨터 프로그램 제품은 데이터 프로세싱 시스템상에서 실행될 때, 본 발명 또는 상기 언급된 실시예들 중 임의의 것에 따른 방법을 수행하도록 동작 가능할 수 있다.
수반된 도면들은 다수의 대표적인 실시예들을 예시하며 명세서의 일 부분이다. 다음의 설명과 함께, 이들 도면들은 본 개시의 다양한 원리들을 입증하고 설명한다.
도 1은 인공 현실 헤드셋의 실시예를 예시한다.
도 2는 증강 현실 헤드셋 및 대응하는 넥밴드의 실시예를 예시한다.
도 3은 가상 현실 헤드셋의 실시예를 예시한다.
도 4는 증강 현실(AR)에서 자연어 번역을 수행하는 것을 포함한 여기에서 설명된 실시예들이 동작할 수 있는 컴퓨팅 아키텍처를 예시한다.
도 5는 AR에서 자연어 번역을 수행하기 위한 대표적인 방법의 흐름도를 예시한다.
도 6은 AR에서의 자연어 번역이 사용자에게 개인화될 수 있는 컴퓨팅 아키텍처를 예시한다.
도 7은 AR에서의 자연어 번역이 사용자에게 개인화될 수 있는 대안적인 컴퓨팅 아키텍처를 예시한다.
도 8은 AR에서의 자연어 번역이 사용자에게 개인화될 수 있는 대안적인 컴퓨팅 아키텍처를 예시한다.
도 9는 AR에서의 자연어 번역이 사용자에게 개인화될 수 있는 대안적인 컴퓨팅 아키텍처를 예시한다.
도 10은 스피치-투-텍스트 및 텍스트-투-스피치 모듈들이 AR에서의 자연어 번역을 수행하는 프로세스에서 구현되는 컴퓨팅 아키텍처를 예시한다.
도 11은 AR에서 자연어 번역을 수행하기 위한 준비로 상이한 사용자의 스피치가 구별될 수 있는 컴퓨팅 아키텍처를 예시한다.
도면들 전체에 걸쳐, 동일한 참조 문자들 및 설명들은 반드시 동일하지는 않지만, 유사한 요소들을 나타낸다. 여기에서 설명된 대표적인 실시예들은 다양한 수정들 및 대안적인 형태들에 영향을 받기 쉽지만, 특정 실시예들은 도면들에서 예로서 도시되었으며 여기에서 상세하게 설명될 것이다. 그러나, 여기에서 설명된 대표적인 실시예들은 개시된 특정한 형태들에 제한되도록 의도되지 않는다. 오히려, 본 개시는 첨부된 청구항들의 범위 내에 있는 모든 수정들, 등가물들, 및 대안들을 커버한다.
본 개시는 일반적으로 증강 현실(AR) 또는 가상 현실(VR)에서 자연어 번역을 수행하는 것에 관한 것이다. 이하에서 더 상세하게 설명될 바와 같이, 본 개시의 실시예들은 말하는 사용자의 음성에 대한 잡음 소거를 수행하는 것을 포함할 수 있다. 예를 들어, 말하는 사용자가 듣는 사용자에 의해 이해되지 않는 언어를 말한다면, 듣는 사용자는 그들이 말할 때 말하는 사용자를 이해하지 못할 것이다. 따라서, 여기에서의 실시예들은 말하는 사용자의 음성에 대한 잡음 소거를 수행할 수 있으며, 따라서 듣는 사용자는 말하는 사용자를 듣지 않는다. 말하는 사용자의 스피치가 잡음 소거에 의해 침묵하게 되는 동안, 여기에서 설명된 시스템들은 말하는 사용자가 어떤 단어들을 말하고 있는지를 결정할 수 있으며 이들 단어들을 듣는 사용자에 의해 이해되는 언어로 번역할 수 있다. 여기에서의 시스템들은 또한 번역된 단어들을 스피커들 또는 다른 사운드 트랜듀서들을 통해 사용자의 귀들로 재생되는 스피치로 변환할 수 있다. 이러한 방식으로, 말하는 사용자를 이해하는 듣는 사용자의 용이함이 상당히 개선될 수 있다. 한 명의 사용자가 전자 디바이스로 말하고 번역을 기다리는 대신에, 여기에서의 실시예들은 말하는 사용자가 말할 때 동작할 수 있다. 따라서, 말하는 사용자가 하나의 언어로 말할 때, 듣는 사용자는, 실시간으로, 듣는 사용자에게 번역된 단어들을 말하는 생성된 음성을 듣는다. 이러한 프로세스는 끊김이 없으며 자동적일 수 있다. 사용자들은 서로, 지연 없이, 각각이 그들 자신의 모국어로 말하고 들으면서 대화를 나눌 수 있다.
본 개시의 실시예들은 다양한 유형들의 인공 현실 시스템들을 포함하거나 또는 그것과 함께 구현될 수 있다. 인공 현실은 사용자로의 프리젠테이션 이전에 몇몇 방식으로 조정되어 온 현실의 형태이며, 이것은 예컨대 가상 현실(VR), 증강 현실(AR), 혼합 현실(MR), 하이브리드 현실, 또는 몇몇 조합 및/또는 그것의 파생물을 포함할 수 있다. 인공 현실 콘텐트는 완전히 생성된 콘텐트 또는 캡처된(예컨대, 실-세계) 콘텐트와 조합된 생성된 콘텐트를 포함할 수 있다. 인공 현실 콘텐트는 비디오, 오디오, 햅틱 피드백, 또는 그것의 몇몇 조합을 포함할 수 있으며, 그 중 임의의 것은 단일 채널로 또는 다수의 채널들로(뷰어에게 3-차원 효과를 생성하는 스테레오 비디오와 같은) 제공될 수 있다. 부가적으로, 몇몇 실시예들에서, 인공 현실은 또한 예컨대, 인공 현실에서 콘텐트를 생성하기 위해 사용되고 및/또는 그 외 인공 현실에서(예컨대, 그것에서 활동들을 수행하기 위해) 사용되는 애플리케이션들, 제품들, 액세서리들, 서비스들, 또는 그것의 몇몇 조합과 연관될 수 있다.
본 개시의 실시예들은 다양한 유형들의 인공 현실 시스템들을 포함하거나 또는 그것과 함께 구현될 수 있다. 인공 현실은 사용자로의 프리젠테이션 이전에 몇몇 방식으로 조정되어 온 현실의 형태이며, 이것은 예컨대 가상 현실(VR), 증강 현실(AR), 혼합 현실(MR), 하이브리드 현실, 또는 몇몇 조합 및/또는 그것의 파생물을 포함할 수 있다. 인공 현실 콘텐트는 완전히 생성된 콘텐트 또는 캡처된(예컨대, 실-세계) 콘텐트와 조합된 생성된 콘텐트를 포함할 수 있다. 인공 현실 콘텐트는 비디오, 오디오, 햅틱 피드백, 또는 그것의 몇몇 조합을 포함할 수 있으며, 그 중 임의의 것은 단일 채널로 또는 다수의 채널들로(뷰어에게 3-차원 효과를 생성하는 스테레오 비디오와 같은) 제공될 수 있다. 부가적으로, 몇몇 실시예들에서, 인공 현실은 또한 예컨대, 인공 현실에서 콘텐트를 생성하기 위해 사용되고 및/또는 그 외 인공 현실에서(예컨대, 그것에서 활동들을 수행하기 위해) 사용되는 애플리케이션들, 제품들, 액세서리들, 서비스들, 또는 그것의 몇몇 조합과 연관될 수 있다.
인공 현실 시스템들은 다양한 상이한 형태 인자들 및 구성들로 구현될 수 있다. 몇몇 인공 현실 시스템들은 근안 디스플레이들(NED들) 없이 작동하도록 설계될 수 있으며, 그 예가 도 1에서의 AR 시스템(100)이다. 다른 인공 현실 시스템들은 또한 실세계로 가시성을 제공하거나(예컨대, 도 2에서의 AR 시스템(200)) 또는 인공 현실에서 사용자에게 시각적으로 몰입감을 주는(예컨대, 도 3에서의 VR 시스템(300)) NED를 포함할 수 있다. 몇몇 인공 현실 디바이스들은 독립형 시스템들일 수 있지만, 다른 인공 현실 디바이스들은 사용자에게 인공 현실 경험을 제공하기 위해 외부 디바이스들과 통신하고 및/또는 협력할 수 있다. 이러한 외부 디바이스들의 예들은 핸드헬드 제어기들, 이동 디바이스들, 데스크탑 컴퓨터들, 사용자에 의해 착용된 디바이스들, 하나 이상의 다른 사용자들에 의해 착용된 디바이스들, 및/또는 임의의 다른 적절한 외부 시스템을 포함한다.
도 1로 돌아가면, AR 시스템(100)은 일반적으로 사용자의 신체 부분(예컨대, 머리)에 맞도록 치수화된 착용 가능한 디바이스를 나타낸다. 도 1에 도시된 바와 같이, 시스템(100)은 프레임(102) 및 프레임(102)에 결합되고 로컬 환경을 관찰함으로써 로컬 환경에 대한 정보를 모으도록 구성된 카메라 어셈블리(104)를 포함할 수 있다. AR 시스템(100)은 또한 출력 오디오 트랜듀서들(108(A) 및 108(B)) 및 입력 오디오 트랜듀서들(110)과 같은, 하나 이상의 오디오 디바이스들을 포함할 수 있다. 출력 오디오 트랜듀서들(108(A) 및 108(B))은 사용자에게 오디오 피드백 및/또는 콘텐트를 제공할 수 있으며, 입력 오디오 트랜듀서들(110)은 사용자의 환경에서 오디오를 캡처할 수 있다.
도시된 바와 같이, AR 시스템(100)은 사용자의 눈앞에 위치된 NED를 반드시 포함하는 것은 아닐 수 있다. NED들이 없는 AR 시스템들은 헤드 밴드들, 모자들, 헤어 밴드들, 벨트들, 시계들, 손목 밴드들, 발목 밴드들, 반지들, 넥밴드들, 목걸이들, 가슴 밴드들, 안경 프레임들, 및/또는 임의의 다른 적절한 유형 또는 형태의 장치와 같은, 다양한 형태들을 취할 수 있다. AR 시스템(100)은 NED를 포함하지 않을 수 있지만, AR 시스템(100)은 다른 유형들의 스크린들 또는 시각적 피드백 디바이스들(예컨대, 프레임(102)의 측면으로 통합된 디스플레이 스크린)을 포함할 수 있다.
본 개시에서 논의된 실시예들은 또한 하나 이상의 NED들을 포함하는 AR 시스템들에서 구현될 수 있다. 예를 들어, 도 2에 도시된 바와 같이, AR 시스템(200)은 사용자의 눈 앞에 좌측 디스플레이 디바이스(215(A)) 및 우측 디스플레이 디바이스(215(B))를 유지하도록 구성된 프레임(210)을 가진 안경 디바이스(202)를 포함할 수 있다. 디스플레이 디바이스들(215(A) 및 215(B))은 이미지 또는 일련의 이미지들을 사용자에게 제공하기 위해 함께 또는 독립적으로 동작할 수 있다. AR 시스템(200)은 두 개의 디스플레이들을 포함하지만, 본 개시의 실시예들은 단일 NED 또는 둘보다 많은 NED들을 가진 AR 시스템들에서 구현될 수 있다.
몇몇 실시예들에서, AR 시스템(200)은 센서(240)와 같은, 하나 이상의 센서들을 포함할 수 있다. 센서(240)는 AR 시스템(200)의 모션에 응답하여 측정 신호들을 생성할 수 있으며 실질적으로 프레임(210)의 임의의 부분 상에 위치될 수 있다. 센서(240)는 위치 센서, 관성 측정 유닛(IMU), 깊이 카메라 어셈블리, 또는 그것의 임의의 조합을 포함할 수 있다. 몇몇 실시예들에서, AR 시스템(200)은 센서(240)를 포함하거나 또는 포함하지 않을 수 있거나 또는 하나 이상의 센서를 포함할 수 있다. 센서(240)가 IMU를 포함하는 실시예들에서, IMU는 센서(240)로부터의 측정 신호들에 기초하여 교정 데이터를 생성할 수 있다. 센서(240)의 예들은, 제한 없이, 가속도계들, 자이로스코프들, 자력계들, 모션을 검출하는 다른 적절한 유형들의 센서들, IMU의 에러 정정을 위해 사용된 센서들, 또는 그것의 몇몇 조합을 포함할 수 있다.
AR 시스템(200)은 또한 총괄하여 음향 센서들(220)로서 불리우는, 복수의 음향 센서들(220(A) 내지 220(J))을 가진 마이크로폰 어레이를 포함할 수 있다. 음향 센서들(220)은 음파들에 의해 유도된 기압 변화들을 검출하는 트랜듀서들일 수 있다. 각각의 음향 센서(220)는 사운드를 검출하며 검출된 사운드를 전자 포맷(예컨대, 아날로그 또는 디지털 포맷)으로 변환하도록 구성될 수 있다. 도 2에서의 마이크로폰 어레이는 예를 들어, 10개의 음향 센서들: 사용자의 대응하는 귀의 안쪽에 위치되도록 설계도리 수 있는 220(A) 및 220(B), 프레임(210) 상에서의 다양한 위치들에 배치될 수 있는 음향 센서들(220(C), 220(D), 220(E), 220(F), 220(G), 및 220(H)), 및/또는 대응하는 넥밴드(205) 상에 배치될 수 있는 음향 센서들(220(I) 및 220(J))을 포함할 수 있다.
마이크로폰 어레이의 음향 센서들(220)의 구성은 달라질 수 있다. AR 시스템(200)은 10개의 음향 센서들(220)을 갖는 것으로 도 2에 도시되지만, 음향 센서들(220)의 수는 10개보다 많거나 또는 적을 수 있다. 몇몇 실시예들에서, 더 많은 수의 음향 센서들(220)을 사용하는 것은 수집된 오디오 정보의 양 및/또는 오디오 정보의 민감도 및 정확도를 증가시킬 수 있다. 반대로, 더 적은 수의 음향 센서들(220)을 사용하는 것은 수집된 오디오 정보를 프로세싱하기 위해 제어기(250)에 의해 요구된 컴퓨팅 전력을 감소시킬 수 있다. 또한, 마이크로폰 어레이의 각각의 음향 센서(220)의 위치는 달라질 수 있다. 예를 들어, 음향 센서(220)의 위치는 사용자 상에서의 정의된 위치, 프레임(210) 상에서의 정의된 좌표, 각각의 음향 센서와 연관된 배향, 또는 그것의 몇몇 조합을 포함할 수 있다.
음향 센서들(220(A) 및 220(B))은 귓바퀴 뒤 또는 이개(auricle) 또는 와(fossa) 내에서와 같은, 사용자의 귀의 상이한 부분들 상에 배치될 수 있다. 또는, 외이도 안의 음향 센서들(220) 외에 귀 상에 또는 그것을 둘러싼 부가적인 음향 센서들이 있을 수 있다. 사용자의 외이도 옆에 음향 센서를 배치하는 것은 마이크로폰 어레이로 하여금 사운드들이 어떻게 외이도에 도착하는지에 대한 정보를 수집할 수 있게 할 수 있다. 사용자의 머리의 어느 한 측면 상에 음향 센서들(220) 중 적어도 두 개를 배치함으로써(예컨대, 양이 마이크로폰들로서), AR 디바이스(200)는 양이 듣기를 시뮬레이션하며 사용자의 머리 주위에서 3D 스테레오 음장을 캡처할 수 있다. 몇몇 실시예들에서, 음향 센서들(220(A) 및 220(B))은 유선 연결을 통해 AR 시스템(200)에 연결될 수 있으며, 다른 실시예들에서, 음향 센서들(220(A) 및 (220(B))은 무선 연결(예컨대, 블루투스 연결)을 통해 AR 시스템(200)에 연결될 수 있다. 다른 실시예들에서, 음향 센서들(220(A) 및 (220(B))은 AR 시스템(200)과 함께 전혀 사용되지 않을 수 있다.
프레임(210) 상에서의 음향 센서들(220)은 템플들의 길이를 따라, 브리지에 걸쳐, 디스플레이 디바이스들(215(A) 및 215(B)) 위 또는 아래에, 또는 그것의 몇몇 조합으로 배치될 수 있다. 음향 센서들(220)은 마이크로폰 어레이가 AR 시스템(200)을 착용한 사용자를 둘러싼 광범위한 방향들로 사운드들을 검출할 수 있도록 배향될 수 있다. 몇몇 실시예들에서, 최적화 프로세스는 마이크로폰 어레이에서 각각의 음향 센서(220)의 상대적인 위치결정을 결정하기 위해 AR 시스템(200)의 제조 동안 수행될 수 있다.
AR 시스템(200)은 넥밴드(205)와 같은, 외부 디바이스(예컨대, 쌍을 이룬 디바이스)를 추가로 포함하거나 또는 그것에 연결될 수 있다. 도시된 바와 같이, 넥밴드(205)는 하나 이상의 커넥터들(230)을 통해 안경 디바이스(202)에 결합될 수 있다. 커넥터들(230)은 유선 또는 무선 커넥터들일 수 있으며 전기 및/또는 비-전기(예컨대, 구조적) 구성요소들을 포함할 수 있다. 몇몇 경우들에서, 안경 디바이스(202) 및 넥밴드(205)는 그것들 사이에 임의의 유선 또는 무선 연결 없이 독립적으로 동작할 수 있다. 도 2는 안경 디바이스(202) 및 넥밴드(205) 상에서의 예시적인 위치들에 안경 디바이스(202) 및 넥밴드(205)의 구성요소들을 예시하지만, 구성요소들은 안경 디바이스(202) 및/또는 넥밴드(205) 상에서 다른 곳에 위치되고 및/또는 상이하게 분포될 수 있다. 몇몇 실시예들에서, 안경 디바이스(202) 및 넥밴드(205)의 구성요소들은 안경 디바이스(202), 넥밴드(205), 또는 그것의 몇몇 조합과 쌍을 이룬 하나 이상의 부가적인 주변 디바이스들 상에 위치될 수 있다. 더욱이, 넥밴드(205)는 일반적으로 임의의 유형 또는 형태의 쌍을 이룬 디바이스를 나타낸다. 따라서, 넥밴드(205)에 대한 다음의 논의는 또한 스마트 워치들, 스마트폰들, 손목 밴드들, 다른 착용 가능한 디바이스들, 핸드-헬드 제어기들, 태블릿 컴퓨터들, 랩탑 컴퓨터들 등과 같은, 다양한 다른 쌍을 이룬 디바이스들에 적용할 수 있다.
AR 안경 디바이스들과, 넥밴드(205)와 같은 외부 디바이스들의 짝을 맞추는 것은 안경 디바이스들이 확장된 능력들을 위해 충분한 배터리 및 계산 전력을 여전히 제공하면서 한 쌍의 안경들의 형태 인자를 달성할 수 있게 할 것이다. AR 시스템(200)의 배터리 전력, 계산 리소스들, 및/또는 부가적인 특징들 중 일부 또는 모두는 쌍을 이룬 디바이스에 의해 제공되거나 또는 쌍을 이룬 디바이스 및 안경 디바이스 사이에서 공유될 수 있으며, 따라서 원하는 기능을 여전히 유지하면서 안경 디바이스의 무게, 열 프로필, 및 형태 인자를 전체적으로 감소시킨다. 예를 들어, 넥밴드(205)는 사용자들이 그들의 머리들 상에서 용인하는 것보다 그들의 어깨들 상에서 더 무거운 무게 하중을 용인할 수 있으므로 그 외 안경 디바이스 상에 포함될 구성요소들이 넥밴드(205)에 포함되도록 허용할 수 있다. 넥밴드(205)는 또한 주변 환경에 열을 확산시키고 발산하는 더 큰 표면적을 가질 수 있다. 따라서, 넥밴드(205)는 그 외 독립형 안경 디바이스 상에서 가능할 수 있는 것보다 큰 배터리 및 계산 용량을 허용할 수 있다. 넥밴드(205)에서 운반된 무게는 안경 디바이스(202)에서 운반된 무게보다 사용자에게 더 순응적일 수 있으므로, 사용자는 무거운 독립형 안경 디바이스를 착용하여 사용자가 용인하는 것보다 가벼운 안경 디바이스를 착용하며 더 긴 시간 길이들 동안 쌍을 이룬 디바이스를 운반하거나 또는 착용하는 것을 용인할 수 있고, 그에 의해 인공 현실 환경이 사용자의 매일의 활동들로 더 완전히 통합될 수 있게 한다.
넥밴드(205)는 안경 디바이스(202)와 및/또는 다른 디바이스들에 통신적으로 결합될 수 있다. 다른 디바이스들은 특정한 기능들(예컨대, 추적, 국소화, 깊이 매핑, 프로세싱, 저장 등)을 AR 시스템(200)에 제공할 수 있다. 도 2의 실시예에서, 넥밴드(205)는 마이크로폰 어레이의 부분인(또는 그 자신의 마이크로폰 서브어레이를 형성하는) 두 개의 음향 센서들(예컨대, 220(I) 및 220(J))을 포함할 수 있다. 넥밴드(205)는 또한 제어기(225) 및 전원(235)을 포함할 수 있다.
넥밴드(205)의 음향 센서들(220(I) 및 220(J))은 사운드를 검출하고 검출된 사운드를 전자 포맷(아날로그 또는 디지털)으로 변환하도록 구성될 수 있다. 도 2의 실시예에서, 음향 센서들(220(I) 및 220(J))은 넥밴드(205) 상에 배치될 수 있으며, 그에 의해 넥밴드 음향 센서들(220(I) 및 220(J)) 및 안경 디바이스(202) 상에 배치된 다른 음향 센서들(220) 사이에서의 거리를 증가시킬 수 있다. 몇몇 경우들에서, 마이크로폰 어레이의 음향 센서들(220) 간의 거리를 증가시키는 것은 마이크로폰 어레이를 통해 수행된 빔형성의 정확도를 개선할 수 있다. 예를 들어, 사운드가 음향 센서들(220(C) 및 220(D))에 에 의해 검출되며 음향 센서들(220(C) 및 220(D)) 간의 거리가, 예컨대 음향 센서들(220(D) 및 220(E))보다 크다면, 검출된 사운드의 결정된 소스 위치는 사운드가 음향 센서들(220(D) 및 220(E))에 의해 검출된 경우보다 정확할 수 있다.
넥밴드(205)의 제어기(225)는 넥밴드(205) 및/또는 AR 시스템(200) 상에서의 센서들에 의해 생성된 정보를 프로세싱할 수 있다. 예를 들어, 제어기(225)는 마이크로폰 어레이에 의해 검출된 사운드들을 설명하는 마이크로폰 어레이로부터의 정보를 프로세싱할 수 있다. 각각의 검출된 사운드에 대해, 제어기(225)는 검출된 사운드가 마이크로폰 어레이에 도착한 방향을 추정하기 위해 DoA 추정을 수행할 수 있다. 마이크로폰 어레이가 사운드들을 검출할 때, 제어기(225)는 정보를 갖고 오디오 데이터 세트를 채울 수 있다. AR 시스템(200)이 관성 측정 유닛을 포함하는 실시예들에서, 제어기(225)는 안경 디바이스(202) 상에 위치된 IMU로부터 모든 관성 및 공간 산출들을 계산할 수 있다. 커넥터(230)는 AR 시스템(200)과 넥백드(205) 사이에서 및 AR 시스템(200)과 제어기(225) 사이에서 정보를 운반할 수 있다. 정보는 광학 데이터, 전기 데이터, 무선 데이터, 또는 임의의 다른 송신 가능한 데이터 형태의 형태로 있을 수 있다. AR 시스템(200)에 의해 생성된 정보의 프로세싱을 넥밴드(205)로 이동시키는 것은 안경 디바이스(202)에서 무게 및 열을 감소시켜서, 그것이 사용자에게 더 편안해지도록 할 수 있다.
넥밴드(205)에서의 전원(235)은 전력을 안경 디바이스(202)로 및/또는 넥밴드(205)로 제공할 수 있다. 전원(235)은 제한 없이, 리튬 이온 배터리들, 리튬-폴리머 배터리들, 1차 리튬 배터리들, 알칼리 배터리들, 또는 임의의 다른 형태의 전력 저장장치를 포함할 수 있다. 몇몇 경우들에서, 전원(235)은 유선 전원일 수 있다. 안경 디바이스(202) 대신에 넥밴드(205) 상에 전원(235)을 포함하는 것은 전원(235)에 의해 발생된 무게 및 열을 더 양호하게 분산시키도록 도울 수 있다.
주지된 바와 같이, 몇몇 인공 현실 시스템들은, 실제 현실과 인공 현실을 혼합하는 대신에, 실질적으로 실세계의 사용자의 감각적 지각 중 하나 이상을 가상 경험으로 대체할 수 있다. 이러한 유형의 시스템의 일 예는, 사용자의 시야를 주로 또는 완전히 커버하는, 도 3에서의 VR 시스템(300)과 같은, 헤드-착용 디스플레이 시스템이다. VR 시스템(300)은 사용자의 머리 주위에 맞도록 성형된 전방 강체(302) 및 밴드(304)를 포함할 수 있다. VR 시스템(300)은 또한 출력 오디오 트랜듀서들(306(A) 및 306(B))을 포함할 수 있다. 더욱이, 도 3에 도시되지 않지만, 전방 강체(302)는 하나 이상의 전자 디스플레이들, 하나 이상의 관성 측정 유닛들(IMU들), 하나 이상의 추적 방출기들 또는 검출기들, 및/또는 인공 현실 경험을 생성하기 위한 임의의 다른 적절한 디바이스 또는 시스템을 포함한, 하나 이상의 전자 요소들을 포함할 수 있다.
인공 현실 시스템들은 다양한 유형들의 시각적 피드백 메커니즘들을 포함할 수 있다. 예를 들어, AR 시스템(200) 및/또는 VR 시스템(300)에서의 디스플레이 디바이스들은 하나 이상의 액정 디스플레이들(LCD들), 발광 다이오드(LED) 디스플레이들, 유기 LED(OLED) 디스플레이들, 및/또는 임의의 다른 적절한 유형의 디스플레이 스크린을 포함할 수 있다. 인공 현실 시스템들은 양쪽 눈들을 위한 단일 디스플레이 스크린을 포함할 수 있거나 또는 각각의 눈을 위한 디스플레이 스크린을 제공할 수 있으며, 이것은 가변초점 조정들을 위해 또는 사용자의 굴절 오류를 정정하기 위해 부가적인 유연성을 허용할 수 있다. 몇몇 인공 현실 시스템들은 또한 사용자가 디스플레이 스크린을 볼 수 있는 하나 이상의 렌즈들(예컨대, 종래의 오목 또는 볼록 렌즈들, 프레넬(Fresnel) 렌즈들, 조정 가능한 액체 렌즈들 등)을 가진 광학 서브시스템들을 포함할 수 있다.
디스플레이 스크린들을 사용하는 것 외에 또는 그 대신에, 몇몇 인공 현실 시스템들은 하나 이상의 투사 시스템들을 포함할 수 있다. 예를 들어, AR 시스템(200) 및/또는 VR 시스템(300)에서의 디스플레이 디바이스들은 주변 광이 통과하도록 허용하는 투명한 컴바이너 렌즈들과 같은, 광을 디스플레이 디바이스들로 투사하는(예컨대, 도파관을 사용하여) 마이크로-LED 투사기들을 포함할 수 있다. 디스플레이 디바이스들은 투사된 광을 사용자의 동공을 향해 굴절시킬 수 있으며 사용자가 인공 현실 콘텐트 및 실세계 양쪽 모두를 동시에 볼 수 있게 할 것이다. 인공 현실 시스템들은 또한 임의의 다른 적절한 유형 또는 형태의 이미지 투사 시스템을 갖고 구성될 수 있다.
인공 현실 시스템들은 또한 다양한 유형들의 컴퓨터 비전 구성요소들 및 서브시스템들을 포함할 수 있다. 예를 들어, AR 시스템(100), AR 시스템(200), 및/또는 AR 시스템(300)은 2-차원(2D) 또는 3-차원 카메라들, 비과 시간 깊이 센서들, 단일-빔 또는 스위핑 레이저 거리측정기들, 3D LiDAR 센서들, 및/또는 임의의 다른 적절한 유형 또는 형태의 광학 센서와 같은 하나 이상의 광학 센서들을 포함할 수 있다. 인공 현실 시스템은 사용자의 위치를 식별하기 위해, 실세계를 매핑시키기 위해, 실-세계 환경들에 대한 콘텍스트를 사용자에게 제공하기 위해, 및/또는 다양한 다른 기능들을 수행하기 위해 이들 센서들 중 하나 이상으로부터의 데이터를 프로세싱할 수 있다.
인공 현실 시스템들은 또한 하나 이상의 입력 및/또는 출력 오디오 트랜듀서들을 포함할 수 있다. 도 1 및 도 3에 도시된 예들에서, 출력 오디오 트랜듀서들(108(A), 108(B), 306(A), 및 306(B))은 음성 코일 스피커들, 리본 스피커들, 정전식 스피커들, 압전 스피커들, 골 전도 트랜듀서들, 연골 전도 트랜듀서들, 및/또는 임의의 다른 적절한 유형 또는 형태의 오디오 트랜듀서를 포함할 수 있다. 유사하게, 입력 오디오 트랜듀서들(110)은 콘덴서 마이크로폰들, 동적 마이크로폰들, 리본 마이크로폰들, 및/또는 임의의 다른 유형 또는 형태의 입력 트랜듀서를 포함할 수 있다. 몇몇 실시예들에서, 단일 트랜듀서는 양쪽 오디오 입력 및 오디오 출력 모두를 위해 사용될 수 있다.
도 1 내지 도 3에 도시되지 않지만, 인공 현실 시스템들은 촉각(즉, 햅틱) 피드백 시스템들을 포함할 수 있으며, 이것은 헤드웨어, 글러브들, 바디 슈트, 핸드헬드 제어기들, 환경 디바이스들(예컨대, 의자들, 바닥매트들 등), 및/또는 임의의 다른 유형의 디바이스 또는 시스템으로 통합될 수 있다. 햅틱 피드백 시스템들은 진동, 힘, 끌기, 텍스처, 및/또는 온도를 포함한, 다양한 유형들의 피부 피드백을 제공할 수 있다. 햅틱 피드백 시스템들은 또한 모션 및 순응과 같은, 다양한 유형들의 운동감각 피드백을 제공할 수 있다. 햅틱 피드백은 모터들, 압전 구동기들, 유동성 시스템들, 및/또는 다양한 다른 유형들의 피드백 메커니즘들을 사용하여 구현될 수 있다. 햅틱 피드백 시스템들은 다른 인공 현실 디바이스들과 독립적으로, 다른 인공 현실 디바이스들 내에서, 및/또는 다른 인공 현실 디바이스들과 함께 구현될 수 있다.
햅틱 감각들, 가청 콘텐트, 및/또는 시각적 콘텐트를 제공함으로써, 인공 현실 시스템들은 전체 가상 경험을 생성하거나 또는 다양한 콘텍스트들 및 환경들에서 사용자의 실-세계 경험을 강화할 수 있다. 예를 들어, 인공 현실 시스템들은 특정한 환경 내에서 사용자의 지각, 기억, 또는 인지를 보조하거나 또는 확장할 수 있다. 몇몇 시스템들은 실세계에서의 다른 사람들과 사용자의 상호작용들을 강화할 수 있거나 또는 가상 세계에서의 다른 사람들과 더 몰입감 있는 상호작용들을 가능하게 할 수 있다. 인공 현실 시스템들은 또한 교육적인 목적들(예를 들어, 학교들, 병원들, 정부 기관들, 군대 조직들, 비즈니스 기업들 등에서의 교시 또는 트레이닝을 위해), 엔터테인먼트 목적들(예를 들어, 비디오 게임들을 플레이하고, 음악을 듣고, 비디오 콘텐트를 보는 등을 위해)을 위해, 및/또는 액세스 가능성 목적들을 위해(예를 들어, 보청기들, 시각 보조 기구들로서) 사용될 수 있다. 여기에서 개시된 실시예들은 이들 콘텍스트들 및 환경들 중 하나 이상에서 및/또는 다른 콘텍스트들 및 환경들에서 사용자의 인공 현실 경험을 가능하게 하거나 또는 강화할 수 있다.
몇몇 AR 시스템들은 "동시적 위치 및 매핑"(SLAM)으로서 불리우는 기술들을 사용하여 사용자의 환경을 매핑시킬 수 있다. SLAM 매핑 및 위치 식별 기술들은 매핑된 환경 내에서 사용자의 위치를 계속해서 파악하고 있으면서 동시에 환경의 맵을 생성하거나 또는 업데이트할 수 있는 다양한 하드웨어 및 소프트웨어 툴들을 수반할 수 있다. SLAM은 맵을 생성하고 맵 내에서 사용자의 위치를 결정하기 위해 많은 상이한 유형들의 센서들을 사용할 수 있다.
SLAM 기술들은, 예를 들어, 사용자의 위치를 결정하기 위해 광학 센서들을 구현할 수 있다. WiFi, 블루투스, 전역적 위치결정 시스템(GPS), 셀룰러 또는 다른 통신 디바이스들을 포함한 라디오들이 또한 라디오 트랜시버 또는 트랜시버들의 그룹(예컨대, WiFi 라우터 또는 GPS 위성들의 그룹)에 대한 사용자의 위치를 결정하기 위해 사용될 수 있다. 마이크로폰 어레이들 또는 2D 또는 3D 소나 센서들과 같은 음향 센서들은 또한 환경 내에서 사용자의 위치를 결정하기 위해 사용될 수 있다. AR 및 VR 디바이스들(각각, 도 1, 도 2, 또는 도 3의 시스템들(100, 200, 또는 300)과 같은)은 사용자의 현재 환경의 맵들을 생성하고 계속해서 업데이트하는 것과 같은 SLAM 동작들을 수행하기 위해 이들 유형들의 센서들 중 임의의 것 또는 모두를 통합할 수 있다. 여기에서 설명된 실시예들 중 적어도 일부에서, 이들 센서들에 의해 생성된 SLAM 데이터는 "환경 데이터"로서 불리울 수 있으며 사용자의 현재 환경을 나타낼 수 있다. 이러한 데이터는 로컬 또는 원격 데이터 저장소(예컨대, 클라우드 데이터 저장소)에 저장될 수 있으며 요구에 따라 사용자의 AR/VR 디바이스로 제공될 수 있다.
사용자가 주어진 환경에서 AR 헤드셋 또는 VR 헤드셋을 착용하고 있을 때, 사용자는 오디오 소스들로서 작용하는 다른 사용자들 또는 다른 전자 디바이스들과 상호 작용할 수 있다. 몇몇 경우들에서, 오디오 소스들이 사용자에 대하여 위치되는 곳을 결정하고 그 후 그들이 오디오 소스의 위치에서 온 것처럼 사용자에게 오디오 소스들을 제공하는 것이 바람직할 수 있다. 오디오 소스들이 사용자에 대하여 위치되는 곳을 결정하는 프로세스는 여기에서 "국소화"로서 불리울 수 있으며 그것이 특정 방향으로부터 온 것처럼 보이도록 오디오 소스 신호의 재생을 렌더링하는 프로세스는 여기에서 "공간화"로서 불리울 수 있다.
오디오 소스를 국소화하는 것은 다양한 상이한 방식들로 수행될 수 있다. 몇몇 경우들에서, AR 또는 VR 헤드셋은 사운드 소스의 위치를 결정하기 위해 도착 방향(DOA) 분석을 개시할 수 있다. DOA 분석은 사운드들이 비롯되는 방향을 결정하기 위해 AR/VR 디바이스에서 각각의 사운드의 세기, 스펙트럼들, 및/또는 도착 시간을 분석하는 것을 포함할 수 있다. 몇몇 경우들에서, DOA 분석은 인공 현실 디바이스가 위치되는 주변 음향 환경을 분석하기 위해 임의의 적절한 알고리즘을 포함할 수 있다.
예를 들어, DOA 분석은 마이크로폰으로부터 입력 신호들을 수신하고 도착의 방향을 추정하기 위해 입력 신호들에 디지털 신호 프로세싱 알고리즘들을 적용하도록 설계될 수 있다. 이들 알고리즘들은, 예를 들어, 입력 신호가 샘플링되는 지연 및 합산 알고리즘들을 포함할 수 있으며, 샘플링된 신호의 결과적인 가중 및 지연된 버전들은 도착의 방향을 결정하기 위해 함께 평균화된다. 최소 평균 제곱(LMS) 알고리즘은 또한 적응형 필터를 생성하기 위해 구현될 수 있다. 이러한 적응형 필터는 그 후 예를 들어, 신호 세기에서의 차이들, 또는 도착 시간에서의 차이들을 식별하기 위해 사용될 수 있다. 이들 차이들은 그 후 도착의 방향을 추정하기 위해 사용될 수 있다. 또 다른 실시예에서, DOA는 입력 신호들을 주파수 도메인으로 변환하며 프로세싱할 시간-주파수(TF) 도메인 내에서의 특정 빈들을 선택함으로써 결정될 수 있다. 각각의 선택된 TF 빈은 상기 빈이 직접-경로 오디오 신호를 가진 오디오 스펙트럼의 일 부분을 포함하는지를 결정하기 위해 프로세싱될 수 있다. 직접-경로 신호의 일 부분을 가진 이들 빈들은 그 후 마이크로폰 어레이가 직접-경로 오디오 신호를 수신한 각도를 식별하기 위해 분석될 수 있다. 결정된 각도는 그 후 수신된 입력 신호에 대한 도착 방향을 식별하기 위해 사용될 수 있다. 상기 열거되지 않은 다른 알고리즘들이 또한 DOA를 결정하기 위해 단독으로 또는 상기 알고리즘들과 조합하여 사용될 수 있다.
몇몇 실시예들에서, 상이한 사용자들은 약간 상이한 위치들에서 온 것으로 사운드의 소스를 지각할 수 있다. 이것은 고유 헤드-관련 전달 함수(HRTF)를 가진 각각의 사용자의 결과일 수 있으며, 이것은 외이도 길이를 포함한 사용자의 해부학 및 고막의 위치결정에 의해 서술될 수 있다. 인공 현실 디바이스는 정렬 및 배향 가이드를 제공할 수 있으며, 이것은 사용자가 그것들 고유의 HRTF에 기초하여 사용자에게 제공된 사운드 신호를 맞춤화하기 위해 따를 수 있다. 몇몇 실시예들에서, 인공 현실 디바이스는 사용자의 환경 내에서 사운드들을 청취하기 위해 하나 이상의 마이크로폰들을 구현할 수 있다. AR 또는 VR 헤드셋은 사운드들에 대한 도착의 방향을 추정하기 위해 다양한 상이한 어레이 전달 함수들(예컨대, 상기 식별된 DOA 알고리즘들 중 임의의 것)을 사용할 수 있다. 일단 도착의 방향이 결정되었다면, 인공 현실 디바이스는 사용자의 고유 HRTF에 따라 사용자에게 사운드들을 재생할 수 있다. 따라서, 어레이 전달 함수(ATF)를 사용하여 생성된 DOA 추정은 그로부터 사운드들이 재생되는 방향을 결정하기 위해 사용될 수 있다. 재생 사운드들은 또한 HTRF에 따라 상기 특정 사용자가 어떻게 사운드들을 듣는지에 기초하여 추가로 개선될 수 있다.
DOA 추정을 수행하는 것 외에 또는 그것에 대한 대안으로서, 인공 현실 디바이스는 다른 유형들의 센서들로부터 수신된 정보에 기초하여 국소화를 수행할 수 있다. 이들 센서들은 카메라들, IR 센서들, 열 센서들, 모션 센서들, GPS 수신기들, 또는 몇몇 경우들에서, 사용자의 눈 움직임들을 검출하는 센서를 포함할 수 있다. 예를 들어, 상기 주지된 바와 같이, 인공 현실 디바이스는 사용자가 보는 곳을 결정하는 눈 추적기 또는 응시 검출기를 포함할 수 있다. 종종, 사용자의 눈들은 오직 잠시, 사운드의 소스를 볼 것이다. 사용자들의 눈들에 의해 제공된 이러한 단서들은 또한 사운드 소스의 위치를 결정하는 것을 도울 수 있다. 카메라들, 열 센서들, 및 IR 센서들과 같은 다른 센서들은 또한 사용자의 위치, 전자 디바이스의 위치, 또는 또 다른 사운드 소스의 위치를 나타낼 수 있다. 상기 방법들 중 임의의 것 또는 모두는 사운드 소스의 위치를 결정하기 위해 개별적으로 또는 조합하여 사용될 수 있으며 또한 시간에 걸쳐 사운드 소스의 위치를 업데이트하기 위해 사용될 수 있다.
몇몇 실시예들은 사용자를 위한 더 맞춤화된 출력 오디오 신호를 생성하도록 결정된 DOA를 구현할 수 있다. 예를 들어, "음향 전달 함수"는 사운드가 어떻게 주어진 위치로부터 수신되는지를 특성화하거나 또는 정의할 수 있다. 보다 구체적으로, 음향 전달 함수는 그것의 소스 위치에서의 사운드의 파라미터들 및 사운드 신호가 검출되는(예컨대, 마이크로폰 어레이에 의해 검출되거나 또는 사용자의 귀에 의해 검출된) 파라미터들 간의 관계를 정의할 수 있다. 인공 현실 디바이스는 디바이스의 범위 내에서 사운드들을 검출하는 하나 이상의 음향 센서들을 포함할 수 있다. 인공 현실 디바이스의 제어기는 검출된 사운드들에 대한 DOA를 추정할 수 있으며(예컨대, 상기 식별된 방법들 중 임의의 것을 사용하여), 상기 검출된 사운드들의 파라미터들에 기초하여, 디바이스의 위치에 특정적인 음향 전달 함수를 생성할 수 있다. 이러한 맞춤화된 음향 전달 함수는 그 후 사운드가 특정 위치에서 온 것으로 지각되는 공간화된 출력 오디오 신호를 생성하기 위해 사용될 수 있다.
실제로, 사운드 소스 또는 소스들의 위치가 알려지면, 인공 현실 디바이스는 상기 사운드 소스의 방향에서 온 것처럼 들리도록 사운드 신호를 재-렌더링(즉, 공간화)할 수 있다. 인공 현실 디바이스는 사운드 신호의 세기, 스펙트럼들, 또는 도착 시간을 변경하는 필터들 또는 다른 디지털 신호 프로세싱을 적용할 수 있다. 디지털 신호 프로세싱은 사운드 신호가 결정된 위치에서 비롯된 것으로 지각되도록 하는 방식으로 적용될 수 있다. 인공 현실 디바이스는 특정한 주파수들을 증폭시키거나 또는 가라앉히거나 또는 신호가 각각의 귀에 도착하는 시간을 변경할 수 있다. 몇몇 경우들에서, 인공 현실 디바이스는 디바이스의 위치 및 사운드 신호의 검출된 도착의 방향에 특정적인 음향 전달 함수를 생성할 수 있다. 몇몇 실시예들에서, 인공 현실 디바이스는 스테레오 디바이스 또는 다중-스피커 디바이스(예컨대, 서라운드 사운드 디바이스)에서 소스 신호를 재-렌더링할 수 있다. 이러한 경우들에서, 별개의 및 개별적인 오디오 신호들은 각각의 스피커로 전송될 수 있다. 이들 오디오 신호들의 각각은 그것들이 사운드 소스의 결정된 위치에서 온 것처럼 들리도록 사용자의 HRTF에 따라서 및 사용자의 위치의 측정들 및 사운드 소스의 위치에 따라 변경될 수 있다. 따라서, 이러한 방식으로, 인공 현실 디바이스(또는 디바이스와 연관된 스피커들)는 특정 위치에서 비롯된 것처럼 들리도록 오디오 신호를 재-렌더링할 수 있다.
다음은, 도 4 내지 도 11을 참조하여, 자연어 번역이 증강 현실에서 어떻게 수행되는지에 대한 상세한 설명들을 제공할 것이다. 예를 들어, 도 4는 여기에서 설명된 실시예들 중 많은 것이 동작할 수 있는 컴퓨팅 아키텍처(400)를 예시한다. 컴퓨팅 아키텍처(400)는 컴퓨터 시스템(401)을 포함할 수 있다. 컴퓨터 시스템(401)은 적어도 하나의 프로세서(402) 및 적어도 몇몇 시스템 메모리(403)를 포함할 수 있다. 컴퓨터 시스템(401)은 클라우드 컴퓨터 시스템을 포함하여, 임의의 유형의 로컬 또는 분산형 컴퓨터 시스템일 수 있다. 컴퓨터 시스템(401)은 다양한 상이한 기능들을 수행하기 위한 프로그램 모듈들을 포함할 수 있다. 프로그램 모듈들은 하드웨어-기반, 소프트웨어-기반일 수 있거나, 또는 하드웨어 및 소프트웨어의 조합을 포함할 수 있다. 각각의 프로그램 모듈은 여기에서 이하에 설명되는 것들을 포함한, 특정된 기능들을 수행하기 위해 컴퓨팅 하드웨어 및/또는 소프트웨어를 사용하거나 또는 나타낼 수 있다.
예를 들어, 통신 모듈(404)은 다른 컴퓨터 시스템들과 통신하도록 구성될 수 있다. 통신 모듈(404)은 다른 컴퓨터 시스템들로 또는 그로부터 데이터를 수신하고 및/또는 송신할 수 있는 임의의 유선 또는 무선 통신 수단을 포함할 수 있다. 이들 통신 수단은 예를 들어, 하드웨어-기반 수신기(405), 하드웨어-기반 송신기(406), 또는 데이터를 수신하고 송신할 수 있는 조합된 하드웨어-기반 트랜시버를 포함한 라디오들을 포함할 수 있다. 라디오들은 WIFI 라디오들, 셀룰러 라디오들, 블루투스 라디오들, 전역적 위치결정 시스템(GPS) 라디오들, 또는 다른 유형들의 라디오들을 포함할 수 있다. 통신 모듈(404)은 데이터베이스들, 이동 컴퓨팅 디바이스들(이동 전화들 또는 태블릿들과 같은), 내장형 시스템들, 또는 다른 유형들의 컴퓨팅 시스템들과 상호작용하도록 구성될 수 있다.
컴퓨터 시스템(401)은 또한 오디오 액세싱 모듈(407)을 포함한 다른 모듈들을 포함할 수 있다. 오디오 액세싱 모듈(407)은 라이브(또는 저장된) 오디오 입력 스트림(409)을 액세스하도록 구성될 수 있다. 오디오 입력 스트림(409)은 말하는 사용자(408)가 말한 하나 이상의 단어들(410)을 포함할 수 있다. 말하는 사용자(408)가 말한 단어들은 듣는 사용자(413)에 의해 이해되지 않는(부분적으로 또는 완전히) 언어로 있을 수 있다. 컴퓨터 시스템(401)의 잡음 소거 모듈(411)은 말하는 사용자로부터 수신된 오디오 입력 스트림(409)(즉, 컴퓨터 시스템(401) 상에서의 마이크로폰에서 수신된 또는 말하는 사용자(408)와 연관된 전자 디바이스 상에서의 마이크로폰에서 수신된 오디오 입력 스트림)을 소거하도록 설계되는 잡음 소거 신호(412)를 생성할 수 있다. 따라서, 이러한 방식으로, 말하는 사용자(408)가 말할 때, 듣는 사용자는 말하는 사용자의 단어들을 상쇄하고 실질적으로 침묵시키는 잡음 소거 신호(412)를 들을 수 있다.
컴퓨터 시스템(401)의 오디오 프로세싱 모듈(414)은 말하는 사용자(408)가 말한 단어들(410) 또는 구절들 중 하나 이상을 식별하도록 구성될 수 있다. 인식될 바와 같이, 단어들(410)은 단일 단어들, 단어들의 구절들 또는 완전한 문장들을 포함할 수 있다. 이들 단어들 또는 단어들의 그룹들은 개별적으로 인식되고 번역될 수 있거나 또는 구절들 또는 문장들로서 종합적으로 인식되고 번역될 수 있다. 따라서, 단어 식별 및 번역은 여기에서 주로 단수형으로 설명되지만, 이들 단어들(410)은 구절들 또는 완전한 문장들일 수 있다는 것이 이해될 것이다.
각각의 단어(410)는 말하는 사용자(408)가 말한 언어로 식별될 수 있다. 일단 오디오 프로세싱 모듈(414)이 말하는 사용자의 단어들 중 하나 이상을 식별하였다면, 식별된 단어들(415)은 번역 모듈(416)로 공급될 수 있다. 번역 모듈(416)은 식별된 단어들(415)을 특정된 언어(예컨대, 듣는 사용자(413)에 의해 말하여진 언어)로 번역하기 위해 사전들, 데이터베이스들, 또는 다른 로컬 또는 온라인 리소스들을 사용할 수 있다. 번역된 단어들(417)은 그 후 스피치 생성기(418)로 공급될 수 있다. 스피치 생성기(418)는 말하는 사용자의 단어들(410)의 의미를 전달하는 말한 단어들(419)을 생성할 수 있다. 말한 단어들(419)은 컴퓨터-생성 음성에 의해 말하여질 수 있거나, 또는 몇몇 실시예들에서, 말하는 사용자(408) 스스로에 의해 말하여진 것처럼 들리도록 개인화될 수 있다. 이들 말한 단어들(420)은 컴퓨터 시스템(401)의 재생 모듈(420)로 제공되며, 여기에서 그것들은 듣는 사용자(413)로 재생된다. 따라서, 이러한 방식으로, 능동 잡음 소거 및 언어 번역은 말하는 사용자로 하여금 그들의 모국어로 말하도록 허용하기 위해 조합되며, 듣는 사용자는 말하는 사용자의 단어들의 번역된 버전만을 듣는다. 이들 실시예들은 도 5의 방법(500)에 대하여 이하에서 더 상세하게 설명될 것이다.
도 5는 AR에서 자연어 번역을 수행하기 위한 대표적인 컴퓨터-구현 방법(500)의 흐름도이다. 도 5에 도시된 단계들은 도 4에 예시된 시스템(들)을 포함한, 임의의 적절한 컴퓨터-실행 가능한 코드 및/또는 컴퓨팅 시스템에 의해 수행될 수 있다. 일 예에서, 도 5에 도시된 단계들의 각각은 그 구조가 다수의 서브-단계들을 포함하고 및/또는 그것에 의해 표현되는 알고리즘을 나타낼 수 있으며, 그 예들은 이하에서 더 상세하게 제공될 것이다.
도 5에 예시된 바와 같이, 단계(510)에서, 여기에서 설명된 시스템들 중 하나 이상은 제 1 언어로 말하는 사용자가 말한 단어들을 포함하는 오디오 입력 스트림을 액세스할 수 있다. 예를 들어, 오디오 액세싱 모듈(407)은 오디오 입력 스트림(409)을 액세스할 수 있다. 오디오 입력 스트림(409)은 말하는 사용자(408)가 말한 하나 이상의 단어들(410)을 포함할 수 있다. 오디오 입력 스트림(409)은 라이브이거나 또는 사전 기록될 수 있다. 단어들(410)은 임의의 언어로 말하여질 수 있다.
방법(500)은 그 후 말한 단어들이 듣는 사용자에게 이르기 전에 억제되도록 오디오 입력 스트림(409)에서의 단어들(410)에 대한 능동 잡음 소거를 수행하는 것을 포함할 수 있다(단계 520). 예를 들어, 컴퓨터 시스템(401)의 잡음 소거 모듈(411)은 말하는 사용자의 음성의 세기를 억제하거나 또는 감소시키거나 또는 말하는 사용자의 음성을 전체적으로 상쇄하도록 설계되는 잡음 소거 신호(412)를 생성할 수 있다. 이와 같이, 말하는 사용자(408)가 말할 때, 듣는 사용자(413)는 말하는 사용자의 단어들을 들을 수 없거나 또는 단지 단어들의 낮춘 또는 음소거된 버전들만을 들을 수 있다. 잡음 소거 신호(412)는 듣는 사용자로 재생을 제공할 때 컴퓨터 시스템(401) 내에서 내부적으로 사용될 수 있거나 또는 헤드 셋 또는 이어 폰들과 같은 디바이스로 전송될 수 있으며, 여기에서 잡음 소거 신호는 말하는 사용자의 음성을 침묵시키기 위해 사용될 수 있다. 잡음 소거 신호(412)는 세기를 높이거나 또는 낮출 수 있거나 또는 원한다면 완전히 턴 오프될 수 있다.
방법(500)은 말하는 사용자(408)가 말한 단어들(410)을 식별하기 위해 오디오 입력 스트림(409)을 프로세싱하는 것(단계 530), 및 말하는 사용자가 말한 식별된 단어들을 제 2의, 상이한 언어로 번역하는 것(단계 540)을 추가로 포함할 수 있다. 오디오 프로세싱 모듈(414)은 말하는 사용자(408)가 어떤 단어들(410)을 말하였는지를 식별하기 위해 오디오 입력 스트림(409)을 프로세싱할 수 있다. 오디오 프로세싱 모듈(414)은 말하는 사용자(408)가 말한 단어들을 식별할 때 스피치-투-텍스트(STT) 알고리즘들, 사전들, 데이터베이스들, 기계 학습 기술들, 또는 다른 프로그램들 또는 리소스들을 사용할 수 있다. 이들 식별된 단어들(415)은 그 후 번역 모듈(416)로 제공된다. 번역 모듈(416)은 식별된 단어들(415)을 또 다른 언어로 번역한다. 이러한 새로운 언어는 듣는 사용자(413)에 의해 말하여지거나 또는 적어도 이해되는 것일 수 있다. 이들 번역된 단어들(417)은 그 후 말한 단어들을 생성하기 위해 스피치 생성기(418)로 제공될 수 있다.
도 5의 방법(500)은 다음으로 번역된 단어들을 사용하여 제 2의, 상이한 언어로 말한 단어들을 생성하는 것(단계 550) 및 제 2 언어로 생성된 말한 단어들을 듣는 사용자에게 리플레이하는 것(단계 560)을 포함할 수 있다. 예를 들어, 스피치 생성기(418)는 번역된 단어들(417)(예컨대, 디지털 텍스트의 스트링으로)을 수신할 수 있으며 번역된 단어들에 대응하는 말한 단어들(419)을 생성할 수 있다. 스피치 생성기(418)는 번역된 단어들(417)로부터 말한 단어들(419)을 생성하기 위해 텍스트-투-스피치(TTS) 알고리즘들 또는 데이터베이스들, 사전들, 기계 학습 기술들, 또는 다른 애플리케이션들 또는 프로그램들을 포함한 다른 리소스들을 사용할 수 있다. 말한 단어들은 컴퓨터-생성된 음성에 의해 말하여진 것처럼 들릴 수 있거나 또는 말하는 사용자(408) 스스로에 의해 말하여진 것처럼 들리도록 개인화될 수 있다(이하에서 추가로 설명될 바와 같이). 일단 말한 단어들(419)이 생성되었다면, 그것들은 듣는 사용자(413)로의 재생을 위해 재생 모듈(420)로 전달될 수 있다. 말한 단어들은 컴퓨터 시스템(401)의 부분이거나 또는 유선 또는 무선 연결을 통해 컴퓨터 시스템(401)에 연결되는 스피커들로 전송될 수 있다. 이러한 방식으로, 듣는 사용자(413)는 말하는 사용자의 단어들(410)의 번역을 표현하는 말한 단어들을 들을 것이지만, 잡음 소거 모듈(411)은 동시에 단지 듣는 사용자에 의해 들리는 것만이 번역된 말한 단어들(419)임을 보장한다.
몇몇 실시예들에서, 말한 단어들(419)은 증강 현실(AR), 가상 현실(VR) 또는 혼합 현실(MR) 헤드셋(예컨대, 각각 도 1, 도 2 또는 도 3의 헤드셋들(100, 200 또는 300) 중 임의의 것) 상에서의 스피커들을 통해 재생될 수 있다. 이들 형태들의 변경된 현실 중 임의의 것은 여기에서 설명된 실시예들 중 임의의 것에서 사용될 수 있지만, 이하에서 설명되는 실시예들은 주로 증강 현실을 다룰 것이다. AR 헤드셋들(듣는 사용자(603)에 의해 착용된 도 6에서의 630A, 또는 말하는 사용자(606)에 의해 착용된 헤드셋(630B)과 같은)은 이미지들이 사용자의 눈들로 투사되고 반사되도록 허용하는 내부 반사성 표면을 또한 가지면서, 사용자들이 바깥쪽 세계를 지켜보도록 허용하는 투명 렌즈들을 포함할 수 있다. 따라서, 사용자는 그들의 환경에서 모든 것을 볼 수 있지만, 또한 AR 헤드 셋에 의해 생성된 가상 요소들을 볼 수 있다. 게다가, AR 헤드 셋은 내장 스피커들을 제공할 수 있거나, 또는 사용자의 귀들 안에 맞는 유선 또는 무선 이어 피스들을 가질 수 있다. 이들 스피커들 또는 이어 피스들은 오디오가 음악, 비디오 게임 콘텐트, 영화 또는 비디오 콘텐트, 스피치 또는 다른 형태들의 오디오 콘텐트인지에 관계없이, 사용자의 귀들로 오디오를 제공한다. 따라서, 여기에서의 실시예들 중 적어도 일부에서, 컴퓨터 시스템(401), 또는 컴퓨터 시스템(401)의 모듈들 중 적어도 일부는 AR 헤드 셋으로 내장될 수 있다. 따라서, AR 헤드 셋은 AR 헤드 셋의 스피커들 또는 이어 피스들을 통해 잡음 소거, 오디오 프로세싱, 번역, 스피치 생성 및 재생을 수행할 수 있다.
상기 언급된 바와 같이, 생성된 말한 단어들(419)은 말하는 사용자(408)에 대해 개인화될 수 있으며, 따라서 제 2 언어로 생성된 말한 단어들은 말하는 사용자(408)에 의해 말하여지는 것처럼 들린다. 많은 경우들에서, 말하는 사용자가 상기 언어로 말할 수 없을지라도, 그것들이 말하는 사용자(408)에 의해 말하여지는 것처럼 번역된 말한 단어들(419)을 듣는 것이 바람직할 수 있다. 이러한 개인화는 사용자의 단어들에 친숙한 톤 및 느낌을 제공한다. 개인화는 단어들이 덜 기계적이고 로봇 같으며 및 더 친숙하고 개인적이게 들리도록 한다. 여기에서의 실시예들은 말하는 사용자(408)에 의해 발음되고 말하여지는 것처럼 들리도록 말한 단어들(419)을 만들도록 설계된다.
몇몇 실시예들에서, 생성된 말한 단어들(419)을 개인화하는 것은 말하는 사용자가 다양한 단어들 또는 음절들을 어떻게 발음하는지를 결정하기 위해 오디오 입력 스트림(409)을 프로세싱하는 것을 포함할 수 있다. 예를 들어, 각각의 사용자는 약간 상이한 방식으로 특정한 단어들 또는 음절들을 발음할 수 있다. 도 6의 컴퓨팅 환경(650)에서 개인화 엔진(600)은 말하는 사용자(606)로부터 오디오 입력(605)을 수신할 수 있으며 말하는 사용자가 단어들을 어떻게 발음하는지를 결정하기 위해 발음 모듈(601)을 활성화할 수 있다. 발성 특성 분석기(602)는 말하는 사용자의 톤, 단어 간격 및 다른 발성 특성들을 결정하기 위해 오디오 입력(605)을 분석할 수 있다. 개인화 엔진(600)은 그 후 결정된 발음들, 음성의 톤, 및 다른 발성 특성들을 개인화된 오디오 출력 신호(604)에서의 생성된 말한 단어들에 적용할 수 있다. 이러한 개인화된 오디오 출력(604)은 그 후 듣는 사용자(603)로 제공된다. 생성된 말한 단어들의 리플레이 동안(예컨대, AR 헤드 셋(630A)을 통해), 개인화는 개인화 엔진(600) 또는 컴퓨터 시스템(401)이 말하는 사용자(606)가 단어들 또는 음절들을 어떻게 발음하는지를 결정할 때 리플레이된 단어들에 동적으로 적용될 수 있다.
몇몇 경우들에서, 도 7의 컴퓨팅 환경(700)에 도시된 바와 같이, 말하는 사용자(606)는 음성 샘플들 또는 음성 모델을 제공할 수 있다. 예를 들어, 말하는 사용자(606)는 음성 프로필을 형성하기 위해 사용될 수 있는, 사용자의 발음들, 톤 및 다른 발성 특성들을 포함하는 음성 모델(608)을 제공할 수 있다. 이러한 실시예에서, 개인화 엔진(600)은 말하는 사용자의 음성의 라이브 분석을 포기할 수 있으며 오디오 출력(604)을 개인화하기 위해 음성 모델(608)에서의 특성들 및 발음들을 사용할 수 있다. 음성 모델(608)은 말하는 사용자로부터 오디오 입력 스트림(605)을 수신하기 전에 말하는 사용자가 단어들 또는 음절들을 어떻게 발음하는지를 결정하기 위해 사용될 수 있는 음성 샘플들을 포함할 수 있다. 음성 모델 해석기(607)는 음성 모델에서의 데이터를 해석하며 듣는 사용자로 전송되는 말한 단어들을 개인화할 때 그것을 사용할 수 있다. 몇몇 실시예들에서, 말하는 사용자의 음성의 라이브 분석을 포기하는 대신에, 개인화 엔진(600)은 개인화를 추가로 개선하기 위해 말하는 사용자의 단어들의 라이브 분석과 조합하여 음성 모델(608)로부터의 데이터를 사용할 수 있다. 이러한 경우들에서, 라이브 분석으로부터의 개선들은 사용자의 음성 모델에 부가될 수 있거나 또는 사용자의 음성 모델(608)을 업데이트하기 위해 사용될 수 있다.
몇몇 경우들에서, 개인화 엔진(600)은 말하는 사용자(606)와 연관된 저장된 오디오 데이터(613)를 액세스하며, 그 후 생성된 말한 단어들을 개인화하기 위해 액세스된 저장된 오디오 데이터를 사용할 수 있다. 저장된 오디오 데이터(613)는, 예를 들어, 말하는 사용자(606)가 말한 사전 기록된 단어들을 포함할 수 있다. 이들 사전 기록된 단어들은 상기 사용자와 연관된 음성 모델 또는 음성 프로필을 생성하기 위해 사용될 수 있다. 이러한 음성 모델은 그 후 듣는 사용자(603)로 전송된 오디오 출력(604)에 대한 말하는 사용자의 음성을 개인화하기 위해 사용될 수 있다. 이와 같이, 새로운(번역된) 언어로 리플레이된 생성된 말한 단어들은 말하는 사용자(606)에 의해 말하여지는 것처럼 들린다.
몇몇 경우들에서, 개인화 엔진(600)은 말하는 사용자(606)가 말한 단어들을 파싱할 수 있다. 몇몇 예들에서, 말하는 사용자(606) 및 듣는 사용자(603)는 그럼에도 불구하고 몇몇 유사한 단어들을 공유하는 상이한 언어들을 말할 수 있다. 예를 들어, 몇몇 언어들은 영어에서 직접 빌린 컴퓨팅 기술에 대한 유사한 용어들을 공유할 수 있다. 이러한 경우들에서, 개인화 엔진(600)은 말하는 사용자(606)가 말한 단어들을 파싱하며 단어들 중 적어도 하나가 듣는 사용자(603)에 의해 이해되는 언어로 말하여짐을 결정할 수 있다. 이러한 결정이 이루어지면, 개인화 엔진은 능동 잡음 소거가 듣는 사용자에 의해 이해되는 언어로 말한 단어들에 대해 일시적으로 파싱되게 할 수 있다. 이와 같이, 이들 단어들은 잡음 소거 없이, 및 번역 없이, 듣는 사용자에 의해 듣게 될 수 있다.
생성된 말한 단어들(604)을 듣는 사용자(603)에게 리플레이하는 것은 부가적으로 또는 대안적으로 말하는 사용자가 어떤 방향에서 말하고 있는지를 결정하는 것, 및 말한 단어들이 말하는 사용자의 결정된 방향에서 온 것처럼 들리도록 생성된 말한 단어들의 재생을 공간화하는 것을 포함할 수 있다. 예를 들어, 도 8의 컴퓨팅 환경(800)에서 도시된 바와 같이, 말하는 사용자(606)는 상기 사용자와 연관된 위치 정보(612)를 제공할 수 있다. 위치 데이터는 사용자가 전역적 위치결정 시스템(GPS) 좌표들에 기초하는 곳을 나타낼 수 있거나 또는 사용자가 주어진 룸, 댄스 홀, 경기장 또는 다른 장소 내에 있는 곳을 나타낼 수 있다. 개인화 엔진(600)의 방향 식별 모듈(610)은 말하는 사용자가 어느 방향에서 말하는지를 결정하기 위해 위치 데이터(612)를 사용할 수 있다. 그 후, 공간화 모듈(611)은 말한 단어들이 말하는 사용자(606)의 결정된 방향에서 온 것처럼 들리도록 오디오 출력(604)에서 생성된 말한 단어들의 재생을 공간화할 수 있다. 공간화 모듈(611)은 말하는 사용자의 음성이 마치 듣는 사용자(603)의 뒤에, 또는 듣는 사용자의 우측 또는 왼쪽에, 또는 듣는 사용자의 앞에 또는 그로부터 멀리 있는 것처럼 들리게 하기 위해 다양한 음향 프로세싱 기술들을 적용할 수 있다. 따라서, 번역된 단어들을 말하는 개인화된 음성은 말하는 사용자에 의해 말하여지는 것처럼 들릴 뿐만 아니라, 또한 듣는 사용자의 위치에 대하여, 말하는 사용자의 정확한 위치에서 온 것처럼 들릴 수 있다.
몇몇 실시예들에서, 말하는 사용자가 어느 방향에서 말하고 있는지를 결정하는 것은 말하는 사용자에서 온 음파들에 대한 도착의 방향을 산출하는 것을 포함할 수 있다. 예를 들어, 도 8의 방향 식별 모듈(610)은 말하는 사용자(606)에서 온 오디오 입력(605)에서의 음파들에 대한 도착의 방향을 산출할 수 있다. 개인화 엔진(600)은 그 후 산출된 도착의 방향에 기초하여 말하는 사용자(606)가 어느 방향에서 말하고 있는지를 결정할 수 있으며, 공간화 모듈(611)은 말한 단어들이 말하는 사용자의 결정된 방향에서 온 것처럼 들리도록 개인화된 오디오 출력(604)에서 생성된 말한 단어들의 재생을 공간화할 수 있다. 몇몇 경우들에서, 이러한 도착 방향 산출은 말하는 사용자(606)의 위치를 추가로 개선하기 위해 위치 데이터(612)를 수신하는 것 외에 수행될 수 있다. 다른 경우들에서, 도착 방향 산출은 위치 데이터(612)를 수신하지 않고 수행될 수 있다. 이와 같이, 말하는 사용자의 위치는 사용자가 그들의 현재 위치를 나타내는 특정 데이터를 전송하지 않고 결정될 수 있다. 예를 들어, 듣는 사용자는 카메라를 가진 이동 디바이스를 구현할 수 있거나 또는 카메라를 가진 AR 헤드셋을 착용할 수 있다. 방향 식별 모듈(610)은 말하는 사용자의 방향을 결정하기 위해 카메라(들)로부터 공급된 비디오를 분석하며, 그 후 결정된 방향에 기초하여 오디오를 공간화할 수 있다.
부가적으로 또는 대안적으로, 말하는 사용자(606)가 어느 방향에서 말하고 있는지를 결정하는 것은 듣는 사용자의 눈들의 움직임을 추적하는 것을 포함할 수 있다. 예를 들어, 개인화 엔진(600)(AR 헤드 셋의 부분이거나 또는 그것과 통신할 수 있는)은 눈 움직임 추적기를 포함할 수 있다. 도 9의 컴퓨팅 환경(900)에서 도시된 바와 같이, 예를 들어, 개인화 엔진(600)은 눈 움직임 데이터(616)를 생성하는 눈 움직임 추적기(615)를 포함할 수 있다. 눈 움직임 추적기(615)는 AR 헤드셋(630A)의 부분일 수 있으며 사용자의 눈들(예컨대, 듣는 사용자(603)의 눈들)을 추적하고 사용자가 보고 있는 곳을 결정하도록 구성될 수 있다. 대부분의 인스턴스들에서, 말하는 사용자가 듣는 사용자에게 말하고 있다면, 듣는 사용자는 그들을 능동적으로 청취하기 위해 말하는 사용자를 돌아서 볼 것이다. 이와 같이, 듣는 사용자의 눈 움직임들을 추적하는 것은 말하는 사용자(606)가 말하고 있는 곳에 대한 단서들을 제공할 수 있다. 방향 식별 모듈(610)은 그 후 듣는 사용자의 눈들의 추적된 움직임에 기초하여 말하는 사용자(606)가 어느 방향에서 말하고 있는지를 결정하기 위해 눈 움직임 데이터(616)를 사용할 수 있다. 공간화 모듈(611)은 그 후 상기 주지된 방식으로 말한 단어들이 말하는 사용자의 결정된 방향에서 온 것처럼 들리도록 생성된 말한 단어들의 재생을 공간화할 수 있다.
몇몇 실시예들에서, 말하는 사용자가 말한 단어들을 식별하기 위해 오디오 입력 스트림을 프로세싱하는 것은 말하는 사용자가 말한 단어들을 식별하기 위해 스피치-투-텍스트(STT) 프로그램을 구현하는 것을 포함할 수 있으며, 번역된 말한 단어들을 생성하기 위해 텍스트-투-스피치(TTS) 프로그램을 추가로 포함할 수 있다. 도 10의 컴퓨팅 환경(1000)에서 도시된 바와 같이, 말하는 사용자의 단어들(예컨대, 말하는 사용자(1007)로부터의 오디오 입력(1006)에서)은 단어들이 텍스트 또는 단어의 몇몇 다른 디지털 표현으로 변환되는 스피치-투-텍스트 모듈(1005)로 공급될 수 있다. 번역 모듈(1004)은 그 후 하나의 언어로부터 또 다른 언어로의 번역을 수행하기 위해 텍스트 형태로 단어들을 사용할 수 있다. 일단 번역이 수행되었다면, 텍스트-투-스피치 모듈(1003)은 쓰여진 단어들을 스피치로 변환할 수 있다. 상기 스피치는 오디오 출력(1002)에 포함될 수 있다. 이러한 오디오 출력(1002)은 그 후 듣는 사용자(1001)로 전송될 수 있다. 따라서, 몇몇 실시예들은 스피치 및 텍스트, 및 다시 스피치로의 변환들을 수행하기 위해 STT 및 TTS를 사용할 수 있다.
도 11의 컴퓨팅 환경(1100)은 다수의 말하는 사용자들이 동시에 말하는 예를 예시한다. 각각의 말하는 사용자(예컨대, 1105 또는 1107)는 두 명의 상이한 사용자들가 말한 단어들을 포함하는 오디오 입력 스트림(예컨대, 각각 1104 또는 1106)을 제공할 수 있다. 스피치 구별 모듈(1103)(도 6의 개인화 엔진(600)의 부분 및/또는 도 4의 컴퓨터 시스템(401)의 부분일 수 있는)은 그 후 상이한 발성 패턴들 또는 다른 발성 특성들에 따라 두 명의 말하는 사용자들(1105 및 1107)을 구별할 수 있다. 스피치 구별 모듈(1103)은 그 후, 양쪽 말하는 사용자들에 대한 능동 잡음 소거를 수행하면서, 한 명의 말하는 사용자(예컨대, 1105)에 대한 스피치 출력(1102)에서의 말한 단어들을 생성할 수 있다. 이러한 방식으로, 듣는 사용자(1101)(두 명의 사용자들이 말한 언어를 이해하지 못하는)는 여전히 말하는 사용자(1105)의 단어들의 번역된 버전을 수신할 수 있다.
몇몇 실시예들에서, 다른 말하는 사용자(1107)로부터의 오디오 입력 스트림(1106)은 데이터 저장소에 저장될 수 있다. 이러한 저장된 오디오 스트림은 그 후 파싱되고 번역될 수 있다. 그 후, 말하는 사용자(1105)가 말하는 것을 마칠 때, 스피치 구별 모듈(1103)은 말하는 사용자(1107)의 저장되고 번역된 단어들을 말한 단어들로 변환되게 할 수 있다. 몇몇 경우들에서, 스피치 구별 모듈(1103)은 두 명(또는 이상)의 말하는 사용자들이 말하고 있다면, 하나의 화자가 선택되며 (아마도 듣는 사용자가 어떤 말하는 사용자를 보고 있는지를 알기 위해 눈 추적 정보에 기초하여) 다른 말하는 사용자들로부터의 단어들은 저장될 것임을 나타내는 정책에 따라 구동할 수 있다. 그 후, 스피치 구별 모듈(1103)이 제 1 말하는 사용자가 특정된 시간의 양 동안 말하는 것을 멈췄다고 결정하면, 다른 말하는 사용자(들)에 대한 생성된 말한 단어들은 순차적으로 듣는 사용자에게 재생될 것이다. 몇몇 경우들에서, 정책은 그들의 아이덴티티에 기초하여 특정한 말하는 사용자들을 선호할 수 있다. 따라서, 듣는 사용자(1101)가 많은 사람들 중에 있을지라도, 여기에서의 시스템들은 단일의 말하는 사용자(예를 들어, 상기 사용자의 발성 특성들에 기초하여) 또는 사용자들의 세트에 초점을 맞추며 이들 사용자들로부터의 오디오를 기록할 수 있다. 이러한 오디오는 그 후 텍스트로 변환되고, 번역되고, 다시 스피치로 변환되며 듣는 사용자(1101)로 재생될 수 있다.
몇몇 경우들에서, 다수의 사용자들이 말하고 있을 때, 도 4의 개인화 엔진(400)은 말하는 사용자들의 각각에 대한 음성 모델들을 생성할 수 있거나 또는 제 1 말하는 사용자가 말하는 동안 2차 말하는 사용자들의 음성 모델을 생성할 수 있다. 개인화 엔진(400)은 또한 동시에 말하는 사용자들의 각각에 대한 생성된 말한 단어들을 개인화할 수 있다. 이와 같이, 새로운(번역된) 언어로 생성된 말한 단어들은 각각의 상이한 말하는 사용자의 음성에서 온 것처럼 들릴 수 있다. 따라서, 두 명의 사람들이 일 대 일로 대화하거나, 또는 큰 그룹으로 담소를 나누는지에 관계없이, 여기에서의 실시예들은 화자로부터의 오디오를 침묵하게 하고, 화자의 단어들을 번역하며, 화자의 단어들의 개인화된 말한 번역을 듣는 사용자로 플레이하도록 동작할 수 있다.
또한, AR에서 자연어 번역을 수행하기 위한 대응하는 시스템은 제 1 언어로 말하는 사용자가 말한 단어들을 포함하는 오디오 입력 스트림을 액세스하는 오디오 액세싱 모듈을 포함한, 메모리에 저장된 여러 개의 모듈들을 포함할 수 있다. 시스템은 또한 말한 단어들이 억제되거나 또는 듣는 사용자에게 대체로 들리지 않도록 오디오 입력 스트림에서의 단어들에 대한 능동 잡음 소거를 수행하는 잡음 소거 모듈을 포함할 수 있다. 시스템은 말하는 사용자가 말한 단어들을 식별하기 위해 오디오 입력 스트림을 프로세싱하는 오디오 프로세싱 모듈을 추가로 포함할 수 있다. 번역 모듈은 말하는 사용자가 말한 식별된 단어들을 제 2의, 상이한 언어로 번역할 수 있으며, 스피치 생성기는 번역된 단어들을 사용하여 제 2의, 상이한 언어로 말한 단어들을 생성할 수 있다. 재생 모듈은 그 후 제 2 언어로 생성된 말한 단어들을 듣는 사용자에게 리플레이할 수 있다.
몇몇 예들에서, 상기 설명된 방법은 컴퓨터-판독 가능한 매체상에서 컴퓨터-판독 가능한 명령들로서 인코딩될 수 있다. 예를 들어, 컴퓨터-판독 가능한 매체는 컴퓨팅 디바이스의 적어도 하나의 프로세서에 의해 실행될 때, 컴퓨팅 디바이스가 제 1 언어로 말하는 사용자가 말한 단어들을 포함하는 오디오 입력 스트림을 액세스하게 하고, 말한 단어들이 억제되거나 또는 듣는 사용자에게 대체로 들리지 않도록 오디오 입력 스트림에서의 단어들에 대한 능동 잡음 소거를 수행하게 하고, 말하는 사용자가 말한 단어들을 식별하기 위해 오디오 입력 스트림을 프로세싱하게 하고, 말하는 사용자가 말한 식별된 단어들을 제 2의, 상이한 언어로 번역하게 하고, 번역된 단어들을 사용하여 제 2의, 상이한 언어로 말한 단어들을 생성하게 하며, 제 2 언어로 생성된 말한 단어들을 듣는 사용자에게 리플레이하게 할 수 있는 하나 이상의 컴퓨터-실행 가능한 명령들을 포함할 수 있다.
따라서, 두 명(또는 이상)의 사용자들은 각각 그들 자신의 언어로 말하면서, 서로 대화할 수 있다. 각각의 사용자의 스피치는 다른 사용자에 대해 음소거되며 번역되고 말하는 사용자의 음성으로 다시 듣는 사용자에게 말하여진다. 따라서, 상이한 언어들을 말하는 사용자들은 단지 개인화된, 번역된 스피치를 들으면서, 서로 자유롭게 말할 수 있다. 이것은 특히 그들이 동일한 언어를 말하지 않을 때, 사용자들이 서로 대화하는 것을 상당히 도울 수 있다.
상기 상세하게 설명된 바와 같이, 여기에서 설명되고 및/또는 예시된 컴퓨팅 디바이스들 및 시스템들은 여기에서 설명된 모듈들 내에 포함된 것들과 같은, 컴퓨터-판독 가능한 명령들을 실행할 수 있는 임의의 유형 또는 형태의 컴퓨팅 디바이스 또는 시스템을 광범위하게 나타낸다. 그것들의 가장 기본적인 구성에서, 이들 컴퓨팅 디바이스(들)는 각각 적어도 하나의 메모리 디바이스 및 적어도 하나의 물리 프로세서를 포함할 수 있다.
몇몇 예들에서, 용어 "메모리 디바이스"는 일반적으로 데이터 및/또는 컴퓨터-판독 가능한 명령들을 저장할 수 있는 임의의 유형 또는 형태의 휘발성 또는 비-휘발성 저장 디바이스 또는 매체를 나타낸다. 일 예에서, 메모리 디바이스는 여기에서 설명된 모듈들 중 하나 이상을 저장하고, 로딩하며, 및/또는 유지할 수 있다. 메모리 디바이스들의 예들은 제한 없이, 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 플래시 메모리, 하드 디스크 드라이브들(HDD들), 고체-상태 드라이브들(SSD들), 광학 디스크 드라이브들, 캐시들, 이들 중 하나 이상의 변화들 또는 조합들, 또는 임의의 다른 적절한 저장 메모리를 포함한다.
몇몇 예들에서, 용어 "물리 프로세서"는 일반적으로 컴퓨터-판독 가능한 명령들을 해석하고 및/또는 실행할 수 있는 임의의 유형 또는 형태의 하드웨어-구현 프로세싱 유닛을 나타낸다. 일 예에서, 물리 프로세서는 상기 설명된 메모리 디바이스에 저장된 하나 이상의 모듈들을 액세스하고 및/또는 수정할 수 있다. 물리 프로세서들의 예들은 제한 없이, 마이크로프로세서들, 마이크로제어기들, 중앙 프로세싱 유닛들(CPU들), 소프트코어 프로세서들을 구현하는 필드-프로그램 가능한 게이트 어레이들(FPGA들), 애플리케이션-특정 집적 회로들(ASIC들), 이들 중 하나 이상의 부분들, 이들 중 하나 이상의 변화들 또는 조합들, 또는 임의의 다른 적절한 물리 프로세서를 포함한다.
별개의 요소들로서 예시되지만, 여기에서 설명되고 및/또는 예시된 모듈들은 단일 모듈 또는 애플리케이션의 부분들을 나타낼 수 있다. 또한, 특정한 실시예들에서, 이들 모듈들 중 하나 이상은 컴퓨팅 디바이스에 의해 실행될 때, 컴퓨팅 디바이스가 하나 이상의 태스크들을 수행하게 할 수 있는 하나 이상의 소프트웨어 애플리케이션들 또는 프로그램들을 나타낼 수 있다. 예를 들어, 여기에서 설명되고 및/또는 예시된 모듈들 중 하나 이상은 여기에서 설명되고 및/또는 예시된 컴퓨팅 디바이스들 또는 시스템들 중 하나 이상 상에서 구동하도록 저장되고 구성된 모듈들을 나타낼 수 있다. 이들 모듈들 중 하나 이상은 또한 하나 이상의 태스크들을 수행하도록 구성된 하나 이상의 특수-목적 컴퓨터들의 모두 또는 부분들을 나타낼 수 있다.
또한, 여기에서 설명된 모듈들 중 하나 이상은 하나의 형태에서 또 다른 것으로 데이터, 물리 디바이스들, 물리 디바이스들의 표현들을 변환할 수 있다. 예를 들어, 여기에서 나열된 모듈들 중 하나 이상은 변환될 데이터를 수신하고, 데이터를 변환하고, 기능을 수행하기 위해 변환의 결과를 출력하고, 기능을 수행하기 위해 변화의 결과를 사용하며, 기능을 수행하기 위해 변화의 결과를 저장할 수 있다. 부가적으로 또는 대안적으로, 여기에서 나열된 모듈들 중 하나 이상은 컴퓨팅 디바이스 상에서 실행하고, 컴퓨팅 디바이스 상에 데이터를 저장하며, 및/또는 그 외 컴퓨팅 디바이스와 상호작용함으로써 하나의 형태에서 또 다른 것으로 프로세서, 휘발성 메모리, 비-휘발성 메모리, 및/또는 물리 컴퓨팅 디바이스의 임의의 다른 부분을 변환할 수 있다.
몇몇 실시예들에서, 용어 "컴퓨터-판독 가능한 매체"는 일반적으로 컴퓨터-판독 가능한 명령들을 저장하거나 또는 운반할 수 있는 임의의 형태의 디바이스, 캐리어, 또는 매체를 나타낸다. 컴퓨터-판독 가능한 미디어의 예들은, 제한 없이, 캐리어 파들과 같은 송신-형 미디어, 및 자기-저장 미디어(예컨대, 하드 디스크 드라이브들, 테이프 드라이브들, 및 플로피 디스크들), 광학-저장 미디어(예컨대, 컴팩트 디스크들(CD들), 디지털 비디오 디스크들(DVD들), 및 블루-레이 디스크들), 전자-저장 미디어(예컨대, 고체-상태 드라이브들 및 플래시 미디어), 및 다른 분산 시스템들과 같은, 비-일시-형 미디어를 포함한다.
본 개시의 실시예들은 인공 현실 시스템을 포함하거나 또는 그것과 함께 구현될 수 있다. 인공 현실은 사용자로의 프리젠테이션 이전에 몇몇 방식으로 조정되어 온 현실의 형태이며, 이것은 예컨대 가상 현실(VR), 증강 현실(AR), 혼합 현실(MR), 하이브리드 현실, 또는 그것의 몇몇 조합 및/또는 파생물들을 포함할 수 있다. 인공 현실 콘텐트는 완전히 생성된 콘텐트 또는 캡처된(예컨대, 실-세계) 콘텐트와 조합된 생성 콘텐트를 포함할 수 있다. 인공 현실 콘텐트는 비디오, 오디오, 햅틱 피드백, 또는 그것의 몇몇 조합을 포함할 수 있으며, 그 중 임의의 것은 단일 채널로 또는 다수의 채널들로(뷰어에게 3-차원 효과를 생성하는 스테레오 비디오와 같은) 제공될 수 있다. 부가적으로, 몇몇 실시예들에서, 인공 현실은 또한 예컨대, 인공 현실에서 콘텐트를 생성하기 위해 사용되며 및/또는 그 외 인공 현실에서 사용되는(예컨대, 그곳에서 활동들을 수행하는) 애플리케이션들, 제품들, 액세서리들, 서비스들, 또는 그것의 몇몇 조합과 연관될 수 있다. 인공 현실 콘텐트를 제공하는 인공 현실 시스템은 호스트 컴퓨터 시스템에 연결된 헤드-장착 디스플레이(HMD), 독립형 HMD, 이동 디바이스 또는 컴퓨팅 디바이스, 또는 하나 이상의 뷰어들로 인공 현실 콘텐트를 제공할 수 있는 임의의 다른 하드웨어 플랫폼을 포함한, 다양한 플랫폼들 상에서 구현될 수 있다.
여기에서 설명되고 및/또는 예시된 프로세스 파라미터들 및 단계들의 시퀀스는 단지 예로서 제공되며 원하는 대로 변경될 수 있다. 예를 들어, 여기에서 예시되고 및/또는 설명된 단계들은 특정한 순서로 도시되거나 또는 논의될 수 있지만, 이들 단계들은 반드시 예시되거나 또는 논의된 순서로 수행될 필요는 없다. 여기에서 설명되고 및/또는 예시된 다양한 대표적인 방법들은 또한 여기에서 설명되거나 또는 예시된 단계들 중 하나 이상을 생략할 수 있거나 또는 개시된 것들 외에 부가적인 단계들을 포함할 수 있다.
앞서 말한 설명은 이 기술분야의 다른 숙련자들이 여기에서 개시된 대표적인 실시예들의 다양한 양상들을 가장 잘 이용할 수 있게 하기 위해 제공되었다. 이러한 대표적인 설명은 철저하거나 또는 개시된 임의의 정확한 형태로 제한되도록 의도되지 않는다. 많은 수정들 및 변화들은 본 개시의 사상 및 범위로부터 벗어나지 않고 가능하다. 여기에서 개시된 실시예들은 모든 점들에서 예시적이며 제한적이지 않은 것으로 고려되어야 한다. 참조는 본 개시의 범위를 결정할 때 첨부된 청구항들 및 그것들의 등가물들에 대해 이루어져야 한다.
달리 주지되지 않는다면, 용어들 "~에 연결되는" 및 "~에 결합되는"(및 그것들의 파생어들)은, 명세서 및 청구항들에서 사용된 바와 같이, 직접 및 간접(즉, 다른 요소들 또는 구성요소들을 통해) 연결 양쪽 모두를 허용하는 것으로 해석될 것이다. 또한, 명세서 및 청구항들에서 사용된 바와 같이, 소자에 선행하는 관사 "a" 또는 "an"은 "~ 중 적어도 하나"를 의미하는 것으로 해석될 것이다. 마지막으로, 사용의 용이함을 위해, 용어들 "~을 포함시키는" 및 "~을 갖는"(및 그것의 파생어들)은, 명세서 및 청구항들에서 사용된 바와 같이, 단어 "~을 포함한"과 상호 교환 가능하며 그것과 동일한 의미를 갖는다.

Claims (34)

  1. 컴퓨터-구현 방법에 있어서,
    제 1 언어로 말하는 사용자가 말한 하나 이상의 단어들을 포함하는 오디오 입력 스트림을 액세스하는 단계;
    상기 말한 단어들이 듣는 사용자에 이르기 전에 억제되도록 상기 오디오 입력 스트림에서의 상기 하나 이상의 단어들에 대한 능동 잡음 소거를 수행하는 단계;
    상기 말하는 사용자가 말한 하나 이상의 단어들을 식별하기 위해 상기 오디오 입력 스트림을 프로세싱하는 단계;
    상기 말하는 사용자가 말한 상기 식별된 단어들을 제 2의, 상이한 언어로 번역하는 단계;
    상기 번역된 단어들을 사용하여, 상기 제 2의, 상이한 언어로 말한 단어들을 생성하는 단계; 및
    상기 제 2 언어로 상기 생성된 말한 단어들을 상기 듣는 사용자에게 리플레이하는 단계를 포함하는, 컴퓨터-구현 방법.
  2. 제 1 항에 있어서,
    상기 제 2 언어로 생성된 말한 단어들이 상기 말하는 사용자에 의해 말하여지는 것처럼 들리도록, 상기 생성된 말한 단어들은 상기 말하는 사용자에 대해 개인화되는, 컴퓨터-구현 방법.
  3. 제 2 항에 있어서,
    상기 생성된 말한 단어들을 개인화하는 것은:
    상기 말하는 사용자가 하나 이상의 단어들 또는 음절들을 어떻게 발음하는지를 결정하기 위해 상기 오디오 입력 스트림을 프로세싱하는 것; 및
    상기 결정된 발음들을 상기 생성된 말한 단어들에 적용하는 것을 더 포함하는, 컴퓨터-구현 방법.
  4. 제 3 항에 있어서,
    상기 생성된 말한 단어들의 리플레이 동안, 개인화들은 상기 말하는 사용자가 상기 단어들 또는 음절들을 어떻게 발음하는지를 상기 컴퓨터가 결정할 때 상기 리플레이된 단어들에 동적으로 적용되는, 컴퓨터-구현 방법.
  5. 제 3 항에 있어서,
    상기 말하는 사용자는 하나 이상의 음성 샘플들을 제공하며, 그것을 사용하여 상기 컴퓨터는 상기 오디오 입력 스트림을 수신하기 전에 상기 말하는 사용자가 상기 단어들 또는 음절들 중 하나 이상을 어떻게 발음하는지를 결정하는, 컴퓨터-구현 방법.
  6. 제 1 항에 있어서,
    상기 생성된 말한 단어들을 상기 듣는 사용자에게 리플레이하는 단계는:
    상기 말하는 사용자가 어느 방향에서 말하고 있는지를 결정하는 단계; 및
    상기 말한 단어들이 상기 말하는 사용자의 결정된 방향에서 온 것처럼 들리도록 상기 생성된 말한 단어들의 재생을 공간화하는 단계를 더 포함하는, 컴퓨터-구현 방법.
  7. 제 6 항에 있어서,
    상기 말하는 사용자가 어느 방향에서 말하고 있는지를 결정하는 단계는:
    상기 말하는 사용자와 연관된 디바이스에 대한 위치 데이터를 수신하는 단계;
    상기 수신된 위치 데이터에 기초하여 상기 말하는 사용자가 어느 방향에서 말하고 있는지를 결정하는 단계; 및
    상기 말한 단어들이 상기 말하는 사용자의 결정된 방향에서 온 것처럼 들리도록 상기 생성된 말한 단어들의 재생을 공간화하는 단계를 더 포함하는, 컴퓨터-구현 방법.
  8. 제 6 항에 있어서,
    상기 말하는 사용자가 어느 방향에서 말하고 있는지를 결정하는 단계는:
    상기 말하는 사용자로부터 온 음파들에 대한 도착의 방향을 산출하는 단계;
    상기 산출된 도착의 방향에 기초하여 상기 말하는 사용자가 어느 방향에서 말하고 있는지를 결정하는 단계; 및
    상기 말한 단어들이 상기 말하는 사용자의 결정된 방향에서 온 것처럼 들리도록 상기 생성된 말한 단어들의 재생을 공간화하는 단계를 더 포함하는, 컴퓨터-구현 방법.
  9. 제 6 항에 있어서,
    상기 말하는 사용자가 어느 방향에서 말하고 있는지를 결정하는 단계는:
    상기 듣는 사용자의 눈들의 움직임을 추적하는 단계;
    상기 듣는 사용자의 눈들의 추적된 움직임들에 기초하여 상기 말하는 사용자가 어느 방향에서 말하고 있는지를 결정하는 단계; 및
    상기 말한 단어들이 상기 말하는 사용자의 결정된 방향에서 온 것처럼 들리도록 상기 생성된 말한 단어들의 재생을 공간화하는 단계를 더 포함하는, 컴퓨터-구현 방법.
  10. 제 1 항에 있어서,
    상기 말하는 사용자가 말한 상기 하나 이상의 단어들을 식별하기 위해 상기 오디오 입력 스트림을 프로세싱하는 단계는 상기 말하는 사용자가 말한 단어들을 식별하기 위해 스피치-투-텍스트(STT) 프로그램을, 및 상기 번역된 말한 단어들을 생성하기 위해 텍스트-투-스피치(TTS) 프로그램을 구현하는 단계를 포함하는, 컴퓨터-구현 방법.
  11. 시스템에 있어서,
    적어도 하나의 물리 프로세서;
    컴퓨터-실행 가능한 명령들을 포함한 물리 메모리로서, 상기 컴퓨터-실행 가능한 명령들은 상기 물리 프로세서에 의해 실행될 때 상기 물리 프로세서로 하여금:
    제 1 언어로 말하는 사용자가 말한 하나 이상의 단어들을 포함하는 오디오 입력 스트림을 액세스하게 하고;
    상기 말한 단어들이 듣는 사용자에게 이르기 전에 억제되도록 상기 오디오 입력 스트림에서의 상기 하나 이상의 단어들에 대한 능동 잡음 소거를 수행하게 하고;
    상기 말하는 사용자가 말한 상기 하나 이상의 단어들을 식별하기 위해 상기 오디오 입력 스트림을 프로세싱하게 하고;
    상기 말하는 사용자가 말한 상기 식별된 단어들을 제 2의, 상이한 언어로 번역하게 하고;
    상기 번역된 단어들을 사용하여 상기 제 2의, 상이한 언어로 말한 단어들을 생성하게 하며;
    상기 제 2 언어로 상기 생성된 말한 단어들을 상기 듣는 사용자에게 리플레이하게 하는, 상기 물리 메모리를 포함하는, 시스템.
  12. 제 11 항에 있어서,
    상기 말하는 사용자와 연관된 음성 프로필을 다운로드하는 것; 및
    상기 제 2 언어로 리플레이된 생성된 말한 단어들이 상기 말하는 사용자에 의해 말하여지는 것처럼 들리도록, 상기 생성된 말한 단어들을 개인화하기 위해 상기 말하는 사용자와 연관된 상기 다운로드된 음성 프로필을 사용하는 것을 더 포함하는, 시스템.
  13. 제 11 항에 있어서,
    상기 말하는 사용자와 연관된 저장된 오디오 데이터의 하나 이상의 부분들을 액세스하는 것; 및
    상기 제 2 언어로 리플레이된 상기 생성된 말한 단어들이 상기 말하는 사용자에 의해 말하여지는 것처럼 들리도록, 상기 생성된 말한 단어들을 개인화하기 위해 상기 액세스된 저장된 오디오 데이터를 사용하는 것을 더 포함하는, 시스템.
  14. 제 11 항에 있어서,
    상기 말하는 사용자가 말한 단어들을 파싱하는 것;
    상기 단어들 중 적어도 하나가 상기 듣는 사용자에 의해 이해되는 언어로 말하여진다고 결정하는 것; 및
    상기 듣는 사용자에 의해 이해되는 언어로 말한 상기 단어들에 대한 능동 잡음 소거를 일시정지하는 것을 더 포함하는, 시스템.
  15. 제 11 항에 있어서,
    상기 오디오 입력 스트림이 적어도 두 명의 상이한 말하는 사용자들이 말한 단어들을 포함한다고 결정하는 것;
    하나 이상의 음성 패턴들에 따라 상기 두 명의 말하는 사용자들을 구별하는 것; 및
    양쪽의 말하는 사용자들 모두에 대한 능동 잡음 소거를 수행하면서, 제 1 말하는 사용자에 대한 말한 단어들을 생성하는 것을 더 포함하는, 시스템.
  16. 제 15 항에 있어서,
    상기 제 1 사용자가 특정된 시간의 양 동안 말하는 것을 멈출 때까지 제 2 말하는 사용자에 대한 생성된 말한 단어들을 저장하는 것; 및
    상기 제 2 말하는 사용자에 대한 상기 생성된 말한 단어들을 리플레이하는 것을 더 포함하는, 시스템.
  17. 제 16 항에 있어서,
    상기 제 2 언어로 상기 생성된 말한 단어들이 각각의 말하는 사용자의 음성에서 온 것처럼 들리도록, 상기 두 명의 말하는 사용자들의 각각에 대한 상기 생성된 말한 단어들을 개인화하는 것을 더 포함하는, 시스템.
  18. 제 11 항에 있어서,
    상기 물리 메모리 상에 저장된 상기 컴퓨터-실행 가능한 명령들의 적어도 일 부분은 상기 시스템으로부터 분리된 적어도 하나의 원격 물리 프로세서에 의해 프로세싱되는, 시스템.
  19. 제 18 항에 있어서,
    하나 이상의 정책들은 언제 및 상기 컴퓨터-실행 가능한 명령들의 어떤 부분들이 상기 시스템으로부터 분리된 상기 적어도 하나의 원격 물리 프로세서상에서 프로세싱될지를 나타내는, 시스템.
  20. 하나 이상의 컴퓨터-실행 가능한 명령들을 포함한 비-일시적 컴퓨터-판독 가능한 매체에 있어서,
    상기 하나 이상의 컴퓨터-실행 가능한 명령들은 컴퓨팅 디바이스의 적어도 하나의 프로세서에 의해 실행될 때, 상기 컴퓨팅 디바이스로 하여금:
    제 1 언어로 말하는 사용자가 말한 하나 이상의 단어들을 포함하는 오디오 입력 스트림을 액세스하게 하고;
    상기 말한 단어들이 듣는 사용자에게 이르기 전에 억제되도록 상기 오디오 입력 스트림에서의 상기 하나 이상의 단어들에 대한 능동 잡음 소거를 수행하게 하고;
    상기 말하는 사용자가 말한 상기 하나 이상의 단어들을 식별하기 위해 상기 오디오 입력 스트림을 프로세싱하게 하고;
    상기 말하는 사용자가 말한 상기 식별된 단어들을 제 2의, 상이한 언어로 번역하게 하고;
    상기 번역된 단어들을 사용하여 상기 제 2의, 상이한 언어로 말한 단어들을 생성하게 하며;
    상기 제 2 언어로 상기 생성된 말한 단어들을 상기 듣는 사용자에게 리플레이하게 하는, 비-일시적 컴퓨터-판독 가능한 매체.
  21. 컴퓨터-구현 방법에 있어서,
    제 1 언어로 말하는 사용자가 말한 하나 이상의 단어들을 포함하는 오디오 입력 스트림을 액세스하는 단계;
    상기 말한 단어들이 듣는 사용자에 이르기 전에 억제되도록 상기 오디오 입력 스트림에서의 상기 하나 이상의 단어들에 대한 능동 잡음 소거를 수행하는 단계;
    상기 말하는 사용자가 말한 하나 이상의 단어들을 식별하기 위해 상기 오디오 입력 스트림을 프로세싱하는 단계;
    상기 말하는 사용자가 말한 상기 식별된 단어들을 제 2의, 상이한 언어로 번역하는 단계;
    상기 번역된 단어들을 사용하여, 상기 제 2의, 상이한 언어로 말한 단어들을 생성하는 단계; 및
    상기 제 2 언어로 상기 생성된 말한 단어들을 상기 듣는 사용자에게 리플레이하는 단계를 포함하는, 컴퓨터-구현 방법.
  22. 제 21 항에 있어서,
    제 2 언어로 상기 생성된 말한 단어들이 상기 말하는 사용자에 의해 말하여지는 것처럼 들리도록, 상기 생성된 말한 단어들은 상기 말하는 사용자에 대해 개인화되는, 컴퓨터-구현 방법.
  23. 제 22 항에 있어서,
    상기 생성된 말한 단어들을 개인화하는 것은:
    상기 말하는 사용자가 하나 이상의 단어들 또는 음절들을 어떻게 발음하는지를 결정하기 위해 상기 오디오 입력 스트림을 프로세싱하는 것; 및
    상기 결정된 발음들을 상기 생성된 말한 단어들에 적용하는 것을 더 포함하는, 컴퓨터-구현 방법.
  24. 제 23 항에 있어서,
    상기 생성된 말한 단어들의 리플레이 동안, 개인화들은 상기 말하는 사용자가 상기 단어들 또는 음절들을 어떻게 발음하는지를 상기 컴퓨터가 결정할 때 상기 리플레이된 단어들에 동적으로 적용되며; 및/또는
    상기 말하는 사용자는 하나 이상의 음성 샘플들을 제공하며, 이 음성 샘플들을 사용하여 상기 컴퓨터는 상기 오디오 입력 스트림을 수신하기 전에 상기 말하는 사용자가 상기 단어들 또는 음절들 중 하나 이상을 어떻게 발음하는지를 결정하는, 컴퓨터-구현 방법.
  25. 제 21 항 내지 제 24 항 중 어느 한 항에 있어서,
    상기 생성된 말한 단어들을 상기 듣는 사용자에게 리플레이하는 단계는:
    상기 말하는 사용자가 어느 방향에서 말하고 있는지를 결정하는 단계; 및
    상기 말한 단어들이 상기 말하는 사용자의 결정된 방향에서 온 것처럼 들리도록 상기 생성된 말한 단어들의 재생을 공간화하는 단계를 더 포함하는, 컴퓨터-구현 방법.
  26. 제 25 항에 있어서,
    상기 말하는 사용자가 어느 방향에서 말하고 있는지를 결정하는 단계는:
    상기 말하는 사용자와 연관된 디바이스에 대한 위치 데이터를 수신하는 단계;
    상기 수신된 위치 데이터에 기초하여 상기 말하는 사용자가 어느 방향에서 말하고 있는지를 결정하는 단계; 및
    상기 말한 단어들이 상기 말하는 사용자의 결정된 방향에서 온 것처럼 들리도록 상기 생성된 말한 단어들의 재생을 공간화하는 단계를 더 포함하고; 및/또는
    상기 말하는 사용자가 어느 방향에서 말하고 있는지를 결정하는 단계는:
    상기 말하는 사용자로부터 온 음파들에 대한 도착의 방향을 산출하는 단계;
    상기 산출된 도착의 방향에 기초하여 상기 말하는 사용자가 어느 방향에서 말하고 있는지를 결정하는 단계; 및
    상기 말한 단어들이 상기 말하는 사용자의 결정된 방향에서 온 것처럼 들리도록 상기 생성된 말한 단어들의 재생을 공간화하는 단계를 더 포함하며; 및/또는
    상기 말하는 사용자가 어느 방향에서 말하고 있는지를 결정하는 단계는:
    상기 듣는 사용자의 눈들의 움직임을 추적하는 단계;
    상기 듣는 사용자의 눈들의 추적된 움직임들에 기초하여 상기 말하는 사용자가 어느 방향에서 말하고 있는지를 결정하는 단계; 및
    상기 말한 단어들이 상기 말하는 사용자의 결정된 방향에서 온 것처럼 들리도록 상기 생성된 말한 단어들의 재생을 공간화하는 단계를 더 포함하는, 컴퓨터-구현 방법.
  27. 제 21 항 내지 제 26 항 중 어느 한 항에 있어서,
    상기 말하는 사용자가 말한 상기 하나 이상의 단어들을 식별하기 위해 상기 오디오 입력 스트림을 프로세싱하는 단계는 상기 말하는 사용자가 말한 단어들을 식별하기 위해 스피치-투-텍스트(STT) 프로그램을, 및 상기 번역된 말한 단어들을 생성하기 위해 텍스트-투-스피치(TTS) 프로그램을 구현하는 단계를 포함하는, 컴퓨터-구현 방법.
  28. 시스템에 있어서,
    적어도 하나의 물리 프로세서;
    컴퓨터-실행 가능한 명령들을 포함한 물리 메모리로서, 상기 컴퓨터-실행 가능한 명령들은 상기 물리 프로세서에 의해 실행될 때 상기 물리 프로세서로 하여금:
    제 1 언어로 말하는 사용자가 말한 하나 이상의 단어들을 포함하는 오디오 입력 스트림을 액세스하게 하고;
    상기 말한 단어들이 듣는 사용자에게 이르기 전에 억제되도록 상기 오디오 입력 스트림에서의 상기 하나 이상의 단어들에 대한 능동 잡음 소거를 수행하게 하고;
    상기 말하는 사용자가 말한 상기 하나 이상의 단어들을 식별하기 위해 상기 오디오 입력 스트림을 프로세싱하게 하고;
    상기 말하는 사용자가 말한 상기 식별된 단어들을 제 2의, 상이한 언어로 번역하게 하고;
    상기 번역된 단어들을 사용하여 상기 제 2의, 상이한 언어로 말한 단어들을 생성하게 하며;
    상기 제 2 언어로 상기 생성된 말한 단어들을 상기 듣는 사용자에게 리플레이하게 하는, 상기 물리 메모리를 포함하는, 시스템.
  29. 제 28 항에 있어서,
    상기 말하는 사용자와 연관된 음성 프로필을 다운로드하는 것; 및
    상기 제 2 언어로 리플레이된 생성된 말한 단어들이 상기 말하는 사용자에 의해 말하여지는 것처럼 들리도록, 상기 생성된 말한 단어들을 개인화하기 위해 상기 말하는 사용자와 연관된 상기 다운로드된 음성 프로필을 사용하는 것을 더 포함하는, 시스템.
  30. 제 28 항 또는 제 29 항에 있어서,
    상기 말하는 사용자와 연관된 저장된 오디오 데이터의 하나 이상의 부분들을 액세스하는 것; 및
    상기 제 2 언어로 리플레이된 상기 생성된 말한 단어들이 상기 말하는 사용자에 의해 말하여지는 것처럼 들리도록, 상기 생성된 말한 단어들을 개인화하기 위해 상기 액세스된 저장된 오디오 데이터를 사용하는 것을 더 포함하는, 시스템.
  31. 제 28 항 내지 제 30 항 중 어느 한 항에 있어서,
    상기 말하는 사용자가 말한 단어들을 파싱하는 것;
    상기 단어들 중 적어도 하나가 상기 듣는 사용자에 의해 이해되는 언어로 말하여진다고 결정하는 것; 및
    상기 듣는 사용자에 의해 이해되는 언어로 말하여진 상기 단어들에 대한 능동 잡음 소거를 일시정지하는 것을 더 포함하는, 시스템.
  32. 제 28 항 내지 제 31 항 중 어느 한 항에 있어서,
    상기 오디오 입력 스트림이 적어도 두 명의 상이한 말하는 사용자들이 말한 단어들을 포함한다고 결정하는 것;
    하나 이상의 음성 패턴들에 따라 상기 두 명의 말하는 사용자들을 구별하는 것; 및
    양쪽 말하는 사용자들 모두에 대한 능동 잡음 소거를 수행하면서, 제 1 말하는 사용자에 대한 말한 단어들을 생성하는 것을 더 포함하며;
    선택적으로:
    상기 제 1 사용자가 특정된 시간의 양 동안 말하는 것을 멈출 때까지 상기 제 2 말하는 사용자에 대한 생성된 말한 단어들을 저장하는 것; 및
    상기 제 2 말하는 사용자에 대한 상기 생성된 말한 단어들을 리플레이하는 것을 더 포함하고;
    선택적으로, 상기 제 2 언어로 상기 생성된 말한 단어들이 각각의 말하는 사용자의 음성에서 온 것처럼 들리도록, 상기 두 명의 말하는 사용자들의 각각에 대한 상기 생성된 말한 단어들을 개인화하는 것을 더 포함하는, 시스템.
  33. 제 28 항 내지 제 32 항 중 어느 한 항에 있어서,
    상기 물리 메모리 상에 저장된 상기 컴퓨터-실행 가능한 명령들의 적어도 일 부분은 상기 시스템으로부터 분리된 적어도 하나의 원격 물리 프로세서에 의해 프로세싱되며;
    선택적으로, 하나 이상의 정책들은 언제 및 상기 컴퓨터-실행 가능한 명령들의 어떤 부분들이 상기 시스템으로부터 분리된 적어도 하나의 원격 물리 프로세서상에서 프로세싱될지를 나타내는, 시스템.
  34. 하나 이상의 컴퓨터-실행 가능한 명령들을 포함한 비-일시적 컴퓨터-판독 가능한 매체에 있어서,
    상기 하나 이상의 컴퓨터-실행 가능한 명령들은 컴퓨팅 디바이스의 적어도 하나의 프로세서에 의해 실행될 때, 상기 컴퓨팅 디바이스로 하여금 제 21 항 내지 제 27 항 중 어느 한 항에 따른 방법을 수행하게 하거나 또는:
    제 1 언어로 말하는 사용자가 말한 하나 이상의 단어들을 포함하는 오디오 입력 스트림을 액세스하게 하고;
    상기 말한 단어들이 듣는 사용자에게 이르기 전에 억제되도록 상기 오디오 입력 스트림에서의 상기 하나 이상의 단어들에 대한 능동 잡음 소거를 수행하게 하고;
    상기 말하는 사용자가 말한 상기 하나 이상의 단어들을 식별하기 위해 상기 오디오 입력 스트림을 프로세싱하게 하고;
    상기 말하는 사용자가 말한 상기 식별된 단어들을 제 2의, 상이한 언어로 번역하게 하고;
    상기 번역된 단어들을 사용하여 상기 제 2의, 상이한 언어로 말한 단어들을 생성하게 하며;
    상기 제 2 언어로 상기 생성된 말한 단어들을 상기 듣는 사용자에게 리플레이하게 하는, 비-일시적 컴퓨터-판독 가능한 매체.
KR1020217015609A 2018-10-25 2018-12-20 Ar에서의 자연어 번역 KR20210065198A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/170,639 2018-10-25
US16/170,639 US11068668B2 (en) 2018-10-25 2018-10-25 Natural language translation in augmented reality(AR)
PCT/US2018/066951 WO2020086105A1 (en) 2018-10-25 2018-12-20 Natural language translation in ar

Publications (1)

Publication Number Publication Date
KR20210065198A true KR20210065198A (ko) 2021-06-03

Family

ID=70327234

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217015609A KR20210065198A (ko) 2018-10-25 2018-12-20 Ar에서의 자연어 번역

Country Status (6)

Country Link
US (1) US11068668B2 (ko)
EP (1) EP3871075A4 (ko)
JP (1) JP7284252B2 (ko)
KR (1) KR20210065198A (ko)
CN (1) CN113228029A (ko)
WO (1) WO2020086105A1 (ko)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11540054B2 (en) * 2018-01-03 2022-12-27 Google Llc Using auxiliary device case for translation
GB2582910A (en) * 2019-04-02 2020-10-14 Nokia Technologies Oy Audio codec extension
US11361676B2 (en) * 2019-06-14 2022-06-14 International Business Machines Corporation, Armonk, Ny Augmented reality techniques for simultaneously learning multiple languages
CN110610720B (zh) * 2019-09-19 2022-02-25 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置
US11301645B2 (en) * 2020-03-03 2022-04-12 Aziza Foster Language translation assembly
US11995774B2 (en) * 2020-06-29 2024-05-28 Snap Inc. Augmented reality experiences using speech and text captions
EP4172740A1 (en) * 2020-06-30 2023-05-03 Snap Inc. Augmented reality eyewear with speech bubbles and translation
CN112259072A (zh) * 2020-09-25 2021-01-22 北京百度网讯科技有限公司 语音转换方法、装置和电子设备
US20220188525A1 (en) * 2020-12-14 2022-06-16 International Business Machines Corporation Dynamic, real-time collaboration enhancement
US20220237391A1 (en) * 2021-01-25 2022-07-28 Nec Laboratories America, Inc. Interpreting cross-lingual models for natural language inference
CN115809672A (zh) * 2021-09-14 2023-03-17 北京小米移动软件有限公司 翻译方法、装置、ar眼镜、存储介质及计算机程序产品
GB2622002A (en) * 2022-08-30 2024-03-06 Sony Interactive Entertainment Inc Speech assistance apparatus and method

Family Cites Families (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09152884A (ja) * 1995-11-30 1997-06-10 Fujitsu Ten Ltd 音声合成装置
JP3959540B2 (ja) 2000-03-14 2007-08-15 ブラザー工業株式会社 自動翻訳装置
JP2003216545A (ja) 2002-01-22 2003-07-31 Canon Inc 電子メール送受信装置およびプログラム
US20040044517A1 (en) * 2002-08-30 2004-03-04 Robert Palmquist Translation system
US7539619B1 (en) * 2003-09-05 2009-05-26 Spoken Translation Ind. Speech-enabled language translation system and method enabling interactive user supervision of translation and speech recognition accuracy
US7406414B2 (en) * 2003-12-15 2008-07-29 International Business Machines Corporation Providing translations encoded within embedded digital information
JP2006189544A (ja) 2005-01-05 2006-07-20 Matsushita Electric Ind Co Ltd 通訳装置、通訳方法、通訳プログラムを記録した記録媒体、および通訳プログラム
US20080133245A1 (en) * 2006-12-04 2008-06-05 Sehda, Inc. Methods for speech-to-speech translation
US8290775B2 (en) * 2007-06-29 2012-10-16 Microsoft Corporation Pronunciation correction of text-to-speech systems between different spoken languages
JP4450077B2 (ja) 2008-01-21 2010-04-14 ヤマハ株式会社 通話装置
US7472061B1 (en) * 2008-03-31 2008-12-30 International Business Machines Corporation Systems and methods for building a native language phoneme lexicon having native pronunciations of non-native words derived from non-native pronunciations
WO2009129315A1 (en) * 2008-04-15 2009-10-22 Mobile Technologies, Llc System and methods for maintaining speech-to-speech translation in the field
JP5294700B2 (ja) 2008-05-22 2013-09-18 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識及び合成システム、プログラム及び方法
JP2010187363A (ja) 2009-01-16 2010-08-26 Sanyo Electric Co Ltd 音響信号処理装置及び再生装置
US20100185432A1 (en) * 2009-01-22 2010-07-22 Voice Muffler Corporation Headset Wireless Noise Reduced Device for Language Translation
US20100198577A1 (en) * 2009-02-03 2010-08-05 Microsoft Corporation State mapping for cross-language speaker adaptation
US8645140B2 (en) * 2009-02-25 2014-02-04 Blackberry Limited Electronic device and method of associating a voice font with a contact for text-to-speech conversion at the electronic device
US20100250231A1 (en) * 2009-03-07 2010-09-30 Voice Muffler Corporation Mouthpiece with sound reducer to enhance language translation
JP5343744B2 (ja) 2009-07-24 2013-11-13 富士通株式会社 音声翻訳装置及び音声翻訳方法
US8654952B2 (en) * 2009-08-20 2014-02-18 T-Mobile Usa, Inc. Shareable applications on telecommunications devices
US8121618B2 (en) * 2009-10-28 2012-02-21 Digimarc Corporation Intuitive computing methods and systems
US20120029912A1 (en) * 2010-07-27 2012-02-02 Voice Muffler Corporation Hands-free Active Noise Canceling Device
US20120035905A1 (en) * 2010-08-09 2012-02-09 Xerox Corporation System and method for handling multiple languages in text
JP5666219B2 (ja) 2010-09-10 2015-02-12 ソフトバンクモバイル株式会社 眼鏡型表示装置及び翻訳システム
JP5017441B2 (ja) * 2010-10-28 2012-09-05 株式会社東芝 携帯型電子機器
US10726861B2 (en) * 2010-11-15 2020-07-28 Microsoft Technology Licensing, Llc Semi-private communication in open environments
US9037458B2 (en) 2011-02-23 2015-05-19 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for spatially selective audio augmentation
US9098488B2 (en) * 2011-04-03 2015-08-04 Microsoft Technology Licensing, Llc Translation of multilingual embedded phrases
US8549569B2 (en) * 2011-06-17 2013-10-01 Echostar Technologies L.L.C. Alternative audio content presentation in a media content receiver
EP2842055B1 (en) * 2012-04-25 2018-06-27 Kopin Corporation Instant translation system
US9922641B1 (en) * 2012-10-01 2018-03-20 Google Llc Cross-lingual speaker adaptation for multi-lingual speech synthesis
KR20140120560A (ko) * 2013-04-03 2014-10-14 삼성전자주식회사 통역 장치 제어 방법, 통역 서버의 제어 방법, 통역 시스템의 제어 방법 및 사용자 단말
EP3095252A2 (en) * 2014-01-17 2016-11-23 Hearglass, Inc. Hearing assistance system
US20160165350A1 (en) * 2014-12-05 2016-06-09 Stages Pcs, Llc Audio source spatialization
US9984674B2 (en) * 2015-09-14 2018-05-29 International Business Machines Corporation Cognitive computing enabled smarter conferencing
US10189434B1 (en) * 2015-09-28 2019-01-29 Apple Inc. Augmented safety restraint
US9961435B1 (en) * 2015-12-10 2018-05-01 Amazon Technologies, Inc. Smart earphones
US20170243582A1 (en) * 2016-02-19 2017-08-24 Microsoft Technology Licensing, Llc Hearing assistance with automated speech transcription
EP3264259A1 (en) * 2016-06-30 2018-01-03 Nokia Technologies Oy Audio volume handling
EP3533242B1 (en) * 2016-10-28 2021-01-20 Panasonic Intellectual Property Corporation of America Binaural rendering apparatus and method for playing back of multiple audio sources
JP7138631B2 (ja) * 2016-11-10 2022-09-16 コーニンクレッカ フィリップス エヌ ヴェ 撮像システムのための収集パラメータを選択すること
EP3542360A4 (en) * 2016-11-21 2020-04-29 Microsoft Technology Licensing, LLC METHOD AND DEVICE FOR AUTOMATIC SYNCHRONIZATION
US10971157B2 (en) * 2017-01-11 2021-04-06 Nuance Communications, Inc. Methods and apparatus for hybrid speech recognition processing
US11096004B2 (en) * 2017-01-23 2021-08-17 Nokia Technologies Oy Spatial audio rendering point extension
WO2018160593A1 (en) * 2017-02-28 2018-09-07 Magic Leap, Inc. Virtual and real object recording in mixed reality device
WO2019173573A1 (en) * 2018-03-08 2019-09-12 Bose Corporation User-interfaces for audio-augmented-reality
US11152006B2 (en) * 2018-05-07 2021-10-19 Microsoft Technology Licensing, Llc Voice identification enrollment
US10791404B1 (en) * 2018-08-13 2020-09-29 Michael B. Lasky Assisted hearing aid with synthetic substitution
JP6534767B1 (ja) * 2018-08-28 2019-06-26 本田技研工業株式会社 データベース作成装置及び検索システム

Also Published As

Publication number Publication date
EP3871075A1 (en) 2021-09-01
JP7284252B2 (ja) 2023-05-30
US20200134026A1 (en) 2020-04-30
CN113228029A (zh) 2021-08-06
EP3871075A4 (en) 2021-12-08
US11068668B2 (en) 2021-07-20
WO2020086105A1 (en) 2020-04-30
JP2022510752A (ja) 2022-01-28

Similar Documents

Publication Publication Date Title
US11068668B2 (en) Natural language translation in augmented reality(AR)
US11869475B1 (en) Adaptive ANC based on environmental triggers
US10979845B1 (en) Audio augmentation using environmental data
US11096006B1 (en) Dynamic speech directivity reproduction
JP2022518883A (ja) オーディオシステムのための修正されたオーディオ体験を生成すること
US10819953B1 (en) Systems and methods for processing mixed media streams
US11234073B1 (en) Selective active noise cancellation
US10979236B1 (en) Systems and methods for smoothly transitioning conversations between communication channels
US10674259B2 (en) Virtual microphone
US12003954B2 (en) Audio system and method of determining audio filter based on device position
US10764707B1 (en) Systems, methods, and devices for producing evancescent audio waves
WO2021091632A1 (en) Real-time augmented hearing platform
US11638111B2 (en) Systems and methods for classifying beamformed signals for binaural audio playback

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E601 Decision to refuse application