KR20230033624A - 음향 공간에 기초한 음성 트리거 - Google Patents

음향 공간에 기초한 음성 트리거 Download PDF

Info

Publication number
KR20230033624A
KR20230033624A KR1020220109178A KR20220109178A KR20230033624A KR 20230033624 A KR20230033624 A KR 20230033624A KR 1020220109178 A KR1020220109178 A KR 1020220109178A KR 20220109178 A KR20220109178 A KR 20220109178A KR 20230033624 A KR20230033624 A KR 20230033624A
Authority
KR
South Korea
Prior art keywords
computing device
user
speech
acoustic space
gaze
Prior art date
Application number
KR1020220109178A
Other languages
English (en)
Inventor
프라틱 무르가이
아쉬리스 데쉬판데
Original Assignee
애플 인크.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 애플 인크. filed Critical 애플 인크.
Publication of KR20230033624A publication Critical patent/KR20230033624A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

복수의 마이크로폰 신호들이 획득될 수 있다. 복수의 마이크로폰 신호들에서, 사용자의 스피치가 검출될 수 있다. 사용자의 시선은 복수의 마이크로폰 신호들에 기초하여 결정될 수 있다. 컴퓨팅 디바이스의 음성 활성화 응답은 사용자의 시선이 컴퓨팅 디바이스를 향하는 것에 응답하여 수행될 수 있다. 다른 태양들이 설명되고 청구된다.

Description

음향 공간에 기초한 음성 트리거{VOICE TRIGGER BASED ON ACOUSTIC SPACE}
관련 출원에 대한 상호 참조
본 출원은 2021년 9월 1일자로 출원된 미국 가출원 제63/239,567호의 이익을 주장하며, 상기 출원은 그 전체가 본 명세서에 참조로서 포함된다.
예를 들어, 컴퓨터들, 스피커들, 텔레비전들, 스마트폰들, 태블릿 컴퓨터들, 및 가전제품들과 같은 컴퓨팅 디바이스들은 일상적인 환경에서 많이 사용될 수 있다. 많은 이러한 컴퓨팅 디바이스들이 거실, 주방, 로비, 사무실, 침실 또는 다른 밀폐 공간과 같은 공유된 공간에 존재할 수 있다. 일부 컴퓨팅 디바이스들은 사운드를 감지하는 마이크로폰들을 갖는다. 마이크로폰들은 감지된 사운드들을 마이크로폰 신호들로 각인(imprint)하고, 이러한 사운드들은 추가 프로세싱 또는 저장을 위해 운반될 수 있다.
컴퓨팅 디바이스들은 마이크로폰 신호들을 프로세싱하여 마이크로폰 신호들에서 사운드들을 검출할 수 있다. 일부 경우에, 전자 디바이스는 마이크로폰 신호들을 프로세싱하여 마이크로폰들이 사용자의 스피치를 픽업했는지 여부를 검출할 수 있다. 스피치가 존재하는 경우, 디바이스는 슬립(sleep) 상태로부터 웨이크업(wake-up)하는 것, 음성 커맨드를 검출하거나 그에 응답하는 것, 사용자를 식별하는 것, 및/또는 다른 동작들과 같은 음성 활성화 응답을 트리거할 수 있다.
거실, 주방, 로비, 사무실, 침실 또는 다른 밀폐 영역과 같은 공간은 그의 내부에 배치된 다수의 컴퓨팅 디바이스들을 가질 수 있다. 그러나, 사용자의 스피치에 응답하여 모든 디바이스가 트리거되게 하는 것은 바람직하지 않을 수 있다. 음성 활성화 또는 "핸즈 프리" 애플리케이션들에 대해 어느 디바이스가 트리거될지를 결정하는 것은 복잡할 수 있다. 따라서, 단일 공간에 존재하는 많은 수의 디바이스들은 디바이스의 음성 활성화 거동을 복잡하게 할 수 있다.
또한, 이들 디바이스들이 배치되는 공간들은 상호연결될 수 있으며, 이는 어느 디바이스가 트리거되어야 하는지에 대한 문제를 더 복잡하게 할 수 있다. 예를 들어, 상이한 공간들이 복도들, 계단들, 입구들, 출입구들, 입방체 벽들, 및 공간들을 결합하는 다른 통로들을 통해 연결될 수 있다. 사용자 공간의 복잡성은 사용자의 스피치에 응답한 하나 이상의 디바이스들의 의도하지 않은 트리거로 이어질 수 있다.
일 태양에서, 컴퓨팅 디바이스에 의해 수행되는 방법은 복수의 마이크로폰들로부터 생성된 복수의 마이크로폰 신호들을 획득하는 단계, 복수의 마이크로폰 신호들에서, 사용자의 스피치를 검출하는 단계, 복수의 마이크로폰 신호들에 기초하여 사용자의 시선을 결정하는 단계, 및 사용자의 시선이 컴퓨팅 디바이스를 향하는 것에 응답하여 컴퓨팅 디바이스의 음성 활성화 응답을 트리거하는 단계를 포함한다. 이와 같이, 사용자의 시선은 사용자의 의도에 대한 대용으로 사용될 수 있다. 사용자가 디바이스를 향하고 있고 그에게 말하고 있는 경우, 디바이스는 디바이스가 응답할 것으로 사용자가 의도한다고 가정할 수 있다.
일 태양에서, 컴퓨팅 디바이스에 의해 수행되는 방법은 복수의 마이크로폰들로부터 생성된 복수의 마이크로폰 신호들을 획득하는 단계, 복수의 마이크로폰 신호들에서, 사용자의 스피치를 검출하는 단계, 트레이닝된 뉴럴 네트워크를 사용하여, 스피치가 컴퓨팅 디바이스와 함께 공유 음향 공간에서 발생하는지 여부를 결정하는 단계, 및 스피치가 컴퓨팅 디바이스와 함께 공유 음향 공간에서 발생하는지 여부에 기초하여 컴퓨팅 디바이스의 음성 활성화 응답을 트리거하는 단계를 포함한다. 이와 같이, 사용자와 상이한 음향 공간에 있는 디바이스는 사용자의 스피치를 무시할 수 있다.
음향 공간은 밀폐 공간으로 이해될 수 있다. 언급된 바와 같이, 상이한 음향 공간들은 상호연결될 수 있다. 상이한 음향 공간들은 상이한 음향 속성들, 예컨대, 사운드가 음향 공간에서 어떻게 반사되는지, 반사된 음향들이 음향 공간에서 취하는 방향들, 음향 공간에서 사운드가 어떻게 감쇠되는지, 사운드가 방향에 대해 어떻게 필터링될 수 있는지, 및/또는 음향 공간의 룸 임펄스 응답(room impulse response)을 특징으로 할 수 있는 다른 음향 속성들을 가질 수 있다. 일부 태양에서, 매우 큰 룸과 같은 공유된 공간에서도, 공간의 한 영역과 공간의 다른 영역은 이들이 상이한 음향 속성들을 갖는지 여부에 기초하여 상이한 음향 공간들로서 처리될 수 있다.
일부 태양들에서, 컴퓨팅 디바이스는 사용자의 시선에 기초하여 그리고 스피치가 사용자와 함께 공유 음향 공간에서 발생하는지 여부에 기초하여 트리거된다. 따라서, 다수의 디바이스들이 상호연결된 공간들에 존재하는 경우, 동일한 음향 공간에 있고 사용자가 응시하는 디바이스가 트리거될 수 있다. 의사 결정 시스템은 다수의 디바이스들로부터 정보를 수집할 수 있고 어느 디바이스가 트리거될지를 결정할 수 있다. 예를 들어, 의사 결정 시스템은, 사용자와 함께 공유 음향 공간에 있는 디바이스들을 후보 목록에 나열함으로써 그리고 이러한 후보 목록에 있고 사용자가 디바이스를 응시하고 있다는 것을 가장 강력하게 나타내는 디바이스를 트리거함으로써 어느 디바이스를 트리거할지를 결정할 수 있다. 다른 디바이스들은 스피치를 무시할 수 있다.
상기의 발명의 내용은 본 개시내용의 모든 태양들의 완전한 목록을 포함하지는 않는다. 본 개시내용이 상기에서 요약된 다양한 태양들의 모든 적합한 조합들로부터 실시될 수 있는 모든 시스템들 및 방법들뿐만 아니라, 하기의 발명을 실시하기 위한 구체적인 내용에서 개시되고 청구범위 섹션에서 특히 지적되는 것들을 포함한다는 것이 고려된다. 그러한 조합들은 상기의 발명의 내용에서 구체적으로 언급되지 않은 특정의 장점들을 가질 수 있다.
본 명세서의 개시내용의 여러가지 태양들은 첨부 도면들의 도면들에서 제한으로서가 아니라 예로서 예시되며, 첨부 도면들에서 유사한 도면 부호들은 유사한 요소들을 표시한다. 본 개시내용에서 "일" 또는 "하나의" 태양에 대한 참조들이 반드시 동일한 태양에 대한 것은 아니며, 이들은 적어도 하나를 의미한다는 것에 유의해야 한다. 또한, 간결함 및 도면들의 총 수를 감소시키기 위해, 주어진 도면은 본 개시내용의 하나 초과의 태양의 특징부들을 예시하는데 사용될 수 있으며, 도면의 모든 요소들이 주어진 태양에 대해 요구되지는 않을 수 있다.
도 1은 일부 태양들에 따른, 음향 시선(acoustic gaze) 검출에 기초하여 디바이스를 트리거하기 위한 방법을 도시한다.
도 2는 일부 태양들에 따른, 공유 음향 공간에 기초하여 디바이스를 트리거하기 위한 방법을 도시한다.
도 3은 일부 태양들에 따른, 디바이스를 트리거하기 위한 예시적인 시나리오를 예시한다.
도 4는 일부 태양들에 따른, 디바이스를 트리거하기 위한 시스템 및 워크플로우를 예시한다.
도 5는 일부 태양들에 따른, 트리거를 결정하기 위해 통신하는 복수의 컴퓨팅 디바이스들을 예시한다.
도 6은 일부 태양들에 따른, 오디오 프로세싱 시스템의 일례를 예시한다.
도 1은 일부 태양들에 따른, 음향 시선 검출에 기초하여 디바이스를 트리거하기 위한 방법을 도시한다. 방법(100)은 설명된 다양한 태양들로 수행될 수 있다. 본 방법은 하드웨어(예컨대, 회로부, 전용 로직, 프로그램가능 로직, 프로세서, 프로세싱 디바이스, 중앙 처리 장치(CPU), 시스템 온 칩(SoC) 등), 소프트웨어(예컨대, 프로세싱 디바이스에서 수행/실행하는 명령어들), 펌웨어(예컨대, 마이크로코드), 또는 컴퓨팅 디바이스 또는 전자 디바이스로 이해될 수 있는 이들의 조합에 의해 수행될 수 있다. 특정 기능 블록들("블록들")이 본 방법에 설명되어 있지만, 이러한 블록들은 예들이다. 즉, 태양들은 다양한 다른 블록들 또는 본 방법에 언급된 블록들의 변형들을 수행하는 데 매우 적합하다. 본 방법의 블록들은 제시된 것과 상이한 순서로 수행될 수 있고 본 방법의 블록들이 모두 수행될 수 있는 것은 아니라는 것이 이해된다.
블록(102)에서, 컴퓨팅 디바이스는 복수의 마이크로폰들로부터 생성된 복수의 마이크로폰 신호들을 획득할 수 있다. 컴퓨팅 디바이스는 컴퓨터, 스피커(예컨대, 스마트 스피커), 텔레비전, 스마트폰, 태블릿 컴퓨터, 가전제품, 미디어 플레이어, 또는 다른 컴퓨팅 디바이스일 수 있다.
복수의 마이크로폰들은 컴퓨팅 디바이스에 고유한 것일 (예컨대, 컴퓨팅 디바이스의 하우징 내에 또는 상에 통합될) 수 있거나, 별개의 컴퓨팅 디바이스와 통합될 수 있다. 별개의 컴퓨팅 디바이스, 또는 고유의 컴퓨팅 디바이스는 의사 결정 시스템으로 역할을 할 수 있는데, 이는 다른 섹션들에서 설명되는 바와 같이, 컴퓨팅 디바이스들 중 어느 것이 트리거되어야 하는지를 결정하는 데 사용될 수 있는 입력들을 다른 컴퓨팅 디바이스들로부터 또한 획득할 수 있다
블록(104)에서, 컴퓨팅 디바이스는, 복수의 마이크로폰 신호들에서, 사용자의 스피치를 검출할 수 있다. 예를 들어, 컴퓨팅 디바이스는 음성 활동 검출(voice activity detection, VAD) 알고리즘으로 또한 이해될 수 있는 스피치 검출 알고리즘을 마이크로폰 신호들에 적용할 수 있다. 음성 활동 검출은 인간 스피치의 존재 또는 부재가 검출되는 기술로 이해될 수 있다. VAD 알고리즘은 마이크로폰 신호들의 하나 이상의 부분들로부터 특징부들(예컨대, 신호 대 잡음비, 라인 스펙트럼 주파수들, 전대역 에너지, 저대역 에너지, 제로-크로싱 레이트 또는 다른 특징부들)을 추출할 수 있고 그 부분이 스피치를 포함하는지 여부를 분류하기 위해 특징부들에 분류 규칙을 적용할 수 있다. 컴퓨팅 디바이스는 본 개시내용의 범주를 벗어나지 않고서 스피치를 검출하기 위해 다양한 VAD 알고리즘들을 사용할 수 있다. 검출은 음성 활성화 응답을 트리거하는 데 사용될 수 있다. 설명된 바와 같이, 다수의 디바이스들은 상호연결될 수 있는 하나 이상의 공간들에 존재할 수 있으며, 따라서 어느 디바이스가 트리거되어야 하는지의 문제를 복잡하게 한다.
블록(106)에서, 컴퓨팅 디바이스는 복수의 마이크로폰 신호들에 기초하여 사용자의 시선을 결정할 수 있다. 예를 들어, 컴퓨팅 디바이스는 사용자의 시선을 결정하기 위해 마이크로폰 신호들 각각에서 사용자의 스피치를 분석할 수 있다. 시선은 사용자의 머리와 입이 가리키고 있는 방향으로 이해될 수 있다. 사용자의 시선은 사용자의 의도에 대한 대용으로 사용될 수 있다. 일부 태양들에서, 블록(106)은 블록(104)에서의 사용자의 스피치의 검출에 응답하여 수행될 수 있다.
일부 예들에서, 사용자의 시선을 결정하는 것은 복수의 마이크로폰 신호들을 사용하여 직접 대 반사 음향비(direct to reverberant ratio, DRR)를 결정하는 것을 포함할 수 있다. DRR은 지향성 음원으로부터의 직접 사운드의, 주어진 위치에서의 음압 레벨 대 동일한 위치에 동시에 입사되는 반사 음압 레벨의 비로 이해될 수 있다.
컴퓨팅 디바이스는, DRR이 높은 (예컨대, 임계치를 초과하는) 경우, 사용자의 시선이 사용자의 스피치를 감지하는 마이크로폰들을 향하는 것으로 추론할 수 있다. 사용자의 시선이 마이크로폰들을 향할 때, 마이크로폰들에 의해 감지되는 스피치는 사용자로부터 직접 마이크로폰들로 이동하는 스피치로 이해할 수 있는 큰 직접 컴포넌트를 가질 수 있다. 반대로, DRR이 낮은 (예컨대, 임계치 미만인) 경우, 이는 스피치, 및 추론에 의한, 사용자의 시선이 마이크로폰 어레이로부터 멀리 향하고 있다는 것을 나타낸다. 이러한 경우, 스피치의 음향 에너지의 대부분은, 마이크로폰들로 직접 이동하는 것이 아니라, 마이크로폰들에 의해 반향으로서 감지되기 전에 하나 이상의 표면들에서 바운드된다.
마이크로폰들은 컴퓨팅 디바이스에, 또는 외부 컴퓨팅 디바이스에 통합되는 마이크로폰 어레이를 형성할 수 있다. 마이크로폰들이 로컬 컴퓨팅 디바이스 내에 통합되는 경우에, DRR이 임계치를 만족할 때 사용자의 시선은 컴퓨팅 디바이스를 향하는 것으로 결정될 수 있다. 컴퓨팅 디바이스가 복수의 컴퓨팅 디바이스들에 대한 의사 결정자로서 역할을 하는 경우에, 사용자의 시선은 가장 높은 시선 신뢰도(예컨대, 가장 높은 DRR)로 컴퓨팅 디바이스를 향하는 것으로 결정될 수 있다.
예를 들어, 통합된 마이크로폰들을 갖는 스마트 스피커가 DRR이 값 "x"의 임계치 DRR을 만족한다고 결정하면, 스마트 스피커는 사용자의 시선이 스마트 스피커를 향하는 것으로 결정할 수 있다. 다른 예에서, 스마트 스피커가 하나 이상의 다른 디바이스들에 대한 의사 결정자로 역할을 하는 경우, 스마트 스피커는 그 자신의 마이크로폰 신호들로부터 검출된 스피치의 DRR을 결정할 수 있고, 다른 디바이스들로부터 DRR을 획득할 수 있다. 이어서, 스마트 스피커는 자신을 포함하여 디바이스들 중 어느 것이 가장 높은 DRR을 갖는지를 결정할 수 있다. 스마트 스피커는 가장 높은 DRR을 갖는 디바이스가 트리거될 것을 지시할 수 있으며, 이는 자신이거나 다른 디바이스들 중 하나일 수 있다.
일부 태양들에서, 사용자의 시선을 결정하는 것은 복수의 마이크로폰 신호들로부터 복수의 음향 픽업 빔들을 생성하는 것 및 복수의 음향 픽업 빔들에서 직접 및 반사 음향 사운드를 측정하는 것을 포함한다. 예를 들어, 마이크로폰들 각각은 마이크로폰 어레이를 함께 형성하는 고정된 상대 위치를 가질 수 있다. 컴퓨팅 디바이스는 복수의 마이크로폰 신호들에, 공간 필터들로서 또한 이해될 수 있는 빔포밍 필터들을 적용할 수 있다. 적용된 필터들은 마이크로폰 신호들 사이에서 보강 및 상쇄 간섭을 생성하여 일부 방향들로부터의 음향 에너지가 강조되는 한편 다른 방향들로부터의 음향 에너지는 강조되지 않게 한다. 음향 에너지가 강조되는 위치들은 음향 픽업 빔들로 이해될 수 있다. 예를 들어, 음향 픽업 빔들 중 하나 또는 둘이 다른 음향 픽업 빔들과 비교하여 우세한 양의 스피치를 픽업하고 있는 경우, 이는 음향 에너지의 일부가 음원으로부터 직접 비롯된 것임을 나타낼 수 있다. DRR은 높은 것으로 결정될 수 있고, 사용자의 시선이 마이크로폰 어레이를 향하는 것을 나타내는 임계치를 만족할 수 있다. 반대로, 음향 픽업 빔들 각각 내의 스피치가 스피치의 평균으로부터 실질적으로 벗어나지 않거나 임계치 DRR을 만족하지 않는 경우, 이는 스피치가 반향으로서 거의 모든 방향들로부터 마이크로폰 어레이에 의해 픽업되고 있는 것을 나타낼 수 있으며, 이는 이어서 사용자의 시선이 마이크로폰 어레이로부터 멀리 향하고 있을 가능성이 높음을 나타낸다. 다른 오디오 프로세싱 기술들이 사용자의 시선 또는 DRR을 결정하는 데 사용될 수 있다.
블록(108)에서, 컴퓨팅 디바이스는 사용자의 시선이 컴퓨팅 디바이스를 향하는 것에 응답하여 컴퓨팅 디바이스의 음성 활성화 응답을 트리거할 수 있다. 일부 태양들에서, 사용자의 시선이 컴퓨팅 디바이스를 향하지 않는 (예컨대, 시선 신뢰도가 다른 컴퓨팅 디바이스들의 시선 신뢰도보다 낮고/낮거나 시선 신뢰도가 임계치 미만인) 경우, 컴퓨팅 디바이스는 음성 활성화 응답을 트리거하지 않는다. 음성 활성화 응답은 트리거 전에 수행되지 않았던 컴퓨팅 디바이스에 의해 수행되는 동작을 포함할 수 있다.
예를 들어, 컴퓨팅 디바이스는 컴퓨팅 디바이스의 웨이크업(wake-up)을 트리거할 수 있다. 디바이스들은 동작들의 프로세싱이 제한되는 슬립 모드에서 동작할 수 있다. 디바이스가 트리거될 때, 이는 웨이크업 모드로 진입할 수 있고, 예를 들어 화면을 켜거나, 추가된 스피치 인식 기능들을 이용하여 마이크로폰 신호들을 프로세싱하거나, 슬립 모드에서 실행되지 않은 다른 동작들을 수행하는 것과 같이 수행될 다른 동작들을 트리거할 수 있다.
추가적으로 또는 대안적으로, 음성 활성화 응답은 음성 커맨드를 검출하기 위해 스피치를 프로세싱하는 것을 포함할 수 있다. 예를 들어, 사용자의 시선이 컴퓨팅 디바이스를 향하는 것에 기초하여, 컴퓨팅 디바이스는 하나 이상의 자동 스피치 인식(automatic speech recognition, ASR) 알고리즘들을 마이크로폰 신호들에 적용하여 음성 커맨드, 예를 들어, "play music" 또는 "take me home"이 스피치 내에 존재하는지 여부를 검출할 수 있다. 이어서, 컴퓨팅 디바이스는, 검출된 음성 커맨드에 따라, 음악 재생 애플리케이션, 내비게이션 애플리케이션, 또는 다른 애플리케이션을 시작하는 것과 같은 추가 동작들을 수행함으로써 음성 커맨드에 응답할 수 있다. 일부 예들에서, 컴퓨팅 디바이스는 음성 인식 알고리즘을 스피치에 적용하여 스피치를 발생시키는 사용자를 식별할 수 있다. 예를 들어, 컴퓨팅 디바이스는 감지된 스피치를 기지의 스피치 시그너처들과 비교하여 매칭을 결정할 수 있다. 컴퓨팅 디바이스는 사용자를 식별하는 것에 기초하여 하나 이상의 동작들을 수행할 수 있다. 예를 들어, 식별된 사용자와 연관되는 사용자 설정들 또는 선호도들(예컨대, 우선하는 오디오 또는 콘텐츠 설정들)이 사용되어 사용자에 대해 응답을 조정할 수 있다.
도 2는 일부 태양들에 따른, 음향 시선 검출에 기초하여 디바이스를 트리거하기 위한 방법을 도시한다. 방법(200)은 설명된 다양한 태양들로 수행될 수 있다. 본 방법은 하드웨어(예컨대, 회로부, 전용 로직, 프로그램가능 로직, 프로세서, 프로세싱 디바이스, 중앙 처리 장치(CPU), 시스템 온 칩(SoC) 등), 소프트웨어(예컨대, 프로세싱 디바이스에서 수행/실행하는 명령어들), 펌웨어(예컨대, 마이크로코드), 또는 컴퓨팅 디바이스 또는 전자 디바이스로 이해될 수 있는 이들의 조합에 의해 수행될 수 있다. 특정 기능 블록들("블록들")이 본 방법에 설명되어 있지만, 이러한 블록들은 예들이다. 즉, 태양들은 다양한 다른 블록들 또는 본 방법에 언급된 블록들의 변형들을 수행하는 데 매우 적합하다. 본 방법의 블록들은 제시된 것과 상이한 순서로 수행될 수 있고 본 방법의 블록들이 모두 수행될 수 있는 것은 아니라는 것이 이해된다.
블록(202)에서, 컴퓨팅 디바이스는 복수의 마이크로폰들로부터 생성된 복수의 마이크로폰 신호들을 획득할 수 있다. 마이크로폰들은 컴퓨팅 디바이스의 공유 하우징 내에 통합되는 마이크로폰 어레이를 형성할 수 있지만, 다른 섹션들에서 설명된 바와 같이, 본 방법의 태양들은 컴퓨팅 디바이스가 복수의 컴퓨팅 디바이스들로부터 정보를 수집하고 어느 컴퓨팅 디바이스들이 트리거될지를 결정하는 경우에 또한 적용될 수 있다는 것을 이해하여야 한다.
블록(204)에서, 컴퓨팅 디바이스는, 다른 섹션들에서 설명된 바와 같이, 복수의 마이크로폰 신호들에서, 사용자의 스피치를 검출할 수 있다. 스피치는 사용자의 입에서 나오는 음성 언어 또는 다른 사운드(예컨대, 기침, 휘파람 또는 다른 사운드)를 지칭할 수 있다.
블록(206)에서, 컴퓨팅 디바이스는, 트레이닝된 뉴럴 네트워크를 사용하여, 스피치가 컴퓨팅 디바이스와 함께 공유 음향 공간에서 발생하는지 여부를 결정할 수 있다. 음향 공간은 물체들이 유사한 방식으로 음향 에너지를 경험할 때 공유되는 것으로 이해될 수 있다. 예를 들어, 음향 에너지는 상이한 음향 공간들에서 상이하게 이동한다. 이는 사운드가 룸 내에서 어떻게 바운드되는지, 사운드가 룸 내에서 상이한 방향들로부터 어떻게 흡수되는지, 사운드가 얼마나 빠르게 감쇠하는지, 음향 공간에 존재하는 다른 사운드들, 반향 시간, 및 룸 임펄스 응답을 특성화할 수 있는 다른 음향 속성들을 포함할 수 있다. 일부 태양들에서, 블록(206)은 블록(204)에서 검출되는 스피치에 응답하여 수행될 수 있다.
추가로, 룸(예컨대, 사무실)이 크고, 사운드의 음향 응답에 영향을 줄 수 있는 상이한 표면 재료들, 가구, 기하학적 구조 또는 다른 인자들을 갖는 경우, 그 룸은 상이한 음향 공간들로서 처리되는 영역들을 가질 수 있다. 전형적으로, 하나의 룸(예컨대, 침실)은 룸의 상이한 기하학적 구조, 룸 내의 물체들 및 가구, 표면 재료들, 또는 이들 룸들 내에서의 사운드의 음향 응답에 영향을 미치는 다른 인자들로 인해 다른 룸(예컨대, 거실)과는 상이한 음향 속성들을 가질 수 있다.
트레이닝된 뉴럴 네트워크는 미가공 마이크로폰 신호들 또는 미가공 마이크로폰 신호들로부터 추출된 특징부들을 입력으로서 수신할 수 있다. 트레이닝된 뉴럴 네트워크는 스피치가 컴퓨팅 디바이스와 함께 공유 음향 공간에서 발생하고 있는지 여부를 나타내는 신뢰도 점수를 출력할 수 있다. 일부 태양들에서, 트레이닝된 뉴럴 네트워크는, 예를 들어, 사용자가 마이크로폰 어레이로서 공유 음향 공간 내에 위치되는 것을 나타내는 '1'을 출력함으로써, 또는 사용자가 상이한 음향 공간 내에 위치되고 공유 음향 공간 내에 위치되지 않는 것을 나타내는 '0'을 출력함으로써 2진 분류를 수행할 수 있다. 일부 태양들에서, 트레이닝된 뉴럴 네트워크는 연속 점수, 예를 들어, '0'부터 'x'까지의 점수를 출력할 수 있는데, 이때 '0'은 사용자가 공유 음향 공간 내에 위치되는 가장 낮은 신뢰도를 나타내고 'x'는 사용자가 공유 음향 공간 내에 위치되는 가장 높은 신뢰도를 나타낸다.
트레이닝된 뉴럴 네트워크는 마이크로폰 신호들 또는 그로부터 추출된 특징부들을 입력으로서 수신하는 노드들의 제1 계층을 갖는 심층 뉴럴 네트워크(deep neural network, DNN)를 포함할 수 있다. DNN은 노드들의 N개의 층들을 포함할 수 있다. 노드들 각각은 결과를 다음 계층의 하나 이상의 노드들로 전달하는 활성화 함수를 계산할 수 있다. 노드들 사이의 연결들에는 다음 노드에 대한 연결의 영향을 결정하기 위해 가중치가 부여될 수 있다. 트레이닝 단계 동안, 이러한 가중치들은 트레이닝 데이터 세트로 반복적으로 업데이트될 수 있다. 트레이닝 데이터 세트는 룸 내에 스피치를 그리고 동일한 룸 또는 상이한 룸 내에 다른 사운드들을 포함할 수 있다. 예를 들어, 트레이닝 데이터 세트는, 컴퓨팅 디바이스의 스피커들에 의해 생성되고 컴퓨팅 디바이스의 마이크로폰 어레이에 의해 픽업되는 사운드뿐만 아니라 컴퓨팅 디바이스와 동일한 공간 또는 상이한 공간에 있는 사용자의 스피치를 포함할 수 있다. 컴퓨팅 디바이스는 스피치가 컴퓨팅 디바이스와 동일한 공간에 있는지 여부에 관한 추측(출력)을 제공할 수 있다. 역전파(backpropagation)로 이해할 수 있는 것으로 뉴럴 네트워크에 피드백이 제공되어 가중치들을 조정할 수 있어서 룸이 마이크로폰 어레이와 동일한 음향 공간에 있는지 또는 상이한 음향 공간에 있는지를 뉴럴 네트워크가 정확하게 추측하게 한다. 이러한 프로세스는 트레이닝 세트에 존재하는 많은 예들에 대해 반복될 수 있다. 이러한 방식으로, 트레이닝된 뉴럴 네트워크가 스피치가 마이크로폰들의 어레이로부터 동일한 음향 공간 또는 상이한 음향 공간에서 발생하고 있는 때를 검출할 수 있도록 가중치들은 최적화될 수 있다.
블록(208)에서, 컴퓨팅 디바이스는 스피치가 컴퓨팅 디바이스와 함께 공유 음향 공간에서 발생하는지 여부에 기초하여 컴퓨팅 디바이스의 음성 활성화 응답을 트리거할 수 있다. 도 1과 관련하여 논의된 바와 같이, 음성 활성화 응답은 컴퓨팅 디바이스의 웨이크업, 스피치 내의 음성 커맨드를 검출하는 것, 스피치 내의 음성 커맨드에 응답하는 것, 및/또는 스피치에 기초하여 사용자의 아이덴티티(identity)를 결정하는 것을 포함할 수 있다. 이와 같이, 컴퓨팅 디바이스는 사용자가 상이한 공간에 있을 때 사용자의 스피치를 무시할 수 있지만, 스피치가 디바이스와 동일한 공간에 있을 때 사용자에게 응답할 수 있다. 논의된 바와 같이, 일부 태양들에서, 컴퓨팅 디바이스는 스피치를 감지하는 복수의 컴퓨팅 디바이스들 중 하나일 수 있다. 이러한 경우, 복수의 컴퓨팅 디바이스들 중 선택된 하나는, 스피치가 복수의 컴퓨팅 디바이스들 중 선택된 하나와 함께 공유 음향 공간에서 발생한다는 결정에 응답하여 트리거될 수 있다. 사용자와 상이한 음향 공간에 있는 다른 컴퓨팅 디바이스들은 스피치를 무시할 수 있다.
일부 태양들에서, 사용자의 스피치를 사용하여 설명된 동작들은 환경에서 픽업된 비-스피치 사운드들에 기초하여 수행될 수 있다. 예를 들어, 방법(200)은 복수의 마이크로폰들에서 픽업된 비-스피치 사운드들에 기초하여 수행될 수 있다. 예를 들어, 블록(204)에서, 방법은, 예를 들어, 창문 또는 문, 시계, 텔레비전과 같은 환경에서의 사운드, 또는 환경에서의 다른 사운드를 검출할 수 있다. 블록(206)에서, 방법은 사운드가 컴퓨팅 디바이스와 함께 공유 음향 공간에서 발생하는지 여부를 결정할 수 있다. 블록(208)에서, 방법은 사운드가 디바이스와 함께 공유 음향 공간에서 발생하는지 여부에 기초하여 음성 활성화 응답들 중 임의의 것과 같은 응답 또는 상이한 응답을 트리거할 수 있다.
일부 예들에서, 도 2 및 도 1의 태양들이 조합될 수 있다. 예를 들어, 컴퓨팅 디바이스는 스피치가 복수의 컴퓨팅 디바이스들 중 선택된 하나와 함께 공유 음향 공간에서 발생한다는 결정에 기초하여, 그리고 사용자의 시선이 복수의 컴퓨팅 디바이스들 중 선택된 하나를 향한다는 결정에 기초하여 음성 활성화 응답을 트리거할 수 있다. 예를 들어, 공유 음향 공간에 있는 디바이스들은 어느 것이 트리거되어야 하는지를 결정하기 위해 후보 목록에 나열될 수 있다. 이러한 디바이스들 중에서, 사용자의 시선이 대부분 향하는 (예컨대, 가장 높은 DRR을 갖는) 디바이스들이 트리거될 수 있다. 이러한 방식으로, 다수의 디바이스들이 동일한 공간에 있는 경우, 사용자가 공간 내에서 응시하고 있는 디바이스가 트리거될 것이어서, 다수의 디바이스들의 트리거로 인해 사용자가 당황하게 되지 않게 한다. 상이한 공간 내에 있고/있거나 사용자의 시선에 있는 물체가 아닌 디바이스들은 단순히 스피치를 무시할 수 있다.
도 3은 일부 태양들에 따른, 디바이스를 트리거하기 위한 예시적인 시나리오를 예시한다. 이러한 시나리오에서, 사용자(304)는 음향 공간(310)에 위치될 수 있다. 음향 공간(310)은 출입구, 복도, 입구, 또는 다른 통로일 수 있는 통로를 통해 제2 음향 공간(312)에 연결될 수 있다. 4개의 벽들을 갖는 룸들로 도시되어 있지만, 음향 공간은 다양한 기하학적 구조 및 크기를 가질 수 있다는 것을 이해하여야 한다. 예를 들어, 벽들은 직사각형이 아닌 형상들일 수 있고, 벽들과 천장들은 만곡될 수 있고, 가구, 가전제품들, 커버들 등과 같은 물체들이 룸 내에 배열될 수 있다.
디바이스(306) 및 디바이스(308) 둘 모두는 사용자(304)와 동일한 음향 공간(310)에 위치될 수 있다. 디바이스(302)는 제2 음향 공간(312)에 위치될 수 있다. 이러한 컴퓨팅 디바이스들은 각자의 마이크로폰 어레이를 통해 사운드를 각각 감지할 수 있다. 이러한 시나리오에서, 사용자는 디바이스(308)로 향하는 시선(314)을 갖는다. 사용자는 디바이스(308)로부터 음성 활성화 응답을 끌어내도록 사용자에 의해 의도되는 어구, 예를 들어, 'Hey Hal'을 작게 말한다.
디바이스(302)는 그의 마이크로폰 어레이에서 사용자의 스피치를 검출할 수 있다. 디바이스(302)는, 사용자가 상이한 음향 공간에 있고 사용자의 스피치, 'Hey Hal'을 무시한다고 결정할 수 있다. 일부 태양들에서, 디바이스(302)는, 디바이스가 이미 상이한 공간에 있는 것을 고려하면, 사용자의 시선을 결정할 필요가 없다.
유사하게, 디바이스(306) 및 디바이스(308)는 그의 각자의 마이크로폰 어레이에서 사용자의 스피치를 검출할 수 있다. 본 예에서, 디바이스(306) 및 디바이스(308) 둘 모두는 사용자가 공유 음향 공간(310)에 있는 것으로 결정할 수 있다. 디바이스(308) 및 디바이스(306)는, 그들의 각자의 마이크로폰 어레이들의 관점으로부터 사용자의 시선(314)을 독립적으로 결정할 수 있다.
디바이스(306)는 임계치 및/또는 디바이스(308)와 같은 다른 디바이스들과의 시선 신뢰도 비교에 기초하여 시선이 디바이스(306)를 향하지 않는 것으로 간주할 수 있다. 디바이스(308)는 시선이 디바이스(308)를 향하는 것으로 결정할 수 있으며, 이는 임계치, 및/또는 디바이스(306)와 같은 다른 디바이스들과의 시선 신뢰도 비교에 기초할 수 있다. 그 결과, 디바이스(308)는 사용자의 스피치 'Hey Hal'에 응답하여 음성 활성화 응답을 트리거할 수 있는 한편, 디바이스(306)는 트리거하지 않는다. 일부 태양들에서, 디바이스들은, 다른 섹션들에서 설명된 바와 같이, 네트워크를 통해 서로 통신함으로써 정보(예컨대, 시선 신뢰도, 음향 공간 분류, 및/또는 반향 시간들)를 공유할 수 있다. 일부 태양들에서, 사용자의 스피치는 감소된 능력 모드(예컨대, 슬립 모드) 동안 컴퓨팅 디바이스에 의해 인식될 수 있는 그리고 검출될 때 웨이크업과 같은 음성 활성화 응답을 트리거하는 제한된 어휘로서 이해될 수 있는 트리거 어구를 포함할 수 있다.
도 4는 일부 태양들에 따른, 디바이스를 트리거하기 위한 시스템 및 워크플로우를 예시한다. 마이크로폰들(410)은 각자의 컴퓨팅 디바이스에 대한 마이크로폰 어레이를 형성할 수 있다.
블록(406)에서, 컴퓨팅 디바이스는 음향 공간 분류를 수행할 수 있다. 논의된 바와 같이, DNN과 같은 인공 뉴럴 네트워크(412)는, 마이크로폰 신호들을 프로세싱하여 사용자가 디바이스와 동일한 공간에 있는 때를 나타내는 신뢰도 점수(예컨대, 높은 신뢰도 또는 낮은 신뢰도)를 출력할 수 있다. 신뢰도 점수는, 점수의 값이 컴퓨팅 디바이스가 사용자와 함께 공유 음향 공간에 있는지 여부를 분류하도록 하는 음향 공간 분류기로서 이해될 수 있다. 다른 섹션들에 설명된 바와 같이, 뉴럴 네트워크는 스피치가 디바이스와 함께 공유 음향 공간에서 발생하고 있는지 여부를 검출하기 위해 사용하는 지향성 반사들, 감쇠들, 및 공간의 다른 음향 응답과 관련된 정보를 검출하도록 트레이닝될 수 있다.
블록(408)에서, 컴퓨팅 디바이스는 마이크로폰 신호들에서 스피치를 분석하여 음향 시선 예측을 수행할 수 있다. 다른 섹션들에서 논의된 바와 같이, 디바이스는 디바이스 상에서의 마이크로폰 신호들을 사용하여 DRR을 추정하여 사용자가 디바이스의 방향으로 보고 있는지 여부를 예측할 수 있다. DRR이 높을수록, 디바이스는 사용자의 시선이 디바이스를 향하는 것을 더 높은 신뢰도로 예측할 수 있다. 반대로, DRR이 낮을수록, 디바이스는 사용자의 시선이 디바이스를 향하지 않는 것을 더 높은 신뢰도로 예측할 수 있다. 따라서, DRR은 사용자의 시선을 나타내는 신뢰도 점수로서 사용될 수 있다. DRR은 빔포밍에 기초하여 결정될 수 있다. 빔포머(414)는 마이크로폰 신호들에 공간 필터들을 적용하여 다른 섹션들에서 설명된 바와 같이 DRR을 측정하는 음향 픽업 빔들을 형성할 수 있다. DRR은 상이한 부대역들에 대해 결정될 수 있다.
선택적 블록인 블록(402)에서, 컴퓨팅 디바이스는 하나 이상의 마이크로폰 신호들을 사용하여 블라인드 룸 추정(blind room estimation)을 수행할 수 있다. 단일 마이크로폰 신호로 수행될 수 있는 이러한 기술은 원거리(far-field) 음원으로부터 상이한 부대역들에 대한 반향 시간을 블라인드로 추정할 수 있다. 상이한 음향 공간들은 볼륨, 기하하적 구조, 공간 내의 물체들 및/또는 공간의 표면 재료들의 차이들에 기초하여 상이한 부대역들에서 다양한 반향 시간들을 가질 수 있다. 이와 같이, 이러한 정보는 디바이스가 위치되어 있는 음향 공간의 부대역 반향 시간으로 각각의 디바이스를 태그하는 데 사용될 수 있다. 이러한 정보는 (예컨대, 컴퓨터 메모리에) 유지되고 향후 트리거들에서 재귀적으로 사용되어, 향후 추정 반향 시간들을 과거로부터 비롯된 것들과 비교함으로써, 디바이스/디바이스들이 동일한 음향 공간에 존재하는지 이동하였는지를 확인할 수 있다. 따라서, 반향 시간은 이러한 블록(402)에서 결정될 수 있고, 향후 트리거 이벤트들에 사용되어 컴퓨팅 디바이스의 음향 공간을 추적할 수 있다. 예를 들어, 제1 디바이스에 의해 스피치가 검출될 때, 제1 디바이스는 블록(406)의 동작들을 수행할 수 있지만, 사용자가 제1 디바이스와 함께 공유 음향 공간에 있는지 여부를 높은 신뢰도로 결정하는 데 어려움을 겪을 수 있다. 의사 결정 디바이스는 동일하거나 유사한 부대역 반향 시간을 갖는 것에 기초하여 제2 디바이스로 제1 디바이스의 반향 시간을 확증할 수 있다. 이어서, 의사 결정 시스템은 제2 디바이스가 사용자와 함께 공유 음향 공간에 있는지 여부에 기초하여 제1 디바이스가 사용자와 동일한 공간에 있는지 여부를 결정할 수 있다.
블록들(406, 408, 402) 각각은 각자의 컴퓨팅 디바이스의 마이크로폰 어레이에 의해 생성된 마이크로폰 신호들을 사용하여 수행될 수 있다. 각각의 블록의 출력들은 각자의 컴퓨팅 디바이스들 중 임의의 것 또는 별개의 컴퓨팅 디바이스일 수 있는 의사 결정 디바이스에 의해 블록(404)에서 획득될 수 있다. 블록(404)에서, 의사 결정 디바이스는 하나 이상의 컴퓨팅 디바이스들 각각으로부터, a) 하나 이상의 컴퓨팅 디바이스들의 각자의 컴퓨팅 디바이스에 대한 사용자의 시선의 표시(예컨대, DRR 값 또는 신뢰도 점수), 및/또는 b) 스피치가 하나 이상의 컴퓨팅 디바이스들의 각자의 컴퓨팅 디바이스와 함께 공유 음향 공간에서 발생하는지 여부의 표시(예컨대, 각자의 디바이스의 뉴럴 네트워크에 의해 출력되는 신뢰도 점수 또는 음향 공간 분류기)를 획득할 수 있다. 의사 결정 디바이스는 시선 표시 및 음향 공간 표시에 기초하여 하나 이상의 컴퓨팅 디바이스들 중에서 음성 활성화 응답을 트리거할 하나의 컴퓨팅 디바이스를 선택할 수 있다. 예를 들어, 의사 결정 디바이스는 하나 이상의 컴퓨팅 디바이스들 중에서, 자신들이 사용자와 함께 공유 음향 공간에 있는 것을 나타내는 것들을 선택할 수 있다. 의사 결정 디바이스는, 이러한 후보 목록에 나열되어 있는 컴퓨팅 디바이스들로부터, 가장 높은 시선 신뢰도를 갖는 디바이스를 선택할 수 있다.
예를 들어, 도 5를 참조하면, 디바이스(504)는 그의 마이크로폰 어레이(506)로부터의 마이크로폰 신호들을 프로세싱하여 사용자의 시선에 대한 신뢰도 점수 및 그것이 사용자와 함께 공유 음향 공간에 있는지 여부를 나타내는 신뢰도 점수를 결정할 수 있다. 별개로, 디바이스(508)는 그의 마이크로폰 어레이(510)로부터의 마이크로폰 신호들을 프로세싱하여 사용자의 시선에 대한 신뢰도 점수 및 그것이 사용자와 함께 공유 음향 공간에 있는지 여부를 나타내는 신뢰도 점수를 결정할 수 있다. 또한 별개로, 디바이스(512)는 그의 마이크로폰 어레이(514)로부터의 마이크로폰 신호들을 프로세싱하여 사용자의 시선에 대한 신뢰도 점수 및 그것이 사용자와 함께 공유 음향 공간에 있는지 여부를 나타내는 신뢰도 점수를 결정할 수 있다. 이러한 신뢰도 점수들은 의사 결정 디바이스로 지정될 수 있는 디바이스(504)에 의해 획득될 수 있다.
예를 들어, 디바이스들은 네트워크(502)를 통해 통신하여 신뢰도 점수들을 의사 결정 디바이스와 공유할 수 있다. 의사 결정 디바이스는 디바이스들 중 어느 것이 트리거될지에 대해 네트워크를 통해 디바이스들과 통신할 수 있다. 네트워크는 유선 및/또는 무선 네트워크일 수 있다. 디바이스들은, 예를 들어, TCP/IP, 이더넷, Wi-Fi, LTE, 3G, 4G, 5G, 또는 다른 네트워크 통신 프로토콜과 같은 하나 이상의 네트워크 프로토콜들을 사용하여 통신할 수 있다.
일부 태양들에서, 하나 초과의 디바이스가 의사 결정 디바이스의 역할을 맡을 수 있다. 일부 태양들에서, 이들 각각은 디바이스가 공유 음향 공간에 있을 때 그리고/또는 시선 임계치를 만족하는 것에 기초하여 트리거될지 여부를 개별적으로 결정할 수 있다. 따라서, 일부 태양들에서, 디바이스들은 사용자의 스피치에 대한 응답을 트리거할지 여부를 결정하기 위해 그들의 정보를 풀링(pool)할 필요가 없다.
도 6은, 일부 태양들에 따른, 오디오 프로세싱 시스템으로서 이해될 수 있는 예시적인 컴퓨팅 디바이스(602)를 예시한다. 오디오 프로세싱 시스템은, 예를 들어, 데스크톱 컴퓨터, 태블릿 컴퓨터, 스마트 폰, 컴퓨터 랩톱, 스마트 스피커, 미디어 플레이어, 가전 제품, 헤드폰 세트, 헤드 마운트 디스플레이(HMD), 스마트 안경, 자동차 또는 다른 차량용 인포테인먼트 시스템, 또는 다른 컴퓨팅 디바이스와 같은 컴퓨팅 디바이스일 수 있다. 시스템은 본 개시내용에 설명된 방법 및 프로세스들을 수행하도록 구성될 수 있다.
헤드폰들, 스피커 시스템들, 마이크로폰 어레이들 및 엔터테인먼트 시스템들 내에 통합될 수 있는 오디오 프로세싱 시스템의 다양한 컴포넌트들을 도시하지만, 본 예시는 단지 오디오 프로세싱 시스템에 존재할 수 있는 유형들의 컴포넌트들의 특정 구현예의 하나의 일례일 뿐이다. 본 예는 컴포넌트들을 상호접속시키는 임의의 특정 아키텍처 또는 방식을 표현하도록 의도되지 않는데, 이는 그러한 세부사항들이 본 명세서의 태양들과 밀접한 관련이 없기 때문이다. 또한, 도시된 것보다 더 적은 또는 더 많은 컴포넌트들을 갖는 다른 유형들의 오디오 프로세싱 시스템들이 또한 사용될 수 있음이 이해될 것이다. 따라서, 본 명세서에 기술된 프로세스들은 도시된 하드웨어 및 소프트웨어와 함께 사용하는 것으로 제한되지 않는다.
오디오 프로세싱 시스템은 시스템의 다양한 컴포넌트들을 상호접속시키는 역할을 하는 하나 이상의 버스들(618)을 포함할 수 있다. 하나 이상의 프로세서들(604)이 당업계에 공지된 바와 같이 버스에 커플링된다. 프로세서(들)는 마이크로프로세서들 또는 특수 목적 프로세서들, 시스템 온 칩(system on chip, SOC), 중앙 처리 장치, 그래픽 프로세싱 유닛, 주문형 집적 회로(Application Specific Integrated Circuit, ASIC)를 통해 생성된 프로세서, 또는 이들의 조합일 수 있다. 메모리(610)는 당업계에 알려진 기법들을 사용하여 버스에 커플링되는 판독 전용 메모리(ROM), 휘발성 메모리, 및 비휘발성 메모리, 또는 이들의 조합들을 포함할 수 있다. 센서들(616)은 IMU 및/또는 하나 이상의 카메라들(예컨대, RGB 카메라, RGBD 카메라, 심도 카메라 등) 또는 본 명세서에 설명된 다른 센서들을 포함할 수 있다. 오디오 프로세싱 시스템은 디스플레이(614)(예컨대, HMD, 또는 터치스크린 디스플레이)를 추가로 포함할 수 있다.
메모리(610)는 버스에 접속될 수 있고, DRAM, 하드 디스크 드라이브 또는 플래시 메모리 또는 자기 광학 드라이브 또는 자기 메모리 또는 광학 드라이브, 또는 시스템으로부터 전력이 제거된 후에도 데이터를 유지하는 다른 유형들의 메모리 시스템들을 포함할 수 있다. 일 태양에서, 프로세서(604)는 기계 판독가능 저장 매체(메모리)에 저장된 컴퓨터 프로그램 명령어들을 취출하고, 본 명세서에 기술된 동작들을 수행하기 위해 그들 명령어들을 실행한다.
오디오 하드웨어는, 도시되어 있지 않지만, 스피커들(608)에 의해 프로세싱되고 출력될 오디오 신호들을 수신하기 위해 하나 이상의 버스들에 커플링될 수 있다. 오디오 하드웨어는 디지털-아날로그 및/또는 아날로그-디지털 변환기들을 포함할 수 있다. 오디오 하드웨어는 또한 오디오 증폭기들 및 필터들을 포함할 수 있다. 오디오 하드웨어는 또한 마이크로폰들(606)(예컨대, 마이크로폰 어레이들)과 인터페이싱하여, (아날로그든 디지털이든) 오디오 신호들을 수신하고, 적절한 경우, 그들을 디지털화하고, 신호들을 버스에 통신할 수 있다.
통신 모듈(612)은 유선 또는 무선 인터페이스를 통해 원격 디바이스들 및 네트워크들과 통신할 수 있다. 예를 들어, 통신 모듈은 TCP/IP, 이더넷, Wi-Fi, 3G, 4G, 5G, 블루투스, 지그비, 또는 다른 동등한 기술들과 같은 공지의 기술들을 통해 통신할 수 있다. 통신 모듈은 서버들(예컨대, 클라우드)과 같은 네트워킹 디바이스들 및/또는 원격 스피커들 및 원격 마이크로폰들과 같은 다른 디바이스들과 통신(예컨대, 데이터를 수신 및 송신)할 수 있는 유선 또는 무선 송신기들 및 수신기들을 포함할 수 있다.
본 명세서에 개시된 태양들은 모뎀 또는 이더넷 인터페이스와 같은 네트워크 인터페이스를 통해 오디오 프로세싱 시스템에 커플링되는 네트워크 저장 디바이스와 같은, 시스템으로부터 원격인 메모리를 활용할 수 있다는 것이 이해될 것이다. 버스들은 당업계에 주지되어 있는 바와 같은 다양한 브리지들, 제어기들, 및/또는 어댑터들을 통해 서로 접속될 수 있다. 일 태양에서, 하나 이상의 네트워크 디바이스(들)가 버스에 커플링될 수 있다. 네트워크 디바이스(들)는 유선 네트워크 디바이스들(예컨대, 이더넷) 또는 무선 네트워크 디바이스들(예컨대, WI-FI, 블루투스)일 수 있다. 일부 태양들에서, 기술된 다양한 태양들(예컨대, 시뮬레이션, 분석, 추정, 모델링, 객체 검출 등)은 캡처 디바이스와 통신하는 네트워킹 서버에 의해 수행될 수 있다.
본 명세서에 기술된 다양한 태양들은 적어도 부분적으로 소프트웨어로 구현될 수 있다. 즉, 본 기법들은, 그것의 프로세서가 저장 매체, 예컨대 비일시적 기계 판독가능 저장 매체(예컨대, DRAM 또는 플래시 메모리)에 포함된 명령어들의 시퀀스를 실행시키는 것에 응답하여 오디오 프로세싱 시스템에서 수행될 수 있다. 다양한 태양들에서, 하드웨어 내장형 회로부가 본 명세서에 기술된 기법들을 구현하기 위해 소프트웨어 명령어들과 조합하여 사용될 수 있다. 따라서, 본 기법들은 하드웨어 회로부와 소프트웨어의 임의의 특정 조합으로, 또는 오디오 프로세싱 시스템에 의해 실행되는 명령어들을 위한 임의의 특정 소스로 제한되지 않는다.
상세한 설명에서, 소정의 용어가 다양한 태양들의 특징부들을 기술하는 데 사용된다. 예를 들어, 소정 상황들에서, 용어 "모듈", "프로세서", "유닛", "렌더러", "시스템", "디바이스", "필터", "반향기", "블록", "추적기", "시뮬레이터" 및 "컴포넌트"는 하나 이상의 프로세스들 또는 기능들을 수행하도록 구성된 하드웨어 및/또는 소프트웨어를 나타낸다. 예를 들어, "하드웨어"의 예들은 프로세서(예컨대, 디지털 신호 프로세서, 마이크로프로세서, 주문형 집적 회로, 마이크로제어기 등)와 같은 집적 회로를 포함하지만, 이들로 제한되지도 국한되지도 않는다. 따라서, 당업자에 의해 이해되는 바와 같이, 상기 용어들에 의해 설명된 프로세스들 또는 기능들을 수행하기 위해 하드웨어 및/또는 소프트웨어의 상이한 조합들이 구현될 수 있다. 물론, 하드웨어는 대안적으로, 유한 상태 기계 또는 심지어 조합 로직으로서 구현될 수 있다. "소프트웨어"의 일례는 애플리케이션, 애플릿, 루틴 또는 심지어 일련의 명령어들의 형태의 실행가능 코드를 포함한다. 상기에서 언급된 바와 같이, 소프트웨어는 임의의 유형의 기계 판독가능 매체에 저장될 수 있다.
상기의 상세한 설명의 몇몇 부분들은 컴퓨터 메모리 내의 데이터 비트들에 대한 동작들의 알고리즘 및 심볼 표현들의 관점에서 제시되었다. 이들 알고리즘 설명 및 표현은 오디오 프로세싱 분야의 당업자에 의해 사용되어 그의 작업 요지를 다른 당업자에게 가장 효과적으로 전하기 위한 방식이다. 알고리즘은 여기서 그리고 일반적으로 원하는 결과로 이어지는 동작들의 자기 모순이 없는 시퀀스(self-consistent sequence)인 것으로 이해된다. 그 동작들은 물리적 양들의 물리적 조작들을 요구하는 것들이다. 그러나, 이들 및 유사한 용어들 모두는 적절한 물리적 양들과 연관되며 단지 이들 양들에 적용된 편리한 라벨들임을 명심해야 한다. 상기 논의로부터 자명한 바와 같이, 명시적으로 달리 언급되지 않는 한, 설명 전반에 걸쳐, 하기의 청구항들에서 규정하는 것들과 같은 용어들을 사용한 논의들은 시스템의 레지스터들 및 메모리들 내의 물리적(전자) 양들로 표현되는 데이터를, 시스템 메모리들 또는 레지스터들 또는 다른 그러한 정보 저장, 전송 또는 디스플레이 디바이스들 내의 물리적 양들로 유사하게 표현되는 다른 데이터로 조작하고 변환하는 오디오 프로세싱 시스템 또는 유사한 전자 디바이스의 액션 및 프로세스들을 지칭함이 이해된다.
본 명세서에 기술된 프로세스들 및 블록들은 기술된 특정 예들로 제한되지 않으며, 본 명세서의 예들로서 사용되는 특정 순서들로 제한되지 않는다. 오히려, 전술된 결과들을 달성하기 위해, 프로세싱 블록들 중 임의의 것이 재정렬, 조합 또는 제거될 수 있고, 필요에 따라 병렬로 또는 직렬로 수행될 수 있다. 오디오 프로세싱 시스템을 구현하는 것과 연관된 프로세싱 블록들은 시스템의 기능들을 수행하기 위해 비일시적 컴퓨터 판독가능 저장 매체 상에 저장된 하나 이상의 컴퓨터 프로그램들을 실행하는 하나 이상의 프로그래밍가능 프로세서들에 의해 수행될 수 있다. 오디오 프로세싱 시스템의 전체 또는 일부는 특수 목적 논리 회로부(예컨대, FPGA(field programmable gate array) 및/또는 ASIC)로서 구현될 수 있다. 오디오 시스템의 전체 또는 일부는, 예를 들어 프로세서, 메모리, 프로그래밍가능 로직 디바이스 또는 로직 게이트 중 적어도 하나와 같은 전자 디바이스들을 포함하는 전자 하드웨어 회로부를 사용하여 구현될 수 있다. 또한, 프로세스들은 하드웨어 디바이스들 및 소프트웨어 컴포넌트들의 임의의 조합으로 구현될 수 있다.
소정의 태양들이 설명되고 첨부 도면들에 도시되었지만, 그러한 태양들은 제한하는 것이 아니라 단지 예시하는 것이며, 다양한 다른 변형들이 당업자에게 떠오를 수 있기 때문에 본 개시내용이 도시되고 설명된 특정 구성들 및 배열들로 제한되지 않는다는 것이 이해될 것이다.
특허청과 본 출원에 대해 발행된 임의의 특허의 임의의 독자들이 여기에 첨부된 청구범위를 해석하는 데 도움을 주기 위하여, 출원인들은 단어 "~하기 위한 수단" 또는 "~하는 단계"가 명시적으로 특정 청구항에 사용되지 않는 한, 첨부된 청구항들 또는 청구항 구성요소들 중 어떠한 것도 35 U.S.C.112(f)를 적용하도록 의도하지 않음을 언급하고자 한다.
개인 식별가능 정보의 사용은 사용자들의 프라이버시를 유지하기 위한 산업 또는 정부 요구사항들을 충족시키거나 초과하는 것으로 일반적으로 인식되는 프라이버시 정책들 및 관례들을 따라야 하는 것이 잘 이해된다. 특히, 개인 식별가능 정보 데이터는 의도하지 않은 또는 인가되지 않은 액세스 또는 사용의 위험성들을 최소화하도록 관리되고 핸들링되어야 하며, 인가된 사용의 성질은 사용자들에게 명확히 표시되어야 한다.

Claims (20)

  1. 컴퓨팅 디바이스에 의해 수행되는 방법으로서,
    복수의 마이크로폰들로부터 생성된 복수의 마이크로폰 신호들을 획득하는 단계;
    상기 복수의 마이크로폰 신호들에서, 사용자의 스피치를 검출하는 단계;
    상기 스피치가 상기 컴퓨팅 디바이스와 함께 공유 음향 공간에서 발생하고 있는지 여부를 결정하는 단계;
    상기 복수의 마이크로폰 신호들에 기초하여 사용자의 시선을 결정하는 단계; 및
    상기 스피치가 상기 컴퓨팅 디바이스와 함께 상기 공유 음향 공간에서 발생하고 상기 사용자의 시선이 상기 컴퓨팅 디바이스를 향한다는 결정에 응답하여 상기 컴퓨팅 디바이스의 음성 활성화 응답을 트리거하는 단계를 포함하는, 방법.
  2. 제1항에 있어서, 상기 사용자의 시선을 결정하는 단계는 상기 복수의 마이크로폰 신호들을 사용하여 직접 대 반사 음향비(direct to reverberant ratio, DRR)를 추정하는 단계를 포함하는, 방법.
  3. 제2항에 있어서, 상기 DRR이 임계치를 만족할 때 또는 상기 DRR이 제2 디바이스의 마이크로폰 신호들로부터 결정되는 제2 DRR보다 높을 때, 상기 사용자의 시선은 상기 컴퓨팅 디바이스를 향하는 것으로 결정되는, 방법.
  4. 제1항에 있어서, 상기 사용자의 시선을 결정하는 단계는 상기 복수의 마이크로폰 신호들로부터 복수의 음향 픽업 빔들을 생성하는 단계 및 상기 복수의 음향 픽업 빔들에서 직접 및 반사 음향 사운드를 측정하는 단계를 포함하는, 방법.
  5. 제1항에 있어서,
    상기 스피치가 상기 컴퓨팅 디바이스와 함께 상기 공유 음향 공간에서 발생하고 있는지 여부를 결정하는 단계는 트레이닝된 뉴럴 네트워크(neural network)에 기초하여 수행되는, 방법.
  6. 제5항에 있어서, 상기 트레이닝된 뉴럴 네트워크는 상기 스피치가 상기 컴퓨팅 디바이스와 함께 상기 공유 음향 공간에서 발생하고 있는지 여부를 나타내는 신뢰도 점수를 출력하도록 트레이닝되는, 방법.
  7. 제5항에 있어서, 상기 컴퓨팅 디바이스는 상기 스피치를 감지하는 복수의 컴퓨팅 디바이스들 중 하나이고, 상기 복수의 컴퓨팅 디바이스들 중 선택된 하나는,
    상기 스피치가 상기 복수의 컴퓨팅 디바이스들 중 상기 선택된 하나와 함께 상기 공유 음향 공간에서 발생하는 것으로 결정하는 것, 및
    상기 사용자의 시선이 상기 복수의 컴퓨팅 디바이스들 중 상기 선택된 하나를 향하는 것으로 결정하는 것에 응답하여 트리거되는, 방법.
  8. 제1항에 있어서, 상기 컴퓨팅 디바이스의 음향 공간의 반향 시간을 결정하기 위해 상기 마이크로폰 신호들 중 적어도 하나를 사용하여 블라인드 룸 추정(blind room estimation)을 수행하는 단계를 추가로 포함하고, 상기 반향 시간은 상기 컴퓨팅 디바이스의 상기 음향 공간을 추적하기 위해 사용되는, 방법.
  9. 제1항에 있어서, 상기 음성 활성화 응답은 상기 컴퓨팅 디바이스의 웨이크업(wake-up), 음성 커맨드를 검출하기 위해 상기 스피치를 프로세싱하는 것, 상기 스피치 내의 음성 커맨드에 응답하는 것, 또는 상기 스피치에 기초하여 상기 사용자의 아이덴티티(identity)를 결정하는 것 중 적어도 하나를 포함하는, 방법.
  10. 컴퓨팅 디바이스에 의해 수행되는 방법으로서,
    복수의 마이크로폰들로부터 생성된 복수의 마이크로폰 신호들을 획득하는 단계;
    상기 복수의 마이크로폰 신호들에서, 사용자의 스피치를 검출하는 단계;
    트레이닝된 뉴럴 네트워크를 사용하여, 상기 스피치가 상기 컴퓨팅 디바이스와 함께 공유 음향 공간에서 발생하는지 여부를 결정하는 단계; 및
    상기 스피치가 상기 컴퓨팅 디바이스와 함께 상기 공유 음향 공간에서 발생하는지 여부에 기초하여 상기 컴퓨팅 디바이스의 음성 활성화 응답을 트리거하는 단계를 포함하는, 방법.
  11. 제10항에 있어서, 상기 트레이닝된 뉴럴 네트워크는 상기 스피치가 상기 컴퓨팅 디바이스와 함께 상기 공유 음향 공간에서 발생하고 있는지 여부를 나타내는 신뢰도 점수를 출력하도록 트레이닝되는, 방법.
  12. 제10항에 있어서, 상기 컴퓨팅 디바이스의 음성 활성화 응답은 상기 스피치가 상기 컴퓨팅 디바이스와 함께 상기 공유 음향 공간에서 발생하지 않을 때 트리거되지 않는, 방법.
  13. 제10항에 있어서,
    상기 복수의 마이크로폰 신호들에 기초하여 상기 사용자의 시선을 결정하는 단계; 및
    상기 스피치가 상기 컴퓨팅 디바이스와 함께 상기 공유 음향 공간에서 발생하는지 여부에 기초하여 그리고 상기 사용자의 시선이 상기 컴퓨팅 디바이스를 향하는 것에 응답하여 상기 컴퓨팅 디바이스의 음성 활성화 응답을 트리거하는 단계를 추가로 포함하는, 방법.
  14. 제13항에 있어서, 상기 사용자의 시선을 결정하는 단계는 상기 복수의 마이크로폰 신호들을 사용하여 직접 대 반사 음향비(DRR)를 추정하는 단계를 포함하는, 방법.
  15. 제14항에 있어서, 상기 DRR이 임계치를 만족할 때 또는 상기 DRR이 제2 디바이스의 마이크로폰 신호들로부터 결정되는 제2 DRR보다 높을 때, 상기 사용자의 시선은 상기 컴퓨팅 디바이스를 향하는 것으로 결정되는, 방법.
  16. 제14항에 있어서, 상기 DRR을 추정하는 단계는 상기 복수의 마이크로폰 신호들로부터 복수의 음향 픽업 빔들을 생성하는 단계 및 상기 복수의 음향 픽업 빔들 각각에 대한 직접 및 반사 음향 사운드를 측정하는 단계를 포함하는, 방법.
  17. 제10항에 있어서, 상기 컴퓨팅 디바이스는 복수의 컴퓨팅 디바이스들 중 하나이고, 상기 복수의 컴퓨팅 디바이스들 중 선택된 하나는,
    상기 스피치가 상기 복수의 컴퓨팅 디바이스들 중 상기 선택된 하나와 함께 상기 공유 음향 공간에서 발생한다는 결정, 및
    상기 사용자의 시선이 상기 복수의 컴퓨팅 디바이스들 중 상기 선택된 하나를 향한다는 결정에 기초하여 트리거되는, 방법.
  18. 제10항에 있어서, 상기 음성 활성화 응답은 상기 컴퓨팅 디바이스의 웨이크업, 상기 스피치 내의 음성 커맨드를 검출하는 것, 상기 스피치 내의 음성 커맨드에 응답하는 것, 및 상기 스피치에 기초하여 상기 사용자의 아이덴티티를 결정하는 것 중 적어도 하나를 포함하는, 방법.
  19. 컴퓨팅 디바이스에 의해 수행되는 방법으로서,
    하나 이상의 컴퓨팅 디바이스들 각각으로부터, 상기 하나 이상의 컴퓨팅 디바이스들의 각자의 컴퓨팅 디바이스에 대한 사용자의 시선의 표시 및 사용자의 스피치가 상기 하나 이상의 컴퓨팅 디바이스들의 각자의 컴퓨팅 디바이스와 함께 공유 음향 공간에서 발생하는지 여부의 표시를 획득하는 단계; 및
    상기 하나 이상의 컴퓨팅 디바이스들 중에서 음성 활성화 응답을 트리거할 하나의 컴퓨팅 디바이스를 선택하는 단계를 포함하고,
    상기 선택하는 단계는,
    상기 사용자의 시선이 상기 하나 이상의 컴퓨팅 디바이스들 중 상기 선택된 하나를 향한다는, 상기 하나 이상의 컴퓨팅 디바이스들 중 상기 선택된 하나로부터의 표시, 및
    상기 사용자의 스피치가 상기 하나 이상의 컴퓨팅 디바이스들 중 상기 선택된 하나와 함께 공유 음향 공간에서 발생한다는, 상기 하나 이상의 컴퓨팅 디바이스들 중 상기 선택된 하나로부터의 표시에 기초하는, 방법.
  20. 제19항에 있어서, 상기 하나 이상의 컴퓨팅 디바이스들 각각으로부터 각자의 음향 공간의 반향 시간을 획득하여 상기 하나 이상의 컴퓨팅 디바이스들 각각의 상기 각자의 음향 공간을 추적하는 단계를 추가로 포함하는, 방법.
KR1020220109178A 2021-09-01 2022-08-30 음향 공간에 기초한 음성 트리거 KR20230033624A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US202163239567P 2021-09-01 2021-09-01
US63/239,567 2021-09-01

Publications (1)

Publication Number Publication Date
KR20230033624A true KR20230033624A (ko) 2023-03-08

Family

ID=84540693

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220109178A KR20230033624A (ko) 2021-09-01 2022-08-30 음향 공간에 기초한 음성 트리거

Country Status (5)

Country Link
US (1) US20230062634A1 (ko)
KR (1) KR20230033624A (ko)
CN (1) CN115731933A (ko)
DE (1) DE102022121919A1 (ko)
GB (1) GB2617420A (ko)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9734845B1 (en) * 2015-06-26 2017-08-15 Amazon Technologies, Inc. Mitigating effects of electronic audio sources in expression detection
US11437020B2 (en) * 2016-02-10 2022-09-06 Cerence Operating Company Techniques for spatially selective wake-up word recognition and related systems and methods
WO2018112643A1 (en) * 2016-12-23 2018-06-28 Eyexpo Technology Corp. System and method for providing virtual reality interface

Also Published As

Publication number Publication date
DE102022121919A1 (de) 2023-03-02
GB202211193D0 (en) 2022-09-14
GB2617420A (en) 2023-10-11
CN115731933A (zh) 2023-03-03
US20230062634A1 (en) 2023-03-02

Similar Documents

Publication Publication Date Title
US20220012470A1 (en) Multi-user intelligent assistance
US10672387B2 (en) Systems and methods for recognizing user speech
US11270695B2 (en) Augmentation of key phrase user recognition
KR102513297B1 (ko) 전자 장치 및 전자 장치의 기능 실행 방법
US20200312315A1 (en) Acoustic environment aware stream selection for multi-stream speech recognition
US20180232571A1 (en) Intelligent assistant device communicating non-verbal cues
JP2020505648A (ja) オーディオデバイスフィルタの変更
US20230186904A1 (en) Systems and methods for classifying sounds
US11631394B2 (en) System and method for determining occupancy
US20160314785A1 (en) Sound reproduction method, speech dialogue device, and recording medium
Yang et al. Soundr: head position and orientation prediction using a microphone array
KR20230033624A (ko) 음향 공간에 기초한 음성 트리거
KR20230084154A (ko) 동적 분류기를 사용한 사용자 음성 활동 검출
Hewitt et al. Taxonomic classification of iot smart home voice control
WO2024094513A1 (en) Automatically selecting a sound recognition model for an environment based on audio data and image data associated with the environment
WO2024104634A1 (en) Environmental sensing based on audio equipment
Vesa Studies on Binaural and Monaural Signal Analysis