KR102242917B1 - 음성 인터페이스 디바이스에서의 포커스 세션 - Google Patents

음성 인터페이스 디바이스에서의 포커스 세션 Download PDF

Info

Publication number
KR102242917B1
KR102242917B1 KR1020197015360A KR20197015360A KR102242917B1 KR 102242917 B1 KR102242917 B1 KR 102242917B1 KR 1020197015360 A KR1020197015360 A KR 1020197015360A KR 20197015360 A KR20197015360 A KR 20197015360A KR 102242917 B1 KR102242917 B1 KR 102242917B1
Authority
KR
South Korea
Prior art keywords
voice
target device
activated
voice command
implementations
Prior art date
Application number
KR1020197015360A
Other languages
English (en)
Other versions
KR20190071794A (ko
Inventor
케네스 믹스터
토머 쉬켈
투안 안 응우옌
Original Assignee
구글 엘엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 구글 엘엘씨 filed Critical 구글 엘엘씨
Publication of KR20190071794A publication Critical patent/KR20190071794A/ko
Application granted granted Critical
Publication of KR102242917B1 publication Critical patent/KR102242917B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • H04L12/2803Home automation networks
    • H04L12/2807Exchanging configuration information on appliance services in a home automation network
    • H04L12/281Exchanging configuration information on appliance services in a home automation network indicating a format for calling an appliance service function in a home automation network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • H04L12/2803Home automation networks
    • H04L12/2816Controlling appliance services of a home automation network by calling their functionalities
    • H04L12/282Controlling appliance services of a home automation network by calling their functionalities based on user interaction within the home
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/2866Architectures; Arrangements
    • H04L67/30Profiles
    • H04L67/306User profiles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47217End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for controlling playback functions for recorded or on-demand content, e.g. using progress bars, mode or play-point indicators or bookmarks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Automation & Control Theory (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephonic Communication Services (AREA)

Abstract

접속된 전자 디바이스들의 로컬 그룹의 제1 전자 디바이스에서의 방법은 제1 동작에 대한 요청을 포함하는 제1 음성 커맨드를 수신하는 단계; 로컬 그룹 중 제1 동작에 대한 제1 타겟 디바이스를 결정하는 단계; 제1 타겟 디바이스에 대한 포커스 세션을 수립하는 단계; 제1 동작이 제1 타겟 디바이스에 의해 수행되게 하는 단계; 제2 동작에 대한 요청을 포함하는 제2 음성 커맨드를 수신하는 단계; 제2 음성 커맨드가 제2 타겟 디바이스의 명시적 지정을 포함하지 않는다고 결정하는 단계; 제2 동작이 제1 타겟 디바이스에 의해 수행될 수 있다고 결정하는 단계; 제2 음성 커맨드가 하나 이상의 포커스 세션 유지 기준들을 충족하는지 여부를 결정하는 단계; 및 제2 음성 커맨드가 포커스 세션 유지 기준들을 충족하면, 제2 동작이 제1 타겟 디바이스에 의해 수행되게 하는 단계를 포함한다.

Description

음성 인터페이스 디바이스에서의 포커스 세션
[0001] 개시된 구현들은 일반적으로, 타겟 디바이스가 음성 커맨드 자체로부터 미지이거나 모호할 때, 음성 커맨드를 타겟 디바이스에 지향시키기 위한 방법들 및 시스템들을 포함하는(그러나 이에 제한되는 것은 아님) 음성 인터페이스들 및 관련된 디바이스들에 관한 것이다.
[0002] 음성 인터페이스들을 갖는 전자 디바이스들은 사용자들로부터 음성 입력들을 수집하고 음성 입력들에 따라 상이한 음성-활성화 기능들을 수행하기 위해 널리 사용되어 왔다. 이러한 음성-활성화 기능들은 동작을 수행하도록 타겟 디바이스에 지시 또는 명령하는 것을 포함할 수 있다. 예를 들어, 사용자는 턴 온 또는 오프하도록 타겟 디바이스에 지시하거나 또는 타겟 디바이스에서 미디어 재생을 제어하기 위해 음성 인터페이스 디바이스에 음성 입력을 말할 수 있다.
[0003] 통상적으로, 사용자가 동작을 수행하도록 타겟 디바이스에 지시하는 음성 입력을 행하기를 원하면, 사용자는 음성 입력에서 타겟 디바이스를 특정할 것이다. 그러나, 모든 이러한 음성 입력들에 대해 타겟 디바이스를 명시적으로 특정해야 하는 것은 사용자에게 지겹고 귀찮은 것이다. 음성 입력이 타겟을 특정하지 않거나 모호한 타겟을 특정하는 경우에도 음성 인터페이스 디바이스가 음성 입력에 대한 타겟 디바이스를 갖는 것이 바람직하다.
[0004] 따라서, 음성 입력에서 타겟 디바이스의 특정이 없거나 모호할 때 음성 입력에 대한 타겟 디바이스를 결정 또는 할당하기 위한 방법들 및 시스템들을 통합하는 음성 어시스턴트 시스템 및/또는 음성 어시스턴트 서버 시스템을 갖는 전자 디바이스가 필요하다. 본 출원에서 설명되는 다양한 구현들에서, 동작 환경은, 음성 어시스턴트 서비스에 대한 인터페이스를 제공하는 음성-활성화 전자 디바이스 및 음성 어시스턴트 서비스를 통해 음성 입력에 의해 제어될 수 있는 다수의 디바이스들(예를 들어, 캐스트 디바이스, 스마트 홈 디바이스)을 포함한다. 음성-활성화 전자 디바이스는 음성 입력을 기록하도록 구성되고, 그로부터 음성 어시스턴스 서비스(예를 들어, 음성 어시스턴스 서버 시스템)는 사용자 음성 요청(예를 들어, 미디어 재생 요청, 전력 상태 변경 요청)을 결정한다. 그 다음, 음성 어시스턴스 서버 시스템은 사용자 음성 요청을, 그 음성 입력에 의해 표시된 바와 같은 타겟 디바이스에 지향시킨다. 음성-활성화 전자 디바이스는 타겟 디바이스의 표시가 없거나 모호한 후속 음성 입력을 기록하도록 구성된다. 전자 디바이스 또는 음성 어시스턴스 서버 시스템은 이러한 음성 입력에 대한 타겟 디바이스를 할당하고, 이러한 음성 입력에 포함된 사용자 음성 요청을 결정하고, 사용자 음성 요청을 할당된 타겟 디바이스에 지향시킨다.
[0005] 일부 구현들에 따르면, 방법은 하나 이상의 마이크로폰들, 스피커, 하나 이상의 프로세서들 및 하나 이상의 프로세서들에 의한 실행을 위해 하나 이상의 프로그램들을 저장하는 메모리를 갖는 제1 전자 디바이스에서 수행된다. 제1 전자 디바이스는 공통 네트워크 서비스에 통신가능하게 커플링되는 접속된 전자 디바이스들의 로컬 그룹의 멤버이다. 방법은 제1 동작에 대한 요청을 포함하는 제1 음성 커맨드를 수신하는 단계; 접속된 전자 디바이스들의 로컬 그룹 중 제1 동작에 대한 제1 타겟 디바이스를 결정하는 단계; 제1 타겟 디바이스에 대한 포커스 세션을 수립하는 단계; 공통 네트워크 서비스의 동작을 통해 제1 동작이 제1 타겟 디바이스에 의해 수행되게 하는 단계; 제2 동작에 대한 요청을 포함하는 제2 음성 커맨드를 수신하는 단계; 제2 음성 커맨드가 제2 타겟 디바이스의 명시적 지정을 포함하지 않는다고 결정하는 단계; 제2 동작이 제1 타겟 디바이스에 의해 수행될 수 있다고 결정하는 단계; 제2 음성 커맨드가 하나 이상의 포커스 세션 유지 기준들을 충족하는지 여부를 결정하는 단계; 및 제2 음성 커맨드가 포커스 세션 유지 기준들을 충족한다는 결정에 따라, 공통 네트워크 서비스의 동작을 통해 제2 동작이 제1 타겟 디바이스에 의해 수행되게 하는 단계를 포함한다.
[0006] 일부 구현들에 따르면, 전자 디바이스는 하나 이상의 마이크로폰들, 스피커, 하나 이상의 프로세서들 및 하나 이상의 프로세서들에 의해 실행될 하나 이상의 프로그램들을 저장하는 메모리를 포함한다. 하나 이상의 프로그램들은 앞서 설명된 방법을 수행하기 위한 명령들을 포함한다.
[0007] 일부 구현들에 따르면, 비일시적 컴퓨터 판독가능 저장 매체는 하나 이상의 프로그램들을 저장한다. 하나 이상의 프로그램들은, 하나 이상의 마이크로폰들, 스피커 및 하나 이상의 프로세서들을 갖는 전자 디바이스에 의해 실행되는 경우, 전자 디바이스로 하여금 앞서 설명된 방법의 동작들을 수행하게 하는 명령들을 포함한다.
[0008] 다양한 설명된 구현들의 더 양호한 이해를 위해, 유사한 참조 부호들이 도면들 전반에 걸쳐 대응하는 부분들을 지칭하는 하기 도면들과 함께 아래의 구현들의 설명이 참조되어야 한다.
[0009] 도 1은 일부 구현들에 따른 예시적인 동작 환경을 예시한다.
[0010] 도 2는 일부 구현들에 따른 예시적인 음성-활성화 전자 디바이스를 예시한다.
[0011] 도 3a 및 도 3b는 일부 구현들에 따른 예시적인 음성 어시스턴스 서버 시스템을 예시한다.
[0012] 도 4a 내지 도 4d는 일부 구현들에 따른 포커스 세션의 예를 예시한다.
[0013] 도 5는 일부 구현들에 따라, 포커스 세션을 수립하고 포커스 세션에 따라 음성 입력들에 응답하는 예시적인 프로세스의 흐름도를 예시한다.
[0014] 도 6a 및 도 6b는 일부 구현들에 따른 음성-활성화 전자 디바이스의 정면도 및 후면도이다.
[0015] 도 6c는 일부 구현들에 따른 개방 구성에서 전자 디바이스(190)의 베이스에 포함된 스피커들을 도시하는 음성-활성화 전자 디바이스(190)의 사시도이다.
[0016] 도 6d는 일부 구현들에 따라 내부에 포함된 전자 컴포넌트들을 도시하는 음성-활성화 전자 디바이스의 측면도이다.
[0017] 도 6e(1) 내지 도 6e(4)는 일부 구현들에 따른 음성-활성화 전자 디바이스의 터치 감지 어레이 상에서 검출된 4개의 터치 이벤트들을 도시한다.
[0018] 도 6e(5)는 일부 구현들에 따른 음성-활성화 전자 디바이스의 후면 상의 버튼에 대한 사용자 누름을 도시한다.
[0019] 도 6f는 일부 구현들에 따른 음성-활성화 전자 디바이스의 상면도를 예시한다.
[0020] 도 6g는 일부 구현들에 따른 음성 프로세싱 상태들을 표시하기 위한 풀 컬러 LED들의 어레이에 의해 디스플레이되는 예시적인 시각적 패턴들을 도시한다.
[0021] 동일한 참조 부호들은 도면들의 몇몇 뷰들 전반에 걸쳐 대응하는 부분들을 지칭한다.
[0022] 공개적으로 정보를 공유하는 것에서부터 글로벌 커뮤니티 관점에 이르기까지 디지털 혁명이 많은 이익들을 제공해 온 반면, 등장하는 새로운 기술은 종종 소비자들 사이에 혼동, 회의주의 및 공포심을 유발하여, 소비자들이 기술을 활용하지 못하게 한다. 전자 디바이스들은 음성 인터페이스들로서 편리하게 사용되어 사용자들로부터 음성 입력들을 수신하고 음성-활성화 기능들을 개시함으로써, 기존의 및 등장하는 기술 둘 모두에 접근하는 아이(eye)-프리 및 핸즈-프리 솔루션들을 제공한다. 구체적으로, 전자 디바이스에서 수신된 음성 입력들은, 사용자의 시선이 방해되고 그의 손이 자유롭지 않은 경우에도 명령들 및 정보를 전달할 수 있다. 핸즈-프리 및 아이-프리 경험을 가능하게 하기 위해, 음성-활성화 전자 디바이스는 연속적으로(즉, 주변으로부터 수집된 오디오 신호들을 연속적으로 프로세싱함) 또는 오직 트리거링된 경우에만 주변을 청취한다. 한편, 사용자 아이덴티티들은 사용자의 음성 및 사용자에 의해 사용되는 언어와 링크된다. 사용자 아이덴티티들을 보호하기 위해, 이러한 음성-활성화 전자 디바이스들은 통상적으로, 보호되고, 제어되고 친숙한 공간들(예를 들어, 집 및 차)인 비공개 장소들에서 사용된다.
[0023] 일부 구현들에 따르면, 음성-활성화 전자 디바이스는, 음성 커맨드에서 타겟 디바이스의 표시가 없거나 모호할 때, 음성 커맨드에서 행해진 요청에 대한 타겟 디바이스를 결정 또는 할당한다. 음성-활성화 전자 디바이스는 음성 커맨드에서 명시적으로 특정 또는 표시된 타겟 디바이스에 대한 포커스 세션들을 수립한다. 타겟 디바이스의 특정 또는 표시가 없거나 모호한 후속 음성 커맨드를 음성-활성화 전자 디바이스가 수신할 때, 음성 커맨드가 하나 이상의 기준들을 충족하면, 전자 디바이스는 포커스 세션의 타겟 디바이스를 음성 커맨드에 할당한다.
[0024] 일부 구현들에서, 사용자가 다른 디바이스를 제어하기 위해 음성 인터페이스 디바이스에 말할 때, 음성 인터페이스 디바이스는 어느 디바이스가 사용자에 의해 타겟팅되었는지를 (예를 들어, 포커스 세션에) 저장한다. 그 후 소정 기간 동안, 제어에 대한 디폴트 타겟 디바이스는 저장된 디바이스이다. 예를 들어, 사용자가 먼저 "주방 조명을 켜"라는 음성 커맨드를 말하고, 그 다음, "불을 켜"라고 말하면, 제2 음성 커맨드에 대한 타겟 디바이스는, 제2 커맨드가 제1 커맨드 직후에 수신된 경우, "주방 조명"으로 디폴트된다. 다른 예로서, 제1 커맨드가 "거실 스피커에서 음악을 재생해"이고, 후속 커맨드가 "음악을 멈춰"이면, 제2 음성 커맨드에 대한 타겟 디바이스는, 제2 커맨드가 제1 커맨드 직후에 수신된 경우, "거실 스피커"로 디폴트된다.
[0025] 추가적으로, 일부 구현들에서, 음성 입력들 사이에 더 긴 시간 갭이 존재하면, 마지막으로 사용된 타겟 디바이스가 의도된 타겟 디바이스인 것을 확인 또는 검증하도록 사용자에게 문의될 수 있다. 예를 들어, 제1 음성 커맨드가 "거실 스피커에서 음악을 재생해"이고, 제1 음성 커맨드로부터 더 긴 시간 갭 이후 수신된 후속 커맨드가 "음악을 멈춰"이면, 음성 인터페이스 디바이스는 타겟 디바이스가 "거실 스피커"인 것을 확인하기 위해, "거실 스피커에서 음악을 멈추기를 원하세요?"라고 사용자에게 문의할 수 있다.
[0026] 이러한 방식으로, 사용자는 각각의 및 모든 음성 입력에서 자신의 요청의 전체 콘텍스트를 특정해야 하는 부담에서 벗어날 수 있다(예를 들어, 수행될 동작을 요청하는 각각의 및 모든 음성 입력에 타겟 디바이스의 특정을 포함시켜야 하는 것으로부터 벗어날 수 있다).
음성 어시스턴트 동작 환경
[0027] 도 1은 일부 구현들에 따른 예시적인 동작 환경이다. 동작 환경(100)은 하나 이상의 음성-활성화 전자 디바이스들(104)(예를 들어, 음성 활성화 전자 디바이스들(104-1 내지 104-N, 이하 "음성-활성화 디바이스(들)")을 포함한다. 하나 이상의 음성-활성화 디바이스들(104)은 하나 이상의 위치들에(예를 들어, 모두 방에 또는 일 구조물의 공간에, 구조물 내의 다수의 공간들 전반에 걸쳐 또는 다수의 구조물들 전반에 걸쳐 확산되어(예를 들어, 집에 하나 및 사용자의 차에 하나)) 위치될 수 있다.
[0028] 환경(100)은 또한 하나 이상의 제어가능한 전자 디바이스들(106)(예를 들어, 전자 디바이스(106-1 내지 106-N), 이하, "제어가능한 디바이스(들)")을 포함한다. 제어가능한 디바이스들(106)의 예들은 미디어 디바이스들(스마트 텔레비전들, 스피커 시스템들, 무선 스피커들, 셋탑 박스들, 미디어 스트리밍 디바이스들, 캐스트 디바이스들) 및 스마트 홈 디바이스들(예를 들어, 스마트 카메라, 스마트 써모스탯, 스마트 조명, 스마트 위험 검출기, 스마트 도어 락)을 포함한다.
[0029] 음성-활성화 디바이스들(104) 및 제어가능한 디바이스들(106)은 통신 네트워크들(110)을 통해 음성 어시스턴트 서비스(140)에(예를 들어, 음성 어시스턴트 서비스(140)의 음성 어시스턴스 서버 시스템(112)에) 통신가능하게 커플링된다. 일부 구현들에서, 음성-활성화 디바이스들(104) 및 제어가능한 디바이스들(106) 중 하나 이상은 로컬 네트워크(108)에 통신가능하게 커플링되고, 이는 통신 네트워크들(110)에 통신가능하게 커플링되며; 음성-활성화 디바이스(들)(104) 및/또는 제어가능한 디바이스(들)(106)은 로컬 네트워크(108)를 통해 통신 네트워크(들)(110)에 (그리고 통신 네트워크들(110)을 통해 음성 어시스턴스 서버 시스템(112)에) 통신가능하게 커플링된다. 일부 구현들에서, 로컬 네트워크(108)는 네트워크 인터페이스(예를 들어, 라우터)에서 구현되는 로컬 영역 네트워크이다. 로컬 네트워크(108)에 통신가능하게 커플링되는 음성-활성화 디바이스들(104) 및 제어가능한 디바이스들(106)은 또한 로컬 네트워크(108)를 통해 서로 통신할 수 있다.
[0030] 선택적으로, 음성-활성화된 디바이스들(104) 중 하나 이상은 통신 네트워크들(110)에 통신가능하게 커플링되고 로컬 네트워크(108) 상에 없다. 예를 들어, 이러한 음성-활성화 디바이스들은 로컬 네트워크(108)에 대응하는 Wi-Fi 네트워크 상에 없지만 셀룰러 접속을 통해 통신 네트워크들(110)에 접속된다. 일부 구현들에서, 로컬 네트워크(108) 상에 있는 음성-활성화 디바이스들(104)과 로컬 네트워크(108) 상에 없는 음성-활성화 디바이스들(104) 사이의 통신은 음성 어시스턴스 서버 시스템(112)을 통해 행해진다. 음성-활성화 디바이스들(104)은 (로컬 네트워크(108) 상에 있든 또는 네트워크(110) 상에 있든) 음성 어시스턴트 서비스(140)의 디바이스 레지스트리(118)에 등록되고 따라서 음성 어시스턴스 서버 시스템(112)에 공지된다. 유사하게, 로컬 네트워크(108) 상에 없는 음성-활성화 디바이스들(104)은 음성 어시스턴트 서버 시스템(112)을 통해 제어가능한 디바이스들(106)과 통신할 수 있다. 제어가능한 디바이스들(106)은 (로컬 네트워크(108) 상에 있든 또는 네트워크(110) 상에 있든) 또한 디바이스 레지스트리(118)에 등록된다. 일부 구현들에서, 음성-활성화 디바이스들(104)과 제어가능한 디바이스들(106) 사이의 통신들은 음성 어시스턴스 서버 시스템(112)을 통과한다.
[0031] 일부 구현들에서, 환경(100)은 또한 하나 이상의 콘텐츠 호스트들(114)을 포함한다. 콘텐츠 호스트(114)는 원격 콘텐츠 소스일 수 있고, 그로부터 콘텐츠가 스트리밍되거나 달리 사용자 음성 입력 또는 커맨드에 포함된 요청에 따라 획득된다. 콘텐츠 호스트(114)는 정보 소스일 수 있고, 그로부터 음성 어시스턴스 서버 시스템(112)이 사용자 음성 요청에 따라 정보를 리트리브한다.
[0032] 일부 구현들에서, 제어가능한 디바이스들(106)은 특정 동작들을 수행하거나 또는 (예를 들어, 음성-활성화 디바이스(104) 및/또는 음성 어시스턴스 서버 시스템(112)으로부터) 특정 상태들로 전환하도록 하고 수신된 커맨드들 또는 요청들에 따라 동작들을 수행하거나 또는 상태들 전환하도록 하는 커맨드들 또는 요청들을 수신할 수 있다.
[0033] 일부 구현들에서, 제어가능한 디바이스들(106) 중 하나 이상은 하나 이상의 사용자들에게 미디어 콘텐츠, 뉴스 및/또는 다른 정보를 제공하기 위해 동작 환경(100)에 배치된 미디어 디바이스들이다. 일부 구현들에서, 미디어 디바이스들에 의해 제공된 콘텐츠는 로컬 콘텐츠 소스에 저장되거나, 원격 콘텐츠 소스(예를 들어, 콘텐츠 호스트(들)(114))로부터 스트리밍되거나 또는 로컬로(예를 들어, 로컬 텍스트를 통해, 동작 환경(100)의 하나 이상의 점유자들에게 커스터마이징된 뉴스 브리핑, 이메일들, 텍스트들, 로컬 날씨 보고 등을 판독하는 음성 프로세서에) 생성된다. 일부 구현들에서, 미디어 디바이스들은 청중(예를 들어, 하나 이상의 사용자들)에게 미디어 콘텐츠를 직접 출력하는 미디어 출력 디바이스들 및 미디어 출력 디바이스들에 미디어 콘텐츠를 스트리밍하기 위해 네트워킹된 캐스트 디바이스들을 포함한다. 미디어 출력 디바이스들의 예들은 텔레비전(TV) 디스플레이 디바이스들 및 뮤직 플레이어들을 포함한다(그러나, 이에 제한되는 것은 아님). 캐스트 디바이스들의 예들은 STB(set-top box)들, DVD 플레이어들, TV 박스들 및 미디어 스트리밍 디바이스들, 예를 들어, 구글의 Chromecast™ 미디어 스트리밍 디바이스를 포함한다(그러나, 이에 제한되는 것은 아님).
[0034] 일부 구현들에서, 제어가능한 디바이스(106)는 또한 음성-활성화 디바이스(104)이다. 일부 구현들에서, 음성-활성화 디바이스(104)는 또한 제어가능한 디바이스(106)이다. 예를 들어, 제어가능한 디바이스(106)는 음성 어시스턴스 서비스(140)에 대한 음성 인터페이스(예를 들어, 또한 사용자 음성 입력들을 수신하고, 프로세싱하고 그에 응답할 수 있는 미디어 디바이스)를 포함할 수 있다. 다른 예로서, 음성-활성화 디바이스(104)는 또한 음성 입력들의 요청들 또는 커맨드들에 따라 특정 동작들을 수행하고 특정 상태들로 전환할 수 있다(예를 들어, 또한 스트리밍 음악을 재생할 수 있는 음성 인터페이스 디바이스).
[0035] 일부 구현들에서, 음성-활성화 디바이스들(104) 및 제어가능한 디바이스들(106)은 사용자 도메인에서 각각의 계정을 갖는 사용자와 또는 각각의 사용자 계정들을 갖는 다수의 사용자들(예를 들어, 가족 또는 조직의 사용자들과 같은 관련된 사용자들의 그룹; 더 일반적으로는 주 사용자 및 하나 이상의 인가된 추가적인 사용자들)과 연관된다. 사용자는 음성-활성화 디바이스(104)에 대한 음성 입력들 또는 음성 커맨드들을 행할 수 있다. 음성-활성화 디바이스(104)는 사용자(예를 들어, 사용자(102))로부터 이러한 음성 입력들을 수신하고, 음성-활성화 디바이스(104) 및/또는 음성 어시스턴스 서버 시스템(112)은 음성 입력에서 요청을 결정하고 요청에 대한 응답을 생성하도록 진행한다.
[0036] 일부 구현들에서, 음성 입력에 포함된 요청은 동작을 수행(예를 들어, 미디어를 재생, 미디어를 일시정지, 미디어를 빨리감기 또는 되감기, 볼륨 변경, 스크린 밝기를 변경, 조명 밝기를 변경)하거나 또는 다른 상태로 전환(예를 들어, 동작 모드를 변경, 턴 온 또는 오프, 수면 모드로 이동 또는 수면 모드로부터 웨이크)하도록 하는 제어가능한 디바이스(106)에 대한 커맨드 또는 요청이다.
[0037] 일부 구현들에서, 음성-활성화 전자 디바이스(104)는, 음성 커맨드에 대해 발화된 응답을 생성 및 제공하는 것(예를 들어, "지금 몇시지"라는 질문에 대한 응답으로 현재 시간을 말함); 사용자에 의해 요청된(예를 들어, " 비치 보이스 노래를 재생해") 미디어 콘텐츠를 스트리밍하는 것; 사용자를 위해 준비된 뉴스 스토리 또는 매일 뉴스 브리핑을 판독하는 것; 개인용 어시스턴트 디바이스 또는 로컬 네트워크 상에 저장된 미디어 항목을 재생하는 것; 상태를 변경하는 것 또는 동작 환경(100) 내에서 하나 이상의 다른 접속된 디바이스들을 동작시키는 것(예를 들어, 조명들, 가전기기들 또는 미디어 디바이스들을 턴 온/오프하는 것, 락(lock)을 잠금/잠금해제하는 것, 창문을 여는 것 등); 또는 네트워크(110)를 통해 대응하는 요청을 서버에 발송하는 것에 의해 음성 입력들에 대해 응답한다.
[0038] 일부 구현들에서, 하나 이상의 음성-활성화 디바이스들(104)은 다양한 기능들(예를 들어, 미디어 디바이스들의 미디어 재생 기능들)을 개시하기 위한 오디오 입력들을 수집하기 위해 동작 환경(100)에 배치된다. 일부 구현들에서, 이러한 음성-활성화 디바이스들(104)(예를 들어, 디바이스들(104-1 내지 104-N))은 예를 들어, 캐스트 디바이스들 및 미디어 출력 디바이스들을 갖는 동일한 방에서, 제어가능한 디바이스(104)(예를 들어, 미디어 디바이스)에 근접하게 배치된다. 대안적으로, 일부 구현들에서, 음성-활성화 디바이스(104)는 하나 이상의 스마트 홈 디바이스들을 갖지만 어떠한 미디어 디바이스도 갖지 않는 구조에 배치된다. 대안적으로, 일부 구현들에서, 음성-활성화 디바이스(104)는 하나 이상의 스마트 홈 디바이스들 및 하나 이상의 미디어 디바이스들을 갖는 구조에 배치된다. 대안적으로, 일부 구현들에서, 음성-활성화 디바이스(104)는 어떠한 네트워킹된 전자 디바이스도 갖지 않는 위치에 배치된다. 추가로, 일부 구현들에서, 구조 내의 방 또는 공간은 다수의 음성-활성화 디바이스들(104)을 가질 수 있다.
[0039] 일부 구현들에서, 음성-활성화 디바이스(104)는 적어도 하나 이상의 마이크로폰들, 스피커, 프로세서 및 프로세서에 의한 실행을 위해 적어도 하나의 프로그램을 저장하는 메모리를 포함한다. 스피커는, 음성-활성화 디바이스(104)가 음성 메시지들 및 다른 오디오(예를 들어, 가청 톤들)를, 음성-활성화 디바이스(104)가 동작 환경(100)에 위치된 위치로 전달하게 하여, 음악을 브로드캐스트하고, 오디오 입력 프로세싱의 상태를 보고하고, 음성-활성화 디바이스(104)의 사용자와 대화하거나 그에게 명령들을 제공하도록 구성된다. 음성 메시지들에 대한 대안으로, 시각적 신호들은 또한 오디오 입력 프로세싱의 상태에 관한 피드백을 음성-활성화 디바이스(104)의 사용자에게 제공하기 위해 사용될 수 잇다. 음성-활성화 디바이스(104)가 모바일 디바이스(예를 들어, 모바일 폰 또는 태블릿 컴퓨터)일 때, 그 디스플레이 스크린은 오디오 입력 프로세싱의 상태에 관한 통지를 디스플레이하도록 구성된다.
[0040] 일부 구현들에서, 음성-활성화 디바이스(104)는 음성 어시스턴스 서버 시스템(112)의 보조로 음성 인식 기능들을 제공하도록 네트워크-접속된 음성 인터페이스 디바이스이다. 예를 들어, 음성-활성화 디바이스(104)는 사용자에게 음악을 제공하고 음성 어시스턴트 서비스(예를 들어, 구글 어시스턴트)에 대한 아이-프리 및 핸즈-프리 액세스를 허용하는 스마트 스피커를 포함한다. 선택적으로, 음성-활성화 디바이스(104)는, 데스크탑 또는 랩탑 컴퓨터, 태블릿, 마이크로폰을 포함하는 모바일 폰, 마이크로폰 및 선택적으로 스피커를 포함하는 캐스트 디바이스, 마이크로폰 및 스피커를 포함하는 오디오 시스템(예를 들어, 스테레오 시스템, 스피커 시스템, 휴대용 스피커), 마이크로폰 및 스피커를 포함하는 텔레비전, 및 마이크로폰 및 스피커 및 선택적으로 디스플레이를 포함하는 자동차의 사용자 인터페이스 시스템 중 하나이다. 선택적으로, 음성-활성화 디바이스(104)는 간단하고 낮은 비용의 음성 인터페이스 디바이스이다. 일반적으로, 음성-활성화 디바이스(104)는, 네트워크 접속이 가능하고, 마이크로폰, 스피커, 및 음성 어시스턴트 서비스와 상호작용하기 위한 프로그램들, 모듈들 및 데이터를 포함하는 임의의 디바이스일 수 있다. 음성-활성화 디바이스(104)의 단순성 및 낮은 비용이 주어지면, 음성-활성화 디바이스(104)는 풀 디스플레이 스크린보다는 발광 다이오드들(LED들)의 어레이를 포함하고, 오디오 입력 프로세싱의 상태를 표시하기 위해 LED들 상에 시각적 패턴을 디스플레이한다. 일부 구현들에서, LED들은 풀 컬러 LED들이고, LED들의 컬러들은 LED들 상에 디스플레이될 시각적 패턴의 일부로서 이용될 수 있다. 예를 들어, 정보 또는 디바이스 상태(예를 들어, 포커스 세션이 개시된 것, 활성인 것, 연장된 것 및/또는 복수의 사용자들 중 어느 개별적 사용자들이 특정 포커스 세션과 연관되는지 여부를 표시하는 것과 관련된 상태)를 전달하기 위해 시각적 패턴들을 디스플레이하는 LED들을 사용하는 다수의 예들은 도 6을 참조하여 아래에서 설명된다. 일부 구현들에서, 음성 프로세싱 동작들의 상태를 표시하는 시각적 패턴들은, 음성 프로세싱 동작들을 수행하고 있는 음성-활성화 디바이스들과 연관된 종래의 디스플레이들 상에 도시된 특성 이미지들을 사용하여 디스플레이된다.
[0041] 일부 구현들에서, LED들 또는 다른 시각적 디스플레이들은 다수의 참여 전자 디바이스들의 총괄적 음성 프로세싱 상태를 전달하기 위해 사용된다. 예를 들어, 다수의 음성 프로세싱 또는 음성 인터페이스 디바이스들(예를 들어, 도 6a에 도시된 바와 같은 다수의 전자 디바이스들(104); 도 1의 다수의 음성-활성화 디바이스들(104))이 존재하는 동작 환경에서, 각각의 전자 디바이스들과 연관된 컬러 LED들의 그룹들(예를 들어, 도 6에 도시된 바와 같은 LED들(604))은 전자 디바이스들 중 어느 것이 사용자를 청취하고 있는지 및 청취 디바이스들 중 어느 것이 리더인지를 전달하기 위해 사용될 수 있다(여기서 "리더" 디바이스는 일반적으로 사용자에 의해 발행된 발화된 요청에 대해 응답할 때 리드를 취한다).
[0042] 더 일반적으로, 도 6을 참조한 아래의 논의는, 핫 워드 검출 상태, 청취 상태, 생각 모드, 작동 모드, 응답 모드 및/또는 스피킹 모드와 같은 전자 디바이스의 다양한 음성 프로세싱 상태들을, LED들의 집합을 사용하여 시각적으로 표시하기 위한 "LED 설계 언어"를 설명한다. 일부 구현들에서, 본원에 설명된 음성 프로세싱 동작들의 고유의 상태들은 "LED 설계 언어"의 하나 이상의 양상들에 따라 LED들의 그룹을 사용하여 표현된다. 이러한 시각적 표시자들은 또한 음성 프로세싱 동작들을 수행하고 있는 전자 디바이스들에 의해 생성된 하나 이상의 가청 표시자들과 조합될 수 있다. 결과적 오디오 및/또는 시각적 표시자들은 음성-대화형 환경 내의 사용자들이 환경 내의 다양한 음성 프로세싱 전자 디바이스들의 상태를 이해하고, 그러한 디바이스들과 자연스러운 직관적 방식으로 효과적으로 상호작용할 수 있게 할 것이다.
[0043] 일부 구현들에서, 캐스트 디바이스들을 통해 미디어 출력 디바이스들을 제어하기 위해 음성-활성화 디바이스(104)에 대한 음성 입력들이 사용될 때, 음성-활성화 디바이스(104)는 캐스트-인에이블 미디어 디바이스들에 대한 새로운 레벨의 제어를 효과적으로 가능하게 한다. 특정 예에서, 음성-활성화 디바이스(104)는 원거리 음성 액세스를 갖는 캐주얼 향유 스피커를 포함하고 음성 어시스턴트 서비스에 대한 음성 인터페이스 디바이스로서 기능한다. 음성-활성화 디바이스(104)는 동작 환경(100)의 임의의 영역에 배치될 수 있다. 다수의 음성-활성화 디바이스들(104)이 다수의 방들에 분산되는 경우, 이들은 이러한 방들로부터 음성 입력들을 제공하도록 동기화되는 캐스트 오디오 수신기들이 된다.
[0044] 구체적으로, 일부 구현들에서, 음성-활성화 디바이스(104)는 음성-활성화 음성 어시스턴트 서비스(예를 들어, 구글 어시스턴트)에 접속된 마이크로폰을 갖는 Wi-Fi 스피커를 포함한다. 사용자는 음성-활성화 디바이스(104)의 마이크로폰을 통해 미디어 재생 요청을 발행하고, 음성-활성화 디바이스(104) 자체 상에서 또는 다른 접속된 미디어 출력 디바이스 상에서 미디어 콘텐츠를 재생하도록 음성 어시스턴트 서비스에 문의할 수 있다. 예를 들어, 사용자는 "OK 구글, 내 거실 TV에서 고양이 비디오를 재생해"라고 Wi-Fi 스피커에 말함으로써 미디어 재생 요청을 발행할 수 있다. 그 다음, 음성 어시스턴트 서비스는 디폴트 또는 지정된 미디어 애플리케이션을 사용하여 요청된 디바이스 상에 요청된 미디어 콘텐츠를 재생함으로써 미디어 재생 요청을 달성한다.
[0045] 일부 구현들에서, 사용자는 음성-활성화 디바이스(104)의 마이크로폰을 통해, 이미 재생되었거나 디스플레이 디바이스 상에 재생되고 있는 미디어 콘텐츠에 관한 음성 요청을 발행할 수 있다(예를 들어, 사용자는 미디어 콘텐츠에 대한 정보를 문의하거나, 온라인 상점을 통해 미디어 콘텐츠를 구매하거나, 미디어 콘텐츠에 대한 소셜 포스트를 작성 및 발행할 수 있다).
[0046] 일부 구현들에서, 사용자는, 집을 통과하여 이동할 때 자신과의 현재 미디어 세션을 취하기를 원할 수 있고, 이러한 서비스를 음성-활성화 디바이스들(104) 중 하나 이상으로부터 요청할 수 있다. 이는, 음성 어시스턴트 서비스(140)가 현재의 미디어 세션을 제1 캐스트 디바이스로부터, 제1 캐스트 디바이스에 직접 접속되지 않거나 제1 캐스트 디바이스의 존재에 대한 어떠한 지식도 없는 제2 캐스트 디바이스에 전송하도록 요구한다. 미디어 콘텐츠 전송에 후속하여, 제2 캐스트 디바이스에 커플링된 제2 출력 디바이스는, 제1 출력 디바이스 상에서 미디어 콘텐츠의 재생이 선행되었던 음악 트랙 또는 비디오 클립 내의 정확한 포인트로부터 제1 캐스트 디바이스에 커플링된 제1 출력 디바이스에서 이전의 미디어 콘텐츠를 재생하는 것을 계속한다. 일부 구현들에서, 미디어 세션을 전송하라는 요청을 수신하는 음성-활성화 디바이스(104)는 요청을 충족할 수 있다. 일부 구현들에서, 미디어 세션을 전송하라는 요청을 수신하는 음성-활성화 디바이스(104)는 그 요청을 처리를 위해 다른 디바이스 또는 시스템(예를 들어, 음성 어시스턴스 서버 시스템(112))에 중계한다.
[0047] 추가로, 일부 구현들에서, 사용자는 음성-활성화 디바이스(104)의 마이크로폰을 통해, 정보에 대한 또는 액션 또는 동작의 수행에 대한 요청을 발행할 수 있다. 요청된 정보는 개인적(예를 들어, 사용자의 이메일들, 사용자의 캘린더 이벤트들, 사용자의 비행 정보 등)이거나 비-개인적(예를 들어, 스포츠 점수, 뉴스 스토리들 등)이거나, 그 중간(예를 들어, 사용자가 선호하는 팀들 또는 스포츠들에 대한 점수, 사용자가 선호하는 소스들로부터의 뉴스 스토리들 등)일 수 있다. 요청된 정보 또는 액션/동작은 개인적 정보에 대한 액세스(예를 들어, 사용자에 의해 제공된 지불 정보로 디지털 미디어 항목을 구매하는 것, 물리적 상품을 구매하는 것)를 수반할 수 있다. 음성-활성화 디바이스(104)는 사용자에 대한 음성 메시지 응답들로 요청에 응답하고, 응답은, 예를 들어, 요청을 이행하기 위한 추가적인 정보에 대한 요청들, 요청이 이행되었다는 확인, 요청이 이행될 수 없다는 통지 등을 포함할 수 있다.
[0048] 일부 구현들에서, 제어가능한 디바이스들(106) 중 음성-활성화 디바이스들(104) 및 미디어 디바이스들에 추가로, 동작 환경(100)은 또한 제어가능한 디바이스들(106) 중 하나 이상의 스마트 홈 디바이스들을 포함할 수 있다. 통합된 스마트 홈 디바이스들은 다양한 유용한 스마트 홈 기능들을 제공하기 위해 스마트 홈 네트워크에서 서로 및/또는 중앙 서버 또는 클라우드-컴퓨팅 시스템과 끊김없이 통합하는 지능형 멀티-감지 네트워크-접속된 디바이스들을 포함한다. 일부 구현들에서, 스마트 홈 디바이스는 캐스트 디바이스 및/또는 출력 디바이스로서 동작 환경(100)의 동일한 위치에 배치되고, 따라서, 캐스트 디바이스 및 출력 디바이스에 근접하여 또는 그에 대해 공지된 거리에 위치된다.
[0049] 동작 환경(100)의 스마트 홈 디바이스들은 하나 이상의 지능형 멀티-감지 네트워크-접속된 써모스탯들, 하나 이상의 지능형 네트워크-접속된 멀티-감지 위험 검출기들, 하나 이상의 지능형 멀티-감지 네트워크-접속된 현관 인터페이스 디바이스들(이하, "스마트 도어벨들" 및 "스마트 도어 락들"로 지칭됨) 및 하나 이상의 지능형 멀티-감지 네트워크-접속된 경보 시스템들, 하나 이상의 지능형 멀티-감지 네트워크-접속된 카메라 시스템들, 하나 이상의 지능형 멀티-감지 네트워크-접속된 벽 스위치들, 하나 이상의 지능형 멀티-감지 네트워크-접속된 전력 소켓들, 및 하나 이상의 지능형 멀티-감지 네트워크-접속된 조명들을 포함할 수 있다(그러나 이에 제한되는 것은 아니다). 일부 구현들에서, 도 1의 동작 환경(100)의 스마트 홈 디바이스들은 복수의 지능형 멀티-감지 네트워크-접속된 가전기기들(이하 "스마트 가전기기들"로 지칭됨), 예를 들어, 냉장고들, 스토브들, 오븐들, 텔레비전들, 세탁기들, 건조기들, 조명들, 스테레오들, 인터콤 시스템들, 차고문 개방기들, 바닥 팬들, 천장 팬들, 벽 에어 컨디셔너들, 풀 히터들, 관개 시스템들, 보안 시스템들, 공간 히터들, 창문 AC 유닛들, 전동 통풍기들 등을 포함한다. 일부 구현들에서, 이러한 스마트 홈 디바이스 타입들 중 임의의 하나는, 전체적으로 또는 부분적으로 점유자 또는 사용자로부터의 음성 요청들에 응답하기 위해 본원에 설명된 바와 같이 마이크로폰들 및 하나 이상의 음성 프로세싱 능력들과 아웃피트(outfit)될 수 있다.
[0050] 일부 구현들에서, 제어가능한 디바이스들(104) 및 음성-활성화 디바이스들(104) 각각은 제어가능한 디바이스들(106), 음성-활성화 전자 디바이스들(104), 중앙 서버 또는 클라우드-컴퓨팅 시스템, 및/또는 네트워크-접속된 다른 디바이스들(예를 들어, 클라이언트 디바이스)과 데이터 통신 및 정보 공유할 수 있다. 데이터 통신들은 임의의 다양한 커스텀 또는 표준 무선 프로토콜들(예를 들어, IEEE 802.15.4, Wi-Fi, ZigBee, 6LoWPAN, Thread, Z-Wave, Bluetooth Smart, ISA100.11a, WirelessHART, MiWi, 등) 및/또는 임의의 다양한 커스텀 또는 표준 유선 프로토콜들(예를 들어, Ethernet, HomePlug 등) 또는 본 문헌의 출원일에 아직 개발되지 않은 통신 프로토콜을 포함하는 임의의 다른 적절한 통신 프로토콜을 사용하여 수행될 수 있다.
[0051] 통신 네트워크들(예를 들어, 인터넷)(110)을 통해, 제어가능한 디바이스들(106) 및 음성-활성화 디바이스들(104)은 서버 시스템(또한 본원에서 중앙 서버 시스템 및/또는 클라우드-컴퓨팅 시스템으로 지칭됨)과 통신할 수 있다. 임의적으로, 서버 시스템은 제조자, 지원 엔티티, 또는 제어가능한 디바이스들 및 사용자에게 디스플레이되는 미디어 콘텐츠와 연관된 서비스 제공자와 연관될 수 있다. 따라서, 서버 시스템은 음성-활성화 디바이스들(104)에 의해 수집된 오디오 입력들을 프로세싱하는 음성 어시스턴스 서버(112), 디스플레이된 미디어 콘텐츠를 제공하는 하나 이상의 콘텐츠 호스트들(114), 선택적으로, 분산된 디바이스 단말들에 기초하여 가상 사용자 도메인을 생성하는 클라우드 캐스트 서비스 서버 및 가상 사용자 환경의 분산된 디바이스 단말들의 기록을 유지하는 디바이스 레지스트리(118)를 포함한다. 분산된 디바이스 단말들의 예들은 제어가능한 디바이스들(106), 음성-활성화된 디바이스들(104) 및 미디어 출력 디바이스들을 포함한다(그러나, 이에 제한되는 것은 아님). 일부 구현들에서, 이러한 분산된 디바이스 단말들은 가상 사용자 도메인에서 사용자 계정(예를 들어, 구글 사용자 계정)에 링크된다. 음성-활성화 디바이스들(104)에 의해 수집된 오디오 입력들에 대한 응답들의 생성을 포함하는 그러한 입력들의 프로세싱은 음성-활성화 디바이스(104), 음성 어시스턴스 서버(112), 다른 스마트 홈 디바이스(예를 들어, 허브 디바이스 또는 제어가능한 디바이스(106)) 또는 상기의 것들의 모두 또는 서브세트의 일부 조합에서 로컬로 수행될 수 있음을 인식해야 한다.
[0052] 일부 구현들에서, 음성-활성화 디바이스(들)(104)는 또한 스마트 홈 디바이스들이 없는 환경에서 기능함을 인식할 것이다. 예를 들어, 음성-활성화 디바이스(104)는 심지어 스마트 홈 디바이스들의 부재 시에도, 정보 또는 액션의 성능에 대한 사용자 요청들에 응답하고 그리고/또는 다양한 미디어 재생 기능들을 개시 또는 제어할 수 있다. 음성-활성화 디바이스(104)는 또한 제한없이, 차량, 배, 비지니스 또는 제조 환경을 포함하는 광범위한 환경들에서 기능할 수 있다.
[0053] 일부 구현들에서, 음성-활성화 디바이스(104)는 (예를 들어, 음성-활성화 디바이스(104) 상의 음성 어시스턴트 서비스에 대한 인터페이스를 활성화시키기 위해, 음성-활성화 디바이스(104)를, 음성-활성화 디바이스(104)가 음성 어시스턴트 서비스에 대한 음성 요청들을 수신할 준비가 된 상태가 되게 하기 위해) 핫워드(또한 "웨이크 워드"로 지칭됨)를 포함하는 음성 입력에 의해 "어웨이큰"된다. 일부 구현들에서, 음성-활성화된 디바이스(104)는, 음성-활성화 디바이스(104)가 적어도 미리 정의된 양의 시간(예를 들어, 5 분) 동안 음성 입력들의 수신에 대해 유휴이면 어웨이큰을 요구하며; 미리 정의된 양의 시간은 음성 인터페이스 세션 또는 대화가 타임 아웃되기 전에 허용되는 유휴 시간의 양에 대응한다. 핫워드는 워드 또는 구문일 수 있고, 미리 정의된 디폴트일 수 있고 그리고/또는 사용자에 의해 커스터마이징될 수 있다(예를 들어, 사용자는 특정 음성-활성화 디바이스(104)에 대한 닉네임을 디바이스의 핫워드로서 설정할 수 있다). 일부 구현들에서, 음성-활성화된 디바이스(104)를 어웨이큰할 수 있는 다수의 핫워드들이 존재할 수 있다. 사용자는 핫워드를 말할 수 있고, 음성-활성화 디바이스(104)로부터 확인응답 응답(예를 들어, 음성-활성화 디바이스(104)가 인사를 출력함)을 대기할 수 있고, 그 다음, 제1 음성 요청을 행할 수 있다. 대안적으로, 사용자는 핫워드 및 제1 음성 요청을 하나의 음성에 조합할 수 있다(예를 들어, 음성 입력은 핫워드 및 후속하는 음성 요청을 포함한다).
[0054] 일부 구현들에서, 음성-활성화 디바이스(104)는 일부 구현들에 따라 동작 환경(100)의 제어가능한 디바이스(106)(예를 들어, 미디어 디바이스, 스마트 홈 디바이스), 클라이언트 디바이스 또는 서버 시스템과 상호작용한다. 음성-활성화 디바이스(104)는 음성-활성화 디바이스(104)에 근접한 환경으로부터 오디오 입력들을 수신하도록 구성된다. 선택적으로, 음성-활성화 디바이스(104)는 오디오 입력들을 저장하고, 적어도 부분적으로 오디오 입력들을 로컬로 프로세싱한다. 선택적으로, 음성-활성화 디바이스(104)는 수신된 오디오 입력들 또는 부분적으로 프로세싱된 오디오 입력들을 추가적 프로세싱을 위해 통신 네트워크들(110)을 통해 음성 어시스턴스 서버 시스템(112)에 송신한다. 음성-활성화 디바이스(104) 또는 음성 어시스턴스 서버 시스템(112)은, 오디오 입력에 요청이 존재하는지 여부 및 요청이 어떤 것인지를 결정하고, 요청에 대한 응답을 결정 및 생성하고, 요청을 하나 이상의 제어가능한 디바이스(들)(106)에 송신한다. 응답을 수신하는 제어가능한 디바이스(들)(106)는 응답에 따라 동작들을 수행하도록 또는 상태들을 변경하도록 구성된다. 예를 들어, 미디어 디바이스는 오디오 입력의 요청에 대한 응답에 따라, 미디어 디바이스에 커플링된 출력 디바이스 상에 디스플레이하기 위해 하나 이상의 콘텐츠 호스트들(114)로부터 미디어 콘텐츠 또는 인터넷 콘텐츠를 획득하도록 구성된다.
[0055] 일부 구현들에서, 제어가능한 디바이스(들)(106) 및 음성-활성화된 디바이스(들)(104)는 사용자 도메인에서 서로 링크되고, 더 구체적으로는, 사용자 도메인의 사용자 계정을 통해 서로 연관된다. 제어가능한 디바이스(106)(로컬 네트워크(108)이든 또는 네트워크(110)이든) 및 음성-활성화 디바이스(104)(로컬 네트워크(108)이든 또는 네트워크(110)이든)에 대한 정보는 사용자 계정과 관련하여 디바이스 레지스트리(118)에 저장된다. 일부 구현들에서, 제어가능한 디바이스들(106)에 대한 디바이스 레지스트리 및 음성-활성화 디바이스들(104)에 대한 디바이스 레지스트리가 존재한다. 제어가능한 디바이스 레지스트리는 사용자 도메인에서 연관된 음성-활성화된 디바이스 레지스트리의 디바이스를 참조할 수 있고, 그 반대일 수 있다.
[0056] 일부 구현들에서, 음성-활성화 디바이스들(104)(및 하나 이상의 캐스트 디바이스들) 중 하나 이상 및 제어가능한 디바이스들(106) 중 하나 이상은 클라이언트 디바이스(103)를 통해 음성 어시스턴트 서비스(140)에 커미셔닝된다. 일부 구현들에서, 음성-활성화 디바이스(104)는 임의의 디스플레이 스크린을 포함하지 않고, 커미셔닝 프로세스 동안 및 또한 유사하게 제어가능한 디바이스(106)에 대해 사용자 인터페이스를 제공하기 위해 클라이언트 디바이스(103)에 의존한다. 구체적으로, 클라이언트 디바이스(103)에는, 사용자 인터페이스가 클라이언트 디바이스에 근접하게 배치된 새로운 음성-활성화 디바이스(104) 및/또는 제어가능한 디바이스(106)의 커미셔닝을 용이하게 할 수 있게 하는 애플리케이션이 설치된다. 사용자는 커미셔닝될 필요가 있는 새로운 전자 디바이스(104/106)에 대한 커미셔닝 프로세스를 개시하기 위해 클라이언트 디바이스(103)의 사용자 인터페이스 상에 요청을 전송할 수 있다. 커미셔닝 요청을 수신한 후, 클라이언트 디바이스(103)는 커미셔닝될 필요가 있는 새로운 전자 디바이스(104/103)와 단거리 통신 링크를 수립한다. 선택적으로, 단거리 통신 링크는 NFC(near field communication), 블루투스, BLE(Bluetooth Low Energy) 등에 기반하여 수립된다. 그 다음, 클라이언트 디바이스(103)는 WLAN(wireless local area network)(예를 들어, 로컬 네트워크(108))과 연관된 무선 구성 데이터를 새로운 또는 전자 디바이스(104/106)에 전달한다. 무선 구성 데이터는 적어도 WLAN 보안 코드(즉, SSID(service set identifier) 패스워드)를 포함하고, 선택적으로 SSID, IP(Internet protocol) 어드레스, 프록시 구성 및 게이트웨이 구성을 포함한다. 단거리 통신 링크를 통해 무선 구성 데이터를 수신한 후, 새로운 전자 디바이스(104/106)는 무선 구성 데이터를 디코딩 및 복원하고, 무선 구성 데이터에 기초하여 WLAN에 참여한다.
[0057] 일부 구현들에서, 추가적인 사용자 도메인 정보는 클라이언트 디바이스(103) 상에 디스플레이되는 사용자 인터페이스 상에 입력되고, 새로운 전자 디바이스(104/106)를 사용자 도메인의 계정에 링크시키기 위해 사용된다. 선택적으로, 추가적인 사용자 도메인 정보는 단거리 통신 링크를 통해 무선 통신 데이터와 함께 새로운 전자 디바이스(104/106)에 전달된다. 선택적으로, 추가적인 사용자 도메인 정보는 새로운 디바이스가 WLAN에 참여한 후 WLAN을 통해 새로운 전자 디바이스(104/106)에 전달된다.
[0058] 전자 디바이스(104/106)가 사용자 도메인에 커미셔닝되면, 다른 디바이스들 및 이들의 연관된 활동들은 다수의 제어 경로들을 통해 제어될 수 있다. 하나의 제어 경로에 따르면, 클라이언트 디바이스(103) 상에 설치된 애플리케이션은 다른 디바이스 및 이의 연관된 활동들(예를 들어, 미디어 재생 활동들)을 제어하기 위해 사용된다. 대안적으로, 다른 제어 경로에 따르면, 전자 디바이스(104/106)는 다른 디바이스 및 이의 연관된 활동들의 아이-프리 및 핸즈-프리 제어를 가능하게 하기 위해 사용된다.
[0059] 일부 구현들에서, 음성-활성화 디바이스들(104) 및 제어가능한 디바이스들(106)에는 사용자에 의한(예를 들어, 사용자 도메인에서 디바이스들이 연관된 1차 사용자에 의한) 닉네임들이 할당될 수 있다. 예를 들어, 거실의 스피커 디바이스에는 닉네임 "거실 스피커"가 할당될 수 있다. 이러한 방식으로, 사용자는 디바이스의 닉네임을 말함으로써 음성 입력의 디바이스를 더 쉽게 참조할 수 있다. 일부 구현들에서, 디바이스 닉네임들 및 대응하는 디바이스들에 대한 매핑들은 음성-활성화 디바이스(104)(음성-활성화 디바이스와 동일한 사용자와 연관된 디바이스들의 닉네임들을 저장할 것임) 및/또는 음성 어시스턴스 서버 시스템(112)(상이한 사용자들과 연관된 디바이스들의 디바이스 닉네임들을 저장할 것임)에 저장된다. 예를 들어, 음성 어시스턴스 서버 시스템(112)은 상이한 디바이스들 및 사용자들에 걸친 많은 디바이스 닉네임들 및 매핑들을 저장하고, 특정 사용자와 연관된 음성-활성화 디바이스들(104)은 로컬 저장을 위해 특정 사용자와 연관된 디바이스들에 대한 닉네임들 및 매핑들을 다운로드한다.
[0060] 일부 구현들에서, 사용자는 음성-활성화 디바이스들(104) 및/또는 제어가능한 디바이스들(106) 중 하나 이상을 사용자에 의해 생성된 디바이스들의 그룹으로 그룹화할 수 있다. 그룹에는 이름이 주어질 수 있고, 디바이스들의 그룹은 닉네임으로 개별적인 디바이스들을 지칭하는 것과 유사하게, 그룹 이름으로 지칭될 수 있다. 디바이스 닉네임들과 유사하게, 디바이스 그룹들 및 그룹 이름들은 음성-활성화 디바이스(104) 및/또는 음성 어시스턴스 서버 시스템(112)에 저장될 수 있다.
[0061] 사용자로부터의 음성 입력은 음성 입력의 요청에 대한 타겟 제어가능한 디바이스(106) 또는 디바이스들의 타겟 그룹을 명시적으로 특정할 수 있다. 예를 들어, 사용자는 "거실 스피커에서 클래식 음악을 재생해"라는 음성 입력을 말할 수 있다. 음성 입력의 타겟 디바이스는 "거실 스피커"이고; 음성 입력의 요청은 "거실 스피커"가 클래식 음악을 재생하게 하라는 요청이다. 다른 예로, 사용자는 "집 스피커들에서 클래식 음악을 재생해"라는 음성 입력을 말할 수 있고, 여기서 "집 스피커들"은 디바이스들의 그룹의 이름이다. 음성 입력의 타겟 디바이스 그룹은 "집 스피커들"이고; 음성 입력의 요청은 "집 스피커들" 그룹의 디바이스들이 클래식 음악을 재생하게 하라는 요청이다.
[0062] 사용자로부터의 음성 입력은 타겟 디바이스 또는 디바이스 그룹의 명시적 특정을 갖지 않을 수 있고; 이름에 의한 타겟 디바이스 또는 디바이스 그룹에 대한 참조가 음성 입력에는 없다. 예를 들어, 상기 "거실 스피커에 클래식 음악을 재생해"라는 예시적인 음성 입력 이후, 사용자는 "일시정지"라는 후속 음성 입력을 말할 수 있다. 음성 입력은 일시정지를 위한 요청에 대한 타겟 디바이스 특정을 포함하지 않는다. 일부 구현들에서, 음성 입력에서 타겟 디바이스 특정은 모호할 수 있다. 예를 들어, 사용자는 디바이스 이름을 불완전하게 말했을 수 있다. 일부 구현들에서, 타겟 디바이스 또는 디바이스 그룹은, 아래에 설명된 바와 같이, 명시적 타겟 디바이스 특정이 없거나 타겟 디바이스 특정이 모호한 음성 입력에 할당될 수 있다.
[0063] 일부 구현들에서, 음성-활성화 디바이스(104)가 타겟 디바이스 또는 디바이스 그룹의 명시적 특정을 갖는 음성 입력을 수신하는 경우, 음성-활성화 디바이스(104)는 특정된 타겟 디바이스 또는 디바이스 그룹에 대해 포커스 세션을 수립한다. 일부 구현들에서, 음성-활성화 디바이스(104)는 포커스 세션에 대해, 세션 시작 시간(예를 들어, 포커스 세션이 언제 시작되었는지에 기초한 음성 입력의 타임스탬프)을 그리고 포커스 세션에 대한 포커스-내 디바이스로서, 특정된 타겟 디바이스 또는 디바이스 그룹을 저장한다. 일부 구현들에서, 음성-활성화 디바이스(104)는 또한 포커스 세션의 후속 음성 입력들을 로그(log)한다. 음성-활성화 디바이스(104)는 포커스 세션의 적어도 가장 최근의 음성 입력을 로그하고, 선택적으로 또한 포커스 세션 내의 선행 음성 입력들을 로그 및 유지한다. 일부 구현들에서, 음성 어시스턴스 서버 시스템(112)은 포커스 세션을 수립한다. 일부 구현들에서, 포커스 세션은 상이한 타겟 디바이스 또는 디바이스 그룹을 명시적으로 특정하는 음성 입력에 의해 종료될 수 있다.
[0064] 디바이스에 대한 포커스 세션이 활성이고 음성-활성화 디바이스가 음성 입력을 수신하는 동안, 음성-활성화 디바이스(104)는 음성 입력에 대한 하나 이상의 결정들을 행한다. 일부 구현들에서, 결정들은, 음성 입력들이 명시적 타겟 디바이스 특정을 포함하는지 여부, 음성 입력 내의 요청이 포커스-내 디바이스에 의해 이행될 수 있는 것인지 여부, 포커스 세션 내의 마지막 음성 입력의 시간 및/또는 세션 시작 시간에 비교된 음성 입력의 시간을 포함한다. 음성 입력이 명시적 타겟 디바이스 특정을 포함하지 않고, 포커스-내 디바이스에 의해 이행될 수 있는 요청을 포함하고, 포커스 세션 내의 마지막 음성 입력의 시간 및/또는 세션 시작 시간에 대한 미리 정의된 시간 기준들을 충족하면, 포커스-내 디바이스는 음성 입력에 대한 타겟 디바이스로서 할당된다. 포커스 세션에 관한 추가적인 세부사항들이 아래에서 설명된다.
동작 환경 내의 디바이스들
[0065] 도 2는 일부 구현들에 따른 동작 환경(예를 들어, 동작 환경(100))에서 사용자 음성 커맨드들을 수집하기 위해 음성 인터페이스로서 적용되는 예시적인 음성-활성화 디바이스(104)를 예시하는 블록도이다. 음성-활성화 디바이스(104)는 통상적으로 하나 이상의 프로세싱 유닛들(CPU들)(202), 하나 이상의 네트워크 인터페이스들(204), 메모리(206), 및 이러한 컴포넌트들을 상호접속시키는 하나 이상의 통신 버스들(208)을 포함한다(때때로 칩셋으로 지칭됨). 음성-활성화 디바이스(104)는 버튼(212), 터치 감지 어레이(214) 및 하나 이상의 마이크로폰들(216)과 같이, 사용자 입력을 용이하게 하는 하나 이상의 입력 디바이스들(210)을 포함한다. 음성-활성화 디바이스(104)는 또한 하나 이상의 스피커들(220), 선택적으로 LED들(222)의 어레이 및 선택적으로 디스플레이(224)를 포함하는 하나 이상의 출력 디바이스들(218)을 포함한다. 일부 구현들에서, LED들(222)의 어레이는 풀 컬러 LED들의 어레이이다. 일부 구현들에서, 디바이스의 타입에 따라, 음성-활성화 디바이스(104)는 LED들(222)의 어레이 또는 디스플레이(224) 중 어느 하나 또는 둘 모두를 갖는다. 일부 구현들에서, 음성-활성화 디바이스(104)는 또한 위치 검출 디바이스(226)(예를 들어, GPS 모듈) 및 하나 이상의 센서들(228)(예를 들어, 가속도계, 자이로스코프, 광 센서 등)을 포함한다.
[0066] 메모리(206)는 고속 랜덤 액세스 메모리, 예를 들어, DRAM, SRAM, DDR RAM, 또는 다른 랜덤 액세스 솔리드 스테이트 메모리 디바이스들을 포함하고; 선택적으로, 비휘발성 메모리, 예를 들어, 하나 이상의 자기 디스크 저장 디바이스들, 하나 이상의 광 디스크 저장 디바이스들, 하나 이상의 플래시 메모리 디바이스들 또는 하나 이상의 다른 비휘발성 솔리드 스테이트 저장 디바이스들을 포함한다. 메모리(206)는 선택적으로, 하나 이상의 프로세싱 유닛들(202)로부터 원격 위치된 하나 이상의 저장 디바이스들을 포함한다. 메모리(206) 또는 선택적으로 메모리(206) 내의 비휘발성 메모리는 비일시적 컴퓨터 판독가능 저장 매체를 포함한다. 일부 구현들에서, 메모리(206) 또는 메모리(206)의 비휘발성 컴퓨터 판독가능 저장 매체는 하기 프로그램들, 모듈들 및 데이터 구조들 또는 이들의 서브세트 또는 수퍼세트를 저장한다:
· 다양한 기본 시스템 서비스들을 처리하고 하드웨어 의존적 작업들을 수행하기 위한 절차들을 포함하는 운영 시스템(232);
· 음성-활성화 디바이스(104)를, 하나 이상의 네트워크 인터페이스들(204)(유선 또는 무선) 및 하나 이상의 네트워크들(110), 예를 들어, 인터넷, 다른 광역 네트워크들, 로컬 영역 네트워크들(예를 들어, 로컬 네트워크(108)), 대도시 영역 네트워크들 등을 통해 다른 디바이스들(예를 들어, 음성 어시스턴스 서비스(140), 하나 이상의 제어가능한 디바이스들(106), 하나 이상의 클라이언트 디바이스들(103) 및 다른 음성-활성화 디바이스(들)(104))에 접속시키기 위한 네트워크 통신 모듈(234);
· 하나 이상의 입력 디바이스들을 통해 입력들을 수신하고, 하나 이상의 출력 디바이스들(218)을 통해 음성-활성화 디바이스(104)에서 정보의 프리젠테이션을 가능하게 하며, 다음을 포함하는 입력/출력 제어 모듈(236);
o 음성-활성화 디바이스(104)를 둘러싸는 환경에서 수집된 오디오 입력들 또는 음성 메시지들을 프로세싱하기 위한 또는 음성 어시스턴스 서버 시스템(112)에서 프로세싱하기 위한 오디오 입력들 또는 음성 메시지들을 준비하기 위한 음성 프로세싱 모듈(238);
o 음성-활성화 디바이스(104)의 디바이스 상태들에 따라 LED들(222) 상에 시각적 패턴들을 생성하기 위한 LED 제어 모듈(240); 및
o 음성-활성화 디바이스(104)의 최상부 표면 상에서(예를 들어, 터치 센서 어레이(214) 상에서) 터치 이벤트들을 감지하기 위한 터치 감지 모듈(242);
· 적어도 음성-활성화 디바이스(104)와 연관된 데이터를 저장하기 위한 것이며 다음을 포함하는 음성 활성화 디바이스 데이터(244);
o 공통 디바이스 세팅들(예를 들어, 서비스 티어(tier), 디바이스 모델, 저장 용량, 프로세싱 능력들, 통신 능력들 등), 사용자 도메인에서 하나 이상의 사용자 계정들의 정보, 디바이스 닉네임들 및 디바이스 그룹들, 미등록된 사용자를 처리할 때의 제한들에 관한 세팅들, 및 LED들(222)에 의해 디스플레이되는 하나 이상의 시각적 패턴들과 연관된 디스플레이 규격들을 포함하는 음성-활성화 디바이스(104) 자체와 연관된 정보를 저장하기 위한 음성 디바이스 세팅들(246); 및
o 오디오 신호들, 음성 메시지들, 응답 메시지들 및 음성-활성화 디바이스(104)의 음성 인터페이스 기능들에 관한 다른 데이터를 저장하기 위한 음성 제어 데이터(248);
· 음성 어시스턴스 서버 시스템(112)에 의해 생성된 음성 요청 응답들에 포함된 명령들을 수행하고, 일부 구현들에서는 특정 음성 입력들에 대한 응답들을 생성하기 위한 응답 모듈(250); 및
· 디바이스들에 대한 포커스 세션들을 수립, 관리 및 종료하기 위한 포커스 세션 모듈(252).
[0067] 일부 구현들에서, 음성 프로세싱 모듈(238)은 하기 모듈들(미도시)을 포함한다:
· 음성-활성화 디바이스(104)에 대한 음성 입력들을 제공하는 사용자들을 식별하고 명확히 하기 위한 사용자 식별 모듈;
· 음성 입력들이 음성-활성화 디바이스(104)를 웨이크 업하기 위한 핫워드를 포함하는지 여부를 결정하고 음성 입력들에서 이를 인식하기 위한 핫워드 인식 모듈; 및
· 음성 입력에 포함된 사용자 요청을 결정하기 위한 요청 인식 모듈.
[0068] 일부 구현들에서, 메모리(206)는 또한 미처리 포커스 세션에 대한 포커스 세션 데이터(254)를 저장하며, 다음을 포함한다:
· 미처리 포커스 세션 내의 포커스에서 디바이스 또는 디바이스 그룹의 식별자(예를 들어, 디바이스(들)의 디바이스 닉네임, 디바이스 그룹 이름, MAC 어드레스(들))를 저장하기 위한 세션 포커스-내 디바이스(들)(256);
· 미처리 포커스 세션의 시작에 대한 타임스탬프를 저장하기 위한 세션 시작 시간(258); 및
· 적어도 가장 최근의 요청/커맨드를 포함하는, 포커스 세션 내의 이전 요청들 또는 커맨드들의 로그를 저장하기 위한 세션 커맨드 이력(260). 로그는 적어도, 로그된 이전 요청(들)/커맨드(들)의 타임스탬프(들)를 포함한다.
[0069] 상기 식별된 엘리먼트들 각각은 이전에 언급된 메모리 디바이스들 중 하나 이상에 저장될 수 있고, 앞서 설명된 함수를 수행하기 위한 명령들의 세트에 대응한다. 상기 식별된 모듈들 또는 프로그램들(즉, 명령들의 세트)은 별개의 소프트웨어 프로그램들, 절차들, 모듈들 또는 데이터 구조들로서 구현될 필요가 없고, 따라서 이러한 모듈들의 다양한 서브세트들은 다양한 구현들에서 조합되거나 달리 재배열될 수 있다. 일부 구현들에서, 메모리(206)는 선택적으로 앞서 식별된 모듈들 및 데이터 구조들의 서브세트를 저장한다. 또한, 메모리(206)는 선택적으로 앞서 설명되지 않은 추가적인 모듈들 및 데이터 구조들을 저장한다. 일부 구현들에서, 메모리(206)에 저장된 프로그램들, 모듈들 및/또는 데이터의 서브세트는 음성 어시스턴스 서버 시스템(112) 상에 저장되고 그리고/또는 그에 의해 실행될 수 있다.
[0070] 일부 구현들에서, 앞서 설명된 메모리(206)의 모듈들 중 하나 이상은 모듈들의 음성 프로세싱 라이브러리의 일부이다. 음성 프로세싱 라이브러리는 매우 다양한 디바이스들 상에 구현 또는 임베딩될 수 있다.
[0071] 도 3a 및 도 3b는 일부 구현들에 따른 동작 환경(예를 들어, 동작 환경(100))의 음성 어시스턴트 서비스(140)의 예시적인 음성 어시스턴스 서버 시스템(112)을 예시하는 블록도들이다. 서버 시스템(112)은 통상적으로 하나 이상의 프로세싱 유닛들(CPU들)(302), 하나 이상의 네트워크 인터페이스들(304), 메모리(306), 및 이러한 컴포넌트들을 상호접속시키는 하나 이상의 통신 버스들(308)을 포함한다(때때로 칩셋으로 지칭됨). 서버 시스템(112)은 키보드, 마우스, 음성-커맨드 입력 유닛 또는 마이크로폰, 터치 스크린 디스플레이, 터치-감응 입력 패드, 제스처 캡처 카메라 또는 다른 입력 버튼들 또는 제어들과 같이, 사용자 입력을 용이하게 하는 하나 이상의 입력 디바이스들(310)을 포함할 수 있다. 또한, 서버 시스템(112)은 키보드를 보완하거나 대체하기 위해 마이크로폰 및 음성 인식 또는 카메라 및 제스처를 사용할 수 있다. 일부 구현들에서, 서버 시스템(112)은 예를 들어, 전자 디바이스들 상에 인쇄된 그래픽 직렬 코드들의 이미지들을 캡처하기 위한 하나 이상의 카메라들, 스캐너들 또는 사진 센서 유닛들을 포함한다. 서버 시스템(112)은 또한 하나 이상의 스피커들 및/또는 하나 이상의 시각적 디스플레이들을 포함하는 사용자 인터페이스들 및 디스플레이 콘텐츠의 프리젠테이션을 가능하게 하는 하나 이상의 출력 디바이스들(312)을 포함할 수 있다.
[0072] 메모리(306)는 고속 랜덤 액세스 메모리, 예를 들어, DRAM, SRAM, DDR RAM, 또는 다른 랜덤 액세스 솔리드 스테이트 메모리 디바이스들을 포함하고; 선택적으로, 비휘발성 메모리, 예를 들어, 하나 이상의 자기 디스크 저장 디바이스들, 하나 이상의 광 디스크 저장 디바이스들, 하나 이상의 플래시 메모리 디바이스들 또는 하나 이상의 다른 비휘발성 솔리드 스테이트 저장 디바이스들을 포함한다. 메모리(306)는 선택적으로, 하나 이상의 프로세싱 유닛들(302)로부터 원격 위치된 하나 이상의 저장 디바이스들을 포함한다. 메모리(306) 또는 선택적으로 메모리(306) 내의 비휘발성 메모리는 비일시적 컴퓨터 판독가능 저장 매체를 포함한다. 일부 구현들에서, 메모리(306) 또는 메모리(306)의 비휘발성 컴퓨터 판독가능 저장 매체는 하기 프로그램들, 모듈들 및 데이터 구조들 또는 이들의 서브세트 또는 수퍼세트를 저장한다:
· 다양한 기본 시스템 서비스들을 처리하고 하드웨어 의존적 작업들을 수행하기 위한 절차들을 포함하는 운영 시스템(316);
· 서버 시스템(112)을, 하나 이상의 네트워크 인터페이스들(304)(유선 또는 무선) 및 하나 이상의 네트워크들(110), 예를 들어, 인터넷, 다른 광역 네트워크들, 로컬 영역 네트워크들, 대도시 영역 네트워크들 등을 통해 다른 디바이스들(예를 들어, 클라이언트 디바이스들(103), 제어가능한 디바이스들(106), 음성-활성화 디바이스들(104))에 접속시키기 위한 네트워크 통신 모듈(318);
· 클라이언트 디바이스에서 정보(예를 들어, 애플리케이션(들)(322-328), 위젯들, 웹사이트들 및 이들의 웹 페이지들, 및/또는 게임들, 오디오 및/또는 비디오 콘텐츠, 텍스트 등을 제시하기 위한 그래픽 사용자 인터페이스)의 프리젠테이션을 가능하게 하기 위한 사용자 인터페이스 모듈(320);
· 서버 측에서의 실행을 위한 것(예를 들어, 게임들, 소셜 네트워크 애플리케이션들, 스마트 홈 애플리케이션들, 및/또는 클라이언트 디바이스(103), 제어가능한 디바이스(106), 음성-활성화 디바이스(104) 및 스마트 홈 디바이스들을 제어하고 이러한 디바이스들에 의해 캡처된 데이터를 검토하기 위한 다른 웹 또는 넌-웹 기반 애플리케이션들)이며 다음 중 하나 이상을 포함하는 커맨드 실행 모듈(321);
o 디바이스 프로비저닝, 디바이스 제어 및 캐스트 디바이스(들)와 연관된 사용자 계정 관리를 위한 서버-측 기능들을 제공하도록 실행되는 캐스트 디바이스 애플리케이션(322);
o 대응하는 미디어 소스들과 연관된 미디어 디스플레이 및 사용자 계정 관리를 위한 서버-측 기능들을 제공하도록 실행되는 하나 이상의 미디어 플레이어 애플리케이션들(324);
o 대응하는 스마트 홈 디바이스들의 디바이스 프로비저닝, 디바이스 제어, 데이터 프로세싱 및 데이터 검토를 위한 서버-측 기능들을 제공하도록 실행되는 하나 이상의 스마트 홈 디바이스 애플리케이션들(326); 및
o 음성-활성화 디바이스(104)로부터 수신된 음성 메시지의 음성 프로세싱을 배열하거나 또는 사용자 음성 커맨드 및 사용자 음성 커맨드에 대한 하나 이상의 파라미터들(예를 들어, 캐스트 디바이스 또는 다른 음성-활성화 디바이스(104)의 목적지)을 추출하기 위해 음성 메시지를 직접 프로세싱하도록 실행되는 음성 어시스턴스 애플리케이션(328); 및
· 적어도 미디어 디스플레이의 자동 제어와 연관된 데이터(예를 들어, 자동 미디어 출력 모드 및 후속 모드) 및 다른 데이터를 저장하고 다음 중 하나 이상을 포함하는 서버 시스템 데이터(330);
o 공통 디바이스 세팅들(예를 들어, 서비스 티어, 디바이스 모델, 저장 용량, 프로세싱 능력들, 통신 능력들 등) 및 자동 미디어 디스플레이 제어에 대한 정보를 포함하는 하나 이상의 클라이언트 디바이스와 연관된 정보를 저장하기 위한 클라이언트 디바이스 세팅들(332);
o 계정 액세스 정보, 디바이스 세팅들에 대한 정보(예를 들어, 서비스 티어, 디바이스 모델, 저장 용량, 프로세싱 능력들, 통신 능력들 등) 및 자동 미디어 디스플레이 제어에 대한 정보를 중 하나 이상을 포함하는 캐스트 디바이스 애플리케이션(322)의 사용자 계정들과 연관된 정보를 저장하기 위한 캐스트 디바이스 세팅들(334);
o 계정 액세스 정보, 미디어 콘텐츠 타입들의 사용자 선호도들, 검토 이력 데이터 및 자동 미디어 디스플레이 제어에 대한 정보 중 하나 이상을 포함하는, 하나 이상의 미디어 플레이어 애플리케이션들(324)의 사용자 계정들과 연관된 정보를 저장하기 위한 미디어 플레이어 애플리케이션 세팅들(336);
o 계정 액세스 정보, 하나 이상의 스마트 홈 디바이스들에 대한 정보(예를 들어, 서비스 티어, 디바이스 모델, 저장 용량, 프로세싱 능력들, 통신 능력들 등) 중 하나 이상을 포함하는, 스마트 홈 애플리케이션들(326)의 사용자 계정들과 연관된 정보를 저장하기 위한 스마트 홈 디바이스 세팅들(338);
o 계정 액세스 정보, 하나 이상의 음성-활성화 디바이스들(104)에 대한 정보(예를 들어, 서비스 티어, 디바이스 모델, 저장 용량, 프로세싱 능력들, 통신 능력들 등) 중 하나 이상을 포함하는, 음성 어시스턴스 애플리케이션(328)의 사용자 계정들과 연관된 정보를 저장하기 위한 음성 어시스턴스 데이터(340);
o 사용자들의 가입들(예를 들어, 음악 스트리밍 서비스 가입들, 비디오 스트리밍 서비스 가입들, 뉴스레터 가입들), 사용자 디바이스들(예를 들어, 각각의 사용자들, 디바이스 닉네임들, 디바이스 그룹들과 연관된 디바이스 레지스트리(118)에 등록된 디바이스들), 사용자 계정들(예를 들어, 사용자들의 이메일 계정들, 캘린더 계정들, 금융 계정들) 및 다른 사용자 데이터를 포함하는, 사용자 도메인에서 사용자들과 연관된 정보를 저장하기 위한 사용자 데이터(342);
o 예를 들어, 사용자들의 음성 모델들 또는 음성 지문들 및 사용자들의 편안한 볼륨 레벨 임계치들을 포함하는, 사용자 도메인에서 사용자들의 음성 프로파일들을 저장하기 위한 사용자 음성 프로파일들(344); 및
o 다수의 디바이스들에 대한 포커스 세션 데이터를 저장하기 위한 포커스 세션 데이터(346).
· 디바이스 레지스트리(118)를 관리하기 위한 디바이스 등록 모듈(348);
· 전자 디바이스(104)를 둘러싸는 환경에서 수집된 오디오 입력들 또는 음성 메시지들을 프로세싱하기 위한 음성 프로세싱 모듈(350); 및
· 디바이스들에 대한 포커스 세션들을 수립, 관리 및 종료하기 위한 포커스 세션 모듈(352).
[0073] 도 3b를 참조하면, 일부 구현들에서, 메모리(306)는 또한 하나 이상의 미처리 포커스 세션들(3462-1 내지 3462-M)에 대한 포커스 세션 데이터(346)를 저장하며, 다음을 포함한다:
· 포커스 세션이 수립되는 디바이스의 식별자를 저장하기 위한 세션 소스 디바이스(3464);
· 미처리 포커스 세션 내의 포커스에서 디바이스 또는 디바이스 그룹의 식별자(예를 들어, 디바이스(들)의 디바이스 닉네임, 디바이스 그룹 이름, MAC 어드레스(들))를 저장하기 위한 세션 포커스-내 디바이스(들)(3466);
· 미처리 포커스 세션의 시작에 대한 타임스탬프를 저장하기 위한 세션 시작 시간(3468); 및
· 적어도 가장 최근의 요청/커맨드를 포함하는, 포커스 세션 내의 이전 요청들 또는 커맨드들의 로그를 저장하기 위한 세션 커맨드 이력(3470).
[0074] 일부 구현들에서, 음성 어시스턴스 서버 시스템(112)은 주로 음성 입력들의 프로세싱을 담당하며, 따라서 도 2를 참조하여 앞서 설명된 메모리(206)의 프로그램들, 모듈들 및 데이터 구조들 중 하나 이상은 메모리(306) 내의 각각의 모듈들에 포함된다(예를 들어, 음성 프로세싱 모듈(238)에 포함된 프로그램들, 모듈들 및 데이터 구조들은 음성 프로세싱 모듈(350)에 포함된다). 음성-활성화 디바이스(104)는 캡처된 음성 입력들을 프로세싱을 위해 음성 어시스턴스 서버 시스템(112)에 송신하거나, 또는 음성 입력들을 먼저 프리-프로세싱하고, 프리-프로세싱된 음성 입력들을 프로세싱을 위해 음성 어시스턴스 서버 시스템(112)에 송신한다. 일부 구현들에서, 음성 어시스턴스 서버 시스템(112) 및 음성-활성화 디바이스(104)는 음성 입력들의 프로세싱에 관해 일부 공유되고 일부 분할된 책임들을 가지며, 도 2에 도시된 프로그램들, 모듈들 및 데이터 구조들은 둘 모두에 포함되거나, 또는 음성 어시스턴스 서버 시스템(112) 및 음성-활성화 디바이스(104) 사이에 분할될 수 있다. 도 2에 도시된 다른 프로그램들, 모듈들 및 데이터 구조들 또는 이들의 유사한 것들은 또한 음성 어시스턴스 서버 시스템(112)에 포함될 수 있다.
[0075] 상기 식별된 엘리먼트들 각각은 이전에 언급된 메모리 디바이스들 중 하나 이상에 저장될 수 있고, 앞서 설명된 함수를 수행하기 위한 명령들의 세트에 대응한다. 상기 식별된 모듈들 또는 프로그램들(즉, 명령들의 세트)은 별개의 소프트웨어 프로그램들, 절차들, 모듈들 또는 데이터 구조들로서 구현될 필요가 없고, 따라서 이러한 모듈들의 다양한 서브세트들은 다양한 구현들에서 조합되거나 달리 재배열될 수 있다. 일부 구현들에서, 메모리(306)는 선택적으로 앞서 식별된 모듈들 및 데이터 구조들의 서브세트를 저장한다. 또한, 메모리(306)는 선택적으로 앞서 설명되지 않은 추가적인 모듈들 및 데이터 구조들을 저장한다.
예시적인 포커스 세션
[0076] 도 4a 내지 도 4d는 일부 구현들에 따른 포커스 세션의 예를 예시한다. 음성-활성화 디바이스(104)(예를 들어, 동작 환경(100)) 및 다수의 제어가능한 디바이스들(106)을 갖는 동작 환경에서, 환경 내의 사용자가 제어가능한 디바이스들(106) 중 하나를 타겟 디바이스로서 특정하는 음성 입력을 행하는 경우, 포커스-내 디바이스로서의 타겟 디바이스와 포커스 세션이 수립될 수 있다.
[0077] 도 4a는 동작 환경(예를 들어, 동작 환경(100))에서 음성-활성화 디바이스(404)(예를 들어, 음성-활성화 디바이스(104)) 및 3개의 제어가능한 디바이스들(406, 408 및 410)(예를 들어, 제어가능한 디바이스들(106))을 도시한다. 디바이스들은 사용자(402)와 동일한 공간에(예를 들어, 동일한 방에) 일 수 있거나 또는 사용자가 위치된 구조 전반에 걸쳐 확산될 수 있다. 디바이스(406)는 "마스터 침실 스피커"라는 닉네임의 스피커 시스템이다. 디바이스(408)는 "거실 TV"라는 닉네임의 미디어 디바이스이다. 디바이스(410)는 "게임 방 TV"라는 닉네임의 미디어 디바이스이다. 그 순간에 어떠한 포커스 세션도 없고; 포커스 세션(418)은 비어 있다.
[0078] 사용자(402)는 "게임 방 TV에서 고양이 비디오를 재생해"라는 음성 입력(403)을 말하고, 음성-활성화 디바이스(404)는 음성 입력을 수신한다. 음성-활성화 디바이스(404)는, 음성 입력(403) 내의 요청이 고양이 비디오들을 재생하라는 요청이고, 타겟 디바이스는 음성 입력(403)에서 명시적으로 특정된 "게임 방 TV" 디바이스(410)라고 결정한다. "게임 방 TV" 디바이스(410)인 포커스-내 디바이스와의 세션(418)은 도 4b에 도시된 바와 같이 음성-활성화 디바이스(404)에서 수립된다. 고양이 비디오들을 재생하라는 커맨드는 (디바이스(404) 또는 음성 어시스턴스 서버 시스템(112)에 의해) "게임 방 TV" 디바이스(410)에 전송되고, 디바이스(410)는 동작(416)을 수행한다.
[0079] 도 4c를 참조하면, 후속적으로, 포커스 내의 "게임 방 TV"(410)와의 세션(418)이 활성이고 동작(416)이 디바이스(410)에 의해 수행되고 있는 동안, 사용자(402)는 다른 음성 입력 "일시정지"(420)를 말한다. 음성-활성화 디바이스(404)는 음성 입력(420)이 타겟 디바이스의 특정을 포함하는지 여부, 및 음성 입력(420) 내의 요청이 포커스-내 디바이스(410)에 의해 수행될 수 있는지 여부를 결정한다. 특정 음성 입력(420) "일시정지"의 경우, 음성-활성화 디바이스(404)는, 음성 입력(420)이 타겟 디바이스의 특정을 포함하지 않고, 음성 입력 내의 요청(재생되고 있는 것의 "일시정지")이 포커스-내 디바이스에 의해 수행될 수 있다고 결정한다. 일부 구현들에서, 음성 입력(420)이 타겟 디바이스의 특정을 포함하는지 여부를 결정하는 것은 음성 입력 내의 디바이스 닉네임들에 대한 매칭을 찾는 것(예를 들어, 음성 입력에 대한 스피치-대-텍스트 인식을 수행하고 디바이스 닉네임들을 찾기 위해 텍스트를 파싱하는 것)을 포함한다. 일부 구현들에서, 음성 입력 내의 요청이 포커스-내 디바이스에 의해 수행될 수 있는지 여부를 결정하는 것은, 음성 입력 내의 요청이 무엇인지 결정하는 것 및 세션 내의 마지막 커맨드와의 일관성에 대해 요청을 현재 포커스 세션(418)의 커맨드 이력(예를 들어, 이력(260))과 비교하는 것(예를 들어, "음악 일시정지" 요청은 "음악 일시정지"인 가장 최근의 커맨드와 불일치함) 뿐만 아니라 포커스-내 디바이스의 능력들과의 일관성을 위해 요청을 비교하는 것(예를 들어, "음악 일시정지" 요청은 스마트 조명의 능력들과 불일치함)을 포함한다.
[0080] 일부 구현들에서, 음성-활성화 디바이스(404)는 또한 음성 입력(420)이 하나 이상의 포커스 세션 유지 기준들을 충족하는지 여부를 결정한다. 일부 구현들에서, 포커스 세션 유지 기준은, 음성 입력(420)의 타임스탬프가 활성 세션 내의 마지막 음성 입력(403)의 타임스탬프로부터 특정 시간 내에 있는 것(예를 들어, 제2 음성 입력이 선행 제1 음성 입력의 특정 시간 내에 수신되는 것)이다. 일부 구현들에서, 이러한 기준에 대한 다수의 시간 임계치들이 존재한다. 예를 들어, 제1의 더 짧은 시간 임계치(예를 들어, 20 분) 및 제2의 더 긴 시간 임계치(예를 들어, 4 시간)가 존재할 수 있다. 음성 입력(420)이 마지막 음성 입력(403)의 제1의 더 짧은 임계치 내에 수신되고, 상기 다른 기준들이 충족되면, 포커스-내 디바이스는 음성 입력(420)에 대한 타겟 디바이스로서 설정된다(그리고, 일부 구현에서, 음성 입력(420)을 프로세싱을 위해 음성 어시스턴스 서버 시스템(112)에 송신할 때 이러한 타겟 디바이스 세팅을 또한 송신한다). 예를 들어, 음성 입력(420)은 타겟 디바이스 특정을 포함하지 않고, 요청 "일시정지"는 마지막 커맨드 "고양이 비디오를 재생해"와 일치하는 것으로 결정된다. 음성 입력(420)이 음성 입력(403)의 더 짧은 시간 임계치 내에 수신되면, 도 4d에 도시된 바와 같이, 포커스-내 디바이스 "게임 방 TV" 디바이스(410)가 음성 입력(420)에 대한 타겟 디바이스로서 설정되고, "게임 방 TV" 디바이스(410)에서 수행되고 있는 동작(416)은 음성 입력(420)에 따라 고양이 비디오들을 일시정지하는 것이다.
[0081] 음성 입력(420)이 제1의 더 짧은 임계치 이후 및 마지막 음성 입력(403)의 제2의 더 긴 임계치 내에 수신되고, 상기 다른 기준들이 충족되면, 음성-활성화 디바이스(404)는 포커스-내 디바이스가 음성 입력(420)에 대한 원하는 타겟 디바이스라는 사용자로부터의 확인을 요청하기 위한 음성 프롬프트를 출력한다. 음성-활성화 디바이스(404)는 포커스-내 디바이스가 원하는 타겟 디바이스라는 확인을 수신하면, 세션(418)을 유지하고, 포커스-내 디바이스를 음성 입력(420)에 대한 타겟 디바이스로서 설정한다(그리고, 일부 구현에서, 음성 입력(420)을 프로세싱을 위해 음성 어시스턴스 서버 시스템(112)에 송신할 때 이러한 타겟 디바이스 세팅을 또한 송신한다). 사용자가 타겟 디바이스를 확인하지 않으면, 음성-활성화 디바이스(404)는, 사용자가 타겟 디바이스 특정을 제공하도록 요청하고, 사용자가 음성 입력을 다시 말하면서 타겟 디바이스 특정을 포함하도록 요청하고, 그리고/또는 세션(418)을 종료할 수 있다. 일부 구현들에서, 음성 입력(420)이 마지막 음성 입력(403)으로부터 제2의 더 긴 임계치 이후 수신되거나, 앞서 설명된 다른 기준들이 충족되지 않으면, 세션(418)은 종료된다. 일부 구현들에서, 이러한 시간 임계치들의 값들은 메모리(206) 및/또는 메모리(306)에 저장된다. 음성 입력들 사이에서 경과된 시간은 이러한 임계치들과 비교된다.
[0082] 일부 구현들에서, 음성 입력 내에서 명시적으로 특정된 타겟 디바이스 및 음성 입력 내의 요청과 마지막 음성 입력과의 및 포커스-내 디바이스의 능력들과의 일관성의 결핍이 또한 포커스 세션 유지 기준들로 고려된다.
예시적인 프로세스
[0083] 도 5는 일부 구현들에 따른 사용자의 음성 입력에 대응하는 방법(500)을 예시하는 흐름도이다. 일부 구현들에서, 방법(500)은 하나 이상의 마이크로폰들, 스피커, 하나 이상의 프로세서들 및 하나 이상의 프로세서들에 의한 실행을 위해 하나 이상의 프로그램들을 저장하는 메모리를 갖는 제1 전자 디바이스(예를 들어, 음성-활성화 디바이스(104))에서 구현된다. 이러한 제1 전자 디바이스는 공통 네트워크 서비스(예를 들어, 음성 어시스턴스 서비스(140))에 (예를 들어, 네트워크들(110)을 통해) 통신가능하게 커플링되는 접속된 전자 디바이스들(예를 들어, 사용자 계정과 연관된 음성-활성화 디바이스들(104) 및 제어가능한 디바이스들(106); 특정 음성-활성화 디바이스(104)와 연관된 제어가능한 디바이스들(106))의 로컬 그룹의 멤버이다.
[0084] 제1 전자 디바이스는 제1 동작에 대한 요청을 포함하는 제1 음성 커맨드를 수신한다(502). 예를 들어, 음성-활성화 디바이스(404)는 제1 음성 입력(403)을 수신한다.
[0085] 제1 전자 디바이스는 접속된 전자 디바이스들의 로컬 그룹 중 제1 동작에 대한 제1 타겟 디바이스를 결정한다(504). 음성-활성화 디바이스(404)는 (예를 들어, 음성 프로세싱 모듈(238)에 의한 프로세싱에 기초하여) 디바이스들(406, 408 및 410) 중 음성 입력(403)에 대한 타겟 디바이스(또는 디바이스 그룹)를 결정한다. 음성-활성화 디바이스(404)는 음성 입력(403) 내의 타겟 디바이스 특정 "게임 방 TV"를 "게임 방 TV" 디바이스(410)로서 인식한다.
[0086] 제1 전자 디바이스는 제1 타겟 디바이스(또는 디바이스 그룹)에 대한 포커스 세션을 수립한다(506). 음성-활성화 디바이스(404)(예를 들어, 포커스 세션 모듈(252))는 포커스-내 디바이스로서 "게임 방 TV" 디바이스(410)와 포커스 세션(418)을 수립한다.
[0087] 제1 전자 디바이스는 공통 네트워크 서비스의 동작을 통해 제1 동작이 제1 타겟 디바이스(또는 디바이스 그룹)에 의해 수행되게 한다(508). 음성-활성화 디바이스(404) 또는 음성 어시스턴스 서버 시스템(112)는 음성 어시스턴스 서비스(140)를 통해, 음성 입력(403)에서 요청된 동작을 수행하라는 커맨드를 디바이스(410)에 송신한다.
[0088] 제1 전자 디바이스는 제2 동작에 대한 요청을 포함하는 제2 음성 커맨드를 수신한다(510). 음성-활성화 디바이스(404)는 제2 음성 입력(420)을 수신한다.
[0089] 제1 전자 디바이스는 제2 음성 커맨드가 제2 타겟 디바이스(또는 디바이스 그룹)의 명시적 지정을 포함하지 않는다고 결정한다(512). 음성-활성화 디바이스(404)는 (예를 들어, 음성 프로세싱 모듈(238)에 의한 프로세싱에 기초하여) 음성 입력(420)에 대한 타겟 디바이스를 결정하고, 음성 입력(420)이 타겟 디바이스 특정을 포함하지 않는다고 인식한다.
[0090] 제1 전자 디바이스는 제2 동작이 제1 타겟 디바이스(또는 디바이스 그룹)에 의해 수행될 수 있다고 결정한다(514). 음성-활성화 디바이스(404)는, 음성 입력(420)에서 요청된 동작이 포커스-내 디바이스(410)에 의해 수행될 수 있고, 음성 입력(403)에서 요청되고 포커스-내 디바이스(410)에 의해 수행되고 있는 마지막 동작과 일치한다고 결정한다.
[0091] 제1 전자 디바이스는 제2 음성 커맨드가 하나 이상의 포커스 세션 유지 기준들을 충족하는지 여부를 결정한다(516). 음성-활성화 디바이스(404)는 음성 입력(420)이 음성 입력(403)의 특정 시간 내에서 수신되는지 여부를 결정한다.
[0092] 제2 음성 커맨드가 포커스 세션 유지 기준들을 충족한다는 결정에 따라, 제1 전자 디바이스는 공통 네트워크 서비스의 동작을 통해 제2 동작이 제1 타겟 디바이스(또는 디바이스 그룹)에 의해 수행되게 한다(518). 음성-활성화 디바이스(404)는, 음성 입력(420)이 음성 입력(403)의 제1의 더 짧은 시간 임계치 내에 수신된다고 결정하고, 그 결정에 따라 음성 입력(420)에 대한 타겟 디바이스를 포커스-내 디바이스(410)인 것으로 설정한다. 음성-활성화 디바이스(404) 또는 음성 어시스턴스 서버 시스템(112)는 음성 어시스턴스 서비스(140)를 통해, 음성 입력(420)에서 요청된 동작을 수행하라는 커맨드를 디바이스(410)에 송신한다.
[0093] 일부 구현들에서, 접속된 전자 디바이스들의 로컬 그룹 중 제1 동작에 대한 제1 타겟 디바이스를 결정하는 것은 제1 음성 커맨드로부터 제1 타겟 디바이스의 명시적 지정을 획득하는 것을 포함한다. 음성-활성화 디바이스(404)는, 음성 입력(403)이 타겟 디바이스의 명시적 특정을 포함하는지 여부를 결정하기 위해 음성 입력(403)을 프리-프로세싱한다. 음성-활성화 디바이스(404)는 대안적으로, 음성 입력(403)을 프로세싱한 음성 어시스턴스 서버 시스템(112)으로부터 타겟 디바이스의 명시적 특정을 수신할 수 있다.
[0094] 일부 구현들에서, 접속된 전자 디바이스들의 로컬 그룹 중 제1 동작에 대한 제1 타겟 디바이스를 결정하는 것은, 제1 음성 커맨드가 제1 타겟 디바이스의 명시적 지정을 포함하지 않는다고 결정하는 것, 제1 동작이 접속된 전자 디바이스들의 로컬 그룹 중 제2 전자 디바이스에 의해 수행될 수 있다고 결정하는 것, 및 제2 전자 디바이스를 제1 타겟 디바이스로 선택하는 것을 포함한다. 제1 음성 입력이 타겟의 명시적 특정을 포함하지 않지만, 제1 음성 입력 내에 포함된 요청이 그룹 내의 단일 디바이스에 의해 수행될 수 있는 것(예를 들어, 비디오-관련 커맨드 및 그룹 내에 단지 하나의 비디오-가능 디바이스만이 존재하는 것)이면, 그 단일 디바이스가 제1 음성 입력에 대한 타겟 디바이스로서 설정된다. 추가로, 일부 구현들에서, 음성-활성화 디바이스 이외에, 단지 하나의 제어가능한 디바이스가 존재하면, 그 제어가능한 디바이스는, 타겟 디바이스를 명시적으로 특정하지 않고 그 제어가능한 디바이스에 의해 수행될 수 있는 요청된 동작들을 갖는 음성 입력들에 대한 디폴트 타겟 디바이스이다.
[0095] 일부 구현들에서, 사용자의 음성 입력 이력(예를 들어, 음성 어시스턴스 서버 시스템(112)에 의해 수집되고 메모리(306)에 저장되고, 음성-활성화 디바이스(104)에 의해 수집되고 메모리(206)에 저장됨)은, 특정 음성-활성화 디바이스(104)가 특정 제어가능한 디바이스(106)를 제어하기 위해 빈번하게 사용되는 것으로 이력이 나타내는지 여부를 결정하기 위해 (예를 들어, 음성 어시스턴스 서버 시스템(112) 또는 음성-활성화 디바이스(104)에 의해) 분석될 수 있다. 이력이 이러한 관계를 나타내면, 특정 제어가능한 디바이스가 음성 활성화 디바이스에 대한 음성 입력들에 대한 디폴트 타겟 디바이스로서 설정될 수 있다.
[0096] 일부 구현들에서, 디폴트 타겟 디바이스의 특정(예를 들어, 식별자)은 음성-활성화 디바이스(104) 및/또는 음성 어시스턴스 서버 시스템(112)에 저장된다.
[0097] 일부 구현들에서, 제2 음성 커맨드가 포커스 세션 유지 기준들을 충족한다는 결정에 따라, 제1 타겟 디바이스에 대한 포커스 세션을 연장한다. 일부 구현들에서, 포커스 세션은 특정양의 시간 이후 타임 아웃(즉, 종료)된다. 포커스 세션(418)은, 제2 음성 입력(420)이 포커스 세션 유지 기준들을 충족하면, 시간에서 연장될 수 있다(예를 들어, 타임아웃 타이머를 리셋할 수 있다).
[0098] 일부 구현들에서, 제1 타겟 디바이스에 대한 포커스 세션을 수립하는 것은 제1 음성 커맨드의 타임스탬프를 저장하는 것 및 제1 타겟 디바이스의 식별자를 저장하는 것을 포함한다. 음성 입력(403)을 수신한 후 포커스 세션이 수립되는 경우, 음성-활성화 디바이스(404)는 (예를 들어, 세션 커맨드 이력(260)에) 음성 입력(403)의 시간 및 (예를 들어, 세션 포커스-내 디바이스(256)에) 포커스-내 디바이스(410)의 식별자를 저장한다.
[0099] 일부 구현들에서, 포커스 세션 유지 기준들은, 제1 음성 커맨드를 수신하는 것에 대해 미리 정의된 제1 시간 인터벌 내에 제2 음성 커맨드가 제1 전자 디바이스에 의해 수신되거나, 또는 제1 음성 커맨드를 수신하는 것에 대한 미리 정의된 제2 시간 인터벌에 제2 음성 커맨드가 제1 전자 디바이스에 의해 수신된다는 기준을 포함하고 ― 미리 정의된 제2 시간 인터벌은 미리 정의된 제1 시간 인터벌에 후속함 ―; 제2 음성 커맨드가 하나 이상의 포커스 세션 유지 기준들을 충족하는지 여부를 결정하는 것은 제2 음성 커맨드가 미리 정의된 제1 시간 인터벌 또는 미리 정의된 제2 시간 인터벌 중 어느 하나 내에 수신되는지 여부를 결정하는 것을 포함한다. 음성-활성화 디바이스(404)는, 음성 입력(420)이 음성 입력(403)의 제1 시간 임계치 또는 제2 시간 임계치 내에 수신되는지 여부를 포함하여, 음성 입력(420)이 하나 이상의 포커스 세션 유지 기준들을 충족하는 여부를 결정한다.
[00100] 일부 구현들에서, 제2 음성 커맨드가 미리 정의된 제1 시간 인터벌 내에 수신된다는 결정에 따라, 제1 전자 디바이스는 제1 타겟 디바이스를 제2 음성 커맨드에 대한 타겟 디바이스로서 선택한다. 음성 입력(420)이 음성 입력(403)으로부터 제1의 더 짧은 시간 임계치 내에 수신되는 것으로 결정되면, 포커스-내 디바이스(410)는 음성 입력(420)에 대한 타겟 디바이스로 설정된다.
[00101] 일부 구현들에서, 제2 음성 커맨드가 미리 정의된 제2 시간 인터벌 내에 수신된다는 결정에 따라, 제1 전자 디바이스는 제1 타겟 디바이스를 제2 음성 커맨드에 대한 타겟 디바이스로서 확인하기 위한 요청을 출력하고; 확인하기 위한 요청에 대한 응답으로 제1 타겟 디바이스를 긍정적으로 확인함에 따라, 제1 타겟 디바이스를 제2 음성 커맨드에 대한 타겟 디바이스로 선택한다. 음성 입력(420)이 제1의 더 짧은 시간 임계치 외부에서, 그러나 제2의 더 긴 시간 임계치 내에서 음성 입력(403)으로부터 수신되는 것으로 결정되면, 음성-활성화 디바이스는 타겟 디바이스의 확인을 위해 사용자에게 프롬프트한다(예를 들어, 포커스-내 디바이스(410)가 의도된 타겟 디바이스인지 여부를 사용자에게 문의한다). 포커스-내 디바이스(410)가 의도된 타겟 디바이스임을 사용자가 확인하면, 포커스-내 디바이스(410)는 음성 입력(420)에 대한 타겟 디바이스로서 설정된다.
[00102] 일부 구현들에서, 제1 전자 디바이스는 제3 동작에 대한 요청 및 접속된 전자 디바이스들의 로컬 그룹 중 제3 타겟 디바이스의 명시적 지정을 포함하는 제3 음성 커맨드를 수신하고, 제1 타겟 디바이스에 대한 포커스 세션을 종료하고, 제3 타겟 디바이스에 대한 포커스 세션을 수립하고, 공통 네트워크 서비스의 동작을 통해 제3 동작이 제3 타겟 디바이스에 의해 수행되게 한다. 음성-활성화 디바이스(404)는 음성 입력(420) 이후, 디바이스(410) 이외의 타겟 디바이스(예를 들어, 디바이스(406 또는 408))의 명시적 특정을 포함하는 새로운 음성 입력을 수신할 수 있다. 그 음성 입력의 수신에 따라, 포커스 내의 디바이스(410)와의 포커스 세션(418)은 종료되고, 포커스 내의 새로운 타겟 디바이스와의 새로운 세션이 수립된다. 음성-활성화 디바이스(404) 또는 음성 어시스턴스 서버 시스템(112)는 음성 어시스턴스 서비스(140)를 통해, 새로운 음성 입력에서 요청된 동작을 수행하라는 커맨드를 새로운 타겟 디바이스에 송신한다.
[00103] 일부 구현들에서, 제1 타겟 디바이스는 제1 전자 디바이스이다. 제1 전자 디바이스는 제4 동작에 대한 요청 및 접속된 전자 디바이스들의 로컬 그룹 중 제4 타겟 디바이스의 명시적 지정을 포함하는 제4 음성 커맨드를 수신하고, ― 제4 타겟 디바이스는 접속된 전자 디바이스들의 로컬 그룹의 제3 전자 디바이스 멤버이고, 제3 전자 디바이스는 제1 전자 디바이스와 상이함 ―; 제1 타겟 디바이스에 대한 포커스 세션을 유지하고; 공통 네트워크 서비스의 동작을 통해 제4 동작이 제4 타겟 디바이스에 의해 수행되게 한다. 음성-활성화 디바이스(404)에서 활성 포커스 세션(418)에 대한 포커스-내 디바이스가 음성-활성 디바이스(404) 자체이면, 상이한 디바이스를 타겟으로 특정하는 새로운 음성 입력이 음성 입력(420) 이후 수신되고, 그 다음, 음성-활성화 디바이스(404) 또는 음성 어시스턴스 서버 시스템(112)이 음성 어시스턴스 서비스(140)를 통해, 새로운 음성 입력에서 요청된 동작을 수행하라는 커맨드를 상이한 타겟 디바이스에 송신하지만, 포커스 세션은 포커스 내의 음성-활성화 디바이스(404)와 유지된다.
[00104] 일부 구현들에서, 제2 음성 커맨드는, 제4 동작이 제4 타겟 디바이스에 의해 수행되게 된 후 수신되고, 제1 동작은 미디어 재생 동작이고, 제2 동작은 미디어 정지 동작이다. 제1 전자 디바이스는 제5 동작에 대한 요청 및 접속된 전자 디바이스들의 로컬 그룹 중 제5 타겟 디바이스의 명시적 지정을 포함하는 제5 음성 커맨드를 수신하고 ― 제5 타겟 디바이스는 제3 전자 디바이스임 ―, 제1 타겟 디바이스에 대한 포커스 세션을 종료하고, 제5 타겟 디바이스에 대한 포커스 세션을 수립하고, 공통 네트워크 서비스의 동작을 통해 제5 동작이 제5 타겟 디바이스에 의해 수행되게 한다. 음성-활성화 디바이스(404)에서 활성 포커스 세션(418)에 대한 포커스-내 디바이스가 음성-활성 디바이스(404) 자체이고, 미디어 재생을 개시하라는 요청을 포함한 음성 입력(403) 및 음성 입력(403)의 결과로서 미디어 재생을 일시정지하라는 요청을 포함한 음성 입력(403) 및 상이한 디바이스를 타겟으로 특정하는 새로운 음성 입력이 음성 입력(420) 이후 수신되면, 음성-활성화 디바이스(404) 또는 음성 어시스턴스 서버 시스템(112)은 음성 어시스턴스 서비스(140)를 통해, 새로운 음성 입력에서 요청된 동작을 수행하라는 커맨드를 상이한 타겟 디바이스에 송신하고, 포커스 내의 음성-활성화 디바이스와의 포커스 세션은 종료되고, 포커스 내의 새로운 타겟 디바이스와의 새로운 포커스 세션이 수립된다.
[00105] 일부 구현들에서, 제1 전자 디바이스는 미리 정의된 동작 종료 요청을 포함하는 제5 음성 커맨드를 수신하고, 제5 음성 커맨드를 수신하는 것에 따라, 제1 동작이 제1 타겟 디바이스에 의해 수행되는 것을 종료시키고, 제1 타겟 디바이스에 대한 포커스 세션을 종료한다. 음성-활성화 디바이스(404)가 미리 정의된 종료 커맨드(예를 들어, "중단")을 수신하면, 음성-활성화 디바이스(404) 또는 음성 어시스턴스 서버 시스템(112)은 음성 어시스턴스 서비스(140)를 통해, 동작(416)을 수행하는 것을 종료하라는 커맨드를 디바이스(410)에 송신하고, 포커스 세션(418)은 종료된다.
[00106] 일부 구현들에서, 제1 동작은 미디어 재생 동작이고, 제2 동작은, 미디어 중지 동작, 미디어 되감기 동작, 미디어 빨리감기 동작, 볼륨 업 동작 및 볼륨 다운 동작 중 하나이다. 음성 입력(403) 내의 요청은 미디어 콘텐츠(예를 들어, 비디오, 음악)의 재생을 개시하라는 요청일 수 있고, 음성 입력(420) 내의 요청은 재생을 제어하라는 요청(예를 들어, 일시정지, 되감기, 빨리감기, 볼륨 업/다운 변경, 다음 항목/트랙, 이전 항목/트랙 등)일 수 있다.
[00107] 일부 구현들에서, 제1 동작은 복수의 디바이스 상태들 중 제1 상태로의 디바이스 상태 변경 동작이고, 제2 동작은 복수의 디바이스 상태들 중 제2 상태로의 디바이스 상태 변경 동작이다. 음성 입력(403) 내의 요청은 제1 상태로 전환하라는 요청(예를 들어, 조명 또는 디바이스를 턴 온, 수면 모드로 이동)일 수 있고, 음성 입력(420) 내의 요청은 제2 상태로 전환하라는 요청(예를 들어, 조명 또는 디바이스를 턴 오프, 수면 모드로부터 웨이크)일 수 있다.
[00108] 일부 구현들에서, 제1 동작은 크기 스케일에서 제1 방향으로의 크기 변경 동작이고, 제2 동작은 크기 스케일에서 제1 방향의 반대인 제2 방향으로의 크기 변경 동작이다. 음성 입력(403) 내의 요청은 일 방향으로 크기를 변경하라는 요청(예를 들어, 조명을 밝게 하는 것, 볼륨 업 변경)일 수 있고, 음성 입력(420) 내의 요청은 반대 방향으로 크기를 변경하라는 요청(예를 들어, 조명을 어둡게 하는 것, 볼륨 다운 변경)일 수 있다.
[00109] 일부 구현들에서, 제1 전자 디바이스는 하나 이상의 LED들의 어레이를 포함한다. 제1 전자 디바이스는 LED들의 어레이의 LED들 중 하나 이상을 조명함으로써 포커스 세션의 상태를 표시한다. 음성-활성화 디바이스(404)는, LED 어레이 상에 패턴들을 디스플레이함으로써, 활성 포커스 세션, 또는 포커스 세션과 연관된 다른 상태들 및 다른 정보(예를 들어, 포커스 세션이 얼마나 오래 활성이었는지 또는 마지막 음성 입력 이후 얼마나 많은 시간이 경과되었는지의 표시)가 존재함을 표시할 수 있다.
[00110] 일부 구현들에서, 포커스 세션들은 식별된 사용자마다 수립될 수 있다. 예를 들어, 사용자가 타겟 디바이스를 특정하는 음성 입력을 말하면, 사용자가 식별되고 식별된 사용자에 대해 포커스 세션이 수립되고, 음성 입력에서 특정된 타겟 디바이스는 포커스 내에 있다. 상이한 사용자가 음성 입력을 말하고 상이한 타겟 디바이스를 특정하면, 상이한 사용자가 식별되고, 식별된 상이한 사용자에 대해 다른 포커스 세션이 수립되고, 상이한 타겟 디바이스는 포커스 내에 있다. 상이한 사용자들에 의해 발화되며 타겟 디바이스를 특정하지 않은 음성 입력들에는 각각의 식별된 사용자에 대응하는 활성 포커스 세션에 기초하여 상이한 타겟 디바이스들이 할당된다.
포커스 세션들의 추가적인 예들
[00111] 하기 구현들은 미디어 디바이스들인 하나 이상의 제어가능한 디바이스들(106)과 동일한 방 내의 음성-활성화 디바이스(104)의 상황에서 구현들을 설명한다. 아래에서 설명되는 구현들은 다른 타입들의 제어가능한 디바이스들(106)(예를 들어, 스마트 홈 디바이스들) 및 다른 디바이스 배치 셋업들에 적응될 수 있음을 인식해야 한다.
[00112] 일부 구현들에서, 음성-활성화 디바이스 상에서 미리 재생되는 어떠한 미디어도 없으면, 음성-활성화 디바이스 이외의 제어가능한 디바이스인 포커스-내 디바이스와의 포커스 세션이 시작될 수 있다. 일부 구현들에서, 음성-활성화 디바이스 상에서 재생되는 미디어가 일시정지되면, 포커스-내 디바이스로서 음성-활성화 디바이스 이외의 제어가능한 디바이스와의 포커스 세션이 시작될 수 있다.
[00113] 일부 구현들에서, 사용자가 음성-활성화 디바이스와 연관된 (및 선택적으로 음성-활성화 디바이스와 동일한 WiFi 네트워크 상에서) 디바이스 또는 디바이스 그룹으로 지향되는 명시적 타겟 디바이스를 갖는 임의의 유효 요청을 발행하면 포커스 세션이 시작된다. 이러한 유효 요청들의 예들은 "내 거실 스피커에서 어떤 음악을 재생해", "침실 tv에서 볼륨을 높여", "내 홈 그룹에서 다음 노래", 및 "거실 스피커를 일시정지해"를 포함한다. 명시적 타겟 디바이스는 포커스 세션에 대한 포커스-내 디바이스가 된다.
[00114] 일부 구현들에서, 요청이 명백하게 비디오와 연관된 요청이고, 연관된 제어가능한 디바이스들 중 단일 비디오-가능 디바이스가 존재하면, 포커스 세션은 포커스-내 디바이스로서 비디오-가능 디바이스와 수립될 수 있다.
[00115] 일부 구현들에서, 음성-활성화 디바이스가 활성으로 미디어를 재생하고 있는 동안 타겟 디바이스로서 다른 디바이스를 갖는 요청이 수신되면, 포커스는 음성-활성화 디바이스에 대해 유지될 것이지만, 일단 음성-활성화 디바이스가 자신의 세션을 중지 또는 일시정지하면, 다른 디바이스 상에서 미디어를 재생 또는 제어하라는 임의의 새로운 요청이 포커스를 그 다른 디바이스로 이동시킨다.
[00116] 예를 들어, 사용자가 "레이디 가가를 재생해"를 요청하고, 음성-활성화 디바이스가 레이디 가가 음악을 재생하기 시작하고, 포커스 내의 음성-활성화 디바이스와 포커스 세션을 시작한다. 그 다음 사용자는 "일시정지"를 요청하고, 음성-활성화 디바이스는 레이디 가가 음악을 일시정지한다(그리고 말하자면, 2 시간 동안 포커스 세션을 유지한다). 1 시간이 지난 후, 사용자는 "내 TV에 고양이 비디오를 재생해"를 요청한다. 포커스는 TV로 이동하고, TV는 고양이 비디오들을 재생하기 시작한다.
[00117] 다른 예로서, 사용자가 "레이디 가가를 재생해"를 요청하고, 음성-활성화 디바이스가 레이디 가가 음악을 재생하기 시작하고, 포커스 내의 음성-활성화 디바이스와 포커스 세션을 시작한다. 그 다음, 사용자는 "내 TV에서 고양이 비디오를 보여줘"를 요청하고, 고양이 비디오가 TV 상에 나타나기 시작하지만, 포커스는 음성-활성화 디바이스 상에서 유지된다. 그 다음, 사용자가 "다음"을 요청하고, 음성-활성화 디바이스는 요청에 따라 레이디 가가 음악의 다음 트랙으로 진행한다. 그 다음, 사용자는 "일시정지"를 요청하고, 음성-활성화 디바이스의 음악은 일시정지된다. 그 다음, 사용자는 "내 TV에서 다음 슬라이드"를 요청하고, 다음 슬라이드가 TV에서 시작하고, 포커스는 TV로 전달된다.
[00118] 일부 구현들에서, 유효 요청들은 음악을 개시하는 것, 비디오를 개시하는 것, 뉴스 읽기를 개시하는 것(예를 들어, 뉴스 기사들 판독), 팟캐스트를 개시하는 것, 사진들을 개시하는 것(예를 들어, 사진 디스플레이 또는 슬라이드쇼) 및 임의의 미디어 제어 커맨드(임의의 현재 포커스 세션을 종료하는 미리 정의된 중지 커맨드 이외)를 포함한다.
[00119] 일부 구현들에서, 포커스 세션은 다음 중 임의의 것이 발생하는 경우 종료된다:
· 포커스 세션이 (음성 입력, 예를 들어, 상이한 디바이스를 명시적으로 특정하는 음성 입력을 통해) 상이한 디바이스로 전달되고, 이러한 경우 상이한 디바이스와의 포커스 세션이 시작된다;
· 음성 입력 또는 다른 디바이스로부터의 캐스팅을 통해(예를 들어, 음성: "<음성-인터페이스 디바이스의 닉네임>에서 레이디 가가를 재생해", "가까이에서 레이디 가가를 재생해" 등을 통해; 캐스팅: 사용자가 클라이언트 디바이스 상의 애플리케이션을 통해 음성-활성화 디바이스에 콘텐츠를 캐스팅함을 통해) 음성-활성화 디바이스 상에서 포커스 세션이 시작하거나 (일시정지 상태 밖으로) 재개됨;
o 그러나, 음성-활성화 디바이스가 미디어를 재생하려는 그룹의 멤버(팔로워 또는 리더)이면, (재생중인 경우에도) 포커스를 중지하지 않을 것이다. 따라서 포커스는 그룹의 리더(다른 음성-활성화 디바이스일 수 있음)에서 유지될 것이다;
· 요청이 포커스-내인 제어가능한 디바이스에 대한 미리 정의된 "중지" 커맨드(모든 관련 문법을 포함함)인 경우;
· 타임아웃 관련 커맨드들;
o 타임아웃들은, 제어가능한 디바이스가 명시적으로 특정되든, 또는 미리 정의된 "중지" 커맨드 이외에, 포커스 세션의 포커스-내 디바이스에 기초하여 설정되든, 제어가능한 디바이스에 주어진 마지막 요청 또는 커맨드로부터 측정될 수 있다;
o 타임아웃은 다양한 가능한 커맨드들에 걸쳐 240 분일 수 있다;
· 사용자가 일시정지/재생에 대해 사용되는 음성-활성화 디바이스 상의 버튼을 누르는 경우(또한, 이는 음성-활성화 디바이스 상에서 임의의 일시정지된 콘텐츠를 로컬로 또한 재개할 것이다).
[00120] 일부 구현들에서, 음성-활성화 디바이스는 타겟 디바이스의 사용자 확인을 요청한다. 사용자는 다음과 같이 제어가능한 디바이스 상에서 미디어를 재생하기를 원하는지에 대한 확인을 위해 프롬프트된다:
· 프롬프트는 미디어 개시(예를 들어, 아무것도 재생되고 있지 않은 경우 음악을 시작)(대 빨리감기 또는 다음 트랙과 같은 미디어 제어)에 대해 트리거링된다;
· 프롬프트는 포커스 세션이 활성인 경우 트리거링된다;
· 프롬프트는, 제어가능한 디바이스가 명시적으로 특정되든, 또는 미리 정의된 "중지" 커맨드 이외에, 포커스 세션의 포커스-내 디바이스에 기초하여 설정되든, 제어가능한 디바이스에 주어진 현재 음성-활성화 디바이스로부터의 마지막 음성 커맨드로부터 어떤 시간(예를 들어, 20 분)이 지난 후 트리거링된다.
[00121] 확인하기 위한 프롬프트는, 예를 들어, 다음과 같을 수 있다:
· 음성-활성화 디바이스가 "<제어가능한 디바이스 이름>에서 재생하기를 원하세요?"를 출력한다.
o 사용자가 "응"으로 응답한다. 그 다음, 요청된 미디어가 포커스-내 제어가능한 디바이스 상에서 재생되고, 포커스가 그 디바이스에 대해 유지된다.
o 사용자가 "아니"로 응답한다. 그 다음, 요청된 미디어는 음성-활성화 디바이스 상에서 재생되고 포커스 세션은 종료된다.
o 기타; 예를 들어, 사용자의 응답이 불명확하면, 음성-활성화 디바이스는 "죄송해요. 당신의 응답을 이해할 수 없어요"를 출력할 수 있다.
[00122] 일부 구현들에서, 포커스 세션이 개시되는 경우, 미디어 개시 및 음성 기반 제어 커맨드들이 포커스-내 제어가능한 디바이스에 적용된다. 음성-활성화 디바이스에 의해 넌-미디어 요청들(예를 들어, 검색들, 질문들)이 답신되고, 넌-미디어 요청들은 포커스 세션을 종료시키지 않는다.
[00123] 일부 구현들에서, 포커스 세션이 시작된 경우에도, 물리적 상호작용들이 여전히 음성-활성화 디바이스를 제어할 것이어서, 볼륨을 변경하고 일시정지/재생하기 위한 음성-활성화 디바이스와의 물리적 상호작용(예를 들어, 버튼을 누르는 것, 터치-감응 영역을 터치하는 것)은 음성-활성화 디바이스에 영향을 미치며, 제어가능한 디바이스에 반드시 영향을 미치지는 않는다.
[00124] 일부 구현들에서, 음성-활성화 디바이스 상에서 재생되는 타이머들/경보들/텍스트-투-스피치에 대해 발행되는 요청들 또는 커맨드들은 포커스-내 제어가능한 디바이스에 대한 유사한 요청들 또는 커맨드들보다 높은 우선순위를 갖는다. 예를 들어, 음성-활성화 디바이스가 타이머 또는 경보를 울리고 있고 사용자가 "중지"를 말하면, 음성-활성화 디바이스는 타이머 또는 경보 울리기를 중지한다. 그 다음, 사용자가 "볼륨 <업/다운>"을 말하면, 타이머 또는 경보 울리기는 여전히 중지되고, 제어가능한 디바이스 상의 볼륨은 업 또는 다운으로 변경된다.
[00125] 다른 예로서, 음성-활성화 디바이스가 텍스트-투-스피치를 재생(예를 들어, 사용자의 이메일들을 판독)하고 있고, 사용자가 "중지"를 말하면, 음성-활성화 디바이스는 텍스트-투-스피치 판독을 중지한다. 그 다음, 사용자가 "볼륨 <업/다운>"을 말하면, 음성-활성화 디바이스 상의 볼륨은 업 또는 다운으로 변경된다.
[00126] 또 다른 예로서, 음성-활성화 디바이스가 유휴, 일시정지 또는 앱-로딩 중고, 사용자가 "중지"를 말하면, 제어가능한 디바이스에서 재생되는 미디어는 중지되고 포커스 세션은 종료된다. 그 다음, 사용자가 "볼륨 <업/다운>"을 말하면, 제어가능한 디바이스 상의 볼륨은 업 또는 다운으로 변경된다.
음성-활성화 전자 디바이스의 물리적 특징들
[00127] 도 6a 및 도 6b는 일부 구현들에 따른 음성-활성화 전자 디바이스(104)(도 1)의 정면도(600) 및 후면도(620)이다. 전자 디바이스(104)는 하나 이상의 마이크로폰들(602) 및 풀 컬러 LED들(604)의 어레이를 포함한다. 풀 컬러 LED들(604)은 전자 디바이스(104)의 최상부 표면 아래에 은닉될 수 있고, 조명되는 경우 사용자에게 비가시적일 수 있다. 일부 구현들에서, 풀 컬러 LED들(604)의 어레이는 물리적으로 링으로 배열된다. 추가로, 전자 디바이스(104)의 후방 측은 선택적으로 전원에 커플링하도록 구성된 전원 커넥터(608)를 포함한다.
[00128] 일부 구현들에서, 전자 디바이스(104)는 어떠한 가시적 버튼도 없이 클린(clean)한 외관을 나타내고, 전자 디바이스(104)와의 상호작용은 음성 및 터치 제스처들에 기초한다. 대안적으로, 일부 구현들에서, 전자 디바이스(104)는 제한된 수의 물리적 버튼들(예를 들어, 그 후방 측 상의 버튼(606))을 포함하고, 전자 디바이스(104)와의 상호작용은 음성 및 터치 제스처들에 추가로 버튼을 누르는 것에 추가로 기초한다.
[00129] 하나 이상의 스피커들이 전자 디바이스(104)에 배치된다. 도 6c는 일부 구현들에 따른 개방 구성에서 전자 디바이스(104)의 베이스(610)에 포함된 스피커들(622)을 도시하는 음성-활성화 전자 디바이스(104)의 사시도(660)이다. 전자 디바이스(104)는 풀 컬러 LED들(604)의 어레이, 하나 이상의 마이크로폰들(602), 스피커(622), 듀얼-밴드 WiFi 802.11ac 라디오(들), 블루투스 LE 라디오, 주변 광 센서, USB 포트, 프로세서 및 프로세서에 의한 실행을 위한 적어도 하나의 프로그램을 저장하는 메모리를 포함한다.
[00130] 도 6d를 참조하면, 전자 디바이스(104)는 전자 디바이스(104)의 최상부 표면 상에서 터치 이벤트들을 검출하도록 구성되는 터치 감지 어레이(624)를 더 포함한다. 터치 감지 어레이(624)는 전자 디바이스(104)의 최상부 표면 아래에 배치되고 은닉될 수 있다. 일부 구현들에서, 비아 홀들의 어레이를 포함하는 회로 보드의 최상부 표면 상에 배열되는 터치 감지 어레이, 및 풀 컬러 LED들(604)은 회로 보드의 비아 홀들 내에 배치된다. 회로 보드가 전자 디바이스(104)의 최상부 표면의 바로 아래에 위치되는 경우, 풀 컬러 LED들(604) 및 터치 감지 어레이(624) 둘 모두는 또한 전자 디바이스(104)의 최상부 표면 바로 아래에 배치된다.
[00131] 도 6e(1) 내지 도 6e(4)는 일부 구현들에 따른 음성-활성화 전자 디바이스(104)의 터치 감지 어레이(624) 상에서 검출된 4개의 터치 이벤트들을 도시한다. 도 6e(1) 및 도 6e(2)를 참조하면, 터치 감지 어레이(624)는 음성 활성화 일렉트로닉(104)의 최상부 표면 상에서 회전 스와이프(swipe)를 검출한다. 시계방향 스와이프의 검출에 대한 응답으로, 음성 활성화 일렉트로닉(104)은 자신의 오디오 출력들의 볼륨을 증가시키고, 반시계방향 스와이프의 검출에 대한 응답으로, 음성 활성화 일렉트로닉(104)은 자신의 오디오 출력들의 볼륨을 감소시킨다. 도 6e(3)을 참조하면, 터치 감지 어레이(624)는 음성 활성화 일렉트로닉(104)의 최상부 표면 상에서 단일 탭 터치를 검출한다. 제1 탭 터치의 검출에 대한 응답으로, 음성 활성화 일렉트로닉(104)은 제1 미디어 제어 동작을 구현하고(예를 들어, 특정 미디어 콘텐츠를 재생하고), 제2 탭 터치의 검출에 대한 응답으로, 음성 활성화 일렉트로닉(104)은 제2 미디어 제어 동작을 구현한다(예를 들어, 현재 재생되고 있는 특정 미디어 콘텐츠를 일시정지한다). 도 6e(4)를 참조하면, 터치 감지 어레이(624)는 음성 활성화 일렉트로닉(104)의 최상부 표면 상에서 더블 탭 터치(예를 들어, 2개의 연속적인 터치들)를 검출한다. 2개의 연속적인 터치들은 미리 결정된 길이 미만의 시간 지속기간만큼 분리된다. 그러나, 이들이 미리 결정된 길이보다 큰 시간 지속기간만큼 분리되는 경우, 2개의 연속적인 터치들은 2개의 단일 탭 터치들로 간주된다. 일부 구현들에서, 더블 탭 터치의 검출에 대한 응답으로, 음성 활성화 전자 디바이스(104)는, 전자 디바이스(104)가 하나 이상의 핫 워드들(예를 들어, 미리 정의된 키 워드들)을 청취하고 인식하는 핫 워드 검출 상태를 개시한다. 전자 디바이스(104)가 핫 워드들을 인식할 때까지, 전자 디바이스(104)는 음성 어시스턴스 서버(112) 또는 클라우드 캐스트 서비스 서버(118)에 어떠한 오디오 입력들도 전송하지 않는다. 일부 구현들에서, 포커스 세션은 하나 이상의 핫 워드들의 검출에 대한 응답으로 개시된다.
[00132] 일부 구현들에서, 풀 컬러 LED들(604)의 어레이는 LED 설계 언어에 따라 시각적 패턴들의 세트를 디스플레이하여, 음성 활성화 일렉트로닉(104)의 최상부 표면 상에서 시계방향 스와이프, 반시계방향 스와이프, 단일 탭 또는 더블 탭의 검출을 표시하도록 구성된다. 예를 들어, 풀 컬러 LED들(604)의 어레이는 도 6e(1) 및 도 6e(2)에 각각 도시된 바와 같이 시계방향 또는 반시계방향 스와이프를 추적하기 위해 순차적으로 점등될 수 있다. 전자 디바이스(104)의 음성 프로세싱 상태들과 연관된 시각적 패턴들의 추가의 세부사항들은 도 6f 및 도 6g(1) 내지 도 6g(8)을 참조하여 아래에서 설명된다.
[00133] 도 6e(5)는 일부 구현들에 따른 음성-활성화 전자 디바이스(104)의 후면 상의 버튼(606)에 대한 예시적인 사용자 터치 또는 누름을 도시한다. 버튼(606)에 대한 제1 사용자 터치 또는 누름에 대한 응답으로, 전자 디바이스(104)의 마이크로폰들은 뮤트되고, 버튼(606)에 대한 제2 사용자 터치 또는 누름에 대한 응답으로, 전자 디바이스(104)의 마이크로폰들이 활성화된다.
음성 사용자 인터페이스의 시각적 어포던스(affordance)에 대한 LED 설계 언어
[00134] 일부 구현들에서, 전자 디바이스(104)는 풀 디스플레이 스크린보다 풀 컬러 LED(light emitting diode)들의 어레이를 포함한다. LED 설계 언어는 풀 컬러 LED들의 어레이의 조명을 구성하고, 전자 디바이스(104)의 상이한 음성 프로세싱 상태를 표시하는 상이한 시각적 패턴들을 가능하게 하도록 채택된다. LED 설계 언어는 컬러들의 문법, 패턴들, 및 풀 컬러 LED들의 고정된 세트에 적용되는 특정 모션으로 구성된다. 언어의 엘리먼트들은 조합되어 전자 디바이스(104)의 사용 동안 특정 디바이스 상태들을 시각적으로 표시한다. 일부 구현들에서, 풀 컬러 LED들의 조명은 다른 중요한 상태들 중에서도 전자 디바이스(104)의 수동적 청취 및 능동적 청취 상태들을 명확하게 한정하는 것을 목적으로 한다. 유사한 LED 설계 언어 엘리먼트들을 사용하여 LED들(예를 들어, LED들(604))에 의해 시각적으로 표시될 수 있는 상태들은 하나 이상의 포커스 세션들의 상태, 하나 이상의 특정 포커스 세션들과 연관된 하나 이상의 사용자들의 아이덴티티들 및/또는 하나 이상의 활성 포커스 세션들의 지속기간을 포함한다. 예를 들어, 일부 구현들에서, LED들(604)의 상이한 조명 패턴들, 컬러 조합들 및/또는 특정 모션은, 포커스 세션이 활성이고, 제2 음성 입력의 검출로 인해 연장되었고 그리고/또는 전자 디바이스(104)와 사용자 음성 상호작용의 결핍으로 인해 최근에 경과되었음을 표시하기 위해 사용될 수 있다. 특정 포커스 세션들과 연관된 하나 이상의 사용자들의 하나 이상의 아이덴티티들은 또한 특정 사용자들을 시각적으로 식별하는 LED들(604)의 상이한 조명 패턴들, 컬러 조합들 및/또는 특정 모션으로 표시될 수 있다. 풀 컬러 LED들의 배치는 전자 디바이스(104)의 물리적 제약들을 준수하고, 풀 컬러 LED들의 어레이는 특정 기술(예를 들어, 구글 어시스턴트)에 기초한 제3자 OEM(original equipment manufacturer)에 의해 제조된 스피커에서 사용될 수 있다.
[00135] 음성-활성화 전자 디바이스(104)에서, 수동적 청취는, 전자 디바이스(104)가 자신의 주위 환경으로부터 수집된 오디오 입력들을 프로세싱하지만 오디오 입력들을 저장하거나 임의의 원격 서버에 오디오 입력들을 송신하지는 않는 경우 발생한다. 반대로, 능동적 청취는, 전자 디바이스(104)가 자신의 주위 환경으로부터 수집된 오디오 입력들을 저장하고 그리고/또는 오디오 입력들을 원격 서버와 공유하는 경우 발생한다. 본 출원의 일부 구현들에 따르면, 전자 디바이스(104)는 전자 디바이스(104)의 사용자들의 프라이버시를 침범하지 않으면서 자신의 주위 환경에서 오디오 입력들을 오직 수동적으로만 청취한다.
[00136] 도 6g는 일부 구현들에 따른 음성-활성화 전자 디바이스(104)의 상면도이고, 도 6h는 일부 구현들에 따라 음성 프로세싱 상태들을 표시하기 위한 풀 컬러 LED들의 어레이에 의해 디스플레이되는 6개의 예시적인 시각적 패턴들을 도시한다. 일부 구현들에서, 전자 디바이스(104)는 임의의 디스플레이 스크린을 포함하지 않고, 풀 컬러 LED들(604)은 풀 디스플레이 스크린에 비해 간단하고 낮은 비용의 시각적 사용자 인터페이스를 제공한다. 풀 컬러 LED들은 전자 디바이스의 최상부 표면 아래에 은닉될 수 있고, 조명되는 경우 사용자에게 비가시적일 수 있다. 도 6g 및 도 6h를 참조하면, 일부 구현들에서, 풀 컬러 LED들(604)의 어레이는 물리적으로 링으로 배열된다. 예를 들어, 도 6h(6)에 도시된 바와 같이, 풀 컬러 LED들(604)의 어레이는 도 6f(1) 및 도 6f(2)에 각각 도시된 바와 같이 시계방향 또는 반시계방향 스와이프를 추적하기 위해 순차적으로 점등될 수 있다.
[00137] 음성 프로세싱 상태를 시각적으로 표시하기 위한 방법이 전자 디바이스(104)에서 구현된다. 전자 디바이스(104)는 하나 이상의 마이크로폰들(602)을 통해, 전자 디바이스에 근접한 환경으로부터 오디오 입력들을 수집하고, 오디오 입력들을 프로세싱한다. 프로세싱은 환경에서 사용자로부터의 음성 입력들을 식별하는 것 및 그에 응답하는 것 중 하나 이상을 포함한다. 전자 디바이스(104)는 복수의 미리 정의된 음성 프로세싱 상태들 중 프로세싱의 상태를 결정한다. 풀 컬러 LED들(604) 각각에 대해, 전자 디바이스(104)는 결정된 음성 프로세싱 상태와 연관된 각각의 미리 결정된 LED 조명 규격을 식별한다. 조명 규격은 LED 조명 지속기간, 펄스 레이트, 듀티 사이클, 컬러 시퀀스 및 밝기 중 하나 이상을 포함한다. 일부 구현들에서, 전자 디바이스(104)는, 음성 프로세싱 상태(일부 구현들에서 포커스 세션의 상태를 포함함)가 복수의 사용자들 중 하나와 연관된다고 결정하고, 복수의 사용자들 중 하나의 아이덴티티에 따라 풀 컬러 LED들(604)의 미리 결정된 LED 조명 규격들(예를 들어, 컬러 시퀀스) 중 적어도 하나를 커스터마이징함으로써 풀 컬러 LED들(604)의 미리 결정된 LED 조명 규격들을 식별한다.
[00138] 추가로, 일부 구현들에서, 결정된 음성 프로세싱 상태에 따라, 풀 컬러 LED들의 컬러들은 미리 결정된 세트의 컬러들을 포함한다. 예를 들어, 도 6g(2) 도 6g(4) 및 도 6g(7)-(10)을 참조하면, 미리 결정된 세트의 컬러들은 청색, 녹색, 황색 및 적색을 포함하는 구글 브랜드 컬러들을 포함하고, 풀 컬러 LED들의 어레이는 구글 브랜드 컬러들 중 하나와 각각 연관된 4개의 사분면들로 분할된다.
[00139] 풀 컬러 LED들의 식별된 LED 조명 규격들에 따르면, 전자 디바이스(104)는 결정된 음성 프로세싱 상태(일부 구현들에서 포커스 세션의 상태를 포함함)를 표시하는 시각적 패턴을 제공하기 위해 풀 컬러 LED들의 어레이의 조명을 동기화한다. 일부 구현들에서, 음성 프로세싱 상태를 표시하는 시각적 패턴은 복수의 이산적 LED 조명 픽셀들을 포함한다. 일부 구현들에서, 시각적 패턴은 시작 세그먼트, 루프 세그먼트 및 종료 세그먼트를 포함한다. 루프 세그먼트는 풀 컬러 LED들의 LED 조명 지속기간들과 연관된 시간 길이 동안 지속되고, 음성 프로세싱 상태(예를 들어, 활성 포커스 세션의 지속기간)의 길이에 매칭하도록 구성된다.
[00140] 일부 구현들에서, 전자 디바이스(104)는 LED 설계 언어에 의해 표현되는 20개 초과의 상이한 디바이스 상태들(복수의 미리 정의된 음성 프로세싱 상태들을 포함함)을 갖는다. 선택적으로, 복수의 미리 정의된 음성 프로세싱 상태들은 핫 워드 검출 상태, 청취 상태, 생각 상태 및 응답 상태 중 하나 이상을 포함한다. 일부 구현들에서, 앞서 설명된 바와 같이, 복수의 미리 정의된 음성 프로세싱 상태들은 하나 이상의 포커스 세션 상태들을 포함한다.
[00141] 구현들이 상세히 참조되었으며, 그 예들은 첨부된 도면들에 예시되어 있다. 상기 상세한 설명에서, 다양한 설명된 구현들의 철저한 이해를 제공하기 위해 다수의 특정 세부사항들이 기술되었다. 그러나, 이러한 특정 세부사항들 없이도 다양한 설명된 구현들이 실시될 수 있음은 당업자에게 자명할 것이다. 다른 경우들에서, 널리 공지된 방법들, 절차들, 컴포넌트들, 회로들 및 네트워크들은 구현들의 양상들을 불필요하게 모호하게 하지 않도록 상세히 설명되지 않았다.
[00142] 일부 경우들에서, 제1, 제2 등의 용어들이 본 명세서에서 다양한 엘리먼트들을 설명하기 위해 사용되지만, 이러한 엘리먼트들은 이러한 용어들에 의해 제한되어서는 안됨을 또한 이해할 것이다. 이러한 용어들은 하나의 엘리먼트를 다른 엘리먼트로부터 구별하기 위해서만 사용된다. 예를 들어, 다양한 설명된 구현들의 범위를 벗어남이 없이, 제1 디바이스는 제2 디바이스로 지칭될 수 있고, 유사하게, 제2 디바이스는 제1 디바이스로 지칭될 수 있다. 제1 디바이스 및 제2 디바이스는 둘 모두 디바이스들의 타입이지만 동일한 디바이스가 아니다.
[00143] 본 명세서에서 다양한 설명된 구현들의 설명에서 사용된 용어는 단지 특정 구현들을 설명하기 위한 것이지 제한하려는 의도가 아니다. 다양한 설명된 구현들 및 첨부된 청구항들의 설명에서 사용된 바와 같이, 단수형 형태들은, 문맥상 명확하게 달리 표시되지 않으면, 복수형 형태들을 또한 포함하도록 의도된다. 본 명세서에서 사용된 바와 같은 "및/또는"이라는 용어는 연관된 나열된 항목들 중 하나 이상의 임의의 및 모든 가능한 조합들을 지칭하고 포함함을 또한 이해할 것이다. 본 명세서에서 사용되는 경우, "포함하다", "포함하는", "구비하다" 및/또는 "구비하는"이라는 용어들은, 언급된 특징들, 정수들, 단계들, 오퍼레이션들, 엘리먼트들 및/또는 컴포넌트들의 존재를 특정하지만, 다른 특징들, 정수들, 단계들, 오퍼레이션들, 엘리먼트들, 컴포넌트들 및/또는 이들의 그룹들 중 하나 이상의 존재 또는 추가를 배제하지는 않음을 추가로 이해할 것이다.
[00144] 본 명세서에서 사용되는 바와 같이, "~라면"이라는 용어는 선택적으로, 문맥에 따라, "경우" 또는 "때" 또는 "결정하는 것에 대한 응답으로" 또는 "검출하는 것에 대한 응답으로" 또는 "결정에 따라"를 의미하는 것으로 해석된다. 유사하게, "결정되면" 또는 "[언급된 조건 또는 이벤트]가 검출되면"이라는 구문은, 선택적으로, 문맥에 따라, "결정할 때" 또는 "결정하는 것에 대한 응답으로" 또는 "[언급된 조건 또는 이벤트]를 검출할 때" 또는 "[언급된 조건 또는 이벤트]를 검출하는 것에 대한 응답으로" 또는 "[언급된 조건 또는 이벤트]가 검출된다는 결정에 따라"를 의미하는 것으로 해석된다.
[00145] 위에서 논의된 시스템들이 사용자들에 대한 정보를 수집하는 상황들의 경우, 사용자들에게는 개인 정보(예를 들어, 사용자의 선호도들 또는 스마트 디바이스의 사용에 대한 정보)를 수집할 수 있는 프로그램들 또는 특징들을 옵트 인/아웃할 기회가 제공된다. 또한, 일부 구현들에서, 특정 데이터는 저장 또는 사용되기 전에 하나 이상의 방식들로 익명화되어, 개인적으로 식별가능한 정보가 제거될 수 있다. 예를 들어, 사용자의 아이덴티티가 익명화될 수 있어서, 개인적으로 식별가능한 정보가 사용자에 대해 결정되거나 사용자와 연관될 수 없고, 사용자 선호도들 또는 사용자 상호작용들은 특정 사용자와 연관되기 보다는 일반화된다(예를 들어, 사용자 인구통계학에 기초하여 일반화된다).
[00146] 다양한 도면들 중 일부는 특정 순서로 다수의 로직 스테이지들을 예시하지만, 순서 의존적이 아닌 스테이지들은 재순서화될 수 있고 다른 스테이지들이 조합되거나 분리될 수 있다. 일부 재순서화 또는 다른 그룹화들이 구체적으로 언급되지만, 다른 것들이 당업자들에게 자명할 것이어서, 본 명세서에 제시된 순서화 및 그룹화들은 대안들에 대해 총망라하는 리스트가 아니다. 또한, 스테이지들은 하드웨어, 펌웨어, 소프트웨어 또는 이들의 임의의 조합으로 구현될 수 있음을 인식해야 한다.
[00147] 상기 설명은 설명의 목적을 위해 특정 구현들을 참조하여 설명되었다. 그러나, 상기 예시적인 논의들은, 포괄적인 것으로, 또는 본 청구항들의 범위를 개시된 바로 그 형태들로 제한하는 것으로 의도되지 않는다. 상기 교시들의 관점에서 많은 변형들 및 변화들이 가능하다. 구현들은 청구항들 및 이들의 실제 적용들에 내재하는 원리들을 가장 잘 설명하기 위해 선택되었고, 따라서 당업자들이 구현들을 고려된 특정 사용들에 적합하도록 다양한 수정들로 가장 잘 사용할 수 있게 한다.

Claims (18)

  1. 하나 이상의 마이크로폰들, 스피커, 하나 이상의 프로세서들, 및 상기 하나 이상의 프로세서들에 의한 실행을 위한 하나 이상의 프로그램들을 저장하는 메모리를 갖는 제1 전자 디바이스에서 ― 상기 제1 전자 디바이스는 공통 네트워크 서비스에 통신가능하게 커플링되는 접속된 전자 디바이스들의 로컬 그룹의 멤버임 ―:
    제1 동작에 대한 요청을 포함하는 제1 음성 커맨드를 수신하는 단계;
    상기 접속된 전자 디바이스들의 로컬 그룹 중 상기 제1 동작에 대한 제1 타겟 디바이스를 결정하는 단계 ― 상기 제1 타겟 디바이스는 상기 제1 전자 디바이스임 ―;
    상기 제1 타겟 디바이스에 대한 포커스 세션을 수립하는 단계;
    상기 공통 네트워크 서비스의 동작을 통해 상기 제1 동작이 상기 제1 타겟 디바이스에 의해 수행되게 하는 단계;
    제2 동작에 대한 요청을 포함하는 제2 음성 커맨드를 수신하는 단계;
    상기 제2 음성 커맨드가 제2 타겟 디바이스의 명시적 지정을 포함하지 않는다고 결정하는 단계;
    상기 제2 동작이 상기 제1 타겟 디바이스에 의해 수행될 수 있다고 결정하는 단계;
    상기 공통 네트워크 서비스의 동작을 통해 상기 제2 동작이 상기 제1 타겟 디바이스에 의해 수행되게 하는 단계;
    제3 동작에 대한 요청 및 상기 접속된 전자 디바이스들의 로컬 그룹 중 제3 타겟 디바이스의 명시적 지정을 포함하는 제3 음성 커맨드를 수신하는 단계 ― 상기 제3 타겟 디바이스는 상기 접속된 전자 디바이스들의 로컬 그룹의 멤버인 제2 전자 디바이스이고, 상기 제2 전자 디바이스는 상기 제1 전자 디바이스와 상이함 ―;
    상기 제1 타겟 디바이스에 대한 포커스 세션을 유지하는 단계;
    상기 공통 네트워크 서비스의 동작을 통해 상기 제3 동작이 상기 제3 타겟 디바이스에 의해 수행되게 하는 단계
    를 포함하는,
    방법.
  2. 제1항에 있어서,
    상기 접속된 전자 디바이스들의 로컬 그룹 중 상기 제1 동작에 대한 제1 타겟 디바이스를 결정하는 단계는, 상기 제1 음성 커맨드로부터 상기 제1 타겟 디바이스의 명시적 지정을 획득하는 단계를 포함하는,
    방법.
  3. 제1항에 있어서,
    상기 제2 음성 커맨드가 하나 이상의 포커스 세션 유지 기준들을 충족하는지 여부를 결정하는 단계; 및
    상기 제2 음성 커맨드가 상기 포커스 세션 유지 기준들을 충족한다는 결정에 따라, 상기 제1 타겟 디바이스에 대한 포커스 세션을 연장하는 단계를 더 포함하는,
    방법.
  4. 제1항에 있어서,
    상기 제1 타겟 디바이스에 대한 포커스 세션을 수립하는 단계는,
    상기 제1 음성 커맨드의 시간스탬프를 저장하는 단계; 및
    상기 제1 타겟 디바이스의 식별자를 저장하는 단계를 포함하는,
    방법.
  5. 제3항에 있어서,
    상기 포커스 세션 유지 기준들은, 상기 제1 음성 커맨드를 수신하는 것에 대해 미리 정의된 제1 시간 인터벌 내에 상기 제2 음성 커맨드가 상기 제1 전자 디바이스에 의해 수신되거나, 또는 상기 제1 음성 커맨드를 수신하는 것에 대해 미리 정의된 제2 시간 인터벌 내에 상기 제2 음성 커맨드가 상기 제1 전자 디바이스에 의해 수신된다는 기준을 포함하고 ― 상기 미리 정의된 제2 시간 인터벌은 상기 미리 정의된 제1 시간 인터벌에 후속함 ―;
    상기 제2 음성 커맨드가 하나 이상의 포커스 세션 유지 기준들을 충족하는지 여부를 결정하는 단계는, 상기 제2 음성 커맨드가 상기 미리 정의된 제1 시간 인터벌 또는 상기 미리 정의된 제2 시간 인터벌 중 어느 하나 내에 수신되는지 여부를 결정하는 단계를 포함하는,
    방법.
  6. 제5항에 있어서,
    상기 제2 음성 커맨드가 상기 미리 정의된 제1 시간 인터벌 내에 수신된다는 결정에 따라, 상기 제1 타겟 디바이스를 상기 제2 음성 커맨드에 대한 타겟 디바이스로서 선택하는 단계를 더 포함하는,
    방법.
  7. 제5항에 있어서,
    상기 제2 음성 커맨드가 상기 미리 정의된 제2 시간 인터벌 내에 수신된다는 결정에 따라, 상기 제1 타겟 디바이스를 상기 제2 음성 커맨드에 대한 타겟 디바이스로서 확인하기 위한 요청을 출력하는 단계; 및
    상기 확인하기 위한 요청에 대한 응답으로 상기 제1 타겟 디바이스를 긍정적으로 확인함에 따라, 상기 제1 타겟 디바이스를 상기 제2 음성 커맨드에 대한 타겟 디바이스로 선택하는 단계를 더 포함하는,
    방법.
  8. 제1항에 있어서,
    상기 제2 음성 커맨드는 상기 제3 동작이 상기 제3 타겟 디바이스에 의해 수행되게 된 후 수신되고;
    상기 제1 동작은 미디어 재생 동작이고;
    상기 제2 동작은 미디어 중지 동작이고;
    상기 방법은,
    제4 동작에 대한 요청 및 상기 접속된 전자 디바이스들의 로컬 그룹 중 제4 타겟 디바이스의 명시적 지정을 포함하는 제4 음성 커맨드를 수신하는 단계 ― 상기 제4 타겟 디바이스는 상기 제2 전자 디바이스임 ―;
    상기 제1 타겟 디바이스에 대한 포커스 세션을 종료하는 단계;
    상기 제4 타겟 디바이스에 대한 포커스 세션을 수립하는 단계; 및
    상기 공통 네트워크 서비스의 동작을 통해 상기 제4 동작이 상기 제4 타겟 디바이스에 의해 수행되게 하는 단계를 더 포함하는,
    방법.
  9. 제1항에 있어서,
    미리 정의된 동작 종료 요청을 포함하는 제4 음성 커맨드를 수신하는 단계; 및
    상기 제4 음성 커맨드를 수신함에 따라,
    상기 제1 동작이 상기 제1 타겟 디바이스에 의해 수행되는 것을 종료시키는 단계; 및
    상기 제1 타겟 디바이스에 대한 포커스 세션을 종료하는 단계를 더 포함하는,
    방법.
  10. 제1항에 있어서,
    상기 제1 동작은 미디어 재생 동작이고;
    상기 제2 동작은, 미디어 중지 동작, 미디어 되감기 동작, 미디어 빨리감기 동작, 볼륨 업 동작 및 볼륨 다운 동작 중 하나인,
    방법.
  11. 제1항에 있어서,
    상기 제1 동작은 복수의 디바이스 상태들 중 제1 상태로의 디바이스 상태 변경 동작이고;
    상기 제2 동작은 상기 복수의 디바이스 상태들 중 제2 상태로의 디바이스 상태 변경 동작인,
    방법.
  12. 제1항에 있어서,
    상기 제1 동작은 크기 스케일(scale)에서 제1 방향으로의 크기 변경 동작이고;
    상기 제2 동작은 상기 크기 스케일에서 상기 제1 방향과 반대인 제2 방향으로의 크기 변경 동작인,
    방법.
  13. 제1항에 있어서,
    상기 제1 전자 디바이스는 하나 이상의 LED들의 어레이를 포함하고;
    상기 방법은, 상기 LED들의 어레이의 LED들 중 하나 이상을 조명함으로써 상기 포커스 세션의 상태를 표시하는 단계를 더 포함하는,
    방법.
  14. 하나 이상의 마이크로폰들;
    스피커;
    하나 이상의 프로세서들; 및
    상기 하나 이상의 프로세서들에 의해 실행될 하나 이상의 프로그램들을 저장하는 메모리를 포함하고, 상기 하나 이상의 프로그램들은 제1항 내지 제13항 중 어느 한 항의 방법을 수행하기 위한 명령들을 포함하는,
    전자 디바이스.
  15. 하나 이상의 프로그램들을 저장하는 비일시적 컴퓨터 판독가능 저장 매체로서,
    상기 하나 이상의 프로그램들은, 하나 이상의 마이크로폰들, 스피커 및 하나 이상의 프로세서들을 갖는 전자 디바이스에 의해 실행되는 경우, 상기 전자 디바이스로 하여금 제1항 내지 제13항 중 어느 한 항의 방법의 동작들을 수행하게 하는 명령들을 포함하는,
    비일시적 컴퓨터 판독가능 저장 매체.
  16. 삭제
  17. 삭제
  18. 삭제
KR1020197015360A 2016-11-03 2017-11-03 음성 인터페이스 디바이스에서의 포커스 세션 KR102242917B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201662417281P 2016-11-03 2016-11-03
US62/417,281 2016-11-03
US15/801,307 US10783883B2 (en) 2016-11-03 2017-11-01 Focus session at a voice interface device
US15/801,307 2017-11-01
PCT/US2017/059955 WO2018085671A1 (en) 2016-11-03 2017-11-03 Focus session at a voice interface device

Publications (2)

Publication Number Publication Date
KR20190071794A KR20190071794A (ko) 2019-06-24
KR102242917B1 true KR102242917B1 (ko) 2021-04-20

Family

ID=60664673

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020197015360A KR102242917B1 (ko) 2016-11-03 2017-11-03 음성 인터페이스 디바이스에서의 포커스 세션

Country Status (8)

Country Link
US (3) US10783883B2 (ko)
EP (2) EP3535753B1 (ko)
JP (2) JP7130637B2 (ko)
KR (1) KR102242917B1 (ko)
CN (2) CN108022590B (ko)
DE (2) DE102017125745A1 (ko)
GB (1) GB2558066B (ko)
WO (1) WO2018085671A1 (ko)

Families Citing this family (231)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US9084058B2 (en) 2011-12-29 2015-07-14 Sonos, Inc. Sound field calibration using listener localization
US8867106B1 (en) 2012-03-12 2014-10-21 Peter Lancaster Intelligent print recognition system and method
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9219460B2 (en) 2014-03-17 2015-12-22 Sonos, Inc. Audio settings based on environment
US9106192B2 (en) 2012-06-28 2015-08-11 Sonos, Inc. System and method for device playback calibration
US9706323B2 (en) 2014-09-09 2017-07-11 Sonos, Inc. Playback device calibration
KR102103057B1 (ko) 2013-02-07 2020-04-21 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US9264839B2 (en) 2014-03-17 2016-02-16 Sonos, Inc. Playback device configuration based on proximity detection
EP3480811A1 (en) 2014-05-30 2019-05-08 Apple Inc. Multi-command single utterance input method
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9952825B2 (en) 2014-09-09 2018-04-24 Sonos, Inc. Audio processing algorithms
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US9693165B2 (en) 2015-09-17 2017-06-27 Sonos, Inc. Validation of audio calibration using multi-dimensional motion check
JP6437695B2 (ja) 2015-09-17 2018-12-12 ソノズ インコーポレイテッド オーディオ再生デバイスのキャリブレーションを容易にする方法
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US9743207B1 (en) 2016-01-18 2017-08-22 Sonos, Inc. Calibration using multiple recording devices
US10003899B2 (en) 2016-01-25 2018-06-19 Sonos, Inc. Calibration with particular locations
US11106423B2 (en) 2016-01-25 2021-08-31 Sonos, Inc. Evaluating calibration of a playback device
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US9772817B2 (en) 2016-02-22 2017-09-26 Sonos, Inc. Room-corrected voice detection
US9811314B2 (en) 2016-02-22 2017-11-07 Sonos, Inc. Metadata exchange involving a networked playback system and a networked microphone system
US9864574B2 (en) 2016-04-01 2018-01-09 Sonos, Inc. Playback device calibration based on representation spectral characteristics
US9860662B2 (en) 2016-04-01 2018-01-02 Sonos, Inc. Updating playback device configuration information based on calibration data
US9763018B1 (en) 2016-04-12 2017-09-12 Sonos, Inc. Calibration of audio playback devices
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10152969B2 (en) 2016-07-15 2018-12-11 Sonos, Inc. Voice detection by multiple devices
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US9794710B1 (en) 2016-07-15 2017-10-17 Sonos, Inc. Spatial audio correction
US10372406B2 (en) 2016-07-22 2019-08-06 Sonos, Inc. Calibration interface
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US10459684B2 (en) 2016-08-05 2019-10-29 Sonos, Inc. Calibration of a playback device based on an estimated frequency response
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US9743204B1 (en) 2016-09-30 2017-08-22 Sonos, Inc. Multi-orientation playback device microphones
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
US10783883B2 (en) * 2016-11-03 2020-09-22 Google Llc Focus session at a voice interface device
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10264358B2 (en) 2017-02-15 2019-04-16 Amazon Technologies, Inc. Selection of master device for synchronized audio
US10839795B2 (en) * 2017-02-15 2020-11-17 Amazon Technologies, Inc. Implicit target selection for multiple audio playback devices in an environment
US11276395B1 (en) * 2017-03-10 2022-03-15 Amazon Technologies, Inc. Voice-based parameter assignment for voice-capturing devices
US11183181B2 (en) 2017-03-27 2021-11-23 Sonos, Inc. Systems and methods of multiple voice services
US10258295B2 (en) * 2017-05-09 2019-04-16 LifePod Solutions, Inc. Voice controlled assistance for monitoring adverse events of a user and/or coordinating emergency actions such as caregiver communication
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179549B1 (en) * 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10051366B1 (en) 2017-09-28 2018-08-14 Sonos, Inc. Three-dimensional beam forming with a microphone array
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
KR102543693B1 (ko) * 2017-10-17 2023-06-16 삼성전자주식회사 전자 장치 및 그의 동작 방법
KR102471493B1 (ko) * 2017-10-17 2022-11-29 삼성전자주식회사 전자 장치 및 음성 인식 방법
US11182122B2 (en) * 2017-12-08 2021-11-23 Amazon Technologies, Inc. Voice control of computing devices
US10880650B2 (en) 2017-12-10 2020-12-29 Sonos, Inc. Network microphone devices with automatic do not disturb actuation capabilities
US10818290B2 (en) 2017-12-11 2020-10-27 Sonos, Inc. Home graph
US11201849B2 (en) * 2018-01-15 2021-12-14 Lenovo (Singapore) Pte. Ltd. Natural language connectivity
WO2019152722A1 (en) 2018-01-31 2019-08-08 Sonos, Inc. Device designation of playback and network microphone device arrangements
US10616726B1 (en) 2018-02-22 2020-04-07 Amazon Technologies, Inc. Outputing notifications using device groups
US10425780B1 (en) * 2018-02-22 2019-09-24 Amazon Technologies, Inc. Outputting notifications using device groups
US10425781B1 (en) 2018-02-22 2019-09-24 Amazon Technologies, Inc. Outputting notifications using device groups
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
CN108566634B (zh) * 2018-03-30 2021-06-25 深圳市冠旭电子股份有限公司 降低蓝牙音箱连续唤醒延时的方法、装置及蓝牙音箱
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10847178B2 (en) 2018-05-18 2020-11-24 Sonos, Inc. Linear filtering for noise-suppressed speech detection
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US11437029B2 (en) 2018-06-05 2022-09-06 Voicify, LLC Voice application platform
EP3803856A4 (en) * 2018-06-05 2021-07-21 Voicify, LLC VOICE APPLICATION PLATFORM
US10636425B2 (en) 2018-06-05 2020-04-28 Voicify, LLC Voice application platform
US10803865B2 (en) 2018-06-05 2020-10-13 Voicify, LLC Voice application platform
US10235999B1 (en) 2018-06-05 2019-03-19 Voicify, LLC Voice application platform
CN110634477B (zh) * 2018-06-21 2022-01-25 海信集团有限公司 一种基于场景感知的上下文判断方法、装置及系统
US10681460B2 (en) 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
CN109005383A (zh) * 2018-07-06 2018-12-14 杭州涂鸦信息技术有限公司 一种随处播放iot监控视频流的方法
US11373640B1 (en) * 2018-08-01 2022-06-28 Amazon Technologies, Inc. Intelligent device grouping
JP7027281B2 (ja) * 2018-08-10 2022-03-01 ヤフー株式会社 情報処理装置、情報処理方法、及び情報処理プログラム
EP3642837B1 (en) 2018-08-23 2024-03-13 Google LLC Regulating assistant responsiveness according to characteristics of a multi-assistant environment
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10299061B1 (en) 2018-08-28 2019-05-21 Sonos, Inc. Playback device calibration
US11206484B2 (en) 2018-08-28 2021-12-21 Sonos, Inc. Passive speaker authentication
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
US10878811B2 (en) 2018-09-14 2020-12-29 Sonos, Inc. Networked devices, systems, and methods for intelligently deactivating wake-word engines
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US10871935B2 (en) 2018-09-18 2020-12-22 Roku, Inc. Audio cancellation and content recognition of audio received over HDMI/ARC
US10812751B2 (en) 2018-09-18 2020-10-20 Roku, Inc. Dynamically switching to/from a first network during audio playback over HDMI/ARC
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US10811015B2 (en) 2018-09-25 2020-10-20 Sonos, Inc. Voice detection optimization based on selected voice assistant service
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10692518B2 (en) 2018-09-29 2020-06-23 Sonos, Inc. Linear filtering for noise-suppressed speech detection via multiple network microphone devices
GB2577879B (en) 2018-10-08 2022-08-24 B & W Group Ltd Content playback system
JP2020060951A (ja) * 2018-10-10 2020-04-16 三菱電機株式会社 制御装置、機器制御システム、機器制御方法及びプログラム
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
EP3654249A1 (en) 2018-11-15 2020-05-20 Snips Dilated convolutions and gating for efficient keyword spotting
US11687850B2 (en) * 2018-11-21 2023-06-27 Honda Motor Co., Ltd System and method for processing a task request to be executed and fulfilled
US11694130B2 (en) 2018-11-21 2023-07-04 Honda Motor Co., Ltd. System and method for assigning an agent to execute and fulfill a task request
US10944588B2 (en) 2018-11-29 2021-03-09 International Business Machines Corporation Resolving conflicting commands received by an electronic device
US11575762B2 (en) * 2018-12-05 2023-02-07 Yahoo Assets Llc Subscription-based message selection and transmission
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
CN109788360A (zh) * 2018-12-12 2019-05-21 百度在线网络技术(北京)有限公司 基于语音的电视控制方法和装置
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
KR20200074690A (ko) * 2018-12-17 2020-06-25 삼성전자주식회사 전자 장치 및 이의 제어 방법
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
CN109637535B (zh) * 2018-12-26 2021-05-25 珠海格力电器股份有限公司 语音指令的处理方法、装置和智能终端
CN109473109A (zh) * 2018-12-29 2019-03-15 深圳Tcl新技术有限公司 数据处理方法、装置及计算机可读存储介质
US11024310B2 (en) * 2018-12-31 2021-06-01 Sling Media Pvt. Ltd. Voice control for media content search and selection
CN109634132A (zh) * 2019-01-03 2019-04-16 深圳壹账通智能科技有限公司 智能家居管理方法、装置、介质及电子设备
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
WO2020162948A1 (en) * 2019-02-08 2020-08-13 Google Llc Adapting to differences in device state reporting of third party servers
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
US11315556B2 (en) 2019-02-08 2022-04-26 Sonos, Inc. Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification
JP7266418B2 (ja) * 2019-02-14 2023-04-28 本田技研工業株式会社 エージェント装置、エージェント装置の制御方法、およびプログラム
JP7211856B2 (ja) * 2019-03-11 2023-01-24 本田技研工業株式会社 エージェント装置、エージェントシステム、サーバ装置、エージェント装置の制御方法、およびプログラム
EP3709194A1 (en) 2019-03-15 2020-09-16 Spotify AB Ensemble-based data comparison
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
WO2020222539A1 (en) 2019-05-02 2020-11-05 Samsung Electronics Co., Ltd. Hub device, multi-device system including the hub device and plurality of devices, and method of operating the same
US20200349940A1 (en) * 2019-05-02 2020-11-05 Samsung Electronics Co., Ltd. Server for determining target device based on speech input of user and controlling target device, and operation method of the server
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
JP7075547B2 (ja) 2019-05-31 2022-05-25 アップル インコーポレイテッド オーディオメディア制御のためのユーザインタフェース
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US10802843B1 (en) 2019-05-31 2020-10-13 Apple Inc. Multi-user configuration
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11010121B2 (en) 2019-05-31 2021-05-18 Apple Inc. User interfaces for audio media control
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
KR102245953B1 (ko) * 2019-06-05 2021-04-28 엘지전자 주식회사 복수의 전자기기의 제어방법
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US11361756B2 (en) 2019-06-12 2022-06-14 Sonos, Inc. Conditional wake word eventing based on environment
US10586540B1 (en) 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
KR20210001082A (ko) * 2019-06-26 2021-01-06 삼성전자주식회사 사용자 발화를 처리하는 전자 장치와 그 동작 방법
US11122423B2 (en) 2019-06-26 2021-09-14 Vmware, Inc. Proximity based authentication of a user through a voice assistant device
CN112187590A (zh) * 2019-07-02 2021-01-05 百度在线网络技术(北京)有限公司 控制方法、装置、设备和计算机可读存储介质
CN110415696A (zh) * 2019-07-26 2019-11-05 广东美的制冷设备有限公司 语音控制方法、电器控制装置、电器及电器控制系统
US11138969B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11138975B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US11438452B1 (en) 2019-08-09 2022-09-06 Apple Inc. Propagating context information in a privacy preserving manner
US10734965B1 (en) 2019-08-12 2020-08-04 Sonos, Inc. Audio calibration of a portable playback device
US11094319B2 (en) 2019-08-30 2021-08-17 Spotify Ab Systems and methods for generating a cleaned version of ambient sound
US11295745B1 (en) * 2019-09-04 2022-04-05 Amazon Technologies, Inc. Multi-tasking and skills processing
US10827028B1 (en) * 2019-09-05 2020-11-03 Spotify Ab Systems and methods for playing media content on a target device
JP7262142B2 (ja) 2019-09-18 2023-04-21 ヨプ リ,ジョン 複数の音声システムが装着されたオンラインメディアサービス具現方法
KR102111360B1 (ko) * 2019-09-18 2020-05-18 이종엽 다중 음성시스템이 장착된 온라인미디어 서비스 구현 방법
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
CN110769319B (zh) * 2019-10-22 2022-05-10 思必驰科技股份有限公司 待机唤醒交互方法和装置
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
US11570165B2 (en) 2019-12-09 2023-01-31 Vmware, Inc. Single sign-on service authentication through a voice assistant
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
US11830098B2 (en) 2020-01-02 2023-11-28 Vmware, Inc. Data leak prevention using user and device contexts
US20210211422A1 (en) * 2020-01-06 2021-07-08 Vmware, Inc. Voice skill session lifetime management
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
CN111276139B (zh) * 2020-01-07 2023-09-19 百度在线网络技术(北京)有限公司 语音唤醒方法及装置
US11556307B2 (en) 2020-01-31 2023-01-17 Sonos, Inc. Local voice data processing
US11335335B2 (en) 2020-02-03 2022-05-17 International Business Machines Corporation Disambiguation of generic commands for controlling objects
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US11328722B2 (en) 2020-02-11 2022-05-10 Spotify Ab Systems and methods for generating a singular voice audio stream
US11308959B2 (en) 2020-02-11 2022-04-19 Spotify Ab Dynamic adjustment of wake word acceptance tolerance thresholds in voice-controlled devices
CN111091829B (zh) * 2020-02-21 2023-03-14 珠海荣邦电子科技有限公司 一种语音控制方法、装置及电子设备
US11593843B2 (en) 2020-03-02 2023-02-28 BrandActif Ltd. Sponsor driven digital marketing for live television broadcast
US11301906B2 (en) 2020-03-03 2022-04-12 BrandActif Ltd. Method and system for digital marketing and the provision of digital content
SG10202001898SA (en) 2020-03-03 2021-01-28 Gerard Lancaster Peter Method and system for digital marketing and the provision of digital content
US11854047B2 (en) 2020-03-03 2023-12-26 BrandActif Ltd. Method and system for digital marketing and the provision of digital content
JP2021162696A (ja) 2020-03-31 2021-10-11 ブラザー工業株式会社 情報処理装置、情報処理方法、電子機器及び情報処理システム
US11183193B1 (en) 2020-05-11 2021-11-23 Apple Inc. Digital assistant hardware abstraction
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11810578B2 (en) 2020-05-11 2023-11-07 Apple Inc. Device arbitration for digital assistant-based intercom systems
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11727919B2 (en) 2020-05-20 2023-08-15 Sonos, Inc. Memory allocation for keyword spotting engines
US11308962B2 (en) 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11750668B1 (en) * 2020-06-23 2023-09-05 Nikolay Abkairov Combined asynchronous and synchronous communication system and service with transcription support
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
US11789928B2 (en) * 2020-11-12 2023-10-17 International Business Machines Corporation Dynamic namespace modification for virtual agents
US11551700B2 (en) 2021-01-25 2023-01-10 Sonos, Inc. Systems and methods for power-efficient keyword detection
US11960615B2 (en) 2021-06-06 2024-04-16 Apple Inc. Methods and user interfaces for voice-based user profile management
US11410655B1 (en) 2021-07-26 2022-08-09 LifePod Solutions, Inc. Systems and methods for managing voice environments and voice routines
US11404062B1 (en) 2021-07-26 2022-08-02 LifePod Solutions, Inc. Systems and methods for managing voice environments and voice routines
KR20230018833A (ko) * 2021-07-30 2023-02-07 삼성전자주식회사 전자 장치 및 무선 오디오 장치의 연결 전환을 제공하는 방법
US11677832B2 (en) * 2021-09-23 2023-06-13 International Business Machines Corporation Voice activated device enabling
US11838582B1 (en) * 2022-12-12 2023-12-05 Google Llc Media arbitration

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150287411A1 (en) 2014-04-08 2015-10-08 Panasonic Intellectual Property Corporation Of America Device control method, device management system, and voice input apparatus

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6052666A (en) 1995-11-06 2000-04-18 Thomson Multimedia S.A. Vocal identification of devices in a home environment
KR100438838B1 (ko) * 2002-01-29 2004-07-05 삼성전자주식회사 대화 포커스 추적 기능을 가진 음성명령 해석장치 및 방법
JP2006033795A (ja) 2004-06-15 2006-02-02 Sanyo Electric Co Ltd リモートコントロールシステム、コントローラ、コンピュータにコントローラの機能を付与するプログラム、当該プログラムを格納した記憶媒体、およびサーバ。
US8856289B2 (en) * 2006-12-29 2014-10-07 Prodea Systems, Inc. Subscription management of applications and services provided through user premises gateway devices
JP4434247B2 (ja) * 2007-08-10 2010-03-17 ソニー株式会社 リモートコントローラ、リモートコントロールシステムおよびリモートコントロール方法
US8589161B2 (en) * 2008-05-27 2013-11-19 Voicebox Technologies, Inc. System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8340975B1 (en) * 2011-10-04 2012-12-25 Theodore Alfred Rosenberger Interactive speech recognition device and system for hands-free building control
US20130238326A1 (en) * 2012-03-08 2013-09-12 Lg Electronics Inc. Apparatus and method for multiple device voice control
US20140258942A1 (en) * 2013-03-05 2014-09-11 Intel Corporation Interaction of multiple perceptual sensing inputs
US20170206064A1 (en) * 2013-03-15 2017-07-20 JIBO, Inc. Persistent companion device configuration and deployment platform
CN104281609B (zh) * 2013-07-08 2020-03-17 腾讯科技(深圳)有限公司 语音输入指令匹配规则的配置方法及装置
US9305554B2 (en) * 2013-07-17 2016-04-05 Samsung Electronics Co., Ltd. Multi-level speech recognition
US9431014B2 (en) * 2013-07-25 2016-08-30 Haier Us Appliance Solutions, Inc. Intelligent placement of appliance response to voice command
US8768712B1 (en) * 2013-12-04 2014-07-01 Google Inc. Initiating actions based on partial hotwords
KR102188090B1 (ko) * 2013-12-11 2020-12-04 엘지전자 주식회사 스마트 가전제품, 그 작동방법 및 스마트 가전제품을 이용한 음성인식 시스템
US9431021B1 (en) * 2014-03-27 2016-08-30 Amazon Technologies, Inc. Device grouping for audio based interactivity
US9785247B1 (en) * 2014-05-14 2017-10-10 Leap Motion, Inc. Systems and methods of tracking moving hands and recognizing gestural interactions
US10782657B2 (en) * 2014-05-27 2020-09-22 Ultrahaptics IP Two Limited Systems and methods of gestural interaction in a pervasive computing environment
JP6483680B2 (ja) * 2014-06-30 2019-03-13 クラリオン株式会社 情報処理システム、及び、車載装置
US9318107B1 (en) * 2014-10-09 2016-04-19 Google Inc. Hotword detection on multiple devices
KR102277259B1 (ko) * 2014-11-26 2021-07-14 엘지전자 주식회사 디바이스 제어 시스템, 디지털 디바이스 및 디지털 디바이스 제어 방법
US9792901B1 (en) * 2014-12-11 2017-10-17 Amazon Technologies, Inc. Multiple-source speech dialog input
US9837081B2 (en) * 2014-12-30 2017-12-05 Microsoft Technology Licensing, Llc Discovering capabilities of third-party voice-enabled resources
US10192546B1 (en) * 2015-03-30 2019-01-29 Amazon Technologies, Inc. Pre-wakeword speech processing
KR102371188B1 (ko) * 2015-06-30 2022-03-04 삼성전자주식회사 음성 인식 장치 및 방법과 전자 장치
CN105334743B (zh) * 2015-11-18 2018-10-26 深圳创维-Rgb电子有限公司 一种基于情感识别的智能家居控制方法及其系统
US9858927B2 (en) * 2016-02-12 2018-01-02 Amazon Technologies, Inc Processing spoken commands to control distributed audio outputs
WO2017187677A1 (ja) * 2016-04-26 2017-11-02 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
US11250201B2 (en) * 2016-06-14 2022-02-15 Amazon Technologies, Inc. Methods and devices for providing optimal viewing displays
US10783883B2 (en) * 2016-11-03 2020-09-22 Google Llc Focus session at a voice interface device
KR101925034B1 (ko) * 2017-03-28 2018-12-04 엘지전자 주식회사 스마트 컨트롤링 디바이스 및 그 제어 방법
US10102855B1 (en) * 2017-03-30 2018-10-16 Amazon Technologies, Inc. Embedded instructions for voice user interface
WO2020070888A1 (ja) * 2018-10-05 2020-04-09 三菱電機株式会社 音声操作支援システム、音声操作システム、音声処理装置、音声操作支援装置、音声操作支援方法及びプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150287411A1 (en) 2014-04-08 2015-10-08 Panasonic Intellectual Property Corporation Of America Device control method, device management system, and voice input apparatus

Also Published As

Publication number Publication date
US10783883B2 (en) 2020-09-22
US11990128B2 (en) 2024-05-21
CN108022590B (zh) 2023-10-31
EP3535753B1 (en) 2021-10-27
JP2022174099A (ja) 2022-11-22
US11527246B2 (en) 2022-12-13
EP3940694A1 (en) 2022-01-19
CN117351953A (zh) 2024-01-05
GB2558066A (en) 2018-07-04
DE102017125745A1 (de) 2018-05-03
WO2018085671A1 (en) 2018-05-11
US20180122378A1 (en) 2018-05-03
EP3535753A1 (en) 2019-09-11
US20210005202A1 (en) 2021-01-07
JP7130637B2 (ja) 2022-09-05
DE202017106668U1 (de) 2018-02-15
JP2020500330A (ja) 2020-01-09
US20230046924A1 (en) 2023-02-16
GB201718184D0 (en) 2017-12-20
GB2558066B (en) 2020-10-21
CN108022590A (zh) 2018-05-11
KR20190071794A (ko) 2019-06-24

Similar Documents

Publication Publication Date Title
KR102242917B1 (ko) 음성 인터페이스 디바이스에서의 포커스 세션
US11521469B2 (en) Server-provided visual output at a voice interface device
US11341964B2 (en) Voice-controlled media play in smart media environment
KR102254021B1 (ko) 결합된 어쿠스틱 도파관 및 방열판을 갖는 콤팩트 홈 어시스턴트에 대한 설계
CN108268235B (zh) 用于语音接口设备的对话感知主动通知
EP3757753A1 (en) Initiating by voice play of media content
WO2017197186A1 (en) Voice-controlled closed caption display

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant