KR20190005885A - 디바이스들 상의 보이스 어시스턴트에 대한 구현들 - Google Patents

디바이스들 상의 보이스 어시스턴트에 대한 구현들 Download PDF

Info

Publication number
KR20190005885A
KR20190005885A KR1020187033471A KR20187033471A KR20190005885A KR 20190005885 A KR20190005885 A KR 20190005885A KR 1020187033471 A KR1020187033471 A KR 1020187033471A KR 20187033471 A KR20187033471 A KR 20187033471A KR 20190005885 A KR20190005885 A KR 20190005885A
Authority
KR
South Korea
Prior art keywords
voice
voice assistant
electronic device
voice processing
response
Prior art date
Application number
KR1020187033471A
Other languages
English (en)
Other versions
KR102168974B1 (ko
Inventor
케네스 믹스터
Original Assignee
구글 엘엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 구글 엘엘씨 filed Critical 구글 엘엘씨
Priority to KR1020207029660A priority Critical patent/KR102307976B1/ko
Publication of KR20190005885A publication Critical patent/KR20190005885A/ko
Application granted granted Critical
Publication of KR102168974B1 publication Critical patent/KR102168974B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/26Devices for calling a subscriber
    • H04M1/27Devices whereby a plurality of signals may be stored simultaneously
    • H04M1/271Devices whereby a plurality of signals may be stored simultaneously controlled by voice recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/239Interfacing the upstream path of the transmission network, e.g. prioritizing client content requests
    • H04N21/2393Interfacing the upstream path of the transmission network, e.g. prioritizing client content requests involving handling client requests
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/4104Peripherals receiving signals from specially adapted client devices
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/4104Peripherals receiving signals from specially adapted client devices
    • H04N21/4112Peripherals receiving signals from specially adapted client devices having fewer capabilities than the client, e.g. thin client having less processing power or no tuning capabilities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/414Specialised client platforms, e.g. receiver in car or embedded in a mobile appliance
    • H04N21/4147PVR [Personal Video Recorder]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42204User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42204User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor
    • H04N21/42206User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor characterized by hardware details
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/4508Management of client data or end-user data
    • H04N21/4532Management of client data or end-user data involving end-user characteristics, e.g. viewer profile, preferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/4722End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for requesting additional data associated with the content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/475End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data
    • H04N21/4751End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data for defining user accounts, e.g. accounts for children
    • H04N5/4403
    • H04N5/44582
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Abstract

오디오 입력 시스템을 갖는 전자 디바이스에서의 방법은, 디바이스에서 구두 입력을 수신하는 단계; 구두 입력을 프로세싱하는 단계; 요청을 원격 시스템에 송신하는 단계 ― 요청은 구두 입력에 기반하여 결정된 정보를 포함함 ―; 요청에 대한 응답을 수신하는 단계 ― 응답은 구두 입력에 기반한 정보에 따라 원격 시스템에 의해 생성됨 ―; 및 응답에 따라 동작을 수행하는 단계를 포함하며, 여기서, 수신하는 단계, 프로세싱하는 단계, 송신하는 단계, 수신하는 단계 및 수행하는 단계 중 하나 이상은 전자 디바이스 상에서 실행되는 보이스 어시스턴트 라이브러리의 하나 이상의 보이스 프로세싱 모듈들에 의해 수행되고, 보이스 프로세싱 모듈들은 하나 이상의 애플리케이션 프로그램들에 액세스가능한 복수의 보이스 프로세싱 동작들을 제공하고 그리고/또는 전자 디바이스 상에서 실행되거나 또는 실행가능한 소프트웨어를 동작시킨다.

Description

디바이스들 상의 보이스 어시스턴트에 대한 구현들
[0001] 본 출원은 일반적으로, 디바이스들에 대한 보이스 어시스턴트(voice assistant)들 및 관련된 라이브러리들을 포함하지만 이에 제한되지는 않는 컴퓨터 기술에 관한 것이다.
[0002] 오디오/보이스 입력 및 출력을 통해 사용자와 상호작용하는 보이스-기반 어시스턴트들은 인터넷 및 클라우드 컴퓨팅의 성장과 함께 인기를 얻고 있다. 이들 어시스턴트들은, 몇몇 예들을 들자면 뉴스, 스포츠 스코어들, 날씨, 및 주식들을 포함하는 다양한 타입들의 정보를 제공할 뿐만 아니라 디지털 미디어의 소비를 위한 인터페이스를 제공할 수 있다.
[0003] 사용자는 보이스-기반 어시스턴트 기능이 바람직한 다수의 디바이스들을 가질 수 있다. 다양한 디바이스들에 걸쳐 구현 및 사용될 수 있고, 다양한 디바이스들에 걸쳐 일관된 경험을 제공할 수 있으며, 특정 디바이스에 특정한 기능을 지원할 수 있는 보이스-기반 어시스턴트를 갖는 것이 바람직하다.
[0004] 본 명세서에 설명된 구현들은, 광범위하게 다양한 운영 시스템 플랫폼들에 대한 로컬 디바이스의 제어를 가능하게 하는 방식으로 임베디드(embeded) 시스템들 및/또는 디바이스들에 보이스 어시스턴트를 임베딩하거나 또는 포함시키는 것에 관한 것이다.
[0005] 몇몇 구현들에 따르면, 얇고 낮은-리소스-사용 디바이스-측 라이브러리는 오디오 데이터의 로컬 프로세싱, 웨이크워드(wakeword)들 또는 핫워드(hotword)들을 청취하는 것, 및 사용자 요청들을 전송하는 것을 포함하는 특성들을 갖는다. 부가적인 특성들은 클라우드 브레인(cloud brain)에 대한 연결, 확장가능한 보이스 액션 제어 시스템, 많은 별개의 동작 환경들로의 통합을 허용하는 이식성 계층(portability layer), 및 클라이언트 소프트웨어의 나머지와 비동기식으로 업데이트되기 위한 능력을 포함한다.
[0006] 설명된 구현들은 많은 상이한 디바이스들에 걸쳐 보이스 어시스턴트와 상호작용하기 위한 유사한 사용자 경험을 제공하는 이점을 갖는다.
[0007] 설명된 구현들은, 디바이스 그 자체로부터 가능하게 되는 혁신들로부터 보이스 어시스턴트 능력들의 디커플링된 혁신을 가능하게 하는 다른 이점을 갖는다. 예컨대, 개선된 인식 파이프라인이 생성되었다면, 그 파이프라인은 디바이스들로 푸시 아웃(push out)될 수 있지만, 디바이스 제조사는 그것을 수신하기 위해 어떠한 것도 행할 필요는 없으며, 이전의 보이스 커맨드들로부터 여전히 이득을 얻을 수 있다.
[0008] 몇몇 구현들에 따르면, 오디오 입력 시스템, 하나 이상의 프로세서들, 및 하나 이상의 프로세서들에 의한 실행을 위한 하나 이상의 프로그램들을 저장한 메모리를 갖는 전자 디바이스에서의 방법은, 디바이스에서 구두 입력(verbal input)을 수신하는 단계; 구두 입력을 프로세싱하는 단계; 요청을 원격 시스템에 송신하는 단계 ― 요청은 구두 입력에 기반하여 결정된 정보를 포함함 ―; 요청에 대한 응답을 수신하는 단계 ― 응답은 구두 입력에 기반한 정보에 따라 원격 시스템에 의해 생성됨 ―; 및 응답에 따라 동작을 수행하는 단계를 포함하며, 여기서, 수신하는 단계, 프로세싱하는 단계, 송신하는 단계, 수신하는 단계 및 수행하는 단계 중 하나 이상은 전자 디바이스 상에서 실행되는 보이스 어시스턴트 라이브러리의 하나 이상의 보이스 프로세싱 모듈들에 의해 수행되고, 보이스 프로세싱 모듈들은 하나 이상의 애플리케이션 프로그램들에 액세스가능한 복수의 보이스 프로세싱 동작들을 제공하고 그리고/또는 전자 디바이스 상에서 실행되거나 또는 실행가능한 소프트웨어를 동작시킨다.
[0009] 몇몇 구현들에서, 오디오 입력 시스템을 포함하는 전자 디바이스들에 대한 디바이스-독립적인(device-agnostic) 보이스 어시스턴트 라이브러리는, 복수의 상이한 전자 디바이스 타입들 상에서 구현되는 공통 동작 시스템 상에서 실행되도록 구성되는 하나 이상의 보이스 프로세싱 모듈들을 포함하며, 보이스 프로세싱 모듈들은 애플리케이션 프로그램들에 액세스가능한 복수의 보이스 프로세싱 동작들을 제공하고 전자 디바이스들 상에서 실행되는 소프트웨어를 동작시켜, 그에 의해, 보이스 프로세싱 동작들 중 하나 이상과 상호작용하도록 구성된 보이스-인에이블 애플리케이션들의 이식성을 가능하게 한다.
[0010] 몇몇 구현들에서, 전자 디바이스는 오디오 입력 시스템, 하나 이상의 프로세서들, 및 하나 이상의 프로세서들에 의해 실행될 하나 이상의 프로그램들을 저장한 메모리를 포함한다. 하나 이상의 프로그램들은, 디바이스에서 구두 입력을 수신하고; 구두 입력을 프로세싱하고; 요청을 원격 시스템에 송신하고 ― 요청은 구두 입력에 기반하여 결정된 정보를 포함함 ―; 요청에 대한 응답을 수신하며 ― 응답은 구두 입력에 기반한 정보에 따라 원격 시스템에 의해 생성됨 ―; 그리고 응답에 따라 동작을 수행하기 위한 명령들을 포함하며, 여기서, 수신, 프로세싱, 송신, 수신 및 수행 중 하나 이상은 전자 디바이스 상에서 실행되는 보이스 어시스턴트 라이브러리의 하나 이상의 보이스 프로세싱 모듈들에 의해 수행되고, 보이스 프로세싱 모듈들은 하나 이상의 애플리케이션 프로그램들에 액세스가능한 복수의 보이스 프로세싱 동작들을 제공하고 그리고/또는 전자 디바이스 상에서 실행되거나 또는 실행가능한 소프트웨어를 동작시킨다.
[0011] 몇몇 구현들에서, 비-일시적인 컴퓨터 판독가능 저장 매체는 하나 이상의 프로그램들을 저장한다. 하나 이상의 프로그램들은, 오디오 입력 시스템 및 하나 이상의 프로세서들을 갖는 전자 디바이스에 의해 실행될 경우, 전자 디바이스로 하여금, 디바이스에서 구두 입력을 수신하게 하고; 구두 입력을 프로세싱하게 하고; 요청을 원격 시스템에 송신하게 하고 ― 요청은 구두 입력에 기반하여 결정된 정보를 포함함 ―; 요청에 대한 응답을 수신하게 하며 ― 응답은 구두 입력에 기반한 정보에 따라 원격 시스템에 의해 생성됨 ―; 그리고 응답에 따라 동작을 수행하게 하는 명령들을 포함하며, 여기서, 수신, 프로세싱, 송신, 수신 및 수행 중 하나 이상은 전자 디바이스 상에서 실행되는 보이스 어시스턴트 라이브러리의 하나 이상의 보이스 프로세싱 모듈들에 의해 수행되고, 보이스 프로세싱 모듈들은 하나 이상의 애플리케이션 프로그램들에 액세스가능한 복수의 보이스 프로세싱 동작들을 제공하고 그리고/또는 전자 디바이스 상에서 실행되거나 또는 실행가능한 소프트웨어를 동작시킨다.
[0012] 도 1은 몇몇 구현들에 따른 예시적인 네트워크 환경을 예시한 블록 다이어그램이다.
[0013] 도 2는 몇몇 구현들에 따른 예시적인 보이스 어시스턴트 클라이언트 디바이스를 예시한 다이어그램이다.
[0014] 도 3은 몇몇 구현들에 따른 예시적인 서버 시스템을 예시한 다이어그램이다.
[0015] 도 4는 몇몇 구현들에 따른, 보이스 어시스턴트 라이브러리들의 기능적인 뷰를 예시한 블록 다이어그램이다.
[0016] 도 5는 몇몇 구현들에 따른, 디바이스 상에서 구두 입력들을 프로세싱하기 위한 방법의 흐름도이다.
[0017] 유사한 참조 부호들은 도면들 전반에 걸쳐 대응하는 부분들을 지칭한다.
[0018] 이제, 다양한 구현들에 대한 참조가 상세히 이루어질 것이며, 다양한 구현들의 예들은 첨부한 도면들에 예시되어 있다. 다음의 상세한 설명에서, 다수의 특정한 세부사항들이 본 발명 및 설명된 구현들의 완전한 이해를 제공하기 위해 기재된다. 그러나, 본 발명은 이러한 특정한 세부사항들 없이 실시될 수 있다. 다른 예시들에서, 잘-알려진 방법들, 절차들, 컴포넌트들, 및 회로들은 구현들의 양상들을 불필요하게 모호하게 하지 않기 위해 상세히 설명되지 않는다.
[0019] 몇몇 구현들에서, 보이스 어시스턴트의 목적은, 다양한 디바이스들에 걸쳐 이용가능하고 광범위하게 다양한 사용 경우들을 가능하게 하는 개인화된 보이스 인터페이스를 사용자에게 제공하여, 사용자의 하루 동안 일관된 경험을 제공하는 것이다. 보이스 어시스턴트 및/또는 관련된 기능은 퍼스트-파티(first party) 및 서드-파티(third-party) 제품들 및 디바이스들에 통합될 수 있다.
[0020] 예시적인 사용 경우는 미디어를 수반한다. 보이스 커맨드들은 보이스를 통한 음악, 라디오, 팟캐스트들, 뉴스, 및 다른 오디오 미디어의 재생 및 제어를 개시하는 데 사용될 수 있다. 예컨대, 사용자는 다양한 타입들의 오디오 미디어를 재생 또는 제어하기 위해 보이스 커맨드들(예컨대, "재즈 음악 재생", "107.5FM 재생", "다음 노래로 스킵", "'연속물(Serial)' 재생")을 말할 수 있다. 추가로, 그러한 커맨드들은 다양한 소스들, 이를테면 지상파 라디오 스테이션들의 온라인 스트리밍, 음악 가입 서비스들, 로컬 저장소, 원격 저장소 등으로부터의 오디오 미디어를 재생하는 데 사용될 수 있다. 추가로, 보이스 어시스턴트는 부가적인 콘텐츠를 지원하기 위해 캐스팅(casting) 디바이스들과 함께 이용가능한 통합들을 이용할 수 있다.
[0021] 다른 예시적인 사용 경우는 원격 재생을 수반한다. 사용자는 보이스 어시스턴트 기능을 포함하는 캐스팅 디바이스에 보이스 커맨드를 이슈할 수 있으며, 보이스 커맨드에 따라, 커맨드에서 특정된 디바이스 상에서, 하나 이상의 디바이스들의 특정된 그룹 내의 디바이스들 상에서, 또는 커맨드에서 특정된 영역 내의 하나 이상의 디바이스들 상에서 미디어가 재생(예컨대, 그 디바이스들로 캐스팅)된다. 사용자는 또한, 커맨드에서 일반적인 카테고리들 또는 특정한 콘텐츠를 특정할 수 있으며, 커맨드 내의 특정된 카테고리 또는 콘텐츠에 따라 적절한 미디어가 재생된다.
[0022] 추가의 예시적인 사용 경우는 비-미디어, 이를테면 생산성 특성들(예컨대, 타이머들, 알람 시계들, 캘린더), 홈 자동화, 검색 엔진(예컨대, 검색 쿼리들)에 의해 작동된 질문들 및 대답들, 재미(예컨대, 어시스턴트 개성, 농담들, 게임들, 이스터 에그들), 및 일상적인 태스크들(예컨대, 교통, 내비게이션, 음식, 금융, 선물들 등)이다.
[0023] 몇몇 구현들에서, 보이스 어시스턴트는 캐스팅 디바이스의 선택적인 특성으로서 제공되며, 보이스 어시스턴트 기능은 캐스팅 디바이스의 일부로서 업데이트될 수 있다.
[0024] 몇몇 구현들에서, 사용자들로부터의 보이스 커맨드들 및 구두 입력들 내의 핫워드들 또는 키워드들의 검출은 애플리케이션 프로세서에 의해 수행(예컨대, 사용자가 보이스 커맨드 또는 구두 입력을 말한 클라이언트 디바이스 또는 캐스팅 디바이스에서 수행)된다. 몇몇 구현들에서, 핫워드들의 검출은 외부 디지털 신호 프로세서에 의해 수행(예컨대, 사용자가 보이스 커맨드 또는 구두 입력을 말한 클라이언트 또는 캐스팅 디바이스와는 대조적으로 보이스 커맨드들을 프로세싱하는 서버 시스템에 의해 수행)된다.
[0025] 몇몇 구현들에서, 보이스 어시스턴트 특성을 갖는 디바이스는, 원거리 지원, "푸시 투 어시스트(push to assist)" 또는 "푸시 투 토크(push to talk)"(예컨대, 보이스 어시스턴트 기능을 개시하기 위한 버튼), 및 AC 전력 중 하나 이상을 포함한다.
[0026] 몇몇 구현들에서, 보이스 어시스턴트는, 오디오 입력(예컨대, 마이크로폰, 진행중인 재생을 위한 미디어 루프백(loopback)), 마이크로폰 상태(예컨대, 온/오프), 더킹(ducking)(예컨대, 어시스턴트가 핫워드 또는 푸시 투 토크 중 어느 하나를 통해 트리거링될 경우 모든 출력들의 볼륨을 감소시키는 것), 및 새로운 어시스턴트 이벤트들 및 상태 메시지들(예컨대, 어시스턴트가 트리거링되었음(예컨대, 핫워드를 들었음, 어시스턴트 버튼을 눌렀음), 스피치를 청취함, 서버 상에서 대기함, 응답, 응답 완료됨, 알람/타이머가 재생중임) 중 하나 이상에 대한 애플리케이션 프로그래밍 인터페이스(API)들을 포함한다.
[0027] 몇몇 구현들에서, 보이스 어시스턴트 기능을 갖는 디바이스는, 디바이스 상에서 보이스 어시스턴트의 기능을 인에이블링시키거나 용이하게 하도록(예컨대, 디바이스 상에서 보이스 어시스턴트 기능을 셋업하고, 튜토리얼들을 사용자에게 제공하도록) 구성 목적들을 위해 (예컨대, 스마트폰 상의 구성 애플리케이션을 이용하여) 다른 디바이스와 통신할 수 있다. 구성들 또는 셋업들은, 디바이스 위치를 특정하는 것, 사용자 계정과의 연관성, 보이스 제어에 대한 사용자 옵트-인(opt-in), 미디어 서비스들(예컨대, 비디오 스트리밍 서비스들, 음악 스트리밍 서비스들)에 연결되고 미디어 서비스들을 우선순위화하는 것, 홈 자동화 구성들 등을 포함할 수 있다.
[0028] 몇몇 구현들에서, 보이스 어시스턴트를 갖는 디바이스는 사용자에 대한 하나 이상의 사용자 인터페이스 엘리먼트들 또는 표시들을 포함할 수 있다. 사용자 인터페이스 엘리먼트들 중 하나 이상은 (예컨대, 하나 이상의 LED들을 사용하여 디스플레이되는 광 패턴들로서, 스피커에 의해 출력된 사운드 패턴들로서) 물리적이며, 핫워드에 의존하지 않는 "푸시 투 어시스트" 또는 "푸시 투 토크" 트리거, "마이크로폰 음소거" 트리거 및 시각적인 상태 표시, 즉 "핫워드 상태 대기"의 시각적인 표시, "핫워드 검출"의 시각적인 표시, 일정 거리(예컨대, 15피트(feet))에서 가시적인 "어시스턴트가 능동적으로 청취중임"의 시각적인 표시, "어시스턴트가 작동중/생각중임"의 시각적인 표시, "보이스 메시지/통지가 이용가능함"의 시각적인 표시, "볼륨 레벨"의 제어 방법 및 상태 표시자, 및 "일시정지/재개"의 제어 방법 중 하나 이상을 포함할 수 있다. 몇몇 구현들에서, 이들 물리적인 사용자 인터페이스 엘리먼트들은 클라이언트 디바이스 또는 캐스팅 디바이스에 의해 제공된다. 몇몇 구현들에서, 보이스 어시스턴트는 상이한 디바이스들에 걸친 경험의 일관성을 위해 상이한 디바이스들에 걸쳐 공통 세트의 사용자 인터페이스 엘리먼트들 또는 표시들을 지원한다.
[0029] 몇몇 구현들에서, 보이스 어시스턴트는 디바이스-특정 커맨드들 및/또는 핫워드들 뿐만 아니라 표준화되고 미리 정의된 세트의 커맨드들 및/또는 핫워드들을 지원한다.
[0030] 도 1은 몇몇 구현들에 따른 네트워크 환경(100)을 예시한다. 네트워크 환경(100)은 캐스팅 디바이스(106) 및/또는 보이스 어시스턴트 클라이언트 디바이스(104)를 포함한다. 캐스팅 디바이스(106)(예컨대, 구글 사의 크롬캐스트)는 오디오 입력 디바이스(108)(예컨대, 마이크로폰) 및 오디오 출력 디바이스(110)(예컨대, 하나 이상의 스피커들)에 직접 또는 그렇지 않으면 통신가능하게 커플링된다. 몇몇 구현들에서, 오디오 입력 디바이스(108) 및 오디오 출력 디바이스(110) 둘 모두는 캐스팅 디바이스(106)에 통신가능하게 커플링된 디바이스(예컨대, 스피커 시스템, 텔레비전, 사운드 바)의 컴포넌트들이다. 몇몇 구현들에서, 오디오 입력 디바이스(108)는 캐스팅 디바이스(106)의 컴포넌트이고, 오디오 출력 디바이스(110)는 캐스팅 디바이스(106)가 통신가능하게 커플링된 디바이스의 컴포넌트이며, 그 역도 가능하다. 몇몇 구현들에서, 오디오 입력 디바이스(108) 및 오디오 출력 디바이스(110)는 캐스팅 디바이스(106)의 컴포넌트들이다.
[0031] 몇몇 구현들에서, 캐스팅 디바이스(106)는 클라이언트(102)에 통신가능하게 커플링된다. 클라이언트(102)는 보이스 어시스턴트 특성들을 포함하는 캐스팅 디바이스(106)의 구성을 용이하게 하는 애플리케이션 또는 모듈(예컨대, 캐스팅 디바이스 셋팅 앱)을 포함할 수 있다.
[0032] 몇몇 구현들에서, 캐스팅 디바이스(106)는 디스플레이(144)에 커플링된다.
[0033] 몇몇 구현들에서, 캐스팅 디바이스(106)는 하나 이상의 시각적인 표시자들(142)(예컨대, LED 광들)을 포함한다.
[0034] 몇몇 구현들에서, 캐스팅 디바이스(106)는 수신기 모듈(146)을 포함한다. 몇몇 구현들에서, 수신기 모듈(146)은, 예컨대 하드웨어 기능들을 포함하고 콘텐츠 소스와 통신하는 캐스팅 디바이스(106)를 동작시킨다. 몇몇 구현들에서, 상이한 콘텐츠 소스들에 대해 캐스팅 디바이스(106)에 상이한 수신기 모듈들(146)이 존재한다. 몇몇 구현들에서, 수신기 모듈(146)은 상이한 콘텐츠 소스들에 대한 각각의 서브-모듈들을 포함한다.
[0035] 보이스 어시스턴트 클라이언트 디바이스(104)(예컨대, 구글 사의 구글 어시스턴트, 구글 사의 구글 홈을 갖는 스마트폰, 랩톱 또는 데스크톱 컴퓨터, 태블릿 컴퓨터, 보이스 커맨드 디바이스, 모바일 디바이스 또는 차량내 시스템)는 오디오 입력 디바이스(132)(예컨대, 마이크로폰) 및 오디오 출력 디바이스(134)(예컨대, 하나 이상의 스피커들, 헤드폰들)를 포함한다. 몇몇 구현들에서, 보이스 어시스턴트 클라이언트 디바이스(104)(예컨대, 구글 사의 구글 어시스턴트, 구글 사의 구글 홈을 갖는 보이스 커맨드 디바이스, 모바일 디바이스 또는 차량내 시스템)는 클라이언트(140)(예컨대, 스마트폰, 태블릿 디바이스)에 통신가능하게 커플링된다. 클라이언트(140)는 보이스 어시스턴트 특성들을 포함하는 보이스 어시스턴트 클라이언트 디바이스(104)의 구성을 용이하게 하는 애플리케이션 또는 모듈(예컨대, 보이스 커맨드 디바이스 셋팅 앱)을 포함할 수 있다.
[0036] 몇몇 구현들에서, 보이스 어시스턴트 클라이언트 디바이스(104)는 하나 이상의 시각적인 표시자들(152)(예컨대, LED 광들)을 포함한다. 시각적인 표시자들(예컨대, LED 광들)을 갖는 보이스 어시스턴트 클라이언트 디바이스의 일 예는, 발명의 명칭이 "LED Design Language for Visual Affordance of Voice User Interfaces"으로 2016년 5월 13일자로 출원되었고, 그 전체가 본 명세서에 인용에 의해 포함되는 미국 가출원 제 62/336,566호의 도 4a에 예시된다.
[0037] 캐스팅 디바이스(106) 및 보이스 어시스턴트 클라이언트 디바이스(104)는 보이스 어시스턴트 모듈 또는 라이브러리(136)의 각각의 인스턴스들을 포함한다. 보이스 어시스턴트 모듈/라이브러리(136)는 다양한 디바이스들(예컨대, 캐스팅 디바이스(106), 보이스 어시스턴트 클라이언트 디바이스(104))에 걸쳐 보이스 어시스턴트 기능을 구현하는 모듈/라이브러리이다. 보이스 어시스턴트 기능은 디바이스-특정 특성들(예컨대, 보이스 어시스턴트를 통해 디바이스-특정 특성들을 제어하기 위한 지원)을 여전히 허용하면서 다양한 디바이스들에 걸쳐 일관적이다. 몇몇 구현들에서, 보이스 어시스턴트 모듈 또는 라이브러리(136)는 디바이스들에 걸쳐 동일하거나 또는 유사하며; 동일한 라이브러리의 인스턴스들은 다양한 디바이스들에 포함될 수 있다.
[0038] 몇몇 구현들에서, 디바이스의 타입에 의존하여, 보이스 어시스턴트 모듈/라이브러리(136)는 디바이스에 설치된 애플리케이션에, 디바이스 운영 시스템에 포함되거나, 또는 디바이스에 임베딩(예컨대, 펌웨어에 임베딩)된다.
[0039] 몇몇 구현들에서, 캐스팅 디바이스(106)의 보이스 어시스턴트 모듈/라이브러리(136-1)는 보이스 어시스턴트 동작들을 수행하기 위해 수신기 모듈(146)과 통신한다.
[0040] 몇몇 구현들에서, 캐스팅 디바이스(106)의 보이스 어시스턴트 모듈/라이브러리(136-1)는 시각적인 표시자들(142)을 제어하거나 또는 그렇지 않으면 시각적인 표시자들(142)에 영향을 줄 수 있다.
[0041] 몇몇 구현들에서, 보이스 어시스턴트 클라이언트 디바이스(104)의 보이스 어시스턴트 모듈/라이브러리(136-2)는 시각적인 표시자들(152)을 제어하거나 또는 그렇지 않으면 시각적인 표시자들(152)에 영향을 줄 수 있다.
[0042] 캐스팅 디바이스(106) 및 보이스 어시스턴트 클라이언트 디바이스(104)는 하나 이상의 통신 네트워크들(112)(예컨대, 로컬 영역 네트워크들, 광역 네트워크들, 인터넷)을 통해 서버 시스템(114)에 통신가능하게 커플링된다. 보이스 어시스턴트 모듈/라이브러리(136)는, 오디오 입력 디바이스(108/132)에 의해 픽업(pick up)된(예컨대, 캡처된) 구두 입력을 검출(예컨대, 수신)하고, (예컨대, 핫워드들을 검출하기 위해) 구두 입력을 프로세싱하며, 프로세싱된 구두 입력 또는 프로세싱된 구두 입력의 인코딩을 서버(114)에 송신한다. 서버(114)는 프로세싱된 구두 입력 또는 그의 인코딩을 수신하고, 수신된 구두 입력을 프로세싱하여, 구두 입력에 대한 적절한 응답을 결정한다. 적절한 응답은 기능 또는 동작을 수행하기 위한 캐스팅 디바이스(106) 또는 보이스 어시스턴트 클라이언트 디바이스(104)에 대한 콘텐츠, 정보, 또는 명령들 또는 커맨드들 또는 메타데이터일 수 있다. 서버(114)는 응답을 캐스팅 디바이스(106) 또는 보이스 어시스턴트 클라이언트 디바이스(104)에 전송하며, 여기서, 콘텐츠 또는 정보가 출력되고(예컨대, 오디오 출력 디바이스(110/134)를 통해 출력되고) 그리고/또는 기능이 수행된다. 프로세싱의 일부로서, 서버(114)는 응답에 대한 콘텐츠 또는 정보, 또는 그에 대한 참조들을 획득하도록 하나 이상의 콘텐츠 또는 정보 소스들(138)과 통신할 수 있다. 몇몇 구현들에서, 콘텐츠 또는 정보 소스들(138)은, 예컨대, 검색 엔진들, 데이터베이스들, 사용자의 계정과 연관된 정보(예컨대, 캘린더, 태스크 리스트, 이메일), 웹사이트들, 및 미디어 스트리밍 서비스들을 포함한다. 몇몇 구현들에서, 보이스 어시스턴트 클라이언트 디바이스(104) 및 캐스팅 디바이스(106)는 서로 통신하거나 또는 상호작용할 수 있다. 그러한 통신 또는 상호작용의 예들 뿐만 아니라 보이스 어시스턴트 클라이언트 디바이스(104)(예컨대, 구글 사의 구글 홈)의 예시적인 동작들은, 발명의 명칭이 "LED Design Language for Visual Affordance of Voice User Interfaces"으로 2016년 5월 13일자로 출원된 미국 가출원 제 62/336,566호, 발명의 명칭이 "Voice-Controlled Closed Caption Display"으로 2016년 5월 13일자로 출원된 미국 가출원 제 62/336,569호, 및 발명이 명칭이 "Media Transfer among Media Output Devices"으로 2016년 5월 13일자로 출원된 미국 가출원 제 62/336,565호에 설명되어 있으며, 이들 가출원들 모두는 그들 전체가 본 명세서에 인용에 의해 포함된다.
[0043] 몇몇 구현들에서, 보이스 어시스턴트 모듈/라이브러리(136)는 오디오 입력 디바이스(108/132)에 의해 캡처된 구두 입력을 수신하고, (어떠한 프로세싱도 없거나 프로세싱이 거의 없는) 구두 입력 또는 그의 인코딩을 서버(114)에 송신한다. 서버(114)는 구두 입력을 프로세싱하여 핫워드들을 검출하고, 적절한 응답을 결정하며, 응답을 캐스팅 디바이스(106) 또는 보이스 어시스턴트 클라이언트 디바이스(104)에 전송한다.
[0044] 구두 입력이 캐스팅 디바이스(106) 또는 보이스 어시스턴트 클라이언트 디바이스(104)가 기능을 수행하기 위한 커맨드를 포함한다고 서버(114)가 결정하면, 서버(114)는 응답으로, 캐스팅 디바이스(106) 또는 보이스 어시스턴트 클라이언트 디바이스(104)가 그 기능을 수행하도록 명령하는 명령들 또는 메타데이터를 송신한다. 기능은 디바이스에 특정할 수 있으며, 보이스 어시스턴트에서 그러한 기능들을 지원하기 위한 능력은 보이스 어시스턴트 모듈/라이브러리(136)에 부가된 또는 연결된 맞춤형 모듈 또는 기능으로서 캐스팅 디바이스(106) 또는 클라이언트(104)에 포함될 수 있다.
[0045] 몇몇 구현들에서, 서버(114)는, 구두 입력 프로세싱 동작들을 수행하고 구두 입력들에 대한 응답들을 결정하는 보이스 프로세싱 후단(148)을 포함하거나 그에 커플링된다.
[0046] 몇몇 구현들에서, 서버(114)는 다운로딩가능한 보이스 어시스턴트 라이브러리(150)를 포함한다. 다운로딩가능한 보이스 어시스턴트 라이브러리(150)(예컨대, 보이스 어시스턴트 라이브러리(136)와 동일한 것, 또는 그의 업데이트)는 새로운 특성들 및 기능 또는 업데이트들을 포함할 수 있으며, 보이스 어시스턴트 라이브러리를 디바이스에 부가하거나 또는 보이스 어시스턴트 라이브러리(136)를 업데이트하기 위해 다운로딩될 수 있다.
[0047] 도 2는 몇몇 구현들에 따른, 네트워크 환경(100)의 예시적인 보이스 어시스턴트 클라이언트 디바이스(104) 또는 캐스팅 디바이스(106)를 예시한 블록 다이어그램이다. 보이스 어시스턴트 클라이언트 디바이스(104)의 예들은, 모바일 폰, 태블릿 컴퓨터, 랩톱 컴퓨터, 데스크톱 컴퓨터, 무선 스피커(예컨대, 구글 사의 구글 홈), 보이스 커맨드 디바이스(예컨대, 구글 사의 구글 홈), 텔레비전, 사운드바, 캐스팅 디바이스(예컨대, 구글 사의 크롬캐스트), 미디어 스트리밍 디바이스, 가정용 전자기기, 소비자 전자 디바이스, 차량내 시스템, 및 웨어러블 개인용 디바이스를 포함하지만 이에 제한되지는 않는다. 보이스 어시스턴트 클라이언트 디바이스(104)(예컨대, 구글 사의 구글 홈, 구글 어시스턴트 능력을 갖는 모바일 디바이스) 또는 캐스팅 디바이스(106)(예컨대, 구글 사의 크롬캐스트)는 통상적으로, 하나 이상의 프로세싱 유닛(CPU)들(202), 하나 이상의 네트워크 인터페이스들(204), 메모리(206), 및 이들 컴포넌트들을 상호연결시키기 위한 하나 이상의 통신 버스들(208)을 포함(종종 칩셋으로 지칭됨)한다. 보이스 어시스턴트 클라이언트 디바이스(104) 또는 캐스팅 디바이스(106)는, 오디오 입력 디바이스(108 또는 132)(예컨대, 보이스-커맨드 입력 유닛 또는 마이크로폰) 및 선택적으로는 다른 입력 디바이스들, 이를테면 키보드, 마우스, 터치 스크린 디스플레이, 터치-감응형 입력 패드, 제스처 캡처 카메라, 또는 다른 입력 버튼들 또는 제어들을 포함하여 사용자 입력을 용이하게 하는 하나 이상의 입력 디바이스들(210)을 포함한다. 몇몇 구현들에서, 보이스 어시스턴트 클라이언트 디바이스(102)는 키보드를 보완하거나 또는 대체하기 위해 마이크로폰 및 보이스 인식, 또는 카메라 및 제스처 인식을 사용한다. 보이스 어시스턴트 클라이언트 디바이스(104) 또는 캐스팅 디바이스(106)는 또한, 오디오 출력 디바이스(110 또는 134)(예컨대, 하나 이상의 스피커들, 헤드폰들 등) 및 선택적으로는 사용자 인터페이스들의 프리젠테이션을 가능하게 하고 콘텐츠 및 정보를 디스플레이하는 하나 이상의 시각적인 디스플레이들(예컨대 디스플레이(144)) 및/또는 하나 이상의 시각적인 표시자들(142 또는 152)(예컨대, LED들)을 포함하는 하나 이상의 출력 디바이스들(212)을 포함한다. 선택적으로, 보이스 어시스턴트 클라이언트 디바이스(104) 또는 캐스팅 디바이스(106)는 보이스 어시스턴트 클라이언트 디바이스(104) 또는 캐스팅 디바이스(106)의 위치를 결정하기 위한 위치 검출 유닛(214), 이를테면 GPS(글로벌 포지셔닝 위성) 또는 다른 지오-로케이션(geo-location) 수신기를 포함한다. 보이스 어시스턴트 클라이언트 디바이스(104) 또는 캐스팅 디바이스(106)는 선택적으로 또한, 다른 오브젝트들(예컨대, 웨어러블 개인용 디바이스의 경우에는 사용자-착용자)에 대한 보이스 어시스턴트 클라이언트 디바이스(104) 또는 캐스팅 디바이스(106)의 근접도를 결정하기 위한 근접도 검출 디바이스(215), 예컨대 IR 센서를 포함할 수 있다. 선택적으로, 보이스 어시스턴트 클라이언트 디바이스(104) 또는 캐스팅 디바이스(106)는 센서(들)(213)(예컨대, 가속도계, 자이로스코프 등)를 포함한다.
[0048] 메모리(206)는 고속 랜덤 액세스 메모리, 이를테면 DRAM, SRAM, DDR RAM, 또는 다른 랜덤 액세스 솔리드 스테이트 메모리 디바이스들을 포함하고; 그리고 선택적으로는, 비-휘발성 메모리, 이를테면 하나 이상의 자기 디스크 저장 디바이스들, 하나 이상의 광 디스크 저장 디바이스들, 하나 이상의 플래시 메모리 디바이스들, 또는 하나 이상의 다른 비-휘발성 솔리드 스테이트 저장 디바이스들을 포함한다. 메모리(206)는 선택적으로, 하나 이상의 프로세싱 유닛들(202)로부터 원격으로 로케이팅된 하나 이상의 저장 디바이스들을 포함한다. 메모리(206) 또는 대안적으로는 메모리(206) 내의 비-휘발성 메모리는 비-일시적인 컴퓨터 판독가능 저장 매체를 포함한다. 몇몇 구현들에서, 메모리(206) 또는 메모리(206)의 비-일시적인 컴퓨터 판독가능 저장 매체는 다음의 프로그램들, 모듈들, 및 데이터 구조들, 또는 이들의 서브세트 또는 슈퍼세트를 저장한다:
● 다양한 기본적인 시스템 서비스들을 핸들링하고 하드웨어 종속 태스크들을 수행하기 위한 절차들을 포함하는 운영 시스템(216);
● 하나 이상의 네트워크 인터페이스들(204)(유선 또는 무선) 및 하나 이상의 네트워크들(112), 이를테면 인터넷, 다른 광역 네트워크들, 로컬 영역 네트워크들, 대도시 영역 네트워크들 등을 통해 보이스 어시스턴트 클라이언트 디바이스(104) 또는 캐스팅 디바이스(106)를 다른 디바이스들(예컨대, 서버 시스템(114), 클라이언트(102, 140), 다른 보이스 어시스턴트 클라이언트 디바이스들(104) 또는 캐스팅 디바이스(106))에 연결시키기 위한 네트워크 통신 모듈(218);
● 하나 이상의 출력 디바이스들(212)(예컨대, 디스플레이들, 스피커들 등)을 통해 보이스 어시스턴트 클라이언트 디바이스(104) 또는 캐스팅 디바이스(106)에서 정보의 프리젠테이션을 가능하게 하기 위한 사용자 인터페이스 모듈(220);
● 하나 이상의 입력 디바이스들(210)에 의해 캡처 또는 수신된 하나 이상의 사용자 입력들 또는 상호작용들을 프로세싱하고 입력 또는 상호작용을 해석하기 위한 입력 프로세싱 모듈(222);
● 구두 입력들을 프로세싱하고, 구두 입력들을 서버(114)에 제공하고, 서버(114)로부터 응답들을 수신하며, 응답들을 출력하기 위한 보이스 어시스턴트 모듈(136); 및
● 보이스 어시스턴트 모듈(136)과 연관된 데이터를 적어도 저장하고, 다음을 포함하는 클라이언트 데이터(226):
○ 보이스 어시스턴트 모듈(136) 및 보이스 어시스턴트 기능에 대한 셋팅들 및 구성들과 연관된 정보를 저장하기 위한 보이스 어시스턴트 셋팅들(228);
○ 콘텐츠 또는 정보의 미리 정의된 그리고/또는 사용자-특정된 소스들 및 카테고리들을 저장하기 위한 콘텐츠/정보 소스들(230) 및 카테고리들(232);
○ 보이스 어시스턴트 모듈(136)의 동작 및 사용, 이를테면, 수신된 커맨드들 및 요청들, 커맨드들 및 요청들에 대한 응답들, 커맨드들 및 요청들에 대한 응답으로 수행된 동작들 등과 연관된 정보(예컨대, 로그들)를 저장하기 위한 사용 이력(234);
○ 콘텐츠/정보 소스들(230)에서 사용자들의 각각의 계정들에 액세스하기 위한 하나 이상의 사용자들의 인가들 및 인증 정보, 및 그 인가된 계정들에 대한 계정 정보를 저장하기 위한 사용자 계정들 및 인가들(236); 및
○ 재생을 위한 콘텐츠를 수신하기 위해 콘텐츠 소스들과 통신하는 것을 포함하여, 캐스팅 디바이스(106)의 캐스팅 기능을 동작시키기 위한 수신기 모듈(146).
[0049] 몇몇 구현들에서, 보이스 어시스턴트 클라이언트 디바이스(104) 또는 캐스팅 디바이스(106)는 보이스 어시스턴트 및 관련된 기능에 대한 하나 이상의 라이브러리들 및 하나 이상의 애플리케이션 프로그래밍 인터페이스(API)들을 포함한다. 이들 라이브러리들은 보이스 어시스턴트 모듈(136) 또는 수신기 모듈(146)에 포함되거나 또는 그들에 의해 연결될 수 있다. 라이브러리들은, 보이스 어시스턴트 기능과 연관된 모듈들 또는 보이스 어시스턴트 기능을 용이하게 했던 다른 기능들을 포함한다. API들은 보이스 어시스턴트 기능을 용이하게 하는 하드웨어 및 다른 소프트웨어(예컨대, 운영 시스템, 다른 애플리케이션들)에 대한 인터페이스들을 제공한다. 예컨대, 보이스 어시스턴트 클라이언트 라이브러리(240), 디버깅 라이브러리(242), 플랫폼 API들(244), 및 포직스(POSIX) API들(246)이 메모리(206)에 저장될 수 있다. 이들 라이브러리들 및 API들은 도 4를 참조하여 아래에서 추가로 설명된다.
[0050] 몇몇 구현들에서, 보이스 어시스턴트 클라이언트 디바이스(104) 또는 캐스팅 디바이스(106)는, 보이스 어시스턴트 클라이언트 라이브러리(240)의 모듈들 및 기능들을 사용하는 보이스 애플리케이션(250), 및 선택적으로는 디버깅 라이브러리(242), 플랫폼 API들(244), 및 포직스 API들(246)을 포함한다. 몇몇 구현들에서, 보이스 애플리케이션(250)은 보이스 어시스턴트 클라이언트 라이브러리(240) 등의 사용을 통해 보이스-인에이블되는 퍼스트-파티 또는 서드-파티 애플리케이션이다.
[0051] 위에서 식별된 엘리먼트들 각각은 이전에 언급된 메모리 디바이스들 중 하나 이상에 저장될 수 있으며, 위에서 설명된 기능을 수행하기 위한 명령들의 세트에 대응한다. 위에서 식별된 모듈들 또는 프로그램들(즉, 명령들의 세트들)은 별개의 소프트웨어 프로그램들, 절차들, 모듈들 또는 데이터 구조들로서 구현될 필요는 없으며, 따라서, 이들 모듈들의 다양한 서브세트들은 다양한 구현들에서 조합되거나 또는 그렇지 않으면 재배열될 수 있다. 몇몇 구현들에서, 메모리(206)는 선택적으로, 위에서 식별된 모듈들 및 데이터 구조들의 서브세트를 저장한다. 더욱이, 메모리(206)는 선택적으로, 위에서 설명되지 않은 부가적인 모듈들 및 데이터 구조들을 저장한다.
[0052] 도 3은 몇몇 구현들에 따른, 네트워크 환경(100)의 예시적인 서버 시스템(114)을 예시한 블록 다이어그램이다. 서버(114)는 통상적으로, 하나 이상의 프로세싱 유닛(CPU)들(302), 하나 이상의 네트워크 인터페이스들(304), 메모리(306), 및 이들 컴포넌트들을 상호연결시키기 위한 하나 이상의 통신 버스들(308)을 포함(종종 칩셋으로 지칭됨)한다. 서버(114)는 선택적으로, 사용자 입력을 용이하게 하는 하나 이상의 입력 디바이스들(310), 이를테면 키보드, 마우스, 보이스-커맨드 입력 유닛 또는 마이크로폰, 터치 스크린 디스플레이, 터치-감응형 입력 패드, 제스처 캡처 카메라, 또는 다른 입력 버튼들 또는 제어들을 포함한다. 더욱이, 서버(114)는 키보드를 보완하거나 또는 대체하기 위해 마이크로폰 및 보이스 인식 또는 카메라 및 제스처 인식을 사용할 수 있다. 몇몇 구현들에서, 서버(114)는 선택적으로, 예컨대, 전자 디바이스 상에 인쇄된 그래픽 시리즈 코드들의 이미지들을 캡처하기 위한 하나 이상의 카메라들, 스캐너들, 또는 포토 센서 유닛들을 포함한다. 서버(114)는 선택적으로 또한, 사용자 인터페이스들의 프리젠테이션을 가능하게 하고 콘텐츠를 디스플레이하며, 하나 이상의 스피커들 및/또는 하나 이상의 시각적인 디스플레이들을 포함하는 하나 이상의 출력 디바이스들(312)을 포함한다.
[0053] 메모리(306)는 고속 랜덤 액세스 메모리, 이를테면 DRAM, SRAM, DDR RAM, 또는 다른 랜덤 액세스 솔리드 스테이트 메모리 디바이스들을 포함하고; 그리고 선택적으로는, 비-휘발성 메모리, 이를테면 하나 이상의 자기 디스크 저장 디바이스들, 하나 이상의 광 디스크 저장 디바이스들, 하나 이상의 플래시 메모리 디바이스들, 또는 하나 이상의 다른 비-휘발성 솔리드 스테이트 저장 디바이스들을 포함한다. 메모리(306)는 선택적으로, 하나 이상의 프로세싱 유닛들(302)로부터 원격으로 로케이팅된 하나 이상의 저장 디바이스들을 포함한다. 메모리(306) 또는 대안적으로는 메모리(306) 내의 비-휘발성 메모리는 비-일시적인 컴퓨터 판독가능 저장 매체를 포함한다. 몇몇 구현들에서, 메모리(306) 또는 메모리(306)의 비-일시적인 컴퓨터 판독가능 저장 매체는 다음의 프로그램들, 모듈들, 및 데이터 구조들, 또는 이들의 서브세트 또는 슈퍼세트를 저장한다:
● 다양한 기본적인 시스템 서비스들을 핸들링하고 하드웨어 종속 태스크들을 수행하기 위한 절차들을 포함하는 운영 시스템(316);
● 하나 이상의 네트워크 인터페이스들(304)(유선 또는 무선) 및 하나 이상의 네트워크들(112), 이를테면 인터넷, 다른 광역 네트워크들, 로컬 영역 네트워크들, 대도시 영역 네트워크들 등을 통해 서버 시스템(114)을 다른 디바이스들(예컨대, 보이스 어시스턴트 클라이언트 디바이스(104), 캐스팅 디바이스(106), 클라이언트(102), 클라이언트(140))에 연결시키기 위한 네트워크 통신 모듈(318);
● 보이스 어시스턴트 클라이언트 디바이스(104) 또는 캐스팅 디바이스(106)의 위치 정보에 기반하여 클라이언트 디바이스(104) 또는 캐스팅 디바이스(106)의 근접도 및/또는 위치를 결정하기 위한 근접도/위치 결정 모듈(320);
● 보이스 어시스턴트 구두 입력들(예컨대, 보이스 어시스턴트 클라이언트 디바이스들(104) 및 캐스팅 디바이스들(106)로부터 수신된 구두 입력들)을 프로세싱하고, 다음 중 하나 이상을 포함하는 보이스 어시스턴트 후단(116):
○ 구두 입력들에서 커맨드들 및 요청들을 식별하도록 구두 입력들을 프로세싱하기 위한 구두 입력 프로세싱 모듈(324);
○ 커맨드들 및 요청들에 대한 응답으로 콘텐츠 및 정보를 수집하기 위한 콘텐츠/정보 수집 모듈(326); 및
○ 커맨드들 및 요청들에 대한 응답으로 구두 출력들을 생성하고, 응답 콘텐츠 및 정보로 구두 출력들을 채우기 위한 응답 생성 모듈(328);
● 보이스 어시스턴트 플랫폼의 동작과 연관된 데이터를 적어도 저장하고 다음을 포함하는 서버 시스템 데이터(330):
○ 보이스 어시스턴트 플랫폼의 사용자들과 연관된 정보를 저장하고, 다음을 포함하는 사용자 데이터(332);
■ 보이스 어시스턴트 셋팅들(228)에 대응하는 보이스 어시스턴트 셋팅 정보, 및 콘텐츠/정보 소스들(230) 및 카테고리들(232)에 대응하는 정보를 저장하기 위한 사용자 보이스 어시스턴트 셋팅들(334);
■ 커맨드들 및 요청들 및 대응하는 응답들의 이력들을 포함하는 보이스 어시스턴트와 관련된 사용자들의 이력들(예컨대, 로그들)을 저장하기 위한 사용자 이력(336); 및
■ 콘텐츠/정보 소스들(230)에서 사용자들의 각각의 계정들에 액세스하기 위한 사용자들의 인가들 및 인증 정보, 및 사용자 계정들 및 인가들(236)에 대응하는 그 인가된 계정들에 대한 계정 정보를 저장하기 위한 사용자 계정들 및 인가들(338).
[0054] 위에서 식별된 엘리먼트들 각각은 이전에 언급된 메모리 디바이스들 중 하나 이상에 저장될 수 있으며, 위에서 설명된 기능을 수행하기 위한 명령들의 세트에 대응한다. 위에서 식별된 모듈들 또는 프로그램들(즉, 명령들의 세트들)은 별개의 소프트웨어 프로그램들, 절차들, 모듈들 또는 데이터 구조들로서 구현될 필요는 없으며, 따라서, 이들 모듈들의 다양한 서브세트들은 다양한 구현들에서 조합되거나 또는 그렇지 않으면 재배열될 수 있다. 몇몇 구현들에서, 메모리(306)는 선택적으로, 위에서 식별된 모듈들 및 데이터 구조들의 서브세트를 저장한다. 더욱이, 메모리(306)는 선택적으로, 위에서 설명되지 않은 부가적인 모듈들 및 데이터 구조들을 저장한다.
[0055] 몇몇 구현들에서, 보이스 어시스턴트 모듈(136)(도 2)은 하나 이상의 라이브러리들을 포함한다. 라이브러리는 각각의 기능들을 수행하는 모듈들 또는 서브-모듈들을 포함한다. 예컨대, 보이스 어시스턴트 클라이언트 라이브러리는 보이스 어시스턴트 기능들을 수행하는 모듈들을 포함한다. 보이스 어시스턴트 모듈(136)은 또한, 특정 하드웨어(예컨대, 클라이언트 또는 캐스팅 디바이스 상의 하드웨어), 특정 운영 소프트웨어, 또는 원격 시스템들과 협업하기 위한 하나 이상의 애플리케이션 프로그래밍 인터페이스(API)들을 포함할 수 있다.
[0056] 몇몇 구현들에서, 라이브러리는 예컨대, 대역통과, 필터링, 삭제, 및 핫워드 검출을 포함하는 오디오 신호 프로세싱 동작들을 지원하는 모듈들을 포함한다. 몇몇 구현들에서, 라이브러리는 후단(예컨대, 서버-기반) 스피치 프로세싱 시스템들에 연결되기 위한 모듈들을 포함한다. 몇몇 구현들에서, 라이브러리는 디버깅(예컨대, 스피치 인식 디버깅, 하드웨어 이슈 디버깅, 자동화된 테스팅)을 위한 모듈들을 포함한다.
[0057] 도 4는 보이스 어시스턴트 클라이언트 디바이스(104) 또는 캐스팅 디바이스(106)에 저장되고, 보이스 어시스턴트 모듈(136) 또는 다른 애플리케이션에 의해 구동될 수 있는 라이브러리들 및 API들을 예시한다. 라이브러리들 및 API들은 보이스 어시스턴트 클라이언트 라이브러리(240), 디버깅 라이브러리(242), 플랫폼 API(244), 및 포직스 API들(246)을 포함할 수 있다. 보이스 어시스턴트 클라이언트 디바이스(104) 또는 캐스팅 디바이스(106)의 애플리케이션들(예컨대, 보이스 어시스턴트 모듈(136), 또는 보이스 어시스턴트와의 협업을 지원하기를 원할 수 있는 다른 애플리케이션들)은 애플리케이션에서 보이스 어시스턴트 기능을 제공 또는 지원하기 위해 라이브러리들 및 API들을 포함하거나, 그들에 연결되거나, 또는 그들을 구동시킬 수 있다. 몇몇 구현들에서, 보이스 어시스턴트 클라이언트 라이브러리(240) 및 디버깅 라이브러리(242)는 별개의 라이브러리들이며; 보이스 어시스턴트 클라이언트 라이브러리(240) 및 디버깅 라이브러리(242)의 라이브러리들을 별개로 유지하는 것은, 이들 라이브러리들의 상이한 보안 함의(implication)들을 고려하는 상이한 릴리즈 및 업데이트 절차들을 용이하게 한다.
[0058] 몇몇 구현들에서, 라이브러리들은 유연하며; 라이브러리들은 다수의 디바이스 타입들에 걸쳐 사용되고, 동일한 보이스 어시스턴트 기능을 통합할 수 있다.
[0059] 몇몇 구현들에서, 라이브러리들은 표준 공유 오브젝트들(예컨대, 표준 리눅스 공유 오브젝트들)에 의존하며, 따라서, 이들 표준 공유 오브젝트들을 사용하는 상이한 운영 시스템들 또는 플랫폼들(예컨대, 임베디드 리눅스의 다양한 리눅스 배포들 및 특색들)과 호환가능하다.
[0060] 몇몇 구현들에서, 포직스 API들(246)은 다양한 운영 시스템들과의 호환성을 위해 표준 API들을 제공한다. 따라서, 보이스 어시스턴트 클라이언트 라이브러리(240)는 상이한 포직스-호환가능 운영 시스템들의 디바이스들에 포함될 수 있으며, 포직스 API들(246)은 보이스 어시스턴트 클라이언트 라이브러리(240)와 상이한 운영 시스템들 사이에 호환 인터페이스를 제공한다.
[0061] 몇몇 구현들에서, 라이브러리들은 보이스 어시스턴트를 구현하는 상이한 타입들의 디바이스들에 걸쳐 이용가능한 기본 사용 경우들(예컨대, 타이머들, 알람들, 볼륨 제어)을 지원하고 용이하게 하기 위한 모듈들을 포함한다.
[0062] 몇몇 구현들에서, 보이스 어시스턴트 클라이언트 라이브러리(240)는, 보이스 어시스턴트를 시작하고, 구성하며, 보이스 어시스턴트와 상호작용하기 위한 기능들 또는 모듈들을 포함하는 제어기 인터페이스(402)를 포함한다. 몇몇 구현들에서, 제어기 인터페이스(402)는, 디바이스에서 보이스 어시스턴트를 시작하기 위한 "Start()" 기능 또는 모듈(404); (예컨대, 액션이 보이스 어시스턴트를 통해 실행가능할 수 있도록) 액션을 보이스 어시스턴트에 등록하기 위한 "RegisterAction()" 기능 또는 모듈(406); 업데이트된 셋팅들로 보이스 어시스턴트를 재구성하기 위한 "Reconfigure()" 기능(408); 및 기본적인 이벤트들에 대한 기능들의 세트를 어시스턴트에 등록하기 위한 "RegisterEventObserver()" 기능(410)을 포함한다.
[0063] 몇몇 구현들에서, 보이스 어시스턴트 클라이언트 라이브러리(240)는 특정한 보이스 어시스턴트 기능과 연관된 다수의 기능들 또는 모듈들을 포함한다. 예컨대, 핫워드 검출 모듈(412)은 핫워드들을 검출하기 위해 보이스 입력들을 프로세싱한다. 스피치 프로세싱 모듈(414)은 보이스 입력들 내의 스피치를 프로세싱하고, 스피치를 텍스트로 변환하거나 텍스트를 스피치로 변환한다(예컨대, 워드들 및 어구들을 식별, 스피치-텍스트 데이터 변환, 텍스트 데이터-스피치 변환). 액션 프로세싱 모듈(416)은 구두 입력들에 대한 응답으로 액션들 및 동작들을 수행한다. 로컬 타이머들/알람들/볼륨 제어 모듈(418)은 디바이스에서의 알람 시계, 타이머, 및 볼륨 제어 기능 및 보이스 입력에 의한 그들의 제어(예컨대, 디바이스에서 타이머들, 시계들, 알람 시계들을 유지하는 것)를 용이하게 한다. 로깅/메트릭 모듈(420)은 보이스 입력들 및 응답들을 레코딩(예컨대, 로깅)할 뿐만 아니라, 관련 메트릭들(예컨대, 응답 시간, 유휴 시간 등)을 결정 및 레코딩한다. 오디오 입력 프로세싱 모듈(422)은 보이스 입력들의 오디오를 프로세싱한다. MP3 디코딩 모듈(424)은 MP3-인코딩된 오디오를 디코딩한다. 오디오 입력 모듈(426)은 오디오 입력 디바이스(예컨대, 마이크로폰)를 통해 오디오를 캡처한다. 오디오 출력 모듈(428)은 오디오 출력 디바이스(예컨대, 스피커)를 통해 오디오를 출력한다. 이벤트 큐잉(queueing) 및 상태 추적 모듈(430)은 디바이스에서 보이스 어시스턴트와 연관된 이벤트들을 큐잉하고, 디바이스에서 보이스 어시스턴트의 상태를 추적한다.
[0064] 몇몇 구현들에서, 디버깅 라이브러리(242)는 디버깅을 위한 모듈들 및 기능들을 제공한다. 예컨대, HTTP 서버 모듈(432)은 연결 이슈들의 디버깅을 용이하게 하고, 디버그 서버/오디오 스트리밍 모듈(434)은 오디오 이슈들을 디버깅한다.
[0065] 몇몇 구현들에서, 플랫폼 API(244)는 보이스 어시스턴트 클라이언트 라이브러리(240)와 디바이스의 하드웨어 기능 사이에 인터페이스를 제공한다. 예컨대, 플랫폼 API는, 디바이스 상에서 버튼 입력들을 캡처하기 위한 버튼 입력 인터페이스(436), 루프백 오디오를 캡처하기 위한 루프백 오디오 인터페이스(438), 메트릭들을 로깅 및 결정하기 위한 로깅 및 메트릭 인터페이스(440), 오디오 입력을 캡처하기 위한 오디오 입력 인터페이스(442), 오디오를 출력하기 위한 오디오 출력 인터페이스(444), 및 보이스 어시스턴트와 상호작용할 수 있는 다른 서비스들로 사용자를 인증하기 위한 인증 인터페이스(446)를 포함한다. 도 4에 도시된 보이스 어시스턴트 클라이언트 라이브러리 구성의 이점은, 그 구성이, 동일하거나 또는 유사한 보이스 프로세싱 기능이 일관된 API들 및 보이스 어시스턴트 기능들의 세트들을 갖는 넓은 범위의 보이스 어시스턴트 디바이스 타입들 상에서 제공될 수 있게 한다는 것이다. 이러한 일관성은 보이스 어시스턴트 애플리케이션들의 이식성 및 보이스 어시스턴트 동작들의 일관성을 지원하며, 이는 차례로, 상이한 디바이스 타입들 상에서 실행되는 보이스 어시스턴트 애플리케이션들 및 기능들에 대해 일관된 사용자 상호작용들 및 익숙함을 촉진시킨다. 몇몇 구현들에서, 보이스 어시스턴트 클라이언트 라이브러리(240)의 전부 또는 일부는 서버-기반 보이스 어시스턴트 애플리케이션들(예컨대, 프로세싱을 위해 서버(114)로 송신된 보이스 입력들에 대해 동작되는 서버 애플리케이션들)을 지원하기 위해 서버(114)에서 제공될 수 있다.
[0066] 제어기(402)("Controller") 및 관련된 클래스들에 대응하는 클래스들 및 기능들의 예시적인 코드가 아래에 나타난다. 이들 클래스들 및 기능들은 다양한 디바이스들 상에서 실행가능한 애플리케이션들에 의하여 공통 API들을 통해 이용될 수 있다.
[0067] 아래의 클래스 "ActionModule"는 보이스 어시스턴트 서버에 의해 제공되는 커맨드들을 핸들링하기 위해 애플리케이션이 그 자신의 모듈들을 등록하는 것을 용이하게 한다:
Figure pct00001
Figure pct00002
[0068] 아래의 클래스 "BuildInfo"는 (예컨대, 애플리케이션, 플랫폼, 및/또는 디바이스의 식별자들 또는 버전 넘버들을 이용하여) 보이스 어시스턴트 클라이언트 라이브러리(240) 또는 보이스 어시스턴트 클라이언트 디바이스(104) 그 자체를 구동시키는 애플리케이션을 설명하기 위해 사용될 수 있다:
Figure pct00003
[0069] 아래의 클래스 "EventDelegate"는 기본적인 이벤트들과 연관된 기능들, 이를테면 스피치 인식의 시작, 보이스 응답을 출력하는 보이스 어시스턴트의 시작 및 완료 등을 정의한다:
Figure pct00004
Figure pct00005
[0070] 아래의 클래스 "DefaultEventDelegate"는 특정한 이벤트들에 대한 어느 것도 행하지 않는 오버라이드(do-nothing override)들에 대한 기능들을 정의한다:
Figure pct00006
Figure pct00007
[0071] 아래의 클래스 "Settings"은 제어기(402)에 제공될 수 있는 셋팅들(예컨대, 로케일(locale), 지오로케이션, 파일 시스템 디렉토리)을 정의한다:
Figure pct00008
Figure pct00009
[0072] 아래의 클래스 "Controller"는 제어기(402)에 대응하고, Start(), Reconfigure(), RegisterAction(), 및 RegisterEventObserver() 기능들은 기능들 Start()(404), Reconfigure()(408), RegisterAction()(406), 및 RegisterEventObserver()(410)에 각각 대응한다.
Figure pct00010
Figure pct00011
[0073] 몇몇 구현들에서, 보이스 어시스턴트 클라이언트 디바이스(104) 또는 캐스팅 디바이스(106)는 플랫폼(예컨대, 동일한 플랫폼을 사용하여 다른 디바이스들과 통신하기 위한 인터페이스들의 세트, 및 인터페이스들의 세트를 지원하도록 구성된 운영 시스템)을 구현한다. 아래의 예시적인 코드는, 보이스 어시스턴트 클라이언트 라이브러리(402)가 플랫폼과 상호작용하기 위한 인터페이스와 연관된 기능들을 예시한다.
[0074] 아래의 클래스 "Authentication"는 특정한 계정들로 보이스 어시스턴트의 사용자를 인증하기 위한 인증 토큰을 정의한다:
Figure pct00012
[0075] 아래의 클래스 "OutputStreamType"는 오디오 출력 스트림들의 타입들을 정의한다:
Figure pct00013
[0076] 아래의 클래스 "SampleFormat"은 지원된 오디오 샘플 포맷들(예컨대, PCM 포맷들)을 정의한다:
Figure pct00014
[0077] 아래의 "BufferFormat"은 디바이스의 오디오 버퍼에 저장된 데이터의 포맷을 정의한다:
Figure pct00015
[0078] 클래스 "AudioBuffer"는 오디오 데이터에 대한 버퍼를 정의한다:
Figure pct00016
Figure pct00017
[0079] 아래의 클래스 "AudioOutput"는 오디오 출력에 대한 인터페이스를 정의한다:
Figure pct00018
Figure pct00019
Figure pct00020
[0080] 아래의 클래스 "AudioInput"은 오디오 입력을 캡처하기 위한 인터페이스를 정의한다:
Figure pct00021
Figure pct00022
[0081] 아래의 클래스 "Resources"는 시스템 리소스들에 대한 액세스를 정의한다:
Figure pct00023
[0082] 아래의 클래스 "PlatformApi"는 보이스 어시스턴트 클라이언트 라이브러리(240)에 대한 플랫폼 API(예컨대, 플랫폼 API(244))를 특정한다:
Figure pct00024
Figure pct00025
[0083] 몇몇 구현들에서, 볼륨 제어는 보이스 어시스턴트 클라이언트 라이브러리(240) 외부에서 핸들링될 수 있다. 예컨대, 시스템 볼륨은 보이스 어시스턴트 클라이언트 라이브러리(240)의 제어부의 외부의 디바이스에 의해 유지될 수 있다. 다른 예로서, 보이스 어시스턴트 클라이언트 라이브러리(240)는 볼륨 제어를 여전히 지원할 수 있지만, 보이스 어시스턴트 클라이언트 라이브러리(240)에 대한 볼륨 제어를 위한 요청들은 디바이스로 안내된다.
[0084] 몇몇 구현들에서, 보이스 어시스턴트 클라이언트 라이브러리(240) 내의 알람 및 타이머 기능은 사용자에 의해 디스에이블링되거나 또는 디바이스에서 라이브러리를 구현할 경우 디스에이블링될 수 있다.
[0085] 몇몇 구현들에서, 보이스 어시스턴트 클라이언트 라이브러리(240)는 또한, 디바이스 LED들 상의 LED 애니메이션들의 디스플레이를 용이하게 하기 위해 디바이스 상에서 LED들에 대한 인터페이스를 지원한다.
[0086] 몇몇 구현들에서, 보이스 어시스턴트 클라이언트 라이브러리(240)는 캐스팅 디바이스(106)의 캐스팅 수신기 모듈(예컨대, 수신기 모듈(146))에 포함되거나 또는 그에 연결될 수 있다. 보이스 어시스턴트 클라이언트 라이브러리(240)와 수신기 모듈(146) 사이의 연결은, 예컨대, 부가적인 액션들(예컨대, 로컬 미디어 재생)에 대한 지원 및 캐스팅 디바이스(106) 상의 LED들의 제어를 위한 지원을 포함할 수 있다.
[0087] 도 5는 몇몇 구현들에 따른, 디바이스 상에서 구두 입력들을 프로세싱하기 위한 방법(500)의 흐름도를 예시한다. 방법(500)은, 오디오 입력 시스템(예컨대, 오디오 입력 디바이스(108/132)), 하나 이상의 프로세서들(예컨대, 프로세싱 유닛(들)(202)), 및 하나 이상의 프로세서들에 의한 실행을 위한 하나 이상의 프로그램들을 저장한 메모리(예컨대, 메모리(206))를 갖는 전자 디바이스(예컨대, 보이스 어시스턴트 클라이언트 디바이스(104), 캐스팅 디바이스(106))에서 수행된다. 몇몇 구현들에서, 전자 디바이스는, 오디오 입력 시스템(예컨대, 오디오 입력 디바이스(108/132)), 하나 이상의 프로세서들(예컨대, 프로세싱 유닛(들)(202)), 및 하나 이상의 프로세서들에 의해 실행될 하나 이상의 프로그램들을 저장한 메모리(예컨대, 메모리(206))를 포함하며, 하나 이상의 프로그램들은 방법(500)을 수행하기 위한 명령들을 포함한다. 몇몇 구현들에서, 비-일시적인 컴퓨터 판독가능 저장 매체는 하나 이상의 프로그램들을 저장하며, 하나 이상의 프로그램들은, 오디오 입력 시스템(예컨대, 오디오 입력 디바이스(108/132)) 및 하나 이상의 프로세서들(예컨대, 프로세싱 유닛(들)(202))을 갖는 전자 디바이스에 의해 실행될 경우, 전자 디바이스로 하여금 방법(500)을 수행하게 하는 명령들을 포함한다. 방법(500)을 수행하기 위한 프로그램들 또는 명령들은 도 2 내지 도 4를 참조하여 위에서 설명된 모듈들, 라이브러리들 등에 포함될 수 있다.
[0088] 디바이스는 디바이스에서 구두 입력을 수신한다(502). 클라이언트 디바이스(104)/캐스팅 디바이스(106)는 사용자에 의해 말해진 구두 입력(예컨대, 보이스 입력)을 캡처한다.
[0089] 디바이스는 구두 입력을 프로세싱한다(504). 클라이언트 디바이스(104)/캐스팅 디바이스(106)는 구두 입력을 프로세싱한다. 프로세싱은, 핫워드 검출, 텍스트 데이터로의 변환, 및 사용자에 의해 제공된 커맨드들, 요청들, 및/또는 파라미터들에 대응하는 워드들 및 어구들의 식별을 포함할 수 있다. 몇몇 구현들에서, 프로세싱은 최소일 수 있거나, 또는 어떠한 프로세싱도 전혀 존재하지 않을 수 있다. 예컨대, 프로세싱은 서버(114)로의 송신을 위해 구두 입력 오디오를 인코딩하는 것, 또는 서버(114)로의 송신을 위해 구두 입력의 캡처된 로우(raw) 오디오를 준비하는 것을 포함할 수 있다.
[0090] 디바이스는 요청을 원격 시스템에 송신하며, 요청은 구두 입력에 기반하여 결정된 정보를 포함한다(506). 클라이언트 디바이스(104)/캐스팅 디바이스(106)는 구두 입력으로부터 요청 및 하나 이상의 연관된 파라미터들을 식별하도록 구두 입력을 프로세싱함으로써 구두 입력으로부터 요청을 결정한다. 클라이언트 디바이스(104)/캐스팅 디바이스(106)는 결정된 요청을 원격 시스템(예컨대, 서버(114))에 송신하며, 여기서, 원격 시스템은 요청에 대한 응답을 결정 및 생성한다. 몇몇 구현들에서, 클라이언트 디바이스(104)/캐스팅 디바이스(106)는 구두 입력을 (예컨대, 인코딩된 오디오로서, 로우 오디오 데이터로서) 서버(114)에 송신하며, 서버(114)는 요청 및 연관된 파라미터들을 결정하기 위해 구두 입력을 프로세싱한다.
[0091] 디바이스는 요청에 대한 응답을 수신하며, 여기서, 응답은 구두 입력에 기반한 정보에 따라 원격 시스템에 의해 생성된다(508). 원격 시스템(예컨대, 서버(114))은 요청에 대한 응답을 결정 및 생성하고, 응답을 클라이언트 디바이스(104)/캐스팅 디바이스(106)에 송신한다.
[0092] 디바이스는 응답에 따라 동작을 수행한다(510). 클라이언트 디바이스(104)/캐스팅 디바이스(106)는 수신된 응답에 따라 하나 이상의 동작들을 수행한다. 예컨대, 응답이 오디오에 의해 특정한 정보를 출력하기 위한 디바이스에 대한 커맨드이면, 클라이언트 디바이스(104)/캐스팅 디바이스(106)는 정보를 리트리브하고, 정보를 스피치 오디오 출력으로 변환하며, 스피커를 통해 스피치 오디오를 출력한다. 다른 예로서, 응답이 미디어 콘텐츠를 재생하기 위한 디바이스에 대한 커맨드이면, 클라이언트 디바이스(104)/캐스팅 디바이스(106)는 미디어 콘텐츠를 리트리브하고, 미디어 콘텐츠를 재생한다.
[0093] 수신, 프로세싱, 송신, 수신 및 수행 중 하나 이상은 전자 디바이스 상에서 실행되는 보이스 어시스턴트 라이브러리의 하나 이상의 보이스 프로세싱 모듈들에 의해 수행되며, 보이스 프로세싱 모듈들은 하나 이상의 애플리케이션 프로그램들에 액세스가능한 복수의 보이스 프로세싱 동작들을 제공하고 그리고/또는 전자 디바이스 상에서 실행되거나 또는 실행가능한 소프트웨어를 동작시킨다(512). 클라이언트 디바이스(104)/캐스팅 디바이스(106)는 수신, 프로세싱, 송신, 수신, 및 수행 단계들 중 하나 이상을 수행하기 위한 기능들 및 모듈들을 포함하는 보이스 어시스턴트 클라이언트 라이브러리(240)를 가질 수 있다. 보이스 어시스턴트 클라이언트 라이브러리(240)의 모듈들은, 라이브러리(240)를 포함하거나 그에 연결되는 (예컨대, 라이브러리(240) 및 관련된 API들을 구동시키는) 클라이언트 디바이스(104)/캐스팅 디바이스(106)의 애플리케이션들, 운영 시스템들, 플랫폼 소프트웨어에 액세스가능한 다수의 보이스 프로세싱 및 어시스턴트 동작들을 제공한다.
[0094] 몇몇 구현들에서, 보이스 프로세싱 모듈들과 연관된 적어도 몇몇 보이스 프로세싱 동작들은, 광역 네트워크를 통해 전자 디바이스와 상호연결된 원격 시스템 상에서 수행된다. 예컨대, 요청을 결정하기 위한 구두 입력의 프로세싱은, 네트워크(들)(112)를 통해 클라이언트 디바이스(104)/캐스팅 디바이스(106)와 연결된 서버(114)에 의해 수행될 수 있다.
[0095] 몇몇 구현들에서, 보이스 어시스턴트 라이브러리는, 복수의 상이한 디바이스 타입들 상에서 동작가능한 공통 운영 시스템 상에서 실행가능하며, 그에 의해, 보이스 프로세싱 동작들 중 하나 이상과 상호작용하도록 구성된 보이스-인에이블 애플리케이션들의 이식성을 가능하게 한다. 보이스 어시스턴트 클라이언트 라이브러리(240)(및 관련된 라이브러리들 및 API들, 예컨대, 디버깅 라이브러리(242), 플랫폼 API(244), 포직스 API(246))는 미리 정의된 운영 시스템(예컨대, 리눅스)의 표준 엘리먼트들(예컨대, 오브젝트들)을 사용하며, 따라서, 미리 정의된 운영 시스템의 배포 또는 특색(예컨대, 상이한 리눅스 또는 리눅스-기반 배포들 또는 특색들)을 구동시키는 다양한 디바이스들 상에서 동작가능하다. 이러한 방식으로, 보이스 어시스턴트 기능은 다양한 디바이스들에 이용가능하며, 보이스 어시스턴트 경험은 다양한 디바이스들에 걸쳐 일관된다.
[0096] 몇몇 구현들에서, 요청 및 응답은 디바이스에서 핸들링될 수 있다. 예컨대, 디바이스에 로컬일 수 있는 기본적인 기능들, 이를테면 타이머들, 알람 시계들, 시계들, 및 볼륨 제어에 대해, 클라이언트 디바이스(104)/캐스팅 디바이스(106)는 구두 입력을 프로세싱하고, 요청이 이들 기본적인 기능들 중 하나에 대응한다고 결정하고, 디바이스에서 응답을 결정하며, 응답에 따라 하나 이상의 동작들을 수행할 수 있다. 디바이스는 로깅 목적들을 위해 요청 및 응답을 여전히 서버(114)에 리포팅할 수 있다.
[0097] 몇몇 구현들에서, 오디오 입력 시스템을 포함하는 전자 디바이스들에 대한 디바이스-독립적인 보이스 어시스턴트 라이브러리는, 복수의 상이한 전자 디바이스 타입들 상에서 구현되는 공통 동작 시스템 상에서 실행되도록 구성되는 하나 이상의 보이스 프로세싱 모듈들을 포함하며, 보이스 프로세싱 모듈들은 애플리케이션 프로그램들에 액세스가능한 복수의 보이스 프로세싱 동작들을 제공하고 전자 디바이스들 상에서 실행되는 소프트웨어를 동작시켜, 그에 의해, 보이스 프로세싱 동작들 중 하나 이상과 상호작용하도록 구성된 보이스-인에이블 애플리케이션들의 이식성을 가능하게 한다. 보이스 어시스턴트 클라이언트 라이브러리(240)는, 라이브러리와 동일한 미리 정의된 운영 시스템을 공유하는 다양한 디바이스들 상에서 구동될 수 있는 라이브러리이며(예컨대, 라이브러리 및 디바이스 운영 시스템은 리눅스-기반임), 따라서 라이브러리는 디바이스-독립적이다. 라이브러리(240)는 다양한 디바이스들에 걸쳐 애플리케이션들에 액세스가능한 보이스 어시스턴트 기능에 대해 다수의 모듈들을 제공한다.
[0098] 몇몇 구현들에서, 보이스 프로세싱 모듈들과 연관된 적어도 몇몇 보이스 프로세싱 동작들은, 광역 네트워크를 통해 전자 디바이스들과 상호연결된 후단 서버 상에서 수행된다. 예컨대, 라이브러리(240)는 요청을 결정하기 위한 프로세싱을 위해 구두 입력을 서버(114)에 송신하도록 서버(114)와 통신하는 모듈들을 포함한다.
[0099] 몇몇 구현들에서, 보이스 프로세싱 동작들은 전자 디바이스들과 (예컨대, 직접적으로 또는 통신가능하게) 커플링된 디바이스들을 제어하도록 구성되는 디바이스-특정 동작들을 포함한다. 라이브러리(240)는 클라이언트 디바이스(104)/캐스팅 디바이스(106)에 커플링된 다른 디바이스들(예컨대, 무선 스피커들, 스마트 텔레비전 등)을 제어하기 위한 기능들 또는 모듈들을 포함할 수 있다.
[00100] 몇몇 구현들에서, 보이스 프로세싱 동작들은, 전자 디바이스들의 사용자에게 또는 전자 디바이스들과 (예컨대, 직접적으로 또는 통신가능하게) 커플링된 디바이스들 상에서 요청된 정보 및/또는 미디어 콘텐츠를 제공하도록 구성되는 정보 및 미디어 요청 동작들을 포함한다. 라이브러리(240)는 정보 또는 미디어를 리트리브하고, 클라이언트 디바이스(104)/캐스팅 디바이스(106) 또는 커플링된 디바이스 상에서 정보 또는 미디어를 제공(예컨대, 이메일을 큰소리로 읽거나, 뉴스 기사들을 큰 소리로 읽거나, 스트리밍 음악을 재생함)하기 위한 기능들 또는 모듈들을 포함할 수 있다.
[00101] 용어들 "제1", "제2" 등이 다양한 엘리먼트들을 설명하기 위해 본 명세서에서 사용될 수 있지만, 이들 엘리먼트들이 이들 용어들에 의해 제한되지 않아야 함을 이해할 것이다. 이들 용어들은 하나의 엘리먼트를 다른 엘리먼트와 구별하기 위해서만 사용된다. 예컨대, 제1 접촉은 제2 접촉으로 지칭될 수 있고, 유사하게 제2 접촉은 제1 접촉으로 지칭될 수 있으며, 이는, "제1 접촉"의 모든 발생들이 일관되게 이름변경되고 제2 접촉의 모든 발생들이 일관되게 이름변경되는 한 설명의 의미를 변경시킨다. 제1 접촉 및 제2 접촉 둘 모두는 접촉이지만, 그들은 동일한 접촉은 아니다.
[00102] 본 명세서에서 사용된 용어는 특정한 구현들만을 설명하려는 목적을 위한 것이며, 청구범위를 제한하도록 의도되지 않는다. 구현들의 설명 및 첨부된 청구범위에서 사용된 바와 같이, 단수형들은, 문맥상 명확하게 달리 표시되지 않으면, 복수형들을 또한 포함하도록 의도된다. 본 명세서에서 사용된 바와 같이, 용어 "및/또는"은 연관된 열거된 항목들 중 하나 이상의 항목들의 임의의 그리고 모든 가능한 조합들을 지칭하고 포함한다는 것이 또한 이해될 것이다. 본 명세서에서 사용되는 경우 용어들 "구비" 및/또는 "구비하는"이 언급된 특성들, 정수들, 단계들, 동작들, 엘리먼트들, 및/또는 컴포넌트들의 존재를 특정하지만, 하나 이상의 다른 특성들, 정수들, 단계들, 동작들, 엘리먼트들, 컴포넌트들, 및/또는 그들의 그룹들의 존재 또는 부가를 배제하지는 않는다는 것이 추가로 이해될 것이다.
[00103] 본 명세서에서 사용된 바와 같이, 용어 "~라면"은 문맥에 의존하여, 언급된 조건 선례가 참인 "~경우" 또는 "~시에" 또는 "결정하는 것에 대한 응답으로" 또는 "결정에 따라" 또는 "검출하는 것에 대한 응답으로"를 의미하도록 해석될 수 있다. 유사하게, 어구 "[언급된 조건 선례가 참]이라고 결정되면" 또는 "[언급된 조건 선례가 참이면]" 또는 "[언급된 조건 선례가 참]인 경우"는 문맥에 의존하여, 언급된 조건 선례가 참인 것으로 "결정할 시에" 또는 "결정하는 것에 대한 응답으로" 또는 "결정에 따라" 또는 "검출할 시에" 또는 "검출하는 것에 대한 응답으로"를 의미하도록 해석될 수 있다.
[00104] 이제, 다양한 구현들에 대한 참조가 상세히 이루어질 것이며, 다양한 구현들의 예들은 첨부한 도면들에 예시되어 있다. 다음의 상세한 설명에서, 다수의 특정한 세부사항들이 본 발명 및 설명된 구현들의 완전한 이해를 제공하기 위해 기재된다. 그러나, 본 발명은 이러한 특정한 세부사항들 없이 실시될 수 있다. 다른 예시들에서, 잘-알려진 방법들, 절차들, 컴포넌트들, 및 회로들은 구현들의 양상들을 불필요하게 모호하게 하지 않기 위해 상세히 설명되지 않는다.
[00105] 전술한 설명은 설명의 목적을 위해 특정한 구현들을 참조하여 설명되었다. 그러나, 위의 예시적인 논의들은, 포괄적이거나 본 발명을 개시된 정확한 형태로 제한하도록 의도되지 않는다. 많은 변형들 및 변경들이 위의 교시들의 관점에서 가능하다. 본 발명의 원리들 및 본 발명의 실제 애플리케이션들을 최상으로 설명하고, 그에 의해, 당업자들이 고려된 특정 사용에 적합하게 본 발명 및 다양한 구현들을 다양한 변형들과 함께 최상으로 이용할 수 있게 하기 위해 구현들이 선정되고 설명되었다.

Claims (15)

  1. 방법으로서,
    오디오 입력 시스템, 하나 이상의 프로세서들, 및 상기 하나 이상의 프로세서들에 의한 실행을 위한 하나 이상의 프로그램들을 저장한 메모리를 포함하는 전자 디바이스에서:
    상기 디바이스에서 구두 입력(verbal input)을 수신하는 단계;
    상기 구두 입력을 프로세싱하는 단계;
    요청을 원격 시스템에 송신하는 단계 ― 상기 요청은 상기 구두 입력에 기반하여 결정된 정보를 포함함 ―;
    상기 요청에 대한 응답을 수신하는 단계 ― 상기 응답은 상기 구두 입력에 기반한 상기 정보에 따라 상기 원격 시스템에 의해 생성됨 ―; 및
    상기 응답에 따라 동작을 수행하는 단계
    를 포함하고,
    상기 수신하는 단계, 상기 프로세싱하는 단계, 상기 송신하는 단계, 상기 수신하는 단계 및 상기 수행하는 단계 중 하나 이상은 상기 전자 디바이스 상에서 실행되는 보이스 어시스턴트(voice assistant) 라이브러리의 하나 이상의 보이스 프로세싱 모듈들에 의해 수행되고,
    상기 보이스 프로세싱 모듈들은 하나 이상의 애플리케이션 프로그램들에 액세스가능한 복수의 보이스 프로세싱 동작들을 제공하고 그리고/또는 상기 전자 디바이스 상에서 실행되거나 또는 실행가능한 소프트웨어를 동작시키는,
    방법.
  2. 제1항에 있어서,
    상기 보이스 프로세싱 모듈들과 연관된 적어도 몇몇 보이스 프로세싱 동작들은, 광역 네트워크를 통해 상기 전자 디바이스와 상호연결된 상기 원격 시스템 상에서 수행되는,
    방법.
  3. 제1항 또는 제2항에 있어서,
    상기 보이스 어시스턴트 라이브러리는, 복수의 상이한 디바이스 타입들 상에서 동작가능한 공통 운영 시스템 상에서 실행가능하여, 상기 보이스 프로세싱 동작들 중 하나 이상과 상호작용하도록 구성된 보이스-인에이블 애플리케이션들의 이식성(portability)을 가능하게 하는,
    방법.
  4. 오디오 입력 시스템을 포함하는 전자 디바이스들에 대한 디바이스-독립적인(agnostic) 보이스 어시스턴트 라이브러리로서,
    복수의 상이한 전자 디바이스 타입들 상에서 구현되는 공통 동작 시스템 상에서 실행되도록 구성된 하나 이상의 보이스 프로세싱 모듈들을 포함하며,
    상기 보이스 프로세싱 모듈들은 애플리케이션 프로그램들에 액세스가능한 복수의 보이스 프로세싱 동작들을 제공하고 상기 전자 디바이스들 상에서 실행되는 소프트웨어를 동작시켜, 상기 보이스 프로세싱 동작들 중 하나 이상과 상호작용하도록 구성된 보이스-인에이블 애플리케이션들의 이식성을 가능하게 하는,
    보이스 어시스턴트 라이브러리.
  5. 제4항에 있어서,
    상기 보이스 프로세싱 모듈들과 연관된 적어도 몇몇 보이스 프로세싱 동작들은, 광역 네트워크를 통해 상기 전자 디바이스들과 상호연결된 후단 서버 상에서 수행되는,
    보이스 어시스턴트 라이브러리.
  6. 제4항 또는 제5항에 있어서,
    상기 보이스 프로세싱 동작들은 상기 전자 디바이스들과 커플링된 디바이스들을 제어하도록 구성된 디바이스-특정 동작들을 포함하는,
    보이스 어시스턴트 라이브러리.
  7. 제4항 내지 제6항 중 어느 한 항에 있어서,
    상기 보이스 프로세싱 동작들은, 상기 전자 디바이스들의 사용자에게 또는 상기 전자 디바이스들과 커플링된 디바이스들 상에서 요청된 정보 및/또는 미디어 콘텐츠를 제공하도록 구성된 정보 및 미디어 요청 동작들을 포함하는,
    보이스 어시스턴트 라이브러리.
  8. 전자 디바이스로서,
    오디오 입력 시스템;
    하나 이상의 프로세서들; 및
    상기 하나 이상의 프로세서들에 의해 실행될 하나 이상의 프로그램들을 저장한 메모리를 포함하며,
    상기 하나 이상의 프로그램들은,
    상기 디바이스에서 구두 입력을 수신하고;
    상기 구두 입력을 프로세싱하고;
    요청을 원격 시스템에 송신하고 ― 상기 요청은 상기 구두 입력에 기반하여 결정된 정보를 포함함 ―;
    상기 요청에 대한 응답을 수신하며 ― 상기 응답은 상기 구두 입력에 기반한 상기 정보에 따라 상기 원격 시스템에 의해 생성됨 ―; 그리고
    상기 응답에 따라 동작을 수행하기 위한
    명령들을 포함하고,
    상기 수신하는 것, 상기 프로세싱하는 것, 상기 송신하는 것, 상기 수신하는 것 및 상기 수행하는 것 중 하나 이상은 상기 전자 디바이스 상에서 실행되는 보이스 어시스턴트 라이브러리의 하나 이상의 보이스 프로세싱 모듈들에 의해 수행되고,
    상기 보이스 프로세싱 모듈들은 하나 이상의 애플리케이션 프로그램들에 액세스가능한 복수의 보이스 프로세싱 동작들을 제공하고 그리고/또는 상기 전자 디바이스 상에서 실행되거나 또는 실행가능한 소프트웨어를 동작시키는,
    전자 디바이스.
  9. 제8항에 있어서,
    상기 보이스 프로세싱 모듈들과 연관된 적어도 몇몇 보이스 프로세싱 동작들은, 광역 네트워크를 통해 상기 전자 디바이스와 상호연결된 상기 원격 시스템 상에서 수행되는,
    전자 디바이스.
  10. 제8항 또는 제9항에 있어서,
    상기 보이스 어시스턴트 라이브러리는, 복수의 상이한 디바이스 타입들 상에서 동작가능한 공통 운영 시스템 상에서 실행가능하여, 상기 보이스 프로세싱 동작들 중 하나 이상과 상호작용하도록 구성된 보이스-인에이블 애플리케이션들의 이식성을 가능하게 하는,
    전자 디바이스.
  11. 하나 이상의 프로그램들을 저장하는 비-일시적인 컴퓨터 판독가능 저장 매체로서,
    상기 하나 이상의 프로그램들은, 오디오 입력 시스템 및 하나 이상의 프로세서들을 갖는 전자 디바이스에 의해 실행될 경우, 상기 전자 디바이스로 하여금,
    상기 디바이스에서 구두 입력을 수신하게 하고;
    상기 구두 입력을 프로세싱하게 하고;
    요청을 원격 시스템에 송신하게 하고 ― 상기 요청은 상기 구두 입력에 기반하여 결정된 정보를 포함함 ―;
    상기 요청에 대한 응답을 수신하게 하며 ― 상기 응답은 상기 구두 입력에 기반한 상기 정보에 따라 상기 원격 시스템에 의해 생성됨 ―; 그리고
    상기 응답에 따라 동작을 수행하게 하는
    명령들을 포함하고,
    상기 수신하는 것, 상기 프로세싱하는 것, 상기 송신하는 것, 상기 수신하는 것 및 상기 수행하는 것 중 하나 이상은 상기 전자 디바이스 상에서 실행되는 보이스 어시스턴트 라이브러리의 하나 이상의 보이스 프로세싱 모듈들에 의해 수행되고,
    상기 보이스 프로세싱 모듈들은 하나 이상의 애플리케이션 프로그램들에 액세스가능한 복수의 보이스 프로세싱 동작들을 제공하고 그리고/또는 상기 전자 디바이스 상에서 실행되거나 또는 실행가능한 소프트웨어를 동작시키는,
    비-일시적인 컴퓨터 판독가능 저장 매체.
  12. 제11항에 있어서,
    상기 보이스 프로세싱 모듈들과 연관된 적어도 몇몇 보이스 프로세싱 동작들은, 광역 네트워크를 통해 상기 전자 디바이스와 상호연결된 상기 원격 시스템 상에서 수행되는,
    비-일시적인 컴퓨터 판독가능 저장 매체.
  13. 제11항 또는 제12항에 있어서,
    상기 보이스 어시스턴트 라이브러리는, 복수의 상이한 디바이스 타입들 상에서 동작가능한 공통 운영 시스템 상에서 실행가능하여, 상기 보이스 프로세싱 동작들 중 하나 이상과 상호작용하도록 구성된 보이스-인에이블 애플리케이션들의 이식성을 가능하게 하는,
    비-일시적인 컴퓨터 판독가능 저장 매체.
  14. 전자 디바이스로서,
    오디오 입력 시스템;
    하나 이상의 프로세서들; 및
    상기 하나 이상의 프로세서들에 의해 실행될 하나 이상의 프로그램들을 저장한 메모리
    를 포함하고,
    상기 하나 이상의 프로그램들은, 제1항 내지 제3항 중 어느 한 항의 방법을 수행하기 위한 명령들을 포함하는,
    전자 디바이스.
  15. 하나 이상의 프로그램들을 저장하는 비-일시적인 컴퓨터 판독가능 저장 매체로서,
    상기 하나 이상의 프로그램들은, 오디오 입력 시스템 및 하나 이상의 프로세서들을 갖는 전자 디바이스에 의해 실행될 경우, 상기 전자 디바이스로 하여금, 제1항 내지 제3항 중 어느 한 항의 방법을 수행하게 하는 명령들을 포함하는,
    비-일시적인 컴퓨터 판독가능 저장 매체.
KR1020187033471A 2016-05-10 2017-05-10 디바이스들 상의 보이스 어시스턴트에 대한 구현들 KR102168974B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020207029660A KR102307976B1 (ko) 2016-05-10 2017-05-10 디바이스들 상의 보이스 어시스턴트에 대한 구현들

Applications Claiming Priority (11)

Application Number Priority Date Filing Date Title
US201662334434P 2016-05-10 2016-05-10
US62/334,434 2016-05-10
US201662336569P 2016-05-13 2016-05-13
US201662336551P 2016-05-13 2016-05-13
US201662336566P 2016-05-13 2016-05-13
US201662336565P 2016-05-13 2016-05-13
US62/336,566 2016-05-13
US62/336,565 2016-05-13
US62/336,569 2016-05-13
US62/336,551 2016-05-13
PCT/US2017/032002 WO2017197010A1 (en) 2016-05-10 2017-05-10 Implementations for voice assistant on devices

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020207029660A Division KR102307976B1 (ko) 2016-05-10 2017-05-10 디바이스들 상의 보이스 어시스턴트에 대한 구현들

Publications (2)

Publication Number Publication Date
KR20190005885A true KR20190005885A (ko) 2019-01-16
KR102168974B1 KR102168974B1 (ko) 2020-10-22

Family

ID=58765933

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020207029660A KR102307976B1 (ko) 2016-05-10 2017-05-10 디바이스들 상의 보이스 어시스턴트에 대한 구현들
KR1020187033471A KR102168974B1 (ko) 2016-05-10 2017-05-10 디바이스들 상의 보이스 어시스턴트에 대한 구현들

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020207029660A KR102307976B1 (ko) 2016-05-10 2017-05-10 디바이스들 상의 보이스 어시스턴트에 대한 구현들

Country Status (6)

Country Link
US (11) US10332516B2 (ko)
EP (1) EP3455719A1 (ko)
JP (2) JP2019523918A (ko)
KR (2) KR102307976B1 (ko)
CN (1) CN108604179A (ko)
WO (1) WO2017197010A1 (ko)

Families Citing this family (176)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US20120311585A1 (en) 2011-06-03 2012-12-06 Apple Inc. Organizing task items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US9665339B2 (en) 2011-12-28 2017-05-30 Sonos, Inc. Methods and systems to select an audio track
US11922974B1 (en) * 2012-05-02 2024-03-05 James E. Plankey System and method for creating and managing multimedia sales promotions
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US10199051B2 (en) 2013-02-07 2019-02-05 Apple Inc. Voice trigger for a digital assistant
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3480811A1 (en) 2014-05-30 2019-05-08 Apple Inc. Multi-command single utterance input method
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10609475B2 (en) 2014-12-05 2020-03-31 Stages Llc Active noise control and customized audio system
CN105848374A (zh) * 2015-01-12 2016-08-10 芋头科技(杭州)有限公司 一种灯光控制系统及方法
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
SG10201604137QA (en) * 2016-05-24 2017-12-28 Creative Tech Ltd An apparatus for controlling lighting behavior of a plurality of lighting elements and a method therefor
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
CN106993227B (zh) * 2016-01-20 2020-01-21 腾讯科技(北京)有限公司 一种进行信息展示的方法和装置
US10010806B2 (en) * 2016-05-24 2018-07-03 Creative Technology Ltd Apparatus for controlling lighting behavior of a plurality of lighting elements and a method therefor
US9990002B2 (en) * 2016-05-25 2018-06-05 Lg Electronics Inc. Sound output apparatus and hub for communication network
US10111345B2 (en) * 2016-05-25 2018-10-23 Lg Electronics Inc. Sound output apparatus and hub for communication network
US10139856B2 (en) 2016-05-25 2018-11-27 Lg Electronics Inc. Accessory assembly
US10097640B2 (en) 2016-05-25 2018-10-09 Lg Electronics Inc. Accessory having a communication function for internet of things
US10149080B2 (en) 2016-05-25 2018-12-04 Lg Electronics Inc. Method of manufacturing sound output apparatus and method of manufacturing grille for the apparatus
US10356499B2 (en) 2016-05-25 2019-07-16 Lg Electronics Inc. Artificial intelligence sound output apparatus, hub for communication network, method of manufacturing the apparatus, and grille for the apparatus
US10110974B2 (en) 2016-05-25 2018-10-23 Lg Electronics Inc. Accessory having a communication function for internet of things
US10139857B2 (en) 2016-05-25 2018-11-27 Lg Electronics Inc. Accessory
US10440456B2 (en) 2016-05-25 2019-10-08 Lg Electronics Inc. Artificial intelligence sound output apparatus, hub for communication network, and method of manufacturing the apparatus and grille for the apparatus
US9992036B2 (en) * 2016-05-25 2018-06-05 Lg Electronics Inc. Sound output apparatus and hub for communication network
US10146255B2 (en) 2016-05-25 2018-12-04 Lg Electronics Inc. Accessory communication device
US10204513B2 (en) 2016-05-25 2019-02-12 Lg Electronics Inc. Accessory having a communication function for Internet of Things
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10091545B1 (en) * 2016-06-27 2018-10-02 Amazon Technologies, Inc. Methods and systems for detecting audio output of associated device
US10257363B2 (en) * 2016-07-22 2019-04-09 Lenovo (Singapore) Pte. Ltd. Coordinating input on multiple local devices
US10448520B2 (en) 2016-10-03 2019-10-15 Google Llc Voice-activated electronic device assembly with separable base
GB2554815B (en) 2016-10-03 2021-03-31 Google Llc Voice-activated electronic device assembly with separable base
US10535966B2 (en) * 2016-10-03 2020-01-14 Google Llc Planar electrical connector for an electronic device
US10945080B2 (en) 2016-11-18 2021-03-09 Stages Llc Audio analysis and processing system
JP6915262B2 (ja) * 2016-11-25 2021-08-04 セイコーエプソン株式会社 ウェアラブル機器、情報端末装置、通信システム、電子機器、及び通信制御方法
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
KR20180085931A (ko) * 2017-01-20 2018-07-30 삼성전자주식회사 음성 입력 처리 방법 및 이를 지원하는 전자 장치
US20180267614A1 (en) * 2017-03-16 2018-09-20 Swan Solutions Inc. Control system for a terminal device with two sensors and power regulation
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
JP6883471B2 (ja) * 2017-05-11 2021-06-09 オリンパス株式会社 収音装置、収音方法、収音プログラム、ディクテーション方法及び情報処理装置
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
US10380852B2 (en) 2017-05-12 2019-08-13 Google Llc Systems, methods, and devices for activity monitoring via a home assistant
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
KR20180132563A (ko) * 2017-06-02 2018-12-12 하만인터내셔날인더스트리스인코포레이티드 마이크로폰 불능화 시스템
US10564928B2 (en) * 2017-06-02 2020-02-18 Rovi Guides, Inc. Systems and methods for generating a volume- based response for multiple voice-operated user devices
US20190019505A1 (en) * 2017-07-12 2019-01-17 Lenovo (Singapore) Pte. Ltd. Sustaining conversational session
US11665796B2 (en) * 2017-08-08 2023-05-30 Savant Technologies Llc Multi-purpose voice activated lighting apparatus
KR102371752B1 (ko) * 2017-08-31 2022-03-07 삼성전자주식회사 가전 기기 및 그의 제어방법
US10515637B1 (en) * 2017-09-19 2019-12-24 Amazon Technologies, Inc. Dynamic speech processing
US10706845B1 (en) * 2017-09-19 2020-07-07 Amazon Technologies, Inc. Communicating announcements
US11024303B1 (en) 2017-09-19 2021-06-01 Amazon Technologies, Inc. Communicating announcements
US10957313B1 (en) * 2017-09-22 2021-03-23 Amazon Technologies, Inc. System command processing
US10600419B1 (en) 2017-09-22 2020-03-24 Amazon Technologies, Inc. System command processing
KR102421255B1 (ko) * 2017-10-17 2022-07-18 삼성전자주식회사 음성 신호를 제어하기 위한 전자 장치 및 방법
US11182122B2 (en) * 2017-12-08 2021-11-23 Amazon Technologies, Inc. Voice control of computing devices
US10880650B2 (en) * 2017-12-10 2020-12-29 Sonos, Inc. Network microphone devices with automatic do not disturb actuation capabilities
US20190196779A1 (en) * 2017-12-21 2019-06-27 Harman International Industries, Incorporated Intelligent personal assistant interface system
CN107886954A (zh) * 2017-12-26 2018-04-06 安徽声讯信息技术有限公司 一种使用蓝牙音箱的智能语音听说平板
KR102580837B1 (ko) * 2018-03-02 2023-09-21 삼성전자 주식회사 사용자에 대응하는 사용 패턴 정보에 기반하여 외부 전자 장치를 제어 하기 위한 전자 장치 및 방법
CN108320749A (zh) * 2018-03-14 2018-07-24 百度在线网络技术(北京)有限公司 远场语音控制设备和远场语音控制系统
US11169772B2 (en) * 2018-03-19 2021-11-09 Gopro, Inc. Image capture device control using mobile platform voice recognition
WO2019182616A1 (en) * 2018-03-23 2019-09-26 Hewlett-Packard Development Company, L.P. Execution of workflow tasks corresponding to voice commands
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10623246B1 (en) * 2018-03-27 2020-04-14 Amazon Technologies, Inc. Device configuration by natural language processing system
US20190311046A1 (en) * 2018-04-06 2019-10-10 Geoffrey S. Stern Interactive presentation apparatus and method
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
CN108762851A (zh) * 2018-06-04 2018-11-06 联想(北京)有限公司 电子设备的操作方法和电子设备
US11437029B2 (en) * 2018-06-05 2022-09-06 Voicify, LLC Voice application platform
US10636425B2 (en) 2018-06-05 2020-04-28 Voicify, LLC Voice application platform
US11429192B2 (en) 2018-06-05 2022-08-30 Google Llc Confidence-based application-specific user interactions
US10235999B1 (en) 2018-06-05 2019-03-19 Voicify, LLC Voice application platform
US10803865B2 (en) 2018-06-05 2020-10-13 Voicify, LLC Voice application platform
CN108769745A (zh) * 2018-06-29 2018-11-06 百度在线网络技术(北京)有限公司 视频播放方法和装置
KR20200013152A (ko) * 2018-07-18 2020-02-06 삼성전자주식회사 이전에 대화를 수집한 결과를 기반으로 인공 지능 서비스를 제공하는 전자 장치 및 방법
US10924848B2 (en) * 2018-07-23 2021-02-16 PeeQ Technologies, LLC Throwable microphone lighting with light indication
US11085777B2 (en) * 2018-07-27 2021-08-10 Adobe Inc. Generating digital event sequences utilizing a dynamic user preference interface to modify recommendation model reward functions
CN110543290B (zh) 2018-09-04 2024-03-05 谷歌有限责任公司 多模态响应
US11164576B2 (en) 2018-09-04 2021-11-02 Google Llc Multimodal responses
US11100926B2 (en) * 2018-09-27 2021-08-24 Coretronic Corporation Intelligent voice system and method for controlling projector by using the intelligent voice system
US11087754B2 (en) 2018-09-27 2021-08-10 Coretronic Corporation Intelligent voice system and method for controlling projector by using the intelligent voice system
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10643607B2 (en) 2018-09-28 2020-05-05 Dish Network L.L.C. Vocal triggering of presentation transitions
US10762893B2 (en) * 2018-09-28 2020-09-01 Comcast Cable Communications, Llc Monitoring of one or more audio/video collection devices
CN109347707A (zh) * 2018-10-11 2019-02-15 上海阳淳电子股份有限公司 智能家居可视化语音控制方法
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11393478B2 (en) * 2018-12-12 2022-07-19 Sonos, Inc. User specific context switching
US10880515B2 (en) 2018-12-14 2020-12-29 Sony Corporation Audio-video reproduction for closed caption display control based on multi-media content
WO2020141696A1 (ko) 2019-01-04 2020-07-09 주식회사 딥엑스 전자기기를 위한 특정 기능 수행용 학습된 모델 작성 방법 및 동일 기능을 수행하기 위한 학습 모델, 전용 칩 및 전용 칩 동작 방법, 그리고 전자기기와 시스템
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
KR102227512B1 (ko) * 2019-01-04 2021-03-12 주식회사 딥엑스 전자기기를 위한 특정 기능 수행용 학습된 모델 작성 방법, 전자기기를 위한 특정 기능 수행용 학습된 모델, 전자기기를 위한 특정 기능 수행 전용 칩, 전자기기를 위한 특정 기능 수행 전용 칩 동작 방법, 특정 기능 수행을 위한 전자기기, 및 전자기기 특정 기능 수행 시스템
EP3895161B1 (en) * 2019-02-20 2023-07-26 Google LLC Utilizing pre-event and post-event input streams to engage an automated assistant
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11003419B2 (en) * 2019-03-19 2021-05-11 Spotify Ab Refinement of voice query interpretation
WO2020204907A1 (en) * 2019-04-01 2020-10-08 Google Llc Adaptive management of casting requests and/or user inputs at a rechargeable device
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11509479B2 (en) 2019-06-04 2022-11-22 Vmware, Inc. Service authentication through a voice assistant
US11122423B2 (en) 2019-06-26 2021-09-14 Vmware, Inc. Proximity based authentication of a user through a voice assistant device
EP3994591A1 (en) * 2019-07-01 2022-05-11 Google LLC Mobile-enabled voice search of media items for displaying on alternative playback devices
US11079875B2 (en) 2019-07-24 2021-08-03 Google Llc Compact home assistant having touch sensitive housing
US11553265B2 (en) 2019-07-24 2023-01-10 Google Llc Compact home assistant having a controlled sound path
US10915227B1 (en) * 2019-08-07 2021-02-09 Bank Of America Corporation System for adjustment of resource allocation based on multi-channel inputs
CN110764425A (zh) * 2019-09-16 2020-02-07 恒大智慧科技有限公司 家居设备的重定向方法、智能家居app及存储介质
US11676589B2 (en) * 2019-09-17 2023-06-13 Global Strategies International LLC Systems and methods for voice search and response retrieval
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
KR20210043107A (ko) * 2019-10-11 2021-04-21 삼성전자주식회사 서로 다른 전자 장치들 사이의 통신 방법, 이를 지원하는 서버 및 전자 장치
KR20210053072A (ko) * 2019-11-01 2021-05-11 삼성전자주식회사 사용자 발화를 처리하는 전자 장치와 그 동작 방법
US11636855B2 (en) * 2019-11-11 2023-04-25 Sonos, Inc. Media content based on operational data
US11204737B2 (en) 2019-11-11 2021-12-21 Sonos, Inc. Playback queues for shared experiences
US11570165B2 (en) 2019-12-09 2023-01-31 Vmware, Inc. Single sign-on service authentication through a voice assistant
CN111161714B (zh) * 2019-12-25 2023-07-21 联想(北京)有限公司 一种语音信息处理方法、电子设备及存储介质
US11830098B2 (en) 2020-01-02 2023-11-28 Vmware, Inc. Data leak prevention using user and device contexts
US11482231B2 (en) 2020-01-06 2022-10-25 Vmware, Inc. Skill redirections in a voice assistant
CN111261160B (zh) * 2020-01-20 2023-09-19 联想(北京)有限公司 一种信号处理方法及装置
CN111294643A (zh) * 2020-01-21 2020-06-16 海信视像科技股份有限公司 在显示设备中显示音轨语言的方法及显示设备
US11328721B2 (en) 2020-02-04 2022-05-10 Soundhound, Inc. Wake suppression for audio playing and listening devices
US11212330B2 (en) * 2020-02-06 2021-12-28 Lenovo (Singapore) Pte. Ltd. Casting content based on device capabilities
CA3167126A1 (en) * 2020-02-07 2021-08-12 Albert F. Elcock Transfer of media content viewing experience using epg guide
US11113933B1 (en) * 2020-02-28 2021-09-07 Therm-Omega-Tech, Inc. Visual indication system for feedback controller
US11722474B2 (en) * 2020-04-30 2023-08-08 Vmware, Inc. Embedding content in audio content through a voice assistant
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11043220B1 (en) 2020-05-11 2021-06-22 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
CN112289307B (zh) * 2020-11-12 2022-07-22 四川云从天府人工智能科技有限公司 基于GRPC实现Kaldi语音识别服务的方法、系统及介质
CN112908297B (zh) * 2020-12-22 2022-07-08 北京百度网讯科技有限公司 车载设备的响应速度测试方法、装置、设备及存储介质
CN112803907B (zh) * 2021-03-17 2021-07-16 统信软件技术有限公司 一种提供音频播放服务的系统和方法
US20220309175A1 (en) * 2021-03-29 2022-09-29 Aipex Technologies, Inc. Content management techniques for voice assistant
DE102021206690A1 (de) 2021-06-28 2022-12-29 Volkswagen Aktiengesellschaft Verfahren zum Betreiben eines Unterhaltungssystems eines Kraftfahrzeugs, Unterhaltungssystem sowie Kraftfahrzeug
US20230080895A1 (en) * 2021-09-15 2023-03-16 International Business Machines Corporation Dynamic operation of a voice controlled device
EP4248304A1 (en) 2022-02-09 2023-09-27 Google LLC Providing contextual automated assistant action suggestion(s) via a vehicle computing device
US20230335127A1 (en) * 2022-04-15 2023-10-19 Google Llc Multiple concurrent voice assistants
US11909611B2 (en) * 2022-07-20 2024-02-20 Google Llc Standardizing analysis metrics across multiple devices

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040128137A1 (en) * 1999-12-22 2004-07-01 Bush William Stuart Hands-free, voice-operated remote control transmitter
KR20120137425A (ko) * 2010-01-18 2012-12-20 애플 인크. 지능형 자동화 어시스턴트에 대한 서비스 오케스트레이션
JP2014507030A (ja) * 2011-01-28 2014-03-20 アマゾン テクノロジーズ インコーポレイテッド オーディオ・ベースのアプリケーション・アーキテクチャ
US20150006182A1 (en) * 2013-07-01 2015-01-01 Toyota Motor Engineering & Manufacturing North America, Inc. Systems and Methods for Dynamic Download of Embedded Voice Components

Family Cites Families (150)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5659665A (en) * 1994-12-08 1997-08-19 Lucent Technologies Inc. Method and apparatus for including speech recognition capabilities in a computer system
US5774859A (en) * 1995-01-03 1998-06-30 Scientific-Atlanta, Inc. Information system having a speech interface
US5760754A (en) 1995-12-04 1998-06-02 Motorola, Inc. Light pipe assembly and electrical device using same
US6195641B1 (en) * 1998-03-27 2001-02-27 International Business Machines Corp. Network universal spoken language vocabulary
US7050977B1 (en) * 1999-11-12 2006-05-23 Phoenix Solutions, Inc. Speech-enabled server for internet website and method
US6681380B1 (en) 2000-02-15 2004-01-20 International Business Machines Corporation Aggregating constraints and/or preferences using an inference engine and enhanced scripting language
GB2372864B (en) 2001-02-28 2005-09-07 Vox Generation Ltd Spoken language interface
US7426505B2 (en) 2001-03-07 2008-09-16 International Business Machines Corporation Method for identifying word patterns in text
US7302634B2 (en) 2001-03-14 2007-11-27 Microsoft Corporation Schema-based services for identity-based data access
US20030120744A1 (en) 2001-12-20 2003-06-26 Gordon Kessler Method and apparatus for providing downlaoded audio data
US7493259B2 (en) 2002-01-04 2009-02-17 Siebel Systems, Inc. Method for accessing data via voice
US7260538B2 (en) 2002-01-08 2007-08-21 Promptu Systems Corporation Method and apparatus for voice control of a television control device
US20040001095A1 (en) * 2002-07-01 2004-01-01 Todd Marques Method and apparatus for universal device management
JP2004102415A (ja) 2002-09-05 2004-04-02 Toshiba Corp データ伝送装置およびデータ伝送方法並びに車載用電子機器
US20060276230A1 (en) 2002-10-01 2006-12-07 Mcconnell Christopher F System and method for wireless audio communication with a computer
US7911358B2 (en) 2002-10-08 2011-03-22 Johnson Controls Technology Company System and method for enrollment of a remotely controlled device in a trainable transmitter
JP4292789B2 (ja) * 2002-11-20 2009-07-08 日本電気株式会社 ブラウザ機能拡張方法
US7925754B2 (en) 2003-11-21 2011-04-12 Microsoft Corporation Method and computer program product to provide synch notifications to client devices
US7660715B1 (en) 2004-01-12 2010-02-09 Avaya Inc. Transparent monitoring and intervention to improve automatic adaptation of speech models
US20050164681A1 (en) 2004-01-22 2005-07-28 Jenkins William W. Voice message storage in a push-to-talk communication system
US20050212684A1 (en) * 2004-03-23 2005-09-29 Flora Huang Indicating apparatus combined with flash
US20060075429A1 (en) 2004-04-30 2006-04-06 Vulcan Inc. Voice control of television-related information
TWM260059U (en) 2004-07-08 2005-03-21 Blueexpert Technology Corp Computer input device having bluetooth handsfree handset
JP2006286275A (ja) 2005-03-31 2006-10-19 Koizumi Sangyo Corp 照明器具の制御装置
ATE550756T1 (de) * 2005-08-04 2012-04-15 Nuance Communications Inc Sprachdialogsystem
US8104054B2 (en) 2005-09-01 2012-01-24 At&T Intellectual Property I, L.P. Methods, systems, and devices for bandwidth conservation
US7996228B2 (en) * 2005-12-22 2011-08-09 Microsoft Corporation Voice initiated network operations
US8516087B2 (en) * 2006-02-14 2013-08-20 At&T Intellectual Property I, L.P. Home automation system and method
US7721313B2 (en) 2006-06-30 2010-05-18 Microsoft Corporation Multi-DVR node communication
US20080010652A1 (en) 2006-07-07 2008-01-10 General Instrument Corporation Association of Network Terminals to a Common Account
US8073697B2 (en) 2006-09-12 2011-12-06 International Business Machines Corporation Establishing a multimodal personality for a multimodal application
US8056070B2 (en) 2007-01-10 2011-11-08 Goller Michael D System and method for modifying and updating a speech recognition program
US20080180572A1 (en) 2007-01-29 2008-07-31 Microsoft Corporation Enabling access to closed captioning data present in a broadcast stream
JP4315986B2 (ja) * 2007-02-08 2009-08-19 富士通株式会社 発光ダイオードを備えた電子機器
US8219406B2 (en) 2007-03-15 2012-07-10 Microsoft Corporation Speech-centric multimodal user interface design in mobile technology
WO2008144638A2 (en) * 2007-05-17 2008-11-27 Redstart Systems Inc. Systems and methods of a structured grammar for a speech recognition command system
US8538757B2 (en) * 2007-05-17 2013-09-17 Redstart Systems, Inc. System and method of a list commands utility for a speech recognition command system
US8160426B2 (en) 2007-10-12 2012-04-17 Rovi Guides, Inc. Storage management of a recording device in a multi-user system
US8521766B1 (en) 2007-11-12 2013-08-27 W Leo Hoarty Systems and methods for providing information discovery and retrieval
US8543622B2 (en) 2007-12-07 2013-09-24 Patrick Giblin Method and system for meta-tagging media content and distribution
US8385536B2 (en) 2008-01-09 2013-02-26 Verizon Patent And Licensing Inc. Automatic telephone number favorites list
US9135809B2 (en) 2008-06-20 2015-09-15 At&T Intellectual Property I, Lp Voice enabled remote control for a set-top box
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
JP5334178B2 (ja) * 2009-01-21 2013-11-06 クラリオン株式会社 音声認識装置およびデータ更新方法
US8423353B2 (en) 2009-03-25 2013-04-16 Microsoft Corporation Sharable distributed dictionary for applications
US20100265397A1 (en) 2009-04-20 2010-10-21 Tandberg Television, Inc. Systems and methods for providing dynamically determined closed caption translations for vod content
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US9197736B2 (en) 2009-12-31 2015-11-24 Digimarc Corporation Intuitive computing methods and systems
US20120253822A1 (en) 2009-12-11 2012-10-04 Thomas Barton Schalk Systems and Methods for Managing Prompts for a Connected Vehicle
US20110161085A1 (en) 2009-12-31 2011-06-30 Nokia Corporation Method and apparatus for audio summary of activity for user
US9401099B2 (en) 2010-05-11 2016-07-26 AI Squared Dedicated on-screen closed caption display
US8750687B2 (en) 2010-06-16 2014-06-10 Verizon Patent And Licensing Inc. Method and apparatus for managing digital video recorders
US9633656B2 (en) 2010-07-27 2017-04-25 Sony Corporation Device registration process from second display
US8473289B2 (en) 2010-08-06 2013-06-25 Google Inc. Disambiguating input based on context
US20120096497A1 (en) 2010-10-14 2012-04-19 Sony Corporation Recording television content
CN102064985B (zh) 2010-11-24 2013-04-24 深圳市同洲电子股份有限公司 基于互动电视应用的数字智能家电远程控制系统和方法
US20120136658A1 (en) 2010-11-30 2012-05-31 Cox Communications, Inc. Systems and methods for customizing broadband content based upon passive presence detection of users
US20120226981A1 (en) 2011-03-02 2012-09-06 Microsoft Corporation Controlling electronic devices in a multimedia system through a natural user interface
CN102148031A (zh) * 2011-04-01 2011-08-10 无锡大核科技有限公司 语音识别与交互系统及方法
US20120260192A1 (en) 2011-04-11 2012-10-11 Detweiler Sean D Automated browser mode based on user and access point
CN102196207B (zh) 2011-05-12 2014-06-18 深圳市车音网科技有限公司 语音控制电视机的方法、装置和系统
WO2013012107A1 (ko) * 2011-07-19 2013-01-24 엘지전자 주식회사 전자 기기 및 그 제어 방법
US20130046773A1 (en) 2011-08-18 2013-02-21 General Instrument Corporation Method and apparatus for user-based tagging of media content
CN102289374B (zh) * 2011-08-31 2017-06-30 南京中兴新软件有限责任公司 一种构建跨平台软件运行环境的方法及装置
WO2013042117A1 (en) 2011-09-19 2013-03-28 Personetics Technologies Ltd. System and method for evaluating intent of a human partner to a dialogue between human user and computerized system
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US8340975B1 (en) 2011-10-04 2012-12-25 Theodore Alfred Rosenberger Interactive speech recognition device and system for hands-free building control
EP2801016A1 (en) 2011-10-11 2014-11-12 Serge Media Inc. System and methods for content-search carousel for mobile-computing devices
US9326088B2 (en) * 2011-10-21 2016-04-26 GM Global Technology Operations LLC Mobile voice platform architecture with remote service interfaces
US9847083B2 (en) * 2011-11-17 2017-12-19 Universal Electronics Inc. System and method for voice actuated configuration of a controlling device
US8954330B2 (en) 2011-11-28 2015-02-10 Microsoft Corporation Context-aware interaction system using a semantic model
US9152376B2 (en) * 2011-12-01 2015-10-06 At&T Intellectual Property I, L.P. System and method for continuous multimodal speech and gesture interaction
US9836545B2 (en) 2012-04-27 2017-12-05 Yahoo Holdings, Inc. Systems and methods for personalized generalized content recommendations
US9230556B2 (en) 2012-06-05 2016-01-05 Apple Inc. Voice instructions during navigation
US20130332159A1 (en) 2012-06-08 2013-12-12 Apple Inc. Using fan throttling to enhance dictation accuracy
US9679330B2 (en) 2012-06-10 2017-06-13 Apple Inc. Interface for enhanced continuity of browsing experience
KR20130140423A (ko) 2012-06-14 2013-12-24 삼성전자주식회사 디스플레이 장치, 대화형 서버 및 응답 정보 제공 방법
US20130339859A1 (en) * 2012-06-15 2013-12-19 Muzik LLC Interactive networked headphones
US9195383B2 (en) 2012-06-29 2015-11-24 Spotify Ab Systems and methods for multi-path control signals for media presentation devices
US10620797B2 (en) 2012-06-29 2020-04-14 Spotify Ab Systems and methods for multi-context media control and playback
US9779757B1 (en) * 2012-07-30 2017-10-03 Amazon Technologies, Inc. Visual indication of an operational state
US9786294B1 (en) * 2012-07-30 2017-10-10 Amazon Technologies, Inc. Visual indication of an operational state
US9106957B2 (en) 2012-08-16 2015-08-11 Nuance Communications, Inc. Method and apparatus for searching data sources for entertainment systems
US10026394B1 (en) 2012-08-31 2018-07-17 Amazon Technologies, Inc. Managing dialogs on a speech recognition platform
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
JP5986468B2 (ja) * 2012-09-25 2016-09-06 富士通テン株式会社 表示制御装置、表示システム及び表示制御方法
US9043210B1 (en) 2012-10-02 2015-05-26 Voice Security Systems, Inc. Biometric voice command and control switching device and method of use
US9230560B2 (en) 2012-10-08 2016-01-05 Nant Holdings Ip, Llc Smart home automation systems and methods
WO2014064531A1 (en) 2012-10-22 2014-05-01 Spotify Ab Systems and methods for pre-fetching media content
PL401346A1 (pl) 2012-10-25 2014-04-28 Ivona Software Spółka Z Ograniczoną Odpowiedzialnością Generowanie spersonalizowanych programów audio z zawartości tekstowej
US9337674B2 (en) 2012-11-02 2016-05-10 Chen-Source Inc. Desktop charger
US9704486B2 (en) 2012-12-11 2017-07-11 Amazon Technologies, Inc. Speech recognition power management
US9672822B2 (en) 2013-02-22 2017-06-06 Next It Corporation Interaction with a portion of a content item through a virtual assistant
US9292832B2 (en) 2013-02-25 2016-03-22 Qualcomm Incorporated Collaborative intelligence and decision-making in an IoT device group
US9361885B2 (en) * 2013-03-12 2016-06-07 Nuance Communications, Inc. Methods and apparatus for detecting a voice command
US9304736B1 (en) 2013-04-18 2016-04-05 Amazon Technologies, Inc. Voice controlled assistant with non-verbal code entry
US10445115B2 (en) 2013-04-18 2019-10-15 Verint Americas Inc. Virtual assistant focused user interfaces
US9116619B2 (en) 2013-05-10 2015-08-25 Seagate Technology Llc Displaying storage device status conditions using multi-color light emitting diode
US9811087B2 (en) 2013-05-15 2017-11-07 Deere & Company Method for controlling a vehicle and a vehicle guidance system
US9843623B2 (en) 2013-05-28 2017-12-12 Qualcomm Incorporated Systems and methods for selecting media items
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US20140365887A1 (en) 2013-06-10 2014-12-11 Kirk Robert CAMERON Interactive platform generating multimedia from user input
US9324322B1 (en) 2013-06-18 2016-04-26 Amazon Technologies, Inc. Automatic volume attenuation for speech enabled devices
US9554632B2 (en) 2013-06-21 2017-01-31 Logitech Europe S.A. Portable device case and accessories
CN103474068B (zh) * 2013-08-19 2016-08-10 科大讯飞股份有限公司 实现语音命令控制的方法、设备及系统
US9431004B2 (en) 2013-09-05 2016-08-30 International Business Machines Corporation Variable-depth audio presentation of textual information
KR20150029974A (ko) * 2013-09-11 2015-03-19 엘지전자 주식회사 디스플레이 디바이스 및 그 제어 방법
CN103501382B (zh) * 2013-09-17 2015-06-24 小米科技有限责任公司 语音服务提供方法、装置和终端
US9240182B2 (en) 2013-09-17 2016-01-19 Qualcomm Incorporated Method and apparatus for adjusting detection threshold for activating voice assistant function
US9443527B1 (en) 2013-09-27 2016-09-13 Amazon Technologies, Inc. Speech recognition capability generation and control
JP6490675B2 (ja) 2013-10-07 2019-03-27 グーグル エルエルシー 適切な瞬間において非警報ステータス信号を与えるスマートホームハザード検出器
US9484025B2 (en) 2013-10-15 2016-11-01 Toyota Jidosha Kabushiki Kaisha Configuring dynamic custom vocabulary for personalized speech recognition
US9706007B2 (en) 2013-10-17 2017-07-11 Blue Syntax Consulting LLC System and method for querying disparate data sources in real time
US9698999B2 (en) * 2013-12-02 2017-07-04 Amazon Technologies, Inc. Natural language control of secondary device
US9900177B2 (en) 2013-12-11 2018-02-20 Echostar Technologies International Corporation Maintaining up-to-date home automation models
US9571645B2 (en) 2013-12-16 2017-02-14 Nuance Communications, Inc. Systems and methods for providing a virtual assistant
US9804820B2 (en) 2013-12-16 2017-10-31 Nuance Communications, Inc. Systems and methods for providing a virtual assistant
US9721570B1 (en) 2013-12-17 2017-08-01 Amazon Technologies, Inc. Outcome-oriented dialogs on a speech recognition platform
US10248856B2 (en) 2014-01-14 2019-04-02 Toyota Motor Engineering & Manufacturing North America, Inc. Smart necklace with stereo vision and onboard processing
US9430186B2 (en) 2014-03-17 2016-08-30 Google Inc Visual indication of a recognized voice-initiated action
US10031721B2 (en) * 2014-05-15 2018-07-24 Tyco Safety Products Canada Ltd. System and method for processing control commands in a voice interactive system
CN112102824A (zh) 2014-06-06 2020-12-18 谷歌有限责任公司 基于环境的主动聊天信息系统
US10440499B2 (en) * 2014-06-16 2019-10-08 Comcast Cable Communications, Llc User location and identity awareness
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
CN104135697A (zh) 2014-07-31 2014-11-05 上海素控控制技术有限公司 基于蓝牙的智能共振音箱及其控制方法
US9767794B2 (en) 2014-08-11 2017-09-19 Nuance Communications, Inc. Dialog flow management in hierarchical task dialogs
CN104135197A (zh) 2014-08-18 2014-11-05 济南大学 一种无传感器永磁同步电机调速控制策略
KR101579292B1 (ko) * 2014-08-29 2015-12-21 서울대학교 산학협력단 범용 음성인식 제어 장치 및 제어 방법
CA2962636A1 (en) 2014-10-01 2016-04-07 XBrain, Inc. Voice and connection platform
WO2016068960A1 (en) 2014-10-30 2016-05-06 Adaptive Spectrum And Signal Alignment, Inc. Method and apparatus for providing performance and usage information for a wireless local area network
EP3213518A1 (en) 2014-10-31 2017-09-06 Piksel, Inc. Personalised channel
CN104506944B (zh) * 2014-11-12 2018-09-21 科大讯飞股份有限公司 基于电视场景及语音助手的语音交互辅助方法及系统
WO2016092924A1 (ja) 2014-12-09 2016-06-16 ソニー株式会社 情報処理装置、制御方法、およびプログラム
US9811312B2 (en) * 2014-12-22 2017-11-07 Intel Corporation Connected device voice command support
US10284618B2 (en) 2015-04-28 2019-05-07 Apple Inc. Dynamic media content
US10038757B2 (en) 2015-04-29 2018-07-31 Microsoft Technology Licensing, Llc Providing personalized greetings on a digital assistant
US9766596B2 (en) 2015-07-08 2017-09-19 Google Inc. Wake up to a cast alarm or an alarm plus content prompt
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10671665B2 (en) 2015-09-25 2020-06-02 Oath Inc. Personalized audio introduction and summary of result sets for users
JP6532021B2 (ja) 2015-09-29 2019-06-19 本田技研工業株式会社 音声処理装置及び音声処理方法
US10397682B2 (en) 2015-09-30 2019-08-27 Apple Inc. Earbuds with acoustic insert
US10102201B2 (en) * 2015-11-30 2018-10-16 Soundhound, Inc. Natural language module store
US10026401B1 (en) 2015-12-28 2018-07-17 Amazon Technologies, Inc. Naming devices via voice commands
US20170221322A1 (en) 2016-02-01 2017-08-03 Brian M. Ignomirello System and method of multimodal status indication
US9858927B2 (en) * 2016-02-12 2018-01-02 Amazon Technologies, Inc Processing spoken commands to control distributed audio outputs
US20170262537A1 (en) 2016-03-14 2017-09-14 Amazon Technologies, Inc. Audio scripts for various content
EP4030295A1 (en) 2016-04-18 2022-07-20 Google LLC Automated assistant invocation of appropriate agent
US9990002B2 (en) 2016-05-25 2018-06-05 Lg Electronics Inc. Sound output apparatus and hub for communication network
WO2017203366A1 (en) 2016-05-27 2017-11-30 Mobile Synergy 26 International Limited Multifunctional connection systems for various devices and methods of use thereof
US10832684B2 (en) 2016-08-31 2020-11-10 Microsoft Technology Licensing, Llc Personalization of experiences with digital assistants in communal settings through voice and query processing

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040128137A1 (en) * 1999-12-22 2004-07-01 Bush William Stuart Hands-free, voice-operated remote control transmitter
KR20120137425A (ko) * 2010-01-18 2012-12-20 애플 인크. 지능형 자동화 어시스턴트에 대한 서비스 오케스트레이션
JP2014507030A (ja) * 2011-01-28 2014-03-20 アマゾン テクノロジーズ インコーポレイテッド オーディオ・ベースのアプリケーション・アーキテクチャ
US20150006182A1 (en) * 2013-07-01 2015-01-01 Toyota Motor Engineering & Manufacturing North America, Inc. Systems and Methods for Dynamic Download of Embedded Voice Components

Also Published As

Publication number Publication date
US20200294504A1 (en) 2020-09-17
KR102168974B1 (ko) 2020-10-22
US20190279635A1 (en) 2019-09-12
EP3455719A1 (en) 2019-03-20
US11341964B2 (en) 2022-05-24
US11922941B2 (en) 2024-03-05
US20180308324A1 (en) 2018-10-25
US20190279634A1 (en) 2019-09-12
US10861461B2 (en) 2020-12-08
US10535343B2 (en) 2020-01-14
KR102307976B1 (ko) 2021-09-30
US11935535B2 (en) 2024-03-19
US10235997B2 (en) 2019-03-19
US10679623B2 (en) 2020-06-09
US11355116B2 (en) 2022-06-07
US20170329573A1 (en) 2017-11-16
KR20200121915A (ko) 2020-10-26
US20170330429A1 (en) 2017-11-16
JP2019523918A (ja) 2019-08-29
US20170329572A1 (en) 2017-11-16
US20170332035A1 (en) 2017-11-16
CN108604179A (zh) 2018-09-28
JP2023051963A (ja) 2023-04-11
US10332516B2 (en) 2019-06-25
US20230368789A1 (en) 2023-11-16
US20220358923A1 (en) 2022-11-10
US20220293104A1 (en) 2022-09-15
US10304450B2 (en) 2019-05-28
WO2017197010A1 (en) 2017-11-16

Similar Documents

Publication Publication Date Title
KR102168974B1 (ko) 디바이스들 상의 보이스 어시스턴트에 대한 구현들
US11810554B2 (en) Audio message extraction
US11102624B2 (en) Automated messaging
JP6549715B2 (ja) 音声ベースシステムにおけるアプリケーションフォーカス
US10176810B2 (en) Using voice information to influence importance of search result categories
CN106796497B (zh) 用于始终监听语音触发的动态阈值
JP6789320B2 (ja) 選択的に辿ることが可能な状態機械のパーソナルアシスタントモジュールへの提供
US20190013025A1 (en) Providing an ambient assist mode for computing devices
TW201535156A (zh) 執行與個人的存在相關聯的動作
KR20200040562A (ko) 사용자 발화를 처리하기 위한 시스템
US20230134400A1 (en) Automatic adaptation of multi-modal system components
KR20210041476A (ko) 사용자 발화를 처리하는 전자 장치 및 그 작동 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right