KR20210008521A - 자동화된 어시스턴트를 호출하기 위한 다이내믹 및/또는 컨텍스트-특정 핫 워드 - Google Patents

자동화된 어시스턴트를 호출하기 위한 다이내믹 및/또는 컨텍스트-특정 핫 워드 Download PDF

Info

Publication number
KR20210008521A
KR20210008521A KR1020207035755A KR20207035755A KR20210008521A KR 20210008521 A KR20210008521 A KR 20210008521A KR 1020207035755 A KR1020207035755 A KR 1020207035755A KR 20207035755 A KR20207035755 A KR 20207035755A KR 20210008521 A KR20210008521 A KR 20210008521A
Authority
KR
South Korea
Prior art keywords
automated assistant
context
hot words
specific
user
Prior art date
Application number
KR1020207035755A
Other languages
English (en)
Other versions
KR102523982B1 (ko
Inventor
디에고 멜렌도 카사도
재클린 콘젤만
Original Assignee
구글 엘엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 구글 엘엘씨 filed Critical 구글 엘엘씨
Publication of KR20210008521A publication Critical patent/KR20210008521A/ko
Application granted granted Critical
Publication of KR102523982B1 publication Critical patent/KR102523982B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Abstract

자동화된 어시스턴트에 대해 "다이내믹(dynamic)"또는 "컨텍스트-특정(context-specific)"핫 워드(hot words)의 사용을 가능하게 하는 기술이 본 명세서에서 설명된다. 다양한 실시예에서, 자동화된 어시스턴트는 컴퓨팅 디바이스에서 적어도 부분적으로 작동될 수 있다. 마이크로폰에 의해 캡처된 오디오 데이터는 디폴트 핫 워드(들)(default hot word(s))에 대해 모니터링될 수 있다. 하나 이상의 디폴트 핫 워드의 감지는 제한된 핫 워드(limited hot word) 리스닝(listening) 상태에서 음성 인식 상태로의 자동화된 어시스턴트의 전환을 트리거(trigger)할 수 있다. 컴퓨팅 디바이스의 소정의 상태로의 전환이 감지될 수 있으며, 이에 응답하여 마이크로폰에 의해 캡처된 오디오 데이터는 디폴트 핫 워드에 추가하거나 또는 대신에 컨텍스트-특정 핫 워드에 대해 모니터링 될 수 있다. 컨텍스트-특정 핫 워드 (들)의 감지는 디폴트 핫 워드(들)의 감지를 요구하지 않고, 소정의 상태와 관련된 응답 동작을 수행하도록 자동화된 어시스턴트를 트리거할 수 있다.

Description

자동화된 어시스턴트를 호출하기 위한 다이내믹 및/또는 컨텍스트-특정 핫 워드
인간은 본 명세서에서 "자동화된 어시스턴트(automated assistants)"("챗봇", "가상 어시스턴트", " 인터랙티브(interactive) 개인 어시스턴트", "지능형 개인 어시스턴트", "개인 음성 어시스턴트", "대화 에이전트" 등 이라고도 함)라고 하는 인터랙티브 소프트웨어 응용 프로그램을 사용하여 인간 대 컴퓨터(human-to-computer) 대화에 참여할 수 있다. 예를 들어, 인간(자동화된 어시스턴트와 상호 작용할 때 "사용자"라고 함)은 텍스트로 변환된 음성 발화를 포함할 수 있는 자유 형식 자연어 입력을 사용하여 명령, 쿼리(queries) 및/또는 요청을 제공할 수 있고, 그 다음에 형식화된 자유 형식 자연어 입력을 처리 및/또는 제공할 수 있다.
대부분의 경우 자동화된 어시스턴트가 사용자의 요청을 해석하고 응답하기 전에, 예를 들어 "핫 워드(hot words)" 또는 "웨이크 워드(wake words)"라고 하는 사전 정의된 구두 호출 구문을 사용하여 먼저 "호출"되어야 한다. 따라서, 많은 자동화된 어시스턴트는 본 명세서에서 "제한된 핫 워드 리스닝 상태(limited hot word listening state)" 또는 "디폴트 비활성 상태(default inactive listening state)"로 지칭되는 상태에서 작동하며, "제한된 핫 워드 리스팅 상태" 또는 "디폴트 비활성 상태"는 제한된(또는 한정된) 핫 워드의 세트에 대하여 마이크로폰에 의해 샘플링된 오디오 데이터를 항상 "청취하는" 상태이다. 제한된 핫 워드 세트 이외의 오디오 데이터에서 캡처된 모든 발화(utterances)는 무시된다. 자동화된 어시스턴트가 제한된 핫 워드 세트 중 하나 이상을 사용하여 호출되면, 자동화된 어시스턴트는 본 명세서에서 "음성 인식 상태" 또는 "일반 리스닝 상태"로 지칭되는 것으로 동작할 수 있으며, "음성 인식 상태" 또는 "일반 리스닝 상태"는 마이크로폰에서 샘플링한 오디오 데이터의 음성-텍스트("STT", speech-to-text) 처리를 수행하여 텍스트 입력을 생성하고, 텍스트 입력은 사용자의 의도를 결정하기 위해(그리고, 그 의도를 충족시키기 위해) 의미론적으로(semantically) 처리된다.
제한된 수의 핫 워드만을 듣는 디폴트 비활성화 상태에서 자동화된 어시스턴트의 작동은 다양한 이익을 제공합니다. "청취하는" 핫 워드의 수를 제한하면 전력 및/또는 컴퓨팅 리소스(resources)를 절약할 수 있다. 예를 들어, 온-디바이스 머신 러닝 모델(on-device machine learning model)은 하나 이상의 핫 워드가 감지되는 시기를 나타내는 출력을 생성하도록 훈련될 수 있습니다. 이러한 모델을 구현하려면 최소한의 컴퓨팅 리소스 및/또는 전력만 요구할 수 있다. 이러한 훈련된 모델을 클라이언트 디바이스(장치)에 로컬(locally)로 저장하면 프라이버시와 관련된 이점 또한 제공된다. 예를 들어, 대부분의 사용자는 자동화된 어시스턴트를 작동하는 컴퓨팅 디바이스의 가청 범위내에서 말하는 모든 내용에 대해 STT(speech-to-text) 처리가 수행되는 것을 원하지 않는다. 또한, 온-디바이스 모델(on-device model)은 자동화된 어시스턴트에서 처리하도록 의도되지 않은 사용자 발화를 나타내는 데이터가 종종 클라우드에서 적어도 부분적으로 작동하는, 의미 프로세서(semantic processor)에 제공되는 것을 방지한다.
이러한 이점과 함께, 제한된 핫 워드 리스닝 상태에서 자동화된 어시스턴트를 작동하면 다양한 문제가 발생한다. 자동화된 어시스턴트의 부주의한 호출을 방지하기 위해, 핫 워드는 일반적으로 일상적인 대화에서 자주 사용되지 않는 단어 또는 구문으로 선택된다 (예를 들어, "롱 테일(long tail)" 단어들 또는 구문). 그러나, 어떤 작업을 수행하기 위해 자동화된 어시스턴트를 호출하기 전에 사용자가 롱 테일 핫 워드를 발화하는 것을 요구하는 다양한 시나리오는 번거로울 수 있다.
예를 들어, 사용자는 종종 자동화된 어시스턴트에게 타이머나 알람을 설정하는 것을 요구한다. 사용자가 "타이머 중지"와 같은 말을 함으로써 타이머 또는 알람에 대한 조치를 취할 수 있기 전에, 이러한 타이머나 알람이 만료 및/또는 꺼지면, 사용자는 자동화된 어시스턴트를 깨우기 위해 먼저 몇몇 롱 테일 핫 워드(들)를 언급하여야 한다(예, 자동화된 어시스턴트를 음성 인식 모드로 전환). 사용자는 종종 자동화된 어시스턴트가 미디어(예를들어, 음악, 비디오)를 재생하도록 요청하지만, 미디어 재생이 진행되면 사용자는 "일시 중지", "빨리 감기", "되감기", "앞으로 건너 뛰기", "다음 노래로 이동" 등과 같은 명령을 실행하기 전에 먼저 핫 워드(들)로 자동화된 어시스턴트를 깨워야 한다.
일부 자동화된 어시스턴트는 사용자가 명령을 내린 후 "연속 청취(continued listening)" 모드에 대한 수동 옵션을 제공할 수 있으며, 사용자가 후속 명령을 수행하기 전에 핫 워드 (들)로 자동화된 어시스턴트를 "다시 깨우기" 할 필요가 없다. 그러나, 자동화된 어시스턴트를 연속 청취 모드로 수동 전환하는 것은 자동화된 어시스턴트가 훨씬 더 많은 발화에 대해 훨씬 더 많은 STT 처리를 수행하여, 잠재적으로 전력 및 / 또는 컴퓨팅 리소스를 낭비할 수 있음을 의미한다. 또한, 위에서 언급한 바와 같이 대부분의 사용자는 자동화된 어시스턴트가 명시적으로 호출된 후에만 STT 처리가 발생하는 것을 선호한다.
자동화된 어시스턴트에 대해 "다이내믹" 및/또는 "컨텍스트-특정(context-specific)" 핫 워드의 사용을 가능하게 하는 기술이 본 명세서에서 설명된다. 다양한 환경 아래에서, 본 명세서의 선택된 측면들로 구성된 자동화된 어시스턴트는 현재 상황(또는 "컨텍스트")에 관련된 특정 컨텍스트-특정 핫 워드를 보다 지능적으로 청취할 수 있다. 다양한 실시예에서, 자동화된 어시스턴트는 자동화된 어시스턴트를 호출하는 데 사용되는 디폴트 핫 워드에 추가로, 또는 대신에, 이러한 컨텍스트-특정 핫 워드를 청취할 수 있다. 달리 말하면, 다양한 실시예에서, 본 명세서의 선택된 측면들로 구성된 자동화된 어시스턴트는 특정 상황에서 자동화된 어시스턴트의 핫 워드 어휘를 적어도 일시적으로 확장하거나 변경할 수 있다.
다양한 실시예에서, 다이내믹 핫 워드(dynamic hot words)는 자동화된 어시스턴트와 특정 상태로 맞물리게 하기 위해 사용되는 컴퓨팅 디바이스의 전환과 같은, 다양한 다른 상황 아래에서 선택적으로 활성화될 수 있다. 예를 들어, 일부 실시예에서, 자동화된 어시스턴트에 의해 트리거된 사용자 요청 타이머 또는 알람이 컴퓨팅 디바이스에서 만료될 때 컴퓨팅 디바이스의 상태가 감지될 수 있다. 해당 상태를 감지하는 것에 대응하여, 하나 이상의 타이머/알람-컨텍스트-특정 핫 워드를 활성화하거나, 또는 대신에 항상 자동화된 어시스턴트를 호출하는 데 사용할 수 있는 디폴트 핫 워드에 추가할 수 있다. 따라서, 예를 들어, 타이머가 만료되기 전에 자동화된 어시스턴트는 항상 청취하는 디폴트 핫 워드만 청취할 수 있으며; 타이머가 만료되고 경보음이 출력되는 동안, 자동화된 어시스턴트는 "타이머 중지", "타이머 취소" 등과 같은 다른 핫 워드들을 청취할 수 있다. 이러한 다른 핫 워드가 감지되면 자동화된 어시스턴트가 응답 동작을 수행하도록 트리거할 수 있으며, 이 경우 타이머를 중지한다.
또 다른 예로, 자동화된 어시스턴트는 종종 음악이나 비디오와 같은 미디어를 재생하는 데 사용된다. 자동화된 어시스턴트에 의해(사용자 요청에 의해) 트리거된 미디어가 재생되는 동안, 자동화된 어시스턴트는 "중지", "일시 중지", "재생", "다음", "마지막" 등과 같은 추가적인 컨텍스트-특정 핫 워드(들)를 청취할 수 있다. 보다 일반적으로, 다양한 실시예에서, 자동화된 어시스턴트에 의해 트리거되는 다양한 어플리케이션(applications)은 어플리케이션과 관련된 다양한 어플리케이션-특정 핫 워드를 가질 수 있다. 이러한 어플리케이션이 활성화되어 있는 동안 (예를들어, 포어그라운드(foreground)에서 작동하지만, 아직 완료되지 않은 경우), 이러한 어플리케이션-특정 핫 워드가 감지될 때 청취하고 실행할 수 있다.
다른 예로서, 일부 실시예에서, 자동화된 어시스턴트와 연결하기 위해 사용자에 의해 사용되는 어시스턴트 디바이스(device)는 디스플레이를 포함할 수 있다. 자동화된 어시스턴트는 인간 대 컴퓨터 대화에 사용자와 참여하는 것 외에도, 인간 대 컴퓨터 대화, 또는 기타 콘텐츠(content)(예를 들어, 날씨, 일정, 할일 목록 등)와 관련된 콘텐츠를 디스플레이에 표시할 수 있다. 일부 실시예에서, 이 디스플레이된 콘텐츠는 콘텐츠가 계속 디스플레이되는 동안 청취할 수 있는 다이내믹 핫 워드를 활성화하는데 사용될 수 있다.
핫 워드는 자동화된 보조자에 의해 다양한 방법으로 감지될 수 있다. 일부 실시예에서, 신경망(neural network), 은닉 마르코프 모델(hidden Markov model) 등과 같은 머신 러닝 모델은 오디오 데이터 스트림에서 하나 이상의 핫 워드 및/또는 음소(phonemes)의 정렬된 또는 정렬되지 않은 시퀀스를 감지하도록 훈련될 수 있다. 이러한 일부 실시예에서, 각각의 적용 가능한 핫 워드 (또는 다수의 핫 워드를 포함하는 "핫 문장(hot phrase)")에 대해 별도의 머신 러닝 모델이 훈련될 수 있다.
일부 실시예에서, 이러한 다이내믹 핫 워드를 감지하도록 훈련된 머신 러닝 모델은 필요에 따라 다운로드될 수 있다. 예를 들어, 타이머에 관한 예에서, 사용자가 타이머를 설정하면 (그리고 만료되기 전에), 자동화된 어시스턴트가 다양한 타이머-특정 핫 워드 감지하도록(디폴트 핫 워드 호출을 먼저 감지하지 않고) 이미 훈련된 신경망을 로컬 디바이스에 다운로드 할 수 있다(예를들어, "중지", 타이머 취소 등).
추가적으로 또는 대신에, 일부 실시예에서, 사용자 경험을 개선하고 대기 시간을 감소시키기 위해, 컨텍스트 특정 핫 워드를 감지할 때 자동화된 어시스턴트에 의해 수행되어야 할 응답 동작은 사용자와 관여된 자동화된 어시스턴트를 사용하는 디바이스에서 미리 캐시(cach)에 저장될 수 있다. 그러면, 컨텍스트-특정 핫 워드가 감지되는 즉시 자동화된 어시스턴트가 즉각적인 조치를 취할 수 있다. 이는 자동화된 어시스턴트가 사용자의 요청을 이행하기 위해 먼저 하나 이상의 컴퓨팅 시스템(예를들어, 클라우드)과 연결해야하는 경우와 대조된다.
예를 들어, 디스플레이가 있는 어시스턴트 디바이스가 현재 활성화된 컨텍스트-특정 핫 워드에 대응하는 하나 이상의 "카드"를 포함한다고 가정한다. 카드 중 하나에 "오늘 날씨"가 표시되고 이 카드가 표시되면 컨텍스트-특정 핫 워드(들) "오늘 날씨"(또는 "오늘의 날씨" 등)가 활성화되고, 따라서 사용자는 자동화된 어시스턴트를 먼저 호출하지 않고도 "오늘 날씨"라고 말하여 오늘의 날씨를 알 수 있다. 이 카드가 표시되기 때문에(더 중요하게는, 컨텍스트-특정 핫 워드가 활성화되어 있음), 원격 날씨 서비스에서 오늘의 날씨를 요청하는 응답 동작이 미리 수행될 수 있으며(사용자가 특별히 요청하지 않고) 응답 데이터가 로컬에 캐시(cach)로 저장될 수 있다. 결과적으로, 사용자가 "오늘 날씨"라고 말하면, 오늘의 일기 예보를 나타내는 데이터가 이미 검색되고, 자동화된 어시스턴트가 원격 기상 서비스와의 실시간 통신에 의해 지연 없이 자연어 응답을 신속하게 수집할 수 있다.
본 명세서에 개시된 기술은 다양한 기술적 이점을 제공한다. 특정 상황에서, 적어도 일시적으로, 자동화된 어시스턴트를 호출하는데 사용할 수 있는 어휘를 확장하면, 사용자가 자동화된 어시스턴트와의 관계를 개선할 수 있다. 예를 들어, 타이머 중지, 음악 일시 중지 등과 같은 상황에 맞는 작업을 수행하기 전에 자동화된 어시스턴트를 먼저 호출해야 하는 사용자의 불만을 줄일 수 있다. 일부 기존 어시스턴트 디바이스는 사용자가 먼저 자동화된 어시스턴트를 호출하지 않고도, 디바이스 표면의 활성 부분(예를들어, 정전식 터치 패드 또는 디스플레이)을 탭할 수 있도록 하여 미디어 재생을 일시 중지하거나 타이머를 중지할 수 있도록 한다. 그러나, 신체 장애가 있는 사용자 및/또는 다른 작업을 수행하는 사용자(예를 들어, 요리, 운전 등)는 디바이스를 쉽게 만지지 못할 수 있다. 따라서, 본 명세서에 설명된 기술은 이러한 사용자가 자동화된 어시스턴트가 먼저 호출하지 않고, 타이머를 중지하는 것과 같은 일부 응답 동작을 보다 쉽고 빠르게 수행할 수 있도록 한다.
추가적으로, 본 명세서에 개시된 바와 같이, 일부 실시예에서, 자동화된 어시스턴트는 컨텍스트-특정 핫 워드에 응답하는 콘텐츠를 사전에 다운로드할 수 있다. 예를 들어, 자동화된 어시스턴트가 핫 워드가 포함된 하나 이상의 카드가 표시되는 특정 콘텐츠(예를들어, 날씨, 교통, 일정 등)로 전환 할 때, 이러한 핫 워드에 응답하는 정보가 사전에 메모리에 다운로드 되고 캐시에 저장될 수 있다. 결과적으로, 하나 이상의 핫 워드가 발화될 때, 자동화된 어시스턴트가 응답 정보를 얻기 위해 하나 이상의 네트워크를 이용하여 하나 이상의 원격 리소스(resources)에 대한 도달을 먼저 수행해야 하는 경우보다 자동화된 어시스턴트가 응답 정보를 더 빠르게 제공할 수 있다. 이것은 또한 어시스턴트 디바이스가 데이터 네트워크(들)를 이용할 수 있는 구역 내/외로 이동할 수 있는 차량에 있을 때 유용할 수 있다. 예를 들어 차량이 데이터 커버리지(coverage) 영역에 있는 동안, 어떠한 컨텍스트-특정 핫 워드에 응답하는 콘텐츠를 사전에 다운로드하고 캐시에 저장함으로써, 사용자가 데이터 커버리지 영역을 벗어나 여행하는 동안 요청하면 해당 데이터를 사용할 수 있다.
또 다른 예로서, 본 명세서에 개시된 기술은 사용자가 포괄적인 speech-to-text("STT") 처리를 요구하지 않고 응답 동작을 트리거할 수 있다. 예를 들어, 어떠한 컨텍스트 호출 모델이 활성화되고 컨텍스트-특정 핫 워드를 감지하면, STT 처리를 사용하여 사용자의 발화를 텍스트로 변환할 필요없이, 이러한 모델의 출력을 기반으로 응답 동작이 트리거될 수 있다. 이는 클라이언트 디바이스상의 컴퓨팅 리소스를 절약할 수 있고, 그리고/또는 사용자 발화의 STT 및/또는 의미론적 처리를 수행하기 위해 클라우드 인프라와의 왕복 통신을 피할 수 있어, 네트워크 자원을 절약할 수 있다. 또한, 왕복 전송을 피하는 것은 지연을 개선하고 적어도 일부 데이터를 클라우드 인프라로 보내는 것을 피할 수 있으며, 이는 사용자 프라이버시 관점에서 유리하고 그리고/또는 바람직할 수 있다.
일부 실시예에서, 다음을 포함하는 하나 이상의 프로세서를 이용하여 구현되는 방법이 제공된다: 컴퓨팅 디바이스에서 적어도 부분적으로 자동화된 어시스턴트를 작동시키는 단계; 하나 이상의 디폴트 핫 워드의 감지는 제한된 핫 워드 리스닝 상태에서 음성 인식 상태로의 자동화 어시스턴트의 전환을 트리거하여, 하나 이상의 상기 디폴트 핫 워드에 대해 마이크로폰에 의해 캡처된 오디오 데이터를 모니터링 하는 단계; 상기 컴퓨팅 디바이스의 주어진 상태로의 전환을 감지하는 단계; 그리고 상기 감지에 대응하여, 상기 하나 이상의 디폴트 핫 워드에 더하여, 하나 이상의 컨텍스트-특정 핫 워드에 대해 상기 마이크로폰에 의해 캡처된 상기 오디오 데이터를 모니터링 하는 단계를 포함하고, 하나 이상의 상기 컨텍스트-특정 핫 워드 감지는 하나 이상의 상기 디폴트 핫 워드를 감지하거나 상기 자동화된 어시스턴트를 음성 인식 상태로 전환하는 것을 요구하지 않고도, 상기 자동화된 어시스턴트가 상기 주어진 상태와 관련된 응답 동작을 수행하도록 트리거하는 것을 특징으로 한다.
본 명세서에 개시된 기술 및 다른 실시예는 선택적으로 다음 특징 중 하나 또는 하나 이상을 포함할 수 있다.
다양한 실시예에서, 상기 주어진 상태는 상기 자동화된 어시스턴트에 의해 설정된 타이머의 만료를 포함할 수 있으며, 상기 하나 이상의 컨텍스트-특정 핫 워드의 감지는 상기 자동화된 어시스턴트가 상기 타이머를 취소하도록 트리거하는 단계를 더 포함할 수 있다. 다양한 실시예에서, 상기 주어진 상태는 상기 자동화된 어시스턴트에 의해 트리거되는 미디어 재생을 포함하고, 상기 하나 이상의 컨텍스트-특정 핫 워드의 감지는 상기 자동화된 어시스턴트가 상기 미디어 재생을 변경하도록 야기하는 단계를 더 포함할 수 있다. 다양한 실시예에서, 상기 미디어 재생의 변경은 일시 정지, 재생, 빨리 감기, 되감기 또는 볼륨 변경 중 하나 또는 하나 이상을 포함할 수 있다.
다양한 실시예에서, 상기 감지 단계는 콘텐츠가 상기 컴퓨팅 디바이스의 디스플레이 상에 렌더링되었는지 판단하는 단계를 더 포함할 수 있다. 다양한 실시예에서, 상기 디스플레이 상에 렌더링된 상기 콘텐츠에 기초하여 상기 하나 이상의 컨텍스트-특정 핫 워드를 식별하는 단계를 더 포함할 수 있다. 다양한 실시예에서, 상기 디스플레이 상에 렌더링된 상기 콘텐츠에 기초하여 상기 하나 이상의 컨텍스트-특정 핫 워드를 식별하는 단계는 상기 디스플레이 상에 렌더링된 콘텐츠에 기초하여 하나 이상의 음소(phonemes)를 식별하는 단계를 포함할 수 있다. 다양한 실시예에서, 상기 하나 이상의 식별된 음소는 하나 이상의 음소를 받아들이고 하나 이상의 나머지 음소를 거부하도록 훈련된 머신 러닝 모델을 조정하는데 사용될 수 있다.
또한, 일부 실시예는 하나 이상의 컴퓨팅 디바이스의 하나 이상의 프로세서를 포함하고, 상기 한 또는 하나 이상의 프로세서는 연관된 메모리에 저장된 명령어를 실행하도록 동작할 수 있으며, 상기 명령어는 전술한 방법 중 어느 하나를 수행하도록 구성된다. 일부 실시예는 또한 전술한 방법 중 어느 하나를 수행하기 위해 하나 이상의 프로세서에서 실행 가능한 컴퓨터 명령어를 저장하는 하나 이상의 비-일시적(non-transitory) 컴퓨터 판독 가능 저장 매체를 포함한다.
전술한 개념 및 본 명세서에 더 상세히 설명된 추가 개념의 모든 조합은 본 명세서에 개시된 주제의 일부인 것으로 고려된다는 것을 유념해야한다. 예를 들어, 본 명세서의 끝에 나타나는 청구항의 주제의 모든 조항은 본 명세서에 개시된 주제의 일부인 것으로 고려된다.
도 1은 본 명세서에 개시된 실시예가 구현된 수 있는 예시적인 환경의 블락도이다.
도 2는 다양한 실시예에 따라, 본 명세서의 선택된 양상들로 구성된 자동화된 어시스턴트에 의해 구현될 수 있는 상태 머신의 예를 도시한다.
도 3a, 도 3b, 도 4a, 도 4b, 도 5a, 도 5b 및 도 6은 개시된 기술이 사용될 수 있는 추가적인 예시 시나리오를 도시한다.
도 7은 본 명세서에 개시된 실시예에 따른 방법의 예시를 나타내는 흐름도를 도시한다.
도 8은 컴퓨팅 디바이스의 예시적인 아키텍처(architecture)를 도시한다.
이제 도 1을 참조하면, 본 명세서에 개시된 기술이 구현될 수 있는 예시적인 환경이 도시된다. 예시적인 환경은 하나 이상의 클라이언트 컴퓨팅 디바이스(컴퓨팅 장치)(client computing devices)(106)를 포함한다. 각각의 클라이언트 디바이스(106)는 본 명세서에서 자동화된 어시스턴트의 "클라이언트 부분(client portion)"으로 지칭될 수 있는 자동화된 어시스턴트 클라이언트(108) 각각의 인스턴스(instance)를 실행할 수 있다. 또한 본 명세서에서 총칭하여 자동화된 어시스턴트의 "서버 부분(server portion)"이라고 지칭될 수도 있는, 하나 이상의 클라우드-기반 자동화된 어시스턴트 컴포넌트(components)(119)는, 일반적으로 부호(114)로 표시된 하나 이상의 로컬 및/또는 광역 네트워크(예를 들어, 인터넷)를 통해 클라이언트 디바이스(106)에 통신 가능하게 연결되는, 하나 이상의 컴퓨팅 시스템(총칭하여 "클라우드" 컴퓨팅 시스템으로 지칭 됨)에서 구현될 수 있다.
다양한 실시예에서, 자동화된 어시스턴트 클라이언트(108)의 인스턴스는, 하나 이상의 클라우드-기반 자동화된 어시스턴트 컴포넌트(119)와의 상호 작용을 통해, 사용자의 관점에서, 사용자가 인간과 컴퓨터 간의 대화에 참여할 수 있는 자동화된 어시스턴트(120)의 논리적 인스턴스(logical instance)를 나타내는 것으로 보여질 수 있다. 그러한 자동화된 어시스턴트(120)의 한 예가 도 1에 점선으로 도시된다. 따라서, 클라이언트 디바이스(106)에서 실행되는 자동화된 어시스턴트 클라이언트(108)에 참여하는 각 사용자는 실질적으로는 자신의 자동화된 어시스턴트(120)의 논리적 인스턴스를 통해 참여하는 것으로 이해되어야 한다. 간결화와 단순화를 위해, 본 명세서에서 사용되는 "자동화된 어시스턴트"라는 용어는 특정 사용자에게 "서비스를 제공하는" 것으로서, 사용자에 의해 작동되는 클라이언트 장치(106)에서 실행되는 자동화된 어시스턴트 클라이언트(108)와 하나 이상의 클라우드-기반의 자동화된 어시스턴트 컴포넌트(119)(이는 다수의 자동화된 어시스턴트 클라이언트(108) 사이에서 공유될 수 있음)의 조합을 의미한다. 또한, 몇몇 실시예에서, 자동화된 어시스턴트(120)는 사용자가 자동화된 어시스턴트(120)의 특정 인스턴스를 통해 실제로 "서비스"를 받는지 여부에 관계없이 임의의 사용자의 요청에 응답할 수 있는 것으로 이해되어야 한다.
하나 이상의 클라이언트 디바이스(106)는 예를 들어, 데스크탑 컴퓨팅 디바이스, 랩탑 컴퓨팅 디바이스, 태블릿 컴퓨팅 디바이스, 모바일폰 컴퓨팅 디바이스, 차량의 컴퓨팅 디바이스(예를 들어, 차량용 통신 시스템, 차량용 엔터테인먼트 시스템, 차량용 내비게이션 시스템), 독립형 인터랙티브(interactive) 스피커(일부는 비전 센서(vision sensor)를 포함할 수 있음), 스마트 TV(또는 자동화된 어시스턴트 기능이 있는 네트워크 동글(networked dongle)이 장착된 표준 TV)와 같은 스마트 기기, 및/또는 컴퓨팅 디바이스를 포함하는 사용자의 웨어러블 장치(예를 들어, 컴퓨팅 디바이스를 포함하는 사용자 워치, 컴퓨팅 디바이스를 포함하는 사용자 글래스, 가상 또는 증강현실 컴퓨팅 디바이스) 중 하나 또는 하나 이상을 포함할 수 있다. 추가 및/또는 대체 클라이언트 컴퓨팅 디바이스가 제공될 수 있다. 예를 들어 독립형 인터랙티브 스피커(또는 "스마트 스피커")와 같은 몇몇 클라이언트 디바이스(106)는 주로 사용자와 자동화된 어시스턴트(120) 간의 대화를 용이하게 하도록 설계된 어시스턴트 디바이스의 형태를 취할 수 있다. 이러한 몇몇 어시스턴트 디바이스는 디스플레이(터치스크린 디스플레이일 수도 있고 아닐 수도 있음)가 연결된 독립형 인터랙티브 스피커의 형태를 취할 수 있다.
몇몇 실시예에서, 클라이언트 디바이스(106)는 하나 이상의 FOV(fields of view)를 갖는 하나 이상의 비전 센서(107)를 구비할 수도 있지만, 이것이 필수는 아니다. 비전 센서(들)(107)는 디지털 카메라, 수동 적외선("PIR", passive intrared) 센서, 입체 카메라(stereoscopic cameras), RGBd 카메라 등과 같은 다양한 형태를 취할 수 있다. 하나 이상의 비전 센서(107)는 클라이언트 디바이스(106)가 배치된 환경에서 이미지 프레임(image frames)(스틸(still) 이미지 또는 비디오)을 캡처하기 위해 예를 들어, 이미지 캡처 모듈(111)을 사용할 수 있다. 이러한 이미지 프레임들은 예를 들어, 시각적 큐 모듈(visual cue module)(1121)에 의해 분석되어 이미지 프레임에 포함된 사용자 제공의 시각적 큐(visual cues)를 감지할 수 있다. 이러한 시각적 큐는 손 제스처, 특정 기준점을 향하는 시선, 얼굴 표정들, 미리 정의된 사용자의 움직임 등을 포함할 수 있으나 이에 제한되지는 않는다. 감지된 시각적 큐는 자동화된 어시스턴트(120)를 호출 및/또는 자동화된 어시스턴트(120)로 하여금 다양한 동작을 수행하게 하는 것과 같은 다양한 목적을 위해 사용될 수 있다.
본 명세서에서 더 상세히 설명되는 바와 같이, 자동화된 어시스턴트(120)는 하나 이상의 클라이언트 디바이스(106)의 사용자 인터페이스 입출력 디바이스들을 통해 하나 이상의 사용자와의 인간 대 컴퓨터 대화 세션에 참여한다. 몇몇 실시예에서, 자동화된 어시스턴트(120)는 클라이언트 디바이스(106) 중 하나에서 하나 이상의 사용자 인터페이스 입력 디바이스를 통해 사용자가 제공한 사용자 인터페이스 입력에 응답하여 사용자와의 인간 대 컴퓨터 대화 세션에 참여할 수 있다. 몇몇 실시예에서, 사용자 인터페이스 입력은 명백하게 자동화된 어시스턴트(120)를 가리킨다. 예를 들어, 사용자는 자동화된 어시스턴트(120)가 능동적 리스닝(actively listening) 또는 타이핑된 텍스트의 모니터링을 시작하도록 "오케이, 어시스턴트(OK, Assistant)" 또는 "헤이, 어시스턴트(Hey, Assistant)"와 같은 미리 결정된 호출 문구를 구두로 제공(예를 들어, 타이핑, 발화)할 수 있다. 추가적으로 또는 대안적으로, 몇몇 실시예에서, 자동화된 어시스턴트(120)는 하나 또는 하나 이상 검출된 시각적 큐에 기초하여 단독으로 또는 이와 구두 호출 문구와의 조합에 기초하여 호출될 수 있다.
몇몇 실시예에서, 사용자 인터페이스 입력이 자동화된 어시스턴트(120)를 명백하게 가리키지 않은 경우에도, 자동화된 어시스턴트(120)가 사용자 인터페이스 입력에 응답하여 인간 대 컴퓨터 대화 세션에 참여할 수 있다. 예를 들어, 자동화된 어시스턴트(120)는 사용자 인터페이스 입력의 컨텐츠를 조사하고 사용자 인터페이스 입력에 존재하는 특정 용어에 응답 및/또는 다른 큐(cues)에 기초하여 대화 세션에 참여할 수 있다. 많은 실시예에서, 자동화된 어시스턴트(120)는 음성 인식을 사용하여 사용자 발언을 텍스트로 변환하고, 그에 따라 예를 들어, 검색 결과, 제너럴(general) 정보를 제공 및/또는 하나 이상의 응답 동작(예를 들어, 미디어 재생, 게임 실행, 음식 주문 등)을 취함으로써 텍스트에 응답할 수 있다. 몇몇 실시예에서, 자동화된 어시스턴트(120)는 발언을 텍스트로 변환하지 않고도 발언에 대해 추가적으로 또는 대안적으로 응답할 수 있다. 예를 들어, 자동화된 어시스턴트(120)는 음성 입력을 임베딩(embedding), 엔티티(entity) 표현(들) (음성 입력에 존재하는 엔티티/엔티티들을 나타냄), 및/또는 기타 "비-텍스트" 표현으로 변환할 수 있고, 그러한 비-텍스트 표현에 동작할 수 있다. 따라서, 본 명세서에 개시된 실시예는 음성 입력으로부터 변환된 텍스트에 기초하여 동작하는 것으로 본 명세서에서 설명된 실시예는 추가적으로 및/또는 대안적으로 음성 입력에 직접 동작 및/또는 음성 입력의 다른 비-텍스트 표현에 동작할 수 있다.
클라이언트 컴퓨팅 디바이스(106) 및 클라우드-기반의 자동화된 어시스턴트 컴포넌트(119)를 작동시키는 컴퓨팅 디바이스(들) 각각은 데이터 및 소프트웨어 어플리케이션을 저장하기 위한 하나 이상의 메모리, 데이터에 액세스하고 어플리케이션을 실행하기 위한 하나 이상의 프로세서, 및 네트워크를 통한 통신을 용이하게 하는 기타 컴포넌트를 포함할 수 있다. 클라이언트 컴퓨팅 디바이스(106) 및/또는 자동화된 어시스턴트(120)에 의해 수행되는 동작들은 여러 컴퓨터 시스템에 분산될 수 있다. 자동화된 어시스턴트(120)는 예를 들어, 네트워크를 통해 상호 연결된 하나 이상의 로케이션(locations)에 존재하는 하나 이상의 컴퓨터에서 실행되는 컴퓨터 프로그램들로 구현될 수 있다.
상술한 바와 같이, 다양한 실시예에서, 클라이언트 컴퓨팅 디바이스(106)는 자동화된 어시스턴트 클라이언트(108) 또는 자동화된 어시스턴트(120)의 "클라이언트 부분(client portion)"을 동작시킬 수 있다. 다양한 실시예에서, 자동화된 어시스턴트 클라이언트(108)는 음성 캡처 모듈(110), 전술한 이미지 캡처 모듈(111), 시각적 큐 모듈(1121), 및/또는 호출 모듈(113)을 포함할 수 있다. 다른 실시예에서, 음성 캡처 모듈(110), 이미지 캡처 모듈(111), 시각적 큐 모듈(112), 및/또는 호출 모듈(113) 중 하나 이상의 양상은 예를 들어, 하나 이상의 클라우드-기반의 자동화된 어시스턴트 컴포넌트(119)에 의하여, 자동화된 어시스턴트 클라이언트(108)와는 별개로 구현될 수 있다. 예를 들어, 도 1에는, 이미지 데이터에서 시각적 큐들을 감지할 수 있는 클라우드-기반 시각적 큐 모듈(1122)도 포함된다.
다양한 실시예에서, 음성 캡처 모듈(110)은 하드웨어 및 소프트웨어의 임의의 조합을 사용하여 구현될 수 있는데, 마이크로폰(109) 또는 기타 압력 센서와 같은 하드웨어와 인터페이스하여 사용자 발언(들)의 오디오 녹음을 캡처할 수 있다. 이러한 오디오 녹음은 다양한 목적에 대하여 다양한 유형의 처리가 이루어질 수 있다. 몇몇 실시예에서, 하드웨어 또는 소프트웨어의 임의의 조합을 사용하여 구현될 수 있는 이미지 캡처 모듈(111)은 카메라(107)와 인터페이스하여 비전 센서(107)의 시야각(FOV)에 대응하는 하나 이상의 이미지 프레임(예를 들어, 디지털 사진들)을 캡처하도록 구성될 수 있다.
다양한 실시예에서, 시각적 큐 모듈(1121) (및/또는 클라우드-기반 시각적 큐 모듈 (1122))은 하드웨어 또는 소프트웨어의 임의의 조합을 사용하여 구현될 수 있고, 이미지 캡처 모듈(111)에 의해 제공되는 하나 이상의 이미지 프레임을 분석하여 하나 이상의 이미지 프레임 내에 및/또는 전체에 걸쳐 캡처된 하나 이상의 시각적 큐를 검출하도록 구성될 수 있다. 시각적 큐 모듈(1121)가 시각적 큐들을 검출하기 위해 다양한 기술이 사용될 수 있다. 예를 들어, 시각적 큐 모듈(1122)은 이미지 프레임들에서 감지된 사용자-제공의 시각적 큐들을 나타내는 출력을 생성하도록 학습된 하나 이상의 인공 지능(또는 머신 러닝) 모델을 사용할 수 있다.
음성 캡처 모듈(110)은 상술한 바와 같이, 예를 들어, 마이크로폰(109)을 통해 사용자의 음성을 캡처하도록 구성될 수 있다. 추가적으로 또는 대안적으로, 몇몇 실시예에서, 음성 캡처 모듈(110)은 예를 들어, 음성-텍스트 ("STT", speech-to-text) 처리 기술들을 사용하여, 캡처된 오디오를 텍스트 및/또는 다른 표현 또는 임베딩으로 변환하도록 구성될 수도 있다. 추가적으로 또는 대안적으로, 몇몇 실시예에서, 음성 캡처 모듈(110)은 예를 들어, 하나 이상의 음성 합성기를 사용하여 텍스트를 컴퓨터-합성 음성으로 변환하도록 구성될 수 있다. 그러나, 일부 경우에서는, 클라이언트 디바이스(106)가 컴퓨팅 리소스(resources)(예를 들어, 프로세서 사이클들, 메모리, 배터리 등) 측면에서 상대적으로 제한될 수 있기 때문에, 클라이언트 디바이스(106)의 로컬(local)인 음성 캡처 모듈(110)은 유한한 개수의 서로 다른 발화 구문 - 특히, 자동화된 어시스턴트(120)를 호출하는 구문- 을 텍스트(또는, 예를 들어 저차원 임베딩과 같은 다른 형태들)로 변환하도록 구성될 수 있다. 다른 음성 입력은 클라우드-기반의 자동화된 어시스턴트 컴포넌트(119)로 전송될 수 있는데, 클라우드-기반의 자동화된 어시스턴트 컴포넌트(119)는 클라우드-기반의 텍스트-음성("TTS", text-to-speech) 모듈(116) 및/또는 클라우드-기반의 STT 모듈(117)을 포함할 수 있다.
다양한 실시예에서, 호출 모듈(113)은 예를 들어, 음성 캡처 모듈(110) 및/또는 시각적 큐 모듈(1121)(일부 실시예에서는, 단일 모듈 내의 이미지 캡처 모듈(111)과 결합될 수 있음)에 의해 제공된 출력에 기초하여, 자동화된 어시스턴트(120)를 호출할지 여부를 결정하도록 구성될 수 있다. 예를 들어, 호출 모듈(113)은 사용자의 발언이 자동화된 어시스턴트(120)와의 인간 대 컴퓨터 대화 세션을 개시하는데 필요한 호출 문구로서 자격이 있는지를 결정할 수 있다. 몇몇 실시예에서, 호출 모듈(113)은 오디오 녹음 또는 오디오 녹음으로부터 추출된 특징의 벡터(예를 들어, 임베딩)와 같은, 사용자의 발언을 나타내는 데이터를 단독으로 또는 시각적 큐 모듈(1121)에 의해 검출된 하나 이상의 시각적 큐와 결합하여 분석할 수 있다. 몇몇 실시예에서, 음성 발언에 응답하여 자동화된 어시스턴트(120)를 호출할지 여부를 결정하기 위해 호출 모듈(113)이 사용하는 임계값은 특정 시각적 큐가 감지된 경우에도 낮아질 수 있다. 결과적으로, 사용자가 적절한 호출 문구 "오케이 어시스턴트(OK assistant)"와는 다르지만 음성학적으로 다소 유사한 음성 발화를 제공하더라도 시각적 큐(예를 들어, 발화자가 손을 흔들거나, 발화자가 비전 센서(107)를 직접 응시하는 등)가 함께 감지되면 그 발언이 적합한 호출로 받아들여질 수 있다.
몇몇 실시예에서, 발언 및/또는 시각적 큐(들)이 호출로서 자격이 있는지 여부를 결정하기 위하여, 예를 들어, 온-디바이스(on-device) 모델 데이터베이스(114)에 저장된 하나 이상의 온-디바이스 호출 모델이 호출 모듈(113)에 의해 사용될 수 있다. 이러한 온-디바이스 호출 모델은 호출 문구/제스처의 변형을 감지하도록 학습될 수 있다. 예를 들어, 몇몇 실시예에서, 온-디바이스 호출 모델(예를 들어, 하나 이상의 신경망(neural networks))은 발언과 동시에 캡처된 하나 이상의 이미지 프레임 및/또는 감지된 시각적 큐들을 나타내는 데이터뿐만 아니라, 사용자의 발언의 오디오 녹음 (또는 추출된 특징 벡터)을 포함하는 각각의 트레이닝 예들을 사용하여 학습될 수 있다.
도 1에서, 온-디바이스 모델 데이터베이스(114)는 하나 이상의 온-디바이스 호출 모델(1141-114N)을 저장할 수 있다. 몇몇 실시예에서, 디폴트 온-디바이스 호출 모델(1141)은 오디오 녹음 또는 이를 나타내는 기타 데이터에서, 이전에 언급된 것과 같은 하나 이상의 디폴트 호출 문구(예를 들어, " 오케이 어시스턴트(OK Assistant), " "헤이, 어시스턴트(Hey, Assistant)" 등)를 감지하도록 학습될 수 있다. 이러한 몇몇 실시예에서, 이러한 모델들은 항시 사용가능하며, 음성 캡처 모듈(110)에 의해 캡처된 임의의 오디오 녹음(적어도 호출 후 일정 시간 동안)을 후술되는 바와 같이 자동화된 어시스턴트(120)의 다른 컴포넌트(예를 들어, 클라이언트 디바이스(106)에서 또는 하나 이상의 클라우드-기반의 자동화된 어시스턴트 컴포넌트(119)에 의해)를 사용하여 처리할 수 있도록, 자동화된 어시스턴트(120)를 일반 리스닝 상태로 전환하는데 사용될 수 있다.
추가적으로, 몇몇 실시예에서, 온-디바이스 모델 데이터베이스(114)는 적어도 일시적으로, 하나 이상의 추가 "컨텍스트 호출 모델"(1142-114N)을 저장할 수 있다. 특정 컨텍스트들에서 이러한 컨텍스트 호출 모델(1142-114N)이 호출 모듈(113)에 의해 사용 및/또는 호출 모듈(113)에서 사용 가능하다. 컨텍스트 호출 모델(1142-114N)은 예를 들어, 오디오 녹음 또는 이를 나타내는 기타 데이터에서, 하나 이상의 컨텍스트-특정 핫워드를 검출하도록 학습될 수 있다. 몇몇 실시예에서, 컨텍스트 호출 모델(1142-114N)은 이하에서 더 자세히 기술되는 바와 같이, 예를 들어, 클라우드-기반의 자동화된 어시스턴트 컴포넌트(119)의 일부를 형성하는 다이내믹 핫워드 엔진(128)으로부터 필요에 따라 선택적으로 다운로드될 수 있다.
다양한 실시예에서, 호출 모듈(113)이 컨텍스트 호출 모델(1142-114N)을 사용하여 다양한 다이내믹 핫워드를 감지할 때, 자동화된 어시스턴트(120)를 앞서 설명한 일반 리스닝 상태로 전환시킬 수 있다. 추가적으로 또는 대안적으로, 호출 모듈(113)은 자동화된 어시스턴트(120)를 일반 리스닝 상태로 전환하는 것과 함께 또는 전환하지 않고 자동화된 어시스턴트(120)를 하나 이상의 컨텍스트-특정 응답 동작이 수행되는 컨텍스트-특정 상태로 전환할 수 있다. 많은 경우에서, 자동화된 어시스턴트(120)를 컨텍스트-특정 상태로 전환하도록 트리거한 오디오 데이터는 클라우드로 전송되지 않을 수 있다. 대신, 하나 이상의 컨텍스트-특정 응답 동작이 프라이버시 관점에서 유익한 클라이언트 장치(106)에서 전적으로 수행될 수 있으며, 이는 응답 시간과 클라우드로 전송되는 정보의 양을 모두 감소시킬 수 있다.
클라우드-기반의 TTS 모듈(116)은 텍스트 데이터(예를 들어, 자동화된 어시스턴트(120)에 의해 체계화된 자연어 응답들)를 컴퓨터-생성 음성 출력으로 변환하기 위해 실질적으로 클라우드의 리소스를 제한없이 활용하도록 구성될 수 있다. 몇몇 실시예에서, TTS 모듈(116)은 예를 들어, 하나 이상의 스피커를 사용하여, 직접 출력되도록 컴퓨터-생성 음성 출력을 클라이언트 디바이스(106)에 제공할 수 있다. 다른 실시예들에서, 자동화된 어시스턴트(120)에 의해 생성된 텍스트 데이터(예를 들어, 자연어 응답)는 음성 캡처 모듈(110)에 제공될 수 있고, 이에 의해 텍스트 데이터는 로컬로 출력되는 컴퓨터-생성 음성으로 변환될 수 있다.
클라우드-기반의 STT 모듈(117)은 음성 캡처 모듈(110)에 의해 캡처된 오디오 데이터를 텍스트로 변환하기 위해 실질적으로 클라우드의 리소스를 제한없이 활용하도록 구성될 수 있고, 텍스트는 이후 의도 매칭기(intent matcher)(135)에 제공될 수 있다. 몇몇 실시예에서, 클라우드-기반의 STT 모듈(117)은 발화의 오디오 녹음을 하나 이상의 음소(phonemes)로 변환한 다음, 하나 이상의 음소를 텍스트로 변환할 수 있다. 추가적으로 또는 대안적으로, 몇몇 실시예에서, STT 모듈(117)은 상태 디코딩 그래프(state decoding graph)를 사용할 수 있다. 몇몇 실시예에서, STT 모듈(117)은 사용자 발언으로부터 복수의 후보 텍스트 해석을 생성할 수 있다. 몇몇 실시예에서, STT 모듈(117)은 동시에 검출된 시각적 큐가 존재하는지에 따라 특정 후보 텍스트 해석에 다른 것보다 더 높은 가중치를 부여하거나 편향(bias)시킬 수 있다.
자동화된 어시스턴트(120)(특히, 클라우드-기반의 자동화된 어시스턴트 컴포넌트(119))는 의도 매칭기(135), 전술한 TTS 모듈(116), 전술한 STT 모듈(117) 및 이하에 더 상세히 설명되는 다른 컴포넌트를 포함할 수 있다. 몇몇 실시예에서, 자동화된 어시스턴트(120)와 별개의 컴포넌트에서는 자동화된 어시스턴트(120)의 모듈들 및/또는 모듈 중 하나 또는 하나 이상이 생략, 결합, 및/또는 구현될 수 있다. 몇몇 실시예에서, 프라이버시를 보호하기 위해, 자연어 프로세서(natural language processor)(122), TTS 모듈(116), STT 모듈(117) 등과 같은, 자동화된 어시스턴트(120)의 컴포넌트 중 하나 또는 하나 이상이, 클라이언트 디바이스(106)의 적어도 일부로서(예를 들어, 클라우드를 제외하고) 구현될 수 있다.
몇몇 실시예에서, 자동화된 어시스턴트(120)는 자동화된 어시스턴트(120)와의 인간 대 컴퓨터 대화 세션 동안 클라이언트 디바이스(106) 중 하나의 사용자에 의해 생성된 다양한 입력에 응답하여 응답 콘텐츠(responsive content)를 생성한다. 자동화된 어시스턴트(120)는 사용자에게 대화 세션의 일부로서 나타내기 위한 응답 콘텐츠를 제공할 수 있다(예를 들어, 사용자의 클라이언트 디바이스와 분리된 경우 하나 이상의 네트워크를 통해). 예를 들어, 자동화된 어시스턴트(120)는 클라이언트 디바이스(106)를 통해 제공된 자유-형식 자연어 입력에 응답하여 응답 콘텐츠를 생성할 수 있다. 본 명세서에 사용된 바와 같이, 자유-형식 입력은 사용자에 의해 체계화되고 사용자 선택을 위해 표시된 옵션의 그룹에 제한되지 않는다.
본 명세서에서 사용되는 바와 같이, "대화 세션(dialog session)"은 사용자와 자동화된 어시스턴트(120) (그리고 일부의 경우는 다른 참가자들)간에 하나 이상의 메시지를 논리적-독립 교환(logically-self-contained exchange)하는 것을 포함할 수 있다. 자동화된 어시스턴트(120)는 세션 간의 시간 경과, 세션 간의 사용자 컨텍스트의 변화(예를 들어, 위치, 예정된 미팅의 이전/수행동안/이후 등), 사용자와 자동화된 어시스턴트 간의 대화 외에 사용자와 클라이언트 디바이스 사이에 하나 이상의 매개 인터랙션의 탐지(예를 들어, 사용자가 잠시 어플리케이션을 전환한 후 자리를 비운 다음 나중에 독립형 음성-활성화 제품으로 복귀함), 세션(sessions) 간의 클라이언트 디바이스가 잠금/슬립되는 것, 자동화된 어시스턴트(120)의 하나 이상의 인스턴스와 상호작용하기 위해 사용되는 클라이언트 디바이스들의 변경 등과 같은 다양한 신호를 기반으로 사용자와의 다중 대화 세션을 구별할 수 있다.
의도 매칭기(135)는 사용자에 의해 제공된 입력(들) (예를 들어, 음성 발언들, 시각적 큐들 등)에 기초 및/또는 예로서 센서 신호들, 온라인 신호들(예를 들어, 웹 서비스에서 획득된 데이터) 등과 같은 다른 신호에 기초하여 사용자의 의도를 결정하도록 구성될 수 있다. 몇몇 실시예에서, 의도 매칭기(135)는 자연어 프로세서(122) 및 전술한 클라우드-기반의 시각적 큐 모듈(1122)을 포함할 수 있다. 다양한 실시예에서, 클라우드-기반의 시각적 큐 모듈(1122)은 클라우드-기반의 시각적 큐 모듈(1122)이 처리(disposal)에 더 많은 리소스를 갖는 것을 제외하면 시각적 큐 모듈 (1121)과 유사하게 동작할 수 있다. 특히, 클라우드-기반의 시각적 큐 모듈(1122)은 사용자의 의도를 결정하기 위해, 의도 매칭기(135)에 의해 단독으로 또는 다른 신호와 결합하여 사용될 수 있는 시각적 큐들을 검출할 수 있다.
자연어 프로세서(122)는 클라이언트 디바이스(106)를 통해 사용자(들)에 의해 생성된 자연어 입력을 처리하도록 구성될 수 있고, 자동화된 어시스턴트(120)의 하나 이상의 다른 컴포넌트가 사용하기 위해 주석이 달린 출력(예를 들어, 텍스트 형태)을 생성할 수 있다. 예를 들어, 자연어 프로세서(122)는 클라이언트 디바이스(106)의 하나 이상의 사용자 인터페이스 입력 디바이스를 통해 사용자가 생성한 자연어 자유-형식 입력을 처리할 수 있다. 생성된 주석이 달린 출력은 자연어 입력의 하나 이상의 주석들 및 하나 또는 하나 이상(예를 들어, 모두)의 자연어 입력의 용어들을 포함한다.
몇몇 실시예에서, 자연어 프로세서(122)는 자연어 입력에서 다양한 유형의 문법 정보를 식별하고 주석을 달도록 구성된다. 예를 들어, 자연어 프로세서(122)는 개별 단어들을 형태소로 분리 및/또는 예를 들어, 형태소의 클래스에 형태소 주석을 달수 있는 형태소 모듈을 포함할 수 있다. 또한, 자연어 프로세서(122)는 문법적 역할을 포함한 용어를 주석으로 달도록 구성된 품사 태거(a part of speech tagger)를 포함할 수 있다. 예를 들어, 품사 태거는 "명사", "동사", "형용사", "대명사" 등과 같이 각 용어를 품사로 태깅할 수 있다. 또한, 예를 들어, 몇몇 실시예에서 자연어 프로세서(122)는 자연어 입력에서 용어들 간의 구문 관계를 결정하도록 구성된 종속 파서(dependency parser)(도시되지 않음)를 추가 및/또는 대안으로 포함할 수 있다. 예를 들어, 종속 파서는 어떤 용어가 다른 용어나, 문장의 주어 및 동사 등(예를 들어, 구문 분석 트리)을 변경시키는지를 결정할 수 있고 - 이러한 의존성은 주석으로 만들어질 수 있다.
몇몇 실시예에서, 자연어 프로세서(122)는 추가적으로 및/또는 대안적으로 사람들(예를 들어, 문학 캐릭터, 유명인, 공개적 유명인사 등을 포함함)에 대한 참조, 조직, 위치(실제 및 가상) 등과 같이 하나 이상의 세그먼트(segments)의 엔티티 참조에 주석을 달도록 구성된 엔티티 태거(도시되지 않음)를 포함할 수 있다. 몇몇 실시예에서, 엔티티에 관한 데이터는 지식 그래프(knowledge graph)(도시되지 않음)와 같은 하나 이상의 데이터베이스에 저장될 수 있다. 몇몇 실시예에서, 지식 그래프는 노드(nodes)를 연결하고 엔티티들 간의 관계를 나타내는 에지(edges) 뿐만 아니라, 알려진 엔티티(그리고 일부 경우에는, 엔티티 속성(attributes))를 나타내는 노드를 포함할 수 있다. 예를 들어, "바나나" 노드는 "과일" 노드에 연결될 수 있고(예를 들어, 자식 노드로), "생산" 및/또는 "음식" 노드에 차례로 연결될 수 있다(예를 들어, 자식 노드로). 다른 예로서, "가상 카페(Hypothetical Cafe)"라는 레스토랑은 주소, 제공되는 음식 유형, 영업시간, 연락처 정보 등과 같은 속성들도 포함하는 노드로서 표시될 수 있다. 몇몇 실시예에서, "가상 카페" 노드는 "레스토랑" 노드, "비즈니스" 노드, 레스토랑이 위치한 도시 및/또는 주(state)를 나타내는 노드 등과 같이 하나 이상의 기타 노드들이 에지를 통해 연결될 수 있다(예를 들어, 자식-부모(child-to-parent) 관계를 나타냄).
자연어 프로세서(122)의 엔티티 태거는 높은 수준의 입도(granularity)(예를 들어, 사람과 같은 엔티티 클래스에 대한 모든 참조를 식별할 수 있도록 하기 위해) 및/또는 더 낮은 수준의 입도(예를 들어, 특정 개인과 같은 특정 엔티티에 대한 모든 참조를 식별할 수 있도록 하기 위해)에서 엔티티에 대한 참조에 주석을 달 수 있다. 엔티티 태거는 특정 엔티티를 해석(resolve)하기 위해 자연어 입력의 콘텐츠에 의존 및/또는 지식 그래프 또는 다른 엔티티 데이터베이스와 선택적으로 통신할 수 있다.
몇몇 실시예에서, 자연어 프로세서(122)는 추가적으로 및/또는 대안적으로 하나 이상의 컨텍스트 큐에 기초하여 동일 엔티티에 대한 참조를 그룹화하거나 "클러스터(cluster)"하도록 구성된 상호참조 리졸버(coreference resolver)(도시되지 않음)를 포함할 수 있다. 예를 들어, 상호참조 리졸버는 자연어 입력 "저번에 우리가 먹었던 거기 가상 카페가 좋았다(I liked Hypothetical Cafe last time we ate there.). "에서 "거기(there)"라는 용어를 "가상 카페"로 해석하는데 활용될 수 있다.
몇몇 실시예에서, 자연어 프로세서(122)의 하나 이상의 컴포넌트는 자연어 프로세서(122)의 하나 이상의 다른 컴포넌트의 주석에 의존할 수 있다. 예를 들어, 몇몇 실시예에서, 명명된 엔티티 태거는 특정 엔터티에 대한 모든 멘션(all mentions)에 주석을 달 때 상호참조 리졸버 및/또는 종속 파서의 주석에 의존할 수 있다. 또한, 예를 들어, 몇몇 실시예에서 상호참조 리졸버는 동일 엔티티에 대한 참조를 클러스터링 할 때 종속 파서의 주석에 의존할 수 있다. 몇몇 실시예에서, 특정 자연어 입력을 처리할 때, 자연어 프로세서(122)의 하나 이상의 컴포넌트는 하나 이상의 주석을 결정하기 위해 관련된 이전 입력 및/또는 특정 자연어 입력의 외부의 다른 관련 데이터를 사용할 수 있다.
의도 매칭기(135)는 예를 들어, 자연어 프로세서(122) (자연어 입력의 주석 및 용어를 포함 할 수 있음)의 출력에 기초 및/또는 시각적 큐 모듈(예를 들어, 1121 및/또는 1122)의 출력에 기초하여 사용자의 의도를 결정하기 위한 다양한 기술을 사용할 수 있다. 몇몇 실시예에서, 의도 매칭기(135)는 예를 들어, 문법, 시각적 큐, 및 응답 동작(또는 보다 일반적인, 의도) 간의 복수의 매핑(mapping)을 포함하는 하나 이상의 데이터베이스(도시되지 않음)에 액세스(access)할 수 있다. 많은 경우에, 이러한 문법들은 시간이 경과함에 따라 선택 및/또는 학습될 수 있고, 사용자의 가장 일반적인 의도를 나타낼 수 있다. 예를 들어, 문법, "재생 <아티스트>(play <artist>)"는 <아티스트>의 음악이 사용자에 의해 작동되는 클라이언트 디바이스(106)에서 재생되게끔 하는 응답 동작을 호출하려는 의도와 매핑될 수 있다. 또 다른 문법인, "[날씨 | 예보] 오늘([weather | forecast] today)"은 "오늘 날씨 어때" 와 "오늘의 예보는 어때?"와 같은 사용자 쿼리와 일치할 수 있다.
몇몇 실시예에서, 문법에 추가하여 또는 대신하여, 의도 매칭기(135)는 하나 이상의 학습된 머신 러닝 모델을 단독으로 또는 하나 이상의 문법 및/또는 시각적 큐와 조합하여, 사용할 수 있다. 이러한 학습된 머신 러닝 모델은 하나 이상의 데이터베이스에 저장될 수 있으며, 예를 들어, 사용자의 발언 및/또는 감지된 사용자-제공의 시각적 큐를 나타내는 데이터를 축소된 차원 공간(reduced dimensionality space)에 임베딩하고, 예를 들어 유클리드 거리 (Euclidean distance), 코사인 유사성 등과 같은 기술을 사용하여 어떤 임베딩(그리고 그에 따른 의도)이 가장 가까운지를 결정함으로써, 의도를 식별하도록 학습될 수 있다.
예시 문법인 "재생 <아티스트>(play <artist>)"에서 보았듯이, 일부 문법은 슬롯값(또는 "파라미터")으로 채워질 수 있는 슬롯(예를 들어, <아티스트>)을 갖는다. 슬롯 값은 다양한 방식으로 결정될 수 있다. 종종 사용자는 사전에 슬롯 값을 제공한다. 예를 들어, "<토핑> 피자를 주문하세요(Order me a <topping> pizza)"라는 문법에 대해, 사용자는 "소시지 피자를 주문해줘(order me a sausage pizza)"라는 문구를 발화할 수 있고, 이 경우 슬롯 <토핑>이 자동으로 채워지게 된다. 추가적으로 또는 대안적으로, 사용자가 사전에 슬롯 값을 제공하지 않고, 슬롯 값으로 채워질 슬롯을 포함한 문법을 호출하는 경우, 자동화된 어시스턴트(120)는 사용자에게 슬롯 값을 요청할 수 있다(예를 들어, "어떤 타입의 크러스트 피자를 원하십니까?(what type of crust do you want on your pizza?)"). 몇몇 실시예에서, 슬롯은 시각적 큐 모듈(1121-2)에 의해 감지된 시각적 큐에 기초한 슬롯 값으로 채워질 수 있다. 예를 들어, 사용자는 클라이언트 디바이스(106)의 시각 센서(107)에 세 손가락을 들면서 "이 개수만큼 캣 볼(cat bowls)을 주문해줘(Order me this many cat bowls)"와 같은 발언을 할 수 있다. 또는, 사용자가 특정 영화의 DVD 케이스를 들고서 "이런 영화 더 찾아 줘(Find me more movies like this)"와 같은 발언을 할 수 있다.
몇몇 실시예에서, 자동화된 어시스턴트(120)는 사용자와 하나 이상의 써드 파티(third party) 컴퓨팅 서비스(130) (또는 "써드 파티 에이전트" 또는 "에이전트") 간에 중개자(intermediary) 역할을 할 수 있다. 이러한 써드 파티 컴퓨팅 서비스(130)는 입력을 수신하고 응답 출력을 제공하는 독립형 소프트웨어 프로세스일 수 있다. 몇몇 써드 파티 컴퓨팅 서비스는 예를 들어, 클라우드-기반의 자동화된 어시스턴트 컴포넌트(119)의 운영체제와 별개의 컴퓨팅 시스템에서 작동하거나 또는 그렇지 않은 써드 파티 어플리케이션의 형태를 취할 수 있다. 의도 매칭기(135)에 의해 식별될 수 있는 한 종류의 사용자 의도는 써드 파티 컴퓨팅 서비스(130)에 참여하는 것일 수 있다. 예를 들어, 자동화된 어시스턴트(120)는 스마트 디바이스를 제어하기 위한 서비스로 어플리케이션 프로그래밍 인터페이스( "API", application programming interface)에 대한 액세스를 제공할 수 있다. 사용자는 자동화된 어시스턴트(120)를 호출하고 "난방을 켜고 싶어(I'd like to turn the heating on)"와 같은 명령을 제공할 수 있다. 의도 매칭기(135)는 이 명령을 자동화된 어시스턴트(120)가 써드 파티 서비스에 참여하도록 트리거하는 문법에 매핑하여 사용자의 난방이 켜지게끔 할 수 있다. 써드 파티 서비스(130)는 난방을 켜는 명령을 이행(또는 "해결(resolve)")하기 위해 채워져야 할 슬롯의 최소 목록을 자동화된 어시스턴트(120)에 제공할 수 있다. 이 예에서, 슬롯은 난방이 설정될 온도 및 난방이 켜지는 지속기간을 포함할 수 있다. 자동화된 어시스턴트(120)는 슬롯에 대한 파라미터를 요청하는 자연어 출력을 생성하고 사용자에게 제공할 수 있다(클라이언트 디바이스(106)를 통해).
이행 모듈(124)은 연관된 슬롯 값(사용자에 의해 사전에 제공된 것인지 또는 사용자로부터 요청된 것인지) 뿐만 아니라, 의도 매칭기(135)에 의해 출력되는 예측/추정된 의도를 수신하고 그 의도를 이행(또는 "해결")하도록 구성될 수 있다. 다양한 실시예에서, 사용자 의도의 이행(또는 "해결")은 다양한 이행 정보( "응답" 정보 또는 "해결 정보"라고도 지칭됨)가 예를 들어, 이행 모듈 (124)에 의해 생성/획득되도록 할 수 있다. 이하에서 설명되는 바와 같이, 몇몇 실시예에서 이행 정보는 자연어 생성기(일부 도면에서 "NLG")(126)에 제공될 수 있으며, 이행 정보에 기초하여 자연어 출력을 생성할 수 있다.
이행(또는 "해결") 정보는 의도가 다양한 방식으로 이행(또는 "해결")될 수 있기 때문에 다양한 형태를 취할 수 있다. 사용자가 " '샤이닝(The Shining)'의 야외 촬영은 어디에서 촬영됐어?(Where were the outdoor shots of 'The Shinning' filmed?)"와 같은 순수한 정보를 요청한다고 가정한다. 사용자의 의도는 예를 들어, 의도 매칭기(135)에 의해 검색 쿼리로 결정될 수 있다. 검색 쿼리의 의도와 콘텐츠는 도 1에 도시된 바와 같이 응답 정보에 대한 문서 및/또는 다른 데이터 소스(예를 들어, 지식 그래프 등)의 말뭉치(corpuses)를 검색하도록 구성된 하나 이상의 검색 모듈(150)과 통신할 수 있는 이행 모듈(124)에 제공될 수 있다. 이행 모듈(124)은 검색 쿼리를 나타내는 데이터(예를 들어, 쿼리의 텍스트, 축소된 차원 임베딩 등)를 검색 모듈(150)에 제공할 수 있다. 검색 모듈(150)은 GPS 좌표, 또는 "Timberline Lodge, Mt. Hood, Oregon"와 같이 다른 더 명확한 정보를 제공할 수 있다. 이 응답 정보는 이행 모듈(124)에 의해 생성된 이행 정보의 일부를 형성할 수 있다.
추가적으로 또는 대안적으로, 이행 모듈(124)은 예를 들어, 의도 매칭기(135)로부터, 사용자의 의도와 사용자에 의해 제공되거나 다른 수단들(예를 들어, 사용자의 GPS 좌표, 사용자 선호도 등)을 사용하여 결정된 임의의 슬롯 값을 수신하고 응답 동작을 트리거하도록 구성될 수 있다. 응답 동작은 예를 들어, 상품/서비스 주문, 타이머 시작, 리마인더(reminder) 설정, 전화 통화 시작, 미디어 재생, 메시지 전송 등을 포함할 수 있다. 이러한 몇몇 실시예에서, 이행 정보는 이행과 관련된 슬롯 값, 확인 응답(경우에 따라 미리 결정된 응답에서 선택될 수 있음) 등을 포함할 수 있다.
자연어 생성기(126)는 다양한 소스로부터 획득된 데이터에 기초하여 자연어 출력(예를 들어, 사람의 음성을 모방하도록 설계된 단어/구문)을 생성 및/또는 선택하도록 구성될 수 있다. 몇몇 실시예에서, 자연어 생성기(126)는 의도의 이행과 관련된 이행 정보를 입력으로 수신하고, 그 이행 정보에 기초하여 자연어 출력을 생성하도록 구성될 수 있다. 추가적으로 또는 대안적으로, 자연어 생성기(126)는 써드 파티 어플리케이션과 같은 다른 소스로부터 정보(예를 들어, 필요한 슬롯)를 수신할 수 있고, 이는 사용자를 위한 자연어 출력을 구성하는데 사용할 수 있다.
도 2는 다양한 실시예에 따라, 본 명세서의 선택된 양태들로 구성된 자동화된 어시스턴트 (예를 들어, 120) 및/또는 어시스턴트 디바이스(예를 들어, 106)에 의해 구현될 수 있는 예시적인 상태 머신(state machine)을 개략적으로 도시한다. 왼쪽 상단에는 사용자가 참여하지 않을 때 자동화된 어시스턴트(120)가 속할 수 있는 "디폴트 비활성화 상태"가 있습니다. 디폴트 비활성화 상태에서, 하나 이상의 클라이언트 디바이스(106)의 하나 이상의 마이크로폰이 활성화될 수 있고, 마이크로폰이 캡처하는 오디오 데이터는 본 명세서에 기재된 기술을 사용하여 분석될 수 있다. 자동화된 어시스턴트(120)는, 예를 들어, 디폴트 호출 모델(default invocation model)(114)에 기초한 호출 모듈(113) 및/또는 시각적 큐 모듈(112)에 의해 "오케이, 어시스턴트(OK, Assistant)" 또는 "헤이, 어시스턴트(Hey, Assistant)"와 같은 하나 이상의 디폴트 호출 단어(도 2의 "DIW", 본 명세서에서 "핫 워드"로 지칭)의 감지에 응답하여 "일반 리스닝 상태"로 전환될 수 있다. 디폴트 핫 워드 이외의 발언은 무시되고 처리되지 않을 수 있다.
일반 리스닝 상태에서, 자동화된 어시스턴트(120)는 디폴트 호출 단어(들) 및 "일반 처리" 상태로의 전환 후에 발화된 오디오 데이터를 캡처할 수 있다. 일반 처리 상태에서, 자동화된 어시스턴트(120)는 STT 처리, 자연어 처리, 의도 매칭, 이행 등을 포함하여, 도 1과 관련하여 앞서 설명된 바와 같이 오디오 입력을 나타내는 데이터를 처리할 수 있다. 처리가 완료되면, 자동화된 어시스턴트(120)는 디폴트 비활성화 상태로 다시 전환될 수 있다. 예를 들어, 자동화된 어시스턴트가 처리할 의도가 없는 더 늦은 발화는 캡처되거나 처리되지 않도록, 디폴트 호출 단어(들)이 감지된 후 오디오 입력이 수신되지 않으면, 타임아웃(도 2의 "TO)이 자동화된 어시스턴트(120)를 일반 리스닝 상태에서 디폴트 비활성화 상태로 다시 전환할 수 있다.
전술한 바와 같이, 본 명세서에 개시된 기술은 자동화된 어시스턴트(120)를 일반 리스닝 상태 또는 자동화된 어시스턴트(120)가 다양한 동작을 수행하는 다른 컨텍스트-특정 상태와 같이 다양한 상태로 전환하기 위해 활성화 및 탐지할 수 있는 컨텍스트-특정 핫 워드를 용이하게 한다. 일부 실시예에서, 특정 컨텍스트에서, 자동화된 어시스턴트(120)를 디폴트 비활성 상태에서 일반 리스닝 상태로 전환하기 위해 발언할 수 있는 호출 단어의 어휘를 최소한 일시적으로, 확장할 수 있다(예를 들어, 제한된 시간 동안, 컨텍스트가 더 이상 적용되지 않을 때까지 등).
예를 들어, 도 2에서, 제1 컨텍스트-특정 신호(CS1)는 자동화된 어시스턴트(120)가 디폴트 비활성화 상태에서 제1 컨텍스트-특정 리스닝 상태인 "CSLS1"로 전환할 수 있다. CSLS1에서, 자동화된 어시스턴트(120)는 디폴트 호출 워드(들)("DIW") 및 제1 컨텍스트-특정 핫 워드("C1 hot words") 모두를 청취할 수 있다. 둘 중 하나가 감지되면, 자동화된 어시스턴트(120)는 상술한 바와 같이 일반 리스닝 상태로 전환할 수 있다. 따라서, 제1 컨텍스트-특정 리스닝 상태에서, 자동화된 어시스턴트(120)를 일반 리스닝 상태로 전환할 수 있는 핫 워드의 어휘는 디폴트 호출 단어(들) 및 제1 컨텍스트-특정 핫 워드를 모두 포함하도록 확장된다. 또한, 일부 실시예에서, 자동화된 어시스턴트(120)가 활성화된 핫 워드의 감지 없이 제1 컨텍스트-특정 리스닝 상태에 있는 동안 충분한 시간이 경과하면, 타임 아웃("TO")은 자동화된 어시스턴트(120)를 다시 디폴트 비활성화 상태로 전환할 수 있다.
일부 실시예에서, 추가적으로 또는 대안적으로, 특정 컨텍스트에서, 자동화된 어시스턴트(120)는 예를 들어, 핫 워드의 확장된 어휘를 사용하여, 일반 리스닝 상태 또는 하나 이상의 컨텍스트-특정 동작이 수행될 수 있는 컨텍스트-특정 상태로 전환될 수 있다. 예를 들어, 도 2에서, 자동화된 어시스턴트(120)는 제2 컨텍스트별 신호("CS2")에 응답하여 디폴트 비활성화 상태로부터 제2 컨텍스트-특정 리스닝 상태, "CSLS2"로 전환될 수 있다. 이러한 제2 컨텍스트-특정 리스닝 상태에서, 자동화된 어시스턴트(120)는 예를 들어, 하나 이상의 디폴트 호출 단어 및/또는 일부 경우에, 자동화된 어시스턴트(120)를 일반 리스닝 상태로 전환할 수 있는 어휘를 효과적으로 확장할 수 있는, 하나 이상의 제2 컨텍스트-특정 핫 워드("C2 hot word(s)A")를 감지함으로써, 일반 리스닝 상태로 전환될 수 있다.
추가적으로 또는 대안적으로, 자동화된 어시스턴트(120)는 제2 컨텍스트-특정 상태("CSLS2")로부터 예를 들어, 하나 이상의 추가적인 제2 컨텍스트-특정 핫 워드("C2 핫 워드(들)B")에 응답하여, 하나 이상의 제2 컨텍스트-특정 응답 동작("2nd 컨텍스트-특정 응답. 동작.")이 수행되는 하나 이상의 상태로 전환될 수 있다. 응답 동작의 예는 아래에 설명되어 있다. 일부 실시예에서, 특정 제2-컨텍스트 특정 핫 워드는 특정 제2-컨텍스트 특정 응답 동작에 매핑될 수 있지만, 이것이 필수는 아니다. 명확성을 위해도 2에 도시되지 않았지만, 일부 실시예에서, 이러한 하나 이상의 제2 컨텍스트-특정 응답 동작의 수행 후, 자동화된 어시스턴트(120)는 디폴트 비활성화 상태로 다시 전환할 수 있다.
일부 실시예에서, 특정 컨텍스트에서, 자동화된 어시스턴트(120)는 더 이상 디폴트 핫 워드를 청취하지 않을 수 있다. 대신, 자동화된 어시스턴트(120)는 컨텍스트-특정 핫 워드만을 청취하고 응답 동작을 수행할 수 있다. 예를 들어, 도 2에서, 자동화된 어시스턴트(120)는 M번째 컨텍스트별 신호("CSM")에 응답하여, 디폴트 비활성화 상태에서 M번째 컨텍스트-특정 리스닝 상태(M 은 양의 정수), "CSLSM",으로 전환될 수 있다. 이 상태에서 자동화된 어시스턴트(120)는 M번째 컨텍스트-특정 핫 워드("CM 핫 워드(들)")를 청취할 수 있다. 하나 이상의 M번째 컨텍스트-특정 핫 워드 감지에 대한 응답으로, 자동화된 어시스턴트(120)는 하나 이상의 M번째 컨텍스트-특정 응답 동작("Mth 컨텍스트-특정 응답. 동작.")을 수행할 수 있다.
다양한 실시예에서, 자동화된 어시스턴트(120)는 다양한 방식으로 컨텍스트-특정 핫 워드를 활성화할 수 있다. 예를 들어, 도1 및 도2에 도시된 바와 같이, 일부 실시예에서, 특정 컨텍스트로 전환할 때, 자동화된 어시스턴트(120)는 예를 들어, 다이내믹 핫 워드 엔진(128), 하나 이상의 컨텍스트-특정 머신 러닝 모델 또는 분류기(예를 들어, 1142, 1143,. ., 114N)로부터 특정 컨텍스트에서 활성화될 핫 워드를 감지하도록 사전 훈련된 신경망, 은닉 마르코프 모델 등을 다운로드할 수 있다. 예를 들어, 특정 컨텍스트에서 자동화된 어시스턴트(120)를 디폴트 비활성화 상태에서 일반 리스닝 상태로 전환하는 어휘가 확장되어 "howdy"라는 단어가 포함된다고 가정한다. 다양한 실시예에서, 자동화된 어시스턴트(120)는 예를 들어, 다이내믹 핫 워드 엔진(128)으로부터 단어 "howdy"가 감지되었는지 여부를 나타내는 출력을 생성하도록 훈련된 분류기를 얻을 수 있다. 다양한 실시예에서 이러한 이진법을 사용하거나(예를 들어, 핫 워드가 감지되면 "1"출력, 그렇지 않으면 "0" 출력), 확률을 생성할 수 있다. 확률이 일부 신뢰 임계 값을 충족하면 핫 워드가 감지된 것일 수 있다.
추가적으로 또는 대안적으로, 일부 실시예에서, 하나 이상의 온-디바이스 모델(114)은 즉석에서 조정하여 하나 이상의 미리 결정된 음소(phonemes)에 대해 하나의 출력을 생성하고 다른 음소에 대해 다른 출력을 생성하는 다이내믹 핫 워드 분류기/머신 러닝 모델(예를 들어, 신경망, 은닉 마르코프 모델 등)의 형태를 취할 수 있다. 핫 워드 "howdy"가 활성화된다고 가정한다. 다양한 실시예에서, 예를 들어, 하나 이상의 파라미터를 변경 및/또는 오디오 데이터와 함께 또는 포함된 특정 입력을 제공함으로써, 음소 "how"와 "dee"에 대해 "청취"하도록, 다이내믹 핫 워드 분류기를 조정할 수 있다. 이러한 음소가 오디오 입력에서 감지될 때, 다이내믹 핫 워드 분류기는 자동화된 어시스턴트(120)가 일반 리스닝 상태로 전환, 일부 컨텍스트-특정 응답 동작 수행 등과 같은 응답 동작을 취하도록 트리거하는 출력을 생성할 수 있다. 다른 음소는 무시되거나 무시된 출력을 생성할 수 있다. 추가적으로 또는 대안적으로, 출력은 활성화된 음소에만 응답하여 다이내믹 핫 워드 분류기에 의해 생성될 수 있으며, 다른 음소는 출력을 전혀 생성하지 않을 수 있다.
도 3a 및 3b는 사용자(101)와 자동화된 어시스턴트의 인스턴스(도 3a-b에 도시되지 않음) 사이의 인간 대 컴퓨터 대화 세션이 본 명세서에 개시된 실시예에 따른 클라이언트 컴퓨팅 디바이스(306)의 마이크로폰(들) 및 스피커(들)(독립형 인터랙티브 스피커로 묘사되지만 이는 제한되지 않음)를 통해 어떻게 발생할 수 있는지에 대한 한가지 예를 보여준다. 자동화된 어시스턴트(120)의 하나 이상의 양상은 컴퓨팅 디바이스(306) 및/또는 컴퓨팅 디바이스(306)와 네트워크 통신하는 하나 이상의 컴퓨팅 디바이스 상에서 구현될 수 있다.
도 3a에서, 사용자(101)("Dave")는 사용자(101)와 자동화된 어시스턴트(120) 사이의 인간 대 컴퓨터 대화 세션에서 "헤이, 어시스턴트, 5 분 동안 타이머 설정해(Hey assistant, set a timer for five minutes)"의 자연어 입력을 제공한다. 자동화된 어시스턴트(120)는 "오케이. 타이머 시작 ... 지금(OK. Timer starting...now)"이라고 답하고, 5분 타이머를 시작한다. 일부 실시예에서, 타이머가 설정된(아직 만료되지 않은) 사실만으로도 자동화된 어시스턴트를 타이머와 관련된 컨텍스트-특정 상태로 전환하는 컨텍스트별 신호(예를들어, 도 2의 "CS2")로 충분할 수 있다. 이 상태에서, 사용자(101)는 여전히 하나 이상의 디폴트 호출 단어로 자동화된 어시스턴트(120)를 호출할 수 있다. 그러나, 사용자(101)는 또한 예를 들어, "타이머 중지", "타이머 취소" 또는 단순히 "중지"와 같은, 하나 이상의 확장된 컨텍스트 특정 핫 워드를 발화함으로써, 예를 들어 타이머를 중지하는 컨텍스트-특정 응답 동작을 트리거할 수 있다.
추가적으로 또는 대안적으로, 일부 실시예에서, 타이머가 카운트 다운되는 동안, 자동화된 어시스턴트(120)는 잠시 디폴트 비활성화 상태에 남아있을 수 있으며, 따라서 디폴트 핫 워드(들)에만 응답할 수 있다. 그러나, 타이머가 만료되면, 도 3B에 도시된 바와 같이( "BEEEP!!! BEEEP!!! BEEEP!!!"), 자동화된 어시스턴트(120)는 먼저 자동화된 어시스턴트(120)를 디폴트 비활성화 상태에서 일반 리스닝 상태로 전환하지 않고, 타이머를 중지하기 위해 하나 이상의 컨텍스트-특정 핫 워드(예를들어, 컨텍스트-특정 응답 동작으로써)를 실행할 수 있는 컨텍스트-특정 상태로 전환될 수 있다. 예를 들어, 도 3B에서, 사용자(101)는 먼저 자동화된 어시스턴트(120)를 일반 리스닝 상태로 호출하지 않고 "타이머 중지"라는 문구를 발화한다. 그럼에도 불구하고, 자동화된 어시스턴트(120)는 타이머를 정지시킨다.
도 4a-b는 본 명세서에 설명된 기술이 구현될 수 있는 다른 예를 도시한다. 다시 한번, 사용자(101)는 클라이언트 디바이스(306)에서 적어도 부분적으로 동작하는 자동화된 어시스턴트(120)에 참여한다. 도 4A에서, 사용자(101)는 "헤이 어시스턴트, 'We Wish You a Merry Christmas' 재생.(Hey assistant, play 'We Wish You a Merry Christmas.)"이라고 발화한다. 이에 응답하여, 자동화된 어시스턴트(120)는 클라이언트 디바이스(306)에서 노래의 재생을 시작하고, 음악-재생 컨텍스트로 전환한다(적어도 노래가 재생되는 동안). 즉, 음악의 재생은 자동화된 어시스턴트(120)를 음악 재생 컨텍스트로 전환하는 컨텍스트별 신호(도 2의 "CS")를 구성한다.
음악 재생 컨텍스트에서, 사용자(101)는 예를 들어 음악 재생을 제어하기 위해, 음악 재생 컨텍스트로의 전환시에 활성화된 하나 이상의 컨텍스트-특정 핫 워드를 발화할 수 있다. 예를 들어, 도 4B에 도시된 바와 같이, 사용자(101)는 먼저 자동화된 어시스턴트(120)를 호출하지 않고, "30초 빨리 감기(fast forward thirty seconds)"와 같은 것을 말할 수 있다. 그럼에도 불구하고, 자동화된 어시스턴트(120)는 응답으로 30초 앞으로 건너뛸 수 있다. 이러한 컨텍스트에서 활성화될 수 있는 다른 핫 워드로는 "정지", "일시 중지", "되감기 <시간 증분>", "볼륨 업/다운" 등이 있다.
도 5a-b는 본 명세서에 설명된 기술이 예를 들어, 도 4A-B와 유사한 방식으로 사용될 수 있는 다른 예시적인 시나리오를 도시한다. 이번 사용자(101)는 제2 클라이언트 디바이스(506B)(스마트 TV 또는 포브(fob) 또는 기타 보조-지원 디바이스가 장착된 "dumb" TV의 형태를 취함) 상의 영화 재생을 제어하기 위해 본 개시의 선택된 양상들로 구성된 제1 클라이언트 디바이스(506A)(독립형 인터랙티브 스피커의 형태를 취함)에 참여한다. 도 5A에서, 사용자(101)는 "헤이 어시스턴트, 'Citizen Kane' 재생(Hey assistant, play 'Citizen Kane'.)"이라고 말한다. 자동화된 어시스턴트(120)는 제2 클라이언트 디바이스(506B)에서 요청된 영화의 재생을 시작함으로써 응답한다.
도 5b에서, 사용자(101)는 자동화된 어시스턴트(120)를 먼저 호출하지 않고, "감독이 누구야(Who is the director)?"라고 질문한다. 그럼에도 불구하고, 자동화된 어시스턴트(120)는 "감독"을 포함하는 다양한 컨텍스트-특정 핫 워드가 활성화되어 자동화된 어시스턴트(120)가 응답 동작을 수행하게 하는 영화 재생 상태에 있을 수 있다. 이 예에서, 자동화된 어시스턴트(120)는 예를 들어, 제1 클라이언트 디바이스(506A)로부터의 오디오 출력을 통해 "Orson Welles가 1941년에 'Citizen Kane'을 감독했다.(Orson welles directed 'Citizen Kane' in 1941)"고 응답한다.
도 5b에서, 사용자(101)는 자동화된 어시스턴트(120)를 먼저 호출하지 않고, 다시 "일시 중지"라고 말하고, 자동화된 어시스턴트(120)는 재생을 일시 중지한다. 이러한 컨텍스트에서 활성화될 수 있는 다른 핫 워드에는 "빨리 감기 <시간>", "다시 시작", "되감기" 등이 포함되지만, 이에 한정되지는 않는다.
일부 실시예에서, 사용자(101)가 비디오 재생(또는 다른 실시예에서 오디오 재생)을 소비하는 동안, 컨텍스트는 변경될 수 있다. -활성화된 컨텍스트-특정 핫 워드에 대응하는 변경을 야기- 예를 들어, 사용자(101)이 영화 대신 게임 쇼를 보고 있다고 가정한다. 게임 쇼의 다른 단계 동안, 예를 들어 게임 쇼의 콘텐츠에 기초하여, 다른 핫 워드가 활성화되어, 사용자(101)는 함께 플레이 할 수 있다. 게임 쇼 중에 참가자에게 역사적 사건, 과학적 사실 등에 관한 질문이 제시되었다고 가정해 본다. 일부 실시예에서 자동화된 어시스턴트(120)는 배후에서, 질문에 대해 가능한 대답을 결정하기 위해 웹 검색을 수행할 수 있으며, 그 다음 답변과 관련된 하나 이상의 핫 워드를 활성화할 수 있다. 사용자(101)가 자동화된 어시스턴트(120)를 호출하지 않더라도, 이러한 핫 워드 중 하나 또는 하나 이상을 발화하면, 자동화된 어시스턴트(120)는 피드백을 제공할 수 있다(예를 들어, "that is correct", "that is incorrect", "I wasn't able to find out, let's see what happens" 등).
도 6은 컨텍스트에 따라 동적으로 활성화되는 핫 워드의 또 다른 예를 도시한다. 도 6에서, 사용자(101)는 마이크로폰(도시되지 않음), 스피커(611) 및 디스플레이(613)를 포함하는 독립형 어시스턴트 디바이스의 형태를 취하는 클라이언트 디바이스(606)에 참여한다. 다양한 구현에서, 디스플레이(613)는 자동화된 어시스턴트(120)와의 참여를 촉진 및/또는 향상시키는 그래픽 요소(예를 들어, 카드)를 렌더링하는 터치 스크린 디스플레이일 수도 있고 아닐 수도 있다. 예를 들어, 도 6에서, 디스플레이(613)는 "날씨", "주식", "스포츠", "교통", "일정" 및 "쇼핑 목록"과 같은 일련의 선택 가능한 카드를 렌더링한다. 이들은 제한을 의미하지 않으며, 일부는 예를 들어 도 6에 묘사되지 않은 다른 것을 선호하여, 추가되거나 생략될 수 있다. 더욱이, 일부 실시예에서, 카드는 예를 들어, 사용자 자신에 의해 또는 다른 신호(예를 들어, 검색 기록, 자동화된 어시스턴트(120)와의 사전 참여 등)에 기초하여 특정 사용자에게 맞춤화될 수 있다.
다양한 실시예에서, 사용자는 예를 들어, 디스플레이(613)상에서 터치함으로써 및/또는 예를 들어 카드의 일부로서 렌더링되는 하나 이상의 핫 워드를 발화함으로써, 주어진 카드를 선택할 수 있다. 예를 들어, 도 6에서, 사용자(101)는 먼저 자동화된 어시스턴트(120)를 호출하지 않고 "날씨 예보는 어때(What's the weather forecast)?"라는 문구를 발화할 수 있다. 자동화된 어시스턴트(120)는 "최고 기온 섭씨 25도로 맑을 것으로 예상됩니다.(It will be sunny with a high of 25 degrees Celsius.)"라고 응답한다. "날씨"라는 제목의 카드가 이미 디스플레이(613)에 렌더링되었기 때문에, 핫 워드 "날씨"가 이미 활성화되어, 사용자(101)가 "날씨"라는 단어를 포함하는 문구를 발화하여 자동화된 어시스턴트(120)가 컨텍스트-특정 작업(기상 예보 보고)을 수행하도록 할 수 있다.
일부 실시예에서, 자동화된 어시스턴트(120)는 특정 컨텍스트로 전환하기 이전 또는 전환시에 응답 콘텐츠를 선제적으로 다운로드하고 캐시에 저장할 수 있다. 예를 들어, 도 6에서, 자동화된 어시스턴트(120)는 예를 들어, 디스틀레이(613) 상에 카드를 렌더링하는 것과 동시에 다양한 원격 및/또는 로컬 소스로부터 날씨, 주식, 스포츠, 교통, 일정(사용자(101)에 개인적인 소스들로부터 데이터를 얻는 것을 포함할 수 있음) 및 쇼핑 목록과 관련된 일반적인 질의에 대한 응답 콘텐츠를 사전에(즉, 사람의 개입 없이) 다운로드할 수 있다. 이러한 선제적인 다운로드는 자동화된 어시스턴트(120)가 하나 이상의 카드에 대응하는 하나 이상의 다이내믹 핫 워드를 포함하는 사용자(101)로부터의 발화에 훨씬 더 빠르게 응답할 수 있게 한다. 이는 특히 클라이언트 디바이스가 움직이는 자동차에 실려있는 경우와 같이, 데이터 연결성이 손실될 수 있는 시나리오에서 특히 유리할 수 있다.
도 6의 경우와 같이, 자동화된 어시스턴트(120)의 컨텍스트가 디스플레이 상에 렌더링되는 콘텐츠에 의존하는 일부 실시예에서, 임의의 수의 새로운 단어 또는 문구를 청취하도록 자동화된 어시스턴트(120)를 빠르게 적응시키는 것이 필요할 수 있다. 모든 잠재적 단어/문구에 대해 사용 가능한 사전-학습된 모델이 반드시 있는 것은 아닐 수 있다. 더욱이, 일부 사전-훈련된 모델이 다이내믹 핫 워드 인덱스(dynamic hot word index)(129)에서 이용 가능하더라고, 클라이언트 디바이스(106)sms 특정 컨텍스트에서 필요한 모델을 다운로드할 수 있는 데이터 연결이 부족할 수 있다. 따라서, 다양한 실시예에서, 하나 이상의 미리 결정된 음소에 대한 하나의 출력을 생성하고 다른 음소에 대한 또 다른 출력을 생성하기 위해, 즉석에서 조정 가능한 전술한 다이내믹 핫 워드 분류기/머신 러닝 모델(예를 들어, 신경망)은 자동화된 어시스턴트(120)의 호출을 트리거하도록 활성화할 수 있다.
도 6에 도시된 것처럼, 제한된 수의 카드의 콘텐츠를 동적으로 청취하는 것 외에 또는 대신에, 이러한 다이내믹 핫 워드 분류기/머신 러닝 모델을 사용하여 광범위한 잠재적 핫 워드(들)를 청취할 수 있다. 예를 들어, 사용자(101)가 특정 웹 페이지 또는 써드 파티 앱(third party app)(예를 들어, 피자를 주문하기 위해)으로 이동하기 위해 도 6의 클라이언트 디바이스(606)를 작동한다고 가정한다. 또는, 대안적으로, 사용자(101)는 자신의 전화(미도시) 또는 다른 클라이언트 디바이스를 웹 사이트로 탐색할 수 있다. 어느 경우든, 표시된 웹 페이지의 콘텐츠를 분석하여 웹 페이지가 표시되는 동안 활성화되어야 하는 다양한 핫 워드를 결정할 수 있다. 이러한 핫 워드는 HTML 태그(예를들어, 제목, 링크 텍스트 등), 페이지의 단어/용어 빈도 등과 같은 다양한 방식으로 선택될 수 있다. 다이내믹 핫 워드 분류기/머신 러닝 모델은 이러한 선택된 단어의 음소를 듣고 다른 음소를 무시하도록 동적으로 조정될 수 있다. 이러한 방식으로 변화하는 임의의 수의 컨텍스트에서 핫 워드를 동적으로 활성화할 수 있다. 추가적으로 또는 대안적으로, 일부 실시예에서 특정 문법을 즉석에서 동적으로 활성화하기 위해, VoiceXML과 같은 기술을 사용할 수 있다.
본 명세서에 설명된 실시예는 자동화된 어시스턴트(120)가 컨텍스트-특정 핫 워드에 응답하여 다양한 동작(예를 들어, 정보 검색, 미디어 재생 제어, 타이머 중지 등)을 수행하도록 하는데 초점을 맞추었지만, 이러한 실시예로 제한하는 것을 의미하지는 않는다. 본 명세서에 설명된 기술은 다른 사용 사례로 확장될 수 있다. 예를 들어, 본 명세서에 설명된 기술은 사용자가 예를 들어, 검색 웹 페이지에서 양식 필드를 채우고자 할 때 적용될 수 있다. 일부 실시예에서, 검색 바 또는 다른 유사한 텍스트 입력 요소가 웹 페이지에 존재할 때, 하나 이상의 추가적인 컨텍스트-특정 핫 워드가 활성화될 수 있다. 예를 들어, 사용자가 검색 바가 있는 웹 페이지로 어시스턴트 지원 디바이스를 탐색할 때, 예를 들어, 사용자가 단순히 "<원하는 주제> 검색(search for <desired topic>)"이라고 말할 수 있고 사용자가 먼저 자동화된 어시스턴트(120)를 호출할 필요 없이, "검색"에 이은 사용자의 발화는 검색 바에 자동으로 전사할 수 있도록, 핫 워드 "검색"이 활성화될 수 있다.
사용 사례의 다른 카테고리로서, 예를 들어, 상품 또는 서비스를 주문하기 위해, 사용자가 하나 이상의 써드 파티 어플리케이션(third party applications)(130)과 인터페이스하기 위해 자동화된 어시스턴트(120)와 연결할 수 있다는 것을 상기해야 한다. 일부 실시예에서, 써드 파티 어플리케이션(130)은 자동화된 어시스턴트(120)가 써드 파티 어플리케이션(130)에 연결할 때마다 활성화되는 자체적인 컨텍스트-특정 핫 워드(들)를 가질 수 있다. 이러한 컨텍스트-특정 핫 워드는 자동화된 어시스턴트(120)가 일반 리스닝 상태로 전환하게 야기할 수 있고 및/또는 써드 파티 어플리케이션(130)에 특정된 하나 이상의 컨텍스트-특정 동작을 호출할 수 있다.
예를 들어, 사용자가 써드 파티 승차 공유 서비스(예를 들어, "오케이 어시스턴트, 공항까지의 승차 예약(OK Assistant, book me a ride to the airport)")에 대한 승차를 주문하기 위해 자동화된 어시스턴트(120)에 참여한다고 가정한다. 자동화된 어시스턴트(120)가 승차 공유 서비스를 용이하게 하는 써드 파티 어플리케이션(130)과 연결할 때, 써드 파티 어플리케이션(130)은 전술한 다이내믹 핫 워드 분류기/머신 러닝 모델이 "청취"하여야 하는 하나 이상의 핫 워드를 식별할 수 있다. 추가적으로 또는 대안적으로, 써드 파티 어플리케이션(130)은 자동화된 어시스턴트(120)에 하나 이상의 사전-훈련된 모델을 제공할 수 있다. 자동화된 어시스턴트(120)는 예를 들어 차량이 도착할 때까지, 또는 차량이 요청된 위치에서 사용자를 인계할 때까지, 승차 공유 어플리케이션과의 업무가 활성화되는 동안 적어도 일시적으로 이들 모델을 활성화할 수 있다. 따라서, 예를 들어, 사용자가 자신의 차량이 도착하기를 기다리는 동안, 자동화된 어시스턴트(120)를 먼저 호출하지 않고, "내 차량이 도착할 때까지 얼마나 걸려(how long till my ride gets herer)?" 또는 "ETA(estimated time of arrival)?"와 같은 발화를 할 수 있다. 자동화된 어시스턴트(120)는 사용자의 요청에 응답하기 위해, 써드 파티 어플리케이션(130)과 연관될 수 있는 하나 이상의 컨텍스트-특정 응답 동작을 호출할 수 있다.
다양한 실시예에서, 컴퓨팅 디바이스의 특정한 컨텍스트로의 전환은, 하나 이상의 컨텍스트-특정 핫 워드에 추가 또는 대신에 하나 이상의 컨텍스트-특정 제스쳐를 활성화할 수 있다. 예를 들어, 디스플레이(613)에서 보여지는 웹 페이지가 하나 이상의 도시된 손 제스처를 포함한다고 가정한다. 다양한 실시예에서, 예를 들어, 도 1의 이미지 캡처 모듈(111)에 의해 캡처된 시각적 데이터에서 이러한 제스처를 감지하도록 훈련된 머신 러닝 모델이 다운로드 및/또는 활성화될 수 있다. 활성화 후 적어도 일정 시간 동안, 사용자는 하나 이상의 제스처를 만들 수 있다. 예를 들어, 호출 모듈(113)에 의한 이러한 제스처의 감지는, 자동화된 어시스턴트(120)의 일반 리스닝 상태로의 전환을 트리거할 수 있고 및/또는 자동화된 어시스턴트(120)가 일부 컨텍스트-특정 응답 동작을 수행하게 할 수 있다.
본 명세서에 설명된 특정 컨텍스트 및/또는 컨텍스트별 신호의 예시에 추가하여 또는 대신에, 다른 컨텍스트 및/또는 컨텍스트별 신호가 본 명세서에 설명된 기술과 함께 사용될 수 있다. 일부 실시예에서, 컨텍스트는 시구간 또는 시간 간격을 포함할 수 있고, 컨텍스트별 신호는 그 시간 간격으로의 시간 전환을 포함할 수 있다. 예를 들어, 일부 실시예에서, 특정 컨텍스트는 사용자가 일반적으로 잠자리에들 때와 같이, 저녁의 특정 지점에서 활성화될 수 있다. 사용자는 하나 이상의 디폴트 핫 워드를 발화하지 않고 "잘 자(good night)"또는 "잠자리에 들게(I'm going to bed)"와 같은 명령을 내릴 수 있다. 이러한 명령에는 상술한 시간 간격(예를들어, 취침 시간) 동안 활성화되는 핫 워드가 포함될 수 있다. 이러한 일부 실시예에서, 이러한 일시적으로-특정한 컨텍스트별 명령은 예를 들어, 복수의 스마트 기기(예를들어, 스마트 조명들)를 종료, 온도 조절 장치를 특정 온도로 설정, 하나 이상의 팬 켜기/끄기 , 보안 시스템 활성화 및 / 또는 하나 이상의 카메라 활성화 등, 하나 이상의 루틴을 트리거할 수 있다.
다른 예로서, 일부 실시예에서, 디바이스 자체의 하드웨어는 하나 이상의 컨텍스트-특정 핫 워드를 활성화하도록 조작 가능할 수 있다. 예를 들어, 참여 전에 사용할 수 있거나 사용할 수 없는 하나 이상의 기본 핫 워드에 추가하거나 대신하여, 사용자가 어시스턴트-지원 스마트 시계의 패스너(fastener) 또는 스냅(snap)을 사용하면, 하나 이상의 사용자 지정 핫 워드가 활성화되도록 야기하는 하드웨어 신호(예를들어, 회로 전류가 인가, 자기 신호 등)가 트리거될 수 있다. 다른 예로서, 한 쌍의 스마트 안경을 장식하는 사용자는 하나 이상의 다이내믹 핫 워드가 활성화되도록 하는 하드웨어 신호를 트리거할 수 있다. 또 다른 예로서, 차량-기반 보조 장치는 차량이 켜진 상태, 좌석에 앉아있는 승객(예를 들어, 중량 센서에 의해 감지된), 차량이 특정 속도 또는 속도 범위로 동작, 매핑(mapping) 어플리케이션이 작동 중이거나 사용 중(예를 들어, 운전자가 교통 체증을 발견하면 디폴트 핫 워드를 사용하지 않고 "대체 경로 찾기(find alternative route)"라고 말할 수 있다.) 등과 같은, 차량의 신호를 기반으로 추가 또는 대체 핫 워드가 활성화되는 상태로 전환될 수 있다.
도 7은 본 명세서에 개시된 실시예에 따른 예시적인 방법(700)을 도시하는 흐름도이다. 편의상, 흐름도의 동작은 동작을 수행하는 시스템을 참조하여 설명한다. 이 시스템은 자동화된 어시스턴트(120)의 하나 이상의 구성 요소와 같은, 다양한 컴퓨터 시스템의 다양한 구성 요소를 포함할 수 있다. 더욱이, 방법의 동작(700)은 특정 순서로 도시되지만, 이에 제한되는 것을 의미하지 않는다. 하나 이상의 작업을 다시 정렬하거나, 생략하거나 또는 추가할 수 있다.
블록(702)에서, 시스템은 컴퓨팅 디바이스(예를 들어, 클라이언트 디바이스 106, 306, 506, 606)에서 적어도 부분적으로 자동화된 어시스턴트(120)를 동작시킬 수 있다. 예를 들어, 상술한 바와 같이, 많은 경우에 자동화된 어시스턴트(120)는 클라이언트 디바이스(106)에 부분적으로 그리고 클라우드(예를 들어, 클라우드 기반 자동화된 어시스턴트 컴포넌트(119))에서 부분적으로 구현될 수 있다. 블록(704)에서, 시스템은 하나 이상의 디폴트 핫 워드에 대해 마이크로폰(예를 들어, 109)에 의해 캡처된 오디오 데이터를 모니터링할 수 있다. 예를 들어, 오디오 데이터(또는 임베딩(embedding)과 같이 오디오 데이터를 나타내는 다른 데이터)는 출력을 생성하기 위해 하나 이상의 현재-활성 호출 모델(114)에 걸쳐 입력으로서 적용될 수 있다. 출력은 하나 이상의 디폴트 핫 워드의 감지(블록 706)를 나타낼 수 있다. 블록(708)에서, 시스템은 제한된 핫 워드 리스닝 상태(예를 들어, 도 2의 디폴트 비활성화 상태)에서 음성 인식 상태(예를 들어, 도 2의 일반 리스닝 상태)로 자동화된 어시스턴트(120)를 전환할 수 있다.
일부 실시예에서, 블록(704-708)의 동작과 병렬로(또는 직렬로), 시스템은 블록(710)에서 클라이언트 디바이스의 상태를 모니터링할 수 있다. 예를 들어, 시스템은 타이머 설정/만료, 미디어 재생 시작, 자동화된 어시스턴트(120)와 써드 파티 어플리케이션(130) 간의 상호 작용, 시간, 감지된 사용자 존재 등과 같은 하나 이상의 컨텍스트별 신호를 모니터링할 수 있다.
블록(712)에서, 시스템이 컨텍스트별 신호를 감지하면, 블록(714)에서, 시스템은 컴퓨팅 디바이스를 주어진 상태로 전환할 수 있다. 예를 들어, 시스템은 타이머 꺼짐(또는 설정 중), 음악 재생, 디스플레이에서 렌더링되는 콘텐츠 등과 같은, 컨텍스트별 신호를 감지할 수 있다. 블록(714)의 전환 후, 블록(716)에서 시스템은 블록(704)에서 모니터링되는 하나 이상의 디폴트 핫 워드에 추가하거나 또는 그 대신에, 하나 이상의 컨텍스트-특정 핫 워드에 대해 마이크로폰에 의해 캡처된 오디오 데이터를 모니터링할 수 있다.
앞서 상술한 바와 같이, 일부 컨텍스트에서, 일부 핫 워드는 자동화된 어시스턴트(120)를 일반 리스닝 상태로 전환할 수 있고, 다른 핫 워드는 자동화된 어시스턴트(120)가 컨텍스트-특정 응답 동작(예를 들어, 타이머 정지, 미디어 재생 일시 중지 등)을 수행하도록 야기할 수 있다. 따라서, 블록(718)에서, 시스템이 하나 이상의 제1 컨텍스트별 핫 워드(예를 들어, 자동화된 어시스턴트(120)가 컨텍스트-특정 작업을 수행하도록 의도된 핫 워드)를 감지하면, 블록(720)에서 시스템은 자동화된 어시스턴트(120)가 하나 이상의 컨텍스트-특정 응답 동작을 수행하도록 야기한다. 다른 한편으로, 하나 이상의 제1 컨텍스트별 핫 워드가 블록(718)에서 감지되지 않고, 하나 이상의 제2 컨텍스트별 핫 워드(예를 들어, 일반적으로 자동화된 어시스턴트(120)를 단순히 호출하기 위한 핫 워드)가 블록(722)에서 감지되는 경우, 방법(700)은 자동화된 어시스턴트(120)가 일반 리스닝 상태에 있는 블록(706)으로 되돌아가도록 처리할 수 있다.
일부 실시예에서, 자동화된 어시스턴트(120)가 컨텍스트-특정 동작이 요청되지 않으면 유지 또는 디폴트로 복귀하도록 보장하기 위해 하나 이상의 타임 아웃이 사용될 수 있다. 예를 들어, 블록(718 및 722)에서 각각 제1 또는 제2 컨텍스트-특정 핫 워드가 감지되지 않으면, 블록(724)에서 타임 아웃이 만료되었는지(예를 들어, 10초, 30초, 1 분 등)에 대한 결정이 내려질 수 있다. 블록(724)에서 대답이 예이면, 방법(700)은 블록(704)로 다시 전환될 수 있으며, 자동화된 어시스턴트(120)가 디폴트 비활성화 상태로 전환된다. 그러나, 블록(724)에서의 대답이 아니오인 경우, 일부 실시예에서 방법(700)은 블록(716)으로 다시 진행할 수 있으며, 이 시점에서 시스템은 컨텍스트-특정 핫 워드를 모니터링할 수 있다.
도 8은 본 명세서에 개시된 기술의 하나 이상의 양상을 수행하기 위해 선택적으로 이용될 수 있는 예시적인 컴퓨팅 디바이스(810)의 블록도이다. 일부 실시예에서, 하나 이상의 클라이언트 컴퓨팅 디바이스, 사용자-제어 리소스 엔진(134) 및/또는 다른 구성 요소(들)은 예시적인 컴퓨팅 디바이스(810)의 하나 이상의 구성 요소를 포함할 수 있다.
컴퓨팅 디바이스(810)는 일반적으로 버스 서브 시스템(812)을 통해 다수의 주변 디바이스와 통신하는 적어도 하나의 프로세서(814)를 포함한다. 이러한 주변 디바이스는 예를 들어, 메모리 서브 시스템(825) 및 파일 저장 서브 시스템 (826), 사용자 인터페이스 출력 디바이스(820), 사용자 인터페이스 입력 디바이스(822) 및 네트워크 인터페이스 서브 시스템(816)을 포함하는 저장 서브 시스템(824)을 포함할 수 있다. 입력 및 출력 디바이스는 사용자들이 컴퓨팅 디바이스(810)와 상호 작용을 할 수 있도록 한다. 네트워크 인터페이스 서브 시스템(816)은 외부 네트워크에 대한 인터페이스를 제공하고 다른 컴퓨팅 디바이스의 인터페이스 디바이스와 연결된다.
사용자 인터페이스 입력 디바이스(822)는 마우스, 트랙볼, 터치 패드 또는 그래픽 태블릿과 같은 포인팅 디바이스, 키보드, 스캐너, 디스플레이에 통합된 터치 스크린, 음성 인식 시스템, 마이크과 같은 오디오 입력 디바이스 및/또는 다른 유형의 입력 디바이스를 포함할 수 있다. 일반적으로, "입력 디바이스"라는 용어의 사용은 통신 네트워크에 또는 컴퓨팅 디바이스(810)에 정보를 입력하는 모든 가능한 유형의 디바이스들과 방식들을 포함하도록 의도된다.
사용자 인터페이스 출력 디바이스(820)는 디스플레이 서브 시스템, 프린터, 팩스 기계, 또는 오디오 출력 디바이스와 같은 비-시각적 디스플레이를 포함할 수 있다. 디스플레이 서브 시스템은 음극선 관(CRT), 액정 디스플레이(LCD)와 같은 평면 패널 디바이스, 프로젝션 디바이스 또는 시각적 이미지를 생성하기 위한 다른 메커니즘을 포함할 수 있다. 디스플레이 서브 시스템은 또한 오디오 출력 디바이스와 같은 비-시각적 디스플레이를 제공할 수 있다. 일반적으로, "출력 디바이스"라는 용어의 사용은 컴퓨팅 디바이스(810)로부터 사용자 또는 다른 기계 또는 다른 컴퓨팅 디바이스로 정보를 출력하기 위한 모든 가능한 유형의 디바이스들 및 방식들을 포함하도록 의도된다.
저장 서브 시스템(824)은 본 명세서에 개시된 모듈들의 일부 또는 전부의 기능을 제공하는 프로그래밍 및 데이터 구조를 저장한다. 예를 들어, 저장 서브 시스템(824)은 도 1에 도시된 다양한 구성 요소를 구현할 뿐만 아니라, 도 7의 방법의 선택된 양태를 수행하기 위한 로직(logic)을 포함할 수 있다.
이러한 소프트웨어 모듈들은 일반적으로 프로세서(814)에 의해 단독으로 또는 다른 프로세서와 결합하여 실행된다. 저장 서브 시스템(824)에서 사용되는 메모리(825)는 프로그램을 실행하는 동안 명령어 및 데이터를 저장하기 위한 메인 랜덤 액세스 메모리(RAM)(830)와 고정 명령어가 저장되는 ROM (read only memory)(832)을 포함하는 다수의 메모리를 포함할 수 있다. 파일 저장 서브 시스템(826)은 프로그램 및 데이터 파일을 위한 영구 저장소를 제공할 수 있으며, 하드 디스크 드라이브, 플로피 디스크 드라이브와 관련된 이동식 미디어, CD-ROM 드라이브, 광학 드라이브 또는 이동식 미디어 카트리지들을 포함할 수 있다. 특정 실시예의 기능을 구현하는 모듈은 저장 서브 시스템(824)의 파일 저장 서브 시스템(826)에 의해 또는 프로세서(들)(814)에 의해 액세스 가능한 다른 기계에 저장될 수 있다.
버스 서브 시스템(812)은 컴퓨팅 디바이스(810)의 다양한 구성 요소와 서브 시스템이 의도된 대로 서로 통신할 수 있도록 하는 메커니즘을 제공한다. 비록 버스 서브 시스템(812)이 단일 버스로 개략적으로 도시되어 있지만, 버스 서브 시스템의 대안적인 구현은 다중 버스를 사용할 수 있다.
컴퓨팅 디바이스(810)는 워크 스테이션, 서버, 컴퓨팅 클러스터, 블레이드 서버, 서버 팜(farm), 또는 임의의 다른 데이터 처리 시스템 또는 컴퓨팅 디바이스를 포함하는 다양한 유형들일 수 있다. 컴퓨터 및 네트워크들의 끊임없이 변화하는 특성으로 인해, 도 8에 도시된 컴퓨팅 디바이스(810)의 설명은 일부 실시예를 설명하기 위한 특정 예시로서만 의도된다. 컴퓨팅 디바이스(810)의 많은 다른 구성은 도 8에 도시된 컴퓨팅 디바이스보다 더 많거나 적은 구성 요소를 가질 수 있다.
본 명세서에서 논의된 특정 실시예가 사용자에 대한 개인 정보(예를 들어, 다른 전자 통신에서 추출된 사용자 데이터, 사용자의 소셜 네트워크에 대한 정보, 사용자의 위치, 사용자의 시간, 사용자의 생체 정보 및 사용자의 활동 및 인구 통계 학적 정보, 사용자 간의 관계 등)를 수집하거나 사용할 수 있는 상황에서, 사용자에게는 정보 수집 여부, 개인 정보 저장 여부, 개인 정보 사용 여부 및 사용자의 정보 수집 방법을 제어, 저장 및 사용할 수 있는 하나 이상의 기회가 제공된다. 즉, 본 명세서에 개시된 시스템 및 방법은 관련 사용자들로부터 명시적인 승인을 받은 경우에만 사용자 개인 정보를 수집, 저장 및/또는 사용한다.
예를 들어, 사용자는 프로그램 또는 기능이 특정 사용자 또는 프로그램 또는 기능이 특정 사용자 또는 대한 프로그램 또는 기능에 관련된 다른 사용자에 대한 사용자 정보를 수집하는지 여부를 제어할 수 있다. 개인 정보를 수집해야 하는 각 사용자에게는 해당 사용자와 관련된 정보 수집에 대한 제어를 허용하고, 정보가 수집되는지 여부와 정보의 어느 부분을 수집해야 하는지에 대한 권한 또는 승인을 제공할 수 있는 하나 이상의 옵션이 제공된다. 예를 들어, 사용자는 통신 네트워크를 통해 이러한 제어 옵션들을 하나 또는 하나 이상 제공받을 수 있다. 또한 특정 데이터는 저장 또는 사용되기 전에 하나 이상의 방식으로 처리되어 개인 식별 정보가 제거될 수 있다. 일례로, 사용자의 신원은 개인 식별 정보가 결정되지 않도록 처리될 수 있다. 다른 예로서, 사용자의 특정 위치를 결정할 수 없도록 사용자의 지리적 위치가 더 큰 지역으로 일반화될 수 있다.
여러 실시예가 본 명세서에 개시되고 도시되었지만, 기능을 수행 및/또는 결과를 획득 및/또는 본 명세서에 개시된 하나 이상의 이점을 얻기 위한 다양한 다른 수단 및/또는 구조들이 사용될 수 있으며, 각각의 이러한 변형 및/ 또는 수정은 본 명세서에 개시된 실시예의 범위 내에 있는 것으로 간주된다. 보다 일반적으로, 본 명세서에 개시된 모든 파라미터, 수치, 재료 및 배치는 예시적인 것을 의미하며 실제 파라미터, 수치, 재료 및/또는 배치는 교시가 사용되는 어플리케이션 또는 어플리케이션에 따라 달라진다. 당업자는 단지 일상적인 실험을 사용하여 본 명세서에 개시된 특정 실시예에 대한 많은 등가물을 인식하거나 확인할 수 있을 것이다. 따라서, 전술한 실시예는 단지 예로서 제시된 것이며, 첨부된 청구 범위 및 그 균등물의 범위 내에서 실시예가 구체적으로 설명되고 청구된 것이 아닌 다른 방법으로 실행될 수 있다는 것을 이해해야 한다. 본 개시 내용의 실시예는 본 명세서에 개시된 각각의 개별적인 특징, 시스템, 물품, 재료, 키트 및/또는 방법에 관한 것이다. 또한, 이러한 특징, 시스템, 물품, 재료, 키트 및/또는 방법이 상호 모순되지 않는 경우, 이러한 특징, 시스템, 물품, 재료, 키트 및/또는 방법의 임의의 조합은 본 개시의 범위에 포함된다.

Claims (20)

  1. 하나 이상의 프로세서를 사용하여 구현되는 방법으로서,
    컴퓨팅 디바이스에서 적어도 부분적으로 자동화된 어시스턴트를 작동시키는 단계;
    하나 이상의 디폴트 핫 워드(default hot words)에 대해 마이크로폰에 의해 캡처된 오디오 데이터를 모니터링하는 단계 -하나 이상의 디폴트 핫 워드의 감지는 제한된 핫 워드 리스닝(listening) 상태에서 음성 인식 상태로의 자동화 어시스턴트의 전환을 트리거(trigger)함-;
    상기 컴퓨팅 디바이스의 소정의 상태로의 전환을 감지하는 단계; 그리고
    상기 감지에 응답하여, 상기 하나 이상의 디폴트 핫 워드에 추가하여, 하나 이상의 컨텍스트-특정(context-specific) 핫 워드에 대해 상기 마이크로폰에 의해 캡처된 상기 오디오 데이터를 모니링터하는 단계를 포함하고,
    하나 이상의 컨텍스트-특정 핫 워드의 감지는 하나 이상의 디폴트 핫 워드를 감지하거나 상기 자동화된 어시스턴트를 음성 인식 상태로 전환하는 것을 요구하지 않고, 상기 소정의 상태와 관련된 응답 동작을 수행하도록 상기 자동화된 어시스턴트를 트리거하는 것을 특징으로 하는 하나 이상의 프로세서를 사용하여 구현되는 방법.
  2. 제1항에 있어서,
    상기 소정의 상태는 상기 자동화된 어시스턴트에 의해 설정된 타이머의 만료를 포함하고,
    상기 하나 이상의 컨텍스트-특정 핫 워드의 감지는 상기 타이머를 취소하도록 상기 자동화된 어시스턴트를 트리거하는 것을 포함하는 것을 특징으로 하는 하나 이상의 프로세서를 사용하여 구현되는 방법.
  3. 제1항에있어서,
    상기 소정의 상태는 상기 자동화된 어시스턴트에 의해 트리거되는 미디어 재생을 포함하고,
    상기 하나 이상의 컨텍스트-특정 핫 워드의 감지는 상기 자동화된 어시스턴트로 하여금 상기 미디어 재생을 변경하도록 하는 것을 특징으로 하는 하나 이상의 프로세서를 사용하여 구현되는 방법.
  4. 제3항에 있어서,
    상기 미디어 재생의 변경은 일시 정지, 재생, 빨리 감기, 되감기 또는 볼륨 변경 중 하나 이상을 포함하는 것을 특징으로 하는 하나 이상의 프로세서를 사용하여 구현되는 방법.
  5. 선행하는 청구항 중 어느 한 항에 있어서,
    상기 감지하는 단계는,
    콘텐츠가 상기 컴퓨팅 디바이스의 디스플레이 상에 렌더링되었는지 결정하는 단계를 포함하는 것을 특징으로 하는 하나 이상의 프로세서를 사용하여 구현되는 방법.
  6. 제5항에 있어서, 상기 방법은,
    상기 디스플레이 상에 렌더링된 상기 콘텐츠에 기초하여 상기 하나 이상의 컨텍스트-특정 핫 워드를 식별하는 단계를 더 포함하는 것을 특징으로 하는 하나 이상의 프로세서를 사용하여 구현되는 방법.
  7. 제6항에 있어서,
    상기 디스플레이 상에 렌더링된 상기 콘텐츠에 기초하여 상기 하나 이상의 컨텍스트-특정 핫 워드를 식별하는 단계는 상기 디스플레이 상에 렌더링된 콘텐츠에 기초하여 하나 이상의 음소(phonemes)를 식별하는 단계를 포함하고,
    상기 하나 이상의 식별된 음소는, 하나 이상의 음소를 수용하고 하나 이상의 다른 음소를 거부하도록 훈련된 머신 러닝 모델을 조정하는데 사용되는 것을 특징으로 하는 하나 이상의 프로세서를 사용하여 구현되는 방법.
  8. 어시스턴트 컴퓨팅 디바이스로서,
    하나 이상의 프로세서;
    상기 하나 이상의 프로세서와 작동 가능하게 연결된 마이크로폰; 그리고
    상기 하나 이상의 프로세서와 작동 가능하게 연결된 비-일시적 메모리(non-transitory memory)를 포함하며,
    상기 메모리는 하나 이상의 프로세서에 의한 명령어의 실행에 응답하여 상기 하나 이상의 프로세서가 자동화된 어시스턴트를 동작하도록 야기하는 상기 명령어를 저장하고;
    상기 자동화된 어시스턴트는 제한된 핫 워드(limited hot word) 리스닝(listening) 상태와 하나 이상의 컨텍스트-특정(context-specific) 리스닝 상태 사이에서 전환 가능하고;
    상기 제한된 핫 워드 리스닝 상태에서, 상기 자동화된 어시스턴트는 하나 이상의 디폴트 핫 워드(default hot words)에 대해 마이크로폰에 의해 샘플링된 오디오 입력을 모니터링하고, 하나 이상의 디폴트 핫 워드의 감지는 상기 제한된 핫 워드 리스닝 상태로부터 음성 인식 상태로 상기 자동화된 어시스턴트의 전환을 트리거(trigger)하고;
    상기 컨텍스트-특정 리스닝 상태 중 적어도 하나에서, 상기 자동화된 어시스턴트는 상기 하나 이상의 디폴트 핫 워드에 추가 또는 대신에 하나 이상의 컨텍스트-특정 핫 워드에 대해 상기 마이크로폰에 의해 샘플링된 상기 오디오 입력을 모니터링하며,
    하나 이상의 컨텍스트-특정 핫 워드의 감지는 하나 이상의 디폴트 핫 워드의 감지 또는 상기 자동화된 어시스턴트의 상기 음성 인식 상태로의 전환을 요구하지 않고, 상기 어시스턴트 컴퓨팅 디바이스의 현재 컨텍스트와 관련된 응답 동작을 수행하도록 상기 자동화된 어시스턴트를 트리거하는 것을 특징으로 하는 어시스턴트 컴퓨팅 디바이스.
  9. 하나 이상의 프로세서에 의한 명령어의 실행에 응답하여, 상기 하나 이상의 프로세서로 하여금 동작들을 수행하게 하는 상기 명령어를 포함하는 적어도 하나의 비-일시적(non-transitory) 컴퓨터 판독 가능 매체로서, 상기 동작들은,
    컴퓨팅 디바이스에서 적어도 부분적으로 자동화된 어시스턴트를 작동시키는 동작;
    하나 이상의 디폴트 핫 워드(default hot words)에 대해 마이크로폰에 의해 캡처된 오디오 데이터를 모니터링하는 동작 -하나 이상의 디폴트 핫 워드의 감지는 상기 자동화된 어시스턴트가 제한된 핫 워드(limited hot word) 리스닝(listening) 상태에서 음성 인식 상태로의 전환을 트리거(trigger)하는 동작;
    상기 컴퓨팅 디바이스의 소정의 상태로의 전환을 감지하는 동작; 그리고
    상기 감지에 응답하여, 상기 하나 이상의 디폴트 핫 워드에 추가하여, 하나 이상의 컨텍스트-특정(context-specific) 핫 워드에 대해 상기 마이크로폰에 의해 캡처된 상기 오디오 데이터를 모니터링하는 동작을 포함하며, 하나 이상의 컨텍스트-특정 핫 워드의 감지는 하나 이상의 디폴트 핫 워드의 감지 또는 상기 자동화된 어시스턴트의 상기 음성 인식 상태로의 전환 없이, 상기 소정의 상태에 관련된 응답 동작을 수행하도록 상기 자동화된 어시스턴트를 트리거하는 동작을 포함하는 것을 특징으로 하는 비-일시적 컴퓨터 판독 가능 매체.
  10. 제9항에 있어서,
    상기 소정의 상태는 상기 자동화된 어시스턴트에 의해 설정된 타이머의 만료를 포함하고,
    상기 하나 이상의 컨텍스트-특정 핫 워드의 감지는 상기 타이머를 취소하도록 상기 자동화된 어시스턴트를 트리거하는 것을 특징으로 하는 비-일시적 컴퓨터 판독 가능 매체.
  11. 제9항에 있어서,
    상기 소정의 상태는 상기 자동화된 어시스턴트에 의해 트리거된 미디어 재생을 포함하고,
    상기 하나 이상의 컨텍스트-특정 핫 워드의 감지는 상기 자동화된 어시스턴트가 상기 미디어 재생을 변경하도록 야기하는 것을 특징으로 하는 비-일시적 컴퓨터 판독 가능 매체.
  12. 제11항에 있어서,
    상기 미디어 재생의 변경은 일시 정지, 재생, 빨리 감기, 되감기 또는 볼륨 변경 중 하나 이상을 포함하는 것을 특징으로 하는 비-일시적 컴퓨터 판독 가능 매체.
  13. 제9항 내지 제12항 중 어느 한 항에 있어서,
    상기 감지하는 동작은 상기 컴퓨팅 디바이스의 디스플레이 상에 콘텐츠(content)가 렌더링되었는지 결정하는 동작을 포함하는 것을 특징으로 하는 비-일시적 컴퓨터 판독 가능 매체.
  14. 제13항에 있어서, 상기 동작들은,
    상기 디스플레이 상에 렌더링된 상기 콘텐츠에 기초하여 상기 하나 이상의 컨텍스트-특정 핫 워드를 식별하는 동작을 더 포함하는 것을 특징으로 하는 비-일시적 컴퓨터 판독 가능 매체.
  15. 제14항에 있어서,
    상기 디스플레이상에 렌더링된 상기 콘텐츠에 기초하여 상기 하나 이상의 컨텍스트-특정 핫 워드를 식별하는 동작은 상기 디스플레이 상에 렌더링된 상기 콘텐츠에 기초하여 하나 이상의 음소(phonemes)를 식별하는 동작을 포함하고,
    상기 하나 이상의 식별된 음소는, 하나 이상의 음소를 수용하고 하나 이상의 다른 음소를 거부하도록 훈련된 머신 러닝 모델을 조정하는데 사용되는 것을 특징으로 하는 비-일시적 컴퓨터 판독 가능 매체.
  16. 시스템으로서,
    하나 이상의 프로세서 및 상기 하나 이상의 프로세서와 작동 가능하게 연결된 메모리를 포함하며, 상기 메모리는 상기 하나 이상의 프로세서에 의한 명령어의 실행에 응답하여, 상기 하나 이상의 프로세서가 동작들을 수행하도록 야기하는 명령어를 저장하며, 상기 동작들은,
    컴퓨팅 디바이스에서 적어도 부분적으로 자동화된 어시스턴트를 작동시키는 동작;
    하나 이상의 디폴트 핫 워드(default hot words)에 대해 마이크로폰에 의해 캡처된 오디오 데이터를 모니터링하는 동작;
    상기 컴퓨팅 디바이스의 소정의 상태로의 전환을 감지하는 동작; 그리고
    상기 감지에 응답하여, 상기 하나 이상의 디폴트 핫 워드에 더하여, 하나 이상의 컨텍스트-특정(context-specific) 핫 워드에 대해 상기 마이크로폰에 의해 캡처된 상기 오디오 데이터를 모니터링하는 동작을 포함하며, 하나 이상의 컨텍스트-특정 핫 워드의 감지는 하나 이상의 디폴트 핫 워드의 감지 또는 상기 자동화된 어시스턴트의 음성 인식 상태로의 전환 없이, 상기 소정의 상태에 관련된 응답 동작을 수행하도록 상기 자동화된 어시스턴트를 트리거(trigger)하는 것을 특징으로 하는 시스템.
  17. 제16항에 있어서,
    상기 소정의 상태는 상기 자동화된 어시스턴트에 의해 설정된 타이머의 만료를 포함하고, 상기 하나 이상의 컨텍스트-특정 핫 워드의 감지는 상기 타이머를 취소하도록 상기 자동화된 어시스턴트를 트리거하는 것을 특징으로 하는 시스템.
  18. 제16항에 있어서,
    상기 소정의 상태는 상기 자동화된 어시스턴트에 의해서 트리거된 미디어 재생을 포함하고,
    상기 하나 이상의 컨텍스트-특정 핫 워드의 감지는 상기 자동화된 어시스턴트로 하여금 상기 미디어 재생을 변경하도록 하는 것을 특징으로 하는 시스템.
  19. 제18항에 있어서,
    상기 미디어 재생의 변경은 일시 정지, 재생, 빨리 감기, 되감기 또는 볼륨 변경 중 하나 이상을 포함하는 것을 특징으로 하는 시스템.
  20. 제16항 내지 제19항 중 어느 한 항에 있어서,
    상기 감지하는 동작은 컴퓨터 디바이스의 디스플레이 상에 콘텐츠가 렌더링(rendering)되었는지 결정하는 동작을 포함하는 것을 특징으로 하는 시스템.
KR1020207035755A 2018-08-21 2018-08-21 자동화된 어시스턴트를 호출하기 위한 다이내믹 및/또는 컨텍스트-특정 핫 워드 KR102523982B1 (ko)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2018/047280 WO2020040744A1 (en) 2018-08-21 2018-08-21 Dynamic and/or context-specific hot words to invoke automated assistant

Publications (2)

Publication Number Publication Date
KR20210008521A true KR20210008521A (ko) 2021-01-22
KR102523982B1 KR102523982B1 (ko) 2023-04-20

Family

ID=63668007

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020207035755A KR102523982B1 (ko) 2018-08-21 2018-08-21 자동화된 어시스턴트를 호출하기 위한 다이내믹 및/또는 컨텍스트-특정 핫 워드

Country Status (6)

Country Link
US (2) US11423890B2 (ko)
EP (1) EP3642833B1 (ko)
JP (2) JP7322076B2 (ko)
KR (1) KR102523982B1 (ko)
CN (1) CN112272846A (ko)
WO (1) WO2020040744A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230108599A (ko) * 2022-01-11 2023-07-18 한국과학기술연구원 사용자 명령에 기초한 캐릭터 행동 생성 시스템 및 방법과 이를 위한 컴퓨터 프로그램

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10217453B2 (en) * 2016-10-14 2019-02-26 Soundhound, Inc. Virtual assistant configured by selection of wake-up phrase
WO2020040744A1 (en) 2018-08-21 2020-02-27 Google Llc Dynamic and/or context-specific hot words to invoke automated assistant
JP7055721B2 (ja) * 2018-08-27 2022-04-18 京セラ株式会社 音声認識機能を有する電子機器、その電子機器の制御方法およびプログラム
JP7133029B2 (ja) * 2018-10-05 2022-09-07 本田技研工業株式会社 エージェント装置、エージェント制御方法、およびプログラム
KR102225001B1 (ko) * 2019-05-21 2021-03-08 엘지전자 주식회사 음성 인식 방법 및 음성 인식 장치
US11705114B1 (en) * 2019-08-08 2023-07-18 State Farm Mutual Automobile Insurance Company Systems and methods for parsing multiple intents in natural language speech
US11393477B2 (en) * 2019-09-24 2022-07-19 Amazon Technologies, Inc. Multi-assistant natural language input processing to determine a voice model for synthesized speech
US11120790B2 (en) 2019-09-24 2021-09-14 Amazon Technologies, Inc. Multi-assistant natural language input processing
US11948556B2 (en) * 2019-10-15 2024-04-02 Google Llc Detection and/or enrollment of hot commands to trigger responsive action by automated assistant
US11790173B2 (en) 2020-10-22 2023-10-17 Google Llc Recommending action(s) based on entity or entity type
US11557278B2 (en) * 2020-12-10 2023-01-17 Google Llc Speaker dependent follow up actions and warm words
US11557293B2 (en) 2021-05-17 2023-01-17 Google Llc Contextual suppression of assistant command(s)
WO2023028702A1 (en) * 2021-08-31 2023-03-09 Shopify Inc. Dynamic labeling of and generating indications of real-time communication sessions
US11922938B1 (en) 2021-11-22 2024-03-05 Amazon Technologies, Inc. Access to multiple virtual assistants
US20230281205A1 (en) * 2022-03-01 2023-09-07 Google Llc Contextually Relevant Suggestions

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014059416A1 (en) * 2012-10-12 2014-04-17 Hallmark Cards, Incorporated Context-based interactive plush toy
US9721563B2 (en) * 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US20180053507A1 (en) * 2016-08-19 2018-02-22 Google Inc. Voice action biasing system
US20180182390A1 (en) * 2016-12-27 2018-06-28 Google Inc. Contextual hotwords

Family Cites Families (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6665639B2 (en) 1996-12-06 2003-12-16 Sensory, Inc. Speech recognition in consumer electronic products
SE9902229L (sv) 1999-06-07 2001-02-05 Ericsson Telefon Ab L M Apparatus and method of controlling a voice controlled operation
JP2001249688A (ja) 2000-03-06 2001-09-14 Kddi Corp 電話自動受付装置
JP2002251235A (ja) 2001-02-23 2002-09-06 Fujitsu Ltd 利用者インタフェースシステム
JP4247002B2 (ja) 2003-01-22 2009-04-02 富士通株式会社 マイクロホンアレイを用いた話者距離検出装置及び方法並びに当該装置を用いた音声入出力装置
US8140325B2 (en) * 2007-01-04 2012-03-20 International Business Machines Corporation Systems and methods for intelligent control of microphones for speech recognition applications
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
NZ581850A (en) * 2009-08-27 2011-12-22 Eyemagnet Ltd Informational content scheduling system and method
US8437455B2 (en) * 2010-01-12 2013-05-07 American Express Travel Related Services Company, Inc. System, method and computer program product for globally portable interactive voice response (IVR) systems
US8768707B2 (en) 2011-09-27 2014-07-01 Sensory Incorporated Background speech recognition assistant using speaker verification
US9536528B2 (en) 2012-07-03 2017-01-03 Google Inc. Determining hotword suitability
US9734151B2 (en) 2012-10-31 2017-08-15 Tivo Solutions Inc. Method and system for voice based media search
US9361885B2 (en) 2013-03-12 2016-06-07 Nuance Communications, Inc. Methods and apparatus for detecting a voice command
US11393461B2 (en) * 2013-03-12 2022-07-19 Cerence Operating Company Methods and apparatus for detecting a voice command
US9892729B2 (en) 2013-05-07 2018-02-13 Qualcomm Incorporated Method and apparatus for controlling voice activation
US9747900B2 (en) 2013-05-24 2017-08-29 Google Technology Holdings LLC Method and apparatus for using image data to aid voice recognition
US9548047B2 (en) 2013-07-31 2017-01-17 Google Technology Holdings LLC Method and apparatus for evaluating trigger phrase enrollment
US10054327B2 (en) 2013-08-21 2018-08-21 Honeywell International Inc. Devices and methods for interacting with an HVAC controller
JP6502249B2 (ja) 2013-08-29 2019-04-17 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声認識方法及び音声認識装置
US9240182B2 (en) 2013-09-17 2016-01-19 Qualcomm Incorporated Method and apparatus for adjusting detection threshold for activating voice assistant function
US9373321B2 (en) 2013-12-02 2016-06-21 Cypress Semiconductor Corporation Generation of wake-up words
US8719039B1 (en) 2013-12-05 2014-05-06 Google Inc. Promoting voice actions to hotwords
US9804820B2 (en) 2013-12-16 2017-10-31 Nuance Communications, Inc. Systems and methods for providing a virtual assistant
US9082407B1 (en) * 2014-04-15 2015-07-14 Google Inc. Systems and methods for providing prompts for voice commands
WO2015196063A1 (en) * 2014-06-19 2015-12-23 Robert Bosch Gmbh System and method for speech-enabled personalized operation of devices and services in multiple operating environments
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) * 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9263042B1 (en) 2014-07-25 2016-02-16 Google Inc. Providing pre-computed hotword models
US10789041B2 (en) * 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
JP6514475B2 (ja) 2014-10-03 2019-05-15 株式会社Nttドコモ 対話装置および対話方法
US9318107B1 (en) 2014-10-09 2016-04-19 Google Inc. Hotword detection on multiple devices
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
EP3067884B1 (en) * 2015-03-13 2019-05-08 Samsung Electronics Co., Ltd. Speech recognition system and speech recognition method thereof
US10097973B2 (en) * 2015-05-27 2018-10-09 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
CN105204743A (zh) * 2015-09-28 2015-12-30 百度在线网络技术(北京)有限公司 用于语音和视频通讯的交互控制方法及装置
US9542941B1 (en) 2015-10-01 2017-01-10 Lenovo (Singapore) Pte. Ltd. Situationally suspending wakeup word to enable voice command input
US9792907B2 (en) 2015-11-24 2017-10-17 Intel IP Corporation Low resource key phrase detection for wake on voice
JP2017144521A (ja) 2016-02-18 2017-08-24 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
US10097919B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Music service selection
US10217453B2 (en) 2016-10-14 2019-02-26 Soundhound, Inc. Virtual assistant configured by selection of wake-up phrase
US11003417B2 (en) * 2016-12-15 2021-05-11 Samsung Electronics Co., Ltd. Speech recognition method and apparatus with activation word based on operating environment of the apparatus
KR20180084392A (ko) * 2017-01-17 2018-07-25 삼성전자주식회사 전자 장치 및 그의 동작 방법
US10469755B2 (en) 2017-05-16 2019-11-05 Google Llc Storing metadata related to captured images
US10950228B1 (en) * 2017-06-28 2021-03-16 Amazon Technologies, Inc. Interactive voice controlled entertainment
US10546583B2 (en) * 2017-08-30 2020-01-28 Amazon Technologies, Inc. Context-based device arbitration
US10586534B1 (en) * 2017-09-27 2020-03-10 Amazon Technologies, Inc. Voice-controlled device control using acoustic echo cancellation statistics
US10636421B2 (en) * 2017-12-27 2020-04-28 Soundhound, Inc. Parse prefix-detection in a human-machine interface
CN111357048A (zh) * 2017-12-31 2020-06-30 美的集团股份有限公司 用于控制家庭助手装置的方法和系统
CN110045501A (zh) * 2018-01-09 2019-07-23 瑞轩科技股份有限公司 显示装置组件
US11164572B2 (en) * 2018-05-01 2021-11-02 Dell Products, L.P. Intelligent assistance across voice services
US20200047687A1 (en) * 2018-08-10 2020-02-13 SF Motors Inc. Exterior speech interface for vehicle
US10929098B2 (en) * 2018-08-17 2021-02-23 The Toronto-Dominion Bank Methods and systems for conducting a session over audible and visual interfaces
WO2020040744A1 (en) 2018-08-21 2020-02-27 Google Llc Dynamic and/or context-specific hot words to invoke automated assistant
JP6848947B2 (ja) * 2018-09-27 2021-03-24 横河電機株式会社 システム、方法、プログラムおよび記録媒体
US11355098B1 (en) * 2018-12-13 2022-06-07 Amazon Technologies, Inc. Centralized feedback service for performance of virtual assistant
DK180649B1 (en) * 2019-05-31 2021-11-11 Apple Inc Voice assistant discoverability through on-device targeting and personalization
US11308962B2 (en) * 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9721563B2 (en) * 2012-06-08 2017-08-01 Apple Inc. Name recognition system
WO2014059416A1 (en) * 2012-10-12 2014-04-17 Hallmark Cards, Incorporated Context-based interactive plush toy
US20180053507A1 (en) * 2016-08-19 2018-02-22 Google Inc. Voice action biasing system
US20180182390A1 (en) * 2016-12-27 2018-06-28 Google Inc. Contextual hotwords

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230108599A (ko) * 2022-01-11 2023-07-18 한국과학기술연구원 사용자 명령에 기초한 캐릭터 행동 생성 시스템 및 방법과 이를 위한 컴퓨터 프로그램

Also Published As

Publication number Publication date
EP3642833B1 (en) 2023-04-12
JP7322076B2 (ja) 2023-08-07
US11423890B2 (en) 2022-08-23
JP7418526B2 (ja) 2024-01-19
JP2021533398A (ja) 2021-12-02
CN112272846A (zh) 2021-01-26
EP3642833A1 (en) 2020-04-29
US20200342866A1 (en) 2020-10-29
KR102523982B1 (ko) 2023-04-20
JP2023021975A (ja) 2023-02-14
US20220335941A1 (en) 2022-10-20
WO2020040744A1 (en) 2020-02-27

Similar Documents

Publication Publication Date Title
KR102523982B1 (ko) 자동화된 어시스턴트를 호출하기 위한 다이내믹 및/또는 컨텍스트-특정 핫 워드
JP7354301B2 (ja) 自動アシスタントによって応答アクションをトリガするためのホットコマンドの検出および/または登録
US11810557B2 (en) Dynamic and/or context-specific hot words to invoke automated assistant
US11735182B2 (en) Multi-modal interaction between users, automated assistants, and other computing services
EP3895161B1 (en) Utilizing pre-event and post-event input streams to engage an automated assistant
US11347801B2 (en) Multi-modal interaction between users, automated assistants, and other computing services
US20240055003A1 (en) Automated assistant interaction prediction using fusion of visual and audio input
US20230343336A1 (en) Multi-modal interaction between users, automated assistants, and other computing services

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant