KR20220024557A - 자동화된 어시스턴트에 의한 응답 액션을 트리거하기 위한 핫 명령의 검출 및/또는 등록 - Google Patents

자동화된 어시스턴트에 의한 응답 액션을 트리거하기 위한 핫 명령의 검출 및/또는 등록 Download PDF

Info

Publication number
KR20220024557A
KR20220024557A KR1020227001309A KR20227001309A KR20220024557A KR 20220024557 A KR20220024557 A KR 20220024557A KR 1020227001309 A KR1020227001309 A KR 1020227001309A KR 20227001309 A KR20227001309 A KR 20227001309A KR 20220024557 A KR20220024557 A KR 20220024557A
Authority
KR
South Korea
Prior art keywords
command
text
automated assistant
user
hot
Prior art date
Application number
KR1020227001309A
Other languages
English (en)
Inventor
위안 위안
비보 쉬
톈위 왕
아누락 자인
Original Assignee
구글 엘엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 구글 엘엘씨 filed Critical 구글 엘엘씨
Publication of KR20220024557A publication Critical patent/KR20220024557A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/19Sensors therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics

Abstract

자동화된 어시스턴트가 먼저 명시적으로 호출될 필요 없이 응답 액션(들)을 수행하도록 하는 데 사용할 수 있는 새로운 "핫 명령"를 검출 및/또는 등록(또는 커미셔닝)하기 위한 기술이 본 명세서에서 설명된다. 다양한 구현에서, 자동화된 어시스턴트는 트리거 이벤트에 응답하여 제한된 청취 상태에서 전체 음성 인식 상태로 전환될 수 있다. 전체 음성 인식 상태에 있는 동안, 자동화된 어시스턴트는 텍스트 명령을 생성하기 위해 사용자로부터 음성 명령에 대한 음성 인식 프로세싱을 수행할 수 있다. 텍스트 명령은 텍스트 명령 코퍼스에서 빈도 임계치를 충족하도록 결정될 수 있다. 결과적으로, 텍스트 명령을 나타내는 데이터는 핫 명령으로 등록될 수 있다. 텍스트 명령과 의미론적으로 일치하는 다른 텍스트 명령의 후속 발화는 명시적 호출을 요구하지 않고 자동화된 어시스턴트에 의한 응답 액션의 수행을 트리거할 수 있다.

Description

자동화된 어시스턴트에 의한 응답 액션을 트리거하기 위한 핫 명령의 검출 및/또는 등록
본 명세서는 자동화된 어시스턴트에 의한 응답 액션을 트리거하기 위한 핫 명령의 검출 및/또는 등록에 관한 것이다.
인간은 여기에서 "자동화된 어시스턴트"("챗봇", "대화형 개인 어시스턴트", "지능형 개인 어시스턴트", "개인 음성 어시스턴트", "대화 에이전트", "가상 어시스턴트" 등 이라고도 함)라고 하는 대화형 소프트웨어 애플리케이션을 사용하여 인간 대 컴퓨터 대화에 참여할 수 있다. 예를 들어, 인간(자동화된 어시스턴트와 상호작용할 때 "사용자"라고 부를 수 있음)은 텍스트로 변환된 음성 발화를 포함할 수 있는 자유 형식 자연어 입력을 사용하여 명령, 쿼리 및/또는 요청을 제공한 다음 처리 및/또는 입력된 자유 형식 자연어 입력을 제공할 수 있다.
많은 경우 자동화된 어시스턴트가 사용자의 요청을 해석하고 응답하기 전에, 예를 들어, 종종 "핫 워드" 또는 "웨이크 워드"라고 하는 사전 정의된 구두 호출 구문을 사용하여 먼저 "호출"되어야 한다. 따라서, 많은 자동화된 어시스턴트는 본 명세서에서 "제한된 청취 상태" 또는 "디폴트 청취 상태"로 지칭될 것에서 작동하며, 여기서 그들은 제한된(또는 유한한 또는 "디폴트”) 핫 워드 세트이다. 디폴트 핫 워드 세트 이외의 오디오 데이터에서 캡처된 모든 발화는 무시된다. 자동화된 어시스턴트가 디폴트 핫 워드 세트 중 하나 이상으로 호출되면, 그것은 여기에서 "전체 청취 상태(full listening state)"로 지칭될 것에서 작동할 수 있으며, 여기서 호출 후 적어도 일부 시간 간격 동안, 자동화된 어시스턴트는 마이크로폰에 의해 샘플링된 오디오 데이터의 음성-텍스트 프로세싱("음성 인식 프로세싱"이라고도 함)을 수행하여 텍스트 입력을 생성하고, 이는 의미론적으로 프로세싱되어 사용자의 의도(인텐트)(그 의도를 이루기 위해)를 결정한다.
디폴트 청취 상태에서 자동(자동화된) 어시스턴트를 작동하면 다양한 이점이 있다. "청취" 핫 워드의 수를 제한하면 전력 및/또는 컴퓨팅 리소스를 절약할 수 있다. 예를 들어, 온-디바이스 기계 학습 모델은 하나 이상의 핫 워드가 검출되는 때를 나타내는 출력을 생성하도록 훈련될 수 있다. 이러한 모델을 구현하려면 최소한의 컴퓨팅 리소스 및/또는 전력만 필요할 수 있으며, 이는 종종 리소스가 제한된 어시스턴트 장치에 특히 유용하다. 이러한 이점과 함께 제한된 핫 워드 청취 상태에서 자동화된 어시스턴트를 동작시키는 것도 다양한 문제를 나타낸다. 자동화된 어시스턴트의 부주의한 호출을 피하기 위해 일반적으로 일상 대화에서 자주 사용되지 않는 단어 또는 구(예: "롱테일(long tail)" 단어 또는 구)로 인기 있는 단어를 선택한다. 그러나 일부 액션을 수행하기 위해 자동화된 어시스턴트를 호출하기 전에 사용자가 롱테일 핫 단어를 말하도록 요구하는 다양한 시나리오가 있다.
자동화된 어시스턴트가 먼저 명시적으로 호출될 필요 없이 응답 액션(들)을 수행하도록 하는 데 사용할 수 있는 새로운 "핫 명령"를 검출 및/또는 등록(또는 커미셔닝)하기 위한 기술이 여기에서 설명된다. 본 명세서에 사용된 바와 같이, "핫 명령"은 자동화된 어시스턴트가 먼저 명시적으로 호출되고 자동화된 어시스턴트가 캡처된 발화에 응답하도록 시도하는 전체 청취/응답 상태로 전환될 필요 없이 말했을 때 자동 어시스턴트가 응답하는 하나 이상의 단어 또는 구문을 의미한다.
일부 구현에서, 음성 인식은 디스플레이, 카메라, 및/또는 다른 센서와 같은 다른 컴포넌트를 또한 포함하거나 포함하지 않을 수 있는 독립형 대화형 스피커와 같은 클라이언트 장치에 전체적으로 또는 적어도 부분적으로 구현될 수 있다. 이러한 일부 구현에서, 자동화된 어시스턴트는 자동화된 어시스턴트가 호출된 직후가 아닌 다른 시간(들)에 캡처된 발화에 대해 음성 인식 프로세싱을 수행할 수 있다. 이러한 다른 시간은, 예를 들어 사용자가 컴퓨팅 장치에 근접하여 검출될 때마다, 사용자 음성이 텔레비전 또는 라디오 등과 같은 다른 기계로부터 발생하지 않는 것으로 검출 및 결정될 때마다 포함할 수 있다.
즉, 일부 구현에서, 본 개시의 선택된 양태들로 구성된 자동화된 어시스턴트를 구현하는 컴퓨팅 장치는 종래의 자동화된 어시스턴트보다 더 많은 검출된 발화에 대해 음성 인식 프로세싱을 수행할 수 있으며, 이는 위에서 설명된 바와 같이 그것이 명시적으로 호출된 후에 검출된 발화에 대해서만 음성 인식 프로세싱을 수행할 수 있다. 이 음성 인식 프로세싱로부터 생성된 텍스트 스니펫(textual snippet)은 자동화된 어시스턴트에 의한 응답 액션을 트리거해야 하는지, 핫 명령으로 등록되어야 하는지, 또는 무시 또는 폐기되어야 하는지를 결정하기 위해 여기에 설명된 기술을 사용하여 분석될 수 있다. 많은 구현에서, 텍스트 스니펫이 기존의 자동화된 어시스턴트보다 검출된 발화의 더 많은 부분에 대해 생성되더라도, 여기에 설명된 기술은 클라이언트 장치에서 로컬적으로 수행될 수 있으므로 텍스트 스니펫이 클라우드 기반 시스템으로 전송되는 것을 방지할 수 있다.
일부 구현에서, 핫 명령는 다양한 "핫 명령 등록 기준"에 기초하여 핫 명령 라이브러리에 선택적으로 등록될 수 있다. 하나의 핫 명령 등록 기준은 텍스트 명령(자동화된 어시스턴트의 명시적 호출 후에 수신됨)가 텍스트 명령 코퍼스에서 빈도 임계치를 충족하는 텍스트 명령일 수 있다. 코퍼스는 특정 사용자(예: 화자) 또는 사용자 집단과 연관될 수 있다. 예를 들어, 특정 사용자가 "turn off the lights(조명 꺼)"라는 특정 명령을 실행하기 위해 자동화된 어시스턴트를 임계 횟수만큼 호출한다고 가정한다. 임계치가 충족되기 전에, 이 명령은 먼저 명시적으로 호출되지 않으면 자동화된 어시스턴트의 응답 액션을 트리거하지 않을 수 있다. 그러나 임계치가 충족되면(예: 사용자가 조명을 끄기 위해 자동화된 어시스턴트를 10번 호출한 경우) "turn off the lights(조명 끄기)"라는 텍스트 명령이 핫 명령 라이브러리에 등록될 수 있다. 결과적으로, 자동화된 어시스턴트를 먼저 호출하지 않고 동일한 사용자가 동일한 명령을 내릴 때마다, 그럼에도 불구하고 자동화된 어시스턴트는 예를 들어 같은 방의 불을 끔으로써 응답 액션를 취한다.
일부 구현에서, 특히 자동화된 어시스턴트가 명시적으로 호출된 후에만 음성 인식 프로세싱가 수행되는 경우 핫 명령 라이브러리에 텍스트 명령을 등록하면 앞서 언급한 온디바이스 기계 학습 모델이 앞으로 나아가는 텍스트 명령을 검출하도록 추가로 훈련될 수 있다. 자동화된 어시스턴트가 다른 시간에 캡처된 다른 발화에 대해 (온보드) 음성 인식 프로세싱을 수행하는 다른 구현에서, 각 발화에서 생성된 텍스트 스니펫은 핫 명령 라이브러리에 저장된 텍스트 스니펫과 비교할 수 있다. 예를 들어, 주어진 텍스트 스니펫이 핫 명령 라이브러리의 레코드와 충분히 유사하거나 의미상 일관성이 있는 경우 매치(일치)가 발생할 수 있다.
예를 들어, 텍스트 스니펫과 등록된 핫 명령 사이에 정확한 매치(일치)가 있거나, 텍스트 스니펫과 등록된 핫 명령 사이의 편집 거리(edit distance)가 일부 임계치를 충족하는 경우(예: 일부 편집 거리보다 작음), 또는 텍스트 스니펫의 임베딩(embedding)이 핫 명령의 임베딩의 유클리드(Euclidian) 거리 내에 있는 경우 유사성이 발견될 수 있다. 일부 구현에서, 핫 명령 라이브러리는 이전에 등록된 텍스트 명령의 임베딩만 저장할 수 있다. 의미적 일관성은 예를 들어 명령의 해당 슬롯이 의미적으로 유사한 값을 수신할 수 있는 두 명령 사이에 존재할 수 있다. 예를 들어, "set a time for ten minutes(10분으로 시간 설정)" 및 "set a timer for one hour(1시간으로 타이머 설정)"은 공유하는 슬롯이 시간 간격이기 때문에 의미상 일관성이 있다.
다른 구현에서, 발화로부터 생성된 텍스트 스니펫은 핫 명령 라이브러리에 등록하는 것 이외의(또는 이에 추가하여) 인자에 기초하여 핫 명령으로 간주될 수 있다. 예를 들어, 일부 구현에서, 음성 인식 프로세싱은 다중 텍스트 스니펫을 생성하기 위해 다중 발화에 대해(예를 들어, 자동화된 어시스턴트의 명시적 호출을 요구하지 않고) 수행될 수 있다. 한편, 하나 이상의 비전 센서는 분석할 때 각 발화 동안 화자의 시선을 드러내는 비전 데이터를 생성할 수 있다. 특정 텍스트 스니펫을 생성하는 특정 발화를 말하는 동안, 화자가 자동화된 어시스턴트가 적어도 부분적으로 구현된 컴퓨팅 장치를 보고 있었다면 그 특정 텍스트 스니펫은 핫 명령으로 간주될 수 있다.
예를 들어, 핫 명령 라이브러리에 등록하기 위해 또는 주어진 텍스트 스니펫이 자동화된 어시스턴트를 위한 명령으로 의미되었는지 여부를 결정하기 위해 고려될 수 있는 또 다른 신호는 발화가 캡처된 직후 사람이 하나 이상의 스마트 기기를 조작했는지 여부이다. 사용자가 "turn on the lights(조명 켜기)"라고 말했지만 다른 사용자가 일부 스마트 조명을 켜기 위해 스위치를 조작했다고 가정한다. 이는 "조명 켜기" 명령이 등록되거나 핫 명령으로 해석되어서는 안 된다는 것을 암시한다. 그러나 같은 시나리오에서 스마트 조명이 켜지지 않고 침묵(silence)이 뒤따른다고 가정한다. 이는 "조명 켜기" 명령이 최소한 이 경우에 핫 명령으로 해석되어야 함을 시사할 수 있다. 또한 특히 이 시나리오가 여러 번 발생하는 경우 명령이 핫 명령으로 등록되어야 할 가능성이 증가할 수 있다.
일부 구현에서, 하나 이상의 프로세서에 의해 수행되는 방법이 제공되며, 방법은, 하나 이상의 프로세서를 사용하여 자동화된 어시스턴트를 동작시키는 단계; 트리거 이벤트에 응답하여 자동화된 어시스턴트를 제한된 청취 상태에서 전체 음성 인식 상태로 전환하는 단계; 상기 전체 음성 인식 상태에서, 자동화된 어시스턴트가 사용자로부터 음성 명령을 수신하는 단계; 텍스트 명령을 생성하기 위해 상기 음성 명령에 대해 음성 인식 프로세싱을 수행하는 단계; 상기 텍스트 명령이 텍스트 명령 코퍼스에서 빈도 임계치를 충족한다고 결정하는 단계; 그리고 상기 결정에 응답하여, 상기 텍스트 명령을 나타내는 데이터를 핫 명령으로 등록하는 단계를 포함하며, 상기 등록하는 단계 후에, 상기 텍스트 명령과 의미론적으로 일치하는 다른 텍스트 명령의 발화는 상기 자동화된 어시스턴트의 명시적 호출을 요구하지 않고, 상기 자동화된 어시스턴트에 의한 응답 액션의 수행을 트리거한다.
다양한 구현에서, 트리거 이벤트는 마이크로폰에 의해 캡처된 오디오 데이터에서 하나 이상의 디폴트 핫 워드의 검출을 포함할 수 있다. 다양한 구현에서, 텍스트 명령 코퍼스는 사용자에 의해 생성된 텍스트 명령 코퍼스를 포함할 수 있다. 다양한 구현에서, 텍스트 명령 코퍼스는 사용자를 포함하는 사용자 집단에 의해 생성된 텍스트 명령 코퍼스를 포함할 수 있다.
다양한 구현에서, 방법은 출력을 생성하기 위해 기계 학습 모델에 걸쳐 입력으로서 텍스트 명령을 적용하는 단계를 더 포함할 수 있다. 출력은 텍스트 명령이 자동화된 어시스턴트로 지시되었을 확률을 나타낼 수 있으며, 등록은 임계치를 충족하는 확률에 추가로 응답한다. 다양한 구현들에서, 방법은 하나 이상의 카메라에 의해 캡처된 비전 데이터에 기초하여, 사용자의 시선이 자동화된 어시스턴트가 적어도 부분적으로 구현되는 컴퓨팅 장치를 향하고 있음을 검출하는 단계를 더 포함하고, 상기 등록하는 단계는 상기 검출에 더 응답한다.
다양한 구현에서, 상기 등록하는 단계는 음성 명령 후 미리 결정된 시간 간격 동안 추가적인 발화가 검출되지 않는다는 결정에 더 응답할 수 있다. 다양한 구현들에서, 상기 등록하는 단계는 음성 명령 이후에 미리 결정된 시간 간격 동안 사람에 의해 어떠한 응답 액션도 취해지지 않았다는 결정에 더 응답할 수 있다.
다양한 구현들에서, 방법은 상기 등록하는 것에 응답하여, 자동화된 어시스턴트를 적어도 부분적으로 구현하는 컴퓨팅 장치의 로컬 메모리에 텍스트 명령 자체 또는 텍스트 명령을 나타내는 데이터를 캐시(cache)하는 단계를 더 포함할 수 있다. 다양한 구현에서, 방법은 상기 텍스트 명령에 응답하는 정보를 캐시하기 위해, 상기 텍스트 명령이 명시적으로 호출되지 않고, 상기 캐시된 데이터를 기초로 상기 등록에 후속하여 상기 텍스트 명령을 트리거하는 단계를 더 포함하고, 상기 트리거하는 단계 이후, 상기 캐시된 정보는 텍스트 명령이 트리거되는 대신에 상기 텍스트 명령의 후속 호출에 응답하여 출력된다. 다양한 구현에서, 상기 캐시하는 단계 이후에, 텍스트 명령의 호출(invocation)은 텍스트 명령을 나타내는 데이터가 근거리 통신망("LAN") 및 개인 영역 네트워크("PAN") 중 하나 또는 둘 다를 통해 스마트 기기에 직접 전송되게 한다. 다양한 구현에서, 텍스트 명령을 나타내는 데이터의 수신은 스마트 기기가 응답 액션을 수행하게 할 수 있다.
다양한 구현에서, 텍스트 명령을 나타내는 데이터는 사용자로부터 수신된 음성 명령에 제공된 하나 이상의 파라미터와 의미론적으로 일치하는 하나 이상의 후속 파라미터를 수신하도록 하나 이상의 슬롯을 포함하는 템플릿을 포함할 수 있다.
다른 관련된 양태에서, 하나 이상의 프로세서를 사용하여 구현된 방법은 하나 이상의 마이크로폰에서 캡처된 오디오 데이터를 수신하고 -오디오 데이터는 제1 및 제2 음성 발화를 포함함-; 오디오 데이터에 대해 음성 인식 프로세싱을 수행하여 제1 및 제2 음성 발화에 대응하는 제1 및 제2 텍스트 스니펫(snippet)을 생성하고; 제1 텍스트 스니펫이 하나 이상의 핫 명령 기준을 충족한다는 결정에 응답하여, 제1 텍스트 스니펫에 기초하여 응답 액션을 수행하고; 제2 텍스트 스니펫이 하나 이상의 핫 명령 기준을 충족하지 못한다는 결정에 응답하여, 다른 응답 액션을 수행하지 않고 상기 제2 텍스트 스니펫을 폐기하거나 무시하는 단계를 포함한다.
다양한 구현에서, 하나 이상의 핫 명령 기준은 핫 명령 라이브러리에서 고려 중인 텍스트 스니펫의 등록을 포함할 수 있다. 다양한 구현에서, 핫 명령 라이브러리는, 말했을 때, 하나 이상의 디폴트 핫 워드의 검출 또는 자동화된 어시스턴트의 활성 청취 상태로의 전환을 요구하지 않고, 자동화된 어시스턴트에 의한 응답 액션의 수행을 트리거하는 텍스트 스니펫을 포함할 수 있다.
다양한 구현에서, 방법은 하나 이상의 카메라에 의해 캡처된 비전 데이터에 기초하여, 사용자가 제1 음성 발화를 제공하는 동안 사용자의 제1 시선 및 사용자가 제2 음성 발화를 제공하는 동안 사용자의 제2 시선을 검출하는 단계를 더 포함할 수 있다. 다양한 구현들에서, 하나 이상의 핫 명령 기준은 자동화된 어시스턴트가 적어도 부분적으로 구현되는 컴퓨팅 장치를 향한 시선을 포함할 수 있다.
추가로, 일부 구현은 하나 이상의 컴퓨팅 장치의 하나 이상의 프로세서를 포함하고, 여기서 하나 이상의 프로세서는 연관된 메모리에 저장된 명령을 실행하도록 동작가능하고, 명령은 전술한 방법 중 임의의 방법의 성능을 유발하도록 구성된다. 일부 구현은 또한 전술한 방법 중 임의의 것을 수행하기 위해 하나 이상의 프로세서에 의해 실행가능한 컴퓨터 명령을 저장하는 하나 이상의 비일시적 컴퓨터 판독가능 저장 매체를 포함한다.
전술한 개념 및 본 명세서에서 보다 상세하게 설명된 추가 개념의 모든 조합이 본 명세서에 개시된 요지의 일부인 것으로 고려된다는 것이 이해되어야 한다. 예를 들어, 본 개시의 끝에 나타나는 청구된 요지의 모든 조합은 여기에 개시된 요지의 일부인 것으로 고려된다.
도 1은 여기에 개시된 구현들이 구현될 수 있는 예시적인 환경의 블록도이다.
도 2a 및 도 2b는 다양한 구현에 따라 자동화된 어시스턴트를 호출하기 위해 발화가 어떻게 처리될 수 있는지에 대한 2개의 상이한 예를 개략적으로 도시한다.
도 3a, 3b, 및 3c는 다양한 구현들에 따른, 자동화된 어시스턴트 및/또는 본 개시의 선택된 양태들로 구성된 어시스턴트 장치에 의해 구현될 수 있는 예시적인 상태 머신의 단계(스테이지)들을 개략적으로 도시한다.
도 4a 및 4b는 본 개시의 선택된 양태들로 구성된 자동화된 어시스턴트와 사용자 사이의 예시적인 대화들을 도시한다.
도 5a 및 5b는 본 개시의 선택된 양태들로 구성된 자동화된 어시스턴트와 사용자 사이의 더 많은 예시적인 대화들을 도시한다.
도 6은 여기에 개시된 구현들에 따른 예시적인 방법을 예시하는 흐름도를 도시한다.
도 7은 여기에 개시된 구현들에 따른 예시적인 방법을 예시하는 흐름도를 도시한다.
도 8은 컴퓨팅 장치의 예시적인 아키텍처를 도시한다.
도 1을 참조하면, 여기에 개시된 기술이 구현될 수 있는 예시적인 환경이 도시되어 있다. 예시적인 환경은 하나 이상의 클라이언트 컴퓨팅 장치(클라이언트 장치)(106)를 포함한다. 각각의 클라이언트 장치(106)는 자동화된 어시스턴트의 "클라이언트 부분"으로서 본 명세서에서 또한 지칭될 수 있는 자동화된 어시스턴트 클라이언트(108)의 각각의 인스턴스를 실행할 수 있다. 본 명세서에서 자동화된 어시스턴트의 "서버 부분"으로 집합적으로 지칭될 수도 있는 하나 이상의 클라우드 기반 자동화된 어시스턴트 컴포넌트(119)는 일반적으로 115로 표시된 하나 이상의 로컬 및/또는 광역 네트워크(예: 인터넷)를 통해 클라이언트 장치(106)에 통신적으로 연결된 하나 이상의 컴퓨팅 시스템(총칭하여 "클라우드" 컴퓨팅 시스템이라고 함)에서 구현될 수 있다.
다양한 구현에서, 하나 이상의 클라우드 기반 자동화된 어시스턴트 컴포넌트(119)와의 상호작용을 통해 자동화된 어시스턴트 클라이언트(108)의 인스턴스는, 사용자의 관점에서 볼 때 사용자가 인간 대 컴퓨터 대화에 참여할 수 있는 자동화된 어시스턴트(120)의 논리적 인스턴스인 것처럼 보이는 것을 형성할 수 있다. 그러한 자동화된 어시스턴트(120)의 한 예가 도 1에 점선으로 도시되어 있다. 따라서 클라이언트 장치(106)에서 실행되는 자동화된 어시스턴트 클라이언트(108)와 관련된 각 사용자는 사실상 자동화된 어시스턴트(120)의 자신의 논리적 인스턴스에 참여할 수 있음을 이해해야 한다. 간결함과 단순함을 위해, 본 명세서에서 특정 사용자를 "서빙(serving)하는" 것으로 사용되는 "자동화된 어시스턴트"라는 용어는 사용자에 의해 작동되는 클라이언트 장치(106) 상에서 실행되는 자동화된 어시스턴트 클라이언트(108)와 하나 이상의 클라우드 기반 자동화된 어시스턴트 컴포넌트(119)(여러 자동화된 어시스턴트 클라이언트(108) 사이에서 공유될 수 있음)의 조합을 지칭할 것이다. 또한 일부 구현에서 자동화된 어시스턴트(120)는 사용자가 자동화된 어시스턴트(120)의 특정 인스턴스에 의해 실제로 "서빙"되는지 여부에 관계없이 임의의 사용자로부터의 요청에 응답할 수 있음을 이해해야 한다.
하나 이상의 클라이언트 장치(106)는 예를 들어, 데스크탑 컴퓨팅 장치, 노트북 컴퓨팅 장치, 태블릿 컴퓨팅 장치, 휴대 전화 컴퓨팅 장치, 사용자의 차량의 컴퓨팅 장치(예: 차량 내 통신 시스템, 차량 내 엔터테인먼트 시스템, 차량 내 내비게이션 시스템), 독립형 대화형 스피커(일부 경우 비전 센서가 포함될 수 있음), 스마트 텔레비전(또는 자동화된 어시스턴트 기능이 있는 네트워크 동글이 장착된 표준 텔레비전)과 같은 스마트 기기 및/또는 컴퓨팅 장치(예를 들어, 컴퓨팅 장치를 갖는 사용자의 시계, 컴퓨팅 장치를 갖는 사용자의 안경, 가상 또는 증강 현실 컴퓨팅 장치)를 포함하는 사용자의 웨어러블 장치 중 하나 이상을 포함할 수 있다. 추가 및/또는 대체 클라이언트 컴퓨팅 장치가 제공될 수 있다. 독립형 대화형 스피커(또는 "스마트 스피커")와 같은 일부 클라이언트 장치(106)는 사용자와 자동화된 어시스턴트(120) 사이의 대화를 용이하게 하도록 주로 설계된 어시스턴트 장치의 형태를 취할 수 있다. 그러한 어시스턴트 장치 중 일부는 터치스크린 디스플레이일 수도 있고 아닐 수도 있는 부착된 디스플레이가 있는 독립형 대화형 스피커의 형태를 취할 수 있다.
일부 구현에서, 클라이언트 장치(106)에는 하나 이상의 시야(fields of view)를 갖는 하나 이상의 비전 센서(107)가 장착될 수 있지만, 이것이 요구되는 것은 아니다. 비전 센서(들)(107)는 디지털 카메라, 수동 적외선("PIR") 센서, 입체 카메라, RGBd 카메라 등과 같은 다양한 형태를 취할 수 있다. 하나 이상의 비전 센서(107)는 클라이언트 장치(106)가 배치된 환경의 이미지 프레임(정지 이미지 또는 비디오)을 캡처하기 위해, 예를 들어 이미지 캡처 모듈(111)에 의해 사용될 수 있다. 그 다음, 이들 이미지 프레임은 이미지 프레임에 포함된 사용자 제공 시각적 큐(visual cues를 검출하기 위해 예를 들어 시각적 큐 모듈(1121)에 의해 분석될 수 있다. 이러한 시각적 큐에는 손 제스처, 특정 기준점을 향한 시선, 얼굴 표정, 사용자가 미리 정의한 움직임 등이 포함될 수 있지만 이에 국한되지 않는다. 이러한 검출된 시각적 큐는 자동화된 어시스턴트(120)를 호출하고/하거나 자동화된 어시스턴트(120)가 다양한 액션을 취하게 하는 것과 같은 다양한 목적을 위해 사용될 수 있다.
추가적으로 또는 대안적으로, 일부 구현에서, 클라이언트 장치(106)는 하나 이상의 근접 센서(105)를 포함할 수 있다. 근접 센서(들)는 수동 적외선("PIR") 센서, 무선 주파수 식별("RFID"), 근처의 다른 전자 부품(예: 주변 사용자의 클라이언트 기기에서 보내는 블루투스 신호, 기기에서 나오는 고주파음 또는 저주파음 등)에서 방출되는 신호를 수신하는 부품 등과 같은 다양한 형태를 취할 수 있다. 추가적으로 또는 대안적으로, 비전 센서(107) 및/또는 마이크로폰(109)은 또한 예를 들어 사용자가 근접한 것을 시각적 및/또는 청각적으로 검출함으로써 근접 센서로서 사용될 수 있다.
여기에 더 자세히 설명된 바와 같이, 자동화된 어시스턴트(120)는 하나 이상의 클라이언트 장치(106)의 사용자 인터페이스 입력 및 출력 장치를 통해 하나 이상의 사용자와 인간 대 컴퓨터 대화 세션에 참여한다. 일부 구현에서, 자동화된 어시스턴트(120)는 클라이언트 장치(106) 중 하나의 하나 이상의 사용자 인터페이스 입력 장치를 통해 사용자에 의해 제공되는 사용자 인터페이스 입력에 응답하여 사용자와의 인간 대 컴퓨터 대화 세션에 참여할 수 있다. 그러한 구현들 중 일부에서, 사용자 인터페이스 입력은 자동화된 어시스턴트(120)로 명시적으로 지시된다. 예를 들어, 사용자는 "OK, Assistant(오케이, 어시스턴트)" 또는 "Hey, Assistant(헤이, 어시스턴트)"와 같은 미리 결정된 호출("hot" 또는 "wake") 구문을 구두로 제공(예를 들어, 타이핑, 말하기)하여 자동화된 어시스턴트(120)로 하여금 타이핑된 텍스트를 능동적으로 청취하거나 모니터링을 시작하게 한다. 추가적으로 또는 대안적으로, 일부 구현에서, 자동화된 어시스턴트(120)는 단독으로 또는 구두 호출 구문과 조합하여 하나 이상의 검출된 시각적 큐에 기초하여 호출될 수 있다.
일부 구현에서, 자동화된 어시스턴트(120)는 사용자 인터페이스 입력이 자동화된 어시스턴트(120)로 명시적으로 지시되지 않은 경우에도 사용자 인터페이스 입력에 응답하여 인간 대 컴퓨터 대화 세션에 참여할 수 있다. 예를 들어, 자동화된 어시스턴트(120)는 사용자 인터페이스 입력의 내용을 검사하고 사용자 인터페이스 입력에 존재하는 특정 용어에 응답하여 및/또는 다른 큐에 기초하여 대화 세션에 참여할 수 있다. 많은 구현에서, 자동화된 어시스턴트(120)는 음성 인식을 활용하여 사용자로부터의 발화를 텍스트로 변환하고, 이에 따라 예를 들어 검색 결과, 일반 정보를 제공하고/하거나 하나 이상의 응답 액션(예: 미디어 재생, 게임 실행, 음식 주문 등)을 취함으로써 텍스트에 응답할 수 있다. 일부 구현에서, 자동화된 어시스턴트(120)는 발화를 텍스트로 변환하지 않고 발화에 추가로 또는 대안적으로 응답할 수 있다. 예를 들어, 자동화된 어시스턴트(120)는 음성 입력을 임베딩, 엔티티 표현(들)(음성 입력에 존재하는 엔터티를 나타냄) 및/또는 다른 "non-textual(비텍스트)" 표현으로 변환하고 이러한 비텍스트 표현에 대해 동작할 수 있다. 따라서, 음성 입력으로부터 변환된 텍스트에 기초하여 동작하는 것으로 여기에서 설명된 구현은 추가로 및/또는 대안적으로 음성 입력에 대해 직접 및/또는 음성 입력의 다른 비텍스트 표현에 대해 동작할 수 있다.
클라이언트 컴퓨팅 장치(106) 및 클라우드 기반 자동화된 어시스턴트 컴포넌트(119)를 동작시키는 컴퓨팅 장치(들) 각각은 데이터 및 소프트웨어 애플리케이션의 저장을 위한 하나 이상의 메모리, 데이터에 액세스하고 애플리케이션을 실행하기 위한 하나 이상의 프로세서, 및 네트워크를 통한 통신을 용이하게 하는 기타 컴포넌트를 포함할 수 있다. 클라이언트 컴퓨팅 장치(106) 및/또는 자동화된 어시스턴트(120)에 의해 수행되는 동작은 다수의 컴퓨터 시스템에 걸쳐 분산될 수 있다. 자동화된 어시스턴트(120)는 예를 들어 네트워크를 통해 서로 연결된 하나 이상의 위치에 있는 하나 이상의 컴퓨터에서 실행되는 컴퓨터 프로그램으로서 구현될 수 있다.
위에서 언급된 바와 같이, 다양한 구현들에서, 클라이언트 컴퓨팅 장치(106)는 자동화된 어시스턴트 클라이언트(108), 또는 자동화된 어시스턴트(120)의 "클라이언트 부분(client portion)"을 동작시킬 수 있다. 다양한 구현에서, 자동화된 어시스턴트 클라이언트(108)는 음성 캡처 모듈(110), 전술한 이미지 캡처 모듈(111), 시각적 큐 모듈(1121), 및/또는 호출 모듈(113)을 포함할 수 있다. 다른 구현에서, 음성 캡처 모듈(110), 이미지 캡처 모듈(111), 시각적 큐 모듈(112), 및/또는 호출 모듈(113)의 하나 이상의 양태는 예를 들어, 하나 이상의 클라우드 기반 자동화된 어시스턴트 컴포넌트(119)에 의해 자동화된 어시스턴트 클라이언트(108)와 별도로 구현될 수 있다. 예를 들어, 도 1에는 이미지 데이터에서 시각적 큐를 검출할 수 있는 클라우드 기반 시각적 큐 모듈(1122)도 있다.
다양한 구현에서, 하드웨어 및 소프트웨어의 임의의 조합을 사용하여 구현될 수 있는 음성 캡처 모듈(110)은 마이크로폰(109) 또는 다른 압력 센서와 같은 하드웨어와 인터페이스하여 사용자의 발화(들)의 오디오 녹음을 캡처할 수 있다. 일부 구현에서, 발화는 링 버퍼와 같은 버퍼에 오디오 데이터로서 적어도 일시적으로 저장될 수 있다. 다양한 목적을 위해 이 오디오 녹음에 대해 다양한 유형의 처리가 수행될 수 있다. 일부 구현에서, 하드웨어 또는 소프트웨어의 임의의 조합을 사용하여 구현될 수 있는 이미지 캡처 모듈(111)은 비전 센서(107)의 시야(field of view)에 대응하는 하나 이상의 이미지 프레임(예: 디지털 사진)을 캡처하기 위해 비전 센서(107)와 인터페이스하도록 구성될 수 있다.
다양한 구현에서, 시각적 큐 모듈(1121)(및/또는 클라우드 기반 시각적 큐 모듈(1122))은 하드웨어 또는 소프트웨어의 임의의 조합을 사용하여 구현될 수 있으며, 이미지 캡처 모듈(111)에 의해 제공되는 하나 이상의 이미지 프레임을 분석하여 하나 이상의 이미지 프레임 내 및/또는 가로질러 캡처된 하나 이상의 시각적 큐를 검출하도록 구성될 수 있다. 시각적 큐 모듈(1121)은 시각적 큐를 검출하기 위해 다양한 기술을 사용할 수 있다. 예를 들어, 시각적 큐 모듈(1122)은 이미지 프레임에서 검출된 사용자 제공 시각적 큐를 나타내는 출력을 생성하도록 훈련된 하나 이상의 인공 지능(또는 기계 학습) 모델을 사용할 수 있다.
음성 캡처 모듈(110)은 앞서 언급한 바와 같이, 예를 들어 마이크로폰(109)를 통해 사용자의 음성을 캡처하도록 구성될 수 있다. 추가적으로 또는 대안적으로, 일부 구현에서, 음성 캡처 모듈(110)은 캡처된 오디오를 텍스트 및/또는 예를 들어, 음성-텍스트("STT(speech-to-text)") 처리 기술(이하 "음성 인식 프로세싱(처리)"라고도 함)을 사용하여 다른 표현 또는 임베딩으로 변환하도록 추가로 구성될 수 있다. 도 1에 도시된 바와 같이, 일부 구현에서, 음성 캡처 모듈(110)은 후술하는 클라우드 기반 STT 모듈(117)에 추가로 또는 대신에 사용되는 온보드 STT 모듈(117A)을 포함할 수 있다. 추가적으로 또는 대안적으로, 일부 구현에서, 음성 캡처 모듈(110)은, 예를 들어, 하나 이상의 음성 합성기를 사용하여 텍스트를 컴퓨터 합성 음성으로 변환하기 위해 텍스트 음성 변환("TTS(text-to-speech)") 처리를 수행하도록 구성될 수 있다.
그러나 어떤 경우에, 클라이언트 장치(106)는 컴퓨팅 자원(예를 들어, 프로세서 사이클, 메모리, 배터리 등)과 관련하여 상대적으로 제한될 수 있기 때문에, 클라이언트 장치(106)에 로컬적인 음성 캡처 모듈(110)은 유한한 수의 상이한 구어(특히 자동화된 어시스턴트(120)를 호출하는 구)를 텍스트(또는 저차원 임베딩과 같은 다른 형식)로 변환하도록 구성될 수 있다. 다른 음성 입력은 클라우드 기반 TTS 모듈(116) 및/또는 클라우드 기반 STT 모듈(117)을 포함할 수 있는 클라우드 기반 자동화된 어시스턴트 컴포넌트(119)로 전송될 수 있다.
다양한 구현에서, 호출 모듈(113)은 예를 들어 음성 캡처 모듈(110) 및/또는 시각적 큐 모듈(1121)(일부 구현에서는 단일 모듈에서 이미지 캡처 모듈(111)과 결합될 수 있음)에 의해 제공되는 출력에 기초하여 자동화된 어시스턴트(120)를 호출할지 여부를 결정하도록 구성될 수 있다. 예를 들어, 호출 모듈(113)은 사용자의 발화가 자동화된 어시스턴트(120)와의 인간 대 컴퓨터 대화 세션을 개시해야 하는 호출 구문으로서 자격이 있는지 여부를 결정할 수 있다.
일부 구현에서, 호출 모듈(113)은 오디오 녹음 또는 오디오 녹음(예: 임베딩)으로부터 추출된 특징(features)의 벡터와 같은 사용자의 발화를 나타내는 데이터를 단독으로 또는 시각적 큐 모듈(1121)에 의해 검출된 하나 이상의 시각적 큐와 함께 분석할 수 있다. 일부 구현에서, 음성 발화에 응답하여 자동화된 어시스턴트(120)를 호출할지 여부를 결정하기 위해 호출 모듈(113)에 의해 사용되는 임계치는 특정 시각적 큐가 또한 검출될 때 낮아질 수 있다. 결과적으로, 사용자가 적절한 호출 구인 "OK 어시스턴트"와 다르지만 음성적으로 다소 유사한 음성 발화를 제공하더라도 그럼에도 불구하고 그 발화는 시각적 큐(예를 들어, 화자가 손을 흔드는 것, 화자가 비전 센서(107)를 직접 응시(시선)하는 것 등)와 함께 검출될 때 적절한 호출(invocation)로 받아들여질 수 있다.
일부 구현에서, 예를 들어, 온-디바이스 모델 데이터베이스(114)에 저장된 하나 이상의 온-디바이스 호출 모델은 발화 및/또는 시각적 큐(들)가 호출로서 자격이 있는지 여부를 결정하기 위해 호출 모듈(113)에 의해 사용될 수 있다. 이러한 온디바이스 호출 모델은 호출 문구(구)/제스처의 변형을 검출하도록 훈련될 수 있다. 예를 들어, 일부 구현에서, 온-디바이스 호출 모델(예: 하나 이상의 신경망)은 사용자로부터의 발화의 오디오 녹음(또는 추출된 특징 벡터)뿐만 아니라 발화와 동시에 캡처된 하나 이상의 이미지 프레임 및/또는 검출된 시각적 큐를 나타내는 데이터를 각각 포함하는 훈련 예를 사용하여 훈련될 수 있다. 일부 그러한 구현에서, 온-디바이스 호출 모델(114)은 캡처된 발화가 자동화된 어시스턴트(120)를 깨우기 위한 호출 문구를 구성할 확률 p의 형태로 출력을 생성할 수 있다.
도 1에서, 온-디바이스 모델 데이터베이스(114)는 하나 이상의 온-디바이스 호출 모델(1141-114N)을 저장할 수 있다. 일부 구현에서, 디폴트 온디바이스 호출 모델(1141)은 오디오 녹음 또는 이를 나타내는 다른 데이터에서 이전에 언급된 것과 같은(예: "오케이 어시스턴트", "헤이 어시스턴트" 등) 하나 이상의 디폴트 호출 문구 또는 인기 단어(들)를 검출하도록 훈련될 수 있다. 일부 그러한 구현에서, 이러한 모델은 자동화된 어시스턴트(120)를 음성 캡처 모듈(110)에 의해 캡처된 임의의 오디오 녹음(적어도 호출 후 일정 기간 동안)이 후술하는 바와 같이 자동화된 어시스턴트(120)의 다른 컴포넌트(예를 들어, 클라이언트 장치(106)에서 또는 하나 이상의 클라우드 기반 자동화된 어시스턴트 컴포넌트(119)에 의해)를 사용하여 처리될 수 있는 전체 청취 상태로 전환하는 데 항상 사용 가능하고 사용할 수 있다.
추가적으로, 일부 구현들에서, 온-디바이스 모델 데이터베이스(114)는 적어도 일시적으로, 하나 이상의 추가적인 "컨텍스트 호출 모델들"(1142-114N)을 저장할 수 있다. 이러한 컨텍스트 호출 모델(1142-114N)은 특정 컨텍스트에서 호출 모듈(113)에 의해 사용 및/또는 사용 가능하게(예를 들어, 활성화됨)될 수 있다. 컨텍스트 호출 모델(1142-114N)은 예를 들어 오디오 녹음 또는 이를 나타내는 다른 데이터에서 하나 이상의 컨텍스트 특정 핫 워드를 검출하도록 훈련될 수 있다. 일부 구현에서, 컨텍스트 호출 모델(1142-114N)은 클라우드 기반 자동화된 어시스턴트 컴포넌트(119)의 일부를 형성하는 도 1의 핫 명령 엔진으로부터 필요에 따라 선택적으로 다운로드될 수 있지만 클라이언트 장치(106)에서 전체적으로 또는 부분적으로 구현될 수도 있으며, 아래에서 더 자세히 설명된다.
다양한 구현에서, 호출 모듈(113)이 컨텍스트 호출 모델(1142-114N)을 사용하여 다양한 동적 핫워드를 검출할 때, 이는 자동화된 어시스턴트(120)를 이전에 설명된 전체 청취 상태로 전환할 수 있다. 추가적으로 또는 대안적으로, 호출 모듈(113)은 자동화된 어시스턴트(120)를 일반 청취 상태로의 전환과 함께 또는 전환 없이 하나 이상의 컨텍스트-특정 응답 액션이 수행되는 컨텍스트-특정 상태로 자동화된 어시스턴트(120)를 전환할 수 있다. 많은 경우에, 자동화된 어시스턴트(120)의 컨텍스트 특정 상태로의 전환을 트리거한 오디오 데이터는 클라우드로 전송되지 않을 수 있다. 대신에, 하나 이상의 컨텍스트-특정 응답 액션이 전적으로 클라이언트 장치(106)에서 수행될 수 있으며, 이는 응답 시간 및 클라우드로 전송되는 정보의 양 모두를 감소시킬 수 있으며, 이는 프라이버시 관점에서 유리할 수 있다.
일부 구현에서, 자동화된 어시스턴트(120), 보다 구체적으로 음성 캡처 모듈(110)은 자동화된 어시스턴트(120)의 호출과 동시에가 아닌 다른 상황에서 검출되는 발화에 대해 STT 처리를 수행할 수 있다. 예를 들어, 일부 구현들에서, 음성 캡처 모듈(110)은 캡처된 모든 발화들, 특정 컨텍스트들에서 캡처된 발화들 등에 대해 STT 처리를 수행할 수 있다. 이 STT 처리로부터 생성된 텍스트는 예를 들어 자동화된 어시스턴트(120)를 호출하고 다양한 응답 액션을 수행하는 등을 위해 여기에 설명된 다양한 컴포넌트에 의해 분석될 수 있다.
클라우드 기반 TTS 모듈(116)은 텍스트 데이터(예를 들어, 자동화된 어시스턴트(120)에 의해 공식화된 자연어 응답)를 컴퓨터 생성 음성 출력으로 변환하기 위해 클라우드의 사실상 무제한 리소스를 활용하도록 구성될 수 있다. 일부 구현에서, TTS 모듈(116)은 예를 들어 하나 이상의 스피커를 사용하여 직접 출력되도록 컴퓨터 생성 음성 출력을 클라이언트 장치(106)에 제공할 수 있다. 다른 구현에서, 자동화된 어시스턴트(120)에 의해 생성된 텍스트 데이터(예를 들어, 자연어 응답)는 음성 캡처 모듈(110)에 제공될 수 있으며, 이는 그 후 텍스트 데이터를 로컬로 출력되는 컴퓨터 생성 음성으로 변환할 수 있다.
클라우드 기반 STT 모듈(117)은 음성 캡처 모듈(110)에 의해 캡처된 오디오 데이터를 텍스트로 변환하기 위해 클라우드의 사실상 무제한 리소스를 활용하도록 구성될 수 있으며, 텍스트는 의도 매칭기(135)에 제공될 수 있다. 일부 구현에서, 클라우드 기반 STT 모듈(117)은 음성의 오디오 녹음을 하나 이상의 음소로 변환한 다음, 하나 이상의 음소를 텍스트로 변환할 수 있다. 추가적으로 또는 대안적으로, 일부 구현들에서, STT 모듈(117)은 상태 디코딩 그래프를 사용할 수 있다. 일부 구현에서, STT 모듈(117)은 사용자의 발화에 대한 복수의 후보 텍스트 해석(interpretation)을 생성할 수 있다. 일부 구현에서, STT 모듈(117)은 동시에 검출된 시각적 큐가 있는지 여부에 따라 특정 후보 텍스트 해석을 다른 것보다 더 높게 가중(weight)하거나 바이어스할 수 있다.
자동화된 어시스턴트(120)(특히, 클라우드 기반 자동화된 어시스턴트 컴포넌트(119))는 의도 매칭기(135), 전술한 TTS 모듈(116), 전술한 STT 모듈(117), 및 아래에서 더 상세히 설명되는 다른 컴포넌트를 포함할 수 있다. 일부 구현에서, 자동화된 어시스턴트(120)의 모듈들 및/또는 모듈들 중 하나 이상은 생략, 결합 및/또는 자동화된 어시스턴트(120)와 별개인 컴포넌트에서 구현될 수 있다. 일부 구현에서는 개인 정보를 보호하기 위해, 자연어 프로세서(122), TTS 모듈(116), STT 모듈(117) 등과 같은 자동화된 어시스턴트(120)의 하나 이상의 컴포넌트는 클라이언트 장치(106) 상에서 적어도 부분적으로 구현될 수 있다 (예: 클라우드 제외).
일부 구현에서, 자동화된 어시스턴트(120)는 자동화된 어시스턴트(120)와의 인간 대 컴퓨터 대화 세션 동안 클라이언트 장치(106) 중 하나의 사용자에 의해 생성된 다양한 입력에 응답하여 응답 콘텐츠를 생성한다. 자동화된 어시스턴트(120)는 대화 세션의 일부로서 사용자에게 프리젠테이션을 위한 응답 콘텐츠를 (예: 사용자의 클라이언트 장치와 분리된 경우 하나 이상의 네트워크를 통해) 제공할 수 있다. 예를 들어, 자동화된 어시스턴트(120)는 클라이언트 장치(106)를 통해 제공된 자유 형식 자연어 입력에 응답하여 응답 콘텐츠를 생성할 수 있다. 본 명세서에서 사용되는 바와 같이, 자유 형식 입력은 사용자에 의해 공식화되고 사용자에 의한 선택을 위해 제공된 옵션 그룹으로 제한되지 않는 입력이다.
본 명세서에서 사용되는 바와 같이, "dialog session(대화 세션)"은 사용자와 자동화된 어시스턴트(120)(경우에 따라 다른 인간 참가자) 사이의 하나 이상의 메시지의 논리적으로 자체 포함된 교환을 포함할 수 있다. 자동화된 어시스턴트(120)는, 세션 사이의 시간 경과, 세션 간의 사용자 컨텍스트 변경(예: 장소, 예정된 회의 전/중/후 등), 사용자와 자동화된 어시스턴트 간의 대화 외에 사용자와 클라이언트 장치 간의 하나 이상의 개입 상호작용(intervening interaction)의 검출(예: 사용자가 잠시 동안 애플리케이션을 전환한 후 사용자가 자리를 떴다가 나중에 독립형 음성 인식 제품으로 돌아옴), 세션 사이의 클라이언트 장치 잠금/절전, 자동화된 어시스턴트(120)의 하나 이상의 인스턴스와 인터페이스하는 데 사용되는 클라이언트 장치의 변경 등과 같은 다양한 신호에 기초하여 사용자와의 다수의 대화 세션을 구별할 수 있다.
의도 매칭기(135)는 사용자에 의해 제공되는 입력(들)(예: 음성 발화, 시각적 큐 등)에 기초하여 및/또는 센서 신호, 온라인 신호 등과 같은 다른 신호(예: 웹 서비스에서 얻은 데이터)에 기초하여 사용자의 의도를 결정하도록 구성될 수 있다. 일부 구현에서, 의도 매칭기(135)는 자연어 프로세서(122) 및 전술한 클라우드 기반 시각적 큐 모듈(1122)을 포함할 수 있다. 다양한 구현에서, 클라우드 기반 시각적 큐 모듈(1122)은 클라우드 기반 시각적 큐 모듈(1122)이 그 처리에 더 많은 리소스를 가질 수 있다는 점을 제외하고는 시각적 큐 모듈(1121)과 유사하게 동작할 수 있다. 특히, 클라우드 기반 시각적 큐 모듈(1122)은 사용자의 의도를 결정하기 위해 단독으로 또는 다른 신호와 조합하여 의도 매칭기(135)에 의해 사용될 수 있는 시각적 큐를 검출할 수 있다.
자연어 프로세서(122)는 클라이언트 장치(106)를 통해 사용자(들)에 의해 생성된 자연어 입력을 처리하도록 구성될 수 있고 자동화된 어시스턴트(120)의 하나 이상의 다른 컴포넌트에 의해 사용하기 위해 주석이 달린 출력(예를 들어, 텍스트 형태로)을 생성할 수 있다. 예를 들어, 자연어 프로세서(122)는 클라이언트 장치(106)의 하나 이상의 사용자 인터페이스 입력 장치를 통해 사용자에 의해 생성된 자연어 자유 형식 입력을 처리(프로세싱)할 수 있다. 생성된 주석이 달린 출력은 자연어 입력의 하나 이상의 주석과 자연어 입력의 용어 중 하나 이상(예: 모두)을 포함한다.
일부 구현에서, 자연어 프로세서(122)는 자연어 입력에서 다양한 유형의 문법 정보를 식별하고 주석을 달도록 구성된다. 예를 들어, 자연어 프로세서(122)는 개별 단어를 형태소로 분리하고 및/또는 형태소에 예를 들어 클래스로 주석을 달 수 있는 형태학적 모듈(morphological module)을 포함할 수 있다. 자연어 프로세서(122)는 또한 용어에 그들의 문법적 역할에 주석을 달도록 구성된 품사 태거를 포함할 수 있다. 예를 들어 품사 태거는 "명사", "동사", "형용사", "대명사" 등과 같은 품사로 각 용어에 태그를 지정할 수 있다. 또한, 예를 들어, 일부 구현에서 자연어 프로세서(122)는 추가로 및/또는 대안적으로 자연어 입력에서 용어 간의 구문 관계를 결정하도록 구성된 종속성 파서(dependency parser)(도시되지 않음)를 포함할 수 있다. 예를 들어, 종속성 파서는 다른 용어, 문장의 주어 및 동사 등(예: 파스 트리(parse tree))을 수정하는 용어를 결정할 수 있으며 이러한 종속성을 주석(annotation)으로 만들 수 있다.
일부 구현에서, 자연어 프로세서(122)는 추가로 및/또는 대안적으로 사람(예를 들어, 문예인물, 유명인사, 공인 등을 포함), 조직, 위치(실제와 상상의) 등에 대한 참조와 같은 하나 이상의 세그먼트에서 엔티티 참조에 주석을 달도록 구성된 엔티티 태거(도시되지 않음)를 포함할 수 있다. 일부 구현에서, 엔티티에 대한 데이터는 지식 그래프(knowledge graph)(도시되지 않음)로 하나 이상의 데이터베이스에 저장될 수 있다. 일부 구현에서, 지식 그래프는 노드를 연결하고 엔터티 간의 관계를 나타내는 에지 뿐만 아니라 알려진 엔터티(및 일부 경우 엔터티 속성)를 나타내는 노드를 포함할 수 있다. 예를 들어, "banana(바나나)" 노드는 "과일" 노드에 (예를 들어, 자식(child)으로서) 연결될 수 있으며, 이는 차례로 "생산" 및/또는 "음식" 노드에 (예를 들어 자식으로서) 연결될 수 있다. 다른 예로, "Hypothetical Caf
Figure pct00001
"라는 레스토랑은 주소, 제공되는 음식 유형, 시간, 연락처 정보 등과 같은 속성도 포함하는 노드로 표시될 수 있다. "Hypothetical Caf
Figure pct00002
" 노드는 일부 구현에서 "레스토랑" 노드, "비즈니스" 노드, 레스토랑이 위치한 도시 및/또는 주 등을 나타내는 노드와 같은 하나 이상의 다른 노드에 에지(예: 자식 대 부모 관계(child-to-parent relationship)를 나타냄)에 의해 연결될 수 있다.
자연어 프로세서(122)의 엔티티 태거는 높은 레벨의 세분성(예: 사람과 같은 엔티티 클래스에 대한 모든 참조를 식별할 수 있도록 하기 위해) 및/또는 낮은 레벨의 세분성(예: 특정 사람과 같은 특정 엔티티에 대한 모든 참조를 식별할 수 있도록 하기 위해)에서 엔티티에 대한 참조에 주석을 달 수 있다. 엔터티 태거는 특정 엔터티를 해결하기 위해 자연어 입력의 내용(콘텐츠)에 의존할 수 있고/있거나 특정 엔터티를 해결하기 위해 지식 그래프 또는 다른 엔터티 데이터베이스와 선택적으로 통신할 수 있다.
일부 구현에서, 자연어 프로세서(122)는 추가로 및/또는 대안적으로 하나 이상의 컨텍스트 큐에 기초하여 동일한 엔티티에 대한 참조를 그룹화하거나 "클러스터링"하도록 구성된 상호참조 해석기(coreference resolver)(도시되지 않음)를 포함할 수 있다. 예를 들어, 상호 참조 해석기를 사용하여 자연어 입력 "I like the Hypothetical Cafe last time we eat there(나는 지난번에 우리가 거기서 먹었던 "Hypothetical Cafe"를 좋아했어요.”)"에서 "거기(there)"라는 용어를 "Hypothetical Cafe"로 해석할 수 있다.
일부 구현에서, 자연어 프로세서(122)의 하나 이상의 컴포넌트는 자연어 프로세서(122)의 하나 이상의 다른 컴포넌트로부터의 주석에 의존할 수 있다. 예를 들어, 일부 구현에서 명명된 엔터티 태거는 특정 엔터티에 대한 모든 멘션에 주석을 추가할 때 상호참조 해석기 및/또는 종속성 파서의 주석에 의존할 수 있다. 또한 예를 들어 일부 구현에서 상호 참조 해석기는 동일한 엔터티에 대한 참조를 클러스터링할 때 종속성 파서의 주석에 의존할 수 있다. 일부 구현에서, 특정 자연어 입력을 처리할 때, 자연어 프로세서(122)의 하나 이상의 컴포넌트는 하나 이상의 주석을 결정하기 위해 특정 자연어 입력 외부의 관련된 사전 입력 및/또는 다른 관련 데이터를 사용할 수 있다.
의도 매칭기(135)는, 예를 들어, 자연어 프로세서(122)로부터의 출력에 기초하여(여기에는 자연어 입력의 주석 및 용어가 포함될 수 있음) 및/또는 시각적 큐 모듈(예를 들어, 1121 및/또는 1122)로부터의 출력에 기초하여 사용자의 의도를 결정하기 위해 다양한 기술을 사용할 수 있다. 일부 구현에서, 의도 매칭기(135)는 예를 들어 문법, 시각적 큐 및 응답 액션(또는 더 일반적으로 의도) 간의 복수의 매핑을 포함하는 하나 이상의 데이터베이스(도시되지 않음)에 대한 액세스를 가질 수 있다. 많은 경우 이러한 문법은 시간이 지남에 따라 선택 및/또는 학습될 수 있으며 사용자의 가장 일반적인 의도를 나타낼 수 있다. 예를 들어, 하나의 문법 "play <artist>(<아티스트> 재생)"은 <아티스트>의 음악이 사용자에 의해 작동되는 클라이언트 장치(106)에서 재생되도록 하는 응답 액션을 호출하는 의도에 매핑될 수 있다. 또 다른 문법인 "[weather|forcast] today([날씨|일기예보] 오늘)"는 "what's the weather today(오늘 날씨가 어때요?)", "what's the forecast for today?(오늘 일기예보가 어때요?)"와 같은 사용자 쿼리와 일치(매치)할 수 있다.
문법에 추가로 또는 대신(일부 경우에 "템플릿"으로 여기에서 대안적으로 지칭됨), 일부 구현에서, 의도 매칭기(135)는 하나 이상의 훈련된 기계 학습 모델을 단독으로 또는 하나 이상의 문법 및/또는 시각적 큐와 조합하여 사용할 수 있다. 이러한 훈련된 기계 학습 모델은 또한 하나 이상의 데이터베이스에 저장될 수 있고, 예를 들어 사용자의 발화 및/또는 검출된 사용자 제공 시각적 큐를 나타내는 데이터를 축소된 차원 공간에 포함시킨 다음, 유클리드 거리, 코사인 유사성 등과 같은 기술을 사용하여 가장 근접한 다른 임베딩(및 의도)을 결정함으로써 의도를 식별하도록 훈련될 수 있다.
"play <artist>" 예제 문법에서 볼 수 있듯이, 일부 문법에는 슬롯 값(또는 "파라미터")으로 채울 수 있는 슬롯(예: <artist>)이 있다. 슬롯 값은 다양한 방식으로 결정될 수 있다. 종종 사용자는 슬롯 값을 사전에 제공한다. 예를 들어, "Order me a <topping> pizza"라는 문법의 경우 사용자는 "order me sausage pizza"라는 문구를 말할 가능성이 높으며, 이 경우 슬롯 <topping>은 자동으로 채워진다. 추가적으로 또는 대안적으로, 사용자가 슬롯 값을 사전에 제공하지 않고 사용자가 슬롯 값으로 채워질 슬롯을 포함하는 문법을 호출하는 경우, 자동화된 어시스턴트(120)는 사용자로부터 그 슬롯 값을 요청할 수 있다(예를 들어, "what type of crust do you want on your pizza?(당신의 피자에 어떤 종류의 크러스트를 원하세요?)"). 일부 구현에서, 슬롯은 시각적 큐 모듈(1121-2)에 의해 검출된 시각적 큐에 기초하여 슬롯 값으로 채워질 수 있다. 예를 들어, 사용자는 세 손가락을 클라이언트 장치(106)의 시각 센서(107)에 대고 있는 동안 "Order me this many cat bowls(이렇게 많은 고양이 그릇을 주문하세요)"와 같은 말을 할 수 있다. 또는 사용자가 특정 영화의 DVD 케이스를 들고 "Find me more movies like this(이와 같은 영화를 더 찾아주세요)"와 같은 말을 할 수 있다.
일부 구현에서, 자동화된 어시스턴트(120)는 사용자와 하나 이상의 제3자 컴퓨팅 서비스(130)(또는 "제3자 에이전트", 또는 "에이전트") 사이에서 중개자로서의 역할을 할 수 있다. 이러한 제3자 컴퓨팅 서비스(130)는 입력을 수신하고 응답 출력을 제공하는 독립 소프트웨어 프로세스일 수 있다. 일부 제3자 컴퓨팅 서비스는 예를 들어 클라우드 기반 자동화된 어시스턴트 컴포넌트(119)를 동작시키는 것과 별도의 컴퓨팅 시스템에서 작동하거나 작동하지 않을 수 있는 제3자 애플리케이션의 형태를 취할 수 있다. 의도 매칭기(135)에 의해 식별될 수 있는 사용자 의도의 한 종류는 제3자 컴퓨팅 서비스(130)를 참여시키는 것이다. 예를 들어, 자동화된 어시스턴트(120)는 스마트 장치를 제어하기 위한 서비스에 대한 애플리케이션 프로그래밍 인터페이스("API")에 대한 액세스를 제공할 수 있다. 사용자는 자동화된 어시스턴트(120)를 호출하고 "I'd like to turn the heating on.(난방을 켜고 싶다.)"와 같은 명령을 제공할 수 있다. 인텐트 매칭기(135)는 이 명령을 자동화된 어시스턴트(120)가 제3자 서비스에 참여하도록 트리거하는 문법에 매핑하여 사용자의 난방이 켜지게 할 수 있다. 제3자 서비스(130)는 난방을 켜라는 명령을 이행(또는 "해결")하기 위해 채워야 하는 슬롯의 최소 목록(리스트)을 자동화된 어시스턴트(120)에 제공할 수 있다. 이 예에서, 슬롯은 난방이 설정될 온도 및 난방이 켜져 있는 지속 시간을 포함할 수 있다. 자동화된 어시스턴트(120)는 슬롯에 대한 파라미터를 요청하는 자연어 출력을 생성하고 사용자에게 (클라이언트 장치(106)를 통해) 제공할 수 있다.
이행(Fulfillment) 모듈(124)은 의도 매칭기(135)에 의해 출력되는 예측된/추정된 의도(intent) 뿐만 아니라 연관된 슬롯 값(사용자가 사전에 제공했는지 또는 사용자에게 요청했는지 여부)을 수신하고 의도를 이행(또는 "해결")하도록 구성될 수 있다. 다양한 구현에서, 사용자 의도의 이행(또는 "해결")은 다양한 이행 정보(“응답” 정보 또는 “해결 정보”라고도 함)가 예를 들어 이행 모듈(124)에 의해 생성/획득되게 할 수 있다. 아래에서 설명되는 바와 같이, 이행 정보는 일부 구현에서 자연어 생성기(일부 도면에서 "NLG")(126)에 제공될 수 있으며, 이는 이행 정보에 기초하여 자연어 출력을 생성할 수 있다.
이행(또는 "해결(resolution)") 정보는 다양한 방식으로 의도(intent)가 이행(또는 "해결")될 수 있기 때문에 다양한 형태를 취할 수 있다. 사용자가 "Where were the outdoor shots of 'The Shining' filmed?('샤이닝'의 야외 촬영은 어디에서 촬영되었나요?)"와 같은 순수한 정보를 요청한다고 가정한다. 사용자의 의도는 검색 쿼리인 것으로서, 예를 들어 의도 매칭기(135)에 의해 결정될 수 있다. 검색 쿼리의 의도 및 콘텐츠는 이행 모듈(124)에 제공될 수 있으며, 이는 도 1에 도시된 바와 같이 응답 정보에 대한 문서 및/또는 기타 데이터 소스(예를 들어, 지식 그래프 등)의 코퍼스를 검색하도록 구성된 하나 이상의 검색 모듈(150)과 통신할 수 있다. 이행 모듈(124)은 검색 쿼리(예: 쿼리 텍스트, 축소된 차원 임베딩 등)를 나타내는 데이터를 검색 모듈(150)에 제공할 수 있다. 검색 모듈(150)은 GPS 좌표와 같은 응답 정보, 또는 "Timberline Lodge, Mt. Hood, Oregon"과 같은 다른 보다 명확한 정보를 제공할 수 있다. 이 응답 정보는 이행 모듈(124)에 의해 생성된 이행 정보의 일부를 형성할 수 있다.
추가적으로 또는 대안적으로, 이행 모듈(124)은 예를 들어 의도 매칭기(135)로부터 사용자의 의도 및 사용자에 의해 제공되거나 다른 수단(예: 사용자의 GPS 좌표, 사용자 기본 설정 등) 을 사용하여 결정된 임의의 슬롯 값을 수신하고 응답 액션을 트리거하도록 구성될 수 있다. 응답 액션에는 예를 들어 상품/서비스 주문, 타이머 시작, 알림 설정, 전화 통화 시작, 미디어 재생, 스마트 기기 작동, 메시지 전송 등이 포함될 수 있다. 그러한 일부 구현에서, 이행 정보는 이행과 연관된 슬롯 값, 확인 응답(일부 경우에 미리 결정된 응답으로부터 선택될 수 있음) 등을 포함할 수 있다.
자연어 생성기(126)는 다양한 소스로부터 획득된 데이터에 기초하여 자연어 출력(예를 들어, 인간의 음성을 모방하도록 설계된 단어/구)을 생성 및/또는 선택하도록 구성될 수 있다. 일부 구현에서, 자연어 생성기(126)는 의도의 이행과 연관된 이행 정보를 입력으로서 수신하고 이행 정보에 기초하여 자연어 출력을 생성하도록 구성될 수 있다. 추가로 또는 대안적으로, 자연어 생성기(126)는 사용자를 위한 자연어 출력을 구성하는 데 사용할 수 있는 제3자 애플리케이션(예: 필요한 슬롯)과 같은 다른 소스로부터 정보를 수신할 수 있다.
핫 명령 엔진(128)은 다양한 신호에 기초하여 예를 들어 데이터베이스(129)에 핫 명령으로서 텍스트 명령을 선택적으로 등록하도록 구성될 수 있다. 도 1에서 클라우드 기반 자동화된 어시스턴트 컴포넌트(119)의 일부로 도시되어 있지만, 다양한 구현에서 핫 명령 엔진(128) 및/또는 데이터베이스(129)는 추가적으로 또는 대안적으로 하나 이상의 클라이언트 장치(106)에서 전체적으로 또는 부분적으로 구현될 수 있다. 유사하게, 일부 구현에서, 데이터베이스(129)는 특정 사용자, 예를 들어 클라이언트 장치(106)를 제어하는 사용자에 대해 등록된 핫 명령를 포함하는 클라이언트 장치(106)에 전체적으로 또는 부분적으로 유지될 수 있다.
다양한 구현들에서, 핫 명령 엔진(128)은, 예를 들어, STT(117A/117)에 의해 생성된 텍스트 명령이 텍스트 명령들의 코퍼스(예를 들어, 자동화된 어시스턴트(120)가 호출된 후 수신된 텍스트 명령 코퍼스)에서 빈도(횟수) 임계치(frequency threshold)를 충족하는지를 결정하도록 구성될 수 있다. 예를 들어, 텍스트 명령은 과거 텍스트 명령의 모음에 최소 횟수 이상 나타날 수 있거나 최소 임계치와 일치하거나 초과하는 빈도(횟수) 또는 백분율로 나타날 수 있다. 이러한 결정에 응답하여, 핫 명령 엔진(128)은 텍스트 명령를 나타내는 데이터를 데이터베이스(129)(및/또는 클라이언트 장치(106)의 로컬 데이터베이스)에 등록할 수 있다. 텍스트 명령을 나타내는 이러한 데이터는 텍스트 명령 자체를 그대로 포함하거나 포함하지 않을 수 있으며, 핫 명령에서 생성된 임베딩, 핫 명령에서 생성된 템플릿 또는 문법(아래에 설명됨) 등을 포함할 수 있다. 핫 명령 엔진(128)에 의한 등록에 이어, 텍스트 명령과 일치하거나 의미론적으로 일관된 다른 텍스트 명령의 발화는 자동화된 어시스턴트(120)의 명시적 호출을 요구하지 않고 자동화된 어시스턴트(120)에 의한 응답 액션의 수행을 트리거할 수 있다.
일부 구현에서, 여기에 설명된 기술을 사용하여 핫 명령 엔진(128)에 의해 등록된 핫 명령는 하나 이상의 슬롯을 포함하는 문법 또는 "템플릿(template)"으로서 저장될 수 있다. 일부 경우에, 이러한 슬롯은 와일드카드 또는 기타 유사한 메커니즘으로 표시될 수 있으므로 슬롯은 핫 명령이 등록되도록 하는 음성 명령에 제공된 파라미터와 의미적으로 일치하는 후속 파라미터(들)를 수신할 수 있다. 두 개의 다른 값은 슬롯에서 서로 바꿔서 사용할 수 있을 때 "의미상 일관성(semantically consistent)"이 있다.
예를 들어, 시간이 지남에 따라 사용자가 자동 어시스턴트(120)를 호출한 후 "Set a timer for five minutes(5분 타이머 설정)", "set a timer for twenty minutes(20분 타이머 설정)" 및 "set a timer for one hour(1시간 타이머 설정)" 명령을 실행한다고 가정한다. "5분", "20분" 및 "1시간" 값은 의미적으로 일관되며 모두 시간 간격을 나타낸다. 따라서, "set a timer for <time>(<시간>에 대한 타이머 설정)"과 같은 핫 명령 템플릿이 생성되고 등록될 수 있으므로 사용자는 의미론적으로 일관된 명령을 실행하기 전에 자동화된 어시스턴트(120)를 호출할 필요가 없다.
시간 간격 이외의 다른 값도 각각 의미적으로 일치할 수 있다. 예를 들어, 스마트 기기를 제어하는컨텍스트에서, 다양한 스마트 조명 아이덴티티(예: "주방 조명 1", "거실 조명 4", "덴 조명(den lights)", "백 베란다 조명(back porch lights)")는 의미상 일관성이 있을 수 있다. 마찬가지로 유사한 명령을 사용하여 제어할 수 있는 기기는 의미상 일관성이 있을 수 있다. 예를 들어, "turn the <appliance> up(<가전기기> 켜기)" 템플릿은 오디오 시스템의 볼륨, 온도 조절기 온도, 오븐 온도, 에어컨, 스마트 조명의 조도 등을 나타낼 수 있다. 다른 사람들은 핫 명령의 컨텍스트에서도 의미상 일관성이 있을 수 있으며, 예를 들어 "send a message to <person's name>(<사람의 이름>에게 메시지 보내기)"는 슬롯에 삽입된 이름에 따라 다른 사람들에게 메시지를 보내는 데 사용할 수 있다.
자동화된 어시스턴트(120)는 클라이언트 장치(106) 및/또는 음성 캡처 모듈(110)에서 이용 가능한 기능에 따라 다양한 방식으로 호출될 수 있다. 도 2a 및 도 2b는 자동화된 어시스턴트(120)가 응답 액션을 수행하도록 하기 위해 자동화된 어시스턴트(120)를 호출하기 위한 2개의 예시적인 파이프라인을 개략적으로 도시한다. 본 개시의 선택된 양태들은 파이프라인 상에서, 또는 도 2a-b에 도시된 것들과 다양한 특성을 공유하는 다른 파이프라인 상에서 전체적으로 또는 부분적으로 구현될 수 있다.
도 2a는 자동화된 어시스턴트(120)가 음성 인식 프로세싱을 수행하기 위해 클라우드 기반 STT 모듈(117)에 주로 의존하는 파이프라인을 도시한다. 왼쪽에서 시작하여, 발화는 예를 들어 녹음된 오디오 데이터로서 음성 캡처 모듈(110)에 의해 캡처된다. 음성 캡처 모듈(110)은 음소, 억양, 피치(pitch), 케이던스(cadence) 등과 같은 녹음된 오디오 데이터로부터 다양한 오디오 특징을 추출한다. 호출 모듈(113)은 캡처된 발화가 자동화된 어시스턴트(120)를 호출하도록 의도된 확률 p를 생성하기 위해 호출 모델(114)에 걸쳐 입력으로서 이러한 특징을 적용한다.
240에서 p가 T를 충족하지 못하면, 242에서 발화가 무시/폐기될 수 있다. 그러나 240에서 p가 임계치 T(예: p>0.75, p>0.65, p>0.9 등)를 충족하면, 그 후 처리(프로세싱)는 음성 캡처 모듈(110)로 다시 진행할 수 있으며, 이는 이전에 처리된 발화 이후에, 이전에, 또는 그와 혼합된 음성 명령을 포함하는 오디오 데이터를 캡처/버퍼링할 수 있다. 음성 캡처 모듈(110)은 음성 인식 프로세싱을 위해 이 명령 데이터(예를 들어, 원시 오디오 데이터, 임베딩 등)를 STT 모듈(117)(클라우드 기반 또는 온보드 클라이언트 장치(106))에 전달할 수 있다.
STT 모듈(117)은 텍스트 명령을 생성할 수 있으며 이는 의도(Intent) 매칭기(135)에 제공되며, 이는 위에서 설명된 바와 같이 명령을 처리할 수 있다(예를 들어, 자연어 프로세서(122)를 통해). 의도 매칭기(135)에 의해 결정된 의도는 이행 모듈(124)에 제공될 수 있다. 이행 모듈(124)은 예를 들어 하나 이상의 응답 액션을 수행함으로써 이전에 설명된 바와 같이 의도를 이행할 수 있다. 도 2a의 하단에 간격으로 표시된 바와 같이, 자동화된 어시스턴트(120)가 성공적으로 호출되고 음성 명령이 음성 캡처 모듈(110)에 의해 캡처/버퍼링될 때까지, 자동화된 어시스턴트(120)는 디폴트 핫 워드 또는 다른 호출 트리거(예: 핫키 누르기)에 주로 또는 배타적으로 응답하는 "제한된 청취 상태"에 있을 수 있다. 호출 후, 자동화된 어시스턴트(120)는 음성 캡처 모듈(110)에 의해 캡처된 임의의 발화에 대해 STT 처리(프로세싱)를 수행하고 이행을 시도하는 "전체 청취 상태(full listening state)"에 있다.
도 2b는 STT 처리가 주로 또는 독점적으로 온보드 클라이언트 장치(106)에 구현되는 대안적인 파이프라인을 도시한다. 온디바이스(on-device)에서 STT 처리를 수행하면 클라우드에 더 적은 데이터를 전송하고 특히 음성 명령 해석과 관련된 대기 시간을 줄임으로써 개인 정보를 보호하는 것과 같은 다양한 기술적 이점이 나타날 수 있다. 도 2b의 파이프라인을 사용하여 처리된 음성 명령은 많은 경우에 도 2a의 파이프라인을 사용하여 발행된 음성 명령보다 훨씬 더 빠르게 처리될 수 있다. 이는 등록된 핫 명령 및/또는 등록된 핫 명령를 나타내는 데이터가 아래에서 설명되는 바와 같이, 예를 들어 클라이언트 장치(106)의 메모리에 로컬로 캐시되는 구현에서 특히 사실이다.
도 2b에서, 발화는 음성 캡처 모듈(110)에 의해 캡처된다. 음성 캡처 모듈(110)은 오디오 데이터를 생성하고 STT 모듈(117A)(온보드 클라이언트 장치(106))에 제공한다. STT 모듈(117A)은 호출 모듈(113) 및/또는 핫 명령 엔진(128)과 같은 다운스트림 컴포넌트에 제공되는 텍스트 데이터(도 2b의 "TXT")를 생성하기 위해 음성 인식 프로세싱을 수행한다.
어떤 다운스트림 컴포넌트가 STT 모듈(117A)로부터 텍스트 데이터를 수신하든지, 그 컴포넌트는 244에서 결정을 내리기 위해 텍스트를 분석할 수 있다. 분석에서 발화가 자동화된 어시스턴트(120)를 호출하기 위한 디폴트 핫 워드 또는 구인 것으로 밝혀지면, 그 다음 처리는 음성 명령(이는 초기 발화 뒤에 오거나 앞에 오거나 혼합될 수 있음)을 포함하는 추가 오디오 데이터를 버퍼로부터 수신 및/또는 제공할 수 있는 음성 캡처 모듈(110)로 다시 진행할 수 있다. 그 다음, 프로세싱은 이전에 설명된 바와 같이 컴포넌트(117, 135, 124)를 통해 진행할 수 있다.
그러나, 244에서, 텍스트 데이터가 핫 명령를 포함하는 것으로 대안적으로 결정될 수 있다. 이 경우 추가 STT 처리가 필요하지 않을 수 있다. 대신에, 그리고 도 2b에 도시된 바와 같이, 핫 명령는 이행 모듈(124)에 의한 처리를 위한 의도를 생성할 수 있는 의도 매칭기(135)에 직접 제공될 수 있다. 텍스트 스니펫(textual snippet)은 다양한 인자(factor)에 따라 핫 명령으로 간주될 수 있다. 일부 구현에서, 텍스트 명령이 예를 들어 등록된 핫 명령과 의미론적으로 일치하는 경우 텍스트 명령은 핫 명령으로 간주될 수 있다.
추가적으로 또는 대안적으로, 일부 구현에서, 텍스트 명령은 출력을 생성하기 위해 훈련된 기계 학습 모델에 걸쳐 입력으로서 적용될 수 있다. 출력은 텍스트 명령이 자동화된 어시스턴트(120)로 지시되었을 확률을 나타낼 수 있다. 일부 구현에서, 기계 학습 모델은 사용자가 자동 어시스턴트(120)를 명시적으로 호출한 후에 사용자에 의해 발행되는 자유 형식(free-form) 명령/쿼리를 사용하여 훈련될 수 있다.
추가적으로 또는 대안적으로, 도 2b에서 점선 화살표로 도시된 바와 같이, 일부 구현에서, 등록된 핫 명령를 의도 매칭기(135)로 전송하는 것보다, 등록된 핫 명령는 이미 로컬로, 예를 들어 등록 프로세스의 일부로서 클라이언트 장치(106) 상에 캐시될 수 있다. 일부 그러한 구현에서, 등록된 핫 명령이 발화에서 후속적으로 검출될 때, 클라우드 기반 자동화된 어시스턴트 컴포넌트(119)에 의해 처리되는 등록된 핫 명령 없이 캐시된 등록된 핫 명령에 기초하여 응답 액션(들)이 트리거될 수 있다.
일부 구현에서, 검색 결과와 같은 텍스트 명령에 응답하는 정보가 캐시될 수 있다. 캐시된 정보는 트리거되는 텍스트 명령 대신에 핫 명령의 후속 호출에 응답하여 출력될 수 있다. 예를 들어, 사용자가 자동 어시스턴트(120)에게 "What's the weather today?(오늘 날씨가 어때?)"라고 자주 묻는다고 가정한다. 이 쿼리는 핫 명령으로 등록될 수 있다. 그러한 일부 구현에서, 쿼리는 예를 들어 주기적으로, 무작위로, 매일 아침 등 적절한 검색 엔진에 자동으로 제출될 수 있다. 사용자가 나중에 "what's the weather today(오늘 날씨가 어때요?)"라고 물으면(예를 들어, 자동화된 어시스턴트(120)를 먼저 호출할 필요 없이), 응답 데이터는 이미 캐시되어 있을 수 있으므로 자동화된 어시스턴트(120)는 식별 가능한 대기 시간이 거의 또는 전혀 없이 날씨를 출력할 수 있다.
캐시된 핫 명령은 검색 쿼리에 국한되지 않는다. 일부 구현에서, 예를 들어 클라우드 기반 자동화된 어시스턴트 컴포넌트(119)와의 통신을 회피하고/하거나 대기 시간을 줄이기 위해 스마트 기기를 제어하기 위한 핫 명령이 (예를 들어, 등록 프로세스의 일부로서) 온보드 클라이언트 장치(106)에 캐시될 수 있다. 이러한 핫 명령의 후속 호출은 핫 명령를 나타내는 데이터가 스마트 기기에 직접 전송되게 할 수 있다. 본 명세서에 사용된 바와 같이, 스마트 기기에 "직접(directly)" 데이터를 전송하는 것은, 하나 이상의 광역 네트워크("WAN")를 통해 원격 컴포넌트(예: 119)와 데이터를 교환하지 않고, 근거리 통신망("LAN") 및/또는 개인 영역 네트워크("PAN") 중 하나 또는 둘 다를 통해 스마트 기기에 데이터를 전송하는 것을 의미할 수 있다.
예를 들어 스마트 조명이나 스마트 잠금 장치와 같은 일부 스마트 기기는 불루투스(Bluetooth), 메시 네트워크 등과 같은 기술을 사용하여 브리지 컴포넌트와 무선 통신할 수 있다. 브리지 컴포넌트는 차례로 와이파이(Wi-Fi)와 같은 하나 이상의 다른 유형의 무선 네트워크를 통해 도달할 수 있다. 다른 말로 하자면, 브리지 컴포넌트는 스마트 기기(들)가 상주하는 제1 무선 통신 네트워크(예: 블루투스, 메시)와 사용자가 일반적으로 클라이언트 장치(106)를 동작시키는 제2 무선 통신 네트워크(예: Wi-Fi) 사이의 "브리지(bridge)" 역할을 한다.
캐시된 핫 명령(또는 이를 나타내는 데이터)은 클라우드 기반 자동화된 어시스턴트 컴포넌트(119)와 어떠한 데이터도 교환하지 않고 클라이언트 장치(106)에서 브리지 컴포넌트로(또는 브리지 컴포넌트가 존재하지 않는 경우 스마트 기기 자체로) 직접 전송될 수 있다. 캐시된 핫 명령을 나타내는 데이터를 수신하면 스마트 기기가 응답 액션을 수행할 수 있다. 예를 들어 "조명 켜기" 명령이 핫 명령으로 등록되어 있다고 가정한다. 일부 구현에서, 이 등록은 캐시되는 조명(또는 조명을 제어하는 브리지 컴포넌트)에 실제로 통신되는 명령 데이터를 포함할 수 있다. 결과적으로, 핫 명령이 나중에 검출되면 캐시된 데이터가 식별 가능한 대기 시간이 거의 또는 전혀 없이 LAN/PAN을 통해 조명/브리지 컴포넌트로 즉시 전송될 수 있다.
도 2b의 파이프라인으로, 자동화된 어시스턴트(120)는 도 2a의 파이프라인보다 더 자주 STT 처리를 수행한다. 따라서, 도 2a에서와 같이 "제한된 청취 상태(limited listening state)"를 갖는 것보다 도 2b에서, 자동화된 어시스턴트(120)는 244의 의사 결정과 관련하여 이전에 설명된 바와 같이 자동화된 어시스턴트가 텍스트 명령/쿼리에 선택적으로 응답하는 "선택적으로 응답하는 상태"로 지칭되는 것을 갖는다. 자동화된 어시스턴트(120)가 예를 들어 디폴트 핫 워드로 명시적으로 호출되면, 자동화된 어시스턴트(120)는 "전체 응답하는 상태(fully responsive state)"로 전환할 수 있다.
선택적으로 응답하는 상태에서, 자동화된 어시스턴트(120)는 다양한 인자에 기초하여 텍스트 명령에 선택적으로 응답한다. 이러한 인자 중 하나는 텍스트 명령(또는 유사한 텍스트 명령 또는 일치하는 문법/템플릿)이 이전에 핫 명령으로 등록되었는지 여부이다. 또 다른 인자는 화자의 시선이 적어도 사용자의 관점에서 자동화된 어시스턴트(120)의 적어도 일부를 구현하는 것으로 보이는 컴퓨팅 장치를 향하고 있는지 여부이다. 다른 인자들이 여기에서 고려된다. 도 2b의 구현의 전체 응답 상태에서, 자동화된 어시스턴트(120)는 추가 처리를 위해 클라우드 기반 자동화된 어시스턴트 컴포넌트(119)에 검출한 임의의 발화를 나타내는 데이터(예를 들어, STT 텍스트 출력)를 전송할 수 있다.
도 3a 내지 도 3c는 다양한 구현들에 따라, 본 개시의 선택된 양태들로 구성된 자동화된 어시스턴트(예를 들어, 120) 및/또는 어시스턴트 장치(예를 들어, 106)에 의해 구현될 수 있는 예시적인 상태 머신의 단계들을 개략적으로 도시한다. 도 3a의 좌측에서 시작하여, 자동화된 어시스턴트(120)는 도 2a의 제한된 청취 상태 또는 도 2b의 선택적으로 응답하는 상태일 수 있는 제1 상태로 시작하거나 디폴트로 할 수 있다. 하나 이상의 디폴트 핫 워드(도 3a-c의 "DIW")가 검출되면, 자동화된 어시스턴트(120)는 도 2a의 전체 청취 상태 또는 도 2b의 전체 응답(fully responsive) 상태에 대응할 수 있는 제2 상태로 전환할 수 있다.
제2 상태에서, 자동화된 어시스턴트(120)는 발화와 같은 임의의 자유 형식 입력을 기다릴 수 있다. 자유 형식 입력의 검출 시, 자동화된 어시스턴트(120)는 "명령 등록 분석(command enrollment analysis)" 상태로 적어도 일시적으로 전환할 수 있다. 명령 등록 분석 상태에서, 자동화된 어시스턴트(120)는 예를 들어 핫 명령 엔진(128)을 통해 다양한 인자에 기초하여, 자동화된 어시스턴트(120)가 제1 상태에서 제2 상태로 전환될 것을 요구하지 않고 자유 형식 입력이 미래에 사용가능한 핫 커맨드로서 등록되어야 하는지 여부를 결정할 수 있다. "general processing(일반 처리)"와 함께 직렬로 표시되지만 일부 구현에서, 명령 등록 분석 및 일반 처리가 병렬로 수행될 수 있거나, 예를 들어 명령이 유효하고 자동화된 어시스턴트(120)가 응답할 수 있었다는 것을 보장하기 위해 일반 프로세스 후에 명령 등록 분석이 수행될 수 있다.
명령 등록 분석 중에 고려되는 인자 중 가장 중요한 것은 명령 또는 의미적으로 일관된 명령이 수신되는 빈도(횟수)이다. 예를 들어, 명령 또는 의미적으로 일관된 명령이 수신된 횟수는 임계치와 비교될 수 있다. 임계치가 충족되면, 텍스트 명령, 또는 명령 및 그 슬롯으로부터 조립된 템플릿/문법은 자동화된 어시스턴트(120)가 명시적으로 호출될 필요 없이 앞으로 사용 가능한 핫 명령으로 등록될 수 있다. 한편, 자유형식 입력이 핫명령으로 등록되는지 여부와 상관없이 일반 처리를 거쳐 응답 액션을 (예를 들어, 의도 매칭기(135) 및/또는 이행 모듈(124)에 의해) 수행할 수 있다.
도 3b는 명령 등록 분석의 결과로서 최초 등록된 핫 명령("EHC1")이 등록된 후의 도 3a의 상태 머신을 도시한다. 이제, 자동화된 어시스턴트(120)가 제1 상태에 있을 때, 이전과 같이 제2 상태로 호출될 수 있다. 그러나, 자동화된 어시스턴트(120)는 또한 제1 응답 액션("응답 액션1")을 수행하기 위해 제1 등록된 핫 명령(EHC1)에 응답할 수 있다. 점선 화살표로 표시된 바와 같이, 일부 구현에서, 제1 응답 액션이 수행되면, 자동화된 어시스턴트(120)는 예를 들어 사용자가 원하는 쿼리로 등록된 핫 명령를 팔로우업할 수 있도록 제2 상태로 전환할 수 있다. 이 등록 프로세스는 앞으로 반복될 수 있다. 예를 들어, 도 3c는 다른 등록 핫 명령("EHC2")이 등록된 후의 자동화된 어시스턴트(120)의 상태 머신을 도시한다.
도 4a 및 도 4b는 사용자(101)와 자동화된 어시스턴트의 인스턴스(도 4a-b에는 표시되지 않음) 사이의 인간 대 컴퓨터 대화 세션이 여기에서 설명된 구현들에 따른 클라이언트 컴퓨팅 장치(406)의 마이크로폰(들) 및 스피커(들)(독립형 대화형 스피커로 표시되지만 제한하려는 의도는 아님)를 통해 발생할 수 있는 방법의 한 예를 보여준다. 자동화된 어시스턴트(120)의 하나 이상의 양태는 컴퓨팅 장치(406) 및/또는 컴퓨팅 장치(406)와 네트워크 통신하는 하나 이상의 컴퓨팅 장치 상에서 구현될 수 있다.
도 4a에서, 사용자(101)는 디폴트 핫 구문(구), "Hey Assistant(헤이 어시스턴트)"를 사용하여 자동화된 어시스턴트(120)를 호출한다. 이는 자동화된 어시스턴트(120)가 도 3a-c의 제1 상태로부터 제2 상태로 전환하게 할 수 있다. 그러면 사용자(101)는 "Set a timer for five minutes(타이머를 5분으로 설정해 주세요.)"라고 말한다. 이 구문은 도 3a-c의 명령 등록 분석 및 일반 처리 모두에 따라 처리될 수 있다. 이 예에서 사용자(및/또는 구현에 따라 다른 사용자)(101)가 이 명령 또는 의미론적으로 일관된 명령(예: "Set a timer for ten minutes(10분 타이머 설정)")을 최소 핫 명령 등록 임계치를 충족하는 횟수만큼 실행했다고 가정한다.
자동화된 어시스턴트(120)는 먼저 타이머를 설정하고 "오케이. 타이머 시작 중...지금."이라고 말함으로써 응답할 수 있다. 그러나 명령(및/또는 의미상 일관된 명령)이 핫 명령 등록 기준(예: 이전에 언급된 최소 핫 명령 등록 임계치)을 충족하기 때문에, 자동화된 어시스턴트(120)는 명령, 또는 보다 일반적으로 명령 및 그 슬롯(들)로부터 생성된 템플릿 또는 문법을 등록된 핫 명령으로서 등록한다. 그렇게 하면 자동화된 어시스턴트가 사용자(101)에게 "당신이 이 명령을 자주 실행하는 것을 보니 그 명령을 내리기 전에 더 이상 나를 깨울 필요가 없도록 설정을 변경했습니다... 타이머를 X분으로 설정하라고 말할 수 있습니다."와 같이 알린다. 결과적으로, 그리고 도 4b에 도시된 바와 같이, 사용자(101)는 나중에 단순히 "Set a timer for six minutes(6분 동안 타이머 설정)" 명령을 말할 수 있고, 자동화된 어시스턴트(120)는 먼저 명시적으로 호출되지 않고 타이머를 시작할 것이다.
사용 빈도에 더하여 또는 대신에, 일부 구현에서, 명령이 핫 명령으로 해석되어야 하는지 및/또는 명령를 앞으로 이동하는(moving forward) 핫 명령으로 등록할지 여부를 결정하기 위해 다른 인자 및/또는 신호가 사용될 수 있다. 추가로 또는 대안적으로, 일부 구현에서, 명령의 반복된 발화는 차례로 명령이 핫 명령으로 해석 및/또는 등록되게 할 수 있다. 직관적으로, 사용자가 "Turn the lights red(조명을 빨간색으로 바꿔)"와 같은 말을 하고 기다렸다가 같은 것을 한 번 이상 반복하면 이는 사용자가 자동 어시스턴트(120)가 조명을 빨간색으로 바꾸기를 기다리고 있음을 시사한다.
도 5a-b는 사용자의 발화가 자동화된 어시스턴트(120)를 위한 것인지 여부를 결정하는 데 사용자(101)의 시선이 사용되는 예를 묘사한다. 다시 한번 사용자(101)는 클라이언트 장치(506C)에서 적어도 부분적으로 동작하는 자동화된 어시스턴트(120)에 관여한다. 클라이언트 장치(506C)는 사용자의 시선 방향을 결정하기 위해 분석될 수 있는 비전 데이터를 생성하는 비전 센서(507C)를 포함한다. 2개의 다른 클라이언트 장치, 랩톱(506A) 및 스마트 텔레비전(506B)도 존재하며 각각의 비전 센서(507A 및 507B)를 포함한다.
도 5a에서, 사용자(101)는 자동화된 어시스턴트(120)를 먼저 호출하지 않고 "Turn on the lights(불을 켜)"고 말한다. 하나 이상의 비전 센서(507A-C)에 의해 생성된 비전 데이터는 사용자의 시선 방향을 결정하기 위해 예를 들어 시선 검출 알고리즘을 사용하여 분석될 수 있다. 사용자(101)가 클라이언트 장치(506A-C) 중 임의의 방향(도 5a에서 점선 화살표로 표시된 대로)을 보고 있는 경우, 이는 명령이 자동화된 어시스턴트(120)에 의해 응답되어야 하는지 여부를 결정하기 위해 단독으로 또는 다른 신호와 조합하여 사용되는 신호일 수 있다. 도 5a의 경우, 자동화된 어시스턴트(120)는 "OK. Turning on three lights(오케이 3개의 조명을 켭니다)이라고 응답한다.
이를 제1 사용자(101A)가 다른 사용자(101B)에게 "Turn on the lights(조명을 켜)"고 말하는 도 5b와 대조된다. 점선 화살표로 도시된 바와 같이, 제1 사용자(101A)의 시선은 제2 사용자(101B)를 향하고 있다. 이는 각각의 비전 센서(507A-C) 중 하나 이상에 의해 캡처된 비전 데이터를 사용하여 클라이언트 장치(506A-C) 중 하나 이상에 의해 수집된 비전 데이터에 기초하여 다시 한 번 검출될 수 있다. 결과적으로, 자동화된 어시스턴트(120)는 제2 사용자(101B)가 조명을 켜도록 지시받고 있다는 가정하에 아무런 조치도 취하지 않는다.
일부 구현에서, 화자의 시선의 방향은 예를 들어 화자의 위치로 인해 이용가능하거나 확인가능하지 않을 수 있다(예를 들어, 비전 센서(507)의 시야에서 벗어남). 또는 화자의 시선 방향을 결정하기 위한 비전 센서와 같은 하드웨어 리소스가 충분하지 않을 수 있다. 그러나 마이크로폰 또는 근접 센서와 같은 다른 센서의 신호를 분석하여 해당 지역에 여러 사람이 함께 있는지 여부를 결정할 수 있다. 도 5b에서와 같이 여러 사람이 존재하는 경우, 자동화된 어시스턴트(120)에 지시된 명령으로 그 사람들 중 한 사람이 잠재적으로 그 사람들 중 다른 사람에게 말하는 것으로 해석하는 것에 무게를 둘 수 있다.
일부 구현에서, 사용자(101)의 발화로부터 생성된 텍스트 데이터는 명령이 자동화된 어시스턴트(120)로 향할 확률을 생성하기 위해 전술한 기계 학습 모델에 걸친 입력으로서 적용될 수 있다. 그 확률은 단독으로 결정적이지 않을 수 있으며("turn on the lights(불을 켜)"라는 명령은 방에 있는 다른 사람이 따를 수 있는 명령이다), 자동화 어시스턴트(120)가 실행 중인 것으로 적어도 인지될 수 있는 클라이언트 장치를 목표로 하는 사용자(101)의 시선과 조합하여, 결합된 신호는 자동화 어시스턴트(120)에 의한 응답을 트리거하기에 충분할 수 있다. 추가적으로 또는 대안적으로, 사용자의 시선 방향을 검출하는 것보다, 일부 구현들에서, 사용자(101)가 혼자인지 여부가 결정될 수 있다. 대답이 '예'인 경우, 시선 방향을 검출하지 않더라도 사용자(101)가 자동화된 어시스턴트(120)를 어드레싱(addressing)하고 있다고 추론할 수 있다.
도 6은 여기에 개시된 구현들에 따른 예시적인 방법(600)을 예시하는 흐름도이다. 편의상, 순서도의 동작은 동작을 수행하는 시스템을 참조하여 설명한다. 이 시스템은 자동화된 어시스턴트(120)의 하나 이상의 컴포넌트와 같은 다양한 컴퓨터 시스템의 다양한 컴포넌트를 포함할 수 있다. 더욱이, 방법(600)의 동작이 특정 순서로 도시되어 있지만, 이는 제한하는 것을 의미하지 않는다. 하나 이상의 동작이 재정렬되거나 생략되거나 추가될 수 있다.
블록(602)에서, 시스템은 106, 406, 또는 506A-C와 같은 하나 이상의 클라이언트 장치 상에서 적어도 부분적으로 자동화된 어시스턴트(120)를 동작시킬 수 있다. 블록(604)에서, 시스템은 하나 이상의 트리거 이벤트를 모니터링할 수 있다. 예를 들어, 시스템은 자동화된 어시스턴트(120)를 호출하도록 의도된 하나 이상의 디폴트 핫 워드에 대해 하나 이상의 마이크로폰에서 캡처된 오디오 데이터를 모니터링할 수 있다. 위에서 언급한 바와 같이, 일부 구현에서 이는 하나 이상의 호출 모델(114)에 걸쳐 입력으로서 오디오 데이터의 특징을 추출하고 적용하는 것을 수반할 수 있다. 다른 구현들에서, 시스템은 발화를 캡처하는 오디오 데이터에 대해 음성 인식 프로세싱(본 명세서에서 STT 프로세싱으로도 지칭됨)을 수행할 수 있다. 생성된 텍스트 스니펫은 핫 워드(들)를 포함하는지 여부를 결정하기 위해 분석될 수 있다. 일부 구현에서, 디폴트 핫워드 검출 이외의 이벤트는 하나 이상의 하드 또는 소프트 키 누르기, 비전 센서 앞에서 제스처, 자동화된 어시스턴트(120)에 액세스할 수 있는 모바일 전화를 들고 있는 동안 특정 제스처 또는 모션 등과 같이 자동화된 어시스턴트(120)를 호출할 수 있다.
블록(606)에서, 하나 이상의 트리거 이벤트가 검출되지 않으면, 방법(600)은 블록(604)으로 다시 진행할 수 있다. 그러나 블록(606)에서 대답이 예이면 블록(608)에서, 시스템은 자동화된 어시스턴트(120)를 제한된 청취 상태(도 2a) 또는 선택적으로 응답하는 상태(도 2b)와 같은 제1 상태에서 전체 음성 인식 상태(도 2a) 또는 전체 응답 상태(도 2b)와 같은 제2 상태로 전환할 수 있다.
제2 상태에 있는 동안, 블록(610)에서, 시스템은 예를 들어 음성 캡처 모듈(110)을 통해 오디오 데이터로서 캡처될 수 있는 사용자로부터의 음성 명령을 수신할 수 있다. 블록(612)에서, 시스템은 예를 들어 클라우드 기반 STT 모듈(117) 또는 로컬 STT 모듈(117A)을 통해 블록(610)에서 수신된 음성 명령으로부터 생성된 오디오 데이터에 대해 음성 인식 프로세싱을 수행하여 텍스트 명령을 생성할 수 있다.
블록(614)에서, 시스템은, 예를 들어 핫 명령 엔진(128)을 통해, 텍스트 명령이 텍스트 명령의 코퍼스(도 3a-c의 명령 등록 분석)에서 빈도 임계치를 충족하는지 여부를 결정할 수 있다. 다양한 구현에서, 텍스트 명령 코퍼스는 말하는 사용자에 의해 생성된 텍스트 명령 코퍼스, 또는 사용자를 포함하는 사용자 집단에 의해 생성된 텍스트 명령 코퍼스일 수 있다. 일부 구현에서, 텍스트 명령과 연관된 카운트는 블록(616)에서 빈도 임계치와 비교될 수 있다. 이 카운트는 아래에서 설명되는 바와 같이 다양한 방식으로 결정될 수 있다.
블록(616)에서 임계치가 충족되면 블록(618)에서, 시스템은 텍스트 명령을 나타내는 데이터를 핫 명령으로 등록할 수 있다. 블록 618에서 등록한 후, 텍스트 명령과 일치하거나 의미론적으로 일치(예: 템플릿/문법과 매치)하는 다른 텍스트 명령의 발화는 자동화된 어시스턴트(120)의 명시적인 호출을 요구하지 않고 자동화된 어시스턴트(120)에 의한 응답 액션의 수행을 트리거할 수 있다.
일부 구현에서, 핫 명령의 등록을 야기한 동일한 사용자만이 호출 없이 자동화된 어시스턴트(120)에 의한 액션을 트리거하기 위해 핫 명령를 사용할 수 있다. 이 사용자는 예를 들어 화자 인식 프로세싱, 얼굴 인식 프로세싱(예: 하나 이상의 카메라가 있는 경우) 등을 사용하여 여러 대화 세션에 걸쳐 식별될 수 있다. 다른 구현에서, 일단 핫 명령이 등록되면, 다른 등록된 사용자(예를 들어, 가족 구성원) 또는 일반적 사용자와 같이 등록을 유발한 사용자보다 더 많은 사용자가 사용할 수 있다.
일부 구현에서, 선택적 블록(620)에서, 시스템은 자동화된 어시스턴트(120)를 적어도 부분적으로 구현하는 하나 이상의 클라이언트 장치(106)의 로컬 메모리에 텍스트 명령 자체와 같은 텍스트 명령을 나타내는 데이터를 캐시할 수 있다. 이는 미래에 유사한 명령에 응답할 때 자동화된 어시스턴트(120)의 대기 시간과 관련된 다양한 이점을 제공할 수 있다. 예를 들어, 일부 구현에서, 텍스트 명령은 텍스트 명령에 응답하는 정보를 캐시하기 위해 텍스트 명령이 사람에 의해 명시적으로 호출되지 않고 자동으로(예를 들어, 주기적으로) 트리거될 수 있다. 이는 텍스트 명령이 자동화된 어시스턴트(120)가 "what’s the weather outside?(밖의 날씨는?)" 또는 "what’s on my calendar today?(오늘 내 캘린더에 뭐가 있지?)"와 같은 쿼리에 대한 정보 응답을 출력하게 하는 경우에 특히 유용할 수 있다. 주기적으로 재캐시된 정보는 화자의 요청을 해결하기 위해 원격으로, 예를 들어 클라우드 기반 자동화된 어시스턴트 컴포넌트(119)에서 처리되는 텍스트 명령 대신에 텍스트 명령의 후속 호출에 직접 응답하여 자동화된 어시스턴트(120)에 의해 출력될 수 있다.
일부 구현에서, 스마트 기기를 제어하는 등록된 핫 명령(또는 이를 나타내는 데이터)는 미래에 이러한 스마트 기기를 제어하도록 자동화된 어시스턴트(120)에 지시할 때 지연을 개선하기 위해 캐시될 수 있다. 이러한 캐시된 텍스트 명령의 호출은 텍스트 명령, 또는 독점 스마트 기기를 제어하도록 구성된 독점 명령과 같은 텍스트 명령을 나타내는 데이터가 LAN 및 PAN 중 하나 또는 둘 모두를 통해 스마트 기기에 직접 전송되게 할 수 있다. 이전에 언급된 바와 같이, 텍스트 명령 또는 그것을 나타내는 데이터의 수신은 스마트 기기가 응답 액션을 수행하게 할 수 있다. 이 모든 것은 예를 들어 클라우드 기반 자동화된 어시스턴트 컴포넌트(119)에서 원격으로 처리되는 텍스트 명령 없이 발생할 수 있다.
블록(618)(또는 선택적인 블록(620)) 후에, 방법(600)은 블록(622)으로 진행할 수 있고, 이 지점에서 자동화된 어시스턴트(120)는 응답 액션을 수행할 수 있다. 블록(616)에서 대답이 아니오였다면, 방법(600)은 블록(618-620)을 건너뛰고 블록(622)으로 직접 진행할 수 있다. 일부 구현에서, 이 시점에서 명령과 관련된 카운트가 증가될 수 있다. 일부 구현에서, 특정 텍스트 명령의 카운트는 명령이 누군가에 의해 또는 미리 정의된 그룹(예: 사용자가 가족으로 등록됨)의 구성원인 누군가에 의해 발화될 때마다 증가될 수 있다. 일부 구현에서, 특정 텍스트 명령의 카운트는 클라이언트 장치의 조정된 에코시스템(예: 스마트 스피커, 스마트 폰, 태블릿, 가정에 포함된 어시스턴트 장치)에 걸쳐 누적될 수 있다. 예를 들어, 한 명 이상의 사용자는 자동화된 어시스턴트(120)와 연관된 계정을 가질 수 있고, 사용자는 이러한 에코시스템의 임의의 클라이언트 장치에서 이러한 계정에 액세스할 수 있다. 이러한 누적된 카운트가 블록(616)의 빈도 임계치를 충족할 때, 이러한 특정 텍스트 명령은 에코시스템에 대한 핫 명령으로 선택적으로 등록될 수 있다. 이는 가정, 가족 구성원이 운전하는 차량, 가족 구성원이 휴대하는 휴대폰 등과 같이 에코시스템의 클라이언트 장치가 배치된 환경에서 핫 명령를 효과적으로 널리 사용할 수 있게 할 수 있다.
유사하게, 일부 구현에서, 텍스트 명령(또는 그로부터 생성된 템플릿/문법)이 핫 명령으로 등록되면 개별 사용자 기반, 다중 사용자 기반(예: 가족 구성원 및/또는 클라이언트 장치의 특정 에코시스템에 등록된 사용자가 사용할 수 있음) 또는 전체 인구에 걸쳐 광범위한 사용을 위해 등록될 수 있다. 핫 명령이 개별 사용자 기반으로 등록되는 일부 구현에서, 사용자가 등록된 핫 명령을 발화할 때, 자동화된 어시스턴트(120)는 먼저 화자의 신원을 확인하고/하거나 화자를 등록된 사용자 프로필에 일치(매치 또는 매칭)시키려고 시도할 수 있다. 예를 들어, 자동화된 어시스턴트(120)는 화자 인식 프로세싱(또는 음성 매칭), 얼굴 인식 프로세싱(비전 센서가 사용 가능한 경우)를 수행하여 화자의 신원을 결정하거나 적어도 화자를 등록된 음성 프로파일에 매칭할 수 있다. 화자가 인식되지 않으면, 일부 구현에서 자동화된 어시스턴트(120)는 등록된 핫 명령를 무시할 수 있다. 한편, 화자가 인식되면, 자동화된 어시스턴트(120)가 응답 액션을 취해야 하는지 여부를 결정하기 위해 본 명세서에 설명된 기술을 사용하여 발화를 분석할 수 있다.
위에서 언급했듯이 일부 구현에서, 핫 명령은 여러 사용자, 예를 들어 가족 구성원 또는 클라이언트 장치(예: 가정의 클라이언트 장치 및 네트워크 기기)의 정의된 에코시스템에 등록된 사용자에 대해 등록된다. 이러한 일부 구현에서, 등록된 사용자 중 임의의 사용자는 에코시스템의 클라이언트 장치에 등록된 핫 명령을 발화할 수 있다. 화자가 예를 들어 음성 매칭 또는 얼굴 인식을 사용하여 등록된 사용자 프로파일(또는 더 일반적으로 사전 정의된 프로필 없이도 자동화된 어시스턴트(120)에 명령을 발화할 수 있는 사람으로 등록됨)에 매칭될 수 있는 한, 자동화된 어시스턴트(120)는 먼저 호출되지 않고 응답 액션을 취할 수 있다.
도 6에서, 텍스트 명령은 블록(614)의 빈도 임계치가 충족되는지 여부에 기초하여 핫 명령으로서 선택적으로 등록된다. 그러나 이는 제한하려는 것이 아닙니다. 다른 구현에서, 텍스트 명령이 핫 명령으로 등록되어야 하는지 여부 및/또는 텍스트 명령이 실제로 자동화된 어시스턴트(120)로 어드레싱되는지 여부를 결정하기 위해 추가적인 또는 대안적인 신호 및/또는 기술이 사용될 수 있다.
예를 들어, 일부 구현에서, 텍스트 명령은 출력을 생성하기 위해 기계 학습 모델에 걸친 입력으로서, 예를 들어 호출 모듈(113)에 의해 적용될 수 있다. 출력은 텍스트 명령이 자동화된 어시스턴트로 지시되었을 확률을 나타낼 수 있다. 일부 그러한 구현에서, 블록(616)의 등록은 임계치를 충족하는 기계 학습 모델 출력에 의해 전달된 확률에 추가로 응답한다. 추가적으로 또는 대안적으로, 일부 구현에서, 블록(616)의 조건부 등록은 하나 이상의 카메라에 의해 캡처된 비전 데이터에 기초하여, 도 5a에 도시된 바와 같이, 사용자의 시선이 자동화된 어시스턴트가 적어도 부분적으로 구현되는 컴퓨팅 장치를 향하고 있다는 것을 검출하는 것에 추가로 조건화될 수 있다.
또 다른 구현에서, 블록(616)의 조건부 등록은 음성 명령 후 미리 결정된 시간 간격 동안 추가 발화가 검출되지 않는다는 결정에 추가로 조건화될 수 있다. 화자가 명령을 내리고 예를 들어 5초에서 10초의 침묵이 뒤따른다고 가정한다. 이는 화자가 혼자이고(다른 인간 대화 참가자가 그때까지 응답했을 가능성이 있음) 따라서 자동화된 어시스턴트(120)를 어드레싱하고 있음을 암시할 수 있다. 또는, 일시적인 침묵은, 화자가 자동 어시스턴트(120)에 어드레싱하고 있다는 것을 방에 있는 다른 사람이 깨달았고 따라서 침묵을 유지했음을 암시할 수 있다.
추가적으로 또는 대안적으로, 일부 구현에서, 블록(616)의 조건부 등록은 음성 명령 후 미리 결정된 시간 간격 동안 사람에 의해 응답 액션이 취해지지 않았다는 결정에 추가로 조건화된다. 화자가 "Turn on the lights(불을 켜)"고 말했지만 다른 사람이 재빨리 물리적 스위치를 조작하여 전등을 켰다고 가정해 보겠다. 이는 화자가 자동 어시스턴트(120)가 아닌 다른 사람에게 말하고 있다는 것을 암시하며, 따라서 "turn on the lights(불을 켜)"라는 구문(문구)는 적어도 이 시점에서는 등록하기에 적합하지 않을 수 있다. 반면에, 화자가 그 명령을 내리고 어떤 미리 결정된 시간 간격(예: 5초, 10초) 동안 아무 일도 일어나지 않는다면, 이는 화자가 실제로 자동화된 어시스턴트(120)에 어드레싱하고 있다는 것을 암시하고, 따라서 "turn on the lights(불을 켜)"라는 텍스트 명령을 핫 명령으로 등록되어야 한다.
도 7은 다양한 구현들에 따른, 본 개시의 선택된 양태들을 실행하기 위한 예시적인 방법(700)을 도시히며, STT/음성 인식 프로세싱가 전체 청취 상태(도 2a) 또는 전체 응답 상태(도 2b) 외부에서 캡처된 발화에 대해 수행되는 도 2b에 도시된 것과 같은 구현을 포함한다. 편의상, 순서도의 동작은 동작을 수행하는 시스템을 참조하여 설명한다. 이 시스템은 다양한 컴퓨터 시스템의 다양한 컴포넌트를 포함할 수 있다. 더욱이, 방법(700)의 동작이 특정 순서로 도시되어 있지만, 이는 제한하는 것을 의미하지 않는다. 하나 이상의 동작이 재정렬되거나 생략되거나 추가될 수 있다.
블록(702)에서, 시스템은 하나 이상의 마이크로폰에서 캡처된 오디오 데이터를 수신할 수 있다. 오디오 데이터는 제1 및 제2 음성 발화와 같이 시간이 지남에 따라 캡처된 여러 발화를 포함할 수 있다. 블록(704)에서, 시스템은 오디오 데이터에 대해 음성 인식 프로세싱(즉, STT 처리)를 수행하여 제1 및 제2 음성 발화에 대응하는 제1 및 제2 텍스트 스니펫을 생성할 수 있다.
블록(706)에서, 시스템은 제1 텍스트 스니펫이 하나 이상의 핫 명령 기준을 충족한다고 결정할 수 있다. 이들 "핫 명령 기준"은 여기에 설명된 "핫 명령 등록 기준"과 유사할 수 있다. 예를 들어, 핫 명령 기준은 말할 때 화자의 시선이 어시스턴트 장치를 향하는지 여부, 다른 사람이 화자와 함께 있는지 여부, 화자가 말하는 동안 컴퓨팅 장치가 아닌 다른 사람을 응시하는지 여부, 사람에 의한 침묵 및/또는 무반응의 사전 결정된 시간 간격이 발화 뒤에 있는지 여부, 자동화된 어시스턴트(120)가 전체 청취(도 2a) 또는 전체 응답(도 2b) 상태에 있는 동안 텍스트 스니펫이 임계 횟수만큼 발화되었는지 여부 등을 포함할 수 있지만 이에 국한되지 않는다.
블록(708)에서, 시스템은 제2 텍스트 스니펫이 하나 이상의 핫 명령 기준을 충족시키는 데 실패했다고 결정할 수 있다. 블록(710)에서, 블록(706)의 결정에 응답하여, 시스템은 제1 텍스트 스니펫에 기초하여 응답 액션을 수행할 수 있다. 블록(712)에서, 블록(708)의 결정에 응답하여, 시스템은 다른 응답 액션을 수행하지 않고 제2 텍스트 스니펫을 폐기하거나(버리거나) 무시할 수 있다.
여기에 설명된 특정 구현이 사용자에 대한 개인 정보(예: 다른 전자 통신에서 추출한 사용자 데이터, 사용자의 소셜 네트워크에 대한 정보, 사용자의 위치, 사용자의 시간, 사용자의 생체 정보, 사용자의 활동 및 인구 통계 정보, 사용자 간의 관계 등)를 수집하거나 사용할 수 있는 상황에서, 사용자에게는 정보 수집 여부, 개인 정보 저장 여부, 개인 정보 사용 여부, 사용자에 대한 정보 수집, 저장 및 사용 방법을 제어할 수 있는 하나 이상의 기회가 제공된다. 즉, 여기에 설명된 시스템 및 방법은 관련 사용자로부터 명시적인 승인을 받은 경우에만 사용자 개인 정보를 수집, 저장 및/또는 사용한다.
예를 들어, 사용자는 프로그램 또는 기능이 해당 특정 사용자 또는 프로그램 또는 기능과 관련된 다른 사용자에 대한 사용자 정보를 수집하는지 여부에 대한 제어를 제공받는다. 개인 정보를 수집해야 하는 각 사용자에게는 해당 사용자와 관련된 정보 수집에 대한 제어를 허용하고, 정보가 수집되는지 여부와 정보의 어느 부분이 수집되어야 하는지에 대한 허가 또는 승인을 제공하는 하나 이상의 옵션이 제공된다. 예를 들어, 사용자는 통신 네트워크를 통해 하나 이상의 이러한 제어 옵션을 제공받을 수 있다. 또한 특정 데이터는 저장 또는 사용되기 전에 하나 이상의 방식으로 처리되어 개인 식별 정보가 제거될 수 있다. 예를 들어, 사용자의 신원은 개인 식별 정보를 확인할 수 없도록 처리될 수 있다. 다른 예로서, 사용자의 지리적 위치는 사용자의 특정 위치가 결정될 수 없도록 더 큰 지역으로 일반화될 수 있다.
도 8은 본 명세서에 설명된 기술의 하나 이상의 양태를 수행하기 위해 선택적으로 사용될 수 있는 예시적인 컴퓨팅 장치(810)의 블록도이다. 일부 구현에서, 클라이언트 컴퓨팅 장치, 사용자 제어(user-controlled) 리소스 엔진(134), 및/또는 다른 컴포넌트(들) 중 하나 이상은 예시적인 컴퓨팅 장치(810)의 하나 이상의 컴포넌트를 포함할 수 있다.
컴퓨팅 장치(810)는 전형적으로 버스 서브시스템(812)을 통해 다수의 주변 장치와 통신하는 적어도 하나의 프로세서(814)를 포함한다. 이러한 주변 장치는, 예를 들어, 메모리 서브시스템(825) 및 파일 저장(스토리지) 서브시스템(826), 사용자 인터페이스 출력 장치(820), 사용자 인터페이스 입력 장치(822) 및 네트워크 인터페이스 서브시스템(네트워크 인터페이스)(816)을 포함하는 저장(스토리지) 서브시스템(824)을 포함할 수 있다. 입력 및 출력 장치는 컴퓨팅 장치(810)와의 사용자 상호작용을 허용한다. 네트워크 인터페이스 서브시스템(816)은 외부 네트워크에 인터페이스를 제공하고 다른 컴퓨팅 장치에서 대응하는 인터페이스 장치에 연결된다.
사용자 인터페이스 입력 장치(822)는 키보드, 마우스, 트랙볼, 터치 패드 또는 그래픽 태블릿과 같은 포인팅 장치, 스캐너, 디스플레이에 통합된 터치스크린, 음성 인식 시스템과 같은 오디오 입력 장치, 마이크로폰 및/또는 다른 유형의 입력 장치를 포함할 수 있다. 일반적으로, "입력 장치"라는 용어의 사용은 모든 가능한 유형의 장치 및 정보를 컴퓨팅 장치(810) 또는 통신 네트워크에 입력하는 방법을 포함하도록 의도된다.
사용자 인터페이스 출력 장치(820)는 디스플레이 서브시스템, 프린터, 팩스기, 또는 오디오 출력 장치와 같은 비 시각적 디스플레이를 포함할 수 있다. 디스플레이 서브시스템은 음극선 관(CRT), 액정 디스플레이(LCD)와 같은 평판 장치, 투영 장치, 또는 가시 이미지를 생성하기 위한 다른 메커니즘을 포함할 수 있다. 디스플레이 서브시스템은 또한 오디오 출력 장치를 통한 것과 같은 비 시각적 디스플레이를 제공할 수 있다. 일반적으로, "출력 장치"라는 용어의 사용은 모든 가능한 유형의 장치 및 컴퓨팅 장치(810)로부터 사용자 또는 다른 기계 또는 컴퓨팅 장치로 정보를 출력하는 방법을 포함하도록 의도된다.
저장(스토리지) 서브시스템(824)은 본 명세서에 설명된 일부 또는 모든 모듈의 기능을 제공하는 프로그래밍 및 데이터 구성을 저장한다. 예를 들어, 저장 서브시스템(824)은 도 1에 도시된 다양한 컴포넌트를 구현하기 위해 뿐만 아니라 도 6-7의 방법의 선택된 양태를 수행하는 로직을 포함할 수 있다.
이들 소프트웨어 모듈은 일반적으로 프로세서(814)에 의해 단독으로 또는 다른 프로세서와의 조합으로 실행된다. 저장 서브시스템(824)에 사용되는 메모리(메모리 서브시스템)(825)는 프로그램 실행 동안 명령 및 데이터의 저장을 위한 메인 랜덤 액세스 메모리(RAM)(830) 및 고정 명령이 저장된 판독 전용 메모리(ROM)(832)를 포함하는 다수의 메모리를 포함할 수 있다. 파일 저장 서브시스템(826)은 프로그램 및 데이터 파일을 위한 영구 저장을 제공할 수 있으며, 하드 디스크 드라이브, 플로피 디스크 드라이브 및 관련 이동식 매체, CD-ROM 드라이브, 광학 드라이브 또는 이동식 매체 카트리지를 포함할 수 있다. 특정 구현의 기능을 구현하는 모듈은 파일 저장 서브시스템(826)에 의해 저장 서브시스템(824) 또는 프로세서(들)(814)에 의해 액세스 가능한 다른 머신에 저장될 수 있다.
버스 서브시스템(812)은 컴퓨팅 장치(810)의 다양한 컴포넌트 및 서브시스템이 의도된대로 서로 통신하도록 하는 메커니즘을 제공한다. 버스 서브시스템(812)이 단일 버스로서 개략적으로 도시되어 있지만, 버스 서브시스템의 대안적인 구현은 다중 버스를 사용할 수 있다.
컴퓨팅 장치(810)는 워크스테이션, 서버, 컴퓨팅 클러스터, 블레이드 서버, 서버 팜, 또는 임의의 다른 데이터 처리 시스템 또는 컴퓨팅 장치를 포함하는 다양한 유형일 수 있다. 컴퓨터 및 네트워크의 끊임없이 변화하는 특성으로 인해, 도 8에 도시된 컴퓨팅 장치(810)의 설명은 일부 구현 예를 설명하기 위한 특정 예로서 만 의도된다. 컴퓨팅 장치(810)의 많은 다른 구성은 도 8에 도시된 컴퓨팅 장치보다 더 많거나 적은 컴포넌트를 가질 수 있다.
여러 구현이 여기에 설명되고 예시되었지만, 기능을 수행하고 및/또는 여기에 설명된 결과 및/또는 하나 이상의 이점을 얻기 위한 다양한 다른 수단 및/또는 구조가 활용될 수 있으며, 각각의 이러한 변형 및/또는 수정은 여기에 설명된 구현의 범위 내에 있는 것으로 간주된다. 보다 일반적으로, 본 명세서에 설명된 모든 파라미터, 치수, 재료 및 구성은 예시적인 것이며 실제 파라미터, 치수, 재료 및/또는 구성은 교시가 사용되는 특정 응용 또는 응용에 의존할 것이라는 것을 의미한다. 당업자는 단지 일상적인 실험을 사용하여 본 명세서에 설명된 특정 구현에 대한 많은 등가물을 인식하거나 확인할 수 있을 것이다. 따라서, 전술한 구현은 단지 예로서 제시된 것이며, 첨부된 청구 범위 및 그 균등물의 범위 내에서 구현이 구체적으로 설명되고 청구된 것과 달리 실행될 수 있다는 것을 이해해야 한다. 본 개시 내용의 구현은 본원에 기재된 각각의 개별적인 특징, 시스템, 물품, 재료, 키트 및/또는 방법에 관한 것이다. 둘 이상의 이러한 특징, 시스템, 물품, 재료, 키트 및/또는 방법의 임의의 조합(이러한 특징, 시스템, 물품, 재료, 키트 및/또는 방법이 서로 일치하지 않는 경우)은 본 개시의 범위 내에 포함된다.

Claims (20)

  1. 하나 이상의 프로세서를 사용하여 구현되는 방법으로서,
    하나 이상의 프로세서를 사용하여 자동화된 어시스턴트를 동작시키는 단계;
    트리거 이벤트에 응답하여 자동화된 어시스턴트를 제한된 청취 상태에서 전체 음성 인식 상태로 전환하는 단계;
    상기 전체 음성 인식 상태에서, 자동화된 어시스턴트가 사용자로부터 음성 명령을 수신하는 단계;
    텍스트 명령을 생성하기 위해 상기 음성 명령에 대해 음성 인식 프로세싱을 수행하는 단계;
    상기 텍스트 명령이 텍스트 명령 코퍼스에서 빈도 임계치를 충족한다고 결정하는 단계; 그리고
    상기 결정에 응답하여, 상기 텍스트 명령을 나타내는 데이터를 핫 명령으로 등록하는 단계를 포함하며,
    상기 등록하는 단계 후에, 상기 텍스트 명령과 의미론적으로 일치하는 다른 텍스트 명령의 발화는 상기 자동화된 어시스턴트의 명시적 호출을 요구하지 않고, 상기 자동화된 어시스턴트에 의한 응답 액션의 수행을 트리거하는 것을 특징으로 하는 하나 이상의 프로세서를 사용하여 구현되는 방법.
  2. 제1항에 있어서, 상기 트리거 이벤트는 마이크로폰에 의해 캡처된 오디오 데이터에서 하나 이상의 디폴트 핫 워드의 검출을 포함하는 것을 특징으로 하는 하나 이상의 프로세서를 사용하여 구현되는 방법.
  3. 제1항에 있어서, 상기 텍스트 명령 코퍼스는 사용자에 의해 생성된 텍스트 명령 코퍼스를 포함하는 것을 특징으로 하는 하나 이상의 프로세서를 사용하여 구현되는 방법.
  4. 제1항에 있어서, 상기 텍스트 명령 코퍼스는 사용자를 포함하는 사용자 집단에 의해 생성된 텍스트 명령 코퍼스를 포함하는 것을 특징으로 하는 하나 이상의 프로세서를 사용하여 구현되는 방법.
  5. 제1항에 있어서, 상기 방법은,
    출력을 생성하기 위해 기계 학습 모델에 걸쳐 입력으로서 텍스트 명령을 적용하는 단계를 더 포함하고, 상기 출력은 텍스트 명령이 자동화된 어시스턴트로 지시되었을 확률을 나타내고, 상기 등록하는 단계는 임계치를 충족하는 확률에 더 응답하는 것을 특징으로 하는 하나 이상의 프로세서를 사용하여 구현되는 방법.
  6. 제1항에 있어서, 상기 방법은,
    하나 이상의 카메라에 의해 캡처된 비전 데이터에 기초하여, 사용자의 시선이 자동화된 어시스턴트가 적어도 부분적으로 구현되는 컴퓨팅 장치를 향하고 있음을 검출하는 단계를 더 포함하고, 상기 등록하는 단계는 상기 검출에 더 응답하는 것을 특징으로 하는 하나 이상의 프로세서를 사용하여 구현되는 방법.
  7. 제1항에 있어서, 상기 등록하는 단계는 음성 명령 후 미리 결정된 시간 간격 동안 추가적인 발화가 검출되지 않는다는 결정에 더 응답하는 것을 특징으로 하는 하나 이상의 프로세서를 사용하여 구현되는 방법.
  8. 제1항에 있어서, 상기 등록하는 단계는 음성 명령 이후에 미리 결정된 시간 간격 동안 사람에 의해 어떠한 응답 액션도 취해지지 않았다는 결정에 더 응답하는 것을 특징으로 하는 하나 이상의 프로세서를 사용하여 구현되는 방법.
  9. 제1항에 있어서, 상기 방법은,
    상기 등록하는 것에 응답하여, 자동화된 어시스턴트를 적어도 부분적으로 구현하는 컴퓨팅 장치의 로컬 메모리에 텍스트 명령 자체 또는 텍스트 명령을 나타내는 데이터를 캐시(cache)하는 단계를 더 포함하는 것을 특징으로 하는 하나 이상의 프로세서를 사용하여 구현되는 방법.
  10. 제9항에 있어서, 상기 방법은,
    상기 텍스트 명령에 응답하는 정보를 캐시하기 위해, 상기 텍스트 명령이 명시적으로 호출되지 않고, 상기 캐시된 데이터를 기초로 상기 등록에 후속하여 상기 텍스트 명령을 트리거하는 단계를 더 포함하고,
    상기 트리거하는 단계 이후, 상기 캐시된 정보는 텍스트 명령이 트리거되는 대신에 상기 텍스트 명령의 후속 호출에 응답하여 출력되는 것을 특징으로 하는 하나 이상의 프로세서를 사용하여 구현되는 방법.
  11. 제9항에 있어서, 상기 캐시하는 단계 이후에,
    텍스트 명령의 호출(invocation)은 텍스트 명령을 나타내는 데이터가 근거리 통신망("LAN") 및 개인 영역 네트워크("PAN") 중 하나 또는 둘 다를 통해 스마트 기기에 직접 전송되게 하고, 상기 텍스트 명령을 나타내는 데이터의 수신은 상기 스마트 기기가 응답 액션을 수행하게 하는 것을 특징으로 하는 하나 이상의 프로세서를 사용하여 구현되는 방법.
  12. 제1항에 있어서, 텍스트 명령을 나타내는 데이터는 사용자로부터 수신된 음성 명령에 제공된 하나 이상의 파라미터와 의미론적으로 일치하는 하나 이상의 후속 파라미터를 수신하도록 하나 이상의 슬롯을 포함하는 템플릿을 포함하는 것을 특징으로 하는 하나 이상의 프로세서를 사용하여 구현되는 방법.
  13. 하나 이상의 프로세서에 의한 명령의 실행에 응답하여 하나 이상의 프로세서로 하여금 자동화된 어시스턴트를 구현하게 하는 명령을 저장하는 메모리 및 하나 이상의 프로세서를 포함하는 시스템으로서, 자동화된 어시스턴트는,
    하나 이상의 마이크로폰에서 캡처된 오디오 데이터를 수신하고 -오디오 데이터는 제1 및 제2 음성 발화를 포함함-;
    오디오 데이터에 대해 음성 인식 프로세싱을 수행하여 제1 및 제2 음성 발화에 대응하는 제1 및 제2 텍스트 스니펫(snippet)을 생성하고;
    제1 텍스트 스니펫이 하나 이상의 핫 명령 기준을 충족한다는 결정에 응답하여, 제1 텍스트 스니펫에 기초하여 응답 액션을 수행하고;
    제2 텍스트 스니펫이 하나 이상의 핫 명령 기준을 충족하지 못한다는 결정에 응답하여, 다른 응답 액션을 수행하지 않고 상기 제2 텍스트 스니펫을 폐기하거나 무시하는 것을 특징으로 하는 시스템.
  14. 제13항에 있어서, 상기 하나 이상의 핫 명령 기준은 핫 명령 라이브러리에서 고려 중인 텍스트 스니펫의 등록을 포함하고, 상기 핫 명령 라이브러리는, 말했을 때, 하나 이상의 디폴트 핫 워드의 검출 또는 자동화된 어시스턴트의 활성 청취 상태로의 전환을 요구하지 않고, 자동화된 어시스턴트에 의한 응답 액션의 수행을 트리거하는 텍스트 스니펫을 포함하는 것을 특징으로 하는 시스템.
  15. 제13항에 있어서, 상기 시스템은,
    하나 이상의 카메라에 의해 캡처된 비전 데이터에 기초하여, 사용자가 제1 음성 발화를 제공하는 동안 사용자의 제1 시선 및 사용자가 제2 음성 발화를 제공하는 동안 사용자의 제2 시선을 검출하기 위한 명령을 포함하는 것을 특징으로 하는 시스템.
  16. 제15항에 있어서, 상기 하나 이상의 핫 명령 기준은 자동화된 어시스턴트가 적어도 부분적으로 구현되는 컴퓨팅 장치를 향한 시선를 포함하는 것을 특징으로 하는 시스템.
  17. 하나 이상의 프로세서에 의한 명령의 실행에 응답하여, 하나 이상의 프로세서로 하여금 동작들을 수행하게 하는 명령을 포함하는 적어도 하나의 비일시적 컴퓨터 판독 가능 매체로서, 상기 동작들은,
    하나 이상의 프로세서를 사용하여 자동화된 어시스턴트를 동작시키는 동작;
    트리거 이벤트에 응답하여 자동화된 어시스턴트를 제한된 청취 상태에서 전체 음성 인식 상태로 전환하는 동작;
    전체 음성 인식 상태에서, 자동화된 어시스턴트가 사용자로부터 음성 명령을 수신하는 동작;
    텍스트 명령을 생성하기 위해 음성 명령에 대해 음성 인식 프로세싱을 수행하는 동작;
    텍스트 명령이 텍스트 명령 코퍼스에서 빈도 임계치를 충족한다고 결정하는 동작; 그리고
    상기 결정에 응답하여, 텍스트 명령을 나타내는 데이터를 핫 명령으로 등록하는 동작을 포함하며, 상기 등록 후에, 텍스트 명령과 의미론적으로 일치하는 다른 텍스트 명령의 발화는 자동화된 어시스턴트의 명시적 호출을 요구하지 않고, 자동화된 어시스턴트에 의한 응답 액션의 수행을 트리거하는 것을 특징으로 하는 비일시적 컴퓨터 판독 가능 매체.
  18. 제17항에 있어서, 상기 트리거 이벤트는 마이크로폰에 의해 캡처된 오디오 데이터에서 하나 이상의 디폴트 핫워드의 검출을 포함하는 것을 특징으로 하는 비일시적 컴퓨터 판독 가능 매체.
  19. 제17항에 있어서, 상기 텍스트 명령 코퍼스는 사용자에 의해 생성된 텍스트 명령 코퍼스를 포함하는 것을 특징으로 하는 비일시적 컴퓨터 판독 가능 매체.
  20. 제17항에 있어서, 상기 텍스트 명령 코퍼스는 사용자를 포함하는 사용자 집단에 의해 생성된 텍스트 명령 코퍼스를 포함하는 것을 특징으로 하는 비일시적 컴퓨터 판독 가능 매체.
KR1020227001309A 2019-10-15 2019-12-11 자동화된 어시스턴트에 의한 응답 액션을 트리거하기 위한 핫 명령의 검출 및/또는 등록 KR20220024557A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962915248P 2019-10-15 2019-10-15
US62/915,248 2019-10-15
PCT/US2019/065656 WO2021076164A1 (en) 2019-10-15 2019-12-11 Detection and/or enrollment of hot commands to trigger responsive action by automated assistant

Publications (1)

Publication Number Publication Date
KR20220024557A true KR20220024557A (ko) 2022-03-03

Family

ID=69106202

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020227001309A KR20220024557A (ko) 2019-10-15 2019-12-11 자동화된 어시스턴트에 의한 응답 액션을 트리거하기 위한 핫 명령의 검출 및/또는 등록

Country Status (6)

Country Link
US (1) US11948556B2 (ko)
EP (1) EP3970139A1 (ko)
JP (2) JP7354301B2 (ko)
KR (1) KR20220024557A (ko)
CN (1) CN114207710A (ko)
WO (1) WO2021076164A1 (ko)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
BR112015018905B1 (pt) 2013-02-07 2022-02-22 Apple Inc Método de operação de recurso de ativação por voz, mídia de armazenamento legível por computador e dispositivo eletrônico
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) * 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
WO2021080033A1 (ko) * 2019-10-23 2021-04-29 엘지전자 주식회사 음성 분석 방법 및 장치
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11783805B1 (en) * 2020-09-21 2023-10-10 Amazon Technologies, Inc. Voice user interface notification ordering
US20230035941A1 (en) * 2021-07-15 2023-02-02 Apple Inc. Speech interpretation based on environmental context
US20230230587A1 (en) * 2022-01-19 2023-07-20 Google Llc Dynamic adaptation of parameter set used in hot word free adaptation of automated assistant
DE102022112444A1 (de) * 2022-05-18 2023-11-23 Bayerische Motoren Werke Aktiengesellschaft Spracherkennungssystem
WO2024035424A1 (en) * 2022-08-08 2024-02-15 Google Llc Dynamically determining whether to perform candidate automated assistant action determined from spoken utterance
KR102486120B1 (ko) 2022-10-13 2023-01-09 (주)액션파워 음성 신호와 연관된 컨텐츠를 결정하는 방법

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002082748A (ja) 2000-09-06 2002-03-22 Sanyo Electric Co Ltd ユーザ支援装置
JP4144443B2 (ja) 2003-06-19 2008-09-03 富士通株式会社 対話装置
JP2008145989A (ja) 2006-12-13 2008-06-26 Fujitsu Ten Ltd 音声識別装置および音声識別方法
JP2011003066A (ja) 2009-06-19 2011-01-06 Ntt Docomo Inc 情報取得装置、情報取得プログラム
KR101605347B1 (ko) 2009-12-18 2016-03-22 삼성전자주식회사 휴대단말의 외부 출력 제어 방법 및 장치
US9536528B2 (en) 2012-07-03 2017-01-03 Google Inc. Determining hotword suitability
KR101330671B1 (ko) 2012-09-28 2013-11-15 삼성전자주식회사 전자장치, 서버 및 그 제어방법
US9275637B1 (en) 2012-11-06 2016-03-01 Amazon Technologies, Inc. Wake word evaluation
US9378733B1 (en) * 2012-12-19 2016-06-28 Google Inc. Keyword detection without decoding
US9361885B2 (en) 2013-03-12 2016-06-07 Nuance Communications, Inc. Methods and apparatus for detecting a voice command
US9548047B2 (en) 2013-07-31 2017-01-17 Google Technology Holdings LLC Method and apparatus for evaluating trigger phrase enrollment
CN104700832B (zh) * 2013-12-09 2018-05-25 联发科技股份有限公司 语音关键字检测系统及方法
US20150112690A1 (en) * 2013-10-22 2015-04-23 Nvidia Corporation Low power always-on voice trigger architecture
US10048748B2 (en) 2013-11-12 2018-08-14 Excalibur Ip, Llc Audio-visual interaction with user devices
US9373321B2 (en) 2013-12-02 2016-06-21 Cypress Semiconductor Corporation Generation of wake-up words
US8719039B1 (en) * 2013-12-05 2014-05-06 Google Inc. Promoting voice actions to hotwords
US9792901B1 (en) * 2014-12-11 2017-10-17 Amazon Technologies, Inc. Multiple-source speech dialog input
US10867606B2 (en) * 2015-12-08 2020-12-15 Chian Chiu Li Systems and methods for performing task using simple code
JP6447578B2 (ja) 2016-05-27 2019-01-09 トヨタ自動車株式会社 音声対話装置および音声対話方法
US9691384B1 (en) 2016-08-19 2017-06-27 Google Inc. Voice action biasing system
US10276161B2 (en) 2016-12-27 2019-04-30 Google Llc Contextual hotwords
JP6994292B2 (ja) 2017-05-08 2022-01-14 達闥机器人有限公司 ロボットのウェイクアップ方法、装置及びロボット
US10580098B2 (en) 2017-05-29 2020-03-03 Virtual OnQ Systems, LLC Voice activated hotel room monitor
US10515637B1 (en) * 2017-09-19 2019-12-24 Amazon Technologies, Inc. Dynamic speech processing
US10832668B1 (en) * 2017-09-19 2020-11-10 Amazon Technologies, Inc. Dynamic speech processing
US11755652B2 (en) 2017-11-24 2023-09-12 Ntt Docomo, Inc. Information-processing device and information-processing method
US10510340B1 (en) * 2017-12-05 2019-12-17 Amazon Technologies, Inc. Dynamic wakeword detection
US10679615B2 (en) * 2018-04-16 2020-06-09 Google Llc Adaptive interface in a voice-based networked system
EP3723082B1 (en) * 2018-04-16 2023-09-06 Google LLC Automatically determining language for speech recognition of spoken utterance received via an automated assistant interface
CN112272846A (zh) * 2018-08-21 2021-01-26 谷歌有限责任公司 用于调用自动助理的动态的和/或特定于场境的热词
EP3631793B1 (en) * 2018-08-21 2022-03-30 Google LLC Dynamic and/or context-specific hot words to invoke automated assistant
US20220068297A1 (en) * 2018-12-18 2022-03-03 Knowles Electronics, Llc Audio level estimator assisted false awake abatement systems and methods
US20200202843A1 (en) * 2018-12-21 2020-06-25 Knowles Electronics, Llc Unwanted keyword detection abatement systems and methods
US11521599B1 (en) * 2019-09-20 2022-12-06 Amazon Technologies, Inc. Wakeword detection using a neural network
US11289086B2 (en) * 2019-11-01 2022-03-29 Microsoft Technology Licensing, Llc Selective response rendering for virtual assistants
US11694682B1 (en) * 2019-12-11 2023-07-04 Amazon Technologies, Inc. Triggering voice control disambiguation
WO2022100283A1 (zh) * 2020-11-13 2022-05-19 海信视像科技股份有限公司 显示设备、控件触发方法及滚动文本检测方法

Also Published As

Publication number Publication date
JP2022539675A (ja) 2022-09-13
US11948556B2 (en) 2024-04-02
EP3970139A1 (en) 2022-03-23
CN114207710A (zh) 2022-03-18
US20210335342A1 (en) 2021-10-28
JP2023169309A (ja) 2023-11-29
WO2021076164A1 (en) 2021-04-22
JP7354301B2 (ja) 2023-10-02

Similar Documents

Publication Publication Date Title
US11948556B2 (en) Detection and/or enrollment of hot commands to trigger responsive action by automated assistant
JP7341171B2 (ja) 自動化アシスタントを呼び出すための動的および/またはコンテキスト固有のホットワード
JP7418526B2 (ja) 自動アシスタントを起動させるための動的および/またはコンテキスト固有のホットワード
KR101726945B1 (ko) 수동 시작/종료 포인팅 및 트리거 구문들에 대한 필요성의 저감
EP3895161B1 (en) Utilizing pre-event and post-event input streams to engage an automated assistant
US20200342881A1 (en) Selective enrollment with an automated assistant
JP2020532757A (ja) 複数のコンピューティングデバイスを使用したインターホン式の通信
KR20230147157A (ko) 어시스턴트 명령(들)의 컨텍스트적 억제