KR20210003277A - 자동화된 어시스턴트 기능(들)의 핫-워드 프리 적응 - Google Patents

자동화된 어시스턴트 기능(들)의 핫-워드 프리 적응 Download PDF

Info

Publication number
KR20210003277A
KR20210003277A KR1020207034909A KR20207034909A KR20210003277A KR 20210003277 A KR20210003277 A KR 20210003277A KR 1020207034909 A KR1020207034909 A KR 1020207034909A KR 20207034909 A KR20207034909 A KR 20207034909A KR 20210003277 A KR20210003277 A KR 20210003277A
Authority
KR
South Korea
Prior art keywords
user
client device
audio data
determining
automated assistant
Prior art date
Application number
KR1020207034909A
Other languages
English (en)
Other versions
KR102512446B1 (ko
Inventor
재클린 콘젤만
케네쓰 믹스터
사우어리쉬 차우드후리
투안 응우엔
히데아키 마추이
캐롤라인 팬토파루
비나이 베타다푸라
Original Assignee
구글 엘엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from PCT/US2018/031170 external-priority patent/WO2019212569A1/en
Priority claimed from PCT/US2018/031164 external-priority patent/WO2019212567A1/en
Application filed by 구글 엘엘씨 filed Critical 구글 엘엘씨
Priority to KR1020237009211A priority Critical patent/KR20230042760A/ko
Publication of KR20210003277A publication Critical patent/KR20210003277A/ko
Application granted granted Critical
Publication of KR102512446B1 publication Critical patent/KR102512446B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06K9/00302
    • G06K9/00335
    • G06K9/036
    • G06K9/2081
    • G06K9/6267
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • G06V10/235Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on user input or interaction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/98Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
    • G06V10/993Evaluation of the quality of the acquired pattern
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Acoustics & Sound (AREA)
  • Ophthalmology & Optometry (AREA)
  • Signal Processing (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Quality & Reliability (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

자동화된 어시스턴트의 하나 이상의 기능(들)의 핫-워드 프리 적응이 설명된다. (그래픽적인 그리고/또는 청취가능한) 자동화된 어시스턴트 인터페이스를 제공하는 어시스턴트 디바이스의 하나 이상의 센서 컴포넌트들로부터의 센서 데이터가, 어시스턴트 디바이스에 근접한 사용자의 다양한 속성들의 발생 및/또는 신뢰도 메트릭(들)을 결정하기 위해 프로세싱된다. 자동화된 어시스턴트의 기능(들) 중 하나 이상의 기능들 각각을 적응시킬지 여부가, 다양한 속성들 중 하나 이상의 속성의 발생 및/또는 신뢰도에 근거한다. 예를 들어, 센서 데이터의 적어도 일부의 특정 프로세싱이 개시될 수 있는데, 예컨대, 센서 데이터의 적어도 일부의 이전에 휴면상태인 로컬 프로세싱을 개시하는 것, 그리고/또는 오디오 데이터의 적어도 일부를 원격 자동화된 어시스턴트 컴포넌트(들)로 전송하는 것을 개시하는 것이 행해질 수 있다.

Description

자동화된 어시스턴트 기능(들)의 핫-워드 프리 적응
인간들은 본 명세서에서 "자동화된 어시스턴트(automated assistant)들"로서 지칭되는 상호작용형 소프트웨어 애플리케이션(interactive software application)들을 이용해 인간-대-컴퓨터 대화(human-to-computer dialog)들에 참여할 수 있다(이러한 상호작용형 소프트웨어 애플리케이션들은 또한, "디지털 에이전트(digital agent)들", "상호작용형 개인 어시스턴트(interactive personal assistant)들", "지능형 개인 어시스턴트(intelligent personal assistant)들", "어시스턴트 애플리케이션(assistant application)들", "대화형 에이전트(conversational agent)들", 등으로서 지칭됨). 예를 들어, 인간들(이들이 자동화된 어시스턴트들과 상호작용할 때는 "사용자들"로서 지칭됨)은 발성된 자연 언어 입력(즉, 발언)을 사용하여(이것은 일부 경우들에서 텍스트(text)로 변환될 수 있고, 그 다음에 프로세싱될 수 있음), 그리고/또는 텍스트형(예컨대, 타이핑된(typed)) 자연 언어 입력을 제공함으로써, 커맨드(command)들 및/또는 요청들을 자동화된 어시스턴트에 제공할 수 있다. 자동화된 어시스턴트는 청취가능한 그리고/또는 시각적인 사용자 인터페이스 출력을 포함할 수 있는 응답형 사용자 인터페이스 출력을 제공함으로써 요청에 응답한다.
앞에서 논의된 바와 같이, 다수의 자동화된 어시스턴트들은 발성된 발언들을 통해 상호작용이 이루어지도록 구성된다. 사용자 프라이버시(user privacy)를 보전(preserve)하기 위해 그리고/또는 리소스(resource)들을 보존(conserve)하기 위해, 사용자는 종종, 자동화된 어시스턴트가 발성된 발언을 완전히 프로세싱하기 전에, 자동화된 어시스턴트를 명시적으로 호출(invoke)해야만 한다. 자동화된 어시스턴트의 명시적 호출은 전형적으로, 클라이언트 디바이스에서 수신되고 있는 특정 사용자 인터페이스 입력에 응답하여, 일어난다. 클라이언트 디바이스는 어시스턴트 인터페이스(assistant interface)를 포함하는데, 이러한 어시스턴트 인터페이스는, 자동화된 어시스턴트와 인터페이싱하기 위한 인터페이스를 클라이언트 디바이스의 사용자에게 제공하고(예를 들어, 사용자로부터 입력을 수신하고, 그리고 청취가능한 그리고/또는 그래픽적인 응답들을 제공하고), 그리고 자동화된 어시스턴트를 구현하는 하나 이상의 추가적인 컴포넌트들(예를 들어, 사용자 입력들을 프로세싱하고 적절한 응답들을 발생시키는 온-디바이스 컴포넌트(on-device component)(들) 및/또는 원격 서버 디바이스(remote server device)(들))과 인터페이싱한다.
클라이언트 디바이스를 통해 자동화된 어시스턴트를 호출할 수 있는 일부 사용자 인터페이스 입력들은, 자동화된 어시스턴트를 호출하기 위한 클라이언트 디바이스에서의 하드웨어 및/또는 가상 버튼을 포함한다(예를 들어, 하드웨어 버튼의 탭(tap), 클라이언트 디바이스에 의해 디스플레이되는 그래픽 인터페이스 요소의 선택). 다수의 자동화된 어시스턴트들은 추가적으로 혹은 대안적으로, 하나 이상의 특별한 발성된 호출 어구들(이것은 또한, 핫 워드들/어구들(hot words/phrases)" 또는 "트리거 워드들/어구들(trigger words/phrases)"로서 알려져 있음)에 응답하여 호출될 수 있다. 예를 들어, "헤이 어시스턴트(Hey Assistant)", "오케이 어시스턴트(OK Assistant)", 및/또는 "어시스턴트(Assistant)"와 같은 특별한 발성된 호출 어구가, 자동화된 어시스턴트를 호출하기 위해 발성될 수 있다.
자동화된 어시스턴트들(이것은 또한, 본 명세서에서 "어시스턴트 디바이스들"로서 지칭됨)과의 상호작용을 용이하게 하는 다수의 클라이언트 디바이스들은 사용자들이 자동화된 어시스턴트들과의 터치-프리 상호작용(touch-free interaction)에 참여할 수 있게 한다. 예를 들어, 어시스턴트 디바이스들은 종종 마이크로폰(microphone)들을 포함하는데, 이러한 마이크로폰들은 사용자들이 자동화된 어시스턴트를 호출하기 위해 그리고/또는 그렇지 않으면 자동화된 어시스턴트와 상호작용하기 위해 목소리 발언들을 제공할 수 있게 한다. 본 명세서에서 설명되는 어시스턴트 디바이스들은 추가적으로 또는 대안적으로, 자동화된 어시스턴트와의 터치-프리 상호작용들을 용이하게 하기 위해, 하나 이상의 비전 컴포넌트(vision component)들(예를 들어, 카메라(camera)(들), 광 검출 및 범위측정(LIght Detection And Ranging, LIDAR) 컴포넌트(들), 레이다(radar) 컴포넌트(들), 등)을 포함할 수 있고, 그리고/또는 이들과 통신할 수 있다.
본 명세서에서 개시되는 구현예들은 자동화된 어시스턴트의 하나 이상의 기능(function)(들)의 핫-워드 프리 적응(hot-word free adaptation)에 관한 것이다. 이러한 구현예들은, (그래픽적인 그리고/또는 청취가능한) 자동화된 어시스턴트 인터페이스를 제공하는 어시스턴트 디바이스의 하나 이상의 센서 컴포넌트들로부터의 센서 데이터를, 어시스턴트 디바이스에 근접한 사용자의 다양한 속성(attribute)들의 발생 및/또는 신뢰도 메트릭(confidence metric)(들)을 결정하기 위해 프로세싱한다. 이러한 구현예들은 또한, 다양한 속성들 중 하나 이상의 속성의 발생 및/또는 신뢰도에 근거하여, 기능(들) 중 하나 이상의 기능들 각각을 적응시킬지 여부를 결정한다. 예를 들어, 이러한 구현예들은, 센서 데이터의 적어도 일부의 특정 프로세싱을 개시할 것을 결정할 수 있는데, 예컨대, 센서 데이터의 적어도 일부의 이전에 휴면상태인 로컬 프로세싱(previously dormant local processing)을 개시하는 것, 그리고/또는 오디오 데이터(audio data)(및/또는 오디오 데이터에 근거하여 로컬로(locally) 인식된 텍스트)의 적어도 일부를 원격 자동화된 어시스턴트 컴포넌트(들)로 전송하는 것을 개시하는 것과 같은 것을 행할 것을 결정할 수 있다. 구현예들은 추가적으로 혹은 대안적으로, 적어도 일부 센서 데이터를 프로세싱하는 것을 중단(stop)할 것을 결정할 수 있는데, 예를 들어, 적어도 일부 센서 데이터의 로컬 프로세싱을 중단함으로써 그리고/또는 적어도 일부 데이터를 원격 자동화된 어시스턴트 컴포넌트(들)로 전송하는 것을 중단함으로써, 그렇게 할 수 있다(데이터의 이러한 프로세싱 및/또는 전송이 이미 부분적으로 혹은 완전히 시작된 이후). 데이터를 프로세싱하는 것 및/또는 전송하는 것을 중단할 것을 결정하는 것은 다양한 속성들 중 하나 이상의 속성의 결정된 신뢰도에서의 시간적 발전(temporal development) 이후에 일어날 수 있다. 예를 들어, 자동화된 어시스턴트의 하나 이상의 기능들을 적응시키는 것이, 하나 이상의 제 1 속성들과 관련된 초기 센서 데이터로부터 결정될 수 있다. 하지만, 하나 이상의 추가 속성들과 관련된 센서 데이터와 같은 추가 센서 데이터가 이용가능하게 됨에 따라, 어시스턴트의 하나 이상의 기능들을 적응시키는 것을 멈출 것이 결정될 수 있다. 이것은 어시스턴트 디바이스에서 컴퓨팅연산 리소스(computational resource)들의 사용을 감소시킬 수 있고, 뿐만 아니라 어시스턴트 디바이스와 원격에 위치한 컴퓨팅 컴포넌트들 간의 데이터 전송 네트워크의 사용을 감소시킬 수 있다(적어도 일부 데이터를 프로세싱하는 것 및/또는 전송하는 것을 시작할지 여부의 초기 긍정적 결정이 후속적으로 신뢰도가 시간 경과에 따라 발전함에 따라 올바르지 않았다고 결정된 경우).
이용되는 다양한 속성들은, 예를 들어, (1) 어시스턴트 디바이스에 지향된 사용자의 응시(gaze)(이것은 또한 본 명세서에서 "지향된 응시(directed gaze)"로서 지칭됨); (2) 어시스턴트 디바이스에 대한 사용자의 거리; (3) 사용자의 입(mouth)의 움직임(이것은 또한 본 명세서에서 "입 움직임(mouth movement)"으로서 지칭됨); (4) 목소리 활동(voice activity); (5) 목소리 활동과 사용자의 입 움직임의 동시-발생(co-occurrence); (6) 얼굴 인식(facial recognition); (7) 발성자 인식(speaker recognition); (8) 존재 인식(presence recognition); (9) 어시스턴트 디바이스에 대한 사용자의 신체의 자세(pose)(예를 들어, 사용자의 신체의 자세가 어시스턴트 디바이스를 향해 지향되어 있는가); 그리고/또는 (10) 사용자의 터치-프리 제스처(touch-free gesture) 중 하나 이상을 포함할 수 있다(예컨대, 모두 포함할 수 있음). 예를 들어, 특정 프로세싱의 개시는, 사용자의 응시가 어시스턴트 디바이스에 지향되어 있다는 어시스턴트 디바이스에서의 로컬 결정에 대한 응답일 수 있고, 선택에 따라서는 또한, 어시스턴트 디바이스에 대한 사용자의 거리, 검출된 목소리 활동, 사용자의 입의 검출된 움직임(선택에 따라서는 목소리 활동과의 동시-발생), 그리고/또는 다른 검출된 속성(들) 중 하나 이상에 근거할 수 있고 그리고 선택에 따라서는 대응하는 신뢰도(들)에 근거할 수 있다. 이러한 속성들 각각 그리고 선택에 따라서는 관련된 신뢰도 메트릭(metric)(들)을 결정하는 것, 뿐만 아니라 하나 이상의 어시스턴트 기능(들)을 적응시킬지 여부를 결정함에 있어 속성(들) 및 신뢰도 메트릭(들)을 이용하는 것의 추가적인 설명이 본 명세서에서 제공된다.
일반적으로, 사용자가 어시스턴트 디바이스를 통해 자동화된 어시스턴트와 상호작용하려고 의도하고 있는지 여부를 결정함에 있어 다양한 속성들이 이용된다. 예를 들어, 어시스턴트 디바이스의 마이크로폰(들)을 통해 검출된 사용자의 발성된 입력을 통해서 그리고/또는 어시스턴트 디바이스의 비전 컴포넌트(들)를 통해 검출된 사용자의 터치-프리 제스처 입력을 통해서, 사용자가 상호작용하려고 의도하고 있는지 여부가 결정된다. 일어나는 적응(adaptation)(들)은 이러한 상호작용을 용이하게 하는 하나 이상의 적응들을 포함할 수 있는데, 예컨대, 센서 데이터의 특정 로컬 및/또는 원격 프로세싱을 개시하는 것, 상호작용을 용이하게 하기 위해 특정 센서 데이터를 전송하는 것, 그리고/또는 상호작용에 관한 피드백을 사용자에게 제공하기 위해 인간 인지가능 신호(human perceptible cue)(들)를 제공하는 것과 같은 적응들을 포함할 수 있다. 본 명세서에서 개시되는 기법들을 이용함으로써 자동화된 어시스턴트와 사용자의 상호작용은 사용자가 핫-워드의 발언으로 이러한 상호작용을 시작(preface)할 필요없이 개시될 수 있고 그리고/또는 인도(guide)될 수 있다. 이것은 사용자에 의해 제공될 사용자 입력이 감소될 수 있게 하고(적어도 핫-워드의 생략으로 인해), 이는 상호작용의 지속시간(duration)을 직접적으로 감소시키며, 그럼으로써 연장된 상호작용에서 이용되었을 다양한 네트워크 리소스들 그리고/또는 원격 및/또는 로컬 프로세싱 리소스들을 보존한다. 더욱이, 핫-워드들은 종종 발성하기에는 어색한 자연스럽지 않은 규정된 어구들이다. 이러한 어색함은 사용자-어시스턴트 상호작용에 마찰을 부가할 수 있고 그리고/또는 상호작용을 더 연장시킬 수 있다.
앞에서 언급된 바와 같이, 일부 구현예들에서, 다양한 속성들 중 하나 이상의 속성의 발생 및/또는 신뢰도 메트릭(들)에 근거하여 일어나는 적응(들)은, 특정 센서 데이터(예를 들어, 오디오 데이터, 비디오, 이미지(들), 등)의 특정 프로세싱의 개시를 포함할 수 있다(여기서 특정 프로세싱은 이전에는 수행되고 있지 않던 것임(즉, 이전에는 휴면상태에 있었음)). 예를 들어, 다양한 속성들 중 하나 이상의 속성의 발생 및/또는 신뢰 이전에, 자동화된 어시스턴트는 오디오 데이터, 비디오/이미지 데이터 등과 같은 특정 센서 데이터의 오로지 제한된 프로세싱만을 수행할 수 있다(또는 전혀 프로세싱을 수행하지 않을 수 있음).
예를 들어, 적응 전에, 자동화된 어시스턴트는 선택에 따라서는 오디오 데이터를 로컬로 최소로 프로세싱할 수 있고(예를 들어, 목소리 활동의 발생에 대해 모니터링(monitoring)함에 있어, 그리고/또는 명시적 호출 어구의 발생에 대해 모니터링함에 있어), 그리고/또는 오디오 데이터를 로컬로 임시로 버퍼링(buffering)할 수 있다. 적응 전에, 자동화된 어시스턴트는, 이러한 로컬 프로세싱 및/또는 임시 버퍼링 이후에, 자동화된 어시스턴트의 하나 이상의 추가적인 컴포넌트들에 의해 오디오 데이터가 프로세싱되게 함이 없이, 오디오 데이터를 "폐기(discard)"할 것이다. 이러한 추가적인 컴포넌트들은 예를 들어, 로컬 및/또는 원격 음성-대-텍스트(speech-to-text) 프로세서들을 포함할 수 있고, 로컬 및/또는 원격 자연 언어 이해 컴포넌트(들)를 포함할 수 있고, 오디오 데이터 내에 포함된 발성된 발언이 자동화된 어시스턴트에 대해 의도된 것인지를 검증하는(이것은 또한 본 명세서에서 "시맨틱 필터링(semantic filtering)"으로서 지칭됨), 그리고/또는 얼굴 인식에 근거하여 시각적으로 식별된 발성자와 매칭되는 것과 같은 특정 발성자로부터 나온 것인지를 검증하는(이것은 또한 본 명세서에서 "텍스트-독립적 발성자 식별/인식(text-independent speaker identification/recognition)"으로서 지칭됨) 로컬 및/또는 원격 컴포넌트(들)를 포함할 수 있다. 하지만, 다양한 속성들 중 하나 이상의 속성의 발생 및/또는 신뢰도를 결정함에 응답하여, 적응은 오디오 데이터가 추가적인 컴포넌트(들) 중 하나 이상의 컴포넌트에 의해 프로세싱되도록 하는 것을 포함할 수 있다. 이러한 방식들 및 다른 방식들에서, 특정 조건(condition)들의 발생을 결정함에 응답하여서만 오디오 데이터를 전송하고 그리고/또는 오디오 데이터의 특정 프로세싱을 수행함으로써 프로세싱 및/또는 네트워크 리소스들은 감소될 수 있다.
또한, 예를 들어, 적응 전에, 자동화된 어시스턴트는 선택에 따라서는, 오로지 특정 목적을 위해서만, 예컨대, 지향된 응시의 발생, 목소리 활동과 입 움직임의 동시-발생, 얼굴 인식, 및/또는 대응하는 신뢰도 메트릭(들)을 결정하는 것과 같은 목적을 위해서만 비전 데이터를 로컬로 프로세싱할 수 있다. 이러한 적응 전에, 자동화된 어시스턴트는 비전 데이터의 특정 프로세싱을 삼가할 수 있는 데, 예컨대, 임의의 비전 데이터를 원격 자동화된 어시스턴트 컴포넌트(들)로 전송하는 것을 삼가할 수 있고, 그리고/또는 이러한 비전 데이터에서 캡처(capture)된 사용자의 임의의 제스처(들)에 대한 반응(들)을 발생시키는 것을 삼가할 수 있다. 하지만, 다양한 속성들 중 하나 이상의 속성의 발생 및/또는 신뢰도를 결정함에 응답하여, 비전 데이터의 이러한 추가 프로세싱이 일어날 수 있다. 이러한 방식들 및 다른 방식들에서, 특정 조건들의 발생에 응답하여서만 비전 데이터를 전송하고 그리고/또는 비전 데이터의 특정 프로세싱을 수행함으로써 프로세싱 및/또는 네트워크 리소스들은 감소될 수 있다.
더욱이, 다수의 구현예들에서, 속성(들)의 발생 및/또는 신뢰도 메트릭(들)을 결정하는 것은, 어시스턴트 디바이스의 비전 컴포넌트(들)(예컨대, 카메라(들)), 어시스턴트 디바이스의 마이크로폰(들), 그리고/또는 어시스턴트 디바이스의 다른 센서 컴포넌트(들)로부터의 센서 데이터에 근거하여 어시스턴트 디바이스에서 수행된다. 추가적으로, 이러한 구현예(들) 중 일부에서, 어시스턴트 디바이스는 발생 및/또는 신뢰도 메트릭(들) 결정들에 근거하여 자동화된 어시스턴트 기능(들)을 적응시킬지 여부를 로컬로 결정한다. 따라서, 이러한 구현예들에서, 자동화된 어시스턴트 기능들을 적응시킬지 여부를 결정하는 것은, 어시스턴트 디바이스로부터의 임의의 센서 데이터 및/또는 어시스턴트 디바이스로부터의 다른 데이터가 네트워크(들)를 통해 하나 이상의 원격 자동화된 어시스턴트 컴포넌트(들)로 전송됨이 없이, 어시스턴트 디바이스에서 로컬로 일어날 수 있다. 오히려, 이러한 전송(들)은 선택에 따라서는 적응되는 자동화된 어시스턴트 기능(들) 중 하나일 수 있고, 그리고 이러한 기능(들)을 적응시키도록 하는 로컬 결정에 응답하여서만 일어날 수 있다. 특정 조건들이 충족되지 않는다면 센서 데이터 및/또는 다른 로컬 어시스턴트 디바이스 데이터의 전송을 막음으로써 센서 데이터 및/또는 다른 로컬 어시스턴트 디바이스 데이터의 보안을 유지하는 것에 추가하여, 이러한 구현예들은 또한 이러한 로컬 결정들을 통해, 네트워크 리소스들 및 원격 디바이스들의 리소스들을 보존한다. 더욱이, 이러한 구현예들은 클라이언트-서버 전송들로 인해 존재하였을 부가되는 레이턴시(latency) 없이 빠르게 결정들이 행해질 수 있게 한다. 이러한 감소된 레이턴시는 마찬가지로 사용자-어시스턴트 상호작용의 전체 지속시간을 감소시킬 수 있다.
더 일반적으로, 본 명세서에서 설명되는 다양한 구현예들은 자동화된 어시스턴트들을 구현하기 위해 사용되는 컴퓨팅 리소스들 및 통신 네트워크들에서 효율성(efficiencies)을 제공할 수 있다. 예를 들어, 본 명세서에서의 설명으로부터 명백해지는 바와 같이, 구현예들의 실시형태들은 데이터 네트워크를 통한 통신의 더 선택적인 개시를 생성할 수 있고 아울러 네트워크를 통한 데이터 트래픽(data traffic)에서의 대응하는 감소들을 생성할 수 있다. 예를 들어, 어시스턴트 디바이스로부터 네트워크 통신의 더 선택적인 개시는 또한, 원격 시스템과의 통신이 개시되는 경우 그 원격 시스템에서의 컴퓨팅 리소스들의 더 효율적인 사용으로 이어질 수 있는데, 왜냐하면 어시스턴트 디바이스로부터의 다양한 잠재적 통신들이 원격 시스템과의 임의의 콘택(contact)이 개시되기 전에 필터링되기 때문이다. 마찬가지로, 네트워크를 통한 데이터 트래픽에서의 감소들 그리고/또는 어시스턴트 디바이스 및/또는 원격 시스템에서의 컴퓨팅 리소스들의 더 효율적인 사용은, 어시스턴트 디바이스에서 적어도 일부 데이터를 프로세싱하는 것을 중단하도록 하는 그리고/또는 네트워크를 통해 적어도 데이터를 전송하는 것을 중단하도록 하는 어시스턴트 디바이스에서의 결정의 결과로서 달성될 수 있다. 앞에서 논의된 바와 같이, 이러한 결정은 어시스턴트 디바이스에서 더 많은 센서 데이터가 수신되고 프로세싱됨에 따라 하나 이상의 속성들과 관련된 신뢰도를 발전시키는 것에 근거하여 행해질 수 있다. 원격 시스템들 상에서의 컴퓨팅 리소스들 및 데이터 네트워크들의 사용에 있어서의 효율성 향상들은, 네트워크 내에서 송신기들 및 수신기들에 의한 전력 사용(power usage)의 측면에서 큰 절약들로 이어질 수 있고, 뿐만 아니라 원격 시스템에서 메모리 동작들 및 프로세싱 사용의 측면에서 큰 절약들로 이어질 수 있다. 아래에서 설명되는 바와 같이, 대응하는 효과들이 또한 어시스턴트 디바이스에서 경험될 수 있다. 이러한 효과들, 특히 시간 경과에 따른 그리고 자동화된 어시스턴트의 동작이 계속됨에 따른 이러한 효과들은, 어시스턴트를 실행하는 디바이스들 및 시스템들을 포함하는 전체적으로 네트워크에서 그리고 컴퓨팅 장치에서 커다란 추가적인 용량(capacity)이 경험될 수 있게 한다. 이러한 추가적인 용량은, 예를 들어, 추가적인 혹은 업데이트된 기반시설(infrastructure)를 통한, 그리고 컴퓨팅 장치에서의 추가적인 컴퓨팅 동작들을 통한 네트워크 능력(network capability)을 확장시킬 필요 없이, 어시스턴트가 관련되든 그렇지 않든 상관 없이, 데이터 네트워크에서 추가적인 통신을 위해 사용될 수 있다. 다른 기술적 향상들이 본 명세서에서의 설명으로부터 명백하게 될 것이다.
일부 구현예들에서, 일어나는 자동화된 어시스턴트의 적응(들)은 사용자 인터페이스 출력의 렌더링(rendering)의 적응(들)을 포함할 수 있다. 이러한 구현예들 중 일부에서, 어시스턴트 디바이스에 의한 사용자 인터페이스 출력의 렌더링의 적응(들)은 하나 이상의 인간 인지가능 신호들의 렌더링을 포함할 수 있다. 인간 인지가능 신호(들) 중 하나 이상의 신호의 렌더링은, 선택에 따라서는 자동화된 어시스턴트를 더 적응시키기 전에 제공될 수 있고, 그리고 추가 적응이 이제 곧 일어날 것임을 (직접적으로 혹은 간접적으로) 표시할 수 있다. 인간 인지가능 신호들의 이러한 제공은 어시스턴트와의 사용자의 상호작용의 상태를 사용자에게 알려줄 수 있다. 이것은, 만약 의도된 경우라면 자동화된 어시스턴트가 사용자로부터의 발성된 발언들 및/또는 터치-프리 제스처들을 프로세싱하고 있음을 보장하기 위해 사용자가 자동화된 어시스턴트의 상태를 확인(ascertain)할 수 있게 하고, 그리고 또한 만약 사용자가 이러한 프로세싱을 의도하지 않는 경우라면 사용자가 자신의 응시를 재지향(redirect)시킬 수 있게 하고 그리고/또는 명시적 중지 입력(halting input)을 제공할 수 있게 한다. 만약 사용자가 자신의 응시를 재지향시키거나 또는 명시적 중지 입력을 제공한 경우라면, 어시스턴트 기능(들)의 추가 적응은 일어나는 것으로부터 중지될 수 있거나 방지될 수 있으며, 그럼으로써 다양한 리소스들을 보존하게 된다. 일부 구현예들에서, 인간 인지가능 신호들은 어시스턴트 디바이스의 디스플레이로부터의 시각적 신호(들)를 포함하고(또는 이러한 시각적 신호(들)에 제한되고), 이것은 사용자의 임의의 발성된 입력에 대한 방해(interruption)를 방지할 수 있고, 그럼으로써 어시스턴트와의 사용자의 상호작용을 더 간결하게 만든다.
하나의 예로서, 제 1 인간 인지가능 신호가, 사용자의 지향된 응시를 검출함에 응답하여(예를 들어, 연속적인 이미지 프레임들의 적어도 임계 지속시간(threshold duration) 및/또는 임계 퍼센트(threshold percentage) 동안 검출된 사용자의 응시에 응답하여) 렌더링될 수 있다. 제 1 인간 인지가능 신호는, 지향된 응시가 검출되었다는 것, 그리고 (예를 들어, 만약 사용자가 자신의 응시를 재지향시키지 않는다면, 시각적 및/또는 구두적(verbal) 중단 커맨드(stop command)를 발행하지 않는다면, 또는 그렇지 않은 경우 추가 프로세싱을 중지시키려는 바람(desire)을 표시하지 않는다면) 특정 센서 데이터의 추가 프로세싱이 일어날 수 있다는 것을 사용자에게 (직접적으로 혹은 간접적으로) 알려줄 수 있다. 제 1 인간 인지가능 신호는, 비전 및/또는 센서 데이터의 특정 프로세싱 그리고/또는 비전 및/또는 센서 데이터의 전송과 같은 추가 적응(들) 이전에 렌더링될 수 있다. 제 1 인간 인지가능 신호의 하나의 비-한정적 예는 디스플레이의 모든 부분들 혹은 일부분(들) 상에서의 백색 발광(white glow)(예를 들어, 디스플레이의 주변부(periphery) 둘레의 백색 발광)과 같은 디스플레이 상에 렌더링되는 발광이다.
예시를 계속하면, 제 2 인간 인지가능 신호가, 지향된 응시를 계속 검출함에 응답하여 렌더링될 수 있고, 그리고 선택에 따라서는, 추가적인 속성들 및/또는 신뢰도 메트릭(들)의 발생을 결정함에 근거하여 렌더링될 수 있는데, 예컨대, 사용자가 어시스턴트 디바이스의 임계 거리 내에 있는 것(예를 들어, 이미지 분석에 근거하여 추정되는 바와 같이 4 피트(feet) 내에 있는 것 혹은 다른 임계치 내에 있는 것), 목소리 활동의 존재, 그리고/또는 입 움직임과 목소리 활동의 동시-발생과 같은 것을 결정함에 근거하여 렌더링될 수 있다. 제 2 인간 인지가능 신호는 목소리 활동이 검출되었다는 것, 그리고 특정 센서 데이터의 추가 프로세싱이 일어날 수 있다는 것을 사용자에게 (직접적으로 혹은 간접적으로) 알려줄 수 있다. 제 2 인간 인지가능 신호는, 비전 및/또는 센서 데이터의 특정 프로세싱 그리고/또는 비전 및/또는 센서 데이터의 전송과 같은 추가 적응(들) 이전에 렌더링될 수 있다. 제 2 인간 인지가능 신호의 하나의 비-한정적 예는 디스플레이의 일부분에 걸쳐 완전히 혹은 부분적으로 수직으로 또는 수평으로 렌더링되는 백색 줄무늬(bar)와 같은 디스플레이 상에 렌더링되는 줄무늬이다. 선택에 따라서는, 줄무늬의 폭, 줄무늬의 색상, 줄무늬의 밝기, 및/또는 줄무늬의 다른 특징(들)은, 사용자가 어시스턴트와 상호작용하려고 의도하고 있다는 결정된 신뢰도 및 추가 프로세싱이 일어날 수 있다는 대응하는 신뢰도를 사용자에게 표시하기 위해, 추가적인 속성(들)의 양(quantity) 및/또는 이들의 신뢰도 메트릭(들)의 크기(magnitude)에 의존할 수 있다.
예시를 더 계속하면, 제 3 인간 인지가능 신호가, (예를 들어, 어시스턴트 디바이스에서 로컬로 엔드포인트 검출(endpoint detection)을 통해) 목소리 활동의 끝(end)을 검출하는 것 그리고/또는 다른 조건(들)을 검출하는 것에 응답하여, 렌더링될 수 있다. 제 3 인간 인지가능 신호는 특정 센서 데이터의 추가 프로세싱이 일어나고 있다는 것(하지만 선택에 따라서는 여전히 중지될 수 있다는 것)을 사용자에게 (직접적으로 혹은 간접적으로) 알려줄 수 있다. 이러한 추가 프로세싱은, 오디오 데이터의 음성-대-텍스트 프로세싱, 변환된 텍스트의 자연 언어 이해(natural language understanding), 비전 데이터의 프로세싱에 근거하는 제스처 인식, 그리고/또는 자연 언어 이해 및/또는 제스처 인식에 근거하는 이행(fulfillment)을 포함할 수 있다. 추가적으로 혹은 대안적으로, 이러한 추가 프로세싱은, 추가 센서 데이터에 포함된 임의의 발언들 및/또는 제스처들이 자동화된 어시스턴트에 대해 의도된 것임 그리고 이행돼야 함을 확실히 하기 위한 추가적인 프로세싱을 포함할 수 있다. 제 3 인간 인지가능 신호의 하나의 비-한정적인 예는, 디스플레이의 일부분 상에 렌더링되는 다-색상 호(multi-colored arc)(예컨대, 무지개)와 같은, 디스플레이 상에 렌더링되는 다-색상 줄무늬 또는 호이다.
다시, 하나 이상의 추가 적응들은, 인간 인지가능 신호의 렌더링 이후에 일어날 수 있고, 그리고 속성(들) 및/또는 신뢰도 메트릭(들)의 계속되는 발생을 검출함에 응답하여 그리고/또는 추가적인 속성(들) 및/또는 신뢰도 메트릭(들)의 발생을 검출함에 응답하여 일어날 수 있다. 예를 들어, 추가 적응은, 클라이언트 디바이스의 하나 이상의 센서 컴포넌트들에 의해 발생된 특정 센서 데이터를 클라이언트 디바이스에 의해 하나 이상의 원격 자동화된 어시스턴트 컴포넌트들로 전송하는 것을 포함할 수 있다(반면, 추가 적응 이전에는 센서 컴포넌트(들)로부터의 어떠한 센서 데이터도 전송되고 있지 않았음). 특정 센서 데이터는, 예를 들어, 지향된 응시 및/또는 다른 속성(들)의 발생을 검출한 이후에 캡처된 비전 및/또는 오디오 데이터를 포함할 수 있고, 또는 이러한 발생들 이전에 혹은 이러한 발생들 동안 캡처된 비전 및/또는 오디오 데이터를 포함할 수 있다(예를 들어, 이러한 비전 및/또는 오디오 데이터는 클라이언트 디바이스에서 임시로 버퍼링될 수 있고, 그리고 단지 발생(들) 및/또는 신뢰도(들)를 결정함에 응답하여 이용될 수 있음). 인간 인지가능 신호(들)를 제공함으로써, 사용자는 추가 적응이 이제 곧 일어나게 된다는 경보(alert)를 받을 수 있고, 그리고 이러한 추가 적응을 방지할 기회(opportunity)를 제공받을 수 있다. 예를 들어, 추가 적응이 사용자의 연속되는 지향된 응시에 의존하는 경우, (예컨대, 만약 사용자가 자동화된 어시스턴트와 상호작용하려고 의도하지 않고 센서 데이터가 전송되게 하는 것을 의도하지 않는다면) 사용자는 추가 적응을 방지하기 위해 자신의 응시를 딴 곳으로 돌릴 수 있다. 이러한 방식으로, 추가 적응은, 추가 적응으로부터 기인하게 되는 네트워크 및/또는 컴퓨팅연산 리소스들의 사용과 함께, 방지될 수 있다. 다양한 인간 인지가능 신호들이 제공될 수 있는데, 예컨대, 청취가능한 "딩(ding)" 소리, 청취가능한 "발성된 출력"(예를 들어, "당신은 어시스턴트에게 말하고 있는 것처럼 보이는데, 만약 당신이 원하지 않는다면 눈길을 돌리세요(Looks like you're talking to the Assistant, look away if you don't want to)"), 어시스턴트 디바이스의 디스플레이 스크린 상의 시각적 심볼(visual symbol), 어시스턴트 디바이스의 발광 다이오드(light emitting diode)(들)의 조명(illumination), 등과 같은 것이 제공될 수 있다.
일부 구현예들에서, 사용자 인터페이스 출력의 렌더링의 적응(들)은 추가적으로 혹은 대안적으로, 어시스턴트 디바이스에 의해 렌더링되고 있는 청취가능한 사용자 인터페이스 출력의 음량(volume)을 감소시키는 것, 그리고/또는 청취가능한 사용자 인터페이스 출력 및/또는 어시스턴트 디바이스에 의해 시각적으로 렌더링되고 있는 비디오 출력을 중지시키는 것을 포함한다. 하나의 예로서, 사용자가 자동화된 어시스턴트로 지향된 발언을 발성하기 시작하기 전에, 지향된 응시 및/또는 다른 속성(들)이 검출된다고 가정한다. 또한, 지향된 응시 및/또는 다른 속성(들)을 검출하기 전에, 어시스턴트 디바이스가 청취가능한 그리고/또는 시각적인 콘텐츠(content)를 렌더링하고 있다고 가정한다. 예컨대, 어시스턴트 디바이스의 자동화된 어시스턴트 클라이언트는 노래(song)의 청취가능한 렌더링 및 노래에 대한 비디오의 시각적 렌더링을 일으키고 있을 수 있다. 지향된 응시 및/또는 다른 속성(들)을 검출함에 응답하여, 자동화된 어시스턴트 클라이언트는 노래의 청취가능한 렌더링의 음량이 감소되도록 할 수 있다(이와 동시에 여전히 청취가능한 렌더링은 감소된 음량에서 계속되고, 비디오의 시각적 렌더링도 계속됨). 음량의 감소는, 어시스턴트 디바이스의 하나 이상의 마이크로폰들을 통해 캡처된 오디오 데이터와 같은, 발성된 발언을 캡처하는 오디오 데이터의 프로세싱의 성능을 향상시킬 수 있다. 예컨대, 오디오 데이터의 목소리-대-텍스트 프로세싱은 음량의 감소의 결과로서 향상될 수 있고, 오디오 데이터에 근거하는 목소리 활동 검출(Voice Activity Detection, VAD)은 음량의 감소의 결과로서 향상될 수 있고, 오디오 데이터에 근거하는 발성자 분리(speaker diarization)는 음량의 감소의 결과로서 향상될 수 있고, 기타 등등일 수 있다. 오디오 데이터의 향상된 프로세싱은 자동화된 어시스턴트가 발성된 발언을 적절하게 해석하고 적절한 방식으로 응답할 가능성(likelihood)을 증가시킬 수 있다. 이것은 결과적으로 사용자-어시스턴트 상호작용을 향상시킬 수 있고, 그리고/또는 사용자로 하여금 발성된 발언을 반복하도록 유발할 수 있는(그리고 결과적으로 반복되는 발성된 발언을 프로세싱함에 있어 그리고 또 하나의 다른 응답을 발생시키고 렌더링함에 있어 컴퓨팅연산 리소스들의 소비를 요구하는) 부적절한 자동화된 어시스턴트 응답의 위험을 완화시킬 수 있다.
앞서의 예의 변형으로서, 적응은, 음량의 감소 대신에, 노래(및 선택에 따라서는 비디오)의 청취가능한 렌더링을 중지시키는 것을 포함할 수 있다. 앞서의 예의 또 하나의 다른 변형으로서, 적응은 초기에 노래의 청취가능한 렌더링의 음량의 감소를 포함할 수 있고, 그리고 적응은 또한 하나 이상의 다른 속성(들) 및/또는 신뢰도(들)의 발생에 응답하여 노래의 청취가능한 렌더링의 후속적인 중지를 포함할 수 있다.
일부 구현예들에서, 개시되는 적응(들)은 비전 데이터의 프로세싱에 근거하는 제스처 인식, 및/또는 인식된 제스처에 근거하는 이행을 포함한다. 예를 들어, 일부 구현예들에서, 제스처 인식 및/또는 인식된 제스처에 근거하는 이행(예컨대, 응답을 발생시키는 것)은 제스처가 인식된 동일한 사용자로부터의 지향된 응시의 발생을 검출하는 것에 의존할 수 있다. 이러한 구현예들 혹은 다른 구현예들 중 일부에서, 제스처에 대한 응답은 사용자의 제스처에 근거하여 발생되고, 그리고 선택에 따라서는 제스처가 일어난 때 클라이언트 디바이스에 의해 렌더링되고 있는 콘텐츠에 근거하여 발생된다. 예를 들어, 제스처는 복수의 응답형 액션(responsive action)들에 할당될 수 있고, 그리고 디바이스가 일어난 때 렌더링되고 있는 콘텐츠에 근거하여 응답으로서 응답형 액션들 중 단 하나가 선택될 수 있다. 예를 들어, 엄지손가락을 치켜세우는 제스처(thumbs up gesture)는 "음량 증가(increase volume)" 액션 및 "상향 스크롤(scroll up)" 액션 모두에 할당될 수 있고, 이러한 두 개의 액션들 중 어느 것이 선택되는지는 렌더링되고 있는 콘텐츠에 근거할 수 있다. 예를 들어, "음량 증가" 액션은 오디오 콘텐츠(audio content) 및/또는 시청각 콘텐츠(audiovisual content)가 렌더링되고 있는 경우 선택될 수 있고, 반면 "상향 스크롤" 액션은 어떠한 오디오 혹은 시청각 콘텐츠도 렌더링되고 있지 않고 이전의 "하향 스크롤(scroll down)" 액션에 대한 대상이었던 콘텐츠가 렌더링되고 있는 경우 선택될 수 있다. 또 하나의 다른 경우로서, "중단" 제스처가 "타이머 알람 중단(stop timer alarm)" 액션, "음악 중단(stop music)" 액션, "통화 종료(end call)" 액션, 및/또는 다른 액션들에 할당될 수 있고, 그리고 어느 것이 선택되는 지는 어시스턴트 디바이스 및/또는 다른 어시스턴트 디바이스들에 의해 현재 렌더링되고 있는 것에 의존할 수 있다. 예를 들어, 만약 어시스턴트 디바이스가 현재 타이머 알람을 렌더링하고 있다면, "타이머 알람 중단" 액션이 선택될 수 있다. 더 일반적으로, 제스처가 검출된 어시스턴트 디바이스에 의해 렌더링되고 있는 콘텐츠에 따라, 그리고/또는 선택에 따라서는 다른 어시스턴트 디바이스(들)에서 렌더링되고 있는 콘텐츠에 근거하여, 다양한 인식된 제스처들이 다르게 해석될 수 있다. 더욱이, 제스처에 관한 인식 및/또는 액션은 선택에 따라서는, 제스처를 행하는 사용자로부터의 지향된 응시의 발생을 결정하는 것, 제스처를 행하는 사용자가 어시스턴트 디바이스의 임계 거리 내에 있다고 결정하는 것, 그리고/또는 다른 고려들에 의존할 수 있다.
일부 구현예들에서, 응답은 또한, 사용자의 임의의 제스처, 발성된 발언, 또는 터치-입력과는 독립적으로, 하지만 클라이언트 디바이스(또는 클라이언트 디바이스들의 생태계(ecosystem) 내의 또 하나의 다른 클라이언트 디바이스)에 의해 렌더링되고 있는 콘텐츠, 및 본 명세서에서 설명되는 비-제스처 사용자 속성들 중 하나 이상의 비-제스처 사용자 속성에 의존하여 발생될 수도 있다. 예를 들어, 만약 어시스턴트 디바이스가 현재 타임 알람(time alarm)을 렌더링하고 있다면, 타이머 알람이 현재 렌더링되고 있음, 그리고 사용자의 지향된 응시(예를 들어, 적어도 1초 동안 혹은 다른 임계 지속시간 동안의 지향된 응시)를 결정함, 사용자가 어시스턴트 디바이스의 임계 거리 내에(예를 들어, 8 피트 내에 혹은 다른 임계 거리 내에) 있음을 결정함, 사용자가 어시스턴트에 더 가깝게 이동하고 있음을 결정함, 그리고/또는 다른 고려(들)에 응답하여, "타이머 알람 중단" 액션이 실행될 수 있다. 따라서, 결정된 속성(들)은, 이러한 결정된 속성(들)이 (어시스턴트 디바이스에 의한 특정 출력의 렌더링(예를 들어, 타임 알람의 렌더링)과 같은) 어시스턴트 디바이스에서의 특정 조건들과 동시-발생하는 경우, 주어진 액션이 발효(effectuate)되도록 할 수 있다. 더 일반적으로, 결정된 속성들의 다양한 조합들이, 단지 어떤 상황(situation)들(예컨대, 속성(들)을 결정한 어시스턴트 디바이스에 의해 특정 대응하는 콘텐츠가 렌더링되고 있는 상황들)에서만 대응하는 어시스턴트 액션이 수행되게 하는 것으로 해석될 수 있다.
일부 구현예들에서, 다양한 속성들의 발생 및/또는 이들의 신뢰도(들)(만약 있다면)를 결정함에 있어서, 어시스턴트 디바이스 상에 로컬로 저장된 훈련된 머신 러닝 모델(machine learning model)(들)(예컨대, 뉴럴 네트워크 모델(neural network model)(들))이, 클라이언트 디바이스의 센서 컴포넌트(들)로부터의 센서 데이터(예를 들어, 클라이언트 디바이스의 카메라(들)로부터의 이미지 프레임들, 디바이스의 마이크로폰(들)으로부터의 오디오 데이터)의 적어도 일부분들을 적어도 선택적으로 프로세싱하기 위해, 클라이언트 디바이스에 의해 이용된다. 예를 들어, 하나 이상의 사용자들의 존재를 (예컨대, 존재 센서(presence sensor)를 통해) 검출함에 응답하여, 클라이언트 디바이스는, 적어도 임의의 지속기간 동안(예를 들어, 적어도 임계 지속기간 동안 그리고/또는 존재가 더 이상 검출되지 않을 때까지), 사용자의 지향된 응시의 발생에 대해 모니터링함에 있어, 사용자의 거리(들)를 결정함에 있어, 입 움직임과 목소리 활동의 동시-발생을 결정함에 있어, 목소리 활동을 결정함에 있어, 얼굴 인식을 수행함에 있어, 그리고/또는 다른 속성(들)의 발생을 결정함에 있어, 로컬로 저장된 머신 러닝 모델(들)을 이용하여 비전 데이터의 적어도 일부분(들)을 프로세싱할 수 있다. 클라이언트 디바이스는, 전용 존재 센서(예를 들어, 수동형 적외선 센서(Passive Infrared Sensor, PIR))를 이용하여, 비전 데이터 및 별도의 머신 러닝 모델(예를 들어, 오로지 인간 존재 검출을 위해서만 훈련된 별도의 머신 러닝 모델)을 이용하여, 그리고/또는 오디오 데이터 및 별도의 머신 러닝 모델(예를 들어, VAD 머신 러닝 모델을 사용하는 VAD)를 이용하여, 하나 이상의 사용자들의 존재를 검출할 수 있다. 속성(들)의 발생을 결정할 때의 비전 데이터 및/또는 오디오 데이터의 프로세싱이 하나 이상의 사용자들의 존재를 먼저 검출하는 것에 의존하는 구현예들에서, 속성(들)의 발생에 대해 모니터링함에 있어 비전 데이터 및/또는 오디오 데이터의 비-연속적 프로세싱을 통해 전력 리소스들이 보존될 수 있다. 오히려, 이러한 구현예들에서, 프로세싱은, 하나 이상의 저-전력 소비 기법들을 통해, 어시스턴트 디바이스의 환경 내에서 하나 이상의 사용자(들)의 존재를 검출함에 응답하여서만 일어날 수 있다.
지향된 응시의 발생, 입 움직임의 발생(선택에 따라서는, 목소리 움직임(voice movement)과의 동시-발생), 거리의 발생, 얼굴 인식의 발생, 및/또는 제스처(들)의 발생에 대해 모니터링함에 있어 로컬 머신 러닝 모델(들)이 이용되는 일부 구현예들에서, 상이한 모델(들)이 이용될 수 있고, 그 각각은 하나 이상의 상이한 속성(들)의 발생에 대해 모니터링한다. 이러한 구현예들의 일부 버전(version)들에서, 하나 이상의 "업스트림(upstream)" 모델들(예를 들어, 객체 검출 및 분류 모델(들))이, 얼굴일 가능성 있는, 눈(들)일 가능성이 있는, 입일 가능성이 있는, 기타 등등일 가능성이 있는 비전 데이터(예를 들어, 이미지(들))의 일부분들을 검출하기 위해, 이용될 수 있고, 그리고 이러한 일부분(들)은 각각의 머신 러닝 모델을 이용하여 프로세싱된다. 예를 들어, 이미지의 얼굴 및/또는 눈 부분(들)이 업스트림 모델을 사용하여 검출될 수 있고, 그리고 응시 머신 러닝 모델을 사용하여 프로세싱될 수 있다. 또한, 예를 들어, 이미지의 얼굴 및/또는 입 부분(들)이 업스트림 모델을 사용하여 검출될 수 있고, 그리고 입 움직임(선택에 따라서는, 목소리 움직임과의 동시-발생) 머신 러닝 모델을 사용하여 프로세싱될 수 있다. 또 하나의 다른 예로서, 이미지의 인간 부분(들)이 업스트림 모델을 사용하여 검출될 수 있고, 그리고 제스처 머신 러닝 모델을 사용하여 프로세싱될 수 있다.
일부 구현예들에서, 비디오(들)/이미지(들)의 특정 부분들은 하나 이상의 속성들의 발생을 검출함에 있어서 필터링될 수 있고/무시될 수 있고/큰 가중치가 부여되지 않을 수 있다. 예를 들어, 비디오(들)/이미지(들) 내에 캡처된 텔레비전은 임의의 사람(예를 들어, 날씨를 예보하는 사람)이 텔레비젼에 의해 렌더링되는 결과로서 잘못된 검출들을 방지하기 위해 무시될 수 있다. 예를 들어, 이미지의 일부분은 텔레비전에 대응하는 것으로 결정될 수 있는데, 이것은 그 부분에 대한 복수의 프레임들에 걸쳐 그 부분 내의 특정 디스플레이 주파수(즉, 텔레비전 재생률(television refresh rate)과 정합되는 디스플레이 주파수), 등을 검출함에 응답하여, 별도의 객체 검출/분류 머신 러닝 모델에 근거하여, 이루어질 수 있다. 이러한 부분은 텔레비젼 혹은 다른 비디오 디스플레이 디바이스로부터 그러한 다양한 속성들의 검출을 방지하기 위해 본 명세서에서 설명되는 특정 기법들에서 무시될 수 있다. 또 하나의 다른 예로서, 그림 프레임(picture frame)들은 무시될 수 있다. 이러한 기법들 및 다른 기법들은 자동화된 어시스턴트의 거짓-양성 적응(false-positive adaptation)들을 완화시킬 수 있는데, 이것은 거짓-양성 적응들에서 소비되었을 다양한 컴퓨팅연산 및/또는 네트워크 리소스들을 보존할 수 있다. 또한, 다양한 구현예들에서, TV, 그림 프레임, 등의 위치가 검출되면, 그것은 선택에 따라서는 (예를 들어, 간헐적으로(intermittently) 검증하는 동안, 클라이언트 디바이스 혹은 객체(들)의 움직임이 검출될 때까지, 등) 복수의 프레임들에 걸쳐 계속 무시될 수 있다. 이것은 또한 다양한 컴퓨팅연산 리소스들을 보존할 수 있다.
본 명세서에서 개시되는 일부 구현예들은, 중앙 프로세싱 유닛(Central Processing Unit, CPU)(들), 그래픽 프로세싱 유닛(Graphics Processing Unit, GPU)(들), 그리고/또는 텐서 프로세싱 유닛(Tensor Processing Unit, TPU)(들)과 같은 하나 이상의 프로세서들을 포함하는 하나 이상의 컴퓨팅 디바이스들을 포함한다. 프로세서들 중 하나 이상은 관련된 메모리에 저장된 명령들을 실행하도록 동작가능하고, 그리고 명령들은 본 명세서에서 설명되는 방법들 중 임의의 방법의 수행을 일으키도록 구성된다. 컴퓨팅 디바이스들은 예를 들어, 마이크로폰(들), 적어도 하나의 디스플레이, 비전 컴포넌트(들), 그리고/또는 다른 센서 컴포넌트(들)를 갖는 클라이언트 어시스턴트 디바이스들을 포함할 수 있다. 일부 구현예들은 또한, 본 명세서에서 설명되는 방법들 중 임의의 방법을 수행하기 위해 하나 이상의 프로세서들에 의해 실행가능한 컴퓨터 명령들을 저장하는 하나 이상의 비-일시적 컴퓨터 판독가능 저장 매체들을 포함한다.
도 1은 본 명세서에서 개시되는 구현예들이 구현될 수 있는 예시적 환경의 블록도이다.
도 2a 및 도 2b는 다양한 구현예들에 따른 본 개시내용의 다양한 실시형태들을 나타내는 예시적 프로세스 흐름들을 도시한다.
도 3a는 지향된 응시 및 발성(그럼으로써 입 움직임이 유발됨)을 제공하는 사용자와 어시스턴트 디바이스의 예를 도시하고, 그리고 또한, 사용자가 지향된 응시 및 발성을 제공하고 있을 때 어시스턴트 디바이스의 카메라에 의해 캡처된 이미지를 도시한다.
도 3b1, 도 3b2, 및 도 3b1은 시각적으로 인지가능한 신호들의 예들을 제공하는 데, 이러한 신호들은 각각 대응하는 속성(들)의 발생 및/또는 신뢰도들을 결정함에 응답하여 제공될 수 있다.
도 4는 본 명세서에서 개시되는 구현예들에 따른 예시적 방법을 예시하는 흐름도를 도시한다.
도 5는 본 명세서에서 개시되는 구현예들에 따른 또 하나의 다른 예시적 방법을 예시하는 흐름도를 도시한다.
도 6은 본 명세서에서 개시되는 구현예들에 따른 또 하나의 다른 예시적 방법을 예시하는 흐름도를 도시한다.
도 7은 컴퓨팅 디바이스의 예시적 아키텍처를 예시한다.
도 1은 본 명세서에서 개시되는 기법들이 구현될 수 있는 예시적 환경을 예시한다. 예시적 환경은 자동화된 어시스턴트 클라이언트(110)를 적어도 선택적으로 실행하는 클라이언트 디바이스(101)를 포함한다. 용어 "어시스턴트 디바이스"는 또한, 자동화된 어시스턴트 클라이언트(110)를 적어도 선택적으로 실행하는 클라이언트 디바이스(101)를 나타내기 위해 본 명세서에서 사용된다. 하나 이상의 클라우드-기반 자동화된 어시스턴트 컴포넌트(cloud-based automated assistant component)들(130)이, 도면번호 100에서 전반적으로 표시된 하나 이상의 로컬(local) 및/또는 와이드(wide) 영역 네트워크들(예를 들어, 인터넷)을 통해 클라이언트 디바이스(101)에 통신가능하게 결합되는 하나 이상의 컴퓨팅 시스템들(집합적으로 "클라우드(cloud)" 컴퓨팅 시스템으로 지칭됨) 상에 구현될 수 있다. 클라우드-기반 자동화된 어시스턴트 컴포넌트들(130)은 예를 들어, 고-성능 서버(high-performance server)들의 클러스터(cluster)를 통해 구현될 수 있다.
다양한 구현예들에서, 자동화된 어시스턴트 클라이언트(110)의 인스턴스(instance)는, 하나 이상의 클라우드-기반 자동화된 어시스턴트 컴포넌트들(130)과의 상호작용들을 통해서, 사용자의 관점(perspective)으로부터, 사용자가 인간-대-컴퓨터 상호작용들(예를 들어, 발성된 상호작용들, 제스처-기반 상호작용들, 및/또는 터치-기반 상호작용들)에서 관계를 맺을 수 있는 자동화된 어시스턴트(120)의 논리적 인스턴스(logical instance)인 것처럼 보이는 것을 형성할 수 있다. 이러한 자동화된 어시스턴트(120)의 하나의 인스턴스가 도 1에서 파선(dashed line)으로 도시된다. 따라서, 클라이언트 디바이스(101) 상에서 실행되는 자동화된 어시스턴트 클라이언트(110)와 관계를 맺는 각각의 사용자는 사실상 자동화된 어시스턴트(120)의 사용자 자신의 논리적 인스턴스와 관계를 맺을 수 있음을 이해해야 한다. 간결함 및 간명함을 위해, 특정 사용자에게 "서비스를 제공하는 것(serving)"으로서 본 명세서에서 사용되는 바와 같은 용어 "자동화된 어시스턴트"는, 사용자에 의해 동작되는 클라이언트 디바이스(101) 상에서 실행되는 자동화된 어시스턴트 클라이언트(110)와 선택에 따라서는 (복수의 자동화된 어시스턴트 클라이언트들(110) 간에 공유될 수 있는) 하나 이상의 클라우드-기반 자동화된 어시스턴트 컴포넌트들(130)의 조합을 지칭할 것이다. 일부 구현예들에서, 자동화된 어시스턴트(120)는, 사용자가 자동화된 어시스턴트(120)의 그 특정 인스턴스에 의해 실제로 "서비스를 제공받는(served)"지 여부에 상관없이, 임의의 사용자로부터의 특정 요청들에 응답할 수 있다.
클라이언트 디바이스(101)는 예를 들어, 데스크톱 컴퓨팅 디바이스(desktop computing device), 랩탑 컴퓨팅 디바이스(laptop computing device), 태블릿 컴퓨팅 디바이스(tablet computing device), 모바일 전화기 컴퓨팅 디바이스(mobile phone computing device), 사용자의 차량의 컴퓨팅 디바이스(예컨대, 차량-내 통신 시스템(in-vehicle communications system), 차량-내 엔터테인먼트 시스템(in-vehicle entertainment system), 차량-내 내비게이션 시스템(in-vehicle navigation system)), 독립형 상호작용적 스피커(standalone interactive speaker)(이것은 일부 경우들에서 비전 센서(vision sensor)를 포함할 수 있음), 스마트 텔레비전(smart television)(또는 자동화된 어시스턴트 능력들을 갖는 네트워크화된 동글(networked dongle)을 구비한 표준 텔레비전)과 같은 스마트 기기(smart appliance), 그리고/또는 컴퓨팅 디바이스를 포함하는 사용자의 착용가능 장치(wearable apparatus)(예컨대, 컴퓨팅 디바이스를 갖는 사용자의 시계, 컴퓨팅 디바이스를 갖는 사용자의 안경, 가상 혹은 증강 현실 컴퓨팅 디바이스)일 수 있다. 추가적인 그리고/또는 대안적인 클라이언트 컴퓨팅 디바이스들이 제공될 수 있다. 이전에 언급된 바와 같이, 클라이언트 디바이스(101)는 선택에 따라서는 주로 사용자들과 자동화된 어시스턴트(120) 간의 상호작용들을 용이하게 하도록 설계된 어시스턴트 디바이스의 형태를 가질 수 있다(예를 들어, 스피커(들), 마이크로폰(들), 카메라(및/또는 다른 비전 컴포넌트(들)), 그리고 디스플레이를 갖는 독립형 상호작용적 디바이스).
클라이언트 디바이스(101)는 하나 이상의 시계(field of view)들을 갖는 하나 이상의 비전 컴포넌트들(107)을 구비할 수 있다. 비전 컴포넌트(들)(107)는, 모노그래픽 카메라(monographic camera)들, 스테레오그래픽 카메라(stereographic camera)들, 라이더 컴포넌트(LIDAR component), 레이더 컴포넌트(radar component), 등과 같은 다양한 형태들을 가질 수 있다. 하나 이상의 비전 컴포넌트들(107)은, 클라이언트 디바이스(101)가 배치되는 환경의 비전 프레임(vision frame)들(예컨대, 이미지 프레임들(정지 이미지(still image)들 또는 비디오(video))을 캡처하기 위해, 예를 들어, 시각적 캡처 모듈(visual capture module)(114)에 의해 사용될 수 있다. 클라이언트 디바이스(101)는 또한 하나 이상의 마이크로폰들(109)을 구비할 수 있다. 음성 캡처 모듈(speech capture module)(112)은 마이크로폰(들)(109)을 통해 캡처된 사용자의 음성 및/또는 다른 오디오 데이터를 캡처하도록 구성될 수 있다.
적응 엔진(adaptation engine)(115)은, 하나 이상의 사용자 속성들의 발생 및/또는 신뢰도 메트릭(들)을 결정함에 있어 음성 캡처 모듈(112)에 의해 캡처된 오디오 데이터 및/또는 시각적 캡처 모듈(114)에 의해 캡처된 비전 데이터를 프로세싱한다. 더욱이, 적응 엔진(115)은, 속성들의 발생 및/또는 신뢰도 메트릭(들)에 근거하여, 자동화된 어시스턴트 클라이언트(110)의 실시형태들 및/또는 클라우드-기반 자동화된 어시스턴트 컴포넌트들(130)의 실시형태들과 같은, 자동화된 어시스턴트(120)의 하나 이상의 실시형태들을 적응시킬지 여부를 결정한다. 이러한 적응은, 예를 들어, 클라이언트 디바이스(101)에 의해 렌더링되고 자동화된 어시스턴트 클라이언트(110)에 의해 제어되는 사용자 인터페이스 출력(예컨대, 청취가능한 출력 및/또는 시각적 출력)을 적응시키는 것을 포함할 수 있다. 이러한 적응은 추가적으로 혹은 대안적으로, 예를 들어, 클라이언트 디바이스(101)에 의한(예컨대, 자동화된 어시스턴트 클라이언트의 하나 이상의 컴포넌트들에 의한) 그리고/또는 하나 이상의 클라우드-기반 자동화된 어시스턴트 컴포넌트(들)(130)에 의한, 센서 데이터 프로세싱을 적응시키는 것을 포함할 수 있다.
클라이언트 디바이스(101)는 또한, 하나 이상의 존재 센서(presence sensor)들(105) 및/또는 하나 이상의 디스플레이들(103)(예컨대, 터치-감지 디스플레이)을 포함할 수 있다. 디스플레이(들)(103)는 다양한 구현예들에서 사용자 인터페이스 출력이 렌더링되는 사용자 인터페이스 출력 컴포넌트(들) 중 하나일 수 있다. 디스플레이(들)(103)는 또한, 자동화된 어시스턴트 클라이언트(110)로부터의 응답의 시각적 부분(들)이 렌더링되는 사용자 인터페이스 출력 컴포넌트(들) 중 하나일 수 있다. 존재 센서(들)(105)는 예를 들어, PIR 및/또는 다른 수동형 존재 센서(들)를 포함할 수 있다. 다양한 구현예들에서, 자동화된 어시스턴트 클라이언트(110)의 하나 이상의 컴포넌트(들) 및/또는 기능(들)은 존재 센서(들)(105)로부터의 출력에 근거하는 인간 존재의 검출에 응답하여 개시될 수 있다. 예를 들어, 시각적 캡처 모듈(114) 및 음성 캡처 모듈(112)은 인간 존재의 검출에 응답하여서만 활성화(activate)될 수 있고, 그리고 선택에 따라서는 인간 존재를 더 이상 검출하지 않음에 응답하여 비활성화(deactivate)될 수 있다. 또한, 예를 들어, 비전 컴포넌트(들)(107) 및/또는 마이크로폰(들)(109)은 인간 존재의 검출에 응답하여서만 활성화될 수 있고, 그리고 선택에 따라서는 인간 존재를 더 이상 검출하지 않음에 응답하여 비활성화될 수 있다. 또 하나의 다른 예로서, 적응 엔진(115)의 하나 이상의 모듈들(예컨대, 모든 모듈들)은 인간 존재의 검출에 응답하여서만 활성화될 수 있고, 그리고 선택에 따라서는 인간 존재를 더 이상 검출하지 않음에 응답하여 비활성화될 수 있다. 자동화된 어시스턴트 클라이언트(110)의 컴포넌트(들) 및/또는 기능(들)을 개시하는 것이 하나 이상의 사용자들의 존재를 먼저 검출하는 것에 의존하는 구현예들에서, 전력 리소스들이 보존될 수 있다.
도 1에서, 적응 엔진(115)은, 응시 모듈(gaze module)(1151), 거리 모듈(distance module)(1152), 입/목소리 모듈(mouth/voice module)(1153), 얼굴 인식 모듈(face recognition module)(1154), 목소리 활동 모듈(voice activity module)(1155), 그리고 하나 이상의 다른 모듈(들)(1156)을 포함한다.
적응 엔진(115)은, 자동화된 어시스턴트(120)의 하나 이상의 실시형태(들)를 적응시킬지 여부를 결정함에 있어서 모듈들(1151-1156) 중 하나 이상으로부터의 결정(들) 및 신뢰도 메트릭(들)을 이용한다. 예를 들어, 적응 엔진(115)은, 클라우드-기반 자동화된 어시스턴트 컴포넌트(들)(130)에 오디오 데이터를 전송하는 것을 개시하기 전에 그리고/또는 오디오 데이터의 로컬 음성-대-텍스트 프로세싱을 수행하기 전에, 하나 이상의 다른 속성들의 발생과 함께 (응시 모듈(1151)에 의한) 지향된 응시의 발생 및 지향된 응시의 계속되는 발생의 검출을 요구할 수 있다. 하나 이상의 다른 속성들의 발생은 예를 들어, 사용자 거리가 임계 거리 내에 있음(거리 모듈(1152)에 의해 결정됨), 사용자 거리가 사용자에 대해 이전에 결정된 거리(들)보다 더 가까움(예를 들어, 사용자가 적어도 임계 각도(threshold degree)만큼 그리고/또는 적어도 임계 속도(threshold rate)에서 어시스턴트 디바이스에 더 가까워지게 됨), 입 움직임과 목소리 활동의 동시-발생(입/목소리 모듈(1155)에 의해 결정됨), 그리고/또는 음성 활동의 발생(음성 모듈(1155)에 의해 결정됨)을 포함할 수 있다. 또 하나의 다른 예로서, 적응 엔진(115)은, 클라우드-기반 자동화된 어시스턴트 컴포넌트(들)(130)에 오디오 데이터를 전송하는 것을 개시하기 전에 그리고/또는 오디오 데이터의 로컬 음성-대-텍스트 프로세싱을 수행하기 전에, 사용자 거리, 입 움직임과 목소리 활동의 동시-발생, 및/또는 음성 활동의 발생에 관한 하나 이상의 기준들(criteria)이 충족될 것을 요구하는 것과 함께, 지향된 응시의 발생 및 지향된 응시의 계속되는 발생의 검출을 요구할 수 있다. 예를 들어, 하나 이상의 다른 기준들은 거리를 고려하는 것, 뿐만 아니라 입 움직임과 목소리 활동의 동시-발생에 대한 신뢰도 메트릭을 고려하는 것을 포함할 수 있다. 예를 들어, 적응 엔진(115)은, 만약 거리가 6 피트이고 신뢰도 메트릭이 0.9인 경우라면 프로세싱을 개시할 수 있고; 만약 거리가 3 피트이고 신뢰도 메트릭이 0.7인 경우라면 프로세싱을 개시할 수 있고; 만약 거리가 6 피트이고 신뢰도 메트릭이 0.7인 경우라면 프로세싱을 개시하는 것을 억제(suppress)할 수 있다. 또한, 예를 들어, 적응 엔진(115)은, 만약 어시스턴트 디바이스에 대한 사용자의 거리가, 하나 이상의 이전에 결정된 거리(들)와 비교하여 어시스턴트 디바이스에 더 가까워진 것으로 결정되고 신뢰도 메트릭이 0.9인 경우라면, 프로세싱을 개시할 수 있고; 만약 거리 및 하나 이상의 이전에 결정된 거리(들)가 적어도 임계 속도에서 사용자가 어시스턴트 디바이스에 더 가까워지게 움직이고 있음을 표시하고 신뢰도 메트릭이 0.7인 경우라면, 프로세싱을 개시할 수 있고; 만약 거리 및 이전에 결정된 거리(들)가 어시스턴트 디바이스로부터 멀어지게 사용자가 움직이고 있음을 표시하고 신뢰도 메트릭이 0.7인 경우라면, 프로세싱을 개시하는 것을 억제할 수 있다. 하나 이상의 속성들이 존재하는지 여부 및/또는 관련된 신뢰도 메트릭(들)에 근거하여 추가 프로세싱을 개시할지 여부를 고려함에 있어서, 적응 엔진(115)은 하나 이상의 규칙(rule)들 및/또는 훈련된 머신 러닝 모델을 이용할 수 있다. 예를 들어, 머신 러닝 모델은 훈련 사례들에 근거하여 훈련될 수 있는데, 여기서 훈련 사례들 각각은, 다양한 속성(들) 및/또는 신뢰도들, 뿐만 아니라 추가 프로세싱이 일어나야하는지 여부를 표시하는 대응하는 라벨(label)(지도형(supervised) 혹은 반-지도형(semi-supervised))을 갖는 훈련 사례 입력을 포함한다.
응시 모듈(1151)은 지향된 응시의 발생, 그리고 선택에 따라서는 지향된 응시에 대한 신뢰도 메트릭을 결정하기 위해 시각적 캡처 모듈(114)로부터의 비전 데이터를 프로세싱한다. 본 명세서에서 설명되는 바와 같이(예컨대, 도 2b), 일부 구현예들에서, 응시 모듈(1151)은, 단지 비전 데이터의 인간 및/또는 얼굴 영역(들)만을 프로세싱할 수 있는데, 이것은 다른 모듈들(1156) 중 하나일 수 있는 업스트림 검출 및 분류 모델(upstream detection and classification model)을 사용하여 이러한 영역(들)을 검출하는 것에 근거하여 이루어질 수 있다. 응시 모듈(1151)은 지향된 응시를 검출하기 위한 하나 이상의 응시 머신 러닝 모델들(1161)을 사용할 수 있다. 이러한 머신 러닝 모델은 예를 들어, 컨볼루션 뉴럴 네트워크(Convolutional Neural Network, CNN) 모델과 같은 뉴럴 네트워크 모델일 수 있다. 이러한 CNN 모델의 훈련은, 훈련 사례 입력으로서 비전 프레임(들)(예컨대, 이미지)을 포함하고 훈련 사례 출력으로서 이미지가 지향된 응시를 포함하는지 여부의 표시를 포함하는 훈련 사례들에 근거할 수 있다. 예를 들어, 훈련 사례 출력은 지향된 응시가 존재하는지 여부를 표시하는 단일 값일 수 있다. 예를 들어, 단일 값은, 어떠한 지향된 응시도 존재하지 않을 때는 "0"일 수 있고, 이미지를 캡처하는 센서에 직접적으로 지향된 응시가 존재할 때 또는 이미지를 캡처하는 센서의 5도 내에서(또는 다른 범위 내에서, 이것은 디스플레이(103)의 크기에 따라 달라질 수 있음) 지향된 응시가 존재할 때는 "1"일 수 있고, 이미지를 캡처하는 센서의 5도 내지 10도 내에서 지향된 응시가 존재할 때는 "0.75"일 수 있고, 기타 등등일 수 있다.
이러한 구현예들 및/또는 다른 구현예들 중 일부에서, 응시 모듈(1151)은 지향된 응시가 적어도 임계 확률을 갖고 검출된 경우에만, 그리고/또는 적어도 임계 지속시간 동안 검출된 경우에만 지향된 응시를 결정한다. 예를 들어, 이미지 프레임들의 스트림은 CNN 모델을 사용하여 프로세싱될 수 있고, 그리고 각각의 프레임을 프로세싱하는 것은 결과적으로 프레임이 지향된 응시를 포함할 대응하는 확률을 발생시킬 수 있다. 응시 모듈(1151)은, (임계 지속시간에 대응하는) 이미지 프레임들의 시퀀스의 적어도 X%가 임계치를 만족시키는 대응하는 확률을 갖는 경우에만 지향된 응시가 존재한다고 결정할 수 있다. 예를 들어, X%가 60%이고, 확률 임계치가 0.7이고, 그리고 임계 지속시간이 0.5초라고 가정한다. 또한, 10개의 이미지 프레임들이 0.5초에 대응한다고 가정한다. 만약 이미지 프레임들이 프로세싱되어 [0.75, 0.85, 0.5, 0.4, 0.9, 0.95, 0.85, 0.89, 0.6, 0.85]의 확률들을 발생시킨다면, 지향된 응시가 검출될 수 있는데, 왜냐하면 프레임들의 70%가 0.7보다 큰 확률을 갖는 지향된 응시를 표시했기 때문이다. 이러한 방식들 및 다른 방식들에서, 사용자가 자신의 응시 방향을 잠시 딴 곳으로 돌리는 경우에도, 지향된 응시가 검출될 수 있다. 추가적인 그리고/또는 대안적인 머신 러닝 모델들(예컨대, RNN 모델들) 및/또는 기법들이 적어도 임계 지속시간을 갖고 일어난 지향된 응시를 검출하기 위해 이용될 수 있다.
본 명세서에서 설명되는 바와 같이, 다양한 구현예들에서, 자동화된 어시스턴트(120)와의 핫-워드 프리 상호작용은, 사용자의 지향된 응시의 발생을 결정하는 것에 의존할 수 있고, 그리고 선택에 따라서는 사용자 입력(예를 들어, 발성된 입력 및/또는 터치-프리 제스처 입력) 동안의 지향된 응시의 계속되는 발생을 결정하는 것에 근거할 수 있다. 예를 들어, 다양한 구현예들에서, 적응 엔진(115)은, 사용자의 지향된 응시가 결정되고, 사용자 입력 동안(예를 들어, 엔드포인트가 검출될 때까지) 계속되는 경우에만, 사용자 입력을 캡처한 비전 데이터 및/또는 오디오 데이터의 특정 프로세싱을 개시할 것이다.
예를 들어, 비전 데이터 및/또는 오디오 데이터를 클라우드-기반 자동화된 어시스턴트 컴포넌트(들)(130)에 전송하여 이러한 데이터에 근거하는 응답을 발생시키는 것은 계속되는 지향된 응시에 의존할 수 있다. 더욱이, 인간 인지가능 신호(들)가, (선택에 따라서는 다른 속성(들)과 함께) 지향된 응시가 검출되고 있다는 것을 사용자에게 알려주기 위해 제공될 수 있고, 그럼으로써 특정 프로세싱의 개시를 방지하기 위해, 또는 (만약 이미 개시된 경우라면) 특정 프로세싱을 중지시키기 위해 사용자에게 자신의 눈들을 딴 곳으로 돌리도록 하는 능력을 제공하게 된다. 이러한 방식들 및 다른 방식들에서, 불필요한 프로세싱 및/또는 전송들이, 일어나는 것으로부터 빨리 중지 혹은 방지될 수 있다. 본 명세서에서 또한 설명되는 바와 같이, 다양한 구현예들에서, 적응 엔진(115)의 하나 이상의 다른 모듈(들)은, 지향된 응시가 응시 모듈(1151)에 의해 검출된 경우에만 대응하는 센서 데이터를 프로세싱할 수 있고, 그리고/또는 프로세싱을 지향된 응시에 대응하는 센서 데이터에 한정할 수 있다. 이러한 구현예들은 또한, 본 명세서에서 설명되는 바와 같이 클라이언트 디바이스(101)에서 다양한 효율들을 발생시킨다.
거리 모듈(1152)은, (응시 모듈(1151)에 의해 결정되는 바와 같은) 지향된 응시를 제공하고 있는 사용자의 추정된 거리를 결정하기 위해 시각적 캡처 모듈(114)로부터의 비전 데이터 및/또는 다른 센서 데이터를 프로세싱한다. 본 명세서에서 설명되는 바와 같이(예컨대, 도 2b), 일부 구현예들에서, 거리 모듈(1152)은, 단지 비전 데이터의 인간 및/또는 얼굴 영역(들)만을 프로세싱할 수 있는데, 이것은 업스트림 검출 및 분류 모델을 사용하여 이러한 영역(들)을 검출하는 것에 근거하여 이루어질 수 있다. 더욱이, 일부 추가적인 혹은 대안적인 구현예들에서, 거리 모듈(1152)은 응시 모듈(1151)이 지향된 응시의 발생을 검출함에 응답하여서만 비전 데이터를 프로세싱할 수 있다. 예를 들어, 거리 모듈(1152)은 선택에 따라서는 지향된 응시를 갖는 것으로서 응시 모듈(1151)에 의해 결정된 사용자에 대한 인간 및/또는 얼굴 영역(들)에만 대응하는 비전 데이터를 프로세싱할 수 있다. 거리 모듈(1152)을 사용하여 단지 선택적 프로세싱을 행함으로써(예를 들어, 응시 모듈(1151)이 지향된 응시의 발생을 검출함에 응답하여서만 프로세싱을 행함으로써), 그리고/또는 단지 비전 데이터의 특정 영역(들)을 프로세싱함으로써(예를 들어, 지향된 응시를 포함하는 부분(들)에 대응하는 영역들만을 프로세싱함으로써), 클라이언트 디바이스(101)의 리소스들이 보존될 수 있다.
거리 모듈(1152)은 선택에 따라서는 거리를 검출하기 위해 하나 이상의 거리 머신 러닝 모델들(1162)을 사용할 수 있다. 이러한 머신 러닝 모델은 예를 들어, 컨볼루션 뉴럴 네트워크(CNN) 모델과 같은 뉴럴 네트워크 모델일 수 있다. 이러한 CNN 모델의 훈련은, 훈련 사례 입력으로서 비전 프레임(들)(예컨대, 단일 사용자의 단지 얼굴 및/또는 신체 영역들만을 포함하는 이미지)을 포함하고 훈련 사례 출력으로서 사용자의 거리를 표시하는 값(들)을 포함하는 훈련 사례들에 근거할 수 있다. 예를 들어, 훈련 사례 출력은 원-핫 벡터(one-hot vector)일 수 있는데, 여기서 벡터의 값들은 각각 상이한 거리(혹은 거리들의 범위)에 대응하고, "핫(hot)" 벡터는 지상 실측 거리(혹은 거리 범위)를 표시한다. 다른 구현예들에서, 거리 모듈(1152)은 선택에 따라서는 거리 머신 러닝 모델(1162)의 직접적인 이용 없이 거리를 결졍할 수 있다. 예를 들어, 거리 모듈(1152)에는, 업스트림 모델 및/또는 응시 모듈(1151)로부터의 출력에 근거하여, 지향된 응시를 갖는 사용자에 대응하는 것으로 결정된 얼굴 영역만을 포함하는 비전 데이터가 제공될 수 있다. 더욱이, 거리 모듈(1152)은, 비전 데이터에서 사용자의 눈들 간의 거리(눈들의 위치는 선택에 따라서는 업스트림 모델에 의해 표시될 수 있음), 비전 데이터에서 사용자의 머리 크기, 그리고/또는 비전 데이터에서 사용자의 다른 속성(들)에 근거하여, 사용자의 거리를 추정할 수 있다.
입/목소리 모듈(1153)은 입 움직임의 발생 그리고/또는 입 움직임과 목소리 활동의 동시-발생을 결정하기 위해 하나 이상의 입/목소리 머신 러닝 모델들(1163)을 사용할 수 있다. 일부 구현예들에서, 입/목소리 모듈(1153)은 오로지 입 움직임의 발생만을 결정하고, 그리고 선택에 따라서는 입 움직임에 대한 하나 이상의 신뢰도 메트릭들을 결정한다.
일부 구현예들에서, 입/목소리 모듈(1153)은 추가적으로 혹은 대안적으로 입 움직임과 목소리 활동의 동시-발생을 결정하고, 그리고 선택에 따라서는 하나 이상의 대응하는 신뢰도 메트릭들을 결정한다. 이러한 구현예들 중 일부에서, 입 움직임과 목소리 활동의 결정된 동시-발생은 입 움직임과 움직이는 입으로부터의 목소리 활동의 동시-발생이다. 이러한 구현예들 중 일부에서, 이용되는 입/목소리 머신 러닝 모델(1163)은 예를 들어, 하나 이상의 기억 계층(memory layer)들을 포함하는 RNN 모델과 같은 뉴럴 네트워크 모델일 수 있다. 예를 들어, 머신 러닝 모델은, 비전 데이터에 캡처된 사용자가 실제로 발성하고 있는지 여부의 확률(신뢰도 메트릭)을 발생시키기 위해 시각적 캡처 모듈(114)로부터의 비전 데이터(예를 들어, 사용자의 얼굴 영역을 포함하는 비전 데이터) 및 음성 캡처 모듈(112)로부터의 오디오 데이터를 프로세싱하도록 훈련된 모델일 수 있다.
이러한 머신 러닝 모델의 훈련은, 훈련 사례 입력으로서 비전 프레임들의 시퀀스(예를 들어, 사용자의 얼굴 영역들만을 포함하는 이미지들의 시퀀스), 및 오디오 데이터 프레임들의 시퀀스를 포함하는 훈련 사례들에 근거할 수 있다. 오디오 데이터 프레임들의 시퀀스는 비전 프레임들의 시퀀스와 시간적으로(temporally) 중첩(overlap)될 수 있지만, 비전 프레임들의 시퀀스는 선택에 따라서는 오디오 데이터 프레임들의 시퀀스와는 다른 지속시간(예를 들어, 더 짧은 지속시간)을 가질 수 있다. 훈련 사례들은 또한, 훈련 사례 출력으로서, 움직이고 있는 입으로부터의 목소리 활동과 결합된 입 움직임을 시퀀스들이 포함하는지 여부의 표시를 포함할 수 있다. 달리 말하면, 이미지들의 시퀀스에 의해 얼굴이 캡처된 사용자가 발성하고 있는지 여부의 표시. 예를 들어, 훈련 사례 출력은 이미지들의 시퀀스에 의해 얼굴이 캡처된 사용자가 발성하고 있는지 여부를 표시하는 단일 값일 수 있다. 예를 들어, 만약 아니라면 단일 값은 "0"일 수 있고, 만약 그렇다면 "1"일 수 있다. 비전 데이터 및 중첩되는 오디오 데이터 양쪽 모두에 관해 훈련된 이러한 모델은, (1) 입 움직임과 동시-발생한 그리고 입 움직임의 결과인 목소리 활동과 (2) 입 움직임으로부터 나오지 않은 하지만 단지 비-발성 입 움직임과 동시-발생이 일어난 목소리 활동을 구별할 수 있음에 유의해야 한다. 예를 들어, 훈련 사례들은, 비전 데이터에서 비-발성 입 움직임, 그리고 오디오 데이터에서 목소리 활동(예를 들어, 또 하나의 다른 사용자로부터의 목소리 활동, 텔레비전으로부터의 목소리 활동, 그리고/또는 다른 소스(들)로부터의 목소리 활동)을 포함하는 훈련 사례 입력을 갖는 훈련 사례들을 포함할 수 있고, 그리고 이미지들의 시퀀스에 의해 얼굴이 캡처된 사용자가 발성하고 있지 않음을 표시하는 훈련 사례 출력을 포함하는 훈련 사례들을 포함할 수 있다. 이러한 훈련 사례들에 관한 훈련은 훈련된 모델이, (1) 입 움직임과 동시-발생한 그리고 입 움직임의 결과인 목소리 활동과 (2) 입 움직임으로부터 나오지 않은 하지만 단지 비-발성 입 움직임과 동시-발생이 일어난 목소리 활동을 구분하기 위해, 이용될 수 있게 한다. 이것은, 관련없는 목소리 활동(예를 들어, 텔레비전(들)으로부터의 목소리 활동) 그리고/또는 단지 사용자(예를 들어, 지향된 응시를 갖는 것으로 응시 모듈(1151)에 의해 결정된 사용자)로부터의 입 움직임과 동시-발생이 일어난 다른 소스(들)로 인한 허위 양성들의 발생을 감소시킬 수 있고, 그럼으로써 적응 엔진(115)에 의한 다양한 컴퓨팅연산적 그리고/또는 네트워크 집약적 어시스턴트 기능(들)의 불필요한 적응의 발생을 감소시키게 된다.
본 명세서에서 설명되는 바와 같이(예컨대, 도 2b), 일부 구현예들에서, 입/목소리 모듈(1153)은, 단지 비전 데이터의 인간 및/또는 얼굴 영역(들)만을 프로세싱할 수 있는데, 이것은 업스트림 검출 및 분류 모델을 사용하여 이러한 영역(들)을 검출하는 것에 근거하여 이루어질 수 있다. 더욱이, 일부 추가적인 혹은 대안적인 구현예들에서, 입/목소리 모듈(1153)은 응시 모듈(1151)이 지향된 응시의 발생을 검출함에 응답하여서만 비전 데이터를 프로세싱할 수 있다. 예를 들어, 입/목소리 모듈(1153)은 선택에 따라서는 지향된 응시를 갖는 것으로서 응시 모듈(1151)에 의해 결정된 사용자에 대한 인간 및/또는 얼굴 영역(들)에만 대응하는 비전 데이터를 프로세싱할 수 있다. 입/목소리 모듈(1153)을 사용하여 단지 선택적 프로세싱을 행함으로써(예를 들어, 응시 모듈(1151)이 지향된 응시의 발생을 검출함에 응답하여서만 프로세싱을 행함으로써), 그리고/또는 단지 비전 데이터의 특정 영역(들)을 프로세싱함으로써(예를 들어, 지향된 응시를 포함하는 부분(들)에 대응하는 영역들만을 프로세싱함으로써), 클라이언트 디바이스(101)의 리소스들이 보존될 수 있다.
다양한 구현예들에서, 입/목소리 모듈(1153)은 입 움직임이 적어도 임계 확률을 갖고 검출된 경우에만, 그리고/또는 적어도 임계 지속시간 동안 검출된 경우에만 입 움직임의 발생을 결정할 수 있다. 예를 들어, 이미지 프레임들 및 오디오 데이터 프레임들의 스트림은 입/목소리 모델(들)(1163)의 시퀀스-대-시퀀스 RNN 모델을 사용하여 프로세싱될 수 있고, 그리고 프레임들 각각을 프로세싱하는 것은 결과적으로 입 움직임과 (움직이는 입으로부터의) 목소리 활동이 동시-발생하고 있을 대응하는 확률을 발생시킬 수 있다(이것은 네트워크의 순환적 성질(recurrent nature)로 인해, 이전의 프레임(들)에 근거할 수 있음). 입/목소리 모듈(1153)은, (임계 지속시간에 대응하는) 프레임들의 시퀀스의 적어도 X%가 임계치를 만족시키는 대응하는 확률을 갖는 경우에만 입 움직임과 목소리 활동의 동시-발생이 존재한다고 결정할 수 있다. 추가적인 그리고/또는 대안적인 머신 러닝 모델들 및/또는 기법들이 입 움직임을 검출하기 위해 그리고/또는 입 움직임과 목소리 활동의 동시-발생을 검출하기 위해 이용될 수 있다.
얼굴 인식 모듈(1154)은, 인식된 얼굴의 발생을 결정하기 위해 그리고/또는 인식된 얼굴과 관련된 계정 식별자(account identifier)를 결정하기 위해 하나 이상의 얼굴 인식 머신 러닝 모델들(1164)을 사용할 수 있다. 본 명세서에서 설명되는 바와 같이(예컨대, 도 2b), 일부 구현예들에서, 얼굴 인식 모듈(1154)은, 단지 비전 데이터의 인간 및/또는 얼굴 영역(들)만을 프로세싱할 수 있는데, 이것은 업스트림 검출 및 분류 모델을 사용하여 이러한 영역(들)을 검출하는 것에 근거하여 이루어질 수 있다. 더욱이, 일부 추가적인 혹은 대안적인 구현예들에서, 얼굴 인식 모듈(1154)은 응시 모듈(1151)이 지향된 응시의 발생을 검출함에 응답하여서만 비전 데이터를 프로세싱할 수 있다. 예를 들어, 얼굴 인식 모듈(1154)은 선택에 따라서는 지향된 응시를 갖는 것으로서 응시 모듈(1151)에 의해 결정된 사용자에 대한 인간 및/또는 얼굴 영역(들)에만 대응하는 비전 데이터를 프로세싱할 수 있다. 얼굴 인식 모듈(1154)을 사용하여 단지 선택적 프로세싱을 행함으로써(예를 들어, 응시 모듈(1151)이 지향된 응시의 발생을 검출함에 응답하여서만 프로세싱을 행함으로써), 그리고/또는 단지 비전 데이터의 특정 영역(들)을 프로세싱함으로써(예를 들어, 지향된 응시를 포함하는 부분(들)에 대응하는 영역들만을 프로세싱함으로써), 클라이언트 디바이스(101)의 리소스들이 보존될 수 있다.
얼굴 인식 모듈(1154)은 선택에 따라서는 하나 이상의 얼굴 인식 머신 러닝 모델들(1164)을 사용할 수 있다. 예를 들어, 이러한 머신 러닝 모델은 예컨대, CNN 모델 및/또는 RNN 모델과 같은 뉴럴 네트워크 모델일 수 있다. 다양한 구현예들에서, 시각적 캡처 모듈(114)로부터의 이미지(들)는 하나 이상의 얼굴 임베딩(face embedding)들을 발생시키기 위해 얼굴 인식 머신 러닝 모델(들)(1164)을 사용하여 프로세싱되고, 그리고 얼굴 임베딩(들)은 클라이언트 디바이스(101)에 등록(register)된 하나 이상의 사용자 계정들/프로파일(profile)들에 대한 로컬로 저장된 임베딩(들)과 비교된다. 일부 구현예들에서, 적응 엔진(115)에 의해 하나 이상의 기능(들)을 적응시키는 것은, 지향된 응시를 제공하는 사용자가 인식된 사용자(예를 들어, 자동화된 어시스턴트 클라이언트(110)에 등록된 사용자)라고 얼굴 인식 모듈(1154)이 결정하는 것에 의존할 수 있다. 일부 추가적인 혹은 대안적인 구현예들에서, 인식된 얼굴과 관련된 계정 식별자는 발성된 발언을 캡처한 오디오 데이터의 프로세싱에 근거하는 텍스트-독립적 발성자 식별에 근거하여 결정된 계정 식별자와 비교될 수 있다. 이러한 구현예들 중 일부에서, 발성된 발언에 대한 응답의 특정 프로세싱 및/또는 제공은 비교가 동일한 계정 식별자들을 표시하는 것에 의존할 수 있다. 이러한 방식들 및 다른 방식들에서, 발성된 발언이 지향된 응시를 또한 제공하고 있는 동일한 사용자에 의해 제공되는 것이 검증될 수 있다(왜냐하면 얼굴 인식은 지향된 응시를 제공하는 사용자에 관해 수행될 수 있기 때문임). 이것은, 지향된 응시를 제공하는 사용자가 아닌 사용자(혹은 다른 소스)로부터 나온 발성된 발언에 대한 응답을 비의도적으로 발생시키는 것 그리고/또는 제공하는 것을 방지할 수 있다. 텍스트-독립적 발성자 식별(Text-Independent Speaker IDentification)은 (본 명세서에서 설명되는) TI-SID 모듈(142)에 의해 수행될 수 있는데, 이러한 TI-SID 모듈(142)은 클라우드-기반 자동화된 어시스턴트 컴포넌트(들)(130)에서 구현될 수 있거나, 또는 선택에 따라서는 클라이언트 디바이스(101) 자체에서 구현될 수 있다.
목소리 활동 모듈(1155)은 목소리 활동의 발생 및 선택에 따라서는 목소리 활동에 대한 대응하는 신뢰도 메트릭(들)을 결정하기 위해 하나 이상의 목소리 활동 머신 러닝 모델들(1165)을 사용할 수 있다. 목소리 활동 모듈(1155)은 음성 캡처 모듈(112)로부터의 오디오 데이터를 프로세싱할 수 있는데, 이것은 오디오 데이터가 인간 음성을 포함할 대응하는 확률을 발생시키기 위해 머신 러닝 모델(들)을 사용하여 이루어질 수 있다. 일부 구현예들에서, 머신 러닝 모델(들)(1165)은 훈련 사례들에 근거하여 훈련되는 RNN을 포함하는데, 이러한 훈련 사례들 각각은 훈련 사례 입력으로서 오디오 프레임들의 대응하는 시퀀스를 포함하고, 그리고 훈련 사례 출력으로서 인간 음성이 오디오 프레임들의 시퀀스 내에 포함되어 있는지 여부를 표시하는 대응하는 라벨을 포함한다. 일부 구현예들에서, 목소리 인식 모듈(1155)은, 단지 응시 모듈(1151)이 지향된 응시의 발생을 검출함에 응답하여, 그리고/또는 적응 엔진(115)의 다른 모듈(들)로부터의 다른 결정(들) 및/또는 발생(들)에 응답하여, 오디오 데이터를 프로세싱할 수 있다.
다른 모듈(들)(1156)은 선택에 따라서는 하나 이상의 다른 머신 러닝 모델들(1166)을 이용하여 하나 이상의 다른 속성(들)의 발생을 결정할 수 있다. 하나의 비-한정적 예로서, 다른 모듈(들)(1156)은, 하나 이상의 제스처들(예를 들어, 하나 이상의 미리정의된 제스처들 중 임의의 제스처)의 발생을 결정하기 위해 그리고 선택에 따라서는 제스처(들)의 라벨(들) 혹은 다른 식별자(들)를 결정하기 위해 하나 이상의 제스처 모델들을 사용하여 시각적 모듈(114)로부터의 비전 데이터를 프로세싱하는 제스처 모듈을 포함할 수 있다. 일부 구현예들에서, 이러한 제스처 모듈은, 단지 비전 데이터의 인간 영역(들)만을 프로세싱할 수 있는데, 이것은 업스트림 검출 및 분류 모델을 사용하여 이러한 영역(들)을 검출하는 것에 근거하여 이루어질 수 있다. 더욱이, 일부 추가적인 혹은 대안적인 구현예들에서, 제스처 모듈은 응시 모듈(1151)이 지향된 응시의 발생을 검출함에 응답하여서만 비전 데이터를 프로세싱할 수 있다. 예를 들어, 제스처 모듈은 선택에 따라서는 지향된 응시를 갖는 것으로서 응시 모듈(1151)에 의해 결정된 사용자에 대한 인간 및/또는 얼굴 영역(들)에만 대응하는 비전 데이터를 프로세싱할 수 있다. 제스처 모듈을 사용하여 단지 선택적 프로세싱을 행함으로써(예를 들어, 응시 모듈(1151)이 지향된 응시의 발생을 검출함에 응답하여서만 프로세싱을 행함으로써), 그리고/또는 단지 비전 데이터의 특정 영역(들)을 프로세싱함으로써(예를 들어, 지향된 응시를 제공한 사용자의 부분(들)에 대응하는 영역들만을 프로세싱함으로써), 클라이언트 디바이스(101)의 리소스들이 보존될 수 있다.
적응 엔진(115)에 의한 센서 데이터 프로세싱을 적응시키는 하나의 비-한정적 예로서, 적응 엔진(115)의 모듈(들)에 의한 하나 이상의 속성들의 발생을 결정하기 전에, 클라이언트 디바이스(101)에서 캡처된 비전 데이터 및/또는 오디오 데이터는 클라이언트 디바이스(101)에서 단지 로컬로만 프로세싱될 수 있고 그리고/또는 임시로 버퍼링될 수 있다(즉, 이것은 클라우드-기반 자동화된 어시스턴트 컴포넌트(들)(130)로의 전송 없이 일어날 수 있음). 하지만, 속성(들)의 발생 및/또는 대응하는 신뢰도 메트릭(들)을 결정함에 응답하여, 이러한 프로세싱은 오디오 데이터 및/또는 비전 데이터(예를 들어, 최근에 버퍼링된 데이터 및/또는 결정 이후 수신된 데이터)를 후속 프로세싱을 위해 클라우드-기반 자동화된 어시스턴트 컴포넌트(들)(130)로 전송하도록 함으로써 적응될 수 있다. 따라서, 사용자의 발성된 발언 및/또는 사용자의 터치-프리 제스처가 자동화된 어시스턴트(120)에 의해 완전히 프로세싱되도록 하기 위해 명시적 호출 어구(예를 들어, "오케이 어시스턴트(OK Assistant)")를 사용자가 발성할 필요성이 제거될 수 있고, 그리고 자동화된 어시스턴트(120)에 의해 발생된 응답형 콘텐츠가 사용자에게 렌더링된다.
예를 들어, 사용자가 오늘의 일기예보(forecast)를 얻기 위해 "오케이 어시스턴트, 오늘의 일기예보는 뭐지?"라고 발성할 필요가 있는 것이 아니라, 사용자는 대신, 클라이언트 디바이스(101)를 볼 수 있고 그리고 클라이언트 디바이스(101)를 보는 동안 또는 클라이언트 디바이스(101)를 보는 것에 시간적으로 가까이에서(예를 들어, 클라이언트 디바이스(101)를 보는 것 이전의 시간의 임계치 내에 그리고/또는 클라이언트 디바이스(101)를 보는 것 이후의 시간의 임계치 내에) 단지 "오늘의 일기예보는 뭐지"라고만 발성할 수 있다. 지향된 응시 및 하나 이상의 다른 조건(들)을 검출함에 응답하여, 발성된 발언 "오늘의 일기예보는 뭐지?"에 대응하는 데이터(예를 들어, 발성된 발언을 캡처한 오디오 데이터, 또는 발성된 발언의 텍스트 혹은 다른 시맨틱 변환)가 클라이언트 디바이스(101)에 의해 클라우드-기반 자동화된 어시스턴트 컴포넌트(들)(130)로 전송될 수 있다. 다른 조건(들)은 예를 들어, 지향된 응시 동안 ("오늘의 날씨 예보는 뭐지"의 일부분들 혹은 모두를 발성함으로써 초래된) 입 움직임과 목소리 활동의 동시-발생을 포함할 수 있고, 그리고 선택에 따라서는 지향된 응시 및/또는 발성 동안 사용자의 거리에 근거할 수 있다. 또 하나의 다른 예에서, 사용자가, 연결된 서모스탯(thermostat)을 통해 자신의 집의 온도를 증가시키기 위해 "오케이 어시스턴트, 열을 올려(OK Assistant, turn up the heat)"라고 발성할 필요가 있는 것이 아니라, 사용자는 대신, 클라이언트 디바이스(101)를 볼 수 있고 그리고 클라이언트 디바이스(101)를 보는 동안 또는 클라이언트 디바이스(101)를 보는 것에 시간적으로 가까이에서(예를 들어, 클라이언트 디바이스(101)를 보는 것 이전의 시간의 임계치 내에 그리고/또는 클라이언트 디바이스(101)를 보는 것 이후의 시간의 임계치 내에) 단지 "열을 올려"라고만 발성할 수 있다. 또 하나의 다른 예에서, 사용자가, 자신의 차고(garage)를 열기 위해 "오케이 어시스턴트, 차고 문을 열어(OK Assistant, open the garage door)"라고 발성할 필요가 있는 것이 아니라, 사용자는 대신, 클라이언트 디바이스(101)를 볼 수 있고 그리고 클라이언트 디바이스(101)를 보는 동안 또는 클라이언트 디바이스(101)를 보는 것에 시간적으로 가까이에서(예를 들어, 클라이언트 디바이스(101)를 보는 것 이전의 시간의 임계치 내에 그리고/또는 클라이언트 디바이스(101)를 보는 것 이후의 시간의 임계치 내에) 단지 "차고 문을 열어"라고만 발성할 수 있다.
일부 구현예들에서, 음성 캡처 모듈(112)은 또한, 예를 들어, 음성-대-텍스트(Speech-To-Text)("STT") 프로세싱 기법들을 사용하여, 그 캡처된 오디오를 텍스트로 변환하도록 그리고/또는 다른 표현들 혹은 임베딩들로 변환하도록 구성될 수 있다. 더욱이, 자동화된 어시스턴트 클라이언트(110)의 별개의 모듈(들)은, 음성 표현에 관한 로컬 자연 언어 프로세싱을 수행하도록 구성될 수 있고, 그리고 선택에 따라서는 자연 언어 프로세싱에 근거하여 응답을 로컬로 발생시키도록 구성될 수 있다. 이러한 구현예들에서, 로컬 음성 프로세싱, 로컬 자연 언어 프로세싱, 그리고/또는 로컬 응답 발생은 적응 엔진(115)에 의해 적응되는 기능(들)일 수 있다. 예를 들어, 로컬 음성 프로세싱, 로컬 자연 언어 프로세싱, 그리고/또는 로컬 응답 발생은, 적응 엔진(115)이 하나 이상의 속성(들)이 발생하고 있음을 결정할 때까지 휴면상태에 있을 수 있다. 하지만, 클라이언트 디바이스(101)는 컴퓨팅 리소스들(예를 들어, 프로세서 사이클(processor cycle)들, 메모리, 배터리, 등)의 측면에서 상대적으로 제약을 받을 수 있기 때문에, 다른 음성 입력은 클라우드-기반 STT 모듈(132)을 포함할 수 있는 클라우드-기반 자동화된 어시스턴트 컴포넌트들(130)로 전송될 수 있다.
클라우드-기반 STT 모듈(132)은 음성 캡처 모듈(112)에 의해 캡처된 오디오 데이터를 텍스트로 변환하기 위해 클라우드의 사실상 무한한 리소스들을 활용(leverage)하도록 구성될 수 있고, 여기서 텍스트는 그 다음에 자연 언어 이해 모듈(natural language understanding module)(135)에 제공될 수 있다. 일부 구현예들에서, 클라우드-기반 STT 모듈(132)은 음성의 오디오 레코딩(audio recording)을 하나 이상의 음소(phoneme)들로 변환할 수 있고, 그 다음에 하나 이상의 음소들을 텍스트로 변환할 수 있다. 추가적으로 혹은 대안적으로, 일부 구현예들에서, STT 모듈(132)은 상태 디코딩 그래프(state decoding graph)를 이용할 수 있다. 일부 구현예들에서, STT 모듈(132)은 사용자의 발언의 복수의 후보 텍스트 해석(candidate textual interpretation)들을 발생시킬 수 있고, 그리고 주어진 해석을 후보들로부터 선택하기 위해 하나 이상의 기법들을 이용할 수 있다.
클라우드-기반 TTS 모듈(131)은 텍스트 데이터(예를 들어, 자동화된 어시스턴트(120)에 의해 만들어진 자연 언어 응답들)을 컴퓨터-발생 음성 출력(computer-generated speech output)으로 변환하기 위해 클라우드의 사실상 무한한 리소스들을 활용하도록 구성될 수 있다. 일부 구현예들에서, TTS 모듈(131)은 예를 들어, 하나 이상의 스피커들을 사용하여 직접적으로 출력되도록 하기 위해, 컴퓨터-발생 음성 출력을 클라이언트 디바이스(101)에 제공할 수 있다. 다른 구현예들에서, 자동화된 어시스턴트(120)에 의해 발생된 텍스트 데이터(예를 들어, 자연 언어 응답들)는 클라이언트 디바이스(101)에 제공될 수 있고, 그 다음에 클라이언트 디바이스(101)의 로컬 TTS 모듈은 텍스트 데이터를 컴퓨터-발생 음성으로 변환할 수 있고, 이러한 컴퓨터-발생 음성은 로컬로 출력된다.
자동화된 어시스턴트(120)(예를 들어, 클라우드-기반 자동화된 어시스턴트 컴포넌트들(130))는 의도 이해 모듈(intent understanding module)(135), 앞서언급된 TTS 모듈(131), 앞서언급된 STT 모듈(132), 그리고 본 명세서에서 더 상세히 설명되는 다른 컴포넌트들을 포함할 수 있다. 일부 구현예들에서, 자동화된 어시스턴트(120)의 모듈들 및/또는 모듈들 중 하나 이상은 생략될 수 있고, 결합될 수 있고, 그리고/또는 자동화된 어시스턴트(120)로부터 분리된 컴포넌트 내에 구현될 수 있다. 일부 구현예들에서, 의도 이해 모듈(135), TTS 모듈(131), STT 모듈(132), 등과 같은 자동화된 어시스턴트(120)의 컴포넌트들 중 하나 이상은 클라이언트 디바이스(101) 상의 적어도 일부분 상에 (예를 들어, 클라우드-기반 구현들과 결합되어 또는 클라우드-기반 구현들을 배제하고) 구현될 수 있다.
의도 이해 모듈(135)의 자연 언어 프로세서(133)는 클라이언트 디바이스(101)를 통해 사용자(들)에 의해 발생된 자연 언어 입력을 프로세싱하고, 그리고 자동화된 어시스턴트(120)의 하나 이상의 다른 컴포넌트들에 의한 사용을 위해 (예를 들어, 텍스트 형태의) 주석이 달린 출력(annotated output)을 발생시킬 수 있다. 예를 들어, 자연 언어 프로세서(133)는 클라이언트 디바이스(101)의 하나 이상의 사용자 인터페이스 입력 디바이스들을 통해 사용자에 의해 발생되는 자연 언어 자유-형태 입력(natural language free-form input)을 프로세싱할 수 있다. 발생된 주석이 달린 출력은 자연 언어 입력의 하나 이상의 주석(annotation)들 및 자연 언어 입력의 용어(term)들 중 하나 이상의(예를 들어, 모든) 용어들을 포함한다.
일부 구현예들에서, 자연 언어 프로세서(133)는 자연 언어 입력에서의 문법적 정보의 다양한 타입들을 식별하고 주석을 달도록 구성된다. 예를 들어, 자연 언어 프로세서(133)는 개개의 워드(word)들을 형태소(morpheme)들로 분리할 수 있고 그리고/또는 형태소들에 주석을 달 수 있는(예를 들어, 그들의 클래스(class)들로 주석을 달 수 있는) 형태학적 모듈(morphological module)을 포함할 수 있다. 자연 언어 프로세서(133)는 또한 용어들에 주석을 달되 그들의 문법적 역할(grammatical role)들로 주석을 달도록 구성된 품사 태거(a part of speech tagger)를 포함할 수 있다. 또한, 예를 들어, 일부 구현예들에서, 자연 언어 프로세서(133)는 추가적으로 그리고/또는 대안적으로, 자연 언어 입력에서의 용어들 간의 구문론적 관계(syntactic relationship)들을 결정하도록 구성된 종속성 파서(dependency parser)(미도시)를 포함할 수 있다.
일부 구현예들에서, 자연 언어 프로세서(133)는 추가적으로 그리고/또는 대안적으로, (예컨대, 문학적 인물(literary character)들, 유명인(celebrity)들, 공인(public figure)들, 등을 포함하는) 사람들, 단체(organization)들, (실제 및 상상의) 위치들, 등에 대한 참조(reference)들과 같은, 하나 이상의 세그먼트(segment)들에서 엔티티 참조(entity reference)들에 주석을 달도록 구성된 엔티티 태거(entity tagger)(미도시)를 포함할 수 있다. 일부 구현예들에서, 자연 언어 프로세서(133)는 추가적으로 그리고/또는 대안적으로, 하나 이상의 맥락적 신호(contextual cue)들에 근거하여 동일한 엔티티에 대한 참조들을 그룹화(group) 혹은 "클러스터화(cluster)"하도록 구성된 동시참조 해결기(coreference resolver)(미도시)를 포함할 수 있다. 일부 구현예들에서, 자연 언어 프로세서(133)의 하나 이상의 컴포넌트들은 자연 언어 프로세서(133)의 하나 이상의 다른 컴포넌트들로부터의 주석들에 의존할 수 있다.
의도 이해 모듈(135)은 또한, 자동화된 어시스턴트(120)와의 상호작용에 참여한 사용자의 의도를 결정하도록 구성된 의도 매칭기(intent matcher)(134)를 포함할 수 있다. 도 1에서는 자연 언어 프로세서(133)로부터 분리되어 도시되어 있지만, 다른 구현예들에서, 의도 매칭기(134)는 자연 언어 프로세서(133)의 통합된 부분(integral part)일 수 있다(또는 더 일반적으로는 자연 언어 프로세서(133)를 포함하는 파이프라인(pipeline)의 통합된 부분일 수 있음). 일부 구현예들에서, 자연 언어 프로세서(133) 및 의도 매칭기(134)는 집합적으로 앞서언급된 의도 이해 모듈(135)을 형성할 수 있다.
의도 매칭기(134)는, 예를 들어, (자연 언어 입력의 용어들 및 주석들을 포함할 수 있는) 자연 언어 프로세서(133)로부터의 출력에 근거하여, 클라이언트 디바이스(101)의 터치-감지 디스플레이에서의 사용자 터치 입력들에 근거하여, 그리고/또는 비전 데이터에서 검출된 터치-프리 제스처들 및/또는 다른 시각적 신호들에 근거하여, 사용자의 의도를 결정하기 위한 다양한 기법들을 사용할 수 있다. 일부 구현예들에서, 의도 매칭기(134)는, 예를 들어, 문법들과 응답형 액션들(또는 더 일반적으로는 의도들) 간의 복수의 맵핑들, 시각적 신호들과 응답형 액션들 간의 복수의 맵핑들, 그리고/또는 터치 입력들과 응답형 액션들 간의 복수의 맵핑들을 포함하는 하나 이상의 데이터베이스들(미도시)에 대한 액세스를 가질 수 있다. 예를 들어, 이러한 맵핑들에 포함되는 문법들은 시간 경과에 따라 선택될 수 있고 그리고/또는 학습될 수 있으며, 그리고 사용자들의 공통의 의도들을 나타낼 수 있다. 예를 들어, 하나의 문법, "<예술가> 재생"("play <artist>")은, <예술가>에 의한 음악이 사용자에 의해 동작되는 클라이언트 디바이스(101) 상에서 재생되도록 하는 응답형 액션을 호출하는 의도에 맵핑될 수 있다. 또 하나의 다른 문법, "오늘 [날씨 | 일기예보]"("[weather | forecast] today")는 "오늘 날씨는 뭐죠(what's the weather today)" 및 "오늘에 대한 일기예보는 뭐죠?(what's the forecast for today?)"와 같은 사용자 질의(query)들에 매칭가능할 수 있다. 또 하나의 다른 예로서, 시각적 신호 대 액션 맵핑들은 복수의 사용자들(예를 들어, 모든 사용자들)에 적용가능한 "범용(general)" 맵핑들 그리고/또는 사용자-특정 맵핑들을 포함할 수 있다. 시각적 신호 대 액션 맵핑들의 일부 예들은 제스처들에 대한 맵핑들을 포함한다. 예컨대, "손을 흔드는(wave)" 제스처는 (제스처를 제공하는 사용자에 대해 맞춤 제작된) 맞춤형 콘텐츠(tailored content)가 사용자에게 렌더링되도록 하는 액션에 맵핑될 수 있고, "엄지손가락을 치켜세우는(thumbs up)" 제스처는 "음악 재생" 액션에 맵핑될 수 있고, 그리고 "하이 파이브(high five)" 제스처는, 스마트 커피 메이커(smart coffee maker)를 켜는 것, 특정 스마트 조명(smart light)들을 켜는 것, 그리고 뉴스 개요를 청취가능하게 렌더링하는 것과 같은, 수행될 자동화된 어시스턴트 액션들의 "루틴(routine)"에 맵핑될 수 있다. 본 명세서에서 설명되는 바와 같이, 일부 제스처 대 액션 맵핑들은 주어진 제스처에 대해 그 주어진 제스처에 맵핑된 다수의 액션들을 포함할 수 있다. 이러한 구현예들 중 일부에서, 의도 매칭기(134)는 주어진 제스처에 대해 그 주어진 제스처가 일어난 때 클라이언트 디바이스(101)에 의해 렌더링되고 있는 콘텐츠에 적어도 부분적으로 근거하여 다수의 액션들 중 하나를 선택할 수 있다.
문법들에 추가하여, 또는 문법들 대신에, 일부 구현예들에서, 의도 매칭기(134)는 하나 이상의 훈련된 머신 러닝 모델들을, 단독으로 또는 하나 이상의 문법들, 시각적 신호들 및/또는 터치 입력들과 결합하여, 이용할 수 있다. 이러한 훈련된 머신 러닝 모델들은 또한 하나 이상의 데이터베이스들 내에 저장될 수 있고, 그리고 예를 들어, 사용자의 발언을 표시하는 데이터 및/또는 임의의 검출된 사용자-제공 시각적 신호들을 감소된 차원의 공간(dimensionality space)에 임베딩함으로써, 그 다음에 예컨대, 유클리디안 거리(Euclidean distance), 코사인 유사도(cosine similarity), 등과 같은 기법들을 사용하여 어떤 다른 임베딩들(및 이에 따른 의도들)이 가장 근접한 것인지를 결정함으로써, 의도들을 식별하도록 훈련될 수 있다.
앞서의 "<예술가> 재생" 예의 문법에서 보여지는 바와 같이, 일부 문법들은 슬롯(slot)들(예컨대, <예술가>)을 갖는데, 이러한 슬롯들(예컨대, <예술가>)은 슬롯 값(slot value)들(혹은 "파라미터(parameter)들")로 채워질 수 있다. 슬롯 값들은 다양한 방식들로 결정될 수 있다. 종종 사용자들은 슬롯 값들을 사전에 주도적으로(proactively) 제공할 것이다. 예를 들어, 문법 "나에게 <토핑> 피자를 주문해 줘"("Order me a <topping> pizza")에 대해, 사용자는 아마도 어구 "나에게 소시지 피자를 주문해 줘"라고 발성할 수 있고, 이러한 경우 슬롯 <토핑>은 자동적으로 채워진다. 추가적으로 혹은 대안적으로, 만약 사용자가 사전에 주도적으로 슬롯 값들을 제공함이 없이 사용자가 슬롯 값들로 채워질 슬롯들을 포함하는 문법을 호출한다면, 자동화된 어시스턴트(120)는 사용자로부터 이러한 슬롯 값들을 요청(solicit)할 수 있다(예를 들어, "당신은 당신의 피자 위에 어떤 타입의 크러스트를 원하나요?(what type of crust do you want on your pizza?)"). 일부 구현예들에서, 슬롯들은 비전 컴포넌트(107)에 의해 캡처된 비전 데이터에 근거하여 검출된 시각적 신호들에 근거하는 슬롯 값들로 채워질 수 있다. 예를 들어, 사용자가 클라이언트 디바이스(101)의 시각적 컴포넌트(107)에 대해 세 개의 손가락들을 들어올리면서 "나에게 이만큼의 고양이 그릇들을 주문해 줘(Order me this many cat bowls)"와 같은 것을 발언할 수 있다. 또는, 사용자는 특정 영화에 대한 DVD 케이스를 쥐고 있으면서 "나에게 이와 같은 더 많은 영화들을 찾아줘(Find me more movies like this)"와 같은 것을 발언할 수 있다.
일부 구현예들에서, 자동화된 어시스턴트(120)는 입력을 수신하고 응답형 출력을 제공하는 독립적 소프트웨어 프로세스들일 수 있는 사용자들과 에이전트(agent)들 간의 트랜잭션(transaction)들을 용이하게 할 수 있다(혹은 중개(broker)할 수 있음). 일부 에이전트들은, 예컨대, 클라우드-기반 자동화된 어시스턴트 컴포넌트들(130)을 동작시키는 것들과는 분리되어 있는 컴퓨팅 시스템들 상에서 동작할 수 있는 혹은 동작하지 않을 수 있는 써드 파티 애플리케이션(third party application)들의 형태를 가질 수 있다. 의도 매칭기(134)에 의해 식별될 수 있는 한 종류의 사용자 의도는 써드-파티 애플리케이션을 사용(engage)하려는 것이다. 예를 들어, 자동화된 어시스턴트(120)는 파자 배달 서비스(pizza delivery service)를 위한 애플리케이션 프로그래밍 인터페이스(Application Programming Interface)("API")에 대한 액세스를 제공할 수 있다. 사용자는 자동화된 어시스턴트(120)를 호출할 수 있고, 그리고 "나는 피자를 주문하고 싶다(I'd like to order a pizza)"와 같은 커맨드(command)를 제공할 수 있다. 의도 매칭기(134)는 이러한 커맨드를 자동화된 어시스턴트(120)로 하여금 써드-파티 피자 배달 서비스와 관계를 맺도록 트리거(trigger)하는 문법에 매핑(mapping)시킬 수 있다. 써드-파티 피자 배달 서비스는 피자 배달 주문을 이행하기 위해 채워질 필요가 있는 슬롯들의 최소 목록(list)을 자동화된 어시스턴트(120)에 제공할 수 있다. 자동화된 어시스턴트(120)는 슬롯들에 대한 파라미터들을 요청하는 자연 언어 출력을 발생시키고 (클라이언트 디바이스(101)를 통해) 사용자에게 제공할 수 있다.
이행 모듈(fulfillment module)(138)은, 의도 매칭기(134)에 의해 출력되는 예측된/추정된 의도를 수신하고, 뿐만 아니라 관련된 슬롯 값들(사용자에 의해 사전에 주도적으로 제공된 것인지 혹은 사용자로부터 요청된 것인지 상관없음)을 수신하고, 그리고 의도를 이행(혹은 "해결(resolve)")하도록 구성될 수 있다. 다양한 구현예들에서, 사용자의 의도의 이행(혹은 "해결")은 다양한 이행 정보(이것은 또한 "응답형" 정보 혹은 데이터로 지칭됨)가 예를 들어, 이행 모듈(138)에 의해 발생/획득되도록 할 수 있다.
이행 정보는 다양한 형태들을 가질 수 있는데, 왜냐하면 의도는 다양한 방식들로 이행될 수 있기 때문이다. "영화로 만들어진 '더 샤이닝'의 야외 찰영지는 어디였죠?(Where were the outdoor shots of 'The Shining' filmed?)"와 같은 순수한 정보를 사용자가 요청한다고 가정한다. 사용자의 의도는 예를 들어, 의도 매칭기(134)에 의해, 검색 질의인 것으로서 결정될 수 있다. 검색 질의의 의도 및 콘텐츠는 이행 모듈(138)에 제공될 수 있고, 이행 모듈(138)은 도 1에 도시된 바와 같이 하나 이상의 검색 모듈(search module)들(150)과 통신하고 있을 수 있고, 여기서 검색 모듈들(150)은 응답형 정보를 위한 문서들의 말뭉치(corpus)들 및/또는 다른 데이터 소스들(예컨대, 지식 그래프(knowledge graph)들, 등)을 검색하도록 구성된다. 이행 모듈(138)은 검색 질의(예를 들어, 질의의 텍스트, 감소된 차원의 임베딩(reduced dimensionality embedding), 등)를 나타내는 데이터를 검색 모듈(150)에 제공할 수 있다. 검색 모듈(150)은 GPS 좌표들과 같은 응답형 정보, 또는 "오리건 주, 후드 산, 팀버라인 로즈(Timberline Lodge, Mt. Hood, Oregon)"와 같은 다른 더 명시적 정보를 제공할 수 있다. 이러한 응답형 정보는 이행 모듈(138)에 의해 발생된 이행 정보의 일부를 형성할 수 있다.
추가적으로 혹은 대안적으로, 이행 모듈(138)은, 예를 들어 의도 이해 모듈(135)로부터, 사용자의 의도를 수신하도록 구성될 수 있고, 그리고 사용자에 의해 제공된 임의의 슬롯 값들 혹은 다른 수단들(예를 들어, 사용자의 GPS 좌표들, 사용자 선호도들, 등)을 사용하여 결정된 임의의 슬롯 값들을 수신하도록 구성될 수 있고, 그리고 응답형 액션을 트리거하도록 구성될 수 있다. 응답형 액션들은, 예컨대, 상품/서비스를 주문하는 것, 타이머를 시작하는 것, 리마인더(reminder)를 설정하는 것, 전화 호출(phone call)을 개시하는 것, 미디어(media)를 재생하는 것, 메시지(message)를 보내는 것, 다수의 액션들의 루틴을 개시하는 것, 등을 포함할 수 있다. 일부 이러한 구현예들에서, 이행 정보는 이행과 관련된 슬롯 값들, 확인 응답들(이것은 일부 경우들에서 미리결정된 응답들로부터 선택될 수 있음), 등을 포함할 수 있다.
추가적으로 혹은 대안적으로, 이행 모듈(138)은 (예를 들어, 시각(time of day), 과거 상호작용들, 등에 근거하여) 사용자의 의도(들)를 추론(infer)하도록 구성될 수 있고, 그리고 이러한 의도(들)에 대한 응답형 정보를 획득하도록 구성될 수 있다. 예를 들어, 이행 모듈(138)은, 사용자에 대한 일일 일정 개요(daily calendar summary), 사용자에 대한 날씨 예보, 그리고/또는 사용자에 대한 다른 콘텐츠를 획득하도록 구성될 수 있다. 이행 모듈(138)은 또한, 이러한 콘텐츠가 사용자에 대한 그래픽 렌더링 및/또는 청취가능한 렌더링을 위해 "푸시(push)"되도록 할 수 있다. 예를 들어, 이러한 콘텐츠의 렌더링은 적응 엔진(115)이 응시된 지향 및/또는 하나 이상의 다른 속성(들)의 발생을 검출함에 응답하여 일어나는 적응일 수 있다.
자연 언어 발생기(natural language generator)(136)는 다양한 소스들로부터 획득된 데이터에 근거하여 자연 언어 출력(예를 들어, 인간 음성을 모방(mimic)하도록 설계된 워드들/어구들)을 발생시키고 그리고/또는 선택하도록 구성될 수 있다. 일부 구현예들에서, 자연 언어 발생기(136)는, 입력으로서 의도의 이행과 관련된 이행 정보를 수신하도룩 구성될 수 있고, 그리고 이행 정보에 근거하여 자연 언어 출력을 발생시키도록 구성될 수 있다. 추가적으로 혹은 대안적으로, 자연 언어 발생기(136)는, 써드-파티 애플리케이션들과 같은 다른 소스들로부터 정보를 수신할 수 있고, 이것을 자동화된 어시스턴트 클라이언트(110)를 통해 사용자에게 렌더링하기 위한 자연 언어 출력 및/또는 다른 콘텐츠를 구성(compose)하는데 사용할 수 있다.
시맨틱 필터 모듈(140)은 발성된 발언 및/또는 검출된 제스처가 어시스턴트(120)에 대해 의도된 것인지 여부를 결정할 수 있다. 이행 모듈(138)은, 사용자 입력에 응답하여 응답을 발생시키고 그리고/또는 제공할지 여부를 결정함에 있어 시맨틱 필터 모듈(semantic filter module)(140)로부터의 출력을 이용할 수 있다. 예를 들어, 시맨틱 필터 모듈(140)은 발성된 발언 및/또는 검출된 제스처가 어시스턴트(120)에 대해 의도된 것일 가능성을 표시하는 신뢰도 메트릭을 제공할 수 있고, 그리고 이행 모듈(138)은 시맨틱 필터 모듈(140)로부터의 신뢰도 메트릭에 근거하여 응답을 발생시키고 그리고/또는 제공할지 여부를 결정할 수 있다. 시맨틱 필터 모듈(140)로부터의 신뢰도 메트릭은 선택에 따라서는 적응 엔진(115) 및/또는 TI-SID 모듈(142)로부터의 메트릭(들)과 같은 하나 이상의 다른 신뢰도 메트릭들과 결합되어 고려될 수 있다. 비록 시맨틱 필터 모듈(140)이 도 1에서는 클라우드-기반 자동화된 어시스턴트 컴포넌트(들)(130)에 의해 구현되는 것으로서 예시되고 있지만, 다양한 구현예들에서, 이것은 추가적으로 혹은 대안적으로, 적응 엔진(115)의 모듈들 중 하나로서 구현될 수 있고, 그리고 하나 이상의 어시스턴트 기능들을 적응시킬지 여부를 결정함에 있어 이용될 수 있다.
일부 구현예들에서, 시맨틱 필터 모듈(140)은 발성된 발언 및/또는 검출된 제스처가 어시스턴트(120)에 대해 의도된 것인지 여부를 결정함에 있어 하나 이상의 시맨틱 머신 러닝 모델들(141)을 이용한다. 이러한 구현예들 중 일부에서, 시맨틱 머신 러닝 모델(들)(141)은 발성된 발언 및/또는 검출된 제스처가 어시스턴트(120)에 대해 의도된 것이라는 신뢰도 메트릭을 결정함에 있어 발성된 발언에 대응하는 오디오 데이터, STT 모듈(132)로부터의 텍스트 출력, 그리고/또는 의도 이해 모듈(135)로부터의 출력을 프로세싱할 수 있다. 시맨틱 머신 러닝 모델(들)(141)은 지도형 혹은 반-지도형 훈련 사례들을 사용하여 훈련될 수 있다. 예를 들어, 사용자들이 자동화된 어시스턴트에게 발성하는 인스턴스들은 제 1 라벨(예를 들어, "1")을 갖도록 라벨링될 수 있고, 그리고 사용자들이 다른 인간(들)에게 발성하는 인스턴스들은 제 2 라벨(예를 들어, "0")을 갖도록 라벨링될 수 있다. 일반적으로, 어시스턴트 입력들에 대해 이례적인(atypical)(혹은 비-발생적인(non-occurring)) 대응하는 텍스트 및/또는 NLU 출력을 갖는 발성된 발언들에 대해, 신뢰도 메트릭은 낮아야 한다. 예를 들어, 만약 텍스트가 어시스턴트 입력에 대한 임의의 패턴(pattern)들을 따르지 않는다면, 신뢰도 메트릭은 낮아야 한다. 추가적으로 혹은 대안적으로, 만약 NLU 출력이 결과적으로 어떠한 어시스턴트 응답도 없게 한다면, 혹은 "펀트(punt)" 응답이 되게 한다면, 혹은 "인성(personality)" 응답이 되게 한다면, 신뢰도 메트릭은 낮아야 한다. 더욱이, 오디오 데이터 자체는 입력이 어시스턴트 입력으로서 의도된 것인지 여부를 표시할 수 있는데, 왜냐하면 사용자들은 종종 (또 하나의 다른 인간에게 발성할 때의 그러한 목소리 속성(들)과 비교하여) 어시스턴트 디바이스에게 발성할 때 상이한 목소리 속성(들)(예를 들어, 어조(inflection), 말투(tone), 억양(cadence))으로 발성하기 때문이다.
TI-SID 모듈(142)은, 발성된 발언이 인식된 목소리로부터 나온 것인지를 결정하기 위해 그리고/또는 인식된 목소리와 관련된 계정 식별자를 결정하기 위해, 발성된 발언을 포함하는 오디오 데이터를 TI-SID 머신 러닝 모델(143)을 사용해 프로세싱한다. 이러한 인식이, 핫-워드들을 포함하는 목소리 입력들과 같은 단지 특정 목소리 입력들에만 한정되는 대신, 광범위하게 다양한 목소리 입력들에 관해 수행될 수 있다는 점에서, 이러한 인식은 "텍스트-독립적"이다. 일부 구현예들에서, TI-SID 모듈(142)은 인식된 목소리와 관련된 계정 식별자를 결정하고, 그리고 이것을 얼굴 인식 모듈(1154)에 의해 결정된 계정 식별자와 비교한다. 이러한 구현예들 중 일부에서, TI-SID 모듈(142)은 계정 식별자가 얼굴과 목소리 인식에 대해 동일한지 여부의 표시를 제공하고, 그리고 만약 이들이 매칭되지 않는다면, 응답의 특정 프로세싱 및/또는 제공을 방지 및/또는 중지한다. 예를 들어, TI-SID 모듈(142)은 만약 이들이 매칭되지 않는다면 이행 모듈(138)이 응답을 발생시키고 그리고/또는 제공하는 것을 방지할 수 있다. 이러한 방식들 및 다른 방식들에서, 발성된 발언이 지향된 응시를 또한 제공하고 있는 동일한 사용자에 의해 제공된 것임이 검증될 수 있다(왜냐하면 얼굴 인식이 지향된 응시를 제공하는 사용자에 관해 수행될 수 있기 때문). 이것은 지향된 응시를 제공하고 있는 사용자가 아닌 사용자(혹은 다른 소스들)로부터 나온 발성된 발언에 대한 응답을 비의도적으로 발생시키고 그리고/또는 제공하는 것을 방지할 수 있다. 비록 도 1에서는 클라우드-기반 자동화된 어시스턴트 컴포넌트(들)(130)에서 구현되는 것으로서 예시되고 있지만, TI-SID 모듈(142)은 선택에 따라서는 적응 엔진(115)의 일부로서 클라이언트 디바이스(101)에서 구현될 수 있고, 그리고 하나 이상의 어시스턴트 기능들을 적응시킬지 여부를 결정함에 있어 이용될 수 있다.
이제 도 2a 및 도 2b를 참조하면, 다양한 구현예들에 따른 본 개시내용의 다양한 실시형태들을 나타내는 예시적 프로세스 흐름들이 도시된다.
먼저 도 2a를 살펴보면, 시각적 캡처 모듈(114)은 비전 프레임들을 응시 모듈(1151), 거리 모듈(1152), 얼굴 인식 모듈(1154), 입/목소리 모듈(1152), 및 다른 모듈(들)(1156)에 제공한다. 일부 구현예들에서, 시각적 캡처 모듈(114)은 비전 프레임들의 실-시간 스트림을 이러한 모듈들 중 하나 이상의 모듈들에 제공한다. 일부 추가적인 혹은 대안적 구현예들에서, 시각적 캡처 모듈(114)은, 인간이 클라이언트 디바이스(101)를 갖는 환경 내에 존재한다고 표시하는 별도의 존재 센서(105)로부터의 시그널(signal)들에 응답하여 모듈들 중 적어도 일부에 비전 프레임들을 제공하기 시작한다. 이러한 구현예들 중 일부에서, 비전 프레임들은 초기에 단지 응시 모듈(1151) 및/또는 다른 모듈(들)에 제공되고, 그 다음에 응시 모듈(1151)이 지향된 응시의 발생을 결정함에 응답하여 단지 추가적인 모듈(들)에 제공된다.
음성 캡처 모듈(112)은 오디오 데이터를 목소리 활동 모듈(1144), 입/목소리 모듈(1153), 및 다른 모듈(들)(1156)에 제공한다. 일부 구현예들에서, 음성 캡처 모듈(112)은 오디오 데이터의 실-시간 스트림을 이러한 모듈들 중 하나 이상의 모듈들에 제공한다. 이러한 구현예들 중 일부에서, 음성 캡처 모듈(112)은 인간이 클라이언트 디바이스(101)를 갖는 환경 내에 존재한다고 표시하는 별도의 존재 센서(105)로부터의 시그널들에 응답하여 모듈들 중 적어도 일부에 비전 프레임들을 제공하기 시작한다. 일부 추가적인 혹은 대안적인 구현예들에서, 오디오 데이터는 응시 모듈(1151)이 지향된 응시의 발생을 결정함에 응답하여 단지 다양한 모듈들에 제공된다.
모듈들(1151-1156) 각각은, 비전 프레임(들) 및/또는 오디오 데이터에 적어도 부분적으로 근거하여, 그리고 선택에 따라서는 하나 이상의 대응하는 모델들(간결함을 위해 도 2a에서는 예시되지 않음)을 이용하여, 대응하는 속성이 일어나고 있는지 여부 그리고/또는 대응한 신뢰도 메트릭(들)을 결정한다. 대응하는 속성(들) 및/또는 신뢰도 메트릭(들)은 하나 이상의 적응(들)(201)이 일어나야 하는지 여부를 결정하기 위해 적응 엔진(115)에 제공된다. 본 명세서에서 설명되는 바와 같이, 적응 엔진(115)은 단지 일부 속성(들)에 대한 발생 및/또는 신뢰도 메트릭(들)에 응답하여 일부 적응(들)을 개시시킬 수 있고, 그리고 추가적인 속성(들)에 대한 발생 및/또는 신뢰도 메트릭(들)에 응답하여 (선택에 따라서는 다른 속성(들)의 계속되는 발생과 함께) 다른 적응(들)을 개시시킬 수 있다. 예를 들어, 적응 엔진(115)은 단지 지향된 응시에만 응답하여 제 1 인간 인지가능 신호가 렌더링되도록 할 수 있다. 또한, 예를 들어, 적응 엔진(115)은, 지향된 응시의 계속되는 검출에 응답하여, 뿐만 아니라 거리, 입 움직임과 목소리 활동의 동시-발생, 그리고/또는 목소리 활동의 발생에 근거하여, 또 하나의 다른 인간 인지가능 신호가 렌더링되게 할 수 있고, 그리고/또는 센서 데이터의 특정 프로세싱 및/또는 전송이 일어나게 할 수 있다.
일부 구현예들에서, 그리고 도 2b에서 예시되는 바와 같이, 업스트림 검출 및 분류 모듈(1157)은 선택에 따라서는 클라이언트 디바이스(101) 상에서 적응 엔진(115)의 일부로서 제공될 수 있다. 검출 및 분류 모듈(1157)은 하나 이상의 검출 및 분류 모델들(1167)을 이용하여 시각적 캡처 모듈(114)로부터의 비전 프레임들을 프로세싱할 수 있는데, 이것은 대응하는 그러한 비전 프레임들의 하나 이상의 영역들을 결정하고 각각의 비전 프레임의 다양한 영역들을 분류하기 위한 것이다. 예를 들어, 검출 및 분류 모듈(1157)은 인간에 대응하는 각각의 비전 프레임의 인간 영역(들)(만약 있다면)을 분류할 수 있고, 그리고 각각의 비전 프레임에 대해 이러한 인간 영역(들) 또는 이러한 인간 영역(들)의 표시를 모듈들(1151-1154) 중 하나 이상의 모듈에 제공할 수 있다. 또한, 예를 들어, 검출 및 분류 모듈(1157)은 얼굴 영역(들)에 대응하는 각각의 비전 프레임의 영역(들)(만약 있다면)을 분류할 수 있고, 그리고 각각의 비전 프레임에 대해 이러한 얼굴 영역(들) 또는 이러한 인간 영역(들)의 표시를 모듈들(1151-1154) 중 하나 이상의 모듈에 제공할 수 있다. 또한, 예를 들어, 검출 및 분류 모듈(1157)은 인간의 눈 영역(들)에 대응하는 각각의 비전 프레임의 영역(들)(만약 있다면)을 분류할 수 있고, 그리고 각각의 비전 프레임에 대해 이러한 눈 영역(들) 또는 이러한 영역(들)의 표시를 모듈들(1151-1154) 중 하나 이상의 모듈에 제공할 수 있다. 더욱이, 검출 및 분류 모델(1157)은 선택에 따라서는 (응시 모듈(1151)에 의해 결정된 바와 같이) 지향된 응시를 제공하고 있는 것으로 검출된 인간(들)에 대해서만 이러한 영역(들)을 제공할 수 있다.
하나의 예로서, 응시 모듈(1151)은, 각각의 비전 프레임의 단지 대응하는 부분(들)만을 프로세싱하기 위해, 제공된 영역(들)을 이용할 수 있다. 예를 들어, 응시 모듈(1151)은 인간 영역(들), 또는 얼굴 영역(들), 또는 눈 영역(들)을 포함하는 그러한 부분(들)만을 프로세싱하기 위해 비전 프레임들을 "크로핑(cropping)" 및 리사이징(resizing)할 수 있다. 이러한 구현예들 중 일부에서, 응시 머신 러닝 모델(1161)은 "크로핑"된 비전 프레임들에 근거하여 훈련될 수 있고, 그리고 리사이징은 이러한 모델의 입력 차원(input dimension)들에 부합하는 크기까지 이루어질 수 있다. 일부 추가적인 혹은 대안적인 구현예들에서, 응시 모듈(1151)은 일부 비전 프레임들(예를 들어, 인간 및/또는 얼굴 영역들을 포함하지 않는 것으로서 표시된 것들)의 프로세싱을 모두 스킵(skip)하기 위해, 제공된 영역(들)을 이용할 수 있다. 또 하나의 다른 구현예들에서, 응시 모듈(1151)은 각각의 비전 프레임의 프로세싱에 초점을 맞추기 위해, 제공된 영역(들)을 집중 메커니즘(attention mechanism)으로서 이용할 수 있다(예를 들어, 응시 머신 러닝 모델(1161)에 대한 별도의 집중 입력(attention input)으로서 이용할 수 있음).
또 하나의 다른 예로서, 거리 모듈(1152)은 눈 영역(들)의 제공된 표시들을 이용할 수 있는데, 이것은 대응하는 사용자의 거리를 추정하기 위해 이러한 눈 영역들 사이의 거리를 효율적으로 결정하기 위한 것이다. 본 명세서에서 설명되는 바와 같이, 제공된 눈 영역(들)은 선택에 따라서는 응시 모듈(1151)에 의해 결정된 바와 같이 지향된 응시를 제공하고 있는 사용자에 대해서만 제공될 수 있다.
또 하나의 다른 예로서, 입/목소리 모듈(1153)은 각각의 비전 프레임의 대응하는 부분(들)만을 프로세싱하기 위해, 제공된 영역(들)을 이용할 수 있다. 예를 들어, 입 모듈(1153)은 인간 영역(들), 또는 얼굴 영역(들), 또는 입 영역(들)을 포함하는 그러한 부분(들)만을 프로세싱하기 위해 비전 프레임들을 "크로핑" 및 리사이징할 수 있다. 이러한 구현예들 중 일부에서, 입/목소리 머신 러닝 모델(들)(1163)은 "크로핑"된 비전 프레임들에 근거하여 훈련될 수 있고, 그리고 리사이징은 이러한 모델의 입력 차원들에 부합하는 크기까지 이루어질 수 있다. 일부 추가적인 혹은 대안적인 구현예들에서, 입/목소리 모듈(1153)은 일부 비전 프레임들(예를 들어, 인간 및/또는 얼굴 영역들을 포함하지 않는 것으로서 표시된 것들)의 프로세싱을 모두 스킵하기 위해, 제공된 영역(들)을 이용할 수 있다. 또 하나의 다른 구현예들에서, 입/목소리 모듈(1153)은 각각의 비전 프레임의 프로세싱에 초점을 맞추기 위해, 제공된 영역(들)을 집중 메커니즘으로서 이용할 수 있다.
일부 구현예들에서, 검출 및 분류 모델(1157)은 추가적으로 혹은 대안적으로, 특정 영역(들)의 표시들을 다른 조건 모듈(conditions module)(들)(1156)(간결함을 위해 도 2b에서는 도시되지 않음)에 의한 사용을 위해 다른 조건 모듈(들)(1156)에 제공할 수 있다. 예를 들어, 제스처의 검출이 자동화된 어시스턴트를 적응시키기 위한 추가적인 조건인 경우, 대응하는 제스처 머신 러닝 모델을 이용하여 제스처들을 검출함에 있어, 신체 영역(들)이 제스처 모듈에 의해 사용될 수 있다. 또한, 예를 들어, 어시스턴트 디바이스에 대한 사용자의 신체의 자세가, 자동화된 어시스턴트 기능(들)을 적응시킬지 여부를 결정함에 있어, 고려될 수 있다. 이러한 구현예들 중 일부에서, 신체 영역(들)은 하나 이상의 자세 결정 기법들을 사용하여 이러한 신체 영역(들)을 프로세싱함으로써 신체의 자세를 결정함에 있어 이용될 수 있다.
일부 구현예들에서, 검출 및 분류 모델(1157)은 TV들 또는 다른 비디오 디스플레이 소스들로서 분류된 영역(들)의 표시들을 모듈(들)(1151-1154) 중 하나 이상의 모듈에 추가적으로 혹은 대안적으로 제공할 수 있다. 이러한 구현예들 중 일부에서, 모듈(들)은, 프로세싱된 비전 프레임들 밖에 있는 그러한 영역(들)을 크로핑할 수 있고, 집중된 초점을 그러한 영역들로부터 멀어지게 할 수 있고, 그리고/또는 그렇지 않으면 검출들에 있어 그러한 영역들을 무시할 수 있거나 혹은 검출들이 이러한 영역들에 근거할 기회(chance)들을 감소시킬 수 있다. 이러한 방식들 및 다른 방식들에서, 자동화된 어시스턴트의 거짓-양성 적응(들)이 완화될 수 있다.
도 3은 도 1의 클라이언트 디바이스(101), 디스플레이(103), 및 비전 컴포넌트(107)의 예를 도시한다. 도 3에서, 예시적 클라이언트 디바이스는 101A로서 표시되고, 예시적 디스플레이(103)는 103A로서 표시되고, 그리고 예시적 비전 컴포넌트(107)는 107A에서 표시된다. 클라이언트 디바이스(101)는 또한 스피커(들) 및 마이크로폰(들)을 포함할 수 있다. 도 3은 또한 카메라(107A)로 지향된 응시를 제공하는 사용자(301)를 도시한다. 도 3은 또한, 사용자가 지향된 응시를 제공하고 있을 때 카메라(107A)에 의해 캡처된 예시적 이미지(360)를 도시한다. 사용자가 이미지(360)에서 캡처된 것, 뿐만 아니라 사용자 뒤에 있는(이에 따라 도 3의 투시도에서 보이지 않는) 텔레비전이 있음이 보여질 수 있다.
이미지(360)에서, 경계 박스(bounding box)(362)가 제공되고, 이러한 경계 박스(362)는 얼굴에 대응하는 것으로 (예를 들어, 도 2b의 검출 및 분류 모듈(1157)에 의해) 결정될 수 있는 이미지의 영역을 나타낸다. 일부 구현예들에서, 클라이언트 디바이스(101A) 상에서 동작하는 적응 엔진(115)의 하나 이상의 모듈(들)은, 얼굴에 대응하는 부분으로서 표시되는 그 부분에 근거하여, 얼굴 인식을 수행할 때, 그리고/또는 응시, 거리, 입과 목소리 활동의 동시-발생을 검출할 때, 이미지의 경계 박스(362) 부분만을 프로세싱할 수 있다(또는 그 부분에 집중된 초점을 가질 수 있음). 도 3에서는 단지 단일 이미지만이 도시되고 있지만, 다양한 구현예들에서, 다양한 속성들의 발생을 결정하는 것은 본 명세서에서 설명되는 바와 같이 이미지들의 시퀀스에 근거할 수 있다.
이미지(360)에서, 경계 박스(363)가 또한 제공되고, 이러한 경계 박스(363)는 비디오 디스플레이에 대응하는 것으로 결정될 수 있는 이미지의 영역을 나타내고 아울러 시각적 신호들의 허위 양성들을 일으킬 수 있는 이미지의 영역을 나타낸다. 예를 들어, 텔레비전은 하나 이상의 개인들이 말하고 있는 것, 카메라를 바라보고 있는 것, 등을 보여주는 비디오를 렌더링할 수 있는데, 이러한 것들 중 임의의 것은 입 움직임 및/또는 지향된 응시의 발생으로서 잘못 해석될 수 있다. 일부 구현예들에서, 도 2b의 검출 및 분류 모듈(1157)이 (예를 들어, TV 분류를 검출함에 근거하여) 이러한 영역을 결정할 수 있고, 그리고/또는 이러한 영역은, 해당 영역이 비디오 디스플레이의 디스플레이 주파수(예를 들어, 대략 60 Hz, 120 Hz, 및/또는 다른 전형적인 비디오 디스플레이 주파수)에 대응하는 디스플레이 주파수를 가짐을 결정하기 위해 이미지(360) 및 이전의 이미지들을 분석하는 것에 근거하여 결정될 수 있다. 일부 구현예들에서, 하나 이상의 모듈들은, 프로세싱된 비전 프레임들 밖에 있는 그러한 영역을 크로핑할 수 있고, 집중된 초점을 그러한 영역으로부터 멀어지게 할 수 있고, 그리고/또는 그렇지 않으면 검출들에 있어 그러한 영역을 무시할 수 있거나 혹은 검출들이 이러한 영역들에 근거할 기회들을 감소시킬 수 있다. 이러한 방식들 및 다른 방식들에서, 자동화된 어시스턴트의 거짓-양성 적응(들)이 완화될 수 있다.
도 3b1, 도 3b2, 및 도 3b1은 시각적으로 인지가능한 신호들의 예들을 제공하는 데, 이러한 신호들은 각각 대응하는 속성(들)의 발생 및/또는 신뢰도들을 결정함에 응답하여 제공될 수 있다. 도 3b1, 도 3b2, 및 도 3b1의 시각적으로 인지가능한 신호들은 단독으로 혹은 오디오 및/또는 비전 데이터 프로세싱 및/또는 전송과 같은 다른 적응(들)과 결합되어 적응 엔진(115)에 의해 개시될 수 있는 적응(들)의 하낭의 비-한정적 예이다.
도 3b1에서, 제 1 시각적으로 인지가능한 신호는 디스플레이(103A)에 의해 렌더링되고 음영(shading)(171A)에 의해 표시된다. 시각적으로 인지가능한 신호는 디스플레이(103A)의 주변 둘레의 백색(혹은 다른 색상(들)) 발광일 수 있고, 그리고 선택에 따라서는 디스플레이(103A)에 의해 렌더링되고 있는 다른 콘텐츠(예를 들어, 주변 그림, 날씨 예보, 곧 있을 이벤트(event)(들), 등)와 함께 디스플레이될 수 있다. 일부 구현예들에서, 제 1 시각적으로 인지가능한 신호는 응시 모듈(1151)이 사용자(301)의 지향된 응시를 검출함에 응답하여 적응 엔진(115)에 의해 렌더링되게 된다. 제 1 시각적으로 인지가능한 신호는 지향된 응시가 검출되었다는 것, 그리고 특정 센서 데이터의 추가 프로세싱이 일어날 수 있다는 것을 사용자(301)에게 (직접적으로 혹은 간접적으로) 알려줄 수 있다. 만약 사용자(301)가 후속 프로세싱이 일어나는 것을 원하지 않는다면, 사용자는 자신의 응시를 재지향시킬 수 있고, 이것은 응시 모듈(1151)이 더 이상 응시를 검출하지 않게 할 것이며, 그리고 결과적으로 적응 엔진(115)으로 하여금 제 1 시각적으로 인지가능한 신호의 렌더링을 멈추게 할 것이다.
도 3b2에서, 제 2 시각적으로 인지가능한 신호는 디스플레이(103A)에 의해 렌더링되고 음영(171B)에 의해 표시된다. 제 2 시각적으로 인지가능한 신호는 디스플레이(103A)의 일부분에 걸쳐 수평으로 렌더링되는 백색(혹은 다른 색상(들)) 줄무늬일 수 있고, 그리고 선택에 따라서는 디스플레이(103A)에 의해 렌더링되는 다른 콘텐츠 위에 렌더링될 수 있다. 선택에 따라서는, 제 2 시각적으로 인지가능한 신호는 디스플레이(103A)에 의해 렌더링되는 다른 콘텐츠의 계속되는 뷰잉(viewing)을 가능하게 하기 위해 부분적으로 투명일 수 있다. 일부 구현예들에서, 제 2 시각적으로 인지가능한 신호는, 응시 모듈(1151)이 사용자(301)의 지향된 응시를 계속 검출함에 응답하여, 그리고 선택에 따라서는 추가적인 속성들의 발생 및/또는 신뢰도 메트릭(들)을 결정하는 것에 근거하여, 예컨대, 사용자(301)가 어시스턴트 디바이스(101A)의 임계 거리 내에 있는 것(예를 들어, 이미지 분석에 근거하여 추정되는 바와 같이 4 피트 내에 있는 것 혹은 다른 임계치 내에 있는 것), 목소리 활동의 존재, 그리고/또는 입 움직임과 목소리 활동의 동시-발생과 같은 것을 결정하는 것에 근거하여, 적응 엔진(115)에 의해 렌더링되게 된다. 제 2 시각적으로 인지가능 신호는 목소리 활동이 검출되었다는 것, 그리고 특정 센서 데이터의 추가 프로세싱이 일어날 수 있다는 것을 사용자(301)에게 (직접적으로 혹은 간접적으로) 알려줄 수 있다. 제 2 인간 인지가능 신호는, 비전 및/또는 센서 데이터의 특정 프로세싱 그리고/또는 비전 및/또는 센서 데이터의 전송과 같은 추가 적응(들) 이전에 렌더링될 수 있다. 만약 사용자(301)가 후속 프로세싱이 일어나는 것을 원하지 않는다면, 사용자는 자신의 응시를 재지향시킬 수 있고, 이것은 응시 모듈(1151)이 더 이상 응시를 검출하지 않게 할 것이며, 그리고 결과적으로 적응 엔진(115)으로 하여금 제 2 시각적으로 인지가능한 신호의 렌더링을 멈추게 할 것이다. 선택에 따라서는, 줄무늬의 폭, 줄무늬의 색상, 줄무늬의 밝기, 및/또는 줄무늬의 다른 특징(들)은, 사용자가 어시스턴트와 상호작용하려고 의도하고 있다는 결정된 신뢰도 및 추가 프로세싱이 일어날 수 있다는 대응하는 신뢰도를 사용자에게 표시하기 위해, 추가적인 속성(들)의 양 및/또는 이들의 신뢰도 메트릭(들)의 크기에 의존할 수 있다.
도 3b3에서, 제 3 시각적으로 인지가능한 신호는 디스플레이(103A)에 의해 렌더링되고 음영(171C)에 의해 표시된다. 제 3 시각적으로 인지가능한 신호는 디스플레이(103A)의 일부분에 걸쳐 렌더링되는 다색상(혹은 다른 색상(들)) 아치형(arcuate) 형상일 수 있고, 그리고 선택에 따라서는 디스플레이(103A)에 의해 렌더링되는 다른 콘텐츠 위에 렌더링될 수 있다. 선택에 따라서는, 제 3 시각적으로 인지가능한 신호는 디스플레이(103A)에 의해 렌더링되는 다른 콘텐츠의 계속되는 뷰잉을 가능하게 하기 위해 부분적으로 투명일 수 있다. 일부 구현예들에서, 적응 엔진(115)은 제 3 인간 인지가능 신호가, 지향된 응시의 계속적인 검출, (예를 들어, 어시스턴트 디바이스(101A)에서 로컬로 엔드포인트 검출을 통해) 목소리 활동의 끝을 검출하는 것 그리고/또는 다른 조건(들)을 검출하는 것에 응답하여, 렌더링되게 한다. 제 3 인간 인지가능 신호는 특정 센서 데이터의 추가 프로세싱이 일어나고 있다는 것(하지만 선택에 따라서는 여전히 중지될 수 있다는 것)을 사용자에게 (직접적으로 혹은 간접적으로) 알려줄 수 있다. 이러한 추가 프로세싱은, 오디오 데이터의 음성-대-텍스트 프로세싱, 변환된 텍스트의 자연 언어 이해, 비전 데이터의 프로세싱에 근거하는 제스처 인식, 그리고/또는 자연 언어 이해 및/또는 제스처 인식에 근거하는 이행을 포함할 수 있다. 추가적으로 혹은 대안적으로, 이러한 추가 프로세싱은, 추가 센서 데이터에 포함된 임의의 발언들 및/또는 제스처들이 자동화된 어시스턴트에 대해 의도된 것임 그리고 이행돼야 함을 확실히 하기 위한 추가적인 프로세싱을 포함할 수 있다.
도 4, 도 5 및 도 6 각각은 본 명세서에서 개시되는 구현예들에 따라 수행될 수 있는 예시적 방법들을 예시하는 흐름도를 예시한다. 비록 별개의 흐름도들로서 예시되고 있지만, 단일의 자동화된 어시스턴트가 이러한 방법들 중 복수의 방법들(예를 들어, 모든 방법들)을 수행할 수 있음이 이해돼야 한다. 편의상, 도 4 내지 도 6의 흐름도들의 동작들은 이러한 동작들을 수행하는 시스템을 참조하여 설명된다. 이러한 시스템은 자동화된 어시스턴트(120)를 구현하는 컴퓨팅 시스템(들)(예를 들어, 클라이언트 디바이스 및/또는 원격 컴퓨팅 시스템(들))의 하나 이상의 컴포넌트들과 같은 다양한 컴퓨터 시스템들의 다양한 컴포넌트들을 포함할 수 있다. 더욱이, 방법들의 동작들이 특정 순서로 보여지고 있지만, 이것은 한정의 의미를 갖도록 의도된 것이 아니다. 하나 이상의 동작들은 재정렬, 생략, 혹은 부가될 수 있다.
먼저 도 4의 방법(400)을 살펴보면, 블록(402)에서, 시스템은 비전 컴포넌트(들)로부터의 출력에 근거하는 비전 데이터를 수신하고, 뿐만 아니라 마이크로폰(들)으로부터의 출력에 근거하여 오디오 데이터를 수신한다. 일부 구현예들에서, 비전 컴포넌트(들) 및/또는 마이크로폰(들)은 어시스턴트 클라이언트(이것은 또한 본 명세서에서 "어시스턴트 디바이스"로서 지칭됨)를 포함하는 클라이언트 디바이스와 통합될 수 있다. 일부 구현예들에서, 비전 컴포넌트(들) 및/또는 마이크로폰(들)은 클라이언트 디바이스로부터 분리될 수 있고, 하지만 클라이언트 디바이스와 통신하고 있을 수 있다. 예를 들어, 비전 컴포넌트(들)는 어시스턴트 클라이언트를 포함하는 클라이언트 디바이스와 유선 및/또는 무선 통신하고 있는 독립형 스마트 카메라를 포함할 수 있다.
블록(404)에서, 시스템은 다양한 속성들의 발생 및/또는 신뢰도를 결정하기 위해 비전 데이터 및/또는 오디오 데이터를 프로세싱한다. 블록(404)의 프로세싱은, 비전 데이터 및/또는 오디오 데이터의 복수의 프레임들에 걸쳐 일어날 수 있는데, 예컨대, 비전 데이터의 스트림 및 오디오 데이터의 스트림 상에서 일어날 수 있다. 일부 구현예들에서, 블록(404)의 프로세싱은 인간 존재를 표시하는 존재 센서로부터의 출력에 응답하여 개시될 수 있다. 다양한 구현예들에서, 다양한 별개의 모듈들이 별개의 프로세싱을 수행하고, 각각은 대응하는 속성이 일어났는지 여부 그리고/또는 대응하는 속성에 대한 신뢰도 메트릭(들)을 결정한다. 별개의 모듈들 중 하나 이상의 모듈 각각은 프로세싱에서 대응하는 훈련된 머신 러닝 모델을 이용할 수 있다. 모듈들의 비-한정적 예들은 도 1의 모듈들(1151-1156) 중 하나 이상의 모듈이다. 본 명세서에서 설명되는 바와 같이, 별개의 모듈들 중 하나 이상의 모듈은 다른 모듈(들)과 병렬로 프로세싱을 수행할 수 있다. 본 명세서에서 또한 설명되는 바와 같이, 별개의 모듈들 중 하나 이상의 모듈에 의한 프로세싱의 개시는 선택에 따라서는 하나 이상의 다른 모듈(들)이 먼저 속성(예를 들어, 지향된 응시)의 발생을 결정하는 것에 의존할 수 있다.
블록(406) 및/또는 블록(410)은 블록(404)의 프로세싱 동안(예를 들어, 블록(404)의 프로세싱과 병렬로) 수행될 수 있고, 그리고 각각은 이러한 프로세싱 동안 결정된 속성(들) 및/또는 신뢰도 메트릭(들)에 의존한다.
블록(406)에서, 시스템은 블록(404)의 프로세싱 동안 행해진 결정(들)에 근거하여 사용자 인터페이스 출력을 적응시킬지 여부를 결정한다. 만약 아니라면, 시스템은 사용자 인터페이스 출력을 적응시키지 않는데, 하지만 블록(406)을 계속 수행한다. 만약 그렇다면, 시스템은 블록(408)으로 진행하고, 사용자 인터페이스 출력을 적응시키는데, 하지만 선택에 따라서는 사용자 인터페이스 출력을 더 적응시킬지 여부를 결정하기 위해 블록(406)을 계속 수행한다.
블록(406)의 하나의 예로서, 시스템은, 블록(404)의 프로세싱이 지향된 응시의 발생을 표시함에 응답하여 초기에 사용자 인터페이스 출력을 적응시킬 것을 결정할 수 있다. 예컨대, 블록(408)에서, 시스템은 제 1 인간 인지가능 신호를 렌더링할 수 있다. 예를 계속하면, 시스템은 블록(406)을 계속 수행할 수 있다. 만약 블록(404)의 계속된 프로세싱이 지향된 응시가 더 이상 일어나고 있지 않음을 표시한다면, 시스템은 블록(408)으로 진행할 수 있고 그리고 제 1 인간 인지가능 신호를 제거할 수 있다(그리고 임의의 다른 인간 인지가능 신호를 렌더링하지 않을 수 있음). 반면, 만약 블록(404)의 계속된 프로세싱이 지향된 응시가 계속되고 있음을 표시하고 또한 하나 이상의 다른 속성(들)이 일어나고 있음을 표시한다면, 시스템은 블록(408)으로 진행할 수 있고 그리고 제 2 인간 인지가능 신호를 제공할 수 있다.
블록(408)의 하나의 예로서, 시스템은, 블록(404)의 프로세싱이 지향된 응시의 발생을 표시함에 응답하여, 블록(404)의 프로세싱에 의해 표시된 사용자의 거리에 근거하여, 그리고/또는 선택에 따라서는 하나 이상의 다른 조건(들)에 근거하여, 오디오 데이터 및/또는 비전 데이터의 특정된 이전에 휴면상태인 로컬 프로세싱을 개시할 것을 결정할 수 있다. 이러한 조건(들)은 예를 들어, 블록(404)의 프로세싱이 목소리 활동을 표시하는 것, 입 움직임과 목소리 활동의 동시-발생을 표시하는 것, 그리고/또는 목소리 활동의 엔드포인팅(endpointing)을 표시하는 것을 포함할 수 있다. 블록(408)의 또 하나의 다른 하나의 예로서, 시스템은, 블록(404)의 프로세싱이 지향된 응시의 발생을 표시함에 응답하여 그리고 블록(404)의 프로세싱에 의해 표시된 사용자의 거리에 근거하여, 오디오 데이터 및/또는 비전 데이터를 원격 어시스턴트 컴포넌트(들)에 전송할 것을 결정할 수 있다.
블록들(402, 404, 406, 408, 및/또는 410)은 선택에 따라서는 하나 이상의 조건들이 만족될 때까지 계속될 수 있다. 이러한 조건들은 예를 들어, 더 이상 인간 존재를 검출하지 않는 것, 방법(400)의 멈춤이 멈춤을 요청하는 명시적 사용자 입력에 근거하는 것, 그리고/또는 다른 조건(들)을 포함할 수 있다.
이제 도 5를 참조하면, 또 하나의 다른 예시적 방법(500)이 예시되고, 이것은 방법(400)의 하나의 특정 구현예이다.
블록(502)에서, 시스템은 비전 컴포넌트(들)로부터의 출력에 근거하는 비전 데이터를 수신하고, 뿐만 아니라 마이크로폰(들)으로부터의 출력에 근거하는 오디오 데이터를 수신한다. 블록(502)은 도 4의 블록(402)과 공통으로 하나 이상의 실시형태들을 공유할 수 있다.
블록(504)에서, 시스템은 다양한 속성들의 발생 및/또는 신뢰도를 결정하기 위해 비전 데이터 및/또는 오디오 데이터를 프로세싱한다. 블록(504)의 프로세싱은, 비전 데이터 및/또는 오디오 데이터의 복수의 프레임들에 걸쳐 일어날 수 있는데, 예컨대, 비전 데이터의 스트림 및 오디오 데이터의 스트림 상에서 일어날 수 있다. 일부 구현예들에서, 블록(504)의 프로세싱은 인간 존재를 표시하는 존재 센서로부터의 출력에 응답하여 개시될 수 있다. 블록(504)의 프로세싱은 도 4의 블록(404)과 공통으로 하나 이상의 실시형태들을 공유할 수 있다.
블록들(506, 508, 및/또는 510)은 블록(504)의 프로세싱 동안(예를 들어, 블록(504)의 프로세싱과 병렬로) 수행될 수 있고, 그리고 각각은 이러한 프로세싱 동안 결정된 속성(들) 및/또는 신뢰도 메트릭(들)에 의존한다.
블록(506)에서, 시스템은 블록(504)의 프로세싱에 근거하여 지향된 응시의 발생이 (예를 들어, 적어도 임계 신뢰도 메트릭을 갖고) 결정되었는지 여부를 결정한다. 만약 그렇다면, 시스템은 블록(510)으로 진행하고, 그리고 또한 선택에 따라서는 블록(508)에서 제 1 인간 인지가능 신호를 렌더링한다. 만약 아니라면, 시스템은 블록(506)을 계속 수행한다.
블록(510)에서, 시스템은 하나 이상의 다른 속성(들)의 발생과 함께 지향된 응시가 계속되고 있는지 여부를 결정한다. 예를 들어, 다른 속성들은, (지향된 응시를 제공하는) 사용자가 어시스턴트 디바이스의 임계 거리 내에 있는 것, 목소리 활동의 발생을 결정하는 것, 그리고/또는 (지향된 응시를 제공하는 사용자의) 입 움직임과 목소리 활동의 동시-발생을 결정하는 것을 포함할 수 있다. 일부 구현예들의 경우, 블록(510)에서, 시스템은 만약 지향된 응시가 계속되고 있고 그리고 다른 조건(들) 중 하나 이상의 조건이 특정 제약(constraint)(들)을 만족시키고 있다면(예를 들어, 거리가 임계치를 만족시킨다면(혹은 적어도 거리의 크기에 근거하는 임계치를 만족시킨다면), 그리고/또는 목소리 활동 및/또는 목소리 활동과 입 움직임의 동시-발생이 적어도 임계 신뢰도 메트릭(들)을 갖고 있다면), "예(yes)"로 진행한다.
만약 블록(510)의 결정이 "아니오(no)"라면, 시스템은 블록(506)으로 다시 되돌아 진행한다. 만약 블록(510)의 결정이 "예"라면, 시스템은 블록(518) 또는 블록(514)으로 진행하고, 그리고 또한 선택에 따라서는 블록(512)에서 제 2 인간 인지가능 신호를 렌더링한다. 만약 시스템이 블록(510)에서의 "예" 결정 이후 블록(518)으로 진행한다면, 시스템은 비전 데이터 및/또는 오디오 데이터의 추가 로컬 프로세싱을 수행할 수 있고(즉, 이것은 블록(504)에서 이미 수행되고 있는 프로세싱에 대한 추가 프로세싱임), 그리고/또는 비전 데이터 및/또는 오디오 데이터(그리고/또는 이들의 로컬로 결정된 변환(conversion)들, 예컨대, 오디오 데이터로부터 변환된 텍스트와 같은 것)를 추가 프로세싱을 위해 원격 자동화된 어시스턴트 컴포넌트(들)로 전송할 수 있다.
만약 시스템이 블록(510)에서의 "예" 결정 이후 블록(514)으로 진행한다면, 시스템은 블록(514)에서 사용자 입력의 완료를 표시하기 위한 로컬 엔드포인팅(local endpointing)을 기다린다. 예를 들어, 엔드포인팅은 오디오 데이터의 분석에 근거할 수 있고, 그리고 현재 발성된 입력이 완료된 것을 표시할 수 있다. 또 하나의 다른 예로서, 엔드포인팅은 추가적으로 혹은 대안적으로, 비전 데이터의 분석에 근거할 수 있고, 그리고 현재 제스처 입력이 완료된 것을 표시할 수 있다. 다양한 엔드포인팅 기법들이 이러한 엔드포인팅 결정을 행함에 있어 이용될 수 있다. 만약 로컬 엔드포인팅이 현재 사용자 입력이 완료된 것을 표시한다면, 시스템은 블록(516)으로 진행할 수 있고, 그리고 제 3 인지가능 신호를 렌더링할 수 있고 그리고/또는 블록(518)으로 진행할 수 있다. 만약 블록(514)으로부터 블록(518)으로 진행한다면, 시스템은 비전 데이터 및/또는 오디오 데이터의 추가 로컬 프로세싱을 수행할 수 있고, 그리고/또는 비전 데이터 및/또는 오디오 데이터를 추가 프로세싱을 위해 원격 자동화된 어시스턴트 컴포넌트(들)로 전송할 수 있다. 예를 들어, 만약 시스템이 블록(510)에서의 예 결정 이후 블록(518)으로 진행하지 않고 블록(518)에서 비전 데이터 및/또는 오디오 데이터를 전송하지 않는다면, 시스템은 블록(514)에서의 예 결정 이후 블록(518)으로 진행할 수 있고 비전 데이터 및/또는 오디오 데이터를 전송할 수 있다. 또한, 예를 들어, 만약 시스템이 블록(510)에서의 예 결정 이후 블록(518)으로 진행하지만 비전 데이터 및/또는 오디오 데이터의 추가 로컬 프로세싱만을 수행한다면, 시스템은 블록(514)에서의 예 결정 이후 블록(518)으로 진행할 수 있고 비전 데이터 및/또는 오디오 데이터를 전송할 수 있고 비전 데이터 및/또는 오디오 데이터를 전송할 수 있다.
선택적 블록(520)에서, 시스템은 비전 데이터 및/또는 오디오 데이터에서 캡처된 발성된 입력 및/또는 제스처 입력에 대한 응답을 제공할지 여부를 결정함에 있어 추가 프로세싱을 수행한다. 일부 구현예들에서, 블록(520)은 원격 자동화된 어시스턴트 컴포넌트(들)에서 수행될 수 있고, 반면 방법(500)의 다른 블록들은 자동화된 어시스턴트 클라이언트에 의해 어시스턴트 디바이스에서 로컬로 수행될 수 있다. 추가 프로세싱은 예를 들어, 본 명세서에서 설명된 시맨틱 필터링을 포함할 수 있고, 그리고/또는 지향된 응시를 제공하는 사용자의 얼굴 인식에 의해 표시된 사용자와 발성된 입력이 매칭됨을 텍스트-독립적 발성자 식별이 표시하는지 여부를 결정하는 것을 포함할 수 있다. 예를 들어, 만약 시맨틱 필터링이 입력이 아마도 자동화된 어시스턴트에 대해 의도된 것이 아님을 표시한다면, 그리고/또는 만약 TI-SID가 발성된 입력이 얼굴 인식에 의해 표시된 사용자와 매칭되지 않음을 표시한다면, 응답 발생은 중지될 수 있고, 그리고/또는 응답이 클라이언트 디바이스로 전송되는 것 및/또는 클라이언트 디바이스에 의해 렌더링되는 것이 방지될 수 있다.
이제 도 6의 방법(600)을 살펴보면, 블록(602)에서, 시스템은 비전 컴포넌트(들)(예컨대, 어시스턴트 디바이스와 통합된 비전 컴포넌트(들))로부터의 출력에 근거하는 비전 데이터를 수신한다.
블록(604)에서, 시스템은 사용자의 지향된 응시 및/또는 사용자의 터치-프리 제스처의 발생 및/또는 신뢰도를 결정하기 위해 비전 데이터를 프로세싱한다. 블록(604)의 프로세싱은 비전 데이터의 복수의 프레임들에 걸쳐 일어날 수 있는데, 예컨대, 비전 데이터의 스트림 상에서 일어날 수 있다. 일부 구현예들에서, 블록(604)의 프로세싱은 인간 존재를 표시하는 존재 센서로부터의 출력에 응답하여 개시될 수 있다.
블록(606) 및/또는 블록(610)은 블록(604)의 프로세싱 동안(예를 들어, 블록(604)의 프로세싱과 병렬로) 수행될 수 있고, 그리고 각각은 블록(604)의 프로세싱에 의존한다.
블록(606)에서, 시스템은 사용자의 지향된 응시의 발생이 블록(604)의 비전 데이터의 프로세싱에 근거하여 결정되었는지 여부를 결정한다. 만약 아니라면, 시스템은 블록(606)을 계속 수행한다. 만약 그렇다면, 시스템은 블록(610)으로 진행하고, 선택에 따라서는 블록(608)에서 사용자 인터페이스 출력을 적응시킨다(예를 들어, 인간 인지가능 신호를 렌더링함).
블록(610)에서, 시스템은 사용자(지향된 응시를 제공하는 동일 사용자)의 제스처가 블록(604)의 비전 데이터의 프로세싱에 근거하여 결정되었는지 여부를 결정하고, 그리고 제스처의 라벨 혹은 다른 식별자를 결정한다. 일부 구현예들에서, 지향된 응시가 일어나고 있는지 여부를 결정함에 있어, 그리고 제스처가 결정되었는지 여부를 결정함에 있어, 별개의 프로세싱이 블록(604)에서 수행될 수 있다. 만약 블록(610)에서의 결정이 "아니오"라면, 시스템은 블록(606)으로 다시 되돌아 진행하여 지향된 응시가 계속되고 있는지를 결정한다(그리고 또한 선택에 따라서는 블록(608)의 사용자 인터페이스 출력 적응을 계속할지 여부를 결정함).
만약 블록(610)에서의 결정이 "예"라면, 시스템은 블록(612)으로 진행하고, 제스처에 근거하여 그리고 선택에 따라서는 제스처가 일어난 때 클라이언트 디바이스에 의해 렌더링되고 있는 콘텐츠에 근거하여 응답을 발생시킨다. 일부 구현예들에서, 블록(612)으로 진행하기 위해, 시스템은 또한 블록(604)에서 비전 데이터를 프로세싱한 것에 근거하여 (지향된 응시 및 제스처를 제공하는) 사용자의 거리가 임계치를 만족시킴을 결정한다.
일부 구현예들에서, 블록(612)은 제스처가 복수의 응답형 액션들에 할당되어 있음을 결정하는 것을 포함한다. 예를 들어, 제스처 대 액션들 맵핑은 제스처가 다수의 후보 응답형 액션들에 할당되어 있음을 표시할 수 있다. 그러한 구현예들에서, 블록(612)은 또한, 제스처가 일어난 때 클라이언트 디바이스에 의해 렌더링되고 있는 콘텐츠에 근거하여 복수의 응답형 액션들로부터 단일의 응답형 액션을 선택하는 것, 그리고 선택된 단일의 응답형 액션의 수행을 일으키도록 응답을 발생시키는 것을 포함한다. 예를 들어, 왼편 스와이핑 제스처(swiping left gesture)(즉, 손을 수평으로 왼편으로 움직이는 제스처)는 "다음 트랙(next track)" 액션 및 "스마트 서모스탯 온도 감소(decrease smart thermostat temperature)" 액션 모두에 할당될 수 있고, 이러한 두 개의 액션들 중 어느 것이 선택되는지는 렌더링되고 있는 콘텐츠에 근거할 수 있다. 예를 들어, "다음 트랙" 액션은 오디오 콘텐츠가 렌더링되고 있는 경우 선택될 수 있고, 반면 "스마트 서모스탯 감소" 액션은 어떠한 오디오 혹은 시청각 콘텐츠도 렌더링되고 있지 않고 (예를 들어, "현재 서모스탯 온도는 뭐지(what is the current thermostat temperature)"의 이전의 발성된 발언에 응답하여) 서모스탯 제어(thermostat control)들이 렌더링되고 있는 경우 선택될 수 있다.
그 다음에, 블록(614)에서, 시스템은 응답을 발효시킨다. 이것은 (예를 들어, "스마트 서모스탯 온도 감소" 액션 및/또는 "다음 트랙 액션"을 발효시키기 위해) 하나 이상의 써드-파티 시스템들과 인터페이싱하는 것, 그리고/또는 (예를 들어, "음량 감소" 액션을 발효시키기 위해) 어시스턴트 디바이스를 제어하는 것을 포함할 수 있다.
도 7은 본 명세서에서 설명되는 기법들의 하나 이상의 실시형태들을 수행하기 위해 선택에 따라 이용될 수 있는 예시적 컴퓨팅 디바이스(710)의 블록도이다. 일부 구현예들에서, 클라이언트 디바이스, 클라우드-기반 자동화된 어시스턴트 컴포넌트(들), 및/또는 다른 컴포넌트(들) 중 하나 이상은 예시적 컴퓨팅 디바이스(710)의 하나 이상의 컴포넌트들을 포함할 수 있다.
컴퓨팅 디바이스(710)는 전형적으로 버스 서브시스템(bus subsystem)(712)을 통해 다수의 주변 디바이스(peripheral device)들과 통신하는 적어도 하나의 프로세서(714)를 포함한다. 이러한 주변 디바이스들은, (예컨대, 메모리 서브시스템(memory subsystem)(725) 및 파일 저장 서브시스템(726)을 포함하는) 저장 서브시스템(storage subsystem)(724), 사용자 인터페이스 출력 디바이스(user interface output device)들(720), 사용자 인터페이스 입력 디바이스(user interface input device)들(722), 그리고 네트워크 인터페이스 서브시스템(network interface subsystem)(716)을 포함할 수 있다. 입력 및 출력 디바이스들은 컴퓨팅 디바이스(710)와의 사용자 상호작용을 가능하게 한다. 네트워크 인터페이스 서브시스템(716)은 외부 네트워크들에 대한 인터페이스를 제공하고, 그리고 다른 컴퓨팅 디바이스들 내의 대응하는 인터페이스 디바이스들에 결합된다.
사용자 인터페이스 입력 디바이스들(722)은, 키보드(keyboard), 마우스(mouse)와 같은 포인팅 디바이스(pointing device)들, 트랙볼(trackball), 터치패드(touchpad), 또는 그래픽 태블릿(graphics tablet), 스캐너(scanner), 디스플레이에 통합된 터치스크린(touchscreen), 목소리 인식 시스템들과 같은 오디오 입력 디바이스(audio input device)들, 마이크로폰들, 그리고/또는 입력 디바이스들의 다른 타입들을 포함할 수 있다. 일반적으로, 용어 "입력 디바이스"의 사용은 컴퓨팅 디바이스(710)에 혹은 통신 네트워크에 정보를 입력하기 위한 디바이스들 및 방식들의 모든 가능한 타입들을 포함하도록 의도된 것이다.
사용자 인터페이스 출력 디바이스들(720)은, 디스플레이 서브시스템(display subsystem), 프린터(printer), 팩스 머신(fax machine), 또는 오디오 출력 디바이스들과 같은 비-시각적 디스플레이( or non-visual display)들을 포함할 수 있다. 디스플레이 서브시스템은, 음극선관(Cathode Ray Tube, CRT), 액정 디스플레이(Liquid Crystal Display, LCD)와 같은 평면-패널 디바이스(flat-panel device), 프로젝션 디바이스(projection device), 또는 시각적 이미지를 생성하기 위한 어떤 다른 메커니즘을 포함할 수 있다. 디스플레이 서브시스템은 또한 예를 들어, 오디오 출력 디바이스들을 통해 비-시각적 디스플레이를 제공할 수 있다. 일반적으로, 용어 "출력 디바이스"의 사용은 컴퓨팅 디바이스(710)로부터의 정보를 사용자에게 혹은 또 하나의 다른 머신 또는 컴퓨팅 디바이스에게 출력하기 위한 디바이스들 및 방식들의 모든 가능한 타입들을 포함하도록 의도된 것이다.
저장 서브시스템(724)은 본 명세서에서 설명되는 모듈들 중 일부 혹은 모두의 기능을 제공하는 프로그래밍 및 데이터 구조들을 저장한다. 예를 들어, 저장 서브시스템(724)은 도 4, 도 5, 및/또는 도 6의 방법 중 선택된 실시형태들을 수행하는 것, 뿐만 아니라 도 1, 도 2a, 도 2b, 및 도 3a에 도시된 다양한 컴포넌트들을 구현하는 것을 행하기 위한 로직(logic)을 포함할 수 있다.
이러한 소프트웨어 모듈들은 일반적으로 프로세서(714)에 의해 단독으로 혹은 다른 프로세서들과 결합되어 실행된다. 저장 서브시스템(724)에서 사용되는 메모리(725)는, 프로그램 실행 동안 명령들 및 데이터를 저장하기 위한 메인 랜덤 액세스 메모리(Random Access Memory, RAM)(730)와 그리고 고정된 명령들이 저장된 판독 전용 메모리(Read Only Memory, ROM)(732)를 포함하는 다수의 메모리들을 포함할 수 있다. 파일 저장 서브시스템(726)은 프로그램 및 데이터 파일들을 위한 지속적인 저장을 제공할 수 있고, 그리고 하드 디스크 드라이브(hard disk drive), (관련된 탈착가능 매체들(removable media)과 함께) 플로피 디스크 드라이브(floppy disk drive), CD-ROM 드라이브, 광학 드라이브(optical drive), 또는 탈착가능 매체 카트리지(removable media cartridge)들을 포함할 수 있다. 특정 구현예들의 기능을 구현하는 모듈들은 저장 서브시스템(724) 내에 파일 저장 서브시스템(726)에 의해 저장될 수 있고, 또는 프로세서(들)(714)에 의해 액세스가능한 다른 머신들 내에 저장될 수 있다.
버스 서브시스템(712)은 컴퓨팅 디바이스(710)의 다양한 컴포넌트들 및 서브시스템들이 의도된 대로 서로 통신하도록 하기 위한 메커니즘을 제공한다. 비록 버스 서브시스템(712)이 단일 버스로서 도식적으로 보여지지만, 버스 서브시스템의 대안적 구현예들은 다수의 버스들을 사용할 수 있다.
컴퓨팅 디바이스(710)는, 워크스테이션(workstation), 서버(server), 컴퓨팅 클러스터(computing cluster), 블레이드 서버(blade server), 서버 팜(server farm), 또는 임의의 다른 데이터 프로세싱 시스템 혹은 컴퓨팅 디바이스를 포함하는 다양한 타입들을 가질 수 있다. 컴퓨터들 및 네트워크들의 항상-변하는 특성으로 인해, 도 7에 도시된 컴퓨팅 디바이스(710)의 설명은 단지 일부 구현예들을 예시할 목적으로 특정 예로서만 의도된 것이다. 도 7에 도시된 컴퓨팅 디바이스보다 더 많거나 더 적은 컴포넌트들을 갖는 컴퓨팅 디바이스(710)의 다수의 다른 구성들이 가능하다.
본 명세서에서 설명되는 시스템들이 사용자들에 대한 개인적 정보를 수집하거나 그렇지 않으면 모니터링하는 상황들에서 또는 개인적 정보 및/또는 모니터링된 정보를 이용할 수 있는 상황들에서, 사용자들은, 프로그램들 혹은 특징들이 사용자 정보(예를 들어, 사용자의 소셜 네트워크(social network), 소셜 액션들 혹은 활동들, 직업(profession), 사용자의 선호도(preference)들, 또는 사용자의 현재 지리적 위치에 대한 정보)를 수집할지 여부를 제어할 기회를 제공받을 수 있고, 또는 사용자와 더 관련이 있을 수 있는 콘텐츠를 콘텐츠 서버로부터 수신할지 여부 및/또는 그 수신 방법을 제어할 기회를 제공받을 수 있다. 또한, 특정 데이터는 저장 혹은 사용되기 전에 하나 이상의 방식들로 처리될 수 있고, 이에 따라 개인적 식별가능 정보는 제거되게 된다. 예를 들어, 사용자의 신원(identity)은 사용자에 대한 어떠한 개인적 식별가능 정보도 결정될 수 없도록 처리될 수 있고, 또는 지리적 위치 정보가 획득되는 사용자의 지리적 위치는 (예를 들어, 도시 수준으로, ZIP 코드 수준으로, 또는 주(stat) 수준으로) 일반화될 수 있고, 이에 따라 사용자의 특정 지리적 위치는 결정될 수 없게 된다. 따라서, 사용자는 사용자에 대한 어떤 정보가 수집되고 그리고/또는 사용되는지에 관한 제어를 가질 수 있다. 예를 들어, 사용자들은 자동화된 어시스턴트와의 핫-워드 프리 상호작용을 활성화시킴에 있어 어시스턴트 디바이스들이 비전 컴포넌트(107)를 사용하는 것 그리고/또는 비전 컴포넌트(107)로부터의 비전 데이터를 사용하는 것에서 탈퇴할 수 있다.
일부 구현예들에서, 하나 이상의 프로세서(processor)들에 의해 구현되는 방법이 제공되고, 이러한 방법은, 클라이언트 디바이스(client device)에서, 클라이언트 디바이스의 하나 이상의 카메라들로부터의 출력에 근거하는 이미지 프레임(image frame)들의 스트림(stream)을 수신하는 것을 포함한다. 방법은 또한, 클라이언트 디바이스에서, 클라이언트 디바이스를 향해 지향된 사용자의 응시(gaze)의 발생을 검출하기 위해 클라이언트 디바이스 상에 로컬로(locally) 저장된 적어도 하나의 훈련된 머신 러닝 모델(machine learning model)을 사용하여 스트림의 이미지 프레임들을 프로세싱(processing)하는 것을 포함한다. 방법은 또한, 클라이언트 디바이스에서, 클라이언트 디바이스에 대한 사용자의 거리를 결정하는 것을 포함한다. 클라이언트 디바이스에 대한 사용자의 거리를 결정하는 것은, 이미지 프레임들 및/또는 클라이언트 디바이스의 추가적인 센서로부터의 추가적인 센서 데이터 중 하나 이상에 근거할 수 있다. 방법은 또한, 클라이언트 디바이스에서, 사용자의 응시의 발생을 검출함에 근거하여, 그리고 클라이언트 디바이스에 대한 사용자의 거리에 근거하여, 클라이언트 디바이스의 하나 이상의 마이크로폰(microphone)들에 의해 검출된 오디오 데이터(audio data)의 특정 프로세싱을 수행할 것을 결정하는 것을 포함한다. 방법은 또한, 클라이언트 디바이스에서, 오디오 데이터의 특정 프로세싱을 수행할 것을 결정함에 응답하여 오디오 데이터의 특정 프로세싱을 개시하는 것을 포함한다.
본 명세서에서 개시되는 기술의 이러한 구현예들 및 다른 구현예들은 선택에 따라서는 다음의 특징들 중 하나 이상의 특징을 포함할 수 있다.
일부 구현예들에서, 오디오 데이터의 특정 프로세싱을 개시하는 것은, 클라이언트 디바이스에서 오디오 데이터의 로컬 자동 음성 인식(local automatic speech recognition)을 개시하는 것; 오디오 데이터를 자동화된 어시스턴트와 관련된 원격 서버(remote server)로 전송하는 것을 개시하는 것; 그리고/또는 로컬 자동 음성 인식으로부터의 인식된 텍스트(text)를 원격 서버로 전송하는 것을 개시하는 것을 포함할 수 있다.
일부 구현예들에서, 오디오 데이터의 적어도 일부는, 클라이언트 디바이스에 로컬(local)인 임시 버퍼(temporary buffer) 내에, 사용자의 응시를 검출하기 전에, 버퍼링(buffering)되는 버퍼링된 오디오 데이터(buffered audio data)이다.
일부 구현예들에서, 방법은 또한, 오디오 데이터의 특정 프로세싱을 개시하기 전에, 클라이언트 디바이스의 출력 컴포넌트(output component)를 통해 적어도 하나의 인간 인지가능 신호(human perceptible cue)를 렌더링(rendering)하는 것을 포함한다. 이러한 구현예들의 일부 버전들에서, 적어도 하나의 인간 인지가능 신호는, 클라이언트 디바이스를 향해 지향된 사용자의 응시의 발생을 검출함에 응답하여 렌더링되는 제 1 신호를 포함한다.
일부 구현예들에서, 클라이언트 디바이스의 하나 이상의 카메라들을 향해 지향된 사용자의 응시의 발생을 검출하기 위해 적어도 하나의 훈련된 머신 러닝 모델을 사용하여 이미지 프레임들을 프로세싱하는 것은, 이미지 프레임들의 시퀀스(sequence)의 이미지 프레임들 각각에 대해, 사용자의 응시가 클라이언트 디바이스를 향해 지향된 것인지 여부를 결정하기 위해 적어도 하나의 훈련된 머신 러닝 모델을 사용하여 이미지 프레임들의 시퀀스를 프로세싱하는 것과; 그리고 하나 이상의 카메라들을 향해 지향된 것으로 사용자의 응시가 결정되는 시퀀스의 이미지 프레임들의 양(quantity)에 근거하여 클라이언트 디바이스를 향해 지향된 사용자의 응시의 발생을 검출하는 것을 포함한다.
일부 구현예들에서, 방법은 또한, 클라이언트 디바이스의 하나 이상의 마이크로폰들을 통해 검출된 오디오 데이터의 특정 프로세싱을 개시하기 전에, 클라이언트 디바이스에서, 오디오 데이터의 적어도 일부의 로컬 프로세싱에 근거하는 목소리 활동(voice activity); 그리고/또는 오디오 데이터의 적어도 일부 및 이미지 프레임들 중 하나 이상의 이미지 프레임의 로컬 프로세싱에 근거하는 목소리 활동과 사용자의 입 움직임(mouth movement)의 동시-발생(co-occurrence)을 검출하는 것을 포함한다. 이러한 구현예들 중 일부에서, 오디오 데이터의 특정 프로세싱을 개시하는 것은 또한, 목소리 활동 및 목소리 활동과 사용자의 입 움직임의 동시-발생 중 하나 혹은 양쪽 모두를 검출하는 것에 대한 응답이다. 이러한 구현예들의 일부 버전들에서, 사용자의 응시의 발생을 검출하는 것은 제 1 시간에 일어나고, 목소리 활동 및 목소리 활동과 사용자의 입 움직임의 동시-발생 중 하나 혹은 양쪽 모두를 검출하는 것은 제 1 시간에 후속하는 제 2 시간에 일어난다. 이러한 버전들 중 일부에서, 방법은 또한, 오디오 데이터의 특정 프로세싱을 개시하기 전에, 그리고 제 2 시간 전에, 클라이언트 디바이스의 하나 이상의 카메라들을 향해 지향된 사용자의 응시의 발생을 검출함에 응답하여, 클라이언트 디바이스의 출력 컴포넌트를 통해, 제 1 인간 인지가능 신호를 렌더링하는 것과; 그리고 오디오 데이터의 특정 프로세싱을 개시하기 전에, 그리고 제 1 인간 인지가능 신호의 렌더링에 후속하여, 목소리 활동 및 목소리 활동과 사용자의 입 움직임의 동시-발생 중 하나 혹은 양쪽 모두를 검출하는 것에 응답하여, 클라이언트 디바이스의 출력 컴포넌트 또는 추가적인 출력 컴포넌트를 통해, 제 2 인간 인지가능 신호를 렌더링하는 것을 포함한다. 제 1 인간 인지가능 신호는 예를 들어, 클라이언트 디바이스의 디스플레이(display)를 통해 렌더링되는 제 1 시각적 신호(visual cue)를 포함할 수 있고, 그리고 제 2 인간 인지가능 신호는 예를 들어, 클라이언트 디바이스의 디스플레이를 통해 렌더링되는 제 2 시각적 신호를 포함할 수 있다. 더욱이, 이러한 버전들 중 일부에서, 방법은 또한, 오디오 데이터의 특정 프로세싱을 개시하는 것에 응답하여, 그리고 제 2 시간에 후속하여, 클라이언트 디바이스의 출력 컴포넌트 또는 추가적인 출력 컴포넌트를 통해, 제 3 인간 인지가능 신호를 렌더링하는 것을 포함할 수 있다.
일부 구현예들에서, 클라이언트 디바이스에 대한 사용자의 거리를 결정하는 것은 이미지 프레임들 중 하나 이상의 이미지 프레임에 근거한다. 이러한 구현예들 중 일부에서, 사용자의 거리를 결정하는 것은 이미지 프레임들 중 하나 이상의 이미지 프레임에서 검출된 사용자의 눈(eye)들 간의 결정된 눈 거리(eye distance)에 근거한다.
일부 구현예들에서, 사용자의 응시의 발생을 검출함에 근거하여, 그리고 클라이언트 디바이스에 대한 사용자의 거리에 근거하여, 오디오 데이터의 특정 프로세싱을 수행할 것을 결정하는 것은, 사용자의 거리가 임계 거리(threshold distance)를 만족시키는 것에 근거하여 특정 프로세싱을 수행할 것을 결정하는 것을 포함한다.
일부 구현예들에서, 사용자의 응시의 발생을 검출함에 근거하여, 그리고 클라이언트 디바이스에 대한 사용자의 거리에 근거하여, 오디오 데이터의 특정 프로세싱을 수행할 것을 결정하는 것은, 사용자의 거리의 크기(magnitude)에 근거하여, 그리고 사용자의 응시에 대한 응시 신뢰도 메트릭(gaze confidence metric)에 근거하여, 오디오 데이터의 특정 프로세싱을 수행할 것을 결정하는 것을 포함한다. 응시 신뢰도 메트릭은 적어도 하나의 훈련된 머신 러닝 모델을 사용하여 스트림의 이미지 프레임들을 프로세싱하는 것에 근거하여 발생될 수 있다.
일부 구현예들에서, 방법은 또한, 클라이언트 디바이스에서 로컬로 이미지 프레임들 중 하나 이상의 이미지 프레임을 프로세싱하는 것에 근거하여 사용자가 인식된 사용자임을 결정하는 것을 포함한다. 이러한 구현예들 중 일부에서, 오디오 데이터의 특정 프로세싱을 수행할 것을 결정하는 것은 또한, 사용자가 인식된 사용자임을 결정하는 것에 근거한다.
일부 구현예들에서, 오디오 데이터의 특정 프로세싱은 인식된 음성을 발생시키기 위한 오디오 데이터의 자동 음성 인식(automatic speech recognition)을 포함한다. 이러한 구현예들의 일부 버전들에서, 방법은 또한, 인식된 음성에 적어도 부분적으로 근거하여, 인식된 음성이 자동화된 어시스턴트로 지향된 요청일 확률을 표시하는 어시스턴트 요청 정도(assistant request measure)를 결정하는 것과; 그리고 어시스턴트 요청 정도에 적어도 부분적으로 근거하여, 클라이언트 디바이스를 통해, 인식된 음성에 대한 응답을 렌더링할지 여부를 결정하는 것을 포함한다. 이러한 버전들 중 일부에서, 인식된 음성에 대한 응답을 렌더링할지 여부를 결정하는 것은 또한, 사용자의 거리; 사용자가 인식된 사용자인지 여부; 그리고/또는 사용자의 응시에 대한 응시 신뢰도 메트릭에 근거한다.
일부 구현예들에서, 클라이언트 디바이스의 하나 이상의 프로세서들에 의해 구현되는 방법이 제공되고, 이러한 방법은, 클라이언트 디바이스의 하나 이상의 카메라들로부터의 출력에 근거하는 이미지 프레임들의 스트림을 수신하는 것과; 그리고 클라이언트 디바이스에서, 클라이언트 디바이스를 향해 지향된 사용자의 응시의 발생을 검출하기 위해 클라이언트 디바이스 상에 로컬로 저장된 적어도 하나의 훈련된 머신 러닝 모델을 사용하여 스트림의 이미지 프레임들을 프로세싱하는 것을 포함한다. 방법은 또한, 클라이언트 디바이스를 향해 지향된 사용자의 응시의 발생을 검출함에 응답하여, 클라이언트 디바이스의 디스플레이에서, 제 1 인간 인지가능 신호를 렌더링하는 것을 포함한다. 방법은 또한, 제 1 인간 인지가능 신호를 렌더링하는 동안, 클라이언트 디바이스에서, 클라이언트 디바이스의 하나 이상의 마이크로폰들에 의해 캡처된 오디오 데이터의 적어도 일부의 로컬 프로세싱에 근거하는 목소리 활동; 오디오 데이터의 적어도 일부 및 이미지 프레임들 중 하나 이상의 이미지 프레임의 로컬 프로세싱에 근거하는 목소리 활동과 사용자의 입 움직임의 동시-발생; 및 이미지 프레임들 중 하나 이상의 이미지 프레임의 로컬 프로세싱에 근거하는 사용자의 제스처(gesture) 중 하나 이상을 검출하는 것을 포함한다. 방법은 또한, 응시의 발생을 계속 검출함에 응답하여, 그리고 목소리 활동, 목소리 활동과 사용자의 입 움직임의 동시-발생, 및 사용자의 제스처 중 하나 이상을 검출함에 응답하여, 클라이언트 디바이스의 디스플레이에서, 제 1 인간 인지가능 신호의 렌더링을 제 2 인간 인지가능 신호의 렌더링으로 대체(supplanting)하는 것을 포함한다. 방법은 또한, 제 2 인간 인지가능 신호를 렌더링하는 것에 후속하여, 클라이언트 디바이스에서, 이미지 프레임들 중 하나 이상의 이미지 프레임 및/또는 오디오 데이터의 특정 추가 프로세싱을 개시하는 것을 포함한다.
본 명세서에서 개시되는 기술의 이러한 구현예들 및 다른 구현예들은 선택에 따라서는 다음의 특징들 중 하나 이상의 특징을 포함할 수 있다.
일부 구현예들에서, 방법은 또한, 이미지 프레임들 중 하나 이상의 이미지 프레임 및/또는 오디오 데이터의 특정 추가 프로세싱을 개시하는 것에 응답하여, 클라이언트 디바이스의 디스플레이에서, 제 2 인간 인지가능 신호의 렌더링을 제 3 인간 인지가능 신호의 렌더링으로 대체하는 것을 포함한다.
일부 구현예들에서, 이미지 프레임들 중 하나 이상의 이미지 프레임 및/또는 오디오 데이터의 특정 추가 프로세싱을 개시하는 것은, 이미지 프레임들 및/또는 오디오 데이터를 자동화된 어시스턴트와 관련된 원격 서버로 전송하는 것을 개시하는 것을 포함한다.
일부 구현예들에서, 방법은 또한, 응시의 발생을 검출하는 것, 목소리 활동을 검출하는 것, 목소리 활동과 입 움직임의 동시-발생을 검출하는 것, 및 제스처를 검출하는 것 중 하나 이상과 각각 관련된 하나 이상의 신뢰도(confidence measure)들을 결정하는 것을 포함한다. 이러한 구현예들 중 일부에서, 제 2 인간 인지가능 신호의 크기는 신뢰도들 중 하나 이상의 신뢰도에 근거하고, 그리고/또는 이미지 프레임들 중 하나 이상의 이미지 프레임 및/또는 오디오 데이터의 특정 추가 프로세싱을 개시하는 것은, 하나 이상의 신뢰도들이 하나 이상의 임계치들을 만족시키는 것에 근거한다.
일부 구현예들에서, 하나 이상의 프로세서들에 의해 구현되는 방법이 제공되고, 이러한 방법은, 클라이언트 디바이스에서, 클라이언트 디바이스의 하나 이상의 카메라들로부터의 출력에 근거하는 이미지 프레임들의 스트림을 수신하는 것을 포함한다. 방법은 또한, 클라이언트 디바이스에서, 클라이언트 디바이스를 향해 지향된 사용자의 응시의 발생을 검출하기 위해 클라이언트 디바이스 상에 로컬로 저장된 적어도 하나의 훈련된 머신 러닝 모델을 사용하여 스트림의 이미지 프레임들을 프로세싱하는 것을 포함한다. 방법은 또한, 사용자의 응시의 발생을 검출함에 근거하여, 스트림의 이미지 프레임들 중 하나 이상의 이미지 프레임에 의해 캡처된 사용자의 제스처에 대한 응답을 발생시킬 것을 결정하는 것을 포함한다. 방법은 또한, 사용자의 제스처에 대한 응답을 발생시키는 것을 포함한다. 응답을 발생시키는 것은, 스트림의 이미지 프레임들 중 하나 이상의 이미지 프레임을 프로세싱하는 것에 근거하여 사용자의 제스처를 결정하는 것과, 그리고 사용자의 제스처에 근거하여, 그리고 제스처가 일어난 때 클라이언트 디바이스에 의해 렌더링되고 있는 콘텐츠(content)에 근거하여, 응답을 발생시키는 것을 포함할 수 있다. 방법은 또한, 클라이언트 디바이스에서 응답을 발효(effectuating)시키는 것을 포함한다.
본 명세서에서 개시되는 기술의 이러한 구현예들 및 다른 구현예들은 선택에 따라서는 다음의 특징들 중 하나 이상의 특징을 포함할 수 있다.
일부 구현예들에서, 사용자의 제스처에 근거하여, 그리고 제스처들이 일어난 때 클라이언트 디바이스에 의해 렌더링되고 있는 콘텐츠에 근거하여, 응답을 발생시키는 것은, 제스처가 복수의 응답형 액션(responsive action)들에 할당됨을 결정하는 것과; 제스처가 일어난 때 클라이언트 디바이스에 의해 렌더링되고 있는 콘텐츠에 근거하여, 복수의 응답형 액션들로부터, 단일의 응답형 액션을 선택하는 것과; 그리고 선택된 단일의 응답형 액션의 수행을 일으키도록 응답을 발생시키는 것을 포함한다.
일부 구현예들에서, 방법은 또한, 클라이언트 디바이스에서, 클라이언트 디바이스에 대한 사용자의 거리를 결정하는 것과, 그리고 사용자의 거리의 크기에 또한 근거하여 사용자의 제스처에 대한 응답을 발생시킬 것을 결정하는 것을 포함한다. 이러한 구현예들 중 일부에서, 사용자의 거리에 또한 근거하여 사용자의 제스처에 대한 응답을 발생시킬 것을 결정하는 것은, 사용자의 거리가 거리 임계치를 만족시키는 것에 근거하여 응답을 발생시킬 것을 결정하는 것을 포함한다.
일부 구현예들에서, 방법은 또한, 클라이언트 디바이스에서 로컬로 이미지 프레임들 중 하나 이상의 이미지 프레임을 프로세싱하는 것에 근거하여 사용자가 인식된 사용자임을 결정하는 것을 포함한다. 이러한 구현예들 중 일부에서, 사용자의 제스처에 대한 응답을 발생시킬 것을 결정하는 것은 또한, 사용자가 인식된 사용자임을 결정하는 것에 근거하고, 그리고/또는 선택에 따라서는 또한 동일한 인식된 사용자가 클라이언트 디바이스에 의해 렌더링되고 있는 콘텐츠의 제공을 개시했다는 결정에 근거한다.
일부 구현예들에서, 하나 이상의 프로세서들에 의해 구현되는 방법이 제공되고, 이러한 방법은, 클라이언트 디바이스에서, 클라이언트 디바이스의 하나 이상의 카메라들로부터의 출력에 근거하는 이미지 프레임들의 스트림, 및 클라이언트 디바이스의 하나 이상의 마이크로폰들에 의해 검출된 오디오 데이터를 수신하는 것을 포함한다. 방법은 또한, 클라이언트 디바이스에서, 이미지 프레임들 중 하나 이상의 이미지 프레임에 의해 캡처된 사용자의 입 움직임과 사용자의 목소리 활동의 동시-발생을 결정하기 위해 이미지 프레임들 및 오디오 데이터를 프로세싱하는 것을 포함한다. 방법은 또한, 클라이언트 디바이스에서, 그리고 사용자의 입 움직임과 사용자의 목소리 활동의 동시-발생을 결정하는 것에 근거하여, 오디오 데이터의 특정 프로세싱, 및/또는 클라이언트 디바이스의 출력 컴포넌트를 통한 적어도 하나의 인간 인지가능 신호의 렌더링을 수행할 것을 결정하는 것을 포함한다. 방법은 또한, 클라이언트 디바이스에서, 오디오 데이터의 특정 프로세싱 및/또는 적어도 하나의 인간 인지가능 신호의 렌더링을 개시하는 것을 포함한다. 이러한 개시는 오디오 데이터의 특정 프로세싱 및/또는 적어도 하나의 인간 인지가능 신호의 렌더링을 수행할 것을 결정함에 대한 응답이다.
본 명세서에서 개시되는 기술의 이러한 구현예들 및 다른 구현예들은 선택에 따라서는 다음의 특징들 중 하나 이상의 특징을 포함할 수 있다.
일부 구현예들에서, 오디오 데이터의 특정 프로세싱 및/또는 적어도 하나의 인간 인지가능 신호의 렌더링을 수행할 것을 결정함에 응답하여, 오디오 데이터의 특정 프로세싱이 개시되고, 그리고 오디오 데이터의 특정 프로세싱을 개시하는 것은, 클라이언트 디바이스에서 오디오 데이터의 로컬 자동 음성 인식을 개시하는 것; 오디오 데이터를 자동화된 어시스턴트와 관련된 원격 서버로 전송하는 것을 개시하는 것; 그리고/또는 로컬 자동 음성 인식으로부터의 인식된 텍스트를 원격 서버로 전송하는 것을 개시하는 것을 포함한다.
일부 구현예들에서, 클라이언트 디바이스에서, 사용자의 입 움직임과 사용자의 목소리 활동의 동시-발생을 결정하기 위해 이미지 프레임들 및 오디오 데이터를 프로세싱하는 것은, 로컬로 저장된 머신 러닝 모델을 사용하여 이미지 프레임들 및 오디오 데이터를 모두 프로세싱하는 것을 포함한다. 로컬로 저장된 머신 러닝 모델은, 입 움직임과 동시-발생되고 아울러 입 움직임의 결과인 목소리 활동과 입 움직임으로부터 나오진 않았지만 입 움직임과 동시-발생되는 목소리 활동을 구별하도록 훈련될 수 있다.
일부 구현예들에서, 방법은 또한, 클라이언트 디바이스에서, 클라이언트 디바이스에 대한 사용자의 거리를 결정하는 것을 포함하고, 그리고 오디오 데이터의 특정 프로세싱 및/또는 적어도 하나의 인간 인지가능 신호의 렌더링을 수행할 것을 결정하는 것은 또한, 클라이언트 디바이스에 대한 사용자의 거리에 근거한다. 이러한 구현예들의 일부 버전들에서, 클라이언트 디바이스에 대한 사용자의 거리에 또한 근거하여 오디오 데이터의 특정 프로세싱 및/또는 적어도 하나의 인간 인지가능의 렌더링을 수행할 것을 결정하는 것은, 클라이언트 디바이스에 대한 사용자의 거리가 임계치를 만족시킨다고 결정하는 것을 포함한다. 일부 추가적인 혹은 대안적인 버전들에서, 클라이언트 디바이스에 대한 사용자의 거리에 또한 근거하여 오디오 데이터의 특정 프로세싱 및/또는 적어도 하나의 인간 인지가능의 렌더링을 수행할 것을 결정하는 것은, 클라이언트 디바이스에 대한 사용자의 거리가 클라이언트 디바이스에 대한 사용자의 하나 이상의 이전에 결정된 거리들보다 클라이언트 디바이스에 더 가깝다고 결정하는 것을 포함한다.
일부 구현예들에서, 방법은 또한, 클라이언트 디바이스에서, 그리고 이미지 프레임들 중 하나 이상의 이미지 프레임에 근거하여, 사용자의 응시가 클라이언트 디바이스로 지향됨을 결정하는 것을 포함한다. 이러한 구현예들 중 일부에서, 오디오 데이터의 특정 프로세싱 및/또는 적어도 하나의 인간 인지가능 신호의 렌더링을 수행할 것을 결정하는 것은 또한, 사용자의 응시가 클라이언트 디바이스로 지향됨을 결정하는 것에 근거한다.
일부 구현예들에서, 방법은 또한, 클라이언트 디바이스에서, 그리고 이미지 프레임들 중 하나 이상의 이미지 프레임에 근거하여, 사용자의 신체 자세(body pose)가 클라이언트 디바이스로 지향됨을 결정하는 것을 포함한다. 이러한 구현예들 중 일부에서, 오디오 데이터의 특정 프로세싱 및/또는 적어도 하나의 인간 인지가능 신호의 렌더링을 수행할 것을 결정하는 것은 또한, 사용자의 신체 자세가 클라이언트 디바이스로 지향됨을 결정하는 것에 근거한다.

Claims (40)

  1. 사용자(user)와 자동화된 어시스턴트(automated assistant) 간의 핫-워드 프리(hot-word free) 상호작용(interaction)을 용이하게 하는 방법으로서, 상기 방법은 하나 이상의 프로세서(processor)들에 의해 구현되고, 상기 방법은,
    클라이언트 디바이스(client device)에서, 상기 클라이언트 디바이스의 하나 이상의 카메라들로부터의 출력에 근거하는 이미지 프레임(image frame)들의 스트림(stream)을 수신하는 것과;
    상기 클라이언트 디바이스에서, 상기 클라이언트 디바이스를 향해 지향된 사용자의 응시(gaze)의 발생을 검출하기 위해 상기 클라이언트 디바이스 상에 로컬로(locally) 저장된 적어도 하나의 훈련된 머신 러닝 모델(machine learning model)을 사용하여 상기 스트림의 상기 이미지 프레임들을 프로세싱(processing)하는 것과;
    상기 클라이언트 디바이스에서, 상기 클라이언트 디바이스에 대한 상기 사용자의 거리를 결정하는 것과, 여기서 상기 클라이언트 디바이스에 대한 상기 사용자의 상기 거리를 결정하는 것은,
    상기 이미지 프레임들 중 하나 이상의 이미지 프레임, 및
    상기 클라이언트 디바이스의 추가적인 센서로부터의 추가적인 센서 데이터
    중 하나 혹은 양쪽 모두에 근거하고;
    상기 클라이언트 디바이스에서, 상기 사용자의 상기 응시의 상기 발생을 검출함에 근거하여, 그리고 상기 클라이언트 디바이스에 대한 상기 사용자의 상기 거리에 근거하여, 상기 클라이언트 디바이스의 하나 이상의 마이크로폰(microphone)들에 의해 검출된 오디오 데이터(audio data)의 특정 프로세싱을 수행할 것을 결정하는 것과; 그리고
    상기 클라이언트 디바이스에서, 상기 오디오 데이터의 상기 특정 프로세싱을 수행할 것을 결정함에 응답하여 상기 오디오 데이터의 상기 특정 프로세싱을 개시하는 것을
    포함하는 것을 특징으로 하는 사용자와 자동화된 어시스턴트 간의 핫-워드 프리 상호작용을 용이하게 하는 방법.
  2. 제1항에 있어서,
    상기 오디오 데이터의 상기 특정 프로세싱을 개시하는 것은,
    상기 클라이언트 디바이스에서 상기 오디오 데이터의 로컬 자동 음성 인식(local automatic speech recognition)을 개시하는 것,
    상기 오디오 데이터를 상기 자동화된 어시스턴트와 관련된 원격 서버(remote server)로 전송하는 것을 개시하는 것, 그리고
    상기 로컬 자동 음성 인식으로부터의 인식된 텍스트(text)를 상기 원격 서버로 전송하는 것을 개시하는 것
    중 하나 이상을 포함하는 것을 특징으로 하는 사용자와 자동화된 어시스턴트 간의 핫-워드 프리 상호작용을 용이하게 하는 방법.
  3. 제1항에 있어서,
    상기 오디오 데이터의 적어도 일부는, 상기 클라이언트 디바이스에 로컬(local)인 임시 버퍼(temporary buffer) 내에, 상기 사용자의 상기 응시를 검출하기 전에, 버퍼링(buffering)되는 버퍼링된 오디오 데이터(buffered audio data)인 것을 특징으로 하는 사용자와 자동화된 어시스턴트 간의 핫-워드 프리 상호작용을 용이하게 하는 방법.
  4. 임의의 앞선 청구항에 있어서,
    상기 방법은 또한,
    상기 오디오 데이터의 상기 특정 프로세싱을 개시하기 전에, 상기 클라이언트 디바이스의 출력 컴포넌트(output component)를 통해 적어도 하나의 인간 인지가능 신호(human perceptible cue)를 렌더링(rendering)하는 것을 포함하는 것을 특징으로 하는 사용자와 자동화된 어시스턴트 간의 핫-워드 프리 상호작용을 용이하게 하는 방법.
  5. 제4항에 있어서,
    상기 적어도 하나의 인간 인지가능 신호는, 상기 클라이언트 디바이스를 향해 지향된 상기 사용자의 상기 응시의 상기 발생을 검출함에 응답하여 렌더링되는 제 1 신호를 포함하는 것을 특징으로 하는 사용자와 자동화된 어시스턴트 간의 핫-워드 프리 상호작용을 용이하게 하는 방법.
  6. 임의의 앞선 청구항에 있어서,
    상기 클라이언트 디바이스의 상기 하나 이상의 카메라들을 향해 지향된 상기 사용자의 상기 응시의 발생을 검출하기 위해 상기 적어도 하나의 훈련된 머신 러닝 모델을 사용하여 상기 이미지 프레임들을 프로세싱하는 것은,
    상기 이미지 프레임들의 시퀀스(sequence)의 상기 이미지 프레임들 각각에 대해, 상기 사용자의 상기 응시가 상기 클라이언트 디바이스를 향해 지향된 것인지 여부를 결정하기 위해 상기 적어도 하나의 훈련된 머신 러닝 모델을 사용하여 상기 이미지 프레임들의 상기 시퀀스를 프로세싱하는 것과, 그리고
    상기 하나 이상의 카메라들을 향해 지향된 것으로 상기 사용자의 상기 응시가 결정되는 상기 시퀀스의 상기 이미지 프레임들의 양(quantity)에 근거하여 상기 클라이언트 디바이스를 향해 지향된 상기 사용자의 상기 응시의 발생을 검출하는 것을
    포함하는 것을 특징으로 하는 사용자와 자동화된 어시스턴트 간의 핫-워드 프리 상호작용을 용이하게 하는 방법.
  7. 임의의 앞선 청구항에 있어서,
    상기 방법은 또한,
    상기 클라이언트 디바이스의 하나 이상의 마이크로폰들을 통해 검출된 상기 오디오 데이터의 상기 특정 프로세싱을 개시하기 전에,
    상기 클라이언트 디바이스에서,
    상기 오디오 데이터의 적어도 일부의 로컬 프로세싱에 근거하는 목소리 활동(voice activity), 및
    상기 오디오 데이터의 적어도 일부 및 상기 이미지 프레임들 중 하나 이상의 이미지 프레임의 로컬 프로세싱에 근거하는 상기 목소리 활동과 상기 사용자의 입 움직임(mouth movement)의 동시-발생(co-occurrence)
    중 하나 혹은 양쪽 모두를 검출하는 것을 포함하고,
    상기 오디오 데이터의 상기 특정 프로세싱을 개시하는 것은 또한,
    상기 목소리 활동 및 상기 목소리 활동과 상기 사용자의 상기 입 움직임의 상기 동시-발생 중 하나 혹은 양쪽 모두를 검출하는 것에 대한 응답인 것을 특징으로 하는 사용자와 자동화된 어시스턴트 간의 핫-워드 프리 상호작용을 용이하게 하는 방법.
  8. 제7항에 있어서,
    상기 사용자의 상기 응시의 상기 발생을 검출하는 것은 제 1 시간에 일어나고,
    상기 목소리 활동 및 상기 목소리 활동과 상기 사용자의 상기 입 움직임의 상기 동시-발생 중 하나 혹은 양쪽 모두를 검출하는 것은 상기 제 1 시간에 후속하는 제 2 시간에 일어나고,
    상기 방법은 또한,
    상기 오디오 데이터의 상기 특정 프로세싱을 개시하기 전에, 그리고 상기 제 2 시간 전에,
    상기 클라이언트 디바이스의 상기 하나 이상의 카메라들을 향해 지향된 상기 사용자의 상기 응시의 상기 발생을 검출함에 응답하여, 상기 클라이언트 디바이스의 출력 컴포넌트를 통해, 제 1 인간 인지가능 신호를 렌더링하는 것과, 그리고
    상기 오디오 데이터의 상기 특정 프로세싱을 개시하기 전에, 그리고 상기 제 1 인간 인지가능 신호의 렌더링에 후속하여,
    상기 목소리 활동 및 상기 목소리 활동과 상기 사용자의 입 움직임의 상기 동시-발생 중 하나 혹은 양쪽 모두를 검출하는 것에 응답하여, 상기 클라이언트 디바이스의 상기 출력 컴포넌트 또는 추가적인 출력 컴포넌트를 통해, 제 2 인간 인지가능 신호를 렌더링하는 것을
    포함하는 것을 특징으로 하는 사용자와 자동화된 어시스턴트 간의 핫-워드 프리 상호작용을 용이하게 하는 방법.
  9. 제8항에 있어서,
    상기 제 1 인간 인지가능 신호는 상기 클라이언트 디바이스의 디스플레이(display)를 통해 렌더링되는 제 1 시각적 신호(visual cue)이고,
    상기 제 2 인간 인지가능 신호는 상기 클라이언트 디바이스의 상기 디스플레이를 통해 렌더링되는 제 2 시각적 신호인 것을 특징으로 하는 사용자와 자동화된 어시스턴트 간의 핫-워드 프리 상호작용을 용이하게 하는 방법.
  10. 제8항 또는 제9항에 있어서,
    상기 방법은 또한,
    상기 오디오 데이터의 상기 특정 프로세싱을 개시하는 것에 응답하여, 그리고 상기 제 2 시간에 후속하여,
    상기 클라이언트 디바이스의 상기 출력 컴포넌트 또는 상기 추가적인 출력 컴포넌트를 통해, 제 3 인간 인지가능 신호를 렌더링하는 것을 포함하는 것을 특징으로 하는 사용자와 자동화된 어시스턴트 간의 핫-워드 프리 상호작용을 용이하게 하는 방법.
  11. 임의의 앞선 청구항에 있어서,
    상기 클라이언트 디바이스에 대한 상기 사용자의 상기 거리를 결정하는 것은 상기 이미지 프레임들 중 하나 이상의 이미지 프레임에 근거하는 것을 특징으로 하는 사용자와 자동화된 어시스턴트 간의 핫-워드 프리 상호작용을 용이하게 하는 방법.
  12. 제11항에 있어서,
    상기 사용자의 상기 거리를 결정하는 것은, 상기 이미지 프레임들 중 하나 이상의 이미지 프레임에서 검출된 상기 사용자의 눈(eye)들 간의 결정된 눈 거리(eye distance)에 근거하는 것을 특징으로 하는 사용자와 자동화된 어시스턴트 간의 핫-워드 프리 상호작용을 용이하게 하는 방법.
  13. 임의의 앞선 청구항에 있어서,
    상기 사용자의 상기 응시의 상기 발생을 검출함에 근거하여, 그리고 상기 클라이언트 디바이스에 대한 상기 사용자의 상기 거리에 근거하여, 상기 오디오 데이터의 상기 특정 프로세싱을 수행할 것을 결정하는 것은,
    상기 사용자의 상기 거리가 임계 거리(threshold distance)를 만족시키는 것에 근거하여 상기 특정 프로세싱을 수행할 것을 결정하는 것을
    포함하는 것을 특징으로 하는 사용자와 자동화된 어시스턴트 간의 핫-워드 프리 상호작용을 용이하게 하는 방법.
  14. 임의의 앞선 청구항에 있어서,
    상기 사용자의 상기 응시의 상기 발생을 검출함에 근거하여, 그리고 상기 클라이언트 디바이스에 대한 상기 사용자의 상기 거리에 근거하여, 상기 오디오 데이터의 상기 특정 프로세싱을 수행할 것을 결정하는 것은,
    상기 사용자의 상기 거리의 크기(magnitude)에 근거하여, 그리고 상기 사용자의 상기 응시에 대한 응시 신뢰도 메트릭(gaze confidence metric)에 근거하여, 상기 오디오 데이터의 상기 특정 프로세싱을 수행할 것을 결정하는 것을 포함하고,
    상기 응시 신뢰도 메트릭은 상기 적어도 하나의 훈련된 머신 러닝 모델을 사용하여 상기 스트림의 상기 이미지 프레임들을 프로세싱하는 것에 근거하여 발생되는 것을 특징으로 하는 사용자와 자동화된 어시스턴트 간의 핫-워드 프리 상호작용을 용이하게 하는 방법.
  15. 임의의 앞선 청구항에 있어서,
    상기 방법은 또한,
    상기 클라이언트 디바이스에서 로컬로 상기 이미지 프레임들 중 하나 이상의 이미지 프레임을 프로세싱하는 것에 근거하여 상기 사용자가 인식된 사용자임을 결정하는 것을 포함하고,
    상기 오디오 데이터의 상기 특정 프로세싱을 수행할 것을 결정하는 것은 또한, 상기 사용자가 인식된 사용자임을 결정하는 것에 근거하는 것을 특징으로 하는 사용자와 자동화된 어시스턴트 간의 핫-워드 프리 상호작용을 용이하게 하는 방법.
  16. 임의의 앞선 청구항에 있어서,
    상기 오디오 데이터의 상기 특정 프로세싱은 인식된 음성을 발생시키기 위한 상기 오디오 데이터의 자동 음성 인식(automatic speech recognition)을 포함하고,
    상기 방법은 또한,
    상기 인식된 음성에 적어도 부분적으로 근거하여, 상기 인식된 음성이 상기 자동화된 어시스턴트로 지향된 요청일 확률을 표시하는 어시스턴트 요청 정도(assistant request measure)를 결정하는 것과, 그리고
    상기 어시스턴트 요청 정도에 적어도 부분적으로 근거하여, 상기 클라이언트 디바이스를 통해, 상기 인식된 음성에 대한 응답을 렌더링할지 여부를 결정하는 것을
    포함하는 것을 특징으로 하는 사용자와 자동화된 어시스턴트 간의 핫-워드 프리 상호작용을 용이하게 하는 방법.
  17. 제16항에 있어서,
    상기 인식된 음성에 대한 상기 응답을 렌더링할지 여부를 결정하는 것은 또한,
    상기 사용자의 상기 거리,
    상기 이미지 프레임들 중 하나 이상의 이미지 프레임에 근거하는 얼굴 인식(facial recognition)에 근거하여 결정되는 바와 같은 그리고/또는 상기 오디오 데이터의 적어도 일부에 근거하는 발성자 식별(speaker identification)에 근거하여 결정되는 바와 같은, 상기 사용자가 인식된 사용자인지 여부, 그리고
    상기 사용자의 상기 응시에 대한 응시 신뢰도 메트릭
    중 하나 이상에 근거하고,
    상기 응시 신뢰도 메트릭은 상기 적어도 하나의 훈련된 머신 러닝 모델을 사용하여 상기 스트림의 상기 이미지 프레임들을 프로세싱하는 것에 근거하여 발생되는 것을 특징으로 하는 사용자와 자동화된 어시스턴트 간의 핫-워드 프리 상호작용을 용이하게 하는 방법.
  18. 사용자와 자동화된 어시스턴트 간의 핫-워드 프리 상호작용을 용이하게 하는 방법으로서, 상기 방법은 상기 클라이언트 디바이스의 하나 이상의 프로세서들에 의해 구현되고, 상기 방법은,
    상기 클라이언트 디바이스의 하나 이상의 카메라들로부터의 출력에 근거하는 이미지 프레임들의 스트림을 수신하는 것과;
    상기 클라이언트 디바이스에서, 상기 클라이언트 디바이스를 향해 지향된 사용자의 응시의 발생을 검출하기 위해 상기 클라이언트 디바이스 상에 로컬로 저장된 적어도 하나의 훈련된 머신 러닝 모델을 사용하여 상기 스트림의 상기 이미지 프레임들을 프로세싱하는 것과;
    상기 클라이언트 디바이스를 향해 지향된 상기 사용자의 상기 응시의 상기 발생을 검출함에 응답하여, 상기 클라이언트 디바이스의 디스플레이에서, 제 1 인간 인지가능 신호를 렌더링하는 것과;
    상기 제 1 인간 인지가능 신호를 렌더링하는 동안, 상기 클라이언트 디바이스에서,
    상기 클라이언트 디바이스의 하나 이상의 마이크로폰들에 의해 캡처(capture)된 오디오 데이터의 적어도 일부의 로컬 프로세싱에 근거하는 목소리 활동,
    상기 오디오 데이터의 적어도 일부 및 상기 이미지 프레임들 중 하나 이상의 이미지 프레임의 로컬 프로세싱에 근거하는 상기 목소리 활동과 상기 사용자의 입 움직임의 동시-발생, 및
    상기 이미지 프레임들 중 하나 이상의 이미지 프레임의 로컬 프로세싱에 근거하는 상기 사용자의 제스처(gesture)
    중 하나 이상을 검출하는 것과;
    상기 응시의 발생을 계속 검출함에 응답하여, 그리고 상기 목소리 활동, 상기 목소리 활동과 상기 사용자의 상기 입 움직임의 상기 동시-발생, 및 상기 사용자의 상기 제스처 중 하나 이상을 검출함에 응답하여, 상기 클라이언트 디바이스의 상기 디스플레이에서, 상기 제 1 인간 인지가능 신호의 렌더링을 제 2 인간 인지가능 신호의 렌더링으로 대체(supplanting)하는 것과;
    상기 제 2 인간 인지가능 신호를 렌더링하는 것에 후속하여, 상기 클라이언트 디바이스에서, 상기 이미지 프레임들 중 하나 이상의 이미지 프레임 및/또는 상기 오디오 데이터의 특정 추가 프로세싱을 개시하는 것을
    포함하는 것을 특징으로 하는 사용자와 자동화된 어시스턴트 간의 핫-워드 프리 상호작용을 용이하게 하는 방법.
  19. 제18항에 있어서,
    상기 방법은 또한,
    상기 이미지 프레임들 중 하나 이상의 이미지 프레임 및/또는 상기 오디오 데이터의 상기 특정 추가 프로세싱을 개시하는 것에 응답하여,
    상기 클라이언트 디바이스의 상기 디스플레이에서, 상기 제 2 인간 인지가능 신호의 렌더링을 제 3 인간 인지가능 신호의 렌더링으로 대체하는 것을
    포함하는 것을 특징으로 하는 사용자와 자동화된 어시스턴트 간의 핫-워드 프리 상호작용을 용이하게 하는 방법.
  20. 제18항 또는 제19항에 있어서,
    상기 이미지 프레임들 중 하나 이상의 이미지 프레임 및/또는 상기 오디오 데이터의 상기 특정 추가 프로세싱을 개시하는 것은,
    상기 이미지 프레임들 및/또는 상기 오디오 데이터를 상기 자동화된 어시스턴트와 관련된 원격 서버로 전송하는 것을 개시하는 것을
    포함하는 것을 특징으로 하는 사용자와 자동화된 어시스턴트 간의 핫-워드 프리 상호작용을 용이하게 하는 방법.
  21. 제18항 내지 제20항 중 어느 하나의 항에 있어서,
    상기 방법은 또한,
    상기 응시의 상기 발생을 검출하는 것, 상기 목소리 활동을 검출하는 것, 상기 목소리 활동과 상기 입 움직임의 상기 동시-발생을 검출하는 것, 및 상기 제스처를 검출하는 것 중 하나 이상과 각각 관련된 하나 이상의 신뢰도(confidence measure)들을 결정하는 것을 포함하는 것을 특징으로 하는 사용자와 자동화된 어시스턴트 간의 핫-워드 프리 상호작용을 용이하게 하는 방법.
  22. 제21항에 있어서,
    상기 이미지 프레임들 중 하나 이상의 이미지 프레임 및/또는 상기 오디오 데이터의 상기 특정 추가 프로세싱을 개시하는 것은, 상기 하나 이상의 신뢰도들이 하나 이상의 임계치들을 만족시키는 것에 근거하는 것을 특징으로 하는 사용자와 자동화된 어시스턴트 간의 핫-워드 프리 상호작용을 용이하게 하는 방법.
  23. 제21항 또는 제22항에 있어서,
    상기 제 2 인간 인지가능 신호의 크기는 상기 신뢰도들 중 하나 이상의 신뢰도에 근거하는 것을 특징으로 하는 사용자와 자동화된 어시스턴트 간의 핫-워드 프리 상호작용을 용이하게 하는 방법.
  24. 사용자와 자동화된 어시스턴트 간의 핫-워드 프리(hot-word free) 및 터치-프리 제스처(touch-free gesture) 상호작용을 용이하게 하는 방법으로서, 상기 방법은 하나 이상의 프로세서들에 의해 구현되고, 상기 방법은,
    클라이언트 디바이스에서, 상기 클라이언트 디바이스의 하나 이상의 카메라들로부터의 출력에 근거하는 이미지 프레임들의 스트림을 수신하는 것과;
    상기 클라이언트 디바이스에서, 상기 클라이언트 디바이스를 향해 지향된 사용자의 응시의 발생을 검출하기 위해 상기 클라이언트 디바이스 상에 로컬로 저장된 적어도 하나의 훈련된 머신 러닝 모델을 사용하여 상기 스트림의 상기 이미지 프레임들을 프로세싱하는 것과;
    상기 사용자의 상기 응시의 상기 발생을 검출함에 근거하여, 상기 스트림의 상기 이미지 프레임들 중 하나 이상의 이미지 프레임에 의해 캡처된 상기 사용자의 제스처에 대한 응답을 발생시킬 것을 결정하는 것과;
    상기 사용자의 상기 제스처에 대한 상기 응답을 발생시키는 것과, 여기서 상기 응답을 발생시키는 것은,
    상기 스트림의 상기 이미지 프레임들 중 상기 하나 이상의 이미지 프레임을 프로세싱하는 것에 근거하여 상기 사용자의 상기 제스처를 결정하는 것과, 그리고
    상기 사용자의 상기 제스처에 근거하여, 그리고 상기 제스처가 일어난 때 상기 클라이언트 디바이스에 의해 렌더링되고 있는 콘텐츠(content)에 근거하여, 상기 응답을 발생시키는 것을 포함하고; 그리고
    상기 클라이언트 디바이스에서 상기 응답을 발효(effectuating)시키는 것을
    포함하는 것을 특징으로 하는 사용자와 자동화된 어시스턴트 간의 핫-워드 프리 및 터치-프리 제스처 상호작용을 용이하게 하는 방법.
  25. 제24항에 있어서,
    상기 사용자의 상기 제스처에 근거하여, 그리고 상기 제스처들이 일어난 때 상기 클라이언트 디바이스에 의해 렌더링되고 있는 상기 콘텐츠에 근거하여, 상기 응답을 발생시키는 것은,
    상기 제스처가 복수의 응답형 액션(responsive action)들에 할당됨을 결정하는 것과,
    상기 제스처가 일어난 때 상기 클라이언트 디바이스에 의해 렌더링되고 있는 상기 콘텐츠에 근거하여, 상기 복수의 응답형 액션들로부터, 단일의 응답형 액션을 선택하는 것과, 그리고
    상기 선택된 단일의 응답형 액션의 수행을 일으키도록 상기 응답을 발생시키는 것을
    포함하는 것을 특징으로 하는 사용자와 자동화된 어시스턴트 간의 핫-워드 프리 및 터치-프리 제스처 상호작용을 용이하게 하는 방법.
  26. 제24항 또는 제25항에 있어서,
    상기 방법은 또한,
    상기 클라이언트 디바이스에서, 상기 클라이언트 디바이스에 대한 상기 사용자의 거리를 결정하는 것을 포함하고,
    여기서 상기 클라이언트 디바이스에 대한 상기 사용자의 상기 거리를 결정하는 것은,
    상기 이미지 프레임들 중 하나 이상의 이미지 프레임, 및
    상기 클라이언트 디바이스의 추가적인 센서로부터의 추가적인 센서 데이터
    중 하나 혹은 양쪽 모두에 근거하고,
    상기 사용자의 상기 제스처에 대한 상기 응답을 발생시킬 것을 결정하는 것은 또한, 상기 사용자의 상기 거리의 크기에 근거하는 것을 특징으로 하는 사용자와 자동화된 어시스턴트 간의 핫-워드 프리 및 터치-프리 제스처 상호작용을 용이하게 하는 방법.
  27. 제26항에 있어서,
    상기 사용자의 상기 거리에 또한 근거하여 상기 사용자의 상기 제스처에 대한 상기 응답을 발생시킬 것을 결정하는 것은, 상기 사용자의 상기 거리가 거리 임계치를 만족시키는 것에 근거하여 상기 응답을 발생시킬 것을 결정하는 것을 포함하는 것을 특징으로 하는 사용자와 자동화된 어시스턴트 간의 핫-워드 프리 및 터치-프리 제스처 상호작용을 용이하게 하는 방법.
  28. 제24항 내지 제27항 중 어느 하나의 항에 있어서,
    상기 방법은 또한,
    상기 클라이언트 디바이스에서 로컬로 상기 이미지 프레임들 중 하나 이상의 이미지 프레임을 프로세싱하는 것에 근거하여 상기 사용자가 인식된 사용자임을 결정하는 것을 포함하고,
    상기 사용자의 상기 제스처에 대한 상기 응답을 발생시킬 것을 결정하는 것은 또한, 상기 사용자가 인식된 사용자임을 결정하는 것에 근거하는 것을 특징으로 하는 사용자와 자동화된 어시스턴트 간의 핫-워드 프리 및 터치-프리 제스처 상호작용을 용이하게 하는 방법.
  29. 제28항에 있어서,
    상기 사용자의 상기 제스처에 대한 상기 응답을 발생시킬 것을 결정하는 것은 또한, 상기 사용자가 상기 인식된 사용자임을 결정하는 것에 근거함과 아울러 동일한 상기 인식된 사용자가 상기 클라이언트 디바이스에 의해 렌더링되고 있는 상기 콘텐츠의 제공을 개시했다는 결정에 근거하는 것을 특징으로 하는 사용자와 자동화된 어시스턴트 간의 핫-워드 프리 및 터치-프리 제스처 상호작용을 용이하게 하는 방법.
  30. 사용자와 자동화된 어시스턴트 간의 핫-워드 프리 상호작용을 용이하게 하는 방법으로서, 상기 방법은 하나 이상의 프로세서들에 의해 구현되고, 상기 방법은,
    클라이언트 디바이스에서,
    상기 클라이언트 디바이스의 하나 이상의 카메라들로부터의 출력에 근거하는 이미지 프레임들의 스트림, 및
    상기 클라이언트 디바이스의 하나 이상의 마이크로폰들에 의해 검출된 오디오 데이터를
    수신하는 것과;
    상기 클라이언트 디바이스에서,
    상기 이미지 프레임들 중 하나 이상의 이미지 프레임에 의해 캡처된 사용자의 입 움직임과 상기 사용자의 목소리 활동의 동시-발생을 결정하기 위해 상기 이미지 프레임들 및 상기 오디오 데이터를 프로세싱하는 것과;
    상기 클라이언트 디바이스에서, 그리고 상기 사용자의 상기 입 움직임과 상기 사용자의 상기 목소리 활동의 상기 동시-발생을 결정하는 것에 근거하여,
    상기 오디오 데이터의 특정 프로세싱, 및
    상기 클라이언트 디바이스의 출력 컴포넌트를 통한 적어도 하나의 인간 인지가능 신호의 렌더링
    중 하나 혹은 양쪽 모두를 수행할 것을 결정하는 것과; 그리고
    상기 오디오 데이터의 상기 특정 프로세싱 및/또는 상기 적어도 하나의 인간 인지가능 신호의 상기 렌더링을 수행할 것을 결정함에 응답하여, 상기 클라이언트 디바이스에서, 상기 오디오 데이터의 상기 특정 프로세싱 및/또는 상기 적어도 하나의 인간 인지가능 신호의 상기 렌더링을 개시하는 것을
    포함하는 것을 특징으로 하는 사용자와 자동화된 어시스턴트 간의 핫-워드 프리 상호작용을 용이하게 하는 방법.
  31. 제30항에 있어서,
    상기 오디오 데이터의 상기 특정 프로세싱 및/또는 상기 적어도 하나의 인간 인지가능 신호의 상기 렌더링을 수행할 것을 결정함에 응답하여, 상기 오디오 데이터의 상기 특정 프로세싱이 개시되고,
    상기 오디오 데이터의 상기 특정 프로세싱을 개시하는 것은,
    상기 클라이언트 디바이스에서 상기 오디오 데이터의 로컬 자동 음성 인식을 개시하는 것,
    상기 오디오 데이터를 상기 자동화된 어시스턴트와 관련된 원격 서버로 전송하는 것을 개시하는 것, 그리고
    상기 로컬 자동 음성 인식으로부터의 인식된 텍스트를 상기 원격 서버로 전송하는 것을 개시하는 것
    중 하나 이상을 포함하는 것을 특징으로 하는 사용자와 자동화된 어시스턴트 간의 핫-워드 프리 상호작용을 용이하게 하는 방법.
  32. 제30항 또는 제31항에 있어서,
    상기 클라이언트 디바이스에서, 상기 사용자의 상기 입 움직임과 상기 사용자의 상기 목소리 활동의 동시-발생을 결정하기 위해 상기 이미지 프레임들 및 상기 오디오 데이터를 프로세싱하는 것은,
    입 움직임과 동시-발생되고 아울러 상기 입 움직임의 결과인 목소리 활동과
    상기 입 움직임으로부터 나오진 않았지만 상기 입 움직임과 동시-발생되는 목소리 활동을
    구별하도록 훈련된 로컬로 저장된 머신 러닝 모델을 사용하여 상기 이미지 프레임들 및 상기 오디오 데이터를 모두 프로세싱하는 것을 포함하는 것을 특징으로 하는 사용자와 자동화된 어시스턴트 간의 핫-워드 프리 상호작용을 용이하게 하는 방법.
  33. 제30항 내지 제32항 중 임의의 항에 있어서,
    상기 방법은 또한,
    상기 클라이언트 디바이스에서, 상기 클라이언트 디바이스에 대한 상기 사용자의 거리를 결정하는 것을 포함하고,
    상기 클라이언트 디바이스에 대한 상기 사용자의 상기 거리를 결정하는 것은,
    상기 이미지 프레임들 중 하나 이상의 이미지 프레임, 및
    상기 클라이언트 디바이스의 추가적인 센서로부터의 추가적인 센서 데이터
    중 하나 혹은 양쪽 모두에 근거하고,
    상기 오디오 데이터의 상기 특정 프로세싱 및/또는 상기 적어도 하나의 인간 인지가능 신호의 상기 렌더링을 수행할 것을 결정하는 것은 또한, 상기 클라이언트 디바이스에 대한 상기 사용자의 상기 거리에 근거하는 것을 특징으로 하는 사용자와 자동화된 어시스턴트 간의 핫-워드 프리 상호작용을 용이하게 하는 방법.
  34. 제33항에 있어서,
    상기 클라이언트 디바이스에 대한 상기 사용자의 상기 거리에 또한 근거하여 상기 오디오 데이터의 상기 특정 프로세싱 및/또는 상기 적어도 하나의 인간 인지가능의 상기 렌더링을 수행할 것을 결정하는 것은,
    상기 클라이언트 디바이스에 대한 상기 사용자의 상기 거리가 임계치를 만족시킨다고 결정하는 것을 포함하는 것을 특징으로 하는 사용자와 자동화된 어시스턴트 간의 핫-워드 프리 상호작용을 용이하게 하는 방법.
  35. 제33항 또는 제34항에 있어서,
    상기 클라이언트 디바이스에 대한 상기 사용자의 상기 거리에 또한 근거하여 상기 오디오 데이터의 상기 특정 프로세싱 및/또는 상기 적어도 하나의 인간 인지가능의 상기 렌더링을 수행할 것을 결정하는 것은,
    상기 클라이언트 디바이스에 대한 상기 사용자의 상기 거리가 상기 클라이언트 디바이스에 대한 상기 사용자의 하나 이상의 이전에 결정된 거리들보다 상기 클라이언트 디바이스에 더 가깝다고 결정하는 것을 포함하는 것을 특징으로 하는 사용자와 자동화된 어시스턴트 간의 핫-워드 프리 상호작용을 용이하게 하는 방법.
  36. 제30항 내지 제35항 중 임의의 항에 있어서,
    상기 방법은 또한,
    상기 클라이언트 디바이스에서, 그리고 상기 이미지 프레임들 중 하나 이상의 이미지 프레임에 근거하여, 상기 사용자의 응시가 상기 클라이언트 디바이스로 지향됨을 결정하는 것을 포함하고,
    상기 오디오 데이터의 상기 특정 프로세싱 및/또는 상기 적어도 하나의 인간 인지가능 신호의 상기 렌더링을 수행할 것을 결정하는 것은 또한, 상기 사용자의 상기 응시가 상기 클라이언트 디바이스로 지향됨을 결정하는 것에 근거하는 것을 특징으로 하는 사용자와 자동화된 어시스턴트 간의 핫-워드 프리 상호작용을 용이하게 하는 방법.
  37. 제30항 내지 제36항 중 임의의 항에 있어서,
    상기 방법은 또한,
    상기 클라이언트 디바이스에서, 그리고 상기 이미지 프레임들 중 하나 이상의 이미지 프레임에 근거하여, 상기 사용자의 신체 자세(body pose)가 상기 클라이언트 디바이스로 지향됨을 결정하는 것을 포함하고,
    상기 오디오 데이터의 상기 특정 프로세싱 및/또는 상기 적어도 하나의 인간 인지가능 신호의 상기 렌더링을 수행할 것을 결정하는 것은 또한, 상기 사용자의 상기 신체 자세가 상기 클라이언트 디바이스로 지향됨을 결정하는 것에 근거하는 것을 특징으로 하는 사용자와 자동화된 어시스턴트 간의 핫-워드 프리 상호작용을 용이하게 하는 방법.
  38. 클라이언트 디바이스로서, 상기 클라이언트 디바이스는,
    적어도 하나의 비전 컴포넌트(vision component);
    적어도 하나의 마이크로폰;
    적어도 하나의 디스플레이;
    하나 이상의 프로세서들을 포함하고,
    상기 프로세서들은 상기 프로세서들로 하여금 제1항 내지 제37항 중 임의의 항의 방법을 수행하도록 로컬로 저장된 명령들을 실행하는 것을 특징으로 하는 클라이언트 디바이스.
  39. 명령들을 포함하는 컴퓨터 프로그램 제품으로서, 상기 명령들은 하나 이상의 프로세서들에 의해 실행될 때 상기 하나 이상의 프로세서들로 하여금 제1항 내지 제37항 중 어느 하나의 항의 방법을 수행하도록 하는 것을 특징으로 하는 컴퓨터 프로그램 제품.
  40. 제1항 내지 제37항 중 어느 하나의 항의 방법을 수행하기 위한 하나 이상의 프로세서들을 포함하는 시스템.
KR1020207034909A 2018-05-04 2019-05-02 자동화된 어시스턴트 기능(들)의 핫-워드 프리 적응 KR102512446B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020237009211A KR20230042760A (ko) 2018-05-04 2019-05-02 자동화된 어시스턴트 기능(들)의 핫-워드 프리 적응

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
PCT/US2018/031170 WO2019212569A1 (en) 2018-05-04 2018-05-04 Adapting automated assistant based on detected mouth movement and/or gaze
USPCT/US2018/031164 2018-05-04
USPCT/US2018/031170 2018-05-04
PCT/US2018/031164 WO2019212567A1 (en) 2018-05-04 2018-05-04 Invoking automated assistant function(s) based on detected gesture and gaze
PCT/US2019/030487 WO2020050882A2 (en) 2018-05-04 2019-05-02 Hot-word free adaptation of automated assistant function(s)

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020237009211A Division KR20230042760A (ko) 2018-05-04 2019-05-02 자동화된 어시스턴트 기능(들)의 핫-워드 프리 적응

Publications (2)

Publication Number Publication Date
KR20210003277A true KR20210003277A (ko) 2021-01-11
KR102512446B1 KR102512446B1 (ko) 2023-03-22

Family

ID=69723342

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020207034909A KR102512446B1 (ko) 2018-05-04 2019-05-02 자동화된 어시스턴트 기능(들)의 핫-워드 프리 적응
KR1020237009211A KR20230042760A (ko) 2018-05-04 2019-05-02 자동화된 어시스턴트 기능(들)의 핫-워드 프리 적응

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020237009211A KR20230042760A (ko) 2018-05-04 2019-05-02 자동화된 어시스턴트 기능(들)의 핫-워드 프리 적응

Country Status (6)

Country Link
US (2) US11688417B2 (ko)
EP (2) EP3743794B1 (ko)
JP (2) JP7263505B2 (ko)
KR (2) KR102512446B1 (ko)
CN (1) CN112639718A (ko)
WO (1) WO2020050882A2 (ko)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11688417B2 (en) 2018-05-04 2023-06-27 Google Llc Hot-word free adaptation of automated assistant function(s)
WO2019212569A1 (en) * 2018-05-04 2019-11-07 Google Llc Adapting automated assistant based on detected mouth movement and/or gaze
US10890969B2 (en) 2018-05-04 2021-01-12 Google Llc Invoking automated assistant function(s) based on detected gesture and gaze
US10970935B2 (en) * 2018-12-21 2021-04-06 Curious Company, LLC Body pose message system
US11482217B2 (en) * 2019-05-06 2022-10-25 Google Llc Selectively activating on-device speech recognition, and using recognized text in selectively activating on-device NLU and/or on-device fulfillment
CN114616620A (zh) 2019-10-18 2022-06-10 谷歌有限责任公司 端到端多讲话者视听自动语音识别
US11437043B1 (en) * 2019-12-12 2022-09-06 Amazon Technologies, Inc. Presence data determination and utilization
SE545310C2 (en) * 2019-12-20 2023-06-27 Tobii Ab Improved turn-taking
JP2021182052A (ja) * 2020-05-18 2021-11-25 トヨタ自動車株式会社 エージェント連携装置
US11558546B2 (en) * 2020-11-24 2023-01-17 Google Llc Conditional camera control via automated assistant commands
US20230197071A1 (en) * 2021-12-17 2023-06-22 Google Llc Accelerometer-based endpointing measure(s) and /or gaze-based endpointing measure(s) for speech processing
US20230230583A1 (en) * 2022-01-19 2023-07-20 Google Llc Mitigating false positives and/or false negatives in hot word free adaptation of automated assistant
CN115019798A (zh) * 2022-06-21 2022-09-06 珠海格力电器股份有限公司 语音识别设备的控制方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060192775A1 (en) * 2005-02-25 2006-08-31 Microsoft Corporation Using detected visual cues to change computer system operating states
JP2010102235A (ja) * 2008-10-27 2010-05-06 V-Sync Co Ltd 電子広告システム
US20120295708A1 (en) * 2006-03-06 2012-11-22 Sony Computer Entertainment Inc. Interface with Gaze Detection and Voice Input
KR20140029223A (ko) * 2012-08-31 2014-03-10 오므론 가부시키가이샤 제스처 인식 장치, 그 제어 방법, 표시 기기, 및 제어 프로그램이 기록된 컴퓨터 판독 가능한 기록 매체
US20150033130A1 (en) * 2012-04-27 2015-01-29 Hewlett-Packard Development Company, L.P. Audio input from user
KR20150138109A (ko) * 2014-05-30 2015-12-09 애플 인크. 수동 시작/종료 포인팅 및 트리거 구문들에 대한 필요성의 저감

Family Cites Families (78)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1124694A (ja) * 1997-07-04 1999-01-29 Sanyo Electric Co Ltd 命令認識装置
US7028269B1 (en) * 2000-01-20 2006-04-11 Koninklijke Philips Electronics N.V. Multi-modal video target acquisition and re-direction system and method
US6964023B2 (en) 2001-02-05 2005-11-08 International Business Machines Corporation System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input
US8745541B2 (en) 2003-03-25 2014-06-03 Microsoft Corporation Architecture for controlling a computer using hand gestures
US20050033571A1 (en) * 2003-08-07 2005-02-10 Microsoft Corporation Head mounted multi-sensory audio input system
JP5323770B2 (ja) 2010-06-30 2013-10-23 日本放送協会 ユーザ指示取得装置、ユーザ指示取得プログラムおよびテレビ受像機
US9274744B2 (en) 2010-09-10 2016-03-01 Amazon Technologies, Inc. Relative position-inclusive device interfaces
JP5797009B2 (ja) 2011-05-19 2015-10-21 三菱重工業株式会社 音声認識装置、ロボット、及び音声認識方法
US8885882B1 (en) 2011-07-14 2014-11-11 The Research Foundation For The State University Of New York Real time eye tracking for human computer interaction
US20190102706A1 (en) 2011-10-20 2019-04-04 Affectomatics Ltd. Affective response based recommendations
US9152376B2 (en) 2011-12-01 2015-10-06 At&T Intellectual Property I, L.P. System and method for continuous multimodal speech and gesture interaction
US9214157B2 (en) 2011-12-06 2015-12-15 At&T Intellectual Property I, L.P. System and method for machine-mediated human-human conversation
US9208492B2 (en) 2013-05-13 2015-12-08 Hoyos Labs Corp. Systems and methods for biometric authentication of transactions
US9423870B2 (en) 2012-05-08 2016-08-23 Google Inc. Input determination method
US8542879B1 (en) 2012-06-26 2013-09-24 Google Inc. Facial recognition
US9263044B1 (en) 2012-06-27 2016-02-16 Amazon Technologies, Inc. Noise reduction based on mouth area movement recognition
KR20150086332A (ko) 2012-11-16 2015-07-27 이써 씽스, 인크. 디바이스 구성, 상호 작용 및 제어를 위한 통합된 프레임워크, 및 연관된 방법, 디바이스 및 시스템
US9081571B2 (en) 2012-11-29 2015-07-14 Amazon Technologies, Inc. Gesture detection management for an electronic device
BR112015018905B1 (pt) * 2013-02-07 2022-02-22 Apple Inc Método de operação de recurso de ativação por voz, mídia de armazenamento legível por computador e dispositivo eletrônico
US20140247208A1 (en) 2013-03-01 2014-09-04 Tobii Technology Ab Invoking and waking a computing device from stand-by mode based on gaze detection
US9922642B2 (en) * 2013-03-15 2018-03-20 Apple Inc. Training an at least partial voice command system
US9304594B2 (en) 2013-04-12 2016-04-05 Microsoft Technology Licensing, Llc Near-plane segmentation using pulsed light source
WO2014190269A1 (en) 2013-05-24 2014-11-27 Children's Hospital Medical Center System and method for assessing suicide risk of a patient based upon non-verbal characteristics of voice data
US9286029B2 (en) * 2013-06-06 2016-03-15 Honda Motor Co., Ltd. System and method for multimodal human-vehicle interaction and belief tracking
EP3008964B1 (en) * 2013-06-13 2019-09-25 Apple Inc. System and method for emergency calls initiated by voice command
USRE49014E1 (en) 2013-06-19 2022-04-05 Panasonic Intellectual Property Corporation Of America Voice interaction method, and device
US9832452B1 (en) 2013-08-12 2017-11-28 Amazon Technologies, Inc. Robust user detection and tracking
US10165176B2 (en) 2013-10-31 2018-12-25 The University Of North Carolina At Chapel Hill Methods, systems, and computer readable media for leveraging user gaze in user monitoring subregion selection systems
JP6851133B2 (ja) 2014-01-03 2021-03-31 ハーマン インターナショナル インダストリーズ インコーポレイテッド ユーザに方向付けられた個人情報アシスタント
US10203762B2 (en) 2014-03-11 2019-02-12 Magic Leap, Inc. Methods and systems for creating virtual and augmented reality
US9342147B2 (en) 2014-04-10 2016-05-17 Microsoft Technology Licensing, Llc Non-visual feedback of visual change
WO2016018488A2 (en) 2014-05-09 2016-02-04 Eyefluence, Inc. Systems and methods for discerning eye signals and continuous biometric identification
US10852838B2 (en) 2014-06-14 2020-12-01 Magic Leap, Inc. Methods and systems for creating virtual and augmented reality
US9569174B2 (en) 2014-07-08 2017-02-14 Honeywell International Inc. Methods and systems for managing speech recognition in a multi-speech system environment
US20160042648A1 (en) 2014-08-07 2016-02-11 Ravikanth V. Kothuri Emotion feedback based training and personalization system for aiding user performance in interactive presentations
US10228904B2 (en) 2014-11-12 2019-03-12 Lenovo (Singapore) Pte. Ltd. Gaze triggered voice recognition incorporating device velocity
US9690998B2 (en) 2014-11-13 2017-06-27 Intel Corporation Facial spoofing detection in image based biometrics
JP2016131288A (ja) 2015-01-13 2016-07-21 東芝テック株式会社 情報処理装置及びプログラム
US9791917B2 (en) 2015-03-24 2017-10-17 Intel Corporation Augmentation modification based on user interaction with augmented reality scene
JP6558064B2 (ja) 2015-05-08 2019-08-14 富士ゼロックス株式会社 認証装置および画像形成装置
JP6739907B2 (ja) 2015-06-18 2020-08-12 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 機器特定方法、機器特定装置及びプログラム
CN107735776B (zh) 2015-06-30 2021-07-13 索尼公司 信息处理设备、信息处理方法和程序
US20170026764A1 (en) 2015-07-23 2017-01-26 Panasonic Automotive Systems Company Of America, Division Of Panasonic Corporation Of North America Automatic car audio volume control to aid passenger conversation
US10884503B2 (en) 2015-12-07 2021-01-05 Sri International VPA with integrated object recognition and facial expression recognition
US9990921B2 (en) * 2015-12-09 2018-06-05 Lenovo (Singapore) Pte. Ltd. User focus activated voice recognition
US9451210B1 (en) 2015-12-10 2016-09-20 Google Inc. Directing communications using gaze interaction
JP2017138476A (ja) 2016-02-03 2017-08-10 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
JP2017138536A (ja) 2016-02-05 2017-08-10 株式会社Nttドコモ 音声処理装置
US20170289766A1 (en) 2016-03-29 2017-10-05 Microsoft Technology Licensing, Llc Digital Assistant Experience based on Presence Detection
KR101904889B1 (ko) 2016-04-21 2018-10-05 주식회사 비주얼캠프 표시 장치와 이를 이용한 입력 처리 방법 및 시스템
US20170315825A1 (en) 2016-05-02 2017-11-02 John C. Gordon Presenting Contextual Content Based On Detected User Confusion
US10046229B2 (en) 2016-05-02 2018-08-14 Bao Tran Smart device
JP6767482B2 (ja) 2016-05-23 2020-10-14 アルプスアルパイン株式会社 視線検出方法
EP3267289B1 (en) 2016-07-05 2019-02-27 Ricoh Company, Ltd. Information processing apparatus, position information generation method, and information processing system
US10192551B2 (en) 2016-08-30 2019-01-29 Google Llc Using textual input and user state information to generate reply content to present in response to the textual input
WO2018061173A1 (ja) 2016-09-30 2018-04-05 株式会社オプティム Tv会議システム、tv会議方法、およびプログラム
US10467509B2 (en) 2017-02-14 2019-11-05 Microsoft Technology Licensing, Llc Computationally-efficient human-identifying smart assistant computer
JP6828508B2 (ja) 2017-02-27 2021-02-10 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
AU2018256365A1 (en) 2017-04-19 2019-10-31 Magic Leap, Inc. Multimodal task execution and text editing for a wearable system
US10366691B2 (en) 2017-07-11 2019-07-30 Samsung Electronics Co., Ltd. System and method for voice command context
EP3698359A1 (en) * 2017-10-18 2020-08-26 Soapbox Labs Ltd. Methods and systems for speech detection
US11016729B2 (en) 2017-11-08 2021-05-25 International Business Machines Corporation Sensor fusion service to enhance human computer interactions
US11221669B2 (en) * 2017-12-20 2022-01-11 Microsoft Technology Licensing, Llc Non-verbal engagement of a virtual assistant
US11423896B2 (en) 2017-12-22 2022-08-23 Telefonaktiebolaget Lm Ericsson (Publ) Gaze-initiated voice control
US10650338B2 (en) 2017-12-27 2020-05-12 Pearson Education, Inc. Automated registration and greeting process—custom queueing (security)
US20190246036A1 (en) 2018-02-02 2019-08-08 Futurewei Technologies, Inc. Gesture- and gaze-based visual data acquisition system
US10540015B2 (en) 2018-03-26 2020-01-21 Chian Chiu Li Presenting location related information and implementing a task based on gaze and voice detection
US10789755B2 (en) 2018-04-03 2020-09-29 Sri International Artificial intelligence in interactive storytelling
US10726521B2 (en) 2018-04-17 2020-07-28 Google Llc Dynamic adaptation of device interfaces in a voice-based system
US10853911B2 (en) 2018-04-17 2020-12-01 Google Llc Dynamic adaptation of images for projection, and/or of projection parameters, based on user(s) in environment
US20190327330A1 (en) 2018-04-20 2019-10-24 Facebook, Inc. Building Customized User Profiles Based on Conversational Data
US10890969B2 (en) 2018-05-04 2021-01-12 Google Llc Invoking automated assistant function(s) based on detected gesture and gaze
KR102574277B1 (ko) 2018-05-04 2023-09-04 구글 엘엘씨 사용자와 자동화된 어시스턴트 인터페이스 간의 거리에 따른 자동화된 어시스턴트 콘텐츠의 생성 및/또는 적용
US11688417B2 (en) 2018-05-04 2023-06-27 Google Llc Hot-word free adaptation of automated assistant function(s)
WO2019212569A1 (en) 2018-05-04 2019-11-07 Google Llc Adapting automated assistant based on detected mouth movement and/or gaze
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
CA3142707A1 (en) * 2018-06-04 2019-12-12 Disruptel, Inc. Systems and methods for operating an output device
US10681453B1 (en) 2019-06-12 2020-06-09 Bose Corporation Automatic active noise reduction (ANR) control to improve user interaction

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060192775A1 (en) * 2005-02-25 2006-08-31 Microsoft Corporation Using detected visual cues to change computer system operating states
US20120295708A1 (en) * 2006-03-06 2012-11-22 Sony Computer Entertainment Inc. Interface with Gaze Detection and Voice Input
JP2010102235A (ja) * 2008-10-27 2010-05-06 V-Sync Co Ltd 電子広告システム
US20150033130A1 (en) * 2012-04-27 2015-01-29 Hewlett-Packard Development Company, L.P. Audio input from user
JP2015514254A (ja) * 2012-04-27 2015-05-18 ヒューレット−パッカード デベロップメント カンパニー エル.ピー.Hewlett‐Packard Development Company, L.P. ユーザからのオーディオ入力
KR20140029223A (ko) * 2012-08-31 2014-03-10 오므론 가부시키가이샤 제스처 인식 장치, 그 제어 방법, 표시 기기, 및 제어 프로그램이 기록된 컴퓨터 판독 가능한 기록 매체
KR20150138109A (ko) * 2014-05-30 2015-12-09 애플 인크. 수동 시작/종료 포인팅 및 트리거 구문들에 대한 필요성의 저감

Also Published As

Publication number Publication date
EP4130941A1 (en) 2023-02-08
EP3743794A2 (en) 2020-12-02
CN112639718A (zh) 2021-04-09
WO2020050882A2 (en) 2020-03-12
JP2023089115A (ja) 2023-06-27
KR102512446B1 (ko) 2023-03-22
US20230253009A1 (en) 2023-08-10
WO2020050882A3 (en) 2020-08-20
KR20230042760A (ko) 2023-03-29
JP7263505B2 (ja) 2023-04-24
US11688417B2 (en) 2023-06-27
US20200349966A1 (en) 2020-11-05
JP2021520590A (ja) 2021-08-19
EP3743794B1 (en) 2022-11-09

Similar Documents

Publication Publication Date Title
KR102512446B1 (ko) 자동화된 어시스턴트 기능(들)의 핫-워드 프리 적응
US11493992B2 (en) Invoking automated assistant function(s) based on detected gesture and gaze
US20230229229A1 (en) Adapting automated assistant based on detected mouth movement and/or gaze
US20230230587A1 (en) Dynamic adaptation of parameter set used in hot word free adaptation of automated assistant
US20230230583A1 (en) Mitigating false positives and/or false negatives in hot word free adaptation of automated assistant
KR20240067114A (ko) 검출된 제스처 및 시선에 기초하여 자동화된 어시스턴트 기능 호출

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant