KR20230025907A - 생성된 능숙도 측정치에 기초하여 자동화된 어시스턴트 기능 조정 - Google Patents

생성된 능숙도 측정치에 기초하여 자동화된 어시스턴트 기능 조정 Download PDF

Info

Publication number
KR20230025907A
KR20230025907A KR1020237002662A KR20237002662A KR20230025907A KR 20230025907 A KR20230025907 A KR 20230025907A KR 1020237002662 A KR1020237002662 A KR 1020237002662A KR 20237002662 A KR20237002662 A KR 20237002662A KR 20230025907 A KR20230025907 A KR 20230025907A
Authority
KR
South Korea
Prior art keywords
interactions
class
assistant
specific
user
Prior art date
Application number
KR1020237002662A
Other languages
English (en)
Inventor
매튜 샤리피
빅터 카분
Original Assignee
구글 엘엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 구글 엘엘씨 filed Critical 구글 엘엘씨
Publication of KR20230025907A publication Critical patent/KR20230025907A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9035Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/10Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]
    • G06F21/12Protecting executable software
    • G06F21/121Restricting unauthorised execution of programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/04812Interaction techniques based on cursor appearance or behaviour, e.g. being affected by the presence of displayed objects
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Acoustics & Sound (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Security & Cryptography (AREA)
  • General Health & Medical Sciences (AREA)
  • Technology Law (AREA)
  • Computer Hardware Design (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

구현예는 능숙도 측정치를 생성하고, 능숙도 측정치를 활용하여 하나 이상의 자동화된 어시스턴트 기능을 조정하는 것과 관련된다. 생성된 능숙도 측정치는 자동화된 어시스턴트 액션의 특정 클래스에 대한 것이며, 어시스턴트 디바이스에 특정적이고 및/또는 특정 사용자에 특정적이다. 클래스에 대해 생성된 능숙도 측정치는 해당 클래스에 대한 사용자 및/또는 어시스턴트 디바이스의 능숙도를 반영할 수 있다. 능숙도 측정치가 임계치를 충족하는지 또는 임계치(또는 대체 임계치)를 충족하지 못하는지 결정하는 것에 응답하여, 특정 클래스에 대해 다양한 자동화된 어시스턴트 기능이 조정될 수 있다. 조정(들)은 자동화된 어시스턴트 프로세싱을 보다 효율적이게 하고 및/또는 사용자-어시스턴트 인터렉션(들)을 개선(예를 들어, 기간 단축)할 수 있다.

Description

생성된 능숙도 측정치에 기초하여 자동화된 어시스턴트 기능 조정
사람은 본 명세서에서 "자동화된 어시스턴트"("챗봇", "인터랙티브 퍼스널 어시스턴트", "지능형 퍼스널 어시스턴트", "개인 음성 어시스턴트", "대화형 에이전트들"로도 지칭됨)로 지칭되는 인터렉티브 소프트웨어 어플리케이션과의 사람-컴퓨터 간 대화에 참여할 수 있다. 예를 들어, 사람(자동화된 어시스턴트와 인터렉션할 때 "사용자"라고 할 수 있음)은 일부 경우에 텍스트로 변환된 다음 프로세싱될 수 있는 발화된 자연어 입력(즉, 음성 발화)을 사용하여 및/또는 텍스트(예를 들어, 타이핑된) 자연어 입력을 제공함으로써 명령/요청을 자동화된 어시스턴트에 제공할 수 있다. 자동화된 어시스턴트는 일반적으로 응답형 사용자 인터페이스 출력(예: 청각적 및/또는 시각적 사용자 인터페이스 출력)을 제공하고, 스마트 디바이스(들)를 제어하고 및/또는 다른 액션(들)을 수행함으로써 명령 또는 요청에 응답한다.
본 명세서에 개시된 구현예는 능숙도 측정치를 생성하고, 능숙도 측정치를 활용하여 하나 이상의 자동화된 어시스턴트 기능을 조정하는 것과 관련된다. 생성된 능숙도 측정치는 자동화된 어시스턴트 액션의 특정 클래스에 대한 것이며, 어시스턴트 디바이스에 특정적(자동화된 어시스턴트 인터페이스를 갖는 클라이언트 디바이스)이고 및/또는 특정 사용자에 특정적이다. 일 예시로서, 생성된 능숙도 측정치는 스마트 디바이스 자동화된 어시스턴트 제어 액션의 클래스 및 특정 어시스턴트 디바이스(즉, 가정 또는 다른 환경에서 어시스턴트 디바이스들의 생태계의 단일 어시스턴트 디바이스)에 대한 것일 수 있다. 다른 예로서, 생성된 능숙도 측정치는 음악 제어 자동화된 어시스턴트 액션들의 클래스에 대한 것일 수 있고, 특정 사용자(즉, 생태계에서 하나 이상의 어시스턴트 디바이스들과 연결될 수 있는 단일 사용자 계정)에 대한 것일 수 있다. 또 다른 예로서, 생성된 능숙도 측정치는 통신 액션들의 클래스에 대한 것일 수 있고, 특정 사용자 및 특정 사용자 디바이스(즉, 단일 어시스턴트 디바이스에 대한 단일 사용자)에 대한 것일 수 있다.
전술한 클래스들보다 더 세분화된 및/또는 덜 세분화된 것을 포함하여 자동화된 어시스턴트 액션들의 추가 및/또는 대체 클래스들에 대한 능숙도 측정치가 생성될 수 있다. 예를 들어, 스마트 디바이스 자동화된 어시스턴트 제어 액션들의 속 클래스 및/또는 스마트 조명 자동화된 어시스턴트 액션들의 클래스, 스마트 온도 조절기 자동화된 어시스턴트 액션들 및/또는 스마트 카메라 자동화된 어시스턴트 액션들의 클래스와 같은 해당 속 클래스의 종 클래스(들)에 대해 대응하는 능숙도 측정치가 생성될 수 있다. 자동화된 어시스턴트 액션(들)의 클래스는 다양한 세분화 수준으로 정의될 수 있으며, 클래스와 연관된 자동화된 어시스턴트 의도(들)에 의해 정의될 수 있다. 다른 말로 하면, 클래스의 일부 의도(들)가 추가 클래스(들)와 연관될 수도 있지만, 각 클래스는 그와 연관된 자동화된 어시스턴트 의도들의 고유한 세트를 가질 수 있다.
클래스에 대해 생성된 능숙도 측정치는 해당 클래스에 대한 사용자 및/또는 어시스턴트 디바이스의 능숙도를 반영할 수 있다. 본 명세서에 기술된 바와 같이, 능숙도 측정치가 임계치를 충족하는지 또는 임계치(또는 대체 임계치)를 충족하지 못하는지 결정하는 것에 응답하여, 특정 클래스에 대해 다양한 자동화된 어시스턴트 기능이 조정될 수 있다. 또한, 본 명세서에 기술된 바와 같이, 이들 조정(들)의 하나 이상은 자동화된 어시스턴트 프로세싱을 보다 효율적이게 하고 및/또는 사용자-어시스턴트 인터렉션(들)을 개선(예를 들어, 기간 단축)할 수 있다. 또한 조정(들)은 자동화된 어시스턴트 프로세싱 및/또는 인터렉션들을 클래스별, 디바이스별 및/또는 사용자별로 맞춤화하고, 대응하는 클래스에 각각 특정적이고, 대응하는 어시스턴트 디바이스 및/또는 사용자에 특정적인 객관적으로 결정된 능숙도 측정치에 기초하여 기술적 이점(들)을 가져올 조정(들)을 자동적으로 결정함으로써 그렇게 한다.
상기 설명은 단지 일부 구현예의 개요로서 제공된다. 이러한 구현예 및 기타 구현예는 본 명세서에서 더 자세히 설명된다.
도 1은 본 명세서에 개시된 구현예들이 구현될 수 있는 예시적 컴퓨팅 환경의 블록도이다.
도 2a는 클래스 능숙도 측정치(들)을 생성하고 생성된 능숙도 측정치(들)에 기초하여 자동화 어시스턴트 기능을 조정하는 예시적 방법을 도시하는 흐름도이다.
도 2b는 클래스 능숙도 측정치를 생성하는 특정한 예를 도시하는 흐름도이다.
도 3은 컴퓨팅 디바이스의 예시적 아키텍처를 도시한다.
초기적으로 도 1로 돌아가면, 다양한 구현예가 구현될 수 있는 예시적 환경이 도시된다. 도 1은 자동화된 어시스턴트 클라이언트(120)의 인스턴스를 실행하는 어시스턴트 디바이스(110)(즉, 자동화된 어시스턴트 클라이언트를 실행하고 및/또는 자동화된 어시스턴트가 액세스할 수 있는 클라이언트 디바이스)를 포함한다. 하나 이상의 클라우드 기반 자동화된 어시스턴트 컴포넌트(140)는 일반적으로 108에 표시된 하나 이상의 로컬 및/또는 광역 네트워크(예를 들어, 인터넷)를 통해 어시스턴트 디바이스(110)에 통신가능하게 연결된 하나 이상의 컴퓨팅 시스템(집합적으로 "클라우드" 컴퓨팅 시스템으로 통칭)에서 구현될 수 있다.
선택적으로 하나 이상의 클라우드 기반 자동화된 어시스턴트 컴포넌트(140)와의 인터렉션(들)을 통해, 자동화된 어시스턴트 클라이언트(120)의 인스턴스는 사용자의 관점에서 사용자가 인간-대-컴퓨터 대화에 참여할 수 있게 하는 자동화된 어시스턴트의 논리적 인스턴스로 보이는 것을 형성할 수 있다. 이러한 자동화된 어시스턴트(100)의 인스턴스가 도 1에 도시된다.
어시스턴트 디바이스(110)는 예를 들어, 데스크톱 컴퓨터 디바이스, 랩톱 컴퓨팅 디바이스, 태블릿 컴퓨팅 디바이스, 모바일폰 컴퓨팅 디바이스, 차량의 컴퓨팅 디바이스(예를 들어, 차량 내 통신 시스템, 차량 내 엔터테인먼트 시스템, 차량 내 네비게이션 시스템), 단독형 인터렉티브 스피커, 스마트 텔레비전과 같은 스마트 장비 및/또는 컴퓨팅 디바이스를 포함하는 웨어러블 장치(예를 들어, 컴퓨팅 디바이스를 구비한 시계, 컴퓨팅 디바이스를 구비한 안경, 가상 또는 증강 현실 컴퓨팅 디바이스)일 수 있다.
어시스턴트 디바이스(110)는 가정, 기업 또는 기타 환경 내의 한 명 이상의 사용자에 의해 활용될 수 있다. 또한, 하나 이상의 사용자가 어시스턴트 디바이스(110)에 등록되고 어시스턴트 디바이스(110)를 통해 액세스 가능한 대응하는 사용자 계정을 가질 수 있다. 등록된 사용자가 어시스턴트 디바이스(110)와 인터렉션하고 있는지, 어시스턴트 디바이스(110)에 단일 사용자만 등록되어 있는지, 어시스턴트 디바이스(110)와 인터렉션하는 등록된 사용자인지 여부를 검증하기 위해 하나 이상의 인증 기법(들)이 활용될 수 있다. . 하나의 예로서, 연관된 사용자로부터의 허가 하에 등록된 사용자 각각에 대해(예를 들어, 대응하는 사용자 프로필과 연관하여) 텍스트 의존 화자 검증(들)(TD-SV(들))이 생성 및 저장될 수 있다. TD-SV 기법은 발화가 (다른 등록된 사용자나 게스트 사용자가 아닌) 특정 사용자로부터의 것임을 인증하는데 활용될 수 있다. 다른 예로서, TI-SV(text-independent speaker verification) 기법, 화자 검증 기법, 얼굴 검증 기법 및/또는 기타 검증 기법(들)(예: PIN 입력)이 특정 사용자를 인증하는데 추가로 또는 대안적으로 활용될 수 있다.
추가적 및/또는 대안적 어시스턴트 디바이스가 제공될 수 있으며, 이러한 구현예 중 일부에서, 하나 이상의 사용자는 각각 이러한 추가적 또는 대안적 어시스턴트 디바이스 각각에 등록(또는 링크)되고 검증 가능할 수 있다. 다양한 구현예에서, 어시스턴트 디바이스(110)는 메시지 교환 클라이언트(예를 들어, SMS, MMS, 온라인 채팅), 브라우저 등과 같은 자동화된 어시스턴트 클라이언트(104)에 추가된 하나 이상의 다른 애플리케이션을 선택적으로 동작할 수 있다. 이러한 다양한 구현예 중 일부에서, 다른 애플리케이션들 중 하나 이상은 선택적으로 자동화된 어시스턴트(100)와 (예를 들어, 애플리케이션 프로그래밍 인터페이스를 통해) 인터페이스할 수 있거나, (클라우드 기반 자동화된 어시스턴트 컴포넌트(들)(140)와 인터페이싱할 수 있는) 자동화된 어시스턴트 애플리케이션 자체 인스턴스를 포함할 수 있다.
자동화된 어시스턴트(100)는 클라이언트 디바이스(110)의 사용자 인터페이스 입력 및 출력 디바이스들을 통해 사용자와 인간 대 컴퓨터 대화 세션에 참여한다. 사용자 개인 정보 보호 및/또는 리소스 보존을 위해, 많은 경우에, 자동화된 어시스턴트가 발화된 발언을 완전히 프로세싱하기 전에 사용자는 종종 명시적으로 자동화된 어시스턴트(100)를 호출해야 한다. 자동화된 어시스턴트(100)의 명시적 호출은 어시스턴트 디바이스(110)에서 수신되는 특정 사용자 인터페이스 입력에 대한 응답으로 발생한다. 예를 들어, 어시스턴트 디바이스를 통해 자동화된 어시스턴트(100)를 호출할 수 있는 사용자 인터페이스 입력은 어시스턴트 디바이스(110)의 하드웨어 및/또는 가상 버튼의 작동을 선택적으로 포함할 수 있다. 더욱이, 자동화된 어시스턴트 클라이언트는 하나 이상의 음성 일반 호출 웨이크워드들의 존재를 검출하도록 동작가능한 호출 엔진과 같은 하나 이상의 로컬 엔진들을 포함할 수 있다. 호출 엔진은 음성 호출 웨이크워드들 중 하나의 검출에 응답하여 자동화된 어시스턴트(100)를 호출할 수 있다. 예를 들어, 호출 엔진은 "Hey Assistant", "OK Assistant" 및/또는 "Assistant"와 같은 음성 호출 웨이크워드를 검출하는 것에 응답하여 자동화된 어시스턴트(100)를 호출할 수 있다. 호출 엔진은 음성 호출 문구의 발생을 모니터링하기 위해 어시스턴트 디바이스(110)의 하나 이상의 마이크로폰으로부터의 출력에 기초한 오디오 데이터 프레임의 스트림을 연속적으로 프로세싱할 수 있다(예를 들어, "비활성" 모드에 있지 않은 경우) . 음성 호출 문구의 발생을 모니터링하는 동안, 호출 엔진은 음성 호출 문구를 포함하지 않는 모든 오디오 데이터 프레임을 (예를 들어, 버퍼에 임시 저장한 후) 폐기한다. 그러나, 호출 엔진이 프로세싱된 오디오 데이터 프레임에서 음성 호출 문구의 발생을 검출하면, 호출 엔진은 자동화된 어시스턴트(100)를 호출할 수 있다. 본 명세서에서 사용된 바와 같이, 자동화된 어시스턴트(100)를 "호출"하는 것은 자동화된 어시스턴트(100)의 하나 이상의 이전에 비활성화된 기능이 활성화되게 하는 것을 포함할 수 있다. 예를 들어, 자동화된 어시스턴트(100)를 호출하는 것은 하나 이상의 로컬 엔진들 및/또는 클라우드 기반 자동화된 어시스턴트 컴포넌트(140)가 호출 문구가 검출된 것에 기초한 오디오 데이터 프레임 및/또는 하나 이상의 후속 오디오 데이터 프레임을 추가로 프로세싱하게 하는 것을 포함할 수 있다(반면 호출 이전에는 오디오 데이터 프레임의 추가 프로세싱이 발생하지 않았음). 예를 들어, 로컬 및/또는 클라우드 기반 컴포넌트는 자동화된 어시스턴트(100)의 호출에 응답하여 ASR 모델을 사용하여 캡처된 오디오 데이터를 프로세싱할 수 있다.
도 1의 자동화된 어시스턴트 클라이언트(120)는 자동 스피치 인식(ASR) 엔진(122), 자연어 이해(NLU) 엔진(124), 텍스트-투-스피치(TTS) 엔진(126), 이행 엔진(128), 인증 엔진(130), 능숙도 측정 엔진(132) 및 조정 엔진(134)을 포함하는 것으로 도시된다. 일부 구현예에서, 예시된 엔진 중 하나 이상이 생략될 수 있고(예를 들어, 대신 클라우드 기반 자동화된 어시스턴트 컴포넌트(들)(140)에 의해서만 구현됨) 및/또는 추가 엔진이 제공될 수 있다(예를 들어, 전술한 호출 엔진).
ASR 엔진(122)은 음성 발화의 인식을 생성하기 위해 음성 발화를 캡처하는 오디오 데이터를 프로세싱할 수 있다. 예를 들어, ASR 엔진(122)은 발화에 대응하는 인식된 텍스트의 예측을 생성하기 위해 하나 이상의 ASR 기계 학습 모델을 활용하여 오디오 데이터를 프로세싱할 수 있다. 그러한 ASR 기계 학습 모델은 도 1에 도시된 로컬 모델(들)(152A-N) 사이에 선택적으로 포함될 수 있다. 본 명세서에 기술된 바와 같이(예를 들어, 도 2a와 관련하여), 어느 로컬 모델(들)(152A-N)이 어시스턴트 디바이스(110)에 저장되는지는 생성된 능숙도 측정치(들)에 기초하는 조정(들)에 의존할 수 있다. 예를 들어, 생성된 능숙도 측정치(들)에 기초하여 특정 모델이 저장 및/또는 제거될 수 있다. 또한 본 명세서에 기술된 바와 같이(예를 들어, 도 2a와 관련하여), ASR 엔진(122)에 의해 수행되는 ASR의 바이어싱은 또한 생성된 능숙도 측정치(들)에 기초하는 조정(들)에 의존할 수 있다.
TTS 엔진(126)은 텍스트를 합성된 스피치로 변환할 수 있고, 그렇게 함에 있어서 하나 이상의 스피치 합성 신경 네트워크 모델에 의존할 수 있다. 예를 들어, TTS 엔진(126)은 텍스트 응답을 텍스트의 합성된 버전 및 어시스턴트 디바이스(110)의 하드웨어 스피커(들)를 통해 청각적으로 렌더링된 합성된 버전을 포함하는 오디오 데이터로 변환하기 위해 활용될 수 있다.
NLU 엔진(124)은 ASR 엔진에 의해 오디오로부터 변환된 오디오 및/또는 텍스트의 시맨틱 의미(들)를 결정하고, 이들 시맨틱 의미(들)에 대응하는 어시스턴트 액션(들)을 결정한다. 일부 구현예에서, NLU 엔진(124)은 ASR 엔진(122)의 인식(들)에 기초하여 결정되는 의도(들) 및/또는 파라미터(들)로서 어시스턴트 액션(들)을 결정한다. 일부 상황에서, NLU 엔진(124)은 사용자의 단일 발화에 기초하여 의도(들) 및/또는 파라미터(들)를 리졸브할 수 있고, 다른 상황에서는 리졸브되지 않은 의도(들) 및/또는 파라미터(들)에 기초하여 명확화 또는 다른 프롬프트가 생성될 수 있고, 사용자에게 제공되는 해당 프롬프트들 및 해당 프롬프트(들)에 대한 사용자 응답(들)은 의도(들) 및/또는 파라미터(들)를 리졸브하는데 NLU 엔진(124)에 의해 활용된다. 그러한 상황에서, NLU 엔진(124)은 리졸브되지 않은 의도(들) 및/또는 파라미터(들)를 결정하고 및/또는 대응하는 프롬프트(들)를 생성하는 대화 관리자 엔진(미도시)과 협력하여 선택적으로 작동할 수 있다. NLU 엔진(124)은 의도(들) 및/또는 파라미터(들)를 결정하는데 하나 이상의 NLU 기계 학습 모델을 활용할 수 있다. 그러한 NLU 기계 학습 모델은 도 1에 도시된 로컬 모델(들)(152A-N) 사이에 선택적으로 포함될 수 있다. 본 명세서에 기술된 바와 같이(예를 들어, 도 2a와 관련하여), 어느 NLU 로컬 모델(들)이 어시스턴트 디바이스(110)에 저장되는지는 생성된 능숙도 측정치(들)에 기초하는 조정(들)에 의존할 수 있다. 또한 본 명세서에 기술된 바와 같이(예를 들어, 도 2a와 관련하여), NLU 엔진(124)에 의해 수행되는 NLU의 바이어싱은 또한 생성된 능숙도 측정치(들)에 기초하는 조정(들)에 의존할 수 있다.
이행 엔진(128)은 NLU 엔진(124)에 의해 결정되는 어시스턴트 액션(들)의 수행을 야기할 수 있다. 예를 들어, NLU 엔진(124)이 "주방 조명 켜기"의 어시스턴트 액션을 결정하면, 이행 엔진(128)은 대응하는 데이터를 (조명에 직접 또는 조명 제조업체와 연관된 원격 서버에) 전송하게 하여, "주방 조명"을 "켜지게" 할 수 있다. 다른 예로서, NLU 엔진(124)이 "오늘의 사용자 회의 요약 제공"의 어시스턴트 액션을 결정하면, 이행 엔진(128)은 사용자의 캘린더에 액세스하고, 그 날의 사용자 회의를 요약하고, 요약이 어시스턴트 디바이스(110)에서 시각적 및/또는 청각적으로 렌더링되게 할 수 있다. 이행 엔진(128)은 이행을 수행할 때 하나 이상의 기계 학습 모델을 선택적으로 활용할 수 있고, 이러한 기계 학습 모델은 선택적으로 도 1a에 도시된 로컬 모델(들)(152A-N) 사이에 포함될 수 있다. 본 명세서에 기술된 바와 같이(예를 들어, 도 2a와 관련하여), 어느 로컬 이행 모델(들)이 어시스턴트 디바이스(110)에 저장되는지는 생성된 능숙도 측정치(들)에 기초하는 조정(들)에 의존할 수 있다.
인증 엔진(130)은 어시스턴트 디바이스(110)에 등록된 특정 사용자에 대한 음성 발화를 인증할지 여부를 결정할 수 있다. 음성 발화를 인증할지 여부를 결정할 때, 인증 엔진(130)은 전술한 검증 기법 중 하나 이상을 활용할 수 있다.
능숙도 측정 엔진(132)은 클래스에 특정적이고 어시스턴트 디바이스(110) 및/또는 어시스턴트 디바이스(110)의 특정 사용자에 특정적인 능숙도 측정치들을 생성한다. 능숙도 측정 엔진(132)은 이러한 능숙도 측정치를 생성할 때 어시스턴트 디바이스(110) 및/또는 특정 사용자에 의해 개시된 대응하는 자동화된 어시스턴트 인터렉션의 하나 이상의 양태를 각각 반영하는 데이터의 인스턴스들을 활용할 수 있다. 데이터의 인스턴스들은 어시스턴트 디바이스(110) 및/또는 클라우드 기반 자동화된 어시스턴트 컴포넌트(들)(140)에 로컬로 저장될 수 있다. 일부 구현예에서, 능숙도 측정 엔진(132)은 도 2a의 방법(200)의 블록(252, 254 및/또는 256)의 하나 이상의 양태를 수행할 수 있다.
조정 엔진(134)은 능숙도 측정 엔진(132)에 의해 생성된 능숙도 측정치(들)에 기초하여 자동화된 어시스턴트 기능의 하나 이상의 조정을 수행한다. 조정 엔진(134)은 선택적으로 그러한 조정의 알림을 제공할 수 있다. 일부 구현예에서, 조정 엔진(134)은 도 2a의 방법(200)의 블록(258, 260, 264A, 264B, 264C, 264D, 264E, 264F 및/또는 264G)의 하나 이상의 양태를 수행할 수 있다.
클라우드 기반 자동화된 어시스턴트 컴포넌트(들)(140)는 선택적이며 어시스턴트 클라이언트(120)의 대응하는 컴포넌트(들)와 협력하여 동작할 수 있고 및/또는 어시스턴트 클라이언트(120)의 대응하는 컴포넌트(들) 대신에 (항상 또는 선택적으로) 활용될 수 있다. 일부 구현예에서, 클라우드 기반 컴포넌트(들)(114)는 자동화된 어시스턴트 클라이언트(120)의 임의의 대응물에 비해 오디오 데이터 및/또는 기타 데이터의 더 강력하고 및/또는 더 정확한 프로세싱을 수행하기 위해 사실상 무한한 클라우드 리소스를 활용할 수 있다. 다양한 구현예에서, 어시스턴트 디바이스(110)는 호출 엔진이 음성 호출 문구를 검출하거나 자동화된 어시스턴트(100)의 일부 다른 명시적 호출을 검출하는 것에 응답하여 오디오 데이터 및/또는 다른 데이터를 클라우드 기반 자동화된 어시스턴트 컴포넌트들(140)에 제공할 수 있다.
도시된 클라우드 기반 자동화된 어시스턴트 컴포넌트(140)는 클라우드 기반 ASR 엔진(142), 클라우드 기반 NLU 엔진(144), 클라우드 기반 TTS 엔진(146), 클라우드 기반 이행 엔진(148), 클라우드 기반 인증 엔진(150), 클라우드 기반 능숙도 엔진(152) 및 클라우드 기반 조정 엔진(154)을 포함한다. 이러한 컴포넌트는 자동화된 어시스턴트 클라이언트 대응물(있는 경우)과 유사한 기능을 수행할 수 있다. 일부 구현예에서, 도시된 클라우드 기반 엔진 중 하나 이상이 생략될 수 있고(예를 들어, 대신 자동화된 어시스턴트 클라이언트(120)에 의해서만 구현됨) 및/또는 추가적인 클라우드 기반 엔진이 제공될 수 있다.
도 2는 클래스 능숙도 측정치(들)을 생성하고 생성된 능숙도 측정치(들)에 기초하여 자동화 어시스턴트 기능을 조정하는 예시적 방법(200)을 도시하는 흐름도이다. 편의상, 흐름도의 동작들은 동작들을 수행하는 시스템을 참조하여 기술된다. 이 시스템은 도 1의 자동화된 어시스턴트(100)의 하나 이상의 컴포넌트들과 같은 다양한 컴퓨터 시스템들의 다양한 컴포넌트들을 포함할 수 있다. 추가로, 방법(200)의 동작들이 특정한 순서로 도시되었지만, 이는 그러한 제한을 의미하지 않는다. 하나 이상의 동작들은 재순서화, 생략 또는 추가될 수 있다.
블록(252)에서, 시스템은 각각 특정 클래스이고 특정 사용자 및/또는 특정 어시스턴트 디바이스에 의해 각각 개시되는 하나 이상의 과거 어시스턴트 인터렉션들로부터 데이터의 하나 이상의 인스턴스들을 식별한다. 예를 들어, 시스템은 음악 클래스의 연관된 과거 어시스턴트 인터렉션을 각각 반영하는 데이터의 다수의 인스턴스들을 식별할 수 있다. 또한, 식별된 과거 어시스턴트 인터렉션들 각각은 특정 사용자 및/또는 특정 어시스턴트 디바이스에 의해 개시되었던 것일 수 있다. 일 예시로서, 과거 어시스턴트 인터렉션들 각각은 특정 사용자에 의해 개시될 수 있고, 다수의 상이한 어시스턴트 디바이스들을 통한 특정 사용자의 인터렉션들을 집합적으로 포함할 수 있다. 다른 예로서, 각각의 과거 어시스턴트 인터렉션들은 각각 특정 사용자에 의해 개시될 수 있고, 특정 어시스턴트 디바이스만을 통한 특정 사용자의 인터렉션들을 포함할 수 있다. 또 다른 예로서, 과거 어시스턴트 인터렉션들 각각은 특정 어시스턴트 디바이스에 의해 각각 개시될 수 있고 특정 어시스턴트 디바이스를 통한 다수의 사용자들의 인터렉션들을 집합적으로 포함할 수 있다. 특정 사용자에 대한 데이터 인스턴스(들)를 식별하는 구현예에서, 데이터 인스턴스(들) 및 연관된 과거 인터렉션(들)은 하나 이상의 사용자 검증 기법(예: 화자 검증, 얼굴 검증 및/또는 기타 검증 기법(들))을 활용하여 특정 사용자와 연관될 수 있다.
블록(254)에서, 시스템은 데이터의 인스턴스(들)에 기초하여, 특정 클래스에 특정적이고 특정 사용자 및/또는 특정 어시스턴트 디바이스에 특정적인 클래스 능숙도 측정치를 생성한다. 일반적으로, 클래스 능숙도 측정치는 특정 클래스에 대한 사용자 및/또는 디바이스 특정 능숙도를 반영한다. 일부 구현예에서, 시스템은 도 2b의 블록(255A)과 관련하여 아래에서 설명되는 개별 메트릭 중 적어도 하나에 기초하여 클래스 능숙도 측정치를 생성한다. 상기 구현예 중 일부에서, 시스템은 도 2b의 블록(255B)과 관련하여 아래에 설명된 바와 같이 다수의 개별 메트릭의 함수로서 클래스 능숙도 측정치를 생성한다.
블록(256)에서, 시스템은 하나 이상의 프로세싱되지 않은 클래스들이 있는지 여부를 결정한다. 그렇다면, 시스템은 프로세싱되지 않은 클래스(들) 중 대응하는 클래스로부터의 데이터 인스턴스(들)를 활용하여 블록(252 및 254)의 또 다른 반복을 수행한다. 다른 말로 하면, 시스템은 다양한 구현예에서 다수의 상이한 클래스 각각에 대응하는 클래스 능숙도 측정치를 생성할 수 있다. 생성된 클래스 능숙도 측정치 각각은 클래스들 중 대응하는 하나에 특정적인 것에 더하여 특정 사용자 및/또는 특정 어시스턴트 디바이스에 특정적일 수 있다.
클래스 능숙도 측정치(들)을 생성한 후, 시스템은 블록(258)로 진행할 수 있다. 블록(258)에서, 시스템은 클래스 능숙도 측정치가 생성되는 클래스(들) 중 하나 이상에 대해, 대응하는 클래스 능숙도 측정치(들)에 기초하여, 특정 사용자 디바이스 및/또는 특정 사용자에 대한 자동화된 어시스턴트 기능/기능들을 조정할지 여부를 결정한다. 예를 들어, 시스템은 임계치를 충족하는 연관된 클래스 능숙도 측정치를 갖는 임의의 클래스(들)에 대해 자동화된 어시스턴트 기능 또는 기능들을 조정하도록 결정할 수 있다. 예를 들어, 시스템은 특정 클래스에 대해 그리고 특정 사용자 및/또는 특정 사용자 디바이스에 대해, 특정 클래스에 대한 연관된 클래스 능숙도 측정치가 임계치를 충족하는 경우, 자동화된 어시스턴트 기능 또는 기능들을 조정하기로 결정할 수 있다.
블록(260)에서, 시스템은 블록(258)의 결정이 하나 이상의 클래스에 대한 자동화된 어시스턴트 기능 또는 기능들을 조정하는 것이었는지 여부를 결정한다. 그렇다면, 시스템은 블록(262)으로 진행한다. 블록(262)에서, 시스템은 특정 사용자 및/또는 특정 디바이스에 대해 사용가능하게 되는 데이터의 더 많은 인스턴스(들)에 응답하여 및/또는 다른 조건(들)에 응답하여 블록(252)으로 돌아갈 수 있다. 다른 조건(들)은 시간의 경과 및/또는 클래스 능숙도 측정치(들)을 생성하는 또 다른 배치의 발생일 수 있다. 달리 말하면, 블록(262)은 시스템이 특정 사용자 및/또는 특정 사용자 디바이스에 대한 업데이트된 클래스 능숙도 측정치(들)을 생성할 수 있음을 반영한다. 업데이트된 클래스 능숙도 측정치(들)는 정규 또는 비정규 간격으로 생성될 수 있으며, 선택적으로 데이터의 대응하는 새 인스턴스(들)의 임계 양이 사용 가능할 때 및/또는 클래스 능숙도 측정치를 마지막 생성 이후 임계 시간이 경과한 경우에만 생성될 수 있다.
블록(260)에서, 시스템이 블록(258)의 결정이 하나 이상의 클래스에 대한 자동화된 어시스턴트 기능 또는 기능들을 조정하는 것이었다고 결정하면, 시스템은 하나 이상의 클래스에 대한 블록(264A-F)의 조정 및/또는 자동화된 어시스턴트 기능 또는 기능들의 다른 조정(들) 중 하나 이상을 수행한다. 클래스 능숙도 측정치가 특정 사용자 및 특정 디바이스에 대해 생성되는 경우, 조응(들)은 특정 사용자가 특정 디바이스와 인터렉션할 때(예를 들어, 검증 기법(들)을 활용하여 결정됨) 특정 디바이스에 대한 것이다. 클래스 능숙도 측정치가 특정 사용자에 대해서만 생성되는 경우, 조정(들)은 특정 사용자가 임의의 연관된 어시스턴트 디바이스(들)와 인터렉션할 때(예를 들어, 검증 기법(들)을 활용하여 결정됨) 특정 사용자에 대한 것이다. 클래스 능숙도 측정치가 특정 디바이스에 대해서만 생성되는 경우, 조정(들)은 임의의 사용자(또는 적어도 등록된 사용자)가 특정 디바이스와 인터렉션할 때 특정 디바이스에 대한 것이다.
일부 구현예에서, 시스템이 특정 클래스에 대해 수행하는 (예를 들어, 블록(264A-F) 및/또는 다른 조정(들) 중) 조정(들)의 수는 특정 클래스에 대한 클래스 능숙도 측정치의 크기에 따라 달라질 수 있다. 예를 들어, 클래스 능숙도 측정치가 제1 값을 갖는 경우, 시스템은 특정 클래스에 대한 블록(264A, 264B, 264C)의 조정만을 수행할 수 있다. 한편, 클래스 능숙도 측정치가 제1 값보다 능숙도를 더 잘 나타내는 제2 값을 갖는 경우, 시스템은 특정 클래스에 대한 블록(264A-F)의 모든 조정을 수행할 수 있다. 달리 말하면, 서로 다른 조정들은 수행에 대한 서로 다른 클래스 능숙도 측정 임계치를 가질 수 있다. 또한, 주어진 조정에 대한 클래스 능숙도 측정 임계치는 선택적으로 클래스들 간에 다를 수 있다. 예를 들어, 블록(264A)의 조정은 주어진 값을 갖는 연관된 클래스 능숙도 측정치에 기초하여 제1 클래스에 대해 수행될 수 있지만, 블록(264A)의 조정은 동일한 주어진 값을 갖는 연관된 클래스 능숙도 측정치에 기초하여 제2 클래스에 대해 수행되지 않는다. 이는 제2 클래스에 대한 임계치가 제1 클래스에 대한 임계치보다 더 엄격하기 때문일 수 있다.
블록(264A)에서, 시스템은 클래스(들)에 특정적인 하나 이상의 능력들을 활성화한다. 클래스에 대해 활성화된 능력들은 클래스에 특정적인 이전의 비활성 의도(들) 및/또는 파라미터(들)를 포함할 수 있다. 예를 들어 음성 입력을 통해 스마트 디바이스의 이름을 바꿀 수 있는 의도는 스마트 디바이스 제어 클래스에 대해 활성화될 수 있다. 또 다른 예로, 스마트 조명 제어 클래스에 대해 조명의 색온도를 변경할 수 있는 의도를 활성화할 수 있다. 또 다른 예로서, 음악 재생을 가능하게 하는 이미 활성인 의도에 대해 재생 속도(예를 들어, 1.2X 재생 속도)를 지정하는 파라미터가 음악 재생 클래스에 대해 활성화될 수 있다. 또 다른 예로서, (바로 이전 온도로 복귀하기 전에) 온도 조절 기간을 지정하는 파라미터가 온도 조절기 제어 클래스에 대해 활성화될 수 있다. 특정 사용자 및/또는 특정 디바이스에 대한 클래스 능숙도 측정치가 특정 클래스에 대한 능숙도를 나타내는 이러한 방식 및 기타 방식으로, 해당 클래스 내의 추가 능력들이 활성화되어, 특정 클래스 내에서 보다 강력한 사용자 제어를 제공한다. 그러나, 클래스 능숙도 측정치가 능숙도를 나타내지 않는 경우, 추가 능력들이 휴면 상태로 유지될 수 있으므로, 사용자 제어가 단순화되고 사용자 명령이 추가 기능에 대한 잘못된 오해를 방지할 수 있다.
블록(264B)에서, 시스템은 임계치(들)를 충족하는 클래스(들)에 특정적이지 않은 임의의 사용자 요청에 대한 확인을 요구한다. 그러한 임의의 사용자 요청에 대해, 시스템은 결과적인 액션이 수행되기를 원하는지 확인하도록 사용자에게 요청하는 프롬프트(예를 들어, 시각적 및/또는 청각적)를 먼저 제공할 수 있고, 프롬프트에 대한 응답으로 긍정적인 사용자 인터페이스 입력이 수신되는 경우에만 사용자 요청을 이행할 수 있다. 한편, 블록(264B)의 조정으로, 임계치(들)를 충족하는 클래스(들)에 특정적인 임의의 사용자 요청에 대해, 시스템은 확인을 요구하지 않을 것이다.
특정 예로서, 클래스 능숙도 측정치가 특정 디바이스에 대해 생성되고, 음악 재생 클래스에 대한 클래스 능숙도 측정치가 임계치를 충족하는 유일한 클래스 능숙도 측정치라고 가정한다. 블록(264B)에서, 시스템은 특정 디바이스에서 수신되고 음악 재생 클래스에 대한 것이 아닌 것으로 시스템에 의해(예를 들어, NLU 엔진에 의해) 해석되는 임의의 사용자 요청에 대한 확인을 요구할 수 있다. 예를 들어, 특정 디바이스에서 사용자 요청을 수신하고 조명 제어 명령으로 해석하는 경우, 시스템은 "조명을 제어하시겠습니까?"라는 음성 프롬프트가 렌더링되게 할 수 있으며, 긍정적인 응답(예: "예"의 음성 입력)에 대한 응답으로 조명만 제어되게 된다. 이러한 방식 및 기타 방식으로, 음악 재생 액션에 압도적으로(또는 심지어 독점적으로) 활용되는 특정 디바이스에 대해, 음악 재생 클래스가 아닌 모든 요청은 이행 전에 사용자 확인을 요구할 수 있다. 따라서, 잘못 해석된 요청에 기초한 잘못된 이행은 특정 사용자 및/또는 특정 디바이스 레벨에서 블록(264B)의 조정을 수행함으로써 완화될 수 있다.
블록(264C)에서, 시스템은 임계치(들)를 충족하는 클래스(들)에 특정적인 임의의 요청에 대한 명확화(들) 및/또는 확인(들)을 단축한다. 명확화는 사용자 입력에 기초하여 결정된 의도(들) 및/또는 파라미터(들)의 둘 이상의 가능한 해석(들) 사이를 명확하게 하는데 있어서 사용자 피드백을 요청하는 시스템 생성 프롬프트(예를 들어, 청각적 및/또는 시각적)일 수 있다. 예를 들어. 어시스턴트 디바이스가 두 개의 스마트 온도 조절기(하나는 "위층", 다른 하나는 "아래층")와 연결되어 있다고 가정한다. 어시스턴트 디바이스에서 "온도 조절기를 2도 올려"라는 사용자 발언에 응답하여, 시스템은 어시스턴트 디바이스를 통해 "위층" 온도 조절기, "아래층" 온도 조절기 또는 둘 모두에 증가를 적용해야 하는지 여부에 대한 사용자 피드백을 요청하는 명확화를 생성하고 제공할 수 있다. 블록(264C)의 조정이 적용되지 않는 경우, 명확화는 "위층, 아래층 또는 둘 모두를 조정하시겠습니까?"라는 청각적 명확화일 수 있다. 한편, 블록(264C)의 조정이 적용되는 경우, 명확화는 "어떤 온도조절기"의 단축된 청각적 명확화일 수 있다.
이들 및 다른 방식으로, 특정 사용자 및/또는 특정 디바이스에 대한 클래스 능숙도 측정치가 특정 클래스에 대한 능숙함을 나타내는 경우, 명확화는 단축된 사용자 어시스턴트 인터렉션을 제공하기 위해 단축될 수 있고, 결과적으로 디바이스 및/또는 네트워크 리소스를 보존한다. 그러나, 클래스 능숙도 측정치가 능숙함을 나타내지 않는 경우, 단축되지 않은 명확화가 대신 제공되어, 더 많은 안내를 제공하고 추가 사용자 입력이 올바른 명확한 입력일 가능성을 증가시키고, 대신 추가 명확화(들) 및/또는 사용자 어시스턴트 인터렉션의 실패로 이어지지 않을 가능성을 증가시킨다. 따라서, 능숙도 측정치가 클래스에 더 많은 안내가 필요하지 않음을 나타내는 경우에만 클래스에 대한 명확화가 단축될 수 있으며 이렇게 하면 단축된 사용자-어시스턴트 인터렉션이 제공될 것이다.
확인은 사용자 요청이 어시스턴트에 의해 성공적으로 이행되었음을 대응 사용자에게 알리는 시스템 생성 알림(예를 들어, 청각적 및/또는 시각적)일 수 있다. 예를 들어, 온도 조절기의 온도를 2도 증가시키라는 사용자 요청에 대해, 블록(264C)의 조정이 적용되지 않은 경우, "예, 온도 조절기 온도가 75도로 증가되었습니다"라는 확인이 사용자 요청의 이행에 대한 응답으로 제공될 수 있다. 한편, 블록(264C)의 조정이 적용되는 경우, 명확화는 "네", 청각적 "딩"(또는 다른 소리)의 단축된 청각적 명확화일 수 있거나 명확화가 제공되지 않을 수 있다. 특정 사용자 및/또는 특정 디바이스에 대한 클래스 능숙도 측정치가 특정 클래스에 대한 능숙함을 나타내는 이러한 방식 및 기타 방식으로, 단축된 사용자-어시스턴트 인터렉션을 제공하기 위해 확인이 단축될 수 있고, 결과적으로 디바이스 및/또는 네트워크 리소스를 보존한다.
일부 구현예에서, 확인 또는 명확화를 단축할 때, 시스템은 하나 이상의 텍스트 요약 알고리즘을 활용하여 표준 확인 또는 명확화의 단축 버전을 생성한다. 일부 다른 구현예에서, 확인 또는 명확화를 단축할 때, 시스템은 명확화 또는 확인의 미리 저장된 단축 버전에 액세스할 수 있고, 사전 저장된 단축 버전은 시스템에 의해 활용된다.
블록(264D)에서, 시스템은 임계치(들)를 충족시키는 클래스(들)에 대한 모델(들) 및/또는 문법(들)을 연관된 어시스턴트 디바이스(들)에 저장한다. 연관된 어시스턴트 디바이스(들)는 모델(들) 및/또는 문법을 각각 로컬적으로 활용할 수 있다(즉, 어시스턴트 디바이스에 로컬인 프로세서(들)를 활용함). 이러한 로컬 활용은 대기 시간을 줄이고 프로세싱을 위해 원격 서버(들)로의 데이터 전송을 방지할 수 있으며 및/또는 사용자 입력(들)의 로컬 프로세싱의 정확성 및/또는 폭을 향상시킬 수 있다. 모델(들)은 스피치 인식, 자연어 프로세싱 및/또는 이행에 활용되는 것과 같은 기계 학습 모델(들)을 포함할 수 있다. 문법은 스피치 인식에 사용되는 것 및/또는 자연어 프로세싱에 사용되는 것을 포함할 수 있다. 모델(들) 및/또는 문법(들)이 저장되는 연관 어시스턴트 디바이스(들)는 클래스 능숙도 측정치가 특정 어시스턴트 디바이스에 대한 것일 때 상기 특정 어시스턴트 디바이스이고, 클래스 능숙도 측정치가 특정 사용자에 대한 것일 때 특정 사용자와 연결된 특정 어시스턴트 디바이스(들)를 포함한다. 클래스 능숙도 측정치가 특정 사용자 및 특정 디바이스에 대한 것인 경우, 모델(들) 및/또는 문법(들)은 특정 디바이스에 저장될 수 있지만, 선택적으로 특정 사용자가 특정 디바이스와 인터렉션할 때(예를 들어, 검증 기법(들)을 활용하여 결정됨)에만 활용될 수 있다.
블록(264D)의 일례로서, 임계치를 충족하는 연관된 능숙도 측정치를 갖는 스마트 디바이스 제어 클래스에 대해, 스마트 디바이스 제어에 특정적인 NLU 및/또는 이행 모델 및/또는 문법(들)이 연관된 어시스턴트 디바이스(들)에 저장될 수 있다. 예를 들어, NLU 모델(들)은 스마트 디바이스 제어에 특정적인 의도 및/또는 파라미터로 제한될 수 있다. 또한, 예를 들어, 이행 모델(들)은 스마트 디바이스(들)의 로컬 제어를 가능하게 하기 위해 로컬 네트워크를 통해 전송될 수 있는 스마트 디바이스 제어 명령의 생성을 가능하게 하는 모델을 포함할 수 있다. 또한 예를 들어, 문법(들)은 로컬 자동 스피치 인식에 의해 활용되는 것(예를 들어, 언어 모델) 및/또는 로컬 NLU에 의해 활용되는 것(예를 들어, 의도 및/또는 이러한 의도에 대한 파라미터 정의)을 포함할 수 있으며, 스마트 디바이스 제어에 특정적인 문법이다.
블록(264E)에서, 시스템은 임계치(들)를 충족시키는 클래스(들)에 대한 것이 아닌 모델(들) 및/또는 문법(들)을 연관된 어시스턴트 디바이스(들)로부터 제거한다. 일부 구현예에서 시스템은 임계치(들)를 충족하지 않는 클래스(들)에 기초하여 임계치(들)를 충족하는 클래스(들)가 아닌 모든 클래스(들)에 대한 모델(들) 및/또는 문법(들)을 제거한다. 일부 다른 구현예에서, 임계치(들)를 충족하지 않는 클래스(들)의 서브세트만 제거된다. 서브세트는 예를 들어 효율성의 최소 정도(또는 전혀 없음)를 나타내는 2차 임계치를 충족하지 않는 서브세트의 클래스(들)에 대한 능숙도 측정치(들)에 기초하여 선택될 수 있다. 블록(264E)에서 모델(들) 및/또는 문법(들)을 제거하면 연관된 어시스턴트 디바이스(들)에서 로컬로 그것들을 삭제할 수 있거나 적어도 선택적으로 그것들이 메모리에 로드되는 것을 방지하여, 연관된 어시스턴트 디바이스의 메모리 및/또는 다른 저장 리소스를 해제할 수 있다. 또한, 그것은 종종 리소스 제약이 있는(예를 들어, 제한된 메모리 및/또는 다른 저장 리소스) 연관된 어시스턴트 디바이스가 블록(264D)(위에서 설명됨)을 수행하기 위한 충분한 용량을 갖도록 할 수 있고 및/또는 더 많은 양의 모델(들) 및/또는 문법(들)이 블록(264D)을 수행하는데에 있어서 로컬로 저장되게 할 수 있다. 제거되는 모델(들)은 스피치 인식, 자연어 프로세싱 및/또는 이행에 활용되는 것과 같은 기계 학습 모델(들)을 포함할 수 있다. 문법은 스피치 인식에 사용되는 것 및/또는 자연어 프로세싱에 사용되는 것을 포함할 수 있다. 모델(들) 및/또는 문법(들)이 제거되는 연관 어시스턴트 디바이스(들)는 클래스 능숙도 측정치가 특정 어시스턴트 디바이스에 대한 것일 때 상기 특정 어시스턴트 디바이스이고, 클래스 능숙도 측정치가 특정 사용자에 대한 것일 때 특정 사용자와 연결된 특정 어시스턴트 디바이스(들)를 포함한다. 클래스 능숙도 측정치가 특정 사용자 및 특정 디바이스에 대한 것인 경우, 모델(들) 및/또는 문법(들)은 특정 디바이스의 읽기 전용 메모리에 저장되어 있을 수 있지만, 선택적으로 특정 사용자가 특정 디바이스와 인터렉션할 때(예를 들어, 검증 기법(들)을 활용하여 결정됨) 메모리로부터 제거되거나 및/또는 메모리에 로딩되지 않을 수 있다.
블록(264F)에서, 시스템은 임계치를 만족하는 능숙도 측정치(들)을 갖는 클래스(들) 쪽으로 ASR 및/또는 NLU를 편향시킨다. 이러한 편향은 사용자 입력 해석의 정확도를 개선하여 사용자 어시스턴트 인터렉션을 연장할 수 있는 부정확한 해석의 발생을 완화할 수 있다. 편향은 특정 어시스턴트 디바이스 및/또는 특정 사용자에 대한 것일 수 있다. 클래스에 대한 ASR 편향에서, 해당 클래스와 상관된 특정 용어(들)에 대한 인식을 편향시키면서 음성 발화의 인식이 수행될 수 있다. 예를 들어, 스마트 디바이스 제어 클래스의 경우,, 음성 발화의 스피치 인식은 스마트 디바이스 제어 의도(들)에 매핑된 용어(예: "켜기" , "끄기", "조정", "변경", "어둡게" 등), 연결된 스마트 디바이스의 이름(들)(예: "거실 조명", "지하실 TV" 등), 및/또는 기타 상관된 용어와 같이 스마트 디바이스 제어와 상관된 용어들을 향해 편향될 수 있다.
특정 용어(들)에 대한 편향 스피치 인식은 하나 이상의 다양한 편향 기법을 사용하여 달성될 수 있다. 일례로, 일부 ASR 기법에서 활용되는 언어 모델은 용어에 대한 가중치를 포함할 수 있으며, 각 가중치는 대응하는 용어에 대한 대응하는 편향 정도를 반영한다. 또 다른 예로서, ASR에서 활용되는 언어 모델에 용어를 포함시키는 것만으로 용어에 대한 편향이 달성될 수 있다. 또 다른 예로서, ASR에서 선택적으로 활용되는 디코딩 그래프는 특정 용어에 편향되면서 디코딩될 수 있다. 또 다른 예로서, 편향은 ASR 모델에 의해 생성된 초기 가설(또는 초기 가설들)에 추가되는 하나 이상의 추가 가설을 생성하기 위해 활용될 수 있고, 상기 추가 가설들은 후보 전사들로서 고려된다. 예를 들어, 편향 용어(들)을 포함하여 추가 가설이 생성 및/또는 선택될 수 있다. 추가 및/또는 대안적 ASR 편향 접근 방법이 활용될 수 있다.
NLU를 클래스에 편향할 때, 텍스트의 시맨틱 표현(예: ASR에서 인식된 텍스트)을 생성하는 것은 해당 클래스에 대한 시맨틱 표현에 편향될 수 있다. 예를 들어, 텍스트에 대해 결정되는 의도(들) 및/또는 파라미터(들)는 적용되는 NLU 편향에 따라 달라질 수 있다. 예를 들어, 스마트 디바이스 제어 클래스에 대한 NLU 편향이 적용될 때 스마트 디바이스 제어 시맨틱 표현이 생성될 가능성이 더 높다. 하나의 특정 예로서, 디밍 가능한 디스플레이가 있고 스마트 조명(들)과도 연결된 어시스턴트 디바이스에서 제공되는 "50% 디밍"의 인식된 텍스트에 대해 NLU가 수행되고 있다고 가정한다. NLU가 스마트 디바이스 제어 클래스로 편향되지 않는 경우, NLU는 어시스턴트 디바이스의 디밍 가능 디스플레이가 어둡게 되어야 한다고 표시하는 시맨틱 표현을 생성할 수 있다. 반면에 NLU가 스마트 디바이스 제어 클래스로 편향된 경우, NLU는 연결된 스마트 조명(들)이 어둡게 되어야 함을 나타내는 시맨틱 표현을 결과로 할 수 있다.
블록(264G)에서, 시스템은 블록(264A-F) 중 하나 이상의 조정(들)의 알림(들)이 (예를 들어, 청각적으로 및/또는 시각적으로) 렌더링되게 할 수 있다. 예를 들어, 조정이 특정 디바이스에 특정적인 경우 알림(들)은 특정 디바이스에서 렌더링될 수 있다. 또한, 예를 들어, 조정이 특정 사용자 및 사용자와 연결된 다수의 어시스턴트 디바이스에 특정적인 경우, 알림(들)은 이러한 다수의 어시스턴트 디바이스들 중 하나 이상에서 렌더링될 수 있다. 또한, 예를 들어, 조정이 특정 디바이스 및 특정 사용자에게 특정적인 경우, 알림(들)은 특정 사용자가 특정 디바이스와 인터렉션하거나 근처에 있다는 결정에 응답하여 렌더링될 수 있다. 사용자 검증 기법(들)은 특정 사용자가 특정 디바이스와 인터렉션하고 있음을 결정하기 위해 활용될 수 있다. 일부 조정(들)의 경우, 블록(264G)은 대응하는 조정(들)을 구현한 후에 수행될 수 있다. 다른 조정(들)의 경우, 대응하는 조정(들)을 구현하기 전에 블록(264G)이 수행될 수 있다. 이러한 구현예 중 일부에서, 대응하는 조정(들)은 알림(들) 렌더링에 응답하여 긍정적인 사용자 인터페이스 입력을 수신하는 것에 응답하여서만 활성화될 수 있다. 예를 들어, 조정에 대한 알림은 사용자가 조정이 구현되기를 원하는지 검증하기 위한 프롬프트를 포함할 수 있고, 긍정적인 사용자 입력이 프롬프트에 응답하여 수신되는 경우에만 해당 조정이 구현된다. 일부 구현예에서, 알림(들)은 사용자에게 조정(들) 및/또는 조정(들)이 사용자 어시스턴트 인터렉션 및/또는 대응하는 어시스턴트 디바이스(들)에 어떻게 영향을 미치는지를 알릴 수 있다. 예를 들어, 264A의 적응에 대한 알림은 활성화된 능력들 및/또는 이러한 능력들이 사용자 입력을 통해 호출될 수 있는 방법의 예를 사용자에게 알릴 수 있다. 다양한 구현예에서 및/또는 하나 이상의 조정(들)에 대해, 조정(들)은 사용자에게 임의의 대응 알림을 제공하지 않고 구현될 수 있다.
이제 도 2b를 참조하면, 도 2a의 블록(254)의 특정 예(254A)를 도시하는 흐름도가 제공된다. 특정 예(254A)의 블록(255A)에서, 시스템은 데이터 인스턴스 프로세싱에 기초하여 개별 메트릭을 생성한다. 블록(255A)은 블록(255A1-255A6) 중 하나 이상을 포함할 수 있다.
블록(255A1)에서, 시스템은 개별 메트릭(들)의 인터렉션 빈도 메트릭을 생성한다. 시스템은 주어진 기간 동안 데이터에 의해 표시된 과거 인터렉션의 양에 기초하여 인터렉션 빈도 메트릭을 생성할 수 있다. 예를 들어, 시스템은 어시스턴트 인터렉션의 함수로서 해당 클래스에 대한 지난 주 동안, 지난 2주 동안, 지난 달 동안, 지난 3개월 동안 또는 다른 기간 동안의 인터렉션 빈도 메트릭을 생성할 수 있다. 예를 들어, 성공 비율 메트릭은 양을 기간의 일수, 기간의 주 수 또는 기간의 시간으로 나눈 것일 수 있다. 주어진 기간 동안 고려되는 과거 인터렉션의 양은 성공적인 인터렉션만 포함하는 서브세트와 같이 클래스의 과거 인터렉션의 서브세트일 수 있다. 더 높은 인터렉션 빈도를 나타내는 인터렉션 빈도 메트릭은 일부 구현예에서 더 낮은 인터렉션 빈도를 나타내는 인터렉션 빈도 메트릭보다 클래스에 대한 능숙도를 더 잘 나타낼 수 있다.
블록(255A2)에서, 시스템은 개별 메트릭(들)의 성공 비율 메트릭을 생성한다. 시스템은 (a) 성공적이었던 데이터에 의해 표시된 성공적 과거 인터렉션들의 양과 (b) 과거 인터렉션들의 총량 또는 성공적이지 않았던 비성공적 과거 인터렉션들의 양의 비교에 기초하여 성공 비율 메트릭을 생성할 수 있다. 예를 들어, 데이터 인스턴스가 스마트 디바이스 제어 클래스의 과거 100개 인터렉션을 나타내며 그 중 99개는 성공했고 단 1개만 실패했다고 가정한다. 시스템은 (a) 99개(성공한 수량)와 (b) 100개(총 수량) 또는 1개(실패한 수량)를 비교하여 성공 비율 메트릭을 생성할 수 있다. 예를 들어, 성공 비율 메트릭은 성공한 수량을 총 수량으로 나누거나 성공한 수량을 실패한 수량으로 나눈 값에 기초할 수 있다. 일부 구현예에서, 성공적인 인터렉션은 대응하는 어시스턴트 인터렉션이 이행으로 귀결될 때 데이터의 인스턴스에 의해 표시될 수 있다. 예를 들어, 대응하는 스마트 디바이스 제어 명령이 전송되면 스마트 디바이스 제어 인터랙션이 성공한 것으로 간주될 수 있다. 일부 구현예에서, 실패한 인터렉션은 대응하는 어시스턴트 인터렉션이 이행을 초래하지 않았을 때 데이터의 인스턴스에 의해 표시될 수 있다. 예를 들어, 초기 사용자 입력이 의도를 호출했지만, 사용자가 의도에 필요한 모든 파라미터를 특정하지 못한 경우(예: 어시스턴트가 해당 파라미터에 대해 프롬프트한 후에도), 이행을 수행할 수 없으며, 해당 인터렉션이 실패한 것으로 간주될 수 있다. 또 다른 예로, 초기 사용자 입력이 의도를 호출하고 모든 필수 파라미터를 포함했지만 파라미터가 인터렉션에 유효하지 않은 경우, 해당 인터렉션은 실패한 것으로 간주될 수 있다. 예를 들어, 사용자가 "지하실 조명 켜"라는 음성 발화를 제공했지만 "지하실 조명"이라는 별칭으로 연결된 스마트 조명이 없는 경우, "제어될 스마트 조명" 파라미터는 유효하지 않으며, 결과적으로 인터렉션은 실패한다. 더 높은 성공 비율을 나타내는 성공 비율 메트릭은 일부 구현예에서 더 낮은 성공 비율을 나타내는 성공 비율 메트릭보다 클래스에 대한 능숙도를 더 잘 나타낼 수 있다.
블록(255A3)에서, 시스템은 개별 메트릭의 효율성 메트릭을 생성한다. 시스템은 (a) 데이터에 의해 표시된 과거 인터렉션들의 지속시간에 기초한 특정 지속시간 측정치와 (b) 사용자들의 모집단으로부터 인터렉션들의 클래스의 다른 과거 인터렉션들의 지속시간에 기초한 모집단 기반 지속시간 측정치의 비교에 기초하여 효율성 메트릭을 생성할 수 있다. 예를 들어, 특정 지속시간 측정치는 클래스에 대한 (특정 사용자 및/또는 특정 디바이스에 대한) 과거 인터렉션의 평균 지속시간(선택적으로 보다 최근의 인터렉션에 더 크게 가중됨), 클래스에 대한 (특정 사용자 및/또는 특정 디바이스에 대한) 과거 인터렉션의 평균 지속 시간 또는 클래스에 대한 (특정 사용자 및/또는 특정 디바이스에 대한) 과거 인터렉션의 평균 및 표준 편차 기간 및/또는 클래스에 대한 과거 인터렉션 기간에 기초한 기타 측정치일 수 있다. 모집단 기반 지속시간 측정치는 마찬가지로 평균(average), 평균(mean), 평균 및 표준 편차 및/또는 과거 인터렉션의 지속시간에 기초한 기타 메트릭일 수 있다. 그러나 모집단 기반 지속시간 측정치에서 고려되는 과거 인터렉션은 특정 사용자 외에 여러 사용자를 포함하는 사용자 모집단에서 나올 수 있다. 예를 들어, 모집단은 어시스턴트의 모든 사용자 또는 어시스턴트 사용자의 서브세트, 예를 들어 무작위로 선택된 서브세트, 특정 조건에 동의한 서브세트, 특정 지리적 지역의 서브세트, 또는 다른 서브세트를 포함할 수 있다. 효율성 메트릭을 생성할 때 특정 지속시간 측정치를 인구 기반 측정치와 비교함으로써 효율성 메트릭은 더 큰 모집단에 대한 특정 사용자 및/또는 특정 디바이스에 의해 개시된 인터렉션의 효율성을 반영한다. 예를 들어, 이러한 인터렉션이 더 큰 모집단보다 더 효율적인지, 덜 효율적인지 또는 동일한 효율성인지를 반영한다. 더 큰 모집단보다 더 큰 효율성을 나타내는 효율성 메트릭은 일부 구현예에서 더 큰 모집단보다 더 낮은 효율성을 나타내는 효율성 메트릭보다 클래스에 대한 능숙함을 더 많이 나타낼 수 있다.
일부 구현예에서, 효율성 메트릭은 추가로 또는 대안적으로 (a) 데이터에 의해 표시된 과거 인터렉션의 지속시간에 기초한 특정 지속시간 측정치와 (b) (i) 하드코딩된 예상 지속시간 값 및/또는 (ii) 데이터에 기초하여 예상 지속시간 값의 비교에 기초할 수 있다. 하나의 예로서, (a) 데이터에 의해 표시된 과거 인터렉션의 지속시간에 기초한 특정 지속시간 측정치는 특정 사용자 및/또는 특정 디바이스의 과거 인터렉션의 가장 최근 양(예를 들어, 5, 10, 또는 다른 정수) 및/또는 최근 시간 윈도우(예를 들어, 지난 주 또는 지난 2주 내)에서 발생한 과거 인터렉션을 반영하는 데이터에 기초할 수 있다. 일례로 계속해서, (b)(ii) 데이터에 기초하는 예상 지속시간 값은 예를 들어 특정 사용자 및/또는 특정 디바이스에 의해 개시된 첫 N개의 인터렉션과 같이 특정 사용자 및/또는 특정 디바이스의 과거 인터렉션 중 하나 이상을 시간상 더 일찍 반영하는 데이터에 기초할 수 있다. 이러한 예에서, 효율성 메트릭은 특정 사용자 및/또는 특정 디바이스에 의해 개시된 클래스에 대한 인터렉션이 더 효율적이 되는지, 덜 효율적이 되는지, 및/또는 시간이 지남에 따라 변경되지 않는지 여부를 나타낼 수 있다.
블록(255A4)에서 시스템은 개별 메트릭의 명확화 메트릭을 생성한다. 시스템은 자동화된 어시스턴트가 명확화를 위해 프롬프트해야 했던 상기 데이터에 의해 표시된 과거 인터렉션들의 명확화 수량에 기초하여 상기 개별 메트릭의 명확화 메트릭을 생성할 수 있다. 예를 들어, 시스템은 자동화된 어시스턴트가 명확화를 위해 프롬프트해야 했던 수량으로 명확화 메트릭을 생성할 수 있다. 또 다른 예로서, 시스템은 자동화된 어시스턴트가 명확화를 위해 프롬프트해야 했던 원시 수량을 해당 클래스에 대한 (특정 사용자 및/또는 특정 디바이스에 대한) 인터렉션의 총량과 비교하여 명화고하 메트릭을 생성할 수 있다. 또 다른 예로서, 시스템은 자동화된 어시스턴트가 명확화를 위해 프롬프트해야 했던 원시 수량을 자동화된 어시스턴트가 명확화를 위해 프롬프트하지 않았던 해당 클래스에 대한 (특정 사용자 및/또는 특정 디바이스에 대한) 인터렉션의 양과 비교하여 명확화 메트릭을 생성할 수 있다. 더 적은 양의 명확화를 나타내는 명확화 메트릭은 일부 구현예에서 더 많은 양의 명확화를 나타내는 명확화 메트릭보다 클래스에 대해 더 능숙함을 나타낼 수 있다.
블록(255A5)에서 시스템은 개별 메트릭의 희소성 메트릭을 생성한다. 시스템은 (a) 데이터에 의해 표시된 과거 인터렉션에서 특정 의도(들) 또는 특정 파라미터(들)의 사용에 기초하는 특정 측정치와 (b) 사용자들의 모집단으로부터 인터렉션들의 클래스의 다른 과거 인터렉션들에서 특정 의도(들) 또는 특정 파라미터(들)의 사용에 기초하는 모집단-기반 측정치의 비교에 기초하여 희소성 메트릭을 생성할 수 있다. 예를 들어, 특정 측정치는 각각의 의도(들) 및/또는 측정치(들)에 대해, 클래스에 대한 (특정 사용자 및/또는 특정 디바이스에 대한) 과거 인터렉션에서 의도(들) 및/또는 파라미터(들)의 활용의 대응 수량 또는 빈도일 수 있다. 모집단-기반 측정치는 의도(들) 및/또는 척도(들) 각각에 대해, 의도(들) 및/또는 파라미터(들)의 대응 평균 수량 또는 평균 활용 빈도일 수 있고, 여기서 평균은 특정 사용자 외에 여러 사용자를 포함하는 사용자 모집단의 사용자당 평균이다. 예를 들어, 의도에 대한 모집단 기반 측정치는 모집단의 모든 사용자에 의한 의도의 총량을 모집단의 사용자 수로 나눈 값에 기초하여 결정된 평균일 수 있다. 희소성 생성할 때 특정 측정치를 모집단 기반 측정과 비교함으로써, 희소성 메트릭은 더 큰 모집단에 비해 특정 사용자 및/또는 특정 디바이스에 의해 개시된 인터렉션에서 의도(들) 및/또는 파라미터(들)의 희소성을 반영한다. 예를 들어, 이러한 인터렉션이 더 큰 모집단에서의 활용과 비교할 때 희소한 의도 및/또는 파라미터를 활용하는지 여부를 반영한다. 희소한 의도(들) 및/또는 희소한 파라미터(들)의 사용을 나타내는 (및/또는 희소한 의도(들) 및/또는 희소한 파라미터(들)의 대량 및/또는 높은 빈도의 사용을 나타내는) 희소성 메트릭은 일부 구현예에서, 희소한 의도(들) 및/또는 희소한 파라미터(들)의 사용을 나타내지 않는 (및/또는 희소한 의도(들) 및/또는 희소한 파라미터(들)의 소량 및/또는 낮은 빈도의 사용을 나타내는) 희소성 메트릭에 비해 클래스에 대해 더 능숙함을 나타낼 수 있다.
블록(255A6)에서 시스템은 개별 메트릭의 폭 메트릭을 생성한다. 시스템은 데이터에 의해 표시된 사용자 명령의 폭(들)에 기초하여 폭 메트릭을 생성할 수 있다. 예를 들어, 폭 메트릭은 대응하는 사용자 명령의 폭을 각각 정량화하는 개별 폭 메트릭의 평균, 중앙값 또는 기타 함수에 기초할 수 있다. 사용자 명령의 폭은 사용자 명령에 포함된 사용자 명령에 의해 지정된 의도에 대한 파라미터의 수량에 기초할 수 있다. 예를 들어, 음악 재생 의도는 아티스트 이름, 노래 이름, 사용할 음악 서비스, 음악을 재생할 디바이스(들) 및 음악 볼륨과 같은 선택적 파라미터를 포함할 수 있다. "음악 재생"이라는 제1 사용자 명령은 이러한 선택적 파라미터를 지정하지 않고, "가상 음악 서비스에서 가상 아티스트 재생"이라는 제2 사용자 명령은 이러한 선택적 파라미터들 중 두 개를 지정하고, "주방 어시스턴트 디바이스에서 가상 아티스트의 가상 노래를 볼륨 10으로 재생해"라는 제3 사용자 명령은 이러한 선택적 파라미터들 중 4개를 지정한다. 따라서, 제2 사용자 명령에 대해 생성된 제2 개별 폭 메트릭보다 더 큰 폭을 나타내는 제1 사용자 명령에 대한 제1 개별 폭 메트릭이 생성될 수 있다. 마찬가지로, 제2 개별 폭 메트릭보다 작은 폭을 나타내는 제3 사용자 명령에 대한 제3 개별 폭 메트릭이 생성될 수 있다. 다른 예로서, 조명(들)을 어둡게 하는 의도는 조명(들)의 가명(alias)의 필수 파라미터 및 어둡게 하는 범위의 선택적 파라미터를 포함할 수 있다. 필수 또는 선택적 파라미터 지정에 실패한 제1 사용자 명령은 필수 파라미터를 지정하지만 선택적 파라미터는 지정하지 않은 제2 사용자 명령보다 더 광범위할 수 있으며, 제2 사용자 명령은 필수 파라미터 및 선택적 파라미터 둘 모두를 지정하는 제3 사용자 명령보다 더 광범위할 수 있다. 더 적은 폭을 나타내는 폭 메트릭은 일부 구현예에서 더 넓은 폭을 나타내는 폭 메트릭보다 클래스에 대한 능숙도를 더 많이 나타낼 수 있다.
특정 예(254A)의 블록(255B)에서, 시스템은 하나 이상의 개별 메트릭의 함수로서 클래스 능숙도 측정치를 생성한다.
일부 구현예에서, 블록(255B)은 시스템이 트레이닝된 기계 학습 모델을 사용하여 개별 메트릭을 프로세싱하여 출력을 생성하고 출력에 기초하여 클래스 능숙도 측정치를 결정하는 블록(255B1)을 포함한다. 출력은 예를 들어 0에서 1까지의 측정치일 수 있으며, 그 크기는 능숙도를 나타낸다(예: 1은 가장 능숙함을 나타내고 0은 가장 낮음을 나타냄). 그러한 기계 학습 모델은 대응하는 특정 사용자 및/또는 대응하는 특정 사용자 디바이스에 대한 개별 메트릭 및 특정 사용자 및/또는 특정 사용자 디바이스에 대한 능숙도의 실측 측정치인 지도된 레이블을 각각 포함하는 트레이닝 인스턴스를 활용하여 트레이닝될 수 있다. 실측 레이블은 예를 들어 0에서 1까지의 측정치일 수 있다. 일부 구현예에서, 실측 레이블은 "자동화된 어시스턴트 활용에 대한 귀하의 능숙도를 어떻게 평가하시겠습니까?"와 같은 프롬프트에 응답하는 대응하는 특정 사용자로부터의 사용자 입력과 같은 사용자 입력에 기초하여 생성될 수 있다. 일부 구현예에서, 블록(255B)는 추가로 또는 대안적으로 시스템이 개별 메트릭의 평균화 또는 조합에 기초하여 클래스 능숙도 점수를 생성하는 블록(255B2)을 포함한다. 예를 들어, 클래스 능숙도 점수는 블록(255B2)에만 기초할 수 있거나, 블록(255B1)의 출력과 블록(255B2)의 평균화 또는 조합 모두의 함수일 수 있다. 선택적으로, 개별 메트릭의 평균화 또는 조합에 기초하여 클래스 능숙도 점수를 생성할 때, 서로 다른 개별 메트릭이 다르게 가중될 수 있고 및/또는 개별 메트릭이 평균화 또는 조합 전에 정규화될 수 있다. 일부 구현예에서, 그렇지 않으면 개별 메트릭을 조합하는 것은 휴리스틱을 활용하여 하나 이상의 메트릭을 조합할 수 있다.
도 2b는 블록(255A)에서 생성되는 다수의 개별 메트릭 및 블록(255B)에서 하나 이상의 개별 메트릭의 함수로서 클래스 능숙도 측정치가 생성되는 것을 도시한다. 그러나 다양한 구현예에서, 개별 메트릭 중 단 하나만 생성되고, 클래스 능숙도 측정치는 개별 메트릭 중 단 하나에만 기초할 수 있다. 예를 들어, 클래스 능숙도 측정치는 개별 메트릭 중 단일 메트릭일 수 있거나 개별 메트릭 중 단일 메트릭의 함수일 수 있다.
도 3은 본 명세서에 기술된 기법들의 하나 이상의 양태들을 수행하기 위해 선택적으로 활용될 수 있는 예시적 컴퓨팅 디바이스(310)의 블록도이다. 일부 구현예에서, 클라이언트 컴퓨팅 디바이스 및/또는 다른 컴포넌트(들) 중 하나 이상은 예시적 컴퓨팅 디바이스(310) 중 하나 이상의 컴포넌트를 포함할 수 있다.
컴퓨팅 디바이스(310)는 일반적으로 적어도 하나의 프로세서(314)를 포함하며, 버스 서브시스템(312)을 통해 다수의 주변 디바이스들과 통신한다. 이들 주변 디바이스들은 예를 들면, 메모리 서브시스템(325) 및 파일 저장 서브시스템(326)을 포함하는 저장 서브시스템(324), 사용자 인터페이스 출력 디바이스(320), 사용자 인터페이스 입력 디바이스(322) 및 네트워크 인터페이스 서브시스템(316)을 포함할 수 있다. 입력 및 출력 디바이스는 컴퓨팅 디바이스(310)와 사용자 인터렉션을 하게 한다. 네트워크 인터페이스 서브시스템(316)은 외부 네트워크에 대한 인터페이스를 제공하며, 다른 컴퓨팅 디바이스들의 대응하는 인터페이스 디바이스들과 연결된다.
사용자 인터페이스 입력 디바이스(322)는 키보드, 마우스, 트랙볼, 터치패드 또는 그래픽 태블릿, 스캐너, 디스플레이에 통합된 터치스크린과 같은 포인팅 디바이스, 음성 인식 시스템, 마이크로폰과 같은 오디오 입력 디바이스 및/또는 다른 유형의 입력 디바이스를 포함한다. 일반적으로, 용어 “입력 디바이스”의 사용은 정보를 컴퓨팅 디바이스(310) 또는 통신 네트워크에 입력하기 위한 모든 가능한 유형의 디바이스들과 방식들을 포함하도록 의도된다.
사용자 인터페이스 출력 디바이스(320)는 디스플레이 서브시스템, 프린터, 팩스 기계 또는 오디오 출력 디바이스와 같은 비-시각적 디스플레이를 포함할 수 있다. 디스플레이 서브시스템은 CRT, LCD와 같은 평면 패널 디바이스, 프로젝션 디바이스 또는 시각적 이미지를 생성하기 위한 일부 기타 메커니즘을 포함할 수 있다. 또한, 디스플레이 서브시스템은 오디오 출력 디바이스와 같은 비-시각적 디스플레이를 제공할 수 있다. 일반적으로, 용어 “출력 디바이스”의 사용은 정보를 컴퓨팅 디바이스(310)로부터 사용자에게 또는 다른 기계 또는 컴퓨팅 디바이스에 정보를 출력하기 위한 모든 가능한 유형의 디바이스들과 방식들을 포함하도록 의도된다.
저장 서브시스템(324)은 본 명세서에 기술된 일부 또는 전부의 모듈들의 기능을 제공하기 위한 프로그래밍 및 데이터 구조를 저장한다. 예를 들면, 저장 서브시스템(324)은 본 명세서에 기술된 하나 이상의 방법들 중 선택된 양태들을 수행하고 및/또는 본 명세서에 기술된 다양한 컴포넌트들을 구현하기 위한 로직을 포함할 수 있다.
이들 소프트웨어 모듈들은 일반적으로 프로세서(314) 단독으로 또는 다른 프로세서들과의 조합에 의해 실행된다. 저장 서브시스템(324)에서 사용된 메모리(325)는 프로그램 실행 중에 명령어들 및 데이터의 저장을 위한 메인 RAM(330) 및 고정된 명령어들이 저장되는 ROM(332)을 포함하는 다수의 메모리들을 포함할 수 있다. 파일 저장 서브시스템(326)은 프로그램 및 데이터 파일에 대한 영구적 저장을 제공할 수 있고, 하드 디스크 드라이브, 연관된 이동식 매체와 함께인 플로피 디스크 드라이브, CD-ROM 드라이브, 광학 드라이브 또는 이동식 매체 카트리지들을 포함할 수 있다. 특정 구현예들의 기능을 구현하는 모듈들은 파일 저장 서브시스템(326)에 의해 저장 서브시스템(324)에 또는 프로세서(들)(314)에 의해 액세스가능한 다른 기계에 저장될 수 있다.
버스 서브시스템(312)은 의도된 대로 컴퓨팅 디바이스(310)의 다양한 컴포넌트들 및 서브시스템들이 서로 통신하게 하기 위한 메커니즘을 제공한다. 버스 서브시스템(312)이 개략적으로 단일의 버스로 도시되었지만, 버스 서브시스템의 대안적 구현예들은 다수의 버스들을 사용할 수 있다.
컴퓨팅 디바이스(310)는 워크스테이션, 서버, 컴퓨팅 클러스터, 블레이드 서버, 서퍼팜 또는 임의의 기타 데이터 프로세싱 시스템 또는 컴퓨팅 디바이스를 포함하는 다양한 유형들일 수 있다. 컴퓨터 및 네트워크의 끊임없이 변화하는 특성으로 인해, 도 3에 도시된 컴퓨팅 디바이스(310)는 일부 구현예를 설명하기 위한 목적의 특정 예로서만 의도된다. 컴퓨팅 디바이스(310)의 많은 다른 구성이 도 3에 도시된 컴퓨팅 디바이스보다 많거나 적은 컴포넌트를 가질 수 있다.
본 명세서에서 논의된 시스템들이 사용자들(또는 "참여자들"로 종종 지칭됨)에 관한 개인 정보를 수집하거나 또는 개인 정보를 사용하는 경우들에 있어서, 사용자들에게 프로그램들 또는 구성들이 사용자 정보(예를 들면, 사용자의 소셜 네트워크, 소셜 액션들 또는 활동들, 직업, 사용자의 선호들 또는 사용자의 현재 지리적 위치)에 관한 정보를 수집할 것인지 여부를 제어할, 사용자와 더 관련된 콘텐츠 서버로부터의 콘텐츠를 수신할지 및/또는 어떻게 수신할지 제어할 기회가 제공될 수 있다. 추가로, 특정 데이터는 그것이 저장되거나 사용되기 전에 하나 이상의 다양한 방식들로 취급되어, 개인적으로 식별가능한 정보는 제거된다. 예를 들면, 사용자의 신원은 사용자에 관한 개인적으로 식별가능한 정보가 결정될 수 없도록 취급되거나 또는 사용자의 지리적 위치는 위치 정보가 획득된 곳에서 일반화되어(시, 우편번호 또는 주 수준으로), 사용자의 특정한 지리적 위치가 결정될 수 없도록 한다. 따라서, 사용자는 사용자에 관한 정보가 어떻게 수집되는지 그리고 사용되는지에 관한 제어를 가질 수 있다.
일부 구현예에서, 하나 이상의 프로세서들에 의해 구현되는 방법이 제공되고, 상기 방법은 자동화된 어시스턴트와의 인터렉션들의 클래스에 특정적이고 (i) 특정 사용자 및 (ii) 특정 어시스턴트 디바이스 중 하나 또는 둘 모두에 특정적인 클래스 능숙도 측정치를 생성하는 단계를 포함한다. 상기 클래스 능숙도 측정치를 생성하는 단계는 상기 클래스에 속하고 (i) 특정 사용자 및 (ii) 특정 어시스턴트 디바이스 중 하나 또는 둘 모두에 의해 개시되는 과거 어시스턴트 인터렉션들에 기초하여, 과거 어시스턴트 인터렉션들에 대한 데이터의 인스턴스들을 프로세싱하는 단계를 포함한다. 상기 방법은 또한 상기 클래스 능숙도 측정치가 임계치를 충족하는지 결정하는 단계를 더 포함한다. 상기 방법은 또한, 상기 클래스 능숙도 측정치가 임계치를 충족한다고 결정하는 것에 응답하여: (i) 특정 사용자 및 (ii) 특정 어시스턴트 디바이스 중 하나 또는 둘 모두에 대해, 상기 클래스에 특정적인 하나 이상의 기능들을 활성화하는 단계를 더 포함한다. 상기 하나 이상의 능력들은 활성화 전에 특정 사용자 및 특정 어시스턴트 디바이스에 대해 휴면 상태이다. 일부 구현예에서, 상기 클래스에 특정적인 하나 이상의 능력들은 인터렉션들의 클래스에 대한 특정 의도 및/또는 인터렉션들의 클래스에 대해 이미 활성화된 의도에 대한 특정 파라미터를 포함한다.
상기 기술의 이들 또는 다른 구현예들은 다음 구성들 중 하나 이상을 포함할 수 있다.
일부 구현예에서, 상기 방법은 상기 활성화에 응답하여, 또는 상기 활성화 이전에: 상기 특정 어시스턴트 디바이스에서 또는 특정 사용자와 연관된 추가 어시스턴트 디바이스에서 하나 이상의 능력들의 알림이 사전적으로 렌더링되게 하는 단계를 더 포함한다. 이러한 구현예의 일부 버전에서, 알림이 사전적으로 렌더링되게 하는 것은 상기 활성화 전에 발생한다. 이러한 버전 중 일부에서, 활성화는 렌더링되는 알림에 응답하는 긍정적인 사용자 인터페이스 입력을 수신하는 것에 응답하여 수행된다.
일부 구현예에서, 상기 활성화는 하나 이상의 컴퓨터 판독가능 매체에서, 상기 하나 이상의 능력들을 특정 사용자의 사용자 식별자, 특정 어시스턴트 디바이스의 디바이스 식별자 또는 특정 사용자와 특정 어시스턴트 디바이스의 조합된 식별자에 매핑하는 단계를 포함한다. 상기 구현예 중 일부에서, 상기 매핑은 하나 이상의 추가 모델들 또는 하나 이상의 확장된 문법이 상기 사용자 식별자, 상기 디바이스 식별자 또는 상기 결합된 식별자를 포함하는 어시스턴트 요청에서 활용되게 한다.
일부 구현예에서, 상기 클래스에 특정적인 상기 하나 이상의 능력들은 상기 인터렉션들의 클래스에 대한 특정 의도를 포함한다.
일부 구현예에서, 상기 클래스에 특정적인 상기 하나 이상의 능력들은 상기 인터렉션들의 클래스에 대해 이미 활성화된 의도에 대한 특정 파라미터를 포함한다.
일부 구현예에서, 상기 클래스에 속하고 (i) 특정 사용자 및 (ii) 특정 어시스턴트 디바이스 중 하나 또는 둘 모두에 의해 개시되는 과거 어시스턴트 인터렉션들에 기초하여, 과거 어시스턴트 인터렉션들에 대한 데이터의 인스턴스들을 프로세싱하는 단계는: 상기 클래스에 대한 개별 메트릭을 생성하기 위해 상기 데이터의 인스턴스들을 프로세싱하는 단계; 및 상기 개별 메트릭의 함수로서 상기 클래스 능숙도 측정치를 생성하는 단계를 포함한다. 상기 구현예 중 일부 버전에서, 상기 개별 메트릭의 함수로서 클래스 능숙도 측정치를 생성하는 단계는 출력을 생성하기 위해 트레이닝된 기계 학습 모델을 활용하여 상기 개별 메트릭을 프로세싱하는 단계 및 상기 출력에 기초하여 상기 클래스 능숙도 측정치를 결정하는 단계를 포함한다. 이러한 구현예의 일부 추가적 또는 대안적 버전에서, 클래스에 대한 개별 메트릭을 생성하기 위해 데이터의 인스턴스들을 프로세싱하는 단계는 다음 중 하나 이상을 포함한다. 주어진 기간 동안 데이터에 의해 표시된 과거 인터렉션들의 빈도수에 기초하여, 상기 개별 메트릭의 인터렉션들의 빈도 메트릭을 생성하는 단계; 성공적이었던 상기 데이터에 의해 표시된 성공적 과거 인터렉션들의 양과 상기 데이터에 의해 표시된 과거 인터렉션들의 총량 또는 성공적이지 않았던 상기 데이터에 의해 표시된 비성공적 과거 인터렉션들의 양의 비교에 기초하여 상기 개별 메트릭의 성공 비율 메트릭을 생성하는 단계; 상기 데이터에 의해 표시된 과거 인터렉션들의 지속시간에 기초한 특정 지속시간 측정치와 사용자들의 모집단으로부터 인터렉션들의 클래스의 다른 과거 인터렉션들의 지속시간에 기초한 모집단 기반 지속시간 측정치의 비교에 기초하여 상기 개별 메트릭의 효율성 메트릭을 생성하는 단계; 상기 자동화된 어시스턴트가 명확화를 위해 프롬프트해야 했던 상기 데이터에 의해 표시된 과거 인터렉션들의 명확화 수량에 기초하여 상기 개별 메트릭의 명확화 메트릭을 생성하는 단계; 상기 데이터에 의해 표시된 과거 인터렉션들에서 특정 의도 또는 특정 파라미터의 사용에 기초하는 특정 측정치와 사용자들의 모집단으로부터 상기 인터렉션들의 클래스의 다른 과거 인터렉션들에서 특정 의도 또는 특정 파라미터의 사용에 기초하는 모집단 기반 측정치의 비교에 기초하여 상기 개별 메트릭의 희소성 메트릭을 생성하는 단계; 또는 상기 데이터에 의해 표시된 사용자 명령의 폭에 기초하여 상기 개별 메트릭의 폭 메트릭을 생성하는 단계.
일부 구현예에서, 능숙도 측정치는 (i) 특정 사용자 및 (ii) 특정 어시스턴트 디바이스 둘 모두에 대해 특정적이다. 일부 구현예에서, 과거 어시스턴트 인터렉션들에 대한 데이터의 인스턴스들을 프로세싱하는 단계는 (i) 특정 사용자 및 (ii) 특정 어시스턴트 디바이스 둘 모두에 의해 개시되는 과거 어시스턴트 인터렉션들에 기초한다. 또한, 그러한 구현예에서, 상기 하나 이상의 능력들은 (i) 특정 사용자 및 (ii) 특정 어시스턴트 디바이스 둘 모두에 대해 활성화된다.
일부 구현예에서, 하나 이상의 프로세서들에 의해 구현되는 방법이 제공되고, 상기 방법은 자동화된 어시스턴트와의 인터렉션들의 복수의 이종 클래스들 각각에 대해, (i) 특정 사용자 및 (ii) 특정 어시스턴트 디바이스 중 하나 또는 둘 모두에 특정적인 연관된 클래스 능숙도 측정치를 생성하는 단계를 포함한다. 상기 연관된 클래스 능숙도 측정치 각각을 생성하는 단계는: 상기 인터렉션들의 이종 클래스들 중 대응하는 한 클래스에 대한 것이고 (i) 특정 사용자 및 (ii) 특정 어시스턴트 디바이스 중 하나 또는 둘 모두에 의해 개시되는 과거 어시스턴트 인터렉션들에 기초하여, 대응하는 과거 어시스턴트 인터렉션들에 대한 대응하는 데이터의 인스턴스들을 프로세싱하는 단계를 포함한다. 상기 방법은 또한 상기 연관된 클래스 능숙도 측정치들에 기초하여, 인터렉션들의 클래스들의 서브세트에 포함시키기 위해 인터렉션들의 이종 클래스들 중 하나 이상을 선택하는 단계를 더 포함한다. 상기 방법은 또한 하나 이상의 컴퓨터 판독가능 매체에, 상기 선택된 인터렉션들의 클래스들의 서브세트와 연관하여 (i) 특정 사용자 및 (ii) 특정 어시스턴트 디바이스 중 하나 또는 둘 모두를 할당하는 단계를 더 포함한다. 상기 방법은 상기 할당에 후속하여, 상기 특정 어시스턴트 디바이스의 하나 이상의 마이크를 통해 검출되고, 상기 특정 사용자의 발화를 캡처하는 오디오 데이터를 프로세싱하는 단계; 및 상기 프로세싱에 기초하여, 상기 음성 발화가 인터렉션들의 특정 클래스에 관한 것임을 결정하는 단계를 더 포함한다. 상기 방법은 또한, 상기 특정 사용자에 의해 제공되고 및/또는 상기 특정 클라이언트 디바이스의 마이크로폰을 통해 검출되는 상기 음성 발화에 기초하여, 상기 인터렉션들의 특정 클래스가 상기 선택된 인터렉션들의 클래스들의 서브세트에 포함되는지 여부를 결정하는 단계를 더 포함한다. 상기 방법은 상기 인터렉션들의 특정 클래스가 상기 선택된 인터렉션들의 클래스들의 서브세트에 포함되지 않는다고 결정되는 경우: 상기 음성 발화를 이행하기 전에 상기 특정 사용자에게 검증을 프롬프트하는 단계 및 상기 프롬프트에 대한 응답으로 긍정적인 사용자 인터페이스 입력이 수신되는 경우에만 상기 음성 발화를 이행하는 단계를 더 포함한다.
본 명세서에서 논의된 기술의 이들 또는 다른 구현예들은 다음 구성들 중 하나 이상을 포함할 수 있다.
일부 구현예에서, 상기 방법은 상기 선택에 응답하여, 상기 특정 어시스턴트 디바이스에서 또는 특정 사용자와 연관된 추가 어시스턴트 디바이스에서 알림이 사전적으로 렌더링되게 하는 단계를 더 포함한다. 알림은 선택된 인터렉션들의 특정 클래스 외부에 있는 어시스턴트 인터렉션들이 이행 전에 사용자로부터 추가 확인을 요구함을 나타낼 수 있다. 상기 구현예 중 일부에서, 상기 알림이 사전적으로 렌더링되게 하는 단계는 상기 할당 전에 발생하고, 상기 할당은 상기 알림이 렌더링되는 것에 응답하여 긍정적인 사용자 인터페이스 입력을 수신하는 것에 대한 응답이다.
일부 구현예에서, 상기 클래스에 속하고 (i) 특정 사용자 및 (ii) 특정 어시스턴트 디바이스 중 하나 또는 둘 모두에 의해 개시되는 과거 어시스턴트 인터렉션들에 기초하여, 과거 어시스턴트 인터렉션들에 대한 데이터의 인스턴스들을 프로세싱하는 단계는: 상기 클래스에 대한 개별 메트릭을 생성하기 위해 상기 데이터의 인스턴스들을 프로세싱하는 단계 및 상기 개별 메트릭의 함수로서 상기 클래스 능숙도 측정치를 생성하는 단계를 포함한다. 상기 구현예 중 일부에서, 클래스에 대한 개별 메트릭을 생성하기 위해 데이터의 인스턴스들을 프로세싱하는 단계는 다음 중 하나 이상을 포함한다. 성공적이었던 상기 데이터에 의해 표시된 성공적 과거 인터렉션들의 양과 상기 데이터에 의해 표시된 과거 인터렉션들의 총량 또는 성공적이지 않았던 상기 데이터에 의해 표시된 비성공적 과거 인터렉션들의 양의 비교에 기초하여 상기 개별 메트릭의 성공 비율 메트릭을 생성하는 단계; 상기 데이터에 의해 표시된 과거 인터렉션들의 지속시간에 기초한 특정 지속시간 측정치와 사용자들의 모집단으로부터 인터렉션들의 클래스의 다른 과거 인터렉션들의 지속시간에 기초한 모집단 기반 지속시간 측정치의 비교에 기초하여 상기 개별 메트릭의 효율성 메트릭을 생성하는 단계; 또는 상기 자동화된 어시스턴트가 명확화를 위해 프롬프트해야 했던 상기 데이터에 의해 표시된 과거 인터렉션들의 명확화 수량에 기초하여 상기 개별 메트릭의 명확화 메트릭을 생성하는 단계.
일부 구현예에서, 능숙도 측정치는 (i) 특정 사용자 및 (ii) 특정 어시스턴트 디바이스 둘 모두에 대해 특정적이다. 상기 구현예에서, 상기 선택된 인터렉션들의 클래스들의 서브세트와 연관하여 (i) 특정 사용자 및 (ii) 특정 어시스턴트 디바이스 중 하나 또는 둘 모두를 할당하는 것은 상기 선택된 인터렉션들의 클래스들의 서브세트와 연관하여 특정 사용자 및 특정 어시스턴트 디바이스 둘 모두를 할당하는 것이며, 그리고 상기 인터렉션들의 특정 클래스가 상기 선택된 인터렉션들의 클래스들의 서브세트에 포함되는지 여부를 결정하는 것은 상기 특정 사용자에 의해 제공되는 음성 발화가 상기 특정 클라이언트 디바이스의 마이크를 통해 검출되는 것에 기초한다.
일부 구현예에서, 하나 이상의 프로세서들에 의해 구현되는 방법이 제공되고, 상기 방법은 자동화된 어시스턴트와의 인터렉션들의 복수의 이종 클래스들 각각에 대해, 특정 어시스턴트 디바이스에 특정적인 연관된 클래스 능숙도 측정치를 생성하는 단계를 포함한다. 상기 연관된 클래스 능숙도 측정치 각각을 생성하는 단계는 상기 인터렉션들의 이종 클래스들 중 대응하는 한 클래스에 대한 것이고 특정 어시스턴트 디바이스에 의해 개시되는 과거 어시스턴트 인터렉션들에 기초하여, 대응하는 과거 어시스턴트 인터렉션들에 대한 대응하는 데이터의 인스턴스들을 프로세싱하는 단계를 포함한다. 상기 방법은 또한 연관된 클래스 능숙도 측정치들에 기초하여 인터렉션들의 클래스들의 서브세트에 포함시키기 위해 인터렉션들의 하나 이상의 이종 클래스들의 제1 세트를 선택하는 단계를 포함한다. 상기 방법은 또한, 상기 제1 세트 선택에 응답하여: (a) 상기 특정 어시스턴트 디바이스로 하여금, 특정 어시스턴트 디바이스의 온-디바이스 저장소로부터, 상기 제1 세트에 포함되지 않은 인터렉션들의 이종 클래스들 중 임의의 것에 특정적인 하나 이상의 기계 학습 모델 또는 문법을 제거하게 하는 것, 및 (b) 상기 특정 어시스턴트 디바이스로 하여금, 상기 온-디바이스 저장소에, 상기 서브세트에 포함된 인터렉션들의 하나 이상의 이종 클래스들 중 적어도 일부에 특정적인 하나 이상의 다른 기계 학습 모델 또는 다른 문법을 다운로드하고 저장하게 하는 것 중 하나 또는 둘 모두를 수행하는 단계를 포함한다.
일부 구현예에서, 하나 이상의 프로세서들에 의해 구현되는 방법이 제공되고, 상기 방법은 자동화된 어시스턴트와의 인터렉션들의 클래스에 특정적이고 (i) 특정 사용자 및 (ii) 특정 어시스턴트 디바이스 중 하나 또는 둘 모두에 특정적인 클래스 능숙도 측정치를 생성하는 단계를 포함한다. 상기 클래스 능숙도 측정치를 생성하는 단계는 상기 클래스에 대한 개별 메트릭을 생성하기 위해 과거 어시스턴트 인터렉션들에 대한 데이터의 인스턴스들을 프로세싱하는 단계를 포함한다. 상기 과거 어시스턴트 인터렉션들에 대한 데이터의 인스턴스들을 프로세싱하는 단계는 상기 클래스에 속하고 (i) 특정 사용자 및 (ii) 특정 어시스턴트 디바이스 중 하나 또는 둘 모두에 의해 개시되는 과거 어시스턴트 인터렉션들에 기초한다. 상기 방법은 또한 상기 개별 메트릭의 함수로서 상기 클래스 능숙도 측정치를 생성하는 단계를 포함한다. 상기 방법은 또한 하나 이상의 컴퓨터 판독가능 매체에, 상기 선택된 인터렉션들의 클래스들의 서브세트와 연관하여 (i) 특정 사용자 및 (ii) 특정 어시스턴트 디바이스 중 하나 또는 둘 모두를 할당하는 단계를 더 포함한다. 상기 방법은 상기 할당에 후속하여: 상기 특정 어시스턴트 디바이스의 하나 이상의 마이크를 통해 검출되고, 상기 특정 사용자의 발화를 캡처하는 오디오 데이터를 프로세싱하는 단계; 상기 프로세싱에 기초하여, 상기 음성 발화가 인터렉션들의 클래스에 관한 것임을 결정하는 단계; 상기 음성 발화가 인터렉션들의 클래스에 관한 것임에 대한 응답으로, 상기 음성 발화에 대해 보다 긴 응답 대신 짧은 응답을 제공하는 것, 및 상기 음성 발화에 포함된 요청을 이행하기 전에 확인 메시지 제공을 우회하는 것 중 하나 또는 둘 모두를 수행하는 단계를 포함한다.
추가로, 일부 구현예는 각각 하나 이상의 프로세서들 및 상기 하나 이상의 프로세서들과 동작가능하게 연결된 메모리를 포함하는 하나 이상의 어시스턴트 디바이스들을 포함하는 시스템을 포함하고, 상기 하나 이상의 어시스턴트 디바이스들의 상기 메모리(들)는 명령어들을 포함하며, 상기 명령어들은 상기 하나 이상의 어시스턴트 디바이스들의 하나 이상의 프로세서들에 의한 상기 명령어들의 실행에 응답하여, 상기 하나 이상의 프로세서들로 하여금 본 명세서에 기술된 방법들 중 임의의 것을 수행하게 한다. 일부 구현예는 명령어들을 포함하는 적어도 하나의 비일시적 컴퓨터 판독가능 매체를 포함하고, 상기 명령어들은 하나 이상의 프로세서에 의한 명령어들의 실행에 응답하여, 상기 하나 이상의 프로세서로 하여금 본 명세서에 기술된 방법 중 임의의 것을 수행하게 한다.

Claims (22)

  1. 하나 이상의 프로세서에 의해 수행되는 방법으로서,
    자동화된 어시스턴트와의 인터렉션들의 클래스에 특정적이고 (i) 특정 사용자 및 (ii) 특정 어시스턴트 디바이스 중 하나 또는 둘 모두에 특정적인 클래스 능숙도 측정치를 생성하는 단계, 상기 클래스 능숙도 측정치를 생성하는 단계는:
    상기 클래스에 속하고 (i) 특정 사용자 및 (ii) 특정 어시스턴트 디바이스 중 하나 또는 둘 모두에 의해 개시되는 과거 어시스턴트 인터렉션들에 기초하여, 과거 어시스턴트 인터렉션들에 대한 데이터의 인스턴스들을 프로세싱하는 단계를 포함하고;
    상기 클래스 능숙도 측정치가 임계치를 충족하는지 결정하는 단계;
    상기 클래스 능숙도 측정치가 임계치를 충족한다고 결정하는 것에 응답하여:
    (i) 특정 사용자 및 (ii) 특정 어시스턴트 디바이스 중 하나 또는 둘 모두에 대해, 상기 클래스에 특정적인 하나 이상의 능력들을 활성화하는 단계를 포함하며, 상기 하나 이상의 능력들은 활성화 전에 특정 사용자 및 특정 어시스턴트 디바이스에 대해 휴면 상태이고, 상기 클래스에 특정적인 하나 이상의 능력들은:
    상기 인터렉션들의 클래스에 대한 특정 의도, 및
    상기 인터렉션들의 클래스에 대해 이미 활성화된 의도에 대한 특정 파라미터 중 하나 또는 둘 모두를 포함하는, 방법.
  2. 청구항 1에 있어서, 상기 활성화에 응답하여, 또는 상기 활성화 이전에:
    상기 특정 어시스턴트 디바이스에서 또는 특정 사용자와 연관된 추가 어시스턴트 디바이스에서 하나 이상의 능력들의 알림이 사전적으로 렌더링되게 하는 단계를 더 포함하는, 방법.
  3. 청구항 2에 있어서, 상기 알림이 사전적으로 렌더링되게 하는 단계는 상기 활성화 전에 발생하고, 상기 활성화는 상기 알림이 렌더링되는 것에 응답하여 긍정적인 사용자 인터페이스 입력을 수신하는 것에 응답하는 것인, 방법.
  4. 임의의 선행하는 청구항에 있어서, 상기 활성화하는 단계는:
    하나 이상의 컴퓨터 판독가능 매체에서, 상기 하나 이상의 능력들을 특정 사용자의 사용자 식별자, 특정 어시스턴트 디바이스의 디바이스 식별자 또는 특정 사용자와 특정 어시스턴트 디바이스의 조합된 식별자에 매핑하는 단계를 포함하는, 방법.
  5. 청구항 4에 있어서, 상기 매핑은 하나 이상의 추가 모델들 또는 하나 이상의 확장된 문법이 상기 사용자 식별자, 상기 디바이스 식별자 또는 상기 결합된 식별자를 포함하는 어시스턴트 요청에서 활용되게 하는, 방법.
  6. 임의의 선행하는 청구항에 있어서, 상기 클래스에 특정적인 상기 하나 이상의 능력들은 상기 인터렉션들의 클래스에 대한 특정 의도를 포함하는, 방법.
  7. 임의의 선행하는 청구항에 있어서, 상기 클래스에 특정적인 상기 하나 이상의 능력들은 상기 인터렉션들의 클래스에 대해 이미 활성화된 의도에 대한 특정 파라미터를 포함하는, 방법.
  8. 임의의 선행하는 청구항에 있어서, 상기 클래스에 속하고 (i) 특정 사용자 및 (ii) 특정 어시스턴트 디바이스 중 하나 또는 둘 모두에 의해 개시되는 과거 어시스턴트 인터렉션들에 기초하여, 과거 어시스턴트 인터렉션들에 대한 데이터의 인스턴스들을 프로세싱하는 단계는:
    상기 클래스에 대한 개별 메트릭을 생성하기 위해 상기 데이터의 인스턴스들을 프로세싱하는 단계; 및
    상기 개별 메트릭의 함수로서 상기 클래스 능숙도 측정치를 생성하는 단계를 포함하는, 방법.
  9. 청구항 8에 있어서, 상기 개별 메트릭의 함수로서 클래스 능숙도 측정치를 생성하는 단계는 출력을 생성하기 위해 트레이닝된 기계 학습 모델을 활용하여 상기 개별 메트릭을 프로세싱하는 단계 및 상기 출력에 기초하여 상기 클래스 능숙도 측정치를 결정하는 단계를 포함하는, 방법.
  10. 청구항 8에 있어서, 상기 클래스에 대한 개별 메트릭을 생성하기 위해 상기 데이터의 인스턴스들을 프로세싱하는 단계는:
    주어진 기간 동안 데이터에 의해 표시된 과거 인터렉션들의 빈도수에 기초하여, 상기 개별 메트릭의 인터렉션들의 빈도 메트릭을 생성하는 단계;
    성공적이었던 상기 데이터에 의해 표시된 성공적 과거 인터렉션들의 양과 상기 데이터에 의해 표시된 과거 인터렉션들의 총량 또는 성공적이지 않았던 상기 데이터에 의해 표시된 비성공적 과거 인터렉션들의 양의 비교에 기초하여 상기 개별 메트릭의 성공 비율 메트릭을 생성하는 단계;
    상기 데이터에 의해 표시된 과거 인터렉션들의 지속시간에 기초한 특정 지속시간 측정치와 사용자들의 모집단으로부터 인터렉션들의 클래스의 다른 과거 인터렉션들의 지속시간에 기초한 모집단 기반 지속시간 측정치의 비교에 기초하여 상기 개별 메트릭의 효율성 메트릭을 생성하는 단계;
    상기 자동화된 어시스턴트가 명확화를 위해 프롬프트해야 했던 상기 데이터에 의해 표시된 과거 인터렉션들의 명확화 수량에 기초하여 상기 개별 메트릭의 명확화 메트릭을 생성하는 단계;
    상기 데이터에 의해 표시된 과거 인터렉션들에서 특정 의도 또는 특정 파라미터의 사용에 기초하는 특정 측정치와 사용자들의 모집단으로부터 상기 인터렉션들의 클래스의 다른 과거 인터렉션들에서 특정 의도 또는 특정 파라미터의 사용에 기초하는 모집단 기반 측정치의 비교에 기초하여 상기 개별 메트릭의 희소성 메트릭을 생성하는 단계; 또는
    상기 데이터에 의해 표시된 사용자 명령의 폭에 기초하여 상기 개별 메트릭의 폭 메트릭을 생성하는 단계 중 둘 이상을 포함하는, 방법.
  11. 임의의 선행하는 청구항에 있어서, 상기 능숙도 측정치는 (i) 특정 사용자 및 (ii) 특정 어시스턴트 디바이스 둘 모두에 특정적이며, 상기 과거 어시스턴트 인터렉션들에 대한 데이터의 인스턴스들을 프로세싱하는 단계는 (i) 특정 사용자 및 (ii) 특정 어시스턴트 디바이스 둘 모두에 의해 개시된 과거 어시스턴트 인터렉션들에 기초하며, 그리고 상기 하나 이상의 능력들은 (i) 특정 사용자 및 (ii) 특정 어시스턴트 디바이스 둘 모두에 대해 활성화되는, 방법.
  12. 하나 이상의 프로세서에 의해 수행되는 방법으로서,
    자동화된 어시스턴트와의 인터렉션들의 복수의 이종 클래스들 각각에 대해, (i) 특정 사용자 및 (ii) 특정 어시스턴트 디바이스 중 하나 또는 둘 모두에 특정적인 연관된 클래스 능숙도 측정치를 생성하는 단계, 상기 연관된 클래스 능숙도 측정치 각각을 생성하는 단계는:
    상기 인터렉션들의 이종 클래스들 중 대응하는 한 클래스에 대한 것이고 (i) 특정 사용자 및 (ii) 특정 어시스턴트 디바이스 중 하나 또는 둘 모두에 의해 개시되는 과거 어시스턴트 인터렉션들에 기초하여, 대응하는 과거 어시스턴트 인터렉션들에 대한 대응하는 데이터의 인스턴스들을 프로세싱하는 단계를 포함하며;
    상기 연관된 클래스 능숙도 측정치들에 기초하여, 인터렉션들의 클래스들의 서브세트에 포함시키기 위해 인터렉션들의 이종 클래스들 중 하나 이상을 선택하는 단계;
    하나 이상의 컴퓨터 판독가능 매체에, 상기 선택된 인터렉션들의 클래스들의 서브세트와 연관하여 (i) 특정 사용자 및 (ii) 특정 어시스턴트 디바이스 중 하나 또는 둘 모두를 할당하는 단계;
    상기 할당에 후속하여:
    상기 특정 어시스턴트 디바이스의 하나 이상의 마이크를 통해 검출되고, 상기 특정 사용자의 발화를 캡처하는 오디오 데이터를 프로세싱하는 단계;
    상기 프로세싱에 기초하여, 상기 음성 발화가 인터렉션들의 특정 클래스에 관한 것임을 결정하는 단계;
    상기 특정 사용자에 의해 제공되고 및/또는 상기 특정 클라이언트 디바이스의 마이크로폰을 통해 검출되는 상기 음성 발화에 기초하여, 상기 인터렉션들의 특정 클래스가 상기 선택된 인터렉션들의 클래스들의 서브세트에 포함되는지 여부를 결정하는 단계;
    상기 인터렉션들의 특정 클래스가 상기 선택된 인터렉션들의 클래스들의 서브세트에 포함되지 않는다고 결정되는 경우:
    상기 음성 발화를 이행하기 전에 상기 특정 사용자에게 검증을 프롬프트하는 단계; 및
    상기 프롬프트에 대한 응답으로 긍정적인 사용자 인터페이스 입력이 수신되는 경우에만 상기 음성 발화를 이행하는 단계를 포함하는, 방법.
  13. 청구항 12에 있어서, 상기 선택하는 단계에 응답하여:
    알림이 특정 어시스턴트 디바이스 또는 특정 사용자와 연관된 추가 어시스턴트 디바이스에서 사전적으로 렌더링되게 하는 단계를 더 포함하며, 상기 알림은 상기 선택된 인터렉션들의 특정 클래스 외부에 있는 어시스턴트 인터렉션들이 이행 전에 사용자로부터 추가 확인을 필요로 함을 표시하는, 방법.
  14. 청구항 13에 있어서, 상기 알림이 사전적으로 렌더링되게 하는 단계는 상기 할당 전에 발생하고, 상기 할당은 상기 알림이 렌더링되는 것에 응답하여 긍정적인 사용자 인터페이스 입력을 수신하는 것에 응답하는 것인, 방법.
  15. 청구항 12 내지 14 중 어느 한 항에 있어서, 상기 클래스에 속하고 (i) 특정 사용자 및 (ii) 특정 어시스턴트 디바이스 중 하나 또는 둘 모두에 의해 개시되는 과거 어시스턴트 인터렉션들에 기초하여, 과거 어시스턴트 인터렉션들에 대한 데이터의 인스턴스들을 프로세싱하는 단계는:
    상기 클래스에 대한 개별 메트릭을 생성하기 위해 상기 데이터의 인스턴스들을 프로세싱하는 단계; 및
    상기 개별 메트릭의 함수로서 상기 클래스 능숙도 측정치를 생성하는 단계를 포함하는, 방법.
  16. 청구항 15에 있어서, 상기 클래스에 대한 개별 메트릭을 생성하기 위해 상기 데이터의 인스턴스들을 프로세싱하는 단계는:
    성공적이었던 상기 데이터에 의해 표시된 성공적 과거 인터렉션들의 양과 상기 데이터에 의해 표시된 과거 인터렉션들의 총량 또는 성공적이지 않았던 상기 데이터에 의해 표시된 비성공적 과거 인터렉션들의 양의 비교에 기초하여 상기 개별 메트릭의 성공 비율 메트릭을 생성하는 단계;
    상기 데이터에 의해 표시된 과거 인터렉션들의 지속시간에 기초한 특정 지속시간 측정치와 사용자들의 모집단으로부터 인터렉션들의 클래스의 다른 과거 인터렉션들의 지속시간에 기초한 모집단 기반 지속시간 측정치의 비교에 기초하여 상기 개별 메트릭의 효율성 메트릭을 생성하는 단계; 또는
    상기 자동화된 어시스턴트가 명확화를 위해 프롬프트해야 했던 상기 데이터에 의해 표시된 과거 인터렉션들의 명확화 수량에 기초하여 상기 개별 메트릭의 명확화 메트릭을 생성하는 단계를 포함하는, 방법.
  17. 청구항 12 내지 16 중 어느 한 항에 있어서,
    상기 능숙도 측정치는 (i) 특정 사용자 및 (ii) 특정 어시스턴트 디바이스 둘 모두에 대해 특정적이고,
    상기 선택된 인터렉션들의 클래스들의 서브세트와 연관하여 (i) 특정 사용자 및 (ii) 특정 어시스턴트 디바이스 중 하나 또는 둘 모두를 할당하는 것은 상기 선택된 인터렉션들의 클래스들의 서브세트와 연관하여 특정 사용자 및 특정 어시스턴트 디바이스 둘 모두를 할당하는 것이며, 그리고
    상기 인터렉션들의 특정 클래스가 상기 선택된 인터렉션들의 클래스들의 서브세트에 포함되는지 여부를 결정하는 것은 상기 특정 사용자에 의해 제공되는 음성 발화가 상기 특정 클라이언트 디바이스의 마이크를 통해 검출되는 것에 기초하는, 방법.
  18. 하나 이상의 프로세서에 의해 수행되는 방법으로서,
    자동화된 어시스턴트와의 인터렉션들의 복수의 이종 클래스들 각각에 대해, 특정 어시스턴트 디바이스에 특정적인 연관된 클래스 능숙도 측정치를 생성하는 단계, 상기 연관된 클래스 능숙도 측정치 각각을 생성하는 단계는:
    상기 인터렉션들의 이종 클래스들 중 대응하는 한 클래스에 대한 것이고 특정 어시스턴트 디바이스에 의해 개시되는 과거 어시스턴트 인터렉션들에 기초하여, 대응하는 과거 어시스턴트 인터렉션들에 대한 대응하는 데이터의 인스턴스들을 프로세싱하는 단계를 포함하며;
    연관된 클래스 능숙도 측정치들에 기초하여 인터렉션들의 클래스들의 서브세트에 포함시키기 위해 인터렉션들의 하나 이상의 이종 클래스들의 제1 세트를 선택하는 단계;
    상기 제1 세트 선택에 응답하여:
    상기 특정 어시스턴트 디바이스로 하여금, 특정 어시스턴트 디바이스의 온-디바이스 저장소로부터, 상기 제1 세트에 포함되지 않은 인터렉션들의 이종 클래스들 중 임의의 것에 특정적인 하나 이상의 기계 학습 모델 또는 문법을 제거하게 하는 것, 및
    상기 특정 어시스턴트 디바이스로 하여금, 상기 온-디바이스 저장소에, 상기 서브세트에 포함된 인터렉션들의 하나 이상의 이종 클래스들 중 적어도 일부에 특정적인 하나 이상의 다른 기계 학습 모델 또는 다른 문법을 다운로드하고 저장하게 하는 것 중 하나 또는 둘 모두를 수행하는 단계를 포함하는, 방법.
  19. 하나 이상의 프로세서에 의해 수행되는 방법으로서,
    자동화된 어시스턴트와의 인터렉션들의 클래스에 특정적이고 (i) 특정 사용자 및 (ii) 특정 어시스턴트 디바이스 중 하나 또는 둘 모두에 특정적인 클래스 능숙도 측정치를 생성하는 단계, 상기 클래스 능숙도 측정치를 생성하는 단계는:
    상기 클래스에 대한 개별 메트릭을 생성하기 위해 과거 어시스턴트 인터렉션들에 대한 데이터의 인스턴스들을 프로세싱하는 단계, 상기 과거 어시스턴트 인터렉션들에 대한 데이터의 인스턴스들을 프로세싱하는 단계는 상기 클래스에 속하고 (i) 특정 사용자 및 (ii) 특정 어시스턴트 디바이스 중 하나 또는 둘 모두에 의해 개시되는 과거 어시스턴트 인터렉션들에 기초하며, 그리고
    상기 개별 메트릭의 함수로서 상기 클래스 능숙도 측정치를 생성하는 단계를 포함하며;
    하나 이상의 컴퓨터 판독가능 매체에, 상기 선택된 인터렉션들의 클래스들의 서브세트와 연관하여 (i) 특정 사용자 및 (ii) 특정 어시스턴트 디바이스 중 하나 또는 둘 모두를 할당하는 단계;
    상기 할당에 후속하여:
    상기 특정 어시스턴트 디바이스의 하나 이상의 마이크를 통해 검출되고, 상기 특정 사용자의 발화를 캡처하는 오디오 데이터를 프로세싱하는 단계;
    상기 프로세싱에 기초하여, 상기 음성 발화가 인터렉션들의 클래스에 관한 것임을 결정하는 단계;
    상기 음성 발화가 인터렉션들의 클래스에 관한 것임에 대한 응답으로,
    상기 음성 발화에 대해 보다 긴 응답 대신 짧은 응답을 제공하는 것, 및
    상기 음성 발화에 포함된 요청을 이행하기 전에 확인 메시지 제공을 우회하는 것 중 하나 또는 둘 모두를 수행하는 단계를 포함하는, 방법.
  20. 명령어를 포함하는 컴퓨터 프로그램 물로서, 상기 명령어는 하나 이상의 프로세서에 의해 실행될 때, 상기 하나 이상의 프로세서로 하여금 선행하는 청구항 중 어느 한 항의 방법을 수행하게 하는 컴퓨터 판독가능 매체.
  21. 명령어를 포함하는 컴퓨터 판독가능 저장 매체로서, 상기 명령어는 하나 이상의 프로세서에 의해 실행될 때, 상기 하나 이상의 프로세서로 하여금 청구항 1 내지 19 중 어느 한 항의 방법을 수행하게 하는, 컴퓨터 판독가능 저장 매체.
  22. 청구항 1 내지 19 중 어느 한 항의 방법을 수행하기 위한 하나 이상의 프로세서들을 포함하는, 클라이언트 디바이스.
KR1020237002662A 2020-10-23 2020-12-15 생성된 능숙도 측정치에 기초하여 자동화된 어시스턴트 기능 조정 KR20230025907A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US17/078,779 2020-10-23
US17/078,779 US11935527B2 (en) 2020-10-23 2020-10-23 Adapting automated assistant functionality based on generated proficiency measure(s)
PCT/US2020/064986 WO2022086576A1 (en) 2020-10-23 2020-12-15 Adapting automated assistant functionality based on generated proficiency measure(s)

Publications (1)

Publication Number Publication Date
KR20230025907A true KR20230025907A (ko) 2023-02-23

Family

ID=74003963

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020237002662A KR20230025907A (ko) 2020-10-23 2020-12-15 생성된 능숙도 측정치에 기초하여 자동화된 어시스턴트 기능 조정

Country Status (5)

Country Link
US (1) US11935527B2 (ko)
EP (1) EP4127896A1 (ko)
KR (1) KR20230025907A (ko)
CN (1) CN115605841A (ko)
WO (1) WO2022086576A1 (ko)

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10055681B2 (en) * 2013-10-31 2018-08-21 Verint Americas Inc. Mapping actions and objects to tasks
US9823811B2 (en) 2013-12-31 2017-11-21 Next It Corporation Virtual assistant team identification
US20160092160A1 (en) 2014-09-26 2016-03-31 Intel Corporation User adaptive interfaces
JP6129134B2 (ja) 2014-09-29 2017-05-17 シャープ株式会社 音声対話装置、音声対話システム、端末、音声対話方法およびコンピュータを音声対話装置として機能させるためのプログラム
KR101751113B1 (ko) 2015-06-15 2017-06-27 포항공과대학교 산학협력단 기억 능력을 이용하는 다중 사용자 기반의 대화 관리 방법 및 이를 수행하는 장치
WO2017112813A1 (en) 2015-12-22 2017-06-29 Sri International Multi-lingual virtual personal assistant
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US10332513B1 (en) 2016-06-27 2019-06-25 Amazon Technologies, Inc. Voice enablement and disablement of speech processing functionality
US20180032884A1 (en) 2016-07-27 2018-02-01 Wipro Limited Method and system for dynamically generating adaptive response to user interactions
DK201770439A1 (en) * 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
CN113557566B (zh) 2019-03-01 2024-04-12 谷歌有限责任公司 动态地适配助理响应
US11482217B2 (en) * 2019-05-06 2022-10-25 Google Llc Selectively activating on-device speech recognition, and using recognized text in selectively activating on-device NLU and/or on-device fulfillment
DK180649B1 (en) * 2019-05-31 2021-11-11 Apple Inc Voice assistant discoverability through on-device targeting and personalization

Also Published As

Publication number Publication date
WO2022086576A1 (en) 2022-04-28
EP4127896A1 (en) 2023-02-08
CN115605841A (zh) 2023-01-13
US20220130379A1 (en) 2022-04-28
US11935527B2 (en) 2024-03-19

Similar Documents

Publication Publication Date Title
JP7386878B2 (ja) アシスタントの応答を動的に適応させること
CN111052229B (zh) 自动地确定用于经由自动化助理接口接收的口头话语的语音辨识的语言
EP3767622B1 (en) Automatically determining language for speech recognition of spoken utterance received via an automated assistant interface
KR20220088926A (ko) 온-디바이스 기계 학습 모델 트레이닝을 위한 자동화된 어시스턴트 기능의 수정 사용
US20230377580A1 (en) Dynamically adapting on-device models, of grouped assistant devices, for cooperative processing of assistant requests
KR20230110788A (ko) 어시스턴트 명령의 수동적 명확화
JP2022539674A (ja) 特定話者スピーチモデルを使用した話者認識
US20240046935A1 (en) Generating and/or utilizing voice authentication biasing parameters for assistant devices
US20240078083A1 (en) Voice-controlled entry of content into graphical user interfaces
KR20230070523A (ko) 텍스트 종속 화자 검증 피처들의 자동 생성 및/또는 사용
KR20230025907A (ko) 생성된 능숙도 측정치에 기초하여 자동화된 어시스턴트 기능 조정
US20240087564A1 (en) Restricting third party application access to audio data content
US20230178083A1 (en) Automatically adapting audio data based assistant processing
US20230402034A1 (en) Correcting speech recognition errors by considering prior user edits and/or assessing fulfillment data
KR20230153450A (ko) 자동 스피치 인식의 로컬 실행을 위한 디바이스 중재
KR20230164736A (ko) 세컨더리 디지털 어시스턴트에 제공하기 위한 쿼리 컨텐츠 선택적 마스킹