KR102337820B1

KR102337820B1 - 사용자 프로그래머블 자동화 어시스턴트

Info

Publication number: KR102337820B1
Application number: KR1020197036462A
Authority: KR
Inventors: 미하이 다닐라; 알브리 스미서
Original assignee: 구글 엘엘씨
Priority date: 2017-10-03
Filing date: 2018-10-02
Publication date: 2021-12-09
Also published as: JP2020535452A; KR20210150622A; US10431219B2; JP7498149B2; CN110785763B; KR20200006566A; US11887595B2; EP4350569A1; US11276400B2; JP2021144228A; KR20220103187A; KR102424261B1; US20220130387A1; JP6888125B2; EP3692455A1; WO2019070684A1; US20190103101A1; US20190378510A1; KR102625761B1; CN112801626A

Abstract

본원에 설명되는 기술들은 사용자가 음성 기반의 인간 대 컴퓨터 다이얼로그(voice-based human-to-computer dialog)를 이용하여, 자동화 어시스턴트를 커스텀화된 루틴 또는 "다이얼로그 루틴"으로 프로그래밍할 수 있게 하는 것과 관련되며, 이들 루틴은 나중에 태스크(들)를 수행하도록 호출될 수 있다. 다양한 구현예들에서, 태스크에 매핑될 커맨드 및 상기 태스크를 수행하기 위해 값들로 채워질 필요가 있는 슬롯(들)을 식별하는 제 1 자유 형식 자연 언어 입력이 사용자로부터 수신될 수 있다. 상기 커맨드와 상기 태스크 사이의 매핑을 포함하고 상기 슬롯(들)을 채우기 위해 값(들)을 입력으로 받아들이는 다이얼로그 루틴을 포함하는 다이얼로그 루틴이 저장될 수 있다. 후속하는 자유 형식 자연 언어 입력은 (i) 상기 매핑에 기초하여 상기 다이얼로그 루틴을 호출하고 및/또는 (ii) 슬롯(들)을 채우기 위해 값(들)을 식별하도록 사용자로부터 수신될 수 있다. 적어도 상기 값(들)을 나타내는 데이터는 태스크의 실행을 위해 원격 컴퓨팅 디바이스에 전송될 수 있다.

Description

사용자 프로그래머블 자동화 어시스턴트

인간은 본원에서 "자동화 어시스턴트(automated assistants)"(이는 또한 "챗봇", "인터랙티브 퍼스널 어시스턴트", "지능형 퍼스널 어시스턴트", "퍼스널 음성 어시스턴트", "대화형 에이전트", 등으로 지칭되기도 함)로 지칭되는 인터랙티브 소프트웨어 애플리케이션과의 인간 대 컴퓨터 다이얼로그(human-to-computer dialogs)에 참여할 수 있다. 예를 들어, 인간(이는 자동화 어시스턴트와 상호 작용할 때 "사용자"로 지칭될 수 있음)은 자유 형식 자연 언어 입력을 사용하여 커맨드, 질의, 및/또는 요청(이들은 집합적으로 "질의"라고 지칭됨)을 제공할 수 있으며, 이러한 자유 형식 자연 언어 입력은 보컬 발언(vocal utterances)을 텍스트로 변환한 다음 자유 형식 자연 언어 입력으로 처리 및/또는 타이핑하는 것을 포함할 수 있다.

전형적으로, 자동화 어시스턴트는, 예를 들어, 태스크들이 매핑되는 다양한 미리 결정된 표준 커맨드들(variety of predetermined canonical commands)에 응답하여, 다양한 태스크들을 수행하도록 구성된다. 이러한 태스크들은 아이템 주문(예를 들어, 음식, 제품, 서비스 등의 주문), 미디어 재생(예를 들어, 음악, 비디오의 재생), 쇼핑 리스트 수정, 홈 제어 수행(예를 들어, 온도 조절기(thermostat) 제어, 하나 이상의 조명 제어, 등), 질문에 대한 답변, 티켓 예약, 등과 같은 것을 포함할 수 있다. 자연 언어 분석 및 시멘틱 프로세싱을 통해 사용자는 표준 커맨드들에 대한 약간의 변형을 발행할 수 있지만, 이러한 변형은 자연 언어 분석 및 시멘틱 프로세싱이 어떠한 태스크를 수행할지를 결정할 수 없게 되기 전까지는 표류만 할 수 있을 뿐이다. 간단히 말해서, 자연 언어와 시멘틱 분석의 많은 발전에도 불구하고, 태스크 지향 다이얼로그 관리(task-oriented dialog management)는 상대적으로 엄격하게 유지된다. 또한, 사용자는 종종 표준 커맨드들을 인식하지 못하거나 잊어 버려서, 자동화 어시턴트를 호출하지 못하여 수행할 수 있는 많은 태스크를 수행하지 못할 수 있다. 또한 새로운 태스크를 추가하려면, 제3자 개발자는 새로운 표준 커맨드들을 추가해야 하며, 일반적으로 자동화 어시스턴트가 표준 커맨드들의 수용 가능한 변형을 학습할 시간과 리소스를 필요로 한다.

본원에 설명되는 기술들은 사용자가 음성 기반의 인간 대 컴퓨터 다이얼로그(voice-based human-to-computer dialog)를 이용하여, 자동화 어시스턴트를 커스텀화된 루틴 또는 "다이얼로그 루틴(dialog routines)"으로 프로그래밍할 수 있게 하며, 이들 루틴은 나중에 태스크를 수행하도록 호출될 수 있다. 일부 구현예들에서, 사용자는 태스크를 수행하기 위한 커맨드를 포함하는 자유 형식 자연 언어 입력을 제공함으로써 자동화 어시스턴트가 새로운 다이얼로그 루틴을 학습하게 할 수 있다. 자동화 어시스턴트가 커맨드를 해석할 수 없는 경우, 자동화 어시스턴트는 사용자에게 그 커맨드에 대한 설명을 요구할 수 있다. 예를 들어, 일부 구현예들에서, 자동화 어시스턴트는 사용자에게 태스크를 수행하기 위해 값들로 채워질 필요가 있는 하나 이상의 슬롯들을 식별하도록 프롬프트할 수 있다. 다른 구현예들에서, 사용자는 자동화 어시스턴트로부터의 프롬프트없이 슬롯들을 사전에 식별할 수 있다. 일부 구현예들에서, 사용자는, 예를 들어, 자동화 어시스턴트의 요청에 따라 또는 사전에, 하나 이상의 슬롯들을 채우기 위해 가능한 값들의 열거된 리스트를 제공할 수 있다. 자동화 어시스턴트는 그 후, 커맨드와 태스크 사이의 매핑을 포함하고 하나 이상의 슬롯을 채우기 위해 하나 이상의 값들을 입력으로 받아들이는 다이얼로그 루틴을 저장할 수 있다. 사용자는 나중에 커맨드 또는 그의 일부의 구문적(syntactic)/의미적(semantic) 변형을 포함하는 자유 형식 자연 언어 입력을 사용하여 다이얼로그 루틴을 호출할 수 있다.

자동화 어시스턴트는, 다이얼로그 루틴이 호출되고 다이얼로그 루틴의 슬롯들이 사용자에 의해 값들로 채워지면, 다양한 조치들을 취할 수 있다. 일부 구현예들에서, 자동화 어시스턴트는 적어도 사용자 제공 슬롯들을 나타내는 데이터, 슬롯들 자체, 및/또는 커맨드/태스크를 나타내는 데이터를 원격 컴퓨팅 시스템에 전송할 수 있다. 일부 경우에, 이 전송은 원격 컴퓨팅 시스템이 자연 언어 출력 또는 값들/슬롯들/커맨드/태스크를 나타내는 다른 데이터를, 예를 들어, 다른 사람에게 출력하게 할 수 있다. 이 자연 언어 출력은 (요청을 처리하기 위해 다른 사람이 자체 제3자 소프트웨어 에이전트를 설치하거나 구성할 것을 요구하지 않아도 되는) 다양한 방식으로, 예를 들어, 이메일, 텍스트 메시지, 자동화 전화 호출, 등을 통해, 다른 사람에게 제공될 수 있다. 그 후 다른 사람은 태스크를 수행할 수 있다.

추가적으로 또는 대안적으로, 일부 구현예들에서, 슬롯들, 잠재적 슬롯 값들, 커맨드 등과 같은 다이얼로그 루틴의 다양한 양태들은 (예를 들어, 사용자가 표준 커맨드를 알지 못한) 복수의 공지된 후보 태스크들의 유사한 컴포넌트들과 비교될 수 있다. 최상의 매칭 후보 태스크와 사용자의 커맨드 간의 매핑이 생성될 수 있으며, 그에 따라 사용자에 의한 자동화 어시스턴트에 대한 커맨드(또는 그의 구문적 및/또는 의미적 변형)의 향후 사용은 다이얼로그 루틴 및 궁극적으로 최상의 매칭 후보 태스크를 호출하게 될 것이다. 여러 후보 태스크들이 다이얼로그 루틴과 동일하게 매칭되면, 사용자에게는 하나의 태스크를 선택하라는 것이 프롬프트될 수 있거나, 동점을 해제하는 데 사용자의 상황, 사전 애플리케이션 사용, 등과 같은 다른 신호들이 사용될 수 있다.

사용자가 다음의 다이얼로그에서 자동화 어시스턴트에 참여한다고 가정한다:

사용자: "나는 피자를 원해"

AA: "나는 피자를 어떻게 주문하는지를 모른다"

사용자: "피자를 주문하려면, 너는 크러스트 및 토핑의 타입을 알아야 한다"

AA: "가능한 피자 크러스트의 타입은 무엇이지?"

사용자: "얇은 크러스트 또는 두꺼운 크러스트"

AA: "가능한 토핑은 무엇이지?"

사용자: "가능한 값들이 여기 있다"

AA: "좋아, 피자를 주문할 준비가 되었니?"

사용자: "그럼, 토마토 토핑이 있는 얇은 크러스트 피자를 나에게 줘"

이 시나리오의 커맨드는 "나는 피자를 원해"이고 태스크는 피자를 주문하는 것이다. 태스크를 수행하기 위해 채워야 하는 사용자 정의 슬롯들은 크러스트의 타입과 토핑 리스트를 포함한다.

일부 구현예들에서, 피자를 주문하는 태스크는, 예를 들어, 이메일, 텍스트 메시지, 자동화 전화 통화, 등을 통해, (사용자가 지정할 수 있는 또는 거리, 등급, 가격, 공지된 사용자 선호도, 등에 기초하여 자동으로 선택될 수 있는) 피자 가게에 자연 언어 출력을 제공함으로써 달성될 수 있다. 피자 가게의 직원은 하나 이상의 컴퓨팅 디바이스들(예를 들어, 그 가게의 컴퓨터 단말기, 직원의 전화, 그 가게의 스피커 등)의 출력을 통해, 자연 언어 출력을 수신할 수 있으며, 이 출력은 " <User>가 <topping 1, topping 2, ...>를 갖는 <crust_style> 피자를 주문하고자 해"와 같은 무언가를 언급할 수 있다.

일부 구현예들에서, 피자 가게 직원은, 예를 들어, "1"을 누르거나 "OK", "나는 동의함", 등을 말함으로써 사용자의 요청을 확인하도록 요청받을 수 있다. 일단 그 확인이 수신되면, 일부 구현예들에서, 요청하는 사용자의 자동화 어시스턴트는 "당신의 피자는 주문중에 있다"와 같은 확인 출력을 제공하거나 제공하지 않을 수도 있다. 일부 구현들에서, 피자 가게에서 제공되는 자연 언어 출력은 또한 지불 정보, 사용자의 주소 등과 같은 다른 정보를 전달할 수 있다. 이러한 다른 정보는 다이얼로그 루틴을 생성하는 동안 요청하는 사용자로부터 획득될 수 있거나, 또는, 예를 들어, 사용자의 프로파일에 기초하여 자동으로 결정될 수 있다.

커맨드가 미리 결정된 제3자 소프트웨어 에이전트(예를 들어, 특정 피자 가게를 위한 제3자 소프트웨어 에이전트)에 매핑되는 다른 구현예들에서, 피자를 주문하는 태스크는 제3자 소프트웨어 에이전트를 통해 자동으로 달성될 수 있다. 예를 들어, 슬롯들/값들을 나타내는 정보는 다양한 형식으로 제3자 소프트웨어 에이전트에 제공될 수 있다. 모든 필요한 슬롯들이 적절한 값들로 채워져 있다고 가정하면, 제3자 소프트웨어 에이전트는 사용자를 위해 피자를 주문하는 태스크를 수행할 수 있다. 제3자 소프트웨어 에이전트가 우연히 추가 정보(예를 들어, 추가 슬롯 값들)를 요구하는 경우, 자동화 어시스턴트와 인터페이스하여 자동화 어시스턴트가 사용자에게 요청된 추가 정보를 프롬프트하게 할 수 있다.

본원에 설명되는 기술들은 다양한 기술적 장점들을 야기할 수 있다. 위에서 언급했듯이, 태스크 기반 다이얼로그 관리는 현재 대부분 미리 정의된 태스크들에 수작업으로 생성 및 매핑되는 표준 커맨드들을 사용하여 처리된다. 이는 제3자 개발자가 이러한 매핑들을 생성하고 이를 사용자에게 통지할 것을 요구하므로 그 확장성이 제한적이다. 마찬가지로, 그것은 사용자가 표준 커맨드들을 학습하고 그 커맨드들을 나중에 사용하기 위해 기억할 것을 요구하고 있다. 이러한 이유로, 신체 장애가 있는 사용자 및/또는 다른 태스크(예를 들어, 운전)에 종사하는 사용자와 같이 태스크를 수행하기 위한 입력을 제공하는 능력이 제한적인 사용자는 태스크를 수행하는 자동화 어시스턴트에 문제가 유발되게 할 수 있다. 또한, 사용자가 해석할 수 없는 커맨드를 가진 태스크를 호출하려고 할 때, 사용자의 요청을 명확하게 하거나 이와는 달리 설명을 구하기 위해 추가의 컴퓨팅 리소스들이 필요하다. 사용자로 하여금 커스텀 커맨드들(custom commands)을 사용하여 호출되는 고유의 다이얼로그 루틴을 생성하게 함으로써, 사용자는 그 커맨드들을 기억할 가능성이 매우 높고/높거나 자동화 어시스턴트를 통해 태스크들을 성공적으로 및/또는 보다 빨리 수행할 수 있다. 이를 통해 앞서 언급한 명확성/설명에 필요할 수도 있는 컴퓨팅 리소스들을 보존할 수 있다. 또한, 일부 구현예들에서, 사용자 생성 다이얼로그 루틴(user-created dialog routines)은 다른 사용자들과 공유될 수 있어서, 자동화 어시스턴트들은 다른 사용자들에 의해 사용될 수도 있는 개별 사용자들의 "롱 테일(long tail)" 커맨드들에 보다 신속하게 응답할 수 있다.

일부 구현예들에서, 하나 이상의 프로세서에 의해 수행되는 방법이 제공되며, 이 방법은: 컴퓨팅 디바이스의 하나 이상의 입력 컴포넌트에서, 사용자로부터 제 1 자유 형식 자연 언어 입력을 수신하는 단계 - 상기 제 1 자유 형식 자연 언어 입력은 태스크를 수행하기 위한 커맨드를 포함함 - ; 상기 제 1 자유 형식 자연 언어 입력에 대해 시멘틱 프로세싱을 수행하는 단계; 상기 시멘틱 프로세싱에 기초하여, 자동화 어시스턴트가 상기 커맨드를 해석할 수 없음을 결정하는 단계; 상기 컴퓨팅 디바이스의 하나 이상의 출력 컴포넌트에서, 상기 커맨드에 대해 상기 사용자로부터의 설명을 요구하는 출력을 제공하는 단계; 상기 하나 이상의 입력 컴포넌트에서, 상기 사용자로부터 제 2 자유 형식 자연 언어 입력을 수신하는 단계 - 상기 제 2 자유 형식 자연 언어 입력은 상기 태스크를 수행하기 위해 값들로 채워질 필요가 있는 하나 이상의 슬롯을 식별함 - ; 상기 커맨드와 상기 태스크 간의 매핑을 포함하고 상기 하나 이상의 슬롯을 채우기 위해 하나 이상의 값을 입력으로 받아들이는 다이얼로그 루틴을 저장하는 단계; 상기 하나 이상의 입력 컴포넌트에서, 상기 사용자로부터 제 3 자유 형식 자연 언어 입력을 수신하는 단계 - 상기 제 3 자유 형식 자연 언어 입력은 상기 매핑에 기초하여 상기 다이얼로그 루틴을 호출함 - ; 상기 제 3 자유 형식 자연 언어 입력 또는 추가의 자유 형식 자연 언어 입력에 기초하여, 상기 태스크를 수행하기 위해 값들로 채워질 필요가 있는 상기 하나 이상의 슬롯을 채우는 데 사용될 하나 이상의 값을 식별하는 단계; 및 상기 하나 이상의 슬롯을 채우는 데 사용될 적어도 상기 하나 이상의 값을 나타내는 데이터를 원격 컴퓨팅 디바이스에 전송하는 단계를 포함하며, 상기 전송은 상기 원격 컴퓨팅 디바이스로 하여금 상기 태스크를 수행하게 한다.

본원에 개시된 기술의 이러한 구현예들 및 다른 구현예들은 다음의 특징들 중 하나 이상을 선택적으로 포함할 수 있다.

다양한 구현예들에서, 이 방법은 다이얼로그 루틴을 자동화 어시스턴트에 의해 수행될 수 있는 복수의 후보 태스크들과 비교하는 단계; 및 상기 비교에 기초하여, 커맨드가 매핑되는 태스크를 상기 복수의 후보 태스크들로부터 선택하는 단계를 추가로 포함할 수 있다. 다양한 구현예들에서, 커맨드가 매핑되는 태스크는 제3자 에이전트 태스크를 포함하며, 상기 전송은 원격 컴퓨팅 디바이스로 하여금 하나 이상의 슬롯을 채우도록 하나 이상의 값을 사용하여 제3자 에이전트 태스크를 수행하게 한다. 다양한 구현예들에서, 상기 비교는 태스크를 수행하기 위해 채워질 필요가 있는 하나 이상의 슬롯을 복수의 후보 태스크들의 각각과 연관된 하나 이상의 슬롯과 비교하는 것을 포함할 수 있다.

다양한 구현예들에서, 이 방법은 저장하기 전에, 하나 이상의 입력 컴포넌트에서, 사용자로부터 제 4 자유 형식 자연 언어 입력을 수신하는 단계를 추가로 포함할 수 있다. 다양한 구현예들에서, 제 4 자유 형식 자연 언어 입력은 하나 이상의 슬롯을 채우기 위한 가능한 값들의 사용자 제공 열거 리스트를 포함할 수 있다. 다양한 구현예들에서, 상기 비교는 복수의 후보 태스크들의 각각에 대해, 가능한 값들의 사용자 제공 열거 리스트를 후보 태스크의 하나 이상의 슬롯을 채우기 위한 가능한 값들의 열거 리스트와 비교하는 것을 포함할 수 있다.

다양한 구현예들에서, 적어도 하나 이상의 값을 나타내는 데이터는 커맨드 또는 커맨드가 매핑되는 태스크의 표시 중 하나 또는 둘 다를 추가로 포함할 수 있다. 다양한 구현예들에서, 적어도 하나 이상의 값을 나타내는 데이터는 상기 하나 이상의 값에 기초하여 태스크의 실행을 요청하는 자연 언어 출력의 형태를 취할 수 있고, 상기 전송은 원격 컴퓨팅 디바이스로 하여금 출력으로서 자연 언어를 제공하게 한다.

또 다른 밀접한 관련 양태들에서, 방법은: 하나 이상의 입력 컴포넌트에서, 사용자로부터 제 1 자유 형식 자연 언어 입력을 수신하는 단계 - 상기 제 1 자유 형식 자연 언어 입력은 태스크에 매핑되도록 사용자가 의도한 커맨드, 및 상기 태스크를 수행하기 위해 값들로 채워질 필요가 있는 하나 이상의 슬롯을 포함함 - ; 상기 커맨드와 상기 태스크 간의 매핑을 포함하고 상기 하나 이상의 슬롯을 채우기 위해 하나 이상의 값을 입력으로 받아들이는 다이얼로그 루틴을 저장하는 단계; 상기 하나 이상의 입력 컴포넌트에서, 상기 사용자로부터 제 2 자유 형식 자연 언어 입력을 수신하는 단계 - 상기 제 2 자유 형식 자연 언어 입력은 상기 매핑에 기초하여 상기 다이얼로그 루틴을 호출함 - ; 상기 제 2 자유 형식 자연 언어 입력 또는 추가의 자유 형식 자연 언어 입력에 기초하여, 상기 태스크를 수행하기 위해 값들로 채워질 필요가 있는 상기 하나 이상의 슬롯을 채우는 데 사용될 하나 이상의 값을 식별하는 단계; 및 상기 하나 이상의 슬롯을 채우는 데 사용될 적어도 상기 하나 이상의 값을 나타내는 데이터를 원격 컴퓨팅 디바이스에 전송하는 단계를 포함하며, 상기 전송은 상기 원격 컴퓨팅 디바이스로 하여금 상기 태스크를 수행하게 한다.

또한, 일부 구현예들은 하나 이상의 컴퓨팅 디바이스의 하나 이상의 프로세서를 포함하며, 상기 하나 이상의 프로세서는 관련 메모리에 저장된 명령어들을 실행하도록 동작 가능하고, 상기 명령어들은 전술한 방법들 중 임의의 방법의 실행을 유발하도록 구성된다. 일부 구현예들은 또한 전술한 방법들 중 임의의 방법을 수행하기 위해 하나 이상의 프로세서에 의해 실행 가능한 컴퓨터 명령어들을 저장하는 하나 이상의 비 일시적 컴퓨터 판독 가능 저장 매체를 포함한다.

본원에서 더 상세하게 설명된 전술한 개념들 및 추가의 개념들의 모든 조합은 본원에 개시된 요지의 일부인 것으로 간주된다는 것을 이해해야 한다. 예를 들어, 본 개시 내용의 말미에 나타나는 청구된 요지의 모든 조합은 본원에 개시된 요지의 일부인 것으로 간주된다.

도 1은 본원에 개시된 구현예들이 구현될 수 있는 예시적인 환경의 블록도이다.
도 2는 다양한 구현예들에 따라, 다이얼로그 루틴을 호출하는 동안 생성된 데이터가 다양한 컴포넌트들 사이에서 어떻게 흐르는지의 일 예를 개략적으로 도시한다.
도 3은 다양한 구현예들에 따라, 다이얼로그 루틴을 호출할 때 다양한 컴포넌트들간에 데이터가 어떻게 교환될 수 있는지의 일 예를 개략적으로 도시한다.
도 4는 본원에 개시된 구현예들에 따른 예시적인 방법을 도시한 흐름도를 도시한다.
도 5는 컴퓨팅 디바이스의 예시적인 아키텍처를 도시한다.

이제 도 1을 참조하면, 본원에 개시된 기술들이 구현될 수 있는 예시적인 환경이 도시되어 있다. 예시적인 환경은 복수의 클라이언트 컴퓨팅 디바이스들(106_1-N)을 포함한다. 각각의 클라이언트 디바이스(106)는 자동화 어시스턴트 클라이언트(118)의 각각의 인스턴스를 실행할 수 있다. 자연 언어 프로세서(122)와 같은 하나 이상의 클라우드 기반 자동화 어시스턴트 컴포넌트(119)는 일반적으로 110으로 표시된 하나 이상의 로컬 및/또는 광역 네트워크(예를 들어, 인터넷)를 통해 클라이언트 디바이스들(106_1-N)에 통신 가능하게 연결된 하나 이상의 컴퓨팅 시스템(집합적으로 "클라우드" 컴퓨팅 시스템으로 지칭됨) 상에 구현될 수 있다.

일부 구현예들에서, 자동화 어시스턴트 클라이언트(118)의 인스턴스는 하나 이상의 클라우드 기반 자동화 어시스턴트 컴포넌트(119)와의 상호 작용에 의해, 사용자의 관점에서, 사용자가 인간 대 컴퓨터 다이얼로그에 참여할 수 있는 자동화 어시스턴트(120)의 논리적 인스턴스(logical instance)가 될 것으로 보이는 것을 형성할 수 있다. 이러한 자동화 어시스턴트(120)의 두 가지의 인스턴스가 도 1에 도시되어 있다. 파선으로 둘러싸인 제 1 자동화 어시스턴트(120A)는 제 1 클라이언트 디바이스(106₁)를 작동시키는 제 1 사용자(도시되지 않음)를 서빙하며, 자동화 어시스턴트 클라이언트(118₁) 및 하나 이상의 클라우드 기반 자동화 어시스턴트 컴포넌트(119)를 포함한다. 파선-파선-점으로 둘러싸인 제 2 자동화 어시스턴트(120B)는 다른 클라이언트 디바이스(106_N)를 작동시키는 제 2 사용자(도시되지 않음)를 서빙하며, 자동화 어시스턴트 클라이언트(118_N) 및 하나 이상의 클라우드 기반 자동화 어시스턴트 컴포넌트(119)를 포함한다. 따라서, 일부 구현예들에서, 클라이언트 디바이스(106) 상에서 실행되는 자동화 어시스턴트 클라이언트(118)에 관여하는 각각의 사용자는 사실상 자동화 어시스턴트(120)의 자신의 논리적 인스턴스에 참여할 수 있음을 이해해야 한다. 간결하고 간단하게 하기 위해, 본원에서 특정 사용자를 "서빙"하는 것으로 사용되는 "자동화 어시스턴트"라는 용어는 사용자에 의해 작동되는 클라이언트 디바이스(106) 상에서 실행되는 자동화 어시스턴트 클라이언트(118)와 (다수의 자동화 어시스턴트 클라이언트들(118) 간에 공유될 수 있는) 하나 이상의 클라우드 기반 자동화 어시스턴트 컴포넌트(119)의 조합을 지칭할 것이다. 일부 구현예들에서, 자동화 어시스턴트(120)는 사용자가 자동화 어시스턴트(120)의 특정 인스턴스에 의해 실제로 "서빙"되는지 여부에 관계없이 임의의 사용자로부터의 요청에 응답할 수 있음을 또한 이해해야 한다.

클라이언트 디바이스(106_1-N)는, 예를 들어, 데스크탑 컴퓨팅 디바이스, 랩탑 컴퓨팅 디바이스, 태블릿 컴퓨팅 디바이스, 모바일폰 컴퓨팅 디바이스, 사용자 차량의 컴퓨팅 디바이스(예를 들어, 차량 내 통신 시스템, 차량 내 엔터테인먼트 시스템, 차량 내 내비게이션 시스템), 독립형 인터랙티브 스피커, 스마트 텔레비전과 같은 스마트 기기, 및/또는 컴퓨팅 디바이스를 포함하는 사용자의 웨어러블 장치(예를 들어, 컴퓨팅 디바이스를 갖는 사용자의 시계(watch), 컴퓨팅 디바이스를 갖는 사용자의 안경(glasses), 가상 또는 증강 현실 컴퓨팅 디바이스) 중 하나 이상을 포함할 수 있다. 추가 및/또는 대안적인 클라이언트 컴퓨팅 디바이스들이 제공될 수 있다.

다양한 구현예들에서, 클라이언트 컴퓨팅 디바이스들(106_1-N)의 각각은 복수의 메시지 교환 클라이언트들(107_1-N) 중 대응하는 것과 같은 다양한 상이한 애플리케이션들을 동작시킬 수 있다. 메시지 교환 클라이언트들(107_1-N)은 다양한 형태로 제공될 수 있고, 그 형태는 클라이언트 컴퓨팅 디바이스들(106_1-N)에 걸쳐 변할 수 있고 및/또는 다수의 형태는 클라이언트 컴퓨팅 디바이스들(106_1-N) 중 단일 디바이스 상에서 작동될 수 있다. 일부 구현예들에서, 하나 이상의 메시지 교환 클라이언트들(107_1-N)은 단문 메시징 서비스("SMS") 및/또는 멀티미디어 메시징 서비스("MMS") 클라이언트, 온라인 채팅 클라이언트(예를 들어, 인스턴트 메신저, 인터넷 중계 채팅(Internet relay chat) 또는 "IRC", 등), 소셜 네트워크와 관련된 메시징 애플리케이션, 자동화 어시스턴트(120)와의 대화에 전용되는 퍼스널 어시스턴트 메시징, 등의 형태로 제공될 수 있다. 일부 구현예들에서, 하나 이상의 메시지 교환 클라이언트들(107_1-N)은 클라이언트 컴퓨팅 디바이스(106)의 웹 브라우저(도시되지 않음) 또는 다른 애플리케이션에 의해 렌더링된 웹 페이지 또는 다른 리소스들을 통해 구현될 수 있다.

본원에서 보다 상세하게 기술되는 바와 같이, 자동화 어시스턴트(120)는 하나 이상의 클라이언트 디바이스들(106_1-N)의 사용자 인터페이스 입력 및 출력 디바이스들을 통해 하나 이상의 사용자와의 인간 대 컴퓨터 다이얼로그 세션에 참여한다. 일부 구현예들에서, 자동화 어시스턴트(120)는 클라이언트 디바이스들(106_1-N) 중 하나의 디바이스의 하나 이상의 사용자 인터페이스 입력 디바이스를 통해 사용자에 의해 제공되는 사용자 인터페이스 입력에 응답하여 사용자와의 인간 대 컴퓨터 다이얼로그 세션에 참여할 수 있다. 이러한 구현예들 중 일부에서, 사용자 인터페이스 입력은 자동화 어시스턴트(120)에 명시적으로 보내진다. 예를 들어, 메시지 교환 클라이언트들(107_1-N) 중 하나의 클라이언트는 자동화 어시스턴트(120)와의 대화에 전용되는 퍼스널 어시스턴트 메시징 서비스일 수 있고, 그 퍼스널 어시스턴트 메시징 서비스를 통해 제공되는 사용자 인터페이스 입력은 자동화 어시스턴트(120)에 자동으로 제공될 수 있다. 또한, 예를 들어, 사용자 인터페이스 입력은 자동화 어시스턴트(120)가 호출될 것이라는 것을 나타내는 특정 사용자 인터페이스 입력에 기초하여, 하나 이상의 메시지 교환 클라이언트들(107_1-N) 내의 자동화 어시스턴트(120)에 명시적으로 보내질 수 있다. 예를 들어, 특정 사용자 인터페이스 입력은 하나 이상의 타이핑된 문자(예를 들어, @Automated Assistant), 하드웨어 버튼 및/또는 가상 버튼과의 사용자 상호 작용(예를 들어, 탭(tap), 롱 탭(long tap), 구두 커맨드(예를 들어, "Hey Automated Assistant"), 및/또는 다른 특정 사용자 인터페이스 입력일 수 있다.

일부 구현예들에서, 자동화 어시스턴트(120)는, 사용자 인터페이스 입력이 자동화 어시스턴트(120)에 명시적으로 보내지지 않을 경우에도, 사용자 인터페이스 입력에 응답하여 다이얼로그 세션에 참여할 수 있다. 예를 들어, 자동화 어시스턴트(120)는 사용자 인터페이스 입력의 콘텐츠를 검사할 수 있고, 사용자 인터페이스 입력에 존재하는 특정 용어에 응답하여 및/또는 다른 큐(cues)에 기초하여 다이얼로그 세션에 참여할 수 있다. 많은 구현예들에서, 자동화 어시스턴트(120)는 인터랙티브 음성 응답(interactive voice response)("IVR")에 참여할 수 있어서, 사용자는 커맨드, 검색어 등을 발언할 수 있고, 자동화 어시스턴트는 자연 언어 프로세싱 및/또는 하나 이상의 문법을 이용하여 상기 발언을 텍스트로 변환할 수 있고, 이에 따라 텍스트에 응답할 수 있다. 일부 구현예들에서, 자동화 어시스턴트(120)는 발언을 텍스트로 변환하지 않고 발언에 추가적으로 또는 대안적으로 응답할 수 있다. 예를 들어, 자동화 어시스턴트(120)는 음성 입력을 임베딩 표현으로, (음성 입력에 존재하는 엔티티/엔티티들을 나타내는) 엔티티 표현(들)으로, 및/또는 다른 "비-텍스트(non-textual)" 표현으로 변환할 수 있고, 이러한 비-텍스트 표현으로 작동할 수 있다. 따라서, 음성 입력으로부터 변환된 텍스트에 기초하여 작동하는 것으로 본원에 기술된 구현예들은 음성 입력으로 직접 및/또는 음성 입력의 다른 비-텍스트 표현으로 추가적으로 및/또는 대안적으로 작동할 수 있다.

클라우드 기반 자동화 어시스턴트 컴포넌트들(119)을 작동시키는 클라이언트 컴퓨팅 디바이스들(106_1-N) 및 컴퓨팅 디바이스(들)의 각각은 데이터 및 소프트웨어 애플리케이션들의 저장을 위한 하나 이상의 메모리, 데이터에 액세스하고 애플리케이션을 실행하기 위한 하나 이상의 프로세서, 및 네트워크를 통한 통신을 가능하게 하는 다른 컴포넌트들을 포함할 수 있다. 하나 이상의 클라이언트 컴퓨팅 디바이스들(106_1-N)에 의해 수행되고 및/또는 자동화 어시스턴트(120)에 의해 수행되는 동작들은 다수의 컴퓨터 시스템들에 걸쳐 분산될 수 있다. 자동화 어시스턴트(120)는, 예를 들어, 네트워크를 통해 서로 연결된 하나 이상의 위치에서 하나 이상의 컴퓨터에서 실행되는 컴퓨터 프로그램으로서 구현될 수 있다.

전술한 바와 같이, 다양한 구현예들에서, 클라이언트 컴퓨팅 디바이스들(106_1-N)의 각각은 자동화 어시스턴트 클라이언트(118)를 작동할 수 있다. 다양한 구현예들에서, 각각의 자동화 어시스턴트 클라이언트(118)는 대응하는 스피치 캡처(speech capture)/텍스트 대 스피치(text-to-speech)("TTS")/STT 모듈(114)을 포함할 수 있다. 다른 구현예들에서, 스피치 캡처/TTS/STT 모듈(114)의 하나 이상의 양태들은 자동화 어시스턴트 클라이언트(118)와는 별도로 구현될 수 있다.

각각의 스피치 캡처/TTS/STT 모듈(114)은 하나 이상의 기능: 예를 들어, 마이크로폰(일부의 경우에 프레즌스 센서(presence sensor)(105)를 포함할 수 있음)을 통해 사용자의 스피치를 캡처하는 기능; 그 캡처된 오디오를 텍스트(및/또는 다른 표현 또는 임베딩)로 변환하는 기능; 및/또는 텍스트를 스피치로 변환하는 기능을 수행하도록 구성될 수 있다. 예를 들어, 일부 구현예들에서, 클라이언트 디바이스(106)는 컴퓨팅 리소스들(예를 들어, 프로세서 사이클들, 메모리, 배터리, 등)의 관점에서 비교적 제한될 수 있기 때문에, 각각의 클라이언트 디바이스(106)에 대해 로컬인 스피치 캡처/TTS/STT 모듈(114)은 한정된 수의 상이한 구두 문구(finite number of different spoken phrases), 특히 자동화 어시스턴트(120)를 호출하는 문구를 텍스트(또는 더 낮은 차원의 임베딩과 같은 다른 형태)로 변환하도록 구성될 수 있다. 다른 스피치 입력은 클라우드 기반 TTS 모듈(116) 및/또는 클라우드 기반 STT 모듈(117)을 포함할 수 있는 클라우드 기반 자동화 어시스턴트 컴포넌트(119)로 전송될 수 있다.

클라우드 기반 STT 모듈(117)은 클라우드의 사실상 무한한 리소스들을 활용하여 스피치 캡처/TTS/STT 모듈(114)에 의해 캡처된 오디오 데이터를 텍스트(이후 자연 언어 프로세서(122)에 제공될 수 있음)로 변환하도록 구성될 수 있다. 클라우드 기반 TTS 모듈(116)은 클라우드의 사실상 무한한 리소스들을 활용하여 텍스트 데이터(예를 들어, 자동화 어시스턴트(120)에 의해 공식화된 자연 언어 응답)를 컴퓨터 생성 스피치 출력으로 변환하도록 구성될 수 있다. 일부 구현예들에서, TTS 모듈(116)은 컴퓨터 생성 스피치 출력을 클라이언트 디바이스(106)에 제공하여, 예를 들어, 하나 이상의 스피커를 사용하여 직접 출력될 수 있게 한다. 다른 구현예들에서, 자동화 어시스턴트(120)에 의해 생성된 텍스트 데이터(예를 들어, 자연 언어 응답)는 스피치 캡처/TTS/STT 모듈(114)에 제공될 수 있고, 이 스피치 캡처/TTS/STT 모듈(114)은 그 후 텍스트 데이터를 로컬로 출력되는 컴퓨터 생성 스피치로 변환할 수 있다.

자동화 어시스턴트(120)(및 특히, 클라우드 기반 자동화 어시스턴트 컴포넌트들(119))는 자연 언어 프로세서(122), 전술한 TTS 모듈(116), 전술한 STT 모듈(117), 다이얼로그 상태 추적기(124), 다이얼로그 관리자(126), 및 자연 언어 생성기(128)(이는 일부의 구현예들에서 TTS 모듈(116)과 결합될 수 있음)를 포함할 수 있다. 일부 구현예들에서, 자동화 어시스턴트(120)의 하나 이상의 엔진 및/또는 모듈은 자동화 어시스턴트(120)와 분리된 컴포넌트에서 생략, 결합, 및/또는 구현될 수 있다.

일부 구현예들에서, 자동화 어시스턴트(120)는 자동화 어시스턴트(120)와의 인간 대 컴퓨터 다이얼로그 세션 동안 클라이언트 디바이스들(106_1-N) 중 하나의 클라이언트 디바이스의 사용자에 의해 생성된 다양한 입력들에 응답하여 응답형 콘텐츠(responsive content)를 생성한다. 자동화 어시스턴트(120)는 다이얼로그 세션의 일부로서 사용자에게 제시하기 위해 (예를 들어, 사용자의 클라이언트 디바이스로부터 분리될 때 하나 이상의 네트워크를 통해) 응답형 콘텐츠를 제공할 수 있다. 예를 들어, 자동화 어시스턴트(120)는 클라이언트 디바이스들(106_1-N) 중 하나의 클라이언트 디바이스를 통해 제공되는 자유 형식 자연 언어 입력에 응답하여 응답형 콘텐츠를 생성할 수 있다. 본원에 사용되는 바와 같이, 자유 형식 자연 언어 입력은, 사용자에 의해 공식화되고 사용자에 의해 선택을 위해 제시된 옵션 그룹에 제한되지 않는 입력이다.

본원에 사용되는 바와 같이, "다이얼로그 세션"은 사용자와 자동화 어시스턴트(120)(및 일부의 경우, 다른 인간 참가자들) 사이의 하나 이상의 메시지의 논리적인 독립형 교환(logically-self-contained exchange) 및/또는 자동화 어시스턴트(120)에 의한 하나 이상의 응답형 액션의 수행을 포함할 수 있다. 자동화 어시스턴트(120)는 다양한 신호들, 가령, 세션들 간의 시간의 경과, 세션들 간의 사용자 상황(예를 들어, 예정된 미팅 전/중/후의 위치, 등)의 변화, 사용자와 자동화 어시스턴트 간의 다이얼로그 이외의 사용자와 클라이언트 디바이스 간의 하나 이상의 개입 상호 작용(예를 들어, 사용자는 잠시 동안 애플리케이션을 전환하고, 사용자는 멀어졌다가 나중에 독립형 음성 활성화 제품으로 돌아오는 것)의 검출, 세션들 간의 클라이언트 디바이스의 잠금/수면, 자동화 어시스턴트(120)의 하나 이상의 인스턴스와 인터페이스하는 데 사용되는 클라이언트 디바이스들의 변경, 등에 기초하여 사용자와의 다수의 다이얼로그 세션들을 구별할 수 있다.

자동화 어시스턴트(120)의 자연 언어 프로세서(122)(대안적으로 "자연 언어 이해 엔진"으로 지칭됨)는 클라이언트 디바이스들(106_1-N)을 통해 사용자에 의해 생성된 자유 형식 자연 언어 입력을 처리하며, 일부 구현예들에서, 자동화 어시스턴트(120)의 하나 이상의 다른 컴포넌트에 의한 사용을 위해 주석형 출력(annotated output)을 생성할 수 있다. 예를 들어, 자연 언어 프로세서(122)는 클라이언트 디바이스(106₁)의 하나 이상의 사용자 인터페이스 입력 디바이스를 통해 사용자에 의해 생성된 자연 언어 자유 형식 입력을 처리할 수 있다. 생성된 주석형 출력은 자연 언어 입력의 하나 이상의 주석 및 선택적으로 자연 언어 입력의 하나 이상(예를 들어, 모든)의 용어를 포함할 수 있다.

일부 구현예들에서, 자연 언어 프로세서(122)는 자연 언어 입력에서 다양한 타입의 문법 정보를 식별하고 주석을 달도록 구성된다. 예를 들어, 자연 언어 프로세서(122)는 문법적 역할로 용어에 주석을 달도록 구성된 스피치 태거(speech tagger)(도시되지 않음)의 일부를 포함할 수 있다. 예를 들어, 스피치 태거의 일부는 "명사", "동사", "형용사", "대명사", 등과 같은 스피치의 일부로 각 용어에 태그를 지정할 수 있다. 또한, 예를 들어, 일부 구현예들에서, 자연 언어 프로세서(122)는 자연 언어 입력에서 용어들 간의 구문적 관계를 결정하도록 구성된 종속성 파서(dependency parser)(도시되지 않음)를 추가적으로 및/또는 대안적으로 포함할 수 있다. 예를 들어, 종속성 파서는 어떤 용어가 문장의 다른 용어, 주제 및 동사 등을 수정하는지(예를 들어, 파스 트리(parse tree))를 결정할 수 있으며, 그러한 종속성에 대한 주석을 만들 수 있다.

일부 구현예들에서, 자연 언어 프로세서(122)는 (예를 들어, 등장 인물, 유명인, 공인을 포함하는) 사람들, 조직, (실제 및 가상의) 위치, 등에 대한 레퍼런스(references)와 같은 하나 이상의 세그먼트에서 엔티티 레퍼런스(entity references)에 주석을 달도록 구성된 엔티티 태거(entity tagger)(도시되지 않음)를 추가적으로 및/또는 대안적으로 포함할 수 있다. 일부 구현예들에서, 엔티티들에 관한 데이터는 지식 그래프(도시되지 않음)에서와 같이 하나 이상의 데이터베이스에 저장될 수 있다. 일부 구현예들에서, 지식 그래프는 알려진 엔티티들(및 일부의 경우의 엔티티 속성들)을 나타내는 노드들 뿐만 아니라 노드들을 연결하고 엔티티들 사이의 관계를 나타내는 에지들을 포함할 수 있다. 예를 들어, "바나나" 노드는 (예를 들어, 자식으로서) "과일" 노드에 연결될 수 있고, 이는 다시 (예를 들어, 자식으로서) "생산품" 노드 및/또는 "음식" 노드에 연결될 수 있다. 다른 예로서, "가상 카페(Hypothetical Cafe)"라고 지칭되는 레스토랑은 주소, 제공되는 음식의 타입, 시간, 연락처 정보 등과 같은 속성을 포함하는 노드로 표현될 수 있다. "가상 카페" 노드는 일부 구현예들에서 (예를 들어, 자식 대 부모 관계를 나타내는) 에지에 의해 "레스토랑" 노드, "비즈니스" 노드, 레스토랑이 위치한 도시 및/또는 주를 나타내는 노드, 등과 같은 하나 이상의 다른 노드에 연결될 수 있다.

자연 언어 프로세서(122)의 엔티티 태거는 (예를 들어, 사람과 같은 엔티티 클래스에 대한 모든 레퍼런스의 식별을 가능하게 하는) 하이 레벨의 세분성 및/또는 (예를 들어, 특정 개인과 같은 특정 엔티티에 대한 모든 레퍼런스의 식별을 가능하게 하는) 로우 레벨의 세분성으로 엔티티에 대한 레퍼런스에 주석을 달 수 있다. 엔티티 태거는 특정 엔티티를 식별하기 위해 자연 언어 입력의 콘텐츠에 의존할 수 있고/있거나 선택적으로 특정 엔티티를 식별하기 위해 지식 그래프 또는 다른 엔티티 데이터베이스와 통신할 수 있다.

일부 구현예들에서, 자연 언어 프로세서(122)는 하나 이상의 상황 큐(contextual cues)에 기초하여 동일한 엔티티에 대한 레퍼런스들을 그룹화하거나 "클러스터링"하도록 구성된 코레퍼런스 리졸버(coreference resolver)(도시되지 않음)를 추가적으로 및/또는 대안적으로 포함할 수 있다. 예를 들어, 코레퍼런스 리졸버는 자연 언어 입력 "나는 우리가 지난번 그곳에서 식사를 한 가상 카페를 좋아했다."에서 용어 "그곳에서"를 "가상 카페"로 식별하는 데 이용될 수 있다.

일부 구현예들에서, 자연 언어 프로세서(122)의 하나 이상의 컴포넌트는 자연 언어 프로세서(122)의 하나 이상의 다른 컴포넌트로부터의 주석들에 의존할 수 있다. 예를 들어, 일부 구현예들에서, 명명된 엔티티 태거는 특정 엔티티에 대한 모든 언급사항에 대해 주석을 달 때 코레퍼런스 리졸버 및/또는 종속성 파서로부터의 주석들에 의존할 수 있다. 또한, 예를 들어, 일부 구현예들에서, 코레퍼런스 리졸버는 동일한 엔티티에 대한 레퍼런스들을 클러스터링할 때 종속성 파서로부터의 주석들에 의존할 수 있다. 일부 구현예들에서, 특정 자연 언어 입력을 처리할 때, 자연 언어 프로세서(122)의 하나 이상의 컴포넌트는 하나 이상의 주석을 결정하기 위해 관련 사전 입력 및/또는 특정 자연 언어 입력 이외의 다른 관련 데이터를 사용할 수 있다.

태스크 지향 다이얼로그의 상황에서, 자연 언어 프로세서(122)는 다이얼로그 세션의 각각의 차례(turn)에서 사용자에 의해 제공된 자유 형식 자연 언어 입력을 본원에서 "다이얼로그 행위(dialog act)"라고 지칭될 수 있는 시멘틱 표현으로 매핑하도록 구성될 수 있다. 시멘틱 표현들은, 다이얼로그 행위들이 사용자 입력으로부터 자동화 어시스턴트 발언의 다른 시멘틱 표현들을 생성했던간에, 다양한 형태를 취할 수 있다. 일부 구현예들에서, 시멘틱 표현들은 이산 시멘틱 프레임들로서 모델링될 수 있다. 다른 구현예들에서, 시멘틱 표현들은, 예를 들어, 연속 시멘틱 공간에서 벡터 임베딩들(vector embeddings)로서 형성될 수 있다.

일부 구현예들에서, 다이얼로그 행위(또는 보다 일반적으로 시멘틱 표현)는 무엇보다도 사용자가 자동화 어시스턴트(120)를 통해 수행할려고 시도중일 수 있는 일부 액션 또는 태스크의 파라미터에 대응하는 하나 이상의 슬롯/값 쌍을 나타낼 수 있다. 예를 들어, 사용자가 "오늘 저녁 식사를 위해 인도식 레스토랑을 제안하시오"라는 형식으로 자유 형식의 자연 언어 입력을 제공한다고 가정한다. 일부 구현예들에서, 자연 언어 프로세서(122)는, 예를 들어, 다음과 같은 파라미터들: 목적(레스토랑 탐색); 정보(요리법 = 인도식, 식사 = 저녁 식사, 시간 = 오늘 밤)를 포함하는 다이얼로그 행위에 그 사용자 입력을 매핑할 수 있다. 다이얼로그 행위는 "인사"(예를 들어, 자동화 어시스턴트(120)를 호출하는 것), "통지"(예를 들어, 슬롯 충진을 위한 파라미터를 제공하는 것), "목적"(예를 들어, 엔티티를 탐색하고, 무언가를 주문하는 것), 요청(예를 들어, 엔티티에 대한 특정 정보의 요청), "확인", "확언" 및 "감사한다"와 같은 다양한 형태로 제공될 수 있다(선택적으로, 다이얼로그 세션을 닫을 수 있고 및/또는 포지티브 피드백으로서 사용될 수 있고 및/또는 포지티브 보상 값이 제공되어야 한다는 것을 나타낼 수 있다). 이들은 단지 예에 불과할 뿐이며 제한하려는 것이 아니다.

다이얼로그 상태 추적기(124)는, 예를 들어, 인간 대 컴퓨터 다이얼로그 세션의 과정 동안(및/또는 다수의 다이얼로그 세션들에 걸쳐) 사용자의 목표(또는 "목적")의 신념 상태를 포함하는 "다이얼로그 상태"를 추적하도록 구성될 수 있다. 다이얼로그 상태를 결정할 때, 일부의 다이얼로그 상태 추적기는 다이얼로그 세션에서의 사용자 및 시스템 발언에 기초하여, 다이얼로그에서 인스턴스화되는 슬롯(들)에 대한 가장 가능성 있는 값(들)을 결정하려고 추구할 수 있다. 일부의 기술들은 슬롯들의 세트 및 해당 슬롯들과 연관된 값들의 세트를 정의하는 고정 온톨로지(fixed ontology)를 사용하고 있다. 일부의 기술들은 추가적으로 또는 대안적으로 개별 슬롯들 및/또는 도메인들에 맞추어 질 수 있다. 예를 들어, 일부의 기술들은 각 도메인의 각각의 슬롯 타입에 대한 모델 학습을 필요로 할 수 있다.

다이얼로그 관리자(126)는, 예를 들어, 다이얼로그 상태 추적기(124)에 의해 제공되는 현재의 다이얼로그 상태를 복수의 후보 응답형 액션들 중 하나 이상의 "응답형 액션"에 매핑하도록 구성될 수 있으며, 이후 이들 액션은 자동화 어시스턴트(120)에 의해 수행된다. 응답형 액션들은 현재의 다이얼로그 상태에 따라 다양한 형태로 제공될 수 있다. 예를 들어, 마지막 차례(예를 들어, 최종 사용자의 원하는 태스크가 수행될 때) 이전에 발생하는 다이얼로그 세션의 차례들에 대응하는 초기 및 중간 스트림 다이얼로그 상태들은 자동화 어시스턴트(120)가 추가의 자연 언어 다이얼로그를 출력하는 것을 포함하는 다양한 응답형 액션들에 매핑될 수 있다. 이러한 응답형 다이얼로그는, 예를 들어, 다이얼로그 상태 추적기(124)가 사용자가 수행하고자 하는 것으로 신뢰하고 있는 어떤 액션(즉, 슬롯 채우기)에 대한 파라미터를 사용자가 제공하도록 하는 요청을 포함할 수 있다.

일부 구현예들에서, 다이얼로그 관리자(126)는 신경 네트워크와 같은 머신 학습 모델을 포함할 수 있다. 이러한 일부 구현예들에서, 신경 네트워크는, 예를 들어, 2 개의 히든(hidden) 계층들 및 이에 후속하는 소프트맥스(softmax) 계층을 갖는 피드 포워드 신경 네트워크(feed-forward neural network)의 형태를 취할 수 있다. 그러나, 다른 구성의 신경 네트워크뿐만 아니라 다른 타입의 머신 학습 모델이 이용될 수 있다. 다이얼로그 관리자(126)가 신경 네트워크를 이용하는 일부 구현예들에서, 신경 네트워크 대한 입력은 사용자 액션, 이전 응답형 액션(즉, 이전 차례에서 다이얼로그 관리자에 의해 수행된 액션), 현재의 다이얼로그 상태(예를 들어, 어떠한 슬롯들이 채워졌는지를 나타내는 다이얼로그 상태 추적기(124)에 의해 제공되는 이진 벡터), 및/또는 다른 값들을 포함할 수 있지만, 이에 국한되는 것은 아니다.

다양한 구현예들에서, 다이얼로그 관리자(126)는 시멘틱 표현 레벨에서 동작할 수 있다. 예를 들어, 다이얼로그 관리자(126)는 새로운 관찰을 시멘틱 다이얼로그 프레임(이는 예를 들어, 자연 언어 프로세서(122)에 의해 제공되는 다이얼로그 행위 및/또는 다이얼로그 상태 추적기(124)에 의해 제공되는 다이얼로그 상태를 포함할 수 있음)의 형태로 수신할 수 있고, 복수의 후보 응답형 액션들로부터 하나의 응답형 액션을 확률적으로 선택할 수 있다. 자연 언어 생성기(128)는 다이얼로그 관리자(126)에 의해 선택된 응답형 액션을, 예를 들어, 다이얼로그 세션의 각각의 차례의 종료시에 사용자에게 출력으로서 제공되는 하나 이상의 발언에 매핑하도록 구성될 수 있다.

전술한 바와 같이, 다양한 구현에들에서, 사용자는 자동화 어시스턴트(120)가 다양한 사용자 정의 또는 사용자 선택 태스크들을 달성하기 위해 나중에 효과적으로 재현할 수 있는 커스텀화된 "다이얼로그 루틴"을 생성할 수 있다. 다양한 구현예들에서, 다이얼로그 루틴은 커맨드(예를 들어, 텍스트 또는 축소된 차원의 임베딩으로 변환된 보컬 자유 형식 자연 언어 발언, 또는 타이핑된 자유 형식 자연 언어 입력, 등)와 상기 커맨드에 응답하여 자동화 어시스턴트(120)에 의해 전체적으로 또는 부분적으로 수행될 태스크 간의 매핑을 포함할 수 있다. 또한, 일부 사례에서, 다이얼로그 루틴은 태스크를 수행하기 위해 값들(이는 본원에서 "슬롯 값들"이라고 지칭되기도 함)로 채워질 필요가 있는 하나 이상의 사용자 정의 "슬롯들"(이들은 또한 "파라미터들" 또는 "속성들"이라고 지칭되기도 함)을 포함할 수 있다. 다양한 구현예들에서, 일단 생성된 다이얼로그 루틴은 하나 이상의 슬롯을 채우기 위해 하나 이상의 값을 입력으로서 받아들일 수 있다. 일부 구현예들에서, 다이얼로그 루틴은 또한, 다이얼로그 루틴과 연관된 하나 이상의 슬롯에 대해, 슬롯을 채우는 데 사용될 수 있는 하나 이상의 사용자 열거 값을 포함할 수 있지만, 이것이 필수적인 것은 아니다.

다양한 구현예들에서, 하나 이상의 필요한 슬롯이 값으로 채워질 때, 다이얼로그 루틴과 관련된 태스크는 자동화 어시스턴트(120)에 의해 수행될 수 있다. 예를 들어, 사용자가 두 개의 슬롯들이 값들로 채워질 필요가 있는 다이얼로그 루틴을 호출한다고 가정한다. 호출 동안, 사용자가 두 슬롯들에 대한 값들을 제공한 경우, 자동화 어시스턴트(120)는 사용자로부터 추가의 정보를 요구하지 않고도, 그 제공된 슬롯 값들을 사용하여 다이얼로그 루틴과 관련된 태스크를 수행할 수 있다. 따라서, 호출될 때, 다이얼로그 루틴은 (사용자가 모든 필요한 파라미터를 미리 제공한다고 가정하면) 다이얼로그의 단지 하나의 "차례"만을 포함할 수 있다. 한편, 사용자가 적어도 하나의 필요한 슬롯에 대한 값을 제공하지 못하면, 자동화 어시스턴트(120)는 필요한 아직 채워지지 않은 슬롯(required-yet-unfilled slot)에 대한 값을 요청하는 자연 언어 출력을 자동으로 제공할 수 있다.

일부 구현예들에서, 각각의 클라이언트 디바이스(106)는 그 디바이스에서 하나 이상의 사용자에 의해 생성된 하나 이상의 다이얼로그 루틴을 저장하도록 구성된 로컬 다이얼로그 루틴 인덱스(113)를 포함할 수 있다. 일부 구현예들에서, 각각의 로컬 다이얼로그 루틴 인덱스(113)는 임의의 사용자에 의해 대응하는 클라이언트 디바이스(106)에서 생성된 다이얼로그 루틴을 저장할 수 있다. 추가적으로 또는 대안적으로, 일부 구현예들에서, 각각의 로컬 다이얼로그 루틴 인덱스(113)는 클라이언트 디바이스들(106)의 조정된 "에코시스템(ecosystem)"을 작동시키는 특정 사용자에 의해 생성된 다이얼로그 루틴을 저장할 수 있다. 일부의 경우에, 조정된 에코시스템의 각 클라이언트 디바이스(106)는 제어 사용자에 의해 생성된 다이얼로그 루틴을 저장할 수 있다. 예를 들어, 사용자가 독립형 인터랙티브 스피커의 형태를 취하는 제 1 클라이언트 디바이스(예를 들어, 106₁)에서 다이얼로그 루틴을 생성한다고 가정한다. 일부 구현예들에서, 그 다이얼로그 루틴은 클라이언트 디바이스들(106)의 동일한 조정된 에코시스템의 일부를 형성하는 다른 클라이언트 디바이스들(106)(예를 들어, 스마트폰, 태블릿 컴퓨터, 다른 스피커, 스마트 텔레비전, 차량 컴퓨팅 시스템 등)의 로컬 다이얼로그 루틴 인덱스들(113)로 전파되고 로컬 다이얼로그 루틴 인덱스들(113)에 저장될 수 있다.

일부 구현예들에서, 개별 사용자들에 의해 생성된 다이얼로그 루틴들은 다수의 사용자들 사이에서 공유될 수 있다. 이를 위해, 일부 구현예들에서, 글로벌 다이얼로그 루틴 엔진(130)은 복수의 사용자들에 의해 생성된 다이얼로그 루틴들을 글로벌 다이얼로그 루틴 인덱스(132)에 저장하도록 구성될 수 있다. 일부 구현예들에서, 글로벌 다이얼로그 루틴 인덱스(132)에 저장된 다이얼로그 루틴들은 (예를 들어, 하나 이상의 액세스 제어 리스트를 통해) 생성자에 의해 부여된 허가에 기초하여 선택된 사용자에게 이용 가능할 수 있다. 다른 구현예들에서, 글로벌 다이얼로그 루틴 인덱스(132)에 저장된 다이얼로그 루틴들은 모든 사용자에게 자유롭게 이용될 수 있다. 일부 구현예들에서, 클라이언트 디바이스들의 조정된 에코시스템의 하나의 클라이언트 디바이스(106)에서 특정 사용자에 의해 생성된 다이얼로그 루틴은 글로벌 다이얼로그 루틴 인덱스(132)에 저장될 수 있고, 그 후에 (예를 들어, 선택적 다운로드 또는 온라인 사용을 위해) 조정된 에코시스템의 다른 클라이언트 디바이스들에서 특정 사용자에게 이용 가능할 수 있다. 일부 구현예들에서, 글로벌 다이얼로그 루틴 엔진(130)은 글로벌 다이얼로그 루틴 인덱스(132)에서 전역적으로 이용 가능한 다이얼로그 루틴들 및 로컬 다이얼로그 루틴 인덱스들(113)에 저장된 로컬로 이용 가능한 다이얼로그 루틴들 모두에 액세스할 수 있다.

일부 구현예들에서, 다이얼로그 루틴들은 그들의 생성자에 의한 호출로 제한될 수 있다. 예를 들어, 일부 구현예들에서, 음성 인식 기술들은 새로 생성된 다이얼로그 루틴을 그 생성자의 음성 프로파일에 할당하는 데 사용될 수 있다. 그 다이얼로그 루틴이 나중에 호출될 때, 자동화 어시스턴트(120)는 스피커의 음성을 다이얼로그 루틴과 관련된 음성 프로파일과 비교할 수 있다. 매칭하는 경우, 스피커는 다이얼로그 루틴을 호출할 권한을 부여받을 수 있다. 스피커의 음성이 다이얼로그 루틴과 관련된 음성 프로파일과 매칭되지 않는다면, 일부의 경우, 스피커는 다이얼로그 루틴을 호출하도록 허가될 수 없다.

일부 구현예들에서, 사용자는 기존의 표준 커맨드들 및 관련 태스크들을 효과적으로 무효화하는 커스텀화된 다이얼로그 루틴들을 생성할 수 있다. 사용자가 사용자 정의 태스크를 수행하기 위해 새로운 다이얼로그 루틴을 생성하고 그 새로운 다이얼로그 루틴이 다른 태스크에 이전에 매핑된 표준 커맨드를 사용하여 호출된다고 가정한다. 미래에, 그 특정 사용자가 다이얼로그 루틴을 호출할 때, 표준 커맨드가 이전에 매핑된 다른 태스크보다는 다이얼로그 루틴과 관련된 사용자 정의 태스크가 이행될 수 있다. 일부 구현예들에서, 사용자 정의 태스크는 다이얼로그 루틴을 호출하는 것이 생성자-사용자인 경우에만 표준 커맨드에 응답하여 수행될 수 있다(예를 들어, 스피커의 음성을 다이얼로그 루틴의 생성자의 음성 프로파일에 매칭함으로써 결정될 수 있다). 다른 사용자가 표준 커맨드를 발언하거나 제공하는 경우, 표준 커맨드에 전통적으로 매핑된 다른 태스크가 대신 수행될 수 있다.

도 1을 다시 한번 참조하면, 일부 구현예들에서, 태스크 스위치보드(134)는 다아얼로그 루틴이 사용자에 의해 호출될 때 생성된 데이터를 하나 이상의 적절한 원격 컴퓨팅 시스템들/디바이스들에 라우팅하여, 예를 들어, 다이얼로그 루틴과 관련된 태스크가 수행될 수 있도록 구성될 수 있다. 태스크 스위치보드(134)가 클라우드 기반 자동화 어시스턴트 컴포넌트들(119)과는 별도로 도시되어 있지만, 이는 제한적인 것으로 의도되지는 않는다. 다양한 구현예들에서, 태스크 스위치보드(134)는 자동화 어시스턴트(120)의 필수 부분을 형성할 수 있다. 일부 구현예들에서, 태스크 스위치보드(134)에 의해 적절한 원격 컴퓨팅 디바이스로 라우팅되는 데이터는 호출된 다이얼로그 루틴과 관련된 하나 이상의 슬롯을 채우는 데 사용될 하나 이상의 값을 포함할 수 있다. 추가적으로 또는 대안적으로, 원격 컴퓨팅 시스템(들)/디바이스(들)의 특성에 따라, 태스크 스위치보드(134)에 의해 라우팅되는 데이터는 다른 정보 조각, 예를 들어, 채워질 슬롯, 호출 커맨드를 나타내는 데이터, 수행될 태스크를 나타내는 데이터(예를 들어, 사용자의 인식된 목적), 등을 포함할 수 있다. 일부 구현예들에서, 일단 원격 컴퓨팅 시스템(들)/디바이스(들)이 태스크를 수행할 때 그들의 역할을 수행한다면, 그것들은 응답형 데이터를 자동화 어시스턴트(120)로 직접 및/또는 태스크 스위치보드(134)를 통해 리턴할 수 있다. 다양한 구현예들에서, 자동화 어시스턴트(120)는 (예를 들어, 자연 언어 생성기(128)에 의해), 예를 들어, 호출하는 사용자에 의해 작동되는 클라이언트 디바이스(106)의 하나 이상의 오디오 및/또는 시각적 출력 디바이스를 통해, 사용자에게 제공하기 위한 자연 언어 출력을 생성할 수 있다.

일부 구현예들에서, 태스크 스위치보드(134)는 태스크 인덱스(136)와 동작 가능하게 연결될 수 있다. 태스크 인덱스(136)는 자동화 어시스턴트(120)에 의해 전체적으로 또는 부분적으로 수행 가능한(예를 들어, 트리거 가능한) 복수의 후보 태스크들을 저장할 수 있다. 일부 구현예들에서, 후보 태스크들은 주문에 자동으로 응답하고, 인간 대 컴퓨터 다이얼로그에 (예를 들어, 챗봇으로서) 참여하는 등을 수행하도록 구성된 제3자 소프트웨어 에이전트를 포함할 수 있다. 다양한 구현예들에서, 이러한 제3자 소프트웨어 에이전트는 자동화 어시스턴트(120)를 통해 사용자와 상호 작용할 수 있으며, 여기서 자동화 어시스턴트(120)는 중개자로서 작용한다. 다른 구현예들에서, 특히 제3자 에이전트가 그 자체로 챗봇인 경우, 제3자 에이전트는, 예를 들어, 자동화 어시스턴트(120) 및/또는 태스크 스위치보드(134)에 의해 사용자에게 직접 연결될 수 있다. 추가적으로 또는 대안적으로, 일부 구현예들에서, 후보 태스크들은 사용자에 의해 제공된 정보를, 예를 들어, 특정 슬롯들이 채워진 특정 형태로 수집하는 것과, 그 정보를 (예를 들어, 미리 결정된 포맷으로) 인간과 같은 제3자에게 제시하는 것을 포함할 수 있다. 일부 구현예들에서, 후보 태스크들은 제3자에게 제출을 전적으로 요구할 필요는 없는 태스크를 추가적으로 또는 대안적으로 포함할 수 있으며, 이 경우 태스크 스위치보드(134)는 정보를 원격 컴퓨팅 디바이스(들)에 라우팅하지 않을 수 있다.

사용자가 커스텀 커맨드를 아직 결정되지 않은 태스크에 매핑하기 위해 새로운 다이얼로그 루틴을 생성한다고 가정한다. 다양한 구현예들에서, 태스크 스위치보드(134)(또는 자동화 어시스턴트(120)의 하나 이상의 컴포넌트)는 새로운 다이얼로그 루틴을 태스크 인덱스(136) 내의 복수의 후보 태스크들과 비교할 수 있다. 예를 들어, 새로운 다이얼로그 루틴과 관련된 하나 이상의 사용자 정의 슬롯은 태스크 인덱스(136) 내의 후보 태스크들과 관련된 슬롯들과 비교될 수 있다. 추가적으로 또는 대안적으로, 새로운 다이얼로그 루틴의 슬롯들을 채우는 데 사용될 수 있는 하나 이상의 사용자 열거 값들은 복수의 후보 태스크들 중 하나 이상과 연관된 슬롯들을 채우는 데 사용될 수 있는 열거 값들과 비교될 수 있다. 추가적으로 또는 대안적으로, 매핑될 커맨드, 사용자의 호출에 포함된 하나 이상의 다른 트리거 단어들 등과 같은 새로운 다이얼로그 루틴의 다른 양태들은 복수의 후보 태스크들의 다양한 속성들과 비교될 수 있다. 비교에 기초하여, 커맨드가 매핑될 태스크는 복수의 후보 태스크들 중에서 선택될 수 있다.

사용자가 "타코를 주문하고 싶다"라는 커맨드로 호출되는 새로운 다이얼로그 루틴을 생성한다고 가정한다. 이 새로운 다이얼로그 루틴은 결정될 멕시코식 레스토랑으로 음식 주문을 한다고 추가로 가정한다(아마도 사용자는 자동화 어시스턴트(120)에 의존하여 사용자를 최상의 선택으로 안내하고 있다). 사용자는, 예를 들어, 자동화 어시스턴트(120)와의 자연 언어 다이얼로그에 참여함으로써, 쉘 타입(예를 들어, 바삭 바삭한, 부드러운, 밀가루, 옥수수 등), 육류 선택, 치즈의 타입, 소스의 타입, 토핑 등과 같은 이 태스크와 관련된 다양한 슬롯들을 정의할 수 있다. 일부 구현예들에서, 이들 슬롯들은 기존의 제3자 음식 주문 애플리케이션들(즉, 제3자 에이전트들)의 채워질 슬롯들과 비교되어, 어떤 제3자 에이전트가 가장 적합한지를 결정할 수 있다. 멕시코식 음식 주문을 받도록 구성된 다수의 제3자 에이전트들이 있을 수 있다. 예를 들어, 제 1 소프트웨어 에이전트는 (예를 들어, 재료를 커스텀화하기 위한 옵션없이) 미리 결정된 메뉴 아이템에 대한 주문을 받아 들일 수 있다. 제 2 소프트웨어 에이전트는 커스텀화된 타코 주문을 받아 들일 수 있고, 따라서 토핑, 쉘 타입 등과 같은 슬롯들과 관련될 수 있다. 관련된 슬롯을 포함하는 새로운 타코 주문 다이얼로그 루틴은 제 1 및 제 2 소프트웨어 에이전트들과 비교될 수 있다. 제 2 소프트웨어 에이전트는 새로운 다이얼로그 루틴에서 사용자에 의해 정의된 슬롯들과 보다 밀접하게 정렬된 슬롯들을 갖기 때문에, 제 2 소프트웨어 에이전트는, 예를 들어, 태스크 스위치보드(134)에 의해, "나는 타코를 주문하고 싶다"(또는 충분히 구문적으로/의미적으로 유사한 발언)는 커맨드와의 매핑을 위해 선택될 수 있다.

다이얼로그 루틴이 태스크를 완료하기 위해 채워질 필요가 있는 하나 이상의 슬롯을 정의할 경우, 사용자는 다이얼로그 루틴을 최초로 호출할 때 이러한 슬롯을 사전에 채울 필요는 없다. 이와는 반대로, 다양한 구현예들에서, 사용자가 다이얼로그 루틴을 호출할 때, 사용자가 호출 동안 필요한 슬롯들에 대한 값들을 제공하지 않는 한, 자동화 어시스턴트(120)는 사용자에게 이러한 값들을 요청하는 (예를 들어, 가청, 시각적) 출력이 자연 언어 출력으로서 제공되게 할 수 있다. 예를 들어, 위의 타코 주문 다이얼로그 루틴을 사용하여 사용자가 나중에 "나는 타코를 주문하고 싶다"는 발언을 제공한다고 가정한다. 이 다이얼로그 루틴은 채워질 필요가 있는 슬롯들을 가지기 때문에, 자동화 어시스턴트(120)는 임의의 누락된 슬롯들(예를 들어, 쉘 타입, 토핑, 육류 등)에 채울 값들에 대해 사용자에게 프롬프트함으로써 응답할 수 있다. 다른 한편으로, 일부 구현예들에서, 사용자는 다이얼로그 루틴을 호출할 때 슬롯들을 사전에 채울 수 있다. 사용자가 "딱딱한 쉘을 가진 생선 타코를 주문하고 싶다"는 문구를 발언한다고 가정한다. 이 예에서, 쉘 타입 및 육류에 대한 슬롯은 이미 각각 "딱딱한 쉘" 및 "생선" 값으로 채워져 있다. 따라서, 자동화 어시스턴트(120)는 토핑과 같은 누락된 슬롯 값에 대해 사용자에게 프롬프트할 수 있다. 일단 모든 필요한 슬롯들이 값들로 채워지면, 일부 구현예들에서, 태스크 스위치보드(134)는 태스크가 수행되도록 조치를 취할 수 있다.

도 2는 사용자에 의해 제공되는 자유 형식 자연 언어 입력(도 2 및 다른 곳에서의 "FFNLI")이 다이얼로그 루틴을 호출하는 데 어떻게 사용될 수 있는지 및 다이얼로그 루틴을 구현하는 것의 일부로서 자동화 어시스턴트(120)에 의해 수집된 데이터가 태스크의 수행을 위해 다양한 컴포넌트들에 어떻게 전파될 수 있는지의 일 예를 도시하고 있다. 사용자는 (인간 대 컴퓨터 다이얼로그 세션의 하나 이상의 차례를 통해) 구두 발언(들)에 대해 또는 구두 발언(들)으로서 타이핑된 FFNLI를 자동화 어시스턴트(120)에 제공한다. 자동화 어시스턴트(120)는, 예를 들어, 자연 언어 프로세서(122)(도 2에 도시되지 않음) 및/또는 다이얼로그 상태 추적기(124)(이 또한 도 2에 도시되지 않음)에 의해, FFNLI를 다양한 시맨틱 정보로, 예컨대, 사용자 목적, 채워질 하나 이상의 슬롯, 슬롯을 채우는 데 사용될 하나 이상의 값, 등으로 해석하고 파싱한다.

자동화 어시스턴트(120)는, 예를 들어, 다이얼로그 관리자(126)(도 2에 도시되지 않음)에 의해, 다이얼로그 루틴 엔진(130)과 상담하여, 사용자에 의해 제공된 FFNLI 내에 포함된 커맨드와 태스크 간의 매핑을 포함하는 다이얼로그 루틴을 식별할 수 있다. 일부 구현예들에서, 다이얼로그 루틴 엔진(130)은 사용자에 의해 작동되는 컴퓨팅 디바이스의 로컬 다이얼로그 루틴 인덱스(113) 또는 글로벌 다이얼로그 루틴 인덱스(132) 중 하나 또는 둘 모두와 상담할 수 있다. 일단 자동화 어시스턴트(120)가 매칭되는 다이얼로그 루틴(예를 들어, 사용자의 FFNLI에 포함된 커맨드와 가장 의미적으로/구문적으로 유사한 호출 커맨드를 포함하는 다이얼로그 루틴)을 선택하면, 필요시, 자동화 어시스턴트(120)는 다이얼로그 루틴을 위해 임의의 채워지지 않은 필요한 슬롯을 채우기 위한 값들에 대해 사용자에게 프롬프트할 수 있다.

모든 필요한 슬롯들이 채워지면, 자동화 어시스턴트(120)는 슬롯들을 채우는 데 사용되는 적어도 값들을 나타내는 데이터를 태스크 스위치보드(134)에 제공할 수 있다. 일부의 경우에, 데이터는 또한 슬롯들 자체 및/또는 사용자의 커맨드에 매핑된 하나 이상의 태스크를 식별할 수 있다. 태스크 스위치보드(134)는 이후 태스크의 수행을 가능하게 하기 위해 본원에서 "서비스"로 지칭될 것을 선택할 수 있다. 예를 들어, 도 2에서, 서비스는 공중 교환 전화 네트워크(public-switched telephone network)("PSTN") 서비스(240), SMS 및 MMS 메시지를 핸들링하기 위한 서비스(242), 이메일 서비스(244), 및 하나 이상의 제3자 소프트웨어 에이전트(246)를 포함한다. 타원으로 표시된 바와 같이, 임의의 다른 수의 추가 서비스가 태스크 스위치보드(134)에 이용 가능하거나 이용 가능하지 않을 수 있다. 이러한 서비스는 호출된 다이얼로그 루틴을 나타내는 데이터, 또는 간단히 "태스크 요청"을 하나 이상의 원격 컴퓨팅 디바이스에 라우팅하는 데 사용될 수 있다.

예를 들어, PSTN 서비스(240)는 (임의의 필요한 슬롯을 채울 값들을 포함하는) 호출된 다이얼로그 루틴을 나타내는 데이터를 수신하고 그 데이터를 제3자 클라이언트 디바이스(248)에 제공하도록 구성될 수 있다. 이 시나리오에서, 제3자 클라이언트 디바이스(248)는 셀룰러폰, 종래의 전화기, VoIP (Voice over IP) 전화기와 같은 전화기 호출을 수신하도록 구성된 컴퓨팅 디바이스, 전화기 호출을 만들고/수신하도록 구성된 컴퓨팅 디바이스, 등의 형태를 취할 수 있다. 일부 구현예들에서, 그러한 제3자 클라이언트 디바이스(248)에 제공되는 정보는, 예를 들어, 자동화 어시스턴트(120)에 의해(예를 들어, 자연 언어 생성기(128)에 의해) 및/또는 PSTN 서비스(240)에 의해 생성되는 자연 언어 출력을 포함할 수 있다. 이러한 자연 언어 출력은, 예를 들어, 수행될 태스크 및 상기 태스크와 관련된 파라미터들(즉, 필요한 슬롯들의 값들)을 전달하고/하거나 수신 측으로 하여금 사용자의 태스크의 수행을 가능하게 하도록 설계된 제한된 다이얼로그에 참여하게 하는 (예를 들어, 로보콜(robocall)과 매우 유사한) 컴퓨터 생성 발언(들)을 포함할 수 있다. 이러한 자연 언어 출력은, 예를 들어, 제3자 컴퓨팅 디바이스(248)에 의해, 인간 인식 가능한 출력(250)으로서, 예를 들어, 청각적, 시각적으로, 햅틱 피드백 등으로 제시될 수 있다.

피자를 주문하기 위해 다이얼로그 루틴이 생성되었다고 가정한다. 다이얼로그 루틴에 대해 (예를 들어, 사용자에 의해 또는 태스크 스위치보드(134)에 의해) 식별된 태스크가 사용자의 피자 주문을 제3자 소프트웨어 에이전트가 없는 특정 피자 가게에 제공하는 것이라고 추가로 가정한다. 일부 이러한 구현예들에서, 다이얼로그 루틴의 호출에 응답하여, PSTN 서비스(240)는 특정 피자 가게의 전화기에 전화 호출을 할 수 있다. 특정 피자 가게의 직원이 전화에 응답할 때, PSTN 서비스(240)는 사용자가 다이얼로그 루틴을 호출했을 때 사용자에 의해 지정된 크러스트 타입 및 토핑을 갖는 피자를 사용자가 주문하기를 원한다는 것을 피자 가게 직원에게 알려주는 자동화(예를 들어, IVR) 다이얼로그를 개시할 수 있다. 일부 구현예들에서, 피자 가게 직원은 피자 가게가, 예를 들어, "1"을 누르거나, 구두 확인을 제공하는 등에 의해, 사용자의 주문을 이행할 것임을 확인하도록 요청받을 수 있다. 일단 이 확인이 수신되면, 예를 들어, PSTN 서비스(240)에 제공될 수 있으며, 이 서비스는 다시 이 확인을 (예를 들어, 태스크 스위치보드(134)를 통해) 자동화 어시스턴트(120)에 포워딩할 수 있고, 자동화 어시스턴트(120)는 이후 (예를 들어, "당신의 피자는 주문중에 있다"와 같은 가청 및/또는 시각적 자연 언어 출력을 사용하여) 피자가 주문중에 있다는 것을 사용자에게 통지할 수 있다. 일부 구현예들에서, 피자 가게 직원은 사용자가 다이얼로그 루틴을 호출할 때 지정하지 않은 추가 정보(예를 들어, 다이얼로그 루틴을 생성하는 동안 지정되지 않은 슬롯들)를 요청할 수 있다.

SMS/MMS 서비스(242)는 유사한 방식으로 사용될 수 있다. 다양한 구현예들에서, SMS/MMS 서비스(242)는 하나 이상의 슬롯/값과 같은 호출된 다이얼로그 루틴을 나타내는 데이터와 함께, 예를 들어, 태스크 스위치보드(134)에 의해 제공될 수 있다. 이 데이터에 기초하여, SMS/MMS 서비스(242)는 다양한 포맷(예를 들어, SMS, MMS 등)으로 텍스트 메시지를 생성할 수 있고, 텍스트 메시지를 제3자 클라이언트 디바이스(248)에 전송할 수 있으며, 이 제3자 클라이언트 디바이스는 다시 한번 스마트폰일 수 있거나 다른 유사한 디바이스일 수 있다. 제3자 클라이언트 디바이스(248)를 작동시키는 사람(예를 들어, 피자 가게 직원)은 그 후 텍스트 메시지를 인간 인식 가능 출력(250)으로서 소비할 수 있다(예를 들어, 그것을 읽거나, 큰소리로 읽을 수 있다). 일부 구현예들에서, 텍스트 메시지는 "당신이 이 주문을 이행할 수 있는 경우 '1'을 응답하고 이행할 수 없는 경우 '2'를 응답하시오"와 같은 응답을 사람이 제공하도록 요청할 수 있다. 이러한 방식으로, PTSN 서비스(240)로 위에서 설명된 예와 유사하게, 다이얼로그 루틴을 호출하는 제 1 사용자는 제 2 사용자가 호출된 다이얼로그 루틴과 관련된 태스크를 이행하는 것을 도울 수 있도록 하기 위해, 제3자 디바이스(248)를 작동시키는 제 2 사용자와 비동기식으로 데이터를 교환할 수 있다. 이메일 서비스(244)는 SMS/MMS 서비스(242)와 유사하게 작동할 수 있지만, 예외로 되는 것은, 이메일 서비스(244)는 IMAP, POP, SMTP 등과 같은 이메일 관련 통신 프로토콜을 이용하여 제3자 컴퓨팅 디바이스(248)와 이메일을 생성 및/또는 교환한다는 것이다.

서비스들(240 내지 244) 및 태스크 스위치보드(134)는 사용자로 하여금 상호 작용될 수 있는 복잡한 소프트웨어 서비스들을 구현하기 위한 제3자들의 요건을 감소시키면서 제3자들과의 연계를 위한 다이얼로그 루틴을 생성하게 한다. 그러나, 적어도 일부의 제3자들은, 예를 들어, 원격 사용자들이 참여한 자동화 어시스턴트들(120)에 의해, 원격 사용자들과 자동으로 상호 작용하도록 구성된 제3자 소프트웨어 에이전트들(246)을 구축할 것을 선호할 수 있고 및/또는 구축하는 능력을 가질 것을 선호할 수 있다. 따라서, 다양한 구현예들에서, 하나 이상의 제3자 소프트웨어 에이전트들(246)은 사용자가 이들 제3자 소프트웨어 에이전트들과 매칭될 수 있는 다이얼로그 루틴들을 생성할 수 있도록 자동화 어시스턴트(들)(120) 및/또는 태스크 스위치보드(134)와 상호 작용하도록 구성될 수 있다.

사용자가 슬롯, 열거된 잠재적 슬롯 값, 다른 정보 등에 기초하여, 특정 제3자 에이전트(246)에 (전술한 바와 같이) 매칭되는 다이얼로그 루틴을 생성한다고 가정한다. 호출될 때, 다이얼로그 루틴은 자동화 어시스턴트(120)로 하여금 사용자 제공 슬롯 값을 포함하는 다이얼로그 루틴을 나타내는 데이터를 태스크 스위치보드(134)에 전송하게 할 수 있다. 태스크 스위치보드(134)는 다시 이 데이터를 매칭되는 제3자 소프트웨어 에이전트(246)에 제공할 수 있다. 일부 구현예들에서, 제3자 소프트웨어 에이전트(246)는 다이얼로그 루틴과 관련된 태스크를 수행할 수 있고, 결과(예를 들어, 성공/실패 메시지, 자연 언어 출력, 등)를, 예를 들어, 태스크 스위치보드(134)에 리턴할 수 있다.

제3자 소프트웨어 에이전트(246)로부터 자동화 어시스턴트(120)로의 화살표로 표시된 바와 같이, 일부 구현예들에서, 제3자 소프트웨어 에이전트(246)는 자동화 어시스턴트(120)와 직접 인터페이스할 수 있다. 예를 들어, 일부 구현예들에서, 제3자 소프트웨어 에이전트(246)는 자동화 어시스턴트(120)가, 예를 들어, 자연 언어 생성기(128)에 의해, 자연 언어 출력을 생성할 수 있게 하는 데이터(예를 들어, 상태 데이터)를 자동화 어시스턴트(120)에 제공할 수 있으며, 상기 자연 언어 출력은 이후, 예를 들어, 가청 및/또는 시각적 출력으로서, 다이얼로그 루틴을 호출한 사용자에게 제시된다. 추가적으로 또는 대안적으로, 제3자 소프트웨어 에이전트(246)는 자신의 자연 언어 출력을 생성할 수 있으며, 그 자연 언어 출력은 이후 자동화 어시스턴트(120)에 제공되며, 이 자동화 어시스턴트는 다시 그 자연 언어 출력을 사용자에게 출력한다.

도 2의 다양한 화살표들 중 다른 화살표에 의해 표시된 바와 같이, 상술된 예는 제한적인 것으로 의도되지는 않는다. 예를 들어, 일부 구현예들에서, 태스크 스위치보드(134)는 호출된 다이얼로그 루틴을 나타내는 데이터를 하나 이상의 서비스(240 내지 244)에 제공할 수 있고, 이들 서비스는 차례로 이 데이터(또는 수정된 데이터)를 하나 이상의 제3자 소프트웨어 에이전트(246)에 제공할 수 있다. 이들 제3자 소프트웨어 에이전트들(246) 중 일부는, 예를 들어, 텍스트 메시지 또는 이메일을 수신하고, 태스크 스위치보드(134)에 그리고 자동화 어시스턴트(120)로 향해 계속 리턴될 수 있는 응답을 자동으로 생성하도록 구성될 수 있다.

본 개시 내용의 선택된 양태들로 구성된 다이얼로그 루틴은 클라이언트 디바이스들(106)로부터 원격으로 실행/이행되는 태스크로 제한되지 않는다. 이와는 반대로, 일부 구현예들에서, 사용자는 자동화 어시스턴트(120)에 참여하여 다양한 태스크들을 로컬로 수행하는 다이얼로그 루틴을 생성할 수 있다. 비 제한적인 예로서, 사용자는 스마트폰과 같은 모바일 디바이스의 다수의 설정들을 단일 커맨드를 사용하여 한 번에 구성하는 다이얼로그 루틴을 생성할 수 있다. 예를 들어, 사용자는 입력으로서, Wi-Fi 설정, 블루투스(Bluetooth) 설정, 및 핫스팟(hot spot) 설정을 모두 한 번에 수신하고 이에 따라 이러한 설정들을 변경하는 다이얼로그 루틴을 생성할 수 있다. 다른 예로서, 사용자는 "늦을거야."라는 사용자의 언급으로 호출되는 다이얼로그 루틴을 생성할 수 있다. 사용자는, 이 커맨드가 자동화 어시스턴트(120)로 하여금, 예를 들어, 텍스트 메시지, 이메일 등을 사용하여, 사용자의 배우자와 같은 다른 사람에게 사용자가 어떠한 목적지에 늦게 도착할 것이라고 알리도록 자동화 어시스턴트(120)에 지시할 수 있다. 일부의 경우에, 이러한 다이얼로그 루틴을 위한 슬롯들은 사용자가 사용자의 의도한 목적지에 도달할 것으로 예상되는 시간을 포함할 수 있으며, 이는 사용자에 의해 채워지거나 위치 좌표 데이터, 캘린더 데이터, 등에 기초하여, 예를 들어, 자동화 어시스턴트(120)에 의해 자동 예측될 수 있다.

일부 구현예들에서, 사용자는 특정 슬롯들에서 미리 선택된 슬롯 값들을 사용하도록 다이얼로그 루틴들을 구성할 수 있어서, 사용자는 이들 슬롯 값들을 제공할 필요가 없고, 사용자가 그것들을 제공하지 않을 경우 그 값들에 대해 프롬프트되지 않을 것이다. 사용자가 피자 주문 다이얼로그 루틴을 생성한다고 가정한다. 사용자가 항상 얇은 크러스트를 선호한다고 가정한다. 다양한 구현예들에서, 사용자는 이 특정 다이얼로그 루틴이 호출될 때, 사용자가 달리 지정하지 않는 한, 슬롯 "크러스트 타입"이 기본값 "얇은 크러스트"로 자동으로 채워지도록 자동화 어시스턴트(120)에 지시할 수 있다. 이러한 방식으로, 사용자가 때때로 다른 크러스트 타입을 주문하고자 한다면(예를 들어, 사용자가 두꺼운 크러스트를 선호하는 방문자를 갖는 경우), 사용자는 다이얼로그 루틴을 표준으로서 호출할 수 있으며, 예외적인 것은, 사용자가 특히 다른 타입의 크러스트를 요청할 수 있는 경우, 예를 들어, "이봐 어시스턴트, 나에게 핸드 토스드 피자(hand-tossed pizza)를 주문해달라."를 요청할 수 있는 경우이다. 사용자가 간단히 "이봐 어시스턴트, 나에게 피자를 주문해달라"라고 말했으면, 자동화 어시스턴트(120)는 얇은 크러스트를 가정하고 사용자에게 다른 필요한 슬롯 값에 대해 프롬프트할 수 있다. 일부 구현예들에서, 자동화 어시스턴트(120)는 사용자가 선호하는 슬롯 값들을 시간에 따라 "학습"할 수 있다. 나중에, 사용자가 학습된 슬롯 값을 명시적으로 제공하지 않고 다이얼로그 루틴을 호출할 때, 자동화 어시스턴트(120)는 그 슬롯 값들을 가정할 수 있거나, 또는, 예를 들어, 사용자가 다이얼로그 루틴을 호출하는 미리 결정된 횟수 또는 특정 임계 빈도보다 많이 슬롯 값들을 제공한 경우, 사용자에게 그 슬롯 값을 확인하도록 요청할 수 있다.

도 3은 다양한 구현예들에 따라, 사용자가 피자 주문 다이얼로그 루틴을 호출할 때 발생할 수 있는 하나의 예시적인 프로세스 흐름을 도시한다. 301에서, 사용자는, 예를 들어, 자동화 어시스턴트 클라이언트(118)에게 호출 문구 "얇은 크러스트 피자를 주문해"를 발언함으로써 피자 주문 다이얼로그 루틴을 호출한다. 302에서, 자동화 어시스턴트 클라이언트(118)는 호출 문구를, 예를 들어, 레코딩, 전사된 텍스트 세그먼트, 축소된 차원의 임베딩, 등으로서, 클라우드 기반 자동화 어시스턴트 컴포넌트들(cloud-based automated assistant components)("CBAAC")(119)에 제공한다. 303에서, 자연 언어 프로세서(122), 다이얼로그 상태 추적기(124), 다이얼로그 관리자(126), 등과 같은 CBAAC(119)의 다양한 컴포넌트들은 전술한 바와 같은 요청을, 예를 들어, 다이얼로그 상황, 동사/명사 사전, 표준 발언, 동의어 사전(예를 들어, 유사어 사전(thesaurus)), 등과 같은 다양한 큐를 사용하여 처리하여, "피자"의 대상 및 "얇은 크러스트"의 속성(또는 "슬롯 값")과 같은 정보를 추출할 수 있다.

304에서, 이 추출된 데이터는 태스크 스위치보드(134)에 제공될 수 있다. 일부 구현예들에서, 305에서, 태스크 스위치보드(134)는 다이얼로그 루틴 엔진(130)과 상담하여, 예를 들어, 303에서 추출되고 304에서 수신된 데이터에 기초하여, 사용자의 요청과 매칭되는 다이얼로그 루틴을 식별할 수 있다. 도 3에 도시된 바와 같이, 이 예에서, 식별된 다이얼로그 루틴은 "주문"의 액션(그 자체는 슬롯일 수 있음), "피자"의 대상(일부 경우에는 슬롯일 수도 있음), "크러스트"(필수)의 속성(또는 슬롯), "토핑"(필수)의 또 다른 속성(또는 슬롯), 및 "주문 서비스"의 소위 "구현자"를 포함한다. 사용자가 다이얼로그 루틴을 어떻게 생성했는지 및/또는 다이얼로그 루틴이 특정 태스크(예를 들어, 특정 제3자 소프트웨어 에이전트(246))에 매칭되었는지에 따라, "구현자"는, 예를 들어, 도 2의 서비스들(240 내지 244) 중의 임의의 서비스, 및/또는 하나 이상의 제3자 소프트웨어 에이전트(246)일 수 있다.

306에서, 예를 들어, 태스크 스위치보드(134)에 의해, 다이얼로그 루틴을 위한 하나 이상의 필요한 슬롯이 아직 값들로 채워지지 않은 것으로 결정될 수 있다. 결과적으로, 태스크 스위치보드(134)는 자동화 어시스턴트(120)와 같은 컴포넌트(예를 들어, 도 3의 자동화 어시스턴트 클라이언트(118), 하지만 하나 이상의 CBAAC(119)와 같은 또 다른 컴포넌트일 수 있음)에게 하나 이상의 슬롯이 슬롯 값들로 채워져 유지되고 있음을 통지할 수 있다. 일부 구현예들에서, 태스크 스위치보드(134)는 이러한 채워지지 않은 슬롯들에 대해 사용자에게 프롬프트하는 필요한 자연 언어 출력(예를 들어, "토핑은 무엇인가?")을 생성할 수 있고, 자동화 어시스턴트 클라이언트(118)는, 예를 들어, 307에서, 이러한 자연 언어 출력을 사용자에게 간단히 제공할 수 있다. 다른 구현예들에서, 자동화 어시스턴트 클라이언트(118)에 제공된 데이터는 누락된 정보에 대한 통지를 제공할 수 있고, 자동화 어시스턴트 클라이언트(118)는 CBAAC(119)의 하나 이상의 컴포넌트와 연계하여 사용자에게 제시되는 자연 언어 출력을 생성함으로써, 누락된 슬롯 값들에 대해 사용자에게 프롬프트하게 할 수 있다.

간결함과 완전성을 위해 도 3에는 도시되지 않았지만, 사용자 제공 슬롯 값들은 태스크 스위치보드(134)로 리턴될 수 있다. 308에서, 모든 필요한 슬롯이 사용자 제공 슬롯 값으로 채워지면, 태스크 스위치보드(134)는 완전한 태스크를 공식화할 수 있다. 이 완전한 태스크는, 예를 들어, 태스크 스위치보드(134)에 의해, 적절한 구현자(350)에게 제공될 수 있으며, 이 구현자는, 전술한 바와 같이, 하나 이상의 서비스(240 내지 244), 하나 이상의 제3자 소프트웨어 에이전트(246), 등일 수 있다.

도 4는 본원에 개시된 구현예들에 따른 예시적인 방법(400)을 도시한 흐름도를 도시한다. 편의상, 흐름도의 동작은 그 동작을 수행하는 시스템을 참조하여 기술된다. 이 시스템은 자동화 어시스턴트(120)를 구현하는 컴퓨팅 시스템의 하나 이상의 컴포넌트와 같은, 다양한 컴퓨터 시스템의 다양한 컴포넌트를 포함할 수 있다. 또한, 방법(400)의 동작들이 특정 순서로 도시되어 있지만, 이는 제한적인 것으로 의도되지는 않는다. 하나 이상의 동작은 재순서화, 생략, 또는 추가될 수 있다.

블록(402)에서, 시스템은, 예를 들어, 클라이언트 디바이스(106)의 하나 이상의 입력 컴포넌트에서, 사용자로부터 제 1 자유 형식 자연 언어 입력을 수신할 수 있다. 다양한 구현예들에서, 제 1 자유 형식 자연 언어 입력은 태스크를 수행하기 위한 커맨드를 포함할 수 있다. 작업 예로서, 사용자가 "나는 피자를 원한다"라는 구두 발언을 제공한다고 가정한다.

블록(404)에서, 시스템은 제 1 자유 형식 자연 언어 입력에 대해 시멘틱 프로세싱을 수행할 수 있다. 예를 들어, 하나 이상의 CBAAC(119)는 사용자의 발언(또는 이의 축소된 차원의 임베딩)을 하나 이상의 표준 커맨드, 다양한 사전, 등과 비교할 수 있다. 자연 언어 프로세서(122)는 엔티티들을 식별하고, 코레퍼런스 식별을 수행하고, 스피치의 부분을 라벨링하는 등을 위해 전술한 분석의 다양한 양태를 수행할 수 있다. 블록(406)에서, 시스템은 블록(404)의 시멘틱 프로세싱에 기초하여, 자동화 어시스턴트(120)가 커맨드를 해석할 수 없는 것으로 결정할 수 있다. 일부 구현예들에서, 블록(408)에서, 시스템은 클라이언트 디바이스(106)의 하나 이상의 출력 컴포넌트에서, 자연 언어 출력: "나는 피자를 어떻게 주문하는지를 모른다."을 출력하는 것과 같이, 커맨드에 대해 사용자로부터 설명을 요구하는 출력을 제공할 수 있다.

블록(410)에서, 시스템은 하나 이상의 입력 컴포넌트에서, 사용자로부터 제 2 자유 형식 자연 언어 입력을 수신할 수 있다. 다양한 구현예들에서, 제 2 자유 형식 자연 언어 입력은 태스크를 수행하기 위해 값들로 채워질 필요가 있는 하나 이상의 슬롯을 식별할 수 있다. 예를 들어, 사용자는 "피자를 주문하려면 크러스트의 타입과 토핑들의 리스트를 알아야 한다."와 같은 자연 언어 입력을 제공할 수 있다. 이 특정 자유 형식 자연 언어 입력은 두 개의 슬롯: 크러스트의 타입과 토핑들의 리스트(기술적으로는 사용자가 원하는 토핑 수에 따른 임의의 수의 슬롯일 수 있음)를 식별한다.

전술한 바와 같이, 일부 구현예들에서, 사용자는 다이얼로그 루틴의 주어진 슬롯에 대한 잠재적 또는 후보 슬롯 값들의 리스트를 열거할 수 있다. 일부 구현예들에서, 이것은 사실상 그 슬롯을 열거된 리스트로부터의 하나 이상의 값들로 제한할 수 있다. 일부의 경우에, 슬롯들에 대한 가능한 값들을 열거하게 되면, 자동화 어시스턴트(120)는 어떤 슬롯이 특정 값으로 채워질지를 결정하고 및/또는 제공된 슬롯 값이 유효하지 않다는 것을 결정할 수 있다. 예를 들어, 사용자가 "두꺼운 크러스트, 토마토 및 타이어를 가진 피자를 나에게 주문하시오."라는 문구와 함께 다이얼로그 루틴을 호출한다고 가정한다. 자동화 어시스턴트(120)는 열거된 잠재적인 값들의 리스트 중 하나인 "두꺼운 크러스트"에 기초하여 "두꺼운 크러스트"를 슬롯 "크러스트 타입"에 매칭시킬 수 있다. "토마토"와 슬롯 "토핑"도 마찬가지이다. 그러나, "타이어"가 열거된 잠재적인 토핑 리스트에 없을 가능성이 있기 때문에, 자동화 어시스턴트(120)는 사용자에게 지정된 토핑 타이어에 대한 수정을 요청할 수 있다. 다른 구현예들에서, 사용자 제공 열거 리스트는, 예를 들어, 다이얼로그 루틴의 향후 호출 동안 사용자에게 제공될 제안들로서 자동화 어시스턴트(120)에 의해 사용될 수 있는 비 제한적인 잠재적 슬롯 값들을 단순히 포함할 수 있다. 이는 가능한 피자 토핑의 리스트가 잠재적으로 클 수 있는 피자 주문과 같은 상황에서 유리할 수 있고, 피자 가게 및/또는 시간에 따라 크게 달라질 수 있다(예를 들어, 피자 가게는 계절에 따라 농산물이 무엇인지에 따라 연중 다른 시간에 다른 토핑을 제공할 수 있다).

작업 예에 계속하여, 자동화 어시스턴트(120)는 "가능한 피자 크러스트 타입은 무엇인가?" 또는 "가능한 토핑은 무엇인가?"와 같은 질문을 요청할 수 있다. 사용자는, 열거된 가능성의 리스트를 제공하고, 열거된 리스트가 제한적인지(즉, 열거된 것 이외의 슬롯 값이 허용되지 않음) 또는 단순히 예시적인지를 표시함으로써, 각각의 이러한 질문에 응답할 수 있다. 일부의 경우에, 사용자는 주어진 슬롯이 특정 값으로 제한되지 않는다고 응답할 수 있고, 그에 따라, 자동화 어시스턴트(120)는 제한되지 않고 사용자가 제공하는 임의의 슬롯 값으로 그 슬롯을 채울 수 있다.

도 4로 돌아가면, 일단 사용자가 임의의 필수/선택적 슬롯의 정의 및/또는 잠재적인 슬롯 값들의 리스트의 열거를 완료하면, 블록(412)에서, 시스템, 예를 들어, 다이얼로그 루틴 엔진(130)은 사용자에 의해 제공된 커맨드와 태스크 간의 매핑을 포함하는 다이얼로그 루틴을 저장할 수 있다. 생성된 다이얼로그 루틴은, 입력으로서, 하나 이상의 슬롯을 채우기 위한 하나 이상의 값을 받아들이고, 그리고 다이얼로그 루틴과 연관된 태스크가, 예를 들어, 전술한 바와 같은 원격 컴퓨팅 디바이스에서 수행되도록 구성될 수 있다. 다이얼로그 루틴은 다양한 포맷으로 저장될 수 있으며, 어떤 포맷이 사용되는지는 본 발명의 상황에서 중요하지 않다.

일부 구현예들에서, 동작들(402 내지 408)과 같은 도 4의 다양한 동작들은, 특히 자동화 어시스턴트(120)가 먼저 사용자가 말한 무언가를 해석하지 못한다라기보다는, 자동화 어시스턴트(120)가 다이얼로그 루틴을 생성하도록 사용자가 명시적으로 요청하는 경우에, 생략될 수 있다. 예를 들어, 사용자는 다이얼로그 루틴의 생성을 트리거하기 위해 자동화 어시스턴트(120)에게 다음과 같은 "이봐, 어시스턴트, 나는 너에게 새로운 기법을 가르쳐 주고 싶어." 또는 그러한 취지의 문구를 간단히 언급할 수 있다. 이는, 예를 들어, 블록(410)에서 시작하는 방법(400)의 일부를 트리거할 수 있다. 물론, 많은 사용자는 자동화 어시스턴트(120)가 다이얼로그 루틴을 학습할 수 있다는 것을 인식하지 못할 수 있다. 따라서, 사용자가 자동화 어시스턴트(120)가 해석할 수 없는 커맨드 또는 요청을 발행할 때 자동화 어시스턴트(120)가 사용자를 블록들(402 내지 408)과 관련하여 위에서 언급된 바와 같은 프로세스를 관통하게 안내하는 것이 유리할 수 있다.

나중의 언젠가, 블록(414)에서, 시스템은 동일한 클라이언트 디바이스(106) 또는 다른 클라이언트 디바이스(106)(예를 들어, 클라이언트 디바이스들의 동일한 조정된 에코시스템의 또 다른 클라이언트 디바이스)의 하나 이상의 입력 컴포넌트에서, 사용자로부터의 후속하는 자유 형식 자연 언어 입력을 수신할 수 있다. 후속하는 자유 형식 자연 언어 입력은, 블록(412)에서 블록에 저장된 매핑에 기초하여 다이얼로그 루틴을 호출할 수 있는 커맨드 또는 그의 일부 구문적 및/또는 의미적 변형을 포함할 수 있다.

블록(416)에서, 시스템은 (예를 들어, 다이얼로그 루틴의 호출시 하나 이상의 필요한 슬롯 값을 제공하지 못한 사용자로부터 요구되는) 후속하는 자유 형식 자연 언어 입력 또는 추가의 자유 형식 자연 언어 입력에 기초하여, 다이얼로그 루틴과 관련된 태스크를 수행하기 위해 값들로 채워질 필요가 있는 하나 이상의 슬롯을 채우는 데 사용될 하나 이상의 값을 식별할 수 있다. 예를 들어, 사용자가 임의의 필요한 슬롯 값들에 대한 값들을을 제공하지 않고 단순히 다이얼로그 루틴을 호출하는 경우, 자동화 어시스턴트(120)는 사용자로부터의 값들을, 예를 들어, 한 번에 하나씩, 일괄적으로, 등으로 요청할 수 있다.

일부 구현예들에서, 블록(418)에서, 시스템은, 예를 들어, 태스크 스위치보드(134) 및/또는 하나 이상의 서비스들(240 내지 244)에 의해, 예를 들어, 제3자 클라이언트 디바이스(248) 및/또는 제3자 소프트웨어 에이전트(246)와 같은 원격 컴퓨팅 디바이스에, 하나 이상의 슬롯을 채우는 데 사용될 적어도 하나 이상의 값을 나타내는 데이터를 전송할 수 있다. 다양한 구현예들에서, 이러한 전송은 원격 컴퓨팅 디바이스로 하여금 태스크를 수행하게 할 수 있다. 예를 들어, 원격 컴퓨팅 디바이스가 제3자 소프트웨어 에이전트(246)를 작동시킨다면, 예를 들어, 태스크 스위치보드(134)로부터의 데이터의 수신은 제3자 소프트웨어 에이전트(246)가 사용자 제공 슬롯 값들을 사용하여 태스크를 수행하도록 트리거할 수 있다.

본원에 설명된 기술들은 다양한 상이한 제3자 소프트웨어 애플리케이션(예를 들어, 제3자 소프트웨어 에이전트)에 의해 수행될 수 있는 태스크들을 효과적으로 "함께 결합(glue together)"하는 데 사용될 수 있다. 실제로, 다수의 태스크들이 다수의 당사자들에 의해 수행될 수 있게 하는 단일 다이얼로그 루틴을 생성하는 것이 전적으로 가능하다. 예를 들어, 사용자는 "이봐 어시스턴트, 나는 아내를 저녁 식사와 영화에 데려 가고 싶어."와 같은 문구로 호출되는 다이얼로그 루틴을 생성할 수 있다. 사용자는 단일 다이얼로그 루틴에서 저녁 식사를 예약하는 것 및 영화 티켓을 구매하는 것과 같이, 다수의 태스크들과 관련된 슬롯들을 정의할 수 있다. 저녁 식사를 예약하기 위한 슬롯들은, 예를 들어, (사용자가 이미 특정 레스토랑을 선택했다고 가정하는) 레스토랑, (사용자가 아직 레스토랑을 선택하지 않은 경우) 요리 타입, 가격 범위, 시간 범위, 리뷰 범위(예를 들어, 별 3 개 초과), 등을 포함할 수 있다. 영화 티켓을 구매하기 위한 슬롯들은, 예를 들어, 영화, 극장, 시간 범위, 가격 범위, 등을 포함할 수 있다. 나중에, 사용자가 이 "저녁 식사 및 영화" 예약을 호출할 때, 사용자가 다양한 슬롯들을 채우기 위한 슬롯 값들을 사전에 제공하지 않는 한, 자동화 어시스턴트(120)는 사용자로부터 그러한 값들을 요구할 수 있다. 일단 자동화 어시스턴트가 다이얼로그 루틴의 각 태스크에 대해 모든 필요한 슬롯들에 대한 슬롯 값들을 가진다면, 자동화 어시스턴트(120)는 각각의 태스크가 수행되도록 전술한 바와 같이 다양한 원격 컴퓨팅 디바이스에 데이터를 전송할 수 있다. 일부 구현예들에서, 자동화 어시스턴트(120)는 어떤 태스크들이 수행되고 어떤 태스크가 여전히 보류 중인지에 대해 사용자에게 계속 알려줄 수 있다. 일부 구현예들에서, 자동화 어시스턴트(120)는 모든 태스크들이 수행될 때(또는 하나 이상의 태스크가 수행될 수 없는 경우) 사용자에게 통지할 수 있다.

일부의 경우(단일 다이얼로그 예약에서 다수의 태스크들이 서로 결합되는지에 관계없이), 자동화 어시스턴트(120)는 먼저 잠재적인 슬롯 값들(예를 들어, 상영중인 영화, 쇼 타임, 이용 가능한 저녁 식사 예약, 등)을 검색하고, 그 후 이러한 잠재적인 슬롯 값들을 사용자에게, 예를 들어, 제안들로서 또는 열거된 가능성의 리스트로서, 제시함으로써 사용자에게 특정 슬롯 값들에 대해 프롬프트할 수 있다. 일부 구현예들에서, 자동화 어시스턴트(120)는 이러한 리스트들을 좁히기 위해, 사용자의 선호도, 과거의 사용자 활동, 등과 같은 사용자의 다양한 양태들을 이용할 수 있다. 예를 들어, 사용자(및/또는 사용자의 배우자)가 특정 타입의 영화(예를 들어, 고평가, 코미디, 공포, 액션, 드라마 등)를 선호하는 경우, 자동화 어시스턴트(120)는 잠재적인 슬롯 값들의 리스트(들)를 사용자에게 제시하기 전에 그것을 좁힐 수 있다.

자동화 어시스턴트(120)는 특정 태스크(예를 들어, 제품 주문, 예약, 등)의 수행을 위해 요구될 수 있는 지불에 관한 다양한 접근법을 취할 수 있다. 일부 구현예들에서, 자동화 어시스턴트(120)는 자동화 어시스턴트(120)가, 예를 들어, 필요에 따라 제3자 소프트웨어 에이전트들(246)에게 제공할 수 있는 사용자 제공 지불 정보(예를 들어, 하나 이상의 신용 카드)에 대한 액세스를 가질 수 있다. 일부 구현예들에서, 사용자가 지불을 요구하는 태스크를 수행하기 위한 대화 루틴을 생성할 때, 자동화 어시스턴트(120)는 사용자에게 사용자의 프로파일과 이미 연관된 지불 정보에 대해 및/또는 그 지불 정보를 사용하기 위한 허가에 대해 프롬프트할 수 있다. 호출된 다이얼로그 루틴을 나타내는 데이터(하나 이상의 슬롯 값을 포함함)가 자연 언어 출력으로서 출력되도록 제3자 컴퓨팅 디바이스(예를 들어, 248)에 제공되는 일부 구현예들에서, 사용자의 지불 정보가 제공될 수 있거나 또는 제공되지 않을 수도 있다. 예를 들어, 음식을 주문할 때, 사용자의 지불 정보가 제공되지 않는 경우, 음식 공급 업체는 음식을 사용자의 도어(door)로 배달할 때 사용자에게 지불을 간단히 요청할 수 있다.

일부 구현예들에서, 자동화 어시스턴트(120)는 패턴을 검출하기 위해 하나 이상의 클라이언트 컴퓨팅 디바이스 상에서 동작하는 하나 이상의 애플리케이션과의 사용자 연계를 분석함으로써 새로운 다이얼로그 루틴을 "학습"할 수 있다. 다양한 구현예들에서, 자동화 어시스턴트(120)는 예를 들어, 기존의 인간 대 컴퓨터 다이얼로그 동안 사전에 또는 다른 타입의 통지(예를 들어, 팝업 카드, 텍스트 메시지, 등)로서, 사용자에게 자연 언어 출력을 제공할 수 있으며, 이 자동화 어시스턴트는 일반적으로 실행되는 액션들/태스크들의 시퀀스를 구두 커맨드에 할당하기를 원하는지를 사용자에게 문의하고, 사용자가 다이얼로그 루틴을 명시적으로 요청하지 않고도 사실상 그 다이얼로그 루틴을 구축하고 추천한다.

일 예로서, 사용자는 (예를 들어, 레스토랑과 연관된) 단일 음식 주문 웹 사이트를 반복적으로 방문하고, 메뉴와 연관된 웹 페이지를 보고, 그 후, 사용자가 동일한 음식 주문 웹 사이트와 관련된 전화 번호에 전화를 걸도록 동작하는 별도의 전화 애플리케이션을 연다고 가정한다. 자동화 어시스턴트(120)는 이 패턴을 검출하고 사용자에게 추천하기 위한 다이얼로그 루틴을 생성할 수 있다. 일부 구현예들에서, 자동화 어시스턴트(120)는 다이얼로그 루틴에 통합될 수 있는 잠재적인 슬롯들 및/또는 잠재적인 슬롯 값들에 대한 메뉴 웹 페이지를 스크레이프(scrape)하고, (자동화 어시스턴트(120)가 제안할 수 있거나 사용자에 의해 제공될 수 있는) 하나 이상의 커맨드를 음식 주문 태스크에 매핑할 수 있다. 이 사례에서, 음식 주문 태스크는 전화 번호를 호출하는 것과, PSTN(240)과 관련하여 전술된 바와 같은 음식 주문 웹 사이트의 직원에게 자연 언어 메시지(예를 들어, 로보콜)를 출력하는 것을 포함할 수 있다.

음식을 주문하기 위한 (또는 일반적으로 다른 태스크를 수행하기 위한) 다른 액션들의 시퀀스들이 또한 검출될 수 있다. 예를 들어, 사용자가 일반적으로 음식을 주문하기 위해 제3자 클라이언트 애플리케이션을 열고 제3자 클라이언트 애플리케이션이 GUI 기반 애플리케이션이라고 가정한다. 자동화 어시스턴트(120)는 이를 검출하고, 예를 들어, 제3자 클라이언트 애플리케이션이 제3자 소프트웨어 에이전트(예를 들어, 246)와 인터페이스한다고 결정할 수 있다. 제3자 클라이언트 애플리케이션과 상호 작용하는 것 외에도, 이 제3자 소프트웨어 에이전트(246)는 자동화 어시스턴트들과 상호 작용하도록 사전에 구성될 수 있다. 이러한 시나리오에서, 자동화 어시스턴트(120)는 제3자 소프트웨어 에이전트(246)와 상호 작용하기 위한 다이얼로그 루틴을 생성할 수 있다. 또는, 제3자 소프트웨어 에이전트(246)가 현재 자동화 어시스턴트와 상호 작용할 수 없다고 가정한다. 일부 구현예들에서, 자동화 어시스턴트는 각각의 주문에 대해 제3자 클라이언트 애플리케이션에 의해 어떠한 정보가 제공되는지를 결정할 수 있고, 그 정보를 사용하여 다이얼로그 루틴을 위한 슬롯들을 생성할 수 있다. 사용자가 나중에 그 다이얼로그 루틴을 호출할 때, 자동화 어시스턴트(120)는 필요한 슬롯을 채울 수 있고, 그 후 이들 슬롯들/슬롯 값들에 기초하여, 제3자 소프트웨어 에이전트(246)와 호환되는 데이터를 생성할 수 있다.

도 5는 본원에 설명된 기술들의 하나 이상의 양태를 수행하기 위해 선택적으로 이용될 수 있는 예시적인 컴퓨팅 디바이스(510)의 블록도이다. 일부 구현예들에서, 하나 이상의 클라이언트 컴퓨팅 디바이스 및/또는 다른 컴포넌트(들)는 예시적인 컴퓨팅 디바이스(510)의 하나 이상의 컴포넌트를 포함할 수 있다.

컴퓨팅 디바이스(510)는 전형적으로 버스 서브 시스템(512)을 통해 다수의 주변 디바이스들과 통신하는 적어도 하나의 프로세서(514)를 포함한다. 이러한 주변 디바이스들은, 예를 들어, 메모리 서브 시스템(525) 및 파일 저장 서브 시스템(526), 사용자 인터페이스 출력 디바이스들(520), 사용자 인터페이스 입력 디바이스들(522), 및 네트워크 인터페이스 서브 시스템(516)을 포함한 저장 서브 시스템(524)을 포함할 수 있다. 입력 및 출력 디바이스들은 컴퓨팅 디바이스(510)와의 사용자 상호 작용을 가능하게 한다. 네트워크 인터페이스 서브 시스템(516)은 외부 네트워크에 대한 인터페이스를 제공하고 다른 컴퓨팅 디바이스들의 해당 인터페이스 디바이스들에 연결된다.

사용자 인터페이스 입력 디바이스들(522)은 키보드, 포인팅 디바이스들(예를 들어, 마우스, 트랙볼, 터치 패드, 또는 그래픽 태블릿), 스캐너, 디스플레이에 통합된 터치 스크린, 오디오 입력 디바이스들(예를 들어, 음성 인식 시스템, 마이크로폰, 및/또는 다른 타입의 입력 디바이스들)을 포함할 수 있다. 일반적으로, "입력 디바이스"라는 용어의 사용은 모든 가능한 타입의 디바이스들, 및 정보를 컴퓨팅 디바이스(510) 내로 또는 통신 네트워크 상으로 입력하는 방법들을 포함하도록 의도된다.

사용자 인터페이스 출력 디바이스들(520)은 디스플레이 서브 시스템, 프린터, 팩스 머신, 또는 오디오 출력 디바이스들과 같은 비 시각적 디스플레이들을 포함할 수 있다. 디스플레이 서브 시스템은 음극선관(CRT), 액정 디스플레이(LCD)와 같은 평면 패널 디바이스, 프로젝션 디바이스, 또는 가시적인 이미지를 생성하기 위한 어떠한 다른 메커니즘을 포함할 수 있다. 디스플레이 서브 시스템은 또한 오디오 출력 디바이스들을 통한 것과 같은 비 시각적 디스플레이를 제공할 수 있다. 일반적으로, "출력 디바이스"라는 용어의 사용은 모든 가능한 타입의 디바이스들, 및 정보를 컴퓨팅 디바이스(510)로부터 사용자로 또는 다른 머신 또는 컴퓨팅 디바이스로 출력하는 방법들을 포함하도록 의도된다.

저장 서브 시스템(524)은 본원에 기술된 일부 또는 모든 모듈의 기능을 제공하는 프로그래밍 및 데이터 구성물을 저장한다. 예를 들어, 저장 서브 시스템(524)은 도 4의 방법의 선택된 양태들을 수행할 뿐만 아니라 도 1 내지 도 3에 도시된 다양한 컴포넌트를 구현하기 위한 로직을 포함할 수 있다.

이들 소프트웨어 모듈은 일반적으로 프로세서(514)에 의해 단독으로 또는 다른 프로세서들과 조합하여 실행된다. 저장 서브 시스템(524)에 사용된 메모리(525)는 프로그램 실행 동안 명령어 및 데이터를 저장하기 위한 메인 랜덤 액세스 메모리(RAM)(530) 및 고정 명령어가 저장되어 있는 판독 전용 메모리(ROM)(532)를 포함한 다수의 메모리를 포함할 수 있다. 파일 저장 서브 시스템(526)은 프로그램 및 데이터 파일들을 위한 영구 저장 공간을 제공할 수 있으며, 하드 디스크 드라이브, 플로피 디스크 드라이브 및 관련 이동식 매체, CD-ROM 드라이브, 광학 드라이브, 또는 이동식 매체 카트리지를 포함할 수 있다. 특정 구현예들의 기능을 구현하는 모듈들은 파일 저장 서브 시스템(526)에 의해 저장 서브 시스템(524)에 또는 프로세서(들)(514)에 의해 액세스 가능한 다른 머신에 저장될 수 있다.

버스 서브 시스템(512)은 컴퓨팅 디바이스(510)의 다양한 컴포넌트들 및 서브 시스템들이 의도된 대로 서로 통신하게 하는 메커니즘을 제공한다. 버스 서브 시스템(512)이 단일 버스로서 개략적으로 도시되어 있지만, 버스 서브 시스템의 대안적인 구현예는 다수의 버스들을 사용할 수 있다.

컴퓨팅 디바이스(510)는 워크스테이션, 서버, 컴퓨팅 클러스터, 블레이드 서버, 서버 팜, 또는 임의의 다른 데이터 처리 시스템 또는 컴퓨팅 디바이스를 포함하는 다양한 타입일 수 있다. 컴퓨터 및 네트워크의 끊임없이 변화하는 특성으로 인해, 도 5에 도시된 컴퓨팅 디바이스(510)의 설명은 일부 구현예들을 설명하기 위한 목적의 특정 예로서만 의도된다. 컴퓨팅 디바이스(510)의 많은 다른 구성들은 도 5에 도시된 컴퓨팅 디바이스보다 더 많거나 적은 컴포넌트들을 가질 수 있다.

본원에서 논의된 특정 구현예들이 사용자에 관한 개인 정보(예를 들어, 다른 전자 통신으로부터 추출된 사용자 데이터, 사용자의 소셜 네트워크에 관한 정보, 사용자의 위치, 사용자의 시간, 사용자의 생체 정보, 및 사용자의 활동 및 인구 통계 정보, 사용자 간의 관계, 등)를 수집하거나 사용할 수 있는 상황에서, 사용자에게는 정보가 수집되는지, 개인 정보가 저장되는지, 개인 정보가 사용되는지, 및 사용자에 관한 정보가 어떻게 수집되고, 저장되고 사용되는지를 제어할 수 있는 하나 이상의 기회가 제공된다. 즉, 본원에서 논의된 시스템들 및 방법들은 관련 사용자로부터 개인 정보를 수집, 저장 및/또는 사용할 수 있는 명시적인 허가를 받은 경우에만 그 사용자 개인 정보를 수집, 저장 및/또는 사용한다.

예를 들어, 사용자에게는 프로그램 또는 특징이 그 특정 사용자 또는 그 프로그램 또는 특징과 관련된 다른 사용자에 관한 사용자 정보를 수집하는지에 대한 제어가 제공된다. 개인 정보가 수집될 각 사용자에게는, 해당 사용자와 관련된 정보 수집에 대한 제어를 가능하게 하여, 그 정보가 수집되는지 및 그 정보의 어느 부분이 수집되는지에 대한 허가 또는 권한을 제공할 수 있는 하나 이상의 옵션이 제공된다. 예를 들어, 사용자에게는 통신 네트워크를 통해 하나 이상의 이러한 제어 옵션이 제공될 수 있다. 또한, 특정 데이터는 개인으로 식별 가능한 정보가 제거되도록 저장되거나 사용되기 전에 하나 이상의 방식으로 처리될 수 있다. 일 예로서, 사용자의 신원은 개인적으로 식별 가능한 정보가 결정될 수 없도록 처리될 수 있다. 다른 예로서, 사용자의 지리적 위치는 사용자의 특정 위치가 결정될 수 없도록 더 큰 영역으로 일반화될 수 있다.

여러 구현예들이 본원에서 설명되고 도시되었지만, 본원에 기술된 기능을 수행하고/하거나 본원에 설명된 결과 및/또는 하나 이상의 장점을 획득하기 위한 다양한 다른 수단들 및/또는 구조들이 이용될 수 있으며, 그러한 변형들 및/또는 수정들의 각각은 본원에 기술된 구현예들의 범주 내에 있는 것으로 간주된다. 보다 일반적으로, 본원에 기술된 모든 파라미터들, 치수들, 재료들, 및 구성들은 예시적인 것으로 의미되며, 이며 실제의 파라미터들, 치수들, 재료들, 및/또는 구성들은 교시가 사용되는 특정 애플리케이션 또는 애플리케이션들에 의존할 것이라는 것으로 의미된다. 본 기술 분야의 기술자들은 하나 초과의 루틴 실험을 사용하여 본원에 기술된 특정 구현예들에 대한 많은 등가물을 인식하거나 확인할 수 있을 것이다. 그러므로, 전술한 구현예들은 단지 예로서만 제시된 것이며 구현예들이 첨부된 청구항들 및 그의 등가물들의 범주 내에서 실시될 수 있고 구체적으로 기술되고 청구된 것과 다른 방식으로 실시될 수 있음을 이해해야 한다. 본 개시 내용의 구현예들은 본원에 기술된 각각의 개별 특징, 시스템, 물품, 재료, 키트, 및/또는 방법에 관한 것이다. 또한, 두 개 이상의 그러한 특징들, 시스템들, 물품들, 재료들, 키트들, 및/또는 방법들의 임의의 조합은, 그러한 특징들, 시스템들, 물품들, 재료들, 키트들, 및/또는 방법들이 서로 모순되는 것이 아니라면, 본 개시 내용의 범주 내에 포함된다.

Claims

하나 이상의 프로세서에 의해 실행되는 자동화 어시스턴트에 의해 구현되는 방법으로서,
컴퓨팅 디바이스의 하나 이상의 입력 컴포넌트에서, 사용자로부터 제 1 자유 형식 자연 언어 입력을 수신하는 단계 - 상기 제 1 자유 형식 자연 언어 입력은 태스크를 수행하기 위한 커맨드를 포함함 - ;
상기 제 1 자유 형식 자연 언어 입력에 대해 시멘틱 프로세싱을 수행하는 단계; 상기 시멘틱 프로세싱에 기초하여, 상기 자동화 어시스턴트가 상기 커맨드를 해석할 수 없음을 결정하는 단계;
상기 컴퓨팅 디바이스의 하나 이상의 출력 컴포넌트에서, 상기 커맨드에 대해 상기 사용자로부터의 설명을 요구하는 출력을 제공하는 단계;
상기 하나 이상의 입력 컴포넌트에서, 상기 사용자로부터 제 2 자유 형식 자연 언어 입력을 수신하는 단계 - 상기 제 2 자유 형식 자연 언어 입력은 상기 태스크를 수행하기 위해 값들로 채워질 필요가 있는 하나 이상의 슬롯을 식별함 - ;
상기 커맨드와 상기 태스크 간의 매핑을 포함하고 상기 하나 이상의 슬롯을 채우기 위해 하나 이상의 값을 입력으로 받아들이는 다이얼로그 루틴을 저장하는 단계;
상기 하나 이상의 입력 컴포넌트에서, 상기 사용자로부터 제 3 자유 형식 자연 언어 입력을 수신하는 단계 - 상기 제 3 자유 형식 자연 언어 입력은 상기 매핑에 기초하여 상기 다이얼로그 루틴을 호출함 - ;
상기 제 3 자유 형식 자연 언어 입력 또는 추가의 자유 형식 자연 언어 입력에 기초하여, 상기 태스크를 수행하기 위해 값들로 채워질 필요가 있는 상기 하나 이상의 슬롯을 채우는 데 사용될 하나 이상의 값을 식별하는 단계; 및
상기 하나 이상의 슬롯을 채우는 데 사용될 적어도 상기 하나 이상의 값을 나타내는 데이터를 원격 컴퓨팅 디바이스에 전송하는 단계를 포함하며, 상기 전송은 상기 원격 컴퓨팅 디바이스로 하여금 상기 태스크를 수행하게 하는
방법.
제1항에 있어서,
상기 다이얼로그 루틴을 상기 자동화 어시스턴트에 의해 수행될 수 있는 복수의 후보 태스크들과 비교하는 단계; 및
상기 비교에 기초하여, 상기 커맨드가 매핑되는 태스크를 상기 복수의 후보 태스크들로부터 선택하는 단계를 추가로 포함하는
방법.
제2항에 있어서,
상기 커맨드가 매핑되는 태스크는 제3자 에이전트 태스크를 포함하며, 상기 전송은 상기 원격 컴퓨팅 디바이스로 하여금 상기 하나 이상의 슬롯을 채우도록 상기 하나 이상의 값을 사용하여 상기 제3자 에이전트 태스크를 수행하게 하는
방법.
제2항에 있어서,
상기 비교하는 단계는 상기 태스크를 수행하기 위해 채워질 필요가 있는 상기 하나 이상의 슬롯을 상기 복수의 후보 태스크들의 각각과 연관된 하나 이상의 슬롯과 비교하는 것을 포함하는
방법.
제2항에 있어서,
상기 저장하기 전에 상기 하나 이상의 입력 컴포넌트에서, 상기 사용자로부터 제 4 자유 형식 자연 언어 입력을 수신하는 단계를 추가로 포함하고, 상기 제 4 자유 형식 자연 언어 입력은 상기 하나 이상의 슬롯을 채우기 위한 가능한 값들의 사용자 제공 열거 리스트를 포함하고, 상기 비교하는 단계는 상기 복수의 후보 태스크들의 각각에 대해, 상기 가능한 값들의 사용자 제공 열거 리스트를 상기 후보 태스크의 하나 이상의 슬롯을 채우기 위한 가능한 값들의 열거 리스트와 비교하는 것을 포함하는
방법.
제1항에 있어서,
상기 적어도 하나 이상의 값을 나타내는 데이터는 상기 커맨드 또는 상기 커맨드가 매핑되는 태스크의 표시 중 하나 또는 둘 다를 추가로 포함하는
방법.
제6항에 있어서,
상기 적어도 하나 이상의 값을 나타내는 데이터는 상기 하나 이상의 값에 기초하여 상기 태스크의 실행을 요청하는 자연 언어 출력의 형태를 취하고, 상기 전송은 상기 원격 컴퓨팅 디바이스로 하여금 출력으로서 자연 언어를 제공하게 하는
방법.
하나 이상의 프로세서에 의해 실행되는 자동화 어시스턴트에 의해 구현되는 방법으로서,
컴퓨팅 디바이스의 하나 이상의 입력 컴포넌트에서, 사용자로부터 제 1 자유 형식 자연 언어 입력을 수신하는 단계 - 상기 제 1 자유 형식 자연 언어 입력은 태스크에 매핑되도록 사용자가 의도한 커맨드, 및 상기 태스크를 수행하기 위해 값들로 채워질 필요가 있는 하나 이상의 슬롯을 포함함 - ;
상기 커맨드와 상기 태스크 간의 매핑을 포함하고 상기 하나 이상의 슬롯을 채우기 위해 하나 이상의 값을 입력으로 받아들이는 다이얼로그 루틴을 저장하는 단계;
상기 하나 이상의 입력 컴포넌트에서, 상기 사용자로부터 제 2 자유 형식 자연 언어 입력을 수신하는 단계 - 상기 제 2 자유 형식 자연 언어 입력은 상기 매핑에 기초하여 상기 다이얼로그 루틴을 호출함 - ;
상기 제 2 자유 형식 자연 언어 입력 또는 추가의 자유 형식 자연 언어 입력에 기초하여, 상기 태스크를 수행하기 위해 값들로 채워질 필요가 있는 상기 하나 이상의 슬롯을 채우는 데 사용될 하나 이상의 값을 식별하는 단계; 및
상기 하나 이상의 슬롯을 채우는 데 사용될 적어도 상기 하나 이상의 값을 나타내는 데이터를 원격 컴퓨팅 디바이스에 전송하는 단계를 포함하며, 상기 전송은 상기 원격 컴퓨팅 디바이스로 하여금 상기 태스크를 수행하게 하는
방법.
제8항에 있어서,
상기 다이얼로그 루틴을 상기 자동화 어시스턴트에 의해 수행될 수 있는 복수의 후보 태스크들과 비교하는 단계; 및
상기 비교에 기초하여, 상기 커맨드가 매핑되는 태스크를 상기 복수의 후보 태스크들로부터 선택하는 단계를 추가로 포함하는
방법.
제9항에 있어서,
상기 커맨드가 매핑되는 태스크는 제3자 에이전트 태스크를 포함하며, 상기 전송은 상기 원격 컴퓨팅 디바이스로 하여금 상기 하나 이상의 슬롯을 채우도록 상기 하나 이상의 값을 사용하여 상기 제3자 에이전트 태스크를 수행하게 하는
방법.
제9항에 있어서,
상기 비교하는 단계는 상기 태스크를 수행하기 위해 채워질 필요가 있는 상기 하나 이상의 슬롯을 상기 복수의 후보 태스크들의 각각과 연관된 하나 이상의 슬롯과 비교하는 것을 포함하는
방법.
제8항에 있어서,
상기 적어도 하나 이상의 값을 나타내는 데이터는 상기 커맨드 또는 상기 커맨드가 매핑되는 태스크의 표시 중 하나 또는 둘 다를 추가로 포함하는
방법.
제12항에 있어서,
상기 적어도 하나 이상의 값을 나타내는 데이터는 상기 하나 이상의 값에 기초하여 상기 태스크의 실행을 요청하는 자연 언어 출력의 형태를 취하고, 상기 전송은 상기 원격 컴퓨팅 디바이스로 하여금 출력으로서 자연 언어를 제공하게 하는
방법.
하나 이상의 프로세서에 의한 명령어의 실행에 응답하여, 상기 하나 이상의 프로세서로 하여금 다음의 동작을 수행하게 하는 명령어를 기록한 적어도 하나의 비 일시적 컴퓨터 판독 가능 매체로서,
상기 동작은:
컴퓨팅 디바이스의 하나 이상의 입력 컴포넌트에서, 사용자로부터 제 1 자유 형식 자연 언어 입력을 수신하는 것 - 상기 제 1 자유 형식 자연 언어 입력은 태스크를 수행하기 위한 커맨드를 포함함 - ;
상기 제 1 자유 형식 자연 언어 입력에 대해 시멘틱 프로세싱을 수행하는 것;
상기 시멘틱 프로세싱에 기초하여, 자동화 어시스턴트가 상기 커맨드를 해석할 수 없음을 결정하는 것;
상기 컴퓨팅 디바이스의 하나 이상의 출력 컴포넌트에서, 상기 커맨드에 대해 상기 사용자로부터의 설명을 요구하는 출력을 제공하는 것;
상기 하나 이상의 입력 컴포넌트에서, 상기 사용자로부터 제 2 자유 형식 자연 언어 입력을 수신하는 것 - 상기 제 2 자유 형식 자연 언어 입력은 상기 태스크를 수행하기 위해 값들로 채워질 필요가 있는 하나 이상의 슬롯을 식별함 - ;
상기 커맨드와 상기 태스크 간의 매핑을 포함하고 상기 하나 이상의 슬롯을 채우기 위해 하나 이상의 값을 입력으로 받아들이는 다이얼로그 루틴을 저장하는 것;
상기 하나 이상의 입력 컴포넌트에서, 상기 사용자로부터 제 3 자유 형식 자연 언어 입력을 수신하는 것 - 상기 제 3 자유 형식 자연 언어 입력은 상기 매핑에 기초하여 상기 다이얼로그 루틴을 호출함 - ;
상기 제 3 자유 형식 자연 언어 입력 또는 추가의 자유 형식 자연 언어 입력에 기초하여, 상기 태스크를 수행하기 위해 값들로 채워질 필요가 있는 상기 하나 이상의 슬롯을 채우는 데 사용될 하나 이상의 값을 식별하는 것; 및
상기 하나 이상의 슬롯을 채우는 데 사용될 적어도 상기 하나 이상의 값을 나타내는 데이터를 원격 컴퓨팅 디바이스에 전송하는 것을 포함하며, 상기 전송은 상기 원격 컴퓨팅 디바이스로 하여금 상기 태스크를 수행하게 하는
비 일시적 컴퓨터 판독 가능 매체.
제14항에 있어서,
상기 다이얼로그 루틴을 상기 자동화 어시스턴트에 의해 수행될 수 있는 복수의 후보 태스크들과 비교하는 것; 및
상기 비교에 기초하여, 상기 커맨드가 매핑되는 태스크를 상기 복수의 후보 태스크들로부터 선택하는 것을 수행하게 하는 명령어를 추가로 포함하는
비 일시적 컴퓨터 판독 가능 매체.
제15항에 있어서,
상기 커맨드가 매핑되는 태스크는 제3자 에이전트 태스크를 포함하며, 상기 전송은 상기 원격 컴퓨팅 디바이스로 하여금 상기 하나 이상의 슬롯을 채우도록 상기 하나 이상의 값을 사용하여 상기 제3자 에이전트 태스크를 수행하게 하는
비 일시적 컴퓨터 판독 가능 매체.
제15항에 있어서,
상기 비교하는 것은 상기 태스크를 수행하기 위해 채워질 필요가 있는 상기 하나 이상의 슬롯을 상기 복수의 후보 태스크들의 각각과 연관된 하나 이상의 슬롯과 비교하는 것을 포함하는
비 일시적 컴퓨터 판독 가능 매체.
제15항에 있어서,
상기 저장하기 전에 상기 하나 이상의 입력 컴포넌트에서, 상기 사용자로부터 제 4 자유 형식 자연 언어 입력을 수신하기 위한 명령어를 추가로 포함하고, 상기 제 4 자유 형식 자연 언어 입력은 상기 하나 이상의 슬롯을 채우기 위한 가능한 값들의 사용자 제공 열거 리스트를 포함하고, 상기 비교하는 것은 상기 복수의 후보 태스크들의 각각에 대해, 상기 가능한 값들의 사용자 제공 열거 리스트를 상기 후보 태스크의 하나 이상의 슬롯을 채우기 위한 가능한 값들의 열거 리스트와 비교하는 것을 포함하는
비 일시적 컴퓨터 판독 가능 매체.
제14항에 있어서,
상기 적어도 하나 이상의 값을 나타내는 데이터는 상기 커맨드 또는 상기 커맨드가 매핑되는 태스크의 표시 중 하나 또는 둘 다를 추가로 포함하는
비 일시적 컴퓨터 판독 가능 매체.
제19항에 있어서,
상기 적어도 하나 이상의 값을 나타내는 데이터는 상기 하나 이상의 값에 기초하여 상기 태스크의 실행을 요청하는 자연 언어 출력의 형태를 취하고, 상기 전송은 상기 원격 컴퓨팅 디바이스로 하여금 출력으로서 자연 언어를 제공하게 하는
비 일시적 컴퓨터 판독 가능 매체.