KR102048030B1

KR102048030B1 - 자동화 어시스턴트와의 단대단 다국어 통신 촉진

Info

Publication number: KR102048030B1
Application number: KR1020187028532A
Authority: KR
Inventors: 제임스 쿠츠마르스키; 비보어 자인; 아말나그 서브라만야; 니메쉬 란잔; 프렘쿠마르 멜빈 호세 존슨; 블라디미르 부스코비치; 루나 다이; 다이수케 이케다; 니할 산디프 발라니; 지나 레이; 멍멍 니우
Original assignee: 구글 엘엘씨
Priority date: 2018-03-07
Filing date: 2018-04-16
Publication date: 2019-11-22
Also published as: EP3559946B1; EP3559946A1; AU2018412575B2; AU2021202694B2; CN113128239B; CN110462730A; EP3716267A1; US20220284198A1; US11915692B2; AU2018412575A1; US10984784B2; AU2021202694A1; JP2020518870A; WO2019172946A1; US11942082B2; JP6678764B1; EP3723084A1; CN113128239A; AU2022221387A1; EP3716267B1

Abstract

본 명세서에 기술된 기술은 자동화 어시스턴트(automated assistants)와의 단대단 다국어 통신을 용이하게 하는 것에 관한 것이다. 다양한 구현예에서, 음성 인식 출력은 제1 언어로 음성 입력에 기초하여 생성될 수 있다. 제1 언어 의도는 음성 인식 출력에 기초하여 식별되고 상기 제1 언어로 제1 자연어 출력 후보를 생성하기 위해 이행될 수 있다. 상기 음성 인식 출력의 적어도 일부는 적어도 일부(part)는 적어도 부분 번역을 생성하기 위해 제2 언어로 번역될 수 있으며, 이는 제2 언어로 제2 자연어 출력 후보를 생성하기 위해 이행되는 제2 언어 의도를 식별하는데 사용될 수 있다. 제1 및 제2 자연어 출력 후보에 대해 스코어가 결정될 수 있고, 상기 스코어들에 기초하여, 자연어 출력이 프리젠테이션을 위해 선택될 수 있다.

Description

자동화 어시스턴트와의 단대단 다국어 통신 촉진

인간은 본 명세서에서 "자동화 어시스턴트(automated assistants)"(또는 "챗봇(chatbots)," "대화형 개인 단말기(interactive personal assistants)," "지능형 개인 단말기," "개인 보이스 단말기," "대화형 에이전트" 등으로도 불리는)로 지칭되는 대화형 소프트웨어 어플리케이션으로 인간 대 컴퓨터 대화(human-to-computer dialogs)에 참여할 수 있다. 예를 들어, (자동화 어시스턴트와 상호 작용할 때" 사용자"로 지칭될 수 있는) 인간은, 텍스트로 변환되어 처리된 음성 발화(vocal utterances)일 수 있는 자유 형식 자연어 입력을 사용하여 명령, 쿼리 및/또는 요청(본 명세서에서 "쿼리"로 통칭함)을 제공할 수 있다. 자동화 어시스턴트는 일반적으로 사전 결정된 음성 발화(예컨대, "오케이 어스시턴트")를 사용하여 호출되며 종종 호출 구문(phase)을 따르는 음성 발화에만 음성-텍스트 변환(speech-to-text)프로세싱 및/또는 자연어 프로세싱과 같은 다양한 유형의 프로세싱을 수행한다 .

자동화 어시스턴트는 영어와 같이 널리 사용되는 몇몇 언어로 사용자들과 의사 소통(communicate)하는데 적합하지만 다른 언어로는 의사 소통이 어려울 수 있다. 그러나, 자동화 어시스턴트가 새로운 언어로 의사 소통하도록 구성하기 위한 기존의 기술은 자원 집약적이다. 이 것은 새로운 언어마다, 새로운 트리거 문법(즉, 자동화 어시스턴트가 특정 액션(action)을 호출하도록 의도된 단어나 문구)을 생성하고, 새로운 언어(각기 다른 언어에 대해 서로 다른 자연어 처리 컴포넌트가 필요한)로 쿼리 의도를 인식하며, 그리고 새로운 언어로 이해할 수 있는 자연어 출력을 생성할 필요가 있을 수 있다. 이러한 챌린지에 더하여, 각 언어에는 수 많은 특이성(예컨대, 형태학적으로 풍부함, 프로-드롭(pro-drop), 성중립성(gender neutrality) 등)이 있으며 특정 언어로 이러한 시스템을 구축할 수 있는 언어 전문가를 찾기가 어려울 수 있다.

본 명세서에는 특정 언어로 처리하는 것을 활용함으로써 다양한 언어로 인간 대 컴퓨터 대화의 종단 간 프로세싱을 용이하게 하기 위한 기술들이 개시된다. 다른 말로하면, 본 명세서에 설명된 기술들은 자동화 어시스턴트의 언어 적용 범위를 증가시킨다. 다양한 구현예에서, 자동화 어시스턴트에 제공되는 사용자 쿼리는 다중 파이프 라인을 사용하여 처리될 수 있다. 예를 들어, 일부 구현예에서, 제1 파이프 라인은 쿼리의 원래 언어로 사용자 쿼리를 처리하려고 시도하기 위해 사용될 수 있다. 제2 파이프 라인은 사용자의 쿼리를 자동화 어시스턴트가 보다 잘 처리할 수 있는 다른 언어로 번역하고 상기 번역을 사용하여 사용자의 의도를 식별하고 이행하는데 사용될 수 있다. 제2 파이프 라인을 통해 반환된 자연어 출력은 사용자의 원래(original) 언어로 다시 번역되거나 또는 번역되지 않을 수 있다. 다양한 구현예에서, 다수의 파이프 라인을 통해 생성된 자연어 출력은, 예를 들어 신뢰도 스코어에 기초하여 랭킹(ranked)될 수 있고, 가장 높은 순위의 자연어 출력이 사용자에게 제시될 수 있다.

사용자의 발화 언어로 사용자의 원래 쿼리의 일부(portions)를 보존하는 것이 바람직할 수 있다. 예를 들어, 일부 구현예에서, 슬롯값들은 사용자의 원래 쿼리에서(또는 보다 구체적으로, 사용자의 원래 보이스 입력으로부터 생성된 음성 인식 출력에서) 식별될 수 있다. 이들 슬롯값은 번역될 필요가 없을 수도 있으며 경우에 따라 번역할 때 오류가 발생할 수 있다. 예를 들어, 사용자가 "Akash의 전화 번호는 무엇입니까?"라는 구문을 발화했다고 가정한다. 상기 이름 "Akash"는 사용자의 의도와 관련이 없는 특정 의미(예컨대, 하늘)를 갖는 영어 단어로 번역될 수 있다. 그러나, 만약 "Akash"라는 단어가 슬롯값으로 식별되어 사용자의 발화 언어로 보존될 수 있다면 상기 사용자의 쿼리의 나머지 부분은 적절한 대응 액션이 취해질 수 있도록 적절히 번역될 수 있다.

대부분의 언어에는 다양한 구어체가 있다. 또한, 구어체는 자동화 어시스턴트가 더 "인간"적으로 들리는 출력을 제공할 수 있도록 자연어 출력 생성 프로세스에 내장될 수 있다. 예를 들어, 사용자가 아직 잘 지원되지 않는 언어로 오늘 날씨에 관해 묻는다고 가정한다. 사용자의 쿼리는 영어와 같이 보다 광범위하게 지원되는 언어로 번역되어 사용자의 의도가 식별되고 이행될 수 있다. 그러나, 이와 같은 일반적인 쿼리의 경우, 비공적인(예컨대, "인간형(humanlike)") 자연어 출력이 직설적인(straight-forward) 자연어 출력의 대안적으로 사용 가능할 가능성이 높다. 예를 들어, 오늘 날씨가 덥고 화창하다고 가정해 보자. 단순히 "화씨 90도이고 화창할 것입니다"와 같은 자연어 출력을 생성하는 대신, 자동 보조장치는 예를 들어 수동으로 생성된 자연어 출력을 선택하여 "날씨가 몹시 더울 것 같습니다, 선글라스 를 잊지 마세요"와 같은 보다 인간적인 사운드를 들려 줄 수 있다. 이 구어체로 사운딩되는 자연어 출력을 사용자의 모국어로 다시 번역하는 것은 사용자에게 무의미한 결과를 산출할 수 있다. 따라서, 일부 구현예에서, 예를 들어 수동으로 생성된 구어체, 속어 등이 포함되어 번역하기 어려울 수 있는 자연어 출력은 사용자의 모국어로 적절하게 번역될 가능성이 높은 보다 직설적인 자연어 출력으로 대체될 수 있다.

일부 구현예에서, 하나 이상의 프로세서에 의해 수행되는 방법이 제공되는데, 상기 방법은, 클라이언트 디바이스의 입력 컴포넌트에서 사용자에 의해 제1 언어로 제공되는 보이스(voice) 입력을 수신하는 단계, 상기 보이스 입력으로부터 음성(speech) 인식 출력을 생성하는 단계, 상기 음성 인식 출력은 제1 언어로 되어 있고, 상기 음성 인식 출력에 기초하여 상기 사용자의 제1 언어 의도를 식별하는 단계, 제1 이행 정보(fulfillment information)를 생성하기 위해 상기 제1 언어 의도를 이행하는 단계, 상기 제1 이행 정보에 기초하여, 상기 제1 언어로 제1 자연어 출력 후보를 생성하는 단계, 상기 음성 인식 출력의 적어도 부분 번역(partial translation)을 생성하기 위해 상기 제1 언어로부터의 상기 음성 인식 출력의 적어도 일부를 제2 언어로 번역하는 단계, 상기 적어도 부분 번역에 기초하여 상기 사용자의 제2 언어 의도를 식별하는 단계, 제2 이행 정보를 생성하도록 상기 제2 언어 의도를 이행하는 단계, 상기 제2 이행 정보에 기초하여, 상기 제2 언어로 제2 자연어 출력 후보를 생성하는 단계, 상기 제1 및 제2 자연어 출력 후보에 대한 스코어를 결정하는 단계, 상기 스코어들에 기초하여, 상기 제1 및 제2 자연어 출력 후보로부터 상기 사용자에게 제시될 자연어 출력을 선택하는 단계, 및 상기 클라이언트 디바이스로 하여금 상기 선택된 자연어 출력을 상기 클라이언트 디바이스의 출력 컴포넌트에 제시하도록 하는 단계를 포함한다.

본 명세서에 개시된 기술의 이들 구현 및 다른 구현은 선택적으로 다음 특징 중 하나 이상을 포함할 수 있다.

다양한 구현들에서, 상기 방법은 상기 제2 언어 의도에 응답하는 제3 자연 언어 출력 후보를 상기 제1 언어로 생성하는 단계를 더 포함할 수 있다. 이러한 일부 구현예에서,상기 스코어를 결정하는 단계는 제1, 제2 및 제3 컨텐츠에 대한 스코어를 결정하는 단계를 더 포함할 수 있다.

다양한 구현예에서, 상기 방법은 스코어링 이전에 상기 제2 자연어 출력 후보를 제1 언어로 번역하는 단계를 더 포함할 수 있다. 다양한 구현예에서, 상기 제2 자연 언어 출력 후보를 번역하는 단계는 사람 대 컴퓨터 대화 중에 하나 이상의 자동화 어시스턴트에 의해 제공되는 자연어 출력의 하나 이상의 기록(log)를 사용하여 트레이닝된 기계 학습 모델에 기초할 수 있다.

다양한 구현들에서, 상기 음성 인식 출력의 적어도 부분 번역을 생성하기 위한 상기 번역 단계는 인간 대 컴퓨터 대화 중에 하나 이상의 자동화 어시스턴트에게 제출된 사용자 쿼리들의 하나 이상의 기록을 사용하여 트레이닝된 기계 학습 모델에 기초할 수 있다.

다양한 구현예에서, 상기 스코어링은 상기 제1 및 제2 자연어 의도에 할당된 각각의 신뢰도 스코어에 기초할 수 있다. 다양한 구현예에서, 상기 스코어링은 상기 제1 및 제2 자연어 출력 후보를 획득하는데 요구되는 시간에 기초할 수 있다.

다양한 구현예에서, 상기 방법은 상기 음성 인식 출력에서 슬롯값을 식별하는 단계를 더 포함할 수 있다. 이러한 일부 구현예에서, 상기 음성 인식 출력의 상기 적어도 부분 번역은 상기 슬롯값을 배제하고, 그리고 상기 제2 언어 의도는 상기 제1 언어의 상기 슬롯값에 기초하여 추가로 식별될 수 있다.

다른 양태에서, 방법은 클라이언트 디바이스의 입력 컴포넌트에서 사용자에 의해 제1 언어로 제공된 보이스 입력을 수신하는 단계, 상기 제1 언어로 상기 보이스 입력의 음성 인식 출력을 생성하는 단계, 상기 음성 인식 출력의 적어도 부분 번역을 생성하기 위해 상기 제1 언어로부터의 상기 음성 인식 출력의 적어도 일부를 제2 언어로 번역하는 단계, 상기 적어도 부분 번역에 기초하여 상기 사용자의 제2 언어 의도를 식별하는 단계, 제2 이행 정보를 생성하기 위해 상기 제2 언어 의도를 이행하는 단계, 상기 제2 언어 의도에 기초하여 상기 제2 언어로 자연어 출력을 생성하는 단계, 번역된 자연어 출력을 생성하기 위해 상기 자연어 출력을 상기 제1 언어로 번역하는 단계, 상기 번역된 자연어 출력이 하나 이상의 기준을 만족하는지 여부를 결정하는 단계, 상기 결정에 기초하여, 상기 번역된 자연어 출력에 기초하는 출력 또는 대체 자연어 출력을 선택하는 단계, 및 상기 클라이언트 디바이스로 하여금 상기 출력을 클라이언트 디바이스의 출력 컴포넌트에 제시하도록 하는 단계를 포함할 수 있다.

또한, 일부 구현예들은 하나 이상의 컴퓨팅 디바이스의 하나 이상의 프로세서를 포함하고, 여기서, 상기 하나 이상의 프로세서는 관련 메모리에 저장된 명령들을 실행하도록 동작 가능할 수 있으며, 그리고 상기 명령들은 전술한 방법들 중 임의의 것을 수행하도록 구성된다. 일부 구현예들은 전술한 방법들 중 임의의 것을 수행하기 위해 하나 이상의 프로세서에 의해 실행 가능한 컴퓨터 명령들을 저장하는 하나 이상의 비-일시적 컴퓨터 판독가능 저장 매체를 또한 포함한다.

전술한 개념들 및 본 명세서에서 보다 상세히 기술된 추가 개념들의 모든 조합은 본 명세서에 개시된 주제의 일부로 고려될 수 있다는 것을 이해해야 한다. 예를 들어, 본 명세서의 끝 부분에 나타나는 청구 주제의 모든 조합은 본 명세서에 개시된 주제의 일부로서 고려된다.

도 1은 본 명세서에 개시된 구현예가 구현될 수 있는 예시적인 환경의 블록도이다.
도 2는 다양한 구현예에 따라, 본 발명의 다양한 양태들을 나타내는 예시적인 프로세스 흐름을 도시한다.
도 3a 및 도 3b는 다양한 구현예에 따라 사용자와 자동화 어시스턴트 간의 예시적인 대화를 도시한다.
도 4는 본 명세서에 개시된 구현예에 따른 예시적인 방법을 도시하는 흐름도이다.
도 5는 본 명세서에 개시된 구현예에 따른 예시적인 방법을 도시하는 흐름도이다.
도 6은 컴퓨팅 디바이스의 예시적인 구조를 도시한다.

도 1을 참조하면, 본 명세서에 개시된 기술들이 구현될 수 있는 예시적인 환경이 도시되어 있다. 예시적인 환경은 복수의 클라이언트 컴퓨팅 디바이스(106_1-N)를 포함한다. 각 클라이언트 디바이스(106)는 자동화 어시스턴트 클라이언트(118)의 각각의 인스턴스를 실행할 수 있다. 자연어 이해(understanding) 엔진(135)과 같은 하나 이상의 클라우드 기반의 자동화 어시스턴트 컴포넌트(119)는 110으로 도시된 하나 이상의 로컬 및/또는 광역 네트워크(예를 들어,인터넷)를 통해 상기 클라이언트 디바이스(106_1-n)에 통신 가능하게 결합된 하나 이상의 컴퓨팅 시스템(통칭하여 "클라우드" 컴퓨팅 시스템으로 지칭함)상에서 구현될 수 있다.

일부 구현예에서, 복수의 클라이언트 컴퓨팅 디바이스(106_1-N)(여기서는 간단히 "클라이언트 디바이스"라고도 함)는 본 명세서에서 기술된 기술들의 수행을 용이하게 하기 위해 다양한 방식으로 서로 연관될 수 있다. 예를 들어, 일부 구현예에서, 복수의 클라이언트 컴퓨팅 디바이스(106_1-N)는 하나 이상의 사용자(예를 들어, 개인, 가족, 조직의 구성원, 다른 사전 정의된 그룹 등)에 의해 조작되는 클라이언트 디바이스들(106)의 조정된 에코 시스템의 구성요소(members)이기 때문에 서로 연관될 수 있다.

배경 기술에서 언급된 바와 같이, 자동화 어시스턴트 클라이언트(118)의 인스턴스는 하나 이상의 클라우드 기반의 자동화 어시스턴트 컴포넌트(119)와의 상호 작용을 통해, 사용자의 관점에서 볼 때 사용자가 인간-대(to)-컴퓨터 대화에 참여할 수 있는 자동화 어시스턴트(120)의 로직 인스턴스(logical instance)를 형성할 수 있다. 이러한 자동화 어시스턴트(120)의 2개의 예가 도 1에 도시되어 있다. 점선으로 둘러싸인 제1 자동화 어시스턴트(120A)는 제1 클라이언트 디바이스(106₁)를 조작하는 제1 사용자(미도시)를 서빙(serves)하고, 자동화 어시스턴트 클라이언트(118₁) 및 하나 이상의 클라우드 기반의 자동화 어시스턴트 컴포넌트(119)를 포함한다. 일점 쇄선으로 둘러싸인 제2 자동화 어시스턴트(120B)는 다른 클라이언트 디바이스(106_N)를 조작하는 제2 사용자(미도시)를 서빙하고, 자동화 어시스턴트 클라이언트(118_N) 및 하나 이상의 클라우드 기반의 자동화 어시스턴트 컴포넌트(119)를 포함한다. 따라서, 클라이언트 디바이스(106)상에서 실행되는 자동화 어시스턴트 클라이언트(118)와 관여(engage)하는 각 사용자는 사실상 자동화 어시스턴트(120)의 로직 인스턴스와 연관될 수 있음을 이해해야 한다. 간결함과 간략함을 위해, 본 명세서에서 특정 사용자를 "서빙"하는 것으로 사용되는 용어 "자동화 어시스턴트"는 사용자에 의해 조작되는 클라이언트 디바이스(106)상에서 실행되는 자동화 어시스턴트 클라이언트(118)와 하나 이상의 클라우드 기반의 자동화 어시스턴트 컴포넌트(119)(복수의 자동화 어시스턴트 클라이언트(118)간에 공유될 수 있는)의 조합을 지칭한다. 또한, 일부 구현예에서, 자동화 어시스턴트(120)는 사용자가 자동화 어시스턴트(120)의 특정 인스턴스에 의해 실제로 "서비스"되는지 여부에 관계없이 임의의 사용자로부터의 요청에 응답할 수 있음을 이해해야 한다.

클라이언트 디바이스들(106_1-N)은 예를 들어 데스크탑 컴퓨팅 디바이스, 랩탑 컴퓨팅 디바이스, 태블릿 컴퓨팅 디바이스, 이동 전화 컴퓨팅 디바이스, 사용자 차량의 컴퓨팅 디바이스(예컨대, 차량용 통신 시스템, 차량용 엔터테인먼트 시스템, 차량용 네비게이션 시스템), 독립형 대화식 스피커, 스마트 TV와 같은 스마트 어플라이언스, 및/또는 컴퓨팅 디바이스(예를 들어, 컴퓨팅 디바이스를 갖는 사용자의 시계, 컴퓨팅 디바이스를 갖는 사용자의 안경, 가상 또는 증강 현실 컴퓨팅 디바이스)를 포함하는 사용자의 웨어러벌 장치 중 하나 이상을 포함할 수 있다. 추가 및/또는 대안의 클라이언트 컴퓨팅 디바이스들이 제공될 수 있다.

각 클라이언트 컴퓨팅 디바이스(106_1-N)는 복수의 메시지 교환 클라이언트 (107_1-N) 중의 대응하는 하나와 같은 다양한 상이한 어플리케이션을 동작시킬 수 있다. 메시지 교환 클라이언트(107_1-N)는 다양한 형태로 제공될 수 있으며, 상기 형태는 클라이언트 컴퓨팅 디바이스(106_1-N)를 통해 변경될 수 있으며 및/또는 복수 형태가 클라이언트 컴퓨팅 디바이스(106_1-N) 중의 하나에서 동작될 수 있다. 일부 구현예에서, 하나 이상의 메시지 교환 클라이언트(107_1-N)는 단문 메시징 서비스("SMS") 및/또는 멀티미디어 메시징 서비스("MMS") 클라이언트, 온라인 채팅 클라이언트(예컨대, 인스턴트 메신저, 인터넷 중계 채팅, 또는 "IRC"등), 소셜 네트워크와 관련된 메시징 어플리케이션, 자동화 어시스턴트(120)와의 대화 전용의 개인 비서 메시징 서비스 등을 포함할 수 있다. 일부 구현예에서, 하나 이상의 메시지 교환 클라이언트(107_1-N)는 웹 브라우저(미도시) 또는 클라이언트 컴퓨팅 디바이스(106)의 다른 어플리케이션에 의해 렌더링된 웹 페이지 또는 다른 리소스들을 통해 구현될 수 있다.

본 명세서에서 보다 상세히 설명되는 바와 같이, 자동화 어시스턴트(120)는 하나 이상의 클라이언트 디바이스(106_1-N)의 사용자 인터페이스 입력 및 출력 디바이스를 통해 하나 이상의 사용자와 인간 대 컴퓨터 대화 세션에 참여한다. 일부 구현예에서, 자동화 어시스턴트(120)는 클라이언트 디바이스(106_1-N) 중 하나의 하나 이상의 사용자 인터페이스 입력 디바이스를 통해 사용자에 의해 제공된 사용자 인터페이스 입력에 응답하여 사용자와의 인간 대 컴퓨터 대화 세션에 참여할 수 있다. 이러한 구현들 중 일부에서, 사용자 인터페이스 입력은 자동화 어시스턴트(120)에게 명시적으로 지시된다. 예를 들어, 메시지 교환 클라이언트(107_1-N) 중 하나는 자동화 어시스턴트(120)와의 대화 전용의 개인 비서 메시징 서비스일 수 있고, 상기 개인 비서 메시징 서비스를 통해 제공된 사용자 인터페이스 입력은 자동화 어시스턴트(120)로 자동으로 제공될 수 있다. 또한, 예를 들어, 사용자 인터페이스 입력은 자동화 어시스턴트(120)가 호출될 것임을 나타내는 특정 사용자 인터페이스 입력에 기초하여 하나 이상의 메시지 교환 클라이언트(107_1-N)에서 자동화 어시스턴트(120)에게 명시적으로 지시될 수 있다. 예를 들어, 특정 사용자 인터페이스 입력은 하나 이상의 유형화된(typed) 문자(예컨대, @AutomatedAssistant), 하드웨어 버튼 및/또는 가상 버튼(예컨대, 탭, 롱 탭)과의 사용자 상호 작용, 구두(oral) 명령(예컨대, "어이 자동화 어시스턴트(Hey Automated Assistant)"), 및/또는 다른 특정 사용자 인터페이스 입력일 수 있다.

일부 구현예에서, 자동화 어시스턴트(120)는 사용자 인터페이스 입력이 명시적으로 자동화 어시스턴트(120)로 지시되지 않아도, 사용자 인터페이스 입력에 응답하여 인간 대 컴퓨터 대화 세션에 참여할 수 있다. 예를 들어, 자동화 어시스턴트(120)는 사용자 인터페이스 입력의 내용을 검사하여 사용자 인터페이스 입력에 존재하는 특정 용어들 및/또는 다른 큐들(vues)에 기초하여 대화 세션에 참여할 수 있다. 많은 구현예에서, 자동화 어시스턴트(120)는 사용자가 명령, 검색 등을 발화할 수 있도록 대화식(interactive) 보이스 응답("IVR")을 수락(engage)할 수 있고, 자동화 어시스턴트는 음성 인식을 이용하여 상기 발화를 텍스트로 변환하고, 이에 따라 예를 들어, 검색 결과, 일반 정보를 제공하고 및/또는 하나 이상의 응답 액션(예컨대, 미디어 재생, 게임 실행(launching), 음식 주문 등)을 취함으로써 상기 텍스트에 응답할 수 있다. 일부 구현예에서, 자동화 어시스턴트(120)는 상기 발화를 텍스트로 변환하지 않고 추가적으로 또는 대안적으로 발화에 응답할 수 있다. 예를 들어, 자동화 어시스턴트(120)는 보이스 입력을 임베딩, 엔티티 표현(들)(보이스 입력에 존재하는 엔티티/엔티티들을 나타내는) 및/또는 다른 "비-텍스트(non-textual)" 표현으로 변환할 수 있고 그러한 비-텍스트 표현으로 동작할 수 있다. 따라서, 보이스 입력으로부터 변환된 텍스트에 기초하여 동작하는 본 명세서에서 설명된 구현들은 추가적으로 및/또는 대안적으로 보이스 입력에 직접 및/또는 보이스 입력의 다른 비 텍스트 표현으로 동작할 수 있다.

클라우드 기반의 자동화 어시스텐트 컴포넌트(119)를 동작시키는 클라이언트 컴퓨팅 디바이스(106_1-N) 및 컴퓨팅 디바이스(들)의 각각은 데이터 및 소프트웨어 어플리케이션의 저장을 위한 하나 이상의 메모리, 데이터에 액세스하고 어플리케이션을 실행하기 위한 하나 이상의 프로세서 및 네트워크를 통한 통신을 용이하게 하는 다른 컴포넌트를 포함한다. 하나 이상의 클라이언트 컴퓨팅 디바이스(106_1-N) 및/또는 자동화 어시스턴트(120)에 의해 수행되는 동작은 다수의 컴퓨터 시스템에 걸쳐 분산될 수 있다. 자동화 어시스턴트(120)는 예를 들어 네트워크를 통해 서로 결합되는 하나 이상의 위치에 있는 하나 이상의 컴퓨터상에서 실행되는 컴퓨터 프로그램으로서 구현될 수 있다.

전술한 바와 같이, 다양한 구현예에서, 클라이언트 컴퓨팅 디바이스(1061-N) 각각은 자동화 어시스턴트 클라이언트(118)를 동작시킬 수 있다. 다양한 구현에서, 각각의 자동화 어시스턴트 클라이언트(118)는 대응하는 음성(speech) 캡처/텍스트-음성("TTS")/음성-텍스트("STT") 모듈(114)을 포함할 수 있다. 다른 구현예들에서, 음성 캡처/TTS/STT 모듈(114)의 하나 이상의 양태는 자동화 어시스턴트 클라이언트(118)와 별도로 구현될 수 있다. 다양한 구현예에서, 음성 캡처/TTS/STT 모듈(114)은 음성(vocal) 쿼리에 기초하여 음성 인식 출력을 생성할 수 있다. 이 음성 인식 출력은 본 명세서에 기술된 기술들에 따라 분석될 수 있다.

각 음성 캡처/TTS/STT 모듈(114)은 하나 이상의 기능, 즉 예를 들어 마이크로폰을 통한 사용자의 음성을 캡처하는 기능, 캡쳐된 오디오를 텍스트(및/또는 다른 표현 또는 임베딩)로 변환하는 기능 및/또는 텍스트를 음성으로 변환하는 기능을 수행하도록 구성될 수 있다. 예를 들어, 일부 구현예에서, 클라이언트 디바이스(106)는 컴퓨팅 자원(예를 들어, 프로세서 사이클, 메모리, 배터리 등)의 관점에서 상대적으로 제한될 수 있기 때문에, 각 클라이언트 디바이스(106)에 국부적인 음성 캡처/TTS/STT 모듈(114)은 한정된 수의 상이한 발화 구문, 특히 자동화 어시스턴트(120)를 호출하는 구문들을 텍스트(또는 보다 저 차원의 임베딩과 같은 다른 형태)로 변환하도록 구성될 수 있다. 다른 음성 입력은 클라우드 기반의 TTS 모듈(116) 및/또는 클라우드 기반의 STT 모듈(117)을 포함할 수 있는 클라우드 기반의 자동화 어시스턴트 컴포넌트(119)로 전송될 수 있다.

클라우드 기반의 STT 모듈(117)은 클라우드의 가상적으로 무한한 자원들을 활용하여 음성 캡처/TTS/STT 모듈(114)에 의해 캡쳐된 오디오 데이터를 텍스트(그런 다음 자연어 프로세서(122)에 제공될 수 있는)로 변환하도록 구성될 수 있다. 클라우드 기반의 TTS 모듈(116)은 클라우드의 가상적으로 무한한 자원들을 활용하여 텍스트 데이터(예컨대, 자동화 어시스턴트(120)에 의해 공식화된 자연어 응답)를 컴퓨터 생성의 음성 출력으로 변환하도록 구성될 수 있다. 일부 구현예에서, TTS 모듈(116)은 예를 들어 하나 이상의 스피커를 사용하여 직접 출력되도록 클라이언트 디바이스(106)로 상기 컴퓨터 생성의 음성 출력을 제공할 수 있다. 다른 구현들에서, 자동화 어시스턴트(120)에 의해 생성된 텍스트 데이터(예컨대, 자연어 응답)는 음성 캡쳐/TTS/STT 모듈(114)로 제공될 수 있고, 음성 캡쳐/TTS/STT 모듈(114)은 상기 텍스트 데이터를 국부적으로 출력되는 컴퓨터 생성 음성으로 변환할 수 있다.

자동화 어시스턴트(120)(및 특히, 클라우드 기반의 자동화 어시스턴트 컴포넌트들(119))는 자연어 이해 엔진(135), 전술한 TTS 모듈(116), 전술한 STT 모듈(117) 및 이하에서 상세히 설명되는 다른 컴포넌트들을 포함할 수 있다. 일부 구현예에서, 자동화 어시스턴트(120)의 하나 이상의 엔진 및/또는 모듈은 자동화 어시스턴트(120)와 별개인 컴포넌트에서 생략, 결합 및/또는 구현될 수 있다. 일부 구현예에서, 프라이버시를 보호하기 위해, 자연어 프로세서(122), 음성 캡처/TTS /STT 모듈(114) 등과 같은 자동화 어시스턴트(120)의 하나 이상의 컴포넌트는 (예를 들어, 클라우드를 제외하고) 클라이언트 디바이스들(106)상에서 적어도 부분적으로 구현될 수 있다.

일부 구현예에서, 자동화 어시스턴트(120)는 자동화 어시스턴트(120)와의 인간 대 컴퓨터 대화 세션 동안 상기 클라이언트 디바이스들(106_1-N) 중 하나의 사용자에 의해 생성된 다양한 입력에 응답하여 응답 컨텐츠를 생성한다. 자동화 어시스턴트(120)는 대화 세션의 일부로서 사용자에게 제시하기 위한 (예를 들어, 사용자의 클라이언트 디바이스로부터 분리될 때 하나 이상의 네트워크를 통해) 상기 응답컨텐츠를 제공할 수 있다. 예를 들어, 자동화 어시스턴트(120)는 클라이언트 디바이스들(106_1-N) 중 하나를 통해 제공된 자유 형식의 자연어 입력에 응답하여 응답 컨텐츠를 생성할 수 있다. 본 명세서에서 사용된 바와같이, 자유 형식의 입력은 사용자에 의해 공식화되고 사용자 선택을 위해 제시된 옵션 그룹에 구속되지 않는 입력이다.

본 명세서에 사용된 바와 같이, "대화 세션"은 사용자와 자동화 어시스턴트(120)(및 어떤 경우에는, 다른 인간 참가자들) 간의 하나 이상의 메시지의 로직적으로 독립된 교환을 포함할 수 있다. 자동화 어시스턴트(120)는, 세션들 간의 시간 경과, 세션들 간의 사용자 컨텍스트(예컨대, 위치, 스케줄된 미팅 전/도중/이후)의 변경, 사용자와 자동화 어시스턴트간의 대화 이외의 사용자와 클라이언트 디바이스간의 하나 이상의 개재(intervening 상호 작용의 감지(예를 들어, 사용자가 잠시 동안 어플리케이션을 전환하면 사용자가 나중에 걸어서 독립형 보이스 활성화 제품으로 복귀함), 세션들 간의 클라이언트 디바이스의 락킹(locking)/슬리핑 (sleeping), 자동화 어시스턴트(120)의 하나 이상의 인스턴스들과 인터페이스하는데 사용되는 클라이언트 디바이스들의 변경 등과 같은 다양한 신호에 기초하여 사용자와의 다수의 대화 세션들을 구별할 수 있다.

자연어 이해 엔진(135)의 자연어 프로세서(122)는 클라이언트 디바이스(106_1-N)를 통해 사용자에 의해 생성된 자연어 입력을 처리하고 자동화 어시스턴트(120)의 하나 이상의 다른 컴포넌트에 의한 사용을 위해 주석 출력(예를 들어, 텍스트 형태로)을 생성할 수 있다. 예를 들어, 자연어 프로세서(122)는 클라이언트 디바이스(1061)의 하나 이상의 사용자 인터페이스 입력 디바이스를 통해 사용자에 의해 생성된 자연어 자유 형식 입력을 처리할 수 있다. 상기 생성된 주석 출력은 자연어 입력의 하나 이상의 주석 및 자연어 입력의 하나 이상의(예를 들어, 모두) 용어 (term)를 포함한다.

일부 구현예에서, 자연어 프로세서(122)는 자연어 입력의 다양한 유형의 문법 정보를 식별하고 주석을 달도록 구성된다. 예를 들어, 자연어 프로세서(122)는 개개의 단어를 형태소로 분리하고 및/또는 형태소에, 예를 들어 그 클래스로 주석을 달 수 있는 형태소 엔진(morphological engine)을 포함할 수 있다. 자연어 프로세서(122)는 문법적 역할을 갖는 영어들에 주석을 달기 위해 구성된 품사 태거 (tagger를 포함할 수도 있다. 예를 들어, 상기 품사 태거는 각 용어를 "명사," "동사," "형용사," "대명사" 등과 같은 품사로 태그할 수 있다. 또한, 예를 들어, 일부 구현예에서, 자연어 프로세서(122)는 자연어 입력의 용어들 사이의 구문 관계를 결정하도록 구성된 의존성 분석기(dependency parser)(미도시)를 추가적으로 및/또는 대안적으로 포함할 수 있다. 예를 들어, 상기 의존성 분석기는 어떤 용어가 다른 용어, 문장의 주어 및 동사 등(예를 들어, 구문분석 트리(parse tree))을 수정하는지 결정할 수 있고 그러한 의존성에 주석을 작성할 수 있다.

일부 구현예에서, 자연어 프로세서(122)는 사람(예를 들어, 문학적 인물, 연예인, 유명 인사 등을 포함), 조직, 위치(실제 및 가상) 등에 대한 참조와 같은 하나 이상의 세그먼트에서 엔티티 참조를 주석 처리하도록 구성된 엔티티 태거(미도시)를 추가적으로 및/또는 대안적으로 포함할 수 있다. 일부 구현예에서, 엔티티에 관한 데이터는 지식 그래프(미도시)와 같은 하나 이상의 데이터베이스에 저장될 수 있다. 일부 구현예에서, 지식 그래프는 노드들을 연결하고 엔티티들 간의 관계를 나타내는 에지뿐만 아니라 알려진 엔티티(및 어떤 경우에는 엔티티 속성)를 나타내는 노드들을 포함할 수 있다. 예를 들어, "바나나" 노드는 "과일" 노드에 (자식 노드로서) 연결될 수 있고, "생산(produce)" 노드 및/또는 "식품(food)" 노드에 (자식 노드로서) 연결될 수 있다. 또 다른 예로, "가상 카페(Hypothetical Cafe)"라는 레스토랑은 주소, 음식의 종류, 시간, 연락처 정보 등과 같은 속성을 포함하는 노드로 나타낼 수 있다. 상기 "가상 카페" 노드는 일부 구현예에서 "식당" 노드, "비즈니스" 노드, 상기 식당이 위치한 도시 및/또는 주를 나타내는 노드 등과 같은 하나 이상의 다른 노드에 (예를 들어, 자식-부모 관계를 나타내는) 에지에 의해 연결될 수 있다.

자연어 프로세서(122)의 엔티티 태거는 (예컨대, 사람과 같은 엔티티 클래스에 대한 모든 참조의 식별을 가능하게 하기 위해) 고레벨의 세분성(granularity) 및/또는 (예컨대, 특정 개인과 같은 특정 엔티티에 대한 모든 참조의 식별을 가능하게 하기 위해) 저 레벨의 세분성으로 엔티티에 대한 참조에 주석을 달 수 있다. 상기 엔티티 태거는 자연어 입력의 내용에 의존하여 특정 엔티티를 해석(resolve)할 수 있고 및/또는 선택적으로 지식 그래프 또는 다른 엔티티 데이터베이스와 통신하여 특정 엔티티를 해석할 수 있다.

일부 구현들에서, 자연어 프로세서(122)는 하나 이상의 문맥 큐에 기초하여 동일한 엔티티에 대한 참조를 그룹화하거나 "클러스터(cluster)"하도록 구성된 동일참조 분석기(coreference resolver)(미도시)를 부가적으로 및/또는 대안적으로 포함할 수 있다. 예를 들어, 동일참조 분석기는 "나는 우리가 거기(there)에서 식사를 했던 지난 번 가상 카페를 좋아했다"라는 자연어 입력에서 "거기"라는 용어를 "가상 카페"로 해석하는데 사용될 수 있다.

일부 구현예에서, 자연어 프로세서(122)의 하나 이상의 컴포넌트는 자연어 프로세서(122)의 하나 이상의 다른 컴포넌트로부터의 주석에 의존할 수 있다. 예를 들어, 일부 구현예에서, 명명된 엔티티 태거는 모든 언급(mention)을 특정 엔티티에 주석으로 추가할 때 동일참조 분석기 및/또는 의존성 분석기로부터의 주석에 의존할 수 있다. 또한, 예를 들어, 일부 구현예에서, 동일참조 분석기는 동일한 엔티티에 대한 참조를 클러스터링할 때 의존성 분석기로부터의 주석에 의존할 수 있다. 일부 구현예에서, 특정 자연어 입력을 처리할 때, 자연어 프로세서(122)의 하나 이상의 컴포넌트는 특정 자연어 입력 이외의 관련 사전 입력(prior input) 및/또는 다른 관련 데이터를 사용하여 하나 이상의 주석을 결정할 수 있다.

자연어 이해 엔진(135)은 자동화 어시스턴트(120)와의 인간 대 컴퓨터 대화 세션에 관여한 사용자의 의도를 결정하도록 구성된 의도 매칭기(intent matcher) (136)를 포함할 수도 있다. 도 1의 자연어 프로세서(122)와 별도로 도시되어 있지만, 다른 구현예에서, 의도 매칭기(136)는 자연어 프로세서(122)의(또는 보다 일반적으로는 자연어 프로세서(122)를 포함하는 파이프 라인의) 필수 부분일 수 있다. 일부 구현예에서, 자연어 프로세서(122) 및 의도 매칭기(136)는 전술한 "자연어 이해" 엔진(135)을 집합적으로 형성할 수 있다.

의도 매칭기(136)는 예를 들어, 자연어 프로세서(122)로부터의 출력((자연어 입력의 주석 및 용어를 포함할 수 있는)에 기초하여, 사용자의 의도를 결정하기 위해 다양한 기술을 사용할 수 있다. 일부 구현예에서, 의도 매칭기(136)는 예를 들어, 문법과 응답 액션(또는 보다 일반적으로 의도) 간의 복수의 매핑을 포함하는 하나 이상의 데이터베이스(137)에 대한 액세스를 가질 수 있다. 대부분의 경우, 이들 문법은 시간이 지남에 따라 선택 및/또는 학습될 수 있으며 가장 일반적인 사용자들의 의도를 나타낼 수 있다. 예를 들어, 하나의 문법 "play <artist>"는 <artist>에 의한 음악이 사용자에 의해 조작된 클라이언트 디바이스(106)상에서 재생되도록 하는 응답 액션을 유발하는 의도에 매핑될 수 있다. 다른 문법, [weather|forecast] today"은 "오늘의 날씨는 어떻습니까 ?"와 "오늘의 일기 예보는 어떻습니까?"와 같은 사용자 쿼리들과 매칭될 수 있다. 아래에서 보다 상세히 설명되는 바와 같이, 문법 이외에 또는 문법 대신에, 일부 구현예에서, 의도 매칭기(136)는 단독으로 또는 하나 이상의 문법과 조합하여 하나 이상의 트레이닝된 기계 학습 모델을 채용할 수 있다. 이들 트레이닝된 기계 학습 모델은 또한 하나 이상의 데이터베이스(137)에 저장될 수 있다.

"play <artist>" 예의 문법에 나타난 바와같이, 일부 문법에는 슬롯값(또는 "파라미터")으로 채워질 수 있는 슬롯(예컨대, <artist>)을 가지고 있다. 슬롯값들은 다양한 방법으로 결정될 수 있다. 종종 사용자는 슬롯값을 사전에 제공한다. 예를 들어, 문법 "Order me a <topping> pizza"에 대해, 사용자는 "나에게 소시지 피자를 주문해 주세요"라는 구문을 말할 가능성이 있으며, 이 경우 슬롯 <topping>이 자동으로 채워진다. 부가적으로 또는 대안적으로, 사용자가 슬롯값을 사전에 제공하지 않고, 슬롯값으로 채울 슬롯을 포함하는 문법을 사용자가 호출하면, 자동화 어시스턴트(120)는 사용자로부터 슬롯값을 요청할 수 있다(예를 들어, "피자에 어떤 종류의 크러스트(crust)를 드시겠습니까 ?").

일부 구현예에서, 자동화 어시스턴트(120)는 사용자와 타사(third party) 어플리케이션 간의 트랜잭션(transaction)을 촉진(또는 "중개")할 수 있다. 이러한 타사 어플리케이션은 예를 들어, 클라우드 기반의 자동화 어시스턴트 컴포넌트(119)를 작동하는 시스템과는 별도의 컴퓨팅 시스템에서 작동하거나 작동하지 않을 수 있다. 따라서, 의도 매칭기(136)에 의해 식별될 수 있는 일종의 사용자 의도는 타사 어플리케이션을 사용하는 것이다. 예를 들어, 자동화 어시스턴트(120)는 피자 배달 서비스에 대한 어플리케이션 프로그래밍 인터페이스("API")에 대한 액세스를 제공할 수 있다. 사용자는 자동화 어시스턴트(120)를 호출하여 "피자를 주문하고 싶어"와 같은 명령을 제공할 수 있다. 의도 매칭기(136)는 이 명령을 자동화 어시스턴트(120)를 트리거하여 타사 피자 배달 서비스에 참여하도록 하는 문법(일부 경우에 제3자에 의해 데이터베이스(137)에 추가될 수 있는)에 매칭할 수 있다. 타사 피자 배달 서비스는 피자 배달 주문을 이행하기 위해 채워져야 할 최소 슬롯 목록을 자동화 어시스턴트(120)에게 제공할 수 있다. 자동화 어시스턴트(120)는 슬롯용 파라미터를 요구하는 자연어 출력을 생성하여 (클라이언트 디바이스(106)를 통해) 사용자에게 제공할 수 있다.

인간 대 컴퓨터 대화 도메인에서, 사용자 및 자동화 어시스턴트(120)가 사용하는 어휘는 일상 대화, 문학, 작문 등에 사용되는 것보다 다소 덜 포괄적일 수 있다. 즉, 인간 대 컴퓨터 대화 중에 채용되는 제한된 언어 공간은 전형적으로 보다 일반적인 목적의 인간-인간 커뮤니케이션(예컨대, 말하기, 쓰기 등)에 사용되는 보다 포괄적인 언어 공간의 하위 집합(subset)이다. 예를 들어, 사용자는 하나 이상의 작업이 수행되도록 자동화 어시스턴트(120)와 소통(engage)하는 경향이 있다. 일반 검색 쿼리의 맥락에서조차, 사용자는 날씨, 교통량, 대중 교통 시간, 음식점 시간 등에 관해 질문하는 것과 같은 특정 유형의 쿼리들을 수행하기 위해 자동화 어시스턴트와 의사 소통하는 경향이 있다.

따라서, 일부 구현예에서, 자연어 이해 엔진(135)은 예를 들어, 자연어 처리기(122) 또는 의도 매칭기(136)에 의해, 자동화 어시스턴트(129)와 인간 대 컴퓨터 대화에서 전형적으로 채용되는 특정하고 제한된 어휘를 이해하기 위해 특정 언어로 트레이닝되는 하나 이상의 모델(예를 들어, 데이터베이스(137)내의)에 대한 액세스를 가질 수 있다. 이들 모델은 특정 언어로 사용자의 의도를 결정하기 위해, 상기 특정 언어로 번역된 자연어 입력들의 기록(log)을 사용하여 특정 언어로 트레이닝될 수 있다. 이는 아직 완전히 지원되지 않는(즉, 포괄적인 번역이 아직 제공되지 않는) 언어들에 유용하다. 예를 들어, 영어와 같이 널리 지원되는 언어로 된 공통 쿼리들(예를 들어, 음식 주문, 날씨 체크, 타이머 설정 등)은 기록(들)로부터 획득되어, 덜 널리 지원되는 제2 언어로 (예를 들어, 번역기(138)에 의해 자동적으로, 언어학자/번역자에 의해 수동으로) 번역될 수 있다. 이러한 번역된 공통 쿼리들은 덜 널리 지원되는 제2 언어에 대한 모델을 트레이닝하는 트레이닝 예제들로서 그들의 매칭하는 의도들과 함께 사용될 수 있다.

예를 들어, 상기 영어 쿼리들은, 예를 들어 번역기(138) 및/또는 언어 전문가/번역자를 사용하여, 덜 널리 지원되는 언어로 번역될 수 있다. 상기 번역은 대응하는 의도(덜 널리 지원되는 언어로 번역될 수도 있는)로 라벨링된(labelled) 트레이닝 예제로 사용되어 모델을 트레이닝할 수 있다. 만약 모델이 신경망의 일부 플래버(flavour)이면, 상기 라벨링된 트레이닝 예제들은 출력을 생성하도록 신경망을 통해 입력으로 적용될 수 있다. 상기 출력은 상기 대응하는 라벨들과 비교되어 오류(error)를 생성할 수 있다. 상기 오류에 기초하여, 기울기 강하(gradient descent)(통계적 예측 또는 배치(batch) 및 역 전파와 같은 다양한 트레이닝 기술이 상기 신경망의 하나 이상의 은익 계층의 가중치를 조정하는데 채용될 수 있다.

일부 구현예에서, 덜 널리 지원되는 언어로 된 이전에는 보이지 않는 쿼리들이 모델을 통해 입력으로 인가되어 출력을 생성할 수 있다. 그러한 일부 구현예에서, 출력은 상기 언어와 관련된 축소된 차원 공간으로의 임베딩의 형태를 취할 수 있다. 의도는 축소된 차원 공간에서의 다른 임베딩과의 근접도(예를 들어, 유클리드 거리, 코사인 유사성 등)에 기초하여 이전에 보이지 않는 이러한 쿼리들과 매칭될 수 있다. 이전에는 보이지 않는 쿼리를 제공하는 사용자가 최종 결과를 거부하면, 상기 사용자의 쿼리는 모델을 더 트레이닝하기 위한 부정적인 트레이닝 예제로 사용될 수 있다. 만약 새로운 쿼리를 제공하는 사용자가 긍정적인 피드백을 제공하면(또는 사용자가 만족함을 나타낼 수 있는 피드백이 없으면), 상기 사용자의 쿼리는 모델을 더 트레이닝하기 위한 긍정적인 트레이닝 예제로 사용될 수 있다. 이러한 방식으로 자동화 어시스턴트(120)는 새로운 언어로 의도를 예측하는 방법을 "학습"할 수 있다.

이행 엔진(124)은 관련 슬롯값(사용자에 의해 사전에 제공되거나 사용자로부터 요청된) 뿐만 아니라 의도 매칭기(136)에 의한 의도 출력을 수신하여 상기 의도를 이행(fulfill)하도록 구성될 수 있다. 다양한 구현예에서, 사용자의 의도의 이행은 예를 들어 이행 엔진(124)에 의해 다양한 이행 정보(일부 경우에 언어 독립적(language-agnostic)일 수 있는)가 생성/획득되게 할 수 있다. 이하에서 설명되는 바와 같이, 상기 이행 정보는 이행 정보에 기초하여 자연어 출력을 생성할 수 있는 자연어 생성기(일부 도면에서는 "NLG")(126)로 제공될 수 있다.

이행 정보는 의도가 다양한 방식으로 이행될 수 있으므로 다양한 형태를 취할 수 있다. 사용자가 영화 "샤이닝(The Shining)"의 야외 촬영지는 어디입니까"와 같은 완전한(pure) 정보를 요청했다고 가정해 보자. 사용자의 의도는 예를 들어, 의도 매칭기(136)에 의해 검색 쿼리로서 결정될 수 있다. 상기 의도 및 상기 검색 쿼리의 내용은, 도 1에 도시된 바와 같이 응답 정보에 대한 문서 및/또는 다른 데이터 소스(예를 들어, 지식 크래프등)의 코퍼스(corpuses:말뭉치)를 검색하도록 구성된 하나 이상의 검색 엔진(150)과 통신할 수 있는, 이행 엔진(124)으로 제공될 수 있다. 이행 엔진(124)은 검색 쿼리(예를 들어, 쿼리의 텍스트, 축소된 차원 임베딩 등)를 나타내는 데이터를 검색 엔진(150)으로 제공할 수 있다. 검색 엔진(150)은 GPS 좌표와 같은 응답 정보 또는 "오리건주, 후드산, 팀버라인 롯지"와 같은 다른 보다 명시적 정보를 제공할 수 있다. 이 응답 정보는 이행 엔진(124)에 의해 생성된 이행 정보의 일부를 형성할 수 있다.

부가적으로 또는 대안적으로, 이행 엔진(124)은 예를 들어, 자연어 이해 엔진(135), 사용자의 의도 및 사용자에 의해 제공되거나 다른 수단(예를 들어, 사용자의 GPS 좌표, 사용자 선호도 등)을 사용하여 결정된 임의의 슬롯값을 수신하고 응답 액션을 트리거하도록 구성될 수 있다. 응답 액션들은 예를 들어, 상품/서비스 주문, 타이머 시작, 알림(reminder) 설정, 통화 시작, 미디어 재생, 메시지 전송 등을 포함할 수 있다. 그러한 일부 구현예에서, 이행 정보는 이행과 관련된 슬롯값, 확인 응답(경우에 따라 사전 결정된 응답으로부터 선택될 수 있는) 등을 포함할 수 있다.

전술한 바와 같이, 자연어 생성기(126)는 다양한 소스로부터 획득된 데이터에 기초하여 자연어 출력(예를 들어, 인간의 음성를 모방하도록 고안된 발화 단어들/구들)을 생성 및/또는 선택하도록 구성될 수 있다. 일부 구현예에서, 자연어 생성기(126)는 의도의 이행과 관련된 이행 정보를 입력으로 수신하여, 상기 이행 정보에 기초하여 자연어 출력을 생성하도록 구성될 수 있다. 부가적으로 또는 대안적으로, 자연어 생성기(126)는 타사 어플리케이션(예를 들어, 요구된 슬롯)과 같은 다른 소스들로부터 정보를 수신하여 이를 사용자에 대한 자연어 출력을 구성하는데 사용할 수 있다.

만약 사용자의 의도가 일반 정보를 검색하는 것이라면, 자연어 생성기(126)는, 예를 들어 문장 형태로 사용자의 의도에 응답하여 정보를 전달하는 자연어 출력을 생성할 수 있다. 일부 경우, 자연어 출력은 (예컨대, 이미 완전한 문장 형태이므로) 예를 들어 자연어 생성기(126)에 의해 추출될 수 있으며, 문서로부터 변경되지 않고 그대로 제공될 수 있다. 부가적으로 또는 대안적으로, 일부 구현예에서, 상기 응답 컨텐츠는 완전한 문장 형태(예를 들어, 오늘 날씨에 대한 요청은 독립형 데이터 조작으로서 높은 온도 및 강수 확률을 포함할 수 있음)가 아닐 수 있으며, 이 경우 자연어 생성기(126)는 자연어 출력으로서 응답 컨텐츠를 제시하는 하나 이상의 완전한 문장 또는 구를 구성할 수 있다.

자연어 이해 엔진(135)(예컨대, 의도 매칭기(136))의 경우에서와 같이, 자연어 생성기(126)는 범용 통신을 위해 사용되는 보다 포괄적인 언어 공간보다 작은 (예컨대, 서브 세트) 언어 공간에서 동작할 수 있다. 따라서 자연어 이해 엔진(135)의 경우와 같이, 일부 구현예에서, 자연어 생성기(126)는, 예를 들어, 인간 대 컴퓨터 대화 컨텍스트에서 자연 언어 출력을 생성하도록 특별히 트레이닝된 하나 이상의 언어-특정 모델을 저장할 수 있는 하나 이상의 데이터베이스(127)에 대한 액세스를 가질 수 있다. 이러한 축소된 모델을 트레이닝하는 것은 포괄적인 모델을 교육하는 것보다 덜 집중적일 수 있으므로 포괄적인 자동 번역 및/또는 특정 언어의 일반 성능들이 아직 지원되지 않는 언어로된 자동화 어시스턴트(120의 초기 출시(rollout)를 용이하게 할 수 있다.

일부 구현예에서, 영어와 같이 잘 지원되는 언어로된 인간 대 컴퓨터 대화 중에 얻은 인간 대 컴퓨터 대화 지식은 다른 덜 지원되는 언어에 특정한 모델을 트레이닝하는데 활용될 수 있다. 예를 들어, (하기에서 보다 상세히 기술되는) 예컨대 구문, 템플릿 등과 같은 자연어 출력의 코퍼스는 (예를 들어, 언어학자 및/또는 번역자에 의해 제2 언어로 번역된 다음 제2 언어로 자연어 출력을 생성하기 위해 자연어 발생기(126)에 의해 사용 가능한 상기 제2 언어에 대한 자연어 생성 모델을 트레이닝하기 위한 트레이닝 데이터로서 사용될 수 있다.

일부 구현예에서, 상기 트레이닝 데이터의 각 트레이닝 예는 입력으로서(예컨대, 입력 벡터로서), 사용자 제공 슬롯값(있는 경우)뿐만 아니라 특정 영어 자연어 출력 구문/문장이 생성되도록 하는 의도를 포함할 수 있다. 상기 트레이닝 예는 영어 자연어 출력 구문/문장의 번역 버전으로 라벨될 수 있다. 상기 입력은 자연어 생성 모델(예를 들어, 신경망 등)에 통해 적용되어 출력을 생성한 다음 오류를 결정하기 위해 상기 라벨과 비교될 수 있다. 상기 오류에 기초하여, 역전파, 기울기 강하(통계적 예측 또는 배치) 등과 같은 다양한 트레이닝 기법이 자연어 생성 모델의 가중치를 조정하는데 적용될 수 있다.

일단 트레이닝되면, 그러한 자연어 생성 모델은 예를 들어, 감소된 차원 공간(예를 들어, 제2 언어의 잠재적 자연어 출력과 관련된 임베딩 공간)에 후속 결정된 사용자 의도의 임베딩을 생성하는데 사용될 수 있다. 제2 언어). 다른 유사 의도의 임베딩에 대한 상기 임베딩의 근접도(예를 들어, 유클리드 거리, 코사인 유사성 등을 사용하여 결정된)은 다른 임베딩에 응답하여 사용된 자연어 출력을 식별하는데 사용될 수 있다. 그런 다음, 자연어 생성기(126)는 동일하거나 유사한 자연어 출력을 사용할 수 있다.

일부 구현예에서, 자연어 생성기(126)는 자연어 출력을 생성하기 위해 본 명세서에서 "자연어 생성 템플릿"(또는 "NLG 템플릿")으로 지칭되는 것에 의존할 수 있다. 일부 구현예에서, NLG 템플릿은 데이터베이스(127)에 저장될 수 있다. NLG 템플릿은 이행 엔진(124)에 의해 생성된 이행 정보에 포함된 데이터 조각과 같은 다양한 소스로부터의 다양한 정보에 응답하여 자연어 출력의 형성 (formulation)을 지시(dictate)하는 로직(logic)를 포함할 수 있다. 따라서, 어떤 면에서 NLG 템플릿은 사실상 상태 머신을 구성할 수 있으며, 알려진 프로그래밍 언어 또는 다른 모델링 언어(예컨대, 통합 모델링 언어, 명세 및 기술 언어 등)를 사용하여 생성될 수 있다.

일 예로서, 영어 NLG 템플릿은 날씨 정보에 대한 영어 요청에 응답하도록 구성될 수 있다. 상기 NLG 템플릿은 복수의 환경하에서 복수의 후보 자연어 출력 중 어느 것이 제공되는지를 지시할 수 있다. 예를 들어, 이행 엔진(124)에 의해 생성된 이행 정보가, 기온이 예를 들어 화씨 80도 이상이고 구름이 없을 것이라고 지시한다고 가정한다. 상기 NLG 템플릿(예컨대, if/else 문)에 설정된 로직는 자연어 생성기(126)에 의해 선택된 자연어 출력이 '날씨가 몹시 더울 것 같습니다, 선글라스 를 잊지 마세요"와 같은 문구가 될 수 있다. 이행 엔진(124)에 의해 생성된 이행 정보가, 온도가 예를 들어 화씨 30도 미만이고 눈이 올 예정임을 지시한다고 가정한다. 상기 NLG 템플릿에 설정된 로직는 자연어 생성기(126)에 의해 선택된 자연어 출력이 "추울 것 같아요, 모자와 장갑이 필요할지도 모르며 길에서 조심하십시오" 등과 같은 문구가 될 수 있다.

일부 구현예에서, 영어와 같이 잘 지원되는 하나의 언어로 된 NLG 템플릿은 다른 덜 지원되는 언어로 번역될 수 있다. 예를 들어, 언어 전문가 및/또는 번역자는 하나의 언어로 NLG 템플릿을 수동으로 편집하여 그 안에 포함된 자연어 출력 옵션이 다른 언어로 번역되도록 할 수 있다. 일부 구현예에서, 컴퓨팅 디바이스로 하여금 그래픽 사용자 인터페이스("GUI")를 렌더링하게 하는 디자인 어플리케이션이 제공될 수 있다. 상기 GUI는(예를 들어, 상태들을 나타내는 노드들 및 상태들 사이의 전이를 나타내는 에지들을 갖는) 로직 흐름도와 같은 직관적인 방식으로 제시되는 NLG 템플릿에 포함된 로직의 그래픽 표현을 포함할 수 있다. 그러한 일부 구현예에서, 상기 로직 흐름도의 노드들은 가능한 경우, 언어학자 및/또는 번역자에 의해 편집될 수 있는 후보 자연어 출력 문장(statements)(때로는 이행 엔진(124)에 의해 제공되는 이행 정보 및/또는 슬록값에 의존하는 단어/구 대신 플레이스홀더를 갖는)을 포함한다. 이것은 광범위한 프로그래밍 지식은 부족하지만 번역에서 트레이닝된 개인이 기본 로직를 다룰 필요 없이 자연어 출력만을 번역할 수 있게 한다.

일부 언어는 다른 언어보다 더 화자/청취자-독립적(speaker/listener-agnostic)일 수 있기 때문에, 이들 언어의 자연어 출력은 다양한 환경하에서 비교적 균일할 수 있다. 그러나, 다른 언어에는 성별 기반 규칙, 형식 기반 규칙 등과 같이 발화되는 특정 단어나 구가 사용되는 방식을 지시하는 규칙이 포함된다. 따라서, 일부 구현예에서, 다른 덜 화자/청취자 독립적인 언어로 번역될 때, 하나의 화자/청취자 독립적인 언어에 대해 생성된 NLG 템플릿은 추가 로직을 요구할 수 있다. 예를 들어, 영어 NLG 템플릿을 스페인어 NLG 템플릿으로 번역할 때, 사용자의 성별 및/또는 자동화 어시스턴트(120)가 사용한 보이스와 관련된 성별을 설명하기 위해 상기 번역된 NLG 템플릿에 추가 로직을 추가할 필요가 있을 수 있다(예를 들어, 남성 및 여성 음성과 같이 상이한 컴퓨터-생성 보이스들로부터 선택하기 위한 옵션이 있음 수 있음). 그 반대의 경우, NLG 템플릿을 스페인어에서 영어(또는 다른 화자/청취자의 독립적인 언어)로 번역할 때, 불필요한 성별 선택 로직(및/또는 형식 선택 로직)이 제거되도록 템플릿을 단순화해야 할 필요가 있을 수도 있다.

배경 기술에서 언급된 바와 같이, 자동화 어시스턴트는 영어와 같이 널리 사용되는 몇몇 언어로 사용자와 통신하는데 적합하다. 이것은 영어가 가장 일반적으로 사용되는 언어인 국가에서 개발되는 자동화 아스스턴트와 같은 다양한 이유로 발생할 수 있다. 그러나, 자동화 어시스턴트는 다른 언어로 사용자와 의사 소통 (communication)하는데 덜 적합할 수 있다. 모든 언어에는 해당 언어로 된 의사 소통에 자동화 어시스턴트(120)를 적용하기가 어려우며 언어 전문가에 의한 상당한 인력 개입을 필요로 하는 수많은 특이성(idiosyncrasies)을 가지고 있다. 게다가, 타사 어플리케이션 개발자는 자신의 시스템을 여러 언어로 의사 소통할 수 있는 자원이 부족할 수 있다.

하나의 언어로된 텍스트를 다른 언어로 자동 번역하기 위한 다양한 기술이 존재한다. 제1 언어로 입력을 수신하고 제2 언어로 출력을 제공하도록 구성된 다양한 모델이 존재한다. 예를 들어, 많은 웹 브라우저는 웹 페이지를 다른 언어로 번역하는 기능을 제공한다. 또한, 일부 웹 서비스는 한 언어로 사용자 입력을 수신하고 사용자가 선택한 다른 언어로 출력을 제공하도록 구비되어 있다.

따라서, 다양한 구현예에서, 번역기(138)는 예를 들어 클라우드 기반의 자동화 어시스턴트 컴포넌트(119)의 일부로서 또는 개별적으로 제공되어, 다양한 언어들 사이에서 컨텐츠를 번역하도록 구성될 수 있다. 도 1에서, 번역기(138)는 하나의 언어에서 다른 언어로 번역하는데 사용 가능한 다양한 유형의 데이터(예를 들어, 사전, 트레이닝된 번역 모델 등)를 포함할 수 있는 하나 이상의 데이터베이스(139)에 대한 액세스를 갖는다. 예를 들어, 제1 데이터베이스는 제1 언어로부터 제2 언어로의 변환 및 그 반대로의 변환을 용이하게 할 수 있다. 제2 데이터베이스는 제1 언어로부터 제3 언어로의 변환을 용이하게 할 수 있고, 그 반대일 수도 있다.

일부 구현예에서, 번역기(138)는 텍스트를 다양한 소스 언어로부터 표준 언어(canonical language)(예를 들어, 영어)로 번역한 후, 상기 표준 언어로부터 목표 언어로 번역하는 통계 기계 번역 서비스를 구현할 수 있다. 부가적으로 또는 대안적으로, 일부 구현예에서, 번역기(138)는 개별적인 토큰보다는 전체 문장 또는 구를 한번에 번역하는 신경 기계 번역("NMT") 엔진을 구현할 수 있으므로, 텍스트 입력의 전체 문맥을 활용할 수 있다.

일부 구현예에서, 범용 번역을 수행하기 위해 이미 번역기(138)에 의해 사용되는 종래의 신경 기계 번역("NMT") 모델은 인간 대 컴퓨터 대화 세션 동안 특별히 사용된 언어의 번역 및 이해를 향상시키기 위해 보강될(즉 특별히 훈련될) 수 있다. 이 보강된 NMT 모델은 본 명세서에서 "자연어 이해-신경 기계 번역"("NLU-NMT") 모델로 지칭될 것이다.

먼저, 트레이닝 데이터가 사용자와 자동화 어시스턴트(120) 간의 인간 대 컴퓨터 대화 중에 생성된 쿼리들/의도들의 기록(log)으로부터 수집될 수 있다. 예를 들어, 영어와 같이 잘 지원되는 언어로 된 랜덤의 쿼리 샘플과 다른 덜 지원되는 언어(이 예에서 "언어 L")로 된 랜덤의 쿼리 샘플이 상기 기록으로부터 획득될 수 있다. 부가적으로 또는 대안적으로, 영어 및 언어 L로 된 "최고(top)" 쿼리(예컨대, 가장 빈번한)의 수가 또한 획득될 수 있다.

이 데이터는 예를 들어, 언어 전문가/번역자에 의해, 영어로 및/또는 영어로부터 수동으로 번역되어 <문장-en, 문장-L> 쌍의 제1 세트를 생성할 수 있다. 이 쌍 세트는 NLU-NMT에 대한 트레이닝 데이터로 사용될 것이다. 다음으로, (i) 동일한 자동화 어시스턴트 기록으로부터 비교적 많은 수의 추가 쿼리들을 획득하고, (ii) 예를 들어 번역기(138)에 의해, <문장-en, 문장-L> 쌍의 제2 세트를 생성하도록 추가 쿼리들을 기계 번역함으로써 상기 NLU-NMT 모델에 대한 트레이닝 데이터에 더 많은 트레이닝 데이터가 추가될 수 있다. 상기 쌍의 제1 및 제2 세트는 결합되어, 예를 들어 NLU-NMT 모델을 생성하기 위해, 번역기(138)에 의해 이미 이용된 기존의 NMT 모델을 재훈련(즉, 보강)하는데 사용될 수 있다. 이 후, 상기 NLU-NMT 모델은 언어 L에서 영어로 사용자가 일반적으로 자동화 어시스턴트에게 질문하는 쿼리들의 유형을 번역할 때 기존 NMT 모델보다 더 우수할 수 있다.

훈련 데이터를 수집하기 위해 제2 언어(예를 들어, 영어)의 쿼리를 베이스로서 사용함으로써, 제1 언어로 자동화 어시스턴트(120)를 구현하기 시작하기 전에도, 사전에 NLU-NMT 모델을 준비할 수 있게 된다. 일부 구현예에서, 제2 언어 (예를 들어, 영어)의 기록이 이용 가능할 때, 상기 NLU-NMT 모델은 제2 언어로부터 기록을 취하여 사람 번역자를 통해 그들을 번역하고 기계 번역을 통해 얻은 새로운 트레이닝 세트를 제공함으로써 추가로 재-트레이닝될 수 있다.

자동화 어시스턴트(120)와 관여할 때 사용자에 의해 사용되는 언어의 경우와 같이, 자동화 어시스턴트(120)에 의해 생성되는 자연어의 유형은 범용 인간 대 인간 통신 중에 사용되는 언어의 부분 공간이다. 따라서, 일부 구현예에서, 자연어 출력을 생성하기 위해, 예를 들어, 자연어 생성기(126)에 의해 NLU-NMT 모델과 관련하여 전술한 것과 유사한 프로세스가 사용될 수 있다

전술한 바와 같이, 몇몇 종래의 번역기는 두 언어 사이의 범용 번역을 수행하기 위해 신경 기계 변역("NMT") 모델을 이미 채용한다. 따라서, 전술한 NLU-NMT 모델과 유사하게, 종래의 NMT 모델은 자연어 생성-신경 번역 모델("NLG-NMT")을 생성하기 위해, 사용자와의 인간 대 컴퓨터 대화 중에 자동화 어시스턴트(120)에 의해 제공된 자연어 출력의 기록(log)으로부터 수집된 트레이닝 데이터로 보강(즉, 재-트레이닝)될 수 있다. 예를 들어, 상기 기록으로부터 획득된 이들 자연어 출력은 예를 들어 언어 전문가/번역자에 의해 수동으로 및/또는 번역기(138)에 의해 자동으로, 전술한 바와 같이 <문장-en, 문장-L> 쌍으로 번역될 수 있다. 그런 다음, 이들 쌍은 인간 대 컴퓨터 대화 세션 동안 자동화 어시스턴트(120)에 의해 통상적으로 사용되는 자연어 출력을 더 잘 번역할 수 있는 NLG-NMT 모델로 번역기(138)에 의해 이미 채용된 NMT 모델을 재-트레이닝시키는데 사용될 수 있다.

일부 구현예에서, NLG-NMT 모델은 하나 이상의 NLG 언어 템플릿을 통해 생성된 언어 출력(들)을 번역하도록 트레이닝될 수 있다. 상기 트레이닝은 새로운 트레이닝 세트를 제공함으로써 달성될 수 있다. 일부 구현예에서, 상기 트레이닝 세트는 가장 빈번하게 생성된 문장을 인간 번역자자를 통해 보다 널리 지원되는 언어(예컨대, 영어)로 번역함으로써 획득될 수 있다. 일부 구현예에서,이 세트는 예를 들어 번역기(138)를 통해 자동으로 NLG 템플릿의 다수의 알고리즘적으로 생성된 예시 구현을 번역함으로써 보강될 수 있다.

다양한 구현예에서, NLG-NMT 모델은 다양한 다른 소스로부터 유래한 (originating) 답변(answers)을 보다 정확하게 번역하도록 트레이닝될 수 있다. 예를 들어, NLG-NMT 모델은 웹 문서에서 획득한 일반적인 쿼리에 대한 답변을 보다 정확하게 트레이닝도록 트레이닝될 수 있다. 특히, NLG-NMT 모델을 재 트레이닝하기 위한 추가 트레이닝 세트로서 온라인 문서에서 일반적인 쿼리에 이르기까지 최고 답변(top answers)의 수동 번역 버전이 널리 지원되는 언어(예컨대, 영어)로 제공될 수 있다. 다른 예로서, 일부 구현예에서, 상기 NLG-NMT 모델은 "성향 (personality)" 데이터베이스로부터 유래한 답변을 번역하도록 트레이닝될 수 있다. "성향" 답변(구어체 포함)은 크리에이티브 작가가 특정 유형의 사용자 쿼리에 응답하기 위해 작성한 답변이다. 크리에이티브 작가가 작성할 수 있는 답변의 예로는 예를 들어 본 명세서에 개시되어 있는 "날씨가 몹시 더울 것 같습니다" 예제가 있다. 이 성향 답변은 수동으로 번역된 다음 NLG-NMT 모델에 대한 또 다른 트레이닝 세트로 사용될 수 있다.

도 2는 사용자의 자유 형식 입력(예를 들어, 발화된 또는 타이핑된)이 다양한 구현예들에 따라 다수의 파이프 라인을 사용하여 처리될 수 있는 하나의 예시적인 프로세스 흐름을 도시한다. 블록(250)에서, 자유 형식 입력(또는 "쿼리")이 예를 들어 클라이언트 디바이스(106)의 마이크로폰에서 수신된다. 상기 쿼리는 정보(예컨대, "오늘의 날씨는 어떻습니까?", "프랑스의 수도는 어디입니까?") 및/또는 하나 이상의 액션(예컨대, 음식 주문, 음악 재생, 알림 생성, 달력 항목 작성, 다른 사람에게 메시지 전송, 타이머 설정 등)의 개시를 탐색할 수 있다. 설명을 위해, 쿼리가 사용자의 모국어로 수신되었다고 가정한다. 이 예에서, 블록(250)에서의 쿼리는 이미(예를 들어, 도 1의 모듈(114 및 117)에 의해) 음성 인식되어, 상기 쿼리는 텍스트 형태(사용자의 발화의 감소된 차원 임베딩과 같은 다른 형태가 가능해도)로 존재한다고 가정할 수도 있다. 상기 수신된 쿼리는 (i) 사용자의 의도(및 의도를 이행하기 위해 요구되는 임의의 슬롯값)를 식별하고,(ii) 의도를 이행하며, (iii) 상기 식별된 의도의 이행에 기초하여 자연어 출력을 생성하도록 각각 구성된 다수의 처리 파이프 라인에 제공될 수 있다.

제1 파이프 라인은 블록(252)에서 시작될 수 있으며, 이 시점에서 의도 매칭기(136)는 사용자의 모국어(도 2에서 "제1 언어"로 언급된)로 사용자의 의도를 결정하려고 시도할 수 있다. 상술한 바와 같이, 일부 구현예에서, 의도 매칭 기(136)는 하나 이상의 트레이닝 기계 학습 모델(예컨대, 신경망)을 사용하여 상기 쿼리를 감소된 차원 공간에 임베딩하고 다른 의도와 연관된 다른 임베딩에 대한 근접도를 결정할 수 있다. 부가적으로 또는 대안적으로, 의도 매칭기(136)는 사용자의 의도를 결정하기 위해 하나 이상의 문법을 이용할 수 있다.

일부 구현예에서, 블록(252)에서 결정된 의도(또한 "제1 언어 의도"로 지칭될 수 있음)는, 예를 들어 스코어링 엔진(140)에 스코어링되어, 상기 매칭된 의도가 진정으로 사용자의 의도라는 신뢰도 측정치(confidence measure)를 결정할 수 있다. 만약 사용자의 모국어에 대한 지원이 이미 비교적 강하면, 상기 매칭된 의도와 관련된 신뢰도 측정치는 상대적으로 높을 수 있다. 그러나, 사용자의 모국어가 아직 잘 지원되지 않는 상황에서, 상기 신뢰도 측정치는 상대적으로 낮을 수 있다. 일부 구현예에서, 만약 상기 매칭된 제1 언어 의도에서의 신뢰도 측정치가 소정 임계치와 같은 일부 기준을 만족시키지 않으면, 상기 제1 파이프 라인의 처리는 더 진행하기 전에 포기될 수 있다. 일부 구현예에서, 이 매칭된 의도와 관련된 상기 신뢰도 측정치는 다른 파이프 라인(후술됨)을 사용하여 결정된 다른 매칭된 의도에 대해 결정된 신뢰도 측정치와 비교될 수 있으며, 가장 높은 신뢰도의 의도가 사용자의 요청을 이행하는데 사용될 수 있다.

블록(253)에서, 블럭(252)에서 사용자의 모국어로 식별된 제1 언어 의도는 예를 들어 이행 엔진(124)에 의해 이용되어 사용자의 요청을 이행할 수 있다. 다양한 시나리오에서, 사용자의 의도는 또한 사용자에 의해 제공된 슬롯값 및/또는 다양한 다른 소스로부터 획득된 데이터 포인트와 같은 다른 데이터 포인트로 충족될 수 있다. 전술한 바와 같이, 사용자의 의도의 이행은 이행 엔진(124)으로 하여금 응답 컨텐츠를 포함하는 이행 정보를 생성하도록 할 수 있다. 일부 구현예에서, 여기에는 사용자의 모국어로 된 문서의 다양한 코퍼스(예를 들어, 종래의 검색 엔진에 의해 검색되는 유사한 코퍼스) 및/또는 사용자 언어로 된 문서가 검색 결과로서 더 많이 치우친(biased) 보다 일반적인 코퍼스로부터의 컨텐츠를 포함할 수 있다. 일부 구현예에서, 이것은 사용자의 달력, 알림 리스트 등으로부터의 정보와 같이, 사용자에 의해 제어되는 컨텐츠를 포함할 수 있다. 부가적으로 또는 대안적으로, 상기 이행 정보는 미디어 재생, 제품/서비스 주문 등과 같은 응답 액션(들)을 포함할 수 있다.

블록(254)에서, 이행 정보는 예를 들어, 자연어 생성기(126)에 의해 이용되어, 사용자의 모국어로 제1 자연어 출력 후보를 생성할 수 있다. 전술한 바와 같이, 일부 구현예에서, 이것은 자연어 생성기(126)가 사용자의 모국어로 트레이닝된 기계 학습 모델을 통해 입력으로서 이행 정보를 적용하여 제1 자연어 출력 후보를 공식화하는데 사용되는 출력을 생성하는 것을 포함할 수 있다. 부가적으로 또는 대안적으로, 이것은 자연어 출력을 생성하기 위해 사용자의 모국어로 NLG 템플릿에 포함된 로직을 구현하는 것을 포함할 수 있다. 이하에서 설명되는 바와 같이, 블록(254)에서 생성된 자연어 출력은 블록(264)에서 스코어링을 위해 스코어링 엔진(140)으로 제공될 수 있다.

다양한 구현예에서, 하나 이상의 추가 파이프 라인이 예를 들어 블록(252-254)에 의해 정의된 파이프 라인과 병렬로 구현될 수 있다. 예를 들어, 제2 파이프 라인은 블럭(256)에서 시작될 수 있으며, 여기서 사용자의 쿼리는 예를 들어 번역기(138)에 의해 보다 완전하게 지원될 수 있는 제2 언어로 번역될 수 있다. 본 명세서에서 설명된 예에서는 영어가 완전하게 지원되는 언어를 나타내지만 이는 제한적 의미는 아니다. 일부 구현예에서, 번역기(138)는 블록(256)의 번역을 수행하기 위해 이전에 설명된 NLU-NMT 모델을 사용할 수 있다. 전술한 바와 같이, 사용자의 쿼리를 NLU-NMT 모델을 통해 입력으로 적용하는 것은, 범용 번역을 위해 이미 사용된 종래의 NMT 모델에 의해 생성된 출력보다 사용자의 의도를 정확하게 예측할 가능성이 높은 출력을 생성할 수 있다.

블록(258)에서, 사용자 쿼리의 번역은, 예를 들어 의도 매칭기(136)에 의해 제2 언어("제2 언어 의도"라고도 함)의 하나 이상의 의도와 매칭된다. 블록(252)의 경우에서와 같이, 다양한 구현예에서, 블록(258)에서 매칭된 상기 제2 언어 의도는 예를 들어 신뢰도의 측정치를 결정하기 위해 스코어링 엔진(140)에 의해 스코어링될 수 있다. 이러한 신뢰도 측정치는, 예를 들어, 블록(252)의 상기 매칭된 제1 언어 의도에 대해 결정된 신뢰도 측정치와 비교될 수 있다. 일부 구현예에서, 가장 높은 신뢰도 측정치(또는 충분히 높은 신뢰도 측정치)를 갖는 의도가 선택될 수 있고, 그 선택된 의도와 연관된 파이프 라인 만이 프로세싱을 계속할 수 있다.

블록(259)에서, 블록(258)에서 매칭된 상기 제2 언어 의도는 블록(253)과 유사하게, 예를 들어 이행 엔진(124)에 의해 이행되어 제2 이행 정보를 생성할 수 있다. 블록(260)에서, 블록(259)에서 생성된 이행 정보는 블록(254)과 유사하게 예를 들어 자연어 생성기(126)에 의해 제2 언어로 제2 자연어 출력 후보를 생성하기 위해 사용될 수 있다. 일부 구현예에서, 제2 자연어 출력 후보(제2 언어로 된)는 블록(262)에서 예를 들어 번역기(138)에 의해 제1 언어(즉, 사용자의 모국어)로 다시 번역되어, 번역된 제2 자연어 출력 후보가 된다.

다양한 구현예에서,(제1 언어로) 블록(254)에서 생성된 제1 자연어 출력 후보 및 블록(262)에서 제1 언어로 다시 번역된 (제2 언어로) 블록(260)에서 생성된 제2 자연어 출력 후보는 예를 들어 스코어링 엔진(140)에 의해 스코어링될 수 있다. 다양한 구현예에서, 가장 높은 스코어를 갖는 자연어 출력 후보(둘 다 제1 언어로 된)가 사용자에게 프리젠테이션을 위해 선택될 수 있다. 자연어 출력 후보를 스코어링할 때 다양한 기준이 사용될 수 있다. 일부 구현예에서, 자연어 출력 후보들은 자연어 출력을 산출한 의도(블록 252 및 258)에 대해 결정된 신뢰도 측정치에 적어도 부분적으로 기초하여 스코어링될 수 있다. 부가적으로 또는 대안적으로,일부 구현예에서, 블록(262)에서 제1 언어로 번역되는 제2 자연어 출력 후보는 번역의 품질(일부 번역 모델은 그들의 각각의 번역에 스코어링하도록 구성됨)에 기초하여 스코어링될 수 있다.

일부 구현예에서, 다른(제3) 파이프 라인은 각각 블록(252-254) 및 블록(256-262)에 의해 정의된 제1 및 제2 파이프 라인의 "하이브리드"로서 확립될 수 있다. 예를 들어, 일부 구현예에서, 블록(258)에서 사용자의 의도가 제2 언어로 매칭된 후에, "하이브리드"로 라벨링된 화살표에 의해 표시된 바와 같이, 블록(261)에서 제1 언어로 그 매칭된 의도를 이행하려는 시도가 이루어질 수 있다. 블록(254)에서, 블록(261)에서 생성된 이행 정보는 제3 자연어 출력 후보를 생성하기 위해, 예를 들어, 자연어 생성기(126)에 의해 사용될 수 있다. 일부 구현예에서, 이 제3 자연어 출력 후보는 블록(264)에서 다른 자연어 출력 후보와 함께 스코어링될 수 있다.

이러한 일련(계층 구조)의 파이프 라인들을 구현하는 것은 이미 지원되는 언어들에서 자동화 어시스턴트(120)의 품질을 향상시킬 수 있다. 새로운 파이프 라인들을 활성화함에 의해 더 많은 쿼리들이 올바르게 이해되고 실행될 수 있다. 게다가, 다수의 파이프 라인의 사용은 사용자의 쿼리에 대한 응답의 품질을 희생시키지 않으면서 자동화 어시스턴트(120)의 개발을 가속화한다. 일부 구현예에서, 자동화 어시스턴트(120)를 새로운 언어로 구현하는 언어 전문가는 문법을 작성하고, 원시 이해 모델을 트레이닝하고 및/또는 상기 제2 및 제3 파이프 라인(각각 256-262 또는 256 -> 258 -> 261 -> 254)을 사용하여 박스(box)에서 작동하지 않는 쿼리들에 대한 언어 탬플릿을 제공한다.

도 2에 도시된 3개의 파이프 라인 각각은 소정 유형의 쿼리를 처리하는데 특히 적합할 수 있다. 상기 제1 파이프 라인(252-254)은 특히 인간 대 컴퓨터 대화 컨텍스트에서 간단하게 및/또는 일반적으로 마주치는 쿼리를 처리하는데 특히 적합할 수 있다. 상기 자동화 어시스턴트 대화 컨텍스트에서 일반적(commonly)으로 발견되는 기본적인 쿼리를 이해하기 위해, 세르비아어에 대한 포괄적인 번역이 아직 완전히 지원되지는 않지만, 세르비아어에 대한 일부 문법은 이미 사용 가능하며 및/또는 의도 매칭기(예컨대, 데이터베이스(137)에 저장된)에 사용 가능한 기계 학습 모델이 예를 들어 세르비아어로 번역된 영어 쿼리/의도 쌍의 기록(log)을 사용하여 트레이닝된 것으로 가정한다. 추가로, 세르비아 사용자가 영어로 "이반 호출(Ivan Call"을 의미하는 "Zovi Ivana"라는 구를 말한다고 가정한다. 이러한 유형의 쿼리는 자동화 어시스턴트(120)의 능력의 핵심에 있다. 결과적으로, 이 쿼리는 제1 파이프 라인(252-254)을 사용하여 손쉽게 처리된다. 블록(264)에서 최종 자연어 출력 후보에 할당된 스코어는, 완료할 시간이 있다면 다른 2개의 파이프 라인으로부터 생성된 임의의 다른 자연어 출력 후보들과 관련된 스코어보다 높을 가능성이 크다.

상기 제2 파이프 라인(256-262)은 자연어 출력 생성이 가장 복잡하고 및/또는 어렵다고 판명되는 쿼리들에 더 적합할 수 있다. 예를 들어, 세르비아 화자가 " 'Koliko je brz najbrzi covek na svetu?'라는 명령을 내린다고 가정한다. 블록(256)에서, 이 쿼리는 "How fast is the fastest man in the world ?(세계에서 가장 빠른 사람은 얼마나 빠름니까 ?"로 세르비아어에서 영어로 (예를 들어, 번역기(138)에 의해) 번역될 수 있다. 블록(258)에서, 이 번역은 하나 이상의 파라미터/슬롯값을 형성하는 상기 쿼리의 용어들로 GET_INFORMATION의 의도를 결정하는데 사용될 수 있다. 블록(259)에서, 예를 들어 관련 문서들에 대한 표준 인터넷 검색을 수행하고 그러한 문서들로부터 상기 요청된 정보를 추출함으로써 상기 의도가 이행될 수 있다. 이 예에서, 영어 답변은 "우사인 볼트의 데이터에 따르면 초당 12.27 미터의 속도로 시속 27.44마일에 도달했습니다"가 될 것이다. 이 문장 (statement)은 정보 제공적이고 상대적으로 길기 때문에, 블록(260)에서, 자연어 생성기(126)는 자연어 출력으로서 축어적으로 이 언어를 단순히 사용할 수 있다. 블록(262)에서, 번역기(138)는 이 영어 문장을 세르비아어로 번역할 수 있고, 세르비아어 번역은 블럭(264)에서 스코어링될 수 있다.

제3의 하이브리드 파이프 라인(256-> 258-> 261-> 254)은 비교적 단순한 의도 및/또는 이행 정보를 생성하는 쿼리에 더 적합할 수 있다. 세르비아 화자가 "Podesi alarm za 9 ujutru"라는 쿼리를 발행한다고 가정한다. 블록(256)에서, 이 쿼리는 "Set an alarm for 9 in the morning(아침 9시로 알람을 설정해 줘)"로 세르비아어에서 영어로 (예를 들어, 번역기(138)에 의해) 번역될 수 있다. 블록(258)에서, 이 번역은 SET_ALARM의 의도 및 다음 날 오전 9시의 파라미터를 결정하는데 사용될 수 있다. 일단 블록(261)에서 이러한 의도가 이행되면, 자연어 생성기(126)는, 예를 들어 영어 NLG 템플릿으로부터, 자연어 출력 "네, 오전 9시에 알람이 설정되었습니다"를 생성할 것이다. 그러나, 그러한 NLG 템플릿(및 특히 그 안에 포함된 출력 후보)은 영어에서 세르비아어로 번역하는데 비교적 간단할 수 있다. 따라서, NLG 템플릿의 세르비아어 번역이 (예를 들어, 언어 전문가 및/또는 번역자에 의해) 생성되었다고 가정하면, 그 세르비아 NLG 템플릿은 예를 들어 자연어 생성기(126)에 의해 블록(254)에서 사용되어 세르비아어로 출력을 생성할 수 있다.

위에서 설명되고 도 2에 도시된 파이프 라인들은 다양한 방식으로 구현될 수 있다. 일부 구현예에서, 하나 이상의 파이프 라인은 예를 들어 다른 파이프 라인의 개시 동안 재귀적으로 개시될 수 있다. 예를 들어, 제1 파이프 라인(252-254)이 먼저 개시될 수 있고, 그런 다음 그 개시는 제2 파이프 라인(256-262)의 개시를 트리거할 수 있다. 이러한 구현들에서, 상기 제1 파이프 라인이, 상기 제2 파이프 라인이 완료될 기회를 갖기 전에 (예를 등어, 화자의 언어가 잘 지원되기 때문에) 충분히 높은 스코어를 가진 컨텐츠를 반환하면, 상기 제1 파이프 라인에 대한 호출은 상기 제2 파이프 라인에 대한 호출이 완료되기 전에 간단히 복귀할 수 있다.

제2 파이프 라인(256-262)을 사용할 때, 사용자 쿼리의 일부 용어는 번역되지 않은 채로 남겨 두는 것이 바람직할 수 있다(예를 들어, 사용자의 모국어로 그들을 유지함). 이것은 사용자가 모국어로 제공한 슬롯값이나 파라미터에 대해 특히 해당된다. 도 3a 및 도 3b는 하나의 그러한 예를 도시한다. 도 3a에서, 사용자 (101)는 자동화 어시스턴트(120)의 인스턴스를 적어도 부분적으로 동작시키는 대화형(interactive)의 단독 실행형 스피커의 형태를 취하는 클라이언트 디바이스(306)와 결합(engage)한다. 사용자(101)는 영어로 "Akash"라는 사람을 호출하는 명령으로 해석되어야 하는 "Kol Akash"라는 발화(utterance)를 힌두어로 말한다. 그러나, "Akash"는 영어로 "sky(하늘)"로 번역되는 힌두어 단어 "aakaash"와 유사하게 들린다. 따라서, 상기 사용자의 발화가 음성 인식된 다음 (블록(256)에서) 번역될 때, 그것은 "Call sky(하늘 호출)"로 번역될 우려(risk)가 있다. 그러한 번역은 사용자(101)의 진정한 의도와 매칭하는 의도를 산출하지 못할 것이다. 결과적으로, 도 3a에서, 클라이언트 디바이스(306)상에서 적어도 부분적으로 동작하는 자동화 어시스턴트(120)는 "미안합니다. 이해할 수 없습니다"하고 번역하는 "mujhe kshama karen, mujhe samajanahahaaaa raha hai"로 응답한다.

그러나, 일부 구현예에서, 슬롯값은 사용자의 쿼리로부터 생성된 음성 인식 출력에서, 예를 들어 의도 매칭기(136) 및/또는 다른 클라우드 기반의 자동화 어시스턴트 컴포넌트(119)에 의해 식별될 수 있다. 다양한 구현예에서, 도 2의 블록(256)에서 발생하는 번역은, 예를 들어 매칭하는 의도가 블록(258)에서 식별될 때 유지(preserve)되도록 이 식별된 슬롯값을 특별히 배제할 수 있다. 결과적으로, 상기 제2 언어 의도는 제1 언어의 슬롯값에 적어도 부분적으로 기초하여 블록(258)에서 식별될 수 있다. 예를 들어, 도 3b에서, "aakaash"를 "sky"로 번역하는 대신 "call"로 번역되는 "Kol"라는 용어는, (예를 들어, 자연 언어 프로세서(122)에 의해) 슬롯 값 앞에 나오는 용어로서 식별될 수 있으며, 다음 용어인 "Akash"가 사람 이름일 가능성이 있는지를 결정하는데 사용될 수 있다. 따라서, 사용자의 쿼리의 상기 번역은 "Kol aakaash"가 아닌 "Kol Akash"가 될 것이며, 자동화 어시스턴트 (120)는 "OK, calling Akash now(예, 지금 Akash를 호출하겠습니다"라는 의미인"theek hai, ab aakrti ko bulao"로 응답할 수 있다.

다른 예로서, 사용자가 영어로 "쇼핑 리스트에 우유를 추가해 줘"라고 번역하는, 이탈리아어로 "Aggiungi latte alla lista della spesa"를 묻는다고 가정한다. 여기서, 사용자는 우유가 아니라 쇼핑 리스트에 "라떼"라는 단어를 추가하려고 한다. 따라서, 자연어 프로세서(122)에 의해 적용된 주석들 또는 이전에 기술된 NLU-NMT 모델에 기초하여 적용된 주석들과 같은 다양한 기술을 사용하여, 사용자의 원래 이탈리아어 쿼리 내의 "라테"라는 용어가 주석이 달릴 수가 있어서, 사용자의 의도(예컨대, ADD_TO_SHOPPING_LIST)가 사용자가 의도한 바와같이 올바른 파라미터 "라테(latte)"로 충족(fulfill)될 수 있다.

또 다른 예로서, 사용자가, 영어로 "Play from the heart(간절히 재생을 원해)"라고 직접적으로 번역하는 힌두어의 "dil se bajao"를 묻는다고 가정한다. 그러나, 사용자는 자동화 어시스턴트(120)가 "Dil Se"라는 제목의 인도 영화를 실제로 시작하기를 원할 수도 있다. 이 예에서, "dil se"는, 예를 들어 위에 언급된 엔티티 태거에 의해, 인도 영화로 주석될 수 있다. 따라서, "dil se"는 인두어로 유지될 수 있지만, 사용자 쿼리(bajao)의 나머지는 영어로 번역될 수 있어, 자동화 어시스턴트(120)는 사용자가 의도한 바와같이 영화의 재생을 개시할 것이다.

일부 구현예에서, 도 2에 도시된 바와 같이 다수의 프로세싱 파이프 라인을 구현하는 것은 인간 대 컴퓨터 대화에 대기시간(latency)을 도입할 수 있다. 예를 들어, 번역기(138)의 일부 구현예들은 수백 밀리 초 정도의 대기 시간을 부가할 수 있다. 따라서, 다양한 구현예에서, 대기 시간의 영향을 줄이기 위해 다양한 완화 조치가 취해질 수 있다.

예를 들어, 제1 파이프 라인(252-254)이 높은 수준의 신뢰도와 관련된 의도 및/또는 자연어 출력을 생성한다고 가정한다. 이는 사용자가 쿼리를 제공하기 위해 사용하는 언어가 잘 지원되거나 상기 사용자의 쿼리가 잘 지원되는 사용자 언어의 몇 가지 문법 중 하나와 매칭하는 경우일 수 있다. 결과적으로, 자연어 출력은 제2 파이프 라인(256-262)이 완료되기 전에 사용자의 언어로 생성될 수 있다. 이 시나리오에서, 일단 제1 파이프 라인이 사용자 언어로 자연어 출력을 반환하면 제2 파이프 라인의 프로세싱은 포기될 수 있다.

다른 예로서, 다양한 언어로 일반적으로 자주 접하는 쿼리들(또한 덜 일반적인 "롱-테일(long-tail)" 쿼리들과 대조적으로 "헤드(head)" 쿼리들로 칭함)의 번역은 예를 들어, 인덱스(139)의 번역기(138)에 의해 캐시(cach)될 수 있다. 또 다른 예로서, 일부 구현예에서, 번역기(138)에 의해 채용된 번역 모델은 전체 문서를 번역하는데 사용될 수 있는 포괄적인 번역 모델보다 간단할 수 있다. 일부 구현예에서, 상기 감소된 변환 모델은 인간 대 컴퓨터 대화에 맞게 조정될 수 있으며, 특히 인간 대 컴퓨터 대화에서 자주 접하는 문법에 맞게 조정될 수 있다.

일부 구현예에서, 번역(즉, 제2 파이프 라인(256-262))은 초기 쿼리를 제공하기 위해 사용자에 의해 사용된 언어가 잘 지원되지 않는다고 결정될 때만 채용될 수 있다. 부가적으로 또는 대안적으로, 일부 구현예에서, 번역(즉, 제2 파이프 라인(256-262))은, 예를 들어, 블록(252)에서 매칭된 의도 또는 블록(254)에서 생성된 자연어 출력 후보가 낮은 관련 신뢰도 측정치를 갖기 때문에, 상기 제1 파이프 라인(252-254)이 실패한 후에 채용될 것이다.

일부 구현예에서, 특정 쿼리가 제1 파이프 라인(252-254)에서 성공적이면, 해당 쿼리는 예를 들어 "트리거된" 비트로 플래그될 수 있고, 상기 트리거된 비트는 동일한 언어의 동일한 쿼리(또는 동일한 언어의 구문론적/의미론적으로 유사한 쿼리)가 나중에 수신될 때 상기 트리거된 비트가 검사될 수 있도록 (예를 들어 데이터베이스(137)에) 저장될 수 있다. 상기 비트가 설정되었다고 가정하면(동일한 또는 유사한 쿼리가 이전에 제1 파이프 라인에서 성공적이었음을 의미하면), 상기 제1 파이프 라인의 처리가 개시될 수 있고 상기 제2 파이프 라인은 개시되지 않을 수 있다(또는 제1 파이프 라인이 어떤 이유로 실패한 경우에만 개시될 수 있다).

이 아이디어는 예를 들어, 제1 파이프 라인에서 성공 가능성이 높거나 실패 가능성이 높은 것으로 쿼리를 분류하는 기계 학습 분류기(classifier)를 구축함으로써 일부 구현예에서 확장될 수 있다. 예를 들어, 제1 파이프 라인(252-254)을 사용하여 처리된 쿼리가 성공적인 결과를 산출하면, 해당 쿼리는 분류기(예컨대, 신경망, 지원 벡터 머신 등)에 대한 긍정적인 트레이닝 예로 사용될 수 있고, 상기 긍정적인 트레이닝 예와 관련된 라벨은 그것이 성공적이었다는 것을 나타낼 수 있다. 유사하게, 일부 구현예에서, 제1 파이프 라인을 통해 성공적으로 처리되지 않은 쿼리들은 부정적인 트레이닝 예로서 사용될 수 있다. 신경망과 같은 모델은 출력을 생성하고, 상기 출력과 상기 라벨들 간의 차이(또는 오류)를 결정하고, 상기 모델의 가중치를 조정하기 위한 기울기 강하(확률론적 또는 비례적) 및/또는 역 전파와 같은 다양한 학습 기술을 수행하기 위해 상기 모델 전반에 걸쳐 이러한 긍정적인 및/또는 부정적인 트레이닝 예들을 적용함으로서 트레이닝될 수 있다. 그 후, 예를 들어, 제1 파이프 라인을 사용하여 성공적으로 처리될 수 있는지 여부를 나타내는 출력을 생성하기 위해, 상기 트레이닝된 모델을 통해 새로운 쿼리들이 입력으로서 적용될 수 있다. 만약 답변이 '예'인 경우, 상기 제2 파이프 라인은 개시되지 않을 수 있다.

도 4는 본 명세서에 개시된 구현예에 따른 예시적인 방법(400)을 도시하는 흐름도이다. 편의상, 상기 흐름도의 동작은 동작들을 수행하는 시스템을 참조하여 설명된다. 이 시스템은 자동화 어시스턴트(120)를 구현하는 컴퓨팅 시스템의 하나 이상의 구성 요소(components)와 같은 다양한 컴퓨터 시스템의 다양한 구성 요소를 포함할 수 있다. 더욱이, 방법(400)의 동작들은 특정 순서로 도시되어 있지만, 이에 한정되는 것은 아니다. 하나 이상의 동작은 재정렬, 생략 또는 추가될 수 있다.

블록(402)에서, 시스템은 사용자의 모국어와 같은 제1 언어로 클라이언트 디바이스의 입력 컴포넌트에서 사용자에 의해 제공된 보이스(voice) 입력을 수신할 수 있다. 블록(404)에서, 시스템은 예를 들어 STT 엔진(117) 또는 음성 캡처/TTS/STT(114)를 통해 상기 보이스 입력으로부터 음성 인식 출력(speech recognition output)을 생성할 수 있다. 다양한 구현예에서, 상기 음성 인식 출력은 음성으로부터 생성된 텍스트 데이터를 포함할 수 있고, 많은 경우 상기 음성 인식 출력은 또한 제1 언어일 수 있다. 사용자가(예를 들어, 메시지 교환 클라이언트(107)를 통해) 유형화된(typed) 텍스트로서 쿼리를 제공하는 다른 구현예들에서, 블록(402-404)은 생략될 수 있다.

블록(406)에서, 시스템은 예를 들어 의도 매칭기(136)에 의해, 블록(404)에서 생성된 음성 인식 출력에 기초하여 사용자의 제1 언어 의도를 식별할 수 있다. 이는 도 2의 블록(252)에 해당할 수 있고, 이전에 설명된 제1 파이프 라인의 시작을 구성할 수 있다. 예를 들어, 의도 매칭기(136)는 음성 인식 출력을, 예를 들어 데이터베이스(137)에 저장된 제1 언어의 하나 이상의 문법과 비교할 수 있다. 자동화 어시스턴트 에코 시스템에서 상대적으로 지원되지 않는 언어일지라도 데이터베이스(137)에 최소한의 기초 문법이 제공될 수 있다. 매치는 하나 이상의 문법에 대해(의미론적 및/또는 구문론적으로) 충분히 유사한 음성 인식 출력과 같은 다양한 방식으로 발견될 수 있다. 부가적으로 또는 대안적으로, 일부 구현예에서, 시스템은 하나 이상의 도메인-특정의 트레이닝된 기계 학습 모델을 채용하여 상기 제1 언어 의도를 식별할 수 있다.

블록(408)에서, 시스템은 제1 언어 의도를 이행할 수 있다. 이는 도 2의 블록(253)에 대응할 수 있다. 예를 들어, 시스템은 적어도 부분적으로 제1 언어로 작성된 문서의 코퍼스로부터 응답 컨텐츠를 획득할 수 있다. 부가적으로 또는 대안적으로, 시스템은 제1 언어 의도(예를 들어, 하나 이상의 문법과 매칭하는 명령)에 응답하는 하나 이상의 액션을 식별할 수 있다. 제1 이행 정보는 블록(408)의 이행에 기초하여 생성될 수 있다. 블록(410)에서, 시스템은 예를 들어 자연어 생성기(126)에 의해 블록(408)에서 생성된 제1 이행 정보에 기초하여 제1 언어로 제1 자연어 출력(도 4에서의 "NLO") 후보를 생성할 수 있다.

블록(412)에서, 시스템은 음성 인식 출력의 적어도 부분적 번역을 생성하기 위해 제1 언어로부터의 음성 인식 출력의 적어도 일부를 제2 언어로 번역할 수 있다. 이는 도 2의 블록(256)에 대응할 수 있고, 앞서 설명된 제2 및 제3 파이프 라인의 시작(beginning)일 수 있다. 따라서, 일부 구현예에서, 블록(406-410)의 동작 및 블록(412-420)의 동작은 병렬로 동작할 수 있고 및/또는 동작들의 한 세트는 재귀적으로 다른 세트를 호출할 수 있다.

블록(414)에서, 시스템은 (예를 들어, 도 2의 블록(258)에 대응하는) 적어도 부분적 번역에 기초하여 사용자의 제2 언어 의도를 식별할 수 있다. 블록(416)에서, 시스템은 도 2의 블록(259)과 유사하게 제2 이행 정보를 생성하기 위해 상기 제2 언어 의도를 이행할 수 있다. 이 시점에서, 제2 및 제3 파이프 라인이 분기된다. 블록(418)에서, 상기 제2 파이프 라인은 계속되고, 시스템은 예를 들어 자연어 생성기(126)에 의해 상기 제2 언어로 제2 자연어 출력 후보를 생성할 수 있다. 블록(419)에서, 상기 제2 자연어 출력 후보는 제1 언어로 번역될 수 있다. 한편, 블록(420)에서, 상기 제3 파이프 라인의 일부로서, 시스템은, 예를 들어, 자연어 생성기(126)에 의해, 예를 들어 전술한 바와 같은 번역된 NLG 템플릿을 사용하여, 또는 다른 기술을 사용하여 상기 제1 언어로 직접 제3 자연어 출력 후보를 생성할 수 있다.

블록(422)에서, 시스템은 예를 들어 스코어링 엔진(140)에 의해, 도 2의 블록(264)에 도시된 바와 같이 상기 제1, 제2 및 제3 자연어 출력 후보에 대한 스코어를 결정할 수 있다. 블록(422)에서 결정된 상기 스코어들에 기초하여, 블록(424)에서, 시스템은 자연어 출력을 선택하여 사용자에게 출력하도록 할 수 있다. 예를 들어, 사용자가 초기 발화를 음성으로 제공하면, 상기 자연어 출력은 스피커를 통해 청각적으로 사용자에게 제공될 수 있다. 만약 사용자가 (예를 들어, 메시지 교환 클라이언트(107)를 사용하여) 텍스트 입력으로서 초기 쿼리를 제공하면, 상기 자연어 출력은 예를 들어 메시지 교환 클라이언트(107)에서 진행중인 전사 (transcript)의 일부로서 시각적으로 제시될 수 있다.

상기 선택된 컨텐츠가 액션(예를 들어, 음악 재생, 음식 주문)인 일부 구현예에서, 상기 생성된 자연어 후보는 액션이 수행될 것이라는 확인(confirmation)을 포함할 수 있다. 아래에서 보다 상세히 설명되는 바와 같이, 일부 구현예에서, 상기 자연어 출력은 제2 언어로 생성된 다음 (예를 들어, 사용자가 제1 언어로 처음에 말했기 때문에) 제1 언어로 번역될 수 있다. 이러한 구현예들에서, 상기 변환된 자연어 출력이 하나 이상의 기준을 만족하는지 여부에 관한 결정이 이루어질 수 있고, 그렇지 않은 경우, 제2 언어로 대체 자연어 출력이 생성되고, 번역되어, 대신 사용자에게 제공될 수 있다.

자연어 출력이 제2 언어로 생성된 다음 사용자에 의한 소비를 위해 제1 언어로 번역될 때, 상기 제2 언어로 생성된 자연어 출력이 쉽게 번역 가능하지 않거나 상기 번역이 번역 품질에 대한 일부 테스트에 실패하는 경우일 수 있다. 예를 들어, 종종 구어체는, 자동화 어시스턴트(120) 사운드를 생성하거나 보다 생생하게 나타내기 위하여, 다양한 시나리오(예컨대, NLG 템플릿에 의해 지시된 것처럼)에서 보다 엄격하고 및/또는 공식적인 자연어 출력으로 대체될 수 있다. 사용자가 오늘 날씨에 관해 묻는다고 가정하면, 상기 예보는 화씨 85도이고 맑음이다. 일부 경우에, 이 정보를 전달하기 위해 자연어 출력을 단순히 직설적으로 생성하는 것이 아니라, 자동화 어시스턴트(120)는 대신 "예를 들어 "날씨가 몹시 더울 것 같습니다, 선글라스를 잊지 마세요"와 같은 사전 결정된 구어체 구를 선택(예컨대, NLG 템플릿에 기초하여)할 수 있다. 그러나, 자동화 어시스턴트에 의해 완전히 지원되지 않는 언어를 말하는 사용자의 맥락에서, 그러한 구어체 구는 사용자의 모국어로 잘 번역되지 않을 수 있다.

따라서, 일부 구현예에서, 블록(418)에서 자연어 출력을 생성할 때, 사용자가 출력으로서 수신하는 것이 사용자의 모국어로 의미가 있음을 보장하기 위해 다양한 기술이 이용될 수 있다. 도 5는 도 2의 제2 파이프 라인(256-262)의 일부로서 구현될 수 있는 하나의 그러한 기술(500)을 나타낸다.

블록(520)에서, 시스템은 도 2의 블록(260)과 유사하게 상기 제2 언어로 자연어 출력을 생성할 수 있다. 블록(522)에서, 예를 들어 번역기(138)에 의해, 시스템은 도 2의 블록(262)과 유사하게 상기 제2 언어(예를 들어, 영어 또는 다른 완전히 지원되는 언어)의 자연어 출력을 제1 언어로 번역할 수 있다. 블록(524)에서, 시스템은 블록(522)의 번역과 관련된 품질의 측정치가 최소 임계치와 같은 소정 기준을 만족시키는지 여부를 결정할 수 있다. 답변이 "예"이면, 상기 번역은 제1 언어로 사용자에 의해 이해될 가능성이 높기 때문에, 블록(526)에서, 상기 번역된 자연어 출력이 사용자의 클라이언트 디바이스로 제시될 수 있다.

그러나, 블록(524)에서의 답변이 "아니오"이면, 상기 번역은 품질이 좋지 않을 수 있으며, 사용자는 그 번역을 쉽게 이해하지 못할 수 있다(또는 서투른 또는 오류가 있는 것으로 보일 수 있다). 이러한 경우, 블록(528)에서, 시스템은 블록(520)에서 제2 언어로 생성된 상기 자연어 출력을 대체 자연어 출력으로 대체할 수 있다. 이 대체 자연어 출력은 보다 형식적이고, 일반적이고, 구어체가 없을 수 있거나, 그렇지 않으면 사용자에 의해 사용된 제2 언어로부터 제1 언어로보다 쉽게 번역되도록 선택될 수 있다. 블록(530)에서, 시스템은, 예를 들어 번역기(138)에 의해, 상기 대체 자연어 출력을 번역하여 사용자의 클라이언트 디바이스로 제시하게 할 수 있다.

도 6은 본 명세서에 기술된 기술들의 하나 이상의 양태를 수행하기 위해 선택적으로 이용될 수 있는 예시적인 컴퓨팅 디바이스(610)의 블록도이다. 일부 구현예에서, 클라이언트 컴퓨팅 디바이스, 사용자-제어 리소스 엔진(130) 및/또는 다른 컴포넌트(들) 중 하나 이상은 예시적인 컴퓨팅 디바이스(610)의 하나 이상의 컴포넌트를 포함할 수 있다.

컴퓨팅 디바이스(610)는 전형적으로 버스 서브 시스템(612)을 통해 다수의 주변 디바이스와 통신하는 적어도 하나의 프로세서(614)를 포함한다. 이들 주변 디바이스는 예를 들어, 메모리 서브 시스템(625) 및 파일 저장 서브 시스템(626), 사용자 인터페이스 출력 디바이스(620), 사용자 인터페이스 입력 디바이스(622) 및 네트워크 인터페이스 서브 시스템(616)을 포함하는, 저장 서브 시스템(624)을 포함할 수 있다. 상기 입력 및 출력 디바이스는 컴퓨팅 디바이스(610)와의 사용자 상호 작용을 허용한다. 네트워크 인터페이스 서브 시스템(616)은 외부 네트워크에 인터페이스를 제공하고, 다른 컴퓨팅 디바이스의 대응하는 인터페이스 디바이스에 커플링된다.

사용자 인터페이스 입력 디바이스들(622)은 키보드, 포인팅 디바이스(마우스, 트랙볼, 터치 패드 또는 그래픽 태블릿과 같은), 스캐너, 터치 스크린(디스플레이에 통합된), 오디오 입력 디바이스(음성 인식 시스템과 같은), 마이크로폰 및/또는 다른 타입의 입력 디바이스를 포함할 수 있다. 일반적으로, 용어 "입력 디바이스"의 사용은 정보를 컴퓨팅 디바이스(610) 또는 통신 네트워크상에 입력하는 모든 가능한 유형의 디바이스 및 방법을 포함하도록 의도된다.

사용자 인터페이스 출력 디바이스들(620)은 디스플레이 서브 시스템, 프린터, 팩스 머신, 또는 오디오 출력 디바이스들과 같은 비 시각적 디스플레이들을 포함할 수 있다. 상기 디스플레이 서브 시스템은 음극선관(CRT), 액정 디스플레이(LCD)와 같은 평판 디바이스, 프로젝션 장치, 또는 가시적 이미지를 생성하기 위한 소정의 다른 메커니즘을 포함할 수 있다. 상기 디스플레이 서브 시스템은 또한 오디오 출력 디바이스를 통한 비 시각적 디스플레이를 제공할 수 있다. 일반적으로, 용어 "출력 디바이스"의 사용은 정보를 컴퓨팅 디바이스(610)로부터 사용자로 또는 다른 기계 또는 컴퓨팅 디바이스로 출력하기 위한 모든 가능한 유형의 디바이스 및 방법을 포함하도록 의도된다.

저장 서브 시스템(624)은 본 명세서에 설명된 일부 또는 모든 모듈의 기능을 제공하는 프로그래밍 및 데이터 구성을 저장한다. 예를 들어, 상기 저장 서브 시스템(624)은 도 1에 도시된 다양한 구성 요소를 구현할 뿐만 아니라 도 4 및 도 5a-b의 방법의 선택된 양태들을 수행하기 위한 로직을 포함할 수 있다.

이들 소프트웨어 모듈은 일반적으로 프로세서(614) 단독으로 또는 다른 프로세서와 조합하여 실행된다. 상기 저장 서브 시스템(624)에서 사용되는 메모리(625)는 프로그램 실행 중에 명령 및 데이터의 저장을 위한 메인 랜덤 액세스 메모리(RAM)(630) 및 고정 명령이 저장되는 판독 전용 메모리(ROM)(632)를 포함하는 다수의 메모리를 포함할 수 있다. 파일 저장 서브 시스템(626)은 프로그램 및 데이터 파일을 위한 영구 저장 장치를 제공할 수 있으며, 하드 디스크 드라이브, 플로피 디스크 드라이브 및 관련 이동식 매체, CD-ROM 드라이브, 광학 드라이브 또는 이동식 매체 카트리지를 포함할 수 있다. 소정 구현예의 기능을 구현하는 모듈들은 저장 서브 시스템(624)의 파일 저장 서브 시스템(626) 또는 프로세서(들)(614)에 의해 액세스 가능한 다른 머신에 저장될 수 있다.

버스 서브 시스템(612)은 컴퓨팅 디바이스(610)의 다양한 컴포넌트들 및 서브 시스템들이 의도된 바와 같이 서로 통신하게 하는 메커니즘을 제공한다. 버스 서브 시스템(612)은 단일 버스로서 개략적으로 도시되어 있지만, 상기 버스 서브 시스템의 다른 구현예는 다수의 버스를 사용할 수 있다.

컴퓨팅 디바이스(610)는 워크 스테이션, 서버, 컴퓨팅 클러스터, 블레이드 서버, 서버 팜 또는 임의의 다른 데이터 처리 시스템 또는 컴퓨팅 디바이스를 포함하는 다양한 유형일 수 있다. 컴퓨터 및 네트워크의 끊임없이 변화하는 특성으로 인해, 도 6에 도시된 컴퓨팅 디바이스(610)의 설명은 단지 일부 구현예를 설명하기 위한 특정 예로서만 의도된다. 컴퓨팅 디바이스(610)의 많은 다른 구성은 도 6에 도시된 컴퓨팅 디바이스보다 더 많거나 적은 컴포넌트를 갖는 것이 가능하다.

몇몇 구현예가 본 명세서에 기재되고 설명되었지만, 기능을 수행하고/하거나 결과를 얻거나 및/또는 본 명세서에 기술된 하나 이상의 이점을 얻기 위한 다양한 다른 수단 및/또는 구조가 이용될 수 있으며, 그러한 변형 및/또는 수정은 본 명세서에서 설명된 구현예들의 범위 내에있는 것으로 간주된다. 보다 일반적으로는, 본 명세서에 기술된 모든 파라미터, 치수, 재료 및 구성은 예시적인 것이며, 실제 파라미터, 치수, 재료 및/또는 구성은 특정 어플리케이션 또는 해당 교시(teaching)가 사용되는 어플리케이션에 따라 다를 것이다. 당업자는 일상적인 심험만을 사용하여 본 명세서에서 설명된 소정 구현예들에 대한 다수의 등가물을 인식할 수 있거나 또는 이를 확인할 수 있다. 따라서, 전술한 구현예는 단지 예일 뿐이며, 첨부된 청구 범위 및 그 등가물의 범위 내에서 구현은 구체적으로 기술되고 청구된 것과 다르게 실시될 수 있음을 이해해야 한다. 본 발명의 구현은 본 명세서에 기술된 각각의 개별적인 특징, 시스템, 항목(article), 재료, 키트 및/또는 방법에 관한 것이다. 게다가, 그러한 2개 이상의 특징, 시스템, 항목, 재료, 키트 및/또는 방법의 임의의 조합은, 그러한 특징, 시스템, 항목, 재료, 키트 및/또는 방법이 상호 불일치하지 않으면 본 발명의 범위내에 포함된다.

Claims

하나 이상의 프로세서에 의해 구현되는 방법으로서,
클라이언트 디바이스의 입력 컴포넌트에서 사용자에 의해 제1 언어로 제공되는 보이스(voice) 입력을 수신하는 단계;
상기 보이스 입력으로부터 음성(speech) 인식 출력을 생성하는 단계, 상기 음성 인식 출력은 제1 언어로 되어 있고;
상기 음성 인식 출력에 기초하여 상기 사용자의 제1 언어 의도를 식별하는 단계;
제1 이행 정보(fulfillment information)를 생성하기 위해 상기 제1 언어 의도를 이행하는 단계;
상기 제1 이행 정보에 기초하여, 상기 제1 언어로 제1 자연어 출력 후보를 생성하는 단계;
상기 음성 인식 출력의 적어도 부분 번역(partial translation)을 생성하기 위해 상기 제1 언어로부터의 상기 음성 인식 출력의 적어도 일부를 제2 언어로 번역하는 단계;
상기 적어도 부분 번역에 기초하여 상기 사용자의 제2 언어 의도를 식별하는 단계;
제2 이행 정보를 생성하도록 상기 제2 언어 의도를 이행하는 단계;
상기 제2 이행 정보에 기초하여, 상기 제2 언어로 제2 자연어 출력 후보를 생성하는 단계;
상기 제1 및 제2 자연어 출력 후보에 대한 스코어를 결정하는 단계;
상기 스코어들에 기초하여, 상기 제1 및 제2 자연어 출력 후보로부터 상기 사용자에게 제시될 자연어 출력을 선택하는 단계; 및
상기 클라이언트 디바이스로 하여금 상기 선택된 자연어 출력을 상기 클라이언트 디바이스의 출력 컴포넌트에 제시하도록 하는 단계를 포함하는 것을 특징으로 하는 방법.
제1항에 있어서,
상기 제2 언어 의도에 응답하는 제3 자연어 출력 후보를 제1 언어로 생성하는 단계를 더 포함하고, 상기 스코어를 결정하는 단계는 상기 제1, 제2 및 제3 컨텐츠에 대한 스코어를 결정하는 단계를 더 포함하는 것을 특징으로 하는 방법.
제1항에 있어서,
스코어링 이전에 상기 제2 자연어 출력 후보를 상기 제1 언어로 번역하는 단계를 더 포함하는 것을 특징으로 하는 방법.
제3항에 있어서,
상기 제2 자연어 출력 후보를 번역하는 단계는,
인간 대 컴퓨터 대화 중에 하나 이상의 자동화 어시스턴트(automated assistants)에 의해 제공되는 자연어 출력의 하나 이상의 기록(log)을 사용하여 트레이닝된 기계 학습 모델에 기초하는 것을 특징으로 하는 방법.
제1항에 있어서,
상기 음성 인식 출력의 상기 적어도 부분 번역을 생성하기 위한 상기 번역 단계는, 인간 대 컴퓨터 대화 중에 하나 이상의 자동화 어시스턴트에게 제출된 사용자 쿼리들의 하나 이상의 기록을 사용하여 트레이닝된 기계 학습 모델에 기초하는 것을 특징으로 하는 방법.
제1항에 있어서,
스코어링은 상기 제1 및 제2 자연어 의도에 할당된 각각의 신뢰도 스코어에 기초하는 것을 특징으로 하는 방법.
제1항에 있어서,
스코어링은 상기 제1 및 제2 자연어 출력 후보를 획득하는데 요구되는 시간에 기초하는 것을 특징으로 하는 방법.
제1항에 있어서,
상기 음성 인식 출력에서 슬롯값을 식별하는 단계를 더 포함하고,
상기 음성 인식 출력의 상기 적어도 부분 번역은 상기 슬롯값을 배제하고, 그리고
상기 제2 언어 의도는 상기 제1 언어의 상기 슬롯값에 기초하여 추가로 식별되는 것을 특징으로 하는 방법.
하나 이상의 프로세서에 의해 구현되는 방법으로서,
클라이언트 디바이스의 입력 컴포넌트에서 사용자에 의해 제1 언어로 제공된 보이스(voice) 입력을 수신하는 단계;
상기 제1 언어로 상기 보이스 입력의 음성(speech)인식 출력을 생성하는 단계;
상기 음성 인식 출력의 적어도 부분 번역(partial translation)을 생성하기 위해 상기 제1 언어로부터의 상기 음성 인식 출력의 적어도 일부를 제2 언어로 번역하는 단계;
상기 적어도 부분 번역에 기초하여 상기 사용자의 제2 언어 의도를 식별하는 단계;
제2 이행 정보를 생성하기 위해 상기 제2 언어 의도를 이행하는 단계;
상기 제2 언어 의도에 기초하여 상기 제2 언어로 자연어 출력을 생성하는 단계;
번역된 자연어 출력을 생성하기 위해 상기 자연어 출력을 상기 제1 언어로 번역하는 단계;
상기 번역된 자연어 출력이 하나 이상의 기준(criteria)을 만족하는지 여부를 결정하는 단계;
상기 결정에 기초하여, 상기 번역된 자연어 출력에 기초하는 출력 또는 대체 자연어 출력을 선택하는 단계; 및
상기 클라이언트 디바이스로 하여금 상기 출력을 클라이언트 디바이스의 출력 컴포넌트에 제시하도록 하는 단계를 포함하는 것을 특징으로 하는 방법.
제9항에 있어서,
상기 하나 이상의 기준은
상기 번역된 자연어 출력이 번역 품질 기준을 만족하는지 여부를 포함하는 것을 특징으로 하는 방법.
제9항에 있어서,
상기 자연어 출력을 번역하는 단계는,
인간 대 컴퓨터 대화 중에 하나 이상의 자동화 어시스턴트에 의해 제공되는 자연어 출력의 하나 이상의 기록(log)을 사용하여 트레이닝된 기계 학습 모델에 기초하는 것을 특징으로 하는 방법.
제9항에 있어서,
상기 음성 인식 출력의 상기 적어도 부분 번역을 생성하기 위한 상기 번역 단계는,
인간 대 컴퓨터 대화 중에 하나 이상의 자동화 어시스턴트에게 제출된 사용자 쿼리들의 하나 이상의 기록을 사용하여 트레이닝된 기계 학습 모델에 기초하는 것을 특징으로 하는 방법.
하나 이상의 프로세서 및 상기 하나 이상의 프로세서와 동작 가능하게 결합된 메모리를 포함하는 시스템으로서, 상기 메모리는 하나 이상의 프로세서에 의한 명령의 실행에 응답하여, 상기 하나 이상의 프로세서로 하여금 동작들을 수행하게 하는 명령을 저장하고, 상기 동작들은,
클라이언트 디바이스의 입력 컴포넌트에서 사용자에 의해 제1 언어로 제공되는 보이스(voice) 입력을 수신하는 단계;
상기 보이스 입력으로부터 음성(speech) 인식 출력을 생성하는 단계, 상기 음성 인식 출력은 제1 언어로 되어 있고;
상기 음성 인식 출력에 기초하여 상기 사용자의 제1 언어 의도를 식별하는 단계;
제1 이행 정보(fulfillment information)를 생성하기 위해 상기 제1 언어 의도를 이행하는 단계;
상기 제1 이행 정보에 기초하여, 상기 제1 언어로 제1 자연어 출력 후보를 생성하는 단계;
상기 음성 인식 출력의 적어도 부분 번역(partial translation)을 생성하기 위해 상기 제1 언어로부터의 상기 음성 인식 출력의 적어도 일부를 제2 언어로 번역하는 단계;
상기 적어도 부분 번역에 기초하여 상기 사용자의 제2 언어 의도를 식별하는 단계;
제2 이행 정보를 생성하도록 상기 제2 언어 의도를 이행하는 단계;
상기 제2 이행 정보에 기초하여, 상기 제2 언어로 제2 자연어 출력 후보를 생성하는 단계;
상기 제1 및 제2 자연어 출력 후보에 대한 스코어를 결정하는 단계;
상기 스코어들에 기초하여, 상기 제1 및 제2 자연어 출력 후보로부터 상기 사용자에게 제시될 자연어 출력을 선택하는 단계; 및
상기 클라이언트 디바이스로 하여금 상기 선택된 자연어 출력을 상기 클라이언트 디바이스의 출력 컴포넌트에 제시하도록 하는 단계를 포함하는 것을 특징으로 하는 시스템.
제13항에 있어서,
상기 제2 언어 의도에 응답하는 제3 자연어 출력 후보를 제1 언어로 생성하기 위한 명령을 더 포함하고, 상기 스코어를 결정하는 단계는 상기 제1, 제2 및 제3 컨텐츠에 대한 스코어를 결정하는 단계를 더 포함하는 것을 특징으로 하는 시스템.
제13항에 있어서,
스코어링 이전에 상기 제2 자연어 출력 후보를 상기 제1 언어로 번역하기 위한 명령을 더 포함하고, 상기 제2 자연어 출력 후보를 번역하는 것은 인간 대 컴퓨터 대화 중에 하나 이상의 자동화 어시스턴트(automated assistants)에 의해 제공되는 자연어 출력의 하나 이상의 기록(log)을 사용하여 트레이닝된 기계 학습 모델에 기초하는 것을 특징으로 하는 시스템.
제13항에 있어서,
상기 음성 인식 출력의 상기 적어도 부분 번역을 생성하기 위한 상기 번역 단계는, 인간 대 컴퓨터 대화 중에 하나 이상의 자동화 어시스턴트에게 제출된 사용자 쿼리들의 하나 이상의 기록을 사용하여 트레이닝된 기계 학습 모델에 기초하는 것을 특징으로 하는 시스템.
제15항에 있어서,
상기 자연어 출력을 선택하는 단계는,
상기 번역된 제2 컨텐츠가 변역 기준을 만족시키지 못한다고 결정하는 단계 및 상기 번역된 제2 컨텐트를 상기 제1 언어의 대체 자연어 출력으로 대체하는 단계를 포함하는 것을 특징으로 하는 시스템.
제13항에 있어서,
스코어링은 상기 제1 및 제2 자연어 의도에 할당된 각각의 신뢰도 스코어에 기초하는 것을 특징으로 하는 시스템.
제13항에 있어서,
스코어링은 상기 제1 및 제2 자연어 출력 후보들을 획득하는데 요구되는 시간에 기초하는 것을 특징으로 하는 시스템.
제13항에 있어서,
상기 음성 인식 출력에서 슬롯값을 식별하기 위한 명령을 더 포함하고,
상기 음성 인식 출력의 상기 적어도 부분 번역은 상기 슬롯값을 배제하고, 그리고
상기 제2 언어 의도는 상기 제1 언어의 상기 슬롯값에 기초하여 추가로 식별되는 것을 특징으로 하는 시스템.