KR102332477B1

KR102332477B1 - 컨퍼런스 기능을 갖는 자동화된 어시스턴트

Info

Publication number: KR102332477B1
Application number: KR1020197038862A
Authority: KR
Inventors: 마신 노왁-프라지고드즈키; 잔 라메키; 베샤드 베자디
Original assignee: 구글 엘엘씨
Priority date: 2017-11-02
Filing date: 2018-10-30
Publication date: 2021-12-01
Also published as: CN112463104B; EP3624396A1; KR102580322B1; US10645035B2; US20200236069A1; JP6776462B2; JP7032504B2; JP2021012384A; KR20210148380A; KR20220149629A; WO2019089551A1; JP2022079458A; US11470022B2; US20230013581A1; JP7443407B2; EP3497883B1; EP3497883A1; CN110741601B; JP2020527740A; US20190132265A1

Abstract

자동화된 어시스턴트를 "컨퍼런스 모드"로 진입하게 하는 기법들이 기술되며, 상기 컨퍼런스 모드에서 자동화된 어시스턴트는 다수의 사람 참가자들 간의 미팅에 "참가"할 수 있고, 본 명세서에 기술된 다양한 기능을 수행한다. 다양한 구현예에서, 컨퍼런스 컴퓨팅 디바이스(들)에서 적어도 부분적으로 구현되는 자동화된 어시스턴트는 자동화된 어시스턴트가 각 발언 전에 명시적 호출을 요구하지 않고, 다수의 미팅 참가자들에 의해 제공된 다수의 구분되는 발화된 발언들에 대해 스피치-투-텍스트 프로세싱을 수행하는 컨퍼런스 모드로 설정될 수 있다. 자동화된 어시스턴트는 하나 이상의 발화된 발언들의 스피치-투-텍스트 프로세싱으로부터 생성된 제1 텍스트에 대해 시맨틱 프로세싱을 수행할 수 있고, 시맨틱 프로세싱에 기초하여 제1 텍스트와 관련된 데이터를 생성한다. 데이터는 컨퍼런스 컴퓨팅 디바이스(들)에서 참가자들에게 출력될 수 있다. 자동화된 어시스턴트는 미팅기 종료되었음을 나중에 결정하고, 비-컨퍼런스 모드로 설정될 수 있다.

Description

컨퍼런스 기능을 갖는 자동화된 어시스턴트

사람은 본 명세서에서 "자동화된 어시스턴트"("챗봇", "인터랙티브 퍼스널 어시스턴트", "지능형 퍼스널 어시스턴트", "개인 음성 어시스턴트", "대화형 에이전트들"로도 지칭됨)로 지칭되는 인터렉티브 소프트웨어 어플리케이션과의 사람-컴퓨터 간 대화에 참여할 수 있다. 예를 들어, 사람(자동화된 어시스턴트와 인터렉션할 때 "사용자" 또는 미팅의 맥락에서 "참가자"라고 할 수 있음)은 텍스트로 변환되고 프로세싱되는 음성 발언일 수 있는 자유 형식 자연어 입력을 사용하는 및/또는 타이핑된 자유 형식 자연어 입력에 의해 명령, 쿼리 및/또는 요청(집합적으로 "쿼리"로 지칭됨)을 제공할 수 있다. 자동화된 어시스턴트는 일반적으로 미리 결정된 음성 발언들(예: "OK 어시스턴트")를 사용하여 호출되며, 보통 호출 문구 바로 뒤에 후속하는 음성 발언들에 대해서만 스피치-투-텍스트 프로세싱, 자연어 프로세싱 및/또는 시맨틱 프로세싱과 같은 다양한 유형의 프로세싱을 수행한다.

다수의 사람 참가자들이 참여하는 미팅 중에 보통 "비서"라고 하는 능동적 또는 수동적 참가자들이 있고, 이 참가자는 미팅에 관한 노트를 작성하고 상기 노트들을 {예를 들어, "액션 아이템들" 및/또는 "논의된 토픽들"의 요약으로서} 상기 미팅 참가자들과 공유한다. 추가적으로 또는 대안적으로, 한 명 이상의 미팅 참가자들은 미팅 중에 자신의 고유 노트를 작성할 수 있다. 두 경우 모두, 미팅 동안 논의된 일부 정보가 손실될 가능성이 있다. 속기사가 미팅의 전체 또는 가능한 전체 기록 전사를 생성하기 위해 참여할 수 있지만, 속기사는 비쌀 수 있고 및/또는 루틴하거나 비형식적 미팅에 대해 실용적이지 않다.

또한 미팅 중에 참가자가 컴퓨팅 디바이스를 동작하여 정보로 미팅을 보강하는 것이 일반적이다. 일부 경우에, 한 명 이상의 참가자들이 논의를 안내하기 위해 일련의 슬라이드를 투사하거나 제시할 수 있다. 다른 예로서, 질문이 제기될 때("어떤 항공편이 가장 저렴한가?", "우리가 있을 때 날씨는 어떻습니까?", "어떤 좌석이 있습니까?" 등), 한 명 이상의 참가자들이 수동으로 그들의 모바일폰과 같은 컴퓨팅 디바이스를 동작하여 그룹에게 전달하기 위한 응답 정보를 찾는 인터넷 검색을 수행한다. 이러한 검색은 미팅의 흐름을 방해하거나 및/또는 검색하는 참가자가 검색을 수행하는 동안 논의를 놓칠 수 있다.

자동화된 어시스턴트로 하여금 "컨퍼런스 모드"에 진입하게 하는 기법들이 본 명세서에 기술되며, 상기 컨퍼런스 모드에서 자동화된 어시스턴트들은 다수의 사람 참가자들 간의 미팅에 참가할 수 있고, 본 명세서에 기술된 다양한 기능들을 수행한다. 다양한 구현예에서, 본 개시의 선택된 양태로 구성된 자동화된 어시스턴트는 본 명세서에서 "컨퍼런스 컴퓨팅 디바이스"로 지칭되는 것을 적어도 부분적으로 동작할 수 있다. 컨퍼런스 컴퓨팅 디바이스는 자동화된 어시스턴트의 전부 또는 일부를 실행할 수 있고 스피커, 디스플레이, 특히 마이크로폰과 같은 하나 이상의 입력/출력 컴포넌트를 사용하여 다수의 사람 참가자들 간의 미팅에 참가할 수 있는 임의의 컴퓨팅 디바이스일 수 있다. 다양한 컴퓨팅 디바이스들이 독립형 인터렉티브 스피커, 화상 회의 컴퓨팅 시스템, 차량 컴퓨팅 시스템 등과 같은 컨퍼런스 컴퓨팅 디바이스로서 사용하기에 특히 적합할 수 있다. 그러나, 마이크로폰 및 적어도 하나의 출력 컴포넌트를 갖는 임의의 컴퓨팅 디바이스(예를 들어, 오디오, 비주얼)이 컨퍼런스 컴퓨팅 디바이스로 사용될 수 있다. 본 명세서에서 사용되는 용어 "미팅"은 둘 이상의 사람 참가자 사이의 임의의 대화를 지칭할 수 있으며, 이들 참가자들 사이의 인터렉션이 사업적 또는 행정적 목적을 갖는 것을 의미하지는 않는다.

본 개시의 선택된 양태들로 구성된 자동화된 어시스턴트는 예를 들어, 다중 참가자 미팅의 시작에서 컨퍼런스 모드로 설정될 수 있다. 다양한 구현예에서, 미팅의 시작은 일정 엔트리에 기초하여 및/또는 컨퍼런스 모드의 명시적 호출에 응답하여 검출될 수 있다. 회의 동안, 자동화된 어시스턴트는 특히 다수의 구분되는 발화된 발언들 각각 이전에 자동화된 어시스턴트의 명시적 호출을 요구하지 않고, 다수의 구분되는 발화된 발언들에 대해 스피치-투-텍스트 프로세싱을 수행할 수 있다. 일부 시나리오에서, 컨퍼런스 컴퓨팅 디바이스는 전부는 아니지만 일부 미팅 참가자와 함께 방 또는 영역에 있는 독립형 인터렉티브 스피커 또는 화상 컨퍼런스 컴퓨팅 시스템일 수 있다. 그러나, 다수의 미팅 참가자들이 지리적으로 분리된 다른 시나리오에서, 다수의 위치에 배치된 다수의 컨퍼런스 컴퓨팅 디바이스에서 동작하는 자동화된 어시스턴트는 본 개시의 선택된 양태를 수행할 수 있다. 스피치-투-텍스트 프로세싱으로부터 생성된 텍스트에 기초하여, 자동화된 어시스턴트는 미팅의 양태들을 개선하기 위해 다양한 기능을 수행할 수 있다.

일부 구현예에서, 자동화된 어시스턴트는 스피치-투-텍스트 프로세싱을 사용하여 다수의 발언들 중 하나 이상으로부터 생성된 텍스트에 대해 시맨틱 프로세싱을 수행할 수 있다. 이 시맨틱 프로세싱에 기초하여, 자동화된 어시스턴트는 미팅 논의와 관련된 다양한 정보를 (예를 들어, 오디오 및/또는 시각적 출력으로서) 제시할 수 있다. 일부 구현예에서, 자동화된 어시스턴트는 시맨틱 프로세싱을 수행하고 및/또는 미팅 참가자로부터의 명시적 요청에 응답하여 결과 정보를 제시할 수 있다. 추가적으로 또는 대안적으로, 일부 구현예에서, 자동화된 어시스턴트는 자동화된 어시스턴트가 미팅 대화에서 일시 정지를 검출하는 경우 시맨틱 프로세싱을 수행하고 및/또는 정보를 제시할 수 있다.

자동화된 어시스턴트는 다양한 형태의 시맨틱 프로세싱을 수행하여 다양한 목표를 달성할 수 있다. 일부 구현예에서, 시맨틱 프로세싱은 예를 들어 토픽 분류기를 통해 대화의 하나 이상의 토픽들을 식별하는데 사용될 수 있다. 이러한 일부 구현예에서, 이러한 토픽들은 예를 들어 검색 쿼리(예를 들어, 인터넷 검색)를 생성하고, 미팅 논의와 연관된 "미팅 대화 컨텍스트"를 유지하는 등에 사용될 수 있다(이는 참가자 발언들을 명확하게 하기, 자동화된 어시스턴트의 요청된 작업들의 슬롯들을 채우기 등과 같은 다양한 목적으로 사용될 수 있다). 자동화된 어시스턴트가 검색 쿼리들을 생성하고, 제기된 토픽들에 기초하여 (또는 더 일반적으로, 참가자들의 발언들에 대해 수행된 시맨틱 프로세싱에 기초하여) 검색을 수행하는 구현예에서, 자동화된 어시스턴트는 검색 쿼리들에 대한 응답인 정보를 컨퍼런스 컴퓨팅 디바이스(들)에서 오디오 및/또는 시각적 출력으로서 제공할 수 있다.

동작 예시로서, 두 명의 미팅 참가자가 스키 여행을 계획 중이고, 한 참가자가 "다음 주말 스위스 스키 여행을 확정해야 해. 리조트를 고르자."라고 말한다고 가정한다. 이 음성 발언을 표현하는 텍스트를 생성하기 위해 스피치-투-텍스트 프로세싱이 수행된 후, 자동화된 어시스턴트는 텍스트에 대해 시맨틱 프로세싱을 수행하여 발언을 복제하거나 적어도 요약하는 검색 쿼리를 생성할 수 있다. 일부 경우에, 자동화된 어시스턴트는 다수의 참가자들로부터의 다수의 발언들로부터 생성된 텍스트를 검색 쿼리로 결합할 수 있다. 검색 쿼리에 대한 응답인 정보는 예를 들어 스위스에 있는 하나 이상의 스키 리조트들의 목록을 포함할 수 있다. 컨퍼런스 컴퓨팅 디바이스가 디스플레이를 포함하거나 디스플레이에 대한 액세스를 갖는 경우, 이러한 결과가 예를 들어 사용자 중 하나가 명시적으로 검색을 수행한 경우와 같이 디스플레이 상에 자동으로 제시될 수 있다. 대안적으로, 컨퍼런스 컴퓨팅 디바이스가 스피커를 포함하거나 스피커에 대한 액세스를 갖는 경우, 결과를 표시하는 데이터는 예를 들어 대화의 일시 정지 중에 스피커에서 청각적으로 출력될 수 있다. 이용 가능한 출력 컴포넌트가 스피커인 많은 구현예에서, 출력 컴포넌트가 디스플레이인 경우보다 적은 정보가 출력될 수 있음을 이해해야 한다. 이는 오디오 출력이 시각적 출력보다 더 산만하고 출력 시간이 더 많이 필요할 수 있기 때문에 미팅의 흐름을 방해하지 않는 것이 유리하기 때문이다.

일부 구현예에서, 참가자들 및/또는 진행중인 미팅 대화 컨텍스트에 출력되는 정보는 후속 발언들에 대한 추가적인 시맨틱 프로세싱을 수행하는데 사용될 수 있다. 예를 들어, 동작 예시를 계속하면, 참가자 중 한 명 이상이 스위스 스키 리조트 검색 쿼리의 제시된 결과에 의한 후속 질문을 할 수 있다. 사용자가 "거기서 스키타는 것은 어때?"라고 묻는다고 가정한다. "거기"라는 단어가 대상 리조트를 식별하지 못하기 때문에 이 질문은 너무 모호할 수 있다. 그러나, 위에서 언급한 바와 같이, 본 개시의 선택된 양태로 구성된 자동화된 어시스턴트는 자동화된 어시스턴트에 의해 출력된 하나 이상의 논의 토픽들 및/또는 정보를 유지하는 미팅 대화 컨텍스트를 유지하도록 구성될 수 있다. 이 예시에서, 자동화된 어시스턴트는 "거기"를 예를 들어, 이전에 제시되었던 최상위 스위스 스키 리조트로 명확하게 할 수 있다. 또는 사용자가 "체르마트가 재미있어 보여, 거기서 스키타는 것은 어때?"와 같은 말을 한 경우, 대상 스키 리조트는 "체르마트"가 될 수 있다. 임의의 경우에, 자동화된 어시스턴트는 대상 리조트에서 스키 품질에 관한 정보(예를 들어, 스키 보고서, 눈 보고서, 사용자 리뷰 등)를 찾는 검색 쿼리를 생성 및 제출할 수 있다. 다수의 발언들에 대해 추가적인 시맨틱 프로세싱을 수행하면 하나 이상의 상기 발언들에서 모호성을 해결할 수 있다. 결과적으로, 이러한 모호성에 의해 야기되는 자동화된 어시스턴트의 동작(예를 들어, 잘못되었거나 또는 차선의 데이터를 참가자에게 출력하는 것)의 오류 위험을 감소시킬 수 있다.

참가자가 대신 "날씨는 어떨 것 같아?"라고 물으면, 적절한 검색 쿼리를 생성하기 위해 유사한 기법을 사용할 수 있다. 다시 한 번, 이 문장은 의미있는 날씨 검색 쿼리를 생성하기에는 너무 모호하다. 그러나 지속된 미팅 대화 컨텍스트에 기초하여, 자동화된 어시스턴트는 날씨 검색 쿼리에 사용할 위치가 이전에 제시된 최상위 리조트이며, 날씨 검색 쿼리에 사용할 시간은 "다음 주말"임을 추론할 수 있다. 따라서, 자동화된 어시스턴트는 다음 주말 동안 최상위 리조트의 날씨를 검색하고 그 결과를 참가자들에게 제시할 수 있다. 참가자들 및/또는 자동화된 어시스턴트 사이의 이러한 오고 가는 대화는 여행 예약(예를 들어, 열차 스케줄이 제시될 수 있음), 스키 패스 구매 등과 같은 다른 유형의 정보에 대해 계속될 수 있다.

일부 구현예에서, 본 개시의 선택된 양태들로 구성된 자동화된 어시스턴트는 미팅 동안 검출된 다수의 구분되는 발언들에 기초하여 미팅 요약을 생성하도록 구성될 수 있다. 다양한 구현들에서, 미팅 요약은 미팅 논의로부터 자동화된 어시스턴트에 의해 검출된 하나 이상의 토픽들, 미팅 논의로부터 자동화된 어시스턴트에 의해 검출된 미팅의 하나 이상의 결과물, 다양한 구현예에서의 적어도 일부의 텍스트 전자, 미팅에서 참가자들에 관한 정보(예를 들어, 일부 자동화된 어시스턴트는 특정한 사람들과 연관된 음성 프로필들과 음성을 매칭할 수 있다.) 등과 같은 정보의 조각들을 포함하는 문서(예를 들어, 텍스트 및/또는 그래픽)의 형태를 취할 수 있다. 이 미팅 요약은 예를 들어, 자동화된 어시스턴트에 의해 한 명 이사의 미팅 참가자들에게/과 저장, 전송 및/또는 공유될 수 있다. 일부 구현예에서, 미팅 요약은 미팅을 스케줄링하기 위해 생성된 일정 엔트리와 연관될 수 있다.

일부 구현예에서, 본 개시의 선택된 양태들로 구성된 자동화된 어시스턴트는 본 명세서에 기술된 기법들을 사용하여 하나의 미팅 동안에 생성된 정보를 활용하여(예를 들어, 미팅 대화 컨텍스트, 미팅 요약) 후속 미팅(예: 이어지는 미팅)에서 다양한 기능들을 수행하도록 구성될 수 있다 제1 미팅에서 참가자들이 해결해야 하는 다수의 액션 아이템들에 대해 논의했으면, 이러한 액션 아이템들은 참여 중인 자동화된 어시스턴트에 의해 검출되고, 예를 들어 제1 미팅의 미팅 요약을 생성하는데 사용된다. 후속하는 제2 미팅에서, 자동화된 어시스턴트는 제1 미팅의 요약으로부터의 정보 및/또는 제1 미팅으로부터 저장된 회의 대화 컨텍스트로부터의 정보를 사용하여 상술된 다양한 기능을 수행할 수 있다. 예를 들어, 사용자가 "OK, 지난 번 미팅에서 액션 아이템들이 뭐였지?"라고 묻는다고 가정한다. 자동화된 어시스턴트는 이러한 액션 아이템들을 검색하고 예를 들어 가청 목록 또는 디스플레이로 출력할 수 있다. 일부 구현예에서, 제2 미팅의 참가자들은 자동화된 어시스턴트에게 액션 아이템들 중 하나 이상이 완료되었음을 지시할 수 있거나 또는 자동화된 어시스턴트는 미팅 중 참가자 음성 발언의 시맨틱 프로세싱에 기초하여 하나 이상의 액션 아이템들이 완료되었음을 검출할 수 있다.

일부 구현예에서, 자동화된 어시스턴트는 제1 미팅 이후에 액션 아이템이 완료되었는지를 스스로 검출할 수 있다. 예를 들어, 제1 미팅 후 참가자 중 한 명이 자동화된 어시스턴트와 함께 액션 아이템(예: 일회용 접시 제품 구매)을 처리한다고 가정한다. 제2 미팅에서 해당 액션 아이템은 이미 처리되었으므로 참여중인 자동화된 어시스턴트에 의해 제시되지 않을 수 있다. 추가적으로 또는 대안적으로, 액션 아이템은 "완료"로서 제시될 수 있다.

다양한 구현예에서, 자동화된 어시스턴트는 둘 이상의 미팅들이 다양한 방식으로 관련되어 있다고(예를 들어, 초기 및 후속 미팅으로서) 결정할 수 있다. 일부 구현예에서, 참가자들은 예를 들어 전자 캘린더를 사용하여 회의를 스케줄링하고, 회의를 명시적으로 링크할 수 있다. 추가적으로 또는 대안적으로, 일부 구현예에서, 자동화된 어시스턴트는 예를 들어, 미팅에 주어진 제목, 미팅 참가자의 중복, 미팅과 연관된 문서 등을 기초로 둘 이상의 미팅이 관련되어 있음을 자동으로 검출할 수 있다. 문서(예를 들어, 일정 엔트리 또는 첨부된 아젠다)가 미팅과 연관되는 일부 구현예에서, 자동화된 어시스턴트는 연관된 문서에 기초하여 초기 미팅 대화 컨텍스트를 생성할 수 있다.

위에서 언급한 바와 같이, 미팅 중에 자동화된 어시스턴트에 의해 생성된 오디오 출력은 시각적 출력보다 훨씬 산만할 수 있으며, 이는 참가자가 무시할 수 있다. 따라서, 다양한 구현예에서, 자동화된 어시스턴트는 다수의 참가자들이 인식할 수 있는 컨퍼런스 컴퓨팅 디바이스들 중 하나 이상에 의해 사용되는 출력 양식을 식별할 수 있다. 그 다음, 자동화된 어시스턴트는 미팅 동안 식별된 출력 양식에 기초하여 선택된 빈도로 다수의 구분되는 발화된 발언들과 관련된 데이터를 출력할 수 있다. 예를 들어, 컨퍼런스 컴퓨팅 디바이스가 디스플레이가 없는 독립형 인터렉티브 스피커인 경우, 자동화된 어시스턴트는 컨퍼런스 컴퓨팅 디바이스가 디스플레이를 포함하는 경우보다 덜 빈번하게 출력(예를 들어, 검색 결과, 액션 아이템 상태 등)을 제공할 수 있다. 상기 출력 양식이 상기 참가자들 중 한 명인 운전자에 의해 운전되는 차량에서의 오디오 출력인 것으로 결정되는 특정 예시로서, 상기 다수의 구분되는 발화된 발언들과 관련된 데이터가 자동화된 어시스턴트에 의해 제시되는 빈도는 상기 운전자를 방해하지 않도록 선택될 수 있다.

일부 구현예들에서, 하나 이상의 프로세서들에 의해 수행되는 방법이 제공되며, 하나 이상의 컨퍼런스 컴퓨팅 디바이스들에서 적어도 부분적으로 구현되는 자동화된 어시스턴트를 컨퍼런스 모드로 설정하는 단계, 상기 컨퍼런스 모드에서 상기 자동화된 어시스턴트는 다수의 구분되는 발화된 발언들 각각 이전에 상기 자동화된 어시스턴트의 명시적 호출을 요구하지 않고 다수의 구분되는 발화된 발언들에 대해 스피치-투-텍스트 프로세싱을 수행하며, 상기 다수의 구분되는 발화된 발언들은 다수의 참가자들 간의 미팅 동안 다수의 참가자들에 의해 제공되며; 상기 자동화된 어시스턴트에 의해, 상기 다수의 구분되는 발화된 발언들 중 하나 이상의 상기 스피치-투-텍스트 프로세싱으로부터 생성된 제1 텍스트에 대해 시맨틱 프로세싱을 자동적으로 수행하는 단계, 상기 시맨틱 프로세싱은 명시적 참가자 호출 없이 수행되며; 상기 자동화된 어시스턴트에 의해, 상기 시맨틱 프로세싱에 기초하여, 상기 제1 텍스트와 관련된 데이터를 생성하는 단계, 상기 데이터는 상기 자동화된 어시스턴트가 컨퍼런스 모드에 있는 동안 상기 컨퍼런스 컴퓨팅 디바이스들 중 하나 이상에서 상기 다수의 참가자들에게 출력되며; 상기 자동화된 어시스턴트에 의해, 상기 미팅이 종료되었다고 결정하는 단계; 및 상기 결정에 기초하여, 상기 자동화된 어시스턴트를 비-컨퍼런스 모드로 설정하는 단계를 포함하며, 상기 비-컨퍼런스 모드에서 상기 자동화된 어시스턴트는 개별적인 발화된 발언에 대해 스피치-투-텍스트 프로세싱을 수행하기 전에 호출을 요구한다.

본 명세서에서 논의된 기술의 이들 또는 다른 구현예들은 다음 구성들 중 하나 이상을 각각 선택적으로 포함할 수 있다.

상기 데이터는 컨퍼런스 컴퓨팅 디바이스들 중 하나 이상의 발화자를 통해 상기 자동화된 어시스턴트로부터 자연어 출력으로서 상기 다수의 참가자들에게 출력될 수 있다. 다양한 구현예에서, 상기 데이터는 상기 다수의 참가자들에게 가시적인 하나 이상의 디스플레이들을 통해 상기 다수의 참가자들에게 출력될 수 있다.

다양한 구현들에서, 상기 결정은: 상기 자동화된 어시스턴트에 의해, 상기 다수의 참가자들 중 한 명으로부터, 상기 미팅이 종료되었음을 표시하는 발화된 호출을 수신하는 것; 또는 현재 시간이 스케줄링된 상기 미팅의 종료 시간과 일치한다고 결정하는 것을 포함한다.

다양한 구현예에서, 상기 자동화된 어시스턴트는 상기 미팅이 시작되었음을 표시하는 발화된 호출 또는 컨퍼런스 모드에 진입하기 위한 명시적 명령에 응답하여 컨퍼런스 모드로 설정될 수 있다. 다양한 구현예에서, 방법은 상기 다수의 발화된 발언들 중 하나 이상의 스피치-투-텍스트 프로세싱으로부터 생성된 제2 텍스트에 대해 추가적인 시맨틱 프로세싱을 수행하는 단계를 더 포함하며, 상기 추가적인 시맨틱 프로세싱은 상기 제1 텍스트와 관련된 상기 데이터에 적어도 부분적으로 기초하여 수행된다. 다양한 구현예에서, 상기 추가적인 시맨틱 프로세싱은 상기 제1 텍스트와 관련된 상기 데이터에 기초하여 상기 제2 텍스트의 하나 이상의 토큰들의 명확화(disambiguation)를 포함한다.

다양한 구현예에서, 방법은 상기 자동화된 어시스턴트에 의해, 상기 다수의 구분되는 발언들에 기초하여, 미팅 요약을 생성하는 단계를 더 포함하며, 상기 미팅 요약은 상기 자동화된 어시스턴트가 컨퍼런스 모드에 있는 동안 상기 다수의 구분되는 발화된 발언들로부터 상기 자동화된 어시스턴트에 의해 검출된 하나 이상의 토픽들을 포함한다. 다양한 구현예에서, 상기 미팅 요약은 상기 자동화된 어시스턴트가 컨퍼런스 모드에 있는 동안 상기 다수의 구분되는 발화된 발언들로부터 상기 자동화된 어시스턴트에 의해 검출된 상기 미팅의 하나 이상의 결과들을 더 포함한다. 다양한 구현예에서, 상기 미팅 요약은 상기 다수의 구분되는 발화된 발언들 중 적어도 일부의 텍스트 전사를 더 포함한다.

다양한 구현예에서, 방법은: 상기 미팅이 이전 미팅과 관련된다고 결정하는 단계; 및 상기 자동화된 어시스턴트에 의해, 상기 이전 미팅과 연관된 정보에 기초하여, 상기 이전 미팅 동안 생성되었던 그리고 상기 현재 미팅과 관련된 추가적인 데이터를 식별하는 단계를 더 포함하며, 상기 추가적인 데이터는 상기 자동화된 어시스턴트가 컨퍼런스 모드에 있는 동안 상기 컨퍼런스 컴퓨팅 디바이스들 중 하나 이상에서 상기 다수의 참가자들에게 출력된다.

다양한 구현예에서, 방법은: 상기 다수의 참가자들이 인식할 수 있는 상기 컨퍼런스 컴퓨팅 디바이스들 중 하나 이상에 의해 사용되는 출력 양식을 식별하는 단계; 및 상기 식별된 출력 양식과 관련된 주파수에서 상기 다수의 구분되는 발화된 발언들과 관련된 데이터를 출력하는 단계를 더 포함할 수 있다. 다양한 구현예에서, 상기 출력 양식은 상기 참가자들 중 한 명인 운전자에 의해 운전되는 차량에서의 오디오 출력을 포함하며, 상기 다수의 구분되는 발화된 발언들과 관련된 상기 데이터가 출력되는 상기 빈도는 상기 운전자를 방해하지 않도록 선택된다.

추가로, 일부 구현예들은 하나 이상의 컴퓨팅 디바이스들의 하나 이상의 프로세서들을 포함하며, 상기 하나 이상의 프로세서들은 연관된 메모리에 저장된 명령어들을 실행하도록 동작가능하며, 상기 명령어들은 앞서 언급된 방법들 중 임의의 것을 수행하도록 구성된다. 또한, 일부 구현예들은 앞서 언급된 방법들 중 임의의 것을 수행하도록 하나 이상의 프로세서들에 의해 실행가능한 컴퓨터 명령어들을 저장하는 하나 이상의 비일시적 컴퓨터 판독가능 저장 매체를 포함한다. 다른 구현예들은 앞서 언급된 방법들 중 임의의 것을 수행하도록 하나 이상의 프로세서들에 의해 실행가능한 컴퓨터 명령어들을 저장하거나 수록하는 하나 이상의 비일시적 컴퓨터 판독가능 저장 매체를 포함한다.

본 명세서에서 매우 상세히 기술된 상기 개념들 및 추가적 개념들의 모든 조합들은 본 명세서에 개시된 본 발명의 일부인 것으로 고려되어야 한다. 예를 들면, 본 명세서의 끝부분에 나타나는 청구된 발명의 모든 조합들은 본 명세서에 개시된 본 발명의 일부인 것으로 고려된다.

도 1은 본 명세서에 개시된 구현예들이 구현될 수 있는 예시적 환경의 블록도이다.
도 2a, 2b, 2c 및 2d는 다양한 구현예들에 따라, 본 명세서에 기술된 기법들이 특정 시나리오에서 어떻게 이용될 수 있는지에 관한 일 예시를 도시한다.
도 3은 다양한 구현예들에 따라, 본 명세서에 기술된 기법들이 다른 시나리오에서 어떻게 이용될 수 있는지에 관한 다른 예시를 도시한다.
도 4는 본 명세서에 개시된 구현예들에 따른 예시적 방법을 도시하는 흐름도이다.
도 5는 컴퓨팅 디바이스의 예시적 아키텍처를 도시한다.

이제 도 1로 돌아가면, 본 명세서에 개시된 기법들이 구현될 수 있는 예시적 환경이 도시된다. 예시적 환경은 하나 이상의 클라이언트 컴퓨팅 디바이스들(106_1-N)을 포함한다. 각 클라이언트 디바이스(106)는 자동화된 어시스턴트 클라이언트(118)의 각각의 인스턴스를 실행할 수 있다. 자연어 프로세서(122)와 같은 하나 이상의 클라우드 기반 자동화된 어시스턴트 컴포넌트들(119)은 일반적으로 (110)에 표시된 하나 이상의 로컬 및/또는 광역 네트워크(예를 들어, 인터넷)를 통해 클라이언트 디바이스들(106_1-N)에 통신가능하게 연결된 하나 이상의 컴퓨팅 시스템(집합적으로 "클라우드" 컴퓨팅 시스템으로 통칭)에서 구현될 수 있다.

배경기술에서 언급된 바와 같이, 하나 이상의 클라우드 기반 자동화된 어시스턴트 컴포넌트(119)와의 인터렉션들에 의한 자동화된 어시스턴트 클라이언트(118)의 인스턴스는 사용자의 관점에서 사용자가 인간-대-컴퓨터 대화에 참여할 수 있게 하는 자동화된 어시스턴트(120)의 논리적 인스턴스로 보이는 것을 형성할 수 있다. 이러한 자동화된 어시스턴트(120)의 2개의 인스턴스가 도 1에 도시되어 있다. 점선으로 둘러싸인 제1 자동화된 어시스턴트(120A)는 제1 클라이언트 디바이스(106₁)를 동작시키는 제1 사용자(도시되지 않음)를 서비스하고, 자동화된 어시스턴트 클라이언트(118₁) 및 하나 이상의 클라우드 기반 자동화된 어시스턴트 컴포넌트(119)를 포함한다. 1점 쇄선으로 둘러싸인 제2 자동화된 어시스턴트(120B)는 다른 클라이언트 디바이스(106N)를 동작시키는 제2 사용자(도시되지 않음)를 서비스하고, 자동화된 어시스턴트 클라이언트(118N) 및 하나 이상의 클라우드 기반 자동화된 어시스턴트 컴포넌트(119)를 포함한다. 따라서, 일부 구현예에서, 클라이언트 디바이스(106)상에서 실행되는 자동화된 어시스턴트 클라이언트(118)를 사용하는 각 사용자는 사실상 자동화된 어시스턴트(120)의 자신의 논리적 인스턴스를 사용할 수 있음을 이해해야 한다. 간결하고 간단하게하기 위해, 본 명세서에서 특정한 사용자에게 "서비스하는 것"으로 사용되는 "자동화된 어시스턴트"라는 용어는 사용자에 의해 동작되는 클라이언트 디바이스(106)에서 실행되는 자동화된 어시스턴트 클라이언트(118) 및 하나 이상의 클라우드 기반 자동화된 어시스턴트 컴포넌트들(119)(여러 자동화된 어시스턴트 클라이언트들(118) 간에 공유될 수 있음)의 조합을 지칭할 것이다. 일부 구현예에서, 자동화된 어시스턴트(120)는 사용자가 그 특정한 인스턴스의 자동화된 어시스턴트(120)에 의해 실제로 "서비스"되는지 여부에 관계없이 임의의 사용자로부터의 요청에 응답할 수 있음을 이해해야 한다.

클라이언트 디바이스(106_1-N)는 예를 들어, 데스크톱 컴퓨터 디바이스, 랩톱 컴퓨팅 디바이스, 태블릿 컴퓨팅 디바이스, 모바일폰 컴퓨팅 디바이스, 사용자의 차량의 컴퓨팅 디바이스(예를 들어, 차량 내 통신 시스템, 차량 내 엔터테인먼트 시스템, 차량 내 네비게이션 시스템), 단독형 인터렉티브 스피커, 스마트 텔레비전과 같은 스마트 장비 및/또는 컴퓨팅 디바이스를 포함하는 사용자의 웨어러블 장치(예를 들어, 컴퓨팅 디바이스를 구비한 사용자의 시계, 컴퓨팅 디바이스를 구비한 사용자의 안경, 가상 또는 증강 현실 컴퓨팅 디바이스)일 수 있다. 추가적 및/또는 대안적 클라이언트 컴퓨팅 디바이스들이 제공될 수 있다.

다양한 구현예에서, 클라이언트 컴퓨팅 디바이스들(106_1-N) 각각은 복수의 메시지 교환 클라이언트들(107_1-N) 중 대응하는 메시지 교환 클라이언트와 같은 다양한 상이한 애플리케이션들을 동작시킬 수 있다. 메시지 교환 클라이언트들(107_1-N)은 다양한 형태로 제공될 수 있고, 형태는 클라이언트 컴퓨팅 디바이스들(106_1-N)에 따라 달라질 수 있고 및/또는 다수의 형태가 단일 클라이언트 컴퓨팅 디바이스들(106_1-N) 상에서 동작될 수 있다. 일부 구현예들에서, 하나 이상의 메시지 교환 클라이언트들(107_1-N)은 단문 메시징 서비스("SMS") 및/또는 멀티미디어 메시징 서비스("MMS") 클라이언트, 온라인 채팅 클라이언트(예를 들어, 인스턴트 메신저, 인터넷 릴레이 채팅, 또는 "IRC" 등), 소셜 네트워크와 연관된 메시징 어플리케이션, 자동화된 어시스턴트(120)과의 대화 전용 개인 어시스턴트 메시징 서비스 등의 형태로 존재할 수 있다. 일부 구현예들에서, 하나 이상의 메시지 교환 클라이언트들(107_1-N)은 웹페이지 또는 웹브라우저(도시되지 않음)에 의해 렌더링된 다른 리소스들 또는 클라이언트 컴퓨팅 디바이스(106)의 다른 애플리케이션을 통해 구현될 수 있다.

본 명세서에서보다 상세하게 설명된 바와 같이, 자동화된 어시스턴트(120)는 하나 이상의 클라이언트 디바이스들(106_1-N)의 사용자 인터페이스 입력 및 출력 디바이스를 통해 하나 이상의 사용자와 인간 대 컴퓨터 대화 세션에 참여한다. 일부 구현예에서, 자동화된 어시스턴트(120)는 클라이언트 디바이스들(106_1-N) 중 하나의 하나 이상의 사용자 인터페이스 입력 디바이스들을 통해 사용자에 의해 제공되는 사용자 인터페이스 입력에 응답하여 사용자와 인간 대 컴퓨터 대화 세션에 참여할 수 있다. 이러한 구현들 중 일부에서, 사용자 인터페이스 입력은 명시적으로 자동화된 어시스턴트(120)에 보내진다. 예를 들어, 메시지 교환 클라이언트들(107_1-N) 중 하나는 자동화된 어시스턴트(120)와의 대화 전용 개인 어시스턴트 메시징 서비스일 수 있고, 상기 개인 어시스턴트 메시징 서비스를 통해 제공되는 사용자 인터페이스 입력은 자동화된 어시스턴트(120)에 자동으로 제공될 수 있다. 또한, 예를 들어, 사용자 인터페이스 입력은 자동화된 어시스턴트(120)가 호출되는 것을 나타내는 특정한 사용자 인터페이스 입력에 기초하여 하나 이상의 메시지 교환 클라이언트들(107_1-N)에서 자동화된 어시스턴트(120)에 명시적으로 향해질 수 있다. 예를 들어, 특정한 사용자 인터페이스 입력은 하나 이상의 타이핑된 문자(예를 들어, @AutomatedAssistant), 하드웨어 버튼 및/또는 가상 버튼(예를 들어, 탭, 긴 탭)과의 사용자 인터렉션, 구두 명령(예를 들어, "Hey Automated Assistant") 및/또는 기타 특정한 사용자 인터페이스 입력일 수 있다.

일부 구현예에서, 자동화된 어시스턴트(120)는 사용자 인터페이스 입력이 자동화된 어시스턴트(120)로 명시적으로 향하지 않은 경우에도 사용자 인터페이스 입력에 응답하여 대화 세션에 참여할 수 있다. 예를 들어, 자동화된 어시스턴트(120)는 사용자 인터페이스 입력의 컨텐츠를 검사하고, 사용자 인터페이스 입력에 존재하는 특정 용어에 응답하여 및/또는 다른 큐에 기초하여 대화 세션에 참여할 수 있다. 일부 구현예에서, 자동화된 어시스턴트(120)는 인터렉티브 음성 응답("IVR")에 참여하여, 사용자가 명령, 검색 등을 발언할 수 있도록 하고, 자동화된 어시스턴트는 자연어 프로세싱 및/또는 하나 이상의 문법을 활용하여 발언을 텍스트로 변환하고, 이에 따라 텍스트에 응답한다. 일부 구현예에서, 추가적으로 또는 대안적으로 자동화된 어시스턴트(120)는 발언을 텍스트로 변환하지 않고 발언에 응답할 수 있다. 예를 들어, 자동화된 어시스턴트(120)는 음성 입력을 임베딩, 엔터티 표현(들)(음성 입력에 존재하는 엔터티/엔터티들을 표시함) 및/또는 다른 "텍스트가 아닌" 표현으로 변환하고 이러한 비-텍스트 표현에 대해 동작할 수 있다. 따라서, 추가적으로 또는 대안적으로 음성 입력으로부터 변환된 텍스트에 기초하여 동작하는 것으로 본 명세서에 기술된 구현들은 음성 입력에 대해 직접 및/또는 음성 입력의 다른 비-텍스트 표현에 대해 동작할 수 있다.

클라이언트 디바이스들(106_1-N) 각각 및 클라우드 기반 자동화된 어시스턴트 컴포넌트들(119)를 동작하는 컴퓨팅 디바이스(들)은 데이터 및 소프트웨어 애플리케이션들의 저장을 위한 하나 이상의 메모리들, 데이터에 액세스하고 어플리케이션을 실행하기 위한 하나 이상의 프로세서 및 네트워크를 통해 통신을 지원하는 다른 컴포넌트들을 포함할 수 있다. 하나 이상의 클라이언트 디바이스들(106_1-N)에 의해 및/또는 자동화된 어시스턴트(120)에 의해 수행되는 동작들은 다수의 컴퓨터 시스템들에 걸쳐 분산될 수 있다. 자동화된 어시스턴트(120)는 예를 들면, 네트워크를 통해 서로 연결된 하나 이상의 위치들에서 하나 이상의 컴퓨터에서 실행되는 컴퓨터 프로그램들로서 구현될 수 있다.

위에서 언급된 바와 같이, 다양한 구현예에서, 클라이언트 컴퓨팅 디바이스들(106_1-N) 각각은 자동화된 어시스턴트 클라이언트(118)를 동작할 수 있다. 다양한 구현예에서, 각 자동화된 어시스턴트 클라이언트(118)는 대응하는 음성 캡처/텍스트 음성 변환("TTS")/음성 텍스트 변환("STT") 모듈(114)을 포함할 수 있다. 다른 구현예에서, 음성 캡처/TTS/STT 모듈(114)의 하나 이상의 양태들은 자동화된 어시스턴트 클라이언트(118)와 별도로 구현될 수 있다.

각 음성 캡처/TTS/STT 모듈(114)은 하나 이상의 기능을 수행하도록 구성될 수 있다: 예를 들어, 마이크로폰(일부 경우에 존재 센서(105)를 포함)을 통해 사용자의 음성을 캡처하고; 캡처한 오디오를 텍스트로 변환(및/또는 다른 표현 또는 임베딩으로); 및/또는 텍스트를 음성으로 변환. 예를 들어, 일부 구현예에서, 클라이언트 디바이스(106)는 컴퓨팅 리소스들(예를 들어, 프로세서 사이클들, 메모리, 배터리 등)과 관련하여 상대적으로 제한될 수 있기 때문에, 각 클라이언트 디바이스(106)에 대해 로컬적인 음성 캡처/TTS/STT 모듈(114)은 한정된 수의 상이한 발화된 문구, 특히 자동화된 어시스턴트(120)를 호출하는 특정한 문구를 텍스트(또는 보다 낮은 차원성 임베딩과 같은 다른 형태)로 변환하도록 구성될 수 있다. 다른 음성 입력은 클라우드 기반 자동화된 어시스턴트 컴포넌트(119)로 송신될 수 있으며, 이는 클라우드 기반 TTS 모듈(116) 및/또는 클라우드 기반 STT 모듈(117)을 포함할 수 있다.

클라우드 기반 STT 모듈(117)은 음성 캡쳐/TTS/STT 모듈(114)에 의해 캡처된 오디오 데이터를 텍스트(이후 자연어 프로세서(122)에 제공될 수 있음)로 변환하기 위해 클라우드의 사실상 무한한 자원을 활용하도록 구성될 수 있다. 클라우드 기반 TTS 모듈(116)은 텍스트 데이터(예를 들어, 자동화된 어시스턴트(120)에 의해 생성된 자연어 응답)를 컴퓨터 생성 음성 출력으로 변환하기 위해 클라우드의 사실상 무한한 자원을 활용하도록 구성될 수 있다. 일부 구현예에서, TTS 모듈(116)은 컴퓨터 생성된 음성 출력을 클라이언트 디바이스(106)에 제공하여, 예를 들어 하나 이상의 스피커를 사용하여 직접 출력될 수 있다. 다른 구현예에서, 자동화된 어시스턴트(120)에 의해 생성된 텍스트 데이터(예를 들어, 자연어 응답)는 음성 캡처/TTS/STT 모듈(114)에 제공될 수 있고, 음성 캡처/TTS/STT 모듈(114)은 텍스트 데이터를 로컬적으로 출력되는 컴퓨터 생성 음성으로 변환할 수 있다.

자동화된 어시스턴트(120)(및 특히 클라우드 기반 자동화된 어시스턴트 컴포넌트(119))는 자연어 프로세서(122), 전술한 TTS 모듈(116), 전술한 STT 모듈(117), 대화 상태 추적기(124), 대화 관리자(126) 및 자연어 생성기(일부 구현예에서 TTS 모듈(116)과 결합될 수 있음) 및 본 개시와 특히 관련된 컨퍼런스 엔진(130)을 포함할 수 있다. 일부 구현예들에서, 자동화된 어시스턴트(120)의 엔진들 및/또는 모듈들 중 하나 이상은 생략, 조합될 수 있고 및/또는 자동화된 어시스턴트(120)와 별개인 컴포넌트에서 구현될 수 있다.

일부 구현예에서, 자동화된 어시스턴트(120)는 자동화된 어시스턴트(120)와의 인간 대 컴퓨터 대화 세션 동안 클라이언트 디바이스들(106_1-N) 중 하나의 사용자에 의해 생성된 다양한 입력들에 응답하여 응답 컨텐츠를 생성한다. 자동화된 어시스턴트(120)는 대화 세션의 일부로서 사용자에게 제시하기 위해(예를 들어, 사용자의 클라이언트 디바이스로부터 분리될 때 하나 이상의 네트워크를 통해) 응답 컨텐츠를 제공할 수 있다. 예를 들어, 자동화된 어시스턴트(120)는 클라이언트 디바이스들(106_1-N) 중 하나를 통해 제공되는 자유 형식의 자연어 입력에 응답하여 응답 컨텐츠를 생성할 수 있다. 본 명세서에서 사용된 바와 같이, 자유 형식의 입력은 사용자에 의해 진술된 입력이며, 사용자에 의한 선택을 위한 제시된 옵션들의 그룹에 제한되지 않는 입력이다.

본 명세서에서 사용되는 "대화 세션"은 사용자와 자동화된 어시스턴트(120)(및 일부의 경우, 다른 사람 참가자) 사이의 하나 이상의 메시지들의 논리적으로 자체 포함된 교환 및/또는 자동화된 어시스턴트(120)에 의한 하나 이상의 응답 액션들의 수행을 포함할 수 있다. 자동화된 어시스턴트(120)는 세션들 간의 시간의 경과, 세션들 간의 사용자 컨텍스트의 변화(예를 들어, 위치, 예정된 미팅 전/중/후 등), 사용자와 자동화된 어시스턴트 사이의 대화 이외의 사용자와 클라이언트 디바이스 사이의 하나 이상의 개입 인터렉션들의 검출(예를 들어, 사용자가 잠시 동안 애플리케이션을 전환하고, 사용자는 멀어졌다가 나중에 독립형 음성 활성화 생산물로 돌아옴), 세션들 사이의 클라이언트 디바이스의 잠금/슬립, 자동화된 어시스턴트(120)의 하나 이상의 인스턴스와의 인터페이스에 사용되는 클라이언트 디바이스의 변경 등과 같은 다양한 신호들에 기초하여 사용자와의 다수의 대화 세션들을 구별할 수 있다. 이하에서 더 상세히 설명되는 바와 같이, 일부 구현예에서, 자동화된 어시스턴트(120)는 예를 들어, 컨퍼런스 엔진(130)에 의해, "컨퍼런스 대화 세션"을 지원할 수 있고, 컨퍼런스 대화 세션에서 자동화된 어시스턴트(120)는 "컨퍼런스 모드"로 전환되며, 컨퍼런스 모드는 자연어 프로세싱과 같은 다양한 기능을 수행하기 위해 각 구두 발언(또는 작성된 선언) 이전에 명시적 호출을 요구하지 않는다.

자동화된 어시스턴트(120)의 자연어 프로세서(122)(대안적으로 "자연어 이해 엔진"으로도 지칭됨)는 클라이언트 디바이스(106_1-N)를 통해 사용자에 의해 생성된 자유 형식 자연어 입력을 프로세싱하고, 일부 구현예에서, 자동화된 어시스턴트(120)의 하나 이상의 다른 컴포넌트에 의해 사용하기 위해 주석이 달린 출력을 생성할 수 있다. 예를 들면, 자연어 프로세서(122)는 클라이언트 디바이스(106₁)의 하나 이상의 사용자 인터페이스 입력 디바이스들을 통해 사용자에 의해 생성된 자연어 자유 형식의 입력을 프로세싱할 수 있다. 생성된 주석이 달린 출력은 자연어 입력의 하나 이상의 주석들 및 선택적으로 자연어 입력의 용어들 중 하나 이상(예를 들어, 전부)을 포함할 수 있다.

일부 구현예들에서, 자연어 프로세서(122)는 자연어 입력에서 문법적 정보의 다양한 유형들을 식별하고 주석을 달도록 구성된다. 예를 들면, 자연어 프로세서(122)는 용어들에 그들의 문법적 역할들로 주석을 달도록 구성된 품사 태그기(도시되지 않음)를 포함할 수 있다. 예를 들면, 품사 태그기는 각 용어에 "명사", "동사", "형용사", "대명사" 등과 같은 그것의 품사를 태그(tag)할 수 있다. 또한, 예를 들면, 일부 구현예들에서, 자연어 프로세서(122)는 추가적으로 및/또는 대안적으로 자연어 입력에서 용어들 간의 구문론적 관계들을 결정하도록 구성된 종속성 파서(dependency parser)를 포함할 수 있다. 예를 들면, 종속성 파서는 어떤 용어들아 문장들의 다른 용어들, 주어들 및 동사들을 수정하는지 등을 결정할 수 있고(예를 들어, 파싱 트리), 그리고 상기 종속성들의 주석들을 만들 수 있다.

일부 구현예들에서, 자연어 프로세서(122)는 추가적으로 및/또는 대안적으로 사람들(예를 들어, 문학적 캐릭터, 유명인, 공인 등을 포함), 조직들, 위치들(실제 및 가상) 등에 대한 참조들과 같은 하나 이상의 세그먼트들에서 엔터티 참조들을 주석을 달도록 구성된 엔터티 태그기(entity tagger)(도시되지 않음)를 포함할 수 있다. 일부 구현예에서, 엔터티들에 관한 데이터는 지식 그래프(도시되지 않음)와 같은 하나 이상의 데이터베이스에 저장될 수 있다. 일부 구현에서, 지식 그래프는 알려진 엔터티(및 경우에 따라 엔터티 속성)를 나타내는 노드뿐만 아니라 노드를 연결하고 엔터티 사이의 관계를 나타내는 에지를 포함할 수 있다. 예를 들어, "바나나" 노드는 (예를 들어, 자식으로서) "과일" 노드에 연결될 수 있고, 이는 (예를 들어, 자식으로서) "상품" 및/또는 "음식" 노드에 연결될 수 있다. 다른 예로서, "가상 카페(Hypothetical Cafe)"라는 음식점은 주소, 제공되는 음식의 종류, 영업시간, 연락처 정보 등과 같은 속성을 포함하는 노드로 표현될 수 있다. 일부 구현예에서, "가상 카페" 노드는 에지(예를 들어, 부모-자식 관계를 표현)에 의해 하나 이상의 다른 노드들 예를 들어, "레스토랑" 노드, "비즈니스" 노드, 레스토랑이 위치된 있는 도시 및/또는 주를 나타내는 노드 등에 연결될 수 있다.

자연어 프로세서(122)의 엔터티 태그기는 높은 입상도(예를 들어, 사람들과 같은 엔터티 클래스에 대한 모든 참조들의 식별을 가능하게 하기 위해) 및/또는 낮은 입상도(예를 들어, 특정한 사람과 같은 특정한 엔터티에 대한 모든 참조들의 식별을 가능하게 하기 위해)에서 엔터티에 대한 참조들을 주석을 달을 수 있다. 엔터티 태그기는 특정한 엔터티를 리졸브(resolve)하기 위해 자연어 입력의 컨텐츠에 의존할 수 있고 및/또는 선택적으로 특정한 엔터티를 리졸브하기 위해 지식 그래프 또는 다른 엔터티 데이터베이스와 통신할 수 있다.

일부 구현예들에서, 자연어 프로세서(122)는 추가적으로 및/또는 대안적으로 하나 이상의 컨텍스트적 큐(cue)들에 기초하여 동일한 엔터티에 대한 참조인 그룹 또는 "클러스터"로 구성된 공동참조 리졸버(coreference resolver)(도시되지 않음)를 포함할 수 있다. 예를 들어, 공동참조 리졸버는 자연어 입력에서 "지난 번에 거기 가상 카페에서 먹었을 때 좋았어"에서 "거기"를 "가상 카페"로 해석하는데 사용될 수 있다.

일부 구현예들에서, 자연어 프로세서(122)의 하나 이상의 컴포넌트들은 자연어 프로세서(122)의 하나 이상의 다른 컴포넌트들로부터의 주석들에 의존할 수 있다. 예를 들면, 일부 구현예들에서, 명명된 엔터티 태그기는 특정한 엔터티에 대한 모든 언급들에 주석을 다는 것에 있어 공동참조 리졸버 및/또는 종속성 파서로부터의 주석들에 의존할 수 있다. 또한, 예를 들면, 일부 구현예들에서, 공동참조 리졸버는 동일한 엔터티에 대한 참조들을 클러스터링하는 것에 있어 종속성 파서로부터의 주석들에 의존할 수 있다. 일부 구현예들에서, 특정한 자연어 입력을 프로세싱함에 있어서, 자연어 프로세서(122)의 하나 이상의 컴포넌트들은 하나 이상의 주석들을 결정하기 위해 관련된 이전 입력 및/또는 특정한 자연어 입력 밖의 다른 관련된 데이터를 사용할 수 있다.

일부 구현예에서, 대화 상태 추적기(124)는 예를 들어, 인간-대-컴퓨터 대화 세션의 과정, 다수의 대화 세션들 및/또는 컨퍼런스 대화 세션 동안에 한 명 이상의 사용자들의 목적(또는 "의도")의 믿음 상태를 포함하는 "대화 상태"의 추적을 계속하도록 구성될 수 있다. 대화 상태를 결정함에 있어서, 일부 대화 상태 추적기는 대화 세션에서의 사용자 및 시스템 발언에 기초하여, 대화에서 인스턴스화되는 슬롯(들)에 대한 가장 가능성 있는 값(들)을 결정하려고 시도할 수 있다. 일부 기법은 슬롯 세트와 해당 슬롯과 연관된 값 세트를 정의하는 고정 온톨로지를 사용한다. 일부 기법은 추가적으로 또는 대안적으로 개별 슬롯 및/또는 도메인에 맞추어 질 수 있다. 예를 들어, 일부 기법은 각 도메인의 각 슬롯 유형에 대한 모델을 트레이닝하는 것이 필요할 수 있다.

대화 관리자(126)는 예를 들어 대화 상태 추적기(124)에 의해 제공되는 현재 대화 상태를 복수의 후보 응답 액션들 중 하나 이상의 "응답 액션"에 매핑하여 자동화된 어시스턴트(120)에 의해 수행되도록 구성될 수 있다. 응답 액션들은 현재 대화 상자 상태에 따라 다양한 형태로 나타날 수 있다. 예를 들어, 마지막 턴 이전에 발생하는(예를 들어, 궁극적인 사용자가 원하는 작업이 수행될 때) 대화 세션의 턴에 대응하는 초기 및 중간 스트림 대화 상태는 추가적인 자연어 대화를 출력하는 자동화된 어시스턴트(120)를 포함하는 다양한 응답 액션에 매핑될 수 있다. 이 응답 대화는 예를 들어, 대화 상태 추적기(124)가 사용자가 수행하고자 하는 일부 액션(즉, 슬롯 채우기)에 대한 파라미터를 사용자가 제공하도록 요청하는 것을 포함할 수 있다. 일부 구현예에서, 응답 액션은 "요청"(예를 들어, 슬롯을 채우기 위한 파라미터를 찾는 것), "제공"(예를 들어, 사용자를 위한 액션 또는 액션의 과정을 제안), "선택", "알림"(예를 들어, 요청된 정보를 사용자에게 제공), "매칭 없음"(예를 들어, 사용자의 마지막 입력이 이해되지 않음을 사용자에게 통지)과 같은 액션을 포함할 수 있다.

컨퍼런스 엔진(130)은 자동화된 어시스턴트(120)가 다수의 사람 참가자들 간의 미팅에 "참가"하고 다양한 기능을 수행할 수 있게 하는 자동화된 어시스턴트(120)의 "컨퍼런스 모드"를 지원하도록 구성될 수 있다. 다양한 구현예에서, 본 개시의 선택된 양태로 구성된 자동화된 어시스턴트(120)는 본 명세서에서 "컨퍼런스 컴퓨팅 디바이스"로 지칭되는 것을 적어도 부분적으로 동작할 수 있다. 컨퍼런스 컴퓨팅 디바이스는 스피커, 디스플레이, 특히 마이크로폰과 같은 하나 이상의 입력/출력 컴포넌트를 사용하여 다수의 사람 참가자들 간의 미팅에 참가할 수 있는 하나 이상의 클라이언트 디바이스들(106)을 포함하는 임의의 컴퓨팅 디바이스일 수 있다. 다양한 컴퓨팅 디바이스들이 독립형 인터렉티브 스피커, 화상 회의 컴퓨팅 시스템, 차량 컴퓨팅 시스템 등과 같은 컨퍼런스 컴퓨팅 디바이스로서 사용하기에 특히 적합할 수 있다. 그러나, 마이크로폰 및 적어도 하나의 출력 컴포넌트를 갖는 임의의 컴퓨팅 디바이스(예를 들어, 오디오, 비주얼)이 컨퍼런스 컴퓨팅 디바이스로 사용될 수 있다.

다양한 구현예에서, 컨퍼런스 엔진(130)은 자동화된 어시스턴트(120)를 전술한 "컨퍼런스 모드"로 설정하여, 다수의 구분되는 발화된 발언들 각각 이전에 자동화된 어시스턴트(120)의 명시적 호출을 요구하지 않고 자동화된 어시스턴트(120)로 하여금 다수의 구분되는 발화된 발언들에 대해 (예를 들어, STT(117)에 의해) 스피치-투-텍스트 프로세싱을 수행하도록 구성될 수 있다. 많은 경우에, 다수의 구분되는 발화된 발언들은 다수의 참가자들 간의 미팅 또는 컨퍼런스 동안 다수의 참가자들에 의해 제공될 수 있다. 매번 명시적 호출을 요구하지 않고 발화된 사용자 발언들에 자연어 프로세싱 및 다른 프로세싱을 수행함으로써, 자동화된 어시스턴트(120)는 미팅 참가자에게 도움이 될 수 있는 다양한 기능을 수행할 수 있다. 예를 들어, 각 발언 전에 자동화된 어시스턴트를 명시적으로 호출할 필요가 없어지면, 자동화된 어시스턴트가 발언이 발생한 경우 비-컨퍼런스 모드(즉, 스피치-투-텍스트 프로세싱이 일상적으로 수행되지 않는 모드)에 있을 때 발생할 수 있는 특정한 발언의 전부 또는 일부를 프로세싱하는데 자동화된 어시스턴트가 실패할 위험이 감소될 수 있다. 이에 따라 자동화된 어시스턴트의 신뢰성이 향상된다.

예를 들어, 일부 구현예에서, 컨퍼런스 모드에 있는 동안, 자동화된 어시스턴트(120)는 참가자들의 논의에 기초한 정보를 참가자들에게 자유롭게 제공할 수 있다. 보다 구체적으로, 일부 구현예에서, 자동화된 어시스턴트(120)는 자동적으로(즉, 참가자로부터 명시적 명령을 요구하지 않고) 미팅 참가자들에 의해 제공된 다수의 구분되는 발화된 발언들 중 하나 이상의 스피치-투-텍스트 프로세싱으로부터 생성된 제1 텍스트에 대해 시맨틱 프로세싱(예를 들어, 자연어 프로세서(122) 및/또는 다른 클라우드 기반 자동화된 어시스턴트 컴포넌트(119)에 의해)을 수행할 수 있다. 자동화된 어시스턴트(120)가 컨퍼런스 모드에 있지 않은 경우, 명시적 호출 내에서 그러한 시맨틱 프로세싱을 수행하지 않을 것이다. 시맨틱 프로세싱에 기초하여, 자동화된 어시스턴트(120)는 의미적으로 프로세싱된 텍스트와 관련된 데이터를 생성할 수 있다. 예를 들어, 텍스트가 질문을 포함하는 사용자 발언으로부터 생성된 경우, 텍스트는 자동화된 어시스턴트(120)가 하나 이상의 데이터베이스에 제출하는 검색 쿼리를 생성하는데 사용될 수 있다. 검색 쿼리에 대한 응답인 데이터는 자동화된 어시스턴트(120)에 의해 획득될 수 있고 하나 이상의 컨퍼런스 컴퓨팅 디바이스에서 다수의 회의 참가자들에게 출력될 수 있다.

이러한 시나리오의 예는 후술될 것이다.

모든 참가자의 발언이 자동화된 어시스턴트(120)에 의한 응답에 적합한 것은 아니다. 예를 들어, 참가자는 미팅 동안 자동화된 어시스턴트(120)가 반응하기를 원하지 않는 비형식적 농담에 참여할 수 있다. 따라서, 다양한 구현예에서, 자동화된 어시스턴트(120)는 참가자의 논의의 시맨틱 프로세싱에 기초하여 그것이 검색하는 미팅 컨텐츠로의 삽입 여부를 결정하기 위해 다양한 기준을 분석할 수 있다.

일부 구현예에서, 자동화된 어시스턴트(120)는 참가자의 발언에 응답하여 획득하는 정보와 연관된 관련성 점수를 결정할 수 있다. 검색된 정보가 일부 최소 관련성 임계치를 만족하는 관련성 점수를 갖는 경우, 자동화된 어시스턴트(120)는 정보를 논의에 잠재적으로 통합할 수 있다(예를 들어, 후술되는 양식과 관련된 다른 제약에 따름). 반면에, 검색된 정보가 이러한 임계치를 만족하지 못하는 관련성 점수를 갖는 경우, 자동화된 어시스턴트(120)는 정보가 참가자들에게 유용하거나 제대로 수신되지 않을 가능성이 있기 때문에 미팅 논의에 정보를 포함시키는 것을 자제할 수 있다.

자동화된 어시스턴트(120)는 미팅 참가자들에게 도움을 주기 위해 컨퍼런스 모드에 있는 동안 다양한 다른 기능들을 수행할 수 있다. 예를 들어, 자동화된 어시스턴트(120)는 참가자에게 주제에 관한 정보, 문서(들) 또는 미팅과 연관된 다른 정보를 제공하는 오디오 또는 시각적 출력을 제공할 수 있다. 전자/온라인 일정 시스템을 사용하여 미팅이 스케줄링되고, 일정 엔트리에 참가자 중 한 사람이 준비한 미팅 주제를 포함한다고 가정한다. 이러한 미팅 주제는 논의의 토픽(들), 액션 아이템 및 연관된 상태(예: 완료 또는 미완료), 참가자 신원, 투표 대상 주제 아이템, 현재 미팅과 이전 또는 장래의 미팅과의 관계 등과 같은 다양한 정보를 포함할 수 있다.

일부 구현예에서, 그러한 미팅 주제는 디스플레이되고 및/또는 지속적으로 재-디스플레이되고 및/또는 미팅 동안 주기적으로 디스플레이될 수 있다. 예를 들어, 일부 구현예에서, 자동화된 어시스턴트(120)는 참가자 발언로부터 생성된 텍스트로부터 제기된 하나 이상의 토픽들을 식별하고 및/또는 논의가 상이한 토픽들 사이에서 전환될 때를 식별하는 토픽 분류기로 구성될 수 있다. 이러한 토픽 분류기는 기대 최대화, 항-주파수-역 문서 빈도("TF-IDF"), 나이브 베이즈 분류, 잠재 시맨틱 색인화, 지원 벡터 머신, 인공 신경망, 의사 결정 트리, 개념 마이닝 등과 같은 문서 분류에 종종 사용되는 다양한 토픽 분류의 공지된 기법을 이용할 수 있다.

미팅 주제가 액션 아이템을 포함하는 일부 구현예에서, 자동화된 어시스턴트(120)는 액션 아이템이 처리되었는지(예를 들어, 해결, 지연, 수정, 취소 등) 여부를 결정하기 위해 미팅 동안 참가자에 의해 제공된 발언을 의미적으로 프로세싱하도록 구성될 수 있다. 자동화된 어시스턴트(120)는 주제를 디스플레이 할 때, 그에 따라 액션 아이템들에 관한 디스플레이된 정보를 수정할 수 있다. 이것의 일례가 도 2c와 관련하여 아래에서 설명된다. 또한, 일련의 슬라이드가 제시되는 일부 구현에서, 자동화된 어시스턴트(120)는 의미적으로 참가자의 발언들을 프로세싱하여 시퀀스를 통해 슬라이드를 자동으로 진행시킬 수 있다.

일부 구현예에서, 자동화된 어시스턴트(120)는 예를 들어, 컨퍼런스 모드로부터 발언을 의미론적으로 프로세싱하기 전에 명시적 호출을 요구하는 비-컨퍼런스 또는 "일반"로 다시 전환된 후, 미팅 요약을 생성할 수 있다. 일부 구현예에서, 미팅 요약은 미팅의 논의의 시맨틱 프로세싱을 통해 학습된 미팅 참가자들의 논의의 내용에 기초하여 주석이 달릴 수 있다는 점을 제외하고는 미팅 주제와 유사할 수 있다. 추가적으로 또는 대안적으로, 특히 미팅 전에 미팅 주제가 준비되지 않은 경우, 자동화된 어시스턴트(120)는 참가자의 논의의 시맨틱 프로세싱에 기초하여 미팅 요약을 새로 생성할 수 있다. 이에 의해, 미팅 동안 한 명 또는 모든 회의 참가자가 노트를 할 필요가 감소되거나 제거될 수 있다. 더욱이, 사람 참가자에 의해 작성된 노트의 오류 및/또는 누락이 감소되거나 회피될 수 있다.

자동화된 어시스턴트(120)에 의해 생성된 미팅 요약은 다양한 다른 정보를 포함할 수 있다. 미팅 주제에 포함될 수 있는 정보에 더하여 또는 그 대신에, 본 명세서에 기술된 기법들을 사용하여 생성된 미팅 요약은 논의된 토픽들(전술된 토픽 분류기에 의해 적어도 부분적으로 검출될 수 있음), 액션 아이템 생성/처리/수정, 미팅의 결과물(예: 장소 예약, 티켓 구매, 결과 투표 등), 미팅 동안에 전부 또는 일부 참가자들의 발언들의 전체 또는 부분 전사, 참가자들이 다음 스케줄링을 논의한 경우 다음(또는 후속) 미팅 등을 포함할 수 있다.

다양한 구현들에서, 자동화된 어시스턴트(120)는 예를 들어, 미팅이 시작 및/또는 종료될 때 및 따라서 자동화된 어시스턴트(120)가 다양한 큐들을 사용하여 컨퍼런스 모드와 일반 모드 사이에서 전환해야 할 때를 컨퍼런스 엔진(130)에 의해 결정할 수 있다. 일부 구현예에서, 미팅 참가자는 "헤이 어시스턴트, 미팅을 시작하자"와 같은 명시적 명령을 발행하여 자동화된 어시스턴트(120)가 컨퍼런스 모드로 전환되도록 할 수 있다. 추가적으로 또는 대안적으로, 일부 구현예에서, 자동화된 어시스턴트(120)는 사용자 발언에 기초하여 일반 모드에서 컨퍼런스 모드로 전환할 때를 추론할 수 있다. 예를 들어, 자동화된 어시스턴트(120)는 참가자가 예를 들어 다른 참가자에게(그리고 자동화된 어시스턴트(120)에 직접적이지 않게) "OK, 시작하자" 또는 "이 미팅을 시작합니다"와 같이 말한 때 일반 모드에서 컨퍼런스 모드로 전환할 수 있다. 미팅이 공청회, 비영리위원회 회의 등과 같은 공식적인 절차를 따라야하는 미팅 유형인 경우, 공식적인 미팅을 시작하기 위해 공통적으로 및/또는 공식적으로 발언된 문구가 검출되어 자동화된 어시스턴트(120)로 하여금 일반 모드에서 컨퍼런스 모드로 전환되게 할 수 있다. 일부 구현예에서, 자동화된 어시스턴트(120)는 그러한 미팅에서 참가자들에 의해 캐스팅된 투표를 집계하도록 구성될 수 있다.

일부 구현예에서, 자동화된 어시스턴트(120)는 미팅이 특정한 시간 및/또는 위치에서 열린다는 것을 표시하는 하나 이상의 전자 캘린더 엔트리들에 액세스할 수 있다. 일부 이러한 구현들에서, 자동화된 어시스턴트(120)는 미팅의 스케줄링된 시작 시간에 및/또는 자동화된 어시스턴트(120)가 {예를 들어, 하나 이상의 마이크로폰 및/또는 카메라를 사용하여) 참가자들 중 적어도 일부가 지정된 미팅 장소에 출석함을 검출한 예정 시작 시간 이후 시점에 컨퍼런스 모드로 자동적으로 전환할 수 있다. 유사하게, 자동화된 어시스턴트(120)는 명시적 사용자 지시(예를 들어, "어시스턴트, 회의를 종료하자"), 암시적 사용자 발언(예를 들어, "그만하자") 및/또는 공식적인 발언(예: "이 회의를 휴회합니다")에 기초하여 컨퍼런스 모드로부터 다시 일반 모드로 전환해야하는 때를 결정할 수 있다. 자동화된 어시스턴트를 다시 비-컨퍼런스 모드로 자동 전환하면, 미팅과 관련이 없는 불필요한 스피치-투-텍스트 프로세싱(및 후속 프로세싱)를 피할 수 있다. 결과적으로 자동화된 어시스턴트가 컨퍼런스 모드에 있는 것보다 적은 계산 리소스를 소비할 수 있다.

다수의 사람 참가자들 간의 미팅에 컨텐츠를 자동으로 통합하는 것에 자동화된 어시스턴트(120)와 연관된 다양한 문제가 있다. 사람 참가자가 자동화된 어시스턴트(120) 아닌 서로 대화하는 경우, 참가자가 다른 참가자로부터 피드백을 기대할 때 자동화된 어시스턴트(120)가 컨텐츠를 제공하게 하는 것은 방해가 될 수 있다. 자동화된 어시스턴트(120)가 질문(자동화된 어시스턴트(120)는 검색 쿼리로서 제출할 수 있음)을 포함하는 발화자의 발언에 응답하여 검색 결과를 제공하기에 너무 빠르면, 특히 청각적으로 행해지는 경우, 응답 컨텐츠의 제시가 산만하고 및/또는 발화자의 발언에 응답하려는 한 명 이상의 참가자를 방해할 수 있다. 또한, 자동화된 어시스턴트(120)가 너무 많은 참가자 발언에 대해 응답 컨텐츠를 제공하는 경우, 참가자는 너무 많은 정보로 인해 혼란스러워지고 및/또는 감당이 안될 수 있다. 다시 말해서, 자동화된 어시스턴트(120)는 방해가 될 수 있다.

따라서, 다양한 구현들에서, 자동화된 어시스턴트(120)는 다양한 큐들에 기초하여 컨텐츠를 미팅 참가자들에게 출력할 때("논의에 컨텐츠 삽입"으로도 지칭됨) 다양한 수준의 재량을 행사하도록 구성될 수 있다. 일부 구현예에서, 자동화된 어시스턴트(120)가 의미적으로 참가자의 발언을 프로세싱하고, 응답 컨텐츠를 검색한 경우, 자동화된 어시스턴트(120)는 응답 컨텐츠를 출력으로서 제공하기 전에 대화를 일시 정지하는 것을 기다릴 수 있다(예를 들어, 5초와 같은 미리 결정된 시간 간격 등). 일부 그러한 구현들에서, 예를 들어, 회의 참가자들이 그들의 논의를 진지하게 계속하기 때문에, 그러한 일시 정지가 발생하지 않으면, 특히 자동화된 어시스턴트(120)가 논의의 컨텍스트가 변경되었다고 결정하면(예: 논의의 새로운 토픽이 검출됨), 자동화된 어시스턴트(120)는 응답 컨텐츠를 일시 정지하기 위해 기다리거나 폐기한다. 일부 구현예에서, 자동화된 어시스턴트(120)는 1분, 5분, 30초 등과 같은 미리 결정된 시간 간격 동안 대화에서 일시 정지가 없다면 그러한 응답 컨텐츠를 폐기할 수 있다.

일부 구현예에서, 자동화된 어시스턴트(120)는 자동화된 어시스턴트(120)에 이용 가능한 유형의 출력 양식에 상응하는 논의에 컨텐츠를 자동으로 삽입할 때 재량의 수준을 행사할 수 있다. 예를 들어, 본 개시의 선택된 양테들로 구성된 독립형 스피커 또는 컨퍼런스 전화기 형태의 클라이언트 디바이스(106)에 의해 제공되는 가청 출력은 너무 자주 제시된다면 주의를 산만하게 할 수 있다. 반대로, 시각적 출력은 덜 산만할 수 있다. 따라서, 자동화된 어시스턴트(120)가 디스플레이, 예를 들어 컨퍼런스 텔레비전 화면 또는 심지어 참가자들에 의해 보여지는 개별 컴퓨터 화면 상에 시각적 출력을 제공할 수 있다면, 자동화된 어시스턴트(120)는 컨텐츠를 출력할지 여부 및/또는 시기를 결정할 때 비교적 낮은 수준의 재량을 행사할 수 있다. 한편, 자동화된 어시스턴트(120)가 하나 이상의 스피커를 통해서만 가청 출력을 제공할 수 있는 경우, 자동화된 어시스턴트(120)는 컨텐츠를 출력할지 여부 및/또는 시기를 결정할 때 더 큰 수준의 재량을 행사할 수 있다.

본 명세서에 설명된 예는 주로 복수의 미팅 참가자들이 본 개시의 선택된 양태로 구성된 자동화된 어시스턴트(120)를 동작시키는 독립형 인터렉티브 스피커 및/또는 디스플레이와 같은 클라이언트 디바이스(106)와 물리적으로 공존하는 시나리오에 관한 것이다. 그러나 이것은 제한하려는 것이 아니다. 본 명세서에 기술된 기법은 미팅 참가자가 함께 위치하지 않는 시나리오에서 동일하게 적용 가능하다. 예를 들어, 두 명 이상의 참가자가 예를 들어 각 사용자가 자신의 컴퓨터 앞에 앉아 화상 컨퍼런스를 사용하여 미팅을 진행한다고 가정한다. 일부 구현예에서, 자동화된 어시스턴트(120)는 각자의 스크린상에서 각각의 참가자에게 동일한 출력을 제공할 수 있다. 다른 구현들에서, 자동화된 어시스턴트(120)는 예를 들어, 개별 참가자 선호도, 개별 참가자 컨텐츠(예를 들어, 한 명의 참가자가 공공 장소에 있을 수 있고 잠재적으로 민감한 정보가 디스플레이되는 것을 원하지 않을 수 있음)에 따라, 그들의 스크린 상에서 각 참가자에게 상이한 콘텐츠를 제공할 수 있다. 2명의 미팅 참가자가 함께 위치하지 않고, 상이한 출력 양식(예를 들어, 하나는 오디오, 하나는 시각)을 갖는 클라이언트 디바이스(106)를 동작하는 시나리오에서, 자동화된 어시스턴트(120)는 오디오 출력 능력만을 갖는 참가자보다 시각적 출력 능력을 갖는 참가자에게 더 많은 컨텐츠가 제공(또는 "푸시(push)")되게 할 수 있다.

도 2a 내지 도 2d는 다수의 참가자들(202_1-3) 간의 미팅의 일례를 도시하며, 자동화된 어시스턴트(120)가 하나 이상의 클라이언트 디바이스(206_1-2)에서 적어도 부분적으로 실행되는 방식으로 "참가"한다. 이 예에서, 제1 클라이언트 디바이스(206₁)는 마이크로폰(구체적으로 도시되지 않음)을 갖는 독립형 인터렉티브 스피커의 형태를 취하고, 제2 클라이언트 디바이스(206₂)는 디스플레이 능력을 갖는 스마트 텔레비전의 형태를 취한다. 이 예에서, 참가자들(202_1-3)은 전자 캘린더를 사용하여 미팅을 스케줄링하고, 일정 엔트리 또는 일정 엔트리에 첨부된 별도의 문서에서 참가자 중 하나에 의해 정의된 주제가 있다고 가정할 수 있다.

도 2a에서, 제1 참가자(202₁)는 "OK, 어시스턴트, 회의를 시작하자"라고 발언함으로써 회의를 개시한다. 이것은 자동화된 어시스턴트(120)가 비-컨퍼런스 모드 또는 일반 모드로부터 컨퍼런스 모드로 전환하기 위한 명시적 명령의 예이다. 미팅에 대한 주제는 제2 클라이언트 디바이스(206₂)에, 예를 들어 자동화된 어시스턴트(120)의 명령에 따라 디스플레이된다. 주제는 "회사 이벤트 계획"과 "예산 검토"라는 두 가지 토픽을 포함한다. 일부 구현예에서, 주제는 자동화된 어시스턴트(120)가 컨퍼런스 모드로 전환될 때 디스플레이될 수 있다.

도 2B에서, 제2 참가자(202₂)가 "우리는 볼 파크에서 회사 이벤트를 계획해야해"라고 말한다. 이 발언의 시맨틱 프로세싱에 기초하여, 자동화된 어시스턴트(120)는 그녀가 미팅 주제 상의 제1 아이템("회사 이벤트 계획")을 언급하고 있다고 결정할 수 있다. 자동화된 어시스턴트(120)는 또한, 예를 들어, 전술한 엔터티 태그기에 의해 "볼 파크"가 특정 스포츠 팀과 연관된 특정 장소에 대한 참조인 것으로 결정할 수 있다. 도 2b에 도시되지 않았지만, 일부 구현예에서, 이 시점에 자동화된 어시스턴트(120)는 제2 클라이언트 디바이스(206₂)로 하여금 볼 파크에 관한 다양한 정보, 예를 들어 사진, 웹 사이트 링크, 스포츠 팀에 관한 정보 등을 디스플레이하게 할 수 있다. 제3 참가자 (202₃)는 "좋은 생각이야. 그 스케쥴이 뭐지?"라고 질문함으로써 제2 참가자의 진술에 응답한다. 자동화된 어시스턴트(120)는 예를 들어, 전술한 상호참조 리졸버(coreference resolver)를 통해, "그(it)"라는 단어를 이전에 식별된 스포츠 팀으로 해석할 수 있다. 그 다음, 자동화된 어시스턴트(120)는 스포츠 팀의 스케줄에 대한 검색 쿼리를 생성 및 제출할 수 있고, 도 2b에 도시된 바와 같이 응답 데이터를 제2 클라이언트 디바이스(206₂)에 디스플레이할 수 있다.

도 2c는 참가자들(202_1-3)이 회사 이벤트를 논의하고 다음 토픽으로 넘어간 한 후, 나중 단계에서 동일한 미팅을 도시한다. 제1 참가자(202₁)는 "좋아, 이벤트가 계획된 것 같아"라고 말한다. 자동화된 어시스턴트(120)는 이 발언을 의미적으로 프로세싱하고, 이를 미팅 주제 아이템 중 하나(예를 들어, 제1 액션 아이템 "회사 이벤트 계획")와 연관시킬 수 있다. 또한, 자동화된 어시스턴트(120)는 시맨틱 프로세싱에 기초하여 이 특정 주제가 항목이 처리되었다고 결정할 수 있다. 따라서, 자동화된 어시스턴트(120)는 미팅 주제 아아템 "회사 이벤트 계획"을 도 2c에 도시된 취소선 또는 다른 시각적 표시자(예: 체크박스, 글꼴 등)로 제2 클라이언트 디바이스(206₂) 상에서 미팅 주제를 렌더링(또는 재-렌더링)할 수 있다. 참가자(202_1-3)가 다른 토픽으로 전환하는 것처럼 보일 때 논의의 이 시점에 미팅 주제를 렌더링함으로써, 참가자(202_1-3)에게 다음 논의 토픽을 상기시켜 주며, 이 경우 예산을 검토한다. 이를 통해 미팅에 집중하고 참가자를 토픽에 유지할 수 있다.

도 2d는 회의가 끝날 때 발생할 수 있는 일 예시를 도시한다. 제3 참가자(202₃)는 "좋아, 여기서 나가자"고 말한다. 전술한 바와 같이, 자동화된 어시스턴트(120)는 이 발언을 의미적으로 프로세싱하여 미팅이 종료되었음을 추론할 수 있다. 결과적으로, 도 2d에서, 자동화된 어시스턴트(120)는 제2 클라이언트 디바이스(206₂)에 미팅 요약을 디스플레이하고, 컨퍼런스 모드로부터 비-컨퍼런스 모드로 전환하는 것을 포함하는 다수의 액션들을 취할 수 있다. 이 예에서, 디스플레이된 미팅 요약은 원래 미팅 주제에서 부분적으로 생성되거나 생성되지 않은 논의된 토픽의 목록을 포함한다. 여기서, 미팅 요약은 회사 이벤트가 계획되었고 및 예산이 검토되었다는 것을 포함하는 미팅 결과를 포함한다. 또한, 미팅 요약은 예를 들어 예산 검토와 관련하여 미팅 동안 참가자들(202_1-3)에 의해 논의되고 자동화된 어시스턴트(120)에 의해 의미적으로 검출된 액션 아이템을 포함한다.

일부 구현예에서, 도 2d에 도시된 것과 같은 미팅 요약은 예를 들어 이메일 또는 파일 공유를 통해 하나 이상의 회의 참가자들에게 제공될 수 있다. 자동화된 어시스턴트(120)에 의해 후속 미팅이 계획되는 것으로 결정되는 일부 구현예에서(예를 들어, 미팅 동안 논의의 시맨틱 프로세싱으로부터 또는 원래의 일정 엔트리에 링크된 새로운 일정 엔트리에 의해), 미팅 요약은 후속 미팅에서, 예를 들어 회의 주제로서 저장되고 제시될 수 있다. 일부 구현예에서, 자동화된 어시스턴트(120)는 2개의 미팅이 관련되는 경우 자동으로 검출할 수 있고 따라서 주제 및/또는 토픽을 공유할 수 있다. 예를 들어, 자동화된 어시스턴트(120)는 다수의 미팅(예를 들어, 제목)과 연관된 메타 데이터를 검사하거나, 다수의 미팅을 참가자를 공유하는 것으로 결정할 수 있다. 일부 구현예에서, 자동화된 어시스턴트(120)는 규칙적으로 스케줄링된 미팅을 제안하는 다수의 미팅들 중에서 패턴을 검출할 수 있고, 복수의 미팅에 걸쳐 미팅 요약을 "이월"할 수 있다.

일부 구현예에서, 자동화된 어시스턴트(120)는 예를 들어, 미팅 주제 및/또는 요약을 이들 참가자들에게 푸시하기 위해 다양한 방식으로 미팅 참가자들을 식별할 수 있다. 간단한 예로서, 일정 엔트리는 미팅 참가자를 명시적으로 식별할 수 있으며, 자동화된 어시스턴트(120)는 참가자의 이메일 주소를 결정하기 위해 사용할 수 있다. 추가적으로 또는 대안적으로, 일부 구현예에서, 자동화된 어시스턴트(120)는 미팅 참가자들을 식별하기 위해 음성 인식을 수행한 다음, 식별된 참가자들을 알려진 사용자 프로필과 매칭시킬 수 있다. 다른 예로서, 일부 구현예에서, 참가자들은 예를 들어, 미팅의 시작 부분에서 소개의 일부로서 자신들을 명시적으로 식별할 수 있고, 자동화된 어시스턴트(120)는 발화된 이름들을 검출할 수 있다(예를 들어, 그 이름들을 미팅 요약에 추가할 수 있다).

도 2a 내지 도 2d의 예시적 시나리오에서, 모든 미팅 참가자는 단일 위치에 함께 있을 수 있다. 그러나 상기 언급한 바와 같이, 이것은 제한하려는 것이 아니다. 도 3은 데스크톱 컴퓨터의 형태로 제1 클라이언트 디바이스(306₁)를 동작시키는 제1 참가자(도시되지 않음)와 제2 클라이언트 디바이스(306₂)를 형성하는 차량 내 컴퓨팅 시스템을 포함하는 차량(340)을 운전하는 제2 참가자(도시되지 않음) 사이에서 발생하는 미팅의 예를 도시한다. 이 예에서, 제1 참가자는 자동화된 어시스턴트(120)에 의해 의미적으로 프로세싱되는 자유 형태의 자연어 입력을 말하거나 타이핑할 수 있지만, 제2 참가자는 (운전 때문에) 발화된 자유 형식 자연어 입력만 제공하는 것으로 제한된다. 자동화된 어시스턴트(120)는 제1 클라이언트 디바이스(306₁)에서 시각적 및/또는 청각적으로 정보를 제공할 수 있지만, 시각적 출력이 운전 중인 참가자를 산만하게 할 수 있기 때문에, 제2 클라이언트 디바이스(306₂)에서 청각적으로만 정보를 제공한다.

제1 클라이언트 디바이스(306₁)의 제1 참가자가 "이번 주말에 렉싱턴에 가고 싶어?"와 같이 미팅 중에 무언가를 말하고, 제2(운전중인) 사용자가 동작하는 클라이언트 디바이스(306₂)에 "아마도, 날씨에 따라"라고 응답한다고 가정한다. 자동화된 어시스턴트(120)는 이러한 발언에 대해 시맨틱 프로세싱을 수행하여 하나 이상의 검색 쿼리들을 생성하고, 렉싱턴에 관한 정보 및 이번 주말에 렉싱턴의 날씨에 관한 정보를 검색할 수 있다. 제1 참가자는 디스플레이를 갖는 제1 클라이언트 디바이스(306₁)를 동작하고 있기 때문에, 자동화된 어시스턴트(120)는 제시할 응답 정보를 선택함에 있어 비교적 적은 재량권을 행사할 수 있다. 이는 제1 참가자가 운전과 같은 활동에 참여하는 것으로 알려지지 않았기 때문에 시각적 출력이 산만할 가능성이 적기 때문이다. 따라서, 렉싱턴 자체에 대한 다른 관심 지점, 일요일의 렉싱턴의 날씨 및 렉싱턴에서 1 시간 이내에 관심 지점을 포함하여, 풍부한 응답 정보가 제1 컴퓨팅 디바이스(306₁)에 시각적으로 제공된다.

대조적으로, 자동화된 어시스턴트(120)는 오디오 출력만을 사용하여 차량(340)을 운전하는 제2 참가자에게 정보를 푸시할 수 있다. 따라서, 자동화된 어시스턴트(120)는 그것이 제공하는 정보에 대해 훨씬 선택적일 수 있다. 예를 들어, 참가자는 일반적으로 렉싱턴의 위치에 대해 논의하고 있지만, 서로에게 관심 지점에 대해 명시적으로 묻지 않았다. 따라서, 제1 클라이언트 디바이스(306₁) 상에 디스플레이되는 다양한 관심 지점과 연관된 관련성 점수는 운전중인 참가자에 사용되는 최소 관련성 점수를 만족시키지 않을 수 있다. 따라서 제1 참가자는 렉싱턴에 대한 모든 정보를 볼 수 있지만, 차량을 운전하는 제2 참가자는 가장 관련 있는 정보, 즉 일요일 렉싱턴의 날씨만 들을 수 있다.

따라서, 다양한 구현예에서, 자동화된 어시스턴트(120)는 미팅 참가자의 컨텍스트에 기초하여 관련성 임계치를 조정할 수 있음을 알 수 있다. 다른 예로서, 도 3의 제1 사용자가 제1 클라이언트 디바이스(306₁)를 동작하여 작업(예를 들어, 문서 초안, 스프레드시트에서 작업, 연구 수행 등)을 수행한다고 가정하자. 이러한 컨텍스트에서, 대화와 관련된 정보로 제1 참가자를 시각적으로 압도하거나 산만하게 하는 것은 바람직하지 않을 수 있다. 따라서, 자동화된 어시스턴트(120)는 제1 참가자와 연관된 관련성 임계치를 운전중인 제2 참가자와 연관된 강화된 관련성 임계치와 더 가깝게 일치시키도록 조정할 수 있다. 예를 들어, 디스플레이 능력이 있음에도 불구하고, 제1 참가자가 다른 목적을 위해 디스플레이를 사용하고 있기 때문에, 자동화된 어시스턴트(120)는 제1 참가자의 주의를 산만하게하는 것을 피하기 위해 시각적이지 않게 제1 참가자에게 정보를 청각 적으로 푸시하도록 선택할 수 있다.

도 4는 본 명세서에 개시된 구현예들에 따라 예시적 방법(400)을 도시하는 흐름도이다. 편의상, 흐름도의 동작들은 동작들을 수행하는 시스템을 참조하여 기술된다. 이 시스템은 자동화된 어시스턴트(120)를 구현하는 컴퓨터 시스템의 하나 이상의 컴포넌트들과 같은 다양한 컴퓨터 시스템들의 다양한 컴포넌트들을 포함할 수 있다. 추가로, 방법(400)의 동작들이 특정한 순서로 도시되었지만, 이는 그러한 제한을 의미하지 않는다. 하나 이상의 동작들은 재순서화, 생략 또는 추가될 수 있다.

블록(402)에서, 시스템은 하나 이상의 컨퍼런스 컴퓨팅 디바이스들에서 적어도 부분적으로 구현되는 자동화된 어시스턴트(120)를 컨퍼런스 모드로 설정할 수 있고, 상기 컨퍼런스 모드에서 상기 자동화된 어시스턴트는 다수의 구분되는 발화된 발언들 각각 이전에 상기 자동화된 어시스턴트의 명시적 호출을 요구하지 않고 다수의 구분되는 발화된 발언들에 대해 스피치-투-텍스트 프로세싱을 수행한다. 본 명세서에 기술된 바와 같이, 다양한 구현예에서, 다수의 구분되는 발화된 발언들은 다수의 사람 참가자들 간의 미팅 동안 다수의 참가자들에 의해 제공될 수 있다.

블록(404)에서, 시스템은 상기 다수의 구분되는 발화된 발언들 중 하나 이상의 상기 스피치-투-텍스트 프로세싱으로부터 생성된 제1 텍스트에 대해 시맨틱 프로세싱을 자동적으로 수행할 수 있다. 특히, 시맨틱 프로세싱은 명시적 참가자 호출없이 수행될 수 있다. 실제로, 다양한 구현예에서, 시스템은 모든 참가자 발언들로부터 생성된 텍스트에 대해 시맨틱 프로세싱을 수행할 수 있다. 특정한 참가자 발언을 해독할 수 없는 경우, 스피치를 텍스트로 변환하는 것이 불가능할 수 있고, 이 경우 자동화된 어시스턴트(120)는 아무런 액션을 취하지 않는다. 특정 참가자 발언가 해독 가능하지만 의미적으로 프로세싱될 때 미팅 논의와 관련된 정보를 생성하지 않는 경우(예를 들어, 관련성 점수가 관련성 임계치를 만족하지 못함), 자동화된 어시스턴트(120)는 검색된 정보에 대해 아무런 액션을 취할 수 없다. 그러나, 시맨틱 프로세싱에 기초하여 검색된 정보가 관련성 임계치와 같은 일부 기준을 만족하는 경우, 블록(406)에서, 시스템은 시맨틱 프로세싱의 결과로서 획득된 정보에 기초하여 관련 데이터(예를 들어, 자연어 출력)를 생성할 수 있고, 하나 이상의 컨퍼런스 컴퓨팅 디바이스에서 하나 이상의 다수의 참가자들에게 관련 데이터를 출력한다(블록 408).

블록(410)에서, 시스템은 미팅이 종료되었다고 결정할 수 있다. 상기 언급한 바와 같이, 이 결정은 참가자로부터의 명시적 명령("OK 어시스턴트, 회의를 마무리하자")에 대한 응답으로 이루어 지거나, 사용자의 발언("이 회의를 휴회합니다")으로부터 추론되거나, 컨퍼런스 컴퓨팅 디바이스로서 사용되는 독립형 인터렉티브 스피커의 표면을 두드리는 것과 같은 다른 사용자 입력에 응답하여 이루어질 수 있다. 블록(410)의 결정에 응답하여, 블록(412)에서, 시스템은 상기 자동화된 어시스턴트(120)를 비-컨퍼런스 모드로 설정할 수 있고, 상기 비-컨퍼런스 모드에서 상기 자동화된 어시스턴트는 개별적인 발화된 발언에 대해 스피치-투-텍스트 프로세싱을 수행하기 전에 호출을 요구한다.

블록(414)에서, 일부 구현예에서, 시스템은 예를 들어, 미팅 동안 미팅 참가자들에 의해 제공되는 다수의 발언의 시맨틱 프로세싱에 기초하여 미팅 요약을 생성할 수 있다. 상기 언급한 바와 같이, 미팅 요약은 논의된 토픽, 액션 아이템(생성, 해결, 수정 등), 참가자 및/또는 미팅의 일부 또는 완전한 전사를 포함할 수 있다. 일부 구현예에서, 전사는 참가자의 발언 뿐만 아니라 자동화된 어시스턴트(120)에 의해 미팅에 삽입된 임의의 정보를 주석을 달거나 포함할 수 있다.

도 5은 본 명세서에 기술된 기법들의 하나 이상의 양태들을 수행하기 위해 선택적으로 활용될 수 있는 예시적 컴퓨팅 디바이스(510)의 블록도이다. 컴퓨팅 디바이스(510)는 일반적으로 적어도 하나의 프로세서(514)를 포함하며, 버스 서브시스템(512)을 통해 다수의 주변 디바이스들과 통신한다. 이들 주변 디바이스들은 예를 들면, 메모리 서브시스템(525) 및 파일 저장 서브시스템(526)을 포함하는 저장 서브시스템(524), 사용자 인터페이스 출력 디바이스(520), 사용자 인터페이스 입력 디바이스(522) 및 네트워크 인터페이스 서브시스템(516)을 포함할 수 있다. 입력 및 출력 디바이스는 컴퓨팅 디바이스(510)와 사용자 인터렉션을 하게 한다. 네트워크 인터페이스 서브시스템(516)은 외부 네트워크에 대한 인터페이스를 제공하며, 다른 컴퓨팅 디바이스들의 대응하는 인터페이스 디바이스들과 연결된다.

사용자 인터페이스 입력 디바이스(522)는 키보드, 마우스, 트랙볼, 터치패드 또는 그래픽 태블릿, 스캐너, 디스플레이에 통합된 터치스크린과 같은 포인팅 디바이스, 음성 인식 시스템, 마이크로폰과 같은 오디오 입력 디바이스 및/또는 다른 유형의 입력 디바이스를 포함한다. 일반적으로, 용어 "입력 디바이스"의 사용은 정보를 컴퓨팅 디바이스(510) 또는 통신 네트워크에 입력하기 위한 모든 가능한 유형의 디바이스들과 방식들을 포함하도록 의도된다.

사용자 인터페이스 출력 디바이스(520)는 디스플레이 서브시스템, 프린터, 팩스 기계 또는 오디오 출력 디바이스와 같은 비-시각적 디스플레이를 포함할 수 있다. 디스플레이 서브시스템은 CRT, LCD와 같은 평면 패널 디바이스, 프로젝션 디바이스 또는 시각적 이미지를 생성하기 위한 일부 기타 메커니즘을 포함할 수 있다. 또한, 디스플레이 서브시스템은 오디오 출력 디바이스와 같은 비-시각적 디스플레이를 제공할 수 있다. 일반적으로, 용어 "출력 디바이스"의 사용은 정보를 컴퓨팅 디바이스(510)로부터 사용자에게 또는 다른 기계 또는 컴퓨팅 디바이스에 정보를 출력하기 위한 모든 가능한 유형의 디바이스들과 방식들을 포함하도록 의도된다.

저장 서브시스템(524)은 본 명세서에 기술된 일부 또는 전부의 모듈들의 기능을 제공하기 위한 프로그래밍 및 데이터 구조를 저장한다. 예를 들면, 저장 서브시스템(524)은 도 4의 방법의 선택된 양태들을 수행하고 뿐만 아니라 도 1에 도시된 다양한 컴포넌트들을 구현하기 위한 로직을 포함할 수 있다.

이들 소프트웨어 모듈들은 일반적으로 프로세서(514) 단독으로 또는 다른 프로세서들과의 조합에 의해 실행된다. 저장 서브시스템(524)에서 사용된 메모리(525)는 프로그램 실행 중에 명령어들 및 데이터의 저장을 위한 메인 RAM(530) 및 고정된 명령어들이 저장되는 ROM(532)을 포함하는 다수의 메모리들을 포함할 수 있다. 파일 저장 서브시스템(526)은 프로그램 및 데이터 파일에 대한 영구적 저장을 제공할 수 있고, 하드 디스크 드라이브, 연관된 이동식 매체와 함께인 플로피 디스크 드라이브, CD-ROM 드라이브, 광학 드라이브 또는 이동식 매체 카트리지들을 포함할 수 있다. 특정 구현예들의 기능을 구현하는 모듈들은 파일 저장 서브시스템(526)에 의해 저장 서브시스템(524)에 또는 프로세서(들)(514)에 의해 엑세스가능한 다른 기계에 저장될 수 있다.

버스 서브시스템(512)은 의도된 대로 컴퓨팅 디바이스(510)의 다양한 컴포넌트들 및 서브시스템들이 서로 통신하게 하기 위한 메커니즘을 제공한다. 버스 서브시스템(512)이 개략적으로 단일의 버스로 도시되었지만, 버스 서브시스템의 대안적 구현예들은 다수의 버스들을 사용할 수 있다.

컴퓨팅 디바이스(510)는 워크스테이션, 서버, 컴퓨팅 클러스터, 블레이드 서버, 서퍼팜 또는 임의의 기타 데이터 프로세싱 시스템 또는 컴퓨팅 디바이스를 포함하는 다양한 유형들일 수 있다. 컴퓨터 및 네트워크의 끊임없이 변화하는 특성으로 인해, 도 5에 도시된 컴퓨팅 디바이스(510)는 일부 구현예들을 설명하기 위한 목적의 특정 예로서만 의도된다. 컴퓨팅 디바이스(510)의 많은 다른 구성들이 도 5에 도시된 컴퓨팅 디바이스보다 많거나 적은 컴포넌트들을 가질 수 있다.

본 명세서에서 논의된 특정 구현예들이 사용자에 관한 개인 정보(예를 들어, 다른 전자 통신으로부터 추출된 사용자 데이터, 사용자의 소셜 네트워크에 관한 정보, 사용자의 위치, 사용자의 시간, 사용자의 생체 정보 및 사용자의 활동 및 인구통계적 정보, 사용자들 간의 관계 등)를 수집하거나 사용하는 상황들에서, 사용자에게 정보가 수집될지 여부, 개인정보가 저장될지 여부, 개인 정보가 사용될지 여부 및 사용자에 관한 정보가 어떻게 수집되고 저장되고 사용될지를 제어하기 위한 하나 이상의 기회들이 제공된다. 즉, 본 명세서에서 논의된 시스템들 및 방법들은 관련된 사용자로부터 명시적 인가를 수신함에 따라서만 사용자 개인 정보를 수집하고 저장하고 및/또는 사용한다.

예를 들면, 프로그램 또는 구성들이 그 특정한 사용자 또는 프로그램 또는 구성과 관련된 다른 사용자들에 관한 사용자 정보를 수집할지 여부에 관한 제어권이 사용자에게 제공된다. 개인정보가 수집될 각 사용자에게 그 사용자에 관한 정보 수집에 대해 제어하게 하고, 정보가 수집될지 여부에 관한 그리고 정보의 어떤 부분이 수집될지 허가 또는 인가를 제공하기 위한 하나 이상의 옵션들이 제시된다. 예를 들면, 통신 네트워크를 통해 사용자들에게 하나 이상의 상기 제어 옵션들이 제공될 수 있다. 추가로, 특정 데이터는 그것이 저장되거나 사용되기 전에 하나 이상의 다양한 방식들로 취급되어, 개인적으로 식별가능한 정보는 제거된다. 일 예시로서, 사용자의 신원은 개인적으로 식별가능한 정보가 결정될 수 없도록 취급될 수 있다. 다른 예시로서, 사용자의 지리적 위치는 넓은 지역으로 일반화되어 사용자의 특정한 위치가 결정될 수 없도록 한다.

몇몇 구현예가 본 명세서에서 기술되고 도시되었지만, 기능을 수행하고 및/또는 결과 및/또는 본 명세서에 기술된 하나 이상의 이점을 획득하기 위한 다양한 다른 수단들 및/또는 구조들이 활용될 수 있으며, 그러한 변형들 및/또는 수정들은 본 명세서에서 기술된 구현예들의 범위 내에 있는 것으로 간주된다. 보다 일반적으로, 본 명세서에 기술된 모든 파라미터, 치수, 재료 및 구성은 예시적인 것으로 의도되었으며, 실제 파라미터, 치수, 재료 및/또는 구성은 교시를 사용되는 특정 어플리케이션 또는 어플리케이션들에 의존할 것이다. 통상의 기술자는 일상적인 실험만을 사용하여 본 명세서에 기술된 특정 구현예들에 대한 많은 균등물들을 인식할 수 있거나 또는 확인할 수 있을 것이다. 따라서, 전술한 구현예들은 단지 예일 뿐이며, 첨부된 청구범위 및 그 균등물의 범위 내에서 구현은 구체적으로 기술되고 청구된 것과 다르게도 실시 될 수 있음을 이해해야 한다. 본 개시의 구현은 본 명세서에 기술된 각각의 개별적인 구성, 시스템, 물품, 재료, 키트 및/또는 방법에 관한 것이다. 또한 구성, 시스템, 물품, 재료, 키트 및/또는 방법이 상호 불일치하지 않는다면, 그러한 두 개 이상의 구성, 시스템, 물품, 재료, 키트 및/또는 방법의 모든 조합이 본 발명의 범위 내에 포함된다.

Claims

하나 이상의 프로세서들에 의해 구현되는 방법으로서,
하나 이상의 컨퍼런스 컴퓨팅 디바이스들에서 적어도 부분적으로 구현되는 자동화된 어시스턴트를 컨퍼런스 모드로 설정하는 단계, 상기 컨퍼런스 모드에서 상기 자동화된 어시스턴트는 다수의 구분되는 발화된 발언들 각각 이전에 상기 자동화된 어시스턴트의 명시적 호출을 요구하지 않고 다수의 구분되는 발화된 발언들에 대해 스피치-투-텍스트 프로세싱을 수행하며, 상기 다수의 구분되는 발화된 발언들은 다수의 참가자들 간의 미팅 동안 다수의 참가자들에 의해 제공되며;
상기 자동화된 어시스턴트에 의해, 상기 다수의 구분되는 발화된 발언들 중 하나 이상의 상기 스피치-투-텍스트 프로세싱으로부터 생성된 제1 텍스트에 대해 시맨틱 프로세싱을 자동적으로 수행하는 단계, 상기 시맨틱 프로세싱은 명시적 참가자 호출 없이 수행되며;
상기 자동화된 어시스턴트에 의해, 상기 시맨틱 프로세싱에 기초하여, 상기 제1 텍스트와 관련된 데이터를 생성하는 단계, 상기 데이터는 상기 자동화된 어시스턴트가 컨퍼런스 모드에 있는 동안 상기 컨퍼런스 컴퓨팅 디바이스들 중 하나 이상에서 상기 다수의 참가자들에게 출력되며;
상기 자동화된 어시스턴트에 의해, 상기 미팅이 종료되었다고 결정하는 단계; 및
상기 결정에 기초하여, 상기 자동화된 어시스턴트를 비-컨퍼런스 모드로 설정하는 단계를 포함하며, 상기 비-컨퍼런스 모드에서 상기 자동화된 어시스턴트는 개별적인 발화된 발언에 대해 스피치-투-텍스트 프로세싱을 수행하기 전에 호출을 요구하는 것을 특징으로 하는 방법.
청구항 1에 있어서,
상기 데이터는 상기 컨퍼런스 컴퓨팅 디바이스들 중 하나 이상의 발화자를 통해 상기 자동화된 어시스턴트로부터 자연어 출력으로서 상기 다수의 참가자들에게 출력되는 것을 특징으로 하는 방법.
청구항 1에 있어서,
상기 데이터는 상기 다수의 참가자들에게 가시적인 하나 이상의 디스플레이들을 통해 상기 다수의 참가자들에게 출력되는 것을 특징으로 하는 방법.
청구항 1에 있어서,
상기 결정하는 단계는:
상기 자동화된 어시스턴트에 의해, 상기 다수의 참가자들 중 한 명으로부터, 상기 미팅이 종료되었음을 표시하는 발화된 호출을 수신하는 것; 또는
현재 시간이 스케줄링된 상기 미팅의 종료 시간과 일치한다고 결정하는 것을 포함하는 것을 특징으로 하는 방법.
청구항 1에 있어서,
상기 자동화된 어시스턴트는 상기 미팅이 시작되었음을 표시하는 발화된 호출 또는 컨퍼런스 모드에 진입하기 위한 명시적 명령에 응답하여 컨퍼런스 모드로 설정되는 것을 특징으로 하는 방법.
청구항 1에 있어서,
상기 다수의 발화된 발언들 중 하나 이상의 스피치-투-텍스트 프로세싱으로부터 생성된 제2 텍스트에 대해 추가적인 시맨틱 프로세싱을 수행하는 단계를 더 포함하며, 상기 추가적인 시맨틱 프로세싱은 상기 제1 텍스트와 관련된 상기 데이터에 적어도 부분적으로 기초하여 수행되는 것을 특징으로 하는 방법.
청구항 6에 있어서,
상기 추가적인 시맨틱 프로세싱은 상기 제1 텍스트와 관련된 상기 데이터에 기초하여 상기 제2 텍스트의 하나 이상의 토큰들의 명확화(disambiguation)를 포함하는 것을 특징으로 하는 방법.
청구항 1에 있어서,
상기 자동화된 어시스턴트에 의해, 상기 다수의 구분되는 발언들에 기초하여, 미팅 요약을 생성하는 단계를 더 포함하며, 상기 미팅 요약은 상기 자동화된 어시스턴트가 컨퍼런스 모드에 있는 동안 상기 다수의 구분되는 발화된 발언들로부터 상기 자동화된 어시스턴트에 의해 검출된 하나 이상의 토픽들을 포함하는 것을 특징으로 하는 방법.
청구항 8에 있어서,
상기 미팅 요약은 상기 자동화된 어시스턴트가 컨퍼런스 모드에 있는 동안 상기 다수의 구분되는 발화된 발언들로부터 상기 자동화된 어시스턴트에 의해 검출된 상기 미팅의 하나 이상의 결과들을 포함하는 것을 특징으로 하는 방법.
청구항 8에 있어서,
상기 미팅 요약은 상기 다수의 구분되는 발화된 발언들 중 적어도 일부의 텍스트 전사를 포함하는 것을 특징으로 하는 방법.
청구항 1에 있어서,
상기 미팅이 이전 미팅과 관련된다고 결정하는 단계; 및
상기 자동화된 어시스턴트에 의해, 상기 이전 미팅과 연관된 정보에 기초하여, 상기 이전 미팅 동안 생성되었던 그리고 현재 미팅과 관련된 추가적인 데이터를 식별하는 단계를 더 포함하며, 상기 추가적인 데이터는 상기 자동화된 어시스턴트가 컨퍼런스 모드에 있는 동안 상기 컨퍼런스 컴퓨팅 디바이스들 중 하나 이상에서 상기 다수의 참가자들에게 출력되는 것을 특징으로 하는 방법.
청구항 1에 있어서,
상기 다수의 참가자들이 인식할 수 있는 상기 컨퍼런스 컴퓨팅 디바이스들 중 하나 이상에 의해 사용되는 출력 양식을 식별하는 단계; 및
상기 식별된 출력 양식과 관련된 빈도로 상기 다수의 구분되는 발화된 발언들과 관련된 데이터를 출력하는 단계를 더 포함하는 것을 특징으로 하는 방법.
청구항 12에 있어서,
상기 출력 양식은 상기 참가자들 중 한 명인 운전자에 의해 운전되는 차량에서의 오디오 출력을 포함하며, 상기 다수의 구분되는 발화된 발언들과 관련된 상기 데이터가 출력되는 상기 빈도는 상기 운전자를 방해하지 않도록 선택되는 것을 특징으로 하는 방법.
하나 이상의 프로세서들 및 상기 하나 이상의 프로세서들과 동작가능하게 연결된 메모리를 포함하는 시스템으로서, 상기 메모리는 명령어들을 포함하며, 상기 명령어들은 하나 이상의 프로세서들에 의한 상기 명령어들의 실행에 응답하여, 상기 하나 이상의 프로세서들로 하여금 동작들을 수행하게 하며, 상기 동작들은:
하나 이상의 컨퍼런스 컴퓨팅 디바이스들에서 적어도 부분적으로 구현되는 자동화된 어시스턴트를 컨퍼런스 모드로 설정하는 동작, 상기 컨퍼런스 모드에서 상기 자동화된 어시스턴트는 다수의 구분되는 발화된 발언들 각각 이전에 상기 자동화된 어시스턴트의 명시적 호출을 요구하지 않고 다수의 구분되는 발화된 발언들에 대해 스피치-투-텍스트 프로세싱을 수행하며, 상기 다수의 구분되는 발화된 발언들은 다수의 참가자들 간의 미팅 동안 다수의 참가자들에 의해 제공되며;
상기 자동화된 어시스턴트에 의해, 상기 다수의 구분되는 발화된 발언들 중 하나 이상의 상기 스피치-투-텍스트 프로세싱으로부터 생성된 제1 텍스트에 대해 시맨틱 프로세싱을 수행하는 동작;
상기 자동화된 어시스턴트에 의해, 상기 시맨틱 프로세싱에 기초하여, 상기 제1 텍스트와 관련된 데이터를 생성하는 동작, 상기 데이터는 상기 자동화된 어시스턴트가 컨퍼런스 모드에 있는 동안 상기 컨퍼런스 컴퓨팅 디바이스들 중 하나 이상에서 상기 다수의 참가자들에게 출력되며;
상기 자동화된 어시스턴트에 의해, 상기 미팅이 종료되었다고 결정하는 동작; 및
상기 결정에 기초하여, 상기 자동화된 어시스턴트를 비-컨퍼런스 모드로 설정하는 동작을 포함하며, 상기 비-컨퍼런스 모드에서 상기 자동화된 어시스턴트는 개별적인 발화된 발언에 대해 스피치-투-텍스트 프로세싱을 수행하기 전에 호출을 요구하는 것을 특징으로 하는 시스템.
청구항 14에 있어서,
상기 데이터는 상기 컨퍼런스 컴퓨팅 디바이스들 중 하나 이상의 발화자를 통해 상기 자동화된 어시스턴트로부터 자연어 출력으로서 상기 다수의 참가자들에게 출력되는 것을 특징으로 하는 시스템.
청구항 14에 있어서,
상기 데이터는 상기 다수의 참가자들에게 가시적인 하나 이상의 디스플레이들을 통해 상기 다수의 참가자들에게 출력되는 것을 특징으로 하는 시스템.
청구항 14에 있어서,
상기 결정하는 동작은:
상기 자동화된 어시스턴트에 의해, 상기 다수의 참가자들 중 한 명으로부터, 상기 미팅이 종료되었음을 표시하는 발화된 호출을 수신하는 것; 또는
현재 시간이 스케줄링된 상기 미팅의 종료 시간과 일치한다고 결정하는 것을 포함하는 것을 특징으로 하는 시스템.
청구항 14에 있어서,
상기 자동화된 어시스턴트는 상기 미팅이 시작되었음을 표시하는 발화된 호출 또는 컨퍼런스 모드에 진입하기 위한 명시적 명령에 응답하여 컨퍼런스 모드로 설정되는 것을 특징으로 하는 시스템.
청구항 14에 있어서,
상기 다수의 발화된 발언들 중 하나 이상의 스피치-투-텍스트 프로세싱으로부터 생성된 제2 텍스트에 대해 추가적인 시맨틱 프로세싱을 수행하는 동작을 더 포함하며, 상기 추가적인 시맨틱 프로세싱은 상기 제1 텍스트와 관련된 상기 데이터에 적어도 부분적으로 기초하여 수행되는 것을 특징으로 하는 시스템.
명령어들을 포함하는 적어도 하나의 비일시적 컴퓨터 판독가능 저장 매체로서, 상기 명령어들은 하나 이상의 프로세서에 의한 명령어들의 실행에 응답하여, 상기 하나 이상의 프로세서로 하여금 동작들을 수행하게 하는 하며, 상기 동작들은:
하나 이상의 컨퍼런스 컴퓨팅 디바이스들에서 적어도 부분적으로 구현되는 자동화된 어시스턴트를 컨퍼런스 모드로 설정하는 동작, 상기 컨퍼런스 모드에서 상기 자동화된 어시스턴트는 다수의 구분되는 발화된 발언들 각각 이전에 상기 자동화된 어시스턴트의 명시적 호출을 요구하지 않고 다수의 구분되는 발화된 발언들에 대해 스피치-투-텍스트 프로세싱을 수행하며, 상기 다수의 구분되는 발화된 발언들은 다수의 참가자들 간의 미팅 동안 다수의 참가자들에 의해 제공되며;
상기 자동화된 어시스턴트에 의해, 상기 다수의 구분되는 발화된 발언들 중 하나 이상의 상기 스피치-투-텍스트 프로세싱으로부터 생성된 제1 텍스트에 대해 시맨틱 프로세싱을 수행하는 동작;
상기 자동화된 어시스턴트에 의해, 상기 시맨틱 프로세싱에 기초하여, 상기 제1 텍스트와 관련된 데이터를 생성하는 동작, 상기 데이터는 상기 자동화된 어시스턴트가 컨퍼런스 모드에 있는 동안 상기 컨퍼런스 컴퓨팅 디바이스들 중 하나 이상에서 상기 다수의 참가자들에게 출력되며;
상기 자동화된 어시스턴트에 의해, 상기 미팅이 종료되었다고 결정하는 동작; 및
상기 결정에 기초하여, 상기 자동화된 어시스턴트를 비-컨퍼런스 모드로 설정하는 동작을 포함하며, 상기 비-컨퍼런스 모드에서 상기 자동화된 어시스턴트는 개별적인 발화된 발언에 대해 스피치-투-텍스트 프로세싱을 수행하기 전에 호출을 요구하는 것을 특징으로 하는 비일시적 컴퓨터 판독가능 저장 매체.