KR20230121930A

KR20230121930A - 감지된 입 움직임 및/또는 시선을 기반으로 자동화된어시스턴트 적응

Info

Publication number: KR20230121930A
Application number: KR1020237026718A
Authority: KR
Inventors: 케네스 믹스터; 유안 유안; 투안 은구옌
Original assignee: 구글 엘엘씨
Priority date: 2018-05-04
Filing date: 2018-05-04
Publication date: 2023-08-21
Also published as: JP2023014167A; EP4343499A3; US20230229229A1; JP7487276B2; US11614794B2; JP2021521497A; KR20230173211A; EP3596584A1; EP3859494A1; KR20210002722A; US20200342223A1; EP4343499A2; EP3596584B1; EP3859494B1; CN112236739B; WO2019212569A1; JP7471279B2; CN112236739A

Abstract

자동화된 어시스턴트를 조정하는 것은, 사용자의 입의 움직임 및/또는 자동화된 어시스턴트의 자동화된 어시스턴트 인터페이스(시각적 및/또는 청각적)를 제공하는 어시스턴트 디바이스를 향하는 사용자의 시선을 검출하는 것에 기초한다. 입 움직임 및/또는 지향된 시선의 검출은 어시스턴트 디바이스에 통합된 카메라와 같은 어시스턴트 디바이스와 관련된 하나 이상의 비전 컴포넌트들로부터의 비전 데이터 처리에 기초할 수 있다. 검출되는 입 움직임은 사용자(상기 움직이는 입의) 가 말하는 움직임을 나타낼 수 있다.

Description

감지된 입 움직임 및/또는 시선을 기반으로 자동화된 어시스턴트 적응{ADAPTING AUTOMATED ASSISTANT BASED ON DETECTED MOUTH MOVEMENT AND/OR GAZE}

본 발명은 감지된 입 움직임 및/또는 시선을 기반으로 자동화된 어시스턴트 적응시키는 것에 관한 것이다.

인간은 여기에서 "자동화된 어시스턴트들(automated assistants)"("디지털 에이전트들", "대화형 개인 어시스턴트들", "지능형 개인 어시스턴트들", "어시스턴트 애플리케이션들", "대화형 에이전트들"등이라고도 함)라고하는 대화형 소프트웨어 애플리케이션들을 사용하여 인간 대 컴퓨터 대화에 참여할 수 있다. 예를 들어, 인간들(자동화된 어시스턴트들과 상호작용할 때 "사용자들"이라고 함)은 음성 자연어 입력(즉, 발화)을 사용하여 자동화된 어시스턴트에게 명령들 및/또는 요청들을 제공할 수 있고, 일부 경우들에서 텍스트로 변환된 다음 처리되거나 텍스트 (예를 들어, 타이핑된) 자연어 입력을 제공할 수 있다. 자동화된 어시스턴트는 청각 및/또는 시각적 사용자 인터페이스 출력을 포함할 수 있는 반응형 사용자 인터페이스 출력을 제공하여 요청에 응답한다.

자동화된 어시스턴트들과의 상호 작용을 용이하게 하는 많은 클라이언트 디바이스(여기서는 "보조 디바이스들"이라고도 함)는 사용자들이 자동화된 어시스턴트들과 터치없이 상호 작용할 수 있도록 한다. 예를 들어, 어시스턴트 디바이스들에는 종종 사용자들이 자동 어시스턴트를 호출 및/또는 다른 방식으로 상호 작용하기 위해 음성 발화들을 제공할 수 있는 마이크로폰이 포함된다. 여기에 서술된 어시스턴트 디바이스들은 자동화된 어시스턴트와의 터치없는 상호 작용을 용이하게 하기 위해 하나 이상의 비전 컴포넌트들(예를 들어, 카메라(들), LIDAR(Light Detection and Ranging) 컴포넌트들(들), 레이더 컴포넌트(들) 등)을 추가로 또는 대안적으로 통합하고 그리고/또는 그것들과 통신할 수 있다.

본 명세서에 개시된 구현들은, (1) 사용자의 입의 움직임(본 명세서에서 "입 움직임"이라고도 함); 및/또는 (2)어시스턴트 디바이스로 향하고 있는 사용자의 시선(본 명세서에서 "방향성 시선"이라고도 함)을 검출하는 것에 기초하여 자동화된 어시스턴트를 조정하는 것에 관한 것이고, 어시스턴트 디바이스는 자동화된 어시스턴트의 자동화된 어시스턴트 인터페이스(그래픽 및/또는 청각적)를 제공한다. 입 움직임 및/또는 지향된 시선의 검출은, 어시스턴트 디바이스에 통합된 카메라 또는 클라이언트 디바이스와 분리되어있는 (그러나 통신중인) 카메라와 같은, 어시스턴트 디바이스와 관련된 하나 이상의 비전 컴포넌트들로부터 비전 데이터의 처리에 기초할 수 있다. 검출된 입 움직임은 사용자(입이 속한)가 말하는 움직임을 나타낼 수 있다. 이는 사용자가 고개를 돌리거나 좌우로 밟는 등의 결과로 발생할 수 있는 사용자의 입의 움직임과 대조적이다. 아래에서 설명되는 바와 같이, 여기에 서술된 구현들은 자동화된 어시스턴트들을 구현하는데 사용되는 컴퓨팅 리소스들 및 통신 네트워크들의 효율성을 제공할 수 있다. 예를 들어, 아래의 논의에서 명백한 바와 같이, 구현들의 양태들은 데이터 네트워크를 통한 통신의 보다 선택적인 시작 및 네트워크를 통한 데이터 트래픽의 상응하는 감소들 생성할 수 있다. 예를 들어, 클라이언트 디바이스로부터의 네트워크 통신의 보다 선택적인 시작은, 통신이 시작되는 원격 시스템에서 컴퓨팅 리소스를 보다 효율적으로 사용할 수 있는데, 이는 원격 시스템과의 연결이 시작되기 전에 클라이언트 디바이스로부터의 잠재적인 통신이 필터링되기 때문이다. 원격 시스템에서 데이터 네트워크 및 컴퓨팅 리소스 사용의 효율성이 향상되면 네트워크의 송신기 및 수신기에 의한 전력 사용량은 물론 원격 시스템의 메모리 작업 및 처리 사용량 측면에서 상당한 절감 효과를 얻을 수 있다. 해당 효과는 아래에 설명 된대로 클라이언트 디바이스에서도 경험할 수 있다. 이러한 효과, 특히 시간이 지남에 따라 자동화된 어시스턴트가 계속 작동하면, 어시스턴트를 실행하는 디바이스들 및 시스템들을 포함하여 네트워크 및 컴퓨팅 장치 전체에서 상당한 추가 용량을 경험할 수 있다. 이 추가 용량은, 예를 들어, 추가 또는 업데이트된 인프라 및 컴퓨팅 장치의 추가 컴퓨팅 작업을 통해, 네트워크 기능을 확장할 필요없이 데이터 네트워크에서 보조 관련 여부에 관계없이 추가 통신에 사용할 수 있다. 다음 논의에서 다른 기술적 개선 사항들이 분명해질 것이다.

일례로서, 자동화된 어시스턴트는, 사용자의 입 움직임(선택적으로 임계 기간 동안)을 검출하는 것에 응답하고, 사용자의 시선이 (선택적으로 동일하거나 상이한 임계 기간 동안) 어시스턴트 디바이스로 향하고 있고 그리고 선택적으로, 사용자의 입 움직임 및 지향된 시선이 동시에 발생하거나 또는 서로의 임계 시간적 근접성 내에서(예를 들어, 0.5초 이내, 1.0초 이내, 또는 다른 임계 시간적 근접성 내에서) 발생하는 것을 검출하는 것에 응답하여 조정될 수 있다. 예를 들어, 자동화된 어시스턴트는 적어도 0.3초 지속 기간의 입 움직임을 검출하는 것에 응답하여, 그리고 적어도 0.5초 지속 기간이고 입 움직임과 동시에 발생하거나 또는 입 움직임의 0.5초 이내에 발생한 지향된 시선을 검출하는 것에 응답하여 조정될 수 있다.

일부 구현들에서, 자동화된 어시스턴트는 입 움직임 및 지향된 시선만을 검출하는 것에 응답하여 조정될 수 있다. 일부 다른 구현들에서, 자동화된 어시스트는 입 움직임 및 지향된 시선을 검출하고 하나 이상의 다른 조건(들)의 발생을 검출하는 것에 응답하여 조정될 수 있다. 하나 이상의 다른 조건의 발생에는, 예를 들어, 검출된 입의 움직임과 지향된 시선에 시간적으로 근접하여 음성 활동(예를 들어, 음성 활동, 입의 움직임과 지향된 시선을 제공하는 사용자의 음성 활동, 승인된 사용자의 음성 활동, 음성 호출 문구를 포함하는 음성 활동)을, 오디오 데이터에 기초하여 검출하는 것; 검출된 입의 움직임 및 지향된 시선과 함께 발생하거나 시간적으로 근접한 사용자의 제스처(예를 들어, "손 흔들기", "엄지 손가락 세우기", "하이 파이브")를, 시각 데이터에 기초하여 검출하는 것; 사용자가 인증된 사용자임을 오디오 데이터 및/또는 비전 데이터에 기초하여 검출하는 것; 및/또는 다른 조건(들)을 검출하는 것을 포함할 수 있다.

본 명세서에 개시된 일부 구현들에서, 입 움직임 및 지향된 시선을 검출하는 것에 응답하여 발생하는 자동화된 어시스턴트의 조정은 어시스턴트 디바이스에 의해 출력된 사용자 인터페이스의 렌더링의 조정을 포함할 수 있다. 이러한 구현들 중 일부에서, 사용자 인터페이스 출력 렌더링의 조정에는, 어시스턴트 디바이스에 의해 렌더링되는 가청 사용자 인터페이스 출력의 볼륨을 감소시키는 것 및/또는 가청 사용자 인터페이스 출력 및/또는 어시스턴트 디바이스에 의해 시각적으로 렌더링되는 비디오 출력을 중지하는 것을 포함한다.

일 예로서, 사용자가 자동화된 어시스턴트로 향하는 발화를 말하기 시작함에 따라 사용자의 입 움직임이 검출되고, 검출된 입 움직임과 함께 발생하는 사용자의 검출된 시선이 검출된다고 가정한다. 또한, 입 움직임 및 지향된 시선을 검출하기 전과 검출하는 동안, 어시스턴트 디바이스가 청각적 및/또는 시각적 콘텐츠를 렌더링한다고 가정하자. 예를 들어, 어시스턴트 디바이스의 자동화된 어시스턴트 클라이언트는 노래를 청각적으로 렌더링하고 노래에 대한 비디오를 시각적으로 렌더링할 수 있다. 입의 움직임과 지향된 시선을 검출하는 것에 응답하여, 자동화된 어시스턴트 클라이언트는 노래의 가청 렌더링의 볼륨을 줄일 수 있다(반면 감소된 볼륨에서 가청 렌더링 및 비디오의 시각적 렌더링을 계속). 볼륨을 줄이면 어시스턴트 디바이스의 하나 이상의 마이크로폰들을 통해 캡처된 오디오 데이터와 같이 음성 발화를 캡처하는 오디오 데이터의 처리 성능이 향상될 수 있다. 예를 들어, 오디오 데이터의 음성 대 텍스트 처리는 볼륨 감소의 결과로 개선될 수 있고, 오디오 데이터를 기반으로 한 VAD(Voice Activity Detection)는 볼륨 감소의 결과로 개선될 수 있으며, 오디오 데이터를 기반으로 한 스피커 분할은 볼륨 감소 등의 결과로 개선될 수 있다. 오디오 데이터의 향상된 처리는, 자동화된 어시스턴트가 음성 발화를 적절하게 해석하고, 적절한 방식으로 응답할 가능성을 높일 수 있다. 이로 인해 사용자 지원 상호 작용이 개선되거나 부적절한 자동화된 지원 응답의 위험이 완화될 수 있어, 이로 인해 사용자가 음성 발화를 반복하게 할 수 있다(그리고 결과적으로 반복된 음성 발화를 처리하고 다른 응답을 생성 및 렌더링하는데 계산 리소스가 소비되어야 함).

상기 예의 변형으로서, 적응은 볼륨 감소 대신에 노래(및 선택적으로 비디오)의 가청 렌더링의 중지를 포함할 수 있다. 상기 예의 추가 변형으로서, 조정은 초기에 노래의 가청 렌더링의 볼륨 감소를 포함할 수 있으며, 조정은 하나 이상의 다른 조건(들)의 발생에 응답하여 노래의 가청 렌더링의 후속 중단을 더 포함할 수 있다. 예를 들어, 볼륨의 감소는 입의 움직임과 지향된 응시를 검출하는 것에 응답하여 발생할 수 있고, 그리고 오디오 데이터의 처리를 기반으로 음성 활동의 발생을 나중에 검출하면 중지가 발생할 수 있다.

일부 구현들에서, 어시스턴트 디바이스에 의해 출력된 사용자 인터페이스의 렌더링의 조정은 추가적으로 또는 대안적으로 사람이 인지할 수 있는 큐의 렌더링을 포함할 수 있다. 사람이 지각할 수 있는 큐의 렌더링은 자동화된 어시스턴트를 추가로 조정하기 전에 선택적으로 제공될 수 있으며, 추가 조정이 곧 일어날 것임을 (직간접적으로) 표시할 수 있다. 예를 들어, 인간이 지각할 수 있는 큐의 렌더링은 처음에 입 움직임과 지향된 시선을 검출하는 것에 응답하여 발생할 수 있고, 추가 조정은 지속적인 입 움직임 및/또는 계속된 지향적 시선을 검출하는 것에 응답하여 발생할 수 있다. 예를 계속하여, 추가 조정은 클라이언트 디바이스의 하나 이상의 센서 컴포넌트들에 의해 생성된 특정 센서 데이터를 클라이언트 디바이스에 의해 하나 이상의 원격 자동화된 어시스턴트 컴포넌트들로 전송하는 것을 포함할 수 있다(단, 센서 컴포넌트(들)로부터의 센서 데이터는 추가 조정 전에 전송되지 않는다). 특정 센서 데이터에는, 예를 들어, 입의 움직임과 직향된 시선을 검출한 후 캡처한 비전 및/또는 오디오 데이터 및/또는 입 움직임을 수행하는 동안 및/또는 지향된 시선 동안 캡처된 버퍼링된 시각 및/또는 오디오 데이터가 포함될 수 있다. 인간이 지각할 수 있는 큐를 제공함으로써, 사용자는 곧 발생할 추가 조정에 대해 경고를 받을 수 있고 추가 조정을 방지할 기회가 제공될 수 있다. 예를 들어, 추가 조정이 사용자의 지향된 시선에 달려 있는 경우, 사용자는 추가 조정을 방지하기 위해 자신의 시선을 전환할 수 있다(예를 들어, 사용자가 자동화된 어시스턴트와 상호 작용하지 않고 센서 데이터를 전송하도록 하는 경우). 이러한 방식으로, 추가 조정으로부터 초래될 네트워크 및/또는 계산 리소스들의 사용과 함께 추가 조정이 방지될 수 있다. 들을 수 있는 "딩(ding)", 들을 수 있는 "음성 출력"(예를 들어, "어시스턴트와 대화중인 것 같습니다. 원하지 않으면 멀리보십시오(Looks like you're talking to the Assistant, look away if you don't want to)"), 어시스턴트 디바이스의 디스플레이 화면에 표시되는 시각적 기호, 어시스턴트 디바이스의 발광 다이오드(들)의 조명 등과 같은 인간이 인지할 수 있는 큐들이 제공될 수 있다.

일부 구현들에서, 어시스턴트 디바이스에 의해 출력된 사용자 인터페이스의 렌더링의 조정은 추가적으로 또는 대안적으로 렌더링된 콘텐츠를 검출된 입 움직임 및 지향된 시선에 대응하는 사용자에게 맞추는 것을 포함할 수 있다. 렌더링된 콘텐츠를 조정하는 것은 어시스턴트 디바이스에 대한 사용자의 거리를 결정하는 것 및 거리에 기초한 방식으로 콘텐츠를 렌더링하는 것을 포함할 수 있다. 예를 들어, 가청 콘텐츠는 검출된 입 움직임 및 지향된 시선에 대응하는 사용자의 거리를 기반으로하는 볼륨에서 렌더링될 수 있다. 또한, 예를 들어, 검출된 입 움직임 및 지향된 응시에 대응하는 사용자의 거리에 기초한 크기로 시각적 콘텐츠가 렌더링될 수 있다. 또 다른 예로, 거리를 기반으로 콘텐츠를 생성할 수 있다. 예를 들어, 거리가 클라이언트 디바이스와 상대적으로 가까울 때 더 상세한 콘텐츠가 생성될 수 있는 반면, 거리가 클라이언트 디바이스에서 상대적으로 멀 때 덜 상세한 콘텐츠가 생성될 수 있다. 특정 예로, "날씨가 어때(what's the weather)?"라는 음성에 응답하여 비교적 가까운 거리에서 1일 일기 예보를 생성할 수 있는 반면, 상대적으로 먼 거리에서 3일 일기 예보를 생성할 수 있다. 사용자의 거리는 검출된 입 움직임 및 지향된 시선(사용자가 자동화된 어시스턴트와 구두로 참여하고 있음을 나타낼 수 있음)에 대응하는 사용자에 응답하여 결정될 수 있다. 이는, 검출된 입 움직임 및 직향된 시선에 대응하는 사용자의 거리에 렌더링된 콘텐츠를 맞추는 것은 렌더링된 콘텐츠를 자동화된 어시스턴트와의 대화에 적극적으로 참여하는 사용자에게 맞추는 것을 가능하게 하는 것처럼, 여러 사용자들(다수의 거리들에서)이 비전 데이터를 캡처하는 상황들에서 유용할 수 있다.

본 명세서에 개시된 일부 구현들에서, 그리고 위에서 언급한 바와 같이, 입 움직임 및 지향된 시선을 검출하는 것에 응답하여 발생하는 자동화된 어시스턴트의 조정은 추가적으로 및/또는 대안적으로 오디오 데이터 및/또는 시각 데이터의 처리와 같은 센서 데이터의 처리의 조정을 포함할 수 있다.

이러한 구현들 중 일부에서, 조정은 입 움직임 및 지향된 시선을 검출하는 것에 응답하여 특정 센서 데이터(예를 들어, 오디오 데이터, 비디오, 이미지(들) 등)의 특정 처리의 개시를 포함할 수 있다(반면에 특정 처리가 이전에 수행되지 않았다). 예를 들어, 입의 움직임과 지향된 시선을 검출하기 전에 자동화된 어시스턴트는 오디오 데이터, 비디오/이미지 데이터 등과 같은 특정 센서 데이터의 제한된 처리만을 수행할 수 있거나 또는 어떤 처리도 수행하지 않을 수 있다. 예를 들어, 이러한 검출 이전에, 자동화된 어시스턴트는 명시적 호출 문구를 모니터링할 때 오디오 데이터를 국부적으로 처리할 수 있지만, 그러나 국부적으로 처리 후 자동화된 어시스턴트를 구현하는 하나 이상의 추가 컴포넌트들(예를 들어, 사용자 입력들을 처리하고 적절한 응답들을 생성하는 원격 서버 디바이스(들))에 의해 오디오 데이터가 처리되지 않도록 데이터를 "삭제(discard)"한다. 그러나, 입 움직임 및 지향된 시선(및 선택적으로 하나 이상의 다른 상태(들)의 발생)을 검출하는 것에 응답하여, 이러한 데이터는 추가 컴포넌트(들)에 의해 처리될 수 있다. 이러한 방식 및 다른 방식에서, 처리 및/또는 네트워크 리소스들은 입 움직임 및 지향된 시선을 검출하는 것에 응답하여 특정 센서 데이터의 특정 처리만을 전송 및/또는 수행함으로써 감소될 수 있다.

본 명세서에 서술된 일부 추가적 또는 대안적 구현에서, 센서 데이터 처리의 적용은 입 움직임 및 지향된 시선이 검출되는 사용자의 결정된 위치에 기초한 국부적인 처리 및/또는 원격 처리의 조정을 포함할 수 있다. 사용자의 위치는 클라이언트 디바이스에 상대적일 수 있고, 예를 들어, 사용자에 대응하는 것으로 결정된 비전 데이터의 부분에 기초하여 결정될 수 있다. 사용자의 위치에 기초한 오디오 데이터의 처리는, 예를 들어, 음성 발화에 대응하는 오디오 데이터의 부분을 분리하고 그리고/또는 오디오 데이터로부터 배경 잡음을 제거하는 것을 포함할 수 있다. 그러한 처리는 결정된 위치 및 빔 포밍 및/또는 오디오 데이터의 일부들을 분리하고 그리고/또는 오디오 데이터로부터 배경 잡음을 제거하는 다른 기술들에 의존할 수 있다. 이를 통해, 배경 소음이 심하고 여러 명의 화자가 동시에 말하는 환경에서 오디오 데이터 처리를 개선할 수 있다.

일부 구현들에서, 입 움직임을 모니터링하고 클라이언트 디바이스로 향하는 시선을 모니터링할 때, 클라이언트 디바이스에 로컬로 저장된 훈련된 기계 학습 모델(들)(예를 들어, 신경망 모델(들))은 클라이언트 디바이스에서 사용되어 클라이언트 디바이스의 비전 컴포넌트(들)로부터 비전 데이터의 적어도 일부(예를 들어, 클라이언트 디바이스의 카메라(들)로부터의 이미지 프레임들)를 적어도 선택적으로 처리한다. 예를 들어, 한 명 이상의 사용자들의 존재를 검출하는 것에 응답하여, 클라이언트 디바이스는, 최소 기간 동안(예 : 최소 임계 기간 동안 및/또는 존재가 더 이상 검출되지 않을 때까지) 입 움직임 및 지향된 시선을 모니터링할 때 국부적으로 저장된 기계 학습 모델(들)을 활용하는 비전 데이터의 적어도 일부(들)을 처리할 수 있다. 클라이언트 디바이스는, 전용 존재 센서(예를 들어, 수동 적외선 센서(PIR))를 사용하여, 비전 데이터 및 별도의 기계 학습 모델(예를 들어, 사람 존재 검출만을 위해 훈련된 별도의 기계 학습 모델)을 사용하여 그리고/또는 오디오 데이터 및 별도의 기계 학습 모델(예를 들어, VAD 기계 학습 모델을 사용하는 VAD)을 사용하여 한 명 이상의 사용자들의 존재를 검출할 수 있다. 입 움직임 및/또는 지향된 시선을 모니터링할 때 비전 데이터의 처리가 한 명 이상의 사용자들의 존재를 먼저 검출하는 것에 의존하는 구현들에서, 전력 리소스들은 입 움직임 및/또는 지향된 시선을 모니터링할 때 비전 데이터의 비 연속적 처리를 통해 보존될 수 있다. 오히려 이러한 구현들에서, 입의 움직임 및/또는 지향된 시선에 대한 모니터링에서 비전 데이터 처리는, 하나 이상의 저전력 소비 기술을 통해 어시스턴트 디바이스의 환경에서 하나 이상의 사용자(들)의 존재를 검출하는 것에 응답하여서만 발생할 수 있다.

로컬 머신 학습 모델(들)이 입 움직임 및 지향된 시선 모니터링에 사용되는 일부 구현들에서, 적어도 하나의 입 움직임 기계 학습 모델이 입 움직임 모니터링에 사용되고, 별도의 시선 기계 학습 모델이 지향된 시선 모니터링에 사용된다. 이러한 구현들의 일부 버전들에서는, 하나 이상의 "업스트림" 모델들(예를 들어, 객체 검출 및 분류 모델(들))은 얼굴, 눈(들), 입 등일 가능성이 있는 비전 데이터(예를 들어, 이미지(들))의 일부들을 검출하는데 사용될 수 있고, 그러한 부분(들)은 각각의 기계 학습 모델을 사용하여 처리된다. 예를 들어, 이미지의 얼굴 및/또는 눈 부분(들)은 업스트림 모델을 사용하여 검출될 수 있고, 시선 머신 학습 모델을 사용하여 처리될 수 있다. 또한, 예를 들어, 이미지의 얼굴 및/또는 입 부분(들)은 업스트림 모델을 사용하여 검출될 수 있고, 입 움직임 기계 학습 모델을 사용하여 처리될 수 있다. 또 다른 예로서, 이미지의 인간 부분(들)은 업스트림 모델을 사용하여 검출될 수 있고, 시선 검출 기계 학습 모델 및 입 움직임 기계 학습 모델 모두를 사용하여 처리될 수 있다.

일부 구현들에서, 얼굴 매칭, 눈 매칭, 음성 매칭 및/또는 기타 기술들은, 특정 사용자 프로필에 맞게 조정되는 클라이언트 디바이스의 자동화된 어시스턴트 애플리케이션에 의해 렌더링된 콘텐츠 및 입 움직임 및/또는 지향된 시선과 관련된 특정 사용자 프로필을 식별하는데 활용될 수 있다. 맞춤형 콘텐츠의 렌더링은 입 움직임 및 지향된 시선을 검출하는 것에 응답하는 자동화된 어시스턴트의 조정의 전부 또는 일부일 수 있다. 선택적으로 특정 사용자 프로필의 식별은 입의 움직임과 지향된 시선이 검출된 후에만 발생한다. 일부 구현들에서, 그리고 위에서 언급한 바와 같이, 자동화된 어시스턴트의 조정을 위해, 하나 이상의 추가 조건들의 발생이 또한 필요할 수 있고, 추가 조건(들)이 시선 및/또는 입 움직임 검출에 추가된다. 예를 들어, 일부 구현들에서 추가 조건(들)은 입 움직임 및 지향된 시선을 제공하는 사용자가 (예를 들어, 얼굴 매칭, 음성 매칭 및/또는 기타 기술들을 사용하여) 클라이언트 디바이스에 대해 승인된 사용자 프로파일과 연관되어 있음을 식별하는 것을 포함할 수 있다.

일부 구현들에서, 비디오(들)/이미지(들)의 특정 부분들은 입 움직임 및/또는 시선을 검출할 때 필터링되거나/무시되거나/가중이 덜 심해질 수 있다. 예를 들어, 비디오(들)/이미지(들)로 캡처된 텔레비전은 텔레비전에 의해 렌더링된 사람(예를 들어, 기상캐스터)의 결과로 인한 잘못된 검출들을 방지하기 위해 무시될 수 있다. 예를 들어, 이미지의 일부는, 해당 부분에 대한 여러 프레임들에 걸쳐 해당 부분(즉, 텔레비전 재생률과 일치하는)에서 특정 디스플레이 주파수를 감지하는 것에 응답하여, 별도의 객체 검출/분류 기계 학습 모델을 기반으로 텔레비전에 해당하도록 결정될 수 있다. 이러한 부분은 텔레비전 또는 다른 비디오 디스플레이 디바이스로부터의 입 움직임 및/또는 지향된 시선의 검출을 방지하기 위해, 본 명세서에서 서술된 입 움직임 및/또는 지향성 시선 검출 기술들에서 무시될 수 있다. 또 다른 예로, 액자들이 무시될 수 있다. 이러한 기술 및 기타 기술들은 자동화된 어시스턴트의 위양성 적응을 완화할 수 있으며, 그렇지 않으면 위양성 적응에서 소비될 다양한 계산 및/또는 네트워크 리소스들을 보존할 수 있다. 또한, 다양한 구현들에서, TV, 액자 등의 위치가 검출되면, 선택적으로 여러 프레임들에 걸쳐 계속(예를 들어, 간헐적으로 확인하는 동안, 클라이언트 디바이스 또는 객체(들)의 움직임이 감지 될 때까지 등) 무시할 수 있다. 또한, 다양한 계산 리소스들을 절약할 수 있다.

상기 설명은 여기에 개시된 다양한 구현의 개요로서 제공된다. 이러한 다양한 구현들 및 추가 구현들이 여기에서 더 자세히 설명된다.

*일부 구현들에서, 한 명 이상의 사용자들과 자동화된 어시스턴트 간의 터치 없는 상호 작용을 용이하게 하는 클라이언트 디바이스의 하나 이상의 프로세서들에 의해 구현되는 방법이 제공된다. 상기 방법은 상기 클라이언트 디바이스의 하나 이상의 카메라들로부터의 출력에 기초한 이미지 프레임들의 스트림을 수신하는 단계를 포함한다. 상기 방법은, 상기 클라이언트 디바이스의 하나 이상의 카메라들을 향한 사용자의 시선 및 상기 사용자의 입의 움직임 모두의 발생을 모니터링하기 위해, 상기 클라이언트 디바이스에 국부적으로 저장된 적어도 하나의 훈련된 기계 학습 모델을 사용하여 상기 스트림의 이미지 프레임들을 처리하는 단계를 더 포함한다. 상기 방법은 상기 모니터링에 기초하여, 상기 사용자의 시선 및 상기 사용자의 입의 움직임 모두의 발생을 검출하는 단계를 더 포함한다. 상기 방법은 또한 상기 사용자의 시선 및 상기 사용자의 입의 움직임 모두의 발생을 검출하는 것에 응답하여, 상기 클라이언트 디바이스의 사용자 인터페이스 출력의 렌더링을 조정하는 것 및 상기 클라이언트 디바이스에 의해 오디오 데이터 처리를 조정하는 것 중 하나 또는 둘 모두를 수행하는 단계를 더 포함한다.

여기에 서술된 기술의 이들 및 다른 구현은 다음 특징들 중 하나 이상을 포함할 수 있다.

일부 구현들에서, 상기 클라이언트 디바이스의 사용자 인터페이스 출력의 렌더링을 조정하는 것은, 상기 사용자의 시선 및 상기 사용자의 입의 움직임 모두의 발생을 검출하는 것에 응답하여 수행된다. 그러한 구현들 중 일부에서, 상기 클라이언트 디바이스의 사용자 인터페이스 출력의 렌더링을 조정하는 것은, 상기 클라이언트 디바이스에 의해 렌더링되는 가청 사용자 인터페이스 출력(audible user interface output)의 볼륨을 줄이는 것을 포함한다. 그러한 구현들 중 일부 버전들에서, 상기 방법은 또한 상기 사용자의 입의 움직임에 시간적으로 대응하는 오디오 데이터의 음성 활동 검출을 수행하는 단계와; 상기 사용자의 입 움직임에 시간적으로 대응하는 오디오 데이터의 음성 활동 검출에 기초하여 음성 활동의 발생을 결정하는 단계를 더 포함한다. 그러한 버전들에서, 상기 클라이언트 디바이스에 의해 렌더링되는 가청 사용자 인터페이스 출력의 볼륨을 줄이는 것은, 또한, 음성 활동의 발생을 결정하는 것에 응답하고 그리고 상기 사용자의 입 움직임에 시간적으로 대응하는 오디오 데이터에 대한 상기 음성 활동의 발생을 기초로 한다.

상기 클라이언트 디바이스의 사용자 인터페이스 출력의 렌더링을 조정하는 것이 상기 사용자의 시선 및 상기 사용자의 입의 움직임 모두의 발생을 검출하는 것에 응답하여 수행되는 일부 경우들에서, 상기 클라이언트 디바이스의 사용자 인터페이스 출력의 렌더링을 조정하는 것은, 상기 클라이언트 디바이스에 의해 렌더링된 가청 사용자 인터페이스 출력의 렌더링을 중지하는 것을 포함한다. 일부 구현들에서, 상기 방법은 상기 사용자의 입의 움직임에 시간적으로 대응하는 오디오 데이터의 음성 활동 검출을 수행하는 단계와; 그리고 상기 사용자의 입 움직임에 시간적으로 대응하는 오디오 데이터의 음성 활동 검출에 기초하여 음성 활동의 발생을 결정하는 단계를 더 포함한다. 그러한 구현들에서, 상기 클라이언트 디바이스에 의해 렌더링된 가청 사용자 인터페이스 출력의 렌더링을 중지하는 것은, 또한, 음성 활동의 발생을 결정하는 것에 응답하고 그리고 상기 사용자의 입 움직임에 시간적으로 대응하는 오디오 데이터에 대한 상기 음성 활동의 발생을 기초로 한다.

일부 구현들에서, 상기 클라이언트 디바이스의 사용자 인터페이스 출력의 렌더링을 조정하는 것은 인간이 인지할 수 있는 큐(cue)를 렌더링하는 것을 포함하고; 상기 클라이언트 디바이스에 의해 오디오 데이터 처리를 조정하는 것은, 상기 사용자의 시선 및 상기 사용자의 입의 움직임 모두의 발생을 검출하는 것에 응답하여 수행되고; 상기 클라이언트 디바이스에 의해 오디오 데이터 처리를 조정하는 것은, 상기 클라이언트 디바이스에서 로컬 자동 음성 인식을 시작하는 것을 포함하며; 그리고 상기 로컬 자동 음성 인식을 시작하는 것은, 또한, 사용자의 시선이 큐의 렌더링 이후에 상기 클라이언트 디바이스의 하나 이상의 카메라를 향해 계속해서 향하는 것을 검출하는 것에 응답한다.

일부 구현들에서, 상기 클라이언트 디바이스의 사용자 인터페이스 출력의 렌더링을 조정하는 것은 인간이 인지할 수 있는 큐(cue)를 렌더링하는 것을 포함하고; 상기 클라이언트 디바이스에 의해 오디오 데이터 처리를 조정하는 것은, 상기 사용자의 시선 및 상기 사용자의 입의 움직임 모두의 발생을 검출하는 것에 응답하여 수행되고; 상기 클라이언트 디바이스에 의해 오디오 데이터 처리를 조정하는 것은, 상기 자동화된 어시스턴트와 관련된 원격 서버로 상기 클라이언트 디바이스의 하나 이상의 마이크로폰들을 통해 캡처된 오디오 데이터의 전송을 시작하는 것을 포함하며; 그리고 상기 원격 서버로 오디오 데이터의 전송을 시작하는 것은, 또한, 사용자의 시선이 큐의 렌더링 이후에 상기 클라이언트 디바이스의 하나 이상의 카메라를 향해 계속해서 향하는 것을 검출하는 것에 응답한다.

일부 구현들에서, 상기 클라이언트 디바이스에 의해 오디오 데이터 처리를 조정하는 것은, 상기 사용자의 시선 및 상기 사용자의 입의 움직임 모두의 발생을 검출하는 것에 응답하여 수행된다. 그러한 구현들 중 일부에서, 상기 클라이언트 디바이스에 의해 오디오 데이터 처리를 조정하는 것은, 상기 자동화된 어시스턴트와 관련된 원격 서버로 상기 클라이언트 디바이스의 하나 이상의 마이크로폰들을 통해 캡처된 오디오 데이터의 전송을 시작하는 것을 포함한다. 그러한 구현들 중 일부 버전들에서, 상기 방법은, 상기 사용자의 입의 움직임에 시간적으로 대응하는 특정 오디오 데이터의 음성 활동 분석을 수행하는 단계 - 상기 특정 오디오 데이터는 상기 오디오 데이터에 포함되거나 오디오 데이터에 선행하며 - 와; 그리고 상기 사용자의 입 움직임에 시간적으로 대응하는 상기 특정 오디오 데이터의 음성 활동 분석에 기초하여 음성 활동의 발생을 결정하는 단계를 포함한다. 그러한 버전들에서, 상기 오디오 데이터의 전송을 시작하는 것은, 또한, 음성 활동의 발생을 결정하는 것에 응답하고 그리고 상기 사용자의 입 움직임에 시간적으로 대응하는 오디오 데이터에 대한 상기 음성 활동의 발생을 기초로 한다.

상기 사용자의 시선 및 상기 사용자의 입의 움직임 모두의 발생을 검출하는 것에 응답하여 상기 클라이언트 디바이스에 의해 오디오 데이터 처리를 조정하는 일부 경우들에서, 상기 오디오 데이터 처리를 조정하는 것은: 하나 이상의 이미지 프레임들에 기초하여 상기 클라이언트 디바이스에 대한 상기 사용자의 위치를 결정하는 단계와; 그리고 상기 클라이언트 디바이스의 하나 이상의 마이크로폰들을 통해 캡처된 오디오 데이터를 처리할 때 상기 사용자의 위치를 사용하는 단계를 포함한다. 그러한 구현들 중 일부 버전들에서, 상기 클라이언트 디바이스의 하나 이상의 마이크로폰들을 통해 캡처된 오디오 데이터를 처리할 때 상기 사용자의 위치를 사용하는 단계는, 상기 사용자의 음성 발화에 대응하는 상기 오디오 데이터의 부분들을 분리하는 위치를 사용하는 단계를 포함한다. 그러한 구현들의 일부 추가 또는 대안의 버전들에서, 상기 클라이언트 디바이스의 하나 이상의 마이크로폰을 통해 캡처된 오디오 데이터를 처리할 때 상기 사용자의 위치를 사용하는 단계는, 상기 오디오 데이터로부터 배경 소음을 제거하는 위치를 사용하는 단계를 포함한다.

일부 구현들에서, 상기 사용자의 시선 및 상기 사용자의 입의 움직임 모두의 발생을 모니터링하기 위해, 상기 클라이언트 디바이스에 국부적으로 저장된 적어도 하나의 훈련된 기계 학습 모델을 사용하여 상기 스트림의 이미지 프레임들을 처리하는 단계는; 상기 사용자의 시선 발생을 모니터링하기 위해 제1 훈련된 기계 학습 모델을 사용하는 단계와; 그리고 상기 사용자의 입의 움직임을 모니터링하기 위해 제2 훈련된 기계 학습 모델을 사용하는 단계를 포함한다.

일부 구현들에서, 상기 방법은: 존재 센서로부터의 신호에 기초하여, 인간이 상기 클라이언트 디바이스의 환경에 존재한다는 것을 검출하는 단계와; 그리고 상기 인간이 상기 클라이언트 디바이스의 환경에 존재한다는 것을 검출하는 것에 응답하여 상기 하나 이상의 카메라들이 상기 이미지 프레임들의 스트림을 제공하도록 하는 단계를 더 포함한다.

일부 구현들에서, 클라이언트 디바이스가 제공되고, 상기 클라이언트 디바이스는 적어도 하나의 비전 컴포넌트와; 적어도 하나의 마이크로폰과; 하나 이상의 프로세서들과; 그리고 상기 하나 이상의 프로세서들과 작동 가능하게 결합된 메모리를 포함한다. 상기 메모리는, 상기 하나 이상의 프로세서들에 의한 명령어들의 실행에 응답하여 상기 하나 이상의 프로세서들이 동작들을 수행하도록 하는 명령어들을 저장하고, 상기 동작들은: 상기 클라이언트 디바이스의 비전 컴포넌트로부터의 출력에 기초한 비전 데이터의 스트림을 수신하는 단계와; 상기 클라이언트 디바이스의 비전 컴포넌트를 향한 사용자의 시선 및 상기 사용자의 입의 움직임 모두의 발생을 모니터링하기 위해, 상기 클라이언트 디바이스에 국부적으로 저장된 적어도 하나의 훈련된 기계 학습 모델을 사용하여 상기 스트림의 비전 데이터를 처리하는 단계와; 상기 모니터링에 기초하여, 상기 사용자의 시선 및 상기 사용자의 입의 움직임 모두의 발생을 검출하는 단계와; 그리고 상기 사용자의 시선 및 상기 사용자의 입의 움직임 모두의 발생을 검출하는 것에 응답하여, 상기 클라이언트 디바이스의 사용자 인터페이스 출력의 렌더링을 조정하는 단계를 포함한다.

일부 구현들에서, 시스템이 제공되고, 상기 시스템은 적어도 하나의 비전 컴포넌트와; 하나 이상의 마이크로폰들과; 그리고 상기 비전 컴포넌트의 출력을 기반으로 하는 비전 데이터의 스트림을 수신하는 하나 이상의 프로세서들을 포함한다. 상기 하나 이상의 프로세서들은: 상기 비전 컴포넌트를 향한 사용자의 시선 및 상기 사용자의 입의 움직임 모두의 발생을 모니터링하기 위해, 적어도 하나의 훈련된 기계 학습 모델을 사용하여 상기 스트림의 이미지 프레임들을 처리하고; 상기 모니터링에 기초하여, 상기 사용자의 시선 및 상기 사용자의 입의 움직임 모두의 발생을 검출하고; 그리고 상기 사용자의 시선 및 상기 사용자의 입의 움직임 모두의 발생을 검출하는 것에 응답하여, 상기 클라이언트 디바이스의 사용자 인터페이스 출력의 렌더링을 조정하는 것 및 상기 클라이언트 디바이스에 의해 오디오 데이터 처리를 조정하는 것 모두를 수행하도록 구성된다.

추가로, 일부 구현들은 하나 이상의 컴퓨팅 디바이스들의 하나 이상의 프로세서들을 포함하고, 상기 하나 이상의 프로세서들은 연관된 메모리에 저장된 명령어들을 실행하도록 동작할 수 있으며, 상기 명령어들은 전술한 방법들 중 임의의 것을 수행하도록 구성된다. 일부 구현들은 또한 전술한 방법들 중 임의의 것을 수행하기 위해 하나 이상의 프로세서들에 의해 실행 가능한 컴퓨터 명령어들을 저장하는 하나 이상의 비 일시적인 컴퓨터 판독 가능 저장 매체를 포함한다.

전술한 개념들 및 본 명세서에 더 상세히 설명된 추가 개념들의 모든 조합들은 본 명세서에 개시된 주제의 일부인 것으로 고려된다는 것을 이해해야 한다. 예를 들어, 본 발명의 끝에 나타나는 청구된 주제의 모든 조합들은 여기에 개시된 주제의 일부인 것으로 고려된다.

도 1은 본 명세서에서 개시된 구현들이 실행될 수 있는 예시적인 환경의 블록도이다.
도 2a 및 도 2b는 다양한 구현들에 따라 본 발명의 다양한 양태들을 나타내는 예시적인 프로세스 흐름들을 도시한다.
도 3은 지향된 시선 및 말하기를 제공하는 (이를 통해 임을 움직이게 하는) 어시스턴트 디바이스 및 사용자의 예를 도시하고, 그리고 사용자가 지시된 시선 및 말하기를 제공할 때 어시스턴트 디바이스의 카메라에 의해 캡처된 이미지를 또한 도시한다.
도 4a는 본 명세서에 개시된 구현들에 따른 예시적인 방법을 나타내는 흐름도를 도시한다.
도 4b, 도 4c, 도 4d 및 도 4e는 각각 도 4a의 예시적인 방법의 특정 블록들의 특정 예를 나타내는 흐름도를 도시한다.
도 5는 컴퓨팅 디바이스의 예시적인 아키텍처를 도시한다.

도 1은 본 명세서에 개시된 기술들이 구현될 수 있는 예시적인 환경을 도시한다. 예시적인 환경은 하나 이상의 클라이언트 컴퓨팅 디바이스들(106)을 포함한다. 각각의 클라이언트 디바이스(106)는 자동화된 어시스턴트 클라이언트(110)의 각각의 인스턴스를 실행할 수 있다. 하나 이상의 클라우드 기반 자동화된 어시스턴트 컴포넌트들(130)은, 일반적으로 114로 표시된 하나 이상의 로컬 및/또는 광역 네트워크들(예를 들어, 인터넷)을 통해 클라이언트 디바이스들(106)에 통신적으로 결합되는 하나 이상의 컴퓨팅 디바이스들(총칭하여 "클라우드" 컴퓨팅 시스템으로 언급됨)에서 구현될 수 있다. 클라우드 기반 자동화된 어시스턴트 컴포넌트들(130)은 예를 들어 고성능 서버들의 클러스터를 통해 구현될 수 있다.

다양한 구현들에서, 자동화된 어시스턴트 클라이언트(110)의 인스턴스는, 하나 이상의 클라우드 기반 자동화된 어시스턴트 컴포넌트들(130)과의 상호작용들을 통해, 사용자의 관점에서, 사용자가 인간-대-컴퓨터 상호작용들(예를 들어, 음성 상호작용들, 제스처-기반 상호작용들 및/또는 터치-기반 상호작용들)에 참여할 수 있는 자동화된 어시스턴트(120)의 논리적 인스턴스인 것처럼 보일 수 있다. 그러한 자동화된 어시스턴트(120)의 하나의 인스턴스가 도 1에 점선으로 도시되어 있다. 따라서, 클라이언트 디바이스(106) 상에서 실행되는 자동화된 어시스턴트 클라이언트(110)와 참여하는 각 사용자는 사실상 자신의 자동화된 어시스턴트(120)의 논리적 인스턴스와 참여할 수 있다는 것을 이해해야 한다. 간결함과 단순함을 위해, 본 명세서에서 특정 사용자를 "서비스하는" 것으로 사용되는 용어 "자동화된 어시스턴트"는, 사용자에 의해 작동되는 클라이언트 디바이스(106) 상에서 실행되는 자동화된 어시스턴트와 선택적으로 하나 이상의 클라우드 기반 자동화된 어시스턴트 컴포넌트들(130)(다수의 자동화된 어시스턴트 클라이언트들(110) 사이에서 공유될 수 있음)의 조합을 언급할 수 있다. 또한, 일부 구현들에서, 사용자가 자동화된 어시스턴트(120)의 특정 인스턴스에 의해 실제로 "서비스"를 받는지에 관계없이, 자동화된 어시스턴트(120)는 임의의 사용자로부터의 요청에 응답할 수 있다는 것을 이해해야 한다.

하나 이상의 클라이언트 디바이스들(106)은, 예를 들어, 데스크톱 컴퓨팅 디바이스, 랩톱 컴퓨팅 디바이스, 태블릿 컴퓨팅 디바이스, 휴대폰 컴퓨팅 디바이스, 사용자 차량의 컴퓨팅 디바이스(예를 들어, 차량 내 통신 시스템, 차량 내 엔터테인먼트 시스템, 차량 내 내비게이션 시스템), 독립형 대화형 스피커(일부 경우 비전 센서를 포함할 수 있음), 스마트 TV (또는 자동화된 보조 기능이 있는 네트워크 동글이 장착된 표준 TV)와 같은 스마트 기기, 및/또는 컴퓨팅 디바이스를 포함하는 사용자의 웨어러블 장치(예를 들어, 컴퓨팅 디바이스를 갖는 사용자의 시계, 컴퓨팅 디바이스를 갖는 사용자의 안경, 가상 또는 증강 현실 컴퓨팅 디바이스) 중 하나 이상을 포함할 수 있다. 추가 및/또는 대체 클라이언트 컴퓨팅 디바이스들이 제공될 수 있다. 앞서 언급한 바와 같이, 일부 클라이언트 디바이스들(106)은 주로 사용자들과 자동화된 어시스턴트(120)(예를 들어, 스피커(들) 및 디스플레이를 갖는 독립형 상호 작용 디바이스) 사이의 상호 작용들을 용이하게 하도록 설계된 어시스턴트 디바이스들의 형태를 취할 수 있다.

클라이언트 디바이스(106)는 하나 이상의 시야를 갖는 하나 이상의 비전 컴포넌트들(107)을 구비할 수 있다. 비전 컴포넌트(들)(107)는 모노 그래픽 카메라들, 입체 카메라들, LIDAR 컴포넌트, 레이더 컴포넌트 등과 같은 다양한 형태를 취할 수 있다. 하나 이상의 비전 컴포넌트들(107)은 클라이언트 디바이스(106)가 배치되는 환경의 비전 프레임들(예를 들어, 이미지 프레임들(정지 이미지들 또는 비디오))을 캡처하기 위해, 예를 들어 시각적 캡처 모듈(114)에 의해 사용될 수 있다. 이러한 비전 프레임들은, 이후, 비전 프레임들에 의해 캡처된 사용자의 입 움직임(예를 들어, 사용자가 말하는 것을 나타내는 입의 움직임) 및/또는 사용자로부터 지향된 시선(클라이언트 디바이스(106) 쪽으로 향하는 시선)의 발생을 모니터링하기 위해 적어도 선택적으로 분석될 수 있다. 시선 및 입 모듈(116)은 입 움직임및/또는 지향된 시선의 발생을 모니터링하는데 하나 이상의 훈련된 기계 학습 모델들(117)을 이용할 수 있다.

입 움직임 및 지향된 시선의 검출에 응답하여(그리고 선택적으로 다른 조건 모듈(118)에 의한 하나 이상의 다른 조건(들)의 검출에 응답하여), 적응 엔진(115)은 자동화된 어시스턴트 클라이언트(110)의 양태들 및/또는 클라우드 기반 자동화된 어시스턴트 컴포넌트(들)(130)의 양태들과 같은 자동화된 어시스턴트(120)의 하나 이상의 양태들을 적응시킬 수 있다. 이러한 적응은, 예를 들어, 클라이언트 디바이스(106)에 의해 렌더링되고 자동화된 어시스턴트 클라이언트(110)에 의해 제어되는 사용자 인터페이스 출력(예를 들어, 청각 및/또는 시각)의 적응을 포함할 수 있다. 이러한 적응은, 추가적으로 또는 대안적으로, 예를 들어, 클라이언트 디바이스(106)에 의한(예를 들어, 자동화된 어시스턴트 클라이언트의 하나 이상의 컴포넌트들에 의한) 및/또는 하나 이상의 클라우드 기반 자동화된 어시스턴트 컴포넌트(들)(130)에 의한 센서 데이터 처리의 적응을 포함할 수 있다.

센서 데이터 처리를 적용하는 비 제한적인 예로서, 입의 움직임과 지향된 시선을 검출하기 전에, 클라이언트 디바이스(106)에서 캡처된 비전 데이터 및/또는 오디오 데이터는 클라이언트 디바이스(106)에서만 국부적으로 처리될 수 있고 그리고/또는 일시적으로 버퍼링될 수 있다(즉, 클라우드 기반 자동화된 어시스턴트 컴포넌트(들)(130)로의 전송없이). 하지만, 입의 움직임과 지향된 시선의 검출에 응답하여, 이러한 처리는 추가 처리를 위해 오디오 데이터 및/또는 비전 데이터(예를 들어, 최근에 버퍼링된 데이터 및/또는 검출 후에 수신된 데이터)를 클라우드 기반 자동화된 어시스턴트 컴포넌트(들)(130)로 전송함으로써 적응될 수 있다. 예를 들어, 입의 움직임 및 지향된 시선의 검출은, 사용자의 음성 발화가 자동화된 어시스턴트(120)에 의해 전적으로 처리되고 그리고 응답형 콘텐츠가 자동화된 어시스턴트(120)에 의해 생성되고 사용자에게 렌더링되도록 사용자가 명시적인 호출 문구(예를 들어, "오케이 어시스턴트(OK Assistant))를 말할 필요를 없앨 수 있다.

예를 들어, 사용자가 오늘의 기상 예보를 얻기 위해 "오케이 어시스턴트, 오늘의 기상 예보는 어때(OK Assistant, what's today's forecast)"라고 말하는 대신, 사용자는 클라이언트 디바이스(106)를 보고, 그리고 클라이언트 디바이스(106)를 보는 동안이거나 보기 전후(예를 들어, 보기 전 및/또는 후의 시간적 임계값 내에서)에 "오늘의 기상 예보는 어때"라고만 말할 수 있다. 음성 발화 "오늘의 기상 예보는 어때"에 대응하는 데이터(예를 들어, 음성 발화를 캡처하는 오디오 데이터 또는 오디오 데이터의 텍스트 또는 다른 의미 변환)는, 입의 움직임("오늘의 기상 예보는 어때"의 전부 또는 일부를 말함으로써 발생함) 및 지향된 시선을 검출하는 것에 응답하여, 그리고 입의 움직임 및 지향된 시선 동안 및/또는 입의 움직임 및 지향된 시선의 전후에 수신되는 음성 발화에 응답하여 클라이언트 디바이스(106)에 의해 클라우드 기반 자동화된 어시스턴트 컴포넌트(들)로 전송될 수 있다.

또 다른 예에서, 사용자가 연결된 온도 조절기를 통해 자신의 집의 온도를 높이기 위해 "오케이 어시스턴트, 온도를 올려(OK Assistant, turn up the heat)"라고 말하는 대신, 사용자는 클라이언트 디바이스(106)를 보고, 클라이언트 디바이스(106)를 보는 동안 또는 디바이스(106)를 보기 전후(예를 들어, 보기 전 및/또는 후의 시간 임계값 내에서) "온도를 올려"를 단지 말할 수 있다. 음성 발화 "온도를 올려"에 대응하는 데이터(예를 들어, 음성 발화를 캡처하는 오디오 데이터 또는 오디오 데이터의 텍스트 또는 다른 의미 변환)는, 입의 움직임("온도를 올려"의 전부 또는 일부를 말함으로써 발생함) 및 지향된 시선을 검출하는 것에 응답하여, 그리고 입의 움직임 및 지향된 시선 동안 및/또는 입의 움직임 및 지향된 시선의 전후에 수신되는 음성 발화에 응답하여 클라이언트 디바이스(106)에 의해 클라우드 기반 자동화된 어시스턴트 컴포넌트(들)로 전송될 수 있다.

또 다른 예에서, 사용자가 자신의 차고를 열기 위해 "오케이 어시스턴트, 차고 문을 열어(OK Assistant, open the garage door)"라고 말하는 대신, 사용자는 클라이언트 디바이스(106)를 보고, 클라이언트 디바이스(106)를 보는 동안 또는 디바이스(106)를 보기 전후(예를 들어, 보기 전 및/또는 후의 시간 임계값 내에서) "차고 문을 열어"를 단지 말할 수 있다. 음성 발화 "차고 문을 열어"에 대응하는 데이터(예를 들어, 음성 발화를 캡처하는 오디오 데이터 또는 오디오 데이터의 텍스트 또는 다른 의미 변환)는, 입의 움직임("차고 문을 열어"의 전부 또는 일부를 말함으로써 발생함) 및 지향된 시선을 검출하는 것에 응답하여, 그리고 입의 움직임 및 지향된 시선 동안 및/또는 입의 움직임 및 지향된 시선의 전후에 수신되는 음성 발화에 응답하여 클라이언트 디바이스(106)에 의해 클라우드 기반 자동화된 어시스턴트 컴포넌트(들)로 전송될 수 있다.

일부 구현들에서, 클라이언트 디바이스(106)에 의한 데이터의 전송은 하나 이상의 추가 조건들의 발생을 결정하는 다른 조건 모듈(118)에 더 의존할 수 있다. 예를 들어, 데이터의 전송은 음성 활동이 오디오 데이터에 존재함을 나타내는 다른 조건 모듈(118)에 의해 수행되는 오디오 데이터의 로컬 음성 활동 검출 처리에 더 기초할 수 있다. 또한, 예를 들어, 데이터의 전송은, 추가적으로 또는 대안적으로, 오디오 데이터가 제스처 및 지향된 시선을 제공한 사용자에 대응한다는, 다른 조건 모듈(118)에 의한 결정에 더 기초할 수 있다. 예를 들어, (클라이언트 디바이스(106)에 대한) 사용자의 방향은 비전 데이터에 기초하여 결정될 수 있고, 그리고 데이터의 전송은, 오디오 데이터의 음성 발화가 (예를 들어, 빔포밍 및/또는 기타 기술들을 사용하여) 동일한 방향에서 나온다는 다른 조건 모듈(118)에 의한 결정에 더 기초할 수 있다. 또한, 예를 들어, 사용자의 사용자 프로필은 (예를 들어, 안면 인식 사용하여) 비전 데이터에 기초하여 결정될 수 있고 그리고 데이터의 전송은 오디오 데이터의 음성 발화가 사용자 프로파일과 매칭하는 음성 특성들을 갖는다는, 다른 조건 모듈(118)에 의한 결정에 더 기초할 수 있다. 다른 예로서, 데이터의 전송은 추가적으로 또는 대안적으로, 사용자의 제스처(예를 들어, 하나 이상의 후보 호출 제스처들 중 임의의 것)가 사용자의 입 움직임 및/또는 지향된 시선과 함께 발생했거나 또는 검출된 입 움직임 및/또는 지향된 시선의 임계 시간 양과 함께 발생했다는, 비전 데이터에 기초한 다른 조건 모듈(118)에 의한 결정에 추가로 기초할 수 있다. 다른 조건 모듈(118)은, 다른 조건(들)이 존재한다고 결정함에 있어 하나 이상의 다른 기계 학습 모델들(119)을 선택적으로 이용할 수 있다. 시선 및 입 모듈(116) 및 다른 조건 모듈(118)의 구현들의 추가 서술이 여기에서 제공된다(예를 들어, 도 2a 내지 도 2b 참조). 또한, 검출된 입 움직임 및/또는 시선에 기초하여 자동화된 어시스턴트를 적응시키는 구현들의 추가 서술이 여기에서 제공된다(예를 들어, 도 4b 내지 4d 참조).

클라이언트 컴퓨팅 디바이스(106) 및 클라우드 기반 자동화된 어시스턴트 컴포넌트들(130)을 운영하는 컴퓨팅 디바이스(들) 각각은, 데이터 및 소프트웨어 애플리케이션들의 저장을 위한 하나 이상의 메모리들, 데이터에 액세스하고 애플리케이션들을 실행하는 하나 이상의 프로세서들, 및 네트워크를 통한 통신을 용이하게 하는 기타 컴포넌트들을 포함할 수 있다. 클라이언트 컴퓨팅 디바이스(106) 및/또는 자동화된 어시스턴트(120)에 의해 수행되는 동작들은 다수의 컴퓨터 시스템들에 분산될 수 있다. 자동화된 어시스턴트(120)는, 예를 들어, 네트워크를 통해 서로 연결된 하나 이상의 위치들에 있는 하나 이상의 컴퓨터들에서 실행되는 컴퓨터 프로그램들로서 구현될 수 있다.

전술한 바와 같이, 다양한 구현들에서, 클라이언트 컴퓨팅 디바이스(106)는 자동화된 어시스턴트 클라이언트(110)를 동작시킬 수 있다. 이러한 다양한 구현들 중 일부에서, 자동화된 어시스턴트 클라이언트(110)는 음성 캡처 모듈(112), 전술 한 시각적 캡처 모듈(114), 및 시선 및 입 모듈(116) 및 선택적으로 다른 조건 모듈(118)을 포함할 수 있는 적응 엔진(115)을 포함할 수 있다. 다른 구현들에서, 음성 캡처 모듈(112), 시각적 캡처 모듈(114), 및/또는 적응 엔진(115)의 하나 이상의 양태들은, 예를 들어, 하나 이상의 클라우드 기반 자동화된 어시스턴트 컴포넌트들(130)에 의해 자동화된 어시스턴트 클라이언트(110)와 별도로 구현될 수 있다.

다양한 구현들에서, 하드웨어 및 소프트웨어의 임의의 조합을 사용하여 구현될 수 있는 음성 캡처 모듈(112)는, 사용자의 발화(들)의 오디오 녹음을 캡처하기 위해 마이크로폰(들)(109) 또는 다른 압력 센서와 같은 하드웨어와 인터페이스할 수 있다. 아래에서 설명하는 바와 같이, 다양한 목적을 위해 이 오디오 녹음에 대해 다양한 유형들의 처리가 수행될 수 있다. 다양한 구현들에서, 하드웨어 또는 소프트웨어의 임의의 조합을 사용하여 구현될 수 있는 시각적 캡처 모듈(114)은, 비전 센서(107)의 선택적으로 적응가능한 시야에 대응하는 하나 이상의 비전 프레임들(예를 들어, 디지털 이미지들)을 캡처하기 위해 시각적 컴포넌트(107)와 인터페이스하도록 구성될 수 있다.

음성 캡처 모듈(112)은, 앞서 언급한 바와 같이, 예를 들어, 마이크로폰(들)(109)을 통해 사용자의 음성을 캡처하도록 구성될 수 있다. 추가적으로 또는 대안적으로, 일부 구현들에서, 음성 캡처 모듈(112)은 캡처된 오디오를 텍스트 및/또는 다른 표현들 또는 임베딩들로, 예를 들어, 음성-텍스트("STT") 처리 기술들을 사용하여 변환하도록 추가로 구성될 수 있다. 그러나, 클라이언트 디바이스(106)는 컴퓨팅 리소스들(예를 들어, 프로세서 사이클들, 메모리, 배터리 등) 측면에서 상대적으로 제한될 수 있기 때문에, 클라이언트 디바이스(106)에 국한된 음성 캡처 모듈(112)은 자동화된 어시스턴트(120)를 호출하는 문구들과 같은 한정된 수의 상이한 음성 문구들을 텍스트(또는 저차원 임베딩들과 같은 다른 형태들)로 변환하도록 구성될 수 있다. 다른 음성 입력은 클라우드 기반 STT 모듈(132)을 포함할 수 있는 클라우드 기반 자동 어시스턴트 컴포넌트들(130)로 전송될 수 있다.

클라우드 기반 TTS 모듈(131)은 텍스트 데이터(예를 들어, 자동화된 어시스턴트(120)에 의해 공식화된 자연어 응답들)를 컴퓨터로 생성된 음성 출력으로 변환하기 위해 클라우드의 사실상 무한한 리소스들을 활용하도록 구성될 수 있다. 일부 구현들에서, TTS 모듈(131)은 컴퓨터로 생성된 음성 출력을 클라이언트 디바이스(106)에 제공하여, 예를 들어, 하나 이상의 스피커들을 사용하여 직접 출력할 수 있다. 다른 구현들에서, 자동화된 어시스턴트(120)에 의해 생성된 텍스트 데이터(예를 들어, 자연어 응답들)는 클라이언트 디바이스(106)에 제공될 수 있고, 이후, 클라이언트 디바이스(106)의 로컬 TTS 모듈은 텍스트 데이터를 로컬로 출력되는 컴퓨터로 생성되는 음성으로 변환할 수 있다.

클라우드 기반 STT 모듈(132)은 클라우드의 사실상 무한한 리소스들을 활용하여 음성 캡처 모듈(112)에 의해 캡처된 오디오 데이터를 텍스트로 변환하도록 구성될 수 있으며, 이는 자연어 이해 모듈(135)에 제공될 수 있다. 일부 구현들에서, 클라우드 기반 STT 모듈(132)은 음성의 오디오 녹음을 하나 이상의 음소로 변환 한 다음, 하나 이상의 음소를 텍스트로 변환할 수 있다. 추가적으로 또는 대안적으로, 일부 구현들에서, STT 모듈(132)은 상태 디코딩 그래프를 이용할 수 있다. 일부 구현들에서, STT 모듈(132)은 사용자의 발화에 대한 복수의 후보 텍스트 해석들을 생성할 수 있고, 후보들로부터 주어진 해석을 선택하기 위해 하나 이상의 기술들을 이용할 수 있다.

자동화된 어시스턴트(120)(특히, 클라우드 기반 자동화된 어시스턴트 컴포넌트들(130))는 의도 이해 모듈(135), 전술한 TTS 모듈(131), 전술한 STT 모듈(132), 및 여기에서 더 자세히 설명되는 다른 컴포넌트들을 포함할 수 있다. 일부 구현들에서, 자동화된 어시스턴트(120)의 모듈 및/또는 모듈들 중 하나 이상이 생략, 결합 및/또는 자동화된 어시스턴트(120)와는 별개인 컴포넌트에서 구현될 수 있다. 일부 구현들에서, 의도 이해 모듈(135), TTS 모듈(131), STT 모듈(132) 등과 같은 자동화된 어시스턴트(120)의 컴포넌트들 중 하나 이상은 클라이언트 디바이스(106)에서 적어도 부분적으로 구현될 수 있다(예를 들어, 클라우드 기반 구현과 결합하거나 제외).

일부 구현들에서, 자동화된 어시스턴트(120)는 클라이언트 디바이스(106)를 통해 사용자에게 오디오가능 및/또는 그래픽 렌더링을 위한 다양한 콘텐츠를 생성한다. 예를 들어, 자동화된 어시스턴트(120)는 일기 예보, 일일 일정 등과 같은 콘텐츠를 생성할 수 있고, 여기에 서술된 바와 같이 사용자로부터의 입 움직임 및/또는 지향된 시선을 검출하는 것에 응답하여 콘텐츠가 렌더링되도록 할 수 있다. 또한, 예를 들어, 자동화된 어시스턴트(120)는 클라이언트 디바이스(106)를 통해 제공된 사용자의 자유 형식 자연어 입력에 응답하여, 클라이언트 디바이스 등의 시각적 컴포넌트(107)로부터 비전 데이터를 통해 검출된 사용자의 제스처들에 응답하여 콘텐츠를 생성할 수 있다. 여기에서 사용되는 바와 같이, 자유 형식 입력은 사용자에 의해 공식화되고 사용자가 선택하기 위해 제시된 옵션들의 그룹에 제한되지 않는 입력이다. 자유 형식 입력은, 예를 들어, 타이핑된 입력 및/또는 음성 입력일 수 있다.

의도 이해 모듈(135)의 자연어 프로세서(133)는 클라이언트 디바이스(106)를 통해 사용자(들)에 의해 생성된 자연어 입력을 처리하고 자동화된 어시스턴트(120)의 하나 이상의 다른 컴포넌트들에 의해 사용하기 위해 주석이 달린 출력(예를 들어, 텍스트 형태)을 생성할 수 있다. 예를 들어, 자연어 프로세서(133)는 클라이언트 디바이스(106)의 하나 이상의 사용자 인터페이스 입력 디바이스들을 통해 사용자에 의해 생성되는 자연어 자유 형식 입력을 처리할 수 있다. 생성된 주석이 달린 출력은 자연어 입력의 하나 이상의 주석과 자연어 입력의 용어 중 하나 이상(예를 들어, 모두)을 포함한다.

일부 구현들에서, 자연어 프로세서(133)는 자연어 입력에서 다양한 유형들의 문법 정보를 식별하고 주석을 달도록 구성된다. 예를 들어, 자연어 처리기(133)는 개별 단어들을 형태소들로 분리하고 그리고/또는 형태소들에, 예를 들어, 그들의 클래스들에 주석을 달 수 있는 형태소 모듈을 포함할 수 있다. 자연어 처리기(133)는 또한 그들의 문법적 역할들과 함께 용어들에 주석을 달도록 구성된 음성 태거의 일부를 포함할 수 있다. 또한, 예를 들어, 일부 구현에서 자연어 프로세서(133)는 자연어 입력에서 용어들 사이의 구문 관계들을 결정하도록 구성된 종속성 파서(도시되지 않음)를 추가적으로 및/또는 대안적으로 포함할 수 있다.

일부 구현들에서, 자연어 프로세서(133)는, 인간에 대한 언급(예를 들어, 문학 인물, 유명인, 공인 등), 조직, 위치들(실제 및 가상) 등과 같은 하나 이상의 세그먼트들에서 엔티티 참조들에 주석을 달도록 구성된 엔티티 태거(도시되지 않음)를 추가적으로 및/ 또는 대안적으로 포함할 수 있다. 일부 구현들에서, 엔티티들에 관한 데이터는, 지식 그래프(도시되지 않음)와 같은 하나 이상의 데이터베이스들에 저장될 수 있고, 자연어 프로세서(133)의 엔티티 태거는 엔티티 태깅에서 이러한 데이터베이스(들)를 이용할 수 있다.

일부 구현들에서, 자연어 프로세서(133)는 추가적으로 및/또는 대안적으로 하나 이상의 컨텍스트 큐들에 기초하여 동일한 엔티티에 대한 참조들을 그룹화하거나 "클러스터"하도록 구성된 상호 참조 해석기(도시되지 않음)를 포함할 수 있다. 예를 들어, 상호 참조 해석기는 자연어 입력 "저번에 그곳에서 먹었을 때 가상 카페를 좋아했다(I liked Hypothetical Cafe last time we ate there)."에서 "거기"라는 용어를 "가상 카페"로 해석하는데 활용될 수 있다.

일부 구현들에서, 자연어 프로세서(133)의 하나 이상의 컴포넌트들은 자연어 프로세서(133)의 하나 이상의 다른 컴포넌트들로부터의 주석들에 의존할 수 있다. 예를 들어, 일부 구현들에서, 명명된 엔터티 태거는 특정 엔터티에 대한 모든 멘션들에 주석을 달 때 상호 참조 해석기 및/또는 종속성 파서의 주석들에 의존할 수 있다. 또한, 예를 들어, 일부 구현들에서 상호 참조 해석기는 동일한 엔티티에 대한 참조 클러스터링에서 종속성 파서의 주석에 의존할 수 있다. 일부 구현들에서, 특정 자연어 입력을 처리할 때, 자연어 프로세서(133)의 하나 이상의 컴포넌트들은 하나 이상의 주석들을 결정하기 위해 특정 자연어 입력 외부의 관련된 이전 입력 및/또는 다른 관련l된 데이터를 사용할 수 있다.

의도 이해 모듈(135)은 또한 자동화된 어시스턴트(120)와의 상호 작용에 참여한 사용자의 의도를 결정하도록 구성된 의도 매칭기(134)를 포함할 수 있다. 도 1에서 자연어 프로세서(133)와는 별도로 도시되었지만, 다른 구현들에서, 의도 매칭기(134)는 자연어 프로세서(133)(또는 더 일반적으로 자연어 프로세서(133)를 포함하는 파이프 라인의 통합 부분)일 수 있다. 일부 구현들에서, 자연어 프로세서(133) 및 의도 매칭기(134)는 전술한 의도 이해 모듈(135)을 집합적으로 형성할 수 있다.

의도 매칭기(134)는, 예를 들어, (자연어 입력의 주석들 및 용어들을 포함할 수 있는) 자연어 프로세서(133)로부터의 출력에 기초하여, 클라이언트 디바이스(106)의 터치 감지 디스플레이에서의 사용자 터치 입력에 기초하고, 그리고/또는 비전 데이터에서 감지된 제스처들 및/또는 기타 시각적 큐들에 기초하여 사용자의 의도를 결정하기 위해 다양한 기술들을 사용할 수 있다. 일부 구현들에서, 의도 매칭기(134)는, 예를 들어, 문법과 반응형 동작들(또는 보다 일반적으로 의도들) 간의, 시각적 큐들과 반응형 동작들 간의, 및/또는 터치 입력들과 반응형 동작들 간의 복수의 맵핑들을 포함한다. 예를 들어, 맵핑들에 포함된 문법들은 시간이 지남에 따라 선택 및/또는 학습될 수 있으며, 그리고 사용자들의 공통 의도들을 나타낼 수 있다. 예를 들어, 하나의 문법, "재생 <아티스트>"는 <아티스트>에 의한 음악이 사용자에 의해 작동되는 클라이언트 디바이스(106)에서 재생되게 하는 반응 적 동작을 호출하는 의도에 매핑될 수 있다. 또 다른 문법인 "[날씨|기상 예보] 오늘"은 "오늘 날씨는 어때" 및 "오늘의 기상 예보는 어때?"와 같은 사용자 질의들과 일치할 수 있다. 다른 예로서, 시각적 큐-동작 맵핑들은 여러 사용자들(예를 들어, 모든 사용자들) 및/또는 사용자 특정 맵핑들에 적용할 수 있는 "일반" 맵핑들을 포함할 수 있다. 동작 맵핑들에 대한 시각적 큐의 몇 가지 예들에는 제스처들에 대한 맵핑들이 포함된다. 예를 들어, "웨이브" 제스처는 맞춤형 콘텐츠(제스처를 제공하는 사용자에 맞게 조정됨)가 사용자에게 렌더링되도록 하는 동작에 맵핑될 수 있고, "좋아요" 제스처는 "음악 재생" 동작에 맵핑될 수 있고, 그리고 "하이 파이브" 제스처는 스마트 커피 메이커 켜기, 특정 스마트 조명 켜기 및 뉴스 요약을 청각적으로 렌더링하는 것과 같이 수행될 자동화된 어시스턴트 동작의 "루틴"에 맵핑될 수 있다.

문법들에 추가하여 또는 대신에, 일부 구현들에서, 의도 매칭기(134)는 단독으로 또는 하나 이상의 문법들, 시각적 큐들 및/또는 터치 입력들과 조합하여 하나 이상의 훈련된 기계 학습 모델들을 사용할 수 있다. 이러한 훈련된 기계 학습 모델들은, 예를 들어, 사용자의 발화 및/또는 감지된 사용자 제공 시각적 큐들을 나타내는 데이터를 축소된 차원 공간에 임베딩하고, 그리고 그런 다음 유클리드 거리, 코사인 유사성 등과 같은 기술을 사용하여 어떤 다른 임베딩들(및 그에 따른 의도들)이 가장 근접한지 결정함으로써 하나 이상의 데이터베이스에 저장될 수 있으며 의도들을 식별하도록 훈련 될 수 있다.

위의 "재생 <아티스트>" 문법 예에서 볼 수 있듯이, 일부 문법들에는 슬롯 값들(또는 "파라미터들")으로 채울 수 있는 슬롯들(예를 들어, <아티스트>)이 있다. 슬롯 값들은 다양한 방식으로 결정될 수 있다. 종종 사용자들은 사전에 슬롯 값들을 제공한다. 예를 들어 "<토핑> 피자 주문 해줘(Order me a <topping> pizza)"라는 문법의 경우 사용자는 "소시지 피자 주문 해줘(order me a sausage pizza)"라는 문구를 말할 수 있고 이 경우 슬롯 <토핑>이 자동으로 채워진다. 추가적으로 또는 대안적으로, 사용자가 슬롯 값으로 채워질 슬롯들을 포함하는 문법을 호출하는 경우, 사용자가 사전에 슬롯 값들을 제공하지 않고, 자동화된 어시스턴트(120)는 사용자로부터 이러한 슬롯 값들을 요청할 수 있다(예를 들어, "피자에 어떤 종류의 크러스트를 원하십니까(what type of crust do you want on your pizza)?"). 일부 구현들에서, 슬롯들은 비전 컴포넌트(107)에 의해 캡처된 비전 데이터에 기초하여 검출된 시각적 큐들에 기초한 슬롯 값들로 채워질 수 있다. 예를 들어, 사용자는 클라이언트 디바이스(106)의 시각적 컴포넌트(107)에 손가락 세 개를 들고 "이 많은 고양이 그릇들을 주문해줘(Order me this many cat bowls)"과 같은 말을 할 수 있다. 또는, 사용자가 특정 영화의 DVD 케이스를 들고 "이와 같은 영화 더 찾아줘(Find me more movies like this)"와 같은 말을 할 수 있다.

일부 구현들에서, 자동화된 어시스턴트(120)는 사용자들과 에이전트들 간의 트랜잭션을 용이하게(또는 "브로커") 할 수 있으며, 이는 입력을 수신하고 응답 출력을 제공하는 독립적인 소프트웨어 프로세스일 수 있다. 일부 에이전트들은, 예를 들어, 클라우드 기반 자동화된 어시스턴트 컴포넌트(130)를 작동하는 것과는 별 개인 컴퓨팅 시스템들에서 작동하거나 작동하지 않을 수 있는 제3자 애플리케이션들의 형태를 취할 수 있다. 의도 매칭기(134)에 의해 식별될 수 있는 한 종류의 사용자 의도는 제3자 애플리케이션을 사용하는 것이다. 예를 들어, 자동화된 어시스턴트(120)는 피자 배달 서비스에 대한 애플리케이션 프로그래밍 인터페이스("API")에 대한 액세스를 제공할 수 있다. 사용자는 자동화된 어시스턴트(120)를 호출할 수 있고, "피자를 주문하고 싶다(I'd like to order a pizza)"와 같은 명령을 제공할 수 있다. 의도 매칭기(134)는 이 명령을 자동화된 어시스턴트(120)가 제3자 피자 배달 서비스에 참여하도록 촉발하는 문법에 맵핑할 수 있다. 제3자 피자 배달 서비스는 피자 배달 주문을 이행하기 위해 채워야 하는 슬롯들의 최소 목록을 자동 어시스턴트(120)에 제공할 수 있다. 자동화된 어시스턴트(120)는 슬롯들에 대한 파라미터들을 요청하는 자연어 출력을 생성하고 사용자에게 (클라이언트 디바이스(106)를 통해) 제공할 수 있다.

이행 모듈(138)은 의도 매칭기(134)에 의해 출력되는 예측/추정된 의도와 함께 연관된 슬롯 값들(사용자가 사전에 제공했든 사용자에게 요청했든) 및 의도를 이행(또는 "해결")을 수신하도록 구성될 수 있다. 다양한 구현들에서, 사용자의 의도의 이행(또는 "해결")은 다양한 이행 정보("응답" 정보 또는 데이터라고도 함)가 예를 들어 이행 모듈(138)에 의해 생성/획득되도록 할 수 있다.

이행 정보는 다양한 방식들로 의도를 이행할 수 있으므로 다양한 형태들을 취할 수 있다. 사용자가 "'샤이닝'의 야외 촬영은 어디에서 촬영 되었나요(Where were the outdoor shots of 'The Shining' filmed)?"와 같은 순수한 정보를 요청한다고 가정해 보자. 사용자의 의도는, 예를 들어, 의도 매칭기(134)에 의해 검색 질의인 것으로 결정될 수 있다. 검색 질의의 의도 및 내용은 도 1에 도시된 바와 같이 반응형 정보에 대해 문서들 및/또는 다른 데이터 소스들(예를 들어, 지식 그래프 등)의 말뭉치들을 검색하도록 구성된 하나 이상의 검색 모듈들(150)과 통신할 수 있는 이행 모듈(138)에 제공될 수 있다. 이행 모듈(138)은 검색 질의를 나타내는 데이터(예를 들어, 질의의 텍스트, 감소된 차원 임베딩 등)를 검색 모듈(150)에 제공할 수 있다. 검색 모듈(150)은 GPS 좌표들과 같은 응답성 정보 또는 "팀버라인 로지, 마운트 후드, 오레곤(Timberline Lodge, Mt. Hood, Oregon)"과 같은 다른 보다 명시적인 정보를 제공할 수 있다. 이 응답 정보는 이행 모듈(138)에 의해 생성된 이행 정보의 일부를 형성할 수 있다.

추가적으로 또는 대안적으로, 이행 모듈(138)은, 예를 들어, 의도 이해 모듈 (135)로부터, 사용자의 의도 및 사용자가 제공하거나 다른 수단(예를 들어, 사용자의 GPS 좌표들, 사용자 선호도들 등)을 사용하여 결정된 슬롯 값들을 수신하거나 또는 반응형 동작들을 촉발하도록 구성될 수 있다. 반응형 동작들에는, 예를 들어, 상품/서비스 주문, 타이머 시작, 알림 설정, 전화 통화 시작, 미디어 재생, 메시지 전송, 여러 동작들의 루틴 시작 등이 포함될 수 있다. 일부 이러한 구현들에서, 이행 정보는 이행과 연관된 슬롯 값들, 확인 응답들(일부 경우들에서 미리 결정된 응답들로부터 선택될 수 있음) 등을 포함할 수 있다.

추가적으로 또는 대안적으로, 이행 모듈(138)은 사용자의 의도(들)(예를 들어, 하루 중 시간, 과거 상호 작용 등에 기초하여)를 추론하고 그러한 의도(들)에 대한 응답 정보를 획득하도록 구성될 수 있다. 예를 들어, 이행 모듈(138)은 사용자에 대한 일일 캘린더 요약, 사용자에 대한 일기 예보 및/또는 사용자에 대한 다른 콘텐츠를 획득하도록 구성될 수 있다. 이행 모듈(138)은 또한 그러한 콘텐츠가 그래픽 및/또는 청각적 렌더링을 위해 사용자에게 "푸시"되게 할 수 있다. 예를 들어, 이러한 콘텐츠의 렌더링은 입 움직임 및 지향된 시선의 발생을 검출하는 적응 엔진(115)에 응답하여 발생하는 적응일 수 있다.

자연어 생성기(136)는 다양한 소스들로부터 획득된 데이터에 기초하여 자연어 출력(예를 들어, 인간의 음성을 모방하도록 설계된 단어들/구문들)을 생성 및/또는 선택하도록 구성될 수 있다. 일부 구현들에서, 자연어 생성기(136)는 입력으로서 의도의 이행과 관련된 이행 정보를 수신하고, 이행 정보에 기초하여 자연어 출력을 생성하도록 구성될 수 있다. 추가적으로 또는 대안적으로, 자연어 생성기(136)는 제3자 애플리케이션과 같은 다른 소스들로부터 정보를 수신할 수 있으며, 이는 사용자를 위한 자연어 출력을 작성하는 데 사용할 수 있다.

도 2a 및 도 2b에서, 시선 및 입 모듈(116)이 특정 입 움직임 및/또는 지향된 시선을 검출할 수 있는 방법 및 적응 엔진(115)이 응답으로 어떻게 자동화된 어시스턴트를 적응시킬 수 있는지에 대한 다양한 예가 도시된다.

다시 도 2a로 돌아가서, 시각적 캡처 모듈(114)은 시선 및 입 모듈(116)에 비전 프레임들을 제공한다. 일부 구현들에서, 시각적 캡처 모듈(114)은 비전 프레임들의 실시간 스트림을 시선 및 입 모듈(116)에 제공한다. 이러한 구현들 중 일부에서, 시각적 캡처 모듈(114)은 인간이 클라이언트 디바이스(106)와 함께 환경에 존재함을 나타내는 별도의 존재 센서(105)로부터의 신호들에 응답하여 비전 프레임들을 제공하기 시작한다. 예를 들어, 존재 센서(105)는 PIR 센서일 수 있고 인간 존재를 검출하는 것에 응답하여 시각적 캡처 모듈(114)에 신호를 제공할 수 있다. 시각적 캡처 모듈(114)은 인간 존재가 검출되지 않는 한 시선 및 입 모듈(116)에 임의의 비전 프레임들을 제공하는 것을 자제할 수 있다. 시각적 캡처 모듈(114)이 시선 및 입 모듈(116)에 비전 프레임들만을 선택적으로 제공하는 다른 구현들에서, 추가 및/또는 대안적 큐들이 그러한 프로비저닝을 시작하기 위해 이용될 수 있다. 예를 들어, 인간의 존재는, 하나 이상의 다른 컴포넌트들 및/또는 다른 신호들에 의한 비전 프레임들의 분석에 기초하여 음성 캡처 모듈(112)로부터의 오디오 데이터에 기초하여 검출될 수 있다.

시선 및 입 모듈(116)은 하나 이상의 기계 학습 모델(117)을 사용하여 비전 프레임들을 처리하여 지향된 시선 및 입 움직임의 발생을 모니터링한다. 지향된 시선 및 입 움직임 모두가 검출될 때, 시선 및 입 모듈(116)은 시선 및 입 움직임의 검출 표시를 적응 엔진(115)에 제공한다.

도 2a에서, 비전 프레임 및/또는 오디오 데이터(음성 캡처 모듈(112)에 의해 제공됨)는 또한 다른 조건 모듈(118)에 제공된다. 다른 조건 모듈(118)은 하나 이상의 다른 조건들의 발생을 모니터링하기 위해 선택적으로 하나 이상의 다른 기계 학습 모델들(119)을 사용하여 제공된 데이터를 처리한다. 예를 들어, 다른 조건들은 오디오 데이터를 기반으로 음성 활동을 검출하는 것; 오디오 데이터에서 음성 호출 문구의 존재를 검출하는 것; 오디오 데이터에 기초하여 사용자의 방향 또는 위치로부터의 음성 활동을 검출하는 것; 비전 프레임(들) 및/또는 오디오 데이터에 기초하여 사용자가 인증된 사용자임을 검출하는 것; 비전 프레임에 기초하여 사용자의 제스처(입 움직임 및 지시된 시선을 제공하는 제스처)를 검출하는 것 등일 수 있다. 다른 조건(들)이 검출될 때, 다른 조건 모듈(118)은 적응 엔진(115)에 다른 조건들의 발생 표시를 제공한다.

적응 엔진(115)이 지향된 시선 및 입 움직임의 표시 및 다른 조건들의 시간적으로 근접한 표시를 수신할 때, 적응 엔진(115)은 자동화된 어시스턴트(120)의 적응(들)(101)을 야기한다. 예를 들어, 적응(들)(101)은 클라이언트 디바이스(106)의 사용자 인터페이스 출력의 렌더링을 적응시키는 것 및/또는 클라이언트 디바이스(106)에 의한 오디오 데이터 처리를 적응시키는 것을 포함할 수 있다.

일부 구현들에서, 그리고 도 2b에 대해 더 상세히 설명된 것처럼, 시선 및 입 모듈(116)은 지향된 시선을 검출하기 위해 하나 이상의 제1 기계 학습 모델(117) 및 입 움직임을 검출하기 위해 하나 이상의 제2 기계 학습 모델(117)을 사용할 수 있다. 일부 다른 구현들에서, 시선 및 입 모듈(116)은 입력으로서 비전 프레임들(또는 그 특징)을 수용하고 입의 움직임과 지향된 시선이 발생했는지를 나타내는 출력을 (모델에 대한 입력의 처리를 기반으로) 생성하기 위해 이용될 수 있는 엔드-투-엔드 머신 학습 모델을 활용할 수 있다. 이러한 기계 학습 모델은, 예를 들어, 하나 이상의 메모리 계층들(예를 들어, 장단기 기억(LSTM) 계층(들))을 포함하는 RNN(recurrent neural network) 모델과 같은 신경망 모델일 수 있다. 이러한 RNN 모델의 훈련은, 훈련 예시 입력으로서, 비전 프레임들의 시퀀스(예를 들어, 비디오) 및 훈련 예시 출력으로서, 시퀀스가 입 움직임과 지향된 시선을 모두 포함하는지의 표시를 포함하는 훈련 예시들을 기반으로 할 수 있다. 예를 들어, 훈련 예시 출력은 각각 입 움직임과 지향된 시선이 모두 존재하는지 여부를 나타내는 하나 이상의 값들을 포함할 수 있다. 예를 들어, 훈련 예시 출력은 값의 시퀀스를 포함할 수 있으며, 시퀀스의 각 값은 비전 프레임들 중 대응하는 하나에 대한 것이다.

도 2b는, 입 움직임 및 시선 감지 모듈(116)이 입 움직임의 발생을 모니터링하는데 입 기계 학습 모델(117A)을 이용하는 입 모듈(116A)을 포함하고, 지향된 시선의 발생을 모니터링하는데 시선 기계 학습 모델(117B)을 이용하는 시선 모듈 (116B)을 포함하는 예를 나타낸다. 다른 조건(들) 모듈(118)은 단순함을 위해 도 2b에 도시되지 않지만, 도 2a와 관련하여 서술된 것과 유사한 방식으로 입 모듈(116A) 및 시선 모듈(116B)과 조합하여 선택적으로 사용될 수도 있다.

도 2b에서, 시각적 캡처 모듈(114)은 검출 및 분류 모듈(116C)에 비전 프레임들을 제공한다. 검출 및 분류 모듈(116C)은 각 비전 프레임의 다양한 영역들을 분류하기 위해 객체 검출 및 분류 기계 학습 모델(117C)을 이용한다. 예를 들어, 검출 및 분류 모듈(116C)은 인간에 대응하는 각 비전 프레임의 인간 영역(들)(있는 경우)을 분류할 수 있으며, 각 비전 프레임에 대한 그러한 인간 영역(들)의 표시를 입 모듈(116A) 및 시선 모듈(116B)에 제공할 수 있다. 또한, 예를 들어, 검출 및 분류 모듈(116C)은 각 비전 프레임에 대해, 얼굴 영역(들)에 대응하는 각 비전 프레임의 영역(들)(있는 경우)을 입 모듈(116A) 및 시선 모듈(116B)로 분류할 수 있다. 또한, 예를 들어, 검출 및 분류 모듈(116C)은 인간의 눈 영역(들)에 대응하는 각 비전 프레임의 영역(들)(있는 경우)을 분류할 수 있고, 각 비전 프레임에 대한 그러한 영역(들)의 표시를 시선 모듈(116B)에 제공할 수 있다. 또 다른 예로서, 검출 및 분류 모듈(116C)은 인간의 입 영역(들)에 대응하는 각 비전 프레임의 영역(들)(있는 경우)을 분류할 수 있고, 각 비전 프레임에 대한 그러한 영역(들)의 표시를 입 모듈(116A)에 제공할 수 있다.

일부 구현들에서, 입 모듈(116A)은 제공된 영역(들)을 이용하여 각 비전 프레임의 대응하는 부분(들)만을 처리할 수 있다. 예를 들어, 입 모듈(116A)은 인간 영역(들), 얼굴 영역(들) 또는 입 영역(들)을 포함하는 부분(들)만을 처리하기 위해 비전 프레임을 "자르고(crop)" 크기를 조정할 수 있다. 이러한 구현들 중 일부에서, 입 기계 학습 모델(들)(117A)은 "잘린(cropped)" 비전 프레임들에 기초하여 훈련될 수 있고 크기 조정은 그러한 모델의 입력 치수들에 부합하는 크기로 될 수 있다. 일부 추가적 또는 대안적 구현들에서, 입 모듈(116A)은 제공된 영역(들)을 이용하여 일부 비전 프레임들(예를 들어, 인간 및/또는 얼굴 영역들을 포함하지 않는 것으로 표시된 것들)의 처리를 모두 함께 건너뛸 수 있다. 또 다른 구현들에서, 입 모듈(116A)은 제공된 영역(들)을 주의 메커니즘으로서(예를 들어, 입 기계 학습 모델(117A)에 대한 별도의 주의 입력으로서) 활용하여 각 비전 프레임의 처리를 집중시킬 수 있다.

마찬가지로, 일부 구현들에서, 시선 모듈(116B)은 제공된 영역(들)을 이용하여 각 비전 프레임의 대응하는 부분(들)만을 처리할 수 있다. 예를 들어, 시선 모듈(116B)은 인간 영역(들), 얼굴 영역(들) 또는 눈 영역(들)을 포함하는 부분(들) 만을 처리하기 위해 비전 프레임들을 "자르고" 크기를 조정할 수 있다. 이러한 구현들 중 일부에서, 시선 기계 학습 모델(117B)은 "잘린" 비전 프레임들에 기초하여 훈련될 수 있고, 크기 조정은 이러한 모델의 입력 차원들에 부합하는 크기로 될 수 있다. 일부 추가적 또는 대안적 구현들에서, 시선 모듈(116B)은 제공된 영역(들)을 이용하여 일부 비전 프레임들(예를 들어, 인간 및/또는 얼굴 영역을 포함하지 않는 것으로 표시된 것들)의 처리를 모두 함께 건너뛸 수 있다. 또 다른 구현들에서, 시선 모듈(116B)은 제공된 영역(들)을 주의 메커니즘으로서(예를 들어, 시선 머신 학습 모델(117B)에 대한 별도의 주의 입력으로서) 활용하여 각 비전 프레임의 처리에 집중할 수 있다.

일부 구현들에서, 검출 및 분류 모델(116C)은 다른 조건 모듈(118)에 의해 사용하기 위해 다른 조건 모듈(118)(단순함을 위해 도 2b에 도시되지 않음)에 특정 영역(들)의 표시를 추가적으로 또는 대안적으로 제공할 수 있다. 예를 들어, 신체 영역(들)은, 제스처들의 검출이 자동화된 어시스턴트를 적응시키기 위한 추가 조건 일 때, 대응하는 제스처 머신 학습 모델을 사용하여 제스처를 검출하는데 다른 조건 모듈(118)에 의해 사용될 수 있다.

일부 구현들에서, 검출 및 분류 모델(116C)은 TV 또는 다른 비디오 디스플레이 소스로 분류되는 영역(들)의 표시를 입 모듈(116A) 및 시선 모듈(116B)에 추가적으로 또는 대안적으로 제공할 수 있다. 이러한 구현들 중 일부에서, 모듈들(116A 및 116B)는 처리된 비전 프레임들에서 해당 영역(들)을 잘라 내고, 해당 영역들로부터 주의를 집중시키고, 그리고/또는 그렇지 않으면 검출들에서 해당 영역들을 무시하거나 검출들이 해당 영역들을 기반으로 할 가능성을 줄인다. 이러한 방식과 다른 방식으로, 자동화된 어시스턴트의 위양성 적응(false-positive adaptation)(들)을 완화할 수 있다.

전술한 바와 같이, 입 모듈(116A)은 입 움직임을 검출하기 위해 하나 이상의 입 기계 학습 모델(117A)을 사용할 수 있다. 이러한 기계 학습 모델은, 예를 들어, 하나 이상의 메모리 계층들을 포함하는 RNN 모델과 같은 신경망 모델일 수 있다. 이러한 RNN 모델의 훈련은, 훈련 예시 입력으로서, 비전 프레임들의 시퀀스(예를 들어, 비디오) 및 훈련 예시 출력으로서, 시퀀스가 하나 이상의 특정 입 움직임들을 포함하는지의 표시를 포함하는 훈련 예시들을 기반으로 할 수 있다. 예를 들어, 훈련 예시 출력은, 해당 사용자가 말하는 것을 나타내는 입 움직임이 있는지를 나타내는 단일 값일 수 있다. 예를 들어, 단일 값은, 입 움직임이 없을 때 "0"이고 사용자가 말을 하는 것을 나타내는 입 움직임이 있을 때 "1"일 수 있다. 예를 들어, 트레이닝 예시 출력은 대응하는 사용자가 말하는 것을 나타내는 임의의 입 움직임이 존재하는지 각각을 나타내는 하나 이상의 값을 포함할 수 있다. 예를 들어, 훈련 예시 출력은 값들의 시퀀스를 포함할 수 있으며, 시퀀스의 각 값은 비전 프레임들 중 대응하는 하나에 대한 것이다(예를 들어, 훈련되는 모델이 시퀀스 대 시퀀스 모델인 경우). 값들은, 예를 들어, 입 움직임이 없는 경우 "0"이고, 사용자가 말하는 것을 나타내는 입 움직임이 있는 경우 "1"일 수 있다. 다른 예로서, 훈련 예시 출력은 비전 프레임들의 시퀀스에 대한 단일 값을 포함할 수 있으며, 단일 값은 대응하는 사용자가 말하는 것을 나타내는 임의의 입 움직임이 존재하는지 여부를 나타낸다.

이들 및/또는 다른 구현들 중 일부에서, 입 모듈(116A)은 입 움직임이 적어도 임계 확률로 및/또는 적어도 임계 지속 기간 동안 검출될 때에만 입 움직임을 결정한다. 예를 들어, 시퀀스-투-시퀀스 RNN 모델을 사용하여 이미지 프레임들의 스트림을 처리할 수 있고 그리고 각 프레임을 처리하면 입 움직임이 발생하는 대응하는 확률이 발생할 수 있다(네트워크의 반복적인 특성으로 인해 이전 프레임(들)에 기반할 수 있음). 입 움직임 모듈은 (임계 기간에 대응하는) 이미지 프레임들의 시퀀스의 적어도 X%가 임계치를 만족하는 대응하는 확률을 갖는 경우에만 입 움직임이 있다고 결정할 수 있다. 예를 들어, X%가 60%이고, 확률 임계 값이 0.6이고 임계 값 기간이 0.25초라고 가정하자. 또한, 5개의 이미지 프레임들이 0.5초에 해당한다고 가정하자. 이미지 프레임을 처리하여 [0.75, 0.85, 0.5, 0.7, 0.9]의 확률을 생성하면, 프레임의 80%가 0.7보다 큰 확률로 입의 움직임을 나타내므로 입의 움직임을 검출할 수 있다. 추가 및/또는 대안적인 기계 학습 모델들 및/또는 기술들을 사용하여 입 움직임을 검출할 수 있다.

시선 모듈(116A)은 지향된 시선을 검출하기 위해 하나 이상의 시선 기계 학습 모델(117A)을 사용할 수 있다. 이러한 기계 학습 모델은, 예를 들어, CNN(convolutional neural network) 모델과 같은 신경망 모델일 수 있다. 그러한 CNN 모델의 훈련은, 훈련 예시 입력으로서 비전 프레임들(예를 들어, 이미지) 및 훈련 예시 출력으로서 이미지가 지향된 시선을 포함하는지의 표시를 포함하는 훈련 예시들에 기초할 수 있다. 예를 들어, 훈련 예시 출력은 지향된 응시가 있는지를 나타내는 단일 값일 수 있다. 예를 들어, 단일 값은, 지향된 응시가 없는 경우 0일 수 있고, 이미지를 캡처하는 센서를 직접 향하거나 센서의 5도 이내로 향하는 시선이 있는 경우 "1", 이미지를 캡처하는 센서의 5 내지 10도 이내로 향하는 시선이 있는 경우 "0.75" 일 수 있다.

이들 및/또는 다른 구현들 중 일부에서, 시선 모듈(116B)은 적어도 임계 확률로 및/또는 적어도 임계 기간 동안 지향된 시선이 검출될 때에만 지향된 시선을 결정한다. 예를 들어, 이미지 프레임들의 스트림은 CNN 모델을 사용하여 처리될 수 있으며 각 프레임을 처리하면 프레임에 지향된 시선이 포함될 확률이 발생할 수 있다. 시선 모듈은 (임계 기간에 해당하는) 이미지 프레임들의 시퀀스의 적어도 X%가 임계 값을 만족하는 해당 확률을 갖는 경우에만 지향성 시선이 있는지 결정할 수 있다. 예를 들어 X%가 60%이고, 확률 임계값이 0.7이고, 임계값 기간이 0.5초라고 가정하자. 또한 10개의 이미지 프레임들이 0.5초에 해당한다고 가정하자. 이미지 프레임들이 [0.75, 0.85, 0.5, 0.4, 0.9, 0.95, 0.85, 0.89, 0.6, 0.85]의 확률을 생성하도록 처리되면, 프레임들의 70%가 0.7보다 큰 확률로 지향된 시선을 나타내었기 때문에 지향된 시선을 검출할 수 있다. 이와 같은 방식들로 사용자가 잠시 자신의 시선 방향을 전환하더라도 지향된 시선은 검출될 수 있다. 추가 및/또는 대안적인 기계 학습 모델들(예를 들어, RNN 모델들) 및/또는 기술들을 이용하여 적어도 임계 기간으로 발생하는 지향된 시선을 검출할 수 있다.

도 3은 도 1의 클라이언트 디바이스(106) 및 비전 컴포넌트(107)의 예를 도시한다. 도 3에서, 예시적인 클라이언트 디바이스는 106A로 표시되고 스피커(들) 및 디스플레이를 더 포함한다. 도 3에서, 예시적인 비전 컴포넌트는 107A로 표시되고 카메라이다. 도 3은 또한 말하고(도시되지 않음) 카메라(107A)로 향하는 시선을 제공하는 사용자(301)를 도시한다. 도 3은 또한 사용자가 말하고 지향된 시선을 제공할 때 카메라(107A)에 의해 캡처된 예시적인 이미지(360)를 도시한다. 사용자가 이미지(360)뿐만 아니라 사용자 뒤에 있는 텔레비전(따라서, 도 3의 투시도에서는 보이지 않음)에서 캡처된다는 것을 알 수 있다.

이미지(360)에서, 경계 상자(362)가 제공되고 얼굴에 대응하는 것으로 (예를 들어, 도 2b의 검출 및 분류 모듈 (116C)에 의해) 결정될 수 있는 이미지의 영역을 나타낸다. 일부 구현들에서, 클라이언트 장치(106A)에서 동작하는 시선 및 입 움직임 모듈은, 그 부분이 얼굴에 해당하는 부분으로 표시되는 것에 기초하여 지향된 시선 및 입 움직임을 모니터링할 때 이미지의 해당 부분만을 처리(또는 그 부분에 주의 집중)할 수 있다. 비록 하나의 이미지 만이 도 3에 도시되어 있지만, 다양한 구현들에서, 지향된 시선 검출 및/또는 입 움직임 검출은 본 명세서에 설명된 바와 같은 이미지들의 시퀀스에 기초할 수 있다.

이미지(360)에서, 경계 상자(363)도 제공되며, 비디오 디스플레이에 대응하는 것으로 결정될 수 있고 시각적 큐들의 위양성들을 일으킬 수 있는 이미지의 영역을 나타낸다. 예를 들어, 텔레비전은 한 명 이상의 개인이 말하고 카메라를 쳐다 보는 것 등을 보여주는 비디오를 렌더링할 수 있으며, 이들 중 어느 것이든 입 움직임 및/또는 지향된 시선의 발생으로 잘못 해석될 수 있다. 일부 구현들에서, 도 2b의 검출 및 분류 모듈(116C)은 (예를 들어, TV 분류를 검출에 기초하여) 그와 같은 영역을 결정할 수 있고, 그리고/또는 그러한 영역은 이미지(360) 및 선행 이미지의 분석을 기반으로 결정되어 해당 영역이 비디오 디스플레이의 디스플레이 주파수에 해당하는 디스플레이 주파수(예를 들어, 약 60Hz, 120Hz 및/또는 기타 일반적인 비디오 디스플레이 주파수)를 가지고 있는지 확인할 수 있다. 일부 구현들에서, 입 움직임 모듈 및/또는 시선 모듈은 처리된 비전 프레임들에서 해당 영역을 잘라내고, 해당 영역에서 주의를 집중시키고, 그리고/또는 그렇지 않으면 검출들에서 해당 영역을 무시하거나 또는 해당 검출들이 그러한 영역들을 기반으로 할 가능성을 줄인다. 이러한 방식들로, 자동화된 어시스턴트의 위양성 적응(들)을 완화할 수 있다.

도 4a는 본 명세서에 개시된 구현들에 따른 예시적인 방법(400)을 나타내는 흐름도이다. 도 4b, 4c, 4d 및 4e는 각각 도 4a의 블록 410의 구현들의 상이한 예를 예시하는 흐름도이다. 편의상, 도 4a 내지 도 4d의 흐름도들의 동작들은 동작들을 수행하는 시스템을 참조하여 서술된다. 이 시스템은 자동화된 어시스턴트(120) (예를 들어, 클라이언트 디바이스 및/또는 원격 컴퓨팅 시스템(들))를 구현하는 컴퓨팅 시스템(들)의 하나 이상의 컴포넌트들과 같은 다양한 컴퓨터 시스템들의 다양한 컴포넌트들을 포함할 수 있다. 더욱이, 방법(400)의 동작들이 특정 순서로 도시되어 있지만, 이것은 제한하는 것을 의미하지 않는다. 하나 이상의 동작들이 다시 정렬하거나 생략하거나, 또는 추가할 수 있다.

블록 402에서, 시스템은 비전 컴포넌트(들)로부터의 출력에 기초한 비전 데이터를 수신한다. 일부 구현들에서, 비전 컴포넌트(들)는 어시스턴트 클라이언트를 포함하는 클라이언트 디바이스와 통합될 수 있다. 일부 구현들에서, 비전 컴포넌트(들)는 클라이언트 디바이스와 분리될 수 있지만 클라이언트 디바이스와 통신할 수 있다. 예를 들어, 비전 컴포넌트(들)는 어시스턴트 클라이언트를 포함하는 클라이언트 디바이스와 유선 및/또는 무선 통신하는 독립형 스마트 카메라를 포함할 수 있다.

블록 404에서, 시스템은 적어도 하나의 기계 학습 모델을 사용하여 시각 데이터를 처리하여 입 움직임 및 지향된 시선 모두의 발생을 모니터링 한다.

블록 406에서, 시스템은 블록 404의 모니터링에 기초하여 입 움직임과 지향 된 시선 모두가 검출되었는지를 결정한다. 그렇지 않은 경우, 시스템은 블록 402로 돌아가서, 추가 비전 데이터를 수신하고, 그리고 블록들 404 및 406의 또 다른 반복을 수행한다. 일부 구현들에서, 시스템은, 입 움직임을 검출하는 것에 기초하여 입 움직임과 지향된 시선 모두가 검출되었고, 지향된 시선이 서로의 임계 시간적 근접성 내에서 발생하거나 발생한다고 결정한다. 일부 추가 또는 대체 구현들에서, 시스템은, 입 움직임이 적어도 임계 지속 기간에 있고 그리고/또는 지향된 시선이 적어도 임계 지속 기간에 있음을 검출하는 것(입 운동 기간에 선택적으로 사용되는 것과 동일하거나 다를 수 있음)에 기초하여 입 움직임과 지향된 시선이 모두 검출되었다고 결정한다. 본 명세서에 설명된 바와 같이, 시스템은 블록 406을 수행할 때 하나 이상의 기계 학습 모델들을 이용할 수 있다.

블록 406의 반복에서, 시스템이 블록 404의 모니터링에 기초하여 입 움직임과 시선이 모두 검출되었다고 결정하면, 시스템은 선택적으로 블록 408로 진행한다 (또는 블록 408이 포함되지 않은 경우 직접 블록 410으로 진행).

선택적 블록 408에서, 시스템은 하나 이상의 다른 조건들이 만족되는지를 결정한다. 만족되지 않은 경우, 시스템은 블록 402로 돌아가서, 추가 비전 데이터를 수신하고, 그리고 블록들 404, 406 및 408의 또 다른 반복을 수행한다. 만족되는 경우, 시스템은 블록 410으로 진행한다. 시스템은 블록 402에서 수신된 비전 데이터, 오디오 데이터 및/또는 다른 센서 데이터 또는 비 센서 데이터를 사용하여 하나 이상의 다른 조건들이 만족되는지 여부를 결정할 수 있다. 여기에 명시적으로 서술된 것과 같은 다양한 다른 조건(들)이 시스템에 의해 고려될 수 있다.

블록 410에서, 시스템은 자동화된 어시스턴트를 적응시킨다. 시스템은 도 4b 내지 도 4d과 관련하여 아래에 서술된 것들 중 하나 이상과 같은 다양한 방식들로 자동화된 어시스턴트를 적응시킬 수 있다.

이제 도 4b 내지 도 4d로 돌아가, 도 4a의 블록 410의 구현들의 다양한 예들이 도시되어 있다. 처음에는 도 4b에서, 블록 410의 예의 초기 반복(410B1)은 도 4a의 블록들 404 및 406에서 "예" 결정에 응답하여 수행된다. 반복(410B1)에서, 시스템은 원격 처리를 위해 센서 데이터(예를 들어, 비전 데이터 및/또는 오디오 데이터)를 제공하기 전에 청각적 및/또는 시각적 큐를 제공한다. 큐의 렌더링은 오디오 데이터 및/또는 시각 데이터의 원격 처리가 곧 발생할 것임을 (직간접적으로) 표시할 수 있다. 들을 수 있는 "딩(ding)" 및/또는 어시스턴트 디바이스의 발광 다이오드(들)의 조명과 같은 다양한 인간 지각 가능한 큐들이 렌더링될 수 있다.

반복(410B1) 후, 블록들 402, 404 및 406(도 4a)의 추가 반복들이 수행되고, 그리고 도 4b에서 도시된 것처럼, 블록들 404 및 406에서 추가적인 "예"의 결정이 이루어진다. 추가적인 "예" 결정은 사용자가 계속해서 말하고 클라이언트 디바이스들을 응시하고 있음을 나타낸다. 추가적인 "예" 결정에 응답하여, 블록 410의 예시에 대한 추가 반복(410B2)이 수행된다. 반복(410B2)에서, 시스템은 원격 처리를 위해 오디오 데이터 및/또는 비전 데이터를 원격 컴포넌트(들)로 전송한다. 추가적인 "예" 결정이 이루어지지 않았다면, 반복(410B2)의 추가 적응이 발생하지 않았을 것이다. 예를 들어, 사용자가 자신의 시선을 돌리고 그리고/또는 말하기를 중단했다면, "아니오" 결정이 내려졌을 것이고 반복(410B2)의 추가 적응이 방지되었을 것이다.

이제 도 4c로 돌아가면, 블록 410의 예시(410C1)는 도 4a의 블록들 404 및 406에서 "예" 결정에 응답하여 수행된다. 블록 410C1에서, 시스템은 블록들 404 및 406에서 "예" 결정이 이루어질 때 렌더링되는 가청 출력의 볼륨을 감소시킨다. 일부 구현들에서, 블록 410의 추가 예시적인 블록 410C2 및 선택적으로 블록 410C3 도 수행된다. 블록 410C2는 도 4a의 블록들 404 및 406에서 "예" 결정들에 응답하여 수행될 수 있고 그리고 버퍼링되고 그리고/또는 스트리밍되는 오디오 데이터의 특정 처리를 포함할 수 있다. 특정 처리는, 예를 들어, 음성 활동 감지, 호출 문구 검출 및/또는 기타 처리를 포함할 수 있다. 블록 410C3에서, 도 410C2의 특정 처리가 하나 이상의 조건들을 충족하면, 시스템은 가청 출력을 중지한다. 예를 들어, 사용자의 음성 발화가 처리된 오디오 데이터에 있음을 도 410C2의 음성 활동 검출이 나타내는 경우, 그리고/또는 음성 발화가 존재하고 입 움직임 및 지향된 시선에 해당하는 사용자의 방향에서 발생함을 처리가 나타내는 경우, 시스템은 가청 처리를 중지할 수 있다.

도 4d에서, 블록 410의 예시(410D1)는 도 4의 블록들 404 및 406에서 "예" 결정들에 응답하여 수행된다. 블록 410D1에서, 시스템은 블록들 404 및 406에서 "예" 결정이 이루어질 때 렌더링되는 가청 출력을 중지한다. 일부 구현들에서, 블록 410의 추가 예시 블록 410D2이 또한 수행된다. 블록 410D2에서, 시스템은 오디오 데이터의 특정 처리를 시작한다. 블록 410D2는 도 4a의 블록들 404 및 406에서 "예" 결정에 응답하여 수행될 수 있고 그리고 버퍼링되고 그리고/또는 스트리밍되는 오디오 데이터의 특정 처리를 포함할 수 있다. 특정 처리는, 예를 들어, 음성 활동 검출, 호출 문구 검출, 추가 처리를 위해 원격 컴포넌트(들)로 오디오 데이터 전송 및/또는 기타 처리를 포함할 수 있다.

이제 도 4e로 돌아가서, 블록 410의 예시(410E)는 도 4a의 블록들 404 및 406에서 "예" 결정에 응답하여 수행된다. 블록 410E에서, 시스템은 블록들 404 및 406에서 이루어진 "예" 결정에 응답하여 오디오 데이터를 처리할 때 사용자의 결정된 위치를 사용한다. 일부 구현들에서, 블록 410의 추가 예시 블록 410D2이 또한 수행된다. 사용자의 위치는 클라이언트 디바이스에 상대적일 수 있고, 예를 들어, 사용자에 대응하는 것으로 결정된 비전 데이터의 부분들에 기초하여 시스템에 의해 결정될 수 있다. 사용자의 위치는 검출된 입 움직임 및 지향된 시선(사용자가 시스템과 청각적으로 상호 작용을 시도하고 있음을 나타낼 수 있음)에 대응하는 사용자에 기초하여 처리에 결정되고 사용될 수 있다. 사용자의 위치에 기초한 오디오 데이터의 처리는, 예를 들어, 음성 발화에 대응하는 오디오 데이터의 부분을 분리하고 그리고/또는 오디오 데이터로부터 배경 잡음을 제거하는 것을 포함할 수 있다. 그러한 처리는 결정된 위치 및 빔 포밍 및/또는 오디오 데이터의 일부를 분리하고 /하거나 오디오 데이터로부터 배경 잡음을 제거하는 다른 기술에 의존할 수 있다.

도 4a 내지 도 4e가 별도로 도시되지만, 다양한 구현들에서, 도 4a 내지 도 4e의 다수의 예시적인 블록들은 입 움직임과 지향된 시선의 발생을 검출하는 것에 응답하여 수행될 수 있음을 알 수 있다. 일례로서, 도 4a의 블록들 404 및 406에서 "예" 결정에 응답하여, 도 4c의 블록들 410C1 및 410C2가 수행될 수 있고, 블록 410C2는 도 4e의 블록 410E의 처리를 포함할 수 있다. 다른 예로서, 도 4a의 블록들 404 및 406에서 초기 "예" 결정들에 응답하여, 도 4b의 블록 410B1은 수행될 수 있고, 추가 "예" 결정들에 응답하여 블록 410B2가 수행될 수 있으며, 원격 컴포넌트(들)는 도 4e의 블록 410E의 처리를 수행할 수 있다.

여기에서는 입 움직임 및 지향된 시선 모두를 검출하는 것에 응답하여 자동화된 어시스턴트를 적응시키는 다양한 예들이 서술된다. 그러나, 다양한 구현들에서, 자동화된 어시스턴트는 선택적으로 여기에 서술된 것과 같은 하나 이상의 다른 조건들과 조합하여 입 움직임 및 지향된 시선 중 하나만을 검출하는 것에 응답하여 적응될 수 있다. 예를 들어, 이러한 다양한 구현들 중 일부에서, 자동화된 어시스턴트는 사용자의 제스처와 같은 다른 조건(들)이 동시에 발생하는 것과 함께 적어도 임계 지속 기간인 사용자의 지향된 시선을 검출하는 것에 응답하여 적응될 수 있다. 또한, 예를 들어, 이러한 다양한 구현들 중 일부에서, 자동화된 어시스턴트는 사용자의 제스처 및/또는 검출된 음성 활동과 같은 동시 발생 및/또는 일시적인 다른 상태(들)와 함께 사용자의 입 움직임을 검출하는 것에 응답하여 적응될 수 있다.

도 5는 여기에 서술된 기술들의 하나 이상의 양태를 수행하기 위해 선택적으로 사용될 수 있는 예시적인 컴퓨팅 디바이스(510)의 블록도이다. 일부 구현들에서, 클라이언트 컴퓨팅 디바이스, 사용자 제어 리소스 모듈(130) 및/또는 다른 컴포넌트(들) 중 하나 이상은 예시적인 컴퓨팅 디바이스(510)의 하나 이상의 컴포넌트들을 포함할 수 있다.

컴퓨팅 디바이스(510)는 통상적으로 버스 서브시스템(512)을 통해 다수의 주변 디바이스들과 통신하는 적어도 하나의 프로세서(514)를 포함한다. 이러한 주변 디바이스들은, 예를 들어, 메모리 서브시스템(525) 및 파일 저장 서브시스템(526)을 포함하는 저장 서브시스템(524), 사용자 인터페이스 출력 디바이스들(520), 사용자 인터페이스 입력 디바이스들(522) 및 네트워크 인터페이스 서브시스템(516)을 포함할 수 있다. 입력 디바이스 및 출력 디바이스는 컴퓨팅 디바이스(510)와의 사용자 상호 작용을 가능하게 한다. 네트워크 인터페이스 서브시스템(516)은 외부 네트워크들에 인터페이스를 제공하고 그리고 다른 컴퓨팅 디바이스들 내의 대응하는 인터페이스 디바이스들에 연결된다.

사용자 인터페이스 입력 디바이스들(522)은, 키보드, 마우스, 트랙볼, 터치 패드 또는 그래픽 태블릿과 같은 포인팅 디바이스, 스캐너, 디스플레이에 통합된 터치 스크린, 음성 인식 시스템들과 같은 오디오 입력 디바이스들, 마이크로폰들, 및/또는 다른 유형의 입력 디바이스들을 포함할 수 있다. 일반적으로, 용어 "입력 디바이스(input device)"의 사용은 컴퓨팅 디바이스(510)에 또는 통신 네트워크상에 정보를 입력하는 모든 가능한 유형들을 디바이스들 및 방식들을 포함하도록 의도된다.

사용자 인터페이스 출력 디바이스들(520)은 디스플레이 서브시스템, 프린터, 팩스 머신 또는 오디오 출력 디바이스들과 같은 비 시각적 디스플레이들을 포함할 수 있다. 디스플레이 서브 시스템은 음극선관(CRT), 액정 디스플레이(LCD)와 같은 평판 디바이스, 프로젝션 디바이스, 또는 가시적 이미지를 생성하기 위한 다른 메커니즘을 포함할 수 있다. 디스플레이 서브 시스템은 또한 오디오 출력 디바이스들을 통한 비 시각적 디스플레이를 제공할 수 있다. 일반적으로, 용어 "출력 디바이스(output device)"의 사용은 컴퓨팅 디바이스(510)로부터 사용자 또는 다른 머신 또는 컴퓨팅 디바이스로 정보를 출력하는 모든 가능한 유형들의 디바이스들 및 방식들을 포함하도록 의도된다.

저장 서브시스템(524)은 여기에 서술된 일부 또는 모든 모듈들의 기능을 제공하는 프로그래밍 및 데이터 구조를 저장한다. 예를 들어, 저장 서브시스템(524)은 도 4a 내지 도 4d의 방법들의 선택된 양태들을 수행하고, 도 1, 도 2a 내지 도 2b 및 도 3에 도시된 다양한 컴포넌트들을 구현하기 위한 로직을 포함할 수 있다.

이들 소프트웨어 모듈들은 일반적으로 프로세서(514) 단독으로 또는 다른 프로세서들과 조합하여 실행된다. 저장 서브시스템(524)에서 사용되는 메모리(525)는, 프로그램 실행 중 명령어들 및 데이터의 저장을 위한 메인 랜덤 액세스 메모리(RAM)(530) 및 고정된 명령어들이 저장되는 판독 전용 메모리(ROM)(532)를 포함하는 다수의 메모리들을 포함할 수 있다. 파일 저장 서브시스템(526)은 프로그램 및 데이터 파일들을 위한 영구 저장 장치를 제공할 수 있으며, 그리고 하드 디스크 드라이브, 관련 착탈가능한 매체와 함께 플로피 디스크 드라이브, CD-ROM 드라이브, 광 드라이브 또는 착탈가능한 매체 카트리지들을 포함할 수 있다. 특정 구현들의 기능을 구현하는 모듈들은, 저장 서브시스템(524)의 파일 저장 서브시스템(526) 또는 프로세서(들)(514)에 의해 액세스 가능한 다른 머신들에 저장될 수 있다.

버스 서브시스템(512)은 컴퓨팅 디바이스(510)의 다양한 컴포넌트들 및 서브 시스템들이 의도된 바와 같이 서로 통신하게 하는 메커니즘을 제공한다. 버스 서브시스템(512)은 단일 버스로서 개략적으로 도시되어 있지만, 버스 서브시스템의 대안의 구현들은 다수의 버스들을 사용할 수 있다.

컴퓨팅 디바이스(510)는 워크스테이션, 서버, 컴퓨팅 클러스터, 블레이드 서버, 서버 팜 또는 임의의 다른 데이터 프로세싱 시스템 또는 컴퓨팅 디바이스를 포함하는 다양한 유형일 수 있다. 컴퓨터들 및 네트워크들의 끊임없이 변화하는 특성으로 인해, 도 5에 도시된 컴퓨팅 디바이스(510)의 서술은 단지 일부 구현들을 설명하기 위한 특정 예로서 의도된다. 도 5에 도시된 컴퓨팅 디바이스보다 많거나 적은 컴포넌트들을 갖는 컴퓨팅 디바이스(510)의 많은 다른 구성들이 가능하다.

여기에서 서술된 시스템들이 사용자들에 대한 개인 정보를 수집 또는 모니터링할 수 있거나 또는 개인 및/또는 모니터링된 정보를 사용할 수 있는 상황들에서, 사용자들은, 사용자 정보(예를 들어, 사용자의 소셜 네트워크, 소셜 액션들 또는 활동들, 사용자의 선호도들 또는 사용자의 현재 지리적 위치에 대한 정보)를 수집할 수 있는 프로그램 또는 기능을 제어하거나 또는 사용자와 더 관련이 있을 수 있는 콘텐츠 서버로부터 콘텐츠를 수신할지 여부 또는 수신 방법을 제어할 기회를 제공받을 수 있다. 또한, 특정 데이터는 저장 또는 사용되기 전에 하나 이상의 방법으로 처리되어 개인 식별 정보가 제거될 수 있다. 예를 들어, 사용자에 대한 개인 식별 정보를 확인할 수 없도록 사용자의 신원을 처리하거나 지리적 위치 정보(예를 들어, 도시, 우편 번호 또는 주 수준)를 획득한 사용자의 지리적 위치를 일반화할 수 있어, 사용자의 특정 지리적 위치를 확인할 수 없다. 따라서, 사용자는 사용자에 대한 정보 수집 및/또는 사용 방법을 제어할 수 있다. 예를 들어, 일부 구현들에서, 사용자는 비전 컴포넌트(107)를 사용하고 그리고/또는 입 움직임 및/또는 지향된 시선들의 발생을 모니터링할 때 비전 컴포넌트(107)로부터 비전 데이터를 사용하여 어시스턴트 디바이스들을 옵트 아웃할 수 있다.

Claims

사용자와 자동화된 어시스턴트 간의 터치 없는 상호 작용을 용이하게 하는 클라이언트 디바이스의 하나 이상의 프로세서에 의해 구현되는 방법으로서,
상기 클라이언트 디바이스의 하나 이상의 카메라로부터의 출력에 기초한 이미지 프레임들의 스트림을 수신하는 단계;
상기 클라이언트 디바이스를 향한 상기 사용자의 시선 및 상기 사용자의 입의 움직임 모두의 발생을 모니터링하기 위해, 상기 클라이언트 디바이스에 국부적으로 저장된 하나 이상의 훈련된 기계 학습 모델을 사용하여 상기 스트림의 이미지 프레임들을 처리하는 단계;
상기 모니터링에 기초하여, 상기 사용자의 시선 및 상기 사용자의 입의 움직임 모두의 발생을 초기에 검출하는 단계;
상기 사용자의 시선과 상기 사용자의 입의 움직임 모두의 발생을 초기에 검출하는 것에 응답하여: 인간이 인지할 수 있는 큐(cue)를 렌더링하는 단계;
상기 모니터링에 기초하여 그리고 상기 인간이 인지할 수 있는 큐를 제공한 후, 상기 사용자의 시선과 상기 사용자의 입의 움직임 모두가 계속 발생하는지 여부를 결정하는 단계; 그리고
상기 사용자의 시선과 상기 사용자의 입의 움직임이 모두 계속 발생한다는 결정에 응답하여: 상기 클라이언트 디바이스의 하나 이상의 센서로부터의 센서 데이터를 하나 이상의 원격 자동화된 어시스턴트 컴포넌트에 전송하는 단계를 포함하는 것을 특징으로 하는 하나 이상의 프로세서에 의해 구현되는 방법.
제1항에 있어서, 상기 하나 이상의 원격 자동화된 어시스턴트 컴포넌트에 전송되는 센서 데이터는 상기 하나 이상의 카메라로부터의 추가 출력에 기초하는 추가 이미지 프레임들 또는 상기 이미지 프레임들을 포함하는 것을 특징으로 하는 하나 이상의 프로세서에 의해 구현되는 방법.
제1항에 있어서, 상기 하나 이상의 원격 자동화된 어시스턴트 컴포넌트에 전송되는 센서 데이터는 상기 클라이언트 디바이스의 하나 이상의 마이크로폰으로부터의 출력에 기초하는 오디오 데이터를 포함하는 것을 특징으로 하는 하나 이상의 프로세서에 의해 구현되는 방법.
제1항에 있어서, 상기 하나 이상의 원격 자동화된 어시스턴트 컴포넌트에 전송되는 센서 데이터는 상기 사용자의 시선과 상기 사용자의 입의 움직임 모두의 계속되는 발생을 후속적으로 검출하기 전에 버퍼링되는 버퍼링된 센서 데이터를 포함하는 것을 특징으로 하는 하나 이상의 프로세서에 의해 구현되는 방법.
제1항에 있어서, 상기 방법은,
상기 사용자의 시선과 상기 사용자의 입의 움직임이 모두 계속해서 발생하지 않는다는 결정에 응답하여:
상기 센서 데이터를 상기 하나 이상의 원격 자동화된 어시스턴트 컴포넌트에 전송하는 것을 방지하는 단계를 더 포함하는 것을 특징으로 하는 하나 이상의 프로세서에 의해 구현되는 방법.
제1항에 있어서, 상기 인간이 인지할 수 있는 큐는 가청(audible) 출력을 포함하고 그리고 상기 인간이 인지할 수 있는 큐를 렌더링하는 단계는,
상기 클라이언트 디바이스의 스피커를 통해 상기 가청 출력을 렌더링하는 단계를 포함하는 것을 특징으로 하는 하나 이상의 프로세서에 의해 구현되는 방법.
제6항에 있어서, 상기 가청 출력은 상기 자동화된 어시스턴트로부터의 음성 출력을 포함하는 것을 특징으로 하는 하나 이상의 프로세서에 의해 구현되는 방법.
제1항에 있어서, 상기 인간이 인지할 수 있는 큐는 시각적 출력을 포함하고 그리고 상기 인간이 인지할 수 있는 큐를 렌더링하는 단계는,
상기 클라이언트 디바이스의 시각적 디스플레이를 통해 상기 시각적 출력을 렌더링하는 단계를 포함하는 것을 특징으로 하는 하나 이상의 프로세서에 의해 구현되는 방법.
제8항에 있어서, 상기 시각적 출력은 기호(symbol)인 것을 특징으로 하는 하나 이상의 프로세서에 의해 구현되는 방법.
사용자와 자동화된 어시스턴트 간의 터치 없는 상호 작용을 용이하게 하는 클라이언트 디바이스의 하나 이상의 프로세서에 의해 구현되는 방법으로서,
상기 클라이언트 디바이스의 하나 이상의 카메라로부터의 출력에 기초한 이미지 프레임들의 스트림을 수신하는 단계;
상기 클라이언트 디바이스를 향한 상기 사용자의 시선 및 상기 사용자의 입의 움직임 모두의 발생을 모니터링하기 위해, 상기 클라이언트 디바이스에 국부적으로 저장된 하나 이상의 훈련된 기계 학습 모델을 사용하여 상기 스트림의 이미지 프레임들을 처리하는 단계;
상기 모니터링에 기초하여, 상기 사용자의 시선 및 상기 사용자의 입의 움직임 모두의 발생을 검출하는 단계;
상기 사용자와 연관된, 복수의 사용자 프로파일 중 특정 사용자 프로파일을 식별하는 단계; 그리고
상기 사용자와 연관된 상기 특정 사용자 프로파일을 식별하는 것에 응답하여, 그리고 상기 사용자의 시선과 상기 사용자의 입의 움직임 모두의 발생을 검출하는 것에 응답하여:
상기 사용자에 맞게 조정(tailored)되고 그리고 상기 사용자와 연관된 상기 특정 사용자 프로파일에 기초하여 상기 사용자에 맞게 조정된 콘텐츠를 렌더링하는 단계를 포함하는 것을 특징으로 하는 하나 이상의 프로세서에 의해 구현되는 방법.
제10항에 있어서, 상기 특정 사용자 프로파일을 식별하는 단계는,
음성 매칭을 사용하여, 상기 특정 사용자 프로파일을 식별하기 위해 상기 클라이언트 디바이스의 하나 이상의 마이크로폰으로부터의 오디오 데이터를 처리하는 단계를 포함하는 것을 특징으로 하는 하나 이상의 프로세서에 의해 구현되는 방법.
제10항에 있어서, 상기 특정 사용자 프로파일을 식별하는 단계는,
얼굴 매칭을 사용하여, 상기 특정 사용자 프로파일을 식별하기 위해 상기 스트림의 이미지 프레임들을 처리하는 단계를 포함하는 것을 특징으로 하는 하나 이상의 프로세서에 의해 구현되는 방법.
제10항에 있어서, 상기 특정 사용자 프로파일을 식별하는 것은 상기 사용자의 시선 및 상기 사용자의 입의 움직임 모두의 발생을 검출한 후에 그리고 상기 검출에 응답하여 발생하는 것을 특징으로 하는 하나 이상의 프로세서에 의해 구현되는 방법.
제10항에 있어서, 추가 조건의 만족을 결정하는 것에 응답하여 추가로 상기 사용자에 맞게 조정된 콘텐츠를 렌더링하는 것을 특징으로 하는 하나 이상의 프로세서에 의해 구현되는 방법.
클라이언트 디바이스로서,
비전 컴포넌트;
마이크로폰;
하나 이상의 프로세서; 그리고
상기 하나 이상의 프로세서와 작동 가능하게 결합된 메모리를 포함하고, 상기 메모리는 상기 하나 이상의 프로세서에 의한 명령어의 실행에 응답하여, 상기 하나 이상의 프로세서로 하여금 동작들을 수행하도록 하는 명령어를 저장하고,
상기 동작들은:
상기 비전 컴포넌트로부터의 출력에 기초한 비전 프레임들의 스트림을 수신하는 동작;
상기 클라이언트 디바이스를 향한 사용자의 시선 및 상기 사용자의 입의 움직임 모두의 발생을 모니터링하기 위해, 상기 클라이언트 디바이스에 국부적으로 저장된 적어도 하나의 훈련된 기계 학습 모델을 사용하여 상기 스트림의 이미지 프레임들을 처리하는 동작;
상기 모니터링에 기초하여, 상기 사용자의 시선 및 상기 사용자의 입의 움직임 모두의 발생을 검출하는 동작;
상기 사용자와 연관된, 복수의 사용자 프로파일 중 특정 사용자 프로파일을 식별하는 동작; 그리고
상기 사용자와 연관된 상기 특정 사용자 프로파일을 식별하는 것에 응답하여, 그리고 상기 사용자의 시선과 상기 사용자의 입의 움직임 모두의 발생을 검출하는 것에 응답하여:
상기 하나 이상의 프로세서로 하여금, 상기 사용자와 연관된 상기 특정 사용자 프로파일에 기초하여 상기 사용자에 맞게 조정된(tailored) 콘텐츠를 렌더링하는 동작을 포함하는 것을 특징으로 하는 클라이언트 디바이스.
제15항에 있어서, 상기 특정 사용자 프로파일을 식별하는 동작은,
음성 매칭을 사용하여, 상기 특정 사용자 프로파일을 식별하기 위해 상기 마이크로폰으로부터의 오디오 데이터를 처리하는 동작을 포함하는 것을 특징으로 하는 클라이언트 디바이스.
제15항에 있어서, 상기 특정 사용자 프로파일을 식별하는 동작은,
얼굴 매칭을 사용하여, 상기 특정 사용자 프로파일을 식별하기 위해 상기 스트림의 이미지 프레임들을 처리하는 동작을 포함하는 것을 특징으로 하는 클라이언트 디바이스.
제15항에 있어서, 상기 특정 사용자 프로파일을 식별하는 것은 상기 사용자의 시선 및 상기 사용자의 입의 움직임 모두의 발생을 검출한 후에 그리고 상기 검출에 응답하여 상기 특정 사용자 프로파일을 식별하는 것을 특징으로 하는 클라이언트 디바이스.
제15항에 있어서, 상기 하나 이상의 프로세서는 추가 조건의 만족을 결정하는 것에 응답하여 추가로 상기 사용자에 맞게 조정된 콘텐츠를 렌더링하는 것을 특징으로 하는 클라이언트 디바이스.