KR20220103194A

KR20220103194A - 어시스턴트 애플리케이션을 위한 이미지 바로가기를 제공하기 위한 시스템, 방법 및 장치

Info

Publication number: KR20220103194A
Application number: KR1020227023424A
Authority: KR
Inventors: 마신 노왁-프라지고드즈키; 괴칸 바키르
Original assignee: 구글 엘엘씨
Priority date: 2017-09-09
Filing date: 2018-09-07
Publication date: 2022-07-21
Also published as: US20190325222A1; JP6961019B2; US20200250433A1; JP2020530603A; JP2022008901A; KR102634734B1; KR20200007012A; US11600065B2; KR20230034439A; US10366291B2; US11908187B2; US20220309788A1; KR102505903B1; JP7048806B2; KR20210112405A; US11361539B2; CN110730938A; US20230206628A1; EP3532920B1; US20190080168A1

Abstract

하나 이상의 피처들이 사용자의 컴퓨팅 디바이스의 카메라로부터의 이미지(들)(예를 들어, 카메라에서 실시간 이미지 피드)에 존재한다는 결정에 응답하여, 하나 이상의 대응하는 컴퓨터 액션들이 수행되게 하는 이미지 바로가기의 생성 및/또는 이용. 음성 명령과 같은 사용자 인터페이스 입력에 대한 응답으로 이미지 바로가기가 생성될 수 있다. 예를 들어, 사용자 인터페이스 입력은 특정 피처(들)을 갖는 오브젝트(들)이 카메라의 시야 내에 존재하는 것에 응답하여, 하나 이상의 액션들을 수행하도록 자동화된 어시스턴트에게 지시할 수 있다. 후속적으로, 사용자가 그러한 피처(들)을 갖는 오브젝트(들)에 사용자의 카메라를 향하면, 어시스턴트 애플리케이션은 액션(들)이 자동으로 수행되게 할 수 있다. 예를 들어, 어시스턴트 애플리케이션은 이미지 바로가기에 따라 데이터가 제시되게 하고 및/또는 원격 디바이스를 제어할 수 있다.

Description

어시스턴트 애플리케이션을 위한 이미지 바로가기를 제공하기 위한 시스템, 방법 및 장치{SYSTEMS, METHODS, AND APPARATUS FOR PROVIDING IMAGE SHORTCUTS FOR AN ASSISTANT APPLICATION}

사람은 본 명세서에서 "자동화된 어시스턴트"("디지털 에이전트", "챗봇", "인터랙티브 퍼스널 어시스턴트", "지능형 퍼스널 어시스턴트", "대화형 에이전트들"로도 지칭됨)로 지칭되는 인터렉티브 소프트웨어 어플리케이션과의 사람-컴퓨터 간 대화에 참여할 수 있다. 예를 들어, 사람(자동화된 어시스턴트와 인터렉션할 때 "사용자"라고 할 수 있음)은 일부 경우에 텍스트로 변환된 다음 프로세싱될 수 있는 발화된 자연어 입력(즉, 발언)을 사용하여 및/또는 텍스트(예를 들어, 타이핑된) 자연어 입력을 제공함으로써 명령 및/또는 요청을 제공할 수 있다. 자동화된 어시스턴트를 사용하면 정보에 보다 쉽게 액세스할 수 있고 주변 디바이스들을 제어하기 위한 보다 편리한 수단을 사용할 수 있지만, 특정 상황에서는 음성 입력 및/또는 텍스트 명령을 제공하기가 어려울 수 있다. 예를 들어, 사용자는 아침에 다른 가족이 자고 있을 때 자동화된 어시스턴트 애플리케이션에 음성 명령을 제공하기를 원치 않을 수 있다. 이러한 문제 및 기타 문제는 음성 명령에 대한 어시스턴트 애플리케이션의 종속성에서 발생할 수 있다. 그러나, 보다 정교한 명령을 제공하고, 어려운 입력이 적게 명령을 제공하고, 해당 사용자의 프라이버시를 보호하는 명령을 제공하고 및/또는 추가 또는 대안적 이점을 갖는 명령을 제공하는 방법이 있을 수 있다.

본 명세서에 개시된 구현예는 하나 이상의 피처들이 사용자의 컴퓨팅 디바이스의 카메라로부터의 이미지(들)(예를 들어, 카메라에서 실시간 이미지 피드)에 존재한다는 결정에 응답하여, 하나 이상의 대응하는 컴퓨터 액션들이 수행되게 하는 이미지 바로가기의 생성 및/또는 이용하는 것과 관련된다. 다양한 구현예에서, 사용자에 의해 제공된 음성 및/또는 타이핑된 사용자 인터페이스 입력에 응답하여 이미지 바로가기가 생성되고 사용자와 연관되어 저장된다. 예를 들어, 사용자는 자동화된 어시스턴트 애플리케이션에 "내가 카메라를 기차 플랫폼으로 향하면, 기차 스케줄을 알려줘"라는 음성 입력을 제공할 수 있다. 음성 입력에 응답하여, 컴퓨팅 디바이스의 카메라로부터의 실시간 이미지 피드가 "기차 플랫폼"을 표시하는 피처(들)을 갖는 이미지(들)을 캡처한다고 결정함에 응답하여, 기차 스케줄 정보로 하여금 사용자의 컴퓨팅 디바이스에서 그래픽적으로 및/또는 청각적으로 제시되게 하는 이미지 바로가기가 생성될 수 있다. 예를 들어, 컴퓨팅 디바이스를 통해 캡처된 장래 이미지는 "기차 플랫폼" 이미지와 같은 이미지의 분류; "기차", "사람들", "군중", "기차 트랙"과 같은 이미지의 부분(들)의 분류(들) 및/또는 "기차 플랫폼"을 표시하는 다른 분류 등과 같이 "기차 플랫폼"을 나타내는 피처(들)을 식별하기 위해 (컴퓨팅 디바이스에서 로컬적으로 및/또는 원격으로) 프로세싱될 수 있다. 장래 이미지가 상기 피처들의 존재에 기초하여 "기차 플랫폼"을 캡처한다고 결정될 수 있고, 그 응답으로 기차 스케줄 정보가 제시된다. 기차 스케줄 정보는 이미지를 캡처한 것과 동일한 컴퓨팅 디바이스에서 청각적으로 및/또는 그래픽으로 제시될 수 있고 및/또는 이미지를 캡처한 컴퓨팅 디바이스에 링크된 다른 컴퓨팅 디바이스에서 제시될 수 있다(두 컴퓨팅 디바이스들이 동일한 네트워크에 연결되어 있음에 기초하여 두 컴퓨팅 디바이스들에서 사용된 사용자 계정을 통해 링크됨). 일부 구현예에서, 컴퓨팅 디바이스의 현재 위치 및/또는 다른 컨텍스트 데이터는 또한 이미지가 "기차 플랫폼"을 캡처한다는 것을 결정하기 위해 활용될 수 있다. 예를 들어, 이미지가 기차 플랫폼을 캡처한다고 결정하는 것은 이미지의 피처(들)이 "기차 플랫폼"을 표시하는 것으로 결정하는 것; 및 컴퓨팅 디바이스의 현재 위치가 "기차역" 분류를 갖는 것으로 결정하는 것 둘 모두를 포함한다. 분류(들) 및/또는 이미지의 다른 피처들을 결정하기 위해 다양한 이미지 프로세싱 기법들이 활용될 수 있다. 예를 들어, 일부 기법은 이미지를 입력으로 받아들이고, 학습된 파라미터를 사용하여 이미지에 기초한 출력으로서, 복수의 대응하는 피처들 중 어느 것이 이미지 존재하는지를 나타내는 척도(들)를 생성하는 딥 신경 네트워크 모델을 이용할 수 있다.

일부 구현예에서, 이미지 바로가기에 대해 수행될 컴퓨터 액션(들)은 쿼리 생성, 생성된 쿼리 전송, 쿼리 전송에 응답하여 응답 데이터 수신 및/또는 응답 데이터의 전부 또는 일부를 제시를 포함한다. 이러한 구현예들 중 일부에서, 이미지 바로가기는 이미지 바로가기에 따라 제공될 데이터의 유형을 나타내는 쿼리 또는 쿼리 템플릿과 연관된다. 예를 들어, 상기 "기차 플랫폼" 예를 계속하면, 생성된 이미지 바로가기는 "기차 스케줄"의 쿼리, "기차 스케줄"에 대한 쿼리 템플릿을 정의할 수 있다. 일부 구현예에서, 이미지 바로가기에 대한 수행될 컴퓨터 액션(들)은 하나 이상의 주변 디바이스들(예를 들어, 사물 인터넷(IoT) 디바이스)의 상태가 변경되게 하는 하나 이상의 명령을 전송하는 것을 추가적으로 및/또는 대안적으로 포함한다. 예를 들어, 사용자는 자동화된 어시스턴트 애플리케이션에 "아침에 내가 카메라를 내 알람 시계로 향하면, 내 침실 조명을 켜고, 커피 메이커 플러그를 켜줘"라는 음성 입력을 제공할 수 있다. 음성 입력에 응답하여, 사용자의 컴퓨팅 디바이스의 카메라로부터의 실시간 이미지 피드가 임의의 "알람 시계"를 표시하는 피처(들)을 갖는 이미지(들)를 캡처한다는 결정에 응답하여, 사용자의 "침실 조명"과 "커피 메이커 플러그"가 켜지게하는 이미지 바로가기가 생성될 수 있다. 예를 들어, 이미지 바로가기는 결정에 대한 응답으로, "침실 조명"으로 라벨링된 네트워크화된 조명이 "켜지게" 하는 명령이 전송되게 하고, 또한 "커피 메이커 플러그"라고 라벨링된 네트워크화된 플러그가 켜지게 하는 명령이 전송되게 할 수 있다. 하나 이상의 애플리케이션 프로그래밍 인터페이스(API) 및/또는 다른 통신 프로토콜은 디바이스의 상태가 변경되게 하는 명령을 생성 및/또는 전송하는데 이용될 수 있다. 일부 구현예에서, 이미지 바로가기는 "침실 조명" 및 "커피 메이커 플러그"로 하여금 이미지(들)이 알람 시계를 표시하는 피처(들)을 갖지며, 상기 이미지(들)이 "아침"에 캡처되었고(예를 들어, "아침"을 포함하는 음성 입력에 기초하여) 및/또는 상기 이미지(들)이 사용자의 "집" 위치에서 캡처되었다(예를 들어, "내 알람 시계"를 포함하는 음성 입력에 기초하여)는 결정에 기초하여 켜지게 한다. 또한, 일부 구현예에서, 이미지 바로가기를 생성할 때, 자동화된 어시스턴트는 사용자에게 사용자의 특정한 알람 시계의 이미지(들)를 캡쳐하도록 프롬프트할 수 있고, 그 후에 실시간 이미지 피드가 사용자의 특정한 알람 시계의 피처(들)과 매칭되는(상기 프롬프트에 응다하여 캡처된 이미지(들)로부터 도출된 것과 같은) 피처(들)을 가지는 이미지(들)을 캡처하는 것에만 응답하여 이미지 바로가기를 트리거할 수 있다.

일부 구현예에서, 이미지 바로가기에 대해 수행될 컴퓨터 액션(들)은 추가로 및/또는 대안적으로 하나 이상의 전자 통신을 다른 사용자에게 전송하는 것을 포함한다. 예를 들어, 사용자는 자동화된 어시스턴트 애플리케이션에 "내가 직장에서 카메라를 내 자동차 키로 향하면, 교통정보를 알려주고, 교통정보를 와이프에 문자해줘"라는 음성 입력을 제공할 수 있다. 음성 입력에 응답하여, 사용자가 직장에 있고, 사용자의 컴퓨팅 디바이스의 카메라로부터의 실시간 이미지 피드가 "자동차 키"를 표시하는 피처(들)을 가지는 이미지(들)을 캡처함에 응답하여, 교통 정보가 컴퓨팅 디바이스(또는 사용자의 다른 컴퓨팅 디바이스)에 제시되게 하고, 교통 정보를 포함하는 문자 메시지가 자동적으로 생성되고 사용자의 "와이프" 연락처에 자동적으로 전송되게 하는 이미지 바로가기가 생성될 수 있다.

본 명세서에 개시된 구현예의 다른 예로서, 자신의 아침 루틴을 수행하는 동안, 사용자는 자신의 휴대용 컴퓨팅 디바이스에 저장된 자신의 일정을 보기 원할 수 있다. 사용자가 일정을 보기 위해 음성 명령을 사용하여 자동화된 어시스턴트를 호출할 수 있지만(예: "어시스턴트, 내 일정을 보여줄 수 있어?"), 대신에 사용자는 휴대용 컴퓨팅 디바이스의 카메라가 하나 이상의 특정한 피처들을 갖는 오브젝트에 향하게 된 경우 자동으로 일정을 제공하도록 자동화된 어시스턴트를 구성할 수 있다. 사용자는 예를 들면, "어시스턴트, 아침에 내가 카메라를 거울을 향하게 하면, 내 일정을 보여줘"와 같은 음성 명령을 사용하여 이 설정을 구성할 수 있다. 이에 응답하여, 자동화된 어시스턴트는 새로운 이미지 바로가기 구성과 관련된 텍스트를 식별하기 위해 음성 명령이 파싱되도록 할 수 있다. 그 다음 새로운 이미지 바로가기 구성이 생성되고 추후 사용을 위해 저장될 수 있다. 예를 들어, 새로운 이미지 바로가기 구성은 현재 "아침"이고; 카메라에 의해 캡처된 이미지(들)이 거울을 포함한다고 결정함에 응답하여, 휴대용 컴퓨팅 디바이스를 통해 사용자의 현재 일정이 사용자에게 청각적 및/또는 그래픽으로 제공되게 할 수 있다. 예를 들어, 다음 날 아침, 사용자는 휴대용 컴퓨팅 디바이스에서 카메라 애플리케이션을 열고 카메라를 거울을 향하게 할 수 있다. "아침"이고, 카메라가 거울을 향하는 것에 응답하여, 자동화된 어시스턴트는 그 날의 사용자의 일정이 휴대용 컴퓨팅 디바이스에 제시되게 할 수 있다.

다양한 구현예에서, 본 명세서에 기술된 상기 및 다른 기법들은 사용자가 어려운 타이핑된 입력을 제공할 필요 없이 및/또는 사용자가 프라이버시 문제(예를 들어, 다른 사람이 주변에 있는 경우)을 일으킬 수 있는 음성 입력을 제공할 필요 없이, 사용자가 자동화된 어시스턴트와 인터렉션하게 하고 자동화된 어시스턴트로부터 관련 출력을 얻게 할 수 있다. 또한, 다양한 구현예들은 다른 기법에 비해 관련 출력을 얻기 위해 요구되는 입력의 수를 감소시킬 수 있으며, 이는 클라이언트 디바이스 계산 리소스를 보존하고 및/또는 사용자에게 음성 및/또는 손 사용 문제를 보조할 수 있다. 또한, 본 명세서에 개시된 다양한 구현예는 이미지들에 포함된 오브젝트(들)의 피처(들)을 결정하기 위해 클라이언트 디바이스에서 로컬로 이미지의 프로세싱을 수행한다. 이러한 다양한 구현예 중 일부에서, 클라이언트 디바이스는 결정된 피처들에 기초하여 그리고 선택적으로 또한 로컬에서 결정된 컨텍스트 데이터(예를 들어, 현재 시간, 현재 요일, 클라이언트 디바이스의 현재 위치)에 기초하여 이미지 바로가기 설정이 인스턴스화될지 로컬적으로 결정한다. 또한, 클라이언트 디바이스는 이미지 바로가기 설정이 인스턴스화되었다는 결정에 응답하여 자체적으로 이미지 바로가기 설정의 컴퓨터 액션을 로컬로 수행할 수 있거나 또는 쿼리 및/또는 다른 데이터를 하나 이상의 원격 디바이스로 전송하여 (이미지 및/또는 컨텍스트 데이터를 전송하지 않고) 컴퓨터 액션들 중 하나 이상이 수행되게 한다. 이 방식에서, 이미지 및/또는 컨텍스트 데이터는 클라이언트 디바이스로부터 전송될 이미지들이 이미지 바로가기 설정의 컴퓨터 액션(들)이 수행되게 할 것을 요하지 않고 클라이언트 디바이스에서 유지될 수 있어서, 그에 따라 이미지 및/또는 컨텍스트 데이터의 보안을 향상시킨다.

일부 구현예에서, 하나 이상의 프로세서들에 의해 구현되는 방법은 어시스턴트 애플리케이션에 의해 컴퓨팅 디바이스의 카메라로부터의 실시간 이미지 피드가 오브젝트의 그래픽 표현을 포함하는지를 결정하는 것과 같은 단계들을 포함하는 것으로서 설명된다. 결정은 하나 이상의 이미지 프로세싱 기법을 사용하여 카메라로부터 이미지를 프로세싱하는 것을 포함할 수 있다. 단계들은 또한 오브젝트와 연관된 이미지 바로가기 설정을 식별하는 것을 포함할 수 있다. 상기 이미지 바로가기 설정은 상기 어시스턴트 애플리케이션이 실시간 이미지 피드에 제공된 이미지 컨텐츠에 응답하는 미리 구성된 프로세스에 대응할 수 있다. 단계들은 이미지 바로가기 설정과 연관된 쿼리를 생성하는 단계를 더 포함할 수 있다. 상기 쿼리는 상기 어시스턴트 애플리케이션이 상기 이미지 바로가기 설정에 따라 제공하는 데이터의 유형에 대한 데이터 식별자를 포함할 수 있다. 추가적으로, 상기 단계들은 상기 쿼리에 기초하여 데이터를 수신하는 단계를 포함할 수 있고, 상기 데이터는 상기 이미지 바로가기 설정과 연관된 상기 데이터의 유형에 대응한다. 상기 실시간 이미지 피드가 오브젝트의 그래픽 표현을 포함한다고 결정함에 응답하여, 그리고 상기 오브젝트와 연관하여 저장된 상기 이미지 바로가기 설정에 기초하여, 하나 이상의 프로세서들은 오브젝트 데이터가 실시간 이미지 피드와 함께 컴퓨팅 디바이스에서 렌더링되게 하는 단계를 수행할 수 있다.

상기 쿼리는 상기 카메라로부터의 상기 실시간 이미지 피드의 컨텍스트에 대한 컨텍스트 식별자를 더 포함할 수 있다. 상기 컨텍스트 식별자는 상기 실시간 이미지 피드가 상기 카메라에 의해 제공된 위치를 식별할 수 있다. 상기 이미지 바로가기 설정은 상기 어시스턴트 애플리케이션을 통해 적어도 부분적으로 프로세싱되는 구두 명령을 통해 사용자에 의해 미리 구성될 수 있다. 단계들은 상기 쿼리를 상기 컴퓨팅 디바이스에서의 별개의 애플리케이션에 전송하는 단계를 더 포함하며, 상기 데이터는 상기 별개의 애플리케이션으로부터 수신된다. 상기 데이터의 유형은 상기 어시스턴트 애플리케이션과 독립적으로 변화하는 동적 데이터에 대응할 수 있다. 상기 어시스턴트 애플리케이션으로부터의 쿼리에 대한 응답인 상기 데이터는 원격 디바이스로부터 수신될 수 있다.

다른 구현예에서, 시스템은 카메라, 디스플레이 디바이스, 스피커, 상기 카메라, 상기 디스플레이 디바이스 및 상기 스피커와 통신하는 하나 이상의 프로세서들, 및 상기 하나 이상의 프로세서들에 의해 실행될 때 상기 하나 이상의 프로세서들로 하여금 단계들을 수행하게 하는 명령어들을 저장하도록 구성된 메모리를 포함하며, 상기 단계들은 상기 카메라에 의해 제공된 실시간 이미지 피드로부터의 이미지에 기초하여 오브젝트 식별자를 생성하는 단계를 포함한다. 상기 오브젝트 식별자를 생성하는 단계는 하나 이상의 이미지 프로세싱 기법을 사용하여 이미지를 프로세싱하는 것을 포함할 수 있다. 단계들은 또한 오브젝트 식별자가 이미지 바로가기 설정에 대응한다고 결정하는 단계를 포함할 수 있다. 상기 이미지 바로가기 설정은 상기 실시간 이미지 피드에 나타나는 오브젝트에 응답하여 데이터를 제공하게 할 수 있다. 단계들은 상기 쿼리를 수신함에 응답하여, 상기 데이터를 검색하도록 구성된 원격 디바이스에 쿼리를 전송하는 단계, 상기 이미지 바로가기 설정과 연관된 데이터를 상기 원격 디바이스로부터 수신하는 단계, 및 상기 디스플레이 디바이스 및 상기 스피커 중 적어도 하나를 통해 상기 데이터를 제시하게 하는 단계를 더 포함할 수 있다.

상기 데이터는 상기 디스플레이 디바이스에서 디스플레이되는 상기 실시간 이미지 피드와 동시에 제시될 수 있다. 단계들은 상기 실시간 이미지 피드로부터 상기 이미지에 대한 컨텍스트 식별자를 결정하는 단계를 더 포함할 수 있고, 상기 쿼리는 컨텍스트 식별자를 포함한다. 상기 컨텍스트 식별자는 상기 이미지가 상기 카메라에 의해 생성된 위치를 특정할 수 있다. 시스템은 또한 마이크로폰을 포함할 수 있고, 단계들은 상기 마이크로폰으로부터, 상기 이미지 바로가기 설정이 생성되게 하는 사용자로부터의 요청에 대응하는 오디오 데이터를 수신하는 단계를 더 포함할 수 있다. 오디오 데이터는 상이한 이미지가 카메라에 의해 제공되는 경우 수신될 수 있다. 또한 단계들은 상기 오디오 데이터로부터 오브젝트 설명을 식별하는 단계, 상기 오브젝트 설명과 상기 상이한 이미지 사이의 대응 관계를 결정하는 단계, 및 상기 오브젝트 설명에 적어도 기초하여 상기 이미지 바로가기 설정을 생성하는 단계를 더 포함할 수 있다.

또 다른 구현예에서, 비일시적 컴퓨터 판독가능 매체가 명령어들을 저장하는 것으로 설명되며, 상기 명령어들은 하나 이상의 프로세서에 의해 실행될 때, 상기 하나 이상의 프로세서로 하여금 단계들을 수행하게 하는 하며, 상기 단계들은 이미지 바로가기 설정을 생성하기 위해 어시스턴트 애플리케이션에 대한 요청에 대응하는 오디오 데이터를 수신하는 단계 및 컴퓨팅 디바이스의 카메라에 의해 생성된 실시간 이미지 피드로부터의 이미지 데이터를 수신하는 단계를 포함하며, 상기 어시스턴트 애플리케이션은 상기 컴퓨팅 디바이스에 액세스할 수 있다. 또한 단계들은 오디오 데이터로부터, 어시스턴트 애플리케이션으로부터의 데이터에 대한 요청을 식별하는 단계 및 상기 이미지 데이터로부터, 컴퓨팅 디바이스의 카메라가 향하는 오브젝트에 대응하는 오브젝트 식별자를 식별하는 단계를 포함할 수 있다. 상기 오브젝트 식별자를 식별하는 단계는 하나 이상의 이미지 프로세싱 기법을 사용하여 이미지 데이터를 프로세싱하는 것을 포함할 수 있다. 단계들은 상기 요청 및 상기 오브젝트 식별자에 기초하여 상기 이미지 바로가기 설정을 생성하는 단계를 더 포함할 수 있다. 이미지 바로가기 설정은 어시스턴트 애플리케이션이 카메라에서 생성된 실시간 이미지 피드에 응답하도록 구성될 수 있다. 추가적으로, 단계들은 이미지 바로가기 설정에 따라, 어시스턴트 애플리케이션이 카메라가 오브젝트 식별자와 연관된 상이한 이미지 데이터를 제공하는 것에 응답하여 데이터를 제공하게 하는 단계를 포함할 수 있다.

일부 구현예에서, 단계들은 상이한 이미지 데이터로부터, 카메라가 이전에 향했던 오브젝트를 식별하는 단계 및 요청에 대응하는 데이터를 제공하는 원격 서비스에 액세스하는 단계를 포함할 수 있다. 상기 오브젝트에 대응하는 상기 오브젝트 식별자를 식별하는 단계는 상기 컴퓨팅 디바이스의 카메라가 향하는 다수의 상이한 오브젝트들에 대응하는 다수의 오브젝트 식별자들을 식별하는 것을 포함할 수 있다. 이미지 바로가기 설정은 다수의 오브젝트 식별자들에 더 기초할 수 있다. 일부 구현예에서, 단계들은 또한 오디오 데이터 또는 이미지 데이터로부터 요청에 대한 컨텍스트 식별자를 식별하는 단계를 포함할 수 있다. 이미지 바로가기 설정은 컨텍스트 식별자에 더 기초하여 생성될 수 있다. 컨텍스트 식별자는 요청 시간을 식별할 수 있고, 어시스턴트 애플리케이션은 카메라가 식별된 시간에 상이한 이미지 데이터를 제공하는 것에 응답하여 데이터를 더 제공할 수 있다.

또 다른 구현예에서, 하나 이상의 프로세서들에 의해 구현되는 방법이 설명되고, 상기 방법은 하나 이상의 이미지 프로세싱 기법들을 사용하여 컴퓨팅 디바이스의 카메라로부터 이미지(들)를 프로세싱하는 단계 및 상기 프로세싱에 기초하여, 이미지(들)가 하나 이상의 피처들을 포함한다고 결정하는 단계를 포함한다. 상기 방법은 하나 이상의 피처들과 연관된 이미지 바로가기 설정을 식별하는 단계를 더 포함한다. 이미지 바로가기 설정은 이미지(들)가 하나 이상의 피처들을 포함한다는 결정에 응답하여 수행될 하나 이상의 컴퓨터 액션들을 정의한다. 상기 방법은 이미지(들)이 하나 이상의 피처들을 포함한다는 결정에 응답하여 그리고 하나 이상의 피처들과 연관되어 저장된 이미지 바로가기 설정에 기초하여, 하나 이상의 컴퓨터 액션들을 수행하는 단계를 더 포함한다.

하나 이상의 컴퓨터 액션들은 명령이 적어도 하나의 주변 디바이스로 전송되게 하는 단계를 포함할 수 있으며, 여기서 명령은 적어도 하나의 주변 디바이스의 상태가 변경되게 한다. 하나 이상의 컴퓨터 액션들은 쿼리를 전송하는 것, 쿼리에 응답하여 데이터를 수신하는 것 및 컴퓨팅 디바이스 및/또는 컴퓨팅 디바이스에 연결된 다른 컴퓨팅 디바이스에 데이터가 제시되게 하는 것을 추가로 또는 대안적으로 포함할 수 있다. 쿼리는 하나 이상의 피처들에 기초하여 및/또는 이미지(들)의 캡처와 연관된 컨텍스트 데이터에 기초하여 선택적으로 생성될 수 있다. 하나 이상의 컴퓨터 액션들은 추가로 또는 대안적으로 전자 통신(예를 들어, 이메일, 문자 메시지)이 추가 사용자(들)의 추가 컴퓨팅 디바이스(들)로 전송되게 하는 단계를 포함할 수 있다. 이미지(들)는 카메라의 실시간 이미지 피드로부터 제공될 수 있다.

또 다른 구현들에서, 하나 이상의 프로세서들에 의해 구현되는 방법이 설명되고, 상기 방법은 이미지 바로가기 설정을 생성하기 위한 요청에 대응하는 오디오 데이터를 수신하는 단계 및 컴퓨팅 디바이스의 카메라에 의해 생성된 실시간 이미지 피드로부터 이미지 데이터를 수신하는 단계를 포함한다. 상기 방법은 상기 오디오 데이터로부터, 수행될 하나 이상의 컴퓨터 액션들을 식별하는 단계; 및 상기 이미지 데이터로부터, 컴퓨팅 디바이스의 카메라가 향하는 오브젝트에 대응하는 오브젝트 식별자를 식별하는 단계를 더 포함할 수 있다. 상기 오브젝트 식별자를 식별하는 단계는 하나 이상의 이미지 프로세싱 기법을 사용하여 이미지 데이터를 프로세싱하는 것을 포함한다. 상기 방법은 상기 요청 및 상기 오브젝트 식별자에 기초하여 상기 이미지 바로가기 설정을 생성하는 단계를 더 포함한다. 상기 이미지 바로가기 설정은 상기 카메라로부터의 후속 실시간 이미지 피드로부터 후속 이미지 데이터로부터 상기 오브젝트 식별자를 식별함에 응답하여, 상기 하나 이상의 컴퓨터 액션들이 수행되도록 구성된다. 상기 방법은 상기 이미지 바로가기 설정에 따라, 상기 후속 이미지 데이터로부터 상기 오브젝트 식별자를 식별함에 응답하여, 상기 하나 이상의 컴퓨터 액션들이 수행되게 하는 단계를 더 포함한다.

하나 이상의 컴퓨터 액션들은 명령을 적어도 하나의 주변 디바이스에 전송하는 단계를 포함할 수 있으며, 여기서 명령은 적어도 하나의 주변 디바이스의 상태가 변경되게 한다. 방법은: 상기 오디오 데이터 또는 상기 이미지 데이터로부터, 상기 요청에 대한 컨텍스트 식별자를 식별하는 단계 및 상기 컨텍스트 식별자에 추가로 기초하여 상기 이미지 바로가기 설정을 생성하는 단계를 더 포함할 수 있다. 상기 컨텍스트 식별자는 적어도 하나의 시간 또는 적어도 하나의 위치를 식별하며, 상기 이미지 바로가기 설정에 따라, 상기 하나 이상의 컴퓨터 액션들이 수행되게 하는 단계는 상기 적어도 하나의 시간과 일치하는 시간에 및/또는 상기 적어도 하나의 위치와 일치하는 위치에서 제공되는 후속 이미지 데이터에 응답하여 추가로 수행될 수 있다.

추가로, 일부 구현예들은 하나 이상의 컴퓨팅 디바이스들의 하나 이상의 프로세서들을 포함하며, 상기 하나 이상의 프로세서들은 연관된 메모리에 저장된 명령어들을 실행하도록 동작가능하며, 상기 명령어들은 본 명세서에 기술된 하나 이상의 방법들을 수행하게 하도록 구성된다. 프로세서는 하나 이상의 그래픽 프로세싱 유닛(GPU), 중앙 프로세싱 유닛(CPU) 및/또는 텐서 프로세싱 유닛(TPU)을 포함할 수 있다. 일부 구현예들은 본 명세서에 기술된 하나 이상의 방법들을 수행하도록 하나 이상의 프로세서들에 의해 실행가능한 컴퓨터 명령어들을 저장하는 하나 이상의 비일시적 컴퓨터 판독가능 저장 매체를 포함한다.

본 명세서에서 매우 상세히 기술된 상기 개념들 및 추가적 개념들의 모든 조합들은 본 명세서에 개시된 본 발명의 일부인 것으로 고려되어야 한다. 예를 들면, 본 명세서의 끝부분에 나타나는 청구된 발명의 모든 조합들은 본 명세서에 개시된 본 발명의 일부인 것으로 고려된다.

도 1은 사용자에 의해 생성된 이미지 바로가기 설정에 따라 카메라 이미지들에 응답할 수 있는 자동화된 어시스턴트를 제공하기 위한 시스템을 도시한다.
도 2a는 사용자의 지시에 따라 이미지 바로가기 설정을 생성할 수 있는 어시스턴트 애플리케이션을 동작하는 컴퓨팅 디바이스의 도면을 도시한다.
도 2b는 컴퓨팅 디바이스의 카메라를 이미지 바로가기 설정과 연관된 오브젝트로 향하게 함으로써 이미지 바로가기 설정을 초기화하는 사용자에 대한 응답을 제공하는 컴퓨팅 디바이스의 도면을 도시한다.
도 3a는 어시스턴트 애플리케이션에 대한 이미지 바로가기 설정을 구성하는데 사용되는 컴퓨팅 디바이스의 도면을 도시한다.
도 3b는 이미지 바로가기 설정에 따라 어시스턴트 애플리케이션을 동작하는 컴퓨팅 디바이스의 도면을 도시한다.
도 4a는 어시스턴트 애플리케이션으로 하여금 어시스턴트 애플리케이션에 의해 수신된 컨텍스트 데이터에 적어도 기초하여 데이터를 제공하거나 액션을 수행하게 할 수 있는 이미지 바로가기 설정을 구성하는데 사용되는 컴퓨팅 디바이스의 도면을 도시한다.
도 4b는 어시스턴트 애플리케이션이 이전에 생성된 이미지 바로가기 설정에 따라 액션을 수행하도록 하기 위해 기차역에서 컴퓨팅 디바이스의 카메라를 향하게 하는 사용자의 도면을 도시한다.
도 5a는 컴퓨팅 디바이스상에서 동작하는 어시스턴트 애플리케이션이 사용자가 컴퓨팅 디바이스의 카메라를 거울로 향하게 하는 것에 응답하는 이미지 바로가기 설정을 생성하는 사용자의 도면을 도시한다.
도 5b는 이미지 바로가기 설정에 따른 기능을 수행하기 위해 어시스턴트 애플리케이션을 호출하는 사용자의 도면을 도시한다.
도 6은 어시스턴트 애플리케이션의 이미지 바로가기 설정에 따라 어시스턴트 애플리케이션이 사용자에게 데이터를 제공하게 하는 방법을 도시한다.
도 7은 적어도 사용자로부터의 명령에 따라 이미지 바로가기 설정을 생성하는 방법을 도시한다.
도 8은 예시적 컴퓨터 시스템의 블록도이다.

본 명세서에 개시된 구현예는 컴퓨팅 디바이스의 카메라가 하나 이상의 오브젝트를 향할 때 어시스턴트 애플리케이션이 하나 이상의 기능을 수행하게 할 수 있는 이미지 바로가기 설정에 관한 것이다. 예를 들어, 자신의 아침 루틴을 수행하는 동안, 사용자는 자신의 휴대용 컴퓨팅 디바이스에 저장된 자신의 일정을 보기 원할 수 있다. 사용자가 일정을 보기 위해 음성 명령을 사용하여 자동화된 어시스턴트를 호출할 수 있지만(예: "어시스턴트, 내 일정을 보여줄 수 있어?"), 대신에 사용자는 휴대용 컴퓨팅 디바이스의 카메라가 하나 이상의 특정한 피처들을 갖는 오브젝트에 향하게 된 경우 자동으로 일정을 제공하도록 자동화된 어시스턴트를 구성할 수 있다. 사용자는 예를 들면, "어시스턴트, 아침에 내가 카메라를 거울을 향하게 하면, 내 일정을 보여줘"와 같은 음성 명령을 사용하여 이 설정을 구성할 수 있다. 이에 응답하여, 자동화된 어시스턴트는 새로운 이미지 바로가기 구성과 관련된 텍스트를 식별하기 위해 음성 명령이 파싱되도록 할 수 있다. 그 다음 새로운 이미지 바로가기 구성이 생성되고 추후 사용을 위해 저장될 수 있다. 예를 들어, 새로운 이미지 바로가기 구성은 현재 "아침"이고; 카메라에 의해 캡처된 이미지(들)이 거울을 포함한다고 결정함에 응답하여, 휴대용 컴퓨팅 디바이스를 통해 사용자의 현재 일정이 사용자에게 청각적 및/또는 그래픽으로 제공되게 할 수 있다. 예를 들어, 다음 날 아침, 사용자는 휴대용 컴퓨팅 디바이스에서 카메라 애플리케이션을 열고 카메라를 거울을 향하게 할 수 있다. "아침"이고, 카메라가 거울을 향하는 것에 응답하여, 자동화된 어시스턴트는 그 날의 사용자의 일정이 휴대용 컴퓨팅 디바이스 및/또는 사용자의 다른 컴퓨팅 디바이스에 제시되게 할 수 있다. 예를 들어, 사용자는 휴대용 시계의 카메라를 거울로 향하게 할 수 있고, 이에 대한 응답으로, 사용자의 일정이 사용자의 스마트 폰, 사용자의 스마트 텔레비전 또는 사용자의 단독형 음성 활성화 스피커에 청각적으로 및/또는 그래픽으로 제시될 수 있다.

일부 구현예에서, 사용자는 휴대용 컴퓨팅 디바이스의 카메라에 의해 생성된 이미지들에 관한 정보를 제공하도록 자동화된 어시스턴트를 구성할 수 있다. 예를 들어, 사용자는 사용자가 하늘을 향해 카메라를 향하게 하는 경우, 날씨 정보를 제공하도록 자동화된 어시스턴트에 구두로 지시할 수 있다(예: "어시스턴트, 내가 하늘을 향해 카메라를 대면 날씨 정보를 알려줘"). 그 후, 사용자가 카메라를 하늘로 향하게 하는 경우, 자동화된 어시스턴트는 날씨 애플리케이션 또는 날씨 데이터에 대한 웹사이트에 질의하고, 휴대용 컴퓨팅 디바이스의 디스플레이 및/또는 다른 컴퓨팅 디바이스의 디스플레이에서 날씨 데이터를 제시할 수 있다. 일부 구현예에서, 자동화된 어시스턴트는 날씨 정보를 제공하기 위해 카메라에 의해 캡처된 하늘 이미지와 함께 휴대용 컴퓨팅 디바이스의 지리적 위치를 사용할 수 있다. 예를 들어, 자동화된 어시스턴트는 위치 및/또는 이미지로부터 도출된 오브젝트 정보를 포함하는 쿼리를 생성할 수 있다. 쿼리는 날씨 애플리케이션, 날씨 웹사이트 및/또는 날씨 정보를 위한 임의의 다른 소스에 제공될 수 있다. 자동화된 어시스턴트는 위치 및/또는 카메라에 의해 캡처된 이미지에 특정한 날씨 정보를 수신할 수 있다. 위치에 특정된 날씨 정보는 온도, 습도, 강수량, 구름 범위 및/또는 위치에 특정적일 수 있는 다른 날씨 정보에 대응하는 예보를 포함할 수 있다.

일부 구현예에서, 카메라에 의해 캡처된 이미지는 컴퓨팅 디바이스 또는 자동화된 어시스턴트에 의해 제공된 정보가 식별된 오브젝트들에 기초할 수 있도록 이미지 내에서 오브젝트들을 식별하기 위한 서비스를 제공하는 원격 디바이스에서 프로세싱될 수 있다. 예를 들어, 사용자가 사용자가 카메라를 하늘로 향하게 하는 경우 날씨 정보를 제공하도록 사용자가 자동화된 어시스턴트를 구성한 경우, 하늘의 오브젝트들이 식별되고, 날씨 정보를 제공하기 위한 기초로서 사용될 수 있다. 이러한 오브젝트들은 구름 또는 구름없는 하늘일 수 있다. 구름이 없는 경우, 자동화된 어시스턴트는 사용자가 구름 범위의 상태를 추론할 수 있다는 가정에 적어도 기초하여 구름 범위에 관한 세부 사항없이 날씨 정보를 제공할 수 있다.

일부 구현예에서, 사용자는 이미지가 캡처될 때의 시간 및/또는 위치 및/또는 임의의 다른 컨텍스트 데이터를 고려하여, 카메라로부터의 이미지에 응답하도록 자동화된 어시스턴트를 구성할 수 있다. 예를 들어, 사용자는 사용자가 카메라를 기차역을 향하게 할 때 교통 정보를 원한다고 자동화된 어시스턴트에 지시할 수 있다(예: "어시스턴트, 내가 카메라를 기차역을 향하게 하면 교통 정보를 제공해줘"). 이에 응답하여, 사용자가 추후에 카메라를 기차 또는 기차역으로 향하게 하면, 자동화된 어시스턴트는 교통 정보를 제공할 수 있다. 교통 정보는 카메라가 기차 또는 기차역의 이미지를 캡처하는 시간, 요일 및/또는 특정한 날짜, 휴대용 컴퓨팅 디바이스의 현재 위치, 사용자의 저장된 개인 정보(예를 들어, 사용자의 일정, 사용자의 집 또는 직장 주소) 및/또는 임의의 기타 컨텍스트 데이터에 기초할 수 있다. 예를 들어, 이미지가 주중 아침에 캡처되면, 자동화된 어시스턴트는 휴대용 컴퓨팅 디바이스의 현재 위치로부터 사용자의 직장 주소로의 교통 정보를 결정할 수 있다. 예를 들어, 자동화된 어시스턴트는 현재 위치에서 직장 위치로 대중 교통 경로를 찾는 쿼리를 생성하고 제출할 수 있다. 교통 정보는 쿼리에 응답하여 수신될 수 있고, 휴대용 컴퓨팅 디바이스에서 사용자에게 제시하기 위해 제공될 수 있다. 반면에, 사용자가 이미지를 캡처하는 시간이 저녁 시간인 경우, 자동화된 어시스턴트는 사용자의 집으로 이동하기에 적합한 교통 정보를 검색하고 제공할 수 있다. 또 다른 예로서, 사용자의 일정이 특정한 위치에서 예정된 약속을 나타내는 경우, 자동화된 어시스턴트는 특정한 위치로 이동하기에 적절한 교통 정보를 검색하고 제공할 수 있다. 다른 구현예에서, 자동화된 어시스턴트는 사용자가 자신의 카메라를 저녁에 기차 또는 기차역을 향하게 한 경우, 읽거나 시청하거나 들을 매체(예를 들면, 기사, 팟캐스트 등)를 제공하기 위해 사용자에 의해 구성될 수 있다(예를 들어, "어시스턴트, 내가 야근 중에 카메라를 기차로 향하게 하면 팟캐스트를 제공해줘"). 이들 및 다른 방식으로, 사용자는 정보를 사용자에게 제공하기 위해 자동화된 어시스턴트를 호출하기 위해 반드시 구두 또는 문자 명령을 제공할 필요가 없다.

일부 구현예에서, 사용자는 사용자가 카메라를 특정한 오브젝트로 향하게 하는 것에 응답하여, 자신의 디바이스에 저장되거나 자신의 디바이스를 통해 액세스 가능한 정보를 제공하도록 자동화된 어시스턴트를 구성할 수 있다. 예를 들어, 사용자는 휴대용 컴퓨팅 디바이스의 노트에 자전거 자금 코드를 저장할 수 있다. 사용자가 휴대용 컴퓨팅 디바이스의 카메라를 자전거 자물쇠에 향하게 하는 경우, 사용자는 자동화된 어시스턴트에게 자전거 잠금 코드에 대한 이미지 바로가기를 생성하도록 지시할 수 있다. 다시 말해, 사용자는 "어시스턴트, 내가 카메라를 자전거 자물쇠로 향하게 하면, 내 노트에 있는 자전거 잠금 코드를 알려줘"와 같은 명령으로 자동화된 어시스턴트를 호출할 수 있다. 그 후, 사용자가 카메라를 자전거 자물쇠를 향하게 하면, 자동화된 어시스턴트는 자전거 잠금 코드가 제시되게 하거나, 자전거 잠금 코드를 사용자에게 제시하는 상태로 자전거 잠금 코드를 포함하는 노트 애플리케이션이 열리게 할 수 있다. 자전거 잠금 코드는 선택적으로 카메라가 향하는 자전거 자물쇠의 실시간 이미지 피드를 제공하는 카메라 애플리케이션과 동시에 제시될 수 있다.

다른 구현예에서, 자동화된 어시스턴트는 휴대용 컴퓨팅 디바이스의 카메라를 특정한 오브젝트로 향하게 하는 경우 원격 디바이스들로부터 정보를 제공하도록 구성될 수 있다. 예를 들어, 사용자는 휴대용 컴퓨팅 디바이스의 카메라를 휴가용 집의 문을 향하게 하는 경우 휴가용 집에 대한 보안 코드를 제공하도록 자동화된 어시스턴트를 구성할 수 있다. 예를 들어, "어시스턴트, 내가 카메라를 문을 향하게 하면, 이 문에 대한 보안 코드를 알려줘"와 같은 명령에 응답하는 이 방식으로 자동화된 어시스턴트를 구성할 수 있다. 자동화된 어시스턴트에 의해 제공되는 정보(예를 들어, 보안 코드)는 카메라에 의해 캡처된 이미지, 휴대용 컴퓨팅 디바이스의 위치 및/또는 원격 디바이스로부터의 데이터에 기초할 수 있다. 예를 들어, 보안 코드는 사용자에게 전송된 이메일로부터 추출되어 휴대용 컴퓨팅 디바이스가 액세스 가능한 이메일 서버에 저장될 수 있다. 자동화된 어시스턴트는 보안 코드를 검색하기 위해 이메일 서버(또는 관련 서버)에 쿼리를 제공할 수 있다. 쿼리는 사용자의 다른 이메일로부터 추출된 복수의 후보 보안 코드(예를 들어, 다른 위치에 대응할 수 있는 보안 코드)로부터 상기 보안 코드를 식별하기 위해 이미지가 촬영된 위치의 식별자를 선택적으로 포함할 수 있다. 자동화된 어시스턴트가 보안 코드를 검색한 경우, 사용자가 카메라를 휴가용 집의 문을 향하게 하는 동안 보안 코드는 휴대용 컴퓨팅 디바이스의 디스플레이에 제시될 수 있다. 대안적으로, 자동화된 어시스턴트는 다른 매체를 통해(예를 들어, 문자 메시지, 오디오 공지 등을 통해) 보안 코드를 제공할 수 있다. 예를 들어, 자동화된 어시스턴트는 보안 코드를 오디오로 변환한 다음 휴대용 컴퓨팅 디바이스의 스피커에 의해 투사될 수 있다(예: "내가 이 문을 향해 카메라를 가리키면, 문에 대한 보안 코드를 알려줘"). 그 후, 사용자가 카메라를 문을 향하게 하면, 자동화된 어시스턴트는 보안 코드를 청각적으로 제공할 수 있다(예를 들어, "이메일로부터의 보안 코드는 2, 7, 1, 8, 2입니다").

도면들을 참조하면, 도 1은 사용자에 의해 생성된 이미지 바로가기 설정에 따라 카메라 이미지들에 응답할 수 있는 자동화된 어시스턴트를 제공하기 위한 시스템(100)을 도시한다. 자동화된 어시스턴트는 컴퓨팅 디바이스(102) 또는 서버 디바이스(112)와 같은 원격 디바이스(124)에 제공되는 어시스턴트 애플리케이션(118)의 일부로서 동작할 수 있다. 사용자는 어시스턴트 인터페이스(110)를 통해 자동화된 어시스턴트와 인터렉션할 수 있으며, 어시스턴트 인터페이스(110)는 마이크로폰, 카메라, 터치스크린 디스플레이, 사용자 인터페이스 및/또는 사용자와 애플리케이션 사이의 인터페이스를 제공할 수 있는 임의의 다른 장치일 수 있다. 예를 들어, 사용자는 어시스턴트 인터페이스(110)에 구두, 텍스트 또는 그래픽 입력을 제공함으로써 자동화된 어시스턴트를 초기화하여, 자동화된 어시스턴트가 기능을 수행하게 한다(예를 들어, 데이터를 제공하고, 주변 디바이스를 제어하고, 에이전트에 액세스하는 등). 컴퓨팅 디바이스(102)는 카메라(106)가 향할 수 있는 오브젝트의 이미지 및/또는 비디오를 캡처하기 위한 카메라(106)를 포함할 수 있다. 카메라(106)는 오브젝트를 향하는 동안 이미지 데이터를 생성할 수 있고, 이미지 데이터는 컴퓨팅 디바이스(102)의 디스플레이 디바이스(108)에 디스플레이될 수 있다. 이러한 방식으로, 컴퓨팅 디바이스(102)는 디스플레이 디바이스(108)에서 카메라(106)가 향하고 있는 것에 대한 실시간 이미지 피드를 제공할 수 있다. 디스플레이 디바이스(108)는 사용자가 터치 인터페이스를 통해 컴퓨팅 디바이스(102)의 애플리케이션을 제어할 수 있게 하는 터치 입력 및/또는 제스처를 수신하기 위한 터치 인터페이스를 포함하는 디스플레이 패널일 수 있다.

단일 컴퓨팅 디바이스(102)가 도 1에 도시되어 있지만, 다양한 구현예에서, 다수의 컴퓨팅 디바이스는 본 명세서에 개시된 다양한 기법을 수행함에 있어 어시스턴트 애플리케이션(118)과 인터페이스할 수 있다. 예를 들어, 이미지 바로가기는 컴퓨팅 디바이스(102)의 카메라(106)를 통해 캡처된 이미지(들)에 기초하여 트리거될 수 있고, 이미지 바로가기에 대한 응답 데이터는 이미지 바로가기의 트리거링에 응답하여 별개의 컴퓨팅 디바이스에서 청각 및/또는 그래픽으로 제시될 수 있다. 별개의 컴퓨팅 디바이스는 컴퓨팅 디바이스(102)에 연결될 수 있다. 예를 들어, 별개의 컴퓨팅 디바이스는 컴퓨팅 디바이스(102)에 연결될 수 있고, 이는 두 컴퓨팅 디바이스에서 활용되는 동일한 사용자 계정, 두 컴퓨팅 디바이스가 동일한 보안 네트워크에 연결됨, 두 컴퓨팅 디바이스가 다른 것과 직접 피어-투-피어 통신을 함에 기초할 수 있다. 다른 예로서, 이미지 바로가기는 컴퓨팅 디바이스(102)의 카메라(106)를 통해 캡처된 이미지(들)에 기초하여 트리거될 수 있고, 트리거된 이미지 바로가기는 어시스턴트 애플리케이션(118)으로 하여금 하나 이상의 주변 디바이스들(예를 들어, IoT 장치)의 상태를 변경시키게 하는 명령(들)을 전송하게 할 수 있다. 예를 들어, 명령은 조명을 켜고 끄게 하고, 조명의 루멘 출력을 변경하고, 조명의 출력 색상을 변경하게 하는 등의 네트워크화된 "스마트" 조명에 전송될 수 있다. 또한, 예를 들어, 명령은 추가적으로 또는 대안적으로 난방 또는 냉방 시스템의 설정 온도를 변경하게 하고, 난방 또는 냉방 시스템을 켜거나 끄게 하는 네트워크화된 "스마트" 온도장치에 전송될 수 있다. 또한, 예를 들어, 명령은 추가적으로 또는 대안적으로 차고 문을 열거나 닫게 하는 네트워크화된 "스마트" 차고 문 개폐기에 전송될 수 있다.

컴퓨팅 디바이스(102)는 인터넷과 같은 네트워크(122)를 통해 원격 디바이스(124)와 통신할 수 있다. 컴퓨팅 디바이스(102)는 컴퓨팅 디바이스(102)에서 계산 리소스를 보존하기 위해 계산 작업을 서버 디바이스(112)로 오프로딩할 수 있다. 예를 들어, 서버 디바이스(112)는 어시스턴트 애플리케이션(118)을 호스팅할 수 있고, 컴퓨팅 디바이스(102)는 어시스턴트 인터페이스(110)에서 수신된 입력을 서버 디바이스(112)에 전송할 수 있다. 그러나, 일부 구현예에서, 어시스턴트 애플리케이션(118)은 컴퓨팅 디바이스(102)에서 호스팅될 수 있다. 다양한 구현예에서, 어시스턴트 애플리케이션(118)의 모든 또는 일부 양태는 컴퓨팅 디바이스(102)에서 구현될 수 있다. 이러한 구현들 중 일부에서, 어시스턴트 애플리케이션(118)의 양태들은 컴퓨팅 디바이스(102)의 로컬 어시스턴트 애플리케이션을 통해 구현되고, 어시스턴트의 다른 양태들을 구현하는 서버 디바이스(112)와 인터페이스한다. 서버 디바이스(112)는 복수의 스레드를 통해 복수의 사용자 및 연관된 어시스턴트 애플리케이션을 선택적으로 제공할 수 있다. 어시스턴트 애플리케이션(118)의 모든 또는 일부 양태들이 컴퓨팅 디바이스(102)의 로컬 어시스턴트 애플리케이션을 통해 구현되는 구현예에서, 로컬 어시스턴트 애플리케이션은 컴퓨팅 디바이스(102)의 운영 체제와 별개인 애플리케이션(예를 들어, 운영 체제 "위에"에 설치된)일 수 있고, 또는 대안적으로 컴퓨팅 디바이스(102)의 운영 체제에 의해 직접 구현될 수 있다(예를 들어, 운영 체제의 애플리케이션이지만 운영 체제와 통합될 수 있다).

서버 디바이스(112)는 컴퓨팅 디바이스(102)에 의해 제공된 데이터를 프로세싱하기 위한 다른 애플리케이션 및/또는 스크립트를 포함할 수 있다. 예를 들어, 서버 디바이스(112)는 컴퓨팅 디바이스(102)의 카메라(106)로부터의 이미지를 프로세싱하고 이미지 내의 오브젝트들에 대응하는 오브젝트 식별자를 제공할 수 있는 이미지 프로세싱 엔진(114)을 포함할 수 있다. 이미지 프로세싱 엔진(114)은 카메라(106)로부터 이미지를 프로세싱하기 위해 컴퓨터 비전 알고리즘과 같은 하나 이상의 알고리즘을 사용할 수 있다. 컴퓨터 비전 알고리즘은 이미지의 픽셀을 세그먼트화하고, 픽셀 세그먼트를 오브젝트로서 지정할 수 있는 픽셀 그룹화 또는 픽셀 분류 알고리즘에 대응할 수 있다. 이미지 프로세싱 엔진(114) 및/또는 어시스턴트 애플리케이션(118)은 픽셀 단위로 또는 픽셀 그룹 단위로 이미지를 분류할 수 있는 하나 이상의 기법을 사용하여 이미지로부터 상이한 오브젝트 식별자들을 생성할 수 있다. 예를 들어, 이미지의 각 N x N 픽셀 그룹은 하나 이상의 대응하는 오브젝트 식별자(및 선택적으로 다수의 오브젝트 식별자 각각에 대한 대응하는 확률)와 연관될 수 있다. 예를 들어, 자전거의 타이어에 대응하는 픽셀 그룹은 "타이어" 오브젝트 분류와 가장 밀접하게 연관될 수 있고, 반면에 자전거의 다른 부분에 대응하는 픽셀 그룹은 "자전거" 분류와 가장 밀접하게 관련된다. 오브젝트 식별자를 생성하기 위해 추가 및/또는 대안적인 이미지 프로세싱 기법이 이용될 수 있다.

일부 구현예에서, 이미지 프로세싱 엔진(114)은 이미지 내의 오브젝트들을 식별하기 위해 인터넷 검색 엔진에 대한 검색 쿼리로서 이미지를 사용하는 이미지 검색 엔진을 포함할 수 있다. 대안적으로, 이미지 프로세싱 엔진(114)은 컴퓨팅 디바이스(102)에 의해 제공되는 이미지 내의 오브젝트를 식별하기 위해 하나 이상의 기계 학습 모델을 사용할 수 있다. 이미지들 내의 오브젝트들에 대응하는 오브젝트 식별자들은 이미지들을 프로세싱하는 이미지 프로세싱 엔진(114)에 응답하여 이미지 프로세싱 엔진(114) 및/또는 어시스턴트 애플리케이션(118)에 의해 생성될 수 있다. 어시스턴트 애플리케이션(118)은 이미지 바로가기 설정(120)을 생성할 때 오브젝트 식별자를 사용할 수 있다.

이미지 바로가기 설정(120)은 어시스턴트 애플리케이션(118)으로 미리 구성될 수 있거나, 적어도 어시스턴트 애플리케이션(118)과의 사용자 인터렉션을 통해 설정될 수 있다. 이미지 바로가기 설정(120)은 어시스턴트 애플리케이션(118)이 사용자가 특정 오브젝트로 카메라(106)를 향하게 하는 것에 응답하여 데이터를 제공하거나 동작을 수행하게하는 애플리케이션 설정일 수 있다. 이미지 바로가기 설정(120)은 카메라(106)에 의해 제공되는 음성 명령 및 이미지 데이터의 조합을 통해 사용자에 의해 설정될 수 있다. 예를 들어, 사용자는 컴퓨팅 디바이스(102)에서 어시스턴트 인터페이스(110)에 구두 명령을 제공함으로써 이미지 바로가기 설정(120)의 생성을 초기화할 수 있다(예를 들어, "어시스턴트, 내가 카메라로 냉장고를 가리키면 내 구매 목록을 제공해줘"). 구두 명령을 제공하는 동안, 사용자는 어시스턴트 애플리케이션(118)이 오브젝트의 이미지를 수신하게 하기 위해 카메라(106)를 오브젝트로 향하게 할 수 있다. 이미지는 이미지 프로세싱 엔진(114)에 의해 프로세싱될 수 있고, 이미지 프로세싱 엔진(114)은 어시스턴트 애플리케이션(118)에 오브젝트에 대응하는 오브젝트 식별자를 제공할 수 있다. 또한, 구두 명령은 컴퓨팅 디바이스(102)에서 오디오 데이터로서 캡처되어 서버 디바이스(112)에서 음성 텍스트 변환 엔진(116)으로 전송될 수 있다.

음성 텍스트 변환 엔진(116)은 오디오 데이터에 수록된 텍스트를 식별하기 위해 오디오 데이터를 프로세싱할 수 있다. 오디오 데이터를 텍스트로 변환하는 프로세스는 음성 인식 알고리즘을 포함할 수 있으며, 이는 단어 또는 문구에 대응하는 오디오 데이터의 그룹을 식별하기 위해 신경 네트워크 및/또는 통계 모델을 이용할 수 있다. 오디오 데이터로부터 변환된 텍스트는 텍스트 데이터의 내용에 따라 이미지 바로가기 설정(120)을 생성하는데 사용될 수 있는 텍스트 데이터로서 어시스턴트 애플리케이션(118)가 사용가능할 수 있다. 예를 들어, 텍스트 데이터가 카메라 또는 이미지를 식별하는 조건문 및 어시스턴트 애플리케이션(118)에 의해 수행될 액션을 포함하는 경우, 어시스턴트 애플리케이션(118)은 텍스트 데이터에 기초하여 이미지 바로가기 설정(120)을 생성할 수 있다. 또한, 카메라에 의해 제공된 이미지로부터 생성된 오브젝트 식별자는 이미지 바로가기 설정(120)과 연관되어 저장될 수 있다. 이러한 방식으로, 어시스턴트 애플리케이션(118)은 카메라에 의해 제공되는 장래 이미지와 비교할 기준을 가질 수 있다.

예를 들어 "어시스턴트, 내가 카메라를 냉장고에 가리키면 쇼핑 목록을 제공해줘"라는 문구는 음성 텍스트 변환 엔진(116)에 의해 텍스트로 프로세싱되고, 상기 텍스트는 어시스턴트 애플리케이션(118)에 의해 파싱될 수 있다. 어시스턴트 애플리케이션(118)은 사용자가 "내 쇼핑 목록 제공" 명령으로부터 이미지 바로가기 설정(120)을 생성하고자 하는 것을 식별하고 뿐만 아니라 오브젝트 설명자 "냉장고" 및 디바이스 식별자 "카메라"를 식별할 수 있다. 사용자가 카메라를 냉장고로 향하게 하고 있다면, 오브젝트 식별자(예를 들어, "냉장고")를 생성하기 위해 냉장고의 하나 이상의 이미지가 이미지 프로세싱 엔진(114)에 의해 프로세싱될 수 있다. 이미지(들) 및/또는 오브젝트 식별자는 이미지 바로가기 설정(120)과 연관되 저장될 수 있어서, 명령(예를 들어, "내 쇼핑 목록 제공")은 다음에 사용자가 카메라를 냉장고에 향하게 하면 어시스턴트 애플리케이션(18)에 의해 실행될 수 있다.

일부 구현예에서, 서버 디바이스(112)는 이미지들에서 오브젝트들을 식별하는 프로세스를 촉진하기 위해 카메라(106)에 의해 이전에 캡처된 이미지들로 트레이닝된 하나 이상의 기계 학습 모델들을 포함할 수 있다. 또한, 어시스턴트 애플리케이션(118)은 카메라(106)로부터 이미지의 오브젝트를 보다 쉽게 식별하기 위해 사용자의 구매 이력에 액세스할 수 있다. 예를 들어, 어시스턴트 애플리케이션(118)은 사용자가 냉장고를 구매한 쇼핑 애플리케이션을 호스팅하는 제1 원격 디바이스(126) 및 상기 냉장고를 식별하는 제1 데이터(132)에 액세스할 수 있다. 제1 데이터(132)는 냉장고의 이미지를 포함할 수 있어서, 어시스턴트 애플리케이션(118)이 카메라(106)로부터의 이미지와 제1 데이터(132)로부터의 이미지를 비교할 수 있게 한다. 이는 어시스턴트 애플리케이션(118)이 이미지 바로가기 설정(120)을 생성하기 위한 구두 명령 내의 텍스트가 실제로 이미지 내의 오브젝트(예를 들어, 냉장고)에 대응함을 확인하게 한다.

다른 구현예에서, 카메라로부터의 이미지 데이터 및 사용자의 음성 명령으로부터의 텍스트 데이터와 조합된 컨텍스트 데이터는 이미지 바로가기 설정을 생성하는데 사용될 수 있다. 예를 들어, 사용자가 "어시스턴트, 내가 카메라를 냉장고에 가리키면 쇼핑 목록을 제공해줘"라는 명령을 제공할 때, 어시스턴트 애플리케이션(118)은 사용자 또는 컴퓨팅 디바이스의 지리적 위치를 인식할 수 있다. 어시스턴트 애플리케이션(118)은 지리적 위치가 사용자의 집에 대응한다고 결정하고, 따라서 이미지 내의 냉장고가 사용자에 의해 소유된 것으로 결정할 수 있다. 이것은 사용자가 카메라를 다른 냉장고에 향하게 하는 경우에 어시스턴트 애플리케이션(118)이 쇼핑 목록을 제공하는 상황을 피하게 한다. 대신에, 어시스턴트 애플리케이션(118)은 지리적 위치를 갖는 이미지 데이터(예를 들어, 냉장고의 이미지)를 수신할 수 있고, 쇼핑 목록을 제공하기 전에 또는 그와 달리 이미지 바로가기 설정(120)과 관련된 요청을 이행하기 전에 지리적 위치가 사용자의 거주지에 대응하는지 확인할 수 있다.

또 다른 구현에서, 이미지 바로가기 설정(120)은 어시스턴트 애플리케이션(118)이 컴퓨팅 디바이스(102)와 별개의 디바이스에 저장된 데이터를 제공하도록 설정될 수 있다. 예를 들어, 카메라(106)를 냉장고로 향하게 하는 것에 응답하여 사용자가 요청하고 있는 전술된 쇼핑 목록은 제2 데이터(134)를 포함하는 제2 원격 디바이스(128) 및/또는 N 번째 데이터(136)를 포함하는 N 번째 원격 디바이스(130)에 저장될 수 있다. 따라서, 이미지 바로가기 설정(120)에 따라, 어시스턴트 애플리케이션(118)은 쇼핑 목록을 얻기 위해 컴퓨팅 디바이스(102) 또는 서버 디바이스(112)와는 다른 원격 디바이스(예를 들어, 제1 원격 디바이스(126))에 질의할 수 있다. 일부 예에서, 쇼핑 목록은 웹사이트 또는 제1 원격 디바이스(126)에서 호스팅되는 애플리케이션에 의해 관리될 수 있다. 대안적으로, 이미지 바로가기 설정(120)은 정기적으로 변경될 수 있는 동적 데이터(예를 들어, 날씨 데이터, 뉴스 등)에 대한 요청을 포함할 수 있다. 따라서, 어시스턴트 애플리케이션(118)은 미리 구성된 이미지 바로가기 설정(120)과 연관된 오브젝트에 카메라(106)를 향하게 하는 사용자에 응답하여 동적 데이터를 수신하기 위해 하나 이상의 원격 디바이스(예를 들어, 뉴스 웹 사이트 서버)에 질의할 수 있다.

도 2a는 사용자의 지시에 따라 이미지 바로가기 설정을 생성할 수 있는 어시스턴트 애플리케이션을 동작하는 컴퓨팅 디바이스(202)의 도면(200)을 도시한다. 구체적으로, 도 2a는 사용자가 이미지 바로가기 설정의 대상인 오브젝트(예를 들어, 하늘)를 향해 컴퓨팅 디바이스(202)의 카메라를 향하게 하는 동안 이미지 바로가기 설정을 설정하기 위해 사용되는 컴퓨팅 디바이스(202)를 도시한다. 이미지 바로가기 설정을 설정하기 위해, 사용자는 카메라를(예를 들어, 컴퓨팅 디바이스(202)의 후면에서 인터페이스(206)로부터 멀어지는 방향으로) 하늘로 향하게 하고, 컴퓨팅 디바이스(202)의 마이크로폰(208)에 구두 명령을 제공할 수 있다. 구두 명령은 예를 들어 입력 텍스트(204)("내가 하늘을 가리키면, 날씨를 보여줘")에 기술된 바와 같이 카메라를 하늘로 향하는 것과 같은 이미지 바로가기 설정에 대한 조건을 특정할 수 있다. 구두 명령은 오디오 데이터로서 캡처되어, 오디오 데이터를 텍스트로 변환하기 위해 컴퓨팅 디바이스(202) 또는 원격 디바이스에서 프로세싱될 수 있다. 그 후, 명령에 응답하는 방법을 결정하기 위해 명령의 텍스트가 프로세싱되거나 파싱될 수 있다.

컴퓨팅 디바이스(202)에 액세스 가능한 어시스턴트 애플리케이션은 오디오 데이터를 수신하는 것에 응답하여 취할 액션을 결정하기 위해 텍스트를 프로세싱할 수 있다. 예를 들어, "내가 가리킬 때"라는 용어는 조건일 수 있고 "날씨를 보여줘"라는 용어는 액션일 수 있으며 "하늘"이라는 용어는 조건의 대상인 오브젝트일 수 있다. 어시스턴트 애플리케이션은 이미지 바로가기 설정을 생성하기 위해 컴퓨팅 디바이스(202)의 카메라로부터의 하나 이상의 이미지를 사용할 수 있다. 예를 들어, 도 2a에 도시된 바와 같이, 사용자는 이미지 바로가기 설정의 생성을 초기화하기 위한 구두 명령을 제공하면서 컴퓨팅 디바이스(202)의 카메라를 하늘로 향하게 할 수 있다. 카메라로부터의 이미지는 컴퓨팅 디바이스(202) 또는 이미지 내의 오브젝트를 식별하기 위한 별도의 디바이스에 의해 프로세싱될 수 있다. 이미지의 오브젝트가 구두 명령에서 텍스트에 의해 식별되는 경우 오브젝트는 이미지 바로가기 설정에 필수적인 것으로 간주될 수 있다. 예를 들어, 인터페이스(206)에 그래픽으로 표현된 하늘은 또한 입력 텍스트(204)에서 식별될 수 있다. 이미지와 구두 명령 사이의 이러한 대응은 어시스턴트 애플리케이션에 의해 관리되는 인덱스에서 이용될 수 있고, 이미지 바로가기 설정과 연관되어 저장된다.

일부 구현예에서, 이미지 바로가기 설정의 생성은 컴퓨팅 디바이스(202)의 하나 이상의 센서들로부터 수신된 센서 데이터에 기초할 수 있다. 예를 들어, 센서 데이터는 카메라, 자이로 센서, 가속도계, 터치 센서, 오디오 센서, 적외선 센서, 온도 센서, 심박수 모니터, 화학 센서, 용량성 센서 및/또는 임의의 기타 센서로부터 제공될 수 있다. 예를 들어, 어시스턴트 애플리케이션은 날씨를 제공하기 위한 이미지 바로가기 설정을 적어도 부분적으로 충족시키기 위해 자이로 센서가 수평선을 또는 그 위를 향하도록 요구하는 조건을 저장할 수 있다. 대안적으로, 이미지 바로가기 설정은 사용자 또는 컴퓨팅 디바이스(202)의 지리적 위치에 따라 상이한 위치에 대한 날씨를 제공하는 가변 조건 설정으로서 저장될 수 있다. 예를 들어, 이미지 바로가기 설정에 대응하는 기능은 오브젝트 식별자(예를 들어, "하늘")에 대한 슬롯, 위치(예를 들어, GPS 송신기로부터의 좌표 또는 일정 애플리케이션과 같은 다른 애플리케이션으로부터 수집된 위치 데이터) 및/또는 시간(예: 9:00 AM EST)을 포함할 수 있다. 이러한 방식으로, 이미지 바로가기 설정을 호출하는 사용자에 응답하여 제공되는 날씨 데이터는 오브젝트, 위치 및/또는 이미지 바로가기 설정이 호출된 시간에 따라 상이할 수 있다. 예를 들어, 사용자는 남은 하루의 날씨 정보를 얻기 위해 아침(예: 시간 = 9:00 AM EST)에 카메라를 하늘로 향하게 할 수 있고 또는 다음 날의 날씨 정보를 얻기 위해 밤(예: 시간 = 10:00 PM EST)에 카메라를 하늘로 향하게 할 수 있다.

도 2b는 컴퓨팅 디바이스(202)의 카메라를 이미지 바로가기 설정과 연관된 오브젝트로 향하게 함으로써 이미지 바로가기 설정을 초기화하는 사용자에 대한 응답을 제공하는 컴퓨팅 디바이스(202)의 도면(200)을 도시한다. 구체적으로, 사용자는 카메라를 하늘과 같은 오브젝트로 향하게 하여 이미지 바로가기 설정에 따라 수행될 액션을 초기화할 수 있다. 카메라는 컴퓨팅 디바이스(202)의 인터페이스(206)에 제시될 수 있는 실시간 이미지 피드를 제공할 수 있다. 실시간 이미지 피드가 하늘을 포함할 때, 어시스턴트 애플리케이션은 인터페이스(206)로 하여금 카메라가 하늘을 향하는 것에 응답하여 데이터를 제공하거나 어떤 액션을 수행하게 할 수 있다. 예를 들어, 인터페이스(206)에 제시된 이미지는 어느 정도의 하늘(예를 들어, 구름(214))을 포함할 수 있고, 이에 따라 이미지 어시스턴트 설정에 따라 날씨 데이터를 제공하는 액션을 수행하도록 자동화된 어시스턴트를 트리거링할 수 있다.

일부 구현예에서, 인터페이스(206)에 제공된 실시간 이미지 피드로부터의 이미지는 샘플링될 수 있고, 샘플링된 이미지를 수신하는 것에 응답하여 오브젝트 식별자(예를 들어, "하늘")를 제공할 수 있는 트레이닝된 기계 학습 모델에 제공될 수 있다. 그 후, 어시스턴트 애플리케이션은 오브젝트 식별자를 사용하여, 이미지 바로가기 설정에 따라 액션이 수행될지 여부를 결정할 수 있다. 대안적으로, 샘플링된 이미지는 이미지 내의 오브젝트에 대한 식별자를 식별하기 위해 샘플링된 이미지를 다른 저장된 이미지와 비교할 수 있는 이미지 검색 데이터베이스에 제공될 수 있다. 하나 이상의 오브젝트가 하나 이상의 이미지 바로가기 설정에 해당하는 경우, 해당 이미지 바로가기 설정에 따라 하나 이상의 액션들이 수행될 수 있다.

일부 구현예에서, 컨텍스트 데이터 또는 컨텍스트 식별자는 샘플링된 이미지로부터 추론될 수 있고, 이미지 바로 가기 설정의 조건들이 만족되는지 여부를 결정하는데 사용된다. 예를 들어, 사용자는 자동화된 어시스턴트에게 카메라 이미지로부터 추론될 수 있는 조건으로 이미지 바로가기 설정을 만들도록 지시할 수 있다(예: "내가 아침에 카메라로 하늘을 가리키면, 와이프에게 ‘굿모닝!’이라고 문자를 보내줘"). 후속적으로, 사용자는 카메라를 아침 하늘로 향하게 할 수 있고(즉, 태양이 수평선에서 올라옴), 이는 이미지가 아침에 캡처되었는지 결정하기 위해 어시스턴트 애플리케이션, 컴퓨팅 디바이스(202) 또는 원격 디바이스에 의해 프로세싱될 수 있다. 사용자가 실제로 아침에 카메라를 하늘로 향하게 하고 있는 경우, 이미지 바로가기 설정에 대응하는 액션을 수행될 수 있다(예: "굿모닝!"이라는 문자 메시지가 "와이프"라고 라벨링된 연락처로 송신될 수 있음). 대안적으로, 이미지와 연관된 시간은 컴퓨팅 디바이스(202) 또는 원격 디바이스에서의 시계으로부터 추론될 수 있다. 일부 경우에, 사용자는 사용자가 이동 중이고, 카메라가 아침에 하늘을 향하는 경우 문자 메시지가 송신되도록 요청할 수 있다. 이러한 방식으로, 시간 및 이미지의 위치와 함께 하늘의 이미지는 텍스트 메시지가 컴퓨팅 디바이스(202)로부터 송신되는 조건일 수 있다.

도 3a는 어시스턴트 애플리케이션에 대한 이미지 바로가기 설정을 구성하는데 사용되는 컴퓨팅 디바이스(302)의 도면(300)을 도시한다. 구체적으로, 이미지 바로가기 설정은 사용자가 사용자의 카메라를 하나 이상의 오브젝트로 향하게 하는 것에 응답하여 사용자의 컴퓨팅 디바이스(302)에 저장되거나 사용자의 컴퓨팅 디바이스(302)가 액세스 가능한 데이터를 수신하게 할 수 있다. 초기에, 사용자는 (예를 들어, 컴퓨팅 디바이스(302)의 마이크로폰(304)을 통해) 구두 명령 또는 (예를 들어, 컴퓨팅 디바이스(302)의 키보드를 사용하여) 텍스트 명령을 제공할 수 있다. 이 명령은 이미지 바로가기 설정에 대한 오브젝트, 조건 및/또는 액션을 제공할 수 있다. 예를 들어, 사용자 입력(306)에 제공된 바와 같이(즉, 어시스턴트 애플리케이션에 의해 전사된 구두 명령), 사용자는 어시스턴트 애플리케이션에게 사용자가 특정한 위치에서 자전거를 잠그어 놓기 위해 자전거에 부착하는 자전거 자물쇠에 대한 코드를 제공하도록 요청할 수 있다. 어시스턴트 애플리케이션에 의해 관리되는 이미지 바로가기 설정을 생성하기 위해 어시스턴트 애플리케이션이 명령의 텍스트를 파싱할 수 있다. 예를 들어, 이미지 바로가기 설정을 생성하기 위해 함수의 슬롯에 입력할 데이터를 식별하기 위해 텍스트가 파싱될 수 있다. 기능에 입력할 데이터는 "내가 가리키면", "자전거 자물쇠" 및 "코드"를 포함할 수 있다. 또한, 기능은 사용자가 카메라 애플리케이션을 사용하거나 기능의 조건을 만족시키는 방식으로 카메라를 향하게 하는 조건을 포함할 수 있다. 그 후, 사용자가 카메라를 자전거 자물쇠(308)로 향하게 하면, 어시스턴트 애플리케이션은 자전거 잠금 코드가 인터페이스(310)에 나타나게 하거나 청각적으로 알릴 수 있다.

일부 구현예에서, 이미지 바로가기 설정을 위한 초기 대상인 이미지는 이미지 내에서 어시스턴트 애플리케이션에 의해 액션을 트리거하는데 사용될 수 있는 다수의 오브젝트들을 식별하도록 프로세싱될 수 있다. 예를 들어, 사용자가 카메라를 자전거 자물쇠로 향하게 하면 어시스턴트 애플리케이션이 자전거 잠금 코드를 제공할 것을 제안했지만, 인터페이스(310)의 이미지는 자전거 자물쇠(308) 이외의 다른 오브젝트들을 식별하기 위해 프로세싱될 수 있다. 추가적 오브젝트들은 자전거 타이어(312)를 포함할 수 있으며, 이는 식별될 때 어시스턴트 애플리케이션이 액션을 취하기 위한 추가적 기초를 제공할 수 있는 컨텍스트 데이터를 제공할 수 있다. 예를 들어, 자전거 자물쇠가 자전거에 부착되어 있지 않으면 사용자는 자전거 잠금 코드를 보는데 관심이 없을 수 있다. 그러므로 이미지 바로가기 설정은 카메라가 자전거 자물쇠 및 자전거 타이어(312)로 향하는 경우에만 자전거 잠금 코드를 제공하기 위해 생성될 수 있으며, 이에 따라 카메라가 이와 다르게 자전거 자물쇠(308)로 향하고 있는 상황을 피할 수 있다. 예를 들어, 사용자는 카메라를 책꽂이로 향하게 하여 자신의 책 중 하나에 대한 정보를 얻을 수 있으며, 자전거 자물쇠가 책꽂이에 놓여 있을 수 있다. 그러나, 자전거 타이어(312)가 책꽂이로 향하는 동안 카메라의 시야에 나타나지 않기 때문에, 어시스턴트 애플리케이션은 자전거 코드 제공을 생략하고, 책에 대한 정보를 제공할 수 있다.

일부 구현예에서, 사용자는 이미지 바로가기 설정의 조건부 오브젝트가 되도록 이미지의 일부를 탭하거나 이미지의 일부 주위에 선을 그릴 수 있다. 예를 들어, 사용자는 자전거 자물쇠(308)와 같은 오브젝트로 카메라를 향하게 할 수 있고, 자전거 자물쇠(308)의 실시간 이미지 피드 또는 이미지가 컴퓨팅 디바이스 또는 원격 디바이스에서 프로세싱되어 이미지 내의 오브젝트를 식별할 수 있다. 컴퓨팅 디바이스는 또한 실시간 이미지 피드 또는 오브젝트(예를 들어, 자전거 자물쇠(308))가 있는 이미지에서 영역을 식별할 수 있고, 사용자가 그 영역 내에서 컴퓨팅 디바이스의 터치 디스플레이를 탭하거나, 오브젝트 주변에 모양을 그리는 경우, 상기 오브젝트는 이미지 바로가기 설정의 대상으로 지정할 수 있다.

일부 구현예에서, 컴퓨팅 디바이스(302)는 안경 또는 다른 착용 가능 액세서리들과 유사한 사용자의 머리에 착용될 수 있는 웨어러블 디바이스일 수 있다. 웨어러블 디바이스는 사용자의 눈 위로 연장될 수 있는 디스플레이 디바이스 및 사용자의 눈과 실질적으로 동일한 방향으로 향하거나 시청 영역을 공유할 수 있는 카메라를 포함할 수 있다. 예를 들어, 사용자가 웨어러블 디바이스(즉, 컴퓨팅 디바이스(302))를 착용할 때, 사용자는 카메라가 자전거 자물쇠(308)의 이미지를 캡처하게 할 수 있다. 동시에, 사용자는 사용자의 손가락을 사용하여 자전거 자물쇠(308)를 가리키고, 웨어러블 디바이스를 통해 자동화된 어시스턴트에게 명령할 수 있다. 예를 들어, 사용자는 "어시스턴트, 내가 자전거 자물쇠를 가리키면, 자전거 잠금 코드 2-7-1-8을 알려줘"라는 명령을 제공할 수 있다. 이어서, 사용자가 웨어러블 디바이스를 착용하고 있고 손가락으로 자전거 자물쇠(308)를 가리키면, 자동화된 어시스턴트는 웨어러블 디바이스를 통해 자전거 잠금 코드를 청각적으로 제공하거나 또는 자전거 잠금 코드가 웨어러블 디바이스의 디스플레이에 제시되게 할 수 있다. 유사하게, 사용자는 이미지 바로가기 설정을 생성하기 위해 웨어러블 디바이스를 착용하는 동안 사용자의 눈 움직임을 사용할 수 있다. 예를 들어, 사용자는 자전거 자물쇠(308)로 눈을 향하게 하고 자동화된 어시스턴트에게 눈 방향 및 자전거 자물쇠(308)에 관한 이미지 바로가기 설정을 생성하도록 명령할 수 있다. 예를 들어 "어시스턴트, 내가 자전거 자물쇠를 보면, 자전거 코드 2-7-1-8을 알려줘"와 같은 명령이 될 수 있다. 이어서, 사용자가 웨어러블 디바이스를 착용하고 자전거 자물쇠(308)를 보면, 자동화된 어시스턴트는 웨어러블 디바이스가 자전거 잠금 코드를 청각적으로 또는 시각적으로 제시하게 할 수 있다.

도 3b는 이미지 바로가기 설정에 따라 어시스턴트 애플리케이션을 동작하는 컴퓨팅 디바이스(302)의 도면(314)을 도시한다. 구체적으로, 도면(314)는 어시스턴트 애플리케이션이 컴퓨팅 디바이스(302)의 카메라가 오브젝트(예를 들어, 자전거 자물쇠(308))를 향하는 것에 응답하여 어떻게 출력(316)을 제공할 수 있는지를 도시한다. 예를 들어, 어시스턴트 애플리케이션을 통해 이미지 바로가기 설정을 생성한 후, 사용자는 자전거에 접근하여 자전거 자물쇠(308)로 컴퓨팅 디바이스(302)의 카메라를 향하게 할 수 있다. 어시스턴트 애플리케이션 및/또는 컴퓨팅 디바이스(302)는 자전거 자물쇠(308)가 카메라의 시야 내에 있다는 것을 결정하기 위해, 카메라에 의해 캡처된 자전거 자물쇠(308)의 이미지를 프로세싱할 수 있다. 이에 응답하여, 어시스턴트 애플리케이션은 데이터(예를 들어, 자전거 잠금 코드)를 제시하거나 사용자에 대한 다른 액션을 수행할 수 있다.

일부 구현예에서, 이미지 바로가기 설정과 연관된 액션을 실행하는(예를 들어, 데이터를 제공하는) 프로세스는 인터페이스(310)에서 실시간 이미지 피드를 제공하는 컴퓨팅 디바이스(302)없이 수행될 수 있다. 오히려, 사용자는 실시간 이미지 피드를 디스플레이하는 인터페이스(310) 없이 또는 인터페이스가 활성화되지 않은 상태에서 오브젝트에 접근할 수 있고, 여전히 액션이 수행되게 할 수 있다. 예를 들어, 사용자는 전체 인터페이스(310)를 통해 디스플레이되고 동시에 카메라를 오브젝트로 향하는 메시징 애플리케이션을 동작시킬 수 있다. 이에 응답하여, 어시스턴트 애플리케이션은 카메라의 시야 내에 있는 오브젝트를 확인하고, 이미지 바로가기 설정의 대상인 오브젝트와 연관된 동작을 수행할 수 있다(예를 들어, 메시징 애플리케이션 인터페이스의 상단에 자전거 잠금 코드를 제시).

다른 구현예에서, 이미지 바로가기 설정과 연관된 액션은 컴퓨팅 디바이스(302)가 잠겨 있거나 컴퓨팅 디바이스(302)가 마주보는 카메라 반대편을 동작할 수 있는 경우 수행될 수 있다. 예를 들어, 컴퓨팅 디바이스(302)는 전면 카메라(즉, 인터페이스(310)와 동일한 방향을 향하는 카메라) 및 후면 카메라(즉, 인터페이스와 반대쪽을 향하는 카메라)를 포함할 수 있다. 제1 오브젝트가 전면 카메라의 시야에 존재하고, 제2 오브젝트가 후면 카메라의 시야에 존재할 때, 데이터를 제공하기 위해 어시스턴트 애플리케이션은 이미지 바로가기 설정에 액세스할 수 있다. 또한, 이미지 바로가기 설정은 컴퓨팅 디바이스(302)의 소유자 또는 컴퓨팅 디바이스(302)의 비-소유자에 의해 설정될 수 있다. 예를 들어, 온라인 서비스를 통해 집에서 방문자를 호스트하는 사람은 어시스턴트 애플리케이션에 대한 이미지 바로가기 설정을 만들 수 있다. 호스트가 이미지 바로가기 설정을 설정하면 방문자가 방문자의 컴퓨팅 디바이스의 전면 카메라에서 자신의 얼굴을 보여 주면서, 동시에 집에 액세스하기 위해 호스트의 집으로 후면 카메라를 향하게 해야한다. 방문자의 얼굴의 이미지는 방문자에 의해 호스트의 웹사이트 또는 호스트와 연관된 사이트에 업로드될 수 있고, 방문자의 컴퓨팅 디바이스의 전면 카메라로부터의 이미지는 업로드된 이미지와 비교될 수 있다. 웹사이트 또는 다른 디바이스가 전면 카메라 이미지가 업로드된 이미지에 대응한다고 결정하면, 어시스턴트 애플리케이션은 후면 카메라가 동시에 집의 잠금 장치를 향하고 있는지 여부를 더 결정할 수 있다. 그렇다면, 웹사이트를 호스팅하는 서버는 방문자의 디바이스 또는 어시스턴트 애플리케이션에 액세스 코드를 제공할 수 있다. 일부 구현예에서, 이미지 바로가기 설정은 또한 액세스 코드를 수신하기 전에 방문자의 지리적 위치가 확인(예를 들어, 방문자가 집에 있는지 확인)할 것을 요구할 수 있다.

도 4a는 어시스턴트 애플리케이션으로 하여금 어시스턴트 애플리케이션에 의해 수신된 컨텍스트 데이터에 적어도 기초하여 데이터를 제공하거나 액션을 수행하게 할 수 있는 이미지 바로가기 설정을 구성하는데 사용되는 컴퓨팅 디바이스(402)의 도면(400)을 도시한다. 예를 들어, 사용자는 어시스턴트 애플리케이션에 구두 명령을 제공함으로써 이미지 바로가기 설정의 생성을 초기화할 수 있다(예를 들어, "내가 기차역을 가리키면, 운행 스케줄을 알려줘"). 구두 명령은 컴퓨팅 디바이스(402)의 마이크로폰(404)에서 수신되어 컴퓨팅 디바이스(402) 또는 원격 디바이스에서 텍스트 입력(406)으로 변환될 수 있다. 텍스트 입력(406)은 어시스턴트 애플리케이션에 의해 파싱되어 이미지 바로가기 설정의 대상인 오브젝트(예를 들어, 기차역) 및 오브젝트가 컴퓨팅 디바이스(402)의 카메라의 시야에 제시되는 것에 응답하여 제공될 데이터(예를 들어, 운행 스케줄)를 식별할 수 있다.

어시스턴트 애플리케이션에 의해 제공된 데이터는 사용자가 이미지 바로가기 설정을 통해 어시스턴트 애플리케이션을 호출한 시간에 따라 변경될 수 있다. 예를 들어, 목적지가 일정 애플리케이션, 이력적 이동 데이터 및/또는 위치 데이터를 포함할 수 있는 임의의 다른 데이터 소스로부터 어시스턴트 애플리케이션에 의해 추론될 수 있다. 추론된 목적지는 사용자가 기차역(408)으로 카메라를 향하게 하는 시간에 종속될 수 있다. 예를 들어, 어시스턴트 애플리케이션은 이미지 바로가기 설정을 생성하기 위한 구두 명령을 제공할 때 사용자가 위치했던 기차역(408)에 대응하는 기차 스케줄을 식별할 수 있다. 기차 스케줄은 시간에 따라 변하는 동적 데이터이기 때문에, 어시스턴트 애플리케이션은 시간을 위한 슬롯을 갖는 기능 뿐만 아니라 적어도 오브젝트 식별자(예를 들어, "기차역"을 갖는 이미지 바로가기 설정을 저장할 수 있다. 이러한 방식으로, 사용자가 기차역(408)으로 카메라를 향하게 하면, 어시스턴트 애플리케이션은 그에 응답하여 시간 및 기차 스케줄을 검색할 수 있다. 일부 구현예에서, 어시스턴트 애플리케이션은 또한 사용자가 기차역(408)으로 카메라를 향하게 하는 것에 응답하여 다양한 소스들로부터 목적지 정보를 검색할 수 있다. 목적지 정보는 어시스턴트 애플리케이션에 의해 사용되어 기차역(408)과 연관된 사용 가능한 기차 스케줄에 따라 사용자가 예상 목적지에 도달할 것으로 예상되는 시간을 제공할 수 있다.

도 4b는 어시스턴트 애플리케이션이 이전에 생성된 이미지 바로가기 설정에 따라 액션을 수행하도록 하기 위해 기차역(408)에서 컴퓨팅 디바이스(402)의 카메라를 향하게 하는 사용자의 도면(412)을 도시한다. 컴퓨팅 디바이스(402)의 인터페이스(410)에 제공된 기차역(408)의 이미지는 이미지가 기차역을 포함한다는 것을 결정하기 위해 컴퓨팅 디바이스(402) 또는 원격 디바이스에서 프로세싱될 수 있다. 어시스턴트 애플리케이션은 이후 이미지에서 기차역을 식별하는 오브젝트 식별자를 수신할 수 있고, 선택적으로 어시스턴트 애플리케이션은 기차역(408)의 위치 및/또는 이미지가 캡처된 시간을 결정할 수 있다. 기차역(408)의 위치는 기차역(408)이 어디에 있는지를 결정하기 위해 사용될 수 있어서, 적절한 기차 스케줄이 검색되도록 한다. 또한, 시간은 기차역(408)에 도착하고 이후 사용자의 목적지를 향해 이동할 기차를 식별하기 위해 검색될 수 있다.

어시스턴트 애플리케이션이 사용자의 위치, 기차역(408)을 통해 이동하는 기차의 운행 스케줄 및 사용자가 기차역(408)의 이미지를 캡처한 시간과 관련된 데이터를 수집할 수 있는 경우, 어시스턴트 애플리케이션은 사용자에 대한 출력(414)을 생성할 수 있다. 구체적으로, 출력(414)은 기차역에서 사용자의 목적지로 가는 경로에 대한 제안을 포함할 수 있다. 예를 들어, 어시스턴트 애플리케이션은 사용자가 직장에 있었고 현재 기차역(408)에 있다고 결정할 수 있고, 따라서 사용자는(다른 일정이 없는 한) 집으로 향하고 있을 가능성이 크다. 어시스턴트 애플리케이션은 집으로 가는 기차(예: "노란 선")를 식별하고 다가오는 기차를 타면 사용자가 집에 도착할 예상 시간을 제공할 수 있다(예: "4:45에 노란 선을 타는 경우 5:15에 집에 도착할 것입니다). 이러한 방식으로, 사용자는 어시스턴트 애플리케이션에 구두 명령을 제공할 필요가 없고, 오히려 특정한 시간에 집에 도착하기에 가장 좋은 경로에 관한 지시를 수신하기 위해 단순히 카메라를 기차역을 향하게 할 수 있다.

도 5a는 컴퓨팅 디바이스(502)상에서 동작하는 어시스턴트 애플리케이션이 사용자(508)가 컴퓨팅 디바이스(5022)의 카메라를 거울(512)로 향하게 하는 것에 응답하는 이미지 바로가기 설정을 생성하는 사용자(508)의 도면(500)을 도시한다. 사용자(508)는 마이크로폰(504)과 같은 컴퓨팅 디바이스(502)의 인터페이스에 구두 또는 텍스트 명령(506)을 제공함으로써 이미지 바로가기 설정의 생성을 초기화할 수 있다. 명령(506)은 "아침에 거울에서 카메라를 가리키면, 내 일정을 알려줘"라는 문구를 포함할 수 있다. 문구는 이미지 바로가기 설정을 생성하기 위한 파라미터를 식별하기 위해 본 명세서에서 논의된 바와 같이 컴퓨팅 디바이스(502) 또는 별개의 디바이스에서 프로세싱될 수 있다. 문구는 컨텍스트 조건(예를 들어, "아침에")을 포함하기 때문에, 이미지 바로가기 설정과 연관된 기능은 시간을 위한 슬롯을 포함할 수 있다. 또한, 어시스턴트는 사용자가 자신의 소유물을 식별하는 것(즉, "내 거울")에 적어도 기초하여 위치의 컨텍스트 조건을 추론할 수 있으므로, 기능의 슬롯은 위치에 대응할 수 있다. 이러한 방식으로, 사용자(508)에 의해 요청된 일정은 사용자(508)가 집에 있을 때 그리고 아침에 거울 앞에서만 제공될 것이다. 일부 구현예에서, 기능은 또한 사용자(508)의 얼굴 인식과 연관된 슬롯을 포함할 수 있다. 이러한 방식으로, 어시스턴트 애플리케이션이 거울 내의 얼굴이 사용자(508)의 얼굴이고 컴퓨팅 디바이스(502)의 카메라에 액세스하는 다른 사람이 아니라고 결정하는 경우에만 기능이 실행될 것이다. 예를 들어, 컴퓨팅 디바이스(502)의 인터페이스(510)에 제시된 이미지는 인터페이스(510)의 이미지가 사용자(508)의 얼굴을 포함하는지 검증하기 위해 프로세싱되고 및/또는 이와 달리 사용자(508)의 얼굴의 이미지와 비교될 수 있다. 검증이 어시스턴트 애플리케이션에 의해 확인할 수 있고, 이미지 바로가기 설정과 관련된 기능을 계속 실행할 수 있다.

도 5b는 이미지 바로가기 설정에 따른 기능을 수행하기 위해 어시스턴트 애플리케이션을 호출하는 사용자(508)의 도면(516)을 도시한다. 구체적으로, 도 5b에 도시된 사용자(508)는 사용자(508) 및/또는 미러(512)의 이미지가 프로세싱될 수 있도록 컴퓨팅 디바이스(502)를 미러(512)로 향하게 함으로써 어시스턴트 애플리케이션을 호출할 수 있다. 인터페이스(510)에 제시된 바와 같이, 사용자(508)의 이미지는 사용자(508), 컴퓨팅 디바이스(502), 거울(512) 및/또는 이미지 바로가기 설정과 연관될 수 있는 임의의 다른 오브젝트(들)를 식별하기 위해 컴퓨팅 디바이스(502) 또는 원격 디바이스에서 프로세싱될 수 있다. 이미지에 기초하여 생성된 오브젝트 식별자는 시간, 위치 및/또는 이미지의 컨텍스트와 연관될 수 있는 임의의 다른 데이터와 같은 컨텍스트 데이터 또는 컨텍스트 식별자와 함께 어시스턴트 애플리케이션에 제공될 수 있다. 오브젝트 식별자(들) 및/또는 컨텍스트 데이터가 이미지 바로가기 설정의 조건을 만족하면, 이미지 바로가기 설정과 연관된 기능이 실행될 수 있다. 예를 들어, 사용자(508)가 미러(512)로 카메라를 향하게 하는 것에 응답하여, 어시스턴트 애플리케이션은 컴퓨팅 디바이스(502)에서 일정 애플리케이션 또는 일정 애플리케이션을 호스팅하는 원격 디바이스에 액세스할 수 있다. 어시스턴트 애플리케이션은 하루 동안의 아이템 목록을 검색하고, 도 5b의 출력(514)에 제공된 바와 같이 인터페이스(510)에서 아이템의 목록이 그래픽으로 표현되게 할 수 있다. 이러한 방식으로, 사용자(508)는 이전에는 구두 또는 텍스트 명령을 통한 호출로 제한되었던 기능들을 컴퓨팅 디바이스(502)로 수행할 수 있다.

일부 구현예에서, 사용자는 컴퓨팅 디바이스(502)에 디스플레이하기 위해 이미지를 열어서 자동화된 어시스턴트가 이미지 바로가기 설정들과 연관된 액션들을 수행하게 할 수 있다. 예를 들어, 컴퓨팅 디바이스(502)는 컴퓨팅 디바이스(502)의 카메라에 의해 캡처된 이미지를 포함하는 카메라 롤을 저장할 수 있다. 대안적으로, 컴퓨팅 디바이스(502)는 인터넷에서 이미지를 검색하기 위한 브라우저를 포함할 수 있다. 컴퓨팅 디바이스(502)에 의해 액세스된 이미지가 이미지 바로가기 설정에 대응하는 오브젝트를 포함하면, 자동화된 어시스턴트는 이미지 바로가기 설정에 대응하는 액션을 수행할 수 있다. 예를 들어, 사용자는 컴퓨팅 디바이스(502)가 사용가능한 특정 이미지에서 식별된 사람과 연관된 리마인더를 설정할 수 있다. 이미지 바로가기 설정을 수립하는 명령은 예를 들어 "매튜의 이미지를 보면, 매튜와 제인에게 화상 통화를 하라고 알려줘"일 수 있다. 이러한 방식으로, 사용자가 매튜를 포함하는 이미지를 열거나 컴퓨팅 디바이스(502)의 카메라를 매튜로 향하게 할 때마다, 자동화된 어시스턴트는 리마인더가 사용자에게 제시되게 할 것이다. 예를 들어, 자동화된 어시스턴트는 예를 들어 "매튜와 제인과의 화상 통화를 기억하세요"와 같은 가청 응답을 생성할 수 있다.

도 6은 어시스턴트 애플리케이션의 이미지 바로가기 설정에 따라 어시스턴트 애플리케이션이 사용자에게 데이터를 제공하게 하는 방법(600)을 도시한다. 방법(600)은 컴퓨팅 디바이스, 서버 디바이스 및/또는 데이터를 제공하기 위해 적절한 임의의 기타 장치에 의해 수행될 수 있다. 방법(600)은 어시스턴트 애플리케이션에 의해 컴퓨팅 디바이스의 카메라로부터의 실시간 이미지 피드가 오브젝트의 그래픽 표현을 포함하는지를 결정하는 단계의 블록(602)을 포함할 수 있다. 오브젝트는 카메라에 의해 생성된 이미지에서 캡처될 수 있는 임의의 유형적 오브젝트일 수 있다. 또한, 실시간 이미지 피드는 컴퓨팅 디바이스의 그래픽 사용자 인터페이스(예를 들어, 터치스크린 디스플레이)에 제시되는 비디오 피드일 수 있다. 어시스턴트 애플리케이션은 컴퓨팅 디바이스 또는 원격 디바이스(예를 들어, 컴퓨팅 디바이스와 별개인 서버 디바이스)에서 호스팅되는 자동화된 어시스턴트일 수 있으며, 사용자에 의해 수행된 액션에 따라 직접 또는 간접적으로 사용자에 의해 구성될 수 있다.

방법(600)은 오브젝트와 연관된 이미지 바로가기 설정을 식별하는 단계의 블록(604)을 포함할 수 있다. 상기 이미지 바로가기 설정(120)은 상기 어시스턴트 애플리케이션이 실시간 이미지 피드에 제공된 이미지 컨텐츠에 응답하는 미리 구성된 프로세스에 연관될 수 있다. 예를 들어, 프로세스는 사용자가 카메라를 음식으로 향하게 하는 경우 음식에 관한 영양 데이터를 제공하는 어시스턴트 애플리케이션을 포함할 수 있다. 영양 데이터는 사용자에 의해 요청된 소스 또는 어시스턴트 애플리케이션에 의해 초기화되는 검색 엔진 쿼리를 통해 식별된 소스에 의해 제공될 수 있다.

방법(600)은 이미지 바로가기 설정과 연관된 쿼리를 생성하는 단계의 블록(606)을 포함할 수 있다. 쿼리는 이미지 바로가기 설정에서 식별된 데이터에 대한 요청일 수 있다. 쿼리는 컴퓨팅 디바이스 또는 컴퓨팅 디바이스와 별개인 원격 디바이스의 애플리케이션에서 사용 가능한 데이터에 액세스하기 위한 요청일 수 있다. 그러나, 일부 실시예에서, 블록(606)은 주변 디바이스를 제어하기 위한 이미지 바로가기 설정과 연관된 명령을 생성하는 것을 포함할 수 있다. 이러한 방식으로, 주변 디바이스는 사용자가 카메라를 오브젝트로 향하게 하는 것에 응답하여 컴퓨팅 디바이스로부터 명령을 수신할 수 있다.

방법(600)은 쿼리에 기초하여 어시스턴트 애플리케이션에 의해 요청된 데이터를 수신하는 단계의 블록(608)을 포함할 수 있다. 데이터는 상기 어시스턴트 애플리케이션으로부터의 쿼리에 대해 응답할 수 있는 별개의 애플리케이션 또는 원격 디바이스로부터 수신될 수 있다. 예를 들어, 데이터는 사용자가 서비스(예를 들어, 아이템 주문, 가용 데이터로부터 추정치를 생성하는 등)를 수신하는 것을 보조하기 위해 에이전트 애플리케이션을 제공한 서드 파티와 연관된 에이전트 애플리케이션으로부터 수신될 수 있다.

방법(600)은 컴퓨팅 디바이스의 인터페이스에 디스플레이되는 실시간 이미지 피드와 동시에 데이터가 렌더링되게 하는 단계의 블록(610)을 더 포함할 수 있다. 예를 들어, 사용자는 어시스턴트 애플리케이션이 사과에 대한 영양 정보를 제공하도록 하면서 사과가 컴퓨팅 디바이스의 인터페이스에 그래픽으로 표현되도록하기 위해, 사과와 같은 음식 아이템으로 컴퓨팅 디바이스의 카메라를 향하게 할 수 있다. 도 7은 적어도 사용자로부터의 명령에 따라 이미지 바로가기 설정을 생성하는 방법(700)을 도시한다. 방법(700)은 컴퓨팅 디바이스, 서버 디바이스 및/또는 사용자로부터의 명령을 해석할 수 있는 임의의 기타 디바이스에 의해 수행될 수 있다. 방법(700)은 이미지 바로가기 설정을 생성하기 위해 어시스턴트 애플리케이션에 대한 요청에 대응하는 오디오 데이터를 수신하는 단계의 블록(702)을 포함할 수 있다. 이미지 바로가기 설정은 어시스턴트 애플리케이션이 컴퓨팅 디바이스의 카메라의 시야 범위에 존재하는 하나 이상의 오브젝트에 응답하는 프로세스에 대응할 수 있다. 오브젝트는 사용자에 의해 지정되고 카메라 데이터 및 컴퓨터 비전 알고리즘을 사용하여 오브젝트를 식별할 수 있는 어시스턴트 애플리케이션 또는 별개의 애플리케이션에 의해 식별될 수 있다.

방법(700)은 컴퓨팅 디바이스의 카메라에 의해 생성된 실시간 이미지 피드로부터 이미지 데이터를 수신하는 단계의 블록(704)을 포함할 수 있다. 실시간 이미지 피드는 카메라가 오브젝트를 향할 때 카메라에 의해 실시간으로 생성된 이미지 데이터 또는 센서 데이터일 수 있다. 실시간 이미지 피드는 컴퓨팅 디바이스의 그래픽 사용자 인터페이스(예를 들어, 터치 디스플레이 인터페이스)에서 그래픽으로 표현될 수 있어서, 사용자가 오브젝트가 카메라의 시야 범위 내에 있음을 확인할 수 있게 한다. 이를 통해 사용자는 오브젝트가 컴퓨팅 디바이스에 디스플레이되는 동안 이미지 바로가기 설정을 만들기 위한 명령을 제공할 수 있다.

방법(700)은 오디오 데이터로부터, 어시스턴트 애플리케이션으로부터의 데이터에 대한 요청을 식별하는 단계의 블록(706)을 포함할 수 있다. 데이터에 대한 요청은 컴퓨팅 디바이스 또는 원격 디바이스(예를 들어, 서버 디바이스)에서 수행될 수 있는 음성 인식 알고리즘을 통해 오디오 데이터가 텍스트 데이터로 변환되게 함으로써 식별될 수 있다. 일부 구현예에서, 블록(702)에서 수신되는 오디오 데이터 대신에, 텍스트 데이터가 이미지 어시스턴트 설정을 생성하기 위한 자동화된 어시스턴트에 대한 쿼리 또는 요청으로서 수신될 수 있다. 텍스트 데이터는 손으로 타이핑된 텍스트 데이터를 수신하기 위한 하나 이상의 필드를 포함하는 그래픽 사용자 인터페이스와 같은 어시스턴트 인터페이스에서 수신될 수 있다. 텍스트 데이터는 어시스턴트 애플리케이션에 의해 프로세싱되어 요청이 블록(702)에서 수신된 데이터에 포함되었는지를 결정하고, 사용자에 의해 요청된 데이터의 유형을 식별할 수 있다. 예를 들어, 사용자가 사용자의 카메라를 하늘로 향하게 하는 것에 응답하여 날씨 데이터를 수신하기 위한 요청은 오디오 데이터 또는 손으로 타이핑된 텍스트 데이터로부터 추출된 텍스트 데이터로 구현될 수 있다.

방법(700)은 상기 이미지 데이터로부터, 컴퓨팅 디바이스의 카메라가 향하는 오브젝트에 대응하는 오브젝트 식별자를 식별하는 단계의 블록(708)을 포함할 수 있다. 이미지 데이터는 어시스턴트 애플리케이션, 컴퓨팅 디바이스, 별개의 컴퓨팅 디바이스(예: 서버 디바이스) 및/또는 이미지 데이터를 프로세싱할 수 있는 임의의 기타 장치에 의해 프로세싱될 수 있다. 이미지 데이터는 이미지 데이터 내의 오브젝트를 식별하기 위한 하나 이상의 기계 학습 모델에 제공되거나, 그렇지 않으면 이미지 데이터로부터 오브젝트 식별자 및 오브젝트의 위치를 생성하기 위한 컴퓨터 비전 알고리즘에 입력될 수 있다. 그 후 어시스턴트 애플리케이션은 이미지 바로가기 설정과 연관된 기능을 실행할 때 오브젝트 식별자 및/또는 오브젝트의 위치를 사용할 수 있다.

방법(700)은 상기 데이터에 대한 요청 및 상기 오브젝트 식별자에 기초하여 상기 이미지 바로가기 설정을 생성하는 단계의 블록(710)을 더 포함할 수 있다. 이미지 바로가기 설정은 사용자가 카메라를 오브젝트(예를 들어, 하늘)로 향하게 할 때, 사용자가 어시스턴트 애플리케이션으로 하여금 액션(예를 들어, 날씨 데이터를 검색)을 수행하게 지시할 수 있는 프로세스를 제공하기 위해 어시스턴트 애플리케이션에 의해 생성될 수 있다. 이러한 방식으로, 사용자는 데이터를 검색하기 위해 반드시 텍스트 또는 구두 입력을 컴퓨팅 디바이스에 제공할 필요는 없고, 오히려 단지 컴퓨팅 디바이스의 카메라를 오브젝트로 향하게 할 수 있다.

도 8은 예시적 컴퓨터 시스템(810)의 블록도이다. 컴퓨터 시스템(810)는 일반적으로 적어도 하나의 프로세서(814)를 포함하며, 버스 서브시스템(812)을 통해 다수의 주변 디바이스들과 통신한다. 이들 주변 디바이스들은 예를 들면, 메모리(825) 및 파일 저장 서브시스템(826)을 포함하는 저장 서브시스템(824), 사용자 인터페이스 출력 디바이스(820), 사용자 인터페이스 입력 디바이스(822) 및 네트워크 인터페이스 서브시스템(816)을 포함할 수 있다. 입력 및 출력 디바이스는 컴퓨터 시스템(810)과 사용자 인터렉션을 하게 한다. 네트워크 인터페이스 서브시스템(816)은 외부 네트워크에 대한 인터페이스를 제공하며, 다른 컴퓨터 시스템들의 대응하는 인터페이스 디바이스들과 연결된다.

사용자 인터페이스 입력 디바이스(822)는 키보드, 마우스, 트랙볼, 터치패드 또는 그래픽 태블릿, 스캐너, 디스플레이에 통합된 터치스크린과 같은 포인팅 디바이스, 음성 인식 시스템, 마이크로폰과 같은 오디오 입력 디바이스 및/또는 다른 유형의 입력 디바이스를 포함한다. 일반적으로, 용어 "입력 디바이스"의 사용은 정보를 컴퓨터 시스템(810) 또는 통신 네트워크에 입력하기 위한 모든 가능한 유형의 디바이스들과 방식들을 포함하도록 의도된다.

사용자 인터페이스 출력 디바이스(820)는 디스플레이 서브시스템, 프린터, 팩스 기계 또는 오디오 출력 디바이스와 같은 비-시각적 디스플레이를 포함할 수 있다. 디스플레이 서브시스템은 CRT, LCD와 같은 평면 패널 디바이스, 프로젝션 디바이스 또는 시각적 이미지를 생성하기 위한 일부 기타 메커니즘을 포함할 수 있다. 또한, 디스플레이 서브시스템은 오디오 출력 디바이스와 같은 비-시각적 디스플레이를 제공할 수 있다. 일반적으로, 용어 "출력 디바이스"의 사용은 정보를 컴퓨터 시스템(810)로부터 사용자에게 또는 다른 기계 또는 컴퓨터 시스템에 정보를 출력하기 위한 모든 가능한 유형의 디바이스들과 방식들을 포함하도록 의도된다.

저장 서브시스템(824)은 본 명세서에 기술된 일부 또는 전부의 모듈들의 기능을 제공하기 위한 프로그래밍 및 데이터 구조를 저장한다. 예를 들어, 저장 서브시스템(824)은 방법(600), 방법(700)의 선택된 양태를 수행하고 및/또는 컴퓨팅 디바이스(102), 컴퓨팅 디바이스(202), 컴퓨팅 디바이스(302), 컴퓨팅 디바이스(402), 컴퓨팅 디바이스(502), 서버 디바이스(112), 원격 디바이스(124) 및/또는 본 명세서에서 논의된 임의의 다른 구현예 중 하나 이상을 구현하는 로직을 포함할 수 있다.

이들 소프트웨어 모듈들은 일반적으로 프로세서(814) 단독으로 또는 다른 프로세서들과의 조합에 의해 실행된다. 저장 서브시스템(824)에서 사용된 메모리(825)는 프로그램 실행 중에 명령어들 및 데이터의 저장을 위한 메인 RAM(830) 및 고정된 명령어들이 저장되는 ROM(832)을 포함하는 다수의 메모리들을 포함할 수 있다. 파일 저장 서브시스템(826)은 프로그램 및 데이터 파일에 대한 영구적 저장을 제공할 수 있고, 하드 디스크 드라이브, 연관된 이동식 매체와 함께인 플로피 디스크 드라이브, CD-ROM 드라이브, 광학 드라이브 또는 이동식 매체 카트리지들을 포함할 수 있다. 특정 구현예들의 기능을 구현하는 모듈들은 파일 저장 서브시스템(826)에 의해 저장 서브시스템(824)에 또는 프로세서(들)(814)에 의해 엑세스가능한 다른 기계에 저장될 수 있다.

버스 서브시스템(812)은 의도된 대로 컴퓨터 시스템(810)의 다양한 컴포넌트들 및 서브시스템들이 서로 통신하게 하기 위한 메커니즘을 제공한다. 버스 서브시스템(812)이 개략적으로 단일의 버스로 도시되었지만, 버스 서브시스템의 대안적 구현예들은 다수의 버스들을 사용할 수 있다.

컴퓨터 시스템(810)은 워크스테이션, 서버, 컴퓨팅 클러스터, 블레이드 서버, 서퍼팜 또는 임의의 기타 데이터 프로세싱 시스템 또는 컴퓨팅 디바이스를 포함하는 다양한 유형들일 수 있다. 컴퓨터들 및 네트워크들의 변하지 않는 성질 때문에, 도 8에 도시된 컴퓨터 시스템(810)의 기술은 일부 구현예들을 도시하기 위한 목적의 특정 예시로만 의도된다. 컴퓨터 시스템(810)의 많은 다른 구성들이 도 8에 도시된 컴퓨터 시스템보다 많거나 적은 컴포넌트들을 가질 수 있다.

본 명세서에서 논의된 시스템들이 사용자들(또는 "참여자들"로 종종 지칭됨)에 관한 개인 정보를 수집하거나 또는 개인 정보를 사용하는 경우들에 있어서, 사용자들에게 프로그램들 또는 구성들이 사용자 정보(예를 들면, 사용자의 소셜 네트워크, 소셜 액션들 또는 활동들, 직업, 사용자의 선호들 또는 사용자의 현재 지리적 위치)에 관한 정보를 수집할 것인지 여부를 제어할, 사용자와 더 관련된 컨텐츠 서버로부터의 컨텐츠를 수신할지 및/또는 어떻게 수신할지 제어할 기회가 제공될 수 있다. 추가로, 특정 데이터는 그것이 저장되거나 사용되기 전에 하나 이상의 다양한 방식들로 취급되어, 개인적으로 식별가능한 정보는 제거된다. 예를 들면, 사용자의 신원은 사용자에 관한 개인적으로 식별가능한 정보가 결정될 수 없도록 취급되거나 또는 사용자의 지리적 위치는 위치 정보가 획득된 곳에서 일반화되어(시, 우편번호 또는 주 수준으로), 사용자의 특정한 지리적 위치가 결정될 수 없도록 한다. 따라서, 사용자는 사용자에 관한 정보가 어떻게 수집되는지 그리고 사용되는지에 관한 제어를 가질 수 있다.

몇몇 구현예가 본 명세서에서 기술되고 도시되었지만, 기능을 수행하고 및/또는 결과 및/또는 본 명세서에 기술된 하나 이상의 이점을 획득하기 위한 다양한 다른 수단들 및/또는 구조들이 활용될 수 있으며, 그러한 변형들 및/또는 수정들은 본 명세서에서 기술된 구현예들의 범위 내에 있는 것으로 간주된다. 보다 일반적으로, 본 명세서에 기술된 모든 파라미터, 치수, 재료 및 구성은 예시적인 것으로 의도되었으며, 실제 파라미터, 치수, 재료 및/또는 구성은 교시를 사용되는 특정 어플리케이션 또는 어플리케이션들에 의존할 것이다. 통상의 기술자는 일상적인 실험만을 사용하여 본 명세서에 기술된 특정 구현예들에 대한 많은 균등물들을 인식할 수 있거나 또는 확인할 수 있을 것이다. 따라서, 전술한 구현예들은 단지 예일 뿐이며, 첨부된 청구범위 및 그 균등물의 범위 내에서 구현은 구체적으로 기술되고 청구된 것과 다르게도 실시 될 수 있음을 이해해야 한다. 본 개시의 구현은 본 명세서에 기술된 각각의 개별적인 구성, 시스템, 물품, 재료, 키트 및/또는 방법에 관한 것이다. 또한 구성, 시스템, 물품, 재료, 키트 및/또는 방법이 상호 불일치하지 않는다면, 그러한 두 개 이상의 구성, 시스템, 물품, 재료, 키트 및/또는 방법의 모든 조합이 본 발명의 범위 내에 포함된다.

Claims

컴퓨팅 디바이스로서,
마이크로폰;
디스플레이 디바이스;
상기 디스플레이 디바이스와 동일한 방향을 향하는 전면 카메라;
스피커;
상기 전면 카메라, 상기 마이크로폰, 상기 디스플레이 디바이스 및 상기 스피커와 통신하는 하나 이상의 프로세서, 및
명령어를 저장하도록 구성된 메모리를 포함하며, 상기 명령어는 상기 하나 이상의 프로세서에 의해 실행될 때 상기 하나 이상의 프로세서로 하여금:
상기 전면 카메라에 의해 생성된 하나 이상의 이미지를 프로세싱하게 하며, 상기 프로세싱은 상기 하나 이상의 이미지가:
오브젝트, 및
특정한 사용자의 얼굴을 포함하는지 결정하며;
상기 하나 이상의 이미지가 상기 오브젝트 및 상기 특정한 사용자의 얼굴을 포함한다는 결정에 응답하여:
이미지 바로가기 설정을 호출하게 하며,
상기 이미지 바로가기 설정은 상기 특정한 사용자로부터 자동화된 어시스턴트의 자동화된 어시스턴트 애플리케이션에 대한 하나 이상의 이전 입력에 응답하여 생성되고,
상기 이미지 바로가기 설정 호출은 상기 자동화된 어시스턴트로 하여금 하나 이상의 컴퓨터 액션을 수행하게 하는, 컴퓨팅 디바이스.
청구항 1에 있어서, 상기 자동화된 어시스턴트에 의해 수행되는 상기 하나 이상의 컴퓨터 액션은 사물 인터넷 디바이스의 상태가 변경되게 하는 하나 이상의 명령을 전송하는 것을 포함하는, 컴퓨팅 디바이스.
청구항 1에 있어서, 상기 자동화된 어시스턴트에 의해 수행되는 상기 하나 이상의 컴퓨터 액션은 생성된 쿼리를 전송하는 것, 상기 생성된 쿼리를 전송하는 것에 응답하여 응답 데이터를 수신하는 것 및 상기 응답 데이터의 적어도 일부가 상기 컴퓨팅 디바이스에서 렌더링되게 하는 것을 포함하는, 컴퓨팅 디바이스.
청구항 1에 있어서, 상기 자동화된 어시스턴트에 의해 수행되는 상기 하나 이상의 컴퓨터 액션은 상기 특정한 사용자의 연락처에 전자 통신을 전송하는 것을 포함하는, 컴퓨팅 디바이스.
청구항 1에 있어서, 상기 하나 이상의 프로세서로 하여금 추가로:
상기 하나 이상의 이미지를 프로세싱하기 전에, 상기 이미지 바로가기 설정을 생성하게 하고, 상기 이미지 바로가기 설정을 생성하는 것은:
상기 특정한 사용자로부터 발화된 발언을 수신하고,
상기 발화된 발언 수신에 응답하여, 상기 발화된 발언의 자연어 콘텐츠가 상기 오브젝트를 식별하는 용어를 포함하고, 상기 오브젝트에 대응하는 상기 이미지 바로가기 설정을 생성하기 위한 요청을 더 포함한다고 결정하고, 그리고
상기 발화된 발언이 상기 용어 및 상기 요청을 포함한다고 결정하는 것에 기초하여, 상기 이미지 바로가기 설정을 생성하는, 컴퓨팅 디바이스.
청구항 1에 있어서, 상기 전면 카메라는 상기 디스플레이 디바이스에서 렌더링되는 실시간 이미지 피드를 제공하는, 컴퓨팅 디바이스.
청구항 1에 있어서, 상기 이미지 바로가기 설정을 호출하는 것은, 상기 하나 이상의 프로세서로 하여금 상기 하나 이상의 이미지의 캡처에 대응하는 시간 또는 날짜에 추가로 기초하여, 이미지 바로가기 설정을 호출하기 위한 시간적 조건과 일치하는 상기 이미지 바로가기 설정을 호출하게 하는, 컴퓨팅 디바이스.
하나 이상의 프로세서에 의해 수행되는 방법으로서,
클라이언트 디바이스의 카메라에 의해 생성된 하나 이상의 이미지를 프로세싱하는 단계, 상기 프로세싱하는 단계는 상기 하나 이상의 이미지가:
오브젝트, 및
특정한 사용자의 얼굴을 포함하는지 결정하며;
상기 하나 이상의 이미지가 상기 오브젝트 및 상기 특정한 사용자의 얼굴을 포함한다는 결정에 응답하여:
이미지 바로가기 설정을 호출하는 단계를 포함하며,
상기 이미지 바로가기 설정은 상기 특정한 사용자로부터 자동화된 어시스턴트의 자동화된 어시스턴트 애플리케이션에 대한 하나 이상의 이전 입력에 응답하여 생성되고,
상기 이미지 바로가기 설정 호출은 상기 자동화된 어시스턴트로 하여금 하나 이상의 컴퓨터 액션을 수행하게 하는, 방법.
청구항 8에 있어서, 상기 자동화된 어시스턴트에 의해 수행되는 상기 하나 이상의 컴퓨터 액션은 사물 인터넷 디바이스의 상태가 변경되게 하는 하나 이상의 명령을 전송하는 것을 포함하는, 방법.
청구항 8에 있어서, 상기 자동화된 어시스턴트에 의해 수행되는 상기 하나 이상의 컴퓨터 액션은 생성된 쿼리를 전송하는 것, 상기 생성된 쿼리를 전송하는 것에 응답하여 응답 데이터를 수신하는 것 및 상기 응답 데이터의 적어도 일부가 상기 컴퓨팅 디바이스에서 렌더링되게 하는 것을 포함하는, 방법.
청구항 8에 있어서, 상기 자동화된 어시스턴트에 의해 수행되는 상기 하나 이상의 컴퓨터 액션은 상기 특정한 사용자의 연락처에 전자 통신을 전송하는 것을 포함하는, 방법.
청구항 8에 있어서,
상기 하나 이상의 이미지를 프로세싱하기 전에, 상기 이미지 바로가기 설정을 생성하는 단계, 상기 이미지 바로가기 설정을 생성하는 단계는:
사용자로부터 발화된 발언을 수신하는 것,
상기 발화된 발언 수신에 응답하여, 상기 발화된 발언의 자연어 콘텐츠가 상기 오브젝트를 식별하는 용어를 포함하고, 상기 오브젝트에 대응하는 상기 이미지 바로가기 설정을 생성하기 위한 요청을 더 포함한다고 결정하는 것, 및
상기 발화된 발언이 상기 용어 및 상기 요청을 포함한다는 결정에 기초하여, 상기 이미지 바로가기 설정을 생성하는 것을 포함하는, 방법.
청구항 8에 있어서, 상기 카메라는 상기 클라이언트 디바이스의 디스플레이와 동일한 방향을 향하는 전면 카메라인, 방법.
청구항 8에 있어서,
상기 하나 이상의 이미지의 캡처에 대응하는 시간 또는 날짜가 상기 이미지 바로가기 설정을 호출하기 위한 시간 조건과 일치하는지 결정하는 단계를 더 포함하며;
상기 이미지 바로가기 설정을 호출하는 단계는 상기 이미지 바로가기 설정을 호출하기 위한 시간적 조건과 일치하는 상기 시간 또는 날짜에 더 기초하는 것인, 방법.
명령어를 저장하는 적어도 하나의 비일시적 컴퓨터 판독가능 매체로서, 상기 명령어는 프로세서에 의해 실행될 때, 상기 프로세서로 하여금:
클라이언트 디바이스의 카메라에 의해 생성된 하나 이상의 이미지를 프로세싱하게 하며, 상기 프로세싱은 상기 하나 이상의 이미지가:
오브젝트, 및
특정한 사용자의 얼굴을 포함하는지 결정하며;
상기 하나 이상의 이미지가 상기 오브젝트 및 상기 특정한 사용자의 얼굴을 포함한다는 결정에 응답하여:
이미지 바로가기 설정을 호출하게 하며,
상기 이미지 바로가기 설정은 상기 특정한 사용자로부터 자동화된 어시스턴트의 자동화된 어시스턴트 애플리케이션에 대한 하나 이상의 이전 입력에 응답하여 생성되고,
상기 이미지 바로가기 설정 호출은 상기 자동화된 어시스턴트로 하여금 하나 이상의 컴퓨터 액션을 수행하게 하는, 적어도 하나의 비일시적 컴퓨터 판독가능 매체.