KR102223727B1

KR102223727B1 - 컨텐츠 선택을 제공하는 시스템들 및 방법들

Info

Publication number: KR102223727B1
Application number: KR1020187026752A
Authority: KR
Inventors: 팀 원트랜드; 스테파노 마조치; 카이카이 왕; 존 토마스 3세 디마틸레
Original assignee: 구글 엘엘씨
Priority date: 2016-06-29
Filing date: 2016-12-09
Publication date: 2021-03-05
Also published as: US10254935B2; EP3414676B1; US20180004397A1; EP3414676A1; KR20180112031A; CN108780453A; WO2018004730A1

Abstract

컨텐츠 선택을 제공하는 시스템들 및 방법들이 제공된다. 예를 들어, 사용자 인터페이스 내에 디스플레이된 오브젝트의 사용자 선택을 표시하는 하나 이상의 신호들이 수신될 수 있다. 상기 하나 이상의 신호들을 수신함에 응답하여, 상기 사용자 인터페이스 내에 디스플레이된 하나 이상의 오브젝트들과 연관된 컨텐츠 속성이 식별될 수 있다. 컨텐츠 엔터티는 상기 컨텐츠 속성 및 사용자 선택에 적어도 부분적으로 기초하여 결정될 수 있다. 그 후, 하나 이상의 관련 액션들은 상기 결정된 컨텐츠 엔터티에 적어도 부분적으로 기초하여 결정될 수 있다. 그 후, 관련 액션들을 표시하는 데이터가 디스플레이를 위해 제공될 수 있다.

Description

컨텐츠 선택을 제공하는 시스템들 및 방법들

본 발명은 사용자 인터페이스 내에 디스플레이된 컨텐츠를 선택하는 사용자 인터페이스들과 일반적으로 관련된다.

현대 사용자 컴퓨팅 디바이스들은 사용자들로 하여금 사용자 컴퓨팅 디바이스들에 의해 디스플레이된 사용자 인터페이스와 인터렉션하게 하는 하나 이상의 입력 디바이스들을 일반적으로 포함한다. 예를 들어, 많은 사용자 컴퓨팅 디바이스들은 스크린의 표면에 터치의 존재와 위치를 검출할 수 있는 터치 스크린 디스플레이 디바이스를 포함한다. 이 방식에서, 사용자는 디바이스와의 접촉을 개시하는 것을 통해 터치 스크린 디바이스에 의해 디스플레이된 사용자 인터페이스를 조작하거나 제어할 수 있다.

일부 사용자 인터페이스 액션들은 터치 스크린을 사용하여 구현하는 것이 어려울 수 있다. 예를 들어, 터치 스크린 디바이스를 사용하여 복사 및/또는 붙여넣기 기능을 수행하는 것은 어려울 수 있다. 통상적 터치 스크린 디바이스들은 사용자가 복사될 텍스트를 선택하게 하고 상기 복사된 텍스트가 원하는 목적지에 결국 붙여넣어지게 하는 다양한 기법들을 포함할 수 있다. 그러나, 상기 통상적 기법들은 직관적이지 않고, 비효율적이고 및/또는 느릴 수 있다. 추가로, 상기 기법들은 사용자가 상이한 컨텍스트들에 대하 다수의 상이한 기법들을 익힐 것을 요구하여, 사용자 디바이스에 설치된 다양한 어플리케이션들에 보편적이지 않을 수 있다.

일 예시적 텍스트 선택 기법은 사용자 디바이스에 의한 텍스트의 선택을 지원하기 위해 사용자 인터페이스 내에 디스플레이된 원하는 텍스트 상에 사용자로 하여금 “길게 누름” 제스처를 수행하게 한다. 그러나, 상기 길게 누름 기법은 사용자 인터페이스 내의 길게 누름 위치 근처의 하나 이상의 문자들 또는 단어들의 디폴트 선택을 포함할 수 있다. 그러나, 상기 디폴트 위치는 부정확할 수 있고 사용자가 선택하기를 원하는 텍스트 전부를 완전하게 캡처하지 않을 수 있다. 추가로, 일단 텍스트가 복사되면, 어떻게 상기 복사된 텍스트에 엑세스할 지 및/또는 원하는 목적지에 상기 복사된 텍스트를 붙여넣을지 분명하지 않을 수 있다.

본 발명의 실시예들의 양태들 및 이점들이 후술하는 설명에서 부분적으로 기술될 것이며, 또는 설명으로부터 학습될 수 있거나 또는 실시예들의 실시를 통해 학습될 수 있다.

본 발명의 일 예시적 양태는 컨텐츠 선택을 제공하는 컴퓨터로 구현되는 방법에 관한 것이다. 상기 방법은 하나 이상의 컴퓨팅 디바이스들에 의해, 사용자 인터페이스 내에 디스플레이된 오브젝트의 사용자 선택을 표시하는 하나 이상의 신호들을 수신하는 단계를 포함한다. 상기 방법은 상기 사용자 선택을 표시하는 상기 하나 이상의 신호들을 수신함에 응답하여, 상기 하나 이상의 컴퓨팅 디바이스들에 의해, 상기 사용자 인터페이스 내에 디스플레이된 하나 이상의 오브젝트들과 연관된 컨텐츠 속성을 식별하는 단계를 더 포함한다. 상기 방법은 상기 하나 이상의 컴퓨팅 디바이스들에 의해, 상기 하나 이상의 오브젝트들과 연관된 상기 컨텐츠 속성과 상기 사용자 선택에 적어도 부분적으로 기초하여 컨텐츠 엔터티(entity)를 결정하는 단계를 더 포함한다. 상기 방법은 상기 하나 이상의 컴퓨팅 디바이스들에 의해, 상기 결정된 컨텐츠 엔터티에 적어도 부분적으로 기초하여 수행될 하나 이상의 관련 액션들을 결정하는 단계를 더 포함한다. 상기 방법은 상기 하나 이상의 컴퓨팅 디바이스들에 의해, 상기 하나 이상의 관련 액션들을 표시하는 데이터를 디스플레이하기 위해 제공하는 단계를 더 포함한다.

본 발명의 다른 예시적 양태들은 컨텐츠 선택 기법들을 제공하기 위한 시스템들, 장치들, 유형적, 비일시적 컴퓨터 판독가능 매체, 사용자 인터페이스들, 메모리 디바이스들 및 전자 디바이스들에 관한 것이다.

다양한 실시예들의 이들 및 다른 구성들, 양태들 및 이점들은 후술하는 설명 및 첨부된 청구항들을 참조하여 보다 잘 이해될 것이다. 본 명세서에 통합되고 본 명세서의 일부를 구성하는 첨부 도면들은 설명과 함께 본 발명의 실시예들을 도시하며, 관련된 원리들을 설명하기 위해 제공된다.

통상의 기술자 중 누군가를 위한 실시예들의 상세한 논의가 첨부된 도면들을 참조하는 명세서에서 기술된다.
도 1은 본 발명의 예시적 실시예들에 따라 컨텐츠 선택을 제공하기 위한 예시적 시스템들을 도시한다.
도 2 내지 4는 본 발명의 예시적 실시예들에 따른 예시적 사용자 인터페이스들을 도시한다.
도 5은 본 발명의 예시적 실시예들에 따라 컨텐츠 선택을 제공하는 예시적 방법의 흐름도를 도시한다.
도 6은 본 발명의 예시적 실시예들에 따라 컨텐츠 선택을 제공하는 예시적 방법의 흐름도를 도시한다.
도 7은 본 발명의 예시적 실시예들에 따라 관련 액션들을 결정하는 예시적 방법의 흐름도를 도시한다.
도 8은 본 발명의 예시적 실시예들에 따른 예시적 시스템들을 도시한다.

이제 실시예들, 도면에서 도시된 하나 이상의 예시들에 대한 참조가 자세히 이루어질 것이다. 각 예시는 실시예들의 설명을 위해 제공되며, 본 발명의 제한이 아니다. 사실, 다양한 수정들 및 변형들이 본 발명의 범위 또는 정신으로부터 벗어나지 않고 실시예들에 대해 이루어질 수 있다는 것이 통상의 기술자에게 명백해질 것이다. 예를 들어, 일 실시예의 일부로서 도시되거나 기술된 구성들은 여전히 추가적 실시예를 만들어내기 위해 다른 실시예와 함께 사용될 수 있다. 따라서, 본 발명의 양태들은 상기 수정들 및 변형들을 커버하기 위해 의도되었다.

본 발명의 예시적 양태들은 사용자 디바이스와 연관된 사용자 인터페이스 내에서 컨텐츠 선택 기법들을 제공하는 것에 관한 것이다. 예를 들어, 사용자 인터페이스 내에 디스플레이된 선택된 인터페이스 오브젝트를 표시하는 하나 이상의 신호들이 수신될 수 있다. 사용자 인터페이스는 이미지, 텍스트(예를 들어, 문자들 및/또는 단어들), 아이콘, 그래픽 등과 같은 복수의 오브젝트들을 포함할 수 있다. 선택된 오브젝트를 표시하는 하나 이상의 신호들은 오브젝트의 선택을 표시하는 사용자에 의한 입력과 연관될 수 있다. 그 후, 사용자 디바이스는 선택된 오브젝트와 연관된 컨텐츠 속성을 결정할 수 있다. 컨텐츠 속성은 선택된 오브젝트의 식별 피처(identifying feature)를 포함할 수 있다. 예를 들어, 컨텐츠 속성은 선택된 오브젝트에 의해 표현된 하나 이상의 문자들 또는 단어를 식별할 수 있다. 그 후, 사용자 디바이스는 상기 결정된 컨텐츠 속성에 적어도 부분적으로 기초하여 컨텐츠 엔터티를 결정할 수 있다. 그 후, 사용자 디바이스는 상기 컨텐츠 엔터티에 적어도 부분적으로 기초하여 하나 이상의 관련 액션들을 결정할 수 있다. 관련 액션들은 상기 컨텐츠 엔터티와 관련될 것으로 추정된, 사용자 디바이스에 의해 수행될 하나 이상의 액션들을 포함할 수 있다. 관련 액션들은 사용자 인터페이스 내에 디스플레이하기 위해 제공될 수 있다. 본 명세서에 기술된 컨텐츠 선택 기법들은 예를 들면, 사용자 디바이스와의 향상된 사용자-상호작용성을 지원할 수 있다. 이들 기법들은 사용자들로 하여금 사용자 인터페이스 내에서 디스플레이된 특정 컨텐츠를 더 쉽게 선택하게 할 수 있다. 또한, 기법들은 사용자들로 하여금 사용자 디바이스가 선택된 컨텐츠에 기초하여 또는 사용하여 다른 기능들을 수행하는 것을 더 쉽게 지시하게 할 수 있다.

일부 구현예들에서, 사용자는 사용자 인터페이스와 연관된 컨텐츠 선택 엘리먼트와 인터렉션함으로써 오브젝트를 선택할 수 있다. 예를 들어, 사용자 디바이스는 제어물(예를 들어, 사용자의 손가락, 스타일러스 등)로부터의 터치 입력들을 수신할 수 있는 터치 스크린 디바이스를 포함할 수 있다. 상기 구현예들에서, 컨텐츠 선택 엘리먼트는 사용자 디바이스에 의한 오브젝트의 선택을 지원하기 위해 사용자가 컨텐츠 선택 엘리먼트를 사용자 인터페이스 내에 디스플레이된 원하는 오브젝트로“드래그”하고, 컨텐츠 선택 엘리먼트를 상기 오브젝트에 또는 그 근처에 “드롭” 할 수 있는 드래그가능한 사용자 인터페이스 엘리먼트일 수 있다. 예를 들어, 일부 구현예들에서, 사용자는 컨텐츠 선택 엘리먼트의 위치에 대응하는 사용자 디바이스 터치 스크린의 위치를 입력물로 “길게 누름”을 수행함으로써 컨텐츠 선택 엘리먼트를 “그랩” 할 수 있다. 그 후, 사용자는 터치 스크린에서 상기 입력물을 원하는 드롭 포인트 또는 원하는 오브젝트 근처로 이동시킬 수 있고, 그리고 상기 드롭 포인트에서 상기 입력물을 상기 터치 스크린으로부터 제거할 수 있다. 사용자가 제어물을 터치 스크린에서 이동시킴에 따라, 컨텐츠 선택 엘리먼트는 길게 누름이 개시되었던 그랩 포인트로부터 드롭 포인트로 사용자의 손가락을 따라가기 위해 사용자 인터페이스에서 이동될 수 있다. 일부 구현예들에서, 컨텐츠 선택 엘리먼트는 가시적 도트 또는 사용자 인터페이스 내에 디스플레이된 다른 적절한 표시자로서 렌더링될 수 있다.

선택된 오브젝트를 표시하는 하나 이상의 신호들을 수신함에 응답하여, 사용자 디바이스는 선택된 오브젝트와 연관된 컨텐츠 속성을 식별할 수 있다. 컨텐츠 속성은 선택된 오브젝트의 식별 피처(identifying feature)를 포함할 수 있다. 예를 들어, 컨텐츠 속성은 선택된 오브젝트에 의해 표현된 하나 이상의 문자들 또는 단어들을 포함할 수 있다. 다른 예시로서, 선택된 오브젝트가 사용자 인터페이스 내에 디스플레이된 이미지인 경우, 컨텐츠 속성은 카테고리, 분류 및/또는 이미지에 도시된 하나 이상의 아이템들(비-텍스트 오브젝트들)의 다른 식별 피처를 포함할 수 있다. 일부 구현예들에서, 선택된 오브젝트의 컨텐츠 속성을 결정하는 것은 선택된 오브젝트가 디스플레이되는 사용자 인터페이스의 이미지를 획득하는 것을 포함할 수 있다. 예를 들어, 이미지는 사용자 디바이스의 디스플레이 디바이스에 의해 디스플레이된 데이터의 스크린샷을 캡처함으로써 획득될 수 있다. 획득된 이미지는 사용자 디바이스의 사용자 인터페이스와 연관된 디스플레이된 복수의 오브젝트들을 도시할 수 있다. 표시된 바와 같이, 복수의 오브젝트들은 텍스트, 이미지, 사용자 인터페이스 엘리먼트들 및/또는 다양한 다른 적절한 오브젝트들을 포함할 수 있다. 예를 들어, 텍스트는 기계-편집가능 텍스트 및/또는 사용자 인터페이스 내에 디스플레이된 이미지 내에 도시된 텍스트일 수 있다. 획득된 이미지는 광학 문자 인식(OCR) 엔진에 입력으로서 제공될 수 있다. 일부 구현예들에서, OCR 엔진은 사용자 디바이스에 저장되거나 또는 이와 달리 로컬적으로 위치될 수 있다. OCR 엔진은 신경 네트워크, k-nearest neighbor, 서포트 벡터 머신(suppor vector machine), 로지스틱 리그레션(logistic regression)과 같은 하나 이상의 기계 학습 기법들 및/또는 임의의 기타 적절한 기계 학습 기법을 사용하여 구현될 수 있다. OCR 엔진은 사용자 인터페이스의 획득된 이미지에서 도시된 텍스트를 식별할 수 있다. 예를 들어, OCR 엔진은 획득된 이미지에서 도시된 바와 같이, 사용자 인터페이스 내에 디스플레이된 복수의 문자들 및/또는 단어들을 식별할 수 있다. 일부 구현예들에서, OCR 엔진은 획득된 이미지 및/또는 사용자 인터페이스 내의 식별된 문자들 및/또는 단어들의 위치를 추가로 결정할 수 있다.

선택된 오브젝트는 컨텐츠 선택 엘리먼트의 드롭 포인트의 위치를 사용자 인터페이스 내의 다양한 오브젝트들의 위치들과 비교함으로써 결정될 수 있다. 예를 들어, 선택된 오브젝트는 사용자 인터페이스 내에서 컨텐츠 선택 엘리먼트의 드롭 포인트에 가장 가까운 오브젝트인 것으로 결정될 수 있다. 다른 예시로서, 선택된 오브젝트는 사용자 인터페이스 내에서 컨텐츠 선택 엘리먼트의 드롭 포인트의 임계 거리 내에 위치된 오브젝트인 것으로 결정될 수 있다. 표시된 바와 같이, 일부 구현예들에서, 사용자 인터페이스 내의 오브젝트들의 위치들은 OCR 엔진을 사용하여 결정될 수 있다. 예를 들어, OCR 엔진은 사용자 인터페이스의 획득된 이미지를 입력으로서 수신하고, 이미지에 도시된 오브젝트들의 식별된 컨텐츠 속성들(예를 들어, 인식된 텍스트, 이미지 분류들 등) 및 이미지에 도시된 상기 오브젝트의 위치를 출력으로서 제공할 수 있다.

컨텐츠 엔터티는 컨텐츠 선택 엘리먼트를 드롭 포인트에 드롭함으로써 사용자가 선택할 것을 의도한 하나 이상의 오브젝트들의 추정을 표현할 수 있다. 일부 구현예들에서, 컨텐츠 엔터티는 선택된 오브젝트 및 사용자 인터페이스 내에 디스플레이된 하나 이상의 추가적 오브젝트들을 포함할 수 있다. 예를 들어, 선택된 오브젝트가 텍스트의 단일 단어인 경우, 컨텐츠 엔터티는 텍스트의 하나 이상의 추가적 단어들을 포함할 수 있다. 상기 구현예들에서, 컨텐츠 엔터티는 선택된 오브젝트와 연관된 구절, 문장, 주소, 텍스트 줄, 영화 제목, 음식 아이템, 관심 지점, 이름 등과 같은 텍스트 엔터티일 수 있다. 선택된 오브젝트가 사용자 인터페이스 내에 디스플레이된 이미지인 구현예들에서, 컨텐츠 엔터티는 전체 이미지 또는 이미지 내에 도시된 하나 이상의 (비-텍스트) 아이템들과 같은 이미지의 하나 이상의 부분들일 수 있다. 일부 구현예들에서, 컨텐츠 엔터티는 선택된 오브젝트 근처의 하나 이상의 오브젝트들을 분석함으로써 결정될 수 있다. 예를 들어, 오브젝트가 텍스트의 스트링에 위치된 단어인 경우, 상기 텍스트의 스트링에서 선택된 단어 근처의 하나 이상의 추가적 단어들이 상기 단어들과의 관계를 결정하기 위해 상기 선택된 단어를 고려하여 분석될 수 있다. 일부 구현예들에서, 컨텐츠 엔터티는 하나 이상의 기계 학습 기법들을 사용하여 결정될 수 있다. 예를 들어, 컨텐츠 엔터티는 신경 네트워크 또는 사용자 디바이스에 저장되거나 또는 이와 달리 사용자 디바이스와 연관된 기타 적절한 기계 학습 네트워크를 사용하여 결정될 수 있다. 이 방식에서, 컨텐츠 엔터티의 하나 이상의 카테고리들이 결정될 수 있다. 예를 들어, 컨텐츠 엔터티는 구절, 주소, 도시, 음식점, 영화 제목, 책 제목, 노래 제목, 문장, 숙어, 이름 및/또는 기타 적절한 카테고리로 카테고리화될 수 있다.

일단 컨텐츠 엔터티가 결정되면, 상기 컨텐츠 엔터티와 연관된 하나 이상의 관련 액션들이 결정될 수 있다. 예를 들어, 하나 이상의 관련 액션들은 사용자 디바이스에 설치된 하나 이상의 어플리케이션들과 연관될 수 있다. 관련 액션들은 상기 컨텐츠 엔터티의 결정된 카테고리에 적어도 부분적으로 기초하여 결정될 수 있다. 예를 들어, 컨텐츠 엔터티가 음식점의 주소이면, 관련 액션들은 사용자 디바이스에 설치된 지도 어플리케이션으로 하여금 상기 음식점 주변의 지리적 영역의 지도 및 상기 음식점으로의 네비게이션 지시들을 디스플레이하게 하는 것을 포함할 수 있다. 다른 예시로서, 컨텐츠 엔터티가 영화의 제목이면, 관련 액션들은 웹브라우저 또는 사용자 디바이스에 설치된 영화 어플리케이션을 사용하여 지역 극장의 영화 상영 시간들에 대해 검색하는 것을 포함할 수 있다. 일부 구현예들에서, 관련 액션들은 사용자 인터페이스, 선택된 오브젝트 및/또는 컨텐츠 엔터티와 연관된 결정된 컨텍스트에 적어도 부분적으로 기초하여 결정될 수 있다. 예를 들어, 컨텐츠 엔터티가 웹브라우저 내에 위치되면, 관련 액션들은 적절한 검색 엔진을 사용한 컨텐츠 엔터티의 웹 검색을 포함할 수 있다. 다른 예시로서, 컨텐츠 엔터티가 이미지면, 관련 액션들은 컨텐츠 엔터티와 유사한 이미지들에 대한 이미지 검색을 포함할 수 있다.

일부 구현예들에서, 적어도 하나의 관련 액션은 하나 이상의 기계 학습 기법들을 사용하여 결정될 수 있다. 예를 들어, 관련 어플리케이션들은 신경 네트워크 또는 사용자 디바이스에 저장되거나 또는 이와 달리 사용자 디바이스와 연관된 기타 기계 학습 네트워크를 사용하여 결정될 수 있다. 이 방식에서, 컨텐츠 엔터티 및/또는 사용자 인터페이스와 연관된 데이터가 신경 네트워크에 입력으로서 제공될 수 있고, 상기 신경 네트워크는 컨텐츠 엔터티 및/또는 사용자 인터페이스와 연관된 하나 이상의 적절한 액션들을 결정할 수 있다. 일부 구현예들에서, 적어도 하나의 관련 액션은 디폴트 액션일 수 있다. 디폴트 액션은 컨텐츠 엔터티에 기초하여 결정되지 않은 관련 액션일 수 있다. 예를 들어, 디폴트 액션들은 “복사” 액션, 웹 검색 액션 및/또는 사용자 디바이스에 의해 수행될 기타 디폴트 또는 일반적 액션들을 포함할 수 있다.

관련 액션들은 예를 들어, 사용자 인터페이스와 연관된 메뉴에 디스플레이하기 위해 제공될 수 있다. 이 방식에서, 컨텐츠 선택 엘리먼트를 사용하는 사용자에 의한 오브젝트의 선택에 응답하여, 사용자 디바이스는 사용자 디바이스에 의해 수행될 하나 이상의 관련 액션들을 디스플레이할 수 있다.

이제 도면들을 참조하여, 본 발명의 예시적 양태들이 더 자세히 논의될 것이다. 예를 들어, 도 1은 본 발명의 예시적 실시예들에 따라 컨텐츠 선택들을 제공하기 위한 예시적 시스템들을 도시한다. 시스템(100)은 스마트폰, 태블릿, 웨어러블 컴퓨팅 디바이스, 랩톱, 데스크톱과 같은 사용자 컴퓨팅 디바이스 및/또는 기타 적절한 사용자 디바이스 내에서 구현될 수 있다. 일부 구현예들에서, 사용자 컴퓨팅 디바이스는 도 8의 사용자 디바이스(610) 또는 기타 적절한 사용자 컴퓨팅 디바이스에 대응할 수 있다. 시스템(100)은 컨텐츠 식별기(102), 엔터티 선택기(104) 및 액션 결정기(106)를 포함한다.

컨텐츠 식별기(102)는 시스템(100)과 연관된 사용자 인터페이스 내에 디스플레이된 컨텐츠를 선택하기 위한 사용자로부터의 요청을 표시하는 사용자로부터의 입력을 수신하도록 구성될 수 있다. 예를 들어, 사용자 인터페이스는 시스템(100)과 연관된 디스플레이 디바이스에 의해 디스플레이될 수 있다. 일부 구현예들에서, 디스플레이 디바이스는 사용자와 연관된 입력물(예를 들어, 손가락, 스타일러스 등)로부터 터치 입력들을 수신할 수 있는 터치 스크린을 포함할 수 있다. 아래에서 더 자세히 논의될 바와 같이, 사용자 입력은 사용자 인터페이스 내에 디스플레이된 컨텐츠 선택 사용자 인터페이스 엘리먼트와 연관될 수 있다. 예를 들어, 일부 구현예들에서, 사용자는 사용자 인터페이스 내의 컨텐츠 선택 엘리먼트의 위치에 대응하는 디스플레이 디바이스 상의 위치에서 길게 누름 액션(예를 들어, 입력물을 사용하여)을 수행함으로써 컨텐츠 선택 엘리먼트를 “그랩(grab)”할 수 있다. 그 후 사용자는 상기 입력물을 디스플레이 디바이스의 스크린에서 드롭 위치로 이동시킴으로써 사용자 인터페이스 내에 도시된 하나 이상의 오브젝트들 근처의 원하는 드롭 위치까지 컨텐츠 선택 엘리먼트를 “드래그(drag)”할 수 있다. 그 후 사용자는 사용자 인터페이스 내에 디스플레이된 하나 이상의 오브젝트들의 시스템(100)에 의한 선택을 지원하기 위해 디스플레이 디바이스로부터 상기 입력물을 제거함으로써 드롭 위치에서 컨텐츠 선택 엘리먼트를 “드롭(drop)”할 수 있다.

사용자 입력을 수신함에 응답하여, 컨텐츠 식별기(102)는 사용자 인터페이스 내에 디스플레이된 하나 이상의 오브젝트들의 컨텐츠 속성을 결정할 수 있다. 예를 들어, 컨텐츠 식별기(102)는 사용자 인터페이스 내에 도시된 하나 이상의 오브젝트들을 식별하거나 인식할 수 있다. 컨텐츠 식별기(102)는 사용자 인터페이스의 적어도 일 부분에 도시된 텍스트, 이미지 및/또는 기타 오브젝트들을 식별하거나 인식할 수 있다. 일부 구현예들에서, 컨텐츠 식별기(102)는 사용자 인터페이스 내에 도시된 텍스트와 이미지들을 구별할 수 있다. 일부 구현예들에서, 컨텐츠 식별기는 사용자 인터페이스 내에 도시된 편집가능한 텍스트와 사용자 인터페이스 내에 도시된 이미지 내에 도시된 편집가능하지 않은 텍스트를 구별할 수 있다. 다양한 구현예들에서, 컨텐츠 식별기(102)는 사용자 인터페이스 내에 현재 디스플레이된 각 오브젝트 또는 오브젝트들의 서브셋을 식별할 수 있다. 예를 들어, 컨텐츠 식별기(102)는 컨텐츠 선택 엘리먼트의 드롭 위치 근처의 사용자 인터페이스의 일부분에 디스플레이된 오브젝트들을 식별할 수 있거나, 또는 컨텐츠 식별기(102)는 사용자 입력이 수신되었던 시간에 사용자 인터페이스 내에 디스플레이된 각 오브젝트를 식별할 수 있다.

일부 구현예들에서, 사용자 인터페이스 내에 디스플레이된 오브젝트들을 식별하거나 인식하는 것은 사용자 인터페이스의 이미지(예를 들어, 전자적 이미지)를 획득하는 것을 포함할 수 있다. 예를 들어, 사용자 입력에 응답하여, 컨텐츠 식별기(102)는 디스플레이 디스플레이 디바이스에 디스플레이된 바와 같이 사용자 인터페이스의 스크린샷을 “캡처(capture)”할 수 있다. 그 후, 하나 이상의 OCR 기법들이 획득된 이미지에 수행될 수 있다. 상기 구현예들에서, 컨텐츠 식별기(102)는 OCR 엔진(108)을 포함할 수 있다. 이 방식에서, 획득된 이미지(예를 들어 스크린샷)의 적어도 일 부분이 OCR 엔진(108)에 대한 입력으로서 제공될 수 있다. OCR 엔진(108)은 하나 이상의 OCR 기법들을 사용하여 상기 획득된 이미지에 도시된 텍스트를 식별하거나 인식하도록 구성될 수 있다. 예를 들어, OCR 엔진(108)은 획득된 이미지를 기계-코딩된 텍스트로 변환할 수 있다. 일부 구현예들에서, OCR 엔진(108)은 복수의 레이어들에 배열된 복수의 상호연결된 연산자들 또는 노드들을 가지는 인공 신경 네트워크를 사용하여 구현될 수 있다. 다양한 기타 적절한 OCR 엔진이 본 발명의 범위로부터 벗어나지 않고 사용될 수 있다는 것이 인식될 것이다.

표시된 바와 같이, 일부 구현예들에서, 컨텐츠 식별기(102)는 텍스트 오브젝트들과 사용자 인터페이스 내에 도시된 이미지 오브젝트들을 구별할 수 있다. 예를 들어, 컨텐츠 식별기(102)는 하나 이상의 카테고리들 또는 사용자 인터페이스에 도시된 오브젝트들의 식별 피처들의 초기 결정을 할 수 있다. 컨텐츠 식별기(102)는 사용자 인터페이스 내의 기계-코딩된 텍스트와 인식불가능한 텍스트(예를 들어, 사용자 인터페이스에 디스플레이된 이미지들 내에 도시된 텍스트)를 추가로 구별할 수 있다. 이 방식에서, 컨텐츠 식별기(102)는 OCR 프로세스가 텍스트의 컨텐츠들을 결정하기 위해 필요한지 결정할 수 있다. 예를 들어, 컨텐츠 식별기(102)가 사용자 인터페이스의 적어도 일 부분에 도시된 텍스트 오브젝트들을 초기적으로 판독하거나 인식할 수 있으면, OCR 프로세스는 필요하지 않을 수 있다. 컨텐츠 식별기(102)가 사용자 인터페이스의 적어도 일 부분에 도시된 텍스트 오브젝트들을 초기적으로 판독하거나 인식할 수 없으면, 컨텐츠 식별기(102)는 사용자 인터페이스의 적어도 일 부분의 이미지를 획득할 수 있고, 이미지를 기계-코딩된 텍스트로 변환하기 위해 상기 획득된 이미지를 OCR 엔진에 제공할 수 있다.

컨텐츠 식별기(102)는 사용자 인터페이스 내에 디스플레이된 하나 이상의 오브젝트들의 위치를 결정할 수 있다. 예를 들어, 컨텐츠 식별기(102)는 사용자 인터페이스와 관련된 상기 하나 이상의 오브젝트들(문자들, 단어들, 이미지들 등)의 좌표들(예를 들어, x, y 좌표)을 결정할 수 있다. 일부 구현예들에서, 오브젝트들의 위치들은 OCR 엔진(108)에 의해 결정될 수 있다.

하나 이상의 식별된 오브젝트들이 사용자 인터페이스 내에 디스플레이된 이미지를 포함하는 구현예들에서, 컨텐츠 식별기(102)는 이미지와 연관된 분류 및/또는 카테고리를 결정할 수 있다. 예를 들어, 컨텐츠 식별기(102)는 이미지가 특정 아이템(예를 들어, 개, 나무, 지갑, 빌딩 등)을 도시한다고 결정할 수 있다. 이 방식에서, 컨텐츠 식별기(102)는 사용자 인터페이스 내에 디스플레이된 이미지에 도시된 하나 이상의 아이템들을 인식할 수 있고, 상기 하나 이상의 아이템들을 분류하거나 카테고리화할 수 있다.

컨텐츠 식별기(102)는 식별된 오브젝트들을 표시하는 데이터를 엔터티 선택기(104)에 제공할 수 있다. 엔터티 선택기(104)는 사용자에 의해 선택된 하나 이상의 오브젝트들과 연관된 컨텐츠 엔터티를 결정할 수 있다. 특히, 엔터티 선택기(104)는 사용자 입력의 위치(예를 들어, 사용자 인터페이스와 관련한)를 사용자 인터페이스 내에 디스플레이된 오브젝트들의 위치들과 비교함으로써 사용자에 의해 선택된 오브젝트를 식별할 수 있다. 예를 들어, 사용자 입력이 컨텐츠 선택 엘리먼트와의 사용자 인터렉션을 통해 제공된 구현예들에서, 사용자에 의한 컨텐츠 선택 엘리먼트의 드롭 포인트의 위치는 대응 오브젝트를 결정하기 위해 분석될 수 있다. 대응 오브젝트는 사용자가 선택하려고 의도한 오브젝트를 표현할 수 있다. 예를 들어, 사용자 인터페이스 내의 드롭 포인트와 가장 가까운 위치를 가지는 오브젝트는 선택된 오브젝트인 것으로 결정될 수 있다. 다른 예시로서, 드롭 포인트의 임계 반경 내의 하나 이상의 오브젝트들은 선택된 오브젝트(들)인 것으로 결정될 수 있다. 또 다른 예시로서, 선택된 오브젝트는 상기 드롭 포인트의 상기 임계 반경 내에 있는 하나 이상의 후보 오브젝트들의 드롭 포인트에 가장 가까운 오브젝트일 수 있다. 선택된 오브젝트는 단어 오브젝트, 문자 오브젝트, 이미지 오브젝트 등일 수 있다.

엔터티 선택기(104)는 사용자 입력과 연관된 컨텐츠 엔터티를 결정하기 위해 상기 선택된 오브젝트의 컨텐츠 속성을 분석할 수 있다. 예를 들어, 컨텐츠 엔터티는 사용자가 사용자 입력을 통해 선택하려고 의도한 하나 이상의 오브젝트들의 추정일 수 있다. 예를 들어, 컨텐츠 엔터티는 단지 선택된 오브젝트를 포함할 수 있거나 또는 컨텐츠 엔터티는 컨텐츠 엔터티를 형성하기 위해 선택된 오브젝트와 조합될 수 있는 하나 이상의 추가적 오브젝트들을 포함할 수 있다. 예를 들어, 선택된 오브젝트는 구절, 주소, 이름 또는 다른 텍스트적 엔터티인 단일 단어일 수 있다. 컨텐츠 엔터티는 전체 구절, 주소, 이름 또는 기타 텍스트적 엔터티인 것으로 결정될 수 있다. 이 방식에서, 상기 선택된 오브젝트 근처의 하나 이상의 추가적 오브젝트들(예를 들어, 하나 이상의 추가적 오브젝트들의 컨텐츠 속성들)이 상기 하나 이상의 추가적 오브젝트들이 상기 선택된 오브젝트와 함께 결합 엔터티(cohesive entity)를 형성할 수 있는지 결정하기 위해 선택된 오브젝트를 고려하여 분석될 수 있다.

일부 구현예들에서, 엔터티 선택기(104)는 컨텐츠 엔터티를 결정하기 위해 하나 이상의 추가적 오브젝트들의 위치 및/또는 크기를 분석할 수 있다. 예를 들어, 상기 선택된 오브젝트와 관련하여 줄 또는 다른 근처 위치 내의 오브젝트들은 컨텐츠 엔터티 결정에서 더 많은 가중치가 주어질 수 있다. 추가로, 선택된 오브젝트와 유사한 크기를 가지는 오브젝트들 또한 더 많은 가중치가 주어질 수 있다. 이 방식에서, 사용자 인터페이스 내의 오브젝트들의 레이아웃 및 구성이 컨텐츠 엔터티를 결정하기 위해 분석될 수 있다.

엔터티 선택기(104)는 신경 네트워크(110)를 포함할 수 있다. 일부 구현예들에서, 엔터티 선택기(104)는 하나 이상의 오브젝트들(예를 들어, 선택된 오브젝트 및 하나 이상의 추가적 오브젝트들)을 표시하는 데이터를 신경 네트워크(110)에 대한 입력으로서 제공할 수 있다. 신경 네트워크(110)는 하나 이상의 오브젝트들이 컨텐츠 엔터티를 형성하는지 여부의 결정을 출력으로서 제공하도록 구성될 수 있다. 일부 구현예들에서, 신경 네트워크(110)는 컨텐츠 엔터티와 연관된 카테고리 또는 분류를 결정하도록 더 구성될 수 있다. 예를 들어, 신경 네트워크(110)는 컨텐츠 엔터티가 주소, 영화, 음식점, 상점, 관심 지점, 이름 등이라는 것을 결정할 수 있다.

선택된 오브젝트가 사용자 인터페이스 내에 디스플레이된 이미지인 구현예들에서, 컨텐츠 엔터티는 전체 이미지 또는 이미지 내에 도시된 하나 이상의 아이템들인 것으로 결정될 수 있다. 예를 들어, 컨텐츠 엔터티는 사용자 입력과 연관된 위치(예를 들어, 드롭 포인트)와 이미지에 도시된 복수의 아이템들의 위치를 비교함으로써 결정될 수 있다. 이 방식에서, 이미지에 도시된 아이템의 위치가 사용자 입력의 위치에 대응되면, 아이템은 컨텐츠 엔터티인 것으로 결정될 수 있다.

일부 구현예들에서, 엔터티 선택기(104)에 의해 결정된 초기 컨텐츠 엔터티는 사용자에 의해 수정될 수 있다. 이 방식에서, 컨텐츠 엔터티가 사용자에 의해 의도된 선택을 정확하게 표현하지 않는 경우, 선택된 엔터티는 의도된 선택을 정확하게 표현하기 위해 사용자에 의해 수정될 수 있다. 예를 들어, 선택된 컨텐츠 엔터티는 더 많거나 적은 오브젝트들을 포함하기 위해 사용자에 의해 조절될 수 있다. 선택된 컨텐츠 엔터티가 이미지인 구현예들에서, 엔터티는 이미지에 도시된 하나 이상의 아이템들로 제한되도록 사용자에 의해 조절될 수 있다.

액션 결정기(106)는 컨텐츠 엔터티에 적어도 부분적으로 기초하여 사용자 디바이스에 의해 수행될 하나 이상의 관련 액션들을 결정할 수 있다. 관련 액션들은 사용자에게 도움이 되거나 유용할 수 있는 컨텐츠 엔터티와 연관된 액션들을 포함할 수 있다. 이 방식에서, 관련 액션들은 사용자가 컨텐츠 엔터티를 사용하여 사용자 디바이스에서 수행되기를 원할 수 있는 액션을 예측할 수 있다. 표시된 바와 같이, 관련 액션들은 사용자 디바이스에 설치되거나 또는 이와 달리 사용자 디바이스와 연관된 하나 이상의 어플리케이션들(112)과 연관될 수 있다. 예를 들어, 하나 이상의 관련 액션들은 하나 이상의 어플리케이션들(112)을 사용하여 수행될 컨텐츠 엔터티와 연관된 액션들일 수 있다. 액션들은 상기 컨텐츠 엔터티의 카테고리 또는 분류에 적어도 부분적으로 기초하여 결정될 수 있다. 예시로서, 컨텐츠 엔터티가 주소인 경우, 관련 액션은 사용자 디바이스에 설치된 지도 어플리케이션을 사용하여 상기 주소까지의 안내들을 디스플레이하기 위해 제공하는 액션일 수 있다. 다른 예시로서, 컨텐츠 엔터티가 음식점인 경우, 관련 액션은 사용자 디바이스에 설치된 적절한 어플리케이션을 사용하여 상기 음식점과 연관된 정보(예를 들어, 메뉴, 리뷰, 운영시간 등)를 디스플레이하기 위해 제공하는 액션일 수 있다. 또 다른 예시로서, 컨텐츠 엔터티가 의류를 도시하는 이미지인 경우, 관련 액션은 유사한 이미지들에 대한 온라인 이미지 검색을 수행하는 것 또는 유사한 의류의 할인에 대한 검색을 수행하는 것일 수 있다.

일부 구현예들에서, 관련 액션들은 사용자 인터페이스의 컨텍스트에 적어도 부분적으로 기초하여 결정될 수 있다. 컨텍스트는 사용자 디바이스에서 현재 실행중인 하나 이상의 어플리케이션들과 연관될 수 있다. 예를 들어, 선택된 오브젝트가 메시징 어플리케이션과 연관된 오브젝트인 경우, 관련 액션은 메시징 어플리케이션을 사용하여 상기 컨텐츠 엔터티를 포함하는 메시지를 전송하는 것일 수 있다.

일부 구현예들에서, 관련 액션들은 컨텐츠 엔터티에 기초하여 결정되지 않는 하나 이상의 일반적 액션들을 포함할 수 있다. 일반적 액션들은 컨텐츠 엔터티를 분석함으로써 “지능적으로” 결정되지 않은 액션들일 수 있다. 이 방식에서, 일반 액션은 컨텐츠와 관계없이, 사용자에 의한 컨텐츠의 임의의 선택과 관련될 수 있는 액션일 수 있다. 예시로서, 일반적 액션들은 웹 검색 액션, 복사/붙여넣기 액션 또는 컨텐츠 엔터티와 관계없이 결정된 기타 적절한 액션을 포함할 수 있다.

액션 결정기(106)는 신경 네트워크(114)를 포함할 수 있다. 일부 구현예들에서, 신경 네트워크(114)는 하나 이상의 관련 액션들을 결정하는데 사용될 수 있다. 예를 들어, 컨텐츠 엔터티 및/또는 사용자 인터페이스 또는 사용자 디바이스와 연관된 컨텍스트를 표시하는 데이터는 신경 네트워크(114)에 입력으로서 제공될 수 있고, 신경 네트워크(114)는 하나 이상의 관련 액션들을 출력으로서 제공할 수 있다. 이 방식에서, 출력된 액션들은 컨텐츠 엔터티 및/또는 사용자 디바이스 또는 사용자 인터페이스와 연관된 컨텍스트에 적어도 부분적으로 기초하여 “지능적으로” 결정될 수 있다.

관련 액션들 중 적어도 하나를 표시하는 데이터는 사용자 인터페이스 내에 디스플레이하기 위해 제공될 수 있다. 예를 들어, 적어도 하나의 액션을 표현하는 아이콘들이 사용자 인터페이스와 연관된 메뉴에 디스플레이를 위해 제공될 수 있다. 사용자에 의한 아이콘의 선택은 사용자 디바이스가 상기 아이콘과 연관된 액션을 수행하게 한다. 예를 들어, 아이콘의 선택은 사용자 디바이스가 적절한 어플리케이션을 오픈하게 하고, 상기 어플리케이션 내에서 액션을 수행하게 한다.

표시된 바와 같이, 컨텐츠 식별기(102), 엔터티 선택기(104) 및/또는 액션 결정기(106)는 단일의 사용자 컴퓨팅 디바이스 내에서 모두 구현될 수 있다. 이 방식에서, 본 발명의 예시적 양태들은 원격 컴퓨팅 디바이스(예를 들어, 서버)와의 통신 없이 사용자 컴퓨팅 디바이스에 의해 수행될 수 있다. 상기 단일 디바이스 구현예는 디바이스와 서버 사이의 통신에 대한 필요를 제거하여 사용자 컴퓨팅 디바이스의 사용자의 프라이버시 보호를 위해 제공될 수 있다. 추가로, 상기 단일 디바이스 구현예는 본 발명의 양태들을 구현함에 있어 증가된 속도 및 효율성을 제공할 수 있다.

상기 단일 디바이스 구현예들에서, 시스템(100)과 연관된 신경 네트워크들(예를 들어, 신경 네트워크(110), 신경 네트워크(114) 및/또는 다른 신경 네트워크)은 하나 이상의 서버들에서 트레이닝될 수 있고, 상기 트레이닝된 네트워크들이 사용자 컴퓨팅 디바이스에 제공될 수 있다. 일부 구현예들에서, 신경 네트워크들에 대한 하나 이상의 업데이트들이 하나 이상의 서버들로부터 사용자 컴퓨팅 디바이스에 주기적으로 제공될 수 잇다.

도 2는 본 발명의 예시적 실시예들에 따른 예시적 사용자 인터페이스(200)를 도시한다. 사용자 인터페이스(200)는 예를 들어, 도 8의 사용자 디바이스(610) 또는 다른 사용자 컴퓨팅 디바이스에 의한 디스플레이를 위해 제공될 수 있다. 사용자 인터페이스(200)는 컨텐츠 선택 엘리먼트(202) 및 이미지(204)를 포함한다. 도시된 바와 같이, 컨텐츠 선택 엘리먼트(202)는 가시적 사용자 인터페이스 엘리먼트로서 표현된다. 컨텐츠 선택 엘리먼트(202)가 원형 “도트” 엘리먼트로서 제공되었지만, 다양한 기타 적절한 표현들이 사용될 수 있다는 것이 이해될 것이다. 컨텐츠 선택 엘리먼트(202)는 사용자에 의해 “그랩”되고 원하는 위치로 “드래그”되로 원하는 위치에 “드롭”될 수 있는 드래그가능한 인터페이스 엘리먼트일 수 있다. 다양한 구현예들에서, 컨텐츠 선택 엘리먼트는 예를 들어, 터치 기반 입력, 마우스 입력, 키보드 입력, 터치패드 입력 음성 또는 오디오 입력 등과 같은 다양한 적절한 인터페이스 기법들을 사용하여 제어 입력들을 수신할 수 있다.

도 2에 도시된 바와 같이, 컨텐츠 선택 엘리먼트(202)는 이미지(204) 도시된 바와 같은 스페인 단어 “Conect

ndose”를 표현하는 텍스트 오브젝트(206) 위에 위치되어 있다. 컨텐츠 선택 엘리먼트(202)가 텍스트 오브젝트(206) 상에 드롭되면(예를 들어, 사용자가 사용자 인터페이스(200)를 디스플레이하는 터치 스크린으로부터 입력물을 제거하는 경우), 사용자 인터페이스(200) 내에 디스플레이된 하나 이상의 오브젝트들의 컨텐츠 속성이 결정될 수 있다. 예를 들어, 상기 표시된 바와 같이, 사용자 인터페이스(200)의 전자적 이미지가 획득될 수 있고, 사용자 인터페이스(200) 내에 도시된 텍스트를 식별하거나 인식하기 위해 하나 이상의 OCR 기법들이 상기 획득된 이미지에 수행될 수 있다. 이 방식에서, 사용자가 텍스트 오브젝트(206)를 선택했다는 것이 결정될 수 있고, 텍스트 오브젝트(206)는 단어 “Conect

ndose”를 표현한다는 것이 결정될 수 있다.

도 3은 본 발명의 예시적 실시예들에 따른 예시적 사용자 인터페이스(210)를 도시한다. 사용자 인터페이스(210)는 컨텐츠 엔터티의 선택에 후속하는 사용자 인터페이스(200)에 대응한다. 사용자 인터페이스(210)는 이미지(204) 및 컨텐츠 엔터티(212)를 포함한다. 컨텐츠 엔터티(212)는 전체 스페인어 구절 “Conect

ndose a la adoraci

n verdadera”을 표현하는 이미지(204)에 도시된 텍스트 오브젝트(206) 및 추가적 텍스트 오브젝트들을 포함한다. 도시된 바와 같이, 컨텐츠 엔터티(212)는 컨텐츠 엔터티(212)의 선택을 표시하기 위해 사용자 인터페이스(210) 내에 하이라이트된다. 하이라이트된 엔터티는 엔터티 조절기들(214)을 사용하여 조절된다. 엔터티 조절기(214)는 사용자 인터페이스(210)의 하이라이트된 부분을 조절하고 그에 의해 컨텐츠 엔터티를 조절하기 위해 사용자에 의해 제어될 수 있다. 예를 들어, 사용자는 사용자 디바이스에 의한 컨텐츠 엔터티의 초기 선택 이후 원하는 컨텐츠 엔터티의 선택을 용이하게 하기 위해 조절기(214)를 그랩하고, 사용자 인터페이스(210) 내의 원하는 위치로 드래그할 수 있다.

상기 표시된 바와 같이, 컨텐츠 엔터티(212)는 텍스트 오브젝트(206)의 컨텐츠 속성(예를 들어 “Conect

ndose”)에 적어도 부분적으로 기초하여 결정될 수 있다. 특히, 컨텐츠 엔터티(212)는 텍스트 오브젝트(206)는 그 일부인, 전체 구절 “Conect

ndose a la adoraci

n verdadera”을 완성하기 위해 결정될 수 있다. 이 방식에서, 사용자 인터페이스(210)에 도시된 추가적 텍스트 단어들이 텍스트 오브젝트(206)를 고려하여 분석되어, 상기 추가적 단어들이 공통 구절 또는 텍스트 오브젝트(206)이 일부인 다른 전체에 기여하는지 결정할 수 있다. 표시된 바와 같이, 컨텐츠 엔터티(212)는 사용자 인터페이스(200 및/또는 210)에 도시된 오브젝트들의 레이아웃 및/또는 구성에 적어도 부분적으로 기초하여 결정될 수 있다. 예를 들어, 단어 “a la adoraci

n verdadera”는 텍스트 오브젝트(206) 근처에 그룹화된다. 이 방식에서, 상기 단어들의 그룹화는 컨텐츠 엔터티(212)의 결정에서 더 많은 가중치가 주어질 수 있다. 일부 구현예들에서, 컨텐츠 엔터티(210)는 오브젝트들의 레이아웃/구성 및 오브젝트들과 연관된 컨텐츠 속성들에 적어도 부분적으로 기초하여 결정될 수 있다. 예를 들어, 텍스트 오브젝트(206) 근처에 위치된 유사한 크기의 오브젝트들(예를 들어, 그룹화되어)의 컨텐츠 속성들은 오브젝트들이 엔터티를 형성하는지 결정하기 위해 분석될 수 있다.

도 4는 본 발명의 예시적 실시예들에 따른 예시적 사용자 인터페이스(220)를 도시한다. 사용자 인터페이스(220)는 컨텐츠 엔터티(212)에 적어도 부분적으로 기초하여 하나 이상의 관련 액션들의 결정에 후속하는 사용자 인터페이스(210)에 대응할 수 있다. 이 방식에서, 사용자 인터페이스(220)는 관련 액션들(222)을 포함할 수 있다. 도시된 바와 같이, 관련 액션들(222)은 번역 액션, 웹 검색 액션, 사전 액션 및 복사 액션을 포함한다. 다양한 다른 적절한 관련 액션들이 사용자 인터페이스(220)에 포함될 수 있다는 것이 인식될 것이다.

표시된 바와 같이, 사용자에 의한 관련 액션(222)의 선택에 따라, 사용자 컴퓨팅 디바이스는 선택된 액션을 수행할 수 있다. 예를 들어, 사용자가 번역 액션을 선택하면, 사용자 컴퓨팅 디바이스는 다른 언어로의 컨텐츠 엔터티(212)의 번역을 수행할 수 있다. 이 방식에서, 사용자 컴퓨팅 디바이스는 컨텐츠 엔터티(212)가 스페인어 구절임을 결정할 수 있고, 상기 구절을 원하는 언어로 번역할 수 있다. 예를 들어, 사용자 컴퓨팅 디바이스는 사용자 컴퓨팅 디바이스에 설치된 번역 어플리케이션을 오픈할 수 있고, 상기 번역 어플리케이션을 사용하여 번역을 수행할 수 있다.

다양한 다른 적절한 컨텐츠 엔터티들이 다양한 다른 적절한 사용자 입력들에 적어도 부분적으로 기초하여 사용자 인터페이스들(220-220) 내에서 결정될 수 있다는 것이 인식될 것이다. 예를 들어, 사용자 인터페이스(200)의 텍스트 오브젝트(208)의 사용자 선택은 텍스트 오브젝트(208)을 컨텐츠 엔터티로서 결정하게 할 수 있다. 이 방식에서, 관련 액션들은 텍스트 오브젝트(208)와 유사한 이미지들 및/또는 이미지(204)에 대한 이미지 검색을 포함할 수 있다. 도 2-4에 도시된 사용자 인터페이스들(200-220)은 단지 예시적인 목적으로 의도되었음이 더 인식될 것이다. 특히, 다양한 다른 적절한 사용자 인터페이스들이 본 발명의 범위로부터 벗어나지 않고 사용될 수 있다는 것이 인식될 것이다.

도 5는 본 발명의 예시적 실시예들에 따라 컨텐츠 선택들을 제공하는 예시적 방법(300)의 흐름도를 도시한다. 방법(300)은 도 8에 도시된 하나 이상의 컴퓨팅 디바이스들과 같은 하나 이상의 컴퓨팅 디바이스들에 의해 구현될 수 있다. 특정한 구현예들에서, 방법(300)은 도 1에 도시된 컨텐츠 식별기(102), 엔터티 선택기(104) 및/또는 액션 결정기(106)에 의해 구현될 수 있다. 추가로, 도 5는 예시와 논의의 목적으로 특정한 순서로 수행되는 단계들을 도시한다. 통상의 기술자는 본 명세서에 제공된 내용을 사용하여, 본 명세서에서 논의된 방법들 중 임의의 단계들은 본 발명의 범위로부터 벗어나지 않고 다양한 방식으로 적응, 재배열, 확장, 생략 또는 수정될 수 있음을 이해할 것이다.

(302)에서, 방법(300)은 사용자 인터페이스 내에 디스플레이된 오브젝트의 사용자 선택을 표시하는 하나 이상의 신호들을 수신하는 단계를 포함한다. 사용자 인터페이스는 텍스트 오브젝트, 이미지 오브젝트, 사용자 인터페이스 엘리먼트 오브젝트 등과 같은 복수의 오브젝트들을 포함할 수 있다. 일부 구현예들에서, 하나 이상의 텍스트 오브젝트들이 이미지 오브젝트로 도시될 수 있다. 하나 이상의 신호들은 오브젝트를 선택하거나 하이라이트하기 위해 사용자에 의한 요청을 표시하는 사용자 입력과 연관될 수 있다. 사용자 입력은 터치 입력, 마우스 입력, 키보드 입력 등과 같은 임의의 적절한 입력일 수 있다. 일부 구현예들에서, 사용자 입력은 사용자 인터페이스 내에 디스플레이된 컨텐츠 선택 엘리먼트와의 인터렉션을 통해 수행될 수 있다. 예를 들어, 사용자는 사용자 인터페이스 내의 드롭 포인트 근처의 오브젝트의 사용자 디바이스에 의한 선택을 용이하게 하기 위해 원하는 드롭 포인트 또는 사용자 인터페이스 내의 위치까지 컨텐츠 선택 엘리먼트를 드래그할 수 있다.

(304)에서, 방법(300)은 사용자 인터페이스 내에 디스플레이된 하나 이상의 오브젝트들과 연관된 컨텐츠 속성을 식별하는 단계를 포함할 수 있다. 예를 들어, 컨텐츠 속성은 사용자 입력을 수신함에 응답하여 식별될 수 있다. 컨텐츠 속성은 하나 이상의 오브젝트들의 하나 이상의 식별 피처를 포함할 수 있다. 예를 들어, 컨텐츠 속성은 오브젝트 유형(예를 들어, 텍스트 오브젝트, 이미지 오브젝트 등)을 특정할 수 있다. 텍스트 오브젝트들에 대한 컨텐츠 속성들은 상기 텍스트 오브젝트와 연관된 기계 판독가능 및/또는 기계 인코딩된 텍스트를 더 포함할 수 있다. 이미지 오브젝트들에 대한 컨텐츠 속성들은 이미지에 도시된 하나 이상의 비-텍스트 아이템들과 연관된 분류 또는 카테고리를 포함할 수 있다. 일부 구현예들에서, 컨텐츠 속성들은 사용자 인터페이스 내의 오브젝트들의 위치를 더 포함하거나 또는 이와 달리 상기 위치와 연관될 수 있다.

상기 표시된 바와 같이, 적어도 하나의 컨텐츠 속성이 사용자 인터페이스의 전자적 이미지를 획득하고(예를 들어, 스크린샷), 상기 획득된 이미지에 하나 이상의 OCR 기법들을 수행함으로써 결정될 수 있다. 일부 구현예들에서, 획득된 이미지는 전체 사용자 인터페이스의 이미지 또는 사용자 인터페이스의 서브셋(예를 들어, 드롭 포인트를 둘러싸는 영역)의 이미지일 수 있다. 획득된 이미지는 사용자 디바이스와 연관된 하나 이상의 OCR 엔진들에 대한 입력으로서 제공될 수 있다. 하나 이상의 OCR 엔진들은 획득된 이미지로부터 텍스트를 추출하고, 이미지를 기계 인코딩된 텍스트로 변환할 수 있다. OCR 엔진은 이미지 및/또는 사용자 인터페이스 내의 텍스트의 위치를 추가로 결정할 수 있다. 일부 구현예들에서, OCR 엔진은 하나 이상의 신경 네트워크들을 사용하여 구현될 수 있다.

사용자 인터페이스 내의 오브젝트들의 위치들 및/또는 오브젝트들의 컨텐츠 속성들은 선택된 오브젝트를 결정하는데 사용될 수 있다. 드롭 포인트의 위치는 선택된 오브젝트를 결정하기 위해 사용자 인터페이스 내의 오브젝트들의 위치들과 비교될 수 있다. 예를 들어, 선택된 오브젝트는 드롭 포인트에 가장 가까운 오브젝트 및/또는 드롭 포인트로부터 임계 거리 내의 오브젝트인 것으로 결정될 수 있다.

(306)에서, 방법(300)은 상기 컨텐츠 속성 및 사용자 선택에 적어도 부분적으로 기초하여 컨텐츠 엔터티를 결정하는 단계를 포함할 수 있다. 컨텐츠 엔터티는 사용자가 선택하기 원하는 하나 이상의 오브젝트들의 추정일 수 있다. 표시된 바와 같이, 컨텐츠 엔터티는 선택된 오브젝트를 포함할 수 있다. 일부 구현예들에서, 컨텐츠 엔터티는 엔터티를 형성하기 위해 선택된 오브젝트와 결합될 수 있는 상기 선택된 오브젝트에 더하여, 하나 이상의 오브젝트들을 포함할 수 있다. 예를 들어, 상기 컨텐츠 엔터티는 주소, 관심 지점, 이름, 구절, 문장, 단락 등일 수 있다. 선택된 오브젝트가 이미지인 예시에서, 컨텐츠 엔터티는 전체 이미지 및/또는 상기 이미지에 도시된 하나 이상의 아이템들을 포함할 수 있다.

컨텐츠 엔터티는 선택된 오브젝트의 컨텐츠 속성에 적어도 부분적으로 기초하여 지능적으로 결정될 수 있다. 예를 들어, 선택된 오브젝트의 컨텐츠 속성은 하나 이상의 추가적 오브젝트들의 컨텐츠 속성을 고려하여 분석되어, 선택된 오브젝트 및 하나 이상의 추가적 오브젝트들이 동일한 엔터티의 일부인지 결정할 수 있다. 일부 구현예들에서, 컨텐츠 엔터티는 사용자 인터페이스 내의 오브젝트들의 구성 및/또는 레이아웃에 적어도 부분적으로 기초하여 결정될 수 있다. 예를 들어, 사용자 인터페이스 내의 선택된 오브젝트와 함께 물리적으로 그룹화된 오브젝트들은 상기 오브젝트들이 동일한 엔터티의 일부인지 여부를 결정함에 있어 더 많은 가중치가 주어질 수 있다. 다른 예시로서, 선택된 오브젝트와 동일한 크기 및/또는 폰트를 가지는 오브젝트들은 상기 오브젝트들이 동일한 엔터티의 일부인지 여부를 결정함에 있어 더 많은 가중치가 주어질 수 있다.

일부 구현예들에서, 컨텐츠 엔터티의 카테고리 또는 분류가 결정될 수 있다. 예를 들어, 컨텐츠 엔터티가 주소, 영화, 노래 제목 등이라고 결정될 수 있다. 일부 구현예들에서, 컨텐츠 엔터티의 언어가 결정될 수 있다. 일부 구현예들에서, 컨텐츠 엔터티 및/또는 상기 컨텐츠 엔터티의 분류는 신경 네트워크 또는 기타 적절한 기계 학습 기법을 사용하여 결정될 수 있다.

(308)에서, 방법(300)은 컨텐츠 엔터티에 적어도 부분적으로 기초하여 수행될 하나 이상의 관련 액션들을 결정하는 단계를 포함할 수 있다. 예를 들어, 관련 액션들은 컨텐츠 엔터티 및/또는 상기 컨텐츠 엔터티의 카테고리와 관련된 것으로 사용자 디바이스에 의해 추정된 액션들일 수 있다. 이 방식에서, 관련 액션들은 컨텐츠 엔터티의 선택에 응답하여 사용자에게 도움이 되거나 유용할 것으로 결정될 수 있다. 이 방식에서, 관련 액션들은 컨텐츠 엔터티 및/또는 상기 컨텐츠 엔터티의 카테고리 또는 분류에 적어도 부분적으로 기초하여 결정될 수 있다. 일부 구현예들에서, 관련 액션들은 사용자 디바이스와 연관된 현재 상태 또는 컨텍스트에 적어도 부분적으로 기초하여 결정될 수 있다. 표시된 바와 같이, 관련 액션들은 사용자 디바이스에 설치된 하나 이상의 어플리케이션들과 연관될 수 있다. 이 방식에서, 관련 액션들은 사용자 디바이스에 설치된 사용가능한 어플리케이션들에 적어도 부분적으로 기초하여 결정될 수 있다.

(310)에서, 방법(300)은 적어도 하나의 관련 액션을 표시하는 데이터를 디스플레이하기 위해 제공하는 단계를 포함할 수 있다. 예를 들어, 적어도 하나의 관련 액션을 표시하는 데이터는 사용자에 의해 선택된 경우, 사용자 디바이스가 선택된 액션을 수행하게 하는 아이콘을 포함할 수 있다.

도 6은 본 발명의 예시적 실시예들에 따라 컨텐츠 엔터티를 결정하는 예시적 방법(400)의 흐름도를 도시한다. 방법(400)은 도 8에 도시된 하나 이상의 컴퓨팅 디바이스들과 같은 하나 이상의 컴퓨팅 디바이스들에 의해 구현될 수 있다. 특정한 구현예들에서, 방법(400)은 도 1에 도시된 컨텐츠 식별기(102), 엔터티 선택기(104) 및/또는 액션 결정기(106)에 의해 구현될 수 있다. 추가로, 도 6은 예시와 논의의 목적으로 특정한 순서로 수행되는 단계들을 도시한다. 통상의 기술자는 본 명세서에 제공된 내용을 사용하여, 본 명세서에서 논의된 방법들 중 임의의 단계들은 본 발명의 범위로부터 벗어나지 않고 다양한 방식으로 적응, 재배열, 확장, 생략 또는 수정될 수 있음을 이해할 것이다.

(402)에서, 방법(400)은 사용자 인터페이스를 도시하는 전자적 이미지를 획득하는 단계를 포함할 수 있다. 예를 들어, 이미지는 사용자 인터페이스 내의 하나 이상의 오브젝트들을 선택하거나 하이라이트하기 위한 요청을 표시하는 사용자 입력을 수신함에 응답하여 획득될 수 있다. 일부 구현예들에서, 이미지는 사용자 디바이스에 의해 사용자 인터페이스의 스크린샷을 캡처함으로써 획득될 수 있다.

(404)에서, 방법(400)은 획득된 이미지에 적어도 부분적으로 기초하여 사용자 인터페이스 내의 하나 이상의 오브젝트들의 하나 이상의 식별 피처들을 결정하는 단계를 포함할 수 있다. 예를 들어, 식별 피처들은 하나 이상의 오브젝트들의 컨텐츠 속성과 연관될 수 있다. 식별 피처들은 오브젝트들의 유형(예를 들어, 텍스트 오브젝트, 이미지 오브젝트) 및/또는 오브젝트들의 컨텐츠의 식별(예를 들어, 텍스트, 이미지 내의 아이템 등의 인식)을 포함할 수 있다.

(406)에서, 방법(400)은 사용자 인터페이스 내의 하나 이상의 오브젝트들의 위치를 결정하는 단계를 포함한다. 예를 들어, 위치는 좌표들(예를 들어, 디스플레이 디바이스 및/또는 사용자 인터페이스와 관련한 x, y 좌표들)을 포함할 수 있다.

(408)에서, 방법(400)은 사용자 입력 및 하나 이상의 오브젝트들의 위치들에 적어도 부분적으로 기초하여 사용자에 의해 선택된 오브젝트(예를 들어, 선택된 오브젝트)를 식별하는 단계를 포함할 수 있다. 예를 들어, 선택된 오브젝트는 사용자 입력과 연관된 위치를 사용자 인터페이스 내의 오브젝트들의 위치들과 비교함으로써 결정될 수 있다.

(410)에서, 방법(400)은 선택된 오브젝트의 컨텐츠 속성을 식별하는 단계를 포함할 수 있다. (412)에서, 방법(400)은 상기 식별된 컨텐츠 속성에 적어도 부분적으로 기초하여 컨텐츠 엔터티를 결정하는 단계를 포함할 수 있다. 일부 구현예들에서, 컨텐츠 엔터티는 하나 이상의 추가적 오브젝트들의 컨텐츠 속성들 및/또는 사용자 인터페이스 내의 하나 이상의 오브젝트들의 레이아웃/구성(예를 들어, 크기, 폰트, 위치 등)에 적어도 부분적으로 기초하여 결정될 수 있다.

도 7은 본 발명의 예시적 실시예들에 따라 하나 이상의 관련 액션들을 결정하는 예시적 방법(500)의 흐름도를 도시한다. 방법(500)은 도 8에 도시된 하나 이상의 컴퓨팅 디바이스들과 같은 하나 이상의 컴퓨팅 디바이스들에 의해 구현될 수 있다. 특정한 구현예들에서, 방법(400)은 도 1에 도시된 컨텐츠 식별기(102), 엔터티 선택기(104) 및/또는 액션 결정기(106)에 의해 구현될 수 있다. 추가로, 도 6는 예시와 논의의 목적으로 특정한 순서로 수행되는 단계들을 도시한다. 통상의 기술자는 본 명세서에 제공된 내용을 사용하여, 본 명세서에서 논의된 방법들 중 임의의 단계들은 본 발명의 범위로부터 벗어나지 않고 다양한 방식으로 적응, 재배열, 확장, 생략 또는 수정될 수 있음을 이해할 것이다.

(502)에서, 방법(500)은 컨텐츠 엔터티와 연관된 카테고리 및/또는 사용자 인터페이스와 연관된 컨텍스트를 결정하는 단계를 포함할 수 있다. 카테고리는 컨텐츠 엔터티의 분류를 포함하거나 또는 이와 달리 상기 분류와 연관될 수 있다. 카테고리 및/또는 분류는 컨텐츠 엔터티의 하나 이상의 특징들을 특정할 수 있다. 예를 들어, 하나 이상의 특징들은 컨텐츠 엔터티가 특정한 언어의 구절, 주소, 사람의 이름, 책 제목, 관심 지점, 상점 등임을 표시할 수 있다. 일부 구현예들에서, 하나 이상의 특징들은 이미지에 도시된 아이템의 유형을 기술하거나 식별할 수 있다. 사용자 인터페이스와 연관된 컨텍스트는 사용자 인터페이스 및/또는 사용자 디바이스의 현재 상태와 연관될 수 있다. 예를 들어, 컨텍스트는 컨텐츠 엔터티가 선택된 어플리케이션을 특정할 수 있다. 다른 예시로서, 컨텍스트는 사용자 디바이스에서 현재 실행중인 하나 이상의 어플리케이션들을 식별할 수 있다. 또 다른 예시로서, 컨텍스트는 사용자 입력의 시간에 사용자 인터페이스와 연관된 추가 정보를 표시할 수 있다. 이 방식에서, 컨텍스트는 컨텐츠 엔터티에 더하여 사용자 인터페이스 내에 디스플레이된 정보의 하나 이상의 양태들을 기술할 수 있다.

(504)에서, 방법(500)은 사용자 디바이스에 설치된 하나 이상의 어플리케이션들을 식별하는 단계를 포함할 수 있다. 예를 들어, 사용자 디바이스는 사용자 디바이스에 설치되거나 또는 이와 달리 연관된 복수의 어플리케이션들을 포함할 수 있다. 상기 어플리케이션들은 검색 어플리케이션, 웹브라우저, 영화 어플리케이션, 음악 어플리케이션, 날씨 어플리케이션, 메시징 어플리케이션 및/또는 다양한 기타 적절한 어플리케이션들을 포함할 수 있다.

(506)에서, 방법(500)은 결정된 카테고리, 결정된 컨텍스트 및/또는 사용자 디바이스 상에 설치된 하나 이상의 어플리케이션들에 적어도 부분적으로 기초하여 하나 이상의 관련 액션들을 결정하는 단계를 포함할 수 있다. 상기 표시된 바와 같이, 관련 액션들은 컨텐츠 엔터티 및/또는 사용자 디바이스와 연관된 컨텍스트를 참조하여 하나 이상의 어플리케이션들에 의해 수행될 액션들을 포함할 수 있다.

(508)에서, 방법(500)은 관련 액션을 수행하기 위한 요청을 표시하는 사용자 입력을 수신하는 단계를 포함할 수 있다. 예를 들어, 적어도 하나의 관련 액션을 표시하는 데이터가 예를 들어, 사용자 인터페이스 내에 아이콘으로서 디스플레이될 수 있다. 사용자는 관련 액션을 선택하기 위해 그리고 사용자 디바이스가 선택된 액션을 수행하게 하기 위해 아이콘과 인터렉션할 수 있다.

(510)에서, 방법(500)은 선택된 액션을 수행하는 단계를 포함할 수 있다. 예를 들어, 선택된 액션을 수행하는 단계는 사용자 디바이스에서 대응 어플리케이션을 오픈하는 것 및 상기 어플리케이션을 사용하여 액션을 수행하는 것을 포함할 수 있다.

도 8은 본 발명의 예시적 양태들에 따라 방법들 및 시스템들을 구현하는데 사용될 수 있는 예시적 컴퓨팅 시스템(600)을 도시한다. 시스템(600)은 네트워크(640)를 통해 하나 이상의 서버들(630)와 통신하는 서버(610)를 포함하는 클라이언트-서버 아키텍처를 사용하여 구현될 수 있다. 시스템(600)은 단일 컴퓨팅 디바이스(예를 들어, 사용자 디바이스(610))와 같은 기타 적절한 아키텍처들을 사용하여 구현될 수 있다.

시스템(600)은 사용자 디바이스(610)를 포함할 수 있다. 사용자 디바이스(610)는 일반 목적 컴퓨터, 특수 목적 컴퓨터, 랩톱, 데스크톱, 모바일 디바이스, 네비게이션 시스템, 스마트폰, 태블릿, 웨어러블 컴퓨팅 디바이스, 하나 이상의 프로세서들을 포함하는 디스플레이와 같은 임의의 적절한 사용자 디바이스 또는 기타 적절한 컴퓨팅 디바이스일 수 있다. 사용자 디바이스(610)는 하나 이상의 프로세서들(612) 및 하나 이상의 메모리 디바이스들(614)을 가질 수 있다. 또한, 사용자 디바이스(610)는 네트워크(640)를 통해 하나 이상의 서버들(630)와 통신하는데 사용될 수 있는 네트워크 인터페이스를 포함할 수 있다. 네트워크 인터페이스는 하나 이상의 네트워크들과 인터페이싱하기 위한 임의의 적절한 컴포넌트들을 포함할 수 있고, 예를 들면, 전송기, 수신기, 포트, 제어기, 안테나 또는 기타 적절한 컴포넌트들을 포함할 수 있다.

하나 이상의 프로세서들(612)은 마이크로프로세서, 마이클제어기, 통합회로, 로직 디바이스, 이미지를 효율적으로 렌더링하거나 기타 특수한 계산을 수행하기 위한 전용 그래픽 프로세싱 유닛와 같은 임의의 적절한 프로세싱 디바이스 또는 기타 적절한 프로세싱 디바이스를 포함할 수 있다. 하나 이상의 메모리 디바이스들(614)은 하나 이상의 컴퓨터 판독가능 매체를 포함할 수 있고, 이는 비일시적 컴퓨터 판독가능 매체, RAM, ROM, 하드 드라이브, 플래시 드라이브 또는 다른 메모리 디바이스를 포함하는 이에 제한되지 않는다. 하나 이상의 메모리 디바이스들(614)은 하나 이상의 프로세서들(612)에 의해 엑세스가능한 정보를 저장할 수 있고, 하나 이상의 프로세서들(612)에 의해 실행될 수 있는 컴퓨터 판독가능 명령어들(616)을 포함한다. 명령어들(616)은 하나 이상의 프로세서들(612)에 의해 실행될 때, 하나 이상의 프로세서들(612)로 하여금 동작들을 수행하게 하는 명령어들의 임의의 세트일 수 있다. 예를 들어, 명령어들(716)은 도 1을 참조하여 기술된 컨텐츠 식별기(102), 엔터티 선택기(104) 및/또는 액션 결정기(106)를 구현하기 위해 하나 이상의 프로세서들(712)에 의해 실행될 수 있다.

또한, 도 8에 도시된 바와 같이, 하나 이상의 메모리 디바이스들(614)은 상기 하나 이상의 프로세서들(612)에 의해 검색, 조작, 생성 또는 저장될 수 있는 데이터(618)를 저장할 수 있다. 데이터(618)는 예를 들어, 본 발명의 예시적 양태들에 따라 결정된 어플리케이션 데이터, 컨텐츠 데이터 및 기타 데이터를 포함할 수 있다.

도 8의 사용자 디바이스(610)는 터치 스크린, 터치 패드, 데이터 입력 키, 스피커 및/또는 음성 인식에 적절한 마이크로폰과 같은 사용자로부터 정보를 제공하고 수신하기 위한 다양한 입력/출력 디바이스들을 포함할 수 있다. 예를 들어, 사용자 디바이스(610)는 본 발명의 예시적 양태들에 따라 복수의 오브젝트들 및/또는 컨텐츠 선택 엘리먼트를 디스플레이하는 사용자 인터페이스를 제시하기 위한 디스플레이 디바이스(615)를 가질 수 있다.

사용자 디바이스(610)는 네트워크(640)를 통해 하나 이상의 서버들(630)(예를 들어, 웹 서버들)과 데이터를 교환할 수 있다. 서버(630)는 임의의 적절한 컴퓨팅 디바이스(들)을 사용하여 구현될 수 있다. 도 8에서 2개의 서버들(630)이 도시되었지만, 임의의 수의 서버들(630)이 네트워크(640)를 통해 사용자 디바이스(610)와 연결될 수 있다.

사용자 디바이스(610)와 유사하게, 서버(630)는 하나 이상의 프로세서(들)(632) 및 메모리(634)를 포함할 수 있다. 하나 이상의 프로세서(들)(632)는 하나 이상의 중앙 프로세싱 유닛(CPU)들 및/또는 다른 프로세싱 디바이스들을 포함할 수 있다. 메모리(634)는 하나 이상의 컴퓨터 판독가능 매체를 포함할 수 있고, 하나 이상의 프로세서들(632)에 의해 엑세스가능한 정보를 저장할 수 있고, 상기 하나 이상의 프로세서들(632)에 의해 실행된 명령어들(636)을 포함한다. 또한, 메모리(634)는 데이터(638)를 저장할 수 있다. 데이터(638)는 하나 이상의 데이터베이스들에 저장될 수 있다. 하나 이상의 데이터베이스들은 고대역 LAN 또는 WAN에 의해 서버(630)에 연결될 수 있거나 또는 네트워크(640)를 통해 서버(630)에 연결될 수 있다. 하나 이상의 데이터베이스들은 분할되어 그들이 다수의 위치들에 위치되도록 할 수 있다.

또한, 서버(610)는 네트워크(640)를 통해 하나 이상의 원격 컴퓨팅 디바이스들(예를 들어, 사용자 디바이스(610)와 통신하는데 사용될 수 있는 네트워크 인터페이스를 포함할 수 있다. 네트워크 인터페이스는 하나 이상의 네트워크들과 인터페이싱하기 위한 임의의 적절한 컴포넌트들을 포함할 수 있고, 예를 들면, 전송기, 수신기, 포트, 제어기, 안테나 또는 기타 적절한 컴포넌트들을 포함할 수 있다.

네트워크(640)는 근거리 네트워크(예를 들어, 인트라넷), 광역 네트워크(예를 들어, 인터넷), 셀룰러 네트워크 또는 그들의 조합과 같은 임의의 통신 네트워크일 수 있다. 또한, 네트워크(640)는 서버(630)와 사용자 디바이스(610) 간의 직접 연결을 포함할 수 있다. 일반적으로, 서버(630)와 사용자 디바이스(610) 간 통신은 임의의 유형의 유선 및/또는 무선 연결을 사용하여, 다양한 통신 프로토콜들(예를 들어, TCP/IP, HTTP, SMTP, FTP), 인코딩 또는 포맷들(예를 들어, HTML, XML), 및/또는 보호 스키마(예를 들어, VPN, 시큐어 HTTP, SSL)를 사용하여, 네트워크 인터페이스를 통해 수행될 수 있다.

본 명세서에 논의된 기술은 서버, 데이터베이스, 소프트웨어 어플리케이션들 및 다른 컴퓨터 기반 시스템들 뿐만 아니라 취해진 액션들 및 상기 시스템으로 전송되거나 그로부터 전송된 정보를 참조할 수 있다. 통상의 기술자는 컴퓨터 기반 시스템들의 내재적 유연성이 광범위한 가능한 구성들, 조합들 및 작업의 분할 및 컴포넌트들 간의 및 그로부터의 기능성을 허용함을 인식할 것이다. 예를 들어, 본 명세서에서 논의된 서버 프로세스들은 단일의 서버 또는 조합으로 작동하는 다수의 서버들을 사용하여 구현될 수 있다. 데이터베이스 및 어플리케이션들은 단일 시스템 또는 다수의 시스템들에 걸처 분산된 시스템에서 구현될 수 있다. 분산 컴포넌트들은 순차적으로 또는 병렬로 동작할 수 있다.

본 발명이 그것의 특정 예시적 실시예들을 참조하여 상세히 기술되었지만, 통상의 기술자는 상기 내용의 이해를 얻음에 따라 상기 실시예들에 대한 변경, 변형 및 균등물을 쉽게 생산할 수 있다는 것이 인식될 것이다. 따라서, 본 발명의 범위는 제한이 아닌 예시적인 것이며, 본 발명은 통상의 기술자에게 쉽게 명백해질 수 있는 상기 수정, 변형 및/또는 본 발명에 대한 추가의 포함을 배제하지 않는다.

Claims

컴퓨터로 구현되는 방법으로서:
하나 이상의 컴퓨팅 디바이스들에 의해, 사용자 인터페이스 내에 디스플레이된 복수의 상이한 오브젝트들 중 특정한 오브젝트를 선택하는 사용자 입력을 표시하는 하나 이상의 신호들을 수신하는 단계; 및
상기 하나 이상의 신호들을 수신함에 응답하여:
상기 하나 이상의 컴퓨팅 디바이스들에 의해, 상기 특정한 오브젝트와 연관된 컨텐츠 엔터티(entity)를 결정하기 위해 하나 이상의 기계 학습 기법들을 사용하고 그리고 상기 사용자 입력을 통해 선택되도록 의도된 상기 복수의 상이한 오브젝트들 중 하나 이상의 오브젝트들을 추정하는 단계, 상기 컨텐츠 엔터티는 상기 특정한 오브젝트 및 상기 특정한 오브젝트 근처이고 상기 특정한 오브젝트와 결합 엔터티(cohesive entity)를 형성하도록 결정된 상기 복수의 상이한 오브젝트들 중 하나 이상의 추가적 오브젝트들을 포함하며;
상기 하나 이상의 컴퓨팅 디바이스들에 의해, 상기 컨텐츠 엔터티에 적어도 부분적으로 기초하여 수행될 하나 이상의 관련 액션들을 결정하는 단계;
상기 하나 이상의 컴퓨팅 디바이스들에 의해, 상기 사용자 인터페이스 내에서, 상기 하나 이상의 관련 액션들을 표시하는 데이터를 제공하는 단계;
상기 하나 이상의 관련 액션들 중 특정한 관련 액션의 선택에 응답하여, 상기 하나 이상의 컴퓨팅 디바이스들에 의해, 상기 특정한 관련 액션을 선택하기 위해 상기 하나 이상의 컴퓨팅 디바이스들을 프롬프트하는 단계를 포함하는, 컴퓨터로 구현되는 방법.
청구항 1에 있어서,
상기 컨텐츠 엔터티를 결정하기 위해 상기 하나 이상의 기계 학습 기법들을 사용하는 것은 상기 컨텐츠 엔터티를 결정하기 위해 하나 이상의 신경 네트워크들을 사용하는 것을 포함하는, 컴퓨터로 구현되는 방법.
청구항 2에 있어서,
상기 컨텐츠 엔터티를 결정하기 위해 하나 이상의 신경 네트워크들을 사용하는 것은:
상기 특정한 오브젝트 및 상기 하나 이상의 추가적 오브젝트들을 표시하는 데이터를 상기 하나 이상의 신경 네트워크들에 제공하는 것; 및
상기 하나 이상의 신경 네트워크들에 의해, 상기 특정한 오브젝트 및 상기 하나 이상의 추가적 오브젝트들이 상기 컨텐츠 엔터티를 형성함을 표시하는 데이터를 제공하는 것을 포함하는, 컴퓨터로 구현되는 방법.
청구항 1에 있어서,
상기 특정한 오브젝트는 이미지를 포함하며; 그리고
상기 컨텐츠 엔터티를 결정하기 위해 상기 하나 이상의 기계 학습 기법들을 사용하는 것은 상기 이미지에 도시된 하나 이상의 아이템들을 포함하는 컨텐츠 엔터티를 결정하기 위해 상기 하나 이상의 기계 학습 기법들을 사용하는 것을 포함하는, 컴퓨터로 구현되는 방법.
청구항 1에 있어서,
상기 특정한 오브젝트는 텍스트적 엔터티의 부분을 포함하며; 그리고
상기 컨텐츠 엔터티를 결정하기 위해 상기 하나 이상의 기계 학습 기법들을 사용하는 것은 상기 텍스트적 엔터티의 하나 이상의 추가적 부분들을 포함하는 컨텐츠 엔터티를 결정하기 위해 상기 하나 이상의 기계 학습 기법들을 사용하는 것을 포함하는, 컴퓨터로 구현되는 방법.
청구항 1에 있어서,
상기 컨텐츠 엔터티를 결정하기 위해 상기 하나 이상의 기계 학습 기법들을 사용하는 것은 상기 하나 이상의 추가적 오브젝트들의 하나 이상의 크기들 또는 위치들에 적어도 부분적으로 기초하여 상기 컨텐츠 엔터티를 결정하기 위해 상기 하나 이상의 기계 학습 기법들을 사용하는 것을 포함하는, 컴퓨터로 구현되는 방법.
청구항 1에 있어서,
상기 컨텐츠 엔터티를 결정하기 위해 상기 하나 이상의 기계 학습 기법들을 사용하는 것은 상기 컨텐츠 엔터티와 연관된 카테고리 또는 분류 중 하나 이상을 결정하기 위해 상기 상기 하나 이상의 기계 학습 기법들을 사용하는 것을 포함하는, 컴퓨터로 구현되는 방법.
청구항 7에 있어서,
상기 하나 이상의 관련 액션들을 결정하는 단계는 상기 컨텐츠 엔터티와 연관된 상기 카테고리 또는 상기 분류 중 하나 이상에 적어도 부분적으로 기초하여 상기 하나 이상의 관련 액션들을 결정하는 것을 포함하는, 컴퓨터로 구현되는 방법.
청구항 1에 있어서,
상기 하나 이상의 관련 액션들을 결정하는 단계는 상기 사용자 인터페이스의 컨텍스트에 적어도 부분적으로 기초하여 상기 하나 이상의 관련 액션들을 결정하는 것을 포함하는, 컴퓨터로 구현되는 방법.
청구항 9에 있어서,
상기 컨텍스트는 상기 하나 이상의 컴퓨팅 디바이스들에서 현재 실행 중인 상기 하나 이상의 어플리케이션들과 연관되는 것인, 컴퓨터로 구현되는 방법.
청구항 1에 있어서,
상기 하나 이상의 컴퓨팅 디바이스들에 의해, 상기 특정한 오브젝트의 컨텐츠 속성을 결정하는 단계; 및
상기 하나 이상의 컴퓨팅 디바이스들에 의해, 상기 특정한 오브젝트 및 상기 하나 이상의 추가적 오브젝트들이 상기 결합 엔터티를 형성한다고 결정하기 위해 상기 하나 이상의 추가적 오브젝트들의 하나 이상의 컨텐츠 속성들을 고려하여 상기 특정한 오브젝트의 컨텐츠 속성을 분석하는 단계를 포함하는, 컴퓨터로 구현되는 방법.
청구항 1에 있어서,
상기 하나 이상의 관련 액션들을 결정하는 단계는 상기 하나 이상의 관련 액션들을 결정하기 위해 하나 이상의 기계 학습 기법들을 사용하는 것을 포함하는, 컴퓨터로 구현되는 방법.
청구항 12에 있어서,
상기 하나 이상의 관련 액션들을 결정하기 위해 하나 이상의 기계 학습 기법들을 사용하는 것은 상기 하나 이상의 관련 액션들을 결정하기 위해 하나 이상의 신경 네트워크들을 사용하는 것을 포함하는, 컴퓨터로 구현되는 방법.
청구항 13에 있어서,
상기 하나 이상의 관련 액션들을 결정하기 위해 상기 하나 이상의 신경 네트워크들을 사용하는 것은:
상기 하나 이상의 신경 네트워크들에 상기 컨텐츠 엔터티 및 상기 사용자 인터페이스의 컨텍스트를 표시하는 데이터를 제공하는 것; 및
상기 하나 이상의 신경 네트워크들에 의해, 상기 하나 이상의 관련 액션들을 표시하는 데이터를 제공하는 것을 포함하는, 컴퓨터로 구현되는 방법.
하나 이상의 유형적, 비일시적 컴퓨터 판독가능 매체로서, 상기 컴퓨터 판독가능 매체는 하나 이상의 프로세서들에 의해 실행될 때 상기 하나 이상의 프로세서들로 하여금 청구항 1 내지 14 중 어느 한 항에 따른 방법을 수행하게 하는 컴퓨터 판독가능 명령어들을 저장하는, 컴퓨터 판독가능 매체.
시스템으로서,
하나 이상의 프로세서들; 및
상기 하나 이상의 프로세서들에 의해 실행될 때 상기 시스템으로 하여금 청구항 1 내지 14 중 어느 한 항에 따른 방법을 수행하게 하는 명령어들을 저장하는 메모리를 포함하는, 시스템.