KR20200000437A

KR20200000437A - 전자 디바이스들에 대한 컨텍스트 기반 인터액션을 위한 시스템 및 방법

Info

Publication number: KR20200000437A
Application number: KR1020197032144A
Authority: KR
Inventors: 아룬 라케시 요가난단; 쿠미 아키요시; 타이스 씨. 모크; 장 롱 주진; 홍중원
Original assignee: 삼성전자주식회사
Priority date: 2017-05-22
Filing date: 2018-05-23
Publication date: 2020-01-02
Also published as: EP3612927A1; KR102642668B1; EP3612927A4; US20180336009A1; US11221823B2; WO2018217014A1

Abstract

방법은 전자 디바이스에서 음성 입력을 수신하는 동작을 포함한다. 음성 입력의 모호성(ambiguity)이 결정된다. 모호성은 컨텍스트 데이터(contextual data)를 기반으로 분석된다. 컨텍스트 데이터는 이미지, 제스처(gesture)를 포함하는 비-음성 입력, 포인팅 디바이스(pointing device)의 포인터(pointer), 터치, 또는 그 조합 중 적어도 하나를 포함한다.

Description

전자 디바이스들에 대한 컨텍스트 기반 인터액션을 위한 시스템 및 방법

하나 이상의 실시 예들은 일반적으로 컨텐트 인터액션(content interaction)에 관한 것으로서, 특히 컨텍스트 인터액션(contextual interaction)을 음성, 제스처(gesture) 또는 디바이스들과 통합하는 것에 관한 것이다.

전자 디바이스들과의 음성 인터액션이 지난 10년 동안 발전되어 왔음에도 불구하고, 사람 간의 인터액션의 용이성과 지능은 여전히 부족한 상태이다.

또한, 그와 같은 음성 인터페이스들은 인터액션의 다른 방식들과 비교할 때 종종 범위 및 기능들이 제한된다.

하나 이상의 실시 예들은 일반적으로 컨텍스트 인터액션을 음성, 손 또는 포인팅 디바이스들과 통합하는 것에 관한 것이다. 일 실시 예에서, 방법은 전자 디바이스에서 음성 입력을 수신하는 동작을 제공한다. 상기 음성 입력의 모호성(ambiguity)이 결정된다. 상기 모호성은 컨텍스트 데이터(contextual data)를 기반으로 분석된다. 상기 컨텍스트 데이터는 이미지, 제스처(gesture)를 포함하는 비-음성 입력, 포인팅 디바이스(pointing device)의 포인터(pointer), 터치, 또는 그 조합 중 적어도 하나를 포함한다.

다른 실시 예에서, 전자 디바이스는 명령어(instruction)들을 저장하는 메모리를 포함한다. 적어도 하나의 프로세서는 음성 입력을 수신하고, 상기 음성 입력의 모호성을 결정하고, 컨텍스트 데이터를 기반으로 상기 모호성을 분석하도록 구성되는 프로세스를 포함하는 상기 명령어들을 실행한다. 상기 컨텍스트 데이터는 이미지, 제스처를 포함하는 비-음성 입력, 포인팅 디바이스의 포인터, 터치, 또는 그 조합 중 적어도 하나를 포함한다.

일 실시 예에서, 비-일시적 프로세서-리드 가능 매체는 프로세서에 의해 실행될 때 방법을 수행하는 프로그램을 포함하며, 상기 방법은 전자 디바이스에서 음성 입력을 수신하는 동작을 포함한다. 상기 음성 입력의 모호성이 결정된다. 상기 모호성은 컨텍스트 데이터를 기반으로 분석된다. 상기 컨텍스트 데이터는 이미지, 제스처를 포함하는 비-음성 입력, 포인팅 디바이스의 포인터, 터치, 또는 그 조합 중 적어도 하나를 포함한다.

하나 이상의 실시 예들의 이런 측면들과 다른 측면들 및 이점들은, 도면들과 함께 고려될 때 하나 이상의 실시 예들의 원칙들을 일 예로 하여 설명하는 하기의 상세한 설명으로부터 명백해질 것이다.

도 1은 몇몇 실시 예들에 따른, 통신 시스템의 개략적 뷰를 도시하고 있다;
도 2는 몇몇 실시 예들에 따른, 컨텍스트 인터액션 앱(context interaction app)을 포함하는 전자 디바이스를 포함하는 시스템에 대한 아키텍쳐의 블록 다이아그램을 도시하고 있다;
도 3은 몇몇 실시 예들에 따른, 무수한 옵션들 중 컨텐트 엘리먼트(content element)를 관리하는 일 예를 도시하고 있다;
도 4는 몇몇 실시 예들에 따른, 조건 개별 선택의 일 예를 도시하고 있다;
도 5는 몇몇 실시 예들에 따른, 네비게이션을 단축하는 일 예를 도시하고 있다;
도 6은 몇몇 실시 예들에 따른, 음성 명령(command) 옵션들의 명확화(disambiguation)의 일 예를 도시하고 있다;
도 7은 몇몇 실시 예들에 따른, 아이템(item)에 대한 액션(action)들의 통합(consolidation)의 일 예를 도시하고 있다;
도 8은 몇몇 실시 예들에 따른, 아이템에 대한 액션들의 통합의 다른 예를 도시하고 있다;
도 9a-도 9b는 몇몇 실시 예들에 따른, 아이템들 간의 특성들에 대한 세부 사항들을 알지 않고도 상기 아이템들 간의 특성들을 전달하는 일 예를 도시하고 있다;
도 10a-도 10b는 몇몇 실시 예들에 따른, 복수의 컨텐트에 적용되는 액션들의 일 예를 도시하고 있다;
도 11은 몇몇 실시 예들에 따른, 복수의 컨텐트에 적용되는 액션들의 다른 예를 도시하고 있다;
도 12a-도 12b는 몇몇 실시 예들에 따른, 온-스크린(on-screen) 사용자 인터페이스(user interface: UI)가 오프 스크린(off screen) UI/프로세스들과 인터액트할 수 있도록 하는 일 예를 도시하고 있다;
도 13a-도 13c는 몇몇 실시 예들에 따른, 공간 태스크들을 효율적으로 수행하는 예들을 도시하고 있다;
도 14는 몇몇 실시 예들에 따른, 액션을 완료하기 위해 사용되는 서비스의 명확화의 일 예를 도시하고 있다;
도 15a-도 15d는 몇몇 실시 예들에 따른, 실시간 음성 입력을 기반으로 하는 UI의 다이나믹한 개선(dynamic refinement)의 예시들을 도시하고 있다;
도 16a-도 16b는 몇몇 실시 예들에 따른, 컨텍스트 쿼리(query)들의 예시들을 도시하고 있다;
도 17은 몇몇 실시 예들에 따른, 컨텍스트 쿼리의 다른 예를 도시하고 있다;
도 18은 몇몇 실시 예들에 따른, 조건 복수 선택/인터액션의 일 예를 도시하고 있다;
도 19a-도 19b는 몇몇 실시 예들에 따른, 지시사(demonstrative)들을 사용하여 보다 대화형인 인터페이스를 제공하는 일 예를 도시하고 있다;
도 20은 몇몇 실시 예들에 따른, 컨텍스트 지능을 다양한 액티비티(activity)들에 추가하기 위해 지시사들을 사용하는 일 예를 도시하고 있다;
도 21a-도 21b는 몇몇 실시 예들에 따른, 음성 제어를 사용하여 컨텐트를 선택하지만 상기 선택으로부터 실시간으로 엘리먼트들을 제외하는 일 예를 도시하고 있다;
도 22는 몇몇 실시 예들에 따른, 인터액션 특성들의 중단되지 않는, 실시간 수정의 일 예를 도시하고 있다;
도 23a-도 23b는 몇몇 실시 예들에 따른, 음성 플러스 컴퓨터 비젼(voice plus computer vision)의 일 예를 도시하고 있다;
도 24a-도 24b는 몇몇 실시 예들에 따른, 음성 플러스 컴퓨터 비젼의 다른 예를 도시하고 있다;
도 25a-도 25b는 몇몇 실시 예들에 따른, 음성 플러스 컴퓨터 비젼의 또 다른 예를 도시하고 있다;
도 26은 몇몇 실시 예들에 따른, 일 예로 LEAP MOTION^®손 추적(hand tracking)을 사용하여 추적된 포인트들을 사용하는 일 예를 도시하고 있다;
도 27a-도 27b는 몇몇 실시 예들에 따른, 손바닥/손가락과 다른 전자 디바이스와 오버랩되는 검출되는 디바이스의 일 예를 도시하고 있다;
도 28a-도 28c는 몇몇 실시 예들에 따른, 장면(scene)에 포함된 모든 아이템들을 식별하고 선택 및 명확화를 위해 명시적으로 제공하는 일 예를 도시하고 있다;
도 29는 몇몇 실시 예들에 따른, 2개의 제스처 입력 기술들과 함께 음성 입력을 사용하는 일 예를 도시하고 있다;
도 30은 몇몇 실시 예들에 따른, 복수의 음성 이네이블 디바이스(voice enabled device)들 간의 명확화의 일 예를 도시하고 있다;
도 31은 몇몇 실시 예들에 따른, 물리 제스처들과 결합하여 지시사들을 사용하는 일 예를 도시하고 있다;
도 32는 몇몇 실시 예들에 따른, 큐(cue)들에 대한 demonstrable들을 사용하는 프로세스의 블록 다이아그램을 도시하고 있다;
도 33은 몇몇 실시 예들에 따른, 컨텍스트 인터액션에 대한 프로세스의 블록 다이아그램을 도시하고 있다;
도 34는 하나 이상의 실시 예들을 구현하는 컴퓨팅 시스템을 포함하는 정보 프로세싱 시스템을 나타내는 상위-레벨 블록 다이아그램이다.

하기의 상세한 설명은 하나 이상의 실시 예들의 일반적인 원칙들을 설명하기 위한 목적으로 이루어지며, 본 문서에서 청구하는 본 발명의 컨셉들을 제한하려는 것은 아니다. 또한, 본 문서에서 설명되는 특정한 특징들은 다양한 가능한 조합들 및 순열들 각각에서 설명된 다른 특징들과 조합하여 사용될 수 있다. 본 문서에서 특별히 다르게 정의하지 않는 한, 모든 용어들은 해당 기술 분야의 통상의 기술자들에 의해 이해되는 의미들/또는 사전들, 논문들 등에서 정의된 바와 같은 의미들뿐만 아니라 본 문서에서 암시된 의미들을 포함하여, 가능한 가장 넓게 해석되어야 한다.

하나 이상의 실시 예들은 일 예로, 다른 메커니즘들/방식들에 의해 제공되는 컨텍스트 정보를 기반으로 음성 입력에 대한 지능 어시스턴트(intelligent assistant)의 응답을 개선하기 위해 제공된다. 여러 이점들이 다음을 포함하지만, 그렇다고 그에 한정되지는 않는 컨텍스트 기반 인터액션(context based interaction)에 의해 성취될 수 있다: 무수한 옵션들(일 예로, 재생, 앞으로, 일시 정지 등) 중 컨텐트(일 예로, 음악 파일, 비디오 파일 등)를 제어하는 것, 조건 개별 선택, 네비게이션 단축, 음성 명령 옵션들의 명확화, 아이템에 대한 액션들의 통합, 세부 사항들을 알지 못하는 상태에서 아이템들 간의 특성들을 전송하는 것, 컨텐트의 많은 집합들에서의 명확화, 온-스크린(on-screen) 사용자 인터페이스(user interface: UI)가 오프 스크린 UI/프로세스들과 인터액트할 수 있도록 하는 것, 복수의 온 스크린 UI들을 대체하는 것, 보다 효율적으로 공간 태스크들을 수행하는 것, 액션을 완료하기 위해 사용될 서비스의 명확화, 실시간 음성 및 호버 입력, 컨텍스트 쿼리를 기반으로 하는 UI의 다이나믹한 개선, 조건 복수 선택/인터액션, 지시사들('this' 또는 'that'과 같은 용어들)들을 사용하여 보다 대화형 인터페이스를 허락하는 것, 선택, 제외, 할당, 쿼리 등과 같은 다양한 액티비티들에 컨텍스트 지능을 추가하기 위해 지시사들을 사용하는 것, 인터액션 특성들의 중단없는, 실시간 수정, 복수의 음성 이네이블 디바이스들 간의 명확화 - 하기에서 추가적으로 설명되는 특정 디바이스에 대한 공간적 타겟팅 입력을 가능하게 함.

하기에서 설명되는 예시들은 몇몇 실시 예들에 따라, 상이한 입력들을 포함하는 다양한 데이터가 어떻게 함께 연관되어 사용자 인터액션들 및 제어들을 개선할 수 있는지를 보여준다. 몇몇 예시들은 제스처 입력들 또는 디바이스 제어 입력들이 어떻게 음성 입력들을 용이하게 하기 위해 컨텍스트 정보를 제공하는 데 사용될 수 있는지를 보여 주지만, 몇몇 실시 예들에서, 음성 입력들은 제스처 입력들 또는 디바이스 제어 입력들을 지원하기 위해 컨텍스트 정보를 제공하는데 사용될 수 있다.

공간 컨텍스트는 대부분의 사람 대 사람 인터액션의 중요한 컴포넌트이다. 일 예로, 부모가 "pick this up and put it over there"와 같이 말할 때, 'this' 및 'there' (즉, 지시사들)와 같은 단어들은 부모의 의도 및 그들이 타겟으로 하는 오브젝트들에 대한 자녀의 이해에 있어 중요한 링크 역할을 한다. 전자 디바이스들의 음성 인터페이스들은 자연어 프로세싱 및 이해를 기반으로 명령(일 예로, pick, put 등)에 포함된 액션을 이해할 수 있지만, 공간 컨텍스트 없이 상기 명령의 전체적인 의도를 이해하기에는 어려움이 있을 것이다.

사용자들은 자신들이 알고 있는 것에 대해 말할 수 있다. 하지만, 사용자들은 인터액트하고자 하는, 또는 관련 정보를 획득하고자 하는 아이템 또는 오브젝트의 전체적인 설명을 인식하고 있지 않는 것이 일반적이다. 음성 인터페이스들은 음성 합성을 사용하여 사용자의 옵션들을 리스트할 수 있지만, 종종 사용자들에 대한 리콜 이슈들을 가지는, 길고도 번거로운 경험들에 처하게 될 수 있다. 다른 경우들에서는, 유사한 사운드들 및/또는 발음을 구별하기가 어려울 수 있다.

멀티-모달(multi-modal) 세계에서 한 방식(modality)의 컨텍스트는 다른 방식에서의 인터액션에 영향을 미칠 것이다. 현재의 음성 인터페이스들은 보다 풍부한 컨텍스트를 위해 이러한 크로스 모달(cross modal) 입력들을 거의 사용하지 않는다. 동일한 "key word"로 모두 활성화될 수 있는 복수의 콘텐트가 존재할 때, 이는 음성 명령들에 대한 공간 명확화가 존재하지 않기 때문에 지장을 주는 오버랩을 초래할 수 있다. 동일한 키워드를 통해 활성화된 복수의 디바이스들에 대해서도 마찬가지일 수 있다.

또한, 음성 전용 인터페이스로 공간 태스크들을 수행하는 것은 번거롭고 부자연스럽다. 이는 멀티-디바이스 시나리오에서, 사용자가 음성 이네이블된 디바이스들의 클러스터 앞에 있지만, 특정 디바이스에게 명령들을 말하거나 발산하는 것을 원할 경우, 특히 그렇다. 사용자들은, 일 예로, 디바이스 명칭들을 이용해 원하는 디바이스와의 연동을 수행해야 하고, 이러한 세부 사항들을 기억해야 한다. 추가적으로, 이는 또한 임의의 인터액션이 발생하기 전에 음성을 통해서 디바이스를 선택하는 하나 이상의 단계를 추가함으로써 인터액션들을 연장한다.

음성 에이전트들을 이용한 쇼핑과 같은 상황들에서, 사용자들은 제품의 완전한 명칭, 맛, 사이즈 등과 같은 세부 정보를 제공해야 하며, 이는 긴 인터액션이 된다. 다양한 실시 예들은 상기에서 식별된 과제들을 해결하고 있다.

도 1은 일 실시 예에 따른, 통신 시스템(10)의 개략적 뷰이다. 통신 시스템(10)은 발신 통신 동작을 개시하는 통신 디바이스(송신 디바이스(12))와, 송신 디바이스(12)가 통신 네트워크(110) 내의 다른 통신 디바이스들과 통신 동작들을 개시 및 수행하기 위해 사용할 수 있는 통신 네트워크(110)를 포함한다. 일 예로, 통신 시스템(10)은 상기 송신 디바이스(12)로부터 통신 동작을 수신하는 통신 디바이스(수신 디바이스(11))를 포함할 수 있다. 통신 시스템(10)은 복수의 송신 디바이스들(12) 및 수신 디바이스들(12)을 포함할 수 있으나, 도면을 간소화시키기 위해 도 1에서는 각각 1개만이 도시되어 있다.

통신 네트워크를 생성하기 위해 동작되는 임의의 적합한 회로, 디바이스, 시스템 또는 이들의 조합(일 예로, 통신 타워들 및 전화 통신 서버들을 포함하는 무선 통신 인프라스트럭쳐(infrastructure))이 통신 네트워크(110)를 생성하기 위해 사용될 수 있다. 통신 네트워크(110)는 임의의 적합한 통신 프로토콜을 사용하여 통신을 제공할 수 있을 수 있다. 몇몇 실시 예들에서, 통신 네트워크(110)는 일 예로, 종래의 전화 라인들, 케이블 텔레비젼, 와이-파이(Wi-Fi)(일 예로, IEEE 802.11 프로토콜), 블루투스(BLUETOOTH^®), 고주파 시스템들(일 예로, 900 MHz, 2.4 GHz, 및 5.6 GHz 통신 시스템들), 적외선, 다른 비교적 로컬라이즈된 무선 통신 프로토콜, 또는 그들의 임의의 조합을 지원할 수 있다. 몇몇 실시 예들에서, 상기 통신 네트워크(110)는 무선 및 셀룰라 전화기들 및 개인용 이메일 디바이스들(일 예로, 블랙베리(Blackberry®))에 의해 사용되는 프로토콜들을 지원할 수 있다. 이러한 프로토콜들은 일 예로, GSM, GSM 플러스 EDGE(GSM plus EDGE), CDMA, 쿼드밴드(quadband), 및 다른 셀룰라 프로토콜들을 포함할 수 있다. 다른 예에서, 장거리 통신 프로토콜은 Wi-Fi 및 VOIP, LAN, WAN, 또는 다른 TCP-IP 기반 통신 프로토콜들을 사용하여 콜들(calls)을 발신하거나 또는 수신하는 프로토콜들을 포함할 수 있다. 상기 송신 디바이스(12) 및 수신 디바이스(11)는 통신 네트워크(110) 내에 위치될 때, 패스(13)와 같은 양방향 통신 패스를 통해, 또는 2개의 단방향 통신 패스들을 통해 통신할 수 있다. 상기 송신 디바이스(12) 및 수신 디바이스(11) 둘 다는 통신 동작을 개시하고 개시된 통신 동작을 수신할 수 있다.

상기 송신 디바이스(12) 및 수신 디바이스(11)는 통신 동작들을 송신 및 수신하는 임의의 적합한 디바이스를 포함할 수 있다. 일 예로, 상기 송신 디바이스(12) 및 수신 디바이스(11)는 이동 전화 디바이스들, 텔레비젼 시스템들, 카메라들, 캠코더들, 오디오 비디오 기능들을 가지는 디바이스, 태블릿들, 웨어러블 디바이스들, 스마트 어플라이언스들, 스마트 픽쳐 프레임들, 및 무선으로 (무선-이네이블 액세서리 시스템의 도움을 사용하여 또는 도움 없이) 또는 유선 패스웨이(pathway)들을 통해(일 예로, 종래의 전화 유선들을 사용하여) 통신할 수 있는 임의의 다른 디바이스를 포함할 수 있지만, 그렇다고 이에 한정되는 것은 아니다. 상기 통신 동작들은 일 예로, 음성 통신(일 예로, 전화 콜들), 데이터 통신(일 예로, 이-메일들, 텍스트 메시지들, 미디어 메시지들), 비디오 통신, 또는 이들의 조합들(일 예로, 비디오 컨퍼런스들)을 포함하는 임의의 적합한 형태의 통신을 포함할 수 있다.

도 2는 음성, 손, 또는 포인팅 디바이스(pointing device)들과의 컨텍스트 인터액션을 위해, 또는 전자 디바이스(120)(일 예로, 이동 전화 디바이스들, 텔레비젼(television: TV) 시스템들, 카메라들, 캠코더들, 오디오 비디오 기능들을 가지는 디바이스, 태블릿들, 패드 디바이스들, 웨어러블 디바이스들, 스마트 어플라이언스들, 스마트 픽쳐 프레임들, 스마트 라이팅 등)를 사용하여 디스플레이 디바이스들 1-N (140)(일 예로, 태블릿들, 모니터들, 디지털 포토 디스플레이 프레임들, 컴퓨팅 디스플레이들, 텔레비젼 디스플레이들, 프로젝트 디스플레이들 등; 여기서 N은 0 이다(N = 0))과 인터액트하기 위해 사용될 수 있는 아키텍쳐 시스템(100)의 기능 블록 다이아그램을 도시하고 있다. 상기 송신 디바이스(12)(도 1) 및 수신 디바이스(11) 둘 다는 상기 전자 디바이스(120)의 특징들 중 일부 또는 모두를 포함할 수 있다. 일 실시 예에서, 상기 전자 디바이스(120)는 디스플레이(121), 마이크로폰(122), 오디오 출력부(123), 입력 메카니즘(124), 통신 회로(125), 제어 회로(126), 카메라(128), 컨텍스트 인터액션 앱(129)(일 예로, 음성, 제스처, 또는 디바이스들과의 컨텍스트 인터액션을 위한, 그리고 디스플레이 디바이스들 1-N (140)과의 인터액트를 위한), 및 임의의 다른 적합한 컴포넌트들을 포함할 수 있다. 일 실시 예에서, 어플리케이션들 1-N (127)이 제공되어 클라우드 또는 서버(130), 통신 네트워크(110) 등으로부터 획득될 수 있고, 여기서 N은 1 이상인 양의 정수이다.

일 실시 예에서, 오디오 출력부(123), 디스플레이(121), 입력 메카니즘(124), 통신 회로(125), 마이크로폰(122)에 의해 사용되는 상기 어플리케이션들 모두는 제어 회로(126)과 상호 연결되고 제어 회로(126)에 의해 관리될 수 있다. 일 예에서, 다른 튜닝 디바이스(tuning device)들로 음악을 송신할 수 있는 휴대용 음악 재생기가 전자 디바이스(120)에 통합될 수 있다.

일 실시 예에서, 상기 오디오 출력부(123)는 상기 전자 디바이스(120)의 사용자로 오디오를 제공하는 임의의 적합한 오디오 컴포넌트를 포함할 수 있다. 일 예로, 오디오 출력부(123)는 상기 전자 디바이스(120)에 빌트 인되는 하나 이상의 스피커들(일 예로, 모노 또는 스테레오 스피커들)을 포함할 수 있다. 몇몇 실시 예들에서, 상기 오디오 출력부(123)는 상기 전자 디바이스(120)에 원격으로 연결된 오디오 컴포넌트를 포함할 수 있다. 일 예로, 상기 오디오 출력부(123)는 유선으로(일 예로, 잭을 사용하여 전자 디바이스(120)에 연결되는) 또는 무선으로(일 예로, BLUETOOTH^® 헤드폰들 또는 BLUETOOTH^® 헤드셋) 통신 디바이스에 연결될 수 있는 헤드셋, 헤드폰들, 또는 초소형 헤드폰들을 포함할 수 있다.

일 실시 예에서, 상기 디스플레이(121)는 상기 사용자에게 보여지는 디스플레이를 제공하는 임의의 적합한 스크린 또는 프로젝션 시스템을 포함할 수 있다. 일 예로, 디스플레이(121)는 상기 전자 디바이스(120)에 통합되는 스크린(일 예로, LCD 스크린, LED 스크린, OLED 스크린 등)을 포함할 수 있다. 다른 예로, 디스플레이(121)는 전자 디바이스(120)(일 예로, 비디오 프로젝터)로부터 원격에 존재하는 표면 상에 컨텐트의 디스플레이를 제공하는 이동 가능한 디스플레이 또는 프로젝트 시스템을 포함할 수 있다. 디스플레이(121)는 상기 제어 회로(126)의 지시 하에 컨텐트(일 예로, 통신 동작들에 관련된 정보 또는 유용한 미디어 선택들에 관한 정보)를 디스플레이하도록 동작될 수 있다.

일 실시 예에서, 입력 메카니즘(124)은 전자 디바이스(120)로 사용자 입력들 또는 명령어들을 제공하는 임의의 적합한 메카니즘 또는 사용자 인터페이스가 될 수 있다. 입력 메카니즘(124)은 버튼, 키패드, 다이얼, 클릭 휠, 마우스, 시각 포인터, 원격 제어, 하나 이상의 센서들(일 예로, 카메라 또는 시각 센서, 라이트 센서, 근접성 센서, 정전식 호버 센서(hover sensor) 등 또는 터치 스크린)과 같은 다양한 형태들을 취할 수 있다. 상기 입력 메카니즘(124)은 멀티-터치 스크린을 포함할 수 있다.

일 실시 예에서, 통신 회로(125)는 통신 네트워크(일 예로, 통신 네트워크(110), 도 1)에 연결하여 상기 통신 네트워크 내의 다른 디바이스들로 통신 동작들 및 상기 전자 디바이스(120)로부터의 미디어를 송신하도록 동작되는 임의의 적합한 통신 회로가 될 수 있다. 통신 회로(125)는 일 예로, Wi-Fi(일 예로, IEEE 802.11 프로토콜), BLUETOOTH^®, 고주파 시스템들(일 예로, 900 MHz, 2.4 GHz, 및 5.6 GHz 통신 시스템들), 적외선, GSM, GSM plus EDGE, CDMA, 쿼드밴드, 및 다른 셀룰라 프로토콜들, VOIP, TCP-IP, 또는 임의의 다른 적합한 프로토콜과 같은 임의의 적합한 통신 프로토콜을 사용하여 상기 통신 네트워크와 인터페이스하도록 동작될 수 있다.

몇몇 실시 예들에서, 통신 회로(125)는 임의의 적합한 통신 프로토콜을 사용하여 통신 네트워크를 생성하도록 동작될 수 있다. 일 예로, 통신 회로(125)는 다른 통신 디바이스들로 연결하는 단거리 통신 프로토콜들을 사용하여 단거리 통신 네트워크를 생성할 수 있다. 일 예로, 통신 회로(125)는 Bluetooth^® 헤드셋을 사용하여 상기 전자 디바이스(120)를 연결하는 Bluetooth^®프로토콜을 사용하여 로컬 통신 네트워크를 생성하도록 동작될 수 있다.

일 실시 예에서, 제어 회로(126)는 상기 전자 디바이스(120)의 동작들 및 성능을 제어하도록 동작될 수 있다. 제어 회로(126)는 일 예로, 프로세서, 버스(일 예로, 상기 전자 디바이스(120)의 다른 컴포넌트들로 명령어들을 송신하기 위한), 메모리, 저장 장치, 또는 상기 전자 디바이스(120)의 동작들을 제어하는 다른 적합한 컴포넌트를 포함할 수 있다. 몇몇 실시 예들에서, 프로세서는 상기 디스플레이를 드라이브하고 상기 사용자 인터페이스로부터 수신되는 입력들을 프로세싱할 수 있다. 상기 메모리 및 저장 장치는 일 예로, 캐쉬, 플래쉬 메모리, ROM, 및/또는 RAM/DRAM를 포함할 수 있다. 몇몇 실시 예들에서, 메모리는 특히 펌웨어(일 예로, 운영 시스템, 사용자 인터페이스 함수들, 및 프로세서 함수들과 같은 디바이스 어플리케이션들을 위한)를 저장하는 것에 전용이 될 수 있다. 몇몇 실시 예들에서, 메모리는 상기 전자 디바이스(120)가 통신 동작들을 수행하는 다른 디바이스들과 관련되는 정보를 저장하도록(일 예로, 통신 동작들에 관련된 연락처 정보를 저장하거나 또는 다른 미디어 타입들에 관련되는 정보 및 상기 사용자에 의해 선택되는 미디어 아이템들을 저장하는) 동작될 수 있다.

일 실시 예에서, 제어 회로(126)는 상기 전자 디바이스(120) 상에서 구현되는 하나 이상의 어플리케이션들의 동작들을 수행하도록 동작될 수 있다. 적합한 개수의 또는 적합한 타입의 어플리케이션들이 구현될 수 있다. 하기의 설명이 상이한 어플리케이션들을 열거한 것일지라도, 상기 어플리케이션들 중 일부 또는 모두는 하나 이상의 어플리케이션들로 조합될 수 있음이 이해될 수 있을 것이다. 일 예로, 상기 전자 디바이스(120)는 자동 음성 인식(automatic speech recognition: ASR) 어플리케이션, OCR 어플리케이션, 디지털 어플리케이션, 맵 어플리케이션, 미디어 어플리케이션(일 예로, QuickTime, MobileMusic.app, 또는 MobileVideo.app), 소셜 네트워킹 어플리케이션들(일 예로, FACEBOOK^®, INSTAGRAM^®, TWITTER^® 등), 카렌다 어플리케이션(calendaring application)(일 예로, 이벤트들, 약속들 등을 관리하는 카렌다(calendar)), 인터넷 브라우징 어플리케이션 등을 포함하는 어플리케이션들 1-N (127)을 포함할 수 있지만, 이에 한정되는 것은 아니다. 몇몇 실시 예들에서, 상기 전자 디바이스(120)는 통신 동작들을 수행하도록 동작되는 하나 또는 복수의 어플리케이션들을 포함할 수 있다. 일 예로, 상기 전자 디바이스(120)는 메시징 어플리케이션, 이-메일 어플리케이션, 음성메일 어플리케이션, 인스턴트 메시징 어플리케이션(instant messaging application)(일 예로, 채팅을 위한), 비디오컨퍼런스 어플리케이션(videoconferencing application), 팩스 어플리케이션, 또는 임의의 적합한 통신 동작을 수행하는 임의의 다른 적합한 어플리케이션을 포함할 수 있다.

몇몇 실시 예들에서, 전자 디바이스(120)는 마이크로폰(122)을 포함할 수 있다. 일 예로, 전자 디바이스(120)는 통신 동작 동안 또는 통신 동작을 설정하는 수단으로서 또는 물리적인 사용자 인터페이스를 사용하는 것에 대한 대안으로서, 사용자가 어플리케이션들 1-N (127)의 음성 제어 및 네비게이션에 대한 오디오(일 예로, 음성 오디오)를 송신할 수 있도록 하는 마이크로폰(122)을 포함할 수 있다. 상기 마이크로폰(122)은 상기 전자 디바이스에 통합될 수 있거나, 또는 상기 전자 디바이스(120)에 원격으로 연결될 수 있다. 일 예로, 상기 마이크로폰(122)은 유선 헤드폰들에 통합될 수 있고, 상기 마이크로폰(122)은 무선 헤드셋에 통합될 수 있고, 상기 마이크로폰(122)은 원격 제어 디바이스 등에 통합될 수 있다.

일 실시 예에서, 상기 카메라 모듈(128)은 스틸 및 비디오 이미지들을 캡쳐하는 기능, 편집 기능, 사진들/비디오들 등을 송신, 공유하는 등의 통신 상호 운용성을 포함하는 하나 이상의 카메라 디바이스들을 포함한다.

일 실시 예에서, 상기 컨텍스트 인터액션 앱(129)은 컨텍스트 인터액션을 음성, 제스처, 또는 컨텐트 엘리먼트들을 재생하고, 조정하고, 선택하고, 사용하고, 조사하는 등의 디바이스들과 통합하는 프로세스들 및/또는 프로그램들을 포함한다. 상기 컨텐트 엘리먼트들은 시각 컨텐트, 그래픽 이미지들, 비디오 컨텐트, 사진들, 음악 컨텐트 등을 포함할 수 있다. 상기 컨텍스트 인터액션 앱(129)은 임의의, 하기에서 설명되는 바와 같은 예시들을 프로세싱하는 것을 포함할 수 있으며, 그렇다고 이에 한정되는 것은 아니다.

일 실시 예에서, 상기 전자 디바이스(120)는 통신 동작을 수행하는데 적합한 임의의 다른 컴포넌트를 포함할 수 있다. 일 예로, 상기 전자 디바이스(120)는 파워 서플라이(power supply), 포트들, 또는 호스트 디바이스에 연결하는 인터페이스들, 보조 입력 메카니즘(일 예로, 온/오프(ON/OFF) 스위치), 또는 임의의 다른 적합한 컴포넌트를 포함할 수 있다.

몇몇 실시 예들에서, 다음과 같은 분류들이 하기에서 설명되는 예시들을 위해 사용될 수 있다:

1. 디바이스 내 명확화(Within device disambiguation):

(1) 음성 + 호버 (Voice + Hover)

(2) 음성 + 커서 (Voice + Cursor)

(3) 음성 + 포인트 (Voice + Point)

(4) 음성 + 터치 (Voice + Touch)

(5) 음성 + 쇼 (Voice + Show)

(6) 다양한 조합들;

2. 디바이스 간 명확화(Among device disambiguation).

추가적으로, 음성 + 시선 (voice + gaze) 등과 같은 다른 분류들이 구현될 수 있다.

도 3은 몇몇 실시 예들에 따른, 무수한 옵션들 중 컨텐트 엘리먼트(content element)를 제어하는 일 예를 도시하고 있다. 일 예에서, 텔레비젼(television: TV) 쇼(show)의 시즌(season)에서 복수의 비디오 에피소드(episode)들이 컨텐트 플레이백(playback)을 위해 선택 가능할 때, 쇼의 명칭과, 시즌 및 특정 에피소드 번호를 말하는 것 대신에, 일부 실시 예들에서, 사용자는 그들이 재생하고 싶고, "Play that one"이라고만 말하고 싶은 컨텐트를 (그들의 손/손가락으로) 간단히 포인트할 수 있다. 상기 컨텐트 인터액션 프로세싱(일 예로, 시스템(100)(도 2)을 사용하는, 디바이스(120), 컨텍스트 인터액션 앱(129) 또는 그 조합)은 상기 제스처 입력과 음성 입력을 연관시켜(correlate) 선택될 정확한 컨텐트와 상기 컨텐츠에서 처리될 액션을 결정한다. 도 3의 예시에서, 디스플레이(140)는 3개의 엘리먼트들(일 예로, 비디오들, 음악 파일들 등)로 도시된다. 상기 사용자는 상기 컨텐트 엘리먼트(310)에서 제스처(305)를 위해 손가락으로 포인트하고 "play that one"을 발언(315)한다. 상기 마이크로폰(일 예로, 마이크로폰(122))은 상기 발언을 수신하고, 음성 프로세싱 어플리케이션은 상기 용어들 "that one"의 모호성을 결정한다. 추가적인 인터액션 없이, 일반적인 시스템은 상기 사용자가 상기 "play" 명령을 적용하고자 하는 컨텐트 엘리먼트에 관해 추가적으로 질의해야 할 것이다. 하지만, 몇몇 실시 예들에서는, 상기 컨텍스트 인터액션 프로세싱은 상기 말해진 모호성(발언(315))과 입력 메카니즘(124)에 의해 캡쳐된 상기 제스처(305)의 추가적인 컨텍스트를 조합하여 컨텐트 엘리먼트(310)를 선택하고, 상기 선택된 컨텐트 엘리먼트(310)를 전자 디바이스(120)에 재생(액션)한다. 몇몇 실시 예들에서, 제스처(305)의 검출 시, 상기 컨텍스트 인터액션 프로세싱은 상기 제스처(305)가 상기 컨텐트 엘리먼트(310)를 향해 포인트하고 있는 중이라고 결정하고, 상기 결정을 상기 액션 용어 "play"와 함께 선택으로 사용하고, 상기 액션(일 예로, 컨텐트 재생기)을 수행할 앱(일 예로, 어플리케이션들 1-N (127) 중 한 앱)을 선택한다. 임의의 미디어 디바이스는 이미지들, 음악, 비디오들 등과 같은 몇몇 상이한 타입들의 컨텐트를 포함한다. 컨텐트 타입에 따라, 액션들 중 특정 집합만 특정 컨텐트 타입에 대해 적합하다. 일 예로, 상기 컨텐트 "play"-ing는 음악 및 비디오에 대해서는 적합하지만, 사진 또는 서류에 대해서는 적합하지 않다. 따라서, 몇몇 실시 예들에서, 각 컨텐트는 그 컨텐트 타입에 관련되는 명령들 중 좁은 집합과 매핑된다. 유사하게, 각 어플리케이션은 오직 특정 컨텐트 타입들만을 재생할 수 있다. 상기 사용자가 컨텐트에서 제스처를 하고 있는 동안 상기 단어 "play"를 말할 때, 상기 컨텍스트 인터액션 앱(129)(또는 컨텍스트 인터액션 프로세싱(3430))은 이 명령이 이 컨텐트 타입에 의해 지원되는 명령들의 집합과 일치하는지 체크한다. 이 명령이 이 컨텐트 타입에 의해 지원되는 명령들의 집합과 일치할 경우, 프로세싱은 상기 선택된 컨텐트 타입을 지원하는 어플리케이션을 사용하여 상기 명령을 완료하기 위해 진행한다. 몇몇 환경들에서, 상기 제스처와 음성 명령이 동일한 사람에 의해서 발생되었는지를 아는 것이 바람직할 수 있다. 상기 제스처를 발생한 사람이 상기 전자 디바이스(120)를 사용하는 동안 상기 입력 메카니즘 (상기 디바이스 상의 또는 상기 포인터의 범위에서) 에 근접해야 한다는 것이 이해될 수 있을 것이며, 멀리서 입력되는 음성 입력을 프로세싱하는 것은 불필요할 수 있을 것이다. 마이크로폰(일 예로, 마이크로폰(122))의 거리 범위는 상기 마이크로폰의 신호 대 잡음비를 경고함으로써 다이나믹하게 수정될 수 있다. 결과적으로, 원거리 마이크로폰은 더 작은 영역 내에서의 소리들만을 획득하는, 근거리 모드로 즉시 스위치될 수 있다. 몇몇 실시 예들에서, 상기 전자 디바이스(120)가 제스처 입력을 통해 상기 사용자에 의한 참여를 센싱할 때, 상기 전자 디바이스(120)는 상기 음성 입력 범위를 훨씬 더 작은 영역으로 감소시키고, 이에 따라 상기 전자 디바이스(120)에 근접하여 존재하는 사용자에 의한 음성 명령들만을 획득하는 근거리 모드로 자동으로 스위치한다. 이는 상기 전자 디바이스(120)가 그룹 홈 영화 시청 경험(group home movie watching experience)들로부터 공항들과 같은 공공 장소들에 이르는 범위의 적당히 시끄럽거나 매우 시끄러운 환경들에서 사용되도록 할 수 있다.

하나 이상의 실시 예들에서, 수신 중인 음성 명령들이 제스처를 수행하는 사용자로부터의 것인지를 식별하기 위해, 얼굴 인식, 얼굴 식별, 입술 움직임 인식, 및 자세 인식 기술들의 조합이 사용될 수 있다. 2명의 사용자들 중 1명의 사용자만이 전자 디바이스(120)와 인터액트하고 있는 동안 상기 2명의 사용자들이 서로 나란히 앉아 있는 중인 시나리오들에서, 이런 기술들은 말하는 중일 수는 있으나 상기 디바이스에 반드시 명령들을 지시하는 것은 아닌 다른 사용자를 무시하면서, 제스처를 수행 중인 사용자에게 음성 입력을 연동하고 그들을 선택적으로 프로세싱하도록 할 수 있다.

몇몇 실시 예들에서, 디바이스 내 명확화(disambiguation)의 카테고리(category)는 컨텍스트(context)가 단일 디스플레이(140) 내의 인터액션들을 개선시키기 위해 음성 입력을 향상시키도록 사용되는 기술들의 클래스(class)를 나타낸다. 단일 디스플레이(140)의 상태 내에서 몇몇 시나리오들이 존재하며, 여기서 음성 입력 단독은 상기 디스플레이(140)의 상태를 제어하기에는 부적당하고/불충분하다. 몇몇 실시 예들에서, 컨텍스트는 개선된 사용자 경험을 초래하는, 추가적인 방식(modality)들을 사용하여 성취될 수 있다. 음성 + 호버에 대해서, 음성 입력은 사용자들이 상기 사용자들이 직접 터치할 수 없는 또는 직접 터치하지 않기를 선호하는 컴퓨팅 디바이스들(120)과 인터액트할 때 상기 사용자들에게 특별한 관심이 될 수 있다. 일 예로, 사용자가 부엌에서 디지털 레시피들을 따르려고 시도할 때, 또는 디지털 명령어들을 따라서 특정 스포츠들을 연습할 때이다.

도 4는 몇몇 실시 예들에 따른, 조건 개별 선택의 일 예를 도시하고 있다. 몇몇 실시 예들에서, 조건 선택은 음성 입력 및 호버 입력(일 예로, 제스처) 둘 다를 고려할 때 성취된다. 이 예시에서, 사용자의 손가락이 전자 디바이스(120)의 디스플레이(140) 표면에서 디스플레이되는 특정 오브젝트(컨텐트 엘리먼트(310)) 위를 호버할 때(제스처(405)), 그들은 그 오브젝트를 활성화시키기 위해 단지 'play'와 같은 간단한 액션 명령들을 제공할 수 있을 뿐만 아니라 상기 오브젝트를 활성화시키기 위해 명령어들과 같은 복합 조건문(compound conditional statement)을 제공할 수 있다. 상기 컴퓨팅 디바이스는 상기 선택된 컨텐트를 오픈/활성화/시작하기 전일 지라도 이런 조건 명령들을 프로세싱하여 상기 사용자가 원하는 방식으로 그것들을 디스플레이한다. 도시된 바와 같이, 상기 사용자는 "play this one starting at 30 minutes."와 같은 발언(415)을 제공한다. 상기 컨텍스트 인터액션 프로세싱은 상기 컨텐트 엘리먼트(310)에 적용할 상기 액션 용어 "play"와 상기 조건 "starting at 30 minutes"를 결정한다. 상기 컨텍스트 인터액션 프로세싱은 음성 인식 프로세스 또는 어플리케이션을 사용하여 상기 컨텐트 엘리먼트(310)에 대한 재생 길이의 포인트(420)에서 상기 컨텐트 엘리먼트(310)를 시작하기 위한 액션 및 조건과 함께 상기 제스처(405)가 상기 디스플레이(140) 상에서 포인트하고 있는 것이 무엇인지를 식별하는 입력 메카니즘(일 예로, 입력 메카니즘(124), 도 2)을 사용한다.

도 5는 몇몇 실시 예들에 따른, 네비게이션을 단축하는 일 예를 도시하고 있다. 다중-하이어라키 메뉴(multi-hierarchical menu)(510)에서, 사용자는 복수의 레벨들의 메뉴들을 통해 상기 원하는 컨텐트로 내려가게 될 것이며, 이는 고려 가능한 개수의 단계들을 추가하고 상기 선택된 프로세스를 지연시킨다. 대신에, 사용자들은 상기에서 설명한 프로세싱을 사용하여 네비게이션을 단축시킬 수 있다. 도시된 바와 같이, 상기 사용자는 그들이 관심이 있고, 그들이 관심이 있는 컨텐트 엘리먼트(525)와 연관되는 특정 자식/손자/증손자(child/grandchild/great grandchild) 등 메뉴 아이템을 표현하는 부모(parent) 다중-하이어라키 메뉴(510) 위에 호버하고, "play the episode about whales, start at 30 seconds in."의 발언(515)을 제공함으로써 직접 상기 특정 컨텐트 엘리먼트(525)를 선택하는 것으로 점프한다. 상기 음성 인식 프로세스 또는 애플리케이션은 (상기 디스플레이(140) 상의 2 개의 유용한 메뉴들 중) 상기 다중-하이어라키 메뉴(510)를 포인트하는 제스처(505) 및 상기 용어들 "about whales"을 기반으로 하는 상기 다중-하이어라키 메뉴(510) 내의 검색(search)을 기반으로 상기 명시된 컨텐트 엘리먼트(525)가 상기 다중-하이어라키 메뉴(510)에 존재하는지 여부를 결정한다. 상기 컨텐트 엘리먼트(525)가 검색되면, 상기 컨텍스트 인터액션 프로세싱은 상기 비디오의 시작으로부터 30초인, 상기 포인트(520)에서 상기 컨텐트 엘리먼트(525)를 재생하기 위한 적합한 앱/애플리케이션을 시작한다.

도 6은 몇몇 실시 예들에 따른, 음성 명령 옵션(option)들의 명확화(disambiguation)의 일 예를 도시하고 있다. 이 예시는 사용자가 디스플레이(140)에 도시된 특정 컨텐트 엘리먼트(310)를 가지고 수행할 수 있는 것이 무엇인지를 이해하는 데 음성이 어떻게 도와주는지에 대해서 도시하고 있다. 사용자의 손가락에 대한 제스처(605)가 전자 디바이스(일 예로, 전자 디바이스(120))의 디스플레이(140) 표면에서 디스플레이되는 특정 오브젝트(콘텐트 엘리먼트(310)) 위로 호버할 때, 유용한 많은 액션들이 존재할 수 있다. 일 예로, "options"를 말함으로써, 상기 전자 디바이스는 호버 입력(제스처 (605)) 및 음성 입력(발언 (615)) 둘 다를 사용하여 사용자가 상기 사용자의 손가락(들)로 호버하는 오브젝트에 대해서만 옵션들을 보기를 (또는 듣기를) 원하는지를 결정한다. 상기 호버 입력이 없으면, 상기 전자 디바이스는, 음성 명령을 이해할 수 없을 수 있거나, 또는 원하는 특정 컨텐트(콘텐트 엘리먼트(310)) 대신 전체 디스플레이(140) 시스템에 대해 유용한 옵션들을 제공할 수 있다. 상기 음성 입력(발언(615))이 없으면, 상기 전자 디바이스가 상기 사용자의 의도가 무엇인지를 결정하기 위해 호버링 이상의 제스처들이 필요할 수 있다. 컨텐트 엘리먼트(310)에 관한 옵션들(620)이 디스플레이 될 때, 사용자는 그것들을 선택하기 위해 이들 옵션들(620) 중 하나의 명칭을 말할 수 있다 - 일 예로, 사용자는 제스처(605)로 재생 아이콘에 머무르고 그 특정 옵션을 선택하기 위해서 "look up"을 말할 것이다. 이는 일련의 동작들을 위해 필요한 손들의 이동/움직임을 감소시킨다. 대안적으로, 사용자는 그 옵션을 호출하기 위해 상기 사용자의 손들을 움직여서 'look up' 오브젝트 위로 호버하고 "select"를 말하기로 선택할 수 있다.

도 7은 몇몇 실시 예들에 따른, 아이템(item)에 대한 액션(action)들의 통합(consolidation)의 일 예를 도시하고 있다. 도시된 바와 같이, 제스처(705)를 사용하는 호버 입력들은 음성 발언(715)을 사용하여 (디스플레이 (140)에 도시된) 컨텐트 엘리먼트(710)의 대량 편집에 도움을 준다. 상기 제스처(705)의 호버 입력으로, 전자 디바이스(일 예로, 전자 디바이스(120), 도 2)는 복수의 콘텐트 엘리먼트들(710)(일 예로, 포토 갤러리)의 하나의 특정 오브젝트(콘텐트 엘리먼트(720))를 식별하고 그에 하나 이상의 편집들을 적용할 수 있다. 상기 예시 발언(715)은 용어들 "make sepia rotate right and call this oldtime setting"를 포함한다. 상기 음성 인식 프로세스 또는 어플리케이션은 ("make sepia", "rotate right," 및 "call"의) 상기 액션 단어들의 의미를 결정하고 상기 제스처(705)를 사용하여 (입력 메커니즘, 일 예로, 입력 메커니즘(124), 도 2)를 사용하여) 상기 컨텐트 엘리먼트(720)를 선택하는 사용자의 의도를 결정한다. 상기 컴퓨팅 디바이스는 또한 이러한 편집 단계들을 하나의 템플릿(template) "oldtime setting"으로 저장할 수 있다. 상기 컨텍스트 인터액션 프로세싱을 사용하는 결과는 상기 컨텐트 엘리먼트(720)가 이루어진 변경들에 따라 컨텐트 엘리먼트(721)가 되는 것이다 (즉, 색상은 이제 적갈색이고, 상기 컨텐트 엘리먼트는 오른쪽으로 90도 (일 예로, 디폴트 회전) 회전된다).

도 8은 몇몇 실시 예들에 따른, 아이템에 대한 액션들의 통합의 다른 예를 도시하고 있다. 상기 도 7의 예시로부터 변경되는 호버 입력을 사용하여, 상기 전자 디바이스는 다른 오브젝트 (콘텐트 엘리먼트 (810))가 상기 호버 입력 (제스처(805))를 기반으로 다음 음성 명령(발언(815))에 대한 포커스(focus)라는 것을 이해할 수 있고, 상기 "oldtime setting"의 저장된 템플릿을 상기 컨텐트 엘리먼트(810)에 적용하여 이제는 색상 적갈색을 가지고, 오른쪽으로 회전된 상기 수정된 컨텐트 엘리먼트(811)에 도달한다.

도 9a-도 9b는 몇몇 실시 예들에 따른, 아이템들(일 예로, 컨텐트 엘리먼트들)의 세부 사항들을 알지 않고도 상기 아이템들 간의 특성들을 전달하는 일 예를 도시하고 있다. 도시된 바와 같이, 상기 음성 입력 발언(915)은 명령("copy photo filter settings") 을 식별하고 상기 호버 입력 제스처(905)는 상기 명령이 어떤 오브젝트에 적용되어야만 하는 지로 좁히는 것에 도움을 준다. 상기 디스플레이(140)는 복수의 컨텐트 엘리먼트들(710)을 포함하고, 상기 제스처(905)는 컨텐트 엘리먼트(720)를 향해 포인트하고 있는 중이다. 이들 동작들에서, 상기 사용자는 상기 설정에 관련되는 세부 사항들을 알 필요 없이 컨텐트 엘리먼트(720)(도 9a)로부터 컨텐트 엘리먼트(810)까지의 특성들의 복사를 수행할 수 있다. 몇몇 실시 예들에서, 상기 컨텍스트 인터액션 프로세싱은 상기 음성 인식 프로세싱 또는 어플리케이션을 사용하여 일 예로 포토 갤러리 어플리케이션으로부터 상기 컨텐트 엘리먼트(720)에 대해 용어 "settings" (일 예로, 적용된 포토 설정들)를 결정한다. 상기 컨텍스트 인터액션 프로세싱은 그리고 나서 상기 수정된 컨텐트 엘리먼트(910)에 도달하는 상기 컨텐트 엘리먼트(910)에 상기 설정들 각각을 적용한다.

도 10a-도 10b는 몇몇 실시 예들에 따른, 복수의 컨텐트(1010)에 적용되는 액션들의 일 예를 도시하고 있다. 도 10a에서, 발언(1015)("rotate")의 첫 번째 음성 입력의 수신 시, 상기 컨텍스트 인터액션 프로세싱을 사용하는 전자 디바이스(일 예로, 전자 디바이스(120), 도 2)는 "회전(Rotating)" 모드(1020)로 진입한다. 다음으로, 상기 호버 입력 제스처(1005)는 상기 전자 디바이스가 다음 음성 명령 발언(1016) "Right"의 적용을 위한 첫 번째 오브젝트(컨텐트 엘리먼트(1030))를 결정하는 것을 도와주며, 이는 상기 첫 번째 오브젝트가 오브젝트(1031)로 도시되어 있는, 오른쪽으로 회전하도록 한다.

도 11은, 몇몇 실시 예들에 따른, 복수의 컨텐트에 적용되는 액션들의 다른 예를 도시하고 있다. 도 10b에서, 다른 제스처(1006)는 제2 오브젝트(컨텐트 엘리먼트(1012)) 위로 호버(hover)한다. 제스처(1006)로 상기 제2 오브젝트 위를 호버하는 동안, 상기 전자 디바이스는 그 다음 음성 명령 발언(1017) "왼쪽(Left)"을 상기 제2 오브젝트로 적용하는 것이 가능하고, 상기 수정된 제2 오브젝트(1013)를 초래하는 회전 모드에 존재하는 동안 상기 제2 오브젝트가 왼쪽으로 회전하도록 한다. 즉, 상기 일단 회전 모드(또는, 사이징(sizing), 필터링(filtering), 위치 결정 등과 같은 임의의 다른 모드)에서, 발언된 명령들은 액션들로서 인식 및 해석되고, 상기 입력 메커니즘(일 예로, 입력 메커니즘(124), 도 2) 및 상기 디스플레이된 오브젝트에 대한 상기 호버 위치를 인식하는 컨텍스트 인터액션 프로세싱을 기반으로 상기 제스처들을 이용해 적용된다.

도 12a-도 12b는 몇몇 실시 예들에 따른, 온-스크린(on-screen) 사용자 인터페이스(user interface: UI)가 오프 스크린(off screen) UI/프로세스들과 인터액트할 수 있도록 하는 일 예를 도시하고 있다. 도시된 바와 같이, 상기 컨텍스트 인터액션 프로세싱은 사용자들이 복수의 메뉴들을 네비게이트하는 대신에, 호버 입력 플러스 음성 입력이 어플리케이션에 걸쳐 연속적인 음성을 허용하는 것을 제공한다. 도 12a에서, 상기 컨텍스트 인터액션 프로세싱을 사용하는 전자 디바이스(일 예로, 전자 디바이스(120), 도 2)는 "add to playlist serene"의 발언(1215) 및 제스처(1206)를 사용하여 상기 호버 제스처(1205)에 의해 첫 번째 앨범(1210)(첫 번째 UI)으로부터 선택된 트랙(1220)을 재생리스트 "serene"(1230)에 추가할 수 있다. 도 12b에서, 상기 사용자는 상기 명령을 반복할 필요는 없지만, 두 번째 앨범(1211)으로부터 상기 호버 제스처(1207)에 의해 선택된 다른 트랙(1221)을 동일한 재생리스트 (serene 재생리스트 (1230))에 추가시키기 위해서 상기 음성 명령을 간략화시킬 수 있다 (발언(1217), "and this one").

도 13a-도 13c는 몇몇 실시 예들에 따른, 공간 태스크(task)들을 효율적으로 수행하는 예들을 도시하고 있다. 몇몇 실시 예들에서, 호버 입력과 같은 공간 입력 방식들에 의해 제공되는 컨텍스트와 함께 음성 입력은, 공간 태스크들을 보다 명확하고 효율적으로 수행할 수 있도록 한다. 도 13a는 디스플레이(140) 상에 디스플레이되는 컨텐트 엘리먼트(1310)(일 예로, 사진)에 적용된 "pickup" 의 음성 발언(1315)과 함께 상기 호버 제스처(1305)를 도시하고 있다. 상기 컨텍스트 인터액션 프로세싱은 상기 컨텐트 엘리먼트(1310)를 선택하고, 드래그(drag)하고, 드롭(drop)/배치하는 액션을 제공하기 위해 픽업, 드래그, 드롭, 여기에 드롭(drop here) 등과 같은 명령들을 제공한다. 즉, 상기 컨텍스트 인터액션 프로세싱은 상기 컨텐트 엘리먼트(1310)의 선택, 드래그 및 드롭의 결정된 의도를 제공한다. 사용자가 자신의 손가락을 화살표(1320) 방향으로 움직이고 제스처(1306)에서 정지하면, 상기 컨텐트 엘리먼트(1310)는 상기 입력 메커니즘(일 예로, 입력 메커니즘(124), 도 2) 및 상기 컨텍스트 인터액션 프로세싱을 사용하여 그 위치에 링크된다. 상기 사용자가 상기 발언(1316) "Drop" (또는 "drop it here" 등)을 제공하고 제스처(1307)가 나타내는 바와 같이 그 손을 멀리 이동시키면, 상기 컨텐트 엘리먼트(1310)는 이제 그 새로운 위치에 앵커(anchor)된다.

도 13b에서, 픽업, 그 후 드롭(드래그 없음)(Pick Up, Then Drop (no Drag)) 음성 발언들(발언(1315) "pickup" 및 발언(1316) "drop") 과 같은 상기 명령들은 디스플레이(140) 상의 사진을 선택 및 드롭하기 위한 액션을 제공한다. 컨텐트 엘리먼트(1310)는 일 예로 하이라이트를 획득하지만, 제자리에 남아 있다. 상기 사용자는 자신의 손가락을 제스처(1308)에 대한 호버 주위로 (일 예로, 화살표(1321)의 방향으로) 움직이고, 그리고 그들이 적절한 위치를 발견하면(find) 발언(1316) "drop"를 말한다. 컨텐트 엘리먼트(1310)는 그리고 나서 상기 새로운 위치로 "텔레포트(teleport)"된다.

도 13c에서, 상기 컨텍스트 인터액션 프로세싱은 직접 명령들을 제공한다. 도시된 바와 같이, 상기 사용자는 제스처(1309)로 유용한 공간을 포인트하고, "Dock photos here"의 음성 발언(1319)을 사용하고, 상기 컨텍스트 인터액션 프로세싱을 사용하는 전자 디바이스(120)(도 2)는 상기 컨텐트 엘리먼트들(1311)(일 예로, 사진들의 그룹 등)을 새로운 위치로 이동시킨다.

도 14는 몇몇 실시 예들에 따른, 액션을 완료하기 위해 사용되는 서비스의 명확화의 일 예를 도시하고 있다. 상기 예시는 어디에서, 호버 입력(일 예로, 제스처(1405))이 액션을 실행하는 동안 사용될 서비스(1410)를 (복수의 서비스들 중에서) 명확하게 하는 메카니즘으로 동작하는 지를 도시하고 있다. 음성 전용 인터페이스에서, 사용자가 상기 전자 디바이스(120) (도 1)에게 태스크를 완료하기를 요청할 경우, 상기 전자 디바이스는 상기 액션을 달성할 수 있는 서비스들 중 하나를 선택함으로써 상기 액션을 완료할 것이다. 상기 사용자가 발언(1415) "Play Halo by Beyonce"를 제공하는 경우 Beyonce의 노래를 재생하기 위해서, 상기 전자 디바이스는 상기 디폴트 어플리케이션(일 예로, Google Play)을 선택하여 SPOTIFY® 또는 AMAZON® 음악과 같은 다른 서비스들을 통해 그 트랙을 재생할 것이다. 상기 사용자가 특정 어플리케이션을 통해 상기 트랙을 재생하는 것을 선호할 경우, 그들은 그들의 음성 명령 "Play Halo by Beyonce using Spotify"에서 명시적으로 동일하게 언급해야 한다. 몇몇 실시 예들에서, 상기 사용자는 대신에 호환 가능한 서비스 (일 예로, 제스처(1405))를 위한 아이콘 위로 호버할 수 있고, 상기 위로 호버된 서비스로 자동으로 채널되는(channeled) 액션 (발언(1415))을 말할 수 있다. 도시된 바와 같이, 상기 컨텍스트 인터액션 프로세싱은 상기 전자 디바이스(120)(도 2)가 상기 디폴트 서비스 또는 다른 서비스 옵션들 대신 상기 선택된 서비스(1410)를 통해 상기 트랙(1411)을 재생하도록 한다.

도 15a-도 15d는 몇몇 실시 예들에 따른, 실시간 음성 입력을 기반으로 하는 UI의 다이나믹한 개선(dynamic refinement)의 예시들을 도시하고 있다. 모든 인터페이스/방식은 그 고유의 강점 및 약점을 가진다. 몇몇 인터페이스들/방식들은 다른 인터페이스들/방식들 보다 특정 태스크들에서 더 우수하다. 호버/터치/포인팅 인터페이스들은 스크린 공간 입력 방식들이다. 이러한 방식들은 그 스크린 내에서 유용한 선택들로부터의 선택 및 명확화에 있어서 우수하지만, 그들의 효율성은 종종 그들의 시각적인 선택들로 한정된다. 일반적으로, 이러한 방식들은 현재의 페이지/스크린에서 제공되지 않는 선택들을 획득하기 위해 복수의 메뉴 아이템들을 거쳐야 할 필요가 있을 것이다. 이에 반해, 음성 입력은 추상적인 시작 포인트들에 대해 우수하며, 스크린 내에서 적합한 것으로 한정되지 않는다. 사용자들은 음성 쿼리를 사용하여 현재 단일 단계로 스크린에 보여지는 것이 가능하지 않는 엘리먼트들에 대한 인터액션을 시작할 수 있다. 이에 반해, 그들은 공간 명확화 및 공간 선택에 대해서는 우수하지 않다. 몇몇 실시 예들에서, 다이나믹 개선은 빠르고 직관적인 인터액션을 위해 각 인터페이스의 강도로 진행된다. 사용자들이 상기 사용자들의 명령들을 말하기 시작함에 따라, 상기 입력 메커니즘(일 예로, 입력 메커니즘(124), 도 2) 및 컨텍스트 인터액션 프로세싱을 사용하는 시각 인터페이스는 상기 실행된 명령의 컨텍스트 내에서 적합한 엘리먼트들을 필터링하고 그 자신을 상기 실행된 명령의 컨텍스트 내에서 적합한 엘리먼트들로 재구성한다. 상기 사용자가 말을 많이 하면 할수록, 상기 인터페이스는 일 예로 머신 러닝 모델(machine learning model)을 사용하는 것을 기반으로 더 많이 개선된다. 동시에, 사용자들은 상기 사용자들의 손을 사용하여 상기 인터페이스를 호버하고 필터링하여 선택을 위한 최종 선택에 도달한다.

하나의 예시 실시 예에서, 사용자가 컨텐트 엘리먼트들(1510)(일 예로, 사진들)을 통해 브라우징하고 있는 중일 때, 그들이 발언(1515) "Show me music by Beyonce"을 말하면, 상기 전자 디바이스(일 예로, 전자 디바이스(120), 도 2)는 상기 컨텍스트 인터액션 프로세싱을 사용하여 music 및 Beyonce와 같은 큐들을 식별하여 상기 시각 인터페이스가 Beyonce의 음악 앨범들(1511)만을 보여주도록 재구성한다. 그리고 나서, 상기 사용자는 앨범(1521) 위에 제스처(1505)로 호버하고 발언(1516) "play that"을 말하고, 이는 "play" 액션을 실행하기 위한 서비스들(1512)의 다른 트레이(tray)(1512)를 발생시킨다. 상기 사용자는 이 액션을 완료하기 위해 상기 전자 디바이스가 상기 디폴트 서비스를 선택하도록 하기 위해 걸어 갈 수 있거나, 또는 상기 사용자는 제스처(1506)로 선택된 서비스(음악 서비스(1520)) 위를 호버하고 상기 발언(1517) "On this"를 말할 수 있다. 여기서, 상기 음성 입력은 보다 양호한 호버 인터액션을 위한 상기 인터페이스의 연속적인 개선에 대한 촉매로서 동작한다.

도 16a-도 16b는 몇몇 실시 예들에 따른, 컨텍스트 쿼리(query)들의 예시들을 도시하고 있다. 몇몇 실시 예들에서, 상기 전자 디바이스(일 예로, 전자 디바이스(120), 도 2)는 음성 + 커서 조합들에 대해 상기 컨텍스트 인터액션 프로세싱을 사용한다. 도시된 바와 같이, 상기 사용자는 포인팅 디바이스, 일 예로 인터액션에 대해 유용한 왼쪽 및 오른쪽 클릭을 가지는 마우스(1620)를 사용할 수 있다. 이 예시에서, 상기 마우스 상의 오른쪽 클릭은 지시된 컨텐트를 도와주는 음성/음성 인공 지능(artificial intelligence: AI) 프로세스를 불러오는 것에 대한 전용 입력으로서 사용된다.

도 16b에서, 상기 마우스가 오른쪽 클릭(1621)될 때, 기존의 응답은 마우스 움직임들의 결과로서 상기 커서에 의해 포인트되는 오브젝트에 대해 처리될 수 있는 액션들의 메뉴(1640)를 제공하는 것이다. 하지만, 몇몇 실시 예들에서는, 상기 사용자가 선택하는 많은 액션들이 존재할 수 있다.

도 16a에서, 음성 명령 발언(1625)으로, 상기 전자 디바이스는 추가적인 사용자 입력들 없이 즉각적인 액션을 취할 수 있다. 상기 예시 실시 예에서, 상기 디스플레이 디바이스(1610) 상에서, 상기 마우스 커서(1605)는 텍사스, 파리에 관한 정보(1630)의 디스플레이 상에 단어 "Texas"를 포인트하고 있는 중이다. 상기 사용자는 상기 마우스(1620)에서 오른쪽 클릭(1621)을 수행하고, 상기 "how far away is it"의 발언(1625)을 제공하고, 이는 또한 상기 마우스 커서 색상, 모양, 강도 등을 마우스 커서(1606)로 수정할 수도 있다. 몇몇 실시 예들에서, 상기 컨텍스트 인터액션 프로세싱은 광 문자 인식(optical character recognition: OCR) 앱 등을 사용하여, 상기 정보(1630)의 디스플레이를 초래했던 검색 용어를 알게 됨으로써 상기 디스플레이(140) 상에 도시되는 것을 결정할 수 있다. 상기 컨텍스트 인터액션 프로세싱은 상기 전자 디바이스가 지도 앱, 거리 앱, 인터넷 앱 등을 사용하여 파리, 텍사스가 상기 사용자의 현재 위치까지 얼마나 멀리 떨어져 있는지를 결정하여 상기 전자 디바이스의 IP 어드레스 등을 사용하여 상기 사용자의 알려진 위치를 사용하여 거리를 결정하도록 하고, 사익 디스플레이(1610)는 상기 결과(1631)를 보여준다.

도 17은 몇몇 실시 예들에 따른, 컨텍스트 쿼리의 다른 예를 도시하고 있다. 도시된 예시에서, 상기 마우스 커서(1605)는 1개의 명칭("Paris")이 다양한 인스턴스(instance)들에 매핑될 수 있을 때, 모호성을 해결하는 것에 도움을 주기 위해 음성과 함께 사용된다. 상기 마우스 커서(1605)에 의해 포인트되는 텍스트(1630)는 상기 컨텍스트 인터액션 프로세싱을 사용하는 전자 디바이스(일 예로, 전자 디바이스(120), 도 2)가 프랑스의 수도인 파리 대신, 상기 사용자가 관심을 가지는 것이, 미국 텍사스에서의 파리라는 것을 이해하는 것을 도와준다. 즉, 상기 컨텍스트 인터액션 프로세싱은 상기 디스플레이된 텍스트를 결정하고 그 정보를 사용하여 상기 사용자의 의도를 결정하는데 도움을 줄 수 있다. 이 예시에서, 오른쪽 클릭(1621)은 상기 마우스 커서(1605)가 상기 정보(1630)를 포인트하는 것으로 이루어진다. 상기 마우스 커서는 상기 오른쪽 클릭(1621)으로부터 마우스 커서(1606)로 변경되고, 상기 사용자는 "How far away is PARIS"의 발언(1626)을 한다. 상기 컨텍스트 인터액션 프로세싱은 그리고 나서 상기 정보(1322)를 제공한다. 상기 커서가 상기 스크린에서 특정 영역을 포인트하고 있지 않을 때의 상황들에 대한 몇몇 실시 예들에서, 사용자가 상기 발언(1626) "How far away is PARIS"을 할 때, 상기 전자 디바이스(120)(도 2)는 여전히 상기 쿼리에 응답하기 위해 상기 스크린에 디스플레이되는 것의 컨텍스트를 사용하려고 시도할 것이다.

도 18은 몇몇 실시 예들에 따른, 조건 복수 선택(conditional mass selection)/인터액션의 일 예를 도시하고 있다. 몇몇 실시 예들에서, 상기 조건 복수 선택/인터액션은 음성 + 포인터 입력들을 사용한다. 이 예시에서, 복수의 오브젝트들(일 예로, 음악 트랙들/파일들)이 상기 디스플레이(140) 상에 도시된다. 이 예시 실시 예에서, 상기 음성 입력 발언(1805)은 상기 컨텍스트 인터액션 프로세싱을 사용하는 전자 디바이스(120)(도 2)가 "Selecting" 모드(1810)로 들어가는 것을 가능하게 한다. 상기 사용자는 마이크로폰 선택(1821) 및 상기 디스플레이(140) 상에 디스플레이되는 포인터를 호출하는 포인팅 엘리먼트(1822)를 가지는 제어 디바이스(1820)(일 예로, 원격 제어)를 사용하고 있는 중이다. 상기 사용자는 상기 제어 디바이스(1820)를 사용하여 디스플레이되는 하나 이상의 오브젝트들을 포인트할 수 있다. 결과적으로, 상기 초기 음성 명령에 의해 레이 아웃되는 조건들을 만족시키는 이들 오브젝트들이 선택된 오브젝트들이 된다. 이 예시에서, 상기 사용자는 "Make selection, exclude blues"의 발언(1805)을 제공한다. 상기 예시에서, 상기 블루 엘리먼트들(1801)은 제외되는 것이 바람직하다. 상기 사용자는 상기 포인팅 엘리먼트(1822)를 호출하는 디스플레이(140)를 포인트하고, 상기 경로(점선)(1815)에 의해 도시된 바와 같이 상기 포인터를 이동시키는 선택을 한다. 상기 선택된 엘리먼트들은 아웃 라인 박스들(1802)과 같이 도시되어 있지만, 상기 블루 엘리먼트들(1801)은 선택되지 않는다.

도 19a-도 19b는 몇몇 실시 예들에 따른, 지시사(demonstrative)들을 사용하여 보다 대화형인 인터페이스(more conversational interface)를 제공하는 일 예를 도시하고 있다. 이 예시적인 실시 예에서, 상기 컨텍스트 인터액션 프로세싱을 사용하는 전자 디바이스(120)(도 2)는 상기 제어 디바이스(1820)의 포인팅 엘리먼트(1822)를 사용하여 시각 정보의 일부를 식별하고, 여기서는 다음 음성 명령이 추가로 동작 할 수 있다. 도시된 바와 같이, 상기 디스플레이(140) 상에 도시된 오브젝트는 비디오 상에 셔츠(1910)를 착용한 사람을 포함할 수 있다. 상기 사용자는 상기 제어 디바이스(1820)의 마이크로폰 선택(1821)을 사용하여 발언(1915) "pause"을 말하여 상기 비디오를 일시 정지시킨다. 상기 사용자는 상기 포인팅 엘리먼트(1822)를 가지고 상기 셔츠(1910)에서 포인트하고(1923), "What is that"의 발언(1916)을 한다. 상기 컨텍스트 인터액션 프로세싱은 상기 셔츠(1911)에 관한 정보(1930)와 함께 상기 셔츠(1911)의 디스플레이를 보여준다. 일 실시 예에서, 상기 전자 디바이스 및 컨텍스트 인터액션 프로세싱은 상기 오브젝트 (상기 디스플레이(140) 상에 보여지고 있는 셔츠(1910))를 식별하고, (일 예로, 상기 인터넷, 제품 배치들의 데이터베이스 등을 사용하여) 상기 오브젝트에 대한 룩업(lookup) 또는 검색을 수행하여 상기 오브젝트를 인식하고, 추가적인 정보를 검색하는 것이 필요할 경우 추가적인 검색을 수행한다.

도 20은 몇몇 실시 예들에 따른, 컨텍스트 지능(contextual intelligence)을 다양한 액티비티(activity)들에 추가하기 위해 지시사들을 사용하는 일 예를 도시하고 있다. 상기 전자 디바이스(일 예로, 전자 디바이스(120)) 및 컨텍스트 인터액션 프로세싱을 사용하여, 지시사들은 선택, 제외, 할당, 쿼리 등과 같은 다양한 액티비티들에 컨텍스트 지능을 추가하는데 사용될 수 있다. 이 예시에서, 선택 가능한 오브젝들의 집합(일 예로, 컨텐트 엘리먼트들)(2010)이 디스플레이(140) 상에서 도시된다. 상기 사용자는 마이크로폰 선택(1821)과 함께 제어 디바이스(1820)를 사용하고, "Select"의 발언(2015)을 제공한다.

도 21a-도 21b는 몇몇 실시 예들에 따른, 음성 제어를 사용하여 컨텐트를 선택하지만 상기 선택으로부터 실시간으로 엘리먼트들을 제외하는 일 예를 도시하고 있다. 상기 발언(2015)(도 20)이 제공되면, 상기 제어 디바이스(1820)는 상기 "Select" 의 발언(2915)과 "This and This"의 발언(2115)과, "Not this"의 발언(2116) 및 "and this and this and this"의 발언(2117)를 조합하기 위해 상기 발언(2115)을 가지는 경로(2123)를 선택할 수 있다. 상기 발언(2116)은 상기 경로(2123)를 따라 오브젝트(2101)를 제외한다. 그리고 나서 상기 최종 선택(2125)이 상기 디스플레이(140) 상에 남겨진다.

도 22는 몇몇 실시 예들에 따른, 인터액션 특성들의 중단되지 않는, 실시간 수정의 일 예를 도시하고 있다. 이 예시에서, 상기 전자 디바이스(일 예로, 전자 디바이스(120)) 및 컨텍스트 인터액션 프로세싱은 음성 + 터치 입력들을 사용한다. 이 예시 실시 예에서, 상기 전자 디바이스 상에서 실행중인 드로잉 어플리케이션(drawing application)이 상기 디스플레이(140) 상에 제시된다. 상기 사용자는 상기 드로잉 어플리케이션을 사용하여 곡선(2210)을 그린 바 있다. 상기 사용자가 일 예로, 드로잉 도구 및 페인팅 색상 둘 다를 변경하는 것을 원할 때, 그들은 드로잉하기를 원하는 위치에서 제스처(2205)로 상기 스크린을 터치하고, 또한 동시에 "Water color brush RED" 라고 말하는 발언(2215)을 함으로써 그를 달성할 수 있다. 상기 사용자는 상기 색상과 도구를 변경하기 위해 팔레트들을 별도로 할 필요가 없습니다. 상기 컨텍스트 인터액션 프로세싱은 상기 사용자가 제스처(2206)로 그들의 손가락을 움직일 때 상기 새로운 색상 및 다른 드로잉 형태들을 상기 드로잉(2211)으로 제공한다.

도 23a-도 23b는 몇몇 실시 예들에 따른, 음성 플러스 컴퓨터 비젼(voice plus computer vision)의 일 예를 도시하고 있다. 이 예시에서, 상기 전자 디바이스(일 예로, 전자 디바이스(120)) 및 컨텍스트 인터액션 프로세싱은 음성 + 비전(Voice + Vision) 입력들을 사용한다. 상기에서 설명한 바와 같이, 컨텍스트를 스크린 UI 엘리먼트들(가상 오브젝트들)에서 명확하게 하는 방식으로 사용한다. 몇몇 실시 예들에서, 컨텍스트는 상기 컨셉(concept)을 물리 오브젝트들로 확장하는데 사용될 수 있다. 상기 사용자의 일상 생활에는 물리 오브젝트와 그들의 인터액션이 전자 디바이스 내의 가상 인터액션을 개시하는 몇몇 시나리오들이 존재한다. 일 예로, 상기 사용자가 그들의 냉장고에서 큰 차 한 병을 마저 마셨을 때, 그들은 그들의 전자 디바이스(120)에서 음성 어시스턴트를 호출하여 동일한 것으로 6팩을 주문하도록 요청할 수 있다. 상기 물리 오브젝트와의 인터액션이 가상 인터액션을 호출한다고 할지라도, 전자는 어떤 방식으로든 후자를 돕거나 향상시키지는 않는다.

가정의 많은 스마트 디바이스들 상에 카메라가 널리 보급됨에 따라, 상기 전자 디바이스 및 카메라의 개선된 연산 능력은 음성 입력에 대해 시각 컨텍스트를 제공하기 위한 실행 가능한, 추가적인 방식이 된다. 컴퓨터 비젼, 머신 러닝 및 딥 러닝(deep learning) 분야들에서의 발전은 상기 카메라의 시야 내의 오브젝트들의 검출 및 라벨링(labeling)을 허용한다. 이 능력은 음성 입력과 함께 사용될 수 있는 풍부한 추가적인 컨텍스트를 제공할 수 있다. 도시된 바와 같이, 상기 사용자는 상기 전자 디바이스(120)의 카메라(128)를 사용하여 상기 디스플레이에 오브젝트(바나나)(2310)를 보여주면서 음성 어시스턴트에게 "What can I cook with this?"라고 질의하고, 그러면 상기 컨텍스트 인터액션 프로세싱은 상기 장면(scene) 상에서 상기 오브젝트(2310)를 검출하고, 상기 발언 명령('cook' 및 'this')에 포함된 키워드들 및 자연어 프로세싱(natural language processing)을 사용하여 상기 사용자의 의도가 무엇인지를 결정한다. 상기 전자 디바이스(120)는 그리고 나서 상기 사용자가 보거나 지켜보도록 선택할 수 있는 일련의 레시피로서 정보(2320)를 텍스트 또는 비디오들로 보여준다. 상기 전자 디바이스(120)는 상기 사용자의 삶에 보다 적합하도록 그 추천 사항들을 적합하게 조정하기 위해 이력, 위치, 일 예로 스마트 냉장고에서 유용한 아이템들, 카렌다 어플리케이션 상의 다가오는 이벤트들 등과 같은 상기 사용자에 관한 다른 정보를 사용할 수 있다. 전자 디바이스(120)는 그 뷰(view)에서 검출된 오브젝트들의 리스트, 그들의 상대적인 사이즈들 및 상기 명령의 컨텍스트의 조합을 사용하여 상기 사용자가 그들의 명령을 지시하고 있는 중일 가능성이 가장 높은 오브젝트를 결정할 수 있다. 다양한 타입들의 복수의 오브젝트들이 상기 뷰에서 보는 것이 가능한 상황들에서(일 예로, 당근들 및 토마토들), 전자 디바이스(120)는 상기 선택을 명확하게 하기 위해 음성 합성을 통해 상기 사용자와 인터액트할 수 있다.

도 24a-도 24b는 몇몇 실시 예들에 따른, 음성 플러스 컴퓨터 비젼의 다른 예를 도시하고 있다. 음성 플러스 컴퓨터 비젼을 사용할 경우, 몇몇 실시 예들은 온라인 쇼핑을 위해 사용될 수 있다. 일 예로, 상기 사용자가 마지막 티 백을 방금 사용했다면, 그들은 전자 디바이스(일 예로, 전자 디바이스(120))의 카메라(일 예로, 카메라(128))에서 상기 박스(2410)(또는 패키징(packaging))를 포인트할 수 있고, "add a couple of these to my AMAZON^® cart" 또는 "Buy this" (2405)의 발언을 말할 수 있다. 상기 컨텍스트 인터액션 프로세싱은 AMAZON^®의 데이터베이스와 레이블 매칭을 수행하고, 상기 제품을 식별하여 그를 카트에 추가한다. 도시된 바와 같이, 디스플레이(140)는 그리고 나서 상기 구매한 아이템들(2420)을 디스플레이하고, 추가적인 정보(2406)를 제공한다. 몇몇 실시 예들에서, 자연어 프로세싱은 상기 카트에 얼마나 많은 것(일 예로, 커플)을 추가할 지를 결정하기 위해 사용된다. 다른 실시 예들에서, 상기 전자 디바이스(120)는 음성 합성을 통해 상기 사용자와 왔다 갔다 인터액트하여 원하는 배송 날짜, 배송 주소 등과 같은 상기 주문에 대한 보다 정확한 세부 사항들을 획득할 수 있다.

도 25a-도 25b는 몇몇 실시 예들에 따른, 음성 플러스 컴퓨터 비젼의 또 다른 예를 도시하고 있다. 일 예에서, 사용자는 지역 박물관 전시회를 위한 브로셔(2520)를 포인트하고 "add this to my calendar"의 발언을 말할 수 있다. 상기 컨텍스트 인터액션 프로세싱을 사용하는 전자 디바이스(일 예로, 전자 디바이스(120), 도 2)는 상기 브로슈어(2520) 상의 텍스트 세부 사항들을 리드하기 위해 상기 프레임(2510) 상에서 OCR을 수행하고, 언어 프로세싱을 수행하여 시간 및 날짜와 같은 세부 사항들(2525)을 결정하고, 이 이벤트(event)를 상기 전자 디바이스의 카렌다 앱으로 또는 복수의 디바이스들을 통해 해당하는 시간 및 날짜에 추가한다. 음성 + 비전을 포함하는 이러한 모든 시나리오들에서, 상기 전자 디바이스(120)가 입력을 위해 상기 카메라를 언제 사용하는지 어떻게 알 수 있는지에 관한 의문이 발생할 수 있다. 음성 입력이 시작되면, 상기 전자 디바이스(120)는 호버, 커서, 포인트 터치 등과 같은 다른 입력 중 어느 하나에서의 연관이 존재하는지 확인한다. 이러한 다른 입력 방식들 중 어느 하나와도 연관되지 않으면, 그것은 어떤 비전 기반 정보도 상기 사용자에 의해 전달되지 않았던 중인지를 체크하기 위해 상기 카메라 출력을 사용하기로 결정한다.

도 26은 몇몇 실시 예들에 따른, 일 예로 LEAP MOTION^®손 추적(hand tracking)을 사용하여 추적된 포인트들을 사용하는 일 예를 도시하고 있다. 몇몇 실시 예들에서, 복수의 매치(match)들에 대한 시각 명확화는 전자 디바이스 및 상기 컨텍스트 인터액션 프로세싱을 사용하여 수행된다. 상기 신체의 일부(일 예로, 손(2600))를 기반으로 하는 분류는 컴퓨터 비젼을 사용하여 상기 손가락들(집게 손가락(2610), 가운데 손가락(2615), 약손가락(2620) 및 새끼 손가락(2625)), 엄지 손가락(2605), 손바닥 위치(2650) 및 손목 위치(2640) 등과 같은 신체의 다른 부분들을 구별하는 것이 가능하다. 추가적으로, 다른 뼈들(2630)(일 예로, 원위(distal)(2631), 중위(intermediate)(2632), 근위(proximal)(2633) 및 중수골(metacarpal)(2634)), 말단(tip) 위치(2611) 및 팔(2660)의 위치들 역시 구별될 수 있다.

도 27a-도 27b는 몇몇 실시 예들에 따른, 손바닥/손가락과 다른 전자 디바이스와 오버랩되는 검출되는 디바이스의 일 예를 도시하고 있다. 이 예시에서, 상기 사용자는 스마트 워치(2730)를 착용하고 전자 디바이스(120)(일 예로, 스마트 폰)를 들고 있는 중이고, "order me this" (전화기를 구매하는 것을 의미하는)라고 말한다. 이 시나리오에 포함된 3 개의 디바이스들, 상기 디스플레이(140), 스마트 워치(2730) 및 전자 디바이스(120) (일 예로, 스마트 폰) 각각이 스마트 디바이스들이란 것을 고려하면, 그들은 그들 고유의 지능형 어시스턴트(intelligent assistant)를 각각 실행하고 있는 중일 수 있다. 결과적으로, 그들은 그들이 말하기 시작하면서 모두 사용자의 음성 명령을 듣기 시작할 수 있다. 그러나, 오직 디바이스(140)만 음성을 상기 카메라와 조합함으로써 상기 디바이스(140)가 지원하는 시각 명확화로 인해 'this'와 같은 지시사들의 사용을 지원한다. 따라서, 상기 음성 명령은 디바이스(140)에 의해서만 완료되고, 이에 반해 다른 디바이스들은 그렇지 않다. 상기 카메라(일 예로, 카메라(128), 도 2)는 넓은 렌즈를 가지고, 동일한 장면에서 많은 매칭 아이템들이 존재할 수 있기 때문에, 상기 관심이 있는 아이템을 시각적으로 명확하게 하는 특정 수단을 제공하는 것이 중요해진다. 상기 고려되는 특정 케이스는 스마트 워치(2730)를 착용하고 상기 전자 디바이스(120)(일 예로, 스마트 폰)를 그 손에 들고 상기 디바이스에 명령하는, 일 예로, "Can you order this?"와 같이 명령하는 사용자의 케이스이다. 이 예시에서, 상기 사용자는 상기 컨텍스트 인터액션 프로세싱으로 그들이 주문하는 것에 관심이 있는 아이템이 상기 스마트 워치(2730)가 아니라 상기 전자 디바이스(120)(스마트 폰)이라는 것을 표현할 필요가 있다.

상기 컨텍스트 인터액션 프로세싱이 상기 카메라 디바이스(일 예로, 카메라(128), 도 2)를 사용하여 상기 스크린(140) 상에서 상기 전자 디바이스(120) 및 스마트 워치(2730)를 검출 할 때, 상기 컨텍스트 인터액션 프로세싱은 또한 상기 디바이스들 중 어느 디바이스가 상기 손바닥 또는 손가락들(2720)의 영역과 오버랩되는지 결정할 수 있다(손목 영역(2735)과 오버랩되는 것과는 대조적으로). 디폴트로, 상기 컨텍스트 인터액션 프로세싱은 상기 사용자가 그들이 주문하려고 노력중인 오브젝트를 보유하고 있을 것이라고 가정하고, 따라서 상기 전자 디바이스(120)(스마트 폰)를 관심있는 아이템으로서 받아들이고 동일한 것을 주문한다고 가정할 수 있다.

도 27b에 도시된 바와 같이, 상기 사용자가 다른 손으로 포인트하는 것이 무엇인지를 기반으로 하는 추가적인 식별. 이 실시 예에서, 상기 컨텍스트 인터액션 프로세싱은 다른 손(2740)의 집게 손가락이 포인트하는 방향(2745)을 검출하고, 상기 타겟 아이템을 식별하는 방식으로서 그것이 포인트하는/그것과 오버랩되는 아이템을 검출하고 그를 사용한다.

도 28a-도 28c는 몇몇 실시 예들에 따른, 장면(scene)에 포함된 모든 아이템들을 식별하고 선택 및 명확화를 위해 명시적으로 제공하는 일 예를 도시하고 있다. 몇몇 실시 예들은 두 번째 액션에서 명시적인 선택을 제공한다. 이 예시에서, 상기 컨텍스트 인터액션 프로세싱은 장면에 포함된 모든 아이템들을 식별하고, 음성 또는 다른 입력 방식들을 통해 두 번째 액션에서 상기 사용자에 의한 선택 또는 명확화를 명시적으로 고려한다. 도시된 바와 같이, 상기 사용자는 전자 디바이스(120)를 그 손에 들고 있는 중이고, 스마트 워치(2730)를 착용하고 있는 중이다. 상기 전자 디바이스(일 예로, 전자 디바이스(120), 도 2) 및 카메라(일 예로, 카메라(128))를 사용하는 컨텍스트 인터액션 프로세싱은 디스플레이(140)에 도시된, 상기 캡쳐된 전자 디바이스(120)(스마트 폰) 및 손바닥 및 손가락들 위치(2720), 및 손목 위치(2735)를 결정한다. 상기 컨텍스트 인터액션 프로세싱은 옵션 1 및 옵션 2로 상기 스마트 폰(2820)을 첫 번째 오브젝트로 식별하고, 상기 스마트 워치(2830)를 두 번째 오브젝트로 식별한다. 음성 발언(2805)은 상기 마이크로폰(일 예로, 마이크로폰(122))에 의해 수신된다. 일 예로, 상기 발언(2805)은 "select option 1"일 수 있다. 상기 컨텍스트 인터액션 프로세싱은 그리고 나서 상기 스마트 폰(2820)을 포함하는 옵션 1을 보여줄 수 있고, 추가적인 선택들(2840), 일 예로 쇼핑 시나리오에서, 확인된 구매를 제공한다.

도 29는 몇몇 실시 예들에 따른, 2개의 제스처 입력 기술들과 함께 음성 입력을 사용하는 일 예를 도시하고 있다. 이 예시에서, 상기 전자 디바이스(일 예로, 전자 디바이스(120)) 및 상기 컨텍스트 인터액션 프로세싱은 음성 + 호버 + 터치 입력들을 사용한다. 이 예시 실시 예에서, 상기 음성 입력 이외에, 2개의 제스처 입력 기술들은 추가적인 컨텍스트를 제공한다. 상기 2개의 제스처 입력들 중 하나는 상기 기본 입력으로 동작하고, 나머지는 상기 보조 입력으로 동작한다. 사용자가 비디오 파일과 같은 오브젝트를 볼 때, 그들은 상기 기본 입력 - 이 특별한 케이스에서는 터치 - 을 사용하여 터치 스크린에서 비디오를 탭(tap)하고 그를 재생하는 것을 시작할 수 있다. 상기 사용자가 상기 비디오 파일에 대해 충분히 알지 못하는 이벤트에서, 그들은 그들이 상기 비디오에서 수행할 수 있는 태스크들에 대한 더 많은 옵션들을 살펴보기 위해서 상기 비디오 위로 호버하고 음성을 사용할 수 있다. 호버 + 음성을 보조 입력으로 사용하는 이 방식은 상기 사용자가 그를 요청한 때에만 보다 많은 정보를 제공하지만, 상기 사용자가 이미 무엇을 할지를 알 때에는 방해가 되지는 않는다. 도시된 바와 같이, 상기 사용자가 컨텐트 엘리먼트(2910)(일 예로, 비디오 파일) 상의 제스처(2905)(일 예로, 입력 메카니즘(터치 스크린)(124), 도 2 상의 터치)를 사용하면, 상기 컨텐트 엘리먼트는 제스처(2905)를 기반으로 단지 재생될 수 있거나, 또는 상기 사용자는 상기 컨텐트 엘리먼트(2910) 위로 호버하는 두 번째 제스처(2906)와 함께 일 예로, "options" 의 발언(2915)을 하기로 선택할 수 있다. 상기 결과는 상기 컨텐츠 엘리먼트(2910)와 연관된 옵션들(2920)을 디스플레이하고 있는 중이다.

도 30은 몇몇 실시 예들에 따른, 복수의 음성 이네이블 디바이스(voice enabled device)들 간의 명확화의 일 예를 도시하고 있다. 음성 (가상) 에이전트(agent)들의 빠른 채택 및 가정의 많은 스마트 전자 디바이스들에 대한 그들의 추가에 따라, 가정의 복수의 디바이스들에서 그들의 보급은 여러 장치에서의 보급은 불가피하다. 음성 입력은 매우 많은 태스크들에 적합할지라도, 공간 선택에는 그다지 적합하지 않다. 일반적으로 음성 입력으로 공간 태스크들을 수행하는 것은 기껏해야 곤란하고 번거로운 경험으로 남아 있다. 하나의 예시 실시 예에서, 장식을 위해 벽에 셋업된 스마트 디지털 액자들(스마트 액자들(3010, 3020, 3030 및 3040))의 케이스에서와 같이, 음성 이네이블 디스플레이(voice enabled display)들의 클러스터(cluster)는 함께 유지된다. 상기 사용자가 이 디스플레이들의 클러스터 앞에 서 있으면서, 음성 명령(일 예로, "switch to my wedding album")를 말할 때, 일반적으로 상기 사용자가 그들의 명령이 어떤 디바이스를 타겟으로 하는 지를 결정하는 명확한 방식은 존재하지 않는다. 사용자들은 그들의 음성 명령에 추가적으로 이런 디바이스들의 명칭을 언급함으로써 상기 디바이스들간을 명확화하는 방식들을 사용할 수 있다. 이것이 작동할 수 있는 동안, 이것은 상기 사용자에서 상기 디바이스 명칭들 또는 다른 식별을 기억하는 부담을 준다. 다른 옵션은 상기 사용자의 이름이 각 디스플레이에 디스플레이될 수 있지만, 여전히 상기 디스플레이의 명칭을 리드하고 그를 다시 말하고 나서 상기 음성 명령들을 따라야만 하는 필요성은 직관적이지 않고 다루기 힘들다. 일반적으로 상기 사용자는 매 번 이 디바이스 명칭을 반복해야만 한다는 것에 유의하여야만 한다.

몇몇 실시 예들에서, 추가적인 방식을 통해 컨텍스트를 제공하는 것은 특정 디바이스로 명령들을 타겟팅하는 더 빠른 방식이다. 클러스터의 디스플레이들 간의 명확화를 위해 블록-대-스피크 모델(block-to-speak model)이 사용될 수 있다. 상기 클러스터에서 각 디바이스는 상기 전자 디바이스 바로 앞 영역의 장애물들을 검출하는 적외선과 같은 저렴한 센서, 비행 시간, 카메라 등으로 셋업될 수 있다. 몇몇 실시 예들에서, 상기 사용자는 스마트 디지털 액자(3030) 상에서 (터치 없이) 상기 센서를 차단하는 액션(3005)을 수행하여 상기 전자 디바이스와 맞물리게 하고 상기 차단된 디바이스로 음성 명령들을 말한다. 임계 값(일 예로, 1 인치 떨어져 있음, 2 인치 떨어져 있음, 5 인치 떨어져 있음 등) 내에서 그 센서들이 차단된 디바이스만 마이크로폰을 오픈하고 상기 사용자로부터의 말을 청취할 것이다. 상기 주변 디바이스들은 그들이 상기 사용자를 듣기에 충분히 가까이 존재할 지라도, 상기 음성 입력을 청취하지 않거나, 또는 프로세싱하지 않는다. 이 예시는 의도된 디바이스로 음성 입력을 타겟팅하는 방식으로 사용될 수 있다.

대한 실시 예들은 원격 제어 또는 제어 디바이스를 사용하는 터치 또는 포인팅이 상기에서 설명된 바와 동일한 효과를 달성하기 위해 차단에 대한 효율적인 대안들로서 사용될 수 있는 다른 방식들을 포함할 수 있다. 몇몇 실시 예들에서, 멀리서 포인팅되는 디스플레이의 센서를 차단하는 것이 사용되어 포인트-대-스피크 인터액션 모델(point-to-speak interaction model)을 초래할 수 있다. 상기 사용자는 전자 디바이스에서 그들의 손을 포인트하고 말하기 시작한다. 상기 음성 입력들은 상기 포인트된 디바이스를 타겟으로 한다. 이는, 일 예로, 사람, 그들의 팔의 방향을 검출하고, 사전 교정된 지도를 통해 어떤 전자 디바이스가 포인트 되는 지를 결정하기 위해 그 방향을 사용하는 KINECT^® 또는 유사한 타입의 카메라를 사용하여 달성될 수 있다.

도 31은 몇몇 실시 예들에 따른, 물리 제스처들과 결합하여 지시사들을 사용하는 일 예를 도시하고 있다. 몇몇 실시 예들에서, 각 개별 디바이스에서 유용한 음성 입력 대신에, 중앙 허브(hub)는 디바이스들의 클러스터에서 상기 모든 전자 디바이스들에 대한 음성 입력을 핸들링한다. 한 예시에서, 사용자는 걸어서 전체적으로 상기 클러스터로 말하기 시작하지만, 특정 디스플레이로 타겟팅하는 동안에만 차단/포인팅과 같은 물리 제스처들과 조합하여 지시사들을 사용한다. 이는 배치 명령(batch command)들을 발산할 수 있도록 한다. 도시된 바와 같이, 상기 전자 디바이스들(3140, 3141, 3142, 3143, 3144 및 3145)(일 예로, 전자 디바이스들(120))는 클러스터를 생성한다. 상기 사용자는 상기 클러스터에서 다른 디스플레이를 포인팅하는/차단하는 'this'의 각 발언과 함께 "load Anna's daughter pictures on this, this, and this"의 발언을 한다. 여기서, 상기 사용자는 전자 디바이스(3143)를 포인팅는 제스처(3105)와, 전자 장치(3144)를 포인팅하는 제스처(3106) 및 전자 디바이스(3145)를 포인팅하는 제스처(3107)를 가지는 "this"의 발언을 제공한다. 그 결과는 상기 의도된 전자 디바이스들(전자 디바이스들 3143, 3144 및 3145) 상에 상기 의도된 사진들(일 예로, Anna의 딸의 사진)을 디스플레이하는 것이다.

도 32는 몇몇 실시 예들에 따른, 큐(cue)들에 대한 demonstrable들을 사용하는 프로세스의 블록 다이아그램을 도시하고 있다. 일련의 논리적 단계들은 적절할 때 이미지 데이터를 사용하기 위해서 상기 음성 어시스턴트에게 큐들을 제공한다. 블록 3210에서, 사용자는 캡쳐되어 자연어 프로세싱 시스템(일 예로, 음성 인식 프로그램, 가상 에이전트, 인공 지능(artificial intelligence: AI) 시스템 등)으로 송신되는 음성 명령을 (일 예로, 마이크로폰(122)을 가지는 전자 디바이스(120)(도 2))로) 말하고, 상기 음성 명령의 텍스트 표기(transcription)는 컨텍스트 인터액션 프로세싱에 의해 수신된다 (일 예로, 시스템(100)(도 2), 디바이스(120), 컨텍스트 인터액션 앱(129) 또는 그 임의의 조합을 사용하여). 상기 프로세싱된 명령은 태그(tag)들(액션, 날짜, 시간, 사용할 어플리케이션 등)와 함께 상기 전자 디바이스에서 다시 수신된다. 블록 3220에서, 상기 명령의 서브젝트(subject)가 명백하면, 상기 전자 디바이스는 상기 액션을 실행하도록 진행한다. 반대로, 상기 명령의 서브젝트가 "this" 또는 "these"와 같이 demonstrable일 경우, 상기 전자 디바이스는 상기 명령을 실행하기에 충분한 정보를 가지고 있지 않다(즉, 상기 전자 디바이스는 수행할 액션이 무엇인지는 알고 있지만 누구에서 또는 무엇을 수행할지는 알지 못한다). 블록 3230에서, 프로세스(3200)는 다음과 같은 demonstrable들 중 하나를 기반으로 상기 모호성을 해결하지만, 그렇다고 이에 한정되는 것은 아니다 (즉, 상기 전자 디바이스는 다음과 같은 demonstrable들이 가능한 시나리오들이라는 것을 알고 있다):

1. 상기 사용자는 음성 + 호버를 통해 컨텍스트를 제공하고 있는 중이다(호버-대-스피크((hover-to-speak))

2. 상기 사용자는 음성 + 커서를 통해 컨텍스트를 제공하고 있는 중이다

3. 상기 사용자는 음성 + 포인트를 통해 컨텍스트를 제공하고 있는 중이다

4. 상기 사용자는 음성 + 터치를 통해 컨텍스트를 제공하고 있는 중이다.

블록 3240에서, 상기 시스템이 1-4에 리스트된 방식들 중 어느 하나라도 검출하지 않았을 경우 (일 예로, 추적 영역 내에 존재하지 않는 손, 스크린을 터치하고 있지 않은 손, 스크린 공간 내에 존재하지 않는 포인터 등), 상기 전자 디바이스는 상기 카메라(일 예로, 카메라(128))를 통해 제공되는 컨텍스트가 상기 옵션일 수 있다고(즉, 상기 카메라는 상기 컨텍스트를 위해 사용되는 매체이다) 결정한다. 상기 컨텍스트 인터액션 프로세싱을 사용하는 전자 디바이스는 (이미지가 이미 캡쳐되지 않았을 경우) 'this' 이 무엇을 의미하는지를 해결하는 추가적인 방식을 위해 상기 카메라로 스위치한다. 블록 3250에서, 상기 전자 디바이스는 상기 카메라를 활성화시키고 (이미지가 이미 존재하지 있지 않은 경우), 사진을 촬영하고, 오브젝트들을 스캔하고, 상기 오브젝트들을 식별한다. 상기 식별된 오브젝트가 인식되면 (일 예로, 데이터베이스 내의 엘리먼트와 매치되면 등), 상기 전자 디바이스는 그 오브젝트에 대한 상응하는 액션을 실행한다.

도 33은 몇몇 실시 예들에 따른, 컨텍스트 인터액션에 대한 프로세스(3300)의 블록 다이아그램을 도시하고 있다. 블록 3310에서, 음성 입력이 전자 디바이스(일 예로, 전자 디바이스(120), 도 2)에서 수신된다. 블록 3320에서, 상기 음성 입력의 모호성이 결정된다 (일 예로, "this" 또는 "that"의 음성 발언). 블록 3330에서, 상기 모호성은 컨텍스트 데이터를 기반으로 (일 예로, 디바이스 내 명확화: 음성 + 호버, 음성 + 커서, 음성 + 포인트, 음성 + 터치, 음성 + 쇼, 또는 그 조합들) 해결된다. 몇몇 실시 예들에서, 상기 컨텍스트 데이터는 이미지(일 예로, 디스플레이(140) 상의), 비-음성 입력(일 예로, 제스처, 포인팅 디바이스의 포인터, 터치 스크린 상의 터치(일 예로, 입력 메카니즘), 또는 그 조합 중 적어도 하나를 포함한다.

몇몇 실시 예들에서, 프로세스(3300)에서, 상기 모호성은 상기 음성 입력이 적용되는 오브젝트 또는 위치의 식별에 관련된다. 상기 이미지는 상기 전자 디바이스에 연결되는, 디스플레이 디바이스(일 예로, 디스플레이(140))에 디스플레이되는, 또는 그 조합의 카메라(일 예로, 카메라(128), 도 2)에 의해 캡쳐될 수 있다. 프로세스(3300)에서, 상기 비-음성 입력은 상기 전자 디바이스에 연결된 적어도 하나의 센서(일 예로, 입력 메카니즘(124))에 의해 센싱될 수 있다.

몇몇 실시 예들에서, 프로세스(3300)는 (일 예로, 카메라(128)에 의해 캡쳐된) 상기 오브젝트를 포함하는 이미지, 또는 상기 오브젝트를 나타내는 비-음성 입력(일 예로, 손 또는 손가락 제스처, 포인팅 디바이스의 포인터, 터치, 호버 등)을 기반으로 상기 오버젝트의 식별을 결정함으로써 상기 모호성을 해결하는 것을 더 포함할 수 있다. 프로세스(3300)에서, 상기 모호성은 지시사 결정자 (일 예로, 'this' 또는 'that'과 같은 용어들, 일 예로 도 19a-도 19b, 도 20, 도 31을 참조할 것)를 포함할 수 있으며, 상기 컨텍스트 데이터는 상기 오브젝트에 적용 가능한 액션(일 예로, 설정을 적용하는 것 등)에 영향을 주는 정보를 포함한다.

몇몇 실시 예들에서, 프로세스(3300)는 비-음성 입력이 발생하지 않았다고 결정될 경우 (일 예로, 다음 중 어떤 것의 발생도 없을 경우: 음성 + 호버 (호버-대-스피크)를 통해 컨텍스트를 제공하는 사용자), 음성 + 커서를 통해 컨텍스트를 제공하는 사용자, 음성 + 포인트를 통해 컨텍스트를 제공하는 사용자, 음성 + 터치를 통해 컨텍스트를 제공하는 사용자 등) 상기 카메라를 이네이블함으로써 상기 모호성을 해결하는 것을 더 포함할 수 있다.

몇몇 실시 예들에서, 프로세스(3300)에서, 상기 오브젝트는 상기 전자 디바이스 (그 자체) 일 수 있고, 상기 전자 디바이스는 상기 모호성이 해결된 음성 입력에 상응하게 인터페이스를 조정한다. 프로세스(3300)는 상기 오브젝트에 적용 가능한 동작이: 정보를 수신하는 것 (일 예로, 인터넷 검색으로부터 상기 오브젝트에 관한 정보), 구매를 돕는 것 (일 예로, 온라인 상에서의 판매를 위해 상기 오브젝트 또는 유사한 오브젝트를 검출하는 것, 가상 쇼핑 카트에 추가하는 것 등), 이벤트를 카렌다하는 것(일 예로, 상기 전자 디바이스(들)에서의 카렌다링 앱(calendaring app)을 사용하여), 컨텐트에 특징들을 적용하는 것(일 예로, 오브젝트에 설정들을 적용하는 것, 설정들을 복사 및 붙여 넣는 것 등), 상기 오브젝트와 연관되는 적어도 하나의 컨텐트를 선택하는 것(일예로, 사진들의 갤러리로부터 사진을 선택하는 것 등), 디스플레이 상에서 상기 오브젝트를 이동시키는 것(일 예로, 선택하는 것, 드래그하는 것, 드롭하는 것 등), 또는 그 조합을 포함한다는 것을 포함할 수 있다.

도 34는 하나 이상의 실시 예들을 구현하는 컴퓨팅 시스템을 포함하는 정보 프로세싱 시스템을 도시하고 있는 상위-레벨 블록 다이아그램이다. 상기 시스템(3400)은 하나 이상의 프로세서들(3411)(일 예로, ASIC, CPU 등)을 포함하고, 전자 디스플레이 디바이스(3412)(그래픽들, 텍스트, 및 다른 데이터를 디스플레이하는), 메인 메모리(3413)(일 예로, 랜덤 억세스 메모리(random access memory: RAM), 캐쉬 디바이스들 등), 저장 디바이스(3414)(일 예로, 하드 디스크 드라이브), 제거 가능 저장 디바이스(3415)(일 예로, 제거 가능 저장 드라이브, 제거 가능 메모리, 마그네틱 테이프 드라이브, 광 디스크 드라이브, 그에 저장된 컴퓨터 소프트웨어 및/또는 데이터를 가지는 컴퓨터-리드가능 매체), 사용자 인터페이스 디바이스(3416)(일 예로, 키보드, 터치 스크린, 키패드, 포인팅 디바이스), 통신 인터페이스(3417)(일 예로, 모뎀, 무선 송수신기(Wi-Fi, 셀룰라와 같은), 네트워크 인터페이스(이더넷 카드와 같은), 통신 포트, 또는 PCMCIA 슬롯 및 카드와 같은)를 더 포함할 수 있다.

상기 통신 인터페이스(3417)는 소프트웨어 및 데이터가 상기 인터넷(3450), 이동 전자 디바이스(3451), 서버(3452), 네트워크(3453) 등을 통해 상기 컴퓨터 시스템 및 외부 디바이스들로 전달될 수 있도록 한다. 상기 시스템(3400)은 상기에서 설명된 바와 같은 디바이스들(3411 내지 3417)이 연결되는 통신 인프라스트럭쳐(3418)(일 예로, 통신 버스, 크로스 바(cross bar), 또는 네트워크)를 더 포함한다.

상기 통신 인터페이스(3417)를 통해 전달되는 정보는 신호들을 전달하고, 유선 또는 케이블, 광 섬유, 전화 라인, 셀룰라 전화 링크, 무선 주파수(radio frequency: RF) 링크, 및/또는 다른 통신 채널들을 사용하여 구현될 수 있는 통신 링크를 통해 통신 인터페이스(3417)에 의해 수신될 수 있는 전자, 전자기, 광, 또는 다른 신호들과 같은 신호들의 형태가 될 수 있다.

이동 무선 디바이스(일 예로, 이동 전화, 태블릿, 웨어러블 디바이스 등)에서 하나 이상의 실시 예들의 한 구현에서, 상기 시스템(3400)은 카메라(128)(도 2)와 같은 이미지 캡쳐 디바이스(3420)와 마이크로폰(122)(도 2)과 같은 오디오 캡쳐 디바이스(3419)를 더 포함한다. 상기 시스템(3400)은 MMS(3421), SMS(3422), 이메일(3423), 소셜 네트워크 인터페이스(social network interface: SNI)(3424), 오디오/비디오(audio/video: AV) 재생기(3425), 웹 브라우저(3426), 이미지 캡쳐(3427) 등과 같은 어플리케이션 프로세싱 또는 프로세서들을 더 포함할 수 있다.

일 실시 예에서, 상기 시스템(3400)은 컨텍스트 인터액션 앱(129)(도 2)에 관해 설명된 바와 유사한 프로세싱, 프로세스(3200)에 대한 프로세싱, 상기에서 설명한 바와 같은 프로세스(3300)을 구현할 수 있는 컨텍스트 인터액션 프로세싱(3430)을 포함한다. 일 실시 예에서, 상기 컨텍스트 인터액션 프로세싱(3430)은 운영 시스템(3429)와 함께 상기 시스템(3400)의 메모리에 상주하는 실행 가능 코드로 구현될 수 있다. 다른 실시 예에서, 상기 컨텍스트 인터액션 프로세싱(3430)은 하드웨어, 펌웨어 등에서 제공될 수 있다.

일 실시 예에서, 상기 메인 메모리(3403), 저장 디바이스(3404), 제거 가능 저장 디바이스(3405)는, 각각 스스로 또는 임의의 조합에서, 상기 하나 이상의 프로세서들(3401)에 의해 실행될 수 있는, 상기에서 설명된 바와 같은 실시 예들에 대한 명령어들을 저장할 수 있다.

해당 기술 분야의 당업자들에게 알려져 있는 바와 같이, 상기에서 설명한 바와 같은 예시 아키텍쳐들은, 상기 아키텍쳐들에 따르면, 프로세서에 의한 실행을 위한 프로그램 명령어들, 소프트웨어 모듈들, 마이크로 코드, 컴퓨터 리드 가능 매체들 상의 컴퓨터 프로그램 제품, 아날로그/논리 회로들, 주문형 반도체(application specific integrated circuit)들, 펌웨어, 소비자 전자 디바이스들, AV 디바이스들, 무선/유선 송신기들, 무선/유선 수신기들, 네트워크들, 멀티미디어 디바이스들 등과 같은 많은 방식들로 구현될 수 있다. 또한, 상기 아키텍처의 실시 예들은 전체 하드웨어 실시 예, 전체 소프트웨어 실시 예 또는 하드웨어 및 소프트웨어 엘리먼트들 둘 다를 포함하는 실시 예의 형태를 취할 수 있다.

하나 이상의 실시 예들이 하나 이상의 실시 예들에 따른 플로우차트 설명들, 및/또는 방법들, 장치 (시스템들) 및 컴퓨터 프로그램 제품들을 참조하여 설명되었다. 그와 같은 설명들/다이아그램들의 각 블록 또는 그 조합들은 컴퓨터 프로그램 명령어들에 의해 구현될 수 있다. 프로세서로 제공될 때 상기 컴퓨터 프로그램 명령어들은 상기 프로세서를 통해 실행하는 상기 명령어들이 상기 플로우차트 및/또는 블록 다이아그램에서 명시된 기능들/동작들을 구현하기 위한 수단을 생성할 수 있도록 머신을 생성한다. 상기 플로우차트/블록 다이아그램들에서의 각 블록은 하나 이상의 실시 예들을 구현하는 하드웨어 및/또는 소프트웨어 모듈 또는 로직을 나타낼 수 있다. 대안적인 구현들에서, 상기 블록들에서 언급된 기능들은 도면들에서 언급된 순서를 벗어나서 동시에 발생할 수 있다.

상기 용어들 "컴퓨터 프로그램 매체", "컴퓨터 사용 가능 매체", "컴퓨터 리드 가능 매체" 및 "컴퓨터 프로그램 제품"은 일반적으로 메인 메모리, 보조 메모리, 이동식 저장 드라이브, 하드 디스크 드라이브에 인스톨된 하드 디스크와 같은 매체들을 나타내는데 사용된다. 이러한 컴퓨터 프로그램 제품들은 상기 컴퓨터 시스템에 소프트웨어를 제공하기 위한 수단이다. 상기 컴퓨터 리드 가능 매체는 상기 컴퓨터 시스템이 상기 컴퓨터 리드 가능 매체로부터 데이터, 명령어들, 메시지들 또는 메시지 패킷들, 및 다른 컴퓨터 리드 가능 정보를 리드할 수 있도록 한다. 상기 컴퓨터 리드 가능 매체는, 일 예로, 플로피 디스크, ROM, 플래시 메모리, 디스크 드라이브 메모리, CD-ROM 및 다른 영구 저장 장치와 같은 비-휘발성 메모리를 포함할 수 있다. 이는 일 예로, 컴퓨터 시스템들간에 데이터 및 컴퓨터 명령어들과 같은 정보를 전송하는 데 유용하다. 컴퓨터 프로그램 명령어들은 컴퓨터 리드 가능 매체에 저장될 수 있으며, 컴퓨터, 다른 프로그램 가능 데이터 프로세싱 장치 또는 다른 디바이스들이 특정 방식으로 기능하도록 지시할 수 있으며, 상기 컴퓨터 리드 가능 매체에 저장된 명령어들은 상기 플로우차트 및/또는 블록 다이어그램 블록 또는 블록들에 명시된 기능/액션을 구현하는 명령어들을 포함하는 제품을 생성한다.

본 문서에서의 블록 다이아그램 및/또는 플로우차트들을 나타내는 컴퓨터 프로그램 명령어들은 컴퓨터, 프로그램 가능 데이터 프로세싱 장치 또는 프로세싱 디바이스들에 로딩되어 그에서 수행되는 일련의 동작들이 컴퓨터 구현 프로세스를 생성하도록 할 수 있다. 컴퓨터 프로그램들 (즉, 컴퓨터 제어 로직)은 메인 메모리 및/또는 보조 메모리에 저장된다. 컴퓨터 프로그램들은 또한 통신 인터페이스를 통해 수신될 수 있다. 그와 같은 컴퓨터 프로그램들은, 실행될 때, 상기 컴퓨터 시스템이 본 문서에서 논의되는 바와 같은 실시 예들의 특징들을 수행하는 것을 가능하게 한다. 특히, 상기 컴퓨터 프로그램들은, 실행될 때, 상기 프로세서 및/또는 멀티-코어 프로세서가 상기 컴퓨터 시스템의 특징들을 수하는 것을 가능하게 한다. 상기와 같은 컴퓨터 프로그램들은 상기 컴퓨터 시스템의 제어기들을 나타낸다. 컴퓨터 프로그램 제품은 컴퓨터 시스템에 의해 리드 가능하고, 하나 이상의 실시 예들의 방법을 수행하기 위해 상기 컴퓨터 시스템에 의한 실행을 위한 명령어들을 저장하는 유형의(tangible) 저장 매체를 포함한다.

상기 실시 예들이 그 특정 버전들을 참조하여 설명되었지만; 다른 버전들도 가능하다. 따라서, 첨부된 청구항들의 사상 및 범위는 본 문서에 포함된 바람직한 버전들의 설명으로 제한되어서는 안 된다.

Claims

전자 디바이스에서 음성 입력을 수신하는 동작;
상기 음성 입력의 모호성(ambiguity)을 결정하는 동작; 및
컨텍스트 데이터(contextual data)를 기반으로 상기 모호성을 분석하는 동작을 포함하며,
상기 컨텍스트 데이터는 이미지, 제스처를 포함하는 비-음성 입력, 포인팅 디바이스의 포인터, 터치, 또는 그 조합 중 적어도 하나를 포함하는 방법.
제1항에 있어서,
상기 모호성은 오브젝트 또는 상기 음성 입력이 적용되는 위치의 식별과 관련되는 방법.
제2항에 있어서,
상기 이미지는 상기 전자 디바이스에 연결된 카메라에 의해 캡쳐되는, 상기 전자 디바이스에 연결된 디스플레이 상에 디스플레이되는, 또는 그 조합 중 하나의 이미지인 방법.
제2항에 있어서,
상기 비-음성 입력은 상기 전자 디바이스에 연결된 적어도 하나의 센서에 의해 센싱되는 방법.
제2항에 있어서,
상기 오브젝트를 포함하는 이미지 또는 상기 오브젝트를 나타내는 비-음성 입력을 기반으로 상기 오브젝트의 식별을 결정함으로써 상기 모호성을 분석하는 동작을 더 포함하는 방법.
제5항에 있어서,
상기 모호성은 지시사 결정자(demonstrative determiner)를 포함하며, 상기 컨텍스트 데이터는 상기 오브젝트에 적용 가능한 액션(action)에 영향을 미치는 정보를 더 포함하는 방법.
제3항에 있어서,
비-음성 입력이 발생하지 않았다고 결정될 경우 상기 카메라를 이네이블함으로써(enabling) 상기 모호성을 분석하는 동작을 더 포함하는 방법.
제2항에 있어서,
상기 오브젝트는 상기 전자 디바이스이며, 상기 전자 디바이스는 상기 분석된 모호성으로 상기 음성 입력에 상응하게 인터페이스를 조정하는 방법.
제6항에 있어서,
상기 오브젝트에 적용 가능한 액션은 정보를 수신하는 것, 구매를 도와주는 것, 이벤트를 캘린더(calendar)하는 것, 특징들을 컨텐트에 적용하는 것, 상기 오브젝트와 연관되는 적어도 하나의 컨텐트를 선택하는 것, 디스플레이 상에 상기 오브젝트를 이동시키는 것, 또는 그 조합 중 하나를 포함하는 방법.
전자 디바이스에 있어서,
명령어(instruction)들을 저장하는 메모리; 및
음성 입력을 수신하고;
상기 음성 입력의 모호성(ambiguity)을 결정하고; 그리고
컨텍스트 데이터(contextual data)를 기반으로 상기 모호성을 분석하도록 구성되는 프로세스를 포함하는 상기 명령어들을 실행하는 적어도 하나의 프로세서를 포함하며,
상기 컨텍스트 데이터는 이미지, 제스처를 포함하는 비-음성 입력, 포인팅 디바이스의 포인터, 터치, 또는 그 조합 중 적어도 하나를 포함하는 전자 디바이스.
청구항 2 내지 청구항 9 중 적어도 하나에 따라 동작하도록 조정되는 청구항 10의 전자 디바이스.
프로세서에 의해 실행될 때 방법을 수행하는 프로그램을 포함하는 비-일시적 프로세서-리드 가능 매체에 있어서, 상기 방법은:
전자 디바이스에서 음성 입력을 수신하는 동작;
상기 음성 입력의 모호성(ambiguity)을 결정하는 동작; 및
컨텍스트 데이터(contextual data)를 기반으로 상기 모호성을 분석하는 동작을 포함하며,
상기 컨텍스트 데이터는 이미지, 제스처(gesture)를 포함하는 비-음성 입력, 포인팅 디바이스(pointing device)의 포인터(pointer), 터치, 또는 그 조합 중 적어도 하나를 포함하는 비-일시적 프로세서-리드 가능 매체.
청구항 2 내지 청구항 9 중 적어도 하나에 따라 동작하도록 조정되는 청구항 17의 비-일시적 프로세서-리드 가능 매체.