KR20210056220A

KR20210056220A - 교환 가능한 멀티모달 인간 인터랙션 시스템

Info

Publication number: KR20210056220A
Application number: KR1020200122953A
Authority: KR
Inventors: 프란잘 숩하쉬 자인
Original assignee: 삼성전자주식회사
Priority date: 2019-11-08
Filing date: 2020-09-23
Publication date: 2021-05-18
Also published as: US20210141349A1

Abstract

물리적 인터랙션들을 통해 전자 장치를 제어하는 시스템 및 방법이다. 제1 사용자 물리적 인터랙션이 제1 시점에 제공되고, 제2 물리적 인터랙션이 제2 시점에 제공된다. 제1 사용자 물리적 인터랙션이 제1 타입이면, 장치는 제1 사용자 물리적 인터랙션에 기반하여 식별되고, 커맨드는 제2 사용자 물리적 인터랙션이 제2 타입인 제2 사용자 물리적 인터랙션에 기반하여 식별된다. 제1 사용자 물리적 인터랙션이 제2 타입이면, 커맨드는 제1 사용자 물리적 인터랙션에 기반하여 식별되고, 장치 식별은 제2 시점에 수신된 제3 사용자 물리적 인터랙션을 통해 이루어진다.

Description

교환 가능한 멀티모달 인간 인터랙션 시스템{INTERCHANGEABLE MULTIMODAL HUMAN INTERACTION SYSTEM}

본 개시에 따른 실시 예들의 하나 이상의 양상은 인간 인터랙션(interaction) 시스템에 관한 것으로, 좀 더 상세하게는, 소비자 전자 장치들과 자연적으로 상호 작용하기 위한 멀티모달(multimodal) 접근법을 사용하는 인간 인터랙션에 대한 시스템 및 방법에 관한 것이다.

스마트 홈 시스템과 사물 인터넷(IoT)의 출현으로, 가정에서의 많은 전자 장치들은 인터넷에 연결되고 원격으로 모니터링 및 제어될 수 있다. 원격으로 제어되는 것 외에도, 점점 더 많은 이러한 장치들은 이제 인간의 물리적 인터랙션들(예: 제스처(gesture), 음성(voice), 눈 움직임 등)을 통해 제어될 수 있다. 기존의 멀티모달 인간 인터랙션 접근 방식을 사용하면, 사용자로부터 2개 이상의 물리적 입력들이 장치와 상호 작용하기 위해 조정된 방식으로 호출된다. 그러나, 전통적인 시스템에서, 사용될 수 있는 물리적 입력들의 타입과 이러한 물리적 입력들의 순서가 종종 미리 설정된다. 예를 들어, 장치를 선택하려면 먼저 입력의 한 타입(예: 제스처)이 제공되어야 할 수 있고, 장치를 제어하기 위해 다음에 입력의 다른 타입(예: 음성)을 제공해야 할 수 있다. 사용자가 미리 정해진 물리적 입력들의 시퀀스(sequence)를 따르도록 강요하면 일부 사용자에게 부자연스러운 인터랙션들이 발생할 수 있고, 이러한 인터랙션들을 서투르게 만들고 오류가 발생하기 쉬울 수 있다. 일부 사용자에 대해, 더 자연스러운 인터랙션은 음성 및 제스처를 함께 제공하거나, 또는 음성에 이어 제스처를 제공해야 할 수 있다. 모든 사용자들이 자연스럽게 상호 작용하도록 하기 위해, 인터랙션들의 순서는 미리 정의되지 않아야 한다.

멀티모달 인간 인터랙션들은, 이러한 인터랙션들을 통해 제어될 수 있는 밀폐된 공간에서 다수의 장치들이 있거나, 그리고/또는 방에 다수의 사용자들이 있으면 어려울 수 있다. 이러한 상황들에서 장치들의 제어는 종종 신뢰할 수 없다. 예를 들어, 장치들이 다른 장치와 가까이 있으면 다수의 장치들은 사용자의 제스처를 통해 트리거(trigger) 될 수 있다. 한 번에 2개 이상의 장치가 트리거되면, 제스처에 따른 제어 커맨드가 다른 장치가 아닌 어느 하나의 장치로 향하는지 여부가 모호하다.

따라서, 원하는 것은, 사용자가 입력들의 미리 정의된 시퀀스를 따르지 않고 밀폐된 공간에서 장치들과 상호 작용할 수 있도록 하는 멀티모달 인간 인터랙션 시스템이고, 이는 장치들과 더 자연스럽고 신뢰할 수 있는 인터랙션을 초래한다.

본 발명의 목적은 멀티모달 인간 인터랙션을 통해 사용자가 밀폐된 공간에서 장치들과 사전 정의된 입력 시퀀스 없이 다수의 장치들을 제어할 수 있는 시스템 및 방법을 제공하는데 있다.

본 개시의 실시 예들은 전자 장치를 제어하는 방법을 개시한다. 상기 방법은 제1 사용자 물리적 인터랙션을 모니터링 및 수신하는 단계를 포함하며, 여기서 상기 제1 사용자 물리적 인터랙션은 제1 시점에 제공된다. 상기 제1 사용자 물리적 인터랙션의 타입이 결정되고, 상기 제1 사용자 물리적 인터랙션이 제1 타입이라는 결정에 응답하여, 상기 제1 시점에 제공된 상기 제1 사용자 물리적 인터랙션에 기반하여 장치가 식별된다. 상기 장치에 대한 세션이 시작된다. 상기 세션이 만료되지 않은 동안, 제2 타입의 제2 사용자 물리적 인터랙션이 모니터링 및 수신된다. 여기서 상기 제2 사용자 물리적 인터랙션은 제2 시점에 제공되고 상기 제2 타입은 상기 제1 타입과 다르다. 커맨드는 상기 제2 시점에 제공된 상기 제2 사용자의 물리적 인터랙션을 기반으로 식별된다.

그러나, 제1 사용자 물리적 인터랙션이 제2 타입이라는 결정한 것에 응답하여, 커맨드는 상기 제1 시점에 제공된 상기 제1 사용자 물리적 인터랙션에 기반하여 식별된다. 상기 커맨드는 데이터 저장소(data store)에 저장되고 상기 장치에 대한 세션이 시작된다. 세션이 만료되지 않은 동안, 상기 제1 타입의 제3 사용자 물리적 인터랙션이 모니터링 및 수신되고, 여기서 상기 제3 사용자 물리적 인터랙션이 상기 제2 시점에 제공된다. 장치는 상기 제2 시점에서 제공되는 상기 제3 사용자의 물리적 인터랙션을 기반으로 식별되며 상기 커맨드에 따라 장치를 제어하기 위한 상기 커맨드가 전송된다.

일 실시 예에서, 상기 제1 타입은 제스처 또는 눈 움직임이고, 상기 제2 타입은 음성이다.

일 실시 예에서, 장치에 대한 세션을 시작하는 것은 만료되지 않은 세션이 다른 장치에 대해 존재한다고 결정하는 단계; 만료되지 않은 세션의 상태 식별하는 단계; 및 만료되지 않은 세션의 상태에 기반하여 세션을 시작하는 단계를 포함한다.

일 실시 예에서, 카메라는 모바일 장치에서 호출되고; 카메라를 통해 밀폐된 공간에 있는 장치 및 복수의 다른 전자 장치들의 이미지들을 감지하고; 그리고 사용자의 제스처를 식별하기 위해 호출된 제2 카메라와 관련된 장치 및 복수의 다른 전자 장치 각각의 위치가 자동으로 결정된다.

일 실시 예에서, 상기 제1, 제2 및 제3 사용자 물리적 인터랙션은 상기 장치가 아닌 제2 장치로 향하도록 결정되고, 상기 장치의 식별은 상기 제2 장치를 상기 장치에 상관시키는 정보를 검색하는 것을 포함한다.

일 실시 예에서, 상기 제1 시점은 상기 제2 시점과 동시이다.

일 실시 예에서, 상기 제2 시점은 상기 제1 시점보다 늦다.

일 실시 예에서, 상기 커맨드는 장치의 속성을 수정하기 위한 것이다.

일 실시 예에서, 제1 사용자 물리적 인터랙션이 제1 타입이라고 결정한 것에 응답하여, 상기 장치와 연관된 상태 머신(state machine)은 제어 커맨드에 대응하는 사용자로부터 다음 물리적 인터랙션을 기대하는 상태로 천이된다.

일 실시 예에서, 상기 제1 타입의 인터랙션이 상기 제2 타입이라는 결정한 것에 응답하여, 상기 장치와 연관된 상태 머신은 특정 장치의 선택에 대응하는 사용자로부터 다음 물리적 인터랙션을 기대하는 상태로 전이된다.

본 발명의 실시 예들은 전자 장치를 제어하기 위한 시스템에 관한 것이다. 상기 시스템은 하나 이상의 프로세서들 및 상기 하나 이상의 프로세서들에 결합된 하나 이상의 메모리 장치들을 포함하며, 여기서 상기 하나 이상의 메모리 장치들은 상기 하나 이상의 메모리 장치들 내에 명령어(instruction)들을 저장하고, 상기 명령어들은 하나 이상의 대응하는 프로세서들에 의해 실행되면, 상기 하나 이상의 프로세서들 각각에 대해: 제1 사용자 물리적 인터랙션을 모니터링 및 수신하고, 여기서 상기 제1 사용자 물리적 인터랙션은 제1 시점에 제공되고; 상기 제1 사용자 물리적 인터랙션의 타입을 결정하고; 상기 제1 사용자 물리적 인터랙션이 제1 타입이라고 결정한 것에 응답하여: 상기 제1 시점에서 제공된 상기 제1 사용자 물리적 인터랙션을 기반으로 장치를 식별하고; 상기 장치에 대한 세션을 시작하고; 상기 세션이 만료되지 않은 동안, 제2 유형의 제2 사용자 물리적 상호 작용을 모니터링 및 수신하고, 여기서 상기 제2 사용자 물리적 인터랙션은 제2 시점에 제공되며; 상기 제2 시점에서 제공된 상기 제2 사용자 물리적 인터랙션을 기반으로 상기 커맨드를 식별하고; 상기 제1 사용자의 물리적 인터랙션이 상기 제2 타입이라고 결정한 것에 응답하여: 상기 제1 시점에 제공된 상기 제1 사용자 물리적 인터랙션을 기반으로 상기 커맨드를 식별하고; 상기 커맨드를 데이터 저장소에 저장하고; 상기 장치에 대한 상기 세션을 시작하고; 상기 세션이 만료되지 않은 동안, 상기 제1 타입의 제3 사용자 물리적 인터랙션을 모니터링 및 수신하고, 여기서 상기 제3 사용자 물리적 인터랙션은 상기 제2 시점에 제공되며; 상기 제2 시점에서 제공된 상기 제3 사용자 물리적 인터랙션을 기반으로 상기 장치를 식별하고; 상기 커맨드에 따라 상기 장치를 제어하는 상기 커맨드를 전송한다.

본 발명의 실시 예들은 전자 장치를 제어하기 위한 시스템에 관한 것으로, 이 시스템은: 제1 타입의 물리적 인터랙션(interaction)들을 감지하도록 구성된 카메라; 제2 타입의 물리적 인터랙션들을 감지하도록 구성된 마이크로폰; 상기 카메라 및 상기 마이크로폰에 결합된 하나 이상의 프로세서들; 상기 하나 이상의 프로세서들과 결합된 하나 이상의 메모리 장치들을 포함하되, 상기 하나 이상의 메모리 장치들은 상기 하나 이상의 메모리 장치들 내에 명령어(instruction)들을 저장하고, 상기 명령어들은 하나 이상의 대응하는 프로세서들에 의해 실행되면, 상기 하나 이상의 프로세서들 각각에 대해: 제1 사용자 물리적 인터랙션을 모니터링 및 수신하고, 여기서 상기 제1 사용자 물리적 인터랙션은 제1 시점에 제공됨; 상기 제1 사용자 물리적 인터랙션의 타입을 결정하고; 상기 제1 사용자 물리적 인터랙션이 제1 타입이라고 결정한 것에 응답하여: 상기 제1 시점에 제공된 제1 사용자 물리적 인터랙션을 기반으로 장치를 식별하고; 상기 장치에 대한 세션을 시작하고; 상기 세션이 만료되지 않은 동안, 제2 타입의 제2 사용자 물리적 인터랙션을 모니터링 및 수신하고, 여기서 제2 사용자 물리적 인터랙션은 제2 시점에서 제공되고, 상기 제2 타입은 상기 제1 타입과 상이함; 상기 제2 시점에서 제공된 상기 제2 사용자 물리적 인터랙션을 기반으로 커맨드를 식별하고; 상기 제1 사용자 물리적 인터랙션이 제2 타입이라고 결정한 것에 응답하여: 상기 제1 시점에서 제공된 제1 사용자 물리적 인터랙션을 기반으로 상기 커맨드를 식별하고; 상기 커맨드를 데이터 저장소에 저장하고; 상기 장치에 대한 세션을 시작하고; 상기 세션이 만료되지 않은 동안, 상기 제1 타입의 제3 사용자 물리적 인터랙션을 모니터링 및 수신하고, 여기서 상기 제3 사용자 물리적 인터랙션은 상기 제2 시점에 제공되고; 상기 제2 시점에서 제공된 상기 제3 사용자 물리적 인터랙션을 기반으로 장치를 식별하고; 상기 커맨드에 따라 상기 장치를 제어하는 상기 커맨드를 전송한다

본 발명이 속한 기술 분야에서의 통상의 기술자에 의해 이해되는 바와 같이, 본 개시의 다양한 실시 예들에 따른 멀티모달 인간 인터랙션에 대한 시스템 및 방법은 사전 정의된 입력 시퀀스 없이 사용자가 밀폐된 공간에서 장치들과 자연스럽게 상호 작용할 수 있도록 한다. 또한, 장치들과 상호 작용하는 세션 기반 접근 방식은 장치들과 더 안정적인 상호 작용을 가능하게 한다.

본 발명의 실시 예에 따르면, 멀티모달 인간 인터랙션을 통해 사용자가 밀폐된 공간에서 장치들과 사전 정의된 입력 시퀀스 없이 다수의 장치들을 제어할 수 있는 시스템 및 방법이 제공된다.

본 발명의 상술된 특징 및 다른 특징들, 이점들은 첨부된 명세서, 청구 범위들 및 도면들을 참조하여 이해될 것이다.
도 1은 하나의 예시적인 실시 예에 따른 교환 가능한 멀티모달 인간 인터랙션 시스템의 개념도이다.
도 2는 하나의 예시적인 실시 예에 따른 도 1의 교환 가능한 멀티모달 인간 인터랙션 시스템의 다양한 구성 요소들의 블록도이다.
도 3은 하나의 예시적인 실시 예에 따른 교환 가능한 멀티모달 인간 인터랙션들을 통한 방에서의 장치들의 제어를 가능하게 하는 상태 머신의 상태도이다.
도 4는 하나의 예시적인 실시 예에 따른 프록시(proxy) 장치를 포함하는 방에서의 장치들과의 교환 가능한 멀티모달 인터랙션들을 위한 프로세스의 순서도이다.
도 5는 예시적인 실시 예에 따른 방(100)에서의 객체들의 3D 맵을 생성하기 위한 프로세스의 순서도이다.

일반적으로, 본 개시의 실시 예들은 사용자의 물리적 인터랙션들을 통해 방(또는 다른 밀폐된 공간)에서 전자 장치들을 제어하는 것에 관한 것이다. 사용자는 물리적 인터랙션들의 2개 이상의 타입을 호출하는 멀티모달 접근법을 사용하는 장치와 상호 작용한다. 그러나, 멀티모달 인터랙션들이 예를 들어, 제스처에 이어 음성과 같은, 미리 설정된 시퀀스를 따르는 것을 요구하는 대신, 본 개시의 실시 예에 따른 멀티모달 인터랙션은 동시에 또는 임의의 순서로 수행될 수 있다. 예를 들어, 사용자는 제스처에 이어 음성으로 시작하거나, 음성에 이어 제스처로 시작하거나, 제스처와 음성을 동시에 제공할 수 있다. 이를 통해 상호 작용하는 사용자의 선호도들에 따라 인터랙션들이 더 자연스러워지고 맞출 수 있다.

일부 실시 예들에서, 멀티모달 인터랙션들은 세션(session) 기반 접근법을 사용하여 수행된다. 일 실시 예에서, 방에서의 장치가 상호 작용을 위해 선택되면, 해당 장치와의 세션이 활성화된다. 장치와의 인터랙션은 세션이 활성화된 동안 발생한다(예: 만료 또는 끝나지 않음). 일부 실시 예들에서, 방에서의 다른 장치는 그 다른 장치와의 상호 작용이 가능하기 전에 세션이 완료하기를 기다린다. 또 다른 실시 예에서, 다른 장치와의 인터랙션은 앞선 장치와의 통신이 통신 세션 동안 특정 상태(예: 장치 제어 상태)로 진행될 때까지 가능하지 않다. 이는 여러 사람이 같은 방에서 여러 장치들과 상호 작용할 수 있는 환경에서 멀티모달 인터랙션들의 신뢰성을 높이는 데 도움이 된다.

일부 실시 예들에서, 멀티모달 인터랙션은 방 밖에 있거나 보이지 않는 장치와 간접적으로 발생할 수 있다. 일 실시 예에서, 방의 프록시(proxy) 장치는 방 밖에 있거나 보이지 않는 장치 (이하 "대표되는(represented) 또는 링크(link)된 장치"라고 함)를 나타낸다. 프록시 장치는 원격 물리적 인터랙션을 통해 직접 제어할 수 있는 장치일 수도 있고 아닐 수도 있다. 데이터 저장소 레코드(기록)는 프록시 장치를 원격으로 제어될 대표 장치와 상관시키거나 링크한다. 원하는 시퀀스의 멀티모달 인터랙션들은 프록시 장치로 향해진다. 사용자가 프록시 장치와 멀티모달 인터랙션에 참여함에 따라, 대표 장치를 제어하기 위해 대응하는 명령들이 전송될 수 있다.

일부 실시 예들에서, 멀티모달 인간 물리적 인터랙션을 통한 장치들의 제어는 하드웨어 애그노스틱(hardware agnostic)이다. 장치들이 서로 다른 하드웨어 플랫폼에 배포되고 서로 다른 기술들을 이용할 수 있음에도 불구하고, 이러한 장치들과의 인터랙션은, 제스처들 또는 커맨드들의 순서와 상관없이, 제스처들과 커맨드들의 획일적인 세트(set)를 사용하여 여전히 가능할 것이다.

도 1은 하나의 예시적인 실시 예에 따른 교환 가능한 멀티모달 인간 인터랙션 시스템의 개념도이다. 예를 들어, 방(100)과 같은 밀폐된 환경에서, 시스템은 다양한 연결된 전자 장치들(102a 내지 102e)(총칭하여 102라고 함)을 포함한다. 방이 예시로 사용되지만, 통상의 기술자는 실시 예가 방에 국한되지 않고 자동차, 드론 등과 같은 다른 밀폐된 영역으로 확장될 수 있음을 인식해야 한다. 본 발명의 실시 예들은 또한 홈 어시스턴트(home assistant)들, 태블릿들, AR/VR 장치들 등을 포함하는 전자 장치들의 다른 타입들을 제어하는 것으로 확장될 수 있다.

연결된 장치들(102)은 유선 또는 무선 데이터 네트워크를 통해 서로 유선 또는 무선으로 연결된 전자 어플라이언스(aplliance)들일 수 있다. 일례로, 전자 어플라이언스들은 가정 또는 사무 자동화 애플리케이션들에 적용되는 IoT 장치이다. 이러한 전자 어플라이언스들은, 제한 없이, 온도 조절기(102a), TV(102b), 램프(102c), 팬(fan)(102d) 및 냉장고(102e)를 포함할 수 있다.

일 실시 예에서, 연결된 장치(102)들은 유선 또는 무선 데이터 네트워크를 통해 원격으로 제어된다. 유선 네트워크는, 예를 들어, 가정 내에서 기존의 동축 케이블(coaxial cable)과 전화 배선을 이용하는 HomePNA Alliance (Home Phoneline Networking Alliance) 기술을 이용할 수 있다. 무선 네트워크는, 예를 들어, 무선 주파수(RF) 기술, 사설 영역 네트워크(예: 블루투스)기술, IrDA(Infrared Data Association)(적외선 데이터 협회) 기술, 무선 LAN (WiFi)기술 등을 이용할 수 있다.

장치들의 일부(예: 장치(102a, 102b))는 데이터 네트워크를 통해 다른 장치와 통신하기 위한 완전한 네트워크 연결성(full network connectivity)을 갖는 반면, 다른 장치(예: 장치(102c-102e))는 허브(106)를 통해 데이터 네트워크에 연결될 수 있다. 허브(106)는 장치(102c-102e)가 데이터 네트워크에 연결될 수 있도록 하는 브리지(bridge)로서 기능할 수 있다. 이러한 방식으로, 이들 장치들(102c-102e)은 장치가 완전한 네트워크 통신 기능(full network capability)을 구현할 필요 없이 허브(106)를 통해 제어 및 작동될 수 있다.

교환 가능한 멀티모달 인간 인터랙션 시스템은 또한 데이터 네트워크를 통해 연결된 장치들(102) 중 하나 이상에 결합된 서버(108)를 포함할 수 있다. 만약 장치들이 완전한 네트워크 통신 기능을 갖지 않는다면, 서버(108)로의 통신은, 예를 들어, 허브(106)를 통할 수 있다. 일 실시 예에서, 서버(108)는 그 장치들을 서버(108)에 의해 원격으로 모니터링 되거나 제어될 수 있도록 하는 연결된 장치들(102)과 관련된 정보를 저장한다. 서버(108)는 또한 연결된 및 연결되지 않은 장치들에 대한 정보를 포함하여, 방에서의 다양한 장치들의 구성 및 위치 정보를 저장할 수 있다.

일 실시 예에서, 연결된 장치들(102)은 방(100)내의 다른 위치에 배치된다. 방에 사람/사용자(104)는 예를 들어, 제스처 및 음성, 제스처 및 눈 움직임 (시선), 또는 시선 및 음성, 들을 포함하는 2개 이상의 물리적 입력을 사용하는 멀티모달 인터랙션을 통해 장치들과 상호 작용한다. 물리적 입력들은 동시에 또는 사용자에게 자연스럽게 올 수 있는 임의의 원하는 순서로 제공될 수 있다.

사용자가 멀티모달 인터랙션들에 참여함에 따라, 인터랙션들은 카메라 (109) 및/또는 마이크로폰(110)에 의해 캡처(capture)된다. 카메라(109) 및/또는 마이크로폰(110)은, 예를 들어, TV(102b)에 통합될 수 있다. 다른 실시 예에서, 카메라(109) 및/또는 마이크로폰(110)은 방에서의 하나 이상의 다른 연결된 장치들(102)과 통합된다. 카메라(109) 및/또는 마이크로폰(110)은 독립형 장치(stand-alone)(미도시)일 수 있다.

일 실시 예에서, 마이크로폰(110)은 사용자의 오디오 발화를 수신하도록 구성되고, 카메라(109)는 사용자의 제스처 동작들 및/또는 눈 움직임들의 비디오를 수신하도록 구성된다. 일 실시 예에서, 카메라(109)는 카메라(109)로 캡처된 이미지의 깊이 및 거리를 판단할 수 있는 3D 심도(깊이) 카메라(3D depth camera)이다. 일 실시 예에서, 카메라(109)는 사용자의 특정 임계 이미지가 얻어질 때 제스처 정보를 캡처하기 위해 트리거된다. 임계 이미지는, 예를 들어, 사용자의 머리, 또는 손과 함께 사용자의 머리일 수 있다.

일 실시 예에서, TV(102b)는 방에서의 장치들과 교환 가능한 멀티모달 인간 인터랙션을 가능하게 하는 컨트롤러(111)를 더 포함한다. 이와 관련하여, TV(102b)는 프로세서와, 컨트롤러(111)를 소프트웨어 모듈로서 호스트(host)하는 메모리를 포함한다. 대체 실시 예에서, 컨트롤러(111)는 하드웨어, 펌웨어(firmware)(예: ASIC), 또는 소프트웨어, 하드웨어 및 펌웨어의 조합으로 구현된다.

일 실시 예에서, 컨트롤러(111)는 방에서의 연결된 장치들(102) 중 하나의 양상(aspect)/속성(attribute)을 제어/수정하기 위해 사용자(104)로부터 인간의 물리적 인터랙션을 모니터한다. 예를 들어, 물리적 인터랙션은 장치 전원 켜기/ 끄기, 볼륨/온도 높이기/낮추기, 장치 열기/닫기 등을 위한 것일 수 있다. 이러한 인간의 물리적 인터랙션을 감지하면 컨트롤러(111)는 장치에서 원하는 기능을 실행하기 위해 데이터 네트워크를 통해 적절한 입력 커맨드(명령)를 생성 및 전송한다.

비록 도 1의 실시 예에서. 도 1에서, 컨트롤러(111)는 TV(102b)에 의해 호스팅 되는 것으로 간주되지만, 통상의 기술자는 컨트롤러(111)가 방(100)의 다른 연결된 장치(102)에 통합될 수 있음을 인식해야 한다. 예를 들어, 컨트롤러(111)는 TV(102b)에 의해 호스팅되는 대신에, 컨트롤러(111)는 허브(106)에 의해 호스팅될 수 있다. 컨트롤러(111)는 또한 독립형 컴퓨터 시스템에서 호스팅될 수 있다.

연결된 장치들(102) 이외에, 방(100)은 사용자 (104)의 시야에서 숨겨진(예: 방(100)이 아닌 다른 방에서의 장치) 다른 연결된 장치(114)(예: 세탁기)와 상관되거나 또는 링크된 프록시 장치(112)를 포함할 수 있다. 프록시 장치(112)는 데이터 네트워크에 연결되지 않고 원격 인간 인터랙션들을 통해 제어할 수 없는 방(100)에서의 가전 어플라이언스(예: 스피커 시스템) 또는 객체(예: 그림)일 수 있다. 사용자(104)는 물리적 인터랙션들을 프록시 장치(112)에 지시하고, 인터랙션들은 그러면 프록시 장치(112)에 링크된 장치(114)를 제어하기 위해 사용된다. 예를 들어, 사용자(104)는 프록시 장치(112)를 가리키고, 동시에 또는 임의의 순서로, 오디오 커맨드를 발화할 수 있으며, 컨트롤러(111)는 프록시 장치 그 자체 대신 다른 방에서 연결된 장치(114)(예: 세탁기)를 제어하기 위한 신호들을 전송한다.

일부 실시 예들에서, 프록시 장치(112)는 원격 인간 인터랙션을 통해 자체적으로 제어될 수 있는 또 다른 연결된 장치(예: 연결된 장치(102) 중 하나)이다. 이 실시 예에서, 링크된 장치(114)가 아닌 프록시 장치 (112)를 제어하는 커맨드들은, 예를 들어, 사용자(104)에 의해 제공되는 키워드, 문구(phrase) 또는 제스처를 통해 구별된다. 예를 들어, 연결된 프록시 장치(112)로 향해지는 원격 인간 인터랙션이 링크된 장치(114)를 위해 의도된 경우, 사용자(104)는 링크된 장치의 식별을 발언하고, 그리고/또는 명령이 프록시 장치(112)가 아닌 링크된 장치(114)를 제어하기 위해 의도된 것을 컨트롤러(111)에 알리기 위해 다른 키워드를 발언할 수 있다. 보다 구체적인 예에서, TV(102b)가 다른 방에서의 세탁기에 연결된 프록시 장치인 경우, TV로 향해지는 "세탁기를 켜라." 라는 커맨드가 TV 대신에 세탁기의 전원을 켜도록 작동한다. 그러나 링크된 세탁기를 식별 없이 "켜기" 라는 TV로 향해지는 커맨드는 세탁기 대신 텔레비전의 전원을 켜도록 작동한다.

일 실시 예에서, 원격 인간 인터랙션을 통해 장치(102, 112, 114)들의 제어를 가능하게 하기 전에, 컨트롤러(111)는 먼저 방에서의 장치(102, 112)들에 대한 정보로 초기화된다. 정보는, 예를 들어, 방에 있는 객체들의 이미지들과 그들의 위치 정보를 포함할 수 있다. 이미지들은 모바일 장치(116)에 설치된 카메라를 통해 캡처될 수 있다. 일 실시 예에서, 이미지들은 서버 (108)로 전달되고, 서버(108)는 그 다음 방에서의 장치(102, 112)들의 위치를 묘사하는 3D 맵을 생성하기 위한 이미지 데이터를 처리한다. 3D 맵은, 예를 들어, 방에서의 객체들을 스캔하는데 사용되는 모바일 장치(116)의 포지션(position)에 관련된 장치들의 X, Y, Z 위치를 제공할 수 있다. 3D 맵은 사용자의 제스처를 캡처하기 위해 사용되는 카메라(109)의 위치를 기반으로 X, Y, Z, 위치 정보를 오프셋하기 위해 카메라(109)에 결합된 모듈에 제공될 수 있다. 준비가 된 이러한 정보와 함께, 사용자는 방에서의 객체들과 원격으로 인간 인터랙션들에 참여하는 것을 시작할 수 있다. 물론, 연결된 장치들(102)은 전통적인 메커니즘에 따라 서버(108)와 함께 장치 등록 프로세스를 완료할 것이라 가정되고 따라서 연결된 장치들은 데이터 네트워크에 연결되고 그들의 의도된 기능을 수행한다.

도 2는 하나의 예시적인 실시 예에 따른 교환 가능한 멀티모달 인간 인터랙션 시스템의 다양한 구성 요소들의 블록도이다. 모듈은 제스처 인식 모듈(200), 음성/오디오 인식 모듈(202), 컨트롤러(111) 및 멀티모달 애플리케이션(204)을 포함하지만, 이에 제한되지 않는다. 교환 가능한 멀티모달 인간 인터랙션 시스템에 사용되는 다양한 모듈들이 별도의 기능 유닛(unit)들로 가정되지만, 통상의 기술자는 모듈들의 기능이 단일 모듈로 결합되거나 통합되거나, 또는 더욱이 서브 모듈(sub-module)들로 세분화될 수 있음을 인식할 것이다. 일 실시 예에서, 모듈 및/또는 서브 모듈들은 방(100)에서의 하나 이상의 컴퓨팅(computing) 장치들에서 호스팅되는 소프트웨어 모듈들이다. 예를 들어, 모듈들 중의 하나 이상은 TV(102b), 허브 (106) 및/또는 독립형 컴퓨팅 장치에서 호스팅될 수 있다.

일 실시 예에서, 제스처 인식 모듈(200)은 사용자(104)가 방에서의 장치(102, 112)들 중 하나와 상호 작용할 때, 카메라가 사용자(104)의 제스처들 캡처함에 따라 카메라(109)로부터 입력들을 수신하도록 구성된다. 캡처된 제스처들은, 예를 들어, 손가락 포인팅, 손바닥 들기, 집게 손가락 올리기 등과 같은 손 제스처일 수 있다. 제스처들은 또한 신체의 다른 부위로 제공될 수 있다. 예를 들어, 제스처들은 머리 움직임, 어깨를 으쓱하는 것, 다리 움직임, 및/또는 다른 신체 움직임일 수 있다.

일 실시 예에서, 제스처 인식 모듈(200)은 사용자의 눈이 향하는 방향을 결정하기 위해 눈 움직임들을 추적하도록 더 구성된다. 시선(gaze) 입력은 추적된 눈 움직임들을 기반으로 생성될 수 있다. 시선 입력은 예를 들어, 방에서의 장치 선택을 결정하는 것을 위해 사용될 수 있다.

일 실시 예에서, 카메라는 사용자의 참조 신체 부분, 예를 들어, 사용자의 머리와 함께 사용자의 손이 캡처될 때 사용자의 이미지를 캡처하도록 트리거된다. 다수의 사용자들이 방에 있는 실시 예에서, 카메라는 카메라(109)에 더 가까운 사용자, 또는 제스처를 먼저 시작한 사용자의 제스처를 캡처한다.

카메라(109)는 처리를 위해 제스처들의 캡처된 이미지들을 제스처 인식 모듈(200)로 전달한다. 이와 관련하여, 제스처 인식 모듈(200)은 장치 선택을 위해 의도된 제스처들과 장치 제어를 위해 의도된 제스처들을 처리한다. 일 실시 예에서, 장치 선택을 위해 의도된 제스처들의 프로세싱은 사용자의 손가락 또는 다른 신체 부위가 가리키는 방향을 결정하고, 그 위치에 매핑된 방에서의 객체를 식별하는 것을 포함한다. 식별 프로세스는 시스템 초기화 중에 서버(108)에 의해 생성된 방에서의 객체들의 3D 맵에 액세스하는 것을 수반할 수 있다. 일 실시 예에서, 3D 맵은 시스템 초기화에 사용된 모바일 장치(116)와 관련된 방에서의 객체들의 X, Y, 및 Z 위치들을 제공한다. 일 실시 예에서, X, Y, 및 Z 위치는 수정된 3D 맵을 생성하기 위해, 제스처 입력들을 캡처하는 카메라(109)의 위치에 기반하여 자동으로 오프셋 된다. 변환(transf) 행렬은 수정된 3D 맵을 생성하기 위해 사용될 수 있다.

하나의 예에서, 카메라(109)에 대한 방에서의 객체들의 위치는 다음 공식에 기반하여 획득된다:

는 다음에 따라 계산될 수 있다.

여기서,

일 실시 예에서, 카메라의 초기 변환 행렬과 모바일 장치의 변환 행렬 사이의 관계는 카메라에 관하여 결정된다.

일 실시 예에서, 방에서의 객체들의 3D 맵을 생성하기 위해 다음 단계들이 실행된다:

1. 모바일 장치가 주변의 3D 맵을 계산한다.(예를 들어, ARCore 또는 ARkit 또는 전매 방식(proprietary way) 사용).

2. 모바일 장치가 TV를 찾고 배치된 가상 객체를 기반으로 3개의 포인트들을 배치.

3. 3개의 포인트들의 교차 벡터 곱셈(cross vector multiplication)을 기반으로 방향(orientation) 계산.

4. 모바일 장치는 카메라를 프레임들에서의 개체로 나타낸다.

5. 카메라 표현(representation)을 반전(inverse)하고 3단계에서 계산된 방향과 결합한다.

6. 이것은

이 된다.

7.

을 3D맵핑과 함께 원격 서버에 업로드한다

8. 카메라 장치는 3D맵을 이러한 초기 행렬과 함께 다운로드 한다.

9. 위의 방정식을 사용하여 각 개체들의 오프셋을 계산한다.

다른 실시 예에서, ARCore 또는 ARkit의 공유 모드(share mode)는 카메라와 관련된 방에서 객체들의 위치를 결정하는데 사용될 수 있다. 일 실시 예에서, 카메라는 활성화된 ArCore 또는 Arkit와 함께 동일한 소프트웨어를 실행하는 연결된 장치이다. ARCore에 대한 추가 세부 정보는 "https://developers.google.com/ar/develop/java/cloud-anchors/overview-android"에서 찾을 수 있으며, 그 내용은 여기에 참조로 통합된다.

일단 생성되면, 수정된 3D맵은 제스처를 통해 선택된 방에서의 장치를 식별하기 위해 제스처 인식 모듈(200)을 통해서 사용될 수 있다.

일 실시 예에서, 제스처 인식 모듈(200)은 인식된 제스처에 기반하여 제스처 이벤트 메시지를 생성한다. 제스처 이벤트 메시지는, 예를 들어, 하나 이상의 선택적 파라미터(parameter)들과 함께 제스처의 타입으로 구성될 수 있다. 예를 들어, 방에서의 장치에 대한 손가락 포인트 제스처를 인식하는 것에 응답하여, 제스처 인식 모듈은 "포인트" 제스처를 식별하는 제스처 이벤트 메시지를 생성할 수 있으며, 제스처 이벤트 메시지는, 파라미터로서, 포인트 제스처를 받는 장치의 ID를 포함한다. 다른 예에서, 위쪽 방향으로의 사용자의 집게 손가락의 움직임을 인식하는 것에 응답하여, 제스처 인식 모듈은, 파라미터로서, 집게 손가락이 상승 방향으로 이동한 거리를 포함하는 “인덱스 업(index up)” 제스처를 식별하는 제스처 이벤트 메세지를 생성할 수 있다.

사용자의 상호작용이 음성 커맨드(명령)인 경우, 마이크로폰(110)은 음성 명령의 오디오를 캡처하고 캡처된 오디오를 음성/오디오 인식 모듈(202)로 전달한다. 그러면 인식된 음성(speech)는 적당한 오디오 이벤트 메시지를 생성하는데 사용될 것이다. 일 실시 예에서, 인식된 음성 커맨드는 커맨드가 해석되기 위해 커맨드 앞에 있는 트리거 단어 또는 문구(phrase)(예: “하이 알렉사(hi Alexa)”)를 포함할 필요가 없다. 따라서, 일 실시 예에서, 마이크로폰은 항상 활성화되고, 그리고 음성 인식 모듈은 계속해서 인식된 커맨드들에 대한 오디오를 처리한다. 음성 커맨드는 또한 커맨드가 향해진 장치의 식별을 포함할 필요가 없다(예: “켜기” 커맨드에서 “TV”의 식별). 필수는 아니지만, 사용자가 원하는 경우, 특히 교환 가능한 멀티모달 인간 인터랙션 시스템이 핵심 단어(key word)들 또는 문구들을 필요로 하는 기존의 음성 제어 시스템과 하위 호환(backward compatible)되는 경우, 사용자는 그럼에도 불구하고 트리거 단어 또는 문구를 제공하거나 또는 장치를 특정하게 식별할 수 있다.

음성 커맨드들에 더하여, 마이크로폰(110)은 사용자의 입(예: “쉿” 소리), 손(예: 박수 소리) 및/또는 손가락(예: 딱하는 소리)을 통해 생성된 다른 오디오 커맨드들을 또한 캡처할 수 있다. 음성/오디오 인식 모듈은 인식된 오디오에 응답하여 적당한 오디오 이벤트 메시지를 생성한다.

사용자가 다른 물리적 인터랙션들을 통해 방에서의 장치들과 상호 작용함에 따라, 응답으로 생성된 제스처 또는 오디오 이벤트 메시지들은 컨트롤러(111)로 추가 처리를 위해 전달된다. 사용자의 물리적 인터랙션들에 해당(대응)하는 다른 이벤트 메시지들은 사용자가 장치와 상호작용할지 선택한 방식에 따라 임의의 순서로 올 수 있다. 예를 들어, 인터랙션들은 제스처에 이어 음성일 수 있고, 제스처에 이어 시선, 또는 시선에 이어 음성일 수 있다. 다른 멀티모달 인터랙션들은 사용자에 의해 동시에 수행될 수 있다.

일 실시 예에서, 이벤트 메시지들은 제어될 장치의 커뮤니케이션(통신) 세션을 시작 또는 끝을 트리거하고, 상태 머신들의 다양한 상태들/모드들을 통해서 장치를 더 진전시킨다. 이벤트 메시지들이 수신되고 다양한 상태를 통해 장치가 진행됨에 따라, 컨트롤러(111)은 제어될 장치와 제어될 장치로 향해질 제어 커맨드를 결정한다. 일 실시예에서, 컨트롤러(111)은 식별된 장치와 제어 커맨드를 기반으로 하여 컴퓨터 입력 커맨드를 생성한다. 생성된 컴퓨터 입력 커맨드는 적당한 멀티모달 애플리케이션(204)로 데이터 네트워크를 통해서 명령된 장치 제어를 유발하기 위해 전송된다.

일 실시 예에서, 컴퓨터 입력 커맨드를 생성하는 것은 이벤트 메시지들을 제어될 장치의 네이티브(native) 컴퓨터 입력 커맨드들로 번역(변환)시키는 것을 포함한다. 이와 관련하여, 컨트롤러(111)는 제어될 장치들의 네이티브 스키마(native schema)에서의 대응하는 컴퓨터 입력 커맨드들에 매핑되는 입력 이벤트 메시지들의 세트를 저장하기 위해 구성되는 커맨드 저장소(repository)를 포함할 수 있다. 예를 들어, “인덱스 업(100mm)”을 가리키는 제스처 입력 메시지는, 커맨드 저장소에 있는 정보들에 기반으로, “볼륨 증가(10dBA)”를 가리키는 컴퓨터 입력 커맨드로 번역될 수 있다.

일 실시 예에서, 멀티모달 애플리케이션(204)은, 예를 들어, 컨트롤러(111) 또는 허브(106)과 같은 중앙 위치에 소프트웨어 모듈로서 설치된다. 컨트롤러는 제어될 장치에 따라 적당한 멀티모달 애플리케이션으로 컴퓨터 입력 커맨드를 전송할 수 있다. 커맨드를 수신하면, 멀티모달 애플리케이션은 컴퓨터 입력 커맨드(예: 전원 켜기/끄기, 볼륨 증가/감소, 중지/재생 등)가 지시하는 기능을 수행하기 위한 신호를 장치에 전송한다.

도 3은 하나의 예시적인 실시 예에 따른 교환 가능한 멀티모달 인간 인터랙션들을 통해 장치(102, 114)들의 제어를 가능하게 하기 위해 컨트롤러 (111)에 의해 실행되는 상태 머신(300)의 상태도이다. 논의의 용이성을 위해, 가능한 멀티모달 인터랙션들은 제스처와 음성으로 간주된다. 물론, 위에서 논의한 바와 같이, 시선은 사용자에 의해 제공되는 또 다른 멀티모달 인터랙션의 타입일 수도 있다.

상태 머신(300)은 컨트롤러가 사용자의 물리적 인터랙션을 대기/ 모니터링하는 초기 상태(302)에서 시작한다. 컨트롤러에 의해 처음 수신되는 물리적 인터랙션은 제어될 장치를 선택하는 제스처 또는 수행될 기능을 나타내는 음성 커맨드(먼저 장치를 선택하는 것 없이)일 수 있다.

초기 물리적 인터랙션이 장치(102, 112)의 선택을 가리키는 제스처인 경우, 동작(act)(304)에서 제스처에 대응하는 제스처 이벤트 메시지가 수신되고, 컨트롤러가 장치를 위한 통신 세션을 시작한다. 일 실시 예에서, 컨트롤러에 의해 유지되는 클럭(clock)은 통신 세션의 시작에서 시작하도록 신호를 받는다.

세션을 시작하는 것에 추가하여, 상태 머신은 선택 상태(306)로 천이하는데, 여기서 상태 머신은 장치에서 수행될 제어를 나타내는 사용자 물리적 인터랙션을 기다린다. 일 실시 예에서, 컨트롤러(111)는 사용자 물리적 인터랙션이 동작(308)에서 감지될 때까지, 또는 세션이 동작(310)에서 만료될 때까지 그러한 인터랙션을 대기/모니터링한다. 세션은, 예를 들어, 사용자가 구성할 수 있는 특정 시간, 예를 들어, 5초 후에 만료될 수 있다.

동작(308)에서 감지된 사용자 물리적 인터랙션은 선택된 장치에서 수행될 제어를 가리키는 음성 커맨드 또는 제스처일 수 있다. 동작(308)에서 사용자 물리적 인터랙션을 가리키는 이벤트 메시지의 수신에 응답하여, 상태 머신은 장치 제어 상태(312)로 천이한다. 장치 제어 상태(312)에서 컨트롤러는 음성 또는 제스처 이벤트 메시지를 처리하고, 그리고, 데이터 네트워크를 통해, 대응하는 컴퓨터 입력 커맨드를 커맨드 실행을 위해 식별된 장치의 멀티모달 애플리케이션(204)에 전달한다.

세션이 만료되거나 또는 세션 폐쇄(close) 제스처가 수신될 때까지 상태 머신은 장치 제어 상태(312)에서 머무르고, 그 후 상태 머신은 상태 재설정(reset) 상태(314)로 천이한다. 세션은 상태 머신이 상태 재설정 상태로 천이될 때 동작(315)에서 완료되고, 상태 머신은 컨트롤러가 다른 물리적 사용자 인터랙션을 기다리는 초기 상태(302)로 돌아간다.

다시 초기 상태(302)를 참조하면, 만약 초기 상태에서 수신되는 초기 사용자 물리적 인터랙션이 음성 제어 커맨드(316)(예: 전원 켜기/끄기, 열기/닫기, 볼륨 올리기, 등)에 대응하는 오디오 이벤트 메시지인 경우, 상태 머신은 선택 상태(318)로 천이하는데, 여기서 상태 머신은 방에서의 장치(102,112)를 식별하는 사용자 물리적 인터랙션을 기다린다. 통신(커뮤니케이션) 세션은 또한 음성 제어 명령에 응답하여 초기화된다.

일 실시 예에서, 컨트롤러(111)는 물리적 인터랙션이 동작(320)에서 감지될 때까지, 또는 세션이 동작(322)에서 만료될 때까지 그러한 사용자 물리적 인터랙션을 기다린다. 이와 관련하여, 제어 커맨드는 장치의 식별 이전에 먼저 수신되기 때문에, 컨트롤러는 장치가 식별되거나 또는 세션이 만료될 때까지 인식된 음성 제어 커맨드를 버퍼(또는 유사한 데이터 저장소)에 저장한다.

일 실시 예에서, 동작(320)에서 장치를 식별하는 사용자 물리적 인터랙션은 카메라(109)에서 캡처되는 제스처(예: 장치를 가리키는 집게 손가락)이다. 일부 실시 예들에서, 사용자(104)는 눈 움직임(예: 시선)을 장치(102,112)를 선택하기 위해서 이용할 수 있다. 장치가 선택되면, 초기화된 통신 세션은 선택된 장치와 연결(연관)된다. 또한, 컨트롤러(111)는 동작(316)에서 수신된 저장된 음성 컨트롤 커맨드를 회수하고, 음성 제어 커맨드에 대한 컴퓨터 입력 커맨드를 식별하고(예: 선택된 장치에 기반하여), 그리고 커맨드의 실행을 위해, 컴퓨터 입력 커맨드를 적절한 멀티모달 애플리케이션(204)에 데이터 네트워크를 통해서 전달한다.

일 예에서, 만약 시선이 장치 선택에 사용된다면, 특별한 제스처는 장치를 장치 제어 상태(312)로 천이시키기 위해 시선을 동반할 수 있다. 특별한 제스처는, 예를 들어, 사용자의 주먹을 여는(펴는) 것일 수 있다. 제어 상태가 되면, 일반 제스처들은 장치를 제어하는 것에 사용될 수 있다. 세션은 시선과 함께 주먹 닫기(쥐기) 제스처로 끝날 수 있다(terminated).

일 실시 예에서, 교환 가능한 멀티모달 인간 인터랙션 시스템은 기존의 음성 인터랙션 시스템과 하위 호환된다. 이와 관련하여, 동작(324)에서, 장치 선택과 제어 커맨드 모두는 음성을 통해 제공된다. 수신 시, 상태 머신은 제어 커맨드에 따라 장치를 제어하기 위해 장치 제어 상태(312)로 바로 천이할 수 있다.

다양한 실시 예들에서, 다양한 실시 예에 따른 멀티모달 인터랙션들은 미리 설정된 시퀀스 또는 순서를 따를 필요가 없고, 하지만 개별 사용자에게 자연스러운 순서에 따라 수행될 수 있다. 따라서 물리적 인터랙션들의 순서는 교환 가능하다. 예를 들어, 한 인터랙션 동안, 다른 제스처 또는 음성을 통해 나중에 제공되는 장치 제어 커맨드와 함께, 장치 선택은 첫 번째로 수행될 수 있다. 다른 인터랙션 동안, 장치에 의해 수행되는 기능의 음성 커맨드는 장치가 선택되기 전에 맨 먼저 올 수 있고, 그리고 장치의 선택은 제스처 또는 시선을 통해 나중에 제공될 수 있다. 또 다른 인터랙션 동안, 음성 커맨드와 제스처 장치 선택은 서로 동시에 제공될 수 있다.

더욱이, 방에서의 다양한 장치들의 세션-기반 제어는 다른 제어 시스템들과 비교할 때 더 신뢰할 수 있고 정확한 장치의 제어를 제공하는 것을 돕는다. 일 실시 예에 따르면, 만약 장치(102,114)가 다음 인간 물리적 인터랙션을 기다리는 선택 상태(306, 318)에 있으면, 장치가 장치 제어 상태(312)로 천이될 때까지 방에서의 다른 장치에 대한 다른 세션은 시작되지 않는다. 예를 들어, TV(102b)의 제스처 장치 선택은 TV에 대한 세션을 시작하고 상태 머신을 TV가 다른 제스처 또는 음성을 통한 제어 커맨드를 기다리는 선택 상태(306)로 천이시킨다. 컨트롤러(111)이 제어 커맨드를 기다리는 동안, 예를 들어, 램프(102c)를 선택하려고 시도하는 다른 제스처는 컨트롤러(111)에 의해 무시된다. 일 실시 예에서, TV의 세션의 만료 이전에 사용자가 TV(102b)에 대한 적절한 제어 커맨드를 제공하면, 사용자는 램프(예: 제스처 또는 음성을 통해서)와의 세션을 시작한다. 대안적인 실시 예에서, 컨트롤러(111)는 램프와의 세션의 시작을 허락하기 이전에 TV와의 세션이 끝나는 것을 기다린다. 따라서, 본 개시의 실시 예들은 장치들의 제어의 신뢰성을 향상시킴으로써 방에서의 장치들의 멀티모달 제어에 대한 기술적 개선들을 제공한다.

일 실시 예에서, 교환 가능한 멀티모달 인터랙션들은 방의 연결된 장치들(102)뿐만 아니라 방 밖에 있는 특정 장치들을 제어하기 위해 사용될 수 있다. 방 외부에서 제어될 수 있는 장치들은 방에서의 프록시 장치(112)와 링크되는 장치들(114)(예: 세탁기)과 링크된다. 이와 관련하여, 링크된 장치(114)를 제어하고 싶어하는 사용자는 방에서의 프록시 장치(112)와의 교환가능한 멀티모달 인터랙션들에 참여한다. 컨트롤러(111)은 프록시 장치(112)로 향하는 사용자 물리적 인터랙션들이 링크된 장치(114)들을 위한 것임을 인지하기 위해 구성된다. 이 경우, 컨트롤러는 제어 커맨드들을 프록시 장치(112) 대신에 링크된 장치(114)를 제어하는 멀티모달 애플리케이션으로 전달한다.

도 4는 일 실시 예에 따른 프록시 장치(112)를 포함하는 방에서의 장치들과 교환가능한 멀티모달 인터랙션들의 프로세스의 흐름도이다. 동작(400)에서, 컨트롤러는 프록시 장치(112)로 향하는 적어도 두 개의 멀티모달 물리적 인터랙션들을 모니터링 및 수신한다. 멀티모달 물리적 인터랙션들의 순서는 미리 설정된 순서를 따를 필요가 없고, 그리고 제스처, 음성 및/또는 시선의 조합으로 구성될 수 있다. 프록시 장치(112)로 향하는 수신된 물리적 인터랙션들을 기반으로 한 상태 머신(300)의 천이는 도 3에 대하여 설명된 바와 같을 수 있다.

프록시 장치(112)가 식별되고, 그리고 제어 커맨드가 수신되면, 동작(402)에서 컨트롤러(111)는 제어 커맨드를 다른 장치에 중계할지 여부를 결정한다. 이와 관련하여, 컨트롤러(111)는 식별된 프록시 장치(112)가 다른 연결된 장치(예: 링크된 장치(114))에 링크되는지 여부를 결정하기 위해서 장치 저장소를 검색한다. 일 실시 예에서, 장치들의 링크는 시스템의 셋업(setup)동안 사용자의 모바일 장치(106)에 애플리케이션을 통해서 발생할 수 있다. 만약 프록시 장치(112)가 다른 연결된 장치와 링크된다면, 컨트롤러(111)는 제어 커맨드가 링크된 장치(114)에 중계될 것이라고 결론을 내린다.

프록시 장치(112) 자체가 멀티모달 인터랙션을 통해서 제어될 수 있는 실시 예에서, 컨트롤러(111)는 커맨드들이 프록시 장치 자체 대신 링크된 장치를 위한 것임을 나타내기 위해 키워드, 문구, 또는 제스처가 제공되었는지 여부를 더 결정한다. 컨트롤러(111)는 이러한 키워드, 문구, 또는 제스처들을 감지하는 것에 응답하여 제어 커맨드들이 링크된 장치(114)에 중계될 것이라고 결정을 내린다.

동작(404)에서, 컨트롤러는 예를 들어, 링크된 장치(114)의 네이티브 스키마(native schema)에서 대응하는 컴퓨터 입력 명령들에 매핑되는 입력 이벤트 메시지 세트를 저장하는 명령 저장소를 포함하는 링크된 장치(114)에 대한 정보를 회수한다.

동작(406)에서, 컨트롤러(111)은 커맨드 저장소의 매핑을 기반으로 링크된 장치(114)에 대한 컴퓨터 입력 커맨드를 생성한다.

동작(408)에서, 컨트롤러(111)은 생성된 입력 커맨드를, 데이터 네트워크를 통해 링크된 장치(114)와 연관된 멀티모달 애플리케이션(204)으로 전달한다. 링크된 장치(114)에 대한 멀티모달 애플리케이션(204)은, 예를 들어, 장치 자체, 또는 허브(106)에서 호스트될 것이다. 그 다음, 멀티모달 애플리케이션은 컴퓨터 입력 커맨드에 대응하는 기능을 수행하기 위해서 적절한 신호들을 링크된 장치(114)로 전달한다.

동작(402)를 다시 참조하면, 만약 인터랙션들이 프록시 장치(112)와의 관계가 아니면, 컨트롤러(111)는 제어 커맨드들을 다른 장치로 중계할 필요가 없다고 결정한다. 이 경우, 동작(410)에서, 컨트롤러(111)는 예를 들어, 연결된 장치(102)의 네이티브 스키마(native schema)에서(의) 대응하는 컴퓨터 입력 커맨드들에 매핑되는 입력 이벤트 메시지들의 세트를 보관하는 커맨드 저장소를 포함하는, 멀티모달 인터랙션들이 향하게 되는 연결된 장치(102)에 대한 정보를 회수한다.

동작(412)에서, 컨트롤러(111)는 커맨드 저장소의 매핑을 기반으로 연결된 장치(102)에 대한 컴퓨터 입력 커맨드를 생성한다.

동작(414)에서, 컨트롤러(111)는 생성된 입력 커맨드를, 데이터 네트워크를 통해 연결된 장치(102)와 연관된 멀티모달 애플리케이션(204)으로 전달한다. 연결된 장치(102)에 대한 멀티모달 애플리케이션(204)은, 예를 들어, 장치 자체, 또는 허브(106)에서 호스트될 수 있다. 그 다음, 멀티모달 애플리케이션은 컴퓨터 입력 커맨드에 대응하는 기능을 수행하기 위해서 적절한 신호들을 연결된 장치(102)로 전달한다.

도 5는 일 실시 예에 따른 방(100)에서 객체의 3D맵을 생성하는 프로세스의 흐름도이다. 동작(500)에서, 사용자(104)는 예를 들어, 사용자의 모바일 장치(116)로부터 적절한 애플리케이션을 호출한다. 애플리케이션은 컨트롤러(111)의 구매 시(독립형(stand-alone) 애플리케이션으로서) 또는 컨트롤러를 호스팅하는 장치(예: TV(102b))의 구매 시 사용자의 모바일 장치에 다운로드 될 수 있다.

일 실시 예에서, 애플리케이션은 3D 맵을 생성하기 위한 명령어들을 사용자(104)에게 제공한다. 예를 들어, 애플리케이션은 사용자에게 방(100)의 가운데에 서도록 지시할 수 있고, 그리고 사용자의 모바일 장치(116)에 설치된 카메라를 호출하여 동작(502)에서, 방에서의 객체들을 스캔할 수 있다. 객체들을 스캔하는 것은 객체들의 이미지들을 캡처 또는 스냅핑(snapping)하는 것, 또는 단지 객체들을 카메라의 관측 시야(field of view)에 배치하는 것을 수반할 수 있다.

동작(504)에서, 애플리케이션은 방에서의 스캔된 객체들의 위치를 묘사하는 3D맵을 생성한다. 3D 맵은, 예를 들어, 모바일 장치(116)의 포지션과 관련하여 방에서의 객체들의 X, Y, Z 위치를 제공할 수 있다.

동작(506)에서, X, Y, Z 위치와 함께 스캔된 객체들의 이미지들이 데이터 통신 네트워크를 통해 서버(108)에 업로드된다.

동작(508)에서, 3D 맵은, 예를 들어, 컨트롤러(111)에 의해 다운로드 되고, 제스처 인식 모듈(200)로 전달된다. 일부 실시 예들에서, 3D 맵은 제스처 인식 모듈(200) 자체에 의해, 또는 멀티모달 인터랙션 동안 사용자 제스처들을 캡처하기 위해 사용되는 카메라(109)에 결합된 다른 소프트웨어 모듈에 의해 다운로드 된다.

동작(510)에서, 컨트롤러(111)(또는 제스처 인식 모듈(200))는 위치가 모바일 장치(116) 대신에 카메라(109)와 관련되도록 다양한 객체들의 X, Y, Z 위치를 수정한다. 이와 관련하여, 컨트롤러(111)는 모바일 장치(116)와 관련하여 카메라(109)의 위치를 결정하고, 이러한 정보를 사용하여 방에 있는 다른 객체들의 X, Y, Z 위치에 적용될 오프셋 매트릭스를 생성한다.

동작(512)에서, 객체들의 오프셋 위치 정보는 사용자(104)에 의한 시선의 방향 또는 제스처들을 기반으로 객체들을 식별하기 위한 제스처 인식 모듈(200) 액세스를 위해 저장된다.

일부 실시 예들에서, 컨트롤러(111), 멀티모달 애플리케이션(204), 그리고 다양한 모듈들, 서버들, 그리고 위에서 논의된 연결된 장치들은 하나 이상의 프로세싱(processing) 회로들에서 구현된다. 여기서 용어 “프로세싱 회로”는 데이터 또는 디지털 신호들을 처리하기 위해 이용되는 하드웨어, 펌웨어, 그리고 소프트웨어의 임의의 조합을 의미하기 위해 사용된다. 프로세싱 회로 하드웨어는, 예를 들어, 애플리케이션 주문형 반도체들(application specific integrated circuits)(ASICs), 범용 또는 특수 목적 중앙 처리 장치들(CPUs), 디지털 신호 프로세서들(DSPs), 그래픽 처리 장치들(GPUs), 그리고 필드 설계 가능 게이트 어레이들(field programmable gate arrays)(FPGAs)과 같은 설계 가능 논리 소자들(programmable logic devices) 포함할 수 있다. 프로세싱 회로에서, 여기서 사용되는, 각 기능은 해당 기능을 수행하도록 구성된 하드웨어, 즉, 하드 와이어(hard-wired), 또는 CPU와 같은, 비-일시적 저장 매체(non-transitory storage medium)에 저장된 명령들을 실행하도록 구성된 더 일반적인 목적의 하드웨어에 의해 수행된다. 프로세싱 회로는 단일 인쇄 회로 기판(single printed circuit board)(PCB)으로 제작되거나 또는 여러 개의 상호 연결된 PCB들에 분산될 수 있다. 프로세싱 회로는 다른 프로세싱 회로들을 포함할 수 있다; 예를 들어 프로세싱 회로가, PCB에 상호 연결된 2개의 프로세싱 회로들, FPGA 그리고 CPU를 포함할 수 있다.

본 명세서에서 사용된 용어들은 단지 특정한 실시 예들을 설명하기 위한 것이고, 본 발명을 제한하려는 것으로 의도되지 않았다. 본 명세서에서 사용된 바와 같이, “대체로”, “약”, 및 이와 유사한 용어들은 근사치의 용어들로서 사용되고, 정도의 용어들로서 사용되지 않고. 본 발명의 통상의 기술자에 의해 식별되는 측정된 또는 계산된 값들의 고유한 변동을 고려하기 위한 것이다.

본 명세서에서 사용된 바와 같이, 문맥상 명백하게 다르게 뜻하지 않는 한, 단수 형태 “하나”는 복수의 형태도 포함하는 것으로 의도된다. “구성되는”, 및/또는 “구성되고 있는” 용어들이 본 명세서에서 사용될 때, 이러한 용어들은 정해진 특징들, 정수들, 단계들, 동작들, 요소들, 그리고/또는 성분들이 존재를 명시하나, 하나 또는 그 이상의 다른 특징들, 정수들, 단계들, 동작들, 요소들, 성분들, 그리고/또는 그것들의 그룹들의 추가 또는 존재를 불가능하게 하지 않는다. 본 명세서에서 사용된 바와 같이, “및/또는” 용어는 하나 또는 그 이상의 열거된 항목들과 연관된 임의의 그리고 모든 조합들 포함한다. “적어도 하나”와 같은 표현들은 요소들 전체 리스트를 수정하고 그리고 리스트의 개별 요소들을 수정하지 않는다. 또한, 본 발명의 실시 예들을 기술할 때 "할 수 있다"의 사용은 "본 발명의 하나 이상의 실시 예들"을 의미한다. 또한, "예시" 용어는 예 또는 그림을 의미한다. 본 명세서에서 사용된 바와 같이, “사용”, “사용되는”, 그리고 “사용된” 용어들은 “이용”, “이용되는”, 그리고 “이용된” 용어들의 동의어로 각각 간주될 수 있다.

모델 인스턴스들(model instances)에 대한 지식 증류(knowledge distillation)를 위한 시스템 및 방법의 예시적인 실시 예들이 구체적으로 설명되고 되었음에도 불구하고, 많은 수정들과 변형들은 통상의 기술자에게 명백할 것이다. 따라서, 본 개시의 원리에 따라 구성된 지식 증류를 위한 시스템 및 방법은 여기서 구체적으로 설명된 것과 다른 방법으로 구현될 수 있음이 이해되어야 한다. 본 개시는 또한 다음의 청구 범위 및 그 균등물(equivalent)들에서 정의된다.

Claims

전자 장치를 제어하는 방법에 있어서:
제1 시점에 제공되는 제1 사용자 물리적 인터랙션(interaction)을 모니터링(monitoring) 및 수신하는 단계;
상기 제1 사용자 물리적 인터랙션의 타입을 결정하는 단계;
상기 제1 사용자 물리적 인터랙션이 제1 타입이라고 결정한 것에 응답하여:
상기 제1 시점에 제공된 상기 제1 사용자 물리적 인터랙션을 기반으로 장치를 식별하고;
상기 장치에 대한 세션(session)을 시작하고;
상기 세션이 만료되지 않은 동안, 상기 제1 타입과 상이한 제2 타입의 제2 시점에 제공되는 제2 사용자 물리적 인터랙션을 모니터링 및 수신하고; 그리고
상기 제2 시점에 제공된 상기 제2 사용자 물리적 인터랙션을 기반으로 커맨드를 식별하고;
상기 제1 사용자의 물리적 인터랙션이 상기 제2 타입이라고 결정한 것에 응답하여:
상기 제1 시점에 제공된 상기 제1 사용자 물리적 인터랙션을 기반으로 상기 커맨드를 식별하고;
상기 커맨드를 데이터 저장소(data store)에 저장하고;
상기 장치에 대한 상기 세션을 시작하고;
상기 세션이 만료되지 않은 동안, 상기 제2 시점에 제공되는 상기 제1 타입의 제3 사용자 물리적 인터랙션을 모니터링 및 수신하고; 그리고
상기 제2 시점에 제공된 상기 제3 사용자 물리적 인터랙션을 기반으로 상기 장치를 식별하고; 및
상기 커맨드에 따라 상기 장치를 제어하는 상기 커맨드를 전송하는 단계를 포함하는 방법.
제 1 항에 있어서,
상기 제1 타입은 제스처(gesture) 또는 눈 움직임이고, 그리고 상기 제2 타입은 음성(voice)인 방법.
제 1 항에 있어서,
상기 장치에 대한 상기 세션을 시작하는 단계는:
다른 장치에 만료되지 않은 세션이 존재하는지 결정하는 단계;
상기 만료되지 않은 세션의 상태를 식별하는 단계; 및
상기 만료되지 않은 세션의 상기 상태를 기반으로 상기 세션을 시작하는 단계를 포함하는 방법.
제 1 항에 있어서,
모바일 장치에서 카메라 호출(invoke)하는 단계;
상기 카메라를 통해 밀폐된 공간에서 상기 장치 및 복수의 다른 전자 장치들의 이미지들을 감지하는 단계; 및
사용자의 제스처들을 식별하기 위해 호출된 제2 카메라와 관련된 상기 장치 및 상기 복수의 다른 전자 장치들 각각의 위치를 자동으로 결정하는 단계를 더 포함하는 방법.
제 1 항에 있어서,
상기 제1, 제2 및 제3 사용자의 물리적 인터랙션들은 상기 장치와 다른 제2 장치로 향하도록 결정되고, 그리고 상기 장치의 식별은 상기 제2 장치와 상기 장치를 상관시키는 정보를 회수하는 것을 포함하는 방법.
제 1 항에 있어서,
상기 제1 시점은 상기 제2 시점과 동시인 방법.
제 1 항에 있어서,
상기 제2 시점은 상기 제1 시점보다 늦은 방법.
제 1 항에 있어서,
상기 커맨드는 상기 장치의 속성(attribute)을 수정하기 위한 것인 방법.
제 1 항에 있어서,
상기 제1 사용자 물리적 인터랙션이 상기 제1 타입이라는 결정에 응답하여, 상기 장치와 연관된 상태 머신(state machine)을 제어 커맨드에 대응하는 사용자로부터의 다음 물리적 인터랙션을 기대하는 상태로 천이(transition)하는 방법.
제 1 항에 있어서,
인터랙션의 상기 제1 타입이 상기 제2 타입이라는 결정에 응답하여, 상기 장치와 연관된 상태 머신을 특정 장치의 선택에 대응하는 상기 사용자로부터의 다음 물리적 인터랙션을 기대하는 상태로 천이하는 방법.