KR102225411B1

KR102225411B1 - 다중모드 신호 분석을 이용한 명령 프로세싱

Info

Publication number: KR102225411B1
Application number: KR1020197004808A
Authority: KR
Inventors: 울프 킨즐; 더글라스 에이. 보우만
Original assignee: 애플 인크.
Priority date: 2016-08-15
Filing date: 2017-08-15
Publication date: 2021-03-08
Also published as: WO2018035111A1; CN115273252A; EP3485351A1; US20210081650A1; EP3485351B1; CN109643158B; US10832031B2; CN109643158A; KR20190030731A; US20180046851A1

Abstract

시간 간격 동안 (시선의 방향과 같은) 제1 신호 모달리티에 대응하는 신호들의 제1 세트가 개인으로부터 수집된다. (개인에 의해 행해진 손-포인팅 제스처들과 같은) 상이한 신호 모달리티에 대응하는 신호들의 제2 세트가 또한 수집된다. 명령 - 이 명령은 명령이 지향되는 특정 대상을 식별하지 않음 - 에 응답하여, 신호들의 제1 및 제2 세트가 관심 후보 대상들을 식별하기 위해 사용되고, 후보들로부터 선택된 대상과 연관된 동작이 수행된다.

Description

다중모드 신호 분석을 이용한 명령 프로세싱

본 발명은 일반적으로 자연스러운 인간 움직임들 및 대화 질의들을 검출하고 그에 응답하도록 설계된 시스템에 관한 것으로서, 더 구체적으로는, 제스처들 및 시선 방향들과 같은 여러 유형들의 신호들의 조합으로부터 획득된 잠재적으로 부정확한 단서들을 이용하여 개인에 대한 관심 엔티티들을 식별하고 이에 따라 동작하도록 설계된 시스템들에 관한 것이다.

일부 컴퓨터 게임 시스템을 포함하는 몇몇 시스템들은 특정 유형들의 인간 제스처들 또는 움직임들을 검출하는 기법들을 구현하였다. 그러나, 많은 경우들에서, 이들 시스템들에서의 움직임들 및 스피치의 해석은 전형적으로 (플레이되고 있는 특정 게임, 또는 손에 쥐고 있어야 하는 특정 입력 디바이스의 움직임과 같은) 매우 구체적인 도메인들 및 위치들로 제한된다(예컨대, 시스템과 상호작용하는 개인들은 단일 룸 내의 특정 카메라 각도 범위 내에 위치되어야 할 수 있다). 일부 가상 현실 시스템들은 사용자들이 자신들을 선택된 환경들에 몰입시킬 수 있게 할 수 있지만, 최선의 경우라도 자연적 인간 행동들이 일반적인 목적들을 위해 그러한 시스템들 내에서 사용될 수 있는 정도는 제한된다.

개인들에 의한 (예컨대, 자연 언어로 표현된) 명령들 및 질의들을 프로세싱하기 위해 다중모드 신호 분석을 사용하는 방법들 및 장치의 다양한 실시예들이 기술된다. 적어도 일부 실시예들에서, 방법은 적어도 특정 시간 간격 동안 제1 신호 모달리티(modality)(예컨대, 개인의 시선의 방향)에 대응하는 신호들의 제1 세트를 획득하는 단계를 포함할 수 있다. 본 방법은 또한, 손 포인팅 제스처들 또는 끄덕임과 같은 머리 움직임들과 같은 상이한 신호 모달리티에 대응하는 신호들의 제2 세트를 획득하는 단계를 포함할 수 있다. 획득된 데이터 세트들 중 하나 또는 둘 모두는 일부 실시예들에서 타이밍 정보를 포함할 수 있는데, 예컨대, 다양한 제스처들이 행해진 특정 시간들 또는 특정 양의 시간 동안 시선 방향이 고정적으로 머문 때가 데이터 세트들 내에 표시될 수 있다. 명령, 예컨대, 명령이 지향되는 타겟 대상을 명시적으로, 결정적으로 또는 확정적으로 식별하지 않은 개인으로부터의 음성 명령에 응답하여, 방법은 하나 이상의 관심 후보 대상들을 식별하기 위해 제1 및/또는 제2 데이터 세트들을 이용하는 단계, 및 하나 이상의 후보들 중의 선택된 대상과 연관된 동작이 수행되게 하는 단계를 포함할 수 있다. 적어도 일부 실시예들에서, 모달리티들 중 하나 이상에 대응하는 유용한 신호 데이터가 적어도 일부 시간 기간에 대해 누락될 수 있으며, 이 경우에 후보 대상들은 이용가능한 데이터를 사용하여 식별될 수 있다. 예를 들어, 시선 및 제스처가 선택의 모달리티들인 실시예에서, 시선 신호들이 이용가능하지 않지만 제스처 신호들은 일부 시간 기간에 걸쳐 이용가능한 경우, 제스처 신호들이 사용될 수 있다(그리고 그 반대도 마찬가지임). 명령과 연관된 일부 시간 기간에 대해 시선 데이터 또는 제스처 데이터 어느 것도 이용가능하지 않지만 개인의 외부 환경의 비디오가 이용가능하면, 임의의 방향적 특이성이 없이, 비디오 단독으로부터 관심 후보 대상들을 식별하기 위한 최상의 노력이 이루어질 수 있다. 일부 실시예들에서, 명령은 스피치 또는 음성 이외의 모달리티로, 예컨대, 수화(sign) 언어를 통해 또는 터치 스크린 인터페이스를 사용하여, 표현될 수 있다. 일반적으로 말하면, 다양한 실시예들에서 사용되는 기법들은 명령들 또는 질의들에 응답하는 다양한 신호 모달리티들 중 임의의 것에 대응하는 신호들을 분석하는 것을 수반할 수 있고, 제스처, 시선 또는 음성과 같은 특정 모달리티들로 제한되지 않는다.

본 명세서에 사용되는 바와 같이, 용어 대상은 일반적으로 무생물들, 생명이 있는 개체들(예를 들어, 동물, 인간, 또는 식물을 포함함) 및/또는 장소들을 지칭할 수 있으며, 이들 중 임의의 것이 명령이 지향되는 타겟을 나타낼 수 있다. 일부 경우들에서, 동작은 단순히 선택된 대상을 명명하는 것을 포함할 수 있다 - 예컨대, 명령이 음성 질의 "저것이 무엇이었지?"를 포함하는 경우, 응답은 "저것은 라마였습니다"와 같은 음성 응답을 생성함으로써 이름 또는 식별자를 제공하는 것을 포함할 수 있다. 다른 경우들에 있어서, 더 복잡한 동작들이 수행될 수 있다 - 예컨대, 스스로 주차하도록 구비된 자동차에서 개인에 의해 발행된 명령 "저기에 주차해"에 응답하여, 방법은 단어 "저기"에 대응하는 주차 지점을 식별하는 단계, 및 식별된 주차 지점에서 자동차의 주차를 개시하는 단계를 포함할 수 있다. 일반적으로, 다양한 실시예들에서, 타겟 대상들 또는 장소들은, 개인이 제한된 인터페이스 세트를 활용할 것을 요구하지 않고, 자연적인 움직임들 및 자연 언어의 분석에 기초하여 식별되고 이에 따라 동작될 수 있다. "이것" 또는 "저것"을 포함하는 지시 대명사 또는 "여기" 또는 "저기"와 같은 상대적 장소의 부사와 같은 부정확한 언어가 다양한 실시예에서 명령들에 사용될 수 있고, 명령들을 프로세싱하는 컴퓨팅 디바이스들의 책임들 중 하나는, 정확도 및 적시성의 어느 정도의 목표 레벨을 갖고, 명령들이 지향되는 부정확하게 지시된 대상들을 식별하는 것을 포함할 수 있다.

일부 실시예들에서, 방법은 명령이 시간상 과거 시점을 지칭한다고 결정하는 단계, 및 명령에 응답하기 위해(명령이 검출되거나 프로세싱되는 시간 이전의 선택된 시간 윈도우에 대응하는) 버퍼링된 신호 데이터를 이용하는 단계를 포함할 수 있다. 그러한 명령의 목표로서 식별된 특정 대상은 일부 경우들에서 동작이 개시되는 시간에 개인이 더 이상 볼 수 없다(또는 보이지 않는다). 다양한 실시예들에서 매우 다양한 신호 소스들이 채용될 수 있다 - 예컨대, 차량 내에 위치되는 카메라들, 마이크로폰들 등이 사용될 수 있고, 스마트 폰 센서들이 사용될 수 있고, 헤드셋 또는 안경과 같은 가상 현실(VR) 또는 증강 현실(AR) 장비가 사용될 수 있고, 시계 또는 피트니스 추적기와 같은 다른 웨어러블 디바이스들이 사용될 수 있고, 기타 등등이다. 제스처 신호들을 위해, 예를 들어, 비디오 및/또는 스틸 카메라들에 부가하여, 깊이 카메라들, 관성 센서들, 전자기 신호 검출기들, 초음파 신호 검출기들, 레이더 신호 검출기들 등과 같은 다양한 다른 소스들이 상이한 실시예들에서 사용될 수 있다. 유사하게, 시선 검출을 위해, 스틸 또는 비디오 카메라들에 부가하여, 비(non)-카메라-기반 광학 센서들 또는 EMG(근전도) 센서들이 일부 실시예들에서 사용될 수 있다. 일부 경우들에서, 여러 상이한 유형들의 소스들 또는 센서들로부터 수집된 신호들은 명령들을 프로세싱하기 위해 집합적으로 조사될 수 있다 - 예컨대, 차량 내의 카메라들로부터 수집된 신호들은 차량 내의 개인이 보유한 전화 디바이스로부터 수집된 신호들과 조합/상관될 수 있다. 예를 들어 터치 스크린들, 음성 합성기들 등을 포함하는 다양한 실시예들에서 명령들에 대한 응답들을 제공하기 위해 다양한 인터페이스들 또는 통신 기법들이 사용될 수 있다. 다수의 소스들로부터 수집된 신호 데이터는, 주어진 명령에 응답하기 위해 일부 실시예들에서 병렬적으로 프로세싱될 수 있다.

일 실시예에서, 시스템은 하나 이상의 센서 디바이스들 및 하나 이상의 명령 프로세싱 디바이스들을 포함할 수 있다. 센서 디바이스들은, 예를 들어, 하나 이상의 개인들에 관한 시선 및/또는 제스처 데이터 세트들(또는 개개의 신호 모달리티들에 대응하는 다른 유형들의 데이터 세트들)을 수집할 수 있다. 데이터 세트들 중 적어도 하나는 개인의 주의를 끌게된 하나 이상의 대상들이 위치되었던(또는 위치되는) 방향을 나타내는 정보를 포함할 수 있다. 명령에 응답하여, 명령 프로세싱 디바이스들은 센서 디바이스들에 의해 수집된 데이터 세트들을 분석할 수 있고, 명령이 지향될 수 있는 하나 이상의 관심 후보 대상들 또는 엔티티들을 식별할 수 있고, 후보들 중에서 선택된 특정 대상 또는 엔티티와 연관된 적어도 하나의 동작이 수행되게 할 수 있다. 일부 실시예들에서, 명령 프로세싱 동작들 중 적어도 일부는 센서 데이터가 수집되는 동일한 디바이스들 중 일부에서 수행될 수 있다. 상이한 실시예들에서, 명령에 응답하여, 선택된 대상을 명명하는 것, 대상의 사진 또는 비디오를 촬영하는 것, 선택된 대상에 관한 기호 또는 워드를 번역하는 것, 차량을 주차하거나 구동시키는 것, 거리 또는 고속도로 신호의 콘텐츠를 표시하는 것(이는 일부 경우에 언어 번역을 또한 수반할 수 있음) 등과 같은 매우 다양한 동작들이 수행될 수 있다. 다양한 실시예들에서, 명령 프로세싱 디바이스들은, 예컨대, 규칙들 또는 휴리스틱 또는 기계 학습 모델의 세트를 사용하여, 개개의 예측된 관심 점수들 또는 관련성 점수들을 상이한 후보 대상들에 할당하고, 적어도 부분적으로 그 점수에 기초하여 후보 대상들 중에서 대상을 선택할 수 있다. 일부 경우들에서, 명령의 타겟 대상으로서 선택된 특정 대상이 부정확하게 식별될 수 있고, 명령을 발행했던 개인은 선택된 대상이 명령이 지향되었던 대상이 아니었음을 나타내는 피드백을 제공할 수 있다. 그러한 시나리오에서, 일부 실시예들에서 반복적인 접근법이 채용될 수 있는데, 여기서 (예컨대, 원래의 후보 세트로부터, 또는 새로운 후보 세트로부터 그들 개개의 관심 점수들에 기초하여 선택된) 상이한 대상들이, 명령이 완수될 때까지 (또는 프로세싱 디바이스들, 명령 발행자 또는 이 둘 모두에 의해 명령의 추가적인 프로세싱을 피하는 결정이 이루어질 때까지) 순차적으로 작동될 수 있다. 일부 실시예들에서, 명령 프로세싱은 하나 이상의 카메라들로부터 스틸 또는 비디오 이미지를 획득하는 것 및 선택된 대상 인식 알고리즘들을 이미지들에 적용하는 것을 포함할 수 있다. 맵 데이터베이스들(다양한 빌딩들, 도로들, 지리적/지질학적 특징부들 등의 위치들을 나타낼 수 있음), 제품 데이터베이스들(예컨대, 다양한 차량 모델들 또는 동물들의 이미지들을 포함하는 데이터베이스들), 및/또는 다른 데이터베이스들(예컨대, 연락처 리스트 또는 다른 개인 프로파일 정보)과 같은 외부 데이터베이스들이 다양한 실시예들에서 적어도 일부 명령들을 프로세싱하기 위해 이용될 수 있다. 적어도 하나의 실시예에서, 명령은 관심 대상에 관한 특정 상세사항들에 대한 요청(예컨대, "그 레스토랑의 운영시간은 언제인가?")을 포함할 수 있다. 그러한 명령들에 응답하기 위해, 검색 엔진과 같은 인터넷 기반 데이터 소스가 이용될 수 있다.

일부 실시예들에 따르면, 비일시적 저장 매체는, 하나 이상의 프로세서들 상에서 실행될 때 하나 이상의 개인들로부터 각각의 신호 모달리티들을 나타내는 데이터 세트들을 획득하고 분석하는 프로그램 명령어들을 포함할 수 있다. 분석은 관심 후보 대상들을 식별하기 위해 사용될 수 있고, 선택된 관심 대상에 대한 동작이, 예컨대 명령에 응답하여, 수행될 수 있다. 일 실시예에서, 선택된 관심 대상은 가상 현실(VR)또는 증강 현실(AR) 환경에서 정의되는 가상 대상일 수 있다. 다양한 실시예들에서, 명령의 프로세싱은, 예컨대, 차량에 부착되거나 차량 내에 포함되는 카메라들과 같은 하나 이상의 센서 디바이스들을 포함하는 상이한 소스들로부터 수집된 데이터 세트들의 시간적 및/또는 공간 상관-기반 분석을 포함할 수 있다.

도 1은 적어도 일부 실시예들에 따른, 제스처 데이터 및 시선 데이터를 포함하는 개인으로부터 획득된 다수의 유형의 신호들이, 개인에 의해 발행된 잠재적으로 부정확한 자연 언어 질의들 또는 명령들에 응답하기 위해 집합적으로 분석될 수 있는 예시적인 시스템 환경을 도시한다.
도 2는 적어도 일부 실시예들에 따른, 차량의 탑승자들로부터의 음성 요청들에 응답하기 위해 분석될 수 있는 데이터를 수집할 수 있는 복수의 센서들을 포함하는 예시적인 차량 환경을 도시한다.
도 3은 적어도 일부 실시예들에 따른, 질의들이 프로세싱되는 시간에 더 이상 가시적이지 않을 수 있는 대상들에 지향된 질의들에 응답하기 위해 신호들이 버퍼링될 수 있는 기간들을 보여주는 예시적인 타임라인을 도시한다.
도 4는 적어도 일부 실시예들에 따른, 복수의 관심 후보 대상들에 대한 각각의 관심 점수들의 할당의 예를 도시한다.
도 5는 적어도 일부 실시예들에 따른, 제스처 검출기들, 시선 검출기들 및/또는 로컬 명령 프로세서들을 포함할 수 있는 휴대용 디바이스들의 예들을 도시한다.
도 6은 적어도 일부 실시예들에 따른, 명령 프로세서와 질의 또는 명령의 소스 사이의 명확화 관련 상호작용의 예를 도시한다.
도 7은 적어도 일부 실시예들에 따른, 제스처들 및 시선 변화들을 포함하는 다중모드 신호들을 해석하도록 설계된 시스템을 향해 지향될 수 있는 예시적인 명령들 및/또는 질의들을 도시한다.
도 8은 적어도 일부 실시예들에 따른, 다중모드 신호들을 획득하고 분석하는 명령 프로세서의 예시적인 서브컴포넌트들을 도시한다.
도 9는 적어도 일부 실시예들에 따른, 자연 언어 명령들 및 질의들에 응답하기 위해 다중모드 신호들을 검출하고 해석하는 시스템에서 수행될 수 있는 동작들의 양태들을 도시한 흐름도이다.
도 10은 적어도 일부 실시예들에 따른, 신호 소스들 중 하나로부터의 데이터가 적어도 일시적으로 이용가능하지 않거나 열화될 수 있는 시나리오들에서 관심 후보 대상들을 식별하기 위해 수행될 수 있는 예시적인 동작들의 양태들을 도시한 흐름도이다.
도 11은 적어도 일부 실시예들에 따른, 다중모드 신호 분석이 빌딩의 룸 내에서 수행될 수 있는 예시적인 시나리오를 도시한다.
도 12는 적어도 일부 실시예들에서 사용될 수 있는 예시적인 컴퓨팅 디바이스를 도시하는 블록도이다.
실시예들이 여러 개의 실시예들 및 예시적인 도면들에 대해 예시 방식으로 본 명세서에 기술되지만, 기술 분야의 통상의 기술자는 실시예들이 기술된 실시예들 또는 도면들에 제한되지 않음을 인지할 것이다. 그에 대한 도면들 및 상세한 설명은 실시예들을 개시된 특정 형태로 제한하는 것으로 의도되는 것이 아니라, 그와는 반대로, 의도는 첨부된 청구범위에 의해 정의되는 바와 같은 사상 및 범주 내에 속한 모든 수정들, 등가물들 및 대안들을 커버하기 위한 것임을 이해하여야 한다. 본 명세서에서 사용되는 표제들은 오직 구성 목적들을 위한 것이며 설명 또는 청구범위의 범주를 제한하기 위해 사용되는 것으로 의도되지 않는다. 본 출원 전반에 걸쳐 사용되는 바와 같이, "~일 수 있다(may)"라는 단어는 의무적인 의미(즉, "~이어야만 한다(must)"를 의미)라기보다 오히려 허용의 의미(즉, "~에 대해 가능성을 갖는다"는 의미)로 사용된다. 유사하게, "포함하다(include, includes)" 및 "포함하는(including)"이라는 단어들은, 포함하지만 그로 제한되지 않음을 의미한다. 청구범위에 사용될 때, 용어 "또는"은 포함적 '또는'으로서 사용되고 배타적 '또는'으로서 사용되지 않는다. 예를 들어, 어구 "x, y, 또는 z 중 적어도 하나" 는 x, y, 및 z 중 어느 하나뿐만 아니라 이들의 임의의 조합을 의미한다.

도 1은 적어도 일부 실시예들에 따른, 제스처 데이터 및 시선 데이터를 포함하는 개인으로부터 획득된 다수의 유형의 신호들이, 개인에 의해 발행된 잠재적으로 부정확한 자연 언어 질의들 또는 명령들에 응답하기 위해 집합적으로 분석될 수 있는 예시적인 시스템 환경을 도시한다. 도시된 바와 같이, 시스템(100)은 하나 이상의 시선 검출기들(150), 하나 이상의 제스처 검출기들(154), 및 하나 이상의 음성 명령/질의 검출기들(152)을 포함하는, 인간 움직임들 및 다른 인간 행동들을 검출하기 위한 여러 유형들의 신호 검출기들을 포함할 수 있다. 신호 검출기들의 개별 신호들은 예를 들어 각각의 센서 디바이스들(예컨대, 시선 검출기들 및 제스처 검출기들의 경우에 비디오 및/또는 스틸 카메라들, 명령/질의 검출기들의 경우에 마이크로폰들 등)을 포함할 수 있다. 제스처 신호들을 위해, 다양한 추가적인 소스들이 상이한 실시예들에서 사용될 수 있는데, 이를 테면 깊이 카메라들, 관성 센서들, 전자기 신호 검출기들, 초음파 신호 검출기들, 레이더 신호 검출기들 등이 채용될 수 있다. 시선 검출을 위해, 스틸 또는 비디오 카메라에 부가하여, 비-카메라-기반 광학 센서들 또는 EMG(근전도) 센서들이 일부 실시예에서 사용될 수 있다. 시선 및 제스처 둘 모두는 잠재적 관심 대상들에 관한 방향 정보를 제공할 수 있다: 예를 들어, 한 시점에서의 개인의 시선은 일부 실시예들에서, 개인이 보고 있는 방향을 나타내는 개인의 눈들 사이의 지점으로부터 연장되는 3 차원 벡터에 의해 표현될 수 있다(그리고 그에 의해 관심 대상을 식별하는 데 잠재적으로 도움을 줌). 명령 및/또는 질의들은 일부 실시예들에서 음성/스피치 이외의 신호들을 사용하여 검출될 수 있다 - 예를 들어, 수화 언어가 명령을 위해 사용될 수 있거나, 또는 터치 스크린 인터페이스가 명령의 적어도 일부분을 나타내기 위해 사용될 수 있다. 다양한 실시예들에서, 주어진 신호 검출기는 또한, 수집된 신호들의 분석 또는 필터링의 적어도 어느 정도 초기 레벨을 수행하는 것, 수집된 신호들의 버퍼링하는 것, 신호들의 다양한 그룹들 또는 개별 신호들에 타임스탬프들 또는 다른 타이밍 표시자들을 할당하는 것, 신호들의 수집, 분석 또는 필터링과 연관된 구성 지시들 또는 명령들을 수신하는 것 뿐만 아니라, 원시 및/또는 프로세싱된 신호들을 하나 이상의 목적지들로 전송하는 것을 할 수 있는 하드웨어 및/또는 소프트웨어를 포함할 수 있다.

상이한 유형들의 신호들(예컨대, 제스처들 대 시선 대 음성)은 각각의 시그널링 모드들 또는 신호 모달리티들로 지칭될 수 있고, 개인의 요청들 또는 명령들에 응답하기 위한 개인으로부터의 상이한 모달리티들의 신호들의 조합의 분석은 다중모드 신호 분석으로 지칭될 수 있고; 이와 같이, 도 1에 도시된 것들과 유사한 시스템들은 본 명세서에서 다중모드 신호 분석 시스템들로 지칭될 수 있다. 하나의 신호 모달리티는, 예를 들어, (a) 신호들의 소스인 신체의 특정 부분(예컨대, 눈 대 손 대 음성 시스템) 및/또는 (b) 신호들을 캡처 및 분석(예컨대, 비디오 카메라를 통해 물리적 움직임들을 캡처하는 것과 뒤이은 움직임 분석 알고리즘들의 실행, 대 음성 신호들을 캡처하는 것에 뒤이은 음성 인식 및 자연 언어 프로세싱 알고리즘들의 실행)하기 위해 사용되는 기법들 및 매체의 일부 조합에 기초하여, 다른 신호 모달리티로부터 구분될 수 있다. 시선, 제스처 및 음성이 본 문헌에서의 예들로서 가장 빈번하게 사용되는 모달리티들이지만, 본 명세서에 기술된 기법들은 임의의 원하는 모달리티들에 대응하는 신호들에 적용될 수 있고, 시선, 제스처 또는 음성으로 제한되지 않는다. 이와 같이, 시스템(100)에서, 시선, 제스처 및 스피치/음성 토큰들에 대한 검출기들에 더하여, 얼굴 표정들(웃음, 찌푸림 등을 포함함), 머리 배향 또는 움직임(끄덕임, 머리 흔들기 등을 포함함), 몸통 배향 또는 움직임, 손 이외의 신체 부분들을 이용해 이루어진 제스처들(예컨대, 어깨 으쓱대기), 및/또는 심박수, 호흡 속도, 피부 전도도 등에 대한 변화와 같은 비자발적인 생리적 응답들/행동들과 같은 다른 모달리티들에 대한 하나 이상의 검출기들(156)이 또한 또는 대신 사용될 수 있다. 도 10과 관련하여 아래에서 논의되는 바와 같이, 일부 실시예들에서, 시스템이 신호들을 캡처하도록 갖추어져 있는 상이한 신호 모달리티들 중 하나 이상에 대해 유용한 정보가 (적어도 일부 기간들에 대해) 이용가능하지 않을 수 있는 상황들에서도, 명령(144)에 의해 타겟팅된 대상을 결정하고 명령을 완수하기 위한 동작들을 개시하는 것이 가능할 수 있다. 다양한 실시예들에서 시스템(100)과 유사한 시스템들의 하나의 높은 레벨의 목표는, 개인들이 특수 목적 명령/질의 인터페이스들 또는 제한된 명령/질의 언어들을 사용하는 추가의 어려움을 겪을 필요 없이, 대화를 하는 인간들이 서로 상호작용하는 경향이 있는 방식과 유사한 방식으로, 자연적인 또는 정상적인 인간 상호작용들 및 행동들을 사용하여 표현되는 적어도 일부 유형들의 명령들 또는 질의들에 자동화된 분석을 통해 응답들을 제공하는 것을 포함할 수 있다.

도시된 실시예에서, 시선 검출기들(150), 제스처 검출기들(154)및 명령/질의 검출기들(152)은 신호들이 캡처되는 일부 시간 간격들 동안 움직일 수 있는 하나 이상의 개인들에 의해 생성된 신호들을 캡처할 수 있다. 예를 들어, 머리(140), 눈 및 손(142)이 시선 검출기들(150) 및 제스처 검출기들(154)에 의해 캡처되는 개인이, 관찰이 수집되는 동안 자동차, 오토바이, 보트 또는 버스와 같은 움직이는 차량에 앉아 있을 수 있거나, 걷기, 달리기 또는 사이클링을 하고 있을 수 있다. 물론, 신호들은 개인이 휴지 상태에 있는 동안(예컨대, 자동차가 교통 신호등에서 정지하는 경우/때) 개인으로부터 계속 캡처될 수 있다. 하기에 논의되는 바와 같이, 시간에 따른 관찰된 개인의 이동은, 개인이 정적이었던 경우보다 다소 더 복잡한, 개인에 의해 언급된 대상들을 식별하는 문제를 만들 수 있으나; 신호 소스(들)의 움직임은 본 명세서에서 논의된 다중모드 신호 분석 기법들의 성공적인 사용을 위한 요건은 아니다. 신호 검출기들 중 적어도 일부는 타임스탬프들 또는 다른 타이밍 정보뿐만 아니라 원시 신호들 자체를 저장할 수 있다 - 예컨대, 특정 제스처가 이루어진 시간을 결정하기 위해, 및/또는 머리 또는 목 움직임(머리의 끄덕임 또는 흔들림), 몸통 움직임(예컨대, 일부 물체를 향한 또는 일부 물체로부터 멀어지는 몸의 구부림과 같은), 시선 방향의 변화, 및 음성화된 질의와 같은 이벤트들을 시간 순서로 배열하기 위해 수집된 신호들을 사용하는 것이 가능할 수 있다.

손 또는 손가락 포인팅 제스처들, 머리 끄덕임 또는 돌리기, 몸 구부림, 눈썹 또는 이마 움직임들 등을 포함하는 다수의 상이한 유형들의 제스처들이 도시된 실시예에서 검출될 수 있다. 일부 실시예들에서, 별개의 디바이스들 또는 제스처 검출기들(154)이 각각의 유형들의 제스처들에 대해 사용될 수 있다 - 예컨대, 하나의 센서는 손 포인팅 제스처들을 캡처하기 위해 사용될 수 있고, 다른 하나는 머리를 끄덕이거나 뒤로 젖히거나 돌리는 것 등과 같은 하나 이상의 유형들의 머리 움직임들을 위해 사용될 수 있다. 다른 실시예들에서, 단일 카메라가 여러 상이한 신체 움직임들을 캡처하는 데 사용될 수 있고, 그 단일 카메라에 의해 수집된 데이터는 하나 이상의 유형들의 제스처들을 식별하기 위해 프로세싱될 수 있다. 시선 검출기들(150)은 도시된 실시예에서 개인의 눈이 다양한 시점에 포인팅하는 방향들에 관한 정보를 캡처할 수 있다. 일부 실시예들에서, 시선 검출기들은 또한 매끄러운 추적(pursuit)(눈이 움직이는 시각적 타겟을 따라감), 자발적 새카드(saccade)(눈이 고정 지점들 사이에서 빠르게 움직임), 및/또는 이접운동(vergence)(두 눈의 배향 사이의 각도가 특정 대상 세트에 대해 단일 쌍안시(binocular vision)를 유지하도록 변경됨)과 같은 특정 유형들의 눈 움직임들을 캡처할 수 있다.

명령/질의 검출기(152)는 도시된 실시예의 도시된 질의 "저것이 무엇이었지?"(144)와 같은 개인으로부터 나오는 음성 통신들을 캡처할 수 있다. 음성 기반이 아닌 명령/질의 인터페이스들이 또한 또는 대신 일부 실시예들에서 사용될 수 있다 - 예컨대, 명령이 터치 스크린 인터페이스 등을 통해 발행될 수 있다. 후속 논의의 대부분에서, 용어 "명령"은, 개인에서 유래하며 상호작용에 응답할 책임이 있는 컴포넌트들에 지향된 상호작용들에 대해, 용어 "질의"를 포괄하는 것으로 간주될 수 있다. 예를 들어, "저것이 무엇이었지?"와 같은 질의는 질문 "저것이 무엇이었지?"에 대한 답변을 제공하기 위한 명령의 논리적 등가인 것으로 간주될 수 있다. 아래에서 논의되는 바와 같이, 명령은, 적어도 일부 경우들에서, 질문에 대한 답변 이외의 액션을 수반할 수 있다 - 예컨대, "저기에 자동차를 주차해"와 같은 명령은 (명령을 발행한 개인이 탑승한) 차량이 "저기"에 대응하는 위치에 주차되는 결과를 가져올 수 있다. 또한, 후속 논의의 대부분에서, 용어 "대상"(예컨대, 어구 "관심 대상"에 사용됨)은 일반적으로 무생물, 생명이 있는 개체들(예를 들어, 동물, 인간, 또는 식물을 포함함), 장소들 또는 이들의 조합을 지칭할 수 있다. 예를 들어, 문구가 본 명세서에 사용됨에 따라, 하나의 관심 대상은 개(동물)를 산책시키면서 백팩(무생물 대상)을 운반하는 사람(인간)을 포함할 수 있고, 다른 관심 대상은 자동차를 위한 주차 지점을 포함할 수 있고, 기타 등등이다.

개인에서 기원하는 신호들에 부가하여, 개인의 외부 환경에 관련된 다수의 신호들이 또한 다양한 실시예들에서 수집될 수 있다. 환경 데이터 소스들(112)은, 예를 들어, 하나 이상의 외부적으로 배향된 카메라들(즉, 개인에 지향되지 않거나 개인에게만 지향되지는 않는 카메라), 위성 위치확인 시스템(GPS) 디바이스들 등을 포함할 수 있다. 일부 실시예들에서, 적어도 일부 기후 관련 데이터 소스들(예컨대, 풍속계, 온도계 등)이 또한 개인의 외부 환경에 관해 수집된 데이터에 기여할 수 있다.

다양한 신호 검출기들(시선, 제스처 및 명령 검출기들과 같은 개인의 움직임들/행동들에 초점이 맞춰진 것들뿐만 아니라 외부 환경에 초점이 맞춰진 것들)로부터의 데이터는 적어도 일부 실시예들에서 일시적으로 버퍼링될 수 있다. 신호 이력 버퍼들(180)은, 예를 들어, 더 오래된 데이터를 폐기하거나 오버라이팅하면서, 이전의 N 초에 대응하는 신호들을 임의의 주어진 시점에 저장하도록 구성될 수 있다. 일 실시예에서, 신호 데이터 저장 디바이스들의 계층적 세트가 사용될 수 있으며, N 초에 대응하는 신호들이 디바이스들의 제1 층에 저장되고, P 분의 더 긴 지속기간에 대응하는 신호들이 제2 층에 저장되고, 기타 등등이다. 일부 실시예들에서, 적어도 어느 정도 레벨의 버퍼링은 신호 검출기들 그 자체에서 구현될 수 있다 - 즉, 신호 이력 버퍼들(180)의 적어도 일부가 신호들이 캡처되는 카메라들 또는 다른 디바이스들에서 통합될 수 있다. 다른 실시예들에서, 버퍼링 중 적어도 일부는 별개의 저장 디바이스 또는 원격 데이터 센터에서 구현될 수 있다 - 예컨대, 신호 검출기들은 수집된 데이터를 임의의 원하는 무선 및/또는 유선 통신 경로들을 통해 저장/버퍼링을 위해 원격 데이터 센터로 전송할 수 있다.

도시된 실시예에서, 하나 이상의 명령 프로세싱 디바이스(CPD)들(185)은 개인에 의해 발행된 명령/질의들에 대한 응답을 생성하기 위해 다양한 소스들로부터 수집된 신호들을 분석하는 것을 책임질 수 있다. 명령 프로세싱 디바이스들(185)은 또한 본 명세서에서 명령 프로세서들로 지칭될 수 있다. 명령은 응답을 준비하기 위해 어떤 다른 데이터가 분석될 필요가 있는지를 결정하기 위해, 예컨대 자연 언어 프로세싱(NLP)알고리즘을 사용하여 CPD(185)에서 파싱(parse) 또는 해석될 수 있다. 명령 프로세싱 디바이스들(185)은 일부 실시예들에서 복수의 분산된 하드웨어 및/또는 소프트웨어 컴포넌트들을 포함할 수 있다 - 예컨대, 개인이 차량 내에 있는 실시예들에서, 컴포넌트들 중 일부는 차량 내에서 실행될 수 있는 반면 다른 것들은 백-엔드(back-end) 데이터 센터에서 실행될 수 있다. 특정 명령 또는 질의의 속성에 따라, 프로세싱의 결과들 중 적어도 일부는, 예컨대 무선 통신을 통해, 원격 컴포넌트들로부터 로컬 명령들(예컨대, 로컬 사용자 인터페이스들)로 다시 송신될 수 있어서, 그 결과들이 명령을 발행한 개인들에게 제공될 수 있게 한다.

적어도 부분적으로 다양한 신호 검출기들(예를 들어, 제스처 검출기들(154), 시선 검출기들(150) 및/또는 외부 환경 데이터 소스들(112)을 포함함)에 의해 제공되는 데이터의 조합의 분석에 기초하여, 명령 프로세싱 디바이스들(185)은 명령(144)에서 지칭될 수 있는 관심 후보 대상들의 리스트(188)를 생성할 수 있다. 적어도 하나의 실시예에서, 상이한 모달리티들에 대응하는 신호 데이터의 프로세싱 또는 분석은, 잠재적으로 컴퓨팅 디바이스들의 각각의 세트들을 사용하여 병렬적으로 수행될 수 있다 - 예컨대, 시선 신호들은 제스처 신호들 및/또는 음성/스피치 신호들과 동시에 프로세싱될 수 있다. 일부 구현예들에서, 시선 변화들 및/또는 제스처들은 미가공 신호들의 프로세싱된 버전(예컨대, 센서 디바이스들 그 자체에서 또는 명령 프로세싱 디바이스들에서 생성된 버전)에서 이산 이벤트들로서 표현될 수 있다. 예를 들어, 손 제스처 데이터가 (수평 평면에 대해 0 도 내지 360 도의 각도 범위 내이고 수직 배향에 대해 -90 도 내지+90 도의 각도 범위 내의) 방향을 나타내는 실시예에서, 제스처 데이터 세트의 타임스탬핑된 이산화된 버전은 다음과 같은 것을 포함할 수 있다: [2016-04-05-09:00:00 GMT 내지 2016-04-05-09:00:00 GMT: 개인 A의 오른쪽 집게 손가락이 수평 각도 37.5도, 수직 각도 15.2도를 포인팅했음], [2016-04-05-09:00:00 GMT 내지 2016-04-05-05-0:00 GMT: 개인 A로부터의 제스처가 없음], [2016-04-05-09:00:10 GMT 내지 2016-04-05-05-0:12 GMT: 개인 A의 왼손이 수평 각도 122 도, 수직 각도 25 도를 포인팅했음],.., 등.

다양한 실시예들에서, 명령들/질의들은 일반적으로, 예컨대 "이것" 또는 "저것"과 같은 지시 대명사들, "여기" 또는 "저기" 등과 같은 관계 부사들을 사용하여 자연적인 대화 언어로 표현될 수 있다. 그 결과, 타겟 관심 대상(즉, "저것이 무엇이었지?"에서 대명사 "저것"이 지칭하는 것으로 의도된 대상)이 즉시 명백하지 않을 수 있어서, 하기에서 더 자세히 논의되는 바와 같이 명령 프로세싱 디바이스들은 잠재적 대상들의 세트를 리스트(188)에 도달하도록 좁히기 위해 제스처 및 시선 데이터(그러한 데이터가 이용가능한 경우)를 사용하게 된다. 신호 검출기들에 의해 수집된 센서 데이터에 부가하여, 적어도 하나의 실시예에서, 명령 프로세싱 디바이스들은 또한, 후보 리스트(188)를 준비하기 위해, 대상 데이터베이스(들)(181)와 같은 하나 이상의 외부 데이터베이스들을 이용할 수 있다. 대상 데이터베이스들(181)은, 예를 들어, 빌딩, 주차장, 지리적/지질학적 피쳐들 등의 이름들 및 위치들(예컨대, 위도 및 경도 단위)을 나타내는 지리적 맵 데이터, 차량 또는 제품들의 이름들을 나타내는 카달로그들, 등을 포함할 수 있다. 공개 인터넷을 통해 액세스가능한 데이터 소스들(예컨대, 백과사전 사이트들, 공공 기록물 사이트들, 정부 공보 사이트들, 사전들 등)은 일부 실시예들에서 특정 유형들의 명령들에 대한 응답을 준비하는 것을 돕기 위해 사용될 수 있다. 다양한 실시예들에서, 관심 대상들의 후보 리스트 중에서, 특정 대상이, 명령 프로세싱 디바이스들(185)에 의해 명령 내에서 지칭되는 것일 가능성이 가장 큰 하나로서 선택될 수 있다. 일부 실시예들에서, 각각의 관심 점수들 또는 관련성 점수들은, 예컨대, 검출된 제스처들/시선들과의 상관관계에 기초하여, 대화 컨텍스트에 기초하여, 멤버 대상들의 예상되는 신규성 또는 차별성에 기초하여 등으로, 리스트 멤버들 중 적어도 일부에 할당될 수 있다. 점수들은 개인에 의해 발행된 명령의 가능성 있는 타겟으로서 특정 대상을 선택하는 데 사용될 수 있다. 하기에 추가로 상세히 기술되는 바와 같이 일부 실시예들에서, 명령 프로세서(들)는 명확화 요청을 생성할 수 있는데, 사실상 개인에게 후보들의 세트로부터 의도된 타겟 대상을 선택하도록 요청할 수 있다.

명령 또는 질의가 무엇으로 이루어졌는지에 따라, 명령 프로세싱 디바이스들(185)은 도시된 실시예에서 적절한 응답(190)을 생성할 수 있다. 선택된 관심 대상과 연관된 동작 또는 액션은 일부 명령들(예컨대, 선택된 대상의 사진 또는 비디오가 촬영될 수 있음)에 응답하여 취해질 수 있고/있거나, 시각적 또는 음성화된 응답이 제공될 수 있다. 다양한 실시예들에서, 명령 프로세싱 디바이스들은 하나 이상의 다른 디바이스들(예컨대, 카메라들, 자동차의 구동 메커니즘들 등) 또는 엔티티들이, 예컨대 애플리케이션 프로그래밍 인터페이스를 호출함으로써, 주어진 명령 또는 질의에 응답하기 위한 동작(또는 동작들)을 수행하게 할 수 있다. 도시된 실시예에서, 음성화된 응답 "저것은 라마였습니다"(147)가 질의 "저것이 무엇이었지?" (144)에 대해 제공될 수 있다(아마도, 명령 프로세싱 디바이스들에 의해 라마로 식별되었던 동물이, 최근 시간 간격 내에 개인에 의해, 눈에 보이거나, 또는 가리켜졌기 때문임). 음성 합성기가 일부 실시예들에서 응답에 사용될 수 있고/있거나, 시각적 디스플레이 또는 스크린이 사용될 수 있다. 응답이 만족스럽지 않은 경우, 적어도 일부 실시예들에서, 상호작용들의 추가 라운드가 개인과 시스템의 컴포넌트들 사이에서 발생할 수 있다. 예를 들어, 개인은 "아니, 나는 동물을 의미하지 않았고, 나는 건물을 의미했어" 또는 간단히 "아니, 나는 라마를 의미하지 않았어"와 같은 것을 말할 수 있다. 그러한 시나리오에서, 명령 프로세서(들)는 개인에 의해 지시된 좁혀진 기준을 충족시키는 다른 관심 후보 대상을 찾고자 시도할 수 있고(예컨대, 원래의 후보들의 리스트를 사용하여, 또는 새로운 리스트를 생성함으로써), 제2 동작이 질의(144)에 대한 원래의 응답을 수정/대체하게 할 수 있다. 여러 가지 그러한 반복들이 다양한 실시예들에서, 예컨대, (명령 발행자의 관점에서) 만족스러운 응답이 제공될 때까지 또는 추가적인 상호작용들이 파티들(개인 또는 명령 프로세서들) 중 하나에 의해 종료/중단될 때까지 수행될 수 있다.

도 2는 적어도 일부 실시예들에 따른, 차량의 탑승자들로부터의 음성 요청들에 응답하기 위해 분석될 수 있는 데이터를 수집할 수 있는 복수의 센서들을 포함하는 예시적인 차량 환경을 도시한다. 차량의 탑승자 영역의 단순화된 하향식 뷰(210)가 제공된다. 차량은, 예를 들어 자동차, 트럭, 골프카트, 모든-지형 차량(all-terrain vehicle) 등을 포함할 수 있다. 적어도 일부 실시예들에서, 차량의 움직임들 중 적어도 일부는 직접적인 인간 제어를 필요로 하지 않을 수 있다 - 예컨대, 차량은 스스로 자동으로 주차할 수 있고, 일부 조건 하에서 인간에 의해 안내되지 않고 운전할 수 있고, 기타 등등이다. 더 사실적인 도면에서 대상들 중 적어도 일부는 실제로 동시에 볼 수 있는 것이 아닐 수 있지만, 차량 내에서 서로에 대해 상이한 깊이들에 위치될 수 있는 (그리고 이에 따라 서로 또는 다른 대상들에 의해 가려질 수 있는) 대상들이 도시된다. 화살표(259)로 표시된 바와 같이, 차량은 도 2에서 좌측으로부터 우측으로 이동하고 있을 수 있다. 도시된 실시예에서 차량은 2 열의 좌석 영역들(앞 좌석 영역(202) 및 뒷 좌석 영역(205))을 포함할 수 있다. 예를 들어, 일 시나리오에서, 2 명의 탑승자들이 좌석 영역들 각각에 앉을 수 있다.

차량의 신호 검출 컴포넌트들은 탑승자들로부터 제스처, 시선 및 음성 신호들을 캡처하고 차량의 외부로부터 환경 신호들을 캡처하도록 설계될 수 있다. 내부-대면 카메라들 및 마이크로폰(IFCM)들(222), 예컨대 IFCM(222A 내지 222D)의 각각의 세트들은 탑승자들로부터 움직임들을 캡처하도록 구성될 수 있다. 4-탑승자 시나리오에서 각각의 IFCM들이 각각의 탑승자들로부터 신호들을 캡처하기 위해 사용될 수 있도록 4 개의 IFCM들이 도시되어 있으나, 다양한 실시예들에서 IFCM들과 탑승자들 사이의 관계가 일대일일 필요는 없다. 예를 들어, 일부 실시예들에서 단일 카메라 및/또는 단일 마이크로폰이 다수의 탑승자들로부터 신호들을 수집하기 위해 사용될 수 있고, 반대로, 일부 조건들에서, 다수의 카메라들 및/또는 마이크로폰들이 단일 탑승자의 신호들을 캡처하기 위해 사용될 수 있다. 일부 경우들에, IFCM(222)들과 탑승자들 사이의 맵핑은 탑승에 따라 변할 수 있다 - 예컨대, 일부 시간 기간 동안 단지 2 명의 탑승자들만이 있는 경우, 2 개의 IFCM들이 탑승자들 각각을 향해 지향될 수 있고; 나중에, 2 명 더 많은 탑승자들이 차량에 탑승한다면, 하나의 IFCM이 각각의 탑승자를 향해 지향될 수 있다.

도시된 실시예에서, 4 개의 외부 대면 카메라(EFC)들(221A 내지 221D)은 이동하는 차량의 다양한 부분들로부터 볼 수 있는 장면들을 캡처할 수 있다. IFCM들과 마찬가지로, 적어도 일부 실시예들에서 EFC들과 탑승자들 사이의 관계가 반드시 1:1일 필요는 없다. 탑승자로부터 상대적으로 멀리 떨어져 위치된 EFC들에 의해 수집된 데이터가 탑승자에 의해 발행된 명령들에 응답하기 위해 사용되는 경우, 관심 대상들의 식별의 정확도는 일부 실시예들에서 탑승자에 상당히 가깝게 위치된 EFC들에 의해 수집된 데이터가 사용되는 경우보다 더 낮을 수 있다. 로컬 명령 프로세서 컴포넌트(225)는 도 2의 차량 내에, 예컨대, 내부 지붕 또는 시트 아래에 부착되어, 위치될 수 있다. 일부 실시예들에서, 로컬 명령 프로세서 컴포넌트(225)는, 탑승자들의 명령들에 대한 응답들을 준비하기 위해, 관심 후보 대상들을 식별하고/하거나 특정 관심 대상들을 선택하는 것을 돕기 위해, IFCM들 및 EFC들에 의해 수집된 신호들의 분석 중 적어도 일부를 수행할 수 있다. 다른 실시예들에서, 로컬 명령 프로세서 컴포넌트(225)는 신호 분석 및 해석 작업의 일부 또는 전부를 데이터 센터에 있는 하나 이상의 서버들로 오프로딩할 수 있다 - 예컨대, 로컬 컴포넌트는 신호들의 표현들을 서버들로 송신하고, 서버들에서 수행된 분석들의 결과들을 수신할 수 있고, 기타 등등이다. 디스플레이 스크린들 및 스피커들(DS들)(233A 내지 233C)은, 탑승자들에 의해 발행된 질의들 및 명령들의 적어도 일부 유형들에 대한 응답들의 표시들을 제공하기 위해 사용될 수 있다. 예를 들어, "저것이 무엇이었지?"와 같은 질의 (도 1의 질의(144))가 후방 좌석 영역의 탑승자에 의해 발행되면, 도시된 시나리오에서 음성 응답 "저것은 라마였습니다."가 DS(233A 또는 233B)를 통해 제공될 수 있고/있거나, DS(233A 또는 233B)를 사용하여 라마의 사진/비디오가 디스플레이될 수 있다. 적어도 일부 실시예들에서, 여러 상이한 개인들로부터 수집된 신호들이 특정 질의 또는 명령에 응답하기 위해 사용될 수 있다 - 예컨대, 차량의 2 명 이상의 탑승자들의 제스처들 또는 시선 변화들은, 조합하여 분석될 때, 단일 개인만의 신호들이 별개로 검사되었을 경우보다, 주어진 명령에 의해 타겟팅된 대상의 보다 명확한 표시를 제공할 수 있다.

특히, 신호들이 분석되고 있는 개인들이 상당히 빠르게 이동하고 있는 시나리오들에서, 명령 프로세싱 시간에 또는 그 근처에 수집된 일부 전류 신호들이 더 이상 명령과 관련이 없을 수 있으므로, 분석은 과거에 수집된 신호들의 상이한 그룹들 사이에 시간 상관관계들을 생성하는 것을 포함할 수 있다. 도 3은 적어도 일부 실시예들에 따른, 질의들이 프로세싱되는 시간에 더 이상 가시적이지 않을 수 있는 대상들에 지향된 질의들에 응답하기 위해 신호들이 버퍼링될 수 있는 기간들을 보여주는 예시적인 타임라인을 도시한다. 경과 시간은 타임라인(305)을 따라 좌측에서 우측으로 증가한다. 도시된 예에서, 이전 5 초의 롤링 윈도우(360)에 걸쳐 수집된 신호들이 버퍼링되고, 버퍼링된 신호 윈도우 동안 직면하게 되거나 보여지는 대상들 또는 장면들을 지칭할 수 있는 질의들/명령들에 응답하기 위해 사용될 수 있다. 따라서, T0(도시된 예에서, 2016년 1월 4일 11:00:05 GMT)에서 시작하고 T2(T0의 5 초 후)에 종료하는 시간 기간 동안 수집된 신호들은, 질의 "저것이 무엇이었지?"가 (대략) T2에서 검출될 때 분석을 위해 이용가능할 수 있다.

사용되고 있는 명령 프로세서(도 3 에 도시되지 않음)는 버퍼링된 신호 윈도우(360) 동안 수집된 시선, 제스처 및 음성 신호들을 분석할 수 있다. 적어도 일부 실시예들에서, 명령 프로세서에 의한 질의의 문법적 분석은, "이다(is)"가 아닌 "이었다(was)"라는 단어의 사용으로 인해, 질의의 발행 전의 어떤 과거 시점에 보여진 대상이 타겟 관심 대상일 가능성이 더 클 수 있음을 나타낼 수 있다. 다중모드 신호 분석은, 명령 프로세서가, 시간 T1(T0의 대략 1 초 후)에서, 신호들이 분석되고 있는 개인이 시선 방향(D1)(이는 라마의 방향이었음), 물리적 위치 P1(라마에 근접함)을 가졌고, 라마를 향해 제스처 G1(예컨대, 포인팅 제스처)을 행했다고 결정할 수 있게 할 수 있다. 다양한 인자들(예컨대, 윈도우(360) 동안의 다른 시점들에서의 수집된 외부 환경 데이터의 콘텐츠의 신규성의 상대적인 결여, 윈도우(360) 동안 다른 제스처들의 부재, 또는 윈도우(360)의 다른 부분들 동안 시선 방향의 변화)로 인해, 명령 프로세서는 실시간 분석 기간(350) 동안 신호 세트(310A)가 질의 "저것이 무엇이었지?"에 응답하기 위해 사용되어야 한다는 것을 결정할 수 있다. 그 결과, 라마는 질의에서 단어 "저것"과 연관된 타겟일 가능성이 가장 큰 관심 대상으로서 선택될 수 있고, 응답(342) "저것은 라마였습니다"가 시간(T3)(질의 대략 1 초 후)에 제공될 수 있다. 질의가 검출되는 시간부터의 가장 최신의 신호 세트(310B)는 시선(G2)이 이제 집에 지향되고, 위치(P2)가 더 이상 라마 근처가 아니고, 제스처는 행해지지 않음("null"로 표시됨)을 나타낼 수 있다는 것에 유의한다. 즉, 명령 프로세서는 다양한 실시예들에서 적어도 일부 질의들 또는 명령들에 응답하기 위해 신호들의 가장 최근 세트에만 의존하지 않을 수 있다. 질의가 "저것이 무엇이었지?" 대신 "저것이 무엇이지?"가 된다면, 명령 프로세서는, 그 시선 데이터가 질의에 시간적으로 매우 근접하여 획득되는 신호 세트(310B)를 사용하여, 현재 시제 동사 ("is")의 사용에 기초하여 ("라마" 보다는) 집을 타겟 관심 대상으로서 선택할 수 있다. 버퍼링된 시그널링 기간 지속기간 및/또는 실시간 분석 기간은 상이한 실시예들에서 달라질 수 있다.

많은 경우들에서, 다수의 상이한 관심 대상들이 식별될 수 있고, 이들 중 몇몇은 명령 또는 질의에 대한 합리적인 타겟들인 것으로 보일 수 있다. 도 4는 적어도 일부 실시예들에 따른, 복수의 관심 후보 대상들에 대한 각각의 관심 점수들의 할당의 예를 도시한다. 관련성 점수들로서 또한 지칭될 수 있는 그러한 관심 점수들은, 일부 경우들에서, 기계 학습 또는 인공 지능 알고리즘들을 사용하여 생성되고 명령 프로세서에 의해 응답들을 준비하는데 사용될 수 있다. 사용되는 알고리즘들은 일부 실시예들에서 복수의 컨텍스트-의존 규칙들 또는 휴리스틱들의 표현들을 포함할 수 있다.

도시된 예시적인 시나리오에서, 개인이 도로(411) 상의 움직이는 차량(도시되지 않음)을 점유한다. 외부 환경 데이터 소스(예컨대, 차량의 외부 대향 카메라)의 관점에서 어떤 시점에서의 가시적 장면(402)은 수집된 신호들의 분석의 결과로서 인식되는 6 개의 관심 후보 대상들을 포함한다: 산(455)(개인으로부터 상당히 멀리 떨어져 있음), 집(446), 헛간(445), 라마(421), 연못(462), 및 도로(411).

신호 분석은, 개인의 시선이 일반적으로 화살표(459)에 대응하는 방향을 따라 배향되었고, 제스처(예컨대, 손의 포인팅 제스처)가 대략적인 각도 범위(412)내의 어딘가에 지향되었음을 나타낼 수 있다. 어느 정도 넓은 각도 범위(412)에 의해 (그리고 시선이 잠재적으로, 산, 헛간 또는 라마와 같은 몇몇의 인식된 대상들을 향해 지향될 수 있었다는 사실에 의해) 나타낸 바와 같이, 단일 유형의 신호는 적어도 일부 실시예들에서 단일의 타겟 관심 대상을 명료하게 선택하기에 충분하지 않을 수 있다. 도시된 예에서, 시선 데이터는 제스처를 단독으로 사용하여 후보들로서 식별될 수 있는 대상들의 범위를 좁히는 것을 도울 수 있다. 다른 예들에서, 제스처는 시선을 단독으로 사용하여 식별된 타겟 관심 대상들을 좁히는 것을 도울 수 있다.

시선 및 제스처 데이터에 부가하여, 명령 프로세서는 또한, 예를 들어, 그의 엔트리들이 상이한 지리적 또는 문화적 컨텍스트에서 상이한 대상들과 연관된 예상된 신규성 레벨들을 나타내는 지식 기반들을 포함하는, 다른 데이터 소스들을 사용할 수 있다. 세계의 일부 지역들에서, 예를 들어, 라마는 집 또는 연못보다 더 특이한(그리고 따라서 더 "흥미로운") 대상으로 간주될 수 있다. 세계의 다른 지역들에서, 물이 가득한 연못 또는 눈 덮인 산이 라마보다 더 특이하거나 흥미로운 것으로 간주될 수 있다. 적어도 일부 실시예들에서, 그러한 컨텍스트 정보는 다수의 잠재적 관심 후보 대상들이 식별될 때 다중모드 신호 데이터와 조합하여 분석될 수 있고, 각각의 관심/관련성 점수가 후보들 중 적어도 일부에 대해 예측될 수 있다. 예를 들어 지리적 컨텍스트, 문화적 컨텍스트, 대화적 컨텍스트(예컨대, 명령이 발행되기 전에 논의되고 있던 주제들), 또는 관련된 개인들 중 하나 이상의 사적인 프로파일 정보(이는 개인의 이전 상호작용들/명령들의 이력, 요리, 소매 판매점, 호텔 등에 대한 선호를 포함할 수 있음)를 포함하는 여러 상이한 유형들의 컨텍스트 관련 정보 중 임의의 것이 다양한 실시예들에서 사용될 수 있다.

도시된 예시적인 시나리오에서, 예측된 점수들은 0 내지 1 의 범위 내에 있고, 더 높은 점수는 명령 또는 질의에 응답하는 데 사용될 타겟 대상인 대응하는 대상의 더 높은 예측된 확률을 나타낸다. 라마(421)에는, 예컨대, 시선 방향(459), 제스처 각도 범위(412), 신규성의 컨텍스트 표시, 신호들이 분석되는 개인에 대한 라마의 상대적인 근접도 등의 조합에 기초하여, 0.8 의 상대적으로 높은 점수가 할당될 수 있다. 일반적으로 동일한 시선 방향에 놓인 헛간에는, 조합된 인자들의 유사한 분석에 기초하여 0.5 의 다소 더 낮은 점수가 할당될 수 있으며, 산에는 0.3 의 점수가 할당된다. 제스처와 단지 약간 중첩되는 집에는 0.1의 더 낮은 점수가 할당될 수 있다. 시선 및 제스처 방향들 밖에 놓인 연못에는 0.05의 점수가 할당될 수 있는 반면, 도로에는 0.01의 점수가 할당될 수 있다. "저것이 무엇이었지?"와 같은 질의에 응답하여, 라마는 다른 관심 후보 대상들에 대한 그의 점수 순위를 사용하여 질의의 타겟 관심 대상으로서 (적어도 초기에) 선택될 수 있다.

위에서 논의된 신호 수집 및/또는 분석의 유형들 중 적어도 일부는 일부 경우에 개인들에 의해 착용 또는 운반되는 다양한 유형의 작은 풋프린트 디바이스들을 사용하여 수행될 수 있다. 도 5는 적어도 일부 실시예들에 따른, 제스처 검출기들, 시선 검출기들 및/또는 로컬 명령 프로세서들을 포함할 수 있는 휴대용 디바이스들의 예들을 도시한다.

적어도 하나의 실시예에서, 개인에 의한 명령 또는 질의에서 지칭되는 관심 대상, 또는 다중모드 분석 시스템에 의한 명령 또는 질의의 타겟 대상으로서 선택된 대상은 가상 현실(VR) 환경 또는 증강 현실(AR) 환경에서 정의되는 가상 대상일 수 있다. 일부 실시예들에서, 환경을 시뮬레이션하고/하거나 개인의 기존 외부 환경의 뷰들에 추가 정보를 덧붙이기 위해 사용되는 하드웨어 및/또는 소프트웨어 컴포넌트들을 포함하는 착용가능한 VR/AR 디바이스(502)(예컨대, 헤드셋, 헬멧 또는 슈트)는 시선 검출기(505A), 제스처 검출기(507A) 및/또는 로컬 명령 프로세서(509A)를 포함할 수 있다. 일 실시예에서, 스마트 워치(512)는 다른 유형의 시선 검출기(505B), 제스처 검출기(507B), 및/또는 로컬 명령 프로세서(509B)를 포함할 수 있다. 피트니스 추적기(522)는 일부 실시예들에서 명령 프로세서(509C)에서 로컬 프로세싱을 위해 (예컨대, 각각의 검출기들(505C 및/또는 507C)을 사용하여) 제스처 및 시선 신호들을 수집하는 데 사용될 수 있다. 스마트 폰(532)은 다양한 실시예들에서 그 자신의 제스처 검출기(505D), 시선 검출기(507D) 및/또는 로컬 명령 프로세서(509D)를 포함할 수 있다.

신호 검출기들 및/또는 로컬 명령 프로세서들의 기능적 능력들은 예시적인 휴대용 디바이스마다 상이할 수 있다는 것에 유의한다. 예를 들어, VR 헤드셋에서 검출된 시선 방향의 정확도는 피트니스 추적기 또는 스마트 폰에서 검출된 시선 방향의 정확도보다 훨씬 더 높을 수 있다. 적어도 일부 실시예들에서, 주어진 휴대용 디바이스에서의 모든 신호 검출기들이 연속적인 기반으로 유용한 데이터를 캡처할 수 있는 것은 아니다(디바이스가 신호들이 수집될 개인에 매우 근접하게 있게 될 때에도) - 예를 들어, 스마트 워치 또는 피트니스 추적기는, 시계 또는 피트니스 추적기가 개인의 눈들이 시계 또는 추적기의 시선 검출기의 범위 내에 있는 위치에 있게 되는 기간들 동안 시선 관련 데이터를 캡처할 수 있을 뿐이다. 일부 실시예들에서, 개인에 의해 발행된 명령/질의들에 대한 응답들은, 이용가능한 신호 데이터가 주어지면, 최선의 노력 기반으로 생성될 수 있다 - 즉, 시선 신호들이 이용가능하지 않은 경우, 명령에 응답하기 위한 시도는 제스처 신호들에만 기초하여 이루어질 수 있고, 그 반대의 경우도 마찬가지이다. 일부 그러한 실시예들에서, 명령 프로세서(들)에 의해 특정 관심 대상과 연관된 신뢰 또는 확실성 수준이 임계치 미만일 경우 및 그런한 때, 관심 대상이 정확하게 식별되었음을 확인하기 위한 시도로 명령 프로세서(들)에 의해 개인과 대화형 다이얼로그가 개시될 수 있다. 도 5에 도시된 디바이스들의 로컬 명령 프로세서들의 계산 용량에 따라, 개인의 명령들/질의들에 응답하기 위해 요구되는 분석의 상당한 부분이 일부 실시예들에서 원격 명령 프로세서(들)에서, 예컨대 하나 이상의 데이터 센터들에 위치된 서버들에서 수행될 수 있다. 프로세싱의 결과들 중 적어도 일부는 원격 명령 프로세서들로부터 로컬 명령 프로세서들 또는 로컬 사용자 인터페이스들로 다시 전송될 수 있어서, 명령들을 발행한 개인들에게 결과들이 제공될 수 있다.

적어도 일부 실시예들에서, 휴대용 및 비휴대용 센싱 디바이스들 및/또는 명령 프로세서들의 조합이 주어진 개인을 대신하여 채용될 수 있다. 예를 들어, 개인이 한 손에 그의 스마트 폰을 쥐고 있게 되는 경우, 스마트 폰의 포지셔닝 및 움직임이 개인에 의해 행해진 제스처들을 나타낼 수 있는 반면, 카메라(개인이 탑승한 자동차 안 또는 개인이 점거한 룸 안에 위치됨)가 시선 데이터를 캡처하는 데 사용될 수 있다.

앞서 언급된 바와 같이, 일부 경우에, 각각이 개인의 명령 또는 질의의 타겟일 수 있는 복수의 후보 대상들이 다중모드 신호 분석들에 기초하여 식별될 수 있다. 몇몇 그러한 대상들은 일부 시나리오들에서 타겟 관심 대상이 되는 무시할 수 없고 유사한 예측된 확률을 가질 수 있다. 적어도 하나의 실시예에서, 명령 프로세서는 개인과의 하나 이상의 프로그램 상호작용들을 이용하여 그의 타겟 관심 대상의 선택을 확인하려고 시도할 수 있으며, 이는 명확화 관련 상호작용들로서 지칭될 수 있다. 도 6은 적어도 일부 실시예들에 따른, 명령 프로세서와 질의 또는 명령의 소스 사이의 명확화 관련 상호작용의 일례를 도시한다.

도시된 실시예에서, 디스플레이 스크린(610)(예컨대, 자동차 안에 장착될 수 있는 터치 패드 스크린, 또는 전화기의 스크린, 또는 스마트 워치, 또는 VR 헤드셋, AR 안경 등의 유사한 스크린)이 상호작용들을 위해 사용될 수 있다. 도시된 실시예에서, 개인은 디스플레이(610)의 콘텐츠가 개인에게 제시되기 직전에 질의 "저것이 무엇이었지?"를 다중모드 신호 분석 시스템에 발행했을 수 있다. 도시된 실시예에서, 명확화 질의(642)가 스크린(610) 상에 디스플레이될 수 있으며, 여기서 개인은, 대화적인 방식으로, (예컨대, 명확화 응답을 제공하기 위해 스크린 상의 타겟 대상의 표현을 터치함으로써, 개인의 시선을 스크린 상의 타겟 대상의 표현에 지향시키고 눈을 깜빡임으로써, 또는 어떤 다른 피드백 메커니즘을 사용함으로써) 스크린 상에 디스플레이되는 대상들 중 하나(라마(621), 헛간(645) 또는 산(655))가 질의가 지향되었던 타겟 대상인지 여부를 확인할 것을 요청받는다. 다른 관심 후보 대상들을 보기 위한 옵션이 또한 제공될 수 있는데, 이는 스크린을 좌측으로 스와이프하거나 디스플레이된 대상들의 음성화된 거절과 같은 상호작용에 의해 행사될 수 있다. 적어도 일부 실시예들에서, 명확화 질의(642)의 디스플레이된 버전 대신에 또는 그에 부가하여, 질의의 음성화된 버전(643)이, 예컨대 스피커(677)를 사용하여, 제공될 수 있다. 유사하게, 일부 실시예들에서, 개인에게 터치 인터페이스를 통해 대상들 중에서 명확화할 것을 요구하는 대신에, 마이크로폰(678)을 통해 검출되는, 개인으로부터의 음성화된 명확화 응답(예컨대, "그래, 그것은 산이었다")이 사용될 수 있다.

일 실시예에서, 주어진 질의 또는 명령에 관해 명확화를 위해 사용되는 상호작용 인터페이스들(예컨대, 명확화 질의 및 대응하는 응답이 시각적 디스플레이(610)의 사용을 수반하든지, 음성화된 상호작용들이 사용되든지, 또는 시각적 상호작용 및 음성화된 상호작용 둘 모두가 사용되든지)은 다양한 인자들에 따라 명령 프로세서에 의해 선택될 수 있다. 그러한 인자들은, 예를 들어, 요청된 액션의 복잡도, 타겟의 부정확한 선택을 만드는 것과 연관된 잠재적 비용의 추정치, 예측된 유사한 관심/관련성 점수들을 갖는 후보 대상들의 수, (스크린의 가시성에 영향을 미칠 수 있는) 하루 중의 시간, (음성화 상호작용들을 청취하는 능력에 영향을 줄 수 있는) 주변 사운드 레벨 등을 포함할 수 있다. 예를 들어, 개인이 자율 주행 자동차 안으로부터 명령 "저기에 주차해"를 발행하는 경우, 시스템은, (잘못된 대상의 사진을 촬영한 결과들이 원하지 않는 위치에 주차하려고 시도한 결과보다 전형적으로 더 작을 수 있다는 가정하에) 명령이 "저것의 사진을 촬영해"였고 시스템이 "저것"이 무엇을 의미하는지를 확인해야했을 경우보다 더 높은 레벨의 신뢰도로 "저기"가 무엇을 의미하는지를 확인하려 시도할 수 있다.

잠재적으로 모호한 또는 부정확한 명령들의 매우 다양한 카테고리들이 본 명세서에 기술된 다중모드 신호 분석 기법들을 사용하여 처리될 수 있다. 도 7은 적어도 일부 실시예들에 따른, 제스처들 및 시선 변화들을 포함하는 다중모드 신호들을 해석하도록 설계된 시스템을 향해 지향될 수 있는 예시적인 명령들 및/또는 질의들을 도시한다. 예(743)에서, 개인은, 예를 들어, 질의 발행자의 자동차 안으로부터 과거 수 초 내에 보인 특정 자동차를 그의 타겟으로서 가질 수 있는, "저것이 무슨 자동차였지?"와 같은 도메인-특정 질의를 생성할 수 있다. 그러한 질의에 응답하기 위해, 일부 실시예들에서, 명령 프로세서는 대응하는 도메인-특정 데이터베이스, 예컨대, 다양한 자동차 모델들의 데이터베이스를 이용할 수 있다. 명령 프로세서는 외부 환경 데이터로부터 자동차들로서 명확히 식별가능하지 않은 모든 대상들을 필터링 해내고, 개인의 시선 또는 제스처에 기초하여 필터링 후에 남아 있는 자동차 대상들을 순위화하고, 그리고 응답하기 위해 정렬된 순위 순서의 자동차 대상들을 데이터베이스와 매칭할 수 있다.

제2 유형의 질의 "저것이 무엇이었지?" (744)는 (예컨대, 앞서 언급된 바와 같이 과거 시제 동사 형태("~이었지(was)")의 사용으로 인해) 과거를 지칭하는 것으로 검출될 수 있고, 버퍼링된 신호 데이터는 도 3의 컨텍스트에서 또한 앞서 논의된 바와 같이 응답하기 위해 사용될 수 있다. 대조적으로, 질의 "저것이 무엇이지?" (745)는, (예컨대, 현재 시제 동사 형태("~이지(is)")의 사용으로 인해) 타겟 대상이 질의가 발행된/검출된 시간에 현재 가시적임을 나타낼 수 있는데, 이는 질의(744)의 경우에서보다 상이한 후보들의 세트에 대한 가능성들을 좁히는 것을 도울 수 있다.

적어도 일부 실시예들에서, 다중모드 신호 분석 시스템은 "이것" 및 "저것"과 같은 단어들 사이의 구별에 기초하여 타겟 관심 대상에 관련된 거리-관련 정보를 추론할 수 있다. 예를 들어, 질의 "이것은 무엇이지?" (746)는 (예컨대, 질의가 "저것이 무엇이지?"였던 경우와 비교하여) 개인에 상대적으로 가까이 있는 대상을 지칭하는 것으로서 해석될 수 있고, 그러한 거리-연관 해석은 더 먼 거리의 대상들보다 인근 대상들에 더 높은 관심/관련성 점수들을 할당하기 위해 사용될 수 있다.

일부 경우들에서, 질의들 또는 명령들은 다른 개인들에 관련될 수 있다. "그게 누구였니?" (747)와 같은 질의에 응답하기 위해, 일부 실시예들에서, 잘 알려진 저명 인사들 또는 유명인들의 데이터베이스가 검사될 수 있거나, 또는 (그러한 데이터베이스에 대한 액세스가 승인되었다면) 개인의 전화, 이메일 계정 또는 소셜 미디어 계정과 연관된 연락처 리스트와 같은 개인맞춤형 데이터베이스가 다중모드 신호 분석 시스템에 의해 검사될 수 있다. 일 실시예에서, 시스템이 "그게 누구였니?"와 같은 질의에 응답하여 이름에 의해 타겟 사람을 식별할 수는 없지만 질의의 후보 타겟들일 수 있는 하나 이상의 개인들을 특성화할 수 있다면, 다음과 유사한 일반적인 응답이 제공될 수 있다: "그는 대략 키가 6 피트인, 가벼운 재킷을 입은 남성으로 보였습니다. 그 사람을 식별하기 위해 사용될 수 있는 어떤 추가의 정보를 알려줄 수 있습니까?". 연락처 리스트들과 같은 개인 데이터베이스들이 사용될 수 있는 실시예들에서, 그러한 데이터베이스들에 액세스하기 위한 허가들은 시스템에 의해 사전에 획득될 수 있다 - 예컨대, 그를 위해 다중모드 분석 시스템이 채용되는 개인은 "옵트-인(opt-in)" 메커니즘을 사용하여 그러한 액세스를 허가할 수 있다.

예(743, 744, 745, 746, 및 747)에서, 다중모드 분석 시스템은 도시된 실시예에서 선택된 후보 타겟 대상의 이름 또는 식별자를 쿼리 소스에 단순히 제공할 수 있다 - 즉, 질의에 응답하여 수행된 동작은 타겟 대상을 명명하는 것을 포함한다. 일부 경우들에서, 명명은 번역 단어들 및/또는 기호들을 수반할 수 있다 - 예컨대, 개인(그로부터 질의가 수신됨)은, 발화된 언어가 그 개인의 모국어와 상이한 국가에서 여행하고 있을 수 있고, 분석 시스템은 원하는 경우 개인의 모국어로 (또는 모국어가 아닌 언어 및 모국어 둘 모두로) 이름들/식별자들을 제공할 수 있다. 일 실시예에서, 타깃 대상의 이름이 먼저 로컬 언어로 제공되고, 이어서 이름이 제공되는 개인의 요청시 선택적으로 번역될 수 있다.

적어도 하나의 실시예에서, 명령에 응답하여 취해진 액션들은 일부 종류의 레코드를 생성 및/또는 저장하는 것을 포함할 수 있다 - 예컨대, (명령(748) "저것의 사진을 촬영해"의 경우에서와 같이) 사진 또는 비디오가 촬영될 수 있다. 일부 실시예들에서, 사진 또는 비디오는 어떤 원하는 목적지로- 예컨대, 원격 사진/비디오 백업 서비스로, 사진/비디오를 요청했던 개인의 친구들 또는 연락처들로, (의심스러운 활동 또는 장면이 사진 또는 비디오의 소재였다면) 법 집행 기관으로 등 - 자동적으로 전송될 수 있다.

앞서 언급된 바와 같이, 일부 실시예들에서, 다중모드 분석 시스템은 적어도 일부 무인 운전을 지원하는 자동차 또는 다른 차량 내에 배치될 수 있다 - 예컨대, 명령 "거기 주차해"(749)의 경우에, 시스템은 차량이 선택된 주차 지점 또는 주차 로트에 주차되게 할 수 있다(일부 경우들에서, 단어 "거기"에 의해 무엇이 의도되었는지를 확인한 후에).

다양한 실시 형태에서, 다중모드 분석 시스템은 내비게이션 보조로서 사용될 수 있다 - 예컨대, 개인은, 목적지까지의 거리를 체크하기 위해, 톨 비용을 결정하기 위해, 고속도로에서 어떤 출구가 택해져야 하는지를 결정하기 위해, 기타 등등을 위해 질의 "저 사인이 무엇이었지"(750)를 발행할 수 있다. 일부 실시예들에서, 시스템은 필요한 경우 사인 콘텐츠를 개인의 선호 언어 또는 모국어로 번역할 수 있다. 다른 자연 언어 기반 명령들 또는 질의들의 매우 다양한 카테고리들이 상이한 실시예들에서 지원될 수 있다. 앞서 언급된 바와 같이, 다중모드 신호 분석 시스템의 목표들 중 하나는, 개인이 제약된 질의 언어 또는 인터페이스를 활용하도록 강제하지 않고, 개인의 자연적 행동 및 언어 패턴들을 사용하여 개인에게 관심이 있을 것으로 예측되는 대상들 또는 장소들에 대한 정보를 제공하는 (또는 이에 관해 다른 동작들이 수행되게 하는) 것일 수 있다.

도 8은 적어도 일부 실시예들에 따른, 다중모드 신호들을 획득하고 분석하는 명령 프로세서의 예시적인 서브컴포넌트들을 도시한다. 앞서 언급된 바와 같이, 명령 프로세서의 기능은 적어도 일부 실시예들에서 (명령들이 프로세싱되고 있는 개인(들)에 대한 근접성과 관련하여) 로컬 및 원격 컴퓨팅 리소스들의 분산된 조합을 사용하여 구현될 수 있다. 예를 들어, 일 실시예에서, 시선 및 제스처 신호들 및 질의/명령 신호들의 수집은 개인이 탑승한 차량 내에서 수행될 수 있는 반면, 신호들의 분석의 적어도 일부는 차량 내의 로컬 시스템 컴포넌트들로부터 네트워크 연결성이 확립된 원격 데이터 센터에서 수행될 수 있다. 분석의 적어도 일부는 다양한 실시예들에서 로컬 명령 프로세서 컴포넌트들(예컨대, 상기 예에서 개인이 탑승한 차량 내에 포함된 컴포넌트들)에서 수행될 수 있다.

도시된 바와 같이, 명령 프로세서(810)는 도시된 실시예에서 대상 인식기(812), 음성 인식기(814), 관심/관련성 점수 기록기(scorer)(816), 응답 인터페이스 유형 선택기(820), 응답 생성기(822), 피드백 수집기(824), 및/또는 통신 관리자(826)를 포함할 수 있다. 일부 구현들에서, 도 8에 도시된 명령 프로세서 서브컴포넌트들의 개별 명령들은 하나 이상의 하드웨어 및/또는 소프트웨어 디바이스들, 모듈들 또는 실행 프로세스/쓰레드들을 포함할 수 있다. 적어도 하나의 실시예에서, (대상 인식과 같은) 명령 프로세서의 기능들 중 일부는 별개의 프레임워크 또는 서비스의 사용을 수반할 수 있다 - 예컨대, 콘볼루션 뉴럴 네트워크 모델들을 지원하는 기계 학습 프레임워크가 대상 인식을 위해 명령 프로세서(810)에 의해 호출될 수 있다.

외부 환경 데이터 소스(예컨대, 스틸 또는 비디오 카메라들과 같은 도 1의 데이터 소스들(112))로부터 수집된 신호들은, 일부 실시예들에서 시선 및 제스처 신호들과 함께 대상 인식기(812)에 대한 입력으로서, 원시 또는 부분적으로 프로세싱된 형태로 제공될 수 있다. 관심 후보 대상들은 그러한 입력을 사용하여 대상 인식기(812)에 의해 식별될 수 있다. 음성 인식기(814)는, 예컨대 다양한 자연 언어 프로세싱 알고리즘들을 사용하여, 개인에 의해 발행된 명령들 또는 질의들의 콘텐츠를 결정하는 것을 책임질 수 있다. 적어도 일부 실시예들에서, 음성 인식기(814)는 특정 개인들의 스피치를 인식하도록 훈련될 수 있다 - 예컨대, 일부 시간 간격에 걸쳐 하나의 개인의 스피치 패턴들에 대해 훈련된 주어진 음성 인식기는 그 개인에 의해 발화된 단어들을 다른 개인들에 의해 발화된 단어들보다 더 큰 정확도로 구별할 수 있다.

관심/관련성 점수 기록기(816)는, 예를 들어, 다양한 관심 후보 대상들에 대해 도 4에 도시된 점수들 또는 랭킹들의 종류들에 도달하기 위해, 도시된 실시예에서 컨텍스트 또는 신규성 분석기(818)를 이용할 수 있다. 컨텍스트 분석은, 예를 들어, 응답이 준비되어야 하는 명령 또는 질의에 앞서(그리고/또는 그 직후에) 논의되고 있는 토픽들 또는 대상들(어떠한 것이라도 있다면)을 결정하는 것을 포함할 수 있다. 신규성 분석은, 예를 들어, 한 쌍의 후보 대상들 중 어느 것이, 예컨대 현재 지리적, 문화적 또는 대화적 컨텍스트에서, 더 특이하거나 예기치 않은 것인지를 결정하는 것을 포함할 수 있는데, 이는 일부 유형들의 질의들 또는 명령들에 대한 타겟 관심 대상들을 선택하는 것을 도울 수 있다.

적어도 일부 실시예들에서, 예를 들어 터치 스크린들(2 차원 또는 3 차원 디스플레이들을 포함함), 음성 발생기들 등과 같은 그래픽/시각적 인터페이스들을 포함하는 여러 상이한 통신 메커니즘들 또는 인터페이스 유형들이 명령 또는 질의에 대한 응답을 제공하기 위해 이용가능할 수 있다. 응답 인터페이스 유형 선택기(820)는, 이용가능한 인터페이스들 중에서, 질의/명령의 속성, 그것을 사용하여 질의/명령이 검출되었던 인터페이스, 타겟 관심 대상의 부정확한 선택을 하는 것의 상대적인 결과들, 주변 환경 조건들(예컨대, 잡음 레벨 및/또는 스크린 가시성) 등에 적어도 부분적으로 기초하여 주어진 질의 또는 명령에 응답하기 위해 사용될 하나 이상의 인터페이스를 선택할 수 있다. 일부 경우들에서, 주차 명령 또는 "거기에 주차해"와 같은 명령에 대한 응답의 경우에서와 같이, 다중모드 분석 시스템은 잘못된 해석이 사용되어 실제로 의도되지 않았던 액션을 취하는 확률을 감소시키기 위해 다수의 인터페이스들을 사용하여 그것의 명령/질의의 해석을 확인할 수 있다. 응답 생성기(822)는 응답의 적어도 일부분(예컨대, 스크린 상에 디스플레이된 단어들)을 적절히 포맷팅하고 선택된 인터페이스들을 통해 응답을 제공할 수 있다.

피드백 수집기(824)는 도시된 실시예에서 명령/질의가 정확하게 해석되었는지 여부, 및/또는 명령 프로세서에 의해 선택된 타겟 관심 대상이 명령/질의가 그의 대신에 프로세싱되고 있는 개인에 의해 의도된 것이었는지 여부를 나타내는 신호들의 분석을 조정할 수 있다. 수집된 신호들의 분석이 분산 방식으로 수행되는 그러한 실시예들에서, 통신 관리자는 다중모드 신호 분석에 사용되는 메시지들에 대한 적절한 통신 메커니즘들(예컨대, 원거리통신 제공자 인프라스트럭처, Wi-Fi 라우터 등을 사용하는 무선 통신, 이더넷 등을 통한 유선 통신 등)을 선택하고 사용하는 것을 책임질 수 있다. 적어도 일부 실시예들에서, 도 8에 도시된 서브컴포넌트들 중 하나 이상이 이용되지 않을 수 있거나, 또는 상이한 서브컴포넌트들의 세트가 명령 프로세서에 의해 이용될 수 있다.

도 9는 적어도 일부 실시예들에 따른, 자연 언어 명령들 및 질의들에 응답하기 위해 다중모드 신호들을 검출하고 해석하는 시스템에서 수행될 수 있는 동작들의 양태들을 도시한 흐름도이다. 도 9 에서, 시선 및 제스처는 명령들에 대한 응답이 생성되는 기초가 되는 예시적인 신호 모달리티들로서 사용된다. 앞서 언급된 바와 같이, 다른 신호 모달리티들이 상이한 실시예들에서 사용될 수 있다. 요소(901)에 도시된 바와 같이, 명령들 또는 질의들이 프로세싱될 개인들의 세트뿐만 아니라, 개인들의 행동/움직임 및 개인들의 환경 내의 대상들/장소들에 관한 신호들을 감지하는 것을 책임지는 입력 데이터 소스들이 식별될 수 있다. 각각의 신호 모달리티에 대한 이용가능한 입력 신호 센서들(예컨대, 시선, 손 제스처들, 머리/목/몸통 제스처들)과 개인들 사이의 맵핑이 결정될 수 있다 - 예컨대, 차량 내에 4 개의 손 제스처 검출기들과 2 명의 개인들이 있다면, 제스처 검출기들의 각각의 쌍이 각각의 개인에 대해 지정될 수 있다. 일부 구현예들에서, 감지 디바이스들(예컨대, 카메라들) 중 일부의 배향들 또는 위치들은 그러한 맵핑들에 기초하여 조정될 수 있다 - 예컨대, 조정가능한 카메라의 렌즈 평면의 방향은 그를 위해 카메라가 지정되었던 특정 개인의 손 제스처들을 캡처하도록 변경될 수 있다.

일부 실시예들에서, 제스처 신호들, 시선 신호들, 음성 신호들, 및/또는 외부 환경 신호들이 과거에 직면했던 대상들 또는 장소들에 지향되는 질의들/명령들에 응답하기 위해 유지되어야 하는 각각의 초 수, 로컬 대 원격 프로세싱의 명세(breakdown)(즉, 어떤 분석 기능들이 개인들 근처의 디바이스들에서 로컬로 수행되어야 하고 어떤 분석 기능들이 원격 서버들에서 수행되어야 하는지) 등과 같은, 다중모드 분석에 관한 하나 이상의 파라미터 값들이 설정될 수 있다(요소(904)).

시선 신호들은 시선 데이터 수집기들을 사용하여 타겟 개인(들)로부터 수집될 수 있고, 선택된 롤링 시간 윈도우 지속기간들에 대해 유지될 수 있다(요소(907)). 유사하게, 도시된 실시예에서, 제스처 신호들이 선택된 시간 윈도우들에 대해 수집 및 유지될 수 있고(요소(910)) 외부 환경 신호들이 선택된 시간 윈도우들에 대해 수집 및 유지될 수 있다(요소(913)). 일부 실시예들에서, 신호의 각각의 유형 또는 모드가 유지되는 시간 윈도우들이 모든 신호 유형들에 대해 반드시 동일할 필요는 없을 수 있다 - 예컨대, 이용가능한 저장 용량 및 신호들에 사용되는 인코딩 알고리즘들에 따라, 시선 신호들이 T2 초 동안 유지되는 동안 제스처 신호들은 T1 초 동안 유지될 수 있는 경우일 수 있다.

관심 대상에 지향된 명령 또는 질의가, 예컨대 음성 인식기 또는 일부 다른 입력 인터페이스와 결합된 마이크로폰을 사용하여 검출될 수 있다(요소(916)). 적어도 일부 경우들에서, 명령 또는 질의가 지향되는 타겟 대상(들)은 명시적으로 특정되지 않을 수 있다. 대신에, 예를 들어, (질의 "저것이 무엇이었지?"에서와 같이) "이것" 또는 "저것"과 같은 지시 대명사들을 포함하는 부정확한 표시자들이 사용될 수 있거나, (명령 "거기에 주차해"에서와 같이) "여기" 또는 "거기"와 같은 상대적 장소의 부사들이 사용될 수 있다. 다양한 실시예들에서, 주어진 명령이 때때로 타겟 대상 또는 관심 대상들의 부분적 식별을 제공할 수 있지만, 명령의 콘텐츠는 대상 또는 대상들을 결정적으로 또는 확정적으로 식별하기에 충분하지 않을 수 있다. 다중모드 분석 시스템은 타겟 대상 또는 장소에 관한 광범위한 특수성을 갖는 질의들 또는 명령들에 응답할 수 있다는 것에 유의한다 - 예컨대, 적어도 일부 실시예들에서, "저것이 무엇이었지?", "저것이 무슨 자동차였지?", "저 빨간 자동차는 무슨 모델이었지?", 또는 "캘리포니아 번호판이 있는 저 빨간 컨버터블은 무슨 모델이었지?"와 같은 명령들(이들 각각은 타겟 관심 대상에 관하여 상이한 레벨의 상세사항을 가짐)은 모두 분석 시스템에 의해 동일하게 성공적으로 프로세싱될 수 있다. 상이한 실시예들에서, 다양한 유형들의 음성 인식 및/또는 자연 언어 프로세싱 알고리즘들이 질의 또는 명령을 해석하기 위해 채용될 수 있다.

예를 들어, 시선 데이터, 제스처 데이터, 및 환경 데이터를 포함하는, 수집된 신호 데이터의 일부 조합을 사용하여, 질의 또는 명령이 지향되었을 수 있는 관심 후보 대상들의 순위화된 리스트가 생성될 수 있다(요소(919)). 일부 실시예들에서, 다양한 유형들의 신호 데이터는 연관된 타임스탬프들을 가질 수 있고, 타임스탬프들은 상이한 센서들에서 획득되었던 신호들을 동시에 또는 거의 동시에 상관시키기 위해 사용될 수 있다. 적어도 하나의 실시예에서, 하나의 카테고리의 신호들은 다른 카테고리의 신호들을 사용하여 식별된 대상들을 필터링(또는 순위화)하기 위해 사용될 수 있다 - 예컨대, 제스처는 의도된 타겟 대상이 라마, 헛간 또는 산일 수 있다는 것을 대략적으로 나타낼 수 있지만, 시선 신호들은 의도된 타겟 대상이 산보다 라마일 가능성이 더 크다는 것을 암시할 수 있다. 상이한 실시예들에서, 관심 후보 대상들을 식별 및/또는 순위화하기 위해 (예컨대, 데이터 또는 신호들의 상이한 세트들 사이의 적어도 어느 정도 레벨의 시간적 상관, 공간적 상관 등을 수반하는) 다양한 상관-기반 분석들이 수행될 수 있다.

적어도 하나의 실시예에서, 예를 들어 여러 상이한 대상들에 대해 예측된 순위들(예컨대, 관심 점수들 또는 관련성 점수들)이 서로 근접하게 되는 경우, 또는 타겟 대상의 잘못된 선택이 상당한 부정적인 부작용을 가질 수 있는 경우, 시스템은 질의 또는 명령이 검출되었던 개인에게 시스템에 의해 이루어진 타겟의 선택을 명확화 또는 확인하도록 요청할 수 있다(요소(922)). 요청된 액션 또는 동작(이는, 예를 들어 질의 "저것이 무엇이었지?"에서 단어 "저것"의 타겟을 명명하는 것과 같은 단순한 어떤 것 또는 명령 "거기에 주차해"에 응답하여 차량을 주차하는 것과 같은 더 실질적인 어떤 것일 수 있음)이 대상들의 리스트의 선택된 타겟 대상에 대해 야기되거나 개시될 수 있다(요소(925)). 그에 대해 동작이 수행되는 특정 대상은 일부 실시예들에서 그것에 할당된 관심/관련성 점수에 적어도 부분적으로 기초하여 선택될 수 있다. 일부 실시예들에서 수행된 동작(들)에 관한 피드백 - 예컨대, 타겟 대상이 정확하게 선택되었는지 아닌지 여부 - 이 수집될 수 있고 시간 경과에 따라 시스템의 기능 및/또는 성능을 개선하는 데 사용될 수 있다. 일 실시예에서, 명령 또는 질의가 프로세싱되었던 개인이, 시스템이 부정확한 대상을 타겟 관심 대상으로서 선택했음을 나타내는 경우 및/ 그러한 때, (예컨대, 본래의 후보들의 리스트로부터 또는 새로 생성된 후보들의 리스트로부터) 하나 이상의 추가적인 관심 대상들이 식별될 수 있고, 요청된 동작은 명령/질의 응답이 허용가능하거나 명령/질의가 개인 또는 시스템에 의해 포기될 때까지 추가의 대상들에 대해 순서대로 수행될 수 있다.

일부 실시예들에서, 관심 후보 대상들의 식별은 명령 또는 질의가 수신된 후에만 수행될 수 있다. 다른 실시예들에서, 다중모드 분석 시스템은 관심 후보 대상들을 정기적으로, 예컨대, 명령/질의가 수신되는지 아닌지 여부에 관계없이 식별하도록 (그리고/또는 관심/관련성 점수들에 기초하여 그러한 후보들을 서로에 대해 순위화하도록) 구성될 수 있어서, 명령 또는 질의가 수신되는 경우 및 그러한 때, 관심 후보 대상들이 미리 식별되지 않았던 경우보다 더 신속하게 응답이 생성될 수 있다.

도 10은 적어도 일부 실시예들에 따른, 신호 소스들 중 하나로부터의 데이터가 적어도 일시적으로 이용가능하지 않거나 열화될 수 있는 시나리오들에서 관심 후보 대상들을 식별하기 위해 수행될 수 있는 예시적인 동작들의 양태들을 도시한 흐름도이다. 도 10에 도시된 실시예에서 시선, 제스처 및 음성 신호들이 수집되지만, 모달리티들의 다른 조합들이 다른 실시예들에서 사용될 수 있다. 요소(1001)에 도시된 바와 같이, 하나 이상의 개인들로부터의 시선, 손-포인팅 제스처들 및 음성/스피치 신호들은, 예컨대, 상이한 모달리티들에 대한 각각의 버퍼링 간격들에 대해 수집 및 버퍼링될 수 있다. 신호들 중 적어도 일부는 관심 대상들이 위치될 수 있었을 (예를 들어, 버퍼링 간격들 동안 어떤 시점에서 개인(들)의 위치(들)에 대해 상대적인) 방향을 나타내는 정보를 포함할 수 있다. 일부 실시예들에서 상이한 버퍼링 간격들이 상이한 모달리티들에 사용될 수 있는 반면, 다른 실시예들에서 동일한 버퍼링 간격들이 하나 초과의 모달리티에 사용될 수 있다. 또한, 외부 환경 신호들은, 예컨대, 도 2의 컨택스트에서 논의된 것들과 같은 외부 대면 카메라들을 사용하여 수집 및 버퍼링될 수 있다.

음성 신호들의 일부 조합이, 예컨대 음성 인식 및/또는 자연 언어 프로세싱 알고리즘들을 사용하여, 명령을 나타낸다는 결정이 이루어질 수 있다(요소(1004)). 명령이 파싱될 수 있고, 파싱의 결과들은, 명령에 의해 타겟팅되는 적어도 일부 공간적 관심 대상이, 예컨대, 앞서 논의된 바와 같이 "이것", "저것", "여기" 또는 "거기"와 같은 단어들을 사용하여, 부정확하게 특정된다는 것을 나타낼 수 있다.

이어서, 도시된 실시예에서, 시선-관련 및/또는 제스처 관련 데이터를 포함하는 버퍼들이 모달리티들 각각에 대해 "안정적인 방향들" 을 식별하고자 하는 시도로 검사될 수 있다(요소(1007)). 예를 들어, 가장 최근의 N 초에 걸쳐 수집된 신호들(여기서 N은 분석 알고리즘의 튜닝가능한 파라미터일 수 있음)은 주어진 개인이 일부 지속된 시간 기간 동안 대체로 동일한 방향(예컨대, 특정 방향을 중심으로 몇 도 범위 내)을 응시했는지, 또는 일부 지속된 기간 동안 손을 이용해 대체로 동일한 방향을 포인팅했는지를 결정하기 위해 분석될 수 있다. 예를 들어, 시선과 관련하여, 안정적인 방향들을 식별하기 위해 눈 멈춤(변함없는 시선 방향을 나타냄) 및/또는 원활 추종 눈 운동(smooth pursuit eye movement)(시선 방향들에서의 약간의 변화들을 나타냄)이 검출될 수 있다. 지속된 기간들의 최소 지속기간들 및 방향에서의 약간의 변화의 정도(시선 또는 제스처가 여전히 지속된다고 고려되도록 이동할 수 있는 최대 각도)가 또한 분석의 튜닝가능한 파라미터들일 수 있다. 지속된 시선 및/또는 제스처 방향의 하나 이상의 그러한 기간들이 발견되는 경우, 식별된 방향들은 도시된 실시예에서 각각의 안정적인 방향들로서 라벨링될 수 있다. 그러나, 때때로 조사되는 버퍼링된 신호들의 세트 내의 모달리티들 중 하나 이상에 대해 어떠한 안정적인 방향들도 식별되지 않는 경우가 있을 수 있다. 이는, 예를 들어 신호 소스와 일시적인 통신 두절, 신호 데이터를 운반하는 네트워크 패킷들의 손상을 포함하는 다양한 이유들로 인해, 또는 관련된 개인들의 행동이 어떤 지속된 기간의 일관된 시선 방향 또는 제스처들을 실제로 포함하지 않았기 때문에 발생할 수 있다. 적어도 일부 시나리오들에서, 분석 알고리즘은 그럼에도 불구하고 이하에서 기술되는 바와 같이 하나 이상의 관심 후보 대상들을 식별할 수 있다.

시선 또는 제스처에 대해 어떠한 안정적인 방향들도 식별되지 않으면(요소(1010)에 대응하는 동작들에서 결정되는 바와 같이), 특정 방향들을 고려하지 않고, 외부 환경 신호들을 단독으로 사용하여 하나 이상의 관심 후보 대상들의 리스트를 생성하기 위한 시도가 이루어질 수 있다(요소(1013)). 예를 들어, 비디오 신호들에 적용되는 대상 인식 알고리즘들은 상이한 대상들의 세트를 산출할 수 있고, 그 대상들의 일부 서브세트 또는 전부가 후보들로서 지정될 수 있다.

하나 이상의 안정적인 방향들이 시선에 대해서만 식별되면(요소(1016)에 대응하는 동작들에서 검출되는 바와 같이), 도시된 실시예에서 이들 안정적인 방향들 중 가장 최근의 것이 수집된 비디오 신호들 내의 대상들을 식별하는 것과 관련해 바람직한 방향으로 지정될 수 있다(요소(1019)). 유사하게, 하나 이상의 안정적인 방향들이 제스처들에 대해서만 식별되면(요소(1022)에 대응하는 동작들에서 검출되는 바와 같이), 그들 중 가장 최근의 것이 바람직한 방향으로 지정될 수 있다(요소(1025)).

시선 및 제스처 둘 모두에 대해 안정적인 방향들이 식별되면(즉, 요소들(1010, 1016, 및 1029)에 대응하는 동작들에서 체크되는 조건들 중 어느 것도 충족되지 않으면), 바람직한 방향을 식별하기 위해 도시된 실시예에서 2 개의 모달리티들의 안정적인 방향들 사이의 상관 분석이 수행될 수 있다. 예를 들어, 가장 최근의 안정적인 제스처 방향과 (예컨대, K 도 내에서) 일치하는 가장 최근의 안정적인 시선 방향이 바람직한 방향으로서 선택될 수 있다(요소(1025)). 모달리티들의 어떤 조합이 바람직한 방향을 식별하는 데 사용되었는지에 관계없이, 바람직한 방향에 기초하여 하나 이상의 관심 후보 대상들이 외부 신호 데이터로부터 식별될 수 있는데(요소(1028)), 물론, 외부 신호 데이터로부터 식별된 적어도 하나의 물체가 바람직한 방향과 동일한 일반 방향으로 위치되었다고 가정한다. 앞서 논의된 바와 같이, 후보 대상들은 상이한 실시예들에서 다양한 인자들에 기초하여 순위화될 수 있고, 순위화는 명령에 응답하는 데 사용될 수 있다(요소(1031)). 일부 경우들에서, 명령 그 자체는 관심 후보 대상들을 좁히는 것을 도울 수 있는 힌트들을 포함할 수 있다는 것에 유의한다. 예를 들어, 명령이 질의 "그 레스토랑에서 무엇이 서빙됩니까?"를 포함하는 경우, 이는 레스토랑으로 특징지어질 수 있는 대상들이 식별되어야 한다는 것(뒤이어, 가능한 경우 레스토랑에서 서빙되는 요리의 유형을 결정함)을 나타낼 수 있다. 유사하게, 명령이 질의 "저것이 무슨 종류의 자동차이지?"를 포함하는 경우, 이는 관심 대상들이 자동차들을 나타낼 수 있는 것들로 제한되어야 한다는 것을 암시할 뿐만 아니라, 또한 아마도 (통상적인 것보다는) 특이한 자동차 유형들이 식별된 후보 자동차 유형들 중에서 더 높은 가중치들/점수들을 할당받아야 한다는 것을 암시할 수 있다.

누락 신호 데이터가 존재하는 데서 성공적으로 기능하는 다중모드 신호 분석 알고리즘들은 적어도 일부 실시예들에서 도 10에 도시된 비교적 간단한 버전보다 다양한 방식들로 더 복잡해질 수 있다. 예를 들어, 일부 실시예들에서, 다양한 모달리티들을 사용하여 검출될 수 있는 방향의 각각의 정밀도를 나타내는 상대적 가중치들이 분석에서 사용될 수 있고, 바람직한 방향들을 식별할 때 상이한 모달리티들에 순위들이 할당될 수 있고, 기타 등등이다. 반복적 접근법들이 분석 동안 행해진 다양한 결론들의 이완(laxity) 또는 재량(leeway)과 관련해 취해질 수 있다(예컨대, 안정적인 방향이 D 도의 범위 내에서 발견될 수 없는 경우, [D+ 델타] 도의 범위가 후속 반복에서 사용될 수 있거나, 250 밀리초의 지속된 지속기간에 대해 안정적인 방향이 발견될 수 없는 경우, 200 밀리초의 지속기간이 후속 반복에 사용될 수 있고, 기타 등등이다). 2 개 초과의 신호 모달리티들이 일부 실시예들에서 사용될 수 있다 - 예컨대, 시선 및 손-포인팅 제스처들에 더하여, 머리 운동들이 일 실시예에서 사용될 수 있다. 그러한 제3 모달리티의 추가는, 물론, 누락 및 검출된 안정적인 방향들에 대해 고려되어야 하는 조합들의 수를, 도 10 에 나타낸 4 개의 조합들((1) 시선에 대해서도 또는 손-포인팅 제스처들에 대해서도 식별되지 않은 안정적인 방향들, (2) 시선에 대해 식별되지만 손-포인팅 제스처들에 대해서는 식별되지 않는 안정적인 방향(들), (3) 손-포인팅 제스처들에 대해 식별되지만 시선에 대해서는 식별되지 않은 안정적인 방향(들) 및 (4) 시선 및 손-포인팅 제스처들 둘 모두에 대해 식별된 안정적인 방향(들))로부터 8 개의 조합들로 증가되게 할 것이다. 일반적으로, N 방향-관련 모달리티들에 대해, 최대 2 ^N의 그러한 조합들이 알고리즘에서 고려되어야 할 수 있다.

다양한 실시예들에서, 도 9 및 도 10 의 흐름도들에 예시된 것들 이외의 적어도 일부 동작들이 전술된 다중모드 신호 분석 기법들을 구현하는 데 사용될 수 있다는 것에 유의한다. 도시된 동작들 중 일부는 일부 실시예들에서 구현되지 않을 수 있거나, 또는 순차적이 아닌 상이한 순서로 또는 병렬적으로 구현될 수 있다.

일반적으로 말하면, 전술된 다중모드 신호 분석을 위한 기법들 및 알고리즘들은 (도 2 에 도시된 것과 같은 차량의 경우에서와 같은) 이동 환경들뿐만 아니라 고정 환경들 내에서 동일하게 성공적으로 사용될 수 있다. 도 11은 적어도 일부 실시예들에 따른, 다중모드 신호 분석이 빌딩의 룸 내에서 수행될 수 있는 예시적인 시나리오를 도시한다. 룸(1110)(예컨대, 소매점 또는 개인의 집 내의 룸)의 하향식 뷰가 도시되어 있다. 거실의 경우의 가구 또는 소매점에 비축된 제품들과 같은, 다중모드 신호 분석을 수행하는 것과 직접적으로 관련이 없는 대상은 도 11에 도시되어 있지 않다. 룸(1110)은 다양한 카메라들, 마이크로폰들 등과 같은 복수의 입력 데이터 소스(IDS)들(1121A 내지 1121B)을 포함할 수 있다. 손 또는 신체 제스처들, 시선, 얼굴 표정들, 생리학적 응답들 등과 같은, 위에서 논의된 종류들의 여러 상이한 모달리티들에 대응하는 신호들은 도시된 실시예에서 IDS들(1121)의 일부 조합을 사용하여 룸에 존재하는 하나 이상의 개인들로부터 캡처될 수 있다. 개인들 자체는 고정적일 수 있거나, 또는 이동하고 있을 수 있다(예컨대, 룸의 한 부분으로부터 다른 부분으로 걷고 있음). 신호들 중 적어도 일부는 신호들이 획득되는 개인에 대한 공간적 방향의 표시를 제공할 수 있다. 일부 실시예들에서, 입력 데이터 소스들 중 적어도 일부는 이동가능할 수 있다(예컨대, 카메라의 렌즈 또는 마이크로폰의 배향은 룸 내에서 이동하고 있을 수 있는 개인으로부터의 신호들을 보다 명확하게 캡처하기 위해 수정될 수 있다).

IDS들(1121) 중 일부는 개인에 의해 발행된 명령 또는 질의의 발행의 표시를 제공할 수 있다. 명령은, 예를 들어, 임의의 제한된 질의 언어가 아닌 자연 언어로 표현될 수 있고, 적어도 일부 실시예들에서 명령이 지향되는 특정 관심 대상을 반드시 명시적으로, 결정적으로 또는 확정적으로 식별할 필요는 없다. 예를 들어, 지시 대명사, 상대적 장소 부사 등과 같은 부정확한 표시자들이 명령에 사용될 수 있다. 예를 들어 신호들 중 적어도 일부에 포함된 방향 정보를 포함하는, 수집된 신호들의 상이한 모드들 중 하나 이상의 분석에 기초하여, 하나 이상의 관심 후보 대상들이 도시된 실시예에서 명령 프로세서(들)(1125)에 의해 식별될 수 있다. 후보들로부터 선택된 하나 이상의 대상들과 연관된 하나 이상의 동작들이 수행될 수 있다. 일부 경우들에서, 선택된 대상 또는 대상들에 관한 정보는 스피커들 또는 디스플레이들과 같은 출력 디바이스(OD)들(1122A 또는 1122B)을 통해 제공될 수 있다. 예를 들어, 명령 또는 질의에 대한 오디오, 시각적 또는 텍스트 응답이 출력 디바이스들(1122) 중 하나 이상을 통해 제공될 수 있다. 도시된 실시예에서, 다중모드 신호 분석에 관하여 앞서 논의된 것들과 유사한 다양한 알고리즘들 및 기법들(예컨대, 버퍼링 기법들, 입력 신호 데이터가 부분적이거나 불완전할 때 사용되는 기법들, 원격 데이터 소스들에 액세스하는 것과 관련된 기법들, 후보 대상들의 순위화, 명확화 등을 향한 다양한 접근법들)이 고정적인 환경들에서 채용될 수 있다.

적어도 일부 실시예들에서, 다양한 유형들의 신호들(개인들로부터 나오는 제스처, 시선, 또는 음성 신호들뿐만 아니라 개인의 외부 환경을 나타내는 신호들을 포함함)을 수집, 획득 또는 프로세싱하기 위한 기법들을 포함하는 본 명세서에서 설명된 기술들 중 하나 이상의 일부분 또는 전부를 구현하는 서버는, 하나 이상의 컴퓨터 액세스가능 매체를 포함하거나 이에 액세스하도록 구성되는 범용 컴퓨터 시스템을 포함할 수 있다. 도 12는 그러한 범용 컴퓨팅 디바이스(9000)를 도시한다. 도시된 실시예에서, 컴퓨팅 디바이스(9000)는 입력/출력(I/O) 인터페이스(9030)를 통해 메인 메모리(9020)(비휘발성 메모리 모듈 및 휘발성 메모리 모듈 둘 모두를 포함할 수 있고, 또한 시스템 메모리로도 지칭될 수 있음)에 결합된 하나 이상의 프로세서들(9010)을 포함한다. 컴퓨팅 디바이스(9000)는 I/O 인터페이스(9030)에 결합된 네트워크 인터페이스(9040)뿐만 아니라, 다양한 유형들의 센서들을 포함할 수 있는 추가적인 I/O 디바이스들(9035)을 추가로 포함한다.

다양한 실시예들에서, 컴퓨팅 디바이스(9000)는 하나의 프로세서(9010)를 포함하는 단일프로세서 시스템, 또는 여러 개(예컨대, 2개, 4개, 8개, 또는 다른 적합한 개수)의 프로세서들(9010)을 포함하는 다중프로세서 시스템일 수 있다. 프로세서들(9010)은 명령어들을 실행할 수 있는 임의의 적합한 프로세서들일 수 있다. 예를 들어, 다양한 실시예들에서, 프로세서들(9010)은 다양한 ISA(instruction set architecture)들, 예컨대 x86, PowerPC, SPARC, 또는 MIPS ISA, 또는 임의의 다른 적합한 ISA 중 임의의 것을 구현하는 범용 또는 내장형 프로세서들일 수 있다. 멀티프로세서 시스템들에서, 프로세서들(9010) 각각은 일반적으로 동일한 ISA를 구현할 수 있지만 반드시 그러한 것은 아니다. 일부 구현예들에서, 그래픽 프로세싱 유닛(GPU)들이 종래의 프로세서들 대신에, 또는 그에 부가하여 사용될 수 있다.

메모리(9020)는 프로세서(들)(9010)에 의해 액세스가능한 명령어들 및/또는 데이터를 저장하도록 구성될 수 있다. 적어도 일부 실시예들에서, 메모리(9020)는 휘발성 부분 및 비휘발성 부분 둘 모두를 포함할 수 있고; 다른 실시예들에서, 휘발성 메모리만이 사용될 수 있다. 다양한 실시예들에서, 시스템 메모리(9020)의 휘발성 부분은 정적 랜덤 액세스 메모리(SRAM), 동기적 동적 RAM 또는 임의의 다른 유형의 메모리와 같은 임의의 적합한 메모리 기술을 이용하여 구현될 수 있다. 시스템 메모리의 비휘발성 부분(예를 들어, 하나 이상의 NVDIMM들을 포함할 수 있음)의 경우, 일부 실시예들에서, NAND-플래시 디바이스들을 포함하는 플래시-기반 메모리 디바이스들이 사용될 수 있다. 적어도 일부 실시예들에서, 시스템 메모리의 비휘발성 부분은 수퍼커패시터 또는 다른 전력 저장 디바이스(예컨대, 배터리)와 같은 전원을 포함할 수 있다. 다양한 실시예들에서, 멤리스터 기반 저항성 랜덤 액세스 메모리(ReRAM), 3차원 NAND 기술들, 강유전체 RAM, 자기 저항 RAM(MRAM), 또는 다양한 유형의 위상 변화 메모리(PCM) 중 임의의 것이 적어도 시스템 메모리의 비휘발성 부분을 위해 사용될 수 있다. 도시된 실시예에서, 전술된 방법들, 기법들, 및 데이터와 같은 하나 이상의 원하는 기능들을 구현하는 실행가능한 프로그램 명령어들(9025) 및 데이터(1926)는 메인 메모리(9020) 내에 저장된 것으로 도시되어 있다.

일 실시예에서, I/O 인터페이스(9030)는 프로세서(9010), 메인 메모리(9020), 및 (네트워크 인터페이스(9040) 또는 다른 주변기기 인터페이스들, 예컨대 다양한 유형의 지속적 및/또는 휘발성 저장 디바이스들, 시선 신호 수집, 제스처 신호 수집, 외부 환경 신호 수집, 음성 수집 등을 위한 센서 디바이스들을 포함하는) 다양한 주변기기 디바이스들 사이의 I/O 트래픽을 조정하도록 구성될 수 있다. 일부 실시예들에서, I/O 인터페이스(9030)는 하나의 컴포넌트(예컨대, 메인 메모리(9020))로부터의 데이터 신호들을 다른 컴포넌트(예컨대, 프로세서(9010))에 의해 사용하기에 적합한 포맷으로 변환하기 위한 임의의 필요한 프로토콜, 타이밍 또는 다른 데이터 변환들을 수행할 수 있다. 일부 실시예들에서, I/O 인터페이스(9030)는, 예를 들어, PCI(Peripheral Component Interconnect) 버스 표준 또는 USB(Universal Serial Bus) 표준의 변형물과 같은 다양한 유형들의 주변기기 버스들을 통해 부착되는 디바이스들을 위한 지원부를 포함할 수 있다. 일부 실시예들에서, I/O 인터페이스(9030)의 기능은, 예를 들어, 2 개 이상의 별개의 컴포넌트들, 예컨대 노스 브리지 및 사우스 브리지로 분할될 수 있다. 또한, 일부 실시예들에서, 메모리(9020)에 대한 인터페이스와 같은 I/O 인터페이스(9030)의 기능 중 일부 또는 모두가 프로세서(9010) 내에 직접 통합될 수 있다.

네트워크 인터페이스(9040)는, 예를 들어, 도 1 내지 도 11에 도시된 바와 같이, 다른 컴퓨터 시스템들 또는 디바이스들과 같은, 네트워크 또는 네트워크들(9050)에 부착된 다른 디바이스들(9060)과 컴퓨팅 디바이스(9000) 사이에서 데이터가 교환될 수 있도록 구성될 수 있다. 다양한 실시예들에서, 네트워크 인터페이스(9040)는, 예를 들어 임의의 적합한 유선 또는 무선의 일반 데이터 네트워크들, 예컨대 이더넷 네트워크 유형들을 통해 통신을 지원할 수 있다. 또한, 네트워크 인터페이스(9040)는, 파이버 채널 SAN들과 같은 저장 영역 네트워크들을 통해, 또는 임의의 다른 적합한 유형의 네트워크 및/또는 프로토콜을 통해, 아날로그 음성 네트워크들 또는 디지털 섬유 통신 네트워크들과 같은 원거리통신/전화 네트워크들을 통해 통신을 지원할 수 있다.

일부 실시예들에서, 메인 메모리(9020)는 대응하는 방법들 및 장치의 실시예들을 구현하기 위해 도 1 내지 도 11에 대해 전술된 바와 같은 프로그램 명령어들 및 데이터를 저장하도록 구성된 컴퓨터 액세스가능 매체의 일 실시예일 수 있다. 그러나, 다른 실시예들에서, 프로그램 명령어들 및/또는 데이터는 상이한 유형의 컴퓨터 액세스가능 매체들 상에서 수신, 송신 또는 저장될 수 있다. 일반적으로 말하면, 컴퓨터 액세스가능 매체는 I/O 인터페이스(9030)를 통해 컴퓨팅 디바이스(9000)에 커플링된 자기적 또는 광학적 매체들, 예컨대 디스크 또는 DVD/CD와 같은 비일시적 저장 매체들 또는 메모리 매체들을 포함할 수 있다. 비일시적 컴퓨터 액세스가능 저장 매체는 또한, 메인 메모리(9020) 또는 다른 유형의 메모리로서 컴퓨팅 디바이스(9000)의 일부 실시예들에 포함될 수 있는 RAM(예컨대, SDRAM, DDR SDRAM, RDRAM, SRAM 등), ROM 등과 같은 임의의 휘발성 또는 비휘발성 매체들을 포함할 수 있다. 또한, 컴퓨터 액세스가능 매체는, 네트워크 인터페이스(9040)를 통해 구현될 수 있는 것과 같은 네트워크 및/또는 무선 링크와 같은 통신 매체를 통해 전달되는, 전기, 전자기, 또는 디지털 신호들과 같은 전송 매체들 또는 신호들을 포함할 수 있다. 도 12에 도시된 것과 같은 다수의 컴퓨팅 디바이스들의 부분들 또는 전부는 다양한 실시예들에서 기술된 기능을 구현하는 데 사용될 수 있는데; 예를 들어, 다양한 상이한 디바이스들 및 서버들 상에서 실행되는 소프트웨어 컴포넌트들은 기능성을 제공하기 위해 협력할 수 있다. 일부 실시예들에서, 기술된 기능성의 부분들은 범용 컴퓨터 시스템들을 사용하여 구현되는 것에 더하여 또는 그 대신에, 저장 디바이스들, 네트워크 디바이스들, 또는 특수 목적 컴퓨터 시스템들을 사용하여 구현될 수 있다. 본 명세서에서 사용되는 바와 같이, 용어 "컴퓨팅 디바이스"는 적어도 모든 이 유형들의 디바이스들을 지칭하고, 이 유형들의 디바이스들로 제한되지 않는다.

결론

다양한 실시예들이 컴퓨터 액세스가능 매체에 관한 전술된 설명에 따라 구현된 명령어들 및/또는 데이터를 수신, 전송, 또는 저장하는 것을 추가로 포함할 수 있다. 일반적으로 말하면, 컴퓨터 액세스가능 매체는 자기적 또는 광학적 매체들과 같은 저장 매체들 또는 메모리 매체들, 예컨대 디스크 또는 DVD/CD-ROM, RAM(예컨대, SDRAM, DDR, RDRAM, SRAM 등), ROM 등과 같은 휘발성 또는 비휘발성 매체들뿐만 아니라 네트워크 및/또는 무선 링크와 같은 통신 매체를 통해 전달되는 전기, 전자기, 또는 디지털 신호들과 같은 전송 매체들 또는 신호들을 포함할 수 있다.

도면에 도시되고 본 명세서에서 기술되는 다양한 방법들은 방법들의 예시적인 실시예들을 나타낸다. 방법들은 소프트웨어, 하드웨어, 또는 이들의 조합으로 구현될 수 있다. 방법의 순서는 변경될 수 있고, 다양한 요소들이 추가, 재정렬, 조합, 생략, 수정 등이 될 수 있다.

다양한 수정 및 변경이 본 개시내용의 이익을 갖는 통상의 기술자에게 자명한 바와 같이 이루어질 수 있다. 모든 그러한 수정 및 변경을 포괄하며, 그에 따라 상기의 설명이 제한적인 의미라기보다는 예시적인 것으로 간주되어야 함이 의도된다.

Claims

방법으로서,
하나 이상의 컴퓨팅 디바이스들에서,
복수의 센서 디바이스들 중 하나 이상의 센서 디바이스들을 사용하여, 적어도 제1 시간 간격 동안 하나 이상의 개인들로부터 제1 신호 모달리티(modality) 및 제1 방향을 나타내는 제1 데이터 세트를 획득하는 단계 - 상기 제1 데이터 세트는 적어도 시선을 나타내는 제1 신호 및 제스처를 나타내는 제2 신호를 포함함 -;
상기 복수의 센서 디바이스들 중 하나 이상의 센서 디바이스들을 사용하여, 적어도 부분적으로 상기 제1 시간 간격과 중첩되는 적어도 제2 시간 간격 동안, 상기 하나 이상의 개인들 중 적어도 하나의 개인으로부터 제2 신호 모달리티를 나타내는 제2 데이터 세트를 획득하는 단계;
적어도 부분적으로 상기 제1 데이터 세트 및 상기 제2 데이터 세트의 분석에 기초하여, 상기 하나 이상의 개인들 중 특정 개인에 대한 하나 이상의 관심 후보 대상들을 식별하는 단계 - 상기 분석은, 상기 제스처가 각도 범위 내에서 지향되고, 상기 시선이 상기 제스처의 상기 각도 범위 내에 있는 시선 방향으로 지향된다고 결정하는 것을 포함하고, 상기 하나 이상의 관심 후보 대상들은 적어도 부분적으로 상기 시선 방향과 상기 제스처의 상기 각도 범위의 조합에 기초하여 식별됨 -; 및
상기 하나 이상의 관심 후보 대상들 중 제1 선택된 후보 대상과 연관된 동작이 수행되게 하는 단계
를 수행하는 것을 포함하는, 방법.
제1항에 있어서, 상기 하나 이상의 컴퓨팅 디바이스들에 의해,
상기 제1 데이터 세트의 적어도 서브세트를 버퍼 내에 저장하는 단계를 수행하는 것을 추가로 포함하고, 상기 서브세트는 상기 제1 신호 모달리티와 연관된 버퍼링 간격에 대응하고, 상기 분석은 상기 버퍼의 콘텐츠를 조사하는 것을 포함하는, 방법.
제1항에 있어서, 상기 제1 데이터 세트 또는 상기 제2 데이터 세트 중 적어도 하나의 데이터 세트는, 포인팅 제스처, 머리 배향 또는 움직임, 몸통 배향 또는 움직임, 손 이외의 신체 부분을 사용하여 이루어진 제스처, 얼굴 표정, 하나 이상의 스피치 토큰들, 또는 비자발적인 생리적 응답 중 하나 이상을 나타내는 신호를 포함하는, 방법.
제1항에 있어서, 상기 하나 이상의 컴퓨팅 디바이스들에 의해,
(a) 웨어러블 디바이스, (b) 상기 특정 개인이 탑승한 이동하는 차량 내에 위치되거나 그에 부착된 센서, (c) 비디오 카메라, (d) 스틸 카메라, (e) 깊이 카메라, (f) 관성 센서, (g) 전자기 신호 검출기, (h) 초음파 신호 검출기, (i) 레이더 신호 검출기, (j) 비-카메라 광학 센서, (k) EMG(근전도) 센서 또는 (l) 스마트 폰 중 하나 이상으로부터 상기 제1 데이터 세트의 적어도 일부분을 획득하는 단계를 수행하는 것을 추가로 포함하는, 방법.
제1항에 있어서, 상기 분석은 (a) 하나 이상의 스피치 신호들, (b) 터치 스크린 인터페이스를 통해 수신된 하나 이상의 신호들, 또는 (c) 수화 언어로 표현된 하나 이상의 신호들의 분석을 포함하는, 방법.
제1항에 있어서, 상기 제1 선택된 후보 대상과 연관된 상기 동작은, (a) 그래픽 디스플레이 또는 자동화된 음성을 통해 상기 제1 선택된 후보 대상의 이름을 표시하는 것, (b) 상기 제1 선택된 후보 대상의 사진 또는 비디오를 캡처하는 것, (c) 상기 제1 선택된 후보 대상에 대응하는 하나 이상의 단어들 또는 기호들의 번역, 또는 (d) 차량의 주차를 개시하는 것 중 하나 이상을 포함하는, 방법.
제1항에 있어서, 상기 하나 이상의 컴퓨팅 디바이스들에 의해,
관심 대상의 부정확한 표시자를 포함하는 명령을 결정하는 단계를 수행하는 것을 추가로 포함하고, 상기 하나 이상의 후보 대상들의 상기 식별은 상기 명령에 응답한 것이고, 상기 부정확한 표시자는 (a) 지시 대명사 또는 (b) 상대적 장소 부사 중 하나 이상을 포함하는, 방법.
시스템으로서,
하나 이상의 센서 디바이스들; 및
하나 이상의 명령 프로세싱 디바이스들을 포함하고;
상기 하나 이상의 센서 디바이스들은,
적어도 제1 시간 간격 동안 하나 이상의 개인들로부터 제1 신호 모달리티 및 제1 방향을 나타내는 제1 데이터 세트를 획득하고 - 상기 제1 데이터 세트는 적어도 시선을 나타내는 제1 신호 및 제스처를 나타내는 제2 신호를 포함함 -;
적어도 부분적으로 상기 제1 시간 간격과 중첩되는 적어도 제2 시간 간격 동안, 상기 하나 이상의 개인들 중 적어도 하나의 개인으로부터 제2 신호 모달리티를 나타내는 제2 데이터 세트를 획득하도록 구성되고;
상기 하나 이상의 명령 프로세싱 디바이스들은,
적어도 부분적으로 상기 제1 데이터 세트 및 상기 제2 데이터 세트의 분석에 기초하여, 상기 하나 이상의 개인들 중 특정 개인에 대해 하나 이상의 관심 후보 대상들을 식별하고 - 상기 분석은, 상기 제스처가 각도 범위 내에서 지향되고, 상기 시선이 상기 제스처의 상기 각도 범위 내에 있는 시선 방향으로 지향된다고 결정하는 것을 포함하고, 상기 하나 이상의 관심 후보 대상들은 적어도 부분적으로 상기 시선 방향과 상기 제스처의 상기 각도 범위의 조합에 기초하여 식별됨 -;
상기 하나 이상의 관심 후보 대상들 중 제1 선택된 후보 대상과 연관된 동작이 수행되게 하도록 구성된, 시스템.
제8항에 있어서, 상기 분석은,
상기 제1 신호 모달리티에 대응하는 방향-관련 정보가 상기 제1 시간 간격의 적어도 서브-간격(sub-interval)에 대해 이용가능하지 않음을 결정하는 것을 포함하는, 시스템.
제8항에 있어서, 상기 분석은,
상기 제2 데이터 세트의 적어도 일부분을 분석하는 것과 병행하여 상기 제1 데이터 세트의 적어도 일부분을 분석하는 것을 포함하는, 시스템.
제8항에 있어서, 상기 하나 이상의 관심 후보 대상들은 복수의 관심 후보 대상들을 포함하고, 상기 하나 이상의 명령 프로세싱 디바이스들은,
상기 복수의 관심 후보 대상들 중 개별 관심 후보 대상들에 대응하는 각각의 관심 점수들을 예측하고;
적어도 부분적으로 그것의 예측된 관심 점수에 기초하여, 상기 복수의 관심 후보 대상들로부터 상기 제1 선택된 후보 대상을 선택하도록 추가로 구성되는, 시스템.
제8항에 있어서, 상기 하나 이상의 센서 디바이스들은 제1 센서 디바이스 및 제2 센서 디바이스를 포함하는 복수의 센서 디바이스들을 포함하고, 상기 제1 데이터 세트는 상기 제1 센서 디바이스 및 상기 제2 센서 디바이스로부터 수집된 데이터의 각각의 서브세트들을 포함하는, 시스템.
제8항에 있어서, 상기 하나 이상의 관심 후보 대상들을 식별하기 위해, 상기 하나 이상의 명령 프로세싱 디바이스들은,
상기 특정 개인의 환경에 관한 스틸 또는 비디오 이미지를 획득하고;
상기 스틸 또는 비디오 이미지의 적어도 일부분을 사용하여 대상 인식 알고리즘의 실행을 야기하도록 추가로 구성되는, 시스템.
제8항에 있어서, 상기 하나 이상의 관심 후보 대상들을 식별하기 위해, 상기 하나 이상의 명령 프로세싱 디바이스들은,
(a) 복수의 대상들의 각각의 위치들을 나타내는 지도 데이터베이스 - 상기 복수의 대상들은 상기 하나 이상의 관심 후보 대상들 중 적어도 하나의 대상을 포함함 -, (b) 상품 카탈로그 또는 (c) 인터넷을 통해 액세스가능한 데이터 소스 중 하나 이상을 질의하도록 추가로 구성되는, 시스템.
프로그램 명령어들을 저장하는 하나 이상의 비일시적 컴퓨터 액세스가능 저장 매체로서, 상기 프로그램 명령어들은, 하나 이상의 프로세서들 상에서 또는 하나 이상의 프로세서들 전체에 걸쳐 실행될 때,
적어도 제1 시간 간격 동안 하나 이상의 개인들로부터 제1 신호 모달리티 및 제1 방향을 나타내는 제1 데이터 세트를 획득하고 - 상기 제1 데이터 세트는 적어도 시선을 나타내는 제1 신호 및 제스처를 나타내는 제2 신호를 포함함 -;
적어도 부분적으로 상기 제1 시간 간격과 중첩되는 적어도 제2 시간 간격 동안 상기 하나 이상의 개인들 중 적어도 하나의 개인으로부터 제2 신호 모달리티를 나타내는 제2 데이터 세트를 획득하고;
적어도 부분적으로 상기 제1 데이터 세트 및 상기 제2 데이터 세트의 분석에 기초하여, 상기 하나 이상의 개인들 중 특정 개인에 대해 하나 이상의 관심 후보 대상들을 식별하고 - 상기 분석은, 상기 제스처가 각도 범위 내에서 지향되고, 상기 시선이 상기 제스처의 상기 각도 범위 내에 있는 시선 방향으로 지향된다고 결정하는 것을 포함하고, 상기 하나 이상의 관심 후보 대상들은 적어도 부분적으로 상기 시선 방향과 상기 제스처의 상기 각도 범위의 조합에 기초하여 식별됨 -;
상기 하나 이상의 관심 후보 대상들 중 제1 선택된 후보 대상과 연관된 동작이 수행되게 하는, 하나 이상의 비일시적 컴퓨터 액세스가능 저장 매체.
제15항에 있어서, 상기 제1 선택된 후보 대상은 가상 현실(VR) 환경 또는 증강 현실(AR) 환경에서 정의되는 가상 대상인, 하나 이상의 비일시적 컴퓨터 액세스가능 저장 매체.
제15항에 있어서, 상기 하나 이상의 개인들은 제2 개인을 포함하고, 상기 제1 데이터 세트 및 상기 제2 데이터 세트의 상기 분석은 (a) 상기 특정 개인으로부터 획득된 데이터 및 (b) 상기 제2 개인으로부터 획득된 데이터의 조사를 포함하는, 하나 이상의 비일시적 컴퓨터 액세스가능 저장 매체.
제15항에 있어서, 상기 제1 데이터 세트 및 상기 제2 데이터 세트의 상기 분석은 기계 학습 알고리즘의 실행을 포함하는, 하나 이상의 비일시적 컴퓨터 액세스가능 저장 매체.
제15항에 있어서, 상기 하나 이상의 프로세서들 상에서 또는 상기 하나 이상의 프로세서들 전체에 걸쳐 실행될 때,
상기 특정 개인에 대해 상기 하나 이상의 관심 후보 대상들을 식별하기 위해, 상기 제1 데이터 세트, 상기 제2 데이터 세트, 및 제3 데이터 세트의 각각의 부분들의 조합에 대한 상관-기반 분석이 수행되게 하는 프로그램 명령어들을 추가로 저장하고, 상기 제3 데이터 세트는 상기 특정 개인의 외부 환경의 하나 이상의 센서들로부터 수집되는, 하나 이상의 비일시적 컴퓨터 액세스가능 저장 매체.
제19항에 있어서, 상기 하나 이상의 프로세서들 상에서 또는 상기 하나 이상의 프로세서들 전체에 걸쳐 실행될 때,
상기 하나 이상의 관심 후보 대상들 중에서, (a) 지리적 컨텍스트, (b) 문화적 컨텍스트, (c) 대화적 컨텍스트, 또는 (d) 개인 프로파일 정보 중 하나 이상에 적어도 부분적으로 기초하여 상기 동작이 연관되는 상기 제1 선택된 후보 대상을 선택하는 프로그램 명령어들을 추가로 저장하는, 하나 이상의 비일시적 컴퓨터 액세스가능 저장 매체.