KR102175595B1

KR102175595B1 - 펄스형 광원을 이용한 근접 평면 분할

Info

Publication number: KR102175595B1
Application number: KR1020157032050A
Authority: KR
Inventors: 마크 제이. 피노키오; 알렉산드루 오. 발란; 나단 애커만; 제프리 니일 마골리스
Original assignee: 마이크로소프트 테크놀로지 라이센싱, 엘엘씨
Priority date: 2013-04-12
Filing date: 2014-04-08
Publication date: 2020-11-06
Also published as: EP2984541B1; US9304594B2; WO2014168900A1; EP2984541A1; CN105164612A; US20140306874A1; KR20150143612A

Abstract

근접장 환경에서 행동을 인식하는 방법이 개시된다. 일부 실시형태에 있어서, 머리 장착형 디스플레이 장치(HMD)와 같은 모바일 장치는 (예를 들면, 광도의 지수적 감소에 기인하여) 제1 범위로 IR 광원을 이용하여 환경을 조명하는 동안 그 환경의 제1 이미지를 포착하고, 조명 없이 상기 환경의 제2 이미지를 포착할 수 있다. 모바일 장치는 환경 내의 다른 IR 광원에 기인하는 배경 잡음(예를 들면, 태양광 또는 인공 광원에 기인하는 잡음)을 제거하기 위해 상기 제1 이미지와 상기 제2 이미지에 기초하여 차 이미지를 생성할 수 있다. 일부 경우에, 물체 및 행동 인식 기술을 상기 차 이미지에 적용하여 모바일 장치의 근접장 환경 내에서 모바일 장치의 최종 사용자에 의한 손 및/또는 손가락 행동의 수행을 검출할 수 있다.

Description

펄스형 광원을 이용한 근접 평면 분할{NEAR-PLANE SEGMENTATION USING PULSED LIGHT SOURCE}

가정용 오락기기 및 게이밍 시스템은 NUI(natural user interface)를 제공하기 위해 카메라 및 행동 인식 소프트웨어를 사용하기 시작하였다. NUI에 의해, 인간의 신체 부분 및 신체의 움직임을 검출, 해석 및 이용하여 컴퓨팅 시스템에서 동작하는 컴퓨팅 애플리케이션의 각종 양태(aspect)를 제어할 수 있다. 컴퓨팅 시스템은 장면의 이미지들을 포착하기 위해 컬러 카메라(예를 들면, RGB 카메라) 또는 깊이 카메라를 포함할 수 있다. 깊이 카메라는 깊이 정보를 획득하기 위해 비행시간(time-of-flight, TOF) 또는 구조광(structured light) 기술을 이용하는 능동 조명 깊이 카메라를 포함할 수 있다. 컬러 카메라는 장면을 컬러 이미지로서 포착하고 깊이 카메라는 장면을 뎁스맵(depth map)으로서 포착할 수 있다. 뎁스맵은 깊이 카메라와 관련된 포인트와 같은 특정의 기준점으로부터 환경 내의 물체까지의 거리에 관한 깊이 정보를 포함하는 2차원 환경 이미지를 포함할 수 있다. 2차원 이미지 내의 각 화소는 상기 특정 기준점으로부터의 선형 거리를 나타내는 깊이 값과 연관될 수 있다.

본 발명은 근접장(near-field) 환경에서의 행동 인식과 관련된다. 일부 실시형태에 있어서, 머리 장착형 디스플레이 장치(HMD)와 같은 모바일 장치는 모바일 장치의 최종 사용자에 의해 수행된 손 및/또는 손가락 행동을 인식할 수 있다. 모바일 장치는 IR 광원을 이용하여 환경을 조명하는 동안 그 환경의 제1 이미지를 포착할 수 있다. IR 광원은 제1 범위가 조명되도록 상기 환경에 광을 투사할 수 있다. 광도는 광원으로부터의 거리에 따라 지수적으로 감소하기 때문에, 상기 제1 범위는 투사된 IR 광의 반사를 검출하기 위해 충분히 조명될 수 있다. 일부 경우에, 상기 제1 범위는 광원으로부터 투사된 IR 광의 초기 광도를 조절함으로써 조정될 수 있다. 광원은 레이저, 레이저 다이오드 또는 LED를 포함할 수 있다. 모바일 장치는 환경을 조명하지 않고 환경의 제2 이미지를 포착할 수 있다. 모바일 장치는 그 다음에 환경 내의 다른 IR 광원에 기인하는 배경 잡음(예를 들면, 태양광 또는 인공 광원에 기인하는 주변 IR 광으로부터의 잡음)을 제거하기 위해 상기 제1 이미지와 상기 제2 이미지에 기초하여 차 이미지를 생성할 수 있다. 일부 경우에, 물체 및 행동 인식 기술을 상기 차 이미지에 적용하여 모바일 장치의 근접장 환경 내에서 모바일 장치의 최종 사용자에 의한 손 및/또는 손가락 행동의 수행을 검출할 수 있다. 일부 실시형태에 있어서, 상기 제1 이미지와 상기 제2 이미지를 포착하기 위해 통합형 컬러 및 IR 이미지 센서를 사용할 수 있다.

이 요약은 뒤의 상세한 설명 부분에서 더 구체적으로 설명하는 개념들의 선택을 간단한 형태로 소개하기 위해 제공된다. 이 요약은 청구된 주제의 핵심적인 특징 또는 본질적인 특징을 식별하기 위한 것으로 의도되지 않고, 또한 청구된 주제의 범위를 결정함에 있어서의 보조자로서 사용되는 것으로 의도되지 않는다.

도 1은 본 발명의 기술을 실시할 수 있는 네트워크 컴퓨팅 환경의 일 실시형태의 블록도이다.
도 2A는 제2 모바일 장치와 통신하는 모바일 장치의 일 실시형태를 나타낸 도면이다.
도 2B는 HMD의 일부의 일 실시형태를 나타낸 도면이다.
도 2C는 이미지 센서의 일부의 일 실시형태를 나타낸 도면이다.
도 3은 포착 장치 및 컴퓨팅 환경을 포함한 컴퓨팅 시스템의 일 실시형태를 나타낸 도면이다.
도 4A는 HMD를 착용한 최종 사용자가 HMD에서 동작하는 애플리케이션을 제어하기 위해 손 및/또는 손가락 행동을 수행하는 환경의 일 실시형태를 나타낸 도면이다.
도 4B는 도 4A에 도시된 HMD에 의해 포착된 제1 이미지의 일 실시형태를 나타낸 도면이다.
도 4C는 도 4A에 도시된 HMD에 의해 포착된 제2 이미지의 일 실시형태를 나타낸 도면이다.
도 4D는 환경 내의 비 HMD IR 광원에 기인하는 배경 잡음을 제거하기 위해 도 4B의 제1 이미지 및 도 4C의 제2 이미지에 기초한 차 이미지의 일 실시형태를 나타낸 도면이다.
도 4E는 HMD의 최종 사용자와 관련된 손 영역을 포함한 분할 이미지의 일 실시형태를 나타낸 도면이다.
도 5는 근접장 환경 내에서 행동을 인식하는 방법의 일 실시형태를 보인 흐름도이다.
도 6은 근접장 환경 내에서 행동을 인식하는 방법의 대안적인 실시형태를 보인 흐름도이다.
도 7은 모바일 장치의 일 실시형태의 블록도이다.

본 발명은 근접장 환경에서의 행동 인식과 관련된다. 일부 실시형태에 있어서, 머리 장착형 디스플레이 장치(HMD)와 같은 모바일 장치는 (예를 들면, 거리에 따른 광도의 지수적 감소에 기인하여) 제1 범위로 IR 광원을 이용하여 환경을 조명하는 동안 그 환경의 제1 이미지를 포착하고, 조명 없이 상기 환경의 제2 이미지를 포착할 수 있다. 모바일 장치는 환경 내의 다른 IR 광원에 기인하는 배경 잡음(예를 들면, 태양광 또는 인공 광원에 기인하는 주변 IR 광으로부터의 잡음)을 제거하기 위해 상기 제1 이미지와 상기 제2 이미지에 기초하여 차 이미지를 생성할 수 있다. 일부 경우에, 물체 및 행동 인식 기술을 상기 차 이미지에 적용하여 모바일 장치의 근접장 환경 내에서 모바일 장치의 최종 사용자에 의한 손 및/또는 손가락 행동의 수행을 검출할 수 있다. 일부 실시형태에 있어서, 상기 제1 이미지와 상기 제2 이미지를 포착하기 위해 통합형 컬러 및 IR 이미지 센서를 사용할 수 있다.

일부 실시형태에 있어서, 실시간 손 및/또는 손가락 추적이 HMD를 이용하여 포착된 평면 이미지에 기초하여 수행될 수 있다. 더욱이, 2개 이상의 이미지 내에서 손 및/또는 손가락 경계의 위치에 기초한 시차(parallax) 계산을 이용하여 상기 손 및/또는 손가락 경계와 관련된 3차원 위치 정보 또는 깊이 정보를 결정할 수 있다. 깊이 정보는 모바일 장치와 연합된 2개의 이미지 센서와 하나의 광원을 이용하여 포착된 2개 이상의 이미지로부터 결정될 수 있다. 다른 실시형태에 있어서, 깊이 정보는 하나의 이미지 센서와 2개의 다른 광원을 이용하여 포착된 2개 이상의 이미지로부터 결정될 수 있다. 이 경우에, 제1 이미지는 제1 시점에서 2개의 다른 광원 중의 제1 광원을 이용하여 환경을 조명하는 동안 이미지 센서를 이용하여 포착되고, 제2 이미지는 상기 제1 시점 뒤의(또는 앞의) 제2 시점에서 상기 2개의 다른 광원 중의 제2 광원을 이용하여 환경을 조명하는 동안 이미지 센서를 이용하여 포착될 수 있다.

일 실시형태에 있어서, 모바일 장치로부터 1m 이내에 위치된 손과 같은 근접장 물체의 각 경계에 대하여 상대적 깊이 값이 생성될 수 있다. 예를 들면, 손의 엄지가 새끼손가락 또는 손의 다른 부분보다 모바일 장치에 더 가깝다고 결정될 수 있다. 일부 경우에, 깊이 정보는 물체 경계가 검출된 때마다(예를 들면, 전경 물체와 배경 사이의 경계가 검출된 때마다) 각각의 주사선(또는 화소들의 행)에 대하여 결정될 수 있다. 따라서, 근접장 물체(예를 들면, 손)의 경계 지점에서의 상대적 깊이 정보는 상이한 관점과 연합된 2개 이상의 이미지로부터 추출되고 모바일 장치의 제1 범위 내에서 근접장 물체의 공간 방위를 추론하기 위해 사용될 수 있다.

HMD의 제어와 관련된 하나의 문제점은, 다른 컴퓨팅 장치와는 달리, HMD 자체가 HMD 제어를 위한 물리적 인터페이스를 고유적으로 제공하지 않는다는 점이다(예를 들면, HMD는 태블릿 컴퓨터에서 사용하는 것과 같은 터치스크린 인터페이스를 제공하지 않을 수 있다). 더욱이, 일부 환경에서(예를 들면, 비즈니스 회의 중에 또는 혼잡한 지하철에 탑승하고 있는 동안), HMD 제어를 위해 음성 명령을 사용하는 것이 적당하지 않고, 따라서 행동 인식이 바람직할 수 있다. 그러나, 깊이 카메라에 의존하는 행동 인식 기술은 여기에서 설명하는 이미지 분할 및 행동 인식 기술에 비하여 가격이 고가이고 비교적 높은 전력 및 연산 복잡성을 요구할 수 있다. 따라서, 광범위한 조명 환경(예를 들면, 어두운 방 또는 햇살이 내리쬐는 해변)에서 HMD의 최종 사용자가 손 및/또는 손가락 행동을 이용하여 HMD를 제어할 수 있게 하는 저가이면서 에너지 효율성이 있는 시스템이 필요하다.

도 1은 본 발명의 기술을 실시할 수 있는 네트워크 컴퓨팅 환경(100)의 일 실시형태의 블록도이다. 네트워크 컴퓨팅 환경(100)은 하나 이상의 네트워크(180)를 통해 상호접속된 복수의 컴퓨팅 장치를 포함한다. 하나 이상의 네트워크(180)는 특정 컴퓨팅 장치가 다른 컴퓨팅 장치와 접속하여 통신할 수 있게 한다. 도시된 컴퓨팅 장치는 모바일 장치(11, 12, 19)와 서버(15)를 포함한다. 일부 실시형태에 있어서, 복수의 컴퓨팅 장치는 도시를 생략한 다른 컴퓨팅 장치를 포함할 수 있다. 일부 실시형태에 있어서, 복수의 컴퓨팅 장치는 도 1에 도시된 컴퓨팅 장치의 수보다 더 많은 또는 더 적은 수의 컴퓨팅 장치를 포함할 수 있다. 하나 이상의 네트워크(180)는 기업 사설 네트워크와 같은 보안 네트워크, 무선 개방 네트워크와 같은 비보안 네트워크, 근거리 통신망(LAN), 광역 통신망(WAN) 및 인터넷을 포함할 수 있다. 하나 이상 네트워크(180)의 각 네트워크는 허브, 브리지, 라우터, 스위치, 및 유선 네트워크 또는 직접 유선 접속과 같은 유선 전송 매체를 포함할 수 있다.

보조 정보 서버 또는 애플리케이션 서버를 포함할 수 있는 서버(15)는 클라이언트가 서버로부터 정보(예를 들면, 텍스트, 오디오, 이미지 및 비디오 파일)를 다운로드하거나, 서버에 저장된 특정 정보에 관한 조사 질의를 수행할 수 있게 한다. 일반적으로, "서버"는 클라이언트-서버 관계에서 호스트로서 작용하는 하드웨어 장치, 또는 하나 이상의 클라이언트와 자원을 공유하거나 상기 하나 이상의 클라이언트에 대한 작업을 수행하는 소프트웨어 프로세스를 포함할 수 있다. 클라이언트-서버 관계에서 컴퓨팅 장치들 간의 통신은 클라이언트가 특정 자원에 대한 접근을 요구하거나 또는 수행 대상의 특정 작업을 요구하는 요청(request)을 서버에 전송함으로써 개시될 수 있다. 서버는 그 다음에 상기 요청된 동작들을 수행하고 클라이언트에게 응답을 보낼 수 있다.

서버(15)의 일 실시형태는 네트워크 인터페이스(155), 프로세서(156), 메모리(157) 및 번역기(158)를 포함하고, 이 컴포넌트들은 모두 서로 통신한다. 네트워크 인터페이스(155)는 서버(15)가 하나 이상의 네트워크(180)에 접속하게 한다. 네트워크 인터페이스(155)는 무선 네트워크 인터페이스, 모뎀 및/또는 유선 네트워크 인터페이스를 포함할 수 있다. 프로세서(156)는 서버(15)가 메모리(157)에 저장된 컴퓨터 판독가능 명령어를 실행하여 여기에서 설명하는 처리들을 수행하게 한다. 번역기(158)는 제1 파일 형식의 제1 파일을 제2 파일 형식의 대응하는 제2 파일로 번역하는 맵핑 로직을 포함할 수 있다(즉, 제2 파일은 제1 파일의 번역된 버전일 수 있다). 번역기(158)는 제1 파일 형식의 파일(또는 그 일부)을 제2 파일 형식의 대응하는 파일로 맵핑하기 위한 명령어를 제공하는 파일 맵핑 명령어를 이용하여 구성될 수 있다.

모바일 장치(19)의 일 실시형태는 네트워크 인터페이스(145), 프로세서(146), 메모리(147), 카메라(148), 센서(149) 및 디스플레이(150)를 포함하고, 이 컴포넌트들은 모두 서로 통신한다. 네트워크 인터페이스(145)는 모바일 장치(19)가 하나 이상의 네트워크(180)에 접속하게 한다. 네트워크 인터페이스(145)는 무선 네트워크 인터페이스, 모뎀 및/또는 유선 네트워크 인터페이스를 포함할 수 있다. 프로세서(146)는 모바일 장치(19)가 메모리(157)에 저장된 컴퓨터 판독가능 명령어를 실행하여 여기에서 설명하는 처리들을 수행하게 한다. 카메라(148)는 색 이미지 및/또는 깊이 이미지(depth image)를 포착할 수 있다. 센서(149)는 모바일 장치(19)와 관련된 움직임 및/또는 방위 정보를 생성할 수 있다. 일부 경우에, 센서(149)는 관성 측정 장치(inertial measurement unit, IMU)를 포함할 수 있다. 디스플레이(150)는 디지털 이미지 및/또는 비디오를 디스플레이할 수 있다. 디스플레이(150)는 시스루(see-through) 디스플레이를 포함할 수 있다.

일부 실시형태에 있어서, 네트워크 인터페이스(145), 프로세서(146), 메모리(147), 카메라(148) 및 센서(149)를 포함한 모바일 장치(19)의 각종 컴포넌트는 단일 칩 기판에 통합될 수 있다. 일 예로서, 네트워크 인터페이스(145), 프로세서(146), 메모리(147), 카메라(148) 및 센서(149)는 시스템 온 칩(SOC)으로서 통합될 수 있다. 다른 실시형태에 있어서, 네트워크 인터페이스(145), 프로세서(146), 메모리(147), 카메라(148) 및 센서(149)는 단일 패키지 내에 통합될 수 있다.

일부 실시형태에 있어서, 모바일 장치(19)는 카메라(148), 센서(149), 및 프로세서(146)에서 동작하는 행동 인식 소프트웨어를 이용하여 NUI를 제공할 수 있다. NUI에 의해, 인간의 신체 부분 및 움직임이 검출, 해석 및 사용되어 컴퓨팅 응용의 각종 양태를 제어할 수 있다. 일 예로서, NUI를 이용하는 컴퓨팅 장치는 컴퓨팅 장치와 상호작용하는 사람의 의도(예를 들면, 컴퓨팅 장치를 제어하기 위해 최종 사용자가 특정 행동을 수행한 것)를 추론할 수 있다.

네트워크 컴퓨팅 환경(100)은 하나 이상의 컴퓨팅 장치에 대한 클라우드 컴퓨팅 환경을 제공할 수 있다. 클라우드 컴퓨팅은 인터넷 기반 컴퓨팅을 말하고, 공유 자원, 소프트웨어 및/또는 정보는 인터넷(또는 다른 글로벌 네트워크)을 통해 온디맨드로 하나 이상의 컴퓨팅 장치에 제공된다. 용어 "클라우드"는 인터넷이 나타내는 하부 기반구조의 추상 개념으로서 인터넷을 묘사하기 위해 컴퓨터 네트워트도에서 사용되는 구름 그림에 기초한 인터넷의 은유로서 사용된다.

일 예로서, 모바일 장치(19)는 머리 장착형 디스플레이 장치(HMD)의 최종 사용자에게 (예를 들면, HMD에서 동작하는 애플리케이션을 제어하기 위해) 증강 현실 환경 또는 혼합 현실 환경을 제공하는 HMD를 포함한다. HMD는 비디오 시스루 시스템 및/또는 광학 시스루 시스템을 포함할 수 있다. 최종 사용자가 착용한 광학 시스루 HMD는 (예를 들면, 투명 렌즈를 통하여) 실세계 환경의 실제 직접 보기를 가능하게 하고, 이와 동시에 최종 사용자의 시야에 가상 물체의 이미지를 투영하여 가상 물체와 함께 최종 사용자에게 인지되는 실세계 환경을 증강시킬 수 있다.

HMD를 이용해서, 최종 사용자는 HMD를 착용하고 실세계 환경(예를 들면, 거실) 주위에서 이동하고 가상 물체의 이미지가 중첩된 실세계의 모습을 인지할 수 있다. 가상 물체는 실세계 환경과 밀착된 공간 관계를 유지하도록 나타날 수 있다(즉, 최종 사용자가 실세계 환경 내에서 그의 머리를 돌리거나 움직일 때, 최종 사용자에게 디스플레이되는 이미지는 가상 물체가 최종 사용자에 의해 인지되는 실세계 환경 내에 존재하는 것처럼 나타나도록 변경될 것이다). 가상 물체는 또한 최종 사용자의 관점과 관련하여 고정되게 나타날 수 있다(예를 들면, 최종 사용자가 실세계 환경 내에서 그의 머리를 돌리거나 움직이는 법과 관계없이 최종 사용자 관점의 상부 우측 코너에 항상 나타나는 가상 메뉴). 일 실시형태에 있어서, 실세계 환경의 환경 맵핑은 서버(15)에 의해(즉, 서버 측에서) 수행되고, 카메라 국지화는 모바일 장치(19)에서(즉, 클라이언트 측에서) 수행될 수 있다. 가상 물체는 실세계 물체와 연관된 텍스트 설명을 포함할 수 있다.

일부 실시형태에 있어서, 모바일 장치(19)와 같은 모바일 장치는 서버(15)와 같은 클라우드 내의 서버와 통신할 수 있고, 모바일 장치와 연관된 위치 정보(예를 들면, GPS 좌표에 의한 모바일 장치의 위치) 및/또는 이미지 정보(예를 들면, 모바일 장치의 시야 내에서 검출된 물체에 관한 정보)를 서버에게 제공할 수 있다. 그 응답으로, 서버는 서버에 제공된 상기 위치 정보 및/또는 이미지 정보에 기초하여 하나 이상의 가상 물체를 모바일 장치에 전송할 수 있다. 일 실시형태에 있어서, 하나 이상의 가상 물체는 손 및/또는 손가락 행동을 이용하여 모바일 장치의 최종 사용자에 의해 조작 또는 제어될 수 있다.

일부 실시형태에 있어서, 모바일 장치의 최종 사용자는 손 및/또는 손가락 행동을 이용하여 모바일 장치의 각종 양태(예를 들면, 파일 전송, 환경 내의 실물 및/또는 가상 물체의 선택, 또는 다른 모바일 장치와의 전자 통신 개시)를 제어할 수 있다. 손 및/또는 손가락 행동은 모바일 장치에 의해 인식될 수 있다. 모바일 장치(예를 들면, HMD)는 HMD에 부착된 또는 HMD의 일부인 IR 광원을 이용하여 환경을 조명하는 동안 환경의 제1 이미지를 포착할 수 있다. IR 광원은 제1 범위가 조명되도록 환경에 빛을 투사(또는 방사)할 수 있다. 광원으로부터의 거리에 따라 광도가 지수적으로 감소하기 때문에, 상기 제1 범위만이 환경 내의 물체에 기인하여 상기 투사된 IR 광의 반사를 검출할 목적으로 충분히 조명될 수 있다. 일부 경우에, 상기 제1 범위는 상기 광원으로부터 투사된 IR 광의 초기 광도를 조절함으로써 조정될 수 있다. 예를 들면, 상기 제1 범위는 모바일 장치에 전력을 공급하기 위해 사용하는 배터리의 에너지 레벨이 특정의 역치보다 낮은 경우, 모바일 장치가 저전력 상태에 있는 경우, 또는 환경 내의 주변 IR 광이 특정의 역치보다 높은 경우에 감소될 수 있다. 광원은 IR 레이저, 레이저 다이오드, 및/또는 IR LED를 포함할 수 있다. 모바일 장치는 환경의 조명 없이 환경의 제2 이미지를 포착할 수 있다. 모바일 장치는 환경 내의 다른 IR 광원에 기인하는(예를 들면, 태양광 또는 인공 광원에 기인하는) 배경 잡음을 제거하기 위해 상기 제1 이미지와 상기 제2 이미지에 기초하여 차 이미지를 생성할 수 있다. 일부 경우에, 물체 및 행동 인식 기술을 상기 차 이미지에 적용하여 모바일 장치의 근접장 환경 내에서 모바일 장치의 최종 사용자에 의한 손 및/또는 손가락 행동의 수행을 검출할 수 있다.

도 2A는 제2 모바일 장치(5)와 통신하는 모바일 장치(19)의 일 실시형태를 나타낸 도면이다. 모바일 장치(19)는 시스루 HMD를 포함할 수 있다. 도시된 바와 같이, 모바일 장치(19)는 유선 접속(6)을 통하여 모바일 장치(5)와 통신한다. 그러나, 모바일 장치(19)는 무선 접속을 통해 모바일 장치(5)와 또한 통신할 수 있다. 일 예로서, HMD의 최종 사용자에 의해 착용된 HMD는 최종 사용자의 부근에 있는 제2 모바일 장치(예를 들면, 최종 사용자가 사용하는 이동 전화기)와 무선으로 통신할 수 있다(예를 들면, 제2 모바일 장치는 코트 주머니 내에 있을 수 있다). 모바일 장치(5)는 연산 집약적 처리 타스크(예를 들면, 가상 물체의 연출 및/또는 행동의 인식)를 오프로드하기 위해서 및 (예를 들면, 모바일 장치에서 동작하는 애플리케이션을 제어하기 위해 최종 사용자가 사용하는) 모바일 장치(19)에서 증강 현실 환경을 제공하기 위해 사용될 수 있는 정보(예를 들면, 가상 물체의 모델)를 저장하기 위해서 모바일 장치(19)에 의해 사용될 수 있다. 모바일 장치(19)는 모바일 장치(19)와 연관된 움직임 및/또는 방위 정보를 모바일 장치(5)에게 제공할 수 있다. 일 예로서, 움직임 정보는 모바일 장치(19)와 연관된 속도 또는 가속도를 포함하고, 방위 정보는 특정 좌표계 또는 기준 프레임(frame of reference) 주위의 회전 정보를 제공하는 오일러 각(Euler angle)을 포함할 수 있다. 일부 경우에, 모바일 장치(19)는 모바일 장치(19)와 연관된 움직임 및/또는 방위 정보를 획득하기 위해 관성 측정 장치(IMU)와 같은 움직임 및 방위 센서를 포함할 수 있다.

도 2B는 도 1의 모바일 장치(19)와 같은 HMD의 일부의 일 실시형태를 나타낸 도면이다. HMD(200)의 우측만이 도시되어 있다. HMD(200)는 우측 안경다리(202), 코 브리지(204), 안경알(216) 및 안경알 테(214)를 포함한다. 우측 안경다리(202)는 처리 장치(236)와 통신하는 포착 장치(213)(예를 들면, 전면 카메라 및/또는 마이크로폰)를 포함한다. 포착 장치(213)는 디지털 이미지 및/또는 비디오를 녹화하기 위한 하나 이상의 카메라를 포함하고, 시각적 기록을 처리 장치(236)에 전송할 수 있다. 상기 하나 이상의 카메라는 색 정보, IR 정보 및/또는 깊이 정보를 포착할 수 있다. 상기 하나 이상의 카메라는 하나 이상의 이미지 센서(예를 들면, CCD 이미지 센서 또는 CMOS 이미지 센서)를 포함할 수 있다. 포착 장치(213)는 또한 녹음용의 하나 이상의 마이크로폰을 포함할 수 있고, 청각적 기록을 처리 장치(236)에 전송할 수 있다.

우측 안경다리(202)는 또한 생물 측정 센서(220), 눈 추적 시스템(221), 이어폰(230), 움직임 및 방위 센서(238), GPS 수신기(232), 전원장치(239) 및 무선 인터페이스(237)를 포함하고, 상기 컴포넌트들은 모두 처리 장치(236)와 통신한다. 생물 측정 센서(220)는 HMD(200)의 최종 사용자와 관련된 맥박 또는 심박수를 결정하는 하나 이상의 전극 및 HMD(200)의 최종 사용자와 관련된 체온을 결정하는 온도 센서를 포함할 수 있다. 일 실시형태에 있어서, 생물 측정 센서(220)는 최종 사용자의 안경다리에 대하여 눌러지는 맥박수 측정 센서를 포함한다. 움직임 및 방위 센서(238)는 3축 자력계, 3축 자이로, 및/또는 3축 가속도계를 포함할 수 있다. 일 실시형태에 있어서, 움직임 및 방위 센서(238)는 관성 측정 장치(IMU)를 포함할 수 있다. GPS 수신기는 HMD(200)와 연관된 GPS 위치를 결정할 수 있다. 처리 장치(236)는 하나 이상의 프로세서, 및 상기 하나 이상의 프로세서에서 실행되는 컴퓨터 판독가능 명령어를 저장하는 메모리를 포함할 수 있다. 메모리는 상기 하나 이상의 프로세서에서 실행되는 다른 유형의 데이터를 또한 저장할 수 있다.

일 실시형태에 있어서, 눈 추적 시스템(221)은 내향 카메라를 포함할 수 있다. 다른 실시형태에 있어서, 눈 추적 시스템(221)은 눈 추적 조명원 및 관련된 눈 추적 IR 센서를 포함할 수 있다. 일 실시형태에 있어서, 눈 추적 조명원은 대략 미리 정해진 IR 파장 또는 소정 범위의 파장을 방사하는 적외선 발광 다이오드(LED) 또는 레이저(예를 들면, VCSEL)와 같은 하나 이상의 적외선(IR) 방사체를 포함할 수 있다. 일부 실시형태에 있어서, 눈 추적 센서는 반짝이는 위치를 추적하는 IR 카메라 또는 IR 위치 감응 검출기(PSD)를 포함할 수 있다. 눈 추적 시스템에 대한 더 많은 정보는 "머리 장착형 눈 추적 및 디스플레이 시스템"(Head Mounted Eye Tracking and Display System)의 명칭으로 2008년 7월 22일자 허여된 미국 특허 제7,401,920호, 및 "통합형 눈 추적 및 디스플레이 시스템"(Integrated Eye Tracking and Display System)의 명칭으로 2011년 9월 26일자 출원된 미국 특허 출원 제13/245,700호에서 찾아볼 수 있다.

일 실시형태에 있어서, 안경알(216)은 시스루 디스플레이를 포함할 수 있고, 이것에 의해, 처리 장치(236)에 의해 생성된 이미지가 시스루 디스플레이에 투영 및/또는 디스플레이될 수 있다. 포착 장치(213)는 포착 장치(213)에 의해 포착된 시야가 HMD(200)의 최종 사용자에 의해 보여지는 시야에 대응하도록 눈금조절될 수 있다. 이어폰(230)은 가상 물체의 투영 이미지와 연관된 음향을 출력하기 위해 사용될 수 있다. 일부 실시형태에 있어서, HMD(200)는 전면 카메라에 의해 포착된 시야와 연관된 스테레오 정보로부터 깊이를 획득하기 위해 2개 이상의 전면 카메라(예를 들면, 각 안경다리에 하나씩)를 포함할 수 있다. 상기 2개 이상의 전면 카메라는 3D, IR 및/또는 RGB 카메라를 또한 포함할 수 있다. 깊이 정보는 움직임 기술로부터의 깊이를 이용하여 단일 카메라로부터 또한 획득될 수 있다. 예를 들면, 상이한 시점에서 2개의 상이한 공간 지점과 연관된 단일 카메라로부터 2개의 이미지가 획득될 수 있다. 그 다음에, 상기 2개의 상이한 공간 지점에 관한 주어진 위치 정보에 대하여 시차 계산이 수행될 수 있다.

일부 실시형태에 있어서, HMD(200)는 각막 중심, 안구 회전 중심 또는 동공 중심과 같은 하나 이상의 인간 눈 요소에 관한 3차원 좌표계 및 시선 검출 요소를 이용한 최종 사용자의 각 눈의 시선 검출을 수행할 수 있다. 시선 검출은 최종 사용자가 시야 내에서 초점을 맞추는 곳을 식별하기 위해 사용될 수 있다. 시선 검출 요소의 예로는 반짝임 생성 조명기, 및 생성된 반짝임을 나타내는 데이터를 포착하기 위한 센서가 있다. 일부 경우에, 각막 중심은 평면 지오메트리를 이용한 2개의 반짝임에 기초하여 결정될 수 있다. 각막 중심은 동공 중심과 안구 회전 중심을 연결하고, 이것은 소정 시선 또는 시각(viewing angle)에서 최종 사용자 눈의 광축을 결정하기 위한 고정된 위치로서 취급될 수 있다.

도 2C는 도 2B의 포착 장치(213)의 일부를 포함하는 이미지 센서의 일부의 일 실시형태를 나타낸 도면이다. 도시된 바와 같이, 이미지 센서의 일부는 광센서(예를 들면, 광다이오드)의 어레이 위에 배열된 컬러 필터를 포함한다. 컬러 필터는 청색광 필터(281), 녹색광 필터(282) 및 적색광 필터(283)를 포함한다. 컬러 필터의 배열은 베이어 필터에서 사용하는 것과 유사할 수 있다. 도시된 이미지 센서의 일부는 IR 광 필터(284)를 또한 포함한다. 비록 IR 화소에 대한 컬러 화소의 비가 1:16인 것을 도시하고 있지만, 다른 IR 화소 대 컬러 화소비(예를 들면, 1:8 또는 1:32)가 또한 사용될 수 있다. IR 광 필터(284)는 IR 대역통과 필터를 포함할 수 있다. IR 광 필터(284)는 IR 광이 IR 광 필터(284) 아래에 배열된 광센서로 통과할 수 있게 한다. 따라서, 이미지 센서의 일부는 이미지 센서의 일부와 연관된 광 센서가 RGB 색 정보와 IR 광 정보 양자를 동시에 획득할 수 있도록 컬러 필터와 IR 광 필터 양자를 통합한다. 일부 경우에, 도시된 이미지 센서의 일부는 더 큰 광센서 어레이 위에 배치되는 더 큰 통합형 컬러 및 IR 광 필터를 형성하기 위해 x 방향 및 y 방향으로 반복 또는 계단식으로 될 수 있다.

일 실시형태에 있어서, 이미지 센서는 단색 필터(가시성 그레이스케일) 및 IR 필터를 포함할 수 있다. 단색 필터는 컬러 필터(예를 들면, 적색, 청색 및 녹색 필터)와 동일한 물질을 이용하여 제조될 수 있다. 일 예로서, 1:2, 1:4 또는 1:16과 같은 다른 IR 화소 대 단색 화소비를 사용할 수 있다.

도 3은 포착 장치(20) 및 컴퓨팅 환경(12)을 포함한 컴퓨팅 시스템(10)의 일 실시형태를 나타낸 도면이다. 일부 실시형태에 있어서, 포착 장치(20)와 컴퓨팅 환경(12)은 단일 모바일 컴퓨팅 장치 내에 통합될 수 있다. 단일의 통합형 모바일 컴퓨팅 장치는 도 1의 모바일 장치(19)와 같은 모바일 장치를 포함할 수 있다. 일 예로서, 포착 장치(20)와 컴퓨팅 환경(12)은 HMD 내에 통합될 수 있다. 다른 실시형태에 있어서, 포착 장치(20)는 도 2A의 모바일 장치(19)와 같은 제1 모바일 장치에 통합되고, 컴퓨팅 환경(12)은 도 2A의 모바일 장치(5)와 같은, 상기 제1 모바일 장치와 통신하는 제2 모바일 장치에 통합될 수 있다.

일 실시형태에 있어서, 포착 장치(20)는 이미지 및 비디오를 포착하기 위한 하나 이상의 이미지 센서를 포함할 수 있다. 이미지 센서는 CCD 이미지 센서 또는 CMOS 이미지 센서를 포함할 수 있다. 일부 실시형태에 있어서, 포착 장치(20)는 IR CMOS 이미지 센서를 포함할 수 있다. 포착 장치(20)는 이미지 카메라 컴포넌트(32)를 포함할 수 있다. 이미지 카메라 컴포넌트(32)는 포착 영역의 깊이 이미지를 포착하기 위해 사용할 수 있는 IR 조명 컴포넌트(34), 깊이 카메라(36) 및 RGB 카메라(38)를 포함할 수 있다. 일부 경우에, 상기 이미지 카메라 컴포넌트(32)는 통합형 컬러 및 IR 이미지 센서를 포함할 수 있다. 일 예로서, 포착 장치(20)의 IR 조명 컴포넌트(34)는 포착 영역에 적외선 광을 방사하고, 그 다음에 이미지 카메라 컴포넌트(32) 내의 색 및/또는 IR 광 감지 컴포넌트를 이용하여 포착 영역 내의 하나 이상의 물체의 표면으로부터의 후방 산란광을 검출하기 위해 센서들을 이용할 수 있다. 일부 실시형태에 있어서, 펄스형 적외선 광은 유출되는 광 펄스와 대응하는 유입 광 펄스 간의 시간이 측정되고 포착 장치(20)로부터 포착 영역 내 하나 이상의 물체에서의 특정 위치까지의 물리적 거리를 결정하기 위해 사용될 수 있도록 사용될 수 있다. 포착 장치(20)는 또한 시준 광을 생성하기 위한 및/또는 환경을 조명하는 광을 확산하기 위한 광학기기(예를 들면, 좁은 광 빔을 생성하는 IR 광원으로부터의 광을 분산시키는 광 확산기)를 포함할 수 있다.

도 3에 도시된 바와 같이, 포착 장치(20)는 하나 이상의 마이크로폰(40)을 포함할 수 있다. 상기 하나 이상의 마이크로폰(40) 각각은 음향을 수신하여 전기 신호로 변환하는 변환기 또는 센서를 포함할 수 있다. 상기 하나 이상의 마이크로폰은 상기 하나 이상의 마이크로폰이 소정의 레이아웃으로 배열된 마이크로폰 어레이를 포함할 수 있다.

포착 장치(20)는 이미지 카메라 컴포넌트(32)와 작용적으로 통신하는 프로세서(42)를 포함할 수 있다. 프로세서(42)는 표준형 프로세서, 특수형 프로세서, 마이크로프로세서 등을 포함할 수 있다. 프로세서(42)는 이미지를 수신 및 분석하고 및/또는 특정 행동이 생성하였는지를 결정하기 위한 명령어 또는 임의의 다른 적당한 명령어를 포함한 명령어들을 실행할 수 있다. 적어도 일부 이미지 분석 및/또는 행동 인식 동작이 포착 장치(20)와 같은 하나 이상의 포착 장치 내에 포함된 프로세서에 의해 실행될 수 있다는 것을 이해할 것이다.

포착 장치(20)는 프로세서(42)에 의해 실행되는 명령어 및 이미지 카메라 컴포넌트(32)의 감광 컴포넌트에 의해 포착된 이미지(또는 이미지의 프레임)를 저장하는 메모리(44)를 포함할 수 있다. 일 예로서, 메모리(44)는 랜덤 액세스 메모리(RAM), 읽기 전용 메모리(ROM), 캐시, 플래시 메모리, 비휘발성 메모리 또는 임의의 다른 적당한 저장 컴포넌트를 포함할 수 있다. 도시된 바와 같이, 메모리(44)는 이미지 포착 컴포넌트(32) 및 프로세서(42)와 통신하는 별도의 컴포넌트일 수 있다. 다른 실시형태에 있어서, 메모리(44)는 프로세서(42) 및/또는 이미지 포착 컴포넌트(32)에 통합될 수 있다. 또 다른 실시형태에 있어서, 포착 장치(20)의 컴포넌트(32, 34, 36, 38, 40, 42, 44)들 중의 일부 또는 전부는 단일 하우징 내에 배치될 수 있다.

포착 장치(20)는 통신 링크(46)를 통해 컴퓨팅 환경(12)과 통신할 수 있다. 통신 링크(46)는 유선 접속, 또는 무선 802.11b, g, a 또는 n 접속과 같은 무선 접속일 수 있다. 일 실시형태에 있어서, 포착 장치(20)는 예를 들면 깊이 카메라(36) 및/또는 RGB 카메라(또는 통합형 RGB 및 IR 카메라)(38)에 의해 포착된 이미지를 통신 링크(46)를 통해 컴퓨팅 환경(12)에 제공할 수 있다.

도 3에 도시된 바와 같이, 컴퓨팅 환경(12)은 애플리케이션(196)과 통신하는 이미지 및 오디오 처리 엔진(194)을 포함한다. 애플리케이션(196)은 운영체제 애플리케이션 또는 다른 컴퓨팅 애플리케이션, 예를 들면, 게이밍 애플리케이션 또는 메시징 애플리케이션을 포함할 수 있다. 이미지 및 오디오 처리 엔진(194)은 가상 데이터 엔진(197), 물체 및 행동 인식 엔진(190), 구조 데이터(198), 처리 장치(191) 및 기억 장치(192)를 포함하고, 이들은 모두 서로 통신한다. 이미지 및 오디오 처리 엔진(194)은 포착 장치(20)로부터 수신된 비디오, 이미지 및 오디오 데이터를 처리한다. 물체의 검출 및/또는 추적을 돕기 위해, 이미지 및 오디오 처리 엔진(194)은 구조 데이터(198)와 물체 및 행동 인식 엔진(190)을 이용할 수 있다. 가상 데이터 엔진(197)은 가상 물체를 처리하고 기억 장치(192)에 저장된 실세계 환경의 각종 맵과 관련하여 가상 물체의 위치 및 방위를 등록한다.

처리 장치(191)는 물체, 얼굴 및 음성 인식 알고리즘을 실행하는 하나 이상의 프로세서를 포함할 수 있다. 일 실시형태에 있어서, 이미지 및 오디오 처리 엔진(194)은 물체 인식 및 얼굴 인식 기술을 이미지 또는 비디오 데이터에 적용할 수 있다. 예를 들면, 물체 인식은 특정 물체(예를 들면, HMD의 최종 사용자가 쥐고 있는 연필)를 검출하기 위해 사용되고 얼굴 인식은 환경 내의 특정인의 얼굴을 검출하기 위해 사용될 수 있다. 이미지 및 오디오 처리 엔진(194)은 오디오 및 음성 인식 기술을 오디오 데이터에 적용할 수 있다. 예를 들면, 오디오 인식은 특정 음향을 검출하기 위해 사용될 수 있다. 검출 대상의 특정 얼굴, 음성, 음향 및 물체는 기억 장치(192)에 내포된 하나 이상의 메모리에 저장될 수 있다. 처리 장치(191)는 여기에서 설명하는 처리를 수행하기 위해 상기 기억 장치(192)에 저장되어 있는 컴퓨터 판독가능 명령어를 실행할 수 있다.

이미지 및 오디오 처리 엔진(194)은 물체 인식을 수행하는 동안 구조 데이터(198)를 이용할 수 있다. 구조 데이터(198)는 추적 대상의 타겟 및/또는 물체에 대한 구조 정보를 포함할 수 있다. 예를 들면, 신체 부분(예를 들면, 팔, 손 및/또는 손가락)의 인식을 돕기 위해 인간의 골격 모델이 저장될 수 있다. 다른 예에 있어서, 구조 데이터(198)는 하나 이상의 무생물(예를 들면, 연필)의 인식을 돕기 위해 하나 이상의 무생물에 관한 구조 정보를 포함할 수 있다.

이미지 및 오디오 처리 엔진(194)은 행동 인식을 수행하는 동안 물체 및 행동 인식 엔진(190)을 이용할 수 있다. 일 예로서, 물체 및 행동 인식 엔진(190)은 수행될 행동에 관한 정보를 각각 포함하는 행동 필터들의 집합을 포함할 수 있다. 물체 및 행동 인식 엔진(190)은 포착 장치(20)에 의해 포착된 데이터를 행동 라이브러리 내의 행동 필터와 비교하여 사용자가 하나 이상의 행동을 수행한 때를 식별할 수 있다. 일 예로서, 이미지 및 오디오 처리 엔진(194)은 물체 및 행동 인식 엔진(190)을 이용하여 컴퓨팅 시스템(10)의 최종 사용자에 의해 수행된 특정 행동의 수행을 검출할 수 있다. 일 실시형태에 있어서, 물체 및 행동 인식 엔진(190)은 기계 학습 분류 기술을 이용할 수 있다.

도 4A는 HMD(28)를 착용한 최종 사용자가 HMD(28)에서 동작하는 애플리케이션을 제어하기 위해 손 및/또는 손가락 행동을 수행하는 환경(400)의 일 실시형태를 보인 것이다. 도시된 바와 같이, 상기 환경(400)은 인공 IR 광원일 수 있는 램프(24)를 포함한다. 일부 경우에, 태양광(예를 들면, 열려있는 창을 통해 들어오는 태양광)은 환경(400) 내의 다른 비 HMD 생성 IR 광원일 수 있다.

도 4B는 도 4A의 HMD(28)에 의해 포착된 제1 이미지의 일 실시형태를 나타낸 도면이다. 제1 이미지는 IR 이미지 센서 또는 통합형 컬러 및 IR 이미지 센서, 예를 들면 도 2C에 도시된 통합형 RGB 및 IR 센서를 이용하여 포착될 수 있다. 제1 이미지는 HMD(28)가 IR 광을 환경(400)에 방사하는 동안 포착될 수 있다. 도시된 바와 같이, 제1 이미지는 최종 사용자의 손(404)과 IR 광이 포착된 램프(406) 부분 둘 다를 포함한다. HMD(28)는 제1 범위가 조명되도록(예를 들면, HMD(28)로부터 1미터 이내에 있는 물체들이 조명될 수 있다) IR 광원을 이용하여 환경(400)에 IR 광을 방사할 수 있다. 상기 제1 범위는 HMD의 최종 사용자가 손 및/또는 손가락 행동을 수행할 수 있는 거리로 설정될 수 있다.

광원으로부터의 거리에 따라 광도가 지수적으로 감소하기 때문에, 상기 제1 범위는 투사된 IR 광의 반사를 검출하기 위해 충분히 조명될 수 있다. 그래서, 상기 제1 이미지는 상기 제1 범위를 벗어난 상기 환경(400) 내의 물체로부터 반사된 IR 광을 포착하지 못할 수 있다. 일부 경우에, 상기 제1 범위는 광원으로부터 투사된 IR 광의 초기 광도 및/또는 포착 이미지 센서의 노출 시간을 조절함으로써 조정될 수 있다. 광원은 레이저, 레이저 다이오드 및/또는 LED를 포함할 수 있다.

도 4C는 도 4A의 HMD(28)에 의해 포착된 제2 이미지의 일 실시형태를 나타낸 도면이다. 제2 이미지는 IR 이미지 센서 또는 통합형 컬러 및 IR 이미지 센서를 이용하여 포착될 수 있다. 제2 이미지는 HMD(28)가 IR 광을 환경(400)에 방사하지 않는 동안 포착될 수 있다. 도시된 바와 같이, 제2 이미지는 IR 광이 포착된 램프(406) 부분을 포함한다. 최종 사용자의 손(404)으로부터 반사된 IR 광은 HMD(28)가 환경(400)에 IR 광을 방사하지 않기 때문에 포착되지 않는다.

도 4D는 환경 내의 비 HMD IR 광원에 기인하는(예를 들면, 태양광 또는 인공 광원에 기인하는) 배경 잡음을 제거하기 위한, 도 4B의 제1 이미지와 도 4C의 제2 이미지에 기초한 차 이미지의 일 실시형태를 나타낸 도면이다. 도시된 바와 같이, 차 이미지는 최종 사용자의 손(404)을 포함하지만 램프(406) 부분(또는 비 HMD IR 광원이 환경 내에서 반사되는 다른 물체)을 포함하지 않는다.

도 4E는 도 4A의 HMD(28)의 최종 사용자와 관련된 손 영역(408)을 포함한 분할 이미지의 일 실시형태를 나타낸 도면이다. 손 영역(408)은 손가락 끝(410), 손가락 골(412) 및 손 중앙(또는 손바닥 중앙)과 같은 손 특징(feature)들을 포함할 수 있다. 손 중앙(414)은 손 영역(408)의 도심(centroid)과 연관될 수 있다. 일부 실시형태에 있어서, 도 4D의 차 이미지는 역치로 될 수 있고, 그래서 손 중앙(414)은 손 영역(408)의 평균 X 위치와 평균 Y 위치를 계산함으로써 결정될 수 있다. 손 중앙(414)은 손 영역(408)의 손가락들을 제외한 손 영역(408)의 질량 중심(예를 들면, 중간(mean) X 좌표, 중간 Y 좌표)을 포함할 수 있다. 손 영역(408)은 분할 이미지 내의 최대 접속 컴포넌트에 대응할 수 있다. 일 예로서, 최대 접속 컴포넌트는 역치화 이미지와 관련된 백색 화소의 최대 집합에 대응할 수 있다.

도 5는 근접장 환경에서 행동을 인식하는 방법의 일 실시형태를 보인 흐름도이다. 일 실시형태에 있어서, 도 5의 처리는 도 1의 모바일 장치(19)와 같은 모바일 장치에 의해 수행될 수 있다.

단계 502에서, 모바일 장치의 전력 상태가 결정된다. 모바일 장치의 전력 상태는 모바일 장치가 저전력 상태로 동작하는지 고전력 상태로 동작하는지와 연관될 수 있다. 모바일 장치는 만일 배터리(또는 다른 에너지원)의 에너지 레벨이 특정의 역치보다 낮거나 모바일 장치가 다른 에너지원에 (예를 들면, 도 2A의 모바일 장치(5)와 같은 제2 모바일 장치를 통해) 접속되지 않으면 저전력 상태로 동작할 수 있다. 모바일 장치는 또한 만일 환경 내의 주변 IR 광이 특정의 역치보다 낮으면 저전력 상태로 진입할 수 있다.

단계 504에서, 전력 상태에 기초하여 저전력 행동 인식 상태에 진입한다. 일부 실시형태에 있어서, 모바일 장치는 모바일 장치에서 동작하는 컴퓨팅 애플리케이션에 의해 오버라이드(override)되지 않으면 디폴트에 의해 저전력 행동 인식 상태로 동작할 수 있다.

단계 506에서, 모바일 장치로부터의 광이 제1 기간 동안 소정의 광도 레벨로 환경에 방사된다. 광은 레이저, 레이저 다이오드 및/또는 LED를 이용하여 방사된 IR 광을 포함할 수 있다. 광도 레벨은 모바일 장치로부터의 거리에 따른 광도의 지수적 감소가 투사된 IR 광의 반사를 검출하기 위해 모바일 장치로부터 제1 범위(또는 거리) 내에 있는 물체들을 충분히 조명하도록 설정될 수 있다. 일 실시형태에 있어서, 상기 제1 범위는 모바일 장치로부터 1미터(즉, 모바일 장치의 최종 사용자가 손 및/또는 손가락 행동을 수행할 수 있는 영역 내)일 수 있다. 상기 제1 기간은 광이 환경에 방사되는 동안 환경의 하나 이상의 이미지가 포착될 수 있도록 설정될 수 있다. 상기 제1 기간은 상기 제1 범위 내에 있는 물체들을 검출하는데 필요한 카메라 또는 이미지 센서 노출 시간에 대응할 수 있다. 일 예로서, 상기 제1 기간은 100ns일 수 있다. 일부 경우에, 광은 매 20ms와 같이 주기적 간격으로 환경에 방사될 수 있고, 대응하는 이미지는 시간에 따라 손 및 손가락 움직임을 추적하기 위해 포착될 수 있다.

단계 508에서, 환경의 제1 이미지가 상기 제1 기간 동안 포착된다. 제1 이미지는 IR 이미지 센서 또는 통합형 컬러 및 IR 이미지 센서, 예를 들면 도 2C에 도시된 통합형 RGB 및 IR 센서를 이용하여 포착될 수 있다. 단계 510에서, 환경이 모바일 장치로부터 방사된 IR 광으로 조명되지 않을 때 상기 제1 기간 뒤에(또는 전에) 환경의 제2 이미지가 포착된다. 단계 512에서, 상기 제1 이미지 및 상기 제2 이미지에 기초하여 차 이미지가 생성된다. 차 이미지는 상기 제1 이미지로부터 상기 제2 이미지를 감산함으로써 생성될 수 있다.

단계 514에서, 상기 차 이미지에 기초하여 비트 마스크가 생성된다. 일 실시형태에 있어서, 비트 마스크는 차 이미지를 역치화(thresholding)함으로써 생성될 수 있다. 일 예로서, 비트 마스크는 이진 이미지(예를 들면, 흑색 화소치와 백색 화소치로 구성된 이미지)를 포함할 수 있다. 단계 516에서, 하나 이상의 손 특징이 상기 비트 마스크를 이용하여 식별된다. 일 실시형태에 있어서, 하나 이상의 손 특징은 손가락 끝, 손가락 골 및 손 중앙을 포함할 수 있다. 일부 경우에, 손가락 끝과 손가락 골은 상기 차 이미지 또는 대응하는 역치화 이미지에 2차 미분 필터를 적용함으로써 검출될 수 있다. 손 중앙은 비트 마스크 내에서 손 영역의 도심과 관련될 수 있다. 일 실시형태에 있어서, 손 중앙은 상기 비트 마스크 내의 최대 접속 컴포넌트의 질량 중심(예를 들면, 중간 X 좌표, 중간 Y 좌표)을 포함할 수 있다. 일 예로서, 상기 최대 접속 컴포넌트는 역치화 이미지와 관련된 백색 화소의 최대 집합에 대응할 수 있다.

단계 518에서, 하나 이상의 손 특징의 상대 위치들이 결정된다. 상기 하나 이상의 손 특징의 상대 위치들은 모바일 장치의 최종 사용자에 의해 수행된 특정 행동과 대응할 수 있다.

단계 520에서, 상기 하나 이상의 손 특징과 관련된 상대 위치들에 기초하여 행동이 검출된다. 일 실시형태에 있어서, 행동은 모바일 장치의 최종 사용자에 의해 수행된 움직임 또는 포즈를 포함할 수 있다. 상기 행동은 동적 및/또는 정적 행동을 포함할 수 있다. 동적 행동은 모바일 장치의 최종 사용자가 그들의 손을 소용돌이치는 동작으로 회전시키는 것 또는 책을 열고 닫는 것과 유사하게 그들의 손을 펴고 접는 것과 같은 동작을 포함한 행동이다. 엄지와 검지의 집기(pinching)와 같은 동적 손가락 행동이 또한 검출될 수 있다. 정적 행동은 최종 사용자가 검지와 중지를 펴고 다른 손가락들은 손 중앙 쪽을 향하게 하는 것과 같은 정적 포즈를 포함할 수 있다.

일부 실시형태에 있어서, 행동(예를 들면, 정적 행동 또는 동적 행동)은 하나 이상의 손 특징들의 절대적 또는 상대적 위치를 연산하지 않고 (예를 들면, 기계 학습 분류 기술에 의한) 분류를 통해 식별된 하나 이상의 손 특징들과 관련된 하나 이상의 특징 서술자에 기초하여 검출될 수 있다. 일 예로서, 특수한 손 상태(예를 들면, 손이 펴져 있거나 쥐어진 상태)로 있는 손과 관련된 분할된 블롭(blob)을 식별하기 위해 영역 통계(예를 들면, 접속된 화소 그룹의 크기 또는 윤곽 곡률(contour curvature)의 정도)를 이용할 수 있다.

단계 522에서, 모바일 장치에서의 컴퓨팅 동작이 상기 행동의 검출에 응답하여 수행된다. 일 실시형태에 있어서, 컴퓨팅 동작은 모바일 장치의 시야 내에서 실물 또는 가상 물체의 선택에 기초하여 전자 통신(예를 들면, 텍스트 메시지 또는 순간 메시지)의 개시 또는 정보의 검색을 포함할 수 있다.

도 6은 근접장 환경에서 행동을 인식하는 방법의 대안적인 실시형태를 보인 흐름도이다. 일 실시형태에 있어서, 도 6의 처리는 도 1의 모바일 장치(19)와 같은 모바일 장치에 의해 수행될 수 있다.

단계 602에서, 모바일 장치로부터의 광이 제1 기간 동안 소정의 광도 레벨로 환경에 방사된다. 광은 레이저, 레이저 다이오드 및/또는 LED를 이용하여 방사된 IR 광을 포함할 수 있다. 광도 레벨은 모바일 장치로부터의 거리에 따른 광도의 지수적 감소가 투사된 IR 광의 반사를 검출하기 위해 모바일 장치로부터 제1 범위(또는 거리) 내에 있는 물체들을 충분히 조명하도록 설정될 수 있다. 일 실시형태에 있어서, 상기 제1 범위는 모바일 장치로부터 1미터(즉, 모바일 장치의 최종 사용자가 손 및/또는 손가락 행동을 수행할 수 있는 영역 내)일 수 있다. 상기 제1 기간은 광이 환경에 방사되는 동안 환경의 하나 이상의 이미지가 포착될 수 있도록 설정될 수 있다. 상기 제1 기간은 상기 제1 범위 내에 있는 물체들을 검출하는데 필요한 카메라 또는 이미지 센서 노출 시간에 대응할 수 있다. 일 예로서, 상기 제1 기간은 20ns일 수 있다. 일부 경우에, 광은 매 2ms와 같이 주기적인 간격으로 환경에 방사될 수 있고, 대응하는 이미지는 시간에 따라 손 및 손가락 움직임을 추적하기 위해 포착될 수 있다.

단계 604에서, 환경의 제1 이미지가 제1 센서를 이용하여 상기 제1 기간 동안 포착된다. 단계 606에서, 환경의 제2 이미지가 제2 센서를 이용하여 상기 제1 기간 동안 포착된다. 상기 제1 센서와 제2 센서는 IR 이미지 센서일 수 있다. 상기 제1 센서와 제2 센서는 모바일 장치에 부착되거나 모바일 장치와 통합될 수 있다. 상기 제1 센서와 제2 센서 간의 거리는 모바일 장치에 대하여 고정될 수 있다.

상기 제1 이미지와 제2 이미지가 다른 관점에서 포착되기 때문에, 깊이 정보를 생성하기 위해 상기 제1 센서 및 제2 센서와 관련된 공간 내의 2개의 다른 지점에 관한 주어진 위치 정보에 대하여 시차 계산이 수행될 수 있다. 비록 깊이 정보가 모바일 장치와 연합된 2개의 이미지 센서 및 하나의 광원을 이용하여 결정될 수 있지만, 깊이 정보는 하나의 이미지 센서와 2개의 상이한 광원을 이용하여 또한 결정될 수 있다. 일 실시형태에 있어서, 제1 이미지는 제1 시점에서 2개의 상이한 광원 중의 제1 광원을 이용하여 환경을 조명하는 동안 이미지 센서를 이용하여 포착되고, 제2 이미지는 상기 제1 시점 뒤의 제2 시점에서 상기 2개의 상이한 광원 중의 제2 광원을 이용하여 환경을 조명하는 동안 이미지 센서를 이용하여 포착될 수 있다.

단계 608에서, 환경의 제3 이미지가 제1 센서를 이용하여 상기 제1 기간 뒤에 포착된다. 단계 610에서, 환경의 제4 이미지가 제2 센서를 이용하여 상기 제1 기간 뒤에 포착된다. 상기 제3 이미지와 제4 이미지는 환경이 모바일 장치로부터 방사된 IR 광으로 조명되지 않을 때 상기 제1 기간 뒤에 포착될 수 있다.

단계 612에서, 상기 제1 이미지 및 상기 제3 이미지에 기초하여 제1 차 이미지가 생성된다. 제1 차 이미지는 상기 제1 이미지로부터 상기 제3 이미지를 감산함으로써 생성될 수 있다. 단계 614에서, 상기 제2 이미지 및 상기 제4 이미지에 기초하여 제2 차 이미지가 생성된다. 제2 차 이미지는 상기 제2 이미지로부터 상기 제4 이미지를 감산함으로써 생성될 수 있다.

상기 제1 차 이미지와 상기 제2 차 이미지가 다른 각도에서 다른 관점을 이용하여 포착되기 때문에, 손 특징과 연관된 화소 위치의 차 또는 2개의 이미지 내의 가장자리(edge)는 상대적 깊이 정보를 결정하기 위해 사용될 수 있다. 일 실시형태에 있어서, 상대적 깊이 값은 손 또는 손가락과 같은 근접장 물체의 각 경계에 대하여 생성될 수 있다. 예를 들면, 엄지가 새끼손가락 또는 손의 다른 부분보다 모바일 장치에 더 가깝다고 결정될 수 있다(예를 들면, 엄지 경계와 관련된 화소들은 상기 제1 차 이미지와 상기 제2 차 이미지를 비교할 때 새끼손가락 경계와 관련된 화소보다 더 많이 움직일 수 있다). 일 실시형태에 있어서, 특정 손 특징과 연관된 깊이 정보는 상기 제1 차 이미지와 상기 제2 차 이미지 사이에서 상기 특정 손 특징과 연관된 하나 이상의 화소 위치의 변화에 기초하여 결정될 수 있다.

일부 경우에, 깊이 정보는 물체 경계가 식별된 때마다(예를 들면, 근접장 물체와 배경 사이의 경계가 검출된 때마다) 각각의 주사선(또는 화소들의 행)에 대하여 결정될 수 있다. 이 경우에, 깊이 정보는 손가락 끝 및 손가락 골뿐만 아니라 손의 엄지 측 경계(예를 들면, 정중 신경 부근의 경계) 및 손의 새끼손가락 측 경계(예를 들면, 척골 신경 또는 새끼두덩(hypothenar eminence) 부근의 경계)를 포함한 손 특징들에 대하여 결정될 수 있다. 따라서, 손 및 손가락의 경계 지점에서의 상대적 깊이 정보는 상기 제1 차 이미지와 상기 제2 차 이미지로부터 추출되고 모바일 장치의 제1 범위 내에서 손 및 손가락의 공간 방위를 추론하기 위해 사용될 수 있다.

단계 616에서, 하나 이상의 손 특징의 상대적 위치들이 상기 제1 차 이미지와 상기 제2 차 이미지에 기초하여 결정된다. 상기 하나 이상의 손 특징은 손가락 끝, 손가락 골 및 손 중앙을 포함할 수 있다. 상기 하나 이상의 손 특징의 상대적 위치들은 모바일 장치의 최종 사용자에 의해 수행된 특정 행동과 대응할 수 있다. 단계 618에서, 상기 하나 이상의 손 특징과 관련된 상대적 위치들에 기초하여 행동이 검출된다. 일 실시형태에 있어서, 행동은 모바일 장치의 최종 사용자에 의해 수행된 움직임 또는 포즈를 포함할 수 있다. 상기 행동은 동적 및/또는 정적 행동을 포함할 수 있다. 동적 행동은 모바일 장치의 최종 사용자가 그들의 손을 소용돌이치는 동작으로 회전시키는 것 또는 책을 열고 닫는 것과 유사하게 그들의 손을 펴고 접는 것과 같은 동작을 포함한 행동이다. 엄지와 검지의 집기와 같은 동적 손가락 행동이 또한 검출될 수 있다. 정적 행동은 최종 사용자가 검지와 중지를 펴고 다른 3개의 손가락은 손 중앙 쪽을 향하게 하는 것과 같은 정적 포즈를 포함할 수 있다. 단계 620에서, 모바일 장치에서의 컴퓨팅 동작이 상기 행동의 검출에 응답하여 수행된다. 일 실시형태에 있어서, 컴퓨팅 동작은 모바일 장치의 시야 내에서 실물 또는 가상 물체의 선택에 기초하여 전자 통신(예를 들면, 텍스트 메시지 또는 순간 메시지)의 개시 또는 정보의 검색을 포함할 수 있다.

여기에서 설명하는 기술의 일 실시형태는 광원, 제1 센서, 및 상기 광원 및 상기 제1 센서와 통신하는 하나 이상의 프로세서를 포함한다. 상기 하나 이상의 프로세서는 상기 광원이 제1 기간 동안 소정의 광도 레벨로 환경에 IR 광을 방사하게 한다. 상기 하나 이상의 프로세서는 상기 제1 센서가 상기 제1 기간 동안 환경의 제1 이미지를 포착하고 상기 제1 기간에 후속하는 제2 기간 동안 환경의 제3 이미지를 포착하게 한다. 상기 광원은 제2 기간 동안에 환경에 IR 광을 방사하지 않는다. 상기 하나 이상의 프로세서는 상기 제1 이미지 및 상기 제3 이미지에 기초하여 제1 차 이미지를 생성하고, 상기 제1 차 이미지에 기초하여 하나 이상 손 특징의 하나 이상의 상대적 위치를 결정하며, 상기 하나 이상 손 특징의 하나 이상의 상대적 위치에 기초하여 행동을 검출하고, 상기 행동의 검출에 응답하여 컴퓨팅 동작을 수행한다.

여기에서 설명하는 기술의 일 실시형태는 제1 기간 동안 소정의 광도 레벨로 환경에 모바일 장치로부터 IR 광을 방사하는 단계와, 제1 센서를 이용하여 상기 제1 기간 동안 환경의 제1 이미지를 포착하는 단계와, 상기 제1 센서를 이용하여 상기 제1 기간에 후속하는 제2 기간 동안 환경의 제3 이미지를 포착하는 단계를 포함한다. 상기 IR 광은 제2 기간 동안에 모바일 장치로부터 방사되지 않는다. 방법은 또한 상기 제1 이미지 및 상기 제3 이미지에 기초하여 제1 차 이미지를 생성하는 단계와, 상기 제1 차 이미지에 기초하여 하나 이상 손 특징과 관련된 하나 이상의 상대적 위치를 결정하는 단계와, 상기 하나 이상의 상대적 위치에 기초하여 행동을 검출하는 단계와, 상기 행동의 검출에 응답하여 모바일 장치에서 컴퓨팅 동작을 수행하는 단계를 포함한다.

여기에서 설명하는 기술의 일 실시형태는 제1 기간 동안 환경에 모바일 장치로부터 IR 광을 투사하는 단계와, 제1 센서를 이용하여 상기 제1 기간 동안 환경의 제1 이미지를 포착하는 단계와, 제2 센서를 이용하여 상기 제1 기간 동안 환경의 제2 이미지를 포착하는 단계와, 상기 제1 센서를 이용하여 상기 제1 기간에 후속하는 제2 기간 동안 환경의 제3 이미지를 포착하는 단계를 포함한다. 상기 IR 광은 제2 기간 동안에 모바일 장치로부터 투사되지 않는다. 방법은 또한 상기 제2 센서를 이용하여 상기 제2 기간 동안 환경의 제4 이미지를 포착하는 단계와, 상기 제1 이미지 및 상기 제3 이미지에 기초하여 제1 차 이미지를 생성하는 단계와, 상기 제2 이미지 및 상기 제4 이미지에 기초하여 제2 차 이미지를 생성하는 단계와, 상기 제1 차 이미지 및 상기 제2 차 이미지에 기초하여 하나 이상 손 특징의 하나 이상의 상대적 위치를 결정하는 단계와, 상기 하나 이상 손 특징의 하나 이상의 상대적 위치에 기초하여 행동을 검출하는 단계와, 상기 행동의 검출에 응답하여 모바일 장치에서 컴퓨팅 동작을 수행하는 단계를 포함한다.

도 7은 도 1의 모바일 장치(19)와 같은 모바일 장치(8300)의 일 실시형태의 블록도이다. 모바일 장치는 랩톱 컴퓨터, 포켓 컴퓨터, 이동 전화기, HMD, 개인용 정보 단말기, 및 무선 수신기/송신기 기술에 의해 통합된 핸드헬드 미디어 장치를 포함할 수 있다.

모바일 장치(8300)는 하나 이상의 프로세서(8312) 및 메모리(8310)를 포함한다. 메모리(8310)는 애플리케이션(8330) 및 비휘발성 스토리지(8340)를 포함한다. 메모리(8310)는 비휘발성 및 휘발성 메모리를 포함한 임의의 다양한 메모리 스토리지 미디어 유형일 수 있다. 모바일 장치 운영체제는 모바일 장치(8300)의 상이한 동작을 취급하고 전화 호출, 텍스트 메시징, 음성메일 체크 등을 배치 및 수신하는 것과 같은 동작을 위한 사용자 인터페이스를 내포할 수 있다. 애플리케이션(8330)은 사진 및/또는 비디오용의 카메라 애플리케이션, 주소록, 캘린더 애플리케이션, 미디어 플레이어, 인터넷 브라우저, 게임, 알람 애플리케이션, 및 기타 애플리케이션과 같은 임의의 프로그램 분류일 수 있다. 메모리(8310)의 비휘발성 스토리지 컴포넌트(8340)는 음악, 사진, 접촉 데이터, 스케줄링 데이터 및 기타 파일과 같은 데이터를 저장할 수 있다.

하나 이상의 프로세서(8312)는 시스루 디스플레이(8309)와 통신한다. 시스루 디스플레이(8309)는 실세계 환경과 연관된 하나 이상의 가상 물체를 디스플레이할 수 있다. 하나 이상의 프로세서(8312)는 안테나(8302)에 연결된 RF 송신기/수신기(8306), 적외선 송신기/수신기(8308), 글로벌 위치확인 서비스(GPS) 수신기(8365), 및 가속도계 및/또는 자력계를 포함하는 움직임/방위 센서(8314)와 또한 통신한다. RF 송신기/수신기(8306)는 블루투스 또는 IEEE 802.11 표준과 같은 각종 무선 기술 표준을 통해 무선 통신을 가능하게 한다. 가속도계는 사용자가 행동을 통해 명령을 입력하게 하는 인텔리전트 사용자 인터페이스 애플리케이션, 및 모바일 장치가 회전된 때 초상으로부터 풍경까지 디스플레이를 자동으로 변경할 수 있는 방위 애플리케이션과 같은 애플리케이션이 가능하도록 모바일 장치에 통합되었다. 가속도계는 예를 들면 반도체 칩에 구축된 작은 기계 장치(마이크로미터 치수의 것)인 마이크로 전기기계 시스템(MEMS)에 의해 제공될 수 있다. 가속도 방향뿐만 아니라 방위, 진동 및 충격이 감지될 수 있다. 하나 이상의 프로세서(8312)는 또한 링거/진동기(8316), 사용자 인터페이스 키패드/스크린(8318), 스피커(8320), 마이크로폰(8322), 카메라(8324), 광센서(8326) 및 온도 센서(8328)와 통신한다. 사용자 인터페이스 키패드/스크린은 터치 감응 스크린 디스플레이를 포함할 수 있다.

하나 이상의 프로세서(8312)는 무선 신호의 송신 및 수신을 제어한다. 송신 모드 중에, 하나 이상의 프로세서(8312)는 마이크로폰(8322)으로부터의 음성 신호 또는 다른 데이터 신호를 RF 송신기/수신기(8306)에 제공한다. 송신기/수신기(8306)는 안테나(8302)를 통해 신호를 송신한다. 링거/진동기(8316)는 유입 호출, 텍스트 메시지, 캘린더 리마인더, 알람 시계 리마인더 또는 다른 통지를 사용자에게 신호하기 위해 사용된다. 수신 모드 중에, RF 송신기/수신기(8306)는 안테나(8302)를 통해 원격 스테이션으로부터 음성 신호 또는 데이터 신호를 수신한다. 수신된 음성 신호는 스피커(8320)에 제공되는 한편, 다른 수신된 데이터 신호들이 적절히 처리된다.

추가로, 물리적 커넥터(8388)가 모바일 장치(8300)를 배터리(8304) 충전을 위해 AC 어댑터 또는 전력 도킹 스테이션과 같은 외부 전원에 접속하기 위해 사용될 수 있다. 물리적 커넥터(8388)는 외부 컴퓨팅 장치에 대한 데이터 접속으로서 또한 사용될 수 있다. 상기 데이터 접속에 의해 다른 장치의 컴퓨팅 데이터와 모바일 장치 데이터와의 동기화 등의 동작이 가능하다.

개시된 기술은 각종의 다른 범용 또는 특수 용도 컴퓨팅 시스템 환경 또는 구성과 함께 동작할 수 있다. 본 발명의 기술과 함께 사용하기에 적합한 잘 알려진 컴퓨팅 시스템, 환경 및/또는 구성의 비제한적인 예로는 퍼스널 컴퓨터, 서버 컴퓨터, 핸드헬드 또는 랩톱 장치, 멀티프로세서 시스템, 마이크로프로세서 기반 시스템, 셋톱박스, 프로그램가능한 가전제품, 네트워크 PC, 미니컴퓨터, 메인프레임 컴퓨터, 전술한 임의의 시스템 또는 장치를 포함한 분산형 컴퓨팅 환경 등이 있다.

개시된 기술은 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터 실행가능 명령어의 일반적인 관계로 설명될 수 있다. 일반적으로, 여기에서 설명한 소프트웨어 및 프로그램 모듈은 특정의 타스크를 수행하거나 특정의 추상적 데이터 유형을 구현하는 루틴, 프로그램, 오브젝트, 컴포넌트, 데이터 구조, 및 다른 유형의 구조를 포함한다. 하드웨어 또는 하드웨어와 소프트웨어의 조합이 여기에서 설명한 소프트웨어 모듈을 대체할 수 있다.

개시된 기술은 타스크가 통신 네트워크를 통해 연결된 원격 처리 장치에 의해 수행되는 분산형 컴퓨팅 환경에서 또한 실시될 수 있다. 분산형 컴퓨팅 환경에 있어서, 프로그램 모듈은 메모리 스토리지 장치를 포함한 국지적 및 원격 컴퓨터 스토리지 매체 둘 다에 위치될 수 있다.

이 문서의 목적상, 개시된 기술과 관련된 각각의 처리는 연속적으로 및 하나 이상의 컴퓨팅 장치에 의해 수행될 수 있다. 처리에 있어서의 각 단계는 다른 단계에서 사용된 것과 동일한 컴퓨팅 장치 또는 다른 컴퓨팅 장치에 의해 수행될 수 있고, 각 단계는 반드시 단일 컴퓨팅 장치에 의해 수행될 필요가 없다.

이 문서의 목적상, 명세서에서 "실시형태", "일 실시형태", 일부 실시형태", 또는 "다른 실시형태"의 인용은 상이한 실시형태를 설명하기 위해 사용될 수 있고, 반드시 동일 실시형태를 인용하는 것이 아니다.

이 문서의 목적상, 접속은 직접 접속 또는 (예컨대 다른 부품을 경유하는) 간접 접속일 수 있다.

이 문서의 목적상, 용어 물체의 "설정"(set)은 하나 이상 물체의 "설정"을 의미할 수 있다.

비록 주제가 구조적 특징 및/또는 방법적 동작에 특유한 언어로 설명되어 있지만, 첨부된 특허 청구범위에서 규정되는 주제는 반드시 전술한 특유의 특징 또는 동작으로 제한되지 않는다는 것을 이해하여야 한다. 오히려, 전술한 특유의 특징 및 동작들은 특허 청구범위를 구현하는 예시적인 형태로서 개시된다.

Claims

행동(gesture)을 인식하는 전자 장치에 있어서,
광원;
제1 센서; 및
상기 광원 및 상기 제1 센서와 통신하는 하나 이상의 프로세서
를 포함하고,
상기 하나 이상의 프로세서는 상기 광원이 제1 기간 동안 제1 광도 레벨로 환경에 IR 광을 방사하게 하고,
상기 하나 이상의 프로세서는 상기 환경 내의 주변 IR 광의 양이 특정 역치보다 높은 것을 검출하고,
상기 하나 이상의 프로세서는, 상기 환경 내의 주변 IR 광의 양이 특정 역치보다 높은 것을 검출하는 것에 응답하여, 상기 광원이 제2 기간 동안 상기 제1 광도 레벨과는 다른 제2 광도 레벨로 상기 환경에 상기 IR 광을 방사하게 하고,
상기 하나 이상의 프로세서는, 상기 제1 센서가, 상기 제2 기간 동안 상기 환경의 제1 이미지를 포착하고 상기 제2 기간과는 다른 제3 기간 동안 상기 환경의 제3 이미지를 포착하게 하고, 상기 광원은 상기 제3 기간 동안 상기 환경에 상기 IR 광을 방사하지 않고,
상기 하나 이상의 프로세서는 상기 제1 이미지 및 상기 제3 이미지에 기초하여 제1 차 이미지(first difference image)를 생성하고,
상기 하나 이상의 프로세서는 상기 제1 차 이미지에 기초하여 하나 이상의 손 특징을 식별하고,
상기 하나 이상의 프로세서는 상기 하나 이상의 손 특징에 기초하여 행동(gesture)을 검출하고,
상기 하나 이상의 프로세서는 상기 행동의 검출에 응답하여 컴퓨팅 동작을 수행하는 것인, 행동을 인식하는 전자 장치.
제1항에 있어서,
제2 센서를 더 포함하고,
상기 하나 이상의 프로세서는 상기 제2 센서가 상기 제2 기간 동안 상기 환경의 제2 이미지를 포착하고 상기 제3 기간 동안 상기 환경의 제4 이미지를 포착하게 하며,
상기 하나 이상의 프로세서는 상기 제2 이미지 및 상기 제4 이미지에 기초하여 제2 차 이미지를 생성하고,
상기 하나 이상의 프로세서는 상기 제1 차 이미지 및 상기 제2 차 이미지를 사용하여 상기 하나 이상의 손 특징을 식별하는 것인, 행동을 인식하는 전자 장치.
제2항에 있어서,
상기 하나 이상의 프로세서는, 상기 제1 차 이미지와 상기 제2 차 이미지 사이에서 제1 손 특징과 연관된 하나 이상 화소 위치의 변화에 기초하여, 상기 하나 이상 손 특징 중의 상기 제1 손 특징과 연관된 깊이 정보를 결정하는 것인, 행동을 인식하는 전자 장치.
제3항에 있어서,
상기 제1 손 특징은 손가락 끝을 포함하는 것인, 행동을 인식하는 전자 장치.
제1항에 있어서,
상기 제1 센서는 컬러 필터와 IR 필터를 포함하는 것인, 행동을 인식하는 전자 장치.
제1항에 있어서,
상기 제2 광도 레벨은, 상기 전자 장치의 제1 범위 내에 있는 물체에 기인한 방사된 IR 광의 후방산란이 상기 제1 센서에 의해 검출될 수 있도록 설정되는 것인, 행동을 인식하는 전자 장치.
제6항에 있어서,
상기 제1 범위는 1미터를 포함하는 것인, 행동을 인식하는 전자 장치.
제1항에 있어서,
상기 전자 장치는 HMD를 포함하고,
상기 제2 광도 레벨은 상기 제1 광도 레벨보다 작고,
상기 제3 기간은 상기 제2 기간에 후속하고,
상기 제2 기간은 상기 제1 기간에 후속하는 것인, 행동을 인식하는 전자 장치.
행동을 인식하는 방법에 있어서,
제1 기간 동안 제1 광도 레벨로 모바일 장치로부터 환경에 IR 광을 방사하는 단계;
상기 환경 내의 주변 IR 광의 양이 특정 역치보다 높은 것을 검출하는 단계;
상기 환경 내의 주변 IR 광의 양이 특정 역치보다 높은 것을 검출하는 것에 응답하여, 제2 기간 동안 상기 제1 광도 레벨과는 다른 제2 광도 레벨로 상기 모바일 장치로부터 상기 환경에 상기 IR 광을 방사하는 단계;
제1 센서를 사용하여 상기 제2 기간 동안 상기 환경의 제1 이미지를 포착하는 단계;
상기 제1 센서를 사용하여 상기 제2 기간과는 다른 제3 기간 동안 - 상기 제3 기간 동안 상기 모바일 장치로부터 상기 IR 광이 방사되지 않음 - 상기 환경의 제3 이미지를 포착하는 단계;
상기 제1 이미지 및 상기 제3 이미지에 기초하여 제1 차 이미지를 생성하는 단계;
상기 제1 차 이미지에 기초하여 하나 이상의 손 특징을 식별하는 단계;
상기 하나 이상의 손 특징에 기초하여 행동을 검출하는 단계; 및
상기 행동의 검출에 응답하여 상기 모바일 장치에서 컴퓨팅 동작을 수행하는 단계
를 포함하는, 행동 인식 방법.
제9항에 있어서,
제2 센서를 사용하여 상기 제2 기간 동안 상기 환경의 제2 이미지를 포착하는 단계;
상기 제2 센서를 사용하여 상기 제3 기간 동안 상기 환경의 제4 이미지를 포착하는 단계; 및
상기 제2 이미지 및 상기 제4 이미지에 기초하여 제2 차 이미지를 생성하는 단계
를 더 포함하고,
상기 하나 이상의 손 특징을 식별하는 단계는, 상기 제1 차 이미지 및 상기 제2 차 이미지를 사용하여 상기 하나 이상의 손 특징을 식별하는 단계를 포함하는 것인, 행동 인식 방법.
제9항에 있어서,
상기 하나 이상의 손 특징을 식별하는 단계는 상기 하나 이상의 손 특징과 연관된 깊이 정보를 결정하는 단계를 포함하는 것인, 행동 인식 방법.
제9항에 있어서,
상기 제1 센서는 단색 필터 및 IR 필터를 포함하는 것인, 행동 인식 방법.
제9항에 있어서,
상기 제2 광도 레벨은, 상기 모바일 장치의 제1 범위 내에 있는 물체에 기인한 방사된 IR 광의 후방산란이 상기 제1 센서에 의해 검출될 수 있도록 설정되는 것인, 행동 인식 방법.
제13항에 있어서,
상기 제1 범위는 1미터를 포함하는 것인, 행동 인식 방법.
제9항에 있어서,
상기 하나 이상의 손 특징은 하나 이상의 손가락 골을 포함하는 것인, 행동 인식 방법.
제9항에 있어서,
상기 모바일 장치는 HMD를 포함하고,
상기 제2 광도 레벨은 상기 제1 광도 레벨보다 작고,
상기 제3 기간은 상기 제2 기간에 후속하고,
상기 제2 기간은 상기 제1 기간에 후속하는 것인, 행동 인식 방법.
모바일 장치를 사용하여 행동을 인식하는 방법을 수행하도록 하나 이상의 프로세서를 프로그래밍하기 위한 프로세서 판독 가능 코드를 포함하는 하나 이상의 하드웨어 스토리지 장치(device)에 있어서, 상기 방법은,
제1 기간 동안 제1 광도 레벨로 상기 모바일 장치로부터 환경에 IR 광을 투사하는 단계;
상기 환경 내의 주변 IR 광의 양이 특정 역치보다 높은 것을 검출하는 단계;
상기 환경 내의 주변 IR 광의 양이 특정 역치보다 높은 것을 검출하는 것에 응답하여, 상기 제1 광도 레벨보다 작은 제2 광도 레벨을 결정하는 단계;
제2 기간 동안 상기 제2 광도 레벨로 상기 모바일 장치로부터 상기 환경에 상기 IR 광을 투사하는 단계;
제1 센서를 사용하여 상기 제2 기간 동안 상기 환경의 제1 세트의 이미지를 포착하는 단계;
제2 센서를 사용하여 상기 제2 기간 동안 상기 환경의 제2 세트의 이미지를 포착하는 단계;
상기 제1 센서를 사용하여 상기 제2 기간과는 다른 제3 기간 - 상기 제3 기간 동안 상기 모바일 장치로부터 상기 IR 광이 투사되지 않음 - 동안 상기 환경의 제3 세트의 이미지를 포착하는 단계;
상기 제2 센서를 사용하여 상기 제3 기간 동안 상기 환경의 제4 세트의 이미지를 포착하는 단계;
상기 제1 세트의 이미지 및 상기 제3 세트의 이미지에 기초하여 제1 세트의 차 이미지를 생성하는 단계;
상기 제2 세트의 이미지 및 상기 제4 세트의 이미지에 기초하여 제2 세트의 차 이미지를 생성하는 단계;
상기 제1 세트의 차 이미지 및 상기 제2 세트의 차 이미지에 기초하여 하나 이상의 손 특징의 하나 이상의 상대 위치를 결정하는 단계;
상기 하나 이상의 손 특징의 상기 하나 이상의 상대 위치에 기초하여 행동을 검출하는 단계; 및
상기 행동을 검출하는 것에 응답하여 상기 모바일 장치에서 컴퓨팅 동작을 수행하는 단계
를 포함하는 것인, 하나 이상의 하드웨어 스토리지 장치.
제17항에 있어서,
상기 하나 이상의 상대 위치를 결정하는 단계는, 상기 하나 이상의 손 특징과 연관된 깊이 정보를 결정하는 단계를 포함하고, 상기 행동을 검출하는 단계는 상기 하나 이상의 손 특징과 연관된 상기 깊이 정보에 기초하여 상기 행동을 검출하는 단계를 포함하는 것인, 하나 이상의 하드웨어 스토리지 장치.
제17항에 있어서,
상기 제1 센서는 통합형 컬러 및 IR 이미지 센서를 포함하는 것인, 하나 이상의 하드웨어 스토리지 장치.
제17항에 있어서,
상기 하나 이상의 손 특징은 하나 이상의 손가락 골을 포함하고,
상기 행동은 동적 행동을 포함하고,
상기 모바일 장치는 HMD를 포함하고,
상기 모바일 장치로부터 방사되는 IR 광은 IR LED를 사용하여 방사되고,
상기 제3 기간은 상기 제2 기간에 후속하고,
상기 제2 기간은 상기 제1 기간에 후속하는 것인, 하나 이상의 하드웨어 스토리지 장치.