KR102281026B1

KR102281026B1 - 홀로그램 앵커링 및 동적 포지셔닝 기법

Info

Publication number: KR102281026B1
Application number: KR1020157033243A
Authority: KR
Inventors: 브라이언 이 킨; 벤 제이 서그덴; 로버트 엘 쥬니어 크로코; 다니엘 디프트포드; 톰 지 샐터; 로라 케이 매세이; 알렉스 아벤-아사르 키프만; 피터 토비아스 키네브류; 니콜라스 페리안크 카무다
Original assignee: 마이크로소프트 테크놀로지 라이센싱, 엘엘씨
Priority date: 2013-05-23
Filing date: 2014-05-22
Publication date: 2021-07-22
Also published as: CN105264478B; KR20160012139A; US20140347391A1; US9230368B2; EP3000020A1; CN105264478A; EP3000020B1; WO2014190106A1

Abstract

혼합 현실 환경 내의 가상 객체를 사용자가 가상 객체와 상호작용하기 위해 최적이고 가장 편안한 방식으로 디스플레이하는 시스템 및 방법이 개시된다. 사용자가 혼합 현실 환경을 거쳐 움직이고 있는 경우, 사용자는 가상 객체 주위를 돌아다니고 상이한 관점으로부터 이를 살펴볼 수 있도록, 가상 객체는 세계에 고정된 채 있을 수 있다. 사용자가 혼합 현실 환경 내에서 움직이지 않는 경우, 사용자가 용이하게 가상 객체를 보고 이와 상호작용할 수 있도록 가상 객체는 사용자를 대향하도록 회전할 수 있다.

Description

홀로그램 앵커링 및 동적 포지셔닝 기법{HOLOGRAM ANCHORING AND DYNAMIC POSITIONING}

혼합 현실(mixed reality)은 가상 화상(virtual imagery)이 실제 세계의 물리적 환경과 혼합되게 하는 기술이다. 시스루(see-through)의 머리 장착형(head-mounted) 혼합 현실 디스플레이 디바이스는 사용자의 시계(field of view) 내에 디스플레이된 실제 객체 및 가상 객체의 혼합된 화상을 보기 위해 사용자가 착용할 수 있다. 사용자는 또한, 예컨대 가상 객체를 움직이거나 그것의 외양을 바꾸거나 단지 그것을 보기 위해 손, 머리 또는 음성 제스처를 행함으로써, 그 객체와 상호작용할 수 있다. 사용자가 물리적 환경 내에서 돌아다닐 때에, 가상 객체에 대한 사용자의 포지션(position)은 변한다. 이것은 가상 객체에 대한 사용자의 원근감을 제공하나, 그것은 흔히 편향 각도(off-angles)로부터 가상 객체를 보거나 이와 상호작용하는 것을 어렵게 한다.

본 기술의 실시예는 사용자가 혼합 현실 환경에서 돌아다닐 때에, 홀로그램으로도 지칭되는 가상 객체의 포지션을 앵커링(anchoring)하고, 사용자가 움직이지 않는(motionless) 경우 사용자가 가상 객체를 보고/보거나 이와 상호작용하기에 최적이고 가장 편안한 방식으로 가상 객체를 다시 포지셔닝(repositioning)하는 시스템 및 방법에 관련된다. 혼합 현실 환경을 생성하는 시스템은 일반적으로 하나 이상의 처리 유닛(processing unit)에 커플링된(coupled) 시스루의 머리 장착형 디스플레이 디바이스(head mounted display device)를 포함한다. 머리 장착형 디스플레이 유닛(들)과 협동하는 처리 유닛은 사용자가 움직이고 있는 때 또는 정지해 있는 때는 물론, 환경 내의 가상 객체에 대해 머리 포지션을 포함하여 사용자의 포지션을 판정할 수 있다.

이 정보를 사용하여, 혼합 현실 시스템은 사용자가 환경에서 돌아다니는 경우 환경 내의 가상 객체의 포지션을 앵커링할 수 있다. 이것은 사용자로 하여금 가상 객체 주위를 돌아다니고, 그것을 상이한 관점에서 보며, 사용자로부터의 가상 객체의 배향(orientation) 및 간격(spacing)의 온전한 인식을 얻도록 한다. 사용자가 예컨대 사전결정된 기간(period of time) 동안 가만히 있는 경우, 시스템은 가상 객체를 사용자를 대향하고/하거나 보기(viewing) 및/또는 상호작용(interaction)하는데 최적인 사용자 정의된(user-defined) 포지션으로 움직이도록 다시 포지셔닝할 수 있다. 가상 객체는 동화상(animate) 또는 비동화상(inanimate) 객체와 같은 임의의 형태를 취할 수 있다. 가상 객체의 서브세트(subset)는 가상 디스플레이 슬레이트(virtual display slate)인데, 이는 텍스트, 그래픽, 사진 또는 비디오의 가상 디스플레이를 포함할 수 있다.

일례에서, 본 기술은 하나 이상의 사용자에게 혼합 현실 경험(mixed reality experience)을 제시하는 시스템에 관련되는데, 그 시스템은 하나 이상의 사용자를 위한 하나 이상의 디스플레이 디바이스(각 디스플레이 디바이스는 가상 객체(virtual object)를 그 디스플레이 디바이스의 사용자에게 디스플레이하는 디스플레이 유닛(display unit)을 포함함)와, 위 하나 이상의 디스플레이 디바이스에 동작가능하게(operatively) 커플링된 컴퓨팅 시스템(위 컴퓨팅 시스템은 위 하나 이상의 디스플레이 디바이스 상의 디스플레이를 위해 위 가상 객체를 생성하고, 위 컴퓨팅 시스템은 하나 이상의 사용자 중의 한 사용자가 움직이고 있는 경우 제1 포지션에서 그 사용자에게 위 가상 객체를 디스플레이하며, 위 컴퓨팅 시스템은 그 사용자가 움직이지 않는 경우 제2 포지션에서 그 사용자에게 위 가상 객체를 그 사용자를 대향하도록(face) 회전되게 디스플레이함)을 포함한다.

추가의 예에서, 본 기술은 사용자에게 혼합 현실 경험을 제시하는 시스템에 관련되는데, 그 시스템은 위 사용자를 위한 디스플레이 디바이스(위 디스플레이 디바이스는 위 디스플레이 디바이스의 포지션에 관한 데이터를 감지하는 제1 세트(set)의 센서와 위 디스플레이 디바이스의 위 사용자에게 가상 객체를 디스플레이하는 디스플레이 유닛을 포함함)와, 위 디스플레이 디바이스에 동작가능하게 커플링된 컴퓨팅 시스템(위 컴퓨팅 시스템은 위 사용자의 포지션에 관한 데이터를 감지하는 제2 세트의 센서를 포함하고, 위 컴퓨팅 시스템은 위 디스플레이 디바이스 상의 디스플레이를 위해 위 가상 객체를 생성하며, 위 컴퓨팅 시스템은 위 사용자가 자신의 움직임을 움직이고 있는 것으로부터 사전결정된 기간 동안 움직이지 않는 것으로 변경하는 경우 위 사용자에게 위 가상 객체를 위 사용자를 대향하도록 회전하는 것으로서 디스플레이함)을 포함한다.

다른 예에서, 본 기술은 하나 이상의 사용자에게 혼합 현실 경험을 제시하는 방법에 관련되는데, 그 방법은 (a) 위 사용자가 가상 객체에 대해서 움직이고 있음이 판정되는 경우 위 사용자의 시계 내의 제1 포지션에서 위 사용자에게 위 가상 객체를 디스플레이하는 것과, (b) 위 사용자가 사전결정된 기간 동안 움직이지 않음이 판정되는 경우 위 가상 객체를 위 사용자를 대향하도록 제2 포지션으로 회전시키는 것을 포함한다.

이 개요는 상세한 설명에서 추가로 후술되는 개념 중 선택된 것을 단순화된 형태로 소개하기 위해 제공된다. 이 개요는 청구된 대상(claimed subject matter)의 중요 특징 또는 필수적 특징을 식별하고자 의도된 것이 아니고, 청구된 대상의 범주를 정하는 데에서 도움으로서 사용되도록 의도된 것도 아니다.

도 1은 하나 이상의 사용자에게 혼합 현실 환경을 제시하는 시스템의 하나의 실시예의 예시적 컴포넌트의 예시이다.
도 2는 머리 장착형 디스플레이 유닛의 하나의 실시예의 사시도(perspective view)이다.
도 3은 머리 장착형 디스플레이 유닛의 하나의 실시예의 일부분의 측면도(side view)이다.
도 4는 머리 장착형 디스플레이 유닛의 컴포넌트의 하나의 실시예의 블록 다이어그램(block diagram)이다.
도 5는 머리 장착형 디스플레이 유닛과 연관된 처리 유닛의 컴포넌트의 하나의 실시예의 블록 다이어그램이다.
도 6은 머리 장착형 디스플레이 유닛과 함께 사용되는 허브 컴퓨팅 시스템(hub computing system)의 컴포넌트의 하나의 실시예의 블록 다이어그램이다.
도 7은 본 문서에 기술된 허브 컴퓨팅 시스템을 구현하기 위해 사용될 수 있는 컴퓨팅 시스템의 하나의 실시예의 블록 다이어그램이다.
도 8은 혼합 현실 환경 내에서 돌아다니는 사용자를 포함하는 혼합 현실 환경의 일례의 예시이다.
도 9는 혼합 현실 환경 내에서 움직이지 않고 있는 사용자를 포함하는 혼합 현실 환경의 일례의 예시이다.
도 10은 본 시스템의 허브 컴퓨팅 시스템, 하나 이상의 처리 유닛 및 하나 이상의 머리 장착형 디스플레이 유닛의 동작 및 협력을 도시하는 흐름도(flowchart)이다.
도 11 내지 도 14a는 도 10의 흐름도에 도시된 다양한 단계의 예의 더욱 상세한 흐름도이다.

본 기술의 실시예들이 도 1 내지 도 14a를 참조하여 이제 기술될 것인데, 이는 혼합 현실 환경에 일반적으로 관련되되 사용자가 혼합 현실 환경에서 돌아다닐 때에는 하나 이상의 가상 객체의 포지션이 정지한 채 있으나, 사용자가 정지해 있는 경우에는 하나 이상의 가상 객체를 최적으로 보고/보거나 이와 상호작용하는 것을 가능하게 하도록 변할 수 있다. 혼합 현실 환경을 구현하는 시스템은 허브 컴퓨팅 시스템과 통신하는 모바일 디스플레이 디바이스(mobile display device)를 포함할 수 있다. 모바일 디스플레이 디바이스는 머리 장착형 디스플레이 디바이스(또는 다른 적합한 장치)에 커플링된 모바일 처리 유닛을 포함할 수 있다.

머리 장착형 디스플레이 디바이스는 디스플레이 요소(display element)를 포함할 수 있다. 디스플레이 요소는 사용자가 디스플레이 요소를 통해 사용자의 시계(Field Of View: FOV) 내의 실제 세계 객체를 바라볼 수 있을 정도로 투명하다. 디스플레이 요소는 가상 이미지가 실제 세계 객체와 나란히 나타날 수도 있도록 사용자의 FOV 내에 가상 이미지를 투영할(project) 능력을 또한 제공한다. 사용자의 FOV에서 가상 이미지를 어디에 삽입할지를 시스템이 판정할 수 있게 시스템은 사용자가 어디를 보고 있는지를 자동으로 추적한다(track). 일단 어디에 가상 이미지를 투영할지를 시스템이 알면, 디스플레이 요소를 사용하여 이미지가 투영된다.

실시예에서, 허브 컴퓨팅 시스템 및 처리 유닛 중 하나 이상은 방 또는 다른 환경 안의 모든 사용자, 실제 세계 객체 및 가상 3차원 객체의 x, y, z 데카르트(Cartesian) 포지션을 포함하는 환경의 모델을 세우기(build) 위해 협동할 수 있다. 환경 내의 사용자가 착용한 각각의 머리 장착형 디스플레이 디바이스의 포지션은 환경의 모델에 대해 그리고 서로에 대해 교정될(calibrated) 수 있다. 이것은 시스템으로 하여금 환경에 대한 각 사용자의 시선(line of sight) 및 FOV를 판정하도록 한다. 그러므로, 가상 이미지가 각 사용자에게 디스플레이될 수 있으나, 시스템은 각 사용자의 관점으로부터의 가상 이미지의 디스플레이를 판정하여, 환경 내의 다른 객체로부터의 또는 이에 의한 임의의 폐색(occlusion)들 그리고 시차(parallax)를 위해 가상 이미지를 조절한다. 환경에서의 사용자의 FOV 및 객체의 모든 추적뿐만 아니라 환경의 모델(본 문서에서 장면 맵(scene map)으로 지칭됨)은 협력하여 또는 개별적으로 작업하는 허브 및 모바일 처리 유닛에 의해 생성될 수 있다.

사용자는 사용자의 FOV 내에서 나타나는 가상 객체 중 하나 이상과 상호작용하기를 택할 수 있다. 본 문서에서 사용되는 바와 같이, "상호작용하다"라는 용어는 가상 객체와의 사용자의 물리적 상호작용 및 구두의(verbal) 상호작용 양자 모두를 망라한다. 물리적 상호작용은 사용자가 혼합 현실 시스템에 의해 시스템이 사전정의된 행동(action)을 수행하기 위한 사용자 요청(user-request)으로서 인지되는, 그의 또는 그녀의 손가락, 손, 머리 및/또는 다른 신체 부분(들)을 사용하는 사전정의된 제스처(gesture)를 수행하는 것을 포함한다. 그러한 사전정의된 제스처는 가상 객체를 가리키는 것, 움켜잡는 것 및 미는 것을 포함할 수 있으나 이에 한정되지 않는다.

사용자는 그의 또는 그녀의 눈으로써 가상 객체와 물리적으로 상호작용할 수도 있다. 몇몇 사례에서, 눈 응시 데이터(eye gaze data)는 사용자가 FOV 내에서 어디에 초점을 맞추고 있는지를 식별하며, 따라서 사용자가 특정한 가상 객체를 바라보고 있음을 식별할 수 있다. 그러므로 지속되는 눈 응시, 또는 깜박임(blink) 또는 깜박임 시퀀스(blink sequence)는 사용자가 하나 이상의 가상 객체를 선택하는 물리적 상호작용일 수 있다.

본 문서에서 사용되는 바와 같이, 가상 객체를 단지 바라보는, 이를테면 가상 디스플레이 슬레이트 상의 콘텐트(content)를 보는 사용자는 가상 객체와의 사용자의 물리적 상호작용의 추가의 예이다.

사용자는 대안적으로 또는 추가적으로, 예컨대 시스템이 사전정의된 행동을 수행하기 위한 사용자 요청으로서 혼합 현실 시스템에 의해 인지되는 발화된 어구(spoken word or phrase)와 같은 구두의 제스처를 사용하여 가상 객체와 상호작용할 수 있다. 구두의 제스처는 혼합 현실 환경 내의 하나 이상의 가상 객체와 상호작용하기 위해 물리적 제스처와 함께 사용될 수 있다.

사용자가 혼합 현실 환경 내에서 돌아다닐 때에, 가상 객체는 세계에 고정된(world-locked) 채 있을 수 있다. 즉, 그것은 사용자가 세계에 고정된 가상 객체 주위를 돌아다니고 상이한 관점 및 거리에서 그것을 볼 수 있도록 혼합 현실 환경 내에 앵커링되고 정지한 채 있을 수 있다. 본 기술에 따르면, 사용자가 예컨대 사전결정된 기간 동안 움직이기를 멈추거나 움직이기를 거의 멈춘 경우, 가상 객체(들)의 포지션은 사용자에게 고정된(body-locked) 것으로 전환될(switch) 수 있다. 즉, 가상 객체의 포지션은 사용자를 대향하거나 사용자의 몸체에 대한 어떤 다른 사전정의된 포지션으로 움직이도록 변경될 수 있다. 본 문서에서 사용되는 바와 같이, "포지션"이라는 용어는 세 축의 좌표계(coordinate system)에 관한 병진적 포지션(translational position), 그리고 좌표계의 축에 대한 회전적 배향(rotational orientation)(피치(pitch), 롤(roll) 및/또는 요(yaw)) 양자 모두를 망라한다.

사용자에게 콘텐트를 제시하는 가상 디스플레이 슬레이트와 같은 가상 객체의 포지션을 최적화하는 실시예들이 아래에서 기술된다. 콘텐트는 예컨대 텍스트, 그림 및 사진과 같은 정적 콘텐트 또는 비디오와 같은 동적 콘텐트를 포함하여, 가상 슬레이트 상에 디스플레이될 수 있는 임의의 콘텐트일 수 있다. 그러나, 본 기술은 가상 디스플레이 슬레이트의 포지셔닝(positioning)에 한정되지 않고, 혼합 현실 환경 내에 제공되는 임의의 가상 객체를 다시 포지셔닝하고/하거나 다시 크기조정할(resize) 수 있음이 이해된다.

도 1은 사용자의 FOV 내에서 가상 콘텐트(21)를 실제 콘텐트(23)와 융합함(fusing)으로써 혼합 현실 경험을 제공하는 시스템(10)을 예시한다. 도 1은 머리 장착형 디스플레이 디바이스(2)를 착용한 단일 사용자(18)를 도시하나, 한 명이 넘는 사용자가 혼합 현실 환경 내에 존재하고 동일한 가상 객체를 그들 자신의 관점으로부터 보고 있을 수 있다는 점이 이해된다. 도 2 및 도 3에서 보는 바와 같이, 머리 장착형 디스플레이 디바이스(2)는 통합된(integrated) 처리 유닛(4)을 포함할 수 있다. 다른 실시예에서, 처리 유닛(4)은 머리 장착형 디스플레이 디바이스(2)와는 별개일 수 있고, 유선 또는 무선 통신을 통하여 머리 장착형 디스플레이 디바이스(2)와 통신할 수 있다. 하나의 실시예에서 안경의 형상인 머리 장착형 디스플레이 디바이스(2)는 사용자가 디스플레이를 관통해 보고 이로써 사용자 앞쪽의 공간의 실제의 직접적인 뷰(actual direct view)를 가질 수 있도록 사용자의 머리 위에 착용된다. "실제의 직접적인 뷰"라는 용어의 사용은 실제 세계 객체의 생성된 이미지 표현을 보는 것이 아니라 인간의 눈으로 직접 그 객체를 볼 능력을 나타낸다. 예를 들어, 방에서 유리를 통해 바라보는 것은 사용자로 하여금 그 방의 실제의 직접적인 뷰를 갖게 하나, 텔레비전에서 방의 비디오를 보는 것은 그 방의 실제의 직접적인 뷰가 아니다. 머리 장착형 디스플레이 디바이스(2)의 추가적인 세부사항이 아래에서 제공된다.

처리 유닛(4)은 머리 장착형 디스플레이 디바이스(2)를 동작시키기 위해 사용되는 컴퓨팅 능력(computing power)의 대부분을 포함할 수 있다. 실시예들에서, 처리 유닛(4)은 하나 이상의 허브 컴퓨팅 시스템(12)에 무선으로(가령, 와이파이(WiFi), 블루투스(Bluetooth), 적외선, 또는 다른 무선 통신 수단) 통신한다. 이하에서 설명되는 바와 같이, 허브 컴퓨팅 시스템(12)은 처리 유닛(4)으로부터 원격으로 제공될 수 있어서, 허브 컴퓨팅 시스템(12) 및 처리 유닛(4)은 LAN 또는 WAN과 같은 무선 네트워크를 통하여 통신한다. 추가의 실시예에서는, 오로지 머리 장착형 디스플레이 디바이스(2) 및 처리 유닛(4)을 사용하여 완전히 모바일인 혼합 현실 경험을 제공하기 위해 허브 컴퓨팅 시스템(12)이 생략될 수 있다.

허브 컴퓨팅 시스템(12)은 컴퓨터, 게이밍(gaming) 시스템 또는 콘솔, 또는 유사한 것일 수 있다. 예시적 실시예에 따르면, 허브 컴퓨팅 시스템(12)이 게이밍 애플리케이션, 비 게이밍(non-gaming) 애플리케이션, 또는 유사한 것과 같은 애플리케이션을 실행하기 위해 사용될 수 있도록 허브 컴퓨팅 시스템(12)은 하드웨어 컴포넌트 및/또는 소프트웨어 컴포넌트를 포함할 수 있다. 하나의 실시예에서, 허브 컴퓨팅 시스템(12)은 본 문서에 기술된 프로세스를 수행하기 위해 프로세서 판독가능 저장 디바이스(processor readable storage device) 상에 저장된 명령어를 실행할 수 있는 표준화된 프로세서(standardized processor), 특수화된 프로세서(specialized processor), 마이크로 프로세서(microprocessor), 또는 유사한 것과 같은 프로세서를 포함할 수 있다.

허브 컴퓨팅 시스템(12)은 그것의 FOV 내의 장면(scene)의 부분들로부터 이미지 데이터를 포착하는(capturing) 포착 디바이스(20)를 더 포함한다. 본 문서에서 사용되는 바와 같이, 장면은 사용자가 돌아다니는 환경인데, 그 환경은 포착 디바이스(20)의 FOV 및/또는 각각의 머리 장착형 디스플레이 디바이스(2)의 FOV 내에서 포착된다. 도 1은 단일의 포착 디바이스(20)를 도시하나, 다수의 포착 디바이스(20)의 복합(composite) FOV 내의 장면으로부터 이미지 데이터를 집합적으로 포착하기 위해 협동하는 다수의 포착 디바이스가 추가의 실시예에서 있을 수 있다. 포착 디바이스(20)는 애플리케이션 내에서 하나 이상의 제어 또는 행동을 수행하고/하거나 아바타(avatar) 또는 스크린상의 캐릭터(on-screen character)를 동화상화하기(animate) 위해 주변의 공간의 구조뿐만 아니라 사용자에 의해 수행되는 제스처 및/또는 움직임이 포착, 분석 및 추적될 수 있도록 사용자(18) 및 주변의 공간을 시각적으로 모니터링하는 하나 이상의 카메라를 포함할 수 있다.

허브 컴퓨팅 시스템(12)은 게임 또는 애플리케이션 시각자료를 제공할 수 있는 텔레비전, 모니터, 고선명 텔레비전(High-Definition Television: HDTV), 또는 유사한 것과 같은 시청각 디바이스(audiovisual device)(16)에 연결될 수 있다. 예를 들어, 허브 컴퓨팅 시스템(12)은 게임 애플리케이션, 비 게임 애플리케이션 등등과 연관된 시청각 신호를 제공할 수 있는 그래픽 카드(graphics card)와 같은 비디오 어댑터(video adapter) 및/또는 사운드 카드(sound card)와 같은 오디오 어댑터(audio adapter)를 포함할 수 있다. 시청각 디바이스(16)는 허브 컴퓨팅 시스템(12)으로부터 시청각 신호를 수신할 수 있고 이후 시청각 신호와 연관된 게임 또는 애플리케이션 시각자료 및/또는 오디오를 출력할 수 있다. 하나의 실시예에 따르면, 시청각 디바이스(16)는, 예컨대 S-Video 케이블, 동축 케이블(coaxial cable), HDMI 케이블, DVI 케이블, VGA 케이블, 컴포넌트 비디오 케이블(component video cable), RCA 케이블 등등을 통하여, 허브 컴퓨팅 시스템(12)에 연결될 수 있다. 하나의 예에서, 시청각 디바이스(16)는 내부 스피커를 포함한다. 다른 실시예에서, 시청각 디바이스(16) 및 허브 컴퓨팅 시스템(12)은 외부 스피커(22)에 연결될 수 있다.

머리 장착형 디스플레이 디바이스(2) 및 처리 유닛(4)과 더불어, 허브 컴퓨팅 시스템(12)은 도 1의 가상 이미지(21)와 같은 하나 이상의 가상 이미지가 장면 내의 실제 세계 객체와 함께 혼합될 수 있는 혼합 현실 경험을 제공할 수 있다. 도 1은 사용자의 FOV 내에 나타나는 실제 세계 객체로서 식물(23) 또는 사용자의 손(23)의 예를 보여준다.

도 2 및 도 3은 머리 장착형 디스플레이 디바이스(2)의 사시도 및 측면도를 도시한다. 도 3은 안경다리(temple)(102) 및 코받침(nose bridge)을 가지는 디바이스의 일부분을 포함하여, 머리 장착형 디스플레이 디바이스(2)의 우측을 도시한다. 아래에 기술되는 바와 같이, 소리를 기록하고 해당 오디오 데이터를 처리 유닛(4)에 송신하는 마이크(microphone)(110)가 코받침(104)에 내장된다. 머리 장착형 디스플레이 디바이스(2)의 전면에는 비디오 및 정지 이미지를 포착할 수 있는 방 대향(room-facing) 비디오 카메라(112)가 있다. 아래에 기술되는 바와 같이, 해당 이미지는 처리 유닛(4)에 송신된다.

머리 장착형 디스플레이 디바이스(2)의 프레임(frame)의 일부분은 (하나 이상의 렌즈를 포함하는) 디스플레이를 둘러쌀 것이다. 머리 장착형 디스플레이 디바이스(2)의 컴포넌트를 보여주기 위해서, 디스플레이를 둘러싼 프레임의 일부분은 묘사되지 않는다. 디스플레이는 도광 광학 요소(light-guide optical element)(115), 불투명 필터(opacity filter)(114), 시스루 렌즈(see-through lens)(116) 및 시스루 렌즈(118)를 포함한다. 하나의 실시예에서, 불투명 필터(114)는 시스루 렌즈(116)의 뒤에 있고 이와 정렬되며, 도광 광학 요소(115)는 불투명 필터(114)의 뒤에 있고 이와 정렬되며, 시스루 렌즈(118)는 도광 광학 요소(115)의 뒤에 있고 이와 정렬된다. 시스루 렌즈(116 및 118)는 안경에서 사용되는 표준 렌즈이며 임의의 처방(prescription)(무처방(no prescription))을 포함함)으로 맞춰질 수 있다. 하나의 실시예에서, 시스루 렌즈(116 및 118)은 가변적 처방 렌즈에 의해 대체될 수 있다. 몇몇 실시예에서, 머리 장착형 디스플레이 디바이스(2)는 오직 하나의 시스루 렌즈를 포함하거나 어떠한 시스루 렌즈도 포함하지 않을 것이다. 다른 대안에서, 처방 렌즈는 도광 광학 요소(115) 안으로 들어갈 수 있다. 불투명 필터(114)는 가상 화상의 콘트라스트(contrast)를 향상시키기 위해 (픽셀 별로든 또는 균일하게든) 자연광(natural light)을 걸러낸다. 도광 광학 요소(115)는 인공광(artificial light)을 눈으로 나른다(channel). 불투명 필터(114) 및 도광 광학 요소(115)의 추가적인 세부사항이 아래에서 제공된다.

(하나의 실시예에서) 가상 이미지를 투영하는 마이크로디스플레이(microdisplay)(120) 및 마이크로디스플레이(120)로부터의 이미지를 도광 광학 요소(115) 내로 향하게 하는 렌즈(122)를 포함하는 이미지 소스(image source)가 안경다리(102)에 장착되거나(mounted) 그 내부에 있다. 일 실시예에서, 렌즈(122)는 시준 렌즈이다.

제어 회로(136)는 머리 장착형 디스플레이 디바이스(2)의 다른 컴포넌트를 지원하는 다양한 전자기기를 제공한다. 제어 회로(126)의 추가적인 세부사항은 도 4에 관해 아래에서 제공된다. 이어폰(130), 관성 측정 유닛(inertial measurement unit)(132) 및 온도 센서(138)가 안경다리(102) 내부에 있거나 이에 장착된다. 도 4에 도시된 하나의 실시예에서, 관성 측정 유닛(132)(또는 IMU(132))은 3축 자력계(three axis magnetometer)(132A), 3축 자이로(three axis gyro)(132B) 및 3축 가속도계(three axis accelerometer)(132C)와 같은 관성 센서를 포함한다. 관성 측정 유닛(132)은 머리 장착형 디스플레이 디바이스(2)의 포지션, 배향 및 갑작스런 가속(피치, 롤 및 요)을 감지한다. IMU(132)는 자력계(132A), 자이로(132B) 및 가속도계(132C)에 더하여 또는 이를 대신하여 다른 관성 센서를 포함할 수 있다.

마이크로디스플레이(120)는 렌즈(122)를 통해 이미지를 투영한다. 마이크로디스플레이(120)를 구현하기 위해 사용될 수 있는 상이한 이미지 생성 기술들이 있다. 예컨대, 마이크로디스플레이(120)는 백색광(white light)으로써 역광이 비추어지는(backlit), 광학적으로 활성인 소재(optically active material)에 의해 광원(light source)이 변조되는 송신 투영 기술(transmissive projection technology)을 사용하는 것에서 구현될 수 있다. 이들 기술은 통상적으로는 강력한 역광 및 높은 광 에너지 밀도를 갖는 LCD 유형 디스플레이를 사용하여 구현된다. 마이크로디스플레이(120)는 반사 기술(reflective technology)(이를 위해 외광(external light)이 반사되고 광학적으로 활성인 소재에 의해 변조됨)을 사용하여 구현될 수도 있다. 기술에 따라, 조명은(illumination)은 백색 소스(white source)에 의해서든 또는 RGB 소스에 의해서든 앞쪽에 비추어질 수 있다. 디지털 광 처리(Digital Light Processing: DLP), 실리콘 상의 액정(Liquid Crystal On Silicon: LCOS) 및 퀄컴 사(Qualcomm, Inc.)의 미라솔(Mirasol®) 디스플레이 기술은 모두 대부분의 에너지가 변조된 구조로부터 반사되므로 효율적이고 본 시스템에서 사용될 수 있는 반사 기술의 예이다. 추가적으로, 마이크로디스플레이(120)는 디스플레이에 의해 빛이 생성되는 방사 기술(emissive technology)을 사용하여 구현될 수 있다. 예를 들어, 마이크로비전 사(Microvision, Inc.)의 피코피(PicoP™) 디스플레이 엔진은 마이크로 미러 스티어링(micro mirror steering)을 이용해 송신 요소로서 작용하는 초소형 스크린(tiny screen) 상으로 레이저 신호를 방사하거나 직접 눈으로 발사한다(beamed)(가령, 레이저).

도광 광학 요소(115)는 마이크로디스플레이(120)로부터 머리 장착형 디스플레이 디바이스(2)를 착용한 사용자의 눈으로 빛을 송신한다. 도광 광학 요소(115)는 또한 화살표(142)에 의해 묘사된 바와 같이 머리 장착형 디스플레이 디바이스(2)의 앞쪽으로부터의 빛이 도광 광학 요소(115)를 통해 눈(140)으로 송신되게 하여, 이로써 마이크로디스플레이(120)로부터 가상 이미지를 수신하는 것 외에도 사용자로 하여금 머리 장착형 디스플레이 디바이스(2) 앞쪽의 공간의 실제의 직접적인 뷰를 가지도록 한다. 그러므로, 도광 광학 요소(115)의 벽면은 시스루이다. 도광 광학 요소(115)는 제1 반사 표면(reflecting surface)(124)(가령, 거울 또는 다른 표면)을 포함한다. 마이크로디스플레이(120)로부터의 빛은 렌즈(122)를 통과하고 반사 표면(124) 상에 입사하게(incident) 된다. 반사 표면(124)은 빛이 내부 반사(internal reflection)에 의해 도광 광학 요소(115)를 포함하는 평면 기판 내에 가두어지도록(trapped) 마이크로디스플레이(120)로부터의 입사광을 반사한다. 기판의 표면으로부터의 몇 개의 반사 후, 가두어진 광파는 선택적으로 반사하는 표면의 어레이(array)(126)에 도달한다. 도면의 과밀(overcrowding)을 방지하기 위해 5개의 표면 중 오직 하나만 126으로 라벨표시됨에 유의하시오. 반사 표면(126)은 기판으로부터 해당 반사 표면 상에 입사하는 광파를 사용자의 눈(140)으로 커플링한다.

상이한 광선들이 나아가서 상이한 각도들로 기판의 내부에서 튕겨 나올 것이므로, 상이한 광선들은 다양한 반사 표면(126)과 상이한 각도들로 부딪칠 것이다. 따라서, 상이한 광선들은 반사 표면 중 상이한 것들에 의해 기판으로부터 반사될 것이다. 어느 광선이 어느 표면(126)에 의해 기판으로부터 반사될 것인지의 선택은 표면(126)의 적절한 각도를 선택하는 것에 의해 기도된다(engineered). 하나의 실시예에서, 각각의 눈은 그것 자신의 도광 광학 요소(115)를 가질 것이다. 머리 장착형 디스플레이 디바이스(2)가 두 개의 도광 광학 요소를 가지는 경우, 각각의 눈은 두 눈 모두에 동일한 이미지를 또는 두 눈에 상이한 이미지들을 디스플레이할 수 있는 그것 자신의 마이크로디스플레이(120)를 가질 수 있다. 다른 실시예에서, 두 눈 모두에 빛을 반사하는 하나의 도광 광학 요소가 있을 수 있다.

도광 광학 요소(115)와 정렬된 불투명 필터(114)는 균일하게든 또는 픽셀별로든 자연광이 도광 광학 요소(115)를 통과하는 것을 선택적으로 차단한다. 그러나, 일반적으로, 불투명 필터(114)의 일 실시예는 시스루 LCD 패널, 전기변색성 필름(electrochromic film), 또는 불투명 필터로서의 역할을 하는 것이 가능한 유사한 디바이스일 수 있다. 불투명 필터(114)는 각 픽셀의 광 투과율(light transmissivity)이 최소 투과율과 최대 투과율 사이에서 개별적으로 제어가능한 픽셀의 조밀한 그리드(dense grid)를 포함할 수 있다. 0 내지 100%의 투과율 범위가 이상적이지만, LCD의 해상도(resolution)에 따라, 픽셀당 약 50% 내지 90%와 같이, 더욱 한정된 범위가 또한 용인될 수 있다.

실제 세계 객체를 위한 프록시(proxy)들과의 z 버퍼링(z-buffering) 후, 렌더링 파이프라인(rendering pipeline)으로부터 알파(alpha) 값의 마스크(mask)가 사용될 수 있다. 시스템이 증강 현실 디스플레이(augmented reality)를 위해 장면을 렌더링하는 경우, 그것은 아래에서 설명되는 바와 같이 어느 실제 세계 객체가 어느 가상 객체 앞에 있는지 주목한다. 만약 가상 객체가 실제 세계 객체 앞에 있는 경우, 불투명은 가상 객체의 커버리지 영역(coverage area)에 대해 온(on)일 수 있다. 만약 가상 객체가 (가상적으로) 실제 세계 객체 뒤에 있는 경우, 불투명은 물론 해당 픽셀에 대한 어떠한 컬러(color)도 오프(off)일 수 있어서, 사용자는 실제 빛의 그 대응하는 영역(크기가 픽셀이거나 더 큼)에 대해 실제 세계 객체를 볼 것이다. 커버리지는 픽셀 단위(pixel-by-pixel basis)로 주어질 것이며, 시스템은 가상 객체의 일부가 실제 세계 객체의 앞에 있는 경우, 가상 객체의 일부가 실제 세계 객체의 뒤에 있는 경우 및 가상 객체의 일부가 실제 세계 객체와 일치하는 경우를 다룰 수 있다. 적은 비용, 전력 및 중량으로 0%에서 100% 불투명까지 되는 것이 가능한 디스플레이가 이 사용을 위해 가장 바람직하다. 더욱이, 불투명 필터는 넓은 FOV를 제공하도록, 이를테면 컬러 LCD로써 또는 유기 LED와 같은 다른 디스플레이로써, 컬러로 렌더링될 수 있다.

머리 장착형 디스플레이 디바이스(2)는 또한 사용자의 눈의 포지션을 추적하는 시스템을 포함한다. 아래에서 설명될 바와 같이, 시스템이 사용자의 FOV를 판정할 수 있도록 시스템은 사용자의 포지션 및 배향을 추적할 것이다. 그러나, 인간은 자기 앞에 있는 모든 것을 감지하지는 않을 것이다. 대신에, 사용자의 눈은 환경의 서브세트에 지향될(directed) 것이다. 따라서, 하나의 실시예에서, 시스템은 사용자의 FOV의 측정을 정제하기(refine) 위해서 사용자의 눈의 포지션을 추적하는 기술을 포함할 것이다. 예를 들어, 머리 장착형 디스플레이 디바이스(2)는 눈 추적 어셈블리(eye tracking assembly)(134)를 포함하는데(도 3), 이는 눈 추적 조명 디바이스(eye tracking illumination device)(134A) 및 눈 추적 카메라(eye tracking camera)(134B)를 가진다(도 4). 하나의 실시예에서, 눈 추적 조명 디바이스(134A)는 하나 이상의 적외선(InfraRed: IR) 방사기(emitter)를 포함하는데, 이는 눈을 향해 IR 빛을 방사한다. 눈 추적 카메라(134B)는 반사된 IR 빛을 감지하는 하나 이상의 카메라를 포함한다. 동공(pupil)의 포지션은 각막(cornea의 반사를 검출하는 알려진 촬상(imaging) 기법에 의해 식별될 수 있다. 그러한 기법은 추적 카메라에 대한 눈의 중심의 포지션을 알아낼(locate) 수 있다. 일반적으로, 눈 추적은 눈의 이미지를 획득하는 것 및 안와(eye socket) 내에서의 동공의 위치(location)를 판정하기 위해 컴퓨터 비전(computer vision) 기법을 사용하는 것을 수반한다. 하나의 실시예에서, 눈은 통상적으로 일제히 움직이므로 하나의 눈의 위치를 추적하는 것으로 충분한다. 그러나, 각각의 눈을 별개로 추적하는 것이 가능하다.

하나의 실시예에서, 머리 장착형 디스플레이 디바이스(2)의 렌즈의 각 모서리에 하나의 IR LED 및 IR 광 검출기(photo detector)가 있도록 시스템은 직사각형 배열로 된 4개의 IR LED 및 4개의 IR 광 검출기를 사용할 것이다. LED로부터의 빛은 눈에 반사된다. 4개의 IR 광 검출기 각각에서 검출되는 적외선 빛의 양은 동공 방향을 정한다. 즉, 눈에서의 백색 대 흑색의 양은 그 특정한 광 검출기에 대해 눈에 반사된 빛의 양을 정할 것이다. 그러므로, 광 검출기는 눈에서의 백색 또는 흑색의 양의 측정을 가질 것이다. 4개의 샘플로부터, 시스템은 눈의 방향을 판정할 수 있다.

다른 대안은 앞서 논의된 바와 같은 4개의 적외선 LED를 사용하나, 하나의 적외선 CCD가 머리 장착형 디스플레이 디바이스(2)의 렌즈의 측면 상에 있는 것이다. 볼 수 있는 눈의 75%까지를 안경 프레임으로부터 CCD가 촬상할 수 있도록 CCD는 소형 거울 및/또는 렌즈(어안(fish eye))를 사용할 것이다. 그리고는 앞서 논의된 바와 매우 흡사하게 CCD는 이미지를 감지하고 컴퓨터 비전을 사용하여 이미지를 찾아낼 것이다. 그러므로, 도 3은 하나의 IR 송신기가 있는 하나의 어셈블리를 도시하나, 도 3의 구조는 4개의 IR 송신기 및/또는 4개의 IR 센서를 가지도록 조절될 수 있다. 4개의 IR 송신기 및/또는 4개의 IR 센서보다 더 많거나 더 적은 개수가 사용될 수도 있다.

눈의 방향을 추적하기 위한 다른 실시예는 전하 추적(charge tracking)에 기반한다. 이 개념은 망막(retina)은 측정가능한 양전하를 지니고 각막은 음전하를 가진다는 관측에 기반한다. 눈이 이리저리 움직이는 동안 전위(electrical potential)를 검출하고 눈이 무엇을 하고 있는지를 실시간으로 효과적으로 읽어내기 위해 센서가 (이어폰(130) 가까이에) 사용자의 귀에 의해 장착된다. 눈츨 추적하기 위한 다른 실시예가 사용될 수도 있다.

도 3은 오직 머리 장착형 디스플레이 디바이스(2)의 절반을 도시하고 있다. 온전한(full) 머리 장착형 디스플레이 디바이스는 다른 세트의 시스루 렌즈, 다른 불투명 필터, 다른 도광 광학 요소, 다른 마이크로디스플레이(120), 다른 렌즈(122), 방 대향 카메라, 눈 추적 어셈블리, 마이크로 디스플레이, 이어폰 및 온도 센서를 포함할 것이다.

도 4는 머리 장착형 디스플레이 디바이스(2)의 다양한 컴포넌트를 묘사하는 블록 다이어그램이다. 도 5는 처리 유닛(4)의 다양한 컴포넌트를 기술하는 블록 다이어그램이다. 머리 장착형 디스플레이 디바이스(2)(이의 컴포넌트가 도 4에 묘사됨)은 하나 이상의 가상 이미지를 실제 세계에 대한 사용자의 뷰와 끊김 없이(seamlessly) 융합함으로써 사용자에게 혼합 현실 경험을 제공하기 위해 사용된다. 추가적으로, 도 4의 머리 장착형 디스플레이 디바이스 컴포넌트는 다양한 상황을 추적하는 많은 센서를 포함할 수 있다. 머리 장착형 디스플레이 디바이스(2)는 처리 유닛(4)으로부터 가상 이미지에 대한 명령어를 수신할 것이고 센서 정보를 도로 처리 유닛(4)에 제공할 것이다. 처리 유닛(4)(이의 컴포넌트는 도 4에 묘사됨)은 머리 장착형 디스플레이 디바이스(2)로부터 감지 정보를 수신할 것이고 정보 및 데이터를 허브 컴퓨팅 시스템(12)과 교환할 것이다(도 1). 정보 및 데이터의 그런 교환에 기반하여, 처리 유닛(4)은 어디에서 그리고 언제 가상 이미지를 사용자에게 제공하고 이에 따라 도 4의 머리 장착형 디스플레이 디바이스에 명령어를 보낼지를 판정할 것이다.

도 4의 컴포넌트 중 몇몇(가령, 방 대향 카메라(112), 눈 추적 카메라(134B), 마이크로디스플레이(120), 불투명 필터(114), 눈 추적 조명(134A), 이어폰(130) 및 온도 센서(138))은 그런 디바이스들 각각이 두 개(머리 장착형 디스플레이 디바이스(2)의 좌측을 위한 한 개 및 우측을 위한 한 개) 있음을 나타내기 위해 음영으로 도시된다. 도 4는 전력 관리 회로(202)와 통신하는 제어 회로(200)를 도시한다. 제어 회로(200)는 프로세서(processor)(210), 메모리(memory)(214)(가령, D-RAM)와 통신하는 메모리 제어기(memory controller)(212), 카메라 인터페이스(camera interface)(216), 카메라 버퍼(camera buffer)(218), 디스플레이 구동기(display driver)(220), 디스플레이 포맷화기(display formatter)(222), 타이밍 생성기(timing generator)(226), 디스플레이 아웃 인터페이스(display out interface)(228) 및 디스플레이 인 인터페이스(display in interface)(230)를 포함한다.

하나의 실시예에서, 제어 회로(200)의 컴포넌트 전부는 전용선 또는 하나 이상의 버스(bus)를 통하여 서로와 통신하고 있다. 다른 실시예에서, 제어 회로(200)의 컴포넌트 각각은 프로세서(210)와 통신하고 있다. 카메라 인터페이스(216)는 두 개의 방 대향 카메라(112)에 인터페이스를 제공하고 방 대향 카메라(112)로부터 수신된 이미지를 카메라 버퍼(218) 내에 저장한다. 디스플레이 구동기(220)는 마이크로디스플레이(120)를 구동할(drive) 것이다. 디스플레이 포맷화기(222)는 마이크로디스플레이(120) 상에 디스플레이되고 있는 가상 이미지에 대한 정보를 불투명 필터(114)를 제어하는 불투명 제어 회로(224)에 제공한다. 타이밍 생성기(226)는 시스템에 타이밍 데이터를 제공하기 위해 사용된다. 디스플레이 아웃 인터페이스(228)는 방 대향 카메라(112)로부터 이미지를 처리 유닛(4)에 제공하기 위한 버퍼이다. 디스플레이 인 인터페이스(230)는 마이크로디스플레이(120) 상에 디스플레이될 가상 이미지와 같은 이미지를 수신하기 위한 버퍼이다. 디스플레이 아웃 인터페이스(228) 및 디스플레이 인 인터페이스(230)는 처리 유닛(4)으로의 인터페이스인 대역 인터페이스(band interface)(232)와 통신한다.

전력 관리 회로(202)는 전압 조정기(voltage regulator)(234), 눈 추적 조명 구동기(eye tracking illumination driver)(236), 오디오 DAC 및 증폭기(audio DAC and amplifier)(238), 마이크 전치증폭기 및 오디오 ADC(microphone preamplifier and audio ADC)(240), 온도 센서 인터페이스(temperature sensor interface)(242) 및 클록 생성기(clock generator)(244)를 포함한다. 전압 조정기(234)는 대역 인터페이스(232)를 통하여 처리 유닛(4)으로부터 전력을 수신하고 그런 전력을 머리 장착형 디스플레이 디바이스(2)의 다른 컴포넌트에 제공한다. 눈 추적 조명 구동기(236)는 앞서 기술된 바와 같이 눈 추적 조명(134A)에 IR 광원을 제공한다. 오디오 DAC 및 증폭기(238)는 오디오 정보를 이어폰(130)에 제공한다. 마이크 전치증폭기 및 오디오 ADC(240)는 마이크(110)를 위한 인터페이스를 제공한다. 온도 센서 인터페이스(242)는 온도 센서(138)를 위한 인터페이스이다. 전력 관리 회로(202)는 또한 전력을 제공하고 3축 자력계(132A), 3축 자이로(132B) 및 3축 가속도계(132C)로부터 데이터를 도로 수신한다.

도 5는 처리 유닛(4)의 다양한 컴포넌트를 기술하는 블록 다이어그램이다. 도 5는 전력 관리 회로(306)와 통신하는 제어 회로(304)를 도시한다. 제어 회로(304)는 중앙 처리 유닛(Central Processing Unit: CPU)(320), 그래픽 처리 유닛(Graphics Processing Unit: GPU)(322), 캐시(cache)(324), RAM(326), 메모리(330)(가령, D-RAM)와 통신하는 메모리 제어기(328), 플래시 메모리(flash memory)(334)(또는 다른 유형의 비휘발성 스토리지(non-volatile storage))와 통신하는 플래시 메모리 제어기(332), 대역 인터페이스(302) 및 대역 인터페이스(232)를 통하여 머리 장착형 디스플레이 디바이스(2)와 통신하는 디스플레이 아웃 버퍼(display out buffer)(336), 대역 인터페이스(302) 및 대역 인터페이스(232)를 통하여 머리 장착형 디스플레이 디바이스(2)와 통신하는 디스플레이 인 버퍼(display in buffer)(338), 마이크에 연결하기 위한 외부 마이크 커넥터(external microphone connector)(342)와 통신하는 마이크 인터페이스(microphone interface)(340), 무선 통신 디바이스(346)에 연결하기 위한 PCI 익스프레스 인터페이스(PCI express interface), 그리고 USB 포트(들)(348)를 포함한다. 하나의 실시예에서, 무선 통신 디바이스(346)는 와이파이 가능 통신 디바이스(Wi-Fi enabled communication device), 블루투스 통신 디바이스, 적외선 통신 디바이스 등등을 포함할 수 있다. 데이터 또는 소프트웨어를 처리 유닛(4) 상에 로드하는(load) 것은 물론, 처리 유닛(4)을 충전하기(charge) 위해서 처리 유닛(4)을 허브 컴퓨팅 시스템(12)에 도킹하는(dock) 데에 USB 포트가 사용될 수 있다. 하나의 실시예에서, CPU(320) 및 GPU(322)는 어디서, 언제 그리고 어떻게 가상 3차원 객체를 사용자의 뷰 내에 삽입할지를 판정하는 주된 노역자(workhorse)이다. 추가적인 세부사항이 아래에서 제공된다.

전력 관리 회로(306)는 클록 생성기(360), 아날로그 대 디지털 변환기(analog to digital converter)(362), 배터리 충전기(battery charger)(364), 전압 조정기(366), 머리 장착형 디스플레이 전원(head mounted display power source)(376), 그리고 (가능하게는 처리 유닛(4)의 손목 밴드 상에 위치된) 온도 센서(374)와 통신하는 온도 센서 인터페이스(372)를 포함한다. 아날로그 대 디지털 변환기(362)는 배터리 전압, 온도 센서를 모니터하고 배터리 충전 기능을 제어하는 데에 사용된다. 전압 조정기(366)는 시스템에 전력을 공급하기 위해 배터리(368)와 통신하고 있다. 배터리 충전기(364)는 충전 잭(charging jack)(370)으로부터 전력을 수신할 때에 (전압 조정기(366)를 통하여) 배터리(368)를 충전하는 데에 사용된다. HMD 전원(376)은 머리 장착형 디스플레이 디바이스(2)에 전력을 제공한다.

도 6은 포착 디바이스(20)와 함께 허브 컴퓨팅 시스템(12)의 일 실시예를 보여준다. 예시적 실시예에 따르면, 포착 디바이스(20)는 예컨대 비행시간(time-of-flight), 구조화된 빛(structured light), 스테레오 이미지(stereo image), 또는 유사한 것을 포함하는 임의의 적합한 기법을 통하여 깊이 값을 포함할 수 있는 깊이 이미지(depth image)를 포함하는 깊이 정보로써 비디오를 포착하도록 구성될 수 있다. 하나의 실시예에 따르면, 포착 디바이스(20)는 깊이 정보를 "Z 계층", 또는 깊이 카메라로부터 그것의 시선을 따라 연장되는 Z 축에 수직일 수 있는 계층 내에 깊이 정보를 조직화할(organize) 수 있다.

도 6에 도시된 바와 같이, 포착 디바이스(20)는 카메라 컴포넌트(423)를 포함할 수 있다. 예시적 실시예에 따르면, 카메라 컴포넌트(423)는 장면의 깊이 이미지를 포착할 수 있는 깊이 카메라일 수 있거나 이를 포함할 수 있다. 깊이 이미지는 포착된 장면의 2차원(2-D) 픽셀 영역을 포함할 수 있는데, 2-D 픽셀 내의 각 픽셀은 카메라로부터의 포착된 장면 내 객체의 거리와 같은 깊이 값을 예컨대 센티미터, 밀리미터, 또는 유사한 것으로 나타낼 수 있다.

카메라 컴포넌트(423)는 적외선(Infra-Red: IR) 광 컴포넌트(425), 3차원(3-D) 카메라(426), 그리고 장면의 깊이 이미지를 포착하기 위해 사용될 수 있는 RGB (시각적 이미지) 카메라(428)를 포함할 수 있다. 예를 들어, 비행시간 분석에서, 포착 디바이스(20)의 IR 광 컴포넌트는 장면 상에 적외선 빛을 방사할 수 있고 이후에, 예컨대 3-D 카메라(426) 및/또는 RGB 카메라(428)를 사용하여, 장면 내의 하나 이상의 타겟 및 객체의 표면으로부터 후방산란된(backscattered) 빛을 검출하기 위해 센서(몇몇 실시예에서는 도시되지 않음 센서를 포함함)를 사용할 수 있다. 몇몇 실시예에서, 포착 디바이스(20)로부터 장면 내의 타겟 또는 객체 상의 특정한 위치까지의 물리적 거리를 판정하기 위해 이출 광 펄스(outgoing light pulse) 및 대응하는 유입 광 펄스(incoming light pulse) 간의 시간이 측정되고 사용될 수 있도록 펄스화된 적외선 빛(pulsed infrared light)이 사용될 수 있다. 추가적으로, 다른 예시적 실시예에서, 위상 변이(phase shift)를 판정하기 위해 이출 광파의 위상은 유입 광파의 위상과 비교될 수 있다. 그리고 포착 디바이스로부터 타겟 또는 객체 상의 특정한 위치까지의 물리적 거리를 판정하기 위해 위상 변이가 사용될 수 있다.

다른 예시적 실시예에 따르면, 예컨대 셔터식 광 펄스 촬상(shuttered light pulse imaging)을 포함하는 다양한 기법을 통하여 시간에 걸쳐 빛의 반사된 빔(beam)의 강도(intensity)를 분석함으로써 포착 디바이스(20)로부터 타겟 또는 객체 상의 특정한 위치까지의 물리적 거리를 간접적으로 판정하기 위해 비행시간 분석이 사용될 수 있다.

다른 예시적 실시예에서, 포착 디바이스(20)는 깊이 정보를 포착하기 위해 구조화된 빛을 사용할 수 있다. 그러한 분석에서, 패턴화된 빛(patterned light)(즉, 격자 패턴(grid patter), 줄무늬 패턴(stripe pattern), 또는 다른 패턴과 같은 알려진 패턴으로서 디스플레이되는 빛)이 예컨대 IR 광 컴포넌트(425)를 통하여 장면 상으로 투영될 수 있다. 장면 내의 하나 이상의 타겟 또는 객체의 표면에 부딪칠 때, 패턴은 대응하여 형태가 일그러지게(deformed) 될 수 있다. 패턴의 그러한 왜형화(deformation)는 예컨대 3-D 카메라(426) 및/또는 RGB 카메라(428)(및/또는 다른 센서)에 의해 포착될 수 있으며 이후에는 포착 디바이스로부터 타겟 또는 객체 상의 특정한 위치까지의 물리적 거리를 판정하기 위해 분석될 수 있다. 몇몇 구현에서, 카메라(426 및 428)로부터의 거리를 판정하기 위해 삼각측량(triangulation)이 사용될 수 있도록 IR 광 컴포넌트(425)는 카메라(426 및 428)로부터 옮겨놓아진다(displaced). 몇몇 구현에서, 포착 디바이스(20)는 IR 빛을 감지하는 전용 IR 센서, 또는 IR 필터를 구비한 센서를 포함할 것이다.

다른 실시예에 따르면, 하나 이상의 포착 디바이스(20)는 깊이 정보(depth information)를 생성하기 위해 분해될(resolved) 수 있는 시각적 스테레오 데이터(visual stereo data)를 획득하기 위해 상이한 각도들로부터 장면을 볼 수 있는 둘 이상의 물리적으로 분리된 카메라를 포함할 수 있다. 깊이 이미지(depth image)를 생성하기 위해 다른 유형의 깊이 이미지 센서가 사용될 수도 있다.

포착 디바이스(20)는 마이크(430)를 더 포함할 수 있는데, 이는 소리를 수신하여 전기적 신호로 변환할 수 있는 트랜스듀서(transducer) 또는 센서를 포함한다. 마이크(430)는 허브 컴퓨팅 시스템(120)에 제공될 수도 있는 오디오 신호를 수신하는 데에 사용될 수 있다.

예시적 실시예에서, 포착 디바이스(20)는 이미지 카메라 컴포넌트(423)와 통신할 수 있는 프로세서(432)를 더 포함할 수 있다. 프로세서(432)는 예컨대 깊이 이미지를 수신하는 것, 적절한 데이터 포맷(가령, 프레임)을 생성하는 것 및 데이터를 허브 컴퓨팅 시스템(12)에 송신하는 것을 위한 명령어를 포함하는 명령어를 실행할 수 있는 표준화된 프로세서, 특수화된 프로세서, 마이크로프로세서, 또는 유사한 것을 포함할 수 있다.

포착 디바이스(20)는 프로세서(432)에 의해 실행되는 명령어, 3-D 카메라 및/또는 RGB 카메라에 의해 포착된 이미지 또는 이미지의 프레임, 또는 임의의 다른 적합한 정보, 이미지, 또는 유사한 것을 저장할 수 있는 메모리(434)를 더 포함할 수 있다. 예시적 실시예에 따르면, 메모리(434)는 랜덤 액세스 메모리(Random Access Memory: RAM), 판독 전용 메모리(Read Only Memory: ROM), 캐시, 플래시 메모리, 하드 디스크(hard disk), 또는 임의의 다른 적합한 저장 컴포넌트를 포함할 수 있다. 도 6에 도시된 바와 같이, 하나의 실시예에서, 메모리(434)는 이미지 카메라 컴포넌트(423) 및 프로세서(432)와 통신하는 별개의 컴포넌트일 수 있다. 다른 실시예에 따르면, 메모리(434)는 프로세서(432) 및/또는 이미지 카메라 컴포넌트(423) 내에 통합될 수 있다.

포착 디바이스(20)는 통신 링크(436)를 통하여 허브 컴퓨팅 시스템(12)과 통신하고 있다. 통신 링크(436)는 예컨대 USB 연결, 파이어와이어 연결(Firewire connection), 이더넷 케이블 연결(Ethernet cable connection), 또는 유사한 것을 포함하는 유선 연결 및/또는 무선 802.11b, g, a 또는 n 연결과 같은 무선 연결일 수 있다. 하나의 실시예에 따르면, 허브 컴퓨팅 시스템(12)은 통신 링크(436)를 통하여 예컨대 장면을 언제 포착할지를 판정하기 위해 사용될 수 있는 클록을 포착 디바이스(20)에 제공할 수 있다. 추가적으로, 포착 디바이스(20)는 예컨대 3-D 카메라(426) 및/또는 RGB 카메라(428)에 의해 포착된 깊이 정보 및 시각적 (가령, RGB) 이미지를 통신 링크(436)를 통하여 허브 컴퓨팅 시스템(12)에 제공한다. 하나의 실시예에서, 깊이 이미지 및 시각적 이미지는 초당(per second) 30 프레임으로 송신되는데, 다만 다른 프레임율이 사용될 수 있다. 그리고 허브 컴퓨팅 시스템(12)은 예컨대 게임 또는 워드 프로세서(word processor)와 같은 애플리케이션을 제어하고/하거나 아바타 또는 스크린상의 캐릭터를 동화상화하기 위해 모델, 깊이 정보 및 포착된 이미지를 생성하고 사용할 수 있다.

허브 컴퓨팅 시스템(12)은 골격 추적 모듈(skeletal tracking module)(450)을 포함할 수 있다. 모듈(450)은 각 사용자가 장면 내에서 돌아다닐 때 포착 디바이스(20)의 FOV 내에서의 사용자(18)(또는 다른 이)의 표현적 모델(representative model)을 조성하기(develop) 위해 포착 디바이스(20)로부터, 그리고 가능하게는 하나 이상의 머리 장착형 디스플레이 디바이스(2)로부터 각 프레임 내에서 획득된 깊이 이미지를 사용한다. 이 표현적 모델은 아래에서 기술되는 골격 모델(skeletal model)일 수 있다. 허브 컴퓨팅 시스템(12)은 장면 맵핑 모듈(scene mapping module)(452)을 더 포함할 수 있다. 장면 맵핑 모듈(452)은 사용자(18)가 존재하는 장면의 맵 또는 모델을 조성하기 위해 포착 디바이스(20)로부터, 그리고 가능하게는 하나 이상의 머리 장착형 디스플레이 디바이스(2) 상의 카메라로부터 획득된 깊이 및 가능하게는 RGB 이미지 데이터를 사용한다. 장면 맵은 골격 추적 모듈(450)로부터 획득된 사용자의 포지션을 더 포함할 수 있다. 허브 컴퓨팅 시스템은 장면 내의 하나 이상의 사용자를 위한 골격 모델 데이터를 수신하는 것 및 허브 컴퓨팅 시스템(12) 상에서 작동하는 애플리케이션에 영향을 미치는 사전정의된 제스처 또는 애플리케이션 제어(application-control) 움직임을 사용자가 수행하고 있는지를 판정하는 것을 위한 제스처 인식 엔진(gesture recognition engine)(454)을 더 포함할 수 있다.

포착 디바이스(20)는 RGB 이미지(또는 다른 포맷 또는 컬러 공간에서의 시각적 이미지) 및 깊이 이미지를 허브 컴퓨팅 시스템(12)에 제공한다. 깊이 이미지는 복수의 관측된 픽셀일 수 있는데 각각의 관측된 픽셀을 관측된 깊이 값을 가진다. 예를 들어, 깊이 이미지는 포착된 장면의 2차원(2-D) 픽셀 영역을 포함할 수 있는데 2-D 픽셀 영역 내의 각 픽셀은 포착 디바이스로부터의 포착된 장면 내 객체의 거리와 같은 깊이 값을 가질 수 있다. 허브 컴퓨팅 시스템(12)은 사용자의 골격 모델을 조성하고 사용자의 또는 다른 객체의 움직임을 추적하기 위해 RGB 이미지 및 깊이 이미지를 사용할 것이다. 깊이 이미지로써 사람의 골격을 모델링하고 추적하기 위해 사용될 수 있는 많은 방법이 있다.

그러한 방법 한 가지는 깊이 이미지를 얻는 것, 데이터를 다운 샘플링하는 것(down sampling), 고분산 잡음 데이터(high variance noisy data)를 제거하고/하거나 평활하게 하는 것(smoothing), 배경을 식별하고 제거하는 것, 그리고 전경(foreground) 픽셀 각각을 신체의 상이한 부분들에 할당하는 것을 포함한다. 그런 단계들에 기반하여, 시스템은 모델을 데이터에 맞추고 골격을 생성할 것이다. 골격은 한 세트의 관절 및 관절들 간의 연결을 포함할 것이다. 사용자 모델링 및 추적을 위한 다른 방법이 사용될 수도 있다.

머리 장착형 디스플레이 디바이스(2) 및 처리 유닛(4)과 더불어, 전술된 허브 컴퓨팅 시스템(12)은 가상 3차원 객체가 실제 세계의 뷰를 증강하고/하거나 대체하도록 가상 3차원 객체를 하나 이상의 사용자의 FOV 내에 삽입할 수 있다. 하나의 실시예에서, 머리 장착형 디스플레이 디바이스(2), 처리 유닛(4) 및 허브 컴퓨팅 시스템(12)은 가상 3차원 객체를 어디서, 언제 그리고 어떻게 삽입할지 판정하기 위해 데이터를 획득하는 데에 사용되는 센서의 서브세트를 그 디바이스들 각각이 포함하므로 함께 작업한다. 하나의 실시예에서, 가상 3차원 객체를 어디서, 언제 그리고 어떻게 삽입할지라는 계산은 서로와 협력하여 작업하는 허브 컴퓨팅 시스템(12) 및 처리 유닛(4)에 의해 수행된다. 그러나, 추가의 예에서, 모든 계산은 단독으로 작업하는 허브 컴퓨팅 시스템(12) 또는 단독으로 작업하는 처리 유닛(들)(4)에 의해 수행될 수 있다. 다른 실시예에서, 그 계산 중 적어도 일부는 머리 장착형 디스플레이 디바이스(2)에 의해 수행될 수 있다.

하나의 예시적 실시예에서, 허브 컴퓨팅 시스템(12) 및 처리 유닛(4)은 하나 이상의 사용자가 있는 환경의 장면 맵 또는 모델을 생성하고 해당 환경 내의 다양한 움직이는 객체를 추적하기 위해 함께 작업한다. 추가로, 허브 컴퓨팅 시스템(12) 및/또는 처리 유닛(4)은 머리 장착형 디스플레이 디바이스(2)의 포지션 및 배향을 추적함으로써 사용자(18)가 착용한 머리 장착형 디스플레이 디바이스(2)의 FOV를 추적한다. 머리 장착형 디스플레이 디바이스(2)에 의해 획득된 센서 정보는 처리 유닛(4)에 송신된다. 하나의 예에서, 그런 정보는 장면 모델을 갱신하고 그것을 도로 처리 유닛에 송신하는 허브 컴퓨팅 시스템(12)에 송신된다. 그리고 처리 유닛(4)은 사용자의 FOV를 정제하고 어디서, 언제 그리고 어떻게 가상 3차원 객체를 삽입할지에 관해 머리 장착형 디스플레이 디바이스(2)에 명령어를 제공하기 위해 그것이 머리 장착형 디스플레이 디바이스(2)로부터 수신하는 추가적인 센서 정보를 사용한다. 포착 디바이스(20) 및 머리 장착형 디스플레이 디바이스(들)(2) 내의 카메라로부터의 센서 정보에 기반하여, 장면 모델 및 추적 정보는 아래에서 설명되는 바와 같이 폐루프 피드백 시스템(closed loop feedback system) 내에서 허브 컴퓨팅 시스템(12) 및 처리 유닛(4) 간에 주기적으로 갱신될 수 있다.

도 7은 허브 컴퓨팅 시스템(12)을 구현하기 위해 사용될 수 있는 컴퓨팅 시스템의 예시적 실시예를 보여준다. 도 7에 도시된 바와 같이, 멀티미디어 콘솔(multimedia console)(500)은 레벨 1 캐시(level 1 cache)(502), 레벨 2 캐시(level 2 cache)(504) 및 플래시 ROM(Read Only Memory)(506)을 가지는 중앙 처리 유닛(Central Processing Unit: CPU)(501)을 가진다. 레벨 1 캐시(502) 및 레벨 2 캐시(504)는 데이터를 일시적으로 저장하고 따라서 메모리 액세스 사이클의 횟수를 감소시켜, 이로써 처리 속도 및 쓰루풋(throughput)을 개선한다. 한 개보다 많은 코어 및 따라서 추가적인 레벨 1 및 레벨 2 캐시(502 및 504)를 가지는 CPU(501)가 제공될 수 있다. 플래시 ROM(506)은 멀티미디어 콘솔(500)에 전력이 인가되는(powered on) 경우 부트 프로세스(boot process)의 초기 단계 중에 로드되는 실행가능 코드(executable code)를 저장할 수 있다.

그래픽 처리 유닛(Graphics Processing Unit: GPU)(508) 및 비디오 인코더/비디오 코덱(codec)(코더/디코더)(514)은 고속 및 고해상도 그래픽 처리를 위해 비디오 처리 파이프라인을 형성한다. 그래픽 처리 유닛(508)으로부터 비디오 인코더/비디오 코덱(514)으로 버스를 통하여 데이터가 전달된다. 비디오 처리 파이프라인은 텔레비전 또는 다른 디스플레이로의 송신을 위해 A/V(오디오/비디오(audio/video)) 포트(540)로 데이터를 출력한다. 메모리 제어기(510)는 RAM(Random Access Memory)와 같은 것이나 이에 한정되지 않는 다양한 유형의 메모리(512)로의 프로세서 액세스를 가능하게 하기 위해 GPU(508)에 연결된다.

멀티미디어 콘솔(500)은 바람직하게는 모듈(518) 상에 구현되는 I/O 제어기(520), 시스템 관리 제어기(system management controller)(522), 오디오 처리 유닛(audio processing unit)(523), 네트워크 인터페이스(network interface)(524), 제1 USB 호스트 제어기(526), 제2 USB 제어기(528) 및 전면 패널 I/O 서브어셈블리(front panel I/O subassembly)(530)를 포함한다. USB 제어기(526 및 528)는 주변기기 제어기(542(1) 내지 542(2)), 무선 어댑터(wireless adapter)(548) 및 외부 메모리 디바이스(546)(가령, 플래시 메모리, 외부 CD/DVD ROM 드라이브, 탈착가능(removable) 매체 등등)를 위한 호스트로서의 역할을 한다. 네트워크 인터페이스(524) 및/또는 무선 어댑터(548)는 네트워크로의 액세스를 제공하며 이더넷 카드, 모뎀, 블루투스 모듈, 케이블 모뎀 및 유사한 것을 포함하는 매우 다양한 여러 가지 유선 또는 무선 어댑터 컴포넌트 중 임의의 것일 수 있다.

부트 프로세스 중에 로드되는 애플리케이션 데이터를 저장하기 위해 시스템 메모리(543)가 제공된다. 매체 드라이브(media drive)(544)가 제공되며 DVD/CD 드라이브, 블루레이(Blu-Ray) 드라이브, 하드 디스크 드라이브, 또는 다른 탈착가능 매체 드라이브 등등을 포함할 수 있다. 매체 드라이브(544)는 멀티미디어 콘솔(500)의 내부이거나 외부에 있을 수 있다. 애플리케이션 데이터는 멀티미디어 콘솔(500)에 의한 실행, 재생(playback) 등등을 위해 매체 드라이브(544)를 통하여 액세스될 수 있다. 매체 드라이브(544)는 직렬 ATA 버스(Serial ATA bus) 또는 다른 고속 연결(가령, IEEE 1394)과 같은 버스를 통하여 I/O 제어기(520)에 연결된다.

시스템 관리 제어기(522)는 멀티미디어 콘솔(500)의 이용가능성을 보장하는 것에 관련된 다양한 서비스 기능을 제공한다. 오디오 처리 유닛(523) 및 오디오 코덱(532)은 고충실도(high fidelity) 및 스테레오 처리를 구비한 대응하는 오디오 처리 파이프라인을 형성한다. 오디오 데이터는 통신 링크를 통하여 오디오 처리 유닛(523) 및 오디오 코덱(532) 간에 전달된다. 오디오 처리 파이프라인은 오디오 능력을 가지는 외부 오디오 사용자 또는 디바이스에 의한 재생을 위해 A/V 포트(540)에 데이터를 출력한다.

전면 패널 I/O 서브어셈블리(530)는 멀티미디어 콘솔(500)의 바깥 표면 상에 노출된 임의의 LED(발광 다이오드(Light Emitting Diode)) 또는 다른 지시자(indicator)뿐만 아니라, 전원 버튼(power button)(550) 및 꺼냄 버튼(eject button)(552)의 기능성을 지원한다. 시스템 전력 공급 모듈(system power supply module)(536)은 멀티미디어 콘솔(500)의 컴포넌트에 전력을 제공한다. 팬(fan)(538)은 멀티미디어 콘솔(500) 내의 회로망을 냉각시킨다.

멀티미디어 콘솔(500) 내의 CPU(501), GPU(508), 메모리 제어기(510) 및 다양한 다른 컴포넌트는 직렬 버스와 병렬 버스, 메모리 버스, 주변 버스(peripheral bus), 그리고 프로세서 또는 로컬 버스(다양한 버스 아키텍처 중 임의의 것을 사용함)를 포함하는 하나 이상의 버스를 통하여 상호연결된다(interconnected). 예로서, 그러한 아키텍처는 주변 컴포넌트 상호연결(Peripheral Component Interconnects: PCI) 버스, PCI 익스프레스(PCI-Express) 버스 등등을 포함할 수 있다.

멀티미디어 콘솔(500)에 전력이 인가되는 경우, 애플리케이션 데이터가 시스템 메모리(543)으로부터 메모리(512) 및/또는 캐시(502, 504) 내에 로드되고 CPU(501) 상에서 실행될 수 있다. 애플리케이션은 멀티미디어 콘솔(500) 상에서 이용가능한 상이한 매체 유형들로 찾아드는(navigating) 경우 일관적인 사용자 경험을 제공하는 그래픽 사용자 인터페이스(graphical user interface)를 제시할 수 있다. 동작 중에, 멀티미디어 콘솔(500)에 추가적인 기능성을 제공하기 위해 매체 드라이브(544) 내에 포함된 애플리케이션 및/또는 다른 미디어가 매체 드라이브(544)로부터 개시되거나(launched) 플레이될(palyed) 수 있다.

멀티미디어 콘솔(500)은 독립형(standalone) 시스템으로서 동작될 수 있다(단지 그 시스템을 텔레비전 또는 다른 디스플레이에 연결하는 것에 의함). 이 독립형 모드에서, 멀티미디어 콘솔(500)은 하나 이상의 사용자로 하여금 시스템과 상호작용하거나 영화를 보거나 음악을 듣게 한다. 그러나, 네트워크 인터페이스(524) 또는 무선 어댑터(548)를 통해 이용가능하게 된 광대역 연결성의 통합으로써, 멀티미디어 콘솔(500)은 또한 더 큰 네트워크 커뮤니티(network community) 내의 참가자로서 동작될 수 있다. 추가적으로, 멀티미디어 콘솔(500)은 무선 어댑터(548)를 통하여 처리 유닛(4)과 통신할 수 있다.

선택적인 입력 디바이스(가령, 제어기(542(1) 및 542(2))는 게이밍 애플리케이션 및 시스템 애플리케이션에 의해 공유된다. 입력 디바이스는 예비된(reserved) 리소스가 아니지만, 시스템 애플리케이션 및 게이밍 애플리케이션 간에 전환될 것이어서 각각은 그 디바이스의 포커스(focus)를 받을 것이다. 애플리케이션 관리기는 바람직하게는 게이밍 애플리케이션이 아는 것을 모르고서 입력 스트림(input stream)의 전환(switching)을 제어하며 구동기가 포커스 전환에 관한 상태 정보를 유지한다. 포착 디바이스(20)는 USB 제어기(526) 또는 다른 인터페이스를 통하여 콘솔(500)을 위한 추가적인 입력 디바이스를 정의할 수 있다. 다른 실시예에서, 허브 컴퓨팅 시스템(12)은 다른 하드웨어 아키텍처를 사용하여 구현될 수 있다. 아무런 하드웨어 아키텍처도 필수로 되지 않는다.

도 1에 도시된 머리 장착형 디스플레이 디바이스(2) 및 처리 유닛(4)(모바일 디스플레이 디바이스로 때때로 집합적으로 지칭됨)은 허브 컴퓨팅 시스템(12)(허브(12)로도 지칭됨)과 통신하는 것이다. 추가의 실시예에서는 허브(12)와 통신하는 하나 또는 둘 이상의 모바일 디스플레이 디바이스가 있을 수 있다. 모바일 디스플레이 디바이스 각각은 앞서 기술된 바와 같이, 무선 통신을 사용하여 허브와 통신할 수 있다. 그러한 실시예에서, 모바일 디스플레이 디바이스에 유용한 정보의 대부분은 허브에서 계산되고 저장되며 모바일 디스플레이 디바이스 각각에 송신될 것임이 고려된다. 예를 들어, 허브는 환경의 모델을 생성하고 허브와 통신하는 모바일 디스플레이 디바이스 전부에 그런 모델을 제공할 것이다. 추가적으로, 허브는 방 안의 움직이는 객체의 그리고 모바일 디스플레이 디바이스의 위치 및 배향을 추적하고, 이후 그런 정보를 모바일 디스플레이 디바이스 각각에 전송할 수 있다.

다른 실시예에서, 시스템은 각 허브가 하나 이상의 모바일 디스플레이 디바이스를 포함하는 다수의 허브(12)를 포함할 수 있다. 허브들은 직접적으로 또는 인터넷(또는 다른 네트워크)를 통하여 서로 통신할 수 있다.

더욱이, 추가의 실시예에서, 허브(12)는 전적으로 생략될 수 있다. 그러한 실시예의 한 가지 이득은 본 시스템의 혼합 현실 경험이 완전히 모바일이 되며, 실내 또는 실외 설정 양자 모두에서 사용될 수 있다는 것이다. 그러한 실시예에서, 후속하는 설명에서 허브(12)에 의해 수행되는 모든 기능은 대안적으로 처리 유닛(4) 중 하나, 협력하여 작업하는 처리 유닛(4) 중 몇몇, 또는 협력하여 처리하는 처리 유닛(4) 전부에 의해 수행될 수 있다. 그러한 실시예에서, 각각의 모바일 디스플레이 디바이스(580)는 본 문서에 기술된 동작을 수행하기 위해 상태 데이터, 장면 맵, 장면 맵에 관한 각 사용자의 뷰, 모든 텍스처(texture) 및 렌더링 정보, 비디오 및 오디오 데이터, 그리고 다른 정보를 생성하고 갱신하는 것을 포함하여, 시스템(10)의 모든 기능을 수행한다. 도 9의 흐름도에 관해서 아래에 기술된 실시예는 허브(12)를 포함한다. 그러나, 그러한 실시예 각각에서, 허브(12)의 모든 기술된 기능을 처리 유닛(4) 중 하나 이상이 대안적으로 수행할 수 있다.

앞서 기술된 컴포넌트를 사용하여, 머리 장착형 디스플레이 디바이스(2)를 통하여 사용자(18)에게 가상 객체가 디스플레이될 수 있다. 몇몇 가상 객체는 장면 내의 정지한 채 있도록 의도된 것일 수 있다. 이들 가상 객체는 본 문서에서 "정적 가상 객체"로 지칭된다. 다른 가상 객체는 장면 내에서 이동하거나 이동가능한(movable) 것으로 의도된 것이다. 이들 가상 객체는 "동적 가상 객체"로 지칭된다.

동적 가상 객체의 일례는 가상 디스플레이 슬레이트(460)인데, 이 중에서 몇몇이 도 8 및 도 9에 번호가 매겨져 있다. 가상 디스플레이 슬레이트(460)는 사용자에게 디스플레이되는 가상 스크린(이 위에서 콘텐트가 사용자에게 제시될 수 있음)이다. 가상 디스플레이 슬레이트(460)가 콘텐트를 보기 위한 가상 스크린으로서 나타나도록, 불투명 필터(114)(앞서 기술됨)는 (사용자의 시점으로부터) 가상 디스플레이 슬레이트(460) 뒤에 있는 실제 세계 객체와 빛을 가리기(mask) 위해 사용된다.

슬레이트(460) 상에 디스플레이되는 콘텐트는 텍스트 및 그래픽과 같은 정적 콘텐트(static content), 또는 비디오와 같은 동적 콘텐트(dynamic content)를 포함하는 매우 다양한 콘텐트일 수 있다. 슬레이트(460)는 또한 컴퓨터 모니터로서 작용할 수 있어서, 콘텐트는 모니터 상에 제시되는 이메일, 웹 페이지, 게임 또는 임의의 다른 콘텐트일 수 있다. 허브(12) 상에서 작동하는 소프트웨어 애플리케이션은 슬레이트(460) 상에 디스플레이될 콘텐트를 판정하는 것뿐만 아니라, 슬레이트(460)를 생성할 수 있다. 실시예에서, 슬레이트(460) 상에 디스플레이되는 콘텐트의 유형뿐만 아니라, 슬레이트(460)의 포지션 및 크기는 제스처 및 유사한 것을 통해 사용자 구성가능한(user configurable) 것일 수 있다.

도 8에 나타내어진 바와 같이, 장면은 도 8에서 화살표에 의해 나타내어진 바와 같이 각각 무작위의 방향으로 대향하는 다수의 가상 객체를 포함할 수 있다. 도 8에 도시된 가상 객체는 가상 디스플레이 슬레이트(460)이나, 가상 객체는 추가의 실시예에서 임의의 다른 동적 또는 정적 가상 객체일 수 있다. 사용자가 장면 내에서 움직이고 있는 경우, 가상 객체는 세계에 고정된 채 있을 수 있다. 즉, 가상 객체는 혼합 현실 환경 내에서 정지된 채 있을 수 있다. 따라서 사용자는 가상 객체의 측면 및 후면 주위를 돌아다니고 그것을 상이한 관점으로부터 볼 수 있다.

그러나, 일단 사용자가 사전결정된 기간 동안 가만히 또는 거의 가만히 있다면, 장면 내의 동적 가상 객체는 사용자(18) 상에서 몸체에 맞물린 것으로 바뀔 수 있다. 즉, 동적 가상 객체는 도 9에서 화살표에 의해 나타내어진 바와 같이 사용자의 몸체를 대향하도록 x, y 및/또는 z 축에 관해서 회전할 수 있다. 이런 방식으로, 사용자는 가상 객체의 전면을 더 잘 볼 수 있으며, 가상 객체가 가상 디스플레이 슬레이트인 경우에 콘텐트를 더 잘 볼 수 있다. 실시예에서, 본 시스템은 사용자를 대향하도록 가상 객체를 회전시키기 전에 1초 내지 5초 동안 사용자가 움직이지 않기(아래에서 설명되는 바와 같이 사용자가 가만히 있거나 거의 가만히 있는 것을 포함함)를 바랄 수 있는데, 다만 그 사전결정된 기간은 추가의 실시예들에서 1초보다 작을 수 있고 5초보다 클 수 있다.

가상 객체는 사용자를 향해 천천히 그리고 꾸준히 회전할 수 있다. 많은 예 중 하나로서, 가상 객체는 초당 20°내지 40°를 통해 하나 이상의 축에 관해 회전할 수 있으나, 회전율(rotational rate)은 추가의 예에서 그것보다 더 느리거나 더 빠를 수 있다. 실시예에서, 가상 객체는 일정한 각속도로 사용자를 향해 회전할 수 있거나, 가상 객체는 그것의 회전 동안 가속/감속될 수 있다(예컨대 그것이 사용자를 거의 대향하고 있을 때에는 천천히 감).

사용자가 다시 움직이기 시작하면, 가상 객체는 사용자가 정지해 있던 때로부터의 그것의 포지션 내에 남아 있을 수 있거나, 가상 객체는 사용자가 움직임을 멈추기 전의 그것의 포지션, 가령 도 8에 도시된 포지션으로 복귀할 수 있다.

추가의 예에서, 사용자가 다시 움직이기 시작하면 가상 객체 중 하나 이상은 회전하여서 사용자가 움직이고 있을 때 사용자 상에서 계속하여 몸체에 맞물려 있을 수 있다. 예를 들어, 사용자가 정지한 경우, 사용자는 가상 객체 중 하나 이상을 예컨대 그 하나 이상의 가상 객체에 관해서 가리키거나 응시하거나 몇몇 다른 물리적 제스처를 수행하여 선택할 수 있다. 일단 선택되면, 가상 객체는 사용자가 다시 움직이기 시작한 후에도 사용자를 대향하는 채로 있을 수 있다. 그러한 실시예에서, 하나 이상의 선택된 가상 객체는 사용자와 함께 움직이고 사용자가 움직일 때에 사용자로부터 고정된 거리로 남아 있도록 회전하는 것에 더하여 또는 이를 대신하여 병진할 수 있다.

그러한 실시예에서, 하나 이상의 선택된 가상 객체는 사용자에 대해 머리에 맞물릴(head-locked) 수 있음이 또한 고려된다. 즉, 사용자가 그의 머리 또는 그녀의 머리를 돌릴 때에, 선택된 가상 객체(들)는 사용자의 머리에 관해서 고정된 각도 및 거리에 남아 있을 수 있다. 사용자는 선택된 가상 객체를, 예컨대 혼합 현실 환경 내의 원하는 포지션으로 선택된 가상 객체를 이동하는 것, 가상 객체를 다시 크기조정하는 것 또는 가상 객체를 숨기는 것과 같은 다양한 다른 방식으로 조작할 수 있음이 이해된다. 사용자는 선택된 가상 객체를 선택해제하고 풀어주기(release) 위해 어떤 물리적 제스처를 수행할 수 있다.

도 9는 이미지 데이터의 단일 프레임을 생성하고 렌더링하며 각 사용자에 디스플레이하는 데에 걸리는 시간과 같은 별개의 기간 동안의 허브 컴퓨팅 시스템(12), 처리 유닛(4) 및 머리 장착형 디스플레이 디바이스(2)의 동작 및 상호작용성의 고수준 흐름도이다. 실시예에서, 데이터는 60 Hz의 속도로 리프레시될(refreshed) 수 있으나, 그것은 추가의 실시예에서 더욱 자주 또는 덜 자주 리프레시될 수 있다.

일반적으로, 그 시스템은 사용자, 실제 세계 객체 및 가상 객체와 같은 환경 내 객체 및 환경의 x, y, z 좌표를 가지는 장면 맵을 생성한다. 앞서 지적된 바와 같이, 슬레이트(460)와 같은 가상 객체는 예컨대 허브 컴퓨팅 시스템(12) 상에서 작동하는 애플리케이션에 의해 또는 사용자(18)에 의해 환경 내에 가상적으로 배치될 수 있다. 시스템은 또한 각 사용자의 FOV를 추적한다. 모든 사용자가 아마도 장면의 동일한 양상을 보고 있을 수는 있지만, 그들은 상이한 관점에서 그것을 보고 있다. 그러므로, 시스템은 역시 각 사용자에 대해 상이할 수 있는, 가상 또는 실제 세계 객체의 시차 및 폐색에 대해 조절하기 위해 장면에 관한 각 사람의 FOV를 생성한다.

이미지 데이터의 주어진 프레임에 대해, 사용자의 뷰는 하나 이상의 실제 및/또는 가상 객체를 포함할 수 있다. 사용자가 그의/그녀의 머리를 예컨대 왼쪽에서 오른쪽으로 또는 아래위로 돌릴 때, 사용자의 FOV 내의 실제 세계 객체의 상대적 포지션은 본질적으로 사용자의 FOV 내에서 움직인다. 예를 들어, 도 1의 식물(23)은 처음에는 사용자의 FOV의 우측면 상에 나타날 수 있다. 그러나 만약 사용자가 이후 그의/그녀의 머리를 우측을 향해 돌리는 경우, 식물(23)은 결국 사용자의 FOV의 좌측면 상에 가게 될 수 있다.

그러나, 사용자가 그의 머리를 움직일 때 사용자로의 가상 객체의 디스플레이는 더욱 어려운 문제이다. 사용자가 그의 FOV 내의 정적 가상 객체를 바라보고 있는 일례에서, 만약 사용자가 그의 머리를 왼쪽으로 움직여 FOV를 왼쪽으로 움직이는 경우, 정적 가상 객체가 FOV 내에 정지한 채 있는 것이 최종적인 효과(net effect)이도록, 정적 가상 객체의 디스플레이는 사용자의 FOV 변이의 양만큼 우측으로 변이될 필요가 있다. 정적 및 동적 가상 객체들을 적절히 디스플레이하는 시스템이 도 10 내지 도 14의 흐름도와 관련하여 아래에서 설명된다.

혼합 현실을 하나 이상의 사용자(18)에게 제시하기 위한 시스템이 단계(600)에서 구성될 수 있다. 예를 들어, 시스템의 사용자(18) 또는 운영자는 제시될 가상 객체, 그것이 정적 가상 객체일 것인지 또는 동적 가상 객체일 것인지, 그리고 어떻게, 언제 및 어디서 그것이 제시될 것인지를 지정할 수 있다. 대안적인 실시예에서, 허브(12) 및/또는 처리 유닛(4) 상에서 작동하는 애플리케이션은 제시될 정적 및/또는 동적 가상 객체에 관해 시스템을 구성할 수 있다.

하나의 예에서, 애플리케이션은 장면 내의 디폴트(default) 위치에서의 제시를 위해 하나 이상의 정적 및/또는 동적 가상 객체를 선택할 수 있다. 대안적으로 또는 추가적으로, 사용자는 장면에의 포함을 위해 하나 이상의 사전정의된 정적 및/또는 동적 가상 객체를 선택할 수 있다. 애플리케이션에 의해서 선택되건 사용자에 의해 선택되건, 이후에 사용자는 동적 가상 객체 중 하나 이상의 동적 가상 객체의 디폴트 포지션을 변경할 옵션(option)을 가질 수 있다. 예를 들어, 사용자는 그의 FOV의 중심 또는 거의 중심에서의 포지셔닝을 위해 가상 디스플레이 슬레이트(460)를 선택할 수 있다. 대안적으로, 사용자는 가상 디스플레이 슬레이트(460)을 벽면 상으로 보낼 수 있다. 이들 옵션은 예컨대 사용자가 그의 또는 그녀의 손으로 움켜잡거나 움직이는 제스처를 수행함으로써 행해질 수 있으나, 그것은 추가의 실시예에서 다른 방식으로 행해질 수 있다.

단계(604 및 630)에서, 허브(12) 및 처리 유닛(4)은 장면으로부터 데이터를 수집한다. 허브(12)에 대해, 이것은 포착 디바이스(20)의 깊이 카메라(426), RGB 카메라(428) 및 마이크(430)에 의해 감지된 이미지 및 오디오 데이터일 수 있다. 처리 유닛(4)에 대해, 이것은 머리 장착형 디스플레이 디바이스(2)에 의해, 그리고 특히, 카메라(112), 눈 추적 어셈블리(134) 및 IMU(132)에 의해 단계(656)에서 감지된 이미지 데이터일 수 있다. 머리 장착형 디스플레이 디바이스(2)에 의해 수집된 데이터는 단계(656)에서 처리 유닛(4)으로 보내진다. 처리 유닛(4)은 이 데이터를 처리하는 것은 물론, 단계(630)에서 그것을 허브(12)에 보낸다.

단계(608)에서, 허브(12)는 허브(12)로 하여금 그것의 포착 디바이스(20) 및 하나 이상의 처리 유닛(4)의 이미지 데이터를 코디네이트하게(coordinate) 하는 다양한 셋업(setup) 동작을 수행한다. 특히, (아닐 지도 모르는) 장면에 관해서 포착 디바이스(20)의 포지션이 알려져 있더라도, 머리 장착형 디스플레이 디바이스(2) 상의 카메라는 장면 내에서 여기저기 움직이고 있을 수 있다. 따라서, 실시예에서, 촬상 카메라 각각의 포지션 및 시간 포착은 장면, 서로 그리고 허브(12)에 대해 교정될 필요가 있다. 단계(608)의 추가적인 세부사항이 이제 도 11의 흐름도를 참조하여 기술된다.

단계(608)의 하나의 동작은 단계(670)에서 시스템(10) 내의 다양한 촬상 디바이스의 클록 오프셋(clock offset)들을 판정하는 것을 포함한다. 특히, 시스템 내의 카메라 각각으로부터의 이미지 데이터를 코디네이트하기 위해서, 코디네이트되고 있는 이미지 데이터가 동일한 시간으로부터의 것임이 확인될 것이다. 일반적으로, 포착 디바이스(20)로부터의 이미지 데이터 및 하나 이상의 처리 유닛(4)으로부터 들어오는 이미지 데이터는 허브(12) 내의 단일의 마스터 클록(master clock)으로부터 타임스탬프가 기록된다(time stamped). 카메라 각각을 위한 알려진 해상도뿐만 아니라, 주어진 프레임에 대해 모든 그러한 데이터를 위한 타임스탬프를 사용하여, 허브(12)는 시스템 내의 촬상 카메라 각각을 위한 시간 오프셋을 판정한다. 이것으로부터, 허브(12)는 각 카메라로부터 수신된 이미지들 간의 차이 및 그 이미지들에 대한 조절을 판정할 수 있다.

허브(12)는 카메라 중 하나의 수신된 프레임으로부터 기준 타임스탬프(reference time stamp)를 선택할 수 있다. 그리고 허브(12)는 기준 타임스탬프에 동기화하기 위해 모든 다른 카메라로부터의 수신된 이미지 데이터에 시간을 가산하거나 이로부터 시간을 감산할 수 있다. 교정 프로세스를 위해 시간 오프셋을 판정하고/하거나 상이한 카메라들을 함께 동기화하기 위해서 다양한 다른 동작이 사용될 수 있음이 인식된다. 시간 오프셋의 판정은 모든 카메라로부터의 이미지 데이터의 초기 수신 시에 한 번 수행될 수 있다. 대안적으로, 그것은 예컨대 각 프레임 또는 어떤 개수의 프레임에 대해서와 같이 주기적으로 수행될 수 있다.

단계(608)는 장면의 x, y, z 데카르트 공간 내에서 모든 카메라의 포지션을 서로에 대해서 교정하는 동작을 더 포함한다. 일단 이 정보가 알려지면, 허브(12) 및/또는 하나 이상의 처리 유닛(4)은 장면 맵 또는 모델을 형성하여 장면의 기하구조(geometry) 및 장면 내의 객체(사용자를 포함함)의 기하구조 및 포지션을 식별할 수 있다. 모든 카메라의 이미지 데이터를 서로에 대해 교정하는 데에서, 깊이 및/또는 RGB 데이터가 사용될 수 있다.

시스템(10) 내의 촬상 카메라는 각각 어떤 렌즈 왜곡(lens distortion)을 가질 수 있는데 이에 대해서는 상이한 카메라들로부터의 이미지를 교정하기 위해서 정정될 필요가 있다. 단계(604 및 630)에서 일단 시스템 내의 다양한 카메라로부터의 모든 이미지 데이터가 수신되면, 단계(674)에서 이미지 데이터는 다양한 카메라에 대해 렌즈 왜곡을 처치하도록 조절될 수 있다. 주어진 카메라(깊이 또는 RGB)의 왜곡은 카메라 제조자에 의해 제공되는 알려진 속성일 수 있다. 만약 아니더라도, 예컨대 카메라의 FOV 내의 상이한 위치들에서 바둑판 패턴(checker board pattern)과 같은 알려진 치수의 객체를 촬상하는 것을 포함하여, 카메라의 왜곡을 계산하기 위한 알고리즘이 알려져 있다. 해당 이미지 내의 점(point)의 카메라 뷰 좌표 내의 편차(deviation)는 카메라 렌즈 왜곡의 결과일 것이다. 일단 렌즈 왜곡의 정도가 알려지면, 주어진 카메라를 위한 포인트 클라우드(point cloud) 내의 점들의 균일한 카메라 뷰 맵을 초래하는 알려진 역행렬 변환에 의해 왜곡이 정정될 수 있다.

다음으로 허브(12)는 단계(678)에서 각 카메라에 의해 포착된 왜곡 정정된 이미지 데이터 점을 카메라 뷰로부터 직교 3-D 세계 뷰(orthogonal 3-D world view)로 변환할 수 있다. 이 직교 3-D 세계 뷰는 직교 x, y, z 데카르트 좌표계에서의 포착 디바이스(20) 및 머리 장착형 디스플레이 디바이스 카메라에 의해 포착된 모든 이미지 데이터의 포인트 클라우드 맵이다. 카메라 뷰를 직교 3-D 세계 뷰로 변환하기 위한 매트릭스 변환 방정식이 알려져 있다.

시스템(10) 내의 각 카메라는 단계(678)에서 직교 3-D 세계 뷰를 구축할(construct) 수 있다. 주어진 카메라로부터의 데이터 점의 x, y, z 세계 좌표는 단계(678)의 종결에서 여전히 해당 카메라의 관점으로부터의 것이고, 시스템(10) 내의 다른 카메라로부터의 데이터 점의 x, y, z 세계 좌표에 아직 상관되지(correlated) 않는다. 다음 단계는 상이한 카메라의 다양한 직교 3-D 세계 뷰를 시스템(10) 내의 모든 카메라에 의해 공유되는 단일의 전체적인 3-D 세계 뷰로 변환하는 것이다.

이를 성취하기 위해, 허브(12)의 실시예는 다음으로 단계(682)에서 각 카메라의 세계 뷰의 포인트 클라우드 내의 중요점 불연속(key-point discontinuity) 또는 큐(cue)를 찾을 수 있으며, 이후 단계(684)에서 상이한 카메라의 상이한 포인트 클라우드 간에 동일한 큐를 식별한다. 일단 허브(12)가 두 개의 상이한 카메라의 두 개의 세계 뷰가 동일한 큐를 포함함을 판정할 수 있다면, 허브(12)는 단계(688)에서 그 큐 및 서로에 대한 그 두 카메라의 포지션, 배향 및 초점거리(focal length)를 판정할 수 있다. 실시예에서, 시스템(10) 내의 모든 카메라가 동일한 공통 큐를 공유하지는 않을 것이다. 그러나, 제1 및 제2 카메라가 공유된 큐를 갖고 그 카메라들 중 적어도 하나가 제3 카메라와 공유된 뷰를 갖는 한, 허브(12)는 단일의 전체적인 3-D 세계 뷰 및 서로에 대한 제1, 제2 및 제3 카메라의 포지션, 배향 및 초점거리를 판정할 수 있다. 시스템 내의 추가적인 카메라에 대해서도 마찬가지이다.

이미지 포인트 클라우드로부터 큐를 식별하기 위한 다양한 알려진 알고리즘이 존재한다. 이미지 데이터로써 큐를 검출하는 또 다른 방법은 스케일 불변 특징 변환(Scale-Invariant Feature Transform: SIFT) 알고리즘이다. 다른 큐 검출기 방법은 최대 안정적 극 영역(Maximally Stable Extremal Regions: MSER) 알고리즘이다.

단계(684)에서, 둘 이상의 카메라로부터의 포인트 클라우드 간에 공유되는 큐가 식별된다. 개념적으로, 제1 세트의 벡터가 제1 카메라 및 제1 카메라의 데카르트 좌표계 내의 한 세트의 큐 사이에 존재하고, 제2 세트의 벡터가 제2 카메라 및 제2 카메라의 데카르트 좌표계 내의 그 동일한 세트의 큐 사이에 존재하는 경우에, 그 두 계는 양 카메라 모두를 포함하는 단일 데카르트 좌표계로 서로에 대해서 변화될(resolved) 수 있다. 둘 이상의 카메라로부터의 포인트 클라우드 사이에서 공유된 큐를 찾아내기 위한 다수의 알려진 기법이 존재한다.

두 개의 상이한 카메라로부터의 포인트 클라우드가 충분히 많은 수의 매칭된 큐(a large enough number of matched cues)를 공유하는 경우에, 예컨대 무작위 샘플링 일치(Random Sampling Consensus: RANSAC) 또는 다양한 다른 추정 기법에 의해, 그 두 포인트 클라우드를 함께 상관시키는 행렬이 추정될 수 있다. 그리고 복원된 기초 행렬(fundamental matrix)에 대해 이상치(outlier)인 매치(match)는 제거될 수 있다. 포인트 클라우드의 쌍 사이의 상정된, 기하학적으로 부합하는 매치의 세트를 찾아낸 후, 그 매치는 각 포인트 클라우드를 위한 트랙의 세트로 조직화될(organized) 수 있는데, 트랙은 포인트 클라우드들 간의 상호 매칭 큐의 세트(a set of mutually matching cues)이다. 그 세트 내의 제1 트랙은 제1 포인트 클라우드 내의 각각의 공통 큐의 투영을 포함할 수 있다. 그 세트 내의 제2 트랙은 제2 포인트 클라우드 내의 각각의 공통 큐의 투영을 포함할 수 있다. 그리고 상이한 카메라로부터의 포인트 클라우드는 단일 직교 3-D 실제 세계 뷰 내의 단일 포인트 클라우드로 변화될 수 있다.

모든 카메라의 포지션 및 배향은 이 단일 포인트 클라우드 및 단일 직교 3-D 실제 세계 뷰에 대해서 교정된다. 다양한 포인트 클라우드를 함께 변화시키기 위해서, 두 포인트 클라우드를 위한 트랙의 세트 내의 큐의 투영이 분석된다. 이들 투영으로부터, 허브(12)는 큐에 대한 제1 카메라의 관점을 판정할 수 있으며, 또한 큐에 대한 제2 카메라의 관점을 판정할 수 있다. 그것으로부터, 허브(12)는 그 포인트 클라우드들을 두 포인트 클라우드 모두로부터의 큐 및 다른 데이터 점을 포함하는 단일 포인트 클라우드 및 단일 직교 3-D 실제 세계 뷰의 추정으로 변화시킬 수 있다.

단일 직교 3-D 실제 세계 뷰가 모든 카메라를 포함할 때까지, 이 프로세스는 임의의 다른 카메라에 대해 반복된다. 일단 이것이 행해지면, 허브(12)는 단일 직교 3-D 실제 세계 뷰 및 서로에 대해 카메라의 상대적인 포지션 및 배향을 판정할 수 있다. 허브(12)는 또한 단일 직교 3-D 실제 세계 뷰에 대해 각 카메라의 초점거리를 판정할 수 있다.

도 10을 다시 참조하면, 일단 시스템이 단계(608)에서 교정되면, 장면 내의 객체의 기하구조 및 포지션뿐만 아니라 장면의 기하구조를 식별하는 장면 맵이 단계(610)에서 조성될 수 있다. 실시예에서, 주어진 프레임 내에서 생성된 장면 맵은 장면 내의 모든 사용자, 실제 세계 객체 및 가상 객체의 x, y 및 z 포지션을 포함할 수 있다. 이 정보 전부는 이미지 데이터 수집 단계(604, 630 및 656) 동안 획득되고 단계(608)에서 함께 교정된다.

적어도 포착 디바이스(20)는 장면 내의 객체의 깊이 포지션뿐만 아니라 장면의 깊이를 (그것이 벽면 등등에 의해 구속될 수 있는 한) 판정하기 위한 깊이 카메라를 포함한다. 아래에서 설명되는 바와 같이, 장면 맵은 적절한 폐색으로써(가상 3차원 객체는 폐색될 수 있거나, 가상 3차원 객체는 실제 세계 객체 또는 다른 가상 3차원 객체를 폐색할 수 있음) 가상 3차원 객체를 디스플레이하는 것뿐만 아니라, 장면 내의 가상 객체를 포지셔닝하는 데에서 사용된다.

시스템(10)은 장면으로부터 깊이 이미지 전부를 획득하기 위한 다수의 깊이 이미지 카메라를 포함할 수 있거나, 장면으로부터 모든 깊이 이미지를 포착하는 데에 예컨대 포착 디바이스(20)의 깊이 이미지 카메라(426)와 같은 단일 깊이 이미지 카메라가 충분할 수 있다. 알려지지 않은 환경 내의 장면 맵을 판정하기 위한 유사한 방법이 동시적 로컬화 및 맵핑(Simultaneous Localization And Mapping: SLAM)으로 알려져 있다.

단계(612)에서, 시스템은 방 안에서 움직이는 인간과 같은 움직이는 객체를 검출하고 추적하고, 움직이는 객체의 포지션에 기반하여 장면 맵을 갱신할 것이다. 이것은 앞서 기술된 바와 같은 장면 내의 사용자의 골격 모델의 사용을 포함한다.

단계(614)에서, 허브는 머리 장착형 디스플레이 디바이스(2)의 x, y 및 z 포지션, 배향 및 FOV를 판정한다. 단계(614)의 추가적인 세부사항이 도 12의 흐름도와 관련하여 이제 기술된다. 도 12의 단계는 아래에서 단일 사용자에 대해 기술된다. 그러나, 도 12의 단계는 장면 내의 각 사용자에 대해 수행될 것이다.

단계(700)에서, 사용자의 얼굴로부터 밖으로 똑바로 바라보는 얼굴 단위 벡터(face unit vector) 및 사용자 머리 포지션 양자 모두를 판정하기 위해 장면에 대한 교정된 이미지 데이터가 허브에서 분석된다. 머리 포지션은 골격 모델에서 식별된다. 얼굴 단위 벡터는 골격 모델로부터 사용자의 얼굴의 평면을 정의하는 것 및 해당 평면에 수직인 벡터를 취하는 것에 의해 판정될 수 있다. 이 평면은 사용자의 눈, 코, 입, 귀 또는 다른 안면 특징의 포지션을 판정함으로써 식별될 수 있다. 얼굴 단위 벡터는 사용자의 머리 배향을 정의하기 위해 사용될 수 있고, 예에서 사용자를 위한 FOV의 중심으로 간주될 수 있다. 얼굴 단위 벡터는 게다가 또는 대안적으로 머리 장착형 디스플레이 디바이스(2) 상의 카메라(112)로부터 반환된 카메라 이미지 데이터로부터 식별될 수 있다. 특히, 머리 장착형 디스플레이 디바이스(2) 상의 카메라(112)가 무엇을 보는지에 기반하여, 연관된 처리 유닛(4) 및/또는 허브(12)는 사용자의 머리 배향을 나타내는 얼굴 단위 벡터를 판정할 수 있다.

단계(704)에서, 사용자의 머리의 포지션 및 배향은 게다가 또는 대안적으로 더 이른 시간(프레임 내에서 더 이르든 또는 이전 프레임으로부터든)으로부터의 사용자의 머리의 포지션 및 배향의 분석으로부터 판정될 수 있고, 이후 사용자의 머리의 포지션 및 배향을 갱신하기 위해 IMU(132)로부터의 관성 정보를 사용하는 것이다. IMU(132)로부터의 정보는 사용자의 머리에 대한 정확한 운동 데이터(kinematic data)를 제공할 수 있으나, IMU는 전형적으로는 사용자의 머리에 관한 절대적인 포지션 정보를 제공하지 않는다. "토대 사실"(ground truth)로도 지칭되는 이 절대적 포지션 정보는 포착 디바이스(20), 대상 사용자를 위한 머리 장착형 디스플레이 디바이스(2) 상의 카메라로부터 및/또는 다른 사용자의 머리 장착형 디스플레이 디바이스(들)(2)로부터 획득된 이미지 데이터로부터 제공될 수 있다.

실시예에서, 사용자의 머리의 포지션 및 배향은 협력하여 작용하는 단계(700 및 704)에 의해 판정될 수 있다. 추가의 실시예에서, 사용자의 머리의 머리 포지션 및 배향을 판정하기 위해 단계(700 및 704) 중 하나 또는 다른 것이 사용될 수 있다.

사용자가 똑바로 앞을 바라보고 있지 않은 일이 일어날 수 있다. 따라서, 사용자 머리 포지션 및 배향을 식별하는 것에 더하여, 허브는 사용자의 머리에서의 그의 눈의 포지션을 또한 고려할 수 있다. 이 정보는 앞서 기술된 눈 추적 어셈블리(134)에 의해 제공될 수 있다. 눈 추적 어셈블리는 사용자의 눈의 포지션을 식별할 수 있는데, 이는 사용자의 눈이 중심에 있고 똑바로 앞을 보고 있는(즉, 얼굴 단위 벡터) 포지션으로부터의 왼쪽, 오른쪽, 위쪽 및/또는 아래쪽 편차를 보여주는 눈 단위 벡터(eye unit vector)로서 표현될 수 있다. 얼굴 단위 벡터는 사용자가 바라보는 곳을 정의하기 위해 눈 단위 벡터로 조절될 수 있다.

단계(710)에서, 다음으로 사용자의 FOV가 판정될 수 있다. 머리 장착형 디스플레이 디바이스(2)의 사용자의 뷰의 범위는 가정적인 사용자의 위쪽, 아래쪽, 왼쪽 및 오른쪽 주변 시야(peripheral vision)에 기반하여 사전정의될 수 있다. 주어진 사용자에 대해 계산된 FOV가 그 FOV의 규모에서 특정한 사용자가 보는 것이 가능할 수 있는 객체를 포함하게끔 하기 위해서, 이 가정적인 사용자는 최대의 가능한 주변 시야를 가지는 자로서 취해질 수 있다. 어떤 사전정의된 여분의 FOV가 이것에 추가되어 실시예에서 주어진 사용자에 대해 충분한 데이터가 포착되게끔 할 수 있다.

그리고 주어진 순간에 사용자에 대한 FOV는 뷰의 범위를 취하는 것 및 그것의 중심을 눈 단위 벡터의 임의의 편차에 의해 조절된 얼굴 단위 벡터 주위에 두는 것에 의해 계산될 수 있다. 주어진 순간에 사용자가 무엇을 바라보고 있는지 정의하는 것에 더하여, 사용자의 FOV의 이 판정은 사용자가 무엇을 볼 수 없는지를 판정하는 것에 또한 유용하다. 아래에서 설명되는 바와 같이, 가상 객체의 처리를 특정한 사용자가 볼 수 있는 그런 영역으로 한정하는 것은 처리 속도를 개선하고 지연(latency)을 감소시킨다.

앞서 기술된 실시예에서, 허브(12)는 장면 내의 하나 이상의 사용자의 FOV를 계산한다. 추가의 실시예에서, 사용자를 위한 처리 유닛(4)은 이 작업에서 공유될 수 있다. 예를 들어, 일단 사용자 머리 포지션 및 눈 배향이 추정되면, 이 정보는 (IMU(132)로부터의) 머리 포지션 및 (눈 추적 어셈블리(134)로부터의) 눈 포지션에 관한 더욱 최신의 데이터에 기반하여 포지션, 배향 등등을 갱신할 수 있는 처리 유닛으로 보내질 수 있다.

이제 도 10으로 돌아가면, 허브(12) 상에서 작동하는 애플리케이션, 또는 사용자(18) 중 하나 이상은 장면 내에 정적 및/또는 동적 가상 객체를 둘 수 있다. 이들 가상 객체는 사용자가 혼합 현실 환경 내에서 돌아다닐 때에 다양한 방향 중 임의의 것을 대향하고 있을 수 있으나, 일단 사용자가 사전결정된 기간 동안 움직임을 중단하면, 사용자 주위의 하나 이상의 가상 객체는 사용자를 향해 회전할 수 있다. 단계(618)에서, 허브는 현재의 시간에서 모든 그러한 정적 및 동적 가상 객체의 x, y 및 z 포지션(배향을 포함함)을 조절하기 위해 장면 맵, 그리고 사용자가 움직이고 있는지 또는 가만히 있는지의 판정을 사용할 수 있다. 대안적으로, 이 정보는 단계(618)에서 처리 유닛(4) 중 하나 이상에 의해 생성되고 허브(12)에 보내질 수 있다.

단계(618)의 추가적인 세부사항이 도 13의 흐름도를 참조하여 이제 기술된다. 단계(714)에서, 허브(12)는 사용자가 사전결정된 기간 동안 움직이지 않는지를 판정한다. 특히, 허브(12)는, 그 자체에 의해서든 또는 머리 장착형 디스플레이(2) 내의 센서와 함께이든, 신체 움직임에서의 변동을 판정할 수 있다. 일단 사용자가 움직이지 않는다고 초기에 판정되면, 사용자가 사전결정된 기간 동안 움직이지 않고 있었다고 판정될 때까지 하나하나의 프레임마다 증분하는(increment) 카운터(counter)가 시작할 수 있다. 카운터가 증분하고 있는 동안, 만약 사용자가 움직이기 시작하는 경우, 시간 카운터는 0으로 재설정되고, 장래의 프레임에서 사용자가 움직이지 않는다고 판정될 때까지 다시 시작하지 않을 수 있다.

"움직이지 않음"은 사용자가 완벽하게 가만히 서 있거나 앉아 있는 것일 수 있지만, 본 문서에서 사용된 바와 같은 "움직이지 않음"이라는 용어는 어느 정도의 움직임을 포함할 수 있다. 예를 들어, 사용자는 그 또는 그녀가 적어도 그의/그녀의 발이 움직이지 않으나, 발 위의 신체 중 하나 이상의 부분(무릎, 엉덩이 상반신, 머리 등등)은 움직이면서 서 있는 경우에 움직이지 않는 것일 수 있다. 본 문서에서 사용된 바와 같은 "움직이지 않음"은 사용자가 앉아 있으나 사용자의 다리, 상반신 또는 머리의 부분은 움직이는 것을 의미할 수 있다. 본 문서에서 사용된 바와 같은 "움직이지 않음"은 사용자가 움직이고 있으나 사용자가 멈춘 후 사용자 주위로 중심이 두어진 작은 직경, 예컨대 3 피트(feet)의 외부에 있지 않은 것을 의미할 수 있다. 이 예에서, 사용자는 예컨대 그 직경 내에서 (가령, 그/그녀 뒤의 가상 객체를 보기 위해) 돌아가고 있고 여전히 "움직이지 않는" 것으로 간주될 수 있다.

"움직이지 않음"이라는 용어는 사전정의된 기간 내에 사전결정된 양보다 적게 움직인 사용자를 나타낼 수도 있다. 많은 예 중 하나로서, 사용자는 그가 5초의 기간 내에 임의의 방향에서 3 피트 미만으로 움직인 경우 움직이지 않은 것으로 간주될 수 있다. 지적된 바와 같이, 이것은 단지 예로서의 것이고 움직임의 양 및 움직임의 이런 양이 검출되는 기간은 추가의 예에서 양자 모두 달라질 수 있다. 사용자의 머리가 움직이지 않는 것으로 지칭되는 경우, 그것은 사용자의 머리가 가만히 있는 것 또는 사전결정된 기간에 걸쳐 한정된 움직임을 갖는 것을 포함할 수 있다. 하나의 예에서, 사용자의 머리는 만약 그것이 5초의 기간 내에 어떠한 축에 관해서도 45° 미만으로 도는(pivot) 경우 움직이지 않는 것으로 간주될 수 있다. 역시, 이것은 단지 예로서의 것이고 달라질 수 있다. 머리 장착형 디스플레이 디바이스(2)는 사용자의 움직임이 적어도 앞서 식별된 움직임 중 임의의 것에 합치하는 경우 사용자가 "움직이지 않는다"고 판정할 수 있다.

만약 사용자가 단계(714)의 실행 시에 장면을 거쳐 이동하고 있거나, 사전결정된 기간 동안 움직이지 않는 것이 아닌 경우, 허브는 가상 객체를 세계에 고정된 객체로서 유지하는 단계(716)를 수행할 수 있다. 지적된 바와 같이, 실시예에서, 사전결정된 기간은 1초와 5초 사이일 수 있으나, 이 기간은 추가의 실시예에서 그것보다 더 길거나 더 짧을 수 있다.

만약 단계(714)에서 사용자가 사전결정된 기간 동안 움직이지 않는 것으로 판정되는 경우, 허브는 단계(720)에서 하나 이상의 가상 객체가 정적인지 또는 동적인지 점검할 수 있다. 만약 하나 이상의 가상 객체가 정적인 것으로 판정되는 경우, 단계(716)에서 해당 객체는 세계에 고정된 채 있다. 동적 가상 객체가 앞서 기술된 바와 같은 가상 디스플레이 슬레이트인 경우에, 이들 객체는 깨끗한 전면 대향 표면(clear front facing surface), 즉 콘텐트를 디스플레이하는 표면을 가진다. 그러나, 지적된 바와 같이, 가상 디스플레이 슬레이트가 아닌 동적 가상 객체가 있을 수 있다. 이들 다른 동적 가상 객체는 아래에 설명되는 바와 같이 사용자를 향해 회전하는 정의된 전면(defined front)을 가질 수 있다. 동적 가상 객체가 정의된 전면을 갖지 않는 경우에, 그런 가상 객체는 단계(716)에서 세계에 고정된 채 있을 수도 있다.

반면에, 만약 하나 이상의 가상 객체가 동적이고 정의된 전면을 가진다고 판정되는 경우, 그것은 단계(722 내지 736)에 관해 아래에서 설명되는 바와 같이 사용자를 대향하도록 회전할 수 있다. 단계(722 내지 736)에서 사용자를 향해 회전하는 동적 가상 객체는 장면 내의 동적 가상 객체 전부 또는 단지 사용자의 사전결정된 반경 내의 그런 동적 가상 객체일 수 있다.

단계(722)에서, 전면을 가지는 각각의 동적 가상 객체 및 사용자 간에 포지션 벡터가 판정될 수 있다. 단계(726)에서, 각 동적 가상 객체의 전면은 사전결정된 각속도로 그것의 포지션 벡터를 향해 x, y 및/또는 z 축에 관해 회전될 수 있다. 이 회전은 객체가 그것의 포지션 벡터와 x, y 및 z 정렬될 때까지 또는 사용자가 움직이고 있는(즉, 본 문서에서 해당 용어가 사용되는 바와 같이 "움직이지 않는" 것이 아닌) 것으로 판정될 때까지 매번 도 10에 도시된 단계들의 루프를 통해 계속될 것이다. 본 문서에서 고려된 각속도(이로써 가상 객체는 사용자를 향해 회전함)가 주어지면, 각각의 주어진 프레임에 대해 회전량은 적을 것임에 유의한다.

단계(728)에서, 허브는 3차원 공간 내의 가상 객체의 새로운 포지션 및 외양을 계산한다. 단계(732)에서, 허브는 갱신된 가상 객체가 장면 내의 다른 가상 객체 또는 실제 세계 객체와 동일한 공간을 차지하는지를 점검할 수 있다. 특히, 실제 세계 객체의 포지션이 3차원 공간 내에서 식별될 수 있고, 갱신된 가상 객체의 포지션이 3차원 공간 내에서 알려져 있을 수도 있다. 단계(732)에서 만약 임의의 중첩(overlap)이 있는 경우, 허브(12)는 애플리케이션 내에 정의된 디폴트 규칙 또는 메트릭(metric)에 따라 단계(736)에서 가상 객체(들)의 포지션을 조절할 수 있다. 만약 어떠한 중첩도 없는 경우, 다음으로 허브는 도 10의 단계(626)를 수행할 수 있다.

도 13의 단계를 사용하여, 사용자가 도 8에 도시된 바와 같은 혼합 현실 환경을 거쳐 이동할 때 동적 가상 객체는 세계에 고정된 채 있을 수 있고, 이후에는 도 9에 도시된 바와 같이 사용자가 사전결정된 기간 동안 계속 움직이지 않으면 사용자를 향해 회전할 수 있다. 사용자가 다시 움직이기 시작하면, 회전된 가상 객체는 그것의 회전된 포지션 내에 머물 수 있거나, 그것은 사용자를 향해 회전하기 전의 그것의 포지션으로 도로 회전할 수 있다.

앞서 지적된 바와 같이, 예컨대 가상 객체가 사용자를 향해 회전되는 동안, 사용자는 하나 이상의 가상 객체를 선택할 수 있다. 하나 이상의 동적 가상 객체의 선택은, 예컨대 사용자가 현재 또는 이전의 프레임에서 하나 이상의 동적 가상 객체를 가리킨 것과 같은, 여러 제스처 중 임의의 것에 의해 나타내어질 수 있다. 대안적으로 또는 추가적으로, 허브(12)는 사용자의 응시가 현재 또는 이전의 프레임 내의 하나 이상의 가상 객체 상에 고정됨을 판정할 수 있다. 선택된 가상 객체는 사용자가 장면 내에서 다시 돌아다니기 시작한 후에도 예컨대 회전된 채로 그리고 사용자로부터의 고정된 거리에 머물 수 있다. 일단 선택되면, 사용자가 하나 이상의 동적 가상 객체의 선택해제(de-selection)를 나타내는 다른 제스처를 수행할 때까지, 하나 이상의 동적 가상 객체는 선택된 것으로 남아 있을 수 있다. 선택해제 제스처는 예컨대 물리적인 손 제스처 또는 사용자가 사전결정된 기간 동안 하나 이상의 동적 가상 객체로부터 눈길을 돌리는 것일 수 있다.

사용자는 하나 이상의 동적 가상 객체를 움켜잡고 그것의 디폴트 포지션으로부터 FOV 내의 새로운 포지션으로 움직일 수도 있다. 이 새로운 포지션은 새로운 디폴트 포지션으로 설정될 수 있거나, 그 포지션은 사용자가 동적 가상 객체를 선택해제한 후 이전의 디폴트 포지션으로 도로 되돌아갈 수 있다.

일단 정적 및 동적 가상 객체 양자 모두의 포지션이 도 13에 기술된 바와 같이 설정되면, 단계(626)(도 10)에서 허브(12)는 판정된 정보를 하나 이상의 처리 유닛(4)에 송신할 수 있다. 단계(626)에서 송신된 정보는 모든 사용자의 처리 유닛(4)으로의 장면 맵의 송신을 포함한다. 송신된 정보는 각각의 머리 장착형 디스플레이 디바이스(2)의 처리 유닛(4)으로의 그 각각의 머리 장착형 디스플레이 디바이스(2)의 판정된 FOV의 송신을 더 포함할 수 있다. 송신된 정보는 판정된 포지션, 배향, 형상 및 외양을 포함하는 정적 및 동적 가상 객체 특성의 송신을 더 포함할 수 있다.

처리 단계(600 내지 626)는 단지 예로서 전술된 것이다. 추가의 실시예에서 이들 단계 중 하나 이상이 생략될 수 있거나, 그 단계들은 다른 순서로 수행될 수 있거나, 추가적인 단계가 추가될 수 있다고 이해된다. 처리 단계(604 내지 618)는 계산상 고비용(computationally expensive)일 수 있으나, 강력한 허브(12)는 60 헤르츠(Hertz) 프레임 내에서 여러 번 이들 단계를 수행할 수 있다. 추가의 실시예에서, 단계(604 내지 618) 중 하나 이상은 대안적으로 또는 추가적으로 하나 이상의 처리 유닛(4) 중 하나 이상에 의해 수행될 수 있다. 더욱이, 도 10은 다양한 파라미터의 판정, 그리고 이후 단계(626)에서 일시에 이들 파라미터를 전송하는 것을 도시하나, 판정된 파라미터는 그것이 판정되면 바로 비동기식으로(asynchronously) 처리 유닛(들)(4)에 보내질 수 있음이 이해된다.

단계(630 내지 656)를 참조하여 처리 유닛(4) 및 머리 장착형 디스플레이 디바이스(2)의 동작이 이제 설명될 것이다. 이하의 설명은 단 하나의 처리 유닛(4) 및 머리 장착형 디스플레이 디바이스(2)에 관한 것이다. 그러나, 이하의 설명은 시스템 내의 각각의 처리 유닛(4) 및 디스플레이 디바이스(2)에 적용될 수 있다.

앞서 지적된 바와 같이, 초기 단계(656)에서, 머리 장착형 디스플레이 디바이스(2)는 이미지 및 IMU 데이터를 생성하는데, 이는 단계(630)에서 처리 유닛(4)을 통하여 허브(12)로 보내진다. 허브(12)가 이미지 데이터를 처리하고 있는 동안, 처리 유닛(4)은 이미지를 렌더링하는 것을 준비하는 단계를 수행하는 것뿐만 아니라, 또한 그 이미지 데이터를 처리하고 있다.

단계(634)에서, 처리 유닛(4)은 머리 장착형 디스플레이 디바이스(2)의 최종 FOV 내에서 아마도 나타날 수 있는 그런 가상 객체만 렌더링되도록 렌더링 동작을 선별할(cull) 수 있다. 다른 가상 객체의 포지션은 여전히 추적될 수 있으나, 그것은 렌더링되지 않는다. 추가의 실시예에서 단계(634)는 완전히 건너뛸 수 있고 전체 이미지가 렌더링되는 것이 또한 있음직하다.

처리 유닛(4)은 다음으로 렌더링 셋업 단계(638)을 수행할 수 있는데 셋업 렌더링 동작은 단계(626)에서 수신된 장면 맵 및 FOV를 사용하여 수행된다. 일단 가상 객체 데이터가 수신되면, 처리 유닛은 FOV 내에 렌더링될 가상 객체에 대해 단계(638)에서 렌더링 셋업 동작을 수행할 수 있다. 단계(638)에서의 셋업 렌더링 동작은 최종 FOV 내에 디스플레이될 가상 객체(들)와 연관된 공통 렌더링 작업을 포함할 수 있다. 이들 렌더링 작업은 예컨대 음영 맵 생성, 조명 및 동화상화(animation)를 포함할 수 있다. 실시예에서 렌더링 셋업 단계(638)는 예측되는 최종 FOV 내에 디스플레이될 가상 객체를 위한 꼭지점 버퍼, 텍스처 및 상태와 같은 그릴 법한 정보(likely draw information)의 편집(compilation)을 더 포함할 수 있다.

도 10을 다시 참조하면, 단계(626)에서 허브(12)로부터 수신된 정보를 사용하여, 처리 유닛(4)은 다음으로 단계(644)에서 사용자의 FOV 내의 폐색 및 음영을 판정할 수 있다. 특히, 스크린 맵은 움직이는 객체 및 움직이고 있지 않은 객체 및 가상 객체를 포함하여, 장면 내의 모든 객체의 x, y 및 z 포지션을 가진다. FOV 내에서 사용자의 위치 및 객체로의 그의 시선을 알고서, 이후 처리 유닛(4)은 가상 객체가 실제 세계 객체에 관한 사용자의 뷰를 부분적으로 또는 완전히 폐색하는지를 판정할 수 있다. 추가적으로, 처리 유닛(4)은 실제 세계 객체가 가상 객체에 관한 사용자의 뷰를 부분적으로 또는 완전히 폐색하는지를 판정할 수 있다. 폐색은 사용자 특정적(user-specific)이다. 가상 객체는 제1 사용자의 뷰에서 차단되거나 이를 차단할 수 있으나, 제2 사용자에 있어서는 그렇지 않다. 이에 따라, 폐색 판정은 각 사용자의 처리 유닛(4) 내에서 수행될 수 있다. 그러나, 폐색 판정은 추가적으로 또는 대안적으로 허브(12)에 의해 수행될 수 있음이 이해된다.

본 기술의 맥락에서, 처리 유닛(4)은 슬레이트(460)와 같은 다시 포지셔닝된 동적 가상 객체가 다른 객체에 의해 폐색되거나 이를 폐색하는지를 단계(644)에서 점검한다. 앞서 지적되고 아래에서 설명되는 바와 같이, 불투명 필터(114)는 (사용자의 시점으로부터) 슬레이트(460) 뒤에 나타나는 가상 및 실제 세계 객체로부터의 빛을 차단하면서 슬레이트(460)가 디스플레이되게 한다. 슬레이트(460)는 슬레이트(460)보다 사용자에게 더 가깝게 나타나는 객체에 의해 폐색될 수 있다. 그런 경우에, 사용자는 아무것도 하지 않을 (그리고 슬레이트(460)를 폐색된 것으로 남겨둘) 수 있거나, 사용자는 폐색하는 객체의 앞에 슬레이트(460)를 다시 포지셔닝할 수 있다. 후자의 사례에서, 슬레이트(460)는 사용자로의 슬레이트(460)의 동일한 전망을 유지하기 위해 더 작게 될 수 있다.

단계(646)에서, 다음으로 처리 유닛(4)의 GPU(322)는 사용자에게 디스플레이될 이미지를 렌더링할 수 있다. 렌더링 동작의 일부가 렌더링 셋업 단계(638)에서 이미 수행되고 주기적으로 갱신되었을 수 있다. 도 14 및 도 14a의 흐름도를 참조하여 렌더링 단계(646)의 추가적인 세부사항이 이제 기술된다. 도 14 및 도 14a는 가상 디스플레이 슬레이트(460)를 렌더링하는 일례에 관해서 기술되지만, 이하의 단계는 모든 가상 객체(정적 및 동적 양자 모두)를 렌더링하는 것에 적용된다.

도 14의 단계(790)에서, 처리 유닛(4)은 환경의 모델을 액세스한다. 단계(792)에서, 처리 유닛(4)은 환경의 모델에 관해서 사용자의 시점을 판정한다. 즉, 시스템은 환경 또는 공간의 어떤 부분을 사용자가 바라보고 있는지를 판정한다. 하나의 실시예에서, 단계(792)는 앞서 기술된 바와 같이 허브 컴퓨팅 디바이스(12), 처리 유닛(4) 및 머리 장착형 디스플레이 디바이스(2)를 사용하는 협력적 활동(collaborative effort)이다.

하나의 실시예에서, 처리 유닛(4)은 하나 이상의 가상 디스플레이 슬레이트(460)를 장면 내에 추가하기를 시도할 것이다. 단계(794)에서, 시스템은 어떠한 컬러 정보도 대응하는 컬러 버퍼 내에 렌더링하지 않고, 머리 장착형 디스플레이 디바이스(2)의 사용자의 시점으로부터 환경의 이전에 생성된 3차원 모델을 z 버퍼(z-buffer)에 렌더링한다. 이것은 환경의 렌더링된 이미지를 온통 검게 효과적으로 남겨두지만, 환경 내의 객체를 위한 z (깊이) 데이터를 저장한다. 단계(794)는 깊이 값이 각 픽셀에 대해(또는 픽셀의 서브세트에 대해) 저장되는 것을 초래한다.

단계(798)에서, 가상 콘텐트(가령, 가상 디스플레이 슬레이트(460)에 대응하는 가상 이미지)가 동일한 z 버퍼 내에 렌더링되고 가상 콘텐트를 위한 컬러 정보가 대응하는 컬러 버퍼 내에 기입된다. 이것은 가상 디스플레이 슬레이트의 전부 또는 일부를 폐색하는 실제 세계 객체 또는 다른 가상 객체를 참작하여 효과적으로 가상 디스플레이 슬레이트(460)로 하여금 헤드세트(headset) 마이크로디스플레이(120) 상에 그려지게 한다.

단계(802)에서, 시스템은 가상 디스플레이 슬레이트를 디스플레이하는 마이크로디스플레이(120)의 픽셀을 식별한다. 단계(806)에서, 마이크로디스플레이(120)의 픽셀에 대해 알파 값이 판정된다. 전통적인 크로마 키(chroma key) 시스템에서, 알파 값은 이미지가 얼마나 불투명한지를 한 픽셀씩을 기준으로 식별하기 위해 사용된다. 몇몇 응용에서, 알파 값은 이진수(binary)(가령, 온(on) 또는 오프(off))일 수 있다. 다른 응용에서, 알파 값은 범위를 갖는 수일 수 있다. 하나의 예에서, 단계(802)에서 식별된 각 픽셀은 제1 알파 값을 가질 것이고 모든 다른 픽셀은 제2 알파 값을 가질 것이다.

단계(810)에서, 불투명 필터(114)를 위한 픽셀은 알파 값에 기반하여 판정된다. 하나의 예에서, 불투명 필터(114)는 마이크로디스플레이(120)와 동일한 해상도를 가지며, 따라서 불투명 필터는 알파 값을 사용하여 제어될 수 있다. 다른 실시예에서, 불투명 필터는 마이크로디스플레이(120)와는 상이한 해상도를 가지며, 따라서 불투명 필터를 어둡게 하거나 어둡지 않게 하기 위해 사용되는 데이터는 해상도들 간에 변환하는 것을 위한 다양한 수학적 알고리즘 중 임의의 것을 사용함으로써 알파 값으로부터 도출될 것이다. 알파 값(또는 다른 데이터)에 기반하여 불투명 필터를 위한 제어 데이터를 도출하는 다른 수단이 사용될 수도 있다.

단계(812)에서, 알파 값과 불투명 필터를 위한 제어 데이터뿐만 아니라, z 버퍼 및 컬러 버퍼 내의 이미지는 광원(가상 또는 실제) 및 음영(가상 또는 실제)을 다루도록 조절된다. 단계(812)의 추가적인 세부사항은 도 14a에 관해서 아래에 제공된다. 도 14의 프로세스는 디스플레이를 통해 공간의 적어도 일부분의 실제의 직접적인 뷰를 하게 하는 디스플레이 상에서 가상 디스플레이 슬레이트(460)를 정지한 또는 움직이는 객체 위에 (또는 정지한 또는 움직이는 객체와 관련하여) 자동으로 디스플레이하는 것을 가능케 한다.

도 14a는 광원 및 음영을 다루기 위한 프로세스의 하나의 실시예를 기술하는 흐름도인데, 이는 도 14의 단계(812)의 예시적 구현이다. 단계(820)에서, 처리 유닛(4)은 다루어질 필요가 있는 하나 이상의 광원을 식별한다. 예를 들어, 실제 광원은 가상 이미지를 그리는 경우에 다루어질 필요가 있을 수 있다. 만약 시스템이 사용자의 뷰에 가상 광원을 추가하고 있는 경우, 그런 가상 광원의 효과는 머리 장착형 디스플레이 디바이스(2)에서도 다루어질 수 있다. 단계(822)에서, 광원에 의해 조명되는 모델의 부분(가상 객체를 포함함)이 식별된다. 단계(824)에서, 그 조명을 묘사하는 이미지가 앞서 기술된 컬러 버퍼에 추가된다.

단계(828)에서, 처리 유닛(4)은 머리 장착형 디스플레이 디바이스(2)에 의해 추가될 필요가 있는 하나 이상의 음영 영역(area of shadow)을 식별한다. 예를 들어, 만약 가상 객체가 음영으로 된 영역에 추가되면, 단계(830)에서 컬러 버퍼를 조절함으로써 가상 객체를 그리는 경우에 음영이 다루어질 필요가 있다. 만약 어떠한 가상 객체도 없는 곳에 가상 음영이 추가될 것이라면, 가상 음영의 위치에 대응하는 불투명 필터(114)의 픽셀은 단계(834)에서 어둡게 된다.

도 10으로 돌아오면, 단계(650)에서, 처리 유닛은 렌더링된 이미지를 머리 장착형 디스플레이 디바이스(2)에 보낼 때인지, 또는 허브(12) 및/또는 머리 장착형 디스플레이 디바이스(2)로부터의 더욱 최근의 포지션 피드백 데이터를 사용하여 이미지를 추가로 정제하기 위한 시간이 여전히 있는지를 점검한다. 60 헤르츠 프레임 리프레시율(frame refresh rate)을 사용하는 시스템에서, 단일 프레임은 대략 16 ms이다.

특히, (도 14 및 도 14a에 관해서 앞서 기술된) z 버퍼 및 컬러 버퍼에 기반하는 합성 이미지가 마이크로디스플레이(120)에 보내진다. 즉, 하나 이상의 가상 디스플레이 슬레이트(460)를 위한 이미지는 관점 및 폐색을 다루어서 적절한 픽셀에서 디스플레이되도록 마이크로디스플레이(120)에 보내진다. 이때, 불투명 필터를 위한 제어 데이터는 불투명 필터(114)를 제어하기 위해 또한 처리 유닛(4)으로부터 머리 장착형 디스플레이 디바이스(2)에 송신된다. 그리고 머리 장착형 디스플레이는 단계(658)에서 사용자에게 이미지를 디스플레이할 것이다.

반면에, 단계(650)에서 디스플레이될 이미지 데이터의 프레임을 보낼 시간이 아직 아닌 경우에, 처리 유닛은 더 많은 갱신된 데이터가 최종 FOV 및 FOV 내의 객체의 최종 포지션의 예측을 추가로 정제하도록 처리 유닛은 되돌아갈 수 있다. 특히, 만약 단계(650)에서 여전히 시간이 있는 경우, 처리 유닛(4)은 허브(12)로부터 더욱 최신의 센서 데이터를 얻기 위해 단계(608)로 복귀할 수 있고, 머리 장착형 디스플레이 디바이스(2)로부터 더욱 최신의 센서 데이터를 얻기 위해 단계(656)로 복귀할 수 있다.

처리 단계(630 내지 652)는 단지 예로서 전술된 것이다. 이들 단계 중 하나 이상이 추가의 실시예에서 생략될 수 있거나, 그 단계들은 다른 순서로 수행될 수 있거나, 추가적인 단계가 추가될 수 있음이 이해된다.

나아가, 도 10의 처리 유닛 단계의 흐름도는 허브(12) 및 머리 장착형 디스플레이 디바이스(2)로부터의 모든 데이터가 단일의 단계(634)에서 처리 유닛(4)에 순환적으로 제공되는 것으로 도시한다. 그러나, 처리 유닛(4)은 상이한 시간에 비동기식으로 허브(12) 및 머리 장착형 디스플레이 디바이스(2)의 상이한 센서로부터 데이터 갱신을 수신할 수 있음이 이해된다. 머리 장착형 디스플레이 디바이스(2)는 카메라(112)로부터의 이미지 데이터 및 IMU(132)로부터의 관성 데이터를 제공한다. 이들 센서로부터의 데이터의 샘플링은 상이한 속도로 일어날 수 있고 상이한 시간에 처리 유닛(4)에 보내질 수 있다. 유사하게, 허브(12)로부터의 처리된 데이터는 따로따로 그리고 카메라(112) 및 IMU(132) 양자 모두로부터의 데이터와는 상이한 주기성을 갖고 처리 유닛(4)에 보내질 수 있다. 일반적으로, 처리 유닛(4)은 갱신된 데이터를 한 프레임 동안 허브(12) 및 머리 장착형 디스플레이 디바이스(2)로부터 여러 번 비동기식으로 수신할 수 있다. 처리 유닛이 그것의 단계들을 거쳐 순환할 때, 그것은 FOV 및 객체 포지션의 최종 예측을 외삽하는(extrapolating) 경우에 그것이 수신한 가장 최근의 데이터를 사용한다.

구조적 특징 및/또는 방법론적 행위에 특정한 말로 대상(subject matter)이 기술되었으나, 부기된 청구항에 정의된 대상은 반드시 앞서 기술된 특정한 특징 또는 행위에 한정되는 것은 아니라고 이해되어야 한다. 오히려, 앞서 기술된 특정한 특징 및 행위는 청구항을 구현하는 예시적 형태로서 개시된 것이다. 발명의 범주는 본 문서에 부기된 청구항에 의해 정의되는 것으로 의도된다.

Claims

혼합 현실 경험(mixed reality experience)을 하나 이상의 사용자에게 제시하는 시스템으로서,
상기 하나 이상의 사용자를 위한 하나 이상의 디스플레이 디바이스 - 각각의 디스플레이 디바이스는 상기 디스플레이 디바이스의 사용자에게 가상 객체(virtual object)를 디스플레이하는 디스플레이 유닛(display unit)을 포함함 - 와,
상기 하나 이상의 디스플레이 디바이스에 동작가능하게 연결된 컴퓨팅 시스템 - 상기 컴퓨팅 시스템은 상기 하나 이상의 디스플레이 디바이스 상에 디스플레이할 상기 가상 객체를 생성하고, 상기 컴퓨팅 시스템은 상기 하나 이상의 사용자 중 한 사용자가 움직이고 있는 경우 제1 포지션(position)에서 상기 사용자에게 상기 가상 객체를 디스플레이하며, 상기 컴퓨팅 시스템은 상기 사용자가 움직이지 않는 경우 상기 사용자를 향하도록 회전된 제2 포지션에서 상기 사용자에게 상기 가상 객체를 디스플레이하고, 상기 제1 포지션으로부터 상기 제2 포지션으로의 상기 가상 객체의 움직임은 상기 사용자가 움직임을 중단함으로써 트리거링됨 - 을 포함하는
시스템.
제1항에 있어서,
상기 컴퓨팅 시스템은 하나 이상의 처리 유닛 및 허브 컴퓨팅 시스템 중 적어도 하나를 포함하는
시스템.
제1항에 있어서,
상기 컴퓨팅 시스템은 사전결정된 각속도로 상기 제1 포지션과 상기 제2 포지션 사이에서 회전하는 것으로 상기 가상 객체를 디스플레이하는
시스템.
제1항에 있어서,
상기 컴퓨팅 시스템은 상기 사용자가 사전결정된 기간 동안 움직이지 않을 때 상기 제1 포지션과 상기 제2 포지션 사이에서 회전하는 것으로 상기 가상 객체를 디스플레이하는
시스템.
제1항에 있어서,
상기 사용자의 머리가 움직이지 않는 것으로 분류되는 경우 상기 사용자는 움직이지 않는 것이며 상기 컴퓨팅 시스템은 상기 가상 객체를 상기 제2 포지션에서 디스플레이하는
시스템.
제1항에 있어서,
상기 사용자가 앉아 있는 경우 상기 사용자는 움직이지 않는 것이며 상기 컴퓨팅 시스템은 상기 가상 객체를 상기 제2 포지션에서 디스플레이하는
시스템.
제1항에 있어서,
상기 사용자가 사전결정된 기간 동안 작은 직경 내에서 움직이는 것으로 제한되는 경우 상기 사용자는 움직이지 않는 것이며 상기 컴퓨팅 시스템은 상기 가상 객체를 상기 제2 포지션에서 디스플레이하는
시스템.
제1항에 있어서,
상기 가상 객체는 가상 디스플레이 슬레이트(virtual display slate)인
시스템.
제1항에 있어서,
상기 컴퓨팅 시스템은 상기 사용자로 하여금 가상 객체를 선택하게 하고, 제스처(gesture)를 이용하여 상기 가상 객체를 3차원 공간 내의 새로운 포지션으로 움직이게 하는
시스템.
제9항에 있어서,
상기 가상 객체는 상기 사용자의 손, 몸체 또는 눈을 사용하여 제스처를 수행함으로써 상기 사용자에 의해 선택되는
시스템.
혼합 현실 경험을 사용자에게 제시하는 시스템으로서,
상기 사용자를 위한 디스플레이 디바이스 - 상기 디스플레이 디바이스는 상기 디스플레이 디바이스의 포지션에 관한 데이터를 감지하는 제1 세트의 센서 및 상기 디스플레이 디바이스의 상기 사용자에게 가상 객체를 디스플레이하는 디스플레이 유닛을 포함함 - 와,
상기 디스플레이 디바이스에 동작가능하게 연결된 컴퓨팅 시스템 - 상기 컴퓨팅 시스템은 상기 사용자의 포지션에 관한 데이터를 감지하는 제2 세트의 센서를 포함하고, 상기 컴퓨팅 시스템은 상기 디스플레이 디바이스 상에 디스플레이할 상기 가상 객체를 생성하며, 상기 컴퓨팅 시스템은 상기 사용자가 움직이고 있는 것으로부터 사전결정된 기간 동안 움직이지 않는 것으로 자신의 움직임을 변경하는 경우 상기 사용자에게 상기 가상 객체를 상기 사용자의 몸체를 향하도록 회전하는 것으로 디스플레이함 - 을 포함하는
시스템.
제11항에 있어서,
상기 가상 객체는 동적 가상 객체이고, 상기 컴퓨팅 시스템은 정적 가상 객체인 제2 가상 객체를 디스플레이하되, 상기 컴퓨팅 시스템은 상기 사용자가 움직이고 있는 것으로부터 사전결정된 기간 동안 움직이지 않는 것으로 자신의 움직임을 변경하는 경우 상기 사용자에게 상기 정적 가상 객체를 세계에 고정된(world-locked) 채 있으며 상기 사용자를 향하도록 회전하지 않는 것으로 디스플레이하는
시스템.
제11항에 있어서,
상기 컴퓨팅 시스템은 상기 사용자에게 복수의 가상 객체를 디스플레이하되, 상기 사용자가 움직이고 있는 것으로부터 사전결정된 기간 동안 움직이지 않는 것으로 자신의 움직임을 변경하는 경우 상기 복수의 가상 객체 전부는 상기 사용자를 향해 회전하는 것으로 디스플레이되는
시스템.
제11항에 있어서,
상기 컴퓨팅 시스템은 상기 사용자에게 복수의 가상 객체를 디스플레이하고, 사전정의된 반경 내의 상기 복수의 가상 개체의 서브세트는 상기 사용자가 움직이고 있는 것으로부터 사전결정된 기간 동안 움직이지 않는 것으로 자신의 움직임을 변경하는 경우 상기 사용자를 향해 회전하는 것으로 디스플레이되며, 상기 복수의 가상 객체 중 상기 서브세트를 제외한 가상 객체는 상기 사용자에게 세계에 고정된 채 있으며 상기 사용자를 향하도록 회전하지 않는 것으로 디스플레이되는
시스템.
제11항에 있어서,
상기 가상 객체는 가상 디스플레이 슬레이트인
시스템.
제11항에 있어서,
상기 컴퓨팅 시스템은 정적 이미지들 및 동적 이미지들 가운데 하나 중 적어도 하나를 가상 디스플레이 슬레이트 상에 디스플레이하는
시스템.
프로세서를 포함하는 컴퓨팅 시스템을 사용하여, 혼합 현실 경험을 하나 이상의 사용자에게 제시하는 방법으로서,
(a) 상기 프로세서에 의하여, 사용자가 가상 객체에 대해서 움직일 때 상기 사용자의 시계(field of view) 내의 제1 포지션에서 상기 사용자에게 상기 가상 객체를 디스플레이하는 단계와,
(b) 상기 프로세서에 의하여, 상기 사용자가 사전결정된 기간 동안 계속 움직이지 않고 있는 경우 상기 가상 객체를 상기 사용자를 향하도록 상기 제1 포지션에서 제2 포지션으로 회전시키는 단계를 포함하는
방법.
제17항에 있어서,
상기 가상 객체는 동적 가상 객체를 포함하고,
상기 방법은,
(c) 상기 프로세서에 의하여, 상기 사용자가 상기 가상 객체에 대해서 움직이고 있다고 결정되면 상기 사용자의 시계 내의 포지션에서 상기 사용자에게 정적 가상 객체를 디스플레이하는 단계와,
(d) 상기 프로세서에 의하여, 상기 사용자가 사전결정된 기간 동안 움직이지 않는다고 결정되면 정지된 세계에 고정된 포지션(a stationary world-locked position)에서 상기 정적 가상 객체를 유지하는 단계를 포함하는
방법.
제17항에 있어서,
상기 가상 객체는 상기 사용자가 다시 움직이면 상기 제1 포지션으로 도로 회전하는
방법.
제17항에 있어서,
상기 사용자가 다시 움직이면 상기 가상 객체는 상기 제2 포지션 내에 머무르는
방법.