KR20230124968A

KR20230124968A - 증강 현실 및 가상 현실 디바이스를 위한 역방향 통과안경

Info

Publication number: KR20230124968A
Application number: KR1020237024223A
Authority: KR
Inventors: 나단 마츠다; 브라이언 휠라이트; 조엘 헤그랜드; 제이슨 사라기; 스티븐 앤서니 롬바르디; 크리우즈 토마스 사이먼; 슌스케 사이토; 스케 사이토; 마이클 졸호퍼; 제임스 헨리 헤이즈; 아미트 라즈
Original assignee: 메타 플랫폼즈 테크놀로지스, 엘엘씨
Priority date: 2020-12-23
Filing date: 2021-12-23
Publication date: 2023-08-28
Also published as: TW202238222A; JP2024504012A; WO2022140658A2; EP4260129A2; WO2022140658A3

Abstract

헤드셋 디스플레이의 사용자의 역방향 통과 뷰를 구경자에게 제공하기 위한 디바이스는 광학 표면의 제1 면 상에 사용자에게 이미지를 제공하도록 구성된 광학 표면을 포함하는 아이피스를 포함한다. 디바이스는 또한, 제1 시야에서 광학 표면으로부터 반사된 사용자의 얼굴의 일부분의 이미지를 수집하도록 구성된 제1 카메라, 광학 표면에 인접하며 사용자의 얼굴의 이미지를 전방으로 투영하도록 구성된 디스플레이, 및 디스플레이로부터 광을 수신하고 사용자의 얼굴의 이미지를 구경자에게 제공하도록 구성된 스크린을 포함한다.

Description

증강 현실 및 가상 현실 디바이스를 위한 역방향 통과 안경

본 개시는 전방 구경자(onlooker)에게 사용자의 얼굴 피처의 사실적인 뷰를 제공하는 역방향 통과 피처(reverse pass-through feature)를 포함하는 증강 현실(AR; augmented reality) 및 가상 현실(VR; virtual reality) 디바이스에 관한 것이다. 보다 구체적으로, 본 개시는 AR/VR 헤드셋 사용자의 구경자를 위한 오토스테레오스코픽(autostereoscopic) 외부 디스플레이를 제공한다.

AR 및 VR 디바이스 분야에서, 일부 디바이스는 디바이스의 사용자를 위해 디스플레이되고 있는 이미지의 뷰를 구경자에게 제공하는, 외부를 향한 디스플레이를 포함한다. 이 구성은 AR 또는 VR 디바이스의 사용자가 경험하고 있는 것을 구경자가 더 잘 이해할 수 있게 하지만, 사용자의 마음 상태 또는 사용자의 주의 집중이 무엇인지에 대해 구경자에게 단서를 남기지 않는데, 예컨대 사용자가 통과 모드를 사용하여 구경자에게 말하려고 시도하고 있으며 가상 현실 환경에 달리 참여하지 않는 경우 그러하다. 또한, 외부를 향한 디스플레이를 갖는 이러한 디바이스의 경우, 이들은 통상적으로, 디바이스 내에서의 사용자의 얼굴 또는 머리의 정확한 깊이 및 거리를 묘사하는 것과 같은, 사용자의 얼굴 또는 머리의 적어도 일부분의 실체 이미지의 사실적인 뷰가 결여된 전통적인 2차원 디스플레이이다.

본 개시의 제1 양상에 따르면, 디바이스에 있어서, 대상(subject)에게 이미지를 제공하도록 구성된 근안 디스플레이(near-eye display); 상기 대상의 이미지를 수집하도록 구성된 눈 이미징 시스템; 및 상기 대상의 3차원 모델의 오토스테레오스코픽 이미지를 구경자에게 제공하도록 구성된 라이트 필드 디스플레이(light field display) - 상기 오토스테레오스코픽 이미지는 상기 라이트 필드 디스플레이의 시야 내의 다수의 시점들로부터 상기 대상의 원근 보정된 뷰를 포함함 - 를 포함하는 디바이스가 제공된다.

일부 실시예에서, 상기 라이트 필드 디스플레이는 픽셀 어레이 및 멀티-렌즈릿(multi-lenslet) 어레이를 포함하고, 상기 픽셀 어레이는 상기 멀티-렌즈릿 어레이에 상기 대상의 분할된 뷰를 제공하도록 구성되며, 상기 분할된 뷰는 선택된 시점에서 상기 라이트 필드 디스플레이의 시야의 다수의 부분들을 포함한다.

일부 실시예에서, 상기 눈 이미징 시스템은 상기 대상의 양안 뷰(binocular view)를 수집하기 위해 2개의 카메라를 포함한다.

일부 실시예에서, 상기 디바이스는, 하나 이상의 프로세서 및 상기 하나 이상의 프로세서에 의해 실행될 때 상기 대상의 이미지로부터 상기 대상의 3차원 표현을 생성하는 명령어를 저장한 메모리를 더 포함한다.

일부 실시예에서, 상기 근안 디스플레이는 상기 대상에게 상기 구경자를 포함한 환경의 3차원 표현을 제공한다.

일부 실시예에서, 상기 눈 이미징 시스템은 상기 라이트 필드 디스플레이에 인접한 다이크로익 미러(dichroic mirror)로부터 반사 모드에서 상기 대상으로부터 이미지를 수신하는 적외선 카메라를 포함한다.

일부 실시예에서, 상기 라이트 필드 디스플레이는 상기 구경자를 위해, 2개의 시점에 대한 원근 보정된 뷰 사이의 혼선을 피하기 위해 미리 선택된 피치를 갖는 2차원 패턴으로 배열된 다수의 마이크로 렌즈들을 갖는 마이크로 렌즈 어레이를 포함한다.

일부 실시예에서, 상기 라이트 필드 디스플레이는 마이크로 렌즈 어레이에 인접한 침지 스탑(immersed stop)을 더 포함하며, 상기 침지 스탑은 각각의 조리개(aperture)가 상기 마이크로 렌즈 어레이의 각 마이크로 렌즈의 중심과 정렬되도록 다수의 조리개들을 포함한다.

일부 실시예에서, 상기 라이트 필드 디스플레이는 다수의 활성 세그먼트들로 분할된 픽셀 어레이를 포함하고, 상기 픽셀 어레이에서의 각각의 활성 세그먼트는 멀티-렌즈릿 어레이의 굴절 요소의 직경에 대응하는 치수를 갖는다.

일부 실시예에서, 상기 디바이스는, 하나 이상의 프로세서 및 상기 하나 이상의 프로세서에 의해 실행될 때 상기 라이트 필드 디스플레이가 픽셀 어레이를 다수의 활성 세그먼트들로 분할하게 하는 명령어를 저장한 메모리를 더 포함하며, 각각의 활성 세그먼트는 상기 구경자를 위해 선택된 시점에서 상기 라이트 필드 디스플레이의 시야의 일부분을 제공하도록 구성된다.

본 개시의 제2 양상에 따르면, 컴퓨터 구현 방법(computer-implemented method)에 있어서, 하나 이상의 헤드셋 카메라로부터, 헤드셋 사용자인 대상의 적어도 2개 이상의 시야를 갖는 다수의 이미지들을 수신하는 단계; 학습 가능한 가중치 세트를 사용하여 상기 이미지들로부터 다수의 이미지 피처들을 추출하는 단계; 상기 학습 가능한 가중치 세트를 사용하여 상기 대상의 3차원 모델을 형성하는 단계; 상기 대상의 이미지 투영을 구경자를 위한 선택된 관찰 포인트와 연관시키는 오토스테레오스코픽 디스플레이 포맷에 상기 대상의 3차원 모델을 매핑하는 단계; 및 상기 구경자가 상기 선택된 관찰 포인트에 위치될 때 상기 대상의 이미지 투영을 디바이스 디스플레이 상에 제공하는 단계를 포함하는, 컴퓨터 구현 방법이 제공된다.

일부 실시예에서, 상기 이미지 피처들을 추출하는 단계는 상기 이미지들의 각각을 수집하는 데 사용된 헤드셋 카메라의 고유 속성(intrinsic property)을 추출하는 단계를 포함한다.

일부 실시예에서, 상기 대상의 3차원 모델을 오토스테레오스코픽 디스플레이 포맷에 매핑하는 단계는 제1 관찰 포인트와 연관된 피처 맵을 제2 관찰 포인트와 연관된 피처 맵으로 보간하는 단계를 포함한다.

일부 실시예에서, 상기 대상의 3차원 모델을 오토스테레오스코픽 디스플레이 포맷에 매핑하는 단계는 상기 선택된 관찰 포인트의 방향을 따라 다수의 픽셀들에 대한 이미지 피처들을 집계(aggregating)하는 단계를 포함한다.

일부 실시예에서, 상기 대상의 3차원 모델을 오토스테레오스코픽 디스플레이 포맷에 매핑하는 단계는 상기 헤드셋 카메라의 각각에 의해 생성된 다수의 피처 맵들을 순열 불변 조합으로 연결(concatenating)하는 단계를 포함하며, 상기 헤드셋 카메라의 각각은 고유 특성을 갖는다.

일부 실시예에서, 상기 대상의 이미지 투영을 제공하는 단계는, 상기 구경자가 제1 관찰 포인트로부터 제2 관찰 포인트로 이동함에 따라 상기 디바이스 디스플레이 상에 제2 이미지 투영을 제공하는 단계를 포함한다.

본 개시의 제3 양상에 따르면, 다수의 합성 뷰들을 생성하는 것을 포함하여, 가상 현실 헤드셋에서의 오토스테레오스코픽 디스플레이에 대상의 뷰를 제공하도록 모델을 트레이닝하기 위한 컴퓨터 구현 방법에 있어서, 다수의 사용자들의 얼굴로부터 다수의 실측(ground-truth) 이미지들을 수집하는 단계; 저장되고 교정된 스테레오스코픽 이미지 쌍으로 상기 실측 이미지를 수정(rectify)하는 단계; 상기 대상의 이미지 투영을 구경자를 위한 선택된 관찰 포인트와 연관시키는 오토스테레오스코픽 디스플레이 포맷에 상기 대상의 3차원 모델을 매핑하는 단계; 상기 실측 이미지와 상기 대상의 이미지 투영 사이의 차이에 기초하여 손실 값을 결정하는 단계; 및 상기 손실 값에 기초하여 상기 대상의 3차원 모델을 업데이트하는 단계를 포함하는 컴퓨터 구현 방법이 제공된다.

일부 실시예에서, 상기 다수의 합성 뷰들을 생성하는 것은 선택된 관찰 방향을 따라 상기 실측 이미지의 각각으로부터의 이미지 피처를 투영하고 상기 실측 이미지의 각각에 의해 생성된 다수의 피처 맵들을 순열 불변 조합으로 연결하는 것을 포함하며, 상기 실측 이미지의 각각은 고유 특성을 갖는다.

일부 실시예에서, 상기 대상의 3차원 모델을 트레이닝하는 것은 상기 실측 이미지와 상기 대상의 이미지 투영 사이의 차이를 나타내는 손실 함수의 값에 기초하여 다수의 피처들 각각에 대한 학습 가능한 가중치 세트에서의 적어도 하나를 업데이트하는 것을 포함한다.

일부 실시예에서, 상기 대상의 3차원 모델을 트레이닝하는 것은 상기 다수의 실측 이미지들로부터 투영된 픽셀 배경 값에 기초하여 상기 실측 이미지에서의 다수의 픽셀들 각각에 대한 배경 값을 트레이닝하는 것을 포함한다.

본 개시의 제4 양상에 따르면, 명령어를 저장하기 위한 제1 수단 및 방법을 수행하도록 상기 명령어를 실행하기 위한 제2 수단을 포함하는 시스템이 제공되며, 상기 방법은 대상의 적어도 2개 이상의 시야를 갖는 다수의 2차원 이미지들을 수신하고, 학습 가능한 가중치 세트를 사용하여 상기 2차원 이미지들로부터 다수의 이미지 피처들을 추출하고, 상기 대상의 3차원 모델과 구경자를 위한 선택된 관찰 포인트 사이의 방향을 따라 상기 이미지 피처들을 투영하고, 상기 대상의 3차원 모델의 오토스테레오스코픽 이미지를 상기 구경자에게 제공하는 것을 포함한다.

본 개시의 하나 이상의 양상 또는 실시예에 통합하기에 적합한 것으로서 여기에 기재된 임의의 특징은 본 개시의 임의의 및 모든 양상 및 실시예에 걸쳐 일반화될 수 있는 것으로 의도됨을 알 것이다. 본 발명의 다른 양상은 본 개시의 설명, 청구항 및 도면에 비추어 당업자에 의해 이해될 수 있다. 전술한 일반적인 설명 및 다음의 상세한 설명은 단지 예시적이고 설명을 위한 것이며 청구범위를 제한하지 않는다.

도 1a는 일부 실시예에 따른, 오토스테레오스코픽 외부 디스플레이를 포함하는 AR 또는 VR 디바이스를 예시한다.
도 1b는 일부 실시예에 따른, 전방 구경자가 보는 AR 또는 VR 디바이스의 사용자를 예시한다.
도 2는 일부 실시예에 따른, 전방 구경자에게 사용자 얼굴의 역방향 통과 뷰를 제공하도록 구성된 AR 또는 VR 디바이스용 아이피스(eyepiece)의 상세도를 예시한다.
도 3a 내지 도 3d는 일부 실시예에 따른, 전방 구경자에게 AR 또는 VR 디바이스 사용자의 역방향 통과 뷰를 제공하기 위해 사용되는 마이크로 렌즈 어레이의 상이한 양상들 및 컴포넌트들을 예시한다.
도 4는 일부 실시예에 따른, 전방 구경자에게 AR 또는 VR 디바이스 사용자의 광각 고해상도 뷰를 제공하기 위해 라이트 필드 디스플레이를 통한 레이 트레이싱(ray-tracing) 뷰를 예시한다.
도 5a 내지 도 5d는 일부 실시예에 따른, AR 또는 VR 디바이스 사용자의 광각 고해상도 뷰를 제공하기 위해 사용되는 마이크로 렌즈 어레이에서의 해상도 파워 특성의 상이한 양상들을 예시한다.
도 6은 일부 실시예에 따른, AR 또는 VR 디바이스 사용자의 얼굴의 일부분의 3D 렌디션(rendition)을 예시한다.
도 7은 일부 실시예에 따른, VR/AR 헤드셋 사용자의 얼굴의 일부분의 3D 렌디션에 사용되는 모델 아키텍처의 블록도를 예시한다.
도 8a 내지 도 8d는 일부 실시예에 따른, 가상 현실 헤드셋의 오토스테레오스코픽 디스플레이에 사용자 얼굴의 일부분의 뷰를 제공하도록 모델을 트레이닝하기 위한 방법에서의 요소들 및 단계들을 예시한다.
도 9는 일부 실시예에 따른, VR/AR 헤드셋 사용자의 얼굴의 오토스테레오스코픽 뷰를 제공하기 위한 방법에서의 흐름도를 예시한다.
도 10은 사용자 얼굴의 일부분의 다수의 2차원(2D) 이미지들로부터 사용자 얼굴의 일부분의 3차원(3D) 뷰를 렌더링하기 위한 방법에서의 흐름도를 예시한다.
도 11은 일부 실시예에 따른, 사용자 얼굴의 일부분의 다수의 2차원(2D) 이미지들로부터 사용자 얼굴의 일부분의 3차원(3D) 뷰를 렌더링하도록 모델을 트레이닝하기 위한 방법에서의 흐름도를 예시한다.
도 12는 일부 실시예에 따른, AR 또는 VR 디바이스를 사용하기 위한 방법들 중 적어도 일부를 수행하도록 구성된 컴퓨터 시스템을 예시한다.
도면에서, 명시적으로 달리 언급되지 않는 한, 유사한 요소들은 그의 설명에 따라 마찬가지로 라벨링된다.

이하의 상세한 설명에서, 본 개시의 완전한 이해를 제공하기 위해 다수의 구체적 세부사항이 기재된다. 그러나, 본 개시의 실시예가 이러한 구체적 세부사항 중 일부 없이 실시될 수 있다는 것이 당업자에게 명백할 것이다. 다른 경우에, 본 개시를 모호하게 하지 않도록 잘 알려진 구조물 및 기술은 상세히 도시되지 않았다.

AR 및 VR 디바이스 및 이의 사용 분야에서, 사용자와 환경 사이에 단절이 존재하며, 이는 사용자 및 근처 다른 사람에게 위험하지 않더라도, 사용자를 둘러싼 사람들에게 성가실 수 있다. 일부 시나리오에서, 사용자가 대화 또는 주의를 끌기 위해 하나 이상의 구경자를 참여시키는 것이 바람직할 수 있다. 현재의 AR 및 VR 디바이스는, 구경자가 참여하고 사용자의 주의 집중을 확인할 수 있는 능력이 부족하다.

통상적으로, 깊은 초점 거리를 갖는 광각 시야 또는 3차원 디스플레이를 매칭시키려는 디스플레이 애플리케이션은 디스플레이의 공간 해상도에 대해 타협할 필요가 있다. 하나의 접근법은 해상도를 증가시키기 위해 디스플레이 내의 픽셀의 크기를 감소시키는 것이지만, 현재의 최신 기술에서의 픽셀 크기는 가시광 및 근적외선 광의 회절 한계에 도달하고 있으며, 이는 달성될 수 있는 궁극적인 해상도에 한계를 부과한다. AR 및 VR 디바이스의 경우, 이들 디바이스에 수반되는 폼 팩터 및 각도 치수와 연관된 제한된 범위를 감안하면, 공간 해상도와 각도 해상도 간의 이러한 절충은 덜 불가피하다.

AR/VR 디바이스의 바람직한 특징은 작은 폼 팩터를 갖는 것이다. 따라서, 더 얇은 디바이스가 바람직하다. 이를 달성하기 위해, 더 짧은 작동 거리를 갖는 멀티-렌즈릿 어레이(MLA; multi-lenslet array) 라이트 필드 디스플레이는 홀로그래픽 팬케이크 렌즈의 편리한 설계를 사용함으로써 제한된 해상도 손실을 가지면서 VR 헤드셋의 얇은 단면을 제공한다.

AR/VR 디바이스의 또 다른 바람직한 특징은 고해상도를 제공하는 것이다. 이는 초점 깊이에 대한 한계를 부과하지만, 복잡한 장면을 캡처하는 데 사용되는 광학 시스템에서 공통적인 이 제한은, 외부 디스플레이와 사용자 얼굴 사이의 거의 변하지 않는 상대적 위치에 의해 필드의 깊이가 제한되기 때문에, 본원에서 개시되는 외부 디스플레이의 경우 덜 엄격하다.

본원에 개시된 실시예는 광범위하게 다양한 애플리케이션에 대하여 VR 헤드셋을 사용하는 대면 상호작용(in-person interaction)의 품질을 개선하며, VR 헤드셋을 착용한 한 명 이상의 사람이 VR 헤드셋을 착용하지 않은 한 명 이상의 사람과 상호작용한다. 본원에서 논의되는 실시예는 VR 사용자와 구경자 또는 다른 VR 사용자 사이의 마찰을 제거하고, VR과 AR 사이의 간극을 해소하며, 즉 시스루(see-through) AR의 이점이 VR 시스템의 더 정교하고 더 높은 몰입 용량과 함께 존재한다. 따라서, 본원에 개시된 실시예는 강렬하고 더 자연스러운 VR 경험을 제공한다.

보다 일반적으로, 본원에 개시된 실시예는 구경자에게 표준 투시 안경 쌍처럼 보이는 AR/VR 헤드셋을 제공하며, AR/VR 사용자가 주변 환경에 더 잘 참여할 수 있게 한다. 이는 AR/VR 사용자가 다른 사람 또는 구경자와 상호작용하는 시나리오에서 매우 유용하다.

도 1a는 일부 실시예에 따른, 오토스테레오스코픽 외부 디스플레이(110A)를 포함하는 헤드셋(10A)을 예시한다. 헤드셋(10A)은 사용자의 머리에 장착되도록 구성된 AR 또는 VR 디바이스일 수 있다. 헤드셋(10A)은, 스트랩(15)에 의해 기계적으로 결합되고 전자 컴포넌트(20)를 사용자의 머리 뒤에 고정하기 위한 유연한 마운트를 갖는 2개의 아이피스(100A)를 포함한다. 플렉스 커넥터(5)가 아이피스(100A)를 전자 컴포넌트(20)와 전자적으로 결합할 수 있다. 아이피스(100A)의 각각은, 선택된 시야(FOV)에서 광학 표면으로부터 반사된 사용자의 얼굴의 일부분의 이미지를 수집하도록 구성된 눈 이미징 시스템(115-1 및 115-2)(이하, 집합적으로 "눈 이미징 시스템(115)"으로 지칭됨)을 포함한다. 눈 이미징 시스템(115)은, 사용자 얼굴의 적어도 일부분의 3차원 스테레오스코픽 뷰를 생성하기 위해, 상이한 FOV에서 사용자의 눈의 2개의 이미지를 수집하는 이중 눈 카메라를 포함할 수 있다. 눈 이미징 시스템(115)은 전자 컴포넌트로 동공 위치 및 움직임에 관한 정보를 제공할 수 있다. 아이피스(100A)는 또한, 광학 표면에 인접하고 사용자로부터 전방으로 사용자의 얼굴의 오토스테레오스코픽 이미지를 투영하도록 구성된 외부 디스플레이(110A)(예컨대, 라이트 필드 디스플레이)를 포함할 수 있다.

일부 실시예에서, 전자 컴포넌트(20)는, 명령어를 저장하는 메모리 회로(112), 및 눈 이미징 시스템(115)으로부터 사용자의 얼굴의 부분의 이미지를 수신하고 외부 디스플레이(110A)에 사용자의 얼굴의 오토스테레오스코픽 이미지를 제공하도록 명령어를 실행하는 프로세서 회로(122)를 포함할 수 있다. 또한, 전자 컴포넌트(20)는 또한, 하나 이상의 눈 카메라로부터 사용자 얼굴의 부분으로부터의 이미지를 수신하고, 가상 현실 디스플레이 또는 외부 뷰의 양상에 대해 사용자에 의한 시선, 이향 및 초점을 평가하기 위해 이미지 분석을 적용할 수 있다. 일부 실시예에서, 전자 컴포넌트(20)는 네트워크와 통신하도록 구성된 통신 모듈(118)을 포함한다. 통신 모듈(118)은 메모리(112) 및 프로세서(122)를 외부 네트워크 또는 일부 다른 디바이스와 무선으로 통신하기 위한 무선 주파수 소프트웨어 및 하드웨어를 포함할 수 있다. 따라서, 통신 모듈(118)은 무선 안테나, 트랜시버, 및 센서, 그리고 또한 Wi-Fi, 블루투스(Bluetooth), NFC(Near field contact) 등과 같은 다수의 무선 프로토콜들 중 임의의 하나에 따라 신호 프로세싱을 위한 디지털 프로세싱 회로를 포함할 수 있다. 또한, 통신 모듈(118)은 헤드셋(10A)과 협력하는 다른 입력 툴 및 액세서리(예컨대, 핸들 스틱, 조이스틱, 마우스, 무선 포인터 등)와도 통신할 수 있다.

일부 실시예에서, 아이피스(100A)는 사용자에 대하여 장면의 전방 뷰를 캡처하기 위해 하나 이상의 외부 카메라(125-1 및 125-2)(이하, 집합적으로 "외부 카메라(125)"로 지칭됨)를 포함할 수 있다. 일부 실시예에서, 외부 카메라(125)는, 이중 눈 카메라에 의해 제공되는 사용자 얼굴의 부분의 이미지로부터 도출될 수 있는 사용자 뷰의 시선, 이향 및 기타 특징에 기초하여, 사용자가 특히 관심을 가질 수 있는 전방 뷰의 양상에 초점을 맞추거나 지향될 수 있다(예컨대, 프로세서(122)에 의해).

도 1b는 일부 실시예에 따른, 전방 구경자가 보는 헤드셋(10B)을 예시한다. 일부 실시예에서, 헤드셋(10B)은 "스노클(snorkel)" 구성의 AR 또는 VR 디바이스일 수 있다. 이하, 헤드셋(10A 및 10B)은 집합적으로 "헤드셋(10)"으로 지칭될 것이다. 일부 실시예에서, 바이저(100B)는 사용자(101)의 뷰를 구경자(102)에게 제공하는 단일 전방 디스플레이(110B)를 포함할 수 있다. 디스플레이(110B)는 사용자(101)의 두 눈, 코의 일부분, 눈썹, 및 다른 얼굴 특징을 갖는 얼굴의 일부분을 포함한다. 또한, 사용자 얼굴의 오토스테레오스코픽 이미지(111)는, 사용자(101)의 시선 방향 및 이향 또는 주의 집중을 나타내는, 사용자 눈의 정확한 실시간 포지션과 같은 세부사항을 포함할 수 있다. 이는 말한 어떤 것 또는 사용자의 주의를 끌 수 있는 일부 다른 환경적 방해 또는 감각적 입력에 사용자가 주의를 기울이고 있는지 여부를 구경자(102)에게 나타낼 수 있다.

일부 실시예에서, 오토스테레오스코픽 이미지(111)는 사용자의 얼굴의 3D 렌더링을 제공한다. 따라서, 구경자(102)는 사용자 얼굴 및 심지어 사용자 머리의 실체 뷰를 가지며, 구경자(102)가 시야각을 변경함에 따라 관점(perspective)을 변경한다. 일부 실시예에서, 외부로 투영된 디스플레이(110B)는 사용자 얼굴의 일부분의 이미지에 추가적인 이미지 피처를 포함할 수 있다. 예를 들어, 일부 실시예에서, 외부로 투영된 디스플레이는 사용자 얼굴의 이미지에 중첩된 이미지 내의 가상 요소(예컨대, 사용자가 실제로 보고 있는 가상 이미지의, 또는 환경 내의 실제 광원의, 반사 또는 눈부심)를 포함할 수 있다.

도 2는 일부 실시예에 따른, 전방 구경자에게 사용자 얼굴의 역방향 통과 뷰를 제공하도록 구성된 AR 또는 VR 디바이스용 아이피스(200)의 상세도를 예시한다(아이피스(100A) 및 스노클 바이저(100B) 참조). 아이피스(200)는 광학 표면(220)의 제1 면에서 사용자에게 이미지를 제공하도록(좌측으로) 구성된 광학 표면(220)을 포함한다. 일부 실시예에서, 사용자에의 이미지는 전방 카메라(225)에 의해 제공될 수 있고, 광학 표면(220)은 전방 카메라(225)에 결합된 디스플레이를 포함할 수 있다. 일부 실시예에서, 광학 표면(220)에서의 이미지는 메모리에 저장된 명령어를 실행하는 프로세서(예컨대, VR 디바이스의 경우, 메모리(112) 및 프로세서(122))에 의해 제공되는 가상 이미지일 수 있다. 일부 실시예(예컨대, AR 디바이스의 경우)에서, 사용자에의 이미지는 적어도 부분적으로, 투명 광학 컴포넌트(예컨대, 렌즈, 도파관, 프리즘 등)를 통해 아이피스(200)의 전방 면으로부터 투과된 이미지를 포함할 수 있다.

일부 실시예에서, 아이피스(200)는 또한, 두 개의 상이한 FOV에서 사용자 얼굴의 제1 및 제2 이미지(예컨대, 사용자의 눈)를 수집하도록 구성된 제1 눈 카메라(215A) 및 제2 눈 카메라(215B)(이하, 집합적으로 "눈 카메라(215)"로 지칭됨)를 포함한다. 일부 실시예에서, 눈 카메라(215)는 핫 미러(hot mirror) 어셈블리(205)로부터 반사 모드로 사용자 얼굴의 이미지를 수집하는 적외선 카메라일 수 있다. 조명 링(211)이 눈 카메라(215)에 의해 이미징되려고 하는 사용자 얼굴의 부분에 조명을 제공할 수 있다. 따라서, 광학 표면(220)은, 눈 카메라(215)에 의해 동작되는 광의 파장(예컨대, 적외선 도메인)에서 반사성이도록, 그리고 사용자에게 이미지를 제공하는 광, 예컨대 적색 (R), 청색(B), 및 녹색(G) 픽셀을 포함하는 가시 도메인에서 투과성이도록(transmissive) 구성될 수 있다. 전방 디스플레이(210B)는 사용자의 얼굴의 오토스테레오스코픽 이미지를 구경자에게 투영한다(도면의 우측 끝으로).

도 3a 내지 도 3d는 일부 실시예에 따라, 전방 구경자에게 AR 또는 VR 디바이스에서의 사용자의 역방향 통과 뷰를 제공하기 위한 스크린으로서 사용되는 마이크로 렌즈 어레이(300)의 상이한 양상들 및 컴포넌트들을 예시한다. 일부 실시예에서, 마이크로 렌즈 어레이(300)는 픽셀 어레이(320)로부터 광을 수신하고, 사용자의 얼굴의 이미지를 구경자에게 제공한다. 일부 실시예에서, 사용자의 얼굴의 이미지는, 구경자 시야각에 따른, 사용자의 얼굴의 3D 렌디션의 사시도이다.

도 3a는 마이크로 렌즈 어레이(300)의 상세도이며, 피치(305)를 갖는 2차원 패턴(302)으로 배열된 다수의 마이크로 렌즈(301-1, 301-2 및 301-3)(이하, 집합적으로 "마이크로 렌즈(301)"로 지칭됨)를 포함한다. 일부 실시예에서, 구경자의 시점과 상이한 시야각들의 혼선을 피하기 위해, 하나의 애퍼처가 각각의 마이크로 렌즈(301)와 정렬되도록 애퍼처 마스크(315)가 마이크로 렌즈 어레이에 인접하여 배치될 수 있다.

예시적인 목적만을 위해, 패턴(302)은 밀리미터 미만(예컨대, 500 ㎛)의 피치(305)를 갖는 마이크로 렌즈(301)의 육각형 격자이다. 마이크로 렌즈 어레이(300)는 마이크로 렌즈(301)를 형성하는 오목면을 포함한 제1 표면 및 제2 표면(310)을 포함할 수 있으며, 제1 및 제2 표면(310)은 투과성 기판(307)(예컨대, N-N-BK7 유리, 플라스틱 등)에 의해 분리된다. 일부 실시예에서, 투과성 기판(307)은 약 200 ㎛의 두께를 가질 수 있다.

도 3b는 일부 실시예에 따른, 역방향 통과 헤드셋에서 사용하기 위한 라이트 필드 디스플레이(350)의 상세도이다. 라이트 필드 디스플레이(350)는 마이크로 렌즈 어레이(예컨대, 마이크로 렌즈 어레이(300))에 인접한 픽셀 어레이(320)를 포함하며, 예시적인 목적으로 이 중 마이크로 렌즈(301)만 도시된다. 픽셀 어레이(320)는 마이크로 렌즈(301)로 지향되는 광 빔(323)을 생성하는 다수의 픽셀(321)을 포함한다. 일부 실시예에서, 픽셀 어레이(320)와 마이크로 렌즈(301) 사이의 거리(303)는 마이크로 렌즈(301)의 초점 길이와 대략 동일할 수 있고, 따라서 나가는 광 빔(325)은 발신 픽셀(321)의 특정 포지션에 따라 상이한 방향으로 시준될 수 있다. 따라서, 픽셀 어레이(320)에서의 상이한 픽셀(321)은 구경자의 위치에 따라, 사용자 얼굴의 3D 표현의 상이한 시야각을 제공할 수 있다.

도 3c는 허니콤 패턴을 보여주는 마이크로 렌즈 어레이(300)의 평면도이다.

도 3d는 애퍼처 마스크(315) 상의 개구가 마이크로 렌즈 어레이(300) 상에 중심 위치되도록 애퍼처 마스크(315)가 인접하게 배치되어 있는 마이크로 렌즈 어레이(300)를 예시한다. 일부 실시예에서, 애퍼처 마스크(315)는 (예시된 바와 같이) 500 ㎛ 헥스팩 피치 위에 약 400 ㎛의 애퍼처를 갖는 크롬을 포함할 수 있다. 애퍼처 마스크(315)는 마이크로 렌즈 어레이(300)의 어느 한 측에 또는 양측에 제1 표면 또는 제2 표면(310)과 정렬될 수 있다.

도 4는 일부 실시예에 따른, AR/VR 디바이스의 사용자의 얼굴의 역방향 통과 이미지를 구경자에게 제공하기 위한 라이트 필드 디스플레이(450)의 레이 트레이싱(ray-tracing) 뷰를 예시한다. 일부 실시예에 따르면, 라이트 필드 디스플레이(450)는 AR 또는 VR 디바이스의 사용자의 얼굴의 광각 고해상도 뷰를 전방 구경자에게 제공하기 위해 사용되는 마이크로 렌즈 어레이(400)를 포함한다. 마이크로 렌즈 어레이(400)는 본원에 개시된 바와 같이 2차원 패턴으로 배열된 다수의 마이크로 렌즈(401)를 포함한다. 픽셀 어레이(420)는 AR 또는 VR 디바이스의 사용자의 얼굴의 적어도 일부분의 3D 렌디션을 생성하기 위해 마이크로 렌즈 어레이(400)를 통해 투과되는 광선(423)을 제공하는 다수의 픽셀(421)을 포함할 수 있다. 마이크로 렌즈 어레이(400)는 애퍼처 마스크(415)를 포함할 수 있다. 애퍼처 마스크(415)는 마이크로 렌즈 어레이(400)에서의 마이크로 렌즈 각각의 에지 근처에 차단 요소(blocking element)를 제공한다. 차단 요소는 광선(425A)에 비해 광선(425B, 425C)의 양을 감소시키며 구경자를 위하여 사용자 얼굴의 전방 뷰를 형성한다. 이는, 스크린 앞에 위치되며 사용자 얼굴의 3D 렌디션을 보는(도 4에 따르면, 아래로) 구경자에 대하여 혼선 및 고스트 효과를 감소시킨다.

도 5a 내지 도 5c는 일부 실시예에 따른, AR 또는 VR 디바이스의 사용자의 얼굴의 광각 고해상도 뷰를 제공하기 위한 마이크로 렌즈 어레이에서의 해상도 파워 특성(500A, 500B 및 500C)(이하, 집합적으로 "해상도 파워 특성(500)"으로 지칭됨)의 상이한 양상들을 예시한다. 해상도 파워 특성(500)에서의 가로 좌표(521)(X축)는 사용자 얼굴(예컨대, 사용자의 눈)과 마이크로 렌즈 어레이 사이의 이미지 거리(mm)를 나타낸다. 해상도 파워 특성(500)에서의 세로 좌표(522)(Y축)는, AR 또는 VR 디바이스를 착용한 사용자로부터 약 1미터 떨어져 위치된 구경자가 볼 때, 밀리미터당 주파수 값, 예컨대 디스플레이 상의 피처 사이클(사이클/mm)에 관하여 주어진 광 디스플레이 및 스크린을 포함하는 광학 시스템의 해상도이다.

도 5a는 구경자가 디스플레이와 구별할 수 있는 가장 높은 주파수인 컷오프(cutoff) 값을 포함하는 해상도 파워 특성(500A)을 예시한다. 곡선(501-1A 및 501-2A)(이하, 집합적으로 "곡선(501A)"으로 지칭됨)은 2개의 상이한 헤드셋 모델(각각 모델 1 및 모델 2로 지칭됨)과 연관된다. 특정 해상도는 이미지 거리 및 스크린의 다른 파라미터, 예컨대 마이크로 렌즈 어레이의 피치(예컨대, 피치(305))에 따라 달라진다. 일반적으로, 사용자의 눈과 스크린 사이의 거리가 클수록, 해상도 컷오프는 단조롭게 감소할 것이다(가로 좌표(521)를 따라 우측으로). 이는 곡선(501-2A)에 대한 컷오프 값(510-2A)(대략 0.1 사이클/mm) 및 곡선(501-1A)에 대한 컷오프 값(510-1A)(대략 0.25 사이클/mm)의 차이에 의해 예시된다. 실제로, 곡선(501-2A)에 대한 헤드셋 모델은, 곡선(501-1A)에 대한 헤드셋 모델(사용자 눈과 디스플레이 사이에 약 5 cm)보다 더 큰 이미지 거리(사용자 얼굴과 디스플레이 사이 10 cm에 가까움)를 갖는다. 또한, 더 넓은 피치(모델 2, 500 ㎛ 피치)를 갖는 마이크로 렌즈 어레이의 경우, 해상도 컷오프는 더 작은 피치(모델 1, 200 ㎛ 피치)에 비해 감소될 것이다.

도 5b는 포인트(510B)에서 약 5 cm의 이미지 거리를 가지며 약 0.3 사이클/mm의 공간 주파수를 제공하는 라이트 필드 디스플레이 모델(모델 3)에 대한 곡선(501B)을 포함하는 해상도 파워 특성(500B)을 예시한다.

도 5c는 곡선(501-1C, 501-2C, 501-3C 및 501-4C)(이하, 집합적으로 "곡선(501C)"으로 지칭됨)을 포함하는 해상도 파워 특성(500C)을 예시한다. 해상도 파워 특성(500C)에 대한 가로 좌표(521C)(X축)는 헤드셋 깊이(예컨대, 사용자의 눈/얼굴과 라이트 필드 디스플레이 사이의 거리와 유사함)를 나타내고, 세로 좌표(522C)(Y축)는 라이트 필드 디스플레이에서의 픽셀 어레이에 대한 픽셀 피치(마이크론, ㎛)를 나타낸다. 곡선(501C) 각각은 각각의 라이트 필드 디스플레이 모델에 대한 사이클 수/mm 컷오프 해상도를 나타낸다. 포인트(510B)는 고밀도 픽셀 패킹(10 ㎛ 피치 미만) 및 약 25 mm(예컨대,약 1 인치 이하)의 가까운 헤드셋 깊이를 갖는 라이트 필드 디스플레이 모델(모델 4)에 대하여 포인트(510C)에서 획득된 더 나은 해상도와 비교하여 예시된다.

도 5d는 라이트 필드 디스플레이 모델 각각에 대하여, 구경자에 따라 헤드셋을 착용한 사용자의 이미지(510-1D 및 510-2D)를 예시한다. 이미지(510-1D)는 라이트 필드 디스플레이(CF)의 모델 3을 이용해 획득되고, 이미지(510-2D)는 모델 4를 이용해 획득된다(포인트(510B 및 510C) 각각 참조). 모델 4의 해상도 성능은 모델 3의 해상도 성능보다 확실히 더 우수하며, 본 개시에 부합하는 모델 설계 측면에서 다른 트레이드오프들을 고려하여 원하는 해상도를 수용하기 위한 광범위한 가능성들이 있음을 나타낸다.

도 6은 일부 실시예에 따른, AR 또는 VR 디바이스의 사용자의 얼굴의 일부분의 3D 렌디션(621A 및 621B)(이하, 집합적으로 "3D 렌디션(621)"으로 지칭됨)을 예시한다. 일부 실시예에서, 3D 렌디션(621)은, 사용자 얼굴의 적어도 일부분(예컨대, 눈)의 다수의 2D 이미지(611)에 대해 동작하는 모델(650)에 의해 제공되고, AR 또는 VR 디바이스에서의 눈 이미징 시스템(눈 이미징 시스템(115) 및 눈 카메라(215) 참조)에 의해 제공된다. 모델(650)은 신경망(NN; neural networks), 컨볼루션 신경망(CNN; convolutional neural networks), 머신 러닝(ML; machine learning) 모델, 및 인공 지능(AI; artificial intelligence) 모델과 같은 선형 및/또는 비선형 알고리즘을 포함할 수 있다. 모델(650)은, 메모리 회로에 저장되며 프로세서 회로에 의해 실행되는 명령어를 포함한다. 메모리 회로 및 프로세서 회로는 AR 또는 VR 디바이스의 후면에 저장될 수 있다(예컨대, 전자 컴포넌트(20)에서의 메모리(112) 및 프로세서(122)). 따라서, 모델(650)을 생성, 업데이트 및 개선하기 위해 눈 이미징 시스템으로부터 다수의 2D 이미지(611)가 수신된다. 다수의 2D 이미지들은, 예컨대 눈 이미징 시스템에서의 2개의 상이한 스테레오스코픽 눈 카메라 각각으로부터 오는, 적어도 2개의 상이한 FOV를 포함하고, 모델(650)은 3D 렌디션(621)을 형성하기 위해 어느 이미지가 어느 카메라로부터 왔는지 결정할 수 있다. 그 다음, 모델(650)은 2D 이미지 입력 및 2개의 눈 카메라의 FOV들 간의 차이에 대한 상세한 지식(예컨대, 카메라 방향 벡터)을 사용하여, AR 또는 VR 디바이스의 사용자의 얼굴의 적어도 일부분의 3D 렌디션(621)을 제공한다.

도 7은 일부 실시예에 따른, VR/AR 헤드셋 사용자의 얼굴 부분의 3D 렌디션에 사용되는 모델 아키텍처(700)의 블록도를 예시한다. 모델 아키텍처(700)는 픽셀 정렬된 볼류메트릭 아바타(PVA; pixel aligned volumetric avatar) 모델이다. PVA 모델(700)은 다수의 2D 입력 이미지들(701-1, 701-2 및 701-n)(이하, 집합적으로 "입력 이미지(701)"로 지칭됨)을 생성하는 멀티뷰 이미지 컬렉션으로부터 학습된다. 입력 이미지(701) 각각은 카메라 뷰 벡터 v _i(예컨대, v ₁, v ₂ 및 v _n)와 연관되며, 이는 해당 특정 이미지에 대한 사용자 얼굴의 뷰의 방향을 나타낸다. 벡터 v _i 각각은 카메라 고유(intrinsic) 파라미터 K _i 및 회전 R _i(예컨대, )과 연관된 알려진 시점(711)이다. 카메라 고유 파라미터 K _i은 밝기, 컬러 매핑, 센서 효율 및 다른 카메라 종속 파라미터를 포함할 수 있다. 회전 R _i은 카메라에 대한 대상의 머리의 배향(및 거리)을 나타낸다. 상이한 카메라 센서들은 동일한 카메라 모델이라는 사실에도 불구하고 동일한 입사 래디언스(radiance)에 대해 다소 상이한 응답을 갖는다. 이를 해결하기 위해 어떠한 것도 행해지지 않는 경우, 강도 차이가 결국 장면 표현 N으로 베이크되어, 이미지를 특정 시점으로부터 부자연스럽게 밝아지거나 어두워지게 할 것이다. 이를 해결하기 위해, 카메라별 바이어스 및 이득 값을 학습한다. 이는 시스템이 데이터에서의 이러한 변동을 설명하기 위한 '더 쉬운' 방식을 가질 수 있게 한다.

'n'의 값은 순전히 예시적인 것이며, 이는 통상의 기술을 가진 누구든 임의의 수 n의 입력 이미지(701)가 사용될 수 있다는 것을 알 것이기 때문이다. PVA 모델(700)은 헤드셋 사용자의 볼류메트릭 렌디션(721)을 생성한다. 볼류메트릭 렌디션(721)은 타겟 시점으로부터 대상의 2D 이미지를 생성하는 데 사용될 수 있는 3D 모델(예컨대, "아바타")이다. 이 2D 이미지는 타겟 시점이 변함에 따라(예컨대, 구경자가 헤드셋 사용자 주위에서 이동함에 따라) 변한다.

PVA 모델(700)은 컨볼루션 인코더-디코더(710A), 레이 마칭 스테이지(ray marching stage)(710B), 및 래디언스 필드 스테이지(radiance field stage)(710C)(이하, 집합적으로 "PVA 스테이지(710)"로 지칭됨)를 포함한다. PVA 모델(700)은 그래디언트 하강(gradient descent)을 사용하여 다중 아이덴티티 트레이닝 코퍼스로부터 선택된 입력 이미지(701)로 트레이닝된다. 따라서, PVA 모델(700)은 다수의 대상들로부터의 예측된 이미지들과 대응하는 실측 정보(ground truth) 사이에 정의되는 손실 함수를 포함한다. 이는 PVA 모델(700)이 대상과는 독립적으로 정확한 볼류메트릭 렌디션(721)을 렌더링할 수 있게 한다.

컨볼루션 인코더-디코더 네트워크(710A)는 입력 이미지(701)를 취하고 픽셀 정렬된 피처 맵(703-1, 703-2 및 703-n)(이하, 집합적으로 "피처 맵(703)"으로 지칭됨)을 생성한다. 레이 마칭 스테이지(710B)는 각각의 포인트에서 래디언스 필드 스테이지(710C)에 의해 생성된 , 누적 컬러 c, 및 광학 밀도("불투명도")에 의해 정의된, 타겟 뷰 j에서 레이를 따라 픽셀 각각을 따른다. 래디언스 필드 스테이지(710C)(N)는 래디언스 필드(715)(c, )를 렌더링하기 위해 3D 위치 및 픽셀 정렬된 피처를 컬러 및 불투명도로 변환한다.

입력 이미지(701)는, 방향 v _i을 따라 카메라에 의해 수집된 2D 이미지에 대응하는 높이(h) 및 폭(w), 그리고 각각의 컬러 픽셀 R, G, B에 대한 3 층의 깊이를 갖는 3D 객체이다. 피처 맵(703)은 치수 를 갖는 3D 객체이다. 인코더-디코더 네트워크(710A)는 학습 가능한 가중치(learnable weights)(721-1, 721-2...721-n)(이하, 집합적으로 "학습 가능한 가중치(721)"로 지칭됨)를 사용하여 입력 이미지(701)를 인코딩한다. 레이 마칭 스테이지(710B)는 월드 투 카메라 투영(world to camera projections)(723), 이중선형 보간(bilinear interpolations)(725), 위치 인코딩(positional encoding)(727), 및 피처 집계(feature aggregation)(729)를 수행한다.

일부 실시예들에서, 컨디셔닝 뷰 에 대하여, 피처 맵(703)은 함수로서 정의될 수 있다

(1)

여기서, 은 2×l 상이한 기본 함수를 갖는 포인트(730)()의 위치 인코딩이다. 포인트(730)(X)는 대상의 2D 이미지로부터 특정 시점(731) r ₀로 지향되는 레이를 따르는 포인트이다. 피처 맵(703)()은 카메라 포지션 벡터 v _i와 연관되며, 여기서 d 는 피처 채널의 수이고, h 및 w 는 이미지 높이 및 폭이며, 는 포인트 X와 연관된 집계된 이미지 피처이다. 각각의 피처 맵 에 대하여, 레이 마칭 스테이지(710B)는 해당 특정 시점의 카메라 고유(K) 및 외적(extrinsic)(R, t) 파라미터를 사용하여 레이를 따라 3D 포인트 X를 투영함으로써 를 획득한다.

(3)

(4)

여기서, 는 카메라 픽셀 좌표에 대한 원근 투영 함수이고, F(f,x)는 픽셀 위치 x에서의 f의 이중선형 보간(725)이다. 레이 마칭 스테이지(710B)는 래디언스 필드 스테이지(710C)에 대해 다수의 이미지로부터 픽셀 정렬된 피처 를 조합한다.

카메라 고유값(K _j) 및 회전 및 병진 이동(R _j, t _j)을 갖는 각각의 주어진 트레이닝 이미지 v _j에 대해, 카메라의 초점면 및 중심(731)에서 주어진 시점에 대한 픽셀 의 예측된 컬러는, 다음에 의해 주어진 레이의 방향으로 카메라 투 월드 투영 행렬 를 사용하여 레이를 장면으로 행진시킴으로써 획득된다.

(5)

레이 마칭 스테이지(710B)는 다음과 같이 에 대하여 에 의해 정의된 레이(735)를 따라 래디언스 및 불투명도 값을 누적한다:

(6)

여기서,

(7)

일부 실시예에서, 레이 마칭 스테이지(710B)는 포인트들의 세트 를 균일하게 샘플링한다. 로 설정하면, 사분면 규칙이 적분 6 및 7을 근사화하는 데 사용될 수 있다. 함수 는 다음과 같이 정의될 수 있다.

(8)

여기서, 이며 는 레이(735)를 따라 번째 샘플 포인트와 번째 샘플 포인트 사이의 거리이다.

알려진 카메라 시점 v _i 및 고정된 수의 컨디셔닝 뷰를 갖는 멀티뷰 설정에서, 레이 마칭 스테이지(710B)는 간단한 연결(concatenation)에 의해 피처들을 집계한다. 구체적으로, 및 에 의해 주어진 대응하는 회전 및 병진 행렬을 갖는 n 컨디셔닝 이미지 에 대하여, 식(3)에서와 같이 각각의 포인트 X에 대해 피처 를 사용하여 레이 마칭 스테이지(710B)는 다음과 같이 최종 피처를 생성한다.

여기서 는 깊이 치수를 따른 연결을 나타낸다. 이는 시점들 로부터의 피처 정보를 보존하며, PVA 모델(700)이 최상의 조합을 결정하고 컨디셔닝 정보를 채용하도록 돕는다.

일부 실시예에서, PVA 모델(700)은 시점 및 컨디셔닝 뷰의 수에 무관한 것이다. 이 경우, 컨디셔닝 뷰의 수가 선험적으로 알려져 있지 않을 수 있으며, 추론 시간 동안 상이한 피처 치수(d)를 초래하므로, 위와 같은 단순한 연결은 불충분하다. 멀티뷰 설정을 위해 피처를 요약하기 위해, 일부 실시예는 순열 불변 함수(permutation invariant function) 를 포함하며, 그리하여 임의의 순열 에 대하여,

피처 집계를 위한 간단한 순열 불변 함수는 샘플링된 피처 맵(703)의 평균이다. 이러한 집계 절차는 트레이닝 동안의 깊이 정보가 이용 가능할 때 바람직할 수 있다. 그러나, 깊이 모호성의 존재 시(예컨대, 샘플링 전에 피처 맵(703)에 투영되는 포인트의 경우), 위의 집계는 아티팩트들을 초래할 수 있다. 이를 피하기 위해, 일부 실시예는 카메라 정보를 래디언스 필드 스테이지(710C)에서의 효과적인 컨디셔닝을 포함하는 것으로 고려한다. 따라서, 일부 실시예는, 피처 벡터 및 카메라 정보 (ci)를 취하고 카메라 요약된 피처 벡터 를 생성하는 컨디셔닝 함수 네트워크 를 포함한다’. 그 다음, 이러한 수정된 벡터들은 다음과 같이 다수의 또는 모든 컨디셔닝 뷰에 대해 평균화된다.

(9)

(10)

이 접근법의 이점은, 카메라 요약된 피처들이 피처 평균이 수행되기 전에 가능성있는 폐색을 고려할 수 있다는 것이다. 카메라 정보는 4D 회전 쿼터니언(quaternion) 및 3D 카메라 포지션으로서 인코딩된다.

일부 실시예는 또한 장면 표현에서 배경의 학습 부분을 피하기 위해 배경 추정 네트워크 N_bg를 포함할 수 있다. 배경 추정 네트워크 N_bg는 카메라당 고정된 배경을 학습하기 위해 로서 정의될 수 있다. 일부 실시예에서, 래디언스 필드 스테이지(710C)는 N_bg를 사용하여 다음과 같이 최종 이미지 픽셀들을 예측할 수 있다:

(11)

카메라 c_i에 대하여 이며, 여기서 는 인페인팅을 사용하여 추출된 배경의 초기 추정이고, 는 식 (8)에 의해 정의되는 바와 같다. 이러한 인페인팅된 배경은 종종 노이즈가 있어서 사람의 머리 주위에 '후광' 효과를 초래한다. 이를 피하기 위해, N_bg 모델은 인페인팅된 배경에 대한 잔차를 학습한다. 이는 배경을 감안하기 위해 고용량 네트워크를 필요로 하지 않는다는 장점을 갖는다.

실측 타겟 이미지 v _j에 대하여, PVA 모델(700)은 단순한 포토-메트릭 재구성 손실을 사용하여 래디언스 필드 스테이지(710C) 및 피처 추출 네트워크 둘 다를 트레이닝한다:

도 8a 내지 도 8d는 일부 실시예에 따른, 가상 현실 헤드셋에서의 오토스테레오스코픽 디스플레이에 사용자 얼굴의 일부분의 뷰를 제공하도록 모델을 트레이닝하기 위한 방법에서의 요소들 및 단계들을 예시한다. 아이피스(800)는 다수의 사용자들로부터의 다수의 트레이닝 이미지(811)로 트레이닝된다. 이미지 피처들(833-1B, 833-2B, 및 833C)의 미세 세부사항들을 복구하기 위한 텍스처 맵 및 깊이 맵(이하, 집합적으로 "텍스처 및 깊이 맵(833)"으로 지칭됨)을 포함하여 사용자들 각각에 대한 3D 모델(821)이 생성된다. 3D 모델(821)이 생성될 때, 사용자 얼굴의 3차원 재구성의 오토스테레오스코픽 이미지가 라이트 필드 디스플레이에서의 픽셀 어레이에 제공된다. 라이트 필드 디스플레이는 활성 픽셀들의 다수의 세그먼트들로 분리되고, 각각의 세그먼트는 구경자를 위한 선택된 시야각으로 3D 모델(821)의 시야의 일부분을 제공한다.

도 8a는 일부 실시예에 따른, 아이피스(800)로 다수의 트레이닝 이미지(811)를 수집하기 위한 셋업(850)을 예시한다. 트레이닝 이미지(811)는 디스플레이에 의해 제공될 수 있고, 아이피스가 헤드셋에 조립될 때 핫 미러가 있을 동일한 위치에 배치된 스크린(812) 상에 투영될 수 있다. 하나 이상의 적외선 카메라(815)는 반사 모드로 트레이닝 이미지(811)를 수집하고, 하나 이상의 RGB 카메라(825)는 투과 모드로 트레이닝 이미지를 수집한다. 셋업(850)은 모든 트레이닝 이미지(811)에 대해 고정된, 이미지 벡터(801-1), IR 카메라 벡터(801-2) 및 RGB 카메라 벡터(801-3)(이하, 집합적으로 "포지셔닝 벡터(801)"로 지칭됨)를 갖는다. 포지셔닝 벡터(801)는 3D 모델(821)과 연관된 크기, 거리 및 시야각을 정확하게 평가하기 위해 알고리즘 모델에 의해 사용된다.

도 8b는 일부 실시예에 따른 텍스처 및 깊이 이미지(833-1B 및 833-2B)를 예시한다. 텍스처 이미지(833-1B)는 RGB 카메라(825)를 사용하여 트레이닝 이미지의 캡처로부터 획득될 수 있고, 깊이 이미지(833-2B)는 IR 카메라(815)를 사용하여 트레이닝 이미지로부터 획득될 수 있다.

도 8c는 일부 실시예에 따른, IR 카메라(815)로 수집된 깊이 이미지(833C)를 예시한다. 도 8d는 일부 실시예에 따른, 아이피스(800)에 관련하여 형성된 3D 모델(821)을 예시한다.

도 9는 일부 실시예에 따른, VR/AR 헤드셋 사용자의 얼굴의 오토스테레오스코픽 뷰를 제공하기 위한 방법(900)에서의 흐름도를 예시한다. 방법(900)에서의 단계들은 적어도 부분적으로 프로세서가 메모리에 저장된 명령어들을 실행함으로써 수행될 수 있으며, 프로세서 및 메모리는 본원에 개시된 바와 같은 헤드셋 내의 전자 컴포넌트의 일부이다(예컨대, 메모리(112), 프로세서(122), 전자 컴포넌트(20) 및 헤드셋(10)). 또 다른 실시예에서, 방법(900)에 부합하는 방법에서의 단계들 중 적어도 하나 이상은 프로세서가 메모리에 저장된 명령어들을 실행함으로써 수행될 수 있으며, 프로세서와 메모리 중 적어도 하나는 클라우드 서버에 원격으로 위치되고, 헤드셋 디바이스는 네트워크에 결합된 통신 모듈을 통해 클라우드 서버에 통신 가능하게 결합된다(통신 모듈(118) 참조). 일부 실시예에서, 방법(900)은 본원에서 개시된 바와 같이, 머신 러닝 또는 인공 지능 알고리즘에 신경망 아키텍처를 포함하는 모델을 사용하여 수행될 수 있다(예컨대, 모델(650), 모델 아키텍처(700)). 일부 실시예에서, 본 개시에 부합하는 방법은, 상이한 순서로, 동시에, 준-동시에, 또는 시간상 중첩되어 수행되는 방법(900)으로부터의 적어도 하나 이상의 단계를 포함할 수 있다.

단계 902는, 하나 이상의 헤드셋 카메라로부터 대상의 적어도 2개 이상의 시야를 갖는 다수의 이미지들을 수신하는 것을 포함하며, 대상은 헤드셋 사용자이다.

단계 904는, 학습 가능한 가중치들의 세트를 사용하여 이미지들로부터 다수의 이미지 피처들을 추출하는 것을 포함한다. 일부 실시예에서, 단계 904는, 스캔 라인을 따라 이미지 피처들을 매칭하여 제1 해상도 설정에서 비용 볼륨을 구축하고 대략적인 시차(disparity) 추정치를 제공하는 것을 포함한다. 일부 실시예에서, 단계 904는, 제1 해상도 설정보다 높은 제2 해상도 설정에서 작은 세부사항 및 얇은 구조를 포함하는 하나 이상의 이미지 피처를 복구하는 것을 포함한다. 일부 실시예에서, 단계 904는, 이미지 피처에 기초하여 사용자 얼굴의 일부분의 텍스처 맵 및 사용자 얼굴의 일부분의 깊이 맵을 생성하는 것을 포함하며, 텍스처 맵은 이미지 피처의 컬러 세부사항을 포함하고, 깊이 맵은 이미지 피처의 깊이 위치를 포함한다. 일부 실시예에서, 단계 904는, 이미지 각각을 수집하는 데 사용되는 헤드셋 카메라의 고유 속성을 추출하는 것을 포함한다.

단계 906은, 학습 가능한 가중치를 사용하여 대상의 3차원 모델을 형성하는 것을 포함한다.

단계 908은, 대상의 이미지 투영을 구경자를 위한 선택된 관찰 포인트와 연관시키는 오토스테레오스코픽 디스플레이 포맷에 대상의 3차원 모델을 매핑하는 것을 포함한다. 일부 실시예에서, 단계 908은, 라이트 필드 디스플레이의 하나의 세그먼트에, 구경자를 위한 선택된 시점에서의 사용자 얼굴의 시야의 일부분을 제공하는 것을 포함한다. 일부 실시예에서, 단계 908은, 하나 이상의 구경자 각각에 대한 시야를 최적화하기 위해 시야각을 식별하고 라이트 필드 디스플레이를 수정하도록 하나 이상의 구경자를 추적하는 것을 더 포함한다. 일부 실시예에서, 단계 908은, 제1 관찰 포인트와 연관된 피처 맵을 제2 관찰 포인트와 연관된 피처 맵으로 보간하는 것을 포함한다. 일부 실시예에서, 단계 908은, 선택된 관찰 포인트의 방향을 따라 다수의 픽셀들에 대한 이미지 피처들을 집계하는 것을 포함한다. 일부 실시예에서, 단계 908은, 순열 불변 조합으로 헤드셋 카메라 각각에 의해 생성된 다수의 피처 맵들을 연결하는 것을 포함하며, 헤드셋 카메라 각각은 고유한 특성을 갖는다.

단계 910은, 구경자가 선택된 관찰 포인트에 위치될 때, 대상의 이미지 투영을 디스플레이 상에 제공하는 것을 포함한다. 일부 실시예에서, 단계 910은, 구경자가 제1 관찰 포인트로부터 제2 관찰 포인트로 이동함에 따라, 제2 이미지 투영을 디바이스 디스플레이 상에 제공하는 것을 포함한다.

도 10은 사용자 얼굴의 일부분의 다수의 2차원(2D) 이미지들로부터 사용자 얼굴의 일부분의 3차원(3D) 뷰를 렌더링하기 위한 방법(1000)에서의 흐름도를 예시한다. 방법(1000)에서의 단계들은 적어도 부분적으로 프로세서가 메모리에 저장된 명령어들을 실행함으로써 수행될 수 있으며, 프로세서 및 메모리는 본원에 개시된 바와 같은 헤드셋 내의 전자 컴포넌트의 일부이다(예컨대, 메모리(112), 프로세서(122), 전자 컴포넌트(20) 및 헤드셋(10)). 또 다른 실시예에서, 방법(1000)에 부합하는 방법에서의 단계들 중 적어도 하나 이상은 프로세서가 메모리에 저장된 명령어들을 실행함으로써 수행될 수 있으며, 프로세서와 메모리 중 적어도 하나는 클라우드 서버에 원격으로 위치되고, 헤드셋 디바이스는 네트워크에 결합된 통신 모듈을 통해 클라우드 서버에 통신 가능하게 결합된다(통신 모듈(118) 참조). 일부 실시예에서, 방법(1000)은 본원에서 개시된 바와 같이, 머신 러닝 또는 인공 지능 알고리즘에 신경망 아키텍처를 포함하는 모델을 사용하여 수행될 수 있다(예컨대, 모델(650), 모델 아키텍처(700)). 일부 실시예에서, 본 개시에 부합하는 방법은, 상이한 순서로, 동시에, 준-동시에, 또는 시간상 중첩되어 수행되는 방법(1000)으로부터의 적어도 하나 이상의 단계를 포함할 수 있다.

단계 1002는, 다수의 사용자들의 얼굴로부터 다수의 실측 이미지들을 수집하는 것을 포함한다.

단계 1004는, 저장되고 교정된(calibrated) 스테레오스코픽 이미지 쌍으로 실측 이미지를 수정(rectifying)하는 것을 포함한다. 일부 실시예에서, 단계 1004는, 학습 가능한 가중치 세트를 사용하여 2차원 이미지로부터 다수의 이미지 피처들을 추출하는 것을 포함한다. 일부 실시예에서, 단계 1004는, 2차원 이미지를 수집하는데 사용되는 카메라의 고유 속성을 추출하는 것을 포함한다.

단계 1006은, 대상의 이미지 투영을 구경자를 위한 선택된 관찰 포인트와 연관시키는 오토스테레오스코픽 디스플레이 포맷에 대상의 3차원 모델을 매핑하는 것을 포함한다. 일부 실시예에서, 단계 1006은, 대상의 3차원 모델과 구경자를 위한 선택된 관찰 포인트 사이의 방향을 따라 이미지 피처를 투영하는 것을 포함한다. 일부 실시예에서, 단계 1006은, 제1 방향과 연관된 피처 맵을 제2 방향과 연관된 피처 맵으로 보간하는 것을 포함한다. 일부 실시예에서, 단계 1006은, 대상의 3차원 모델과 선택된 관찰 포인트 사이의 방향을 따라 다수의 픽셀들에 대한 이미지 피처들을 집계하는 것을 포함한다. 일부 실시예에서, 단계 1006은, 다수의 카메라들 각각에 의해 생성된 다수의 피처 맵들을 순열 불변 조합으로 연결하는 것을 포함하며, 다수의 카메라들 각각은 고유 특성을 갖는다.

단계 1008은, 실측 이미지와 대상의 이미지 투영 사이의 차이에 기초하여 손실 값을 결정하는 것을 포함한다. 일부 실시예에서, 단계 1008은, 대상의 3차원 모델의 오토스테레오스코픽 이미지를 구경자에게 제공하는 것을 포함한다. 일부 실시예에서, 단계 1008은, 대상의 3차원 모델의 오토스테레오스코픽 이미지와 대상의 실측 이미지 사이의 차이에 기초하여 손실 함수를 평가하고, 손실 함수에 기초하여 학습 가능한 가중치들의 세트 중 적어도 하나를 업데이트하는 것을 포함한다.

단계 1010은, 손실 값에 기초하여 대상의 3차원 모델을 업데이트하는 것을 포함한다.

도 11은 일부 실시예에 따라, 사용자 얼굴의 일부분의 다수의 2차원(2D) 이미지들로부터 사용자 얼굴의 일부분의 3차원(3D) 뷰를 렌더링하도록 모델을 트레이닝하기 위한 방법(1100)에서의 흐름도를 예시한다. 방법(1100)에서의 단계들은 적어도 부분적으로 프로세서가 메모리에 저장된 명령어들을 실행함으로써 수행될 수 있으며, 프로세서 및 메모리는 본원에 개시된 바와 같은 헤드셋 내의 전자 컴포넌트의 일부이다(예컨대, 메모리(112), 프로세서(122), 전자 컴포넌트(20) 및 헤드셋(10)). 또 다른 실시예에서, 방법(1100)에 부합하는 방법에서의 단계들 중 적어도 하나 이상은 프로세서가 메모리에 저장된 명령어들을 실행함으로써 수행될 수 있으며, 프로세서 및 메모리 중 적어도 하나는 클라우드 서버에 원격으로 위치되고, 헤드셋 디바이스는 네트워크에 결합된 통신 모듈을 통해 클라우드 서버에 통신 가능하게 결합된다(통신 모듈(118) 참조). 일부 실시예에서, 방법(1100)은 본원에서 개시된 바와 같이, 머신 러닝 또는 인공 지능 알고리즘에 신경망 아키텍처를 포함하는 모델을 사용하여 수행될 수 있다(예를 들어, 모델(650), 모델 아키텍처(700)). 일부 실시예에서, 본 개시에 부합하는 방법은, 상이한 순서로, 동시에, 준-동시에, 또는 시간상 중첩되어 수행되는 방법(1100)으로부터의 적어도 하나 이상의 단계를 포함할 수 있다.

단계 1102는, 다수의 사용자들의 얼굴로부터 다수의 실측 이미지들을 수집하는 것을 포함한다.

단계 1104는, 저장되고 교정된 스테레오스코픽 이미지 쌍으로 실측 이미지를 수정하는 것을 포함한다.

단계 1106은, 3차원 얼굴 모델을 이용해 대상의 다수의 합성 뷰들을 생성하는 것을 포함하며, 대상의 합성 뷰는 대상의 다수의 뷰들에 대응하는 상이한 방향을 따라 투영된 다수의 피처 맵들의 보간을 포함한다. 일부 실시예에서, 단계 1106은, 선택된 관찰 방향을 따라 실측 이미지 각각으로부터 이미지 피처를 투영하고, 실측 이미지 각각에 의해 생성된 다수의 피처 맵들을 순열 불변의 조합으로 연결하는 것을 포함하며, 실측 이미지 각각은 고유 특성을 갖는다.

단계 1108은, 실측 이미지와 대상의 합성 뷰 사이의 차이에 기초하여 3차원 얼굴 모델을 트레이닝하는 것을 포함한다. 일부 실시예에서, 단계 1108은, 실측 이미지와 대상의 합성 뷰 사이의 차이를 나타내는 손실 함수의 값에 기초하여 피처 맵에서의 다수의 피처들 각각에 대한 학습 가능한 가중치 세트에서의 적어도 하나를 업데이트하는 것을 포함한다. 일부 실시예에서, 단계 1108은, 다수의 실측 이미지로부터 투영된 픽셀 배경 값에 기초하여 실측 이미지에서의 다수의 픽셀들 각각에 대한 배경 값을 트레이닝하는 것을 포함한다.

하드웨어 개관

도 12는 헤드셋(10) 및 방법(900, 1000 및 1100)이 구현될 수 있는 예시적인 컴퓨터 시스템(1200)을 예시하는 블록도이다. 특정 양상에서, 컴퓨터 시스템(1200)은, 전용 서버 내에서, 또는 또다른 엔티티에 통합되거나, 또는 다수의 엔티티들에 걸쳐 분산되는, 하드웨어 또는 소프트웨어와 하드웨어의 조합을 사용하여 구현될 수 있다. 컴퓨터 시스템(1200)은 데스크탑 컴퓨터, 랩탑 컴퓨터, 태블릿, 패블릿, 스마트폰, 피처폰, 서버 컴퓨터, 또는 다른 것들을 포함할 수 있다. 서버 컴퓨터는 데이터 센터에 원격으로 위치될 수 있거나 또는 로컬로 저장될 수 있다.

컴퓨터 시스템(1200)은, 정보를 통신하기 위한 버스(1208) 또는 다른 통신 메커니즘, 및 정보를 프로세싱하기 위해 버스(1208)와 결합된 프로세서(1202)(예컨대, 프로세서(122))를 포함한다. 예로써, 컴퓨터 시스템(1200)은 하나 이상의 프로세서(1202)로 구현될 수 있다. 프로세서(1202)는 범용 마이크로프로세서, 마이크로컨트롤러, 디지털 신호 프로세서(DSP; Digital Signal Processor), ASIC(Application Specific Integrated Circuit), FPGA(Field Programmable Gate Array), PLD(Programmable Logic Device), 컨트롤러, 상태 머신, 게이트 로직, 개별 하드웨어 컴포넌트, 또는 정보의 계산이나 다른 조작을 수행할 수 있는 임의의 다른 적합한 엔티티일 수 있다.

컴퓨터 시스템(1200)은, 하드웨어에 추가적으로, 해당 컴퓨터 프로그램에 대한 실행 환경을 생성하는 코드, 예컨대 프로세서 펌웨어, 프로토콜 스택, 데이터베이스 관리 시스템, 운영 체제를 구성하는 코드, 또는 랜덤 액세스 메모리(RAM; Random Access Memory), 플래시 메모리, 판독 전용 메모리(ROM; Read-Only Memory), 프로그램가능 판독 전용 메모리(PROM; Programmable Read-Only Memory), 소거가능 PROM(EPROM; Erasable PROM), 레지스터, 하드 디스크, 착탈식 디스크, CD-ROM, DVD, 또는 프로세서(1202)에 의해 실행될 정보 및 명령어들을 저장하기 위해 버스(1208)와 결합된 임의의 다른 적합한 저장 디바이스와 같은, 포함된 메모리(1204)(예컨대, 메모리(112))에 저장된 이들 중 하나 이상의 조합을 포함할 수 있다. 프로세서(1202) 및 메모리(1204)는 특수 용도 로직 회로에 의해 보완되거나 특수 용도 로직 회로에 통합될 수 있다.

명령어는 메모리(1204)에 저장될 수 있고, 하나 이상의 컴퓨터 프로그램 제품에서, 예컨대 컴퓨터 시스템(1200)에 의해 실행되거나 또는 컴퓨터 시스템(1200)의 동작을 제어하기 위해 컴퓨터 판독가능 매체 상에 인코딩된 컴퓨터 프로그램 명령어의 하나 이상의 모듈에서, 그리고 데이터 지향 언어(예컨대, SQL, dBase), 시스템 언어(예컨대, C, Objective-C, C++, Assembly), 아키텍처 언어(예컨대, Java, .NET) 및 애플리케이션 언어(예컨대, PHP, Ruby, Perl, Python)와 같은 컴퓨터 언어를 포함하지만 이에 제한되지는 않는, 당업자에게 잘 알려진 임의의 방법에 따라, 구현될 수 있다. 명령어는 또한, 어레이 언어, 관점 지향 언어, 어셈블리 언어, 저작 언어, 커맨드 라인 인터페이스 언어, 컴파일된 언어, 동시적 언어, 중괄호 언어, 데이터플로 언어, 데이터 구조화된 언어, 선언적 언어, 난해한 언어, 확장 언어, 제4 세대 언어, 기능 언어, 대화형 모드 언어, 해석된 언어, 반복 언어, 리스트 기반 언어, 리틀 언어, 논리 기반 언어, 기계 언어, 매크로 언어, 메타프로그래밍 언어, 다중 패러다임 언어, 수치 분석, 비영어 기반 언어, 객체 지향 클래스 기반 언어, 객체 지향 프로토타입 기반 언어, 오프사이드 규칙 언어, 프로시저 언어, 반사 언어, 규칙 기반 언어, 스크립팅 언어, 스택 기반 언어, 동기 언어, 구문 처리 언어, 시각적 언어, wirth 언어, 및 XML 기반 언어와 같은 컴퓨터 언어로 구현될 수 있다. 메모리(1204)는 또한, 프로세서(1202)에 의해 실행될 명령어의 실행 동안 임시 변수 또는 다른 중간 정보를 저장하는 데 사용될 수 있다.

본원에서 논의되는 컴퓨터 프로그램은 반드시 파일 시스템에서의 파일에 대응하는 것은 아니다. 프로그램은, 다른 프로그램 또는 데이터(예컨대, 마크업 언어 문서에 저장된 하나 이상의 스크립트)를 보유하는 파일의 일부로, 해당 프로그램에 전용된 단일 파일로, 또는 다수의 조정 파일(예컨대, 하나 이상의 모듈, 프로그램, 또는 코드의 일부를 저장하는 파일)로 저장될 수 있다. 컴퓨터 프로그램은 하나의 컴퓨터 상에서 또는 하나의 사이트에 위치되거나 복수의 사이트에 걸쳐 분산되고 통신 네트워크에 의해 상호연결되어 있는 복수의 컴퓨터 상에서 실행되도록 배치될 수 있다. 본 명세서에 기재된 프로세스 및 논리 흐름은, 입력 데이터에 대해 동작하고 출력을 생성함으로써 기능을 수행하도록 하나 이상의 컴퓨터 프로그램을 실행하는 하나 이상의 프로그램가능 프로세서에 의해 수행될 수 있다.

컴퓨터 시스템(1200)은, 정보 및 명령어를 저장하기 위해 버스(1208)와 결합된 자기 디스크 또는 광학 디스크와 같은 데이터 저장 디바이스(1206)를 더 포함한다. 컴퓨터 시스템(1200)은 입력/출력 모듈(1210)을 통해 다양한 디바이스에 결합될 수 있다. 입력/출력 모듈(1210)은 임의의 입력/출력 모듈일 수 있다. 예시적인 입력/출력 모듈(1210)은 USB 포트와 같은 데이터 포트를 포함한다. 입력/출력 모듈(1210)은 통신 모듈(1212)에 연결되도록 구성된다. 예시적인 통신 모듈(1212)은 이더넷 카드 및 모뎀과 같은 네트워킹 인터페이스 카드를 포함한다. 특정 양상에서, 입력/출력 모듈(1210)은 입력 디바이스(1214) 및/또는 출력 디바이스(1216)와 같은 복수의 디바이스들에 연결되도록 구성된다. 예시적인 입력 디바이스(1214)는 키보드 및 포인팅 디바이스, 예컨대 마우스 또는 트랙볼을 포함하며, 이에 의해 소비자는 컴퓨터 시스템(1200)에 입력을 제공할 수 있다. 촉각 입력 디바이스, 시각적 입력 디바이스, 오디오 입력 디바이스, 또는 뇌-컴퓨터 인터페이스 디바이스와 같은 다른 종류의 입력 디바이스(1214)도 소비자와의 상호작용을 제공하기 위해 사용될 수 있다. 예를 들어, 소비자에게 제공된 피드백은 임의의 형태의 감각 피드백, 예컨대 시각적 피드백, 청각적 피드백, 또는 촉각 피드백일 수 있고, 소비자로부터의 입력은 음향, 음성, 촉각 또는 뇌파 입력을 포함하는 임의의 형태로 수신될 수 있다. 예시적인 출력 디바이스(1216)는 소비자에게 정보를 디스플레이하기 위한 LCD(liquid crystal display) 모니터와 같은 디스플레이 디바이스를 포함한다.

본 개시의 하나의 양상에 따르면, 헤드셋(10)은 적어도 부분적으로, 프로세서(1202)가 메모리(1204)에 포함된 하나 이상의 명령어의 하나 이상의 시퀀스를 실행하는 것에 응답하여 컴퓨터 시스템(1200)을 사용하여 구현될 수 있다. 이러한 명령어는, 데이터 저장 디바이스(1206)와 같은 또다른 기계 판독가능 매체로부터 메모리(1204)로 판독된다. 메인 메모리(1204)에 포함된 명령어 시퀀스의 실행은 프로세서(1202)로 하여금 본원에 기재된 프로세스 단계를 수행하게 한다. 메모리(1204)에 포함된 명령어의 시퀀스를 실행하기 위해 멀티프로세싱 구성의 하나 이상의 프로세서가 또한 채용될 수 있다. 대안의 양상에서, 본 개시의 다양한 양상을 구현하기 위해 소프트웨어 명령어 대신 또는 소프트웨어 명령어와 조합되어 하드와이어 회로부가 사용될 수 있다. 따라서, 본 개시의 양상은 하드웨어 회로부 및 소프트웨어의 임의의 특정 조합에 한정되지 않는다.

본 명세서에 기재된 주제의 다양한 양상은, 백 엔드 컴포넌트, 예컨대 데이터 서버를 포함하거나, 또는 미들웨어 컴포넌트, 예컨대 애플리케이션 서버를 포함하거나, 또는 프론트엔드 컴포넌트, 예컨대 소비자가 본 명세서에 기재된 주제의 구현과 상호작용할 수 있는 그래픽 사용자 인터페이스 또는 웹 브라우저를 갖는 클라이언트 컴퓨터, 또는 하나 이상의 이러한 백엔드, 미들웨어, 또는 프론트엔드 컴포넌트의 임의의 조합을 포함하는 컴퓨팅 시스템에서 구현될 수 있다. 시스템의 컴포넌트들은 디지털 데이터 통신의 임의의 형태 또는 매체, 예컨대 통신 네트워크에 의해 상호연결될 수 있다. 통신 네트워크는 예를 들어, LAN, WAN, 인터넷 등 중 임의의 하나 이상을 포함할 수 있다. 또한, 통신 네트워크는 버스 네트워크, 스타 네트워크, 링 네트워크, 메쉬 네트워크, 스타-버스 네트워크, 트리 또는 계층적 네트워크 등을 포함하는 네트워크 토폴로지 중 임의의 하나 이상을 포함할 수 있지만, 이에 한정되는 것은 아니다. 통신 모듈은 예를 들어 모뎀 또는 이더넷 카드일 수 있다.

컴퓨터 시스템(1200)은 클라이언트 및 서버를 포함할 수 있다. 클라이언트 및 서버는 일반적으로 서로 원격이며 통상적으로 통신 네트워크를 통해 상호작용한다. 클라이언트와 서버의 관계는, 각자의 컴퓨터 상에서 실행되며 서로 클라이언트-서버 관계를 갖는 컴퓨터 프로그램들에 의해 발생한다. 컴퓨터 시스템(1200)은, 예를 들어, 그리고 제한 없이, 데스크탑 컴퓨터, 랩탑 컴퓨터, 또는 태블릿 컴퓨터일 수 있다. 컴퓨터 시스템(1200)은 또한, 또다른 디바이스, 예를 들어, 그리고 제한 없이, 모바일 전화기, PDA, 모바일 오디오 플레이어, GPS(Global Positioning System) 수신기, 비디오 게임 콘솔, 및/또는 텔레비전 셋톱 박스에서 구현될 수도 있다.

본원에서 사용되는 용어 “기계 판독가능 저장 매체” 또는 “컴퓨터 판독가능 매체”는, 실행을 위해 프로세서(1202)에 명령어를 제공하는 데 참여하는 임의의 매체 또는 미디어를 지칭한다. 이러한 매체는 비휘발성 매체, 휘발성 매체 및 전송 매체를 포함하지만 이에 한정되는 것은 아닌 많은 형태를 취할 수 있다. 비휘발성 매체는 예를 들어, 데이터 저장 디바이스(1206)와 같은 광학 또는 자기 디스크를 포함한다. 휘발성 매체는 동적 메모리, 예컨대 메모리(1204)를 포함한다. 전송 매체는 버스(1208)를 형성하는 와이어를 포함하여, 동축 케이블, 구리 와이어 및 광섬유를 포함한다. 기계 판독가능 매체의 일반적인 형태는, 예를 들어 플로피 디스크, 플렉시블 디스크, 하드 디스크, 자기 테이프, 임의의 다른 자기 매체, CD-ROM, DVD, 임의의 다른 광학 매체, 펀치 카드, 종이 테이프, 홀 패턴을 갖는 임의의 다른 물리적 매체, RAM, PROM, EPROM, FLASH EPROM, 임의의 다른 메모리 칩 또는 카트리지, 또는 컴퓨터가 판독할 수 있는 임의의 다른 매체를 포함한다. 기계 판독가능 저장 매체는 기계 판독가능 저장 디바이스, 기계 판독가능 저장 기판, 메모리 디바이스, 기계 판독가능 전파 신호에 영향을 미치는 물질 조성, 또는 이들 중 하나 이상의 조합일 수 있다.

하드웨어와 소프트웨어의 상호교환성을 예시하기 위해, 다양한 예시적인 블록, 모듈, 컴포넌트, 방법, 동작, 명령어 및 알고리즘과 같은 항목들은 일반적으로 그 기능의 관점에서 기재되었다. 이러한 기능이 하드웨어, 소프트웨어, 또는 하드웨어와 소프트웨어의 조합으로서 구현되는지 여부는, 전체 시스템에 부여되는 특정 응용 및 설계 제약에 따라 달라진다. 당업자는 각각의 특정 애플리케이션에 대해 다양한 방식으로 기재된 기능을 구현할 수 있다.

본원에서 사용되는 바와 같이, 임의의 항목을 분리하기 위한 용어 "및" 또는 "또는"과 함께 일련의 항목들 앞의 "적어도 하나"라는 문구는, 목록의 각 구성원(예컨대, 각각의 항목)이 아닌 목록 전체를 수정한다. 문구 "적어도 하나"는 적어도 하나의 항목의 선택을 요구하는 것이 아니라, 오히려, 문구는 항목들 중 임의의 하나 중 적어도 하나, 및/또는 항목들의 임의의 조합 중 적어도 하나, 및/또는 항목들 각각의 적어도 하나를 포함하는 의미를 허용한다. 예로써, 문구 "A, B, 및 C 중 적어도 하나" 또는 "A, B, 또는 C 중 적어도 하나" 각각은, 각각 A만, B만, 또는 C만; A, B, 및 C의 임의의 조합; 및/또는 A, B, 및 C 각각의 적어도 하나를 지칭한다.

단어 "예시적인"은 "예, 사례, 또는 예시로서 작용함"을 의미하도록 본원에서 사용된다. "예시적인" 것으로서 본원에 기재된 임의의 실시예는 반드시 다른 실시예 이상으로 바람직하다거나 이로운 것으로 해석되어서는 안 된다. 양상, 상기 양상, 또다른 양상, 일부 양상, 하나 이상의 양상, 구현, 상기 구현, 또다른 구현, 일부 구현, 하나 이상의 구현, 실시예, 상기 실시예, 또다른 실시예, 일부 실시예, 하나 이상의 실시예, 구성, 상기 구성, 또다른 구성, 일부 구성, 하나 이상의 구성, 본 기술, 상기 개시, 본 개시, 및 이들의 다른 변형 등과 같은 문구들은 편의를 위한 것이며, 이러한 문구(들)에 관한 개시가 본 기술에 필수적이거나 또는 이러한 개시가 본 기술의 모든 구성에 적용된다는 것을 암시하지 않는다. 이러한 문구(들)에 관한 개시는 모든 구성 또는 하나 이상의 구성에 적용될 수 있다. 이러한 문구(들)에 관한 개시는 하나 이상의 예를 제공할 수 있다. 양상 또는 일부 양상과 같은 문구는 하나 이상의 양상을 지칭할 수 있고, 그 반대도 마찬가지일 수 있으며, 이는 다른 전술한 문구에 유사하게 적용된다.

요소에 대한 단수 참조는 구체적으로 언급되지 않는 한 "하나 그리고 하나만"을 의미하는 것이 아니라, 오히려 "하나 이상"을 의미하는 것으로 의도된다. 용어 "일부"는 하나 이상을 지칭한다. 밑줄 및/또는 이탤릭체로 표기된 제목과 부제목은 단지 편의를 위해 사용된 것이며, 본 기술을 한정하지 않고, 본 기술의 기재의 해석과 관련하여 참조되지 않는다. 제1 및 제2 등과 같은 관계형 용어는, 이러한 엔티티들 또는 액션들 사이의 임의의 실제 그러한 관계 또는 순서를 반드시 요구한다거나 암시하지 않으면서, 하나의 엔티티 또는 액션을 또다른 것과 구별하기 위해 사용될 수 있다. 당업자에게 알려져 있거나 나중에 알려지게 될, 본 개시 전반에 걸쳐 기재된 다양한 구성의 요소들에 대한 모든 구조적 및 기능적 등가물은 본 기술에 의해 포함된다. 또한, 본원에 개시된 어떠한 내용도 이러한 개시 내용이 위의 설명에서 명시적으로 인용되는지 여부에 관계없이 대중에게 전용되도록 의도되지 않는다. 요소가 "수단"이라는 문구를 사용하여 명시적으로 인용되지 않는 한 또는 방법 청구항의 경우 요소가 "단계"라는 문구를 사용하여 인용되지 않는 한, 어떠한 청구항 요소도 35 U.S.C. §112, 제6 단락의 조항에 따라 해석되어서는 안 된다.

본 명세서는 많은 세부사항을 포함하고 있지만, 이들이 기재될 수 있는 범위에 대한 한정으로서 해석되어서는 안 되며, 오히려 주제의 특정 구현의 기재로서 해석되어야 한다. 본 명세서에서 개별 실시예에 관련하여 기재되어 있는 특정 특징들은 또한 단일 실시예에서 조합하여 구현될 수도 있다. 반대로, 단일 실시예에 관련하여 기재되어 있는 다양한 특징들은 또한, 다수의 실시예에서 개별적으로 또는 임의의 적합한 서브조합으로 구현될 수도 있다. 또한, 특징들이 특정 조합으로 작용하는 것으로서 위에 기재되었을 수 있고 심지어는 처음에 그리 기재되었을 수 있지만, 기재된 조합으로부터의 하나 이상의 특징은 일부 경우에 조합으로부터 배제될 수 있고, 기재된 조합은 서브조합 또는 서브조합의 변형에 관련될 수 있다.

본 명세서의 주제는 특정 양상의 관점에서 기재되었지만, 다른 양상이 구현될 수 있고 다음 청구항의 범위 내에 있다. 예를 들어, 동작들이 도면에서 특정 순서로 도시되어 있지만, 이는 원하는 결과를 달성하기 위해 이러한 동작들이 도시된 특정 순서대로 또는 순차적 순서대로 수행되어야 한다거나 또는 모든 예시된 동작들이 수행되어야 하는 것으로서 이해되어서는 안 된다. 청구항에 인용된 동작들은 상이한 순서로 수행될 수 있고 여전히 바람직한 결과를 달성할 수 있다. 하나의 예로서, 첨부 도면에 도시된 프로세스는 바람직한 결과를 달성하기 위해 반드시 도시된 특정 순서 또는 순차적 순서를 요구하는 것은 아니다. 특정 상황에, 멀티태스킹 및 병렬 프로세싱이 유리할 수 있다. 또한, 위에 기재된 양상에서 다양한 시스템 컴포넌트들의 분리는 모든 양상에서 이러한 분리를 요하는 것으로서 이해되어서는 안 되고, 기재된 프로그램 컴포넌트 및 시스템은 일반적으로 단일 소프트웨어 제품으로 다같이 통합될 수 있거나 또는 복수의 소프트웨어 제품들로 패키징될 수 있다는 것을 이해하여야 한다.

명칭, 배경기술, 도면의 간단한 설명, 요약 및 도면이 여기에 본 개시로 통합되어 있으며, 제한적인 설명으로서가 아니라 본 개시의 예시적인 예시로서 제공된다. 청구항의 범위 또는 의미를 한정하는 데 사용되지 않을 것이라는 이해와 함께 제출된다. 또한, 상세한 설명에서, 설명은 예시적인 예시들을 제공한 것이며 다양한 특징들이 본 개시의 간소화를 목적으로 다양한 구현에서 함께 그룹화된다는 것을 알 수 있다. 본 개시의 방법은 기재된 내용이 각각의 청구항에서 명시적으로 인용된 것보다 더 많은 특징들을 필요로 한다는 의도를 반영하는 것으로 해석되어서는 안 된다. 오히려, 청구항이 반영하는 대로, 발명의 내용은 단일의 개시된 구성 또는 동작의 모든 특징보다 적다. 따라서 청구항은 상세한 설명으로 통합되어 있으며, 각 청구항은 개별적으로 기재된 내용에 대해 독립적으로 존재한다.

청구항은 본원에 기재된 양상에 한정되도록 의도된 것이 아니라, 언어 청구항과 일치하는 전체 범위를 부여하고 모든 법적 등가물을 포괄하도록 되어 있다. 그럼에도 불구하고, 청구항 중 어느 것도 적용 가능한 특허법의 요건을 충족시키지 못하는 주제를 수용하도록 의도되지 않으며, 그러한 방식으로 해석되어서도 안 된다.

Claims

디바이스에 있어서,
대상(subject)에게 이미지를 제공하도록 구성된 근안 디스플레이;
상기 대상의 이미지를 수집하도록 구성된 눈 이미징 시스템; 및
상기 대상의 3차원 모델의 오토스테레오스코픽(autostereoscopic) 이미지를 구경자(onlooker)에게 제공하도록 구성된 라이트 필드 디스플레이(light field display) - 상기 오토스테레오스코픽 이미지는 상기 라이트 필드 디스플레이의 시야 내의 다수의 시점들로부터 상기 대상의 원근 보정된 뷰를 포함함 -
를 포함하는 디바이스.
청구항 1에 있어서,
상기 라이트 필드 디스플레이는 픽셀 어레이 및 멀티-렌즈릿(multi-lenslet) 어레이를 포함하고, 상기 픽셀 어레이는 상기 멀티-렌즈릿 어레이에 상기 대상의 분할된 뷰를 제공하도록 구성되며, 상기 분할된 뷰는 선택된 시점에서 상기 라이트 필드 디스플레이의 시야의 다수의 부분들을 포함하는 것인 디바이스.
청구항 1 또는 청구항 2에 있어서,
상기 눈 이미징 시스템은 상기 대상의 양안 뷰(binocular view)를 수집하기 위해 2개의 카메라를 포함하는 것인 디바이스.
청구항 1 내지 청구항 3 중 어느 한 항에 있어서,
하나 이상의 프로세서 및 상기 하나 이상의 프로세서에 의해 실행될 때 상기 대상의 이미지로부터 상기 대상의 3차원 표현을 생성하는 명령어를 저장한 메모리를 더 포함하고; 그리고/또는 바람직하게는 상기 근안 디스플레이는 상기 대상에게 상기 구경자를 포함한 환경의 3차원 표현을 제공하는 것인 디바이스.
청구항 1 내지 청구항 4 중 어느 한 항에 있어서,
상기 눈 이미징 시스템은 상기 라이트 필드 디스플레이에 인접한 다이크로익 미러(dichroic mirror)로부터 반사 모드에서 상기 대상으로부터 이미지를 수신하는 적외선 카메라를 포함하는 것인 디바이스.
청구항 1 내지 청구항 5 중 어느 한 항에 있어서,
상기 라이트 필드 디스플레이는 상기 구경자를 위해, 2개의 시점에 대한 원근 보정된 뷰 사이의 혼선을 피하기 위해 미리 선택된 피치를 갖는 2차원 패턴으로 배열된 다수의 마이크로 렌즈들을 갖는 마이크로 렌즈 어레이를 포함하는 것인 디바이스.
청구항 1 내지 청구항 6 중 어느 한 항에 있어서,
상기 라이트 필드 디스플레이는 마이크로 렌즈 어레이에 인접한 침지 스탑(immersed stop)을 더 포함하며, 상기 침지 스탑은 각각의 조리개(aperture)가 상기 마이크로 렌즈 어레이의 각 마이크로 렌즈의 중심과 정렬되도록 다수의 조리개들을 포함하는 것인 디바이스.
청구항 1 내지 청구항 7 중 어느 한 항에 있어서,
상기 라이트 필드 디스플레이는 다수의 활성 세그먼트들로 분할된 픽셀 어레이를 포함하고, 상기 픽셀 어레이에서의 각각의 활성 세그먼트는 멀티-렌즈릿 어레이의 굴절 요소의 직경에 대응하는 치수를 갖고; 그리고/또는 바람직하게는 하나 이상의 프로세서 및 상기 하나 이상의 프로세서에 의해 실행될 때 상기 라이트 필드 디스플레이가 픽셀 어레이를 다수의 활성 세그먼트들로 분할하게 하는 명령어를 저장한 메모리를 더 포함하며, 각각의 활성 세그먼트는 상기 구경자를 위해 선택된 시점에서 상기 라이트 필드 디스플레이의 시야의 일부분을 제공하도록 구성되는 것인 디바이스.
컴퓨터 구현 방법(computer-implemented method)에 있어서,
하나 이상의 헤드셋 카메라로부터, 헤드셋 사용자인 대상의 적어도 2개 이상의 시야를 갖는 다수의 이미지들을 수신하는 단계;
학습 가능한 가중치 세트를 사용하여 상기 이미지들로부터 다수의 이미지 피처들을 추출하는 단계;
상기 학습 가능한 가중치 세트를 사용하여 상기 대상의 3차원 모델을 형성하는 단계;
상기 대상의 이미지 투영을 구경자를 위한 선택된 관찰 포인트와 연관시키는 오토스테레오스코픽 디스플레이 포맷에 상기 대상의 3차원 모델을 매핑하는 단계; 및
상기 구경자가 상기 선택된 관찰 포인트에 위치될 때 상기 대상의 이미지 투영을 디바이스 디스플레이 상에 제공하는 단계
를 포함하는 컴퓨터 구현 방법.
청구항 9에 있어서,
상기 이미지 피처들을 추출하는 단계는 상기 이미지들의 각각을 수집하는 데 사용된 헤드셋 카메라의 고유 속성(intrinsic property)을 추출하는 단계를 포함하는 것인 컴퓨터 구현 방법.
청구항 9 또는 청구항 10에 있어서,
상기 대상의 3차원 모델을 오토스테레오스코픽 디스플레이 포맷에 매핑하는 단계는 제1 관찰 포인트와 연관된 피처 맵을 제2 관찰 포인트와 연관된 피처 맵으로 보간하는 단계를 포함하거나; 또는 바람직하게는 상기 대상의 3차원 모델을 오토스테레오스코픽 디스플레이 포맷에 매핑하는 단계는 상기 선택된 관찰 포인트의 방향을 따라 다수의 픽셀들에 대한 이미지 피처들을 집계(aggregating)하는 단계를 포함하거나; 또는 바람직하게는 상기 대상의 3차원 모델을 오토스테레오스코픽 디스플레이 포맷에 매핑하는 단계는 상기 헤드셋 카메라의 각각에 의해 생성된 다수의 피처 맵들을 순열 불변 조합으로 연결(concatenating)하는 단계를 포함하며, 상기 헤드셋 카메라의 각각은 고유 특성을 갖는 것인 컴퓨터 구현 방법.
청구항 9 내지 청구항 11 중 어느 한 항에 있어서,
상기 대상의 이미지 투영을 제공하는 단계는, 상기 구경자가 제1 관찰 포인트로부터 제2 관찰 포인트로 이동함에 따라 상기 디바이스 디스플레이 상에 제2 이미지 투영을 제공하는 단계를 포함하는 것인 컴퓨터 구현 방법.
다수의 합성 뷰들을 생성하는 것을 포함하여, 가상 현실 헤드셋에서의 오토스테레오스코픽 디스플레이에 대상의 뷰를 제공하도록 모델을 트레이닝하기 위한 컴퓨터 구현 방법에 있어서,
다수의 사용자들의 얼굴로부터 다수의 실측(ground-truth) 이미지들을 수집하는 단계;
저장되고 교정된 스테레오스코픽 이미지 쌍으로 상기 실측 이미지를 수정(rectify)하는 단계;
상기 대상의 이미지 투영을 구경자를 위한 선택된 관찰 포인트와 연관시키는 오토스테레오스코픽 디스플레이 포맷에 상기 대상의 3차원 모델을 매핑하는 단계;
상기 실측 이미지와 상기 대상의 이미지 투영 사이의 차이에 기초하여 손실 값을 결정하는 단계; 및
상기 손실 값에 기초하여 상기 대상의 3차원 모델을 업데이트하는 단계
를 포함하는 컴퓨터 구현 방법.
청구항 13에 있어서,
상기 다수의 합성 뷰들을 생성하는 것은 선택된 관찰 방향을 따라 상기 실측 이미지의 각각으로부터의 이미지 피처를 투영하고 상기 실측 이미지의 각각에 의해 생성된 다수의 피처 맵들을 순열 불변 조합으로 연결하는 것을 포함하며, 상기 실측 이미지의 각각은 고유 특성을 갖고; 그리고/또는 바람직하게는 상기 대상의 3차원 모델을 트레이닝하는 것은 상기 실측 이미지와 상기 대상의 이미지 투영 사이의 차이를 나타내는 손실 함수의 값에 기초하여 다수의 피처들 각각에 대한 학습 가능한 가중치 세트에서의 적어도 하나를 업데이트하는 것을 포함하거나; 또는 바람직하게는 상기 대상의 3차원 모델을 트레이닝하는 것은 상기 다수의 실측 이미지들로부터 투영된 픽셀 배경 값에 기초하여 상기 실측 이미지에서의 다수의 픽셀들 각각에 대한 배경 값을 트레이닝하는 것을 포함하는 것인 컴퓨터 구현 방법.