KR20210050582A

KR20210050582A - 스테레오 추출을 사용하는 3차원 장면 인페인팅

Info

Publication number: KR20210050582A
Application number: KR1020217012080A
Authority: KR
Inventors: 니르 다우베; 자치 카르니
Original assignee: 스냅 인코포레이티드
Priority date: 2018-09-27
Filing date: 2019-09-04
Publication date: 2021-05-07
Also published as: US20200105051A1; US11670040B2; US20230281916A1; EP3857517A1; WO2020068383A1; EP3857517A4; US20210366182A1; US11094108B2; CN112805753A

Abstract

본 발명은, 상이한 관점들을 갖는 한 쌍의 2차원(2D) 이미지들로부터 개선된 시각적 특징들을 갖는 3차원 장면들을 렌더링하기 위한 시스템들 및 방법들에 관한 것이다. 3D 장면은, 제1 관점으로부터 장면 객체의 제1의 2차원(2D) 이미지를 획득하고, 제1 관점과 상이한 제2 관점으로부터 장면 객체의 제2의 2D 이미지를 획득하고, 제1의 2D 이미지 및 제2의 2D 이미지로부터 깊이 맵을 생성하고, 깊이 맵 및 제1의 2D 이미지 및 제2의 2D 이미지로부터 3D 장면을 생성하고, 불완전한 이미지 정보를 갖는 초기 3D 장면의 구역들을 검출하고, 3D 장면의 검출된 구역들을 재구성하고, 교체 정보를 결정하고 재구성된 구역들을 수정하고, 그리고 복수의 관점들로부터 수정된 재구성된 구역들을 갖는 3D 장면을 렌더링함으로써 생성된다.

Description

스테레오 추출을 사용하는 3차원 장면 인페인팅

[0001] 본 출원은 2018년 9월 27일에 출원된 Three Dimensional Scene Inpainting Using Stereo Extraction라는 명칭의 미국 가출원 일련 번호 제62/737,280호를 우선권으로 주장하고, 상기 출원의 내용들은 인용에 의해 본원에 완전히 포함된다.

[0002] 본 발명은 3D 장면들을 렌더링하는 것에 관한 것이며, 더 상세하게는, 상이한 관점들을 갖는 한 쌍의 2D 이미지들로부터 개선된 시각적 특징들을 갖는 3D 장면들을 렌더링하기 위한 시스템들 및 방법들에 관한 것이다.

[0003] 컴퓨터 시스템들은, 2차원(2D) 디스플레이 상에 3차원(3D) 장면 객체들을 제공하기 위해 렌더링 절차들을 사용한다. 장면 객체들의 3D 표현을 생성하기 위해, 컴퓨터 시스템은, 상이한 관점들을 갖는 다수의 2D 이미지들로부터 장면 객체들의 기하학적 정보(geometric information)를 획득한다. 그런 다음, 컴퓨터 시스템은, 3D 장면을 생성하고 2D 디스플레이 상에서 렌더링하는 데 사용하기 위해, 획득된 기하학적 정보로부터 깊이 맵을 생성한다.

[0004] 깊이 맵은, 장면 객체들의 2D 이미지들을 캡처하는 이미저들의 관점으로부터 장면 객체들의 표면들의 거리들에 관련된 정보를 포함하는 이미지이다. 깊이는 때때로 Z-깊이로 지칭되는데, 이는, 이미저의 시야 중심 축이 장면의 절대 Z-축이 아니라 이미저의 Z-축의 방향이라는 규정(convention)을 참조한다.

[0005] 컴퓨터 시스템은 사용자가 보고 조작할 수 있도록 2D 디스플레이 상에 3D 장면을 제공하고, 사용자는 3D 장면의 관점을 변경함으로써 3D 장면의 장면 객체들을 조작할 수 있다. (3D 장면을 생성하는 데 사용되는 제한된 수의 관점들로부터 획득된 2D 이미지들 중 하나 이상에 객체/장면의 일부 양상들이 존재하지 않기 때문에) 3D 장면이 정확한 정보(예컨대, 컬러 값, 깊이 값 및/또는 객체 값)를 포함하지 않는 장면 객체들의 관점들에 대해, 컴퓨터 시스템은 인접한 픽셀들의 정보를 사용하여 장면을 완성하려고 시도할 것이다. 컴퓨터 시스템이 (예컨대, 인접 픽셀들로부터의 정보를 사용하여) 장면을 완성하려고 시도할 때, 결과적인 장면은 종종 비현실적으로 보이는 형상들 및/또는 컬러들(예컨대, 컬러의 "스트레칭(stretching)" 효과)을 포함한다.

[0006] 비현실적으로 보이는 형상들 및/또는 컬러들을 최소화하기 위해, 종래 기법들은 종종 2개의 개개의 관점들로부터 2개 초과의 많은 2D 이미지들(예컨대, 이미지들의 파노라마)을 획득한다. 다수의 관점들로부터 이미지들의 파노라마를 획득하는 것은, 장면 객체들의 적어도 하나의 관점이 다양한 관점들로부터 3D 장면들을 생성하는 데 사용할 정보를 포함할 가능성을 증가시키고, 이로써 디스플레이 정확도를 향상시킨다. 그러나, 이러한 기법들은, 단지 2개의 2D 이미지들로 3D 장면을 생성하는 것과 비교하여, 상대적으로 많은 양의 프로세싱 시간/전력을 요구한다.

[0007] 본 발명은, 동일한 엘리먼트들이 동일한 참조 부호들을 갖는 첨부된 도면들과 관련하여 읽을 때 하기 상세한 설명으로부터 가장 잘 이해된다. 복수의 유사한 엘리먼트들이 존재할 때, 복수의 유사한 엘리먼트들에 단일 참조 부호가 할당될 수 있고, 소문자 지정이 특정 엘리먼트들을 참조한다. 엘리먼트들을 집합적으로 참조하거나 엘리먼트들 중 특정적이 아닌 하나 이상을 참조할 때, 소문자 지정은 삭제될 수 있다. 이는, 통상적인 관행에 따라, 도면들의 다양한 특징들이 달리 표시되지 않는 한 실척대로 도시되지 않음을 강조한다. 반대로, 다양한 특징들의 치수들은 명확성을 위해 확장되거나 감소될 수 있다. 도면들에는 하기 도면들이 포함된다.
[0008] 도 1a는 전자 컴포넌트들 및 전자 컴포넌트들을 지지하는 지지 구조물을 포함하는 아이웨어 예의 사시도이다.
[0009] 도 1b는 아이웨어를 착용한 사용자의 머리를 수용하기 위한 아이웨어에 의해 규정된 구역을 예시하는 도 1a의 아이웨어의 예의 평면도이다.
[0010] 도 2는, 도 1a의 아이웨어 예에 의해 지원되고 개인용 컴퓨팅 디바이스 및 수신측과의 통신에 의해 지원되는 전자 컴포넌트들의 예의 블록도이다.
[0011] 도 3a는 3D 장면을 렌더링하기 위한 예시적인 단계들의 흐름도이다.
[0012] 도 3b는, 도 3a에서 제1의 2D 이미지 및 제2의 2D 이미지를 3D 장면으로 재구성하기 위한 예시적인 단계들의 흐름도이다.
[0013] 도 3c는, 도 3b에서 불완전한 정보를 갖는 3D 장면의 구역들을 검출하기 위한 예시적인 단계들의 흐름도이다.
[0014] 도 3d는, 도 3b에서 교체 이미지 정보를 결정하기 위한 예시적인 단계들의 흐름도이다.

[0015] 다음의 상세한 설명에서, 다수의 특정한 세부사항들이 관련된 교시들의 완전한 이해를 제공하기 위해 예들로서 기술된다. 그러나, 그러한 세부사항들이 본 교시들을 실시하는 데 필요하지 않음이 당업자들에게 명백해야 한다. 다른 사례들에서, 세부사항이 없이, 잘 알려진 방법들, 프로시저들, 컴포넌트들 및 회로망의, 비교적 높은-레벨 설명은 본 교시들의 양상들을 불필요하게 모호하게 하는 것을 회피한다.

[0016] 본원에서 사용되는 "커플링된"이라는 용어는 하나의 시스템 엘리먼트에 의해 생성되거나 또는 공급된 신호들 또는 광이 다른 커플링된 엘리먼트에 부여되게 하는 임의의 논리적, 광학적, 물리적 또는 전기적 연결, 링크 등을 지칭한다. 달리 설명되지 않는 한, 커플링된 엘리먼트들 또는 디바이스들은 서로 물리적으로 반드시 터치할 필요는 없으며, 광 또는 신호들을 수정, 조작 또는 반송할 수 있는 공역(airspace), 중간 컴포넌트들, 엘리먼트들 또는 통신 매체들에 의해 분리될 수 있다.

[0017] 도면들 중 임의의 도면에 도시된 아이웨어, 연관된 컴포넌트들 및 임의의 디바이스들의 배향들은 단지 예로서 예시 및 논의를 위한 것이다. 동작 시, 아이웨어의 배향은 아이웨어의 특정 애플리케이션에 적합한 다른 방향들, 예컨대, 위, 아래, 옆으로 또는 임의의 다른 배향일 수 있다. 또한, 전방, 후방, 내부, 외부, 향해, 좌측, 우측, 측방, 길이 방향, 위, 아래, 상부, 하부, 최상부, 최하부 및 측면과 같은 임의의 방향 용어는, 예시적이며, 방향 또는 배향에 제한되지 않는다.

[0018] 도 1a는 이미지들을 캡처하기 위한 예시적인 아이웨어(12)의 전면 사시도를 도시한다. 예시된 아이웨어(12)는 중앙 프레임 부분(16)으로부터 연장되는 템플들(14A 및 14B)을 갖는 지지 구조물(13)을 포함한다. 아이웨어(12)는 부가적으로 관절형 조인트들(articulated joints)(18A 및 18B), 전자 컴포넌트들(20A 및 20B) 및 코어 와이어들(22A, 22B 및 24)을 포함한다. 예시된 아이웨어는 안경이지만, 아이웨어는 헤드셋, 헤드 기어, 헬멧, 또는 사용자가 착용할 수 있는 다른 디바이스와 같은 다른 형태들을 취할 수 있다.

[0019] 지지 구조물(13)은 사용자가 착용할 때 사용자의 시야 내에서 하나 이상의 광학 엘리먼트들을 지지한다. 예컨대, 중앙 프레임 부분(16)은 하나 이상의 광학 엘리먼트들을 지지한다. 본원에서 사용되는 바와 같이, "광학 엘리먼트들"이라는 용어는 렌즈들, 플라스틱 또는 유리의 투명한 조각들, 프로젝터(projector)들, 스크린들, 디스플레이들 및 시각적 이미지들을 제공하거나 또는 사용자가 시각적 이미지들을 지각하게 하는 다른 디바이스들을 지칭한다. 실시예에서, 개개의 템플들(14A 및 14B)은 개개의 관절형 조인트들(18A 및 18B)에서 중앙 프레임 부분(16)에 연결된다. 예시된 템플들(14A 및 14B)은 내부에서 길이 방향으로 연장되는 코어 와이어들(22A 및 22B)을 갖는 세장형 부재들이다.

[0020] 템플(14A)은 착용가능한 상태로 예시되고, 템플(14B)은 도 1a에서 접힌 상태로 예시된다. 도 1a에 도시된 바와 같이, 관절형 조인트(18A)는 템플(14A)을 중앙 프레임 부분(16)의 우측 단부(26A)에 연결한다. 유사하게, 관절형 조인트(18B)는 템플(14B)을 중앙 프레임 부분(16)의 좌측 단부(26B)에 연결한다. 중앙 프레임 부분(16)의 우측 단부(26A)는, 내부에 전자 컴포넌트들(20A)을 보유하는 하우징을 포함하고, 좌측 단부(26B)는 내부에 전자 컴포넌트들(20B)을 보유하는 하우징을 포함한다.

[0021] 플라스틱 재료 또는 다른 재료는, 인접한 관절형 조인트(18A)로부터 템플(14A)의 제2 길이 방향 단부를 향해 길이 방향으로 연장되는 코어 와이어(22A)를 임베딩(embed)한다. 유사하게, 플라스틱 재료 또는 다른 재료는 또한, 인접한 관절형 조인트(18B)로부터 템플(14B)의 제2 길이 방향 단부를 향해 길이 방향으로 연장되는 코어 와이어(22B)를 임베딩한다. 플라스틱 재료 또는 다른 재료는 부가적으로, (인접한 전자 컴포넌트들(20A)이 종결되는) 인접한 우측 단부(26A)로부터 (인접한 전자 컴포넌트들(20B)이 종결되는) 좌측 단부(26B)로 연장되는 코어 와이어(24)를 임베딩한다.

[0022] 전자 컴포넌트들(20A 및 20B)은 지지 구조물(13)에 의해(예컨대, 템플(들)(14A, 14B) 및/또는 중앙 프레임 부분(16) 중 어느 하나 또는 둘 다에 의해) 보유된다. 전자 컴포넌트들(20A 및 20B)은 전원, 전력 및 통신 관련 회로망, 통신 디바이스들, 디스플레이 디바이스들, 컴퓨터, 메모리, 모듈들 등(도시되지 않음)을 포함한다. 전자 컴포넌트들(20A 및 20B) 각각은 이미지들 및/또는 비디오들을 캡처하기 위한 개개의 이미저(10A 및 10B)를 포함할 수 있다. 예시된 예에서, 이미저(10A)는 우측 템플(14A)에 인접하고, 이미저(10B)는 좌측 템플(14B)에 인접한다. 이미저들(10A 및 10B)은, 3D 장면들을 생성하는 데 사용하기 위해 2개의 상이한 관점들로부터 장면 객체들의 이미지들을 획득하기 위해 서로로로부터 이격된다.

[0023] 지지 구조물(13)은, 사용자/착용자의 머리의 부분(52)(예컨대, 주요 부분)을 수용하기 위한 구역(예컨대, 프레임(12) 및 템플들(14A 및 14B)에 의해 정의된 구역(52)(도 1b))을 정의한다. 정의된 구역(들)은, 사용자가 아이웨어(12)를 착용하고 있을 때, 지지 구조물에 의해 에워싸이고, 둘러싸이고, 지지 구조물에 인접하고 그리고/또는 근접한 사용자의 머리의 적어도 일부분을 포함하는 하나 이상의 구역들이다. 예시된 예에서, 이미저들(14A 및 14B)은, 아이웨어(12)가 착용될 때, 사용자의 개개의 눈들에 인접하도록 아이웨어 상에 포지셔닝되고, 이는 3D 장면들을 생성하기에 적절한 관점의 분리를 획득하는 것을 가능하게 한다.

[0024] 도 2는 디스플레이 시스템(135)(예컨대, 프로세싱 디바이스의 디스플레이 또는 정보를 제시하기 위한 다른 기법)에 커플링된 예시적 전자 컴포넌트들의 블록도이다. 예시된 전자 컴포넌트들은 아이웨어(12) 내의 다양한 디바이스들을 제어하기 위한 제어기(100)(예컨대, 하드웨어 프로세서); 아이웨어(12)와 클라이언트 디바이스(예컨대, 스마트폰과 같은 개인용 컴퓨팅 디바이스(50)) 사이의 통신을 가능하게 하기 위한 무선 모듈(예컨대, BluetoothTM)(102); 아이웨어(12)에 전력을 공급하기 위한 전력 회로(104)(예컨대, 배터리, 필터 등); 데이터(예컨대, 이미지들, 비디오, 이미지 프로세싱 소프트웨어 등)를 저장하기 위한 플래시 스토리지와 같은 메모리(106); 선택기(32); 및 하나 이상의 이미지들(예컨대, 픽처 또는 비디오)을 캡처하기 위한 하나 이상의 이미저들(10)(예시된 예들에서 2개)을 포함한다. 아이웨어(12) 및 개인용 컴퓨팅 디바이스가 별개의 컴포넌트들로서 예시되지만, 개인용 컴퓨팅 디바이스의 기능은, 개인용 컴퓨팅 디바이스 및/또는 아이웨어(12)가 본원에 설명된 기능을 수행하는 것을 가능하게 하도록 아이웨어에 통합될 수 있다.

[0025] 선택기(32)는 이미지들/비디오를 캡처하기 위해 아이웨어(12)의 제어기(100)를 (예컨대, 버튼의 순간적인 누름을 통해) 트리거할 수 있다. 단일 선택기(32)가 이용되는 예들에서, 선택기는 (예컨대, 일정 시간 기간, 예컨대, 3초 동안 선택기(32)를 눌러 유지함으로써 진입되는) 셋업 모드 및 (예컨대, 접촉 없이 일정 시간 기간, 예컨대, 5초 이후에 진입되는) 이미지 캡처 모드에서 사용될 수 있다.

[0026] 예에서, 선택기(32)는 눌리었을 때 사용자 입력 신호를 제어기(100)에 전송하는 아이웨어(12) 상의 물리적 버튼일 수 있다. 제어기(100)는 사전 결정된 시간 기간(예컨대, 3초) 동안 버튼을 누르는 것을 상이한 동작 모드로의 전환(예컨대, 셋-업 동작 모드의 인/아웃)에 대한 요청으로서 해석할 수 있다. 다른 예들에서, 선택기(32)는 아이웨어 또는 다른 디바이스 상의 가상 버튼일 수 있다. 또 다른 예에서, 선택기는 음성 커맨드들을 해석하는 음성 모듈 또는 눈의 초점이 지향되는 곳을 검출하는 눈 검출 모듈일 수 있다. 제어기(100)는, 선택기(32)로부터의 신호들을, 이미지(들)의 의도된 수신자를 선택하기 위해 조명 LED들(35)을 통해 순환하기 위한 트리거로서 해석할 수 있다.

[0027] 무선 모듈(102)은 스마트폰, 태블릿, 패블릿(phablet), 랩탑 컴퓨터, 데스크탑 컴퓨터, 네트워킹된 어플라이언스, 액세스 포인트 디바이스, 또는 무선 모듈(102)과 연결할 수 있는 임의의 다른 그러한 디바이스와 같은 클라이언트/개인용 컴퓨팅 디바이스(50)와 커플링될 수 있다. 예컨대, Bluetooth, Bluetooth LE, Wi-Fi, Wi-Fi 다이렉트, 셀룰러 모뎀 및 근거리 통신 시스템뿐만 아니라 이러한 시스템들 중 임의의 시스템의 다수의 인스턴스들은, 이러한 연결을 구현하여 이들 사이의 통신을 가능하게 할 수 있다. 예컨대, 디바이스들 사이의 통신은 아이웨어(12)와 클라이언트 디바이스 사이의 소프트웨어 업데이트들, 이미지들, 비디오들, 조명 방식들 및/또는 사운드의 전달을 가능하게 할 수 있다.

[0028] 또한, 개인용 컴퓨팅 디바이스(50)는 네트워크(53)를 통해 하나 이상의 수신자들(예컨대, 수신자 개인용 컴퓨팅 디바이스(51))과 통신할 수 있다. 네트워크(53)는 개인용 컴퓨팅 디바이스들이 예컨대, 텍스트, 이메일, 인스턴트 메시징 등을 통해 이미지(들)를 송신 및 수신할 수 있게 하는 셀룰러 네트워크, Wi-Fi, 인터넷 등일 수 있다. 컴퓨팅 디바이스들(50/51) 각각은 프로세서 및 디스플레이를 포함할 수 있다. 본원에 설명된 하나 이상의 기능들을 수행하도록 구성될 수 있는 적절한 프로세서들 및 디스플레이들은 캘리포니아, 쿠퍼티노 소재의 Apple Inc.로부터 입수 가능한 iPhone 8^TM 및 대한민국, 서울 소재의 삼성 그룹으로부터 입수 가능한 Samsung Galaxy Note 9^TM과 같은 스마트폰들 및 현세대 개인용 컴퓨팅 디바이스들에서 발견될 수 있다.

[0029] 이미지들/비디오를 캡처하기 위한 이미저(들)(10)는 디지털 카메라 엘리먼트들, 이를테면, 전하-커플링된 디바이스, 렌즈, 또는 전기 신호(들)로 변환하기 위한 이미지 데이터를 캡처하기 위한 임의의 다른 광 캡처링 엘리먼트들을 포함할 수 있다.

[0030] 제어기(100)는 전자 컴포넌트들을 제어한다. 예컨대, 제어기(100)는, 이미저(10)로부터 신호들을 수신하고, 이러한 신호들을 메모리(106)(예컨대, 플래시 스토리지) 내에 저장하기에 적합한 포맷으로 프로세싱하기 위한 회로망을 포함한다. 제어기(100)는 전력 온 및 부팅되어, 정상 동작 모드에서 동작하거나 또는 슬립 모드에 진입한다. 예에서, 제어기(100)는, 동작시키기 위해 마이크로프로세서에 의해 사용되는 휘발성 메모리와 함께, 이미저(10)로부터의 센서 데이터를 프로세싱하기 위해 맞춤화된 마이크로프로세서 IC(integrated circuit)를 포함한다. 메모리는 제어기(100)에 의한 실행을 위한 소프트웨어 코드를 저장할 수 있다.

[0031] 전자 컴포넌트들 각각은 동작하기 위해 전력을 요구한다. 전력 회로(104)는 배터리, 전력 컨버터 및 분배 회로망(도시되지 않음)을 포함할 수 있다. 배터리는 리튬-이온 등과 같은 재충전가능한 배터리일 수 있다. 전력 컨버터 및 분배 회로망은 다양한 전자 컴포넌트들에 전력을 공급하기 위한 전압들을 필터링 및/또는 변환하기 위한 전기 컴포넌트들을 포함할 수 있다.

[0032] 도 3a는, 아이웨어(예컨대, 도 1의 아이웨어(12))의 예시적인 동작, 및 프로세싱 시스템(예컨대, 아이웨어(12)의 프로세서 및/또는 아이웨어에 원격인 컴퓨팅 디바이스의 프로세서)에 의한 3D 장면 렌더링을 예시하는 흐름도(300)를 도시한다. 설명의 편의를 위해, 흐름도(300)의 단계들이 본원에 설명된 아이웨어(12)를 참조하여 설명된다. 당업자는, 3D 장면들을 렌더링에 사용하기 위해 아이웨어에 연결되지 않은 다른 이미저 구성들을 인식할 것이다. 부가적으로, 단계들 중 하나 이상이 생략되거나, 다른 컴포넌트에 의해 수행되거나, 상이한 순서로 수행될 수 있다는 것이 이해되어야 한다.

[0033] 단계(310)에서, 제1 관점으로부터 장면 객체의 제1의 2D 이미지 및 제2 관점으로부터 장면 객체의 제2의 2D 이미지가 획득된다. 예에서, 아이웨어(12)의 제1 이미저(10A)는 제1 관점으로부터 장면 객체의 제1의 2D 이미지를 캡처하고, 아이웨어(12)의 제2 이미저(10B)는 제2 관점으로부터 장면 객체의 제2의 2D 이미지를 캡처한다. 캡처된 이미지들은 이미저들(10A 및 10B)로부터 3D 장면의 렌더링을 위한 프로세싱 시스템으로 전달된다. 일 예에서, 아이웨어(12)의 제어기(100)는 2D 이미지들을 획득하고, 획득된 2D 이미지들로부터 3D 장면을 렌더링한다. 다른 예에서, 제어기(100)는 2D 이미지들을 수신하고, 3D 장면의 렌더링을 위해 원격 컴퓨팅 디바이스(50/51)의 프로세싱 시스템에 2D 이미지들을 송신한다.

[0034] 단계(320)에서, 제1 및 제2의 2D 이미지들이 장면 객체의 3D 장면으로 재구성된다. 프로세싱 시스템은 제1 및 제2의 2D 이미지들을 장면 객체의 3D 장면으로 재구성한다. 프로세싱 시스템은 (즉, 깊이 맵의 생성을 위한) 스테레오-비전 이미지 프로세싱 기법 및 기하학적 프로세싱 기법을 적용하여, 3D 장면을 생성할 수 있다. 예에서, 렌더링된 3D 장면은 이미지 정보(예컨대, 컬러 정보, 깊이 정보 및 객체 정보)와 함께 기하학적 특징들(예컨대, x-축, y-축 및 z-축 좌표들을 갖는 꼭짓점들)을 포함한다. 렌더링된 3D 장면은 또한 다중-각도 면들, 예컨대, 전형적으로, 장면 객체들의 텍스처 표면들을 구성하기 위해 꼭짓점들을 연결한 삼각형 면들 또는 사각형 면들로서 연결물(connective)을 포함할 것이다. 적절한 스테레오-비전 프로세싱 기법들 및 기하학적 프로세싱 기법들은 본원의 설명으로부터 당업자에 의해 이해될 것이다.

[0035] 도 3b는 제1의 2D 이미지 및 제2의 2D 이미지를 장면 객체의 3D 장면으로 재구성하기 위한 예시적인 단계들(도 3a의 단계(320))에 대한 흐름도를 도시한다. 단계(321)에서, 제1의 2D 이미지 및 제2의 2D 이미지로부터 깊이 맵이 생성된다. 프로세싱 시스템은, 스테레오-비전 프로세싱 기법을 사용하여 제1의 2D 이미지 및 제2의 2D 이미지를 프로세싱함으로써 깊이 맵을 생성할 수 있다. 단계(322)에서, 제1의 2D 이미지 및 제2의 2D 이미지로부터 3D 장면이 생성된다. 프로세싱 시스템은, 단계(321)에서 생성된 깊이 맵과 함께, 제1의 2D 이미지 및 제2의 2D 이미지를 기하학적으로 프로세싱함으로써 3D 장면을 생성할 수 있다.

[0036] 단계(323)에서, 불완전한 이미지 정보를 갖는 3D 장면의 구역들이 검출된다. 프로세싱 시스템은 불완전한 이미지 정보(예컨대, 누락된 컬러, 깊이 및/또는 객체 정보)를 갖는 3D 장면의 구역들을 검출할 수 있다. 예컨대, 프로세싱 시스템은, 3D 장면을 구성하는 면들의 형상 및/또는 면들을 구성하는 꼭짓점들과 연관된 신뢰도 값들과 같은 정보를 검사함으로써, 불완전한 정보를 결정할 수 있다.

[0037] 예에서, 프로세싱 시스템은, 재구성된 3D 장면의 면들을 프로세싱(도 3c의 단계(323a))하여, 불완전한 정보의 특징들을 나타내는 연속적인 면들의 그룹들, 예컨대, 매우 좁은 면들 및/또는 낮은 신뢰도 값을 갖는 하나 이상의 꼭짓점을 갖는 면들을 식별한다.

[0038] 프로세싱 시스템은, 불완전한 정보를 갖는 구역들로서 변질된 면들(예컨대, 상대적으로 좁은 면들)을 갖는 연속적인 구역들을 식별할 수 있다(도 3c의 단계(323b)). 상대적으로 좁은 면들은, 면들의 인접한 라인들 사이의 각도들과 임계값과 비교함으로써 결정될 수 있는데, 예컨대, 5도와 같은 임계치 미만인 적어도 하나의 각도를 포함하는 면들, 길이가 다른 측의 길이보다 5% 더 짧은 길이를 갖는 하나의 측을 갖는 면들, 및/또는 1 밀리미터와 같이 임계 치수 미만인 하나의 측을 갖는 면들은 좁은 것으로 카테고리화될 수 있다.

[0039] 프로세싱 시스템은 또한, 또는 대안적으로, 낮은 신뢰도 값들을 갖는 면들(예컨대, 임계값 미만의 신뢰도 값을 갖는 적어도 하나의 꼭짓점을 갖는 면들)을 불완전한 정보를 갖는 구역들로서 식별할 수 있다(도 3c의 단계(323c)). 꼭짓점의 신뢰도 값은, (위에 설명된) 깊이 맵을 생성하기 위해, 제1의 2D 이미지 및 제2의 2D 이미지의 스테레오 프로세싱 동안에 결정된 대응하는 픽셀의 신뢰도 값일 수 있다.

[0040] 픽셀에 대응하는 꼭짓점에 대한 신뢰도 값은, 픽셀을 생성하는 데 있어서 제1의 2D 이미지 및 제2의 2D 이미지 간의 매칭/상관관계(matching/correlation)에 의존한다. 높은 상관관계(예컨대, 75 % 이상)가 있는 경우, 꼭짓점이 3D 장면으로 재구성하는 데 유용한 정확한 정보를 포함할 가능성이 비교적 높다. 반면에, 낮은 상관관계(예컨대, 75 % 미만)가 있는 경우, 꼭짓점이 3D 장면으로 재구성하는 데 유용할 만큼 충분히 정확한 정보를 포함하지 않을 가능성이 상대적으로 높다.

[0041] 단계(324)에서, 검출된 구역이 재구성된다. 예에서, 프로세싱 시스템은, 예컨대, 단계(322)에 대해 위에서 설명한 바와 같은 기하학적 프로세싱을 사용하여, 3D 장면의 검출된 구역을 재구성한다. 검출된 구역을 재구성하는 데 있어서, 프로세싱 시스템은 낮은 신뢰도 값들을 갖고 그리고/또는 변질된 면들과 연관된 꼭짓점들을 무시할 수 있다. 이러한 결과들은, 존재하는 경우, 변질된 면들(예컨대, 비교적 좁은 면들)이 더 적다는 것이다. 따라서, 검출된 구역의 면들은, 이러한 재구성 단계 후에 상이한 형상을 가질 것이다. 검출된 구역의 면들은 재구성 전에 제거될 수 있다. 예에서, 모든 꼭짓점들(및 자신들의 속성들, 예컨대, 컬러, 텍스처 등)의 정렬된 리스트 및 면들의 리스트를 포함하는 3D 메시들(meshes)에 대한 Indexed-Face-Set와 같은 데이터 구조가 사용될 수 있고, 여기서 각각의 면은 꼭짓점 리스트의 꼭짓점 인덱스(vertex index)를 나타낸다. 이 예에서, 면은, 면 리스트에서 그 면을 제거함으로써 제거될 수 있다.

[0042] 단계(325)에서, 교체 이미지 정보가 결정되고, 재구성된 검출된 구역들이 수정된다. 프로세싱 시스템은 재구성된 검출된 구역들에 대한 교체 이미지 정보를 결정하고, 검출된 구역들이 재구성되는 동안, 검출된 구역에 교체 이미지 정보를 포함하도록 3D 장면을 수정할 수 있다. 예컨대, 프로세싱 시스템은, 각각의 검출된 구역들의 개개의 경계들로부터의 경계 정보를 블렌딩함으로써, 검출된 구역들 각각에 대한 교체 이미지 정보를 결정할 수 있다.

[0043] 예에서, 교체 이미지 정보를 결정하기 위해, 프로세싱 시스템은 각각의 검출된 구역을 둘러싸는 경계를 식별한다(도 3d의 단계(325a)). 그런 다음, 프로세싱 시스템은, 예컨대, 경계를 따라 꼭짓점들과 연관된 깊이 정보에 기반하여, 검출된 구역들에서 배경 정보를 식별한다(도 3d의 단계(325b)). 프로세싱 시스템은 또한, 예컨대, 깊이 정보에 또한 기반하여, 검출된 구역에서 전경 정보를 식별한다(도 3d의 단계(325c)). 배경/전경 정보를 식별하기 위해, 프로세싱 시스템은 각각의 꼭짓점의 깊이 정보와 임계값(예컨대, 모든 꼭짓점들의 깊이 정보의 평균값)을 비교하고, 임계값보다 더 큰 깊이를 갖는 꼭짓점과 연관된 정보를 배경 정보로서 식별하고, 그리고 임계값 미만인 깊이를 갖는 꼭짓점과 연관된 정보를 전경 정보로서 식별할 수 있다. 그런 다음, 프로세싱 시스템은, 전경 정보보다 더 높은 가중치를 배경 정보에 부여하여, 개개의 구역들을 통해 경계들로부터의 정보를 블렌딩한다(도 3d의 단계(325d)). 이는, 주로 배경으로부터 전경으로의 정보의 확산을 발생시킨다.

[0044] 다시 도 3a를 참조하면, 단계(330)에서, 다수의 관점들로부터 3D 장면이 렌더링된다. 프로세싱 시스템은, 예컨대, 각각의 관점으로부터 2D 이미지를 생성하기 위해 이미지 합성 기법을 3D 장면에 적용함으로써, 다수의 관점들로부터 3D 장면을 렌더링할 수 있다. 적절한 이미지 합성 기법들은 본원 설명으로부터 당업자에 의해 이해될 것이다.

[0045] 단계(340)에서, 렌더링된 3D 장면이 개선(refine)된다. 프로세싱 시스템은 다수의 관점들 각각으로부터 3D 장면을 개선할 수 있다. 예에서, 프로세싱 시스템은 렌더링된 3D 장면의 2D 이미지들에서 구역들 ― 여기서 이미지 정보의 갭들이 존재함 ― (즉, "구멍들")을 식별했다. 그런 다음, 프로세싱 시스템은 이러한 구멍들을 둘러싼 교체 이미지 정보를 사용하여 이러한 구멍들을 채운다. 프로세싱 시스템은, 구멍들을 둘러싸는 배경 정보에 우선적인 가중치를 부여하여 구멍들을 채울 수 있다.

[0046] 단계(350)에서, 렌더링된 3D 장면이 제공된다. 프로세싱 시스템은, (예컨대, 아이웨어 디바이스 또는 원격 컴퓨팅 디바이스에 대한 사용자 입력에 기반하여) 선택된 관점과 연관된 렌더링된 3D 장면 내에 2D 이미지를 선택적으로 제공함으로써, 아이웨어 또는 원격 컴퓨팅 디바이스의 디스플레이 상에 렌더링된 3D 장면을 제공할 수 있다.

[0047] 흐름도(300)를 참조하여 설명된 상기 프로세스를 수행함으로써, 파노라마 뷰들에 의존할 필요없이, 더 많은 관점들로부터 볼 수 있는 더 미적으로 만족스러운 3D 장면(예컨대, 컬러 스트레칭이 감소됨)이 단지 2개의 2D 이미지들로부터 획득될 수 있다. 따라서, 계산적으로 집약적인 기법들에 의존하지 않고서, 우수한 결과들이 달성될 수 있다.

[0048] 본원에서 설명된 프로세스들의 단계들은 유형의(tangible) 컴퓨터 판독 가능 매체 상에, 이를테면, 자기 매체, 컴퓨터 하드 드라이브, 광학 디스크, 솔리드-스테이트 메모리, 플래시 메모리 또는 당업계에 알려진 다른 저장 매체들 상에 유형의 저장된 소프트웨어 코드 또는 명령들의 로딩 및 실행 시에 하드웨어 프로세서에 의해 수행될 수 있다는 것이 이해될 것이다. 따라서, 본원에서 설명된 프로세서에 의해 수행되는 기능성 중 임의의 것은 유형의 컴퓨터 판독 가능 매체 상에 유형적으로(tangibly) 저장되는 소프트웨어 코드 또는 명령으로 구현될 수 있다. 프로세서에 의한 그러한 소프트웨어 코드 또는 명령들을 로딩 및 실행 시에, 프로세서는 본원에서 설명된 방법들의 임의의 단계들을 포함하여, 본원에서 설명된 기능성들 중 임의의 것을 수행할 수 있다.

[0049] 본원에서 사용되는 "소프트웨어 코드" 또는 "코드"라는 용어는 컴퓨터 또는 제어기의 동작에 영향을 미치는 임의의 명령들 또는 명령들의 세트를 지칭한다. 이들은 컴퓨터의 중앙 처리 장치에 의해 또는 제어기에 의해 직접 실행되는 데이터 및 명령들의 세트인, 머신 코드와 같은 컴퓨터-실행 가능 형태, 컴퓨터의 중앙 처리 장치에 의해 또는 제어기에 의해 실행되기 위해 컴파일될 수 있는, 소스 코드와 같은 인간-이해 가능 형태 또는 컴파일러에 의해 생성되는, 오브젝트 코드와 같은 중간 형태로 존재할 수 있다. 본원에서 사용된 바와 같은 "소프트웨어 코드" 또는 "코드"라는 용어는 또한, 컴퓨터의 중앙 처리 장치에 의해 또는 제어기에 의해 실행되는 인터프리터의 도움으로 즉석에서(on the fly) 실행될 수 있는 임의의 인간-이해 가능 컴퓨터 명령들 또는 명령들의 세트 예컨대, 스크립트를 포함한다.

[0050] 본 발명의 청구 대상의 개요가 특정 예들을 참조하여 설명되었지만, 본 개시내용의 예들의 더 넓은 범위를 벗어나지 않고 이러한 예들에 대해 다양한 수정들 및 변경들이 이루어질 수 있다. 예컨대, 설명이 아이웨어 디바이스에 초점을 맞추지만, 헤드폰들과 같은 다른 전자 디바이스들이 본 발명의 청구 대상의 범위 내에 있는 것으로 고려된다. 본 발명의 청구 대상의 그러한 예들은, 실제로 하나 초과가 개시되는 경우, 임의의 단일 개시내용 또는 독창적 개념으로 본 출원의 범위를 임의적으로 제한하는 것으로 의도함 없이 단지 편의를 위해 개별적으로 또는 집합적으로 용어 "발명"으로서 본원에서 지칭될 수 있다.

[0051] 본원에서 예시된 예들은, 당업자들이 개시된 교시내용들을 실시할 수 있도록 충분히 상세하게 설명된다. 다른 예들이 사용될 수 있고 그리고 그로부터 도출될 수 있어서, 본 개시내용의 범위를 벗어나지 않으면서 구조적 및 논리적 치환들 및 변경들이 이루어질 수 있다. 그러므로, 상세한 설명은 제한적인 의미로 받아들여서는 안 되며, 다양한 예들의 범위는 첨부된 청구항들(그러한 청구항들의 자격이 부여되는 등가물들의 전체 범위와 함께)에 의해서만 정의된다.

Claims

3차원(3D) 장면을 생성하기 위한 시스템으로서,
제1 이미저(imager) 및 상기 제1 이미저로부터 이격된 제2 이미저를 포함하는 아이웨어(eyewear) ― 상기 제1 이미저는 상기 제1 관점으로부터 장면 객체(scene object)의 제1의 2차원(2D) 이미지를 획득하도록 구성되고, 상기 제2 이미저는 상기 제1 관점과 상이한 제2 관점으로부터 상기 장면 객체의 제2의 2D 이미지를 획득하도록 구성됨 ― ;
상기 아이웨어에 커플링된 프로세싱 시스템을 포함하고,
상기 프로세싱 시스템은:
상기 제1의 2D 이미지 및 상기 제2의 2D 이미지를 획득하고;
상기 제1의 2D 이미지 및 상기 제2의 2D 이미지로부터 깊이 맵(depth map)을 생성하고;
상기 깊이 맵 및 상기 제1의 2D 이미지 및 상기 제2의 2D 이미지로부터 3D 장면을 생성하고;
불완전한 이미지 정보로 갖는 초기 3D 장면의 구역들을 검출하고;
상기 3D 장면의 상기 검출된 구역들을 재구성하고;
교체 정보(replacement information)를 결정하고, 상기 재구성된 구역들을 수정하고; 그리고
복수의 관점들로부터 상기 수정된 재구성된 구역들을 갖는 상기 3D 장면을 렌더링하도록 구성되는,
3D 장면을 생성하기 위한 시스템.
제1 항에 있어서,
상기 프로세싱 시스템은 추가로:
하나 이상의 관점들로부터 상기 렌더링된 3D 장면에서 구멍들(holes)을 식별하고; 그리고
상기 구멍들을 채우기 위해 상기 렌더링된 3D 장면을 개선(refine)하도록 구성되는,
3D 장면을 생성하기 위한 시스템.
제1 항에 있어서,
상기 아이웨어는 제1 템플(temple) 및 제2 템플을 포함하고,
상기 제1 이미저는 상기 제1 템플에 인접하고, 상기 제2 이미저는 상기 제2 템플에 인접한,
3D 장면을 생성하기 위한 시스템.
제1 항에 있어서,
불완전한 이미지 정보를 갖는 상기 검출된 구역들에 대한 교체 정보를 결정하기 위해, 상기 프로세싱 시스템은:
각각의 검출된 구역을 둘러싸는 경계(boundary)를 식별하고;
경계들에서 배경 정보(background information)를 식별하고;
상기 경계들에서 전경 정보(foreground information)를 식별하고; 그리고
전경 경계 정보보다 더 높은 가중치를 배경 경계 정보에 부여하여, 개개의 구역들을 통해 상기 배경 경계 정보 및 상기 전경 경계 정보를 블렌딩(blend)하도록 구성되는,
3D 장면을 생성하기 위한 시스템.
제4 항에 있어서,
상기 배경 경계 정보 및 상기 전경 경계 정보를 블렌딩하기 위해, 상기 프로세싱 시스템은:
상기 개개의 구역들을 통해 상기 배경 경계 정보로부터 누락 정보를 상기 전경 경계 정보 내로 확산(diffuse)시키도록 구성되는,
3D 장면을 생성하기 위한 시스템.
제1 항에 있어서,
상기 깊이 맵은 픽셀 꼭짓점들(pixel vertices) 및 상기 제1의 2D 이미지 및 상기 제2의 2D 이미지로부터의 대응하는 이미지 정보를 포함하고, 상기 3D 장면을 생성하기 위해, 상기 프로세싱 시스템은 상기 꼭짓점들을 연결하여 제1 면들(faces)을 형성하도록 구성되고, 그리고 상기 검출된 구역들을 재구성하기 위해, 상기 프로세싱 시스템은 상기 경계 구역들의 꼭짓점들을 연결하여 제2 면들을 형성하도록 구성되고, 상기 제2 면들은 상기 제1 면들과 상이한,
3D 장면을 생성하기 위한 시스템.
제6 항에 있어서,
상기 제1 면들 및 제2 면들은 삼각형 면들 또는 사각형 면들 중 적어도 하나를 포함하는,
3D 장면을 생성하기 위한 시스템.
제1 항에 있어서,
상기 깊이 맵은 픽셀 꼭짓점들 및 각각의 꼭짓점에 대응하는 신뢰도 값들(confidence values)을 포함하고, 상기 3D 장면을 생성하기 위해, 상기 프로세싱 시스템은 상기 꼭짓점들을 연결하여 면들을 형성하도록 구성되고, 그리고
불완전한 정보를 갖는 상기 3D 장면의 구역들을 검출하기 위해, 상기 프로세싱 시스템은 변질된 면들(degenerated faces) 또는 낮은 신뢰도 면들 중 적어도 하나를 포함하는 연속적인 면들(contiguous faces)을 식별하도록 구성되는,
3D 장면을 생성하기 위한 시스템.
제8 항에 있어서,
상기 변질된 면들 각각은 임계값 미만인 적어도 하나의 각도를 갖는,
3D 장면을 생성하기 위한 시스템.
제8 항에 있어서,
각각의 낮은 신뢰도 면은 상기 제1의 2D 이미지와 상기 제2의 2D 이미지 사이의 불일치 값들(inconsistent values)로 생성된 적어도 하나의 꼭짓점을 포함하는,
3D 장면을 생성하기 위한 시스템.
3차원(3D) 장면을 생성하기 위한 방법으로서,
제1 관점으로부터 장면 객체의 제1의 2차원(2D) 이미지를 획득하는 단계;
상기 제1 관점과 상이한 제2 관점으로부터 상기 장면 객체의 제2의 2D 이미지를 획득하는 단계;
상기 제1의 2D 이미지 및 상기 제2의 2D 이미지로부터 깊이 맵을 생성하는 단계;
상기 깊이 맵 및 상기 제1의 2D 이미지 및 상기 제2의 2D 이미지로부터 3D 장면을 생성하는 단계;
불완전한 이미지 정보를 갖는 초기 3D 장면의 구역들을 검출하는 단계;
상기 3D 장면의 상기 검출된 구역들을 재구성하는 단계;
교체 정보를 결정하고, 상기 재구성된 구역들을 수정하는 단계; 및
복수의 관점들로부터 상기 수정된 재구성된 구역들을 갖는 상기 3D 장면을 렌더링하는 단계를 포함하는,
3D 장면을 생성하기 위한 방법.
제11 항에 있어서,
하나 이상의 관점들로부터 상기 렌더링된 3D 장면에서 구멍들을 식별하는 단계; 및
상기 구멍들을 채우기 위해 상기 렌더링된 3D 장면을 개선하는 단계를 더 포함하는,
3D 장면을 생성하기 위한 방법.
제11 항에 있어서,
상기 제1의 2D 이미지는 아이웨어의 제1 템플에 인접한 제1 이미저로부터 획득되고, 그리고
상기 제2의 2D 이미지는 상기 아이웨어의 제2 템플에 인접한 제2 이미저로부터 획득되는,
3D 장면을 생성하기 위한 방법.
제11 항에 있어서,
상기 결정하는 단계는:
각각의 검출된 구역을 둘러싸는 경계를 식별하는 단계;
경계들에서 배경 정보를 식별하는 단계;
상기 경계들에서 전경 정보를 식별하는 단계; 및
전경 경계 정보보다 더 높은 가중치를 배경 경계 정보에 부여하여, 개개의 구역들을 통해 상기 배경 경계 정보 및 상기 전경 경계 정보를 블렌딩하는 단계를 포함하는,
3D 장면을 생성하기 위한 방법.
제14 항에 있어서,
상기 블렌딩하는 단계는:
상기 개개의 구역들을 통해 상기 배경 경계 정보로부터 누락 정보를 상기 전경 경계 정보 내로 확산시키는 단계를 포함하는,
3D 장면을 생성하기 위한 방법.
제11 항에 있어서,
상기 3D 장면을 생성하는 단계는, 픽셀 꼭짓점들 및 상기 제1의 2D 이미지 및 상기 제2의 2D 이미지로부터의 대응하는 이미지 정보를 포함하는 깊이 맵을 생성하는 단계, 및 상기 꼭짓점들을 연결하여 제1 면들을 형성하는 단계를 포함하고, 그리고
상기 재구성하는 단계는:
상기 경계 구역들의 꼭지점들을 연결하여 제2 면들을 형성하는 단계를 더 포함하고,
상기 제2 면들은 상기 제1 면들과 상이한,
3D 장면을 생성하기 위한 방법.
제16 항에 있어서,
상기 제1 면들 및 제2 면들은 삼각형 면들 또는 사각형 면들 중 적어도 하나를 포함하는,
3D 장면을 생성하기 위한 방법.
제11 항에 있어서,
상기 깊이 맵은 픽셀 꼭짓점들 및 상기 제1의 2D 이미지 및 상기 제2의 2D 이미지로부터의 대응하는 이미지 정보를 포함하고, 상기 3D 장면을 생성하는 단계는 상기 꼭짓점들을 연결하여 다중-각도 면들을 형성하는 단계를 포함하고,
상기 검출하는 단계는:
변질된 면들 또는 낮은 신뢰도 면들 중 적어도 하나를 포함하는 연속적인 면들을 식별하는 단계를 포함하는,
3D 장면을 생성하기 위한 방법.
제18 항에 있어서,
상기 변질된 면들 각각은 임계치 미만인 적어도 하나의 각도를 갖는,
3D 장면을 생성하기 위한 방법.
제18 항에 있어서,
각각의 낮은 신뢰도 면은, 상기 제1의 2D 이미지와 상기 제2의 2D 이미지 사이의 임계값을 초과하는 불일치 값들로 생성된 적어도 하나의 꼭짓점을 포함하는,
3D 장면을 생성하기 위한 방법.