KR102194758B1

KR102194758B1 - 자유 시점 비디오 스트리밍을 위한 디코더 중심의 uv 코덱

Info

Publication number: KR102194758B1
Application number: KR1020197015195A
Authority: KR
Inventors: 다닐로 그라지오시
Original assignee: 소니 주식회사
Priority date: 2016-11-28
Filing date: 2017-11-20
Publication date: 2020-12-23
Also published as: JP6939883B2; CN109997358B; EP3526966A1; US20180152688A1; KR20190068622A; US10389994B2; WO2018098054A1; JP2020513703A; CN109997358A

Abstract

자유 시점 비디오 스트리밍을 위한 디코더 중심 코덱은 멀티-계층 자유 시점 비디오의 캡처, 전처리, 인코딩, 디코딩 및 렌더링의 보다 효율적이고 정확한 프로세스를 가능하게 한다.

Description

자유 시점 비디오 스트리밍을 위한 디코더 중심의 UV 코덱

본 출원은 35 U.S.C.§119(e)에 의거하여 2016년 11월 28일에 출원된 "자유 시점 비디오 스트리밍을 위한 디코더 중심의 UV 코덱"이라는 명칭의 미국 가특허 출원 제62/426,900호의 우선권을 주장하며, 이 미국 출원은 그 전체가 모든 목적들을 위해 본원에 참고 문헌으로 포함된다.

본 발명은 3차원 그래픽들에 관한 것이다. 보다 구체적으로, 본 발명은 스파스 뷰의 멀티-뷰(sparse view multi-view) 3차원 그래픽들에 관한 것이다.

자유 시점 비디오(Free Viewpoint Video)(FVV)는 사용자가 언제든지 비디오의 시점(viewpoint)을 변경할 수 있게 하는 비디오이다. 예를 들어, 스포츠 비디오를 시청하는 사용자는 스포츠 비디오 시청에서 홈 플레이트 후방의 관점에서 외야로부터의 관점으로 변경할 수 있다. 이를 통해 사용자들/시청자들은 고유한 관점에서의 콘텐츠를 볼 수 있다.

FVV를 전송하는 것은, 인코더 측에서 디코더 측으로 카메라 메타데이터를 전송할 때 생성되는 병목 현상과 같이, 뷰 종속(view-dependent) FVV를 스트리밍하려고 할 때 특히 어려움이 있다.

자유 시점 비디오 스트리밍을 위한 디코더 중심 코덱은 멀티-계층 자유 시점 비디오(multi-layer free-viewpoint video)의 캡처, 전처리, 인코딩, 디코딩 및 렌더링의 보다 효율적이고 정확한 프로세스를 가능하게 한다.

일 양태에서, 방법은 자유 시점 비디오 콘텐츠를 전처리하는 단계, 인코더에 의해, 자유 시점 비디오 콘텐츠를 디코딩된 지오메트리를 사용하여 인코딩된 자유 시점 비디오 콘텐츠로 인코딩하는 단계, 디코더를 사용하여, 인코딩된 자유 시점 비디오 콘텐츠를 디코딩된 자유 시점 비디오 콘텐츠로 디코딩하는 단계, 및 디코딩된 자유 시점 비디오 콘텐츠를 디바이스 상에 렌더링하는 단계를 포함한다. 자유 시점 비디오 콘텐츠를 전처리하는 단계는 메쉬 생성, 메쉬 트래킹, UV 아틀라스(atlas) 생성 및 텍스처 매핑을 포함한다. UV 아틀라스 생성 및 텍스처 매핑은 디코더로부터의 디코딩된 형상을 이용한다. UV 아틀라스 생성은 추가의 메타데이터를 가진 멀티-계층 텍스처를 생성하여, 자유 시점 비디오 콘텐츠의 뷰 종속 특성들을 보존한다. 뷰 독립 정보(예를 들어, 단일 계층 UV 맵들) 대 뷰 종속 정보(예를 들어, 추가의 메타데이터를 가진 멀티-계층 UV 맵)의 사용은 디코더로 시그널링될 수 있다. 메타데이터의 예로서, 인코더는 카메라 구성(예를 들어, 장면을 캡처하는 다수의 카메라들의 외부적 및 내부적 파라미터들)을 전송할 수 있으며, 각 텍스처 계층에 대해 그 특정 텍스처 정보에 기여한 카메라들의 ID들을 특정 UV 계층에 전송할 수 있으며, 그에 따라, 디코더는 렌더링되는 시야 위치(rendered viewing position)에 따라 최상의 카메라를 선택할 수 있게 된다. 디코더 중심의 아키텍처로 자유 시점 비디오 콘텐츠를 인코딩하는 것은 뷰 종속 정보(view-dependent information)의 사용을 시그널링하는 것, 지오메트리 인코더(geometry encoder)를 사용하여 정점들의 좌표들을 인코딩하는 것, 및 UV 텍스처 인코더를 사용하여 텍스처들을 인코딩하는 것을 포함한다. 자유 시점 비디오 콘텐츠를 디코딩하는 것은 지오메트리 디코더 및 UV 텍스처 디코더를 사용하여 디코딩하는 것을 포함한다. 디코딩된 자유 시점 비디오 콘텐츠를 렌더링하는 것은 디코딩된 형상 정보, 디코딩된 텍스처 정보 및 카메라 식별 정보를 이용한다. 상기 방법은 인코딩된 자유 시점 비디오 콘텐츠를 디코딩된 자유 시점 비디오 콘텐츠로 디코딩하는 데 이용되도록 디코더에서 카메라 식별 정보를 생성하는 단계를 추가로 포함한다. 상기 방법은 최대 10 개의 비디오 카메라를 사용하여 자유 시점 비디오 콘텐츠를 획득하는 단계를 추가로 포함한다. 상기 방법은 다른 카메라들로부터 모든 축상에서 적어도 30 도의 분리를 갖는 비디오 카메라들을 사용하여 자유 시점 비디오 콘텐츠를 획득하는 단계를 추가로 포함한다.

다른 양태에서, 장치는, 자유 시점 비디오 콘텐츠를 전처리하고, 인코더에 의해, 자유 시점 비디오 콘텐츠를 디코딩된 지오메트리를 사용하여 인코딩된 자유 시점 비디오 콘텐츠로 인코딩하기 위한 애플리케이션을 저장하는 비 일시적 메모리, 및 메모리에 연결되어, 애플리케이션을 처리하도록 구성된 프로세서를 포함한다. 자유 시점 비디오 콘텐츠를 전처리하는 것은 메쉬 생성, 메쉬 트래킹, UV 아틀라스(atlas) 생성 및 텍스처 매핑을 포함한다. UV 아틀라스 생성 및 텍스처 매핑은 디코더로부터의 디코딩된 형상을 이용한다. 자유 시점 비디오 콘텐츠를 인코딩하는 것은 지오메트리 인코더를 사용하여 정점들의 좌표들을 인코딩하는 것, 및 UV 텍스처 인코더를 사용하여 텍스처들을 인코딩하는 것을 포함한다.

또 다른 양태에서, 장치는, 디코더를 사용하여, 인코딩된 자유 시점 비디오 콘텐츠를 디코딩된 자유 시점 비디오 콘텐츠로 디코딩하는 데 이용되도록 디코더에서 카메라 식별 정보를 생성함으로써 인코딩된 자유 시점 비디오 콘텐츠를 디코딩된 자유 시점 비디오 콘텐츠로 디코딩하고, 디코딩된 자유 시점 비디오 콘텐츠를 렌더링하기 위한 애플리케이션을 저장하는 비 일시적 메모리, 및 메모리에 연결되어, 애플리케이션을 처리하도록 구성된 프로세서를 포함한다. 자유 시점 비디오 콘텐츠를 디코딩하는 것은 지오메트리 디코더 및 UV 텍스처 디코더를 사용하여 디코딩하는 것을 포함한다. 디코딩된 자유 시점 비디오 콘텐츠를 렌더링하는 것은 디코딩된 형상 정보, 디코딩된 텍스처 정보 및 카메라 식별 정보를 이용한다.

또 다른 양태에서, 시스템은, 자유 시점 비디오 콘텐츠를 캡처하도록 각각 구성된 복수의 카메라 디바이스들; 자유 시점 비디오 콘텐츠를 전처리하고, 인코더에 의해, 자유 시점 비디오 콘텐츠를 디코딩된 지오메트리를 사용하여 인코딩된 자유 시점 비디오 콘텐츠로 인코딩하도록 구성된 제1 컴퓨팅 디바이스; 및 디코더를 사용하여, 인코딩된 자유 시점 비디오 콘텐츠를 디코딩된 자유 시점 비디오 콘텐츠로 디코딩하고, 디코딩된 자유 시점 비디오 콘텐츠를 제2 컴퓨팅 디바이스 상에 렌더링하도록 구성되는 제2 컴퓨팅 디바이스를 포함한다. 자유 시점 비디오 콘텐츠를 전처리하는 것은 메쉬 생성, 메쉬 트래킹, UV 아틀라스 생성 및 텍스처 매핑을 포함한다. UV 아틀라스 생성 및 텍스처 매핑은 디코더로부터의 디코딩된 형상을 이용한다. 자유 시점 비디오 콘텐츠를 인코딩하는 것은 지오메트리 인코더를 사용하여 정점들의 좌표들을 인코딩하는 것, 및 UV 텍스처 인코더를 사용하여 텍스처들을 인코딩하는 것을 포함한다. 자유 시점 비디오 콘텐츠를 디코딩하는 것은 지오메트리 디코더 및 UV 텍스처 디코더를 사용하여 디코딩하는 것을 포함한다. 디코딩된 자유 시점 비디오 콘텐츠를 렌더링하는 것은 디코딩된 형상 정보, 디코딩된 텍스처 정보 및 카메라 식별 정보를 이용한다. 제2 컴퓨팅 디바이스는 추가로, 인코딩된 자유 시점 비디오 콘텐츠를 디코딩된 자유 시점 비디오 콘텐츠로 디코딩하는 데 이용되도록 디코더에서 카메라 식별 정보를 생성하기 위해 구성된다.

도 1은 일부 실시예들에 따른 시점 비디오 아키텍처들(viewpoint video architectures)에서 수행되는 동작들의 흐름도를 도시한다.
도 2는 일부 실시들예에 따른 자유 시점 비디오 데이터 콘텐츠의 압축 및 전송을 위한 예시적인 실시예들을 도시한다.
도 3은 일부 실시예들에 따른 메타데이터 정보의 전송을 사용하는 멀티-계층 자유 시점 비디오 데이터 콘텐츠를 위한 아키텍처의 예시적인 실시예들을 도시한다.
도 4는 일부 실시예들에 따른 메타데이터 정보의 전송을 사용하는 멀티-계층 자유 시점 비디오 데이터 콘텐츠를 위한 아키텍처의 다른 예시적인 실시예들을 도시한다.
도 5는 일부 실시예들에 따른 디코더 중심의 UV 코덱(UVC) 아키텍처의 흐름도를 도시한다.
도 6은 일부 실시예들에 따른 디코더 중심의 UV 코덱(UVC) 아키텍처의 흐름도를 도시한다.
도 7은 일부 실시예들에 따른 FVV 스트리밍을 위한 디코더 중심의 코덱을 구현하는 디바이스들의 도면을 도시한다.
도 8은 일부 실시예들에 따른 디코더 중심의 UV 코덱을 구현하도록 구성된 예시적인 컴퓨팅 디바이스의 블록도를 도시한다.
도 9는 일부 실시예들에 따른 디바이스들의 네트워크의 도면을 도시한다.

자유 시점 아키텍처들에서, 장면은 다수의 상이한 시점들로부터 캡처된다. 캡처된 콘텐츠는 일반적으로 캡처 측에서 처리되고, 인코딩되고 추가로 전송되는 포맷으로 변환된다. 디코더는 인코딩된 데이터 포맷을 수신하고, 그것을 압축 해제하여 렌더러에게 전달하며, 렌더러는 수신한 콘텐츠를 사용하여 시청자에 의해 요구된 시야 위치를 생성할 것이다. 전송에 사용되는 포맷은 렌더러에게 포토 리얼리즘적인 품질(photo-realistic quality)로 임의의 요구된 시야 위치를 생성할 수 있게 하는 유연성을 제공해야 하며, 이러한 품질은 데이터 포맷 및 대역폭에 몇 가지 제약을 부과한다.

획득 단계에서, 고밀도 뷰의 3D 비디오 캡처는 다수의 카메라들(예를 들어, 40 내지 100개 이상)을 이용하여 다수의 상이한 각도들로부터의 콘텐츠를 캡처할 수 있다. 보다 구체적으로, 카메라들 간의 간격은 각 카메라 사이에서 매우 작을 수 있다(예를 들어, 5도 미만). 고밀도 뷰의 3D 비디오 캡처에서, 데이터 대역폭은 주요 관심사이며, MVC와 같은 멀티 뷰 캡처를 위한 비디오 압축 표준들조차도 뷰들(views) 간의 중복량과 장면의 시간 변화량에 따라 조건부로 성능들이 조정된다.

뷰들을 캡처하는 수를 줄이면서 여전히 자유 시점 탐색을 가능하게 하기 위해, 지오메트리가 프록시로서 사용되어 획득된 시점들을 수정하고 이전에 캡처되지 않은 시야 위치들을 합성할 수 있다. 장면의 지오메트리를 획득하는 한 가지 방법은 능동 심도 카메라들(active depth cameras)을 이용하거나 캡처된 뷰들로부터 심도 추정을 수행하는 것이다. 이 처리 단계에서 생성된 표현 포맷은 심도 맵으로도 알려진 캡처된 각 RGB 픽셀의 심도일 수 있다. 스파스 RGB 카메라 뷰들 및 해당 심도 맵들의 전송은 또한 3D-HEVC와 같은 이용 가능한 표준들을 사용하여 수행할 수 있다. 그러나, 일반적으로 카메라들은 선형으로 배열되고 서로 가깝게 위치하도록 제한되어 탐색 공간을 제한하게 된다. 또한, 폐색(occlusion)은 스파스 뷰의 3D 비디오 캡처를 사용할 때 훨씬 더 우려가 된다.

컴퓨터 그래픽들에서, 완전 자유 시점 탐색은 3D 메쉬들을 지오메트리 프록시들로서 이용하여 수행된다. 3D 메쉬들은 또한 현재 이용 가능한 표준들을 사용하여, 예를 들어, 메쉬 압축을 위한 MPEG AFX 코딩 도구들을 사용하여 압축될 수 있다. 자유 시점 탐색의 경우, 메쉬 지오메트리와 함께 캡처된 뷰들은 전송용으로 사용될 수 있지만 그 성능은 여전히 뷰들을 캡처하는 수에 의해 제한된다. 뷰들의 수가 더 많을수록 렌더링이 보다 현실적일 수 있지만, 텍스처 전송을 위해서는 보다 많은 대역폭이 필요하다.

메쉬들을 지오메트리 프록시들로서 사용하고 텍스처 전송을 위해 대역폭을 줄이는 한 가지 방법은 3D 메쉬의 표면과 관련된 텍스처만을 전송하는 것이다. 일부 구현예들에서, 3D 메쉬 표면의 텍스처는 UV 맵으로 알려지기도 한 2D 텍스처 아틀라스로 매핑된다. 전송의 경우, 제각기의 UV 맵들과 함께 메쉬들은 전송 대역폭을 크게 감소시키는 선택된 포맷이 된다. 그러나, 최종 렌더링 품질은 뷰 독립 품질(view independent quality)로 제한되며, 즉, 시야 위치에 관계없이, 메쉬 표면은 동일한 RGB 값을 제공할 것이며, 이는 시야 위치에 따라 텍스처 값을 변경할 수도 있는 포토 리얼리즘적인 객체들을 갖는 경우는 아니다.

표면 텍스처 아틀라스의 포토 리얼리즘(photo-realism)을 보존하는 한 가지 방법은 계층화된 텍스처 맵을 사용하는 것이다. 뷰 종속 텍스처 특성은 캡처 카메라와 메쉬 간의 상대 위치에 의해 제공된다. 이러한 속성을 보존하기 위해, 텍스처 계층들은 다른 카메라들로부터 텍스처를 레코딩한다. 최상위 계층은 법선 표면(normal face)과 카메라 시야 축(camera viewing axis) 간의 각도에 의해 제공되는 각각의 메쉬 표면에 대해 가장 높은 순위의 카메라를 저장한다. 후속 계층들에서는 상이한 시야각들로부터의 카메라들이 저장된다. 디코더 측에서, 선택된 시야 위치에 따라, 원하는 시야 위치에 더 가까운 카메라 위치를 포함하는 계층으로부터 텍스처가 선택될 수 있으므로, 포토 리얼리즘적인 캡처 객체에 더 가까운 뷰를 제공할 수 있다.

멀티-계층 UV 텍스처 접근법은 텍스처 전송을 위해 보다 많은 대역폭을 필요로 한다. 또한, 계층들로의 텍스처의 순위를 전송해야 할 수도 있다. 이러한 순위가 지오메트리에 의존하는 경우, 지오메트리 압축에서의 아티팩트들이 순위 결과를 상쇄시킬 수 있으며, 이는 순위 데이터의 전송을 부과하여 지오메트리 아티팩트들에 의해 발생하는 텍스처 아티팩트들을 회피한다. 이러한 메타데이터의 전송은 대역폭에 심각한 영향을 줄 수 있으며, 효율적인 데이터 전송에 대한 병목 현상이 될 수 있다.

여기에 기술되는 것은 인코더 아키텍처이며, 이는 대역폭이 효율적이며 메타데이터 정보의 전송을 회피하고 있다. 인코더 아키텍처는 여전히 멀티-계층 접근법을 이용하지만, 텍스처 매핑 및 순위 지정 동작을 위해 디코딩된 지오메트리 정보를 사용함으로써 부담스러운 메타데이터 전송을 회피하고 있다. 이러한 새로운 아키텍처를 사용하면, 자유 시점 비디오에 대한 멀티-계층 텍스처의 효율적인 전송이 가능하다.

고밀도 뷰의 3D 비디오 캡처는 다수의 카메라들(예를 들어, 40 내지 100 개 이상)을 이용하여 다수의 상이한 각도들로부터의 콘텐츠를 캡처한다. 보다 구체적으로, 카메라들 간의 간격은 각 카메라 사이에서 매우 작을 수 있다(예를 들어, 5도 미만). 고밀도 뷰의 3D 비디오 캡처에서, 처리는 스파스 뷰의 3D 비디오 캡처에서와 비교할 때 비교적 간단한데, 그 이유는 고밀도 뷰의 3D 비디오 캡처 중에는 나타나지 않는 문제가 스파스 뷰의 3D 비디오 캡처에서 발생하기 때문이다. 예를 들어, 폐색은 스파스 뷰의 3D 비디오 캡처를 사용할 때 훨씬 더 우려가 된다.

스파스 뷰의 3D 비디오 캡처는 훨씬 적은 카메라들을 이용하여 다수의 상이한 각도들로부터의 콘텐츠를 캡처한다. 예를 들어, 스파스 뷰의 3D 비디오 캡처는 고밀도 뷰의 3D 비디오 캡처가 100 개의 카메라를 사용하는 공간과 동일한 공간에 대해 10 개 또는 그 미만의 카메라를 사용할 수 있다. 즉, 카메라들 사이의 (적어도 하나의 축 또는 모든 축 상에서의) 간격은 45도일 수 있거나 또는 심지어는 90 도가 될 수 있다. 스파스 뷰의 3D 비디오 캡처의 카메라들이 너무 멀리 떨어져 있고 스테레오 매칭이 옵션이 아니기 때문에 형상 재구성을 수행하기가 어렵다. 또한, 뷰들 간에 중복량이 감소되어 압축 알고리즘의 성능에 영향을 미치게 된다. 이 경우, 메쉬 및 메쉬의 표면에서 텍스처를 이용하는 데이터 포맷은 효율성을 높이는 데 바람직하다.

스파스 뷰의 360도 캡처 시스템에서 FVV에 대해 시간적으로 일관되고 포토 리얼리즘적인 텍스처 합성을 달성하기 위해, 멀티-계층 텍스처 데이터 표현이 이용된다. 멀티-계층 텍스처 데이터 표현은, 2D 텍스처들에서 결합되고, 카메라들을 순위 지정하는 기준에 따라 정렬되는 여러 카메라들의 텍스처 기여도들을 포함한다. 카메라 기준에 대한 하나의 가능한 실시예는 카메라와 캡처되는 3D 모델 표면 데이터 간의 각도이지만, 다른 기준이 적용될 수 있다. 멀티-계층 데이터를 사용하여 뷰 종속 뷰들(view-dependent views)을 렌더링하기 위해서는, 텍스처를 생성한 카메라의 식별자(ID)도 또한 전송된다.

수신된 압축 메쉬가 제공되면, 디코더는 카메라 ID 정보를 생성한다. 디코더 중심 접근법은 디코더 측에서 디코딩된 메쉬에 기초하여 카메라 ID 정보를 생성한다. 인코더는 인코더와 디코더 간의 미스매칭을 피하기 위해, 원래의 압축되지 않은 메쉬가 아닌 압축 해제된 메쉬를 사용하여 텍스처 매핑을 수행한다. 카메라 ID 정보와 같은 메타데이터 정보의 전송을 피하고 텍스처 매핑을 위해 압축 해제된 메쉬를 이용함으로써, UV 좌표들(UV는 3D 모델 표면의 텍스처를 묘사하는 2D 이미지인 텍스처 아틀라스의 축임)의 전송이 방지된다. 이는 뷰 종속 데이터의 전송에 필요한 비트 전송률을 크게 감소시킨다.

UV 매핑은 텍스처 매핑을 위해 3D 모델의 표면에 2D 이미지를 투영하는 3D 모델링 프로세스이다. X, Y 및 Z는 모델 공간에서 3D 객체의 축들을 나타내는 데 사용되므로 U와 V는 2D 텍스처의 축이 된다. FVV에는 객체에 대해 (예를 들어, 상이한 각도들로부터의) 다수의 시점들이 존재할 수 있으며, 이는 FVV 콘텐츠를 인코딩하고 디코딩할 때 사용되는 여분의 데이터/메타데이터가 존재하고 있음을 의미한다. 그러나, 디코더 중심 코덱을 구현함으로써, 인코더로부터 디코더로 전송/스트리밍되는 여분의 데이터/메타데이터의 양은 크게 감소된다.

도 1은 일부 실시예들에 따른 시점 비디오 아키텍처들에서 수행되는 동작들의 흐름도를 도시한다. 단계(100)에서, 콘텐츠가 캡처된다. 단계(120)에서, 캡처된 콘텐츠는 전처리된다. 단계(140)에서, 처리된 콘텐츠가 인코딩된다. 단계(160)에서, 인코딩된 콘텐츠는 디코딩된다. 단계(180)에서, 디코딩된 콘텐츠가 캡처된다.

본 명세서에 기술된 바와 같이, 콘텐츠는 스파스 뷰의 3D 비디오 카메라들을 사용하여 캡처된다. 예를 들어, 다수의 카메라들은 캡처할 객체의 전방, 후방, 좌측 및 우측과 같은 복수의 상이한 각도들로부터 3D 비디오를 캡처한다.

캡처된 콘텐츠는 전처리된다. 전처리는 메쉬 생성, 메쉬 트래킹, UV 아틀라스 생성 및 텍스처 매핑을 포함한다. 메쉬 생성은, 메쉬 템플릿들을 사용하고, 획득된 콘텐츠에 기초하여 템플릿을 비교 및 선택하고, 그리고 다수의 뷰들을 사용하여 획득된 콘텐츠의 형상에 기초하여 템플릿들을 수정하는 것과 같은 임의의 타입의 메쉬 생성을 포함한다. 메쉬 트래킹은, 비 강체 변형(non-rigid deformation)에서 메쉬를 일시적으로 트래킹하는 것 또는 대리인 관리 번호 Sony-69500의 "ROBUST MESH TRACKING AND FUSION BY USING PART-BASED KEY-FRAMES AND PRIORI-MODEL" 명칭의 미국 특허 출원에서 기술된 바와 같은 임의의 타입의 메쉬 트래킹을 포함하며, 전술한 미국 특허 출원은 그 전체가 모든 목적을 위해 본원에 참고로 포함된다. UV 아틀라스 생성은 텍스처 아틀라스, 또는 서브 이미지들의 수집체를 포함하는 타일 맵을 생성하며, 서브 이미지들의 각각은 3D 모델의 일부에 대한 텍스처 맵이다. UV 아틀라스 생성은, 특정 형상들, 바디 부분들 및/또는 임의의 다른 그룹화와 같은 그룹화들에 기초하여 획득된 콘텐츠를 분리하는 것을 포함하는 임의의 방식으로 수행될 수 있다. 일부 실시예들에서, UV 아틀라스 생성은 압축된 형상(또는 압축된 형상의 압축 해제된 버전) 및/또는 디코더로부터의 디코딩된 형상을 사용하여 UV 아틀라스를 생성한다. 텍스처 매핑은 획득된 콘텐츠로부터의 텍스처 컴포넌트를 생성된 메쉬(예를 들어, 모델)에 적용하는 것을 포함한다. 일부 실시예들에서, 텍스처 매핑은 압축된 형상(또는 압축된 형상의 압축 해제된 버전) 및/또는 디코딩된 형상에 기초하여 평가된다.

메쉬 트래킹으로부터, 정점들의 좌표들 및 정점들의 연결성은 지오메트리 인코더에 의해 인코딩된다. 멀티-계층 UV 텍스처들과 같은 텍스처들은 동반되는 멀티-계층 카메라 ID들을 사용하여 UV 텍스처 인코더에 의해 인코딩된다. 지오메트리 인코더로부터의 인코딩된 콘텐츠(예를 들어, 인코딩된 형상/지오메트리 정보)는 지오메트리 디코더에 전송(예를 들어, 스트리밍)되고, UV 텍스처 인코더로부터의 인코딩된 콘텐츠(예를 들어, 인코딩된 텍스처 정보)는 UV 텍스처 디코더에 전송(예를 들어, 스트리밍)된다. 지오메트리 디코더는 인코딩된 콘텐츠(예를 들어, 인코딩된 형상/지오메트리 정보)를 디코딩한다. UV 텍스처 디코더는 적절한 텍스처 정보와 부합하는 카메라 ID 정보를 생성함으로써 인코딩된 콘텐츠(예를 들어, 인코딩된 텍스처 정보)를 디코딩한다. 카메라 ID 정보는 적절한 카메라 ID 정보를 결정하는 데 사용될 수 있는 지오메트리 디코더로부터의 디코딩된 형상 정보를 사용하여 생성된다. 예를 들어, 객체의 지오메트리는 특정 카메라 ID와 연관되며, 객체의 결정된 지오메트리에 기초하여 카메라 ID가 결정될 수 있다.

그 후, 렌더링 디바이스는 지오메트리 디코더로부터의 디코딩된 형상 정보, 디코딩된 텍스처, 및 UV 텍스처 디코더로부터의 카메라 ID를 사용하여 FVV 비디오를 렌더링할 수 있다. 일부 실시예들에서, 렌더링은 FVV 비디오를 디스플레이하는 것, 및/또는 사용자로 하여금 FVV 비디오를 조작하게 하는 것을 포함한다.

도 2는 일부 실시들예에 따른 자유 시점 비디오 데이터 콘텐츠의 압축 및 전송을 위한 예시적인 실시예들을 도시한다. 본 명세서에 기술된 바와 같이, 콘텐츠는 스파스 뷰의 3D 비디오 카메라들을 사용하여 캡처된다. 예를 들어, 다수의 카메라들은 캡처할 객체의 전방, 후방, 좌측 및 우측과 같은 복수의 상이한 각도들로부터 3D 비디오를 캡처한다.

일부 실시예들에서, 캡처된 콘텐츠는 메쉬 생성(222)을 통과한다. 메쉬 생성(222)은, 메쉬 템플릿들을 사용하고, 획득된 콘텐츠에 기초하여 템플릿을 비교 및 선택하고, 그리고 다수의 뷰들을 사용하여 획득된 콘텐츠의 형상에 기초하여 템플릿들을 수정하는 것과 같은 임의의 타입의 메쉬 생성을 포함한다. 그 다음, 지오메트리 인코더(242)는 생성된 메쉬 데이터를 인코딩한다. 캡처된 콘텐츠는 또한 MV 텍스처 인코더(244)로 간다. MV 텍스처 인코더(244)는 멀티 뷰 텍스처들(multi-view textures)을 인코딩한다.

일부 실시예들에서, 캡처된 콘텐츠는 메쉬 생성(222), 메쉬 트래킹(224), UV 아틀라스 생성(226) 및 텍스처 매핑(228)을 통과하게 된다. 메쉬 생성(222)은, 메쉬 템플릿들을 사용하고, 획득된 콘텐츠에 기초하여 템플릿을 비교 및 선택하고, 그리고 다수의 뷰들을 사용하여 획득된 콘텐츠의 형상에 기초하여 템플릿들을 수정하는 것과 같은 임의의 타입의 메쉬 생성을 포함한다. 메쉬 트래킹(224)은, 비 강체 변형에서 메쉬를 일시적으로 트래킹하는 것 또는 대리인 관리 번호 Sony-69500의 "ROBUST MESH TRACKING AND FUSION BY USING PART-BASED KEY-FRAMES AND PRIORI-MODEL" 명칭의 미국 특허 출원에서 기술된 바와 같은 임의의 타입의 메쉬 트래킹을 포함하며, 전술한 미국 특허 출원은 그 전체가 모든 목적을 위해 본원에 참고로 포함된다. UV 아틀라스 생성(226)은 텍스처 아틀라스, 또는 서브 이미지들의 수집체를 포함하는 타일 맵을 생성하며, 서브 이미지들의 각각은 3D 모델의 일부에 대한 텍스처 맵이다. UV 아틀라스 생성(226)은, 특정 형상들, 바디 부분들 및/또는 임의의 다른 그룹화와 같은 그룹화들에 기초하여 획득된 콘텐츠를 분리하는 것을 포함하는 임의의 방식으로 수행될 수 있다. 일부 실시예들에서, UV 아틀라스 생성(226)은 압축된 형상(또는 압축된 형상의 압축 해제된 버전) 및/또는 디코더로부터의 디코딩된 형상을 사용하여 UV 아틀라스를 생성한다. 텍스처 매핑(228)은 획득된 콘텐츠로부터의 텍스터 컴포넌트를 생성된 메쉬(예를 들어, 모델)에 적용하는 것을 포함한다. 일부 실시예들에서, 텍스처 매핑(228)은 압축된 형상(또는 압축된 형상의 압축 해제된 버전) 및/또는 디코딩된 형상에 기초하여 평가된다.

그 다음, 지오메트리 인코더(242)는 메쉬 트래킹 데이터 및 UV 아틀라스를 사용하여 생성된 메쉬 데이터를 인코딩한다. 캡처된 콘텐츠는 또한 텍스처 매핑(228)이 적용된 후에 UV 텍스처 인코더(246)로 간다. UV 텍스처 인코더(246)는 UV 텍스처들을 인코딩한다.

도 3은 일부 실시예들에 따른 메타데이터 정보의 전송을 사용하는 멀티-계층 자유 시점 비디오 데이터 콘텐츠를 위한 아키텍처의 예시적인 실시예들을 도시한다. 본 명세서에 기술된 바와 같이, 콘텐츠는 스파스 뷰의 3D 비디오 카메라들을 사용하여 캡처된다. 예를 들어, 다수의 카메라들은 캡처할 객체의 전방, 후방, 좌측 및 우측과 같은 복수의 상이한 각도들로부터 3D 비디오를 캡처한다.

일부 실시예들에서, 캡처된 콘텐츠는 메쉬 생성(222), 메쉬 트래킹(224), UV 아틀라스 생성(326) 및 멀티-계층 텍스처 매핑(228)을 통과하게 된다. 메쉬 생성(222), 메쉬 트래킹(224), UV 아틀라스 생성(326) 및 멀티-계층 텍스처 매핑(228)은 본 명세서에서 설명되었다.

그 다음, 지오메트리 인코더(242)는 메쉬 트래킹 데이터 및 UV 아틀라스를 사용하여 생성된 메쉬 데이터를 인코딩한다. 캡처된 콘텐츠는 또한 멀티-계층 텍스처 매핑(328)이 적용된 후에 ML-UV (멀티-계층 UV) 텍스처 인코더(344) 및 메타데이터 인코더(346)로 간다. ML-UV 텍스처 인코더(344)는 UV 아틀라스 정보를 사용하여 멀티-계층 UV 텍스처들을 인코딩한다.

지오메트리 인코더(342)로부터의 인코딩된 콘텐츠(예를 들어, 인코딩된 형상/지오메트리 정보)는 지오메트리 디코더(362)에 전송(예를 들어, 스트리밍)되고, ML-UV 텍스처 인코더(344)로부터의 인코딩된 콘텐츠(예를 들어, 인코딩된 텍스처 정보)는 텍스처 디코더(364)에 전송(예를 들어, 스트리밍)되고, 인코딩된 메타데이터(346)는 메타데이터 디코더(366)에 전송(예를 들어, 스트리밍)된다. 지오메트리 디코더(362)는 인코딩된 콘텐츠(예를 들어, 인코딩된 형상/지오메트리 정보)를 디코딩한다. 텍스처 디코더(364)는 인코딩된 콘텐츠(예를 들어, 인코딩된 텍스처 정보)를 디코딩한다. 메타데이터 디코더(366)는 인코딩된 메타데이터 콘텐츠를 디코딩한다.

그 후, 렌더링 디바이스(382)는 지오메트리 디코더(362)로부터의 디코딩된 형상 정보, 텍스처 디코더(364)로부터의 디코딩된 텍스처, 및 메타데이터 디코더(366)로부터의 디코딩된 메타데이터를 사용하여 FVV 비디오를 렌더링할 수 있다. 일부 실시예들에서, 렌더링은 FVV 비디오를 디스플레이하는 것, 및/또는 사용자로 하여금 FVV 비디오를 조작하게 하는 것을 포함한다.

도 4는 일부 실시예들에 따른 메타데이터 정보의 전송을 사용하는 멀티-계층 자유 시점 비디오 데이터 콘텐츠를 위한 아키텍처의 실시예들 중의 특정의 예를 도시한다. 본 명세서에 기술된 바와 같이, 콘텐츠는 스파스 뷰의 3D 비디오 카메라들을 사용하여 캡처된다. 예를 들어, 다수의 카메라들은 캡처할 객체의 전방, 후방, 좌측 및 우측과 같은 복수의 상이한 각도들로부터 3D 비디오를 캡처한다.

그 후, 지오메트리 인코더(242)는 메쉬 트래킹 데이터(예를 들어, 정점들의 좌표들 및 정점들의 연결성) 및 UV 아틀라스(예를 들어, 텍스처 좌표들)를 사용하여 생성된 메쉬 데이터를 인코딩한다. 캡처된 콘텐츠는 또한 멀티-계층 텍스처 매핑(328)이 적용된 후에 ML-UV (멀티-계층 UV) 텍스처 인코더(344) 및 메타데이터 인코더(346)로 간다. ML-UV 텍스처 인코더(344)는 UV 아틀라스 정보, 예를 들어, 2kx2k 텍스처 이미지들의 수 개의 계층들을 사용하여 멀티-계층 UV 텍스처들을 인코딩한다.

메타데이터 인코더(346)는 멀티-계층 카메라 ID, 예를 들어, UV 맵(2kx2k)과 동일한 크기를 갖는 이미지들을 인코딩하지만, RGB 값 대신 카메라 ID가 전송된다. 지오메트리 인코더(342)로부터의 인코딩된 콘텐츠(예를 들어, 인코딩된 형상/지오메트리 정보)는 지오메트리 디코더(362)에 전송(예를 들어, 스트리밍)되고, ML-UV 텍스처 인코더(344)로부터의 인코딩된 콘텐츠(예를 들어, 인코딩된 텍스처 정보)는 텍스처 디코더(364)에 전송(예를 들어, 스트리밍)되고, 인코딩된 메타데이터(346)는 메타데이터 디코더(366)에 전송(예를 들어, 스트리밍)된다.

일부 실시예들에서, 지오메트리 인코더는 바로 MPEG 메쉬 압축 표준인 AFX이며, 이 AFX는 정점들의 좌표들, 정점 연결성 및 텍스처 좌표들을 갖는 메쉬들의 시퀀스를 64Mbps의 총 비트 전송률로 인코딩할 수 있다. 멀티-계층 UV 텍스처 인코더(344)는, 예를 들어, 비디오 압축을 위한 MPEG 표준인 AVC와 같은 다수의 비디오 인코더들일 수 있다. 다수의 비디오 인코더들로부터, 2kx2k 해상도 및 3 개의 계층들을 멀티-계층 UV 맵들의 압축은 33Mbps를 달성할 수 있다. 이러한 동일한 실시예에서, 카메라 ID 정보는 PNG 인코더와 같은 무손실 이미지 인코더로 압축될 수 있고 87Mbps에 도달할 수 있다. 총 184Mbps가 뷰 종속 정보를 전송하는 데 사용되고, 이 비트 전송률의 거의 절반이 카메라 ID 정보의 전송에 전용된다. 지오메트리 디코더(362)는 인코딩된 콘텐츠(예를 들어, 인코딩된 형상/지오메트리 정보)를 디코딩한다. 텍스처 디코더(364)는 인코딩된 콘텐츠(예를 들어, 인코딩된 텍스처 정보)를 디코딩한다. 메타데이터 디코더(366)는 인코딩된 메타데이터 콘텐츠를 디코딩한다. 그 후, 렌더링 디바이스(382)는 지오메트리 디코더(362)로부터의 디코딩된 형상 정보, 텍스처 디코더(364)로부터의 디코딩된 텍스처, 및 메타데이터 디코더(366)로부터의 디코딩된 메타데이터를 사용하여 FVV 비디오를 렌더링할 수 있다. 일부 실시예들에서, 렌더링은 FVV 비디오를 디스플레이하는 것, 및/또는 사용자로 하여금 FVV 비디오를 조작하게 하는 것을 포함한다.

도 5는 일부 실시예들에 따른 디코더 중심의 UV 코덱(UVC) 아키텍처의 흐름도를 도시한다. 본 명세서에 기술된 바와 같이, 콘텐츠는 스파스 뷰의 3D 비디오 카메라들을 사용하여 캡처된다. 예를 들어, 다수의 카메라들은 캡처할 객체의 전방, 후방, 좌측 및 우측과 같은 복수의 상이한 각도들로부터 3D 비디오를 캡처한다.

그 다음, 지오메트리 인코더(242)는 메쉬 트래킹 데이터만을 사용하여 생성된 메쉬 데이터를 인코딩한다. 캡처된 콘텐츠는 또한 멀티-계층 텍스처 매핑(328)이 적용된 후에 ML-UV (멀티-계층 UV) 텍스처 인코더(344)로 간다. ML-UV 텍스처 인코더(344)는 UV 아틀라스 정보를 사용하여 멀티-계층 UV 텍스처들을 인코딩한다.

지오메트리 인코더(342)로부터의 인코딩된 콘텐츠(예를 들어, 인코딩된 형상/지오메트리 정보)는 지오메트리 디코더(362)에 전송(예를 들어, 스트리밍)되고, ML-UV 텍스처 인코더(344)로부터의 인코딩된 콘텐츠(예를 들어, 인코딩된 텍스처 정보)는 텍스처 디코더(364)에 전송(예를 들어, 스트리밍)된다. 지오메트리 디코더(362)는 인코딩된 콘텐츠(예를 들어, 인코딩된 형상/지오메트리 정보)를 디코딩한다. 지오메트리 디코더(362)는 인코더 측에서 복제될 수 있고, 멀티-계층 텍스처 매핑을 위해 지오메트리 정보를 UV 아틀라스 생성(326)에 또한 전송할 수 있다. 메타데이터 생성(466)은 또한 지오메트리 디코더(362)로부터의 지오메트리 정보를 사용하여 구현된다. 텍스처 디코더(364)는 인코딩된 콘텐츠(예를 들어, 인코딩된 텍스처 정보)를 디코딩한다.

그 후, 렌더링 디바이스(382)는 지오메트리 디코더(362)로부터의 디코딩된 형상 정보, 텍스처 디코더(364)로부터의 디코딩된 텍스처, 및 지오메트리 디코더(362)로부터의 디코딩된 지오메트리를 사용하여 생성된(566) 메타데이터를 사용하여 FVV 비디오를 렌더링할 수 있다. 일부 실시예들에서, 렌더링은 FVV 비디오를 디스플레이하는 것, 및/또는 사용자로 하여금 FVV 비디오를 조작하게 하는 것을 포함한다.

도 6은 일부 실시예들에 따른 디코더 중심의 UV 코덱(UVC) 아키텍처의 흐름도를 도시한다. 본 명세서에 기술된 바와 같이, 콘텐츠는 스파스 뷰의 3D 비디오 카메라들을 사용하여 캡처된다. 예를 들어, 다수의 카메라들은 캡처할 객체의 전방, 후방, 좌측 및 우측과 같은 복수의 상이한 각도들로부터 3D 비디오를 캡처한다.

캡처된 콘텐츠는 전처리된다. 전처리는 메쉬 생성(222), 메쉬 트래킹(224), UV 아틀라스 생성(326) 및 텍스처 매핑(328)을 포함한다. 메쉬 생성(222)은, 메쉬 템플릿들을 사용하고, 획득된 콘텐츠에 기초하여 템플릿을 비교 및 선택하고, 그리고 다수의 뷰들을 사용하여 획득된 콘텐츠의 형상에 기초하여 템플릿들을 수정하는 것과 같은 임의의 타입의 메쉬 생성을 포함한다. 메쉬 트래킹(224)은, 비 강체 변형에서 메쉬를 일시적으로 트래킹하는 것 또는 대리인 관리 번호 Sony-69500의 "ROBUST MESH TRACKING AND FUSION BY USING PART-BASED KEY-FRAMES AND PRIORI-MODEL" 명칭의 미국 특허 출원에서 기술된 바와 같은 임의의 타입의 메쉬 트래킹을 포함하며, 전술한 미국 특허 출원은 그 전체가 모든 목적을 위해 본원에 참고로 포함된다. UV 아틀라스 생성(326)은 텍스처 아틀라스, 또는 서브 이미지들의 수집체를 포함하는 타일 맵을 생성하며, 서브 이미지들의 각각은 3D 모델의 일부에 대한 텍스처 맵이다. UV 아틀라스 생성(326)은, 특정 형상들, 바디 부분들 및/또는 임의의 다른 그룹화와 같은 그룹화들에 기초하여 획득된 콘텐츠를 분리하는 것을 포함하는 임의의 방식으로 수행될 수 있다. 일부 실시예들에서, UV 아틀라스 생성(326)은 압축된 형상(또는 압축된 형상의 압축 해제된 버전) 및/또는 디코더로부터의 디코딩된 형상을 사용하여 UV 아틀라스를 생성한다. 텍스처 매핑(328)은 획득된 콘텐츠로부터의 텍스터 컴포넌트를 생성된 메쉬(예를 들어, 모델)에 적용하는 것을 포함한다. 일부 실시예들에서, 텍스처 매핑(328)은 압축된 형상(또는 압축된 형상의 압축 해제된 버전) 및/또는 디코딩된 형상에 기초하여 평가된다.

메쉬 트래킹(224)으로부터, 정점들의 좌표들 및 정점들의 연결성은 지오메트리 인코더(342)에 의해 인코딩된다. 일부 실시예들에서, 지오메트리 인코더는 5Mbps 만큼의 작은 비트 전송률을 생성할 수 있는 FAMC로도 알려진 동적 메쉬 압축을 위한 MPEG 표준일 수 있다. 멀티-계층 UV (1K × 1K) 텍스처들과 같은 텍스처들은 UV 텍스처 인코더(344)에 의해 인코딩된다. 일부 실시예들에서, 멀티-계층 텍스처 인코더는 H.264/AVC와 같은 계층 당 비디오 압축을 위한 MPEG의 표준의 인스턴스일 수 있다. MPEG 인코더들은 14Mbps 만큼의 낮은 총 비트 전송률을 생성하여 총 19Mbps로 1kx1k 텍스처의 3 개의 계층들을 인코딩함으로써 뷰 종속 자유 시점 데이터를 전송할 수 있다. 지오메트리 인코더(342)로부터의 인코딩된 콘텐츠(예를 들어, 인코딩된 형상/지오메트리 정보)는 지오메트리 디코더(362)에 전송(예를 들어, 스트리밍)되고, UV 텍스처 인코더(344)로부터의 인코딩된 콘텐츠(예를 들어, 인코딩된 텍스처 정보)는 UV 텍스처 디코더(364)에 전송(예를 들어, 스트리밍)된다. 지오메트리 디코더(362)는 인코딩된 콘텐츠(예를 들어, 인코딩된 형상/지오메트리 정보)를 디코딩한다. 디코딩된 지오메트리를 사용하여, 디코더는 적절한 텍스처 정보에 부합하는 카메라 ID 정보를 로컬로 생성할 수 있다(566). 카메라 ID 정보는 적절한 카메라 ID 정보를 결정하는 데 사용될 수 있는 지오메트리 디코더(362)로부터의 디코딩된 형상 정보를 사용하여 생성된다. 예를 들어, 객체의 지오메트리는 특정 카메라 ID와 연관되며, 객체의 결정된 지오메트리에 기초하여 카메라 ID가 결정될 수 있다.

그 후, 렌더링 디바이스(382)는 지오메트리 디코더(362)로부터의 디코딩된 형상 정보, 디코딩된 텍스처, 및 디코더 측(566)에서 생성된 카메라 ID를 사용하여 FVV 비디오를 렌더링할 수 있다. 일부 실시예들에서, 렌더링은 FVV 비디오를 디스플레이하는 것, 및/또는 사용자로 하여금 FVV 비디오를 조작하게 하는 것을 포함한다. 일부 실시예들에서, 인코더는 지오메트리 정보 및 텍스처 정보를 전송하기 전에 멀티-계층(예를 들어, 뷰 종속) 접근법 대 단일 계층(예를 들어, 뷰 독립) 접근법의 사용을 시그널링할 수 있다.

일부 실시예들에서, 더 적거나 또는 추가의 단계들이 구현된다. 일부 실시예들에서, 단계들의 순서가 수정된다. 또한, 도 5는 특정 설정들 및 측정치들을 갖는 예시적인 실시예이다. 다른 해상도들의 설정들과 같은 다른 설정들을 갖는 실시예들이 가능하다는 것이 이해된다.

일부 실시예들에서, 본 명세서에 기술된 단계들은 동일한 디바이스 상에서 발생하고, 일부 실시예들에서, 그 단계들은 개별 디바이스들(예를 들어, 캡처 디바이스들, 전처리 디바이스, 인코더 디바이스, 디코더 디바이스 및 렌더링 디바이스) 상에서 발생한다. 다른 예에서, 캡처 디바이스들은 다수의 3D 카메라들을 포함하고, 전처리, 인코딩 및 디코딩 디바이스들은 서버들 또는 컴퓨팅 디바이스들이고, 렌더링 디바이스는 텔레비전이다. 또 다른 예에서, 캡처 디바이스는 다수의 3D 카메라들을 포함하고, 전처리 디바이스들 및 인코딩 디바이스들은 네트워크를 통해 디코딩 디바이스들 및 렌더링 디바이스들에 연결된다.

도 7은 일부 실시예들에 따른 FVV 스트리밍을 위한 디코더 중심의 코덱을 구현하는 디바이스들의 도면을 도시한다. 캡처 디바이스들(700)은 다수의 상이한 각도들로부터의 FVV 콘텐츠를 캡처한다. 예를 들어, 스파스 개수(예를 들어, 10 이하)의 카메라들은 객체/장면을 동시에 비디오 레코딩하기 위해 배치된다. 캡처된 콘텐츠(예를 들어, 다수의 계층의 콘텐츠)는 전처리 디바이스(702)에서 처리된다. 전처리 디바이스(702)는 메쉬 생성, 메쉬 트래킹, UV 아틀라스 생성 및 텍스처 매핑을 수행한다. 전처리 디바이스(702)는 서버 또는 임의의 다른 컴퓨팅 디바이스일 수 있다. 전처리 후, 적절한 콘텐츠(예를 들어, 정점들의 좌표들/연결성, 멀티-계층 UV 및 멀티-계층 카메라 ID들)는 인코딩을 위해 인코딩 디바이스(704)로 간다. 인코딩 디바이스(704)는 (전처리 용) 서버의 일부, 다른 서버 또는 다른 컴퓨팅 디바이스일 수 있다. 인코딩된 콘텐츠(예를 들어, 인코딩된 형상/지오메트리 및 인코딩된 UV 텍스처)는 그 후 인코딩된 콘텐츠를 디코딩하기 위해 디코딩 디바이스(706)로 전송(예를 들어, 스트리밍)된다. 디코딩 디바이스(706)는 전형적으로 네트워크(예를 들어, LAN 또는 인터넷)를 통해 인코딩 디바이스(704)에 연결된 별도의 디바이스이다. 그 후, 디코딩된 콘텐츠는 렌더링(및 디스플레이)을 위해 렌더링 디바이스(708)에 수신된다. 일부 실시예들에서, 디코딩 디바이스(706) 및 렌더링 디바이스(708)는 동일한 디바이스(예를 들어, 텔레비전, 모니터를 갖는 컴퓨터)의 일부이고, 일부 실시예들에서 디코딩 디바이스(706) 및 렌더링 디바이스(708)는 상이한 디바이스들 내/상에 있다.

도 8은 일부 실시예들에 따른 디코더 중심의 UV 코덱을 구현하도록 구성된 예시적인 컴퓨팅 디바이스의 블록도를 도시한다. 컴퓨팅 디바이스(800)는 이미지들 및 비디오들(예를 들어, FVV)과 같은 정보를 획득, 저장, 계산, 처리, 전달 및/또는 디스플레이하는 데 사용될 수 있다. 컴퓨팅 디바이스(800)는 캡처, 전처리, 인코딩, 디코딩 및/또는 렌더링과 같은 디코더 중심의 UV 코덱 양태들을 구현할 수 있다. 일반적으로, 컴퓨팅 디바이스(800)를 구현하는 데 적합한 하드웨어 구조는 네트워크 인터페이스(802), 메모리(804), 프로세서(806), I/O 디바이스(들)(808), 버스(810) 및 저장 디바이스(812)를 포함한다. 충분한 속도를 가진 적합한 프로세서가 선택되는 한 프로세서의 선택은 중요하지 않다. 메모리(804)는 본 기술 분야에서 공지된 임의의 종래의 컴퓨터 메모리일 수 있다. 저장 디바이스(812)는 하드 드라이브, CDROM, CDRW, DVD, DVDRW, 고선명 디스크/드라이브, 울트라-HD 드라이브, 플래시 메모리 카드 또는 임의의 다른 저장 디바이스를 포함할 수 있다. 컴퓨팅 디바이스(800)는 하나 이상의 네트워크 인터페이스들(802)을 포함할 수 있다. 네트워크 인터페이스의 예는 이더넷 또는 다른 타입의 LAN에 접속된 네트워크 카드를 포함한다. I/O 디바이스(들)(808)는 키보드, 마우스, 모니터, 스크린, 프린터, 모뎀, 터치스크린, 버튼 인터페이스 및 다른 디바이스들 중 하나 이상을 포함할 수 있다. 디코더 중심의 UV 코덱을 구현하는 데 사용되는 디코더 중심의 UV 코덱 애플리케이션(들)(830)은 저장 디바이스(812) 및 메모리(804)에 저장되고, 애플리케이션들이 일반적으로 처리될 때 처리될 가능성이 있다. 도 8에 도시된 더 많거나 적은 컴포넌트들이 컴퓨팅 디바이스(800)에 포함될 수 있다. 일부 실시예들에서, 디코더 중심의 UV 코덱 하드웨어(820)가 포함된다. 도 8의 컴퓨팅 디바이스(800)는 디코더 중심의 UV 코덱을 위한 애플리케이션들(830) 및 하드웨어(820)를 포함하지만, 디코더 중심의 UV 코덱은 하드웨어, 펌웨어, 소프트웨어 또는 이들의 임의의 조합으로 컴퓨팅 디바이스 상에 구현될 수 있다. 예를 들어, 일부 실시예들에서, 디코더 중심의 UV 코덱 애플리케이션들(830)은 메모리에 프로그래밍되고 프로세서를 사용하여 실행된다. 다른 예로서, 일부 실시예들에서, 디코더 중심의UV 코덱 하드웨어(820)는 디코더 중심의 UV 코덱을 구현하도록 특별히 설계된 게이트들을 포함하는 프로그래밍된 하드웨어 로직이다.

일부 실시예들에서, 디코더 중심의 UV 코덱 애플리케이션(들)(830)은 몇몇 애플리케이션들 및/또는 모듈들을 포함한다. 일부 실시예들에서, 모듈들은 또한 하나 이상의 서브 모듈들을 포함한다. 일부 실시예들에서, 더 적거나 또는 추가의 모듈들이 포함될 수 있다.

일부 실시예들에서, 디코더 중심의 UV 코덱 하드웨어(820)는 렌즈, 이미지 센서, 및/또는 임의의 다른 카메라 컴포넌트들과 같은 카메라 컴포넌트들을 포함한다.

적합한 컴퓨팅 디바이스의 예는 퍼스널 컴퓨터, 랩탑 컴퓨터, 컴퓨터 워크스테이션, 서버, 메인프레임 컴퓨터, 핸드헬드 컴퓨터, 개인 휴대 정보 단말기, 셀룰러/모바일 전화기, 스마트 기기, 게임 콘솔, 디지털 카메라, 디지털 캠코더, 카메라폰, 스마트폰, 휴대용 뮤직 플레이어, 태블릿 컴퓨터, 모바일 디바이스, 비디오 플레이어, 비디오 디스크 라이터/플레이어(예를 들어, DVD 라이터/플레이어, 고선명 디스크 라이터/플레이어, 울트라 고선명 디스크 라이터/플레이어), 텔레비전, 홈 엔터테인먼트 시스템, 증강 현실 디바이스, 가상 현실 디바이스, 스마트 쥬얼리(예를 들어, 스마트 시계) 또는 임의의 다른 적합한 컴퓨팅 디바이스를 포함한다.

도 9는 일부 실시예들에 따른 디바이스들의 네트워크의 도면을 도시한다. 복수의 카메라들(900)은 3D/FVV 비디오 콘텐츠를 획득하는 데 이용된다. 비디오 콘텐츠는 하나 이상의 프로세서/인코더 디바이스들(902)에서 처리되고 인코딩된다. 인코딩된 콘텐츠는 네트워크(904)(예를 들어, 인터넷, 셀룰러 네트워크 또는 임의의 다른 네트워크)를 통해 하나 이상의 디코더/렌더러 디바이스들(906)에 전송/스트리밍된다. 일부 실시예들에서, 콘텐츠는 네트워크없이 직접적으로 하나 이상의 디코더/렌더러 디바이스들(906)에 전송된다. 디바이스들의 네트워크 중 하나 이상의 디바이스들(예를 들어, 프로세서/인코더 디바이스, 디코더/렌더러 디바이스)은 본 명세서에 설명된 디코더 중심의 UV 코덱 구현을 수행하도록 구성된다. 하나 이상의 프로세서/인코더 디바이스들(902) 및 하나 이상의 디코더/렌더러 디바이스들(906)은 서버들, 퍼스널 컴퓨터들, 스마트폰, 텔레비전들, 게임 시스템 또는 본 명세서에 설명된 디바이스들 중 임의의 디바이스와 같은 임의의 디바이스일 수 있거나 또는 본 명세서에 설명된 디바이스들의 임의의 조합일 수 있다. 일부 실시예들에서, 카메라(들)(900)는 전처리 및/또는 인코딩과 같은 디코더 중심 UV 코덱의 추가 양태들을 구현한다.

본 명세서에 설명된 디코더 중심의 UV 코덱을 이용하기 위한, 디지털 카메라들/캠코더들과 같은 디바이스들은 3D/FVV 콘텐츠를 획득하는 데 사용된다. 디코더 중심의 UV 코덱은 3D/FVV 콘텐츠를 효율적으로 인코딩, 전송, 디코딩 및 렌더링하기 위해 사용자의 지원으로 또는 사용자의 개입없이 자동으로 구현될 수 있다. 그런 다음, 획득된 콘텐츠의 재생시, 보다 정확한 콘텐츠가 (예를 들어, 아티팩트들이 적거나 없이) 디스플레이된다.

작동시, 디코더 중심의 UV 코덱은 이전의 구현보다 더 정확한 콘텐츠를 생성한다. 또한, 디코더 중심의 UV 코덱은 인코더에서 디코더 지오메트리를 이용하고 디코더에서의 지오메트리로부터 카메라 ID를 추론함으로써 보다 효율적이다. 디코더 중심의 UV 코덱을 사용하여 인코더에서 디코더로 훨씬 적은 메타데이터가 전송된다.

자유 시점 비디오 스트리밍을 위한 디코더 중심의 UV 코덱의 일부 실시예들

1. 방법으로서,

자유 시점 비디오 콘텐츠를 전처리하는 단계;

인코더를 사용하여, 상기 자유 시점 비디오 콘텐츠를 디코딩된 지오메트리를 사용하여 인코딩된 자유 시점 비디오 콘텐츠로 인코딩하는 단계;

디코더를 사용하여, 상기 인코딩된 자유 시점 비디오 콘텐츠를 디코딩된 자유 시점 비디오 콘텐츠로 디코딩하는 단계; 및

상기 디코딩된 자유 시점 비디오 콘텐츠를 디바이스 상에 렌더링하는 단계를 포함하는 방법.

2. 제1항에 있어서, 자유 시점 비디오 콘텐츠를 전처리하는 단계는 메쉬 생성, 메쉬 트래킹, UV 아틀라스 생성 및 텍스처 매핑을 포함하는 방법.

3. 제2항에 있어서, 상기 UV 아틀라스 생성 및 상기 텍스처 매핑은 상기 디코더로부터의 디코딩된 형상을 이용하는 방법.

4. 제1항에 있어서, 상기 자유 시점 비디오 콘텐츠를 인코딩하는 단계는 지오메트리 인코더를 사용하여 정점들의 좌표들을 인코딩하는 단계 및 UV 텍스처 인코더를 사용하여 텍스처들을 인코딩하는 단계를 포함하는 방법.

5. 제1항에 있어서, 상기 자유 시점 비디오 콘텐츠를 디코딩하는 단계는 지오메트리 디코더 및 UV 텍스처 디코더를 사용하여 디코딩하는 단계를 포함하는 방법.

6. 제1항에 있어서, 상기 디코딩된 자유 시점 비디오 콘텐츠를 렌더링하는 단계는 디코딩된 형상 정보, 디코딩된 텍스처 정보 및 카메라 식별 정보를 이용하는 방법.

7. 제1항에 있어서, 상기 인코딩된 자유 시점 비디오 콘텐츠를 상기 디코딩된 자유 시점 비디오 콘텐츠로 디코딩하는 데 이용되도록 상기 디코더에서 카메라 식별 정보를 생성하는 단계를 추가로 포함하는 방법.

8. 제1항에 있어서, 최대 10 개의 비디오 카메라를 사용하여 상기 자유 시점 비디오 콘텐츠를 획득하는 단계를 추가로 포함하는 방법.

9. 제1항에 있어서, 다른 카메라들로부터 모든 축상에서 적어도 30 도의 분리를 갖는 비디오 카메라들을 사용하여 상기 자유 시점 비디오 콘텐츠를 획득하는 단계를 추가로 포함하는 방법.

10. 제1항에 있어서, 뷰 종속 렌더링을 위해 멀티-계층 텍스처의 사용을 시그널링하는 단계를 추가로 포함하는 방법.

11. 제1항에 있어서, 카메라 식별을 멀티-계층 텍스처 표현의 각 텍스처 계층 내의 픽셀에 연관시키는 단계를 추가로 포함하는 방법.

12. 장치로서,

애플리케이션을 저장하기 위한 비 일시적 메모리 - 상기 애플리케이션은: 자유 시점 비디오 콘텐츠를 전처리하고; 인코더를 사용하여, 상기 자유 시점 비디오 콘텐츠를 디코딩된 지오메트리를 사용하여 인코딩된 자유 시점 비디오 콘텐츠로 인코딩하기 위한 것임 -; 및

상기 메모리에 연결되고, 상기 애플리케이션을 처리하도록 구성된 프로세서를 포함하는 장치.

13. 제12항에 있어서, 상기 자유 시점 비디오 콘텐츠를 전처리하는 것은 메쉬 생성, 메쉬 트래킹, UV 아틀라스 생성 및 텍스처 매핑을 포함하는 장치.

14. 제13항에 있어서, 상기 UV 아틀라스 생성 및 상기 텍스처 매핑은 상기 디코더로부터의 디코딩된 형상을 이용하는 장치.

15. 제12항에 있어서, 상기 자유 시점 비디오 콘텐츠를 인코딩하는 것은 지오메트리 인코더를 사용하여 정점들의 좌표들을 인코딩하는 것 및 UV 텍스처 인코더를 사용하여 텍스처들을 인코딩하는 것을 포함하는 장치.

16. 장치로서,

애플리케이션을 저장하기 위한 비 일시적 메모리 - 상기 애플리케이션은: 인코딩된 자유 시점 비디오 콘텐츠를 디코딩된 자유 시점 비디오 콘텐츠로 디코딩하는 데 이용되도록 디코더에서 카메라 식별 정보를 생성함으로써, 상기 디코더를 사용하여, 상기 인코딩된 자유 시점 비디오 콘텐츠를 상기 디코딩된 자유 시점 비디오 콘텐츠로 디코딩하고; 상기 디코딩된 자유 시점 비디오 콘텐츠를 렌더링하기 위한 것임 -; 및

17. 제16항에 있어서, 상기 자유 시점 비디오 콘텐츠를 디코딩하는 것은 지오메트리 디코더 및 UV 텍스처 디코더를 사용하여 디코딩하는 것을 포함하는 장치.

18. 제16항에 있어서, 상기 디코딩된 자유 시점 비디오 콘텐츠를 렌더링하는 단계는 디코딩된 형상 정보, 디코딩된 텍스처 정보 및 카메라 식별 정보를 이용하는 장치.

19. 시스템으로서,

자유 시점 비디오 콘텐츠를 각각 캡처하도록 구성된 복수의 카메라 디바이스들;

제1 컴퓨팅 디바이스 - 상기 제1 컴퓨팅 디바이스는: 자유 시점 비디오 콘텐츠를 전처리하는 것; 및 인코더에 의해, 상기 자유 시점 비디오 콘텐츠를 디코딩된 지오메트리를 사용하여 인코딩된 자유 시점 비디오 콘텐츠로 인코딩하는 것을 수행하도록 구성됨 -; 및

제2 컴퓨팅 디바이스 - 상기 제2 컴퓨팅 디바이스는: 디코더를 사용하여, 상기 인코딩된 자유 시점 비디오 콘텐츠를 디코딩된 자유 시점 비디오 콘텐츠로 디코딩하는 것; 및 상기 디코딩된 자유 시점 비디오 콘텐츠를 상기 제2 컴퓨팅 디바이스 상에 렌더링하는 것을 수행하도록 구성됨 -를 포함하는 시스템.

20. 제19항에 있어서, 상기 자유 시점 비디오 콘텐츠를 전처리하는 것은 메쉬 생성, 메쉬 트래킹, UV 아틀라스 생성 및 텍스처 매핑을 포함하는 시스템.

21. 제19항에 있어서, 상기 UV 아틀라스 생성 및 상기 텍스처 매핑은 상기 디코더로부터의 디코딩된 형상을 이용하는 시스템.

22. 제19항에 있어서, 상기 자유 시점 비디오 콘텐츠를 인코딩하는 것은 지오메트리 인코더를 사용하여 정점들의 좌표들을 인코딩하는 것 및 UV 텍스처 인코더를 사용하여 텍스처들을 인코딩하는 것을 포함하는 시스템.

23. 제19항에 있어서, 상기 자유 시점 비디오 콘텐츠를 디코딩하는 것은 지오메트리 디코더 및 UV 텍스처 디코더를 사용하여 디코딩하는 것을 포함하는 시스템.

24. 제19항에 있어서, 상기 디코딩된 자유 시점 비디오 콘텐츠를 렌더링하는 것은 디코딩된 형상 정보, 디코딩된 텍스처 정보 및 카메라 식별 정보를 이용하는 시스템.

25. 제19항에 있어서, 상기 제2 컴퓨팅 디바이스는 추가로, 인코딩된 자유 시점 비디오 콘텐츠를 디코딩된 자유 시점 비디오 콘텐츠로 디코딩하는 데 이용되도록 상기 디코더에서 카메라 식별 정보를 생성하기 위해 구성되는 시스템.

본 발명은 본 발명의 구성 및 동작의 원리들을 이해하는 것을 가능하게 하는 상세한 설명들을 포함하는 특정 실시예들의 관점에서 설명되었다. 본 발명의 특정 실시예들 및 세부 사항들에 대한 이러한 참조는 첨부된 특허청구범위의 범위를 제한하려는 것이 아니다. 청구범위에 의해 정의된 바와 같은 본 발명의 사상 및 범위를 벗어나지 않고 설명을 위해 선택된 실시예에서 다른 다양한 수정들이 행해질 수 있음은 분 기술 분야의 기술자에게는 자명할 것이다.

Claims

방법으로서,
자유 시점 비디오 콘텐츠를 전처리하는 단계;
인코더를 사용하여, 상기 자유 시점 비디오 콘텐츠를 디코딩된 지오메트리를 사용하여 인코딩된 자유 시점 비디오 콘텐츠로 인코딩하는 단계;
상기 인코딩된 자유 시점 비디오 콘텐츠를 디코딩된 자유 시점 비디오 콘텐츠로 디코딩하는 데 이용되도록, 디코더를 사용하여, 카메라 식별 정보를 생성하는 단계;
상기 디코더를 사용하여, 상기 인코딩된 자유 시점 비디오 콘텐츠를 상기 디코딩된 자유 시점 비디오 콘텐츠로 디코딩하는 단계; 및
상기 디코딩된 자유 시점 비디오 콘텐츠를 디바이스 상에 렌더링하는 단계
를 포함하고,
상기 디코딩된 자유 시점 비디오 콘텐츠를 렌더링하는 단계는, 디코딩된 형상 정보, 디코딩된 텍스처 정보, 및 상기 카메라 식별 정보를 이용하는 방법.
제1항에 있어서, 상기 자유 시점 비디오 콘텐츠를 전처리하는 단계는 메쉬 생성, 메쉬 트래킹, UV 아틀라스 생성 및 텍스처 매핑을 포함하는 방법.
제2항에 있어서, 상기 UV 아틀라스 생성 및 상기 텍스처 매핑은 상기 디코더로부터의 디코딩된 형상을 이용하는 방법.
제1항에 있어서, 상기 자유 시점 비디오 콘텐츠를 인코딩하는 단계는 지오메트리 인코더를 사용하여 정점들의 좌표들을 인코딩하는 단계 및 UV 텍스처 인코더를 사용하여 텍스처들을 인코딩하는 단계를 포함하는 방법.
제1항에 있어서, 상기 자유 시점 비디오 콘텐츠를 디코딩하는 단계는 지오메트리 디코더 및 UV 텍스처 디코더를 사용하여 디코딩하는 단계를 포함하는 방법.
삭제
삭제
제1항에 있어서,
최대 10 개의 비디오 카메라를 사용하여 상기 자유 시점 비디오 콘텐츠를 획득하는 단계를 추가로 포함하는 방법.
제1항에 있어서,
다른 카메라들로부터 모든 축상에서 적어도 30 도의 분리를 갖는 비디오 카메라들을 사용하여 상기 자유 시점 비디오 콘텐츠를 획득하는 단계를 추가로 포함하는 방법.
제1항에 있어서,
뷰 종속 렌더링을 위해 멀티-계층 텍스처의 사용을 시그널링하는 단계를 추가로 포함하는 방법.
제1항에 있어서,
카메라 식별을 멀티-계층 텍스처 표현의 각 텍스처 계층 내의 픽셀에 연관시키는 단계를 추가로 포함하는 방법.
장치로서,
애플리케이션을 저장하기 위한 비 일시적 메모리 - 상기 애플리케이션은:
자유 시점 비디오 콘텐츠를 전처리하고;
인코더를 사용하여, 상기 자유 시점 비디오 콘텐츠를 디코딩된 지오메트리를 사용하여 인코딩된 자유 시점 비디오 콘텐츠로 인코딩하기 위한 것임 -; 및
상기 메모리에 연결되고, 상기 애플리케이션을 처리하도록 구성된 프로세서
를 포함하는 장치.
제12항에 있어서, 상기 자유 시점 비디오 콘텐츠를 전처리하는 것은 메쉬 생성, 메쉬 트래킹, UV 아틀라스 생성 및 텍스처 매핑을 포함하는 장치.
제13항에 있어서, 상기 UV 아틀라스 생성 및 상기 텍스처 매핑은 디코더로부터의 디코딩된 형상을 이용하는 장치.
제12항에 있어서, 상기 자유 시점 비디오 콘텐츠를 인코딩하는 것은 지오메트리 인코더를 사용하여 정점들의 좌표들을 인코딩하는 것 및 UV 텍스처 인코더를 사용하여 텍스처들을 인코딩하는 것을 포함하는 장치.
장치로서,
애플리케이션을 저장하기 위한 비 일시적 메모리 - 상기 애플리케이션은:
인코딩된 자유 시점 비디오 콘텐츠를 디코딩된 자유 시점 비디오 콘텐츠로 디코딩하는 데 이용되도록, 디코더를 사용하여, 카메라 식별 정보를 생성하고;
상기 인코딩된 자유 시점 비디오 콘텐츠를 상기 디코딩된 자유 시점 비디오 콘텐츠로 디코딩하는 데 이용되도록 상기 디코더에서 카메라 식별 정보를 생성함으로써, 상기 디코더를 사용하여, 상기 인코딩된 자유 시점 비디오 콘텐츠를 상기 디코딩된 자유 시점 비디오 콘텐츠로 디코딩하고;
상기 디코딩된 자유 시점 비디오 콘텐츠를 렌더링하기 위한 것이고,
상기 디코딩된 자유 시점 비디오 콘텐츠를 렌더링하는 단계는 디코딩된 형상 정보, 디코딩된 텍스처 정보, 및 상기 카메라 식별 정보를 이용함 -; 및
상기 메모리에 연결되고, 상기 애플리케이션을 처리하도록 구성된 프로세서
를 포함하는 장치.
제16항에 있어서, 상기 자유 시점 비디오 콘텐츠를 디코딩하는 것은 지오메트리 디코더 및 UV 텍스처 디코더를 사용하여 디코딩하는 것을 포함하는 장치.
삭제
시스템으로서,
자유 시점 비디오 콘텐츠를 캡처하도록 각각 구성되는 복수의 카메라 디바이스들;
제1 컴퓨팅 디바이스 - 상기 제1 컴퓨팅 디바이스는:
자유 시점 비디오 콘텐츠를 전처리하고;
인코더를 사용하여, 상기 자유 시점 비디오 콘텐츠를 디코딩된 지오메트리를 사용하여 인코딩된 자유 시점 비디오 콘텐츠로 인코딩하도록 구성됨 -; 및
제2 컴퓨팅 디바이스 - 상기 제2 컴퓨팅 디바이스는:
상기 인코딩된 자유 시점 비디오 콘텐츠를 디코딩된 자유 시점 비디오 콘텐츠로 디코딩하는 데 이용되도록, 디코더를 사용하여, 카메라 식별 정보를 생성하고;
상기 디코더를 사용하여, 상기 인코딩된 자유 시점 비디오 콘텐츠를 상기 디코딩된 자유 시점 비디오 콘텐츠로 디코딩하고;
상기 디코딩된 자유 시점 비디오 콘텐츠를 상기 제2 컴퓨팅 디바이스 상에 렌더링하도록 구성됨 -
를 포함하고,
상기 디코딩된 자유 시점 비디오 콘텐츠를 렌더링하는 단계는, 디코딩된 형상 정보, 디코딩된 텍스처 정보, 및 상기 카메라 식별 정보를 이용하는 시스템.
제19항에 있어서, 상기 자유 시점 비디오 콘텐츠를 전처리하는 것은 메쉬 생성, 메쉬 트래킹, UV 아틀라스 생성 및 텍스처 매핑을 포함하는 시스템.
제20항에 있어서, 상기 UV 아틀라스 생성 및 상기 텍스처 매핑은 상기 디코더로부터의 디코딩된 형상을 이용하는 시스템.
제19항에 있어서, 상기 자유 시점 비디오 콘텐츠를 인코딩하는 것은 지오메트리 인코더를 사용하여 정점들의 좌표들을 인코딩하는 것 및 UV 텍스처 인코더를 사용하여 텍스처들을 인코딩하는 것을 포함하는 시스템.
제19항에 있어서, 상기 자유 시점 비디오 콘텐츠를 디코딩하는 것은 지오메트리 디코더 및 UV 텍스처 디코더를 사용하여 디코딩하는 것을 포함하는 시스템.
삭제
제19항에 있어서, 상기 제2 컴퓨팅 디바이스는 추가로, 상기 인코딩된 자유 시점 비디오 콘텐츠를 상기 디코딩된 자유 시점 비디오 콘텐츠로 디코딩하는 데 이용되도록 상기 디코더에서 카메라 식별 정보를 생성하도록 구성되는 시스템.