KR20200095408A

KR20200095408A - 이머시브 비디오 포맷팅 방법 및 장치

Info

Publication number: KR20200095408A
Application number: KR1020200010892A
Authority: KR
Inventors: 이광순; 신홍창; 윤국진; 정준영
Original assignee: 한국전자통신연구원
Priority date: 2019-01-31
Filing date: 2020-01-30
Publication date: 2020-08-10
Also published as: US20200336724A1; US11212505B2

Abstract

운동시차를 지원하기 위한 이머시브 비디오 포맷팅 방법 및 장치가 제공된다. 상기 이머시브 비디오 포맷팅 방법은, 기준 위치에서 기본 비디오를 획득하는 단계; 상기 기준 위치와 적어도 하나의 다른 위치에서 다중 위치 비디오를 획득하는 단계; 상기 기본 비디오 및 다중 위치 비디오를 이용하여 적어도 하나의 RVD(Residual Video plus Depth) 비디오를 획득하는 단계; 및 상기 획득된 기본 비디오 및 상기 적어도 하나의 RVD 비디오를 이용하여 PVD(Packed video plus depth) 비디오 및 소정의 메타데이터 중 적어도 하나를 생성하는 단계를 포함한다.

Description

이머시브 비디오 포맷팅 방법 및 장치{METHOD AND APPARATUS FOR IMMERSIVE VIDEO FORMATTING}

본 발명은 운동 시차를 지원하기 위한 이머시브 비디오 포맷팅 방법 및 장치에 관한 것이다. 구체적으로, 시청자의 좌우/상하 회전뿐만 아니라 좌우/상하 이동 움직임에 대응하여 운동시차를 지원할 수 있는 전방위 비디오를 제공하기 위한 비디오 포맷팅 방법 및 장치에 관한 것이다.

가상현실(virtual reality) 서비스는 360도 전방위 비디오(또는 전방위 비디오, 360도 비디오)를 실사 혹은 CG 형태로 생성하여 개인형 VR 단말인 HMD(Head Mounted Display) 또는 스마트폰 등에서 재생할 수 있으며, 몰입감과 현장감을 극대화하기 위해 진화하고 있다.

현재 연구에서는, HMD를 통해 자연스럽고 몰입감이 높은 360도 비디오를 재생하기 위해 6DoF(degrees of Freedom)를 재현해야 하는 것으로 알려져 있다. 즉, (1)좌우 이동, (2)상하 회전, (3)상하 이동, (4) 좌우 회전, 등의 6가지 방향으로의 시청자의 이동에 대해 응시되는 영상을 HMD를 통해 재생해야 된다는 것이다. 카메라로 획득한 실사영상을 재생하는 현재까지의 전방위 디오는 3DoF로서 (2)상하 회전 및 (4)좌우 회전 위주로의 움직임을 감지하여 영상을 재생하고 있으며, 시청자의 좌우 이동 및 상하 이동에 대해 응시되는 영상을 제공하지 못하고 있다.

MPEG 표준화 그룹에서는 몰입감을 극대화하기 위한 미디어를 이머시브 미디어(Immersive Media)로 정의하고, 이에 필요한 이머시브 비디오의 효과적인 인코딩 및 전송을 위한 표준을 단계적으로 진행하고 있다. 구체적으로, 가장 기본적인 이머시브 비디오인 3DoF의 다음 단계로서, 시청자의 착석 환경에서 운동시차를 재현할 수 있는 이머시브 비디오인 3DoF+, 시청자의 몇 발자국 움직임에 대응되는 운동시차를 제공하는 Omnidirectional 6DoF 및 시청자의 자유로운 움직임에 따라 완전한 운동시차를 제공하는 6DoF까지 단계적으로 표준화 과정이 진행될 예정이다. 상기 이머시브 비디오가 여러 시점의 전방위 비디오(예: ERP(Equi-Rectangular Projection) 포맷, cubemap 포맷 등)를 이용하는 경우, windowed-6DoF는 종래의 수평/수직 시차를 가지는 다시점 비디오 기술과 유사할 수 있다. 여기서, Windowed-6DoF는 여러 시점의 평면비디오(예: HD, UHD등)를 이용하여 단일 시청윈도우를 통해 운동시차를 제공하는 기술이다.

본 발명은 운동 시차를 지원하기 위한 이머시브 비디오 포맷팅 방법 및 장치를 제공하는 것을 목적으로 한다.

또한, 본 발명은 VR 단말을 통해 자연스러운 전방위 비디오를 재생하기 위한 이머시브 비디오 포맷팅 방법 및 장치를 제공하는 것을 목적으로 한다.

본 발명에 따르면, 기준 위치에서 기본 비디오를 획득하는 단계; 상기 기준 위치와 적어도 하나의 다른 위치에서 다중 위치 비디오를 획득하는 단계; 상기 기본 비디오 및 다중 위치 비디오를 이용하여 적어도 하나의 RVD(Residual Video plus Depth) 비디오를 획득하는 단계; 상기 획득된 기본 비디오 및 상기 적어도 하나의 RVD 비디오를 이용하여 PVD(Packed video plus depth) 비디오 및 소정의 메타데이터 중 적어도 하나를 생성하는 단계를 포함하는 이머시브 비디오 포맷팅 방법이 제공될 수 있다.

상기 기본 비디오는, 평면 비디오 및 전방위 비디오 중 적어도 하나인 것을 특징으로 할 수 있다.

상기 기본 비디오가 전방위 비디오인 경우, 상기 기본 비디오는, 상호 중복영역이 최소이고 전방위 비디오를 가장 넓은 범위에서 획득할 수 있는 적어도 두 개의 위치에서 획득된 비디오인 것을 특징으로 할 수 있다.

다중 위치 비디오는, 제1 위치에서 획득된 제1 다중 위치 비디오 및 상기 제1 위치와 다른 제2 위치에서 획득된 제2 다중 위치 비디오를 포함하고, 상기 RVD 비디오는, 상기 제1 다중 위치 비디오로부터 유도된 제1 RVD 비디오 및 상기 제2 다중 위치 비디오로부터 유도된 제2 RVD 비디오를 포함하는 것을 특징으로 할 수 있다.

상기 제1 RVD 비디오는, 상기 제1 다중 위치 비디오에서 상기 기본 비디오에 중복되지 않는 영역을 포함하는 것을 특징으로 할 수 있다.

상기 제2 RVD 비디오는, 상기 제2 다중 위치 비디오에서 상기 기본 비디오 및 상기 제1 RVD 비디오에 중복되지 않는 영역을 포함하는 것을 특징으로 할 수 있다.

상기 RVD 비디오는, 복수 개이고, 상기 PVD 비디오는, 상기 RVD 비디오 각각에 포함된 영역을 패킹(packing)함으로써 생성된 프레임인 것을 특징으로 할 수 있다.

상기 PVD 비디오는, 미리 결정된 패킹 위치에 기초하여 패킹되고, 상기 패킹 위치는, 상기 RVD 비디오를 이용하여 획득된 영역 정보로부터 유도되는 것을 특징으로 할 수 있다.

상기 메타데이터는, 비디오 영역별 시점 위치(view number), 공통 시점 위치(shared views), 우선순위(priority), RVD 내 영역 정보, PVD 내 영역 정보 및 시점 위치별 카메라 파라미터 중 적어도 하나를 포함하는 것을 특징으로 할 수 있다.

또한, 본 발명에 따르면, 비트스트림으로부터 PVD(Packed video plus depth) 비디오 및 소정의 메타데이터를 복호화하는 단계; 상기 메타데이터를 이용하여 상기 PVD 비디오로부터 적어도 하나의 RVD(Residual Video plus Depth) 비디오를 획득하는 단계; 및 상기 획득된 RVD 비디오 및 기본 비디오를 이용하여 뷰포트(viewport)에서의 비디오를 생성하는 단계를 포함하는 이머시브 비디오 포맷팅 방법이 제공될 수 있다.

상기 메타데이터가 공통 시점 위치를 포함하지 않는 경우, 상기 공통 시점 위치는 상기 카메라 파라미터, 상기 RVD 내 영역 정보 및 상기 PVD 내 영역 정보 중 적어도 하나를 이용하여 유도되는 것을 특징으로 할 수 있다.

또한, 본 발명에 따르면, 기준 위치에서 기본 비디오를 획득하고, 상기 기준 위치와 적어도 하나의 다른 위치에서 다중 위치 비디오를 획득하는 수신부; 및 상기 기본 비디오 및 다중 위치 비디오를 이용하여 적어도 하나의 RVD(Residual Video plus Depth) 비디오를 획득하는 부가정보 포맷팅부를 포함하고, 상기 부가정보 포맷팅부는, 상기 획득된 기본 비디오 및 상기 적어도 하나의 RVD 비디오를 이용하여 PVD(Packed video plus depth) 비디오 및 소정의 메타데이터 중 적어도 하나를 생성하는 이머시브 비디오 포맷팅 장치가 제공될 수 있다.

상기 우선순위는, 시점위치 별 상대적인 조명 정도를 나타내는 시점간 순서 및 중복되지 않은 비디오 영역 추출 시 목표시점 또는 참조시점의 순서 중 적어도 하나인 것을 특징으로 할 수 있다.

본 개시에 대하여 위에서 간략하게 요약된 특징들은 후술하는 본 개시의 상세한 설명의 예시적인 양상일 뿐이며, 본 개시의 범위를 제한하는 것은 아니다.

본 발명에 따르면, 운동시차를 지원하기 위한 이머시브 비디오 포맷팅 방법 및 장치가 제공될 수 있다.

또한, 본 발명에 따르면, 시청자의 상하 좌우 회전 운동뿐만 아니라 시청자의 상하 좌우 이동 운동에 대응되는 영상을 재생함으로써, 완전하고 자연스러운 입체 영상을 VR 기기에 제공하는 방법 및 장치가 제공될 수 있다.

또한, 본 발명에 따르면, UHD, 3DoF와 같은 기본적인 이머시브 비디오 서비스와 호환성을 유지하면서 운동 시차를 지원하기 위한 이머시브 비디오 생성 포맷 및 재생을 위한 방법 및 장치가 제공될 수 있다.

또한, 본 발명에 따르면, 최소한의 부가 비디오 및 메타데이터를 전송함으로써 대용량의 이머시브 비디오를 효과적으로 제공하기 위한 방법 및 장치가 제공될 수 있다.

본 개시에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

도 1은 본 발명의 일 실시예에 따른 이머시브 비디오의 개념을 설명하기 위한 도면이다.
도 2a 및 도 2b는 본 발명의 일 실시예에 따른 이머시브 비디오를 생성하는 과정을 설명하기 위한 도면이다.
도 3은 본 발명의 일 실시예에 따른 RVD를 생성하는 과정을 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른 이머시브 비디오 서비스를 제공하는 과정을 설명하기 위한 블록도이다.
도 5a 및 도 5b는 본 발명의 일 실시예에 따른 이머시브 비디오를 재현하는 과정을 설명하기 위한 도면이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다. 도면에서의 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다. 후술하는 예시적 실시예들에 대한 상세한 설명은, 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 실시예를 실시할 수 있기에 충분하도록 상세히 설명된다. 다양한 실시예들은 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 실시예의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 예시적 실시예들의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다.

본 발명에서 제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.

본 발명의 어떤 구성 요소가 다른 구성 요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성 요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있으나, 중간에 다른 구성 요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어"있다거나 "직접 접속되어"있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

본 발명의 실시예에 나타나는 구성부들은 서로 다른 특징적인 기능들을 나타내기 위해 독립적으로 도시되는 것으로, 각 구성부들이 분리된 하드웨어나 하나의 소프트웨어 구성단위로 이루어짐을 의미하지 않는다. 즉, 각 구성부는 설명의 편의상 각각의 구성부로 나열하여 포함한 것으로 각 구성부 중 적어도 두 개의 구성부가 합쳐져 하나의 구성부로 이루어지거나, 하나의 구성부가 복수 개의 구성부로 나뉘어져 기능을 수행할 수 있고 이러한 각 구성부의 통합된 실시예 및 분리된 실시예도 본 발명의 본질에서 벗어나지 않는 한 본 발명의 권리범위에 포함된다.

본 발명에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 발명에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다. 즉, 본 발명에서 특정 구성을 "포함"한다고 기술하는 내용은 해당 구성 이외의 구성을 배제하는 것이 아니며, 추가적인 구성이 본 발명의 실시 또는 본 발명의 기술적 사상의 범위에 포함될 수 있음을 의미한다.

본 발명의 일부의 구성 요소는 본 발명에서 본질적인 기능을 수행하는 필수적인 구성 요소는 아니고 단지 성능을 향상시키기 위한 선택적 구성 요소일 수 있다. 본 발명은 단지 성능 향상을 위해 사용되는 구성 요소를 제외한 본 발명의 본질을 구현하는데 필수적인 구성부만을 포함하여 구현될 수 있고, 단지 성능 향상을 위해 사용되는 선택적 구성 요소를 제외한 필수 구성 요소만을 포함한 구조도 본 발명의 권리범위에 포함된다.

이하, 도면을 참조하여 본 발명의 실시 형태에 대하여 구체적으로 설명한다. 본 명세서의 실시예를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 명세서의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략하고, 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.

도 1은 본 발명의 일 실시예에 따른 이머시브 비디오의 개념을 설명하기 위한 도면이다.

도 1을 참조하면, 객체1(O1) 내지 객체4(O4)는 각각 임의의 장면 내의 비디오 영역, V_k는 카메라 센터 위치에서 획득된 비디오(기본 비디오, 기준 비디오), X_k는 시점 위치(카메라 위치), D_k는 카메라 센터 위치에서의 깊이 정보를 각각 의미할 수 있다. 이머시브 비디오는, 시청자의 움직임에 따라 6자유도를 지원하기 위해, 중앙 위치(또는 중심 위치, 기준 위치)(X_k)에서 보여지는 기본 비디오(V_k), 시청자가 이동하였을 때 보여지는 다중 시점 위치(X_k-2,X_k-1, ...)에서의 다중 위치 비디오(V_k-2,V_k-1, ...), 관련 공간 정보(예: 깊이 정보, 카메라 정보) 등을 이용하여 생성될 수 있으며, 비디오 압축, 패킷 다중화 과정을 통해 단말 측에 전송될 수 있다. 여기서, 기본 비디오 및/또는 다중 위치 비디오는 평면 비디오 또는 전방위 비디오일 수 있다.

따라서, 이머시브 미디어 시스템은 다중 시점으로 구성된 대용량의 이머시브 비디오를 획득, 생성, 전송 및 재현하여야 하므로, 대용량의 비디오 데이터가 효과적으로 저장 및 압축되어야 하며, 또한, 기존의 이머시브 비디오(3DoF)와 호환성을 유지하여야 한다.

한편, 이머시브 비디오 포맷팅 장치는 기본 비디오, 다중 위치 비디오 등을 획득할 수 있으며, 수신부(미도시)는 상기 동작을 수행할 수 있다.

도 2a 및 도 2b는 본 발명의 일 실시예에 따른 이머시브 비디오를 생성하는 과정을 설명하기 위한 도면이다.

본 발명에서, 기본 비디오(V_k)는 기본적인 서비스와 호환성을 유지하기 위한 비디오로서, 예컨대, 평면비디오를 기반으로 하는 Windowed-6DoF에서는 2D 비디오에 해당하며, 전방위 비디오를 기반으로 하는 3DoF+ 및 6DoF에서는 3DoF 360VR 비디오에 해당될 수 있다.

또한, 본 발명에서 RVD(Residual Video plus Depth)(RV_k-2 , RV_k-1 , ...)는 최소의 추가 데이터로서 운동시차를 지원하기 위한 부가 비디오이다. RVD는 모든 viewing position(X_k-2 , X_k-1 , ...)에서 획득한 이머시브 비디오에서 중복되는 영역을 제외하고 생성된 비디오(video) 및/또는 깊이맵(depth map)으로 구성될 수 있다. 기본 비디오(V_k)는 기준영상으로서 시청자의 중심 위치에서 획득되는 영역(도 2a 및 도 2b에서, X_k로부터의 화살표가 연결된 비디오 영역)으로 구성될 수 있다. 또는, 기본 비디오는 상호 중복영역이 최소이며 전방위의 비디오를 가장 넓은 범위에서 획득할 수 있는 두 개 이상의 위치에서 획득된 비디오 또는 상기 획득된 비디오들을 합성한 합성 비디오일 수 있다. 한편, RV(Residual Video)는 프루닝된 비디오(Pruned Video)를 의미할 수 있다.

RVD를 구성하는 RV_k-1는 이머시브 비디오 V_k-1내에서 기본 비디오(V_k)에 의해 획득되지 않은 영역(도 2a 및 도 2b에서, X_k-1로부터의 화살표가 연결된 비디오 영역)으로 구성될 수 있다. RV_k-2는 이머시브 비디오 V_k-2 내에서 기본 비디오(V_k) 및 RV_k-1에 의해 획득되지 않은 영역(도 2a 및 도 2b에서, X_k-2로부터의 화살표가 연결된 비디오 영역)으로 구성될 수 있다.

한편, 영상 신호처리 관점에서 RV_k-1 내지 RV_k-2를 다르게 표현하면, RV_k-1는 이머시브 비디오 V_k-1 내에서 기본 비디오(V_k)와 중복되는 비디오 영역을 제거한 영역(도 2a및 도 2b에서, X_k-1로부터의 화살표가 연결된 비디오 영역)으로 구성된 부가 비디오이다. 또한, RV_k-2는 이머시브 비디오 V_k-2 내에서 기본 비디오(V_k) 및 RV_k-1와 중복되는 비디오 영역을 제거한 영역(도 2a및 도 2b에서, X_k-2로부터의 화살표가 연결된 비디오 영역, 또는 후술할 PVD(Packed video plus depth) 내에 사각형 점선으로 표기된 영역)으로 구성된 부가 비디오이다.

각 viewing position에서 획득되는 비디오 영역이 다른 비디오에서 획득되는 영역과 중복이 되는 경우, 상기 중복되는 영역을 한번만 획득하여 생성하기 때문에, 결과적으로 전송 및 압축을 위한 데이터량을 줄일 수 있다. 한편, RVD 내의 비디오 영역들은 기본 비디오(V_k)에서 보여지지 않는 폐색영역(occlusion)이라 할 수 있다.

RVD는 저장 혹은 전송을 위해 RVD를 작은 수의 비디오(하나의 프레임)로 패킹(packing)함으로써 PVD 포맷으로 변환할 수 있다. PVD는 각 RVD에서의 비디오 영역별 시점 위치, 영역 내 위치, 크기 등을 기술하기 위한 메타데이터를 포함할 수 있다. 상기 메타데이터는 RVD 내의 모든 비디오 영역들이 PVD로 패킹될 때의 정보를 기술할 수 있으며, 상기 메타데이터는 압축 비트스트림 내 또는 전송스트림 내에 포함되어 단말에 전송될 수 있다. 한편, PV(Packed Video)는 Atlas Video 또는 Atlas texture를 의미할 수 있다. 또한, PVD는 Atlas texture plus depth를 의미할 수 있다.

PVD는 다중 시점 이머시브 비디오로부터 바로 생성될 수 있다. 즉, RVD 생성을 통해 추출된 비디오 영역 정보(예: 비디오 영역별 깊이 정보 또는 상기 깊이 정보를 기반으로 결정된 마스크 정보 등)를 이용하여 최적의 패킹 위치를 미리 결정하고, 상기 결정된 정보를 이용하여 다중시점 기반 이머시브 비디오로부터 PVD가 바로 패킹될 수 있다.

예컨대, PVD는 텍스처 정보 및 깊이 정보로 구성될 수 있다. 상기 텍스처 정보 및 깊이 정보를 생성하기 위해, 후술할 도 3의 순환 과정을 이용하여, 우선 각 시점 비디오 (V_k, V_k-1, ...) 등으로부터 RVD가 추출될 영역을 결정할 수 있다. 상기 추출될 영역은 픽셀 별로 추출할 것인지(예: 1) 또는 추출하지 않을 것인지(예: 0)가 표시된 마스크 형태일 수 있다. 각 시점 비디오 별로 상기 마스크가 먼저 PVD로 패킹되고, 상기 패킹된 마스크 값을 이용하여 각 시점 영상으로부터 RVD를 추출함으로써 PVD로 바로 패킹될 수 있다.

메타데이터는 비디오 영역별 View number(해당 비디오 영역이 최고의 품질로 획득되는 시점위치(시점번호)), Shared views(공통 시점위치, 해당 비디오 영역이 그 외 시점위치에서 공통적으로 획득되는 시점위치(시점번호)), 우선순위(priority, 데이터용량이 제한될 때, 전송 유무, 비트율 할당 등을 결정하기 위한 것으로서, Shared views의 시점번호 순서에 따라 우선순위가 결정될 수 있음), RVD 내 영역 정보, PV(Packed video) 내 영역 정보, 시점위치별 카메라 파라미터 등으로 구성될 수 있다. 또한, 우선순위는 In-painting된 비디오 영역(즉, 실제 카메라에 의해 획득되지 않으나, 신호처리에 의해 보간된 폐색영역)이 상대적으로 품질이 저하되기 때문에, 차폐영역에 비해 중요도를 낮게 부여하기 위해 이용될 수 있다. 또한, 우선순위는 중복되지 않은 비디오 영역을 추출하기 위해 비교하는 시점위치의 순서(즉, 비교 순서)일 수 있다. 예컨대, 도 3의 예와 같이 반복적인 과정을 통해 중복되지 않은 비디오 영역을 추출할 때, 목표 또는 참조시점의 순서일 수 있다. 상기 비교 순서에 따라 중복되지 않은 비디오 영역의 품질이 달라질 수 있으며, 결국 단말 렌더링 시의 품질에 영향을 미칠 수 있다. 또한, 우선순위는 시점위치 별로 조명의 변화가 있을 경우 대표적인 조명에 해당하는 시점위치(즉, 시점위치 별 상대적인 조명 정도를 나타내는 시점간 순서)를 표시하기 위해 사용될 수 있으며, 예컨대, 렌더링 시 상기 조명 변화에 대한 정보를 참조할 때 이용될 수 있다. 여기서, 상기 영역 정보는 영역의 위치 및/또는 상기 영역의 크기를 포함할 수 있다.

도 3은 본 발명의 일 실시예에 따른 RVD를 생성하는 과정을 설명하기 위한 도면이다.

도 3을 참조하면, 3D 와핑(warping) 단계(S300)에서, 중복성을 제거하기 위해 참조하기 위한 모든 비디오 또는 깊이들을 타겟 시점 위치로 3D 와핑시킬 수 있다. 구체적으로, 카메라 파라미터 값을 이용하여 참조 시점의 깊이맵을 먼저 와핑하고, 상기 와핑된 깊이맵을 기준으로 비디오 영역을 와핑할 수 있다. 예컨대, 상기 3D 와핑 과정은 아래와 같은 두 단계를 수행할 수 있다.

1단계로서, 참조시점 영상 좌표계에서 3차원 공간 좌표계로의 역투영을 수행할 수 있다.

수학식 1은 상기 1단계를 수행하기 위한 수식의 일 예로서, 예컨대, 참조영상 V_k에서 3차원 공간상으로 역투영될 수 있다.

2단계로서, 3차원 공간 좌표계에서 목표 가상시점 영상 좌표계로의 투영을 수행할 수 있다.

수학식 2는 상기 2단계를 수행하기 위한 수식의 일 예로서, 예컨대 역투영된 3차원 공간상에서 목표 시점 위치인 V_k-1로 투영될 수 있다.

수학식 2에서 2차원 배열 데이터인 참조영상에 대한 3D 와핑을 수행하기 위해서 Z값에 해당하는 깊이값(depth value)이 추가적으로 요구될 수 있다. 또는, 경우에 따라 상기 수학식 1 및/또는 수학식 2의 과정에 의해 타겟시점이 참조시점으로 투영될 수도 있다.

한편, P= K·RT이며, 즉, 투영행렬 P는 카메라 캘리브레이션 과정을 통해 얻은 각 참조 카메라의 내부 파라미터 K와 외부 파라미터 R, T를 이용하여 획득될 수 있다.

중복성 제거를 위해 RVD를 생성하는 과정은 반복적으로 수행될 수 있다. 따라서, 참조영상은 다중의 기본 비디오(V_k, D_k), 목표시점 외의 시점영상(V_k-1, D_k-1, V_k-2, D_k-2, ...)(이하 '(가) 경우') 또는 앞선 과정에서 중복성이 제거된 RVD 영상(이하 '(나) 경우') 중 적어도 하나일 수 있다. 예컨대, 참조영상은 다중의 기본 비디오 및/또는 목표시점 외의 시점영상 또는 앞선 과정에서 중복성이 제거된 RVD 영상일 수 있다.

도 3의 RV_k-1 및 RD_k-11단계 생성과정(310)을 참조하면, 참조영상(312)은 기본 비디오 V_k로서 목표시점인 V_k-1로 3D 와핑되는 경우, 객체3(O3) 및 객체2(O2)가 각각 깊이값에 따라 이동하게 되고, 원래 영역인 V_k에서 보이지 않았던 영역은 hole로 남겨질 수 있다(314).

텍스처/깊이 비교 단계(S302)에서, 3D 와핑된 참조시점 비디오(V^~ _k→k-1, D^~ _k→k-1)(314)와 목표시점 비디오(V_k-1, D_k-1)(316)간의 텍스처 및/또는 깊이값을 비교하여 유사성을 판별할 수 있다.

예컨대, 임의의 객체 내의 모든 픽셀값을 비교한 결과가 미리 설정된 소정의 임계값 범위 내에 있는 경우 3D 공간상의 동일한 값이라고 판단될 수 있다. 이 경우, 상기 객체는 중복성이 있다고 판별되기 문에 제거(객체3(O3) 및 객체2(O2)의 전면)될 수 있다(316). 반면, 상기 객체가 중복성이 없다고 판별되는 경우(객체4(O4) 및 객체2(O2)의 측면) RVD 비디오(RV_k-1, RD_k-1)에 포함될 수 있다(318).

다른 reference view 유무 판별 단계(S304)에서, 다른 참조영상이 여러 개가 있는지 여부를 판단할 수 있다.

단일 참조영상에 대해 상술하였지만, 만일 참조영상이 여러 개일 경우 중심이 되는 시점을 기준으로(예컨대, V_k) 하여 각 참조시점 간의 중복영역을 반복적인 방법을 통해 제거할 수 있다. 상기 과정은 RV_k-2 및 RD_k-22단계 생성과정(320)에서 확인할 수 있다.

예컨대, RV_k-2 및 RD_k-22단계 생성과정(320)은 (나) 경우로서, 반복적인 중복성 제거를 위해 앞선 과정에서 중복성이 제거된 RVD 영상이 다음 단계에 참조영상으로 다시 입력되는 경우의 일 예이다. 구체적으로, 참조시점영상 V_k(321)와 앞선 과정에서 생성하였던 RV_k-1(322)로부터 V_k-2위치로 각각 3D 와핑을 한 후에 V_k-2와 비교하여 중복된 영역이라고 판정된 영역을 제거할 수 있다. 즉, 참조시점영상(V_k-2)(326) 및 3D 와핑된 참조시점영상 (V^~ _k→k-2, D^~ _k→k-2)(323), (RV^~ _k-1→k-2, RD^~ _k-1→k-2)(324)를 이용하여, 참조시점영상(V_k-2)(326)에서 보여지는 영역들 중 각각의 다른 참조시점영상(V_k, V_k-1)에서도 보이는 영역을 판별할 수 있다. 따라서, RV_k-2는 객체1(O1) 및 객체4(O4)의 측면 일부만 남게 된다(328).

한편, (가) 경우는, 참조시점영상을 앞선 과정의 RV_k-1 및 RD_k-1 대신에 목표시점 외의 원본 시점영상인 V_k-1, D_k-1, V_k-2, D_k-2, ... 등이 사용될 수 있다. 또한, 반복 회수는 기준 비디오(V_k)의 개수를 포함한 참조시점 영상의 개수만큼 반복될 수 있으며, 목표시점마다 반복 회수는 달라질 수 있다.

한편, 이머시브 비디오 포맷팅 장치는 RVD 비디오를 생성할 수 있으며, 후술하는 부가정부 포맷팅부는 상기 동작을 수행할 수 있다.

도 4는 본 발명의 일 실시예에 따른 이머시브 비디오 서비스를 제공하는 과정을 설명하기 위한 블록도이다.

기본 비디오(V_k및/또는 D_K)는 종래의 2D 비디오 인코더(HEVC, VVC 등)를 통해 인코딩되어 예컨대, 비트스트림의 형태로 전송되고, UHD, 3DoF 360VR 등의 기본 서비스를 제공할 수 있다. 반면, RVD의 경우, 도 2에서 상술한 바와 같이, 부가정보 포맷팅부(402)에서 PVD로 패킹되고, 관련 메타데이터는 각각 인코딩 및/또는 패킷화되어 예컨대, 비트스트림의 형태로 이머시브 비디오 단말에 전송될 수 있다. 부가정보 언포맷팅(Un-formatting)부(404)는 메타데이터를 해석하고 상기 해석을 통해 PVD로부터 RVD를 분리할 수 있다. 이머시브 비디오 합성부(Immersive Video Synthesis)(406)는 시청자의 시청위치를 입력 받을 수 있다. 예컨대, 상기 시청자의 시청위치는 HMD 또는 스마트폰 등과 같은 단말 기기의 위치 센서, 터치, 키보드 등으로부터 입력 받을 수 있다. 또한, 이머시브 비디오 합성부(406)는 기본 비디오를 참조로 하여 사용자 뷰포트(viewport)에 해당하는 시점영상을 동적으로 합성함으로써 디스플레이를 통해 재현할 수 있다.

일 실시예에 따를 때, 다중 시점기반 이머시브 비디오로부터 PVD를 바로 생성할 수 있다. 즉, RVD 생성과정에서 최종 출력된 깊이정보(또는, 상기 깊이정보를 기반으로 하여 생성된 이진값 픽셀로 구성된 마스크 정보)만으로 최적의 패킹 위치를 미리 결정한 후, 상기 결정된 패킹 위치를 이용하여 각 원본 시점 비디오로부터 해당하는 텍스처 및/또는 깊이를 추출함으로써 packed video를 획득할 수 있다.

부가정보 언포맷팅부(404)는 viewing position에 따라 메타데이터로부터 해당되는 정보를 해석할 수 있다. 또한, 부가정보 언포맷팅부(404)는 상기 해석된 정보를 이용하여 packed video로부터 비디오 영역들을 필터링하여 분리할 수 있다. 이머시브 비디오 합성부는 시청자의 시청위치를 입력 받고, 기본 비디오를 참조하여 비디오 영역들로부터 직접 뷰포트(viewport)에 해당하는 시점영상을 동적으로 합성함으로써 디스플레이를 통해 재현할 수 있다.

일반적으로 시점영상 합성 과정은 디코딩된 모든 원본 크기의 시점영상으로부터 뷰포트에 해당하는 시점영상을 중간합성함으로써 많은 메모리와 연산과정이 필요하지만, 본 발명은 PVD내의 비디오영역들만으로 뷰포트에 해당하는 시점영상을 동적으로 중간합성함으로써 연산과정 및 필요한 메모리 사용량을 줄일 수 있다.

도 5a 및 도 5b는 본 발명의 일 실시예에 따른 이머시브 비디오를 재현하는 과정을 설명하기 위한 도면이다.

도 5a의 부가정보 언포맷팅부(Additional Information Unformatting)(500) 및/또는 도 5b의 부가정보 언포맷팅부(510)는 도 4의 부가정보 언포맷팅부(404)의 일 예일 수 있다. 도 5a의 이머시브 비디오 합성부(502) 및/또는 도 5b의 이머시브 비디오 합성부(504)는 도 4의 이머시브 비디오 합성부(406)의 일 예일 수 있다.

도 5a 및/또는 도 5b은 RVD를 이용하여 단말에서 이머시브 비디오를 합성하는 과정을 설명하고 있다. 부가정보 언포맷팅부(500)는 서버로부터 전송된 메타데이터를 해석하여 시청자의 시청 위치(viewing position)와 부합되는 view number, shared views(도 5a 및 도 5b에서 타원으로 표기), PVD에서의 모든 비디오영역 위치정보와 카메라 파라미터 등을 추출할 수 있다.

이머시브 비디오 합성부(502)는 추출된 메타데이터를 이용하여 PVD로부터 비디오 영역을 필터링함으로써 RVD를 생성할 수 있다. 또한, 이머시브 비디오 합성부(502)는 기준 비디오(V_k)를 참조로 상기 기준 비디오 및/또는 RVD를 3D 와핑함으로써 뷰포트 영상을 합성할 수 있다. 한편, shared views가 메타데이터에 포함되지 않는 경우, 카메라 파라미터 및/또는 깊이값 등을 이용하여 시청위치에서의 뷰포터 영상 합성에 필요한 비디오 영역을 결정함으로써 PVD 혹은 RVD로부터 추출할 수 있다.

도 5a는 기준 비디오(V_k)와 RVD를 이용하여 참조시점 V_k-2 위치에서의 영상을 합성하는 과정을 나타내는 일 예이다. 우선 기준 비디오와 그에 해당하는 깊이맵을 이용하여 목표 위치(X_k-2)로 3D 와핑을 수행할 수 있다. 객체3(O3)은 깊이에 따라 위치가 결정되어 사상(mapping)될 수 있다. 객체2(O2)의 경우도 와핑이 되지만 X_k-2에서 뷰포트 내에 사상되지 않으므로 보이지 않게 된다. 기준 비디오로부터의 3D 와핑이 수행되면, 기준 비디오에서는 보이지 않지만 X_k-2에서는 보이는 영역의 텍스처도 생성되어야 한다. 상기 텍스처의 생성을 위해, 3차원 기하관계를 참고하여 hole 영역으로 남아있는 텍스처 정보를 후방 사상(backward warping)으로 가져오는데 가장 적당한 참조시점을 선택할 수 있다. 도 5a 및/또는 도 5b에서 참조시점의 후보는 V_k-1과 V_k-2이 될 수 있다. 각 참조시점에서 보이는 영상의 부분영역(텍스처)이 RVD에 있고, 그에 대한 정의가 메타데이터에 있기 때문에(도 5a 및/또는 도 5b의 예에서 V_k-2), 상기 메타데이터를 이용하여 후방 사상 과정을 수행함으로써 X_k-2를 완성할 수 있다. 도 5a 및/또는 도 5b의 실시예와 같이, 객체4(O4) 및 객체1(O1)이 목표 뷰포트 영상 X_k-2에 사상될 수 있다.

도 5b는 목표 시점영상 X_k이 기준 비디오(V_k)와 참조시점 V_k-1사이에 위치한 경우에 합성되는 일 예이다. 객체2(O2)는 기준 비디오(V_k)로부터 사상되고, 객체2(O2)의 측면 부분이 RVD로부터 사상되어 뷰포트 영상에 보일 수 있다. 반면, 객체1(O1)은 뷰포트 영역 내에 사상되지 않으므로 뷰포트 영상에 보이지 않게 된다. 또한, 목표 시점영상이 V_k와 V_k-1 사이에 위치하게 되므로 객체3(O3), 객체4(O4) 등이 비디오 영역 내에서 보여지는 부분이 달라질 수 있다.

상술한 실시예들에서, 방법들은 일련의 단계 또는 유닛으로서 순서도를 기초로 설명되고 있으나, 본 발명은 단계들의 순서에 한정되는 것은 아니며, 어떤 단계는 상술한 바와 다른 단계와 다른 순서로 또는 동시에 발생할 수 있다. 또한, 당해 기술 분야에서 통상의 지식을 가진 자라면 순서도에 나타난 단계들이 배타적이지 않고, 다른 단계가 포함되거나, 순서도의 하나 또는 그 이상의 단계가 본 발명의 범위에 영향을 미치지 않고 삭제될 수 있음을 이해할 수 있을 것이다.

상술한 실시예는 다양한 양태의 예시들을 포함한다. 다양한 양태들을 나타내기 위한 모든 가능한 조합을 기술할 수는 없지만, 해당 기술 분야의 통상의 지식을 가진 자는 다른 조합이 가능함을 인식할 수 있을 것이다. 따라서, 본 발명은 이하의 특허청구범위 내에 속하는 모든 다른 교체, 수정 및 변경을 포함한다고 할 것이다.

이상 설명된 본 발명에 따른 실시예들은 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명이 상기 실시예들에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형을 꾀할 수 있다.

따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등하게 또는 등가적으로 변형된 모든 것들은 본 발명의 사상의 범주에 속한다고 할 것이다.

Claims

기준 위치에서 기본 비디오를 획득하는 단계;
상기 기준 위치와 적어도 하나의 다른 위치에서 다중 위치 비디오를 획득하는 단계;
상기 기본 비디오 및 다중 위치 비디오를 이용하여 적어도 하나의 RVD(Residual Video plus Depth) 비디오를 획득하는 단계; 및
상기 획득된 기본 비디오 및 상기 적어도 하나의 RVD 비디오를 이용하여 PVD(Packed video plus depth) 비디오 및 소정의 메타데이터 중 적어도 하나를 생성하는 단계를 포함하는 이머시브 비디오 포맷팅 방법.
제1항에 있어서,
상기 기본 비디오는, 평면 비디오 및 전방위 비디오 중 적어도 하나인 것을 특징으로 하는 이머시브 비디오 포맷팅 방법.
제2항에 있어서,
상기 기본 비디오가 전방위 비디오인 경우,
상기 기본 비디오는, 상호 중복영역이 최소이고 전방위 비디오를 가장 넓은 범위에서 획득할 수 있는 적어도 두 개의 위치에서 획득된 비디오인 것을 특징으로 하는 이머시브 비디오 포맷팅 방법.
제1항에 있어서,
다중 위치 비디오는, 제1 위치에서 획득된 제1 다중 위치 비디오 및 상기 제1 위치와 다른 제2 위치에서 획득된 제2 다중 위치 비디오를 포함하고,
상기 RVD 비디오는, 상기 제1 다중 위치 비디오로부터 유도된 제1 RVD 비디오 및 상기 제2 다중 위치 비디오로부터 유도된 제2 RVD 비디오를 포함하는 것을 특징으로 하는 이머시브 비디오 포맷팅 방법.
제4항에 있어서,
상기 제1 RVD 비디오는, 상기 제1 다중 위치 비디오에서 상기 기본 비디오에 중복되지 않는 영역을 포함하는 것을 특징으로 하는 이머시브 비디오 포맷팅 방법.
제5항에 있어서,
상기 제2 RVD 비디오는, 상기 제2 다중 위치 비디오에서 상기 기본 비디오 및 상기 제1 RVD 비디오에 중복되지 않는 영역을 포함하는 것을 특징으로 하는 이머시브 비디오 포맷팅 방법.
제1항에 있어서,
상기 RVD 비디오는, 복수 개이고,
상기 PVD 비디오는, 상기 RVD 비디오 각각에 포함된 영역을 패킹(packing)함으로써 생성된 프레임인 것을 특징으로 하는 이머시브 비디오 포맷팅 방법.
제1항에 있어서,
상기 PVD 비디오는, 미리 결정된 패킹 위치에 기초하여 패킹되고,
상기 패킹 위치는, 상기 RVD 비디오를 이용하여 획득된 영역 정보로부터 유도되는 것을 특징으로 하는 이머시브 비디오 포맷팅 방법.
제1항에 있어서,
상기 메타데이터는, 비디오 영역별 시점 위치(view number), 공통 시점 위치(shared views), 우선순위(priority), RVD 내 영역 정보, PVD 내 영역 정보 및 시점 위치별 카메라 파라미터 중 적어도 하나를 포함하는 것을 특징으로 하는 이머시브 비디오 포맷팅 방법.
비트스트림으로부터 PVD(Packed video plus depth) 비디오 및 소정의 메타데이터를 복호화하는 단계;
상기 메타데이터를 이용하여 상기 PVD 비디오로부터 적어도 하나의 RVD(Residual Video plus Depth) 비디오를 획득하는 단계; 및
상기 획득된 RVD 비디오 및 기본 비디오를 이용하여 뷰포트(viewport)에서의 비디오를 생성하는 단계를 포함하는 이머시브 비디오 포맷팅 방법.
제10항에 있어서,
상기 메타데이터는, 비디오 영역별 시점 위치(view number), 공통 시점 위치(shared views), 우선순위(priority), RVD 내 영역 정보, PVD 내 영역 정보 및 시점 위치별 카메라 파라미터 중 적어도 하나를 포함하는 것을 특징으로 하는 이머시브 비디오 포맷팅 방법.
제11항에 있어서,
상기 메타데이터가 공통 시점 위치를 포함하지 않는 경우, 상기 공통 시점 위치는 상기 카메라 파라미터, 상기 RVD 내 영역 정보 및 상기 PVD 내 영역 정보 중 적어도 하나를 이용하여 유도되는 것을 특징으로 하는 이머시브 비디오 포맷팅 방법.
기준 위치에서 기본 비디오를 획득하고, 상기 기준 위치와 적어도 하나의 다른 위치에서 다중 위치 비디오를 획득하는 수신부; 및
상기 기본 비디오 및 다중 위치 비디오를 이용하여 적어도 하나의 RVD(Residual Video plus Depth) 비디오를 획득하는 부가정보 포맷팅부를 포함하고,
상기 부가정보 포맷팅부는, 상기 획득된 기본 비디오 및 상기 적어도 하나의 RVD 비디오를 이용하여 PVD(Packed video plus depth) 비디오 및 소정의 메타데이터 중 적어도 하나를 생성하는 이머시브 비디오 포맷팅 장치.
제13항에 있어서,
상기 기본 비디오는, 평면 비디오 및 전방위 비디오 중 적어도 하나인 것을 특징으로 하는 이머시브 비디오 포맷팅 장치.
제14항에 있어서,
상기 기본 비디오가 전방위 비디오인 경우,
상기 기본 비디오는, 상호 중복영역이 최소이고 전방위 비디오를 가장 넓은 범위에서 획득할 수 있는 적어도 두 개의 위치에서 획득된 비디오인 것을 특징으로 하는 이머시브 비디오 포맷팅 장치.
제15항에 있어서,
다중 위치 비디오는, 제1 위치에서 획득된 제1 다중 위치 비디오 및 상기 제1 위치와 다른 제2 위치에서 획득된 제2 다중 위치 비디오를 포함하고,
상기 RVD 비디오는, 상기 제1 다중 위치 비디오로부터 유도된 제1 RVD 비디오 및 상기 제2 다중 위치 비디오로부터 유도된 제2 RVD 비디오를 포함하는 것을 특징으로 하는 이머시브 비디오 포맷팅 장치.
제13항에 있어서,
상기 RVD 비디오는, 복수 개이고,
상기 PVD 비디오는, 상기 RVD 비디오 각각에 포함된 영역을 패킹(packing)함으로써 생성된 프레임인 것을 특징으로 하는 이머시브 비디오 포맷팅 장치.
제13항에 있어서,
상기 PVD 비디오는, 미리 결정된 패킹 위치에 기초하여 패킹되고,
상기 패킹 위치는, 상기 RVD 비디오를 이용하여 획득된 영역 정보로부터 유도되는 것을 특징으로 하는 이머시브 비디오 포맷팅 장치.
제13항에 있어서,
상기 메타데이터는, 비디오 영역별 시점 위치(view number), 공통 시점 위치(shared views), 우선순위(priority), RVD 내 영역 정보, PVD 내 영역 정보 및 시점 위치별 카메라 파라미터 중 적어도 하나를 포함하는 것을 특징으로 하는 이머시브 비디오 포맷팅 장치.
제19항에 있어서,
상기 우선순위는, 시점위치 별 상대적인 조명 정도를 나타내는 시점간 순서 및 중복되지 않은 비디오 영역 추출 시 목표시점 또는 참조시점의 순서 중 적어도 하나인 것을 특징으로 하는 이머시브 비디오 포맷팅 장치.