KR20180124046A

KR20180124046A - 가상 현실 비디오 콘텐츠를 표현하기 위한 절두 정사각 피라미드 지오메트리 및 프레임 패킹 구조

Info

Publication number: KR20180124046A
Application number: KR1020187027075A
Authority: KR
Inventors: 더 아우베라 게르트 판; 무하메드 코반; 마르타 카르체비츠
Original assignee: 퀄컴 인코포레이티드
Priority date: 2016-03-23
Filing date: 2017-01-30
Publication date: 2018-11-20
Also published as: EP3433831A1; US10319071B2; CN108780567B; US20170280126A1; CN108780567A; JP6640373B2; BR112018069214A2; WO2017164986A1; JP2019509690A; EP3433831B1; CA3015474A1; WO2017164986A9; EP3433831C0

Abstract

360도 비디오 데이터를 절두 정사각형 피라미드 형상으로 매핑하기 위한 기술 및 시스템이 설명된다. 360도 비디오 프레임은 360 도 상당의 픽셀 데이터를 포함할 수 있으므로, 형상이 구형이다. 절두 정사각 피라미드에 의해 제공하는 평면들에 구형 비디오 데이터를 매핑함으로써, 360도 비디오 프레임의 전체 크기를 줄일 수 있다. 절두 정사각 피라미드의 평면들은 절두 정사각 피라미드의 베이스가 앞쪽 뷰를 표현하고 절두 정사각 피라미드의 상단이 뒤쪽 뷰를 표현하도록 배향될 수 있다. 이런 식으로, 앞쪽 뷰를 전체 해상도로 캡처할 수 있고, 뒤쪽 뷰를 감소된 해상도로 캡처할 수 있으며, 왼쪽, 오른쪽, 위쪽 및 하단 뷰들은 감소하는 해상도로 캡처될 수 있다. 또한 프레임 패킹 구조는 절두 정사각 피라미드 형상으로 매핑된 360도 비디오 데이터에 대해 정의될 수 있다.

Description

가상 현실 비디오 콘텐츠를 표현하기 위한 절두 정사각 피라미드 지오메트리 및 프레임 패킹 구조

가상 현실 (VR) 은 겉보기에 현실적인 또는 물리적인 방식안에서 상호작용할 수 있는 3차원, 컴퓨터 생성 환경을 기술한다. 일반적으로, 가상 현실 환경을 경험하는 사용자는 왼쪽 또는 오른쪽으로 돌거나, 위쪽 또는 아래쪽을 보거나, 및/또는 앞으로 그리고 뒤로 이동하여, 가상 환경에 대한 사용자의 관점을 변경할 수 있다. 사용자에게 제시되는 360도 비디오가 그에 따라 변경될 수 있어, 사용자의 경험은 현실 세계에서처럼 심리스 (seamless) 하게 된다. 가상 현실 비디오는 매우 높은 품질로 캡처 및 렌더링되며, 잠재적으로 진정 몰입형 가상 현실 경험을 제공할 수 있다.

심리스한 360도 뷰를 제공하기 위해, 360도 비디오 캡처 시스템에 의해 캡처된 비디오는 통상적으로 이미지 스티칭 (image stitching) 을 받게 된다. 360도 비디오 생성의 경우에 이미지 스티칭은 비디오 프레임들이 오버랩거나 또는 그렇지 않으면 연결되는 구역에 있는 인접한 카메라들로부터의 비디오 프레임들을 결합하거나 또는 병합하는 것을 수반한다. 그 결과 대략 구형 프레임이 된다. 그러나, Mercator 투영과 유사하게, 병합된 데이터는 통상적으로 평면 방식으로 표현된다. 예를 들어, 병합된 비디오 프레임 내의 픽셀들은 큐브 형상 또는 기타 3 차원, 평면 형상 (예를 들어, 피라미드, 팔면체, 십면체 등) 의 평면들 상으로 매핑될 수도 있다. 비디오 캡처 및 비디오 디스플레이 디바이스는 일반적으로 래스터 원리 - 비디오 프레임이 픽셀들의 그리드로 처리됨을 의미- 에서 동작하므로, 일반적으로 정사각 또는 직사각형 평면은 통상적으로 구형 환경을 표현하는데 사용된다.

개요

다양한 구현에서, 360도 비디오 데이터를 절두 정사각 피라미드 형상으로 매핑하기 위한 기술 및 시스템이 설명된다. 절두 정사각 피라미드는 상단이 잘린 정사각 피라미드이다. 따라서, 절두 정사각 피라미드는 정사각형 베이스, 정사각형 상단 및 4개의 사다리꼴 형상의 측면들을 갖는다. 360도 비디오 프레임은 360 도 상당의 픽셀 데이터를 포함할 수 있으므로, 형상이 구형이다. 구형 비디오 데이터를 절두 정사각 피라미드에 의해 제공되는 평면들에 매핑하는 것에 의해, 뷰어의 시야의 에지에서 약간의 충실도만을 희생하면서 360도 비디오 프레임의 전체 크기를 줄일 수 있다. 절두 정사각 피라미드의 평면들은 절두 정사각 피라미드의 베이스가 앞쪽 뷰를 표현하고 절두 정사각 피라미드의 상단이 뒤쪽 뷰를 표현하도록 배향될 수 있다. 이런 식으로, 앞쪽 뷰를 전체 해상도로 캡처할 수 있고, 뒤쪽 뷰를 감소된 해상도로 캡처할 수 있으며, 왼쪽, 오른쪽, 위쪽 및 하단 뷰들은 감소하는 해상도로 캡처될 수 있다.

다양한 구현예에서, 프레임 패킹 구조는 절두 정사각 피라미드 형상으로 매핑된 비디오 데이터에 대해 정의될 수 있다. 프레임 패킹 구조는, 비직사각형 데이터 블록보다 저장 및 전송이 더 쉬울 수 있는, 형상이 직사각형인 데이터 블록을 생성할 수 있다. 프레임 패킹 구조는 절두 정사각 피라미드 형상에 의해 제공되는 앞쪽 뷰를 전체 해상도로 저장할 수 있고, 컴팩트 배열 (compact arrangement) 로 뒤쪽 뷰 주위에 왼쪽, 오른쪽, 위쪽 및 하단 뷰들을 패킹 (packing) 할 수 있다. 다양한 구현에서, 비디오 데이터가 저장되는 곳을 정의하는 비율은 비디오 데이터를 큐브 형상 표현으로부터 프레임 패킹 구조로 직접 매핑하는데 사용될 수 있다. 다양한 구현에서, 이러한 비율은 또한, 뒤쪽, 왼쪽, 오른쪽, 위쪽 그리고 하단 뷰들의 해상도를 변경하거나 및/또는 앞쪽 뷰에 의해 캡처된 시야를 변경하기 위해 조정될 수 있다.

적어도 하나의 예에 따르면, 비디오 데이터를 인코딩하는 방법이 제공된다. 다양한 구현에서, 그 방법은 가상 현실 비디오 데이터를 획득하는 단계를 포함한다. 그 현실 비디오 데이터는 가상 환경의 360도 뷰를 표현할 수 있다. 가상 현실 비디오 데이터는 복수의 프레임들을 포함할 수 있다. 복수의 프레임들로부터의 각각의 프레임은 대응하는 구형 비디오 데이터를 포함할 수 있다. 그 방법은 복수의 프레임들로부터 프레임을 위한 구형 비디오 데이터를 절두 정사각 피라미드의 평면들 상에 매핑하는 단계를 더 포함한다. 절두 정사각 피라미드의 평면들은 베이스 평면, 상단 평면, 좌측 평면, 우측 평면, 상측 평면 및 하단측 평면을 포함한다. 상단 평면의 크기는 베이스 평면의 크기보다 작을 수 있다. 구형 비디오 데이터를 매핑하는 단계는 전체 해상도로 베이스 평면 상에 구형 비디오 데이터의 제 1 부분을 매핑하는 단계를 포함할 수 있다. 구형 비디오 데이터를 매핑하는 단계는 감소된 해상도로 상단 평면 상에 구형 비디오 데이터의 제 2 부분을 매핑하는 단계를 더 포함할 수 있다. 구형 비디오 데이터를 매핑하는 단계는 감소하는 해상도로 좌측 평면 상에 구형 비디오 데이터의 제 3 부분을 매핑하는 단계를 더 포함할 수 있다. 구형 비디오 데이터를 매핑하는 단계는 감소하는 해상도로 우측 평면 상에 구형 비디오 데이터의 제 4 부분을 매핑하는 단계를 더 포함할 수 있다. 구형 비디오 데이터를 매핑하는 단계는 감소하는 해상도로 상측 평면 상에 구형 비디오 데이터의 제 5 부분을 매핑하는 단계를 더 포함할 수 있다. 구형 비디오 데이터를 매핑하는 단계는 감소하는 해상도로 하단측 평면 상에 구형 비디오 데이터의 제 6 부분을 매핑하는 단계를 더 포함할 수 있다.

다른 예에서, 비디오 데이터를 저장하도록 구성된 메모리 및 프로세서를 포함하는 장치가 제공된다. 프로세서는 가상 현실 비디오 데이터를 획득하도록 구성되어 이를 획득할 수 있다. 그 현실 비디오 데이터는 가상 환경의 360도 뷰를 표현할 수 있다. 가상 현실 비디오 데이터는 복수의 프레임들을 포함할 수 있다. 복수의 프레임들로부터의 각각의 프레임은 대응하는 구형 비디오 데이터를 포함할 수 있다. 그 프로세서는 복수의 프레임들로부터 프레임을 위한 구형 비디오 데이터를 절두 정사각 피라미드의 평면들 상에 매핑하도록 구성되어 또한 이를 매핑할 수 있다. 절두 정사각 피라미드의 평면들은 베이스 평면, 상단 평면, 좌측 평면, 우측 평면, 상측 평면 및 하단측 평면을 포함한다. 상단 평면의 크기는 베이스 평면의 크기보다 작을 수 있다. 구형 비디오 데이터를 매핑하는 단계는 전체 해상도로 베이스 평면 상에 구형 비디오 데이터의 제 1 부분을 매핑하는 단계를 포함할 수 있다. 구형 비디오 데이터를 매핑하는 단계는 감소된 해상도로 상단 평면 상에 구형 비디오 데이터의 제 2 부분을 매핑하는 단계를 더 포함할 수 있다. 구형 비디오 데이터를 매핑하는 단계는 감소하는 해상도로 좌측 평면 상에 구형 비디오 데이터의 제 3 부분을 매핑하는 단계를 더 포함할 수 있다. 구형 비디오 데이터를 매핑하는 단계는 감소하는 해상도로 우측 평면 상에 구형 비디오 데이터의 제 4 부분을 매핑하는 단계를 더 포함할 수 있다. 구형 비디오 데이터를 매핑하는 단계는 감소하는 해상도로 상측 평면 상에 구형 비디오 데이터의 제 5 부분을 매핑하는 단계를 더 포함할 수 있다. 구형 비디오 데이터를 매핑하는 단계는 감소하는 해상도로 하단측 평면 상에 구형 비디오 데이터의 제 6 부분을 매핑하는 단계를 더 포함할 수 있다.

또 다른 예에서, 프로세서에 의해 실행될 때 가상 현실 비디오 데이터를 획득하는 단계를 포함하는 방법을 수행하는 명령들을 저장한 컴퓨터 판독 가능 매체가 제공된다. 그 현실 비디오 데이터는 가상 환경의 360도 뷰를 표현할 수 있다. 가상 현실 비디오 데이터는 복수의 프레임들을 포함할 수 있다. 복수의 프레임들로부터의 각각의 프레임은 대응하는 구형 비디오 데이터를 포함할 수 있다. 그 방법은 복수의 프레임들로부터 프레임을 위한 구형 비디오 데이터를 절두 정사각 피라미드의 평면들 상에 매핑하는 단계를 더 포함한다. 절두 정사각 피라미드의 평면들은 베이스 평면, 상단 평면, 좌측 평면, 우측 평면, 상측 평면 및 하단측 평면을 포함한다. 상단 평면의 크기는 베이스 평면의 크기보다 작을 수 있다. 구형 비디오 데이터를 매핑하는 단계는 전체 해상도로 베이스 평면 상에 구형 비디오 데이터의 제 1 부분을 매핑하는 단계를 포함할 수 있다. 구형 비디오 데이터를 매핑하는 단계는 감소된 해상도로 상단 평면 상에 구형 비디오 데이터의 제 2 부분을 매핑하는 단계를 더 포함할 수 있다. 구형 비디오 데이터를 매핑하는 단계는 감소하는 해상도로 좌측 평면 상에 구형 비디오 데이터의 제 3 부분을 매핑하는 단계를 더 포함할 수 있다. 구형 비디오 데이터를 매핑하는 단계는 감소하는 해상도로 우측 평면 상에 구형 비디오 데이터의 제 4 부분을 매핑하는 단계를 더 포함할 수 있다. 구형 비디오 데이터를 매핑하는 단계는 감소하는 해상도로 상측 평면 상에 구형 비디오 데이터의 제 5 부분을 매핑하는 단계를 더 포함할 수 있다. 구형 비디오 데이터를 매핑하는 단계는 감소하는 해상도로 하단측 평면 상에 구형 비디오 데이터의 제 6 부분을 매핑하는 단계를 더 포함할 수 있다.

또 다른 예에서, 비디오 데이터를 인코딩하는 수단을 포함하는 장치가 제공된다. 그 장치는 가상 현실 비디오 데이터를 획득하는 수단을 더 포함한다. 그 현실 비디오 데이터는 가상 환경의 360도 뷰를 표현할 수 있다. 가상 현실 비디오 데이터는 복수의 프레임들을 포함할 수 있다. 복수의 프레임들로부터의 각각의 프레임은 대응하는 구형 비디오 데이터를 포함할 수 있다. 그 장치는 복수의 프레임들로부터 프레임을 위한 구형 비디오 데이터를 절두 정사각 피라미드의 평면들 상에 매핑하는 수단을 더 포함한다. 절두 정사각 피라미드의 평면들은 베이스 평면, 상단 평면, 좌측 평면, 우측 평면, 상측 평면 및 하단측 평면을 포함한다. 상단 평면의 크기는 베이스 평면의 크기보다 작을 수 있다. 구형 비디오 데이터를 매핑하는 단계는 전체 해상도로 베이스 평면 상에 구형 비디오 데이터의 제 1 부분을 매핑하는 단계를 포함할 수 있다. 구형 비디오 데이터를 매핑하는 단계는 감소된 해상도로 상단 평면 상에 구형 비디오 데이터의 제 2 부분을 매핑하는 단계를 더 포함할 수 있다. 구형 비디오 데이터를 매핑하는 단계는 감소하는 해상도로 좌측 평면 상에 구형 비디오 데이터의 제 3 부분을 매핑하는 단계를 더 포함할 수 있다. 구형 비디오 데이터를 매핑하는 단계는 감소하는 해상도로 우측 평면 상에 구형 비디오 데이터의 제 4 부분을 매핑하는 단계를 더 포함할 수 있다. 구형 비디오 데이터를 매핑하는 단계는 감소하는 해상도로 상측 평면 상에 구형 비디오 데이터의 제 5 부분을 매핑하는 단계를 더 포함할 수 있다. 구형 비디오 데이터를 매핑하는 단계는 감소하는 해상도로 하단측 평면 상에 구형 비디오 데이터의 제 6 부분을 매핑하는 단계를 더 포함할 수 있다.

일부 양태들에서, 전술된 방법, 장치 및 컴퓨터 판독 가능 매체는 구형 비디오 데이터를 직사각형 형식 (rectangular format) 으로 패킹하는 것을 더 포함한다.

일부 양태들에서, 전술된 방법, 장치 및 컴퓨터 판독 가능 매체는 패킹 구조내에 구형 비디오 데이터를 패킹하는 것을 더 포함한다. 다양한 양태들에서, 구형 비디오 데이터를 패킹하는 것은 제 1 데이터 블록에서 제 2 부분 주위에 구형 비디오 데이터의 제 3 부분, 제 4 부분, 제 5 부분 및 제 6 부분을 패킹하는 것을 포함할 수 있다. 구형 비디오 데이터를 패킹하는 것은 제 2 데이터 블록내에 제 1 부분을 패킹하는 것을 포함할 수 있다. 구형 비디오 데이터를 패킹하는 것은 패킹 구조 내에 제 1 데이터 블록 및 제 2 데이터 블록을 패킹하는 것을 더 포함할 수 있다. 제 1 데이터 블록은 패킹 구조에서 제 2 데이터 블록의 옆에 배치될 수 있다.

일부 양태에서, 전술된 방법, 장치 및 컴퓨터 판독 가능 매체는 패킹 구조 내에 프레임을 위한 비디오 데이터를 패킹하는 것을 더 포함한다. 다양한 양태에서, 구형 비디오 데이터를 패킹하는 것은, 제 1 데이터 블록내에 상단 평면에 매핑된 비디오 데이터의 제 1 절반 주위에 좌측 평면에 매핑된 비디오 데이터의 제 1 절반, 우측 평면에 매핑된 비디오의 제 1 절반, 상측 평면에 매핑된 비디오 데이터의 제 1 절반, 및 하단측 평면에 매핑된 비디오 데이터의 제 1 절반의 각각을 패킹하는 것을 포함할 수 있다. 구형 비디오 데이터를 패킹하는 것은, 제 2 데이터 블록내에 상단 평면에 매핑된 비디오 데이터의 제 2 절반 주위에 좌측 평면에 매핑된 비디오 데이터의 제 2 절반, 우측 평면에 매핑된 비디오의 제 2 절반, 상측 평면에 매핑된 비디오 데이터의 제 2 절반, 및 하단측 평면에 매핑된 비디오 데이터의 제 2 절반의 각각을 패킹하는 것을 더 포함할 수 있다. 구형 비디오 데이터를 패킹하는 것은 제 3 데이터 블록내에 베이스 평면에 매핑된 비디오 데이터를 패킹하는 것을 더 포함할 수 있다. 구형 비디오 데이터를 패킹하는 것은 패킹 구조내에 제 1 데이터 블록, 제 2 데이터 블록, 및 제 3 데이터 블록을 패킹하는 것을 더 포함할 수 있다. 제 1 데이터 블록 및 제 2 데이터 블록은 패킹 구조에서 제 3 데이터 블록의 옆에 배치될 수 있다.

일부 양태에서, 전술된 방법, 장치 및 컴퓨터 판독 가능 매체는 복수의 프레임들로부터 제 1 프레임을 송신하는 것을 더 포함한다. 제 1 프레임을 위한 비디오 데이터는 제 1 절두 정사각 피라미드의 평면들에 매핑될 수 있다. 다양한 양태는 복수의 프레임들로부터 제 2 프레임을 송신하는 것을 더 포함한다. 제 2 프레임을 위한 비디오 데이터는 제 2 절두 정사각 피라미드의 평면들에 매핑될 수 있다. 제 2 절두 정사각 피라미드는 제 1 절두 정사각 피라미드에 대해 회전될 수 있다.

일부 양태에서, 전술된 방법, 장치 및 컴퓨터 판독 가능 매체는 큐브의 면들 상으로 프레임을 위한 구형 비디오 데이터를 매핑하는 것을 더 포함한다. 큐브의 면들은 앞쪽 면, 왼쪽 면, 오른쪽 면, 뒤쪽 면, 위쪽 면 및 하단 면을 포함한다. 이러한 양태에서, 구형 비디오 데이터를 매핑하는 것은 큐브의 면들로부터 절두 정사각 피라미드의 평면들로 비디오 데이터를 매핑하는 것을 더 포함할 수 있다.

일부 양태에서, 절두 정사각 피라미드는 좌측 평면에 인접한 직사각형 좌측 평면, 우측 평면에 인접한 직사각형의 우측 평면, 상측 평면에 인접한 직사각형 상측 평면 및 하단측 평면에 인접한 직사각형 하단측 평면을 더 포함한다. 이들 양태들에서, 구형 비디오 데이터를 매핑하는 것은 전체 해상도로 직사각형 좌측 평면에 구형 비디오 데이터의 제 7 부분을 매핑하는 것, 전체 해상도로 직사각형 우측 평면에 구형 비디오 데이터의 제 8 부분을 매핑하는 것, 전체 해상도로 직사각형 상측 평면에 구형 비디오 데이터의 제 9 부분을 매핑하는 것, 및 전체 해상도로 직사각형 하단측 평면에 구형 비디오 데이터의 제 10 부분을 매핑하는 것을 더 포함한다.

일부 양태에서, 구형 비디오 데이터를 매핑하는 것은 구형 비디오 데이터로부터 비디오 데이터를 선택하는 것, 및 절두 정사각 피라미드의 평면들로부터 대응하는 평면에 선택된 비디오 데이터를 위한 위치를 로케이팅 (locating) 하는 것을 포함할 수 있다.

일부 양태에서, 구형 비디오 데이터를 매핑하는 것은 구형 비디오 데이터로부터 비디오 데이터를 선택하는 것, 선택된 비디오 데이터를 다운샘플링하는 것, 및 절두 정사각 피라미드의 평면들로부터 대응하는 평면에 다운샘플링된 비디오 데이터를 위한 위치를 로케이팅하는 것을 포함할 수 있다.

일부 양태에서, 전술된 방법, 장치 및 컴퓨터 판독 가능 매체는 절두 정사각 피라미드를 위한 지오메트리 유형을 정의하는 것을 더 포함한다. 지오메트리 유형은 구형 비디오 데이터를 파일 형식으로 매핑하기 위한 지오메트릭 형상을 식별할 수 있다. 다양한 양태는 절두 정사각 피라미드을 위한 높이를 정의하고 절두 정사각 피라미드를 위한 뒤쪽 폭을 정의하는 것을 더 포함한다. 뒤쪽 폭은 상단 평면과 연관될 수 있다. 다양한 양태는 절두 정사각 피라미드를 위한 뒤쪽 높이를 정의하는 것을 더 포함한다. 뒤쪽 높이는 상단 평면과 연관될 수 있다.

일부 양태들에서, 전술된 방법, 장치 및 컴퓨터 판독 가능 매체는 표면 식별자를 정의하는 것을 더 포함한다. 표면 식별자는 절두 정사각 피라미드의 평면을 식별할 수 있다. 다양한 양태는 절두 정사각 피라미드의 각각의 평면에 대한 상단-왼쪽 수평 좌표를 정의하는 것을 더 포함한다. 상단-왼쪽 수평 좌표는 패킹 구조 내의 평면의 상단-왼쪽 코너의 수평 위치를 나타낼 수 있다. 패킹 구조는 구형 비디오 데이터를 파일 형식으로 매핑하는데 사용될 수 있다. 다양한 양태는 절두 정사각 피라미드의 각각의 평면에 대한 상단-왼쪽 수직 좌표를 정의하는 것을 더 포함한다. 상단-왼쪽 수직 좌표는 패킹 구조 내의 평면의 상단-왼쪽 코너의 수직 좌표를 나타낼 수 있다. 다양한 양태는 절두 정사각 피라미드의 각각의 평면에 대한 구역 폭을 정의하는 것을 더 포함한다. 구역 폭은 평면의 폭과 연관될 수 있다. 다양한 양태는 절두 정사각 피라미드의 각각의 평면에 대한 구역 높이를 정의하는 것을 더 포함한다. 구역 높이는 평면의 높이와 연관될 수 있다.

일부 양태에서, 전술된 방법, 장치 및 컴퓨터 판독 가능 매체는 절두 정사각 피라미드를 위한 가상 현실 (VR) 매핑 유형을 정의하는 것을 더 포함한다. VR 매핑 유형은 구형 비디오 데이터를 직사각형 형식으로 매핑하기 위한 매핑 유형을 나타낼 수 있다. 절두 정사각 피라미드를 위한 VR 매핑 유형은 비디오 정보 박스와 연관될 수 있다.

다양한 양태에서, 비디오 정보 박스는 다음을 포함한다 절두 정사각 피라미드의 깊이를 나타내는 깊이, 상단 평면의 폭을 나타내는 뒤쪽 폭, 상단 평면의 높이를 나타내는 뒤쪽 높이, 절두 정사각 피라미드의 평면들로부터 평면을 식별하는 영역 식별자, 구형 비디오 데이터의 중심 픽셀이 렌더링되는 지점의 좌표의 피치 (pitch) 각도를 나타내는 중심 피치, 구형 비디오 데이터의 중심 픽셀이 렌더링되는 지점의 좌표의 요 (yaw) 각도를 나타내는 중심 요, 구형 비디오 데이터의 중심 픽셀이 렌더링되는 지점의 좌표 피치 각도의 오프셋 값을 나타내는 중심 피치 오프셋, 구형 비디오 데이터의 중심 픽셀이 렌더링되는 점의 좌표 요 각도의 오프셋 값을 나타내는 중심 요 오프셋, 평면의 상단-왼쪽 코너의 수평 좌표를 나타내는 상단-왼쪽 수평 좌표, 평면의 상단-왼쪽 코너의 수직 좌표를 나타내는 상단-왼쪽 수직 좌표, 평면의 폭을 나타내는 영역 폭, 및 평면의 높이를 나타내는 영역 높이.

적어도 하나의 예에 따르면, 비디오 데이터를 디코딩하는 방법이 제공된다. 다양한 구현 예에서, 그 방법은 가상 현실 비디오 데이터의 프레임을 획득하는 단계를 포함한다. 그 가상 현실 비디오 데이터는 가상 환경의 360도 뷰를 표현할 수 있다. 프레임은 직사각형 형식을 가질 수 있다. 그 방법은 그 프레임을 위한 프레임 패킹 구조를 식별하는 단계를 더 포함한다. 프레임 패킹 구조는 프레임 내의 비디오 데이터를 위한 위치들을 제공할 수 있다. 프레임 패킹 구조는 절두 정사각 피라미드의 평면들을 포함할 수 있다. 절두 정사각 피라미드의 평면들은 베이스 평면, 상단 평면, 좌측 평면, 우측 평면, 상측 평면 및 하단측 평면을 포함한다. 상단 평면의 크기는 베이스 평면의 크기보다 작을 수 있다. 이 방법은 프레임 패킹 구조를 사용하여 프레임을 디스플레이하는 단계를 더 포함할 수 있다.

다른 예에서, 비디오 데이터를 저장하도록 구성된 메모리 및 프로세서를 포함하는 장치가 제공된다. 프로세서는 가상 현실 비디오 데이터의 프레임을 획득하도록 구성되어 이를 획득할 수 있다. 그 가상 현실 비디오 데이터는 가상 환경의 360도 뷰를 표현할 수 있다. 프레임은 직사각형 형식을 가질 수 있다. 프로세서는 프레임을 위한 프레임 패킹 구조를 식별하도록 구성되어 이를 식별할 수 있다. 프레임 패킹 구조는 프레임 내의 비디오 데이터를 위한 위치들을 제공할 수 있다. 프레임 패킹 구조는 절두 정사각 피라미드의 평면들을 포함할 수 있다. 절두 정사각 피라미드의 평면들은 베이스 평면, 상단 평면, 좌측 평면, 우측 평면, 상측 평면 및 하단측 평면을 포함한다. 상단 평면의 크기는 베이스 평면의 크기보다 작을 수 있다. 프로세스는 프레임 패킹 구조를 사용하여 프레임을 디스플레이하도록 구성되어 이를 디스플레이할 수 있다.

또 다른 예에서, 프로세서에 의해 실행될 때 가상 현실 비디오 데이터의 프레임을 획득하는 단계를 포함하는 방법을 수행하는 명령들을 저장한 컴퓨터 판독 가능 매체가 제공된다. 그 가상 현실 비디오 데이터는 가상 환경의 360도 뷰를 표현할 수 있다. 프레임은 직사각형 형식을 가질 수 있다. 그 방법은 그 프레임을 위한 프레임 패킹 구조를 식별하는 단계를 더 포함한다. 프레임 패킹 구조는 프레임 내의 비디오 데이터를 위한 위치들을 제공할 수 있다. 프레임 패킹 구조는 절두 정사각 피라미드의 평면들을 포함할 수 있다. 절두 정사각 피라미드의 평면들은 베이스 평면, 상단 평면, 좌측 평면, 우측 평면, 상측 평면 및 하단측 평면을 포함한다. 상단 평면의 크기는 베이스 평면의 크기보다 작을 수 있다. 이 방법은 프레임 패킹 구조를 사용하여 프레임을 디스플레이하는 단계를 더 포함할 수 있다.

또 다른 예에서, 비디오 데이터를 디코딩하는 수단을 포함하는 장치가 제공된다. 그 장치는 가상 현실 비디오 데이터의 프레임을 획득하는 수단을 더 포함한다. 그 가상 현실 비디오 데이터는 가상 환경의 360도 뷰를 표현할 수 있다. 프레임은 직사각형 형식을 가질 수 있다. 그 장치는 그 프레임을 위한 프레임 패킹 구조를 식별하는 수단을 더 포함한다. 프레임 패킹 구조는 프레임 내의 비디오 데이터를 위한 위치들을 제공할 수 있다. 프레임 패킹 구조는 절두 정사각 피라미드의 평면들을 포함할 수 있다. 절두 정사각 피라미드의 평면들은 베이스 평면, 상단 평면, 좌측 평면, 우측 평면, 상측 평면 및 하단측 평면을 포함한다. 상단 평면의 크기는 베이스 평면의 크기보다 작을 수 있다. 이 장치는 프레임 패킹 구조를 사용하여 프레임을 디스플레이하는 수단을 더 포함한다.

일부 양태에서, 프레임을 디스플레이하는 것은 앞쪽 뷰로서 프레임 내의 비디오 데이터의 제 1 부분을 제공하는 것을 포함한다. 비디오 데이터의 제 1 부분은 베이스 평면에 대응할 수 있다. 비디오 데이터의 제 1 부분은 전체 해상도일 수 있다. 다양한 양태는 뒤쪽 뷰로서 프레임 내의 비디오 데이터의 제 2 부분을 제공하는 것을 더 포함한다. 비디오 데이터의 제 2 부분은 상단 평면에 대응할 수 있다. 비디오 데이터의 제 2 부분은 감소된 해상도일 수 있다. 다양한 양태들은 왼쪽 뷰로서 프레임 내의 비디오 데이터의 제 3 부분을 제공하는 것을 더 포함한다. 비디오 데이터의 제 3 부분은 좌측 평면에 대응할 수 있다. 비디오 데이터의 제 3 부분은 감소하는 해상도일 수 있다. 다양한 양태는 오른쪽 뷰로서 프레임 내의 비디오 데이터의 제 4 부분을 제공하는 것을 더 포함한다. 비디오 데이터의 제 4 부분은 우측 평면에 대응할 수 있다. 비디오 데이터의 제 4 부분은 감소하는 해상도일 수 있다. 다양한 양태는 위쪽 뷰로서 프레임 내의 비디오 데이터의 제 5 부분을 제공하는 것을 더 포함한다. 비디오 데이터의 제 5 부분은 상측 평면에 대응할 수 있다. 비디오 데이터의 제 5 부분은 감소하는 해상도일 수 있다. 다양한 양태는 하단 뷰로서 프레임 내의 비디오 데이터의 제 6 부분을 제공하는 것을 더 포함한다. 비디오 데이터의 제 6 부분은 하단측 평면에 대응할 수 있다. 비디오 데이터의 제 6 부분은 감소하는 해상도일 수 있다.

일부 양태에서, 전술된 방법, 장치 및 컴퓨터 판독 가능 매체는 가상 현실 데이터의 제 2 프레임을 수신하는 것을 더 포함한다. 제 2 프레임은 프레임에 대해 회전할 수 있다. 다양한 양태들은 프레임 패킹 구조를 사용하여 제 2 프레임을 디스플레이하는 것을 더 포함한다.

일부 양태에서, 프레임 패킹 구조는 좌측 평면에 인접한 직사각형 좌측 평면, 우측 평면에 인접한 직사각형의 우측 평면, 상측 평면에 인접한 직사각형 상측 평면 및 하단측 평면에 인접한 직사각형 하단측 평면을 포함한다.

일부 양들에서, 전술된 방법, 장치 및 컴퓨터 판독 가능 매체는 프레임을 위한 지오메트리 유형을 결정하는 것을 더 포함한다. 지오메트리 유형은 가상 현실 비디오 데이터를 파일 형식으로 매핑하기 위한 지오메트릭 형상을 식별한다. 다양한 양태는 지오메트리 유형에 기초하여 절두 정사각 피라미드로부터 높이를 결정하는 것을 더 포함한다. 다양한 양태는 지오메트리 유형을 사용하여 절두 정사각 피라미드로부터 뒤쪽 폭을 결정하는 것을 더 포함한다. 뒤쪽 폭은 상단 평면과 연관될 수 있다. 다양한 양태는 지오메트리 유형을 사용하여 절두 정사각 피라미드를 위한 뒤쪽 높이를 결정하는 것을 더 포함한다. 뒤쪽 높이는 상단 평면과 연관될 수 있다.

일부 양태에서, 전술된 방법, 장치 및 컴퓨터 판독 가능 매체는 가상 현실 (VR) 매핑 유형을 식별하는 것을 더 포함한다. VR 매핑 유형은 가상 현실 비디오 데이터를 직사각형 형식으로 매핑하기 위한 매핑 유형을 나타낼 수 있다. VR 매핑 유형은 절두 정사각 피라미드를 식별할 수 있다. VR 매핑 유형은 비디오 정보 박스와 연관될 수 있다.

이 요약은, 청구된 요지의 핵심적인 또는 본질적인 특징들을 식별하도록 의도되지 않았고, 별개로 청구된 요지의 범위를 결정하는데 사용되도록 의도되지도 않았다. 요지는 본 특허의 전체 명세서, 일부 또는 모든 도면 및 각 청구항의 적절한 부분들을 참조하여 이해되어야 한다.

전술한 내용은, 다른 특징 및 실시 형태들과 함께, 다음의 명세서, 청구항 및 첨부 도면을 참조하면 더욱 명백해질 것이다.

본 발명의 예시적 실시형태들은 다음 도면들을 참조하여 이하에서 상세히 설명된다:
도 1은 가상 현실 비디오 캡처 디바이스에 의해 캡처된 픽셀들을 포함하는 구 (sphere) 에 의해 표현되는 가상 환경의 일례를 나타낸다;
도 2a는 가상 현실 환경의 구형 표현의 픽셀들을 등장방형, 평면 표현으로 매핑하는데 사용될 수 있는 레퍼런스 좌표계 (reference coordinate system) 를 나타낸다;
도 2b는 등장방형 평면에 매핑된 비디오 프레임의 예를 나타낸다;
도 3은 절두 정사각 피라미드 형상으로 매핑된 비디오 데이터의 프레임을 위한 프레임 패킹 구조의 일례를 나타낸다;
도 4는, 저장 및 전송될 수 있는 데이터 블록 내에 비디오 데이터를 저장하는데 사용될 수 있는 프레임 패킹 구조의 또 다른 예를 나타낸다;
도 5는 도 3에 나타낸 예시적인 프레임 패킹 구조에 따라 패킹된 프레임의 일례를 나타낸다;
도 6은 도 4에 나타낸 예시적인 프레임 패킹 구조에 따라 패킹된 비디오 프레임의 일례를 나타낸다;
도 7은 절두 정사각 피라미드 지오메트리에 따라 비디오 프레임이 패킹된 경우에 본 품질 척도의 일례를 제공하는 그래프를 나타낸다;
도 8은 360도 비디오 데이터의 큐브 형상 표현의 면들을 비디오 데이터의 절두 정사각 피라미드 표현을 위한 프레임 패킹 구조로 매핑하는데 사용될 수 있는 비율들의 일례를 나타낸다;
도 9a 내지 도 9d는 360도 비디오 프레임을 위한 다양한 상이한 매핑들로부터 비롯되는 프레임 크기들간의 비교를 나타낸다;
도 10a 및 도 10b는 텍스처 영역들과 절두 정사각 피라미드 형상의 면들 간의 대응 관계를 나타낸다.
도 11a 내지 도 11f는 절두 정사각 피라미드 형상의 각 영역의 위치, 폭 및 높이를 나타낸다.
도 12는 큐브의 평면들을 절두 정사각 피라미드의 평면들에 매핑하는 또 다른 예를 나타낸다.
도 13은 수정된 절두 정사각 피라미드 매핑을 위한 프레임 패킹 구조의 일례를 나타낸다;
도 14는 수정된 절두 정사각 피라미드 매핑을 위한 프레임 패킹 구조의 또 다른 예를 나타낸다;
도 15는 시야를 증가시키기 위해, 뒤쪽 뷰의 해상도를 보존하는 더 큰 프레임 패킹 구조가 사용되고 있는 일례를 나타낸다;
도 16은 360도 비디오 프레임을 본원에 기재된 절두 정사각 피라미드의 평면들에 매핑하는 프로세스의 일례를 나타낸다.
도 17은 가상 현실 비디오의 프레임을 디코딩하는 프로세스의 일례를 나타내며, 여기서 프레임을 위한 비디오 데이터는 절두 정사각 피라미드 형상을 사용하여 프레임 내에 패킹된다;
도 18은 360도 가상 환경에서 픽셀들을 매핑하기 위한 또 다른 예시적인 형상을 나타낸다;
도 19는 도 18에 나타낸 피라미드 형상을 위한 프레임 패킹 구조의 일례를 나타낸다;
도 20은 예시적 인코딩 디바이스를 나타내는 블록도이다; 그리고
도 21은 예시적 디코딩 디바이스를 나타내는 블록도이다.

상세한 설명

본 개시의 특정 양태 및 실시 형태들이 이하에 제공된다. 이들 양태 및 실시 형태 중 일부는 독립적으로 적용될 수도 있고 그 중 일부는 당업자에게 명백한 바와 같이 조합하여 적용될 수도 있다. 다음의 상세한 설명에서, 설명의 목적을 위해, 구체적 상세들이 본 발명의 실시 형태들의 철저한 이해를 제공하기 위하여 제시되어 있다. 하지만, 다양한 실시형태들이 이들 구체적인 상세 없이도 실시될 수도 있음이 분명할 것이다. 도면 및 설명은 제한적인 것으로 의도되지 않는다.

다음의 설명은 단지 예시적인 실시 형태들을 제공하며, 본 개시의 범위, 적용가능성 또는 구성을 제한하려도록 의도되지 않는다. 오히려, 예시적 실시형태들의 다음의 설명은 예시적 실시형태를 구현하기 위한 가능한 설명을 당업자에게 제공할 것이다. 첨부된 청구 범위에 제시된 바와 같이 본 발명의 사상 및 범위를 벗어나지 않으면서 요소들의 기능 및 배열에서 다양한 변경이 이루어질 수 있음을 알아야 한다.

구체적 상세들은 실시형태들의 철저한 이해를 제공하기 위하여 다음의 설명에 주어져 있다. 하지만, 이들 특정 상세 없이 실시형태들이 실시될 수도 있음이 당업자에 의해 이해될 것이다. 예를 들면, 회로, 시스템, 네트워크, 프로세스 및 다른 컴포넌트들은, 실시형태들을 불필요한 상세들에서 불분명하게 하지 않기 위하여 블록도 형태의 컴포넌트들로서 보여질 수도 있다. 다른 예들에서, 주지의 회로, 프로세스들, 알고리즘, 구조, 및 기법들은 실시형태들을 불분명하게 하는 것을 피하기 위하여 불필요한 상세 없이 보여질 수도 있다.

또한, 개개의 실시형태들은, 플로우차트, 플로우 도, 데이터 플로우 도, 구조도, 또는 블록도로서 도시되는 프로세스로서 설명될 수도 있다는 것에 유의한다. 비록 플로우차트는 순차적 프로세스로서 동작들을 설명할 수도 있지만, 많은 동작들은 병렬적으로, 또는 동시에 수행될 수 있다. 또한, 동작들의 순서는 재배열될 수도 있다. 프로세스는 그의 동작들이 완료되면 종결되지만, 도에 포함되지 않은 추가의 단계들을 가질 수 있다. 프로세스는 방법 (method), 함수 (function), 프로시저 (procedure), 서브루틴 (subroutine) , 서브프로그램 (subprogram) 등에 대응할 수도 있다. 프로세스가 함수에 대응할 때, 그의 종결은 호출 함수 (calling function) 또는 메인 함수 (main function) 에 대한 함수의 리턴에 대응할 수 있다.

용어 "컴퓨터 판독가능 매체" 는, 휴대 또는 비휴대 저장 디바이스, 광학 저장 디바이스, 및 명령(들) 및/또는 데이터를 저장, 포함 또는 나를 수 있는 다양한 다른 매체를 포함하지만, 이에 한정되지는 않는다. 컴퓨터 판독 가능 매체는 데이터가 저장될 수 있고 반송파 및/또는 무선 또는 유선 접속을 통해 전파되는 일시적 전자 신호를 포함하지 않는 비일시적 매체를 포함할 수도 있다. 비일시적인 매체의 예들은 자기 디스크 또는 테이프, 컴팩트 디스크 (CD) 또는 디지털 다용도 디스크 (DVD) 와 같은 광학 저장 매체, 플래시 메모리, 메모리 또는 메모리 디바이스를 포함할 수도 있으나, 이에 한정되는 것은 아니다. 컴퓨터 판독 가능 매체는, 프로시저, 함수, 서브프로그램, 프로그램, 루틴, 서브루틴, 모듈, 소프트웨어 패키지, 클래스, 또는 명령들, 데이터 구조들 또는 프로그램 세그먼트들의 임의의 조합을 나타낼 수도 있는 코드 및/또는 머신 실행가능 명령들을 저장할 수도 있다. 코드 세그먼트는 정보, 데이터, 아규먼트 (argument), 파라미터, 또는 메모리 콘텐츠를 전달 및/또는 수신하는 것에 의해 또 다른 코드 세그먼트 또는 하드웨어 회로에 연결될 수도 있다. 정보, 아규먼트, 파라미터, 데이터 등은 메모리 공유, 메시지 전달, 토큰 전달, 네트워크 송신 등을 포함하는 임의의 적합한 수단을 통해 전달, 포워딩, 또는 송신될 수도 있다.

또한, 실시형태들은, 하드웨어, 소프트웨어, 펌웨어, 미들웨어, 마이크로코드, 하드웨어 기술 언어, 또는 이들의 임의의 조합에 의해 구현될 수도 있다. 소프트웨어, 펌웨어, 미들웨어 또는 마이크로코드로 구현되는 경우, 필요한 작업을 수행하기 위한 프로그램 코드 또는 코드 세그먼트 (예를 들어, 컴퓨터 프로그램 제품) 은 컴퓨터 판독 가능 또는 머신 판독 가능 매체에 저장될 수도 있다. 프로세서(들)은 필요한 작업들을 수행할 수도 있다.

가상 현실 (VR) 은 겉보기에 현실적 또는 물리적 방식 안에서 상호작용할 수 있는 3차원, 컴퓨터 생성 환경을 기술한다. 일반적으로, 가상 현실 환경을 경험하는 사용자는 헤드 장착 디스플레이 (HMD) 그리고 또한 선택적으로 센서가 달린 글로브와 같은 전자 장비를 사용하여, 가상 환경과 상호 작용한다. 사용자가 현실 세계에서 움직이면, 가상 환경에서 렌더링된 이미지들도 변경되어, 가상 환경 내에서 사용자가 움직이고 있는 인상을 사용자에게 준다. 일부 경우에, 가상 환경에는 사용자의 움직임과 상관되는 사운드가 포함되어, 사운드가 특정 방향이나 소스에서 발생했다는 인상을 사용자에게 준다. 가상 현실 비디오는 매우 높은 품질로 캡처 및 렌더링되며, 잠재적으로 진정 몰입형 가상 현실 경험을 제공할 수 있다. 가상 현실 애플리케이션에는, 특히, 게임, 훈련, 교육, 스포츠 비디오 및 온라인 쇼핑이 포함된다.

가상 현실 시스템은 전형적으로 비디오 캡처 디바이스 및 비디오 디스플레이 디바이스를 포함하고, 가능하게는 또한 서버, 데이터 저장, 및 데이터 송신 장비와 같은 다른 중간 디바이스들을 포함한다. 비디오 캡처 디바이스는 카메라 세트, 즉 각각 다른 방향으로 배향되고 상이한 뷰를 캡처하는 다수의 카메라들의 세트를 포함할 수도 있다. 카메라 세트의 위치를 중심으로 전체 360도 뷰를 캡처하는 데는 겨우 6 대의 카메라들이 사용될 수 있다. 일부 비디오 캡처 디바이스들은, 예를 들어 주로 측 대 측 (side-to-side) 뷰들을 캡처하는 비디오 캡처 디바이스와 같이 더 적은 수의 카메라를 사용할 수도 있다. 비디오는 일반적으로 프레임들을 포함하며, 프레임은 장면의 전자적으로 코딩된 스틸 이미지이다. 카메라는 초당 특정 수의 프레임을 캡처하는데, 이는 일반적으로 카메라의 프레임 레이트라고 한다.

심리스한 360도 뷰를 제공하기 위해, 카메라 세트내 각각의 카메라들에 의해 캡처된 비디오는 통상적으로 이미지 스티칭을 받는다. 360도 비디오 생성의 경우에 이미지 스티칭은 비디오 프레임들이 오버랩거나 또는 그렇지 않으면 연결되는 구역에 있는 인접한 카메라들로부터의 비디오 프레임들을 결합하거나 또는 병합하는 것을 수반한다. 결과는 대략 구형 프레임이지만 Mercator 투영과 유사하게, 병합된 데이터는 통상적으로 평면 방식으로 표현된다. 예를 들어, 병합된 비디오 프레임 내의 픽셀들은 큐브 형상 또는 기타 3 차원, 평면 형상 (예를 들어, 피라미드, 팔면체, 십면체 등) 의 평면들 상으로 매핑될 수도 있다. 비디오 캡처 및 비디오 디스플레이 디바이스는 일반적으로 래스터 원리 - 비디오 프레임이 픽셀들의 그리드로 처리됨을 의미- 에서 동작하므로, 일반적으로 정사각 또는 직사각형 평면은 통상적으로 구형 환경을 표현하는데 사용된다.

평면 표현으로 매핑된 가상 현실 비디오 프레임들은 저장 및/또는 송신을 위해 인코딩 및/또는 압축될 수 있다. 인코딩 및/또는 압축은 비디오 코덱 (예 : MPEG 코덱, H.265/HEVC 코덱, H.264/AVC 코덱 또는 다른 적합한 코덱) 을 사용하여 성취될 수 있으며 압축 비디오 비트스트림 또는 비트스트림들의 그룹을 낳는다. 비디오 코덱을 사용하는 비디오 데이터의 인코딩은 이하에서 더 상세하게 설명된다.

인코딩된 비디오 비트스트림(들)은 미디어 형식으로 저장 및/또는 캡슐화될 수 있다. 저장된 비트스트림(들)은 예를 들어 네트워크를 통해 비디오 디스플레이 디바이스로 송신될 수 있다. 예를 들어, 가상 현실 시스템은 (예를 들어, 국제 표준화기구 (ISO) 베이스 미디어 파일 형식 및/또는 파생 파일 형식을 사용하여) 인코딩된 비디오 데이터로부터 캡슐화된 파일을 생성할 수 있다. 예를 들어, 비디오 코덱은 비디오 데이터를 인코딩할 수 있으며 캡슐화 엔진은 하나 이상의 ISO 형식 미디어 파일에서 비디오 데이터를 캡슐화하여 미디어 파일을 생성할 수 있다. 선택적으로 또는 부가적으로, 저장된 비트스트림(들)은 저장 매체로부터 수신기 디바이스로 직접 제공될 수 있다.

수신기 디바이스는 또한 인코딩된 비디오 비트스트림을 디코딩 및/또는 압축해제하기 위한 코덱을 구현할 수 있다. 일부 예에서, 수신기 디바이스는 캡슐화된 비디오 데이터를 갖는 미디어 파일을 파싱 (parsing) 하여 인코딩된 비디오 데이터를 생성할 수 있다. 예를 들어, 수신기 디바이스는 캡슐화된 비디오 데이터를 갖는 미디어 파일을 파싱하여 인코딩된 비디오 데이터를 생성할 수 있으며, 수신기 디바이스내의 코덱은 인코딩된 비디오 데이터를 디코딩할 수 있다.

그러면, 수신기 디바이스는 디코딩된 비디오 신호를 렌더링 디바이스 (예를 들어, 비디오 디스플레이 디바이스) 로 전송할 수 있다. 렌더링 디바이스들에는 예를 들어, 헤드 장착 디스플레이, 가상 현실 텔레비전, 및 다른 180 또는 360도 디스플레이 디바이스들이 포함된다. 일반적으로, 헤드 장착 디스플레이는 착용자의 머리의 움직임 및/또는 착용자의 눈의 움직임을 추적할 수 있다. 헤드 장착 디스플레이는 추적 정보를 사용하여 착용자가 보고 있는 방향에 대응하는 360도 비디오의 부분을 렌더링하여, 착용자가 현실 세계를 경험하는 것과 같은 방식으로 가상 환경을 경험할 수 있다. 렌더링 디바이스는 비디오가 캡처된 동일한 프레임 레이트 또는 상이한 프레임 레이트로 비디오를 렌더링할 수도 있다.

뷰어에게 몰입감 경험을 제공하기 위해, 고품질 및 높은 프레임 레이트로 가상 현실 비디오 콘텐츠 (360도 비디오 콘텐츠라고도 함) 가 생성된다. 그러나 고해상도 및 높은 프레임 레이트로 캡처된 비디오는 많은 양의 데이터를 필요로 할 수 있다. 인간의 시각 시스템은 시야 (FOV) 의 60 PPD (pixels-per-degree) 에 이르기까지 구별할 수 있으며, 일반인은 모든 방향에서 거의 180도를 볼 수 있다. Table 1 표 1은 여러 디스플레이 디바이스들의 예, 각 디바이스가 제공하는 대략적인 시야, 각 디바이스에 대한 해상도 예 및 각 디바이스가 360도 비디오 경험을 제공하는 데 필요로 하는 동등한 해상도를 제공한다.

표 1에 나타낸 바와 같이, 1920 픽셀 폭이고 1080 픽셀 높이이며, 48 ppi (pixels-per-inch) 를 사용할 수도 있는 현대의 40” 텔레비전은 평균적인 뷰어에게 충분히 현실적인 화상을 제공할 수도 있지만, 약 30°시야로 제한된다. 48 ppi 텔레비젼을 360도 비디오 해상도로 확장하려면 해상도 크기를 7680 x 2160 픽셀 폭 및 높이 (텔레비전에서 90도 시야로 디스플레이된 비디오를 가정) 로 확장하는 것이 필요하다. 이 화상은 8 배 크기 때문에, 각 비디오 프레임을 표현하는데 8 배 많은 데이터가 또한 필요하다. 대조적으로, 헤드 장착 디스플레이는 눈당 2.5" x 2.5" 인 스크린을 가질 수도 있지만, 스크린 당 2160ppi 에서, 5400 x 5400 의 해상도를 가질 수도 있다. 이 헤드 장착 디스플레이 해상도를 360도 비디오 해상도로 확장하려면 21600 x 10800 픽셀 높이 및 폭의 해상도와 이에 대응하여 프레임 당 많은 양의 비트가 필요하다.

비디오 콘텐츠는 종종, 예를 들어, 가정용 텔레비전 수신기, 컴퓨터, 태블릿 컴퓨터, 핸드헬드 디바이스 또는 다른 디스플레이 디바이스로 송신된다. 비디오 콘텐츠는 또한 일반적으로, 디스플레이 디바이스로 송신될 수도 있는 서버 또는 데이터 센터에 저장된다. 가상 현실 비디오 콘텐츠의 고해상도 및 높은 프레임 레이트로 인해, 가상 현실 비디오의 저장 및 송신은 비디오 콘텐츠가 효율적으로 표현되는 것을 필요로 한다. 또한, 일부 디코딩 디바이스들은 비디오 프레임이 특정 크기로 제한되는 것을 필요로 할 수도 있다. 예를 들어, 일부 디코더는 하나의 비디오 프레임의 해상도가 1920x1080 또는 3840x2160 픽셀 크기 이하일 것을 필요로 한다.

한 가지 솔루션은 전체 360도 콘텐츠를 뷰어에게 송신하는 것이다. 이 경우에, 뷰어가 특정 방향을 바라보고 있더라도, 모든 가능한 뷰포트 (viewport) 들이 뷰어에 동시에 이용가능하다. 뷰어가 바라보는 방향을 일반적으로 뷰포트라고하며, 뷰어가 이 뷰포트로부터 볼 수 있는 콘텐츠를 일반적으로 시야라고 한다. 그러나 뷰어에게 전체 360 도 비디오 콘텐츠를 제공하는 것은 가능하게는 디코더 디바이스에 의해 효율적으로 송신되거나 또는 디코딩될 수 있는 것보다 더 많을 수 있는 많은 양의 데이터가 필요할 수도 있다. 또한 전체 360도 비디오는 뷰어에게 임의의 주어진 순간에 뷰어가 볼 수 있는 것보다 더 많은 것을 제공할 수도 있다.

또 다른 솔루션은 뷰어의 현재 뷰포트에 대해 콘텐츠로 송신되는 콘텐츠를 제한하는 것이다. 뷰어의 헤드 위치가 변경되면, 상이한 뷰포트를 위한 콘텐츠가 송신될 수 있다. 뷰포트들간의 갭을 피하기 위해, 하나 이상의 추가 뷰포트들을 위한 콘텐츠가 뷰어에 동시에 송신될 수도 있다. 이 대안은 송신 대역폭을 감소시킬 수도 있지만, 갭 필링 뷰포트들이 더 낮은 품질, 더 낮은 해상도 및/또는 더 낮은 프레임 레이트를 가질 수도 있으며, 이는 일부 뷰어들에게 두드러질 수도 있다.

또 다른 해결책이 도 1에 나타나있다. 도 1은 가상 현실 비디오 캡처 디바이스에 의해 캡처된 픽셀들을 포함하는 구 (100) 에 의해 표현되는 가상 환경의 일례를 나타낸다. 이 예에서, 구 (100) 내의 픽셀은 큐브 형상 (110) 의 6개 면들에 의해 제공되는 6개 면들 상에 매핑되고, 여기서 6개 면들은 앞쪽 (112), 왼쪽 (114), 오른쪽 (116), 뒤쪽 (118), 위쪽 (120) 및 하단 (122) 으로 지정되었다. 이 지정들은 특정 비디오 프레임을 볼 때 뷰어가 보고 있는 방향을 기술한다. 다양한 구현에서, 다른 3 차원 형상들이 구형 프레임 데이터를 표현하기 위해 사용될 수 있다. 이 예에서, 6개 면들은 전체 프레임 비디오를 나타낸다; 즉, 큐브 (110) 의 에지에서 충실도의 손실을 최소화하면서, 모든 360 도의 뷰가 표현된다.

위에서 그리고 아래에서 더 상세히 논의되는 바와 같이, 전체 프레임 비디오는 많은 양의 데이터를 포함할 수도 있다. 또한 비디오의 전체 프레임에는 임의의 주어진 순간에 뷰어가 볼 수 있는 것보다 많은 데이터가 포함될 수도 있다. 따라서, 다양한 구현에서, 도 1의 큐브 (110) 에 의해 제공된 6 개의 면은 절두 정사각 피라미드 형상 (130) 에 의해 제공된 6개 면들에 매핑될 수 있다. 절두 정사각 피라미드는 정사각 베이스가 있고 베이스에 수직하게 절단된 상단이 있는 피라미드이다. 수학적으로, 절두 정사각 피라미드 (truncated square pyramid) 는 정사각 피라미드를 위한 피라미드형 절두체 (pyramidal frustum) 로 기술된다.

이 예에서, 절두 정사각 피라미드 (130) 의 베이스 (132) 는 앞쪽 (112) 으로 지정된 큐브 (110) 의 측면과 정렬되도록 배향되어, 큐브 (110) 의 앞쪽 (112) 을 표현하는 평면이 절두 정사각 피라미드 (130) 의 베이스 (132) 에 의해 표현되는 평면 상으로 매핑될 수 있다. 또한, 큐브의 뒤쪽 (118) 을 표현하는 평면은 절두 정사각 피라미드 (130) 의 상단 (138) 를 표현하는 평면 상에 매핑될 수 있고, 큐브 (110) 의 왼쪽 (114), 오른쪽 (116), 위쪽 (120) 및 하단 (122) 평면들의 각각이 절두 정사각 피라미드 (130) 의 측면들을 표현하는 대응하는 평면 상에 매핑될 수 있다.

절두 정사각 피라미드 (130) 의 베이스 (132) 평면은 큐브 (110) 의 앞쪽 (112) 평면처럼 많은 데이터를 포함할 수도 있지만, 절두 정사각 피라미드 (130) 의 상단 (138) 평면은 큐브 (110) 의 뒤쪽 (118) 평면보다 훨씬 더 적은 데이터를 포함할 수 있다. 앞쪽 (112) 뷰는 뷰어가 보고 있는 방향이기 때문에, 전체 프레임 데이터가 보존되어야 하지만, 뷰어는 뒤쪽 (118) 뷰를 볼 수 없을 것 같으므로, 뒤쪽 (118) 뷰를 위해 더 적은 데이터가 저장될 수 있다. 그러나, 아래에서 더 설명되는 바와 같이, 뒤쪽 (118) 뷰는, 예를 들어, 뷰의 천이가 더욱 매끄러울 수 있도록, 완전히 제거되지는 않는다.

사다리꼴 형상으로 인해, 절두 정사각 피라미드 (130) 의 좌측 (134), 우측 (136), 상측 (140) 및 하단측 (142) 평면들 각각은 또한 큐브 형상 (110) 에 의해 제공된 대응 평면들보다 더 적은 데이터를 포함할 가능성이 있다. 더 많은 데이터가 앞쪽 (112) 뷰의 방향으로 보존되는 반면, 더 적은 데이터가 뒤쪽 (118) 뷰의 방향으로 보존된다. 구형 프레임 데이터를 매핑하기 위한 기초로서 절두 정사각 피라미드 (130) 형상을 사용함으로써, 전체 프레임 표현에 대한 비디오 프레임의 크기를 감소시킬 수 있다. 일반적으로, 절두 정사각 피라미드 (130) 의 치수를 변경함으로써, 예를 들어, 절두 정사각 피라미드 (130) 의 상단 (138) 평면의 크기를 증가 또는 감소시킴으로써, 크기 감소가 조정될 수 있다.

정사각 평면형 데이터를 큐브 (110) 형상으로부터 절두 정사각 피라미드 (130) 에 의해 제공되는 평면들 상으로 매핑하는 것은 압축, 필터링 및/또는 다운샘플링 방법을 사용하여 달성될 수 있다. 예를 들어, 절두 정사각 피라미드 (130) 의 상단 (138) 평면은, 큐브 (110) 의 뒤쪽 (118) 평면과 동일하지만 보다 낮은 해상도 또는 품질의 뷰를 포함할 수도 있다. 유사하게, 절두 정사각 피라미드 (130) 의 왼쪽 (134), 오른쪽 (136), 위쪽 (140) 및 하단 (142) 평면들은 또한, 큐브 (110) 의 대응하는 평면과 동일하지만 감소하는 해상도를 갖는 뷰를 포함한다. 구체적으로, 해상도 또는 품질은 감소할 수도 있으며, 가장 높은 해상도는 절두 정사각 피라미드의 베이스 (132) 의 방향에 있고 가장 낮은 해상도는 절두 정사각 피라미드 (130) 의 상단 (138) 쪽이다. 다운샘플링은, 예를 들어, 왼쪽(134), 오른쪽 (136), 위쪽 (140) 및 하단 (142) 평면들의 사다리꼴 형상의 베이스 에지로부터 상단 에지로 감소하는, 점차적인 방식으로 적용될 수 있다.

일부 구현들에서, 가상 환경의 큐브 형상 표현에 의해 제공되는 6개 뷰들 각각에 대해 하나의 절두 정사각 피라미드 매핑이 제공될 수 있다. 예를 들어, 도 1의 예에서, 절두 정사각 피라미드 (130) 는 절두 정사각 피라미드의 베이스 (132) 가 큐브 (110) 의 앞쪽 (112) 면을 향해 배향되게 배향되었다. 이 배향은 뷰어가 이 예에서 앞쪽 (112) 으로 지정된 방향을 보고 있다고 가정한다. 전술한 바와 같이, 비디오 프레임 데이터의 매핑은 절두 정사각 피라미드 (130) 의 면들에 의해 제공된 평면들을 사용하여 결정될 수 있다. 이 배향에서, 절두 정사각 피라미드 (130) 는 앞쪽 (112) 이 최고 품질을 갖고 뒤쪽 (118) 뷰가 최저 품질을 갖는 매핑을 제공한다.

절두 정사각 피라미드 (130) 는 또한 베이스 (132) 가 큐브 (110) 의 왼쪽 (114) 면을 향해 배향되게 배향될 수 있다. 이 배향은 뷰어가 이 예에서 왼쪽 (114) 으로 표기된 방향을 보고 있다고 가정한다. 동일한 비디오 프레임 데이터의 매핑은 이 배향에서 결정될 수 있으며, 왼쪽 (114) 뷰가 가장 높은 품질을 가지며 오른쪽 (116) 뷰가 가장 낮은 품질을 갖는 매핑을 제공한다.

유사한 매핑이, 베이스 (132) 가 오른쪽 (116) 뷰, 뒤쪽 (118) 뷰, 위쪽 (120) 뷰, 및 하단 (122) 뷰를 향하여 배향되게 절두 정사각 피라미드 (130) 로 획득되어, 총 6 개의 매핑이 360도 비디오 데이터의 동일한 프레임에 대해 획득될 수 있다. 6 개의 매핑을 가짐으로써 뷰어가 보고 있는 방향에 관계없이 비디오 데이터가 주어진 비디오 프레임에 대해 가장 높은 가용 품질을 제공하는 것을 가능하게 한다.

다양한 구현에서, 6 개보다 많거나 적은 매핑이 사용될 수도 있다. 예를 들어, 일부 구현에서, 하나의 비디오 프레임은 바로 앞쪽 (112) 뷰, 또는 바로 앞쪽 (112), 왼쪽 (114) 및 오른쪽 (116) 뷰들에 매핑될 수도 있다. 일부 구현에서, 주어진 비디오 프레임에 대해 사용된 매핑의 수는 비디오 프레임의 콘텐츠에 맞추어질 수도 있다. 예를 들어, 일부 경우에, 뷰어가 결코 위 또는 아래를 볼 수 없다고 가정될 수도 있다. 다른 예로서, 일부 구현에서, 오버랩핑 매핑이 사용될 수도 있다. 예를 들어, 절두 정사각 피라미드 (130) 의 베이스 (132) 가 앞쪽 (112) 과 왼쪽 (114) 뷰들 사이에서 45도 각도로 배향된 상태로 매핑이 결정될 수도 있다. 이러한 구현에서, 구형 데이터의 보다 나은 표현이 획득될 수도 있다.

절두 정사각 피라미드 매핑은 또한 임의의 주어진 순간에 뷰어에게 제공될 필요가 있는 데이터의 양을 최소화하는데 사용될 수도 있다. 예를 들어, 송신 디바이스는 뷰어에게 하나의 절두 정사각 피라미드 매핑을 제공할 수도 있고, 여기서 절두 정사각 피라미드 매핑은 뷰어가 현재 보고있는 방향에 대응한다. 뷰어가 그의 머리를 왼쪽으로 돌리면, 송신 디바이스는 제 2 절두 정사각 피라미드 매핑 (예를 들어, 왼쪽 뷰를 향해 배향된 것) 으로 전환할 수 있다. (예를 들어, 네트워크 지연, 프레임내 기간 또는 기타 이유로 인해) 제 2 절두 정사각 피라미드 매핑의 송신이 지연될 경우, 뷰어에게 제 2 절두 정사각 피라미드가 이용가능할 때까지 제 1 절두 정사각 피라미드 매핑이 제시될 수도 있다. 뷰어의 헤드 위치 및 절두 정사각 피라미드 맵에 따라, 뷰어는 제 2 절두 정사각 피라미드 맵이 수신될 때까지 보다 낮은 품질을 경험할 수도 있다.

도 2a는 가상 현실 환경의 구형 표현의 픽셀들을 등장방형 (equirectangular), 평면 표현으로 매핑하는데 사용될 수 있는 레퍼런스 좌표계를 나타낸다. 일부 구현에서, 구형 데이터의 등장방형 표현은 절두 정사각 피라미드의 면들에 의해 제공된 평면들에 데이터를 매핑하는데 사용될 수도 있다.

이 예에서, 비디오 픽셀들을 제공하는 구 (200) 에는 구 (200) 의 표면상의 3 차원 좌표를 표현하기 위해 사용될 수 있는 x 축, y 축 및 z 축이 제공된다. 본 예의 목적을 위해, 평면 (210) 은 x 축이 구 (200) 의 표면과 교차하는 (원 (202) 으로 표시된) 지점에 중심을 두고, x 축에 수직하게 배향된다. 이 배열이 주어지면, 도 2a의 구 (200) 로부터의 픽셀들은 다음 수식을 사용하여 평면 (210) 에 매핑될 수 있다:

상기에서, θ (204) 를 위한 수식은 구 (200) 의 중심과 평면 (210) 의 표면 사이의 선 (208) (예를 들어, 도 2a 에서의 점선 (208)) 으로서 시각화될 수 있으며, 선 (208) 은 θ = -π에서 π 로 (예 : 약 -3.1415 에서 3.1415 로) 회전하고, x 축은 θ = 0 이다. θ (204) 의 임의의 주어진 값에서, 선 (208) 이 구 (200) 와 교차하는 지점의 픽셀은 선 (208) 이 평면 (210) 과 접촉하는 (θ (204) 의 동일한 값에 대해) 대응하는 지점으로 선택 및 매핑될 수 있다. 유사하게,

(206) 를 위한 수식은 구 (200) 의 중심으로부터 평면 (210) 의 표면까지 선 (210) 으로서 시각화될 수 있고, 여기서 선 (210) 은 -π/2에서 π/2로 (예를 들어, 약 -1.57 에서 1.57 로) 회전하고, x와 y 축에 의해 형성된 평면은

= 0이다.

(206) 의 임의의 주어진 값에서, 선 (210) 이 구 (200) 와 교차하는 지점의 픽셀은 선 (210) 이 평면 (210) 과 접촉하는 (

의 동일한 값에 대해) 대응하는 지점으로 선택 및 매핑될 수 있다. 구 (200) 내의 모든 픽셀은 θ 및

를 동시에 회전시킴으로써 평면 (210) 에 매핑될 수 있다.

도 2b는 전술된 수식 및 방법을 이용하여, 등장방형 평면에 매핑된 비디오 프레임의 예를 나타낸다. 결과는 예를 들어, Mercator 투영 또는 등거리 원통 투영과 유사하다. 이 예에서 나타낸 바와 같이, θ (204) 를 위한 위의 수식은 구에서 평면으로의 수평 트랜스레이션 (translation) 을 제공하고

(206) 를 위한 수식은 수직 트랜스레이션을 제공한다. 도 2b는 또한 전체 비디오 프레임의 일례를 나타내며, 여기서 세계의 구형 표현으로부터의 각각의 픽셀은 평면 표현에서 캡처되었다.

위에서 언급했듯이, 고해상도로 캡처한 가상 현실 비디오의 전체 프레임에는 많은 양의 데이터가 포함될 수 있는데, 이들 전부가 주어진 순간에 필요한 것은 아닐 수도 있다. 위에서 언급했듯이, 비디오 데이터의 큐브 형상 표현을 절두 정사각 피라미드 형상으로 매핑하면 저장 및 전송이 더 쉬울 수도 있는 양으로 데이터의 양을 줄일 수 있다. 도 3은 절두 정사각 피라미드 형상으로 매핑된 비디오 데이터의 프레임을 위한 프레임 패킹 구조 (300) 의 일례를 나타낸다. 프레임 패킹 구조는 비디오 프레임을 위한 데이터를 비디오 디코더에 의해 저장, 전송 및 프로세싱될 수 있는 데이터의 단일 블록으로 패킹하기 위한 형식을 정의할 수 있다. 즉, 프레임 패킹 구조는 어느 데이터가 데이터 블록에서 어느 지점에 위치해야 하는지를 나타낼 수 있다. 다양한 구현에서, 도 3에 나타낸 바와 같은 프레임 패킹 구조에 따라 패킹된 프레임은 프레임에서 사용되는 패킹 구조를 나타내는 정보 (예를 들어, 플래그, 필드 및/또는 코드) 를 포함할 수 있다. 디코딩 디바이스는 표시된 패킹 구조를 사용하여, 프레임을 표현하는 데이터 블록에서 특정 지점에 위치한 비디오 데이터를 식별할 수 있다.

전술한 바와 같이, 절두 정사각 피라미드는 베이스 평면, 상단 평면, 왼쪽 평면, 오른쪽 평면, 위쪽 평면 및 하단 평면을 갖는다. 위에서 논의된 바와 같이, 절두 정사각 피라미드의 각각의 평면은 가상 현실 비디오 프레임의 특정 뷰와 연관될 수 있다. 특히, 베이스 평면은 앞쪽 (312) 뷰로서 지정될 수 있고, 상단 평면은 뒤쪽 (338) 뷰로 지정될 수 있고, 왼쪽 평면은 왼쪽 (334) 뷰로서 지정될 수 있으며, 오른쪽 평면은 오른쪽 (336) 뷰로서 지정될 수 있고, 위쪽 평면은 위쪽 (340) 뷰로 지정될 수 있고, 하단 평면은 하단 (342) 뷰로 지정될 수 있다. 이러한 지정들을 사용하여, 앞쪽 (312) 뷰는 뷰어가 바라보고 있는 것으로 가정되는 방향이기 때문에 "앞쪽" 으로 고려되며, 왼쪽 (344) 뷰는 뷰어의 왼쪽에 있고 오른쪽 (348) 뷰는 뷰어의 오른쪽에 있다.

도 3의 예에서, 왼쪽 (334), 오른쪽 (336), 위쪽 (340) 및 하단 (342) 뷰를 위한 데이터는 뒤쪽 (338) 뷰를 위한 데이터 주위에 패킹되었다. 특히, 왼쪽 (334) 뷰는 (뒤쪽 (338) 이 여기서 미러 이미지로 보이기 때문에 뒤쪽 (338) 뷰의 오른쪽 에지처럼 보이는) 뒤쪽 (338) 뷰의 왼쪽 에지에 인접하게 배치되었다. 유사하게, 오른쪽 (336) 뷰는 뒤쪽 (338) 뷰의 오른쪽 에지에 인접하게 배치되었다. 위쪽 (340) 뷰가 뒤쪽 (338) 뷰 위에 패킹되었고, 하단 (342) 뷰가 뒤쪽 (338) 뷰 아래에 패킹되었다. 일부 경우에, 왼쪽 (334), 오른쪽 (336), 위쪽 (340) 및 하단 (342) 데이터는 정사각 또는 직사각형 데이터 블록에 들어맞게 워핑 (warping) 될 수도 있다. 다양한 구현에서, 뒤쪽 (338) 뷰의 크기가 또한 조정될 수 있다. 예를 들어, 뒤쪽 (338) 뷰는 앞쪽 (312) 뷰의 크기의 1/4 또는 1/16 일 수 있다. 결합된 왼쪽 (334), 오른쪽 (336), 위쪽 (340), 하단 (342) 그리고 뒤쪽 (338) 데이터는 프레임 패킹 구조 (300) 내에, 전체 해상도로 보존되는 앞쪽 (312) 을 위한 데이터의 옆에 패킹될 수 있다. 이러한 예시적인 프레임 패킹 구조 (300) 를 사용하여, 프레임을 위한 데이터는 직사각형 형상의 데이터 블록내에 패킹될 수 있다.

왼쪽 (334), 오른쪽 (336), 위쪽 (340) 및 하단 (342) 뷰를 뒤쪽 (338) 뷰에 대한 그들의 배향에 따라 패킹하는 것은 각 뷰간의 (예를 들어, 왼쪽에서부터 뒤쪽으로, 뒤쪽으로부터 오른쪽으로, 오른쪽으로부터 위쪽으로, 위쪽으로부터 왼쪽으로 등) 매끄러운 천이를 제공할 수 있다. 예를 들어, 이 예시적인 프레임 패킹 구조 (300) 에 따라 패킹된 프레임이 인코딩될 때, 인코딩 프로세스는 뷰들 사이의 천이들에서 더 적은 왜곡들을 생성할 수도 있다. 가능한 왜곡을 더 줄이기 위해, 프레임 패킹 구조 (300) 는, 프레임 패킹 구조 (300) 의 외부 에지 주위에 추가의, 가능하게는 중복 비디오 데이터가 패킹될 수 있도록, 에지들 주위로 확장될 수 있다. 프레임 팩킹 구조 (300) 에 대한 확장은 도 3에서 점선으로 나타나있다.

전술한 바와 같이 패킹되고나면, 비디오 데이터의 프레임은 저장 및/또는 송신을 위해 프로세싱될 수 있다. 예를 들어, 프레임을 인코딩, 압축 및/또는 캡슐화할 수 있다. 가상 현실 비디오 데이터의 각 프레임은 유사한 방식으로 패킹될 수 있고, 패킹된 프레임들은 비트스트림에서 순차적으로 패킹될 수 있다. 비트스트림은 저장 및/또는 송신될 수 있다.

도 4는, 저장 및 전송될 수 있는 데이터 블록에 비디오 데이터를 저장하는데 사용될 수 있는 프레임 패킹 구조 (400) 의 또 다른 예를 나타낸다. 이 예에서, 위쪽 (440) 및 하단 (442) 뷰들 각각의 절반은 왼쪽 (444) 뷰 또는 오른쪽 (446) 뷰 중 어느 일방과 함께, 뒤쪽 (448) 뷰의 절반 주위에 (가능하게는 데이터를 워핑함으로써) 패킹되었다. 보다 구체적으로, 위쪽 (440) 뷰의 왼쪽 절반 (Up_L) 과 하단 (442) 뷰의 왼쪽 절반 (Bottom_L) 은, 뒤쪽 (448) 뷰에 대한 그들의 상대적인 위치에 따라 배향되게, 뒤쪽 (448) 뷰의 왼쪽 절반 (Back_L) 주위에 왼쪽 (444) 뷰와 함께 패킹되었다. 유사하게, 위쪽 (440) 뷰의 오른쪽 절반 (Up_R) 과 하단 (442) 뷰의 왼쪽 절반 (Bottom_R) 이 뒤쪽 (448) 뷰의 오른쪽 절반 (Back_R) 주위에 오른쪽 (446) 뷰와 함께 패킹되었다. 이렇게 패킹되면, 왼쪽 (444) 뷰는 프레임 (400) 내에 앞쪽 뷰 (412) 에 인접하게 그리고 앞쪽 뷰 (412) 의 왼쪽에 패킹된다. 유사하게, 오른쪽 (446) 뷰는 앞쪽 (412) 뷰에 인접하게 그리고 앞쪽 뷰 (412) 의 오른쪽에 패킹된다. 앞쪽 (412) 뷰는 전체 해상도로 보존된다.

다른 패킹 방법들이 가능하지만, 이 예에서, 연속성을 향상시키기 위해 왼쪽 (444) 및 오른쪽 (446) 뷰가 앞쪽 (412) 뷰의 왼쪽 및 오른쪽에 각각 배치되었다. 이 예에서, 예시적인 프레임 패킹 구조 (400) 를 사용한 인코딩 프레임 패킹은 코딩 프로세스가 왼쪽 (444) 및 오른쪽 (446) 뷰들과 앞쪽 (412) 뷰 사이의 경계를 가로 지르기 때문에 더 적은 경계 왜곡을 생성할 수도 있다. 경계 아티팩트는 또한, 프레임의 에지가 더 많은 비디오 데이터를 포함하도록, 프레임 패킹 구조 (400) 의 에지들을 확장함으로써 감소될 수 있다. 도 4에서, 확장된 에지는 점선으로 나타나있다.

도 3 및 도 4는 절두 정사각 피라미드 형상으로 매핑된 비디오 데이터의 프레임이 저장 및/또는 송신을 위해 프레임내에 패킹될 수 있는 방식들 중 단지 2개의 예를 제공한다. 여러 뷰들은 상이한 요구 또는 우선순위를 충족시키기 위해 상이한 방식으로 워핑되거나, 나뉘거나 및/또는 패킹될 수 있다. 예를 들어, 일부 경우에, 왼쪽에서 오른쪽으로의 천이이 더 중요한 반면, 다른 경우에 위쪽에서 하단으로의 천이가 더 중요하다. 다양한 구현에서, 동일한 비디오 스트림으로부터의 상이한 프레임들은 상이한 방식으로 패킹될 수 있다. 이러한 구현들에서, 이들 프레임들로부터 생성된 비트스트림은 프레임들이 어떻게 패킹되었는지를 나타내는 식별자들을 포함할 수도 있다.

도 5는 도 3에 나타낸 예시적인 프레임 패킹 구조에 따라 패킹된 비디오 프레임 (500) 의 일례를 나타낸다. 도 5의 예에서, 360도 비디오의 프레임 (500) 은 절두 정사각 피라미드의 평면들에 매핑되었다. 다음으로, 앞쪽 (532), 왼쪽 (534), 오른쪽 (536), 뒤쪽 (538), 위쪽 (540) 및 뒤쪽 (542) 뷰들의 각각을 위한 데이터가 도 3에 나타낸 패킹 구조에 따라 패킹되었다. 구체적으로, 도 5에서, 왼쪽 (534), 오른쪽 (536), 위쪽 (540) 및 하단 (542) 뷰들은 뒤쪽 (538) 뷰에 대한 그들의 위치에 따라 뒤쪽 (538) 뷰 주위에 패킹되었다. 즉, 왼쪽 (534) 뷰는 뒤쪽 (538) 뷰의 왼쪽 에지에 인접하게 배치되고 오른쪽 (536) 뷰는 뒤쪽 뷰 (538) 의 오른쪽 에지에 인접하게 배치된다. 유사하게, 위쪽 (540) 뷰는 뒤쪽 (538) 뷰의 위쪽 에지에 인접하게 배치되고 하단 (542) 뷰는 뒤쪽 (538) 뷰의 하부 에지에 인접하게 배치된다. 결합된 왼쪽 (534), 오른쪽 (536), 뒤쪽 (538), 위쪽 (540) 및 하단 (542) 뷰는 프레임 내에, 전체 해상도로 프레임 (500) 내에 패킹된, 앞쪽 (532) 뷰의 옆에 패킹된다.

도 6은 도 4에 나타낸 예시적인 프레임 패킹 구조에 따라 패킹된 비디오 프레임 (600) 의 일례를 나타낸다. 도 6의 예에서, 360도 비디오의 프레임 (600) 은 절두 정사각 피라미드의 평면들에 매핑되었다. 이 예에서 왼쪽 (634), 오른쪽 (636), 위쪽 (640) 및 하단 (642) 뷰들을 위한 데이터가 뒤쪽 (638) 뷰 주위에 패킹되었고 결과적인 데이터가 절반으로 분할되었다. 절반들은 또한, 프레임 (600) 내에 앞쪽 (612) 뷰에 인접하게 패킹되었다. 구체적으로, 위쪽 (640) 뷰의 왼쪽 절반과 하단 (642) 뷰의 왼쪽 절반이 뒤쪽 (638) 뷰의 왼쪽 절반 주위에 왼쪽 (634) 뷰와 함께 패킹되었다. 다음으로, 결합된 "왼쪽" 뷰들은, 왼쪽 (634) 뷰가 전체 해상도로 패킹된 앞쪽 (612) 뷰의 왼쪽 에지에 인접하도록 프레임 (600) 내에 패킹된다. 유사하게, 위쪽 (640) 뷰의 오른쪽 절반과 하단 (640) 뷰의 오른쪽 절반이 뒤쪽 (638) 뷰의 오른쪽 절반 주위에 오른쪽 (636) 뷰와 함께 패킹되었다. 다음으로, 결합된 "오른쪽" 뷰들은, 오른쪽 (636) 뷰가 앞쪽 (612) 뷰에 인접하도록 프레임 (600) 내에 패킹된다. 결과적인 패킹된 데이터 프레임 (600) 은 뷰포트가 수평으로 이동함에 따라 더 나은 수평 천이를 제공할 수도 있다.

사용된 프레임 패킹 구조에 관계없이, 절두 정사각 피라미드 매핑은 앞쪽 뷰에서 뒤쪽 뷰로의 품질의 더 매끄러운 천이를 제공할 수도 있다. 도 7은 절두 정사각 피라미드 지오메트리에 따라 비디오 프레임 (700) 이 패킹된 경우에 본 품질 (750) 척도의 일례를 제공하는 그래프를 나타낸다. 이 예에서, 그래프는 프레임 (700) 이 앞쪽 (712) 뷰에서 오른쪽 (716) 뷰로 뒤쪽 (718) 뷰로 보여짐에 따라 검출 가능한 품질 (750) 을 나타낸다. 앞쪽 (712) 에서 오른쪽 (716) 으로 뒤쪽 (718) 으로의 천이가 예로서 제공되고, 품질 (750) 변화는 앞쪽에서 왼쪽으로 뒤쪽으로, 앞쪽에서 위쪽으로 뒤쪽으로, 그리고 앞쪽에서 하단으로 뒤쪽으로의 천이에도 적용된다.

도 7에 나타낸 그래프에서, 품질 (750) 은 예를 들어 이미지 해상도의 변화로 인한 것일 수도 있는, 이미지의 두드러진 변화로서 측정된다. 그래프의 수평축은 뷰가 갱신될 때의 품질 (750) 변화를 나타낸다. 그래프의 선 (754) 은 프레임 (700) 이 절두 정사각 피라미드에 따라 매핑될 때 검출 가능한 품질 (750) 을 나타낸다. 나타낸 바와 같이, 선 (752) 은 앞쪽 (712) 에서 오른쪽 (716) 으로 뷰가 천이함에 따라 품질 (750) 의 점진적인 변화가 인지될 수도 있음을 나타낸다. 더욱이, 일관된, 하지만 더 낮은, 품질 (750) 이 뒤쪽 (718) 뷰에서 인지될 수도 있다. 따라서, 절두 정사각 피라미드 매핑은 더 심리스하고 현실적인 뷰잉 경험을 제공할 수도 있다.

그래프 (750) 는 비디오 프레임이 여기서 논의된 바와 같이 매핑 및 패킹될 때 보여질 수도 있는 품질의 천이의 일례를 나타낸다. 다른 예에서, 선 (754) 의 천이는, 비디오 프레임이 절두 정사각 피라미드 형상, 큐브 형상 또는 기타 형상을 사용하여 매핑되었는지의 여부, 및 비디오 프레임 내 픽셀들을 선택된 형상으로 패킹하는데 사용되는 방법에 따라 달라질 수도 있다.

도 8은 360도 비디오 데이터의 큐브 형상 표현의 면들을 비디오 데이터의 절두 정사각 피라미드 표현을 위한 프레임 패킹 구조 (800) 내에 매핑하는데 사용될 수 있는 비율들의 일례를 나타낸다. 큐브 면들내에 패킹된 비디오 데이터는 아래 예 수식을 사용하여 절두 정사각 피라미드의 사다리꼴 형상 평면들 상으로 직접 워핑될 수 있다. 아래의 수식 예에 따라 뒤쪽 면을 위한 비디오 데이터를 작은 정사각형내에 워핑될 수 있다.

도 8의 예에서, 하부 왼쪽 코너 (860) 는 프레임 패킹 구조 (800) 를 위한 좌표 (0, 0) 로서 지정되었다. 다양한 구현에서, 프레임 패킹 구조 (800) 내의 또 다른 지점 (예를 들어, 좌상부 코너 (862), 하단 에지의 수평 중간 지점 (870) 등) 이 좌표 (0, 0) 로서 지정될 수 있다. 프레임 패킹 구조 (800) 의 좌상부 코너 (862) 가 좌표 (0, 1) 로서 지정되었다. 이 예에서 "1" 의 값은 프레임 패킹 구조 (800) 에 따라 패킹된 프레임의 크기가 아니라, 좌표 (0, 0) 에 대한 프레임 패킹 구조 (800) 내의 비율을 나타낸다. 프레임의 실제 크기는, 예를 들어, 1024 픽셀 높이 x 2048 픽셀 폭일 수도 있으므로, 프레임 패킹 구조의 좌상부 코너 (862) 는 픽셀 위치 (0, 1023) 일 수도 있다. 프레임 패킹 구조 (800) 의 우하부 코너 (864) 는 좌표 (1,0) 로서 유사하게 지정되며, 우하부 코너 (864) 가 프레임 패킹 구조 (864) 의 가장 왼쪽 에지를 포함한다는 것을 나타낸다.

이 예에서, 프레임 패킹 구조 (800) 의 수평 축의 중간 지점 (870) 은 x = 0.5 로 지정되었다. "0.5" 의 비율은 이 중간 지점 (870) 이 프레임 패킹 구조 (800) 의 정확히 중간임을 나타내어, 프레임 패킹 구조 (800) 의 왼쪽 절반이 오른쪽 절반만큼 많은 데이터를 저장한다. 또한, 제 1 수평 지점 (872) 은 x = 0.6875 (즉, x = 0.5 + 0.3875) 로 지정되었고 제 2 수평 지점 (874) 은 x = 0.875 (즉, x = 0.5 + 0.625) 로 지정되었다. 제 1 (872) 및 제 2 (874) 수평 지점들은 이 예에서 뒤쪽 (838) 뷰를 위한 데이터의 폭을 나타낸다. 뒤쪽 뷰 (838) 를 위한 데이터는 형상이 정사각형이기 때문에, 제 1 수직 지점 (876) 은 y = 0.385 및 y = 0.625로서 지정되었다.

도 8에 제공된 비율은 프레임 패킹 구조내에 비디오 데이터의 패킹을 정의하는데 사용될 수 있는 비율의 일례를 나타낸다. 다양한 구현에서, 다른 비율들이 사용될 수 있다. 예를 들어, 일부 경우에는, 뒤쪽 (838) 뷰의 크기를 줄이거나 늘리는 것이 바람직할 수도 있다. 이러한 예는 도 13과 관련하여 논의된다.

도 8에 나타낸 예시적인 비율을 사용하여, 오른쪽 큐브 면에 있는 지점을 프레임 패킹 구조 (800) 내 오른쪽 (836) 뷰로 매핑하는 좌표 (x', y') 는 다음 수식을 사용하여 결정될 수 있다 :

유사하게, 왼쪽 큐브 면에 있는 지점을 프레임 패킹 구조 (800) 내 왼쪽 (834) 뷰로 매핑하는 좌표 (x', y') 는 다음 수식을 사용하여 결정될 수 있다 :

하단 큐브 면에 있는 지점을 프레임 패킹 구조 (800) 내 하단 (842) 뷰로 매핑하는 좌표 (x', y') 는 다음 수식을 사용하여 결정될 수 있다 :

상단 큐브 면에 있는 지점을 프레임 패킹 구조 (800) 내 위쪽 (840) 뷰로 매핑하는 좌표 (x', y') 는 다음 수식을 사용하여 결정될 수 있다 :

프레임 패킹 구조로부터 큐브의 면들로 다시 매핑하는 것이 또한 일어날 수 있다. 예를 들어, 프레임 패킹 구조에 따라 패킹된 프레임을 수신하는 디코딩 디바이스는 데이터를 프로세싱하기 전에 프레임에서 비디오 데이터를 언패킹 (unpacking) 할 수도 있다. 오른쪽 큐브 면에서의 좌표 (x, y) 는 다음 수식을 사용하여 얻어질 수 있다:

왼쪽 큐브 면에서의 좌표 (x, y) 는 다음 수식을 사용하여 얻어질 수 있다:

하단 큐브 면에서의 좌표 (x, y) 는 다음 수식을 사용하여 얻어질 수 있다:

상단 큐브 면에서의 좌표 (x, y) 는 다음 수식을 사용하여 얻어질 수 있다:

도 9a 내지 도 9d는 360도 비디오 프레임을 위한 다양한 상이한 매핑들로부터 비롯되는 프레임 크기들간의 비교를 나타낸다. 이러한 비교를 제공하기 위해, 도 9a 내지 도 9d 에서의 예시적인 매핑은 서로에 대해 스케일 대로 (to scale) 그려져 있다. 각 매핑 예는 각각의 매핑 방법들을 사용하여 동일한 비디오 프레임 (즉, 동일한 수의 픽셀) 을 매핑한다. 도 9a 내지 도 9d에 나타낸 예시적인 매핑들은 등장방형 (902) 매핑 (도 9a), 큐빅 (904) 매핑 (도 9b) 및 절두 정사각 피라미드 (906, 908) 매핑 (도 9c 및 도 9d) 의 2 개의 예를 포함한다.

전술한 바와 같이, 등장방형 (902) 매핑은 특정 프레임에서 모든 픽셀을 포함할 수 있으므로, 전체 프레임으로 간주될 수도 있다. 이 예에서, 등장방형 (902) 매핑은 4천 픽셀 폭 그리고 2천 픽셀 높이이므로, 총 8백만 픽셀을 포함한다. 또한, 프레임 내의 모든 픽셀들이 전체 해상도로 이용 가능하기 때문에, 하나의 표현만이 하나의 프레임에 필요하다.

큐빅 (904) 맵은 등장방형 (902) 맵보다 약간 작다. 그러나 큐브 형상은 위쪽 그리고 하단 뷰들에서 왜곡이 더 적다. 이 예에서, 큐빅 (904) 맵은 3천 픽셀 폭이고 2천 픽셀 높이이므로, 6백만 픽셀을 포함한다. 이 예에서, 왼쪽, 앞쪽 및 오른쪽 큐브 면들이 프레임에서 서로의 옆에 패킹되었다. 위쪽, 하단 및 뒤쪽 면들도 왼쪽, 앞쪽 및 오른쪽 뷰들 아래, 서로의 옆에 패킹되었다. 등장방형 (902) 매핑과 마찬가지로, 전체 해상도에서 프레임내 모든 픽셀이 이용 가능하므로, 프레임에 대해 하나의 표현만이 필요하다. 큐빅 (904) 맵은 등장방형 맵 (902) 보다 작지만, 디코더 디바이스는 프레임의 부분들을 그들의 각각의 위치들내에 함께 스티칭하기 위해 더 많은 작업을 해야할 수도 있다.

제 1 절두 정사각 피라미드 (906) 매핑은 도 3 및 도 5에 나타낸 프레임 패킹 구조에 기초한다. 도 9의 예시적인 절두 정사각 피라미드 (906) 매핑은 2천 픽셀 폭 그리고 1천 픽셀 높이이므로, 2백만 픽셀을 포함한다. 절두 정사각 피라미드 (906) 매핑은 하나의 뷰 또는 뷰포트에 대해 전체 해상도를 제공하고, 다른 모든 뷰에 대해서는 감소된 해상도를 제공한다. 따라서, 일부 경우에서, 6개의 표현들이 하나의 프레임에 대해 인코딩될 수도 있으며, 6 개의 표현들 각각은 서로 90도 각도로 인코딩된다. 그러나 6개의 표현들이 모두 필요한지 여부는 프레임의 콘텐츠 및/또는 임의의 주어진 순간에 뷰어가 어느 뷰포트를 보고 있는지에 따라 달라질 수도 있다.

제 2 절두 정사각 피라미드 (908) 매핑은 도 4 및 도 6에 나타낸 프레임 패킹 구조에 기초한다. 도 9의 이 예시적인 절두 정사각 피라미드 (908) 매핑은 또한 2천 픽셀 폭 그리고 1천 픽셀 높이이므로, 2백만 픽셀을 포함한다. 예시적인 절두 정사각 피라미드 (908) 는 또한, 하나의 뷰에 대해 전체 해상도를 제공하고, 모든 다른 뷰에 대해서는 해상도를 감소시킨다.

다양한 구현에서, 파일 형식은 360도 비디오 프레임들을 기술할 수 있다. 도 4 및 도 6은 절두 정사각 피라미드 형상으로 매핑된 360도 비디오 프레임을 직사각형 표현으로 패킹하는데 사용될 수 있는 프레임 패킹 구조를 나타낸다. 다양한 구현에서, 파일 형식은 360도 비디오를 절두 정사각 피라미드 지오메트리로 매핑하기 위한 파라미터를 포함할 수 있다. 파일 형식은 텍스트 및/또는 이진 파일내에 그렇게 매핑된 비디오 데이터를 기술하기 위한 파라미터를 더 포함할 수 있다. 파일은 저장 및/또는 전송될 수 있다.

제 1 예시적 실시형태

일부 구현에서, 본원에 설명된 기술들은 절두 정사각 피라미드 (tspyr) 지오메트리로 ISO/IEC JTC1/SC29/WG11/M37837, “Proposed text for omnidirectional media application format”, MPEG 114, Feb. 2016, or ISO/IEC JTC1/SC29/WG11 N16189, “WD on ISO/IEC 23000-20 Omnidirectional Media Application Format,” MPEG 115, June 2016 에서 제안된 전방향성 미디어 애플리케이션 형식 (이하 총칭하여 "전방향성 미디어 애플리케이션 형식 표준") 을 확장할 수 있다. 아래에 설명된 구현은 신택스 및 의미론에 대해 제안된 추가 사항을 포함하며 전방향성 미디어 애플리케이션 형식 표준을 참조하여 자세히 설명된다.

이하에 논의된 제 1 예시적 실시 형태에서, 전방향성 미디어 애플리케이션 형식 표준으로부터의 텍스트가 인용되며, 텍스트에 대한 추가사항들은 밑줄친 텍스트 (추가 텍스트의 예) 로 보여진다.

일부 구현에서, 전방향성 미디어 애플리케이션 형식 표준에 대한 변경들은 전방향성 미디어 텍스처 매핑 메타데이터 샘플 엔트리들을 포함한다. 하나의 예가 다음과 같이 제공된다:

신택스

다음 변경들은 전방향성 미디어 애플리케이션 형식 표준에서 3.2.2 절에 대한 제안된 추가사항들이다:

의미론

아래 표에 있는 변경들과 표를 따르는 의미론적 정의에는 전방향성 미디어 애플리케이션 형식 표준의 3.2.3 절에서 표 3에 대한 제안된 추가 사항들이 포함된다.

tspyr_height 는 절두 정사각 피라미드의 높이 또는 깊이를 나타낸다; 예를 들어, 절두 정사각 피라미드의 앞쪽의 크기에 대해 높이 또는 깊이가 명시될 수 있다.

tspyr_back_width 및 tspyr_back_height 는 뒤쪽 면의 폭과 높이를 나타낸다; 예를 들어, 절두 정사각 피라미드의 폭과 높이는 절두 정사각 피라미드의 앞쪽의 크기에 대해 명시될 수 있다.

일부 구현에서, 전방향성 미디어 텍스처 매핑 메타데이터 샘플 엔트리들을 포함하는 전방향성 미디어 애플리케이션 형식 표준에 대한 변경들의 또 다른 예가 다음과 같이 제공된다:

신택스

다음 변경들은 전방향성 미디어 애플리케이션 형식 표준에서 3.3.1 절에 대한 제안된 갱신사항들이다:

의미론

아래 변경들에는 전방향성 미디어 애플리케이션 형식 표준의 3.3.2 절에서의 의미론에 대한 제안된 갱신사항들이 포함된다.

tspyr_surface_id 는 이 문서의 "정의" 절에서 정의된 절두 정사각 피라미드 표면의 식별자를 나타낸다.

정의

지오메트리 유형, 텍스처 매핑 및 투영에 대한 다양한 정의가 이제 설명된다.

TSP (Truncated Square Pyramid) 와 관련하여, 도 10a 및 도 10b에 도시된 바와 같이 TSP 3-D 지오메트리의 각 표면에 매핑될 텍스처 영역들이 배열된다. 특히, 도 10a 및 도 10b는 tspyr 지오메트리의 면들 (앞쪽 (1012), 뒤쪽 (1038), 왼쪽 (1034), 오른쪽 (1036), 상단 (1040) 및 하단 (1042)) 과 텍스처 영역들 사이의 대응 관계를 나타낸다. 각 영역의 위치와 크기는 OmniMediaTextureMappingMetadataSample 박스에 의해 표시된다. 도달 영역 (reach region) 의 위치 (예 : (region_top_left_x, region_top_left_y) (1150)), 폭 (예 : region_width (1152)) 및 높이 (예 : region_height (1154)) 는 도 11a 내지 도 11f에 표시되어 있다.

도 11a 에 의해 제공되는 바와 같이, tspyr_surface_id 가 앞쪽 (1112) 과 동일하면, 앞쪽 (1112) 표면 구역은 텍스처 직사각형의 왼쪽 절반이다. 표면 구역은 region_width (1152) 및 region_height (1154) 에 의해 주어진다. 다양한 구현에서, region_width (1152) 및 region_height (1154) 는 절두 정사각 피라미드의 높이 또는 깊이에 관하여 정의될 수 있다.

도 11b 에 의해 제공되는 바와 같이, tspyr_surface_id 가 뒤쪽 (1138) 과 동일하면, 뒤쪽 (1112) 표면 구역은 텍스처 직사각형의 오른쪽 절반에 위치된다. 표면 구역은 region_width (1152) 및 region_height (1154) 에 의해 주어진다. 다양한 구현에서, region_width (1152) 및 region_height (1154) 는 뒤쪽 면의 폭 및 높이에 관하여 정의될 수 있다.

도 11c 에 의해 제공되는 바와 같이, tspyr_surface_id 가 상단 (1140) 과 동일하면, 표면 구역은 텍스처 직사각형의 오른쪽 절반의 상단에 위치된다. 표면 구역은 region_width (1152) 및 region_height (1154) 에 의해 주어진다. 다양한 구현에서, region_width (1152) 및 region_height (1154) 는 뒤쪽 면의 폭 및 높이 뿐만 아니라 절두 정사각 피라미드의 높이 또는 깊이에 관하여 정의될 수 있다.

도 11d 에 의해 제공되는 바와 같이, tspyr_surface_id 가 하단 (1142) 과 동일하면, 표면 구역은 텍스처 직사각형의 오른쪽 절반의 하단에 위치된다. 표면 구역은 region_width (1152) 및 region_height (1154) 에 의해 주어진다. 다양한 구현에서, region_width (1152) 및 region_height (1154) 는 뒤쪽 면의 폭 및 높이 뿐만 아니라 절두 정사각 피라미드의 높이 또는 깊이에 관하여 정의될 수 있다.

도 11e 에 의해 제공되는 바와 같이, tspyr_surface_id 가 오른쪽 (1136) 과 동일하면, 표면 구역은 텍스처 직사각형의 오른쪽 절반의 좌측에 위치된다. 표면 구역은 region_width (1152) 및 region_height (1154) 에 의해 주어진다. 다양한 구현에서, region_width (1152) 및 region_height (1154) 는 뒤쪽 면의 폭 및 높이 뿐만 아니라 절두 정사각 피라미드의 높이 또는 깊이에 관하여 정의될 수 있다.

도 11f 에 의해 제공되는 바와 같이, tspyr_surface_id 가 왼쪽 (1134) 과 동일하면, 표면 구역은 텍스처 직사각형의 오른쪽 절반의 우측에 위치된다. 표면 구역은 region_width (1152) 및 region_height (1154) 에 의해 주어진다. 다양한 구현에서, region_width (1152) 및 region_height (1154) 는 뒤쪽 면의 폭 및 높이 뿐만 아니라 절두 정사각 피라미드의 높이 또는 깊이에 관하여 정의될 수 있다.

제 2 예시적 실시형태

일부 구현들에서, 본원에 기재된 기술들은 N15946에서 제안된 전방향성 매체 애플리케이션 형식에 대해 절두 정사각 피라미드 지오메트리로 확장한다. 아래 텍스트에서, MPEG N15946 에 대한 추가사항들은 밑줄친 텍스트 (추가 텍스트의 예) 로 표시된다.

tspyr (truncated square pyramid) 지오메트리는 VR/360도 비디오의 방향성 뷰포트 렌더링을 위해 제안된다. tspyr의 앞쪽 면은 전체 해상도를 갖는 반면, 해상도는 더 작은 뒤쪽 면을 향하여 점차 감소한다. 위에서 언급된 바처럼, 도 10a 및 도 10b는 tspyr 지오메트리의 면들 (앞쪽 (1012), 뒤쪽 (1038), 왼쪽 (1034), 오른쪽 (1036), 상단 (1040) 및 하단 (1042)) 과 텍스처 영역들 사이의 대응 관계를 나타낸다. 도 10a 는 절두 정사각 피라미드 지오메트리를 나타내고 도 10b는 대응하는 텍스처 영역을 나타낸다.

tspyr 비디오 정보는 ISO/IEC JTC1/SC29/WG11/N15946 “Technologies under Consideration for Omnidirectional Media Application Format”, MPEG 114, Feb. 2016 에 기재된 대로, VR 비디오 정보 박스에 포함된 Tspyr 비디오 정보 박스에서 시그널링될 수도 있다. Tspyr 비디오 정보 박스의 신택스와 의미론은 다음과 같이 설명된다:

신택스

의미론

vr_mapping_type 은 구형 비디오로부터 사각형 형식으로의 매핑 유형을 나타내는 정수이다. 0 값은 등장방형 맵을 나타낸다. 값 1 은 큐브 맵을 나타낸다. 값 3은 절두 정사각 피라미드 맵을 나타내고, 형식은 TspyrVideoInfoBox 에 의해 설명된다. 다른 값들이 예약된다.

Tspyr 비디오 정보 박스 (TspyrVideoInfoBox) 의 신택스와 의미론은 다음과 같다:

박스 유형: ‘tspyr’

콘테이너: 스킴 정보 박스 (‘vrvd’)

필수: 예 (vr_mapping_type 이 3 과 같을 때)

양: 1

Tspyr 비디오 정보 박스는 트랙에 포함된 tspyr VR/360 비디오의 형식을 나타내는데 사용된다. 그 정보는 tspyr VR/360 비디오의 렌더링에 사용된다.

tspyr_depth는 절두 정사각 피라미드의 깊이를 나타낸다.

tspyr_back_width 및 tspyr_back_height 는 뒤쪽 면의 폭과 높이를 나타낸다.

tspyr_region_id는 tspyr 텍스처 영역의 식별자를 나타낸다 (표 1).

center_pitch 및 center_yaw는 비디오의 중심 픽셀이 렌더링되는 지점의 좌표의 피치 및 요 각도들을 각각 나타낸다. 중심 픽셀은 절두 정사각 피라미드의 앞쪽 면의 중심이다. 피치와 요는, 절두 사각형 피라미드의 배향을 의미하는, 뷰포트를 결정한다. 존재하지 않을 때, center_pitch 및 center_yaw 의 값들은 0 과 동일한 것으로 추론된다.

center_pitch_offset 및 center_yaw_offset는 비디오의 중심 픽셀이 렌더링되는 지점의 좌표의 피치 및 요 각도들로부터의 오프셋 값들을 각각 나타낸다. center_pitch_offset + center_pitch 및 center_yaw_offset + center_yaw 는 각각 현재 샘플의 중심 지점을 각각 나타낸다.

region_top_left_x 및 region_top_left_y는 직사각형 형상의 레퍼런스 트랙에서의 비디오 영역의 상단-왼쪽 코너의 수평 및 수직 좌표를 각각 나타낸다.

region_width 및 region_height 는 직사각형 형상의 레퍼런스 트랙에서의 비디오 영역의 폭 및 높이를 각각 나타낸다.

3-D 지오메트리의 각각의 표면에 매핑되는 텍스처의 영역들은 도 11a 내지 도 11d 에서처럼 배열된다. 각각의 영역의 위치 (1150) (예 : (region_top_left_x, region_top_left_y)), 폭 (1152) (예 : region_width) 및 높이 (1154) (예 : region_height ) 가 표시되어 있다.

도 11a 에 의해 제공되는 바와 같이, tspyr_region_id 가 앞쪽 (1112) 과 동일하면, 앞쪽 (1112) 표면 구역은 텍스처 직사각형의 왼쪽 절반이다. 표면 구역은 region_width (1152) 및 region_height (1154) 에 의해 주어진다. 다양한 구현에서, region_width (1152) 및 region_height (1154) 는 절두 정사각 피라미드의 깊이에 관하여 정의될 수 있다.

도 11b 에 의해 제공되는 바와 같이, tspyr_region_id 가 뒤쪽 (1138) 과 동일하면, 뒤쪽 (1138) 표면 구역은 텍스처 직사각형의 오른쪽 절반에 위치된다. 표면 구역은 region_width (1152) 및 region_height (1154) 에 의해 주어진다. 다양한 구현에서, region_width (1152) 및 region_height (1154) 는 뒤쪽 면의 폭 및 높이에 관하여 정의될 수 있다.

도 11c 에 의해 제공되는 바와 같이, tspyr_region_id 가 상단 (1140) 과 동일하면, 표면 구역은 텍스처 직사각형의 오른쪽 절반의 상단에 위치된다. 표면 구역은 region_width (1152) 및 region_height (1154) 에 의해 주어진다. 다양한 구현에서, region_width (1152) 및 region_height (1154) 는 뒷쪽 면의 폭 및 높이 뿐만 아니라 절두 정사각 피라미드의 깊이에 관하여 정의될 수 있다.

도 11d 에 의해 제공되는 바와 같이, tspyr_region_id 가 하단 (1142) 과 동일하면, 표면 구역은 텍스처 직사각형의 오른쪽 절반의 하단에 위치된다. 표면 구역은 region_width (1152) 및 region_height (1154) 에 의해 주어진다. 다양한 구현에서, region_width (1152) 및 region_height (1154) 는 뒷쪽 면의 폭 및 높이 뿐만 아니라 절두 정사각 피라미드의 깊이에 관하여 정의될 수 있다.

도 11e 에 의해 제공되는 바와 같이, tspyr_region_id 가 오른쪽 (1136) 과 동일하면, 표면 구역은 텍스처 직사각형의 오른쪽 절반의 좌측에 위치된다. 표면 구역은 region_width (1152) 및 region_height (1154) 에 의해 주어진다. 다양한 구현에서, region_width (1152) 및 region_height (1154) 는 뒷쪽 면의 폭 및 높이 뿐만 아니라 절두 정사각 피라미드의 깊이에 관하여 정의될 수 있다.

도 11f 에 의해 제공되는 바와 같이, tspyr_region_id 가 왼쪽 (1134) 과 동일하면, 표면 구역은 텍스처 직사각형의 오른쪽 절반의 우측에 위치된다. 표면 구역은 region_width (1152) 및 region_height (1154) 에 의해 주어진다. 다양한 구현에서, region_width (1152) 및 region_height (1154) 는 뒷쪽 면의 폭 및 높이 뿐만 아니라 절두 정사각 피라미드의 깊이에 관하여 정의될 수 있다.

도 12는 큐브 (1210) 의 평면들을 절두 정사각형 피라미드 (1230) 의 평면들에 매핑하는 또 다른 예를 나타낸다. 전술한 바와 같이, 가상 환경의 구형 표현은 큐브 (1210) 의 면들에 의해 제공된 6개의 평면들에 매핑될 수 있다. 큐브 (1210) 의 일면은 앞쪽 (1212) 뷰로, 앞쪽 (1212) 의 왼쪽에 있는 면은 왼쪽 (1214) 뷰로, 앞쪽 (1212) 의 오른쪽에 있는 면은 오른쪽 (1216) 뷰로, 대응하는 면은 위쪽 (1220) 뷰로, 또 다른 것은 하단 (1222) 뷰로, 그리고 마지막은 뒤쪽 (1218) 뷰로서 지정될 수 있다. 6개의 가능한 뷰들 각각이 전체 해상도로 보존되기 때문에 큐브 (1210) 의 면들에 대한 구형 데이터 세트의 매핑은 비디오 데이터의 전체 프레임을 제공한다. 또한 상술한 바와 같이, 큐브 (1210) 에 의해 제공된 평면들을 절두 정사각 피라미드에 의해 제공된 평면들에 매핑하는 것은 전체 360도의 뷰를 표현하는데 필요한 데이터의 양을 감소시킬 수도 있다.

도 12의 예에서, 수정된 절두 정사각 피라미드 (1230) 는 큐브 (1210) 의 면들에서 데이터를 매핑할 평면들을 제공하는데 사용된다. 이 예에서, 절두 정사각 피라미드 (1230) 는 절두 정사각 피라미드의 베이스에 베이스 또는 융기된 플랫폼을 추가하도록 수정되었다. 달리 말하면, 이 예에서, 절두 정사각 피라미드 (1230) 의 베이스는 큐브의 앞쪽 (1212) 면을 향해 배향되었지만, 큐브의 뒤쪽 (1218) 면의 방향으로 어느 정도 오프셋되었다. 따라서, 예를 들어, 절두 정사각 피라미드 (1230) 의 좌측은 직사각형 전방-왼쪽 (1234a) 평면 및 사다리꼴 후방-왼쪽 (1234b) 평면을 포함한다. 전방-왼쪽 (1234a) 평면은 왼쪽 (1214) 큐브 면의 대응하는 영역에 직접 대응하고, 따라서 전방-왼쪽 (1234a) 평면 내 픽셀들은 전체 해상도로 보존된다. 후방-왼쪽 (1234b) 평면 내 픽셀들은 평면의 사다리꼴 형상에 들어맞게 전체 해상도로부터 감소될 수 있다.

큐브의 오른쪽 (1216), 상단 (1220) 및 하단 (1222) 면들 각각은 수정된 절두 정사각 피라미드에 의해 제공되는 평면들과 비슷한 방식으로 매핑될 수 있다. 구체적으로, 절두 정사각 피라미드 (1230) 는 픽셀들을 전체 해상도로 보존하는 전방-오른쪽 (1236a) 평면과, 해상도를 감소시키는 후방-오른쪽 (1236b) 평면을 포함한다. 유사하게, 절두 정사각 피라미드 (1230) 는 전방-하단 (1242a) 평면 및 후방-하단 (1242b) 평면뿐만 아니라 전방-위쪽 (1240a) 평면 및 후방-위쪽 (1240b) 평면을 포함한다. 절두 정사각 피라미드 (1230) 의 뒤쪽 (1238) 평면은 수정되지 않고, 큐브 (1210) 의 모든 뒤쪽 (1218) 면의 감소된 해상도 표현을 제공한다. 큐브의 앞쪽 (1212) 면은 또한, 전체 해상도로, 절두 정사각 피라미드 (1230) 의 수정된 베이스 (1232) 에 매핑된다.

전술한 수정된 절두 정사각 피라미드 (1230) 매핑은 큐브 (1210) 의 앞쪽 (1212) 면을 바라보는 뷰어에게 더 나은 90도 시야를 제공할 수도 있다. 앞쪽 (1212) 뷰가 전체 해상도로 보존되는 것에 추가하여, 왼쪽 (1214), 오른쪽 (1216), 위쪽 (1220) 및 하단 (1222) 뷰의 양이 또한 전체 해상도로 보존된다. 전체 해상도로 보존되는 왼쪽 (1214), 오른쪽 (1216), 위쪽 (1220) 및 하단 (1222) 뷰의 양은 뷰어의 주변 비전 내에 속할 수도 있거나 또는 바로 뷰어의 비전의 에지에 있을 수도 있다. 다양한 구현에서, 뷰어에게 제공되는 시야는 전방-왼쪽 (1234a), 전방-오른쪽 (1236b), 전방-위쪽 (1240a) 및 전방-하단 (1240b) 영역의 크기를 수정함으로써 조정될 수 있다. 이러한 조정은, 예를 들어, 절두 정사각 피라미드 (1230) 의 상단 (1238) 평면의 크기를 수정함으로써 달성될 수 있다.

도 13은 수정된 절두 정사각 피라미드 매핑을 위한 프레임 패킹 구조 (1300) 의 일례를 나타낸다. 이 예에서, 전방-왼쪽 (1334a) 뷰는 프레임 (1300) 내에 앞쪽 (1312) 뷰의 왼쪽에 패킹되었고, 전방-오른쪽 (1336a) 뷰는 앞쪽 (1312) 뷰의 오른쪽에 패킹되었다. 전방-왼쪽 (1334a) 및 전방-오른쪽 (1336a) 을 프레임 (1300) 내에 앞쪽 (1312) 의 옆에 각각의 위치들에서 배치하는 것은 프레임 (1300) 이 인코딩될 때 앞쪽에서 왼쪽으로 또는 앞쪽에서 오른쪽으로 더 매끄러운 천이를 제공할 수도 있다.

이 예에서 더 나타낸 바와 같이, 후방-왼쪽 (1334b), 후방-오른쪽 (1336b), 후방-위쪽 (1340b) 및 후방-하단 (1342b) 뷰들은 프레임 (1300) 내에 뒤쪽 (1338) 뷰 주위에 패킹되었다. 다음으로, 후방-왼쪽 (1334b), 후방-오른쪽 (1336b), 후방-위쪽 (1340b), 후방-하단 (1342b) 및 뒤쪽 (1338) 의 결합이 프레임 (1300) 내에 전방-오른쪽 (1336) 의 옆에 패킹되어, 후방-오른쪽 (1336b) 이 전방-오른쪽 (1336a) 뷰에 인접하게 된다. 전방-위쪽 (1340a) 뷰는 후방-왼쪽 (1334b) 뷰의 옆에 회전 및 패킹된다. 전방-하단 (1342a) 은 또한 전방-위쪽 (1340a) 의 옆에 회전 및 배치된다. 최종 결과는, 이 예에서, 프레임 (1300) 이 직사각형인 것이다.

도 14는 수정된 절두 정사각형 피라미드 매핑을 위한 프레임 패킹 구조 (1400) 의 또 다른 예를 나타낸다. 이 예에서 후방 위쪽, 하단 및 뒤쪽 뷰들은 절반으로 나뉘며, 절반들은 각각의 후방-왼쪽 (1434b) 및 후방-오른쪽 (1436b) 뷰들과 함께 패킹되었다. 구체적으로, 후방-위쪽 (1440b) 뷰의 왼쪽 절반과 후방-하단 (1442) 뷰의 왼쪽 절반이, 뒤쪽 (1438) 뷰의 왼쪽 절반 주위에 후방-왼쪽 (1434b) 뷰와 함께 패킹되었다. 결합된 "왼쪽" 뷰들은 전방-왼쪽 (1434a) 뷰에 인접하게 패킹되며, 후방-왼쪽 (1434b) 뷰는 전방-왼쪽 (1434a) 뷰에 인접하게 배치된다. 전방-왼쪽 (1434a) 뷰는 그 자체가 앞쪽 (1432) 뷰의 왼쪽 에지에 인접하게 패킹된다.

유사하게, 후방-위쪽 (1440b) 뷰의 오른쪽 절반과 후방-하단 (1442b) 뷰의 왼쪽 절반이, 뒤쪽 (1438) 뷰의 오른쪽 절반 주위에 후방-오른쪽 (1436b) 뷰와 함께 패킹되었다. 다음으로, 결합된 "오른쪽" 뷰들은 전방-오른쪽 (1436a) 뷰에 인접하게 패킹되며, 후방-오른쪽 (1436b) 뷰는 전방-오른쪽 (1436a) 뷰에 인접하게 배치된다. 전방-오른쪽 (1436a) 뷰는 그 자체가 앞쪽 (1432) 뷰에 인접하게 패킹된다. 최종적으로, 전방-하단 (1442a) 뷰는 결합된 왼쪽 뷰의 왼쪽에 회전 및 패킹되고, 전방-위쪽 (1440a) 뷰는 결합된 오른쪽 뷰의 오른쪽에 회전 및 패킹된다.

도 13 및 도 14는 도 9에 나타낸 수정된 절두 정사각 매핑이 직사각형 프레임 구조내에 패킹될 수 있는 다양한 방식 중 단지 2개의 예를 제공한다. 각각 상이한 장점을 제공할 수 있는, 다른 변형도 가능하다. 예를 들어, 도 14의 예시적인 형식은, 프레임이 인코딩될 때, 위쪽에서 하단으로의 천이에서 약간의 왜곡을 희생하면서, 왼쪽에서 오른쪽으로의 천이에서 더 적은 왜곡을 제공할 수도 있다. 또 다른 예로서, 도 13의 예시적인 형식은 생성하기 더 간단할 수도 있다.

다양한 구현에서, 위에서 논의된 프레임 패킹 구조에서의 앞쪽 뷰는 90 도 시야를 나타낼 수 있다. 예를 들어, 비디오 프레임의 360도 구형 표현이 큐브의 면들에 매핑될 때, 큐브의 일면은 90도 시야를 나타낼 수 있다. 따라서, 절두 정사각 피라미드 형상의 베이스 평면 (위에서 언급한 바와 같이 앞쪽 뷰로 지정될 수 있음) 이 큐브의 일면을 매핑할 때, 베이스 평면은 90도 시야를 매핑할 수 있다. 위에 논의된 다양한 프레임 패킹 구조에서, 90 도 시야 밖의 구역들은 앞쪽 뷰와 크기 및/또는 형상이 동등한 프레임 패킹 구조 내의 구역 내에 패킹될 수 있다. 이러한 프레임 패킹 구조에서, 전체 해상도로 보존되는 가시 구역은 단지 90 도 뷰일 수도 있는데, 왜냐하면 90 도 밖의 임의의 구역은 왼쪽, 오른쪽, 위쪽 그리고 하단 뷰들내에 컴팩팅 (compacting) 될 수도 있기 때문이다.

다양한 구현에서, 전체 해상도 데이터를 포함하는 시야는 절두 정사각 피라미드 형상의 베이스 평면의 크기를 증가시킴으로써 증가될 수 있다. 즉, 더 큰 구역이 전체 해상도로 보존될 수 있고, 여기서 그 구역은 위에서 언급된 큐브 면보다 더 클 수도 있다. 그 결과, 뒤쪽면의 해상도가 저하될 수도 있거나, 또는 프레임 패킹 구조의 크기가 증가될 수도 있거나, 또는 양자 모두가 발생할 수도 있다.

도 15는 시야를 증가시키기 위해, 뒤쪽 뷰 (1588) 의 해상도를 유지하는 더 큰 프레임 패킹 구조 (1550) 가 사용되고 있는 일례를 나타낸다. 도 15는 제 1 프레임 패킹 구조 (1500) 의 일례를 나타내며, 여기서 앞쪽 (1512) 뷰는 90도 시야를 나타낸다. 이 제 1 프레임 패킹 구조 (1500) 에서, 왼쪽 (1534), 오른쪽 (1536), 위쪽 (1540), 그리고 하단 (1542) 뷰는 앞쪽 (1512) 뷰와 크기가 동등한 구역에서 뒤쪽 (1538) 과 함께 패킹된다.

도 15는 제 2 프레임 패킹 구조 (1550) 의 일례를 나타내며, 여기서 앞쪽 (1552) 뷰는 30% 더 크므로, 117도 시야를 나타낸다. 이 177 도 시야를 생성하기 위해, 그렇지 않으면 왼쪽 (1584), 오른쪽 (1586), 위쪽 (1590) 및 하단 (1592) 뷰들에 있는 픽셀들이 대신 앞쪽 (1552) 뷰에 있다. 따라서, 왼쪽 (1584), 오른쪽 (1586), 위쪽 (1590) 및 하단 (1592) 뷰들을 위한 제 2 프레임 패킹 구조 (1550) 내의 구역은 제 1 프레임 패킹 구조 (1500) 에서 이들 뷰에 의해 점유되는 구역과 비교하여, 앞쪽 뷰 (1552) 의 크기에 관하여 더 작을 수 있다. 이 제 2 프레임 패킹 구조 (1550) 에서, 뒤쪽 (1588) 뷰의 크기는 제 1 프레임 패킹 구조 (1500) 에서의 뒤쪽 (1538) 뷰의 크기와 동일하므로, 뒤쪽 (1588) 뷰의 해상도가 유지될 수 있다. 따라서, 제 2 프레임 패킹 구조 (1550) 의 전체 크기는 더 크다: 예를 들어, 제 1 프레임 패킹 구조는 2천 픽셀 폭 및 1천 픽셀 높이일 수도 있는 반면, 제 2 프레임 패킹 구조는 2,600 픽셀 폭 및 1,300 폭일 수도 있다.

도 15는 전체 해상도로 보존되는 시야가 90도를 넘어 확장되는 하나의 예를 나타낸다. 다양한 구현에서, 시야가 더욱 더 증가될 수 있다. 다양한 구현에서, 뒤쪽 뷰의 해상도가 또한 감소될 수 있어, 프레임 패킹 구조의 크기가 크게 증가될 필요는 없다.

도 16은 360도 비디오 프레임을 본원에 기재된 바처럼 절두 정사각형 피라미드의 평면들에 매핑하는 프로세스 (1600) 의 일례를 나타낸다. 1602 에서, 프로세스 (1600) 는 가상 현실 비디오 데이터를 획득하는 것을 포함한다. 그 가상 현실 비디오 데이터는 가상 환경의 360도 뷰를 표현한다. 예를 들어, 가상 현실 비디오 데이터는 뷰어에게 현실적인 경험을 제공할 수 있고, 여기서 뷰어는 가상 환경의 심리스한 표현을 보는 동안 왼쪽 또는 오른쪽으로 돌거나, 위쪽 또는 아래쪽을 보거나, 및/또는 돌아다닐 수 있다. 가상 현실 비디오 데이터는 복수의 프레임들을 포함할 수 있다. 복수의 프레임들로부터의 각각의 프레임은 대응하는 구형 비디오 데이터 또는 그 프레임을 위한 비디오 데이터의 구형 표현을 포함할 수 있다.

1604 에서, 그 프로세스 (1600) 는 복수의 프레임들로부터 프레임을 위한 구형 비디오 데이터를 절두 정사각 피라미드의 평면들 상에 매핑하는 것을 포함한다. 절두 정사각 피라미드의 평면들은 베이스 평면, 상단 평면, 좌측 평면, 우측 평면, 상측 평면 및 하단측 평면을 포함한다. 상단 평면의 크기는 베이스 평면의 크기보다 작을 수 있다. 일부 구현에서, 상단 평면의 크기는 베이스 평면의 크기 이하일 수 있다. 다양한 구현에서, 구형 비디오 데이터를 매핑하는 것은 다음과 같은 추가 단계를 포함할 수 있다:

1606 에서, 프로세스 (1600) 는 전체 해상도로 베이스 평면 상에 구형 비디오 데이터의 제 1 부분을 매핑하는 것을 포함한다. 다양한 구현에서, 베이스 평면은 구형 비디오 데이터의 앞쪽 뷰를 표현할 수 있다.

1608 에서, 프로세스 (1600) 는 감소된 해상도로 상단 평면 상에 구형 비디오 데이터의 제 2 부분을 매핑하는 것을 포함한다. 감소된 해상도는 전체 해상도보다 작을 수 있다. 다양한 구현에서, 감소된 해상도는 전체 해상도의 백분율일 수 있다. 다양한 구현에서, 감소된 해상도를 생성하기 위해, 구형 비디오 데이터의 제 2 부분은 다운샘플링되거나 또는 다운스케일링될 수 있다. 다양한 구현에서, 상단 평면은 구형 비디오 데이터의 뒤쪽 뷰를 표현할 수 있다.

1610 에서, 프로세스 (1600) 는 감소하는 해상도로 좌측 평면 상에 구형 비디오 데이터의 제 3 부분을 매핑하는 것을 포함한다. 감소하는 해상도에는 전체 또는 거의 전체 해상도에서 감소된 해상도까지의, 해상도 범위가 포함될 수 있다. 전체 또는 거의 전체 해상도는 베이스 평면에 인접한 좌측 평면의 에지에서 사용될 수도 있다. 감소된 해상도는 상단측 평면에 인접한 좌측 평면의 에지에서 사용될 수 있다. 다양한 구현에서, 감소된 해상도는 상단 평면의 감소된 해상도와 동일하거나 또는 거의 동일하다. 다양한 구현에서, 좌측 평면은 구형 비디오 데이터의 왼쪽 뷰를 표현할 수 있다.

1612 에서, 프로세스 (1600) 는 감소하는 해상도로 우측 평면 상에 구형 비디오 데이터의 제 4 부분을 매핑하는 것을 포함한다. 전체 또는 거의 전체 해상도는 베이스 평면에 인접한 우측 평면의 에지에서 사용될 수도 있다. 감소된 해상도는 상단측 평면에 인접한 우측 평면의 에지에서 사용될 수 있다. 다양한 구현에서, 우측 평면에 사용된 해상도는 베이스측 평면에 인접한 우측 평면의 에지로부터 상단측 평면에 인접한 우측 평면의 에지까지 감소될 수 있다. 다양한 구현에서, 감소된 해상도는 상단 평면의 감소된 해상도와 동일하거나 또는 거의 동일하다. 다양한 구현에서, 우측 평면은 구형 비디오 데이터의 오른쪽 뷰를 표현할 수 있다.

1614 에서, 프로세스 (1600) 는 감소하는 해상도로 상측 평면 상에 구형 비디오 데이터의 제 5 부분을 매핑하는 것을 포함한다. 다양한 구현에서, 상측 평면은 구형 비디오 데이터의 위쪽 뷰 (즉, 위쪽을 보았을 때 보여지는 뷰) 를 나타낼 수 있다.

1616 에서, 프로세스는 감소하는 해상도로 하단측 평면 상에 구형 비디오 데이터의 제 6 부분을 매핑하는 것을 포함한다. 다양한 구현에서, 하단측 평면은 구형 비디오 데이터의 하단 또는 아래쪽 뷰 (즉, 아래쪽을 보았을 때 보여지는 뷰) 를 나타낼 수 있다.

도 17은 가상 현실 비디오의 프레임을 디코딩하는 프로세스 (1700) 의 일례를 나타내며, 여기서 프레임을 위한 비디오 데이터는 절두 정사각형 피라미드 형상을 사용하여 프레임 내에 패킹된다. 1720 에서, 프로세스 (1700) 는 가상 현실 비디오 데이터의 프레임을 획득하는 것을 포함한다. 그 가상 현실 비디오 데이터는 가상 환경의 360도 뷰를 표현할 수 있다. 프레임은 직사각형 형식을 가질 수 있다. 일부 구현에서, 가상 현실 비디오 데이터의 프레임은 인코딩 디바이스로부터 수신될 수 있다. 선택적으로 또는 부가적으로, 일부 구현에서, 가상 현실 비디오 데이터의 프레임은 저장 디바이스 또는 저장 매체로부터 판독될 수 있다. 다양한 구현에서, 가상 현실 비디오 데이터의 프레임은 그것이 디코딩 디바이스에 의해 수신될 때 비디오 인코딩 형식을 사용하여 인코딩 및/또는 압축된다. 다양한 구현에서, 가상 현실 비디오 데이터의 프레임은 비디오 데이터의 스트림의 일부일 수 있으며, 여기서 스트림은 가상 환경을 위한 프레임들의 연속 시퀀스를 포함한다.

1704 에서, 프로세스 (1700) 는 그 프레임을 위한 프레임 패킹 구조를 식별하는 것을 포함한다. 프레임 패킹 구조는 프레임 내의 비디오 데이터를 위한 위치들을 제공할 수 있다. 프레임 패킹 구조는 절두 정사각 피라미드의 평면들을 포함할 수 있다. 절두 정사각 피라미드의 평면들은 베이스 평면, 상단 평면, 좌측 평면, 우측 평면, 상측 평면 및 하단측 평면을 포함한다. 상단 평면의 크기는 통상적으로, 베이스 평면의 크기보다 작다. 일부 구현에서, 상단 평면의 크기는 베이스 평면의 크기 이하이다. 다양한 구현에서, 프레임 패킹 구조는 각 평면을 위한 프레임 내의 위치 그리고 각 평면의 치수들을, 디코딩 디바이스에 대해, 식별할 수 있다.

1706에서, 프로세스 (1700) 는 프레임 패킹 구조를 사용하여 프레임을 디스플레이하는 것을 포함한다. 다양한 구현에서, 프레임을 디스플레이하는 것은 앞쪽 뷰로서 베이스 평면에 대응하는 비디오 데이터를 제공하는 것을 포함할 수 있고, 여기서 앞쪽 뷰는 전체 해상도로 디스플레이된다. 프레임을 디스플레이하는 것은 뒤쪽 뷰로서 상단 평면에 대응하는 비디오 데이터를 제공하는 것을 더 포함할 수 있고, 여기서 뒤쪽 뷰는 감소된 해상도로 디스플레이된다. 프레임을 디스플레이하는 것은, 왼쪽 뷰로서 좌측 평면에 대응하는 비디오 데이터를 제공하고, 오른쪽 뷰로서 우측 평면에 대응하는 비디오 데이터를 제공하고, 위쪽 뷰로서 상측 평면에 대응하는 비디오 데이터를 제공하고, 그리고 아래쪽 뷰로서 상기 하단측 평면에 대응하는 비디오 데이터를 제공하는 것을 더 포함할 수 있다. 왼쪽, 오른쪽, 위쪽 및 아래쪽 뷰들은 감소하는 해상도일 수 있는데, 이는 각각의 뷰가 앞쪽 뷰쪽으로 전체 또는 거의 전체 해상도를 가지며, 이는 뒤쪽 뷰를 향해 더 낮은 해상도로 점차 감소한다는 것을 의미한다. 다양한 구현에서, 프레임을 디스플레이하는 것은 프레임을 디스플레이하기 전에 프레임을 디코딩하는 것을 포함할 수 있다.

일부 예에서, 프로세스 (1600, 1700) 는 컴퓨팅 디바이스 또는 장치, 이를테면 비디오 비디오 인코딩 디바이스에 의해 수행될 수도 있다. 일부 경우에, 컴퓨팅 디바이스 또는 장치는 프로세스 (1600, 1700) 의 단계들을 수행하도록 구성된 디바이스의 프로세서, 마이크로프로세서, 마이크로컴퓨터, 또는 다른 컴포넌트를 포함할 수도 있다. 일부 예에서, 컴퓨팅 디바이스 또는 장치는 비디오 프레임들을 포함하는 비디오 데이터 (예를 들어, 비디오 시퀀스) 를 캡처하도록 구성된 카메라를 포함할 수도 있다. 예를 들어, 컴퓨팅 디바이스는 비디오 코덱을 포함할 수도 있는 카메라 디바이스 (예를 들어, IP 카메라 또는 다른 유형의 카메라 디바이스) 를 포함할 수도 있다. 일부 예에서, 비디오 데이터를 캡처하는 카메라 또는 다른 캡처 디바이스는 컴퓨팅 디바이스로부터 분리되어 있으며, 이 경우 컴퓨팅 디바이스는 캡처된 비디오 데이터를 수신한다. 컴퓨팅 디바이스는 비디오 데이터를 통신하도록 구성된 네트워크 인터페이스를 더 포함할 수도 있다. 네트워크 인터페이스는 인터넷 프로토콜 (IP) 기반 데이터를 통신하도록 구성될 수도 있다.

프로세스 (1600, 1700) 는 논리 흐름도로서 나타나 있고, 그의 동작들은 하드웨어, 컴퓨터 명령 또는 이들의 조합으로 구현될 수 있는 동작들의 시퀀스를 표현한다. 컴퓨터 명령들의 맥락에서, 그 동작들은 하나 이상의 프로세서들에 의해 실행될 때 열거된 동작들을 수행하는, 하나 이상의 컴퓨터 판독 가능 저장 매체에 저장된 컴퓨터 실행 가능 명령들을 나타낸다. 일반적으로, 컴퓨터 실행 가능 명령들은 특정 기능들을 수행하거나 또는 특정 데이터 유형을 구현하는 루틴, 프로그램, 오브젝트, 컴포넌트, 데이터 구조 등을 포함한다. 동작들이 기재되는 순서는 제한으로서 해석되게 의도되지 않으며, 기재된 동작들의 임의의 수는 임의의 순서 및/또는 병렬로 조합되어 프로세스를 구현할 수 있다.

또한, 프로세스들 (1600, 1700) 은 실행 가능 명령들로 구성된 하나 이상의 컴퓨터 시스템들의 제어하에 수행될 수도 있으며, 집합 적으로 하나 이상의 프로세서 상에서 실행하는 코드 (예를 들어, 실행 가능한 명령들, 하나 이상의 컴퓨터 프로그램들, 또는 하나 이상의 애플리케이션들) 로서, 하드웨어에 의해, 또는 이들의 조합으로 구현될 수도 있다. 전술한 바와 같이, 코드는 예를 들어, 하나 이상의 프로세서에 의해 실행 가능한 복수의 명령을 포함하는 컴퓨터 프로그램의 형태로 컴퓨터 판독 가능 또는 머신 판독 가능 저장 매체에 저장될 수도 있다. 컴퓨터 판독 가능 또는 머신 판독 가능 저장 매체는 비일시적일 수도 있다.

도 18은 픽셀들의 구 (1800) 에 의해 표현되는, 360도 가상 환경에서 픽셀들을 매핑하기 위한 또 다른 예시적인 형상을 나타낸다. 이 예에서, 데이터의 구 (1800) 는 큐브 (1810) 의 면들에 매핑될 수 있다. 큐브 (1800) 의 면들은 앞쪽 (1812) 면, 뒤쪽 (1818) 면, 왼쪽 (1814) 면, 오른쪽 (1816) 면, 위쪽 (1820) 면 그리고 하단 (1822) 면으로 지정될 수 있다.

전술한 바와 같이, 큐브 (1810) 의 6개 면들은 전체 해상도로 구 (1800) 로부터의 비디오 데이터를 표현할 수 있다. 비디오 데이터의 크기를 줄이기 위해, 큐브 (1810) 의 6개 면들은 정사각 피라미드 형상 (1830) 으로 매핑될 수 있고, 여기서 피라미드 (1830) 의 정사각 베이스 (1832) 는 큐브의 앞쪽 (1812) 면을 향해 배향되고, 큐브 (1810) 의 앞쪽 (1812) 면에 대해 45도 회전되었다. 피라미드 형상 (1830) 의 상단은 또한 뒤쪽 (1818) 뷰의 중심과 정렬된다. 피라미드 형상 (1830) 의 4개 측들 각각은 또한, P1 (1834), P2 (1836), P3 (1838) 및 P4 (1840) 로 더 지정될 수 있다. 큐브의 왼쪽 (1814), 오른쪽 (1816), 위쪽 (1820), 및 하단 (1822) 면들로부터의 픽셀들은 다양한 방식으로 P1 (1834), P2 (1836), P3 (1838) 및 P4 (1840) 에 할당될 수 있다. 예를 들어, 일면이 피라미드 형상 (1830) 의 일측에 매핑될 수 있다 (예 : P1 (1834) 는 오른쪽 (1816) 면을 매핑하고, P2 (1836) 은 상단 (1820) 면을 매핑하고, P3 은 왼쪽 (1814) 면을 매핑하고, P4는 하단 (1822) 면을 매핑한다). 대안적으로, 피라미드 형상 (1830) 의 일측은 수 개의 면들의 부분들을 매핑할 수 있다. 예를 들어, P1 (1834) 는 오른쪽 (1816) 및 상단 (1820) 면들 중 일부를 매핑할 수 있고, P2 (1836) 은 상단 (1820) 및 왼쪽 (1814) 면들 중 일부를 매핑할 수 있으며, P3은 왼쪽 (1814) 및 하단 (1822) 면들 중 일부를 매핑할 수 있고, P4 (18140) 은 하단 (1822) 및 오른쪽 (1816) 면들 중 일부를 매핑할 수 있다. 이 예들 각각에서, 뒤쪽 (1818) 면은 제외된다.

도 19는 도 18에 나타낸 피라미드 형상을 위한 프레임 패킹 구조 (1900) 의 일례를 나타낸다. 도 19에서, 프레임 패킹 구조 (1900) 의 중간에 앞쪽 뷰 (1932) (즉, 피라미드 형상의 베이스) 가 배치되고, 피라미드의 정사각 베이스의 측들은 프레임 패킹 구조 (1900) 의 측들에 대해 45 도 각도를 이룬다. 피라미드 형상의 측들 P1 (1934), P2 (1936), P3 (1938) 및 P4 (1940) 은 프레임 패킹 구조 (1900) 의 코너들에 배치될 수 있다. 위에서 논의한 것처럼, P1 (1934), P2 (1936), P3 (1938) 및 P4 (1940) 은 왼쪽, 오른쪽, 위쪽 그리고 아래쪽 뷰의 전부 또는 일부를 저장할 수 있다. 다양한 구현에서, 프레임 패킹 구조 (1900) 는 P1 (1934), P2 (1936), P3 (1938), 및 P4 (1940) 의 각각이 더 많은, 가능하게는 오버랩하는 데이터를 캡처하도록 확장될 수 있다. 프레임 패킹 구조 (1900) 를 확장하는 것은 P1 (1934), P2 (1936), P3 (1938) 및 P4 (1940) 의 경계에서 해상도를 향상시킬 수도 있다. 확장된 구역은 도 19에서 점선으로 나타나있다.

본원에서 논의된 코딩 기법들은 일 예의 비디오 인코딩 및 디코딩 시스템에서 구현될 수도 있다. 일부 예에서, 시스템은, 목적지 디바이스에 의해 나중에 디코딩될 인코딩된 비디오 데이터를 제공하는 소스 디바이스를 포함한다. 특히, 소스 디바이스는, 컴퓨터 판독가능 매체를 통해 목적지 디바이스로 비디오 데이터를 제공한다. 소스 디바이스 및 목적지 디바이스는, 데스크탑 컴퓨터들, 노트북 (즉, 랩톱) 컴퓨터들, 태블릿 컴퓨터들, 셋톱 박스들, 전화기 핸드셋 이를테면 소위 "스마트" 폰들, 소위 "스마트" 패드, 텔레비전들, 카메라들, 디스플레이 디바이스들, 디지털 미디어 재생기들, 비디오 게임용 콘솔들, 비디오 스트리밍 디바이스 등을 포함한, 광범위한 디바이스들 중 어느 것을 포함할 수도 있다. 일부 경우들에서, 소스 디바이스 및 목적지 디바이스는 무선 통신을 위해 갖추어질 수도 있다.

목적지 디바이스는, 컴퓨터 판독가능 매체를 통해 디코딩될 인코딩된 비디오 데이터를 수신할 수도 있다. 컴퓨터 판독가능 매체는, 인코딩된 비디오 데이터를 소스 디바이스로부터 목적지 디바이스로 이동시킬 수 있는 임의의 타입의 매체 또는 디바이스를 포함할 수도 있다. 일 예에서, 컴퓨터 판독가능 매체는, 소스 디바이스로 하여금 실시간으로 직접 목적지 디바이스로 직접, 인코딩된 비디오 데이터를 송신할 수 있게 하기 위한 통신 매체를 포함할 수도 있다. 인코딩된 비디오 데이터는, 무선 통신 프로토콜 등의 통신 표준에 따라 변조되고, 목적지 디바이스로 송신될 수도 있다. 통신 매체는 라디오 주파수 (radio frequency; RF) 스펙트럼 또는 하나 이상의 물리적 송신 라인들과 같은 임의의 무선 또는 유선 통신 매체를 포함할 수도 있다. 통신 매체는 로컬 영역 네트워크, 광역 네트워크, 또는 인터넷과 같은 글로벌 네트워크와 같은 패킷-기반 네트워크의 일부를 형성할 수도 있다. 통신 매체는 라우터, 스위치, 기지국, 또는 소스 디바이스로부터 목적지 디바이스로 통신을 용이하게 하는데 유용할 수도 있는 임의의 다른 장비를 포함할 수도 있다.

일부 예에서, 인코딩된 데이터는 출력 인터페이스로부터 저장 디바이스로 출력될 수도 있다. 유사하게, 인코딩된 데이터는 입력 인터페이스에 의해 저장 디바이스로부터 액세스될 수도 있다. 저장 디바이스는, 하드 드라이브, 블루레이 디스크, DVD, CD-ROM, 플래시 메모리, 휘발성 또는 비휘발성 메모리, 또는 인코딩된 비디오 데이터를 저장하기 위한 임의의 다른 적합한 디지털 저장 매체 등의 다양한 분산형 또는 로컬적으로 액세스되는 데이터 저장 매체 중 어느 것을 포함할 수도 있다. 다른 예에서, 저장 디바이스는, 소스 디바이스에 의해 생성되는 인코딩된 비디오를 저장할 수도 있는, 파일 서버 또는 또 다른 중간 저장 디바이스에 대응할 수도 있다. 목적지 디바이스는, 스트리밍 또는 다운로드를 통해 저장 디바이스로부터 저장된 비디오 데이터에 액세스할 수도 있다. 파일 서버는, 인코딩된 비디오 데이터를 저장하고 그 인코딩된 비디오 데이터를 목적지 디바이스로 송신할 수 있는 임의의 타입의 서버일 수도 있다. 예시적인 파일 서버들은, (예를 들어, 웹사이트용) 웹 서버, FTP 서버, NAS (network attached storage) 디바이스, 또는 로컬 디스크 드라이브를 포함한다. 목적지 디바이스는, 인터넷 접속을 포함한, 임의의 표준 데이터 접속을 통해 인코딩된 비디오 데이터에 액세스할 수도 있다. 이것은, 파일 서버 상에 저장된 인코딩된 비디오 데이터를 액세스하기 위해 적당한 무선 채널 (예컨대, Wi-Fi 접속), 유선 접속 (예컨대, DSL, 케이블 모뎀 등), 또는 양자의 조합을 포함할 수도 있다. 저장 디바이스로부터의 인코딩된 비디오 데이터의 송신은 스트리밍 송신, 다운로드 송신, 또는 그 조합일 수도 있다.

이 개시의 기법들은 무선 애플리케이션들 또는 세팅들로 반드시 제한되는 것은 아니다. 그 기법들은, 공중 경유 (over-the-air) 텔레비전 브로드캐스트, 케이블 텔레비전 송신, 위성 텔레비전 송신, DASH (dynamic adaptive streaming over HTTP) 와 같은 인터넷 스트리밍 비디오 송신, 데이터 저장 매체 상에 인코딩되는 디지털 비디오, 데이터 저장 매체 상에 저장된 디지털 비디오의 디코딩, 또는 다른 애플리케이션 등의 다양한 멀티미디어 애플리케이션들 중 어느 것을 지원하는 비디오 코딩에 적용될 수도 있다. 일부 예에서, 시스템은, 비디오 스트리밍, 비디오 플레이백, 비디오 브로드캐스팅 및/또는 화상 통화등의 애플리케이션들을 지원하기 위하여 일방향 또는 양방향 비디오 송신을 지원하도록 구성될 수도 있다.

일 예에서, 소스 디바이스는 비디오 소스, 비디오 인코더, 및 출력 인터페이스를 포함한다. 목적지 디바이스는, 입력 인터페이스, 비디오 디코더, 및 디스플레이 디바이스를 포함할 수도 있다. 소스 디바이스의 비디오 인코더는 본원에 개시된 기법들을 적용하도록 구성될 수도 있다. 다른 예들에서, 소스 디바이스 및 목적지 디바이스는 다른 컴포넌트들 또는 배열 (arrangement) 들을 포함할 수도 있다. 예를 들어, 소스 디바이스는 외부 카메라와 같은 외부 비디오 소스로부터 비디오 데이터를 수신할 수도 있다. 마찬가지로, 목적지 디바이스는 통합된 디스플레이 디바이스를 포함하기 보다는, 외부 디스플레이 디바이스와 인터페이스 접속할 수도 있다.

위의 시스템 예는 하나의 예일 뿐이다. 병렬로 비디오 데이터를 프로세싱하기 위한 기법들은 임의의 디지털 비디오 인코딩 및/또는 디코딩 디바이스에 의해 수행될 수도 있다. 일반적으로 본 개시의 기법들은 비디오 인코딩 디바이스에 의해 수행되지만, 그 기법들은 또한 "코덱 (CODEC)" 으로서 통상적으로 지칭되는, 비디오 인코더/디코더에 의해 수행될 수도 있다. 더욱이, 본 개시의 기법들은 또한 비디오 프리프로세서에 의해 수행될 수도 있다. 소스 디바이스 및 목적지 디바이스는, 소스 디바이스가 목적지 디바이스로의 송신을 위해 코딩된 비디오 데이터를 생성하는 그러한 코딩 디바이스들의 예들일 뿐이다. 일부 예에서, 소스 및 목적지 디바이스들은, 디바이스들의 각각이 비디오 인코딩 및 디코딩 컴포넌트들을 포함하도록 실질적으로 대칭적인 방식으로 동작할 수도 있다. 그러므로, 예의 시스템들은 예를 들면, 비디오 스트리밍, 비디오 플레이백, 비디오 브로드캐스팅 또는 화상 통화를 위해, 비디오 디바이스들간의 일방향 또는 양방향 비디오 송신을 지원할 수도 있다.

비디오 소스는 비디오 카메라와 같은 비디오 캡처 디바이스, 이전에 캡처된 비디오를 포함하는 비디오 아카이브 (video archive), 및/또는 비디오 콘텐트 제공자로부터 비디오를 수신하기 위한 비디오 피드 인터페이스 (video feed interface) 를 포함할 수도 있다. 추가의 대안으로서, 비디오 소스는 라이브 비디오, 보관된 비디오 및 컴퓨터 생성된 비디오의 조합, 또는 소스 비디오로서 컴퓨터 그래픽스 기반 데이터를 생성할 수도 있다. 일부 경우들에서, 비디오 소스가 비디오 카메라이면, 소스 디바이스 및 목적지 디바이스는 소위 카메라 폰들 또는 비디오 폰들을 형성할 수도 있다. 하지만, 위에서 언급된 바처럼, 본 개시에 설명된 기법들은, 일반적으로 비디오 코딩에 적용가능할 수도 있고, 무선 및/또는 유선 응용들에 적용될 수도 있다. 각 경우에서, 캡처되거나, 미리 캡처되거나, 또는 컴퓨터 생성된 비디오는 비디오 인코더에 의해 인코딩될 수도 있다. 다음으로, 인딩된 비디오 정보는 컴퓨터 판독가능 매체 상으로 출력 인터페이스에 의해 출력될 수도 있다.

언급된 바처럼, 컴퓨터 판독가능 매체는, 무선 브로드캐스트 또는 유선 네트워크 송신 등의 일시적 매체, 또는 하드 디스크, 플래시 드라이브, 컴팩트 디스크, 디지털 비디오 디스크, 블루레이 디스크 또는 다른 컴퓨터 판독가능 매체 등의 저장 매체 (즉, 비일시적 저장 매체) 를 포함할 수도 있다. 일부 예들에서, 네트워크 서버 (미도시) 는 소스 디바이스로부터 인코딩된 비디오 데이터를 수신하고 그 인코딩된 비디오 데이터를 목적지 디바이스로, 예를 들어, 네트워크 송신을 통해 제공할 수도 있다. 유사하게, 디스크 스탬핑 설비 등의 매체 제조 설비의 컴퓨팅 디바이스는, 소스 디바이스로부터 인코딩된 비디오 데이터를 수신하고 그 인코딩된 비디오 데이터를 포함하는 디스크를 제조할 수도 있다. 그러므로, 컴퓨터 판독가능 매체는, 다양한 예들에서, 다양한 형태들의 하나 이상의 컴퓨터 판독가능 매체를 포함하는 것으로 이해될 수도 있다.

목적지 디바이스의 입력 인터페이스는 컴퓨터 판독가능 매체로부터 정보를 수신한다. 컴퓨터 판독가능 매체의 정보는 비디오 인코더에 의해 정의된 신택스 정보를 포함할 수도 있고, 이는 또한 비디오 디코더에 의해 사용되고, 블록들 및 다른 코딩된 유닛들, 예컨대, 화상들의 그룹 (GOP) 의 프로세싱 및/또는 특성들을 기술하는 신택스 엘리먼트들을 포함한다. 디스플레이 디바이스는 디코딩된 비디오 데이터를 사용자에게 디스플레이하고, 음극선관 (CRT), 액정 디스플레이 (LCD), 플라즈마 디스플레이, 유기 발광 다이오드 (OLED) 디스플레이, 또는 다른 타입의 디스플레이 디바이스와 같은 다양한 디스플레이 디바이스들 중 어느 것을 포함할 수도 있다. 본 발명의 다양한 실시형태들이 설명되었다.

인코딩 디바이스 (2004) 및 디코딩 디바이스 (2112) 의 구체적 상세들이 각각 도 20 및 도 21에 도시된다. 도 20은 본 개시에 기재된 기법들 중 하나 이상을 구현할 수도 있는 예시적인 인코딩 디바이스 (2004) 를 나타내는 블록도이다. 인코딩 디바이스 (2004) 는 예를 들어, 본원에 기재된 신택스 구조 (예를 들어, VPS, SPS, PPS 또는 다른 신택스 엘리먼트들의 신택스 구조) 를 생성할 수도 있다. 인코딩 디바이스 (2004) 는, 비디오 슬라이스들 내의 비디오 블록들의 인트라-예측 및 인터-예측을 수행할 수도 있다. 앞서 설명된 바처럼, 인트라-코딩은, 주어진 비디오 프레임 또는 화상 내에서 공간적 중복성을 감소 또는 제거하기 위하여 공간적 예측에 적어도 부분적으로, 의거한다. 인터-코딩은, 비디오 시퀀스의 인접 또는 주위 프레임들 내에서 시간적 중복성을 감소 또는 제거하기 위하여 시간적 예측에 적어도 부분적으로, 의거한다. 인트라 모드 (I 모드) 는 여러 공간 기반 압축 모드들 중 어느 것을 나타낼 수도 있다. 인터 모드들, 이를테면 단방향 예측 (P 모드) 또는 양방향 예측 (B 모드) 은, 여러 시간 기반 압축 모드들 중 어느 것을 나타낼 수도 있다.

인코딩 디바이스 (2004) 는, 파티셔닝 유닛 (35), 예측 프로세싱 유닛 (41), 필터 유닛 (63), 화상 메모리 (64), 합산기 (50), 변환 프로세싱 유닛 (52), 양자화 유닛 (54), 및 엔트로피 인코딩 유닛 (56) 을 포함한다. 예측 프로세싱 유닛 (41) 은 모션 추정 유닛 (42), 모션 보상 유닛 (44) 및 인트라-예측 프로세싱 유닛 (46) 을 포함한다. 비디오 블록 재구성을 위해, 인코딩 디바이스 (2004) 는 또한 역 양자화 유닛 (58), 역 변환 프로세싱 유닛 (60), 및 합산기 (62) 를 포함한다. 필터 유닛 (63) 은 디블록킹 필터, ALF (adaptive loop filter) 및 SAO (sample adaptive offset) 필터 등의 하나 이상의 루프 필터들을 나타내도록 의도된다. 필터 유닛 (63) 이 인루프 필터인 것으로서 도 20에 도시되어 있지만, 다른 구성들에서, 필터 유닛 (63) 은 포스트 루프 필터로서 구현될 수도 있다. 포스트 프로세싱 디바이스 (57) 는 인코딩 디바이스 (2004) 에 의해 생성된 인코딩된 비디오 데이터에 대해 추가적인 프로세싱을 수행할 수도 있다. 이 개시의 기술들은 일부 경우들에서 인코딩 디바이스 (2004) 에 의해 구현될 수도 있다. 그러나, 다른 경우들에서, 본 개시의 기술들 중 하나 이상은 포스트 프로세싱 디바이스 (57) 에 의해 구현될 수도 있다.

도 20 에 도시된 바처럼, 인코딩 디바이스 (2004) 는 비디오 데이터를 수신하고 파티셔닝 유닛 (35) 은 데이터를 비디오 블록들로 파티셔닝한다. 파티셔닝은 또한, 예를 들어, LCU 및 CU 들의 쿼드트리 구조에 따른, 비디오 블록 파티셔닝 뿐만 아니라 슬라이스들, 슬라이스 세그먼트들, 타일들 또는 다른 더 큰 유닛들로의 파티셔닝을 포함할 수도 있다. 인코딩 디바이스 (2004) 는 일반적으로, 인코딩될 비디오 슬라이스 내의 비디오 블록들을 인코딩하는 컴포넌트들을 예시한다. 슬라이스는, 다수의 비디오 블록들로 (그리고 가능하게는 타일들로 지칭되는 비디오 블록들의 세트들로) 분할될 수도 있다. 예측 프로세싱 유닛 (41) 은, 복수의 가능한 코딩 모들 중 하나, 이를테면 복수의 인트라-예측 코딩 모드들 중 하나 또는 복수의 인터-예측 코딩 모드들 중 하나를, 에러 결과 (예를 들어, 코딩 레이트 및 왜곡의 레벨 등) 에 기초하여 현재 비디오 블록에 대해 선택할 수도 있다. 예측 프로세싱 유닛 (41) 은 결과적인 인트라 또는 인터 코딩 블록을 합산기 (50) 에 제공하여 잔차 블록 데이터를 생성하고 합산기 (62) 에 제공하여 레퍼런스 화상으로서의 사용을 위해 인코딩된 블록을 재구성할 수도 있다.

예측 프로세싱 유닛 (41) 내의 인트라 예측 프로세싱 유닛 (46) 은 코딩될 현재 블록과 동일한 프레임 또는 슬라이스에서의 하나 이상의 이웃 블록들에 대해 현재 비디오 블록의 인트라-예측 코딩을 수행하여 공간적 압축을 제공할 수도 있다. 예측 프로세싱 유닛 (41) 내의 모션 추정 유닛 (42) 및 모션 보상 유닛 (44) 은 하나 이상의 레퍼런스 화상들에서의 하나 이상의 예측 블록들에 대해 현재 비디오 블록의 인터 예측 코딩을 수행해 시간적 압축을 제공한다.

모션 추정 유닛 (42) 은, 비디오 시퀀스에 대해 미리결정된 패턴에 따라 비디오 슬라이스를 위한 인터 예측 모드를 결정하도록 구성될 수도 있다. 미리결정된 패턴은, P 슬라이스들, B 슬라이스들 또는 GPB 슬라이스들로서 시퀀스에서 비디오 슬라이스들을 지정할 수도 있다. 모션 추정 유닛 (42) 및 모션 보상 유닛 (44) 은 고도로 통합될 수도 있지만, 개념적인 목적들을 위하여 별도로 예시되어 있다. 모션 추정 유닛 (42) 에 의해 수행된 모션 추정은 비디오 블록들을 위한 모션을 추정하는 모션 벡터들을 생성하는 프로세스이다. 예를 들어, 모션 벡터는, 레퍼런스 화상 내의 예측 블록에 대해 현재 비디오 프레임 또는 화상 내의 비디오 블록의 예측 유닛 (PU) 의 변위를 나타낼 수도 있다.

예측 블록은, 절대 차이의 합 (sum of absolute difference; SAD), 제곱 차이의 합 (sum of square difference; SSD), 또는 다른 차이 메트릭들에 의해 결정될 수도 있는, 화소 차이에 관하여, 코딩될 비디오 블록의 PU에 밀접하게 매칭하는 것으로 구해진 블록이다. 일부 예에서, 인코딩 디바이스 (2004) 는 화상 메모리 (64) 에 저장된 레퍼런스 화상들의 서브 정수 픽셀 위치 (sub-integer pixel position) 들을 위한 값들을 계산할 수도 있다. 예를 들어, 인코딩 디바이스 (2004) 는 레퍼런스 화상의 1/4 픽셀 위치들, 1/8 픽셀 위치들, 또는 다른 분수 픽셀 위치들의 값들을 보간할 수도 있다. 그러므로, 모션 추정 유닛 (42) 은 전체 픽셀 위치들 및 분수 픽셀 위치들에 관련하여 모션 검색을 수행할 수도 있고, 분수 픽셀 정밀도를 갖는 모션 벡터를 출력할 수도 있다.

모션 추정 유닛 (42) 은, PU 의 위치와 레퍼런스 화상의 예측 블록의 위치를 비교함으로써 인터 코딩된 슬라이스에서 비디오 블록의 PU를 위한 모션 벡터를 계산한다. 레퍼런스 화상은 제 1 레퍼런스 화상 리스트 (List 0) 또는 제 2 레퍼런스 화상 리스트 (List 1) 로부터 선택될 수도 있고, 이들의 각각은 화상 메모리 (64) 내에 저장된 하나 이상의 레퍼런스 화상들을 식별한다. 모션 추정 유닛 (42) 은 계산된 모션 벡터를 엔트로피 인코딩 유닛 (56) 및 모션 보상 유닛 (44) 으로 전송한다.

모션 보상 유닛 (44) 에 의해 수행된 모션 보상은, 모션 추정에 의해 결정된 모션 벡터에 기초한 예측 블록의 페칭 (fetching) 또는 생성을 수반할 수도 있으며, 가능하게는 서브-픽셀 정밀도로 보간을 수행한다. 현재 비디오 블록의 PU를 위한 모션 벡터의 수신시에, 모션 보상 유닛 (44) 은, 모션 벡터가 레퍼런스 화상 리스트에서 가리키는 예측 블록을 로케이팅할 수도 있다. 인코딩 디바이스 (2004) 는, 코딩되고 있는 현재 비디오 블록의 픽셀 값들로부터 예측 블록의 픽셀 값들을 감산하여, 픽셀 차이 값들을 형성함으로써, 잔차 비디오 블록을 형성한다. 픽셀 차이 값들은, 블록을 위한 잔차 데이터를 형성하고, 루마 및 크로마 차이 컴포넌트들 양자 모두를 포함할 수도 있다. 합산기 (50) 는 이 감산 연산을 수행하는 컴포넌트 또는 컴포넌트들을 나타낸다. 모션 보상 유닛 (44) 은 또한, 비디오 슬라이스의 비디오 블록들을 디코딩함에 있어서 디코딩 디바이스 (2112) 에 의한 사용을 위해 비디오 블록들 및 비디오 슬라이스와 연관된 신택스 엘리먼트들을 생성할 수도 있다.

인트라 예측 프로세싱 유닛 (46) 은, 상술된 바와 같이, 모션 추정 유닛 (42) 및 모션 보상 유닛 (44) 에 의해 수행되는 인터 예측에 대한 대안으로서, 현재 블록을 인트라 예측할 수도 있다. 특히, 인트라 예측 프로세싱 유닛 (46) 은 현재 블록을 인코딩하는데 이용할 인트라 예측 모드를 결정할 수도 있다. 일부 예들에서, 인트라 예측 프로세싱 유닛 (46) 은, 예를 들어, 별도의 인코딩 패스들 동안에, 다양한 인트라 예측 모드들을 이용하여 현재 블록을 인코딩할 수도 있고, 인트라 예측 프로세싱 유닛 (46) (또는, 일부 예들에서, 모드 선택 유닛 (40)) 은 테스트된 모드들로부터 이용할 적절한 인트라 예측 모드를 선택할 수도 있다. 예를 들어, 인트라 예측 프로세싱 유닛 (46) 은 다양한 테스트된 인트라 예측 모드들을 위해 레이트 왜곡 분석을 이용하여 레이트 왜곡 값들을 산출하고, 테스트된 모드들 중에서 최상의 레이트 왜곡 특성들을 갖는 인트라 예측 모드를 선택할 수도 있다. 레이트 왜곡 분석은 일반적으로, 인코딩된 블록과, 인코딩된 블록을 생성하기 위해 인코딩되었던 원래의 인코딩되지 않은 블록 사이의 왜곡 (또는 에러) 의 양 뿐만 아니라 인코딩된 블록을 생성하는데 이용된 비트 레이트 (즉, 비트들의 수) 를 결정한다. 인트라 예측 프로세싱 유닛 (46) 은 그 왜곡들로부터 비율 (ratio) 및 여러 인코딩된 블록들을 위한 레이트들을 산출하여 어느 인트라 예측 모드가 블록을 위한 최상의 레이트 왜곡 값을 나타내는지를 결정할 수도 있다.

어느 경우든, 블록을 위한 인트라 예측 모드를 선택한 후에, 인트라 예측 프로세싱 유닛 (46) 은 엔트로피 인코딩 유닛 (56) 에 그 블록을 위해 선택된 인트라 예측 모드를 나타내는 정보를 제공할 수도 있다. 엔트로피 인코딩 유닛 (56) 은 선택된 인트라 예측 모드를 표시하는 정보를 인코딩할 수도 있다. 인코딩 디바이스 (2004) 는, 각 콘텍스트에 사용할 가장 가능성있는 인트라-예측 모드, 인트라-예측 모드 인덱스 테이블 및 수정된 인트라-예측 모드 인덱스 테이블의 표시뿐만 아니라 다양한 블록에 대한 인코딩 콘텍스트의 정의들을 송신된 비트스트림 구성 데이터에서 포함할 수도 있다. 비트스트림 구성 데이터는 복수의 인트라 예측 모드 인덱스 테이블 및 복수의 수정된 인트라 예측 모드 인덱스 테이블 (코드워드 매핑 테이블이라고도 함) 을 포함할 수도 있다.

예측 프로세싱 유닛 (41) 이 인터-예측 또는 인트라-예측 중 어느 하나를 통해 현재 비디오 블록에 대한 예측 블록을 생성한 후에, 인코딩 디바이스 (2004) 는 현재 비디오 블록으로부터 예측 블록을 감산함으로써 잔차 비디오 블록을 형성한다. 잔차 블록에서 잔차 비디오 데이터는 하나 이상의 TU 들에 포함될 수도 있고 변환 프로세싱 유닛 (52) 에 적용될 수도 있다. 변환 프로세싱 유닛 (52) 은 DCT (discrete cosine transform) 또는 개념적으로 유사한 변환과 같은 변환을 이용하여 잔차 변환 계수들로 잔차 비디오 데이터를 변환한다. 변환 프로세싱 유닛 (52) 은 잔차 비디오 데이터를 픽셀 도메인으로부터 변환 도메인, 이를테면 주파수 도메인으로 변환할 수도 있다.

변환 프로세싱 유닛 (52) 은 양자화 유닛 (54) 에 결과적인 변환 계수들을 전송할 수도 있다. 양자화 유닛 (54) 은 변환 계수들을 양자화하여 비트레이트를 더 감소시킨다. 양자화 프로세스는 계수들의 일부 또는 전부와 연관된 비트 심도를 감소시킬 수도 있다. 양자화도 (degree of quantization) 는 양자화 파라미터를 조정함으로써 수정될 수도 있다. 다음으로, 일부 예들에서, 양자화 유닛 (54) 은 양자화된 변환 계수들을 포함하는 매트릭스의 스캔을 수행할 수도 있다. 대안적으로, 엔트로피 인코딩 유닛 (56) 이 스캔을 수행할 수도 있다.

양자화 다음에, 엔트로피 인코딩 유닛 (56) 은 양자화된 변환 계수들을 엔트로피 인코딩한다. 예를 들어, 엔트로피 인코딩 유닛 (56) 은 컨텍스트-적응 가변 길이 코딩 (context adaptive variable length coding; CAVLC), 컨텍스트 적응 2 진 산술 코딩 (CABAC), 신택스-기반 컨텍스트-적응 2 진 산술 코딩 (syntax-based context-adaptive binary arithmetic coding; SBAC), 확률 간격 파티셔닝 엔트로피 (probability interval partitioning entropy; PIPE) 코딩 또는 또 다른 엔트로피 인코딩 기법을 수행할 수도 있다. 엔트로피 인코딩 유닛 (56) 에 의한 엔트로피 인코딩 다음에, 인코딩된 비트스트림은, 디코딩 디바이스 (2112) 로 송신되거나 또는 디코딩 디바이스 (2112) 에 의한 나중의 송신 또는 취출을 위해 보관될 수도 있다. 엔트로피 인코딩된 유닛 (56) 은 또한, 모션 벡터들 그리고 코딩되고 있는 현재 비디오 슬라이스를 위한 다른 신택스 엘리먼트들을 엔트로피 인코딩할 수도 있다.

역 양자화 유닛 (58) 및 역 변환 프로세싱 유닛 (60) 은 역 양자화 및 역 변환을 각각 적용하여, 레퍼런스 화상의 레퍼런스 블록으로서 나중에 사용하기 위해 픽셀 도메인에서 잔차 블록을 재구성한다. 모션 보상 유닛 (44) 은, 레퍼런스 화상 리스트 내 하나의 레퍼런스 화상의 예측 블록에 잔차 블록을 가산함으로써 레퍼런스 블록을 계산할 수도 있다. 모션 보상 유닛 (44) 은 또한 하나 이상의 보간 필터들을 그 재구성된 잔차 블록에 적용하여, 모션 추정에 사용하기 위한 서브 정수 픽셀 값들을 산출할 수도 있다. 합산기 (62) 는 재구성된 잔차 블록을 모션 보상 유닛 (44) 에 의해 생성되는 모션 보상된 예측 블록에 가산하여 레퍼런스 블록을 생성해 화상 메모리 (64) 에 저장한다. 레퍼런스 블록은 모션 추정 유닛 (42) 및 모션 보상 유닛 (44) 에 의해 레퍼런스 블록으로서 사용되어 후속 비디오 프레임 또는 화상에서 블록을 인터 예측할 수도 있다.

이러한 방식으로, 도 20의 인코딩 디바이스 (2004) 는 인코딩된 비디오 비트스트림을 위한 신택스를 생성하도록 구성된 비디오 인코더의 일례를 나타낸다. 인코딩 디바이스 (2004) 는 예를 들어, 전술한 바와 같이, VPS, SPS 및 PPS 파라미터 세트를 생성할 수도 있다. 인코딩 디바이스 (2004) 는 전술한 프로세스를 포함하는 본원에 설명된 기술 중 임의의 것을 수행할 수도 있다. 본 개시의 기술은 일반적으로 인코딩 디바이스 (2004) 와 관련하여 설명되었지만, 전술한 바와 같이, 본 개시의 기술 중 일부는 또한, 포스트 프로세싱 디바이스 (57) 에 의해 구현될 수도 있다.

도 21은 예시적 디코딩 디바이스 (2112) 를 나타내는 블록도이다. 디코딩 디바이스 (2112) 는, 엔트로피 디코딩 유닛 (80), 예측 프로세싱 유닛 (81), 역 양자화 유닛 (86), 역 변환 프로세싱 유닛 (88), 합산기 (90), 필터 유닛 (91), 및 화상 메모리 (92) 를 포함한다. 예측 프로세싱 유닛 (81) 은, 모션 보상 유닛 (82) 및 인트라 예측 프로세싱 유닛 (84) 을 포함한다. 디코딩 디바이스 (2112) 는, 일부 예에서, 도 20 로부터의 인코딩 디바이스 (2004) 에 대해 설명된 인코딩 패스에 일반적으로 상반되는 디코딩 패스를 수행할 수도 있다.

디코딩 프로세스 동안, 디코딩 디바이스 (2112) 는, 인코딩 디바이스 (2004) 에 의해 전송된 인코딩된 비디오 슬라이스의 비디오 블록들 및 연관된 신택스 엘리먼트들을 나타내는 인코딩된 비디오 비트스트림을 수신한다. 일부 실시형태에서, 디코딩 디바이스 (2112) 는 인코딩 디바이스 (2004) 로부터 인코딩된 비디오 비트스트림을 수신할 수도 있다. 일부 실시형태에서, 디코딩 디바이스 (2112) 는 전술된 기법들 중 하나 이상을 구현하도록 구성된 서버, 미디어 인식 네트워크 엘리먼트 (MANE), 비디오 편집기/스플라이서, 또는 다른 그러한 디바이스와 같은 네트워크 엔티티 (79) 로부터 인코딩된 비디오 비트스트림을 수신할 수도 있다. 네트워크 엔티티 (79) 는 인코딩 디바이스 (2004) 를 포함할 수도 있거나 또는 그렇지 않을 수도 있다. 본 개시에 설명된 기법들의 일부는, 네트워크 엔티티 (79) 가 인코딩된 비디오 비트스트림을 디코딩 디바이스 (2112) 로 송신하기 전에 네트워크 엔티티 (79) 에 의해 구현될 수도 있다. 일부 비디오 디코딩 시스템들에서, 네트워크 엔티티 (79) 및 디코딩 디바이스 (2112) 는 별개의 디바이스들의 부분들일 수도 있지만, 다른 사례들에서는, 네트워크 엔티티 (79) 에 대해 설명된 기능은, 디코딩 디바이스 (2112) 를 포함하는 동일한 디바이스에 의해 수행될 수도 있다.

디코딩 디바이스 (2112) 의 엔트로피 디코딩 유닛 (80) 은 양자화된 계수들, 모션 벡터들, 및 다른 신텍스 엘리먼트들을 생성하기 위하여 비트스트림을 엔트로피 디코딩한다. 엔트로피 디코딩 유닛 (80) 은 모션 벡터들 및 다른 신택스 엘리먼트들을 예측 프로세싱 유닛 (81) 에 포워딩한다. 디코딩 디바이스 (2112) 는 비디오 슬라이스 레벨 및/또는 비디오 블록 레벨에서 신택스 엘리먼트들을 수신할 수도 있다. 엔트로피 디코딩 유닛 (80)은 VPS, SPS 및 PPS 와 같은 하나 이상의 파라미터 세트에서 고정 길이 신택스 엘리먼트 및 가변 길이 신택스 엘리먼트 양자 모두를 프로세싱 및 파싱할 수도 있다.

비디오 슬라이스가 인트라 코딩된 (I) 슬라이스로서 코딩될 때, 예측 프로세싱 유닛 (81) 의 인트라 예측 프로세싱 유닛 (84) 은, 현재 프레임 또는 화상의 이전에 디코딩된 블록들로부터 시그널링된 인트라 예측 모드 및 데이터에 기초하여 현재 비디오 슬라이스의 비디오 블록을 위한 예측 데이터를 생성할 수도 있다. 비디오 프레임이 인터 코딩된 (즉, B, P 또는 GPB) 슬라이스로서 코딩될 때, 예측 프로세싱 유닛 (81) 의 모션 보상 유닛 (82) 은 엔트로피 디코딩 유닛 (80) 으로부터 수신된 모션 벡터들 및 다른 신택스 엘리먼트들에 기초하여 현재 비디오 슬라이스의 비디오 블록을 위한 예측 블록들을 생성한다. 예측 블록들은 레퍼런스 화상 리스트 내의 하나의 레퍼런스 화상으로부터 생성될 수도 있다. 디코딩 디바이스 (2112) 는 화상 메모리 (92) 에 저장된 레퍼런스 화상들에 기초하여 디폴트 (default) 구성 기법들을 이용하여 레퍼런스 프레임 리스트들, List 0 및 List 1 을 구성할 수도 있다.

모션 보상 유닛 (82) 은, 모션 벡터들 및 다른 신택스 엘리먼트들을 파싱 (parsing) 하여 현재 비디오 슬라이스의 비디오 블록을 위한 예측 정보를 결정하고, 그 예측 정보를 사용하여 디코딩되고 있는 현재 비디오 블록을 위한 예측 블록들을 생성한다. 예를 들어, 모션 보상 유닛 (82) 은 파라미터 세트에서 하나 이상의 신택스 엘리먼트들을 사용하여 비디오 슬라이스의 비디오 블록들을 코딩하는데 사용된 예측 모드 (예를 들어, 인트라 또는 인터 예측), 인터 예측 슬라이스 유형 (예를 들어, B 슬라이스, P 슬라이스, 또는 GPB 슬라이스), 슬라이스를 위한 하나 이상의 레퍼런스 화상 리스트들을 위한 구성 정보, 슬라이스의 각각의 인터 인코딩된 비디오 블록을 위한 모션 벡터들, 슬라이스의 각각의 인터 코딩된 비디오 블록을 위한 인터 예측 상태, 및 현재 비디오 슬라이스에서 비디오 블록들을 디코딩하기 위한 다른 정보를 결정한다.

모션 보상 유닛 (82) 은 또한, 보간 필터들에 기초하여 보간을 수행할 수도 있다. 모션 보상 유닛 (82) 은 비디오 블록들의 인코딩 동안 인코딩 디바이스 (2004) 에 의해 이용되는 보간 필터들을 이용하여 레퍼런스 블록들의 서브 정수 픽셀들을 위한 보간된 값들을 계산할 수도 있다. 이 경우에, 모션 보상 유닛 (82) 은 수신된 신택스 엘리먼트들로부터 인코딩 디바이스 (2004) 에 의해 이용된 보간 필터들을 결정하고, 그 보간 필터들을 이용하여 예측 블록들을 생성할 수도 있다.

역 양자화 유닛 (86) 은 비트스트림에서 제공되고 엔트로피 디코딩 유닛 (80) 에 의해 디코딩된 양자화된 변환 계수들을 역 양자화 또는 탈양자화한다. 역 양자화 프로세스는, 양자화의 정도, 그리고, 마찬가지로, 적용되어야 하는 역 양자화의 정도를 결정하기 위해, 비디오 슬라이스에서 각 비디오 블록에 대해 인코딩 디바이스 (2004) 에 의해 산출된 양자화 파라미터의 이용을 포함할 수도 있다. 역 변환 프로세싱 유닛 (88) 은, 픽셀 도메인에서 잔차 블록들을 생성하기 위해 변환 계수들에, 역 변환 (예를 들어, 역 DCT 또는 다른 적합한 역 변환), 역 정수 변환, 또는 개념적으로 유사한 역 변환 프로세스를 적용한다.

모션 보상 유닛 (82) 이 모션 벡터들 및 다른 신택스 엘리먼트들에 기초하여 현재의 비디오 블록을 위한 예측 블록을 생성한 후, 디코딩 디바이스 (2112) 는 역변환 유닛 (88) 으로부터의 잔차 블록들을 모션 보상 유닛 (82) 에 의해 생성된 대응하는 예측 블록들과 합산함으로써 디코딩된 비디오 블록을 형성한다. 합산기 (90) 는 이 합산 연산을 수행하는 컴포넌트 또는 컴포넌트들을 나타낸다. 원하는 경우, (코딩 루프내 또는 코딩 루프 후의) 루프 필터들이 또한 픽셀 천이들을 매끄럽게 하거나 또는 다른 방법으로 비디오 품질을 향상시키는데 사용될 수도 있다. 필터 유닛 (91) 은 디블록킹 필터, ALF (adaptive loop filter) 및 SAO (sample adaptive offset) 필터 등의 하나 이상의 루프 필터들을 나타내도록 의도된다. 필터 유닛 (91) 이 인루프 필터인 것으로서 도 21에 도시되어 있지만, 다른 구성들에서, 필터 유닛 (91) 은 포스트 루프 필터로서 구현될 수도 있다. 다음으로, 정해진 프레임 또는 화상에서 디코딩된 비디오 블록들은 화상 메모리 (92) 에 저장되고, 이는 후속 모션 보상을 위해 사용된 레퍼런스 화상들을 저장한다. 화상 메모리 (92) 는 또한, 도 1에 도시된 비디오 목적지 디바이스 (122) 와 같은 디스플레이 디바이스 상에 나중에 표출하기 위해 디코딩된 비디오를 저장한다.

이전의 설명에서, 본원의 양태들은 이들의 구체적 실시형태를 참조하여 설명되었지만, 당업자는 본 발명이 이에 한정되지 않는다는 것을 인식할 것이다. 따라서, 본원의 예시적 실시 형태들이 본원에서 상세하게 설명되었지만, 본 발명의 개념은 이와 달리 다양하게 구체화되고 채용될 수도 있으며, 첨부된 청구 범위는 선행 기술에 의해 제한되는 것을 제외하고는 그러한 변형을 포함하는 것으로 해석되도록 의도된다 전술한 본 발명의 다양한 특징 및 양태는 개별적으로 또는 공동으로 사용될 수도 있다. 또한, 실시형태들은 본 명세서의 더 넓은 사상 및 범위를 벗어나지 않으면서 본원에 기재된 것 이외의 임의의 수의 환경 및 응용들에서 이용될 수 있다. 따라서, 명세서 및 도면들은 제한적이 아닌 예시적인 것으로 간주되야 한다. 예시의 목적 상, 방법은 특정 순서로 설명되었다. 대안적인 실시 형태에서, 그 방법들은 설명된 것과 상이한 순서로 수행될 수도 있다는 것을 이해해야 한다.

컴포넌트들이 특정 동작을 수행하도록 "구성된" 것으로 기술되는 경우, 그러한 구성은 예를 들어, 전자 회로 또는 다른 하드웨어를 설계하여 그 동작을 수행하는 것에 의해, 프로그래밍 가능한 전자 회로 (예를 들어, 마이크로프로세서 또는 다른 적절한 전자 회로) 를 프로그래밍하여 그 동작을 수행하는 것에 의해 또는 이들의 임의의 조합에 의해, 달성될 수 있다.

여기에 개시된 실시형태들과 관련하여 설명된 다양한 예시적인 논리 블록, 모듈, 회로, 및 알고리즘 단계들이 전자 하드웨어, 컴퓨터 소프트웨어, 펌웨어, 또는 이들의 조합으로 구현될 수도 있다. 하드웨어와 소프트웨어의 이러한 상호교환가능성을 명확히 예시하기 위해, 다양한 예시적인 컴포넌트, 블록, 모듈, 회로, 및 단계가 일반적으로 그들의 기능성의 측면에서 위에서 설명되었다. 그러한 기능이 하드웨어 또는 소프트웨어로 구현될지 여부는, 전체 시스템에 부과된 특정 응용 및 설계 제약에 달려 있다. 당업자는 설명된 기능을 각각의 특정 애플리케이션에 대해 다른 방식으로 구현할 수도 있지만, 이러한 구현 결정이 본 발명의 범위로부터 이탈을 야기하는 것으로 해석되지는 않아야 한다.

본 개시에 기술된 기법들은 또한 전자 하드웨어, 컴퓨터 소프트웨어, 펌웨어 또는 이들의 임의의 조합으로 구현될 수도 있다. 그러한 기법들은 범용 컴퓨터, 무선 통신 디바이스 핸드세트, 또는 무선 통신 디바이스 핸드세트 및 다른 디바이스들에서의 응용을 포함하는 다수의 사용들을 갖는 집적 회로 디바이스들과 같은 다양한 디바이스들 중의 임의의 것에서 구현될 수도 있다. 모듈들, 또는 컴포넌트들로서 설명된 임의의 특징들은 집적 로직 디바이스 (integrated logic device) 에서 함께 구현되거나 또는 이산이지만 연동적인 (interoperable) 로직 디바이스들로서 따로 구현될 수도 있다. 소프트웨어로 구현되면, 기법들은, 실행될 때, 위에서 설명된 방법들 중 하나 이상을 수행하는 명령들을 포함하는 프로그램 코드를 포함하는 컴퓨터 판독가능 데이터 저장 매체에 의해 적어도 부분적으로 실현될 수도 있다. 컴퓨터 판독가능 데이터 저장 매체는 패키징 재료들을 포함할 수도 있는 컴퓨터 프로그램 제품의 일부를 형성할 수도 있다. 컴퓨터 판독가능 매체는 메모리 또는 데이터 저장 매체, 이를테면 RAM (random access memory) 이를테면, SDRAM (synchronous dynamic random access memory), ROM (read-only memory), NVRAM (non-volatile random access memory), EEPROM (electrically erasable programmable read-only memory), FLASH 메모리, 자기 또는 광학 데이터 저장 매체 등을 포함할 수도 있다. 추가로 또는 대안적으로 기법들은, 전파된 신호들 또는 파들과 같은, 명령들 또는 데이터 구조들의 형태의 프로그램 코드를 나르거나 또는 통신하고, 컴퓨터에 의해 액세스, 판독 및/또는 실행될 수 있는 컴퓨터 판독가능 통신 매체에 의해 적어도 부분적으로 실현될 수도 있다.

프로그램 코드는 프로세서에 의해 실행될 수도 있고, 프로세서는 하나 이상의 프로세서들, 이를테면 하나 이상의 DSP (digital signal processor), 범용 마이크로프로세서, ASIC (application specific integrated circuit), FPGA (field programmable logic array), 또는 다른 등가 집적 또는 이산 로직 회로를 포함할 수도 있다. 그러한 프로세서는 본 개시에 기재된 기법들 중의 어느 것을 수행하도록 구성될 수도 있다. 범용 프로세서는 마이크로프로세서일 수도 있지만, 다르게는, 프로세서는 임의의 종래의 프로세서, 제어기, 마이크로제어기, 또는 상태 머신일 수도 있다. 또한, 프로세서는 계산 디바이스들의 조합, 예를 들어, DSP 와 마이크로프로세서의 조합, 복수의 마이크로프로세서, DSP 코어와 결합한 하나 이상의 마이크로프로세서, 또는 임의의 다른 이러한 구성으로서 구현될 수도 있다. 따라서, 본원에 사용된 용어 "프로세서" 는 임의의 전술한 구조, 전술한 구조의 임의의 조합, 또는 본원에 설명된 기술들의 구현에 적합한 임의의 다른 구조 또는 장치를 지칭할 수도 있다. 추가로, 일부 양태에서, 여기서 설명된 기능은 인코딩 및 디코딩을 위해 구성된 전용 소프트웨어 모듈 또는 하드웨어 모듈 내에 제공되거나 또는 결합된 비디오 인코더-디코더 (코덱) 에 포함될 수도 있다.

Claims

비디오 데이터를 인코딩하는 방법으로서,
가상 현실 비디오 데이터를 획득하는 단계로서, 상기 가상 현실 비디오 데이터는 가상 환경의 360 도 뷰를 표현하고, 상기 가상 현실 비디오 데이터는 복수의 프레임들을 포함하고, 상기 복수의 프레임들로부터의 각각의 프레임은 대응하는 구형 비디오 데이터를 포함하는, 상기 가상 현실 비디오 데이터를 획득하는 단계; 및
절두 정사각 피라미드의 평면들 상에 상기 복수의 프레임들로부터의 프레임을 위한 상기 구형 비디오 데이터를 매핑하는 단계로서, 상기 절두 정사각 피라미드의 평면들은 베이스 평면, 상단 평면, 좌측 평면, 우측 평면, 상측 평면, 및 하단측 평면을 포함하고, 상기 상단 평면의 크기가 상기 베이스 평면의 크기보다 작은, 상기 구형 비디오 데이터를 매핑하는 단계를 포함하고,
상기 구형 비디오 데이터를 매핑하는 단계는
전체 해상도로 상기 베이스 평면 상에 상기 구형 비디오 데이터의 제 1 부분을 매핑하는 단계;
감소된 해상도로 상기 상단 평면 상에 상기 구형 비디오 데이터의 제 2 부분을 매핑하는 단계;
감소하는 해상도로 상기 좌측 평면 상에 상기 구형 비디오 데이터의 제 3 부분을 매핑하는 단계;
감소하는 해상도로 상기 우측 평면 상에 상기 구형 비디오 데이터의 제 4 부분을 매핑하는 단계;
감소하는 해상도로 상기 상측 평면 상에 상기 구형 비디오 데이터의 제 5 부분을 매핑하는 단계; 및
감소하는 해상도로 상기 하단측 평면 상에 상기 구형 비디오 데이터의 제 6 부분을 매핑하는 단계를 포함하는, 비디오 데이터를 인코딩하는 방법.
제 1 항에 있어서,
상기 구형 비디오 데이터를 직사각형 형식으로 패킹하는 단계를 더 포함하는, 비디오 데이터를 인코딩하는 방법.
제 1 항에 있어서,
상기 구형 비디오 데이터를 패킹 구조 내에 패킹하는 단계를 더 포함하고,
상기 패킹하는 단계는
제 1 데이터 블록에서 상기 제 2 부분 주위에 상기 구형 비디오 데이터의 상기 제 3 부분, 상기 제 4 부분, 상기 제 5 부분 및 상기 제 6 부분을 패킹하는 단계;
제 1 부분을 제 2 데이터 블록 내에 패킹하는 단계; 및
상기 패킹 구조 내에 상기 제 1 데이터 블록 및 상기 제 2 데이터 블록을 패킹하는 단계로서, 상기 제 1 데이터 블록은 상기 패킹 구조에서 상기 제 2 데이터 블록의 옆에 배치되는, 상기 상기 제 2 데이터 블록을 패킹하는 단계를 포함하는, 비디오 데이터를 인코딩하는 방법.
제 1 항에 있어서,
상기 구형 비디오 데이터를 패킹 구조 내에 패킹하는 단계를 더 포함하고,
상기 패킹하는 단계는
제 1 데이터 블록에서 상기 제 2 부분의 제 1 절반 주위에 상기 제 5 부분의 제 1 절반, 상기 제 6 부분의 제 1 절반 및 상기 구형 비디오 데이터의 상기 제 3 부분을 패킹하는 단계;
제 2 데이터 블록에서 상기 제 2 부분의 제 2 절반 주위에 상기 제 5 부분의 제 2 절반, 상기 제 6 부분의 제 2 절반 및 상기 구형 비디오 데이터의 상기 제 4 부분을 패킹하는 단계;
제 3 데이터 블록 내에 상기 구형 비디오 데이터의 상기 제 1 부분을 패킹하는 단계;
상기 패킹 구조 내에 상기 제 1 데이터 블록, 상기 제 2 데이터 블록, 및 상기 제 3 데이터 블록을 패킹하는 단계로서, 상기 제 1 데이터 블록 및 상기 제 2 데이터 블록은 상기 패킹 구조에서 상기 제 3 데이터 블록의 옆에 배치되는, 상기 제 3 데이터 블록을 패킹하는 단계를 포함하는, 비디오 데이터를 인코딩하는 방법.
제 1 항에 있어서,
상기 복수의 프레임들로부터 제 1 프레임을 송신하는 단계로서, 상기 제 1 프레임을 위한 비디오 데이터는 제 1 절두 정사각 피라미드의 평면들에 매핑되는, 상기 제 1 프레임을 송신하는 단계; 및
상기 복수의 프레임들로부터 제 2 프레임을 송신하는 단계로서, 상기 제 2 프레임을 위한 비디오 데이터는 제 2 절두 장사각 피라미드의 평면들에 매핑되고, 상기 제 2 절두 정사각 피라미드는 상기 제 1 절두 정사각 피라미드에 대하여 회전되는, 상기 제 2 프레임을 송신하는 단계를 더 포함하는, 비디오 데이터를 인코딩하는 방법.
제 1 항에 있어서,
상기 절두 정사각형 피라미드는 상기 좌측 평면에 인접한 직사각형 좌측 평면, 상기 우측 평면에 인접한 직사각형 우측 평면, 상기 상측 평면에 인접한 직사각형 상측 평면, 및 상기 하단측 평면에 인접한 직사각형 하단측 평면을 더 포함하고,
상기 구형 비디오 데이터를 매핑하는 단계는
전체 해상도로 상기 직사각형 좌측 평면 상에 상기 구형 비디오 데이터의 제 7 부분을 매핑하는 단계;
전체 해상도로 상기 직사각형 우측 평면 상에 상기 구형 비디오 데이터의 제 8 부분을 매핑하는 단계;
전체 해상도로 상기 직사각형 상측 평면 상에 상기 구형 비디오 데이터의 제 9 부분을 매핑하는 단계; 및
전체 해상도로 상기 직사각형 하단측 평면 상에 상기 구형 비디오 데이터의 제 10 부분을 매핑하는 단계를 더 포함하는, 비디오 데이터를 인코딩하는 방법.
제 1 항에 있어서,
상기 절두 정사각 피라미드를 위한 지오메트리 유형을 정의하는 단계로서, 상기 지오메트리 유형은 상기 구형 비디오 데이터를 파일 형식으로 매핑하기 위한 지오메트릭 형상을 식별하는, 상기 지오메트리 유형을 정의하는 단계;
상기 절두 정사각 피라미드를 위한 높이를 정의하는 단계;
상기 절두 정사각 피라미드를 위한 뒤쪽 폭을 정의하는 단계로서, 상기 뒤쪽 폭은 상기 상단 평면과 연관되는, 상기 뒤쪽 폭을 정의하는 단계; 및
상기 절두 정사각 피라미드를 위한 뒤쪽 높이를 정의하는 단계로서, 상기 뒤쪽 높이는 상기 상단 평면과 연관되는, 상기 뒤쪽 높이를 정의하는 단계를 더 포함하는, 비디오 데이터를 인코딩하는 방법.
제 1 항에 있어서,
상기 절두 정사각 피라미드를 위한 가상 현실 (VR) 매핑 유형을 정의하는 단계로서, 상기 VR 매핑 유형은 상기 구형 비디오 데이터를 직사각형 형식으로 매핑하기 위한 매핑 유형을 나타내고, 상기 절두 정사각 피라미드를 위한 VR 매핑 유형은 비디오 정보 박스와 연관되는, 상기 가상 현실 (VR) 매핑 유형을 정의하는 단계를 더 포함하는, 비디오 데이터를 인코딩하는 방법.
비디오 데이터를 인코딩하기 위한 디바이스로서,
비디오 데이터를 저장하도록 구성된 메모리; 및
상기 메모리와 통신하는 비디오 인코딩 디바이스를 포함하고,
상기 비디오 인코딩 디바이스는
가상 현실 비디오 데이터를 획득하는 것으로서, 상기 가상 현실 비디오 데이터는 가상 환경의 360 도 뷰를 표현하고, 상기 가상 현실 비디오 데이터는 복수의 프레임들을 포함하고, 상기 복수의 프레임들로부터의 각각의 프레임은 대응하는 구형 비디오 데이터를 포함하는, 상기 가상 현실 비디오 데이터를 획득하고; 그리고
절두 정사각 피라미드의 평면들 상에 상기 복수의 프레임들로부터의 프레임을 위한 상기 구형 비디오 데이터를 매핑하는 것으로서, 상기 절두 정사각 피라미드의 평면들은 베이스 평면, 상단 평면, 좌측 평면, 우측 평면, 상측 평면, 및 하단측 평면을 포함하고, 상기 상단 평면의 크기가 상기 베이스 평면의 크기보다 작은, 상기 구형 비디오 데이터를 매핑하도록 구성되고,
상기 구형 비디오 데이터를 매핑하는 것은
전체 해상도로 상기 베이스 평면 상에 상기 구형 비디오 데이터의 제 1 부분을 매핑하는 것;
감소된 해상도로 상기 상단 평면 상에 상기 구형 비디오 데이터의 제 2 부분을 매핑하는 것;
감소하는 해상도로 상기 좌측 평면 상에 상기 구형 비디오 데이터의 제 3 부분을 매핑하는 것;
감소하는 해상도로 상기 우측 평면 상에 상기 구형 비디오 데이터의 제 4 부분을 매핑하는 것;
감소하는 해상도로 상기 상측 평면 상에 상기 구형 비디오 데이터의 제 5 부분을 매핑하는 것; 및
감소하는 해상도로 상기 하단측 평면 상에 상기 구형 비디오 데이터의 제 6 부분을 매핑하는 것을 포함하는, 비디오 데이터를 인코딩하기 위한 디바이스.
제 9 항에 있어서,
상기 비디오 인코딩 디바이스는 또한
상기 구형 비디오 데이터를 직사각형 형식으로 패킹하도록 구성되는, 비디오 데이터를 인코딩하기 위한 디바이스.
제 9 항에 있어서,
상기 비디오 인코딩 디바이스는 또한 상기 구형 비디오 데이터를 패킹 구조 내에 패킹하도록 구성되고,
상기 패킹은,
제 1 데이터 블록에서 상기 제 2 부분 주위에 상기 구형 비디오 데이터의 상기 제 3 부분, 상기 제 4 부분, 상기 제 5 부분 및 상기 제 6 부분을 패킹하는 것;
제 1 부분을 제 2 데이터 블록 내에 패킹하는 것; 및
상기 패킹 구조 내에 상기 제 1 데이터 블록 및 상기 제 2 데이터 블록을 패킹하는 것으로서, 상기 제 1 데이터 블록은 상기 패킹 구조에서 상기 제 2 데이터 블록의 옆에 배치되는, 상기 제 1 데이터 블록 및 상기 제 2 데이터 블록을 패킹하는 것을 포함하는, 비디오 데이터를 인코딩하기 위한 디바이스.
제 9 항에 있어서,
상기 비디오 인코딩 디바이스는 또한 상기 구형 비디오 데이터를 패킹 구조 내에 패킹하도록 구성되고,
상기 패킹은,
제 1 데이터 블록에서 상기 제 2 부분의 제 1 절반 주위에 상기 제 5 부분의 제 1 절반, 상기 제 6 부분의 제 1 절반 및 상기 구형 비디오 데이터의 상기 제 3 부분을 패킹하는 것;
제 2 데이터 블록에서 상기 제 2 부분의 제 2 절반 주위에 상기 제 5 부분의 제 2 절반, 상기 제 6 부분의 제 2 절반 및 상기 구형 비디오 데이터의 상기 제 4 부분을 패킹하는 것;
제 3 데이터 블록 내에 상기 구형 비디오 데이터의 상기 제 1 부분을 패킹하는 것;
상기 패킹 구조 내에 상기 제 1 데이터 블록, 상기 제 2 데이터 블록, 및 상기 제 3 데이터 블록을 패킹하는 것으로서, 상기 제 1 데이터 블록 및 상기 제 2 데이터 블록은 상기 패킹 구조에서 상기 제 3 데이터 블록의 옆에 배치되는, 상기 제 1 데이터 블록, 상기 제 2 데이터 블록, 및 상기 제 3 데이터 블록을 패킹하는 것을 포함하는, 비디오 데이터를 인코딩하기 위한 디바이스.
제 9 항에 있어서,
상기 비디오 인코딩 디바이스는 또한
상기 복수의 프레임들로부터 제 1 프레임을 송신하는 것으로서, 상기 제 1 프레임을 위한 비디오 데이터는 제 1 절두 정사각 피라미드의 평면들에 매핑되는, 상기 제 1 프레임을 송신하고; 그리고
상기 복수의 프레임들로부터 제 2 프레임을 송신하는 것으로서, 상기 제 2 프레임을 위한 비디오 데이터는 제 2 절두 장사각 피라미드의 평면들에 매핑되고, 상기 제 2 절두 정사각 피라미드는 상기 제 1 절두 정사각 피라미드에 대하여 회전되는, 상기 제 2 프레임을 송신하도록 구성되는, 비디오 데이터를 인코딩하기 위한 디바이스.
제 9 항에 있어서,
상기 절두 정사각형 피라미드는 상기 좌측 평면에 인접한 직사각형 좌측 평면, 상기 우측 평면에 인접한 직사각형 우측 평면, 상기 상측 평면에 인접한 직사각형 상측 평면, 및 상기 하단측 평면에 인접한 직사각형 하단측 평면을 더 포함하고,
상기 구형 비디오 데이터를 매핑하는 것은
전체 해상도로 상기 직사각형 좌측 평면 상에 상기 구형 비디오 데이터의 제 7 부분을 매핑하는 것;
전체 해상도로 상기 직사각형 우측 평면 상에 상기 구형 비디오 데이터의 제 8 부분을 매핑하는 것;
전체 해상도로 상기 직사각형 상측 평면 상에 상기 구형 비디오 데이터의 제 9 부분을 매핑하는 것; 및
전체 해상도로 상기 직사각형 하단측 평면 상에 상기 구형 비디오 데이터의 제 10 부분을 매핑하는 것을 포함하는, 비디오 데이터를 인코딩하기 위한 디바이스.
제 9 항에 있어서,
상기 절두 정사각 피라미드의 평면들 상에 상기 프레임을 위한 상기 구형 비디오 데이터를 매핑하는 것은
상기 구형 비디오 데이터로부터 비디오 데이터를 선택하는 것; 및
선택된 상기 비디오 데이터를 위한 위치를 상기 절두 정사각 피라미드의 평면들로부터 대응하는 평면 상에 로케이팅하는 것을 포함하는, 비디오 데이터를 인코딩하기 위한 디바이스.
제 9 항에 있어서,
상기 절두 정사각 피라미드의 평면들 상에 상기 프레임으로부터 상기 구형 비디오 데이터를 매핑하는 것은
상기 구형 비디오 데이터로부터 비디오 데이터를 선택하는 것;
선택된 상기 비디오 데이터를 다운샘플링하는 것; 및
다운샘플링된 상기 비디오 데이터를 위한 위치를 상기 절두 정사각 피라미드의 평면들로부터 대응하는 평면 상에 로케이팅하는 것을 포함하는, 비디오 데이터를 인코딩하기 위한 디바이스.
제 9 항에 있어서,
상기 비디오 인코딩 디바이스는 또한
상기 절두 정사각 피라미드를 위한 지오메트리 유형을 정의하는 것으로서, 상기 지오메트리 유형은 상기 구형 비디오 데이터를 파일 형식으로 매핑하기 위한 지오메트릭 형상을 식별하는, 상기 지오메트리 유형을 정의하고;
상기 절두 정사각 피라미드를 위한 높이를 정의하고;
상기 절두 정사각 피라미드를 위한 뒤쪽 폭을 정의하는 것으로서, 상기 뒤쪽 폭은 상기 상단 평면과 연관되는, 상기 뒤쪽 폭을 정의하고; 그리고
상기 절두 정사각 피라미드를 위한 뒤쪽 높이를 정의하는 것으로서, 상기 뒤쪽 높이는 상기 상단 평면과 연관되는, 상기 뒤쪽 높이를 정의하도록 구성되는, 비디오 데이터를 인코딩하기 위한 디바이스.
제 17 항에 있어서,
상기 비디오 인코딩 디바이스는 또한
표면 식별자를 정의하는 것으로서, 상기 표면 식별자는 상기 절두 정사각 피라미드의 평면을 식별하는, 상기 표면 식별자를 정의하고;
상기 절두 정사각 피라미드의 각각의 평면에 대한 상단-왼쪽 수평 좌표를 정의하는 것으로서, 상기 상단-왼쪽 수평 좌표는 패킹 구조 내의 상기 평면의 상단-왼쪽 코너의 수평 위치를 나타내고, 상기 패킹 구조는 상기 구형 비디오 데이터를 상기 파일 형식으로 매핑하는데 사용되는, 상기 상단-왼쪽 수평 좌표를 정의하고;
상기 절두 정사각 피라미드의 각각의 평면에 대한 상단-왼쪽 수직 좌표를 정의하는 것으로서, 상기 상단-왼쪽 수직 좌표는 상기 패킹 구조 내의 상기 평면의 상단-왼쪽 코너의 수직 좌표를 나타내는, 상기 상단-왼쪽 수직 좌표를 정의하고;
상기 절두 정사각 피라미드의 각각의 평면에 대한 구역 폭을 정의하는 것으로서, 상기 구역 폭은 상기 평면의 폭과 연관되는, 상기 구역 폭을 정의하고; 그리고
상기 절두 정사각 피라미드의 각각의 평면에 대한 구역 높이를 정의하는 것으로서, 상기 구역 높이는 상기 평면의 높이와 연관되는, 상기 구역 높이를 정의하도록 구성되는, 비디오 데이터를 인코딩하기 위한 디바이스.
제 9 항에 있어서,
상기 비디오 인코딩 디바이스는 또한
상기 절두 정사각 피라미드를 위한 가상 현실 (VR) 매핑 유형을 정의하는 것으로서, 상기 VR 매핑 유형은 상기 구형 비디오 데이터를 직사각형 형식으로 매핑하기 위한 매핑 유형을 나타내고, 상기 절두 정사각 피라미드를 위한 VR 매핑 유형은 비디오 정보 박스와 연관되는, 상기 가상 현실 (VR) 매핑 유형을 정의하도록 구성되는, 비디오 데이터를 인코딩하기 위한 디바이스.
제 19 항에 있어서,
상기 비디오 정보 박스는
상기 절두 정사각형 피라미드의 깊이를 나타내는 깊이;
상기 상단 평면의 폭을 나타내는 뒤쪽 폭;
상기 상단 평면의 높이를 나타내는 뒤쪽 높이;
상기 절두 정사각형 피라미드의 평면들로부터 평면을 식별하는 영역 식별자;
상기 구형 비디오 데이터의 중심 픽셀이 렌더링되는 지점의 좌표의 피치 각도를 나타내는 중심 피치;
상기 구형 비디오 데이터의 중심 픽셀이 렌더링되는 상기 지점의 좌표의 요 각도를 나타내는 중심 요;
상기 구형 비디오 데이터의 중심 픽셀이 렌더링되는 상기 지점의 좌표 피치 각도의 오프셋 값을 나타내는 중심 피치 오프셋;
상기 구형 비디오 데이터의 중심 픽셀이 렌더링되는 상기 지점의 좌표 요 각도의 오프셋 값을 나타내는 중심 요 오프셋;
상기 평면의 상단-왼쪽 코너의 수평 좌표를 나타내는 상단-왼쪽 수평 좌표;
상기 평면의 상단-왼쪽 코너의 수직 좌표를 나타내는 상단-왼쪽 수직 좌표;
상기 평면의 폭을 나타내는 영역 폭; 및
상기 평면의 높이를 나타내는 영역 높이
를 포함하는, 비디오 데이터를 인코딩하기 위한 디바이스.
비디오 데이터를 디코딩하는 방법으로서,
가상 현실 비디오 데이터의 프레임을 획득하는 단계로서, 상기 가상 현실 비디오 데이터는 가상 환경의 360도 뷰를 나타내고, 상기 프레임은 직사각형 형식을 갖는, 상기 프레임을 획득하는 단계;
상기 프레임을 위한 프레임 패킹 구조를 식별하는 단계로서, 상기 프레임 패킹 구조는 상기 프레임에서 비디오 데이터를 위한 위치들을 제공하고, 상기 프레임 패킹 구조는 절두 정사각 피라미드의 평면들을 포함하고, 상기 절두 정사각 피라미드의 평면들은 베이스 평면, 상단 평면, 좌측 평면, 우측 평면, 상측 평면, 및 하단측 평면을 포함하고, 상기 상단 평면의 크기가 상기 베이스 평면의 크기보다 작은, 상기 프레임 패킹 구조를 식별하는 단계; 및
상기 프레임 패킹 구조를 사용하여 상기 프레임을 디스플레이하는 단계
를 포함하는, 비디오 데이터를 디코딩하는 방법.
제 21 항에 있어서,
상기 프레임 패킹 구조는 상기 좌측 평면에 인접한 직사각형 좌측 평면, 상기 우측 평면에 인접한 직사각형 우측 평면, 상기 상측 평면에 인접한 직사각형 상측 평면, 및 상기 하단측 평면에 인접한 직사각형 하단측 평면을 더 포함하는, 비디오 데이터를 디코딩하는 방법.
제 21 항에 있어서,
상기 프레임을 위한 지오메트리 유형을 결정하는 단계로서, 상기 지오메트리 유형은 상기 가상 현실 비디오 데이터를 파일 형식으로 매핑하기 위한 지오메트릭 형상을 식별하는, 상기 지오메트리 유형을 결정하는 단계;
상기 지오메트리 유형에 기초하여 상기 절두 정사각 피라미드로부터 높이를 결정하는 단계;
상기 지오메트리 유형을 이용하여 상기 절두 정사각 피라미드를 위한 뒤쪽 폭을 결정하는 단계로서, 상기 뒤쪽 폭은 상기 상단 평면과 연관되는, 상기 뒤쪽 폭을 결정하는 단계; 및
상기 지오메트리 유형을 이용하여 상기 절두 정사각 피라미드를 위한 뒤쪽 높이를 결정하는 단계로서, 상기 뒤쪽 높이는 상기 상단 평면과 연관되는, 상기 뒤쪽 높이를 결정하는 단계를 더 포함하는, 비디오 데이터를 디코딩하는 방법.
제 21 항에 있어서,
가상 현실 (VR) 매핑 유형을 식별하는 단계로서, 상기 VR 매핑 유형은 상기 가상 현실 비디오 데이터를 직사각형 형식으로 매핑하기 위한 매핑 유형을 나타내고, 상기 VR 매핑 유형은 상기 절두 정사각 피라미드를 식별하고, 상기 VR 매핑 유형은 비디오 정보 박스와 연관되는, 상기 가상 현실 (VR) 매핑 유형을 식별하는 단계를 더 포함하는, 비디오 데이터를 디코딩하는 방법.
비디오 데이터를 디코딩하기 위한 디바이스로서,
상기 비디오 데이터를 저장하도록 구성된 메모리;
상기 메모리와 통신하는 비디오 디코딩 디바이스를 포함하고,
상기 비디오 디코딩 디바이스는
가상 현실 비디오 데이터의 프레임을 획득하는 것으로서, 상기 가상 현실 비디오 데이터는 가상 환경의 360도 뷰를 나타내고, 상기 프레임은 직사각형 형식을 갖는, 상기 프레임을 획득하고;
상기 프레임을 위한 프레임 패킹 구조를 식별하는 것으로서, 상기 프레임 패킹 구조는 상기 프레임에서 비디오 데이터를 위한 위치들을 제공하고, 상기 프레임 패킹 구조는 절두 정사각 피라미드의 평면들을 포함하고, 상기 절두 정사각 피라미드의 평면들은 베이스 평면, 상단 평면, 좌측 평면, 우측 평면, 상측 평면, 및 하단측 평면을 포함하고, 상기 상단 평면의 크기가 상기 베이스 평면의 크기보다 작은, 상기 프레임 패킹 구조를 식별하고; 그리고
상기 프레임 패킹 구조를 사용하여 상기 프레임을 디스플레이하도록 구성되는, 비디오 데이터를 디코딩하기 위한 디바이스.
제 25 항에 있어서,
상기 프레임을 디스플레이하는 것은
앞쪽 뷰로서 상기 프레임에서 상기 비디오 데이터의 제 1 부분을 제공하는 것으로서, 상기 비디오 데이터의 제 1 부분은 상기 베이스 평면에 대응하고, 상기 비디오 데이터의 제 1 부분은 전체 해상도인, 상기 비디오 데이터의 제 1 부분을 제공하는 것;
뒤쪽 뷰로서 상기 프레임에서 상기 비디오 데이터의 제 2 부분을 제공하는 것으로서, 상기 비디오 데이터의 제 2 부분은 상기 상단 평면에 대응하고, 상기 비디오 데이터의 제 2 부분은 감소된 해상도인, 상기 비디오 데이터의 제 2 부분을 제공하는 것;
왼쪽 뷰로서 상기 프레임에서 상기 비디오 데이터의 제 3 부분을 제공하는 것으로서, 상기 비디오 데이터의 제 3 부분은 상기 좌측 평면에 대응하고, 상기 비디오 데이터의 제 3 부분은 감소하는 해상도인, 상기 비디오 데이터의 제 3 부분을 제공하는 것;
오른쪽 뷰로서 상기 프레임에서 상기 비디오 데이터의 제 4 부분을 제공하는 것으로서, 상기 비디오 데이터의 제 4 부분은 상기 우측 평면에 대응하고, 상기 비디오 데이터의 제 4 부분은 감소하는 해상도인, 상기 비디오 데이터의 제 4 부분을 제공하는 것;
위쪽 뷰로서 상기 프레임에서 상기 비디오 데이터의 제 5 부분을 제공하는 것으로서, 상기 비디오 데이터의 제 5 부분은 상기 상측 평면에 대응하고, 상기 비디오 데이터의 제 5 부분은 감소하는 해상도인, 상기 비디오 데이터의 제 5 부분을 제공하는 것; 및
하단 뷰로서 상기 프레임에서 상기 비디오 데이터의 제 6 부분을 제공하는 것으로서, 상기 비디오 데이터의 제 6 부분은 상기 하단측 평면에 대응하고, 상기 비디오 데이터의 제 6 부분은 감소하는 해상도인, 상기 비디오 데이터의 제 6 부분을 제공하는 것
을 포함하는, 비디오 데이터를 디코딩하기 위한 디바이스.
제 25 항에 있어서,
상기 비디오 디코딩 디바이스는 또한
가상 현실 데이터의 제 2 프레임을 수신하는 것으로서, 상기 제 2 프레임은 상기 프레임에 대해 회전되는, 상기 제 2 프레임을 수신하고; 그리고
상기 프레임 패킹 구조를 사용하여 상기 제 2 프레임을 디스플레이하도록 구성되는, 비디오 데이터를 디코딩하기 위한 디바이스.
제 25 항에 있어서,
상기 프레임 패킹 구조는 상기 좌측 평면에 인접한 직사각형 좌측 평면, 상기 우측 평면에 인접한 직사각형 우측 평면, 상기 상측 평면에 인접한 직사각형 상측 평면, 및 상기 하단측 평면에 인접한 직사각형 하단측 평면을 더 포함하는, 비디오 데이터를 디코딩하기 위한 디바이스.
제 25 항에 있어서,
상기 디코딩 디바이스는 또한
상기 프레임을 위한 지오메트리 유형을 결정하는 것으로서, 상기 지오메트리 유형은 상기 가상 현실 비디오 데이터를 파일 형식으로 매핑하기 위한 지오메트릭 형상을 식별하는, 상기 지오메트리 유형을 결정하고;
상기 지오메트리 유형에 기초하여 상기 절두 정사각 피라미드로부터 높이를 결정하고;
상기 지오메트리 유형을 이용하여 상기 절두 정사각 피라미드를 위한 뒤쪽 폭을 결정하는 것으로서, 상기 뒤쪽 폭은 상기 상단 평면과 연관되는, 상기 뒤쪽 폭을 결정하고; 그리고
상기 지오메트리 유형을 이용하여 상기 절두 정사각 피라미드를 위한 뒤쪽 높이를 결정하는 것으로서, 상기 뒤쪽 높이는 상기 상단 평면과 연관되는, 상기 뒤쪽 높이를 결정하도록 구성되는, 비디오 데이터를 디코딩하기 위한 디바이스.
제 25 항에 있어서,
상기 디코딩 디바이스는 또한
가상 현실 (VR) 매핑 유형을 식별하는 것으로서, 상기 VR 매핑 유형은 상기 가상 현실 비디오 데이터를 직사각형 형식으로 매핑하기 위한 매핑 유형을 나타내고, 상기 VR 매핑 유형은 상기 절두 정사각 피라미드를 식별하고, 상기 VR 매핑 유형은 비디오 정보 박스와 연관되는, 상기 가상 현실 (VR) 매핑 유형을 식별하도록 구성되는, 비디오 데이터를 디코딩하기 위한 디바이스.