KR102307819B1

KR102307819B1 - 레거시 및 몰입형 렌더링 디바이스를 위한 몰입형 비디오를 포맷팅하는 방법, 장치 및 스트림

Info

Publication number: KR102307819B1
Application number: KR1020170062900A
Authority: KR
Inventors: 프랑크 갈팡; 세바스티앙 라쎄르; 삐에르 앙드리봉
Original assignee: 인터디지털 브이씨 홀딩스 인코포레이티드
Priority date: 2016-05-23
Filing date: 2017-05-22
Publication date: 2021-10-05
Also published as: EP3249928A1; CA2967418A1; RU2742344C2; BR102017010791A2; EP3249930B1; CN107454468B; JP7017866B2; RU2017115882A; RU2017115882A3; MX2017006677A; US10523980B2; CN107454468A; EP3249930A1; JP2018033123A; US20170339440A1; KR20170132098A

Abstract

본 개시는 역방향 호환 몰입형 비디오 스트림을 생성, 송신 및 디코딩하기 위한 방법, 장치 또는 시스템에 관한 것이다. 스트림은 직사각형 매핑에 따라 인코딩된 제1 영역, 직사각형 매핑으로부터 몰입형 매핑으로의 매핑 전이에 따라 인코딩된 제2 영역 및 몰입형 매핑에 따라 인코딩된 제3 영역을 포함하는 레이아웃에 따라 조직된 프레임으로 구성된 몰입형 비디오를 나타내는 데이터를 운반한다. 역방향 호환을 위해, 스트림은 비디오 프레임 내의 제1 영역의 크기 및 위치를 나타내는 제1 정보 및 적어도 선택된 레이아웃의 타입, 제1 부분의 시야, 비디오 프레임 내의 상기 제2 영역의 크기 및 기준 방향을 포함하는 제2 정보를 더 포함한다.

Description

레거시 및 몰입형 렌더링 디바이스를 위한 몰입형 비디오를 포맷팅하는 방법, 장치 및 스트림{METHOD, APPARATUS AND STREAM OF FORMATTING AN IMMERSIVE VIDEO FOR LEGACY AND IMMERSIVE RENDERING DEVICES}

본 개시는 예로서 몰입형 비디오를 나타내는 역방향 호환 스트림이 이종 클라이언트 디바이스 세트에 분배될 때 그러한 스트림을 포맷팅하는 분야에 관한 것으로서, 클라이언트 디바이스 중 일부는 레거시 직사각형 비디오를 표시하도록 구성되고, 다른 일부는 몰입형 비디오를 표시하도록 구성된다.

비디오는 최소한 하나의 이미지의 시퀀스이다. 실제로, 이미지는 정지 비디오로 간주될 수 있다. 비디오는 이차원 픽셀 어레이(즉, 컬러 정보 요소)인 직사각형 프레임 상에 인코딩된다. 시퀀스의 이미지당 하나의 프레임이 인코딩된다. 이미지는 매핑 함수에 따라 인코딩된다. 직사각형 스크린에 표시되도록 의도된 레거시 비디오는 직사각형 매핑에 따라 인코딩된다. 몰입형 비디오는 시청자 주변에 렌더링되도록 의도되며, 즉 시청자는 전체 픽처를 볼 수 없고, 그의 시야 밖의 이미지 부분을 보기 위해서는 그의 머리를 돌려야 한다(또는 움직이거나 제어기, 예로서 조이스틱이나 마우스를 사용해야 한다). 몰입형 비디오는 직사각형 프레임 상에 인코딩될 때 몰입형 매핑 함수, 예로서 정방형 매핑, 큐브 매핑 또는 피라미드 매핑을 필요로 한다.

비디오 스트림은 비디오가 렌더링되도록 의도된 렌더링 디바이스의 타입에 따라 준비되고 포맷팅된다. 레거시 비디오 렌더링 디바이스는 단지 직사각형 매핑에 따라 비디오 프레임을 디코딩하도록 구성되므로 몰입형 비디오를 적절히 표시하지 못한다. 반면, 몰입형 비디오 렌더링 디바이스는 몰입형 투영에 따라 인코딩된 프레임을 예상하므로 레거시 비디오를 적절히 표시하지 못한다. 레거시 및 몰입형 비디오 렌더링 디바이스 양자에 의해 적절하게 표시될 수 있는 역방향 호환 몰입형 비디오 스트림에 대한 포맷이 부족하다.

발명의 요약

본 개시의 목적은 레거시 및 몰입형 비디오 렌더링 디바이스 양자에 의해 적절하게 표시될 수 있는 역방향 호환 몰입형 비디오 스트림에 대한 포맷의 부족을 극복하는 것이다. 본 개시는 비디오 스트림으로부터 렌더링 디바이스를 위한 비디오 프레임을 구성하는 방법에 관한 것으로서, 방법은

비디오 스트림으로부터 소스 비디오 프레임을 획득하는 단계,

비디오 스트림으로부터 제1 정보를 획득하는 단계 - 상기 제1 정보는 상기 소스 비디오 프레임의 제1 영역의 크기 및 위치를 나타냄 -,

렌더링 디바이스가 레거시 비디오 렌더링 디바이스일 때, 소스 비디오 프레임의 상기 제1 영역으로 상기 비디오 프레임을 구성하는 단계,

렌더링 디바이스가 몰입형 비디오 렌더링 디바이스일 때:

비디오 스트림으로부터 제2 정보를 획득하는 단계 - 상기 제2 정보는 레이아웃의 타입, 상기 제1 부분의 시야, 제2 영역의 크기 및 기준 방향을 나타냄 -,

상기 제1 및 제2 정보에 따라 그리고 상기 소스 비디오 프레임을 사용하여 매핑된 표면을 형성하는 단계,

상기 매핑된 표면의 일부를 캡처하는 적어도 하나의 가상 카메라로 비디오 프레임을 구성하는 단계

를 포함한다.

특정 특성에 따르면, 레이아웃은 정방형 매핑, 큐브 매핑 및 피라미드 매핑을 포함하는 몰입형 매핑 세트에 속하는 몰입형 매핑에 기초한다.

특정 실시예에 따르면, 스트림은 고효율 비디오 코딩(HEVC)에 따라 디코딩되며, 제1 정보는 적합 윈도우 파라미터에 의해 운반되고, 제2 정보는 보완 향상 정보(SEI)에 의해 운반된다.

본 개시는 또한 비디오 스트림으로부터 렌더링 디바이스를 위한 비디오 프레임을 구성하도록 구성된 장치에 관한 것으로, 장치는

비디오 스트림으로부터 소스 비디오 프레임을 획득하는 수단,

비디오 스트림으로부터 제1 정보를 획득하는 수단 - 상기 제1 정보는 상기 소스 비디오 프레임의 제1 영역의 크기 및 위치를 나타냄 -,

렌더링 디바이스가 레거시 비디오 렌더링 디바이스일 때, 소스 비디오 프레임의 상기 제1 영역으로 상기 비디오 프레임을 구성하도록 구성된 프로세서,

렌더링 디바이스가 몰입형 비디오 렌더링 디바이스일 때:

비디오 스트림으로부터 제2 정보를 획득하는 수단 - 상기 제2 정보는 레이아웃의 타입, 상기 제1 부분의 시야, 제2 영역의 크기 및 기준 방향을 나타냄 -,

상기 제1 및 제2 정보에 따라 그리고 상기 소스 비디오 프레임을 사용하여 매핑된 표면을 형성하도록 구성된 프로세서,

상기 매핑된 표면의 일부를 캡처하는 적어도 하나의 가상 카메라로 비디오 프레임을 구성하도록 구성된 프로세서

를 포함한다.

본 개시는 또한 몰입형 비디오로부터 비디오 스트림을 생성하는 방법에 관한 것으로서, 방법은

직사각형 매핑에 따라 몰입형 비디오 프레임의 제1 부분을 인코딩하는 단계;

상기 직사각형 매핑으로부터 몰입형 매핑으로 전이하는 매핑에 따라 몰입형 비디오 프레임의 제2 부분을 인코딩하는 단계;

상기 몰입형 매핑에 따라 몰입형 비디오 프레임의 제3 부분을 인코딩하는 단계;

상기 제1 부분을 제1 영역으로, 상기 제2 부분을 제2 영역으로 그리고 상기 제3 부분을 제3 영역으로 포함하는 레이아웃에 따라 비디오 프레임을 구성하는 단계;

상기 형성된 비디오 프레임, 상기 제1 영역의 크기 및 위치에 관한 제1 정보 및 적어도 상기 레이아웃의 타입, 상기 제1 부분의 시야와, 제2 영역의 크기 및 기준 방향을 포함하는 제2 정보를 포함하는 비디오 스트림을 생성하는 단계

를 포함한다.

특정 실시예에 따르면, 레이아웃은 정방형 매핑, 큐브 매핑 및 피라미드 매핑을 포함하는 몰입형 매핑 세트에 속하는 몰입형 매핑에 기초한다.

특정 특성에 따르면, 스트림은 고효율 비디오 코딩(HEVC)에 기초하며, 제1 정보는 적합 윈도우 파라미터에 의해 운반되고, 제2 정보는 보완 향상 정보(SEI)에 의해 운반된다.

본 개시는 또한 몰입형 비디오로부터 비디오 스트림을 생성하도록 구성된 장치에 관한 것으로,

직사각형 매핑에 따라 몰입형 비디오 프레임의 제1 부분을 인코딩하도록 구성된 인코더;

상기 직사각형 매핑으로부터 몰입형 매핑으로 전이하는 매핑에 따라 몰입형 비디오 프레임의 제2 부분을 인코딩하도록 구성된 인코더;

상기 몰입형 매핑에 따라 몰입형 비디오 프레임의 제3 부분을 인코딩하도록 구성된 인코더;

상기 제1 부분을 제1 영역으로, 상기 제2 부분을 제2 영역으로 그리고 상기 제3 부분을 제3 영역으로 포함하는 레이아웃에 따라 비디오 프레임을 구성하도록 구성된 프로세서;

상기 형성된 비디오 프레임, 상기 제1 영역의 크기 및 위치에 관한 제1 정보 및 적어도 상기 레이아웃의 타입, 상기 제1 부분의 시야와, 제2 영역의 크기 및 기준 방향을 포함하는 제2 정보를 포함하는 비디오 스트림을 생성하도록 구성된 비디오 스트림 생성기

를 포함한다.

본 개시는 또한 몰입형 비디오를 나타내는 데이터를 운반하는 스트림에 관한 것으로,

직사각형 매핑에 따라 인코딩된 제1 영역, 상기 직사각형 매핑으로부터 몰입형 매핑으로 전이하는 매핑에 따라 인코딩된 제2 영역 및 상기 몰입형 매핑에 따라 인코딩된 제3 영역을 포함하는 레이아웃에 따라 조직된 비디오 프레임,

비디오 프레임 내의 상기 제1 영역의 크기 및 위치를 나타내는 제1 정보,

적어도 상기 레이아웃의 타입, 제1 부분의 시야, 비디오 프레임 내의 상기 제2 영역의 크기 및 기준 방향을 포함하는 제2 정보

를 포함한다.

아래의 설명을 읽을 때 본 개시가 더 잘 이해될 것이고, 다른 특정 특징 및 장점이 분명해질 것이며, 설명은 첨부된 도면을 참조한다. 도면에서:
도 1은 본 원리의 특정 실시예에 따른, 비디오 프레임의 직사각형 매핑 인코딩을 도시한다.
도 2는 본 원리의 특정 실시예에 따른, 도 1의 직사각형 매핑과 비교한 정방형 매핑 함수의 예를 도시한다.
도 3은 본 원리의 특정 실시예에 따른, 도 1 및 2의 다른 가능한 매핑과 비교한 큐브 매핑 함수의 레이아웃 예를 도시한다.
도 4는 본 원리의 특정 실시예에 따른, 상이한 매핑, 예를 들어 도 1, 2 및 3의 매핑에 따라 인코딩되고, 레거시 비디오 렌더링 디바이스에 의해 렌더링되는 이미지의 예를 도시한다.
도 5는 본 원리의 특정 실시예에 따른, 도 4의 정방형 매핑으로 관심 영역의 원치 않는 왜곡을 극복하기 위해 준비된 역방향 호환 프레임의 예시적인 레이아웃을 도시한다.
도 6은 본 원리의 특정 실시예에 따른, 정방형 매핑에 따라 인코딩된 몰입형 프레임을 도 5의 예시적인 레이아웃으로 인코딩된 역방향 호환 프레임으로 변환하는 예를 도시한다.
도 7은 본 원리의 특정 실시예에 따른, 도 5 및 6에 도시된 비디오 프레임을 포함하는 역방향 호환 몰입형 비디오를 나타내는 데이터를 운반하는 스트림의 데이터 구조의 특정 실시예를 도시한다.
도 8은 본 원리의 특정 실시예에 따른, 도 3의 큐브 매핑으로 관심 영역 내의 원치 않는 불연속성을 극복하기 위해 준비된 역방향 호환 프레임의 예시적인 레이아웃을 도시한다.
도 9는 본 원리의 특정 실시예에 따른, 도 10 또는 11과 관련하여 설명된 방법을 구현하도록 구성된 장치의 하드웨어 실시예를 도시한다.
도 10은 비한정적인 유리한 실시예에 따른 디바이스와 같은 도 9의 처리 디바이스에서 구현되는 역방향 호환 몰입형 비디오 스트림을 생성하는 방법의 실시예를 도식적으로 도시한다.
도 11은 비한정적인 유리한 실시예에 따른, 도 9의 디바이스와 같은 처리 디바이스에서 구현되는 주어진 렌더링 디바이스를 위한 역방향 호환 몰입형 비디오 스트림으로부터 비디오 프레임을 구성하는 방법의 실시예를 도식적으로 도시한다.

이제, 도면을 참조하여 본 주제를 설명하며, 도면 전반에서 동일한 참조 번호는 동일한 요소를 지칭하는 데 사용된다. 이하의 설명에서, 설명의 목적으로, 본 주제에 대한 완전한 이해를 제공하기 위해 많은 특정 세부 사항이 설명된다. 본 주제의 실시예는 이러한 특정 세부 사항 없이도 실시될 수 있음을 이해한다.

본 개시의 비한정적인 실시예에 따르면, 역방향 호환 몰입형 비디오를 인코딩하는 스트림이 개시된다. 이러한 스트림을 디코딩하는 방법 및 장치가 또한 개시된다. 이러한 스트림은 레거시 비디오 렌더링 디바이스뿐만 아니라 몰입형 비디오 렌더링 디바이스에 의해서도 디코딩되고 렌더링될 수 있다. 이러한 스트림은 이를 디코딩할 디바이스에 상관없이 예를 들어 네트워크(예를 들어, 방송 네트워크, VoD 네트워크 또는 인터넷)로부터 전달되거나 매체(예를 들어, DVD, 블루레이 디스크 또는 메모리 스틱) 상에 저장된다.

레거시 비디오 렌더링 디바이스는 MPEG2, H.264/AVC 또는 H.265/HEVC와 같은 표준 포맷으로 인코딩된 레거시 비디오 스트림을 디코딩할 수 있는 디바이스이다. 레거시 비디오 렌더링 디바이스는 디코딩된 비디오를 이차원 직사각형 스크린(예로서, TV 세트, 비디오 투영기, 태블릿 또는 스마트폰)으로 렌더링한다. 렌더링은 이미지가 디스플레이 디바이스에 의해 적절히 표시될 수 있는 방식으로 이미지를 준비하는 동작이라는 점에 유의해야 한다. 비디오 스트림을 디코딩하도록 구성된 셋톱 박스 및 프로세서도 비디오 렌더링 디바이스로 간주된다. 하나의 특정 실시예에서, 역방향 호환 비디오 스트림은 H.265/HEVC의 표준 파라미터를 사용하며, 사전 변경 없이 기존 레거시 비디오 렌더링 디바이스에 의해 디코딩 가능하다는 이점을 갖는다.

몰입형 비디오 렌더링 디바이스를 위한 방법이 본 개시에서 더 상술된다. 몰입형 비디오는 시청자 주위에 렌더링되도록 의도되는데, 즉 시청자는 전체 픽처를 볼 수 없으며, 그의 시야 밖의 이미지 부분을 보기 위해서는 그의 머리를 회전(또는 이동)해야 한다. 예를 들어 "캐이브(cave)"는 여러 개의 비디오 투영기로 구성된 몰입형 비디오 렌더링 디바이스이며; 투영기는 디코딩된 비디오를 시청자 주위에 여러 방향으로 표시한다. 예를 들어, 헤드 장착형 디스플레이 디바이스(HMD), 태블릿 또는 스마트폰은 적어도 공간 내의 디바이스의 배향을 추적하는 관성 측정 유닛을 구비함에 따라 몰입형 비디오 렌더링 디바이스로서 구성될 수 있다. 디바이스의 배향은 보는 방향을 결정하고, 가상 카메라가 디바이스의 직사각형 스크린 상에 렌더링되어야 하는 주변 몰입형 비디오의 부분을 캡처한다.

소스 몰입형 비디오로부터 역방향 호환 몰입형 비디오 스트림을 생성하는 방법 및 장치가 또한 개시된다. 비디오 프레임은 적어도 하나의 매핑 함수에 따라 인코딩된다. 매핑 함수는 매핑 표면의 각 점을 프레임으로부터의 컬러 정보와 관련시킨다. 랜더링되기 위해, 매핑된 이미지를 선택하고/하거나 그가 표시되어야 하는 스크린에 적응시키기 위해 매핑 표면에 투영 함수가 적용된다. 매핑 함수는 비디오 렌더링 디바이스의 함수이다. 투영 함수는 디스플레이 디바이스와 관련된다. 특정 실시예에 따르면, 비디오 렌더링 디바이스에 링크된 특정 디스플레이 디바이스에 의해 예상되는 프레임을 준비하기 위해, 비디오 렌더링 디바이스에 의해 매핑 표면에 투영 함수가 적용된다.

도 1은 직사각형 매핑 인코딩 모드를 나타낸다. 비디오 시퀀스의 이미지는 직사각형 표면(11) 상에 렌더링되도록 의도된 직사각형 프레임(10) 내에 인코딩된다. 매핑 함수(12)는 프레임(10) 및 매핑 표면(11)이 동일할 때 간단하다. 스크린(13)은 매핑 표면(11)과 동일한 해상도 및/또는 선명도를 갖지 않을 수 있다. 결과적으로, 투영 함수(14)는 매핑 표면(11) 측에서 블랙 바를 리스케일링 및/또는 절단(cropping) 또는 표시할 수 있다. 도 1에서, 프레임(10)과 매핑 표면(11)은 4:3의 종횡비를 갖는 반면, 스크린은 16:9의 종횡비를 갖는다. 이 예에서, 투영 함수(14)는 이미지의 중간에서 절단을 행하여 스크린(13)에 맞는 비디오를 생성한다. 변형에서, 투영 함수(14)는 매핑 표면(11)의 좌측 및 우측에 블랙 바를 추가하여 스크린(13)에 맞는 비디오를 획득한다. 다른 실시예에서, 도 1의 비디오는 입체적이다. 이러한 변형에서, 프레임(10)은 2개의 별개의 매핑 표면(11) 상에 매핑되는 2개의 별개의 이미지를 포함한다. 매핑 표면들은 입체 효과를 렌더링하기 위해 스크린의 타입에 따라 결합된다.

도 2는 정방형 매핑 함수의 예를 나타낸다. 이미지의 시퀀스는 구 매핑 표면(21) 상에 매핑되도록 의도된 직사각형 프레임(20) 상에 인코딩된다. 매핑 함수(22)는 프레임(20)의 각 픽셀과 매핑 표면(21) 상의 점 사이의(그리고 그 반대의) 매핑을 설정한다. 도 2에서, 매핑 함수(22)는 정방형 투영(등거리 원통 투영이라고도 함)에 기초한다. 프레임(20) 상의 이미지는 왜곡된다. 거리는 적도에서 줄어들고 극에서 늘어난다. 직선은 더 이상 직선이 아니며 원근이 왜곡된다. 변형에서, 매핑 함수(22)는 예를 들어 등거리 원뿔 투영에 기초한다. 헤드 장착형 디스플레이 디바이스(HMD) 또는 태블릿 또는 스마트폰과 같이, 스크린(23)이 직사각형인 경우, 매핑 표면(21)의 일부가 선택된다. 투영 함수(24)는 구의 중심에 위치하는 카메라에 의해 관찰되는 바와 같이 매핑 표면(21)의 일부를 선택하는 것으로 구성되며, 카메라는 시야 및 해상도의 관점에서 스크린(23)에 바로 맞는 이미지를 생성하도록 구성된다. 선택된 시야는 디스플레이 디바이스의 특성에 의존한다. HMD의 경우, 유리하게, 시야각은 사람 입체 시야에 가깝고, 이는 약 120도이다. 카메라의 조준 방향은 사용자가 바라보고 있는 방향에 대응하며, 몰입형 비디오 렌더링 디바이스의 가상 카메라 제어기는 카메라의 조준 방향을 변경하는 데 사용된다. 변형에서, 도 2의 비디오는 입체적이다. 그러한 변형에서, 프레임(20)은 2개의 별개의 매핑 표면(21) 상에 매핑되는 2개의 별개의 이미지를 포함한다. 매핑 표면들은 입체 효과를 렌더링하기 위해 스크린의 타입에 따라 결합된다.

도 3은 큐브 매핑 함수의 레이아웃 예를 나타낸다. 이미지 시퀀스는 큐브 매핑 표면(31) 상에 매핑되도록 의도된 직사각형(또는 정사각형) 프레임(30) 상에 인코딩된다. 매핑 함수(32)는 프레임(30) 내의 정사각형과 큐브(31)의 면 간의 대응을 설정한다. 반대로, 매핑 함수는 큐브(31)의 면이 프레임(30)의 표면 내에서 어떻게 조직되는지를 결정한다. 각 면 상의 이미지는 왜곡되지 않는다. 그러나, 프레임(30)의 전체 이미지에서, 선은 구분적으로 직선이고 원근은 파괴된다. 이미지는 빈 정사각형(디폴트 또는 랜덤 컬러 정보, 도 3의 예에서는 흰색으로 채워짐)을 포함할 수 있다. 투영 함수는 도 2의 투영 함수로서 작용한다. 카메라는 큐브(31)의 중앙에 배치되고 렌더링 디바이스의 스크린에 맞는 이미지를 캡처한다.

변형에서, 다른 매핑 표면 및/또는 매핑 함수가 사용되어 비디오 프레임을 예로서 원통 또는 피라미드 상에 매핑한다.

도 4는 상이한 매핑 함수에 따라 인코딩되고 레거시 비디오 렌더링 디바이스에 의해 렌더링되는 이미지의 예를 도시한다. 레거시 비디오 렌더링 디바이스에 의해 렌더링됨에 따라 도 4의 모든 이미지는 직사각형 매핑에 따라 인코딩된다. 그러나 그들은 다른 투영 함수에 따라 투영된다. 이미지(40)는 통상적인 레거시 비디오(즉, 사용자가 TV 세트 또는 영화관에서 볼 때 사용되는 비디오)로부터 추출된다. 이미지(40)를 캡처한 카메라는 원근 투영 함수를 사용한다. 원근 투영의 경우, 직선은 직선이고, 각도 및 비율은 실제의 각도 및 비율에 대응하고, 원근이 지켜진다. 카메라는 주변 환경의 일부를 캡처했다. 이 부분은 영화 제작자가 보여주려고 선택한 부분이므로 관심 영역(RoI)이라고 한다. 원근 직사각형 이미지의 수평 시야는 예를 들어 70도(70°)이며, 이는 양호한 컬러 판별력을 갖는 가까운 주변 사람의 시력에 근사적으로 대응하는 각도이다.

이미지(41)는 광각 카메라로 캡처되었다. 이러한 투영 함수의 경우, 평면 스크린에 렌더링될 때, 직선은 더 이상 직선이 아니며, 각도 및 비율은 더 이상 현실에 대응하지 않으며, 원근은 왜곡된다. 관심 영역은 이미지(41)보다 크다. 수평 시야는 60도(60°)를 넘는다.

이미지(42)는 정방형 매핑에 따라 인코딩된 몰입형 이미지로부터 추출된 절단물이다. 원래의 몰입형 이미지는 원근 투영에 따라(즉, 직선, 각도, 비율 및 원근에 관하여) 몰입형 비디오 렌더링 디바이스에 의해 렌더링되도록 의도된다. 이미지(42)는 정방형 매핑으로 인코딩되고 직사각형 매핑으로 디코딩된 이미지의 일부이다. 결과적으로, 표시된 관심 영역은 임의의 수평 시야에 대해 왜곡된다. 왜곡은 원래 이미지의 절단 위치 및 시야에 따라 국부적으로 변한다. 이미지(43)는 큐브 매핑으로 인코딩되고 직사각형 매핑으로 디코딩된 이미지의 일부이다. 여기서, 원근은 유지되지만, 관심 영역이 큐브의 에지와 겹칠 때 연속성이 파괴된다.

도 5는 정방형 매핑으로 관심 영역의 원하지 않는 왜곡을 극복하기 위해 준비된 역방향 호환 프레임의 예시적인 레이아웃(50)을 도시한다. 이 레이아웃(50)은 주어진 크기, 예를 들어 720 X 576 픽셀(PAL 선명도), 720 X 480(NTSC 선명도), 1280 X 720(HD1 선명도), 1920 x 1080 픽셀(HD2 선명도) 또는 4096 X 2160(4K)의 직사각형 프레임이다. 레이아웃(50)은 3개의 부분으로 구성된다.

부분(51)은 예를 들어 원근 투영에 따라 캡처되고 직사각형 매핑에 따라 인코딩되는 소스 몰입형 콘텐츠의 관심 영역에 대응한다. 이 서브프레임(51)은 레거시 비디오 렌더링 디바이스 상에 렌더링되도록 준비된다. 서브프레임(51)의 크기는 소정의 선명도, 예를 들어 프레임(50)이 4K 프레임인 경우 1920 X 1080 픽셀이다. 서브프레임(51)의 좌상 코너는 프레임(50) 내의 위치(x, y), 예를 들어 x = 1088 및 y = 540에 위치한다. 서브프레임(51)의 크기 및 위치는 비디오의 지속기간에 걸쳐 일정하다. 변형에서, 서브프레임(51)의 크기 및/또는 위치는 시간에 따라 변한다.

부분(52)은 정방형 매핑에 따라 소스 몰입형 콘텐츠를 인코딩하는 직사각형 프레임이다. 부분(53)에 대응하는 영역이 이 프레임으로부터 절단된다. 부분(53)은 이미지가 직사각형 매핑(그의 중앙 측)으로부터 정방형 매핑(그의 주변 측)으로 연속적으로 진행하는 전이 영역이다.

도 6은 도 5의 예시적인 레이아웃으로 인코딩된 역방향 호환 프레임(50)으로의 정방형 매핑에 따라 인코딩된 몰입형 프레임(60)의 변환의 예를 도시한다. 관심 영역은 예를 들어 감독에 의해 수동으로 선택되거나, 예를 들어, 이미지의 돌출 맵(saliency map)에 기초한 이미지 처리 알고리즘을 사용하여 자동으로 선택된다. 관심 영역은 몰입형 콘텐츠의 시야(최대 360°)의 일부에 대응한다. 전술한 바와 같이, 원근 투영이 관심 영역에 대해 선택되면, 시야는 최대 70도이다. 변형에서, 광각이 관심 영역의 투영 함수로서 선택된다.

다음의 예에서, 프레임(50) 내의 서브프레임(51)의 위치 (x,y)는 서브프레임(51)을 프레임의 중앙에 갖도록 선택되었다. 이 예의 변형에서, 식은 기준 프레임을 병진 이동시킴으로써 적응될 수 있다.

수평 시야가 주어지면 수직 시야는 다음 식에 의해 결정된다.

<수학식 1>

여기서, w 및 h는 각각 서브프레임(51)의 폭 및 높이이다. 프레임(50)의 점 M_e(i_e, j_e)에 대해, 서브프레임(51)의 좌표 M_S는 식 2에 따라 결정된다.

<수학식 2>

여기서, w_e 및 h_e는 각각 프레임(50)의 폭 및 높이이다. 서브프레임(51)의 각 픽셀 M_s(i,j)에 대해, 관련 3D 점 M_v가 계산된다(식 3). 구 상의 점의 정규화를 투영함으로써 프레임(60) 내의 대응 픽셀의 좌표 M이 얻어진다(식 4).

<수학식 3>

<수학식 4>

함수 f는 이미지 공간에서 표면의 중간 파라미터 공간으로 매핑하는 함수이다. 예를 들어, 정방형 매핑의 경우, 함수 f는 다음과 같이 정의될 수 있다.

<수학식 4a>

함수 ∂는 중간 파라미터 공간에서 표면의 3D 공간으로 매핑하는 함수이다. 정방형 매핑의 경우, 3D 표면은 구이며, 델타는 다음과 같이 정의될 수 있다.

서브프레임(51)의 시야가 서브프레임(51)에 의해 점유된 몰입형 프레임(50, 60)의 시야 부분보다 작은 경우, 픽셀은 전이 영역(53)에서 "압축"된다. 이것은 서브프레임(51)이 차지하는 공간이 168.75도(1920 X 360/4096)일 때 서브프레임(51)의 수평 시야가 60도인 도 6의 예에서 그러하다. 반대로, 서브프레임(51)의 시야가 서브프레임(51)에 의해 점유된 몰입형 프레임(50, 60)의 시야 부분보다 크면, 픽셀은 전이 영역(53)에서 "신장"된다.

전이 영역(53)을 채우는 예시적인 방법은 직사각형 매핑 서브프레임(51)으로부터 정방형 매핑 부분(52)으로의 매끄러운 보간을 예를 들어 프레임의 두 부분(51 및 52) 사이의 거리에 따라 가중치를 결정함으로써 계산하는 것이다.

<수학식 5>

여기서, m_x 및 m_y는 각각 서브프레임(51) 주위의 부분(53)을 정의하는 마진의 폭 및 높이이다. 구 상의 점의 좌표는 가중치의 함수에 따라 계산되고(식 6), 사용할 프레임(60)의 픽셀의 좌표는 식 7에 의해 얻어진다.

<수학식 6>

<수학식 7>

함수 h는 두 매핑 간의 전이 기울기를 변경하는 데 사용된다. 1 이상의 양의 상수 α가 주어지면 함수 h는 예를 들어 다음 중 하나이다.

다른 실시예에서, 매끄러운 보간은 위에서 상술한 바와 같이 파라미터 표면 대신에 삼차원(3D) 공간에서 수행된다.

도 7은 도 5 및 6에 도시된 비디오 프레임을 포함하는 역방향 호환 몰입형 비디오를 나타내는 데이터를 운반하는 스트림(70)의 데이터 구조의 특정 실시예를 도시한다. 도 5 및 6의 프레임(50)은 스트림의 페이로드 부분(71) 내에 인코딩된다. 콘텐츠에 관련된 글로벌 또는 일반 정보가 헤더 부분(72)에 포함된다. 변경 또는 반복 정보는 각 페이로드 부분(71)의 헤더 부분(73)에 저장된다.

프레임(50)은 레거시 비디오 렌더링 디바이스에 적응되는 서브프레임(51)을 포함한다. 이들 디바이스가 서브프레임(51)을 디코딩하는 데 필요한 유일한 정보는 프레임(60) 내의 그의 위치 및 크기이며, 이는 본 명세서에서 제1 정보라고도 한다. 제1 정보가 시간에 걸쳐 변할 수 있음에 따라, 또는 콘텐츠 헤더가 (예를 들어 방송의 경우) 클라이언트 디바이스에 의해 수신되지 않았을 수 있기 때문에, 제1 정보는 각 페이로드 부분(71)의 헤더 부분(73)에 포함된다. 변형에서, 제1 정보는 콘텐츠 헤더 부분(72)에 포함된다. 다른 변형에서, 제1 정보는 변경시에만 또는 예를 들어 5 또는 10개의 페이로드 부분(71)마다 한 번씩 반복적으로 페이로드 부분(71)의 헤더(73) 부분에 포함된다.

특정 실시예에서, 프레임(50)은 H.265/HEVC 코덱(DVB 표준의 문서 ETSI TS 101 154 v2.2.1 참조)에 따라 인코딩된다. 이 코덱의 파라미터 "윈도우 적합성"은 메인 프레임에서 서브프레임의 위치 및 크기 정보를 운반하기 위해 예약된다. 스트림에 존재할 때, 렌더링 디바이스에 의한 적합성 윈도우 파라미터의 사용은 DVB 표준의 사양에서 필수적이다. 종횡비 적응은 디바이스의 사전 변경 없이 평소와 같이 레거시 비디오 렌더링 디바이스에 의해 관리된다.

몰입형 비디오 렌더링 디바이스(예를 들어, 태블릿, 스마트폰 또는 HMD)에 의해 디코딩될 때, 프레임(60)을 검색하기 위해 프레임(50)의 역변환이 수행된다. 도 6의 예에서, 역변환은 식 8 및 식 9의 역함수에 기초할 수 있다.

<수학식 8>

<수학식 9>

이 역변환에 필요한 파라미터는 변환에 필요한 것: 한편으로, 서브프레임(51)의 위치 및 크기를 포함하는 제1 정보 및 다른 한편으로, 프레임(50)(이 예에서 도 5의 것)을 준비하는 데 사용되는 매핑 레이아웃의 타입, 서브프레임(51)을 계산하는 데 사용된 시야, 전이 영역의 크기 및 기준 방향을 포함하는 제2 정보와 동일하며; 전이 영역의 위치는 매핑 레이아웃의 타입과 상관된다. 기준 방향은 몰입형 시청에서 렌더링시 매핑 표면의 절대 0 위치를 아는 데 유용할 수 있다. 제2 정보는 시간에 걸쳐 일정하며, 이러한 이유 때문에 콘텐츠의 헤더 부분(72)에 인코딩된다. 다른 실시예에서, 예를 들어 스트림이 방송될 때, 콘텐츠 헤더(72)는 클라이언트에 의해 누락될 수 있으며; 결과적으로, 제2 정보는 스트림 내에, 예를 들어 페이로드 부분(71)의 헤더 부분(73)에 반복적으로 인코딩된다. 변형에서, 제2 정보의 일부 데이터(예를 들어, 전이 영역의 크기)는 시간에 걸쳐 변경될 수 있으며, 이 때문에, 제2 정보는 스트림의 페이로드 부분(71)의 헤더 부분(73)에 인코딩된다.

이어서, 재구성된 프레임(60)은 구 상에 매핑되고, 몰입형 비디오 렌더링 디바이스는 표시할 몰입형 콘텐츠의 일부를 렌더링하기 위해 그의 정규 투영 함수를 사용한다. 다른 실시예에서, 몰입형 비디오 렌더링 디바이스는 상기 제1 및 제2 정보에 따라 프레임(50)에 고유한 매핑 표면을 형성했다. 예를 들어, 고유 매핑 표면은 (서브프레임(51)에 대한) 평면, (전이 부분(53)에 대한) 타원형 부분 및 (정방형 부분(52)에 대한) 부분적 구 부분으로 구성된다. 프레임(50)은 고유 매핑 표면 상에 매핑되고, 몰입형 비디오 렌더링 디바이스의 정규 투영 함수는 디바이스와 관련된 적어도 하나의 스크린에 적응된 몰입형 콘텐츠의 일부를 자동으로 절단한다.

특정 실시예에서, 프레임(50) 및 제1 및 제2 정보는 별개의 동기화된 스트림에 인코딩된다.

도 8은 큐브 매핑으로 관심 영역의 원치 않는 불연속성을 극복하기 위해 준비된 역방향 호환 프레임의 예시적인 레이아웃(80)을 도시한다. 이 예시적인 레이아웃에서, 3D 표면의 각 면의 크기와 비율이 적응된다. 도 5 및 6의 예시적인 정방형 레이아웃과 동일한 이유 때문에, 레거시 비디오 렌더링 디바이스에 의해 직접 디코딩될 수 있도록 서브프레임(81)이 준비된다. 이 예시적인 레이아웃(80)은 주어진 크기, 예를 들어 720 X 576 픽셀(PAL 선명도), 720 X 480(NTSC 선명도), 1280 X 720(HD1 선명도), 1920 X 1080 픽셀(HD2 선명도) 또는 4096 X 2160(4K)의 직사각형 프레임이다. 큐브의 6개의 면은 레이아웃의 세 부분, 즉 직사각형 매핑 부분(81), 몰입형 매핑 부분(82) 및 전이 매핑 영역(83)을 구성한다.

부분(81)은 예를 들어 원근 투영에 따라 캡처되고 직사각형 매핑에 따라 인코딩되는 소스 몰입형 콘텐츠의 관심 영역에 대응한다. 관심 영역은 큐브의 한 면을 차지한다. 서브프레임(51)의 크기는 주어진 선명도, 예를 들어 프레임(80)이 4K 프레임이면 1920 X 1080 픽셀이다. 이러한 표준 크기는 사전 변경 없이 기존 레거시 비디오 렌더링 디바이스에 의해 디코딩되고 렌더링되는 이점을 갖는다. 그러나 (정사각형이 아니라) 직사각형이기 때문에 매핑 레이아웃 내의 큐브의 다른 면의 크기가 적응되어야 한다. 도 8의 예에서, 부분(81)은 (규약에 의해) 정면으로 표시되며 프레임(80)의 폭의 절반과 그의 높이의 절반을 차지한다. 상면, 하면 및 배면은 정사각형을 유지한다. 우측 면과 좌측 면은 예를 들어 하면보다 작은 직사각형이다. 몰입형 큐브 매핑에서 큐브의 각 면은 수평 시야(360도)의 90도(90°)와 수직 시야의 90도를 받는다. 도 8의 예시적인 역방향 호환 레이아웃에서, 정면의 시야는 관심 영역의 시야에 대응한다. 이 시야가 90°보다 작으면, 좌측 면, 우측 면, 상면 및 하면은 좌측 면 및 우측 면의 더 작은 영역에서 90°를 넘는 시야를 인코딩해야 한다. 결과적으로, 픽셀은 상기 4개의 면 상에 분포된 전이 영역(83)에서 "압축"된다. 프레임(80)의 나머지는 큐브 매핑에 따라 몰입형 프레임을 인코딩하는 데 사용된다.

도 8의 레이아웃으로 준비된 역방향 호환 몰입형 비디오는 도 5의 레이아웃에 대해 도 7에 도시된 바와 같이 스트림 내에 인코딩된다. 준비된 프레임은 스트림(70)의 페이로드 부분(71)에 인코딩된다. 서브프레임(81)의 위치 및 크기를 포함하는 제1 정보는 페이로드 부분(71)의 헤더 부분(73) 및/또는 콘텐츠의 헤더 부분(72)에 동일한 변형에 따라 인코딩된다. 제2 영역은 프레임(50)(이 예에서 도 8의 것)을 준비하는 데 사용되는 매핑 레이아웃의 타입, 서브프레임(81)을 계산하기 위해 사용되는 시야, 전이 영역의 크기 및 기준 방향을 포함하며; 전이 영역의 위치는 매핑 레이아웃의 타입과 상관된다.

도 9는 도 10 또는 11과 관련하여 설명된 방법을 구현하도록 구성된 장치(70)의 하드웨어 실시예를 도시한다. 이 예에서, 디바이스(90)는 클럭 신호도 운반하는 어드레스 및 데이터의 버스(91)에 의해 서로 접속되는 다음의 요소를 포함한다:

예를 들어 DSP(즉 디지털 신호 프로세서)인 마이크로프로세서(92)(또는 CPU);

ROM(판독 전용 메모리) 타입의 비휘발성 메모리(93);

랜덤 액세스 메모리 또는 RAM(94);

애플리케이션으로부터 전송할 데이터의 수신을 위한 I/O 인터페이스(95); 및

랜덤 액세스 메모리의 레지스터를 내장할 수 있는 그래픽 카드(96);

전원(97).

일례에 따르면, 전원(97)은 디바이스 외부에 있다. 언급된 각각의 메모리에서, 명세서에서 사용된 "레지스터"라는 단어는 작은 용량(몇몇 비트)의 영역에 또는 매우 큰 영역(예를 들어, 전체 프로그램 또는 대량의 수신 또는 디코딩된 데이터)에 대응할 수 있다. ROM(93)은 적어도 프로그램 및 파라미터를 포함한다. ROM(93)은 본 원리에 따라 기술을 수행하기 위한 알고리즘 및 명령어를 저장할 수 있다. 스위치 온될 때, CPU(92)는 프로그램을 RAM에 업로드하고 대응하는 명령어를 실행한다.

RAM(94)은 레지스터 내에 CPU(92)에 의해 실행되고 디바이스(90)의 스위치 온 후에 업로드되는 프로그램, 레지스터 내에 입력 데이터, 레지스터 내에 방법의 다른 상태에서의 중간 데이터 그리고 레지스터 내에 방법의 실행에 사용되는 다른 변수를 포함한다.

본 명세서에서 설명된 구현들은 예를 들어 방법 또는 프로세스, 장치, 소프트웨어 프로그램, 데이터 스트림 또는 신호로 구현될 수 있다. 단일 형태의 구현(예를 들어, 방법 또는 디바이스로서만 논의됨)의 맥락에서만 논의되어도, 논의된 특징들의 구현은 다른 형태들(예를 들어, 프로그램)로 구현될 수도 있다. 장치는 예를 들어 적절한 하드웨어, 소프트웨어 및 펌웨어로 구현될 수 있다. 방법들은, 예를 들어 컴퓨터, 마이크로프로세서, 집적 회로 또는 프로그래밍 가능 논리 디바이스를 포함하는 일반적으로 처리 디바이스를 지칭하는, 예를 들어 프로세서와 같은 예를 들어, 장치에서 구현될 수 있다. 프로세서들은 또한 예를 들어 컴퓨터, 셀폰, 휴대용/개인용 디지털 보조기("PDA"), 셋톱 박스, 및 최종 사용자들 사이의 정보의 통신을 용이하게 하는 다른 디바이스들과 같은 통신 디바이스들을 포함한다.

도 10에 도시된 바와 같이 역방향 호환 몰입형 비디오 스트림을 생성하는 일례에 따르면, 소스 몰입형 비디오 및 소스 몰입형 비디오의 관심 영역을 나타내는 데이터가 소스로부터 얻어진다. 예를 들어, 소스는 다음을 포함하는 세트에 속한다:

로컬 메모리(93, 94 또는 96), 예로서 비디오 메모리 또는 RAM(즉 랜덤 액세스 메모리), 플래시 메모리, ROM(즉 판독 전용 메모리), 하드 디스크;

저장 인터페이스(95), 예로서 대용량 저장소, RAM, 플래시 메모리, ROM, 광디스크 또는 자기 서포트와의 인터페이스; 및

통신 인터페이스(95), 예로서 유선 인터페이스(예로서, 버스 인터페이스, 광역 네트워크 인터페이스, 근거리 네트워크 인터페이스) 또는 무선 인터페이스(예로서, IEEE 802.11 인터페이스 또는 Bluetooth® 인터페이스).

하나의 특정 실시예에 따르면, 역방향 호환 몰입형 비디오 스트림을 생성하는 방법의 단계를 구현하고 이하 도 10에서 설명되는 알고리즘은 이들 단계를 구현하는 디바이스(90)와 관련된 그래픽 카드(96)의 메모리(GRAM)에 저장된다. 변형에 따르면, RAM(94)의 일부는 알고리즘 저장을 위해 CPU(92)에 의해 할당된다. 이러한 단계들은 로컬 메모리, 예로서 비디오 메모리(94), RAM(94), ROM(93), 플래시 메모리(93) 또는 하드 디스크(93), 저장 인터페이스(95), 예로서 대용량 저장소, RAM, ROM, 플래시 메모리, 광디스크 또는 자기 서포트와의 인터페이스를 포함하는 세트에 속하는 목적지로 전송되고/되거나 통신 인터페이스(95), 예로서 점대점 링크, 버스, 점 대 다점 링크 또는 방송 네트워크에 대한 인터페이스로부터 수신되는 비디오 스트림의 생성을 유도한다.

예들에 따르면, 도 10과 관련하여 설명된 역방향 호환 몰입형 비디오 스트림을 생성하는 방법을 구현하도록 구성된 디바이스(90)는

모바일 디바이스;

통신 디바이스;

게임 디바이스;

태블릿(또는 태블릿 컴퓨터);

랩탑;

인코딩 칩;

정지 픽처 서버; 및

비디오 서버(예로서, 방송 서버, 주문형 비디오 서버 또는 웹 서버)

를 포함하는 세트에 속한다.

역방향 호환 몰입형 비디오 스트림으로부터 비디오를 구성하는 예에 따르면, 역방향 호환 몰입형 비디오를 나타내는 스트림이 소스로부터 얻어진다. 예시적으로, 스트림은 로컬 메모리, 예를 들어 비디오 메모리(94), RAM(94), ROM(73), 플래시 메모리(93) 또는 하드 디스크(93)로부터 판독된다. 변형에서, 스트림은 저장 인터페이스(95), 예로서 대용량 저장소, RAM, ROM, 플래시 메모리, 광디스크 또는 자기 서포트와의 인터페이스로부터 수신되고/되거나, 통신 인터페이스(95), 예로서 점대점 링크, 버스, 점 대 다점 링크 또는 방송 네트워크에 대한 인터페이스로부터 수신된다.

하나의 특정 실시예에 따르면, 렌더링 디바이스를 위한 역방향 호환 몰입형 비디오 스트림으로부터 비디오를 구성하는 방법의 단계들을 구현하고, 이하 도 11에서 설명되는 알고리즘은 이들 단계를 구현하는 디바이스(90)와 관련된 그래픽 카드(96)의 메모리(GRAM)에 저장된다. 변형에 따르면, RAM(94)의 일부는 알고리즘 저장을 위해 CPU(92)에 의해 할당된다. 이 단계는 다음을 포함하는 세트에 속하는 목적지로 전송되는 비디오의 구성을 유도한다:

모바일 디바이스;

통신 디바이스;

게임 디바이스;

셋톱 박스;

TV 세트;

태블릿(또는 태블릿 컴퓨터);

랩탑;

디스플레이; 및

디코딩 칩.

도 10은 비한정적인 유리한 실시예에 따른 디바이스(90)와 같은 처리 디바이스에서 구현되는 바와 같이 역방향 호환 몰입형 비디오 스트림을 생성하는 방법(100)의 실시예를 도식적으로 도시한다.

단계 101에서, 몰입형 비디오의 관심 영역을 나타내는 몰입형 비디오 및 데이터가 소스로부터 얻어진다. 몰입형 비디오는 몰입형 매핑, 예를 들어 (도 6의 프레임(60)과 같이) 정방형 매핑, (예로서, 도 3의 프레임(30)과 같이) 큐브 매핑 또는 피라미드 매핑에 따라 인코딩된 프레임을 포함한다. 몰입형 비디오는 오디오 트랙 또는 메타데이터와 같은 역방향 호환 몰입형 비디오 스트림을 생성할 때 변경 없이 사용되는 다른 데이터를 포함할 수 있다.

단계 102에서, 역방향 호환 프레임의 준비를 위해 레이아웃, 예를 들어, 도 5와 같은 정방형 매핑에 기초한 레이아웃 또는 도 8의 것과 같은 큐브 매핑에 기초한 레이아웃 또는 피라미드 매핑에 기초한 레이아웃이 선택된다.

단계 103은 역방향 호환 프레임을 형성하는 단계로 구성된다. 이 단계는 3개의 하위 단계 104, 105 및 106을 포함한다. 이들 3개의 하위 단계는 순차적으로 또는 병렬로 실행될 수 있다. 단계 104는 직사각형 매핑에 따라 프레임을 인코딩하는 단계로 구성된다. 이 단계 104는 역방향 호환되는 프레임의 부분을 생성하기 때문에 모든 레이아웃에 공통적이다. 프레임의 컬러 정보(즉, 픽셀)는 관심 영역의 설명에 따라 몰입형 비디오 프레임으로부터 결정된다. 단계 105 및 106은 관심 영역 밖에 있는 몰입형 비디오의 부분을 준비하는 단계로 구성된다. 레이아웃의 몰입형 매핑은 몰입형 비디오의 몰입형 매핑과 다를 수 있다. 전이 영역의 크기가 결정된다. 전이 영역의 위치는 선택한 레이아웃에 의존한다. 전이 영역은 역방향 호환 프레임을 계속한다. 단계 105에서, 전이 영역의 컬러 정보가 결정된다. 이 부분에 사용되는 매핑은 직사각형 매핑에서 레이아웃의 몰입형 매핑으로 계속적으로 전이한다. 단계 106에서, 몰입형 부분의 컬러 정보가 결정된다. 몰입형 비디오 프레임의 세 부분에 대응하는 세 영역은 선택한 레이아웃에 따라 역방향 호환 프레임을 구성하는 데 사용된다. 단계 103의 실행에 대해 결정된 값은 단계 107의 입력으로서 전송된다. 이들 값은 제1 영역의 크기 및 위치, 레이아웃 타입, 제1 부분의 시야, 전이 영역의 크기 및 기준 방향이라고도 하는 렌더링시 매핑 표면의 절대 0 위치의 방향이다.

단계 107은 역방향 호환 몰입형 비디오 스트림의 생성으로 구성된다. 스트림은 역방향 호환 비디오 프레임, 제1 영역의 크기 및 위치에 관한 제1 정보 및 레이아웃의 타입, 제1 부분의 시야, 전이 영역의 크기 및 기준 방향을 포함하는 제2 정보를 포함한다.

도 11은 비한정적인 유리한 실시예에 따른 디바이스(90)와 같은 처리 디바이스에서 구현되는 주어진 렌더링 디바이스를 위한 역방향 호환 몰입형 비디오 스트림으로부터 비디오 프레임을 구성하는 방법(110)의 실시예를 개략적으로 도시한다. 렌더링 디바이스는 TV 세트, 태블릿 또는 스마트폰과 같은 레거시 비디오 렌더링 디바이스 또는 몰입형 비디오를 렌더링하도록 구성된 케이브, HMD 또는 태블릿 또는 스마트폰과 같은 몰입형 비디오 렌더링 디바이스이다. 방법의 처음 세 단계는 양 타입의 렌더링 디바이스에 공통적이다.

단계 111에서, 스트림이 소스로부터 얻어진다. 스트림은 역방향 호환되므로, 사전 변경 없이 표준 레거시 비디오 렌더링 디바이스로 파싱될 수 있다. 단계 112에서, 스트림의 비디오 프레임이 획득된다. 실시예에 따르면, 프레임은 이 단계에서 디코딩된다. 다른 실시예에서, 프레임의 인코딩된 데이터가 액세스되고 인코딩된 상태로 유지된다. 그러한 실시예는 프레임의 제1 영역만이 단계 114에서 디코딩될 레거시 비디오 렌더링 디바이스에 유용하다. 이러한 실시예는 예를 들어 타일의 사용에 의해 구현될 수 있다. 독립적인 타일은 전용 보완 향상 정보(SEI)가 각각 다른 타일로부터 독립적으로 디코딩될 타일의 크기와 위치를 알리기 위해 예약되는 HEVC의 특징이다. 단계 113에서, 제1 영역의 크기 및 위치를 포함하는 제1 정보가 스트림으로부터 파싱된다.

이 시점에서, 렌더링 디바이스가 레거시 비디오 렌더링 디바이스이면, 제1 영역에 대응하는 프레임의 부분은 렌더링될 프레임을 구성하는 데 사용된다. 제1 영역은 직사각형 매핑에 따라 인코딩되므로, 레거시 비디오 렌더링 디바이스는 이를 사전 변경 없이 렌더링할 수 있다. 실시예에 따르면, 프레임은 제1 영역만을 유지하기 위해 제1 정보에 따라 절단된다. 다른 실시예에 따르면, 제1 영역의 일부만이 예를 들어 타일 특징을 사용함으로써 디코딩된다.

렌더링 디바이스가 몰입형 비디오 렌더링 디바이스인 경우, 단계 115에서 제2 정보가 스트림으로부터 파싱된다. 이 정보는 단계 116에서 매핑된 표면을 형성하기 위해 제1 정보에 추가하여 사용된다. 실시예에 따르면, 매핑 표면, 예를 들어 구, 큐브 또는 피라미드가 선택된다. 이 매핑 표면은 예를 들어 텍스처 좌표와 관련된 메시이다. 이러한 텍스처 좌표는 입력 프레임과 매칭하도록 계산된다. 변형에서, 메시의 정점들은 그들의 위치가 입력 프레임 내의 그들의 텍스처 좌표 어드레스의 위치와 매칭하도록 변위된다. 다른 변형에서, 프레임이 매핑 표면의 텍스처 좌표와 매칭하도록 중간 프레임이 계산된다.

단계 117은 매핑된 표면의 중심에 배치된 가상 카메라로부터 렌더링될 비디오를 캡처하는 단계로 구성된다. 이것은 몰입형 비디오 렌더링 디바이스의 정규 단계이다. 적어도 하나의 가상 카메라가 매핑된 표면의 중심에 배치되고 투영 디바이스로 전송되도록 의도된 프레임을 캡처한다. 헤드 장착 디바이스의 경우, 투영 디바이스는 디바이스의 스크린이다. 케이브의 경우, 각 광 투영기는 투영 디바이스이다.

당연히, 본 개시는 전술한 실시예로 한정되지 않는다.

특히, 본 개시는 몰입형 비디오 콘텐츠를 처리하는 방법에 한정되지 않는 것이 아니라, 처리된 비디오 프레임을 표시하는 임의의 방법 및 이 표시 방법을 구현하는 임의의 디바이스에도 확장된다. 프레임 및 스트림을 생성하는 데 필요한 계산의 구현은 셰이더 타입 마이크로프로그램에서의 구현으로 한정되는 것이 아니라, 임의의 프로그램 타입, 예로서 CPU 타입 마이크로프로세서에 의해 실행될 수 있는 프로그램에서의 구현으로 확장된다. 본 개시내용의 방법들의 사용은 라이브 이용에 제한되는 것이 아니라, 임의의 다른 이용, 예를 들어, 레코딩 스튜디오에서의 후반 제작 처리로서 알려진 처리에 대해 또한 확장한다.

본 명세서에서 설명된 구현들은, 예를 들어 방법 또는 프로세스, 장치, 소프트웨어 프로그램, 데이터 스트림 또는 신호로 구현될 수 있다. 단일 형태의 구현(예를 들어, 방법 또는 디바이스로서만 논의됨)의 맥락에서만 논의되어도, 논의된 특징들의 구현은 다른 형태들(예를 들어, 프로그램)로 구현될 수도 있다. 장치는 예를 들어 적절한 하드웨어, 소프트웨어 및 펌웨어로 구현될 수 있다. 방법들은, 예를 들어 컴퓨터, 마이크로프로세서, 집적 회로 또는 프로그래밍 가능 논리 디바이스를 포함하는 일반적으로 처리 디바이스를 지칭하는, 예를 들어 프로세서와 같은 예를 들어, 장치에서 구현될 수 있다. 프로세서들은 또한, 예를 들어, 스마트폰, 태블릿, 컴퓨터, 이동 전화, 개인 정보 단말기("PDA")와 같은 통신 디바이스, 및 최종-사용자들 간에 정보 통신을 가능하게 하는 다른 디바이스들을 포함한다.

여기에 설명된 다양한 프로세스들 및 특징들의 구현들은 다양한 상이한 장비 또는 애플리케이션들, 특히 예를 들면 데이터 인코딩, 데이터 디코딩, 뷰 생성, 텍스처 처리, 및 이미지들 및 관련된 텍스처 정보 및/또는 깊이 정보의 다른 처리와 관련된 장비 또는 애플리케이션들에서 실시될 수 있다. 이러한 장비의 예들은 인코더, 디코더, 디코더로부터의 출력을 처리하는 포스트 프로세서, 인코더에 입력을 제공하는 프리 프로세서, 비디오 코더, 비디오 디코더, 비디오 코덱, 웹 서버, 셋톱 박스, 랩톱, 개인용 컴퓨터, 셀 폰, PDA, 및 다른 통신 디바이스들을 포함한다. 명료해야 하는 바와 같이, 장비는 이동형이며, 심지어 자동차 내에 설치될 수 있다.

추가적으로, 방법들은 프로세서에 의해 수행되는 명령들에 의해 구현될 수 있고, 그러한 명령들(및/또는 구현에 의해 생성된 데이터 값들)은 예를 들면 집적 회로, 소프트웨어 캐리어, 또는 예를 들면 하드디스크, 컴팩트 디스켓("CD"), 광 디스크(예를 들면, 종종 디지털 다기능 디스크 또는 디지털 비디오 디스크로 지칭되는 DVD), 랜덤 액세스 메모리("RAM"), 또는 판독전용 메모리("ROM")와 같은 다른 저장 디바이스와 같은 프로세서-판독가능한 매체 상에 저장될 수 있다. 명령어들은 프로세서 판독가능한 매체 상에 유형적으로 구현되는 애플리케이션 프로그램을 형성할 수 있다. 명령어들은, 예를 들어, 하드웨어, 펌웨어, 소프트웨어, 또는 조합 내에 존재할 수 있다. 명령어들은, 예를 들어, 운영 체제, 별도의 애플리케이션, 또는 이 둘의 조합에서 발견될 수 있다. 따라서, 프로세서는, 예를 들어 프로세스를 수행하도록 구성된 디바이스와 프로세스를 수행하기 위한 명령어들을 갖는 프로세서 판독가능한 매체를 포함하는 디바이스(예컨대, 저장 디바이스) 양자 모두로서 특성화될 수 있다. 또한, 프로세서 판독가능한 매체는, 명령어들에 더하여 또는 명령어들 대신, 구현에 의해 생성되는 데이터 값들을 저장할 수 있다.

본 기술분야의 통상의 기술자에게 명백할 바와 같이, 구현들은, 예를 들어, 저장되거나 송신될 수 있는 정보를 반송하도록 포맷팅되는 다양한 신호들을 생성할 수 있다. 정보는, 예를 들어, 방법을 수행하기 위한 명령어들, 또는 설명된 구현들 중 하나에 의해 생성되는 데이터를 포함할 수 있다. 예를 들어, 신호는 설명된 실시예의 신택스를 기입하거나 판독하기 위한 규정들을 데이터로서 반송하거나, 또는 설명된 실시예에 의해 기입되는 실제 신택스-값들을 데이터로서 반송하도록 포맷팅될 수 있다. 이러한 신호는, 예를 들어, 전자기파로서(예를 들어, 스펙트럼의 라디오 주파수 부분을 사용하여), 또는 베이스밴드 신호로서 포맷팅될 수 있다. 포맷팅은, 예를 들어, 데이터 스트림을 인코딩하는 것 및 인코딩된 데이터 스트림을 이용하여 캐리어를 변조하는 것을 포함한다. 신호가 반송하는 정보는, 예를 들어, 아날로그 또는 디지털 정보일 수 있다. 공지된 바와 같이, 신호는 다양한 상이한 유선 또는 무선 링크들을 통해 송신될 수 있다. 신호는 프로세서 판독가능한 매체 상에 저장될 수 있다.

다수의 구현이 설명되었다. 그럼에도 불구하고, 다양한 변형이 이루어질 수 있음이 이해될 것이다. 예를 들어, 상이한 구현들의 요소는 조합되고, 보충되고, 수정되거나, 또는 제거되어 다른 구현들을 생성할 수 있다. 추가로, 통상의 기술자는, 다른 구조들 및 프로세스들이 개시된 것들에 대해 치환될 수 있으며, 결과적인 구현들이 적어도 실질적으로 동일한 기능(들)을, 적어도 실질적으로 동일한 방식(들)으로 수행하여, 개시된 구현들과 적어도 실질적으로 동일한 결과(들)를 달성할 것임을 이해할 것이다. 따라서, 이러한 그리고 다른 구현들이 이 출원에 의해 참작된다.

Claims

비디오 스트림으로부터 렌더링 디바이스를 위한 비디오 프레임을 구성하는 방법(110)으로서,
상기 비디오 스트림으로부터 제1 정보를 획득하는 단계(113) - 상기 제1 정보는 상기 비디오 스트림으로부터 획득된 소스 비디오 프레임에서의 제1 영역의 크기 및 위치를 나타내고, 상기 제1 영역은 직사각형임 -;
직사각형 매핑에 따라 상기 제1 영역을 디코딩하는 단계;
상기 렌더링 디바이스가 몰입형 비디오 렌더링 디바이스인 경우:
상기 비디오 스트림으로부터 제2 정보를 획득하는 단계(115) - 상기 제2 정보는 레이아웃의 타입, 상기 제1 영역의 시야, 제2 영역의 크기 및 기준 방향을 나타냄 -;
상기 제1 정보 및 상기 제2 정보를 사용함으로써 상기 직사각형 매핑으로부터 몰입형 매핑으로 전이하는 매핑에 따라 상기 제2 영역을 디코딩하는 단계;
상기 제1 정보 및 상기 제2 정보를 사용함으로써 상기 몰입형 매핑에 따라 상기 소스 비디오 프레임의 제3 영역을 디코딩하는 단계;
디코딩된 상기 제1 영역, 디코딩된 상기 제2 영역 및 디코딩된 상기 제3 영역으로 상기 비디오 프레임을 구성하는 단계(117)
를 포함하는 것을 특징으로 하는 방법.
제1항에 있어서,
상기 레이아웃은, 정방형 매핑, 큐브 매핑 및 피라미드 매핑을 포함하는 몰입형 매핑의 세트에 속하는 몰입형 매핑에 기초하는 방법.
제1항 또는 제2항에 있어서,
상기 제1 정보는 적합성 윈도우 파라미터들에 의해 운반되고, 상기 제2 정보는 보완 향상 정보(SEI)에 의해 운반되는 방법.
비디오 스트림으로부터 렌더링 디바이스를 위한 비디오 프레임을 구성하도록 구성된 장치(90)로서,
상기 장치는 프로세서를 포함하고,
상기 프로세서는:
상기 비디오 스트림으로부터 제1 정보를 획득하고 - 상기 제1 정보는 상기 비디오 스트림으로부터 획득된 소스 비디오 프레임의 제1 영역의 크기 및 위치를 나타내고, 상기 제1 영역은 직사각형임 -, 직사각형 매핑에 따라 상기 제1 영역을 디코딩하도록 구성되고,
상기 렌더링 디바이스가 몰입형 비디오 렌더링 디바이스인 경우, 상기 프로세서는:
상기 비디오 스트림으로부터 제2 정보를 획득하고 - 상기 제2 정보는 레이아웃의 타입, 상기 제1 영역의 시야, 제2 영역의 크기 및 기준 방향을 나타냄 -;
상기 제1 정보 및 상기 제2 정보를 사용함으로써 상기 직사각형 매핑으로부터 몰입형 매핑으로 전이하는 매핑에 따라 상기 제2 영역을 디코딩하고;
상기 제1 정보 및 상기 제2 정보를 사용함으로써 상기 몰입형 매핑에 따라 상기 소스 비디오 프레임의 제3 영역을 디코딩하고;
디코딩된 상기 제1 영역, 디코딩된 상기 제2 영역 및 디코딩된 상기 제3 영역으로 상기 비디오 프레임을 구성하도록
더 구성되는 것을 특징으로 하는 장치.
제4항에 있어서,
상기 레이아웃은, 정방형 매핑, 큐브 매핑 및 피라미드 매핑을 포함하는 몰입형 매핑의 세트에 속하는 몰입형 매핑에 기초하는 장치.
제4항 또는 제5항에 있어서,
상기 제1 정보는 적합성 윈도우 파라미터들에 의해 운반되고, 상기 제2 정보는 보완 향상 정보(SEI)에 의해 운반되는 장치.
제4항 또는 제5항에 있어서,
상기 장치는, 모바일 디바이스, 통신 디바이스, 게임 디바이스, 태블릿 컴퓨터, 랩탑, 인코딩 칩, 정지 픽처 서버, 비디오 서버, 방송 서버, 주문형 비디오 서버 및 웹 서버를 포함하는 장치의 세트에 속하는 장치.
몰입형 비디오로부터 비디오 스트림을 생성하는 방법(100)으로서,
직사각형 매핑에 따라 몰입형 비디오 프레임의 제1 부분을 인코딩하는 단계(104);
상기 직사각형 매핑으로부터 몰입형 매핑으로 전이하는 매핑에 따라 상기 몰입형 비디오 프레임의 제2 부분을 인코딩하는 단계(105);
상기 몰입형 매핑에 따라 상기 몰입형 비디오 프레임의 제3 부분을 인코딩하는 단계(106);
상기 제1 부분을 제1 영역으로서, 상기 제2 부분을 제2 영역으로서 그리고 상기 제3 부분을 제3 영역으로서 포함하는 레이아웃에 따라 비디오 프레임을 구성하는 단계(103) - 상기 제1 영역은 직사각형임 -;
상기 구성된 비디오 프레임, 상기 제1 영역의 크기 및 위치를 포함하는 제1 정보, 및 상기 레이아웃의 타입, 상기 제1 부분의 시야, 상기 제2 영역의 크기 및 기준 방향을 포함하는 제2 정보를 포함하는 상기 비디오 스트림을 생성하는 단계(107)
를 포함하는 것을 특징으로 하는 방법.
제8항에 있어서,
상기 레이아웃은, 정방형 매핑, 큐브 매핑 및 피라미드 매핑을 포함하는 몰입형 매핑의 세트에 속하는 몰입형 매핑에 기초하는 방법.
제8항 또는 제9항에 있어서,
상기 제1 정보는 적합성 윈도우 파라미터들에 의해 운반되고, 상기 제2 정보는 보완 향상 정보(SEI)에 의해 운반되는 방법.
몰입형 비디오로부터 비디오 스트림을 생성하도록 구성된 장치(90)로서,
직사각형 매핑에 따라 몰입형 비디오 프레임의 제1 부분을 인코딩하도록 구성된 인코더;
상기 직사각형 매핑으로부터 몰입형 매핑으로 전이하는 매핑에 따라 상기 몰입형 비디오 프레임의 제2 부분을 인코딩하도록 구성된 인코더;
상기 몰입형 매핑에 따라 상기 몰입형 비디오 프레임의 제3 부분을 인코딩하도록 구성된 인코더;
상기 제1 부분을 제1 영역으로서, 상기 제2 부분을 제2 영역으로서 그리고 상기 제3 부분을 제3 영역으로서 포함하는 레이아웃에 따라 비디오 프레임을 구성하도록 구성된 프로세서 - 상기 제1 영역은 직사각형임 -;
상기 구성된 비디오 프레임, 상기 제1 영역의 크기 및 위치를 포함하는 제1 정보, 및 상기 레이아웃의 타입, 상기 제1 부분의 시야, 상기 제2 영역의 크기 및 기준 방향을 포함하는 제2 정보를 포함하는 상기 비디오 스트림을 생성하도록 구성된 비디오 스트림 생성기
를 포함하는 것을 특징으로 하는 장치.
제11항에 있어서,
상기 레이아웃은, 정방형 매핑, 큐브 매핑 및 피라미드 매핑을 포함하는 몰입형 매핑의 세트에 속하는 몰입형 매핑에 기초하는 장치.
제11항 또는 제12항에 있어서,
상기 제1 정보는 적합성 윈도우 파라미터들에 의해 운반되고, 상기 제2 정보는 보완 향상 정보(SEI)에 의해 운반되는 장치.
몰입형 비디오를 나타내는 데이터를 저장하는 비일시적 매체로서,
상기 데이터는:
직사각형 매핑에 따라 인코딩된 제1 영역, 상기 직사각형 매핑으로부터 몰입형 매핑으로 전이하는 매핑에 따라 인코딩된 제2 영역, 및 상기 몰입형 매핑에 따라 인코딩된 제3 영역을 포함하는 레이아웃에 따라 조직된 비디오 프레임,
상기 비디오 프레임 내의 상기 제1 영역의 크기 및 위치를 포함하는 제1 정보,
상기 레이아웃의 타입, 상기 제1 영역의 시야, 상기 비디오 프레임 내의 상기 제2 영역의 크기 및 기준 방향을 적어도 포함하는 제2 정보
를 포함하는 것을 특징으로 하는 비일시적 매체.
제14항에 있어서,
상기 레이아웃은, 정방형 매핑, 큐브 매핑 및 피라미드 매핑을 포함하는 몰입형 매핑의 세트에 속하는 몰입형 매핑에 기초하는 비일시적 매체.
제14항 또는 제15항에 있어서,
상기 제1 정보는 적합성 윈도우 파라미터들에 의해 운반되고, 상기 제2 정보는 보완 향상 정보(SEI)에 의해 운반되는 비일시적 매체.