WO2019117629A1

WO2019117629A1 - 뷰포트 정보를 이용한 가상 현실 비디오 스트리밍

Info

Publication number: WO2019117629A1
Application number: PCT/KR2018/015795
Authority: WO
Inventors: 류은석; 노현준; 손장우
Original assignee: 가천대학교 산학협력단
Priority date: 2017-12-12
Filing date: 2018-12-12
Publication date: 2019-06-20

Abstract

본 명세서에 개시된 영상 전송 장치의 영상 전송 방법은 가상 현실 공간에 대한 기본 화질 비디오 데이터 및 고화질 비디오 데이터를 포함하는 비디오 데이터를 생성하는 동작, 상기 가상 현실 공간 내에서 사용자가 바라보고 있는 현재 뷰포트에 대한 정보 및 상기 사용자가 바라볼 것으로 예상되는 예측 뷰포트에 대한 정보에 적어도 일부 기초하여 시그널링 데이터를 생성하는 동작, 및 상기 비디오 데이터 및 상기 시그널링 데이터를 포함하는 비트스트림을 전송하는 동작을 포함하고, 상기 현재 뷰포트와 상기 예측 뷰포트에 대응되는 영역에 대해서 상기 고화질 비디오 데이터를 전송한다.

Description

뷰포트 정보를 이용한 가상 현실 비디오 스트리밍

관련출원과의 상호인용

본 출원은 2017년 12월 12일자 한국특허출원 제10-2017-0170823호 및 2017년 12월 13일자 한국특허출원 제10-2017-0170985호에 기초한 우선권의 이익을 주장하며, 해당 한국특허출원의 문헌에 개시된 모든 내용은 본 명세서의 일부로서 포함된다.

기술분야

본 명세서는 뷰포트 정보를 이용하여 가상 현실 비디오를 스트리밍하는 것에 관한 것이다.

최근 가상 현실 기술 및 장비의 발달과 함께 머리장착형 영상장치(Head-Mounted Display; HMD)와 같은 착용 가능한 기기들이 선보이고 있다.

가상 현실 기술과 머리장착형 영상장치를 통한 여러 서비스 시나리오 중에는 대표적으로 영화 관람 및 게임뿐만 아니라 화상회의와 원격 수술 등이 존재한다. 이 중에서 게임 같은 콘텐츠들은 일반 사용자들이 쉽게 접할 수 있고 머리장착형 영상장치를 구입하는 요인이 되는 콘텐츠이다.

클라우드 기반 게임 스트리밍 역시 널리 보급되고 있는데, 이는 서버에서 게임과 관련된 주요 연산들이 처리되고 클라이언트는 서버에 접속하여 게임 화면을 전송 받아 게임을 즐기는 기술이다. 이 기술은 클라이언트의 연산 성능에 제약 없이 고사양 게임을 즐기 수 있는 장점이 존재한다.

머리 장착형 영상장치는 눈앞에서 재생되고 구 형태의 360도 화면을 재생해야 하기 때문에, 가상 현실 기술과 머리장착형 영상장치를 통한 서비스 시나리오에는 UHD(Ultra High-Definition)급 이상의 초 고화질 영상이 요구된다. 그러나, 초 고화질 영상의 전송에는 높은 대역폭이 요구되기 때문에 대역폭을 낮추기 위한 기술이 비디오 표준화 미팅에서 논의되고 있다.

머리장착형 영상장치를 이용한 콘텐츠들이 겪는 어려운 문제는 사용자 눈에는 매우 넓게 보이는 360도 영상 전체를 담는 비디오 화소수가 매우 높아야 한다는 점이다. 따라서 콘텐츠로 UHD 급의 영상을 이용할 필요성이 있는데, 이 경우 복수의 사용자 단말들 사이에 대역폭 확보가 어려운 문제점과, 처리해야 할 많은 비디오 데이터로 인해 사용자의 머리 움직임에 빠르게 응답하기 어렵다는 문제점을 갖게 된다. 클라우드 게임 콘텐츠들은 콘텐츠 특성상 인/디코딩 과정이나 전송과정에서 지연이 발생하므로 필요 대역폭 축소와 즉각적인 반응 확보가 필요하게 되었다.

또한, 360도의 가상 현실 공간 안에서 사용자가 바라보고 있는 영역인 뷰포트만 해당하는 영상만을 전송하여 초 고화질 영상의 전송으로 인한 대역폭을 낮추기 위해서, 움직임 예측과 보상을 제한하여 타일을 개별 혹은 일부 집합으로 전송할 수 있는 움직임이 제한된 타일 집합(Motion Constrained Tile Sets; MCTS)에 대한 기술이 논의되고 있다.

MCTS 기술을 적용하여 뷰포트에 해당하는 부분의 타일 영상만을 전송할 경우, 뷰포트가 약간이라도 포함되는 타일의 경우에도 전송이 되어 대역폭 낭비가 발생하고, 전송되지 않은 타일의 경우 화질 개선 없이 저화질로 디코딩 된다. 따라서, 뷰포트와 비디오 타일크기를 고려한 효율적 전송 기법과 화질을 개선할 수 있는 기술에 대한 필요성이 증대되고 있다.

본 명세서는 영상 전송 장치의 영상 전송 방법을 제시한다. 상기 영상 전송 방법은 프로세서를 포함한 영상 전송 장치에서 수행되는 방법으로서, 가상 현실 공간에 대한 기본 화질 비디오 데이터 및 고화질 비디오 데이터를 포함하는 비디오 데이터를 생성하는 동작, 상기 가상 현실 공간 내에서 사용자가 바라보고 있는 현재 뷰포트에 대한 정보 및 상기 사용자가 바라볼 것으로 예상되는 예측 뷰포트에 대한 정보에 적어도 일부 기초하여 시그널링 데이터를 생성하는 동작, 및 상기 비디오 데이터 및 상기 시그널링 데이터를 포함하는 비트스트림을 전송하는 동작을 포함하되, 상기 현재 뷰포트와 상기 예측 뷰포트에 대응되는 영역에 대해서 상기 고화질 비디오 데이터를 전송할 수 있다.

상기 방법 및 그 밖의 실시 예는 다음과 같은 특징을 포함할 수 있다.

상기 고화질 비디오 데이터는 적어도 하나의 타일로 분할되고, 상기 시그널링 데이터는 상기 현재 뷰포트 및 상기 예측 뷰포트에 포함되는 상기 적어도 하나의 타일을 식별하는 타일 정보를 포함할 수 있다.

또한, 상기 현재 뷰포트와 상기 예측 뷰포트에 대응되는 영역에 대해서 상기 고화질 비디오 데이터를 전송하는 동작은, 상기 비디오 데이터를 전송하는 통신 회선의 대역폭이 상기 고화질 비디오 데이터를 모두 전송하기에 충분한지의 여부를 판단하는 동작, 및 상기 대역폭이 충분하지 않은 것으로 판단되는 경우, 우선순위가 높은 타일부터 낮은 타일의 순서로 상기 대역폭의 허용 범위 내에서 상기 적어도 하나의 타일의 적어도 일부에 대한 상기 고화질 비디오 데이터를 전송하는 동작을 포함할 수 있다.

또한, 상기 우선순위는 상기 사용자로부터 상기 타일 내의 대상(object)까지의 거리에 따라 결정하되, 상기 대상이 상기 사용자에게 가까울수록 상기 대상이 포함된 타일에 높은 우선 순위를 부여할 수 있다.

또한, 상기 우선순위는 상기 뷰포트들에 포함된 타일들의 면적 비율에 따라 결정하되, 상기 면적 비율이 클수록 높은 우선 순위를 부여할 수 있다.

또한, 상기 현재 뷰포트와 상기 예측 뷰포트에 대응되는 영역에 대해서 상기 고화질 비디오 데이터를 전송하는 동작은, 상기 뷰포트에 포함된 타일들 중에서 상기 뷰포트에 포함된 면적 비율이 특정 값과 같거나 상기 특정 값 보다 큰 타일에 대해서 상기 고화질 비디오 데이터를 전송하는 동작을 포함할 수 있다.

또한, 상기 시그널링 데이터는 영상 구성 정보를 기초로 생성되고, 상기 영상 구성 정보는 상기 가상 현실 공간 내에서 상기 사용자의 뷰포트를 지시하는 시선 정보 및 상기 사용자의 시야각을 지시하는 줌 영역 정보를 포함할 수 있다.

또한, 상기 시그널링 데이터는 세션 정보를 실어 나르는 고수준 구문 프로토콜(High-Level Syntax Protocol), SEI (Supplement Enhancement Information), VUI (video usability information), 슬라이스 헤더(Slice Header), 및 상기 비디오 데이터를 서술하는 파일 중에서 적어도 하나를 통하여 전송될 수 있다.

또한, 상기 예측 뷰포트는 상기 현재 뷰포트에 대한 정보 및 가상 현실 콘텐츠의 내용에 적어도 일부 기초하여 결정될 수 있다.

또한, 상기 기본 화질 비디오 데이터는 기본 계층 비디오 데이터를 포함하고, 상기 고화질 비디오 데이터는 기본 계층 비디오 데이터와 향상 계층 비디오 데이터를 포함할 수 있다.

한편, 본 명세서는 영상 수신 장치의 영상 수신 방법을 제시한다. 상기 영상 수신 방법은 프로세서를 포함한 영상 수신 장치에서 수행되는 방법으로서, 가상 현실 공간에 대한 비디오 데이터 및 시그널링 데이터를 포함하는 비트스트림을 수신하는 동작, 상기 비디오 데이터를 기초로 기본 화질 비디오 데이터를 디코딩하는 동작, 및 상기 비디오 데이터 및 상기 시그널링 데이터를 기초로 고화질 비디오 데이터를 디코딩하는 동작을 포함하되, 상기 시그널링 데이터는 상기 가상 현실 공간 내에서 사용자가 바라보고 있는 영역에 대한 현재 뷰포트 및 상기 가상 현실 공간 내에서 상기 사용자가 바라볼 것으로 예상되는 예측 뷰포트에 대한 정보를 적어도 일부 포함하고, 상기 고화질 비디오 데이터는 상기 현재 뷰포트 및 상기 예측 뷰포트에 대응되는 비디오 데이터를 포함할 수 있다.

또한, 상기 기본 화질 비디오 데이터는 기본 계층 비디오 데이터를 포함하고, 상기 고화질 비디오 데이터는 기본 계층 비디오 데이터 및 향상 계층 비디오 데이터를 포함하고, 상기 비디오 데이터 및 상기 시그널링 데이터를 기초로 고화질 비디오 데이터를 디코딩하는 동작은, 상기 뷰포트에 포함된 타일들 중 상기 고화질 비디오 데이터가 수신되지 않는 타일에 대해서 업샘플링된 기본 계층 비디오 데이터를 생성하는 동작, 및 상기 기본 계층 비디오 데이터, 상기 향상 계층 비디오 데이터 또는 및 상기 업샘플링된 기본 계층 비디오 데이터에 적어도 일부 기초하여, 상기 사용자에게 출력할 영상을 디코딩하는 동작을 포함할 수 있다.

한편, 본 명세서는 영상 전송 장치를 제시한다. 상기 영상 전송 장치는 가상 현실 공간에 대한 기본 화질 비디오 데이터 및 고화질 비디오 데이터를 포함하는 비디오 데이터를 생성하는 인코더, 상기 가상 현실 공간 내에서 사용자가 바라보고 있는 현재 뷰포트에 대한 정보 및 상기 사용자가 바라볼 것으로 예상되는 예측 뷰포트에 대한 정보에 적어도 일부 기초하여 시그널링 데이터를 생성하는 시그널링부, 상기 비디오 데이터 및 상기 시그널링 데이터를 포함하는 비트스트림을 생성하는 다중화기, 및 상기 비트스트림을 전송하는 통신부를 포함하되, 상기 비디오 데이터는 상기 가상 현실 공간 전체 영역에 대한 기본 화질 비디오 데이터 및 상기 현재 뷰포트와 상기 예측 뷰포트에 대응되는 영역에 대한 고화질 비디오 데이터를 포함할 수 있다.

상기 장치 및 그 밖의 실시 예는 다음과 같은 특징을 포함할 수 있다.

또한, 상기 비디오 데이터를 전송하는 통신 회선의 대역폭의 상태를 판단하는 제어부를 더 포함하고, 상기 제어부는 상기 대역폭이 상기 고화질 비디오 데이터를 모두 전송하기에 충분하지 않은 것으로 판단되는 경우, 우선순위가 높은 타일부터 낮은 타일의 순서로 상기 대역폭의 허용 범위 내에서 상기 적어도 하나의 타일의 적어도 일부에 대한 상기 고화질 비디오 데이터를 전송할 수 있다.

또한, 상기 제어부는 상기 타일 내의 대상(object)이 상기 사용자에게 가까울수록 상기 대상이 포함된 타일에 높은 우선 순위를 부여할 수 있다.

또한, 상기 제어부는 상기 뷰포트에 포함된 타일의 면적 비율이 클수록 높은 우선 순위를 부여할 수 있다.

한편, 본 명세서는 영상 전송 장치의 다른 영상 전송 방법을 제시한다. 상기 영상 전송 방법은 프로세서를 포함한 영상 전송 장치에서 수행되는 방법으로서, 가상 현실 공간에 대한 적어도 2개 이상의 화질에 관련된 비디오 데이터를 생성하는 동작, 상기 가상 현실 공간 내에서 사용자의 현재 관심 영역 또는 예측 관심 영역을 포함하는 관심 영역에 대한 정보에 적어도 일부 기초하여 시그널링 정보를 생성하는 동작, 및 상기 비디오 데이터 및 상기 시그널링 정보를 포함하는 비디오 스트림 정보를 전송하는 동작을 포함하고, 상기 비디오 데이터는 관심 영역에 관련된 비디오 데이터와 비 관심 영역에 관련된 비디오 데이터를 포함하고, 관심영역에 관련된 비디오 데이터의 화질과 비 관심 영역에 관련된 비디오 데이터의 화질은 서로 다를 수 있다.

본 명세서에 개시된 실시 예들에 의하면, 뷰포트에 해당하는 영역만 고화질 비디오 데이터로 전송하고, 그 외의 영역은 기본 화질 비디오 데이터로 전송함으로써 전송 대역폭을 확보할 수 있는 효과가 있다.

또한, 본 명세서에 개시된 실시 예들에 의하면, 현재 뷰포트 및 예측 뷰포트에 해당하는 영상만 고화질로 전송하되, 비디오 데이터의 전송 중에 대역폭 부족의 문제가 발생해도, 우선 순위에 따라 전송될 타일을 선정하고, 대역폭의 상황에 따라 탄력적으로 전송될 비디오 데이터를 조절할 수 있으므로, 대역폭에 적응적으로 비디오 데이터를 전송할 수 있는 효과가 있다.

또한, 본 명세서에 개시된 실시 예들에 의하면, 서버 디바이스에서 다수의 클라이언트 디바이스로 가상 현실 비디오 데이터를 전송할 때, 상기 서버 디바이스와 상기 다수의 클라이언트 디바이스들 간의 각 통신 회선의 상태에 따라 현재 뷰포트와 예측 뷰포트 내의 타일들에 대한 고화질 영상을 선택적으로 전송할 수 있어서, 다수의 클라이언트가 연결된 통신회선의 대역폭도 유연하게 확보할 수 있는 효과가 있다.

또한, 본 명세서에 개시된 실시 예들에 의하면, 뷰포트에 포함되는 타일에 대한 비디오 데이터를 모두 전송할 때 보다 사용자 지연 시간이 짧아지고 전송 대역폭을 줄일 수 있는 효과가 있다.

또한, 본 명세서에 개시된 실시 예들에 의하면, 뷰포트에 해당하는 타일을 모두 전송하지 않아도, 사용자가 느끼는 불쾌감을 저감시킬 수 있는 효과가 있다.

또한, 본 명세서에 개시된 실시 예들에 의하면, 비디오 데이터 전송을 위한 통신 회선의 대역폭의 상태에 따라, 적응적으로 고화질의 비디오 데이터를 전송할 수 있는 효과가 있다.

도 1은 가상 현실 영상을 제공하는 예시적인 가상 현실 시스템을 도시한다.

도 2는 예시적인 스케일러블 비디오 코딩 서비스를 나타낸 도면이다.

도 3은 서버 디바이스의 예시적인 구성을 나타낸 블록도이다.

도 4는 서버 디바이스의 인코더의 예시적인 구성을 나타낸 블록도이다.

도 5는 관심 영역을 시그널링하는 예시적인 방법을 나타낸 도면이다.

도 6은 클라이언트 디바이스의 예시적인 구성을 나타낸 블록도이다.

도 7은 클라이언트 디바이스의 제어부의 예시적인 구성을 나타낸 블록도이다.

도 8은 클라이언트 디바이스의 디코더의 예시적인 구성을 나타낸 블록도이다.

도 9는 영상 스트리밍 서비스를 위한 예시적인 영상 전송 장치의 블럭도이다.

도 10은 예측 뷰포트와 대상 거리 정보의 시그널링을 예시적으로 도시한 도면이다.

도 11은 현재 뷰포트와 예측 뷰포트를 선반입하여 대역폭을 낮출 수 있는 스케일러블 비디오 코딩 기반의 스트리밍의 예를 도시한 도면이다.

도 12는 사용자로부터 영상 내 대상까지의 거리에 따른 뷰포트 예측 기술 기반의 고화질 게임 스트리밍의 예를 도시한 도면이다.

도 13은 영상 스트리밍 서비스를 위한 비디오 서버에서의 예시적인 영상 전송 방법을 도시한 도면이다.

도 14는 영상 스트리밍 서비스를 위한 클라이언트 디바이스에서의 예시적인 영상 수신 방법을 도시한 도면이다.

도 15는 뷰포트에 포함된 타일의 비율에 기초하여 우선순위를 설정하여 타일을 전송하는 방법을 나타낸 도면이다.

도 16은 뷰포트에 포함된 타일의 최소 비율에 따른 타일 전송의 예시도이다.

도 17은 영상 스트리밍 서비스를 위한 비디오 서버에서의 예시적인 영상 전송 방법의 다른 예를 도시한 도면이다.

도 18은 뷰포트에 포함된 타일들의 면적 비율에 기초한 우선 순위에 따른 영상 수신 방법의 예를 도시한다.

도 19는 특정 면적 비율에 따른 영상 수신 방법의 예를 도시한다.

도 20은 예측 뷰포트와 대상 거리 정보의 시그널링에서 제안하는 예시적인 SEI 페이로드 구문을 도시한 도면이다.

도 21은 예시적인 비디오 픽쳐별 뷰포트 신호 체계 규격을 도시한 도면이다.

도 22는 예시적인 파일, 청크, 비디오 픽쳐 그룹별 신호 체계 규격을 도시한 도면이다.

도 23은 XML 형태로 표현된 예시적인 타일 정보 구문을 도시한 도면이다.

도 24는 영상 전송의 신호 체계에서 전달되는 타일 정보를 예시적으로 도시한다.

도 25는 예시적인 OMAF 구문을 도시한다.

도 26은 XML 형태로 표현된 예시적인 타일 정보 구문을 도시한 도면이다.

본 명세서에 개시된 기술은 클라우드 기반의 영상 스트리밍을 제공하는 가상 현실 시스템에 적용될 수 있다. 그러나 본 명세서에 개시된 기술은 이에 한정되지 않고, 상기 기술의 기술적 사상이 적용될 수 있는 모든 전자 장치 및 방법에도 적용될 수 있다.

본 명세서에서 사용되는 기술적 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 명세서에 개시된 기술의 사상을 한정하려는 의도가 아님을 유의해야 한다. 또한, 본 명세서에서 사용되는 기술적 용어는 본 명세서에서 특별히 다른 의미로 정의되지 않는 한, 본 명세서에 개시된 기술이 속하는 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 의미로 해석되어야 하며, 과도하게 포괄적인 의미로 해석되거나, 과도하게 축소된 의미로 해석되지 않아야 한다. 또한, 본 명세서에서 사용되는 기술적인 용어가 본 명세서에 개시된 기술의 사상을 정확하게 표현하지 못하는 잘못된 기술적 용어일 때에는, 본 명세서에 개시된 기술이 속하는 분야에서 통상의 지식을 가진 자가 올바르게 이해할 수 있는 기술적 용어로 대체되어 이해되어야 할 것이다. 또한, 본 명세서에서 사용되는 일반적인 용어는 사전에 정의되어 있는 바에 따라, 또는 전후 문맥 상에 따라 해석되어야 하며, 과도하게 축소된 의미로 해석되지 않아야 한다.

본 명세서에서 사용되는 제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성 요소는 제2 구성 요소로 명명될 수 있고, 유사하게 제2 구성 요소도 제1 구성 요소로 명명될 수 있다.

이하, 첨부된 도면을 참조하여 본 명세서에 개시된 실시 예들을 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성 요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.

또한, 본 명세서에 개시된 기술을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 기술의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 명세서에 개시된 기술의 사상을 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 그 기술의 사상이 제한되는 것으로 해석되어서는 아니 됨을 유의해야 한다.

가상 현실 시스템은 가상 현실 영상을 생성하는 가상 현실 영상 생성 장치, 상기 입력된 가상 현실 영상을 인코딩하여 전송하는 서버 디바이스, 및 상기 전송된 가상 현실 영상을 디코딩하여 사용자에게 출력하는 하나 이상의 클라이언트 디바이스를 포함하도록 구성될 수 있다.

도 1을 참조하면, 예시적인 가상 현실 시스템(100)은 가상 현실 영상 생성 장치(110), 서버 디바이스(120), 및 하나 이상의 클라이언트 디바이스(130)를 포함하며, 도 1에 도시된 각 구성요소들의 수는 예시적인 것일 뿐 이에 제한되지 아니한다. 상기 가상 현실 시스템(100)은 360도 영상 제공 시스템으로도 불릴 수 있다.

상기 가상 현실 영상 생성 장치(110)는 하나 이상의 카메라 모듈을 포함하여 자신이 위치하고 있는 공간에 대한 영상을 촬영함으로써 공간 영상을 생성할 수 있다.

상기 서버 디바이스(120)는 상기 가상 현실 영상 생성 장치(110)에서 생성되어 입력된 공간 영상을 스티칭(Image stitching), 프로젝션(Projection), 맵핑(Mapping)하여 360도 영상을 생성하고, 상기 생성된 360도 영상을 원하는 품질의 비디오 데이터로 조절한 뒤 인코딩(Encoding; 부호화)할 수 있다.

또한, 상기 서버 디바이스(120)는 상기 인코딩된 360도 영상에 대한 비디오 데이터와 시그널링 데이터를 포함하는 비트스트림을 네트워크(통신망)을 통해서 클라이언트 디바이스(130)로 전송할 수 있다.

상기 클라이언트 디바이스(130)는 수신된 비트스트림을 디코딩(Decoding; 복호화)하여 상기 클라이언트 디바이스(130)를 착용한 사용자에게 360도 영상을 출력할 수 있다. 상기 클라이언트 디바이스(130)는 머리장착형 영상장치(Head-Mounted Display; HMD)와 같은 근안 디스플레이(Near-eye display) 장치일 수 있다.

한편, 상기 가상 현실 영상 생성 장치(110)는 컴퓨터 시스템으로 구성되어 컴퓨터 그래픽으로 구현된 가상의 360도 공간에 대한 영상을 생성할 수도 있다. 또한, 상기 가상 현실 영상 생성 장치(110)는 가상 현실 게임 등의 가상 현실 콘텐츠의 공급자 일 수 있다.

클라이언트 디바이스(130)는 해당 클라이언트 디바이스(130)를 사용하는 사용자로부터 사용자 데이터를 획득할 수 있다. 사용자 데이터는 사용자의 영상 데이터, 음성 데이터, 뷰포트 데이터(시선 데이터), 관심 영역 데이터 및 부가 데이터를 포함할 수 있다.

예를 들어, 클라이언트 디바이스(130)는 사용자의 영상 데이터를 획득하는 2D/3D 카메라 및 Immersive 카메라 중에서 적어도 하나를 포함할 수 있다. 2D/3D 카메라는 180도 이하의 시야각을 가지는 영상을 촬영할 수 있다. Immersive 카메라는 360도 이하의 시야각을 가지는 영상을 촬영할 수 있다.

예를 들어, 클라이언트 디바이스(130)는 제1 장소에 위치한 제1 사용자의 사용자 데이터를 획득하는 제1 클라이언트 디바이스(131), 제2 장소에 위치한 제2 사용자의 사용자 데이터를 획득하는 제2 클라이언트 디바이스(133), 및 제3 장소에 위치한 제3 사용자의 사용자 데이터를 획득하는 제3 클라이언트 디바이스(135) 중에서 적어도 하나를 포함할 수 있다.

각각의 클라이언트 디바이스(130)는 사용자로부터 획득한 사용자 데이터를 네트워크를 통하여 서버 디바이스(120)로 전송할 수 있다.

서버 디바이스(120)는 클라이언트 디바이스(130)로부터 적어도 하나의 사용자 데이터를 수신할 수 있다. 서버 디바이스(120)는 수신한 사용자 데이터를 기초로 가상 현실 공간에 대한 전체 영상을 생성할 수 있다. 서버 디바이스(120)가 생성한 전체 영상은 가상 현실 공간 내에서 360도 방향의 영상을 제공하는 immersive 영상을 나타낼 수 있다. 서버 디바이스(120)는 사용자 데이터에 포함된 영상 데이터를 가상 현실 공간에 매핑하여 전체 영상을 생성할 수 있다.

서버 디바이스(120)는 상기 생성된 전체 영상을 각 사용자에게 전송할 수 있다.

각각의 클라이언트 디바이스(130)는 전체 영상을 수신하고, 각 사용자가 바라보는 영역만을 가상 현실 공간에 렌더링 및/또는 디스플레이할 수 있다.

스케일러블 비디오 코딩 서비스는 다양한 멀티미디어 환경에서 네트워크의 상황 혹은 단말기의 해상도 등과 같은 다양한 사용자 환경에 따라 시간적, 공간적, 그리고 화질 관점에서 계층적(Scalable)으로 다양한 서비스를 제공하기 위한 영상 압축 방법이다. 스케일러블 비디오 코딩 서비스는 일반적으로 해상도(Spatial resolution), 품질(Quality), 및 시간(Temporal) 측면에서의 계층성(Scalability)을 제공한다.

공간적 계층성(Spatial scalability)은 동일한 영상에 대해 각 계층별로 다른 해상도를 가지고 부호화함으로써 서비스할 수 있다. 공간적 계층성을 이용하여 디지털 TV, 노트북, 스마트 폰 등 다양한 해상도를 갖는 디바이스에 대해 적응적으로 영상 콘텐츠를 제공하는 것이 가능하다.

도면을 참고하면, 스케일러블 비디오 코딩 서비스는 VSP(비디오 서비스 프로바이더; Video Service Provider)로부터 가정 내의 홈 게이트웨이 (Home Gateway)를 통해 동시에 하나 이상의 서로 다른 특성을 가진 TV를 지원할 수 있다. 예를 들어, 스케일러블 비디오 코딩 서비스는 서로 다른 해상도(Resolution)를 가지는 HDTV (High-Definition TV), SDTV (Standard-Definition TV), 및 LDTV (Low-Definition TV)를 동시에 지원할 수 있다.

시간적 계층성(Temporal scalability)은 콘텐츠가 전송되는 네트워크 환경 또는 단말기의 성능을 고려하여 영상의 프레임 레이트(Frame rate)를 적응적으로 조절할 수 있다. 예를 들어, 근거리 통신망을 이용하는 경우에는 60FPS(Frame Per Second)의 높은 프레임 레이트로 서비스를 제공하고, 상기 근거리 통신망에 비해 상대적으로 전송속도가 느린 3G 모바일 네트워크와 같은 무선 광대역 통신망을 사용하는 경우에는 16FPS의 낮은 프레임 레이트로 콘텐츠를 제공함으로써, 사용자가 영상을 끊김 없이 받아볼 수 있도록 서비스를 제공할 수 있다. 그러나 5G 모바일 네트워크와 같은 고속의 무선 광대역 통신망을 사용하는 경우에는 60FPS의 높은 프레임 레이트로 서비스를 제공할 수 있다.

품질 계층성(Quality scalability) 또한 네트워크 환경이나 단말기의 성능에 따라 다양한 화질의 콘텐츠를 서비스함으로써, 사용자가 영상 콘텐츠를 안정적으로 재생할 수 있도록 한다.

스케일러블 비디오 코딩 서비스는 각각 기본 계층(Base layer)과 하나 이상의 향상 계층(Enhancement layer(s))을 포함할 수 있다. 수신기는 기본 계층만 받았을 때는 일반 화질의 영상을 제공하고, 기본 계층 및 향상 계층을 함께 받으면 고화질을 제공할 수 있다. 즉, 기본 계층과 하나 이상의 향상 계층이 있을 때, 기본 계층을 받은 상태에서 향상 계층(예: enhancement layer 1, enhancement layer 2, …, enhancement layer n)을 더 받으면 받을수록 화질이나 제공하는 영상의 품질이 좋아진다.

이와 같이, 스케일러블 비디오 코딩 서비스의 영상은 복수 개의 계층으로 구성되어 있으므로, 수신기는 적은 용량의 기본 계층 데이터를 빨리 전송 받아 일반적 화질의 영상을 빨리 처리하여 재생하고, 필요 시 향상 계층 영상 데이터까지 추가로 받아서 서비스의 품질을 높일 수 있다.

도 3은 서버 디바이스의 예시적인 구성을 나타낸 도면이다.

서버 디바이스(300)는 제어부(310) 및/또는 통신부(320)를 포함할 수 있다.

제어부(310)는 가상 현실 공간에 대한 전체 영상을 생성하고, 생성된 전체 영상을 인코딩할 수 있다. 또한, 제어부(310)는 서버 디바이스(300)의 모든 동작을 제어할 수 있다. 구체적인 내용은 이하에서 설명한다.

통신부(320)는 외부 장치 및/또는 클라이언트 디바이스로 데이터를 전송 및/또는 수신할 수 있다. 예를 들어, 통신부(320)는 적어도 하나의 클라이언트 디바이스로부터 사용자 데이터 및/또는 시그널링 데이터를 수신할 수 있다. 또한, 통신부(320)는 가상 현실 공간에 대한 전체 영상 및/또는 일부의 영역에 대한 영상을 클라이언트 디바이스로 전송할 수 있다.

제어부(310)는 시그널링 데이터 추출부(311), 영상 생성부(313), 관심 영역 판단부(315), 시그널링 데이터 생성부(317), 및/또는 인코더(319) 중에서 적어도 하나를 포함할 수 있다.

시그널링 데이터 추출부(311)는 클라이언트 디바이스로부터 전송 받은 데이터로부터 시그널링 데이터를 추출할 수 있다. 예를 들어, 시그널링 데이터는 영상 구성 정보를 포함할 수 있다. 상기 영상 구성 정보는 가상 현실 공간 내에서 사용자의 시선 방향을 지시하는 시선 정보 및 사용자의 시야각을 지시하는 줌 영역 정보를 포함할 수 있다. 또한, 상기 영상 구성 정보는 가상 현실 공간 내에서 사용자의 뷰포트 정보를 포함할 수 있다.

영상 생성부(313)는 가상 현실 공간에 대한 전체 영상 및 가상 현실 공간 내의 특정 영역에 대한 영상을 생성할 수 있다.

관심 영역 판단부(315)는 가상 현실 공간의 전체 영역 내에서 사용자의 시선 방향에 대응되는 관심 영역을 판단할 수 있다. 또한, 가상 현실 공간의 전체 영역 내에서 사용자의 뷰포트를 판단할 수 있다. 예를 들어, 관심 영역 판단부(315)는 시선 정보 및/또는 줌 영역 정보를 기초로 관심 영역을 판단할 수 있다. 예를 들어, 관심 영역은 사용자가 보게 될 가상의 공간에서 중요 오브젝트가 위치할 타일의 위치(예를 들어, 게임 등에서 새로운 적이 등장하는 위치, 가상 현실 공간에서의 화자의 위치), 및/또는 사용자의 시선이 바라보는 곳일 수 있다. 또한, 관심 영역 판단부(315)는 가상 현실 공간의 전체 영역 내에서 사용자의 시선 방향에 대응되는 관심 영역을 지시하는 관심 영역 정보와 사용자의 뷰포트에 대한 정보를 생성할 수 있다.

시그널링 데이터 생성부(317)는 전체 영상을 처리하기 위한 시그널링 데이터를 생성할 수 있다. 예를 들어, 시그널링 데이터는 관심 영역 정보 및/또는 뷰포트 정보를 전송할 수 있다. 시그널링 데이터는 SEI (Supplement Enhancement Information), VUI (video usability information), 슬라이스 헤더(Slice Header), 및 비디오 데이터를 서술하는 파일 중에서 적어도 하나를 통하여 전송될 수 있다.

인코더(319)는 시그널링 데이터를 기초로 전체 영상을 인코딩할 수 있다. 예를 들어, 인코더(319)는 각 사용자의 시선 방향을 기초로 각 사용자에게 커스터마이즈된 방식으로 전체 영상을 인코딩할 수 있다. 예를 들어, 가상 현실 공간 내에서 사용자가 특정 지점을 바라보는 경우, 인코더는 가상 현실 공간 내의 사용자 시선을 기초로 특정 지점에 해당하는 영상은 고화질로 인코딩하고, 상기 특정 지점 이외에 해당하는 영상은 저화질로 인코딩할 수 있다. 실시예에 따라서, 인코더(319)는 시그널링 데이터 추출부(311), 영상 생성부(313), 관심 영역 판단부(315), 및/또는 시그널링 데이터 생성부(317) 중에서 적어도 하나를 포함할 수 있다.

또한, 제어부(310)는 시그널링 데이터 추출부(311), 영상 생성부(313), 관심 영역 판단부(315), 시그널링 데이터 생성부(317), 및 인코더(319) 이 외에 프로세서(도시하지 않음), 메모리(도시하지 않음), 및 입출력 인터페이스(도시하지 않음)를 포함할 수 있다.

상기 프로세서는 중앙처리장치(Central Processing Unit; CPU), 어플리케이션 프로세서(Application Processor; AP), 또는 커뮤니케이션 프로세서(Communication Processor; CP) 중 하나 또는 그 이상을 포함할 수 있다. 상기 프로세서는, 예를 들어, 상기 제어부(310)의 적어도 하나의 다른 구성요소들의 제어 및/또는 통신에 관한 연산이나 데이터 처리를 실행할 수 있다.

또한, 상기 프로세서는, 예를 들어, SoC(system on chip)로 구현될 수 있다. 일 실시예에 따르면, 상기 프로세서는 GPU(graphic processing unit) 및/또는 이미지 신호 프로세서(image signal processor)를 더 포함할 수 있다.

또한, 상기 프로세서는, 예를 들어, 운영 체제 또는 응용 프로그램을 구동하여 상기 프로세서에 연결된 다수의 하드웨어 또는 소프트웨어 구성요소들을 제어할 수 있고, 각종 데이터 처리 및 연산을 수행할 수 있다.

또한, 상기 프로세서는 다른 구성요소들(예: 비휘발성 메모리) 중 적어도 하나로부터 수신된 명령 또는 데이터를 휘발성 메모리에 로드(load)하여 처리하고, 다양한 데이터를 비휘발성 메모리에 저장(store)할 수 있다.

상기 메모리는 휘발성(volatile) 및/또는 비휘발성(non-volatile) 메모리를 포함할 수 있다. 상기 메모리는, 예를 들어, 상기 제어부(310)의 적어도 하나의 다른 구성요소에 관계된 명령 또는 데이터를 저장할 수 있다. 한 실시예에 따르면, 상기 메모리는 소프트웨어 및/또는 프로그램을 저장할 수 있다.

상기 입출력 인터페이스는, 예를 들어, 사용자 또는 다른 외부 기기로부터 입력된 명령 또는 데이터를 상기 제어부(310)의 다른 구성요소(들)에 전달할 수 있는 인터페이스의 역할을 할 수 있다. 또한, 상기 입출력 인터페이스는 상기 제어부(310)의 다른 구성요소(들)로부터 수신된 명령 또는 데이터를 사용자 또는 다른 외부 기기로 출력할 수 있다.

이하에서는 관심 영역을 이용한 예시적인 영상 전송 방법을 설명한다.

서버 디바이스는, 통신부를 이용하여, 적어도 하나의 클라이언트 디바이스로부터 비디오 데이터 및 시그널링 데이터를 수신할 수 있다. 또한, 서버 디바이스는, 시그널링 데이터 추출부를 이용하여, 시그널링 데이터를 추출할 수 있다. 예를 들어, 시그널링 데이터는 시점 정보 및 줌 영역 정보를 포함할 수 있다.

시선 정보는 사용자가 가상 현실 공간 내에서 어느 영역(지점)을 바라보는지 여부를 지시할 수 있다. 가상 현실 공간 내에서 사용자가 특정 영역을 바라보면, 시선 정보는 사용자에서 상기 특정 영역으로 향하는 방향을 지시할 수 있다.

줌 영역 정보는 사용자의 시선 방향에 해당하는 비디오 데이터의 확대 범위 및/또는 축소 범위를 지시할 수 있다. 또한, 줌 영역 정보는 사용자의 시야각을 지시할 수 있다. 줌 영역 정보의 값을 기초로 비디오 데이터가 확대되면, 사용자는 특정 영역만을 볼 수 있다. 줌 영역 정보의 값을 기초로 비디오 데이터가 축소되면, 사용자는 특정 영역뿐만 아니라 상기 특정 영역 이외의 영역 일부 및/또는 전체를 볼 수 있다.

서버 디바이스는, 영상 생성부를 이용하여, 가상 현실 공간에 대한 전체 영상을 생성할 수 있다.

서버 디바이스는, 관심 영역 판단부를 이용하여, 시그널링 데이터를 기초로 가상 현실 공간 내에서 각 사용자가 바라보는 시점 및 줌(zoom) 영역에 대한 영상 구성 정보를 파악할 수 있다. 상기 관심 영역 판단부는 영상 구성 정보를 기초로 사용자의 관심 영역을 결정할 수 있다.

시그널링 데이터(예를 들어, 시점 정보 및 줌 영역 정보 중에서 적어도 하나)가 변경될 경우, 서버 디바이스는 새로운 시그널링 데이터를 수신할 수 있다. 이 경우, 서버 디바이스는 새로운 시그널링 데이터를 기초로 새로운 관심 영역을 결정할 수 있다.

서버 디바이스의 제어부는, 시그널링 데이터를 기초로 현재 처리하는 데이터가 관심 영역에 해당하는 데이터인지의 여부를 판단할 수 있다.

시그널링 데이터가 변경되는 경우, 서버 디바이스는 새로운 시그널링 데이터를 기초로 현재 처리하는 데이터가 관심 영역에 해당하는 데이터인지 아닌지 여부를 판단할 수 있다. 상기 현재 처리하는 데이터가 관심 영역에 해당하는 데이터일 경우, 서버 디바이스는, 인코더를 이용하여, 사용자의 시점에 해당하는 비디오 데이터(예를 들어, 관심 영역)는 고화질로 인코딩할 수 있다. 예를 들어, 서버 디바이스는 상기 사용자의 시점에 해당하는 비디오 데이터에 대하여 기본 계층 비디오 데이터 및 향상 계층 비디오 데이터를 생성하여 이들을 전송할 수 있다.

또한, 시그널링 데이터가 변경되는 경우, 서버 디바이스는 새로운 시점에 해당하는 비디오 데이터(새로운 관심 영역)는 고화질의 영상으로 전송할 수 있다. 기존에 서버 디바이스가 기본 화질의 영상을 전송하고 있었으나 시그널링 데이터가 변경되어 서버 디바이스가 고화질의 영상을 전송해야 하는 경우, 서버 디바이스는 향상 계층 비디오 데이터를 추가로 생성 및/또는 전송할 수 있다.

새로운 시그널링 데이터를 기초로 현재 처리하는 데이터가 관심 영역에 해당하지 않는 데이터일 경우, 서버 디바이스는 사용자의 시점에 해당하지 않는 비디오 데이터(예를 들어, 비-관심 영역)은 기본 화질로 인코딩할 수 있다. 예를 들어, 서버 디바이스는 사용자의 시점에 해당하지 않는 비디오 데이터에 대하여 기본 계층 비디오 데이터만 생성하고, 이들을 전송할 수 있다.

시그널링 데이터가 변경되는 경우, 서버 디바이스는 새로운 사용자의 시점에 해당하지 않는 비디오 데이터(새로운 비-관심 영역)는 기본 화질의 영상으로 전송할 수 있다. 기존에 서버 디바이스가 고화질의 영상을 전송하고 있었으나 시그널링 데이터가 변경되어 서버 디바이스가 기본 화질의 영상을 전송해야 하는 경우, 서버 디바이스는 더 이상 적어도 하나의 향상 계층 비디오 데이터를 생성 및/또는 전송하지 않고, 기본 계층 비디오 데이터만을 생성 및/또는 전송할 수 있다.

즉, 기본 계층 비디오 데이터를 수신했을 때의 비디오 데이터의 화질은 향상 계층 비디오 데이터까지 받았을 때의 비디오 데이터의 화질보다는 낮으므로, 클라이언트 디바이스는 사용자가 고개를 돌린 정보를 센서 등으로부터 얻는 순간에, 사용자의 시선 방향에 해당하는 비디오 데이터(예를 들어, 관심 영역에 대한 비디오 데이터)에 대한 향상 계층 비디오 데이터를 수신할 수 있다. 그리고, 클라이언트 디바이스는 짧은 시간 내에 고화질의 비디오 데이터를 사용자에게 제공할 수 있다.

도 4는 서버 디바이스의 인코더의 예시적인 구성을 나타낸 도면이다.

인코더(400, 영상 부호화 장치)는 기본 계층 인코더(410), 적어도 하나의 향상 계층 인코더(420), 및 다중화기(430) 중에서 적어도 하나를 포함할 수 있다.

인코더(400)는 스케일러블 비디오 코딩 방법을 사용하여 전체 영상을 인코딩할 수 있다. 스케일러블 비디오 코딩 방법은 SVC(Scalable Video Coding) 및/또는 SHVC(Scalable High Efficiency Video Coding)를 포함할 수 있다.

스케일러블 비디오 코딩 방법은 다양한 멀티미디어 환경에서 네트워크의 상황 혹은 단말기의 해상도 등과 같은 다양한 사용자 환경에 따라서 시간적, 공간적, 및 화질 관점에서 계층적(Scalable)으로 다양한 서비스를 제공하기 위한 영상 압축 방법이다. 예를 들어, 인코더(400)는 동일한 비디오 데이터에 대하여 두 가지 이상의 다른 품질(또는 해상도, 프레임 레이트)의 영상들을 인코딩하여 비트스트림을 생성할 수 있다.

예를 들어, 인코더(400)는 비디오 데이터의 압축 성능을 높이기 위해서 계층 간 중복성을 이용한 인코딩 방법인 계층간 예측 툴(Inter-layer prediction tools)을 사용할 수 있다. 계층 간 예측 툴은 계층 간에 존재하는 영상의 중복성을 제거하여 향상 계층(Enhancement Layer; EL)에서의 압축 효율을 높이는 기술이다.

향상 계층은 계층 간 예측 툴을 이용하여 참조 계층(Reference Layer)의 정보를 참조하여 인코딩될 수 있다. 참조 계층이란 향상 계층 인코딩 시 참조되는 하위 계층을 말한다. 여기서, 계층 간 예측 툴을 사용함으로써 계층 사이에 의존성(Dependency)이 존재하기 때문에, 최상위 계층의 영상을 디코딩하기 위해서는 참조되는 모든 하위 계층의 비트스트림이 필요하다. 중간 계층에서는 디코딩 대상이 되는 계층과 그 하위 계층들의 비트스트림 만을 획득하여 디코딩을 수행할 수 있다. 최하위 계층의 비트스트림은 기본 계층(Base Layer; BL)으로써, H.264/AVC, HEVC 등의 인코더로 인코딩될 수 있다.

기본 계층 인코더(410)는 전체 영상을 인코딩하여 기본 계층을 위한 기본 계층 비디오 데이터(또는 기본 계층 비트스트림)를 생성할 수 있다. 예를 들어, 기본 계층 비디오 데이터는 사용자가 가상 현실 공간 내에서 바라보는 전체 영역을 위한 비디오 데이터를 포함할 수 있다. 기본 계층의 영상은 가장 낮은 화질의 영상일 수 있다.

향상 계층 인코더(420)는, 시그널링 데이터(예를 들어, 관심 영역 정보) 및 기본 계층 비디오 데이터를 기초로, 전체 영상을 인코딩하여 기본 계층으로부터 예측되는 적어도 하나의 향상 계층을 위한 적어도 하나의 향상 계층 비디오 데이터(또는 향상 계층 비트스트림)를 생성할 수 있다. 향상 계층 비디오 데이터는 전체 영역 내에서 관심 영역을 위한 비디오 데이터를 포함할 수 있다.

다중화기(430)는 기본 계층 비디오 데이터, 적어도 하나의 향상 계층 비디오 데이터, 및/또는 시그널링 데이터를 멀티플렉싱하고, 전체 영상에 해당하는 하나의 비트스트림을 생성할 수 있다.

도 5는 관심 영역을 시그널링하는 방법을 예시적으로 나타낸 도면으로, 스케일러블 비디오 코딩에서 관심 영역을 시그널링하는 방법을 나타낸다.

도 5를 참조하면, 서버 디바이스(또는 인코더)는 기본 계층(BL)과 적어도 하나의 향상 계층(EL)으로 구성되는 스케일러블 비디오 데이터(500)에서 향상 계층으로 구성된 하나의 비디오 데이터(또는 픽처)를 직사각형 모양을 갖는 여러 타일(Tile)들(510)로 분할할 수 있다. 예를 들어, 비디오 데이터는 Coding Tree Unit(CTU) 단위를 경계로 분할될 수 있다. 예를 들어, 하나의 CTU는 Y CTB, Cb CTB, 및 Cr CTB를 포함할 수 있다.

서버 디바이스는 빠른 사용자 응답을 위해서 기본 계층(BL)의 비디오 데이터는 타일로 분할하지 않고 전체적으로 인코딩할 수 있다.

서버 디바이스는 하나 이상의 향상 계층들의 비디오 데이터는 필요에 따라서 일부 또는 전체를 여러 타일들로 분할하여 인코딩할 수 있다. 즉, 서버 디바이스는 향상 계층의 비디오 데이터는 적어도 하나의 타일로 분할하고, 관심 영역(520, ROI, Region of Interest)에 해당하는 타일들을 인코딩할 수 있다.

이 때, 관심 영역(520)은 가상 현실 공간에서 사용자가 보게 될 중요 오브젝트(Object)가 위치할 타일들의 위치(예를 들어, 게임에서 새로운 적이 등장하는 위치, 화상 통신에서 가상공간에서의 화자의 위치), 및/또는 사용자의 시선이 바라보는 곳에 해당할 수 있다.

또한, 서버 디바이스는 관심 영역에 포함되는 적어도 하나의 타일을 식별하는 타일 정보를 포함하는 관심 영역 정보를 생성할 수 있다. 예를 들어, 관심 영역 정보는 서버 디바이스에 포함된 관심 영역 판단부, 시그널링 데이터 생성부, 및/또는 인코더에 의해서 생성될 수 있다.

관심 영역(520)의 타일 정보는 연속적이므로 모든 타일의 번호를 다 갖지 않더라도 효과적으로 압축될 수 있다. 예를 들어, 타일 정보는 관심 영역에 해당하는 모든 타일의 번호들뿐만 아니라 타일의 시작 번호와 끝 번호, 좌표점 정보, CU (Coding Unit) 번호 리스트, 수식으로 표현된 타일 번호를 포함할 수 있다.

또한, 관심 영역(520)은 사용자의 현재 뷰포트 일 수 있다.

비-관심 영역의 타일 정보는 인코더가 제공하는 Entropy coding을 거친 후 다른 클라이언트 디바이스, 영상 프로세싱 컴퓨팅 장비, 및/또는 서버로 전송될 수 있다.

관심 영역 정보는 세션 정보를 실어 나르는 고수준 구문 프로토콜(High-Level Syntax Protocol)을 통해 전해질 수 있다. 또한, 관심 영역 정보는 비디오 표준의 SEI (Supplement Enhancement Information), VUI (video usability information), 슬라이스 헤더 (Slice Header) 등의 패킷 단위에서 전해질 수 있다. 또한, 관심 영역 정보는 비디오 파일을 서술하는 별도의 파일로(e.g. DASH의 MPD) 전달될 수 있다.

이하에서는, 단일 화면 비디오에서의 관심 영역을 시그널링하는 방법을 나타낸다.

본 명세서의 예시적인 기술은 스케일러블 비디오가 아닌 단일 화면 영상에서는 일반적으로 관심 영역(ROI)이 아닌 영역을 다운스케일링(downscaling)(다운샘플링(downsampling))하는 방식으로 화질을 떨어뜨리는 기법을 사용할 수 있다.

종래 기술은 서비스를 이용하는 단말 간에 다운스케일링(downscaling)을 위해 쓴 필터(filter) 정보를 공유하지 않고, 처음부터 한가지 기술로 약속을 하거나 인코더만 필터 정보를 알고 있다.

하지만, 본 명세서의 서버 디바이스는, 인코딩된 영상을 전달 받는 클라이언트 디바이스(또는 HMD 단말)에서 다운스케일링(downscaling)된 관심 영역 외 영역의 화질을 조금이라도 향상 시키기 위해, 인코딩 시에 사용된 필터 정보를 클라이언트 디바이스로 전달할 수 있다. 이 기술은 실제로 영상 처리 시간을 상당히 줄일 수 있으며, 화질 향상을 제공할 수 있다.

전술한 바와 같이, 서버 디바이스는 관심 영역 정보를 생성할 수 있다. 예를 들어, 관심 영역 정보는 타일 정보뿐만 아니라 필터 정보를 더 포함할 수 있다. 예를 들어, 필터 정보는 약속된 필터 후보들의 번호, 필터에 사용된 값들을 포함할 수 있다.

도 6은 클라이언트 디바이스의 예시적인 구성을 나타낸 도면이다.

클라이언트 디바이스(600)는 영상 입력부(610), 오디오 입력부(620), 센서부(630), 영상 출력부(640), 오디오 출력부(650), 통신부(660), 및/또는 제어부(670) 중에서 적어도 하나를 포함할 수 있다. 예를 들어, 클라이언트 디바이스(600)는 HMD(Head-Mounted Display)일 수 있다. 또한, 클라이언트 디바이스(600)의 제어부(670)는 클라이언트 디바이스(600)에 포함될 수도 있고, VR 디바이스의 스마트폰처럼 별도의 장치로 존재할 수도 있다.

영상 입력부(610)는 비디오 데이터를 촬영할 수 있다. 영상 입력부(610)는 사용자의 영상을 획득하는 2D/3D 카메라 및/또는 Immersive 카메라 중에서 적어도 하나를 포함할 수 있다. 2D/3D 카메라는 180도 이하의 시야각을 가지는 영상을 촬영할 수 있다. Immersive 카메라는 360도 이하의 시야각을 가지는 영상을 촬영할 수 있다.

오디오 입력부(620)는 사용자의 음성을 녹음할 수 있다. 예를 들어, 오디오 입력부(620)는 마이크를 포함할 수 있다.

센서부(630)는 사용자 시선의 움직임에 대한 정보를 획득할 수 있다. 예를 들어, 센서부(630)는 물체의 방위 변화를 감지하는 자이로 센서, 이동하는 물체의 가속도나 충격의 세기를 측정하는 가속도 센서, 및 사용자의 시선 방향을 감지하는 외부 센서를 포함할 수 있다. 실시예에 따라서, 센서부(630)는 영상 입력부(610) 및 오디오 입력부(620)를 포함할 수도 있다.

영상 출력부(640)는 통신부(660)로부터 수신되거나 메모리(미도시)에 저장된 영상 데이터를 출력할 수 있다.

오디오 출력부(650)는 통신부(660)로부터 수신되거나 메모리에 저장된 오디오 데이터를 출력할 수 있다.

통신부(660)는 방송망, 무선통신망 및/또는 브로드밴드를 통해서 외부의 클라이언트 디바이스 및/또는 서버 디바이스와 통신할 수 있다. 통신부(660)는 데이터를 전송하는 전송부(미도시) 및/또는 데이터를 수신하는 수신부(미도시)를 더 포함할 수 있다.

제어부(670)는 클라이언트 디바이스(600)의 모든 동작을 제어할 수 있다. 제어부(670)는 서버 디바이스로부터 수신한 비디오 데이터 및 시그널링 데이터를 처리할 수 있다. 제어부(670)에 대한 구체적인 내용은 이하의 도 7에서 상세히 설명한다.

제어부(700)는 시그널링 데이터 및/또는 비디오 데이터를 처리할 수 있다. 제어부(700)는 시그널링 데이터 추출부(710), 디코더(720), 시선 판단부(730), 및/또는 시그널링 데이터 생성부(740) 중에서 적어도 하나를 포함할 수 있다.

시그널링 데이터 추출부(710)는 서버 디바이스 및/또는 다른 클라이언트 디바이스로부터 전송 받은 데이터로부터 시그널링 데이터를 추출할 수 있다. 예를 들어, 시그널링 데이터는 관심 영역 정보를 포함할 수 있다.

디코더(720)는 시그널링 데이터를 기초로 비디오 데이터를 디코딩할 수 있다. 예를 들어, 디코더(720)는 각 사용자의 시선 방향을 기초로 각 사용자에게 커스터마이즈된 방식으로 전체 영상을 디코딩할 수 있다. 예를 들어, 가상 현실 공간 내에서 사용자가 특정 영역을 바라보는 경우, 디코더(720)는 가상 현실 공간 내의 사용자 시선을 기초로 특정 영역에 해당하는 영상은 고화질로 디코딩하고, 특정 영역 이외에 해당하는 영상은 저화질로 디코딩할 수 있다. 실시예에 따라서, 디코더(720)는 시그널링 데이터 추출부(710), 시선 판단부(730), 및/또는 시그널링 데이터 생성부(740) 중에서 적어도 하나를 포함할 수 있다.

시선 판단부(730)는 가상 현실 공간 내에서 사용자의 시선을 판단하고, 영상 구성 정보를 생성할 수 있다. 예를 들어, 영상 구성 정보는 시선 방향을 지시하는 시선 정보 및/또는 사용자의 시야각을 지시하는 줌 영역 정보를 포함할 수 있다.

시그널링 데이터 생성부(740)는 서버 디바이스 및/또는 다른 클라이언트 디바이스로 전송하기 위한 시그널링 데이터를 생성할 수 있다. 예를 들어, 시그널링 데이터는 영상 구성 정보를 전송할 수 있다. 또한, 시그널링 데이터는 세션 정보를 실어 나르는 고수준 구문 프로토콜(High-Level Syntax Protocol)을 통해 전해질 수 있으며, 시그널링 데이터는 SEI (Supplement Enhancement Information), VUI (video usability information), 슬라이스 헤더 (Slice Header), 및 비디오 데이터를 서술하는 파일 중에서 적어도 하나를 통하여 전송될 수도 있다.

도 8은 클라이언트 디바이스의 디코더의 예시적인 구성을 나타낸 도면이다.

디코더(800)는 추출기(810), 기본 계층 디코더(820), 및/또는 적어도 하나의 향상 계층 디코더(830) 중에서 적어도 하나를 포함할 수 있다.

디코더(800)는 스케일러블 비디오 코딩 방법의 인코딩 과정의 역 과정을 이용하여 비디오 데이터를 포함하는 비트스트림을 디코딩할 수 있다.

추출기(810)는 비디오 데이터 및 시그널링 데이터를 포함하는 비트스트림(비디오 데이터)을 수신하고, 재생하고자 하는 영상의 화질에 따라서 비트스트림을 선택적으로 추출할 수 있다. 예를 들어, 비트스트림(비디오 데이터)은 기본 계층을 위한 기본 계층 비트스트림(기본 계층 비디오 데이터) 및 기본 계층으로부터 예측되는 적어도 하나의 향상 계층을 위한 적어도 하나의 향상 계층 비트스트림(향상 계층 비디오 데이터)을 포함할 수 있다. 기본 계층 비트스트림(기본 계층 비디오 데이터)는 가상 현실 공간의 전체 영역을 위한 비디오 데이터를 포함할 수 있다. 적어도 하나의 향상 계층 비트스트림(향상 계층 비디오 데이터)는 전체 영역 내에서 관심 영역을 위한 비디오 데이터를 포함할 수 있다.

또한, 시그널링 데이터는 화상 회의 서비스를 위한 가상 현실 공간의 전체 영역 내에서 사용자의 시선 방향에 대응되는 관심 영역을 지시하는 관심 영역 정보를 포함할 수 있다.

기본 계층 디코더(820)는 저화질 영상을 위한 기본 계층의 비트스트림(또는 기본 계층 비디오 데이터)을 디코딩할 수 있다.

향상 계층 디코더(830)는 시그널링 데이터 및/또는 기본 계층의 비트스트림(또는 기본 계층 비디오 데이터)을 기초로 고화질 영상을 위한 적어도 하나의 향상 계층의 비트스트림(또는 향상 계층 비디오 데이터)을 디코딩할 수 있다.

한편, 디코더(800)는 비트스트림에 포함된 비디오 데이터가 스케일러블 비디오 코딩으로 인코딩된 데이터가 아닐 경우엔, 비디오 스트림으로부터 가상 현실 공간의 전체 영역을 위한 기본 화질의 비디오 데이터와 가상 현실 공간 전체 영역 내에서 관심 영역을 위한 고화질의 비디오 데이터를 추출할 수 있다.

이하에서는, 사용자 시선의 움직임에 실시간으로 대응하기 위한 영상 구성 정보를 생성하는 방법에 대하여 설명한다.

영상 구성 정보는 사용자의 시선 방향을 지시하는 시선 정보 및/또는 사용자의 시야각을 지시하는 줌 영역 정보 중에서 적어도 하나를 포함할 수 있다. 사용자 시선이란 실제 공간이 아닌 가상 현실 공간 내에서 사용자가 바라보는 방향을 의미한다. 또한, 시선 정보는 현재 사용자의 시선 방향을 지시하는 정보뿐만 아니라, 미래에 사용자의 시선 방향을 지시하는 정보(예를 들어, 주목을 받을 것이라 예상되는 시선 지점에 대한 정보)를 포함할 수 있다.

클라이언트 디바이스는 사용자를 중심으로 가상 현실 공간 내에 위치하는 특정한 영역을 바라보는 동작을 센싱하고, 이를 처리할 수 있다.

클라이언트 디바이스는, 제어부 및/또는 시선 판단부를 이용하여, 센서부로부터 센싱 정보를 수신할 수 있다. 센싱 정보는 카메라에 의해 촬영된 영상, 마이크에 의해 녹음된 음성일 수 있다. 또한, 센싱 정보는 자이로 센서, 가속도 센서, 및 외부 센서에 의해서 감지된 데이터일 수 있다.

또한, 클라이언트 디바이스는, 제어부 및/또는 시선 판단부를 이용하여, 센싱 정보를 기초로 사용자 시선의 움직임을 확인할 수 있다. 예를 들어, 클라이언트 디바이스는 센싱 정보가 가지는 값의 변화를 기초로 사용자 시선의 움직임을 확인할 수 있다.

또한, 클라이언트 디바이스는, 제어부 및/또는 시선 판단부를 이용하여, 가상 현실 공간에서의 영상 구성 정보를 생성할 수 있다. 예를 들어, 클라이언트 디바이스가 물리적으로 움직이거나 사용자의 시선이 움직이는 경우, 클라이언트 디바이스는 센싱 정보를 기초로 가상 현실 공간에서의 사용자의 시선 정보 및/또는 줌 영역 정보를 계산할 수 있다.

또한, 클라이언트 디바이스는, 통신부를 이용하여, 영상 구성 정보를 서버 디바이스 및/또는 다른 클라이언트 디바이스로 전송할 수 있다. 또한, 클라이언트 디바이스는 영상 구성 정보를 자신의 다른 구성요소로 전달할 수도 있다.

이상에서는 클라이언트 디바이스가 영상 구성 정보를 생성하는 방법을 설명하였다. 다만 이에 한정되지 않으며, 서버 디바이스가 클라이언트 디바이스로부터 센싱 정보를 수신하고, 영상 구성 정보를 생성할 수도 있다.

또한, 클라이언트 디바이스와 연결된 외부의 컴퓨팅 디바이스가 영상 구성 정보를 생성할 수 있으며, 컴퓨팅 디바이스는 영상 구성 정보를 자신의 클라이언트 디바이스, 다른 클라이언트 디바이스, 및/또는 서버 디바이스로 전달할 수도 있다.

이하에서는, 클라이언트 디바이스가 영상 구성 정보를 시그널링 하는 방법을 설명한다.

영상 구성 정보(시점 정보 및/또는 줌 영역 정보를 포함)를 시그널링하는 부분은 매우 중요하다. 영상 구성 정보의 시그널링이 너무 잦을 경우, 클라이언트 디바이스, 서버 디바이스, 및/또는 전체 네트워크에 부담을 줄 수 있다.

따라서, 클라이언트 디바이스는 사용자의 영상 구성 정보(또는 시선 정보 및/또는 줌 영역 정보)가 변경되는 경우에만 영상 구성 정보를 시그널링할 수 있다. 즉, 클라이언트 디바이스는 사용자의 시선 정보가 변경되는 경우에만 사용자의 시선 정보를 다른 클라이언트 디바이스 및/또는 서버 디바이스로 전송할 수 있다.

이상에서는 클라이언트 디바이스가 영상 구성 정보를 생성 및/또는 전송하는 것을 중심으로 설명하였지만, 서버 디바이스가 클라이언트 디바이스로부터 센싱 정보를 수신하고, 센싱 정보를 기초로 영상 구성 정보를 생성하고, 영상 구성 정보를 적어도 하나의 클라이언트 디바이스로 전송할 수도 있다.

이상에서 언급한 시그널링은 서버 디바이스, 클라이언트 디바이스, 및/또는 외부의 컴퓨팅 장치(존재하는 경우) 사이의 시그널링일 수 있다. 또한, 이상에서 언급한 시그널링은 클라이언트 디바이스 및/또는 외부의 컴퓨팅 장치(존재하는 경우) 사이의 시그널링일 수 있다.

이하에서는, 높고/낮은 수준의 영상을 전송하는 예시적인 방법을 설명한다.

사용자의 시선 정보를 기초로 높고/낮은 수준의 영상을 전송하는 방법은 스케일러블 코덱의 계층을 스위칭하는 방법, 싱글 비트스트림 및 실시간 인코딩의 경우 QP(Quantization Parameter) 등을 이용한 Rate Control 방법, DASH 등의 단일 비트스트림의 경우 청크(Chunk) 단위로 스위칭하는 방법, 다운스케일링/업스케일링방법(Down Scaling/Up Scaling), 및/또는 렌더링(Rendering)의 경우 더 많은 리소스를 활용한 고화질 렌더링 방법을 포함할 수 있다.

전술한 예시적인 기술은 비록 스케일러블 비디오를 통한 차별적 전송 기법을 이야기하고 있지만, 단일 계층을 갖는 일반 비디오 코딩 기술을 사용할 경우에도, 양자화 계수(Quantization Parameter)나 다운스케일링/업스케일링 정도를 조절함으로써, 전체 대역폭을 낮추고, 빠르게 사용자 시선 움직임에 응답하는 등의 장점을 제공할 수 있다. 또한 미리 여러 비트레이트(bitrate)를 갖는 비트스트림(bitstream)으로 트랜스코딩된 파일들을 사용할 경우, 본 명세서의 예시적인 기술은 청크(Chunk) 단위로 높은 수준의 영상과 낮은 수준의 영상 사이를 스위칭하여 제공할 수 있다.

또한, 본 명세서는 가상 현실 시스템을 예로 들고 있지만, 본 명세서는 HMD를 이용한 VR (Virtual Reality) 게임, AR (Augmented Reality) 게임 등에서도 똑같이 적용될 수 있다. 즉, 사용자가 바라보는 시선에 해당하는 영역을 높은 수준의 영상으로 제공하고, 사용자가 바라볼 것으로 예상되는 영역이나 오브젝트(Object)가 아닌 곳을 바라 볼 경우만 시그널링하는 기법 모두가 가상 현실 시스템의 예에서와 똑같이 적용될 수 있다.

전체 영상을 하나의 압축된 영상 비트스트림(Bitstream)으로 받아서 이를 복호화(Decoding)하고 사용자가 바라보는 영역을 가상의 공간에 렌더링(Rendering)하는 기술은 전체 영상(예를 들어, 360도 몰입형(Immersive) 영상)을 모두 비트스트림으로 전송 받는다. 각각이 고해상도인 영상이 모인 이 비디오 비트스트림의 총 대역폭은 매우 클 수밖에 없어서, 비트스트림의 총대역폭이 매우 커지는 것을 방지하기 위해서 국제 비디오 표준 기술 중 SVC 및 HEVC의 스케일러블 확장 표준인 스케일러블 고효율 비디오 부호화(Scalable High Efficiency Video Coding)와 같은 스케일러블 비디오 기술이 사용될 수 있다.

도 9를 참조하면, 영상 전송 장치(서버 디바이스)(900)는 인코더(910), 시그널링부(920), 다중화기(930), 통신부(940), 및/또는 제어부(950)를 포함할 수 있다.

인코더(910)는 가상 현실 공간에 대한 영상 스트리밍 서비스를 위한 비디오 데이터를 생성할 수 있다.

상기 비디오 데이터는 가상 현실 공간 전체 영역에 대한 기본 화질 비디오 데이터와 가상 현실 공간 전체 영역 내에서 현재 뷰포트와 예측 뷰포트에 대응되는 영역에 대한 고화질 비디오 데이터를 포함할 수 있으며, 고화질 비디오 데이터는 적어도 하나의 타일로 분할될 수 있다.

시그널링부(920)는 가상 현실 공간 내에서 사용자가 바라보고 있는 현재 뷰포트에 대한 정보 및 상기 사용자가 바라볼 것으로 예상되는 예측 뷰포트에 대한 정보에 적어도 일부 기초하여 시그널링 데이터를 생성할 수 있으며, 시그널링 데이터는 상기 현재 뷰포트 및 상기 예측 뷰포트에 포함되는 상기 적어도 하나의 타일을 식별하는 타일 정보를 포함할 수 있다.

다중화기(930)는 비디오 데이터 및 시그널링 데이터를 포함하는 비트스트림을 생성할 수 있다.

통신부(940)는 비디오 데이터 및 시그널링 데이터를 포함하는 비트스트림을 전송할 수 있으며, 클라이언트 디바이스(도시하지 않음)로부터 뷰포트에 포함된 타일 정보를 수신하고, 다중화기(9300)에서 생성된 비트스트림을 제어부(950)의 명령에 따라 클라이언트 디바이스로 전송할 수 있다.

제어부(950)는 통신부(940)를 통한 비트스트림의 전송 시, 전송 대역폭이 상기 고화질 비디오 데이터를 모두 전송하기에 충분한지를 판단하고, 대역폭이 충분한 것으로 판단된 경우에는 현재 뷰포트 및 예측 뷰포트에 포함된 고화질의 비디오 데이터를 모두 전송하고, 대역폭이 충분하지 않은 것으로 판단된 경우에는, 우선순위가 높은 타일부터 낮은 타일의 순서로 상기 대역폭의 허용 범위 내에서 적어도 하나의 타일의 적어도 일부에 대한 상기 고화질 비디오 데이터를 전송할 수 있다.

또한, 인코더(910)는 기본 계층 인코더와 향상 계층 인코더를 포함할 수 있으며, 이 때, 기본 화질 비디오 데이터는 가상 현실 공간 전체 영역에 대한 기본 계층 비디오 데이터일 수 있으며, 고화질 비디오 데이터는 가상 현실 공간 내에서 사용자가 바라보고 있는 뷰포트에 포함된 타일들에 대해서 기본 계층 비디오 데이터와 향상 계층 비디오 데이터일 수 있다. 이 때, 영상 전송 장치(900)는 현재 뷰포트와 예측 뷰포트에 대응되는 영역에 대해서는 기본 계층 비디오 데이터와 향상 계층 비디오 데이터를 함께 전송하고, 현재 뷰포트와 예측 뷰포트 이외의 영역에 대해서는 기본 계층 비디오 데이터만 전송할 수 있다.

또한, 향상 계층 인코더는 뷰포트에 포함된 모든 타일에 대해서 향상 계층 비디오 데이터를 생성하지 않고, 뷰포트에 포함된 타일들의 우선 순위에 따라, 향상 계층 비디오를 생성할 수 있다.

또한, 향상 계층 인코더는 대역폭의 허용 범위 내에서 우선순위가 높은 타일부터 낮은 타일의 순서로 향상 계층 비디오 데이터를 생성할 수 있다.

또한, 향상 계층 인코더는 뷰포트에 포함된 타일들 중에 상기 포함 비율이 특정 값 이상인 타일에 대해서 향상 계층 비디오 데이터를 생성할 수 있다.

우선순위를 선정하는 방법은 사용자로부터 타일 내의 대상까지의 거리 정보에 기초하여 결정되거나, 뷰포트에 포함된 타일들이 뷰포트에 포함된 면적 비율에 의해서 결정될 수 있으며, 이에 대해서는 이하에서 상세히 설명한다.

이하에서는 도 10을 참조하여, 뷰포트와 대상 거리 정보 신호 체계를 설명한다.

가상 현실 컨텐츠 제작자는 사용자의 시선이 '마땅히 주목할 것으로 예측되는' 대상을 미리 알 수 있도록 신호 체계를 구성하여, 사용자의 시선이 향하기 전에 미리 영상 데이터가 향상 계층까지 선반입(Pre-fetching) 할 수 있도록 한다. 또한 가상 현실 컨텐츠 제작자는 영상 내의 각 타일들에 대한 우선순위 정보도 전송되어 사용될 수 있도록 컨텐츠를 제작한다.

기본 계층은 빠른 사용자 응답시간을 위해 타일링되지 않고 전체적으로 부호화될 수 있다. 하나 이상의 향상 계층은 필요에 따라 일부 또는 전체가 여러 타일들로 나누어져서 부호화 될 수 있다. 이 때, 뷰포트는 사용자의 시선이 바라보는 곳, 또는 사용자가 바라보게 될 가상의 공간에서 중요 오브젝트가 위치할 타일 위치일 수 있다. 뷰포트 내의 타일 번호는 연속적으로 부여되므로 뷰포트에 포함된 타일 정보를 전송할 때, 타일에 대한 모든 번호 정보를 다 보내지 않고도 효과적으로 압축할 수 있다. 예를 들어, 타일의 시작과 끝 번호, 타일의 좌표점 정보, 타일 내 코딩 단위(CU) 번호 리스트, 타일 번호를 수식으로 표현하는 방법 등을 사용하여 타일 번호 정보를 효과적으로 압축할 수 있다.

도 10을 참조하면, 스케일러블 비디오 컨텐츠(1000)는 기본 계층과 향상 계층의 비디오 데이터를 포함하고, 서버 디바이스에서 인코딩되는 향상 계층(1010)은 현재 뷰포트(1020) 및 예측 뷰포트(1030) 정보와 객체의 거리 정보에 기초하여 시그널링되는 것을 도시하고 있다. 상기 향상 계층(1010)은 스케일러블 비디오 컨텐츠(1000)의 영상에 대한 타일로 구분되고, 현재 뷰포트(1020) 및 예측 뷰포트(1030) 정보에는 뷰포트에 포함되는 타일 정보가 포함되어 있다. 도면에서는 현재 뷰포트(1020)에 포함되는 타일은 6, 7, 10, 11번 타일이며, 예측 뷰포트(1030)에 포함되는 타일은 7, 8, 11, 12번 타일인 것으로 도시되어 있다.

이러한 신호 체계(시그널링)는 세션(Session) 정보를 실어나르는 고수준 구문(High-level syntax) 프로토콜을 통해 전해질 수도 있고, 비디오 표준의 SEI, VUI, 또는 슬라이스 헤더 등의 패킷 단위에 의해서 전해질 수도 있고, 비디오 파일을 설명하는 별도의 파일(예를 들어, DASH의 MPD)에 포함되어 전달될 수 있다.

본 명세서에 제시된 신호 체계는 향상 계층 또는 고화질 비디오 영상의 특정 타일만 우선적으로 전달 받아 전체적인 지연 시간을 줄이고, 대역폭 상황에 따라 일부만 고화질로 처리함으로써 지연발생을 없앨 수 있으므로, HMD 사용자에게 빠른 응답시간을 보장하여 사용자의 어지러움, 멀미 등의 현상을 줄일 수 있다.

도 11을 참조하면, 위의 그림은 사용자가 클라우드 기반 게임 스트리밍을 통해 자동차 경주 게임을 할 때를 가정한 것이다. 도면 참조번호 1110의 상자는 현재 보여지고 있는 화면의 중앙부로서 현재 사용자의 뷰포트를 나타낸다. 이 부분은 사용자가 현재 바라보고 있는 영역이므로 높은 화질의 영상 출력이 요구된다. 따라서, 본 실시예의 스트리밍 기술은 이 부분의 영상에 대해서는 스케일러블 비디오 부호화(SVC)의 기본 계층(Basic Layer) 영상 데이터와 하나 이상의 향상 계층(Enhancement Layer(s)) 영상 데이터를 모두 전송해준다.

예시한 자동차 경주 게임 컨텐츠의 경우, 본 실시예의 스트리밍 기술은 사용자 정면의 주행코스를 예측 뷰포트(1110)로 예상할 수 있다. 따라서, 본 실시예의 스트리밍 기술은 해당하는 예측 뷰포트를 미리 높은 화질로 선반입(Prefetching)함으로써 디스플레이 지연을 줄일 수 있게 한다.

또한 본 실시예의 스트리밍 기술은 현재 뷰포트나 예측 뷰포트 이외의 영역(1130)에 대해서는 낮은 화질의 기본 계층 영상 데이터만 보내줌으로써 전체 대역폭을 낮출 수 있다. 이 때, 기본 계층이 제공하는 영상 화질 및 지연시간은 가상현실 서비스 품질에 매우 중요한 사용자의 멀미현상을 저감하도록 일정 수준 이상의 화질을 유지해야 한다.

클라우드 기반의 게임 스트리밍의 주요과제는 저지연 스트리밍 기술이다. 하지만, 머리장착형 영상장치의 경우 무선네트워크를 이용하는 방식이기 때문에 대역폭 변동의 가능성이 항상 존재한다. 따라서, 만약 게임 컨텐츠 스트리밍 영상 내에서 특정영역을 항상 높은 화질로 전송하도록 고정해 버린다면, 갑자기 전송 대역폭이 줄어들었을 때 게임 컨텐츠 전송의 지연이 발생할 수도 있다.

도 12는 사용자로부터 영상 내 대상까지의 거리에 따른 뷰포트 예측 기술 기반의 고화질 게임 스트리밍의 예를 나타낸 도면이다.

본 명세서에 제시된 예시적인 게임 스트리밍 기술은 사용자 뷰포트에 대한 가능성을 예측하여, 예측되는 뷰포트에 포함된 타일들에 높은 우선순위를 부여할 수 있다. 예를 들어, 거리정보를 이용하여 어떤 타일이 사용자로부터 가까운 대상들을 많이 포함하고 있는지 구분한 뒤, 가까운 타일(가까운 대상이 많은 타일)이 많은 순서에서 적은 순서로 우선 순위를 부여하고 우선 순위가 높은 타일부터 고화질의 영상을 전송함으로써 대역폭을 줄일 수 있다.

도 12를 참조하면, 예시적인 게임 스트리밍 기술은 사용자로부터 가까운 대상(1210, 1211, 1212)이 포함된 타일들(1240, 1241, 1242)에는 높은 우선순위를 부여하고, 사용자로부터 중간 거리의 대상(1220, 1221)이 포함된 타일들(1250, 1251)에는 중간 우선순위를 부여하고, 사용자로부터 먼 대상(1230, 1231)이 포함된 타일들(1260)에는 낮은 우선순위를 부여할 수 있다.

예시적인 게임 스트리밍 기술은 이와 같은 타일 별 우선순위 부여 후 대역폭이 갑자기 감소하게 되면, 대역폭 허용 범위까지 우선순위가 높은 타일에서 낮은 타일의 순서로 고화질 영상 데이터를 전송하여 지연 없이 스트리밍을 할 수 있다. 즉, 예시적인 게임 스트리밍 기술은 전송 대역폭에 기반하여 우선순위가 높은 타일들을 고화질 전송한다.

예시한 거리에 따른 타일 우선순위 부여 기법의 경우, 고화질/저화질 영상을 만드는 방법은 전술한 것과 마찬가지로 스케일러블 비디오 코딩 기술을 적용할 수 있지만, 스케일러블 비디오 코딩 기술 외에 영상의 화질 차이를 부여할 수 있는 기술은 어느 것이나 적용 가능하다.

한편, 스트리밍 영상 속에서는 타일의 우선 순위가 높을수록 해당 타일이 포함된 영역이 뷰포트가 될 가능성이 높다. 따라서, 예시적인 게임 스트리밍 기술은 우선 순위가 높은 타일이 많이 포함된 영역을 뷰포트로 결정할 수도 있다.

본 명세서에 제시된 기술은 사용자 주변 사물들이 우선시되는 역할 게임(Role-Playing Game; RPG)의 스트리밍에서 더욱 효과적일 수 있다.

본 명세서에 제시된 방법은 스케일러블 비디오 코딩 기술을 이용하여, 고화질의 영상은 향상 계층 영상으로, 저화질의 영상은 기본 계층 영상으로 전송하였지만, 스케일러블 비디오 코딩 기술을 이용하지 않고도 전체 기본 품질의 영상을 하나의 영상으로, 현재 뷰포트 및 예측 뷰포트에 대한 영상은 일반적인 고화질의 영상을 사용할 수도 있다.

본 명세서에 제시된 방법은 화면 분할을 지원하는 다른 종류의 비디오 병렬처리 기법들, 예를 들어, 슬라이스(Slice), FMO(Flexible Macro Block) 등에 적용 가능하다. 또한 비트 스트림을 분할하여 전송하는 스트리밍 서비스인 MPEG DASH, 마이크로소프트 사의 Smooth Streaming, 애플 사의 HLS(HTTP Live Streaming)에도 적용할 수 있다.

이하에서는 도 13 내지 14를 참조하여 게임 영상 스트리밍같은 가상 현실 공간에 대한 영상 스트리밍에서 현재 뷰포트 및 예측 뷰포트 정보와, 뷰포트 내 대상(object)에 대한 거리 정보에 기초한 뷰포트의 우선 순위 정보를 이용하여 통신 대역폭을 절감하는 방법을 상세히 설명한다.

도 13은 영상 스트리밍 서비스를 위한 비디오 서버에서의 예시적인 영상 전송 방법을 도시한다.

도 13을 참조하면, 비디오 서버는 가상 현실 공간에 대한 영상 스트리밍 서비스를 위한 비디오 데이터를 생성한다(1301).

다음으로, 비디오 서버는 가상 현실 공간 내에서 사용자가 바라보고 있는 현재 뷰포트에 대한 정보와 사용자가 바라볼 것으로 예상되는 예측 뷰포트에 대한 정보에 적어도 일부 기초하여 시그널링 데이터를 생성한다(1303).

다음으로, 비디오 서버는 상기 비디오 데이터 및 상기 시그널링 데이터를 포함하는 비트스트림 생성하고, 생성된 비트스트림을 통신부를 통해서 클라이언트 디바이스로 전송한다(1305).

상기 생성된 비디오 데이터는 가상 현실 공간 전체에 대한 기본 화질의 비디오 데이터와, 현재 뷰포트와 예측 뷰포트에 대한 고화질의 비디오 데이터를 포함할 수 있다.

스케일러블 비디오 코딩 기술을 사용할 때는, 상기 기본 화질의 비디오 데이터는 가상 현실 공간 전체에 대한 기본 계층의 비디오 데이터를 포함할 수 있으며, 현재 뷰포트와 예측 뷰포트에 대한 상기 고화질의 비디오 데이터는 기본 계층 외에 적어도 하나의 향상 계층에 대한 비디오 데이터를 더 포함할 수 있다.

따라서, 비디오 서버는 현재 뷰포트와 예측 뷰포트에 대응되는 영역에 대해서는 높은 품질의 비디오 데이터를 전송하고, 상기 현재 뷰포트와 상기 예측 뷰포트 이외의 영역에 대해서는 기본 화질(품질)의 비디오 데이터만 전송할 수 있다. 또한, 비디오 서버는, 비디오 데이터가 스케일러블 비디오 데이터일 경우에는, 현재 뷰포트와 예측 뷰포트에 대응되는 영역에 대해서는 기본 계층과 향상 계층에 대한 비디오 데이터를 함께 전송하고, 상기 현재 뷰포트와 상기 예측 뷰포트 이외의 영역에 대해서는 기본 계층에 대한 비디오 데이터만 전송할 수 있다.

상기 적어도 하나의 향상 계층 비디오 데이터는 각 계층별로 직사각형 모양의 적어도 하나의 타일로 분할되고, 상기 기본 화질의 비디오 데이터와 상기 고화질의 비디오 데이터는 각각 직사각형 모양의 적어도 하나의 타일로 분할될 수 있다.

또한, 상기 시그널링 데이터는 현재 뷰포트 및 예측 뷰포트에 포함되는 적어도 하나의 타일을 식별하는 타일 정보를 포함할 수 있다.

또한, 상기 비디오 서버에서의 영상 전송 방법은 비디오 데이터를 전송하는 통신 회선의 대역폭이 향상 계층 비디오 데이터 또는 고화질의 영상 데이터를 모두 전송하기에 충분한지의 여부를 판단(1307)할 수 있다.

상기 영상 전송 방법은 상기 통신 회선의 대역폭이 충분한 것으로 판단되는 경우, 현재 뷰포트 및 예측 뷰포트 내의 타일들을 모두 전송(1309)할 수 있으며, 상기 통신 회선의 대역폭이 충분하지 않은 것으로 판단되는 경우, 뷰포트 내의 타일들을 우선순위에 따라 전송(1311)할 수 있다.

여기에서, 상기 우선순위에 따라 전송하는 동작은 대역폭의 허용 범위 내에서 우선순위가 높은 타일부터 낮은 타일의 순서로 향상 계층 비디오 데이터 또는 고화질의 영상 데이터를 전송할 수 있다.

우선순위는 가상 현실 영상의 타일 내에서 사용자로부터 건물, 특정 사물, 게임 캐릭터, 주행 도로 등의 대상(object)까지의 거리에 따라 결정되며, 대상이 사용자에게 가까울수록 상기 대상이 포함된 타일에 높은 우선순위가 부여될 수 있다.

한편, 타일 내의 대상들이 사용자에게 가까울수록, 상기 대상이 포함된 타일들은 예측 뷰포트가 될 가능성이 증가하게 된다. 예측 뷰포트는 전술한 타일 내의 대상과 사용자와의 거리뿐만 아니라, 현재 뷰포트와의 거리, 방향 등을 포함하는 현재 뷰포트에 대한 정보와 가상 현실 콘텐츠의 내용에 기초하여 결정될 수도 있다. 예를 들어, 상기 가상 현실 콘텐츠의 내용은 상기 가상 현실 콘텐츠가 게임일 경우, 사용자의 이동 방향, 주요 캐릭터의 등장, 주요 이벤트의 발생 등 일 수 있다.

또한, 상기 향상 계층에 대한 비디오 데이터는 상기 가상 현실 공간 전체 영역 내에서 상기 현재 뷰포트와 상기 예측 뷰포트에 대응되는 영역에 대한 고화질 비디오 데이터를 포함할 수 있다.

또한, 상기 시그널링 데이터는 영상 구성 정보를 기초로 생성될 수 있다. 상기 영상 구성 정보는 가상 현실 공간 내에서 사용자의 뷰포트를 지시하는 시선 정보와 사용자의 시야각을 지시하는 줌 영역 정보를 포함할 수 있다.

또한, 상기 시그널링 데이터는 세션 정보를 실어 나르는 고수준 구문 프로토콜(High-Level Syntax Protocol), SEI (Supplement Enhancement Information), VUI (video usability information), 슬라이스 헤더(Slice Header), 및 비디오 데이터를 서술하는 파일 중에서 적어도 하나를 통하여 전송될 수 있다.

도 14를 참조하면, HMD 등의 클라이언트 디바이스에서의 영상 수신 방법에서 클라이언트 디바이스는 가상 현실 공간에 대한 비디오 데이터 및 시그널링 데이터를 포함하는 비트스트림을 수신할 수 있다(1401). 또한, 클라이언트 디바이스는 비디오 데이터를 기초로 기본 화질 비디오 데이터를 디코딩할 수 있다(1403). 또한, 클라이언트 디바이스는 비디오 데이터 및 시그널링 데이터를 기초로 고화질 비디오 데이터를 디코딩할 수 있다(1405).

시그널링 데이터는 가상 현실 공간 내에서 사용자가 바라보고 있는 영역에 대한 현재 뷰포트와 가상 현실 공간 내에서 사용자가 바라볼 것으로 예상되는 예측 뷰포트에 대한 정보를 적어도 일부 포함할 수 있다.

또한, 고화질 비디오 데이터는 현재 뷰포트 및 예측 뷰포트에 대응되는 높은고화품질의 비디오 데이터를 포함할 수 있다.

또한, 기본 화질 비디오 데이터는 가상 현실 공간 전체 영역에 대한 기본적은 화질(저화질)의 비디오 데이터를 포함할 수 있다.

본 명세서 전체에서 기본 화질 또는 저화질의 비디오 데이터/영상 데이터는 가상 현실 서비스에서 사용자에게 멀미 현상 등의 불쾌감을 일으키지 않을 정도의 일정 수준 이상의 화질을 가질 수 있다.

또한, 고화질 비디오 데이터는 전체 영역 내에서 현재 뷰포트와 예측 뷰포트에 대응되는 영역에 대한 비디오 데이터를 포함할 수 있다.

또한, 고화질 비디오 데이터는 직사각형 모양의 적어도 하나의 타일로 분할될 수 있다.

또한, 시그널링 데이터는 현재 뷰포트 및 예측 뷰포트에 포함되는 적어도 하나의 타일을 식별하는 타일 정보를 포함할 수 있다.

또한, 시그널링 데이터는 영상 구성 정보를 기초로 생성될 수 있으며, 영상 구성 정보는 가상 현실 공간 내에서 사용자의 뷰포트를 지시하는 시선 정보 및 사용자의 시야각을 지시하는 줌 영역 정보를 포함할 수 있다.

또한, 시그널링 데이터는 세션 정보를 실어 나르는 고수준 구문 프로토콜(High-Level Syntax Protocol), SEI (Supplement Enhancement Information), VUI (video usability information), 슬라이스 헤더(Slice Header), 및 상기 비디오 데이터를 서술하는 파일 중에서 적어도 하나를 통하여 전송될 수 있다.

또한, 전술한 기본 화질 비디오 데이터는 스케일러블 비디오 코딩 기술에서는 기본 계층 비디오 데이터일 수 있으며, 고화질 비디오 데이터는 기본 계층 비디오 데이터와 적어도 하나의 향상 계층 비디오 데이터를 포함한 비디오 데이터일 수 있다.

또한, 본 명세서의 영상 디코딩 기술은 수신된 비디오 데이터를 기초로 기본 계층 비디오 데이터를 디코딩할 수 있으며, 상기 비디오 데이터 및 상기 시그널링 데이터를 기초로 적어도 하나의 향상 계층 비디오 데이터를 디코딩할 수 있다.

이하에서는 도 15 내지 도 16을 참조하여 뷰포트에 포함된 타일 크기에 따른 대역폭 적응적 비디오 데이터 전송에 대하여 설명한다.

도 15를 참조하면, 예를 들어, 영상의 한 프레임이 도시한 바와 같이 25개의 타일(1510)로 구성되어 있는 경우, 서버 디바이스는 상기 25개의 타일 중 뷰포트에 포함되는 타일들(12번, 13번, 17번, 18번)에 대한 시그널링 신호가 수신될 때, 뷰포트에 포함된 타일에 대해서 타일의 크기에 대비하여 뷰포트에 포함된 부분의 면적 비율(포함 비율)을 계산한 뒤, 비율이 큰 순서에서 작은 순서로 나열할 수 있다. 상기 뷰포트에 포함되는 타일들은 움직임이 제한된 타일 집합(Motion Constrained Tile Sets; MCTS)이 적용된 타일들일 수 있다.

예시에서는, 12번 타일이 7% 포함되고, 13번 타일이 73% 포함되고, 17번 타일이 2% 포함되고, 18번 타일이 18% 포함되었기 때문에, 서버 디바이스는 뷰포트를 가장 많이 포함하고 있는 13번 타일을 1순위로, 18번 타일을 2순위로, 12번 타일을 3순위로, 17번 타일을 4순위로 하는 우선순위를 부여할 수 있다(1520).

서버 디바이스는 서버 디바이스와 클라이언트 디바이스들(Client A, Client B, Client C) 사이의 대역폭 상태 또는/및 클라이언트 디바이스들의 성능 등을 판단하여 클라이언트 디바이스별로 대역폭 허용 한도를 결정하고(1530), 상기 대역폭 허용 한도 및 우선순위에 따라 뷰포트에 포함된 타일들 전체 및/또는 일부를 클라이언트 디바이스들에게 전송할 수 있다(1540).

이 때, 전송되지 않은 타일은 클라이언트 디바이스에서 업샘플링된 기본 계층(Upsampled Base Layer)을 활용한 에러은닉 기술을 통하여 화질이 개선될 수 있다(1550).

예를 들어, 서버 디바이스와 클라이언트 디바이스 C에 있어서, 현재 대역폭이 2순위까지의 타일만 전송할 수 있는 상태이므로, 서버 디바이스는 타일 13(1순위 타일)과 타일 18(2순위 타일)을 고화질의 비디오 영상으로 전송하고, 나머지 12번 타일과 17번 타일에 대해서는 고화질 비디오 영상을 전송하지 않는다. 이 때, 클라이언트 디바이스 C는 전송되지 않는 12번 타일 및 17번 타일에 대해서는 업샘플링된 기본 계층을 활용하여, 출력되는 영상의 품질을 개선함으로써 사용자가 느낄 수 있는 어지러움, 멀미 등의 불쾌감을 줄일 수 있다.

따라서, 본 명세서에 제시된 뷰포트에 포함된 타일 크기에 따른 대역폭 적응적 비디오 데이터 전송 방법은 기존의 뷰포트에 해당하는 타일을 모두 전송할 때 보다 사용자 지연 시간이 짧고 전송 대역폭을 줄일 수 있으며, 사용자의 불쾌감도 저감시킬 수 있는 효과가 있다.

본 명세서에 제시된 방법은 뷰포트에 포함된 타일들의 최소 면적 비율을 설정하고, 설정된 면적 비율 값 이상의 비율에 해당하는 타일만 클라이언트 디바이스로 전송할 수 있다. 즉, 서버 디바이스와 클라이언트 디바이스 사이의 대역폭 상태에 상관없이, 사용자가 설정한 뷰포트 포함 면적 비율에 따라 일괄적으로 해당하는 타일의 고화질 비디오 데이터를 전송함으로써 대역폭을 줄일 수 있다.

도 16을 참조하면, 뷰포트에 포함된 타일의 면적 비율을 구하고, 면적 비율에 따른 우선순위의 선정방법은 도 15의 우선순위 선정에 대한 설명과 동일하다.

사용자가 설정한 포함 비율(예를 들어, 15% 이상)에 따라 해당하는 13번 타일 및 18번 타일(1610)에 대해서만 고화질 비디오 데이터를 전송한 예를 나타낸다. 여기에서, 클라이언트 단말은 전송되지 않는 12번 타일과 17번 타일에 대해서는 업샘플링된 기본 계층(1620)을 활용하여, 출력되는 영상의 품질을 개선할 수 있다.

뷰포트에 포함되는 타일 면적의 최소 비율은 서버와 사용자 환경에 따라 설정될 수 있다. 전송되지 않는 타일에 대하여 에러은닉 기술의 적용이 가능하며, 대역폭의 낭비를 최소화 함으로써 효율적인 고화질 통신 서비스가 가능하다.

이하에서는 도 17을 참조하여 전술한 뷰포트에 포함된 타일 비율 및 우선순위에 따른 타일 전송 방법에 대해서 상세하게 설명한다.

본 명세서에는 스케일러블 비디오 코딩 기술을 예로 들어, 저화질의 영상 또는 기본 화질의 영상은 기본 계층 영상으로 고화질의 영상은 기본 계층 영상과 향상 계층 영상을 포함한 영상으로 표현하였지만, 가상 현실 공간에 대한 비디오 영상을 저화질과 고화질의 영상으로 구분하여 전송할 수 있는 비디오 코딩 기술은 어느 것이든 사용할 수 있다.

따라서, 실시예들에서 표현한 기본화질 또는 저화질의 비디오 데이터는 기본 계층 비디오 데이터를 의미하고, 고화질의 비디오 데이터는 기본 계층 비디오 데이터와 향상 계층 비디오 데이터를 모두 포함한 비디오 데이터를 의미할 수 있다.

또한, 향상 계층 비디오를 사용할 경우, 하나 이상의 계층 비디오 데이터를 사용할 수 있는데, 스케일러블 비디오 코딩이 아닌 경우에는 한 픽쳐에 대한 다수의 향상 계층 비디오 데이터는 하나의 픽쳐를 나타내는 고화질 비디오 데이터로 대체할 수 있다.

도 17에 도시된 예시적인 영상 전송 방법에 의하면, 먼저, 서버 디바이스(비디오 서버)는 가상 현실 공간 전체 영역을 하나 이상의 타일로 분할할 수 있다(1701). 상기 타일은 직사각형 모양일 수 있다.

서버 디바이스는 가상 현실 공간 전체 영역에 대한 기본 화질 또는 저화질의 비디오 데이터를 생성할 수 있다(1703).

서버 디바이스는 영상 수신 장치로부터 수신하는 시그널링 데이터를 분석하여, 사용자의 뷰포트를 판단하고, 상기 뷰포트에 포함된 타일의 번호 정보 및 상기 뷰포트에 포함된 타일의 면적 정보에 적어도 일부 기초하여 상기 뷰포트에 포함된 타일들의 면적 비율을 구하고, 상기 면적 비율이 높은 타일에서 낮은 타일의 순서로 타일별로 우선순위를 부여할 수 있다(1705). 예를 들어, 서버 디바이스는 면적 비율이 높은 타일에는 높은 우선순위를 부여하고, 낮은 타일에는 낮은 우선순위를 부여한다.

사용자의 뷰포트는 사용자가 현재 바라보고 있는 현재 뷰포트와 사용자가 앞으로 바라볼 것으로 예상되는 예측 뷰포트를 포함할 수 있다.

서버 디바이스는 비디오 데이터를 전송할 통신 회선의 대역폭의 허용 한도 내에서 우선순위에 따라 전송할 타일을 선택하고, 선택된 타일의 영상에 대해서 고화질의 비디오 데이터를 생성할 수 있다(1707). 예들 들어, 서버 디바이스는 뷰포트에 포함된 타일이 4개지만 상기 대역폭의 허용 한도가 3개의 타일에 대해서만 전송이 허용되는 것으로 판단될 경우, 제1 내지 제3 우선순위의 타일에 대해서만 고품질의 영상 데이터를 생성할 수 있다.

서버 디바이스는 생성된 기본 화질 비디오 데이터 및 생성된 고화질 비디오 데이터를 비트스트림에 포함시켜 클라이언트 디바이스로 전송할 수 있다(1709). 이 때, 클라이언트 디바이스는 고화질 비디오 데이터가 수신되지 않은 제4 우선순위의 타일에 대해서는 수신된 기본 계층 비디오 데이터를 업샘플링하여 출력함으로써 사용자의 불편함을 저감할 수 있다.

서버 디바이스는 우선 순위에 따라 전송될 타일에 대해서만 고화질 비디오 데이터(기본 계층 비디오 데이터와 향상 계층 비디오 데이터를 포함함)를 생성한 뒤, 생성된 비디오 데이터를 전송함으로써, 대역폭을 줄일 수 있다. 즉, 서버 디바이스는 대역폭이 허용하는 범위까지의 타일에 대해서만 향상 계층 비디오 데이터를 생성한다.

한편, 서버 디바이스는 비디오 데이터를 전송할 통신 회선의 대역폭의 허용 범위를 실시간으로 고려하지 않고, 뷰포트에 포함된 타일들 중에서 뷰포트에 포함된 면적의 비율이 특정 값 이상인 경우에 대해서만, 해당 타일에 대해서 향상 계층 비디오 데이터를 생성하고, 상기 해당 타일에 대해서만 기본 계층 비디오 데이터와 향상 계층 비디오 데이터를 함께 클라이언트 디바이스로 전송할 수 있다. 이 때, 뷰포트에 포함된 면적 비율의 특정 값은 비디오 서버의 상태와 사용자 환경 등을 고려하여 설정할 수 있다.

도 18에 도시한 예시적인 영상 수신 방법에 의하면, 먼저, 클라이언트 디바이스는 가상 현실 공간 내에서 사용자가 바라보고 있는 뷰포트 정보, 뷰포트에 포함된 타일의 번호 정보, 및 뷰포트에 포함된 타일의 포함 비율 정보를 전송할 수 있다(1801).

클라이언트 디바이스는 직사각형 모양의 적어도 하나의 타일로 분할된 가상 현실 공간 전체에 대한 기본 계층 비디오 데이터를 수신할 수 있다(1803).

클라이언트 디바이스는 뷰포트 포함 비율에 따라 우선순위가 부여된 타일들에 대해서 대역폭의 허용한도 내에서 적어도 하나의 향상 계층 비디오 데이터를 수신할 수 있다(1805).

클라이언트 디바이스는 뷰포트에 포함된 타일들 중 향상 계층 비디오 데이터가 수신되지 않는 타일에 대해서는 업샘플링된 기본 계층 비디오 데이터를 생성할 수 있다(1807).

클라이언트 디바이스는 기본 계층 비디오 데이터, 향상 계층 비디오 데이터, 및 업샘플링된 기본 계층 비디오 데이터에 적어도 일부 기초하여, 사용자에게 출력할 영상을 디코딩하고(1809), 상기 디코딩된 비디오 영상을 출력할 수 있다.

도 19에 도시한 예시적인 영상 수신 방법에 의하면, 먼저, 클라이언트 디바이스는 가상 현실 공간 내에서 사용자가 바라보고 있는 뷰포트 정보, 뷰포트에 포함된 타일의 번호 정보, 및 뷰포트에 포함된 타일의 포함 비율 정보를 전송할 수 있다(1901).

클라이언트 디바이스는 직사각형 모양의 적어도 하나의 타일로 분할된 가상 현실 공간 전체에 대한 기본 계층 비디오 데이터를 수신할 수 있다(1903).

클라이언트 디바이스는 뷰포트 포함 비율이 특정 값과 같거나 큰 타일들에 대해서 적어도 하나의 향상 계층 비디오 데이터를 수신할 수 있다(1905).

클라이언트 디바이스는 뷰포트에 포함된 타일들 중 향상 계층 비디오 데이터가 수신되지 않는 타일에 대해서는 업샘플링된 기본 계층 비디오 데이터를 생성할 수 있다(1907).

클라이언트 디바이스는 기본 계층 비디오 데이터, 향상 계층 비디오 데이터, 및 업샘플링된 기본 계층 비디오 데이터에 적어도 일부 기초하여, 사용자에게 출력할 영상을 디코딩하고(1909), 상기 디코딩된 비디오 영상을 출력할 수 있다.

도 20은 예측 뷰포트와 대상 거리 정보의 시그널링에서 제안하는 예시적인 SEI 페이로드 구문을 도시한다.

도 20을 참조하면, H.264 AVC나 H.265 HEVC와 같은 국제 비디오 표준에서의 SEI(Supplemental Enhancement Information) 메시지 페이로드(payload) 구문(syntax)의 예로 "expected_tile_info"를 보여준다.

만일 제안하는 구문이 188번으로 정해진 경우에는 도면의 참조번호 2000의 구문이 본 명세서의 실시예로 SEI 메시지 페이로드 구문에 새로 추가되며, 이 외의 구문은 모두 기존의 표준 구문과 동일하다.

도 21은 예시적인 비디오 픽쳐별 뷰포트 신호 체계 규격을 도시한다.

도 22는 예시적인 파일, 청크, 비디오 픽쳐 그룹별 신호 체계 규격을 도시한다.

unsigned (n)는 통상 프로그래밍 언어에서 부호가 없는 (unsigned) 'n' 비트 수를 의미한다.

version_info 구문은 신호 체계 규약의 버젼 정보, 부호 없는 8비트의 정보로 표현된다.

file_size 구문은 파일 사이즈, 부호 없는 64 비트의 정보로 표현된다.

poc_num 구문은 HEVC와 같은 비디오 표준에서의 POC(Picture Order Count) 정보를 의미함, 기존의 H.264 AVC 표준에서의 프레임 번호(frame number)와 유사한 의미. 부호 없는 32 비트의 정보로 표현된다.

info_mode 구문은 본 표준에서 정의한 '정보 모드'로서 다음과 같으며, 부호 없는 4 비트의 정보로 표현된다. '0'은 이전 신호 체계 정보와 같음을 나타내고, '1'은 예측되는 각 뷰포트에 포함되는 타일 id를 나타내고, '2'는 예측되는 각 뷰포트에 포함되는 타일에 대한 거리정보를 나타내고, '3'은 전송되는 뷰포트 id 및 타일 id를 나타낸다.

viewport_num 구문은 예측되는 뷰포트의 갯수를 의미하며, 부호 없는 8 비트의 정보로 표현된다.

tile_num 구문은 화면 내의 타일의 갯수를 의미하며, 부호 없는 12 비트의 정보로 표현된다.

tile_id_list_in_viewport[] 구문은 뷰포트 내 타일 번호 리스트를 의미하며, 부호 없는 12 비트의 정보로 표현된다.

tile_distance_list_in_viewport[] 구문은 뷰포트 내 타일 별 거리 정보 리스트를 의미하며, 각각의 거리 정보는 부호 없는 16 비트의 정보로 표현된다.

viewport_id_list_trans[] 구문은 전송되는 뷰포트 번호 리스트를 의미하며, 부호 없는 12 비트의 정보로 표현된다.

tile_id_list_trans[] 구문은 전송되는 타일 번호 리스트를 의미하며, 부호 없는 12 비트의 정보로 표현된다.

user_info_flag 구문은 추가 사용자 정보 모드의 플래그(flag)를 의미하며, 사용자가 추가로 전송하려는 타일 관련 정보가 있는지 여부가 부호 없는 '1' 비트의 정보로 표현된다. 값이 '0'일 경우, 추가 사용자 정보가 없음을 나타내고, 값이 '1'일 경우, 추가 사용자 정보가 있음을 나타낸다.

user_info_size 구문은 추가 사용자 정보의 길이를 의미하며, 부호 없는 '16' 비트의 정보로 표현한다.

user_info_list [] 구문은 추가 사용자 정보의 리스트를 의미하며, 각각의 추가 사용자 정보는 부호 없는 변화 가능한(varies) 비트의 정보로 표현된다.

전술한 정의된 구문과 의미론에 관한 정보들은 MPEG DASH와 같은 HTTP 기반의 영상 통신에서 각각 XML 형태로 표현이 될 수도 있다.

도 23은 XML 형태로 표현된 예시적인 타일 정보 구문을 도시한다

도 23을 참조하면, XML 형태로 정보 모드(info_mode = "3"), 추가 사용자 정의 모드 플래그(user_info_flag ="0"), 뷰포트 갯수 정보(viewport_num ="2"), 타일 갯수 정보(tile_num "6"), 전송되는 뷰포트 번호 정보(viewport_id_list_trans = "1 2"), 전송되는 타일 번호 정보(tile_id_list_trans = "4 5 12 14 17 22")를 표현한 한 예이다.

본 명세서에 제시된 기술을 통해 뷰포트와 타일 크기를 고려하여 효율적이고 최적화된, 움직임이 제한된 타일 집합(MCTS) 전송을 할 수 있다. 따라서, 본 명세서에서 제시하는 시그널링의 전달 정보는, 도 24에 도시한 바와 같이 비디오 수신 장치인 머리장착형 영상장치(2410)가 360도 비디오 스트리밍 서버(2420)에 전달하는 타일 별 뷰포트에 포함된 비율 정보(2430)와 뷰포트에 포함된 전송 타일 정보(2440)를 포함할 수 있다.

본 명세서에서는 타일 별 뷰포트 포함 비율 정보와 뷰포트에 포함된 전송 타일 정보가 클라이언트 디바이스에서 서버 디바이스로 전달되는 것을 예로 들었지만, 상기 정보들은 클라이언트 디바이스에서 전달해주는 뷰포트 정보만을 이용하여 서버 디바이스에서 산출할 수도 있다.

또한, 이 정보는 360도 비디오 부호화 국제표준(MPEG)의 부가정보를 전달하는 OMAF(Omnidirectional Media Application Format)의 추가 정보를 통해 전달 할 수 있다.

도 25는 예시적인 OMAF 구문을 도시한다.

도 25은 H.264 AVC나 H.265 HEVC와 같은 국제 비디오 표준에서의 OMAF 구문(Syntax)의 예를 도시한다.

도면의 참조번호 2500의 구문이 본 명세서의 실시예로 새로 추가된 것이며, 이 외의 구문은 모두 기존의 표준 구문이다.

전송하는 매 비디오 픽쳐마다 신호를 할 경우(시그널링) 다음에 정의한 각 구문(Syntax) 규격에 맞추어 고효율 비디오 부호화 타일 정보를 전달할 수 있다.

구문에 나온 u(n)는 통상 프로그래밍 언어에서 부호가 없는(unsigned) 'n' 비트 수를 의미하며, 'v'로 표시된 부분은 변화 가능한 비트수(표준에서는 varies로 읽힘)를 의미한다.

center_yaw 구문은 전역 좌표축을 기준으로 뷰포트 방향을 지정하며 뷰포트의 중심을 나타낸다. 범위는 -180 * 2^16 ~ 180 * 2^16 - 1 내에 있어야 한다.

center_pitch 구문은 전역 좌표축을 기준으로 뷰포트 방향을 지정하며 뷰포트의 중심을 나타낸다. 범위는 -90 * 2^16 ~ 90 * 2^16 - 1 내에 있어야 한다.

center_roll 구문은 전역 좌표축을 기준으로 뷰포트 방향을 지정하며 뷰포트의 roll좌표를 나타낸다. 범위는 -180 * 2^16 ~ 180 * 2^16 - 1 내에 있어야 한다.

hor_range 구문은 구 영역에서 수평 범위를 나타낸다. 구체 영역의 중심점을 통해 범위를 지정하며 0 ~ 720*2^16 내에 있어야 한다.

ver_range 구문은 구 영역에서 수직 범위를 나타낸다. 구체 영역의 중심점을 통해 범위를 지정하며 0 ~ 180*2^16 내에 있어야 한다.

Interpolate 구문은 선형 보간의 적용 여부를 나타낸다. 값이 1일 경우 선형 보간이 적용 됨을 나타낸다.

tile_ratio_list[] 구문은 뷰포트 내에 모든 타일에 대한 관심영역 비율 정보를 전달한다.

tile_id_list_trans[] 구문은 뷰포트 내에 전송되는 타일 번호 리스트를 전달한다.

전술한 정의된 구문과 의미론에 관한 정보들은 MPEG DASH와 같은 HTTP 기반의 영상 통신에서 각각 XML 형태로 표현될 수도 있다.

도 26은 XML 형태로 표현된 예시적인 타일 정보 구문을 도시한다.

도 26을 참조하면, 도면에는 XML 형태로 Yaw 좌표(center_yaw= "134"), Pitch 좌표(center_pitch = "85"), Roll 좌표(center_roll = "247"), 선형 보간 여부(interpolate = "0"), 뷰포트 내에 모든 타일에 대한 뷰포트 포함 비율 정보(tile_ratio_list = "73, 18, 7, 2"), 뷰포트 내에 전송되는 타일 번호 리스트 정보(tile_id_list_trans= "13, 18")를 표현한 타일 정보 구문의 예를 표현하였다.

본 명세서에 제시한 가상 현실 비디오 스트리밍 방법들은 스케일러블 비디오와 뷰포트 및 거리정보를 통한 차별적 전송 기법에 대해서 이야기하고 있지만, 슬라이스(Slice), FMO(Flexible Macro Block) 등의 화면 분할을 지원하는 다른 비디오 병렬처리 기법들에도 적용 가능하다. 또한 비트 스트림을 분할하여 전송하는 스트리밍 서비스인 MPEG DASH, 마이크로소프트 사의 Smooth Streaming, 애플 사의 HLS (HTTP Live Streaming)에도 적용 가능하다.

본 명세서에 개시된 기술은 움직임이 제한적인 타일 집합(Motion Constrained Tile Sets; MCTS)에 적용하여 설명하고 있지만, 슬라이스(Slice), FMO(Flexible Macro Block) 등의 화면 분할을 지원하는 다른 비디오 병렬처리 기법들에도 적용이 가능하다.

본 명세서에 개시된 실시예들에 따른 가상 현실 시스템은 컴퓨터로 읽을 수 있는 기록 매체에서 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의해 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장장치 등이 있다. 또한, 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고, 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 명세서의 기술이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있다.

이상에서 본 명세서의 기술에 대한 바람직한 실시 예가 첨부된 도면들을 참조하여 설명되었다. 여기서, 본 명세서 및 청구 범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니되며, 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야 한다.

본 발명의 범위는 본 명세서에 개시된 실시 예들로 한정되지 아니하고, 본 발명은 본 발명의 사상 및 특허청구범위에 기재된 범주 내에서 다양한 형태로 수정, 변경, 또는 개선될 수 있다.

Claims

프로세서를 포함한 영상 전송 장치에서 수행되는 방법으로서,

가상 현실 공간에 대한 기본 화질 비디오 데이터 및 고화질 비디오 데이터를 포함하는 비디오 데이터를 생성하는 동작;

상기 가상 현실 공간 내에서 사용자가 바라보고 있는 현재 뷰포트에 대한 정보 및 상기 사용자가 바라볼 것으로 예상되는 예측 뷰포트에 대한 정보에 적어도 일부 기초하여 시그널링 데이터를 생성하는 동작; 및

상기 비디오 데이터 및 상기 시그널링 데이터를 포함하는 비트스트림을 전송하는 동작을 포함하되,

상기 현재 뷰포트와 상기 예측 뷰포트에 대응되는 영역에 대해서 상기 고화질 비디오 데이터를 전송하는 영상 전송 장치의 영상 전송 방법.
제1 항에 있어서,

상기 고화질 비디오 데이터는 적어도 하나의 타일로 분할되고,

상기 시그널링 데이터는 상기 현재 뷰포트 및 상기 예측 뷰포트에 포함되는 상기 적어도 하나의 타일을 식별하는 타일 정보를 포함하는 영상 전송 장치의 영상 전송 방법.
제2 항에 있어서,

상기 현재 뷰포트와 상기 예측 뷰포트에 대응되는 영역에 대해서 상기 고화질 비디오 데이터를 전송하는 동작은,

상기 비디오 데이터를 전송하는 통신 회선의 대역폭이 상기 고화질 비디오 데이터를 모두 전송하기에 충분한지의 여부를 판단하는 동작; 및

상기 대역폭이 충분하지 않은 것으로 판단되는 경우, 우선순위가 높은 타일부터 낮은 타일의 순서로 상기 대역폭의 허용 범위 내에서 상기 적어도 하나의 타일의 적어도 일부에 대한 상기 고화질 비디오 데이터를 전송하는 동작을 포함하는 영상 전송 장치의 영상 전송 방법.
제3 항에 있어서,

상기 우선순위는 상기 사용자로부터 상기 타일 내의 대상(object)까지의 거리에 따라 결정하되,

상기 대상이 상기 사용자에게 가까울수록 상기 대상이 포함된 타일에 높은 우선 순위를 부여하는 영상 전송 장치의 영상 전송 방법.
제3 항에 있어서,

상기 우선순위는 상기 뷰포트들에 포함된 타일들의 면적 비율에 따라 결정하되,

상기 면적 비율이 클수록 높은 우선 순위를 부여하는 영상 전송 장치의 영상 전송 방법.
제2 항에 있어서,

상기 현재 뷰포트와 상기 예측 뷰포트에 대응되는 영역에 대해서 상기 고화질 비디오 데이터를 전송하는 동작은,

상기 뷰포트에 포함된 타일들 중에서 상기 뷰포트에 포함된 면적 비율이 특정 값과 같거나 상기 특정 값 보다 큰 타일에 대해서 상기 고화질 비디오 데이터를 전송하는 동작을 포함하는 영상 전송 장치의 영상 전송 방법.
제1 항에 있어서,

상기 시그널링 데이터는 영상 구성 정보를 기초로 생성되고,

상기 영상 구성 정보는 상기 가상 현실 공간 내에서 상기 사용자의 뷰포트를 지시하는 시선 정보 및 상기 사용자의 시야각을 지시하는 줌 영역 정보를 포함하는 영상 전송 장치의 영상 전송 방법.
제1 항에 있어서,

상기 시그널링 데이터는 세션 정보를 실어 나르는 고수준 구문 프로토콜(High-Level Syntax Protocol), SEI (Supplement Enhancement Information), VUI (video usability information), 슬라이스 헤더(Slice Header), 및 상기 비디오 데이터를 서술하는 파일 중에서 적어도 하나를 통하여 전송되는 영상 전송 장치의 영상 전송 방법.
제1 항에 있어서,

상기 예측 뷰포트는 상기 현재 뷰포트에 대한 정보 및 가상 현실 콘텐츠의 내용에 적어도 일부 기초하여 결정되는 영상 전송 장치의 영상 전송 방법.
제1 항에 있어서,

상기 기본 화질 비디오 데이터는 기본 계층 비디오 데이터를 포함하고,

상기 고화질 비디오 데이터는 기본 계층 비디오 데이터와 향상 계층 비디오 데이터를 포함하는 영상 전송 장치의 영상 전송 방법.
프로세서를 포함한 영상 수신 장치에서 수행되는 방법으로서,

가상 현실 공간에 대한 비디오 데이터 및 시그널링 데이터를 포함하는 비트스트림을 수신하는 동작;

상기 비디오 데이터를 기초로 기본 화질 비디오 데이터를 디코딩하는 동작; 및

상기 비디오 데이터 및 상기 시그널링 데이터를 기초로 고화질 비디오 데이터를 디코딩하는 동작을 포함하되,

상기 시그널링 데이터는 상기 가상 현실 공간 내에서 사용자가 바라보고 있는 영역에 대한 현재 뷰포트 및 상기 가상 현실 공간 내에서 상기 사용자가 바라볼 것으로 예상되는 예측 뷰포트에 대한 정보를 적어도 일부 포함하고,

상기 고화질 비디오 데이터는 상기 현재 뷰포트 및 상기 예측 뷰포트에 대응되는 비디오 데이터를 포함하는 영상 수신 장치의 영상 수신 방법.
제11 항에 있어서,

상기 고화질 비디오 데이터는 적어도 하나의 타일로 분할되고,

상기 시그널링 데이터는 상기 현재 뷰포트 및 상기 예측 뷰포트에 포함되는 상기 적어도 하나의 타일을 식별하는 타일 정보를 포함하는 영상 수신 장치의 영상 수신 방법.
제12 항에 있어서,

상기 기본 화질 비디오 데이터는 기본 계층 비디오 데이터를 포함하고,

상기 고화질 비디오 데이터는 기본 계층 비디오 데이터 및 향상 계층 비디오 데이터를 포함하고,

상기 비디오 데이터 및 상기 시그널링 데이터를 기초로 고화질 비디오 데이터를 디코딩하는 동작은,

상기 뷰포트에 포함된 타일들 중 상기 고화질 비디오 데이터가 수신되지 않는 타일에 대해서 업샘플링된 기본 계층 비디오 데이터를 생성하는 동작; 및

상기 기본 계층 비디오 데이터, 상기 향상 계층 비디오 데이터 또는 및 상기 업샘플링된 기본 계층 비디오 데이터에 적어도 일부 기초하여, 상기 사용자에게 출력할 영상을 디코딩하는 동작을 포함하는 영상 수신 장치의 영상 수신 방법.
제12 항에 있어서,

상기 시그널링 데이터는 영상 구성 정보를 기초로 생성되고,

상기 영상 구성 정보는 상기 가상 현실 공간 내에서 상기 사용자의 뷰포트를 지시하는 시선 정보 및 상기 사용자의 시야각을 지시하는 줌 영역 정보를 포함하는 영상 수신 장치의 영상 수신 방법.
제11 항에 있어서,

상기 시그널링 데이터는 세션 정보를 실어 나르는 고수준 구문 프로토콜(High-Level Syntax Protocol), SEI (Supplement Enhancement Information), VUI (video usability information), 슬라이스 헤더(Slice Header), 및 상기 비디오 데이터를 서술하는 파일 중에서 적어도 하나를 통하여 전송되는 영상 수신 장치의 영상 수신 방법.
가상 현실 공간에 대한 기본 화질 비디오 데이터 및 고화질 비디오 데이터를 포함하는 비디오 데이터를 생성하는 인코더;

상기 가상 현실 공간 내에서 사용자가 바라보고 있는 현재 뷰포트에 대한 정보 및 상기 사용자가 바라볼 것으로 예상되는 예측 뷰포트에 대한 정보에 적어도 일부 기초하여 시그널링 데이터를 생성하는 시그널링부;

상기 비디오 데이터 및 상기 시그널링 데이터를 포함하는 비트스트림을 생성하는 다중화기; 및

상기 비트스트림을 전송하는 통신부를 포함하되,

상기 비디오 데이터는 상기 가상 현실 공간 전체 영역에 대한 기본 화질 비디오 데이터 및 상기 현재 뷰포트와 상기 예측 뷰포트에 대응되는 영역에 대한 고화질 비디오 데이터를 포함하는 영상 전송 장치.
제16 항에 있어서,

상기 고화질 비디오 데이터는 적어도 하나의 타일로 분할되고,

상기 시그널링 데이터는 상기 현재 뷰포트 및 상기 예측 뷰포트에 포함되는 상기 적어도 하나의 타일을 식별하는 타일 정보를 포함하는 영상 전송 장치.
제17 항에 있어서,

상기 비디오 데이터를 전송하는 통신 회선의 대역폭의 상태를 판단하는 제어부를 더 포함하고,

상기 제어부는 상기 대역폭이 상기 고화질 비디오 데이터를 모두 전송하기에 충분하지 않은 것으로 판단되는 경우, 우선순위가 높은 타일부터 낮은 타일의 순서로 상기 대역폭의 허용 범위 내에서 상기 적어도 하나의 타일의 적어도 일부에 대한 상기 고화질 비디오 데이터를 전송하는 영상 전송 장치.
제18 항에 있어서,

상기 제어부는,

상기 타일 내의 대상(object)이 상기 사용자에게 가까울수록 상기 대상이 포함된 타일에 높은 우선 순위를 부여하는 영상 전송 장치.
제18 항에 있어서,

상기 제어부는,

상기 뷰포트에 포함된 타일의 면적 비율이 클수록 높은 우선 순위를 부여하는 영상 전송 장치.
제16 항에 있어서,

상기 기본 화질 비디오 데이터는 기본 계층 비디오 데이터를 포함하고,

상기 고화질 비디오 데이터는 기본 계층 비디오 데이터와 향상 계층 비디오 데이터를 포함하는 영상 전송 장치.
프로세서를 포함한 영상 전송 장치에서 수행되는 방법으로서,

가상 현실 공간에 대한 적어도 2개 이상의 화질에 관련된 비디오 데이터를 생성하는 동작;

상기 가상 현실 공간 내에서 사용자의 현재 관심 영역 또는 예측 관심 영역을 포함하는 관심 영역에 대한 정보에 적어도 일부 기초하여 시그널링 정보를 생성하는 동작; 및

상기 비디오 데이터 및 상기 시그널링 정보를 포함하는 비디오 스트림 정보를 전송하는 동작을 포함하고,

상기 비디오 데이터는 관심 영역에 관련된 비디오 데이터와 비 관심 영역에 관련된 비디오 데이터를 포함하고,

관심영역에 관련된 비디오 데이터의 화질과 비 관심 영역에 관련된 비디오 데이터의 화질은 서로 다른 영상 전송 장치의 영상 전송 방법.