KR20200017534A

KR20200017534A - 미디어 데이터를 송수신하는 방법 및 그 장치

Info

Publication number: KR20200017534A
Application number: KR1020207002849A
Authority: KR
Inventors: 황수진; 오현묵; 오세진
Original assignee: 엘지전자 주식회사
Priority date: 2017-11-08
Filing date: 2018-11-06
Publication date: 2020-02-18
Also published as: US20200234499A1; WO2019093734A1

Abstract

본 발명에 따른 미디어(media) 처리 장치에 의하여 수행되는 미디어 데이터 처리 방법은, 미디어 재생 장치로부터 상기 미디어 재생 장치의 재생 환경 정보(information on reproduction environment)를 수신하는 단계, 상기 재생 환경 정보를 기반으로 미디어 비트스트림을 처리(process)하여 미디어 신호를 생성하는 단계, 상기 생성된 미디어 신호의 특징 정보(characteristic information)를 추출(extract)하는 단계 및 상기 생성된 미디어 신호 및 상기 추출된 특징 정보를 상기 미디어 재생 장치로 전송하는 단계를 포함하되, 상기 재생 환경 정보는 VR(Virtual Reality) 재생 환경 정보 및 AR(Augmented Reality) 재생 환경 정보 중 적어도 하나를 포함하는 것을 특징으로 한다.

Description

미디어 데이터를 송수신하는 방법 및 그 장치

본 발명은 미디어 데이터에 관한 것으로, 보다 상세하게는 3차원 미디어 데이터를 송수신하는 방법 및 장치에 관한 것이다.

VR(Virtual Reality) 시스템은 사용자에게 전자적으로 투영된 환경 내에 있는 것 같은 감각을 제공한다. AR(Augmented Reality, AR) 시스템은 현실의 이미지나 배경에 3차원 가상 이미지를 중첩하여, 사용자에게 가상과 현실이 혼합된 환경 내에 있는 것 같은 감각을 제공한다. VR 또는 AR을 제공하기 위한 시스템은 더 고화질의 이미지들과, 공간적인 음향을 제공하기 위하여 더 개선될 수 있다. VR 또는 AR 시스템은 사용자가 인터랙티브하게 VR 또는 AR 컨텐츠들을 소비할 수 있도록 할 수 있다.

VR 또는 AR 컨텐츠에 대한 수요가 점점 증가하고 있는 상황에서, VR 또는 AR 컨텐츠의 재생을 위한 미디어 신호를 생성하는 장치와, VR 또는 AR 컨텐츠를 재생하는 장치 간에 미디어 데이터를 효율적으로 송수신할 수 있는 방법을 고안할 필요성 또한 증가하고 있다.

본 발명의 기술적 과제는 미디어 데이터를 송수신하는 방법 및 장치를 제공함에 있다.

본 발명의 다른 기술적 과제는 미디어 재생 장치와 미디어 데이터를 송수신하면서 미디어 신호를 생성하는 미디어 처리 장치 및 그 동작 방법을 제공함에 있다.

본 발명의 다른 기술적 과제는 미디어 처리 장치와 미디어 데이터를 송수신하면서 미디어 신호를 재생하는 미디어 재생 장치 및 그 동작 방법을 제공함에 있다.

본 발명의 다른 기술적 과제는 3차원 미디어 데이터를 송수신하는 방법 및 장치를 제공함에 있다.

본 발명의 다른 기술적 과제는 미디어 재생 장치와 VR 또는 AR 미디어 데이터를 송수신하면서 VR 또는 AR 미디어 신호를 생성하는 미디어 처리 장치 및 그 동작 방법을 제공함에 있다.

본 발명의 다른 기술적 과제는 미디어 처리 장치와 VR 또는 AR 미디어 데이터를 송수신하면서 VR 또는 AR 미디어 신호를 재생하는 미디어 재생 장치 및 그 동작 방법을 제공함에 있다.

본 발명의 일 실시예에 따르면, 미디어(media) 처리 장치에 의하여 수행되는 미디어 데이터 처리 방법이 제공된다. 상기 방법은 미디어 재생 장치로부터 상기 미디어 재생 장치의 재생 환경 정보(information on reproduction environment)를 수신하는 단계, 상기 재생 환경 정보를 기반으로 미디어 비트스트림을 처리(process)하여 미디어 신호를 생성하는 단계, 상기 생성된 미디어 신호의 특징 정보(characteristic information)를 추출(extract)하는 단계 및 상기 생성된 미디어 신호 및 상기 추출된 특징 정보를 상기 미디어 재생 장치로 전송하는 단계를 포함하되, 상기 재생 환경 정보는 VR(Virtual Reality) 재생 환경 정보 및 AR(Augmented Reality) 재생 환경 정보 중 적어도 하나를 포함하는 것을 특징으로 한다.

본 발명의 다른 일 실시예에 따르면, 미디어 재생 장치에 의하여 수행되는 미디어 데이터 재생 방법이 제공된다. 상기 방법은 상기 미디어 재생 장치의 재생 환경 정보를 수집하는 단계, 상기 수집된 재생 환경 정보를 미디어 처리 장치로 전송하는 단계, 상기 재생 환경 정보를 기반으로 상기 미디어 처리 장치가 미디어 비트스트림을 처리하여 생성된 미디어 신호 및 상기 생성된 미디어 신호에서 추출된 특징 정보를 상기 미디어 처리 장치로부터 수신하는 단계 및 상기 추출된 특징 정보를 기반으로, 상기 수신된 미디어 신호를 재생하는 단계를 포함하되, 상기 재생 환경 정보는 VR(Virtual Reality) 재생 환경 정보 및 AR(Augmented Reality) 재생 환경 정보 중 적어도 하나를 포함하는 것을 특징으로 한다.

본 발명의 또 다른 일 실시예에 따르면, 미디어 데이터를 처리하는 미디어 데이터 처리 장치가 제공된다. 상기 오디오 처리 장치는 미디어 재생 장치로부터 상기 미디어 재생 장치의 재생 환경 정보를 수신하는 수신부, 상기 재생 환경 정보를 기반으로 미디어 비트스트림을 처리하여 미디어 신호를 생성하는 미디어 신호 처리부, 상기 생성된 미디어 신호의 특징 정보를 추출하는 메타데이터 처리부 및 상기 생성된 미디어 신호 및 상기 추출된 특징 정보를 상기 미디어 재생 장치로 전송하는 전송부를 포함하되, 상기 재생 환경 정보는 VR 재생 환경 정보 및 AR 재생 환경 정보 중 적어도 하나를 포함하는 것을 특징으로 한다.

본 발명의 또 다른 일 실시예에 따르면, 미디어 데이터를 재생하는 미디어 재생 장치가 제공된다. 상기 미디어 재생 장치는 상기 미디어 재생 장치의 재생 환경 정보를 수집하는 메타데이터 처리부, 상기 수집된 재생 환경 정보를 미디어 처리 장치로 전송하는 전송부, 상기 재생 환경 정보를 기반으로 상기 미디어 처리 장치가 미디어 비트스트림을 처리하여 생성된 미디어 신호 및 상기 생성된 미디어 신호에서 추출된 특징 정보를 상기 미디어 처리 장치로부터 수신하는 수신부 및 상기 추출된 특징 정보를 기반으로, 상기 수신된 미디어 신호를 재생하는 재생부를 포함하되, 상기 재생 환경 정보는 VR(Virtual Reality) 재생 환경 정보 및 AR(Augmented Reality) 재생 환경 정보 중 적어도 하나를 포함하는 것을 특징으로 한다.

본 발명에 따르면 미디어 처리 장치와 미디어 재생 장치가 3차원 미디어 데이터를 효율적으로 송수신할 수 있는 방안을 제공할 수 있다.

본 발명에 따르면 미디어 처리 장치와 미디어 재생 장치가 VR 또는 AR 미디어 데이터를 효율적으로 송수신할 수 있는 방안을 제공할 수 있다.

본 발명에 따르면 미디어 처리 장치가 미디어 재생 장치로부터 수신한 미디어 재생 장치의 재생 환경 정보를 기반으로 미디어 재생 장치에서의 보다 효율적인 재생을 위한 VR 또는 AR 미디어 신호를 생성하는 방안을 제공할 수 있다.

본 발명에 따르면 오디오 재생 장치가 미디어 처리 장치로부터 수신한, VR 또는 AR 미디어 비트스트림을 처리하여 VR 또는 AR 미디어 신호를 생성하는 과정에서 획득된 VR 또는 AR 미디어 신호의 특징 정보를 기반으로, VR 또는 AR 미디어 신호를 효율적으로 재생하는 방안을 제공할 수 있다.

도 1은 일 실시예에 따른 360 컨텐츠 제공을 위한 전체 아키텍처를 도시한 도면이다.
도 2 및 도 3은 일 실시예에 따른 미디어 파일의 구조를 도시한 도면이다.
도 4는 DASH 기반 적응형 스트리밍 모델의 전반적인 동작의 일 예를 나타낸다.
도 5는 일 실시예에 따른 3D 공간을 설명하기 위한 비행기 주축(Aircraft Principal Axes) 개념을 도시한 도면이다.
도 6은 360 비디오의 처리 과정 및 프로젝션 포멧에 따른 리전별 패킹 과정이 적용된 2D 이미지를 예시적으로 나타낸다.
도 7a 내지 7b는 일 실시예에 따른 프로젝션 포멧들을 예시적으로 나타낸다.
도 8a 및 8b는 일 실시예에 따른 타일(Tile)을 도시한 도면이다.
도 9는 일 실시예에 따른 미디어 처리 장치의 구성을 도시하는 블록도이다.
도 10은 일 실시예에 따른 미디어 재생 장치의 구성을 도시하는 블록도이다.
도 11은 일 실시예에 따른 미디어 처리 장치 및 미디어 재생 장치의 구성을 도시하는 블록도이다.
도 12는 일 실시예에 따른 미디어 재생 장치가 미디어 처리 장치로 EDID 정보를 전송하는 과정을 도시하는 흐름도이다.
도 13은 일 실시예에 따른 미디어 처리 장치가 미디어 데이터를 처리하는 과정을 도시하는 흐름도이다.
도 14는 일 실시예에 따른 미디어 재생 장치가 미디어 데이터를 재생하는 과정을 도시하는 흐름도이다.
도 15는 일 실시예에 따른 미디어 처리 장치 및 미디어 재생 장치가 미디어 데이터를 송수신하는 과정을 도시하는 흐름도이다.

발명의 실시를 위한 최선의 형태

발명의 실시를 위한 형태

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정 실시예에 한정하려고 하는 것이 아니다. 본 명세서에서 상용하는 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명의 기술적 사상을 한정하려는 의도로 사용되는 것은 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서 "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성 요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성 요소, 부품 도는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

한편, 본 발명에서 설명되는 도면상의 각 구성들은 서로 다른 특징적인 기능들에 관한 설명의 편의를 위해 독립적으로 도시된 것으로서, 각 구성들이 서로 별개의 하드웨어나 별개의 소프트웨어로 구현된다는 것을 의미하지는 않는다. 예컨대, 각 구성 중 두 개 이상의 구성이 합쳐져 하나의 구성을 이룰 수도 있고, 하나의 구성이 복수의 구성으로 나뉘어질 수도 있다. 각 구성이 통합 및/또는 분리된 실시예도 본 발명의 본질에서 벗어나지 않는 한 본 발명의 권리범위에 포함된다.

이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 이하, 도면상의 동일한 구성 요소에 대해서는 동일한 참조 부호를 사용하고 동일한 구성 요소에 대해서 중복된 설명은 생략한다.

도 1은 일 실시예에 따른 360 컨텐츠 제공을 위한 전체 아키텍처를 도시한 도면이다.

사용자에게 가상현실 (Virtual Reality, VR)을 제공하기 위하여, 360 컨텐츠를 제공하는 방안이 고려될 수 있다. 여기서, 상기 360도 컨텐츠는 3DoF(three Degrees of Freedom) 컨텐츠라고 나타낼 수도 있으며, VR이란 실제 또는 가상의 환경을 복제(replicates) 하기 위한 기술 내지는 그 환경을 의미할 수 있다. VR은 인공적으로 사용자에게 감각적 경험을 제공하며, 이를 통해 사용자는 전자적으로 프로젝션된 환경에 있는 것과 같은 경험을 할 수 있다.

360 컨텐츠는 VR을 구현, 제공하기 위한 컨텐츠 전반을 의미하며, 360도 비디오 및/또는 360 오디오를 포함할 수 있다. 360도 비디오 및/또는 360 오디오는 3차원 비디오 및/또는 3차원 오디오로 지칭될 수도 있다. 360도 비디오는 VR을 제공하기 위해 필요한, 동시에 모든 방향(360도)으로 캡처되거나 재생되는 비디오 혹은 이미지 컨텐츠를 의미할 수 있다. 이하, 360도 비디오라 함은 360도 비디오를 의미할 수 있다. 360도 비디오는 3D 모델에 따라 다양한 형태의 3D 공간 상에 나타내어지는 비디오 혹은 이미지를 의미할 수 있으며, 예를 들어 360도 비디오는 구형면(Spherical surface) 상에 나타내어질 수 있다. 360 오디오 역시 VR을 제공하기 위한 오디오 컨텐츠로서, 음향 발생지가 3차원의 특정 공간상에 위치하는 것으로 인지될 수 있는, 공간적(Spatial) 오디오 컨텐츠를 의미할 수 있다. 360 오디오는 3차원 오디오로도 지칭될 수 있다. 360 컨텐츠는 생성, 처리되어 사용자들로 전송될 수 있으며, 사용자들은 360 컨텐츠를 이용하여 VR 경험을 소비할 수 있다.

360도 비디오를 제공하기 위하여, 먼저 하나 이상의 카메라를 통해 360도 비디오가 캡처될 수 있다. 캡처된 360도 비디오는 일련의 과정을 거쳐 전송되고, 수신측에서는 수신된 데이터를 다시 원래의 360도 비디오로 가공하여 렌더링할 수 있다. 이를 통해 360도 비디오가 사용자에게 제공될 수 있다.

구체적으로 360도 비디오 제공을 위한 전체의 과정은 캡처 과정(process), 준비 과정, 전송 과정, 프로세싱 과정, 렌더링 과정 및/또는 피드백 과정을 포함할 수 있다.

캡처 과정은 하나 이상의 카메라를 통하여 복수개의 시점 각각에 대한 이미지 또는 비디오를 캡처하는 과정을 의미할 수 있다. 캡처 과정에 의해 도시된 도 1의 (110)과 같은 이미지/비디오 데이터가 생성될 수 있다. 도시된 도 1의 (110)의 각 평면은 각 시점에 대한 이미지/비디오를 의미할 수 있다. 이 캡처된 복수개의 이미지/비디오를 로(raw) 데이터라 할 수도 있다. 캡처 과정에서 캡처와 관련된 메타데이터가 생성될 수 있다.

이 캡처를 위하여 VR 을 위한 특수한 카메라가 사용될 수 있다. 실시예에 따라 컴퓨터로 생성된 가상의 공간에 대한 360도 비디오를 제공하고자 하는 경우, 실제 카메라를 통한 캡처가 수행되지 않을 수 있다. 이 경우 단순히 관련 데이터가 생성되는 과정으로 해당 캡처 과정이 갈음될 수 있다.

준비 과정은 캡처된 이미지/비디오 및 캡처 과정에서 발생한 메타데이터를 처리하는 과정일 수 있다. 캡처된 이미지/비디오는 이 준비 과정에서, 스티칭 과정, 프로젝션 과정, 리전별 패킹 과정(Region-wise Packing) 및/또는 인코딩 과정 등을 거칠 수 있다.

먼저 각각의 이미지/비디오가 스티칭(Stitching) 과정을 거칠 수 있다. 스티칭 과정은 각각의 캡처된 이미지/비디오들을 연결하여 하나의 파노라마 이미지/비디오 또는 구형의 이미지/비디오를 만드는 과정일 수 있다.

이 후, 스티칭된 이미지/비디오는 프로젝션(Projection) 과정을 거칠 수 있다. 프로젝션 과정에서, 스티칭된 이미지/비디오는 2D 이미지 상에 프로젝션될 수 있다. 이 2D 이미지는 문맥에 따라 2D 이미지 프레임으로 불릴 수도 있다. 2D 이미지로 프로젝션하는 것을 2D 이미지로 맵핑한다고 표현할 수도 있다. 프로젝션된 이미지/비디오 데이터는 도시된 도 1의 (120)과 같은 2D 이미지의 형태가 될 수 있다.

2D 이미지 상에 프로젝션된 비디오 데이터는 비디오 코딩 효율 등을 높이기 위하여 리전별 패킹 과정(Region-wise Packing)을 거칠 수 있다. 리전별 패킹이란, 2D 이미지 상에 프로젝션된 비디오 데이터를 리전(Region) 별로 나누어 처리를 가하는 과정을 의미할 수 있다. 여기서 리전(Region)이란, 360도 비디오 데이터가 프로젝션된 2D 이미지가 나누어진 영역을 의미할 수 있다. 이 리전들은, 실시예에 따라, 2D 이미지를 균등하게 나누어 구분되거나, 임의로 나누어져 구분될 수 있다. 또한 실시예에 따라 리전들은, 프로젝션 스킴에 따라 구분될 수도 있다. 리전별 패킹 과정은 선택적(optional) 과정으로써, 준비 과정에서 생략될 수 있다.

실시예에 따라 이 처리 과정은, 비디오 코딩 효율을 높이기 위해, 각 리전을 회전한다거나 2D 이미지 상에서 재배열하는 과정을 포함할 수 있다. 예를 들어, 리전들을 회전하여 리전들의 특정 변들이 서로 근접하여 위치되도록 함으로써, 코딩 시의 효율이 높아지게 할 수 있다.

실시예에 따라 이 처리 과정은, 360도 비디오상의 영역별로 레졸루션(resolution) 을 차등화하기 위하여, 특정 리전에 대한 레졸루션을 높인다거나, 낮추는 과정을 포함할 수 있다. 예를 들어, 360도 비디오 상에서 상대적으로 더 중요한 영역에 해당하는 리전들은, 다른 리전들보다 레졸루션을 높게할 수 있다. 2D 이미지 상에 프로젝션된 비디오 데이터 또는 리전별 패킹된 비디오 데이터는 비디오 코덱을 통한 인코딩 과정을 거칠 수 있다.

실시예에 따라 준비 과정은 부가적으로 에디팅(editing) 과정 등을 더 포함할 수 있다. 이 에디팅 과정에서 프로젝션 전후의 이미지/비디오 데이터들에 대한 편집 등이 더 수행될 수 있다. 준비 과정에서도 마찬가지로, 스티칭/프로젝션/인코딩/에디팅 등에 대한 메타데이터가 생성될 수 있다. 또한 2D 이미지 상에 프로젝션된 비디오 데이터들의 초기 시점, 혹은 ROI (Region of Interest) 등에 관한 메타데이터가 생성될 수 있다.

전송 과정은 준비 과정을 거친 이미지/비디오 데이터 및 메타데이터들을 처리하여 전송하는 과정일 수 있다. 전송을 위해 임의의 전송 프로토콜에 따른 처리가 수행될 수 있다. 전송을 위한 처리를 마친 데이터들은 방송망 및/또는 브로드밴드를 통해 전달될 수 있다. 이 데이터들은 온 디맨드(On Demand) 방식으로 수신측으로 전달될 수도 있다. 수신측에서는 다양한 경로를 통해 해당 데이터를 수신할 수 있다.

프로세싱 과정은 수신한 데이터를 디코딩하고, 프로젝션되어 있는 이미지/비디오 데이터를 3D 모델 상에 리-프로젝션(Re-projection) 하는 과정을 의미할 수 있다. 이 과정에서 2D 이미지들 상에 프로젝션되어 있는 이미지/비디오 데이터가 3D 공간 상으로 리-프로젝션될 수 있다. 이 과정을 문맥에 따라 맵핑, 프로젝션이라고 부를 수도 있다. 이 때 맵핑되는 3D 공간은 3D 모델에 따라 다른 형태를 가질 수 있다. 예를 들어 3D 모델에는 구형(Sphere), 큐브(Cube), 실린더(Cylinder) 또는 피라미드(Pyramid) 가 있을 수 있다.

실시예에 따라 프로세싱 과정은 부가적으로 에디팅(editing) 과정, 업 스케일링(up scaling) 과정 등을 더 포함할 수 있다. 이 에디팅 과정에서 리-프로젝션 전후의 이미지/비디오 데이터에 대한 편집 등이 더 수행될 수 있다. 이미지/비디오 데이터가 축소되어 있는 경우 업 스케일링 과정에서 샘플들의 업 스케일링을 통해 그 크기를 확대할 수 있다. 필요한 경우, 다운 스케일링을 통해 사이즈를 축소하는 작업이 수행될 수도 있다.

렌더링 과정은 3D 공간상에 리-프로젝션된 이미지/비디오 데이터를 렌더링하고 디스플레이하는 과정을 의미할 수 있다. 표현에 따라 리-프로젝션과 렌더링을 합쳐 3D 모델 상에 렌더링한다 라고 표현할 수도 있다. 3D 모델 상에 리-프로젝션된 (또는 3D 모델 상으로 렌더링된) 이미지/비디오는 도시된 도 1의 (130)과 같은 형태를 가질 수 있다. 도시된 도 1의 (130)은 구형(Sphere) 의 3D 모델에 리-프로젝션된 경우이다. 사용자는 VR 디스플레이 등을 통하여 렌더링된 이미지/비디오의 일부 영역을 볼 수 있다. 이 때 사용자가 보게되는 영역은 도시된 도 1의 (140)과 같은 형태일 수 있다.

피드백 과정은 디스플레이 과정에서 획득될 수 있는 다양한 피드백 정보들을 송신측으로 전달하는 과정을 의미할 수 있다. 피드백 과정을 통해 360도 비디오 소비에 있어 인터랙티비티(Interactivity) 가 제공될 수 있다. 실시예에 따라, 피드백 과정에서 헤드 오리엔테이션(Head Orientation) 정보, 사용자가 현재 보고 있는 영역을 나타내는 뷰포트(Viewport) 정보 등이 송신측으로 전달될 수 있다. 실시예에 따라, 사용자는 VR 환경 상에 구현된 것들과 상호작용할 수도 있는데, 이 경우 그 상호작용과 관련된 정보가 피드백 과정에서 송신측 내지 서비스 프로바이더 측으로 전달될 수도 있다. 실시예에 따라 피드백 과정은 수행되지 않을 수도 있다.

헤드 오리엔테이션 정보는 사용자의 머리 위치, 각도, 움직임 등에 대한 정보를 의미할 수 있다. 이 정보를 기반으로 사용자가 현재 360도 비디오 내에서 보고 있는 영역에 대한 정보, 즉 뷰포트 정보가 계산될 수 있다.

뷰포트 정보는 현재 사용자가 360도 비디오에서 보고 있는 영역에 대한 정보일 수 있다. 이를 통해 게이즈 분석(Gaze Analysis) 이 수행되어, 사용자가 어떠한 방식으로 360도 비디오를 소비하는지, 360도 비디오의 어느 영역을 얼마나 응시하는지 등을 확인할 수도 있다. 게이즈 분석은 수신측에서 수행되어 송신측으로 피드백 채널을 통해 전달될 수도 있다. VR 디스플레이 등의 장치는 사용자의 머리 위치/방향, 장치가 지원하는 수직(vertical) 혹은 수평(horizontal) FOV(Field Of View) 정보 등에 근거하여 뷰포트 영역을 추출할 수 있다.

실시예에 따라, 전술한 피드백 정보는 송신측으로 전달되는 것 뿐아니라, 수신측에서 소비될 수도 있다. 즉, 전술한 피드백 정보를 이용하여 수신측의 디코딩, 리-프로젝션, 렌더링 과정 등이 수행될 수 있다. 예를 들어, 헤드 오리엔테이션 정보 및/또는 뷰포트 정보를 이용하여 현재 사용자가 보고 있는 영역에 대한 360도 비디오만 우선적으로 디코딩 및 렌더링될 수도 있다.

여기서 뷰포트(viewport) 내지 뷰포트 영역이란, 사용자가 360도 비디오에서 보고 있는 영역을 의미할 수 있다. 시점(viewpoint) 는 사용자가 360도 비디오에서 보고 있는 지점으로서, 뷰포트 영역의 정중앙 지점을 의미할 수 있다. 즉, 뷰포트는 시점을 중심으로 한 영역인데, 그 영역이 차지하는 크기 형태 등은 후술할 FOV(Field Of View) 에 의해 결정될 수 있다.

전술한 360도 비디오 제공을 위한 전체 아키텍처 내에서, 캡처/프로젝션/인코딩/전송/디코딩/리-프로젝션/렌더링의 일련의 과정을 거치게 되는 이미지/비디오 데이터들을 360도 비디오 데이터라 부를 수 있다. 360도 비디오 데이터라는 용어는 또한 이러한 이미지/비디오 데이터들과 관련되는 메타데이터 내지 시그널링 정보를 포함하는 개념으로 쓰일 수도 있다.

상술한 오디오 또는 비디오 등의 미디어 데이터를 저장하고 전송하기 위하여, 정형화된 미디어 파일 포맷이 정의될 수 있다. 실시예에 따라 미디어 파일은 ISO BMFF (ISO base media file format)를 기반으로 한 파일 포맷을 가질 수 있다.

도 2 및 도 3은 일 실시예에 따른 미디어 파일의 구조를 도시한 도면이다.

일 실시예에 따른 미디어 파일은 적어도 하나 이상의 박스를 포함할 수 있다. 여기서 박스(box)는 미디어 데이터 또는 미디어 데이터에 관련된 메타데이터 등을 포함하는 데이터 블록 내지 오브젝트일 수 있다. 박스들은 서로 계층적 구조를 이룰 수 있으며, 이에 따라 데이터들이 분류되어 미디어 파일이 대용량 미디어 데이터의 저장 및/또는 전송에 적합한 형태를 띄게 될 수 있다. 또한 미디어 파일은, 사용자가 미디어 컨텐츠의 특정지점으로 이동하는 등, 미디어 정보에 접근하는데 있어 용이한 구조를 가질 수 있다.

일 실시예에 따른 미디어 파일은 ftyp 박스, moov 박스 및/또는 mdat 박스를 포함할 수 있다.

ftyp 박스(파일 타입 박스)는 해당 미디어 파일에 대한 파일 타입 또는 호환성 관련 정보를 제공할 수 있다. ftyp 박스는 해당 미디어 파일의 미디어 데이터에 대한 구성 버전 정보를 포함할 수 있다. 복호기는 ftyp 박스를 참조하여 해당 미디어 파일을 구분할 수 있다.

moov 박스(무비 박스)는 해당 미디어 파일의 미디어 데이터에 대한 메타 데이터를 포함하는 박스일 수 있다. moov 박스는 모든 메타 데이터들을 위한 컨테이너 역할을 할 수 있다. moov 박스는 메타 데이터 관련 박스들 중 최상위 계층의 박스일 수 있다. 실시예에 따라 moov 박스는 미디어 파일 내에 하나만 존재할 수 있다.

mdat 박스(미디어 데이터 박스) 는 해당 미디어 파일의 실제 미디어 데이터들을 담는 박스일 수 있다. 미디어 데이터들은 오디오 샘플 및/또는 비디오 샘플들을 포함할 수 있는데, mdat 박스는 이러한 미디어 샘플들을 담는 컨테이너 역할을 할 수 있다.

실시예에 따라 전술한 moov 박스는 mvhd 박스, trak 박스 및/또는 mvex 박스 등을 하위 박스로서 더 포함할 수 있다.

mvhd 박스(무비 헤더 박스)는 해당 미디어 파일에 포함되는 미디어 데이터의 미디어 프리젠테이션 관련 정보를 포함할 수 있다. 즉, mvhd 박스는 해당 미디어 프리젠테이션의 미디어 생성시간, 변경시간, 시간규격, 기간 등의 정보를 포함할 수 있다.

trak 박스(트랙 박스)는 해당 미디어 데이터의 트랙에 관련된 정보를 제공할 수 있다. trak 박스는 오디오 트랙 또는 비디오 트랙에 대한 스트림 관련 정보, 프리젠테이션 관련 정보, 액세스 관련 정보 등의 정보를 포함할 수 있다. Trak 박스는 트랙의 개수에 따라 복수개 존재할 수 있다.

trak 박스는 실시예에 따라 tkhd 박스(트랙 헤더 박스)를 하위 박스로서 더 포함할 수 있다. tkhd 박스는 trak 박스가 나타내는 해당 트랙에 대한 정보를 포함할 수 있다. tkhd 박스는 해당 트랙의 생성시간, 변경시간, 트랙 식별자 등의 정보를 포함할 수 있다.

mvex 박스(무비 익스텐드 박스)는 해당 미디어 파일에 후술할 moof 박스가 있을 수 있음을 지시할 수 있다. 특정 트랙의 모든 미디어 샘플들을 알기 위해서, moof 박스들이 스캔되어야할 수 있다.

일 실시예에 따른 미디어 파일은, 실시예에 따라, 복수개의 프래그먼트로 나뉘어질 수 있다(200). 이를 통해 미디어 파일이 분할되어 저장되거나 전송될 수 있다. 미디어 파일의 미디어 데이터들(mdat 박스)은 복수개의 프래그먼트로 나뉘어지고, 각각의 프래그먼트는 moof 박스와 나뉘어진 mdat 박스를 포함할 수 있다. 실시예에 따라 프래그먼트들을 활용하기 위해서는 ftyp 박스 및/또는 moov 박스의 정보가 필요할 수 있다.

moof 박스(무비 프래그먼트 박스)는 해당 프래그먼트의 미디어 데이터에 대한 메타 데이터를 제공할 수 있다. moof 박스는 해당 프래그먼트의 메타데이터 관련 박스들 중 최상위 계층의 박스일 수 있다.

mdat 박스(미디어 데이터 박스)는 전술한 바와 같이 실제 미디어 데이터를 포함할 수 있다. 이 mdat 박스는 각각의 해당 프래그먼트에 해당하는 미디어 데이터들의 미디어 샘플들을 포함할 수 있다.

실시예에 따라 전술한 moof 박스는 mfhd 박스 및/또는 traf 박스 등을 하위 박스로서 더 포함할 수 있다.

mfhd 박스(무비 프래그먼트 헤더 박스)는 분할된 복수개의 프래그먼트들 간의 연관성과 관련한 정보들을 포함할 수 있다. mfhd 박스는 시퀀스 넘버(sequence number) 를 포함하여, 해당 프래그먼트의 미디어 데이터가 분할된 몇 번째 데이터인지를 나타낼 수 있다. 또한, mfhd 박스를 이용하여 분할된 데이터 중 누락된 것은 없는지 여부가 확인될 수 있다.

traf 박스(트랙 프래그먼트 박스)는 해당 트랙 프래그먼트에 대한 정보를 포함할 수 있다. traf 박스는 해당 프래그먼트에 포함되는 분할된 트랙 프래그먼트에 대한 메타데이터를 제공할 수 있다. traf 박스는 해당 트랙 프래그먼트 내의 미디어 샘플들이 복호화/재생될 수 있도록 메타데이터를 제공할 수 있다. traf 박스는 트랙 프래그먼트의 개수에 따라 복수개 존재할 수 있다.

실시예에 따라 전술한 traf 박스는 tfhd 박스 및/또는 trun 박스 등을 하위 박스로서 더 포함할 수 있다.

tfhd 박스(트랙 프래그먼트 헤더 박스)는 해당 트랙 프래그먼트의 헤더 정보를 포함할 수 있다. tfhd 박스는 전술한 traf 박스가 나타내는 트랙 프래그먼트의 미디어 샘플들에 대하여, 기본적인 샘플크기, 기간, 오프셋, 식별자 등의 정보를 제공할 수 있다.

trun 박스(트랙 프래그먼트 런 박스)는 해당 트랙 프래그먼트 관련 정보를 포함할 수 있다. trun 박스는 미디어 샘플별 기간, 크기, 재생시점 등과 같은 정보를 포함할 수 있다.

전술한 미디어 파일 내지 미디어 파일의 프래그먼트들은 세그먼트들로 처리되어 전송될 수 있다. 세그먼트에는 초기화 세그먼트(initialization segment) 및/또는 미디어 세그먼트(media segment) 가 있을 수 있다.

도시된 실시예(210)의 파일은, 미디어 데이터는 제외하고 미디어 디코더의 초기화와 관련된 정보 등을 포함하는 파일일 수 있다. 이 파일은 예를 들어 전술한 초기화 세그먼트에 해당할 수 있다. 초기화 세그먼트는 전술한 ftyp 박스 및/또는 moov 박스를 포함할 수 있다.

도시된 실시예(220)의 파일은, 전술한 프래그먼트를 포함하는 파일일 수 있다. 이 파일은 예를 들어 전술한 미디어 세그먼트에 해당할 수 있다. 미디어 세그먼트는 전술한 moof 박스 및/또는 mdat 박스를 포함할 수 있다. 또한, 미디어 세그먼트는 styp 박스 및/또는 sidx 박스를 더 포함할 수 있다.

styp 박스(세그먼트 타입 박스) 는 분할된 프래그먼트의 미디어 데이터를 식별하기 위한 정보를 제공할 수 있다. styp 박스는 분할된 프래그먼트에 대해, 전술한 ftyp 박스와 같은 역할을 수행할 수 있다. 실시예에 따라 styp 박스는 ftyp 박스와 동일한 포맷을 가질 수 있다.

sidx 박스(세그먼트 인덱스 박스) 는 분할된 프래그먼트에 대한 인덱스를 나타내는 정보를 제공할 수 있다. 이를 통해 해당 분할된 프래그먼트가 몇번째 프래그먼트인지가 지시될 수 있다.

실시예에 따라(230) ssix 박스가 더 포함될 수 있는데, ssix 박스(서브 세그먼트 인덱스 박스)는 세그먼트가 서브 세그먼트로 더 나뉘어지는 경우에 있어, 그 서브 세그먼트의 인덱스를 나타내는 정보를 제공할 수 있다.

미디어 파일 내의 박스들은, 도시된 실시예(250)와 같은 박스 내지 풀 박스(FullBox) 형태를 기반으로, 더 확장된 정보들을 포함할 수 있다. 이 실시예에서 size 필드, largesize 필드는 해당 박스의 길이를 바이트 단위 등으로 나타낼 수 있다. version 필드는 해당 박스 포맷의 버전을 나타낼 수 있다. Type 필드는 해당 박스의 타입 내지 식별자를 나타낼 수 있다. flags 필드는 해당 박스와 관련된 플래그 등을 나타낼 수 있다.

한편, 일 실시예에 따른 360도 비디오에 대한 필드(속성)들은 DASH 기반 적응형(Adaptive) 스트리밍 모델에 포함되어 전달될 수 있다.

도 4는 DASH 기반 적응형 스트리밍 모델의 전반적인 동작의 일 예를 나타낸다. 도시된 실시예(400)에 따른 DASH 기반 적응형 스트리밍 모델은, HTTP 서버와 DASH 클라이언트 간의 동작을 기술하고 있다. 여기서 DASH(Dynamic Adaptive Streaming over HTTP)는, HTTP 기반 적응형 스트리밍을 지원하기 위한 프로토콜로서, 네트워크 상황에 따라 동적으로 스트리밍을 지원할 수 있다. 이에 따라 AV 컨텐츠 재생이 끊김없이 제공될 수 있다.

먼저 DASH 클라이언트는 MPD를 획득할 수 있다. MPD 는 HTTP 서버 등의 서비스 프로바이더로부터 전달될 수 있다. DASH 클라이언트는 MPD 에 기술된 세그먼트에의 접근 정보를 이용하여 서버로 해당 세그먼트들을 요청할 수 있다. 여기서 이 요청은 네트워크 상태를 반영하여 수행될 수 있다.

DASH 클라이언트는 해당 세그먼트를 획득한 후, 이를 미디어 엔진에서 처리하여 화면에 디스플레이할 수 있다. DASH 클라이언트는 재생 시간 및/또는 네트워크 상황 등을 실시간으로 반영하여, 필요한 세그먼트를 요청, 획득할 수 있다(Adaptive Streaming). 이를 통해 컨텐츠가 끊김없이 재생될 수 있다.

MPD (Media Presentation Description) 는 DASH 클라이언트로 하여금 세그먼트를 동적으로 획득할 수 있도록 하기 위한 상세 정보를 포함하는 파일로서 XML 형태로 표현될 수 있다.

DASH 클라이언트 컨트롤러(DASH Client Controller) 는 네트워크 상황을 반영하여 MPD 및/또는 세그먼트를 요청하는 커맨드를 생성할 수 있다. 또한, 이 컨트롤러는 획득된 정보를 미디어 엔진 등등의 내부 블록에서 사용할 수 있도록 제어할 수 있다.

MPD 파서(Parser) 는 획득한 MPD 를 실시간으로 파싱할 수 있다. 이를 통해, DASH 클라이언트 컨트롤러는 필요한 세그먼트를 획득할 수 있는 커맨드를 생성할 수 있게 될 수 있다.

세그먼트 파서(Parser) 는 획득한 세그먼트를 실시간으로 파싱할 수 있다. 세그먼트에 포함된 정보들에 따라 미디어 엔진 등의 내부 블록들은 특정 동작을 수행할 수 있다.

HTTP 클라이언트는 필요한 MPD 및/또는 세그먼트 등을 HTTP 서버에 요청할 수 있다. 또한 HTTP 클라이언트는 서버로부터 획득한 MPD 및/또는 세그먼트들을 MPD 파서 또는 세그먼트 파서로 전달할 수 있다.

미디어 엔진(Media Engine) 은 세그먼트에 포함된 미디어 데이터를 이용하여 컨텐츠를 화면상에 표시할 수 있다. 이 때, MPD 의 정보들이 활용될 수 있다.

DASH 데이터 모델은 계층적 구조(410)를 가질 수 있다. 미디어 프리젠테이션은 MPD에 의해 기술될 수 있다. MPD는 미디어 프리젠테이션를 만드는 복수개의 구간(Period)들의 시간적인 시퀀스를 기술할 수 있다. 피리오드는 미디어 컨텐츠의 한 구간을 나타낼 수 있다.

한 구간에서, 데이터들은 어댑테이션 셋들에 포함될 수 있다. 어댑테이션 셋은 서로 교환될 수 있는 복수개의 미디어 컨텐츠 컴포넌트들의 집합일 수 있다. 어댑테이션은 레프리젠테이션들의 집합을 포함할 수 있다. 레프리젠테이션은 미디어 컨텐츠 컴포넌트에 해당할 수 있다. 한 레프리젠테이션 내에서, 컨텐츠는 복수개의 세그먼트들로 시간적으로 나뉘어질 수 있다. 이는 적절한 접근성과 전달(delivery)를 위함일 수 있다. 각각의 세그먼트에 접근하기 위해서 각 세그먼트의 URL 이 제공될 수 있다.

MPD는 미디어 프리젠테이션에 관련된 정보들을 제공할 수 있고, 피리오드 엘레멘트, 어댑테이션 셋 엘레멘트, 레프리젠테이션 엘레멘트는 각각 해당 피리오드, 어댑테이션 셋, 레프리젠테이션에 대해서 기술할 수 있다. 레프리젠테이션은 서브 레프리젠테이션들로 나뉘어질 수 있는데, 서브 레프리젠테이션 엘레멘트는 해당 서브 레프리젠테이션에 대해서 기술할 수 있다.

여기서 공통(Common) 속성/엘레멘트들이 정의될 수 있는데, 이 들은 어댑테이션 셋, 레프리젠테이션, 서브 레프리젠테이션 등에 적용될 수 (포함될 수) 있다. 공통 속성/엘레멘트 중에는 에센셜 프로퍼티(EssentialProperty) 및/또는 서플멘탈 프로퍼티(SupplementalProperty) 가 있을 수 있다.

에센셜 프로퍼티는 해당 미디어 프리젠테이션 관련 데이터를 처리함에 있어서 필수적이라고 여겨지는 엘레멘트들을 포함하는 정보일 수 있다. 서플멘탈 프로퍼티는 해당 미디어 프리젠테이션 관련 데이터를 처리함에 있어서 사용될 수도 있는 엘레멘트들을 포함하는 정보일 수 있다. 실시예에 따라 후술할 디스크립터들은, MPD 를 통해 전달되는 경우, 에센셜 프로퍼티 및/또는 서플멘탈 프로퍼티 내에 정의되어 전달될 수 있다.

도 5는 일 실시예에 따른 3D 공간을 설명하기 위한 비행기 주축(Aircraft Principal Axes) 개념을 도시한 도면이다.

본 발명에서, 3D 공간에서의 특정 지점, 위치, 방향, 간격, 영역 등을 표현하기 위하여 비행기 주축 개념이 사용될 수 있다. 즉, 본 발명에서 프로젝션 전 또는 리-프로젝션 후의 3D 공간에 대해 기술하고, 그에 대한 시그널링을 수행하기 위하여 비행기 주축 개념이 사용될 수 있다. 실시예에 따라 X, Y, Z 축 개념 또는 구형 좌표계를 이용한 방법이 사용될 수도 있다.

비행기는 3 차원으로 자유롭게 회전할 수 있다. 3차원을 이루는 축을 각각 피치(pitch) 축, 요(yaw) 축 및 롤(roll) 축이라고 한다. 본 명세서에서 이 들을 줄여서 pitch, yaw, roll 내지 pitch 방향, yaw 방향, roll 방향이라고 표현할 수도 있다.

Pitch 축은 비행기의 앞코가 위/아래로 회전하는 방향의 기준이 되는 축을 의미할 수 있다. 도시된 비행기 주축 개념에서 pitch 축은 비행기의 날개에서 날개로 이어지는 축을 의미할 수 있다.

Yaw 축은 비행기의 앞코가 좌/우로 회전하는 방향의 기준이 되는 축을 의미할 수 있다. 도시된 비행기 주축 개념에서 yaw 축은 비행기의 위에서 아래로 이어지는 축을 의미할 수 있다. Roll 축은 도시된 비행기 주축 개념에서 비행기의 앞코에서 꼬리로 이어지는 축으로서, roll 방향의 회전이란 roll 축을 기준으로 한 회전을 의미할 수 있다. 전술한 바와 같이, pitch, yaw, roll 개념을 통해 본 발명에서의 3D 공간이 기술될 수 있다.

한편, 상술한 내용과 같이 2D 이미지 상에 프로젝션된 비디오 데이터는 비디오 코딩 효율 등을 높이기 위하여 리전별 패킹 과정(Region-wise Packing)이 수행될 수 있다. 상기 리전별 패킹 과정은 2D 이미지 상에 프로젝션된 비디오 데이터를 리전(Region) 별로 나누어 처리를 가하는 과정을 의미할 수 있다. 상기 리전(Region)은 360 비디오 데이터가 프로젝션된 2D 이미지가 나누어진 영역을 나타낼 수 있고, 상기 2D 이미지가 나뉘어진 리전들은 프로젝션 스킴에 따라 구분될 수도 있다. 여기서, 상기 2D 이미지는 비디오 프레임(video frame) 또는 프레임(frame)이라고 불릴 수 있다.

이와 관련하여 본 발명에서는 프로젝션 스킴에 따른 상기 리전별 패킹 과정에 대한 메타데이터들 및 상기 메타데이터들의 시그널링 방법을 제안한다. 상기 메타데이터들을 기반으로 상기 리전별 패킹 과정은 보다 효율적으로 수행될 수 있다.

도 6은 360 비디오의 처리 과정 및 프로젝션 포멧에 따른 리전별 패킹 과정이 적용된 2D 이미지를 예시적으로 나타낸다.

도 6의 (a)는 입력된 360 비디오 데이터의 처리 과정을 나타낼 수 있다. 도 8의 (a)를 참조하면 입력된 시점의 360 비디오 데이터는 다양한 프로젝션 스킴에 따라서 3D 프로젝션 구조에 스티칭 및 프로젝션될 수 있고, 상기 3D 프로젝션 구조에 프로젝션된 360 비디오 데이터는 2D 이미지로 나타낼 수 있다. 즉, 상기 360 비디오 데이터는 스티칭될 수 있고, 상기 2D 이미지로 프로젝션될 수 있다. 상기 360 비디오 데이터가 프로젝션된 2D 이미지는 프로젝션된 프레임(projected frame)이라고 나타낼 수 있다. 또한, 상기 프로젝션된 프레임은 전술한 리전별 패킹 과정이 수행될 수 있다. 즉, 상기 프로젝션된 프레임 상의 프로젝션된 360 비디오 데이터를 포함하는 영역을 리전들로 나누고, 각 리전들을 회전, 재배열하거나, 각 리전의 레졸루션을 변경하는 등의 처리가 수행될 수 있다. 다시 말해, 상기 리전별 패킹 과정은 상기 프로젝션된 프레임을 하나 이상의 패킹된 프레임(packed frame)으로 맵핑하는 과정을 나타낼 수 있다. 상기 리전별 패킹 과정의 수행은 선택적(optional)일 수 있고, 상기 리전별 패킹 과정이 적용되지 않는 경우, 상기 패킹된 프레임과 상기 프로젝션된 프레임은 동일할 수 있다. 상기 리전별 패킹 과정이 적용되는 경우, 상기 프로젝션된 프레임의 각 리전은 상기 패킹된 프레임의 리전에 맵핑될 수 있고, 상기 프로젝션된 프레임의 각 리전이 맵핑되는 상기 패킹된 프레임의 리전의 위치, 모양 및 크기를 나타내는 메타데이터가 도출될 수 있다.

도 6의 (b) 및 (c)는 상기 프로젝션된 프레임의 각 리전이 상기 패킹된 프레임의 리전에 맵핑되는 예들을 나타낼 수 있다. 도 6의 (b)를 참조하면 상기 360 비디오 데이터는 파노라믹(panoramic) 프로젝션 스킴(projection scheme)에 따라서 2D 이미지(또는 프레임)에 프로젝션될 수 있다. 상기 프로젝션된 프레임의 상단면(top) 리전, 중단면(middle) 리전 및 하단면(bottom) 리전은 리전별 패킹 과정이 적용되어 우측의 도면과 같이 재배열될 수 있다. 여기서, 상기 상단면 리전은 2D 이미지 상에서 상기 파노라마의 상단면을 나타내는 리전(region)일 수 있고, 상기 중단면 리전은 2D 이미지 상에서 상기 파노라마의 중단면을 나타내는 리전일 수 있고, 상기 하단면 리전은 2D 이미지 상에서 상기 파노라마의 하단면을 나타내는 리전일 수 있다. 또한, 도 6의 (c)를 참조하면 상기 360 비디오 데이터는 큐빅(cubic) 프로젝션 스킴에 따라서 2D 이미지(또는 프레임)에 프로젝션될 수 있다. 상기 프로젝션된 프레임의 앞면(front) 리전, 뒷면(back) 리전, 윗면(top) 리전, 바닥면(bottom) 리전, 우측옆면(right) 리전 및 좌측옆면(left) 리전은 리전별 패킹 과정이 적용되어 우측의 도면과 같이 재배열될 수 있다. 여기서, 상기 앞면 리전은 2D 이미지 상에서 상기 큐브의 앞면을 나타내는 리전(region)일 수 있고, 상기 뒷면 리전은 2D 이미지 상에서 상기 큐브의 뒷면을 나타내는 리전일 수 있다. 또한, 여기서, 상기 윗면 리전은 2D 이미지 상에서 상기 큐브의 윗면을 나타내는 리전일 수 있고, 상기 바닥면 리전은 2D 이미지 상에서 상기 큐브의 바닥면을 나타내는 리전일 수 있다. 또한, 여기서, 상기 우측옆면 리전은 2D 이미지 상에서 상기 큐브의 우측옆면을 나타내는 리전일 수 있고, 상기 좌측옆면 리전은 2D 이미지 상에서 상기 큐브의 좌측옆면을 나타내는 리전일 수 있다.

도 6의 (d)는 상기 360 비디오 데이터가 프로젝션될 수 있는 다양한 3D 프로젝션 포멧들을 나타낼 수 있다. 도 6의 (d)를 참조하면 상기 3D 프로젝션 포멧들은 사면체(tetrahedron), 큐브(cube), 팔면체(octahedron), 이십면체(dodecahedron), 이십면체(icosahedron)를 포함할 수 있다. 도 6의 (d)에 도시된 2D 프로젝션(2D projection)들은 상기 3D 프로젝션 포멧에 프로젝션된 360 비디오 데이터를 2D 이미지로 나타낸 프로젝션된 프레임(projectied frame)들을 나타낼 수 있다.

상기 프로젝션 포멧들은 예시로서, 본 발명에 따르면 다음과 다양한 프로젝션 포멧(또는 프로젝션 스킴)들 중 일부 또는 전부가 사용될 수 있다. 360 비디오에 대하여 어떤 프로젝션 포멧이 사용되었는지는 예를 들어 메타데이터의 프로젝션 포멧 필드를 통하여 지시될 수 있다.

도 7a 내지 7b는 일 실시예에 따른 프로젝션 포멧들을 예시적으로 나타낸다.

도 7a의 (a)는 등정방형 프로젝션 포멧을 나타낼 수 있다. 등정방형 프로젝션 포멧이 사용되는 경우, 구형 면 상의 (r, θ₀, 0) 즉, θ = θ₀, φ = 0 인 점과 2D 이미지의 중앙 픽셀이 매핑될 수 있다. 또한, 앞면 카메라(front camera)의 주점(principal point)를 구형 면의 (r, 0, 0) 지점으로 가정할 수 있다. 또한, φ₀ = 0으로 고정될 수 있다. 따라서, XY 좌표계로 변환된 값 (x, y) 는 다음의 수학식을 통하여 2D 이미지 상에 (X, Y) 픽셀로 변환될 수 있다.

또한, 2D 이미지의 좌상단 픽셀을 XY 좌표계의 (0,0)에 위치시키는 경우, x축에 대한 오프셋 값 및 y축에 대한 오프셋 값은 다음의 수학식을 통하여 나타낼 수 있다.

이를 이용하여 XY 좌표계로의 변환식을 다시 쓰면 다음과 같을 수 있다.

예를 들어 θ₀ =0 인 경우, 즉 2D 이미지의 중앙 픽셀이 구형 면 상의 θ=0 인 데이터를 가리키는 경우, 구형 면은 (0,0)을 기준으로 2D 이미지 상에서 가로길이(width) = 2K_xπr 이고 세로길이(height) = K_xπr 인 영역에 매핑될 수 있다. 구형 면 상에서 φ = π/2 인 데이터는 2D 이미지 상의 윗쪽 변 전체에 매핑될 수 있다. 또한, 구형 면 상에서 (r, π/2, 0) 인 데이터는 2D 이미지 상의 (3πK_xr/2, πK_x r/2) 인 점에 매핑될 수 있다.

수신 측에서는, 2D 이미지 상의 360 비디오 데이터를 구형 면 상으로 리-프로젝션할 수 있다. 이를 변환식으로 쓰면 다음의 수학식과 같을 수 있다.

예를 들어 2D 이미지 상에서 XY 좌표값이 (K_xπr, 0) 인 픽셀은 구형 면 상의 θ = θ₀, φ = π/2 인 점으로 리-프로젝션될 수 있다.

도 7a의 (b)는 큐빅 프로젝션 포멧을 나타낼 수 있다. 예를 들어 스티칭된 360 비디오 데이터는 구형의 면 상에 나타내어질 수 있다. 프로젝션 처리부는 이러한 360 비디오 데이터를 큐브(Cube, 정육면체) 형태로 나누어 2D 이미지 상에 프로젝션할 수 있다. 구형의 면 상의 360 비디오 데이터는 큐브의 각 면에 대응되어, 2D 이미지 상에 도 7a의 (b) 좌측 또는 (b) 우측에 도시된 것과 같이 프로젝션될 수 있다.

도 7a의 (c)는 실린더형 프로젝션 포멧을 나타낼 수 있다. 스티칭된 360 비디오 데이터가 구형의 면 상에 나타내어질 수 있다고 가정할 때, 프로젝션 처리부는 이러한 360 비디오 데이터를 실린더(Cylinder) 형태로 나누어 2D 이미지 상에 프로젝션할 수 있다. 구형의 면 상의 360 비디오 데이터는 실린더의 옆면(side)과 윗면(top), 바닥면(bottom) 에 각각 대응되어, 2D 이미지 상에 도 8A의 (c) 좌측 또는 (c) 우측에 도시된 것과 같이 프로젝션될 수 있다.

도 7a의 (d)는 타일-기반 프로젝션 포멧을 나타낼 수 있다. 타일-기반(Tile-based) 프로젝션 스킴이 쓰이는 경우, 전술한 프로젝션 처리부는 구형 면 상의 360 비디오 데이터를, 도 7a의 (d)에 도시된 것과 같이 하나 이상의 세부 영역으로 나누어 2D 이미지 상에 프로젝션할 수 있다. 상기 세부 영역은 타일이라고 불릴 수 있다.

도 7b의 (e)는 피라미드 프로젝션 포멧을 나타낼 수 있다. 스티칭된 360 비디오 데이터가 구형의 면 상에 나타내어질 수 있다고 가정할 때, 프로젝션 처리부는 이러한 360 비디오 데이터를 피라미드 형태로 보고, 각 면을 나누어 2D 이미지 상에 프로젝션할 수 있다. 구형의 면 상의 360 비디오 데이터는 피라미드의 바닥면(front), 피라미드의 4방향의 옆면(Left top, Left bottom, Right top, Right bottom) 에 각각 대응되어, 2D 이미지 상에 도 7b의 (e) 좌측 또는 (e) 우측에 도시된 것과 같이 프로젝션될 수 있다. 여기서, 상기 바닥면은 정면을 바라보는 카메라가 획득한 데이터를 포함하는 영역일 수 있다.

도 7b의 (f)는 파노라믹 프로젝션 포멧을 나타낼 수 있다. 파노라믹 프로젝션 스포멧이 사용되는 경우, 전술한 프로젝션 처리부는, 도 9b의 (f)에 도시된 것과 같이 구형 면 상의 360 비디오 데이터 중 옆면 만을 2D 이미지 상에 프로젝션할 수 있다. 이는 실린더형 프로젝션 스킴에서 윗면(top)과 바닥면(bottom) 이 존재하지 않는 경우와 같을 수 있다.

한편, 본 발명의 실시예에 의하면, 스티칭없이 프로젝션이 수행될 수 있다. 도 7b의 (g)는 스티칭없이 프로젝션이 수행되는 경우를 나타낼 수 있다. 스티칭없이 프로젝션되는 경우, 전술한 프로젝션 처리부는, 도 7b의 (g)에 도시된 것과 같이, 360 비디오 데이터를 그대로 2D 이미지 상에 프로젝션할 수 있다. 이 경우 스티칭은 수행되지 않고, 카메라에서 획득된 각각의 이미지들이 그대로 2D 이미지 상에 프로젝션될 수 있다.

도 7b의 (g)를 참조하면 두 개의 이미지가 2D 이미지 상에 스티칭없이 프로젝션될 수 있다. 각 이미지는 구형 카메라(spherical camera) (또는 어안(fish-eye) 카메라)에서 각 센서를 통해 획득한 어안(fish-eye) 이미지일 수 있다. 전술한 바와 같이, 수신측에서 카메라 센서들로부터 획득하는 이미지 데이터를 스티칭할 수 있고, 스티칭된 이미지 데이터를 구형 면(spherical surface) 상에 맵핑하여 구형 비디오(spherical video), 즉, 360 비디오를 렌더링할 수 있다.

도 8a 및 8b는 일 실시예에 따른 타일(Tile)을 도시한 도면이다.

2D 이미지에 프로젝션된 360 비디오 데이터 또는 리전별 패킹까지 수행된 360 비디오 데이터는 하나 이상의 타일로 구분될 수 있다. 도시된 도 8a 는 하나의 2D 이미지가 16 개의 타일로 나뉘어진 형태를 도시하고 있다. 여기서 2D 이미지란 전술한 프로젝티드 프레임 내지는 팩드 프레임일 수 있다. 본 발명에 따른 360 비디오 전송 장치의 또 다른 실시예에 의하면, 데이터 인코더는 각각의 타일을 독립적으로 인코딩할 수 있다.

전술한 리전별 패킹과 타일링(Tiling)은 구분될 수 있다. 전술한 리전별 패킹은 코딩 효율을 높이기 위해 또는 레졸루션을 조정하기 위하여 2D 이미지상에 프로젝션된 360 비디오 데이터를 리전으로 구분하여 처리하는 것을 의미할 수 있다. 타일링은 데이터 인코더가 프로젝티드 프레임 내지는 팩드 프레임을 타일이라는 구획별로 나누고, 해당 타일들 별로 독립적으로 인코딩을 수행하는 것을 의미할 수 있다. 360 비디오가 제공될 때, 사용자는 360 비디오의 모든 부분을 동시에 소비하지 않는다. 타일링은 제한된 밴드위스(bandwidth)상에서 사용자가 현재 보는 뷰포트 등 중요 부분 내지 일정 부분에 해당하는 타일만을 수신측으로 전송 혹은 소비하는 것을 가능케할 수 있다. 타일링을 통해 제한된 밴드위스가 더 효율적으로 활용될 수 있고, 수신측에서도 모든 360 비디오 데이터를 한번에 다 처리하는 것에 비하여 연산 부하를 줄일 수 있다.

리전과 타일은 구분되므로, 두 영역이 같을 필요는 없다. 그러나 실시예에 따라 리전과 타일은 같은 영역을 지칭할 수도 있다. 실시예에 따라 타일에 맞추어 리전별 패킹이 수행되어 리전과 타일이 같아질 수 있다. 또한 실시예에 따라, 프로젝션 스킴에 따른 각 면과 리전이 같은 경우, 프로젝션 스킴에 따른 각 면, 리전, 타일이 같은 영역을 지칭할 수도 있다. 문맥에 따라 리전은 VR 리전, 타일을 타일 리전으로 불릴 수도 있다.

ROI (Region of Interest) 는 360 컨텐츠 제공자가 제안하는, 사용자들의 관심 영역을 의미할 수 있다. 360 컨텐츠 제공자는 360 비디오를 제작할 때, 어느 특정 영역을 사용자들이 관심있어 할 것으로 보고, 이를 고려하여 360 비디오를 제작할 수 있다. 실시예에 따라 ROI 는 360 비디오의 컨텐츠 상, 중요한 내용이 재생되는 영역에 해당할 수 있다.

본 발명에 따른 360 비디오 전송/수신 장치의 또 다른 실시예에 의하면, 수신측 피드백 처리부는 뷰포트 정보를 추출, 수집하여 이를 송신측 피드백 처리부로 전달할 수 있다. 이 과정에서 뷰포트 정보는 양 측의 네트워크 인터페이스를 이용해 전달될 수 있다. 도시된 도 8a 의 2D 이미지에서 뷰포트 (1000) 가 표시되었다. 여기서 뷰포트 는 2D 이미지 상의 9 개의 타일에 걸쳐 있을 수 있다.

이 경우 360 비디오 전송 장치는 타일링 시스템을 더 포함할 수 있다. 실시예에 따라 타일링 시스템은 데이터 인코더 다음에 위치할 수도 있고(도시된 10b), 전술한 데이터 인코더 내지 전송 처리부 내에 포함될 수도 있고, 별개의 내/외부 엘리먼트로서 360 비디오 전송 장치에 포함될 수 있다.

타일링 시스템은 송신측 피드백 처리부로부터 뷰포트 정보를 전달받을 수 있다. 타일링 시스템은 뷰포트 영역이 포함되는 타일만을 선별하여 전송할 수 있다. 도시된 도 8a 의 2D 이미지에서 총 16 개의 타일 중 뷰포트 영역(1000)을 포함하는 9 개의 타일들만이 전송될 수 있다. 여기서 타일링 시스템은 브로드밴드를 통한 유니캐스트 방식으로 타일들을 전송할 수 있다. 사용자에 따라 뷰포트 영역이 다르기 때문이다.

또한 이 경우 송신측 피드백 처리부는 뷰포트 정보를 데이터 인코더로 전달할 수 있다. 데이터 인코더는 뷰포트 영역을 포함하는 타일들에 대해 다른 타일들보다 더 높은 퀄리티로 인코딩을 수행할 수 있다.

또한 이 경우 송신측 피드백 처리부는 뷰포트 정보를 메타데이터 처리부로 전달할 수 있다. 메타데이터 처리부는 뷰포트 영역과 관련된 메타데이터를 360 비디오 전송 장치의 각 내부 엘레먼트로 전달해주거나, 360 비디오 관련 메타데이터에 포함시킬 수 있다.

이러한 타일링 방식을 통하여, 전송 밴드위스(bandwidth)가 절약될 수 있으며, 타일 별로 차등화된 처리를 수행하여 효율적 데이터 처리/전송이 가능해질 수 있다.

전술한 뷰포트 영역과 관련된 실시예들은 뷰포트 영역이 아닌 다른 특정 영역들에 대해서도 유사한 방식으로 적용될 수 있다. 예를 들어, 전술한 게이즈 분석을 통해 사용자들이 주로 관심있어 하는 것으로 판단된 영역, ROI 영역, 사용자가 VR 디스플레이를 통해 360 비디오를 접할 때 처음으로 재생되는 영역(초기 시점, Initial Viewpoint) 등에 대해서도, 전술한 뷰포트 영역과 같은 방식의 처리들이 수행될 수 있다.

본 발명에 따른 360 비디오 전송 장치의 또 다른 실시예에 의하면, 전송 처리부는 각 타일 별로 다르게 전송을 위한 처리를 수행할 수 있다. 전송 처리부는 타일 별로 다른 전송 파라미터(모듈레이션 오더, 코드 레이트 등)를 적용하여, 각 타일 별로 전달되는 데이터의 강건성(robustenss)을 다르게 할 수 있다.

이 때, 송신측 피드백 처리부는 360 비디오 수신 장치로부터 전달받은 피드백 정보를 전송 처리부로 전달하여, 전송 처리부가 타일별 차등화된 전송 처리를 수행하도록 할 수 있다. 예를 들어 송신측 피드백 처리부는 수신측으로부터 전달받은 뷰포트 정보를 전송 처리부로 전달할 수 있다. 전송 처리부는 해당 뷰포트 영역을 포함하는 타일들에 대해 다른 타일들보다 더 높은 강건성을 가지도록 전송 처리를 수행할 수 있다.

한편, 전술한 360 비디오 관련 메타데이터는 360 비디오에 대한 다양한 메타데이터를 포함할 수 있다. 360 비디오 관련 메타데이터는 360 비디오 관련 시그널링 정보라고 불릴 수도 있다. 360 비디오 관련 메타데이터는 별도의 시그널링 테이블에 포함되어 전송될 수도 있고, DASH MPD 내에 포함되어 전송될 수도 있고, ISOBMFF 등의 파일 포맷에 box 형태로 포함되어 전달될 수도 있다. 360 비디오 관련 메타데이터가 box 형태로 포함되는 경우 파일, 프래그먼트, 트랙, 샘플 엔트리, 샘플 등등 다양한 레벨에 포함되어 해당되는 레벨의 데이터에 대한 메타데이터를 포함할 수 있다. 실시예에 따라, 후술하는 메타데이터의 일부는 시그널링 테이블로 구성되어 전달되고, 나머지 일부는 파일 포맷 내에 box 혹은 트랙 형태로 포함될 수도 있다. 본 발명에 따른 360 비디오 관련 메타데이터의 일 실시예에 의하면, 360 비디오 관련 메타데이터는 프로젝션 포멧 등에 관한 기본 메타데이터, 스테레오스코픽(stereoscopic) 관련 메타데이터, 초기 시점(Initial View/Initial Viewpoint) 관련 메타데이터, ROI 관련 메타데이터, FOV (Field of View) 관련 메타데이터 및/또는 크롭된 영역(cropped region) 관련 메타데이터를 포함할 수 있다. 실시예에 따라 360 비디오 관련 메타데이터는 전술한 것 외에 추가적인 메타데이터를 더 포함할 수 있다. 본 발명에 따른 360 비디오 관련 메타데이터의 실시예들은 전술한 기본 메타데이터, 스테레오스코픽 관련 메타데이터, 초기 시점 관련 메타데이터, ROI 관련 메타데이터, FOV 관련 메타데이터, 크롭된 영역 관련 메타데이터 및/또는 이후 추가될 수 있는 메타데이터들 중 적어도 하나 이상을 포함하는 형태일 수 있다. 본 발명에 따른 360 비디오 관련 메타데이터의 실시예들은, 각각 포함하는 세부 메타데이터들의 경우의 수에 따라 다양하게 구성될 수 있다. 실시예에 따라 360 비디오 관련 메타데이터는 전술한 것 외에 추가적인 정보들을 더 포함할 수도 있다.

도 9는 일 실시예에 따른 미디어 처리 장치의 구성을 도시하는 블록도이다.

본 명세서에서 "미디어 처리 장치(900)"는 미디어 신호처리를 수행하는 장치를 의미할 수 있으며, 예를 들어 셋탑박스(STB), 블루레이(Blu-ray), DVD 플레이어, PC 등이 있으나, 이에 한정되지 않는다. 미디어 신호처리는, 예를 들어 미디어 비트스트림(bitstream)의 복호화(decoding), 복호화된 미디어 비트스트림의 후처리(post processing) 또는 렌더링(rendering) 등을 의미할 수 있으나, 이에 한정되지 않는다.

미디어 처리 장치(900)는 미디어 재생 장치와 미디어 데이터를 상호 송수신하면서 미디어 신호처리를 수행할 수 있으므로, 미디어 처리 장치(900)와 미디어 재생 장치는 각각 소스 디바이스(source device)와 싱크 디바이스(sink device)로 지칭될 수도 있다. 미디어 재생 장치에 관한 구체적인 설명은 도 10에서 후술하기로 한다.

도 9에 도시된 바와 같이, 일 실시예에 따른 미디어 처리 장치(900)는 수신부(receiver, 910), 메타데이터 처리부(metadata processor, 920), 미디어 비트스트림 처리부(media bitstream processor, 930) 및 전송부(transmitter, 940)를 포함할 수 있다. 그러나, 도 9에 도시된 구성 요소 모두가 미디어 처리 장치(900)의 필수 구성 요소인 것은 아니다. 도 9에 도시된 구성 요소보다 많거나 적은 구성 요소에 의해 미디어 처리 장치(900)가 구현될 수도 있다. 예를 들어, 일 실시예에 따른 미디어 처리 장치(900)는 미디어 옵션 제어부(media option controller, 도면에 도시되지 않음)를 추가로 포함할 수도 있다.

일 실시예에 따른 수신부(910)는, 미디어 재생 장치로부터 미디어 재생 장치의 재생 환경 정보(information on reproduction environment)를 수신할 수 있다. 재생 환경 정보는 미디어 재생 장치의 상태(status)에 관한 정보 및 재생 능력(reproduction capability)에 관한 정보 중 적어도 하나를 나타낼 수 있다. 본 발명에 따른 일 실시예에서는 특히, 재생 환경 정보가 3차원 재생 환경 정보를 의미할 수 있다. 보다 구체적으로, 본 발명에 따른 일 실시예에서 재생 환경 정보는 VR(Virtual Reality) 재생 환경 정보 및 AR(Augmented Reality) 재생 환경 정보 중 적어도 하나를 포함할 수 있다.

재생 환경 정보는 EDID(Extended Display Identification Data standard), EDID extension 및 DisplayID 중 적어도 를 포함할 수 있고, 경우에 따라서는 재생 환경 정보가 곧 EDID, EDID extension 및 DisplayID 중 적어도 하나를 의미할 수도 있다. EDID, EDID extension 및 DisplayID 중 적어도 하나는, 예를 들어 미디어 신호의 샘플링 레이트(sampling rate), 압축 또는 부호화 관련 정보(압축 방법, 압축률 등) 및 3차원 미디어 데이터의 처리에 관한 정보 등을 포함할 수 있다. EDID, EDID extension 및 DisplayID 중 적어도 하나가 포함할 수 있는 구체적인 정보에 관해서는 도 13에 대한 설명에서 후술하기로 한다.

일 실시예에 따른 메타데이터 처리부(920)는, 수신부(910)로부터 전달 받은 미디어 재생 장치의 재생 환경 정보를 판독할 수 있다. 메타데이터 처리부(920)는 미디어 재생 장치의 재생 환경 정보를 미디어 비트스트림 처리부(930)로 전달하여, 미디어 비트스트림 처리부(930)가 미디어 비트스트림을 처리하여 미디어 신호를 생성하는 과정에서 미디어 재생 장치의 재생 환경 정보를 이용할 수 있도록 할 수 있다. 보다 구체적으로, 메타데이터 처리부(920)는 미디어 재생 장치의 재생 환경 정보를 디코더(932)로 전달하여, 디코더(932)가 3차원 미디어 비트스트림을 복호화하는 과정에서 미디어 재생 장치의 재생 환경 정보를 이용할 수 있도록 할 수 있다.

이때, 미디어 비트스트림은 네트워크를 통하여 미디어 처리 장치(900)(보다 구체적으로는 미디어 비트스트림 처리부(930))로 전달되거나, 또는 디지털 저장매체로부터 미디어 처리 장치(900)로 전달될 수 있다. 여기서 네트워크는 방송망(broadcasting network) 및/또는 통신망(communication network) 등을 포함할 수 있고, 디지털 저장매체는 USB(Universal Serial Bus), SD, CD(Compact Disc), DVD(Digital Versatile Dics), 블루레이(Blu-ray), HDD(Hard Disk Drive), SSD(Solid State Drive) 등 다양한 저장매체를 포함할 수 있다.

또한, 메타데이터 처리부(920)는 미디어 비트스트림 처리부(930)에서 미디어 비트스트림이 처리되어 생성된 미디어 신호의 특징 정보(characteristic information)를 추출(extract)할 수 있다. 미디어 신호의 특징 정보는, 예를 들어 인포프레임(InfoFrame)을 포함할 수 있다. 인포프레임에 대한 구체적인 설명은 도 13에 대한 설명에서 후술하기로 한다.

한편, 도 9에는 도시되어 있지 않으나, 일 실시예에 따른 미디어 처리 장치(900)는 미디어 옵션 제어부를 더 포함할 수 있다. 일 실시예에 따른 미디어 옵션 제어부는 메타데이터 처리부(920)로부터 미디어 재생 장치의 재생 환경 정보를 전달 받을 수 있고, 전달 받은 재생 환경 정보를 기반으로 디코더(932)에서 복호화된 미디어 신호에 대하여 후처리를 수행할 지 여부를 판단할 수 있다.

만약 디코더(932)에서 복호화된 미디어 신호에 대해 별도의 처리를 수행하지 않아도 미디어 재생 장치에서 재생 가능한 경우, 미디어 옵션 제어부는 디코더(932)에서 복호화된 미디어 신호에 대하여 후처리를 수행하지 않기로 결정할 수 있다. 이때 미디어 옵션 제어부는 디코더(932)에서 복호화된 미디어 신호에 대하여 후처리부(934)가 후처리를 수행하지 않도록 제어하기 위한 신호를 후처리부(934)로 전달할 수 있고, 후처리가 수행되지 않았다는 정보를 전송부(940)를 통해 미디어 재생 장치로 전송할 수 있다.

반대로, 만약 사용자 설정(setting)을 기반으로 미디어 처리 장치(900)에서 후처리가 가능하며, 후처리 된 미디어 신호를 미디어 재생 장치가 재생할 수 있는 경우, 미디어 옵션 제어부는 디코더(932)에서 복호화된 미디어 신호에 대하여 후처리를 수행하기로 결정할 수 있다. 이때 미디어 옵션 제어부는 디코더(932)에서 복호화된 미디어 신호에 대하여 후처리부(934)가 후처리를 수행하도록 제어하기 위한 신호를 후처리부(934)로 전달할 수 있고, 후처리가 수행되었다는 정보를 전송부(940)를 통해 미디어 재생 장치로 전송할 수 있다.

일 실시예에 따른 미디어 비트스트림 처리부(930)는 미디어 재생 장치의 재생 환경 정보를 기반으로 미디어 비트스트림을 처리하여 미디어 신호를 생성할 수 있다. 미디어 비트스트림 처리부(930)는 디코더(932) 및 후처리부(post-processing module, 934)를 포함할 수 있다. 그러나, 도 9에 도시된 구성 요소 모두가 미디어 비트스트림 처리부(930)의 필수 구성 요소인 것은 아니다. 도 9에 도시된 구성 요소보다 많거나 적은 구성 요소에 의해 미디어 비트스트림 처리부(930)가 구현될 수도 있다.

예를 들어, 도 9에는 도시되어 있지 않으나, 미디어 비트스트림 처리부(930)는 렌더러(renderer)를 추가로 포함할 수 있다. 렌더러는 복호화된 미디어 스트림을 렌더링(rendering)할 수 있다.

또 다른 예에서, 도 9에는 도시되어 있지 않으나, 미디어 비트스트림 처리부(930)는 이퀄라이저(Equalizer)를 추가로 포함할 수 있다. 미디어 재생 장치의 재생 환경 정보가 미디어 재생 장치의 공간 정보(room information 또는 room environment)를 포함하고 있는 경우, 이퀄라이저는 렌더러로부터 전달받은 미디어 신호에 이퀄라이제이션 (Equalization)을 수행하여 미디어 재생 장치, 예를 들어 스피커(speaker)에서 재생되는 오디오의 음질을 향상시킬 수 있다.

일 실시예에 따른 디코더(decoder, 932)는 미디어 비트스트림을 복호화할 수 있다. 보다 구체적으로, 디코더(932)는 재생 환경 정보를 기반으로 미디어 비트스트림을 복호화할 수 있다. 이때, 재생 환경 정보는 메타데이터 처리부(920)를 통해 디코더(932)로 전달될 수 있으나, 이는 일 실시예에 불과하다. 예를 들어, 재생 환경 정보는 수신부(910) 또는 미디어 옵션 제어부를 통해 디코더(932)로 전달될 수도 있다.

일 실시예에 따른 후처리부(934)는 디코더(932)에서 복호화된 미디어 신호를 후처리할 수 있다. 후처리부(934)는 미디어 재생 장치로부터 수신한 재생 환경 정보, 사용자 설정(user setting) 등을 기반으로 디코더(932)에서 복호화된 미디어 신호를 후처리할 수 있으나, 이에 한정되지 않는다. 예를 들어, 미디어 처리를 위한 추가 정보가 없는 경우에도 후처리부(934)는 자체적으로 미디어의 화질을 향상시킬 수 있다. 후처리부(934)는 재생 환경 정보를 미디어 옵션 제어부, 메타데이터 처리부(920) 또는 수신부(910)로부터 전달받을 수 있다.

후처리부(934)는 미디어 옵션 설정부로부터 수신한 제어 신호를 기반으로 동작할 수 있다. 보다 구체적으로, 후처리부(934)는 미디어 옵션 설정부로부터 전달 받은 제어 신호에 따라 후처리를 수행할 지 여부를 결정할 수 있고, 결정을 기반으로 후처리된 미디어 신호 또는 후처리되지 않은 미디어 신호를 전송부(940)로 전달할 수 있다.

일 실시예에 따른 전송부(940)는 미디어 비트스트림 처리부(930)에서 생성된 미디어 신호 및 메타데이터 처리부(920)에서 추출된 미디어 신호의 특징 정보를 미디어 재생 장치로 전송할 수 있다. 전송부(940)는 미디어 비트스트림 처리부(930)에서 생성된 미디어 신호 및 메타데이터 처리부(920)에서 추출된 미디어 신호의 특징 정보를 미디어 재생 장치로 동시에 전송하거나, 기 설정된 시간차를 두고 전송할 수 있다. 또는, 전송부(940)는 미디어 비트스트림 처리부(930)에서 오디오 신호가 생성되고 기 설정된 시간이 경과한 후에 미디어 신호를 미디어 재생 장치로 전송하고, 메타데이터 처리부(920)에서 미디어 신호의 특징 정보가 추출되고 기 설정된 시간이 경과한 후에 미디어 신호의 특징 정보를 미디어 재생 장치로 전송할 수 있다. 이와 같이 미디어 처리 장치(900)의 미디어 신호 및 특징 정보가 미디어 재생 장치로 전송되는 시점이 다양하게 정의될 수 있음은 당해 기술 분야의 통상의 기술자에게 용이하게 이해될 것이다.

도 9에서 설명된 미디어 처리 장치(900)에 따르면, 미디어 재생 장치로부터 수신한 미디어 재생 장치의 3차원 재생 환경 정보, 즉 VR 재생 환경 정보 및 AR 재생 환경 정보 중 적어도 하나를 기반으로 미디어 비트스트림을 처리하여 3차원 미디어 신호를 생성하고, 생성된 VR 또는 AR 미디어 신호의 특징 정보를 추출할 수 있으며, 생성된 VR 또는 AR 오디오 신호 및 추출된 특징 정보를 미디어 재생 장치로 전송할 수 있다. 즉, 미디어 처리 장치(900)는 미디어 재생 장치와 VR 또는 AR 미디어 데이터를 상호 송수신하면서, 미디어 재생 장치가 VR 또는 AR 미디어 컨텐츠를 보다 원활히 재생할 수 있도록 하는 VR 또는 AR 미디어 신호를 생성할 수 있다.

더불어, 도 9에서 설명된 미디어 처리 장치(900)에 따르면, VR 또는 AR 서비스를 제공하기 위해 미디어 처리 장치(900) 및 미디어 재생 장치가 상호 송수신하는 EDID, EDID extension, Display ID 및 InfoFrame 중 적어도 하나가 확장되어 정의됨으로써, 미디어 재생 장치가 VR 또는 AR 미디어 컨텐츠를 보다 원활히 재생할 수 있다.

도 10은 일 실시예에 따른 미디어 재생 장치의 구성을 도시하는 블록도이다.

본 명세서에서 "미디어 재생 장치(1000)"는 미디어 신호를 재생하는 장치를 의미할 수 있으며, 예를 들어 HMD, 스피커, 헤드폰(headphone), 이어폰, 테블릿, AR 글라스(glass), 기타 VR 또는 AR 컨텐츠를 수신할 수 있는 장치 등이 있으나, 이에 한정되지 않는다. 미디어 재생 장치(1000)는 미디어 재생 장치(1000)와 미디어 데이터를 송수신하는 미디어 처리 장치(1000)로부터 수신한 미디어 신호를 재생할 수 있으나, 미디어 재생 장치(1000)가 미디어 재생을 수행하는 방법은 이에 한정되지 않는다.

도 10에 도시된 바와 같이, 일 실시예에 따른 미디어 재생 장치(1000)는 메타데이터 처리부(metadata processor, 1010), 전송부(transmitter, 1020), 수신부(receiver, 1030) 및 재생부(reproducer, 1040)를 포함할 수 있다. 그러나, 도 10에 도시된 구성 요소 모두가 미디어 재생 장치(1000)의 필수 구성 요소인 것은 아니다. 도 10에 도시된 구성 요소보다 많거나 적은 구성 요소에 의해 미디어 재생 장치(1000)가 구현될 수도 있다. 예를 들어, 일 실시예에 따른 미디어 재생 장치(1000)는 미디어 처리 장치 제어부(도면에 도시되지 않음)를 추가로 포함할 수도 있다.

일 실시예에 따른 미디어 재생 장치(1000)에서 메타데이터 처리부(1010), 전송부(1020), 수신부(1030) 및 재생부(1040)는 각각 별도의 칩(chip)으로 구현되거나, 적어도 둘 이상의 구성 요소가 하나의 칩을 통해 구현될 수도 있다.

일 실시예에 따른 메타데이터 처리부(1010)는 미디어 재생 장치(1000)의 재생 환경 정보를 수집할 수 있다. 예를 들어, 메타데이터 처리부(1010)는 미디어 재생 장치(1000)의 메모리(memory 또는 storage unit, 도 10에 도시되지 않음)에 저장되어 있는 미디어 재생 장치(1000)의 재생 환경 정보를 수집할 수 있다.

일 실시예에 따른 전송부(1020)는 메타데이터 처리부(1010)로부터 전달받은 미디어 재생 장치(1000)의 재생 환경 정보를 미디어 처리 장치(900)로 전송할 수 있다.

일 실시예에 따른 미디어 처리 장치(900)는 도 9에서 전술한 바와 같이, 미디어 재생 장치(1000)의 재생 환경 정보를 기반으로 미디어 비트스트림을 처리하여 미디어 신호를 생성할 수 있고, 생성된 미디어 신호에서 특징 정보를 추출할 수 있다. 일 실시예에 따른 미디어 재생 장치(1000)의 수신부(1030)는 미디어 처리 장치(900)로부터 생성된 미디어 신호 및 추출된 특징 정보를 수신할 수 있다. 수신부(1030)는 수신된 미디어 신호 및 특징 정보를 메타데이터 처리부(1010)로 전달할 수 있으나, 실시예가 이에 한정되는 것은 아니다. 예를 들어, 수신부(1030)는 수신된 미디어 신호는 재생부(1040)로, 수신된 특징 정보는 메타데이터 처리부(1010)로 각각 전달할 수도 있다.

일 실시예에 따른 미디어 재생 장치(1000)의 수신부(1030)가 미디어 처리 장치(900)로부터 수신한 미디어 신호는 압축(compressed) 신호일 수도 있고, 비압축(uncompressed) 신호일 수도 있다. 수신된 미디어 신호가 무압축 신호일 경우, 수신부(1030)는 수신된 미디어 신호를 그대로(directly) 메타데이터 처리부(1010) 및 재생부(1040) 중 적어도 하나로 전달할 수 있다. 수신된 오디오 신호가 압축 신호일 경우, 수신부(1030)는 수신된 미디어 신호를 복호화 한 후 메타데이터 처리부(1010) 및 재생부(1040) 중 적어도 하나로 전달할 수 있다. 이때 압축 신호의 복호화는 수신부(1030)에 의해 수행되거나, 또는 별도의 디코더를 통해 수행될 수 있다.

일 실시예에 따른 재생부(1040)는 미디어 신호의 추출된 특징 정보를 기반으로, 수신된 미디어 신호를 재생할 수 있다. 보다 구체적으로, 미디어 신호의 추출된 특징 정보는 메타데이터 처리부(1010)에서 판독될 수 있고, 추출된 특징 정보를 판독하여 획득된 정보는 메타데이터 처리부(1010)에서 재생부(1040)로 전달될 수 있으며, 재생부(1040)는 추출된 특징 정보를 판독하여 획득된 정보를 기반으로, 수신된 미디어 신호를 재생할 수 있다. 재생부(1040)는 미디어 처리 장치(900)로부터 수신한 미디어 신호를 재생하면서 획득한 정보를 메타데이터 처리부(1010)로 전달할 수 있다.

한편, 도 9에서 전술한 바와 같이 일 실시예에 따른 미디어 처리 장치(900)는 미디어 옵션 제어부를 더 포함할 수 있고, 미디어 옵션 제어부는 재생 환경 정보를 기반으로 미디어 신호에 대하여 후처리를 수행할 지 여부를 판단할 수 있다. 이때 미디어 재생 장치(1000)에 포함된 미디어 처리 장치 제어부(도면에 도시되지 않음)는 미디어 처리 장치(900)가 어떠한 종류의 비디오/오디오 처리가 가능한지에 대한 정보를 기반으로 미디어 처리 장치 제어 신호를 생성하여 미디어 처리 장치(900)로 전달할 수 있다. 다만 실시예는 이에 한정되지 않으며, 예를 들어 미디어 처리 장치 제어부는 디폴트(default) 신호를 미디어 처리 장치(900)로 전달하거나, 어떠한 신호도 전달하지 않을 수도 있다.

또한, 일 실시예에 따른 미디어 처리 장치 제어부는 사용자로부터 획득한, 미디어 재생 환경에 대한 사용자 설정(user setting) 정보를 미디어 재생 장치(1000)의 전송부(1020)로 전달할 수 있고, 전송부(1020)는 미디어 처리 장치(900)로 미디어 재생 환경에 대한 설정 정보를 전송할 수 있다. 미디어 처리 장치(900)의 수신부(910)는 미디어 재생 환경에 대한 설정 정보를 수신하여 미디어 옵션 제어부로 전달할 수 있다. 일 실시예에 따른 미디어 옵션 제어부는, 미디어 재생 환경에 대한 정보를 메타데이터 처리부(920) 또는 미디어 비트스트림 처리부(930)로 전달할 수 있다.

또한, 미디어 재생 장치(1000)의 미디어 처리 장치 제어부는, 후처리부(934)가 후처리를 수행하도록 제어하기 위한 신호, 후처리부(934)가 후처리를 수행하지 않도록 제어하기 위한 신호, 후처리가 수행되었다는 정보, 후처리가 수행되지 않았다는 정보 및 후처리된 미디어 신호 중 적어도 하나를 도 9에서 전술한 미디어 처리 장치(900)의 미디어 옵션 제어부로부터 수신할 수 있다.

또한, 미디어 처리 장치 제어부는 미디어 처리 장치(900)로부터 전달 받은 미디어 데이터가 재생부(1040)에서의 재생을 위해 적합하게 처리되었는지 여부를 판단하고, 판단 결과를 기반으로 미디어 처리 장치 제어 신호(control signal)를 생성할 수 있다. 예를 들어, 미디어 데이터가 적합하게 처리되지 않은 경우, 미디어 처리 장치 제어부는 미디어 처리 장치(900)의 미디어 처리 중 문제가 되는 부분을 판단하여 그 기능을 비활성화(또는 off)할 수 있다.

또는, 미디어 처리 장치 제어부는 사용자의 요청을 기반으로, 미디어 처리 장치(900)의 미디어 처리 중 문제가 되는 부분을 활성화(또는 on)/비활성화(또는 off)할 수 있다. 이를 위해, 미디어 재생 장치(1000)는 미디어 처리 장치(900)에서 처리 가능한 또는 처리되고 있는 미디어 처리 옵션을 사용자에게 메뉴/UI(User Interface) 등을 기반으로 제공할 수 있다.

또는, 미디어 재생 장치(1000)에 자체 처리 기능이 있는 경우, 미디어 재생 장치(1000)의 메타데이터 처리부(1010)는 미디어 처리 장치(900)로부터 수신한 미디어 신호 및 특징 정보 중 적어도 하나를 분석한 후, 분석 결과를 디스플레이 패널 제어부(display panel controller, 도면에 도시되지 않음)로 전달할 수도 있다. 디스플레이 패널 제어부는 메타데이터 처리부(1010)로부터 전달 받은 분석 결과를 기반으로 디스플레이를 조정하여 미디어 컨텐츠에 적합한 재생 환경을 제공할 수 있다. 이때 미디어 재생 장치(1000)의 자체 처리 기능은, 예를 들어 화면의 밝기 및 색상 조절, 눈 사이의 거리 조절 등의 자체 처리를 포함할 수 있다.

도 10에서 설명된 미디어 재생 장치(1000)에 따르면, 미디어 재생 장치(1000)의 3차원 미디어 재생에 관한 정보를 포함하는 재생 환경 정보를 미디어 처리 장치(900)로 전송할 수 있고, 재생 환경 정보를 기반으로 미디어 처리 장치(900)에 의해 생성된 3차원 미디어 신호 및 미디어 신호에서 추출된 특징 정보를 미디어 처리 장치(900)로부터 수신할 수 있다. 즉, 미디어 재생 장치(1000)는 미디어 처리 장치(900)와 3차원 미디어 데이터를 상호 송수신하면서, 3차원 미디어 컨텐츠를 미디어 재생 장치(1000)의 3차원 미디어 재생 환경에 맞추어 보다 원활히 재생할 수 있다.

도 11은 일 실시예에 따른 미디어 처리 장치 및 미디어 재생 장치의 구성을 도시하는 블록도이다.

도 11에 도시된 바와 같이, 일 실시예에 따른 미디어 처리 장치(900)는 수신부(910), 메타데이터 처리부(920), 미디어 비트스트림 처리부(930) 및 전송부(940)를 포함할 수 있고, 일 실시예에 따른 미디어 재생 장치(1000)는 메타데이터 처리부(1010), 전송부(1020), 수신부(1030) 및 재생부(1040)를 포함할 수 있다.

도 11에 도시된 미디어 처리 장치(900) 및 미디어 재생 장치(1000)가 각각 도 9의 미디어 처리 장치(900) 및 도 10의 미디어 재생 장치(1000)와 동일하게 동작할 수 있음은 당해 기술 분야의 통상의 기술자에게 용이하게 이해될 것이다. 따라서, 이하에서는 미디어 처리 장치(900)의 수신부(910), 메타데이터 처리부(920), 미디어 비트스트림 처리부(930) 및 전송부(940), 그리고 미디어 재생 장치(1000)의 메타데이터 처리부(1010), 전송부(1020), 수신부(1030) 및 재생부(1040)와 관련하여 도 9 및 도 10에서 설명된 내용과 중복되는 내용은 설명을 생략하거나 간단히 하기로 한다.

일 실시예에 따른 미디어 처리 장치(900) 및 미디어 재생 장치(1000)는 상호 유선 인터페이스를 통하여 연결될 수 있다. 예를 들어, 미디어 처리 장치(900) 및 미디어 재생 장치(1000)는 HDMI (High-Definition Multimedia Interface) 또는 Displayport를 통하여 상호 연결될 수 있다. 다만 실시예는 이에 한정되지 않으며, 예를 들어 미디어 처리 장치(900) 및 미디어 재생 장치(1000)는 상호 무선 인터페이스 또는 HDMI 및 Displayport를 제외한 다른 유선 인터페이스 등에 의해서 상호 연결될 수도 있다. 추가적으로, 미디어 처리 장치(900) 및 미디어 재생 장치(1000)는 USB를 통해 상호간에 정보를 전달할 수도 있다.

HDMI 또는 Displayport의 송수신 규격으로 CTA-861-G 및 DisplayID (Display Identification Data) 스탠다드가 있다. 일 실시예에 따른 미디어 처리 장치(900) 및 미디어 재생 장치(1000)는 HDMI 또는 Displayport의 CTA-861-G 규격 또는 DisplayID 스탠다드를 기반으로 미디어 데이터를 상호 송수신할 수 있으며, 특히 VR 또는 AR 컨텐츠를 구현하기 위한 3차원 미디어 데이터를 상호 송수신할 수 있다. 3차원 미디어 데이터는 미디어 재생 장치(1000)의 재생 환경 정보에 포함되어 미디어 재생 장치(1000)에서 미디어 처리 장치(900)로 전달되거나, 미디어 신호에서 추출된 정보에 포함되어 미디어 처리 장치(900)에서 미디어 재생 장치(1000)로 전달될 수 있다.

예를 들어, 3차원 미디어 데이터는 VESA(Video Electronics Standards Association)에서 정의된 EDID, EDID를 확장하여 정의한 CTA EDID extension 의 확장 데이터 블록(extended data block)에 포함되거나, VESA에서 정의된 DisplayID에 포함되어, 미디어 재생 장치(1000)에서 미디어 처리 장치(900)로 전달될 수 있다.

3차원 미디어 데이터를 상호 송수신함으로써, 일 실시예에 따른 미디어 처리 장치(900) 및 미디어 재생 장치(1000)는 VR 시스템 또는 AR 시스템하에서 사용자에게 VR 미디어 또는 AR 미디어를 원활하게 제공할 수 있다.

일 실시예에 따른 미디어 재생 장치(1000)의 메타데이터 처리부(1010)는 미디어 재생 장치(1010)의 재생 환경 정보를 수집할 수 있다.

일 실시예에 따른 미디어 재생 장치(1000)의 전송부(1020)는 미디어 재생 장치(1000)의 재생 환경 정보를 미디어 처리 장치(1000)로 전송할 수 있다.

일 실시예에 따른 미디어 처리 장치(900)의 수신부(910)는, 미디어 재생 장치(1000)로부터 미디어 재생 장치(1000)의 재생 환경 정보를 수신할 수 있다. 예를 들어, 미디어 처리 장치(900)의 수신부(910)는 DDC(Display Data Channel)를 통해 미디어 재생 장치(1000)로부터 미디어 재생 장치(1000)의 재생 환경 정보를 수신할 수 있다. 미디어 처리 장치(900)로 전달된 미디어 재생 장치(1000)의 재생 환경 정보는, 미디어 처리 장치(900)에 일정 기간 동안 저장되어 필요시마다 이용될 수 있고, 경우에 따라서는 미디어 처리 장치(900)에 저장되지 않고 미디어 처리 장치(900)가 미디어 재생 장치(1000)로부터 수시로 수신하여 이용할 수도 있다.

일 실시예에 따른 미디어 처리 장치(900)의 메타데이터 처리부(920)는, 수신부(910)로부터 미디어 재생 장치(1000)의 재생 환경 정보를 전달받을 수 있고, 전달받은 미디어 재생 장치(1000)의 재생 환경 정보를 판독할 수 있다. 메타데이터 처리부(1020)는 미디어 재생 장치(1000)의 재생 환경 정보를 미디어 비트스트림 처리부(1030)로 전달하여, 미디어 비트스트림 처리부(1030)가 미디어 비트스트림을 처리하여 미디어 신호를 생성하는 과정에서 미디어 재생 장치(1000)의 재생 환경 정보를 이용할 수 있도록 할 수 있다. 또한, 메타데이터 처리부(920)는 미디어 비트스트림 처리부(930)에서 미디어 비트스트림이 처리되어 생성된 미디어 신호에서 특징 정보를 추출할 수 있다.

일 실시예에 따른 미디어 처리 장치(900)의 미디어 비트스트림 처리부(930)는 미디어 재생 장치(1000)의 재생 환경 정보를 기반으로 미디어 비트스트림을 처리하여 미디어 신호를 생성할 수 있다. 보다 구체적으로, 미디어 비트스트림은 VR 미디어 비트스트림 또는 AR 미디어 비트스트림을 포함할 수 있고, 미디어 비트스트림 처리부(930)는 미디어 재생 장치(1000)의 재생 환경 정보를 기반으로 VR 미디어 비트스트림 및 AR 미디어 비트스트림 중 적어도 하나를 처리하여 3차원 미디어 신호를 생성할 수 있다.

일 실시예에 따른 미디어 처리 장치(900)의 전송부(940)는 미디어 비트스트림 처리부(930)에서 생성된 미디어 신호 및 메타데이터 처리부(920)에서 추출된 미디어 신호의 특징 정보를 미디어 재생 장치(1000)로 전송할 수 있다.

일 실시예에 따른 미디어 재생 장치(1000)의 수신부(1030)는 미디어 처리 장치(900)로부터 미디어 신호 및 추출된 특징 정보를 수신할 수 있다. 수신부(1030)는 수신된 미디어 신호 및 추출된 특징 정보를 메타데이터 처리부(1010)로 전달할 수 있다.

일 실시예에 따른 메타데이터 처리부(1010)는 추출된 특징 정보를 판독될 수 있고, 특징 정보를 판독하여 획득된 정보 및 미디어 신호는 메타데이터 처리부(1010)에서 재생부(1040)로 전달될 수 있으며, 재생부(1040)는 특징 정보를 판독하여 획득된 정보를 기반으로, 수신된 미디어 신호를 재생할 수 있다.

도 11에는 도시되어 있지 않으나, 일 실시예에 따른 미디어 처리 장치(900)는 미디어 옵션 제어부(media option controller)를 포함하고, 일 실시예에 따른 미디어 재생 장치(1000)는 미디어 처리 장치 제어부(media processing device controller)를 포함할 수 있다. 미디어 옵션 제어부 및 미디어 처리 장치 제어부에 대한 구체적인 설명은 도 9 및 도 10에서 전술한 바 있다.

도 12는 일 실시예에 따른 미디어 재생 장치가 미디어 처리 장치로 EDID 정보를 전송하는 과정을 도시하는 흐름도이다.

도 12는 미디어 처리 장치(900)와 미디어 재생 장치(1000)가 상호 유선 인터페이스(예를 들어, HDMI 또는 Display Port)로 연결된 경우, 미디어 처리 장치(900) 및 미디어 재생 장치(1000)가 상호 EDID 관련 정보를 송수신하고, 미디어 재생 장치(1000)가 미디어 처리 장치(900)로 업데이트된 EDID 정보를 송신하는 과정에 대하여 도시하고 있다.

일 실시예에서, 도 12에 따른 미디어 처리 장치(900)와 미디어 재생 장치(1000) 간의 EDID 정보 교환은 소스(source)-싱크(sink) 핸드쉐이크(handshake) 과정으로 지칭될 수도 있다. 소스-싱크 핸드쉐이크 과정은 미디어 처리 장치(900)와 미디어 재생 장치(1000)가 연결되는 시점의 동작에 해당하므로, 두 장치가 연결되는 초기 시점 이후에 미디어 재생 장치(1000)가 미디어 데이터를 재생하는 과정에서는, 소스-싱크 핸드쉐이크 대신, 미디어 컨텐츠의 변경 시점 또는 특정 장면(scene)의 변경 시점에 미디어 처리 장치(900)와 미디어 재생 장치(1000) 간 신호 교환이 발생할 수 있다.

미디어 처리 장치(900)가 미디어 재생 장치(1000)에 유선 인터페이스로 연결되면, 미디어 처리 장치(900)는 미디어 재생 장치(1000)와의 유선 인터페이스의 +5V 파워 라인(power line)에 하이 레벨 전압을 제공할 수 있다(S1200). 미디어 재생 장치(1000)는 미디어 처리 장치(900)가 유선 인터페이스의 +5V 파워 라인에 하이 레벨 전압을 제공한 것을 통해 미디어 처리 장치(900)가 연결되었음을 확인할 수 있다.

미디어 재생 장치(1000)는 로우 레벨 전압으로 유지되고 있던 HPD(Hot Plug Detect line) 라인에 하이 레벨 전압을 인가(S1210)함으로써, 미디어 처리 장치(900)에 미디어 재생 장치(1000)가 연결되었으며, EDID를 판독할 준비가 완료되었음을 미디어 처리 장치(900)에게 통지(notify)할 수 있다.

미디어 처리 장치(900)는 HPD 라인이 하이 레벨로 전환됨을 인지(recognize)한 후, DDC(Display Data Channel)를 통해 미디어 재생 장치(1000)에게 EDID 정보를 요청할 수 있다(S1220).

미디어 처리 장치(900)로부터 EDID 정보에 대한 요청을 수신한 것에 응답하여, 미디어 재생 장치(1000)는 DDC를 통해 미디어 처리 장치(900)에게 EDID 정보를 전송할 수 있다(S1230).

미디어 재생 장치(1000)가 DDC를 통해 미디어 처리 장치(900)에게 EDID 정보를 전송한 후 EDID 정보가 업데이트(S1240) 되는 경우, 미디어 처리 장치(900)와 미디어 재생 장치(1000)간의 추가적인 데이터 송수신을 통해 업데이트된 EDID 정보가 미디어 재생 장치(1000)에서 미디어 처리 장치(900)로 전송될 수 있다. EDID 정보의 업데이트는, 예를 들어 EDID 정보가 표 11의 Control option flag 필드를 포함할 때, 재생 장치 특정 VR 미디어 데이터, 사용자 특정 VR 미디어 데이터, 재생 장치 특정 AR 미디어 데이터, 사용자 특정 AR 미디어 데이터 및 재상 장치 특정 AR 오디오 데이터 중 적어도 하나의 Control option flag 필드가 변경되면 EDID 정보가 업데이트 되었다고 판단될 수 있다. Control option flag 필드의 변경 여부는, 사용자의 요청 또는 미디어 재생 장치(1000)의 기능적 판단에 의해 결정될 수 있다.

EDID 정보가 업데이트된 경우, 미디어 재생 장치(1000)는 HPD 라인에 로우 레벨 전압을 제공할 수 있다(S1250). 이때, 미디어 재생 장치(1000)는 HPD 라인에 100ms 이상의 시간 동안 로우 레벨 전압을 제공할 수 있다.

미디어 재생 장치(1000)에서 EDID 판독이 가능해지면, 미디어 재생 장치(1000)는 HPD 라인에 하이 레벨 전압을 제공할 수 있다(S1260). 미디어 재생 장치(1000)가 HPD 라인에 하이 레벨 전압을 제공하였음을 미디어 처리 장치(900)가 감지하는 경우, 미디어 처리 장치(900)는 DDC를 통해 미디어 재생 장치(1000)에게 EDID 정보를 요청할 수 있다(S1270). 미디어 처리 장치(900)로부터 EDID 정보를 요청 받은 미디어 재생 장치(1000)는, DDC를 통해 미디어 처리 장치(900)로 업데이트된 EDID 정보를 전송할 수 있다(S1280).

도 13은 일 실시예에 따른 미디어 처리 장치가 미디어 데이터를 처리하는 과정을 도시하는 흐름도이다.

도 13에 개시된 각 단계는 도 9에 개시된 미디어 처리 장치(900)에 의하여 수행될 수 있다. 구체적으로 예를 들어, 도 13의 단계 1300은 미디어 처리 장치(900)의 수신부(910)에 의하여 수행될 수 있고, 단계 1310은 미디어 처리 장치(900)의 메타데이터 처리부(920) 및 미디어 비트스트림 처리부(930)에 의하여 수행될 수 있고, 단계 1320은 미디어 처리 장치(900)의 메타데이터 처리부(920)에 의하여 수행될 수 있고, 단계 1330은 미디어 처리 장치(900)의 전송부(940)에 의하여 수행될 수 있다. 따라서, 도 13의 각 단계를 설명함에 있어서, 도 9에서 전술된 내용과 중복되는 구체적인 내용은 설명을 생략하거나 간단히 하기로 한다.

본 명세서에서는 특정 정보 또는 개념을 정의하기 위한 용어 또는 문장을 사용하고 있다. 예를 들어, 본 명세서에서는 3차원 미디어 신호의 후처리(post processing) 제어에 대한 정보를 "Control option flag"라고 정의하고 있다. 그러나, "Control option flag"는 제어 옵션 플래그, 제어 플래그, Control flag, Control option information 등 다양한 용어로 대체될 수 있는 바, 본 명세서에서 특정 정보 또는 개념을 정의하기 위해 사용된 용어 또는 문장을 명세서 전반에서 해석함에 있어서 그 명칭에 국한된 해석을 하여서는 안 되고, 상기 용어가 의미하는 바에 따른 다양한 동작, 기능 및 효과에 주목하여 해석할 필요가 있다.

일 실시예에 따른 미디어 처리 장치(900)는 미디어 재생 장치(1000)로부터 미디어 재생 장치(1000)의 재생 환경 정보를 수신할 수 있다(S1300).

일 실시예에서, 미디어 재생 장치(1000)의 재생 환경 정보는 EDID를 포함할 수 있고, 경우에 따라서는 재생 환경 정보가 곧 EDID를 의미할 수도 있다. EDID는 미디어 재생 장치(1000)의 상태 정보 및 재생 능력 정보 중 적어도 하나를 나타내기 위한 CTA 데이터 블록을 포함할 수 있으며, CTA 데이터 블록의 예시는 아래의 표 1과 같다.

<표 1>

CTA 데이터 블록은 0부터 7까지의 태그 코드(tag code)를 포함하고 있고, 각 태그 코드는 이진수 코드(binary code)로 표현될 수 있다. CTA 데이터 블록의 태그 코드들은 CTA 데이터 블록이 포함하는 정보들을 타입(type)에 따라 분류하기 위한 것이다. 특히, CTA 데이터 블록의 태그 코드가 7(111)₂로 시그널링되는 경우 확장 태그 코드들(Extended tag codes)이 사용될 수 있는데, 확장 태그 코드들의 예시는 아래의 표 2와 같다.

<표 2>

확장 태그 코드들은 0부터 255까지 총 256개가 존재할 수 있고, 각 확장 태그 코드들은 16진수 코드(hexadecimal code)로 표현될 수 있다. 각 확장 태그 코드들은 CTA 데이터 블록이 포함하는 확장 데이터 블록(extended data block)들을 타입에 따라 분류하기 위한 것이다. 표 2를 참조하면, EDID의 확장 태그 코드 8번 내지 12번에 Reserved for video-related blocks 필드가 존재하는 것을 확인할 수 있으며, 상기 필드에는 VR 또는 AR 서비스를 위한 미디어 재생 장치(1000)의 비디오와 관련된 재생 환경 정보가 포함될 수 있다.

일 실시예에 따른 재생 환경 정보는 VR 재생 환경 정보 및 AR 재생 환경 정보 중 적어도 하나를 포함할 수 있고, VR 재생 환경 정보 및 AR 재생 환경 정보 중 일부는 EDID의 확장 태그 코드 8번 내지 12번과 대응되는 Reserved for video-related blocks 필드에 포함될 수 있다.

일 실시예에서, VR 재생 환경 정보는 재생 장치 특정(reproducing device-specific) VR 미디어 데이터 및 사용자 특정(user-specific) VR 미디어 데이터 중 적어도 하나를 포함할 수 있고, AR 재생 환경 정보는 재생 장치 특정 AR 미디어 데이터 및 사용자 특정 AR 미디어 데이터 중 적어도 하나를 포함할 수 있다. 여기서, "재생 장치 특정"은 미디어 재생 장치(1000)의 고유의 특징을 의미할 수 있고, "사용자 특정"은 미디어 재생 장치(1000)를 이용하는 사용자 각각의 특징을 의미할 수 있다. 상기 실시예에서 EDID의 확장 태그 코드 8번 내지 12번은 아래의 표 3과 같이 도시될 수 있다.

<표 3>

표 3에서 확장 태그 코드 8번의 VR static metadata block 필드는 재생 장치 특정 VR 미디어 데이터를 나타내고, 확장 태그 코드 9번의 VR dynamic metadata block 필드는 사용자 특정 VR 미디어 데이터를 나타내고, 확장 태그 코드 10번의 AR static metadata block 필드는 재생 장치 특정 AR 미디어 데이터를 나타내고, 확장 태그 코드 11번의 AR dynamic metadata block 필드는 사용자 특정 AR 미디어 데이터를 나타낼 수 있다.

표 3의 확장 태그 코드 8번 VR static metadata block의 예시는 아래의 표 4와 같다.

<표 4>

표 4에서 첫 번째 바이트(byte)의 상위 3비트(bit)는 CTA 데이터 블록의 태그 코드를 의미하고, 하위 5비트는 해당 CTA 데이터 블록의 길이(length)를 의미하며, 두 번째 바이트는 확장 데이터 블록의 확장 태그 코드를 의미할 수 있다. 표 4는 VR static metadata block에 대해 도시하고 있으므로, 첫 번째 바이트의 상위 3비트는 태그 코드 인덱스 7을 지시하고, 두 번째 바이트는 확장 태그 코드 인덱스 8(0x08)을 지시하고 있다.

상기 표 4 및 후술될 표들에서, R#는 추후의 이용을 위한 Reserved 필드를 의미할 수 있다.

VR static metadata block의 세 번째 바이트의 0번 비트 내지 1번 비트에 포함된 Device classification 필드는 미디어 재생 장치(1000)의 종류에 대한 정보를 포함할 수 있다. 미디어 재생 장치(1000)의 종류에 대한 정보는, 예를 들어 미디어 재생 장치(1000)가 VR 서비스를 위한 HMD인지 여부에 대한 정보, 미디어 재생 장치(1000)가 VR 서비스를 제공받을 수 있는 fixed device(예를 들어, TV)인지 여부에 대한 정보 등을 포함할 수 있다. 미디어 처리 장치(900)는 미디어 재생 장치(1000)의 종류에 대한 정보를 기반으로, 처리하고자 하는 미디어 데이터의 적합한 컨텐츠를 선택할 수 있다.

VR static metadata block의 세 번째 바이트의 2번 비트 내지 4번 비트에 포함된 Number of displays 필드는 미디어 재생 장치(1000)의 디스플레이(display)의 개수에 대한 정보를 포함할 수 있다. 미디어 재생 장치(1000)의 디스플레이(display)의 개수는, 예를 들어 HMD의 경우 양쪽 눈을 위해 2개가 될 수 있고, fixed device 중 TV의 경우는 1개가 될 수 있다. 미디어 처리 장치(900)는 미디어 재생 장치(1000)의 디스플레이의 개수를 고려하여 미디어 데이터를 처리한 후 처리된 미디어 데이터를 미디어 재생 장치(1000)로 전송할 수 있다.

VR static metadata block의 세 번째 바이트의 5번 비트에 포함된 Gaze tracking 필드는 미디어 재생 장치(1000)가 게이즈 트래킹을 제공할 수 있는지 여부에 대한 정보를 포함할 수 있다. 게이즈 트래킹은 사용자의 시선의 움직임을 추적하는 처리로서, 사용자의 시선이 향하는 부분으로부터 기 설정된 범위내에 위치하는 영역은 선명하게 디스플레이하고, 나머지 영역은 흐릿하게 디스플레이할 수 있다. 미디어 처리 장치(900)는 미디어 재생 장치(1000)가 게이즈 트래킹을 제공할 수 있는지 여부에 대한 정보를 기반으로, 서브타이틀(subtitle)이나 그래픽(graphic) 등의 정보가 사용자의 시선이 향하는 부분으로부터 기 설정된 범위내에 위치하는 영역에 디스플레이 되도록 처리할 수 있다.

VR static metadata block의 세 번째 바이트의 6번 비트에 포함된 2D/3D flag 필드는 미디어 재생 장치(1000)가 지원하는 차원(dimension)에 대한 정보를 포함할 수 있다. 미디어 재생 장치(1000)가 지원하는 차원(dimension)에 대한 정보는, 예를 들어 미디어 재생 장치(1000)가 2D를 지원 가능한 지, 또는 3D를 지원 가능한 지 여부를 나타낼 수 있다.

VR static metadata block의 네 번째 바이트에 포함된 Display id 필드는 미디어 재생 장치(1000)의 디스플레이 식별자(Identification)에 대한 정보를 포함할 수 있다. 예를 들어, 미디어 재생 장치(1000)가 좌측(left) 디스플레이와 우측(right) 디스플레이를 포함하며, 좌측 디스플레이와 우측 디스플레이가 각각 별도의 인터페이스(interface)를 이용하는 경우, 미디어 재생 장치(1000)의 디스플레이 식별자(Identification)에 대한 정보는 좌측 디스플레이를 인덱스 0, 우측 디스플레이를 인덱스 1로 구분할 수 있다.

VR static metadata block의 다섯 번째 바이트 및 여섯 번째 바이트의 0번 비트 내지 3번 비트에 포함된 Display min luminance 필드는 미디어 재생 장치(1000)가 제공할 수 있는 최소 밝기 값에 대한 정보를 포함할 수 있다. 미디어 처리 장치(900)는 미디어 재생 장치(1000)가 제공할 수 있는 최소 밝기 값에 대한 정보를 기반으로 미디어 컨텐츠의 밝기를 조정하여 미디어 재생 장치(1000)로 전송할 수 있다.

VR static metadata block의 여섯 번째 바이트의 4번 비트 내지 7번 비트 및 일곱 번째 바이트에 포함된 Display max luminance 필드는 미디어 재생 장치(1000)가 제공할 수 있는 최대 밝기 값에 대한 정보를 포함할 수 있다. 미디어 처리 장치(900)는 미디어 재생 장치(1000)가 제공할 수 있는 최대 밝기 값에 대한 정보를 기반으로 미디어 컨텐츠의 밝기를 조정하여 미디어 재생 장치(1000)로 전송할 수 있다.

VR static metadata block의 여덟 번째 바이트의 0번 비트 내지 3번 비트에 포함된 Image file format 필드, 여덟 번째 바이트의 4번 비트 내지 7번 비트에 포함된 Video file format 필드 및 아홉 번째 바이트의 4번 비트 내지 7번 비트에 포함된 Audio file format 필드는, 미디어 재생 장치(1000)가 지원할 수 있는 파일 포맷(file format)에 대한 정보를 포함할 수 있다. Image file format 필드, Video file format 필드 및 Audio file format 필드는 미디어 재생 장치(1000)가 지원할 수 있는 파일 포맷을 나타내기 위해 적어도 하나의 플래그를 사용할 수 있다.

일 예시에서, Image file format 필드에 할당된 4개의 비트들은 1비트씩, JPEG 플래그, PNG 플래그, bmp 플래그 등을 포함할 수 있다. 또한, Video file format 필드에 할당된 4개의 비트들은 1비트씩, mp4 플래그, mpeg-2 플래그 등을 포함할 수 있다. 또한, Audio file format 필드에 할당된 4개의 비트들은 1비트씩, wav 플래그, mp3 플래그 등을 포함할 수 있다. 이때 미디어 재생 장치(1000)에서 지원되는 포맷은 1로, 지원되지 않는 포맷은 0으로 표시될 수 있다.

표 4에서는 Image file format 필드, Video file format 필드 및 Audio file format 필드가 4개의 비트씩을 포함하는 것으로 도시되어 있으나, 이는 일 예시에 불과하다. Image file format 필드, Video file format 필드 및 Audio file format 필드 각각이 포함하는 비트의 수는 각 필드가 포함하는 포맷의 개수에 따라 달라질 수 있다.

VR static metadata block의 아홉 번째 바이트의 0번 비트 내지 3번 비트에 포함된 3D format 필드는 미디어 재생 장치(1000)가 지원할 수 있는 3차원 파일 포맷에 대한 정보를 포함할 수 있다. 미디어 재생 장치(1000)가 지원할 수 있는 3차원 파일 포맷은, 예를 들어 side-by-side, top-and-bottom과 같이 하나의 프레임(frame)에 left/right가 모두 포함된 것을 의미할 수 있고, 독립된 left-right 각각의 프레임으로 구성되는 것을 의미할 수도 있다. 미디어 처리 장치(900)는 미디어 재생 장치(1000)에서 지원할 수 있는 포맷에 맞게 미디어 데이터를 처리하여 미디어 재생 장치(1000)로 전송할 수 있다.

VR static metadata block의 열 번째 바이트에 포함된 Device computing power 필드는 미디어 재생 장치(1000)의 컴퓨팅 전력(computing power)에 대한 정보를 포함할 수 있다. 미디어 재생 장치(1000)의 컴퓨팅 전력(computing power)은, 예를 들어 CPU, RAM 등이 있다. 미디어 처리 장치(900)는 미디어 재생 장치(1000)의 컴퓨팅 전력을 고려하여, 가장 적합한 미디어 컨텐츠를 미디어 재생 장치(1000)로 제공할 수 있다. 예를 들어, 미디어 처리 장치(900)에서 일반적으로 처리되는 미디어 데이터의 사양을 미디어 재생 장치(1000)의 컴퓨팅 전력이 수용하지 못하는 경우, 미디어 처리 장치(900)는 일반적으로 처리되는 미디어 데이터의 사양을 다운그레이드(downgrade)한 후 미디어 재생 장치(1000)로 전송할 수 있다.

다시 표 3으로 돌아가서, 표 3의 확장 태그 코드 9번 VR dynamic metadata block의 예시는 아래의 표 5와 같다.

<표 5>

표 5에서 첫 번째 바이트의 상위 3비트는 CTA 데이터 블록의 태그 코드를 의미하고, 하위 5비트는 해당 CTA 데이터 블록의 길이(length)를 의미하며, 두 번째 바이트는 확장 데이터 블록의 확장 태그 코드를 의미할 수 있다. 표 5는 VR dynamic metadata block에 대해 도시하고 있으므로, 첫 번째 바이트의 상위 3비트는 태그 코드 인덱스 7을 지시하고, 두 번째 바이트는 확장 태그 코드 인덱스 9(0x09)를 지시하고 있다.

VR dynamic metadata block의 세 번째 바이트의 0번 비트 내지 3번 비트에 포함된 User's age 필드는 사용자의 나이 정보를 포함할 수 있다. 미디어 재생 장치(1000)에서 사용자가 나이를 입력하면, 사용자의 나이 정보는 User's age 필드에 포함되어 미디어 처리 장치(900)로 전송될 수 있다. 미디어 처리 장치(900)는 사용자의 나이 정보를 기반으로, 각 연령대에 적합한 색상 대비(Contrast), 색상 밝기(Brightness), 색상 채도(Saturation), 색상 색조(Hue) 등에 대한 최적 값을 획득할 수 있고, 획득한 최적 값을 기반으로 해당 미디어 컨텐츠의 색상 대비(Contrast), 색상 밝기(Brightness), 색상 채도(Saturation), 색상 색조(Hue) 등을 조정할 수 있다. 또한, 미디어 처리 장치(900)는 사용자의 나이 정보를 기반으로 해당 미디어 컨텐츠의 장르(genre), 레이팅(rating)에 기반한 추천 컨텐츠 등을 변경할 수 있다.

VR dynamic metadata block의 세 번째 바이트의 4번 비트 내지 5번 비트에 포함된 Color blindness 필드는 색맹(color blindness) 정보를 포함할 수 있다. 예를 들어, 색맹 정보는 인덱스 0을 통해 미디어 재생 장치(1000)의 사용자가 색맹이 아님을 나타내고, 인덱스 1을 통해 사용자가 적록 색맹임을 나타내고, 인덱스 2를 통해 사용자가 황청 색맹임을 나타내고, 인덱스 3을 통해 사용자가 모든 색깔에 대하여 색맹임을 나타낼 수 있다. 미디어 처리 장치(900)는 사용자의 색맹의 종류에 따라서 미디어 컨텐츠의 색상을 조정하여 미디어 재생 장치(1000)로 전송할 수 있다.

VR dynamic metadata block의 세 번째 바이트의 6번 비트 내지 7번 비트에 포함된 Dominant eye 필드는 사용자의 도미넌트 아이(dominant eye)에 대한 정보를 포함할 수 있다. 사용자의 도미넌트 아이, 즉 우세 눈은 미디어 재생 장치(1000)에 사용자가 입력하거나, 미디어 재생 장치(1000)가 센싱(sensing)할 수 있다. 일 예시에서, 사용자의 도미넌트 아이에 대한 정보는 인덱스 0을 통해 사용자가 오른눈 잡이(즉, 사용자가 오른쪽 안구를 통해 획득한 시각적 정보를 상대적으로 많이 이용)임을 나타내고, 인덱스 1을 통해 사용자가 왼눈 잡이(즉, 사용자가 왼쪽 안구를 통해 획득한 시각적 정보를 상대적으로 많이 이용)임을 나타내고, 인덱스 2를 통해 사용자가 양눈 잡이(즉, 사용자가 양쪽 안구를 통해 획득한 시각적 정보를 골고루 이용)임을 나타낼 수 있다. 미디어 처리 장치(900)는 사용자의 도미넌트 아이에 대한 정보를 기반으로 도미넌트 아이의 영상을 기준으로 다른 뷰(view)의 영상의 위치를 찾아서 사용자가 설정한 중심에 렌더링 되도록 그 위치를 조정할 수 있고, 서브타이틀이나 그래픽 등 중요 정보를 배치할 위치를 결정할 수 있다.

VR dynamic metadata block의 네 번째 바이트에 포함된 User's left eyesight 필드 및 다섯 번째 바이트에 포함된 User's right eyesight 필드는 사용자의 시력에 대한 정보를 포함할 수 있다. 사용자의 시력에 대한 정보는, 미디어 재생 장치(1000)에서 사용자가 설정한 사용자 본인의 시력 값일 수 있다. 미디어 처리 장치(900)는 사용자의 시력에 대한 정보를 기반으로, 해당 시력에 적합한 색상 대비(Contrast), 색상 밝기(Brightness), 색상 채도(Saturation), 색상 색조(Hue) 등을 획득할 수 있고, 획득된 정보를 기반으로 미디어 컨텐츠의 색상 대비, 색상 밝기, 색상 채도, 색상 색조 등을 조정하여 미디어 재생 장치(1000)로 전송할 수 있다. 또한, 왼쪽 눈과 오른쪽 눈 간의 시력 차가 소정 값 이상인 경우, 시력 보정을 위해 미디어 컨텐츠에 후처리를 수행할 수도 있다.

VR dynamic metadata block의 여섯 번째 바이트의 0번 비트 내지 3번 비트에 포함된 User's preferred genre 필드는 사용자의 선호도 정보를 포함할 수 있다. 미디어 처리 장치(900)는 사용자의 선호도를 기반으로 추천 컨텐츠 리스트를 결정한 후 미디어 재생 장치(1000)로 전송할 수 있다.

한편, 표 5에 따른 예시에서는 User's age, dominant eye, User's left/right eye sight, User's preferred genre 필드 등을 통해 색상 대비(Contrast), 색상 밝기(Brightness), 색상 채도(Saturation), 색상 색조(Hue) 등을 조정하는 것에 대하여 설명하고 있으나, 본 발명에 따른 실시예가 상기 예시에 한정되는 것은 아니다. 예를 들어, 미디어 재생 장치(1000)는 색상 대비(Contrast), 색상 밝기(Brightness), 색상 채도(Saturation), 색상 색조(Hue) 등의 조정 값을 직접적으로 시그널링하거나, 각종 필터 적용에 따른 영상의 변형 또는 주파수 영역에서의 영상 변환(영상 신호를 주파수 신호로 변환한 후 고주파 신호 또는 사람이 민감하게 반응하는 주파수 영역의 신호를 강조하는 경우 선명도를 향상시킬 수 있음)을 고려하여 시그널링할 수도 있다.

VR dynamic metadata block의 여섯 번째 바이트의 4번 비트에 포함된 preferred frame rate flag 필드는 사용자가 선호 프레임 레이트(preferred frame rate)로의 변환을 요청하는지 여부에 대한 정보를 포함할 수 있다. 선호 프레임 레이트는, 예를 들어 미디어 재생 장치(1000)가 지원할 수 있는 최대의 프레임 레이트 또는 사용자가 설정한 프레임 레이트를 의미할 수 있다. 다만 선호 프레임 레이트가 의미하는 바는 상기된 바에 한정되지 않는다.

VR dynamic metadata block의 여섯 번째 바이트의 viewport-dependent processing setting 필드는 사용자의 뷰포트(viewport)를 고려할지 여부에 대한 정보를 포함할 수 있다. 사용자의 뷰포트를 고려할지 여부에 대한 정보는, 예를 들어 인덱스 0을 통해 사용자의 뷰포트를 고려하지 않고, 고정된(fixed) 뷰포트의 영상을 미디어 처리 장치(900)에서 복호화하고 미디어 재생 장치(1000)로 전송하여 렌더링할 것을 나타내고, 인덱스 1을 통해 사용자의 뷰포트의 영상을 미디어 처리 장치(900)에서 복호화하고 미디어 재생 장치(1000)로 전송하여 렌더링할 것을 나타내고, 인덱스 2를 통해 추천 뷰포트(recommended viewport)의 영상을 미디어 처리 장치(900)에서 복호화하고 미디어 재생 장치(1000)로 전송하여 렌더링할 것을 나타낼 수 있다. 한편 사용자의 뷰포트와 관련된 위치 정보는 USB를 통해 미디어 재생 장치(1000)에서 미디어 처리 장치(900)로 전송될 수 있다.

VR dynamic metadata block의 일곱 번째 바이트의 0번 비트 내지 3번 비트에 포함된 User's preferred display mode 필드는 사용자가 선호하는 디스플레이 모드에 대한 정보를 포함할 수 있다. 사용자가 선호하는 디스플레이 모드는, 예를 들어 영화관 모드, 게임 모드, 나이트뷰(night view) 모드, sRGB 모드, 읽기 모드, 암실 모드, 선명 모드, 부드러운 모드 등을 포함할 수 있다. 미디어 처리 장치(900)는 사용자가 선호하는 디스플레이 모드에 대한 정보를 기반으로 미디어 데이터를 처리하여 미디어 재생 장치(1000)로 전송할 수 있고, 미디어 재생 장치(1000)는 수신한 미디어 데이터를 기반으로 한 영상의 색상 대비, 색상 밝기 등을 조절할 수 있으며, 미디어 재생 장치(1000) 및 미디어 데이터의 상황에 적합한 색상을 구현할 수 있다.

VR dynamic metadata block의 일곱 번째 바이트의 4번 비트 내지 7번 비트에 포함된 User's preferred color temperature 필드는 사용자가 선호하는 색상 온도(color temperature)에 대한 정보를 포함할 수 있다. 사용자가 선호하는 색상 온도에 대한 정보는, 예를 들어 사용자가 원하는 색상 온도로 미디어 컨텐츠를 변환해야 하는지 여부에 대한 정보 및 사용자가 원하는 색상 온도 설정 값에 대한 정보를 포함할 수 있다.

색상 온도를 변환하는 일 예시로 블루 라이트 필터(blue light filter)의 적용이 있다. 상기 사용자가 선호하는 색상 온도에 대한 정보는 블루 라이트 필터의 적용 정도에 관한 정보, 블루 라이트 필터가 적용된 영상의 색감을 블루 라이트 필터 적용 전 영상과 유사하게 보정할지 여부에 대한 정보 등도 포함할 수 있다.

VR dynamic metadata block의 여덟 번째 바이트에 포함된 Azimuth center offset 필드, 아홉 번째 바이트에 포함된 Elevation center offset 필드 및 열 번째 바이트에 포함된 Tilt center offset 필드는 VR 미디어가 디스플레이 되는 위치를 조정할지 여부에 대한 정보를 나타낼 수 있다. 미디어 재생 장치(1000)가 계산한 영상의 디스플레이 위치와 사용자 원하는 영상의 디스플레이 위치가 상이할 수 있으므로, 영상의 디스플레이 위치를 보정하기 위한 오프셋값이 설정될 수 있다. 미디어 처리 장치(900)는 수신한 Azimuth center offset 정보, Elevation center offset 정보 및 Tilt center offset 정보를 기반으로 영상의 위치를 조정할 수 있다.

VR dynamic metadata block의 열 번째 바이트에 포함된 Horizontal range offset 필드 및 열한 번째 바이트에 포함된 Vertical range offset 필드는 VR 미디어의 레인지(range)의 조정(adjustment)에 대한 정보를 포함할 수 있다. 예를 들어 사용자가 미디어 재생 장치(1000)의 레인지 값보다 작은 레인지로 미디어의 영상을 시청하고자 하는 경우, 사용자는 Horizontal range offset 값 및 Vertical range offset 값을 입력한 후 Horizontal range offset 필드 및 Vertical range offset 필드를 통해 미디어 처리 장치(900)로 시그널링함으로써, 미디어 처리 장치(900)가 미디어의 레인지를 조정하도록 할 수 있다.

다시 표 3으로 돌아가서, 표 3의 확장 태그 코드 10번 AR static metadata block 필드의 예시는 아래의 표 6과 같다.

<표 6>

표 6에서 첫 번째 바이트의 상위 3비트는 CTA 데이터 블록의 태그 코드를 의미하고, 하위 5비트는 해당 CTA 데이터 블록의 길이(length)를 의미하며, 두 번째 바이트는 확장 데이터 블록의 확장 태그 코드를 의미할 수 있다. 표 6은 AR static metadata block에 대해 도시하고 있으므로, 첫 번째 바이트의 상위 3비트는 태그 코드 인덱스 7을 지시하고, 두 번째 바이트는 확장 태그 코드 인덱스 10(0x0A)을 지시하고 있다.

표 6의 AR static metadata block의 세 번째 바이트 내지 열 번째 바이트는 표 4의 VR static metadata block의 세 번째 바이트 내지 열 번째 바이트와 동일한 필드를 포함하고 있으므로, 표 4에서 상술된 내용에 대한 설명은 생략하기로 한다.

AR static metadata block의 열한 번째 바이트의 0번 비트 내지 2번 비트에 포함된 STD 필드는 미디어 재생 장치(1000)의 AR 글라스(glass)의 투명도(see-through)에 대한 정보를 포함할 수 있다. AR 글라스의 투명도의 단위는 퍼센트로 나타날 수 있으며, AR 글라스의 투명도에 대한 정보는, 예를 들어 인덱스 0을 통해 투명도 90%를 나타내고, 인덱스 1을 통해 투명도 85%를 나타내고, 인덱스 2를 통해 투명도 80%를 나타내고, 인덱스 3을 통해 투명도 75%를 나타내는 방식으로 시그널링 될 수 있다.

AR static metadata block의 열한 번째 바이트의 3번 비트 내지 5번 비트에 포함된 STC 필드는 AR 글라스의 디스플레이의 색상에 대한 정보를 나타낼 수 있다. AR 글라스의 디스플레이의 색상에 대한 정보는, 예를 들어 인덱스 0을 통해 검정색(black)을 나타내고, 인덱스 1을 통해 초록색(green)을 나타내고, 인덱스 2를 통해 빨간색(red)을 나타내고, 인덱스 3을 통해 파란색(blue)을 나타낼 수 있다.

일 실시예에 따른 미디어 처리 장치(900)는 AR 글라스의 투명도에 대한 정보 및 AR 글라스의 디스플레이의 색상에 대한 정보를 기반으로, 미디어 컨텐츠의 색상 대비, 색상 밝기, 색상 채도, 색상 색조 등을 조정할 수 있다.

AR static metadata block의 열두 번째 바이트에 포함된 Display horizontal size 필드 및 열세 번째 바이트에 포함된 Display vertical size 필드는 실제 디스플레이의 수평(horizontal) 또는 수직(vertical) 방향 사이즈에 대한 정보를 포함할 수 있다. 실제 디스플레이의 수평(horizontal) 또는 수직(vertical) 방향 사이즈의 단위는 mm로 나타날 수 있으며, 경우에 따라서는 수평/수직에 대한 구분 없이 실제 디스플레이의 대각선의 사이즈를 inch 단위로 나타낼 수도 있다. 실제 디스플레이의 대각선의 사이즈를 inch 단위로 나타내는 경우에는 실제 디스플레이의 대각선의 사이즈(inch)에 100을 곱한 값을 시그널링할 수 있다. 또한, Display horizontal size 필드 및 Display vertical size 필드 중 적어도 하나는 디스플레이에서 제공 가능한 공간 해상도(spatial resolution) 정보를 추가적으로 포함할 수 있다.

AR static metadata block의 열네 번째 바이트에 포함된 Virtual display horizontal size 필드, 열다섯 번째 바이트에 포함된 Virtual display vertical size 필드 및 열여섯 번째 바이트에 포함된 Projected distance 필드는 투영 거리(projected distance)에 따른 가상 디스플레이의 수평 또는 수직 방향 사이즈에 대한 정보를 포함할 수 있다. 투영 거리 및 투명 거리에 따른 가상 디스플레이의 수평 또는 수직 방향 사이즈의 단위는 m로 나타날 수 있으며, 경우에 따라서는 수평/수직에 대한 구분 없이 가상 디스플레이의 대각선의 사이즈를 inch 단위로 나타낼 수도 있다. 가상 디스플레이의 대각선의 사이즈를 inch 단위로 나타내는 경우에는 가상 디스플레이의 대각선의 사이즈(inch)에 100을 곱한 값을 시그널링할 수 있다.

AR static metadata block의 열일곱 번째 바이트에 포함된 Included sensors 필드는 AR 글라스에 포함된 센서에 대한 정보를 포함할 수 있다. Included sensors 필드는, 예를 들어 열일곱 번째 바이트에서 1비트씩, 각 센서의 포함 여부를 지시하는 플래그를 포함할 수 있다. AR 글라스에 포함될 수 있는 센서는, 예를 들어 GPS, 콤파스(compass), 자이로스코프(gyroscope), 자력계(magnetometer), 가속도계(accelerometer), 기압계(barometer), 근접(proximity) 센서, 터치 센서, 게이즈 트래킹(gaze tracking) 센서 등을 포함할 수 있으며, 이에 한정되지 않는다.

일 실시예에 따른 AR 글라스에 포함된 센서에 대한 정보는, AR 글라스에 포함된 센서의 종류뿐만 아니라, 해당 센서가 처리할 수 있는 범위(capability)에 대한 정보를 추가적으로 포함할 수 있다. 해당 센서가 처리할 수 있는 범위에 대한 정보는 EDID 또는 인포프레임을 확장하여 표현될 수 있다. EDID를 확장하는 경우 미디어 재생 장치(1000)는 AR 글라스에 포함된 센서 자체가 처리할 수 있는 범위의 최소값(min) 또는 최대값(max)을 미디어 처리 장치(900)에게 알려줄(inform) 수 있고, 인포프레임을 확장하는 경우 미디어 처리 장치(900)는 변환된 센서 데이터값(예를 들어, 최소값 또는 최대값)을 미디어 재생 장치(1000)에게 알려줄(inform) 수 있다.

AR static metadata block의 열여덟 번째 바이트의 0번 비트 내지 1번 비트에 포함된 Number of cameras 필드는 AR 글라스에 포함된 적어도 하나의 카메라의 개수에 대한 정보를 포함할 수 있다.

AR static metadata block의 열여덟 번째 바이트의 2번 비트 내지 7번 비트에 포함된 Camera id 필드는 AR 글라스에 포함된 적어도 하나의 카메라의 ID(Identification)에 대한 정보를 포함할 수 있다. 보다 구체적으로, AR 글라스에 포함된 적어도 하나의 카메라가 각각의 인터페이스(interface)를 이용하는 경우, 미디어 처리 장치(900)는 AR 글라스에 포함된 적어도 하나의 카메라의 ID에 대한 정보를 기반으로 AR 글라스에 포함된 적어도 하나의 카메라 각각 및 그와 대응되는 인터페이스를 구분할 수 있다.

다만 실시예는 이에 한정되지 않으며, 예를 들어 AR 글라스에 포함된 적어도 하나의 카메라는 모두 같은 인터페이스를 이용할 수도 있다. 이러한 경우에는 AR 글라스에 포함된 적어도 하나의 카메라는 AR static metadata block의 열아홉 번째 바이트 내지 스물세 번째 바이트에 포함된 카메라 관련 정보들을 공유할 수 있다.

AR static metadata block의 열아홉 번째 바이트 내지 스물두 번째 바이트에 포함된 Camera position x offset 필드, Camera position y offset 필드, Camera position z offset 필드 및 Basis position for camera position 필드는 AR 글라스에 포함된 적어도 하나의 카메라의 위치에 대한 정보를 포함할 수 있다. Basis position for camera position 필드는 AR 글라스에 포함된 적어도 하나의 카메라의 위치를 도출하기 위한 기준점이 되는 위치에 대한 정보를 포함할 수 있다. Camera position x offset 필드 및 Camera position y offset 필드는 기준점이 되는 위치를 기준으로 카메라가 x축 및 y축 방향으로 얼마나 떨어져 있는지에 대한 정보를 포함할 수 있다. 또한, 기준점이 되는 위치와 카메라의 위치 간에 뎁스(depth) 차이가 존재할 수도 있으므로, Camera position z offset 필드는 기준점이 되는 위치와 카메라의 위치 간의 뎁스 차이를 시그널링할 수 있다. Camera position x offset 필드, Camera position y offset 필드, Camera position z offset 필드 및 Basis position for camera position 필드에 포함된 정보를 기반으로 AR 글라스에 포함된 적어도 하나의 카메라의 위치가 도출될 수 있다.

AR static metadata block의 스물세 번째 바이트 내지 스물다섯 번째 바이트에 포함된 Intrinsic parameters 필드와 AR static metadata block의 스물여섯 번째 바이트 내지 스물여덟 번째 바이트에 포함된 Extrinsic parameters 필드는 AR 글라스에 포함된 적어도 하나의 카메라 각각의 파라미터들에 대한 정보를 포함할 수 있다.

Intrinsic parameters 필드는 카메라 내부 파라미터에 대한 정보를 포함할 수 있다. 카메라 내부 파라미터에 대한 정보는 카메라 캘리브레이션(calibration)에 이용될 수 있다. 카메라 내부 파라미터는, 예를 들어 초점 거리(focal length; a, b), 주점(principal point; u, v), 비대칭계수(skew coefficient; skew_c = tanα) 등을 포함할 수 있다. 카메라 내부 파라미터는 아래의 수학식 5의 행렬(A)로 표현될 수 있다.

Extrinsic parameters 필드는 카메라 외부 파라미터에 대한 정보를 포함할 수 있다. 카메라 외부 파라미터는 카메라의 위치를 파악하는데 이용될 수 있다. 또한, 카메라 외부 파라미터는 카메라 캘리브레이션을 위한 카메라 좌표계와 월드 좌표계 간의 변환 관계를 설명하는데 이용될 수 있으며, 보다 구체적으로는 카메라 좌표계와 월드 좌표계 간의 회전(rotation) 및 평행이동(translation) 변환을 위해 이용될 수 있다. 카메라 외부 파라미터는 아래의 수학식 6의 행렬(P)로 표현될 수 있다.

수학식 6에서 R은 월드 좌표계의 원점을 중심으로 회전한 정도로서 3x3 행렬로 나타나며, 카메라의 yaw, pitch 및 roll의 값으로 대체될 수 있다. t는 월드 좌표계의 원점으로부터 이동한 정도로서 3x1 벡터로 나타날 수 있다. 따라서, 카메라 외부 파라미터는 카메라가 월드 좌표계의 원점으로부터 움직인 정도를 3x4 행렬로 나타낼 수 있다.

다시 표 3으로 돌아가서, 표 3의 확장 태그 코드 11번 AR dynamic metadata block 필드의 예시는 아래의 표 7과 같다.

<표 7>

표 7에서 첫 번째 바이트의 상위 3비트는 CTA 데이터 블록의 태그 코드를 의미하고, 하위 5비트는 해당 CTA 데이터 블록의 길이를 의미하며, 두 번째 바이트는 확장 데이터 블록의 확장 태그 코드를 의미할 수 있다. 표 7은 AR dynamic metadata block에 대해 도시하고 있으므로, 첫 번째 바이트의 상위 3비트는 태그 코드 인덱스 7을 지시하고, 두 번째 바이트는 확장 태그 코드 인덱스 11(0x0B)을 지시하고 있다.

표 7의 AR dynamic metadata block에 개시된 필드들에 대한 설명은 표 5에서 전술한 바 있으므로, 표 7의 각 필드에 대한 설명은 생략하기로 한다.

한편, 표 3에서는 EDID의 확장 태그 코드 8번 내지 12번을 재생 장치 특정 VR 미디어 데이터, 사용자 특정 VR 미디어 데이터, 재생 장치 특정 AR 미디어 데이터 및 사용자 특정 AR 미디어 데이터로 분류하여 개시하였으나, 실시예가 이에 한정되는 것은 아니다. 예를 들어, EDID의 확장 태그 코드 8번 내지 12번은 아래의 표 8과 같이 구성될 수도 있다.

<표 8>

표 8의 확장 태그 코드 8번의 VR/AR display metadata block 필드는 VR/AR 디스플레이와 관련된 정보들을 포함할 수 있고, 확장 태그 코드 9번의 VR/AR device metadata block 필드는 VR/AR 미디어 재생 장치(1000)와 관련된 정보들을 포함할 수 있고, 확장 태그 코드 10번의 VR/AR audio metadata block 필드는 VR/AR 오디오와 관련된 정보들을 포함할 수 있다. 또한, 표 8의 확장 태그 코드 11번의 VR specific metadata 필드는 VR만의 고유 특성에 대한 정보를 추가적으로 포함할 수 있고, 확장 태그 코드 12번의 AR specific metadata 필드는 AR만의 고유 특성에 대한 정보를 추가적으로 포함할 수 있다. 물론, 표 8 또한 EDID의 확장 태그 코드 8번 내지 12번을 구성하는 일 예시에 불과하며, EDID의 확장 태그 코드 8번 내지 12번은 이외에도 다양한 방식으로 구성될 수 있음은 당해 기술 분야의 통상의 기술자에게 용이하게 이해될 것이다.

다시 표 2를 참조하면, EDID의 확장 태그 코드 21번 내지 31번에 Reserved for audio-related blocks 필드가 존재하는 것을 확인할 수 있다. 상기 필드에는 VR 또는 AR 서비스를 위한 미디어 재생 장치(1000)의 오디오와 관련된 재생 환경 정보가 포함될 수 있다.

일 실시예에 따른 재생 환경 정보는 AR 재생 환경 정보를 포함할 수 있고, AR 재생 환경 정보 중 일부는 EDID의 확장태그 코드 21번 내지 31번과 대응되는 Reserved for audio-related blocks 필드에 포함될 수 있다. Reserved for audio-related blocks 필드는, 예를 들어 확장 태그 코드 21번에 재생 장치 특정 AR 오디오 데이터를 표 9와 같이 포함할 수 있다.

<표 9>

표 9에서 확장 태그 코드 21번의 AR static metadata block for Audio 필드는 재생 장치 특정 AR 오디오 데이터를 나타낸다. 표 9에서는 AR static metadata block for Audio 필드가 확장 태그 코드 21번에 포함되는 것으로 개시되어 있으나, 상기 필드가 확장 태그 코드 21번 내지 31번 중 임의의 확장 태그 코드에 포함될 수 있음은 당해 기술 분야의 통상의 기술자에게 용이하게 이해될 것이다.

표 9의 확장 태그 코드 21번 AR static metadata block for Audio의 예시는 아래의 표 10과 같다.

<표 10>

표 10에서 첫 번째 바이트의 상위 3비트는 CTA 데이터 블록의 태그 코드를 의미하고, 하위 5비트는 해당 CTA 데이터 블록의 길이를 의미하며, 두 번째 바이트는 확장 데이터 블록의 확장 태그 코드를 의미할 수 있다. 표 10은 AR static metadata block for Audio에 대해 도시하고 있으므로, 첫 번째 바이트의 상위 3비트는 태그 코드 인덱스 7을 지시하고, 두 번째 바이트는 확장 태그 코드 인덱스 21(0x15)을 지시하고 있다.

AR static metadata block for Audio의 세 번째 바이트의 0번 비트에 포함된 SPKF(Included speaker flag) 필드는, AR 글라스에 적어도 하나의 스피커가 포함되는지 여부에 대한 정보를 포함할 수 있다.

AR static metadata block for Audio의 세 번째 바이트의 1번 비트 내지 7번 비트에 포함된 Number of speakers 필드는, AR 글라스에 포함된 적어도 하나의 스피커의 개수에 대한 정보를 포함할 수 있다. Number of speakers 필드의 시그널링은 각각의 스피커당 하나의 인터페이스가 존재하는 경우를 기준으로 한 것이나, 실시예는 이에 한정되지 않는다. 예를 들어, AR 글라스에 포함된 적어도 하나의 스피커가 하나의 인터페이스를 공유할 수도 있다. 이러한 예시에서는, AR 글라스에 포함된 적어도 하나의 스피커 모두에게 AR 글라스에 포함된 적어도 하나의 스피커 각각의 위치에 대한 정보를 전달할 수 있도록 시그널링이 확장될 수 있다.

AR static metadata block for Audio의 네 번째 바이트에 포함된 Speaker position 필드는 AR 글라스에 포함된 적어도 하나의 스피커 각각의 위치를 도출하기 위한 기준점의 위치 정보를 포함할 수 있다. 예를 들어, 상기 기준점의 위치 정보는, 기준점이 left 디스플레이의 중심점인지, right 디스플레이의 중심점인지, 또는 center 디스플레이의 중심점인지 여부에 대한 정보 등을 포함할 수 있다. 또한, 예를 들어 상기 기준점의 위치 정보는, 상기 기준점의 구체적인 위치 값을 좌표(coordinate)로 시그널링할 수도 있다.

AR static metadata block for Audio의 다섯 번째 바이트에 포함된 Speaker position x offset 필드, 여섯 번째 바이트에 포함된 Speaker position y offset 필드 및 일곱 번째 바이트에 포함된 Speaker position z offset 필드는, AR 글라스에 포함된 적어도 하나의 스피커 각각의 위치에 대한 정보를 나타낼 수 있다. Speaker position x offset 필드 및 Speaker position y offset 필드는 기준점이 되는 위치를 기준으로 스피커가 x축 및 y축 방향으로 얼마나 떨어져 있는지에 대한 정보를 포함할 수 있다. 또한, 기준점이 되는 위치와 스피커의 위치 간에 뎁스(depth) 차이가 존재할 수도 있으므로, Speaker position z offset 필드는 기준점이 되는 위치와 스피커의 위치 간의 뎁스 차이를 시그널링할 수 있다. Speaker position x offset 필드, Speaker position y offset 필드 및 Speaker position z offset 필드에 포함된 정보를 기반으로 AR 글라스에 포함된 적어도 하나의 스피커의 위치가 도출될 수 있다. AR 글라스에 포함된 적어도 하나의 스피커의 위치는 오디오를 렌더링할 때 고려될 수 있다.

AR static metadata block for Audio의 여덟 번째 바이트의 0번 비트에 포함된 MIC flag 필드는 AR 글라스에 적어도 하나의 마이크(MIC)가 포함되는지 여부에 대한 정보를 포함할 수 있다.

AR static metadata block for Audio의 여덟 번째 바이트의 1번 비트 내지 7번 비트에 포함된 MIC position 필드는 AR 글라스에 포함된 적어도 하나의 마이크 각각의 위치를 도출하기 위한 기준점의 위치 정보를 포함할 수 있다. 예를 들어, 상기 기준점의 위치 정보는, 기준점이 left 디스플레이의 중심점인지, right 디스플레이의 중심점인지, 또는 center 디스플레이의 중심점인지 여부에 대한 정보 등을 포함할 수 있다. 또한, 예를 들어 상기 기준점의 위치 정보는, 상기 기준점의 구체적인 위치 값을 좌표(coordinate)로 시그널링할 수도 있다.

AR static metadata block for Audio의 아홉 번째 바이트에 포함된 MIC position x offset 필드, 열 번째 바이트에 포함된 MIC position y offset 필드 및 열한 번째 바이트에 포함된 MIC position z offset 필드는, AR 글라스에 포함된 적어도 하나의 마이크 각각의 위치에 대한 정보를 나타낼 수 있다. MIC position x offset 필드 및 MIC position y offset 필드는 기준점이 되는 위치를 기준으로 마이크가 x축 및 y축 방향으로 얼마나 떨어져 있는지에 대한 정보를 포함할 수 있다. 또한, 기준점이 되는 위치와 마이크의 위치 간에 뎁스(depth) 차이가 존재할 수도 있으므로, MIC position z offset 필드는 기준점이 되는 위치와 마이크의 위치 간의 뎁스 차이를 시그널링할 수 있다. MIC position x offset 필드, MIC position y offset 필드 및 MIC position z offset 필드에 포함된 정보를 기반으로 AR 글라스에 포함된 적어도 하나의 마이크의 위치가 도출될 수 있다. AR 글라스에 포함된 적어도 하나의 마이크의 위치는 마이크에서 음성을 녹음할 때 도출되어 시그널링될 수 있고, 이후 스피커가 녹음된 음성을 재생할 때 스피커가 AR 글라스에 포함된 적어도 하나의 마이크의 위치를 고려하여 오디오를 렌더링할 수 있다.

한편, 상기된 offset 값들을 시그널링할 때 최상위 1비트는 부호 비트(예를 들어, +, -)로 이용할 수 있다. 또한, 스피커, 마이크 등의 위치 정보를 시그널링하기 위한 방법은 상기된 바에 한정되지 않으며, 보다 간소화된 방법을 이용하여 스피커, 마이크 등의 위치 정보를 시그널링할 수도 있다. 더불어, 마이크에 관한 정보는 EDID 대신 인포프레임에 포함될 수 있다. 인포프레임에 관한 구체적인 설명은 S1320에서 후술하기로 한다.

한편, 표 1 내지 표 10을 통해 미디어 재생 장치(1000)의 재생 환경 정보가 EDID를 포함하거나, 재생 환경 정보가 곧 EDID가 되는 경우에 관해 설명하였으나, 실시예는 이에 한정되지 않는다.

다른 일 실시예에 따른 미디어 재생 장치(1000)의 재생 환경 정보는 DisplayID를 포함할 수 있고, 경우에 따라서는 재생 환경 정보가 곧 DisplayID를 의미할 수도 있다.

일 예시에서, DisplayID의 데이터 블록을 아래의 표 11과 같이 정의할 수 있다.

<표 11>

표 11에 개시된 DisplayID의 데이터 블록은 Control option flag 필드, VR static metadata 필드, VR dynamic metadata 필드, AR static metadata 필드, AR dynamic metadata 필드 및 AR static metadata for Audio 필드 등을 포함하고 있다.

표 11의 VR static metadata 필드, VR dynamic metadata 필드, AR static metadata 필드, AR dynamic metadata 필드 및 AR static metadata for Audio 필드는, 표 3의 VR static metadata block 필드, VR dynamic metadata block 필드, AR static metadata block 필드, AR dynamic metadata block 필드 및 표 9의 AR static metadata block for Audio 필드와 각각 대응될 수 있다. 따라서 각 필드와 관련하여 중복된 내용에 대한 설명은 생략하기로 한다.

표 11의 Control option flag 필드는 미디어 처리 장치(900)에서 수행되는 후처리(post processing)의 제어에 대한 정보를 포함할 수 있다. Control option flag 필드는 사용자의 요청에 의하여 시그널링 되거나, 미디어 재생 장치(1000)의 기능적 판단에 의해(이때, 미디어 재생 장치(1000)의 처리 능력이 미디어 처리 장치(900)의 처리 능력보다 상위에 있어야 한다) 제어될 수 있다.

Control option flag 필드는, 예를 들어 아래의 표 12와 같은 정보를 포함할 수 있다.

<표 12>

표 12에서 Activate VR processing in source device based on VR static metadata 필드는 VR static metadata 필드에 관한 정보를 DisplayID의 데이터 블록의 offset 0x04 내지 0x11에 포함할 지 여부에 대한 정보를 나타내고, Activate VR processing in source device based on VR dynamic metadata 필드는 VR dynamic metadata 필드에 관한 정보를 DisplayID의 데이터 블록의 offset 0x12 내지 0x15에 포함할 지 여부에 대한 정보를 나타내고, Activate AR processing in source device based on AR static metadata 필드는 AR static metadata 필드에 관한 정보를 DisplayID의 데이터 블록의 offset 0x16 내지 0x41에 포함할 지 여부에 대한 정보를 나타내고, Activate AR processing in source device based on AR dynamic metadata 필드는 AR dynamic metadata 필드에 관한 정보를 DisplayID의 데이터 블록의 offset 0x42 내지 0x51에 포함할 지 여부에 대한 정보를 나타내고, Activate AR processing in source device based on AR Audio static metadata 필드는 AR static metadata for Audio 필드에 관한 정보를 DisplayID의 데이터 블록의 offset 0x52 내지 0x60에 포함할 지 여부에 대한 정보를 나타낼 수 있다. 표 12의 Reserved 필드는 향후 VR/AR 시스템의 개발에 따라 추가적으로 필드를 배치할 수 있는 공간을 의미한다.

다른 일 예시에서, DisplayID의 Display Parameters Data Block은 아래의 표 13과 같이 구성될 수 있다.

<표 13>

표 13의 Display Parameters Data Block은 영상의 수평 사이즈에 대한 정보를 포함하는 Horizontal image size 필드, 영상의 수직 사이즈에 대한 정보를 포함하는 Vertical image size 필드, 영상의 수평 픽셀 개수에 대한 정보를 포함하는 Horizontal pixel count 필드, 영상의 수직 픽셀 개수에 대한 정보를 포함하는 Vertical pixel count 필드, 디스플레이에서 지원 가능한 기능에 대한 플래그 정보를 포함하는 Feature Support Flags 필드, 전달 함수(transfer function)에서 사용되는 감마(gamma)에 대한 정보를 포함하는 Transfer Characteristic Gamma 필드, (display) Aspect Ratio 필드 및 Color Bit Depth 필드를 포함할 수 있다.

또한, 표 13에 개시된 필드와 더불어, Display Parameters Data Block 필드는 표 11에서 전술한 Control option flag 필드, VR static metadata 필드, VR dynamic metadata 필드, AR static metadata 필드, AR dynamic metadata 필드 및 AR static metadata for Audio 필드를 추가로 포함할 수 있다.

표 13의 Display Parameters Data Block은, 경우에 따라서는 VR 또는 AR 서비스를 제공받기 위한 미디어 재생 장치(1000)의 디스플레이와 관련된 정보들만 포함할 수도 있다. 이러한 경우, Display Parameters Data Block은 Control option flag 필드와 표 6의 세 번째 바이트 내지 열여섯 번째 바이트에 포함된 디스플레이 관련 필드들을 포함할 수 있다.

또 다른 일 예시에서, DisplayID에서 패널(panel) 자체의 특성을 정의하는 Display Device Data Block은 아래의 표 14와 같이 구성될 수 있다.

<표 14>

표 14의 Display Device Data Block은 디스플레이 디바이스의 종류에 대한 정보를 포함하는 Display Deivce Technology 필드, Device operating mode 필드, 픽셀 수로 나타낼 수 있는 영상 크기에 대한 정보를 포함하는 Device native pixel format 필드, Aspect ratio and orientation 필드, Sub-pixel layout/configuration/shape 필드, Horizontal and vertical dot/pixel pitch 필드, Color bit depth 필드 및 Response time 필드 등을 포함할 수 있다.

또한, 표 14에 개시된 필드와 더불어, Display Device Data Block 필드는 표 11에서 전술한 Control option flag 필드, VR static metadata 필드, VR dynamic metadata 필드, AR static metadata 필드, AR dynamic metadata 필드 및 AR static metadata for Audio 필드를 추가로 포함할 수 있다.

표 14의 Display Device Data Block은, 경우에 따라서는 VR 또는 AR 서비스를 제공받기 위한 미디어 재생 장치(1000)의 디스플레이와 관련된 정보들만 포함할 수도 있다. 이러한 경우, Display Device Data Block은 Control option flag 필드와 표 6의 세 번째 바이트 내지 열여섯 번째 바이트에 포함된 디스플레이 관련 필드들을 포함할 수 있다.

또 다른 일 예시에서, DisplayID에서 현재의 Data Block에 정의되지 않은 정보를 전송하기 위해 이용하는 Vendor-Specific Data Block은, 표 11에서 전술한 Control option flag 필드, VR static metadata 필드, VR dynamic metadata 필드, AR static metadata 필드, AR dynamic metadata 필드 및 AR static metadata for Audio 필드를 추가로 포함할 수 있다.

또 다른 일 예시에서, DisplayID에서 디스플레이 디바이스의 제조업체에 대한 정보, 디스플레이 디바이스의 시리얼 넘버(serial number), 제품 ID(product ID) 등을 제공하는 Product Identification Data Block은, 표 11에서 전술한 Control option flag 필드, VR static metadata 필드, VR dynamic metadata 필드, AR static metadata 필드, AR dynamic metadata 필드 및 AR static metadata for Audio 필드를 추가로 포함할 수 있다.

한편, 미디어 재생 장치(1000)의 재생 환경 정보는 전술한 EDID나 DisplayID에 한정되지 않는다. 예를 들어, 미디어 재생 장치(1000)의 재생 환경 정보는 EDID extension을 포함하거나, 재생 환경 정보가 곧 EDID extension이 될 수 있다. EDID extension의 일 예시는 아래의 표 15와 같다.

<표 15>

표 15에 개시된 바와 같이 EDID extension은 VR/AR Data Block을 포함할 수 있고, VR/AR Data Block은 VR static metadata block, VR dynamic metadata block, AR static metadata block, AR dynamic metadata block 및 AR static metadata block for Audio를 포함할 수 있다. VR/AR Data Block은 VR static metadata block, VR dynamic metadata block, AR static metadata block, AR dynamic metadata block 및 AR static metadata block for Audio에 대한 설명은 표 3 및 표 9에 대한 설명에서 전술한 바 있다.

한편, 표 15에서는 VR/AR Data Block이 VR static metadata block, VR dynamic metadata block, AR static metadata block, AR dynamic metadata block 및 AR static metadata block for Audio을 포함하는 것으로 개시하고 있으나, 이는 일 예시에 불과하다. 예를 들어, VR/AR Data Block은 표 8에서와 같이 VR/AR display metadata block, VR/AR device metadata block, VR/AR audio metadata block, VR specific metadata 및 AR specific metadata를 포함할 수도 있다.

일 실시예에 따른 미디어 처리 장치(900)는 미디어 재생 장치(1000)의 재생 환경 정보를 기반으로 미디어 비트스트림을 처리하여 미디어 신호를 생성할 수 있다(S1310).

일 실시예에 따른 미디어 처리 장치(900)는 생성된 미디어 신호의 특징 정보를 추출할 수 있다(S1320).

생성된 미디어 신호의 특징 정보는, 미디어 재생 장치(1000)의 재생 환경 정보를 기반으로 미디어 처리 장치(900)가 미디어 재생 장치(1000)에서 재생하는데 적합하도록 미디어를 처리하는 과정에 있어서, 어떠한 처리가 수행되었는지 여부에 대한 정보 및 처리 이후 변환된 값들에 대한 정보를 포함할 수 있다. 일 실시예에서, 생성된 미디어 신호의 특징 정보는 인포프레임(Infoframe)을 포함할 수 있다. 인포프레임은 CTA-861-G에 정의된 것을 의미할 수 있으나, 이에 한정되지 않는다.

인포프레임 타입 코드의 리스트는 아래의 표 16과 같을 수 있다.

<표 16>

표 16의 인포프레임 타입 코드 0x08-0x1F는 추후 기술 개발을 위해 남겨둔 필드를 의미하는데, 본 발명의 일 실시예에 따른 인포프레임 타입 코드 0x08은 VR display mode 필드를 나타내고, 인포프레임 타입 코드 0x09는 AR display mode 필드를 나타내고, 0x0A 필드는 AR audio rendering mode 필드를 나타낼 수 있다.

일 예시에서, 인포프레임 타입 코드 0x08과 대응되는 VR display mode 필드는 아래의 표 17과 같이 구성될 수 있다.

<표 17>

VR display mode InfoFrame의 첫 번째 바이트의 0번 비트 내지 3번 비트에 포함된 contents type 필드는 미디어 데이터의 타입에 대한 정보를 포함할 수 있다. 미디어 데이터의 타입은, 예를 들어 VR HMD용 미디어 데이터, fixed device용 미디어 데이터, AR 글래스용 미디어 데이터 등이 있다. contents type 필드는 예를 들어, VR HMD용 미디어 데이터인지 여부를 나타내는 플래그, fixed device용 미디어 데이터인지 여부를 나타내는 플래그, AR 글래스용 미디어 데이터인지 여부를 나타내는 플래그 등을 각각 하나의 비트에 할당하여 포함할 수 있다.

VR display mode InfoFrame의 첫 번째 바이트의 4번 비트에 포함된 3DCF 필드는 미디어가 3차원 이미지로 디스플레이 되는지 여부에 대한 정보를 포함할 수 있다. 예를 들어, 미디어가 2개의 분리된 영상인 경우, 3DCF 필드는 상기 미디어가 3차원 컨텐츠인지 또는 3차원 컨텐츠가 아닌지 여부에 대해 나타낼 수 있다.

VR display mode InfoFrame의 첫 번째 바이트의 5번 비트 내지 6번 비트에 포함된 LRO 필드는 미디어가 포함하는 이미지가 왼쪽-오른쪽 순서(Left-Right Order)로 디스플레이 되는지 여부에 대한 정보를 포함할 수 있다. 보다 구체적으로, LRO 필드는 미디어가 포함하는 이미지가 왼쪽(디스플레이)-오른쪽(디스플레이) 순서로 디스플레이 되는지, 오른쪽(디스플레이)-왼쪽(디스플레이) 순서로 디스플레이 되는지, 순서에 무관한지 등의 정보를 포함할 수 있다. 경우에 따라서는, LRO 필드는 왼쪽-오른쪽 순서로 만들어진 이미지 중, fixed device에 렌더링하여 1개의 이미지만을 전달 받은 경우에는 해당 이미지가 기존에 왼쪽용이었는지, 오른쪽용이었는지, 또는 왼쪽용-오른쪽용과 무관한지 등을 나타낼 수도 있다.

VR display mode InfoFrame의 두 번째 바이트의 0번 비트에 포함된 PCF(position control flag using dominant eye info) 필드는 도미넌트 아이에 대한 정보를 포함할 수 있다. 보다 구체적으로, 사용자의 도미넌트 아이가 왼쪽 눈인지, 오른쪽 눈인지 또는 사용자가 양눈 잡이인지 여부에 따라 영상의 위치가 변경될 수 있으므로, PCF 필드는 영상의 위치가 사용자의 도미넌트 아이를 기반으로 변경되었는지 여부에 대한 정보를 포함할 수 있다.

VR display mode InfoFrame의 두 번째 바이트의 1번 비트에 포함된 CCF(Contrast Control Flag) 필드는 색상 대비(contrast)가 변경되었는지 여부에 대한 정보를 포함할 수 있다. 예를 들어, CCF 필드는 색상 대비가 변경되었는지 여부를 나타내는 플래그를 포함할 수 있다.

VR display mode InfoFrame의 두 번째 바이트의 2번 비트에 포함된 BCF(Brightness Control Flag)는 색상 밝기(brightness)가 변경되었는지 여부에 대한 정보를 포함할 수 있다. 예를 들어, BCF 필드는 색상 밝기가 변경되었는지 여부를 나타내는 플래그를 포함할 수 있다.

VR display mode InfoFrame의 두 번째 바이트의 3번 비트에 포함된 SCF(Saturation Control Flag) 필드는 색상 채도(saturation)가 변경되었는지 여부에 대한 정보를 포함할 수 있다. 예를 들어, SCF 필드는 색상 채도가 변경되었는지 여부를 나타내는 플래그를 포함할 수 있다.

VR display mode InfoFrame의 두 번째 바이트의 4번 비트에 포함된 HCF(Hue Control Flag) 필드는 색상 색조(hue)가 변경되었는지 여부에 대한 정보를 포함할 수 있다. 예를 들어, HCF 필드는 색상 색조가 변경되었는지 여부를 나타내는 플래그를 포함할 수 있다.

VR display mode InfoFrame의 두 번째 바이트의 5번 비트에 포함된 CTF(Color Temperature Flag) 필드는 사용자가 선호하는 색상 온도로 변경되었는지 여부에 대한 정보를 포함할 수 있다. 예를 들어, CTF 필드는 사용자가 선호하는 색상 온도로 변경되었는지 여부를 나타내는 플래그를 포함할 수 있다. 사용자가 선호하는 색상 온도로 변경되었는지 여부를 나타내는 플래그가 1을 지시하는 경우, 미디어 처리 장치(900)는 사용자 설정에 따라 색감을 변형하여 미디어 재생 장치(1000)로 전송할 수 있다. 이때, 인포프레임은 사용자 설정에 따라 색감이 변형된 정도에 관한 정보를 포함할 수 있다.

VR display mode InfoFrame의 두 번째 바이트의 6번 비트 내지 7번 비트에 포함된 VT(Viewport Type) 필드는 사용자의 뷰포트가 고려되는지 여부에 대한 정보를 포함할 수 있다. 보다 구체적으로, VT 필드는 인덱스 0을 통해 현재의 영상이 사용자의 뷰포트에 기반한 것임을 나타낼 수 있고, 인덱스 1을 통해 현재의 영상이 사용자의 뷰포트와는 무관하며, 사용자가 설정한 뷰포트에 기반한 것임을 나타낼 수 있고, 인덱스 2를 통해 현재의 영상이 사용자의 뷰포트와는 무관하며, 추천 뷰포트에 기반한 것임을 나타낼 수 있다.

VR display mode InfoFrame의 세 번째 바이트의 0번 비트에 포함된 FFCF(File Format Control Flag) 필드는 미디어의 파일 포맷이 변경되었는지 여부에 대한 정보를 포함할 수 있다. 만약 미디어 재생 장치(1000)에서 지원하지 않는 파일 포맷으로 이미지, 비디오, 오디오 또는 3D 포맷이 생성된 경우, 파일 포맷을 변경할 필요가 있다. FFCF 필드는 플래그를 통해 미디어의 파일 포맷이 변경되었는지 여부에 대한 정보를 포함할 수 있다.

VR display mode InfoFrame의 세 번째 바이트의 1번 비트 내지 2번 비트에 포함된 CBCF(Color Blindness Control Flag) 필드는 사용자의 색맹 여부를 기반으로 미디어의 색상이 변경되었는지 여부에 대한 정보를 포함할 수 있다. 예를 들어, CBCF 필드는 인덱스 0을 통해 미디어 컨텐츠의 색상이 변환되지 않았음을 나타내고, 인덱스 1을 통해 사용자가 적록 색맹임을 고려하여 미디어 컨텐츠의 색상이 변환되었음을 나타내고, 인덱스 2를 통해 사용자가 황청 색맹임을 고려하여 미디어 컨텐츠의 색상이 변환되었음을 나타낼 수 있다.

VR display mode InfoFrame의 네 번째 바이트에 포함된 x offset 필드 및 다섯 번째 바이트에 포함된 y offset 필드는 사용자의 도미넌트 아이에 대한 정보를 기반으로 미디어가 포함하는 이미지의 위치가 변경된 정도에 대한 정보를 포함할 수 있다. 다시 말해, x offset 필드 및 y offset 필드는 PCF 필드에 포함된 플래그가 1을 지시하는 경우에 미디어가 포함하는 이미지의 위치가 변경된 정도에 대한 정보를 포함할 수 있다. 이때 x offset 필드 및 y offset 필드의 최상위 비트는 부호를 나타내기 위한 비트로 이용될 수 있다.

VR display mode InfoFrame의 여섯 번째 바이트에 포함된 contrast offset 필드는 색상 대비가 변경된 정도에 대한 정보를 포함할 수 있다. 색상 대비가 변경된 정도는 %로 표시될 수 있으며, contrast offset 필드의 최상위 비트는 부호를 나타내기 위한 비트로 이용될 수 있다.

VR display mode InfoFrame의 일곱 번째 바이트에 포함된 brightness offset 필드는 상기 색상 밝기가 변경된 정도에 대한 정보를 포함할 수 있다. 색상 밝기가 변경된 정보는 %로 표시될 수 있으며, 예를 들어 0%는 흑색을 나타낼 수 있고, 100%는 백색을 나타낼 수 있다. brightness offset 필드의 최상위 비트는 부호를 나타내기 위한 비트로 이용될 수 있다.

VR display mode InfoFrame의 여덟 번째 바이트에 포함된 saturation offset 필드는 색상 채도가 변경된 정도에 대한 정보를 포함할 수 있다. 색상 채도는 특정 색상의 색의 양으로서, 0~100%로 표시될 수 있다. saturation offset 필드의 최상위 비트는 부호를 나타내기 위한 비트로 이용될 수 있다.

VR display mode InfoFrame의 아홉 번째 바이트 및 열 번째 바이트의 0번 비트 내지 1번 비트에 포함된 hue offset 필드는 색상 색조가 변경된 정도에 대한 정보를 포함할 수 있다. 색상 색조는는 각도로 표시될 수 있으며, 예를 들어 0도가 적색, 60도가 황색, 120도가 녹색, 180도가 청록색, 240도가 청색, 300도가 적보라색이 될 수 있다. hut offset 필드의 최상위 비트는 부호를 나타내기 위한 비트로 이용될 수 있다.

VR display mode InfoFrame의 열 번째 바이트의 2번 비트 내지 3번 비트에 포함된 Color 1 필드 및 4번 비트 내지 5번 비트에 포함된 Color 2 필드, 열한 번째 바이트에 포함된 Color offset 1 필드 및 열두 번째 바이트에 포함된 Color offset 2 필드는 사용자의 색맹 여부를 기반으로 미디어의 색상이 변경된 정도에 대한 정보를 포함할 수 있다. 사용자가 적록색맹 또는 황청 색맹인 경우, Color 1 필드 및 Color 2 필드는 사용자가 색맹임을 고려하여 변환된 색상에 대한 정보를 포함할 수 있다. 또한, Color offset 1 필드 및 Color offset 2 필드는 Color 1 및 Color 2로부터 색상이 어떻게 변환되었는지에 대한 offset 값을 포함할 수 있다. Color offset 1 필드 및 Color offset 2 필드의 최상위 비트는 부호를 나타내기 위한 비트로 이용될 수 있다.

VR display mode InfoFrame의 열세 번째 바이트에 포함된 File format 필드는 미디어의 변경된 파일 포맷에 대한 정보를 포함할 수 있다. 다시 말해, 미디어의 파일 포맷이 변경되었는지 여부에 대한 정보에 포함된 플래그가 1을 지시하는 경우, File format 필드는 미디어의 변경된 파일 포맷이 무엇인지에 대한 정보를 포함할 수 있다.

VR display mode InfoFrame의 14번째 내지 17번째 바이트에 포함된 Azimuth center 필드, 18번째 내지 21번째 바이트에 포함된 Elevation center 필드 및 22번째 내지 25번째 바이트에 포함된 Tilt center 필드는 뷰포트의 위치에 대한 정보를 포함할 수 있다. 전술한 VT 필드가 인덱스 1을 지시하는 경우, 뷰포트의 위치에 대한 정보는 사용자가 설정한 뷰포트의 위치에 대한 정보를 나타낼 수 있다. 전술한 VT 필드가 인덱스 2를 지시하는 경우, 뷰포트의 위치에 대한 정보는 추천 뷰포트의 위치에 대한 정보를 나타낼 수 있으며, 이때 추천 뷰포트의 위치는 추가적으로 미세 조정될 수 있다. 전술한 VT 필드가 인덱스 0을 지시하는 경우, 뷰포트의 위치에 대한 정보는 사용자의 뷰포트의 위치에 대한 정보를 나타낼 수 있으며, 이때 미디어 재생 장치(1000)가 산출한 사용자의 뷰포트의 위치 정보와 실제 사용자가 원하는 위치가 상이한 경우 사용자의 뷰포트의 위치 정보가 미세 조정될 수 있다.

뷰포트의 위치에 대한 정보는 Azimuth center, Elevation center, Tilt center와 더불어 horizontal range 및 vertical range에 대한 정보도 추가적으로 포함할 수 있다.

한편, 표 17의 인포프레임에서는 변경된 값의 시그널링에 대하여 주로 개시하고 있으나, 다른 일 예시에 따른 인포프레임은 오리지널(original) 값에 대한 시그널링도 포함할 수도 있다. 또한, 표 17에 따른 인포프레임에서 포함한 모든 값들은 USB 등을 통해 미디어 재생 장치(1000)로 전달될 수도 있다.

다음으로, 인포프레임 타입 코드 0x09와 대응되는 AR display mode 필드는 아래의 표 18과 같이 구성될 수 있다.

<표 18>

표 18에서, 표 17과 중복하여 기재된 필드에 대한 구체적인 설명은 생략하기로 한다.

AR display mode InfoFrame의 두 번째 바이트의 7번 비트에 포함된 STDF 필드는 미디어 재생 장치(1000)의 AR 글라스의 투명도에 따라 미디어의 이미지가 변환되었는지 여부에 대한 정보를 포함할 수 있다. AR 글라스의 투명도에 따라 미디어의 이미지가 변환되었는지 여부에 대한 정보는 플래그로 표시될 수 있다. 플래그가 1을 지시하는 경우, 인포프레임은 변환된 이미지의 색상 대비, 색상 밝기, 색상 채도, 색상 색조 등에 대한 정보를 포함할 수 있다.

AR display mode InfoFrame의 두 번째 바이트의 6번 비트에 포함된 STCF 필드는 미디어 재생 장치(1000)의 AR 글라스의 디스플레이의 색상에 따라 미디어의 이미지가 변환되었는지 여부에 대한 정보를 포함할 수 있다. AR 글라스의 디스플레이의 색상에 따라 미디어의 이미지가 변환되었는지 여부에 대한 정보는 플래그로 표시될 수 있다. 플래그가 1을 지시하는 경우, 인포프레임은 변환된 이미지의 색상 대비, 색상 밝기, 색상 채도, 색상 색조 등에 대한 정보를 포함할 수 있다.

표 18은 AR 글라스의 투명도에 따라 미디어의 이미지가 변환되었는지 여부에 대한 정보 및 AR 글라스의 디스플레이의 색상에 따라 미디어의 이미지가 변환되었는지 여부에 대한 정보가 별도의 필드(STDF, STCF)에 포함되는 것으로 기재하였으나, AR 글라스의 투명도에 따라 미디어의 이미지가 변환되었는지 여부에 대한 정보 및 AR 글라스의 디스플레이의 색상에 따라 미디어의 이미지가 변환되었는지 여부에 대한 정보가 하나의 필드에 포함될 수도 있음은 당해 기술 분야의 통상의 기술자에게 용이하게 이해될 것이다.

AR display mode InfoFrame의 열네 번째 바이트의 0번 비트에 포함된 CPCF(Camera Position Control Flag) 필드는 AR 글라스에 포함된 적어도 하나의 카메라를 통해 획득한 이미지의 위치의 보정 여부에 대한 정보를 포함할 수 있다. 카메라와 디스플레이의 위치는 다르므로, 카메라로 촬영된 영상을 AR 글라스의 디스플레이에서 보는 경우 실제 위치로의 보정이 필요할 수도 있다. AR 글라스에 포함된 적어도 하나의 카메라를 통해 획득한 이미지의 위치의 보정 여부에 대한 정보는, 카메라 위치에 따라 촬영된 영상을 렌더링할 때 영상의 위치를 보정할 것인지 여부에 대한 플래그를 포함할 수 있다.

AR display mode InfoFrame의 열네 번째 바이트의 1번 비트에 포함된 ICF(Intrinsic parameters Control Flag) 필드는 AR 글라스를 통해 디스플레이 되는 이미지가 적어도 하나의 카메라의 내부 파라미터(intrinsic parameter)를 기반으로 카메라 칼리브레이션(camera calibration)이 수행된 이미지인지 여부에 대한 정보를 포함할 수 있다.

AR display mode InfoFrame의 열네 번째 바이트의 2번 비트에 포함된 ECF(Extrinsic parameters Control Flag) 필드는 AR 글라스를 통해 디스플레이 되는 이미지가 적어도 하나의 카메라의 외부 파라미터(extrinsic parameter)를 기반으로 카메라 칼리브레이션이 수행된 이미지인지 여부에 대한 정보를 포함할 수 있다.

AR display mode InfoFrame의 열다섯 번째 바이트에 포함된 Recording video rendering position x offset 필드 및 열여섯 번째 바이트에 포함된 Recording video rendering position y offset 필드는 레코딩 된 영상 렌더링 위치의 변경 정도에 대한 정보를 포함할 수 있다. CPCF 필드에 포함된 플래그가 1을 지시하거나 ECF 필드가 AR 글라스를 통해 디스플레이 되는 이미지가 적어도 하나의 카메라의 외부 파라미터(extrinsic parameter)를 기반으로 카메라 칼리브레이션이 수행된 이미지임을 지시하는 경우, 카메라에서 촬영된 영상을 렌더링할 때 위치가 조정될 수 있다. 레코딩된 비디오 렌더링 위치가 변경될 수 있고, 변경된 값이 Recording video rendering position x offset 필드 및 Recording video rendering position y offset 필드를 통해 x축 및 y축의 offset으로 표시될 수 있다. 기준점은 예를 들어 이미지의 좌상단지점으로 고정될 수 있고, 부호 비트는 최상위 비트에 포함될 수 있다. 또한, 3차원 공간에서 위치를 조절해야 할 필요가 있는 경우에는 z offset 값도 시그널링될 수 있다.

AR display mode InfoFrame의 열일곱 번째 바이트 이후부터 포함되는 Sensor #N transformed capability 필드는 미디어 처리 장치에서 변환된 데이터의 센서 값에 대한 정보를 포함할 수 있다. 미디어 처리 장치에서 변환된 데이터의 센서 값에 대한 정보는 최대값/최소값으로 구분되어 표시될 수 있다. 만약 미디어 처리 장치(900)에서 변환된 센서 값이 하나의 값으로 표현되는 경우에는 최대값/최소값을 동일하게 시그널링할 수 있다.

다음으로, 인포프레임 타입 코드 0x0A와 대응되는 AR audio rendering mode 필드는 아래의 표 19와 같이 구성될 수 있다.

<표 19>

AR audio rendering mode InfoFrame의 첫 번째 바이트의 0번 비트에 포함된 SPCF(Speaker Position Control Flag) 필드는 미디어 재생 장치(1000)의 AR 글라스에 포함된 스피커의 위치에 따라 오디오 신호를 제어하는지 여부에 대한 정보를 포함할 수 있다. 미디어 재생 장치(1000)의 AR 글라스에 포함된 스피커의 위치에 따라 오디오 신호를 제어하는지 여부에 대한 정보는 플래그를 포함할 수 있고, AR 글라스에 포함된 스피커의 위치에 따라 오디오 신호가 제어되는 경우 해당 플래그는 1을 지시할 수 있다. 이때 오디오 신호에서 수정된 위치에 대한 정보를 offset으로 전달할 수 있고, 경우에 따라서는 offset 대신 실제 오디오의 x, y, z값(또는 azimuth, elevation 및 tilt 값)으로 표시할 수 있다. 또한, 스피커의 위치뿐만 아니라 스피커의 채널을 시그널링할 수 있고, object audio의 경우 사용자의 object 선택에 따른 오디오 신호의 제어로도 확장할 수 있다.

AR audio rendering mode InfoFrame의 첫 번째 바이트의 1번 비트에 포함된 MPCF(Mic Position Control Flag) 필드는 AR 글라스에 포함된 마이크의 위치에 따라 상기 마이크에 의해 녹음된 오디오 신호를 제어하는지 여부에 대한 정보를 포함할 수 있다. 미디어 재생 장치(1000)의 AR 글라스에 포함된 마이크의 위치에 따라 상기 마이크에 의해 녹음된 오디오 신호를 제어하는지 여부에 대한 정보는 플래그를 포함할 수 있고, AR 글라스에 포함된 마이크의 위치에 따라 상기 마이크에 의해 녹음된 오디오 신호가 제어되는 경우 해당 플래그는 1을 지시할 수 있다. 이때 오디오 신호에서 수정된 위치에 대한 정보를 offset으로 전달할 수 있고, 경우에 따라서는 offset 대신 실제 오디오의 x, y, z값(또는 azimuth, elevation 및 tilt 값)으로 표시할 수 있다.

AR audio rendering mode InfoFrame의 두 번째 바이트에 포함된 Audio rendering position x offset based on speaker position 필드, 세 번째 바이트에 포함된 Audio rendering position y offset based on speaker position 필드 및 네 번째 바이트에 포함된 Audio rendering position z offset based on speaker position 필드는 AR 글라스에 포함된 스피커의 위치에 대한 정보를 포함할 수 있다. 보다 구체적으로, SPCF 필드에 포함된 플래그가 1을 지시하는 경우, 미디어 처리 장치(900)는 스피커의 위치에 따라 오디오 신호를 변형하고, 변형된 위치 정보를 시그널링할 수 있다.

AR audio rendering mode InfoFrame의 다섯 번째 바이트에 포함된 Recording audio rendering position x offset 필드, 여섯 번째 바이트에 포함된 Recording audio rendering position y offset 필드 및 일곱 번째 바이트에 포함된 Recording audio rendering position z offset 필드는 AR 글라스에 포함된 마이크의 위치에 대한 정보를 포함할 수 있다. 보다 구체적으로, MPCF 필드에 포함된 플래그가 1을 지시하는 경우, 미디어 처리 장치(900)는 녹음된 오디오 신호를 변형하고, 변형된 음성 신호에 대한 위치 정보를 시그널링할 수 있다.

일 예시에서, 인포프레임 타입 코드 0x02와 대응되는 Auxiliary Video Information 필드는 아래의 표 20과 같이 구성될 수 있다.

<표 20>

표 20에 개시된 필드들에 대한 설명은 표 17 내지 표 19에 대한 설명에서 전술한 바 있다. Auxiliary Video Information 필드를 표 20과 같이 구성하는 경우 length of AVI InfoFrame(14)을 length of AVI InfoFrame(38)로 변경할 수도 있다.

다른 일 예시에서, 인포프레임 타입 코드 0x02와 대응되는 Auxiliary Video Information 필드는 아래의 표 21과 같이 구성될 수도 있다.

<표 21>

표 21에 개시된 필드들에 대한 설명은 표 17 내지 표 19에 대한 설명에서 전술한 바 있다. Auxiliary Video Information 필드를 표 21과 같이 구성하는 경우 length of AVI InfoFrame(14)을 length of AVI InfoFrame(38)로 변경할 수도 있다. 한편 표 21에서는 비디오 관련 필드들과 오디오 관련 필드들을 구분하지 않고 개시하였으나, 다른 실시예에서는 version 값에 따라 비디오 관련 필드들과 오디오 관련 필드들을 구분할 수도 있다. 더불어, 표 21에 따른 인포프레임은 기존 AVI InfoFrame version 4를 확장하여 정의하였으나, 실시예는 이에 한정되지 않는다. 예를 들어, AVI InfoFrame version 5를 새롭게 정의하면서 표 21에 포함된 필드들을 삽입할 수도 있다.

한편, 전술된 모든 offset 관련 필드들은, offset 값 대신 실제 위치 값을 포함하도록 구성될 수도 있따. 또한, 전술된 인포프레임들에서는 변경된 값(offset)만 포함하였으나, 경우에 따라서는 오리지널(original) 값에 대한 시그널링도 포함하도록 확장될 수 있다. 더불어, 인포프레임에서 포함한 모든 값들은 USB 등을 통해서도 미디어 재생 장치(1000)로 전달될 수 있다.

일 실시예에 따른 미디어 처리 장치(900)는 생성된 미디어 신호 및 추출된 특징 정보를 미디어 재생 장치(1000)로 전송할 수 있다(S1330).

도 13에서 설명된 미디어 처리 장치(900)의 동작 방법에 따르면, 미디어 재생 장치(1000)로부터 수신한(단계 1300) 미디어 재생 장치(1000)의 3차원 재생 환경 정보, 보다 구체적으로는 VR 또는 AR 재생 환경 정보를 기반으로 미디어 비트스트림을 처리하여 VR 또는 AR 미디어 신호를 생성하고(단계 1310), 미디어 비트스트림을 처리하는 과정에서 획득된 3차원 미디어 신호, 보다 구체적으로는 VR 또는 AR 미디어 신호의 특징 정보를 기반으로 인포프레임을 생성할 수 있으며(단계 1320), 생성된 VR 또는 AR 미디어 신호 및 생성된 인포프레임을 미디어 재생 장치(1000)로 전송(단계 1330)할 수 있다. 즉, 미디어 처리 장치(900)의 동작 방법에 따르면 미디어 재생 장치(1000)와 3차원 미디어 데이터, 보다 구체적으로는 VR 또는 AR 미디어 데이터를 상호 송수신하면서, 미디어 재생 장치(1000)가 VR 또는 AR 미디어 컨텐츠를 보다 원활히 재생할 수 있도록 하는 VR 또는 AR 미디어 신호를 생성할 수 있다.

도 14는 일 실시예에 따른 미디어 재생 장치가 미디어 데이터를 재생하는 과정을 도시하는 흐름도이다.

도 14에 개시된 각 단계는 도 10에 개시된 미디어 재생 장치(1000)에 의하여 수행될 수 있다. 구체적으로 예를 들어, 도 14의 S1400은 미디어 재생 장치(1000)의 메타데이터 처리부(1010)에 의하여 수행될 수 있고, S1410은 미디어 재생 장치(1000)의 전송부(1020)에 의하여 수행될 수 있고, S1420은 미디어 재생 장치(1000)의 수신부(1030)에 의하여 수행될 수 있고, S1430은 미디어 재생 장치(1000)의 재생부(1040)에 의하여 수행될 수 있다. 따라서, 도 14의 각 단계를 설명함에 있어서, 도 10에서 전술된 내용과 중복되는 구체적인 내용은 설명을 생략하거나 간단히 하기로 한다.

더불어, 도 13에서 미디어 처리 장치(900)와 미디어 재생 장치(1000) 상호 간에 송수신하는 미디어 데이터, 예를 들어 미디어 재생 장치(1000)의 재생 환경 정보 및 미디어 처리 장치(900)에서 추출된 미디어 신호의 특징 정보에 관하여 구체적으로 전술한 바 있으므로, 도 14에서는 미디어 처리 장치(900)와 미디어 재생 장치(1000) 상호 간에 송수신하는 미디어 데이터에 관한 구체적인 설명은 생략하거나 간단히 하기로 한다.

일 실시예에 따른 미디어 재생 장치(1000)는 미디어 재생 장치(1000)의 재생 환경 정보를 수집할 수 있다(S1400). 보다 구체적으로, 미디어 재생 장치(1000)의 메타데이터 처리부(1010)는 미디어 재생 장치(1000)의 메모리(도면에 도시되지 않음)에 내장되어 있는 미디어 재생 장치(1000)의 재생 환경 정보를 수집할 수 있다.

일 실시예에 따른 미디어 재생 장치(1000)는 수집된 재생 환경 정보를 미디어 처리 장치로 전송할 수 있다(S1410). 보다 구체적으로, 미디어 재생 장치(1000)의 전송부(1020)는 재생 환경 정보를 메타데이터 처리부(1010)로부터 전달받은 후 미디어 처리 장치(900)로 전송할 수 있다.

일 실시예에 따른 미디어 재생 장치(1000)는 재생 환경 정보를 기반으로 미디어 처리 장치(900)가 미디어 비트스트림을 처리하여 생성된 미디어 신호 및 생성된 미디어 신호에서 추출된 특징 정보를 미디어 처리 장치(900)로부터 수신할 수 있다(S1420). 보다 구체적으로, 미디어 재생 장치(1000)의 수신부(1030)는 미디어 처리 장치(900)의 전송부(940)로부터, 미디어 처리 장치(900)에서 생성된 미디어 신호 및 생성된 미디어 신호에서 추출된 특징 정보를 수신할 수 있다.

일 실시예에 따른 미디어 재생 장치(1000)는 추출된 특징 정보를 기반으로, 수신된 미디어 신호를 재생할 수 있다(S1430). 보다 구체적으로, 미디어 신호 및 미디어 신호에서 추출된 특징 정보는 메타데이터 처리부(1010)로 전달될 수 있고, 미디어 신호 및 미디어 신호에서 추출된 특징 정보중 적어도 하나는 메타데이터 처리부(1010)에서 판독될 수 있고, 메타데이터 처리부(1010)에서 판독된 정보는 재생부(1040)로 전달될 수 있다. 재생부(1040)는 추출된 특징 정보를 기반으로, 수신된 미디어 신호를 재생할 수 있다.

다만 재생부(1040)가 미디어 신호를 재생하는 방법은 이에 한정되지 않으며, 예를 들어 미디어 신호는 수신부(1010)에서 재생부(1040)로 곧바로 전달되고, 미디어 신호에서 추출된 특징 정보는 메타데이터 처리부(1010)에서 판독된 후 재생부(1040)로 전달되며, 재생부(1040)는 메타데이터 처리부(1010)에서 판독된 특징 정보를 기반으로, 수신부(1010)로부터 전달받은 미디어 신호를 재생할 수 있다.

도 14에서 설명된 미디어 재생 장치(1000)의 동작 방법에 따르면, 미디어 재생 장치(1000)의 3차원 미디어 재생, 보다 구체적으로는 VR 또는 AR 미디어 재생에 관한 정보를 포함하는 재생 환경 정보를 수집하여(단계 1400) 미디어 처리 장치(900)로 전송(단계 1410)할 수 있고, 재생 환경 정보를 기반으로 미디어 처리 장치(900)에 의해 생성된 VR 또는 AR 미디어 신호 및 미디어 신호에서 추출된 특징 정보를 미디어 처리 장치(900)로부터 수신(단계 1420)할 수 있다. 즉, 미디어 재생 장치(1000)는 미디어 처리 장치(900)와 VR 또는 AR 미디어 데이터를 상호 송수신하면서, VR 또는 AR 미디어 컨텐츠를 미디어 재생 장치(1000)의 3차원 미디어 재생 환경에 맞추어 보다 원활히 재생(단계 1430)할 수 있다.

도 15는 일 실시예에 따른 미디어 처리 장치 및 미디어 재생 장치가 미디어 데이터를 송수신하는 과정을 도시하는 흐름도이다.

도 15에서, 도 13 및 도 14에 대한 설명과 중복되는 내용은 설명을 생략하거나 간단히 하기로 한다. 보다 구체적으로 예를 들면, S1500에 따른 미디어 재생 장치(1000)의 동작은 도 14의 S1400에 따른 미디어 재생 장치(1000)의 동작과 대응되고, S1510에 따른 미디어 처리 장치(900) 및 미디어 재생 장치(1000)의 동작은 도 13의 S1300에 따른 미디어 처리 장치(900)의 동작 및 도 14의 S1410에 따른 미디어 재생 장치(1000)의 동작과 대응되고, S1520 내지 S1540에 따른 미디어 처리 장치(900)의 동작은 도 13의 S1310 내지 S1330에 따른 미디어 처리 장치(900)의 동작과 대응되고, S1540 및 단계 S1550에 따른 미디어 재생 장치(1000)의 동작은 도 14의 S1420 및 S1430에 따른 미디어 재생 장치(1000)의 동작과 대응되므로, 중복되는 상세한 설명은 생략하기로 한다.

일 실시예에 따른 미디어 재생 장치(1000)는 미디어 재생 장치(1000)의 재생 환경 정보를 수집할 수 있다(S1500).

일 실시예에 따른 미디어 재생 장치(1000)는 미디어 처리 장치(900)로 미디어 재생 장치(1000)의 재생 환경 정보를 전송할 수 있다(S1510). 예를 들어, 미디어 재생 장치(1000)는 EDID를 DDC를 통해 미디어 처리 장치(900)로 전송할 수 있다.

일 실시예에 따른 미디어 처리 장치(900)는 미디어 재생 장치(1000)의 재생 환경 정보를 기반으로 미디어 비트스트림을 처리하여 미디어 신호를 생성할 수 있다(S1520).

일 실시예에 따른 미디어 처리 장치(900)는 생성된 미디어 신호의 특징 정보를 추출할 수 있다(S1530).

일 실시예에 따른 미디어 처리 장치(900)는 생성된 미디어 신호 및 추출된 특징 정보를 미디어 재생 장치(1000)로 전송할 수 있다(S1540).

일 실시예에 따른 미디어 재생 장치(1000)는 추출된 특징 정보를 기반으로, 수신된 미디어 신호를 재생할 수 있다(S1550).

전술한 장치의 내부 컴포넌트들은 메모리에 저장된 연속된 수행과정들을 실행하는 프로세서들이거나, 그 외의 하드웨어로 구성된 하드웨어 컴포넌트들일 수 있다. 이 들은 장치 내/외부에 위치할 수 있다.

전술한 모듈들은 실시예에 따라 생략되거나, 유사/동일한 동작을 수행하는 다른 모듈에 의해 대체될 수 있다.

전술한 각각의 파트, 모듈 또는 유닛은 메모리(또는 저장 유닛)에 저장된 연속된 수행과정들을 실행하는 프로세서이거나 하드웨어 파트일 수 있다. 전술한 실시예에 기술된 각 단계들은 프로세서 또는 하드웨어 파트들에 의해 수행될 수 있다. 전술한 실시예에 기술된 각 모듈/블록/유닛들은 하드웨어/프로세서로서 동작할 수 있다. 또한, 본 발명이 제시하는 방법들은 코드로서 실행될 수 있다. 이 코드는 프로세서가 읽을 수 있는 저장매체에 쓰여질 수 있고, 따라서 장치(apparatus)가 제공하는 프로세서에 의해 읽혀질 수 있다.

상술한 실시예에서, 방법들은 일련의 단계 또는 블록으로써 순서도를 기초로 설명되고 있지만, 본 발명은 단계들의 순서에 한정되는 것은 아니며, 어떤 단계는 상술한 바와 다른 단계와 다른 순서로 또는 동시에 발생할 수 있다. 예를 들어, 도 13의 단계 1320에 따른 동작은 단계 1310에 따른 동작이 수행된 후에 수행될 수 있으나, 경우에 따라서는 단계 1310에 따른 동작과 단계 1320에 따른 동작이 미디어 처리 장치(900)에 의해 동시에 수행될 수 있다. 또한, 당업자라면 순서도에 나타내어진 단계들이 배타적이지 않고, 다른 단계가 포함되거나 순서도의 하나 또는 그 이상의 단계가 본 발명의 범위에 영향을 미치지 않고 삭제될 수 있음을 이해할 수 있을 것이다.

본 발명에서 실시예들이 소프트웨어로 구현될 때, 상술한 방법은 상술한 기능을 수행하는 모듈(과정, 기능 등)로 구현될 수 있다. 모듈은 메모리에 저장되고, 프로세서에 의해 실행될 수 있다. 메모리는 프로세서 내부 또는 외부에 있을 수 있고, 잘 알려진 다양한 수단으로 프로세서와 연결될 수 있다. 프로세서는 ASIC(application-specific integrated circuit), 다른 칩셋, 논리 회로 및/또는 데이터 처리 장치를 포함할 수 있다. 메모리는 ROM(read-only memory), RAM(random access memory), 플래쉬 메모리, 메모리 카드, 저장 매체 및/또는 다른 저장 장치를 포함할 수 있다.

상술한 실시예에서, 방법들은 일련의 단계 또는 블록으로써 순서도를 기초로 설명되고 있지만, 본 발명은 단계들의 순서에 한정되는 것은 아니며, 어떤 단계는 상술한 바와 다른 단계와 다른 순서로 또는 동시에 발생할 수 있다. 또한, 당업자라면 순서도에 나타내어진 단계들이 배타적이지 않고, 다른 단계가 포함되거나 순서도의 하나 또는 그 이상의 단계가 본 발명의 범위에 영향을 미치지 않고 삭제될 수 있음을 이해할 수 있을 것이다.

Claims

미디어(media) 처리 장치에 의하여 수행되는 미디어 데이터 처리 방법에 있어서,
미디어 재생 장치로부터 상기 미디어 재생 장치의 재생 환경 정보(information on reproduction environment)를 수신하는 단계;
상기 재생 환경 정보를 기반으로 미디어 비트스트림을 처리(process)하여 미디어 신호를 생성하는 단계;
상기 생성된 미디어 신호의 특징 정보(characteristic information)를 추출(extract)하는 단계; 및
상기 생성된 미디어 신호 및 상기 추출된 특징 정보를 상기 미디어 재생 장치로 전송하는 단계를 포함하되,
상기 재생 환경 정보는 VR(Virtual Reality) 재생 환경 정보 및 AR(Augmented Reality) 재생 환경 정보 중 적어도 하나를 포함하는 것을 특징으로 하는, 미디어 데이터 처리 방법.
제 1 항에 있어서,
상기 재생 환경 정보는 EDID(Extended Display Identification Data Standard) 및 DisplayID 중 적어도 하나를 포함하는 것을 특징으로 하는, 미디어 데이터 처리 방법.
제 2 항에 있어서,
상기 재생 환경 정보는 EDID를 포함하고,
상기 EDID는 적어도 하나의 CTA 데이터 블록을 포함하며, 상기 적어도 하나의 CTA 데이터 블록은 적어도 하나의 확장 태그들(extended tags)을 포함하는 CTA 데이터 블록을 포함하는 것을 특징으로 하는, 미디어 데이터 처리 방법.
제 3 항에 있어서,
상기 재생 환경 정보에 포함된 상기 적어도 하나의 확장 태그들은 상기 VR 재생 환경 정보를 포함하고,
상기 VR 재생 환경 정보는 재생 장치 특정 (reproducing device-specific) VR 미디어 데이터 및 사용자 특정(user-specific) VR 미디어 데이터 중 적어도 하나를 포함하는 것을 특징으로 하는, 미디어 데이터 처리 방법.
제 4 항에 있어서,
상기 재생 장치 특정 VR 미디어 데이터는, 상기 미디어 재생 장치의 종류에 대한 정보, 상기 미디어 재생 장치의 디스플레이의 개수에 대한 정보, 상기 미디어 재생 장치가 게이즈 트래킹(gaze tracking)을 제공할 수 있는지 여부에 대한 정보, 상기 미디어 재생 장치가 지원하는 차원(dimension)에 대한 정보, 상기 미디어 재생 장치의 디스플레이 식별자(Identification)에 대한 정보, 상기 미디어 재생 장치가 제공할 수 있는 최소 밝기 값에 대한 정보, 상기 미디어 재생 장치가 제공할 수 있는 최대 밝기 값에 대한 정보, 상기 미디어 재생 장치가 지원할 수 있는 파일 포맷(file format)에 대한 정보, 상기 미디어 재생 장치가 지원할 수 있는 3차원 파일 포맷(3D file format)에 대한 정보 및 상기 미디어 재생 장치의 컴퓨팅 전력(computing power)에 대한 정보 중 적어도 하나를 포함하는 것을 특징으로 하는, 미디어 데이터 처리 방법.
제 4 항에 있어서,
상기 사용자 특정 VR 미디어 데이터는, 사용자의 나이 정보, 상기 사용자의 도미넌트 아이(dominant eye)에 대한 정보, 색맹(color blindness) 정보, 상기 사용자의 시력에 대한 정보, 상기 사용자의 선호도 정보, 상기 사용자가 선호 프레임 레이트(preferred frame rate)로의 변환을 요청하는지 여부에 대한 정보, 상기 사용자의 뷰포트(viewport)를 고려할지 여부에 대한 정보, 상기 사용자가 선호하는 디스플레이 모드에 대한 정보, 상기 사용자가 선호하는 색상 온도(color temperature)에 대한 정보, 상기 VR 미디어가 디스플레이 되는 위치를 조정할지 여부에 대한 정보, 상기 VR 미디어의 레인지(range)의 조정(adjustment)에 대한 정보 중 적어도 하나를 포함하는 것을 특징으로 하는, 미디어 데이터 처리 방법.
제 3 항에 있어서,
상기 재생 환경 정보에 포함된 상기 적어도 하나의 확장 태그들은 상기 AR 재생 환경 정보를 포함하고,
상기 AR 재생 환경 정보는 재생 장치 특정 AR 미디어 데이터 및 사용자 특정 AR 미디어 데이터 중 적어도 하나를 포함하는 것을 특징으로 하는, 미디어 데이터 처리 방법.
제 7 항에 있어서,
상기 재생 장치 특정 AR 미디어 데이터는, 상기 미디어 재생 장치의 AR 글라스(glass)의 투명도(see-through)에 대한 정보, 상기 AR 글라스의 디스플레이의 색상에 대한 정보, 실제 디스플레이의 수평(horizontal) 또는 수직(vertical) 방향 사이즈에 대한 정보, 투영 거리(projected distance)에 따른 가상(virtual) 디스플레이의 수평 또는 수직 방향 사이즈에 대한 정보, 상기 AR 글라스에 포함된 센서에 대한 정보, 상기 AR 글라스에 포함된 적어도 하나의 카메라의 개수에 대한 정보, 상기 AR 글라스에 포함된 상기 적어도 하나의 카메라의 ID(Identification)에 대한 정보, 상기 적어도 하나의 카메라의 위치에 대한 정보, 상기 적어도 하나의 카메라 각각의 파라미터들에 대한 정보 중 적어도 하나를 포함하는 것을 특징으로 하는, 미디어 데이터 처리 방법.
제 7 항에 있어서,
상기 사용자 특정 AR 미디어 데이터는, 사용자의 나이 정보, 상기 사용자의 도미넌트 아이(dominant eye)에 대한 정보, 색맹(color blindness) 정보, 상기 사용자의 시력에 대한 정보, 상기 사용자의 선호도 정보, 상기 사용자가 선호 프레임 레이트(preferred frame rate)로의 변환을 요청하는지 여부에 대한 정보, 상기 사용자가 선호하는 디스플레이 모드에 대한 정보, 상기 사용자가 선호하는 색상 온도(color temperature)에 대한 정보, 상기 VR 미디어가 디스플레이 되는 위치를 조정할 지 여부에 대한 정보, 상기 VR 미디어의 레인지(range)의 조정(adjustment)에 대한 정보 중 적어도 하나를 포함하는 것을 특징으로 하는, 미디어 데이터 처리 방법.
제 3 항에 있어서,
상기 재생 환경 정보에 포함된 상기 적어도 하나의 확장 태그들은 상기 AR 재생 환경 정보를 포함하고,
상기 AR 재생 환경 정보는 재생 장치 특정 AR 오디오 데이터를 포함하는 것을 특징으로 하는, 미디어 데이터 처리 방법.
제 10 항에 있어서,
상기 재생 장치 특정 AR 오디오 데이터는, AR 글라스에 적어도 하나의 스피커(speaker)가 포함되는지 여부에 대한 정보, 상기 AR 글라스에 포함된 적어도 하나의 스피커의 개수에 대한 정보, 상기 AR 글라스에 포함된 적어도 하나의 스피커 각각의 위치에 대한 정보, 상기 AR 글라스에 적어도 하나의 마이크(MIC)가 포함되는지 여부에 대한 정보 및 상기 AR 글라스에 포함된 적어도 하나의 마이크의 위치에 대한 정보 중 적어도 하나를 포함하는 것을 특징으로 하는, 미디어 데이터 처리 방법.
제 3 항에 있어서,
상기 재생 환경 정보에 포함된 상기 적어도 하나의 확장 태그들은 상기 VR 재생 환경 정보 및 상기 AR 재생 환경 정보 중 적어도 하나를 포함하고,
상기 VR 재생 환경 정보 및 상기 AR 재생 환경 정보 중 적어도 하나는, VR/AR 디스플레이 메타데이터 정보, VR/AR 디바이스 메타데이터 정보, VR/AR 오디오 메타데이터 정보, VR 특정 메타데이터 및 AR 특정 메타데이터 중 적어도 하나를 포함하는 것을 특징으로 하는, 미디어 데이터 처리 방법.
제 2 항에 있어서,
상기 재생 환경 정보는 DisplayID를 포함하고,
상기 DisplayID는 상기 VR 재생 환경 정보 및 상기 AR 재생 환경 정보 중 적어도 하나를 포함하며,
상기 VR 재생 환경 정보 및 상기 AR 재생 환경 정보 중 적어도 하나는, 후처리(post processing) 제어에 대한 정보, 재생 장치 특정 VR 미디어 데이터, 사용자 특정 VR 미디어 데이터, 재생 장치 특정 AR 미디어 데이터, 사용자 특정 AR 미디어 데이터 및 재생 장치 특정 AR 오디오 데이터 중 적어도 하나를 포함하는 것을 특징으로 하는, 미디어 데이터 처리 방법.
제 13 항에 있어서,
상기 후처리 제어에 대한 정보는, 상기 재생 장치 특정 VR 미디어 데이터를 기반으로 상기 미디어 처리 장치에서 VR 처리를 활성화(activate)할지에 대한 정보, 상기 사용자 특정 VR 미디어 데이터를 기반으로 상기 미디어 처리 장치에서 VR 처리를 활성화할지에 대한 정보, 상기 재생 장치 특정 AR 미디어 데이터를 기반으로 상기 미디어 처리 장치에서 AR 처리를 활성화할지에 대한 정보, 상기 사용자 특정 AR 미디어 데이터를 기반으로 상기 미디어 처리 장치에서 AR 처리를 활성화할지에 대한 정보 및 상기 재생 장치 특정 AR 오디오 데이터를 기반으로 상기 미디어 처리 장치에서 AR 처리를 활성화할지에 대한 정보 중 적어도 하나를 포함하는 것을 특징으로 하는, 미디어 데이터 처리 방법.
제 1 항에 있어서,
상기 추출된 특징 정보는 인포프레임(Infoframe)을 포함하고,
상기 인포프레임은, VR 디스플레이 모드 정보, AR 디스플레이 모드 정보 및 AR 오디오 렌더링 모드 정보 중 적어도 하나를 포함하는 것을 특징으로 하는, 미디어 데이터 처리 방법.
제 15 항에 있어서,
상기 인포프레임은 상기 VR 디스플레이 모드 정보를 포함하고,
상기 VR 디스플레이 모드 정보는, 상기 미디어 데이터의 타입에 대한 정보, 상기 미디어가 3차원 이미지로 디스플레이 되는지 여부에 대한 정보, 상기 미디어가 포함하는 이미지가 왼쪽-오른쪽 순서(Left-Right Order)로 디스플레이 되는지 여부에 대한 정보, 도미넌트 아이에 대한 정보, 색상 대비(contrast)가 변경되었는지 여부에 대한 정보, 상기 색상 대비가 변경된 정도에 대한 정보, 색상 밝기(brightness)가 변경되었는지 여부에 대한 정보, 상기 색상 밝기가 변경된 정도에 대한 정보, 색상 채도(saturation)가 변경되었는지 여부에 대한 정보, 상기 색상 채도가 변경된 정도에 대한 정보, 색상 색조(hue)가 변경되었는지 여부에 대한 정보, 상기 색상 색조가 변경된 정도에 대한 정보, 사용자가 선호하는 색상 온도로 변경되었는지 여부에 대한 정보, 상기 사용자의 뷰포트가 고려되는지 여부에 대한 정보, 상기 미디어의 파일 포맷이 변경되었는지 여부에 대한 정보, 상기 미디어의 상기 변경된 파일 포맷에 대한 정보, 상기 사용자의 색맹 여부를 기반으로 상기 미디어의 색상이 변경되었는지 여부에 대한 정보, 상기 사용자의 색맹 여부를 기반으로 상기 미디어의 색상이 변경된 정도에 대한 정보, 상기 사용자의 상기 도미넌트 아이에 대한 정보를 기반으로 상기 미디어가 포함하는 이미지의 위치가 변경된 정도에 대한 정보 및 상기 뷰포트의 위치에 대한 정보 중 적어도 하나를 포함하는 것을 특징으로 하는, 미디어 데이터 처리 방법.
제 15 항에 있어서,
상기 인포프레임은 상기 AR 디스플레이 모드 정보를 포함하고,
상기 AR 디스플레이 모드 정보는, 상기 미디어 재생 장치의 AR 글라스의 투명도에 따라 상기 미디어의 이미지가 변환되었는지 여부에 대한 정보, 상기 AR 글라스의 디스플레이의 색상에 따라 상기 미디어의 이미지가 변환되었는지 여부에 대한 정보, 상기 AR 글라스에 포함된 적어도 하나의 카메라를 통해 획득한 이미지의 위치의 보정 여부에 대한 정보, 상기 AR 글라스를 통해 디스플레이 되는 이미지가 상기 적어도 하나의 카메라의 내부 파라미터(intrinsic parameter)를 기반으로 카메라 칼리브레이션(camera calibration)이 수행된 이미지인지 여부에 대한 정보, 상기 AR 글라스를 통해 디스플레이 되는 이미지가 상기 적어도 하나의 카메라의 외부 파라미터(extrinsic parameter)를 기반으로 카메라 칼리브레이션이 수행된 이미지인지 여부에 대한 정보, 레코딩 된 영상 렌더링 위치의 변경 정도에 대한 정보 및 상기 미디어 처리 장치에서 변환된 데이터의 센서 값에 대한 정보 중 적어도 하나를 포함하는 것을 특징으로 하는, 미디어 데이터 처리 방법.
제 15 항에 있어서,
상기 인포프레임은 상기 AR 오디오 렌더링 모드 정보를 포함하고,
상기 AR 오디오 렌더링 모드 정보는, 상기 미디어 재생 장치의 AR 글라스에 포함된 스피커의 위치에 따라 오디오 신호를 제어하는지 여부에 대한 정보, 상기 스피커의 위치에 대한 정보, 상기 AR 글라스에 포함된 마이크의 위치에 따라 상기 마이크에 의해 녹음된 오디오 신호를 제어하는지 여부에 대한 정보 및 상기 마이크의 위치에 대한 정보 중 적어도 하나를 포함하는 것을 특징으로 하는, 미디어 데이터 처리 방법.
미디어 재생 장치에 의하여 수행되는 미디어 데이터 재생 방법에 있어서,
상기 미디어 재생 장치의 재생 환경 정보를 수집하는 단계;
상기 수집된 재생 환경 정보를 미디어 처리 장치로 전송하는 단계;
상기 재생 환경 정보를 기반으로 상기 미디어 처리 장치가 미디어 비트스트림을 처리하여 생성된 미디어 신호 및 상기 생성된 미디어 신호에서 추출된 특징 정보를 상기 미디어 처리 장치로부터 수신하는 단계; 및
상기 추출된 특징 정보를 기반으로, 상기 수신된 미디어 신호를 재생하는 단계를 포함하되,
상기 재생 환경 정보는 VR(Virtual Reality) 재생 환경 정보 및 AR(Augmented Reality) 재생 환경 정보 중 적어도 하나를 포함하는 것을 특징으로 하는, 미디어 데이터 재생 방법.
미디어 데이터를 처리하는 미디어 데이터 처리 장치에 있어서,
미디어 재생 장치로부터 상기 미디어 재생 장치의 재생 환경 정보를 수신하는 수신부;
상기 재생 환경 정보를 기반으로 미디어 비트스트림을 처리하여 미디어 신호를 생성하는 미디어 신호 처리부;
상기 생성된 미디어 신호의 특징 정보를 추출하는 메타데이터 처리부; 및
상기 생성된 미디어 신호 및 상기 추출된 특징 정보를 상기 미디어 재생 장치로 전송하는 전송부를 포함하되,
상기 재생 환경 정보는 VR 재생 환경 정보 및 AR 재생 환경 정보 중 적어도 하나를 포함하는 것을 특징으로 하는, 미디어 데이터 처리 방법.