WO2019203627A1

WO2019203627A1 - 트랜지션 이펙트에 관한 오디오 데이터를 송수신하는 방법 및 그 장치

Info

Publication number: WO2019203627A1
Application number: PCT/KR2019/004821
Authority: WO
Inventors: 이동금; 오세진
Original assignee: 엘지전자 주식회사
Priority date: 2018-04-20
Filing date: 2019-04-22
Publication date: 2019-10-24
Also published as: US20210132898A1; US11435977B2

Abstract

본 발명에 따른 오디오 데이터 수신 장치에 의하여 수행되는 오디오 데이터 수신 방법은, 오디오 데이터 전송 장치로부터 3차원 오디오 컨텐츠의 재생 정보 및 상기 3차원 오디오 컨텐츠의 인코딩된 3차원 오디오 신호를 수신하는 단계, 상기 인코딩된 3차원 오디오 신호를 디코딩하는 단계 및 상기 3차원 오디오 컨텐츠의 재생 정보를 기반으로, 상기 디코딩된 3차원 오디오 신호를 렌더링하는 단계를 포함하되, 상기 재생 정보는, 상기 3차원 오디오 컨텐츠의 트랜지션 이펙트(transition effect)에 대한 정보를 포함하는 것을 특징으로 한다.

Description

트랜지션 이펙트에 관한 오디오 데이터를 송수신하는 방법 및 그 장치

본 발명은 오디오 데이터에 관한 것으로, 보다 상세하게는 트랜지션 이펙트에 관한 오디오 데이터를 송수신하는 방법 및 장치에 관한 것이다.

VR(Virtual Reality) 시스템은 사용자에게 전자적으로 투영된 환경 내에 있는 것 같은 감각을 제공한다. AR(Augmented Reality, AR) 시스템은 현실의 이미지나 배경에 3차원 가상 이미지를 중첩하여, 사용자에게 가상과 현실이 혼합된 환경 내에 있는 것 같은 감각을 제공한다. VR 또는 AR을 제공하기 위한 시스템은 더 고화질의 이미지들과, 공간적인 음향을 제공하기 위하여 더 개선될 수 있다. VR 또는 AR 시스템은 사용자가 인터랙티브하게 VR 또는 AR 컨텐츠들을 소비할 수 있도록 할 수 있다.

VR 또는 AR 컨텐츠에 대한 수요가 점점 증가하고 있는 상황에서, VR 또는 AR 컨텐츠의 재생을 위한 오디오 신호를 생성하는 장치와, VR 또는 AR 컨텐츠를 재생하는 장치 간에 오디오 데이터를 효율적으로 송수신할 수 있는 방법을 고안할 필요성 또한 증가하고 있다.

현재 특정 공간, 특정 위치라는 제한 사항을 넘어, VR 컨텐츠를 다양한 위치에서 경험할 수 있는 기술들(예를 들어, 3DoF+ 또는 6DoF)에 대한 연구가 진행되고 있다. 이에 따라, 여러 위치에서 씬(scene)이 캡쳐되는 핫스팟(Hot Spot) 개념에 대한 관심도 증가하고 있다. 좀 더 몰입감 높은 VR 컨텐츠를 경험하기 위해서는 VR 컨텐츠를 이용하는 사용자에게 높은 자유도가 제공되어야 할 필요가 있다.

본 발명의 기술적 과제는 오디오 데이터를 송수신하는 방법 및 장치를 제공함에 있다.

본 발명의 다른 기술적 과제는 트랜지션 이펙트(transition effect)에 관한 오디오 데이터를 송수신하는 방법 및 장치를 제공함에 있다.

본 발명의 또 다른 기술적 과제는 트랜지션 이펙트에 대한 정보를 포함하는 재생 정보를 생성하여 오디오 데이터 수신 장치로 전송하는 오디오 데이터 전송 장치 및 그 동작 방법을 제공함에 있다.

본 발명의 또 다른 기술적 과제는 오디오 데이터 전송 장치로부터 트랜지션 이펙트에 대한 정보를 포함하는 재생 정보를 수신하는 오디오 데이터 수신 장치 및 그 동작 방법을 제공함에 있다.

본 발명의 또 다른 기술적 과제는 3차원 오디오 데이터를 송수신하는 방법 및 장치를 제공함에 있다.

본 발명의 또 다른 기술적 과제는 3DoF, 3DoF+ 또는 6DoF의 오디오 컨텐츠를 위한 재생 정보를 MPEG-H에 따른 오디오 복호화기 및 오디오 부호화기를 기반으로 제공함에 있다.

본 발명의 또 다른 기술적 과제는 오디오 데이터 전송 장치가 복수의 위치에서 씬(scene)에 대한 정보를 획득하여, 오디오 데이터 수신 장치를 이용하는 사용자가 VR 컨텐츠상에서 희망 위치로 트랜지션 할 수 있도록 하는 기술을 적용시키고자 한다.

본 발명의 일 실시예에 따르면, 오디오 데이터 수신 장치에 의하여 수행되는 오디오 데이터 수신 방법이 제공된다. 상기 오디오 데이터 수신 방법은, 오디오 데이터 전송 장치로부터 3차원 오디오 컨텐츠의 재생 정보 및 상기 3차원 오디오 컨텐츠의 인코딩된 3차원 오디오 신호를 수신하는 단계, 상기 인코딩된 3차원 오디오 신호를 디코딩하는 단계 및 상기 3차원 오디오 컨텐츠의 재생 정보를 기반으로, 상기 디코딩된 3차원 오디오 신호를 렌더링하는 단계를 포함하되, 상기 재생 정보는, 상기 3차원 오디오 컨텐츠의 트랜지션 이펙트(transition effect)에 대한 정보를 포함하는 것을 특징으로 한다.

본 발명의 다른 일 실시예에 따르면, 오디오 데이터를 전송하는 오디오 데이터 수신 장치가 제공된다. 상기 오디오 데이터 수신 장치는, 오디오 데이터 전송 장치로부터 3차원 오디오 컨텐츠의 재생 정보 및 상기 3차원 오디오 컨텐츠의 인코딩된 3차원 오디오 신호를 수신하는 수신부, 상기 인코딩된 3차원 오디오 신호를 디코딩하는 오디오 신호 디코딩부 및 상기 3차원 오디오 컨텐츠의 재생 정보를 기반으로, 상기 디코딩된 3차원 오디오 신호를 렌더링하는 렌더링부를 포함하되, 상기 재생 정보는, 상기 3차원 오디오 컨텐츠의 트랜지션 이펙트에 대한 정보를 포함하는 것을 특징으로 한다.

본 발명의 또 다른 일 실시예에 따르면, 오디오 데이터 전송 장치에 의하여 수행되는 오디오 데이터 전송 방법이 제공된다. 상기 오디오 데이터 전송 방법은, 3차원 오디오 컨텐츠의 재생 정보를 생성하는 단계, 상기 3차원 오디오 컨텐츠의 3차원 오디오 신호를 인코딩하는 단계 및 상기 인코딩된 3차원 오디오 컨텐츠의 상기 3차원 오디오 신호 및 상기 생성된 재생 정보를 오디오 데이터 수신 장치로 전송하는 단계를 포함하되, 상기 재생 정보는, 상기 3차원 오디오 컨텐츠의 트랜지션 이펙트에 대한 정보를 포함하는 것을 특징으로 한다.

본 발명의 또 다른 일 실시예에 따르면, 오디오 데이터를 전송하는 오디오 데이터 전송 장치가 제공된다. 상기 오디오 데이터 전송 장치는, 3차원 오디오 컨텐츠의 재생 정보를 생성하는 메타데이터 생성부, 상기 3차원 오디오 컨텐츠의 3차원 오디오 신호를 인코딩하는 오디오 신호 인코딩부 및 상기 인코딩된 3차원 오디오 컨텐츠의 상기 3차원 오디오 신호 및 상기 생성된 재생 정보를 오디오 데이터 수신 장치로 전송하는 전송부를 포함하되, 상기 재생 정보는, 상기 3차원 오디오 컨텐츠의 트랜지션 이펙트에 대한 정보를 포함하는 것을 특징으로 한다.

본 발명에 따르면 오디오 데이터 전송 장치와 오디오 데이터 수신 장치가 3차원 오디오 컨텐츠에 대한 오디오 데이터를 효율적으로 송수신할 수 있는 방안을 제공할 수 있다.

본 발명에 따르면 오디오 데이터 전송 장치와 오디오 데이터 수신 장치가 VR 또는 AR 컨텐츠에 대한 오디오 데이터를 효율적으로 송수신할 수 있는 방안을 제공할 수 있다.

본 발명에 따르면 오디오 데이터 수신 장치가 오디오 데이터 전송 장치로부터 수신한 3차원 오디오 컨텐츠의 재생 정보를 기반으로 3차원 오디오 컨텐츠를 보다 효율적으로 재생하는 방안을 제공할 수 있다.

본 발명에 따르면 오디오 데이터 수신 장치가 오디오 데이터 전송 장치로부터 수신한 VR 또는 AR 컨텐츠의 재생 정보를 기반으로 VR 또는 AR 컨텐츠에 대한 3차원 오디오 신호를 보다 효율적으로 렌더링(또는 재생)하는 방안을 제공할 수 있다.

도 1은 일 실시예에 따른 360 컨텐츠 제공을 위한 전체 아키텍처를 도시한 도면이다.

도 2 및 도 3은 일 실시예에 따른 미디어 파일의 구조를 도시한 도면이다.

도 4는 DASH 기반 적응형 스트리밍 모델의 전반적인 동작의 일 예를 나타낸다.

도 5는 3차원 오디오 컨텐츠의 재생 공간의 예시를 도시하는 도면이다.

도 6은 일 실시예에 따른 3차원 오디오 데이터 수신 장치의 구성을 도시하는 블록도이다.

도 7a 및 도 7b는 3차원 오디오 컨텐츠가 재생되는 가상 공간 및 실제 공간의 일 예시를 도시하는 도면이다.

도 8은 3차원 오디오 스트림의 일 예시를 도시하는 도면이다.

도 9는 3차원 오디오 스트림의 다른 일 예시를 도시하는 도면이다.

도 10a 및 도 10b는 일 실시예에 따른 3차원 오디오 데이터 수신 장치에서 3차원 오디오 스트림이 처리되는 과정을 도시한 흐름도이다.

도 11은 일 실시예에 따른 3차원 오디오 데이터 수신 장치의 동작 방법을 도시하는 흐름도이다.

도 12는 다른 일 실시예에 따른 3차원 오디오 데이터 수신 장치의 구성을 도시하는 블록도이다.

도 13은 일 실시예에 따른 오디오 데이터 전송 장치의 구성을 도시하는 블록도이다.

도 14는 일 실시예에 따른 오디오 데이터 전송 장치의 동작 방법을 도시하는 흐름도이다.

도 15는 일 실시예에 따른 오디오 데이터 수신 장치의 구성을 도시하는 블록도이다.

도 16은 다른 일 실시예에 따른 오디오 데이터 수신 장치의 동작 방법을 도시하는 흐름도이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정 실시예에 한정하려고 하는 것이 아니다. 본 명세서에서 상용하는 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명의 기술적 사상을 한정하려는 의도로 사용되는 것은 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서 "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성 요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성 요소, 부품 도는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

한편, 본 발명에서 설명되는 도면상의 각 구성들은 서로 다른 특징적인 기능들에 관한 설명의 편의를 위해 독립적으로 도시된 것으로서, 각 구성들이 서로 별개의 하드웨어나 별개의 소프트웨어로 구현된다는 것을 의미하지는 않는다. 예컨대, 각 구성 중 두 개 이상의 구성이 합쳐져 하나의 구성을 이룰 수도 있고, 하나의 구성이 복수의 구성으로 나뉘어질 수도 있다. 각 구성이 통합 및/또는 분리된 실시예도 본 발명의 본질에서 벗어나지 않는 한 본 발명의 권리범위에 포함된다.

이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 이하, 도면상의 동일한 구성 요소에 대해서는 동일한 참조 부호를 사용하고 동일한 구성 요소에 대해서 중복된 설명은 생략한다.

사용자에게 가상현실 (Virtual Reality, VR)을 제공하기 위하여, 360 컨텐츠를 제공하는 방안이 고려될 수 있다. 여기서, 상기 360도 컨텐츠는 3DoF(three Degrees of Freedom) 컨텐츠라고 나타낼 수도 있으며, VR이란 실제 또는 가상의 환경을 복제(replicates) 하기 위한 기술 내지는 그 환경을 의미할 수 있다. VR은 인공적으로 사용자에게 감각적 경험을 제공하며, 이를 통해 사용자는 전자적으로 프로젝션된 환경에 있는 것과 같은 경험을 할 수 있다.

360 컨텐츠는 VR을 구현, 제공하기 위한 컨텐츠 전반을 의미하며, 360도 비디오 및/또는 360 오디오를 포함할 수 있다. 360도 비디오 및/또는 360 오디오는 3차원 비디오 및/또는 3차원 오디오로 지칭될 수도 있다. 360도 비디오는 VR을 제공하기 위해 필요한, 동시에 모든 방향(360도)으로 캡처되거나 재생되는 비디오 혹은 이미지 컨텐츠를 의미할 수 있다. 이하, 360도 비디오라 함은 360도 비디오를 의미할 수 있다. 360도 비디오는 3D 모델에 따라 다양한 형태의 3D 공간 상에 나타내어지는 비디오 혹은 이미지를 의미할 수 있으며, 예를 들어 360도 비디오는 구형면(Spherical surface) 상에 나타내어질 수 있다. 360 오디오 역시 VR을 제공하기 위한 오디오 컨텐츠로서, 음향 발생지가 3차원의 특정 공간상에 위치하는 것으로 인지될 수 있는, 공간적(Spatial) 오디오 컨텐츠를 의미할 수 있다. 360 오디오는 3차원 오디오로도 지칭될 수 있다. 360 컨텐츠는 생성, 처리되어 사용자들로 전송될 수 있으며, 사용자들은 360 컨텐츠를 이용하여 VR 경험을 소비할 수 있다.

360도 비디오를 제공하기 위하여, 먼저 하나 이상의 카메라를 통해 360도 비디오가 캡처될 수 있다. 캡처된 360도 비디오는 일련의 과정을 거쳐 전송되고, 수신측에서는 수신된 데이터를 다시 원래의 360도 비디오로 가공하여 렌더링할 수 있다. 이를 통해 360도 비디오가 사용자에게 제공될 수 있다.

구체적으로 360도 비디오 제공을 위한 전체의 과정은 캡처 과정(process), 준비 과정, 전송 과정, 프로세싱 과정, 렌더링 과정 및/또는 피드백 과정을 포함할 수 있다.

캡처 과정은 하나 이상의 카메라를 통하여 복수개의 시점 각각에 대한 이미지 또는 비디오를 캡처하는 과정을 의미할 수 있다. 캡처 과정에 의해 도시된 도 1의 (110)과 같은 이미지/비디오 데이터가 생성될 수 있다. 도시된 도 1의 (110)의 각 평면은 각 시점에 대한 이미지/비디오를 의미할 수 있다. 이 캡처된 복수개의 이미지/비디오를 로(raw) 데이터라 할 수도 있다. 캡처 과정에서 캡처와 관련된 메타데이터가 생성될 수 있다.

이 캡처를 위하여 VR 을 위한 특수한 카메라가 사용될 수 있다. 실시예에 따라 컴퓨터로 생성된 가상의 공간에 대한 360도 비디오를 제공하고자 하는 경우, 실제 카메라를 통한 캡처가 수행되지 않을 수 있다. 이 경우 단순히 관련 데이터가 생성되는 과정으로 해당 캡처 과정이 갈음될 수 있다.

준비 과정은 캡처된 이미지/비디오 및 캡처 과정에서 발생한 메타데이터를 처리하는 과정일 수 있다. 캡처된 이미지/비디오는 이 준비 과정에서, 스티칭 과정, 프로젝션 과정, 리전별 패킹 과정(Region-wise Packing) 및/또는 인코딩 과정 등을 거칠 수 있다.

먼저 각각의 이미지/비디오가 스티칭(Stitching) 과정을 거칠 수 있다. 스티칭 과정은 각각의 캡처된 이미지/비디오들을 연결하여 하나의 파노라마 이미지/비디오 또는 구형의 이미지/비디오를 만드는 과정일 수 있다.

이 후, 스티칭된 이미지/비디오는 프로젝션(Projection) 과정을 거칠 수 있다. 프로젝션 과정에서, 스티칭된 이미지/비디오는 2D 이미지 상에 프로젝션될 수 있다. 이 2D 이미지는 문맥에 따라 2D 이미지 프레임으로 불릴 수도 있다. 2D 이미지로 프로젝션하는 것을 2D 이미지로 맵핑한다고 표현할 수도 있다. 프로젝션된 이미지/비디오 데이터는 도시된 도 1의 (120)과 같은 2D 이미지의 형태가 될 수 있다.

2D 이미지 상에 프로젝션된 비디오 데이터는 비디오 코딩 효율 등을 높이기 위하여 리전별 패킹 과정(Region-wise Packing)을 거칠 수 있다. 리전별 패킹이란, 2D 이미지 상에 프로젝션된 비디오 데이터를 리전(Region) 별로 나누어 처리를 가하는 과정을 의미할 수 있다. 여기서 리전(Region)이란, 360도 비디오 데이터가 프로젝션된 2D 이미지가 나누어진 영역을 의미할 수 있다. 이 리전들은, 실시예에 따라, 2D 이미지를 균등하게 나누어 구분되거나, 임의로 나누어져 구분될 수 있다. 또한 실시예에 따라 리전들은, 프로젝션 스킴에 따라 구분될 수도 있다. 리전별 패킹 과정은 선택적(optional) 과정으로써, 준비 과정에서 생략될 수 있다.

실시예에 따라 이 처리 과정은, 비디오 코딩 효율을 높이기 위해, 각 리전을 회전한다거나 2D 이미지 상에서 재배열하는 과정을 포함할 수 있다. 예를 들어, 리전들을 회전하여 리전들의 특정 변들이 서로 근접하여 위치되도록 함으로써, 코딩 시의 효율이 높아지게 할 수 있다.

실시예에 따라 이 처리 과정은, 360도 비디오상의 영역별로 레졸루션(resolution) 을 차등화하기 위하여, 특정 리전에 대한 레졸루션을 높인다거나, 낮추는 과정을 포함할 수 있다. 예를 들어, 360도 비디오 상에서 상대적으로 더 중요한 영역에 해당하는 리전들은, 다른 리전들보다 레졸루션을 높게할 수 있다. 2D 이미지 상에 프로젝션된 비디오 데이터 또는 리전별 패킹된 비디오 데이터는 비디오 코덱을 통한 인코딩 과정을 거칠 수 있다.

실시예에 따라 준비 과정은 부가적으로 에디팅(editing) 과정 등을 더 포함할 수 있다. 이 에디팅 과정에서 프로젝션 전후의 이미지/비디오 데이터들에 대한 편집 등이 더 수행될 수 있다. 준비 과정에서도 마찬가지로, 스티칭/프로젝션/인코딩/에디팅 등에 대한 메타데이터가 생성될 수 있다. 또한 2D 이미지 상에 프로젝션된 비디오 데이터들의 초기 시점, 혹은 ROI (Region of Interest) 등에 관한 메타데이터가 생성될 수 있다.

전송 과정은 준비 과정을 거친 이미지/비디오 데이터 및 메타데이터들을 처리하여 전송하는 과정일 수 있다. 전송을 위해 임의의 전송 프로토콜에 따른 처리가 수행될 수 있다. 전송을 위한 처리를 마친 데이터들은 방송망 및/또는 브로드밴드를 통해 전달될 수 있다. 이 데이터들은 온 디맨드(On Demand) 방식으로 수신측으로 전달될 수도 있다. 수신측에서는 다양한 경로를 통해 해당 데이터를 수신할 수 있다.

프로세싱 과정은 수신한 데이터를 디코딩하고, 프로젝션되어 있는 이미지/비디오 데이터를 3D 모델 상에 리-프로젝션(Re-projection) 하는 과정을 의미할 수 있다. 이 과정에서 2D 이미지들 상에 프로젝션되어 있는 이미지/비디오 데이터가 3D 공간 상으로 리-프로젝션될 수 있다. 이 과정을 문맥에 따라 맵핑, 프로젝션이라고 부를 수도 있다. 이 때 맵핑되는 3D 공간은 3D 모델에 따라 다른 형태를 가질 수 있다. 예를 들어 3D 모델에는 구형(Sphere), 큐브(Cube), 실린더(Cylinder) 또는 피라미드(Pyramid) 가 있을 수 있다.

실시예에 따라 프로세싱 과정은 부가적으로 에디팅(editing) 과정, 업 스케일링(up scaling) 과정 등을 더 포함할 수 있다. 이 에디팅 과정에서 리-프로젝션 전후의 이미지/비디오 데이터에 대한 편집 등이 더 수행될 수 있다. 이미지/비디오 데이터가 축소되어 있는 경우 업 스케일링 과정에서 샘플들의 업 스케일링을 통해 그 크기를 확대할 수 있다. 필요한 경우, 다운 스케일링을 통해 사이즈를 축소하는 작업이 수행될 수도 있다.

렌더링 과정은 3D 공간상에 리-프로젝션된 이미지/비디오 데이터를 렌더링하고 디스플레이하는 과정을 의미할 수 있다. 표현에 따라 리-프로젝션과 렌더링을 합쳐 3D 모델 상에 렌더링한다 라고 표현할 수도 있다. 3D 모델 상에 리-프로젝션된 (또는 3D 모델 상으로 렌더링된) 이미지/비디오는 도시된 도 1의 (130)과 같은 형태를 가질 수 있다. 도시된 도 1의 (130)은 구형(Sphere) 의 3D 모델에 리-프로젝션된 경우이다. 사용자는 VR 디스플레이 등을 통하여 렌더링된 이미지/비디오의 일부 영역을 볼 수 있다. 이 때 사용자가 보게되는 영역은 도시된 도 1의 (140)과 같은 형태일 수 있다.

피드백 과정은 디스플레이 과정에서 획득될 수 있는 다양한 피드백 정보들을 송신측으로 전달하는 과정을 의미할 수 있다. 피드백 과정을 통해 360도 비디오 소비에 있어 인터랙티비티(Interactivity) 가 제공될 수 있다. 실시예에 따라, 피드백 과정에서 헤드 오리엔테이션(Head Orientation) 정보, 사용자가 현재 보고 있는 영역을 나타내는 뷰포트(Viewport) 정보 등이 송신측으로 전달될 수 있다. 실시예에 따라, 사용자는 VR 환경 상에 구현된 것들과 상호작용할 수도 있는데, 이 경우 그 상호작용과 관련된 정보가 피드백 과정에서 송신측 내지 서비스 프로바이더 측으로 전달될 수도 있다. 실시예에 따라 피드백 과정은 수행되지 않을 수도 있다.

헤드 오리엔테이션 정보는 사용자의 머리 위치, 각도, 움직임 등에 대한 정보를 의미할 수 있다. 이 정보를 기반으로 사용자가 현재 360도 비디오 내에서 보고 있는 영역에 대한 정보, 즉 뷰포트 정보가 계산될 수 있다.

뷰포트 정보는 현재 사용자가 360도 비디오에서 보고 있는 영역에 대한 정보일 수 있다. 이를 통해 게이즈 분석(Gaze Analysis) 이 수행되어, 사용자가 어떠한 방식으로 360도 비디오를 소비하는지, 360도 비디오의 어느 영역을 얼마나 응시하는지 등을 확인할 수도 있다. 게이즈 분석은 수신측에서 수행되어 송신측으로 피드백 채널을 통해 전달될 수도 있다. VR 디스플레이 등의 장치는 사용자의 머리 위치/방향, 장치가 지원하는 수직(vertical) 혹은 수평(horizontal) FOV(Field Of View) 정보 등에 근거하여 뷰포트 영역을 추출할 수 있다.

실시예에 따라, 전술한 피드백 정보는 송신측으로 전달되는 것 뿐아니라, 수신측에서 소비될 수도 있다. 즉, 전술한 피드백 정보를 이용하여 수신측의 디코딩, 리-프로젝션, 렌더링 과정 등이 수행될 수 있다. 예를 들어, 헤드 오리엔테이션 정보 및/또는 뷰포트 정보를 이용하여 현재 사용자가 보고 있는 영역에 대한 360도 비디오만 우선적으로 디코딩 및 렌더링될 수도 있다.

여기서 뷰포트(viewport) 내지 뷰포트 영역이란, 사용자가 360도 비디오에서 보고 있는 영역을 의미할 수 있다. 시점(viewpoint) 는 사용자가 360도 비디오에서 보고 있는 지점으로서, 뷰포트 영역의 정중앙 지점을 의미할 수 있다. 즉, 뷰포트는 시점을 중심으로 한 영역인데, 그 영역이 차지하는 크기 형태 등은 후술할 FOV(Field Of View) 에 의해 결정될 수 있다.

전술한 360도 비디오 제공을 위한 전체 아키텍처 내에서, 캡처/프로젝션/인코딩/전송/디코딩/리-프로젝션/렌더링의 일련의 과정을 거치게 되는 이미지/비디오 데이터들을 360도 비디오 데이터라 부를 수 있다. 360도 비디오 데이터라는 용어는 또한 이러한 이미지/비디오 데이터들과 관련되는 메타데이터 내지 시그널링 정보를 포함하는 개념으로 쓰일 수도 있다.

상술한 오디오 또는 비디오 등의 미디어 데이터를 저장하고 전송하기 위하여, 정형화된 미디어 파일 포맷이 정의될 수 있다. 실시예에 따라 미디어 파일은 ISO BMFF (ISO base media file format)를 기반으로 한 파일 포맷을 가질 수 있다.

일 실시예에 따른 미디어 파일은 적어도 하나 이상의 박스를 포함할 수 있다. 여기서 박스(box)는 미디어 데이터 또는 미디어 데이터에 관련된 메타데이터 등을 포함하는 데이터 블록 내지 오브젝트일 수 있다. 박스들은 서로 계층적 구조를 이룰 수 있으며, 이에 따라 데이터들이 분류되어 미디어 파일이 대용량 미디어 데이터의 저장 및/또는 전송에 적합한 형태를 띄게 될 수 있다. 또한 미디어 파일은, 사용자가 미디어 컨텐츠의 특정지점으로 이동하는 등, 미디어 정보에 접근하는데 있어 용이한 구조를 가질 수 있다.

일 실시예에 따른 미디어 파일은 ftyp 박스, moov 박스 및/또는 mdat 박스를 포함할 수 있다.

ftyp 박스(파일 타입 박스)는 해당 미디어 파일에 대한 파일 타입 또는 호환성 관련 정보를 제공할 수 있다. ftyp 박스는 해당 미디어 파일의 미디어 데이터에 대한 구성 버전 정보를 포함할 수 있다. 복호기는 ftyp 박스를 참조하여 해당 미디어 파일을 구분할 수 있다.

moov 박스(무비 박스)는 해당 미디어 파일의 미디어 데이터에 대한 메타 데이터를 포함하는 박스일 수 있다. moov 박스는 모든 메타 데이터들을 위한 컨테이너 역할을 할 수 있다. moov 박스는 메타 데이터 관련 박스들 중 최상위 계층의 박스일 수 있다. 실시예에 따라 moov 박스는 미디어 파일 내에 하나만 존재할 수 있다.

mdat 박스(미디어 데이터 박스) 는 해당 미디어 파일의 실제 미디어 데이터들을 담는 박스일 수 있다. 미디어 데이터들은 오디오 샘플 및/또는 비디오 샘플들을 포함할 수 있는데, mdat 박스는 이러한 미디어 샘플들을 담는 컨테이너 역할을 할 수 있다.

실시예에 따라 전술한 moov 박스는 mvhd 박스, trak 박스 및/또는 mvex 박스 등을 하위 박스로서 더 포함할 수 있다.

mvhd 박스(무비 헤더 박스)는 해당 미디어 파일에 포함되는 미디어 데이터의 미디어 프리젠테이션 관련 정보를 포함할 수 있다. 즉, mvhd 박스는 해당 미디어 프리젠테이션의 미디어 생성시간, 변경시간, 시간규격, 기간 등의 정보를 포함할 수 있다.

trak 박스(트랙 박스)는 해당 미디어 데이터의 트랙에 관련된 정보를 제공할 수 있다. trak 박스는 오디오 트랙 또는 비디오 트랙에 대한 스트림 관련 정보, 프리젠테이션 관련 정보, 액세스 관련 정보 등의 정보를 포함할 수 있다. Trak 박스는 트랙의 개수에 따라 복수개 존재할 수 있다.

trak 박스는 실시예에 따라 tkhd 박스(트랙 헤더 박스)를 하위 박스로서 더 포함할 수 있다. tkhd 박스는 trak 박스가 나타내는 해당 트랙에 대한 정보를 포함할 수 있다. tkhd 박스는 해당 트랙의 생성시간, 변경시간, 트랙 식별자 등의 정보를 포함할 수 있다.

mvex 박스(무비 익스텐드 박스)는 해당 미디어 파일에 후술할 moof 박스가 있을 수 있음을 지시할 수 있다. 특정 트랙의 모든 미디어 샘플들을 알기 위해서, moof 박스들이 스캔되어야할 수 있다.

일 실시예에 따른 미디어 파일은, 실시예에 따라, 복수개의 프래그먼트로 나뉘어질 수 있다(200). 이를 통해 미디어 파일이 분할되어 저장되거나 전송될 수 있다. 미디어 파일의 미디어 데이터들(mdat 박스)은 복수개의 프래그먼트로 나뉘어지고, 각각의 프래그먼트는 moof 박스와 나뉘어진 mdat 박스를 포함할 수 있다. 실시예에 따라 프래그먼트들을 활용하기 위해서는 ftyp 박스 및/또는 moov 박스의 정보가 필요할 수 있다.

moof 박스(무비 프래그먼트 박스)는 해당 프래그먼트의 미디어 데이터에 대한 메타 데이터를 제공할 수 있다. moof 박스는 해당 프래그먼트의 메타데이터 관련 박스들 중 최상위 계층의 박스일 수 있다.

mdat 박스(미디어 데이터 박스)는 전술한 바와 같이 실제 미디어 데이터를 포함할 수 있다. 이 mdat 박스는 각각의 해당 프래그먼트에 해당하는 미디어 데이터들의 미디어 샘플들을 포함할 수 있다.

실시예에 따라 전술한 moof 박스는 mfhd 박스 및/또는 traf 박스 등을 하위 박스로서 더 포함할 수 있다.

mfhd 박스(무비 프래그먼트 헤더 박스)는 분할된 복수개의 프래그먼트들 간의 연관성과 관련한 정보들을 포함할 수 있다. mfhd 박스는 시퀀스 넘버(sequence number) 를 포함하여, 해당 프래그먼트의 미디어 데이터가 분할된 몇 번째 데이터인지를 나타낼 수 있다. 또한, mfhd 박스를 이용하여 분할된 데이터 중 누락된 것은 없는지 여부가 확인될 수 있다.

traf 박스(트랙 프래그먼트 박스)는 해당 트랙 프래그먼트에 대한 정보를 포함할 수 있다. traf 박스는 해당 프래그먼트에 포함되는 분할된 트랙 프래그먼트에 대한 메타데이터를 제공할 수 있다. traf 박스는 해당 트랙 프래그먼트 내의 미디어 샘플들이 복호화/재생될 수 있도록 메타데이터를 제공할 수 있다. traf 박스는 트랙 프래그먼트의 개수에 따라 복수개 존재할 수 있다.

실시예에 따라 전술한 traf 박스는 tfhd 박스 및/또는 trun 박스 등을 하위 박스로서 더 포함할 수 있다.

tfhd 박스(트랙 프래그먼트 헤더 박스)는 해당 트랙 프래그먼트의 헤더 정보를 포함할 수 있다. tfhd 박스는 전술한 traf 박스가 나타내는 트랙 프래그먼트의 미디어 샘플들에 대하여, 기본적인 샘플크기, 기간, 오프셋, 식별자 등의 정보를 제공할 수 있다.

trun 박스(트랙 프래그먼트 런 박스)는 해당 트랙 프래그먼트 관련 정보를 포함할 수 있다. trun 박스는 미디어 샘플별 기간, 크기, 재생시점 등과 같은 정보를 포함할 수 있다.

전술한 미디어 파일 내지 미디어 파일의 프래그먼트들은 세그먼트들로 처리되어 전송될 수 있다. 세그먼트에는 초기화 세그먼트(initialization segment) 및/또는 미디어 세그먼트(media segment) 가 있을 수 있다.

도시된 실시예(210)의 파일은, 미디어 데이터는 제외하고 미디어 디코더의 초기화와 관련된 정보 등을 포함하는 파일일 수 있다. 이 파일은 예를 들어 전술한 초기화 세그먼트에 해당할 수 있다. 초기화 세그먼트는 전술한 ftyp 박스 및/또는 moov 박스를 포함할 수 있다.

도시된 실시예(220)의 파일은, 전술한 프래그먼트를 포함하는 파일일 수 있다. 이 파일은 예를 들어 전술한 미디어 세그먼트에 해당할 수 있다. 미디어 세그먼트는 전술한 moof 박스 및/또는 mdat 박스를 포함할 수 있다. 또한, 미디어 세그먼트는 styp 박스 및/또는 sidx 박스를 더 포함할 수 있다.

styp 박스(세그먼트 타입 박스) 는 분할된 프래그먼트의 미디어 데이터를 식별하기 위한 정보를 제공할 수 있다. styp 박스는 분할된 프래그먼트에 대해, 전술한 ftyp 박스와 같은 역할을 수행할 수 있다. 실시예에 따라 styp 박스는 ftyp 박스와 동일한 포맷을 가질 수 있다.

sidx 박스(세그먼트 인덱스 박스) 는 분할된 프래그먼트에 대한 인덱스를 나타내는 정보를 제공할 수 있다. 이를 통해 해당 분할된 프래그먼트가 몇번째 프래그먼트인지가 지시될 수 있다.

실시예에 따라(230) ssix 박스가 더 포함될 수 있는데, ssix 박스(서브 세그먼트 인덱스 박스)는 세그먼트가 서브 세그먼트로 더 나뉘어지는 경우에 있어, 그 서브 세그먼트의 인덱스를 나타내는 정보를 제공할 수 있다.

미디어 파일 내의 박스들은, 도시된 실시예(250)와 같은 박스 내지 풀 박스(FullBox) 형태를 기반으로, 더 확장된 정보들을 포함할 수 있다. 이 실시예에서 size 필드, largesize 필드는 해당 박스의 길이를 바이트 단위 등으로 나타낼 수 있다. version 필드는 해당 박스 포맷의 버전을 나타낼 수 있다. Type 필드는 해당 박스의 타입 내지 식별자를 나타낼 수 있다. flags 필드는 해당 박스와 관련된 플래그 등을 나타낼 수 있다.

한편, 일 실시예에 따른 360도 비디오에 대한 필드(속성)들은 DASH 기반 적응형(Adaptive) 스트리밍 모델에 포함되어 전달될 수 있다.

도 4는 DASH 기반 적응형 스트리밍 모델의 전반적인 동작의 일 예를 나타낸다. 도시된 실시예(400)에 따른 DASH 기반 적응형 스트리밍 모델은, HTTP 서버와 DASH 클라이언트 간의 동작을 기술하고 있다. 여기서 DASH(Dynamic Adaptive Streaming over HTTP)는, HTTP 기반 적응형 스트리밍을 지원하기 위한 프로토콜로서, 네트워크 상황에 따라 동적으로 스트리밍을 지원할 수 있다. 이에 따라 AV 컨텐츠 재생이 끊김없이 제공될 수 있다.

먼저 DASH 클라이언트는 MPD를 획득할 수 있다. MPD 는 HTTP 서버 등의 서비스 프로바이더로부터 전달될 수 있다. DASH 클라이언트는 MPD 에 기술된 세그먼트에의 접근 정보를 이용하여 서버로 해당 세그먼트들을 요청할 수 있다. 여기서 이 요청은 네트워크 상태를 반영하여 수행될 수 있다.

DASH 클라이언트는 해당 세그먼트를 획득한 후, 이를 미디어 엔진에서 처리하여 화면에 디스플레이할 수 있다. DASH 클라이언트는 재생 시간 및/또는 네트워크 상황 등을 실시간으로 반영하여, 필요한 세그먼트를 요청, 획득할 수 있다(Adaptive Streaming). 이를 통해 컨텐츠가 끊김없이 재생될 수 있다.

MPD (Media Presentation Description) 는 DASH 클라이언트로 하여금 세그먼트를 동적으로 획득할 수 있도록 하기 위한 상세 정보를 포함하는 파일로서 XML 형태로 표현될 수 있다.

DASH 클라이언트 컨트롤러(DASH Client Controller) 는 네트워크 상황을 반영하여 MPD 및/또는 세그먼트를 요청하는 커맨드를 생성할 수 있다. 또한, 이 컨트롤러는 획득된 정보를 미디어 엔진 등등의 내부 블록에서 사용할 수 있도록 제어할 수 있다.

MPD 파서(Parser) 는 획득한 MPD 를 실시간으로 파싱할 수 있다. 이를 통해, DASH 클라이언트 컨트롤러는 필요한 세그먼트를 획득할 수 있는 커맨드를 생성할 수 있게 될 수 있다.

세그먼트 파서(Parser) 는 획득한 세그먼트를 실시간으로 파싱할 수 있다. 세그먼트에 포함된 정보들에 따라 미디어 엔진 등의 내부 블록들은 특정 동작을 수행할 수 있다.

HTTP 클라이언트는 필요한 MPD 및/또는 세그먼트 등을 HTTP 서버에 요청할 수 있다. 또한 HTTP 클라이언트는 서버로부터 획득한 MPD 및/또는 세그먼트들을 MPD 파서 또는 세그먼트 파서로 전달할 수 있다.

미디어 엔진(Media Engine) 은 세그먼트에 포함된 미디어 데이터를 이용하여 컨텐츠를 화면상에 표시할 수 있다. 이 때, MPD 의 정보들이 활용될 수 있다.

DASH 데이터 모델은 계층적 구조(410)를 가질 수 있다. 미디어 프리젠테이션은 MPD에 의해 기술될 수 있다. MPD는 미디어 프리젠테이션를 만드는 복수개의 구간(Period)들의 시간적인 시퀀스를 기술할 수 있다. 피리오드는 미디어 컨텐츠의 한 구간을 나타낼 수 있다.

한 구간에서, 데이터들은 어댑테이션 셋들에 포함될 수 있다. 어댑테이션 셋은 서로 교환될 수 있는 복수개의 미디어 컨텐츠 컴포넌트들의 집합일 수 있다. 어댑테이션은 레프리젠테이션들의 집합을 포함할 수 있다. 레프리젠테이션은 미디어 컨텐츠 컴포넌트에 해당할 수 있다. 한 레프리젠테이션 내에서, 컨텐츠는 복수개의 세그먼트들로 시간적으로 나뉘어질 수 있다. 이는 적절한 접근성과 전달(delivery)를 위함일 수 있다. 각각의 세그먼트에 접근하기 위해서 각 세그먼트의 URL 이 제공될 수 있다.

MPD는 미디어 프리젠테이션에 관련된 정보들을 제공할 수 있고, 피리오드 엘레멘트, 어댑테이션 셋 엘레멘트, 레프리젠테이션 엘레멘트는 각각 해당 피리오드, 어댑테이션 셋, 레프리젠테이션에 대해서 기술할 수 있다. 레프리젠테이션은 서브 레프리젠테이션들로 나뉘어질 수 있는데, 서브 레프리젠테이션 엘레멘트는 해당 서브 레프리젠테이션에 대해서 기술할 수 있다.

여기서 공통(Common) 속성/엘레멘트들이 정의될 수 있는데, 이 들은 어댑테이션 셋, 레프리젠테이션, 서브 레프리젠테이션 등에 적용될 수 (포함될 수) 있다. 공통 속성/엘레멘트 중에는 에센셜 프로퍼티(EssentialProperty) 및/또는 서플멘탈 프로퍼티(SupplementalProperty) 가 있을 수 있다.

에센셜 프로퍼티는 해당 미디어 프리젠테이션 관련 데이터를 처리함에 있어서 필수적이라고 여겨지는 엘레멘트들을 포함하는 정보일 수 있다. 서플멘탈 프로퍼티는 해당 미디어 프리젠테이션 관련 데이터를 처리함에 있어서 사용될 수도 있는 엘레멘트들을 포함하는 정보일 수 있다. 실시예에 따라 후술할 디스크립터들은, MPD 를 통해 전달되는 경우, 에센셜 프로퍼티 및/또는 서플멘탈 프로퍼티 내에 정의되어 전달될 수 있다.

한편 전술한 도 1 내지 도 4에 따른 설명은 VR 또는 AR 컨텐츠를 구현하는 3차원 비디오 및 3차원 오디오 전반에 관한 것이나, 이하에서는 3차원 오디오 데이터가 본 발명에 따른 실시예와 관련하여 처리되는 과정을 보다 구체적으로 설명하기로 한다.

본 명세서에서 "오디오 컨텐츠"는 오디오 정보를 포함하는 비디오, 360 비디오, VR 컨텐츠, AR 컨텐츠 등의 미디어 컨텐츠를 의미할 수 있다. 나아가 "3차원 오디오 컨텐츠"는 오디오 정보를 포함하는 360 비디오, VR 컨텐츠, AR 컨텐츠 등의 3차원 미디어 컨텐츠를 의미할 수 있다.

본 명세서에서 "오디오 데이터 전송 장치"는 오디오 신호, 오디오에 대한 메타데이터 등의 오디오 데이터를 전송하기 위한 장치를 의미할 수 있다. 또한, "3차원 오디오 데이터 전송 장치"는 3차원 오디오 신호, 3차원 오디오에 대한 메타데이터 등의 3차원 오디오 데이터를 전송하기 위한 장치를 의미할 수 있다. 다만 오디오 데이터 전송 장치가 항상 오디오 데이터 수신 장치 등으로 오디오 데이터를 전송하기만 하는 것은 아니고, 경우에 따라서 오디오 데이터 수신 장치로부터 오디오 데이터를 수신할 수 있다. 오디오 데이터 전송 장치는 본 명세서 전반에 기재된 송신단, 송신기, 송신 장치 또는 컨텐츠 제작단과 동일/유사한 장치이거나, 송신단, 송신기, 송신 장치 또는 컨텐츠 제작단을 포함하거나, 송신단, 송신기, 송신 장치 또는 컨텐츠 제작단에 포함되는 것으로 해석될 수 있다. 오디오 데이터 전송 장치, 송신단, 송신기, 송신 장치 또는 컨텐츠 제작단은, 예를 들어 네트워크, 서버, 클라우드 서버, 기지국, 셋탑박스(STB), PC, 단말(UE), 데스크탑, TV, 노트북 등이 될 수 있고, 예시된 장치들에 포함되는 구성 또는 모듈일 수 있으며, 나아가 예시된 장치들과 유사한 장치들도 오디오 데이터 전송 장치, 송신단, 송신기, 송신 장치 또는 컨텐츠 제작단으로서 동작할 수 있다. 예시는 이에 한정되지 않는다.

본 명세서에서 "오디오 데이터 수신 장치"는 오디오 신호, 오디오에 대한 메타데이터 등의 오디오 데이터를 수신하기 위한 장치를 의미할 수 있다. 또한, "3차원 오디오 데이터 수신 장치"는 3차원 오디오 신호, 3차원 오디오에 대한 메타데이터 등의 3차원 오디오 데이터를 수신하기 위한 장치를 의미할 수 있다. 다만 오디오 데이터 수신 장치가 항상 오디오 데이터 전송 장치로부터 오디오 데이터를 수신하기만 하는 것은 아니고, 경우에 따라서 오디오 데이터 전송 장치로 오디오 데이터를 전송할 수 있다. 오디오 데이터 수신 장치는 본 명세서 전반에 기재된 수신단, 수신기 또는 수신 장치와 동일/유사한 장치이거나, 수신단, 수신기 또는 수신 장치를 포함하거나, 수신단, 수신기 또는 수신 장치에 포함되는 것으로 해석될 수 있다. 오디오 데이터 수신 장치, 수신단, 수신기 또는 수신 장치는, 예를 들어 헤드폰, 이어폰, 스피커, HMD, 단말, 셋탑박스, 네트워크, 서버, PC, 데스크탑, 노트북, 카메라, 캠코더, TV 등이 될 수 있고, 예시된 장치들에 포함되는 구성 또는 모듈일 수 있으며, 나아가 에시된 장치들과 유사한 장치들도 오디오 데이터 수신 장치, 수신단, 수신기 또는 수신 장치로서 동작할 수 있다. 예시는 이에 한정되지 않는다.

일 실시예에서, MPEG-H에 따른 3차원 오디오 데이터 수신 장치(또는 3차원 오디오 데이터 디코딩 장치)는 3DoF와 3DoF+ 환경의 VR 컨텐츠를 지원할 수 있으며, 나아가 6DoF 환경의 VR 컨텐츠를 지원할 수 있다. 일 예시에서, VR 컨텐츠 내에서 씬(scene)이 변경될 때 트랜지션 이펙트가 적용될 수 있으며, 트랜지션 이펙트를 적용하기 위해 트랜지션 이펙트에 대한 정보가 시그널링될 수 있다.

도 5를 참조하면, 임의의 공간에 두 개의 씬(Scene A와 Scene B)이 캡쳐되었으며, 캡쳐된 위치에 따라 도 5에 도시된 악기들의 방향감과 음원의 크기가 상이할 수 있다. 따라서 사용자가 Scene A에서 Scene B로 위치를 이동하는 경우, 관련 위치 정보(또는 씬 정보)가 시그널링 되어야 함은 물론이고, 위치를 이동하는 과정에서 발생될 수 있는 요소들이 고려되어야 할 필요가 있을 수 있다. 위치를 이동하는 과정에서 발생될 수 있는 요소들은, 예를 들어 오디오 관점에서 고려할 때 효과음이 있을 수 있다. 본 발명에 따른 실시예들에서는 사용자가 위치를 변경하면 오디오 씬이 변경한다고 간주하여, 트랜지션 이펙트에 대한 정보들이 시그널링 될 수 있다.

사용자가 위치를 움직일 수 있는 VR 환경에서 좀 더 높은 몰입감을 경험하도록 하기 위해서는 사용자의 위치를 참조하여, 해당 위치에 적합한 씬 (여기서는 오디오 씬만 고려)을 재생할 필요가 있다. 일 예시에서, 도 5에서 사용자가 Scene A가 캡쳐된 위치에 있다고 가정하면 Scene A를, Scene B가 capture된 위치에 있다면 Scene B를 재생할 필요가 있다. 따라서 사용자가 움직일 수 있는 환경에서는 다양한 씬들이 필수적으로 캡쳐되어야 함은 물론, 사용자 위치에 따른 씬도 적절하게 선택되어 재생될 필요가 있다.

기본적으로 사용자가 VR 환경에서 사용자가 움직일 수 있는 조건을 고려하면 6DoF 환경으로 생각할 수 있지만, 게임과 같이 컨텐츠와 상호 작용할 수 있는 수신기를 이용할 경우, 사용자는 임의로 사전에 캡쳐된 여러 씬들 중 하나를 수신기에 요청해서 바로 해당 씬으로 움직일 수도 있으며, 사용자 스스로 희망하는 위치를 지정하여 움직일 수 있다. 즉, 텔레포트(teleport)와 같은 방식으로 현재 위치에서 다른 위치를 움직일 수 있다. 이는 일반적으로 6DoF환경으로 생각될 수 있지만, 사용자 스스로 위치를 움직이지 않았다는 측면에서는 3DoF 환경으로도 생각될 수 있다. 현재 MPEG 및 3GPP에서는 3DoF+ 환경에 대한 표준을 진행하고 있음에도 좀 더 제한적인 환경에서 씬이 달라질 수 있는 상황을 고려하여, 씬들이 트랜지션 될 때 고려될 수 있는 방안들에 대해서도 연구를 진행하고 있다. 일반적으로 3DoF 환경과 3DoF+ 환경에서의 오디오 씬은 비디오 씬과는 달리 인지적인 측면에서 큰 변화가 느껴지지 않아, 3DoF 환경의 기술을 그대로 3DoF+ 환경에 그대로 적용해도 무방할 수 있지만, 씬이 트랜지션 될 수 있는 환경에서는 오디오 씬도 트랜지션 되는 위치에 따라서 크게 변화될 수 있다.

일 실시예에서, VR 또는 3D 오디오 컨텐츠를 재생할 수 있는 디코더로는, MPEG에서 표준화가 완료된 MPEG-H에 따른 3차원 오디오 데이터 디코딩 장치가 있을 수 있다. 도 6에 따른 3차원 오디오 데이터 수신 장치는 MPEG-H에 따른 3차원 오디오 데이터 디코딩 장치를 나타낼 수 있다. 일 예시에서, 3차원 오디오 데이터 디코딩 장치는 3D 오디오 디코더, 3차원 오디오 디코더, 3차원 오디오 디코딩 장치 등으로 지칭될 수도 있다.

비트스트림은 송신단에서 입력된 오디오 신호를 인코딩 및 비트패킹(bitpacking)하여 생성될 수 있는데, 이 때 오디오 신호 타입은 채널 신호, 객체(object) 신호 또는 장면 기반의 HOA(High Order Ambisonic) 신호일 수 있으며, 객체 신호와 다른 신호가 조합되어 입력될 수 있다. 예를 들어, 채널 신호와 객체 신호가 조합될 수 있고, 또는 HOA 신호와 객체 신호가 조합될 수도 있다. 수신단에서 비트스트림은 MPEG-H에 따른 3차원 오디오 데이터 디코딩 장치로 입력되어 디코딩된 신호들을 출력할 수 있다. 디코딩된 신호들은 송신단에서 인코딩된 신호 타입의 순서대로 출력될 수 있다. 오디오 신호 중에 객체 신호도 포함되어 있는 경우, 디코딩된 신호를 출력할 때 객체 정보에 대한 객체 메타데이터(object metadata) 정보도 함께 출력될 수 있다.

다음으로, 디코딩된 신호들은 렌더링 및 믹싱단(rendering and mixing)으로 전달되고, 함께 출력되었던 객체 메타데이터 정보는 메타데이터 및 인터페이스 데이터 프로세싱(Metadata and interface data processing)단으로 전달되어 외부에서 추가적으로 입력된 설정 가능한 정보들과 조합되어 최종 출력 신호의 특성을 변경시킬 수 있다. 외부에서 추가적으로 설정 가능한 정보들은, 크게 재생 환경 정보와 사용자 상호 작용 정보가 있을 수 있다. 재생 환경 정보는 사용자가 청취하는 오디오의 재생 환경에 관한 정보로써, 사용자가 재생 환경(스피커 혹은 헤드폰)(Rendering type), Head tracking 사용 여부(Tracking mode, Scene displacement info.), 외부 연결 장치(WIRE output setup), 스크린 사용 여부(Local screen size info.) 등에 대해서 선택적으로 입력할 수 있다. 사용자 상호 작용 정보는 오디오 재생 중에 사용자 의도를 부여하는 정보들로써, 사용자가 객체 신호의 특성(위치 및 크기) 변화(Interaction mode, Interaction data info.), 스크린 및 객체 연동(Zoom area info.) 등의 기능을 실시간으로 재생 신호에 적용시킬 수 있다. 예를 들어, 오디오 재생 중 사용자가 임의의 객체의 특성 정보를 변화시키고자 할 때, 수신되었던 객체 메타데이터 정보를 사용자 의도에 맞도록 해당 과정에서 수정할 필요가 있다. 이처럼 메타데이터 및 인터페이스 데이터 프로세싱단은 재생 환경을 설정할 뿐만 아니라, 객체 메타데이터를 외부에서 입력된 정보(즉, 사용자 상호 작용 정보)들을 참조하여 변형시키는 과정도 포함하고 있다. 렌더링 및 믹싱단은 디코딩된 신호를 외부에서 입력된 재생 환경 정보에 맞춰서 출력시키기 위한 모듈을 나타낼 수 있다. 이 때 디코딩된 신호의 타입에 따라서 렌더러가 결정될 수 있다.

일 예시에서, 채널 신호들을 렌더링할 경우에는 채널 컨버터(Channel converter)가 사용될 수 있고, 객체 신호를 렌더링 할 때에는 객체 메타데이터와 함께 객체 렌더러로 입력될 수 있다. 그리고 HOA 타입 신호일 때에는 HOA 렌더러가 이용될 수 있다. 이와 같이 각 디코딩된 신호들은 각 오디오 타입에 대응되는 렌더러에 입력될 수 있고, 재생 환경 정보(스피커 환경)를 참조해서 신호들을 재구성하여 각각의 렌더러에서 출력될 수 있다. 만약 디코딩된 신호가 두 가지 타입의 신호가 조합되어 있는 형태인 경우, 믹싱 과정에서 출력 스피커 위치에 맞도록 렌더링된 신호들을 더해서 채널 신호를 출력할 수 있다. 만약 재생 방식이 헤드폰으로 선택되면, 재생 환경에서의 스피커 위치에서 녹음된 양이(both ears)의 BRIR(Binaural Room Impulse Response)들을 렌더링된 신호에 필터링하고 더하여 최종 스테레오 신호 OutL과 OutR을 출력할 수 있다. 양이의 BRIR의 렌더링된 신호에 직접 필터링 할 경우 많은 연산량이 필요하므로, 파라미터화(Parameterization) 과정이 선택적 툴로서 사용될 수 있다. 파라미터화 과정에서는 BRIR의 특징 정보들을 파라미터로 추출하고, 추출된 파라미터를 신호에 직접 적용할 수 있다. 외부로부터 수신하는 정보 중에서 트래킹 모드(Tracking mode)는 헤드 트래킹 기능의 사용 여부에 관한 정보이며, 만약 헤드 트래킹 기능을 사용할 경우, 사용자가 머리를 움직일 때마다 변경되는 방향 정보가 씬 디스플레이스먼트 정보(Scene displacement information)에 나타날 수 있고, 메타데이터 및 인터페이스 프로세싱단에서 해당 정보를 참조하여 기존의 방향 정보를 업데이트 할 수 있다. 다음으로, 업데이트된 정보를 이용하여 디코딩된 신호를 렌더링할 수 있다. 이를 통해 사용자는 트래킹 모드를 사용하여 3차원 오디오를 경험할 수 있다.

도 6에서 아래의 점선 블록은 BRIR을 모델링하는 모듈을 나타낸다. 사용자가 VR 컨텐츠를 이용하는 중에 위치를 변경할 경우에 (예를 들어, 도 5의 Scene A에서 Scene B로 이동할 경우) 사용자 위치에 따라 특징 정보가 다른 씬을 적용해 주듯이, BRIR 역시 사용자 위치에 따라 다르게 적용될 필요가 있다. 해당 BRIR 모듈은 사용자의 위치 정보를 참조하여 BRIR을 모델링하고, 이를 오디오 신호에 적용하는 과정을 나타낸 것이다.

전술한 바와 같이, MPEG-H에 따른 3차원 오디오 데이터 디코딩 장치는 기본적으로 트래킹 모드를 지원하므로, 오리엔테이션 관련 정보는 씬 디스플레이스먼트 신택스를 통해 수신하여 처리될 수 있다. 하지만 6DoF 환경에서는 오리엔테이션 정보뿐만 아니라 위치 정보도 수신할 필요가 있다. 아래의 표 1 및 표 2는 사용자의 위치 정보를 수신 받는 신택스의 예시를 정의하고 있다.

[표 1]

[표 2]

상기 표 1 및 표 2는 mpeg3daSceneDisplacementData의 신택스를 나타낼 수 있다. sd_azimuth는 방위각을 기준으로 하는, 씬에 대한 사용자 위치 변경 정보를 의미한다. 방위각은 -180도에서 180도 사이의 값으로 표시될 수 있다. Az = 1.5 Х ( sd_azimuth - 128); Az = min (max (Az , -180), 180); 를 기반으로 산출될 수 있다.

sd_elevation은 고도각을 기준으로 하는, 씬에 대한 사용자 위치 변경 정보를 의미한다. 고도각은 -90도와 90도 사이의 값으로 표시될 수 있다. El = 3 Х ( sd_elevation - 32); El = min (max (El , -90), 90); 를 기반으로 산출될 수 있다.

sd_distance는 거리를 기준으로 하는, 씬에 대한 사용자 위치 변경 정보를 의미한다. 거리를 나타내는 Dist = distanceOffset + [10 ^ (0.03225380 * sd_distance) -1]; (distanceOffset = 10 mm)를 기반으로 산출될 수 있다.

sd_x는 x축을 기준으로 하는 씬에 대한 사용자의 위치 변경 정보를 의미한다. 단위는 meter이며, 0과 167km 사이의 값으로 표시될 수 있다. Dist_x = 10 ^ (0.03225380 * sd_x) -1를 기반으로 산출될 수 있다.

sd_y는 y축을 기준으로 하는 씬에 대한 사용자의 위치 변경 정보를 의미한다. 단위는 meter이며, 0과 167km 사이의 값으로 표시될 수 있다. Dist_y = 10 ^ (0.03225380 * sd_y) -1; 를 기반으로 산출될 수 있다.

sd_z는 z축을 기준으로 하는 씬에 대한 사용자의 위치 변경 정보를 의미한다. 단위는 meter이며, 0과 167km 사이의 값으로 표시될 수 있다. Dist_z = 10 ^ (0.03225380 * sd_z) -1; 를 기반으로 산출될 수 있다.

상기 표 1과 상기 표 2는 모두 위치 정보를 의미하며, 표 1에는 위치 정보가 구면 좌표계(Spherical coordinate)로, 표 2에는 위치 정보가 직교 좌표계(Cartesian coordinate)로 표기되어 있다. 수신기에서는 둘 중 하나의 좌표계 또는 모든 좌표계를 지원할 수 있다. 해당 신택스 정보를 수신할 수 있는 3차원 오디오 데이터 디코더는 변경되는 사용자의 위치 정보를 참조하여 오디오 신호를 렌더링할 수 있다. 사용자는 위치 정보 변경에 따라 렌더링되는 신호를 청취하게 됨으로써 최적의(optimal) 3차원 오디오를 경험할 수 있다.

당해 기술 분야의 통상의 기술자는, 도 7a 및 도 7b에서 오디오 컨텐츠가 재생되는 (가상의) 공간이 2차원으로 표현되어 있으나 이는 설명의 편의를 위한 것이고, 해당 공간이 3차원 구조를 가짐을 용이하게 이해할 것이다.

도 7a는 씬의 캡쳐된 VR 환경의 일 예시를 나타내고 있고, 도 7b는 사용자의 재생 환경(예를 들어, 5채널 스피커 환경)의 일 예시를 나타내고 있다. 도 7a는 도 5에 따른 VR 환경을 보다 구체화한 것일 수 있다. 일반적으로 씬을 캡쳐할 때에는 씬과 씬의 연속성을 보장하기 위해 서로 겹치도록 캡쳐하는 것이 성능 측면에서 바람직할 수 있다. 하지만 씬과 씬을 서로 겹치도록 캡쳐하면 6DoF 환경에서 컨텐츠를 이용할 때에는 성능 차이가 인지될 수 있지만, 사용자가 텔레포트와 같은 방식, 즉 순간적으로 트랜지션하는 방식으로 위치를 이동할 경우에는 성능 측면에서 큰 차이가 인지되지 못할 수 있다. 본 발명의 일 실시예에서는 순간적으로 트랜지션 하는 방식에 대해서 다루기로 한다.

도 7a에서 사용자는 초기에 Scene A의 임의의 위치(w)에 있고, 수신기 또는 임의의 장치에 희망하는 위치 정보를 입력하여 이동할 수 있다고 가정한다. 사용자는 VR 공간 어디든 이동할 수 있지만, 크게 3지역으로 특징지을 수 있다. Scene A의 다른 지역(지역 1), Scene A와 Scene B가 중첩되는 지역(지역2) 및 Scene B 지역 (지역 3) 세 가지 지역이 있다. 만약 사용자가 초기 위치에서 Scene A의 다른 지역으로 이동하는 경우, Scene 정보는 변경될 필요가 없다. 하지만, 사용자 위치에 따라서 재생되는 음원의 특징은 변경될 필요가 있을 수 있다. 예를 들어, 도 7a에서 사용자가 초기 위치 w에서 x로 이동하면, 관악기 음이 매우 가깝게 들려야 한다. 이는 기존 위치와 변경된 위치 변화를 계산하여, 의도적으로 도 7b의 왼쪽 스피커의 볼륨을 크게하고, 오른쪽 스피커의 볼륨을 작게 변경해주어서 유사한 효과를 낼 수 있다. 만약 사용자가 Scene A에서 지역 3의 y지점으로 이동할 경우, 재생되는 씬을 변경하고, 사용자 위치에 따라서 스피커에서 재생되는 볼륨을 변경시켜줄 수 있다. 만약 사용자가 지역 2로 이동할 경우, 사용자 위치에 따라서 적용되는 씬이 변경되어야 한다. 예를 들어, 사용자가 z지점으로 이동할 경우, 비록 Scene A 범위에는 포함되지만, Scene B가 캡쳐된 지점이 z지점에 더욱 가깝다. 따라서 이러한 경우에는 Scene B로 재생하는 것이 사용자에게 더욱 적합할 수 있다.

위의 내용을 종합하면, 기본적으로 수신단에서 씬이 변경되는 환경을 지원하기 위해서는 다음과 같이 총 3가지 정보가 필요하다. (1) 이동 희망 위치, (2) 희망 위치에 해당하는 씬, (3) 재생되어야 하는 씬. 사전에 캡쳐된 씬이 담당할 수 있는 영역을 설정하고, 각 영역에 대해서 임의로 지점들을 지정한 뒤, 각 지점에 대해서 위에 제시한 3가지 정보를 기록할 수 있다. 이후, 사용자가 임의의 VR 컨텐츠를 이용하는 중에 위치를 옮길 경우, 변경된 위치와 가장 가깝게 기록된 지점을 선택하여 선택된 지점과 대응되는 씬을 재생할 수 있다. 전술한 바와 같이, 위치 변경은 순간적으로 이루어질 수 있다. 이 때, 임의의 위치에서 다른 위치로 이동할 때, 이동하는 효과를 추가적으로 사용자가 경험하도록 시그널링할 수 있다. 상기 이동하는 효과는 트랜지션 이펙트라고 지칭될 수 있으나, 명칭은 이에 한정되지 않는다. 예를 들어, 트랜지션 이펙트 대신 전이 효과, transition effect 등으로 지칭될 수도 있다. 본 발명에 따른 일 실시예에서는 트랜지션 이펙트로 크게 3가지 타입 이상의 오디오가 이용될 수 있도록 정의하였으며, 이에 대해서는 후술하기로 한다.

표 3은 위에 제시한 3가지 정보와 트랜지션 이펙트의 특징들을 정의한 신택스의 예시를 나타낸다. 해당 신택스는 3D 오디오 디코더에 수신되어서 적절한 씬과 트랜지션 이펙트가 시그널링 되도록 할 수 있다. 도 6의 블록도에서는 해당 정보가 수신되는 부분을 굵은 선으로 나타내고 있다.

[표 3]

표 3에서, numScenes는 씬의 총 개수를 의미한다. Scene_idx는 복수 개의 씬들을 식별하기 위해 각 씬에 고유 ID 값을 정의하고 있다. Scene_idx 값은 0부터 시작할 수 있다. numTransEffectPos는 각 씬에 대해서 정의된 트랜지션 위치의 총 개수를 의미한다. TranPos_idx는 복수 개의 트랜지션 위치들을 식별하기 위해 각 트랜지션 위치의 고유 ID 값을 정의한다. TranPos_idx 값은 0부터 시작할 수 있다.

TranPos_azimuth는 트랜지션 위치의 위치 정보를 방위각 측면에서 각도 값으로 나타낸다. 각도 값은 Azimuth=-180도 와 Azimuth=180도 사이에서 나타날 수 있다. AzPos = 1.5 Х ( TranPos_azimuth - 128); AzPos = min (max (AzPos , -180), 180); 를 기반으로 산출될 수 있다.

TranPos_elevation은 트랜지션 위치의 위치 정보를 고도각 측면에서 각도 값으로 나타낸다. 각도 값은 Elevation=-90도 와 Elevation=90도 사이에서 나타날 수 있다. ElPos = 3 Х ( TranPos_elevation - 32); ElPos = min (max (ElPos , -90), 90); 를 기반으로 산출될 수 있다.

TranPos_distance는 트랜지션 위치의 위치 정보를 거리 측면에서 미터 값으로 나타낸다. 거리 값은 0.01m부터 167km 사이에서 주어진다. DistPos = distanceOffset + [10 ^ (0.03225380 * TranPos_distance) -1]; (distanceOffset = 10 mm) 를 기반으로 산출될 수 있다.

TransScene_idx는 트랜지션 위치에서 재생되어야 하는 씬을 정의한다. 정의된 위치에 따라서 트랜지션 위치에서 재생되어야 하는 씬은 현재 씬과 일치할 수도 있고, 일치하지 않을 수도 있다.

TransEffectType은 트랜지션 이펙트의 타입을 정의한다. 트랜지션 이펙트의 타입은, 예를 들어 아래의 표 4와 같다.

[표 4]

TransEffectType은 페이드인-피이드아웃(FADEIN-FADEOUT) 타입, 도플러(DOPPLER) 타입, 잔향(REVERBERATION) 타입 및 바이너럴 렌더링(BINAURAL RENDERING) 타입을 포함할 수 있고, 이외에도 다양한 타입들을 포함할 수 있다.

TransEffectAudioType은 트랜지션 이펙트에 사용될 오디오 신호의 타입을 정의한다. Transition Effect Audio의 타입은, 예를 들어 아래의 표 5와 같다.

[표 5]

표 5에서 NATURAL SOUND는 실제 환경에서 녹음된 오디오를 의미하고, SYNTHETIC SOUND는 사운드 엔지니어(sound engineer)에 의해서 합성된 오디오를 의미한다. SPOKEN_TEXT는 기본적으로 음성 목소리를 의미하지만, 목적에 따라 좀 더 세분화될 수 있다. SPOKEN_TEXT (GUIDE)는 트랜지션 위치에서 사용되는 씬 또는 씬 관련 정보를 언급하는 오디오를 의미한다 (예를 들어,"Scene 2로 이동 중입니다"라고 언급하는 오디오를 고려해볼 수 있다). SPOKEN_TEXT (INFORMATION)은 트랜지션 위치에 대한 기본 정보를, SPOKEN_TEXT (DIRECTION)은 현재 씬을 중심으로 트랜지션 위치가 위치한 방향을 언급하는 오디오를 의미한다.

다시 표 3을 참조하면, TransEffectAudioHasGain는 트랜지션 이펙트 오디오에 게인 값이 있는지 여부를 정의한다. TransEffectAudio_gain는 트랜지션 이펙트 오디오(Transition effect audio)의 게인 값을 정의한다.

사용자는 오디오 컨텐츠가 재생되는 과정에서도 오디오 씬 정보를 변경할 수 있다. 3D 오디오 디코더 역시 씬을 구성하는 요소들(채널, 오브젝트 또는 HOA 타입 신호)의 특성을 ElementInteractionData()를 통해서 변경할 수 있다. 해당 페이로드(payload)는 수신단의 사용자와 오디오 컨텐츠가 상호 작용하기 위한 목적으로 사용되므로, 필요할 경우 수신단 측에서 관련 정보를 생성하여서 부호화기에 입력하여 사용할 수 있다. 트랜지션 이펙트는 일반적으로 임의의 오디오 컨텐츠를 이용하는 과정에서 발생한다. 즉, ElementInteractionData()에 사용자가 희망하는 위치 변경 (또는 트랜지션) 정보를 포함하여 수신기에 요청할 수 있다. 표 6은 트랜지션 이펙트 정보가 포함된 ElementInteractionData() 신택스를 나타내고 있다.

[표 6]

isTransEffectOn은 트랜지션 이펙트를 사용한 지 여부(또는 트랜지션 여부)를 나타낸다. Scene_idx는 사용자가 선택한 씬에 해당되는 ID 값을 의미한다. isDefinedTranPosUsed는 사전에 정의된 위치 정보가 사용된 지 여부를 나타낸다. TransPos_idx는 사전에 정의된 위치에 해당되는 ID 값을 의미한다. TranPos_azimuth는 사용자가 선택한 트랜지션 위치의 위치 정보를 방위각 측면에서 각도 값으로 나타낸다. 해당 각도 정보는 트랜지션 위치에 포함된 씬을 기준으로 산출될 수 있다. 각도 값은 Azimuth=-180도와 Azimuth=180도 사이에서 주어진다. AzPos = 1.5 Х ( Pos_azimuth - 128); AzPos = min (max (AzPos , -180), 180); 을 기반으로 산출될 수 있다.

TranPos_elevation은 사용자가 선택한 트랜지션 위치의 위치 정보를 고도각 측면에서 각도 값으로 나타낸다. 해당 각도 정보는 트랜지션 위치가 소속된 씬을 기준으로 산출될 수 있다. 각도 값은 Elevation=-90도와 Elevation=90도 사이에서 주어진다. ElPos = 3 Х ( Pos_elevation - 32); ElPos = min (max (#lPos , -90), 90); 를 기반으로 산출될 수 있다.

TranPos_distance는 트랜지션 위치의 위치 정보를 거리 측면에서 미터 값으로 나타낸다. 거리 값은 0.01m부터 167km 사이에서 주어진다. 해당 거리 정보는 트랜지션 위치가 소속된 씬을 기준으로 산출될 수 있다. TranPos_distance = distanceOffset + [10 ^ (0.03225380 * Pos_distance) -1]; (distanceOffset = 10 mm)를 기반으로 산출될 수 있다.

표 6에서 기존 ElementInteractionData 신택스에서 추가된 트랜지션 이펙트 정보를 점선 영역으로 표시하였다. 사용자는 트랜지션 위치를 정할 때 먼저 씬을 정할 수 있다. 다음으로, 각 씬에 사전에 정의된 위치로 이동할 지 또는 사용자가 직접 정한 위치로 이동할지 여부를 결정할 수 있다. 표 6의 Scene_idx와 TransScene_idx 값은 각각 표 3에 정의된 Scene_idx[scn]과 TransScene_idx[scn][pos]에 대응될 수 있다.

표 3에 정의된 내용은 각 씬의 트랜지션 위치마다 하나의 트랜지션 이펙트만 정의된 경우를 나타내고 있다. 씬의 트랜지션이 발생하면 TransEffectInfo()에 정의된 정보만 사용자에게 적용될 수 있다. 만약 각 씬의 트랜지션 위치마다 복수 개의 트랜지션 이펙트가 정의된 경우, 트랜지션 이펙트가 발생할 때 사용자로 하여금 트랜지션 이펙트의 타입을 선택하도록 할 수 있다. 먼저 트랜지션 위치마다 복수 개의 트랜지션 이펙트를 정의하는 TrasEffectInfo()에 대한 신택스의 예시는 아래의 표 7과 같다.

[표 7]

표 7은 표 3과 거의 유사하다. 하지만 표 7에는 하나의 씬에 대해서도 복수 개의 트랜지션 이펙트 오디오를 정의하고 있다. 따라서 복수 개의 트랜지션 이펙트를를 식별하는 인덱스가 추가적으로 정의되어 있다.

TransEffectAudio_idx는 복수 개의 트랜지션 이펙트들을 식별하기 위해 각 트랜지션 이펙트에 고유 ID 값을 정의하고 있다. TransEffectAudio_idx 값은 0부터 시작할 수 있다.

표 7에 대응되는 ElementInteractionData()는 아래의 표 8과 같을 수 있다. 중복성을 최소화하기 위해 표 8에는 트랜지션 이펙트 관련 신택스만 나타내고 있다.

[표 8]

TransEffectType은 트랜지션 이펙트의 타입에 대한 선택을 나타낸다. 트랜지션 이펙트의 타입은 전술한 표 4를 따른다. TransEffectAudioType은 트랜지션 이펙트 오디오의 타입에 대한 선택을 나타낸다. 트랜지션 이펙트 오디오의 타입은 전술한 표 5를 따른다.

표 8에서 볼 수 있듯이, 트랜지션 이펙트의 종류를 사용자가 직접 고를 수 있게 되면서, 사용자 정보를 수신하는 신택스에 TransEffectType과 TransEffectAudioType이 추가로 정의되었다. 해당 정보는 트랜지션이 수행될 때 발생되는 음원의 특성을 선택하는 정보인데, 만약 사용자가 선택한 트랜지션 이펙트가 TransEffectInfo() 페이로드에 정의되지 않은 경우, 수신기는 TransEffectType과 TrasEffectAudioType 모두 UNDEFINED (TransEffectType =0, TransEffectAudioType=0)로 간주하여 처리할 수 있다.

일 실시예는 트랜지션 이펙트가 3D 오디오 디코더에서 어떻게 수신되어 사용되는지에 관한다. 3D 오디오 기준으로 오디오 관련 설정 정보 및 스트림은 송신단에서 모두 패킷 형태로 구성한 후, 스트림으로 생성되어 수신단으로 전송될 수 있다. 각각의 패킷은 패킷 타입, 다양한 패킷 타입들을 식별하는 라벨 그리고 다양한 정보들이 포함된 페이로드로 구성될 수 있다. 도 8은 간단하게 구성된 3D 오디오 스트림의 일 예시를 나타내고 있다.

도 8에서 SYNC, MHCFG, MHASC 및 MHFRM은 각각 PACTYP_SYNC, PACTYP_ MPEGH3DACFG, PACTYP_AUDIOSCENEINFO 및 PACTYP_MPEGH3DAFRAME을 의미한다. PACTYP_SYNC는 프레임 동기화를 사용할 수 없는 채널을 통한 전송을 위해 사용되는 패킷이며, PACTYP_MPEGH3DACFG은 디코딩 컨피규레이션(decoding configuration)을 포함하는 정보로 오디오 스트림을 디코딩할 때 요구될 수 있다. 해당 패킷이 수신되면 mpegh3daconfig() 함수가 호출될 수 있다. PACTYP_AUDIOSCENEINFO은 오디오 씬 정보가 정의된 패킷이다. 해당 패킷은 오디오 씬이 정의되었을 때만 전송되며, PACTYP_MPEGH3DACFG 뒤에 위치할 수 있다. 해당 패킷이 수신되면 mae_AudioSceneInfo() 함수가 호출될 수 있다. PACTYP_MPEGH3DAFRAME은 모든 오디오 스트림 정보를 포함할 수 있으며, mpeg3daframe() 함수를 통해 호출될 수 있다. 따라서 도 8의 일 실시예에 따른 디코딩 순서는, 먼저 디코딩 컨피규레이션을 설정하고, 정의된 오디오 씬 정보를 수신한다. 다음으로, 매 프레임마다 mpeg3daframe()를 호출하여 오디오 스트림을 디코딩하고 렌더링한다. 표 9와 표 10은 전술한 패킷들 외에도 일부 패킷들을 나타내고 있다. 일 예시에서, 표 9 및 표 10은 MPEG-H 3D 오디오 스펙에 따른 테이블을 업데이트한 것일 수 있다.

[표 9]

[표 10]

일 실시예에서, 도 9는 기존 비트스트림에 트랜지션 이펙트와 관련된 패킷만 추가한 경우를 나타낼 수 있다.

도 9에서 MHTRA가 트랜지션 이펙트 관련 패킷을 의미할 수 있고, 표 9의 점섬에 트랜지션 이펙트 관련 패킷에 대한 정보가 개시되어 있다. 도 9를 참조하면 도 8과 비교할 때, MHFRA 패킷이 호출되기 전에 MHTRA 패킷이 호출되는 것을 확인할 수 있다. 그리고 MHTRA에 관련된 트랜지션 이펙트 관련 오디오 스트림들은 오디오 스트림과 함께 MHFRA 패킷에 포함되어 오디오 신호들이 디코딩될 때 동시에 디코딩 되던가, 또는 트랜지션 이펙트를 사용한다는 시그널링이 되었을 때 관련 트랜지션 이펙트 오디오 스트림들이 디코딩될 수 있다.

위에서 설명된 3D 오디오 디코더에서 트랜지션 이펙트를 이용하는 과정은 아래의 도 10a 및 도 10b에 보다 구체적으로 도시되어 있다.

도 10a는 도 9에 따른 비트스트림의 호출 순서도를 개략적으로 나타낸 것이다. 도 10a에 대한 보다 구체적인 호출 및 작동 과정(수신단의 입력 정보 포함)은 도 10b에 도시되어 있다. 먼저 비트스트림이 수신되면, mpeg3daConfig()를 호출하여 오디오 신호에 대한 디코딩 설정을 수행하는데 필요한 페이로드를 수신할 수 있다. 다음으로, 오디오 씬이 정의되어 있으면(오디오 씬 관련 packet(MHASI)이 수신되면) mae_AudioSceneInfo()를 호출하여 오디오 씬을 구성하는 엘레먼트들의 페이로드들을 수신할 수 있다. 만약 오디오 씬이 정의되어 있지 않으면, 바로 다음 과정으로 진행할 수 있다. 다음으로, 트랜지션 이펙트 정보가 있으면(트랜지션 이펙트 관련 packet(MHTRA)이 수신되면) TransEffectInfo()를 호출하여, 트랜지션 이펙트 관련 페이로드를 수신할 수 있다. 마찬가지로 만약 트랜지션 이펙트가 정의되어 있지 않으면, 바로 다음 과정으로 진행할 수 있다. 앞에서 모든 정보가 수신된 다음, mpeg3daframe()이 호출되고, 여기서 압축된 모든 오디오 신호가 역양자화(dequantization)되어서 디코딩될 수 있다. 해당 과정에서 기존 오디오 신호뿐만 아니라, 트랜지션 이펙트 오디오 관련 신호들도 함께 디코딩될 수 있다.

한편, 수신단에서 별도로 입력한 정보들도 수신기에 입력되는데, mpeg3daLocalSetupInformation()은 수신단의 재생 환경 정보를, mpeg3daElementInteraction()은 사용자에 의해 변경되는 오디오 씬의 특징 정보를 (사용자의 트랜지션 변경 정보도 여기에 포함 됨), mpeg3daDisplacment()는 사용자의 트래킹 정보를 각각 수신기에 입력할 수 있다. mpeg3daElementInteraction()과 mpeg3daDisplacement()는 오디오 컨텐츠 재생 도중에도 계속해서 수신될 수 있다. 다음으로, 수신기에서는 수신된 정보를 분석하여 출력 채널 환경을 설정하고, 분석된 수신단의 정보를 디코딩 오디오 신호에 적용하여 오디오 신호들을 출력 채널 환경에 맞춰서 렌더링할 수 있다. 만약 오디오 컨텐츠 재생 중에 트랜지션 요청이 발생하면, 즉, 씬 변경이 발생하면 mpeg3daElementInteraction()의 일부 페이로드로 정의되어 있는 트랜지션 이펙트 관련 정보를 참조하여, 트랜지션 이펙트 오디오를 기존에 재생되었던 씬과 변경될 씬 사이에 삽입하여 재생할 수 있다. 즉, 변경될 씬을 재생하기 전에 트랜지션 이펙트 오디오를 재생한 다음, 이어서 변경될 씬을 재생할 수 있다.

도 10a 및 도 10b에서 설명했던 과정을 참조하면, 오디오 신호뿐만 아니라 트랜지션 이펙트를 위한 오디오 신호도 함께 압축되고 패킷에 저장되어서 비트스트림으로 생성됨을 확인할 수 있다. 이는 수신기에서 트랜지션 이펙트 오디오를 이용할 때 먼저 디코딩되어야 한다는 것을 의미하므로, 추가적인 연산이 필요할 수 있다. 따라서 통상적으로 트랜지션 이펙트 오디오의 재생 시간이 일반 오디오 신호에 비해서 많이 짧기 때문에, 압축되지 않은 트랜지션 이펙트 오디오, 즉, PCM audio 신호를 위한 별도의 패킷을 새로 정의해서 비트스트림에 포함시킬 수 있다. 일 예시에서, MPEG 오디오 서브그룹에서는 트랜지션 이펙트 오디오처럼 짧은 재생 시간을 갖는 오브젝트 타입의 오디오를 나타내는 이어콘(earcon) PCM 신호 그대로 패킷화(packetization)하여 비트스트림에 그대로 저장하는 방안을 제안하고 있다. 본 발명의 일 실시예에서도 기존에 제안된 earcon PCM 신호처럼 트랜지션 이펙트 오디오 PCM 신호를 지원할 수 있는 방안을 추가적으로 제안한다. 먼저 트랜지션 이펙트 오디오가 PCM 신호라는 것을 시그널링하기 위해 기존 표 5를 표 11과 같이 업데이트하였다.

[표 11]

다음으로, 3D 오디오 디코더에서 트랜지션 이펙트 오디오 PCM 신호를 지원할 수 있는 방법은 두 가지가 존재할 수 있다. 첫 번째는 기존 earcon PCM 신호를 지원하는 패킷의 페이로드 신택스에 트랜지션 이펙트 오디오 PCM 신호에 관련된 정보를 추가하는 방안으로서, 구체적인 신택스의 예시는 아래의 표 12 내지 표 15에 나타난다.

[표 12]

[표 13]

표 12와 표 13의 점선 영역은 PCM 신호를 지원하기 위해 새로 정의된 패킷들을 나타낸다. 표 14와 표 15는 새로 정의된 패킷에 대한 구체적인 신택스를 나타내고 있다. 점선 영역은 기존 신택스와 비교할때 새로 추가된 정보들을 나타낸다.

[표 14]

[표 15]

numPcmSignals는 pcmDataPayload()에 포함된 PCM 신호의 총 개수를 의미한다. numTransEffectAudioPcmSignals는 pcmDataPlayload()에 있는 트랜지션 이펙트 오디오 PCM 신호의 총 수를 의미한다. 따라서 numPcmSignals와의 차이는 earcon PCM 신호의 총 수가 된다. pcmSamplingRateIndex는 PCM 신호의 샘플링 레이트를 결정하기 위한 인덱스를 나타낸다. 일 예시에서, 인덱스는 기존 스펙에 정의되어 있는 테이블을 따를 수 있다. pcmSamplingRate: pcmSamplingRateIndex가 0인 경우, PCM 신호의 샘플링 레이트는 부호 없는 정수 값으로 지정될 수 있다. pcmBitsPerSample은 PCM 신호의 샘플당 비트 수를 의미한다. 비트 수는 최소 4이상이어야 한다. pcmFrameSizeIndex는 PCM 신호의 프레임 사이즈를 결정하기 위한 인덱스를 나타낼 수 있다. 인덱스는, 예를 들어 아래의 표 16과 같다.

[표 16]

pcmFixFrameSize는 PCM 신호의 고정된 프레임 사이즈를 의미한다. pcmSignal_ID는 각각의 PCM 신호를 식별하기 위해 각 신호에 부여한 ID를 의미한다. isTransEffectAudioPcmSignal은 해당 PCM 신호가 트랜지션 이펙트 오디오 신호인지 여부를 나타낸다. bsPcmLoudnessValue는 PCM 신호의 소리 크기 값을 나타낸다. bsPcmAttenuationGain은 PCM 신호를 재생할 때 함께 활성화된 다른 오디오 신호에 적용되는 감쇠 게인 값을 나타낸다. interleavedData와 관련하여, interleavedData=1이면 오디오 신호가 인터리브 되었음(interleaved)을 나타내고, interleavedData=0이면 오디오 신호가 인터리브 되지 않았음을 의미한다.

numPcmSignalsInFrame은 pcmDataPayload()에서 전달되는 PCM 오디오 신호 수를 나타낸다. numTranEffectAudioSignalsInFrame은 pcmDataPayload()에서 전달되는 PCM audio 신호들 중에Transition effect audio PCM 신호 수를 의미한다. pcmSignal_ID는 PCM 신호들을 식별하는 ID를 의미한다. pcmVarFrameSize는 PCM 신호의 가변 프레임 사이즈를 의미한다. pcmDataChunk는 interleavedData = 1이면 numPcmSignalsInFrame * pcmFrameSize * pcmBitsPerSample로 계산되며, 그렇지 않으면 pcmFrameSize * pcmBitsPerSample의 크기를 갖는 numPcmSignalsInFrame 프레임들을 의미한다.

3D 오디오 디코더에서 트랜지션 이펙트 오디오 PCM 신호를 지원할 수 있는 두 번째 방법은 트랜지션 이펙트 오디오 PCM 신호를 수신하기 위한 전용 패킷을 새로 정의하는 방안이다. 하지만 이는 오디오 신호에 대한 특성만 다를 뿐, 앞서 말했던 earcon을 수신할 때 필요한 정보들과 유사할 수 있다. 따라서 본 발명의 일 실시예에서는 신택스의 내용은 거의 비슷하게 사용되도록 하였다. 관련 신택스 정의의 예시는 아래의 표 17 내지 표 20을 통해 나타내고 있다.

[표 17]

[표 18]

[표 19]

[표 20]

numTranEffectAudioPcmSignals는 TranEffectAudiopcmDataPayload()에 포함된 트랜지션 이펙트 오디오 PCM 신호의 총 개수를 의미한다. TranEffectAudioSamplingRateIndex는 트랜지션 이펙트 오디오 PCM 신호의 샘플링 레이트를 결정하기 위한 인덱스를 의미한다. 일 예시에서, 인덱스는 기존 스펙에 정의되어 있는 테이블을 따를 수 있다. TranEffectAudioSamplingRate는 pcmSamplingRateIndex가 0인 경우, 트랜지션 이펙트 오디오 PCM 신호의 샘플링 레이트는 부호 없는 정수 값으로 지정할 수 있다. TranEffectAudiopcmBitsPerSample은 트랜지션 이펙트 오디오 PCM 신호의 샘플당 비트 수를 의미한다. 비트 수는 최소 4이상이어야 한다. TranEffectAudiopcmFrameSizeIndex는 트랜지션 이펙트 오디오 PCM 신호의 프레임 사이즈를 결정하기 위한 인덱스를 나타낸다. 일 예시에서, 인덱스는 표 16을 따를 수 있다. TranEffectAudiopcmFixFrameSize는 트랜지션 이펙트 오디오 PCM 신호의 고정된 프레임 사이즈를 의미한다. TranEffectAudiopcmSignal_ID는 각각의 트랜지션 이펙트 오디오 PCM 신호를 식별하기 위해 각 신호에 부여한 ID를 나타낸다. bsTranEffectAudioPcmLoudnessValue는 트랜지션 이펙트 오디오 PCM 신호의 소리 크기 값을 나타낸다.

bsTranEffectAudioPcmAttenuationGain은 트랜지션 이펙트 오디오 PCM 신호가 재생될 때 함께 활성화된 다른 오디오 신호에 적용되는 감쇠 게인 값을 나타낸다. interleavedData와 관련하여, interleavedData=1이면 트랜지션 이펙트 오디오 신호가 인터리브되고, interleavedData=0이면 트랜지션 이펙트 오디오 신호가 인터리브되지 않음을 의미한다. numTranEffectAudioPcmSignalsInFrame은 TranEffectAudiopcmDataPayload()에서 전달되는 PCM 오디오 신호 수를 나타낸다. TranEffectAudiopcmSignal_ID는 트랜지션 이펙트 오디오 PCM 신호들을 식별하는 ID를 의미한다. TranEffectAudioVarFrameSize는 트랜지션 이펙트 오디오 PCM 신호의 가변 프레임 사이즈를 의미한다. TranEffectAudiopcmDataChunk와 관련하여, interleavedData = 1이면, numPcmSignalsInFrame * pcmFrameSize * pcmBitsPerSample로 산출되며, 그렇지 않으면 pcmFrameSize * pcmBitsPerSample의 크기를 갖는 numPcmSignalsInFrame 프레임들을 의미할 수 있다.

일 실시예에서, 임의의 VR 컨텐츠를 경험하면서 씬을 변경하는 기술은 사용자로 하여금 해당 컨텐츠에 더욱 몰입하도록 할 수 있다. 해당 기술은 표준 요구사항에 대응되는 기술이 될 수 있다. 또한 트랜지션 이펙트로 사용되는 오디오의 효과음은 입체감 및 공간감의 특성이 있는 소리뿐만 아니라, 변경되는 위치에 대한 특징 정보를 전달할 목적으로도 사용될 수 있으므로, 사용자가 임의의 VR 컨텐츠를 좀 더 효과적으로 사용하도록 할 수 있다.

일 실시예에서, 3차원 오디오 데이터 수신 장치의 동작 방법은 아래와 같이 9개의 단계로 구성될 수 있다.

제1 단계에서, 비트스트림이 수신되면 3DA 디코더 컨피규레이션(3DA Decoder Configuration)단에서 디코딩 오디오 관련 정보를 추출할 수 있다. 즉, 인코딩된 오디오 신호들의 채널 개수에 대한 정보, 오브젝트 개수에 대한 정보 및 샘플링 레이트와 같은 기본적인 정보들을 비트스트림으로부터 수신 받아 판독할 수 있다.

제2 단계에서, 오디오 씬 정보가 존재하는 경우, 오디오 씬을 구성하는 엘레먼트들의 그루핑 정보를 추출할 수 있다.

제3 단계에서, 인코딩된 오디오 신호에 대하여 디코딩을 수행할 수 있다. 해당 과정에서는 채널, 오브젝트, HOA 타입의 신호를 별도로 구별하지 않고, 오디오 채널 수만큼 디코딩할 수 있다.

제4 단계에서, 수신단의 재생 환경 정보를 설정할 수 있다. 즉, 오디오 컨텐츠를 어떤 재생 장치(스피커 또는 헤드폰)로 재생할지, 스피커로 재생할 경우, 스테레오 스피커 환경인지 멀티채널 스피커 환경인지 등을 수신 측에서 결정할 수 있다.

제5 단계에서, 오디오 컨텐츠가 사용자와 상호 작용할 경우(사용자가 오디오 컨텐츠에서 재생되는 임의의 오브젝트의 특징을 변경하고자 할 경우), 관련 정보를 재생 환경 정보와 함께 기록할 수 있다.

제6 단계에서, 만약 사용자의 위치가 변경되거나 사용자가 위치를 변경하고자 할 경우, 업데이트되어야 하는 씬 정보(TransScene)를 기록하고, 동시에 트랜지션 이펙트 오디오 타입(Transition Effect Audio Type)을 선택할 수 있다.

제7 단계에서, 씬이 변경되었을 경우, 씬에 해당되는 오디오에 대한 설정 정보 및 오디오 씬 정보를 재설정하여 디코딩을 수행할 수 있다.

제8 단계에서, 오디오 씬이 재생 환경에서 적합하게 재생되도록 제4 단계에서 설정한 스피커 레이아웃(layout) 정보를 참조하고, 디코딩된 오디오 신호들을 재구성하여 렌더링된 신호를 출력할 수 있다.

제9 단계에서, 만약 재생 장치가 헤드폰일 경우, 별도로 BRIR을 오디오 신호에 필터링하여 바이너럴 렌더링(Binaural rendering)된 신호를 출력할 수 있다.

도 12는 트랜지션 이펙트가 포함된 3D 오디오 디코더의 블록도를 나타내고 있다. 비트스트림은 3D 오디오 디코딩단에 입력되기 전 디멀티플렉싱(Demultiplexing)단에 입력되어 오디오 데이터와 디코딩 컨피규레이션 관련 정보들이 파싱될 수 있다. 3D 오디오 디코딩단은 오디오 데이터는 디코딩 컨피규레이션 정보를 참조하여 디코딩되고, 디코딩된 신호와 오브젝트 메타데이터가 출력될 수 있다. 오브젝트 메타데이터는 메타데이터 및 인터페이스 데이터 프로세싱단으로 입력되고, 재생 환경 정보 및 사용자 상호 작용 정보들에 의해 수정될 수 있다. 또한 추가적으로 시그널링되는 트랜지션 이펙트 정보는 사용자에 의해 변경된 또는 변경하고자 하는 위치 정보를 참조하여, 변경되어야 하는 위치에 대한 씬 정보를 디코더에 전달하여 해당 씬과 관련된 오디오 데이터를 디코딩하고, 동시에 트랜지션 이펙트 오디오 관련 정보를 오디오 데이터와 함께 렌더링 및 믹싱단에 전달할 수 있다. 다음으로, 렌더링 및 믹싱단에서 설정된 재생 환경에 맞춰서 채널 신호(ch1(.pcm), ch2(.pcm), 쪋, chN(.pcm))를 출력할 수 있다. 만약 사용자가 헤드폰 환경에서 재생하고자 할 경우, 바이너럴 렌더링단에서 출력된 채널 신호들은 바로 필터링하여 바이너럴 렌더링된 신호(Left signal(.pcm)과 Right signal(.pcm))를 출력할 수 있다. 바이너럴 렌더링된 두 신호는 각각 D/A 컨버터와 Amp를 통해서 헤드폰의 좌측 트랜스듀서(Left transducer)와 우측 트랜스듀서(Right transducer)로 재생될 수 있다.

본 발명의 일 실시예는 핫스팟(Hot spot)과 같이 복수의 위치에서 캡쳐 또는 제작된 씬이 사용되는 환경에서 사용자의 위치 정보가 변화될 경우, 씬과 관련된 변경 요소들을 고려하여 오디오 렌더링을 수행할 시 적용될 수 있다. 복수의 오디오 씬의 캡쳐는 획득(Acquisition)단과 연관될 수 있고, 트랜지션 이펙트는 사용자 위치 변화에 따라 디코딩 및 렌더링에 영향을 줄 수 있으므로 오디오 디코딩(Audio decoding)단 및 오디오 렌더링단과 관련될 수 있다.

도 13은 일 실시예에 따른 오디오 데이터 전송 장치의 동작 방법을 도시하는 흐름도이고, 도 14는 일 실시예에 따른 오디오 데이터 전송 장치의 구성을 도시하는 블록도이다.

도 13에 개시된 각 단계는 도 5 내지 도 12에서 전술된 내용에 기반할 수 있다. 따라서, 도 13의 각 단계를 설명함에 있어서 도 5 내지 도 12에서 전술된 내용과 중복되는 구체적인 내용은 설명을 생략하거나 간단히 하기로 한다.

도 14에 개시된 바와 같이, 일 실시예에 따른 오디오 데이터 전송 장치(1400)는 메타데이터 생성부(1410), 오디오 신호 인코딩부(1420) 및 전송부(1430)를 포함할 수 있다. 그러나, 경우에 따라서는 도 14에 도시된 구성 요소 모두가 오디오 데이터 전송 장치(1400)의 필수 구성 요소가 아닐 수 잇고, 오디오 데이터 전송 장치(1400)는 도 14에 도시된 구성 요소보다 많거나 적은 구성 요소에 의해 구현될 수 있다.

일 실시예에 따른 오디오 데이터 전송 장치(1400)에서, 메타데이터 생성부(1410), 오디오 신호 인코딩부(1420) 및 전송부(1430)는 각각 별도의 칩(chip)으로 구현되거나, 적어도 둘 이상의 구성 요소가 하나의 칩을 통해 구현될 수도 있다.

일 실시예에 따른 오디오 데이터 전송 장치(1400)는, 3차원 오디오 컨텐츠의 재생 정보를 생성할 수 있다(S1300). 보다 구체적으로, 오디오 데이터 전송 장치(1400)의 메타데이터 생성부(1410)는 3차원 오디오 컨텐츠의 재생 정보를 생성할 수 있다.

일 실시예에서, 3차원 오디오 컨텐츠는 3DoF, 3DoF+ 또는 6DoF 환경의 가상현실(Virtual Reality, VR) 컨텐츠 또는 증강현실(Augmented Reality, AR) 컨텐츠인 것을 특징으로 할 수 있다.

일 실시예에서, 상기 재생 정보는 상기 3차원 오디오 컨텐츠의 트랜지션 이펙트에 대한 정보를 포함할 수 있다.

일 실시예에서, 상기 트랜지션 이펙트에 대한 정보는, 상기 3차원 오디오 컨텐츠에 포함된 적어도 하나의 씬(scene)의 총 개수에 대한 정보, 상기 적어도 하나의 씬 각각을 식별하기 위한 씬 인덱스 정보(scene index information), 상기 적어도 하나의 씬 각각에 대하여 정의된 트랜지션 위치(transition position)의 총 개수에 대한 정보, 복수의 트랜지션 위치들을 각각 식별하기 위한 트랜지션 위치 인덱스 정보, 트랜지션 위치 정보, 트랜지션 위치에서 재생되어야 할 씬의 인덱스 정보, 상기 트랜지션 이펙트의 타입에 대한 정보, 상기 트랜지션 이펙트를 적용할 때 이용될 오디오 신호의 타입에 대한 정보, 상기 트랜지션 이펙트를 적용할 때 이용될 상기 오디오 신호에 게인(gain) 값이 존재하는지 여부에 대한 정보 및 상기 게인 값에 대한 정보 중 적어도 하나를 포함할 수 있다.

일 예시에서, 상기 3차원 오디오 컨텐츠에 포함된 적어도 하나의 씬의 총 개수에 대한 정보는 numScenes로 표현되고, 상기 적어도 하나의 씬 각각을 식별하기 위한 씬 인덱스 정보는 Scene_idx로 표현되고, 상기 적어도 하나의 씬 각각에 대하여 정의된 트랜지션 위치의 총 개수에 대한 정보는 numTransEffectPos로 표현되고, 복수의 트랜지션 위치들을 각각 식별하기 위한 트랜지션 위치 인덱스 정보는 TranPos_idx로 표현되고, 트랜지션 위치 정보는 TranPos_azimuth, TranPos_elevation 및 TranPos_distance로 표현되고, 트랜지션 위치에서 재생되어야 할 씬의 인덱스 정보는 TransScene_idx로 표현되고, 상기 트랜지션 이펙트의 타입에 대한 정보는 TransEffectType으로 표현되고, 상기 트랜지션 이펙트를 적용할 때 이용될 오디오 신호의 타입에 대한 정보는 TransEffectAudioType으로 표현되고, 상기 트랜지션 이펙트를 적용할 때 이용될 상기 오디오 신호에 게인 값이 존재하는지 여부에 대한 정보는 TransEffectAudioHasGain으로 표현되고, 상기 게인 값에 대한 정보는 TransEffectAudio_gain으로 표현될 수 있다.

일 실시예에서, 상기 트랜지션 이펙트의 타입에 대한 정보는, 페이드인-페이드아웃 타입, 도플러 타입, 잔향(reverberation) 타입 및 바이너럴 렌더링 타입 중 적어도 하나를 포함할 수 있다.

일 예시에서, 페이드인-페이드아웃 타입은 FADEIN_FADEOUT으로 표현되고, 도플러 타입은 DOPPLER로 표현되고, 잔향 타입은 REVERBERATION으로 표현되고, 바이너럴 렌더링 타입은 BINAURAL RENDERING으로 표현될 수 있다.

일 실시예에서, 상기 트랜지션 이펙트를 적용할 때 이용될 상기 오디오 신호의 타입에 대한 정보는, 내츄럴 사운드 타입, 합성 사운드 타입 및 스포큰 텍스트(spoken text) 타입 중 적어도 하나를 포함하고, 상기 스포큰 텍스트 타입은 스포큰 가이드 텍스트 타입, 스포큰 인포메이션 텍스트 타입 및 스포큰 디렉션 텍스트 타입 중 적어도 하나를 포함할 수 있다.

일 예시에서, 내츄럴 사운드 타입은 NATURAL SOUND로 표현되고, 합성 사운드 타입은 SYNTHETIC SOUND로 표현되고, 스포큰 가이드 텍스트 타입은 SPOKEN_TEXT (GUIDE)로 표현되고, 스포큰 인포메이션 텍스트 타입은 SPOKEN_TEXT (INFORMATION)으로 표현되고, 스포큰 디렉션 텍스트 타입은 SPOKEN_TEXT (DIRECTION)으로 표현될 수 있다.

일 실시예에서, 상기 트랜지션 이펙트에 대한 정보는, 하나의 씬에 적용되는 복수의 트랜지션 이펙트들 각각을 식별하기 위한 트랜지션 이펙트 오디오 인덱스를 더 포함할 수 있다. 일 예시에서, 트랜지션 이펙트 오디오 인덱스는 TransEffectAudio_idx로 표현될 수 있다.

일 실시예에서, 상기 재생 정보는 3차원 오디오 스트림에 포함되고, 상기 3차원 오디오 스트림은 상기 트랜지션 이펙트에 대한 정보를 포함하는 패킷을 포함할 수 있다.

일 실시예에서, 상기 트랜지션 이펙트에 대한 정보를 포함하는 상기 패킷은 MHTRA 패킷인 것을 특징으로 할 수 있다.

일 실시예에서, 상기 오디오 신호의 타입에 대한 정보는, 상기 트랜지션 이펙트를 적용할 때 이용될 상기 오디오 신호가 PCM 신호임을 나타내는 트랜지션 이펙트 오디오 PCM 타입을 더 포함할 수 있다.

일 실시예에서, 상기 오디오 신호의 타입이 상기 트랜지션 이펙트 오디오 PCM 타입인 경우, 상기 PCM 신호를 지원하는 패킷의 페이로드 신택스(payload syntax)는 PCM 관련 정보를 포함할 수 있다.

일 실시예에서, 상기 PCM 관련 정보는, 상기 PCM 신호의 총 개수에 대한 정보, 상기 트랜지션 이펙트를 적용할 때 이용될 PCM 신호의 총 개수에 대한 정보, 상기 PCM 신호의 샘플링 레이트에 대한 정보, 상기 PCM 신호의 샘플당 비트 수에 대한 정보, 상기 PCM 신호의 프레임 사이즈에 대한 정보, 상기 PCM 신호의 고정된 프레임 사이즈에 대한 정보, 상기 PCM 신호 각각을 식별하기 위한 ID 정보, 상기 PCM 신호가 상기 트랜지션 이펙트를 적용할 때 이용되는지 여부에 대한 정보, 상기 PCM 신호의 소리 크기 값에 대한 정보, 상기 PCM 신호를 재생할 때 다른 오디오 신호에 적용되는 감쇠 게인 값에 대한 정보, 상기 오디오 신호의 인터리빙 여부에 대한 정보, 상기 프레임 내의 상기 PCM 신호의 총 개수에 대한 정보, 상기 프레임 내의 상기 트랜지션 이펙트를 적용할 때 이용될 PCM 신호의 총 개수에 대한 정보 및 상기 PCM 신호의 가변 프레임 사이즈에 대한 정보 중 적어도 하나를 포함할 수 있다.

일 예시에서, 상기 PCM 신호의 총 개수에 대한 정보는 numPcmSignals로 표현되고, 상기 트랜지션 이펙트를 적용할 때 이용될 PCM 신호의 총 개수에 대한 정보는 numTransEffectAudioPcmSignals로 표현되고, 상기 PCM 신호의 샘플링 레이트에 대한 정보는 pcmSamplingRateIndex로 표현되고, 상기 PCM 신호의 샘플당 비트 수에 대한 정보는 pcmBitsPerSample로 표현되고, 상기 PCM 신호의 프레임 사이즈에 대한 정보는 pcmFrameSizeIndex로 표현되고, 상기 PCM 신호의 고정된 프레임 사이즈에 대한 정보는 pcmFixFrameSize로 표현되고, 상기 PCM 신호 각각을 식별하기 위한 ID 정보는 pcmSignal_ID로 표현되고, 상기 PCM 신호가 상기 트랜지션 이펙트를 적용할 때 이용되는지 여부에 대한 정보는 isTransEffectAudioPcmSignal로 표현되고, 상기 PCM 신호의 소리 크기 값에 대한 정보는 bsPcmLoudnessValue로 표현되고, 상기 PCM 신호를 재생할 때 다른 오디오 신호에 적용되는 감쇠 게인 값에 대한 정보는 bsPcmAttenuationGain으로 표현되고, 상기 오디오 신호의 인터리빙 여부에 대한 정보는 interleavedData로 표현되고, 상기 프레임 내의 상기 PCM 신호의 총 개수에 대한 정보는 numPcmSignalsInFrame으로 표현되고, 상기 프레임 내의 상기 트랜지션 이펙트를 적용할 때 이용될 PCM 신호의 총 개수에 대한 정보는 numTransEffectAudioSignalsInFrame으로 표현되고, 상기 PCM 신호의 가변 프레임 사이즈에 대한 정보는 pcmVarFrameSize로 표현될 수 있다.

도 13 및 도 14에 개시된 오디오 데이터 전송 장치(1400) 및 오디오 데이터 전송 장치(1400)의 동작 방법에 따르면, 오디오 데이터 전송 장치(1400)는 3차원 오디오 컨텐츠의 재생 정보를 생성하고(S1300), 3차원 오디오 컨텐츠의 3차원 오디오 신호를 인코딩하고(S1310), 인코딩된 3차원 오디오 컨텐츠의 3차원 오디오 신호 및 생성된 재생 정보를 오디오 데이터 수신 장치로 전송할 수 있으며(S1320), 이때 상기 재생 정보는 상기 3차원 오디오 컨텐츠의 트랜지션 이펙트(transition effect)에 대한 정보를 포함하는 것을 특징으로 할 수 있다. S1300 내지 S1320에 따라, 오디오 데이터 전송 장치(1400)는 오디오 데이터 수신 장치로 3차원 오디오 컨텐츠의 트랜지션 이펙트에 대한 정보를 전송함으로써, 오디오 데이터 수신 장치가 3차원 오디오 컨텐츠에 대한 3차원 오디오 신호(예를 들어, 3DoF, 3DoF+ 또는 6DoF 환경의 VR 컨텐츠에 기반한 오디오 신호 또는 3DoF, 3DoF+ 또는 6DoF 환경의 AR 컨텐츠에 기반한 오디오 신호)를 렌더링(또는 재생)함에 있어서 트랜지션 이펙트를 효율적으로 적용하는데 기여할 수 있다.

도 15는 일 실시예에 따른 오디오 데이터 수신 장치의 동작을 도시하는 흐름도이고, 도 16은 일 실시예에 따른 오디오 데이터 수신 장치의 구성을 도시하는 블록도이다.

도 15에 개시된 각 단계는 도 16에 개시된 오디오 데이터 수신 장치(1600), 도 6에 개시된 3차원 오디오 데이터 수신 장치 또는 도 12에 개시된 3차원 오디오 데이터 수신 장치에 의하여 수행될 수 있다. 일 예시에서, 도 15의 S1510은 도 6에 개시된 3차원 오디오 데이터 수신 장치의 MPEG-H 3D 오디오 코어 디코딩 모듈 또는 도 16에 개시된 오디오 신호 디코딩부(1620)에 의하여 수행될 수 있고, 도 15의 S1520은 도 6에 개시된 3차원 오디오 데이터 수신 장치의 렌더링 및 믹싱 모듈 또는 도 16에 개시된 렌더링부(1630)에 의하여 수행될 수 있다. 또한, 도 15에 개시된 각 단계는 도 5 내지 도 12에서 전술된 내용에 기반할 수 있다. 따라서, 도 15의 각 단계를 설명함에 있어서 도 5 내지 도 12에서 전술된 내용과 중복되는 구체적인 내용은 설명을 생략하거나 간단히 하기로 한다.

또한, 도 16에 개시된 오디오 데이터 수신 장치(1600)와 도 14에 개시된 오디오 데이터 전송 장치(1400)는 상호 오디오 데이터를 송수신하므로 상호 밀접하게 관련될 수 있다. 따라서, 도 15 및 도 16을 설명함에 있어서, 도 14 및 도 15에서 전술된 내용과 중복되는 구체적인 내용은 설명을 생략하거나 간단히 하기로 한다.

도 16에 개시된 바와 같이, 일 실시예에 따른 오디오 데이터 수신 장치(1600)는 수신부(1610), 오디오 신호 디코딩부(1620) 및 렌더링부(1630)를 포함할 수 있다. 그러나, 경우에 따라서는 도 16에 도시된 구성 요소 모두가 오디오 데이터 수신 장치(1600)의 필수 구성 요소가 아닐 수 잇고, 오디오 데이터 수신 장치(1600)는 도 16에 도시된 구성 요소보다 많거나 적은 구성 요소에 의해 구현될 수 있다.

일 실시예에 따른 오디오 데이터 수신 장치(1600)에서, 수신부(1610), 오디오 신호 디코딩부(1620) 및 렌더링부(1630)는 각각 별도의 칩(chip)으로 구현되거나, 적어도 둘 이상의 구성 요소가 하나의 칩을 통해 구현될 수도 있다.

일 실시예에 따른 오디오 데이터 수신 장치(1600)는, 오디오 데이터 전송 장치(1400)로부터 3차원 오디오 컨텐츠의 재생 정보 및 3차원 오디오 컨텐츠의 인코딩된 3차원 오디오 신호를 수신할 수 있다(S1500). 보다 구체적으로, 오디오 데이터 수신 장치(1600)의 수신부(1610)는 오디오 데이터 전송 장치(1400)로부터 3차원 오디오 컨텐츠의 재생 정보 및 3차원 오디오 컨텐츠의 인코딩된 3차원 오디오 신호를 수신할 수 있다.

일 실시예에서, 상기 트랜지션 이펙트에 대한 정보는, 하나의 씬에 적용되는 복수의 트랜지션 이펙트들 각각을 식별하기 위한 트랜지션 이펙트 오디오 인덱스를 더 포함할 수 있다.

일 실시예에 따른 오디오 데이터 수신 장치(1600)는 사용자의 입력을 기반으로 트랜지션 이펙트 인터랙션 정보(transition effect interaction information)를 획득할 수 있다.

일 실시예에서, 상기 트랜지션 이펙트 인터랙션 정보는, 상기 트랜지션 이펙트가 적용되었는지 여부에 대한 정보, 상기 사용자가 선택한 씬의 인덱스 정보, 사전 정의된 위치 정보가 이용되었는지 여부에 대한 정보, 사전 정의된 트랜지션 위치를 나타내는 인덱스 정보 및 사전 정의되지 않은 트랜지션 위치에 대한 정보 중 적어도 하나를 포함할 수 있다.

일 실시예에서, 상기 트랜지션 이펙트 인터랙션 정보는, 트랜지션 이펙트 타입에 대한 선택 정보 및 상기 트랜지션 이펙트를 적용할 때 이용될 오디오 신호 타입에 대한 선택 정보를 더 포함할 수 있다.

일 실시예에 따른 오디오 데이터 수신 장치(1600)는, 인코딩된 3차원 오디오 신호를 디코딩할 수 있다(S1510). 보다 구체적으로, 오디오 데이터 수신 장치(1600)의 오디오 신호 디코딩부(1620)는 인코딩된 3차원 오디오 신호를 디코딩할 수 있다.

일 실시예에 따른 오디오 데이터 수신 장치(1600)는, 3차원 오디오 컨텐츠의 재생 정보를 기반으로, 디코딩된 3차원 오디오 신호를 렌더링할 수 있다(S1620). 보다 구체적으로, 오디오 데이터 수신 장치(1600)의 렌더링부(1630)는 3차원 오디오 컨텐츠의 재생 정보를 기반으로, 디코딩된 3차원 오디오 신호를 렌더링할 수 있다.

도 15 및 도 16에 개시된 오디오 데이터 수신 장치(1600) 및 오디오 데이터 수신 장치(1600)의 동작 방법에 따르면, 오디오 데이터 수신 장치(1600)는 오디오 데이터 전송 장치(1400)로부터 3차원 오디오 컨텐츠의 재생 정보 및 상기 3차원 오디오 컨텐츠의 인코딩된 3차원 오디오 신호를 수신하고(S1500), 상기 인코딩된 3차원 오디오 신호를 디코딩하고(S1510), 상기 3차원 오디오 컨텐츠의 재생 정보를 기반으로, 상기 디코딩된 3차원 오디오 신호를 렌더링할 수 있고(S1520), 이때 상기 재생 정보는 상기 3차원 오디오 컨텐츠의 트랜지션 이펙트(transition effect)에 대한 정보를 포함하는 것을 특징으로 하는 할 수 있다. S1500 내지 S1520에 따라, 오디오 데이터 수신 장치(S1600)는 3차원 오디오 컨텐츠에 대한 3차원 오디오 신호(예를 들어, 3DoF, 3DoF+ 또는 6DoF 환경의 VR 컨텐츠에 기반한 오디오 신호 또는 3DoF, 3DoF+ 또는 6DoF 환경의 AR 컨텐츠에 기반한 오디오 신호)를 렌더링(또는 재생)함에 있어서 트랜지션 이펙트를 효율적으로 적용할 수 있다.

전술한 모듈들은 실시예에 따라 생략되거나, 유사/동일한 동작을 수행하는 다른 모듈에 의해 대체될 수 있다.

전술한 각각의 파트, 모듈 또는 유닛은 메모리(또는 저장 유닛)에 저장된 연속된 수행과정들을 실행하는 프로세서이거나 하드웨어 파트일 수 있다. 전술한 실시예에 기술된 각 단계들은 프로세서 또는 하드웨어 파트들에 의해 수행될 수 있다. 전술한 실시예에 기술된 각 모듈/블록/유닛들은 하드웨어/프로세서로서 동작할 수 있다. 또한, 본 발명이 제시하는 방법들은 코드로서 실행될 수 있다. 이 코드는 프로세서가 읽을 수 있는 저장매체에 쓰여질 수 있고, 따라서 장치(apparatus)가 제공하는 프로세서에 의해 읽혀질 수 있다.

상술한 실시예에서, 방법들은 일련의 단계 또는 블록으로써 순서도를 기초로 설명되고 있지만, 본 발명은 단계들의 순서에 한정되는 것은 아니며, 어떤 단계는 상술한 바와 다른 단계와 다른 순서로 또는 동시에 발생할 수 있다. 또한, 당업자라면 순서도에 나타내어진 단계들이 배타적이지 않고, 다른 단계가 포함되거나 순서도의 하나 또는 그 이상의 단계가 본 발명의 범위에 영향을 미치지 않고 삭제될 수 있음을 이해할 수 있을 것이다.

본 발명에서 실시예들이 소프트웨어로 구현될 때, 상술한 방법은 상술한 기능을 수행하는 모듈(과정, 기능 등)로 구현될 수 있다. 모듈은 메모리에 저장되고, 프로세서에 의해 실행될 수 있다. 메모리는 프로세서 내부 또는 외부에 있을 수 있고, 잘 알려진 다양한 수단으로 프로세서와 연결될 수 있다. 프로세서는 ASIC(application-specific integrated circuit), 다른 칩셋, 논리 회로 및/또는 데이터 처리 장치를 포함할 수 있다. 메모리는 ROM(read-only memory), RAM(random access memory), 플래쉬 메모리, 메모리 카드, 저장 매체 및/또는 다른 저장 장치를 포함할 수 있다.

Claims

오디오 데이터 수신 장치에 의하여 수행되는 오디오 데이터 수신 방법에 있어서,

오디오 데이터 전송 장치로부터 3차원 오디오 컨텐츠의 재생 정보 및 상기 3차원 오디오 컨텐츠의 인코딩된 3차원 오디오 신호를 수신하는 단계;

상기 인코딩된 3차원 오디오 신호를 디코딩하는 단계; 및

상기 3차원 오디오 컨텐츠의 재생 정보를 기반으로, 상기 디코딩된 3차원 오디오 신호를 렌더링하는 단계를 포함하되,

상기 재생 정보는, 상기 3차원 오디오 컨텐츠의 트랜지션 이펙트(transition effect)에 대한 정보를 포함하는 것을 특징으로 하는, 오디오 데이터 수신 방법.
제1항에 있어서,

상기 트랜지션 이펙트에 대한 정보는, 상기 3차원 오디오 컨텐츠에 포함된 적어도 하나의 씬(scene)의 총 개수에 대한 정보, 상기 적어도 하나의 씬 각각을 식별하기 위한 씬 인덱스 정보(scene index information), 상기 적어도 하나의 씬 각각에 대하여 정의된 트랜지션 위치(transition position)의 총 개수에 대한 정보, 복수의 트랜지션 위치들을 각각 식별하기 위한 트랜지션 위치 인덱스 정보, 트랜지션 위치 정보, 트랜지션 위치에서 재생되어야 할 씬의 인덱스 정보, 상기 트랜지션 이펙트의 타입에 대한 정보, 상기 트랜지션 이펙트를 적용할 때 이용될 오디오 신호의 타입에 대한 정보, 상기 트랜지션 이펙트를 적용할 때 이용될 상기 오디오 신호에 게인(gain) 값이 존재하는지 여부에 대한 정보 및 상기 게인 값에 대한 정보 중 적어도 하나를 포함하는 것을 특징으로 하는, 오디오 데이터 수신 방법.
제2항에 있어서,

상기 트랜지션 이펙트의 타입에 대한 정보는, 페이드인-페이드아웃 타입, 도플러 타입, 잔향(reverberation) 타입 및 바이너럴 렌더링 타입 중 적어도 하나를 포함하는 것을 특징으로 하는, 오디오 데이터 수신 방법.
제2항에 있어서,

상기 트랜지션 이펙트를 적용할 때 이용될 상기 오디오 신호의 타입에 대한 정보는, 내츄럴 사운드 타입, 합성 사운드 타입 및 스포큰 텍스트(spoken text) 타입 중 적어도 하나를 포함하고,

상기 스포큰 텍스트 타입은, 스포큰 가이드 텍스트 타입, 스포큰 인포메이션 텍스트 타입 및 스포큰 디렉션 텍스트 타입 중 적어도 하나를 포함하는 것을 특징으로 하는, 오디오 데이터 수신 방법.
제1항에 있어서,

사용자의 입력을 기반으로 트랜지션 이펙트 인터랙션 정보(transition effect interaction information)를 획득하는 단계를 더 포함하고,

상기 트랜지션 이펙트 인터랙션 정보는, 상기 트랜지션 이펙트가 적용되었는지 여부에 대한 정보, 상기 사용자가 선택한 씬의 인덱스 정보, 사전 정의된 위치 정보가 이용되었는지 여부에 대한 정보, 사전 정의된 트랜지션 위치를 나타내는 인덱스 정보 및 사전 정의되지 않은 트랜지션 위치에 대한 정보 중 적어도 하나를 포함하는 것을 특징으로 하는, 오디오 데이터 수신 방법.
제2항에 있어서,

상기 트랜지션 이펙트에 대한 정보는, 하나의 씬에 적용되는 복수의 트랜지션 이펙트들 각각을 식별하기 위한 트랜지션 이펙트 오디오 인덱스를 더 포함하는 것을 특징으로 하는, 오디오 데이터 수신 방법.
제5항에 있어서,

상기 트랜지션 이펙트 인터랙션 정보는, 트랜지션 이펙트 타입에 대한 선택 정보 및 상기 트랜지션 이펙트를 적용할 때 이용될 오디오 신호 타입에 대한 선택 정보를 더 포함하는 것을 특징으로 하는, 오디오 데이터 수신 방법.
제1항에 있어서,

상기 재생 정보는 3차원 오디오 스트림에 포함되고, 상기 3차원 오디오 스트림은 상기 트랜지션 이펙트에 대한 정보를 포함하는 패킷을 포함하는 것을 특징으로 하는, 오디오 데이터 수신 방법.
제8항에 있어서,

상기 트랜지션 이펙트에 대한 정보를 포함하는 상기 패킷은 MHTRA 패킷인 것을 특징으로 하는, 오디오 데이터 수신 방법.
제4항에 있어서,

상기 오디오 신호의 타입에 대한 정보는, 상기 트랜지션 이펙트를 적용할 때 이용될 상기 오디오 신호가 PCM 신호임을 나타내는 트랜지션 이펙트 오디오 PCM 타입을 더 포함하는 것을 특징으로 하는, 오디오 데이터 수신 방법.
제10항에 있어서,

상기 오디오 신호의 타입이 상기 트랜지션 이펙트 오디오 PCM 타입인 경우, 상기 PCM 신호를 지원하는 패킷의 페이로드 신택스(payload syntax)는 PCM 관련 정보를 포함하는 것을 특징으로 하는, 오디오 데이터 수신 방법.
제11항에 있어서,

상기 PCM 관련 정보는, 상기 PCM 신호의 총 개수에 대한 정보, 상기 트랜지션 이펙트를 적용할 때 이용될 PCM 신호의 총 개수에 대한 정보, 상기 PCM 신호의 샘플링 레이트에 대한 정보, 상기 PCM 신호의 샘플당 비트 수에 대한 정보, 상기 PCM 신호의 프레임 사이즈에 대한 정보, 상기 PCM 신호의 고정된 프레임 사이즈에 대한 정보, 상기 PCM 신호 각각을 식별하기 위한 ID 정보, 상기 PCM 신호가 상기 트랜지션 이펙트를 적용할 때 이용되는지 여부에 대한 정보, 상기 PCM 신호의 소리 크기 값에 대한 정보, 상기 PCM 신호를 재생할 때 다른 오디오 신호에 적용되는 감쇠 게인 값에 대한 정보, 상기 오디오 신호의 인터리빙 여부에 대한 정보, 상기 프레임 내의 상기 PCM 신호의 총 개수에 대한 정보, 상기 프레임 내의 상기 트랜지션 이펙트를 적용할 때 이용될 PCM 신호의 총 개수에 대한 정보 및 상기 PCM 신호의 가변 프레임 사이즈에 대한 정보 중 적어도 하나를 포함하는 것을 특징으로 하는, 오디오 데이터 수신 방법.
오디오 데이터 전송 장치에 의하여 수행되는 오디오 데이터 전송 방법에 있어서,

3차원 오디오 컨텐츠의 재생 정보를 생성하는 단계;

상기 3차원 오디오 컨텐츠의 3차원 오디오 신호를 인코딩하는 단계; 및

상기 인코딩된 3차원 오디오 컨텐츠의 상기 3차원 오디오 신호 및 상기 생성된 재생 정보를 오디오 데이터 수신 장치로 전송하는 단계를 포함하되,

상기 재생 정보는, 상기 3차원 오디오 컨텐츠의 트랜지션 이펙트(transition effect)에 대한 정보를 포함하는 것을 특징으로 하는, 오디오 데이터 전송 방법.
제13항에 있어서,

상기 트랜지션 이펙트에 대한 정보는, 상기 3차원 오디오 컨텐츠에 포함된 적어도 하나의 씬(scene)의 총 개수에 대한 정보, 상기 적어도 하나의 씬 각각을 식별하기 위한 씬 인덱스 정보(scene index information), 상기 적어도 하나의 씬 각각에 대하여 정의된 트랜지션 위치(transition position)의 총 개수에 대한 정보, 복수의 트랜지션 위치들을 각각 식별하기 위한 트랜지션 위치 인덱스 정보, 트랜지션 위치 정보, 트랜지션 위치에서 재생되어야 할 씬의 인덱스 정보, 상기 트랜지션 이펙트의 타입에 대한 정보, 상기 트랜지션 이펙트를 적용할 때 이용될 오디오 신호의 타입에 대한 정보, 상기 트랜지션 이펙트를 적용할 때 이용될 상기 오디오 신호에 게인(gain) 값이 존재하는지 여부에 대한 정보 및 상기 게인 값에 대한 정보 중 적어도 하나를 포함하는 것을 특징으로 하는, 오디오 데이터 전송 방법.
오디오 데이터를 수신하는 오디오 데이터 수신 장치에 있어서,

오디오 데이터 전송 장치로부터 3차원 오디오 컨텐츠의 재생 정보 및 상기 3차원 오디오 컨텐츠의 인코딩된 3차원 오디오 신호를 수신하는 수신부;

상기 인코딩된 3차원 오디오 신호를 디코딩하는 오디오 신호 디코딩부; 및

상기 3차원 오디오 컨텐츠의 재생 정보를 기반으로, 상기 디코딩된 3차원 오디오 신호를 렌더링하는 렌더링부를 포함하되,

상기 재생 정보는, 상기 3차원 오디오 컨텐츠의 트랜지션 이펙트(transition effect)에 대한 정보를 포함하는 것을 특징으로 하는, 오디오 데이터 수신 장치.