WO2021244132A1

WO2021244132A1 - 沉浸媒体的数据处理方法、装置、设备及计算机存储介质

Info

Publication number: WO2021244132A1
Application number: PCT/CN2021/085907
Authority: WO
Inventors: 胡颖; 许晓中; 刘杉; 崔秉斗
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2020-06-04
Filing date: 2021-04-08
Publication date: 2021-12-09
Also published as: EP4124046A4; CN113766271A; CN115022715B; CN115022715A; CN113766271B; EP4124046A1; US20220272424A1

Abstract

本申请实施例提供一种沉浸媒体的数据处理方法、设备、装置及计算机存储介质，其中的方法包括：获取沉浸媒体的第i个独立编解码区域的独立编解码区域描述数据盒，沉浸媒体包括N个分块视频，该N个分块被封装至N个轨道中，第i个分块视频被封装在第i个轨道中；N个轨道属于同一个轨道组；第i个分块视频对应第i个独立编解码区域；独立编解码区域描述数据盒包括独立编解码区域数据盒及坐标信息数据盒，其中i，N为正整数，且i≤N；根据独立编解码区域描述数据盒显示沉浸媒体的第i个分块视频。

Description

沉浸媒体的数据处理方法、装置、设备及计算机存储介质

相关申请的交叉引用

本申请基于申请号为202010501322.X、申请日为2020年06月04日的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此引入本申请作为参考。

技术领域

本申请涉及计算机技术领域、虚拟现实(Virtual Reality，VR)技术领域，尤其涉及一种沉浸媒体的数据处理方法、装置、设备及计算机可读存储介质。

背景技术

相关技术中，沉浸媒体的内容被划分为多个子图像帧，这些子图像帧按照关联性被封装在多个轨道组中，所谓关联性是指同一轨道组中的多个子图像帧既属于同一沉浸媒体，又具备同样的分辨率。这样的关联性在一定程度上局限了沉浸媒体的封装灵活性，例如，在沉浸媒体的视角自适应传输方案中，为了保证在用户头部运动时能够及时呈现对应画面，传输给用户的视角既包含用户当前观看视角的高清分块视频，又包含用户当前观看视角周边的低清分块视频。这两种视频属于同一视频内容，但属于不同分辨率版本的视频。相关技术中，这两种视频会被封装至不同的轨道组中，这样就很难指示这两个轨道组之间的消费关系，从而给内容播放设备的呈现带来了不便。

发明内容

本申请实施例提供一种沉浸媒体的数据处理方法、装置、设备及计算机可读存储介质，可将属于同一沉浸媒体的不同空间的多个分块视频(具备相同分辨率或不同分辨率)均封装至同一轨道组中，并采用独立编解码区域描述数据盒来指示轨道组中各轨道之间的消费关系，便于沉浸媒体的呈现。

本申请实施例提供一种沉浸媒体的数据处理方法，包括：

获取沉浸媒体的第i个独立编解码区域的独立编解码区域描述数据盒，第i个独立编解码区域对应第i个分块视频；该独立编解码区域描述数据盒包括独立编解码区域数据盒及坐标信息数据盒，其中i，N为正整数，且i≤N；

根据独立编解码区域描述数据盒显示沉浸媒体的第i个分块视频。

本申请实施例将属于同一沉浸媒体的N个分块视频(具备相同分辨率或不同分辨率)封装至N个轨道中，并且该N个轨道被封装至同一轨道组中；同时引入与各个分块视频相对应的独立编解码区域的概念，通过第i个独立编解码区域的独立编解码区域描述数据盒来指示第i个轨道与轨道组中其他轨道之间的消费关系，当根据第i个独立编解码区域的独立编解码区域描述数据盒来对第i个独立编解码区域进行显示时，可以获得更加便捷、准确地呈现效果。

本申请实施例提供一种沉浸媒体的数据处理方法，包括：

将沉浸媒体划分为N个分块视频；

分别将N个分块视频封装至N个轨道中，第i个分块视频被封装在第i个轨道中；第i个分块视频对应第i个独立编解码区域，其中i，N为正整数，且i≤N；N个轨道属于同一个轨道组；

根据第i个分块视频的封装过程生成第i个独立编解码区域的独立编解码区域描述数据盒，该独立编解码区域描述数据盒包括独立编解码区域数据盒及坐标信息数据盒。

本申请实施例将属于同一沉浸媒体的N个分块视频(具备相同分辨率或不同分辨率)封装至N个轨道中，并且该N个轨道被封装至同一轨道组中；这样可以适用于更多的传输场景，例如适用于沉浸媒体的视角自适应传输场景；并且使得沉浸媒体的传输过程更加可靠，也避免了内容制作设备在存储不同版本视频时带来的不必要内存开销。同时引入与各个分块视频相对应的独立编解码区域的概念，根据第i个分块视频的封装过程生成第i个独立编解码区域的独立编解码区域描述数据盒，通过第i个独立编解码区域的独立编解码区域描述数据盒来指示第i个轨道与轨道组中其他轨道之间的消费关系；那么，当该独立编解码区域描述数据盒被传输至内容消费设备侧时，内容消费设备侧可以根据第i个独立编解码区域的独立编解码区域描述数据盒来对第i个独立编解码区域进行显示，这样可以获得更加便捷、准确地呈现效果。

本申请实施例提供一种沉浸媒体的数据处理方法，包括：

获取沉浸媒体的打包文件，沉浸媒体包括N个分块视频，N个分块视频分别被封装至N个轨道中，第i个分块视频被封装在第i个轨道中；N个轨道属于同一个轨道组；第i个分块视频对应第i个独立编解码区域；打包文件至少包括第i个轨道，第i个轨道中包含第i个独立编解码区域的独立编解码区域描述数据盒，其中i，N为正整数，且i≤N；

对打包文件进行解封处理得到第i个独立编解码区域的独立编解码区域描述数据盒，该独立编解码区域描述数据盒包括独立编解码区域数据盒及坐标信息数据盒；

本申请实施例提供一种沉浸媒体的数据处理装置，包括：

获取单元，配置为获取沉浸媒体的第i个独立编解码区域的独立编解码区域描述数据盒，第i个独立编解码区域对应第i个分块视频；该独立编解码区域描述数据盒包括独立编解码区域数据盒及坐标信息数据盒，其中i，N为正整数，且i≤N；

处理单元，配置为根据独立编解码区域描述数据盒显示沉浸媒体的第i个分块视频。

本申请实施例提供另一种沉浸媒体的数据处理装置，包括：

处理单元，配置为将沉浸媒体划分为N个分块视频；分别将N个分块视频封装至N个轨道中，第i个分块视频被封装在第i个轨道中；第i个分块视频对应第i个独立编解码区域，其中i，N为正整数，且i≤N；N个轨道属于同一个轨道组；根据第i个分块视频的封装过程生成第i个独立编解码区域的独立编解码区域描述数据盒，该独立编解码区域描述数据盒包括独立编解码区域数据盒及坐标信息数据盒。

本申请实施例提供另一种沉浸媒体的数据处理装置，包括：

获取单元，配置为获取沉浸媒体的打包文件，沉浸媒体包括N个分块视频，N个分块被封装至N个轨道中，第i个分块视频被封装在第i个轨道中；N个轨道属于同一个轨道组；第i个分块视频对应第i个独立编解码区域；打包文件至少包括第i个轨道，第i个轨道中包含第i个独立编解码区域的独立编解码区域描述数据盒，其中i，N为正整数，且i≤N；

处理单元，配置为对打包文件进行解封处理得到第i个独立编解码区域的独立编解码区域描述数据盒，该独立编解码区域描述数据盒包括独立编解码区域数据盒及坐标信息数据盒；根据独立编解码区域描述数据盒显示沉浸媒体的第i个分块视频。

本申请实施例提供一种沉浸媒体的数据处理设备，包括：

一个或多个处理器和一个或多个存储器，该一个或多个存储器中存储有至少一条程序代码，该至少一条程序代码由该一个或多个处理器加载并执行以实现本申请实施例提供的沉浸媒体的数据处理方法。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条程序代码，该至少一条程序代码由处理器加载并执行以实现本申请实施例提供的沉浸媒体的数据处理方法。

本申请实施例将属于同一沉浸媒体的N个分块视频(具备相同分辨率或不同分辨率)封装至N个轨道中，并且该N个轨道被封装至同一轨道组中；这样可以适用于更多的传输场景，例如适用于沉浸媒体的视角自适应传输场景；并且使得沉浸媒体的传输过程更加可靠，也避免了内容制作设备在存储不同版本视频时带来的不必要内存开销。同时引入与各个分块视频相对应的独立编解码区域的概念，通过第i个独立编解码区域的独立编解码区域描述数据盒来指示第i个轨道与轨道组中其他轨道之间的消费关系，当根据第i个独立编解码区域的独立编解码区域描述数据盒来对第i个独立编解码区域进行显示时，可以获得更加便捷、准确地呈现效果。

附图说明

图1A示出了本申请实施例提供的一种沉浸媒体系统的架构图；

图1B示出了本申请实施例提供的一种沉浸媒体的传输方案流程图；

图1C示出了本申请实施例提供的一种视频编码基本框图；

图1D示出了本申请实施例提供的6DoF的示意图；

图1E示出了本申请实施例提供的3DoF的示意图；

图1F示出了本申请实施例提供的3DoF+的示意图；

图1G示出了本申请实施例提供的一种输入图像划分示意图；

图2示出了本申请实施例提供的一种沉浸媒体的数据处理方法的流程图；

图3示出了本申请实施例提供的另一种沉浸媒体的数据处理方法的流程图；

图4A示出了本申请实施例提供的一种沉浸媒体传输的应用场景图；

图4B示出了本申请实施例提供的另一种沉浸媒体传输的应用场景图；

图5示出了本申请实施例提供的另一种沉浸媒体的数据处理方法的流程图；

图6示出了本申请实施例提供的一种沉浸媒体的数据处理装置的结构示意图；

图7示出了本申请实施例提供的另一种沉浸媒体的数据处理装置的结构示意图；

图8示出了本申请实施例提供的一种内容制作设备的结构示意图；

图9示出了本申请实施例提供的一种内容播放设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例涉及沉浸媒体的数据处理技术。所谓沉浸媒体是指能够提供沉浸式的媒体内容，使沉浸于该媒体内容中的用户能够获得现实世界中视觉、听觉等感官体验的媒体文件。在实际应用中，沉浸媒体可以是3DoF(Degree of Freedom)沉浸媒体，3DoF+沉浸媒体或者6DoF沉浸媒体。沉浸媒体内容包括以各种形式在三维(3-Dimension，3D)空间中表示的视频内容，例如以球面形式表示的三维视频内容。在实际应用中，沉浸媒体内容可以是虚拟现实(Virtual Reality，VR)视频内容、全景视频内容、球面视频内容或360度视频内容；所以，沉浸媒体又可称为VR视频、全景视频、球面视频或360度视频。另外，沉浸媒体内容还包括与三维空间中表示的视频内容相同步的音频内容。

图1A示出了本申请实施例提供的一种沉浸媒体系统的架构图；如图1A所示，沉浸媒体系统包括内容制作设备和内容播放设备，内容制作设备可以是指沉浸媒体的提供者(例如沉浸媒体的内容制作者)所使用的计算机设备，该计算机设备可以是终端(如个人计算机(Personal Computer，PC)、智能移动设备(如智能手机)等)或服务器。内容播放设备可以是指沉浸媒体的使用者(例如用户)所使用的计算机设备，该计算机设备可以是终端(如PC)、智能移动设备(如智能手机)、VR设备(如VR头盔、VR眼镜等))。沉浸媒体的数据处理过程包括在内容制作设备侧的数据处理过程及在内容播放设备侧的数据处理过程。

在内容制作设备端的数据处理过程主要包括：(1)沉浸媒体的媒体内容的获取与制作过程；(2)沉浸媒体的编码及文件封装的过程。在内容播放设备端的数据处理过程主要包括：(3)沉浸媒体的文件解封装及解码的过程；(4)沉浸媒体的渲染过程。另外，内容制作设备与内容播放设备之间涉及沉浸媒体的传输过程，该传输过程可以基于各种传输协议来进行，此处的传输协议可包括但不限于：动态自适应流媒体传输(Dynamic Adaptive Streaming over HTTP，DASH)协议、动态码率自适应传输(HTTP Live Streaming，HLS)协议、智能媒体传输协议(Smart Media TransportProtocol，SMTP)、传输控制协议(Transmission Control Protocol，TCP)等。

图1B示出了本申请实施例提供的一种沉浸媒体的传输方案流程图。如图1B所示，为了解决沉浸媒体自身数据量过大带来的传输带宽负荷问题，在沉浸媒体的处理过程中，通常选择将原始视频在空间上切分为多个分块视频后，分别编码后进行封装，再传输给客户端消费。

下面分别对沉浸媒体的数据处理过程中涉及的各个过程进行详细介绍。

图1C示出了本申请实施例提供的一种视频编码基本框图。结合图1A-图1C对沉浸媒体的数据处理过程中涉及的各个过程进行详细介绍：

一、在内容制作设备端的数据处理过程：

(1)获取沉浸媒体的媒体内容。

从沉浸媒体的媒体内容的获取方式看，可以分为通过捕获设备采集现实世界的声音-视觉场景获得的以及通过计算机生成的两种方式。在一种实现中，捕获设备可以是指设于内容制作设备中的硬件组件，例如捕获设备是指终端的麦克风、摄像头、传感器等。另一种实现中，该捕获设备也可以是与内容制作设备相连接的硬件装置，例如与服务器相连接摄像头；用于为内容制作设备提供沉浸媒体的媒体内容的获取服务。该捕获设备可以包括但不限于：音频设备、摄像设备及传感设备。其中，音频设备可以包括音频传感器、麦克风等。摄像设备可以包括普通摄像头、立体摄像头、光场摄像头等。传感设备可以包括激光设备、雷达设备等。捕获设备的数量可以为多个，这些捕获设备被部署在现实空间中的一些特定位置以同时捕获该空间内不同角度的音频内容和视频内容，捕获的音频内容和视频内容在时间和空间上均保持同步。由于获取的方式不同，不同沉浸媒体的媒体内容对应的压缩编码方式也可能有所区别。

(2)沉浸媒体的媒体内容的制作过程。

捕获到的音频内容本身就是适合被执行沉浸媒体的音频编码的内容。捕获到的视频内容进行一系列制作流程后才可成为适合被执行沉浸媒体的视频编码的内容，该制作流程包括：

①拼接。由于捕获到的视频内容是捕获设备在不同角度下拍摄得到的，拼接就是指对这些各个角度拍摄的视频内容拼接成一个完整的、能够反映现实空间360度视觉全景的视频，即拼接后的视频是一个在三维空间表示的全景视频(或球面视频)。

②投影。投影就是指将拼接形成的一个三维视频映射到一个二维(2-Dimension，2D)图像上的过程，投影形成的2D图像称为投影图像；投影的方式可包括但不限于：经纬图投影、正六面体投影。

需要说明的是，由于采用捕获设备只能捕获到全景视频，这样的视频经内容制作设备处理并传输至内容播放设备进行相应的数据处理后，内容播放设备侧的用户只能通过执行一些特定动作(如头部旋转)来观看360度的视频信息，而执行非特定动作(如移动头部)并不能获得相应的视频变化，VR体验不佳，因此需要额外提供与全景视频相匹配的深度信息，来使用户获得更优的沉浸度和更佳的VR体验，这就涉及多种制作技术，常见的制作技术包括六自由度(Six Degrees of Freedom，6DoF)制作技术。图1D示出了本申请一个示例性实施例提供的6DoF的示意图；6DoF分为窗口6DoF、全方向6DoF和6DoF，其中，窗口6DoF是指用户在X轴、Y轴的旋转移动受限，以及在Z轴的平移受限；例如，用户不能够看到窗户框架外的景象，以及用户无法穿过窗户。全方向6DoF是指用户在X轴、Y轴和Z轴的旋转移动受限，例如，用户在受限的移动区域中不能自由的穿过三维的360度VR内容。6DoF是指用户可以沿着X轴、Y轴、Z轴自由平移，例如，用户可以在三维的360度VR内容中自由的走动。与6DoF相类似的，还有3DoF和3DoF+制作技术。图1E示出了本申请一个示例性实施例提供的3DoF的示意图；如图1E所示，3DoF是指用户在一个三维空间的中心点固定，用户头部沿着X轴、Y轴和Z轴旋转来观看媒体内容提供的画面。图1F示出了本申请一个示例性实施例提供的3DoF+的示意图，如图1F所示，3DoF+是指当沉浸媒体提供的虚拟场景具有一定的深度信息，用户头部可以基于3DoF在一个有限的空间内移动来观看媒体内容提供的画面。

(3)沉浸媒体的媒体内容的编码过程。

投影图像可以被直接进行编码，也可以对投影图像进行区域封装之后再进行编码。现代主流视频编码技术，以国际视频编码标准HEVC(High Efficiency Video Coding),国际视频编码标准VVC(Versatile Video Coding),以及中国国家视频编码标准AVS(Audio Video Coding Standard)为例，采用了混合编码框架，对输入的原始视频信号，进行了如下一系列的操作和处理：

1)块划分结构(block partition structure)：根据处理单元的大小将输入图像划分成若干个不重叠的处理单元，对每个处理单元进行类似的压缩操作。这个处理单元被称作编码树单元(Coding Tree Unit，CTU)，或者最大编码单元(Largest Coding Unit，LCU)。CTU可以继续进行更加精细的划分，得到一个或多个基本编码的单元，称之为编码单元(Coding Unit，CU)。每个CU是一个编码环节中最基本的元素。图1G示出了本申请实施例提供的一种输入图像划分示意图。以下描述的是对每一个CU可能采用的各种编码方式。

2)预测编码(Predictive Coding)：包括了帧内预测和帧间预测等方式，原始视频信号经过选定的已重建视频信号的预测后，得到残差视频信号。内容制作设备需要为当前CU决定在众多可能的预测编码模式中，选择最适合的一种，并告知内容播放设备。

a.帧内预测：预测的信号来自于同一图像内已经编码重建过的区域

b.帧间预测：预测的信号来自已经编码过的，不同于当前图像的其他图像(称之为参考图像)

3)变换编码及量化(Transform&Quantization)：残差视频信号经过离散傅里叶变换(Discrete Fourier Transform，DFT)，离散余弦变换(Discrete Cosine Transform，DCT)等变换操作，将信号转换到变换域中，称之为变换系数。在变换域中的信号，进一步的进行有损的量化操作，丢失掉一定的信息，使得量化后的信号有利于压缩表达。在一些视频编码标准中，可能有多于一种变换方式可以选择，因此，内容制作设备也需要为当前编码CU选择其中的一种变换，并告知内容播放设备。量化的精细程度通常由量化参数(Quantization Parameter，QP)来决定，QP取值较大，表示更大取值范围的系数将被量化为同一个输出，因此通常会带来更大的失真，及较低的码率；相反，QP取值较小，表示较小取值范围的系数将被量化为同一个输出，因此通常会带来较小的失真，同时对应较高的码率。

4)熵编码(Entropy Coding)或统计编码：量化后的变换域信号，将根据各个值出现的频率，进行统计压缩编码，最后输出二值化(0或者1)的压缩码流。同时，编码产生其他信息，例如选择的模式，运动矢量等，也需要进行熵编码以降低码率。统计编码是一种无损编码方式，可以有效的降低表达同样的信号所需要的码率。常见的统计编码方式有变长编码(VLC，Variable Length Coding)或者基于上下文的二值化算术编码(CABAC，Content Adaptive Binary Arithmetic Coding)。

5)环路滤波(Loop Filtering)：已经编码过的图像，经过反量化，反变换及预测补偿的操作(上述2～4的反向操作)，可获得重建的解码图像。重建图像与原始图像相比，由于存在量化的影响，部分信息与原始图像有所不同，产生失真(Distortion)。对重建图像进行滤波操作，例如去块效应滤波(deblocking)，取样自适应偏移(Sample Adaptive Offset，SAO)滤波器或者自适应环路滤波器(Adaptive Loop Filter，ALF)等，可以有效的降低量化所产生的失真程度。由于这些经过滤波后的重建图像，将作为后续编码图像的参考，用于对将来的信号进行预测，所以上述的滤波操作也被称为环路滤波，及在编码环路内的滤波操作。

此处需要说明的是，如果采用6DoF制作技术(用户可以在模拟的场景中较自由的移动时，称为6DoF)，在视频编码过程中需要采用特定的编码方式(如点云编码)进行编码。

(4)沉浸媒体的封装过程。

将音频码流和视频码流按照沉浸媒体的文件格式(如ISO基媒体文件格式(ISO Base Media File Format，ISOBMFF))封装在文件容器中形成沉浸媒体的媒体文件资源，该媒体文件资源可以是媒体文件或媒体片段形成沉浸媒体的媒体文件；并按照沉浸媒体的文件格式要求采用媒体呈现描述信息(Media presentation description，MPD)记录该沉浸媒体的媒体文件资源的元数据，此处的元数据是对与沉浸媒体的呈现有关的信息的总称，该元数据可包括对媒体内容的描述信息、对视窗的描述信息以及对媒体内容呈现相关的信令信息等等。如图1A所示，内容制作设备会存储经过数据处理过程之后形成的媒体呈现描述信息和媒体文件资源。

二、在内容播放设备端的数据处理过程：

(1)沉浸媒体的文件解封装及解码的过程；

内容播放设备可以通过内容制作设备的推荐或按照内容播放设备端的用户需求自适应动态从内容制作设备获得沉浸媒体的媒体文件资源和相应的媒体呈现描述信息，例如内容播放设备可根据用户的头部/眼睛/身体的跟踪信息确定用户的朝向和位置，再基于确定的朝向和位置动态向内容制作设备请求获得相应的媒体文件资源。媒体文件资源和媒体呈现描述信息通过传输机制(如DASH、SMT)由内容制作设备传输给内容播放设备。内容播放设备端的文件解封装的过程与内容制作设备端的文件封装过程是相逆的，内容播放设备按照沉浸媒体的文件格式要求对媒体文件资源进行解封装，得到音频码流和视频码流。内容播放设备端的解码过程与内容制作设备端的编码过程是相逆的，内容播放设备对音频码流进行音频解码，还原出音频内容。另外，内容播放设备对视频码流的解码过程包括如下：①对视频码流进行解码，得到平面的投影图像。②根据媒体呈现描述信息将投影图像进行重建处理以转换为3D图像，此处的重建处理是指将二维的投影图像重新投影至3D空间中的处理。

根据上述编码过程可以看出，在内容播放设备端，对于每一个CU，内容播放设备获得压缩码流后，先进行熵解码，获得各种模式信息及量化后的变换系数。各个系数经过反量化及反变换，得到残差信号。另一方面，根据已知的编码模式信息，可获得该CU对应的预测信号，两者相加之后，即可得到重建信号。最后，解码图像的重建值，需要经过环路滤波的操作，产生最终的输出信号。

(2)沉浸媒体的渲染过程。

内容播放设备根据媒体呈现描述信息中与渲染、视窗相关的元数据对音频解码得到的音频内容及视频解码得到的3D图像进行渲染，渲染完成即实现了对该3D图像的播放输出。如果采用3DoF和3DoF+的制作技术，内容播放设备主要基于当前视点、视差、深度信息等对3D图像进行渲染，如果采用6DoF的制作技术，内容播放设备主要基于当前视点对视窗内的3D图像进行渲染。其中，视点指用户的观看位置点，视差是指用户的双目产生的视线差或由于运动产生的视线差，视窗是指观看区域。

沉浸媒体系统支持数据盒(Box)，数据盒是指包括元数据的数据块或对象，即数据盒中包含了相应媒体内容的元数据。沉浸媒体可以包括多个数据盒，例如包括旋转数据盒、覆盖信息数据盒、媒体文件格式数据盒等等。

由上述沉浸媒体的处理过程可知，在对沉浸式视频进行编码后，需要对编码后的数据流进行封装并传输给用户。相关沉浸媒体的封装技术中，涉及子图像帧的概念，属于同一沉浸媒体且具备相同分辨率的多个子图像帧被封装至同一轨道组，而属于同一沉浸媒体但具备不同分辨率的子图像帧被封装至不同的轨道组，这些封装信息采用二维空间关系描述数据盒(SpatialRelationship2DDescriptionBox)来记录，其中，二维空间关系描述数据盒(SpatialRelationship2DDescriptionBox)是对现有的轨道组数据盒(TrackGroupTypeBox)进行扩展得到。按照二维空间关系描述数据盒(SpatialRelationship2DDescriptionBox)的定义，所有包含二维空间关系描述数据盒的轨道(track)属于同一个轨道组，即这些轨道包含的视频内容是同一个坐标系下的完整视频的子图像帧。其中，轨道是指一系列有时间属性的按照ISO基本媒体文件格式(ISO base media file format，ISOBMFF)的封装方式的样本，比如视频track，视频track是通过将视频编码器编码每一帧后产生的码流按照ISOBMFF的规范封装后得到的。

在一些实施例中，二维空间关系描述数据盒还包括用于指示原始视频帧的宽和高，以及所属内容的源ID的二维空间关系源数据盒(SpatialRelationship2DSourceBox)和用于指示子图像帧在整体视频帧中的位置的子图像帧区域数据盒 (SubPictureRegionBox)。

沉浸媒体的二维空间关系描述数据盒(SpatialRelationship2DDescriptionBox)的语法可参见下述表1：

表1

上述表1所示语法的语义如下：total_width与total_height指示原始视频帧的宽和高；source_id指示了子图像帧所属完整视频的源ID；object_x与object_y指示了子图像帧左顶点的坐标；object_width与object_height指示了子图像帧的宽和高。track_not_alone_flag指示了该子图像帧是否必须与该轨道组中的其他子图像帧同时呈现。track_not_mergeable_flag指示了该子图像帧对应的轨道所包含的码流是否可以直接与该轨道组中的其他子图像帧包含的码流合并。

结合上述表1可知，现有技术采用的是子图像帧的概念，且对子图像帧的封装过程在一定程度上局限了沉浸媒体的封装灵活性，无法适用于沉浸媒体的多种场景，例如视角自适应传输场景。

基于此，本申请实施例对轨道组数据盒进行扩展得到独立编解码区域描述数据盒(IndependentlyCodedRegionDescriptionBox)，使得所有同属一个沉浸媒体(如同一个节目或者同一个内容)，且在空间上、清晰度上存在关联关系的轨道均可被定义在同一个轨道组中，即同一视频内容的不同空间分块、不同分辨率视频对应的轨道均属于同一个轨道组。由于不同分辨率版本的视频可能在空间上分别划分，此时不同分辨率的分块视频使用不同的坐标系，由坐标信息数据盒(CoordianteInfoBox)表示。每个分块视频的坐标信息则由独立编解码区域数据盒(IndependentlyCodedRegionBox)表示。该独立编解码区域描述数据盒的语法的语义可参见下述表2：

表2

上述表2中的语法的语义如下①-⑨：

①一个独立编解码区域对应一个坐标系标识字段coordinate_id。一个独立编解码区域对应一个分块视频，则N个独立编解码区域对应N个分块视频，N个独立编解码区域对应N个坐标系标识字段。第i个独立编解码区域的坐标系标识字段，指示第i个分块视频所属的坐标系，相同分辨率的分块视频属于同一个坐标系，其中i，N为正整数，且i≤N。

②一个独立编解码区域对应一个完整视频的高度字段total_height和一个完整视频的宽度字段total_width，则N个独立编解码区域对应N个完整视频的高度字段和N个完整视频的宽度字段。第i个独立编解码区域的完整视频的高度字段，指示第i个分块视频所属坐标系下的完整视频的高度；第i个独立编解码区域的完整视频的宽度字段，指示第i个分块视频所属坐标系下的完整视频的宽度。可以理解的是，完整视频的尺寸由坐标系标识字段，完整视频的高度和完整视频的宽度共同指示。

③一个独立编解码区域对应一个独立编解码区域的顶点在所属坐标系中的横坐标字段region_vertex_x和纵坐标字段region_vertex_y，则N个独立编解码区域对应N个独立编解码区域的顶点在所属坐标系中的横坐标字段和纵坐标字段。第i个独立编解码区域的顶点在所属坐标系中的横坐标字段和纵坐标字段，指示第i个独立编解码区域的顶点的横坐标和纵坐标。独立编解码区域为矩形区域，该独立编解码区域的顶点可以是指矩形区域的左上顶点、左下顶点，右上顶点或者右下顶点。

④一个独立编解码区域对应一个独立编解码区域的高度字段region_height和一个独立编解码区域的宽度字段region_width，则N个独立编解码区域对应N个完整视频的高度字段和N个完整视频的宽度字段。第i个独立编解码区域的高度字段，指示第i个独立编解码区域的高度；第i个独立编解码区域的宽度字段，指示第i个独立编解码区域的宽度。第i个独立编解码区域在所属坐标系中的位置由独立编解码区域的顶点在所属坐标系中的横坐标字段，纵坐标字段，独立编解码区域的高度字段和独立编解码区域的宽度字段共同指示。

⑤一个独立编解码区域对应一个非独立呈现标志字段track_not_alone_flag，则N个独立编解码区域对应N个非独立呈现标志字段。当第i个独立编解码区域的非独立呈现标志字段为有效值时，指示第i个独立编解码区域与第i个独立编解码区域所属轨道组中的其他轨道中的独立编解码区域同时呈现；当第i个独立编解码区域的非独立呈现标志字段为无效值时，指示第i个独立编解码区域与第i个独立编解码区域所属轨道组中的其他轨道中的独立编解码区域可以不同时呈现。

⑥一个独立编解码区域对应一个合流标志字段track_not_mergeable_flag，则N个独立编解码区域对应N个合流标志字段。当第i个独立编解码区域的合流标志字段为无效值时，指示第i个独立编解码区域所属轨道所包含的码流能够与第i个独立编解码区域所属轨道组中的其他轨道所包含的码流合并；当第i个独立编解码区域的合流标志字段为有效值时，指示第i个独立编解码区域所属轨道所包含的码流不能够与第i个独立编解码区域所属轨道组中的其他轨道所包含的码流合并。

⑦一个独立编解码区域对应一个轨道优先级信息标志字段track_priority_info_flag，则N个独立编解码区域对应N个轨道优先级信息标志字段。当第i个独立编解码区域的轨道优先级信息标志字段为无效值时，指示第i个独立编解码区域所属轨道组中的各个独立编解码区域的优先级相同；当第i个独立编解码区域的轨道优先级信息标志字段为有效值时，第i个独立编解码区域的优先级由轨道优先级字段track_priority指示，轨道优先级字段的值越小，第i个独立编解码区域的优先级越高。当第i个独立编解码区域的清晰度高于第j个独立编解码区域的清晰度时，第i个独立编解码区域的优先级高于第j个独立编解码区域的优先级，其中j为正整数，j≤N且j≠i。

⑧一个独立编解码区域对应一个轨道重叠信息标志字段track_overlap_info_flag，则N个独立编解码区域对应N个轨道重叠信息标志字段。当第i个独立编解码区域的轨道重叠信息标志字段为无效值时，指示第i个独立编解码区域在被显示时不与第i个独立编解码区域所属轨道组中的其他轨道中的独立编解码区域重叠；当第i个独立编解码区域的轨道重叠信息标志字段为有效值时，第i个独立编解码区域的显示方式由背景标志字段background_flag指示。当背景标志字段为无效值时，指示第i个独立编解码区域作为第i个独立编解码区域所属轨道组中的其他轨道中的独立编解码区域的前景画面被显示；当背景标志字段为有效值时，指示第i个独立编解码区域作为第i个独立编解码区域所属轨道组中的其他轨道中的独立编解码区域的背景画面被显示。

⑨当第i个独立编解码区域作为第i个独立编解码区域所属轨道组中的其他轨道中的独立编解码区域的背景画面被显示时，第i个独立编解码区域的透明度字段opacity，指示第i个独立编解码区域所属轨道组中的其他轨道中的独立编解码区域的背景画面被显示时的透明度。当透明字段的值等于0时，第i个独立编解码区域被显示为透明背景画面；当透明字段的值大于0时，第i个独立编解码区域被显示为非透明背景画面。

与独立编解码区域描述数据盒对应的描述信息被存放于本申请实施例提供的独立编解码区域描述信令文件中，该独立编解码区域描述信令文件被封装于沉浸媒体的媒体呈现描述文件中的自适应集层级中。独立编解码区域描述信令文件应包含下表3中定义的元素和属性。

表3

由上述表3可知，本申请实施例中的独立编解码区域描述信令文件中包括元素和属性：IndependentlyCodedRegionGroupId、IndependentlyCodedRegionGroupId@coordinateId、IndependentlyCodedRegionGroupId@trackPriority以及IndependentlyCodedRegionGroupId@backgroundFlag及这些元素和属性的相关描述。

按照本申请实施例的上述表2所示的独立编解码区域描述数据盒，结合表3所示的独立编解码区域描述信令文件，内容制作设备将同一视频中的多个分块视频的轨道存放在同一个轨道组中，可以支持更多当前主流的沉浸媒体视角自适应传输技术。使得视频传输过程更加可靠。同时也避免了内容制作设备在存储不同版本视频时带来的不必要内存开销。通过生成对应的独立编解码区域描述数据盒，使得内容播放设备在呈现沉浸媒体时更加便捷。

图2示出了本申请实施例提供的一种沉浸媒体的数据处理方法的流程图；该方法可由沉浸媒体系统中的内容制作设备或者内容播放设备来执行，该方法包括以下步骤S201-S202：

S201，获取沉浸媒体的第i个独立编解码区域的独立编解码区域描述数据盒，第i个独立编解码区域对应第i个分块视频；独立编解码区域描述数据盒包括独立编解码区域数据盒及坐标信息数据盒，其中i，N为正整数，且i≤N。

其中，沉浸媒体包括N个分块视频，N个分块被封装至N个轨道中，第i个分块视频被封装在第i个轨道中；N个轨道属于同一个轨道组。

S202，根据独立编解码区域描述数据盒显示沉浸媒体的第i个分块视频。

步骤S201-S202中，沉浸媒体的独立编解码区域描述数据盒的语法可以参见上述表2。其中，坐标信息数据盒用于指示不同分辨率的分块视频所使用的坐标系，即坐标信息数据盒中各个字段的值是根据沉浸媒体被划分后，不同分辨率的分块视频所使用的坐标系配置的；例如，分辨率为4K(4096×2160像素)的分块视频1～分块视频6所使用的坐标系为坐标系1，分辨率为2K的分块视频7～分块视频12所使用的坐标系为坐标系2。独立编解码区域数据盒用于指示每个分块视频的坐标信息(如分块视频的大小，在所属坐标系中的位置等)及每个分块视频在沉浸媒体中的显示方式，显示方式可以包括但不限于：是否独立显示，显示时是否与其他分块视频重叠，显示时分块视频的透明度等。

对于内容制作设备来说，还可以根据沉浸媒体的N个分块视频的封装过程生成独立编解码区域描述信令文件，独立编解码区域描述信令文件包括独立编解码区域描述数据盒的描述信息。独立编解码区域描述信令文件的语法可参见表3。

相应的，对于内容播放设备来说，在获取沉浸媒体的打包文件之前可先获取沉浸媒体的媒体呈现描述文件，进而从媒体呈现描述文件中的自适应集层级中获取独立编解码区域描述信令文件。内容播放设备根据用户需求(如用户当前视角)及独立编解码区域描述信令文件向内容制作设备请求对应沉浸媒体的打包文件。

图3出了本申请实施例提供的另一种沉浸媒体的数据处理方法的流程图；该方法由沉浸媒体系统中的内容制作设备来执行，该方法包括以下步骤S301-S303：

S301，将沉浸媒体划分为N个分块视频。

划分的依据包括以下至少一个：空间，视角及分辨率等；例如，依据用户的视角将沉浸媒体划分为前、后、左、右4个区域，再按照划分规则(如预设的独立编解码区域的尺寸，或者独立编解码区域的数量)对不同视角对应的区域进行进一步划分，得到N个分块视频。

S302，分别将N个分块视频封装至N个轨道中，第i个分块视频被封装在第i个轨道中；第i个分块视频对应第i个独立编解码区域，其中i，N为正整数，且i≤N；N个轨道属于同一个轨道组。

在一种实施方式中，轨道组中各个轨道中的分块视频的分辨率相同。

在另一种实施方式中，轨道组中存在第i个轨道中分块视频的分辨率与第j个轨道中分块视频的分辨率不同，其中j为正整数，j≤N且j≠i；即同一视频内容的不同空间分块、不同分辨率视频对应的轨道被存放于同一个轨道组中。

S303，根据第i个分块视频的封装过程生成第i个独立编解码区域的独立编解码区域描述数据盒，该独立编解码区域描述数据盒包括独立编解码区域数据盒及坐标信息数据盒。

结合上述表2，步骤S303生成第i个独立编解码区域的独立编解码区域描述数据盒的过程可包括以下(1)-(8)：

(1)坐标信息数据盒包括坐标系标识字段coordinate_id。一个独立编解码区域对应一个坐标系标识字段，根据第i个分块视频的分辨率确定第i个独立编解码区域所属的坐标系，并根据该坐标系的标识配置第i个独立编解码区域的坐标系标识字段的值。当沉浸媒体的第i个分块视频的分辨率与第j个分块视频的分辨率相同时，第i个独立编解码区域与第j个独立编解码区域属于同一坐标系，其中j为正整数，j≤N且j≠i。

(2)坐标信息数据盒包括完整视频的高度字段total_height和完整视频的宽度字段total_width，一个独立编解码区域对应一个完整视频的高度字段和一个完整视频的宽度字段。完整视频是由第i个独立编解码区域所属坐标系下所有独立编解码区域对应的分块视频组成的。获取第i个独立编解码区域所属坐标系下所有独立编解码区域对应的分块视频组成的完整视频的高度和宽度，将获取到的完整视频的高度配置为完整视频的高度字段的值，将获取到的完整视频的宽度配置为完整视频的宽度字段的值。

(3)独立编解码区域数据盒包括独立编解码区域的横坐标字段region_vertex_x和纵坐标字段region_vertex_y，一个独立编解码区域对应一个横坐标字段和一个纵坐标字段。获取第i个独立编解码区域在所属坐标系中顶点的横坐标的值和纵坐标的值，将获取到的第i个独立编解码区域在所属坐标系中横坐标的值配置为第i个独立编解码区域在所属坐标系中的横坐标字段的值，以及将获取到的第i个独立编解码区域在所属坐标系中纵坐标的值配置为第i个独立编解码区域在所属坐标系中的纵坐标字段的值。独立编解码区域为矩形区域，该独立编解码区域的顶点可以是指矩形区域的左上顶点、左下顶点，右上顶点或者右下顶点。

(4)独立编解码区数据盒包括独立编解码区域的高度字段region_height和独立编解码区域的宽度字段region_width，一个独立编解码区域对应一个独立编解码区域的高度字段和一个独立编解码区域的宽度字段。获取第i个独立编解码区域的高度和宽度，将获取到的第i个独立编解码区域的高度配置为第i个独立编解码区域的高度字段的值，以及将获取到的第i个独立编解码区域的宽度配置为第i个独立编解码区域的宽度字段的值。

(5)独立编解码区域数据盒包括独立编解码区域的非独立呈现标志字段track_not_alone_flag，一个独立编解码区域对应一个非独立呈现标志字段。若第i个独立编解码区域与第i个独立编解码区域所属轨道组中的其他轨道中的独立编解码区域同时呈现时，则将第i个独立编解码区域的非独立呈现标志字段配置为有效值；若第i个独立编解码区域与第i个独立编解码区域所属轨道组中的其他轨道中的独立编解码区域可以不同时呈现时，则将第i个独立编解码区域的非独立呈现标志字段配置为无效值。

(6)独立编解码区域数据盒包括独立编解码区域的合流标志字段track_not_mergeable_flag，一个独立编解码区域对应一个合流标志字段。若第i个独立编解码区域所属轨道所包含的码流能够与第i个独立编解码区域所属轨道组中的其他轨道所包含的码流直接合并(即轨道间编码方式相同)，则将第i个独立编解码区域的合流标志字段配置为无效值；若第i个独立编解码区域所属轨道所包含的码流不能与第i个独立编解码区域所属轨道组中的其他轨道所包含的码流直接合并(即轨道间编码方式不同)，则将第i个独立编解码区域的合流标志字段配置为有效值。

(7)独立编解码区域数据盒包括独立编解码区域的轨道优先级信息标志字段track_priority_info_flag，一个独立编解码区域对应一个轨道优先级信息标志字段。若第i个独立编解码区域所属轨道组中的各个独立编解码区域的优先级相同时，则将第i个独立编解码区域的轨道优先级信息标志字段配置为无效值。若第i个独立编解码区域所属轨道组中的各个独立编解码区域的优先级不相同，则将第i个独立编解码区域的轨道优先级信息标志字段配置为有效值。在第i个独立编解码区域所属轨道组中的各个独立编解码区域的优先级不相同的情况下，独立编解码区域数据盒还包括第i个独立编解码区域的轨道优先级字段track_priority。第i个独立编解码区域的优先级由以下至少一项决定：第i个独立编解码区域的分辨率、第i个独立编解码区域所属轨道的呈现优先级、第i个独立编解码区域所属轨道的传输优先级。将第i个独立编解码区域的优先级配置为第i个独立编解码区域的轨道优先级字段。

在一种实施方式中，第i个独立编解码区域的分辨率越高，则配置的第i个独立编解码区域的轨道优先级字段的值越小；同理，第i个独立编解码区域所属轨道的呈现优先级越高，则配置的第i个独立编解码区域的轨道优先级字段的值越小；第i个独立编解码区域所属轨道的传输优先级越高，则配置的第i个独立编解码区域的轨道优先级字段的值越小。

(8)独立编解码区域数据盒包括独立编解码区域的轨道重叠信息标志字段track_overlap_info_flag，一个独立编解码区域对应一个轨道重叠信息标志字段。若要求第i个独立编解码区域不与第i个独立编解码区域所属轨道组中的其他轨道中的独立编解码区域重叠显示，则将第i个独立编解码区域轨道重叠信息标志字段配置为无效值。若要求第i个独立编解码区域与第i个独立编解码区域所属轨道组中的第j个独立编解码区域重叠显示，则将第i个独立编解码区域轨道重叠信息标志字段配置为有效值，其中j为正整数，且j≠i。在第i个独立编解码区域与第i个独立编解码区域所属轨道组中的第j个独立编解码区域重叠显示的情况下，独立编解码区域数据盒还包括第i个独立编解码区域的背景标志字段background_flag。若要求第i个独立编解码区域作为第i个独立编解码区域所属轨道组中的第j个独立编解码区域的前景画面被显示，则将第i个独立编解码区域的背景标志字段配置为无效值。若要求第i个独立编解码区域作为第i个独立编解码区域所属轨道组中的第j独立编解码区域的背景画面被显示，则将第i个独立编解码区域的背景标志字段配置为有效值。在第i个独立编解码区域作为第i个独立编解码区域所属轨道组中的第j独立编解码区域的背景画面被显示的情况下，独立编解码区域数据盒还包括第i个独立编解码区域的透明度字段opacity。若第i个独立编解码区域被要求显示为透明背景画面，则将第i个独立编解码区域的透明度字段的值配置为0；若第i个独立编解码区域被要求显示为非透明背景画面，则根据第i个独立编解码区域的透明度配置第i个独立编解码区域的透明度字段的值，其中，第i个独立编解码区域的透明度字段的值大于或等于0。需要说明的是，作为前景画面呈现的不同的两个独立编解码区域之间不能相互重叠。

另外，还可以根据沉浸媒体的N个分块视频的封装过程生成独立编解码区域描述信令文件，独立编解码区域描述信令文件包括独立编解码区域描述数据盒的描述信息。独立编解码区域描述信令文件的语法可参见表3，独立编解码区域描述信令文件中各个字段的配置方式可参考上述独立编解码区域描述数据盒中对应字段的配置方式，在此不再赘述。

例如，如图4A所示，内容制作设备将沉浸媒体划分为6个分块视频，并将分块视频码流1～分块视频码流6分别封装在轨道1～轨道6中。由于轨道1～轨道6中的分块视频是属于同一个视频内容的不同分块视频，因此轨道1～轨道6属于同一个轨道组(trackgroup)，假设轨道组标识为1，则配置track_group_id＝1。且由于轨道1～轨道6对应的分块视频属于同一分辨率，则轨道1～轨道6共用一个坐标系，假设坐标系ID的值为1，则配置coordinate_id＝1。假设完整视频帧的宽高分别为600，200，则配置total_width＝600，total_height＝200。由此得到轨道1～轨道6的坐标信息数据盒。假设所有坐标系的原点(0,0)为视频帧的左上角，x轴由左向右，y轴由上向下。轨道1～轨道6中独立编解码区域对应的独立编解码区域数据盒中各个独立编解码区域的左上顶点坐标分别为：(0,0)、(200,0)、(400,0)、(0,100)、(200,100)、(400,100)，独立编解码区域的宽高分别为200，100，即region_height＝100，region_width＝200。由于轨道1～轨道6分辨率相同且均为前景画面，因此track_priority_info_flag以及track_overlap_info_flag取值均为0。内容制作设备将独立编解码区域描述信令文件发送给用户，其中：IndependentlyCodedRegionGroupId配置为1；IndependentlyCodedRegionGroupId@coordinateId配置为1；由于轨道1～轨道6的分辨率相同，其优先级都相同，且均作为前景呈现，因此IndependentlyCodedRegionGroupId@trackPriority和IndependentlyCodedRegionGroupId@backgroundFlag均不包含在独立编解码区域描述信令文件中。根据用户观看视角和内容播放设备一次性消费的视野区域大小，内容播放设备向内容制作设备请求轨道2与轨道5对应的视频文件。内容制作设备将轨道2与轨道5打包为沉浸媒体的打包文件，传输给内容播放设备，文件的轨道中包含上述坐标信息数据盒和独立编解码区域数据盒。

又如，如图4B所示，内容制作设备将沉浸媒体划分为12个分块视频，并高分辨率(Resolution1)视频的分块视频码流1～分块视频码流6分别被封装在轨道1～轨道6中，低分辨率(Resolution2)视频的分块视频码流1～分块视频码流6分别被封装在轨道7～轨道12中。由于轨道1～轨道12属于同一个视频内容的不同分块，因此轨道1～轨道12属于同一个轨道组(trackgroup)，假设轨道组标识为1，则配置track_group_id＝1。且由于轨道1～轨道6对应的分块视频属于同一分辨率，则轨道1～轨道6共用一个坐标系，假设坐标系ID的值为1，则配置coordinate_id＝1。同理轨道7～轨道12对应另一个坐标系，假设坐标系ID的值为2，则配置coordinate_id＝2。假设完整视频帧的宽高分别为600，200，则配置total_width＝600，total_height＝200。由此得到轨道1～轨道6的坐标信息数据盒。假设低分辨率完整视频帧的宽高为300， 100，则坐标系2对应total_width＝300，total_height＝100。由此得到轨道7～轨道12的坐标信息数据盒。可见，轨道1～轨道6的坐标信息数据盒相同，轨道7～轨道12的坐标信息数据盒相同。假设所有坐标系的原点(0,0)为视频帧的左上角，x轴由左向右，y轴由上向下。轨道1～轨道6中独立编解码区域对应的独立编解码区域数据盒中各个独立编解码区域的左上顶点坐标分别为：(0,0)、(200,0)、(400,0)、(0,100)、(200,100)、(400,100)，独立编解码区域的宽高分别为200，100，即region_height＝100，region_width＝200。轨道7～轨道12中独立编解码区域对应的独立编解码区域数据盒中各个独立编解码区域的左上顶点坐标分别为：(0,0)、(100,0)、(200,0)、(0,50)、(100,50)、(200,50)，独立编解码区域的宽高分别为100，50，即region_height＝50，region_width＝100。内容制作设备将独立编解码区域描述信令文件发送给用户，高分辨率(Resolution1)视频对应的自适应层级(Adaptation Set)中：IndependentlyCodedRegionGroupId取值为1；IndependentlyCodedRegionGroupId@coordinateId取值为1；IndependentlyCodedRegionGroupId@trackPriority取值为0；IndependentlyCodedRegionGroupId@backgroundFlag不包含在独立编解码区域描述信令文件中。低分辨率(Resolution2)视频对应的自适应层级(Adaptation Set)中：IndependentlyCodedRegionGroupId取值为1；IndependentlyCodedRegionGroupId@coordinateId取值为2；IndependentlyCodedRegionGroupId@trackPriority取值为1；IndependentlyCodedRegionGroupId@backgroundFlag取值为1。根据用户观看视角和内容播放设备一次性消费的视野区域大小，内容播放设备向内容制作设备请求轨道2、轨道5以及轨道7、轨道10对应的视频文件。内容制作设备将轨道2、轨道5以及轨道7、轨道10打包为沉浸媒体的打包文件，传输给内容播放设备。此时由于打包文件中包含两种不同分辨率的视频，且低分辨率独立编解码区域作为高分辨率独立编解码区域的背景呈现，因此：由于轨道1～轨道6对应的完整视频的分辨率更高，因此track_priority_info_flag取值为1，且轨道1～轨道6对应的track_priority取值更小且相同，假设为0，轨道7～轨道12对应的track_priority取值更大，假设为1。由于高分辨率独立编解码区域可能和低分辨率独立编解码区域存在重叠，因此对于轨道1～轨道12，其track_overlap_info_flag取值均为1。轨道1～轨道6作为前景画面呈现，因此background_flag取值为0。轨道7～轨道12作为背景画面呈现，因此background_flag取值为1，且假设重叠部分的透明度为100％，则opacity取值为0。文件的轨道中包含上述坐标信息数据盒和独立编解码区域数据盒。

图5示出了本申请实施例提供的另一种沉浸媒体的数据处理方法的流程图；该方法由沉浸媒体系统中的内容播放设备来执行，该方法包括以下步骤S501-S503：

S501，获取沉浸媒体的打包文件，沉浸媒体包括N个分块视频，N个分块被封装至N个轨道中，第i个分块视频被封装在第i个轨道中；N个轨道属于同一个轨道组；第i个分块视频对应第i个独立编解码区域；打包文件至少包括第i个轨道，第i个轨道中包含第i个独立编解码区域的独立编解码区域描述数据盒，其中i，N为正整数，且i≤N。

沉浸媒体的打包文件是将同一轨道组中的一个或多个轨道进行封装打包得到的。在一种实施方式中，打包文件的打包策略是由沉浸媒体的内容制作者预先设置的(如根据沉浸媒体的剧情设置)。在另一种实施方式中，打包文件的打包策略是根据内容播放设备的请求动态设置的(如根据不同的用户视角设置)。

S502，对打包文件进行解封处理得到第i个独立编解码区域的独立编解码区域描述数据盒，该独立编解码区域描述数据盒包括独立编解码区域数据盒及坐标信息数据盒。

内容播放设备对打包文件进行解封装处理，得到打包文件中的一个或多个轨道以及各个轨道对应的独立编解码区域描述数据盒。

S503，根据独立编解码区域描述数据盒显示沉浸媒体的第i个分块视频。

结合上述表2，步骤S503中根据独立编解码区域描述数据盒显示沉浸媒体的第i个分块视频的过程可包括以下(1)-(8)：

(1)坐标信息数据盒包括坐标系标识字段coordinate_id，一个独立编解码区域对应一个坐标系标识字段，根据第i个独立编解码区域的坐标系标识字段确定第i个独立编解码区域所属的坐标系。当沉浸媒体的第i个分块视频的分辨率与第j个分块视频的分辨率相同时，第i个独立编解码区域与第j个独立编解码区域属于同一坐标系，其中j为正整数，j≤N且j≠i。

(2)坐标信息数据盒包括完整视频的高度字段total_height和完整视频的宽度字段total_width，一个独立编解码区域对应一个完整视频的高度字段和一个完整视频的宽度字段，且一个独立编解码区域对应一个分块视频。完整视频是由第i个独立编解码区域所属坐标系下所有独立编解码区域对应的分块视频组成的。根据第i个分块视频所属坐标系下的完整视频的高度字段和完整视频的宽度字段确定第i个分块视频所属坐标系下的完整视频的尺寸。

(3)独立编解码区域数据盒包括独立编解码区域的横坐标字段region_vertex_x和纵坐标字段region_vertex_y，一个独立编解码区域对应一个横坐标字段和一个纵坐标字段。根据第i个独立编解码区域的横坐标字段和纵坐标字段确定第i个独立编解码区域顶点在第i个独立编解码区域所属坐标系中的坐标。独立编解码区域为矩形区域，该独立编解码区域的顶点可以是指矩形区域的左上顶点、左下顶点，右上顶点或者右下顶点。

(4)独立编解码区域数据盒包括独立编解码区域的高度字段region_height和独立编解码区域的宽度字段region_width，一个独立编解码区域对应一个独立编解码区域的高度字段和一个独立编解码区域的宽度字段。根据第i个独立编解码区域的高度字段和宽度字段确定第i个独立编解码区域的尺寸。

(5)独立编解码区域数据盒包括独立编解码区域的非独立呈现标志字段track_not_alone_flag，一个独立编解码区域对应一个非独立呈现标志字段。当第i个独立编解码区域的非独立呈现标志字段为有效值时，将第i个独立编解码区域与第i个独立编解码区域所属轨道组中的其他轨道中的独立编解码区域同时呈现。当第i个独立编解码区域的非独立呈现标志字段为无效值时，第i个独立编解码区域与第i个独立编解码区域所属轨道组中的其他轨道中的独立编解码区域可以不同时呈现。

(6)独立编解码区域数据盒包括独立编解码区域的合流标志字段 track_not_mergeable_flag，一个独立编解码区域对应一个合流标志字段。当第i个独立编解码区域的合流标志字段为无效值时，第i个独立编解码区域所属轨道所包含的码流能够与第i个独立编解码区域所属轨道组中的其他轨道所包含的码流直接合并。当第i个独立编解码区域的合流标志字段为有效值时，第i个独立编解码区域所属轨道所包含的码流不能与第i个独立编解码区域所属轨道组中的其他轨道所包含的码流直接合并。

(7)独立编解码区域数据盒包括独立编解码区域的轨道优先级信息标志字段track_priority_info_flag，一个独立编解码区域对应一个轨道优先级信息标志字段。当第i个独立编解码区域的轨道优先级信息标志字段为无效值时，第i个独立编解码区域所属轨道组中的各个独立编解码区域的优先级相同。在第i个独立编解码区域的轨道优先级信息标志字段为有效值的情况下，独立编解码区域数据盒还包括第i个独立编解码区域的轨道优先级字段track_priority。根据第i个独立编解码区域的轨道优先级字段确定第i个独立编解码区域的分辨率、第i个独立编解码区域所属轨道的呈现优先级、第i个独立编解码区域所属轨道的传输优先级等。

在一种实施方式中，第i个独立编解码区域的轨道优先级字段的值越小，则第i个独立编解码区域的分辨率越高；同理，第i个独立编解码区域的轨道优先级字段的值越小，则第i个独立编解码区域所属轨道的呈现优先级越高；第i个独立编解码区域的轨道优先级字段的值越小，则第i个独立编解码区域所属轨道的传输优先级越高。

(8)独立编解码区域数据盒包括独立编解码区域的轨道重叠信息标志字段track_overlap_info_flag，一个独立编解码区域对应一个轨道重叠信息标志字段。当第i个独立编解码区域轨道重叠信息标志字段为无效值时，第i个独立编解码区域在被显示时不与第i个独立编解码区域所属轨道组中的其他轨道中的独立编解码区域重叠。当第i个独立编解码区域轨道重叠信息标志字段为有效值时，将第i个独立编解码区域与第i个独立编解码区域所属轨道组中的第j个独立编解码区域重叠显示，其中j为正整数，且j≠i。在第i个独立编解码区域轨道重叠信息标志字段为有效值的情况下，独立编解码区域数据盒还包括第i个独立编解码区域的背景标志字段background_flag。当第i个独立编解码区域的背景标志字段为无效值时，将第i个独立编解码区域作为第i个独立编解码区域所属轨道组中的第j个独立编解码区域的前景画面显示。当第i个独立编解码区域的背景标志字段为有效值时，将第i个独立编解码区域作为第i个独立编解码区域所属轨道组中的第j独立编解码区域的背景画面显示。在第i个独立编解码区域的背景标志字段为有效值的情况下，独立编解码区域数据盒还包括第i个独立编解码区域的透明度字段opacity。当第i个独立编解码区域的透明度字段的值为0时，将第i个独立编解码区域显示为透明背景画面。当第i个独立编解码区域的透明度字段的值大于0时，将第i个独立编解码区域显示为非透明背景画面，第i个独立编解码区域的透明度根据第i个独立编解码区域的透明度字段的值决定。需要说明的是，作为前景画面呈现的不同的两个独立编解码区域之间不能相互重叠。

在一种实施方式中，第i个独立编解码区域的透明度字段的取值范围为[0，100]，取值为0表示背景画面完全透明，取值为100表示背景画面完全不透明，大于100的取值保留。

另外，内容播放设备在获取沉浸媒体的封装文件之前，可先获取沉浸媒体的MPD文件，进而从媒体呈现描述文件中的自适应集层级中获取独立编解码区域描述信令文件。内容播放设备根据用户需求(如用户当前视角)及独立编解码区域描述信令文件向内容制作设备请求对应沉浸媒体的打包文件，并按照上述步骤(1)-步骤(8)的实施方式显示沉浸媒体。

例如，如图4A所示，内容播放设备将收到的沉浸媒体的打包文件解封装，由于轨道2与轨道5均属于同一个轨道组，且轨道组类型为'icrr'，内容播放设备因此获悉轨道2与轨道5包含的内容为两个独立编解码区域。内容播放设备将轨道2与轨道5分别解码后，根据独立编解码区域描述数据盒中的坐标信息，呈现视频内容并消费。

又如，如图4B所示，内容播放设备将收到的沉浸媒体的打包文件解封装，由于轨道2、轨道5、轨道7、轨道10均属于同一个轨道组，且轨道组类型为'icrr'，客户端因此获悉轨道2、轨道5、轨道7、轨道10包含的内容为四个独立编解码区域。且轨道2、轨道5为同一坐标系，轨道7、轨道10为另一坐标系。由于轨道2、轨道5的background_flag取值为0，其作为前景画面呈现。对应地，轨道7、轨道10作为背景画面呈现。内容播放设备将轨道2、轨道5、轨道7、轨道10分别解码后，根据独立编解码区域描述数据盒中的坐标信息，呈现视频内容并消费。

上述详细阐述了本申请实施例的方法，为了便于更好地实施本申请实施例的上述方案，相应地，下面提供了本申请实施例的装置。

请参见图6，图6示出了本申请实施例提供的一种沉浸媒体的数据处理装置的结构示意图；该沉浸媒体的数据处理装置可以是运行于内容制作设备中的一个计算机程序(包括程序代码)，例如该沉浸媒体的数据处理装置可以是内容制作设备中的一个应用软件。由图6所示，该沉浸媒体的数据处理装置包括获取单元601和处理单元602。

在一个示例性实施例中，所述沉浸媒体包括N个分块视频，所述N个分块被封装至N个轨道中，第i个分块视频被封装在第i个轨道中；所述N个轨道属于同一个轨道组；该沉浸媒体的数据处理装置可以用于执行图2所示的方法中的相应步骤；则：

获取单元601，配置为获取沉浸媒体的第i个独立编解码区域的独立编解码区域描述数据盒，所述第i个独立编解码区域对应所述第i个分块视频；所述独立编解码区域描述数据盒包括独立编解码区域数据盒及坐标信息数据盒，其中i，N为正整数，且i≤N；

处理单元602，配置为根据所述独立编解码区域描述数据盒显示所述沉浸媒体的第i个分块视频。

在一种实施方式中，获取单元601还配置为：

获取独立编解码区域描述信令文件，所述独立编解码区域描述信令文件被封装于所述沉浸媒体的媒体呈现描述文件中的自适应集层级中；

所述独立编解码区域描述信令文件包括第i个独立编解码区域的独立编解码区域描述数据盒的描述信息。

在另一个示例性实施例中，该沉浸媒体的数据处理装置可以用于执行图3所示的方法中的相应步骤；则：

处理单元602，配置为将沉浸媒体划分为N个分块视频；以及，

配置为分别将N个分块视频封装至N个轨道中，第i个分块视频被封装在第i个轨道中；第i个分块视频对应第i个独立编解码区域，其中i，N为正整数，且i≤ N；所述N个轨道属于同一个轨道组；

配置为根据第i个分块视频的封装过程生成第i个独立编解码区域的独立编解码区域描述数据盒，所述独立编解码区域描述数据盒包括独立编解码区域数据盒及坐标信息数据盒。

在一种实施方式中，所述坐标信息数据盒包括第i个独立编解码区域的坐标系标识字段；处理单元602还配置为，根据第i个分块视频的封装过程生成第i个独立编解码区域的独立编解码区域描述数据盒；

在一种实施方式中，处理单元602还配置为：

根据第i个分块视频的分辨率确定第i个独立编解码区域所属的坐标系；

根据确定的所述第i个独立编解码区域所属的坐标系配置第i个独立编解码区域的坐标系标识字段的值。

在一种实施方式中，所述坐标信息数据盒包括第i个独立编解码区域所属坐标系下的完整视频的尺寸字段；所述完整视频的尺寸字段包括所述完整视频的高度字段和所述完整视频的宽度字段；

处理单元602还配置为，根据第i个分块视频的封装过程生成第i个独立编解码区域的独立编解码区域描述数据盒；

在一种实施方式中，处理单元602还配置为：

获取第i个独立编解码区域所属坐标系下所有独立编解码区域对应的分块视频组成的完整视频的高度和宽度；

将获取到的所述完整视频的高度配置为所述完整视频的高度字段的值，以及将获取到的所述完整视频的宽度配置为所述完整视频的宽度字段的值。

在一种实施方式中，所述独立编解码区域数据盒包括第i个独立编解码区域在所属坐标系中的顶点坐标字段及第i个独立编解码区域的尺寸字段，所述顶点坐标字段包括第i个独立编解码区域在所属坐标系中的横坐标字段和第i个独立编解码区域在所属坐标系中的纵坐标字段，所述尺寸字段包括第i个独立编解码区域的高度字段和第i个独立编解码区域的宽度字段；

所述处理单元602还配置为，根据第i个分块视频的封装过程生成第i个独立编解码区域的独立编解码区域描述数据盒；

在一种实施方式中，处理单元602还配置为：

获取第i个独立编解码区域在所属坐标系中顶点的横坐标的值和纵坐标的值；

将所述获取到的第i个独立编解码区域在所属坐标系中横坐标的值配置为第i个独立编解码区域在所属坐标系中的横坐标字段的值，以及将所述获取到的第i个独立编解码区域在所属坐标系中纵坐标的值配置为第i个独立编解码区域在所属坐标系中的纵坐标字段的值；以及

获取第i个独立编解码区域的高度和宽度；

将所述获取到的第i个独立编解码区域的高度配置为第i个独立编解码区域的高度字段的值，以及将所述获取到的第i个独立编解码区域的宽度配置为第i个独立编解码区域的宽度字段的值。

在一种实施方式中，所述独立编解码区域数据盒包括第i个独立编解码区域的非独立呈现标志字段；

在一种实施方式中，处理单元602还配置为：

若第i个独立编解码区域与第i个独立编解码区域所属轨道组中的其他轨道中的独立编解码区域同时呈现，则将第i个独立编解码区域的非独立呈现标志字段配置为有效值。

在一种实施方式中，所述独立编解码区域数据盒包括第i个独立编解码区域的合流标志字段；

在一种实施方式中，处理单元602还配置为：

若第i个独立编解码区域所属轨道所包含的码流能够与第i个独立编解码区域所属轨道组中的其他轨道所包含的码流合并，则将第i个独立编解码区域的合流标志字段配置为无效值。

在一种实施方式中，所述独立编解码区域数据盒包括第i个独立编解码区域的轨道优先级信息标志字段；

在一种实施方式中，处理单元602还配置为：

若第i个独立编解码区域所属轨道组中的各个轨道中的独立编解码区域的优先级相同，则将所述轨道优先级信息标志字段配置为无效值；

若第i个独立编解码区域所属轨道组中的各个轨道中的独立编解码区域的优先级不同，则将所述轨道优先级信息标志字段配置为有效值；

在所述轨道优先级信息标志字段被配置为有效值的情况下，所述独立编解码区域数据盒还包括第i个独立编解码区域的轨道优先级字段；

在一种实施方式中，处理单元602还配置为：

将第i个独立编解码区域的优先级配置为所述轨道优先级字段的值。

在一种实施方式中，所述独立编解码区域数据盒包括第i个独立编解码区域的轨道重叠信息标志字段；处理单元602还配置为，根据第i个分块视频的封装过程生成第i个独立编解码区域的独立编解码区域描述数据盒；

在一种实施方式中，处理单元602还配置为：

若要求第i个独立编解码区域不与第i个独立编解码区域所属轨道组中的其他轨道中的独立编解码区域重叠显示，则将所述轨道重叠信息标志字段配置为无效值；

若要求第i个独立编解码区域与第i个独立编解码区域所属轨道组中的其他轨道中的独立编解码区域重叠显示，则将所述轨道重叠信息标志字段配置为有效值；

在所述轨道重叠信息标志字段被配置为有效值的情况下，所述独立编解码区域数据盒还包括第i个独立编解码区域的背景标志字段；所述根据第i个分块视频的封装过程生成第i个独立编解码区域的独立编解码区域描述数据盒，还包括：

若要求第i个独立编解码区域作为第i个独立编解码区域所属轨道组中的其他轨道中的独立编解码区域的前景画面被显示，则将所述背景标志字段配置为无效值；

若要求第i个独立编解码区域作为第i个独立编解码区域所属轨道组中的其他轨道中的独立编解码区域的背景画面被显示，则将所述背景标志字段配置为有效值。

在一种实施方式中，在所述背景标志字段被配置为有效值的情况下，所述独立编解码区域数据盒还包括第i个独立编解码区域的透明度字段，所述透明度字段的取值大于等于0；处理单元602还配置为，根据第i个分块视频的封装过程生成第i个独立编解码区域的独立编解码区域描述数据盒；

在一种实施方式中，处理单元602还配置为：

若第i个独立编解码区域被要求显示为透明背景画面，则将所述透明字段的值配置为0；

若第i个独立编解码区域被要求显示为非透明背景画面，则根据第i个独立编解码区域的透明度配置所述透明字段的值。

在一种实施方式中，处理单元602还配置为：

根据所述沉浸媒体的N个分块视频的封装过程生成独立编解码区域描述信令文件，所述独立编解码区域描述信令文件被封装于所述沉浸媒体的媒体呈现描述文件中的自适应集层级中；

请参见图7，图7示出了本申请实施例提供的另一种沉浸媒体的数据处理装置的结构示意图；该沉浸媒体的数据处理装置可以是运行于内容播放设备中的一个计算机程序(包括程序代码)，例如该沉浸媒体的数据处理装置可以是内容播放设备中的一个应用软件。由图7所示，该沉浸媒体的数据处理装置包括获取单元701和处理单元702。

在一个示例性实施例中，沉浸媒体包括N个分块视频，所述N个分块视频分别被封装至N个轨道中，第i个分块视频被封装在第i个轨道中；所述N个轨道属于同一个轨道组；该沉浸媒体的数据处理装置可以用于执行图2所示的方法中的相应步骤；则：

获取单元701，配置为获取沉浸媒体的第i个独立编解码区域的独立编解码区域描述数据盒，所述第i个独立编解码区域对应所述第i个分块视频；所述独立编解码区域描述数据盒包括独立编解码区域数据盒及坐标信息数据盒，其中i，N为正整数，且i≤N；

处理单元702，配置为根据所述独立编解码区域描述数据盒显示所述沉浸媒体的第i个分块视频。

在一种实施方式中，获取单元701还配置为：

在另一个示例性实施例中，该沉浸媒体的数据处理装置可以用于执行图5所示的方法中的相应步骤；则：

获取单元701，配置为获取沉浸媒体的打包文件，所述沉浸媒体包括N个分块视频，所述N个分块视频分别被封装至N个轨道中，第i个分块视频被封装在第i个轨道中；所述N个轨道属于同一个轨道组；第i个分块视频对应第i个独立编解码区域；所述打包文件至少包括第i个轨道，第i个轨道中包含第i个独立编解码区域的独立编解码区域描述数据盒，其中i，N为正整数，且i≤N；

处理单元702，配置为对所述打包文件进行解封处理得到第i个独立编解码区域的独立编解码区域描述数据盒，所述独立编解码区域描述数据盒包括独立编解码区域数据盒及坐标信息数据盒；根据所述独立编解码区域描述数据盒显示所述沉浸媒体的第i个分块视频。

在一种实施方式中，获取单元701还配置为：

获取所述沉浸媒体的独立编解码区域描述信令文件，所述独立编解码区域描述信令文件被封装于所述沉浸媒体的媒体呈现描述文件中的自适应集层级中；所述独立编解码区域描述信令文件包括第i个独立编解码区域的独立编解码区域描述数据盒的描述信息；

以及配置为，获取沉浸媒体的打包文件，如：

根据所述独立编解码区域描述信令文件获取所述沉浸媒体的打包文件。

根据本发明的一个实施例，图6及图7所示的沉浸媒体的数据处理装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本发明的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本申请的其它实施例中，该沉浸媒体的数据处理装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。根据本申请的另一个实施例，可以通过在包括中央处理单元(Central Processing Units，CPU)、随机存取存储介质(Random Access Memory，RAM)、只读存储介质(Read-Only Memory,ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行计算机程序，该计算机程序被执行时用于实现本申请实施例提供的沉浸媒体的数据处理方法；所述计算机程序可以记载于例如计算机可读记录介质上，并通过计算机可读记录介质装载于上述计算设备中，并在其中运行。

基于同一发明构思，本申请实施例中提供沉浸媒体的数据处理装置解决问题的原理与有益效果与本申请方法实施例中沉浸媒体的数据处理方法解决问题的原理和有益效果相似，可以参见方法的实施的原理和有益效果，为简洁描述，在这里不再赘述。

图8示出了本申请实施例提供的一种内容制作设备的结构示意图；该内容制作设备可以是指沉浸媒体的提供者所使用的计算机设备，该计算机设备可以是终端(如PC、智能移动设备(如智能手机)等)或服务器。如图8所示，该内容制作设备包括捕获设备801、处理器802、存储器803和发射器804。其中：

捕获设备801配置为采集现实世界的声音-视觉场景获得沉浸媒体的原始数据(包括在时间和空间上保持同步的音频内容和视频内容)。该捕获设备801可以包括但不限于：音频设备、摄像设备及传感设备。其中，音频设备可以包括音频传感器、麦克风等。摄像设备可以包括普通摄像头、立体摄像头、光场摄像头等。传感设备可以包括激光设备、雷达设备等。

处理器802(或CPU)是内容制作设备的处理核心，该处理器802适于实现一条或多条程序指令，适于加载并执行一条或多条程序指令从而实现图2或图3所示的沉浸媒体的数据处理方法的流程。

存储器803是内容制作设备中的记忆设备，配置为存放程序和媒体资源。可以理解的是，此处的存储器803既可以包括内容制作设备中的内置存储介质，当然也可以包括内容制作设备所支持的扩展存储介质。需要说明的是，存储器可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器；还可以是至少一个位于远离前述处理器的存储器。存储器提供存储空间，该存储空间用于存储内容制作设备的操作系统。并且，在该存储空间中还用于存储计算机程序，该计算机程序包括程序指令，且该程序指令适于被处理器调用并执行，以用来执行沉浸媒体的数据处理方法的各步骤。另外，存储器803还可配置为存储经处理器处理后形成的沉浸媒体文件，该沉浸媒体文件包括媒体文件资源和媒体呈现描述信息。

发射器804配置为实现内容制作设备与其他设备的传输交互，例如实现内容制作设备与内容播放设备之间关于进行沉浸媒体的传输。即内容制作设备通过发射器804 来向内容播放设备传输沉浸媒体的相关媒体资源。

再请参见图8，处理器802可包括转换器821、编码器822和封装器823；其中：

转换器821配置为对捕获到的视频内容进行一系列转换处理，使视频内容成为适合被执行沉浸媒体的视频编码的内容。转换处理可包括：拼接和投影，在实际应用中，转换处理还包括区域封装。转换器821可以将捕获到的3D视频内容转换为2D图像，并提供给编码器进行视频编码。

编码器822配置为对捕获到的音频内容进行音频编码形成沉浸媒体的音频码流。还用于对转换器821转换得到的2D图像进行视频编码，得到视频码流。

封装器823配置为将音频码流和视频码流按照沉浸媒体的文件格式(如ISOBMFF)封装在文件容器中形成沉浸媒体的媒体文件资源，该媒体文件资源可以是媒体文件或媒体片段形成沉浸媒体的媒体文件；并按照沉浸媒体的文件格式要求采用媒体呈现描述信息记录该沉浸媒体的媒体文件资源的元数据。封装器处理得到的沉浸媒体的封装文件会保存在存储器中，并按需提供给内容播放设备进行沉浸媒体的呈现。

在一个示例性实施例中，沉浸媒体包括N个分块视频，所述N个分块视频分别被封装至N个轨道中，第i个分块视频被封装在第i个轨道中；所述N个轨道属于同一个轨道组；处理器802(即处理器包含的各器件)通过调用存储器中的一条或多条指令来执行图2所示的沉浸媒体的数据处理方法的各步骤。在实际应用中，存储器803存储有一条或多条第一指令，该一条或多条第一指令适于由处理器802加载并执行如下步骤：

获取沉浸媒体的第i个独立编解码区域的独立编解码区域描述数据盒，所述第i个独立编解码区域对应所述第i个分块视频；所述独立编解码区域描述数据盒包括独立编解码区域数据盒及坐标信息数据盒，其中i，N为正整数，且i≤N；

根据所述独立编解码区域描述数据盒显示所述沉浸媒体的第i个分块视频。

在另一个示例性实施例中，处理器通过调用存储器803中的一条或多条指令来执行图3所示的沉浸媒体的数据处理方法的各步骤。在实际应用中，存储器存储有一条或多条第二指令，该一条或多条第二指令适于由处理器802加载并执行如下步骤：

将沉浸媒体划分为N个分块视频；

分别将N个分块视频封装至N个轨道中，第i个分块视频被封装在第i个轨道中；第i个分块视频对应第i个独立编解码区域，其中i，N为正整数，且i≤N；所述N个轨道属于同一个轨道组；

根据第i个分块视频的封装过程生成第i个独立编解码区域的独立编解码区域描述数据盒，所述独立编解码区域描述数据盒包括独立编解码区域数据盒及坐标信息数据盒。

图9示出了本申请一个示例性实施例提供的一种内容播放设备的结构示意图；该内容播放设备可以是指沉浸媒体的使用者所使用的计算机设备，该计算机设备可以是终端(如PC、智能移动设备(如智能手机)、VR设备(如VR头盔、VR眼镜等))。如图9所示，该内容播放设备包括接收器901、处理器902、存储器903、显示/播放装置904。其中：

接收器901配置为实现解码与其他设备的传输交互，例如实现内容制作设备与内容播放设备之间关于进行沉浸媒体的传输。即内容播放设备通过接收器901来接收内容制作设备传输沉浸媒体的相关媒体资源。

处理器902(或称CPU)是内容制作设备的处理核心，该处理器902适于实现一条或多条程序指令，适于加载并执行一条或多条程序指令从而实现图2或图5所示的沉浸媒体的数据处理方法的流程。

存储器903是内容播放设备中的记忆设备，配置为存放程序和媒体资源。可以理解的是，此处的存储器903既可以包括内容播放设备中的内置存储介质，当然也可以包括内容播放设备所支持的扩展存储介质。需要说明的是，存储器903可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器；还可以是至少一个位于远离前述处理器的存储器。存储器903提供存储空间，该存储空间用于存储内容播放设备的操作系统。并且，在该存储空间中还用于存储计算机程序，该计算机程序包括程序指令，且该程序指令适于被处理器调用并执行，以用来执行沉浸媒体的数据处理方法的各步骤。另外，存储器903还可配置为存储经处理器处理后形成的沉浸媒体的三维图像、三维图像对应的音频内容及该三维图像和音频内容渲染所需的信息等。

显示/播放装置904配置为输出渲染得到的声音和三维图像。

再请参见图9，处理器902可包括解析器921、解码器922、转换器923和渲染器924；其中：

解析器921配置为对来自内容制作设备的渲染媒体的封装文件进行文件解封装，如按照沉浸媒体的文件格式要求对媒体文件资源进行解封装，得到音频码流和视频码流；并将该音频码流和视频码流提供给解码器922。

解码器922配置为对音频码流进行音频解码，得到音频内容并提供给渲染器进行音频渲染。另外，解码器922对视频码流进行解码得到2D图像。根据媒体呈现描述信息提供的元数据，如果该元数据指示沉浸媒体执行过区域封装过程，该2D图像是指封装图像；如果该元数据指示沉浸媒体未执行过区域封装过程，则该平面图像是指投影图像。

转换器923配置为将2D图像转换为3D图像。如果沉浸媒体执行过区域封装过程，转换器923还会先将封装图像进行区域解封装得到投影图像。再对投影图像进行重建处理得到3D图像。如果渲染媒体未执行过区域封装过程，转换器923会直接将投影图像重建得到3D图像。

渲染器924配置为对沉浸媒体的音频内容和3D图像进行渲染。如根据媒体呈现描述信息中与渲染、视窗相关的元数据对音频内容及3D图像进行渲染，渲染完成交由显示/播放装置进行输出。

在一个示例性实施例中，沉浸媒体包括N个分块视频，所述N个分块被封装至N个轨道中，第i个分块视频被封装在第i个轨道中；所述N个轨道属于同一个轨道组；处理器902(即处理器包含的各器件)通过调用存储器中的一条或多条指令来执行图2所示的沉浸媒体的数据处理方法的各步骤。在实际应用中，存储器存储有一条或多条第一指令，该一条或多条第一指令适于由处理器902加载并执行如下步骤：

在另一个示例性实施例中，处理器902(即处理器包含的各器件)通过调用存储器中的一条或多条指令来执行图5所示的沉浸媒体的数据处理方法的各步骤。在实际应用中，存储器903存储有一条或多条第二指令，该一条或多条第二指令适于由处理器902加载并执行如下步骤：

获取沉浸媒体的打包文件，所述沉浸媒体包括N个分块视频，所述N个分块视频分别被封装至N个轨道中，第i个分块视频被封装在第i个轨道中；所述N个轨道属于同一个轨道组；第i个分块视频对应第i个独立编解码区域；所述打包文件至少包括第i个轨道，第i个轨道中包含第i个独立编解码区域的独立编解码区域描述数据盒，其中i，N为正整数，且i≤N；

对所述打包文件进行解封处理得到第i个独立编解码区域的独立编解码区域描述数据盒，所述独立编解码区域描述数据盒包括独立编解码区域数据盒及坐标信息数据盒；

基于同一发明构思，本申请实施例中提供的内容制作设备及内容播放设备解决问题的原理与有益效果与本申请方法实施例中沉浸媒体的处理方法解决问题的原理和有益效果相似，可以参见方法的实施的原理和有益效果，为简洁描述，在这里不再赘述。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

一种沉浸媒体的数据处理方法，所述沉浸媒体包括N个分块视频，所述N个分块视频分别被封装至N个轨道中，第i个分块视频被封装在第i个轨道中；所述N个轨道属于同一个轨道组；所述方法包括：

获取沉浸媒体的第i个独立编解码区域的独立编解码区域描述数据盒，所述第i个独立编解码区域对应所述第i个分块视频；所述独立编解码区域描述数据盒包括：独立编解码区域数据盒及坐标信息数据盒，其中i，N为正整数，且i≤N；

根据所述独立编解码区域描述数据盒，显示所述沉浸媒体的第i个分块视频。
如权利要求1所述的方法，其中，所述坐标信息数据盒包括第i个独立编解码区域的坐标系标识字段；所述坐标系标识字段用于指示第i个独立编解码区域所属的坐标系；

当所述沉浸媒体的第i个分块视频的分辨率与第j个分块视频的分辨率相同时，第i个独立编解码区域与第j个独立编解码区域属于同一坐标系，其中j为正整数，j≤N且j≠i；

当所述沉浸媒体的第i个分块视频的分辨率与第j个分块视频的分辨率不同时，第i个独立编解码区域与第j个独立编解码区域分别属于不同的坐标系。
如权利要求2所述的方法，其中，所述坐标信息数据盒包括第i个独立编解码区域所属坐标系下的完整视频的尺寸字段；所述完整视频的尺寸字段包括所述完整视频的高度字段和所述完整视频的宽度字段；

所述完整视频是由第i个独立编解码区域所属坐标系下所有独立编解码区域对应的分块视频组成的。
如权利要求1所述的方法，其中，所述独立编解码区域数据盒包括第i个独立编解码区域在所属坐标系中的顶点坐标字段及第i个独立编解码区域的尺寸字段；

所述顶点坐标字段包括第i个独立编解码区域在所属坐标系中的横坐标字段和第i个独立编解码区域在所属坐标系中的纵坐标字段；

所述尺寸字段包括第i个独立编解码区域的高度字段和第i个独立编解码区域的宽度字段。
如权利要求1所述的方法，其中，所述独立编解码区域数据盒包括第i个独立编解码区域的非独立呈现标志字段；

当第i个独立编解码区域的非独立呈现标志字段为有效值时，指示第i个独立编解码区域与第i个独立编解码区域所属轨道组中的其他轨道中的独立编解码区域同时呈现。
如权利要求1所述的方法，其中，所述独立编解码区域数据盒包括第i个独立编解码区域的合流标志字段；

当第i个独立编解码区域的合流标志字段为无效值时，指示第i个独立编解码区域所属轨道所包含的码流能够与第i个独立编解码区域所属轨道组中的其他轨道所包含的码流合并。
如权利要求1所述的方法，其中，所述独立编解码区域数据盒包括第i个独立编解码区域的轨道优先级信息标志字段；

当所述轨道优先级信息标志字段为无效值时，指示第i个独立编解码区域所属轨道组中的各个轨道中的独立编解码区域的优先级相同；

当所述轨道优先级信息标志字段为有效值时，所述独立编解码区域数据盒还包括第i个独立编解码区域的轨道优先级字段，所述轨道优先级字段用于指示第i个独立编解码区域的优先级；

所述轨道优先级字段的值越小，第i个独立编解码区域的优先级越高；

当第i个独立编解码区域的清晰度高于第j个独立编解码区域的清晰度时，第i个独立编解码区域的优先级高于第j个独立编解码区域的优先级，其中j为正整数，j≤N且j≠i。
如权利要求1所述的方法，其中，所述独立编解码区域数据盒包括第i个独立编解码区域的轨道重叠信息标志字段；

当所述轨道重叠信息标志字段为无效值时，指示第i个独立编解码区域在被显示时，不与第i个独立编解码区域所属轨道组中的其他轨道中的独立编解码区域重叠；

当所述轨道重叠信息标志字段为有效值时，所述独立编解码区域数据盒还包括第i个独立编解码区域的背景标志字段；

当所述背景标志字段为无效值时，指示第i个独立编解码区域作为第i个独立编解码区域所属轨道组中的其他轨道中的独立编解码区域的前景画面被显示；

当所述背景标志字段为有效值时，指示第i个独立编解码区域作为第i个独立编解码区域所属轨道组中的其他轨道中的独立编解码区域的背景画面被显示。
如权利要求8所述的方法，其中，当所述背景标志字段为有效值时，所述独立编解码区域数据盒还包括第i个独立编解码区域的透明度字段，所述透明度字段用于指示第i个独立编解码区域作为背景画面被显示时的透明度；所述透明度字段的取值大于等于0；

若所述透明字段的值等于0，则第i个独立编解码区域被显示为透明背景画面；

若所述透明字段的值大于0，则第i个独立编解码区域被显示为非透明背景画面。
如权利要求1所述的方法，其中，所述方法还包括：

获取独立编解码区域描述信令文件，所述独立编解码区域描述信令文件被封装于所述沉浸媒体的媒体呈现描述文件中的自适应集层级中；

所述独立编解码区域描述信令文件包括第i个独立编解码区域的独立编解码区域描述数据盒的描述信息。
一种沉浸媒体的数据处理方法，所述方法包括：

将沉浸媒体划分为N个分块视频；

分别将N个分块视频封装至N个轨道中，第i个分块视频被封装在第i个轨道中；第i个分块视频对应第i个独立编解码区域，其中i，N为正整数，且i≤N；所述N个轨道属于同一个轨道组；

根据第i个分块视频的封装过程，生成第i个独立编解码区域的独立编解码区域描述数据盒，所述独立编解码区域描述数据盒包括独立编解码区域数据盒及坐标信息数据盒。
如权利要求11所述的方法，其中，所述坐标信息数据盒包括第i个独立编解码区域的坐标系标识字段；所述根据第i个分块视频的封装过程，生成第i个独立编解码区域的独立编解码区域描述数据盒，包括：

根据第i个分块视频的分辨率，确定第i个独立编解码区域所属的坐标系；

根据确定的所述第i个独立编解码区域所属的坐标系，配置第i个独立编解码区域的坐标系标识字段的值。
如权利要求12所述的方法，其中，所述坐标信息数据盒包括第i个独立编解码区域所属坐标系下的完整视频的尺寸字段；所述完整视频的尺寸字段包括所述完整视频的高度字段和所述完整视频的宽度字段；

所述根据第i个分块视频的封装过程，生成第i个独立编解码区域的独立编解码区域描述数据盒，包括：

获取第i个独立编解码区域所属坐标系下所有独立编解码区域对应的分块视频组成的完整视频的高度和宽度；

将获取到的所述完整视频的高度配置为所述完整视频的高度字段的值，以及将获取到的所述完整视频的宽度配置为所述完整视频的宽度字段的值。
如权利要求11所述的方法，其中，所述独立编解码区域数据盒包括第i个独立编解码区域在所属坐标系中的顶点坐标字段及第i个独立编解码区域的尺寸字段，所述顶点坐标字段包括第i个独立编解码区域在所属坐标系中的横坐标字段和第i个独立编解码区域在所属坐标系中的纵坐标字段，所述尺寸字段包括第i个独立编解码区域的高度字段和第i个独立编解码区域的宽度字段；

所述根据第i个分块视频的封装过程，生成第i个独立编解码区域的独立编解码区域描述数据盒，包括：

获取第i个独立编解码区域在所属坐标系中顶点的横坐标的值和纵坐标的值；

将所述获取到的第i个独立编解码区域在所属坐标系中横坐标的值配置为第i个独立编解码区域在所属坐标系中的横坐标字段的值，以及将所述获取到的第i个独立编解码区域在所属坐标系中纵坐标的值配置为第i个独立编解码区域在所属坐标系中的纵坐标字段的值；以及

获取第i个独立编解码区域的高度和宽度；

将所述获取到的第i个独立编解码区域的高度配置为第i个独立编解码区域的高度字段的值，以及将所述获取到的第i个独立编解码区域的宽度配置为第i个独立编解码区域的宽度字段的值。
如权利要求11所述的方法，其中，所述独立编解码区域数据盒包括第i个独立编解码区域的非独立呈现标志字段；

所述根据第i个分块视频的封装过程，生成第i个独立编解码区域的独立编解码区域描述数据盒，包括：

若第i个独立编解码区域与第i个独立编解码区域所属轨道组中的其他轨道中的独立编解码区域同时呈现，则将第i个独立编解码区域的非独立呈现标志字段配置为有效值。
如权利要求11所述的方法，其中，所述独立编解码区域数据盒包括第i个独立编解码区域的合流标志字段；

所述根据第i个分块视频的封装过程，生成第i个独立编解码区域的独立编解码区域描述数据盒，包括：

若第i个独立编解码区域所属轨道所包含的码流能够与第i个独立编解码区域所属轨道组中的其他轨道所包含的码流合并，则将第i个独立编解码区域的合流标志字段配置为无效值。
如权利要求11所述的方法，其中，所述独立编解码区域数据盒包括第i个独立编解码区域的轨道优先级信息标志字段；

所述根据第i个分块视频的封装过程，生成第i个独立编解码区域的独立编解码区域描述数据盒，包括：

若第i个独立编解码区域所属轨道组中的各个轨道中的独立编解码区域的优先级相同，则将所述轨道优先级信息标志字段配置为无效值；

若第i个独立编解码区域所属轨道组中的各个轨道中的独立编解码区域的优先级不同，则将所述轨道优先级信息标志字段配置为有效值；

在所述轨道优先级信息标志字段被配置为有效值的情况下，所述独立编解码区域数据盒还包括第i个独立编解码区域的轨道优先级字段；

所述方法还包括：将第i个独立编解码区域的优先级配置为所述轨道优先级字段的值。
如权利要求11所述的方法，其中，所述独立编解码区域数据盒包括第i个独立编解码区域的轨道重叠信息标志字段；

所述根据第i个分块视频的封装过程，生成第i个独立编解码区域的独立编解码区域描述数据盒，包括：

若要求第i个独立编解码区域不与第i个独立编解码区域所属轨道组中的其他轨道中的独立编解码区域重叠显示，则将所述轨道重叠信息标志字段配置为无效值；

若要求第i个独立编解码区域与第i个独立编解码区域所属轨道组中的其他轨道中的独立编解码区域重叠显示，则将所述轨道重叠信息标志字段配置为有效值；

在所述轨道重叠信息标志字段被配置为有效值的情况下，所述独立编解码区域数据盒还包括第i个独立编解码区域的背景标志字段；

所述方法还包括：

若要求第i个独立编解码区域作为第i个独立编解码区域所属轨道组中的其他轨道中的独立编解码区域的前景画面被显示，则将所述背景标志字段配置为无效值；

若要求第i个独立编解码区域作为第i个独立编解码区域所属轨道组中的其他轨道中的独立编解码区域的背景画面被显示，则将所述背景标志字段配置为有效值。
根据权利要求18所述的方法，其中，在所述背景标志字段被配置为有效值的情况下，所述独立编解码区域数据盒还包括第i个独立编解码区域的透明度字段，所述透明度字段的取值大于等于0；

所述方法还包括：

若第i个独立编解码区域被要求显示为透明背景画面，则将所述透明字段的值配置为0；

若第i个独立编解码区域被要求显示为非透明背景画面，则根据第i个独立编解码区域的透明度配置所述透明字段的值。
如权利要求11所述的方法，其中，所述方法还包括：

根据所述沉浸媒体的N个分块视频的封装过程生成独立编解码区域描述信令文件，所述独立编解码区域描述信令文件被封装于所述沉浸媒体的媒体呈现描述文件中的自适应集层级中；

所述独立编解码区域描述信令文件包括第i个独立编解码区域的独立编解码区域描述数据盒的描述信息。
一种沉浸媒体的数据处理方法，所述方法包括：

获取沉浸媒体的打包文件，所述沉浸媒体包括N个分块视频，所述N个分块视频分别被封装至N个轨道中，第i个分块视频被封装在第i个轨道中；所述N个轨道属于同一个轨道组；第i个分块视频对应第i个独立编解码区域；所述打包文件至少包括第i个轨道，第i个轨道中包含第i个独立编解码区域的独立编解码区域描述数据盒，其中i，N为正整数，且i≤N；

对所述打包文件进行解封处理得到第i个独立编解码区域的独立编解码区域描述数据盒，所述独立编解码区域描述数据盒包括独立编解码区域数据盒及坐标信息数据盒；

根据所述独立编解码区域描述数据盒，显示所述沉浸媒体的第i个分块视频。
如权利要求21所述的方法，其中，所述方法还包括：

获取所述沉浸媒体的独立编解码区域描述信令文件，所述独立编解码区域描述信令文件被封装于所述沉浸媒体的媒体呈现描述文件中的自适应集层级中；所述独立编解码区域描述信令文件包括第i个独立编解码区域的独立编解码区域描述数据盒的描述信息；

所述获取沉浸媒体的打包文件，包括：根据所述独立编解码区域描述信令文件获取所述沉浸媒体的打包文件。
一种沉浸媒体的数据处理装置，包括：

获取单元，配置为获取沉浸媒体的第i个独立编解码区域的独立编解码区域描述数据盒，所述沉浸媒体被划分为N个分块视频，第i个分块视频对应第i个独立编解码区域；所述独立编解码区域描述数据盒包括独立编解码区域数据盒及坐标信息数据盒，其中i，N为正整数，且i≤N；

处理单元，配置为根据所述独立编解码区域描述数据盒显示所述沉浸媒体的第i个分块视频。
一种沉浸媒体的数据处理装置，包括：

处理单元，配置为将沉浸媒体划分为N个分块视频；以及，

配置为分别将N个分块视频封装至N个轨道中，第i个分块视频被封装在第i个轨道中；第i个分块视频对应第i个独立编解码区域，其中i，N为正整数，且i≤N；所述N个轨道属于同一个轨道组；

配置为根据第i个分块视频的封装过程生成第i个独立编解码区域的独立编解码区域描述数据盒，所述独立编解码区域描述数据盒包括独立编解码区域数据盒及坐标信息数据盒。
一种沉浸媒体的数据处理装置，包括：

获取单元，配置为获取沉浸媒体的打包文件，所述沉浸媒体包括N个分块视频，所述N个分块视频分别被封装至N个轨道中，第i个分块视频被封装在第i个轨道中；所述N个轨道属于同一个轨道组；第i个分块视频对应第i个独立编解码区域；所述打包文件至少包括第i个轨道，第i个轨道中包含第i个独立编解码区域的独立编解码区域描述数据盒，其中i，N为正整数，且i≤N；

处理单元，配置为对所述打包文件进行解封处理得到第i个独立编解码区域的独立编解码区域描述数据盒，所述独立编解码区域描述数据盒包括独立编解码区域数据盒及坐标信息数据盒；根据所述独立编解码区域描述数据盒显示所述沉浸媒体的第i个分块视频。
一种沉浸媒体的数据处理设备，包括：一个或多个处理器和一个或多个存储器；其中，

所述一个或多个存储器中存储有至少一条程序代码，所述至少一条程序代码由所述一个或多个处理器加载并执行以实现如权利要求1-22任一项所述的沉浸媒体的数据处理方法。
一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行以实现如权利要求1-22任一项所述的沉浸媒体的数据处理方法。