WO2020024373A1

WO2020024373A1 - 传输媒体数据的方法、客户端和服务器

Info

Publication number: WO2020024373A1
Application number: PCT/CN2018/105036
Authority: WO
Inventors: 方华猛; 范宇群; 邸佩云; 王业奎
Original assignee: 华为技术有限公司
Priority date: 2018-08-02
Filing date: 2018-09-11
Publication date: 2020-02-06
Also published as: CN110798707A; US11368729B2; CN110798707B; US20210160552A1; WO2020024567A1

Abstract

本申请提供了传输媒体数据的方法和装置。该方法包括：客户端向服务器发送第一信息；所述客户端接收所述服务器发送的第二目标视频图像对应的视频数据包；其中，所述第一信息用于指示第一目标视频图像的区域的空间信息，所述第一目标视频图像包括当前视角之内的视频图像，所述第二目标视频图像包括所述第一目标视频图像，在所述第二目标视频图像对应的视频数据包中，至少一个视频数据包分别携带至少一个第二信息，所述第二信息用于指示所述第二目标视频图像的区域的空间信息。本申请能够降低播放视频时的端到端时延，提高用户体验。

Description

传输媒体数据的方法、客户端和服务器

本申请要求于2018年08月02日提交中国专利局、申请号为201810873806.X、申请名称为“传输媒体数据的方法、客户端和服务器”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及流媒体传输技术领域，并且更具体地，涉及一种传输媒体数据的方法、客户端和服务器。

背景技术

ISO/IEC 23090-2标准规范又称为OMAF(omnidirectional media format，全向媒体格式)标准规范，该规范定义了一种媒体应用格式，该媒体应用格式能够在应用中实现全向媒体的呈现，全向媒体主要是指全向视频(360度视频)和相关音频。OMAF规范首先指定了可以用于将球面视频转换为二维视频的投影方法的列表，其次是如何使用ISO基本媒体文件格式(ISO base media file format，ISOBMFF)存储全向媒体和该媒体相关联的元数据，以及如何在流媒体系统中封装全向媒体的数据和传输全向媒体的数据，例如通过基于超文本传输协议(hyper text transfer protocol，HTTP)的动态自适应流传输(dynamic adaptive streaming over HTTP，DASH)，ISO/IEC 23009-1标准中规定的动态自适应流传输。

随着虚拟现实(virtual reality，VR)技术的快速发展，全景视频得到了越来越广泛的应用，基于360度全景视频的VR技术可以创建一种模拟环境，为用户带来交互式的三维动态视觉体验。全景视频由一系列全景图像组成，这些全景图像可以由计算机渲染产生，也可以通过拼接算法将多个相机分别从多个不同角度拍摄的视频图像拼接而成。一般来说，在观看全景视频时，用户在每个时刻观看到的图像内容仅占整个全景图像的一小部分，为了节省传输带宽，在通过远端服务器为用户提供全景图像时，可以只为用户传输每个时刻观看到的内容。

用户在通过客户端观看全景视频时，每个时刻看到的图像内容仅占整幅全景图像的一小部分。因此，为了节省传输带宽，在通过远端的服务器为用户提供视频数据时，可以只向客户端传输用户当前视角能够观看到的视频内容，而当用户的视角发生变化时，需要将变化后的视角范围内的视频内容传输到客户端。因此，如何向用户及时传输用户当前视角范围内的视频内容，并尽可能的减少传输时延是一个需要解决的问题。

发明内容

本申请提供一种传输媒体数据的方法、客户端和服务器，以降低向客户端传输当前视角范围内的视频内容的传输时延。

第一方面，提供了一种传输媒体数据的方法，该方法包括：客户端向服务器发送第一信息，该第一信息用于指示第一目标视频图像的区域的空间信息；客户端接收服务器发送的第二目标视频图像对应的视频数据包，在该第二目标视频图像对应的视频数据包中，至少一个视频数据包共携带第二信息，第二信息用于指示第二目标视频图像的区域的空间信息。

其中，上述第二目标视频图像包括第一目标视频图像，上述第一目标视频图像包括当前视角之内的视频图像。

应理解，第二目标视频图像包括第一目标视频图像具体可以是指第二目标视频图像仅包括第一目标视频图像，也可以是指第二目标视频图像除了包括第一目标视频图像之外，还包括其它视频图像。也就是说，服务器除了向客户端发送第一目标视频图像之外，还可以向客户端发送第一目标视频图像之外的其它视频图像。

当前视角可以是用户利用客户端观看视频时的视角，当用户的视角发生变化时，客户端可以再次向服务器发送新的第一信息，以请求获取新的视角之内的视频内容。

应理解，上述至少一个视频数据包共携带第二信息可以是指上述至少一个视频数据包中的每个视频数据包均携带第二信息的至少一部分信息，至少一个视频数据包整体上携带的是第二信息。

另外，上述至少一个视频数据包在共同携带第二信息的同时还可以携带码流数据，这里的码流数据是指对视频图像进行编码后得到的数据。

应理解，上述第一目标视频图像的区域可以是指第一目标视频图像刚好覆盖或者占据的区域，也就是说，第一目标视频图像的区域内的视频图像均属于第一目标视频图像，第一目标视频图像中的视频图像均在第一目标视频图像的区域内。类似的，第二目标视频图像也满足类似的要求。

上述第一目标视频图像的区域的空间信息也可以称为第一目标视频图像的区域的区域空间信息，第一目标视频图像的区域的空间信息用于指示第一目标视频图像的区域的空间范围或者空间位置。

上述第一目标视频图像的区域的空间位置具体可以是针对一个坐标系而言的，该坐标系可以是一个三维坐标系也可以是一个二维坐标系。例如，当采用三维坐标系来表示第一目标视频图像的区域的空间位置时，三维坐标系的原点可以是全景视频图像的中心点或者全景视频图像左上角的点或者全景视频图像中其它固定位置点。另外，上述第一目标视频图像的空间位置也可以是第一目标视频图像在全景视频图像区域中的位置(此时可以采用三维坐标系之外的其它坐标系，如球面坐标系来表示第一目标视频图像的空间位置)。

可选地，上述第一目标视频图像或者第二目标视频图像为全景视频图像中的部分视频图像。

本申请中，当服务器获取了表征当前视角内的视频内容的第一信息后，能够将用户所需要的第二目标视频图像以及第二目标视频图像的位置相关信息实时发送给客户端，能够减少客户端获取第二目标视频图像的位置相关信息的时延。

具体地，通过在第一目标视频图像对应的视频数据包中直接携带第二信息，能够使得客户端更快地获取第二目标视频图像的位置相关信息，减少传输时延。

在第一方面的某些实现方式中，第一目标视频图像为当前视角之内的视频图像，第一信息包括当前视角的空间信息。

当前视角的空间信息还可以称为当前视角的区域空间信息。

当第一信息包括当前视角的空间信息时，客户端通过第一信息直接上报了当前视角的空间信息，服务器根据当前视角的空间信息确定第二目标视频图像，并在向客户端发送的第二目标视频图像的视频数据包中直接携带目标视频图像的空间位置信息。

可选地，当前视角的空间信息包括当前视角的空间位置信息。

可选地，当前视角的空间位置信息为下列信息中的任意一种：当前视角对应的球面区域的中心点的球面坐标值，当前视角对应的球面区域的左上角的球面坐标值，当前视角对应的平面区域的中心点的平面坐标值，当前视角对应的平面区域的左上角的平面坐标值。

可选地，当前视角对应的球面区域的中心点的球面坐标值为(X,Y,Z)，其中，X对应球面坐标的方位角(azimuth)或者偏航角(yaw)，Y对应球面坐标的俯仰角(pitch或者elevation)，Z对应球面坐标的倾斜角(tilt)或者翻滚角(roll)。

可选地，当前视角对应的平面区域的中心点的平面坐标值为(X,Y)，其中，X和Y分别表示当前视角对应的平面区域的中心点在二维直角坐标系中的横坐标和纵坐标。

可选地，当前视角对应的平面区域的左上角的平面坐标值为(X,Y)，其中，X和Y分别表示，当前视角对应的平面区域的左上角在二维直角坐标系中的横坐标和纵坐标。

应理解，当前视角的空间位置信息还可以是当前视角对应的平面区域的右上角、左下角、右下角以及任意一个设定位置的二维坐标值。

在第一方面的某些实现方式中，第一目标视频图像为当前视角之内的视频图像，第一信息包括当前视角的视角信息。

可选地，当前视角的视角信息包括当前视角的空间信息和当前视角的视点信息。

其中，当前视角的空间信息包括当前视角的视角方向信息、当前视角的视角方向变化速度信息以及当前视角的视角覆盖范围信息中的至少一种。

当前视角的视点信息包括当前视角的视点位置信息、当前视角的视点位移速度信息和当前视角的视点位移速度的加速度信息中的至少一种。

在第一方面的某些实现方式中，上述方法还包括：客户端向服务器发送第一视点信息，该第一视点信息用于指示当前视角所在的当前视点。

客户端通过向服务器上报当前视角所在的视点的视点信息，使得客户端能够从服务器获取与当前视点匹配的视频图像，能够提高用户的观看效果。

上述第一视点信息可以是包含当前视点的多种信息。

可选地，上述第一视点信息包括当前视点的空间位置信息、当前视点的位置变化速度信息和当前视点的位置变化速度的加速度信息中的至少一种。

当客户端向服务器上报当前视点的空间位置信息时，可以使得服务器将与当前视点相对应的视角区域的视频图像下发给客户端，便于客户端获取与当前视点匹配的视频图像。

当客户端将当前视点的位置变化速度信息和/或当前视点的位置变化速度的加速度信息上报给服务器后，服务器能够根据客户端上报的信息对即将发送给客户端的视频图像进行预测渲染和预取下发，能够降低视频图像传输到客户端的时延，进而提升用户体验。

具体地，当前视点的空间位置信息可以表示当前视点所在的位置的坐标值，其中，当前视点的空间位置信息可以是三维坐标系(可以是各种类型的三维坐标系，例如，笛卡尔坐标系、球面坐标系等)下的坐标值。

当前视点的位置(也可以称为当前视点所在的位置)可以是变化的位置，而当前视点的位置变化速度信息就是用于指示当前视点的位置变化快慢的一个信息。

在第一方面的某些实现方式中，第一视点信息包括当前视点的空间位置信息，上述方法还包括：客户端向服务器发送第一指示信息，第一指示信息包括第一标识位，第一标识位的取值用于指示当前视点的空间位置信息为相对空间位置信息或者绝对空间位置信息；其中，当第一标识位为第一取值时，当前视点的空间位置信息为相对空间位置信息；

当第一标识位为第二取值时，当前视点的空间位置信息为绝对空间位置信息。

在当前视点的空间位置信息为相对空间位置信息的情况下，当前视点的空间位置信息可以是当前视点相对于起始视点或者某一指定视点或者上一视点的相对位置信息。在当前视点的空间位置信息为绝对位置信息的情况下，当前视点的空间位置信息可以是当前视点相对于某个固定坐标系(该固定坐标系可以是预先设置好的一个固定坐标系)的相对位置信息。

应理解，上述第一标识位既可以对应一个比特位，也可以对应多个比特位。当上述第一标识对应一个比特位时，上述第一取值和第二取值可以分别为0和1，或者，上述第一取值和第二取值可以分别为1和0。

上述当前视角的空间信息可以仅包含当前视角的视角方向信息，也可以既包含当前视角的视角方向信息和当前视角所在视点的位置信息。

上述第一指示信息可以携带在客户端向服务器发送的实时传输控制协议RTCP源描述报告中。

本申请中，在当前视点的空间位置信息为相对空间位置信息时，能够减少上报当前视点的空间信息包含的数据量，可以减少资源开销。

为了更好地指示上述当前视角的空间信息的组成，客户端可以向服务器发送指示信息，以指示当前视角的空间信息的组成，使得服务器能够准确获取当前视角的空间信息。

在第一方面的某些实现方式中，上述方法还包括：客户端向服务器发送第二指示信息，第二指示信息包括第二标识位，第二标识位的取值用于指示当前视角的空间信息的组成，所述第二标识位的取值用于指示下列情况中的至少一种：当第二标识位为第三取值时，当前视角的空间信息由当前视角的视角方向信息组成；当第二标识位为第四取值时，当前视角的空间信息由当前视角的视角方向信息和当前视角所在视点的位置信息组成。

可选地，当上述第二标识位为第五取值时，当前视角的空间信息由当前视角的视角方向信息、当前视角所在视点的位置信息以及当前视角的视角大小信息(也可以称为当前视角的视角覆盖范围大小信息)组成。

应理解，上述当前视角的空间信息可以包含当前视角的视角方向信息、当前视角所在视点的位置信息以及当前视角的视角大小信息中的至少一种。通过上述第二标识位的不同取值可以分别指示当前视角的空间信息包含的任意一种信息组合。

例如，可以通过第二标识位为下列不同取值时指示当前视角的空间信息的组成。

当第二标识的取值为X时，用于指示当前视角的空间信息包括当前视角的视角大小信息；

当第二标识位的取值为Y时，用于指示当前视角的空间信息包括当前视角所在视点的位置信息；

当第二标识位的取值为Z时，用于指示当前视角的空间信息包括当前视角所在视点的位置信息和当前视角的视角大小信息；

当第二标识位的取值为W时，用于指示当前视角的空间信息包括当前视角所在视点的位置信息、当前视角的视角大小信息和当前视角的视角方向信息。

可选地，上述第二指示信息可以携带在客户端向服务器发送的实时传输控制协议RTCP源描述报告中。

在第一方面的某些实现方式中，客户端向服务器发送第三指示信息，该第三指示信息包含第三标识位，该第三标识位的取值用于指示当前视角的视角方向信息为相对绝对视角方向信息或者相对方向信息；其中，当第三标识位(的取值)为第六取值时，当前视角的视角方向信息为绝对视角方向信息；当第三标识位(的取值)为第七取值时，当前视角的视角方向信息为相对视角方向信息。

上述第三指示信息可以携带在客户端向服务器发送的实时传输控制协议RTCP源描述报告中。

在当前视角的视角方向信息为绝对视角方向信息时，当前视角的视角方向信息可以是相对于某个固定坐标系的视角方向信息；在当前视角的视角方向信息为相对视角方向信息时，当前视角的视角方向信息可以是相对于之前的某个视角方向(例如，相对于前一个视角方向的偏转角度，或者相对于初始视角方向的偏转角度)的视角方向信息。

本申请中，在当前视角的视角方向采用相对视角方向信息时，能够减少上报当前视角的视角方向信息包含的数据量，可以减少资源开销。

可选地，上述第一信息、第一视点信息、第一指示信息以及第二指示信息均携带在客户端发送给服务器的实时传输控制协议RTCP源描述报告中。

通过将上述第一信息、第一视点信息、第一指示信息以及第二指示信息均携带在RTCP源描述报告中，能够通过一次发送RTCP源描述报告既可以将上述多个信息发送给服务器，可以减少客户端与服务器交互的次数，减少资源开销。

在第一方面的某些实现方式中，当前视角的空间信息包括当前视角的区域范围信息。

可选地，当前视角的区域范围信息包括当前视角的方位角范围(偏航角范围)和俯仰角范围。

可选地，当前视角的区域范围信息包括当前视角对应的二维视角区域的宽度和高度。

应理解，用户的视角的区域范围也可以是固定的，在这种情况下，客户端只需要向服务器上报一次视角的区域范围信息即可，当用户的视角再发生变化时，用户只需要上报当前视角的位置信息就可以，而不必再重复上报区域范围信息。

应理解，当前视角的区域范围信息具体可以是用于指示指当前视角所在的区域的范围。

可选地，当前视角的区域范围信息包括当前视角的区域的方位角范围(偏航角范围)和俯仰角范围。

可选地，当前视角的区域范围信息包括当前视角对应的平面区域的宽度和高度。

例如，当前视角的区域范围信息具体为H和V，其中，H和V分别表示VR球面坐标的方位角范围和俯仰角范围。

在第一方面的某些实现方式中，全景视频图像包括对全景视频图像进行划分得到的至少两个子区域，其中，当前视角覆盖至少一个子区域，第一信息用于指示当前视角覆盖的子区域，当前视角覆盖的子区域用于拼接得到第一目标视频图像的区域。

当第一信息指示当前视角覆盖的子区域时，客户端向服务器直接上报的是当前视角覆盖的子区域的信息，这样服务器在接收到第一信息之后可以直接获取当前视角覆盖的子区域的信息，并根据该信息直接确定第二目标视频图像，能够减少服务器确定第二目标视频图像的复杂度。

应理解，在本申请中，当前视角覆盖的子区域既包括是指当前视角的区域完全覆盖的子区域也包括当前视角的区域部分覆盖的子区域。

例如，当前视角的区域完全覆盖了子区域1，并且覆盖了子区域2和子区域3的部分区域，那么，当前视角覆盖的子区域就包括子区域1、子区域2和子区域3。

在第一方面的某些实现方式中，第二信息包括第二目标视频图像的区域的空间信息。

在第一方面的某些实现方式中，第二目标视频图像的区域的空间信息包括第二目标视频图像所在区域的空间位置信息，其中，第二目标视频图像所在区域的空间位置信息为下列信息中的至少一种：第二目标视频图像对应的球面区域的中心点的球面坐标值，第二目标视频图像对应的球面区域的左上角的球面坐标值，第二目标视频图像对应的平面区域的中心点的平面坐标值，第二目标视频图像对应的平面区域的左上角的平面坐标值。

可选地，第二目标视频图像对应的球面区域的中心点的球面坐标值为(X,Y,Z)，其中，X对应球面坐标的方位角(azimuth)或者偏航角(yaw)，Y对应球面坐标的俯仰角(pitch或者elevation)，Z对应球面坐标的倾斜角(tilt)或者翻滚角(roll)。

可选地，第二目标视频图像对应的球面区域的中心点的球面坐标值为(X,Y)，其中，X和Y分别表示第二目标视频图像对应的球面区域的中心点在二维直角坐标系中的横坐标和纵坐标。

可选地，第二目标视频图像对应的球面区域的左上角的球面坐标值为(X,Y)，其中，X和Y分别表示第二目标视频图像对应的球面区域的左上角在二维直角坐标系中的横坐标和纵坐标。

应理解，第二目标视频图像所在区域的空间位置信息还可以是第二目标视频图像对应的球面区域的右上角、左下角、右下角以及任意一个设定位置的二维坐标值。

在第一方面的某些实现方式中，第二目标视频图像的空间信息包括第二目标视频图像的区域范围信息。

可选地，第二目标视频图像的区域范围信息包括第二目标视频图像的区域的方位角范围(偏航角范围)和俯仰角范围。

例如，第二目标视频图像的区域范围信息的区域范围信息具体为H和V，其中，H和V分别表示VR球面坐标的方位角范围和俯仰角范围。

可选地，第二目标视频图像的区域范围信息包括第二目标视频图像对应的二维视频图像的宽度和高度。

在第一方面的某些实现方式中，全景视频图像包括对全景视频图像进行划分得到的至少两个子区域，其中，当前视角覆盖至少一个子区域，第二信息用于指示第二目标视频图像覆盖的子区域，第二目标视频图像覆盖的子区域用于拼接得到第二目标视频图像的区域。

在第一方面的某些实现方式中，第二信息包括至少一个第三信息，至少一个视频数据包中每个视频数据包均携带第三信息，至少一个视频数据包共携带至少一个第三信息，至少一个视频数据包中的任一视频数据包携带的第三信息用于指示任一视频数据包对应的视频图像所属的子区域。

例如，第二目标视频图像对应的视频数据包的数量为100个，第二信息仅包含一个第三信息，此时第三信息可以只携带在第1个视频数据包或者第100个数据包中。或者，当第二信息包括10个第三信息时，该10个第三信息可以携带在该100个视频数据包中的任意10个视频数据包中。

在第一方面的某些实现方式中，至少一个视频数据包包括携带视角标识的视频数据包。

应理解，上述至少一个视频数据包中的任意一个视频数据包均可以携带该视角标识，该视角标识用于指示该任意一个视频数据包对应的视频图像所在的视角。此外，该视角标识可以与子区域ID是绑定的，也就是说，子区域ID与视角标识存在一个对应关系。

客户端通过视角标识能够区分不同视角的视频数据包，便于对某个视角内的视频数据包对应的视频图像进行拼接。

可选地，上述第二目标视频图像与第一目标视频图像相同。

当第二目标视频图像仅包含第一目标视频图像时，能够减少传输目标视频图像时占用的带宽。

在第一方面的某些实现方式中，第二目标视频图像还包括第一目标视频图像之外的其它视频图像。

当第二目标视频图像包括第一目标视频图像之外的其它视频图像时，客户端在显示当前视角之内的视频图像的同时还可以显示当前视角之外的视频图像，使得用户在突然转向(或者突然改变观看视角)的过程中也能够观看到视频图像。

可选地，第一目标视频图像还包括全景视频图像。

通过传输全景视频图像，能够在显示当前视角对应的第一视频图像之外还显示全景视频图像，使得用户在快速转向(例如，快速转头)时，也能够看到视频图像，可以起到一定的缓存作用，不至于在突然转向时看不到视频内容。

可选地，上述全景视频图像的图像质量低于第一目标视频图像的图像质量。

当需要传输全景视频图像时，通过传输具有较低图像质量的全景视频图像，能够在一定程度上减少数据传输量，减少对带宽的占用。

在第一方面的某些实现方式中，上述方法还包括：客户端接收服务器发送的描述文件，描述文件携带第一视角信息或者第二视角信息，其中，第一视角信息用于指示服务器支持的视角的最大区域范围，第二视角信息用于指示初始视角的区域范围。

通过接收描述文件客户端能够获取服务器支持的视角范围或者服务器的初始视角，便于客户端在后续接收到视频数据包之后根据客户端的支持的视角范围以及初始视角来对解码得到的视频图像进行拼接。

应理解，第一信息指示的第一目标视频图像的区域的范围应当在第一视角信息指示的服务器支持的视角的最大区域范围之内。

应理解，当上述描述文件中携带第二视角信息时，客户端在开机后可以按照初始视角来呈现视频图像，接下来，客户端可以再按照用户的当前视角来呈现视频图像。

例如，客户端开机后呈现视角1(视角1为初始视角)内的视频图像，但是用户想观看视角2(视角2为用户的当前视角)内的视频图像，那么，接下来，客户端可以再从视角1切换到视角2，并呈现视角2内的视频图像。

这里的初始视角可以是预先设置好的一个视角，当客户端每次开机是都会先呈现该初始视角内的视频图像。

可选地，初始视角的区域范围信息包括初始视角的区域的方位角范围(偏航角范围)和俯仰角范围。

可选地，初始视角的区域范围信息包括初始视角对应的平面区域的宽度和高度。

例如，初始视角的区域范围信息具体为H和V，其中，H和V分别表示VR球面坐标的方位角范围和俯仰角范围。

可选地，第二视角信息除了指示初始视角的区域范围之外还可以用于指示默认视角的区域范围。

应理解，当服务器没有获取到客户端的视角信息或者当前视角对应的视频图像信息时，服务器可以直接将默认视角内的视频图像发送给客户端，使得客户端呈现默认视角范围内的视频图像。

可选地，客户端在接收服务器发送的描述文件之前，上述方法还包括：客户端向服务器发送视频描述命令。

通过向服务器发送视频描述命令，能够触发服务器向客户端发送描述文件。

在第一方面的某些实现方式中，在描述文件携带第二视角信息时，描述文件还携带第三视角信息，第三视角信息还用于指示初始视角的空间位置。

可选地，第三视角信息为下列信息中的任意一种：初始视角对应的球面区域的中心点的球面坐标值，初始视角对应的球面区域的左上角的球面坐标值，初始视角对应的平面区域的中心点的平面坐标值，初始视角对应的平面区域的左上角的平面坐标值。

可选地，初始视角对应的球面区域的中心点的球面坐标值为(X,Y,Z)，其中，X对应球面坐标的方位角(azimuth)或者偏航角(yaw)，Y对应球面坐标的俯仰角(pitch或者elevation)，Z对应球面坐标的倾斜角(tilt)或者翻滚角(roll)。

可选地，初始视角对应的平面区域的中心点的平面坐标值为(X,Y)，其中，X和Y分别表示初始视角对应的平面区域的中心点在二维直角坐标系中的横坐标和纵坐标。

可选地，初始视角对应的平面区域的左上角的平面坐标值为(X,Y)，其中，X和Y分别表示初始视角对应的平面区域的左上角在二维直角坐标系中的横坐标和纵坐标。

在第一方面的某些实现方式中，上述方法还包括：客户端接收服务器发送的描述文件，全景视频图像包括对全景视频图像进行划分得到的至少两个子区域，描述文件携带各个子区域的子区域描述信息，各个子区域是全景视频图像的区域的子区域，子区域描述信息包括子区域的空间信息。

通过在描述文件中携带子区域描述信息，能够使得客户端在接收到目标视频图像中的视频数据包后根据各个子区域的信息对视频图像进行拼接，从而得到当前视角之内的视频内容。

在第一方面的某些实现方式中，子区域描述信息包括各个子区域的平面空间信息，子区域描述信息还包括各个子区域之内的视频图像的映射类型信息，各个子区域的球面空间信息用于根据映射类型信息和各个子区域的平面空间信息确定。

可选地，子区域的平面空间信息为子区域的中心点的二维坐标值或者子区域的左上角的二维坐标值。

可选地，子区域的中心点的二维坐标值为(X,Y)，其中，X和Y分别表示二维视角区域的中心点在二维直角坐标系中的横坐标和纵坐标。

可选地，子区域的左上角的二维坐标值为(X,Y)，其中，X和Y分别表示二维视角区域的左上角在二维直角坐标系中的横坐标和纵坐标。

应理解，子区域的平面空间信息还可以是子区域的右上角、左下角、右下角以及任意一个设定位置的二维坐标值。

可选地，上述映射类型信息指示的映射类型为经纬图、六面体和八面体中的任意一种。

在第一方面的某些实现方式中，子区域描述信息包括各个子区域的球面空间信息，子区域描述信息还包括各个子区域的形状信息。

可选地，子区域的球面空间信息可以用子区域的中心点的方位角、俯仰角以及倾斜角来表示。

子区域的形状信息可以表示子区域的形状类型，例如，子区域的形状类型可以是由四个大圆围成，也可以是两个大圆和一个小圆围成等。

在第一方面的某些实现方式中，子区域的三维空间信息包括子区域图像的映射类型、子区域的形状信息、子区域的角度信息以及子区域的区域范围信息。

可选地，上述描述文件还包括全景码流描述信息，全景码流描述信息包括全景视频图像的映射类型信息和大小信息。

可选地，第一信息携带在客户端向服务器发送的实时传输控制协议(real-time transport control protocol，RTCP)源描述报告中，目标视频图像中的视频数据包为流媒体实时传输协议(real-time transmit protocol，RTP)视频数据包。

可选地，第一信息和第二信息为自定义的TLV格式信息。

可选地，上述第一信息和第二信息为态图像专家组媒体传输(MPEG Media Transport，MMT)中定义的一种针对多媒体传输应用的信号格式的信息。

具体地，客户端和服务器之间用于传输当前视点或者当前视点的信息既可以是实时传输协议中的信息，也可以是自定义的TLV格式的信息，还可以是MMT中定义的用于多媒体传输应用的格式的信息。

在第一方面的某些实现方式中，至少一个视频数据包共携带第二视点信息，该第二视点信息用于指示第二目标视频图像对应的视点。

可选地，上述第二视点信息可以包含第二目标视频图像对应的视点的多种信息。

假设，第二目标视频图像对应的视点为第一视点，那么，上述第二视点信息可以包括第一视点的空间位置信息、第一视点的位置变化速度信息和第一视点的位置变化速度的加速度信息中的至少一种。

上述第二视点信息与第一视点信息类似，也可以包含第一视点信息包含的各种信息，具体可以参见第一视点信息的相关内容，这里不再重复描述。

通过在视频数据包中携带待显示目标视频图像对应的视点，能够便于客户端按照相应的视点呈现待显示的目标视频图像，提高显示效果。

第二方面，提供了一种传输媒体数据的方法，该方法包括：客户端接收服务器发送的描述文件，描述文件携带至少两个会话的会话描述信息，至少两个会话为客户端与服务器之间的会话，至少两个会话用于传输各自对应的子区域图像的码流数据，会话描述信息包括通过各个会话各自所传输的子区域图像的码流数据对应的子区域的空间信息，其中，子区域是对全景视频图像的区域进行划分得到的，子区域图像为子区域之内的视频图像；客户端向服务器发送第一信息，第一信息用于指示当前视角所覆盖的子区域对应的会话，第一信息根据当前视角和会话描述信息确定；客户端接收服务器发送的目标视频图像的码流数据，目标视频图像包括当前视角所属的子区域的图像。

上述当前视角可以是指用户利用客户端观看视频时的视角，当用户的视角发生变化时，客户端可以再次向服务器发送新的第一信息，以请求获取新的视角之内的视频内容。

可选地，上述目标视频图像为全景视频图像。

应理解，上述至少两个会话为客户端与服务器之间建立的全部会话或者部分会话。

本申请中，在接收服务器传输的目标视频图像之前通过获取携带各个会话的会话描述信息的描述文件，便于客户端根据描述信息对接收到的目标视频图像的码流数据进行处理。

应理解，除了采用上述至少两个会话来传输各自对应的子区域图像的码流数据之外，还可以采用一个会话来传输全部子区域的视频图像。

例如，目标视频图像包含子区域1(对应会话1)、子区域2(对应会话2)和子区域3(对应会话3)内的视频图像，那么，可以采用会话1、会话2以及会话3来分别传输子区域1、子区域2和子区域3内的视频图像。或者，也可以采用一个会话(会话1、会话2和会话3中的任意一个会话)来传输子区域1至子区域3内的视频图像。

在第二方面的某些实现方式中，客户端接收服务器发送的目标视频图像的码流数据，包括：客户端通过当前视角所覆盖的子区域对应的会话接收当前视角所覆盖的子区域图像的码流数据，以得到目标视频图像的码流数据。

在第二方面的某些实现方式中，子区域的区域空间信息为子区域的平面区域空间信息，会话描述信息还包括各个会话各自所传输的子区域图像的码流数据的映射类型信息。

在第二方面的某些实现方式中，子区域的区域空间信息为子区域的球面区域空间信息，会话描述信息还包括各个会话各自所传输的子区域图像的码流数据对应的子区域的形状信息。

在第二方面的某些实现方式中，第一信息携带在客户端向服务器发送的实时传输控制协议RTCP源描述报告中，

在第二方面的某些实现方式中，第一信息属于TLV格式信息。

应理解，上述对第一方面中的各个实现方式中的相应内容的限定和解释同样适用于第二方面中的各个实现方式。

第三方面，提供了一种传输媒体数据的方法，该方法包括：服务器接收客户端发送的第一信息，第一信息用于指示第一目标视频图像的区域的空间位置，第一目标视频图像包括当前视角之内的视频图像；服务器根据第一信息确定第二目标视频图像，第二目标视频图像包括第一目标视频图像；服务器向客户端发送第二目标视频图像对应的视频数据包，在第二目标视频图像对应的视频数据包中，至少一个视频数据包共携带第二信息，第二信息用于指示第二目标视频图像的区域的空间信息。

在第三方面的某些实现方式中，第一目标视频图像为当前视角之内的视频图像，第一信息包括当前视角的空间信息。

在第三方面的某些实现方式中，第一目标视频图像为当前视角之内的视频图像，第一信息包括当前视角的视角信息。

在第三方面的某些实现方式中，上述方法还包括：服务器接收客户端发送的第一视点信息，该第一视点信息用于指示当前视角所在的当前视点。

服务器通过接收客户端上报的当前视角所在的视点的视点信息，使得服务器能够将与当前视点匹配的视频图像传输给客户端，能够提高用户的观看效果。

上述第一视点信息可以是包含当前视点的多种信息。

服务器获取到客户端上报的当前视点的空间位置信息时，能够获取与当前视点相对应的视角区域的视频图像，并将该视频图像下发给客户端，使得客户端能够获取与当前视点匹配的视频图像，可以提高显示效果。

当服务器获取到客户端上报的当前视点的位置变化速度信息和/或当前视点的位置变化速度的加速度信息后，服务器能够根据这些上报的信息对即将发送给客户端的视频图像进行预测渲染和预取下发，能够降低视频图像传输到客户端的时延，进而提升用户体验。

可选地，当前视点的空间位置信息具体可以是当前视点所在的位置的坐标值，其中，当前视点的空间位置信息可以是三维坐标系(可以是各种类型的三维坐标系，例如，笛卡尔坐标系、球面坐标系等)下的坐标值。

在第三方面的某些实现方式中，第一视点信息包括当前视点的空间位置信息，上述方法还包括：服务器接收客户端发送的第一指示信息，该第一指示信息包括第一标识位，第一标识位的取值用于指示当前视点的空间位置信息为相对空间位置信息或者绝对空间位置信息；其中，当第一标识位为第一取值时，当前视点的空间位置信息为相对空间位置信息；当第一标识位为第二取值时，当前视点的空间位置信息为绝对空间位置信息。

在当前视点的空间位置信息为相对空间位置信息的情况下，当前视点的空间位置信息可以是当前视点相对于起始视点或者某一指定视点或者上一视点的相对位置信息。

在第三方面的某些实现方式中，上述方法还包括：服务器接收客户端发送的第二指示信息，该第二指示信息包括第二标识位，第二标识位的取值用于指示当前视角的空间信息的组成，所述第二标识位的取值用于指示下列情况中的至少一种：当第二标识位为第三取值时，当前视角的空间信息由当前视角的视角方向信息组成；当第二标识位为第四取值时，当前视角的空间信息由当前视角的视角方向信息和当前视角所在视点的位置信息组成。

可选地，当上述第二标识位为第五取值时，当前视角的空间信息由当前视角的视角方向信息、当前视角所在视点的位置信息以及当前视角的视角大小信息组成。

通过将上述第一信息、第一视点信息、第一指示信息以及第二指示信息均携带在RTCP源描述报告中，能够通过一次接受RTCP源描述报告就可以获得客户端发送的上述多个信息，可以减少客户端与服务器交互的次数，减少资源开销。

在第三方面的某些实现方式中，全景视频图像包括对全景视频图像进行划分得到的至少两个子区域，其中，当前视角覆盖至少一个子区域，第一信息用于指示当前视角覆盖的子区域，当前视角覆盖的子区域用于拼接得到第一目标视频图像的区域。

在第三方面的某些实现方式中，第二信息包括第二目标视频图像的区域的空间信息。

在第三方面的某些实现方式中，全景视频图像包括对全景视频图像进行划分得到的至少两个子区域，其中，当前视角覆盖至少一个子区域，第二信息用于指示第二目标视频图像覆盖的子区域，第二目标视频图像覆盖的子区域用于拼接得到第二目标视频图像的区域。

在第三方面的某些实现方式中，第二信息包括至少一个第三信息，至少一个视频数据包中每个视频数据包均携带第三信息，至少一个视频数据包共携带至少一个第三信息，至少一个视频数据包中的任一视频数据包携带的第三信息用于指示任一视频数据包对应的视频图像所属的子区域。

在第三方面的某些实现方式中，至少一个视频数据包包括携带视角标识的视频数据包。

在第三方面的某些实现方式中，上述方法还包括：服务器向客户端发送描述文件，描述文件携带第一视角信息或者第二视角信息，其中，第一视角信息用于指示服务器支持的视角的最大区域范围，第二视角信息用于指示初始视角的区域范围。

在第三方面的某些实现方式中，在描述文件携带第二视角信息时，描述文件还携带第三视角信息，第三视角信息还用于指示初始视角的空间位置。

在第三方面的某些实现方式中，上述方法还包括：服务器向客户端发送描述文件，全景视频图像包括对全景视频图像进行划分得到的至少两个子区域，描述文件携带各个子区域的子区域描述信息，子区域描述信息包括子区域的空间信息。

在第三方面的某些实现方式中，子区域描述信息包括各个子区域的平面空间信息，子区域描述信息还包括各个子区域之内的视频图像的映射类型信息，各个子区域的球面空间信息用于根据映射类型信息和各个子区域的平面空间信息确定。

在第三方面的某些实现方式中，子区域描述信息包括各个子区域的球面空间信息，子区域描述信息还包括各个子区域的形状信息。

上述对第一方面中的各种实现方式的相应内容的限定和解释同样适用于第三方面中的各个实现方式。

在第三方面的某些实现方式中，至少一个视频数据包共携带第二视点信息，该第二视点信息用于指示第二目标视频图像对应的视点。

服务器通过在视频数据包中携带待显示目标视频图像对应的视点，便于客户端按照相应的视点呈现待显示的目标视频图像，提高显示效果。

第四方面，提供一种传输媒体数据的方法，该方法包括：服务器向客户端发送描述文件，描述文件携带至少两个会话的会话描述信息，至少两个会话为客户端与服务器之间的会话，至少两个会话用于传输各自对应的子区域图像的码流数据，会话描述信息包括通过各个会话各自所传输的子区域图像的码流数据对应的子区域的空间信息，其中，子区域是对全景视频图像的区域进行划分得到的，子区域图像为子区域之内的视频图像；服务器接收客户端发送的第一信息，第一信息用于指示当前视角所覆盖的子区域对应的会话，第一信息根据当前视角和会话描述信息确定；服务器向客户端发送目标视频图像的码流数据，目标视频图像包括当前视角所覆盖的子区域之内的视频图像。

本申请中，服务器在向客户端传输目标视频图像之前通过向客户端传输携带各个会话的会话描述信息的描述文件，便于客户端根据描述信息对接收到的目标视频图像的码流数据进行处理。

在第四方面的某些实现方式中，客户端接收服务器发送的目标视频图像的码流数据，包括：客户端通过当前视角所覆盖的子区域对应的会话接收当前视角所覆盖的子区域图像的码流数据，以得到目标视频图像的码流数据。

在第四方面的某些实现方式中，子区域的区域空间信息为子区域的平面区域空间信息，会话描述信息还包括各个会话各自所传输的子区域图像的码流数据的映射类型信息。

在第四方面的某些实现方式中，子区域的区域空间信息为子区域的球面区域空间信息，会话描述信息还包括各个会话各自所传输的子区域图像的码流数据对应的子区域的形状信息。

在第四方面的某些实现方式中，第一信息携带在客户端向服务器发送的实时传输控制协议RTCP源描述报告中，

在第四方面的某些实现方式中，第一信息属于TLV格式信息。

应理解，上述对第一方面中的各个实现方式中的相应内容的限定和解释同样适用于第四方面中的各个实现方式。

第五方面，提供一种客户端，该客户端包括用于执行上述第一方面或第二方面中任意一种实现方式中的方法的模块。

应理解，客户端是能够为用户呈现视频图像的设备。

第六方面，提供一种服务器，该服务器包括用于执行上述第三方面或第四方面中任意一种实现方式中的方法的模块。

应理解，服务器是能够存储视频图像的设备，服务器可以将视频图像提供给客户端，使得客户端能够将视频图像呈现给用户。

第七方面，提供一种客户端，包括：相互耦合的非易失性存储器和处理器；其中，所述处理器用于调用存储在所述存储器中的程序代码以执行第一方面或第二方面中的任意一种实现方式中的方法的部分或全部步骤。

第八方面，提供一种服务器，包括：相互耦合的非易失性存储器和处理器；其中，所述处理器用于调用存储在所述存储器中的程序代码以执行第三方面或第四方面中的任意一种实现方式中的方法的部分或全部步骤。

第九方面，提供一种计算机可读存储介质，所述计算机可读存储介质存储了程序代码，其中，所述程序代码包括用于执行第一方面、第二方面、第三方面以及第四方面中的任意一种实现方式中的方法的部分或全部步骤的指令。

第十方面，提供一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行第一方面、第二方面、第三方面以及第四方面中的任意一种实现方式中的方法的部分或全部步骤的指令。

附图说明

图1是本申请实施例的传输媒体数据的方法的示意性流程图；

图2是本申请实施例的传输媒体数据的方法的示意性流程图；

图3是本申请实施例的传输媒体数据的方法的示意性流程图；

图4是本申请实施例的传输媒体数据的方法的示意性流程图；

图5是本申请实施例的传输媒体数据的方法的示意性流程图；

图6是本申请实施例的传输媒体数据的方法的示意性流程图；

图7是本申请实施例的传输媒体数据的方法的示意性流程图；

图8是本申请实施例的传输媒体数据的方法的示意性流程图；

图9是本申请实施例的传输媒体数据的方法的示意性流程图；

图10是本申请实施例的客户端的示意性框图；

图11是本申请实施例的服务器的示意性框图；

图12是本申请实施例的传输媒体数据的装置的硬件结构示意图。

具体实施方式

下面将结合附图，对本申请中的技术方案进行描述。

图1是本申请实施例的传输媒体数据的方法的示意性流程图。图1所示的方法可以由客户端执行，客户端可以是位于终端设备上为客户提供视频播放服务的程序，终端设备可以是具有播放全景视频功能的设备，例如，VR设备。

图1所示的方法包括步骤110和步骤120，下面对步骤110和步骤120进行详细的描述。

110、客户端向服务器发送第一信息。

上述第一信息是用于确定当前视角之内的视频内容的信息。该第一信息可以具体用于指示第一目标视频图像的区域的空间信息，所述第一目标视频图像包括当前视角之内的视频图像。

可选地，当前视角可以是指用户利用客户端观看视频时的视角。

客户端通过向服务器发送第一信息来请求获取当前视角之内的视频内容，如果用户的视角发生变化，那么，客户端向服务器再次发送第一信息，以请求获取新的视角之内的视频内容。

120、客户端接收服务器发送的第二目标视频图像对应的视频数据包。

其中，在第二目标视频图像对应的视频数据包中，至少一个视频数据包共携带第二信息，第二信息用于指示第二目标视频图像的区域的空间信息，第二目标视频图像包括第一目标视频图像。

可选地，第二信息包括至少一个第三信息，至少一个视频数据包中每个视频数据包均携带第三信息，至少一个视频数据包共携带至少一个第三信息，至少一个视频数据包中的任一视频数据包携带的第三信息用于指示任一视频数据包对应的视频图像所属的子区域。

本申请中，当服务器获取了表征当前视角内的视频内容的相关信息后，能够将用户所需要的目标视频图像以及目标视频图像的位置相关信息实时发送给客户端，能够减少客户端获取目标视频图像的位置相关信息的时延。

可选地，作为一个实施例，第一目标视频图像为当前视角之内的视频图像，第一信息包括当前视角的空间信息。

当前视角的空间信息还可以称为当前视角的区域空间信息。

当前视角的空间位置信息包括以下几种情况：

(1)当前视角的中心点的球面坐标值。

例如，当前视角的中心点的球面坐标值为(X,Y,Z)，其中，X对应球面坐标的方位角(azimuth)或者偏航角(yaw)，Y对应球面坐标的俯仰角(pitch或者elevation)，Z对应球面坐标的倾斜角(tilt)或者翻滚角(roll)。

(2)当前视角对应的二维视角区域的中心点的二维坐标值。

例如，当前视角对应的二维视角区域的中心点的二维坐标值为(X,Y)，其中，X和Y分别表示二维视角区域的中心点在二维直角坐标系中的横坐标和纵坐标。

(3)当前视角对应的二维视角区域的左上角/右上角/左下角/右下角的二维坐标值。

例如，当前视角对应的二维视角区域的左上角的二维坐标值为(X,Y)，其中，X和Y分别表示二维视角区域的左上角在二维直角坐标系中的横坐标和纵坐标。

可选地，当前视角的空间信息包括当前视角的区域范围信息。

当前视角的区域范围信息包括以下几种情况：

(4)当前视角的方位角范围(偏航角范围)和俯仰角范围。

例如，当前视角的方位角范围(偏航角范围)为110度，俯仰角范围为90度。

(5)当前视角的覆盖范围包括当前视角对应的二维视角区域的宽度和高度。

应理解，用户的视角的覆盖范围也可以是固定的，在这种情况下，客户端只需要向服务器上报一次视角的区域范围信息即可，当用户的视角再发生变化时，用户只需要上报当前视角的位置信息既可以，而不必再重复上报区域范围信息。

可选地，第二目标视频图像的区域的空间信息包括第二目标视频图像所在区域的空间位置信息。

第二目标视频图像所在区域的空间位置信息具体包括以下几种情况：

(6)第二目标视频图像的中心点的球面坐标值。

例如，第二目标视频图像的中心点的球面坐标值为(X,Y,Z)，其中，X对应球面坐标的方位角(azimuth)或者偏航角(yaw)，Y对应球面坐标的俯仰角(pitch或者elevation)，Z对应球面坐标的倾斜角(tilt)或者翻滚角(roll)。

(7)第二目标视频图像对应的二维图像的中心点的二维坐标值。

例如，第二目标视频图像对应的二维图像的中心点的二维坐标值为(X,Y)，其中，X和Y分别表示二维视角区域的中心点在二维直角坐标系中的横坐标和纵坐标。

(8)第二目标视频图像对应的二维图像的左上角/右上角/左下角/右下角的二维坐标值

例如，第二目标视频图像对应的二维图像的左上角的二维坐标值为(X,Y)，其中，X和Y分别表示二维视角区域的左上角在二维直角坐标系中的横坐标和纵坐标。

可选地，第二目标视频图像的空间信息包括第二目标视频图像的区域范围信息。

第二目标视频图像的区域范围信息包括以下具体情况：

(9)第二目标视频图像的覆盖范围包括第二目标视频图像的方位角范围(偏航角范围)和俯仰角范围。

(10)第二目标视频图像的覆盖范围包括第二目标视频图像对应的二维视频图像的宽度和高度。

可选地，作为一个实施例，全景视频图像包括对全景视频图像进行划分得到的至少两个子区域，其中，当前视角覆盖至少一个子区域，第二信息用于指示第二目标视频图像覆盖的子区域，第二目标视频图像覆盖的子区域用于拼接得到第二目标视频图像的区域。

可选地，至少一个视频数据包包括携带视角标识的视频数据包。

可选地，上述第二目标视频图像与第一目标视频图像相同。

可选地，作为一个实施例，第二目标视频图像还包括第一目标视频图像之外的其它视频图像。

可选地，第一目标视频图像还包括全景视频图像。

可选地，作为一个实施例，图1所示的方法还包括：客户端接收服务器发送的描述文件，该描述文件携带第一视角信息或者第二视角信息。

其中，上述第一视角信息用于指示服务器支持的视角的最大区域范围，第二视角信息用于指示初始视角的区域范围。

应理解，初始视角的区域范围信息可以包括初始视角的区域的方位角范围(偏航角范围)和俯仰角范围。始视角的区域范围信息也可以包括初始视角对应的平面区域的宽度和高度。

可选地，作为一个实施例，当描述文件携带第二视角信息时，描述文件还携带第三视角信息，第三视角信息还用于指示初始视角的空间位置。

可选地，第三视角信息为下列信息(11)至(14)中的任意一种：

(11)初始视角对应的球面区域的中心点的球面坐标值；

(12)初始视角对应的球面区域的左上角的球面坐标值；

(13)初始视角对应的平面区域的中心点的平面坐标值；

(14)初始视角对应的平面区域的左上角的平面坐标值。

例如，初始视角对应的球面区域的中心点的球面坐标值为(X,Y,Z)，其中，X对应球面坐标的方位角(azimuth)或者偏航角(yaw)，Y对应球面坐标的俯仰角(pitch或者elevation)，Z对应球面坐标的倾斜角(tilt)或者翻滚角(roll)。

例如，初始视角对应的平面区域的中心点的平面坐标值为(X,Y)，其中，X和Y分别表示初始视角对应的平面区域的中心点在二维直角坐标系中的横坐标和纵坐标。

例如，初始视角对应的平面区域的左上角的平面坐标值为(X,Y)，其中，X和Y分别表示初始视角对应的平面区域的左上角在二维直角坐标系中的横坐标和纵坐标。

可选地，作为一个实施例，图1所示的方法还包括：客户端接收服务器发送的描述文件，全景视频图像包括对全景视频图像进行划分得到的至少两个子区域，该描述文件携带各个子区域的子区域描述信息，各个子区域是全景视频图像的区域的子区域，子区域描述信息包括子区域的空间信息。

可选地，客户端在接收服务器发送的描述文件之前，图1所示的方法还包括：客户端向服务器发送视频描述命令。

可选地，作为一个实施例，子区域描述信息包括各个子区域的平面空间信息，子区域描述信息还包括各个子区域之内的视频图像的映射类型信息，各个子区域的球面空间信息用于根据映射类型信息和各个子区域的平面空间信息确定。

例如，子区域的中心点的二维坐标值为(X,Y)，其中，X和Y分别表示二维视角区域的中心点在二维直角坐标系中的横坐标和纵坐标。

例如，子区域的左上角的二维坐标值为(X,Y)，其中，X和Y分别表示二维视角区域的左上角在二维直角坐标系中的横坐标和纵坐标。

可选地，作为一个实施例，子区域描述信息包括各个子区域的球面空间信息，子区域描述信息还包括各个子区域的形状信息。

可选地，作为一个实施例，子区域的三维空间信息包括子区域图像的映射类型、子区域的形状信息、子区域的角度信息以及子区域的区域范围信息。

可选地，第一信息携带在客户端向服务器发送的实时传输控制协议RTCP源描述报告中，目标视频图像中的视频数据包为流媒体实时传输协议RTP视频数据包。

可选地，第一信息和第二信息为自定义的TLV格式信息。

图2是本申请实施例的传输媒体数据的方法的示意性流程图。与图1类似，图2所示的方法也可以由客户端执行。

应理解，上文中对图1所示的方法中相应内容的限定和解释同样适用于图2所示的方法，为了简洁，下面在介绍图2所示的方法时适当省略重复的描述。

图2所示的方法包括步骤210和步骤230，下面对步骤210至步骤230进行详细的描述。

210、客户端接收服务器发送的描述文件。

其中，该描述文件携带至少两个会话的会话描述信息，至少两个会话为客户端与服务器之间的会话，至少两个会话用于传输各自对应的子区域图像的码流数据，会话描述信息包括通过各个会话各自所传输的子区域图像的码流数据对应的子区域的空间信息，子区域是对全景视频图像的区域进行划分得到的，子区域图像为子区域之内的视频图像；

220、客户端向服务器发送第一信息。

其中，该第一信息用于指示当前视角所覆盖的子区域对应的会话，第一信息根据当前视角和会话描述信息确定。

230、客户端接收服务器发送的目标视频图像的码流数据。

其中，该目标视频图像包括当前视角所属的子区域的图像。

可选地，上述目标视频图像为全景视频图像。

可选地，作为一个实施例，客户端接收服务器发送的目标视频图像的码流数据，包括：客户端通过当前视角所覆盖的子区域对应的会话接收当前视角所覆盖的子区域图像的码流数据，以得到目标视频图像的码流数据。

可选地，作为一个实施例，子区域的区域空间信息为子区域的平面区域空间信息，会话描述信息还包括各个会话各自所传输的子区域图像的码流数据的映射类型信息。

可选地，作为一个实施例，子区域的区域空间信息为子区域的球面区域空间信息，会话描述信息还包括各个会话各自所传输的子区域图像的码流数据对应的子区域的形状信息。

可选地，作为一个实施例，第一信息携带在客户端向服务器发送的实时传输控制协议RTCP源描述报告中，

可选地，作为一个实施例，第一信息属于TLV格式信息。

上面结合图1和2从客户端的角度对本申请实施例的传输媒体数据的方法进行了介绍，下面结合图3和图4从服务器的角度对本申请实施例的传输媒体数据的方法进行介绍，应理解，图3所示的方法与图1所示的方法是对应的，图4所示的方法与图2所示的方法时对应的，为了避免重复，下面对图3和图4所示的方法进行介绍时适当省略重复的描述。

图3是本申请实施例的传输媒体数据的方法的示意性流程图。图3所示的方法可以由服务器执行，图3所示的方法包括步骤310至步骤330，下面对步骤310至步骤330进行描述。

310、服务器接收客户端发送的第一信息。

其中，第一信息用于指示第一目标视频图像的区域的空间位置，第一目标视频图像包括当前视角之内的视频图像。

320、服务器根据第一信息确定第二目标视频图像。

其中，第二目标视频图像包括第一目标视频图像；

330、服务器向客户端发送第二目标视频图像对应的视频数据包。

其中，在第二目标视频图像对应的视频数据包中，至少一个视频数据包共携带第二信息，第二信息用于指示第二目标视频图像的区域的空间信息。

可选地，作为一个实施例，全景视频图像包括对全景视频图像进行划分得到的至少两个子区域，其中，当前视角覆盖至少一个子区域，第一信息用于指示当前视角覆盖的子区域，当前视角覆盖的子区域用于拼接得到第一目标视频图像的区域。

可选地，作为一个实施例，第二信息包括第二目标视频图像的区域的空间信息。

可选地，作为一个实施例，第二信息包括至少一个第三信息，至少一个视频数据包中每个视频数据包均携带第三信息，至少一个视频数据包共携带至少一个第三信息，至少一个视频数据包中的任一视频数据包携带的第三信息用于指示任一视频数据包对应的视频图像所属的子区域。

可选地，作为一个实施例，至少一个视频数据包包括携带视角标识的视频数据包。

可选地，作为一个实施例，上述方法还包括：服务器向客户端发送描述文件，描述文件携带第一视角信息或者第二视角信息，其中，第一视角信息用于指示服务器支持的视角的最大区域范围，第二视角信息用于指示初始视角的区域范围。

可选地，作为一个实施例，在描述文件携带第二视角信息时，描述文件还携带第三视角信息，第三视角信息还用于指示初始视角的空间位置。

可选地，作为一个实施例，上述方法还包括：服务器向客户端发送描述文件，全景视频图像包括对全景视频图像进行划分得到的至少两个子区域，描述文件携带各个子区域的子区域描述信息，子区域描述信息包括子区域的空间信息。

图4是本申请实施例的传输媒体数据的方法的示意性流程图。图4所示的方法可以由服务器执行，图4所示的方法包括步骤410至步骤430，下面对步骤410至步骤430进行描述。

410、服务器向客户端发送描述文件。

其中，描述文件携带至少两个会话的会话描述信息，至少两个会话为客户端与服务器之间的会话，至少两个会话用于传输各自对应的子区域图像的码流数据，会话描述信息包括通过各个会话各自所传输的子区域图像的码流数据对应的子区域的空间信息，子区域是对全景视频图像的区域进行划分得到的，子区域图像为子区域之内的视频图像。

420、服务器接收客户端发送的第一信息。

其中，第一信息用于指示当前视角所覆盖的子区域对应的会话，第一信息根据当前视角和会话描述信息确定。

430、服务器向客户端发送目标视频图像的码流数据。

其中，目标视频图像包括当前视角所覆盖的子区域之内的视频图像。

可选地，作为一个实施例，第一信息属于TLV格式信息。

上文结合图1至图4对本申请实施例的传输媒体数据的方法进行了详细的描述，下面结合具体的实施例对本申请实施例的传输媒体数据的方法进行详细的描述。

实施例一：

实施例一所示的传输媒体数据的方法的具体流程如图5所示，图5所示的方法包括步骤1001至步骤1007，下面对步骤1001至步骤1007进行详细的描述。

1001、服务器发布预设视角位置视频的地址。

具体地，服务器可以从全景视频中选取某个视角位置的视频内容，然后再发布该视频内容的地址；或者，服务器还可以先渲染出某个视角位置的内容，然后再发布该视频内容的地址。

服务器发布的视频内容地址的格式可以为实时流传输协议(real-time streaming protocol，RTSP)协议格式，例如，服务器发布的视频内容的地址可以为：rtsp://server.example.com/video。

1002、客户端向服务器发送视频描述请求命令。

1003、服务器向客户端发送会话描述协议(session description protocol，SDP)信息，描述支持的全景图片中覆盖用户视角的部分区域(field of view，FOV)的区域范围。

具体地，在步骤1002中，客户端可以向步骤1001中的地址发送视频描述请求命令，服务器在接收到客户端的视频描述命令请求之后，向客户端发送视频描述信息，其中包括描述服务器能够支持的FOV的区域范围。

例如，客户端向服务器发送的请求描述命令具体可以如表1所示：

表1

在上述表1中，DESCRIBE字段表示视频描述命令。

服务器在接收到表1所示的视频描述命令之后，对该视频描述命令的应答内容可以是一个SDP描述文件，该SDP描述文件的具体内容可以如表2所示：

表2

表2所示的SDP描述文件中描述了一路视频会话，该视频会话中传输FOV码流的码率为5000kbps，H和V用于描述FOV的范围；其中，H和V可以分别表示VR球面坐标的方位角范围azimuth range、俯仰角范围elevation_range，或者，H和V也可以分别表示二维图像的宽度和高度像素个数值。

上述表2所示的SDP描述文件可以采用RTP协议进行传输。

1004、客户端与服务器之间建立会话；

具体地，客户端与服务器之间建立会话时，客户端可以先向服务器发送会话连接建立命令，接下来，服务器再针对该客户端发送的建立连接命令进行应答，从而建立起客户端和服务器之间的会话；

客户端向服务器发送的会话连接建立命令的内容可以如表3所示：

表3

上述表3中的SETUP字段表示会话连接建立命令。其中，建立会话连接命令中的第一个命令表明客户端要与SDP描述文件中的track1建立连接，其中的Transport字段表明FOV视频内容通过RTP协议以单播方式传输，并且，客户端用于接收数据流的RTP端口号为20000，用于接收控制流的RTCP端口号为20001。

在接收到表3所示的会话连接建立命令之后，服务器对该会话连接建立命令进行应答，应答的内容可以如表4所示。

表4

上述表4所示的应答内容是服务器对客户端第一个建立连接请求的应答，表明接受客户端的连接建立请求，其中的Transport字段表明单播地址为10.70.144.123，客户端的RTP接收端口为20000，RTCP接收端口为20001，服务器端的RTP接收端口为50000，RTCP接收端口为50001.该路连接的会话号为12345678。

1005、客户端向服务器发送RTCP源描述报告，该RTCP源描述报告携带用户当前视角的中心点和/或客户端视角的覆盖范围。

具体地，在步骤1005中，客户端可以根据建立连接命令后服务器应答的RTCP端口信息，通过RTSP会话向服务器发送RTCP源描述报告。

其中，上述RTCP源描述报告中描述客户端视角覆盖范围的具体格式可以如表5所示。

表5

在上述表5中，新增的SDES item类型采用COVERAGE字段来标识(例如，可以用COVERAGE＝9来标识)，表示这个RTCP源描述报告携带的是客户端视角的覆盖范围。其中，H和V共同描述视角的覆盖范围，具体地，H和V可以分别表示VR球面坐标的方位角范围azimuth range、俯仰角范围elevation_range，或者，H和V也可以分别表示二维图像的宽度和高度。

具体地，一个用于描述客户端视角覆盖范围为方位角范围为110度，俯仰角范围为90度的RTCP源描述报告的具体格式如表6所示：

表6

应理解，当客户端的FOV视角覆盖范围动态变化时，客户端需要向服务器发送上述COVERAGE＝9的RTCP源描述报告，请求播放FOV视角范围动态变化的视频内容。

上述RTCP源描述报告中除了描述客户端视角覆盖范围之外，还可以描述用户当前视角中心点。RTCP源描述报告中描述用户视角中心点的具体格式可以如表7所示。

表7

在上述表7中，新增的SDES item类型采用CENTER_FOV字段来标识(这里以CENTER_FOV＝10为例)，表示该RTCP源描述报告携带的是客户端视角的中心点信息。其中，X、Y、Z共同标识视角中心点的信息，X、Y、Z可以分别表示VR球面坐标的azimuth，elevation，tilt值，也可以只保留X和Y来分别表示对应视角区域的中心点的二维坐标值或者视角区域左上角坐标值。

具体地，一个用于描述用户视角中心点位于-45,-45,0的RTCP源描述报告的格式可以如表8所示：

表8

应理解，上述视角覆盖范围和视角中心点信息等视角信息还可以放在同一个SDES item中发送。

另外，在上述RTCP源描述报告中，COVERAGE和CENTER_FOV字段也可以不存在，此时，RTCP源描述报告中只携带视角覆盖范围和视角中心点信息等视角信息。

1006、客户端向服务器发送播放命令。

具体地，在步骤1006中，客户端是向客户端和服务器之间建立的会话发送播放命令，该播放命令的具体格式可以具体如表9所示。

表9

在接收到客户端发送的播放命令之后，客户端会对应答客户端的播放命令，具体应答的内容可以如表11所示。

表10

1007、服务器向客户端发送与用户视角对应的以RTP数据包形式携带的视频数据，以及相应的视频数据。

上述视频数据包可以是第一窗口范围内的视频的数据包，上述视频数据可以包括服务器发送给客户端的视频的中心点坐标和内容覆盖范围；

其中，上述第一窗口内的视频内容包括客户端请求的FOV内容，第一窗口内的视频内容可以与用户请求的FOV内容相同，或者，第一窗口内的视频内容多于用户请求的FOV内容。

也就是说，为了提升用户体验，在实际应用中，可以利用预测信息渲染或者从全景视频中截取一个比客户端请求的FOV视角范围更大的窗口内容。当客户端无法及时取得新FOV内容时，可以从前一个窗口内容中获得新FOV对应内容，因此携带服务器可以发送窗口内容的中心点坐标以及方位角azimuth、俯仰角elevation范围信息，以支持服务器编码传输窗口大小自适应变化的应用场景。

具体地，上述用于携带视频数据的RTP数据包的RTP包头格式可以如表11所示。

表11

RTP数据包中为了携带视频数据，可以对RTP数据包进行扩展，扩展的格式如表12所示。

表12

在表12中，X,Y,Z共同表示服务器向客户端发送视频的中心点位置信息。

其中，X、Y、Z可以分别对应VR球面坐标的azimuth，elevation，tilt值，或者，在表示发送视频的中心点位置时也可以只保留两项(X和Y)来分别表示对应视角区域的中心点二维坐标值或视角区域左上角坐标值。

另外，在表12中，H和V可以共同表征发送的视频内容的范围，其中，H和V可以分别表示VR球面坐标的方位角范围azimuth range、俯仰角范围elevation_range，或者，H和V也可以分别表示二维图像的宽度和高度像素个数值。

具体地，以一个中心点位于(-45,-45,0)，方位角范围为110度，俯仰角范围为90度的窗口视频数据为例，其对应的RTP包头的具体表示形式如表13所示。

表13

当用户的视角发生变化时，为了准确地呈现出用户视角范围内的视频，客户端可以再次向服务器发送RTCP源描述报告(重新执行步骤1005)，以更新用户视角中心点信息或用户视角区域范围信息。服务器则根据最新的用户视角信息从全景视频中提取FOV区域内容或者实时渲染FOV内容，然后编码并发送FOV视频数据。

上面结合实施例一对本申请实施例的传输媒体数据的方法进行了详细的介绍，应理解，在实施例一中并没有对全景视频空间区域进行子区域划分，服务器在接收到播放命令之后只需要将与用户视角对应的视频数据包发送给客户端就可以了。

在传输媒体数据的过程中，为了更好地传输不同区域的视频，可以将全景视频空间区域划分成多个子区域，下面结合实施例二至实施例四对存在多个子区域的情况下，如何进行媒体数据的传输进行详细的介绍。

实施例二

应理解，在客户端可以仅展现FOV区域的视频内容，或者，在客户端除了展现FOV区域的视频内容之外，还可以在客户端展示与FOV区域相邻的其它区域的视频内容。当需要同时传输FOV区域的视频内容和其它区域的视频内容时，为了保证保障FOV区域观看质量同时减少网络传输数据量，通常采用传输高质量的FOV区域和低质量的其它区域的方式来传输视频数据。

例如，一个全景视频内容被划分为8个子区域，覆盖用户视角FOV的是子区域2,3,6,7。对于子区域2,3,6,7可以采用高质量编码方式进行编码，得到高质量的视频数据，并且对于全部的子区域采用低质量的编码，得到低质量的全景视频，并将高质量的视频数据以及低质量的全景视频一起传输到客户端，由客户端进行解码渲染，并由客户端根据用户的视角呈现部分区域给用户。

实施例二所示的传输媒体数据的方法的具体流程如图6所示，图6所示的方法包括步骤2001至步骤2008，下面对步骤2001至步骤2008进行详细的描述。

2001、服务器将全景空间区域划分成多个子区域，并确定预设FOV以及预设FOV对应的子区域。

上述预设FOV对应的子区域可以从全景视频中获取或者通过渲染(可以根据请求的视角涉及的子区域，对相应约定的子区域范围进行渲染生成)得到。

2002、发布预设FOV中的视频的地址。

服务器发布的视频内容地址可以时RTSP协议格式的地址，例如，服务器发布的视频内容的地址可以为：rtsp://server.example.com/video。

2003、客户端向服务器发送视频描述命令。

2004、服务器描述每个子区域对应的全景视频的空间映射类型、子区域中心坐标、子区域范围信息。

具体地，在步骤2002中，客户端可以向步骤2001中的地址发送视频描述命令，服务器在接收到客户端的视频描述命令之后，应答该视频描述命令，并描述服务器能够支持的FOV的区域范围。

例如，客户端向服务器发送的描述命令具体可以如表格14所示：

表14

在上述表14中，DESCRIBE字段表示视频描述命令。

服务器在接收到表14所示的视频描述命令之后，向客户端发送会话描述文件SDP，该SDP描述文件的具体格式如表15所示：

表15

表15所示的SDP描述文件中总共描述了九路视频会话。其中八路视频会话对应的子区域(tiles)码流为track1～track8，每个子区域的码流的码率为5000kbps。另一路视频回话对应的是全景(panoramic)码流(track9)，码率为1000kbps。可选地，上述表15中所示的SDP描述文件中可以只包括子区域描述信息，而不包括全景码流描述信息。

上述子区域描述信息和全景码流描述信息均可以采用RTP协议进行传输。

d＝<projection_type><shape_type>:<azimuth><elevation><tilt><azimuth_range><elevation_range>，d中的各个语句的语义如下：

projection_type:全景视频二维空间范围表达类型，具体可以是经纬图、六面体或者八面体等。

shape_type:区域形状标识，标识围成区域的形状类型，可以是由四个大圆围成，也可以是两个大圆和一个小圆围成等；

azimuth：子区域的中心点方位角；

elevation：子区域的中心点俯仰角；

tilt：子区域的中心点倾斜角；

azimuth_range：子区域的方位角范围；

elevation_range：子区域的俯仰角范围。

上述SDP描述文件可以携带描述区域内容中心点和范围的二维坐标信息，具体形式可以有多种，其中一种可能的形式如表16所示。

表16

其中，d＝<projection_type>:<h_center><v_center><h><v>，d中的各个语句的语义如下：

projection_type:全景视频二维空间范围表达类型，例如，可以是经纬图、六面体或者八面体等；

h_center：区域的水平方向中心点坐标值；

v_center：区域的垂直方向中心点坐标值；

h：区域的水平宽度；

v：区域的垂直高度；

在描述区域内容的位置时，除了采用区域中心点的坐标值来表示之外，还可以采用区域内容的左上角的二维坐标和大小范围来表示。

可选地，上述SDP描述文件可以携带描述区域内容左上角二维坐标和大小范围的二维坐标信息，一种可选的形式如表17所示。

表17

其中，d＝<projection_type>:<h_left_top><v_left_top><h><v>，d中的各个语法的语义如下：

projection_type:全景视频二维空间范围表达类型，可以是经纬图、六面体或者八面体等。

h_left_top：区域的左上角中心点坐标值；

v_left_top：区域的左上角中心点坐标值；

h：区域的水平宽度；

v：区域的垂直高度；

可选地，上述SDP描述文件携带区域内容左上角二维坐标和大小范围的二维坐标信息的另一种方式如表18所示。

表18

h_left_top：区域的左上角中心点坐标值；

v_left_top：区域的左上角中心点坐标值；

h：区域的水平宽度；

v：区域的垂直高度。

2005、在客户端与服务器之间建立多路会话。

例如，当SDP描述文件中描述了九个子区域的视频内容时，可以在客户端与服务器之间建立九路会话。

在建立这九路会话中的每一路会话时，客户端可以向服务器发送会话连接建立命令，该会话连接建立命令如上述表3所示，服务器在接收到该会话连接建立命令之后，对该会话连接建立命令进行应答，应答的具体的内容可以如上述表4所示。通过上述过程逐渐建立起每个子区域对应的会话，直到在客户端和服务器之间建立起九路会话。

2006、客户端向服务器发送RTCP源描述报告，该RTCP源描述报告携带用户的视角需要的子区域会话标号。

具体地，客户端可以通过一路会话向服务器传输RTCP源描述报告，发送的RTCP源描述报告的具体格式可以如表19所示。

表19

在上述表19中，新增的SDES item类型采用SESSION_FOV字段来标识(这里以SESSION_FOV＝11为例)，表19所示的RTCP源描述报告携带的是客户端视角所需要的子区域(可选地，包括全景视频)对应的会话标号信息。可选地，在表19中，SESSION_FOV字段也可以不存在。

另外，在表19中，SESSION_NUM表示所需要的会话个数，sessionID1标识需要的是第一个会话连接标识，sessionID2标识需要的是第二个会话连接标识，依次类推。会话连接标识可以是任意数字或字符，能唯一地区分客户端和服务器之间的多路会话。

2007、客户端向服务器发送播放命令。

应理解，上述客户端向服务器发送的播放命令对上述各个会话都有效。

2008、服务器向客户端发送RTP视频数据包。

具体地，服务器可以通过SDES信息给出的多路会话连接向客户端发送子区域视频数据。

可选地，当用户视角发生变化时，客户端向服务器发送RTCP源描述报告，以更新服务器需要向客户端采用哪些会话连接发送对应的视频内容。

当接收到客户端重新发送的RTCP源描述报告时，服务器根据最新的用户视角信息从全景视频中提取FOV区域内容或者实时渲染FOV内容，然后编码并发送FOV视频数据。

在上述实施例二中，是在客户端和服务器之间建立多路会话，每路会话对应一个子区域，并且客户端在上报RTCP描述报告时是通过携带用户视角所需要的子区域对应的会话标号来描述，实际上也可以在客户端与服务器之间建立一路会话，通过该会话向服务器发送RTCP源描述报告，该RTCP描述报告携带客户端用户的视角需要的子区域的标号。

实施例三：

实施例三所示的传输媒体数据的方法的具体流程如图7所示，图7所示的方法包括步骤3001至步骤3008，下面对步骤3001至步骤3008进行详细的描述。

3001、服务器将全景空间区域划分成多个子区域，并确定预设FOV以及预设FOV对应的子区域。

上述预设FOV对应的子区域可以从全景视频中获取或者通过渲染得到。

3002、发布预设FOV中的视频的地址。

3003、客户端向服务器发送视频描述命令。

3004、服务器描述全景视频空间映射格式类型、每个子区域的ID标识号、每个子区域ID对应的子区域中心坐标和子区域范围信息。

在上述步骤3003中，客户端可以向步骤3003中的地址发送视频描述命令，服务器在接收到客户端的视频描述命令之后，应答该视频描述命令，并描述服务器能够支持的FOV的区域范围。

例如，客户端向服务器发送的描述命令具体可以如下面的表格20所示：

表20

在上述表20中，DESCRIBE字段表示视频描述命令。

服务器在接收到表20所示的视频描述命令之后，向客户端发送会话描述文件SDP，该SDP描述文件的具体格式如表21所示：

表21

表21所示的SDP描述文件中总共描述了两路视频会话。其中，一路是子区域(tiles)码流，每个码率为5000kbps。一路是全景(panoramic)码流，码率为1000kbps。两路会话均可以采用RTP协议进行传输。

d＝<projection_type>:<subPic_Num><subPicID><azimuth><elevation><tilt>

<azimuth_range><elevation_range>…<subPicID><azimuth><elevation><tilt><azimuth_r ange><elevation_range>。

d中的各个语句的语义如下：

subPic_Num：划分的区域数目，便于解析共有多少组区域参数

subPicID：每个区域的标号

azimuth：区域的中心点方位角；

elevation：区域的中心点俯仰角；

tilt：区域的中心点倾斜角；

azimuth_range：区域的方位角范围；

elevation_range：区域的俯仰角范围。

可选地，也可以采用表21所示的形式只描述一路视频会话，只描述子区域码流。

或者，还可以将全景码流和子区域码流放在同一个描述字段中，一种可能的形式如表22所示：

表22

在表21中，d＝<projection_type>:<subPic_Num><subPicID><x><y><h>

<v>…<subPicID><x><y><h><v>。

d中的各个语句的语义如下：

subPic_Num:区域数目，便于解析共有多少组区域参数

subPicID：每个区域的标号

x：区域的中心水平方向坐标值；可选地，可以是区域左上角水平方向坐标值；

y：区域的中心垂直方向坐标值；可选地，可以是区域左上角垂直方向坐标值；

h：区域的水平宽度；

v：区域的垂直高度。

3005、客户端与服务器之间建立会话。

具体地，步骤3005在客户端和服务器之间建立会话的过程如上述步骤1004所示。

3006、客户端向服务器发送RTCP源描述报告，该RTCP源描述报告携带用户的视角需要的子区域标号。

具体地，客户端可以通过客户端与服务器之间建立的会话向服务器发送RTCP源描述报告。

在步骤3006中发送的RTCP源描述报告的一种可能的形式如表23所示。

表23

在上述表22中，新增的SDES item类型采用SUBPIC_FOV字段来标识(以SUBPIC_FOV＝12为例)，客户端视角需要哪些子区域(可选地，可以包括全景视频)。可选地，SUBPIC_FOV字段可以不存在。subPicNum表示需要多少个子区域内容，subPicID1表示需要的第一个子区域标号，subPicID2表示需要的第二个子区域标号，以此类推。

3007、客户端向服务器发送播放命令。

具体地，在步骤3007中客户端向服务器之间发送播放命令的具体内容与上述步骤1006相同，这里不再详细描述。

3008、服务器向客户端发送与用户视角对应的RTP视频数据包，每个RTP报文包头中包括当前携带的视频内容的区域的ID标识号，可选地包括当前区域所属的FOV帧号或其它标识不同区域内容属于同一FOV的信息。

具体地，在步骤3008中，发送的RTP视频数据包的一种可选的格式如表24所示。

表24

RTP数据包中为了携带视频数据，可以对RTP数据包进行扩展，扩展的格式如表25所示。

表25

其中，表24中的subPicID标识当前携带的视频内容所属的区域ID编号，FOV_SN标识该内容所属的视角标号，便于客户端将具有相同FOV_SN的不同subPicID视频组合成FOV内容送显。

在实施例三中，当用户的视角发生变化时，为了准确地呈现出用户视角范围内的视频，客户端可以再次向服务器发送RTCP源描述报告(重新执行步骤3006)，以更新用户视角中心点信息或用户视角区域范围信息。服务器则根据最新的用户视角信息从全景视频中提取FOV区域内容或者实时渲染FOV内容，然后编码并发送FOV视频数据。

在上述实施例三中，是由客户端确定用户视角对应的子区域，并将用户的视角需要的子区域标号携带在向服务器发送的RTCP描述报告中。事实上，当全景视频空间区域被划分成多个子区域时，客户端也可以只在RTCP源描述报告中携带用户的视角信息，由服务器确定用户视角对应的子区域，并将用户对应的子区域的视频数据包发送给客户端。

实施例四

实施例四所示的传输媒体数据的方法的具体流程如图8所示，图8所示的方法包括步骤4001至步骤4008，下面对步骤4001至步骤4008进行详细的描述。

4001、服务器将全景空间区域划分成多个子区域，并确定预设FOV以及预设FOV对应的子区域。

4002、发布预设FOV中的视频的地址。

4003、客户端向服务器发送视频描述命令。

4004、服务器描述全景视频空间映射格式类型、每个子区域的ID标识号、每个子区域ID对应的子区域中心坐标和子区域范围信息。

4005、客户端与服务器之间建立会话。

实施例四中的步骤4001至步骤4005与实施例三中的步骤3001至步骤3005的具体内容相同，这里不再详细描述。

4006、客户端向服务器发送RTCP源描述报告，该RTCP源描述报告携带用户的视角信息，视角信息包括用户当前视角的中心点和客户端视角的覆盖范围。

具体地，步骤4006中，客户端可以根据连接命令后服务器应答的RTCP端口信息，通过FOV视频码流传输会话向服务器发送RTCP源描述报告，该RTCP源描述报告的具体格式可以如表26所示。

表26

在上述表26中，新增的SDES item类型采用COVERAGE字段来标识(以COVERAGE＝9为例)，表示这个RTCP源描述报告携带的是客户端视角的覆盖范围。其中，H和V共同描述视角的覆盖范围，可选地，H和V可以分别是VR球面坐标的方位角范围(azimuth range)、俯仰角范围(elevation_range)，也可以是二维图像的宽度和高度。

以表26中的RTCP描述报告为例，描述用户视角中心点位于-45,-45,0的RTCP源描述报告实例如表7所示。

可选地，视角覆盖范围和视角中心点信息等视角信息可以放在同一个SDES item中发送。

可选地，COVERAGE和CENTER_FOV字段也可以不存在，RTCP中只携带视角覆盖范围和视角中心点信息等视角信息。

4007、客户端向服务器发送播放命令。

4008、服务器向客户端发送与用户视角对应的RTP视频数据包，每个RTP报文包头中包括当前携带的视频内容的区域的ID标识号，可选地包括当前区域所属的FOV帧号或其它标识不同区域内容属于同一FOV的信息。

上述步骤4007和步骤4008与实施例三中的步骤3007和步骤3008的具体过程相同，这里不再详细描述。

在上述实施例四中，客户端向服务器发送的RTCP源描述报告中携带的用户的视角信息中不仅包括了当前视角的中心点，还携带了客户端视角的覆盖范围。

可选地，上述RTCP源描述报告中携带的用户的视角信息还可以只携带当前视角的中心点，这时客户端的视角的覆盖范围可以是预设的。

在上述实施例一至实施例四中，服务器在应答客户端并描述视频内容时，除了可以描述其支持的FOV区域范围的视频内容之外时，还可以直接描述几个初始FOV信息，供客户端选择。

实施例五

正在实施例五中，SDP描述文件中携带服务器发送的初始FOV信息。具体地，服务器向客户端发送的SDP描述文件中可以携带服务器发送的初始FOV信息，具体地，初始FOV信息的格式如表27所示。

表27

表27所示的SDP描述文件中H和V共同描述FOV的范围，H和V可以分别是VR球面坐标的方位角范围(azimuth range)、俯仰角范围(elevation_range)，也可以是二维图像的宽度和高度。X、Y、Z一起标识初始的视角中心点的信息，可选地，X、Y、Z可以分别对应VR球面坐标的(azimuth，elevation，tilt)值，也可以只保留两项(X和Y)分别对应视角区域的中心点二维坐标值或视角区域左上角坐标值。

应理解，在实施例六中服务器除了发送SDP描述文件与上述实施例一至实施例五不同之外，其他步骤可以与上述实施例一至实施例五相同。

应理解，上述实施例一至实施例六都是基于流媒体传输技术来实现FOV信息的信息的实时传输，具体实现方式是将用户的视角信息以及相应的FOV信息携带在原有的数据中。事实上，为了实现FOV信息的实时传输，还可以自定义一些传输协议来实现FOV信息的实时传输。

例如，客户端反馈的视角信息可以采用自定义的TLV消息模式下定义的消息来发送，一种可选的TLV格式如表28所示。

表28

其中，不同的类型(type)具有不同的payload，一种可能的形式如表29所示。

表29

Type	语义	Payload
0x00	FOV范围信息	H，V
0x01	FOV位置信息	X，Y，Z
0x02	FOV范围和位置信息	V，H，X，Y，Z
其它	保留

在表28中，H和V共同描述FOV的范围，H和V可以分别是VR球面坐标的方位角范围(azimuth range)、俯仰角范围(elevation_range)，也可以是二维图像的宽度和高度。X、Y、Z一起标识视角中心点的信息，可选地，X、Y、Z可以分别对应VR球面坐标的(azimuth，elevation，tilt)值，也可以只保留两项(X和Y)分别对应视角区域的中心点二维坐标值或视角区域左上角坐标值。

应理解，服务器发送的数据是也用TLV方式发送，一种可选的TLV格式如表29所示。

其中，不同的类型(type)具有不同的payload，一种可能的形式如表30所示。

表30

在表30中，H和V共同描述服务器向客户端发送的窗口视频范围，H和V可以分别是VR球面坐标的方位角范围azimuth range、俯仰角范围elevation_range，也可以是二维图像的宽度和高度。X、Y、Z一起标识窗口中心点的信息，可选地，X、Y、Z可以分别对应VR球面坐标的azimuth，elevation，tilt值，也可以只保留两项(X和Y)分别对应视角区域的中心点二维坐标值或视角区域左上角坐标值。video content表示视频内容，是压缩后的视频数据。

进一步地，当服务器发送的数据是也用TLV方式发送时，为了保证FOV由相同时刻的正确子区域内容拼接而成，服务器向客户端发送的TLV数据中需要包括FOV的标号。一种可选的TLV格式如表31所示：

表31

在表31中，H和V共同描述服务器向客户端发送的窗口视频范围，H和V可以分别是VR球面坐标的方位角范围azimuth range、俯仰角范围elevation_range，也可以是二维图像的宽度和高度。X、Y、Z一起标识窗口中心点的信息，可选地，X、Y、Z可以分别对应VR球面坐标的azimuth，elevation，tilt值，也可以只保留两项(X和Y)分别对应视角区域的中心点二维坐标值或视角区域左上角坐标值。video content是压缩后的视频数据。FOV_SN标识当前的区域视频所属的FOV编号。

上文结合实施例一至实施例六对本申请实施例的传输媒体数据的方法进行了详细的介绍。事实上，客户端向服务器上报当前视角的空间信息时，还可以向服务器上报当前视角所在的视点信息，使得服务器能够结合当前视角的空间信息以及当前视角所在的视点信息来综合确定第二目标视频图像。另外，客户端还可以通过向服务器发送指示信息来指示当前视角的空间信息的具体组成。下面结合实施例七和实施例八对这两种情况进行详细的描述。

实施例七

图9示出了实施例七所示的传输媒体数据的方法的具体过程，图9所示的具体过程包括步骤5001至步骤5007，下面对步骤5001至步骤5007进行详细的描述。

5001、服务器发布预设视角位置视频的地址。

步骤5001的具体过程同实施例一中的步骤1001相同，这里不再详细描述。

5002、客户端向步骤5001中的地址发送描述命令。

其中，步骤5002中的发送描述命令的具体过程与步骤1002相同，步骤1002的相关解释、限定和举例同样适用于步骤5002，这里不再详细描述。

5003、服务器向客户端发送SDP信息。

其中，SDP信息包含预设的视点位置信息，预设的FOV方向信息和预设的FOV范围信息。

上述SDP信息具体可以是一个SDP描述文件，该SDP描述文件的具体内容可以如表32所示。

表32

表32中的SDP描述文件中描述了一路视频会话。与实施例一中的表2相比，表32中的SDP描述文件包含的信息增加了预设视点的空间位置信息和预设的FOV方向信息。其中，(location_x、location_y、location_z)为预设视点的空间位置信息，(X、Y、Z)为预设的FOV方向信息。假设预设视点为视点A，那么，(location_x、location_y、location_z)可以共同描述视点A空间坐标位置，(X、Y、Z)可以标识FOV中心在视点A为球心的单位球上的方向信息。

可选地，上述(X、Y、Z)中，X可以对应三维坐标系(例如，三维直角坐标系)中的方位角(azimuth)或者偏航角(yaw),Y可以对应三维坐标系中的俯仰角(pitch或者elevation)，Z可以对应三维坐标系中的倾斜角(tilt)或者翻滚角(roll)。

其中，上述三维坐标系可以是以视点A的位置为原点的三维坐标系。

可选地，也可以只采用(X、Y)来标识FOV中心点在视点A为球心的单位球上的方向信息。例如，(X、Y)可以分别对应视角区域的中心点二维坐标值，(X、Y)还可以分别对应视角区域左上角坐标值。

表32所示的SDP描述文件可以基于RTP协议进行传输。

5004、客户端与服务器之间建立会话。

步骤5004的具体过程与步骤1004的具体过程相同，这里不再详细描述。

5005、客户端向服务器发送RTCP源描述报告，该RTCP源描述报告携带当前视角的视点位置信息、当前视角的视角方向信息以及当前视角的视角覆盖范围信息中的至少一种信息。

上述RTCP源描述报告中携带的当前视角的视点位置信息、当前视角的视角方向信息以及当前视角的视角覆盖范围信息等信息可以称为当前视角的视角信息，当前视角的视角信息包括当前视角的视点位置信息、当前视角的视角方向信息以及当前视角的视角覆盖范围信息中的至少一种。

进一步地，上述RTCP源描述报告中可以携带用户当前视角的视角信息，该视角信息可以包括当前视角的视点位置信息、视点位移速度信息、视点位移速度的加速度信息、视角方向信息、视角方向变化速度信息以及视角的覆盖范围信息中的一种或多种组合。

应理解，上述当前视角的视角信息还可以划分成当前视角的空间信息和当前视角的视点信息(相当于上文中的第一视点信息)。其中，当前视角的视点信息包括当前视角的视点位置信息、当前视角的视点位移速度信息和当前视角的视点位移速度的加速度信息；当前视角的空间信息包括当前视角的视角方向信息、当前视角的视角方向变化速度信息以及当前视角的视角覆盖范围信息。

可选地，客户端还可以向服务器发送第一指示信息，该第一指示信息包含第一标识位，该第一标识位的取值用于指示当前视点的空间位置信息为相对空间位置信息或者绝对空间位置信息；其中，当第一标识位(的取值)为第一取值时，当前视点的空间位置信为相对空间位置信息；当第一标识位为第二取值时，当前视点的空间位置信息为绝对空间位置信息。

上述第一指示信息可以携带在客户端向服务器发送的RTCP源描述报告中。

上述第一标识位可以对应于至少一个比特，通过该至少一个比特的不同取值，可以用于分别指示当前视点的空间位置信息为相对空间位置信息或者绝对空间位置信息。本申请中对第一标识位为何种取值时指示当前视点的空间位置信息为相对空间位置信息或者绝对空间位置信息不做限定，只要通过第一标识位的不同取值能够指示当前视点的空间位置信息为相对空间位置信息或者绝对空间位置信息的方式都在本申请的保护范围内。

应理解，在当前视点的空间位置信息为相对空间位置信息的情况下，当前视点的空间位置信息可以是当前视点相对于起始视点或者某一指定视点或者上一视点的相对位置信息。在当前视点的空间位置信息为绝对位置信息的情况下，当前视点的空间位置信息可以是当前视点相对于某个固定坐标系(该固定坐标系可以是预先设置好的一个固定坐标系) 的相对位置信息。

由于RCTP源描述报告中携带当前视角的视角信息具体可以包含不同种类的信息，因此，客户端还可以向服务器发送一个第二指示信息，通过该第二指示信息来指示RTCP源描述报告中携带的信息。

可选地，客户端还可以向服务器发送第二指示信息，该第二指示信息包括第二标识位，该第二标识位的取值用于指示当前视角的空间信息的组成信息。

其中，第二标识位的取值用于指示下列情况中的至少一种：

当第二标识位为第三取值时，当前视角的空间信息由当前视角的视角方向信息组成；

当第二标识位为第四取值时，当前视角的空间信息由当前视角的视角方向信息和当前视角所在的视点的位置信息组成；

当第二标识位为第五取值时，当前视角的空间信息由当前视角的视角方向信息、当前视角所在视点的位置信息以及当前视角的视角大小信息组成。

上述第二指示信息可以携带在客户端向服务器发送的RTCP源描述报告中。

可选地，当前视角的视角方向信息可以是绝对视角方向信息，也可以是相对视角方向信息。

可选地，客户端还可以向服务器发送第三指示信息，该第三指示信息包含第三标识位，该第三标识位的取值用于指示当前视角的视角方向信息为相对绝对视角方向信息或者相对方向信息；其中，当第三标识位(的取值)为第六取值时，当前视角的视角方向信息为绝对视角方向信息；当第三标识位(的取值)为第七取值时，当前视角的视角方向信息为相对视角方向信息。

上述第三指示信息可以携带在客户端向服务器发送的RTCP源描述报告中。

应理解，步骤5005中的RTCP源描述报告可以只包含上述视点信息中可以只包含的所有信息中一些主要信息，例如，RTCP源描述报告中一种可能的具体格式如表33所示。

表33

在表33中，新增的SDES item类型采用FOV_POS_MESSAGE字段来标识(以FOV_POS_MESSAGE＝11为例)，表示这个RTCP源描述报告携带的是客户端反馈的视角信息。

其中，H和V共同描述FOV的范围，具体地，H和V可以分别表示VR球面坐标的水平方向覆盖角度和垂直方向覆盖角度，也可以是二维图像的宽度和高度。

FOV_X、FOV_Y、FOV_Z共同标识FOV的旋转信息。

可选地，FOV_X对应三维坐标系的方位角(azimuth)或者偏航角(yaw)，FOV_Y对应三维坐标系的方位角(azimuth)或者偏航角(yaw)，FOV_Z对应三维坐标系的倾斜角(tilt)或者翻滚角(roll)值。

其中，上述三维坐标系可以是以当前视点的位置为原点的三维坐标系。

应理解，也可以只保留两项(FOV_X和FOV_Y)来标识在当前视点的全景二维视频图像中对应FOV区域的中心点二维坐标值或FOV区域左上角坐标值。

另外，在上述RTCP源描述报告中，position_x，position_y，position_z是视点空间位置信息坐标值。

应理解，当视角方向未变，而用户只移动视点位置的情况下，客户端可以只向服务器反馈视点信息。客户端只向服务器反馈视点信息，能够减少信令开销。

当客户端只向服务器反馈视点信息时，客户端向服务器上报的RTCP源描述报告的具体格式可以如表34所示。

表34

在表34中，新增的SDES item类型采用VP_POS_MESSAGE字段来标识(以VP_POS_MESSAGE＝12为例)，position_x，position_y，position_z是三维笛卡尔坐标系下的视点空间位置坐标值或相对于前一个视点位置的变化值。

在某些情况下，视点并不是固定不变的，而是一直移动的，在这种情况下，在这种情况下，还可以将表示视点移动快慢的信息上报给服务器，使得服务器能够进行预测渲染和预取下发，能够降低视频图像传输到客户端的时延，进而提升用户体验。

在这种情况下，客户端向服务器上报的RTCP源描述报告的一种可能的实现形式如表35所示。

表35

在表35中，新增的SDES item类型采用FOV_MESSAGE字段(以FOV_MESSAGE＝13为例，FOV_MESSAGE也可以是其它的数值，这里不做限制)来表示该RTCP源描述报告携带的是客户端的视角信息。

FOV_X、FOV_Y、FOV_Z共同标识FOV的旋转信息。

另外，在上述RTCP源描述报告中，position_x，position_y，position_z是视点空间位置信息坐标值，speed_pos_x，speed_pos_y，speed_pos_z是视点位置变化速度值。

进一步的，RTCP源描述报告中还携带speed_fov_x，speed_fov_y，speed_fov_z。

其中，speed_fov_x是FOV在三维坐标系中的方位角(azimuth)或者偏航角(yaw)的变化速度值，speed_fov_y是FOV在三维坐标系中的俯仰角(pitch或者elevation)的变化速度值，speed_fov_z是FOV在三维坐标系中的倾斜角(tilt)或者翻滚角(roll)的变化速度值。

在上述RTCP源描述报告中，message_type标识携带的视角信息类型，表征当前SDES中是否含有其中一种类型或多种类型信息的组合。message_type的具体内容如表36所示。

表36

应理解，上述表36中只是列出了视角信息的部分可能的组合情况，事实上，任何可能的组合情况都在本申请的保护范围内，为了简洁，这里不再一一列举。

可选地，可以利用掩码的形式表征当前SDES中是否含有其中一种类型或多种类型信息的组合。即message_type的每个比特为1时，标识携带有当前比特标识对应的信息类型(可以是一个对应一种类型的信息或者多种类型信息的组合)，否则未携带。

应理解，当前视角的视角信息中的不同类型的信息可以分别放在不同的SDES item中发送。

具体地，当前视角的视点位置信息、视点位移速度信息、视点位移速度的加速度信息、视角方向信息、视角方向变化速度信息以及视角的覆盖范围信息可以分别放在不同的SDES item中发送(可以是每种信息对应一个SDES item，或者是多种信息的组合对应一个SDES item)。

可选地，上述视点空间位置信息可以是视点相对于起始视点或者某一指定视点或者上一视点的相对位置信息。

上述视角方向信息可以是视角方向相对于起始视点方向或者某一指定视角方向或者上一视角方向的相对变化量信息。

5006、客户端向服务器发送播放命令。

步骤5006与上文中的步骤1006的具体过程相同，这里不再重复描述。

5007、服务器向客户端发送RTP视频数据包。

具体地，在步骤5007中，服务器以RTP数据包形式向客户端发送与用户视角对应的视频数据。

其中，上述RTP数据包可以携带当前窗口所在视点的空间位置信息、窗口中心点方向信息和窗口覆盖范围信息。

具体地，服务器可以通过会话向客户端发送渲染或者从全景视频中划分的窗口视频内容(该内容包含客户端请求的FOV内容)，编码后的数据可以通过RTP数据包携带，该RTP数据包需携带该窗口区域所在视点的空间位置信息、窗口的中心点方向坐标以及水平和垂直方向覆盖范围。

上述RTP数据包的RTP包头格式如表37所示。

表37

为了携带更多的信息，可以对RTP数据包进行扩展，扩展的RTP数据包的包头格式如表38所示。

表38

在表36中，position_x，position_y，position_z共同标识当前窗口所在视点的位置坐标；X,Y,Z共同表示服务器向客户端发送视频的中心点位置。

可选地，上述(X、Y、Z)中，X可以对应三维坐标系的方位角(azimuth)或者偏航角(yaw),Y可以对应三维坐标系中的俯仰角(pitch或者elevation)，Z可以对应三维坐标系中的倾斜角(tilt)或者翻滚角(roll)。

另外，H和V共同表征发送的视频内容的范围。具体地，H和V可以分别表示VR球面坐标的水平方向覆盖角度和垂直方向覆盖角度；或者，H和V也可以分别表示采用二维图像的宽度和高度像素个数值。

在实施例七中，为了提升用户体验，在实际应用中，可以利用预测信息渲染或者从全景视频中截取一个比客户端请求的FOV视角范围更大的窗口内容。当客户端无法及时取得新FOV内容时，可以从前一个窗口内容中获得新FOV对应内容，因此携带服务器可以发送窗口内容的中心点坐标以及方位角azimuth、俯仰角elevation范围信息，以支持服务器编码传输窗口大小自适应变化的应用场景。

当用户的视角发生变化时，为了准确地呈现出用户视角范围内的视频，客户端可以再次向服务器发送RTCP源描述报告(重新执行步骤5005)，以更新用户视角中心点信息或用户视角区域范围信息。服务器则根据最新的用户视角信息从全景视频中提取FOV区域内容或者实时渲染FOV内容，然后编码并发送FOV视频数据。

在本申请实施例中，为了尽可能地降低时延，可以利用已有的TCP或UDP通信协议传输视角信息。具体地，客户端向服务器反馈当前视点位置或视角信息，服务器根据客户端请求的视点位置和视角信息，将对应视点位置的一定窗口内容发送至客户端，发送的内容需要携带窗口位置和大小信息。

在客户端向服务器反馈视角信息时采用自定义的TLV(type，length，value)消息模式发送。

可选地，客户端上报信息时采用一种可能的TLV格式如表39所示。

表39

在表37中，H和V共同描述FOV的范围，其中，H和V可以分别表示VR球面坐标的水平方向覆盖角度和垂直方向覆盖角度，也可以是二维图像的宽度和高度。

X、Y、Z可以共同标识视角中心点的信息。

speed_fov_x是FOV在三维坐标系中的方位角(azimuth)或者偏航角(yaw)的变化速度值，speed_fov_y是FOV在三维坐标系中的俯仰角(pitch或者elevation)的变化速度值，speed_fov_z是FOV在三维坐标系中的倾斜角(tilt)或者翻滚角(roll)的变化速度值。

除了客户端向服务器上报信息时采用TLV格式的信息，服务器向客户端发送数据时也可以采用TLV格式的信息。

可选地，服务器采用的一种可能的TLV格式如表40所示。

表40

在表40中，H和V共同描述服务器向客户端发送的窗口视频范围，H和V可以分别是VR球面坐标的水平方向覆盖角度和垂直方向覆盖角度，也可以是二维图像的宽度和高度。

X、Y、Z一起标识窗口中心点的信息。

另外，video content是压缩后的视频数据。position_x,position_y,position_z表示当前发送的窗口所在的视点位置信息。

本申请中，通过采用自定义TLV格式信息能够支持客户端和服务器实时交互反馈的视点位置信息、视点移动速度信息、视角方向信息、视角方向变化速度信息和区域大小信息，能够尽可能的降低传输时延，适合于实时要求较高应用场景。

可选地，客户端在向服务器反馈信息时，还可以采用MMT定义的针对多媒体传输应用的信号格式来反馈信息。

在本申请中，客户端在向服务器上报视角信息以及服务器向客户端发送的视频数据包中携带的图像的相关信息除了可以通过TLV格式的信息进行传输之外，还可以通过动态图像专家组媒体传输(MPEG Media Transport，MMT)中定义的一种针对多媒体传输应用的信号格式来进行传输。

下面结合实施例八对客户端和服务器之间采用MMT中定义的针对多媒体传输应用的信号格式来传输视角信息和视频图像的空间信息的情况进行详细的介绍。

实施例八：

MMT(例如，具体在ISO/IEC 23008-1标准)定义了一套针对多媒体传输应用的信号格式。其中，在ISO/IEC 23008-1标准中还定义了字段"urn:mpeg:mmt:app:vr:2017"以用来标识信息是给VR内容传输使用。

在MMT标准下，MMT VR接收端(相当于上文中的客户端)的视点信息需要周期性地反馈给MMT VR发送端(相当于上文中的服务器)，或者，当用户的视点位置发生变化时，MMT VR接收端的视点信息需要反馈给MMT VR接收端。以便于MMT VR发送端确定当前视角所在的视点位置。通过在已有的MMT信息类型中添加一种新的类型，可以用于描述视点位置的变化信息，以支持视点变化时的应用。

MMT VR接收端除了可以向MMT VR发送端反馈视点的位置信息之外，MMT VR接收端还可以向MMT VR发送端反馈视角变化速度信息、视点变化速度信息、视角相对于特定视角或初始视角或前一视角的方向相对变化信息、视点相对于特定视点或初始视点或者前一视点的位置变化信息等信息中的一种或者多种(可以具体反馈任意一种信息组合)。

可选地，为了指示客户端和服务器之间传输的信息具体包括视点位置信息、视角变化速度信息、视点变化速度信息、视角相对于特定视角或初始视角或前一视角的方向相对变化信息、视点相对于特定视点或初始视点或者前一视点的位置变化信息等信息中的哪些信息，可以在客户端与服务器之间传输一个指示信息(该指示信息可以是客户端发送给服务器的信息，也可以是服务器发送给客户端的信息)，该指示信息的不同的标识位的不同取值表示携带不同的信息。

上述指示信息的标识位的取值与指示的信息之间的关系可以如表41所示。

表41

应用信息类型(Application

应用信息名称(Application Message Name)

Message Type)
0x01	VRViewDependentSupportQuery
0x02	VRViewDependentSupportResponse
…	…
0x07	VRViewpointChangeFeedback
0x08	VRViewportSpeedFeedback
0x09	VRViewpointSpeedFeedback
0x0A	VRViewportDeltaChangeFeedback
0x0B	VRViewpointDeltaChangeFeedback
0x0C	VR_content_window_range
0x0D	VR_content_window_centre
0x0E	VR_content_window_viewpoint
0x0F-0xFF	Reserved for future use

表41中的各种应用信息的含义或者作用如下：

其中，VRViewDependentSupportQuery和VRViewDependentSupportResponse是客户端和服务器之间用于确认服务器是否支持基于视角传输视频流的应用信息。

VRViewDependentSupportQuery：客户端用该命令发现服务器是否支持基于视角传输视频流；

VRViewDependentSupportResponse：服务器向客户端反馈服务器所支持基于视角传输视频流的标识。

表41中，0x07至0x0B对应的信息是客户端向服务器反馈的信息，具体含义如下：

VRViewpointChangeFeedback：反馈当前视点位置信息；

VRViewportSpeedFeedback：反馈视角方向变化速度信息；

VRViewpointSpeedFeedback：反馈视点位置变化速度信息；

VRViewportDeltaChangeFeedback：反馈视角相对变化信息；

VRViewpointDeltaChangeFeedback：反馈视点位置相对变化信息。

表41中，0x0C至0x0E对应的信息是服务器向客户端发送选择或者渲染的窗口内容信息，具体含义如下：

VR_content_window_range：服务器端选取或者渲染的内容范围大小信息；

VR_content_window_centre：服务器端选取或者渲染的内容中心位置信息；

VR_content_window_viewpoint：服务器选取或者渲染的内容所在视点的位置信息。

可选地，VRViewpointChangeFeedback一种可能的语法如表42所示。

表42

在表42中，app_message_type表示表41中所示的不同消息类型，posx,posy,posz表示视点位置在三维笛卡尔坐标系中的坐标位置。

可选地，VRViewportSpeedFeedback一种可能的语法如表43所示。

表43

在表43中，app_message_type表示表41中所示的不同消息类型，dirx_speed,diry_speed，dirz_speed分别表示在三维笛卡尔坐标系或者极坐标系下的视角方向变化速度。

可选地，VRViewpointSpeedFeedback一种可能的语法如表44所示。

表44

在表44中，app_message_type表示表41中所示的不同消息类型，posx_speed,posy_speed，posz_speed：分别表示在三维笛卡尔坐标系下的视点位置变化速度。

可选地，VRViewportDeltaChangeFeedback一种可能的语法如表45所示。

表45

在表45中，app_message_type表示表41中所示的不同消息类型，delta_dirx,delta_diry,delta_dirz:分别表示在三维笛卡尔坐标系或者极坐标系下的视角相对于特定视角或初始视角或前一视角的方向相对变化值。

可选地，VRViewpointDeltaChangeFeedback一种可能的语法如表46所示。

表46

在表46中，app_message_type表示表41中所示的不同消息类型，delta_posx,delta_posy,delta_posz:视点位置在三维笛卡尔坐标系中相对于特定视点或初始视点或前一视点的位置变化量。

可选地，VR_content_window_range一种可能的语法如表47所示。

表47

在表47中，各个主要语法的语义如下：

app_message_type：表41中所示的不同消息类型；

Hor_resolution：服务器渲染或者发送的内容在宽度方向上的像素个数；

Ver_resolution：服务器渲染或者发送的内容在高度方向上的像素个数；

Hor_fov:服务器渲染或者发送的内容水平方向视场角度覆盖范围；

Ver_fov：服务器渲染或者发送的内容垂直方向视场角度覆盖范围。

可选地，VR_content_window_centre一种可能的语法如表48所示。

表48

在表48中，app_message_type表示表41中所示的不同消息类型；centre_x,centre_y，centre_z：共同表示服务器向客户端发送的视频的中心点位置信息。

可选地，centre_x对应三维坐标的方位角(azimuth)或者偏航角(yaw)；centre_y对应俯仰角(pitch或者elevation)；centre_z对应倾斜角(tilt)或者翻滚角(roll)。

应理解，也可以只保留centre_x和centre_y，其中，centre_x和centre_y分别表示对应区域的中心点二维坐标值或视角区域左上角坐标值。

可选地，VR_content_window_viewpoint一种可能的语法如表49所示。

表49

在表49中，app_message_type表示表41中所示的不同消息类型；posx_s，posy_s，pos_z表示服务器向客户端发送的窗口视频所在的视点位置信息，具体可以用三维笛卡尔坐标系中的坐标位置信息表示。

在实施例八中，通过在MMT信令中增加视点位置信息，能够支持视点变化情况下的VR视角传输应用。

图10是本申请实施例的客户端的示意性框图。图10所示的客户端500包括：发送模块510和接收模块520。

客户端500中的发送模块510和接收模块520可以执行图1和图2中所示的方法中的各个步骤。

当客户端500执行图1所示的方法时，发送模块510和接收模块520的具体作用如下：

发送模块510，用于向服务器发送第一信息，所述第一信息用于指示第一目标视频图像的区域的空间信息，所述第一目标视频图像包括当前视角之内的视频图像；

接收模块520，用于接收所述服务器发送的第二目标视频图像对应的视频数据包，其中，所述第二目标视频图像包括所述第一目标视频图像，在所述第二目标视频图像对应的视频数据包中，至少一个视频数据包共携带第二信息，所述第二信息用于指示所述第二目标视频图像的区域的空间信息。

当客户端500执行图2所示的方法时，发送模块510和接收模块520的具体作用如下：

接收模块510，用于接收所述服务器发送的描述文件，所述描述文件携带至少两个会话的会话描述信息，所述至少两个会话为所述客户端与所述服务器之间的会话，所述至少两个会话用于传输各自对应的子区域图像的码流数据，所述会话描述信息包括通过所述各个会话各自所传输的子区域图像的码流数据对应的子区域的空间信息，其中，子区域是对全景视频图像的区域进行划分得到的，子区域图像为子区域之内的视频图像；

发送模块520，用于向服务器发送第一信息，所述第一信息用于指示当前视角所覆盖的子区域对应的会话，所述第一信息根据所述当前视角和所述会话描述信息确定；

所述接收模块510还用于接收所述服务器发送的目标视频图像的码流数据，所述目标视频图像包括所述当前视角所覆盖的子区域之内的视频图像。

图11是本申请实施例的服务器的示意性框图。图11所示的服务器600包括：接收模块610、确定模块620和发送模块630。

服务器600中的接收模块610、确定模块620和发送模块630可以执行图3和图4中所示的方法中的各个步骤。

当服务器600执行图3所示的方法时，接收模块610、确定模块620和发送模块630的具体作用如下：

接收模块610，用于接收客户端发送的第一信息，所述第一信息用于指示第一目标视频图像的区域的空间位置，所述第一目标视频图像包括当前视角之内的视频图像；

确定模块620，用于根据所述第一信息确定第二目标视频图像，所述第二目标视频图像包括所述第一目标视频图像；

发送模块630，用于向所述客户端发送所述第二目标视频图像对应的视频数据包，在所述第二目标视频图像对应的视频数据包中，至少一个视频数据包共携带第二信息，所述第二信息用于指示所述第二目标视频图像的区域的空间信息。

应理解，当服务器600执行图4所示的方法时，只采用接收模块610和发送模块630即可，其中，接收模块610和发送模块630的具体作用如下：

发送模块630，用于向客户端发送描述文件，所述描述文件携带至少两个会话的会话描述信息，所述至少两个会话为所述客户端与所述服务器之间的会话，所述至少两个会话用于传输各自对应的子区域图像的码流数据，所述会话描述信息包括通过所述各个会话各自所传输的子区域图像的码流数据对应的子区域的空间信息，其中，子区域是对全景视频图像的区域进行划分得到的，子区域图像为子区域之内的视频图像；

接收模块610，用于接收所述客户端发送的第一信息，所述第一信息用于指示当前视角所覆盖的子区域对应的会话，所述第一信息根据所述当前视角和所述会话描述信息确定；

所述发送模块630还用于向所述客户端发送目标视频图像的码流数据，所述目标视频图像包括所述当前视角所覆盖的子区域之内的视频图像。

图12是本申请实施例的传输媒体数据的装置的硬件结构示意图。图12所示的装置700可以视为是一种计算机设备，装置700可以作为本申请实施例的客户端500或者服务器600的一种实现方式，也可以作为本申请实施例的传输媒体数据的方法的一种实现方式，装置700包括处理器710、存储器720、输入/输出接口730和总线750，还可以包括通信接口740。其中，处理器710、存储器720、输入/输出接口730和通信接口740通过总线750实现彼此之间的通信连接。

处理器710可以采用通用的中央处理器(central processing unit，CPU)，微处理器，应用专用集成电路(application specific integrated circuit，ASIC)，或者一个或多个集成电路，用于执行相关程序，以实现本申请实施例的客户端或者服务器中的模块所需执行的功能，或者执行本申请方法实施例的传输媒体数据的方法。处理器710可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器710中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器710可以是通用处理器、数字信号处理器(digital signal processing，DSP)、ASIC、现成可编程门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器720，处理器710读取存储器720中的信息，结合其硬件完成本申请实施例的客户端或者服务器中包括的模块所需执行的功能，或者执行本申请方法实施例的传输媒体数据的方法。

存储器720可以是只读存储器(read only memory，ROM)，静态存储设备，动态存储设备或者随机存取存储器(random access memory，RAM)。存储器720可以存储操作系统以及其他应用程序。在通过软件或者固件来实现本申请实施例的客户端或者服务器中包括的模块所需执行的功能，或者执行本申请方法实施例的传输媒体数据的方法时，用于实现本申请实施例提供的技术方案的程序代码保存在存储器720中，并由处理器710来执行客户端或者服务器中包括的模块所需执行的操作，或者执行本申请方法实施例提供的传输媒体数据的方法。

输入/输出接口730用于接收输入的数据和信息，输出操作结果等数据。

通信接口740使用例如但不限于收发器一类的收发装置，来实现装置700与其他设备或通信网络之间的通信。可以作为处理装置中的获取模块或者发送模块。

总线750可包括在装置700各个部件(例如处理器710、存储器720、输入/输出接口730和通信接口740)之间传送信息的通路。

应注意，尽管图12所示的装置700仅仅示出了处理器710、存储器720、输入/输出接口730、通信接口740以及总线750，但是在具体实现过程中，本领域的技术人员应当明白，装置700还包括实现正常运行所必须的其他器件，例如还可以包括显示器，用于显示要播放的视频数据。同时，根据具体需要，本领域的技术人员应当明白，装置700还可包括实现其他附加功能的硬件器件。此外，本领域的技术人员应当明白，装置700也可仅仅包括实现本申请实施例所必须的器件，而不必包括图12中所示的全部器件。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种传输媒体数据的方法，其特征在于，包括：

客户端向服务器发送第一信息，所述第一信息用于指示第一目标视频图像的区域的空间信息，所述第一目标视频图像包括当前视角之内的视频图像；

所述客户端接收所述服务器发送的第二目标视频图像对应的视频数据包，其中，所述第二目标视频图像包括所述第一目标视频图像，在所述第二目标视频图像对应的视频数据包中，至少一个视频数据包共携带第二信息，所述第二信息用于指示所述第二目标视频图像的区域的空间信息。
如权利要求1所述的方法，其特征在于，所述第一目标视频图像为所述当前视角之内的视频图像，所述第一信息包括所述当前视角的空间信息。
如权利要求2所述的方法，其特征在于，所述方法还包括：

所述客户端向所述服务器发送第一视点信息，所述第一视点信息用于指示所述当前视角所在的当前视点。
如权利要求3所述的方法，其特征在于，所述第一视点信息包括所述当前视点的空间位置信息、所述当前视点的位置变化速度信息和所述当前视点的位置变化速度的加速度信息中的至少一种。
如权利要求3或4所述的方法，其特征在于，所述第一视点信息包括当前视点的空间位置信息，所述方法还包括：

所述客户端向所述服务器发送第一指示信息，所述第一指示信息包括第一标识位，所述第一标识位的取值用于指示所述当前视点的空间位置信息为相对空间位置信息或者绝对空间位置信息；

其中，当所述第一标识位为第一取值时，所述当前视点的空间位置信息为相对空间位置信息；

当所述第一标识位为第二取值时，所述当前视点的空间位置信息为绝对空间位置信息。
如权利要求2-5中任一项所述的方法，其特征在于，所述方法还包括：

所述客户端向所述服务器发送第二指示信息，所述第二指示信息包括第二标识位，所述第二标识位的取值用于指示所述当前视角的空间信息的组成信息，所述第二标识位的取值用于指示下列情况中的至少一种：

当所述第二标识位为第三取值时，所述当前视角的空间信息由所述当前视角的视角方向信息组成；

当所述第二标识位为第四取值时，所述当前视角的空间信息由所述当前视角的视角方向信息和所述当前视角所在的视点的位置信息组成；

当所述第二标识位为第五取值时，所述当前视角的空间信息由所述当前视角的视角方向信息、所述当前视角所在视点的位置信息以及所述当前视角的视角大小信息组成。
如权利要求1所述的方法，其特征在于，全景视频图像包括对所述全景视频图像进行划分得到的至少两个子区域，其中，所述当前视角覆盖至少一个子区域，所述第一信息用于指示所述当前视角覆盖的子区域，所述当前视角覆盖的子区域用于拼接得到所述第一目标视频图像的区域。
如权利要求1-7中任一项所述的方法，其特征在于，所述第二信息包括所述第二目标视频图像的区域的空间信息。
如权利要求1-7中任一项所述的方法，其特征在于，全景视频图像包括对所述全景视频图像进行划分得到的至少两个子区域，其中，所述当前视角覆盖至少一个子区域，所述第二信息用于指示所述第二目标视频图像覆盖的子区域，所述第二目标视频图像覆盖的子区域用于拼接得到所述第二目标视频图像的区域。
如权利要求9所述的方法，其特征在于，所述第二信息包括至少一个第三信息，所述至少一个视频数据包中每个视频数据包均携带第三信息，所述至少一个视频数据包共携带所述至少一个第三信息，所述至少一个视频数据包中的任一视频数据包携带的第三信息用于指示所述任一视频数据包对应的视频图像所属的子区域。
如权利要求1-10中任一项所述的方法，其特征在于，所述至少一个视频数据包包括携带视角标识的视频数据包。
如权利要求1-11中任一项所述的方法，其特征在于，所述方法还包括：

所述客户端接收所述服务器发送的描述文件，所述描述文件携带第一视角信息或者第二视角信息，其中，所述第一视角信息用于指示所述服务器支持的视角的最大区域范围，所述第二视角信息用于指示初始视角的区域范围。
如权利要求12所述的方法，其特征在于，在所述描述文件携带所述第二视角信息时，所述描述文件还携带第三视角信息，所述第三视角信息还用于指示所述初始视角的空间位置。
如权利要求1-11中任一项所述的方法，其特征在于，所述方法还包括：

所述客户端接收所述服务器发送的描述文件，全景视频图像包括对所述全景视频图像进行划分得到的至少两个子区域，所述描述文件携带各个子区域的子区域描述信息，所述子区域描述信息包括子区域的空间信息。
如权利要求14所述的方法，其特征在于，所述子区域描述信息包括所述各个子区域的平面空间信息，所述子区域描述信息还包括所述各个子区域之内的视频图像的映射类型信息，所述各个子区域的球面空间信息用于根据所述映射类型信息和所述各个子区域的平面空间信息确定。
如权利要求14所述的方法，其特征在于，所述子区域描述信息包括所述各个子区域的球面空间信息，所述子区域描述信息还包括所述各个子区域的形状信息。
如权利要求1-16中任一项所述的方法，其特征在于，所述至少一个视频数据包共携带第二视点信息，所述第二视点信息用于指示所述第二目标视频图像对应的视点。
一种传输媒体数据的方法，其特征在于，包括：

客户端接收所述服务器发送的描述文件，所述描述文件携带至少两个会话的会话描述信息，所述至少两个会话为所述客户端与所述服务器之间的会话，所述至少两个会话用于传输各自对应的子区域图像的码流数据，所述会话描述信息包括通过所述各个会话各自所传输的子区域图像的码流数据对应的子区域的空间信息，其中，子区域是对全景视频图像的区域进行划分得到的，子区域图像为子区域之内的视频图像；

所述客户端向服务器发送第一信息，所述第一信息用于指示当前视角所覆盖的子区域对应的会话，所述第一信息根据所述当前视角和所述会话描述信息确定；

所述客户端接收所述服务器发送的目标视频图像的码流数据，所述目标视频图像包括所述当前视角所覆盖的子区域之内的视频图像。
一种传输媒体数据的方法，其特征在于，包括：

服务器接收客户端发送的第一信息，所述第一信息用于指示第一目标视频图像的区域的空间位置，所述第一目标视频图像包括当前视角之内的视频图像；

所述服务器根据所述第一信息确定第二目标视频图像，所述第二目标视频图像包括所述第一目标视频图像；

所述服务器向所述客户端发送所述第二目标视频图像对应的视频数据包，在所述第二目标视频图像对应的视频数据包中，至少一个视频数据包共携带第二信息，所述第二信息用于指示所述第二目标视频图像的区域的空间信息。
如权利要求19所述的方法，其特征在于，所述第一目标视频图像为所述当前视角之内的视频图像，所述第一信息包括所述当前视角的空间信息。
如权利要求20所述的方法，其特征在于，所述方法还包括：

所述服务器接收所述客户端发送的第一视点信息，所述第一视点信息用于指示所述当前视角所在的当前视点。
如权利要求21所述的方法，其特征在于，所述第一视点信息包括所述当前视点的空间位置信息、所述当前视点的位置变化速度信息和所述当前视点的位置变化速度的加速度信息中的至少一种。
如权利要求21或22所述的方法，其特征在于，所述第一视点信息包括当前视点的空间位置信息，所述方法还包括：

所述服务器接收所述客户端发送的第一指示信息，所述第一指示信息包括第一标识位，所述第一标识位的取值用于指示所述当前视点的空间位置信息为相对空间位置信息或者绝对空间位置信息；

其中，当所述第一标识位为第一取值时，所述当前视点的空间位置信息为相对空间位置信息；

当所述第一标识位为第二取值时，所述当前视点的空间位置信息为绝对空间位置信息。
如权利要求20-23中任一项所述的方法，其特征在于，所述方法还包括：

所述服务器接收所述客户端发送的第二指示信息，所述第二指示信息包括第二标识位，所述第二标识位的取值用于指示所述当前视角的空间信息的组成信息，所述第二标识位的取值用于指示下列情况中的至少一种：

当所述第二标识位为第三取值时，所述当前视角的空间信息由所述当前视角的视角方向信息组成；

当所述第二标识位为第四取值时，所述当前视角的空间信息由所述当前视角的视角方向信息和所述当前视角所在的视点的位置信息组成；

当所述第二标识位为第五取值时，所述当前视角的空间信息由所述当前视角的视角方向信息、所述当前视角所在视点的位置信息以及所述当前视角的视角大小信息组成。
如权利要求19所述的方法，其特征在于，全景视频图像包括对所述全景视频图像进行划分得到的至少两个子区域，其中，所述当前视角覆盖至少一个子区域，所述第一信息用于指示所述当前视角覆盖的子区域，所述当前视角覆盖的子区域用于拼接得到所述第一目标视频图像的区域。
如权利要求19-25中任一项所述的方法，其特征在于，所述第二信息包括所述第二目标视频图像的区域的空间信息。
如权利要求19-25中任一项所述的方法，其特征在于，全景视频图像包括对所述全景视频图像进行划分得到的至少两个子区域，其中，所述当前视角覆盖至少一个子区域，所述第二信息用于指示所述第二目标视频图像覆盖的子区域，所述第二目标视频图像覆盖的子区域用于拼接得到所述第二目标视频图像的区域。
如权利要求27所述的方法，其特征在于，所述第二信息包括至少一个第三信息，所述至少一个视频数据包中每个视频数据包均携带第三信息，所述至少一个视频数据包共携带所述至少一个第三信息，所述至少一个视频数据包中的任一视频数据包携带的第三信息用于指示所述任一视频数据包对应的视频图像所属的子区域。
如权利要求19-28中任一项所述的方法，其特征在于，所述至少一个视频数据包包括携带视角标识的视频数据包。
如权利要求19-29中任一项所述的方法，其特征在于，所述方法还包括：

所述服务器向所述客户端发送描述文件，所述描述文件携带第一视角信息或者第二视角信息，其中，所述第一视角信息用于指示所述服务器支持的视角的最大区域范围，所述第二视角信息用于指示初始视角的区域范围。
如权利要求30所述的方法，其特征在于，在所述描述文件携带所述第二视角信息时，所述描述文件还携带第三视角信息，所述第三视角信息还用于指示所述初始视角的空间位置。
如权利要求19-29中任一项所述的方法，其特征在于，所述方法还包括：

所述服务器向所述客户端发送描述文件，全景视频图像包括对所述全景视频图像进行划分得到的至少两个子区域，所述描述文件携带各个子区域的子区域描述信息，所述子区域描述信息包括子区域的空间信息。
如权利要求32所述的方法，其特征在于，所述子区域描述信息包括所述各个子区域的平面空间信息，所述子区域描述信息还包括所述各个子区域之内的视频图像的映射类型信息，所述各个子区域的球面空间信息用于根据所述映射类型信息和所述各个子区域的平面空间信息确定。
如权利要求32所述的方法，其特征在于，所述子区域描述信息包括所述各个子区域的球面空间信息，所述子区域描述信息还包括所述各个子区域的形状信息。
如权利要求19-34中任一项所述的方法，其特征在于，所述至少一个视频数据包共携带第二视点信息，所述第二视点信息用于指示所述第二目标视频图像对应的视点。
一种传输媒体数据的方法，其特征在于，包括：

服务器向客户端发送描述文件，所述描述文件携带至少两个会话的会话描述信息，所述至少两个会话为所述客户端与所述服务器之间的会话，所述至少两个会话用于传输各自对应的子区域图像的码流数据，所述会话描述信息包括通过所述各个会话各自所传输的子区域图像的码流数据对应的子区域的空间信息，其中，子区域是对全景视频图像的区域进行划分得到的，子区域图像为子区域之内的视频图像；

所述服务器接收所述客户端发送的第一信息，所述第一信息用于指示当前视角所覆盖的子区域对应的会话，所述第一信息根据所述当前视角和所述会话描述信息确定；

所述服务器向所述客户端发送目标视频图像的码流数据，所述目标视频图像包括所述当前视角所覆盖的子区域之内的视频图像。
一种客户端，其特征在于，包括：

发送模块，用于向服务器发送第一信息，所述第一信息用于指示第一目标视频图像的区域的空间信息，所述第一目标视频图像包括当前视角之内的视频图像；

接收模块，用于接收所述服务器发送的第二目标视频图像对应的视频数据包，其中，所述第二目标视频图像包括所述第一目标视频图像，在所述第二目标视频图像对应的视频数据包中，至少一个视频数据包共携带第二信息，所述第二信息用于指示所述第二目标视频图像的区域的空间信息。
如权利要求37所述的客户端，其特征在于，所述第一目标视频图像为所述当前视角之内的视频图像，所述第一信息包括所述当前视角的空间信息。
如权利要求38所述的客户端，其特征在于，所述发送模块还用于向所述服务器发送第一视点信息，所述第一视点信息用于指示所述当前视角所在的当前视点。
如权利要求39所述的客户端，其特征在于，所述第一视点信息包括所述当前视点的空间位置信息、所述当前视点的位置变化速度信息和所述当前视点的位置变化速度的加速度信息中的至少一种。
如权利要求39或40所述的客户端，其特征在于，所述第一视点信息包括当前视点的空间位置信息，所述发送模块还用于向所述服务器发送第一指示信息，所述第一指示信息包括第一标识位，所述第一标识位的取值用于指示所述当前视点的空间位置信息为相对空间位置信息或者绝对空间位置信息；

其中，当所述第一标识位为第一取值时，所述当前视点的空间位置信息为相对空间位置信息；

当所述第一标识位为第二取值时，所述当前视点的空间位置信息为绝对空间位置信息。
如权利要求38-41中任一项所述的客户端，其特征在于，所述发送模块还用于向所述服务器发送第二指示信息，所述第二指示信息包括第二标识位，所述第二标识位的取值用于指示所述当前视角的空间信息的组成信息，所述第二标识位的取值用于指示下列情况中的至少一种：

当所述第二标识位为第三取值时，所述当前视角的空间信息由所述当前视角的视角方向信息组成；

当所述第二标识位为第四取值时，所述当前视角的空间信息由所述当前视角的视角方向信息和所述当前视角所在的视点的位置信息组成；

当所述第二标识位为第五取值时，所述当前视角的空间信息由所述当前视角的视角方向信息、所述当前视角所在视点的位置信息以及所述当前视角的视角大小信息组成。
如权利要求37所述的客户端，其特征在于，全景视频图像包括对所述全景视频图像进行划分得到的至少两个子区域，其中，所述当前视角覆盖至少一个子区域，所述第一信息用于指示所述当前视角覆盖的子区域，所述当前视角覆盖的子区域用于拼接得到所述第一目标视频图像的区域。
如权利要求37-43中任一项所述的客户端，其特征在于，所述第二信息包括所述第二目标视频图像的区域的空间信息。
如权利要求37-43中任一项所述的客户端，其特征在于，全景视频图像包括对所述全景视频图像进行划分得到的至少两个子区域，其中，所述当前视角覆盖至少一个子区域，所述第二信息用于指示所述第二目标视频图像覆盖的子区域，所述第二目标视频图像覆盖的子区域用于拼接得到所述第二目标视频图像的区域。
如权利要求45所述的客户端，其特征在于，所述第二信息包括至少一个第三信息，所述至少一个视频数据包中每个视频数据包均携带第三信息，所述至少一个视频数据包共携带所述至少一个第三信息，所述至少一个视频数据包中的任一视频数据包携带的第三信息用于指示所述任一视频数据包对应的视频图像所属的子区域。
如权利要求37-46中任一项所述的客户端，其特征在于，所述至少一个视频数据包包括携带视角标识的视频数据包。
如权利要求37-47中任一项所述的客户端，其特征在于，所述接收模块还用于：

接收所述服务器发送的描述文件，所述描述文件携带第一视角信息或者第二视角信息，其中，所述第一视角信息用于指示所述服务器支持的视角的最大区域范围，所述第二视角信息用于指示初始视角的区域范围。
如权利要求48所述的客户端，其特征在于，在所述描述文件携带所述第二视角信息时，所述描述文件还携带第三视角信息，所述第三视角信息还用于指示所述初始视角的空间位置。
如权利要求37-47中任一项所述的客户端，其特征在于，所述接收模块还用于：

接收所述服务器发送的描述文件，全景视频图像包括对所述全景视频图像进行划分得到的至少两个子区域，所述描述文件携带各个子区域的子区域描述信息，所述子区域描述信息包括子区域的空间信息。
如权利要求50所述的客户端，其特征在于，所述子区域描述信息包括所述各个子区域的平面空间信息，所述子区域描述信息还包括所述各个子区域之内的视频图像的映射类型信息，所述各个子区域的球面空间信息用于根据所述映射类型信息和所述各个子区域的平面空间信息确定。
如权利要求50所述的客户端，其特征在于，所述子区域描述信息包括所述各个子区域的球面空间信息，所述子区域描述信息还包括所述各个子区域的形状信息。
如权利要求37-52中任一项所述的客户端，其特征在于，所述至少一个视频数据包共携带第二视点信息，所述第二视点信息用于指示所述第二目标视频图像对应的视点。
一种客户端，其特征在于，包括：

接收模块，用于接收所述服务器发送的描述文件，所述描述文件携带至少两个会话的会话描述信息，所述至少两个会话为所述客户端与所述服务器之间的会话，所述至少两个会话用于传输各自对应的子区域图像的码流数据，所述会话描述信息包括通过所述各个会话各自所传输的子区域图像的码流数据对应的子区域的空间信息，其中，子区域是对全景视频图像的区域进行划分得到的，子区域图像为子区域之内的视频图像；

发送模块，用于向服务器发送第一信息，所述第一信息用于指示当前视角所覆盖的子区域对应的会话，所述第一信息根据所述当前视角和所述会话描述信息确定；

所述接收模块还用于接收所述服务器发送的目标视频图像的码流数据，所述目标视频图像包括所述当前视角所覆盖的子区域之内的视频图像。
一种服务器，其特征在于，包括：

接收模块，用于接收客户端发送的第一信息，所述第一信息用于指示第一目标视频图像的区域的空间位置，所述第一目标视频图像包括当前视角之内的视频图像；

确定模块，用于根据所述第一信息确定第二目标视频图像，所述第二目标视频图像包括所述第一目标视频图像；

发送模块，用于向所述客户端发送所述第二目标视频图像对应的视频数据包，在所述第二目标视频图像对应的视频数据包中，至少一个视频数据包共携带第二信息，所述第二信息用于指示所述第二目标视频图像的区域的空间信息。
如权利要求55所述的服务器，其特征在于，所述第一目标视频图像为所述当前视角之内的视频图像，所述第一信息包括所述当前视角的空间信息。
如权利要求56所述的服务器，其特征在于，所述接收模块还用于接收所述客户端发送的第一视点信息，所述第一视点信息用于指示所述当前视角所在的当前视点。
如权利要求57所述的客户端，其特征在于，所述第一视点信息包括所述当前视点的空间位置信息、所述当前视点的位置变化速度信息和所述当前视点的位置变化速度的加速度信息中的至少一种。
如权利要求57或58所述的客户端，其特征在于，所述第一视点信息包括当前视点的空间位置信息，所述接收模块还用于接收所述客户端发送的第一指示信息，所述第一指示信息包括第一标识位，所述第一标识位的取值用于指示所述当前视点的空间位置信息为相对空间位置信息或者绝对空间位置信息；

其中，当所述第一标识位为第一取值时，所述当前视点的空间位置信息为相对空间位置信息；

当所述第一标识位为第二取值时，所述当前视点的空间位置信息为绝对空间位置信息。
如权利要求56-59中任一项所述的客户端，其特征在于，所述接收模块还用于接收所述客户端发送的第二指示信息，所述第二指示信息包括第二标识位，所述第二标识位的取值用于指示所述当前视角的空间信息的组成信息，所述第二标识位的取值用于指示下列情况中的至少一种：

当所述第二标识位为第三取值时，所述当前视角的空间信息由所述当前视角的视角方向信息组成；

当所述第二标识位为第四取值时，所述当前视角的空间信息由所述当前视角的视角方向信息和所述当前视角所在的视点的位置信息组成；

当所述第二标识位为第五取值时，所述当前视角的空间信息由所述当前视角的视角方向信息、所述当前视角所在视点的位置信息以及所述当前视角的视角大小信息组成。
如权利要求55所述的服务器，其特征在于，全景视频图像包括对所述全景视频图像进行划分得到的至少两个子区域，其中，所述当前视角覆盖至少一个子区域，所述第一信息用于指示所述当前视角覆盖的子区域，所述当前视角覆盖的子区域用于拼接得到所述第一目标视频图像的区域。
如权利要求55-61中任一项所述的服务器，其特征在于，所述第二信息包括所述第二目标视频图像的区域的空间信息。
如权利要求55-61中任一项所述的服务器，其特征在于，全景视频图像包括对所述全景视频图像进行划分得到的至少两个子区域，其中，所述当前视角覆盖至少一个子区域，所述第二信息用于指示所述第二目标视频图像覆盖的子区域，所述第二目标视频图像覆盖的子区域用于拼接得到所述第二目标视频图像的区域。
如权利要求63所述的服务器，其特征在于，所述第二信息包括至少一个第三信息，所述至少一个视频数据包中每个视频数据包均携带第三信息，所述至少一个视频数据包共携带所述至少一个第三信息，所述至少一个视频数据包中的任一视频数据包携带的第三信息用于指示所述任一视频数据包对应的视频图像所属的子区域。
如权利要求55-64中任一项所述的服务器，其特征在于，所述至少一个视频数据包包括携带视角标识的视频数据包。
如权利要求55-65中任一项所述的服务器，其特征在于，所述发送模块还用于：

向所述客户端发送描述文件，所述描述文件携带第一视角信息或者第二视角信息，其中，所述第一视角信息用于指示所述服务器支持的视角的最大区域范围，所述第二视角信息用于指示初始视角的区域范围。
如权利要求66所述的服务器，其特征在于，在所述描述文件携带所述第二视角信息时，所述描述文件还携带第三视角信息，所述第三视角信息还用于指示所述初始视角的空间位置。
如权利要求55-65中任一项所述的服务器，其特征在于，所述发送模块还用于：

向所述客户端发送描述文件，全景视频图像包括对所述全景视频图像进行划分得到的至少两个子区域，所述描述文件携带各个子区域的子区域描述信息，所述子区域描述信息包括子区域的空间信息。
如权利要求68所述的服务器，其特征在于，所述子区域描述信息包括所述各个子区域的平面空间信息，所述子区域描述信息还包括所述各个子区域之内的视频图像的映射类型信息，所述各个子区域的球面空间信息用于根据所述映射类型信息和所述各个子区域的平面空间信息确定。
如权利要求68所述的服务器，其特征在于，所述子区域描述信息包括所述各个子区域的球面空间信息，所述子区域描述信息还包括所述各个子区域的形状信息。
如权利要求55-70中任一项所述的服务器，其特征在于，所述至少一个视频数据包共携带第二视点信息，所述第二视点信息用于指示所述第二目标视频图像对应的视点。
一种服务器，其特征在于，包括：

发送模块，用于向客户端发送描述文件，所述描述文件携带至少两个会话的会话描述信息，所述至少两个会话为所述客户端与所述服务器之间的会话，所述至少两个会话用于传输各自对应的子区域图像的码流数据，所述会话描述信息包括通过所述各个会话各自所传输的子区域图像的码流数据对应的子区域的空间信息，其中，子区域是对全景视频图像的区域进行划分得到的，子区域图像为子区域之内的视频图像；

接收模块，用于接收所述客户端发送的第一信息，所述第一信息用于指示当前视角所覆盖的子区域对应的会话，所述第一信息根据所述当前视角和所述会话描述信息确定；

所述发送模块还用于向所述客户端发送目标视频图像的码流数据，所述目标视频图像包括所述当前视角所覆盖的子区域之内的视频图像。