WO2018068236A1

WO2018068236A1 - 一种视频流传输方法、相关设备及系统

Info

Publication number: WO2018068236A1
Application number: PCT/CN2016/101920
Authority: WO
Inventors: 邸佩云; 谢清鹏
Original assignee: 华为技术有限公司
Priority date: 2016-10-10
Filing date: 2016-10-12
Publication date: 2018-04-19
Also published as: US10897646B2; US20190238933A1; CN109644296A

Abstract

一种视频流传输方法、相关设备及系统，其中的方法可包括：客户端向服务器发送目标请求，所述目标请求包括所述客户端请求需要呈现的目标空间对象在虚拟现实VR内容成分中对应的目标空间位置信息；所述客户端接收服务器响应所述目标请求的目标请求反馈，所述目标请求反馈包括将所述目标空间对象对应的原始视频流进行了预设复用处理得到的复用视频流信息；所述客户端根据所述复用视频流信息进行视频解析呈现。可以有效地提升视频流传输效率。

Description

一种视频流传输方法、相关设备及系统

技术领域

本发明涉及视频技术领域，尤其涉及一种视频流传输方法、相关设备及系统。

背景技术

虚拟现实(Virtual Reality，VR)技术是一种可以创建和体验虚拟世界的计算机仿真系统，它利用计算机生成一种模拟环境，使用户沉浸到该环境中。目前，VR技术可广泛的应用于城市规划、室内设计、工业仿真、古迹复原、桥梁道路设计、房地产销售、旅游教学、教育培训等众多领域。

现有技术中，将VR技术应用于现有的视频技术中时，则实现了360度超出人眼正常视觉范围的全景视频应用，这种视频应用给人们带来了全新的观看方式和视觉体验，同时也带来了技术的挑战。即用户可以360度的观看VR视频内容，例如虚拟现实直播或录播系统等，但是与此同时，由于VR视频的视频流较大，且客户端与服务器之间的请求反馈过程较为复杂，因此可能会导致用户在通过客户端观看VR视频时传输带宽耗费大等问题，所以在VR视频内容准备时会将视频内容划分成多个空间对象，在用户观看时将用户视角对应的空间对象发送到客户端呈现，这样就可以减少传输的数据量，但是同时又引入了新的问题，客户端的视角可能同时对应多个空间对象，这样客户端就要同时获取多个空间对象的码流，而且多个空间对象的码流解码后是同步呈现的，所以客户端需要等待多个空间对象的码流都收到后才可以呈现，这样就加大了客户端呈现新视角的时延，从而影响用户体验。

发明内容

本发明实施例所要解决的技术问题在于，提供一种视频流传输方法、相关设备及系统，解决了现有技术的VR视频体验中呈现时延大的问题。

一、MPEG-DASH技术介绍

2011年11月，MPEG组织批准了DASH标准，DASH标准是基于HTTP 协议传输媒体流的技术规范(以下称DASH技术规范)；DASH技术规范主要由两大部分组成：媒体呈现描述(英文：Media Presentation Description，MPD)和媒体文件格式(英文：file format)。

1、媒体文件格式

在DASH中服务器会为同一个视频内容准备多种版本的码流，每个版本的码流在DASH标准中称为表示(英文：representation)。表示是在传输格式中的一个或者多个码流的集合和封装，一个表达中包含一或者多个分段。不同版本的码流的码率、分辨率等编码参数可以不同，每个码流分割成多个小的文件，每个小文件被称为分段(或称分段，英文：segment)。在客户端请求媒体分段数据的过程中可以在不同的媒体表示之间切换，如图1所示，图1是本发明实施例提供的码流分段的切换的示意图。服务器为一部电影准备三个不同版本的码流数据，并在MPD中使用3个表示(英文：Representation，以下简称rep)对上述三个不同版本的码流数据进行描述，包括rep1，rep2，rep3。其中，rep1是码率为4mbps(每秒兆比特)的高清视频，rep2是码率为2mbps的标清视频，rep3是码率为1mbps的标清视频。图1中标记为阴影的分段是客户端请求播放的分段数据，客户端请求的前三个分段是媒体表示rep3的分段，第四个分段切换到rep2，请求第四个分段，之后切换到rep1，请求第五个分段和第六个分段等。每个表示的分段可以首尾相接的存在一个文件中，也可以独立存储为一个个的小文件。segment可以按照标准ISO/IEC 14496-12中的格式封装(ISO BMFF(Base Media File Format))，也可以是按照ISO/IEC 13818-1中的格式封装(MPEG-2TS)。

2、媒体呈现描述

在DASH标准中，媒体呈现描述被称为MPD，MPD可以是一个xml的文件，文件中的信息是采用分级方式描述，如图2所示，图2为本发明实施例提供的mdp文件的分级式结构图，上一级的信息被下一级完全继承。在该文件中描述了一些媒体元数据，这些元数据可以使得客户端了解服务器中的媒体内容信息，并且可以使用这些信息构造请求segment的http-URL。

在DASH标准中，媒体呈现(英文：media presentation)，是呈现媒体内容的结构化数据的集合；媒体呈现描述(英文：media presentation description)，一个规范化描述媒体呈现的文件，用于提供流媒体服务；时期(英文：period)，一组连续的时期组成整个媒体呈现，时期具有连续和不重叠的特性；表示(英文：representation)，封装有一个或多个具有描述性元数据的的媒体内容成分(编码的单独的媒体类型，例如音频、视频等)的结构化的数据集合即表示是传输格式中一个或者多个码流的集合和封装，一个表示中包含一个或者多个分段；自适应集(英文：AdaptationSet)，表示同一媒体内容成分的多个可互替换的编码版本的集合，一个自适应集包含一个或者多个表示；子集(英文：subset)，一组自适应集合的组合，当播放器播放其中所有自适应集合时，可以获得相应的媒体内容；分段信息，是媒体呈现描述中的HTTP统一资源定位符引用的媒体单元，分段信息描述媒体数据的分段，媒体数据的分段可以存储在一个文件中，也可以单独存储，在一种可能的方式中，MPD中会存储媒体数据的分段。

本发明有关MPEG-DASH技术的相关技术概念可以参考ISO/IEC23009-1:2014Information technology--Dynamic adaptive streaming over HTTP(DASH)--Part 1:Media presentation description and segment formats，中的有关规定，也可以参考历史标准版本中的相关规定，如ISO/IEC 23009-1:2013或ISO/IEC 23009-1:2012等。

二、虚拟现实(virtual reality，VR)技术介绍

虚拟现实技术是一种可以创建和体验虚拟世界的计算机仿真系统，它利用计算机生成一种模拟环境，是一种多源信息融合的交互式的三维动态视景和实体行为的系统仿真，可以使用户沉浸到该环境中。VR主要包括模拟环境、感知、自然技能和传感设备等方面。模拟环境是由计算机生成的、实时动态的三维立体逼真图像。感知是指理想的VR应该具有一切人所具有的感知。除计算机图形技术所生成的视觉感知外，还有听觉、触觉、力觉、运动等感知，甚至还包括嗅觉和味觉等，也称为多感知。自然技能是指人的头部转动，眼睛、手势、或其他人体行为动作，由计算机来处理与参与者的动作相适应的数据，并对用户的输入作出实时响应，并分别反馈到用户的五官。传感设备是指三维交互设备。当VR视频(或者360度视频，或者全方位视频(英文：Omnidirectional video))在头戴设备和手持设备上呈现时，只有对应于用户头部的方位部分的视频图像呈现和相关联的音频呈现。

VR视频和通常的视频(英文：normal video)的差别在于通常的视频是整个视频内容都会被呈现给用户；VR视频是只有整个视频的一个子集被呈现给用户(英文：in VR typically only a subset of the entire video region represented by the video pictures)。

三、现有DASH标准的空间描述：

现有标准中，对空间信息的描述原文是“The SRD scheme allows Media Presentation authors to express spatial relationships between Spatial Objects.A Spatial Object is defined as a spatial part of a content component(e.g.a region of interest,or a tile)and represented by either an Adaptation Set or a Sub-Representation.”

【中文】：MPD中描述的是空间对象(即Spatial Objects)之间的空间关系(即spatial relationships)。空间对象被定义为一个内容成分的一部分空间，比如现有的感兴趣区域(英文：region of interest，ROI)和tile；空间关系可以在Adaptation Set和Sub-Representation中描述。现有DASH标准在MPD中定义了一些描述子元素，每个描述子元素都有两个属性，schemeIdURI和value。其中，schemeIdURI描述了当前描述子是什么，value是描述子的参数值。在已有的标准中有两个已有描述子SupplementalProperty和EssentialProperty(补充特性描述子和基本特性描述子)。现有标准中如果这两个描述子的schemeIdURI＝"urn:mpeg:dash:srd:2014"(或者schemeIdURI＝urn:mpeg:dash:VR:2017)，则表示该描述子描述了关联到的空间对象的空间信息(spatial information associated to the containing Spatial Object.)，相应的value中列出了SDR的一系列参数值。具体value的语法如下表1:

表1

如图3，图3是本发明实施例提供的空间对象的空间关系示意图。其中，图像AS可设为一个内容成分，AS1、AS2、AS3和AS4为AS包含的4个空间对象，每个空间对象关联一个空间，MPD中描述了各个空间对象的空间关系，例如各个空间对象关联的空间之间的关系。

MPD样例如下：

<？xml version＝"1.0"encoding＝"UTF-8"？>

<MPD

xmlns:xsi＝"http://www.w3.org/2001/XMLSchema-instance"

xmlns＝"urn:mpeg:dash:schema:mpd:2011"

xsi:schemaLocation＝"urn:mpeg:dash:schema:mpd:2011DASH-MPD.xsd"

[...]>

<AdaptationSet…]>

<SupplementalProperty schemeIdUri＝"urn:mpeg:dash:srd:2014"

value＝"1,0,0,1920,1080,1920,1080,1"/><！--视频源标识：1；空间对象的左上坐标(0,0)空间对象的长宽是(1920,1080)；空间对象参考的空间(1920.1080)；空间对象组度ID是1；这里空间对象的长宽＝空间对象参考的空间,所以Representation1(id＝1)中的表达对应的是整个视频内容-->

value＝"1,0,0,1920,1080,3840,2160,2"/><！--视频源标识：1(和上面的视频源相同的内容源)；空间对象的左上坐标(0,0)；空间对象的长宽是(1920,1080)；空间对象参考的空间(3840,2160)；空间对象组ID是2。这里空间对象的长宽是空间对象参考的空间的四分之一大小，而且从坐坐标看是左上角的空间对象即AS1,Representation2中的表达AS1的内容。同理，其他空间对象的描述如下相关描述子的描述，空间对象组ID相同的空间对象属于同一个视频内容-->

其中，上述空间对象的左上坐标、空间对象的长宽和人空间对象参考的空间，也可以是相对值，比如：上述value＝"1,0,0,1920,1080,3840,2160,2"可以描述成value＝"1,0,0,1,1,2,2,2"。

图16描述了一种服务器将客户端的视角(英文field of view，FOV)对应的空间对象码流复用的方法，客户端向服务器发起ROI请求，服务器将ROI区域对应的空间对象的segment复用并发送到客户端。所述方法可以应用在基于MPEG-DASH技术的客户端和服务器的交互中。

第一方面，本发明实施例提供了一种视频流传输方法，可包括：

客户端向服务器发送目标请求，所述目标请求包括所述客户端请求需要呈现的目标空间对象在虚拟现实VR内容成分中对应的目标空间位置信息；所述客户端接收服务器响应所述目标请求的目标请求反馈，所述目标请求反馈包括将所述目标空间对象对应的原始视频流进行了预设复用处理得到的复用视频流信息；所述客户端根据所述复用视频流信息进行视频解析呈现。即通过将请求响应的视频流进行预设复用处理来响应客户端的请求，既减少了客户端的请求个数，也减少了服务器的响应个数，而且保证了同时刻的各个视角的视频流信息的同时到达，减少了等待所有视频流都分别接收到的时间，从而减少视角的呈现时延。

结合第一方面，在第一种可能的实现方式中，所述复用视频流信息包括N个子视频流分别经过所述预设复用处理得到的N个被复用的子视频流的信息，其中，所述N个子视频流是将所述目标空间对象划分为N个子空间对象，并将所述所述N个子空间对象进行编码产生对应的子视频流，所述N为大于1的自然数；所述目标请求反馈还包括复用描述信息，所述复用描述信息包括以下项中的至少一项：所述复用视频流信息中包含的所述子视频流的个数N；所述N个子视频流中的起始子视频流在所述复用视频流信息中的起始位置偏移；所述N个被复用的子视频流的数据量信息；所述N个被复用的子视频流分别在所述VR内容成分中所对应的空间位置信息；所述N个被复用的子视频流的分辨率信息；所述N个被复用的子视频流的视频流复用类型。通过在目标请求反馈中携带复用描述信息，让客户端可以根据该复用表述信息中的内容来进行复用视频流的解析和呈现。

结合第一方面的第一种可能的实现方式，在第二种可能的实现方式中，所述复用描述信息还包括：所述N个被复用的子视频流分别在所述VR内容成分中对应的空间位置信息。客户端根据N个被复用的子视频流分别在所述VR内容成分中对应的空间位置信息来进行解析后的视频流的最终呈现。

结合第一方面的第一种可能的实现方式，在第二种可能的实现方式中，所述目标请求包括如下的至少一种：媒体表示的标识，客户端的用户的视角信息或媒体表示的空间信息。服务器根据目标请求，获得N个的子视频流进行复用。

结合第一方面的第一种可能的实现方式，或者，结合第一方面的第二种可能的实现方式，在第三种可能的实现方式中，所述复用描述信息还包括：所述N个子视频流分别在所述VR内容成分中对应的空间位置信息。因此，客户端可以根据视频流的空间位置信息，随时获知已经请求过哪些视角的子视频流，以便于后续再有重复的视角内容需要观看时，无需再重复请求，以提升VR视频传输效率，和用户体验。

结合第一方面，或者结合第一方面的第一种可能的实现方式，或者，结合第一方面的第二种可能的实现方式，或者，结合第一方面的第三种可能的实现方式，在第四种可能的实现方式中，所述目标请求还包括感兴趣区域ROI信息、所述客户端的带宽信息、所述客户端支持的解码标准信息和所述客户端的视频最大分辨率信息中的至少一项。客户端在发起视频请求时，还可以携带一些自身的视频播放条件或播放性能等的相关参数，以便于服务器以更合适的处理方式，进行视频流的处理和反馈。

结合第一方面，或者结合第一方面的第一种可能的实现方式，或者，结合第一方面的第二种可能的实现方式，或者，结合第一方面的第三种可能的实现方式，或者，结合第一方面的第四种可能的实现方式，在第五种可能的实现方式中，所述预设复用处理包括视频流二进制首尾拼接处理或视频分段二进制首尾拼接或样本交织复用处理。预设复用处理方式可以包含多种，以满足不同VR视频的不同处理需求。

第二方面，本发明实施例提供了一种视频流传输方法，可包括：

服务器接收客户端发送的目标请求，所述目标请求包括所述客户端请求需要呈现的目标空间对象在虚拟现实VR内容成分中对应的目标空间位置信息；所述服务器根据所述目标空间位置信息在所述VR内容成分中查找对应的目标空间对象；所述服务器获取将所述目标空间对象对应的视频流进行了预设复用处理得到的复用视频流信息；所述服务器向所述客户端发送响应所述目标请求的目标请求反馈，所述目标请求反馈包括所述复用视频流信息。本发明实施例，通过服务器根据客户端的请求信息中的视角位置信息，将该视角位置信息所涉及到的视频流进行复用封装，传输到客户端，该视角位置信息所涉及到的视频流是指视频内容中存在和客户端所请求的视角范围的内容有部分或者全部重叠的视频流。即服务器通过将请求响应的视频流进行预设复用处理来响应客户端的请求，既减少了客户端的请求个数，也减少了服务器的响应个数，而且保证了同时刻的各个视角的视频流信息的同时到达，减少了等待所有视频流都分别接收到的时间，从而减少视角的呈现时延。

结合第二方面，在第一种可能的实现方式中，所述服务器获取将所述目标空间对象对应的原始视频流进行了预设复用处理得到的复用视频流信息，包括：

所述服务器将所述目标空间对象划分为N个子空间对象，并将所述N个子空间对象进行编码生成对应的N个子视频流，所述N为大于1的自然数；所述服务器获取所述N个子视频流分别进行了所述预设复用处理得到的N个被复用的子视频流的信息。

结合第二方面的第一种可能的实现方式，在第二种可能的实现方式中，所述目标请求反馈还包括复用描述信息，所述复用描述信息包括以下项中的至少一项：所述复用视频流信息中包含的所述子视频流的个数N；所述N个子视频流中的起始子视频流在所述复用视频流信息中的起始位置偏移；所述N个被复用的子视频流的数据量；所述N个被复用的子视频流分别在所述VR内容成分中所对应的空间位置信息；所述N个被复用的子视频流的分辨率信息；所述N个被复用的子视频流的视频流复用类型。

结合第二方面的第二种可能的实现方式，在第三种可能的实现方式中，所述复用描述信息还包括：所述N个被复用的子视频流分别在所述VR内容成分中对应的空间位置信息。

结合第二方面的第二种可能的实现方式，或者，结合第二方面的第三种可能的实现方式，在第四种可能的实现方式中，所述复用描述信息还包括：所述N个子视频流分别在所述VR内容成分中对应的空间位置信息。

结合第二方面，或者结合第二方面的第一种可能的实现方式，或者，结合第二方面的第二种可能的实现方式，或者，结合第二方面的第三种可能的实现方式，或者，结合第二方面的第四种可能的实现方式，在第五种可能的实现方式中，所述预设复用处理包括视频流二进制首尾拼接处理，或视频分段二进制首尾拼接处理或交织复用处理。

第三方面，本发明实施例提供了一种客户端，可包括：

请求模块，用于向服务器发送目标请求，所述目标请求如下的至少一种：所述客户端请求需要呈现的目标空间对象在虚拟现实VR内容成分中对应的目标空间位置信息，媒体表示的标识，客户端的用户的视角信息或媒体表示的空间信息。；

接收模块，用于接收服务器响应所述目标请求的目标请求反馈，所述目标请求反馈包括将所述目标空间对象对应的原始视频流进行了预设复用处理得到的复用视频流信息；

处理模块，用于根据所述复用视频流信息进行视频解析呈现。

结合第三方面，在第一种可能的实现方式中，所述复用视频流信息包括N个子视频流分别经过所述预设复用处理得到的N个被复用的子视频流的信息，其中，所述N个子视频流是将所述目标空间对象划分为N个子空间对象，并将所述N个子空间对象进行编码生成的对应的子视频流，所述N为大于1的自然数；所述目标请求反馈还包括复用描述信息，所述复用描述信息包括以下项中的至少一项：

所述复用视频流信息中包含的所述子视频流的个数N；

所述N个子视频流中的起始子视频流在所述复用视频流信息中的起始位置偏移；

所述N个被复用的子视频流的数据量；

所述N个被复用的子视频流分别在所述VR内容成分中所对应的空间位置信息；

所述N个被复用的子视频流的分辨率信息；

所述N个被复用的子视频流的视频流复用类型。

结合第三方面的第一种可能的实现方式，在第二种可能的实现方式中，所述复用描述信息还包括：所述N个被复用的子视频流分别在所述VR内容成分中对应的空间位置信息。

结合第三方面的第一种可能的实现方式，或者，结合第三方面的第二种可能的实现方式，在第三种可能的实现方式中，所述复用描述信息还包括：所述N个子视频流分别在所述VR内容成分中对应的空间位置信息。

结合第三方面，或者结合第三方面的第一种可能的实现方式，或者，结合第三方面的第二种可能的实现方式，或者，结合第三方面的第三种可能的实现方式，在第四种可能的实现方式中，所述目标请求还包括感兴趣区域ROI信息、所述客户端的带宽信息、所述客户端支持的解码标准信息和所述客户端的视频最大分辨率信息中的至少一项。

结合第三方面，或者结合第三方面的第一种可能的实现方式，或者，结合第三方面的第二种可能的实现方式，或者，结合第三方面的第三种可能的实现方式，或者，结合第三方面的第四种可能的实现方式，在第五种可能的实现方式中，所述预设复用处理包括视频流二进制首尾拼接处理或视频分段二进制首尾拼接或样本交织复用处理。

第四方面，本发明实施例提供了一种视频流传输方法，可包括：

接收模块，用于接收客户端发送的目标请求，所述目标请求如下的至少一种：所述客户端请求需要呈现的目标空间对象在虚拟现实VR内容成分中对应的目标空间位置信息，媒体表示的标识，客户端的用户的视角信息或媒体表示的空间信息。；

解析模块，用于根据所述目标空间位置信息在所述VR内容成分中查找对应的目标空间对象；

获取模块，用于获取将所述目标空间对象对应的原始视频流进行了预设复用处理得到的复用视频流信息；

反馈模块，用于向所述客户端发送响应所述目标请求的目标请求反馈，所述目标请求反馈包括所述复用视频流信息。

结合第四方面，在第一种可能的实现方式中，所述获取模块，包括：

划分单元，用于将所述目标空间对象划分为N个子空间对象，并将所述N个子空间对象进行编码生成对应的N个子视频流，所述N为大于1的自然数；

获取单元，用于获取所述N个子视频流分别进行了所述预设复用处理得到的N个被复用的子视频流的信息。

结合第四方面的第一种可能的实现方式，在第二种可能的实现方式中，所述目标请求反馈还包括复用描述信息，所述复用描述信息包括以下项中的至少一项：

所述复用视频流信息中包含的所述子视频流的个数N；

所述N个被复用的子视频流的大小；

所述N个被复用的子视频流的分辨率信息；

所述N个被复用的子视频流的视频流复用类型。

结合第四方面的第二种可能的实现方式，在第三种可能的实现方式中，所述复用描述信息还包括：

所述N个被复用的子视频流分别在所述VR内容成分中对应的空间位置信息。

结合第四方面的第二种可能的实现方式，或者，结合第四方面的第三种可能的实现方式，在第四种可能的实现方式中，所述复用描述信息还包括：所述N个子视频流分别在所述VR内容成分中对应的空间位置信息。

结合第四方面，或者结合第四方面的第一种可能的实现方式，或者，结合第四方面的第二种可能的实现方式，或者，结合第四方面的第三种可能的实现方式，或者，结合第四方面的第四种可能的实现方式，在第五种可能的实现方式中，所述预设复用处理包括视频流二进制首尾拼接处理或视频分段二进制首尾拼接或样本交织复用处理。

第五方面，本发明实施例提供了一种客户端，可包括处理器、存储器和收发器，其中，存储器用于存储指令，处理器用于调用存储器中存储的指令来执行如本发明实施例第一方面任一方法中所描述的部分或全部步骤。

第六方面，本发明实施例提供了一种服务器，可包括处理器、存储器和收发器，其中，存储器用于存储指令，处理器用于调用存储器中存储的指令来执行如本发明实施例第二方面任一方法中所描述的部分或全部步骤。

本发明第七方面的实施例提供了一种基于流媒体技术的视频数据的处理方法，所述方法包括：

服务器接收客户端发送的视频数据获取请求，所述获取请求包括空间对象的信息；

所述服务器根据所述空间对象的信息确定至少两个媒体表示对应的视频数据；

所述服务器将所述至少两个媒体表示对应的视频数据封装成一个码流；

所述服务器将所述码流向所述客户端发送。

在一种可能的实现方式中，所述空间对象的信息包括如下的至少一种：

媒体表示的标识，客户端的用户的视角信息或媒体表示的空间信息。

在一种可能的实现方式中，所述码流包括如下的至少一种信息：

媒体表示的数量；

媒体表示在所述码流中的起始位置偏移；

媒体表示的数据量信息；

媒体表示对应的空间位置信息；

媒体表示的视频流复用类型；

或者

媒体表示的分辨率信息。

在一种可能的实现方式中，述码流包括封装标识；所述标识用于指示码流采用的是分段交织的封装方式或者码流采用的是样本交织的封装方式。

本发明第八方面的实施例一种基于流媒体技术的视频数据的处理方法，所述方法包括：

客户端向服务器发送的视频数据获取请求，所述获取请求包括空间对象的信息；

所述客户端接收所述服务器响应所述视频数据获取请求后发送的码流，其中，所述码流包括至少两个媒体表示的数据。

媒体表示的数量；

媒体表示在所述码流中的起始位置偏移；

媒体表示的数据量信息；

媒体表示对应的空间位置信息；

媒体表示的视频流复用类型；

或者

媒体表示的分辨率信息。

在一种可能的实现方式中，所述码流包括封装标识；所述标识用于指示码流采用的是分段交织的封装方式或者码流采用的是样本交织的封装方式。

本发明第九方面的实施例一种基于流媒体技术的服务器，所述服务器包括：

接收器，用于接收客户端发送的视频数据获取请求，所述获取请求包括空间对象的信息；

处理器，用于根据所述空间对象的信息确定至少两个媒体表示对应的视频数据；

所述处理器还用于将所述至少两个媒体表示对应的视频数据封装成一个码流；

发送器，用于将所述码流向所述客户端发送。

媒体表示的数量；

媒体表示在所述码流中的起始位置偏移；

媒体表示的数据量信息；

媒体表示对应的空间位置信息；

媒体表示的视频流复用类型；

或者

媒体表示的分辨率信息。

本发明第十方面的实施例一种基于流媒体技术的客户端，所述客户端包括：

发送器，用于向服务器发送的视频数据获取请求，所述获取请求包括空间对象的信息；

接收器，用于接收所述服务器响应所述视频数据获取请求后发送的码流，其中，所述码流包括至少两个媒体表示的数据。

媒体表示的数量；

媒体表示在所述码流中的起始位置偏移；

媒体表示的数据量信息；

媒体表示对应的空间位置信息；

媒体表示的视频流复用类型；

或者

媒体表示的分辨率信息。

实施本发明实施例，具有如下有益效果：

本发明实施例，通过服务器根据客户端的请求信息中的视角位置信息，将该视角位置信息所涉及到的视频流进行复用封装，传输到客户端，该视角位置信息所涉及到的视频流是指视频内容中存在和客户端所请求的视角范围的内容有部分或者全部重叠的视频流。即服务器通过将请求响应的视频流进行预设复用处理来响应客户端的请求，既减少了客户端的请求个数，也减少了服务器的响应个数，而且保证了同时刻的各个视角的视频流信息的同时到达，减少了等待所有视频流都分别接收到的时间，从而减少视角的呈现时延。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的码流分段的切换的示意图；

图2为本发明实施例提供的mdp文件的分级式结构图；

图3是本发明实施例提供的空间对象的空间关系示意图；

图4是本发明实施例提供的视频流传输系统的网络架构示意图；

图5是本发明实施例提供的一种视频流传输方法的流程示意图；

图6是本发明实施例提供的360度视角变化图；

图7是本发明实施例提供的球面到经纬图的映射；

图8是本发明实施例提供的另一种视频流传输方法的流程示意图；

图9是本发明实施例提供的复用后的视频流示意图；

图10是本发明实施例提供的视频流中的样本交织复用示意图；

图11是本发明实施例提供的一种客户端的结构示意图；

图12是本发明实施例提供的一种服务器的结构示意图；

图13是本发明实施例提供的另一种客户端的结构示意图；

图14是本发明实施例提供的另一种服务器的结构示意图；

图15是本发明实施例提供的一种视频流传输系统的结构示意图。

图16是本发明实施例的分段复用的系统架构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

以下，对本申请中的部分用语进行解释说明，以便于本领域技术人员理解。

1)客户端，可以是以软件或APP的形式安装于终端设备上，也可以是以系统内部的固有功能组件的形式存在于终端设备(如带有VR视频观看的终端设备)上的客户端，即本发明中所提及的客户端是指已成功安装客户端的终端设备。而终端设备则包括但不限于可以进行VR视频观看体验的各种形式的用户设备(User Equipment，UE)，如接入终端、终端设备、用户单元、用户站、移动站、移动台、远方站、远程终端、移动设备、用户终端、终端、无线通信设备、用户代理或用户装置、蜂窝电话、无绳电话、智能手机、平板电脑、会话启动协议(Session Initiation Protocol，SIP)电话、无线本地环路(Wireless Local Loop，WLL)站、智能手环、智能穿戴设备(如智能眼镜、智能头盔等)、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面3)播放器、个人数字处理(Personal Digital Assistant，PDA)、具有无线通信功能的手持设备、计算设备或连接到无线调制解调器的其它处理设备、车载设备以及未来5G网络中的终端设备等。

2)、服务器，可以存储大量的VR视频文件、完成与客户端的请求交互，实现对VR视频的编码、解码以及复用等处理操作的云服务设备、终端设备、或核心网设备等。

3)“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

下面结合附图对本申请的实施例进行描述。

为了便于理解本发明实施例，下面先对本发明实施例所基于的视频流传输系统的网络架构进行描述。图4是本发明实施例提供的视频流传输系统的网络架构示意图，请参阅图4，该系统中包括客户端和服务器，其中，用户可以利用客户端通过有线网络或者是无线网络向服务器发起用VR视频请求，服务器接收到该请求后则响应该VR视频请求向客户端反馈相应的VR视频内容，最终，客户端对反馈的VR视频内容进解析，并为用户呈现VR视频效果，即用户通过客户端与服务器之间的视频流交互实现VR视频的体验。

在本发明各实施例中，客户端的功能包括但不限于：根据客户端当前的视角位置信息向客户端发送VR视频请求，该请求携带了客户端的视角信息、复用描述信息等。服务器的功能包括但不限于：管理VR视频的所有媒体流文件的描述信息，描述信息包括视频流的内容在VR视频中的空间位置信息；获取客户端的请求信息，并解析请求中所携带的视角信息；根据视角信息读取视角对应的视频流；将用户视角所涉及的视频流封装复用，封装复用后的文件中包含有各个视角的复用描述信息。可以理解的是，服务器也可以是内容分发网络(Content Delivery Network，CDN)中的一个逻辑模块。可以理解的是，以上网络架构只是本发明实施例中的其中一种实施方式，本发明实施例中的网络架构包括但不仅限于以上网络架构，只要能够实现本发明中的视频流传输方法的网络架构均属于本发明所保护和涵盖的范围。

参见图5，图5是本发明实施例提供的一种视频流传输方法的流程示意图。下面将结合附图5从客户端和服务器的交互侧对本发明实施例中的视频流传输方法进行详细描述。该方法可以包括以下步骤S501-步骤S505。

步骤S501：客户端向服务器发送目标请求，服务器接收客户端发送的目标请求，所述目标请求包括所述客户端请求需要呈现的目标空间对象在虚拟现实VR内容成分中对应的目标空间位置信息，媒体表示的标识，客户端的用户的视角信息或媒体表示的空间信息中的至少一种。

具体地，空间对象(Spatial Objects)是一个内容成分的一部分空间，即一个内容成分由多个空间对象组成，通俗来讲，当应用于VR视频中时，则可以理解为一个VR视频可以由多个视角对应的子视频所组成。媒体表示的标识是子视频流的标识，客户端的用户的视角信息是空间对象信息，即在本发明实施例中，VR内容成分可以是VR视频，目标空间对象可以是在VR视频中用户需要呈现的视角部分，可以称之为感兴趣区域(Region of Interest，ROI)，在机器视觉、图像处理中，将被处理的图像以方框、圆、椭圆、不规则多边形等方式勾勒出需要处理的区域，称为感兴趣区域。

由于VR视频和通常的视频的差别就是，通常的视频都是整个视频内容都会被呈现给用户，而VR视频只有整个视频的一个子集(子视频)呈现，即当VR视频(或者360度视频，或者全方位视频(Omnidirectional video))在头带设备和手持设备上呈现时，只有VR视频中对应于用户头部的方位的面积和相关联的音频的部分会最终呈现。因此，目标请求中携带的目标空间位置信息则可以认为是用户当前感兴趣需要呈现的视角区域。可以理解的是，该目标请求可以是由客户端的角度移动动作触发的，也可以是用户的相关输入指令等触发的，本发明对此不作具体限定。

例如，用户可以360度的观看VR视频，但是在每个时刻上用户观看的视频显示区域只是VR视频的一部分，所以在内容准备时，会将VR划分成多个区域，每个区域对应一组自适应的码流，客户端根据用户观看的区域选择对应的视频码流接收观看。如图6所示，图6是本发明实施例提供的360度视角变化图，在图6中，左边框和右边框中的内容分别是用户的两个视角区域，用户在观看视频的时候，用户通过某种操作(如转动智能头盔)，视角左边框转变为右边框，当用户的视角转换到右边框后，客户端也要呈现响应的视角区域的视频内容；用户观看内容的视角位置是任意的，那么就存在用户观看某个视角时，该视角的内容会出现在多个VR划分的区域中，用户需要获取更多区域的视频流。可以理解的是，在现有的VR的2D图像映射中，除了将图6中的球面映射为经纬图，还可以将球面映射为立方体，多面体等其它集合体，在下面的描述中以经纬度为图像的2D的图像映射方式描述为主，但是其它的映射方式也属于本发明所保护涵盖的范围。

如图7所示，图7是本发明实施例提供的球面到经纬图的映射，在该图中假设目标空间位置信息是视角区域的左上方位置在VR视频中的坐标和视角区域的宽高信息，例如为图6中右边部分的左上位置在经纬图中的坐标为(x，y)，右边框的长宽是(w，h)，则在客户端的请求中会携带x,y,w,h的值，或者是x,y,w,h的等比缩放值，也可以是在球体中的角度值。

在一种可能的实现方式中，目标请求还包括感兴趣区域ROI信息、所述客户端的带宽信息、所述客户端支持的解码标准信息和所述客户端的视频最大分辨率信息中的至少一项。即客户端在发起视频请求时，还可以携带一些自身的视频播放条件或播放性能等的相关参数，以便于服务器以更合适的处理方式，进行视频流的处理和反馈。

步骤S502：所述服务器根据所述目标空间位置信息在所述VR内容成分中查找对应的目标空间对象。

具体地，服务器根据接收到的目标请求中的目标空间位置信息，在VR成分内容中查找出相对应的目标空间对象，以便于后续获得该目标空间对象对应的视频流。例如，服务器接收到客户端的目标请求后，解析目标请求获得客户端请求的视角信息，根据客户端的视角信息，从媒体呈现描述信息中获得和客户端视角区域有重叠内容的视频流。

步骤S503：所述服务器获取将所述目标空间对象对应的原始视频流进行了预设复用处理得到的复用视频流信息。

具体地，服务器在确定了目标空间对象(例如用户的目标视角)后，获取将该目标空间对象对应的原始视频流进行了预设复用处理得到的复用视频流信息。需要说明的是，对目标空间对象对应的原始视频流进行预设复用处理的操作，可以是服务器在接收到目标请求之前就已经完成的，也可以是在接收到目标请求之后才进行的处理。若是在接收到目标请求之前就完成的，便可以节省响应请求的时间，即在确定了目标空间对象之后，就直接获取预先处理好的该目标空间对象对应的原始视频流进行了预设复用处理的复用视频流信息，提高服务器的响应速率，缩短响应时间，提升用户的观看体验；若是在接收到目标请求之后才进行的预设复用处理，则需要耗费一定的复用处理时间，但是可以节省预先需要进行大量预设复用处理所需要的存储空间；当然也可以是上述两种方式的相结合，即将部分用户可能需要常用观看的内容，进行提前预设复用处理，而将用户可能不需要观看的内容，在接收到目标请求之后才去进行处理获取，因此本发明对服务器在何时对相关的目标空间对象对应的原始视频流进行的预设复用处理，不做具体限定。

例如，服务器根据和客户端视角区域有重叠内容的视频流的信息，获得对应的视频流，将视频流进行预设复用处理；如图6经纬图中右边框中是客户端请求中的视角区域，A到I区域是媒体呈现描述信息中描述的9个区域，码流复用模块根据右边框的信息和A到I的9个区域的位置信息，可以推导出右边框内容区域覆盖B，C，E，F四个区域；码流复用模块从码流获取模块中获得B，C，E，F四个区域对应的视频码流，将4个视频流进行复用，在复用后的视频流中包含所复用的视频流描述信息，该视频流描述信息包含有以下部分或者全部信息：复用视频流中的视频流的个数，每个被复用的视频流的空间区域位置信息，每个被复用的视频流的分辨率信息，每个被复用视频流在复用视频流中的存储位置信息，视频流复用类型，各视角所对应的视频源的分辨率信息。而具体的预设复用处理可以是所复用的视频流的码流文件在复用文件中二进制首尾拼接，或者样本交织存储等处理方式。

在一种可能的实现方式中，复用视频流信息包括N个子视频流分别经过预设复用处理得到的N个被复用的子视频流的信息，N个子视频流与N个被复用的子视频流为一一对应关系。其中，N个子视频流是将目标空间对象划分为N个子空间对象，并将原始视频流按照N个子空间对象进行划分生成的对应的子视频流，N为大于1的自然数；目标请求反馈还包括复用描述信息，复用描述信息包括以下项中的至少一项：复用视频流信息中包含的子视频流的个数N；N个子视频流中的起始子视频流在复用视频流信息中的起始位置偏移；N个被复用的子视频流的大小；N个被复用的子视频流分别在VR内容成分中所对应的空间位置信息；N个被复用的子视频流的分辨率信息；N个被复用的子视频流的视频流复用类型；N个子视频流的分辨率信息，即复用描述信息中携带的各类信息的作用是便于让客户端根据复用描述信息完成用户所请求的VR视频的解析和呈现。

步骤S504：所述服务器向所述客户端发送响应所述目标请求的目标请求反馈，所述客户端接收服务器响应所述目标请求的目标请求反馈，所述目标请求反馈包括将所述目标空间对象对应的原始视频流进行了预设复用处理得到的复用视频流信息。

具体地，由于在现有技术中，用户请求获取的内容，服务器会直接返回对应的视频流，因此可能存在大量的视频流编码冗余，特别是对于在某些VR视频场景中，存在一些重复的场景，比如在旅游观光的VR体验场景中，可能天空的颜色，或者河流的颜色和纹理基本一致，因此可以将该部分重复内容进行复用，以节省视频流的传输带宽、时间和效率。

在一种可能的实现方式中，所述复用描述信息还包括：所述N个被复用的子视频流分别在所述VR内容成分中对应的空间位置信息。复用描述信息中包含了多个被复用的子视频流的具体空间位置信息，因此，客户端可以根据复用描述信息中的该信息，最终解析呈现用户需要观看的VR视频。

在一种可能的实现方式中，所述复用描述信息还包括：所述N个子视频流分别在所述VR内容成分中对应的空间位置信息。因此，客户端可以根据视频流的空间位置信息，随时获知已经请求过哪些视角的子视频流，以便于后续再有重复的视角内容需要观看时，无需再重复请求，以提升VR视频传输效率，和用户体验。

在一种可能的实现方式中，所述预设复用处理包括视频流二进制首尾拼接处理或视频分段二进制首尾拼接或样本交织复用处理。即预设复用处理方式可以包括多种，本发明对此不作具体限定。

步骤S505：所述客户端根据所述复用视频流信息进行视频解析呈现。

具体地，客户端根据接收到的服务器发送的目标请求反馈中携带的复用视频流信息对相关的视频流进行解析，并最终呈现。例如，客户端获得复用后的视频流，解析复用后的视频流中的所复用的视频流描述信息，将视频流送入解码器解码，将解码后的视频流视频内容按照所复用的视频流描述信息中描述的信息进行呈现。在本发明中，除了复用各个视角对应的视频流，还可以包括其它需要传输到客户端的视频流。

本发明实施例，服务器根据客户端的请求信息中的视角位置信息，将该视角位置信息所涉及到的视频流进行复用封装，传输到客户端；该视角位置信息所涉及到的视频流是指视频内容中存在和客户端所请求的视角范围的内容有部分或者全部重叠的视频流。即通过将请求响应的视频流进行预设复用处理来响应客户端的请求，既减少了客户端的请求个数，也减少了服务器的响应个数，而且保证了同时刻的各个视角的视频流信息的同时到达，减少了等待所有视频流都分别接收到的时间，从而减少视角的呈现时延。

参见图8，图8是本发明实施例提供的另一种视频流传输方法的流程示意图。下面将结合附图8从客户端和服务器的交互侧对本发明实施例中的另一种视频流传输方法进行详细描述，该方法可以包括以下步骤S801-步骤S805。

图8提供的实施例中的步骤S801-步骤S802分别与图2提供的实施例中的步骤S501-步骤S502相同，具体的实现方式，这里不再赘述。

步骤S803：所述服务器将所述目标空间对象划分为N个子空间对象，并所述N个子空间对象进行编码生成对应的N个子视频流，所述N为大于1的自然数。

具体地，将目标空间对象划分为多个子空间对象，以便于更细化地复用多个空间对应的不同子视频流，进一步提升视频流的复用效率。其中，将目标空间对象划分为N个子空间对象的原则，可以是按照空间位置的连续性来划分，也可以是按照视频的内容或者重叠性来划分。

步骤S804：所述服务器获取所述N个子视频流分别进行了所述预设复用处理得到的N个被复用的子视频流的信息。

具体地，服务器确定了多个子空间对象后，获取对该多个子空间对象进行了预设复用处理从而得到的多个被复用的子视频流的信息，以最终以较小的码率传输给客户端，节省带宽提升传输效率。可以理解的是，可以是预先就进行了预设复用处理，也可以是确定了子空间后才进行的预设复用处理。

图8提供的实施例中的步骤S805-步骤S806分别与图5提供的实施例中的步骤S504-步骤S505相同，具体的实现方式，这里不再赘述。

进一步地，上述实施例中所涉及的使用预设复用处理视频流的相关复用描述信息的几种描述方式，可以通过以下具体的描述方式中的任意一种实现：

描述方式一：

其中

FOVCount:复用视频流信息中的子视频流的个数

first_offset：复用视频流信息中的第一个视角的子视频流在复用视频流中的偏移

FOV_size：每个被复用的子视频流在复用视频流中的大小

1、客户端接收到复用视频流信息，解析‘fovm’中的所复用的视频流描述信息，获得子视频流的个数，子视频流的偏移和大小信息；

2、根据子视频流个数，初始化多个视频流的解码器；

3、根据每个子视频流的偏移和数据量信息，将获取到的被复用视频流，解复用，获得每个视频流的数据送入对应的视频流的解码器进行解码和呈现。

如图9所示，图9为本发明实施例提供的复用后的视频流示意图，图9中视频1到视频n是同时间段内的视频内容，其它数据可以不存在；

first_offset是视频1的起始位置偏移。

描述方式二：

x：N个被复用的子视频流分别在VR内容成分中对应的x轴位置信息

y：N个被复用的子视频流分别在VR内容成分中对应的y轴位置信息

w：N个被复用的子视频流的宽

h：N个被复用的子视频流的高

客户端接收到复用流的行为：

1、前三个步骤和描述方式一中的客户端行为一致，第四步中的呈现是按照fovm中的xywh信息将解码后的图像拼接呈现；

步骤五：结合客户端请求携带的ROI信息，呈现拼接好的视频流内容。

描述方式三：

ROI_x：客户端请求的N个子视频流分别在VR内容成分中对应的x轴位置信息

ROI_y：客户端请求的N个子视频流分别在VR内容成分中对应的y轴位置信息

ROI_w：客户端请求的N个子视频流的宽

ROI_h：客户端请求的N个子视频流的高

本描述方式中新增的ROI信息可以和描述方式一和二中的信息一同使用；

1、第一到四的步骤和描述方式二中的客户端行为一致，第五步骤描述为：在多个视角拼接好的内容里，将ROI_x，ROI_y，ROI_w，ROI_h指定的区域的视频内容呈现；

描述方式四：

MultiplexType：所复用的视频流的码流文件在复用文件中的复用方式：视频流码流(或者码流分段)二进制首尾拼接，或者各个视频流中的样本交织复用

sample_offset:样本在复用文件中的偏移

sample_size：样本的大小；

在本样例中的语法可以和上述的描述方式一，二和三一同使用

客户端接收到复用视频流的行为：

1、客户端接收到复用视频流，解析‘fovm’中的所复用的视频流描述信息，获得复用视频流的方式信息；

2、客户端根据复用方式信息，判断获取各个视角数据的复用方式；如果复用方式为首尾拼接方式，那么客户端解析偏移信息和数据量信息，将每个视角的数据送入解码器；如果样本交织方式，那么客户端解析每个样本的偏移和数据量信息，将每个样本送入对应的解码器。如图10所示，图10为本发明实施例提供的视频流中的样本交织复用示意图，图中可将不同视角的时频(视频1、2和3)通过交织的方式进行复用。方格线、斜线以及竖线对应的子视频流可以经过交织的方式进行复用，复用结果为图10右侧的复用视频流。

描述方式五：

或者

在本描述方式中增加了每个视频流对应的视频源的分辨率信息，source_w和source_h分别是视角对应的视频源的宽高。

在上述的五种描述方式中涉及到的各个空间位置的语法，可以是VR视频内容中的绝对位置信息，也可以是比例值，或者是偏航角度。

在本发明实施例中，客户端的请求信息采用HTTP协议，在http的get请求中，携带客户端的视角区域信息，比如实施例中提及的x,y,w,h。

在本发明实施例中，客户端的请求信息中，还可以携带客户端的带宽，客户端支持的解码标准或者视频最大分辨率等信息；服务器根据请求携带的信息，选择符合客户端性能要求的视频流进行复用传输。

在本发明实施例中，复用的视频流数据可以是DASH协议中的segment媒体数据。

在本发明实施例中，复用所涉及到的码流可以包含服务器侧所产生的码流的内容和客户端所请求的内容区域有部分或者全部重叠的码流。

本发明实施例，保留了图5实施例中的方法和相对应的有益效果，并且详细讲述了多种预设复用处理的具体实现方式，进一步增强了本发明的可实施性，且更加完善的提升了视频流传输的效率。

为了便于更好地实施本发明实施例中图5和图8对应的视频流传输方法，本发明还提供了用于实现实施上述方法的相关设备。

请参见图11，图11是本发明实施例提供的一种客户端的结构示意图，如图11所示，客户端10包括：请求模块101、接收模块102、处理模块103。

请求模块101，用于向服务器发送目标请求，所述目标请求包括所述客户端请求需要呈现的目标空间对象在虚拟现实VR内容成分中对应的目标空间位置信息；

接收模块102，用于接收服务器响应所述目标请求的目标请求反馈，所述目标请求反馈包括将所述目标空间对象对应的原始视频流进行了预设复用处理得到的复用视频流信息；

处理模块103，用于根据所述复用视频流信息进行视频解析呈现。

具体地，所述复用视频流信息包括N个子视频流分别经过所述预设复用处理得到的N个被复用的子视频流的信息，其中，所述N个子视频流是将所述目标空间对象划分为N个子空间对象，并将所述N个子空间对象进行编码生成的对应的子视频流，所述N为大于1的自然数；所述目标请求反馈还包括复用描述信息，所述复用描述信息包括以下项中的至少一项：

所述复用视频流信息中包含的所述子视频流的个数N；

所述N个被复用的子视频流的数据量；

所述N个被复用的子视频流的分辨率信息；

所述N个被复用的子视频流的视频流复用类型。

进一步地，所述复用描述信息还包括：

再进一步地，所述复用描述信息还包括：

所述N个子视频流分别在所述VR内容成分中对应的空间位置信息。

再进一步地，其特征在于，所述目标请求还包括感兴趣区域ROI信息、所述客户端的带宽信息、所述客户端支持的解码标准信息和所述客户端的视频最大分辨率信息中的至少一项。

再进一步地，所述预设复用处理包括视频流二进制首尾拼接处理或视频分段二进制首尾拼接或样本交织复用处理。

可理解的是，客户端10中各模块的功能可对应参考上述图5至图10中的各方法实施例中的具体实现方式，这里不再赘述。

请参见图12，图12是本发明实施例提供的一种服务器的结构示意图，如图12所示，服务器20包括：接收模块201、解析模块202、获取模块203和反馈模块204。

接收模块201，用于接收客户端发送的目标请求，所述目标请求包括所述客户端请求需要呈现的目标空间对象在虚拟现实VR内容成分中对应的目标空间位置信息；

解析模块202，用于根据所述目标空间位置信息在所述VR内容成分中查找对应的目标空间对象；

获取模块203，用于获取将所述目标空间对象对应的原始视频流进行了预设复用处理得到的复用视频流信息；

反馈模块204，用于向所述客户端发送响应所述目标请求的目标请求反馈，所述目标请求反馈包括所述复用视频流信息。

具体地，获取模块203，包括：

划分单元，用于将所述目标空间对象划分为N个子空间对象，并将所述原始视频流按照所述N个子空间对象进行划分生成对应的N个子视频流，所述N为大于1的自然数；

进一步地，所述目标请求反馈还包括复用描述信息，所述复用描述信息包括以下项中的至少一项：

所述复用视频流信息中包含的所述子视频流的个数N；

所述N个被复用的子视频流的大小；

所述N个被复用的子视频流的分辨率信息；

所述N个被复用的子视频流的视频流复用类型。

再进一步地，所述复用描述信息还包括：

可理解的是，服务器20中各模块的功能可对应参考上述图5至图10中的各方法实施例中的具体实现方式，这里不再赘述。

参见图13，图13是本发明实施例提供的另一种客户端的结构示意图，如图13所示，客户端30包括处理器301、存储器302和收发器303。其中处理器301、存储器302和收发器303可以通过总线或其他方式连接。

可选的，客户端30还可以包括网络接口304和电源模块305。

其中，处理器301可以是数字信号处理(Digital Signal Processing，DSP)芯片。

存储器302用于存储指令，具体实现中，存储器302可以采用只读存储器(英文：Read-Only Memory，简称：ROM)或随机存取存贮器(英文：Random Access Memory，简称：RAM)，在本发明实施例中，存储器302用于存储视频流传输程序代码。

收发器303用于收发信号。

网络接口304用于客户端30与其他设备进行数据通信。该网络接口304可以为有线接口或无线接口。

电源模块305用于为客户端30的各个模块供电。

处理器301用于调用存储器302中存储的指令来执行如下操作：

通过收发器303向服务器发送目标请求，所述目标请求包括所述客户端请求需要呈现的目标空间对象在虚拟现实VR内容成分中对应的目标空间位置信息；

通过收发器303接收服务器响应所述目标请求的目标请求反馈，所述目标请求反馈包括将所述目标空间对象对应的原始视频流进行了预设复用处理得到的复用视频流信息；

根据所述复用视频流信息进行视频解析呈现。

具体地，所述复用视频流信息包括N个子视频流分别经过所述预设复用处理得到的N个被复用的子视频流的信息，其中，所述N个子视频流是将所述目标空间对象划分为N个子空间对象，并将所述原始视频流按照所述N个子空间对象进行划分生成的对应的子视频流，所述N为大于1的自然数；所述目标请求反馈还包括复用描述信息，所述复用描述信息包括以下项中的至少一项：

所述复用视频流信息中包含的所述子视频流的个数N；

所述N个被复用的子视频流的大小；

所述N个被复用的子视频流的分辨率信息；

所述N个被复用的子视频流的视频流复用类型。

进一步地，所述复用描述信息还包括：

再进一步地，所述复用描述信息还包括：

再进一步地，所述目标请求还包括感兴趣区域ROI信息、所述客户端的带宽信息、所述客户端支持的解码标准信息和所述客户端的视频最大分辨率信息中的至少一项。

需要说明的是，本发明实施例所描述的客户端30中各功能模块的功能可参见上述图5至图10中所示实施例中对应的客户端的相关描述，此处不再赘述。

参见图14，图14是本发明实施例提供的另一种服务器的结构示意图。如图14所示，服务器40包括处理器401、存储器402和收发器403。其中处理器401、存储器402和收发器403可以通过总线或其他方式连接。

可选的，服务器40还可以包括网络接口404和电源模块405。

其中，处理器401可以是数字信号处理(Digital Signal Processing，DSP)芯片。

存储器402用于存储指令，具体实现中，存储器402可以采用只读存储器(英文：Read-Only Memory，简称：ROM)或随机存取存贮器(英文：Random Access Memory，简称：RAM)，在本发明实施例中，存储器402用于存储视频流传输程序代码。

收发器403用于收发信号。

网络接口404用于服务器40与其他设备进行数据通信。该网络接口404可以为有线接口或无线接口。

电源模块405用于为服务器40的各个模块供电。

处理器401用于调用存储器402中存储的指令来执行如下操作：

通过收发器403接收客户端发送的目标请求，所述目标请求包括所述客户端请求需要呈现的目标空间对象在虚拟现实VR内容成分中对应的目标空间位置信息；

根据所述目标空间位置信息在所述VR内容成分中查找对应的目标空间对象；

获取将所述目标空间对象对应的原始视频流进行了预设复用处理得到的复用视频流信息；

通过收发器403向所述客户端发送响应所述目标请求的目标请求反馈，所述目标请求反馈包括所述复用视频流信息。

具体地，处理器401用于获取将所述目标空间对象对应的原始视频流进行了预设复用处理得到的复用视频流信息，具体为：

将所述目标空间对象划分为N个子空间对象，并将所述N个子空间对象进行编码生成对应的N个子视频流，所述N为大于1的自然数；

获取所述N个子视频流分别进行了所述预设复用处理得到的N个被复用的子视频流的信息。

所述复用视频流信息中包含的所述子视频流的个数N；

所述N个被复用的子视频流的数据量；

所述N个被复用的子视频流的分辨率信息；

所述N个被复用的子视频流的视频流复用类型；

所述N个子视频流的分辨率信息。

再进一步地，所述复用描述信息还包括：

需要说明的是，本发明实施例所描述的服务器40中各功能模块的功能可参见上述图5至图10中所示实施例中对应的服务器的相关描述，此处不再赘述。

图15是本发明实施例提供的一种视频流传输系统的结构示意图，视频流传输系统50包括VR客户端501与VR服务器502，其中

VR客户端501可以为上述图13实施例中的客户端30，VR服务器502可以为上述图14实施例中的服务器40。可理解的是，本发明实施例中的视频流传输系统50还可以包括摄影设备、存储设备、路由设备、交换设备和核心网服务器等设备。

本发明实施例还提供一种计算机存储介质，其中，该计算机存储介质可存储有程序，该程序执行时包括上述方法实施例中记载的任意一种视频流传输方法的部分或全部步骤。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可能可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以为个人计算机、服务器或者网络设备等，具体可以是计算机设备中的处理器)执行本发明各个实施例上述方法的全部或部分步骤。其中，而前述的存储介质可包括：U盘、移动硬盘、磁碟、光盘、只读存储器(英文：Read-Only Memory，缩写：ROM)或者随机存取存储器(英文：Random Access Memory，缩写：RAM)等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

一种视频流传输方法，其特征在于，包括：

客户端向服务器发送目标请求，所述目标请求包括所述客户端请求需要呈现的目标空间对象在虚拟现实VR内容成分中对应的目标空间位置信息；

所述客户端接收服务器响应所述目标请求的目标请求反馈，所述目标请求反馈包括将所述目标空间对象对应的原始视频流进行了预设复用处理得到的复用视频流信息；

所述客户端根据所述复用视频流信息进行视频解析呈现。
如权利要求1所述的方法，其特征在于，所述复用视频流信息包括N个子视频流分别经过所述预设复用处理得到的N个被复用的子视频流的信息，其中，所述N个子视频流是将所述目标空间对象划分为N个子空间对象，并将所述原始视频流按照所述N个子空间对象进行划分生成的对应的子视频流，所述N为大于1的自然数；所述目标请求反馈还包括复用描述信息，所述复用描述信息包括以下项中的至少一项：

所述复用视频流信息中包含的所述子视频流的个数N；

所述N个子视频流中的起始子视频流在所述复用视频流信息中的起始位置偏移；

所述N个被复用的子视频流的大小；

所述N个被复用的子视频流分别在所述VR内容成分中所对应的空间位置信息；

所述N个被复用的子视频流的分辨率信息；

所述N个被复用的子视频流的视频流复用类型；

所述N个子视频流的分辨率信息。
如权利要求2所述的方法，其特征在于，所述复用描述信息还包括：

所述N个被复用的子视频流分别在所述VR内容成分中对应的空间位置信息。
如权利要求2或3所述的方法，其特征在于，所述复用描述信息还包括：

所述N个子视频流分别在所述VR内容成分中对应的空间位置信息。
如权利要求1-4任意一项所述的方法，其特征在于，所述目标请求还包括感兴趣区域ROI信息、所述客户端的带宽信息、所述客户端支持的解码标准信息和所述客户端的视频最大分辨率信息中的至少一项。
如权利要求1-5任意一项所述的方法，其特征在于，所述预设复用处理包括视频流二进制首尾拼接处理或视频分段二进制首尾拼接或样本交织复用处理。
一种视频流传输方法，其特征在于，包括：

服务器接收客户端发送的目标请求，所述目标请求包括所述客户端请求需要呈现的目标空间对象在虚拟现实VR内容成分中对应的目标空间位置信息；

所述服务器根据所述目标空间位置信息在所述VR内容成分中查找对应的目标空间对象；

所述服务器获取将所述目标空间对象对应的原始视频流进行了预设复用处理得到的复用视频流信息；

所述服务器向所述客户端发送响应所述目标请求的目标请求反馈，所述目标请求反馈包括所述复用视频流信息。
如权利要求7所述的方法，其特征在于，所述服务器获取将所述目标空间对象对应的原始视频流进行了预设复用处理得到的复用视频流信息，包括：

所述服务器将所述目标空间对象划分为N个子空间对象，并将所述原始视频流按照所述N个子空间对象进行划分生成对应的N个子视频流，所述N为大于1的自然数；

所述服务器获取所述N个子视频流分别进行了所述预设复用处理得到的N个被复用的子视频流的信息。
如权利要求8所述的方法，其特征在于，所述目标请求反馈还包括复用描述信息，所述复用描述信息包括以下项中的至少一项：

所述复用视频流信息中包含的所述子视频流的个数N；

所述N个子视频流中的起始子视频流在所述复用视频流信息中的起始位置偏移；

所述N个被复用的子视频流的大小；

所述N个被复用的子视频流分别在所述VR内容成分中所对应的空间位置信息；

所述N个被复用的子视频流的分辨率信息；

所述N个被复用的子视频流的视频流复用类型；

所述N个子视频流的分辨率信息。
如权利要求9所述的方法，其特征在于，所述复用描述信息还包括：

所述N个被复用的子视频流分别在所述VR内容成分中对应的空间位置信息。
如权利要求9或10所述的方法，其特征在于，所述复用描述信息还包括：

所述N个子视频流分别在所述VR内容成分中对应的空间位置信息。
如权利要求7-11任意一项所述的方法，其特征在于，所述预设复用处理包括视频流二进制首尾拼接处理或视频分段二进制首尾拼接或样本交织复用处理。
一种客户端，其特征在于，包括：

请求模块，用于向服务器发送目标请求，所述目标请求包括所述客户端请求需要呈现的目标空间对象在虚拟现实VR内容成分中对应的目标空间位置信息；

接收模块，用于接收服务器响应所述目标请求的目标请求反馈，所述目标请求反馈包括将所述目标空间对象对应的原始视频流进行了预设复用处理得到的复用视频流信息；

处理模块，用于根据所述复用视频流信息进行视频解析呈现。
如权利要求13所述的客户端，其特征在于，所述复用视频流信息包括N个子视频流分别经过所述预设复用处理得到的N个被复用的子视频流的信息，其中，所述N个子视频流是将所述目标空间对象划分为N个子空间对象，并将所述原始视频流按照所述N个子空间对象进行划分生成的对应的子视频流，所述N为大于1的自然数；所述目标请求反馈还包括复用描述信息，所述复用描述信息包括以下项中的至少一项：

所述复用视频流信息中包含的所述子视频流的个数N；

所述N个子视频流中的起始子视频流在所述复用视频流信息中的起始位置偏移；

所述N个被复用的子视频流的大小；

所述N个被复用的子视频流分别在所述VR内容成分中所对应的空间位置信息；

所述N个被复用的子视频流的分辨率信息；

所述N个被复用的子视频流的视频流复用类型；

所述N个子视频流的分辨率信息。
如权利要求14所述的客户端，其特征在于，所述复用描述信息还包括：

所述N个被复用的子视频流分别在所述VR内容成分中对应的空间位置信息。
如权利要求14或15所述的客户端，其特征在于，所述复用描述信息还包括：

所述N个子视频流分别在所述VR内容成分中对应的空间位置信息。
如权利要求13-16任意一项所述的客户端，其特征在于，所述目标请求还包括感兴趣区域ROI信息、所述客户端的带宽信息、所述客户端支持的解码标准信息和所述客户端的视频最大分辨率信息中的至少一项。
如权利要求13-17任意一项所述的客户端，其特征在于，所述预设复用处理包括视频流二进制首尾拼接处理或视频分段二进制首尾拼接或样本交织复用处理。
一种服务器，其特征在于，包括：

接收模块，用于接收客户端发送的目标请求，所述目标请求包括所述客户端请求需要呈现的目标空间对象在虚拟现实VR内容成分中对应的目标空间位置信息；

解析模块，用于根据所述目标空间位置信息在所述VR内容成分中查找对应的目标空间对象；

获取模块，用于获取将所述目标空间对象对应的原始视频流进行了预设复用处理得到的复用视频流信息；

反馈模块，用于向所述客户端发送响应所述目标请求的目标请求反馈，所述目标请求反馈包括所述复用视频流信息。
如权利要求19所述的服务器，其特征在于，所述获取模块，包括：

划分单元，用于将所述目标空间对象划分为N个子空间对象，并将所述原始视频流按照所述N个子空间对象进行划分生成对应的N个子视频流，所述N为大于1的自然数；

获取单元，用于获取所述N个子视频流分别进行了所述预设复用处理得到的N个被复用的子视频流的信息。
如权利要求20所述的服务器，其特征在于，所述目标请求反馈还包括复用描述信息，所述复用描述信息包括以下项中的至少一项：

所述复用视频流信息中包含的所述子视频流的个数N；

所述N个子视频流中的起始子视频流在所述复用视频流信息中的起始位置偏移；

所述N个被复用的子视频流的大小；

所述N个被复用的子视频流分别在所述VR内容成分中所对应的空间位置信息；

所述N个被复用的子视频流的分辨率信息；

所述N个被复用的子视频流的视频流复用类型；

所述N个子视频流的分辨率信息。
如权利要求21所述的服务器，其特征在于，所述复用描述信息还包括：

所述N个被复用的子视频流分别在所述VR内容成分中对应的空间位置信息。
如权利要求21或22所述的服务器，其特征在于，所述复用描述信息还包括：

所述N个子视频流分别在所述VR内容成分中对应的空间位置信息。
如权利要求19-23任意一项所述的服务器，其特征在于，所述预设复用处理包括视频流二进制首尾拼接处理或视频分段二进制首尾拼接或样本交织复用处理。
一种视频流传输系统，包括VR客户端和VR服务器，其中

所述VR客户端为如权利要求13-18任意一项所述的客户端；

所述VR服务器为如权利要求19-24任意一项所述的服务器。
一种基于流媒体技术的视频数据的处理方法，其特征在于，所述方法包括：

服务器接收客户端发送的视频数据获取请求，所述获取请求包括空间对象的信息；

所述服务器根据所述空间对象的信息确定至少两个媒体表示对应的视频数据；

所述服务器将所述至少两个媒体表示对应的视频数据封装成一个码流；

所述服务器将所述码流向所述客户端发送。
根据权利要求26所述的视频数据的处理方法，其特征在于，所述空间对象的信息包括如下的至少一种：

媒体表示的标识，客户端的用户的视角信息或媒体表示的空间信息。
根据权利要求26或27所述的视频数据的处理方法，其特征在于，所述码流包括如下的至少一种信息：

媒体表示的数量；

媒体表示在所述码流中的起始位置偏移；

媒体表示的数据量信息；

媒体表示对应的空间位置信息；

媒体表示的视频流复用类型；

或者

媒体表示的分辨率信息。
根据权利要求26或27所述的视频数据的处理方法，其特征在于，所述码流包括封装标识；所述标识用于指示码流采用的是分段交织的封装方式或者码流采用的是样本交织的封装方式。
一种基于流媒体技术的视频数据的处理方法，其特征在于，所述方法包括：

客户端向服务器发送的视频数据获取请求，所述获取请求包括空间对象的信息；

所述客户端接收所述服务器响应所述视频数据获取请求后发送的码流，其中，所述码流包括至少两个媒体表示的数据。
根据权利要求30所述的视频数据的处理方法，其特征在于，所述空间对象的信息包括如下的至少一种：

媒体表示的标识，客户端的用户的视角信息或媒体表示的空间信息。
根据权利要求30或31所述的视频数据的处理方法，其特征在于，所述码流包括如下的至少一种信息：

媒体表示的数量；

媒体表示在所述码流中的起始位置偏移；

媒体表示的数据量信息；

媒体表示对应的空间位置信息；

媒体表示的视频流复用类型；

或者

媒体表示的分辨率信息。
根据权利要求30或31所述的视频数据的处理方法，其特征在于，所述码流包括封装标识；所述标识用于指示码流采用的是分段交织的封装方式或者码流采用的是样本交织的封装方式。
一种基于流媒体技术的服务器，其特征在于，所述服务器包括：

接收器，用于接收客户端发送的视频数据获取请求，所述获取请求包括空间对象的信息；

处理器，用于根据所述空间对象的信息确定至少两个媒体表示对应的视频数据；

所述处理器还用于将所述至少两个媒体表示对应的视频数据封装成一个码流；

发送器，用于将所述码流向所述客户端发送。
根据权利要求34所述的服务器，其特征在于，所述空间对象的信息包括如下的至少一种：

媒体表示的标识，客户端的用户的视角信息或媒体表示的空间信息。
根据权利要求34或35所述的服务器，其特征在于，所述码流包括如下的至少一种信息：

媒体表示的数量；

媒体表示在所述码流中的起始位置偏移；

媒体表示的数据量信息；

媒体表示对应的空间位置信息；

媒体表示的视频流复用类型；

或者

媒体表示的分辨率信息。
根据权利要求34或35所述的服务器，其特征在于，所述码流包括封装标识；所述标识用于指示码流采用的是分段交织的封装方式或者码流采用的是样本交织的封装方式。
一种基于流媒体技术的客户端，其特征在于，所述客户端包括：

发送器，用于向服务器发送的视频数据获取请求，所述获取请求包括空间对象的信息；

接收器，用于接收所述服务器响应所述视频数据获取请求后发送的码流，其中，所述码流包括至少两个媒体表示的数据。
根据权利要求38所述的客户端，其特征在于，所述空间对象的信息包括如下的至少一种：

媒体表示的标识，客户端的用户的视角信息或媒体表示的空间信息。
根据权利要求38或39所述的客户端，其特征在于，所述码流包括如下的至少一种信息：

媒体表示的数量；

媒体表示在所述码流中的起始位置偏移；

媒体表示的数据量信息；

媒体表示对应的空间位置信息；

媒体表示的视频流复用类型；

或者

媒体表示的分辨率信息。
根据权利要求38或39所述的客户端，其特征在于，所述码流包括封装标识；所述标识用于指示码流采用的是分段交织的封装方式或者码流采用的是样本交织的封装方式。