WO2019037365A1

WO2019037365A1 - 虚拟现实全景视频流投影方法和设备

Info

Publication number: WO2019037365A1
Application number: PCT/CN2017/118537
Authority: WO
Inventors: 马睿; 马志友
Original assignee: 深圳看到科技有限公司
Priority date: 2017-08-23
Filing date: 2017-12-26
Publication date: 2019-02-28
Also published as: US20210368148A1; CN107396077B; CN107396077A

Abstract

本发明的实施例关于一种对用户投影虚拟现实全景视频流的方法，包括将全景视频流划分在多个球面子区域中，根据实时跟踪的用户视角信息对与用户视角相关联的球面子区域以及不相关联的球面子区域提供不同的视频质量，并移动用户观察点，从而实现最优视频重现效果并减少传输带宽。本发明还关于一种对用户投影虚拟现实全景视频流的设备。

Description

虚拟现实全景视频流投影方法和设备

技术领域

本发明关于虚拟现实技术领域，更具体地关于一种虚拟现实全景视频流投影方法和设备。

背景技术

虚拟现实(Virtual Reality,VR)是一种目前已在视频，摄影，院线和游戏场景中得到应用的技术，其包括多媒体、人机交互、传感器、网络技术等多种技术的交叉结合。虚拟现实可以基于用户的视觉，听觉甚至触觉创造一个可主观感知且可自由观察的虚拟世界，为用户带来高度的沉浸感和参与感，是未来多媒体和在线娱乐领域的重要发展方向。虚拟现实技术一般包括相关的硬件和软件两部分。虚拟现实硬件例如包括人体跟踪器和传感器、用户输入设备、3D显示器、投影系统、头戴显示器、立体生系统、动作捕捉设备、眼球跟踪设备和其他交互设备。虚拟现实软件包括虚拟现实视频和游戏中所需要的显示驱动、数据传输和编解码算法等。

随着以光纤入户和4G网络为代表的网络接入环境的改进，目前已经大量出现利用全景相机或摄像机制作的虚拟现实全景图片或视频通过网络与例如虚拟现实显示器、投影仪、手机或游戏主机等虚拟现实设备建立数据通信，使得用户可以实时通过网络体验虚拟现实视频的应用。由于虚拟现实视频必须包括围绕用户的球面范围内的所有角度的视觉信息以便用户可以观看任意角度，这就要求实时流传播占用大量带宽和其他网络资源高清视频数据。在当前的VR视频点播与VR视频直播中虚拟现实视频普遍分辨率高，码率高的情况下，一般用户的网络条件很难满足流播虚拟现实视频的需要。而另一个方面，用户在任一时刻的观察角度必然是有限的，不可能观看球面内的所有影像。只有在用户转头去观看其他角度的时候，才会改变所看到的影像，而其余范围内的影像等于并未起到作用还浪费了网络资源。因此，需要在保证用户观察角度内视频质量的同时尽量节约网络资源。现有技术中可能采用限制用户视角，利用突发的刺激性影像或声音吸引用户视角到影像球面特点区域的方法来减少传输带宽，但仍然缺少一种在保证主要播放视角(FOV)中虚拟现实视频质量的同时，减少传输带宽的可靠方法和设备。

发明内容

本发明的目的是解决现有技术中的上述问题，提供可保证用户视角视频质量并减少传输带宽的方法和设备。

本发明公开了一种投影虚拟现实(VR)全景视频流的方法，其特征在于在以用户为球心的球面中将全景视频流划分在多个球面子区域中，持续检测用户的视角信息，将多个球面子区域中与用户视角信息对应的至少一个球面子区域确定为主视角区域，将主视角区域以外的其他球面子区域定义为非主视角区域，确定与球心距离一预定偏移量的用户观察点，以及基于用户观察点，以第一视频质量对主视角区域进行投影并以第二视频质量对非主视角区域进行投影。

在一些实施例中，第一视频质量在分辨率和帧率之中的至少一方面高于第二视频质量。

在一些实施例中，多个球面子区域包括18个球面子区域。

在一些实施例中，18个球面子区域包括位于球面赤道区域的8个球面子区域，南北纬45度区域的各4个球面子区域和两极的各1个球面子区域。

在一些实施例中，对主视角区域和非主视角区域进行投影包括进行立方体投影，等角立方体投影，等距投影和等边投影之一。

在一些实施例中，预定偏移量为球面半径的一半。

在一些实施例中，全景视频流通过有线或无线网络进行接收。

本发明还公开了一种投影虚拟现实(VR)全景视频流的设备，其特征在于包括传感器、显示器、存储器和处理器，其中存储器存储有可由处理器运行的指令，收发器用于通过有线或无线网络接收所述虚拟现实全景视频流，处理器配置成在运行指令时执行以下动作：在以用户为球心的球面中将全景视频流划分在多个球面子区域中，读取由传感器持续检测的用户的视角信息，将多个球面子区域中与用户视角信息对应的至少一个球面子区域确定为主视角区域，将主视角区域以外的其他球面子区域定义为非主视角区域，确定与球心距离一预定偏移量的用户观察点，以及指示显示器基于用户观察点，以第一视频质量对主视角区域进行投影并以第二视频质量对非主视角区域进行投影。

在一些实施例中，多个球面子区域包括18个球面子区域。

在一些实施例中，显示器对主视角区域和非主视角区域进行投影包括进行立方体投影，等角立方体投影，等距投影和等边投影之一。

在一些实施例中，预定偏移量为球面半径的一半。

本发明的实施例采用动态切流的手段提供优化的视频重构效果，可以在VR直播、VR点播、流服务器、APP播放端等各类应用场景中保证用户主要播放视角内视频质量的同时大幅减少传输视频所需的网络资源。

附图说明

本发明提供了附图以便于进一步理解所公开的内容，附图构成本申请的一部分，但仅仅是用于图示出体现本发明概念的一些非限制性示例，而不是用于做出任何限制。

图1是根据本发明一些实施例的投影虚拟现实全景视频流的设备的框图。

图2是根据本发明一些实施例的投影虚拟现实全景视频流的方法的流程图。

图3是根据本发明一些实施例的对虚拟现实全景视频进行球面子区域划分的示意图。

图4是根据本发明一些实施例的对用户观察点选取的示意图。

具体实施方式

下文将使用本领域的技术人员向本领域的其它技术人员传达他们工作的实质所通常使用的术语来描述本文说明性实施例的各个方面。然而，对于本领域的技术人员而言将显而易见的是，可以仅使用所描述的多个方面中的一些来实践备选实施例。出于解释的目的，本文阐述了特定的数值、材料和配置，以便使说明性的实施例更容易被理解。然而，对于本领域的技术人员而言将显而易见的是，在省略了特定细节的情况下也可以实践本文的备选实施例。在其它情况下，可以省略或简化众所周知的特征，以便不使本文的实施例难于理解。

本领域技术人员将理解尽管术语第一、第二等可在本文中用于描述各种元素，但这些元素不应由这些术语限制。这些术语仅用于将各种元素彼此区分开。例如，第一元素可以称作第二元素，并且相似地，第二元素可以称作第一元素，而不偏离本发明的范围。如本文使用的，术语“和/或”包括关联的列出项目中的一个或多个中的任一个或全部组合。本文使用的术语仅是为了描述特定实施例目的并且不意在限制本发明。如本文使用的，单数形式“一”和“该”意在也包括复数形式，除非上下文另外明确指示其他意思。本领域技术人员将进一步理解术语“包括”和/或“包含”当在本文使用时，规定了陈述的特征、整体、步骤、操作、元素和/或部件的存在，但不排除一个或多个其它特征、整体、步骤、操作、元素、部件和/或其的组合的存在或增加。

如图1所示，根据一些实施例的投影虚拟现实全景视频流的设备100包括处理器101、传感器103、存储器105、显示器107、收发器109以及可选的音频单元111和用户交互单元113。

处理器101可以是用来执行指令的任何通用或者专用的处理设备，例如CISC或RISC指令集处理器、x86指令集处理器、多核处理器、单片机、控制器、逻辑控制单元或任何其他的微处理器或中央处理单元(CPU)。

传感器103用于检测在观看虚拟现实全景视频的用户的姿态，并持续将检测到的用户姿态传递到处理器101以判断用户的视角信息。在优选的实施例中，处理器101和传感器103可以实时或者接近实时地持续通讯，并确定用户的视角信息以降低延迟感，改善用户体验。传感器103可以包括眼球追踪传感器、头部姿态传感器、多轴姿态传感器、体感游戏手柄等。例如CN102946791B和CN102156537B等现有技术中已经公开了对眼球位置以及头部姿态的检测方法。传感器103可以基于类似技术跟踪用户的眼球或者面部方向，从而确定视角的变化。

存储器105用来存储可供处理器101执行以实现实施例中所述虚拟现实全景视频播放的机器可执行指令，也可在一些情况下存储所接收的虚拟现实全景视频数据以便进行缓冲或者本地播放。存储器105包括易失性存储器，例如但不限于随机存取存储器(RAM)、动态 DRAM、静态RAM。存储器105还包括非易失性存储器，例如但不限于CDROM光盘、压缩盘、DVD、蓝光光盘、软盘、磁盘、固态盘、只读存储器(ROM)、EPROM、EEPROM、闪存和/或网络存储设备。在VR直播、VR点播、流播、APP播放等情况下，存储器105还可以通过远程存储器或云端等来提供。存储器105可以根据虚拟现实的应用场景而在响应时间、读写速度等方面做出专用的优化。

显示器107包括相应的专用图形处理器(GPU)，用于向用户显示虚拟现实图像和/或交互对象。该GPU可以通过模拟或者数字接口与显示器107进行通信。显示器107例如包括电视、平板显示器、液晶显示器、头戴显示器、投影屏幕、媒体播放器等各种现有的成像手段。在一些实施例中，显示器107可以与音频单元111相结合。显示器107将包括与虚拟现实全景视频流兼容的显示接口，该显示接口包括但不限于高保真多媒体界面HDMI、无线HDMI、MHL、VGA接口、DVI接口、迷你显示端口MDP等。显示器107还包括相应的编解码器以对所要播放的虚拟现实全景视频进行编解码。

收发器109可以接入无线或者有线网络以提供连接性从而接收要播放的全景视频流或者相反地进行上传。收发器109也可以用来接收控制指令并与处理器101进行通信以进行远程开机、关机、播放、快进或停止等操作。在接入有线网络的情况下收发器109可以包括有线网卡、调制解调器、光调制解调器等，以连接到各种局域网、城域网、以太网或互联网。在接入无线网络的情况下，收发器109可以包括天线、无线网卡、发射器和接收器等以根据4GLTE长期演进、Wi-Fi、蓝牙、无线局域网WLAN、全球移动通信GSM、码分多址CDMA、WCDMA、时分复用TDM等与服务器、基站、演进节点和/或其他收发器进行通信。

音频单元111在需要向用户提供音频信息的情况下提供，可包括扬声器、麦克风等。

用户交互单元113可用于向用户提供与虚拟现实全景视频交互的手段，可以包括触控板、键盘、鼠标、游戏控制器等现有设备。也可以通过额外的姿态传感器对用户手部或身体的动作进行探测来实现。

在一些实施例中，上述处理器101、传感器103、存储器105、显示器107、收发器109以及可选的音频单元111和用户交互单元113可以集成到一起以形成片上系统(SOC)。

图2示出了根据一些实施例在设备100中执行的方法流程。在步骤201中，首先对虚拟现实全景视频进行空间上的划分，即切流。在用户看来，虚拟现实全景视频的图像相当于以用户为中心形成了一个球面，称为世界球。用户可以自由选择观察世界球球面上任一处的视频。根据人体的眼球构造和成像特征，用户眼球的中央凹视野处成像较为清晰，而边缘区域成像较为模糊。因此，对于用户眼球成像清晰区域对应的球面区域应相应进行较清晰的成像，而对成像模糊甚至无法观察到的区域则不需进行如此清晰的成像。据此，可将世界球的球面划分为多个球面子区域，以便后续步骤中对于不同的球面子区域进行区别投影。

在步骤203中，传感器103利用上述的各种姿态检测方式持续对用户的视角信息进行检测。用户的视角信息对应用户所观看的方向对应的球面区域。所探测到的视角信息被传感器103持续传送到处理器101进行处理使得处理器101可以实时或接近实时地确定用户的视角。

在步骤205中，处理器101将根据用户视角信息所确定的多个球面子区域中与所探测到的用户视角信息对应的至少一个球面子区域确定为主视角区域，即用户需要更高质量虚拟现实全景视频图像的区域。对于用户，主视角区域将出现在其视野的正前方。主视角区域的确定将随着用户视角的变化而不断变化。

在步骤207中，此时的主视角区域以外的其他球面子区域被处理器101定义为非主视角区域，即较低质量的虚拟现实视频图像不会对用户体验造成影响的区域。在备选实施例中，仅有一个球面子区域被确定为主视角区域，此时所有的其他球面子区域均为非主视角区域。

在步骤209中处理器101进一步对虚拟现实全景视频的投影进行优化，在距离世界球的球心即原始的用户所在点一定的预定偏移量的位置定义新的用户观察点。对于当前的用户视角，以该用户观察点而非原始用户所在地为基准进行投影将使得用户观看离自己较近的正前方中主视角区域的物体更加清晰，分辨率更高，而离自己较远的两侧及后方的非主视角区域的物体越来越模糊，分辨率也越低，这种调整方法被称为偏心投影。使用偏心投影将在增强用户主视角区域视频质量的同时，降低非主视角区域视频流的资源消耗。

在步骤211中，基于所述用户观察点，处理器101进一步指示显示器107以合适的投影模式，将用户视角观察到的图像投影到相应模式的投影平面上，从而得到一幅平面的投影图像。显示器107将该投影图像以第一视频质量对主视角区域进行投影并以不同于第一视频质量的第二视频质量对非主视角区域进行投影。优选地，第一视频质量在分辨率和帧率之中的至少一方面高于第二视频质量。例如，用户主视角区域内以第一视频质量分布更多的像素，具有更高的分辨率(如4K)或帧率(如90Hz)。在非用户主视角区域内分布较少的像素，获得较低的分辨率(如1080P)或帧率(如60Hz)。由于非用户主视角的像素数量或帧率大大降低，视频流的整体大小也随之降低，传输视频流需要的带宽也大大节约。此时合适的投影模式例如包括但不限于立方体投影，等角立方体投影，等距投影和等边投影中之一。优选地，相比立方体投影等方式，等角立方体投影方案可以使得主视角内得到更均匀的分辨率分布，从而可以保证主视角内区域的质量稳定，并进一步节约带宽。

用户在观察虚拟现虚拟实全景视频时很可能会不断地变化主视角。在检测用户视角信息变化的情况下，本发明实施例的设备或方法将动态地传输相应球面子区域的视频流给用户。这样既保证了用户可以一直观看到高分辨率的视频，同时可以将传输需要的带宽保持为较低。

图3示出了对虚拟现实全景视频流进行切流的示例。其中将原始的虚拟现实全景视频流切分为了18个视角，在对用户进行播放时通过18个方向就近重构视频，得到最优视频重现效果。这18个视角将世界球的球面分为位于球面赤道区域的8个球面子区域，南北纬45度区域的各4个球面子区域共8个子区域以及两极的各1个球面子区域共2个子区域。这种划分方法兼顾了带宽节省的性能，主视角区域内视频的质量，以及算法的复杂度。但应注意，球面子区域的划分的此种方法仅为示例，并不限于划分为18个视角。例如，球面子区域的划分可以为赤道区域的4个子区域，南北纬45度区域的各2个子区域和两极的各1个球面子区域。又例如，球面子区域在资源允许的情况下可以进一步细分，使得分为赤道区域的16个子区域，南北纬45度区域的各8个子区域和两极的各2个球面子区域。本领域技术人员将能够从本发明的公开内容中容易地想到其他划分方式。

图4示出了根据一些实施例的偏心投影预定偏移量的选择和用户观察点的确定。如图所示，当用户的位置从世界球坐标系的球心移动到具有一偏移量的用户观察点时，视角也相应从世界场视角变为用户场视角。从而相比世界场视角进一步增强了用户主视角区域的视频质量，并降低非主视角区域视频流质量以节约传输带宽。例如对于表现不同内容的虚拟现实场景(如表现宏观风景的远景视频或者表现细微细节的特写视频)，也可相应调整偏移量的大小使用户观赏到适合该视频表现主题的投影图像。偏移量的调整例如还可以用于调整放大倍数，尤其是在以较低分辨率的设备观看较高分辨率的视频时可以利用偏移量的调整来优化播放效果。例如在以同一分辨率1080P的显示器107观看4K、6K或者8K的视频时，可以相应地调整偏移量的大小。在一些实施例中，可以简单地将预定偏移量选为世界球半径的一半，即球心到球面距离的一半。但偏移量的选择不限于该取值，而是可以如上述进行自由调节甚至不断改变以便适合用户和视频的具体情况。

本领域技术人员在查看所示附图和描述时将明白依据于本发明概念和原则的实施例的其它各种虚拟现实视频投影装置和/或方法。所有此类另装置和/或方法都包括在本发明的公开范围内，并且在本发明概念和原则的范围内。另外，本文中公开的所有实施例能够单独实现或者以任何方式和/或在任何组合中组合。

Claims

一种投影虚拟现实(VR)全景视频流的方法，其特征在于：

在以用户为球心的球面中将所述全景视频流划分在多个球面子区域中；

持续检测所述用户的视角信息；

将所述多个球面子区域中与所述用户视角信息对应的至少一个球面子区域确定为主视角区域；

将所述主视角区域以外的其他球面子区域定义为非主视角区域；

确定与所述球心距离一预定偏移量的用户观察点；

以及

基于所述用户观察点，以第一视频质量对所述主视角区域进行投影并以第二视频质量对所述非主视角区域进行投影。
如权利要求1所述的方法，其特征在于所述第一视频质量在分辨率和帧率之中的至少一方面高于所述第二视频质量。
如权利要求2所述的方法，其特征在于所述多个球面子区域包括18个球面子区域。
如权利要求3所述的方法，其特征在于所述18个球面子区域包括位于所述球面赤道区域的8个球面子区域，南北纬45度区域的各4个球面子区域和两极的各1个球面子区域。
如权利要求4所述的方法，其特征在于对所述主视角区域和所述非主视角区域进行投影包括进行立方体投影，等角立方体投影，等距投影和等边投影之一。
如权利要求1所述的方法，其特征在于所述预定偏移量为所述球面半径的一半。
如权利要求1所述的方法，其特征在于所述全景视频流通过有线或无线网络进行接收。
一种投影虚拟现实(VR)全景视频流的设备，其特征在于包括传感器、显示器、存储器、收发器和处理器，其中所述存储器存储有可由所述处理器运行的指令，所述收发器用于通过有线或无线网络接收所述虚拟现实全景视频流，所述处理器配置成在运行所述指令时执行以下动作：

在以用户为球心的球面中将所述全景视频流划分在多个球面子区域中；

读取由所述传感器持续检测的所述用户的视角信息；

将所述多个球面子区域中与所述用户视角信息对应的至少一个球面子区域确定为主视角区域；

将所述主视角区域以外的其他球面子区域定义为非主视角区域；

确定与所述球心距离一预定偏移量的用户观察点；

以及

指示所述显示器基于所述用户观察点，以第一视频质量对所述主视角区域进行投影并以第二视频质量对所述非主视角区域进行投影。
如权利要求8所述的设备，其特征在于所述第一视频质量在分辨率和帧率之中的至少一方面高于所述第二视频质量。
如权利要求9所述的设备，其特征在于其特征在于所述多个球面子区域包括18个球面子区域。
如权利要求10所述的设备，其特征在于所述18个球面子区域包括位于所述球面赤道区域的8个球面子区域，南北纬45度区域的各4个球面子区域和两极的各1个球面子区域。
如权利要求11所述的设备，其特征在于所述显示器对所述主视角区域和所述非主视角区域进行投影包括进行立方体投影，等角立方体投影，等距投影和等边投影之一。
如权利要求8所述的设备，其特征在于所述预定偏移量为所述球面半径的一半。