WO2021093584A1

WO2021093584A1 - 基于深度卷积神经网络的自由视点视频生成及交互方法

Info

Publication number: WO2021093584A1
Application number: PCT/CN2020/124206
Authority: WO
Inventors: 曹汛; 黄志浩; 汪晏如
Original assignee: 南京大学
Priority date: 2019-11-13
Filing date: 2020-10-28
Publication date: 2021-05-20
Also published as: US20220394226A1; CN110798673A; CN110798673B

Abstract

本发明公开了一种基于深度卷积神经网络的自由视点视频生成及交互方法。具体步骤包括：利用配套搭建的多相机阵列同步拍摄系统对目标场景进行多视点数据的采集，获得多视点下的同步视频帧序列组，然后批量进行像素级别的基线校准；利用设计训练好的深度学习卷积神经网络模型，通过编码和解码网络结构，对每组输入视点图像进行特征提取，获得场景的深度特征信息，结合输入图像分别生成每一个时刻的每一组相邻物理视点之间的虚拟视点图像；将所有视点按时刻以及视点的空间位置通过矩阵拼接的方式合成自由视点视频帧。本发明方法无需进行相机标定以及深度图的计算，很大程度上降低了虚拟视点生成的计算量，并且一定程度提升了虚拟视点图像质量。

Description

基于深度卷积神经网络的自由视点视频生成及交互方法

技术领域

本发明涉及计算机视觉领域，主要涉及自由视点视频(Free Viewpoint Video，FVV)中虚拟视点的生成及交互方法。

背景技术

在传统的电视转播中，导播用有限个视角拍摄并且转播视频节目给观众观看，这种信息的输出以及获取方式是单向的，观众只能观看导播给定的特定视角下的视频，并且大部分节目拍摄现场由于受到了相机数目的限制，导播在主动切换视角时画面的跳跃感会给观众带来不太理想的观看体验。为了解决这种被动式的视频观看体验，借助视频采集设备水平的提升以及算力的飞速提升，近年来自由视点视频技术得到了较快的发展，可交互的视频观看方式正成为新一代新媒体的发展方向。

在典型的体育赛事这一类比较典型的舞台场景电视转播中，为了尽可能拍摄更全面的视点，转播方会尽可能架设更多数量的相机，但随着相机数目的增多，视点切换时会达到更为平滑的效果，但数据传输的压力也会线性增大，为了在可控相机数量的设备条件下达到尽可能平滑的视点切换效果，虚拟视点生成技术应运而生，该技术可以用来生成相机采集到的物理视点间的虚拟视点，从而将物理采集端的数据传输压力转移到了具有高算力的本地服务器或者云服务器端，因此用尽可能低的计算量生成质更好的虚拟视点成为自由视点视频相关技术的核心。

现在一些已有的虚拟视点生成技术都是基于深度视差的传统图像渲染得到的，如专利CN 102447932A，该方法利用事先标定好的相机内外参数计算出拍摄场景的深度图，再通过深度图中的深度信息将对应参考图像中的像素点映射到对应的三维空间，然后通过平移参数和相机内部参数将三维空间中的参考图像中像素点对应转换到虚拟相机位置，最后显示虚拟相机平面的成像即为虚拟视点图像。这种方法由于要遍历图像所有像素点进行计算，导致计算量较大，渲染效率随着图像分辨率以及相机数量的增多而指数型增长，并且这种虚拟视点生成方法需要事先对相机进行标定，在体育赛事等规模较大的转播场景情况下，相机标定的难度以及准确度会受到很大影响，从而导致合成的虚拟视点质量的降低。

深度学习在虚拟视点生成领域目前很大一部分是在视频插帧(Frame Interpolation)领域开展的，这些网络中一部分是基于视频相邻帧之间光流相关的信息，使用特定结构的深度网络，结合数据集中的真实视点图像来预测生成虚拟视点。如果直接将这些用于视频插帧的网络用到大场景的多视点拍摄领域，由于相邻物理视点基线较宽位移较大，会产生面积较大的诡影效果。

发明内容

本发明的目的是为了提供一种基于深度学习CNN网络的自由视点视频中虚拟视点的生成及交互方法，以提高虚拟视点质量并降低计算量。

本发明采用以下技术方案：

基于深度卷积神经网络的自由视点视频生成及交互方法，包括如下步骤：

(1)校准采集系统中相机的姿态和颜色

采集系统包括N个相机，相机按照圆弧均匀排列，相机的高度保持一致；在位于圆弧圆心处，对相机的姿态位置进行参照物校准，校准完成后固定相机位置保持不变；通过灰色世界白平衡算法对N个相机参数进行颜色校准；

(2)使用采集系统的相机阵列对目标场景对象进行同步视频序列拍摄，选取某一时刻视频帧，对N-1组相邻视点依次进行基线校准，获取N-1个图像仿射变换矩阵M _i，i＝1,2,…,n；

(3)利用获得的仿射变换矩阵M _i依次对次相邻视点的所有帧数据进行基线校准；

(4)先对双目数据集进行基线校准、基于灰色世界方法的颜色校准以及基于光流计算的位移阈值筛选的预处理，然后训练深度卷积神网络的虚拟视点生成能力；

(5)将步骤(3)基线校准好的数据输入步骤(4)预训练好的深度卷积神经网络，根据重建的虚拟视点数量，输出生成的虚拟视点二维图像；

(6)将物理视点和生成的虚拟视点按照物理空间位置排布顺序进行矩阵拼接，并依次标注各视点在图像矩阵中的块索引；

(7)将步骤(6)得到的所有时刻的拼接帧按照多相机的拍摄帧率，合成自由视点视频。

与现有技术相比，本发明的有益效果为：

(1)本发明对拍摄的多视点视频序列进行了像素级别的基线校准，并且使用深度卷积神经网络来预测生成虚拟视点，相较于传统的基于深度和视差的几何方法，不需要预先进行多相机标定工作，解决了大场景下多相机标定难精度低的弊端，同时也降低了计算量，提高了虚拟视点生成的效率。

(2)本发明在深度卷积神经网络训练时对双目视觉数据集进行了基线校准、颜色校准、基于光流计算的位移阈值筛选等预处理，在相邻视点宽基线大位移情况下合成的虚拟视点具有更好的合成效果，一定程度上去除了大面积的诡影。

附图说明

图1为本发明方法的流程示意图；

图2为本发明实施例的硬件采集系统拓扑图；

图3为本发明实施例的基线校准方法示意图；

图4为本发明实施例的深度卷积神经网络流程图；

图5为本发明实施例自由视点视频可交互显示软件界面。

具体实施方式

下面将结合附图及具体实施例对本发明进行详细描述。

本实施例在节目舞台场景中搭设如图1拓扑图所示的多相机阵列来同步采集场景视频序列信息，然后通过一系列数据处理合成可交互的自由视点视频，通过配套开发的自由视点交互显示系统供用户交互观看，使得转播信息的双向传递成为了可能。

本实施例的处理流程如图1所示，包括以下步骤：

(1)弧形排列的相机阵列搭设，以及相机的姿态校准和多相机颜色校准

硬件采集系统拓扑图如图1所示，相机数量为N，多相机按照圆弧均匀排列，相机的高度保持一致，相邻相机光轴夹角控制为30°左右。在位于场景圆心处放置水平竖直“十字”参照物，对相机的姿态位置进行参照物校准，如图3所示，场景中心放置带有竖直和水平的平板，将所有相机的中心对准参照平板的中心O，同时使得相机画面的正中竖直方向与参照平板竖直参照线重合，校准完成后固定相机位置保持不变。同时通过灰色世界白平衡算法(Gray World)对设置N个相机参数进行颜色校准。

(2)多相机同步校准

所有相机通过视频数据触发线利用外触发信号发生器同步，调节触发信号频率，触发各相机同步采集拍摄场景信息。

(3)同步采集视频序列，通过基线校准获取仿射变换矩阵

使用步骤(1)搭设的相机阵列对目标场景对象进行同步视频序列拍摄，选取某一时刻视频帧，对N-1组相邻视点依次进行基线校准，手动根据场景中物体的特征点设置仿射变换中平移系数(x,y)、旋转系数θ以及缩放系数k，使得场景中心位置的特征点处于相同的参照位处，如本实施例中使用的基线校准系统示意图(图3所示)O点位场景的中心校准点，Cam_L和Cam_R表示左右两个参数相同的相机同时拍摄的场景中心物体，得到的Img_L和Img_R左右图像中物体的三个特征点同时与L1、L2、L3和R1、R2、R3重合，保证了左右相机的基线在同一水平线上，此方法达到了基线校准的目的。通过以上的基线校准方法获取N-1个图像仿射变换矩阵M _i(i＝1,2,…,n)。其中，仿射变换矩阵具体的形式为：

其中α＝k·cos(θ),β＝k·sin(θ)。

(4)批量基线校准处理

利用获得的仿射变换矩阵M _i通过OpenCV中的warpAffine()函数依次对次相邻视点的所有帧数据进行基线校准，N台圆弧形排列的相机，按照相机的空间位置依次使用步骤(3)获得的仿射矩阵M _i(i＝1,2,…,n)对N-1组相机两两进行基线校正，使得N台相机校准后图像的基线都保持在同一水平线上。

(5)虚拟视点生成网络训练

本步骤先对数据集进行基线校准、颜色校准、基于光流计算的位移阈值筛选等预处理。数据集由许多场景的多个‘左中右’三个视点的图像三元组为单位组成，每个图像三元组先批量进行基线校准，方法同步骤(3)使得每个三张图片中的几组特征点处于同一水平线上。颜色校准使用灰色世界白平衡算法，使同一场景的三张图像具有一致的白平衡参数。最后通过计算三元组中两两的光流图，得到同一场景中的同一物体的像素位移取平均值，设定阈值，筛选出超过该阈值的三元组组成新的训练数据集。

本实施例使用的深度卷积神经网络结构如图4所示，具体包括编码网络和解码网络(如图4中的Encoder和Decoder这两个虚线框中的两个子网络块所示)。左右视点的图片Image1和Image2依次经过编码网络和解码网络，编码网络中依次经过如图4所示的各个大小的卷积层(Conv)和平均池化层(Pooling)，解码网络中依次经过如图4所示的各个大小的卷积层(Upconv)和线形上采样层(upsampling)，分别得到场景的深度特征映射参数信息S1和S2，随后分别与输入图像Image1和Image2级联再相加，预测得到左右物理视点中间的虚拟视点Output二维图像。在该网络的训练中，使用Output和作为真值Ground Truth的数据集三元组中间图像之间的差异量化训练结果，分别使用以下两种形式的损失函数：

得到总的L _total＝L ₁+α·L ₂,其中L ₁为网络预测图像与真实值基于像素RGB差异的二范数误差，L ₂为网络提取的特征结构上的差异，函数S()为特征提取此损失函数用来训练网络模型对场景中深度特种结构的感知。训练使用的总损失函数L _total为L ₁和L ₂的线形加权和。通过一定周期的迭代训练得到最优的虚拟视点生成网络参数模型。

(6)生成虚拟视点

将步骤(4)基线校准好的数据输入预训练好的深度卷积神经网络(Virtual View Generation Network，VVGN)，输入重建的虚拟视点数量，输出生成的虚拟视点二维图像。与传统的虚拟视点生成方法不同，本发明是基于深度卷积神经网络来预测生成两个物理视点之间的虚拟视点，输入数据进行了像素级别的基线校准预处理，直接通过CNN网络学习输入两视点的特征结构从而输出结果，不需要预先对多相机进行标定。此步骤决定着生成虚拟视点效果的好坏。通过步骤(5)对双目数据集进行了基线校准、颜色校准、基于光流计算的位移阈值筛选等预处理，进入如图4所示的CNN网络中进行训练，训练的输入为左右双目的两张二位图像，训练的损失函数分别为：

得到总的L _total＝L ₁+α·L ₂,其中L ₁为网络预测图像与真实值基于像素RGB差异的二范数误差，L ₂为网络提取的特征结构上的差异，函数S()为特征提取此损失函数用来训练网络模型对场景中深度特种结构的感知。训练使用的总损失函数L _total为L ₁和L ₂的线形加权和。在双目宽基线情况下，相较于现有的基于深度学习的视频插帧网络，能够得到更好的虚拟视点质量；并且计算量相较传统方法要低很多。

(7)所有视点图像帧进行矩阵拼接

将物理视点和步骤(6)生成的虚拟视点按照物理空间位置排布顺序进行矩阵拼接(矩阵的行列数依据生成的虚拟视点个数而定)，并按照先行后列的顺序依次标注各视点在图像矩阵中的块索引Block_Index。

(8)自由视点视频合成

将上步得到的所有时刻的拼接帧使用FFmpeg或者OpenCV中的cv2.VideoWriter()函数，按照多相机的拍摄帧率合成自由视点视频(FVV)，同时按照一定的压缩比压缩存储至本地服务器。

(9)用户交互观看自由视点视频

自由视点视频交互播放软件系统(FVV PLAYER)的界面如图5所示，读取步骤(8)合成的自由视点视频(FVV)，用户可实时使用Slider或Dial交互按钮模块平滑切换到特定视点块索引Block_Index对应的不同视点下的视频块，实现用户自由交互的观看体验。

Claims

基于深度卷积神经网络的自由视点视频生成及交互方法，其特征在于，包括如下步骤：

(1)校准采集系统中相机的姿态和颜色

采集系统包括N个相机，相机按照圆弧均匀排列，相机的高度保持一致；在位于圆弧圆心处，对相机的姿态位置进行参照物校准，校准完成后固定相机位置保持不变；通过灰色世界白平衡算法对N个相机参数进行颜色校准；

(2)使用采集系统的相机阵列对目标场景对象进行同步视频序列拍摄，选取某一时刻视频帧，对N-1组相邻视点依次进行基线校准，获取N-1个图像仿射变换矩阵M _i，i＝1,2,…,n；

(3)利用获得的仿射变换矩阵M _i依次对次相邻视点的所有帧数据进行基线校准；

(4)先对双目数据集进行基线校准、基于灰色世界方法的颜色校准以及基于光流计算的位移阈值筛选的预处理，然后训练深度卷积神网络的虚拟视点生成能力；

(5)将步骤(3)基线校准好的数据输入步骤(4)预训练好的深度卷积神经网络，根据重建的虚拟视点数量，输出生成的虚拟视点二维图像；

(6)将物理视点和生成的虚拟视点按照物理空间位置排布顺序进行矩阵拼接，并依次标注各视点在图像矩阵中的块索引；

(7)将步骤(6)得到的所有时刻的拼接帧按照多相机的拍摄帧率，合成自由视点视频。
根据权利要求1所述的基于深度卷积神经网络的自由视点视频生成及交互方法，其特征在于，所述步骤(1)中，在位于圆弧圆心处放置水平竖直“十字”参照平板，将所有相机的中心对准参照平板的中心，同时使得相机画面的正中竖直方向与参照平板竖直参照线重合，校准完成后固定相机位置保持不变。
根据权利要求1所述的基于深度卷积神经网络的自由视点视频生成及交互方法，其特征在于，所述步骤(1)中，相邻相机光轴夹角控制为30°。
根据权利要求1所述的基于深度卷积神经网络的自由视点视频生成及交互方法，其特征在于，步骤(7)合成自由视点视频后，按照一定的压缩比压缩存储至本地服务器。
根据权利要求4所述的基于深度卷积神经网络的自由视点视频生成及交互方法，其特征在于，用户利用软件读取步骤(7)合成的自由视点视频，可实时按照步骤(6)视点块索引平滑切换不同视点下的视频，实现人机视频交互。