WO2020001046A1

WO2020001046A1 - 一种基于自适应层次化运动建模的视频预测方法

Info

Publication number: WO2020001046A1
Application number: PCT/CN2019/076239
Authority: WO
Inventors: 王文敏; 唐敏; 陈雄涛; 王荣刚; 李革; 高文
Original assignee: 北京大学深圳研究生院
Priority date: 2018-06-27
Filing date: 2019-02-27
Publication date: 2020-01-02
Also published as: CN108769674B; CN108769674A

Abstract

一种基于自适应层次化运动建模的视频预测方法，包括：建立视频的层次化运动模型、训练模型、用训练好的模型预测视频未来帧；其中，建立视频的层次化运动模型包括视频的层次化运动建模和自适应的运动变换过程。两个过程的处理均能独立提升视频预测的效果。采用本发明方法得到预测结果的信噪比、与真实结果的结构相似度均有所增加，能够提升视频预测的效果，提高预测结果清晰度和合理性。

Description

一种基于自适应层次化运动建模的视频预测方法

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种基于深度学习层次化运动建模和自适应运动变换的视频预测方法。

背景技术

由于视频能够提供丰富的视觉信息，视频生成已经成为计算机视觉领域中一个重要的研究课题，而视频预测是视频生成中最具挑战的任务之一。给定一段视频序列，视频预测任务的目标是生成清晰合理的后续视频。

近年来有多种通过对视频内容进行编解码实现预测的方法被提出，但是，这些方法大多对输入帧进行多次滤波操作，导致内容细节信息丢失严重，生成结果模糊，效果不佳。并且，针对不同的输入，这些方法采用的深度网络参数都保持不变，实现复杂的运动变换受到了很大限制。现有的用于视频预测的运动建模技术则利用视频的冗余信息，关注物体的运动信息并对其建模，能够缓解基于内容预测方法的一些局限性，但是，现实运动的多样性和复杂性导致运动信息的准确获取和合理实施存在诸多困难。

发明内容

为了克服上述现有技术的不足，本发明提供了一种自适应层次化运动建模的视频预测方法，能够提升视频预测的效果，提高预测结果清晰度和合理性。

本发明提供的技术方案是：

一种自适应层次化运动建模的视频预测方法，包括：建立视频的层次化运动模型，训练模型，用训练好的模型预测未来帧。具体包括如下步骤：

视频层次化运动模型的建立，执行步骤1)-2)：

1)首先对输入视频的运动信息由粗到细有层次地进行建模；

本发明先通过全卷积神经网络对输入的视频序列生成指示运动状态的“运动图”。输入的视频序列与“运动图”进一步通过卷积结构的编码器生成运动特征图。具体执行如下操作：

11)利用全卷积网络，针对输入的视频序列F＝{f ¹,f ²,…,f ^t}，全卷积网络的卷积层使用ReLU激活函数和Tanh激活函数，生成一个不同运动状态区域会显示不同颜色的“运动图”；

全卷积网络主要由6层卷积层组成，卷积步长为1，前五层使用ReLU激活函数：f(x)＝max(0,x)，最后一层使用Tanh激活函数，设x为输入，输出为： f(x)＝(e ^x-e ^-x)/(e ^x+e ^-x)，其中e为自然常数，每一层输出的特征图数量分别为[128,256，512,256,128,3]；输出f(x)即为运动图。

12)将步骤11)得到的运动图并到输入的视频序列F的末尾，作为新的输入序列，输入到的编码器，编码器的卷积层使用ReLU激活函数，输出特征图，即生成运动特征；

具体地，将新的输入序列输入到具有3层卷积层的编码器，卷积步长为2，每一层都使用ReLU激活函数，若x为输入，输出为：f(x)＝max(0,x)，每一层网络输出不同数量的特征图，分别为[128,256,512]。

13)步骤12)中的全卷积网络最后一层输出的特征图通过一个全连接层，输出k个卷积核；

具体地，输出k个大小为13×13的卷积核，用于后续的运动变换。

2)将步骤1)生成的运动特征通过自适应的运动变换方式作用到视频外观信息上。

本发明利用可形变的卷积变换方式，将传统卷积中的规则网格采样方法扩展为适应物体结构的采样方法。通过反卷积结构的解码器学习偏移量，对规则采样位置实施偏移，实现自适应卷积变换。

自适应的运动变换过程具体执行如下操作：

21)利用第一反卷积网络生成用于自适应卷积变换的参数。

步骤12)得到的运动图经过第一反卷积网络，第一反卷积网络的每一层反卷积层输出均使用ReLU激活函数，输出特征图；将最后一层输出的特征图作为双线性插入核G；

具体地，步骤12)得到的运动特征经过3层反卷积层组成的反卷积网络，反卷积步长为2，每一层输出都使用ReLU激活函数，输出的特征图数量分别为[256,128,2k]，最后一层的特征作为后面进行双线性插值的双线性插入核G。

22)将步骤21)得到的双线性插入核G对输入序列的最后一帧进行双线性插值，得到对该帧变换后的图像。用步骤13)得到的卷积核对插值变换后的图像做卷积运算，每个卷积核可以得到一张卷积变换后的图片p _i，结果得到该帧变换后的图像P＝{p ₁,p ₂,…,p _i,…,p _k}。

23)利用另一个反卷积网络生成用于合并多张变换图像的掩码，即权重。

步骤12)得到的运动图经过第二反卷积网络，第二反卷积网络的每一层反卷积层均使用ReLU激活函数，输出特征图；输出层使用Softmax激活函数；得到掩码M＝{m ₀,m ₁,…,m _i,…,m _k}；

具体地，步骤12)的运动特征经过3层反卷积层组成的网络，反卷积步长为2，每一层都使用ReLU激活函数，输出的特征图数量分别为[256,128,k+1]，最后的输出层使用Softmax激活函数，最终得到k+1张128×128的掩码M＝{m ₀,m ₁,…,m _i,…,m _k}，m _i是对上述图像p _i加权求和时的权重。

24)合并步骤22)得到的多张变换图片，得到最终的预测结果：

⊙表示对应位置元素相乘。

3)模型的训练：针对上述网络结构(建立的视频层次化运动模型)构造目标函数，目标函数是最小化训练样本的整体误差，以学习到整个神经网络(上述所有网络，包括全卷积网络、第一反卷积网络、第二反卷积网络)的参数Ω，由此得到产生最优预测结果的参数。

具体地，假设有N个训练样本，每个样本生成1帧，构造目标函数：

其中，c为目标函数，即训练样本的整体误差；y _n为真实的未来帧，

为帧预测结果。

4)利用训练好的模型预测未来帧：针对待预测视频中的不同运动，执行步骤1)的操作得到多个卷积核；再执行步骤2)，得到最终的预测结果。

与现有技术相比，本发明的有益效果是：

本发明提供了一种自适应层次化运动建模的视频预测方法，包括：建立视频的层次化运动模型，训练模型，用训练好的模型预测未来帧。建立视频的层次化运动模型包括视频的层次化运动建模和自适应的运动变换过程，两个过程的处理均能独立提升视频预测的效果。采用本发明方法得到预测结果的信噪比、与真实结果的结构相似度均有所增加，能够提升视频预测的效果，提高预测结果清晰度和合理性。

附图说明

图1是本发明提供的层次化运动建模方法的流程框图。

图2是本发明实施例采用自适应层次化运动建模生成的运动图示例；

其中，(a)、(b)、(c)分别为三个不同的实例，对于每个实例，左边四列为输入的视频帧，最后一列为采用本发明方法生成的运动图。

图3是本发明实施例中采用本发明方法在Penn Action数据集上的预测结果与真实结果的对比图；

其中，1、2分别为两个不同的实例，1(a)、2(a)分别为输入的四帧图像，1(b)、2 (b)分别为三幅真实的图像，1(c)、2(c)分别为三幅预测结果图像。

图4本发明实施例中采用本发明方法在UCF101数据集上的预测结果与真实结果的对比图：

其中，1、2、3分别为三个不同的实例，1(a)、2(a)、3(a)分别为输入的四帧图像，1(b)、2(b)、3(b)分别为三幅真实的图像，1(c)、2(c)、3(c)分别为三幅预测结果图像。

具体实施方式

下面结合附图，通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。

本发明提供一种基于深度学习的自适应层次化运动建模的视频预测方法，包括视频的层次化运动建模和自适应的运动变换；图1所示是本发明提供方法的总体流程。具体过程包括如下步骤：

1、进行运动建模，参见步骤11)-13)。

11)利用全卷积网络，针对输入的视频序列F＝{f ¹,f ²,…,f ^t}，生成一个不同运动状态区域会显示不同颜色的“运动图”。

全卷积网络主要由6层卷积层组成，卷积步长为1，前五层使用ReLU激活函数：f(x)＝max(0,x)，最后一层使用Tanh激活函数，若x为输入，输出为：f(x)＝(e ^x-e ^-x)/(e ^x+e ^-x)，其中e为自然常数，每一层输出的特征图数量分别为[128,256，512,256,128,3]。

12)将“运动图”并到输入的视频序列的末尾，作为新的输入序列，输入到具有3层卷积层的编码器，卷积步长为2，每一层都使用ReLU激活函数，若x为输入，输出为：f(x)＝max(0,x)，每一层网络输出不同数量的特征图，分别为[128,256,512]。

13)全卷积网络最后一层输出的特征图通过一个全连接层输出k个大小为13×13的卷积核，用于后续的运动变换。

2、其次进行自适应运动变换，参见步骤21)-25)。

21)利用反卷积网络生成用于自适应卷积变换的参数。

步骤12)得到的运动特征(最后一层的特征图)经过3层反卷积层组成的反卷积网络，反卷积步长为2，每一层输出都使用ReLU激活函数，输出的特征图数量分别为[256,128,2k]，k为卷积核的数目；最后一层的特征作为后面进行双线性插值的双线性插入核G。

22)将步骤21)得到的双线性插入核G对输入序列的最后一帧进行双线性插值，得到对该帧变换后的图像。用步骤13)得到的卷积核对插值变换后的图像卷积运算，每个卷积核可以得到一张卷积变换后的图片p _i，结果得到该帧变换后的图像P＝{p ₁,p ₂,…,p _i,…,p _k}。即P为k张图片的集合。

23)利用另一个反卷积网络生成用于合并多张变换图片的掩码，即权重。

步骤12)的运动特征经过3层反卷积层组成的网络，反卷积步长为2，每一层都使用ReLU激活函数，输出的特征图数量分别为[256,128,k+1]，最后的输出层使用Softmax激活函数，最终得到k+1张128×128的掩码M＝{m ₀,m ₁,…,m _k}。

24)合并步骤22)得到的多张变换图片，得到最终的预测结果：

⊙表示对应位置元素相乘。

3)针对上述网络结构构造目标函数，目标函数是最小化训练样本的整体误差，以学到整个神经网络(上述所有网络)的参数Ω，由此得到产生最优预测结果的参数。

为帧预测结果。

4)利用训练好的模型预测未来帧：针对待预测视频中的不同运动，执行步骤1)的操作得到多个卷积核；执行步骤2)得到最终的预测结果。

表1给出了本发明与分别去除层次运动建模和自适应运动变换得到的两个变体在Penn Action数据集上的视频预测效果用于验证本发明的有效性。预测效果用文献1(Mathieu,M.,Couprie,C.,and Lecun,Y.(2016).Deep multi-scale video prediction beyond mean square error.ICLR)记载的整张图片的信噪比PSNR和文献3(Wang,Z.,Bovik,A.C.,Sheikh,H.R.,and Simoncelli,E.P.(2004).Image quality assessment:from error visibility to structural similarity.IEEE Trans Image Process,13(4),600-612)记载的结构相似度SSIM衡量，值越高，说明预测结果与真实结果约相似。

表1 Penn Action数据集上的预测效果

方法	信噪比PSNR	结构相似度SSIM
变体1	32.5	0.97
变体2	29.7	0.96
本发明	33.3	0.97

表2给出了本发明在UCF101数据集上的视频预测效果及与现有方法的对比。现有方法包括文献1记载的Adv+GDL、文献2(Liang,X.,Lee,L.,Dai,W.,and Xing,E.P.(2017). Dual motion gan for future-flow embedded video prediction.1762-1770)记载的DualMotionGAN、文献4(Liu,Z.,Yeh,R.A.,Tang,X.,Liu,Y.,and Agarwala,A.(2017).Video Frame Synthesis Using Deep Voxel Flow.IEEE International Conference on Computer Vision(pp.4473-4481).IEEE Computer Society.)记载的DVF、文献5(Byeon,W.,Wang,Q.,Srivastava,R.K.,and Koumoutsakos,P.(2017).Fully context-aware video prediction)记载的FullyContextAware。预测效果用运动区域和整张图片的PSNR和SSIM衡量。

表2 UCF101数据集上的检索效果

从表1可以看出，本发明的层次运动建模和自适应运动变换模块都能独立提升视频预测的效果。从表2可以看出，与现有方法对比，本发明在整张图片的预测效果最好，而在运动区域上结构相似度最好。

需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

一种自适应层次化运动建模的视频预测方法，包括：建立视频的层次化运动模型、训练模型、用训练好的模型预测视频未来帧；

建立视频层次化运动模型，执行步骤1)-2)：

1)对输入视频的运动信息由粗到细有层次地进行建模：先通过全卷积神经网络对输入的视频序列生成指示运动状态的运动图；输入的视频序列与运动图进一步通过卷积结构的编码器生成运动特征图；具体执行如下操作：

11)利用全卷积网络，全卷积网络的卷积层使用ReLU激活函数和Tanh激活函数，针对输入的视频序列F＝{f ¹,f ²,…,f ^t}，设输入为x，生成一个运动图f(x)＝(e ^x-e ^-x)/(e ^x+e ^-x)输出，其中e为自然常数；

12)将步骤11)得到的运动图并到输入的视频序列F的末尾，作为新的输入序列，输入到编码器，编码器的卷积层使用ReLU激活函数，生成输出；设x为输入，输出为运动特征图f(x)＝max(0,x)；

13)将步骤12)中的全卷积网络最后一层输出的特征图通过一个全连接层，输出k个卷积核；

2)将步骤1)生成的运动特征图通过自适应的运动变换方式作用到视频外观信息上：利用可形变的卷积变换方式，将卷积中的规则网格采样方法扩展为适应物体结构的采样方法，通过反卷积结构的解码器学习偏移量，对规则采样位置实施偏移，实现自适应卷积变换；执行如下操作：

21)利用第一反卷积网络生成用于自适应卷积变换的参数；

步骤12)得到的运动图经过第一反卷积网络，第一反卷积网络的每一层反卷积层输出均使用ReLU激活函数，输出特征图；将最后一层输出的特征图作为双线性插入核G；

22)将步骤21)得到的双线性插入核G对输入序列的最后一帧进行双线性插值，得到对该帧变换后的图像；用步骤13)得到的卷积核对插值变换后的图像做卷积运算，每个卷积核得到一张卷积变换后的图片p _i，由此得到该帧变换后的图像P＝{p ₁,p ₂,…,p _i,…,p _k}；

23)利用第二反卷积网络生成用于合并多张变换图像的掩码，即权重：将步骤12)得到的运动图经过第二反卷积网络，第二反卷积网络的每一层反卷积层均使用ReLU激活函数，输出特征图；输出层使用Softmax激活函数；得到掩码M＝{m ₀,m ₁,…,m _i,…,m _k}；

24)合并步骤22)得到的多张变换后的图像，得到最终的预测结果：

其中，⊙表示对应位置元素相乘；

3)模型的训练：针对建立的视频层次化运动模型构造目标函数，目标函数是最小化训练样本的整体误差，以学习到神经网络的参数Ω，由此得到产生最优预测结果的参数；

具体地，假设有N个训练样本，每个样本生成1帧，构造目标函数为：

其中，c为目标函数，即训练样本的整体误差；y _n为真实的未来帧，
为帧预测结果；

4)利用训练好的模型预测视频的未来帧：针对待预测视频中的不同运动，执行步骤1)得到多个卷积核；再执行步骤2)，得到最终的预测结果。
如权利要求1所述自适应层次化运动建模的视频预测方法，其特征是，步骤11)的运动图中，不同运动状态区域显示不同颜色。
如权利要求1所述自适应层次化运动建模的视频预测方法，其特征是，步骤11)中的全卷积网络包括6层卷积层，卷积步长为1，前五层卷积层使用ReLU激活函数：f(x)＝max(0,x)，最后一层使用Tanh激活函数，每一层输出的特征图数量分别为[128,256，512,256,128,3]。
如权利要求1所述自适应层次化运动建模的视频预测方法，其特征是，步骤12)具体将新的输入序列输入到具有3层卷积层的编码器，卷积步长为2，每一层网络输出不同数量的特征图，分别为[128,256,512]。
如权利要求1所述自适应层次化运动建模的视频预测方法，其特征是，步骤13)将步骤11)中的全卷积网络最后一层输出的特征图通过一个全连接层，输出k个大小为13×13的卷积核。
如权利要求1所述自适应层次化运动建模的视频预测方法，其特征是，步骤21)具体将步骤12)得到的运动特征经过3层反卷积层组成的反卷积网络，反卷积步长为2，每一层输出均使用ReLU激活函数，输出的特征图数量分别为[256,128,2k]。
如权利要求1所述自适应层次化运动建模的视频预测方法，其特征是，步骤23)具体将步骤12)的运动特征经过3层反卷积层组成的网络，反卷积步长为2，每一层均使用ReLU激活函数，输出的特征图数量分别为[256,128,k+1]，最后的输出层使用Softmax激活函数，最终得到k+1张128×128的掩码M＝{m ₀,m ₁,…,m _k}。