WO2020001046A1 - 一种基于自适应层次化运动建模的视频预测方法 - Google Patents

一种基于自适应层次化运动建模的视频预测方法 Download PDF

Info

Publication number
WO2020001046A1
WO2020001046A1 PCT/CN2019/076239 CN2019076239W WO2020001046A1 WO 2020001046 A1 WO2020001046 A1 WO 2020001046A1 CN 2019076239 W CN2019076239 W CN 2019076239W WO 2020001046 A1 WO2020001046 A1 WO 2020001046A1
Authority
WO
WIPO (PCT)
Prior art keywords
motion
video
output
convolution
network
Prior art date
Application number
PCT/CN2019/076239
Other languages
English (en)
French (fr)
Inventor
王文敏
唐敏
陈雄涛
王荣刚
李革
高文
Original Assignee
北京大学深圳研究生院
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 北京大学深圳研究生院 filed Critical 北京大学深圳研究生院
Publication of WO2020001046A1 publication Critical patent/WO2020001046A1/zh

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/149Data rate or code amount at the encoder output by estimating the code amount by means of a model, e.g. mathematical model or statistical model
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/18Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a set of transform coefficients

Definitions

  • the invention relates to the field of computer vision technology, and in particular to a video prediction method based on deep learning hierarchical motion modeling and adaptive motion transformation.
  • video prediction is one of the most challenging tasks in video generation. Given a video sequence, the goal of the video prediction task is to generate clear and reasonable subsequent videos.
  • the present invention provides a video prediction method of adaptive hierarchical motion modeling, which can improve the effect of video prediction and improve the clarity and rationality of the prediction result.
  • a video prediction method for adaptive hierarchical motion modeling includes: establishing a hierarchical motion model of a video, training a model, and predicting future frames with the trained model. It includes the following steps:
  • the present invention first uses a full convolutional neural network to generate a "motion map" indicating a motion state for an input video sequence.
  • the input video sequence and "motion map” further generate a motion feature map through the encoder of the convolution structure.
  • the specific operations are as follows:
  • the convolutional layer of the full convolutional network uses the ReLU activation function and Tanh activation function to generate a different motion state The area will display a "sport map" in different colors;
  • the full convolutional network is mainly composed of 6 convolutional layers with a convolution step size of 1.
  • f (x) (e x -e -x ) / (e x + e -x ), where e is a natural constant, and the number of feature maps output by each layer is [128,256,512,256,128, 3];
  • the output f (x) is the motion map.
  • step 12 Combine the motion map obtained in step 11) to the end of the input video sequence F.
  • the encoder is entered.
  • the encoder's convolution layer uses the ReLU activation function to output the feature map, which generates the motion feature;
  • k convolution kernels with a size of 13 ⁇ 13 are output for subsequent motion transformation.
  • step 2) Apply the motion feature generated in step 1) to the video appearance information through an adaptive motion transformation method.
  • the invention uses a deformable convolution transformation method to extend the regular grid sampling method in the traditional convolution to a sampling method adapted to the structure of an object.
  • the offset is learned, and the regular sampling position is offset to realize adaptive convolution transformation.
  • the adaptive motion transformation process specifically performs the following operations:
  • Step 12 The obtained motion map passes through the first deconvolution network.
  • the output of each deconvolution layer of the first deconvolution network uses the ReLU activation function to output the feature map.
  • the feature map output from the last layer is used as a double Linear insertion of nucleus G;
  • the motion features obtained in step 12) pass through a deconvolution network composed of three deconvolution layers, the deconvolution step size is 2, each layer uses a ReLU activation function, and the number of output feature maps is [ 256,128,2k], the features of the last layer are used as the bilinear interpolation kernel G for bilinear interpolation.
  • the bilinear interpolation kernel G obtained in step 21) is used to perform bilinear interpolation on the last frame of the input sequence to obtain a transformed image of the frame.
  • Each convolution kernel can obtain a convolution transformed picture p i .
  • the frame transformed image P ⁇ p 1 , p 2 ,..., p i ,..., p k ⁇ .
  • Model training For the above network structure (the video hierarchical motion model established), an objective function is constructed. The objective function is to minimize the overall error of the training samples to learn the entire neural network (all the above networks, including the full convolutional network). , The first deconvolution network, and the second deconvolution network), thereby obtaining parameters that produce the optimal prediction result.
  • c is the objective function, that is, the overall error of the training samples;
  • y n is the real future frame, Predict the result for the frame.
  • step 1) Use the trained model to predict future frames: for different motions in the video to be predicted, perform the operation of step 1) to obtain multiple convolution kernels; then perform step 2) to obtain the final prediction result.
  • the invention provides a video prediction method of adaptive hierarchical motion modeling, which includes: establishing a hierarchical motion model of a video, training a model, and predicting future frames using the trained model.
  • Establishing a hierarchical motion model of video includes the hierarchical motion modeling and adaptive motion transformation processes of the video. The processing of both processes can independently improve the effect of video prediction.
  • the signal-to-noise ratio of the prediction result obtained by using the method of the present invention and the structural similarity with the real result are increased, which can improve the effect of video prediction and improve the clarity and rationality of the prediction result.
  • FIG. 1 is a flowchart of a hierarchical motion modeling method provided by the present invention.
  • FIG. 2 is an example of a motion map generated by adaptive hierarchical motion modeling according to an embodiment of the present invention
  • (a), (b), and (c) are three different instances.
  • the left four columns are the input video frames
  • the last column is the motion map generated by the method of the present invention.
  • FIG. 3 is a comparison diagram between the predicted result and the real result on the Penn Action dataset using the method of the present invention in the embodiment of the present invention
  • 1, 2 are two different examples, 1 (a), 2 (a) are the four frames of the input, 1 (b), 2 (b) are the three real images, and 1 (c ) And 2 (c) are three prediction result images, respectively.
  • FIG. 4 is a comparison diagram between the prediction result and the real result on the UCF101 data set using the method of the present invention in the embodiment of the present invention:
  • 1, 2, 3 are three different examples, 1 (a), 2 (a), and 3 (a) are the four frames of the input image, respectively, 1 (b), 2 (b), and 3 (b). ) Are three real images, and 1 (c), 2 (c), and 3 (c) are three prediction results images, respectively.
  • FIG. 1 shows the overall flow of the method provided by the present invention.
  • the specific process includes the following steps:
  • the full convolutional network is mainly composed of 6 convolutional layers with a convolution step of 1.
  • the feature map output from the last layer of the full convolutional network outputs k convolution kernels of size 13 ⁇ 13 through a fully connected layer for subsequent motion transformation.
  • Step 12 The obtained motion features (feature map of the last layer) pass through a deconvolution network composed of 3 layers of deconvolution layers with a deconvolution step size of 2. Each layer uses a ReLU activation function to output the features.
  • the number of graphs is [256, 128, 2k], k is the number of convolution kernels; the feature of the last layer is used as the bilinear interpolation kernel G for bilinear interpolation.
  • the bilinear interpolation kernel G obtained in step 21) is used to perform bilinear interpolation on the last frame of the input sequence to obtain a transformed image of the frame.
  • Each convolution kernel can obtain a convolution transformed picture p i .
  • the frame transformed image P ⁇ p 1 , p 2 ,..., p i ,..., p k ⁇ . That is, P is a set of k pictures.
  • the motion feature of step 12) passes through a network of 3 deconvolution layers, the deconvolution step is 2, each layer uses the ReLU activation function, and the number of output feature maps is [256,128, k + 1], and finally
  • the objective function is to minimize the overall error of the training samples to learn the parameters ⁇ of the entire neural network (all the networks described above), thereby obtaining the parameters that produce the optimal prediction results.
  • c is the objective function, that is, the overall error of the training samples;
  • y n is the real future frame, Predict the result for the frame.
  • step 1) Use the trained model to predict future frames: for different motions in the video to be predicted, perform the operation of step 1) to obtain multiple convolution kernels; perform step 2) to obtain the final prediction result.
  • Table 1 shows the video prediction effect of the present invention and the two variants obtained by removing hierarchical motion modeling and adaptive motion transformation on the PennAction dataset to verify the effectiveness of the present invention.
  • the prediction effect is based on the signal-to-noise ratio PSNR and literature of the whole picture described in Reference 1 (Mathieu, M., Couper, C., and Lecun, Y. (2016). Deep multi-scale video prediction. Meme square error. 3 (Wang, Z., Bovik, AC, Sheikh, HR, and Simoncelli, EP (2004). Image quality: assets: from error visibility to structural similarity. IEEE Trans Image Process, 13 (4), 600-612) The structural similarity SSIM measures, the higher the value, it indicates that the prediction result is approximately similar to the real result.
  • Table 2 shows the video prediction effect of the present invention on the UCF101 dataset and a comparison with the existing methods.
  • Existing methods include Adv + GDL described in Document 1, Document 2 (Liang, X., Lee, L., Dai, W., and Xing, EP (2017). Dual motion for future-flow embedded video prediction. -1770) DualMotionGAN, Document 4 (Liu, Z., Yeh, RA, Tang, X., Liu, Y., and Agarwala, A. (2017). Video Frame Synthesis Using Deep Voxel Flow. IEEE International Conference Conference Computer Vision (pp.4473-4481).
  • the hierarchical motion modeling and adaptive motion transformation module of the present invention can independently improve the effect of video prediction. It can be seen from Table 2 that compared with the existing method, the present invention has the best prediction effect on the whole picture, and the structural similarity on the motion area is the best.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Image Analysis (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

一种基于自适应层次化运动建模的视频预测方法,包括:建立视频的层次化运动模型、训练模型、用训练好的模型预测视频未来帧;其中,建立视频的层次化运动模型包括视频的层次化运动建模和自适应的运动变换过程。两个过程的处理均能独立提升视频预测的效果。采用本发明方法得到预测结果的信噪比、与真实结果的结构相似度均有所增加,能够提升视频预测的效果,提高预测结果清晰度和合理性。

Description

一种基于自适应层次化运动建模的视频预测方法 技术领域
本发明涉及计算机视觉技术领域,具体涉及一种基于深度学习层次化运动建模和自适应运动变换的视频预测方法。
背景技术
由于视频能够提供丰富的视觉信息,视频生成已经成为计算机视觉领域中一个重要的研究课题,而视频预测是视频生成中最具挑战的任务之一。给定一段视频序列,视频预测任务的目标是生成清晰合理的后续视频。
近年来有多种通过对视频内容进行编解码实现预测的方法被提出,但是,这些方法大多对输入帧进行多次滤波操作,导致内容细节信息丢失严重,生成结果模糊,效果不佳。并且,针对不同的输入,这些方法采用的深度网络参数都保持不变,实现复杂的运动变换受到了很大限制。现有的用于视频预测的运动建模技术则利用视频的冗余信息,关注物体的运动信息并对其建模,能够缓解基于内容预测方法的一些局限性,但是,现实运动的多样性和复杂性导致运动信息的准确获取和合理实施存在诸多困难。
发明内容
为了克服上述现有技术的不足,本发明提供了一种自适应层次化运动建模的视频预测方法,能够提升视频预测的效果,提高预测结果清晰度和合理性。
本发明提供的技术方案是:
一种自适应层次化运动建模的视频预测方法,包括:建立视频的层次化运动模型,训练模型,用训练好的模型预测未来帧。具体包括如下步骤:
视频层次化运动模型的建立,执行步骤1)-2):
1)首先对输入视频的运动信息由粗到细有层次地进行建模;
本发明先通过全卷积神经网络对输入的视频序列生成指示运动状态的“运动图”。输入的视频序列与“运动图”进一步通过卷积结构的编码器生成运动特征图。具体执行如下操作:
11)利用全卷积网络,针对输入的视频序列F={f 1,f 2,…,f t},全卷积网络的卷积层使用ReLU激活函数和Tanh激活函数,生成一个不同运动状态区域会显示不同颜色的“运动图”;
全卷积网络主要由6层卷积层组成,卷积步长为1,前五层使用ReLU激活函数:f(x)=max(0,x),最后一层使用Tanh激活函数,设x为输入,输出为: f(x)=(e x-e -x)/(e x+e -x),其中e为自然常数,每一层输出的特征图数量分别为[128,256,512,256,128,3];输出f(x)即为运动图。
12)将步骤11)得到的运动图并到输入的视频序列F的末尾,作为新的输入序列,输入到的编码器,编码器的卷积层使用ReLU激活函数,输出特征图,即生成运动特征;
具体地,将新的输入序列输入到具有3层卷积层的编码器,卷积步长为2,每一层都使用ReLU激活函数,若x为输入,输出为:f(x)=max(0,x),每一层网络输出不同数量的特征图,分别为[128,256,512]。
13)步骤12)中的全卷积网络最后一层输出的特征图通过一个全连接层,输出k个卷积核;
具体地,输出k个大小为13×13的卷积核,用于后续的运动变换。
2)将步骤1)生成的运动特征通过自适应的运动变换方式作用到视频外观信息上。
本发明利用可形变的卷积变换方式,将传统卷积中的规则网格采样方法扩展为适应物体结构的采样方法。通过反卷积结构的解码器学习偏移量,对规则采样位置实施偏移,实现自适应卷积变换。
自适应的运动变换过程具体执行如下操作:
21)利用第一反卷积网络生成用于自适应卷积变换的参数。
步骤12)得到的运动图经过第一反卷积网络,第一反卷积网络的每一层反卷积层输出均使用ReLU激活函数,输出特征图;将最后一层输出的特征图作为双线性插入核G;
具体地,步骤12)得到的运动特征经过3层反卷积层组成的反卷积网络,反卷积步长为2,每一层输出都使用ReLU激活函数,输出的特征图数量分别为[256,128,2k],最后一层的特征作为后面进行双线性插值的双线性插入核G。
22)将步骤21)得到的双线性插入核G对输入序列的最后一帧进行双线性插值,得到对该帧变换后的图像。用步骤13)得到的卷积核对插值变换后的图像做卷积运算,每个卷积核可以得到一张卷积变换后的图片p i,结果得到该帧变换后的图像P={p 1,p 2,…,p i,…,p k}。
23)利用另一个反卷积网络生成用于合并多张变换图像的掩码,即权重。
步骤12)得到的运动图经过第二反卷积网络,第二反卷积网络的每一层反卷积层均使用ReLU激活函数,输出特征图;输出层使用Softmax激活函数;得到掩码M={m 0,m 1,…,m i,…,m k};
具体地,步骤12)的运动特征经过3层反卷积层组成的网络,反卷积步长为2,每一层都 使用ReLU激活函数,输出的特征图数量分别为[256,128,k+1],最后的输出层使用Softmax激活函数,最终得到k+1张128×128的掩码M={m 0,m 1,…,m i,…,m k},m i是对上述图像p i加权求和时的权重。
24)合并步骤22)得到的多张变换图片,得到最终的预测结果:
Figure PCTCN2019076239-appb-000001
⊙表示对应位置元素相乘。
3)模型的训练:针对上述网络结构(建立的视频层次化运动模型)构造目标函数,目标函数是最小化训练样本的整体误差,以学习到整个神经网络(上述所有网络,包括全卷积网络、第一反卷积网络、第二反卷积网络)的参数Ω,由此得到产生最优预测结果的参数。
具体地,假设有N个训练样本,每个样本生成1帧,构造目标函数:
Figure PCTCN2019076239-appb-000002
其中,c为目标函数,即训练样本的整体误差;y n为真实的未来帧,
Figure PCTCN2019076239-appb-000003
为帧预测结果。
4)利用训练好的模型预测未来帧:针对待预测视频中的不同运动,执行步骤1)的操作得到多个卷积核;再执行步骤2),得到最终的预测结果。
与现有技术相比,本发明的有益效果是:
本发明提供了一种自适应层次化运动建模的视频预测方法,包括:建立视频的层次化运动模型,训练模型,用训练好的模型预测未来帧。建立视频的层次化运动模型包括视频的层次化运动建模和自适应的运动变换过程,两个过程的处理均能独立提升视频预测的效果。采用本发明方法得到预测结果的信噪比、与真实结果的结构相似度均有所增加,能够提升视频预测的效果,提高预测结果清晰度和合理性。
附图说明
图1是本发明提供的层次化运动建模方法的流程框图。
图2是本发明实施例采用自适应层次化运动建模生成的运动图示例;
其中,(a)、(b)、(c)分别为三个不同的实例,对于每个实例,左边四列为输入的视频帧,最后一列为采用本发明方法生成的运动图。
图3是本发明实施例中采用本发明方法在Penn Action数据集上的预测结果与真实结果的对比图;
其中,1、2分别为两个不同的实例,1(a)、2(a)分别为输入的四帧图像,1(b)、2 (b)分别为三幅真实的图像,1(c)、2(c)分别为三幅预测结果图像。
图4本发明实施例中采用本发明方法在UCF101数据集上的预测结果与真实结果的对比图:
其中,1、2、3分别为三个不同的实例,1(a)、2(a)、3(a)分别为输入的四帧图像,1(b)、2(b)、3(b)分别为三幅真实的图像,1(c)、2(c)、3(c)分别为三幅预测结果图像。
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
本发明提供一种基于深度学习的自适应层次化运动建模的视频预测方法,包括视频的层次化运动建模和自适应的运动变换;图1所示是本发明提供方法的总体流程。具体过程包括如下步骤:
1、进行运动建模,参见步骤11)-13)。
11)利用全卷积网络,针对输入的视频序列F={f 1,f 2,…,f t},生成一个不同运动状态区域会显示不同颜色的“运动图”。
全卷积网络主要由6层卷积层组成,卷积步长为1,前五层使用ReLU激活函数:f(x)=max(0,x),最后一层使用Tanh激活函数,若x为输入,输出为:f(x)=(e x-e -x)/(e x+e -x),其中e为自然常数,每一层输出的特征图数量分别为[128,256,512,256,128,3]。
12)将“运动图”并到输入的视频序列的末尾,作为新的输入序列,输入到具有3层卷积层的编码器,卷积步长为2,每一层都使用ReLU激活函数,若x为输入,输出为:f(x)=max(0,x),每一层网络输出不同数量的特征图,分别为[128,256,512]。
13)全卷积网络最后一层输出的特征图通过一个全连接层输出k个大小为13×13的卷积核,用于后续的运动变换。
2、其次进行自适应运动变换,参见步骤21)-25)。
21)利用反卷积网络生成用于自适应卷积变换的参数。
步骤12)得到的运动特征(最后一层的特征图)经过3层反卷积层组成的反卷积网络,反卷积步长为2,每一层输出都使用ReLU激活函数,输出的特征图数量分别为[256,128,2k],k为卷积核的数目;最后一层的特征作为后面进行双线性插值的双线性插入核G。
22)将步骤21)得到的双线性插入核G对输入序列的最后一帧进行双线性插值,得到对该帧变换后的图像。用步骤13)得到的卷积核对插值变换后的图像卷积运算,每个卷积核可以得 到一张卷积变换后的图片p i,结果得到该帧变换后的图像P={p 1,p 2,…,p i,…,p k}。即P为k张图片的集合。
23)利用另一个反卷积网络生成用于合并多张变换图片的掩码,即权重。
步骤12)的运动特征经过3层反卷积层组成的网络,反卷积步长为2,每一层都使用ReLU激活函数,输出的特征图数量分别为[256,128,k+1],最后的输出层使用Softmax激活函数,最终得到k+1张128×128的掩码M={m 0,m 1,…,m k}。
24)合并步骤22)得到的多张变换图片,得到最终的预测结果:
Figure PCTCN2019076239-appb-000004
⊙表示对应位置元素相乘。
3)针对上述网络结构构造目标函数,目标函数是最小化训练样本的整体误差,以学到整个神经网络(上述所有网络)的参数Ω,由此得到产生最优预测结果的参数。
具体地,假设有N个训练样本,每个样本生成1帧,构造目标函数:
Figure PCTCN2019076239-appb-000005
其中,c为目标函数,即训练样本的整体误差;y n为真实的未来帧,
Figure PCTCN2019076239-appb-000006
为帧预测结果。
4)利用训练好的模型预测未来帧:针对待预测视频中的不同运动,执行步骤1)的操作得到多个卷积核;执行步骤2)得到最终的预测结果。
表1给出了本发明与分别去除层次运动建模和自适应运动变换得到的两个变体在Penn Action数据集上的视频预测效果用于验证本发明的有效性。预测效果用文献1(Mathieu,M.,Couprie,C.,and Lecun,Y.(2016).Deep multi-scale video prediction beyond mean square error.ICLR)记载的整张图片的信噪比PSNR和文献3(Wang,Z.,Bovik,A.C.,Sheikh,H.R.,and Simoncelli,E.P.(2004).Image quality assessment:from error visibility to structural similarity.IEEE Trans Image Process,13(4),600-612)记载的结构相似度SSIM衡量,值越高,说明预测结果与真实结果约相似。
表1 Penn Action数据集上的预测效果
方法 信噪比PSNR 结构相似度SSIM
变体1 32.5 0.97
变体2 29.7 0.96
本发明 33.3 0.97
表2给出了本发明在UCF101数据集上的视频预测效果及与现有方法的对比。现有方法包括文献1记载的Adv+GDL、文献2(Liang,X.,Lee,L.,Dai,W.,and Xing,E.P.(2017). Dual motion gan for future-flow embedded video prediction.1762-1770)记载的DualMotionGAN、文献4(Liu,Z.,Yeh,R.A.,Tang,X.,Liu,Y.,and Agarwala,A.(2017).Video Frame Synthesis Using Deep Voxel Flow.IEEE International Conference on Computer Vision(pp.4473-4481).IEEE Computer Society.)记载的DVF、文献5(Byeon,W.,Wang,Q.,Srivastava,R.K.,and Koumoutsakos,P.(2017).Fully context-aware video prediction)记载的FullyContextAware。预测效果用运动区域和整张图片的PSNR和SSIM衡量。
表2 UCF101数据集上的检索效果
Figure PCTCN2019076239-appb-000007
从表1可以看出,本发明的层次运动建模和自适应运动变换模块都能独立提升视频预测的效果。从表2可以看出,与现有方法对比,本发明在整张图片的预测效果最好,而在运动区域上结构相似度最好。
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。

Claims (7)

  1. 一种自适应层次化运动建模的视频预测方法,包括:建立视频的层次化运动模型、训练模型、用训练好的模型预测视频未来帧;
    建立视频层次化运动模型,执行步骤1)-2):
    1)对输入视频的运动信息由粗到细有层次地进行建模:先通过全卷积神经网络对输入的视频序列生成指示运动状态的运动图;输入的视频序列与运动图进一步通过卷积结构的编码器生成运动特征图;具体执行如下操作:
    11)利用全卷积网络,全卷积网络的卷积层使用ReLU激活函数和Tanh激活函数,针对输入的视频序列F={f 1,f 2,…,f t},设输入为x,生成一个运动图f(x)=(e x-e -x)/(e x+e -x)输出,其中e为自然常数;
    12)将步骤11)得到的运动图并到输入的视频序列F的末尾,作为新的输入序列,输入到编码器,编码器的卷积层使用ReLU激活函数,生成输出;设x为输入,输出为运动特征图f(x)=max(0,x);
    13)将步骤12)中的全卷积网络最后一层输出的特征图通过一个全连接层,输出k个卷积核;
    2)将步骤1)生成的运动特征图通过自适应的运动变换方式作用到视频外观信息上:利用可形变的卷积变换方式,将卷积中的规则网格采样方法扩展为适应物体结构的采样方法,通过反卷积结构的解码器学习偏移量,对规则采样位置实施偏移,实现自适应卷积变换;执行如下操作:
    21)利用第一反卷积网络生成用于自适应卷积变换的参数;
    步骤12)得到的运动图经过第一反卷积网络,第一反卷积网络的每一层反卷积层输出均使用ReLU激活函数,输出特征图;将最后一层输出的特征图作为双线性插入核G;
    22)将步骤21)得到的双线性插入核G对输入序列的最后一帧进行双线性插值,得到对该帧变换后的图像;用步骤13)得到的卷积核对插值变换后的图像做卷积运算,每个卷积核得到一张卷积变换后的图片p i,由此得到该帧变换后的图像P={p 1,p 2,…,p i,…,p k};
    23)利用第二反卷积网络生成用于合并多张变换图像的掩码,即权重:将步骤12)得到的运动图经过第二反卷积网络,第二反卷积网络的每一层反卷积层均使用ReLU激活函数,输出特征图;输出层使用Softmax激活函数;得到掩码M={m 0,m 1,…,m i,…,m k};
    24)合并步骤22)得到的多张变换后的图像,得到最终的预测结果:
    Figure PCTCN2019076239-appb-100001
    其中,⊙表示对应位置元素相乘;
    3)模型的训练:针对建立的视频层次化运动模型构造目标函数,目标函数是最小化训练样本的整体误差,以学习到神经网络的参数Ω,由此得到产生最优预测结果的参数;
    具体地,假设有N个训练样本,每个样本生成1帧,构造目标函数为:
    Figure PCTCN2019076239-appb-100002
    其中,c为目标函数,即训练样本的整体误差;y n为真实的未来帧,
    Figure PCTCN2019076239-appb-100003
    为帧预测结果;
    4)利用训练好的模型预测视频的未来帧:针对待预测视频中的不同运动,执行步骤1)得到多个卷积核;再执行步骤2),得到最终的预测结果。
  2. 如权利要求1所述自适应层次化运动建模的视频预测方法,其特征是,步骤11)的运动图中,不同运动状态区域显示不同颜色。
  3. 如权利要求1所述自适应层次化运动建模的视频预测方法,其特征是,步骤11)中的全卷积网络包括6层卷积层,卷积步长为1,前五层卷积层使用ReLU激活函数:f(x)=max(0,x),最后一层使用Tanh激活函数,每一层输出的特征图数量分别为[128,256,512,256,128,3]。
  4. 如权利要求1所述自适应层次化运动建模的视频预测方法,其特征是,步骤12)具体将新的输入序列输入到具有3层卷积层的编码器,卷积步长为2,每一层网络输出不同数量的特征图,分别为[128,256,512]。
  5. 如权利要求1所述自适应层次化运动建模的视频预测方法,其特征是,步骤13)将步骤11)中的全卷积网络最后一层输出的特征图通过一个全连接层,输出k个大小为13×13的卷积核。
  6. 如权利要求1所述自适应层次化运动建模的视频预测方法,其特征是,步骤21)具体将步骤12)得到的运动特征经过3层反卷积层组成的反卷积网络,反卷积步长为2,每一层输出均使用ReLU激活函数,输出的特征图数量分别为[256,128,2k]。
  7. 如权利要求1所述自适应层次化运动建模的视频预测方法,其特征是,步骤23)具体将步骤12)的运动特征经过3层反卷积层组成的网络,反卷积步长为2,每一层均使用ReLU激活函数,输出的特征图数量分别为[256,128,k+1],最后的输出层使用Softmax激活函数,最终得到k+1张128×128的掩码M={m 0,m 1,…,m k}。
PCT/CN2019/076239 2018-06-27 2019-02-27 一种基于自适应层次化运动建模的视频预测方法 WO2020001046A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810675070.5 2018-06-27
CN201810675070.5A CN108769674B (zh) 2018-06-27 2018-06-27 一种基于自适应层次化运动建模的视频预测方法

Publications (1)

Publication Number Publication Date
WO2020001046A1 true WO2020001046A1 (zh) 2020-01-02

Family

ID=63977518

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2019/076239 WO2020001046A1 (zh) 2018-06-27 2019-02-27 一种基于自适应层次化运动建模的视频预测方法

Country Status (2)

Country Link
CN (1) CN108769674B (zh)
WO (1) WO2020001046A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108769674B (zh) * 2018-06-27 2019-11-12 北京大学深圳研究生院 一种基于自适应层次化运动建模的视频预测方法
CN112836608B (zh) * 2021-01-25 2021-10-01 南京恩博科技有限公司 森林火灾源头的估计模型训练方法、估计方法及系统
CN114758282B (zh) * 2022-04-28 2022-12-06 杭州电子科技大学 基于时序校正卷积的视频预测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106897714A (zh) * 2017-03-23 2017-06-27 北京大学深圳研究生院 一种基于卷积神经网络的视频动作检测方法
CN107767413A (zh) * 2017-09-20 2018-03-06 华南理工大学 一种基于卷积神经网络的图像深度估计方法
CN108769674A (zh) * 2018-06-27 2018-11-06 北京大学深圳研究生院 一种基于自适应层次化运动建模的视频预测方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5731840A (en) * 1995-03-10 1998-03-24 Kabushiki Kaisha Toshiba Video coding/decoding apparatus which transmits different accuracy prediction levels
KR101484280B1 (ko) * 2009-12-08 2015-01-20 삼성전자주식회사 임의적인 파티션을 이용한 움직임 예측에 따른 비디오 부호화 방법 및 장치, 임의적인 파티션을 이용한 움직임 보상에 따른 비디오 복호화 방법 및 장치
CN101771878B (zh) * 2010-01-14 2011-05-25 广西大学 面向全景视频编码的自适应选择全局运动估计方法
CN103901891A (zh) * 2014-04-12 2014-07-02 复旦大学 一种基于层次结构的动态粒子树slam算法
CN107292912B (zh) * 2017-05-26 2020-08-18 浙江大学 一种基于多尺度对应结构化学习的光流估计方法
CN108111860B (zh) * 2018-01-11 2020-04-14 安徽优思天成智能科技有限公司 基于深度残差网络的视频序列丢失帧预测恢复方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106897714A (zh) * 2017-03-23 2017-06-27 北京大学深圳研究生院 一种基于卷积神经网络的视频动作检测方法
CN107767413A (zh) * 2017-09-20 2018-03-06 华南理工大学 一种基于卷积神经网络的图像深度估计方法
CN108769674A (zh) * 2018-06-27 2018-11-06 北京大学深圳研究生院 一种基于自适应层次化运动建模的视频预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LIU, ZIWEI ET AL.: "Video Frame Synthesis Using Deep Voxel Flow", PROCEEDING OF THE 2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, 31 December 2017 (2017-12-31), pages 4474 - 4481, XP080747152 *
YAN, XING ET AL.: "Modeling Video Dynamics with Deep Dynencoder", PROCEEDINGS OF THE 13TH EUROPEAN CONFERENCE ON COMPUTER VISION, vol. 4, 31 December 2014 (2014-12-31), pages 215 - 230, XP055669109 *

Also Published As

Publication number Publication date
CN108769674B (zh) 2019-11-12
CN108769674A (zh) 2018-11-06

Similar Documents

Publication Publication Date Title
Liu et al. Learning temporal dynamics for video super-resolution: A deep learning approach
Li et al. Video superresolution via motion compensation and deep residual learning
Liu et al. Robust video super-resolution with learned temporal dynamics
Shamsolmoali et al. G-GANISR: Gradual generative adversarial network for image super resolution
Liu et al. Cross-SRN: Structure-preserving super-resolution network with cross convolution
CN110969577A (zh) 一种基于深度双重注意力网络的视频超分辨率重建方法
CN107274347A (zh) 一种基于深度残差网络的视频超分辨率重建方法
CN107610049B (zh) 基于稀疏正则化技术和加权引导滤波的图像超分辨率方法
CN108259994B (zh) 一种提高视频空间分辨率的方法
Li et al. Video super-resolution using non-simultaneous fully recurrent convolutional network
CN113034380A (zh) 一种基于改进可变形卷积校正的视频时空超分辨率方法和装置
WO2020001046A1 (zh) 一种基于自适应层次化运动建模的视频预测方法
CN108320306B (zh) 融合tld和kcf的视频目标跟踪方法
CN113205595B (zh) 一种3d人体姿态估计模型的构建方法及其应用
Cao et al. Vdtr: Video deblurring with transformer
CN111080591A (zh) 基于编码解码结构结合残差模块的医学图像分割方法
CN114898284B (zh) 一种基于特征金字塔局部差异注意力机制的人群计数方法
Bare et al. Real-time video super-resolution via motion convolution kernel estimation
Cai et al. Multiscale attentive image de-raining networks via neural architecture search
CN113436224B (zh) 一种基于显式构图规则建模的智能图像裁剪方法及装置
CN107729885B (zh) 一种基于多重残差学习的人脸增强方法
CN112200752B (zh) 一种基于er网络多帧图像去模糊系统及其方法
CN112598604A (zh) 一种盲脸复原方法及系统
CN112215140A (zh) 一种基于时空对抗的3维信号处理方法
CN116977208A (zh) 双分支融合的低照度图像增强方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19827182

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19827182

Country of ref document: EP

Kind code of ref document: A1