WO2023070448A1

WO2023070448A1 - 视频处理方法、装置、电子设备和可读存储介质

Info

Publication number: WO2023070448A1
Application number: PCT/CN2021/127079
Authority: WO
Inventors: 那彦波; 卢运华
Original assignee: 京东方科技集团股份有限公司
Priority date: 2021-10-28
Filing date: 2021-10-28
Publication date: 2023-05-04
Also published as: CN116368511A; US20240135488A1

Abstract

本公开提供一种视频处理方法、装置、电子设备和可读存储介质。视频处理方法，包括以下步骤：获取输入数据，所述输入数据包括图片数据和/或视频数据；将所述输入数据输入视频处理模型获得输出视频数据；其中，所述输出视频数据和所述输入数据的分辨率和/或时长不相等，所述视频处理模型包括多个依次设置且对应不同图像分辨率的生成器，每一所述生成器包括转置三维卷积单元和多个第一三维卷积层，所述转置三维卷积单元用于根据所述生成器的输入数据和中间处理数据生成第一输出数据，所述输出视频数据是根据所述第一输出数据得到的，所述中间处理数据是将所述输入数据输入所述多个第一三维卷积层后得到的。本公开实施例能够提高视频处理效果。

Description

视频处理方法、装置、电子设备和可读存储介质

技术领域

本公开实施例涉及图像处理技术领域，尤其涉及一种视频处理方法、装置、电子设备和可读存储介质。

背景技术

图像处理技术支持通过模型训练通过一定的图像生成满足特定要求的，例如，通过对于模型的不断训练，以基于原始图像生成分辨率更高或尺寸不同的图像。

发明内容

在其中一些方面，本公开实施例提供了一种视频处理方法，包括以下步骤：

获取输入数据，其中，所述输入数据包括图片数据和/或视频数据；

将所述输入数据输入视频处理模型获得输出视频数据；

其中，所述输出视频数据和所述输入数据的分辨率和/或时长不相等，所述视频处理模型包括多个依次设置且对应不同图像分辨率的生成器，每一所述生成器包括转置三维卷积单元和多个第一三维卷积层，所述转置三维卷积单元用于根据所述生成器的输入数据和中间处理数据生成第一输出数据，所述输出视频数据是根据所述第一输出数据得到的，所述中间处理数据是将所述输入数据输入所述多个第一三维卷积层后得到的。

在一些实施例中，所述生成器还包括第二三维卷积层，所述第二三维卷积层用于调整所述第一输出数据获得第二输出数据，所述第二三维卷积层的至少一个维度的步长大于所述转置三维卷积单元的步长。

在一些实施例中，所述第二三维卷积层包括与时间维度对应的第一步长，以及与输出尺寸维度对应的第二步长，所述转置三维卷积单元均包括与时间维度对应的第三步长，以及与输出尺寸维度对应的第四步长。

在一些实施例中，所述第一步长和所述第三步长的比值与所述第二步长和所述第四步长的比值不相等。

在一些实施例中，所述第一三维卷积层的数量为四个。

在一些实施例中，每一所述第一三维卷积层包括依次设置的一个三维卷积单元和一个残差层。

在一些实施例中，在所述输入数据包括视频数据且所述输出视频数据和所述输入数据的时长不相等的情况下，多个第一图像对应同一第二图像，其中，所述多个第一图像为所述输入数据中多帧不同的图像，所述第二图像为所述输出视频数据中的一帧图像。

在一些实施例中，所述输入视频处理模型是通过生成对抗网络进行模型训练得到的，所述生成对抗网络包括所述生成器和判别器；

其中，所述生成器是以低分辨率图像为输入，以高分辨率视频序列为输出的模型；

所述判别器是以图像为输入，以对于图像的判别结果为输出的模型；

模型训练的损失函数是根据所述生成器和所述判别器之间的对抗损失，以及所述生成器的输入和输出重构损失确定的。

在一些实施例中，在所述输入数据包括视频数据的情况下，所述将所述输入数据输入视频处理模型获得输出视频数据之前，所述方法还包括：

将所述输入数据按照预设时间间隔划分为多个视频序列；

提取所述视频序列的三维面片，其中，所述视频序列中的每一像素至少存在于一个所述三维面片中，且至少部分像素位于多个所述三维面片中；

将所述三维面片作为所述视频处理模型的输入。

在其中一些方面，本公开实施例提供了一种视频处理装置，包括：

输入数据获取模块，用于获取输入数据，其中，所述输入数据包括图片数据和/或视频数据；

输入模块，用于将所述输入数据输入视频处理模型获得输出视频数据；

其中，所述视频处理模型包括多个依次设置且对应不同图像分辨率的生成器，每一所述生成器包括转置三维卷积单元和多个第一三维卷积层，所述转置三维卷积单元用于根据所述生成器的输入数据和中间处理数据生成第一输出数据，所述输出视频数据是根据所述第一输出数据得到的，所述中间处理数据是将所述输入数据输入所述多个第一三维卷积层后得到的。

在一些实施例中，所述第一三维卷积层的数量为四个。

在一些实施例中，在所述输入数据包括视频数据的情况下，还包括：

视频序列划分模块，用于将所述输入数据按照预设时间间隔划分为多个视频序列；

三维面片提取模块，用于提取所述视频序列的三维面片，其中，所述视频序列中的每一像素至少存在于一个所述三维面片中，且至少部分像素位于多个所述三维面片中；

输入数据确定模块，用于将所述三维面片作为所述视频处理模型的输入。

在其中一些方面，本公开实施例提供了一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序；所述处理器，用于读取存储器中的程序实现如前述第一方面所述方法中的步骤。

在其中一些方面，本公开实施例提供了一种可读存储介质，用于存储程序，所述程序被处理器执行时实现如前述第一方面所述方法中的步骤。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对本公开实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本公开一实施例提供的视频处理方法的流程示意图；

图2是本公开一实施例提供的卷积神经网络的模型示意图；

图3是本公开一实施例提供的生成对抗网络的训练示意图；

图4是本公开一实施例中生成器的结构示意图；

图5是本公开一实施例提供的生成对抗网络的又一训练示意图；

图6是本公开一实施例中又一生成器的结构示意图；

图7是本公开一实施例中视频序列的结构示意图；

图8是本公开一实施例中三维面片的结构示意图；

图9是本公开一实施例中的应用场景示意图；

图10是本公开一实施例提供的视频处理装置的结构示意图；

图11是本公开一实施提供的电子设备的结构示意图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

本公开实施例中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。此外，本申请中使用“和/或”表示所连接对象的至少其中之一，例如A和/或B和/或C，表示包含单独A，单独B，单独C，以及A和B都存在，B和C都存在，A和C都存在，以及A、B和C都存在的7种情况。

本公开实施例提供了一种视频处理方法。

如图1所示，在其中一些实施例中，该视频处理方法包括以下步骤：

步骤101：获取输入数据。

本实施例中的输入数据包括图片数据和/或视频数据。

步骤102：将所述输入数据输入视频处理模型获得输出视频数据。

本公开实施例的技术方案中，视频处理模型是通过模型训练获得的，该视频处理模型可以是卷积神经网络模型。

卷积神经网络是一种使用图像作为输入/输出并用滤波器(卷积)代替标量权重的神经网络结构。

如图2所示，图2示例性的展示了一个3层卷积神经网络。该卷积神经网络在左侧获取4个输入图像，在中间的隐藏层有3个单元(输出图像)，在输出层有2个单元，生成2个输出图像。

每个带权重的框对应一个过滤器(示例性的，可以是3x3x3或5x5x5内核)，其中各参数的上标是表示输入层编号的标签，下标依次为输入和输出单位的标签。偏差b是加在卷积输出上的标量。添加多个卷积和偏置的结果随后通过激活盒，激活盒通常对应于整流线性单元(ReLU)、sigmoid函数或双曲正切等。滤波器和偏置在系统运行期间固定，通过使用一组输入/输出示例图像的训练过程获得，并根据应用程序进行调整以符合某些优化标准。一般来说，3层的卷积神经网络被称作浅层卷积神经，而大于5层的卷积神经网络通常被称作深层卷积神经。

进一步的，在一些实施例中，视频处理模型是通过生成对抗网络(GAN)进行模型训练得到的。

如图3所示，GAN的模型训练过程中，需要建立生成器(Generator，记做G)和判别器(Discriminator，记做D)。其中，生成器用于执行生成任务，判别器用于判定生成结果是否正确。

示例性的，如图3所示，在一个实施例中，GAN的训练过程中，利用生成器基于输入数据获得输出数据，将生成器的输出结果标记为假(Fake)，将满足训练目标的真实数据标记为真(Real)，利用判别器对生成器的输出结果和真实数据进行判别，根据判别结果进一步调整生成器的参数，根据所建立的损失函数，对生成器和判别器进行交替训练，直至损失函数收敛或达到一定的迭代此处，完成GAN的训练，其中，训练完成的生成器即作为训练完成的模型。

在一些实施例中，具体的，生成对抗网络包括生成器和判别器；生成器是以低分辨率图像为输入，以高分辨率视频序列为输出的模型；判别器是以图像为输入，以对于图像的判别结果为输出的模型；模型训练的损失函数包括根据生成器和判别器之间的对抗损失Ladv，以及生成器的输入和输出重构损失Lrec。

如图4所示，可以理解为，生成器用于基于添加了噪声图zn的图像去除噪声，获得输出结果，将该输出结果与真实图像对比，构建损失函数以进行模型训练。

在其中一些实施例中，所构建的损失函数包括：

其中，公式(1)中α为预设系数，Gn为代表第n个生成器，Dn为代表第n个判别器，n的取值范围为0至N。公式(2)中第一行为n不等于N时的重构损失Lrec，第二行为n等于N时的重构损失Lrec。式中，

为第n个生成器的输出结果，xn为

对应的真实结果，z为噪声图。

视频处理模型包括多个依次设置且对应不同图像分辨率的生成器，如图 3和5所示，本实施例中，首先学习从低分辨率噪声生成最小分辨率图像。该学习任务完成之后，将放大输出，添加更高分辨率的噪波，并学习新的生成器以创建更高分辨率的图像。按照图3和图5中从下到上的顺序，不断进行上述训练过程，如图3和图5最上方一行所示，直到输出的分辨率与训练目标对应的真实图像的分辨率相同，完成模型训练。

不同分辨率对应的噪声输入为独立且相同分布的样本，因此每个像素值独立于其他像素值。同时，由于生成器是完全卷积的，可以改变噪声输入的分辨率来生成任意不同分辨率的图像。

如图6所示，每一生成器G包括转置三维卷积单元602和多个第一三维卷积层601，转置三维卷积单元602用于根据生成器G的输入数据和中间处理数据生成第一输出数据，输出视频数据是根据第一输出数据得到的，中间处理数据是将输入数据输入多个第一三维卷积层601后得到的。

在一些实施例中，第一三维卷积层601的数量为四个，进一步的，在一些实施例中，每一第一三维卷积层包括依次设置的一个三维卷积单元6011和一个残差层6012。

需要理解的是，现有的金字塔结构的生成对抗网络(SinGAN)仅适用于调整二维图像，本实施例中，通过增加转置三维卷积单元602，能够通过转置三维卷积单元602维护一个一对多的映射，从而增加所能处理的数据的维度，从而能够实现对三维图像的处理，即使得输出图像为视频文件成为可能。

请继续参阅图6，在一些实施例中，生成器G还包括第二三维卷积层603，第二三维卷积层603用于调整根据第一输出数据获得第二输出数据，第二三维卷积层603的至少一个维度的步长大于转置三维卷积单元602的步长。在一些实施例中，第二三维卷积层603的各维度的步长均大于转置三维卷积单元602的步长。

通过控制第二三维卷积层603的步长大于转置三维卷积单元602的步长，能够实现利用第二三维卷积层603执行上采样操作，从而实现放大图像的尺寸或压缩图像的时间。

这里，调整第一输出数据具体指的是对第一输出数据的时长或分辨率进行调整，示例性的，可以是调整第一输出数据的长或宽，也可以是压缩第一视频的时长，调整后的第一输出数据作为第二输出数据。

可以理解的是，由于引入了时间维度，因此，时间和空间(图像分辨率)的放大因子需要基于不同的调整实现。可选的，当需要调整时间维度和空间维度中的至少一项时，进一步增加了第二三维卷积层603，第二三维卷积层603通过调整维度步长，以实现对于时间或空间维度的调整。

在一些实施例中，第二三维卷积层603包括与时间维度对应的第一步长，以及与输出尺寸维度对应的第二步长，转置三维卷积单元602均包括与时间维度对应的第三步长，以及与输出尺寸维度对应的第四步长。

本实施例中，第二三维卷积层603与时间维度T对应的第一步长为A，与输出尺寸维度H、W对应的第二步长为B和C，转置三维卷积单元与时间维度T对应的第三步长为X，与输出尺寸维度H、W对应的第四步长为Y和Z做示例性说明。可以理解，时间维度T对应视频数据的持续时间，输出尺寸维度H、W分别对应视频数据的宽度和高度，以表征视频数据的分辨率信息。

当A＝B＝C＝3，且X＝Y＝Z＝2时，可以将转置三维卷积单元602的输出结果按照1.5倍放大，即按照3/2的比例放大。

第一步长和第三步长的比值与第二步长和第四步长的比值相等或不相等，换句话说，A和X的比值可以等于B和Y的比值，也可以不相等，这样，能够实现针对时间维度和空间维度进行不同比例的放大。

示例性的，空间中的高频纹理可能是静止的，这意味着这些纹理在时间维度上的频率非常低。这样，可以对其在时间维度上压缩，由于纹理在时间维度上的频率较低，因此，即使对时间维度进行压缩，也不会导致有用的信息丢失。

通过调整输入数据的时间维度，能够提高适应性，满足不同尺寸的显示需求，同时，通过调整输入数据的空间维度，能够在避免信息丢失的情况下，控制输出视频数据的时长，从而可以使得特定的内容能够满足不同场景下的播放时长要求，这样，提高了对于视频数据的处理效果，能够满足更广泛的需求。进一步的，由于时间维度和空间维度分别进行不同比例的调节，能够应对更多的场景，充分满足对于视频时长和视频尺寸的需求。

将所述输入数据按照预设时间间隔划分为多个视频序列；

将所述三维面片作为所述视频处理模型的输入。

需要理解的是，现有方式在进行三维文件处理时，需要在处理器中，具体可以是中央处理器CPU或图形处理器GPU中，提供五维张量，五个维度分别对应批处理、通道、时间、宽度和高度，这导致对于视频处理的数据量远高于一般设备所能承受的能力，从而导致视频延迟较高且处理速度较慢。

本实施例中，将输入数据转换为三维片面(3D-Patch)。

如图7所示，本实施例中，图7示出了一个视频序列的结构示意图，该视频序列包括一个时间维度T，对应视频序列的持续时间，两个空间维度H和W，分别对应视频序列的宽度和高度。

如图8所示，本实施例中，提取视频序列中的三维面片，由于视频序列中的每一像素至少存在于一个三维面片中，所以全部三维面片的方式实际上包括了相应视频序列中的全部信息。通过调整三维面片尺寸，能够满足设备处理器的处理需求，减少数据维度的同时，也充分利用了处理器的性能。

经过第一三维卷积层和转置三维卷积单元处理的三维面片可以理解为上述第一输出数据，基于该三维面片之间的相对位置关系，能够将三维面片合成为连续的视频数据，所获得的视频数据可以理解为上述输出视频数据。

可以理解，当需要调整输出视频数据的尺寸或市场时，还可以设置第二三维卷积层对第一输出数据进行处理获得第二输出数据，并根据第二输出数据生成输出视频数据。

至少部分像素位于多个三维面片中，可以理解为，三维面片之间存在一定的重叠，这样，能够减少阻塞阴影，由于三维面片的时间维度和尺寸维度均是可调整的，通过将视频数据划分为三维面片，能够支持处理任意时间维度及尺寸维度的视频数据。

在一些实施例中，在输入数据包括视频数据且输出视频数据和输入数据的时长不相等的情况下，多个第一图像对应同一第二图像，其中，多个第一图像为输入数据中多帧不同的图像，第二图像为输出视频数据中的一帧图像。

可以理解为，本实施例的技术方案还可以用于调整视频数据的图像或持续时间，如图9所示，在其中一个实施例中，本实施例的技术方案用于压缩视频序列，例如，针对原本长度为10秒(sec)的视频数据，通过调整时间尺度参数，能够将视频数据压缩为5秒。可以理解为，将原本分别在两个不同画面中显示的两辆汽车调整为在同一画面中显示。

也就是说，输入数据中的多帧图像的内容在输出视频数据的一帧图像中显示，这样，视频的时长被压缩，但是所需显示的内容并不会丢失。

本公开实施例还提供了一种视频处理装置。

如图10所示，在一个实施例中，该视频处理装置1000包括：

输入数据获取模块1001，用于获取输入数据，其中，所述输入数据包括图片数据和/或视频数据；

输入模块1002，用于将所述输入数据输入视频处理模型获得输出视频数据；

在一些实施例中，所述生成器还包括第二三维卷积层，所述第二三维卷积层用于调整根据所述第一输出数据获得第二输出数据，所述第二三维卷积层的至少一个维度的步长大于所述转置三维卷积单元的步长。

在一些实施例中，所述第一三维卷积层的数量为四个。

本实施例的视频处理装置1000能够实现上述视频处理方法实施例的各个步骤，并能实现基本相同的技术效果，此处不再赘述。

本公开实施例还提供一种电子设备。请参见图11，电子设备可以包括处理器1101、存储器1102及存储在存储器1102上并可在处理器1101上运行的程序11021。

在电子设备为终端的情况下，程序11021被处理器1101执行时可实现图1对应的方法实施例中的任意步骤及达到相同的有益效果，此处不再赘述。

在电子设备为网络侧设备的情况下，程序11021被处理器1101执行时可实现图11对应的方法实施例中的任意步骤及达到相同的有益效果，此处不再赘述。

本领域普通技术人员可以理解实现上述实施例方法的全部或者部分步骤是可以通过程序指令相关的硬件来完成，所述的程序可以存储于一可读取介质中。

本公开实施例还提供一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时可实现上述图1对应的方法实施例中的任意步骤，且能达到相同的技术效果，为避免重复，这里不再赘述。

所述的存储介质，如只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

以上所述是本公开实施例的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本公开所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本公开的保护范围。

Claims

一种视频处理方法，包括以下步骤：

获取输入数据，其中，所述输入数据包括图片数据和/或视频数据；

将所述输入数据输入视频处理模型获得输出视频数据；

其中，所述输出视频数据和所述输入数据的分辨率和/或时长不相等，所述视频处理模型包括多个依次设置且对应不同图像分辨率的生成器，每一所述生成器包括转置三维卷积单元和多个第一三维卷积层，所述转置三维卷积单元用于根据所述生成器的输入数据和中间处理数据生成第一输出数据，所述输出视频数据是根据所述第一输出数据得到的，所述中间处理数据是将所述输入数据输入所述多个第一三维卷积层后得到的。
根据权利要求1所述的方法，其中，所述生成器还包括第二三维卷积层，所述第二三维卷积层用于调整所述第一输出数据获得第二输出数据，所述第二三维卷积层的至少一个维度的步长大于所述转置三维卷积单元的步长。
根据权利要求2所述的方法，其中，所述第二三维卷积层包括与时间维度对应的第一步长，以及与输出尺寸维度对应的第二步长，所述转置三维卷积单元均包括与时间维度对应的第三步长，以及与输出尺寸维度对应的第四步长。
根据权利要求3所述的方法，其中，所述第一步长和所述第三步长的比值与所述第二步长和所述第四步长的比值不相等。
根据权利要求1所述的方法，其中，所述第一三维卷积层的数量为四个。
根据权利要求5所述的方法，其中，每一所述第一三维卷积层包括依次设置的一个三维卷积单元和一个残差层。
根据权利要求1所述的方法，其中，在所述输入数据包括视频数据且所述输出视频数据和所述输入数据的时长不相等的情况下，多个第一图像对应同一第二图像，其中，所述多个第一图像为所述输入数据中多帧不同的图像，所述第二图像为所述输出视频数据中的一帧图像。
根据权利要求1所述的方法，其中，所述输入视频处理模型是通过生成对抗网络进行模型训练得到的，所述生成对抗网络包括所述生成器和判别器；

其中，所述生成器是以低分辨率图像为输入，以高分辨率视频序列为输出的模型；

所述判别器是以图像为输入，以对于图像的判别结果为输出的模型；

模型训练的损失函数是根据所述生成器和所述判别器之间的对抗损失，以及所述生成器的输入和输出重构损失确定的。
根据权利要求1至8中任一项所述的方法，其中，在所述输入数据包括视频数据的情况下，所述将所述输入数据输入视频处理模型获得输出视频数据之前，所述方法还包括：

将所述输入数据按照预设时间间隔划分为多个视频序列；

提取所述视频序列的三维面片，其中，所述视频序列中的每一像素至少存在于一个所述三维面片中，且至少部分像素位于多个所述三维面片中；

将所述三维面片作为所述视频处理模型的输入。
一种视频处理装置，包括：

输入数据获取模块，用于获取输入数据，其中，所述输入数据包括图片数据和/或视频数据；

输入模块，用于将所述输入数据输入视频处理模型获得输出视频数据；

其中，所述视频处理模型包括多个依次设置且对应不同图像分辨率的生成器，每一所述生成器包括转置三维卷积单元和多个第一三维卷积层，所述转置三维卷积单元用于根据所述生成器的输入数据和中间处理数据生成第一输出数据，所述输出视频数据是根据所述第一输出数据得到的，所述中间处理数据是将所述输入数据输入所述多个第一三维卷积层后得到的。
根据权利要求10所述的装置，其中，所述生成器还包括第二三维卷积层，所述第二三维卷积层用于调整所述第一输出数据获得第二输出数据，所述第二三维卷积层的至少一个维度的步长大于所述转置三维卷积单元的步长。
根据权利要求11所述的装置，其中，所述第二三维卷积层包括与时间维度对应的第一步长，以及与输出尺寸维度对应的第二步长，所述转置三维卷积单元均包括与时间维度对应的第三步长，以及与输出尺寸维度对应的第四步长。
根据权利要求12所述的装置，其中，所述第一步长和所述第三步长的比值与所述第二步长和所述第四步长的比值不相等。
根据权利要求10所述的装置，其中，所述第一三维卷积层的数量为四个。
根据权利要求14所述的装置，其中，每一所述第一三维卷积层包括依次设置的一个三维卷积单元和一个残差层。
根据权利要求10所述的装置，其中，在所述输入数据包括视频数据且所述输出视频数据和所述输入数据的时长不相等的情况下，多个第一图像对应同一第二图像，其中，所述多个第一图像为所述输入数据中多帧不同的图像，所述第二图像为所述输出视频数据中的一帧图像。
根据权利要求10所述的装置，其中，所述输入视频处理模型是通过生成对抗网络进行模型训练得到的，所述生成对抗网络包括所述生成器和判别器；

其中，所述生成器是以低分辨率图像为输入，以高分辨率视频序列为输出的模型；

所述判别器是以图像为输入，以对于图像的判别结果为输出的模型；

模型训练的损失函数是根据所述生成器和所述判别器之间的对抗损失，以及所述生成器的输入和输出重构损失确定的。
根据权利要求10至17中任一项所述的装置，其中，在所述输入数据包括视频数据的情况下，还包括：

视频序列划分模块，用于将所述输入数据按照预设时间间隔划分为多个视频序列；

三维面片提取模块，用于提取所述视频序列的三维面片，其中，所述视频序列中的每一像素至少存在于一个所述三维面片中，且至少部分像素位于多个所述三维面片中；

输入数据确定模块，用于将所述三维面片作为所述视频处理模型的输入。
一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序；其特征在于，所述处理器，用于读取存储器中的程序实现如权利要求1至9中任一项所述的视频处理方法中的步骤。
一种可读存储介质，用于存储程序，其特征在于，所述程序被处理器执行时实现如权利要求1至9中任一项所述的视频处理方法中的步骤。