WO2023005140A1

WO2023005140A1 - 视频数据处理方法、装置、设备以及存储介质

Info

Publication number: WO2023005140A1
Application number: PCT/CN2021/142584
Authority: WO
Inventors: 戴卫斌; 王一; 李伟琪; 龚力; 于波; 周宇虹
Original assignee: 海宁奕斯伟集成电路设计有限公司; 北京奕斯伟计算技术有限公司
Priority date: 2021-07-30
Filing date: 2021-12-29
Publication date: 2023-02-02
Also published as: CN113556582A

Abstract

本申请实施例公开了一种视频数据处理方法、装置、设备以及存储介质。该方法包括：确定待处理视频的初始帧序列，确定初始帧序列中各图像帧的各像素点的亮度；基于初始帧序列中各图像帧的各像素点的亮度，对初始帧序列进行抽帧处理，将抽帧后的帧序列作为第一帧序列；对第一帧序列进行编码，得到待处理视频的编码数据，编码数据携带各参考帧的参考帧序号，各参考帧为与抽帧处理中抽取出的目标帧序列相邻的图像帧；向第一设备发送编码数据，以使第一设备基于编码数据和各参考帧序号对应的参考帧，确定第二帧序列，并基于第二帧序列确定播放视频。

Description

视频数据处理方法、装置、设备以及存储介质

相关申请的交叉引用

本申请要求于2021年7月30日向中国国家知识产权局递交的中国专利申请No.202110874693.7的优先权，其全部公开内容通过引用并入本文。

技术领域

本申请涉及人工智能领域，尤其涉及一种视频数据处理方法、装置、设备以及存储介质。

背景技术

随着互联网技术的高速发展，短视频、在线直播等多媒体数据激增，不断增长的视频用户对视觉效果的要求越来越高，对于视频数据处理方法，如何减少带宽消耗的同时，保证视频的视觉效果提出了挑战。

目前在对待处理视频进行编码时，往往采用固定的方式进行抽帧处理以降低待处理视频的帧率。在对待处理视频的编码数据进行解码后，往往还会采用插帧处理以提升解码得到的帧序列的帧率，以提升视频质量。

发明内容

本申请实施例提供一种视频数据处理方法、装置、设备以及存储介质。

第一方面，本申请实施例提供一种视频数据处理方法，该方法包括：

确定待处理视频的初始帧序列，确定上述初始帧序列中各图像帧的各像素点的亮度；

基于上述初始帧序列中各图像帧的各像素点的亮度，对上述初始帧序列进行抽帧处理，将抽帧后的帧序列作为第一帧序列；

对上述第一帧序列进行编码，得到上述待处理视频的编码数据，上述编码数据携带各参考帧的参考帧序号，各上述参考帧为与上述抽帧处理中抽取出的目标帧序列相邻的图像帧；

向第一设备发送上述编码数据，以使上述第一设备基于上述编码数据和各上述参考帧序号对应的参考帧，确定第二帧序列，并基于上述第二帧序列确定播放视频。

第二方面，本申请实施例提供了一种视频数据处理方法，该方法包括：

获取第二设备发送的编码数据，对上述编码数据进行解码得到第一帧序列，上述第一帧序列是上述第二设备对待处理视频的初始帧序列进行抽帧处理后的帧序列；

基于上述编码数据携带的各参考帧序号，确定上述第一帧序列对应的参考帧中的各组关联参考帧，每组上述关联参考帧包括与上述抽帧处理中抽取出的目标帧序列相邻的两个参考帧；

对于每组上述关联参考帧，基于该组关联参考帧中的第一参考帧和第二参考帧，确定上述第一参考帧对应的第一预测帧和上述第二参考帧对应的第二预测帧、以及帧预测过程中的遮挡权重和重建残差，基于上述第一预测帧、上述第二预测帧、上述遮挡权重和上述重建残差，确定该组关联参考帧对应的目标预测帧；

将各组上述关联参考帧对应的目标预测帧进行插帧处理，得到第二帧序列，基于上述第二帧序列得到播放视频。

第三方面，本申请实施例提供了一种视频数据处理装置，该装置包括：

亮度确定模块，用于确定待处理视频的初始帧序列，确定上述初始帧序列中各图像帧的各像素点的亮度；

帧序列确定模块，用于基于上述初始帧序列中各图像帧的各像素点的亮度，对上述初始帧序列进行抽帧处理，将抽帧后的帧序列作为第一帧序列；

编码模块，用于对上述第一帧序列进行编码，得到上述待处理视频的编码数据，上述编码数据携带各参考帧的参考帧序号，各上述参考帧为与上述抽帧处理中抽取出的目标帧序列相邻的图像帧；

发送模块，用于向第一设备发送上述编码数据，以使上述第一设备基于上述编码数据和各上述参考帧序号对应的参考帧，确定第二帧序列，并基于上述第二帧序列确定播放视频。

第四方面，本申请实施例提供了一种视频数据处理装置，该装置包括：

解码模块，用于获取第二设备发送的编码数据，对上述编码数据进行解码得到第一帧序列，上述第一帧序列是上述第二设备对待处理视频的初始帧序列进行抽帧处理后的帧序列；

参考帧确定模块，用于基于上述编码数据携带的各参考帧序号，确定上述第一帧序列对应的参考帧中的各组关联参考帧，每组上述关联参考帧包括与上述抽帧处理中抽取出的目标帧序列相邻的两个参考帧；

帧预测模块，用于对于每组上述关联参考帧，基于该组关联参考帧中的第一参考帧和第二参考帧，确定上述第一参考帧对应的第一预测帧和上述第二参考帧对应的第二预测帧、以及帧预测过程中的遮挡权重和重建残差，基于上述第一预测帧、上述第二预测帧、上述遮挡权重和上述重建残差，确定该组关联参考帧对应的目标预测帧；

视频确定模块，用于将各组上述关联参考帧对应的目标预测帧进行插帧处理，得到第二帧序列，基于上述第二帧序列得到播放视频。

第五方面，本申请实施例提供了一种电子设备，包括处理器和存储器，该处理器和存储器相互连接；

上述存储器用于存储计算机程序；

上述处理器被配置用于在调用上述计算机程序时，执行上述第一方面和/或第二方面任一种视频数据处理方法。

第六方面，本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行以实现上述第一方面和/或第二方面任一种视频数据处理方法。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的视频数据处理方法的网络架构图；

图2是本申请实施例提供的视频数据处理方法的一流程示意图；

图3是本申请实施例提供的视频数据处理方法的另一流程示意图；

图4是本申请实施例提供的确定上下文特征的一场景示意图；

图5是本申请实施例提供的光流场估计模型的一结构示意图；

图6是本申请实施例提供的确定残差特征的一场景示意图；

图7是本申请实施例提供的确定融合特征的一场景示意图；

图8是本申请实施例提供的确定上下文特征的另一场景示意图；

图9是本申请实施例提供的确定上下文特征的又一场景示意图；

图10是本申请实施例提供的确定重建残差和遮挡权重的场景示意图；

图11是本申请实施例提供的确定遮挡权重和重建残差的另一场景示意图；

图12是本申请实施例提供的确定目标预测帧的一场景示意图；

图13是本申请实施例提供的视频数据处理装置的一结构示意图；

图14是本申请实施例提供的视频数据处理装置的另一结构示意图；

图15是本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参见图1，图1是本申请实施例提供的视频数据处理方法的网络架构图。如图1所示，第二设备100在获取到待处理视频后，可确定待处理视频的初始帧序列，并确定初始帧序列中各图像帧的各像素点的亮度。进一步地，第二设备100可基于初始帧序列中各图像帧的各像素点的亮度，对初始帧序列进行抽帧处理，将抽帧后的帧序列作为第一帧序列，即第二设备100通过对初始帧序列进行抽帧处理，可降低待处理视频的帧率。

第二设备100在得到第一帧序列之后，可对第一帧序列进行编码，得到待处理视频的编码数据，进而通过网络连接将编码数据发送至第一设备。其中，第二设备100发送的编码数据携带有各参考帧的参考帧序号，各参考帧为与抽帧处理过程中抽取出的目标帧序列相邻的图像帧。

对应的，第一设备200在获取到第二设备100发送的编码数据之后，可对编码数据进行解码得到第一帧序列，并基于编码数据携带的各参考帧序号，确定第一帧序列对应的参考帧帧中的各组关联参考帧。其中，每组关联参考帧包括与抽帧处理中抽取出的目标帧序列相邻的两个参考帧。

对于每一组关联参考帧，第一设备200可基于该组关联参考帧中的第一参考帧和第二参考帧，确定第一参考帧对应的第一预测帧和第二参考帧对应的第二预测帧、以及帧预测过程中的遮挡权重和重建残差，基于第一预测帧、第二预测帧、遮挡权重和重建残差，确定该组关联参考帧对应的目标预测帧；

进一步地，第二设备100可将各组关联参考帧对应的目标预测帧进行插帧处理，得到第二帧序列，基于第二帧序列得到播放视频。

其中，上述第二设备100可以为视频采集设备，如摄像设备、视频生成设备等，也可以为视频处理设备，具体可基于实际应用场景需求确定，在此不做限制。

其中，上述第二设备100可以为视频转发设备，也可以为视频播放设备等，具体也可基于实际应用场景需求确定，在此不做限制。

参见图2，图2是本申请实施例提供的视频数据处理方法的一流程示意图。本申请实施例提供的视频数据处理方法在应用于第二设备时，可具体包括如下步骤：

步骤S21、确定待处理视频的初始帧序列，确定初始帧序列中各图像帧的各像素点的亮度。

在一些可行的实施方式中，待处理视频可以为第二设备实时采集到的视频，也可以为第二设备基于视频处理软件所生成的视频，还可以为第二设备从网络、本地存储空间或者云存储空间等获取到的视频，具体可基于实际应用场景需求确定，在此不做限制。

在一些可行的实施方式中，对于待处理视频，可确定待处理视频的初始帧序列，并确定初始帧序列中各图像帧的各像素点的亮度。具体地，对于初始帧序列中的任一图像帧，可确定该图像帧的每一像素点的各颜色通道的像素值，对于该图像帧的每一像素点，可基于该像素点的各颜色通道的像素值确定该像素点的亮度。

步骤S22、基于初始帧序列中各图像帧的各像素点的亮度，对初始帧序列进行抽帧处理，将抽帧后的帧序列作为第一帧序列。

在一些可行的实施方式中，基于初始帧序列中各图像帧的各像素点的亮度，对初始帧序列进行抽帧处理，将抽帧后的帧序列作为第一帧序列。通过对初始帧序列进行抽帧处理，可将待处理视频的高帧率的初始帧序列转换为低帧率的第一帧序列。

具体地，对于初始帧序列中的任一图像帧，可确定该图像帧的各像素点与前一图像帧的对应像素点的亮度差，进而基于该图像帧在各像素点对应的亮度差，确定该图像帧与前一图像帧的总亮度差。

其中，对于初始帧序列中的任一图像帧，该图像帧的一个像素点与前一图像帧的对应像素点的亮度差，为二者亮度差的绝对值。

例如，对于初始帧序列中的任一图像帧，该图像帧与前一图像帧的总亮度差Δ _light为：

Δ _light＝∑|I _i,j(t)-I _i,j(t-1)|

其中，i和j用于表示像素点的位置，I _i,j(t)表示第t帧图像帧的像素点(i，j)的亮度，I _i,j(t-1)表示第t-1帧图像帧的像素点(i，j)的亮度，|I _i,j(t)-I _i,j(t-1)|表示第t帧图像帧和第t-1帧图像帧在像素点(i，j)的亮度差的绝对值。

进一步地，若待处理视频的初始帧序列中，任一图像帧与前一图像帧的总亮度差大于第一阈值，则说明该图像帧对应的场景相较于前一图像帧的场景变化较大，因此可将待处理视频的初始帧序列中，对应的总亮度差大于第一阈值的图像帧确定为活动帧。若待处理视频的初始帧序列中，任一图像帧与前一图像帧的总亮度差小于或者等于第一阈值，则说明该图像帧对应的场景相较于前一图像帧的场景变化较小，因此可将待处理视频的初始帧序列中，对应的总亮度差小于或者等于第一阈值的图像帧确定为静止帧。

作为一示例，对于初始帧序列的任一图像帧，可对该图像帧进行标记以区分该图像帧为活动帧或者静止帧。

如上式所示，K(t)表示第t帧的标记，若第t帧图像帧相较于前一帧图像帧的总亮度差Δ _light大于第一阈值T1，则对第t帧图像帧标记为1，以表示第t帧图像帧为活动帧。若第t帧图像帧相较于前一帧图像帧的总亮度差Δ _light不大于第一阈值T1，则对第t帧图像帧标记为0，以表示第t帧图像帧为静止帧。

进一步地，在确定出初始帧序列中的活动帧和静止帧之后，可基于初始帧序列中的活动帧和静止帧，对初始帧序列进行抽帧处理，从而得到第一帧序列。具体可确定初始帧序列中的连续活动帧序列和连续静止帧序列，对初始帧序列中的连续活动帧序列和连续静止帧序列进行抽帧处理。

作为一示例，可将连续活动帧中除第一帧图像帧和最后一帧图像帧外的其他任意一帧图像帧和/或连续任意数量的图像帧作为目标帧序列，进而将目标帧序列从连续活动帧中进行抽取。同样的，可将连续静止帧中除第一帧图像帧和最后一帧图像帧外的其他任意一帧图像帧和/或连续任意数量的图像帧作为目标帧序列，进而将目标帧序列从连续静止帧中进行抽取。在基于上述方式从连续活动帧序列和连续静止帧序列中抽取出目标帧序列之后，可将抽取目标帧序列后的初始帧序列作为第一帧序列。

在一些可行的实施方式中，为集中对相同场景下的视频进行抽帧处理，可确定待处理视频对应的初始帧率，基于待处理视频的初始帧率将初始帧序列划分为至少一个子帧序列，进而确定各子帧序列中的连续活动帧序列和连续静止帧序列，并从各连续活动帧序列和连续静止帧序列中抽取目标帧序列。

其中，从各子帧序列中的连续活动帧序列和静止帧序列中抽取的目标帧序列，同样为相对应的连续活动帧序列或者静止帧序列中除第一帧和最后一帧外的任意一帧图像帧或者任意连续几帧的图像帧。

如待处理视频的时长为10s，其初始帧率为24Hz。则可将初始帧序列划分为10个时长为1s的子帧序列，每个子帧序列包括24帧图像帧，进而对每一子帧序列进行抽帧处理。

在一些可行的实施方式中，对于各子帧序列中的每一连续活动帧，若该连续活动帧序列中的活动帧的数量大于第二阈值，则对该连续活动帧序列进行抽帧处理。即将该连续活动帧中除第一帧图像帧和最后一帧图像帧外的其他任意一帧图像帧和/或连续任意数量的图像帧作为目标帧序列，进而将目标帧序列从该连续活动帧中进行抽取。对于各子帧序列中的每一连续静止帧，若该连续静止帧序列中的静止帧的数量大于第三阈值，则对该连续静止帧序列进行抽帧处理。即将该连续静止帧中除第一帧图像帧和最后一帧图像帧外的其他任意一帧图像帧和/或连续任意数量的图像帧作为目标帧序列，进而将目标帧序列从该连续静止帧中进行抽取。对于任一子帧序列，若该子帧序列的连续活动帧中活动帧的数量均小于或者等于第二阈值，且连续静止帧中静止帧的数量均小于或者等于第三阈值，则不对该子帧序列进行抽帧处理(no extraction)。则具体抽帧方式可如下所示：

其中，P表示抽取出的目标帧序列，N(K(t)＝1)表示连续活动帧序列中活动帧的数量，N(K(t)＝0)表示连续静止帧序列中静止帧的数量，T2、T3表示分别表示第二阈值和第三阈值，I _{{2,3,4,…,last-1}}(K(t)＝1)表示连续活动帧序列中的任意中间帧，I _{{2,3,4,…,last-1}}(K(t)＝0)表示连续静止帧序列中的任意中间帧。

例如某一子帧序列如表1所示：

表1

标记	1	0	1	0	0	0	1	1	0	1	0	0
帧序号	1	2	3-20	21	22	23	24	25	26-35	36-65	66	67
是否抽帧	否	否	是	否	否	否	否	否	是	是	否	否

在表1中，帧序号3-20对应有连续活动帧，帧序号26-35对应有连续静止帧，帧序号36-65对应有连续活动帧。若第二阈值和第三阈值为4，则可抽取帧序号3-20对应的连续活动帧、帧序号26-35对应的连续静止帧以及帧序号36-65对应的连续活动帧中，除第一帧和最后一帧外的任意一帧图像帧或者连续多帧图像帧，从而将抽帧处理后的子帧序列确定为第一帧序列。

步骤S23、对第一帧序列进行编码，得到待处理视频的编码数据，编码数据携带各参考帧的参考帧序号。

在一些可行的实施方式中，在对初始帧序列进行抽帧处理得到第一帧序列之后，可对第一帧序列进行编码，得到待处理视频的编码数据。

具体地，在对第一帧序列进行编码时所采用的编码方式包括但不限于H.264、H.265、AVS2以及AV1等，具体可基于实际应用场景需求确定，在此不做限制。

其中，待处理视频的编码数据携带各参考帧的参考帧序号，各参考帧为与抽帧处理中抽取出的目标帧序列相邻的图像帧。即在从初始帧序列中抽取出目标帧序列得到第一帧序列之后，可将第一帧序列中与抽取出的目标帧序列相邻的两个图像帧确定为参考帧，并确定各参考帧的帧序号。

如表1所示的帧序号3至帧序号20的活动帧序列，若从该活动帧序列中抽取的目标帧序列为帧序号4至帧序号5的图像帧，则与该目标帧序列的相邻的图像帧为帧序号3的图像帧以及帧序号6的图像帧，并将其确定为两个参考帧。

在对第一帧序列进行编码时，可将各参考帧的参考帧序号与第一帧序列一同进行编码，从而使待处理视频的编码数据携带各参考帧序号。或者可对第一帧序列进行编码得到待处理视频的编码数据之后，再将各参考帧序号与编码数据进行进一步处理，以使待处理视频的编码数据携带各参考帧序号。

步骤S24、向第一设备发送编码数据，以使第一设备基于编码数据和各参考帧序号对应的参考帧，确定第二帧序列，并基于第二帧序列确定播放视频。

在一些可行的实施方式中，在得到携带各参考帧的参考帧序号的编码数据后，可向第一设备200发送编码数据，使得第一设备200可基于编码数据和各参考帧序号对应的参考帧来确定第二帧序列，并基于第二帧序列确定播放视频。

具体地，第二设备100向第一设备200发送编码数据的具体方式包括但不限于内容分发网络(Content Delivery Network，CDN)传输技术、对等(Peer-to-peer，P2P)网络传输技术以及CDN和P2P相结合的PCDN传输技术。

其中，第二设备100向第一设备200发送编码数据的同时，将各参考帧的帧序号一并向第一设备200发送。

在本申请实施例中，通过对待处理视频的初始帧序列进行抽帧处理，可将高帧率的初始帧序列转换为低帧率的第一帧序列，从而对第一帧序列进行编码会大幅减小视频数据的大小，进而相应减少和编码数据传输所消耗的数据流量，从而达到节省带宽成本的作用。

在一些可行的实施方式中，第二设备100在向第一设备200发送携带各参考帧序号的编码数据之后，第一设备200对编码数据的具体处理方式可参见图3，图3是本申请实施例提供的视频数据处理方法的另一流程示意图。本申请实施例提供的视频数据处理方法在应用于第一设备200时，可具体包括如下步骤：

步骤S31、获取第二设备100发送的编码数据，对编码数据进行解码得到第一帧序列。

在一些可行的实施方式中，第一设备200在获取到第二设备100发送的编码数据之后，可基于第二设备100采用的编码技术对编码数据进行解码，得到第一帧序列。其中，第一帧序列是第二设备100对待处理视频的初始帧序列进行抽帧处理后得到的帧序列，即从初始帧序列中抽取出目标帧序列后的剩余帧序列。

步骤S32、基于编码数据携带的各参考帧序号，确定第一帧序列对应的参考帧中的各组关联参考帧。

在一些可行的实施方式中，第一设备200在对编码数据进行解码后得到的第一帧序列中各图像帧的序号为其对应于待处理视频的初始帧序列中的帧序号。基于此，第一设备200在获取到各参考帧序号之后，可基于各参考帧序号确定第一帧序列中的参考帧。

进一步地，第一设备200可从第一帧序列对应的各参考帧中确定出各组关联参考帧，每组关联参考帧包括与第二设备100在对初始帧序列进行抽帧处理过程中，抽取出的目标帧序列相邻的两个参考帧。进而第一设备200可确定每组关联参考帧所对应的目标预测帧，并将目标预测帧进行插帧处理得到第二帧序列。其中，第一设备200确定每组关联参考帧所对应的目标预测帧，并将目标预测帧进行插帧处理得到第二帧序列的具体实现方式详见下述，在此不做说明。

步骤S33、对于每组关联参考帧，基于该组关联参考帧中的第一参考帧和第二参考帧，确定第一参考帧对应的第一预测帧和第二参考帧对应的第二预测帧、以及帧预测过程中的遮挡权重和重建残差，基于第一预测帧、第二预测帧、遮挡权重和重建残差，确定该组关联参考帧对应的目标预测帧。

在一些可行的实施方式中，对于每组关联参考帧，可基于该组关联参考帧中的第一参考帧和第二参考帧，确定第一参考帧对应的第一预测帧和第二参考帧对应的第二预测帧。

其中，对于每组关联参考帧，该组关联参考帧中的第一参考帧为参考帧序号较小的参考帧，第二参考帧为参考帧序号较大的参考帧。第一预测帧和第二预测帧均为第一参考帧和第二参考帧之间的图像帧。

具体地，对于每组关联参考帧，可基于该组关联参考帧中的第一参考帧和第二参考帧，确定第一参考帧对应的第一光流场和第二参考帧对应的第二光流场。

其中，光流场是指图像中所有像素点构成的一种二维瞬时速度场，其包含了像素在时域上的变化以及相邻帧之间的相关性，通过该相关性来找到上一帧跟当前帧之间存在的对应关系。

对于每组关联参考帧，在确定第一参考帧和第二参考帧对应的光流场时，可对第一参考帧进行特征提取得到第一初始特征，对第二参考帧进行特征提取，得到第二初始特征，进而基于第一初始特征和第二初始特征，得到第一参考帧和第二参考帧对应的关联特征。

其中，在对第一参考帧和第二参考帧进行特征提取时，可基于神经网络等对每一参考帧进行特征提取，得到对应的初始特征。在得到第一初始特征和第二初始特征之后，可基于特征拼接、特征融合或者基于其他神经网络模型的进一步处理，得到第一初始特征和第二初始特征的关联特征，具体实现方式可基于实际应用场景需求确定，在此不做限制。

对于第一参考帧，可确定第一参考帧的第一上下文特征，基于第一上下文特征和上述关联特征，可确定第一参考帧对应的第一光流场。对于第二参考帧，可确定第二参考帧的第二上下文特征，基于第二上下文特征和上述关联特征，可确定第二参考帧对应的第二光流场。

其中，每一参考帧的上下文特征可基于上下文特征提取网络实现。参见图4，图4是本申请实施例提供的确定上下文特征的一场景示意图。在图4所示的上下文特征提取网络中包括多个串联的卷积层和激活函数组合。对于第一参考帧和第二参考帧中的任一参考帧，可基于第一个卷积层对该参考帧进行卷积处理，得到第一卷积特征，并通过第一个激活函数对第一卷积特征进行处理得到该参考帧的一个特征图。进一步地，继续基于第二个卷积层对上一个激活函数得到的特征图进行卷积处理，得到第二卷积特征，并通过第二个激活函数对第二卷积特征进行处理得到该参考帧的第二个特征图。以此类推，可将图4中各激活函数得到的特征图确定为该参考帧的上下文特征。

其中，图4所示的特征提取网络中的卷积层和激活函数的数量具体可基于实际应用场景需求确定，在此不做限制。

其中，确定各组关联参考帧的第一参考帧和第二参考帧对应的光流场时，可基于光流场估计模型(Recurrent All-Pairs Field Transforms for Optical Flow，RAFT)确定。

作为一示例，参见图5，图5是本申请实施例提供的光流场估计模型的一结构示意图。如图5所示，对于任一组关联参考帧，将该组关联参考帧中第一参考帧I _a和第二参考帧I _d输入特征编码模块，以基于特征编码模块分别对第一参考帧I _a和第二参考帧I _d进行特征提取，得到第一初始特征和第二初始特征，进一步基于第一初始特征和第二初始特征进行特征关联，得到关联特征。其中，I表示参考帧，a和d分别为参考帧的位置信息(如帧序号、时域位置等)。

对于第一参考帧I _a，可基于上下文特征提取网络确定第一参考帧I _a的第一上下文特征C _a。其中，第一上下文特征C _a可表示为

以及

分别为基于一个卷积层和激活函数得到的特征图。将第一参考帧I _a的第一上下文特征C _a和关联特征输入循环神经网络，得到第一参考帧I _a的第一光流场F _b→a，其中，b为该组关联参考帧对应的目标预测帧的位置信息，其中a大于b大于d。

同理，对于第二参考帧I _d，可基于上下文特征提取网络确定第二参考帧I _d的第二上下文特征C _d。其中，第二上下文特征C _d可表示为

以及

分别为基于一个卷积层和激活函数得到的特征图。将第二参考帧I _d的第二上下文特征C _d和关联特征输入循环神经网络，得到第二参考帧I _d的第二光流场F _b→d，其中，b为该组关联参考帧对应的目标预测帧的位置信息，其中a大于b大于d。

进一步地，基于第一光流场对第一参考帧进行后向映射，得到第一参考帧对应的第一预测帧，基于第二光流场对第二参考帧进行后向映射，得到第二参考帧对应的第二预测帧。如基于第一光流场F _b→a对第一参考帧I _a进行后向映射，得到第一预测帧

基于第二光流场F _b→d对第二参考帧I _d进行后向映射，得到第二预测帧

在一些可行的实施方式中，对于每组关联参考帧，基于该组关联参考帧中的第一参考帧和第二参考帧，确定帧预测过程中的遮挡权重和重建残差。其中，重建残差用于减少帧预测过程中的梯度下降问题，遮挡权重用于减少帧预测过程中运动物体抖动以及边缘模糊等带来的影响。

具体地，可先确定第一参考帧的第三上下文特征和第二参考帧的第四上下文特征。其中，第一参考帧的第三上下文特征和第二参考帧的第四上下文特征可基于图4所示的方式确定，也可基于其他上下文特征提取网络确定，具体可基于实际应用场景需求确定，在此不做限制。

进一步地，可基于第一光流场、第二光流场、第一预测帧、第二预测帧、第三上下文特征以及第四上下文特征，确定帧预测过程中的遮挡权重和重建残差。如将第一光流场、第二光流场、第一预测帧、第二预测帧、第三上下文特征以及第四上下文特征输入深度神经网络中，得到帧预测过程中的遮挡权重和重建残差。其中，上述深度神经网络包括但不限于FusionNet和U-Net，具体可基于实际应用场景需求确定，在此不做限制。

在一些可行的实施方式中，在基于第一光流场、第二光流场、第一预测帧、第二预测帧、第三上下文特征以及第四上下文特征，确定帧预测过程中的遮挡权重和重建残差时，可先基于第一光流场、第二光流场、第一预测帧和第二预测帧，确定残差特征。

作为一示例，参见图6，图6是本申请实施例提供的确定残差特征的一场景示意图。如图6所示，将第一光流场、第二光流场、第一预测帧和第二预测帧输入卷积层，通过卷积神经网络和激活函数进行处理后，将处理结果输入至残差块中得到残差特征。

进一步地，可基于第三上下文特征、第四上下文特征以及残差特征，确定融合特征。参见图7，图7是本申请实施例提供的确定融合特征的一场景示意图。如图7所示，将残差特征与第三上下文特征和第四上下文特征中的第一个上下文特征

和

进行拼接得到第一拼接特征，将第一拼接特征输入卷积层中进行下采样卷积处理，得到第一卷积特征。将第一卷积特征与第三上下文特征和第四上下文特征中的第二个上下文特征

和

进行拼接得到第二拼接特征，将第二拼接特征输入卷积层中进行下采样卷积处理，得到第二卷积特征。将第二卷积特征与第三上下文特征和第四上下文特征中的第三个上下文特征

和

进行拼接得到第三拼接特征，将第三拼接特征输入卷积层中进行下采样卷积处理，得到第三卷积特征。将第三卷积特征与第三上下文特征和第四上下文特征中的第四个上下文特征

和

进行拼接得到第四拼接特征，将第四拼接特征输入卷积层中进行下采样卷积处理，得到第四卷积特征。将第四卷积特征与第三上下文特征和第四上下文特征中的第五个上下文特征

和

进行拼接得到第五拼接特征，将第五拼接特征输入卷积层中进行上采样卷积处理，得到第五卷积特征。

进一步地，将第五卷积特征和第三卷积特征进行拼接得到第六拼接特征，将第六拼接特征输入至卷积层进行上采样处理，得到第六卷积特征。将第六卷积特征和第二卷积特征进行拼接得到第七拼接特征，将第七拼接特征输入至卷积层进行上采样处理，得到第七卷积特征。将第七卷积特征和第一卷积特征进行拼接得到第八拼接特征，将第八拼接特征输入至卷积层进行上采样处理，得到第九卷积特征。将第九卷积特征和残差特征进行拼接可得到融合特征。

其中，在图7所示的确定融合特征的方法中，用于进行上采样处理的卷积层和用于进行下采样处理的卷积层的数量相同，具体数量与第三上下文特征或者第四上下文特征中的特征图的数量一致。

在一些可行的实施方式中，在基于第三上下文特征、第四上下文特征以及残差特征确定融合特征时，可基于第一光流场对第三上下文特征中各特征图进行后向映射，得到第五上下文特征，基于第二光流场对第四上下文特征中各特征图进行后向映射，得到第六上下文特征。进而基于第五上下文特征、第六上下文特征以及残差特征，确定融合特征，具体确定方式同图7所示的实现方式，在此不再说明。

作为一示例，参见图8，图8是本申请实施例提供的确定上下文特征的另一场景示意图。如图8所示，在基于各卷积层和激活参数的组合确定第一参考帧的各特征图，得到第三上下文特征后，可基于第一光流场对第三上下文特征中的各特征图分别进行后向映射，得到各特征图对应的映射特征图，进而将各映射特征图确定为第五上下文特征。

可选地，由于第一参考帧的第三上下文特征、以及第二参考帧的第四上下文特征中各特征图的大小不同，因此对于第三上下文特征中的每一特征图，可确定该特征图对应的光流场权重，以基于该光流场权重和第一光流场确定对该特征图进行后向映射时所对应的新的光流场。进而对于第三上下文特征中的每一特征图，可基于该特征图对应的新的光流场对该特征图进行后向映射，得到该特征图对应的映射特征图。进而基于第三上下文特征中各特征图对应的映射特征图，确定第五上下文特征。

作为一示例，参见图9，图9是本申请实施例提供的确定上下文特征的又一场景示意图。如图9所示，在得到第一参考帧的第三上下文特征之后，可确定第三上下文特征中各特征图对应的光流场权重，如1、0.5、0.25、0.125、0.0625等，进而基于第一光流场和各光流场权重确定各特征图对应的新的光流场，如光流场1、光流场2、光流场3、光流场4以及光流场5。进而基于各特征图各自对应的新的光流场对各特征图进行后向映射，得到各特征图对应的映射特征图，并将各映射特征图确定为第五上下文特征。

同理，对于第四上下文特征中的每一特征图，可确定该特征图对应的光流场权重，以基于该光流场权重和第二光流场确定对该特征图进行后向映射时所对应的新的光流场。进而对于第四上下文特征中的每一特征图，可基于该特征图对应的新的光流场对该特征图进行后向映射，得到该特征图对应的映射特征图。进而基于第四上下文特征中各特征图对应的映射特征图，确定第六上下文特征。

其中，第三上下文特征和第四上下文特征中各特征图对应的光流场权重具体可基于实际应用场景确定，在此不做限制。

在一些可行的实施方式中，在基于重建残差确定出融合特征之后，可对融合特征进行进一步处理，得到目标特征。具体地，如图10所示，图10是本申请实施例提供的确定重建残差和遮挡权重的场景示意图。可将融合特征输入至卷积层以对融合特征进行进一步处理，并将处理结果进行子像素卷积，得到高分辨率的目标特征。进而基于目标特征确定帧预测过程中的遮挡权重和重建残差。

具体地，在基于目标特征确定帧预测过程中的遮挡权重和重建残差时，可确定目标特征对应的通道数以及各对应于各通道的特征值。进而将最后一个通道的特征值确定为帧预测过程中的遮挡权重，基于其他通道特征值确定帧预测过程中的重建残差。如将除最后一个通道外其他通道对应的特征值进行拼接，得到帧预测过程中的重建残差。

下面结合图11对基于第一光流场、第二光流场、第一预测帧、第二预测帧、第三上下文特征以及第四上下文特征，确定帧预测过程中的遮挡权重和重建残差进行进一步说明。图11是本申请实施例提供的确定遮挡权重和重建残差的另一场景示意图。即通过图6所示的方式，基于第一光流场、第二光流场、第一预测帧和第二预测帧确定残差特征，通过图7所示的方式，基于残差特征和第三上下文特征以及第四上下文特征中各特征图，确定融合特征。进而通过图10所示的方式，基于残差特征确定帧预测过程中的重建残差和遮挡权重。

在一些可行的实施方式中，在确定出帧预测过程中的遮挡权重和重建残差之后，可基于第一预测帧、第二预测帧、遮挡权重和重建残差，确定该组关联参考帧对应的目标预测帧。具体确定方式可如下所示：

其中，

表示第一预测帧，

表示第二预测帧，M表示遮挡权重，Δ表示重建残差，

表示目标预测帧，⊙表示点乘运算。

步骤S34、将各组关联参考帧对应的目标预测帧进行插帧处理，得到第二帧序列，基于第二帧序列得到播放视频。

在一些可行的实施方式中，对于每组关联参考帧，该关联参考帧对应的目标预测帧，为该组关联参考帧的第一参考帧和第二参考帧之间的目标预测帧。基于此，可将各组关联参考帧对应的目标预测帧进行插帧处理，将每一关联参考帧对应的目标预测帧插入该关联参考帧的第一参考帧和第二参考帧之间，从而在第一帧序列的基础之上得到第二帧序列。

进一步地，第一设备在得到第二帧序列之后，可基于第二帧序列确定播放视频，即第二帧序列即为第一设备所播放的视频所对应的帧序列。

下面结合图12对本申请实施例提供的确定目标预测帧的一场景示意图。图12是本申请实施例提供的确定目标预测帧的一场景示意图。如图12所示，通过RAFT模型确定第一参考帧对应的第一光流场和第二参考帧对应的第二光流场，并基于第一光流场对第一参考帧进行后向映射得到第一预测帧，基于第二光流场对第二参考帧进行后向映射得到第二预测帧。

通过上下文特征提取网络(ContextNet)分别确定第一参考帧对应的第三上下文特征和第二参考帧对应的第四上下文特征，并基于第一光流场对第三上下文特征中各特征图进行后向映射，得到第五上下文特征，基于第二光流场对第四上下文特征中各特征图进行后向映射，得到第六上下文特征。

将第五上下文特征、第六上下文特征、第一光流场、第二光流场、第一预测帧以及第二预测帧输入U-NET网络，得到帧预测过程中的重建残差和遮挡权重，进而基于重建残差、遮挡权重、第一预测帧和第二预测帧确定出目标预测帧。

在本申请实施例中，对于解码得到的第一帧序列中每组关联参考帧，通过确定每组关联参考帧中的第一参考帧和第二参考帧所对应的第一预测帧和第二预测帧、第一光流场和第二光流场、以及帧预测过程中的遮挡权重和重建残差，可充分考虑帧预测过程中的遮挡信息、各图像帧的细节信息以及光流场信息，可有效解决帧预测过程中的物体抖动、边缘模糊等问题，从而提升视频清晰度，提升视频观看体验。

参见图13，图13是本申请实施例提供的视频数据处理装置的一结构示意图。本申请实施例提供的视频数据处理装置包括：

亮度确定模块41，用于确定待处理视频的初始帧序列，确定上述初始帧序列中各图像帧的各像素点的亮度；

帧序列确定模块42，用于基于上述初始帧序列中各图像帧的各像素点的亮度，对上述初始帧序列进行抽帧处理，将抽帧后的帧序列作为第一帧序列；

编码模块43，用于对上述第一帧序列进行编码，得到上述待处理视频的编码数据，上述编码数据携带各参考帧的参考帧序号，上述各参考帧为与上述抽帧处理中抽取出的目标帧序列相邻的图像帧；

发送模块44，用于向第一设备发送上述编码数据，以使上述第一设备基于上述编码数据和上述各参考帧序号对应的参考帧，确定第二帧序列，并基于上述第二帧序列确定播放视频。

在一些可行的实施方式中，上述帧序列确定模块42，用于：

对于上述初始帧序列中的任一图像帧，确定该图像帧的各像素点与前一图像帧的对应像素点的亮度差，基于该图像帧在各像素点对应的亮度差，确定该图像帧与上述前一图像帧的总亮度差；

将上述初始帧序列中，对应的总亮度差大于第一阈值的图像帧确定为活动帧，对应的总亮度差小于或者等于上述第一阈值的图像帧确定为静止帧；

基于上述活动帧和上述静止帧，对上述初始帧序列进行抽帧处理。

在一些可行的实施方式中，上述帧序列确定模块42，用于：

确定上述初始帧序列中的连续活动帧序列和连续静止帧序列；

对上述初始帧序列中的连续活动帧序列和连续静止帧序列进行抽帧处理。

在一些可行的实施方式中，上述帧序列确定模块42，用于：

确定上述待处理视频对应的初始帧率，基于上述初始帧率将上述初始帧序列划分为至少一个子帧序列；

确定各上述子帧序列中的连续活动帧序列和连续静止帧序列；

对于每一上述连续活动帧序列，若该连续活动帧序列中的活动帧的数量大于第二阈值，则对该连续活动帧序列进行抽帧处理；

对于每一上述连续静止帧序列，若该连续静止帧序列中的静止帧的数量大于第三阈值，则对该连续静止帧序列进行抽帧处理。

具体实现中，上述视频数据处理装置可通过其内置的各个功能模块执行如上述图1中各个步骤所提供的实现方式，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。

参见图14，图14是本申请实施例提供的视频数据处理装置的另一结构示意图。本申请实施例提供的视频数据处理装置包括：

解码模块51，用于获取第二设备发送的编码数据，对上述编码数据进行解码得到第一帧序列，上述第一帧序列是上述第二设备对待处理视频的初始帧序列进行抽帧处理后的帧序列；

参考帧确定模块52，用于基于上述编码数据携带的各参考帧序号，确定上述第一帧序列对应的参考帧中的各组关联参考帧，每组上述关联参考帧包括与上述抽帧处理中抽取出的目标帧序列相邻的两个参考帧；

帧预测模块53，用于对于每组上述关联参考帧，基于该组关联参考帧中的第一参考帧和第二参考帧，确定上述第一参考帧对应的第一预测帧和上述第二参考帧对应的第二预测帧、以及帧预测过程中的遮挡权重和重建残差，基于上述第一预测帧、上述第二预测帧、上述遮挡权重和上述重建残差，确定该组关联参考帧对应的目标预测帧；

视频确定模块54，用于将各组上述关联参考帧对应的目标预测帧进行插帧处理，得到第二帧序列，基于上述第二帧序列得到播放视频。

在一些可行的实施方式中，对于每组上述关联参考帧，上述帧预测模块53，用于：

基于该组关联参考帧中的第一参考帧和第二参考帧，确定上述第一参考帧对应的第一光流场以及上述第二参考帧对应的第二光流场；

基于上述第一光流场对上述第一参考帧进行后向映射，得到上述第一参考帧对应的第一预测帧，基于上述第二光流场对上述第二参考帧进行后向映射，得到上述第二参考帧对应的第二预测帧。

对该组关联参考帧中的第一参考帧进行特征提取，得到第一初始特征，对该组关联参考帧中的第二参考帧进行特征提取，得到第二初始特征，基于上述第一初始特征和上述第二初始特征，确定上述第一参考帧和上述第二参考帧对应的关联特征；

确定上述第一参考帧的第一上下文特征，基于上述第一上下文特征和上述关联特征，确定上述第一参考帧对应的第一光流场；

确定上述第二参考帧的第二上下文特征，基于上述第二上下文特征和上述关联特征，确定上述第二参考帧对应的第二光流场。

确定上述第一参考帧的第三上下文特征，确定上述第二参考帧的第四上下文特征；

基于上述第一光流场、上述第二光流场、上述第一预测帧、上述第二预测帧、上述第三上下文特征以及上述第四上下文特征，确定帧预测过程中的遮挡权重和重建残差。

在一些可行的实施方式中，上述帧预测模块53，用于：

基于上述第一光流场、上述第二光流场、上述第一预测帧和上述第二预测帧，确定残差特征；

基于上述第三上下文特征、上述第四上下文特征以及上述残差特征，确定融合特征；

基于上述融合特征确定帧预测过程中的遮挡权重和重建残差。

在一些可行的实施方式中，上述第三上下文特征和上述第四上下文特征包括多个特征图；上述帧预测模块53，用于：

对于上述第三上下文特征中的每一上述特征图，确定该特征图对应的光流场权重，基于该特征图对应的上述光流场权重和上述第一光流场，对该特征图进行后向映射，得到该特征图对应的映射特征图；

将上述第三上下文特征中的各上述特征图对应的映射特征图，确定为上述第一参考帧的第五上下文特征；

对于上述第四上下文特征中的每一上述特征图，确定该特征图对应的光流场权重，基于该特征图对应的上述光流场权重和上述第二光流场，对该特征图进行后向映射，得到该特征图对应的映射特征图；

将上述第四上下文特征中的各上述特征图对应的映射特征图，确定为上述第二参考帧的第六上下文特征；

基于上述第五上下文特征、上述第六上下文特征以及上述残差特征，确定融合特征。

在一些可行的实施方式中，上述帧预测模块53，用于：

对上述融合特征进行特征处理，得到目标特征，并确定上述目标特征对应的通道数；

将上述目标特征对应于最后一个通道的特征值确定为遮挡权重；

基于上述目标特征对应于其他通道的特征值，确定重建残差。

具体实现中，上述视频数据处理装置可通过其内置的各个功能模块执行如上述图3中各个步骤所提供的实现方式，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。

参见图15，图15是本申请实施例提供的电子设备的结构示意图。如图15所示，本实施例中的电子设备1000可以包括：处理器1001，网络接口1004和存储器1005，此外，上述电子设备1000还可以包括：用户接口1003，和至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1004可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图15所示，作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

在图15所示的电子设备1000中，网络接口1004可提供网络通讯功能；而用户接口1003主要用于为用户提供输入的接口；而处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现第一设备和/或第二设备所执行的视频数据处理方法。

应当理解，在一些可行的实施方式中，上述处理器1001可以是中央处理单元(central processing unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现成可编程门阵列(field-programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。该存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器。例如，存储器还可以存储设备类型的信息。

具体实现中，上述电子设备1000可通过其内置的各个功能模块执行如上述图2和/或图3中各个步骤所提供的实现方式，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，被处理器执行以实现图2和/或图3中各个步骤所提供的方法，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。

上述计算机可读存储介质可以是前述任一实施例提供的视频数据处理装置和/或电子设备的内部存储单元，例如电子设备的硬盘或内存。该计算机可读存储介质也可以是该电子设备的外部存储设备，例如该电子设备上配备的插接式硬盘，智能存储卡(smart media card,SMC)，安全数字(secure digital,SD)卡，闪存卡(flash card)等。上述计算机可读存储介质还可以包括磁碟、光盘、只读存储记忆体(read-only memory，ROM)或随机存储记忆体(random access memory，RAM)等。进一步地，该计算机可读存储介质还可以既包括该电子设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该电子设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行图2和/或图3中各个步骤所提供的方法。

本申请的权利要求书和说明书及附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或电子设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或电子设备固有的其它步骤或单元。在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置展示该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

以上所揭露的仅为本申请较佳实施例而已，不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

一种视频数据处理方法，所述方法包括：

确定待处理视频的初始帧序列，确定所述初始帧序列中各图像帧的各像素点的亮度；

基于所述初始帧序列中各图像帧的各像素点的亮度，对所述初始帧序列进行抽帧处理，将抽帧后的帧序列作为第一帧序列；

对所述第一帧序列进行编码，得到所述待处理视频的编码数据，所述编码数据携带各参考帧的参考帧序号，各所述参考帧为与所述抽帧处理中抽取出的目标帧序列相邻的图像帧；

向第一设备发送所述编码数据，以使所述第一设备基于所述编码数据和各所述参考帧序号对应的参考帧，确定第二帧序列，并基于所述第二帧序列确定播放视频。
根据权利要求1所述的方法，其中，所述基于所述初始帧序列中各图像帧的各像素点的亮度，对所述初始帧序列进行抽帧处理，包括：

对于所述初始帧序列中的任一图像帧，确定该图像帧的各像素点与前一图像帧的对应像素点的亮度差，基于该图像帧在各像素点对应的亮度差，确定该图像帧与所述前一图像帧的总亮度差；

将所述初始帧序列中，对应的总亮度差大于第一阈值的图像帧确定为活动帧，对应的总亮度差小于或者等于所述第一阈值的图像帧确定为静止帧；

基于所述活动帧和所述静止帧，对所述初始帧序列进行抽帧处理。
根据权利要求2所述的方法，其中，所述基于所述活动帧和所述静止帧，对所述初始帧序列进行抽帧处理，包括：

确定所述初始帧序列中的连续活动帧序列和连续静止帧序列；

对所述初始帧序列中的连续活动帧序列和连续静止帧序列进行抽帧处理。
根据权利要求3所述的方法，其中，所述确定所述初始帧序列中的连续活动帧序列和连续静止帧序列，包括：

确定所述待处理视频对应的初始帧率，基于所述初始帧率将所述初始帧序列划分为至少一个子帧序列；

确定各所述子帧序列中的连续活动帧序列和连续静止帧序列；

所述对所述初始帧序列中的连续活动帧序列和连续静止帧序列进行抽帧处理，包括：

对于每一所述连续活动帧序列，若该连续活动帧序列中的活动帧的数量大于第二阈值，则对该连续活动帧序列进行抽帧处理；

对于每一所述连续静止帧序列，若该连续静止帧序列中的静止帧的数量大于第三阈值，则对该连续静止帧序列进行抽帧处理。
一种视频数据处理方法，所述方法包括：

获取第二设备发送的编码数据，对所述编码数据进行解码得到第一帧序列，所述第一帧序列是所述第二设备对待处理视频的初始帧序列进行抽帧处理后的帧序列；

基于所述编码数据携带的各参考帧序号，确定所述第一帧序列对应的参考帧中的各组关联参考帧，每组所述关联参考帧包括与所述抽帧处理中抽取出的目标帧序列相邻的两个参考帧；

对于每组所述关联参考帧，基于该组关联参考帧中的第一参考帧和第二参考帧，确定所述第一参考帧对应的第一预测帧和所述第二参考帧对应的第二预测帧、以及帧预测过程中的遮挡权重和重建残差，基于所述第一预测帧、所述第二预测帧、所述遮挡权重和所述重建残差，确定该组关联参考帧对应的目标预测帧；

将各组所述关联参考帧对应的目标预测帧进行插帧处理，得到第二帧序列，基于所述第二帧序列得到播放视频。
根据权利要求5所述的方法，其中，对于每组所述关联参考帧，所述基于该组关联参考帧中的第一参考帧和第二参考帧，确定所述第一参考帧对应的第一预测帧和所述第二参考帧对应的第二预测帧，包括：

基于该组关联参考帧中的第一参考帧和第二参考帧，确定所述第一参考帧对应的第一光流场以及所述第二参考帧对应的第二光流场；

基于所述第一光流场对所述第一参考帧进行后向映射，得到所述第一参考帧对应的第一预测帧，基于所述第二光流场对所述第二参考帧进行后向映射，得到所述第二参考帧对应的第二预测帧。
根据权利要求6所述的方法，其中，对于每组所述关联参考帧，所述基于该组关联参考帧中的第一参考帧和第二参考帧，确定所述第一参考帧对应的第一光流场以及所述第二参考帧对应的第二光流场，包括：

对该组关联参考帧中的第一参考帧进行特征提取，得到第一初始特征，对该组关联参考帧中的第二参考帧进行特征提取，得到第二初始特征，基于所述第一初始特征和所述第二初始特征，确定所述第一参考帧和所述第二参考帧对应的关联特征；

确定所述第一参考帧的第一上下文特征，基于所述第一上下文特征和所述关联特征，确定所述第一参考帧对应的第一光流场；

确定所述第二参考帧的第二上下文特征，基于所述第二上下文特征和所述关联特征，确定所述第二参考帧对应的第二光流场。
根据权利要求6所述的方法，其中，对于每组所述关联参考帧，基于该组关联参考帧中的第一参考帧和第二参考帧，确定帧预测过程中的遮挡权重和重建残差，包括：

确定所述第一参考帧的第三上下文特征，确定所述第二参考帧的第四上下文特征；

基于所述第一光流场、所述第二光流场、所述第一预测帧、所述第二预测帧、所述第三上下文特征以及所述第四上下文特征，确定帧预测过程中的遮挡权重和重建残差。
根据权利要求8所述的方法，其中，所述基于所述第一光流场、所述第二光流场、所述第一预测帧、所述第二预测帧、所述第三上下文特征以及所述第四上下文特征，确定帧预测过程中的遮挡权重和重建残差，包括：

基于所述第一光流场、所述第二光流场、所述第一预测帧和所述第二预测帧，确定残差特征；

基于所述第三上下文特征、所述第四上下文特征以及所述残差特征，确定融合特征；

基于所述融合特征确定帧预测过程中的遮挡权重和重建残差。
根据权利要求9所述的方法，其中，所述第三上下文特征和所述第四上下文特征包括多个特征图；所述基于所述第三上下文特征、所述第四上下文特征以及所述残差特征，确定融合特征，包括：

对于所述第三上下文特征中的每一所述特征图，确定该特征图对应的光流场权重，基于该特征图对应的所述光流场权重和所述第一光流场，对该特征图进行后向映射，得到该特征图对应的映射特征图；

将所述第三上下文特征中的各所述特征图对应的映射特征图，确定为所述第一参考帧的第五上下文特征；

对于所述第四上下文特征中的每一所述特征图，确定该特征图对应的光流场权重，基于该特征图对应的所述光流场权重和所述第二光流场，对该特征图进行后向映射，得到该特征图对应的映射特征图；

将所述第四上下文特征中的各所述特征图对应的映射特征图，确定为所述第二参考帧的第六上下文特征；

基于所述第五上下文特征、所述第六上下文特征以及所述残差特征，确定融合特征。
根据权利要求9所述的方法，其中，所述基于所述融合特征确定帧预测过程中的遮挡权重和重建残差，包括：

对所述融合特征进行特征处理，得到目标特征，并确定所述目标特征对应的通道数；

将所述目标特征对应于最后一个通道的特征值确定为遮挡权重；

基于所述目标特征对应于其他通道的特征值，确定重建残差。
一种视频数据处理装置，所述装置包括：

亮度确定模块，用于确定待处理视频的初始帧序列，确定所述初始帧序列中各图像帧的各像素点的亮度；

帧序列确定模块，用于基于所述初始帧序列中各图像帧的各像素点的亮度，对所述初始帧序列进行抽帧处理，将抽帧后的帧序列作为第一帧序列；

编码模块，用于对所述第一帧序列进行编码，得到所述待处理视频的编码数据，所述编码数据携带各参考帧的参考帧序号，各所述参考帧为与所述抽帧处理中抽取出的目标帧序列相邻的图像帧；

发送模块，用于向第一设备发送所述编码数据，以使所述第一设备基于所述编码数据和各所述参考帧序号对应的参考帧，确定第二帧序列，并基于所述第二帧序列确定播放视频。
一种视频数据处理装置，所述装置包括：

解码模块，用于获取第二设备发送的编码数据，对所述编码数据进行解码得到第一帧序列，所述第一帧序列是所述第二设备对待处理视频的初始帧序列进行抽帧处理后的帧序列；

参考帧确定模块，用于基于所述编码数据携带的各参考帧序号，确定所述第一帧序列对应的参考帧中的各组关联参考帧，每组所述关联参考帧包括与所述抽帧处理中抽取出的目标帧序列相邻的两个参考帧；

帧预测模块，用于对于每组所述关联参考帧，基于该组关联参考帧中的第一参考帧和第二参考帧，确定所述第一参考帧对应的第一预测帧和所述第二参考帧对应的第二预测帧、以及帧预测过程中的遮挡权重和重建残差，基于所述第一预测帧、所述第二预测帧、所述遮挡权重和所述重建残差，确定该组关联参考帧对应的目标预测帧；

视频确定模块，用于将各组所述关联参考帧对应的目标预测帧进行插帧处理，得到第二帧序列，基于所述第二帧序列得到播放视频。
一种电子设备，包括处理器和存储器，所述处理器和存储器相互连接；

所述存储器用于存储计算机程序；

所述处理器被配置用于在调用所述计算机程序时，执行如权利要求1至4任一项所述的方法或者权利要求5至11任一项所述的方法。
一种计算机可读存储介质，其中，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现权利要求1至4任一项所述的方法或者权利要求5至11任一项所述的方法。