WO2022110806A1

WO2022110806A1 - 视频检测方法、装置、设备及计算机可读存储介质

Info

Publication number: WO2022110806A1
Application number: PCT/CN2021/103766
Authority: WO
Inventors: 方正; 石华峰; 殷国君; 陈思禹; 邵婧
Original assignee: 上海商汤智能科技有限公司
Priority date: 2020-11-27
Filing date: 2021-06-30
Publication date: 2022-06-02
Also published as: JP2023507898A; CN112329730A; CN112329730B; KR20220093157A

Abstract

一种视频检测方法、装置、设备及计算机可读存储介质，所述方法包括：获取待处理视频中的多个第一视频帧，以及所述待处理视频所对应的第一视频流(101)；获取对各所述第一视频帧进行真伪检测的单帧检测结果(102)；获取对所述第一视频流进行真伪检测的视频流检测结果(103)；根据所述多个第一视频帧各自的单帧检测结果和所述第一视频流的视频流检测结果，确定所述待处理视频的真伪判别结果(104)。

Description

视频检测方法、装置、设备及计算机可读存储介质

相关申请的交叉引用

本专利申请要求于2020年11月27日提交的、申请号为202011365074.7、发明名称为“视频检测方法、装置、设备及计算机可读存储介质”的中国专利申请的优先权，该申请的全文以引用的方式并入本文中。

技术领域

本公开涉及计算机视觉技术，尤其涉及一种视频检测方法、装置、设备及计算机可读存储介质。

背景技术

基于生成对抗网络(Generative Adversarial Network，GAN)的博弈优化原理或图形学方法，可以生成逼真度极高的伪造视频，伪造视频的负面应用会带来诸多不良影响。因此，有必要对视频进行真伪检测，以保证视频的真实性。

发明内容

本公开实施例提供了一种视频检测方案。

根据本公开的一方面，提供一种视频检测方法，所述方法包括：获取待处理视频中的多个第一视频帧，以及所述待处理视频所对应的第一视频流；获取对各所述第一视频帧进行真伪检测的单帧检测结果；获取对所述第一视频流进行真伪检测的视频流检测结果；根据所述多个第一视频帧各自的单帧检测结果和所述第一视频流的视频流检测结果，确定所述待处理视频的真伪判别结果。

结合本公开提供的任一实施方式，所述获取待处理视频中的多个第一视频帧，包括：以设定帧数跨度对所述待处理视频进行抽帧处理，得到所述多个第一视频帧，其中，所述设定帧数跨度与所述待处理视频所包含的视频帧的总帧数呈正相关。

结合本公开提供的任一实施方式，所述获取对各所述第一视频帧进行真伪检测的单帧检测结果，包括：通过第一真伪分类网络对所述第一视频帧进行真伪检测，得到所述第一视频帧的单帧检测结果，其中，所述单帧检测结果用于表征所述第一视频帧是伪造的置信度。

结合本公开提供的任一实施方式，所述获取对所述第一视频流进行真伪检测的视频流检测结果，包括：通过第二真伪分类网络，根据所述第一视频流所包含的视频帧以及帧间关系，对所述第一视频流进行真伪检测，得到所述第一视频流的视频流检测结果，其中，所述视频流检测结果用于表征所述第一视频流是伪造的置信度。

结合本公开提供的任一实施方式，所述根据所述多个第一视频帧各自的单帧检测结果和所述第一视频流的视频流检测结果，确定所述待处理视频的真伪判别结果，包括：对所述多个第一视频帧各自的单帧检测结果进行融合，得到融合结果；根据所述融合结果和所述视频流检测结果，确定所述待处理视频的真伪判别结果。

结合本公开提供的任一实施方式，所述对所述多个第一视频帧各自的单帧检测结果进行融合，得到融合结果，包括：对所述多个第一视频帧各自的单帧检测结果进行分组，得到分别包括一个或多个单帧检测结果的多个结果组；获得各所述结果组的平均检测结果；通过第一设定函数将各所述结果组的平均检测结果映射为第一概率，得到多个所述第一概率，其中，所述第一设定函数为非线性映射函数；根据各所述结果组的平均检测结果以及所述多个第一概率，得到融合结果。

结合本公开提供的任一实施方式，所述根据各所述结果组的平均检测结果以及所述多个第一概率，得到融合结果，包括以下中至少一个：响应于所述多个第一概率中大于第一设定阈值的第一上概率的比例大于第一设定比例，根据各所述第一上概率所对应的所述结果组的平均检测结果得到融合结果；响应于所述多个第一概率中小于第二设定阈值的第一下概率的比例大于第二设定比例，根据各所述第一下概率所对应的所述结果组的平均检测结果得到融合结果；其中，所述第一设定阈值大于所述第二设定阈值。

结合本公开提供的任一实施方式，所述根据所述融合结果和所述视频流检测结果，确定所述待处理视频的真伪判别结果，包括：对所述融合结果和所述视频流检测结果进行加权平均，得到加权平均结果；根据所得到的所述加权平均结果确定所述待处理视频的真伪判别结果。

结合本公开提供的任一实施方式，所述第一视频帧包括多个人脸；所述获取对各所述第一视频帧进行真伪检测的单帧检测结果，包括：获取所述第一视频帧中多个人脸对应的人脸检测框；根据各所述人脸检测框对应的图像区域，确定相应人脸的单人检测结果；通过第二设定函数将各个所述人脸的单人检测结果映射为第二概率，得到多个所述第二概率，其中，所述第二设定函数为非线性映射函数；根据各个所述人脸的单人检测结果以及所述多个第二概率，得到所述第一视频帧的单帧检测结果。

结合本公开提供的任一实施方式，所述根据各个所述人脸的单人检测结果以及所述多个第二概率，得到所述第一视频帧的单帧检测结果，包括以下至少一个：响应于所述多个第二概率中存在大于第三设定阈值的第二概率，获取所述第一视频帧中最大的单人检测结果作为所述第一视频帧的单帧检测结果；响应于所述多个第二概率均大于第四设定阈值，获取所述第一视频帧中最大的单人检测结果作为所述第一视频帧的单帧检测结果；响应于所述多个第二概率均小于第五设定阈值，获取所述第一视频帧中最小的单人检测结果作为所述第一视频帧的单帧检测结果；其中，所述第三设定阈值大于所述第四设定阈值，所述第四设定阈值大于所第五设定阈值。

结合本公开提供的任一实施方式，所述第一真伪分类网络包括多种结构的真伪分类网络；所述通过第一真伪分类网络对所述第一视频帧进行真伪检测，得到所述第一视频帧的单帧检测结果，包括：通过所述多种结构的真伪分类网络对所述第一视频帧进行真伪检测，获得多个子单帧检测结果；通过第三设定函数将所述多个子单帧检测结果分别映射为第三概率，得到多个第三概率，其中，所述第三设定函数为非线性映射函数；通过以下至少一个确定所述第一视频帧的单帧检测结果：响应于所述多个第三概率中大于第六设定阈值的第三上概率的比例大于第三设定比例，根据各所述第三上概率所对应的子单帧检测结果得到所述第一视频帧的单帧检测结果；响应于所述多个第三概率中小于第七设定阈值的第三下概率的比例大于第四设定比例，根据各所述第三下概率所对应的子单帧检测结果得到所述第一视频帧的单帧检测结果，其中，所述第六设定阈值大于所述第七设定阈值。

结合本公开提供的任一实施方式，所述第二真伪分类网络包括多种结构的真伪分类网络；所述通过第二真伪分类网络，根据所述第一视频流所包含的视频帧以及帧间关系，对所述第一视频流进行真伪检测，得到所述第一视频流的视频流检测结果，包括：通过所述多种结构的真伪分类网络，根据所述第一视频流所包含的视频帧以及帧间关系，对所述第一视频流进行真伪检测，获得多个子视频流检测结果；通过第四设定函数将所述多个子视频流检测结果分别映射为第四概率，得到多个所述第四概率，其中，所述第四设定函数为非线性映射函数；通过以下至少一个确定所述第一视频流的视频流检测结果：响应于所述多个第四概率中大于第八设定阈值的第四上概率的比例大于第五设定比例，根据各所述第四上概率所对应的子视频流检测结果得到所述第一视频流的视频流检测结果；响应于所述多个第四概率中小于第九设定阈值的第四下概率的比例大于第六设定比例，根据各所述第四下概率所对应的子视频流检测结果得到所述第一视频流的视频流检测结果，其中，所述第八设定阈值大于所述第九设定阈值。

结合本公开提供的任一实施方式，所述第一视频帧的单帧检测结果指示所述第一视频帧中的脸部图像是否为换脸图像；所述第一视频流的视频流检测结果指示所述第一视频流中的脸部图像是否为换脸图像；所述待处理视频的真伪判别结果指示所述待处理视频是否为换脸视频。

根据本公开的一方面，提供一种视频检测装置，所述装置包括：第一获取单元，用于获取待处理视频中的多个第一视频帧，以及所述待处理视频所对应的第一视频流；第二获取单元，用于获取对各所述第一视频帧进行真伪检测的单帧检测结果；第三获取单元，用于获取对所述第一视频流进行真伪检测的视频流检测结果；确定单元，用于根据所述多个第一视频帧各自的单帧检测结果和所述第一视频流的视频流检测结果，确定所述待处理视频的真伪判别结果。

根据本公开的一方面，提供一种电子设备，所述设备包括存储器、处理器，所述存储器用于存储可在处理器上运行的计算机指令，所述处理器用于在执行所述计算机指令时实现本公开任一实施方式所述的视频检测方法。

根据本公开的一方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现本公开任一实施方式所述的视频检测方法。

一种计算机程序，包括计算机可读代码，当所述计算机可读代码在电子设备中运行时，所述电子设备中的处理器执行用于实现本公开任一实施方式所述的视频检测方法。

本公开实施例通过同时对待处理视频中的多个第一视频帧，以及所述待处理视频对应的第一视频流进行真伪检测，分别获得第一视频帧的单帧检测结果以及第一视频流的视频流检测结果，并根据所述多个第一视频帧各自的单帧检测结果和所述第一视频流的视频流检测结果来确定所述待处理视频的真伪判别结果，从而可以检测出待处理视频中存在的部分伪造视频帧，提高视频检测准确率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本说明书的实施例，并与说明书一起用于解释本说明书的原理。

图1是本公开至少一个实施例示出的一种视频检测方法的流程图；

图2是本公开至少一个实施例示出的一种视频检测方法的示意图；

图3是本公开至少一个实施例示出的一种视频检测装置的示意图；

图4是本公开至少一个实施例示出的电子设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开实施例可以应用于计算机系统/服务器，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与计算机系统/服务器一起使用的众所周知的计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

图1是本公开至少一个实施例示出的一种视频检测方法的流程图。如图1所示，该方法包括步骤101～步骤104。

在步骤101中，获取待处理视频中的多个第一视频帧，以及所述待处理视频所对应的第一视频流。

在本公开实施例中，所述多个第一视频帧可以是所述待处理视频所包含的原始视频序列所对应的视频帧，也可以是对原始视频序列进行抽帧处理所得到的视频帧。所述待处理视频所对应的第一视频流可以是所述待处理视频所包含的原始视频序列所形成的视频流，也可以是对所述原始视频序列进行抽帧处理得到的视频帧所形成的视频流，例如为所述多个第一视频帧形成的视频流。

在步骤102中，获取对各所述第一视频帧进行真伪检测的单帧检测结果。

在本公开实施例中，可以通过第一真伪分类网络对所述第一视频帧进行真伪检测，得到所述第一视频帧的单帧检测结果，其中，所述单帧检测结果用于表征所述第一视频帧是伪造的置信度，例如所述单帧检测结果包括单帧置信度得分。

在一个示例中，所述第一真伪分类网络可以是预先训练的针对视频帧进行独立检测的真伪分类网络，例如ResNet(Residual Neural Network，残差网络)、DenseNet(Densely Connected Convolutional Networks，密度连接卷积网络)、EfficientNet、Xception、SENet(Squeeze-and-Excitation Network，压缩和激励网络)等等。

在步骤103中，获取对所述第一视频流进行真伪检测的视频流检测结果。

在本公开实施例中，可以通过第二真伪分类网络，根据所述第一视频流所对应的帧序列以及帧间关系，对所述第一视频流进行真伪检测，得到所述第一视频流的视频流检测结果，其中，所述视频流检测结果用于表征所述第一视频流是伪造的置信度，例如所述视频流检测结果包括视频流置信度得分。

在一个示例中，所述第二真伪分类网络可以是预先训练的针对视频流进行检测并考虑帧间关系的真伪分类网络，例如C3D(3D ConvNets，3D卷积)网络、SlowFast网络、X3D(Extensible 3D，可扩展3D)网络等等。

在步骤104中，根据所述多个第一视频帧各自的单帧检测结果和所述第一视频流的视频流检测结果，确定所述待处理视频的真伪判别结果。

在本公开实施例中，通过同时对待处理视频中的多个第一视频帧，以及所述待处理视频对应的第一视频流进行真伪检测，分别获得多个第一视频帧各自的单帧检测结果以及第一视频流的视频流检测结果，并根据所述多个第一视频帧各自的单帧检测结果和所述第一视频流的视频流检测结果来确定所述待处理视频的真伪判别结果，从而可以检测出待处理视频中存在的部分伪造视频帧，提高视频检测准确率。

在一些实施例中，可以以设定帧数跨度对所述待处理视频进行抽帧处理，得到所述多个第一视频帧。其中，所述设定帧数跨度可以根据所述待处理视频的帧数确定，例如，所述设定帧数跨度可以与所述待处理视频所包含的视频帧的总帧数呈正相关，以实现设定帧数跨度根据待处理视频的帧数的自适应设置，从而能够提取合理数量的第一视频帧，以提高视频检测的效果。例如，对于具有160～320帧的10秒长视频，可以以2为帧数跨度进行抽帧处理，即每2帧抽取1帧。

在一些实施例中，可以首先对所述多个第一视频帧各自的单帧检测结果进行融合，得到融合结果，之后根据所述融合结果和所述视频流检测结果，确定所述待处理视频的真伪判别结果。通过对所述多个第一视频帧各自的单帧检测结果进行融合，使得融合结果中体现出各个单帧检测结果的影响，再根据所述融合结果和视频流检测结果来确定待处理视频的真伪判别结果，可以提高视频检测的效果。

在一个示例中，可以通过以下方式对所述多个第一视频帧各自的单帧检测结果进行融合，得到融合结果。

首先，对所述多个第一视频帧各自的单帧检测结果进行分组，得到分别包括一个或多个单帧检测结果的多个结果组；获得各所述结果组的平均检测结果。举例来说，各组的平均检测结果可以包括组内多帧的平均置信度得分。

通过将所述多个第一视频帧中，每M个相邻第一视频帧划分为一组，可以将所述多个第一视频帧分为N组。其中，M、N为正整数。本领域技术人员应当理解，在所述多个第一视频帧的总数非M的整数倍的情况下，可以出现其中的第一视频帧数量不为M的分组。

例如，在第一视频帧的总数为30帧的情况下，可以将每5个相邻第一视频帧进行分组，从而将待处理视频中的多个第一视频帧分为6组。

接下来，通过第一设定函数将各所述结果组的平均检测结果映射为第一概率，得到多个所述第一概率，其中，所述第一设定函数为非线性映射函数。所述第一设定函数例如可以是归一化指数Softmax函数，通过该函数将各组的平均单帧置信度得分映射为第一概率。

在本公开实施例中，在所述第一真伪分类网络为逻辑回归网络的情况下，所述第一视频帧的单帧检测结果为(-∞,+∞)区间的逻辑输出值。通过Softmax函数将各组的平均检测结果映射为[0,1]区间的第一概率，可以体现各组平均检测结果的分布状况。

之后，根据各所述结果组的平均检测结果以及所述多个第一概率，得到融合结果。

通过根据各组平均检测结果的分布状况来对多组的平均检测结果进行融合，可以更加准确地评估各组检测结果对于待处理视频的真伪判别结果的影响，从而能够提高视频检测的准确率。

在一个示例中，可以通过以下方法得到融合结果：响应于所述多个第一概率中大于第一设定阈值的第一上概率的比例大于第一设定比例，根据各所述第一上概率所对应的所述结果组的平均检测结果得到融合结果。也即，在超过第一设定比例的第一上概率均大于第一设定阈值的情况下，则根据这第一下概率分别所对应的所述结果组的平均检测结果来计算融合结果，例如，将这些平均检测结果的平均值作为融合结果。

举例来说，在第一设定阈值为0.85，第一设定比例为0.7的情况下，当大于0.85的第一上概率的比例超过0.7，则将各所述第一上概率所对应的所述结果组平均检测结果的平均值作为融合结果。

在多数结果组的平均检测结果较高的情况下，少数较低的分组检测结果可能是由于神经网络误判的结果。通过以上融合方式，可以减小神经网络的误判对于视频检测结果的影响。

在另一个示例中，可以通过以下方法得到融合结果：响应于所述多个第一概率中小于第二设定阈值的第一下概率的比例大于第二设定比例，根据各所述第一下概率所对应的所述结果组的平均检测结果得到融合结果。也即，在超过第二设定比例的第一下概率均小于第二设定阈值的情况下，则根据这些第一下概率分别所对应的所述结果组的平均检测结果来计算融合结果，例如，将这些平均检测结果的平均值作为融合结果。其中，所述第一设定阈值大于所述第二设定阈值。

在上述示例中，所述第一设定比例和所述第二设定比例可以相同或者不同，本公开实施例对此不进行限制。

举例来说，在第二设定阈值为0.15，第二设定比例为0.7的情况下，当小于0.15的第一下概率的比例超过0.7，则将各所述第一下概率所对应的所述结果组的平均检测结果的平均值作为融合结果。

在多数结果组的平均检测结果较低的情况下，少数较高的分组检测结果可能是由于神经网络误判的结果。通过以上融合方式，可以减小神经网络的误判对于视频检测结果的影响。

在一个示例中，在大于第一设定阈值的第一上概率的比例小于或等于第一设定比例，且小于第二设定阈值的第一下概率的比例小于或等于第二设定比例的情况下，可以根据所述多个第一视频帧各自的单帧检测结果得到融合结果。例如，可以将所述多个第一视频帧各自的单帧检测结果的平均值作为融合结果。

在多个结果组的平均检测结果没有较为一致的趋势的情况下，也即神经网络对于各组的判断并没有一致的趋势，则通过各个第一视频帧的单帧检测结果计算融合结果，以使得各个第一视频帧对于最终的真伪判别结果的贡献相同。

在一些实施例中，对于所述融合结果和所述视频流检测结果，可以通过加权平均，获得所述融合结果和所述视频流检测结果的加权平均结果，并根据所述加权平均结果确定所述待处理视频的真伪判别结果。

在一个示例中，可以将所述加权平均结果与设定判别阈值进行比较，在所述加权平均结果小于所述设定判别阈值时，确定所述待处理视频为真，也即确定所述待处理视频不是伪造视频；在所述加权平均值大于或等于所述设定判别阈值时，确定所述待处理视频是伪造视频。

在所述多个第一视频帧中的至少一个第一视频帧上存在多个人脸的情况下，可以针对多个人脸进行融合以得到所对应的第一视频帧的单帧检测结果。

首先，获取所述第一视频帧中多个人脸对应的人脸检测框。其中，所述人脸检测框可以使用人脸检测网络，例如RetinaFace，对所述第一视频帧进行人脸检测获得；对于进行了人脸检测的第一视频帧之后的视频帧，可以通过人脸追踪网络，例如Siamese network(孪生神经网络)，对人脸进行追踪来获得人脸检测框。

对于所述第一视频帧中所包含的多个人脸，可以分别针对每个人脸生成相应的人脸检测框，所述人脸检测框具有相应的框编号，并且可以对所述人脸检测框标注对应的人脸编号，以对所述第一视频中所包含的多个人脸进行区分。例如，在所述第一视频帧中包括3个人脸的情况下，分别生成框编号为A、B、C的人脸检测框，并且所述人脸检测框A、B、C分别标注有人脸编号1、2、3。

其中，所述人脸检测框包括人脸检测框的四个顶点的坐标信息或者所述人脸检测框的长度和高度信息。

接下来，根据所述人脸检测框对应的图像区域，确定相应人脸的单人检测结果。

在一个示例中，通过第一真伪分类网络，对所述人脸检测框对应的图像区域进行真伪检测，可以得到所述人脸检测框所对应的人脸的单人检测结果。

例如，通过第一真伪分类网络分别对人脸检测框A、B、C对应的图像区域进行真伪检测，可以分别得到人脸1、2、3的单人检测结果。

针对所述第一视频帧中的多个人脸，可以生成[人脸编号，框编号，高度，宽度，通道]的输入张量，从而可以将所述待处理视频中存在的多个人脸根据人脸编号串联成视频帧集，从而可以对待处理视频中的每个人脸进行单独检测，得到各个人脸编号所对应的单人检测结果。

接着，通过第二设定函数将各个所述人脸的单人检测结果映射为第二概率，得到多个所述第二概率，其中，所述第二设定函数为非线性映射函数。

与上述对于所述第一视频帧所对应的各结果组的平均检测结果映射为第一概率相似，可以通过Softmax函数将各个人脸的单人检测结果映射为[0,1]区间的第二概率，以体现待处理视频中所包含的多个人脸的单人检测结果的分布状况。

最后，根据各个所述人脸的单人检测结果以及多个第二概率，得到所述第一视频帧的单帧检测结果。

通过根据各个人脸对应的单帧检测结果的分布状况来对多个人脸对应的单人检测结果进行融合，可以实现对待处理视频中每个人脸的单独检测，并可以更加准确地评估各个人脸对应的单人检测结果对于待处理视频的真伪判别结果的影响，从而能够提高视频检测的准确率。

在一个示例中，可以通过以下方法得到多个人脸的融合结果：响应于所述多个第二概率中存在大于第三设定阈值的第二概率，或所述第一视频帧的多个第二概率大于第四设定阈值，获取所述第一视频帧的单人检测结果中的最大值作为所述第一视频帧的单帧检测结果。也即，当所述第一视频帧中存在对应的第二概率大于第三设定阈值的人脸，表明该第一视频帧中存在置信度较高的人脸检测结果，则可以将所述第一视频帧中最大的单人检测结果作为单帧检测结果，从而使整个第一视频帧具有较高的单帧检测结果；当所述多个第二概率均大于第四设定阈值，表明该第一视频帧中的各人脸检测结果的置信度均较高，则同样将所述第一视频帧中最大的单人检测结果作为该第一视频帧的单帧检测结果，从而使整个第一视频帧具有较高的单帧检测结果。其中，所述第三设定阈值大于所述第四设定阈值。

举例来说，在第三设定阈值为0.9的情况下，第四设定阈值为0.6的情况下，当第一视频帧中存在大于0.9的第二概率，或者第一视频帧的所有第二概率均大于0.6，则将该第一视频帧中单人置信度得分中的最大值作为该帧的单帧检测结果。

在另一个示例中，可以通过以下方法得到多个人脸的融合结果：响应于所述多个第二概率均小于第五设定阈值，获取所述第一视频帧的单人检测结果中的最小值作为所述第一视频帧的单帧检测结果。也即，当所述第一视频帧中所有人脸对应的第二概率均小于第五设定阈值，表明该第一视频帧中的各人脸检测结果的置信度均较低，则可以将所述第一视频帧中最小的单人检测结果作为该第一视频帧的单帧检测结果，从而使整个第一视频帧具有较低的单帧检测结果。其中，所述第四设定阈值大于所第五设定阈值。

举例来说，在第五设定阈值为0.4的情况下，当第一视频帧的所有第二概率均小于0.4，则将该第一视频帧中单人置信度得分中的最小值作为该帧的单帧检测结果。

在本公开实施例中，针对待处理视频的第一视频帧中存在多个人脸的情况，通过获取各个人脸对应的单人检测结果，并对多个人脸的单人检测结果进行融合以得到该第一视频帧的单帧检测结果，使得视频的真伪判别结果考虑到了不同人脸的检测结果的影响，提高了视频检测效果。

在一些实施例中，所述第一真伪分类网络包括多种结构的真伪分类网络，通过所述多种结构的真伪分类网络对所述第一视频帧进行真伪检测，获得多个子单帧检测结果，等效于获得了采用多种方法对所述第一视频帧进行真伪检测的子单帧检测结果，通过对第一视频帧对应的多个子单帧检测结果进行融合可以得到该第一视频帧的单帧检测结果。

在一些实施例中，可以通过以下方法对第一视频帧对应的多个子单帧检测结果进行融合。

首先，通过第三设定函数将所述多个子单帧检测结果分别映射为第三概率，得到多个第三概率。

与上述对于所述第一视频帧所对应的各组的平均检测结果映射为第一概率相似，可以通过Softmax函数将各个子单帧检测结果映射为[0,1]区间的第三概率，以体现多种真伪分类方法得到的子单帧检测结果的分布状况。

接下来，根据多个子单帧检测结果以及多个第三概率，得到单帧检测结果。

在一个示例中，响应于所述多个第三概率中大于第六设定阈值的第三上概率的比例大于第三设定比例，根据各所述第三上概率所对应的子单帧检测结果得到所述第一视频帧的单帧检测结果。也即，在超过第三设定比例的第三上概率均大于第六设定阈值的情况下，则根据这些第三上概率分别所对应的子单帧检测结果来计算该第一视频帧的单帧检测结果，例如，将这些子单帧检测结果的平均值作为单帧检测结果。

举例来说，在第六设定阈值为0.8，第三设定比例为0.7的情况下，当大于0.8的第三上概率的比例超过0.7，则将各所述第三上概率所对应的子单帧置信度得分的平均值作为单帧检测结果。

在多个子单帧检测结果较高的情况下，少数较低的子单帧检测结果可能是由于所采用的相应结构的真伪分类网络误判的结果。通过以上融合方式，可以减小真伪分类网络的误判对于视频检测结果的影响。

在另一个示例中，响应于所述多个第三概率中小于第七设定阈值的第三下概率的比例大于第四设定比例，根据各所述第三下概率所对应的子单帧检测结果得到所述第一视频帧的单帧检测结果。也即，在超过第四设定比例的第三下概率均小于第七设定阈值的情况下，则根据这些第三下概率分别所对应的子单帧检测结果来计算该第一视频帧的单帧检测结果，例如，将这些子单帧检测结果的平均值作为融合结果。其中，所述第六设定阈值大于所述第七设定阈值。

在上述示例中，所述第三设定比例和所述第四设定比例可以相同或者不同，本公开实施例对此不进行限制。

举例来说，在第七设定阈值为0.2，第四设定比例为0.7的情况下，当小于0.2的第三下概率的比例超过0.7，则将各所述第三下概率所对应的子单帧置信度得分的平均值作为单帧检测结果。

在多个子单帧检测结果较低的情况下，少数较高的子单帧检测结果可能是由于所采用的相应结构的真伪分类网络误判的结果。通过以上融合方式，可以减小真伪分类网络的误判对于视频检测结果的影响。

在一些实施例中，所述第二真伪分类网络包括多种结构的真伪分类网络，通过所述多种结构的真伪分类网络对所述第一视频帧流进行真伪检测，获得多个子视频流检测结果，等效于获得了采用多种方法对所述第一视频帧流进行真伪检测的子视频流检测结果，通过对多个子视频流检测结果进行融合可以得到所述第一视频流的视频流检测结果。

在一些实施例中，可以通过以下方法对第一视频流对应的多个子视频流检测结果进行融合。

首先，通过第四设定函数将所述多个子视频流检测结果分别映射为第四概率，得到多个第四概率。

与上述对于所述第一视频帧所对应的各组的平均检测结果映射为第一概率相似，可以通过Softmax函数将各个子视频流检测结果映射为[0,1]区间的第四概率，以体现多种真伪分类方法得到的子视频流检测结果的分布状况。

接下来，根据多个子视频流检测结果以及第四概率，得到所述第一视频流的视频流检测结果。

在一个示例中，响应于所述多个第四概率中大于第八设定阈值的第四上概率的比例大于第五设定比例，根据各所述第四上概率所对应的子视频流检测结果得到所述第一视频流的视频流检测结果。也即，在超过第五设定比例的第四上概率均大于第八设定阈值的情况下，则根据这些第四上概率分别所对应的子视频流检测结果来计算该第一视频流的视频流检测结果，例如，将这些子视频流检测结果的平均值作为所述第一视频流的视频流检测结果。

举例来说，在第八设定阈值为0.8，第五设定比例为0.7的情况下，当大于0.8的第四上概率的比例超过0.7，则将各所述第四上概率所对应的子视频流置信度得分的平均值作为所述第一视频流的视频流检测结果。

在多个子视频流检测结果较高的情况下，少数较低的子视频流检测结果可能是由于所采用的相应结构的真伪分类网络误判的结果。通过以上融合方式，可以减小真伪分类网络的误判对于视频检测结果的影响。

在另一个示例中，响应于所述多个第四概率中小于第九设定阈值的第四下概率的比例大于第六设定比例，根据各所述第四下概率所对应的子视频流检测结果得到所述第一视频流的视频流检测结果。也即，在超过第六设定比例的第四下概率均小于第九设定阈值的情况下，则根据这些第四下概率分别所对应的子视频流检测结果来计算所述第一视频流的视频流检测结果，例如，将这些子视频流检测结果的平均值作为所述第一视频流的视频流检测结果。其中，所述第八设定阈值大于所述第九设定阈值。

在上述示例中，所述第五设定比例和所述第六设定比例可以相同或者不同，本公开实施例对此不进行限制。

举例来说，在第九设定阈值为0.2，第六设定比例为0.7的情况下，当小于0.2的第四下概率的比例超过0.7，则将各所述第四下概率所对应的子视频流置信度得分的平均值作为所述第一视频流的视频流检测结果。

在多个子视频流检测结果较低的情况下，少数较高的子视频流检测结果可能是由于所采用的相应结构的真伪分类网络误判的结果。通过以上融合方式，可以减小真伪分类网络的误判对于视频检测结果的影响。

在本公开实施例中，各个设定阈值和各个设定比例的具体取值可以根据对视频检测结果的精度要求来确定，在此不进行限定。

在一些实施例中，对于待处理视频中的多个第一视频帧可以既针对多个人脸进行融合，也针对多个方法获得的子单帧检测结果进行融合，通过对两种融合所得到的结果进行加权平均以获得最终的单帧检测结果。

并且对于进行两种融合的先后顺序不进行限制。

图2示出了本公开至少一个实施例示出的一种视频检测方法的示意图。

如图2所示，首先获取待处理视频中的多个第一视频帧，以及由所述多个第一视频帧所形成的第一视频流。

一方面，对于第一视频帧进行处理以得所述第一视频帧的单帧检测结果。其中，首先对第一视频帧中所包含的多个人脸分别进行真伪检测，对于各个人脸所对应的单人检测结果进行融合以得到人脸融合结果，之后，通过多种方法对所述第一视频帧进行真伪检测，对于各种方法对应的子单帧检测结果进行融合以得到方法融合结果，并通过对所述人脸融合结果和所述方法融合结果进行加权平均，以得到所述第一视频帧所对应的单帧检测结果。并通过对多个第一视频帧各自的单帧检测结果进行融合，以得到多个第一视频帧所对应的融合结果。

另一方面，对于第一视频流进行处理以得到所述第一视频流的视频流检测结果。其中，可以通过多种方法对所述第一视频流进行真伪检测，并对于各种方法对应的子视频检测结果进行融合以得到视频流检测结果。

最后，通过对所述多个第一视频帧所对应的融合结果以及所述第一视频流对应的视频流检测结果进行加权平均，并根据加权平均的结果确定所述待处理视频的真伪判别结果。

在本公开实施例中，结合多种融合方式获取待处理视频的真伪判别结果，对于同时存在真实视频帧和伪造视频帧的视频，以及同时存在真实人脸和伪造人脸的视频，可以进行有效的真伪检测，获得准确率较高的视频检测结果。

由于换脸技术在视频中的应用可能导致肖像权、版权等多个层面的问题，因此检测视频是否为换脸视频具有重要意义。

在一些实施例中，对第一视频帧所进行的真伪检测可以是换脸检测，所得到的单帧检测结果为指示所述第一视频帧中的脸部图像是否为换脸脸部图像的检测结果。例如，所述检测结果中所包含的得分越高，即表明所述第一视频帧中的脸部图像为换脸脸部图像的置信度越高。同理，对第一视频流所进行的真伪检测也可以是换脸检测，所得到的视频流检测结果为指示所述第一视频流中的脸部图像是否为换脸脸部图像的检测结果。根据所述多个第一视频帧各自的单帧检测结果和所述第一视频流的视频流检测结果，可以得到所述待处理视频是否为换脸视频的判别结果。

图3示出本公开实施例示出的一种视频检测装置的示意图。如图3所示，该装置包括第一获取单元301，用于获取待处理视频中的多个第一视频帧，以及所述待处理视频所对应的第一视频流；第二获取单元302，用于获取对各所述第一视频帧进行真伪检测的单帧检测结果；第三获取单元303，用于获取对所述第一视频流进行真伪检测的视频流检测结果；确定单元304，用于根据所述多个第一视频帧各自的单帧检测结果和所述第一视频流的视频流检测结果，确定所述待处理视频的真伪判别结果。

在一些实施例中，所述第一获取单元具体用于：以设定帧数跨度对所述待处理视频进行抽帧处理，得到所述多个第一视频帧，其中，所述设定帧数跨度与所述待处理视频所包含的视频帧的总帧数呈正相关。

在一些实施例中，所述第二获取单元具体用于：通过第一真伪分类网络对各所述第一视频帧进行真伪检测，得到各所述第一视频帧的单帧检测结果，其中，所述单帧检测结果用于表征所述第一视频帧是伪造的置信度。

在一些实施例中，所述第二获取单元具体用于：通过第二真伪分类网络，根据各所述第一视频流所包含的视频帧以及帧间关系，对各所述第一视频流进行真伪检测，得到各所述第一视频流的视频流检测结果，其中，所述视频流检测结果用于表征所述第一视频流是伪造的置信度。

在一些实施例中，所述确定单元具体用于：对所述多个第一视频帧各自的单帧检测结果进行融合，得到融合结果；根据所述融合结果和所述视频流检测结果，确定所述待处理视频的真伪判别结果。

在一些实施例中，所述确定单元在用于对所述多个第一视频帧各自的单帧检测结果进行融合，得到融合结果时，具体用于：对所述多个第一视频帧各自的单帧检测结果进行分组，得到分别包括一个或多个单帧检测结果的多个结果组；获得各所述结果组的平均检测结果；通过第一设定函数将各所述结果组的平均检测结果映射为第一概率，得到多个所述第一概率，其中，所述第一设定函数为非线性映射函数；根据各所述结果组的平均检测结果以及所述多个第一概率，得到融合结果。

在一些实施例中，所述确定单元在用于根据各所述结果组的平均检测结果以及所述多个第一概率，得到融合结果时，具体用于：响应于所述多个第一概率中大于第一设定阈值的第一上概率的比例大于第一设定比例，根据各所述第一上概率所对应的所述结果组平均检测结果得到融合结果；和/或，响应于所述多个第一概率中小于第二设定阈值的第一下概率的比例大于第二设定比例，根据各所述第一下概率所对应的所述结果组的平均检测结果得到融合结果；所述第一设定阈值大于所述第二设定阈值。

在一些实施例中，所述确定单元在用于根据所述融合结果和所述视频流检测结果，确定所述待处理视频的真伪判别结果时，具体用于：对所述融合结果和所述视频流检测结果进行加权平均，根据所得到的加权平均结果确定所述待处理视频的真伪判别结果。

在一些实施例中，所述第一视频帧包括多个人脸；所述第二获取单元具体用于：获取所述第一视频帧中多个人脸对应的人脸检测框；根据所述人脸检测框对应的图像区域，确定相应人脸的单人检测结果；通过第二设定函数将各个人脸的单人检测结果映射为第二概率，得到多个所述第二概率，其中，所述第二设定函数为非线性映射函数；根据各个所述人脸的单人检测结果以及所述多个第二概率，得到所述第一视频帧的单帧检测结果。

在一些实施例中，所述第二获取单元在用于根据各个所述人脸的单人检测结果以及所述多个第二概率，得到所述第一视频帧的单帧检测结果时，具体用于：响应于所述多个第二概率中存在大于第三设定阈值的第二概率，获取所述第一视频帧中最大的单人检测结果作为所述第一视频帧的单帧检测结果；和/或，响应于所述多个第二概率均大于第四设定阈值，获取所述第一视频帧中最大的单人检测结果作为所述第一视频帧的单帧检测结果；和/或，响应于多个第二概率均小于第五设定阈值，获取所述第一视频帧中最小的单人检测结果作为所述第一视频帧的单帧检测结果；其中，所述第三设定阈值大于所述第四设定阈值，所述第四设定阈值大于所第五设定阈值。

在一些实施例中，所述第一真伪分类网络包括多种结构的真伪分类网络，所述第二获取单元在用于通过第一真伪分类网络对所述第一视频帧进行真伪检测，得到所述第一视频帧的单帧检测结果时，具体用于：通过所述多种结构的真伪分类网络对所述第一视频帧进行真伪检测，获得多个子单帧检测结果；通过第三设定函数将所述多个子单帧检测结果分别映射为第三概率，得到多个第三概率，其中，所述第三设定函数为非线性映射函数；响应于所述多个第三概率中大于第六设定阈值的第三上概率的比例大于第三设定比例，根据各所述第三上概率所对应的子单帧检测结果得到所述第一视频帧的单帧检测结果；和/或，响应于所述多个第三概率中小于第七设定阈值的第三下概率的比例大于第四设定比例，根据各所述第三概下率所对应的子单帧检测结果得到所述第一视频帧的单帧检测结果，其中，所述第六设定阈值大于所述第七设定阈值。

在一些实施例中，所述第二真伪分类网络包括多种结构的真伪分类网络，所述第三获取单元在用于通过第二真伪分类网络，根据所述第一视频流所包含的视频帧以及帧间关系，对所述第一视频流进行真伪检测，得到所述第一视频流的视频流检测结果时，具体用于：通过所述多种结构的真伪分类网络，根据所述第一视频流所包含的视频帧以及帧间关系，对所述第一视频流进行真伪检测，获得多个子视频流检测结果；通过第四设定函数将所述多个子视频流检测结果分别映射为第四概率，得到多个所述第四概率，其中，所述第四设定函数为非线性映射函数；响应于所述多个第四概率大于第八设定阈值的第四上概率的比例大于第五设定比例，根据各所述第四概上率所对应的子视频流检测结果得到所述第一视频流的视频流检测结果；和/或，响应于所述多个第四概率中小于第九设定阈值的第四下概率的比例大于第六设定比例，根据各所述第四下概率所对应的子视频流检测结果得到所述第一视频流的视频流检测结果，其中，所述第八设定阈值大于所述第九设定阈值。

在一些实施例中，所述单帧检测结果指示所述第一视频帧中的脸部图像是否为换脸图像；所述第一视频流的视频流检测结果为指示所述第一视频流中的脸部图像是否为换脸图像；所述待处理视频的真伪判别结果指示所述待处理视频是否为换脸视频。

图4为本公开至少一个实施例提供的电子设备，所述设备包括存储器、处理器，所述存储器用于存储可在处理器上运行的计算机指令，所述处理器用于在执行所述计算机指令时实现本公开任一实现方式所述的视频检测方法。

本公开至少一个实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现本公开任一实现方式所述的视频检测方法。

本领域技术人员应明白，本说明书一个或多个实施例可提供为方法、系统或计算机程序产品。因此，本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于数据处理设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的行为或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中描述的主题及功能操作的实施例可以在以下中实现：数字电子电路、有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序，即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地，程序指令可以被编码在人工生成的传播信号上，例如机器生成的电、光或电磁信号，该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。

本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)来执行，并且装置也可以实现为专用逻辑电路。

适合用于执行计算机程序的计算机包括，例如通用和/或专用微处理器，或任何其他类型的中央处理单元。通常，中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘等，或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据，抑或两种情况兼而有之。然而，计算机不是必须具有这样的设备。此外，计算机可以嵌入在另一设备中，例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏操纵台、全球定位系统(GPS)接收机、或例如通用串行总线(USB)闪存驱动器的便携式存储设备，仅举几例。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备，例如包括半导体存储器设备(例如EPROM、EEPROM和闪存设备)、磁盘(例如内部硬盘或可移动盘)、磁光盘以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。

虽然本说明书包含许多具体实施细节，但是这些不应被解释为限制任何发明的范围或所要求保护的范围，而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中，或者封装成多个软件产品。

由此，主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下，权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。

以上所述仅为本说明书一个或多个实施例的较佳实施例而已，并不用以限制本说明书一个或多个实施例，凡在本说明书一个或多个实施例的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书一个或多个实施例保护的范围之内。

Claims

一种视频检测方法，包括：

获取待处理视频中的多个第一视频帧，以及所述待处理视频所对应的第一视频流；

获取对各所述第一视频帧进行真伪检测的单帧检测结果；

获取对所述第一视频流进行真伪检测的视频流检测结果；

根据所述多个第一视频帧各自的单帧检测结果和所述第一视频流的视频流检测结果，确定所述待处理视频的真伪判别结果。
根据权利要求1所述的方法，其特征在于，所述获取待处理视频中的多个第一视频帧，包括：

以设定帧数跨度对所述待处理视频进行抽帧处理，得到所述多个第一视频帧，

其中，所述设定帧数跨度与所述待处理视频所包含的视频帧的总帧数呈正相关。
根据权利要求1或2所述的方法，其特征在于，所述获取对各所述第一视频帧进行真伪检测的单帧检测结果，包括：

通过第一真伪分类网络对所述第一视频帧进行真伪检测，得到所述第一视频帧的单帧检测结果，

其中，所述单帧检测结果用于表征所述第一视频帧是伪造的置信度。
根据权利要求1至3任一项所述的方法，其特征在于，所述获取对所述第一视频流进行真伪检测的视频流检测结果，包括：

通过第二真伪分类网络，根据所述第一视频流所包含的视频帧以及帧间关系，对所述第一视频流进行真伪检测，得到所述第一视频流的视频流检测结果，

其中，所述视频流检测结果用于表征所述第一视频流是伪造的置信度。
根据权利要求1至4任一项所述的方法，其特征在于，所述根据所述多个第一视频帧各自的单帧检测结果和所述第一视频流的视频流检测结果，确定所述待处理视频的真伪判别结果，包括：

对所述多个第一视频帧各自的单帧检测结果进行融合，得到融合结果；

根据所述融合结果和所述视频流检测结果，确定所述待处理视频的真伪判别结果。
根据权利要求5所述的方法，其特征在于，所述对所述多个第一视频帧各自的单帧检测结果进行融合，得到融合结果，包括：

对所述多个第一视频帧各自的单帧检测结果进行分组，得到分别包括一个或多个单帧检测结果的多个结果组；

获得各所述结果组的平均检测结果；

通过第一设定函数将各所述结果组的平均检测结果映射为第一概率，得到多个所述第一概率，其中，所述第一设定函数为非线性映射函数；

根据各所述结果组的平均检测结果以及所述多个第一概率，得到融合结果。
根据权利要求6所述的方法，其特征在于，所述根据各所述结果组的平均检测结果以及所述多个第一概率，得到融合结果，包括以下中至少一个：

响应于所述多个第一概率中大于第一设定阈值的第一上概率的比例大于第一设定比例，根据各所述第一上概率所对应的所述结果组的平均检测结果得到融合结果；

响应于所述多个第一概率中小于第二设定阈值的第一下概率的比例大于第二设定比例，根据各所述第一下概率所对应的所述结果组的平均检测结果得到融合结果；

其中，所述第一设定阈值大于所述第二设定阈值。
根据权利要求5至7任一项所述的方法，其特征在于，所述根据所述融合结果和所述视频流检测结果，确定所述待处理视频的真伪判别结果，包括：

对所述融合结果和所述视频流检测结果进行加权平均，得到加权平均结果；

根据所得到的所述加权平均结果确定所述待处理视频的真伪判别结果。
根据权利要求1至8任一项所述的方法，其特征在于，所述第一视频帧包括多个人脸；所述获取对各所述第一视频帧进行真伪检测的单帧检测结果，包括：

获取所述第一视频帧中多个人脸对应的人脸检测框；

根据各所述人脸检测框对应的图像区域，确定相应人脸的单人检测结果；

通过第二设定函数将各个所述人脸的单人检测结果映射为第二概率，得到多个所述第二概率，其中，所述第二设定函数为非线性映射函数；

根据各个所述人脸的单人检测结果以及所述多个第二概率，得到所述第一视频帧的单帧检测结果。
根据权利要求9所述的方法，其特征在于，所述根据各个所述人脸的单人检测结果以及所述多个第二概率，得到所述第一视频帧的单帧检测结果，包括以下至少一个：

响应于所述多个第二概率中存在大于第三设定阈值的第二概率，获取所述第一视频帧中最大的单人检测结果作为所述第一视频帧的单帧检测结果；

响应于所述多个第二概率均大于第四设定阈值，获取所述第一视频帧中最大的单人检测结果作为所述第一视频帧的单帧检测结果；

响应于所述多个第二概率均小于第五设定阈值，获取所述第一视频帧中最小的单人检测结果作为所述第一视频帧的单帧检测结果；

其中，所述第三设定阈值大于所述第四设定阈值，所述第四设定阈值大于所第五设定阈值。
根据权利要求3所述的方法，其特征在于，所述第一真伪分类网络包括多种结构的真伪分类网络；所述通过第一真伪分类网络对所述第一视频帧进行真伪检测，得到所述第一视频帧的单帧检测结果，包括：

通过所述多种结构的真伪分类网络对所述第一视频帧进行真伪检测，获得多个子单帧检测结果；

通过第三设定函数将所述多个子单帧检测结果分别映射为第三概率，得到多个第三概率，其中，所述第三设定函数为非线性映射函数；

通过以下至少一个确定所述第一视频帧的单帧检测结果：

响应于所述多个第三概率中大于第六设定阈值的第三上概率的比例大于第三设定比例，根据各所述第三上概率所对应的子单帧检测结果得到所述第一视频帧的单帧检测结果；

响应于所述多个第三概率中小于第七设定阈值的第三下概率的比例大于第四设定比例，根据各所述第三下概率所对应的子单帧检测结果得到所述第一视频帧的单帧检测结果，其中，所述第六设定阈值大于所述第七设定阈值。
根据权利要求4所述的方法，其特征在于，所述第二真伪分类网络包括多种结构的真伪分类网络；所述通过第二真伪分类网络，根据所述第一视频流所包含的视频帧以及帧间关系，对所述第一视频流进行真伪检测，得到所述第一视频流的视频流检测结果，包括：

通过所述多种结构的真伪分类网络，根据所述第一视频流所包含的视频帧以及帧间关系，对所述第一视频流进行真伪检测，获得多个子视频流检测结果；

通过第四设定函数将所述多个子视频流检测结果分别映射为第四概率，得到多个所述第四概率，其中，所述第四设定函数为非线性映射函数；

通过以下至少一个确定所述第一视频流的视频流检测结果：

响应于所述多个第四概率中大于第八设定阈值的第四上概率的比例大于第五设定比例，根据各所述第四上概率所对应的子视频流检测结果得到所述第一视频流的视频流检测结果；

响应于所述多个第四概率中小于第九设定阈值的第四下概率的比例大于第六设定比例，根据各所述第四下概率所对应的子视频流检测结果得到所述第一视频流的视频流检测结果，其中，所述第八设定阈值大于所述第九设定阈值。
根据权利要求1至12任一项所述的方法，其特征在于，所述第一视频帧的单帧检测结果指示所述第一视频帧中的脸部图像是否为换脸图像；所述第一视频流的视频流检测结果指示所述第一视频流中的脸部图像是否为换脸图像；所述待处理视频的真伪判别结果指示所述待处理视频是否为换脸视频。
一种视频检测装置，包括：

第一获取单元，用于获取待处理视频中的多个第一视频帧，以及所述待处理视频所对应的第一视频流；

第二获取单元，用于获取对各所述第一视频帧进行真伪检测的单帧检测结果；

第三获取单元，用于获取对所述第一视频流进行真伪检测的视频流检测结果；

确定单元，用于根据所述多个第一视频帧各自的单帧检测结果和所述第一视频流的视频流检测结果，确定所述待处理视频的真伪判别结果。
一种电子设备，其特征在于，所述设备包括存储器、处理器，所述存储器用于存储可在处理器上运行的计算机指令，所述处理器用于在执行所述计算机指令时实现权利要求1至13任一项所述的方法。
一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至13任一项所述的方法。
一种计算机程序，包括计算机可读代码，当所述计算机可读代码在电子设备中运行时，所述电子设备中的处理器执行用于实现权利要求1至13任一项所述的方法。