WO2022242032A1

WO2022242032A1 - 数据分类方法及装置、电子设备、存储介质和计算机程序产品

Info

Publication number: WO2022242032A1
Application number: PCT/CN2021/126150
Authority: WO
Inventors: 张丹丹; 王长春
Original assignee: 深圳市商汤科技有限公司
Priority date: 2021-05-21
Filing date: 2021-10-25
Publication date: 2022-11-24
Also published as: CN113221786A

Abstract

一种数据分类方法及装置、电子设备、存储介质和计算机程序产品，方法包括：获取多个待分类视图，并提取多个待分类视图中每个视图包含的人脸图像，得到多个人脸图像（S101）；对多个人脸图像进行聚类，从而得到至少一个图像集合；其中，每个图像集合中的人脸图像对应同一人物，且每个图像集合中的每个人脸图像携带表征图像真伪的真伪检测结果（S102）。

Description

数据分类方法及装置、电子设备、存储介质和计算机程序产品

相关申请的交叉引用

本申请基于申请号为202110556441.X、申请日为2021年05月21日，申请名称为“数据分类方法及装置、电子设备和存储介质”的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此以引入方式结合在本申请中。

技术领域

本公开涉及计算机视觉技术领域，尤其涉及一种数据分类方法及装置、电子设备、存储介质和计算机程序产品。

背景技术

互联网上存在海量的图像和视频，用户可以根据实际需求，从中查找出需要的图像和视频进行归类。

目前，通常采用的图像和视频的归类方式为，利用包含特定人物的人像图像，采用图搜的方式从互联网上将包含该人物的所有图像和视频搜索出来，归为一类，数据分类的智能性较低，效果较差。

发明内容

本公开实施例期望提供一种数据分类方法及装置、电子设备、存储介质和计算机程序产品。

本公开实施例的技术方案是这样实现的：

本公开实施例提供了一种数据分类方法，所述方法包括：

获取多个待分类视图，并提取所述多个待分类视图中每个视图包含的人脸图像，得到多个人脸图像；

对所述多个人脸图像进行聚类，得到至少一个图像集合；其中，每个所述图像集合中的人脸图像对应同一人物，且每个所述图像集合中的每个人脸图像携带表征图像真伪的真伪检测结果。

在上述方法中，所述对所述多个人脸图像进行聚类，得到至少一个图像集合，包括：

对所述多个人脸图像中每个人脸图像进行深度伪造检测，得到与所述多个人脸图像一一对应的多个真伪检测结果；

对所述多个人脸图像中每个人脸图像进行特征提取，得到与所述多个人脸图像一一对应的多组人脸特征；

利用所述多组人脸特征，将所述多个人脸图像中对应同一人物的人脸图像划分至同一集合中，并在划分的每个集合中，包含的每个人脸图像上携带所述多个真伪检测结果中对应的真伪检测结果，得到所述至少一个图像集合。

在上述方法中，所述利用所述多组人脸特征，将所述多个人脸图像中对应同一人物的人脸图像划分至同一集合中，包括：

将所述多组人脸特征中，不同人脸特征组之间进行相似度比较；

将所述多个人脸图像中，对应人脸特征组之间相似度达到预设阈值的人脸图像划分至同一集合中。

在上述方法中，所述对所述多个人脸图像进行聚类，得到至少一个图像集合之后，所述方法还包括：获取与所述至少一个图像集合一一对应的至少一个类中心信息；

对所述至少一个图像集合中每个图像集合，利用所述至少一个类中心信息中对应的类中心信息与预设人像库进行撞库，确定出对应的标签信息。

在上述方法中，所述获取与所述至少一个图像集合一一对应的至少一个类中心信息，包括：

针对所述至少一个图像集合中每个图像集合，获取包括的人脸图像的特定特征，确定为对应的类中心信息，得到所述至少一个类中心信息；

或者，针对所述至少一个图像集合中每个图像集合，按照特定的规则，从包括的人脸图像中选取一个人脸图像，确定为对应的类中心信息，得到所述至少一个类中心信息。

在上述方法中，所述对所述至少一个图像集合中每个图像集合，利用所述至少一个类中心信息中对应的类中心信息与预设人像库进行撞库，确定出对应的标签信息，包括：

从所述预设人像库中，查找与第一类中心信息匹配的第一人脸图像；所述第一类中心信息为第一图像集合对应的类中心信息，所述第一图像集合为所述至少一个图像集合中任意一个图像集合；

在查找到所述第一人脸图像的情况下，将所述预设人像库中所述第一人脸图像对应的身份信息，确定为所述第一图像集合对应的标签信息。

在上述方法中，所述从所述预设人像库中，查找与第一类中心信息匹配的第一人脸图像之后，所述方法还包括：

在未查找到所述第一人脸图像的情况下，确定所述第一图像集合对应的标签信息为匿名身份。

在上述方法中，所述对所述多个人脸图像进行聚类，得到至少一个图像集合之后，所述方法还包括：

在所述至少一个图像集合的每个图像集合中，添加包含的每个人脸图像在所述多个待分类视图中所属的视图，得到至少一个视图集合。

在上述方法中，还包括发布人员档案库，所述发布人员档案库包括不同发布人员的身份信息和发布的视图，所述得到至少一个视图集合之后，所述方法还包括：

从所述发布人员档案库中，查找所述至少一个视图集合中每个视图的发布人员信息；

将所述至少一个视图集合中，每个视图与对应的发布人员的身份信息关联。

本公开实施例提供了一种数据分类装置，包括：

数据处理模块，配置为获取多个待分类视图，并提取所述多个待分类视图中每个视图包含的人脸图像，得到多个人脸图像；

数据分类模块，配置为对所述多个人脸图像进行聚类，得到至少一个图像集合；其中，每个所述图像集合中的人脸图像对应同一人物，且每个所述图像集合中的每个人脸图像携带表征图像真伪的真伪检测结果。

在上述装置中，所述数据分类模块，具体配置为对所述多个人脸图像中每个人脸图像进行深度伪造检测，得到与所述多个人脸图像一一对应的多个真伪检测结果；对所述多个人脸图像中每个人脸图像进行特征提取，得到与所述多个人脸图像一一对应的多组人脸特征；利用所述多组人脸特征，将所述多个人脸图像中对应同一人物的人脸图像划分至同一集合中，并在划分的每个集合中，包含的每个人脸图像上携带多个真伪检测结果中对应的真伪检测结果，得到所述至少一个图像集合。

在上述装置中，所述数据分类模块，具体配置为将所述多组人脸特征中，不同人脸特征组之间进行相似度比较；将所述多个人脸图像中，对应人脸特征组之间相似度达到预设阈值的人脸图像划分至同一集合中。

在上述装置中，所述数据分类模块，还配置为获取与所述至少一个图像集合一一对应的至少一个类中心信息；对所述至少一个图像集合中每个图像集合，利用所述至少一个类中心信息中对应的类中心信息与预设人像库进行撞库，确定出对应的标签信息。

在上述装置中，所述数据分类模块，具体配置为针对所述至少一个图像集合中每个图像集合，获取包括的人脸图像的特定特征，确定为对应的类中心信息，得到所述至少一个类中心信息；或者，针对所述至少一个图像集合中每个图像集合，按照特定的规则，从包括的人脸图像中选取一个人脸图像，确定为对应的类中心信息，得到所述至少一个类中心信息。

在上述装置中，所述数据分类模块，具体配置为从所述预设人像库中，查找与第一类中心信息匹配的第一人脸图像；所述第一类中心信息为第一图像集合对应的类中心信息，所述第一图像集合为所述至少一个图像集合中任意一个图像集合；在查找到所述第一人脸图像的情况下，将所述预设人像库中所述第一人脸图像对应的身份信息，确定为所述第一图像集合对应的标签信息。

在上述装置中，所述数据分类模块，还配置为在未查找到所述第一人脸图像的情况下，确定所述第一图像集合对应的标签信息为匿名身份。

在上述装置中，所述数据分类模块，还配置为在所述至少一个图像集合的每个图像集合中，添加包含的每个人脸图像在所述多个待分类视图中所属的视图，得到至少一个视图集合。

在上述装置中，还包括发布人员档案库，所述发布人员档案库包括不同发布人员的身份信息和发布的视图，所述数据分类模块，还配置为从所述发布人员档案库中，查找所述至少一个视图集合中每个视图的发布人员的身份信息；将所述至少一个视图集合中，每个视图与对应的发布人员的身份信息关联。

本公开实施例提供了一种电子设备，包括：处理器、存储器和通信总线；其中，

所述通信总线，配置为实现所述处理器和所述存储器之间的连接通信；

所述处理器，配置为执行所述存储器中存储的一个或多个程序，以实现上述数据分类方法。

本公开实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可以被一个或者多个处理器执行，以实现上述数据分类方法。

本公开实施例提供了一种计算机程序产品，所述计算机程序产品包括计算机程序或指令，在所述计算机程序或指令在计算机上运行的情况下，使所述计算机执行上述数据分类方法。

本公开实施例提供了一种数据分类方法及装置、电子设备、存储介质和计算机程序产品，方法包括：获取多个待分类视图，并提取多个待分类视图中每个视图包含的人脸图像，得到多个人脸图像；对多个人脸图像进行聚类，得到至少一个图像集合；其中，每个图像集合中的人脸图像对应同一人物，且每个图像集合中的每个人脸图像携带表征图像真伪的真伪检测结果。本公开实施例提供的技术方案，将所有的图像和视频以不同的人物为维度进行分类，并且，在划分的每个集合包括的每个人脸图像携带了表征图像真伪的信息，从而提高了数据分类的智能性和效果。

附图说明

图1为本公开实施例提供的一种数据分类方法的流程示意图一；

图2为本公开实施例提供的一种数据分类方法的流程示意图二；

图3为本公开实施例提供的一种示例性的数据分类过程的示意图；

图4为本公开实施例提供的一种数据分类装置的结构示意图；

图5为本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述。

本公开实施例提供了一种数据分类方法，其执行主体可以是数据分类装置，例如，数据分类方法可以由终端设备或服务器或其它电子设备执行，其中，终端设备可以为用户设备(User Equipment，UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字处理(Personal Digital Assistant，PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中，数据分类方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

图1为本公开实施例提供的一种数据分类方法的流程示意图一。如图1所示，在本公开的实施例中，数据分类方法主要包括以下步骤：

S101、获取多个待分类视图，并提取多个待分类视图中每个视图包含的人脸图像，得到多个人脸图像。

在本公开的实施例中，数据分类装置可以获取多个待分类视图，从而提取每个待分类视图中包含的人脸图像，得到多个人脸图像。

需要说明的是，在本公开的实施例中，多个待分类视图可以是发布于各个互联网平台、社交媒体的图像和视频。具体的多个待分类视图的来源本公开实施例不作限定。

可以理解的是，在本公开的实施例中，数据分类装置可以对每个待分类视图进行人脸识别和提取，从而得到其中的人脸图像。此外，数据分类装置还可以从每个待分类视图中提取出时间戳等其它信息，本公开实施例不作限定。

S102、对多个人脸图像进行聚类，从而得到至少一个图像集合；其中，每个图像集合中的人脸图像对应同一人物，且每个图像集合中的每个人脸图像携带表征图像真伪的真伪检测结果。

在本公开的实施例中，数据分类装置在得到多个人脸图像之后，可以对多个人脸图像进行聚类，从而将对应同一人物的人脸图像划分至同一集合中，得到至少一个图像集合，并且，每个图像集合中的每个人脸图像携带表征图像真伪的真伪检测结果。

具体的，在本公开的实施例中，数据分类装置对多个人脸图像进行聚类，得到至少一个图像集合，包括：对多个人脸图像中每个人脸图像进行深度伪造检测，得到与多个人脸图像一一对应的多个真伪检测结果；对多个人脸图像中每个人脸图像进行特征提取，得到与多个人脸图像一一对应的多组人脸特征；利用多组人脸特征，将多个人脸图像中对应同一人物的人脸图像划分至同一集合中，并在划分的每个集合中，包含的每个人脸图像上携带多个真伪检测结果中对应的真伪检测结果，得到至少一个图像集合。

可以理解的是，在本公开的实施例中，数据分类装置可以采用特定的深度伪造检测算法对每个人脸图像进行深度伪造检测，从而得到每个人脸图像的真伪检测结果。对于任意一个人脸图像，如果真伪检测结果为伪造，即该人脸图像经过深度伪造，相应的，该人脸图像所属的待分类视图也就是伪造的，如果真伪结果为真实，即该人脸图像未经过深度伪造，相应的，该人脸图像所属的待分类视图也就是真实的。

需要说明的是，在本公开的实施例中，数据分类装置可以利用与多个人脸图像一一对应的多组人脸特征，将多个人脸图像中对应同一人物的人脸图像划分至同一图像集合中。数据分类装置可以利用特定的特征提取算法或模型，实现每个人脸图像中人脸特征的提取，从而通过比较人脸特征的相似度，确定不同人脸图像是否对应同一人物，以实现图像集合的划分，从而提高了数据分类的智能性。具体的，数据分类装置可以将多组人脸特征中，不同人脸特征组之间进行相似度比较；将多个人脸图像中，对应人脸特征组之间相似度达到预设阈值的人脸图像划分至同一集合中。此外，由于数据分类装置还获得了每个人脸图像的真伪检测结果，从而可以在划分的每个集合中，每个人脸图像上携带相应的真伪检测结果，即图像集合中实际上不仅仅包括人脸图像，还携带了人脸图像的真伪信息，用户在后续查看图像时可以直接获知图像的真伪情况，提高了数据分类的效果。

需要说明的是，在本公开的实施例中，数据分类装置还可以将不同人脸图像的真伪检测结果，与对应的人脸图像所属的待分类视图进行关联。

可以理解的是，在本公开的实施例中，由于数据分类装置对每个待分类视图关联了其包含的人脸图像的真伪检测结果，因此，用户在后续查看任意一个待分类视图，都可以直接获知该视图是否是真实的。

图2为本公开实施例提供的一种数据分类方法的流程示意图二。如图2所示，在本公开的实施例中，数据分类装置在对多个人脸图像进行聚类，得到至少一个图像集合，即执行步骤S102之后，还可以执行以下步骤：

S201、获取与至少一个图像集合一一对应的至少一个类中心信息。

在本公开的实施例中，数据分类装置可以获取与至少一个图像集合一一对应的至少一个类中心信息。

需要说明的是，在本公开的实施例中，数据分类装置获取与至少一个图像集合一一对应的至少一个类中心信息，具体可以是获取每个图像集合包括的人脸图像的特定特征，或者，按照特定的规则，从每个图像集合中选取一个人脸图像，从而作为对应的类中心信息。例如，可以从每个视图集合中选取清晰度最高的人脸图像，也可以从每个视图集合中选取一个正面的人脸图像，作为对应的类中心信息。具体的类中心信息可以根据实际需求和应用场景设定，本公开实施例不作限定。

S202、对至少一个图像集合中每个图像集合，利用至少一个类中心信息中对应的类中心信息与预设人像库进行撞库，确定出对应的标签信息。

在本公开的实施例中，至少一个图像集合实际上与至少一个人物一一对应，数据分类装置可以利用每个图像集合对应的类中心信息与预设人像库进行撞库，以确定对应的标签信息，即身份信息。

具体的，在本公开的实施例中，数据分类装置对至少一个图像集合中每个图像集合，利用从至少一个类中心信息中对应的类中心信息与预设人像库进行撞库，确定出对应的标签信息，包括：从预设人像库中，查找与第一类中心信息匹配的第二人脸图像；第一类中心信息为第一图像集合对应的类中心信息，第一图像集合为至少一个图像集合中任意一个图像集合；在查找到第一人脸图像的情况下，将预设人像库中第一人脸图像对应的身份信息，确定为第一图像集合对应的标签信息。

具体的，在本公开的实施例中，数据分类装置从预设人脸库中，查找与第一类中心信息匹配的第一人脸图像之后，还可以执行以下步骤：在未查找到第一人脸图像的情况下，确定第一图像集合对应的标签信息为匿名身份。

需要说明的是，在本公开的实施例中，预设人像库中存储有大量的人脸图像，以及每个人脸图像对应的身份信息。

示例性的，在本公开的实施例中，对于至少一个图像集合中任意一个图像集合，即第一图像集合，数据分类装置可以从中选取出的一张人脸图像，作为第一类中心信息，数据分类装置可以将选取出的人脸图像与预设人像库中包括的人脸图像一一比对，从而查找匹配的第一人脸图像。如果未查找到第一人脸图像，则表示预设人像库中未包含与第一人脸图像对应的人物的人脸图像，即无法获知第一图像集合中人脸图像对应人物的身份，因此，确定第一图像集合对应的标签信息为匿名身份，如果查找到第一人脸图像，即可以直接获取第一人脸图像对应的身份信息，并将该身份信息作为第一图像集合的标签信息。

可以理解的是，在本公开的实施例中，数据分类装置确定出每个图像集合对应的标签信息，在用户查看任一图像集合时，实际上根据标签信息就可以直接获知该图像集合包括的全部人脸图像对应的人物的具体身份。

在本公开的实施例中，数据分类装置在对多个人脸图像进行聚类，得到至少一个图像集合，即执行步骤S102之后，还可以执行以下步骤：在至少一个图像集合的每个图像集合中，添加包含的每个人脸图像在多个待分类视图中所属的视图，得到至少一个视图集合。

可以理解的是，在本公开的实施例中，数据分类装置在得到至少一个图像集合之后，即可将在每个图像集合中，添加该图像集合包含的每个人脸图像所属的视图，得到至少一个视图集合，实现多个待分类视图的分类。

可以理解的是，在本公开的实施例中，至少一个图像集合中包含的人脸图像，是从待分类视图中提取的，因此，数据分类装置针对于每个图像集合，可以将该集合中包括的人脸图像所属的待分类视图，一并放入该集合，从而得到一个视图集合，并且，对于至少一个视图集合，同一视图集合中的视图对应同一人物，不同视图集合中的视图对应不同人物。一个视图集合中，不仅包括一个人物的人脸图像，还包括包含该人物的其它视频和图像。

示例性的，在本公开的实施例中，至少一个图像集合中包括图像集合A，在图像集合A中包括人脸图像a1、人脸图像a2、人脸图像a3和人脸图像a4，数据分类装置即可在多个待分类视图中，将人脸图像a1所属的视图A1、人脸图像a2所属的视图A2、人脸图像a3所属的视图A3，以及人脸图像a4所属的视图A4，添加至图像集合A中，添加后的图像集合A则可以确定为视图集合A。

可以理解的是，在本公开的实施例中，多个待分类视图中，有的视图中可能包含多个人物，也就包含多个人脸，数据分类装置在至少一个图像集合的每个图像集合中，添加包含的每个人脸图像在多个待分类视图中所属的视图时，实际上包含多个人物的视图也就分别被添加到了视图中不同人脸图像所在的图像集合中。

在本公开的实施例中，还包括发布人员档案库，发布人员档案库包括不同发布人员的身份信息和发布的视图，数据分类装置在得到至少一个视图集合之后，还可以执行以下步骤：从发布人员档案库中，查找至少一个视图集合中每个视图的发布人员的身份信息；将至少一个视图集合中，每个视图与对应的发布人员的身份信息关联。

可以理解的是，在本公开的实施例中，数据分类装置可以从发布人员档案库中，查找出每个视频和图像对应的发布人员的身份信息，从而将其对应关联，这样，便于进行图像和视频的分析和溯源。

图3为本公开实施例提供的一种示例性的数据分类过程的示意图。如图3所示，数据分类装置可以先获取到多个待分类视图的情况下，首先，针对每个视图进行人脸识别，从而提取出人脸图像，并进一步进行深度伪造检测，之后，可以对每个人脸图像进行特征提取，从而利用人脸特征对人脸图像进行聚类，并在得到的每个集合中，包含的每个人脸图像携带图像对应的真伪检测结果，得到的至少一个图像集合，从而进一步在每个图像集合中，添加包含的每个人脸图像在多个待分类视图中所属的视图，得到至少一个视图集合，最后，从每个视图集合中选取一个人脸图像作为类中心信息，与预设人像库进行撞库，从而得到对应视图集合的标签信息。需要说明的是，数据分类装置也可以在得到至少一个图像集合的情况下，从每个图像结合中选取一个人脸图像作为类中心信息进行撞库，从而确定图像集合的标签信息，实际上每个图像集合，与基于该图像集合构建的视图集合的标签信息实际上相同。此外，数据分类装置可以从发布人员档案库中查找每个视图集合中包含的视频和图像各自对应的发布人员的身份信息并进行关联。对于视图集合中的视频和图像也可以关联其中人脸图像对应的真伪检测结果，以表征其是真实的还是伪造的。

本公开实施例提供了一种数据分类方法，包括：获取多个待分类视图，并提取多个待分类视图中每个视图包含的人脸图像，得到多个人脸图像；对多个人脸图像进行聚类，得到至少一个图像集合；其中，每个图像集合中的人脸图像对应同一人物，且每个图像集合中的每个人脸图像携带表征图像真伪的真伪检测结果。本公开实施例提供的数据分类方法，将所有的图像和视频以不同的人物为维度进行分类，并且，在划分的每个集合包括的每个人脸图像携带了表征图像真伪的信息，从而提高了数据分类的智能性和效果。

本公开实施例提供了一种数据分类装置。图4为本公开实施例提供的一种数据分类装置的结构示意图。如图4所示，在本公开的实施例中，数据分类装置包括：

数据处理模块401，配置为获取多个待分类视图，并提取所述多个待分类视图中每个视图包含的人脸图像，得到多个人脸图像；

数据分类模块402，配置为对所述多个人脸图像进行聚类，得到至少一个图像集合；其中，每个所述图像集合中的人脸图像对应同一人物，且每个所述图像集合中的每个人脸图像携带表征图像真伪的真伪检测结果。

在本公开一实施例中，所述数据分类模块402，具体配置为对所述多个人脸图像中每个人脸图像进行深度伪造检测，得到与所述多个人脸图像一一对应的多个真伪检测结果；对所述多个人脸图像中每个人脸图像进行特征提取，得到与所述多个人脸图像一一对应的多组人脸特征；利用所述多组人脸特征，将所述多个人脸图像中对应同一人物的人脸图像划分至同一集合中，并在划分的每个集合中，包含的每个人脸图像上携带多个真伪检测结果中对应的真伪检测结果，得到所述至少一个图像集合。

在本公开一实施例中，所述数据分类模块402，具体配置为将所述多组人脸特征中，不同人脸特征组之间进行相似度比较；将所述多个人脸图像中，对应人脸特征组之间相似度达到预设阈值的人脸图像划分至同一集合中。

在本公开一实施例中，所述数据分类模块402，还配置为获取与所述至少一个图像集合一一对应的至少一个类中心信息；对所述至少一个图像集合中每个图像集合，利用所述至少一个类中心信息中对应的类中心信息与预设人像库进行撞库，确定出对应的标签信息。

在本公开一实施例中，所述数据分类模块402，具体配置为针对所述至少一个图像集合中每个图像集合，获取包括的人脸图像的特定特征，确定为对应的类中心信息，得到所述至少一个类中心信息；或者，针对所述至少一个图像集合中每个图像集合，按照特定的规则，从包括的人脸图像中选取一个人脸图像，确定为对应的类中心信息，得到所述至少一个类中心信息。

在本公开一实施例中，所述数据分类模块402，具体配置为从所述预设人像库中，查找与第一类中心信息匹配的第二人脸图像；所述第一类中心信息为第一图像集合对应的类中心信息，所述第一图像集合为所述至少一个图像集合中任意一个图像集合；在查找到所述第一人脸图像的情况下，将所述预设人像库中所述第一人脸图像对应的身份信息，确定为所述第一图像集合对应的标签信息。

在本公开一实施例中，所述数据分类模块402，还配置为在未查找到所述第一人脸图像的情况下，确定所述第一图像集合对应的标签信息为匿名身份。

在本公开一实施例中，所述数据分类模块402，还配置为在所述至少一个图像集合的每个图像集合中，添加包含的每个人脸图像在所述多个待分类视图中所属的视图，得到至少一个视图集合。

在本公开一实施例中，还包括发布人员档案库，所述发布人员档案库包括不同发布人员的身份信息和发布的视图，所述数据分类模块402，还配置为从所述发布人员档案库中，查找所述至少一个视图集合中每个视图的发布人员的身份信息；将所述至少一个视图集合中，每个视图与对应的发布人员的身份信息关联。

本公开实施例提供了一种数据分类装置，获取多个待分类视图，并提取多个待分类视图中每个视图包含的人脸图像，得到多个人脸图像；对多个人脸图像进行聚类，得到至少一个图像集合；其中，每个图像集合中的人脸图像对应同一人物，且每个图像集合中的每个人脸图像携带表征图像真伪的真伪检测结果。本公开实施例提供的数据分类装置，将所有的图像和视频以不同的人物为维度进行分类，并且，在划分的每个集合包括的每个人脸图像携带了表征图像真伪的信息，从而提高了数据分类的智能性和效果。

本公开实施例提供了一种电子设备。图5为本公开实施例提供的一种电子设备的结构示意图。如图5所示，电子设备包括：处理器501、存储器502和通信总线503；其中，

所述通信总线503，配置为实现所述处理器501和所述存储器502之间的连接通信；

所述处理器501，配置为执行所述存储器502中存储的一个或多个程序，以实现上述数据分类方法。

本公开实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可以被一个或者多个处理器执行，以实现上述数据分类方法。计算机可读存储介质可以是是易失性存储器(volatile memory)，例如随机存取存储器(Random-Access Memory，RAM)；或者非易失性存储器(non-volatile memory)，例如只读存储器(Read-Only Memory，ROM)，快闪存储器(flash memory)，硬盘(Hard Disk Drive，HDD)或固态硬盘(Solid-State Drive，SSD)；也可以是包括上述存储器之一或任意组合的各自设备，如移动电话、计算机、平板设备、个人数字助理等。

本领域内的技术人员应明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程信号处理设备的处理器以产生一个机器，使得通过计算机或其他可编程信号处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程信号处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程信号处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅为本公开的较佳实施例而已，并非用于限定本公开的保护范围。

工业实用性

Claims

一种数据分类方法，所述方法包括：

获取多个待分类视图，并提取所述多个待分类视图中每个视图包含的人脸图像，得到多个人脸图像；

对所述多个人脸图像进行聚类，得到至少一个图像集合；其中，每个所述图像集合中的人脸图像对应同一人物，且每个所述图像集合中的每个人脸图像携带表征图像真伪的真伪检测结果。
根据权利要求1所述的方法，其中，所述对所述多个人脸图像进行聚类，得到至少一个图像集合，包括：

对所述多个人脸图像中每个人脸图像进行深度伪造检测，得到与所述多个人脸图像一一对应的多个真伪检测结果；

对所述多个人脸图像中每个人脸图像进行特征提取，得到与所述多个人脸图像一一对应的多组人脸特征；

利用所述多组人脸特征，将所述多个人脸图像中对应同一人物的人脸图像划分至同一集合中，并在划分的每个集合中，包含的每个人脸图像上携带所述多个真伪检测结果中对应的真伪检测结果，得到所述至少一个图像集合。
根据权利要求2所述的方法，其中，所述利用所述多组人脸特征，将所述多个人脸图像中对应同一人物的人脸图像划分至同一集合中，包括：

将所述多组人脸特征中，不同人脸特征组之间进行相似度比较；

将所述多个人脸图像中，对应人脸特征组之间相似度达到预设阈值的人脸图像划分至同一集合中。
根据权利要求1-3任一项所述的方法，其中，所述对所述多个人脸图像进行聚类，得到至少一个图像集合之后，所述方法还包括：

获取与所述至少一个图像集合一一对应的至少一个类中心信息；

对所述至少一个图像集合中每个图像集合，利用所述至少一个类中心信息中对应的类中心信息与预设人像库进行撞库，确定出对应的标签信息。
根据权利要求4所述的方法，其中，所述获取与所述至少一个图像集合一一对应的至少一个类中心信息，包括：

针对所述至少一个图像集合中每个图像集合，获取包括的人脸图像的特定特征，确定为对应的类中心信息，得到所述至少一个类中心信息；

或者，针对所述至少一个图像集合中每个图像集合，按照特定的规则，从包括的人脸图像中选取一个人脸图像，确定为对应的类中心信息，得到所述至少一个类中心信息。
根据权利要求4所述的方法，其中，所述对所述至少一个图像集合中每个图像集合，利用所述至少一个类中心信息中对应的类中心信息与预设人像库进行撞库，确定出对应的标签信息，包括：

从所述预设人像库中，查找与第一类中心信息匹配的第一人脸图像；所述第一类中心信息为第一图像集合对应的类中心信息，所述第一图像集合为所述至少一个图像集合中任意一个图像集合；

在查找到所述第一人脸图像的情况下，将所述预设人像库中所述第一人脸图像对应的身份信息，确定为所述第一图像集合对应的标签信息。
根据权利要求6所述的方法，其中，所述从所述预设人像库中，查找与第一类中心信息匹配的第一人脸图像之后，所述方法还包括：

在未查找到所述第一人脸图像的情况下，确定所述第一图像集合对应的标签信息为匿名身份。
根据权利要求1所述的方法，其中，所述对所述多个人脸图像进行聚类，得到至少一个图像集合之后，所述方法还包括：

在所述至少一个图像集合的每个图像集合中，添加包含的每个人脸图像在所述多个待分类视图中所属的视图，得到至少一个视图集合。
根据权利要求8所述的方法，其中，还包括发布人员档案库，所述发布人员档案库包括不同发布人员的身份信息和发布的视图，所述得到至少一个视图集合之后，所述方法还包括：

从所述发布人员档案库中，查找所述至少一个视图集合中每个视图的发布人员的身份信息；

将所述至少一个视图集合中，每个视图与对应的发布人员的身份信息关联。
一种数据分类装置，包括：

数据处理模块，配置为获取多个待分类视图，并提取所述多个待分类视图中每个视图包含的人脸图像，得到多个人脸图像；

数据分类模块，配置为对所述多个人脸图像进行聚类，得到至少一个图像集合；其中，每个所述图像集合中的人脸图像对应同一人物，且每个所述图像集合中的每个人脸图像携带表征图像真伪的真伪检测结果。
根据权利要求10所述的装置，其中，

所述数据分类模块，具体配置为对所述多个人脸图像中每个人脸图像进行深度伪造检测，得到与所述多个人脸图像一一对应的多个真伪检测结果；对所述多个人脸图像中每个人脸图像进行特征提取，得到与所述多个人脸图像一一对应的多组人脸特征；利用所述多组人脸特征，将所述多个人脸图像中对应同一人物的人脸图像划分至同一集合中，并在划分的每个集合中，包含的每个人脸图像上携带多个真伪检测结果中对应的真伪检测结果，得到所述至少一个图像集合。
根据权利要求11所述的装置，其中，

所述数据分类模块，具体配置为将所述多组人脸特征中，不同人脸特征组之间进行相似度比较；将所述多个人脸图像中，对应人脸特征组之间相似度达到预设阈值的人脸图像划分至同一集合中。
根据权利要求10-12任一项所述的装置，其中，

所述数据分类模块，还配置为获取与所述至少一个图像集合一一对应的至少一个类中心信息；对所述至少一个图像集合中每个图像集合，利用所述至少一个类中心信息中对应的类中心信息与预设人像库进行撞库，确定出对应的标签信息。
根据权利要求13所述的装置，其中，

所述数据分类模块，具体配置为从所述预设人像库中，查找与第一类中心信息匹配的第一人脸图像；所述第一类中心信息为第一图像集合对应的类中心信息，所述第一图像集合为所述至少一个图像集合中任意一个图像集合；在查找到所述第一人脸图像的情况下，将所述预设人像库中所述第一人脸图像对应的身份信息，确定为所述第一图像集合对应的标签信息。
根据权利要求14所述的装置，其中，

所述数据分类模块，还配置为在未查找到所述第一人脸图像的情况下，确定所述第一图像集合对应的标签信息为匿名身份。
根据权利要求10所述的装置，其中，

所述数据分类模块，还配置为在所述至少一个图像集合的每个图像集合中，添加包含的每个人脸图像在所述多个待分类视图中所属的视图，得到至少一个视图集合。
根据权利要求16所述的装置，其中，还包括发布人员档案库，所述发布人员档案库包括不同发布人员的身份信息和发布的视图，

所述数据分类模块，还配置为从所述发布人员档案库中，查找所述至少一个视图集合中每个视图的发布人员的身份信息；将所述至少一个视图集合中，每个视图与对应的发布人员的身份信息关联。
一种电子设备，包括：处理器、存储器和通信总线；其中，

所述通信总线，配置为实现所述处理器和所述存储器之间的连接通信；

所述处理器，配置为执行所述存储器中存储的一个或多个程序，以实现权利要求1-9任一项所述的数据分类方法。
一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可以被一个或者多个处理器执行，以实现权利要求1-9任一项所述的数据分类方法。
一种计算机程序产品，所述计算机程序产品包括计算机程序或指令，在所述计算机程序或指令在计算机上运行的情况下，使所述计算机执行权利要求1-9任一项所述的数据分类方法。