WO2020119053A1

WO2020119053A1 - 一种图片聚类方法、装置、存储介质及终端设备

Info

Publication number: WO2020119053A1
Application number: PCT/CN2019/091546
Authority: WO
Inventors: 蔡中印
Original assignee: 平安科技（深圳）有限公司
Priority date: 2018-12-11
Filing date: 2019-06-17
Publication date: 2020-06-18
Also published as: CN109815788A

Abstract

本申请涉及图像处理技术领域，尤其涉及一种图片聚类方法、装置、存储介质及终端设备。所述方法包括：对各图片进行人脸检测，以确定出各图片中的人脸图像，并对各人脸图像进行特征值提取，得到第一特征值；根据预设K-split分块聚类算法对第一特征值进行聚类，得到第一聚类结果；利用预设连通域确定方法确定第一聚类结果中各类簇之间的连通域；根据所确定的连通域对第一聚类结果中的各类簇进行合并，得到第二聚类结果；根据第二聚类结果对图片进行聚类。本申请中，通过分块聚类的方式进行特征值的聚类，可极大地降低计算复杂度，提高聚类速度和效率，通过预设连通域确定方式确定连通域，以根据连通域进行聚类结果之间的合并，可有效提高类间合并效率。

Description

一种图片聚类方法、装置、存储介质及终端设备

本申请要求于2018年12月11日提交中国专利局、申请号为201811508633.8 、发明名称为“一种图片聚类方法、装置、存储介质及终端设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请属于图像处理技术领域，尤其涉及一种图片聚类方法、装置、计算机可读存储介质及终端设备。

背景技术

在安防等人脸识别技术领域中，往往是在对图片、照片等进行聚类的基础上来实现人脸识别功能。其中，对图片、照片进行聚类，主要是指对图片、照片中的人脸进行聚类，即首先对图片、照片中的人脸进行特征提取，然后采用传统K均值（K-Means）聚类方法等来对所提取的特征进行聚类，以此实现图片聚类，而传统K-Means聚类方法则存在计算复杂度大、聚类速度慢、聚类效率低等问题。

综上，如何降低图片聚类中的计算复杂度、提高聚类速度和聚类效率成为本领域技术人员亟待解决的问题。

技术问题

本申请实施例提供了一种图片聚类方法、装置、计算机可读存储介质及终端设备，能够降低聚类过程中的计算复杂度，提高聚类速度和聚类效率。

技术解决方案

本申请实施例的第一方面，提供了一种图片聚类方法，包括：

对各图片进行人脸检测，以确定出各所述图片中的人脸图像，并对各所述人脸图像进行特征值提取，得到第一特征值；

根据预设K-split分块聚类算法对所述第一特征值进行聚类，得到第一聚类结果；

利用预设连通域确定方法确定所述第一聚类结果中各类簇之间的连通域；

根据所确定的连通域对所述第一聚类结果中的各类簇进行合并，得到第二聚类结果；

根据所述第二聚类结果对所述图片进行聚类。

本申请实施例的第二方面，提供了一种图片聚类装置，包括：

第一特征值提取模块，用于对各图片进行人脸检测，以确定出各所述图片中的人脸图像，并对各所述人脸图像进行特征值提取，得到第一特征值；

分块聚类模块，用于根据预设K-split分块聚类算法对所述第一特征值进行聚类，得到第一聚类结果；

连通域确定模块，用于利用预设连通域确定方法确定所述第一聚类结果中各类簇之间的连通域；

聚类合并模块，用于根据所确定的连通域对所述第一聚类结果中的各类簇进行合并，得到第二聚类结果；

图片聚类模块，用于根据所述第二聚类结果对所述图片进行聚类。

本申请实施例的第三方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如前述第一方面所述图片聚类方法的步骤。

本申请实施例的第四方面，提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现如下步骤：

根据所述第二聚类结果对所述图片进行聚类。

有益效果

本申请实施例中，在对各图片进行人脸检测，以确定出各所述图片中的人脸图像，并对各所述人脸图像进行特征值提取，得到第一特征值后，可根据预设K-split分块聚类算法对所述第一特征值进行聚类，得到第一聚类结果，并可利用预设连通域确定方法确定所述第一聚类结果中各类簇之间的连通域，以根据所确定的连通域对所述第一聚类结果中的各类簇进行合并，得到第二聚类结果，从而根据所述第二聚类结果对所述图片进行聚类。本申请实施例中，通过采用分块聚类的方式进行第一特征值的聚类，可极大地降低聚类过程中的计算复杂度，以提高聚类速度和聚类效率，另外，通过利用预设连通域确定方式确定连通域，以根据连通域进行第一聚类结果之间的合并，可有效提高类间合并效率，进一步提高了聚类速度、聚类效率以及聚类准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例中一种图片聚类方法的一个实施例流程图；

图2为本申请实施例中一种图片聚类方法在一个应用场景下得到第一聚类结果的流程示意图；

图3为本申请实施例中一种图片聚类方法在一个应用场景下确定分类组是否满足预设终止条件的流程示意图；

图4为本申请实施例中一种图片聚类方法在一个应用场景下确定连通域的流程示意图；

图5为本申请实施例中一种图片聚类方法在一个应用场景下进行离群点划分的流程示意图；

图6为本申请实施例中一种图片聚类装置的一个实施例结构图；

图7为本申请一实施例提供的一种终端设备的示意图。

本发明的实施方式

本申请实施例提供了一种图片聚类方法、装置、计算机可读存储介质及终端设备，用于降低聚类过程中的计算复杂度，提高聚类速度和聚类效率。

为使得本申请的发明目的、特征、优点能够更加的明显和易懂，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本申请一部分实施例，而非全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

请参阅图1，本申请实施例提供了一种图片聚类方法，所述图像聚类方法，包括：

步骤S101、对各图片进行人脸检测，以确定出各所述图片中的人脸图像，并对各所述人脸图像进行特征值提取，得到第一特征值；

本申请实施例中，在获取到需要分类的各图片后，可首先对各图片进行人脸识别，以检测出各图片中的人脸图像，随后可通过卷积神经网络CNN模型对各人脸图像进行特征值提取，得到第一特征值，如可通过CNN模型提取出各人脸图像的512维特征值。在此，在对各图片进行人脸识别时，还可以对各图片进行裁剪crop、特征点标注landmark、对齐alignment等操作。

步骤S102、根据预设K-split分块聚类算法对所述第一特征值进行聚类，得到第一聚类结果；

可以理解的是，在得到各图片所对应的第一特征值后，可根据预设K-split分块聚类算法对所述第一特征值进行聚类，得到第一聚类结果。其中，如图2所示，所述根据预设K-split分块聚类算法对所述第一特征值进行聚类，得到第一聚类结果，可以包括：

步骤S201、从所述第一特征值中抽取第一预设数量的第一特征值，并将所抽取的第一特征值确定为第二特征值；

可以理解的是，每一个第一特征值对应着一张待分类的图片，当存在N张待分类的图片时，则可对应提取到N个第一特征值。本申请实施例中，在提取到N个第一特征值后，可从这N个第一特征值中抽取第一预设数量的第一特征值，并可将所抽取的第一特征值确定为第二特征值，如从N个第一特征值中抽取K个第一特征值，其中，K小于N，所抽取的这K个第一特征值即可被确定为第二特征值。

优选地，本申请实施例中，在提取到各图片的第一特征值后，可首先计算各第一特征值之间的相似度，并可根据计算得到的相似度构建相似度矩阵，其中，相似度矩阵中（i，j）的值则表示第i个第一特征值与第j个第一特征值之间的相似度，而在进行第一特征值抽取时，则可根据所述相似度矩阵中的相似度值来进行抽取，如可抽取相似度值较低的一组中的K个第一特征值作为第二特征值，以确保第二特征值之间尽可能地拉开距离，从而提高聚类准确性。

步骤S202、计算未被抽取的第一特征值与各所述第二特征值之间的第一相似度或者欧式距离；

可以理解的是，在得到第一预设数量的第二特征值后，如在得到K个第二特征值后，可计算剩下的（N-K）个第一特征值分别与这K个第二特征值之间的第一相似度，或者可计算剩下的（N-K）个第一特征值分别与这K个第二特征值之间的欧式距离。在此，特征值之间的相似度和欧式距离的计算可以采用现有的常用计算方式，本申请实施例中，对相似度和欧式距离的计算方式不作任何限定。

步骤S203、根据所述第一相似度或者所述欧式距离，分别将未被抽取的第一特征值分类至对应的第二特征值中，得到所述第一预设数量的分类组；

在得到未被抽取的第一特征值与各第二特征值之间的第一相似度或者欧式距离后，则可根据第一相似度或者欧式距离来进行未被抽取的第一特征值的分类，即可根据未被抽取的第一特征值与各第二特征值之间的第一相似性或者欧式距离的大小，将未被抽取的第一特征值分类至对应的第二特征值中，如当确定未被抽取的第一特征值A与第二特征值F之间的相似度最大时，则可将第一特征值A分类至第二特征值F所在分类组中；又如当确定未被抽取的第一特征值B与第二特征值G之间的欧式距离最小时，则可将第一特征值B分类至第二特征值G所在分类组中，等等。

步骤S204、判断所述分类组是否满足预设终止条件；

步骤S205、若所述分类组满足所述预设终止条件，则将所述第一预设数量的分类组确定为所述第一聚类结果；

对于上述步骤S204和步骤S205，可以理解的是，在完成所有未被抽取的第一特征值的分类，得到第一预设数量的分类组后，可判断所述分类组是否满足预设终止条件，若满足的话，则可结束分类操作，并可将第一预设数量的分类组确定为上述的第一聚类结果。

在此，所述预设终止条件可根据具体情况进行设定，如可设定为某一分类组中特征值的数量小于预设数量，还可设定为分类组中特征值之间的平均相似度大于预设相似度，等等。

步骤S206、若所述分类组不满足所述预设终止条件，则分别对各所述分类组执行从所述第一特征值中抽取第一预设数量的第一特征值，并将所抽取的第一特征值确定为第二特征值的步骤以及后续步骤。

可以理解的是，若所述分类组不满足预设终止条件的话，则可分别对各所述分类组再次进行分类操作，即可在各所述分类组中迭代执行分类操作，也就是说，可在各所述分类组中重新抽取第一预设数量的第一特征值，作为第二特征值，并根据各所述分类组中未被抽取的第一特征值与各第二特征值之间的第一相似度或者欧式距离，来进行各所述分类组中特征值的重新分类，如可将K个分类组重新划分为（K*K）个新的分类组，然后可再继续判断新的分类组是否满足预设终止条件，若新的分类组满足预设终止条件的话，则可结束分类操作，并可将新的分类组确定为上述的第一聚类结果；若新的分类组仍不满足预设终止条件的话，则可分别对各新的分类组再次进行分类操作，直到满足预设终止条件为止。

本申请实施例中，在各所述分类组中所抽取的第一特征值可以是各所述分类组的中心点附近的第一特征值，如在抽取分类组c中的K个第一特征值时，可首先确定分类组c的中心点f，然后计算分类组c中各第一特征值所对应的点到中心点f之间的距离，并抽取距离最小的K个点所对应的第一特征值，作为第二特征值。

本申请实施例中，所述预设终止条件可优选为特征值之间的平均相似度大于第一预设相似度阈值，或者可优选为特征值之间的最小第二相似度大于第二预设相似度阈值，相应地，如图3所示，所述判断所述分类组是否满足预设终止条件，可以包括：

步骤S301、根据所述分类组中的第一特征值和第二特征值构建对应的第一特征矩阵和第二特征矩阵；

步骤S302、根据所述第一特征矩阵和所述第二特征矩阵计算得到所述分类组的第一平均特征矩阵；

步骤S303、分别计算所述分类组中的第一特征矩阵及第二特征矩阵与所述第一平均特征矩阵之间的第二相似度；

步骤S304、计算各所述第二相似度的平均相似度，或者获取所述第二相似度中的最小第二相似度；

步骤S305、当所述平均相似度大于第一预设相似度阈值，或者所述最小第二相似度大于第二预设相似度阈值时，确定所述分类组满足所述预设终止条件；

步骤S306、当所述平均相似度小于或者等于所述第一预设相似度阈值，或者所述最小第二相似度小于或者等于所述第二预设相似度阈值时，确定所述分类组不满足所述预设终止条件。

对于上述步骤S301和步骤S302，可以理解的是，在判断某一分类组是否满足预设终止条件时，可首先构建该分类组中各特征值对应的特征矩阵，即构建该分类组中的第一特征值所对应的第一特征矩阵和第二特征值所对应的第二特征矩阵，然后，可根据所构建的特征矩阵得到该分类组的第一平均特征矩阵。

在一个应用场景中，对于上述步骤S303至步骤S306，可以理解的是，当得到该分类组的第一平均特征矩阵后，则可计算该分类组中各特征值对应的特征矩阵与该第一平均特征矩阵之间的第二相似度，即可计算各第一特征矩阵、第二特征矩阵与所述第一平均特征矩阵之间的第二相似度，而在得到各第二相似度时，则可进一步判断各第二相似度中最小的第二相似度是否大于第二预设相似度阈值，若是的话，则可确定所述分类组满足所述预设终止条件；若否的话，则可确定所述分类组不满足所述预设终止条件，需对所述分类组继续执行分类操作。

在另一个应用场景中，对于上述步骤S303至步骤S306，可以理解的是，当得到该分类组的第一平均特征矩阵后，则可计算该分类组中各特征值对应的特征矩阵与该第一平均特征矩阵之间的第二相似度，即计算各第一特征矩阵、第二特征矩阵与所述第一平均特征矩阵之间的第二相似度，而在得到各第二相似度时，可进一步计算所有第二相似度的平均相似度，随后可判断所述平均相似度是否大于第一预设相似度阈值，若是的话，则可确定所述分类组满足所述预设终止条件；若否的话，则可确定所述分类组不满足所述预设终止条件，需对所述分类组继续执行分类操作。

步骤S103、利用预设连通域确定方法确定所述第一聚类结果中各类簇之间的连通域；

本申请实施例中，在得到预设K-split分块聚类算法聚类的第一聚类结果之后，可利用预设连通域确定方法确定出所述第一聚类结果中各类簇之间的连通域，以根据连通域进行类间合并。在此，类簇可为上述所述的分类组。

具体地，如图4所示，所述利用预设连通域确定方法确定所述第一聚类结果中各类簇之间的连通域，可以包括：

步骤S401、根据所述第一聚类结果中各类簇的各第一特征值分别构建与各类簇中各第一特征值对应的第三特征矩阵；

步骤S402、根据各类簇中各第一特征值对应的第三特征矩阵得到各类簇的第二平均特征矩阵；

步骤S403、分别计算各所述第二平均特征矩阵之间的第三相似度；

步骤S404、判断所述第三相似度是否大于第三预设相似度阈值；

步骤S405、若所述第三相似度大于所述第三预设相似度阈值，则将所述第三相似度对应的第一类簇和第二类簇标注为连通关系；

步骤S406、根据所述连通关系确定所述第一聚类结果中各类簇之间的连通域。

对于上述步骤S401至步骤S406，可以理解的是，连通域主要是根据类簇之间的相似性来确定，因而，本申请实施例中可先构建各类簇的特征值所对应的第三特征矩阵，然后根据第三特征矩阵得到第一聚类结果中各类簇的第二平均特征矩阵，并计算各第二平均特征矩阵之间的第三相似度，在此，计算各第二平均特征矩阵之间的第三相似度的计算公式可以为：

Similarity _i,j = MeanFeature _i * ( MeanFeature _j ) ^T;

其中， Similarity _i,j 为第i个第二平均特征矩阵与第j个第二平均特征矩阵之间的第三相似度， MeanFeature _i 为第i个第二平均特征矩阵， MeanFeature _j 为第j个第二平均特征矩阵，T为转置符号。

在得到第二平均特征矩阵之间的第三相似度后，可判断所述第三相似度是否大于第三预设相似度阈值，若所述第三相似度大于第三预设相似度阈值，则可将所述第三相似度涉及的两个类簇标注为连通关系，如可将第三相似度涉及的第一类簇和第二类簇标注为连通关系。在完成所有第三相似度的判断后，即在完成所有连通关系的标注后，可根据所标注的连通关系确定所述第一聚类结果中各类簇之间的连通域。如在某一具体应用场景中，根据第三相似度标注的连通关系有A_B、B_C、B_G、G_Z、G_H、H_I以及I_F时，则根据该连通关系可确定所述第一聚类结果中的某一连通域为A_B_C_F_G_H_I_Z。

步骤S104、根据所确定的连通域对所述第一聚类结果中的各类簇进行合并，得到第二聚类结果；

本申请实施例中，在得到所述第一聚类结果中各类簇之间的连通域后，则可根据所述连通域对所述第一聚类结果中的类簇进行合并，以得到第二聚类结果。如在某一具体应用中，第一聚类结果中所包括的类族有A、B、C、D、E、F、G、H、I、J、K、L、M、N、S以及Z，而所确定的连通域有A_B_C_F_G_H_I_Z和D_E_K时，则根据连通域A_B_C_F_G_H_I_Z可将类簇A、B、C、F、G、H、I以及Z合并为一个类簇，如合并至类簇A，同时根据连通域D_E_K可将类簇D、E及K合并为一个类簇，如合并至类簇E，以此得到第二聚类结果为类簇A、E、J、L、M、N及S。

需要说明的是，本申请实施例中，在根据所确定的连通域对所述第一聚类结果中的各类簇进行合并，以得到第二聚类结果后，还可以下调所述第三预设相似度阈值，并可对所述第二聚类结果中的各类簇再次执行上述的连通域确定步骤，以对所述第二聚类结果中的类簇进行重新合并，得到新的聚类结果，即本申请实施例中，可对类簇执行迭代合并操作，直到可合并的类簇占总类簇的比例很低为止，如当可合并的类簇占总类簇的比例小于百分之一、千分之一或者万分之一时，结束类间的合并操作，以得到最终的聚类结果。

优选地，本申请实施例中，所述将所述第三相似度对应的第一类簇和第二类簇标注为连通关系，可以包括：

步骤a、从所述第一类簇和所述第二类簇中分别抽取第二预设数量的第一特征值，并将所抽取的第一特征值所对应的第一目标图片发送至指定终端，以使得所述指定终端根据所述第一目标图片标注是否合并所述第一类簇和所述第二类簇，并返回相应的第一标注结果；

步骤b、接收所述指定终端返回的第一标注结果，并在确定所述第一标注结果为合并所述第一类簇和所述第二类簇时，将所述第一类簇和所述第二类簇标注为连通关系。

对于上述步骤a和步骤b，可以理解的是，为了提高类簇之间连通关系确定的准确性，提高类间合并的准确率，本申请实施例中，在确定可将第一类簇和第二类簇标注为连通关系时，可从所述第一类簇和所述第二类簇中分别抽取第二预设数量的第一特征值，如可抽取所述第一类簇与所述第二类簇中相似度较低的第一特征值，并可将所抽取的第一特征值对应的第一目标图片发送至指定终端，以使得所述指定终端根据所述第一目标图片判断所述第一类簇和所述第二类簇之间是否可合并，即判断所述第一类族对应的第一目标图片与所述第二类簇对应的第一目标图片是否为同一人，若是的话，则可确定所述第一类簇与所述第二类族之间可合并，并返回合并所述第一类簇和所述第二类簇的第一标注结果；若确定所述第一类族对应的第一目标图片与所述第二类簇对应的第一目标图片不是同一人的话，则可确定所述第一类簇与所述第二类族之间不可合并，并返回不可合并的第一标注结果，而本申请实施例中，只有在接收所述指定终端返回的合并所述第一类簇和所述第二类簇的第一标注结果时，才可将所述第一类簇和所述第二类簇标注为连通关系，即本申请实施例中，通过指定终端进一步进行连通关系的确定，来提高连通关系确定的准确性，进而提高类间合并的准确率。

需要说明的是，本申请实施例中，当所述第一标注结果为不可合并所述第一类簇和所述第二类簇时，也可进一步抽取出所述第一类簇与所述第二类簇中相似度较高的一个或者多个第一特征值，并可将所抽取的第一特征值对应的第二目标图片发送至所述指定终端，以使得所述指定终端再次确认是否确实不可合并所述第一类簇和所述第二类簇，若再次确认不可合并所述第一类簇和所述第二类簇的话，则确定所述第一类簇和所述第二类簇之间无连通关系。如在某一具体应用场景中，第一类簇中的第一特征值D与第二类簇中的第一特征值S的相似度最大，第一类簇中的第一特征值R与第二类簇中的第一特征值Q的相似度其次，则可抽取从第一类簇中抽取第一特征值D和第一特征值S，并可将第一特征值D对应的第二目标图片D和第一特征值S对应的第二目标图片S发送至所述指定终端，同时还可抽取第二类簇中的第一特征值R和第一特征值Q，并可将第一特征值R对应的第二目标图片R和第一特征值Q对应的第二目标图片Q发送至所述指定终端，以使得所述指定终端确定第二目标图片D、S与第二目标图片R、Q是否为同一人，以此确认是否可合并所述第一类簇和所述第二类簇，并返回对应的标注结果，以通过指定终端的再次确认来减少标注错误，提高类间合并的准确率。

可以理解的是，上述合并操作优选地适用于无底图的应用场景中，在有底图的应用场景中，可先为各底图预分配一个底图类簇，而为确保每一底图类族对应同一人，可在分配底图类簇后，计算各底图类簇之间的相似度，并根据底图类簇之间的相似度进行底图类簇之间的合并操作，其中，底图类簇之间的合并操作与上述所述的合并操作相似，原理相同。在该有底图的应用场景中，得到待分类图片对应特征值的第二聚类结果后，则可以根据第二聚类结果中的各类簇与底图类簇之间的相似性，将第二聚类结果中的各类簇合并至对应的底图类簇中。

在此，第二聚类结果中的各类簇与底图类簇之间的合并操作与上述所述的合并操作相似，即首先可抽取出第二聚类结果的各类簇中的一个或者多个第一特征值，并分别计算所抽取的各类簇的第一特征值与各底图对应的特征值之间的相似度，然后根据相似度确定第二聚类结果中各类簇所对应的底图类簇，并将各类簇划分至对应的底图类簇中。同样地，在确定了第二聚类结果中某一类簇所对应的底图类簇之后，并在将该类簇划分至该对应的底图类簇之前，可先从该类簇中抽取第三预设数量的第一特征值，并将所抽取的第一特征值对应的第三目标图片和该底图类簇对应的底图发送至所述指定终端，以使得所述指定终端根据所述第三目标图片和对应的底图来判断该类簇是否可合并至该底图类簇，以提高合并准确率。

进一步地，本申请实施例中，得到所述第二聚类结果之后，还可以根据所述第二聚类结果中各类簇的第一特征值计算得到所述第二聚类结果中各类簇的平均特征值和各类簇中相似度最小的两第一特征值之间的最小相似度pair min score，随之计算各第一特征值与对应类簇的平均特征值之间的点积值center score，在得到各类簇中的各center score后，可获取各类簇中的最小点积值center min score和平均点积值center avg score。

随后，可获取center avg score较小的预设数量的类簇，作为第三类簇，并可通过dbscan算法对所述第三类簇进行拆分，将拆分得到的多个拆分组中的第一特征值对应的第四目标图片发送至所述指定终端，以使得所述指定终端标注所述拆分组的合并情况，并返回相应的第二标注结果。接收所述指定终端返回的第二标注结果，并根据所述第二标注结果确定不可以合并至所述第三类簇的拆分组，并将不可合并至所述第三类簇的拆分组从所述第三类簇中分离出来，作为单独的类簇。另外，还可以根据pair min score和center min score继续执行上述的分离操作，直到分离出的拆分组占拆分得到的拆分组的比例满足预设比例值为止。

可选地，如图5所示，本申请实施例中，在根据所确定的连通域对所述第一聚类结果中的各类簇进行合并，得到第二聚类结果之后，还可以包括：

步骤S501、获取所述第二聚类结果中的离群点，并根据所述离群点的第一特征值构建所述离群点的离群特征矩阵；

步骤S502、确定所述第二聚类结果中各类簇的第三平均特征矩阵；

步骤S503、计算所述离群特征矩阵与各所述第三平均特征矩阵之间的第四相似度；

步骤S504、根据所述第四相似度，将所述离群点划分至所述第二聚类结果中对应的类簇中。

对于上述步骤S501至步骤S504，可以理解的是，在得到所述第二聚类结果后，可获取所述第二聚类结果中单独存在的离群点，即获取单独存在的第一特征值，其中，单独存在与否可根据类簇中第一特征值的数量进行确定，如可将数量小于3个、4个或者5个的类簇确定为单独存在的离群点，在此，单独存在的数量可根据实际情况进行具体确定。在获取到单独存在的第一特征值之后，可首先根据该单独存在的第一特征值构建离群特征矩阵，同时可根据所述第二聚类结果中各类簇的第一特征值确定第二聚类结果中各类簇的第三平均特征矩阵，随后可计算所述离群特征矩阵与第二聚类结果中各类簇的第三平均特征矩阵之间的第四相似度，以根据所述第四相似度，将所述离群点划分至所述第二聚类结果中对应的类簇中，如可将所述离群点划分至第四相似度最大的类簇中。

步骤S105、根据所述第二聚类结果对所述图片进行聚类。

可以理解的是，在得到最终的第二聚类结果后，则可根据所述第二聚类结果来完成待分类的图片的聚类。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

上面主要描述了一种图片聚类方法，下面将对一种图片聚类装置进行详细描述。

图6示出了本申请实施例中一种图片聚类装置的一个实施例结构图。如图6所示，所述图片聚类装置，包括：

第一特征值提取模块601，用于对各图片进行人脸检测，以确定出各所述图片中的人脸图像，并对各所述人脸图像进行特征值提取，得到第一特征值；

分块聚类模块602，用于根据预设K-split分块聚类算法对所述第一特征值进行聚类，得到第一聚类结果；

连通域确定模块603，用于利用预设连通域确定方法确定所述第一聚类结果中各类簇之间的连通域；

聚类合并模块604，用于根据所确定的连通域对所述第一聚类结果中的各类簇进行合并，得到第二聚类结果；

图片聚类模块605，用于根据所述第二聚类结果对所述图片进行聚类。

进一步地，所述分块聚类模块602，包括：

第一特征值抽取单元，用于从所述第一特征值中抽取第一预设数量的第一特征值，并将所抽取的第一特征值确定为第二特征值；

第一特征值计算单元，用于计算未被抽取的第一特征值与各所述第二特征值之间的第一相似度或者欧式距离；

第一特征值分类单元，用于根据所述第一相似度或者所述欧式距离，分别将未被抽取的第一特征值分类至对应的第二特征值中，得到所述第一预设数量的分类组；

分类组判断单元，用于判断所述分类组是否满足预设终止条件；

第一聚类结果确定单元，用于若所述分类组满足所述预设终止条件，则将所述第一预设数量的分类组确定为所述第一聚类结果；

迭代执行单元，用于若所述分类组不满足所述预设终止条件，则分别对各所述分类组执行从所述第一特征值中抽取第一预设数量的第一特征值，并将所抽取的第一特征值确定为第二特征值的步骤以及后续步骤。

优选地，所述分类组判断单元，包括：

特征矩阵构建子单元，用于根据所述分类组中的第一特征值和第二特征值构建对应的第一特征矩阵和第二特征矩阵；

第一平均特征矩阵计算子单元，用于根据所述第一特征矩阵和所述第二特征矩阵计算得到所述第一分类组的第一平均特征矩阵；

第二相似度计算单元，用于分别计算所述分类组中的第一特征矩阵及第二特征矩阵与所述第一平均特征矩阵之间的第二相似度；

平均相似度计算单元，用于计算各所述第二相似度的平均相似度，或者获取所述第二相似度中的最小第二相似度；

第一终止条件确定单元，用于若所述平均相似度大于所述第一预设相似度阈值，或者所述最小第二相似度大于所述第二预设相似度阈值，则确定所述分类组满足所述预设终止条件；

第二终止条件确定单元，用于若所述平均相似度小于或者等于所述第一预设相似度阈值，或者所述最小第二相似度小于或者等于所述第二预设相似度阈值，则确定所述分类组不满足所述预设终止条件。

可选地，所述连通域确定模块603，包括：

第三特征矩阵构建单元，用于根据所述第一聚类结果中各类簇的各第一特征值分别构建与各类簇中各第一特征值对应的第三特征矩阵；

第二平均特征矩阵获取单元，用于根据各类簇中各第一特征值对应的第三特征矩阵得到各类簇的第二平均特征矩阵；

第三相似度计算单元，用于分别计算各所述第二平均特征矩阵之间的第三相似度；

第三相似度判断单元，用于判断所述第三相似度是否大于第三预设相似度阈值；

连通关系标注单元，用于若所述第三相似度大于所述预设第三相似度阈值，则将所述第三相似度对应的第一类簇和第二类簇标注为连通关系；

连通域确定单元，用于根据所述连通关系确定所述第一聚类结果中各类簇之间的连通域。

进一步地，所述计算各所述第二平均特征矩阵之间的第三相似度的计算公式为：

Similarity _i,j = MeanFeature _i * ( MeanFeature _j ) ^T;

优选地，所述连通关系标注单元，包括：

图片发送子单元，用于从所述第一类簇和所述第二类簇中分别抽取第二预设数量的第一特征值，并将所抽取的第一特征值所对应的第一目标图片发送至指定终端，以使得所述指定终端根据所述第一目标图片标注是否合并所述第一类簇和所述第二类簇，并返回相应的第一标注结果；

连通关系标注子单元，用于接收所述指定终端返回的第一标注结果，并在确定所述第一标注结果为合并所述第一类簇和所述第二类簇时，将所述第一类簇和所述第二类簇标注为连通关系。

可选地，所述图片聚类装置，还包括：

离群点获取单元，用于获取所述第二聚类结果中的离群点，并根据所述离群点的第一特征值构建所述离群点的离群特征矩阵；

第三平均特征矩阵确定单元，用于确定所述第二聚类结果中各类簇的第三平均特征矩阵；

第四相似度计算单元，用于计算所述离群特征矩阵与各所述第三平均特征矩阵之间的第四相似度；

离群点划分单元，用于根据所述第四相似度，将所述离群点划分至所述第二聚类结果中对应的类簇中。

图7是本申请一实施例提供的终端设备的示意图。如图7所示，该实施例的终端设备7包括：处理器70、存储器71以及存储在所述存储器71中并可在所述处理器70上运行的计算机可读指令72，例如图片聚类程序。所述处理器70执行所述计算机可读指令72时实现上述各个图片聚类方法实施例中的步骤，例如图1所示的步骤S101至步骤S105。或者，所述处理器70执行所述计算机可读指令72时实现上述各装置实施例中各模块/单元的功能，例如图6所示的模块601至模块605的功能。

示例性的，所述计算机可读指令72可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器71中，并由所述处理器70执行，以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段，该指令段用于描述所述计算机可读指令72在所述终端设备6中的执行过程。

所述终端设备7可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括，但不仅限于，处理器70、存储器71。本领域技术人员可以理解，图7仅仅是终端设备7的示例，并不构成对终端设备7的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。

所述处理器70可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor，DSP)、专用集成电路 (Application Specific Integrated Circuit，ASIC)、现成可编程门阵列 (Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器71可以是所述终端设备7的内部存储单元，例如终端设备7的硬盘或内存。所述存储器71也可以是所述终端设备7的外部存储设备，例如所述终端设备7上配备的插接式硬盘，智能存储卡（Smart Media Card, SMC），安全数字（Secure Digital, SD）卡，闪存卡（Flash Card）等。进一步地，所述存储器71还可以既包括所述终端设备6的内部存储单元也包括外部存储设备。所述存储器71用于存储所述计算机可读指令以及所述终端设备所需的其他程序和数据。所述存储器71还可以用于暂时地存储已经输出或者将要输出的数据。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

一种图片聚类方法，其特征在于，包括：

对各图片进行人脸检测，以确定出各所述图片中的人脸图像，并对各所述人脸图像进行特征值提取，得到第一特征值；

根据预设K-split分块聚类算法对所述第一特征值进行聚类，得到第一聚类结果；

利用预设连通域确定方法确定所述第一聚类结果中各类簇之间的连通域；

根据所确定的连通域对所述第一聚类结果中的各类簇进行合并，得到第二聚类结果；

根据所述第二聚类结果对所述图片进行聚类。
根据权利要求1所述的图片聚类方法，其特征在于，所述根据预设K-split分块聚类算法对所述第一特征值进行聚类，得到第一聚类结果，包括：

从所述第一特征值中抽取第一预设数量的第一特征值，并将所抽取的第一特征值确定为第二特征值；

计算未被抽取的第一特征值与各所述第二特征值之间的第一相似度或者欧式距离；

根据所述第一相似度或者所述欧式距离，分别将未被抽取的第一特征值分类至对应的第二特征值中，得到所述第一预设数量的分类组；

判断所述分类组是否满足预设终止条件；

若所述分类组满足所述预设终止条件，则将所述第一预设数量的分类组确定为所述第一聚类结果；

若所述分类组不满足所述预设终止条件，则分别对各所述分类组执行从所述第一特征值中抽取第一预设数量的第一特征值，并将所抽取的第一特征值确定为第二特征值的步骤以及后续步骤。
根据权利要求2所述的图片聚类方法，其特征在于，所述判断所述分类组是否满足预设终止条件，包括：

根据所述分类组中的第一特征值和第二特征值构建对应的第一特征矩阵和第二特征矩阵；

根据所述第一特征矩阵和所述第二特征矩阵计算得到所述分类组的第一平均特征矩阵；

分别计算所述分类组中的第一特征矩阵及第二特征矩阵与所述第一平均特征矩阵之间的第二相似度；

计算各所述第二相似度的平均相似度，或者获取所述第二相似度中的最小第二相似度；

当所述平均相似度大于第一预设相似度阈值，或者所述最小第二相似度大于第二预设相似度阈值时，确定所述分类组满足所述预设终止条件；

当所述平均相似度小于或者等于所述第一预设相似度阈值，或者所述最小第二相似度小于或者等于所述第二预设相似度阈值，确定所述分类组不满足所述预设终止条件。
根据权利要求1所述的图片聚类方法，其特征在于，所述利用预设连通域确定方法确定所述第一聚类结果中各类簇之间的连通域，包括：

根据所述第一聚类结果中各类簇的各第一特征值分别构建与各类簇中各第一特征值对应的第三特征矩阵；

根据各类簇中各第一特征值对应的第三特征矩阵得到各类簇的第二平均特征矩阵；

分别计算各所述第二平均特征矩阵之间的第三相似度；

判断所述第三相似度是否大于第三预设相似度阈值；

若所述第三相似度大于所述预设第三相似度阈值，则将所述第三相似度对应的第一类簇和第二类簇标注为连通关系；

根据所述连通关系确定所述第一聚类结果中各类簇之间的连通域。
根据权利要求4所述的图片聚类方法，其特征在于，所述计算各所述第二平均特征矩阵之间的第三相似度的计算公式为：

Similarity _i,j = MeanFeature _i * ( MeanFeature _j ) ^T;

其中， Similarity _i,j 为第i个第二平均特征矩阵与第j个第二平均特征矩阵之间的第三相似度， MeanFeature _i 为第i个第二平均特征矩阵， MeanFeature _j 为第j个第二平均特征矩阵，T为转置符号。
根据权利要求4所述的图片聚类方法，其特征在于，所述将所述第三相似度对应的第一类簇和第二类簇标注为连通关系，包括：

从所述第一类簇和所述第二类簇中分别抽取第二预设数量的第一特征值，并将所抽取的第一特征值所对应的第一目标图片发送至指定终端，以使得所述指定终端根据所述第一目标图片标注是否合并所述第一类簇和所述第二类簇，并返回相应的第一标注结果；

接收所述指定终端返回的第一标注结果，并在确定所述第一标注结果为合并所述第一类簇和所述第二类簇时，将所述第一类簇和所述第二类簇标注为连通关系。
根据权利要求1至6中任一项所述的图片聚类方法，其特征在于，在根据所确定的连通域对所述第一聚类结果中的各类簇进行合并，得到第二聚类结果之后，还包括：

获取所述第二聚类结果中的离群点，并根据所述离群点的第一特征值构建所述离群点的离群特征矩阵；

确定所述第二聚类结果中各类簇的第三平均特征矩阵；

计算所述离群特征矩阵与各所述第三平均特征矩阵之间的第四相似度；

根据所述第四相似度，将所述离群点划分至所述第二聚类结果中对应的类簇。
一种图片聚类装置，其特征在于，包括：

第一特征值提取模块，用于对各图片进行人脸检测，以确定出各所述图片中的人脸图像，并对各所述人脸图像进行特征值提取，得到第一特征值；

分块聚类模块，用于根据预设K-split分块聚类算法对所述第一特征值进行聚类，得到第一聚类结果；

连通域确定模块，用于利用预设连通域确定方法确定所述第一聚类结果中各类簇之间的连通域；

聚类合并模块，用于根据所确定的连通域对所述第一聚类结果中的各类簇进行合并，得到第二聚类结果；

图片聚类模块，用于根据所述第二聚类结果对所述图片进行聚类。
根据权利要求8所述的图片聚类装置，其特征在于，所述分块聚类模块，包括：

第一特征值抽取单元，用于从所述第一特征值中抽取第一预设数量的第一特征值，并将所抽取的第一特征值确定为第二特征值；

第一特征值计算单元，用于计算未被抽取的第一特征值与各所述第二特征值之间的第一相似度或者欧式距离；

第一特征值分类单元，用于根据所述第一相似度或者所述欧式距离，分别将未被抽取的第一特征值分类至对应的第二特征值中，得到所述第一预设数量的分类组；

分类组判断单元，用于判断所述分类组是否满足预设终止条件；

第一聚类结果确定单元，用于若所述分类组满足所述预设终止条件，则将所述第一预设数量的分类组确定为所述第一聚类结果；

迭代执行单元，用于若所述分类组不满足所述预设终止条件，则分别对各所述分类组执行从所述第一特征值中抽取第一预设数量的第一特征值，并将所抽取的第一特征值确定为第二特征值的步骤以及后续步骤。
根据权利要求9所述的图片聚类装置，其特征在于，所述分类组判断单元，包括：

特征矩阵构建子单元，用于根据所述分类组中的第一特征值和第二特征值构建对应的第一特征矩阵和第二特征矩阵；

第一平均特征矩阵计算子单元，用于根据所述第一特征矩阵和所述第二特征矩阵计算得到所述第一分类组的第一平均特征矩阵；

第二相似度计算单元，用于分别计算所述分类组中的第一特征矩阵及第二特征矩阵与所述第一平均特征矩阵之间的第二相似度；

平均相似度计算单元，用于计算各所述第二相似度的平均相似度，或者获取所述第二相似度中的最小第二相似度；

第一终止条件确定单元，用于若所述平均相似度大于所述第一预设相似度阈值，或者所述最小第二相似度大于所述第二预设相似度阈值，则确定所述分类组满足所述预设终止条件；

第二终止条件确定单元，用于若所述平均相似度小于或者等于所述第一预设相似度阈值，或者所述最小第二相似度小于或者等于所述第二预设相似度阈值，则确定所述分类组不满足所述预设终止条件。
根据权利要求8所述的图片聚类装置，其特征在于，所述连通域确定模块，包括：

第三特征矩阵构建单元，用于根据所述第一聚类结果中各类簇的各第一特征值分别构建与各类簇中各第一特征值对应的第三特征矩阵；

第二平均特征矩阵获取单元，用于根据各类簇中各第一特征值对应的第三特征矩阵得到各类簇的第二平均特征矩阵；

第三相似度计算单元，用于分别计算各所述第二平均特征矩阵之间的第三相似度；

第三相似度判断单元，用于判断所述第三相似度是否大于第三预设相似度阈值；

连通关系标注单元，用于若所述第三相似度大于所述预设第三相似度阈值，则将所述第三相似度对应的第一类簇和第二类簇标注为连通关系；

连通域确定单元，用于根据所述连通关系确定所述第一聚类结果中各类簇之间的连通域。
根据权利要求11所述的图片聚类装置，其特征在于，所述连通关系标注单元，包括：

图片发送子单元，用于从所述第一类簇和所述第二类簇中分别抽取第二预设数量的第一特征值，并将所抽取的第一特征值所对应的第一目标图片发送至指定终端，以使得所述指定终端根据所述第一目标图片标注是否合并所述第一类簇和所述第二类簇，并返回相应的第一标注结果；

连通关系标注子单元，用于接收所述指定终端返回的第一标注结果，并在确定所述第一标注结果为合并所述第一类簇和所述第二类簇时，将所述第一类簇和所述第二类簇标注为连通关系。
一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，其特征在于，所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述图片聚类方法的步骤。
一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，其特征在于，所述处理器执行所述计算机可读指令时实现如下步骤：

对各图片进行人脸检测，以确定出各所述图片中的人脸图像，并对各所述人脸图像进行特征值提取，得到第一特征值；

根据预设K-split分块聚类算法对所述第一特征值进行聚类，得到第一聚类结果；

利用预设连通域确定方法确定所述第一聚类结果中各类簇之间的连通域；

根据所确定的连通域对所述第一聚类结果中的各类簇进行合并，得到第二聚类结果；

根据所述第二聚类结果对所述图片进行聚类。
根据权利要求14所述的终端设备，其特征在于，所述根据预设K-split分块聚类算法对所述第一特征值进行聚类，得到第一聚类结果，包括：

从所述第一特征值中抽取第一预设数量的第一特征值，并将所抽取的第一特征值确定为第二特征值；

计算未被抽取的第一特征值与各所述第二特征值之间的第一相似度或者欧式距离；

根据所述第一相似度或者所述欧式距离，分别将未被抽取的第一特征值分类至对应的第二特征值中，得到所述第一预设数量的分类组；

判断所述分类组是否满足预设终止条件；

若所述分类组满足所述预设终止条件，则将所述第一预设数量的分类组确定为所述第一聚类结果；

若所述分类组不满足所述预设终止条件，则分别对各所述分类组执行从所述第一特征值中抽取第一预设数量的第一特征值，并将所抽取的第一特征值确定为第二特征值的步骤以及后续步骤。
根据权利要求15所述的终端设备，其特征在于，所述判断所述分类组是否满足预设终止条件，包括：

根据所述分类组中的第一特征值和第二特征值构建对应的第一特征矩阵和第二特征矩阵；

根据所述第一特征矩阵和所述第二特征矩阵计算得到所述分类组的第一平均特征矩阵；

分别计算所述分类组中的第一特征矩阵及第二特征矩阵与所述第一平均特征矩阵之间的第二相似度；

计算各所述第二相似度的平均相似度，或者获取所述第二相似度中的最小第二相似度；

当所述平均相似度大于第一预设相似度阈值，或者所述最小第二相似度大于第二预设相似度阈值时，确定所述分类组满足所述预设终止条件；

当所述平均相似度小于或者等于所述第一预设相似度阈值，或者所述最小第二相似度小于或者等于所述第二预设相似度阈值，确定所述分类组不满足所述预设终止条件。
根据权利要求14所述的终端设备，其特征在于，所述利用预设连通域确定方法确定所述第一聚类结果中各类簇之间的连通域，包括：

根据所述第一聚类结果中各类簇的各第一特征值分别构建与各类簇中各第一特征值对应的第三特征矩阵；

根据各类簇中各第一特征值对应的第三特征矩阵得到各类簇的第二平均特征矩阵；

分别计算各所述第二平均特征矩阵之间的第三相似度；

判断所述第三相似度是否大于第三预设相似度阈值；

若所述第三相似度大于所述预设第三相似度阈值，则将所述第三相似度对应的第一类簇和第二类簇标注为连通关系；

根据所述连通关系确定所述第一聚类结果中各类簇之间的连通域。
根据权利要求17所述的终端设备，其特征在于，所述计算各所述第二平均特征矩阵之间的第三相似度的计算公式为：

Similarity _i,j = MeanFeature _i * ( MeanFeature _j ) ^T;

其中， Similarity _i,j 为第i个第二平均特征矩阵与第j个第二平均特征矩阵之间的第三相似度， MeanFeature _i 为第i个第二平均特征矩阵， MeanFeature _j 为第j个第二平均特征矩阵，T为转置符号。
根据权利要求17所述的终端设备，其特征在于，所述将所述第三相似度对应的第一类簇和第二类簇标注为连通关系，包括：

从所述第一类簇和所述第二类簇中分别抽取第二预设数量的第一特征值，并将所抽取的第一特征值所对应的第一目标图片发送至指定终端，以使得所述指定终端根据所述第一目标图片标注是否合并所述第一类簇和所述第二类簇，并返回相应的第一标注结果；

接收所述指定终端返回的第一标注结果，并在确定所述第一标注结果为合并所述第一类簇和所述第二类簇时，将所述第一类簇和所述第二类簇标注为连通关系。
根据权利要求14至19中任一项所述的终端设备，其特征在于，在根据所确定的连通域对所述第一聚类结果中的各类簇进行合并，得到第二聚类结果之后，还包括：

获取所述第二聚类结果中的离群点，并根据所述离群点的第一特征值构建所述离群点的离群特征矩阵；

确定所述第二聚类结果中各类簇的第三平均特征矩阵；

计算所述离群特征矩阵与各所述第三平均特征矩阵之间的第四相似度；

根据所述第四相似度，将所述离群点划分至所述第二聚类结果中对应的类簇。