WO2015135276A1

WO2015135276A1 - 聚类方法及相关装置

Info

Publication number: WO2015135276A1
Application number: PCT/CN2014/082876
Authority: WO
Inventors: 陈志军; 张涛; 张波; 王琳
Original assignee: 小米科技有限责任公司
Priority date: 2014-03-14
Filing date: 2014-07-24
Publication date: 2015-09-17
Also published as: EP2919165A3; RU2628167C2; JP6101399B2; MX358804B; EP2919165B1; JP2016516251A; CN103914518A; KR20150117202A; CN103914518B; EP2919165A2; RU2015129676A; MX2014010879A

Abstract

一种聚类方法及相关装置，所述聚类方法在利用类间的Rank-Order距离对符合条件的类进行合并，从而减少类的数量；然后，利用类内各个对象之间的距离计算类内聚合度，将类内对象间的距离小于所述类内聚合度的对象拆分成新的类，直到所有的类都拆分完。然后，将拆分后的类重新进行迭代合并和拆分，直到各个类无法再拆分，确定出包含多个对象的聚类及包含单个对象的类，从而实现将聚类过程中相异性比较大的对象剔除掉，提高聚类结果的准确率。尤其，当数据集中的对象比较多，但属于同一类的对象比较少时，聚类结果的准确率比较高。

Description

聚类方法及相关装置本申请基于申请号为 201410097422. 5、申请日为 2014年 3月 14日的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此引入本申请作为参考。技术领域

本公开涉及计算机技术领域，特别是涉及一种聚类方法及相关装置。背景技术

聚类是将物理或抽象对象的集合分成由类似的对象组成的多个类的过程，即将对象分类到不同的类（簇）的过程，同一个类中的对象有很大的相似性，不同类间的对象有很大的相异性。下文使用 "类" 的概念，需要说明的是，本文中 "类" 与 "簇" 的含义相同。例如，聚类方法用于人脸图片的分类时，将属于同一个人的图片分为一类，相关的聚类方法采用 Rank-Order距离度量两张人脸之间的相似性，能够将同一个人的图片聚集在一起。但是，当一推图片中包含的人脸数量比较多，且每个人的图片比较少时，此种聚类方法的聚类结果准确率非常低。发明内容

为克服相关技术中存在的问题，本公开提供一种聚类方法及相关装置，以提高聚类结果准确率。为了解决上述技术问题，本公开实施例公开了如下技术方案：根据本公开实施例的第一方面，提供一种聚类方法，包括：根据类间的 Rank-Order 距离，进行类的迭代合并；利用类内各个对象间的距离获得迭代合并后的类对应的类内聚合度；针对迭代合并得到的每个类，将类内对象间的距离小于所述类内聚合度的对象划分成一个新的类，并更新类的数量；当更新后的类的数量比更新前的类的数量少时，返回执行根据类间的 Rank-Order距离进行类的迭代合并的步骤，直到更新前后的类的数量不变时，得到聚类结果，所述聚类结果包括包含多个对象的类和包含单个对象的类。结合第一方面，在第一方面的第一种可能的实现方式中，所述利用类内各个对象间的距离获得迭代合并后的类对应的类内聚合度，采用如下方式：获取类内各个对象间的距离；根据所述类内对象间的距离，计算所述类内的各个对象间距离的距离平均值，得到所述类的类内聚合度。结合第一方面，在第一方面的第二种可能的实现方式中，所述利用类内各个对象间的距离获得迭代合并后的类对应的类内聚合度，采用如下方式：获取类内各个对象间的距离；根据所述类内对象间的距离，计算所述类内的各个对象间距离的距离平均值；将所述距离平均值进行归一化，得到所述类的类内聚合度。结合第一方面的第一种实现方式或第一方面的第二种实现方式，在第一方面的第三种实现方式中，所述针对迭代合并得到的每个类，将类内对象间的距离小于所述类内聚合度的对象划分成一个新类，更新类的数量，采用如下方式：将所述类内对象间的距离小于所述类内聚合度对象进行连通标记；根据所述连通标记确定所述类内的连通分量；根据所述连通分量将所述类拆分成新类，并更新类的数量。结合第一方面，在第一方面的第四种可能的实现方式中，所述根据类间的 Rank-Order距离，进行类的迭代合并，采用如下方式：获取类间 Rank-Order 距离，以及获取类间 Rank-Order 归一化距离；当类间的 Rank-Order距离小于距离阈值，且所述类间的 Rank-Order归一化距离小于 1时，合并所述类；当合并后的类的数量小于合并前的类的数量时，执行获取合并后的类间 Rank-Order距离，以及类间 Rank-Order归一化距离的步骤。根据本公开实施例的第二方面，提供一种聚类装置，包括：迭代合并单元，用于根据类间的 Rank-Order距离，进行类的迭代合并；获取单元，用于利用类内各个对象间的距离获得迭代合并后的类对应的类内聚合度；划分单元，用于针对迭代合并得到的每个类，将类内对象间的距离小于所述类内聚合度的对象划分成一个新的类，并更新类的数量；判断单元，用于当更新后的类的数量比更新前的类的数量少时，控制所述迭代合并单元执行根据类间的 Rank-Order距离进行类的迭代合并，直到更新前后的类的数量不变时，得到聚类结果，所述聚类结果包括包含多个对象的类和包含单个对象的类。结合第二方面，在第二方面的第一种可能的实现方式中，所述获取单元包括：第一获取子单元，用于获取类内各个对象间的距离；第一计算子单元，用于计算所述类的各个对象间的距离的平均值，得到所述类内聚合度。结合第二方面，在第二方面的第二种可能的实现方式中，所述获取单元包括：第二获取子单元，用于获取类内各个对象间的距离；第二计算子单元，用于根据所述类内对象间的距离，计算所述类内的各个对象间距离的距离平均值；归一化子单元，将所述距离平均值进行归一化，得到所述类的类内聚合度。结合第二方面的第一种可能的实现方式或第二方面的第二种可能的实现方式，在第二方面的第三种可能的实现方式中，所述划分单元包括：第一判断子单元，用于判断所述类内对象间的距离是否小于所述类内聚合度；标记子单元，用于当所述类内对象间的距离小于所述类内聚合度时，将所述类内对象间的距离对应的对象进行连通标记；确定子单元，用于根据所述连通标记确定所述类内的连通分量；拆分子单元，用于根据所述连通分量将所述类拆分成新类，并更新类的数量。结合第二方面，在第二方面的第四种可能的实现方式中，所述迭代合并单元包括：第三获取子单元，用于获取类间 Rank-Order距离，以及获取类间 Rank-Order归一化距离；合并子单元，用于当类间的 Rank-Order 距离小于距离阈值，且所述类间 Rank-Order归一化距离小于 1时，合并所述类；第二判断子单元，用于当合并后的类的数量小于合并前的类的数量时，控制所述第三获取子单元执行获取更新后的类间 Rank-Order距离，以及类间 Rank-Order归一化距离的步骤。根据本公开实施例的第二方面，提供一种终端设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为：根据类间的 Rank-Order 距离，进行类的迭代合并；利用类内各个对象间的距离获得迭代合并后的类对应的类内聚合度；针对迭代合并得到的每个类，将类内对象间的距离小于所述类内聚合度的内对象划分成一个新的类，并更新类的数量；当更新后的类的数量比更新前的类的数量少时，返回执行根据类间的 Rank-Order距离进行类的迭代合并的步骤，直到更新前后的类的数量不变时，得到聚类结果，所述聚类结果包括包含多个对象的类和包含单个对象的类。本公开的实施例提供的技术方案可以包括以下有益效果：所述聚类方法在利用类间的 Rank-Order距离对符合条件的类进行合并，从而减少类的数量；然后，利用类内各个对象之间的距离计算类内聚合度，将类内对象间的距离小于所述类内聚合度的对象拆分成新的类，直到所有的类都拆分完。然后，将拆分后的类重新进行迭代合并和拆分，直到各个类无法再拆分，确定出包含多个对象的聚类及包含单个对象的类，从而实现将聚类过程中相异性比较大的对象剔除掉，提高聚类结果的准确率。尤其，当数据集中的对象比较多，但属于同一类的对象比较少时，聚类结果的准确率比较高。应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。图 1是多个对象的序列排序示意图；图 2根据一示例性实施例示出的一种聚类方法的流程图；图 3是图 2中步骤 S 110的一种示例性实施例的流程图；图 4是图 2中步骤 S 110的另一种示例性实施例的流程图；图 5是图 2中步骤 S120的一种示例性实施例的流程图；图 6是图 2中步骤 S130的一种示例性实施例的流程图；图 7是是根据一示例性实施例示出的一种聚类装置的框图；图 8是根据一示例性实施例示出的一种终端设备的框图；图 9是根据一示例性实施例示出的一种服务器的框图。通过上述附图，已示出本公开明确的实施例，后文中将有更详细的描述。这些附图并不是为了通过任何方式限制本公开构思的范围，而是通过参考特定实施例为本领域技术人员说明本公开的概念。具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。在对本公开的示例性实施例进行说明之前，首先介绍 Rank-Order距离的相关知识，计算对象间的距离（例如，余弦相似度、欧式距离等），按照距离的大小将各个对象进行重新排序，得到一个序列。假设有 n个对象，分别为 ^、 i₂、 i₃、 i₄、 i₅、 i₆…… i_n，以对象 ^为基准对象，计算其它各个对象与对象 ^之间的距离，并按距离的大小进行排序，得到图 1所示的序列 ο_{ι ;} 以对象 i₂为基准对象，计算其它各个对象与基准对象1₂之间的距离，得到图 1所示的序列 0₂。根据序列中对象 ^和1₂之间的邻居对象在序列 0₂中的序号计算，对象 i^Pi₂之间的非对称 Rank-Order距离 D (^， i₂)，具体根据图 1的示例，对象 ^、 i₃、 i₄、 1₂在0₂中的序号分别为 5、 2、 4、 0，则根据公式 1计算 D (i^ i₂)_: θ!(ί₂)

D ( i_{, i₂) = ^0₂(f₁(X)) = 0₂(i₁) + 0₂(i₃) + 0₂(i₄) + 0₂(i₂) =5+2+4+0=11 (1) x=0 公式 1 中， O iJ表示对象^在序列 0₂中的序号， 0₂Ci₃)表示对象1₃在序列 0₂中的序号， 0₂(i₄)表示对象1₄在序列 0₂中的序号， 0₂(i₂)表示对象1₂在序列 0₂中的序号。同理计算得到对象 i^Pi₂之间的非对称 Rank-Order距离 D (i₂，然后，根据公式 2计算得到对象 i^Pi₂之间归一化之后的 Rank-Order距离 D¹¹^^):

_DR_(i · _{) =} D^+D^ ₍₂₎

所述 D^H)表示归一化后的对象间的 Rank-Order距离，类间的 Rank-Order距离与对象间的 Rank-Order距离算法相同，一个类为基准类然后按照类间距离对各个类进行重新排序，类间距离如公式（3) 所示： d(C_i,C_j) = mind(a,b)Vae C_i,b C_i (3) 公式（3) 中 C^PCj表示类。类间 Rank-Order距离的计算公式如公式（4) 所示：

公式（4) 中 D(Ci,Cj)表示类与类 Cj之间的非对称 Rank-Order距离， D(Cj,Ci)表示类 Cj与类之间的非对称 Rank-Order距离； Oc^Cj)表示以 ^为基准类的序列中类 Cj 的序号， O_e.(Ci)表示以类^为基准类的序列中类 ^的序号。根据类间距离 D^R(Ci,Cj)计算得到类间归一化 Rank-Order距离 D^N(Ci,Cj)，其中，类间归一化距离的计算公式如公式（5) 所示：

1 κ

∑ -∑d(a,f_a(k)) (5)

Ci|+ C laeQUCj ^Kk=l 公式（5) 中， c Ci,Cj)表示类和类 Cj之间的距离， | |和 Cj表示类内的对象水数， K是常数， f_a(k)表示对象 a第 k个邻居对象， ^Ci,Cj)表示两个类中距离它们的最近的 K个对象之间的平均距离。假设对象是人脸图像，本公开提供的所述聚类方法能够将属于同一个人的图像聚集在一起形成一个聚类。将人脸图像中的特征转换成一组向量，因此，对象间的距离即向量之间的距离。当然，本公开提供的聚类方法也可以应用于其它的数据。图 2是根据一示例性实施例示出的一种聚类方法的流程图，如图 1所示，聚类方法应用于终端中，可以包括以下步骤：在步骤 S110中，根据类间的 Rank-Order距离，进行类的迭代合并。计算两两类之间的 Rank-Order距离，将 Rank-Order距离小于第一距离阈值的类进行合并。所述第一距离阈值可以根据数据类型确定，还可以根据试验结果确定。如图 3所示，步骤 S110可以包括以下步骤：在步骤 S111 中，获取类间 Rank-Order距离，以及获取类间 Rank-Order归一化距离。假设初始的人脸图像的数目是 N，将每一个人脸图像作为一个单独的类，则初始的类的数量为 N个，并设定距离阈值 t和常数 K。针对任意的类 C^PCj, 根据上述的公式 (1) 〜 (5)，计算得到类间 Rank-Order 距离 D^R(Ci,Cj)和类间归一化 Rank-Order 距离 D^N(Ci,Cj；)。初始类的数量为 N，则最后得到一个 NXN的 D^R(Ci,Cj;)矩阵和一个 NXN的 D^N(Ci,Cj)矩阵，其中， D^R(Ci,Cj)矩阵中每个向量表示对应的类之间的 Rank-Order距离，例如，矩阵中的 Cg表示类 C^PCj间的 Rank-Order距离， D^N(Ci,Cj)矩阵中的向量 C^表示类和 Cj间的 Rank-Order归一化距离。在步骤 S112中，当类间的 Rank-Order距离小于距离阈值，且所述类间的 Rank-Order 归一化距离小于 1时，合并所述类。从 D^R(Ci,Cj)矩阵中选出小于距离阈值 t的 D^R(Ci,Cj)，以及从 D^N(Ci,Cj)矩阵中选出小于 1的1) ,^；)。当1^( ,^)<^，且1^( ,^)<1时，确定类 C^PCj相似性较大能够，即类 C^PCj为候选合并类，然后合并全部的候选合并类。当1^( ,^)^ 表明类 C^PCj相似性较小；当1) ,^)^1时，表明类间离散度较大。在步骤 S120 中，利用类内各个对象间的距离计算迭代合并后的类对应的类内聚合度。在本公开的一个实施例中，如图 4所示，步骤 S120可以包括以下步骤：在步骤 S121 中，获取类内各个对象间的距离。所述对象间的距离可以是余弦相似度、欧式距离或杰卡德距离等。需要说明的是，本公开中采用余弦相似度 cose计算对象间的距离时，将对象间的距离定义为 i-c_0Se，即对象间的距离越小，对象的相似性越大。在步骤 S122中，计算所述类内各个对象间距离的距离平均值，得到所述类的类内聚合度。假设类内的对象为 n个，根据计算得到的类内任意两个对象之间的距离，得到 nXn 的距离矩阵 d，矩阵中每个点表明对应的两个对象间的距离，例如矩阵 d中的向量 ^表示类内的第 i个对象和第 j个对象之间的距离。此步骤即计算矩阵 d中各个向量的平均

在本公开的另一个实施例中，如图 5所示，步骤 S120可以包括以下步骤：在步骤 S123中，获取类内各个对象间的距离。在步骤 S124 中，根据所述类内对象间的距离计算所述类内的各个对象间距离的距离平均值。在步骤 S125中，将所述距离平均值进行归一化，得到所述类的类内聚合度。将距离平均值将 d_aver 进行归一化，就是将 d_aver 归纳到一个范围中 [dlef t， dright] , dleft和 dri ght是阈值，例如， dl eft可以是 0. 6， dright可以是 0. 75。例如，归一化公式如公式（6 ) 所示： dleft, d_aver< dleft

d_aver= dright, d_aver> dright (6) d_aver, dleft < d aver < dright 例如，当计算得到距离平均值为 0. 5时，归一化后得到的类内聚合度为 0. 6 ; 当距离平均值为 0. 65时，归一化后得到的类内聚合度为 0. 65 ; 当距离平均值为 0. 78时，归一化后得到的类内聚合度为 0. 75。本公开实施例中，采用（1-余弦相似度）来度量类内聚合度，因此类内聚合度越小表明类内的对象越聚集、相似性越大，因此，将类内聚合度归一化到一个区间内，例如，

[0. 6, 0. 75]；当类内聚合度在归一化的区间内时，根据类内聚合度对类内的对象进行划分，当类内聚合度不在归一化的区间内时，根据该区间的阈值对类内的对象进行划分，从而实现将类内聚合度数值较大的类（即，类内离散度较大的类）能够适当地划分成多个类，这样，能够避免将类内聚合度较小的类划分过多的类。在步骤 S130 中，针对迭代合并得到的每个类，将类内对象间的距离小于所述类内聚合度的对象划分成一个新的类，并更新类的数量。对于根据 Rank-Order 距离迭代合并后的每个类，根据类内对象间的距离及类内聚合度，对每个类进行划分，得到新的类，至此完成一次迭代，然后执行步骤 S140。在本公开的一个实施例中，如图 6所示，步骤 S130可以包括以下步骤：在步骤 S131中，将类内对象间的距离小于所述类内聚合度的对象进行连通标记。对于类内的任一对象，査询所述类内对象距离矩阵内该对象与类内的其它对象间的距离是否小于所述类内聚合度，如果类内对象间的距离小于所述类内聚合度，表明对象间的相似性较大，可以划分到同一个类中。此时，可以将所述距离对应的两个对象作连通标记，例如，两个人脸图像间的距离小于类内聚合度时，将第 i个对象和第 j个对象连通。当所述类内对象间的距离大于所述类内聚合度时，表明对象间的相似性较小，不适合划分到同一个类中，不作任何标记。在步骤 S132中，根据所述连通标记确定所述类内的连通分量。将能够连通的对象作为一个连通分量，从而判断类内的全部对象能够划分成几个连通分量。在步骤 S133中，根据所述连通分量将所述类拆分成新类，并更新类的数量。将每个连通分量对应的对象划分到一个新的类中，也就是一个类中包含几个连通分量，就将此大类划分成几个新的类，并相应的增加类的数量。通过划分连通分量能够实现将一个聚类中不属于该类的对象划分出来，即从聚类中剔除离群对象。在步骤 S140 中，判断更新后的类的数量是否小于更新前的类的数量。如果是，返回执行步骤 S1 10 ; 否则，进入步骤 S150。当更新后的类的数量比更新前类的数量少时，返回执行步骤 S1 10，根据类间的 Rank-Order距离进行类的迭代合并的步骤，直到更新前后的类的数量不变。对类进行基于 Rank-Order 距离合并，然后进行划分新类作为一次迭代，假设合并前类的数量为 6个，基于 Rank-Order距离合并后变为 4个类，再对合并后的 4个类进行拆分最终得到 5个类，则更新后类的数量是 5个，更新前类的数量是 6个，更新后的数量小于更新前的数量，返回继续执行迭代。如果更新后的类的数量小于更新前类的数量，表明类内离散度较大，即类内的对象聚集不够紧密，可能存在离群对象，需要通过继续对拆分后的类进行迭代合并，以及划分类，直到更新后的类的数量不大于更新前的类的数量。当更新前后的类的数量相等时，在步骤 S150 中，得到聚类结果，所述聚类结果包括包含多个对象的类和包含单个对象的类。更新后的类的数量等于更新前的类的数量时，表明类内没有可剔除的离群点。最终得到的聚类结果是包含多个对象的类，以及包含单个对象的类。包含多个对象的类内的多个对象是同一人的人脸图像。只包含单个对象的类，是从利用 Rank-Order距离进行迭代合并后的类中剔除的离群的对象。本实施例提供的聚类方法，在利用 Rank-Order 距离合并类之后，又利用类内对象间距离（例如 1-余弦相似度、欧式距离等）度量两个对象的相似性，将相似性较小（相异性较大）的对象从所述类中剔除（作为新的类），相当于剔除类中的噪声点，从而提高了聚类准确率。尤其，当数据集中的对象比较多，但属于同一类的对象比较少时，聚类结果的准确率比较高。下面以具体的试验数据说明本公开的聚类方法的显著效果，如表 1所示: 表 1

表 1中， P表示聚类结果的准确率， R表示聚类结果中的召回率， CR表示聚类结果中每个类平均拥有的人脸图像数量。从表 1中的结果可以看出，情景 1中所有的图像中共包含的人脸数量是 2291，而所有的图像中包含 562个不同的人，则平均每个人对应 4. 07个人脸图像，即所有图像中平均有 4. 07个人脸图像属于同一个人，相关的仅用 Rank-Order距离聚类的聚类结果中，准确率是 86. 1%。而采用本公开的聚类方法得到的聚类准确率为 99. 1%，远远高于仅用 Rank-Order距离聚类的准确率。情景 2和情景 3中，采用本公开的聚类方法的准确率也都高于仅用 Rank-Order距离聚类的准确率。相应于上述的聚类方法实施例，本公开提供了聚类装置。图 7是根据一示例性实施例示出的一种聚类装置示意图。请参照图 7，该装置包括迭代合并单元 100、获取单元 200、划分单元 300和判断单元 400 迭代合并单元 100被配置为根据类间的 Rank-Order距离，进行类的迭代合并。在本公开的一个实施例中，迭代合并单元 100可以包括第三获取子单元和合并子单元；所述第三获取子单元被配置为获取类间 Rank-Order距离，以及获取类间 Rank-Order 归一化距离。所述合并子单元被配置为当类间的 Rank-Order 距离小于距离阈值，且所述类间 Rank-Order归一化距离小于 1时，分别合并符合条件的类。获取单元 200被配置为利用类内各个对象间的距离获得迭代合并后的类对应的类内聚合度。在本公开的一个实施例中，所述获取单元 200可以包括第一获取子单元和第一计算子单元；所述第一获取子单元被配置为获取类内各个对象间的距离。所述第一计算子单元被配置为计算所述类的各个对象间的距离的平均值，得到所述类内聚合度。在本公开的另一个实施例中，所述获取单元 200可以包括第二获取子单元、第二计算子单元和归一化子单元；所述第二获取子单元被配置为获取类内各个对象间的距离。所述第二获取子单元和所述第一获取子单元的功能及实现方式相同。所述第二计算子单元被配置为根据所述类内对象间的距离，计算所述类内的各个对象间距离的距离平均值。归一化子单元被配置为将所述距离平均值进行归一化，得到所述类的类内聚合度。划分单元 300被配置为针对迭代合并得到的每个类，将类内对象间的距离小于所述类内聚合度的对象划分成一个新的类，并更新类的数量。在本公开的一个实施例中，所述划分单元可以包括第一判断子单元、标记子单元、确定子单元和拆分子单元。所述第一判断子单元被配置为判断所述类内对象间的距离是否小于所述类内聚合度。所述标记子单元被配置为将类内对象间的距离小于所述类内聚合度的对象进行连通标所述确定子单元被配置为根据所述连通标记确定所述类内的连通分量。所述拆分子单元被配置为根据所述连通分量将所述类拆分成新类，并更新类的数量。判断单元 400被配置为判断更新后的类的数量是否比更新前的类的数量少；当更新后的类的数量比更新前的类的数量少时，所述迭代合并单元执行根据类间的 Rank-Order 距离进行类的迭代合并，直到更新前后类的数量不变时，得到聚类结果，所述聚类结果包括包含多个对象的类和包含单个对象的类。本实施例提供的聚类装置，由迭代合并单元依据类间的 Rank-Order距离对符合条件的类进行合并，从而减少类的数量；再利用获取单元根据类内各个对象之间的距离计算类内聚合度；然后，由拆分单元将类内对象间的距离小于所述类内聚合度的对象拆分成新的类，直到所有的类都拆分完。再由判断单元将拆分后的类重新进行迭代合并和拆分，直到各个类无法再拆分得到包含多个对象的聚类及包含单个对象的类，从而实现将聚类过程中相异性比较大的对象剔除掉，提高聚类结果的准确率。尤其，当数据集中的对象比较多，但属于同一类的对象比较少时，聚类结果的准确率比较高。关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。图 8是根据一示例性实施例示出的一种用于聚类的终端设备 800的框图。例如，终端设备 800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。参照图 8，终端设备 800可以包括以下一个或多个组件：处理组件 802，存储器 804，电源组件 806，多媒体组件 808，音频组件 810，输入 /输出（I/ O) 的接口 812，传感器组件 814，以及通信组件 816。处理组件 802通常控制终端设备 800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件 802可以包括一个或多个处理器 820 来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件 802可以包括一个或多个模块，便于处理组件 802和其他组件之间的交互。例如，处理组件 802可以包括多媒体模块，以方便多媒体组件 808和处理组件 802之间的交互。存储器 804被配置为存储各种类型的数据以支持在设备 800的操作。这些数据的示例包括用于在终端设备 800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器 804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器（SRAM ) , 电可擦除可编程只读存储器 ( EEPR0M) , 可擦除可编程只读存储器（EPR0M) , 可编程只读存储器（PR0M)，只读存储器（ROM) , 磁存储器，快闪存储器，磁盘或光盘。电源组件 806为终端设备 800的各种组件提供电力。电源组件 806可以包括电源管理系统，一个或多个电源，及其他与为终端设备 800生成、管理和分配电力相关联的组件。多媒体组件 808包括在所述终端设备 800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器（LCD ) 和触摸面板（TP )。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件 808包括一个前置摄像头和 /或后置摄像头。当设备 800处于操作模式，如拍摄模式或视频模式时，前置摄像头和 /或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。音频组件 810被配置为输出和 /或输入音频信号。例如，音频组件 810包括一个麦克风（MIC)，当终端设备 800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器 804 或经由通信组件 816发送。在一些实施例中，音频组件 810还包括一个扬声器，用于输出音频信号。

I/ O接口 812为处理组件 802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。传感器组件 814包括一个或多个传感器，用于为终端设备 800提供各个方面的状态评估。例如，传感器组件 814可以检测到设备 800的打开 /关闭状态，组件的相对定位，例如所述组件为终端设备 800的显示器和小键盘，传感器组件 814还可以检测终端设备 800或终端设备 800—个组件的位置改变，用户与终端设备 800接触的存在或不存在，终端设备 800方位或加速 /减速和终端设备 800的温度变化。传感器组件 814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件 814 还可以包括光传感器，如 CMOS或 CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件 814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。通信组件 816被配置为便于终端设备 800和其他设备之间有线或无线方式的通信。终端设备 800可以接入基于通信标准的无线网络，如 WiFi， 2G、 3G或 4G，或它们的组合。在一个示例性实施例中，通信部件 816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件 816还包括近场通信 ( NFC) 模块，以促进短程通信。例如，在 NFC模块可基于射频识别（RFID) 技术，红外数据协会（IrDA) 技术，超宽带（UWB) 技术，蓝牙（BT) 技术和其他技术来实现。在示例性实施例中，终端设备 800 可以被一个或多个应用专用集成电路（ASIC)、数字信号处理器（DSP)、数字信号处理设备（DSPD)、可编程逻辑器件（PLD)、现场可编程门阵列（FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器 804，上述指令可由终端设备 800的处理器 820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是 R0M、随机存取存储器（RAM)、 CD-ROM, 磁带、软盘和光数据存储设备等。一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行一种聚类方法，所述方法包括：根据类间的 Rank-Order 距离，进行类的迭代合并；利用类内各个对象间的距离获得迭代合并后的类对应的类内聚合度；针对迭代合并得到的每个类，将类内对象间的距离小于所述类内聚合度的对象划分成一个新的类，并更新类的数量；当更新后的类的数量比更新前的类的数量少时，返回执行根据类间的 Rank-Order距离进行类的迭代合并的步骤，直到更新前后的类的数量不变时，得到聚类结果，所述聚类结果包括包含多个对象的类和包含单个对象的类。可选地，所述利用类内各个对象间的距离获得迭代合并后的类对应的类内聚合度，采用如下方式：获取类内各个对象间的距离；根据所述类内对象间的距离计算所述类内的各个对象间距离的距离平均值，得到所述类的类内聚合度。可选地，所述利用类内各个对象间的距离获得迭代合并后的类对应的类内聚合度，采用如下方式：获取类内各个对象间的距离；根据所述类内对象间的距离计算所述类内的各个对象间距离的距离平均值；将所述距离平均值进行归一化，得到所述类的类内聚合度。可选地，所述针对迭代合并得到的每个类，将类内对象间的距离小于所述类内聚合度的对象划分成一个新类，更新类的数量，采用如下方式：将类内对象间的距离小于所述类内聚合度的对象进行连通标记；根据所述连通标记确定所述类内的连通分量；根据所述连通分量将所述类拆分成新类，并更新类的数量。可选地，所述根据类间的 Rank-Order距离，进行类的迭代合并，采用如下方式：获取类间 Rank-Order 距离，以及获取类间 Rank-Order 归一化距离；当类间的 Rank-Order距离小于距离阈值，且所述类间的 Rank-Order归一化距离小于 1时，合并所述类。图 9是本发明实施例中服务器的结构示意图。例如，该服务器 1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器（central processing units , CPU) 1922 (例如，一个或一个以上处理器）和存储器 1932，一个或一个以上存储应用程序 1942或数据 1944的存储介质 1930 (例如一个或一个以上海量存储设备）。其中，存储器 1932和存储介质 1930可以是短暂存储或持久存储。存储在存储介质 1930 的程序可以包括一个或一个以上模块（图示没标出），每个模块可以包括对终端设备中的一系列指令操作。更进一步地，中央处理器 1922可以设置为与存储介质 1930通信，在服务器 1900上执行存储介质 1930中的一系列指令操作。服务器 1900还可以包括一个或一个以上电源 1926，一个或一个以上有线或无线网络接口 1950，一个或一个以上输入输出接口 1958，一个或一个以上键盘 1956，和 /或，一个或一个以上操作系统 1941，例如 Windows ServerTM, Mac OS XTM, UnixTM, LinuxTM, FreeBSDTM等等。在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如存储器 1932或存储介质 1930，上述指令可由终端设备的处理器 1922执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是 ROM、随机存取存储器（RAM)、CD-R0M、磁带、软盘和光数据存储设备等。一种非临时性计算机可读存储介质，当所述存储介质中的指令由终端设备的处理器执行时，使得终端设备能够执行一种聚类方法，所述方法包括：根据类间的 Rank-Order 距离，进行类的迭代合并；利用类内各个对象间的距离获得迭代合并后的类对应的类内聚合度；针对迭代合并得到的每个类，将类内对象间的距离小于所述类内聚合度的对象划分成一个新的类，并更新类的数量；当更新后的类的数量比更新前的类的数量少时，返回执行根据类间的 Rank-Order距离进行类的迭代合并的步骤，直到更新前后的类的数量不变时，得到聚类结果，所述聚类结果包括包含多个对象的类和包含单个对象的类。可选地，所述利用类内各个对象间的距离获得迭代合并后的类对应的类内聚合度，采用如下方式：获取类内各个对象间的距离；根据所述类内对象间的距离计算所述类内的各个对象间距离的距离平均值，得到所述类的类内聚合度。可选地，所述利用类内各个对象间的距离获得迭代合并后的类对应的类内聚合度，采用如下方式：获取类内各个对象间的距离；根据所述类内对象间的距离计算所述类内的各个对象间距离的距离平均值；将所述距离平均值进行归一化，得到所述类的类内聚合度。可选地，所述针对迭代合并得到的每个类，将类内对象间的距离小于所述类内聚合度的对象划分成一个新类，更新类的数量，采用如下方式：将类内对象间的距离小于所述类内聚合度的对象进行连通标记；根据所述连通标记确定所述类内的连通分量；根据所述连通分量将所述类拆分成新类，并更新类的数量。可选地，所述根据类间的 Rank-Order距离，进行类的迭代合并，采用如下方式：获取类间 Rank-Order 距离，以及获取类间 Rank-Order 归一化距离；当类间的 Rank-Order距离小于距离阈值，且所述类间的 Rank-Order归一化距离小于 1时，合并所述类。应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。需要说明的是，在本文中，诸如 "第一"和 "第二" 等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语 "包括" 、 "包含" 或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句 "包括一个…… 限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

权利要求

1、一种聚类方法，其特征在于，包括：

根据类间的 Rank-Order距离，进行类的迭代合并；

利用类内各个对象间的距离获得迭代合并后的类对应的类内聚合度；

针对迭代合并得到的每个类，将类内对象间的距离小于所述类内聚合度的对象划分成一个新的类，并更新类的数量；

当更新后的类的数量比更新前的类的数量少时，返回执行根据类间的 Rank-Order距离进行类的迭代合并的步骤，直到更新前后的类的数量不变时，得到聚类结果，所述聚类结果包括包含多个对象的类和包含单个对象的类。

2、根据权利要求 1所述的方法，其特征在于，所述利用类内各个对象间的距离获得迭代合并后的类对应的类内聚合度，采用如下方式：

获取类内各个对象间的距离；

根据所述类内对象间的距离计算所述类内的各个对象间距离的距离平均值，得到所述类的类内聚合度。

3、根据权利要求 1所述的方法，其特征在于，所述利用类内各个对象间的距离获得迭代合并后的类对应的类内聚合度，采用如下方式：

获取类内各个对象间的距离；

根据所述类内对象间的距离计算所述类内的各个对象间距离的距离平均值；

将所述距离平均值进行归一化，得到所述类的类内聚合度。

4、根据权利要求 2或 3所述的方法，其特征在于，所述针对迭代合并得到的每个类，将类内对象间的距离小于所述类内聚合度的对象划分成一个新类，更新类的数量，采用如下方式- 将类内对象间的距离小于所述类内聚合度的对象进行连通标记；

根据所述连通标记确定所述类内的连通分量；

根据所述连通分量将所述类拆分成新类，并更新类的数量。

5、根据权利要求 1所述的方法，其特征在于，所述根据类间的 Rank-Order距离，进行类的迭代合并，采用如下方式：

获取类间 Rank-Order距离，以及获取类间 Rank-Order归一化距离；

当类间的 Rank-Order距离小于距离阈值，且所述类间的 Rank-Order归一化距离小于 1 时，合并所述类。

6、一种聚类装置，其特征在于，包括：

迭代合并单元，用于根据类间的 Rank-Order距离，进行类的迭代合并；

获取单元，用于利用类内各个对象间的距离获得迭代合并后的类对应的类内聚合度；划分单元，用于针对迭代合并得到的每个类，将类内对象间的距离小于所述类内聚合度的对象划分成一个新的类，并更新类的数量；

判断单元，用于当更新后的类的数量比更新前的类的数量少时，控制所述迭代合并单元执行根据类间的 Rank-Order距离进行类的迭代合并，直到更新前后的类的数量不变时，得到聚类结果，所述聚类结果包括包含多个对象的类和包含单个对象的类。

7、根据权利要求 6所述的装置，其特征在于，所述获取单元包括：

第一获取子单元，用于获取类内各个对象间的距离；

第一计算子单元，用于计算所述类的各个对象间的距离的距离平均值，得到所述类内聚

8、根据权利要求 6所述的装置，其特征在于，所述获取单元包括：

第二获取子单元，用于获取类内各个对象间的距离；

第二计算子单元，用于根据所述类内对象间的距离，计算所述类内的各个对象间距离的距离平均值；

归一化子单元，将所述距离平均值进行归一化，得到所述类的类内聚合度。

9、根据权利要求 7或 8所述的装置，其特征在于，所述划分单元包括：

第一判断子单元，用于判断所述类内对象间的距离是否小于所述类内聚合度；标记子单元，用于当所述类内对象间的距离小于所述类内聚合度时，将所述类内对象间的距离对应的对象进行连通标记；

确定子单元，用于根据所述连通标记确定所述类内的连通分量；

拆分子单元，用于根据所述连通分量将所述类拆分成新类，并更新类的数量。

10、根据权利要求 6所述的装置，其特征在于，所述迭代合并单元包括：第三获取子单元，用于获取类间 Rank-Order距离，以及获取类间 Rank-Order归一化距离；

合并子单元，用于当类间的 Rank-Order距离小于距离阈值，且所述类间 Rank-Order归一化距离小于 1时，合并所述类。

11、一种终端设备，其特征在于，包括：

处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为：

根据类间的 Rank-Order距离，进行类的迭代合并；利用类内各个对象间的距离获得迭代合并后的类对应的类内聚合度；针对迭代合并得到的每个类，将类内对象间的距离小于所述类内聚合度的对象划分成一个新的类，并更新类的数量；当更新后的类的数量比更新前的类的数量少时，返回执行根据类间的 Rank-Order 离进行类的迭代合并的步骤，直到更新前后的类的数量不变；当更新前后的类的数量不变时，得到聚类结果，所述聚类结果包括包含多个对象的类包含单个对象的类。