WO2015027828A1

WO2015027828A1 - 实现用户信息聚类的方法和装置

Info

Publication number: WO2015027828A1
Application number: PCT/CN2014/084484
Authority: WO
Inventors: 马腾; 吴瑕
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2013-08-26
Filing date: 2014-08-15
Publication date: 2015-03-05
Also published as: CN104424235B; CN104424235A

Abstract

本发明提供了一种实现用户信息聚类的方法和装置。所述方法包括：量化用户信息得到相应的用户特征，聚类所述用户特征得到用户集合；获取用户集合的范围设定信息，对所述范围设定信息进行统计以得到用户集合的期望范围；根据所述用户集合和期望范围生成聚类结果。所述装置包括：聚类模块、范围统计模块和结果生成模块。

Description

实现用户信息聚类的方法和装置

相关申请交叉引用

本申请要求 2013年 8月 26日提交中国专利局、申请号为 201310376923. 2、发明名称为 "实现用户信息聚类的方法和装置" 的中国专利申请的优先权，其全部内容通过引用结合在本申请中。技术领域

本发明涉及信息处理技术，特别是涉及一种实现用户信息聚类的方法和装置。背景技术

随着虚拟社交网络工具以及即时通信工具（诸如语音聊天、图片分享）等各种社交应用的爆发式的增长和发展，，交友的便利性得到了大大地提高。

通过社交应用访问社交网络已经逐渐成为用户进行网络访问的主流，例如，用户通过社交应用在社交网络中发起或参加各种聚会活动。然而，在社交网络中，任一活动的发起和参与都需要人工设置所涉及的用户，例如，发起活动的用户人工指定活动的用户，或者用户在浏览到社交网络中发起的活动之后申请参与该活动，以在海量的用户中将若干个用户聚合在一起，然而，这一方式由于需要用户进行人工确认，因此效率低下，也难于实现海量用户中针对用户特性的聚合。发明内容

基于此，根据本申请的实施例，提供了一种实现用户信息聚类的方法和装置。

根据本申请的一方面，提供了一种实现用户信息聚类的方法，包括如下步骤：

量化用户信息得到对应的特征，聚类所述相应的用户特征得到用户集合；获取用户集合的范围设定信息，对所述范围设定信息进行统计以得到用户集合所对应的期望范围；

根据所述用户集合和期望范围生成聚类结果。

根据本申请的另一方面，提供了一种实现用户信息聚类的装置，包括：聚类模块，用于量化用户信息得到相应的用户特征，聚类所述相应的用户特征得到用户集合；

范围统计模块，用于获取用户集合的范围设定信息，对所述范围设定信息进行统计以得到用户集合所对应的期望范围；

结果生成模块，用于根据所述用户集合和期望范围生成聚类结果。

上述实现用户信息聚类的方法和装置，根据用户信息进行量化得到相应的用户特征，聚类相应的用户特征得到用户集合，以针对每一用户的用户信息在海量用户中实现用户聚合，得到用户集合，该用户集合中的用户具备了相同或相近似的用户特性。此外，为保证聚类的准确性，还将根据范围设定信息对用户集合中的用户进行统计以得到该用户集合所对应的期望范围，进而根据用户集合和期望范围生成聚类结果，实现了对用户行为的预测，以使得生成的聚类结果对于用户集合中的用户而言是合理且准确的。附图说明

图 1为一个实施例中实现用户信息聚类的方法流程图；

图 2为一个实施例中原始数据的曲线示意图；

图 3为图 2中原始数据形成的谱空间示意图；

图 4为图一个实施例中根据用户信息构造谱空间，并进行拉普拉斯特征映射得到用户在谱空间的顶点，通过用户在谱空间的顶点对用户进行聚类得到用户集合的方法流程图；

图 5为图 4中量化用户信息以构造相似矩阵的方法流程图；

图 6为一个实施例中获取范围设定信息，对范围设定信息进行统计以得到用户集合所对应的期望范围的方法流程图；

图 7为另一个实施例中获取范围设定信息，对范围设定信息进行统计以得到用户集合所对应的期望范围的方法流程图；

图 8为图 7中获取地点范围设定信息的方法流程图；图 9为图 8中将地点范围设定信息中的地点范围划分为若干个地点子范围的方法流程图；

图 10为一个实施例中实现用户信息聚类的装置的结构示意图；

图 11为图 10中聚类模块的结构示意图；

图 12为图 11中量化单元的结构示意图；

图 13为一个实施例中范围统计模块的结构示意图；

图 14为一个实施例中范围统计模块的结构示意图；

图 15为图 14中第二信息获取单元的结构示意图；

图 16为图 14中第二划分单元的结构示意图。具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图 1 所示，在一个实施例中，一种实现用户信息聚类的方法，包括如下步骤：

步骤 S10，量化用户信息得到相应的用户特征，聚类相应的用户特征得到用户集合。

本实施例中，用户信息包括了用户的年龄、性别、兴趣爱好等基本信息。对用户信息进行量化和聚类处理以得到相近似的多个用户，进而由得到的多个用户形成用户集合。

在一个实施例中，上述步骤 S10 的过程为：根据用户信息构造谱空间，并进行拉普拉斯特征映射得到用户在谱空间的顶点，通过用户在谱空间的顶点对用户进行聚类得到用户集合。

本实施例中，谱聚类理论是建立在图论中谱图理论基础上的，其本质是将聚类问题转化为图的最优切割问题。谱聚类算法能够对任意形状的样本空间进行划分，且收敛于全局最优解，相应的，在谱空间中相似性高的原始数据分布比较集中，而相似性低的数据分布则比较分散。

如图 2 所示，原始数据为两根螺旋状的曲线，谱聚类理论中根据谱图的特征值和特征向量构造合适的聚类空间，即谱空间，如图 3 所示，在谱空间中，不同曲线上的采样点被分成两堆，以在此基础上进行准确聚类。

步骤 S30，获取范围设定信息，对范围设定信息进行统计以得到用户集合的期望范围。

本实施例中，为了对用户进行准确预设和合理性评价，还将获取额外的范围设定信息为用户集合设定合理的期望范围，以使得用户集合中的用户是相近似的，并且期望范围也是与用户集合中的用户行为以及用户相关事件的发展相符的。

进一步的，范围设定信息包括时间范围设定信息和地点范围设定信息，其中，时间范围设定信息为用户集合中每一用户的时间范围所形成的并集；地点范围设定信息为用户集合中每一用户的位置范围所形成的并集。

通过范围设定信息可获知用户集合所划定的范围条件，进而在这一范围条件中统计得到对用户集合中的用户而言，最多用户接受的子范围，即期望范围。

步骤 S50，根据用户集合和期望范围生成聚类结果。

本实施例中，生成包含了用户集合和期望范围的聚类结果，根据该聚类结果可获知用户集合中包含的用户以及相应的期望范围。

例如，对于社交网络中发起活动的用户而言，可通过聚类结果获知参与活动的对象，即用户集合中的用户，以及活动实施的时间范围和地点范围，避免了多个用户所构成的用户群体进行活动时间和地点讨论的复杂过程以及各方意见不统一而造成的沟通缺乏效率的情况，提高了社交网络中信息处理的速度。

此外，也可为访问社交网络的用户动态的推荐可发起活动的聚类结果，用户通过查看这一聚类结果即可获知当前可发起活动的用户集合以及期望范围，进而依据这一聚类结果发起活动即可，大大提高了社交网络中线下活动的便利性。

上述聚类结果可通过虚拟社交网络工具以及即时通信工具等社交应用中提供的入口实现，也可以在电子地图中增设相应的入口实现，还可以设置为独立的应用，所生成的聚类结果将推送至社交应用、电子地图或者其它的独立应用中，以供用户查看。

如图 4所示，在一个实施例中，上述根据用户信息构造谱空间，并进行拉普拉斯特征映射得到用户在谱空间的顶点，通过用户在谱空间的顶点对用户进行聚类得到用户集合的步骤包括如下步骤：步骤 S110，量化用户信息以构造相似矩阵。

本实施例中，用户信息可以是由用户的注册信息得到的，也可以是用户输入的。对用户信息中按照维度进行量化以得到每一用户信息中每一维度所对应的量化数值。例如，用户信息中，年龄和性别都分别对应一个维度。

步骤 S 130,由相似矩阵提取拉普拉斯矩阵，对拉普拉斯矩阵进行特征分解以构造谱空间 W。

本实施例中，设谱空间 W的拉普拉斯矩阵为 L。根据拉普拉斯矩阵中各项点所属的连通部分，将拉普成分块对角形式，即：

设拉普拉斯矩阵 L中 0特征值的个数为 m，则谱空间 W由 m个特征向量张开，设这些 m个特征向量是由 0特征值对应的。

步骤 S150,将量化的用户信息映射至谱空间得到用户在谱空间的顶点。

本实施例中，设 '为谱空间所对应的矩阵中第 i行对应的向量，则在拉普拉斯矩阵中所有属于分块的顶点 ^v '都有相同的形式，即 ( ι' ομ，其中，

Κ为聚类的个数， 1的位置表明了该顶点所属的分块，意味着这些点都被映射到谱空间中的同一点。

此外，由于扰动的存在，属于同一个分块 ^的点会被映射到谱空间中的不同点。根据极化定理（Polarization Theorem)可知，投影到谱空间中的点将满足：相似的点会靠得更近，不相似的点会离的更远，并且在扰动不大时，相似的点会被映射到谱空间中比较集中的位置，因此还将考虑扰动的因素，通过 K-means聚类确定被映射到谱空间中的点集中在一起所对应的用户，以得到用户隹朱 A Π o

步骤 S170,将谱空间中距离上相互集中的顶点所对应的用户形成用户集合。本实施例中，获取谱空间中集中在一起的顶点所对应的用户，即多个用户被映射到了谱空间中的点集中在一起，将这些用户构成用户集合。

如图 5所示，在一个实施例中，上述步骤 S110包括：

步骤 S111，根据用户信息构建每一用户所对应的向量。

本实施例中，设所有用户的集合为 ^{Ρ =} {^Ρ—^Ρ^，将使用 η维向量 I描述，向量 I中的每一元素将表示所在用户中用户信息的一种维度。

步骤 S113 , 对向量中的元素进行归一化处理，并将归一化处理后的元素进行加权计算得到用户对应的量化值。

本实施例中，根据元素所对应的维度对向量中的元素进行归一化处理，并进行加权计算后得到用户所对应的量化值。

步骤 S115,计算用户对应的量化值之间的距离得到两个用户之间的相似度，并通过两个用户之间的相似度形成邻接矩阵。

本实施例中，对于所有用户的集合 P，可采用无向加权图 G= (V，E)表，其中， ^V' 表示点， ^和^被边集合£中的一条边相连，该边的权值为^ ^[(U]，描述了 ^和 _Vj的相似度，越大说明 ^和 ^越相似。特别地 ^{= Q}。

由于相似度矩阵 W为无向加权图 G的邻接矩阵，因此，将构建相应的邻接矩阵，以真实地反映顶点 ^和 _Vj之间的相似关系。

具体的，将计算用户对应的量化值之间的距离，即 I.i之间的距离，以得到两个用户之间的相似度，进而由相似度形成邻接矩阵。

步骤 S117,通过邻接矩阵得到相似矩阵。

本实施例中，由计算得到的邻接矩阵相应得到相似矩阵。

如图 6所示，在一个实施例中，上述范围设定信息为时间范围设定信息；上述步骤 S30包括：

步骤 S310a，获取时间范围设定信息。

本实施例中，为得到用户集合中用户之间重叠频率最高的时间段，将获取记录了用户集合中所有用户对应的时间范围的并集的时间范围设定信息。

例如，该时间范围设定信息可以是通过对用户集合中每一用户输入的可接受的时间范围取并集得到的。

步骤 S330a，将时间范围设定信息中的时间范围划分为若干个时间子区间。本实施例中，从时间范围设定信息中提取得到所有用户可接受时间范围中的最早时间和最晚时间，该最早时间和最晚时间便构成了时间范围设定信息中的时间范围 T。将时间范围 Τ划分成 η个时间间隔为 Τ/η的时间子区间。

步骤 S350a，对用户集合中的用户统计每一时间子区间所对应的用户可接受次数，并将用户可接受次数最大的时间子区间作为用户集合对应的时间期望范围。本实施例中，使用长度为 n的计数器，对时间范围 T中每一时间子区间进行计数，以得到每个时间子区间所对应的用户可接受次数。

上述根据时间所进行的期望范围计算过程中，将其转化为多条共线线段的求交问题。其中，线段端点将表示用户可接受的起始时刻和终止时刻。多条共线线段的求交将被归结为两条共线线段的求交，而判断两条共线线段是否相交只有需要判断其中一条线段的端点是否在另一条线段之间即可。因此，在计算得到时间期望范围的过程中，由于不能够保证两条线段一定相交，只需要计算最优解即可，因此，将通过上述计算过程进行简易而快速地计算。

在一个实施例中，上述范围设定信息为地点范围设定信息。随着智能终端以及车载移动终端等多种移动设备的普及，可利用移动设备进行 GPS ( Global Positioning System，全球定位系统）定位以得到用户当前所在位置以及行为轨迹。因此，为得到用户可接受的地点范围，将获取用户当前所在位置，并以用户当前所在位置为圆心，依据用户当前采用的交通方式设置半径得到该用户所对应的圆，该圆即为单位时间内用户所能到达的范围。所采用的交通方式的速度越快，则半径越大，此时，求解用户集合中用户最可接受的地点范围的问题则被转化为多个圆的求交问题，因此，如图 7所示，上述步骤 S30包括：

步骤 S310b，获取地点范围设定信息。

本实施例中，地点范围设置信息中记录了用户集合中用户所对应的圆的并集，该并集即为地点范围。

如图 8所示，在一个实施例中，上述步骤 S310b包括如下步骤：

步骤 S311b，获取用户集合中用户所对应的定位信息。

本实施例中，获取由 GPS定位得到的或者用户输入的定位信息，进而根据定位信息即可获知用户当前所在的位置。

步骤 S313b，根据定位信息中的位置确定用户对应的位置范围，对用户对应的位置范围取并集得到地点范围设定信息。

本实施例中，获取用户所采用的交通方式或者当前速度，以根据用户当前所采用的交通方式或者当前速度得到该用户对应的半径，进而根据定位信息中的位置和半径即可得到相应的圆，该圆即为用户对应的位置范围，此时，将用户集合中所有用户的圆进行求并就得到了地点范围设定信息中所有用户的地点范围。步骤 S330b，将地点范围设定信息中的地点范围划分为若干个地点子范围。本实施例中，划分地点范围为多个部分，以得到若干个地点子范围。

如图 9所示，在一个实施例中，上述步骤 S330b包括如下步骤：

步骤 S331b，根据地点范围设定信息中的地点范围布设图示。

本实施例中，使地点范围以图示的形式存在，以便于更为直观地对地点范围进行划分。

步骤 S333b，将图示划分为若干个网格，该网格即为地点子范围。

本实施例中，对图示进行网格划分，以得到 m' n的网格，每一网格即为一个地点子范围。

步骤 S350b，对用户集合中的用户统计每一地点子范围所对应的用户可接受次数，并将用户可接受次数最大的地点子范围作为用户集合对应的地点期望范围。

本实施例中，使用长度为 m' n的计数器 C对地点子范围进行计数，所得到的数组中元素 d即为第 i个地点子范围的用户可接受次数，数值最大的元素所对应的地点子范围即为用户集合对应的地点期望范围。

如图 10所示，在一个实施例中，一种实现用户信息聚类的装置，包括聚类模块 10、范围统计模块 30和结果生成模块 50。

聚类模块 10，用于量化用户信息得到相应的用户特征，聚类用户对应的特征得到用户集合。

在一个实施例中，上述聚类模块 10还用于根据用户信息构造谱空间，并进行拉普拉斯特征映射得到用户在谱空间的顶点，通过用户在谱空间的顶点对用户进行聚类得到用户集合。

范围统计模块 30，用于获取用户的范围设定信息，对范围设定信息进行统计以得到用户集合所对应的期望范围。

本实施例中，为了对用户进行准确预设和合理性评价，范围统计模块 30还将获取额外的范围设定信息为用户集合设定合理的期望范围，以使得用户集合中的用户是相近似的，并且期望范围也是与用户集合中的用户行为以及用户相关事件的发展相符的。

进一步的，范围设定信息将包括了时间范围设定信息和地点范围设定信息，其中，时间范围设定信息为用户集合中每一用户的时间范围所形成的并集；地点范围设定信息为用户集合中每一用户的位置范围所形成的并集。

范围统计模块 30通过范围设定信息可获知用户集合所划定的范围条件，进而在这一范围条件中统计得到对用户集合中的用户而言，最多用户接受的子范围，即期望范围。

结果生成模块 50，用于根据用户集合和期望范围生成聚类结果。

本实施例中，结果生成模块 50生成包含了用户集合和期望范围的聚类结果，根据该聚类结果可获知用户集合中包含的用户以及相应的期望范围。

如图 11所示，在一个实施例中，上述聚类模块 10包括量化单元 110、谱空间构造单元 130、映射单元 150和集合形成单元 170。

量化单元 110，用于量化用户信息以构造相似矩阵。

本实施例中，用户信息可以是由用户的注册信息得到的，也可以是用户输入的。量化单元 uo对用户信息中按照维度进行量化以得到每一用户信息中每一维度所对应的量化数值。例如，用户信息中，年龄和性别都分别对应一个维度。

谱空间构造单元 130，用于由相似矩阵提取拉普拉斯矩阵，对拉普拉斯矩阵进行特征分解以构造谱空间。

本实施例中，谱空间构造单元 130 由相似矩阵相应计算得到拉普拉斯矩阵 (Laplacian矩阵）。根据拉普拉斯矩阵中各项点所属的连通部分，将拉普拉斯矩阵 L写成分块对角形式， gp :

设拉普拉斯矩阵中 0特征值的个数为 m，则谱空间 W由 m个特征向量张开，这些 m个特征向量是由 0特征值对应的。。

映射单元 150，用于将量化的用户信息映射至谱空间得到用户在谱空间的顶点。

本实施例中，设 '为谱空间所对应的矩阵中第 i行对应的向量，则在拉普拉斯矩阵中所有属于分块的顶点 ^v '都有相同的形式，即 ( ^ ι'ο^'ομ,其中， κ为聚类的个数， 1的位置表明了该顶点所属的分块，意味着这些点都被映射到谱空间中的同一点。

此外，由于扰动的存在，属于同一个分块 ^的点会被映射到谱空间中的不同点。根据极化定理（Polarization Theorem)可知，投影到谱空间中的点将满足：相似的点会靠得更近，不相似的点会离的更远，并且在扰动不大时，相似的点会被映射到谱空间中比较集中的位置，因此还将考虑扰动的因素，集合形成单元通过 K-means 聚类确定被映射到谱空间中的同一点所对应的用户，以得到用户集合。

集合形成单元 170，用于将谱空间中距离上相互集中的顶点所对应的用户形成用户集合。

本实施例中，集合形成单元 170获取谱空间中集中在一起的顶点所对应的用户，即多个用户被映射到了谱空间中的点集中在一起，将这些用户构成用户隹朱 A Π o 如图 12所示，在一个实施例中，上述量化单元 110包括向量构建单元 111、运算单元 113、相似性计算单元 115和相似矩阵获取单元 117。

向量构建单元 111，用于根据用户信息构建每一用户所对应的向量。

本实施例中，设所有用户的集合为 ^ ^¹'…^)，向量构建单元 U 1将使用 n 维向量 I描述 P"向量 I中的每一元素将表示所在用户中用户信息的一种维度。

运算单元 113，用于对向量中的元素进行归一化处理，并将归一化处理后的元素进行加权计算得到用户对应的量化值。

本实施例中，运算单元 U3根据元素所对应的维度对向量中的元素进行归一化处理，并进行加权计算后得到用户所对应的量化值。

相似性计算单元 115，用于计算用户对应的量化值之间的距离得到两个用户之间的相似度，并通过两个用户之间的相似度形成邻接矩阵。

本实施例中，对于所有用户的集合 P，可采用无向加权图 G= (V，E)表，其中， ^V' 表示点， ^和^被边集合£中的一条边相连，该边的权值为^ ^[Q'^1]，描述了 ^和 _Vj的相似度，越大说明 ^和 ^越相似。特别地 ^{= Q}。

由于相似度矩阵 W为无向加权图 G的邻接矩阵，因此，相似性计算单元 115 将构建相应的邻接矩阵，以真实地反映顶点 ^和 _Vj之间的相似关系。

具体的，相似性计算单元 115将计算用户对应的量化值之间的距离，即 L 和 L之间的距离，以得到两个用户之间的相似度^，进而由相似度^形成邻接矩阵。

相似矩阵获取单元 117，用于通过邻接矩阵得到相似矩阵。

本实施例中，相似矩阵获取单元 U7 由计算得到的邻接矩阵相应得到相似矩阵。

如图 13所示，在一个实施例中，上述范围设定信息为时间范围设定信息，上述范围统计模块 30包括第一信息获取单元 310a、第一划分单元 330a和第一子区间统计单元 350a。

第一信息获取单元 310a，用于获取时间范围设定信息。

本实施例中，为得到用户集合中用户之间重叠频率最高的时间段，第一信息获取单元 310a将获取记录了用户集合中所有用户对应的时间范围的并集的时间范围设定信息。

第一划分单元 330a，用于将时间范围设定信息中的时间范围划分为若干个时间子区间。

本实施例中，第一划分单元 330a从时间范围设定信息中提取得到所有用户可接受时间范围中的最早时间和最晚时间，该最早时间和最晚时间便构成了时间范围设定信息中的时间范围 T，将时间范围 Τ划分成 η个时间间隔为 Τ/η的时间子区间。

第一子区间统计单元 350a，用于对用户集合中的用户统计每一时间子区间所对应的用户可接受次数，并将用户可接受次数最大的时间子区间作为用户集合对应的时间期望范围。

本实施例中，第一子区间统计单元 350a使用长度为 n的计数器，对时间范围 T 中每一时间子区间进行计数，以得到每个时间子区间所对应的用户可接受

、、'上述根据时间所进行的期望范围计算过程中，将其转化为多条共线线段的求交问题。其中，线段端点将表示用户可接受的起始时刻和终止时刻。多条共线线段的求交将被归结为两条共线线段的求交，而判断两条共线线段是否相交只需要判断其中一条线段的端点是否在另一条线段之间即可。因此，在计算得到时间期望范围的过程中，由于不能够保证两条线段一定相交，只需要计算最优解即可，因此，将通过上述计算过程进行简易而快速地计算。

在一个实施例中，上述范围设定信息为地点范围设定信息。随着智能终端以及车载移动终端等多种移动设备的普及，可利用移动设备进行 GPS ( Global

Positioning System，全球定位系统）定位以得到用户当前所在位置以及行为轨迹。因此，为得到用户可接受的地点范围，将获取用户当前所在位置，并以用户当前所在位置为圆心，依据用户当前采用的交通方式设置半径得到该用户所对应的圆，该圆即为单位时间内用户所能到达的范围。所采用的交通方式的速度越快，则半径越大，此时，求解用户集合中用户最可接受的地点范围的问题则被转化为多个圆的求交问题，因此，如图 14所示，上述范围统计模块 30包括第二信息获取单元 310b、第二划分单元 330b和第二子区间统计单元 350b。

第二信息获取单元 310b，用于获取地点范围设定信息。

如图 15所示，在一个实施例中，上述第二信息获取单元 310b包括定位信息获取单元 311b和位置确定单元 313b。

定位信息获取单元 311b，用于获取用户集合中用户所对应的定位信息。

本实施例中，定位信息获取单元 311b获取由 GPS定位得到的或者用户输入的定位信息，进而根据定位信息即可获知用户当前所在的位置。

位置确定单元 313b，用于根据定位信息中的位置确定用户对应的位置范围对用户对应的位置范围取并集得到地点范围设定信息。

本实施例中，位置确定单元 313b获取用户所采用的交通方式或者当前速度，以根据用户当前所采用的交通方式或者当前速度得到该用户对应的半径，进而根据定位信息中的位置和半径即可得到相应的圆，该圆即为用户对应的位置范围，此时，将用户集合中所有用户的圆进行求并就得到了地点范围设定信息中所有用户的地点范围。

第二划分单元 330b，用于将地点范围设定信息中的地点范围划分为若干个地点子范围。

本实施例中，第二划分单元 330b划分地点范围为多个部分，以得到若干个地点子范围。

如图 16所示，在一个实施例中，上述第二划分单元 330b包括布设单元 331b 和网格划分单元 333b。

布设单元 331b，用于根据地点范围设定信息中的地点范围布设图示。

本实施例中，布设单元 331b使地点范围以图示的形式存在，以便于更为直观地对地点范围进行划分。

网格划分单元 333b，用于将图示划分为若干个网格，该网格即为地点子范围。

本实施例中，网格划分单元 333b对图示进行网格划分，以得到 m' n的网格，每一网格即为一个地点子范围。

第二子区间统计单元 350b，用于对用户集合中的用户统计每一地点子范围所对应的用户可接受次数，并将用户可接受次数最大的地点子范围作为用户集合对应的地点期望范围。

本实施例中，第二子区间统计单元 350b使用长度为 m' n的计数器 C对地点子范围进行计数，所得到的数组中元素即为第 i个地点子范围的用户可接受次数，数值最大的元素所对应的地点子范围即为用户集合对应的地点期望范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory, ROM)或随机存储记忆体 ( Random Access Memory, RAM)等。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

权利要求书

1、一种实现用户信息聚类的方法，包括如下步骤：

通过量化用户信息得到相应的用户特征，聚类所述用户特征得到用户集合; 获取所述用户集合的范围设定信息，对所述范围设定信息进行统计以得到所述用户集合的期望范围；

根据所述用户集合和所述期望范围生成聚类结果。

2、根据权利要求 1所述的方法，其特征在于，所述通过量化用户信息得到相应的用户特征，聚类所述用户特征得到用户集合的步骤包括：

根据所述用户特征构造谱空间，并进行拉普拉斯特征映射得到用户在谱空间的顶点，通过所述用户在谱空间的顶点对用户进行聚类得到用户集合。

3、根据权利要求 2所述的方法，其特征在于，所述根据用户信息构造谱空间，并进行拉普拉斯特征映射得到用户在谱空间的顶点，通过所述用户在谱空间的顶点对用户进行聚类得到用户集合的步骤包括：

量化用户信息以构造相似矩阵；

由所述相似矩阵提取拉普拉斯矩阵，对所述拉普拉斯矩阵进行特征分解以构造谱空间；

将量化的用户信息映射至谱空间得到用户在谱空间的顶点；

将谱空间中距离上相互集中的顶点所对应的用户形成用户集合。

4、根据权利要求 3所述的方法，其特征在于，所述量化用户信息以构造相似矩阵的步骤包括：

根据用户信息构建每一用户的向量；

对所述向量中的元素进行归一化处理，并将归一化处理后的元素进行加权计算得到所述用户的量化值；

计算所述用户的量化值之间的距离得到两个用户之间的相似度，并通过所述两个用户之间的相似度形成邻接矩阵；

通过所述邻接矩阵得到相似矩阵。

5、根据权利要求 1所述的方法，其特征在于，所述范围设定信息为时间范围设定信息；所述获取所述用户的范围设定信息，对所述范围设定信息进行统计以得到用户集合的期望范围的步骤包括：获取所述用户的时间范围设定信息；

将所述时间范围设定信息中的时间范围划分为若干个时间子区间；对所述用户集合中的用户统计每一时间子区间的用户可接受次数，并将用户可接受次数最大的时间子区间作为所述用户集合的时间期望范围。

6、根据权利要求 1所述的方法，其特征在于，所述范围设定信息为地点范围设定信息；所述获取所述用户的范围设定信息，对所述范围设定信息进行统计以得到用户集合的期望范围的步骤包括：

获取所述用户的地点范围设定信息；

将所述地点范围设定信息中的地点范围划分为若干个地点子范围；对所述用户集合中的用户统计每一地点子范围的用户可接受次数，并将用户可接受次数最大的地点子范围作为所述用户集合的地点期望范围。

7、根据权利要求 6所述的方法，其特征在于，所述获取所述用户的地点范围设定信息的步骤包括：

获取用户集合中用户的定位信息；

根据所述定位信息中的位置确定所述用户的位置范围，对所述用户的位置范围取并集得到所述地点范围设定信息。

8、根据权利要求 6所述的方法，其特征在于，所述将所述地点范围设定信息中的地点范围划分为若干个地点子范围的步骤包括：

根据所述地点范围设定信息中的地点范围布设图示；

将所述图示划分为若干个网格，其中所述网格为地点子范围。

9、一种实现用户信息聚类的装置，其特征在于，包括：

聚类模块，用于量化用户信息得到相应的用户特征，聚类所述用户特征得到用户集合；

范围统计模块，用于获取所述用户集合的范围设定信息，对所述范围设定信息进行统计以得到用户集合的期望范围；

结果生成模块，用于根据所述用户集合和所述期望范围生成聚类结果。

10、根据权利要求 9所述的装置，其特征在于，所述聚类模块还用于根据用户信息构造谱空间，并进行拉普拉斯特征映射得到用户在谱空间的顶点，通过所述用户在谱空间的顶点对用户进行聚类得到用户集合。

11、根据权利要求 9所述的装置，其特征在于，所述聚类模块包括：量化单元，用于量化用户信息以构造相似矩阵；

谱空间构造单元，用于由所述相似矩阵提取拉普拉斯矩阵，对所述拉普拉斯矩阵进行特征分解以构造谱空间；

映射单元，用于将量化的用户信息映射至谱空间得到用户在谱空间的顶点；集合形成单元，用于将谱空间中距离上相互集中的顶点所对应的用户形成用户集合。

12、根据权利要求 11所述的装置，其特征在于，所述量化单元包括：向量构建单元，用于根据用户信息构建每一用户的向量；

运算单元，用于对所述向量中的元素进行归一化处理，并将归一化处理后的元素进行加权计算得到所述用户的量化值；

相似性计算单元，用于计算所述用户的量化值之间的距离得到两个用户之间的相似度，并通过所述两个用户之间的相似度形成邻接矩阵；

相似矩阵获取单元，用于通过所述邻接矩阵得到相似矩阵。

13、根据权利要求 9所述的装置，其特征在于，所述范围设定信息为时间范围设定信息；所述范围统计模块包括：

第一信息获取单元，用于获取所述用户集合的时间范围设定信息；第一划分单元，用于将所述时间范围设定信息中的时间范围划分为若干个时间子区间；

第一子区间统计单元，用于对所述用户集合中的用户统计每一时间子区间的用户可接受次数，并将用户可接受次数最大的时间子区间作为所述用户集合的时间期望范围。

14、根据权利要求 9所述的装置，其特征在于，所述范围设定信息为地点范围设定信息；所述范围统计模块包括：

第二信息获取单元，用于获取所述用户集合的地点范围设定信息；第二划分单元，用于将所述地点范围设定信息中的地点范围划分为若干个地点子范围；

第二子区间统计单元，用于对所述用户集合中的用户统计每一地点子范围的用户可接受次数，并将用户可接受次数最大的地点子范围作为用户集合的地点期望范围。

15、根据权利要求 14所述的装置，其特征在于，所述第二信息获取单元包括：

定位信息获取单元，用于获取用户集合中用户的定位信息；

位置确定单元，用于根据所述定位信息中的位置确定所述用户的位置范围，对所述用户的位置范围取并集得到所述地点范围设定信息。

16、根据权利要求 14所述的装置，其特征在于，所述第二划分单元包括：布设单元，用于根据所述地点范围设定信息中的地点范围布设图示；网格划分单元，用于将所述图示划分为若干个网格，其中所述网格为地点子范围。

17、一个或多个计算机可读存取介质，包含用于执行根据权利要求 1-8中任何一个所述方法的计算机可执行程序。

18、一种装置，包括：

处理器；以及

存储器，含有计算机可执行程序，所述存储器和计算机可执行程序被配置为利用所述处理器使得所述装置：

根据所述用户集合和所述期望范围生成聚类结果。