WO2017028791A1

WO2017028791A1 - 一种公众号推荐方法及系统

Info

Publication number: WO2017028791A1
Application number: PCT/CN2016/095730
Authority: WO
Inventors: 许毓超; 苗军
Original assignee: 中兴通讯股份有限公司
Priority date: 2015-08-18
Filing date: 2016-08-17
Publication date: 2017-02-23
Also published as: CN106469163A

Abstract

一种公众号推荐方法及系统，其中方法包括：将从数据库读取的用户数据进行分组（11）；针对待计算用户，在每个组内，确定待计算用户的最邻近用户，并根据最邻近用户关注的所有公众号以及对应公众号的单位时间的最新信息衰减系数确定该组针对待计算用户的推荐公众号（12）；根据所有组针对待计算用户的推荐公众号，确定待计算用户最终的推荐公众号（13）。该公众号推荐方法及系统能够实现优先推荐活跃度高的公众号。

Description

一种公众号推荐方法及系统

技术领域

本发明涉及互联网信息推荐领域，尤其涉及一种公众号推荐方法及系统。

背景技术

数学领域中的六度分隔理论(Six Degrees of Separation)指出：世界上任意两个人之间建立联系，最多只需要六个人，也就是说，任一人最多通过五个中间人就能够认识任何一个陌生人。该理论亦称为小世界理论。

在大数据时代，互联网领域普遍存在信息过载的问题。为了解决信息过载的问题，在现有技术方案中，会抽取人或物品的特征，针对人或物品的特征值进行分析，或者根据人和人或人和物之间的互动数据，比如评价值、交互信息、通话记录、是否出现在同一照片、在圈子或论坛里的互动记录、位置信息等等，再根据六度分隔理论计算两者之间的强弱关系，当判定人和人或者人和物为强关系时，将确定为与某人为强关系的人或物加入某人的候选推荐列表。

现有技术方案包括人和人的推荐以及人和物的推荐。其中，人和人的推荐是社交系统构建连接的主要方法，为了能够增加真实社交关系在虚拟社交中的连接，通常会根据如图1所示的理论模型进行推荐。如图1所示，以用户A为例描述，用户A与用户B之间为一度关系，与用户C为二度关系，与用户D为三度关系，与用户E为四度关系，与用户F为五度关系，与用户G为六度关系，用户A通过与上述该些用户之间的关系进而与人或物a、b、c、d、e、f、g、h、i、j、k、m、n进行关联。

具体而言，推荐系统的核心是推荐算法，推荐算法决定了系统如何工作和具体工作的策略，现有技术方案主要是基于内容和基于协同两种算法来计算。然而，基于内容的算法存在以下问题：特征不容易抽取(比如有视频、音频、文档)；若特征缺失，会导致计算结果失效；若特征值过多，数据量大，会消耗大量的计算时间。基于协同的算法主要基于物的评价以及人和物的互动记录来判定两者之间的强弱关系，基于协同的算法存在以下问题：当用户对物品的评价非常稀疏时，会导致基于用户的评价所得到的用户间的相似性可能不准确(即稀疏性问题)；随着用户和物品的增多，系统的性能会越来越低(即可扩展性问题)；如果从来没有用户对某一物品加以评价，则这个物品不可能被推荐。

发明内容

为了解决上述技术问题，本发明提供一种公众号推荐方法及系统，能够实现优先推荐活跃度高的公众号。

为了达到上述技术目的，本发明提供一种公众号推荐方法，包括：将从数据库读取的用户数据进行分组；针对待计算用户，在每个组内，确定所述待计算用户的最邻近用户，并根据所述最邻近用户关注的所有公众号以及对应公众号的单位时间的最新信息衰减系数确定该组针对所述待计算用户的推荐公众号；根据所有组针对所述待计算用户的推荐公众号，确定所述待计算用户的最终推荐公众号。

可选地，所述将从数据库读取的用户数据进行分组包括：

根据用户数据总量与分解粒度系数的比值确定组数；

按照确定的组数将相应数目的用户数据分到相应的组中。

可选地，所述在每个组内，确定所述待计算用户的最邻近用户包括：抽取所述待计算用户的特征值以及该组内所有用户的特征值，计算所述待计算用户的特征值与该组内每个用户的特征值之间的欧氏距离，按照欧氏距离由小到大的顺序，确定第一预定数目的用户为该组内所述待计算用户的最邻近用户。

可选地，所述用户的特征值包括对应于以下至少一项特征的特征值：性别、年龄、所在城市、所属行业、职业、收入水平、教育程度、婚姻状况。

可选地，所述根据所述最邻近用户关注的所有公众号以及对应公众号的单位时间的最新信息衰减系数确定该组针对所述待计算用户的推荐公众号包括：在每个组内，计算所述待计算用户的最邻近用户的所有关注的公众号的评分，所述公众号的评分等于关注该公众号的最邻近用户与待计算用户的特征值之间的欧氏距离与该公众号的单位时间的最新信息衰减系数的乘积，按照所述公众号的评分由大到小的顺序，确定第二预定数目的公众号为该组针对所述待计算用户的推荐公众号。

可选地，所述公众号的单位时间的信息衰减系数根据以下参数中的一个或多个计算得到：单位时间内的公众号的关注量、查看量及点击量。

可选地，所述根据所有组针对所述待计算用户的推荐公众号，确定所述待计算用户的最终推荐公众号包括：

根据每个组针对所述待计算用户的推荐公众号的评分由大到小的顺序，确定第三预定数目的公众号为所有组针对待计算用户的最终推荐公众号，其中，所述第三预定数据小于或等于所述第二预定数目与组数的乘积。

可选地，所述确定所述待计算用户的最终推荐公众号之后，该方法还包括：将所述待计算用户的最终推荐公众号推送给所述待计算用户。

本发明还提供一种公众号推荐系统，包括：第一分析单元，设置为将从数据库读取的用户数据进行分组；第二分析单元，设置为针对待计算用户，在每个组内，确定所述待计算用户的最邻近用户，并根据所述最邻近用户关注的所有公众号以及对应公众号的单位时间的最新信息衰减系数确定该组针对所述待计算用户的推荐公众号；第三分析单元，设置为根据所有组针对所述待计算用户的推荐公众号，确定所述待计算用户的最终推荐公众号。

可选地，所述第一分析单元，具体设置为：根据用户数据总量与分解粒度系数的比值确定组数；按照确定的组数将相应数目的用户数据分到相应的组中。

可选地，所述第二分析单元，设置为在每个组内，确定所述待计算用户的最邻近用户，包括：抽取所述待计算用户的特征值以及该组内所有用户的特征值，计算所述待计算用户的特征值与该组内每个用户的特征值之间的欧氏距离，按照欧氏距离由小到大的顺序，确定第一预定数目的用户为该组内所述待计算用户的最邻近用户。

可选地，所述第二分析单元，设置为根据所述最邻近用户关注的所有公众号以及对应公众号的单位时间的最新信息衰减系数确定该组针对所述待计算用户的推荐公众号，包括：在每个组内，计算所述待计算用户的最邻近用户的所有关注的公众号的评分，所述公众号的评分等于关注该公众号的最邻近用户与待计算用户的特征值之间的欧氏距离与该公众号的单位时间的最新信息衰减系数的乘积，按照所述公众号的评分由大到小的顺序，确定第二预定数目的公众号为该组针对所述待计算用户的推荐公众号。

可选地，所述第三分析单元，具体设置为：根据每个组针对所述待计算用户的推荐公众号的评分由大到小的顺序，确定第三预定数目的公众号为所有组针对所述待计算用户的最终推荐公众号，其中，所述第三预定数据小于或等于所述第二预定数目与组数的乘积。

可选地，该系统还包括：推送模块，设置为将所述待计算用户的最终推荐公众号推送给所述待计算用户。

本发明另一实施例提供了一种计算机存储介质，所述计算机存储介质存储有执行指令，所述执行指令用于执行上述实施例中的方法。

在本发明中，将从数据库读取的用户数据进行分组；针对待计算用户，在每个组内，确定待计算用户的最邻近用户，并根据最邻近用户关注的所有公众号以及对应公众号的单位时间的最新信息衰减系数确定该组针对待计算用户的推荐公众号；根据所有组针对待计算用户的推荐公众号，确定待计算用户最终的推荐公众号。在本发明中，通过将大量用户数据进行并行处理，提升了大规模数据的计算性能；同时，根据最邻近用户及公众号的单位时间的最新信息衰减系数确定向待计算用户推荐的公众号，实现了优先推荐活跃度高的公众号。

较佳地，在本发明中，用户的特征值包括对应于以下至少一项特征的特征值：性别、年龄、所在城市、所属行业、职业、收入水平、教育程度、婚姻状况。如此，相较于现有技术，特征值容易抽取，而且，某些特征值的缺失并不会造成计算结果失效。而且，基于用户特征值确定待计算用户的最邻近用户，解决了现有技术中基于协调算法存在的稀疏性等问题。

附图说明

图1为现有技术方案的理论模型图；

图2为本发明实施例提供的公众号推荐方法的流程图；

图3为本发明实施例中用户数据分组示意图；

图4为Matlab建模的流量数据与指数函数的拟合示意图；

图5为公众号的信息衰减模型图；

图6为本发明实施例的数据模型图；

图7为本发明实施例并行处理的示意图；

图8为本发明实施例一提供的公众号推荐系统的示意图；

图9为本发明实施例一提供的公众号推荐方法的流程图。

具体实施方式

以下结合附图对本发明的实施例进行详细说明，应当理解，以下所说明的实施例仅用于说明和解释本发明，并不用于限定本发明。

图2为本发明实施例提供的公众号推荐方法的流程图。如图2所示，本实施例提供的公众号推荐方法包括以下步骤：

步骤11：将从数据库读取的用户数据进行分组。

其中，步骤11包括：

根据用户数据总量与分解粒度系数的比值确定组数；

按照确定的组数将相应数目的用户数据分到相应的组中。

具体而言，如图3所示，根据数据库统计记录的用户数据总量N以及分解粒度系数P，确定用户数据的组数T。于此，T＝N/P。举例而言，用户数据总量N为100万，分解粒度系数P为10万，则用户数据的组数为10个。换言之，针对100万用户数据，每10万个用户数据分解到一个并行处理任务，进行并行处理。

步骤12：针对待计算用户，在每个组内，确定待计算用户的最邻近用户，并根据最邻近用户关注的所有公众号以及对应公众号的单位时间的最新信息衰减系数确定该组针对待计算用户的推荐公众号。

具体而言，在每个组内，确定待计算用户的最邻近用户包括：抽取待计算用户的特征值以及该组内所有用户的特征值，计算待计算用户的特征值与该组内每个用户的特征值之间的欧氏距离，按照欧氏距离由小到大的顺序，确定第一预定数目的用户为该组内待计算用户的最邻近用户。

其中，用户的特征值包括对应于以下至少一项特征的特征值：性别、年龄、所在城市、所属行业、职业、收入水平、教育程度、婚姻状况。具体而言，在对用户的特征值进行计算之前，会对各特征的不同情况分别赋值，并对数据进行归一化处理，以便于后续计算。比如，对不同城市进行赋值和数据归一化处理。

举例而言，待计算用户例如为用户x，用户x的特征值表示为x＝(x₁，……，x_n)，第一组中的用户y的特征值例如表示为y＝(y₁，……，y_n)，则待计算用户x的特征值与用户y的特征值之间的欧氏距离表示如下：

具体而言，在每个组内，根据上述欧氏距离计算公式，计算待计算用户与该组内每个用户之间的欧氏距离，确定欧氏距离最小的第一预定数目(如三个)的用户为该组内待计算用户的最邻近用户。即，用户特征值之间的欧氏距离越小，用户的相似度越高。其中，第一预定数目为大于0的整数，可根据实际需要进行设定，本发明对此并不限定。

于此，针对待计算用户，在每个组内，根据最邻近用户关注的所有公众号以及对应公众号的单位时间的最新信息衰减系数确定该组针对待计算用户的推荐公众号包括：在每个组内，计算待计算用户的最邻近用户的所有关注的公众号的评分，公众号的评分等于关注该公众号的最邻近用户与待计算用户的特征值之间的欧氏距离与该公众号的单位时间的最新信息衰减系数的乘积，按照公众号的评分由大到小的顺序，确定第二预定数目的公众号为该组针对待计算用户的推荐公众号。

其中，公众号的单位时间的信息衰减系数根据以下参数中的一个或多个计算得到：单位时间内的公众号的关注量、查看量及点击量。

以下为了说明公众号的信息衰减系数的确定进行如下假设：

假定某事物(如人体内的病毒或啤酒沫)的数量为N，且该事物减少的速度与其数量成一定比例，则在给定的时间间隔Δt下，有如下表达式：

若Δt趋于零，则可以得到一个导数，数量为时间的函数，表达式如下：

N＝N₀e^-rt。

于此，为了对上述函数进行验证，通过数学软件Matlab建模，得到流量数据与指数函数的拟合情况如图4所示，据此，可以得到拟合函数和拟合参数如下：

N＝N₀e^-rt+B，

其中，N₀＝139.4hits/min，r＝0.168s^-1，B＝20.5hits/min。

这表明在指数衰减模型下，公众号发布的消息每分钟能获得约20次点击，其中，N为每分钟点击数，并非总点击数。

现假定，有85万关注者可能会看到公众号发布的链接，此处忽略了那些看到链接的非关注者，将公众号的关注量设为F，在这些关注者中有些会查看自己的公众号消息，假定这部分关注者为W(即，公众号的查看量)，这些看到链接的关注者中还有一部分会打开链接，假定这部分用户为C(即，公众号的点击量)，另外，还有些人会通过其它途径点击该链接，假定这部分人为B。如图5所示，其中，大圈为总关注者量F，中圈为查看量W，小圈为点击量C。

公众号含有链接的消息发出一分钟后，所获得点击数如下：

N₁＝cwF+B。

假定用户a是一个看到此链接的人，每分钟用户a都会在此公众号中看到一个新链接，且用户a点击某个链接的几率和链接总数成比例，则以下前两分钟的点击量为：

其中，l为某个常量，表示新增加信息发表量，0.25为针对没有点击情况的假定比例。

此外，B也为常量，并存在另外一个假设，有些点击者会转发该链接，从而产生二阶效应，由此得出第二分钟内的函数关系如下：

N₂＝c₂w(F-N₁)+B，

其中，N₁代表第一分钟内该链接的点击次数，通过工具对数据模型进行验证，可以得出以下参数：w＝0.02，B＝15，假定l₀＝25，即每分钟普通推友能看到25条新信息，根据以上推导，可以进行计算得出单位时间的信息衰减系数，例如为0.52。

具体而言，根据F＝850000，此处假定查看比例为0.02，即850000*0.02＝17000人会查看，

其中，根据上述公式推导可得点击比例数C如下：

C1＝0.25*1/25＝0.01；

C2＝0.25*1/50＝0.005；

C3＝0.25*1/75＝0.0033；

C4＝0.25*1/100＝0.0025；

根据上述公式推导可得到N值如下：

N1＝0.01*0.02*850000+20＝190；

N2＝0.005*0.02*(850000-190)+15＝99；

N3＝0.0033*0.02*(850000-99)+10＝66；

N4＝0.0025*0.02*(850000-66)+8＝50；

相应地，公众号的信息衰减系数如下：

T1＝99/190＝0.52；

T2＝66/99＝0.66；

T3＝50/66＝0.75；

其中，公众号的单位时间的信息衰减系数的取值在0～1之间。

由此可见，根据数据拟合曲线可见，信息量以指数衰减，从快到慢，单位时间的信息衰减系数由小变大，以第一分钟的公众号的信息衰减系数作为加权系数，取值越大衰减越慢，越小衰减越快，且欧氏距离越小用户越接近，如此，综合评分越大，公众号的活跃度越高。

步骤13：根据所有组针对待计算用户的推荐公众号，确定待计算用户的最终推荐公众号。

于此，步骤13包括：根据每个组针对所述待计算用户的推荐公众号的评分由大到小的顺序，确定第三预定数目的公众号为所有组针对待计算用户的最终推荐公众号，其中，第三预定数据小于或等于第二预定数目与组数的乘积。

此外，于步骤13之后，该方法还包括：将待计算用户的最终推荐公众号推送给待计算用户。

于此，图6为本发明实施例的数据模型图。如图6所示，针对用户A，用户A本身关注(Follow)1、3，根据用户A与用户B的关系(Relation)可以找到用户A的一度关系用户B关注的2；根据用户A与用户B、E的关系可以找到用户A的二度关系用户E关注的4；根据用户A与D的关系可以找到用户A的一度关系用户D关注的5。

图7为本发明实施例并行处理的示意图。如图7所示，在本实施例中，针对待计算用户，每个组内，计算组内K最近邻(k-Nearest Neighbor，简称为KNN)(即K个最邻近用户)，于此，K最近邻通过用户特征值的欧氏距离确定，K为大于0的整数。在每个组内，确定待计算用户的K最近邻之后，通过最邻近用户关注公众号的单位时间的最新信息衰减系统对其对应的欧氏距离进行加权，并根据加权后的结果进行组内判断确定该组针对待计算用户的推荐公众号。

举例而言，以第一组内待计算用户(如用户A)的最邻近用户为用户B、用户C及用户D为例(即，此时，K＝3)，用户A与用户B之间的欧氏距离例如为5，用户A与用户C之间的欧氏距离例如为3，用户A与用户D之间的欧氏距离例如为2，另外，用户B关注公众号b1与b2，且公众号b1的信息衰减系数例如为0.8，公众号b2的信息衰减系数例如为0.6，用户C关注公众号c1，且公众号c1的信息衰减系数例如为0.7，用户D关注公众号d1与d2，且公众号d1的信息衰减系数例如为0.86，公众号d2的信息衰减系数例如为0.95；此时，公众号b1的评分为5*0.8＝4；公众号b2的评分为5*0.6＝3；公众号c1的评分为3*0.7＝2.1；公众号d1的评分为2*0.86＝1.72；公众号d2的评分为2*0.95＝1.9。据此，当第二预定数目(如图7中的K)为3个时，第一组针对待计算用户的推荐公众号为公众号b1、b2及c1。

同理，针对每个组均进行上述处理，在每个组均能得到三个推荐公众号；之后，合并所有组的结果，并根据所有得到的推荐公众号的评分确定最终推荐公众号。例如，当第三预定数目(如图7中的J)为5个时，根据所有组得到的推荐公众号的评分由大到小的顺序，针对用户A确定5个最终推荐公众号。

此外，本发明实施例还提供一种公众号推荐系统，包括：第一分析单元，设置为将从数据库读取的用户数据进行分组；第二分析单元，设置为针对待计算用户，在每个组内，确定所述待计算用户的最邻近用户，并根据所述最邻近用户关注的所有公众号以及对应公众号的单位时间的最新信息衰减系数确定该组针对所述待计算用户的推荐公众号；第三分析单元，设置为根据所有组针对所述待计算用户的推荐公众号，确定所述待计算用户的最终推荐公众号。

其中，第一分析单元，具体设置为：根据用户数据总量与分解粒度系数的比值确定组数；按照确定的组数将相应数目的用户数据分到相应的组中。

其中，第二分析单元，设置为在每个组内，确定所述待计算用户的最邻近用户，包括：抽取所述待计算用户的特征值以及该组内所有用户的特征值，计算所述待计算用户的特征值与该组内每个用户的特征值之间的欧氏距离，按照欧氏距离由小到大的顺序，确定第一预定数目的用户为该组内所述待计算用户的最邻近用户。其中，用户的特征值包括对应于以下至少一项特征的特征值：性别、年龄、所在城市、所属行业、职业、收入水平、教育程度、婚姻状况。

其中，第二分析单元，设置为根据所述最邻近用户关注的所有公众号以及对应公众号的单位时间的最新信息衰减系数确定该组针对所述待计算用户的推荐公众号，包括：在每个组内，计算待计算用户的最邻近用户的所有关注的公众号的评分，公众号的评分等于关注该公众号的最邻近用户与待计算用户的特征值之间的欧氏距离与该公众号的单位时间的最新信息衰减系数的乘积，按照公众号的评分由大到小的顺序，确定第二预定数目的公众号为该组针对所述待计算用户的推荐公众号。其中，公众号的单位时间的信息衰减系数根据以下参数中的一个或多个计算得到：单位时间内的公众号的关注量、查看量及点击量。

其中，第三分析单元，具体设置为：根据每个组针对待计算用户的推荐公众号的评分由大到小的顺序，确定第三预定数目的公众号为所有组针对所述待计算用户的最终推荐公众号，其中，所述第三预定数据小于或等于所述第二预定数目与分组数目的乘积。

此外，上述系统还包括推送模块，设置为将所述待计算用户的最终推荐公众号推送给所述待计算用户。

关于上述系统的具体处理流程同上述方法所述，故于此不再赘述。

图8为本发明实施例一提供的公众号推荐系统的示意图。如图8所示，于本实施例中，公众号推荐系统包括第一分析单元、第二分析单元、第三分析单元、推送模块、存储模块以及用户终端。于此，第一分析单元、第二分析单元以及第三分析单元例如整合在分析模块中。于实际应用中，存储模块例如为存储器等具有数据存储功能的元件；第一分析单元、第二分析单元、第三分析单元以及推送模块的功能例如由计算机处理器读取存储在存储器的程序/指令实现，或者，上述模块的功能还可以通过固件/逻辑电路/集成电路实现。

于本实施例中，分析模块为公众号推荐系统的主计算模块，设置为根据用户和公众号，读取数据，然后分组，加入分布式计算任务，计算每个组内待计算用户的K个最邻近用户，并根据K个最邻近用户加权公众号的单位时间的最新信息衰减系数确定每个组内的推荐公众号，最后合并所有组的结果得到最终推荐公众号；推送模块例如为一个任务队列，在程序启动时加载，然后轮询是否存在待推送的公众号候选集列表，读取待推送候选集数据，推送给用户终端；用户终端为用户客户端，包括用户的朋友关系以及关注的公众号，轮询读取是否有最新的公众号被推荐过来，并显示在界面上；存储模块，设置为存储用户及公众号数据，以及关注量、查看量、点击记录等。

图9为本发明实施例一提供的公众号推荐方法的流程图。如图9所示，本实施例具体描述如下：

步骤101A：在分析模块启动分析进程；

步骤101B：在推送模块启动推送进程；

步骤102：分析模块按待计算用户(例如，用户A)发起离线计算任务，其中，待计算用户例如为数据库存储的任意用户；

步骤103：分析模块从存储模块读取数据库全量用户数据(即，样本数据)；

步骤104：存储模块向分析模块返回数据记录；

步骤105：分析模块计算全量用户数据的分组，其中，分组策略同上述方法所述，故于此不再赘述；

步骤106：分析模块按照分组结果将全量用户数据分解成多个并行处理任务(如，task1……taskn)；

步骤107：分析模块计算每个组内用户A的K最近邻(KNN)，于此，K的取值例如为大于0且不大于5的整数，其中，用户A的K最近邻的确定过程同上述方法所述，故于此不再赘述；

步骤108：分析模块获取K个最邻近用户关注的公众号，以及该些公众号的信息衰减系数，通过最邻近用户的欧氏距离与对应关注公众号的单位时间的最新信息衰减系数的乘积确定K个最邻近用户所有的关注公众号的评分；按照评分从大到小的顺序，确定每个组的公众号推荐结果；

步骤109：分析模块合并分组结果，即合并所有组的推荐公众号；

步骤110：分析模块根据合并的所有组的推荐公众号的评分，按照从大到小的顺序，取前J个临近结果，即确定J个最终推荐公众号，于此，J例如为大于0且不大于5的整数；

步骤111：分析模块得到用户A的推荐公众号候选集；

步骤112：分析模块将得到的用户A的推荐公众号候选集加入推送模块的推送列表；

步骤113：推送模块轮询推送列表；

步骤114：推送模块读取推送列表；

步骤115：推送模块将用户A的推荐公众号候选集推给用户A对应终端；

步骤116：用户终端对公众号进行关注、查看或点击。

本发明的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质中存储有执行指令，该执行指令用于执行上述的方法。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

综上所述，在本发明实施例中，通过将用户数据进行分组和通过加权单位时间的信息衰减系数对公众号进行评分，提高了大规模数据的计算性能，而且，单位时间的信息衰减系数为动态变化的，从而通过动态调整的信息衰减系数实现了公众号候选集的动态调整。本发明实施例实现了优先推荐活跃程度高的公众号，而且，本发明实施例提供的系统会根据数据量的增长和变化进行自动学习。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。

工业实用性

如上所述，本发明实施例提供的一种公众号推荐方法及系统具有以下有益效果：通过将大量用户数据进行并行处理，提升了大规模数据的计算性能；同时，根据最邻近用户及公众号的单位时间的最新信息衰减系数确定向待计算用户推荐的公众号，实现了优先推荐活跃度高的公众号。

Claims

一种公众号推荐方法，包括：

将从数据库读取的用户数据进行分组；

针对待计算用户，在每个组内，确定所述待计算用户的最邻近用户，并根据所述最邻近用户关注的所有公众号以及对应公众号的单位时间的最新信息衰减系数确定该组针对所述待计算用户的推荐公众号；

根据所有组针对所述待计算用户的推荐公众号，确定所述待计算用户的最终推荐公众号。
如权利要求1所述的方法，其中，所述将从数据库读取的用户数据进行分组包括：

根据用户数据总量与分解粒度系数的比值确定组数；

按照确定的组数将相应数目的用户数据分到相应的组中。
如权利要求1所述的方法，其中，所述在每个组内，确定所述待计算用户的最邻近用户包括：抽取所述待计算用户的特征值以及该组内所有用户的特征值，计算所述待计算用户的特征值与该组内每个用户的特征值之间的欧氏距离，按照欧氏距离由小到大的顺序，确定第一预定数目的用户为该组内所述待计算用户的最邻近用户。
如权利要求3所述的方法，其中，所述用户的特征值包括对应于以下至少一项特征的特征值：性别、年龄、所在城市、所属行业、职业、收入水平、教育程度、婚姻状况。
如权利要求3所述的方法，其中，所述根据所述最邻近用户关注的所有公众号以及对应公众号的单位时间的最新信息衰减系数确定该组针对所述待计算用户的推荐公众号包括：在每个组内，计算所述待计算用户的最邻近用户的所有关注的公众号的评分，所述公众号的评分等于关注该公众号的最邻近用户与待计算用户的特征值之间的欧氏距离与该公众号的单位时间的最新信息衰减系数的乘积，按照所述公众号的评分由大到小的顺序，确定第二预定数目的公众号为该组针对所述待计算用户的推荐公众号。
如权利要求5所述的方法，其中，所述公众号的单位时间的信息衰减系数根据以下参数中的一个或多个计算得到：单位时间内的公众号的关注量、查看量及点击量。
如权利要求5所述的方法，其中，所述根据所有组针对所述待计算用户的推荐公众号，确定所述待计算用户的最终推荐公众号包括：

根据每个组针对所述待计算用户的推荐公众号的评分由大到小的顺序，确定第三预定数目的公众号为所有组针对待计算用户的最终推荐公众号，其中，所述第三预定数据小于或等于所述第二预定数目与组数的乘积。
如权利要求1所述的方法，其中，所述确定所述待计算用户的最终推荐公众号之后，还包括：将所述待计算用户的最终推荐公众号推送给所述待计算用户。
一种公众号推荐系统，包括：

第一分析单元，设置为将从数据库读取的用户数据进行分组；

第二分析单元，设置为针对待计算用户，在每个组内，确定所述待计算用户的最邻近用户，并根据所述最邻近用户关注的所有公众号以及对应公众号的单位时间的最新信息衰减系数确定该组针对所述待计算用户的推荐公众号；

第三分析单元，设置为根据所有组针对所述待计算用户的推荐公众号，确定所述待计算用户的最终推荐公众号。
如权利要求9所述的系统，其中，所述第一分析单元，具体设置为：根据用户数据总量与分解粒度系数的比值确定组数；按照确定的组数将相应数目的用户数据分到相应的组中。
如权利要求9所述的系统，其中，所述第二分析单元，设置为在每个组内，确定所述待计算用户的最邻近用户，包括：抽取所述待计算用户的特征值以及该组内所有用户的特征值，计算所述待计算用户的特征值与该组内每个用户的特征值之间的欧氏距离，按照欧氏距离由小到大的顺序，确定第一预定数目的用户为该组内所述待计算用户的最邻近用户。
如权利要求11所述的系统，其中，所述用户的特征值包括对应于以下至少一项特征的特征值：性别、年龄、所在城市、所属行业、职业、收入水平、教育程度、婚姻状况。
如权利要求11所述的系统，其中，所述第二分析单元，设置为根据所述最邻近用户关注的所有公众号以及对应公众号的单位时间的最新信息衰减系数确定该组针对所述待计算用户的推荐公众号，包括：在每个组内，计算所述待计算用户的最邻近用户的所有关注的公众号的评分，所述公众号的评分等于关注该公众号的最邻近用户与待计算用户的特征值之间的欧氏距离与该公众号的单位时间的最新信息衰减系数的乘积，按照所述公众号的评分由大到小的顺序，确定第二预定数目的公众号为该组针对所述待计算用户的推荐公众号。
如权利要求13所述的系统，其中，所述公众号的单位时间的信息衰减系数根据以下参数中的一个或多个计算得到：单位时间内的公众号的关注量、查看量及点击量。
如权利要求13所述的系统，其中，所述第三分析单元，具体设置为：根据每个组针对所述待计算用户的推荐公众号的评分由大到小的顺序，确定第三预定数目的公众号为所有组针对所述待计算用户的最终推荐公众号，其中，所述第三预定数据小于或等于所述第二预定数目与组数的乘积。
如权利要求9所述的系统，其中，还包括：推送模块，设置为将所述待计算用户的最终推荐公众号推送给所述待计算用户。