WO2014056408A1

WO2014056408A1 - 推荐信息的方法、装置和服务器

Info

Publication number: WO2014056408A1
Application number: PCT/CN2013/084563
Authority: WO
Inventors: 姚从磊; 翟俊杰; 王亮; 温泉; 李亚楠
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2012-10-08
Filing date: 2013-09-29
Publication date: 2014-04-17
Also published as: US20190197416A1; US20150213368A1; US10268960B2; CN103714084B; US11710054B2; CN103714084A

Abstract

本发明公开了一种推荐信息的方法和装置，属于互联网领域。所述方法包括：获取指定用户在论坛中的搜索行为数据、浏览行为数据和对推荐内容的点击行为数据；分别对所述搜索行为数据、所述浏览行为数据和对推荐内容的点击行为数据进行预处理得到第一推荐结果、第二推荐结果和第三推荐结果；对所述第一推荐结果、所述第二推荐结果和所述第三推荐结果根据权重进行分配整合，得到推荐给所述指定用户的推荐内容。本发明综合考虑了搜索行为数据、浏览行为数据和对推荐内容的点击行为数据，丰富了推荐所利用的数据，提升了推荐的准确性。

Description

推荐信息的方法、装置和服务器

本申请要求于 2012 年 10 月 08 日提交中国专利局、申请号为 201210377563.3、发明名称为 "推荐信息的方法和装置" 的中国专利申请的优先权，其全部内容通过引用结合在本申请中。技术领域

本发明涉及互联网领域，特别涉及一种推荐信息的方法、装置和服务器。背景技术

随着网络的发展，出现了论坛社区。论坛社区中聚合了一群兴趣相似的用户，在各个版面中讨论各种最近热门的话题。在论坛中，用户最基本的目标是阅读内容获取信息，所以为了给用户提供更多的内容，在用户阅读一篇内容时，自动为用户推荐主题相关的内容，可以方便用户获取相关信息，并增加网站的黏性和点击率。

现有的一种内容推荐方法是基于用户浏览行为的推荐方法，该方法假设浏览相同内容的用户具有相同的兴趣，对论坛中用户的浏览行为进行分析，建立用户 /浏览内容的二维矩阵，在此矩阵上利用协同过滤等算法计算内容间的关联程度，从而得到推荐结果，将推荐结果推荐给用户。

在实现本发明的过程中，发明人发现现有技术至少存在以下问题：在一个论坛中，同一个用户的兴趣可能是多方面的，用户的浏览行为可能涵盖了不同主题的内容，现有技术中筒单假设浏览相同内容的用户具有相同的兴趣，会导致不同主题的内容被认为是主题相近的，这样得到的推荐结果不一定是用户感兴趣的内容，降低了推荐给用户的为内容为用户感兴趣的内容的准确性。且，当论坛的数据量相对较少，并且用户的浏览行为数据规模也相对较小时，会造成用户 /浏览内容二维矩阵比较稀疏，严重影响最后的推荐效果，所以单纯的通过用户的浏览行为得到的推荐结果对于用户而言不一定准确，影响论坛社区对用户推荐结果的准确性。发明内容为了提高论坛中推荐内容的准确性，本发明实施例提供了一种推荐信息的方法和装置。所述技术方案如下：

一方面，提供了一种推荐信息的方法，所述方法包括：

获取指定用户在论坛中的搜索行为数据、浏览行为数据和对推荐内容的点击行为数据；

分别对所述搜索行为数据、所述浏览行为数据和所述对推荐内容的点击行为数据进行预处理得到第一推荐结果、第二推荐结果和第三推荐结果；

对所述第一推荐结果、所述第二推荐结果和所述第三推荐结果根据权重进行分配整合，得到推荐给所述指定用户的推荐内容。

所述对所述搜索行为数据进行预处理得到第一推荐结果，包括：过滤掉所述搜索行为数据中的噪音数据，得到去噪数据，其中，所述去噪数据包括所述指定用户在所述论坛中输入的查询字符串；

统计所述每个查询字符串引发的点击帖子 ^的次数；

根据所述每个查询字符串引发的点击所述帖子 1^的次数，计算所述帖子 ^被所述每个查询字符串引发的点击概率 _Wl;

根据所述帖子被所述每个查询字符串引发的点击概率 _Wl, 建立引发点击所述帖子 Ti的查询向量，其中所述查询向量为 <_Wl, w₂, w_{1 5} . . . ,w_n>；根据所述建立的每个帖子的查询向量计算任意所述任意两个帖子间的相关度，得到第一推荐结果。

所述对所述浏览行为数据进行预处理得到第二推荐结果，包括：对所述浏览行为数据进行分析，获取所述论坛中被所述指定用户浏览过的帖子；

根据所述被浏览的帖子所属的版面，将所述指定用户的浏览行为划分成至少一个父主题段；

计算所述每个父主题段中的帖子标题的文本相似度，获得所述每个父主题段下子主题段间的分界线；

根据所述子主题段间的分界线将所述相应的父主题段进行划分，得到至少一个子主题段；

根据所述每个子主题段建立所述指定用户的浏览行为矩阵，所述浏览行为矩阵中包括：子主题和所述论坛中的帖子在所述子主题中出现的次数；对所述浏览行为矩阵进行相关度计算，得到第二推荐结果。

所述对所述点击行为数据进行预处理得到第三推荐结果，包括：对所述点击行为数据进行分析，获得所述论坛中每篇帖子的相关贴和所述每篇相关帖被点击的次数；

根据所述每篇相关帖被点击的次数和所述相关帖被点击的时间与当前时间的关系，对所述论坛中的相关贴进行重排序，使得被点击次数多的且被点击时间与所述当前时间的差值在预设范围之内的相关帖排在队列的前端，得到第三推荐结果。

所述对所述第一推荐结果、所述第二推荐结果和所述第三推荐结果根据权重进行分配整合，得到推荐给所述指定用户的推荐内容，包括：

分别计算所述论坛中的每一篇帖子的相关贴在所述第一推荐结果、所述第二推荐结果和所述第三推荐结果中出现的第一平均概率、第二平均概率和第三平均概率；

根据所述第一平均概率、所述第二平均概率和所述第三平均概率分别确定所述第一推荐结果的权重、所述第二推荐结果的权重和所述第三推荐结果的权重；

基于所述第一推荐结果的权重、所述第二推荐结果的权重和所述第三推荐结果的权重对所述第一推荐结果、所述第二推荐结果和所述第三推荐结果进行分配整合，得到推荐给所述指定用户的推荐内容；或，

根据预先设定的所述第一推荐结果的第一权重、所述第二推荐结果的第二权重和所述第三推荐结果的第三权重，对所述第一推荐结果、所述第二推荐结果和所述第三推荐结果进行分配整合，得到推荐给所述指定用户的推荐内容。

另一方面，提供了一种推荐信息的装置，所述装置包括：

获取模块，用于获取指定用户在论坛中的搜索行为数据、浏览行为数据和对推荐内容的点击行为数据；

预处理模块，用于分别对所述搜索行为数据、所述浏览行为数据和所述对推荐内容的点击行为数据进行预处理得到第一推荐结果、第二推荐结果和第三推荐结果；

整合模块，用于对所述第一推荐结果、所述第二推荐结果和所述第三推荐结果根据权重进行分配整合，得到推荐给所述指定用户的推荐内容。所述预处理模块，包括：

过滤单元，用于过滤掉所述搜索行为数据中的噪音数据，得到去噪数据，其中，所述去噪数据包括所述指定用户在所述论坛中输入的查询字符串；统计单元，用于统计所述每个查询字符串（¾引发的点击帖子 1^的次数；第一计算单元，用于根据所述每个查询字符串引发的点击所述帖子 ^ 的次数，计算所述帖子 ^被所述每个查询字符串引发的点击概率 _Wl;

第一建立单元，用于根据所述帖子 ^被所述每个查询字符串引发的点击概率 w_l 建立引发点击所述帖子 Ti的查询向量，其中所述查询向量为 <_Wl, w₂, Wj , ...,w_n>;

第二计算单元，用于根据所述建立的每个帖子的查询向量计算任意所述任意两个帖子间的相关度，得到第一推荐结果。

所述预处理模块，包括：

获取单元，用于对所述浏览行为数据进行分析，获取所述论坛中被所述指定用户浏览过的帖子；

第一划分单元，用于根据所述被浏览的帖子所属的版面，将所述指定用户的浏览行为划分成至少一个父主题段；

第三计算单元，用于计算所述每个父主题段中的帖子标题的文本相似度，第二划分单元，用于根据所述子主题段间的分界线将所述相应的父主题段进行划分，得到至少一个子主题段；

第二建立单元，用于根据所述每个子主题段建立所述指定用户的浏览行为矩阵，所述浏览行为矩阵中包括：子主题和所述论坛中的帖子在所述子主题中出现的次数；

第四计算单元，用于对所述浏览行为矩阵进行相关度计算，得到第二推荐结果。

所述预处理模块，包括：

分析单元，用于对所述点击行为数据进行分析，获得所述论坛中每篇帖子的相关贴和所述每篇相关帖被点击的次数；

重排序单元，用于根据所述每篇相关帖被点击的次数和所述相关帖被点击的时间与当前时间的关系，对所述论坛中的相关贴进行重排序，使得被点击次数多的且被点击时间与所述当前时间的差值在预设范围之内的相关帖排在队列的前端，得到第三推荐结果。

所述整合模块，包括：

计算单元，用于分别计算所述论坛中的每一篇帖子的相关贴在所述第一推荐结果、所述第二推荐结果和所述第三推荐结果中出现的第一平均概率、第二平均概率和第三平均概率；

确定单元，用于根据所述第一平均概率、所述第二平均概率和所述第三平均概率分别确定所述第一推荐结果的权重、所述第二推荐结果的权重和所述第三推荐结果的权重；

第一整合单元，用于基于所述第一推荐结果的权重、所述第二推荐结果的权重和所述第三推荐结果的权重对所述第一推荐结果、所述第二推荐结果和所述第三推荐结果进行整合，得到推荐给所述指定用户的推荐内容；或，

第二整合单元，用于根据预先设定的所述第一推荐结果的第一权重、所述第二推荐结果的第二权重和所述第三推荐结果的第三权重，对所述第一推荐结果、所述第二推荐结果和所述第三推荐结果进行分配整合，得到推荐给所述指定用户的推荐内容。

再一方面，提供了一种服务器，所述服务器包括：

一个或多个处理器；和

存储器；

所述存储器存储有一个或多个程序，所述一个或多个程序被配置成由所述一个或多个处理器执行，所述一个或多个程序包含用于进行以下操作的指令：获取指定用户在论坛中的搜索行为数据、浏览行为数据和对推荐内容的点击行为数据；

所述服务器还包含用于进行以下操作的指令：

过滤掉所述搜索行为数据中的噪音数据，得到去噪数据，其中，所述去噪数据包括所述指定用户在所述论坛中输入的查询字符串；统计所述每个查询字符串引发的点击帖子 ^的次数；

所述服务器还包含用于进行以下操作的指令：

对所述浏览行为数据进行分析，获取所述论坛中被所述指定用户浏览过的帖子；

根据所述每个子主题段建立所述指定用户的浏览行为矩阵，所述浏览行为矩阵中包括：子主题和所述论坛中的帖子在所述子主题中出现的次数；

对所述浏览行为矩阵进行相关度计算，得到第二推荐结果。

所述服务器还包含用于进行以下操作的指令：

对所述点击行为数据进行分析，获得所述论坛中每篇帖子的相关贴和所述每篇相关帖被点击的次数；

所述服务器还包含用于进行以下操作的指令：

分别计算所述论坛中的每一篇帖子的相关贴在所述第一推荐结果、所述第二推荐结果和所述第三推荐结果中出现的第一平均概率、第二平均概率和第三平均概率；根据所述第一平均概率、所述第二平均概率和所述第三平均概率分别确定所述第一推荐结果的权重、所述第二推荐结果的权重和所述第三推荐结果的权重；

本发明实施例提供的技术方案带来的有益效果是：获取指定用户在论坛中的搜索行为数据、浏览行为数据和对推荐内容的点击行为数据；分别对所述搜索行为数据、所述浏览行为数据和所述对推荐内容的点击行为数据进行预处理得到第一推荐结果、第二推荐结果和第三推荐结果；对所述第一推荐结果、所述第二推荐结果和所述第三推荐结果根据权重进行分配整合，得到推荐给所述指定用户的推荐内容。其中综合考虑了搜索行为数据、浏览行为数据和对推荐内容的点击行为数据，丰富了推荐所利用的数据，提升了推荐的准确性。附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作筒单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图 1是本发明实施例一提供的一种推荐信息的方法流程图；

图 2是本发明实施例二提供的一种推荐信息的方法流程图；

图 3是本发明实施例三提供的一种推荐信息的装置结构示意图；

图 4是本发明实施例三提供的另一种推荐信息的装置结构示意图；图 5是本发明一个实施例提供的服务器的结构示意图。具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

实施例一

参见图 1 , 本实施例中提供了一种推荐信息的方法，包括：

101、获取指定用户在论坛中的搜索行为数据、浏览行为数据和对推荐内容的点击行为数据；

102、分别对所述搜索行为数据、所述浏览行为数据和所述对推荐内容的点击行为数据进行预处理得到第一推荐结果、第二推荐结果和第三推荐结果；

103、对所述第一推荐结果、所述第二推荐结果和所述第三推荐结果根据权重进行分配整合，得到推荐给所述指定用户的推荐内容。

其中，所述对所述搜索行为数据进行预处理得到第一推荐结果，包括：过滤掉所述搜索行为数据中的噪音数据，得到去噪数据，其中，所述去噪数据包括所述指定用户在所述论坛中输入的查询字符串；

统计所述每个查询字符串引发的点击帖子 ^的次数；

根据所述帖子 ^被所述每个查询字符串引发的点击概率 _Wl, 建立引发点击所述帖子 Ti的查询向量，其中所述查询向量为 <_Wl, w₂, w_{1 5} . . . ,w_n>；根据所述建立的每个帖子的查询向量计算任意所述任意两个帖子间的相关度，得到第一推荐结果。

本实施例中，所述对所述浏览行为数据进行预处理得到第二推荐结果，包括：

其中，所述对所述点击行为数据进行预处理得到第三推荐结果，包括：对所述点击行为数据进行分析，获得所述论坛中每篇帖子的相关贴和所述每篇相关帖被点击的次数；

可选地，所述对所述第一推荐结果、所述第二推荐结果和所述第三推荐结果根据权重进行分配整合，得到推荐给所述指定用户的推荐内容，包括：分别计算所述论坛中的每一篇帖子的相关贴在所述第一推荐结果、所述第二推荐结果和所述第三推荐结果中出现的第一平均概率、第二平均概率和第三平均概率；

本实施例的有益效果是：获取指定用户在论坛中的搜索行为数据、浏览行为数据和对推荐内容的点击行为数据；分别对所述搜索行为数据、所述浏览行为数据和所述对推荐内容的点击行为数据进行预处理得到第一推荐结果、第二推荐结果和第三推荐结果；对所述第一推荐结果、所述第二推荐结果和所述第三推荐结果进行整合，得到推荐给所述指定用户的推荐内容。其中综合考虑了搜索行为数据、浏览行为数据和对推荐内容的点击行为数据，丰富了推荐所利用的数据，提升了推荐的准确性。实施例二

本发明实施例提供了一种推荐信息的方法，在论坛中，用户的基本行为包括：浏览行为、搜索行为和对推荐内容的点击行为，本实施例中建立搜索行为模型、浏览行为模型和推荐点击行为模型，通过三个模型分别对论坛用户的三种行为数据进行分析，得到三种不同的推荐结果，最后将这三种不同的推荐结果整合，得到最终的推荐内容。

参见图 2, 方法流程包括：

201、获取指定用户在论坛中的搜索行为数据，对所述搜索行为数据进行预处理得到第一推荐结果。

本实施例中，论坛可以是网络上的任意一个论坛社区，指定用户可以是论坛中的任意一个用户，对此本实施例不做具体限定。

本实施例在搜索行为建模中，对论坛中的数据进行分析，获取论坛中指定用户的搜索行为数据，其中，搜索行为数据包括搜索点击行为数据，首先对搜索点击行为数据进行预处理，过滤掉恶意点击的噪音数据；然后建立查询字符串到被点击帖子的映射；最后基于这种映射关系，将帖子表示为查询的向量，进而计算帖子的主题相关度，得到推荐结果。其中，噪音数据是指非论坛用户的正常操作行为数据，包括机器人爬取和恶意点击等异常数据，对此本实施例不做具体限定。噪音数据在时间上的分布具有一定的模式，比如一个查询的前几页搜索结果均在很短时间内被同一用户点击，则该点击事件即为噪音数据，利用这些模式可以过滤掉噪音数据，得到干净的去噪数据。

本步骤中，具体的对所述搜索行为数据进行预处理得到第一推荐结果，包括：

过滤掉所述搜索行为数据中的噪音数据，得到去噪数据，其中，所述去噪数据包括所述指定用户在所述论坛中输入的所有查询字符串；

统计所述每个查询字符串引发的点击帖子 1^的次数,其中（((¾,Τ)为查询引发点击帖子 Τ的次数；

根据所述每个查询字符串引发的点击所述帖子 1^的次数，计算所述帖子 ^被所述每个查询字符串引发的点击概率 _Wl , _Wl = 。((¾,Τ)/(。( ,Τ) + c(Q₂,T)+ ... + c(Q_n,T))，其中 n为查询字符串的总数; 所述帖子 ^被所述每个查询字符串引发的点击概率 _Wl, 建立引发点击所述帖子的查询向量，其中所述查询向量为 <_Wl, w₂, w_{1 5} ...,w_n>；

根据所述建立的每个帖子的查询向量计算任意所述任意两个帖子间的相关度，得到第一推荐结果。

本实施例中，当指定用户用同一个查询串来进行搜索时，会输出不同的搜索结果，指定用户可能会在每次搜索时点击不同的帖子，所以可以根据查询字符串对应的帖子点击数据，把每一篇帖子表示为引发点击该帖子的查询的向量。对于一篇帖子 T, 其查询向量为： T=<_Wl, w₂, Wi, ...,w_n>。这样每一篇帖子都可以表示为查询的向量。对于两篇帖子 ^和 η,可以利用它们对应的查询向量的相似度来衡量它们的主题相关度。如 T^ W W₂, W₃, ....w_n>, , v₂, v₃, ....v_n>, 相关度计算一般采用余弦距离，即两个向量的夹角余弦，即其相似度为 Sim<Ti,Tj> = (Ti *Tj)/(ITillTjl)。

本实施例中在计算查询向量相似度时，可以利用经典的向量空间模型来进行计算，当然也可以采用其它现有技术中计算向量相似度的方法，对此本实施例不做具体限定。

202、获取指定用户在论坛中的浏览行为数据，对所述浏览行为数据进行预处理得到第二推荐结果。

本步骤中，在用户浏览行为建模中，需要首先分析指定用户在论坛中的浏览行为的特点，根据特点对用户浏览行为进行预处理，使得处理过后的数据可以真实反映用户的兴趣和帖子内容之间的关系。在具体实现过程中，一方面，现有的论坛组织形式中，论坛中的内容是按版面来组织的，每个版面的帖子内容往往是围绕一个大的主题进行的，在这一大的主题下，不同的帖子围绕一些小的主题进行展开和讨论。例如，大的主题为 "文化消费"，则在 "文化消费" 的主题下还会有好多小的主题，不同用户根据自己感兴趣的小的主题，再进一步进行讨论。另一方面，用户在浏览论坛时是以版面为单元进行浏览的，并且在用户浏览同一版面的帖子时，由于用户兴趣的持续性，即便浏览的帖子属于不同的小的主题，但它们的主题分布还是连续的。

基于上述论坛用户浏览行为的特点，对于一个用户的一段连续时间的浏览行为，具体的，对所述浏览行为数据进行预处理得到第二推荐结果，包括：对所述浏览行为数据进行分析，获取所述论坛中被所述指定用户浏览过的帖子；

对所述浏览行为矩阵进行相关度计算，得到第二推荐结果。

本步骤中，按照被浏览帖子所属的版面将浏览行为划分为大的父主题段；在每一个父主题段中，对帖子标题的文本相似度进行计算，找到基本主题段（子主题段）间的分界线，进而将每个父主题段分为多个子主题段。这样每个子主题段内的帖子都是属于同一个主题的，它们可以反映用户的明确单一的兴趣。然后，对于每个论坛近期的所有用户浏览行为建立一个二维矩阵：一个维度为每个用户的子主题段，其中，如果一个用户 U 々浏览行为中包含 ^个基本主题段，那么 M个用户对应的这一维的大小就为 N₁+N₂+... +N_i+... +N_M; 另一个维度为帖子维度，矩阵元素的值代表一篇帖子在一个子主题段中出现的次数。

如 4个主题， 3个用户，其矩阵为：

主题 1 主题 2 主题 3 主题 4

用户 1 1 1 0 0

用户 2 0 1 1 0

用户 3 1 0 0 1;

其中，矩阵元素为 1表示用户浏览过对应的主题，矩阵元素为 0则为用户未浏览过对应的主题。主题 1 的向量描述即为其对应的列 <1 , 0, 1>, 主题 2 的向量描述为 <1 , 1 , 0>。

本实施例中，将建立的二维矩阵作为输入，利用经典协同过滤算法中 item-to-item的方法计算帖子之间的相关度，得到第二推荐结果。其中协同过滤算法属于现有技术，对此本实施例不再赘述。

203、获取指定用户在论坛中的对推荐内容的点击行为数据，对所述点击行为数据进行预处理得到第三推荐结果。

在相关帖推荐中，对于一个帖子，系统会推荐给用户若干篇相关帖子，本实施例中获得指定用户对这些被推荐帖子的点击情况，根据相关贴的点击情况为推荐点击行为建模。其中，如果将每个帖子看作是查询，将它的相关帖看作是查询结果，那么推荐内容点击行为数据可以等同于相关性排序中的查询结果点击数据。本实施例中利用点击模型中的经典算法对相关帖进行重排序，达到更好的效果。

具体的，对所述点击行为数据进行预处理得到第三推荐结果，包括：对所述点击行为数据进行分析，获得所述论坛中每篇帖子的相关贴和所述每篇相关帖被点击的次数；

本实施例中，一方面，根据相关贴的点击次数进行排序；另一方面，考虑到论坛数据的强时效性特点，需要对不同时间的推荐点击数据区别处理，使得被点击时间与当前时间的差值在预设范围内的帖子排在队列的前端。其中队列是指推荐结果的队列。在得到推荐结果后，会将推荐结果放入队列中，等待推荐。预设范围可以是 5分钟、 10分钟、 20分钟、 30分钟等，对此本实施例不做具体限定。

值得说明的是，在具体的执行过程中，步骤 201-203并没有指定的先后顺序，可以是并列执行，也可以是先后执行，具体的执行顺序本实施例不做具体限定。

204、对所述第一推荐结果、所述第二推荐结果和所述第三推荐结果根据权重进行分配整合，得到推荐给所述指定用户的推荐内容。

在利用上述三种用户行为数据进行建模后，每个建模模块都会输出对应的推荐结果，需要将这三种推荐结果进行整合。其中一种整合方法是采用投票机制。具体的，基于投票机制对所述第一推荐结果、所述第二推荐结果和所述第三推荐结果根据权重进行分配整合，得到推荐给所述指定用户的推荐内容，包括：分别计算所述论坛中的每一篇帖子的相关贴在所述第一推荐结果、所述第二推荐结果和所述第三推荐结果中出现的第一平均概率、第二平均概率和第三平均概率；

基于所述第一推荐结果的权重、所述第二推荐结果的权重和所述第三推荐结果的权重对所述第一推荐结果、所述第二推荐结果和所述第三推荐结果进行分配整合，得到推荐给所述指定用户的推荐内容。

当然本实施例中也不局限于使用投票机制一种方法，本实施例中还可以根据不同用户行为可能对推荐结果产生影响的大小，预先赋予三种推荐结果不同的权重。其中，推荐点击行为建模输出的推荐结果权重最高，浏览行为建模输出的结果权重次之，搜索行为建模输出的结果权重最低。然后结合不同的权重将三种推荐结果整合起来，得到最终的推荐内容。所以可选地，对所述第一推荐结果、所述第二推荐结果和所述第三推荐结果根据权重进行分配整合，得到推荐给所述指定用户的推荐内容，包括：根据预先设定的所述第一推荐结果的第一权重、所述第二推荐结果的第二权重和所述第三推荐结果的第三权重，对所述第一推荐结果、所述第二推荐结果和所述第三推荐结果进行分配整合，得到推荐给所述指定用户的推荐内容。

本实施例中，在结果整合中，选择合适的时机更新线上推荐系统的数据，以达到良好的推荐效果。由于用户行为数据的积累需要时间，并且基于三种用户行为的建模计算都需要时间，本实施例中分析每个论坛的用户活跃周期，找到每个论坛用户不活跃的时间段，在用户不活跃的时间段中进行建模计算和结果更新。例如，再对某个论坛进行分析后发现，在凌晨 1 : 00到早晨 9: 00之间的时间段里，用户的行为非常少，所以就选择在此时间段中进行计算和更新。

本实施例的有益效果包括：获取指定用户在论坛中的搜索行为数据、浏览行为数据和对推荐内容的点击行为数据；分别对所述搜索行为数据、所述浏览行为数据和所述对推荐内容的点击行为数据进行预处理得到第一推荐结果、第二推荐结果和第三推荐结果；对所述第一推荐结果、所述第二推荐结果和所述第三推荐结果根据权重进行分配整合，得到推荐给所述指定用户的推荐内容。其中综合考虑了搜索行为数据、浏览行为数据和对推荐内容的点击行为数据，丰富了推荐所利用的数据，提升了推荐的准确性。实施例三

参见图 3 , 本实施例中提供了一种推荐信息的装置，包括：获取模块 301、预处理模块 302和整合模块 303。

获取模块 301 , 用于获取指定用户在论坛中的搜索行为数据、浏览行为数据和对推荐内容的点击行为数据；

预处理模块 302, 用于分别对所述搜索行为数据、所述浏览行为数据和所述对推荐内容的点击行为数据进行预处理得到第一推荐结果、第二推荐结果和第三推荐结果；

整合模块 303 , 用于对所述第一推荐结果、所述第二推荐结果和所述第三推荐结果根据权重进行分配整合，得到推荐给所述指定用户的推荐内容。

其中，参见图 4, 所述预处理模块 302, 包括：

过滤单元 302a, 用于过滤掉所述搜索行为数据中的噪音数据，得到去噪数据，其中，所述去噪数据包括所述指定用户在所述论坛中输入的查询字符串；统计单元 302b, 用于统计所述每个查询字符串引发的点击帖子 ^的次数；

第一计算单元 302c, 用于根据所述每个查询字符串引发的点击所述帖子 1^的次数，计算所述帖子 ^被所述每个查询字符串引发的点击概率 _Wl; 第一建立单元 302d, 用于根据所述帖子 1^被所述每个查询字符串引发的点击概率 _Wl,建立引发点击所述帖子 Ti的查询向量，其中所述查询向量为 <_Wl, w₂, .. . , Wj , ...,w_n>;

第二计算单元 302f,用于根据所述建立的每个帖子的查询向量计算任意所述任意两个帖子间的相关度，得到第一推荐结果。

其中，参见图 4, 所述预处理模块 302, 包括：

获取单元 302a' , 用于对所述浏览行为数据进行分析，获取所述论坛中被所述指定用户浏览过的帖子；

第一划分单元 302b' ,用于根据所述被浏览的帖子所属的版面，将所述指定用户的浏览行为划分成至少一个父主题段；第三计算单元 302c' ,用于计算所述每个父主题段中的帖子标题的文本相第二划分单元 302d' ，用于根据所述子主题段间的分界线将所述相应的父主题段进行划分，得到至少一个子主题段；

第二建立单元 302e' ,用于根据所述每个子主题段建立所述指定用户的浏览行为矩阵，所述浏览行为矩阵中包括：子主题和所述论坛中的帖子在所述子主题中出现的次数；

第四计算单元 302f , 用于对所述浏览行为矩阵进行相关度计算，得到第二推荐结果。

参见图 4, 所述预处理模块 302, 包括：

分析单元 302a' ' ，用于对所述点击行为数据进行分析，获得所述论坛中每篇帖子的相关贴和所述每篇相关帖被点击的次数；

重排序单元 302b' ' ，用于根据所述每篇相关帖被点击的次数和所述相关帖被点击的时间与当前时间的关系，对所述论坛中的相关贴进行重排序，使得被点击次数多的且被点击时间与所述当前时间的差值在预设范围之内的相关帖排在队列的前端，得到第三推荐结果。

可选地，参见图 4, 所述整合模块 303 , 包括：

计算单元 303a,用于分别计算所述论坛中的每一篇帖子的相关贴在所述第一推荐结果、所述第二推荐结果和所述第三推荐结果中出现的第一平均概率、第二平均概率和第三平均概率；

确定单元 303b,用于根据所述第一平均概率、所述第二平均概率和所述第三平均概率分别确定所述第一推荐结果的权重、所述第二推荐结果的权重和所述第三推荐结果的权重；

第一整合单元 303c, 用于基于所述第一推荐结果的权重、所述第二推荐结果的权重和所述第三推荐结果的权重对所述第一推荐结果、所述第二推荐结果和所述第三推荐结果进行整合，得到推荐给所述指定用户的推荐内容；或，第二整合单元 303d,根据预先设定的所述第一推荐结果的第一权重、所述第二推荐结果的第二权重和所述第三推荐结果的第三权重，对所述第一推荐结果、所述第二推荐结果和所述第三推荐结果进行分配整合，得到推荐给所述指定用户的推荐内容。本实施例的有益效果是：获取指定用户在论坛中的搜索行为数据、浏览行为数据和对推荐内容的点击行为数据；分别对所述搜索行为数据、所述浏览行为数据和对推荐内容的点击行为数据进行预处理得到第一推荐结果、第二推荐结果和第三推荐结果；对所述第一推荐结果、所述第二推荐结果和所述第三推荐结果根据权重进行分配整合，得到推荐给所述指定用户的推荐内容。其中综合考虑了搜索行为数据、浏览行为数据和对推荐内容的点击行为数据，丰富了推荐所利用的数据，提升了推荐的准确性。需要说明的是：上述实施例提供的推荐信息的装置中，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

另外，上述实施例提供的推荐信息的装置与推荐信息的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。图 5是本发明一个实施例提供的服务器的结构示意图。所述服务器 500包括中央处理单元（CPU ) 501、包括随机存取存储器（RAM ) 502 和只读存储器（ROM ) 503的系统存储器 504, 以及连接系统存储器 504和中央处理单元 501的系统总线 505。所述服务器 500还包括帮助计算机内的各个器件之间传输信息的基本输入 /输出系统（I/O系统） 506, 和用于存储操作系统 513、应用程序 514和其他程序模块 515的大容量存储设备 507。

所述基本输入 /输出系统 506包括有用于显示信息的显示器 508和用于用户输入信息的诸如鼠标、键盘之类的输入设备 509。其中所述显示器 508和输入设备 509都通过连接到系统总线 505的输入输出控制器 510连接到中央处理单元 501。所述基本输入 /输出系统 506还可以包括输入输出控制器 510以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器 510还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备 507通过连接到系统总线 505 的大容量存储控制器 (未示出）连接到中央处理单元 501。所述大容量存储设备 507及其相关联的计算机可读介质为客户端设备 500提供非易失性存储。也就是说，所述大容量存储设备 507可以包括诸如硬盘或者 CD-ROM驱动器之类的计算机可读介质 (未示出）。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括 RAM、 ROM, EPROM、 EEPROM、闪存或其他固态存储其技术， CD-ROM、 DVD 或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器 504和大容量存储设备 507可以统称为存储器。

根据本发明的各种实施例，所述服务器 500还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器 500可以通过连接在所述系统总线 505上的网络接口单元 511连接到网络 512, 或者说，也可以使用网络接口单元 511来连接到其他类型的网络或远程计算机系统（未示出）。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上中央处理单元 501执行所述一个或者一个以上程序包含用于执行图 1所示实施例所提供的推荐信息的方法和图 2所示实施例所提供的推荐信息的方法。上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

权利要求书

1、一种推荐信息的方法，其特征在于，所述方法包括：

2、根据权利要求 1所述的方法，其特征在于，所述对所述搜索行为数据进行预处理得到第一推荐结果，包括：

过滤掉所述搜索行为数据中的噪音数据，得到去噪数据，其中，所述去噪数据包括所述指定用户在所述论坛中输入的查询字符串；

统计所述每个查询字符串引发的点击帖子 ^的次数；

根据所述帖子 ^被所述每个查询字符串引发的点击概率 _Wl, 建立引发点击所述帖子 Ti的查询向量，其中所述查询向量为 <_Wl, w₂, w_{1 5} . . . ,w_n>；

3、根据权利要求 1所述的方法，其特征在于，所述对所述浏览行为数据进行预处理得到第二推荐结果，包括：

计算所述每个父主题段中的帖子标题的文本相似度，获得所述每个父主题段下子主题段间的分界线；根据所述子主题段间的分界线将所述相应的父主题段进行划分，得到至少一个子主题段；

对所述浏览行为矩阵进行相关度计算，得到第二推荐结果。

4、根据权利要求 1所述的方法，其特征在于，所述对所述点击行为数据进行预处理得到第三推荐结果，包括：

5、根据权利要求 1所述的方法，其特征在于，所述对所述第一推荐结果、所述第二推荐结果和所述第三推荐结果根据权重进行分配整合，得到推荐给所述指定用户的推荐内容，包括：

6、一种推荐信息的装置，其特征在于，所述装置包括：

整合模块，用于对所述第一推荐结果、所述第二推荐结果和所述第三推荐结果进行整合，得到推荐给所述指定用户的推荐内容。

7、根据权利要求 6所述的装置，其特征在于，所述预处理模块，包括：过滤单元，用于过滤掉所述搜索行为数据中的噪音数据，得到去噪数据，其中，所述去噪数据包括所述指定用户在所述论坛中输入的查询字符串；

统计单元，用于统计所述每个查询字符串（¾引发的点击帖子 1^的次数；第一计算单元，用于根据所述每个查询字符串引发的点击所述帖子 1^的次数，计算所述帖子 ^被所述每个查询字符串引发的点击概率 _Wl;

第一建立单元，用于根据所述帖子 1^被所述每个查询字符串引发的点击概率 w_l 建立引发点击所述帖子 Ti的查询向量，其中所述查询向量为 <_Wl, w₂,

Wj , ...,w_n>;

8、根据权利要求 6所述的装置，其特征在于，所述预处理模块，包括：获取单元，用于对所述浏览行为数据进行分析，获取所述论坛中被所述指定用户浏览过的帖子；

9、根据权利要求 6所述的装置，其特征在于，所述预处理模块，包括：分析单元，用于对所述点击行为数据进行分析，获得所述论坛中每篇帖子的相关贴和所述每篇相关帖被点击的次数；

10、根据权利要求 6所述的装置，其特征在于，所述整合模块，包括：计算单元，用于分别计算所述论坛中的每一篇帖子的相关贴在所述第一推荐结果、所述第二推荐结果和所述第三推荐结果中出现的第一平均概率、第二平均概率和第三平均概率；

11、一种服务器，其特征在于，所述服务器包括：

一个或多个处理器；和

存储器；

12、根据权利要求 11所述的服务器，其特征在于，还包含用于进行以下操作的指令：

统计所述每个查询字符串引发的点击帖子 ^的次数；

13、根据权利要求 11所述的服务器，其特征在于，还包含用于进行以下操作的指令：

根据所述被浏览的帖子所属的版面，将所述指定用户的浏览行为划分成至少一个父主题段；计算所述每个父主题段中的帖子标题的文本相似度，获得所述每个父主题段下子主题段间的分界线；

对所述浏览行为矩阵进行相关度计算，得到第二推荐结果。

14、根据权利要求 11所述的服务器，其特征在于，还包含用于进行以下操作的指令：

15、根据权利要求 11所述的服务器，其特征在于，还包含用于进行以下操作的指令：

根据所述第一平均概率、第二平均概率和第三平均概率分别确定所述第一推荐结果的权重、所述第二推荐结果的权重和所述第三推荐结果的权重；