WO2019205795A1

WO2019205795A1 - 兴趣推荐方法、计算机设备及存储介质

Info

Publication number: WO2019205795A1
Application number: PCT/CN2019/076164
Authority: WO
Inventors: 杨春风
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2018-04-26
Filing date: 2019-02-26
Publication date: 2019-10-31
Also published as: CN108763314A; CN108763314B; US20200320646A1; US11593894B2

Abstract

本申请涉及一种兴趣推荐方法、计算机设备及存储介质，所述方法包括：获取目标用户的特征信息；根据所述特征信息，采用兴趣相似度预测模型预测所述目标用户与用户群体之间的兴趣相似度；所述兴趣相似度预测模型是根据用户历史记录的样本集合中每对用户的兴趣相似度，基于树模型编码混合线性模型算法实现的；所述树模型编码混合线性模型算法是基于树模型和线性模型实现的；根据所述兴趣相似度，确定所述用户群体中与所述目标用户兴趣相似的推荐用户；获取所述推荐用户的兴趣列表，并为所述目标用户创建推荐列表。

Description

兴趣推荐方法、计算机设备及存储介质

相关申请的交叉引用

本申请要求于2018年04月26日提交中国专利局、申请号为2018103876928、发明名称为“一种兴趣推荐方法、装置、服务器及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及互联网技术领域，尤其涉及一种兴趣推荐方法、装置、服务器及存储介质。

背景技术

视频推荐已经成为在线视频服务中不可或缺的一部分。现有的视频推荐算法主要分为非个性化推荐算法和个性化推荐算法，请参见图1，这些算法用到的数据主要有用户画像，用户观影记录，以及视频属性等信息。非个性化推荐算法包括基于流行度(Popularity)视频推荐算法和基于人工统计学信息的用户分群配合基于流行度的视频推荐。个性化推荐主要包括基于用户当前观看视频的相关推荐以及基于用户历史偏好(即历史观看记录)的个性化推荐。对于个性化推荐来说，相关推荐是基于关联规则(Association Rule,AR)的方式；而基于历史偏好的个性化推荐包括协同过滤推荐(Collaborative Filtering,CF)和基于内容的推荐(Content-Based,CB)。

目前比较流行的视频推荐算法包括基于内容的推荐、协同过滤推荐和社交化推荐(social recommendation)。这些算法共同的不足之处是面对冷启动(cold start)和数据稀疏(data sparsity)的难题，即当用户没有足够的观看历史时，传统的视频推荐算法往往不能够满足用户的需求。

对于协同过滤和基于内容的推荐，需要用到用户的历史观影行为数据，这些方法对于新用户或者行为较少用户无法使用或者效果差，这些问题都会影响到用户的体验从而影响用户粘性和视频服务的长远发展。

传统的解决冷启动的方法是对用户进行聚类，比如寻找相似年龄、相同性别、相近地域或者同一社群的用户。

发明内容

有鉴于此，本申请的各种实施例，提供了一种兴趣推荐方法、计算机设备及计算机可读存储介质。

一种兴趣推荐方法，该方法由计算机设备实施，包括：

获取目标用户的特征信息；

根据所述特征信息，采用兴趣相似度预测模型预测所述目标用户与用户群体之间的兴趣相似度；所述兴趣相似度预测模型是根据用户历史记录的样本集合中每对用户的兴趣相似度，基于树模型编码混合线性模型算法实现的；所述树模型编码混合线性模型算法是基于树模型和线性模型实现的；

根据所述兴趣相似度，确定所述用户群体中与所述目标用户兴趣相似的推荐用户；及

获取所述推荐用户的兴趣列表，并根据所述兴趣列表为所述目标用户创建推荐列表。

一种计算机设备，包括处理器和存储器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行以下步骤：

获取目标用户的特征信息；

一种非易失性的计算机可读存储介质，存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行以下步骤：

获取目标用户的特征信息；

根据所述特征信息，采用兴趣相似度预测模型预测所述目标用户与用户群体之间的兴趣相似度；所述兴趣相似度预测模型基于是根据用户历史记录的样本集合中每对用户的兴趣相似度，基于树模型编码混合线性模型算法实现的；所述树模型编码混合线性模型算法是基于树模型和线性模型实现的；

本申请的一个或多个实施例的细节在下面的附图和描述中提出。本申请的其它特征、目的和优点将从说明书、附图以及权利要求书变得明显。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1是现有技术中视频推荐算法的分类结构图；

图2是本申请实施例提供的实施环境的示意图；

图3是本申请实施例提供的一种树模型编码混合线性模型的模型示意图；

图4是本申请实施例提供的一种树模型编码混合线性模型算法的流程图；

图5是本申请实施例提供的一种兴趣相似度预测模型生成方法流程图；

图6是本申请实施例提供的一种兴趣相似度的预测方法流程图；

图7是本申请实施例提供的一种基于用户的协同过滤算法的框架图；

图8是本申请实施例提供的一种兴趣推荐方法的算法框架图；

图9是本申请实施例提供的一种兴趣推荐方法流程图；

图10是本申请实施例提供的一种视频推荐列表生成方法流程图；

图11是本申请实施例提供的一种用户界面示意图；

图12是本申请实施例提供的一种计算机设备结构示意图；

图13是本申请实施例提供的一种预测模型生成模块结构示意图；

图14是本申请实施例提供的一种树模型混合线性模型模块的结构示意图；

图15是本申请实施例提供的一种基于社交软件的好友关系链视频推荐方法流程图；

图16是本申请实施例提供的一种计算机设备构架示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

冷启动在推荐系统中表示该系统积累数据量过少，无法给新用户做个性化推荐的问题，这是产品推荐的一大难题。基本上，冷启动问题可以分为以下三类：

用户冷启动：用户冷启动主要解决如何给新用户做个性化推荐的问题。当新用户到来时，我们没有他的行为数据，所以也无法根据他的历史行为预测其兴趣，从而无法借此给他做个性化推荐。

物品冷启动：物品冷启动主要解决如何将新的物品推荐给可能对它感兴趣的用户这一问题。

系统冷启动：系统冷启动主要解决如何在一个新开发的网站上(还没有用户，也没有用户行为，只有一些物品的信息)设计个性化推荐系统，从而在网站刚发布时就让用户体验到个性化推荐服务这一问题。

本申请实施例主要提供的是针对推荐系统中用户冷启动的处理方法。

请参见图2，其示出了本申请实施例提供的实施环境的示意图，该实施环境包括：若干终端设备210和服务器220，所述终端设备210可以但不限于为手机、平板电脑、台式计算机等终端设备。所述服务器220可以是一台服务器，也可以是由若干服务器组成的服务器集群，或者是一个云计算服务中心。

所述终端设备210可以与各种网络如互联网、企业内部网、无线网络等进行通讯，上述的无线网络可包括蜂窝式电话网、无线局域网或者城域网。上述的无线网络可以使用各种通信标准、协议及技术。所述终端设备210通过网络向所述服务器220发送请求，所述服务器220接收所述请求并进行处理。

在实际应用场景中，服务器220可获取若干终端设备210的用户信息，根据获取的用户信息进行用户兴趣相似度的计算，并根据所述兴趣相似度为用户提供相关的推荐，最终实现用户的个性化推荐。

最常用的有监督机器学习算法有线性模型和树模型，线性模型，如线性回归(Linear Regression)的优点是简单，易用于大规模数据集，缺点是无法拟合非线性关联；而树模型，如决策树(Decision Tree)的优点是可以拟合非线性关系，而且可以应用于离散特征和连续特征上，缺点是不善于捕捉线性或者近似线性关系，且较为复杂。

为了同时利用两类模型的优点，本申请实施例提出了一种树模型编码混合线性模型(Hybrid Tree-encoded Linear Model)，图3示出了其模型，该算法主要分为两个步骤，具体来说，为了增强模型的最终非线性表达能力，先使用梯度提升决策树(GBDT)对特征进行非线性变换，即将原始特征变换成一系列二进制特征，类似于编码。

再将所有编码后的特征，即二值特征和所有的原始特征一起作为输入特征，放入线性回归模型中训练(使用梯度下降法进行训练)，得到最终的混合模型结果，将训练好的模型在测试集上进行预测，即可判断该模型的效果。

请参见图4，其示出了一种树模型混合线性模型算法的方法流程图，包括：

S401.采用树模型对所述样本集合的特征进行编码，得到编码后的二值特征。

例如，使用有2棵子树的GBDT来拟合训练数据，拟合的结果是第一颗子树有3个叶子节点，第二颗子树有2个叶子节点。如果一个样本经过该GBDT后在第一颗子树中落在了第二个叶子节点(即编码为010，每一位对应一个叶子节点)，在第二颗子树中落在了第一个叶子节点(即编码为10)，这样最终该样本的编码结果为01010，对应了5个二值特征。

S402.将所述样本集合的特征和所述二值特征作为输入特征，通过线性模型进行训练。

再将所有编码后的特征，即5个二值特征和所有的原始特征一起作为输入特征，放入线性回归模型中训练(使用梯度下降法进行训练)，得到最终的混合模型结果，将训练好的模型在测试集上进行预测，即可判断该模型的效果。

请参见图5，其示出了一种兴趣相似度预测模型生成方法，具体包括：

S501.获取用户历史观影记录的样本集合。

因为是有监督机器学习，需要构造有标签的样本来进行学习：从过去一个月历史观影记录表中随机抽取一百万对用户，每一对用户均为活跃用户(如观影数量>＝30)。

S502.构造所述样本集合的特征。

为了构建有效的有监督机器学习算法，分别需要进行数据准备(特征构造和选择)。

作为机器学习算法的输入，我们需要去构造这些样本的特征：

对这一百万对用户，可以设计以下特征：

比如，人口统计学特征、社交软件使用特征、网络行为特征、社会文化背景特征以及历史兴趣相似度特征等。

人口统计学特征包括以下信息中的至少一种：年龄、年龄差、所在的地区、性别等；

社交软件使用特征包括以下信息中的至少一种：是否是社交软件好友(比如QQ、微信、旺旺、钉钉、支付宝、MSN、微博、易信等)，历史交互记录(比如发消息频率，发消息的数量，共同好友数，共同群组数，互发邮件数等)，在线时长，使用频率等；

网络行为特征包括以下信息中的至少一种：浏览频率较高的网站、页面浏览量、访问时长、关注的话题或者公众号等；

社会文化背景特征包括以下信息中的至少一种：学历、毕业学校、职业、工作单位、兴趣爱好等；

历史兴趣相似度特征包括以下信息中的至少一种：过去三个月兴趣相似度、过去半年兴趣相似度、过去一年兴趣相似度等。

S503.计算所述样本集合中每对用户的兴趣相似度。

对于用户u和用户v，他们的兴趣相似度定义为：

I _u和I _v分别是用户u和用户v历史(过去一个月)观看过的视频列表集合，这里是计算了两个用户历史观影集合之间的余弦相似度作为他们的兴趣相似度的。

S504.使用树模型混合线性模型算法对所述特征进行训练和预测。

将所述样本集合的特征作为所述树模型混合线性模型算法的输入，将所述每对用户的兴趣相似度作为预测目标值，采用树模型混合线性模型算法对所述样本集合的特征进行训练。

所述树模型混合线性模型算法具体包括：

为了将该预测问题简单化，本实施例中将预测目标值(即真实兴趣相似度)进行二值化，即相似度大于某一个门限值的作为正样本，其他的作为负样本，这样就是一个二分类(binary classification)的问题。

将有标签的样本数据集(按本实施例中构造有标签的样本的方法得到)分为训练集(占70％)和测试集(占30％)。采用的预测效果评价指标是AUC值(area under the ROC curve)。将本实施例提出的树模型编码混合线性模型的算法和其他几个常用机器学习算法(逻辑斯特回归算法，决策树算法和随机森林算法)进行了比较，其预测效果的比较结果如下表所示：

算法	AUC值
逻辑斯特回归	0.783
决策树	0.810
随机森林	0.818
树模型编码混合线性模型	0.834

从表中可以看出，相对于逻辑斯特回归算法，决策树算法和随机森林算法，本申请实施例提出的树模型混合线性模型在相似度预测的准确性上有明显提升。

对于推荐系统冷启动而导致的无法计算目标用户与用户群体之间的相似度，本申请实施例提供了一种兴趣相似度的预测方法，请参见图6，具体包括：

S601.获取目标用户的特征信息。

所述目标用户即为冷启动的用户，可以是新注册的用户或者是历史记录较少的用户。

所述特征信息包括：人口统计学特征、社交软件使用特征、网络行为特征、社会文化背景特征以及历史兴趣相似度特征等。

所述特征信息还可以是用户的兴趣描述，比如对用户信息进行预采集，在一个实施例中，当新用户进入系统时除了填写一些个人基本信息之外，还可以为用户设置一些类别或者标签供用户选择。还可以是从其他网站导入的用户站外行为，比如用户利用社交网站账号登录，就可以在获得用户授权的情况下导入用户在该社交网站的部分行为数据和社交网络数据。

S602.根据所述特征信息，采用兴趣相似度预测模型预测所述目标用户与用户群体之间的兴趣相似度；所述兴趣相似度预测模型是根据用户历史记录的样本集合中每对用户的兴趣相似度，基于树模型编码混合线性模型算法实现的；所述树模型编码混合线性模型算法是基于树模型和线性模型实现的。

当获取到所述目标用户的特征信息时，采用兴趣相似度预测模型，预测所述目标用户与所述用户群体中的每个用户之间的兴趣相似度。用户历史记录包括用户历史观影记录。

所述兴趣相似度预测模型的生成方法具体包括：

S6021.获取用户历史观影记录的样本集合。

S6022.构造所述样本集合的特征。

对这一百万对用户，可以设计如下技术特征，包括人口统计学特征、社交软件使用特征、网络行为特征、社会文化背景特征以及历史兴趣相似度特征等。

S6023.计算所述样本集合中每对用户的兴趣相似度。

对于用户u和用户v，他们的兴趣相似度定义为：

S6024.使用树模型混合线性模型算法对所述特征进行训练和预测。

请参见图7，其示出了一种基于用户的协同过滤算法的框架图，基于用户的协同过滤算法可拆分为两个步骤：

找到与目标用户兴趣相似的用户集合；

找到这个集合中用户喜欢的，并且目标用户没有看过的物品推荐给目标用户。

具体来说，当需要给一个目标用户推荐视频时，通过比较该目标用户和其他用户的历史观影记录，来寻找兴趣相似的一群用户，然后将这群用户所偏好的其他视频(即目标用户没有看过的)推荐给目标用户。这个算法在数据充足的情况下简单有效，但是对于新用户或者观影行为较少目标用户，因为不知道他们的观影喜好，从而无法找到与目标用户相似的用户群体，这样就没法给目标用户准确的推荐视频了。

为了解决因为冷启动的原因导致无法计算用户兴趣相似度，而使得协同过滤算法失效的问题，本申请实施例提供了一种兴趣推荐方法，是一种增强型的基于用户的协同过滤算法，其算法框架图请参见图8，通过有监督机器学习方法预测用户之间的兴趣相似度，从而增强了基于用户的协同过滤算法。

请参见图9，一种兴趣推荐方法具体包括：

S901.获取目标用户的特征信息。

所述特征信息包括：

S902.根据所述特征信息，采用兴趣相似度预测模型预测所述目标用户与用户群体之间的兴趣相似度；所述兴趣相似度预测模型是根据用户历史记录的样本集合中每对用户的兴趣相似度，基于树模型编码混合线性模型算法实现的；所述树模型编码混合线性模型算法是基于树模型和线性模型实现的。

所述兴趣相似度预测模型的生成方法具体包括：

S9021.获取用户历史观影记录的样本集合。

S9022.构造所述样本集合的特征。

对这一百万对用户，设计三类特征：人口统计学特征、社交特征和历史兴趣特征。

S9023.计算所述样本集合中每对用户的兴趣相似度。

对于用户u和用户v，他们的兴趣相似度定义为：

S9024.将所述样本集合的特征作为所述树模型混合线性模型算法的输入，将所述每对用户的兴趣相似度作为预测目标值，采用树模型混合线性模型算法对所述样本集合的特征进行训练。

上述步骤S9024还包括如下子步骤：

采用树模型对所述样本集合的特征进行编码，得到编码后的二值特征；

将所述样本集合的特征和所述二值特征作为输入特征，通过线性模型进行训练。

S903.根据所述兴趣相似度，确定所述用户群体中与所述目标用户兴趣相似的推荐用户。

当得到所述目标用户与所述用户群体中的每个用户两两之间的兴趣预测相似度之后，将所述相似度按从高到低的顺序进行排序，并选择相似度排名靠前的K个用户作为推荐用户，这里的K是整数，具体值可根据具体要求进行设置。

S904.获取所述推荐用户的兴趣列表，并根据所述兴趣列表为所述目标用户创建推荐列表。

具体可通过获取所述推荐用户的兴趣列表，对所述兴趣列表中的项目进行评分与相似度加权，并对所述评分与相似度加权的结果进行排序得到排序结果，根据所述排序结果为所述目标用户创建推荐列表。

所述推荐列表包括所述推荐用户感兴趣的而所述目标用户没有观看过的视频列表。

基于上述基于用户的协同过滤算法，确定了与所述目标用户兴趣相似的推荐用户之后，以视频推荐为例，具体包括：

S9041.针对目标用户u，以及选出的兴趣相似度最高的K位推荐用户，用集合S(u,K)表示。

S9042.将集合S中所有用户喜欢的视频列表取出来并去除目标用户u已经观看过或者感兴趣的视频，获得第一列表。

S9043.对所述第一列表中的视频进行评分与相似度加权，并对结果进行排序得到排序结果。

S9044.根据所述排序结果生成推荐列表，对目标用户u进行推荐。

每个可能推荐的视频i，用户u对其感兴趣的程度可以用如下公式计算：

r _vi表示用户v对视频i的喜欢程度，即对i的评分，w _uv表示用户u和v之间的相似度。

协同过滤推荐系统常需要处理上百万乃至上亿级的数据记录，如何存取这些海量数据以及快速计算出推荐结果，成为协同过滤面临的巨大挑战。云计算采用分布式技术，云端系统构建在大量廉价的服务器集群之上，通过大规模集群获得与高性能计算机相当的计算能力和存储能力，集群的管理提高系统的可扩展性。将协同过滤与云计算技术相结合，使协同过滤推荐系统具有更强的并行计算能力、容错能力和更高的推荐实时性。

本申请提供的一种兴趣推荐方法可以应用于视频网站或视频APP的个性化推荐模块，请参见图11，即为用户提供符合其观影兴趣的视频列表，实现这一模块的“千人千面”。提升了用户体验，增强了用户粘度。

相应地，本申请实施例还提供了一种兴趣推荐装置，请参见图12，具体包括：

特征信息获取模块1210，用于获取目标用户的特征信息。

兴趣相似度预测模块1220，用于根据所述特征信息，采用兴趣相似度预测模型预测所述目标用户与用户群体之间的兴趣相似度；所述兴趣相似度预测模型是根据用户历史记录的样本集合中每对用户的兴趣相似度，基于树模型编码混合线性模型算法实现的；所述树模型编码混合线性模型算法是基于树模型和线性模型实现的。

推荐用户确定模块1230，用于根据所述兴趣相似度，确定所述用户群体中与所述目标用户兴趣相似的推荐用户。所述推荐用户确定模块1230还包括排序模块1231，用于将所述目标用户与所述用户群体中的每个用户之间的兴趣相似度按从高到低进行排序，并选择排名靠前的若干位用户作为推荐用户。

推荐列表创建模块1240，用于获取所述推荐用户的兴趣列表，并根据所述兴趣列表为所述目标用户创建推荐列表。所述推荐列表创建模块1240包括评分加权模块1241和列表生成模块1242，所述评分加权模块1241用于获取所述推荐用户的兴趣列表，对所述兴趣列表中的项目进行评分与相似度加权；所述列表生成模块1242用于对所述评分与相似度加权的结果进行排序得到排序结果，根据所述排序结果生成推荐列表。

进一步地，所述兴趣相似度预测模块1220包括预测模型生成模块1221，用于生成基于所述特征信息的兴趣相似度的预测模型。

请参见图13，所述预测模型生成模块1221还包括：

样本集合获取模块1310，用于获取用户历史观影记录的样本集合；

特征构造模块1320，用于构造所述样本集合的特征；

目标相似度计算模块1330，用于根据余弦相似度公式

计算所述样本集合中每对用户的兴趣相似度，u表示第一用户，v表示第二用户，I _u和I _v分别是所述第一用户和所述第二用户的历史视频观看列表集合；

训练模块1340，用于将所述样本集合的特征作为所述树模型混合线性模型算法的输入，将所述每对用户的兴趣相似度作为预测目标值，采用树模型混合线性模型算法对所述样本集合的特征进行训练。

请参见图14，所述树模型混合线性模型包括：

编码模块1410，用于采用树模型对所述样本集合的特征进行编码，得到编码后的二值特征；

拟合模块1420，用于将所述样本集合的特征和所述二值特征作为输入特征，通过线性模型进行训练。

本申请实施例还提供了一种基于社交软件的好友关系链的视频推荐方法，请参见图15，包括：

S1510.对社交软件的好友关系链进行过滤，保留关系链中至少有一方是X视频用户的好友关系链。

为了降低社交软件的好友关系链计算的巨大困难，先过滤掉一部分用户，仅留下关系链中至少有一方是X视频用户的好友关系链。

S1520.计算所述用户与好友中为X视频用户的好友之间的关系强度。

所述关系强度及亲密度，所述亲密度的计算方法有两种：

(1)长期的：基于长期社交网络交互计算的亲密度；

(2)短期的：基于近期社交软件的通信频度计算的亲密度；采用短期亲密度的缺点在与可能会包含一些如商业等方面的通信好友，且稀疏度较大(短期内，如30天通信好友数一般较少)，因此最终需要综合权衡长期和短期的亲密度选出最终的好友视频推荐候选人。

S1530.根据所述关系强度来加权聚合好友近期观影行为，产生基于好友关系链的视频推荐列表，并推荐给所述用户。

本申请实施例还提供了一种服务器，请参见图16，其示出服务器的结构示意图，该服务器用于实施上述实施例中提供的推荐系统冷启动处理方法，具体来讲，所述服务器结构可以包括上述推荐系统冷启动处理装置。

该服务器1600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(Central Processing Units，CPU)1610(例如，一个或一个以上处理器)和存储器1630，一个或一个以上存储应用程序1623或数据1622的计算机可读存储介质1620(例如一个或一个以上海量存储设备)。存储器1630和计算机可读存储介质1620可以是短暂存储或持久存储。存储在计算机可读存储介质1620的程序可以包括一个或一个以上模块，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1610可以设置为与计算机可读存储介质1620通信，在服务器1600上执行计算机可读存储介质1620中的一系列指令操作。服务器1600还可以包括一个或一个以上电源1660，一个或一个以上有线或无线网络接口1650，一个或一个以上输入输出接口1640，和/或，一个或一个以上操作系统1621，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质可用于保存用于实现上述方法实施例中推荐系统冷启动处理方法的程序代码。所述程序代码可用于实现：

获取目标用户的特征信息；

根据所述特征信息，采用兴趣相似度预测模型预测所述目标用户与用户群体之间的兴趣相似度；所述兴趣相似度预测模型基于树模型编码混合线性算法实现；

根据所述兴趣相似度，确定所述用户群体中与所述目标用户兴趣相似的推荐用户；

可选地，在本实施例，上述计算机可读存储介质可以位于计算机网络的多个网络设备中的至少一个网络设备。可选地，在本实施例中，上述计算机可读存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本申请通过获取目标用户的特征信息，并根据所述特征信息，采用有监督机器学习算法来预测所述目标用户与其他用户群体之间的兴趣相似度，并根据预测的所述兴趣相似度确定推荐用户，再根据所述推荐用户的兴趣列表为所述目标用户创建推荐列表。本申请解决了传统协同过滤算法的冷启动问题，即当用户没有足够的观看历史时的推荐问题，提高了推荐结果的准确性，带来点击率上的明显提升，实现了个性化推荐的“千人千面”。

本实施例中所示出的结构，仅仅是与本申请方案相关的部分结构，并不构成对本申请方案所应用于其上的设备的限定，具体的设备可以包括比示出的更多或更少的部件，或者组合某些部件，或者具有不同的部件的布置。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，所述的程序可存储于一非易失性的计算机可读存储介质中，如本申请实施例中，该程序可存储于计算机系统的非易失性存储介质中，并被该计算机系统中的至少一个处理器执行，以实现包括如上述各方法的实施例的流程。所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种兴趣推荐方法，该方法由计算机设备实施，包括：

获取目标用户的特征信息；

根据所述特征信息，采用兴趣相似度预测模型预测所述目标用户与用户群体之间的兴趣相似度；所述兴趣相似度预测模型是根据用户历史记录的样本集合中每对用户的兴趣相似度，基于树模型编码混合线性模型算法实现的；所述树模型编码混合线性模型算法是基于树模型和线性模型实现的；

根据所述兴趣相似度，确定所述用户群体中与所述目标用户兴趣相似的推荐用户；及

获取所述推荐用户的兴趣列表，并根据所述兴趣列表为所述目标用户创建推荐列表。
根据权利要求1所述的一种兴趣推荐方法，其特征在于，所述特征信息包括人口统计学特征、社交软件使用特征、网络行为特征、社会文化背景特征和历史兴趣相似度特征中的至少一种特征信息。
根据权利要求1所述的一种兴趣推荐方法，其特征在于，所述兴趣相似度预测模型通过如下步骤生成：

获取用户历史观影记录的样本集合；

构造所述样本集合的特征；

根据余弦相似度公式

计算所述样本集合中每对用户的兴趣相似度，u表示第一用户，v表示第二用户，I _u和I _v分别是所述第一用户和所述第二用户的历史视频观看列表集合；及

将所述样本集合的特征作为所述树模型混合线性模型算法的输入，将所述每对用户的兴趣相似度作为预测目标值，采用树模型混合线性模型算法对所述样本集合的特征进行训练。
根据权利要求3所述的一种兴趣推荐方法，其特征在于，所述采用树模型混合线性模型算法对所述样本集合的特征进行训练包括：

采用树模型对所述样本集合的特征进行编码，得到编码后的二值特征；及

将所述样本集合的特征和所述二值特征作为输入特征，通过线性模型进行训练。
根据权利要求1所述的一种兴趣推荐方法，其特征在于，根据所述兴趣相似度，确定所述用户群体中与所述目标用户兴趣相似的推荐用户包括：

将所述目标用户与所述用户群体中的每个用户之间的兴趣相似度按从高到低进行排序，并选择排名靠前的若干位用户作为推荐用户。
根据权利要求1所述的一种兴趣推荐方法，其特征在于，所述获取所述推荐用户的兴趣列表，并根据所述兴趣列表为所述目标用户创建推荐列表包括：

获取所述推荐用户的兴趣列表，对所述兴趣列表中的项目进行评分与相似度加权，并对所述评分与相似度加权的结果进行排序得到排序结果，根据所述排序结果为所述目标用户创建推荐列表；

所述推荐列表包括所述推荐用户感兴趣的而所述目标用户没有观看过的视频列表。
根据权利要求1-6中任一项所述的一种兴趣推荐方法，其特征在于，所述目标用户的特征信息为冷启动的用户所对应的特征信息。
一种计算机设备，其特征在于，包括处理器和存储器，所述存储器存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行以下步骤：

获取目标用户的特征信息；

根据所述特征信息，采用兴趣相似度预测模型预测所述目标用户与用户群体之间的兴趣相似度；所述兴趣相似度预测模型是根据用户历史记录的样本集合中每对用户的兴趣相似度，基于树模型编码混合线性模型算法实现的；所述树模型编码混合线性模型算法是基于树模型和线性模型实现的；

根据所述兴趣相似度，确定所述用户群体中与所述目标用户兴趣相似的推荐用户；及

获取所述推荐用户的兴趣列表，并根据所述兴趣列表为所述目标用户创建推荐列表。
根据权利要求8所述的计算机设备，其特征在于，所述特征信息包括人口统计学特征、社交软件使用特征、网络行为特征、社会文化背景特征和历史兴趣相似度特征中的至少一种特征信息。
根据权利要求8所述的计算机设备，其特征在于，所述兴趣相似度预测模型通过如下步骤生成：

获取用户历史观影记录的样本集合；

构造所述样本集合的特征；

根据余弦相似度公式

计算所述样本集合中每对用户的兴趣相似度，u表示第一用户，v表示第二用户，I _u和I _v分别是所述第一用户和所述第二用户的历史视频观看列表集合；及

将所述样本集合的特征作为所述树模型混合线性模型算法的输入，将所述每对用户的兴趣相似度作为预测目标值，采用树模型混合线性模型算法对所述样本集合的特征进行训练。
根据权利要求10所述的计算机设备，其特征在于，所述采用树模型混合线性模型算法对所述样本集合的特征进行训练包括：

采用树模型对所述样本集合的特征进行编码，得到编码后的二值特征；及

将所述样本集合的特征和所述二值特征作为输入特征，通过线性模型进行训练。
根据权利要求8所述的计算机设备，其特征在于，根据所述兴趣相似度，确定所述用户群体中与所述目标用户兴趣相似的推荐用户包括：

将所述目标用户与所述用户群体中的每个用户之间的兴趣相似度按从高到低进行排序，并选择排名靠前的若干位用户作为推荐用户。
根据权利要求8所述的计算机设备，其特征在于，所述获取所述推荐用户的兴趣列表，并根据所述兴趣列表为所述目标用户创建推荐列表包括：

获取所述推荐用户的兴趣列表，对所述兴趣列表中的项目进行评分与相似度加权，并对所述评分与相似度加权的结果进行排序得到排序结果，根据所述排序结果为所述目标用户创建推荐列表；

所述推荐列表包括所述推荐用户感兴趣的而所述目标用户没有观看过的视频列表。
根据权利要求8-13中任一项所述的计算机设备，其特征在于，所述目标用户的特征信息为冷启动的用户所对应的特征信息。
一种非易失性的计算机可读存储介质，存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行以下步骤：

获取目标用户的特征信息；

根据所述特征信息，采用兴趣相似度预测模型预测所述目标用户与用户群体之间的兴趣相似度；所述兴趣相似度预测模型是根据用户历史记录的样本集合中每对用户的兴趣相似度，基于树模型编码混合线性模型算法实现的；所述树模型编码混合线性模型算法是基于树模型和线性模型实现的；

根据所述兴趣相似度，确定所述用户群体中与所述目标用户兴趣相似的推荐用户；及

获取所述推荐用户的兴趣列表，并根据所述兴趣列表为所述目标用户创建推荐列表。
根据权利要求15所述的存储介质，其特征在于，所述特征信息包括人口统计学特征、社交软件使用特征、网络行为特征、社会文化背景特征和历史兴趣相似度特征中的至少一种特征信息。
根据权利要求15所述的存储介质，其特征在于，所述兴趣相似度预测模型通过如下步骤生成：

获取用户历史观影记录的样本集合；

构造所述样本集合的特征；

根据余弦相似度公式

计算所述样本集合中每对用户的兴趣相似度，u表示第一用户，v表示第二用户，I _u和I _v分别是所述第一用户和所述第二用户的历史视频观看列表集合；及

将所述样本集合的特征作为所述树模型混合线性模型算法的输入，将所述每对用户的兴趣相似度作为预测目标值，采用树模型混合线性模型算法对所述样本集合的特征进行训练。
根据权利要求17所述的存储介质，其特征在于，所述采用树模型混合线性模型算法对所述样本集合的特征进行训练包括：

采用树模型对所述样本集合的特征进行编码，得到编码后的二值特征；及

将所述样本集合的特征和所述二值特征作为输入特征，通过线性模型进行训练。
根据权利要求15所述的存储介质，其特征在于，所述获取所述推荐用户的兴趣列表，并根据所述兴趣列表为所述目标用户创建推荐列表包括：

获取所述推荐用户的兴趣列表，对所述兴趣列表中的项目进行评分与相似度加权，并对所述评分与相似度加权的结果进行排序得到排序结果，根据所述排序结果为所述目标用户创建推荐列表；

所述推荐列表包括所述推荐用户感兴趣的而所述目标用户没有观看过的视频列表。
根据权利要求15-19中任一项所述的存储介质，其特征在于，所述目标用户的特征信息为冷启动的用户所对应的特征信息。