WO2020237898A1

WO2020237898A1 - 在线教育系统的个性化推荐方法、终端及存储介质

Info

Publication number: WO2020237898A1
Application number: PCT/CN2019/104888
Authority: WO
Inventors: 梁立新; 何欢
Original assignee: 深圳技术大学
Priority date: 2019-05-29
Filing date: 2019-09-09
Publication date: 2020-12-03
Also published as: CN110276018A

Abstract

本发明公开了一种在线教育系统的个性化推荐方法、终端及存储介质，涉及智能推荐算法技术领域。本发明通过提取用户行为日志并存储到Hadoop上，利用Mahout技术，对用户行为数据进行分析计算；并结合Hadoop的HDFS和MapReduce进行数据的处理，产生推荐结果，从而实现基于用户的个性化推荐。

Description

在线教育系统的个性化推荐方法、终端及存储介质

技术领域

本发明涉及个性化推荐技术领域，尤其涉及在线教育系统的个性化推荐方法、终端及存储介质。

背景技术

自2015年“互联网+”概念的提出，“互联网+教育”已经成为教育行业的一种新型服务模式，在线教育作为“互联网+教育”下的产物之一，也导致了教育关系和教育制度的巨大变化。虽然目前在线教育打破了传统的固定课堂教育和“题海战术”模式，在线教育平台的种类也越来越多，但始终存在着一些问题。大部分在线教育平台只是教育机构谋取自身利益的一种手段，机构的做法生硬，对于在线学习的课程，用户喜欢就看，需要付费就付费，很少做到能和用户有效的沟通，为用户提供一套个性化的学习推荐方案，同时，教育资源在数量和规模上的爆炸式增长，使普通学习者在选取学习资源时可能面临选择的困难，而通过传统搜索引擎获取的资源通常结果庞杂、准确性较差，无法令学生满意。

推荐系统目前已经应用在多个互联网领域，其中包括社交、电子商务、音乐、视频、电影、新闻等多个领域。推荐系统在其他领域有着多种多样的个性化推荐，并且发展日益成熟，但是在教育领域大多数的推荐系统更多采用的是基于内容和基于关联规则的推荐，该推荐质量较差，使学生无法获得最佳的学习资源，在线教育方面个性化推荐的研究还是有些滞后。

目前国内的教育云平台建设只是使用了少量的云计算技术，云的规模也比较小，对云平台能够处理的大数据的特性也用之甚少，很多时候只是将教学资源简单的存储到云平台中实现信息的集中式管理，对信息的利用率比较低，针对云平台的个性化教育应用就更少。

国外的在线教育平台起步较早，发展成熟，课程数量多且质量高，有一定的优势，但是国内的教育国情与国外不同，国外用户更有主动性，也更清楚自己的兴趣点和天赋。国内很多用户并不知道自己喜欢什么或者很难用确切的语言来描述清楚，用户更需要系统对他们进行准确的行为分析来调动用户学习的积极主动性。

因此，亟需一种适合国内学习者情况的个性化在线教育推荐系统来满足学习者的需求，更好地体验“互联网+教育”的学习模式。

技术问题

本发明所要解决的技术问题是如何提供一种适合国内学习者情况的个性化在线教育推荐系统来满足学习者的需求，更贴合学习者的偏好，更好地体验“互联网+教育”的学习模式。

技术解决方案

为了解决上述问题，本发明提出以下技术方案：

第一方面，本发明实施例提出一种在线教育系统的个性化推荐方法，包括以下步骤：

接收用户端上传的用户行为日志文件；

将所述用户行为日志文件转存到Hadoop平台上，并根据所述Hadoop平台的HDFS特性对用户行为日志文件进行分布式存储备份；

根据所述Hadoop平台的分布式计算框架对所述用户行为日志文件进行离线预处理，得到过滤后的数据；

通过Mahout提取过滤后的数据，利用所述Mahout对所述过滤后的数据进行计算，得到计算结果，将所述计算结果存储至数据库中作为推荐结果；

若接收到用户端请求推荐的触发信号，则从数据库中调取推荐结果发送给用户端。

其进一步地技术方案为，所述通过Mahout提取过滤后的数据，利用所述Mahout对所述过滤后的数据进行计算，得到计算结果，包括：

利用融合了基于内容的推荐算法和基于混合协同过滤推荐算法的公式(1)，计算用户U对资源d _i的初始偏好程度P ₁(U,d _i)：

公式(1)

其中：

α＝|P _Cb(U,d _i)-P _Hcf(U,d _i)|，α≥0，

β＝|P _Cb(U,d _i)+P _Hcf(U,d _i)|，β≥0，

P _Cb(U,d _i)表示基于内容的推荐算法中用户U对资源d _i的偏好程度；

P _Hcf(U,d _i)表示基于混合协同过滤推荐算法中的用户U对资源d _i的偏好程度；

max{P _Cb(U,d _i),P _Hcf(U,d _i)}表示，取两种算法下最大的用户U对资源d _i的偏好程度的最大值；

min{P _Cb(U,d _i),P _Hcf(U,d _i)}表示，取两种算法下最小的用户U对资源d _i的偏好程度的最小值；

α代表在基于内容和混合协同过滤算法下用户U对资源d _i的偏好程度的偏差值；

β代表基于内容和混合协同过滤算法下用户U对资源d _i的偏好程度的总偏好值；

P ₁(U,d _i)表示在公式(1)的算法下用户U对资源d _i的初始偏好程度。

其进一步地技术方案为，还包括：

利用公式(2)计算用户U对资源d _i的最终偏好程度P(U,d _i)，将用户U对资源d _i的最终偏好程度最高的资源d _i作为计算结果：

P(U,d _i)＝e ^-w×P _u(U,d _i)+(1-e ^-w)*P ₁(U,d _i)

公式(2)

其中：w∝t，t表示用户历史行为记录条数；

P _u(U,d _i)表示基于用户信息相似度的推荐算法中用户U对资源d _i的初始偏好程度；

P(U,d _i)表示在公式(2)的算法下用户U对资源d _i的最终偏好程度。

其进一步地技术方案为，所述方法还包括：

所述用户行为日志文件由用户端储存到基于分布式文件存储的数据库中。

其进一步地技术方案为，所述根据所述Hadoop平台的分布式计算框架对所述用户行为日志文件进行离线预处理，包括：

对用户行为日志文件中的字段进行识别切分，去除所述用户行为日志文件中不合法的记录，根据统计需求，提取特征信息。

其进一步地技术方案为，所述特征信息包括：

用户的个人特征：学历、专业、职业、年龄、性别、性格、兴趣、未来学习计划；

显性的用户行为特征：用户评分反馈、下载资源、做题记录、搜索课程资源、与课程互动次数、每次互动时间、系统在线时长；

隐性用户行为特征：页面停留时间、页面访问次数、鼠标移动次数、滚动条滚动次数。

第二方面，本发明实施例提供一种终端，包括：用于执行如第一方面所述的方法的单元。

第三方面，本发明实施例提供一种终端，该终端包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，所述存储器用于存储支持终端执行如第一方面所述的方法的应用程序代码，所述处理器被配置用于执行如第一方面所述的方法。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如第一方面所述的方法。

有益效果

与现有技术相比，本发明所能达到的技术效果包括：

基于在线教育方面的通过提取用户行为日志存储到Hadoop上，利用Mahout技术，对用户行为数据进行分析计算并结合Hadoop的HDFS和MapReduce进行数据的处理，产生推荐结果，从而实现基于用户的个性化推荐。

通过搭建Hadoop数据处理平台并使用数据挖掘的开源算法库Apache Mahout来对用户行为数据进行离线分析与处理，整个系统构建都是基于MapReduce计算模型，充分利用云平台强大的数据处理能力，离线计算用户推荐结果，采用并行化和分布式来提高系统的效率和改善系统的可扩展性，解决了传统单机推荐模型计算能力不足、实时推荐时间过长问题。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1，为本发明一实施例提供的在线教育系统的个性化推荐方法流程图；

图2，为本发明一实施例提供的在线教育系统的个性化推荐方法中的Hadoop平台的处理流程图；

图3，为本发明另一实施例提供的一种终端300示意框图；

图4，为本发明另一实施例提供的推荐算法结构示意图。

本发明的实施方式

下面将结合本发明实施例中的附图，对实施例中的技术方案进行清楚、完整地描述，附图中类似的组件标号代表类似的组件。显然，以下将描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明实施例说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明实施例。如在本发明实施例说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

实施例1

参见图1-2，第一方面，本发明实施例提供在线教育系统的个性化推荐方法，包括以下步骤：

S101，接收用户端上传的用户行为日志文件；

具体实施中，用户端实时收集用户的行为信息，生成用户行为日志文件并将其发送至系统，系统接收用户端上传的用户行为日志文件。

具体实施中，用户的行为信息包括用户的个人特征、显性的用户行为特征以及隐性用户行为特征，其中，

用户的个人特征包括：学历、专业、职业、年龄、性别、性格、兴趣、未来学习计划；

显性的用户行为特征包括：用户评分反馈、下载资源、做题记录、搜索课程资源、与课程互动次数、每次互动时间、系统在线时长；

隐性用户行为特征包括：页面停留时间、页面访问次数、鼠标移动次数、滚动条滚动次数。

在某一实施例中，所述方法还包括：

S1011，所述用户行为日志文件由用户端储存到基于分布式文件存储的数据库中。

具体实施中，用户行为日志文件收集主要通过用户端使用javaScript脚本进行收集，并由用户端将用户行为日志文件保存在Mongodb中(基于分布式文件存储的数据库)。

S102，将所述用户行为日志文件转存到Hadoop平台上，并根据所述Hadoop平台的HDFS(Hadoop Distributed File System，分布式文件系统)特性对用户行为日志文件进行分布式存储备份；

具体实施中，HDFS的架构是基于一组特定的节点构建的，这是由它自身的特点决定的。这些节点包括一个主节点NameNode和多个从节点DataNode，NameNode在HDFS内部提供元数据服务；DataNode，它为HDFS提供存储块。存储在HDFS中的文件被分成块，然后将这些块复制到多个计算机中(DataNode)，从而维护多个工作数据副本，确保能够针对失败的节点重新分布处理，提高系统可靠性。

S103，根据所述Hadoop平台的分布式计算框架对所述用户行为日志文件进行离线预处理，得到过滤后的数据；

具体实施中，Hadoop平台的分布式计算框架为MapReduce，在MapReduce计算框架的基础上利用hive对所述用户行为日志文件进行离线数据分析，预处理，过滤出干净的数据。

在某一实施例中，步骤S103的具体操作步骤为：在MapReduce计算框架的基础上利用hive对用户行为日志文件中的字段进行识别切分，去除所述用户行为日志文件中不合法的记录，根据统计需求，提取特征信息。

需要说明的是，所述识别的字段是由技术人员根据实际统计需要自行设定，本发明对此不做赘述。

具体实施中，通过对用户行为日志文件中的用户行为进行分析，从而更多的关注用户的培养、需求以及成长，以给用户提供合理的推荐服务，保证推荐的精准性和丰富性，进而调动用户学习的积极主动性，提高用户黏性。所述特征信息包括：

通过收集用户行为的特征信息来判断用户对资源的偏好程度，产生用户资源偏好集，为后面的推荐算法进行计算提供数据集。

S104，通过Mahout提取过滤后的数据，利用所述Mahout对所述过滤后的数据进行计算，得到计算结果，将所述计算结果存储至数据库中作为推荐结果；

参见图4，具体实施中，以下为本发明实施例中结合在线教育的特征采用的推荐算法：

1)基于混合协同过滤的推荐算法，包括以下步骤：

a.根据用户行为信息，利用皮尔逊相关系数度量公式计算用户间的相似度；

b.找到与目标用户相似度较高的邻居用户集合，利用邻居用户对课程反馈情况，预测目标用户对课程的偏好度；

c.根据目标用户的行为记录，利用欧式距离计算公式计算课程间的相似度；

d.找到与目标用户观看课程的相似度较高的邻居课程集合，通过邻居课程的热门程度预测目标用户对邻居课程的偏好度。

e.对得到的目标学习资源集合(课程、邻居课程)进行权重计算，最终得到推荐的目标学习资源，依据偏好程度进行排序，将偏好程度最高的学习资源推荐给用户。

需要说明的是，基于混合协同过滤的推荐算法是指融合了基于用户的协同过滤算法和基于项目的协同过滤算法的混合推荐算法。其中，步骤a、b是基于用户的协同过滤算法的计算过程，步骤c、d是基于项目的协同过滤算法的计算过程，步骤e是对两种算法的结果进行整合，产生基于混合协同过滤的推荐算法的推荐结果，使得推荐结果更符合用户的偏好程度。

2)根据用户信息相似度的基于用户的推荐算法，主要包括：

根据目标用户注册信息，获得“用户的个人特征”，利用k-means聚类算法思想，寻找相似用户集，将相似用户进行聚类在一起，采用余弦距离测度，在相似用户集中找出最相似的用户，即余弦距离最小值的用户，并依据最相似用户对各学习资源的偏好程度对目标用户进行推荐。

需要说明的是，此根据用户信息相似度的基于用户的推荐算法主要用于解决用户冷启动问题。

3)根据用户行为的基于内容的推荐算法，包括：

根据用户之前的历史行为信息，包括用户看过的课程或者其他学习资源，为用户推荐与看过的资源内容类似的学习资源，比如同一位老师讲过的其它课程。

但是，仅依靠某一种推荐算法总是会有很多缺点，少数平台采用多种推荐进行结合，但是很少考虑用户的行为，多种推荐算法结合的比较生硬，不能流畅平滑的转化，推荐结果不理想。

当用户产生搜索行为时，可知此时用户对某一内容的目的性较强，对该内容有着即时的、强烈的需求，此时应该主要根据用户搜索的点击，观看课程的内容、主题进行基于内容的推荐，随着搜索行为次数的不断增加，可适当增加基于内容的推荐比重，从而进行合理的推荐，保证推荐的精准性和丰富性。例如，具体实施中，步骤S104的具体操作包括：

步骤S1041，利用融合了基于内容的推荐算法和基于混合协同过滤推荐算法的公式(1)，计算用户U对资源d _i的初始偏好程度P ₁(U,d _i)：

其中：

α＝|P _Cb(U,d _i)-P _Hcf(U,d _i)|，α≥0，

β＝|P _Cb(U,d _i)+P _Hcf(U,d _i)|，β≥0，

P _Hcf(U,d _i)表示基于混合协同过滤推荐算法中的用户U对资源d _i 的偏好程度；

α代表在基于内容和混合协同过滤算法下用户U对资源d _i的偏好程度的偏差值；α的值越小，说明这两种算法下用户U对资源d _i的偏好相似度越大，则推荐偏好越准确。

β代表基于内容和混合协同过滤算法下用户U对资源d _i的偏好程度的总偏好值；β的值越大，说明这两种算法下用户U对资源d _i的偏好程度的总偏好值越大，说明资源d _i越值得被推荐。

需要说明的是，当α的值越小，即用户U对资源d _i基于两种算法下求出的偏好程度越接近。当P _Hcf(U,d _i)＝P _Cb(U,d _i)时，α＝0，则代表在基于内容和混合协同过滤算法下用户U对资源d _i的偏好程度相同，此时用户U对资源d _i的偏好程度就是基于内容的推荐算法(或者是基于混合协同过滤推荐算法)中用户U对资源d _i的偏好程度。当α的值越大，即用户U对资源d _i的偏好相似度越小，此时，应该基于不同的权重比进行两种算法之间的调和。因此，根据公式(1)可以平滑地融合基于内容的推荐算法和基于混合协同过滤的推荐算法，使得推荐结果更接近于用户的需求。

协同过滤算法是以用户的历史行为数据为计算基础的。但是新用户没有历史行为记录，这就产生了冷启动问题。大多数推荐算法冷启动问题采用的是对用户随机推荐、最新最热推荐、利用用户注册信息推荐的方法，等用户数据收集到一定的时候再切换为个性化推荐，而在收集用户数据的这段期间，很容易造成用户的流失。为解决用户的冷启动问题，本发明实施例中在步骤S1041的基础上，还包括步骤S1042：

步骤S1042，利用公式(2)计算用户U对资源d _i的最终偏好程度P(U,d _i)，将用户U对资源d _i的最终偏好程度最高的资源d _i作为计算结果：

P(U,d _i)＝e ^-w×P _u(U,d _i)+(1-e ^-w)*P ₁(U,d _i)

公式(2)

其中：w∝t，t表示用户历史行为记录条数；

利用公式(2)可以计算出用户U对资源d _i的最终偏好程度P(U,d _i)，将资源d _i按照最终偏好程度P(U,d _i)由高到低进行排序，将最终偏好程度最高的资源d _i作为计算结果，将所述计算结果存储至数据库中作为推荐结果。

在另一实施例中，取最终偏好程度大于预设阈值的至少一个资源d _i作为计算结果，将所述计算结果存储至数据库中作为推荐结果。

需要说明的是，一开始，新用户注册没有历史行为记录，则w＝0，P(U,d _i)＝P _u(U,d _i)，则表示新用户主要按照根据用户信息相似度的基于用户的推荐算法(即图4中的根据用户特征的基于用户的推荐算法)。当用户历史行为记录条数t越多，则w的值越大，P ₁(U,d _i)的权重比就越大，最终慢慢转化为依据用户历史行为记录进行的推荐计算。从而平滑地也解决了新用户的冷启动问题，使得新用户可平滑地过渡到老用户，避免新用户的流失，提高用户的黏性。

S105，若接收到用户端请求推荐的触发信号，则从数据库中调取推荐结果发送给用户端。

具体实施中，用户登录在线教育网站的用户端时产生触发信号，推荐系统接收到用户端请求推荐的触发信号，则从数据库中调取推荐结果发送给用户端。

本发明实施例将通过搭建Hadoop数据处理平台并使用数据挖掘的开源算法库Apache Mahout来对用户行为数据进行离线分析与处理，整个系统构建都是基于MapReduce计算模型，充分利用云平台强大的数据处理能力，离线计算用户推荐结果，采用并行化和分布式来提高系统的效率和改善系统的可扩展性，解决了传统单机推荐模型计算能力不足，实时推荐时间过长问题。

在实际使用中，推荐系统具有的基本性能包括：客户请求的响应时间2秒以内；支持上百万用户同时在线访问；服务器CPU平均负荷率≤50％；

可靠性强：系统具有7×24×365小时的高可用性，可靠性为99.9999％以上；确保数据存取服务准确，不丢失数据；

具有良好的可扩展性：可满足未来三年内用户扩展的需求，可支持后续的应用系统资源逐步整合；当系统用户增多或数据量加大时不影响现有系统功能和结构，能够方便后续的系统扩展。

在线教育系统专注于为有需求的用户推荐个性化的学习方案以及合适的学习资源，基于Hadoop和Mahout的用户行为分析及个性化推荐的设计让用户通过大数据分析达到学习的要求并提升自己，同时产生巨大的社会效益，促进在线教育行业的快速发展。

实施例2，

本发明实施例提供一种终端。本实施例中的终端可包括：用于执行如实施例1所述的方法的单元。

接收单元，用于接收用户端上传的用户行为日志文件；

在某一实施例中，还包括：

储存单元，用于将所述用户行为日志文件由用户端储存到基于分布式文件存储的数据库中。；

具体实施中，用户行为日志文件收集主要通过用户端使用javaScript脚本进行收集，并由用户端将用户行为日志文件保存在Mongodb中(基于分布式文件存储的数据库)。分布式存储单元，用于将所述用户行为日志文件转存到Hadoop平台上，并根据所述Hadoop平台的HDFS(Hadoop Distributed File System，分布式文件系统)特性对用户行为日志文件进行分布式存储备份；

具体实施中，HDFS的架构是基于一组特定的节点构建的，这是由它自身的特点决定的。这些节点包括一个主节点NameNode和多个从节点DataNode NameNode(仅一个)，NameNode它在HDFS内部提供元数据服务；DataNode，它为HDFS提供存储块。存储在HDFS中的文件被分成块，然后将这些块复制到多个计算机中(DataNode)，从而维护多个工作数据副本，确保能够针对失败的节点重新分布处理，提高系统可靠性。

预处理单元，用于根据所述Hadoop平台的分布式计算框架对所述用户行为日志文件进行离线预处理，得到过滤后的数据；

具体实施中，具体实施中，Hadoop平台的分布式计算框架为MapReduce，在MapReduce计算框架的基础上利用hive对所述用户行为日志文件进行离线数据分析，预处理，过滤出干净的数据。

在某一实施例中，预处理单元具体用于：在MapReduce计算框架的基础上利用hive对用户行为日志文件中的字段进行识别切分，去除所述用户行为日志文件中不合法的记录，根据统计需求，提取特征信息。

通过收集用户行为的特征信息来判断用户对资源的偏好程度，产生用户资源偏好集，为后面的推荐算法进行计算提供数据集。计算单元，用于通过Mahout提取过滤后的数据，利用所述Mahout对所述过滤后的数据进行计算，得到计算结果，将所述计算结果存储至数据库中作为推荐结果；

参见图4，具体实施中，以下为本发明实施例中使用到的推荐算法：

1)基于混合协同过滤的推荐算法，包括以下步骤：

需要说明的是，基于混合协同过滤的推荐算法是指融合了基于用户的协同过滤算法和基于项目的协同过滤算法的混合推荐算法。其中，步骤a、b是基于用户的协同过滤算法的计算过程，步骤c、d是基于项目的协同过滤算法的计算过程，步骤e是对两种算法的结果进行整合，产生基于混合协同过滤的推荐算法的推荐结果，使得推荐结果更符合用户的偏好程度。2)根据用户信息相似度的基于用户的推荐算法，主要包括：

3)根据用户行为的基于内容的推荐算法，包括：

当用户产生搜索行为时，可知此时用户对某一内容的目的性较强，对该内容有着即时的、强烈的需求，此时应该主要根据用户搜索的点击，观看课程的内容、主题进行基于内容的推荐，随着搜索行为次数的不断增加，可适当增加基于内容的推荐比重，从而进行合理的推荐，保证推荐的精准性和丰富性。例如，具体实施中，计算单元的具体包括：

融合计算单元，用于利用融合了基于内容的推荐算法和基于混合协同过滤推荐算法的公式(1)，计算用户U对资源d _i的初始偏好程度P ₁(U,d _i)：

其中：

α＝|P _Cb(U,d _i)-P _Hcf(U,d _i)|，α≥0，

β＝|P _Cb(U,d _i)+P _Hcf(U,d _i)|，β≥0，

协同过滤算法是以用户的历史行为数据为计算基础的。但是新用户没有历史行为记录，这就产生了冷启动问题。大多数推荐算法冷启动问题采用的是对用户随机推荐、最新最热推荐、利用用户注册信息推荐的方法，等用户数据收集到一定的时候再切换为个性化推荐，而在收集用户数据的这段期间，很容易造成用户的流失。为解决用户的冷启动问题，本发明实施例中在融合计算单元的基础上，还包括最终计算单元：

最终计算单元，用于利用公式(2)计算用户U对资源d _i的最终偏好程度P(U,d _i)，将用户U对资源d _i的最终偏好程度最高的资源d _i作为计算结果：

P(U,d _i)＝e ^-w×P _u(U,d _i)+(1-e ^-w)*P ₁(U,d _i)

公式(2)

其中：w∝t，t表示用户历史行为记录条数；

发送单元，用于若接收到用户端请求推荐的触发信号，则从数据库中调取推荐结果发送给用户端。

实施例3

参见图3，本发明另一实施例提供的一种终端300示意框图。如图所示的本实施例中的终端300可以包括：一个或多个处理器301；一个或多个输入设备302，一个或多个输出设备303和存储器304。上述处理器301、输入设备302、输出设备303和存储器304通过总线305连接。存储器302用于存储指令，处理器301用于执行存储器302存储的指令。其中，处理器301用于执行：

接收用户端上传的用户行为日志文件；将所述用户行为日志文件转存到Hadoop平台上，并根据所述Hadoop平台的HDFS特性对用户行为日志文件进行分布式存储备份；根据所述Hadoop平台的分布式计算框架对所述用户行为日志文件进行离线预处理，得到过滤后的数据；通过Mahout提取过滤后的数据，利用所述Mahout对所述过滤后的数据进行计算，得到计算结果，将所述计算结果存储至数据库中作为推荐结果；若接收到用户端请求推荐的触发信号，则从数据库中调取推荐结果发送给用户端。

进一步地，还用于执行：所述通过Mahout提取过滤后的数据，利用所述Mahout对所述过滤后的数据进行计算，得到计算结果，包括：利用融合了基于内容的推荐算法和基于混合协同过滤推荐算法的公式(1)，计算用户U对资源d _i的初始偏好程度P ₁(U,d _i)：

其中：

α＝|P _Cb(U,d _i)-P _Hcf(U,d _i)|，α≥0，

β＝|P _Cb(U,d _i)+P _Hcf(U,d _i)|，β≥0，

进一步地还用于执行：利用公式(2)计算用户U对资源d _i的最终偏好程度P(U,d _i)，将用户U对资源d _i的最终偏好程度最高的资源d _i作为计算结果：

P(U,d _i)＝e ^-w×P _u(U,d _i)+(1-e ^-w)*P ₁(U,d _i)

公式(2)

其中：w∝t，t表示用户历史行为记录条数；

进一步地还用于执行：所述用户行为日志文件由用户端储存到基于分布式文件存储的数据库中。

进一步地还用于执行：所述根据所述Hadoop平台的分布式计算框架对所述用户行为日志文件进行离线预处理，包括：对用户行为日志文件中的字段进行识别切分，去除所述用户行为日志文件中不合法的记录，根据统计需求，提取特征信息。

其中，所述特征信息包括：用户的个人特征：学历、专业、职业、年龄、性别、性格、兴趣、未来学习计划；显性的用户行为特征：用户评分反馈、下载资源、做题记录、搜索课程资源、与课程互动次数、每次互动时间、系统在线时长；隐性用户行为特征：页面停留时间、页面访问次数、鼠标移动次数、滚动条滚动次数。

应当理解，在本发明实施例中，所称处理器301可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

输入设备302可以包括触控板、指纹采传感器(用于采集用户的指纹信息和指纹的方向信息)、麦克风等，输出设备303可以包括显示器(LCD等)、扬声器等。

该存储器304可以包括只读存储器和随机存取存储器，并向处理器301提供指令和数据。存储器304的一部分还可以包括非易失性随机存取存储器。例如，存储器304还可以存储设备类型的信息。

具体实现中，本发明实施例中所描述的处理器301、输入设备302、输出设备303可执行本发明实施例提供的一种参数调整方法的个实施例中所描述的实现方式，也可执行本发明实施例所描述的终端300的实现方式，在此不再赘述。

在本发明的另一实施例中提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现：

所述通过Mahout提取过滤后的数据，利用所述Mahout对所述过滤后的数据进行计算，得到计算结果，包括：利用融合了基于内容的推荐算法和基于混合协同过滤推荐算法的公式(1)，计算用户U对资源d _i的初始偏好程度P ₁(U,d _i)：

其中：

α＝|P _Cb(U,d _i)-P _Hcf(U,d _i)|，α≥0，

β＝|P _Cb(U,d _i)+P _Hcf(U,d _i)|，β≥0，

P(U,d _i)＝e ^-w×P _u(U,d _i)+(1-e ^-w)*P ₁(U,d _i)

公式(2)

其中：w∝t，t表示用户历史行为记录条数；

所述方法还包括：所述用户行为日志文件由用户端储存到基于分布式文件存储的数据库中。

所述根据所述Hadoop平台的分布式计算框架对所述用户行为日志文件进行离线预处理，包括：对用户行为日志文件中的字段进行识别切分，去除所述用户行为日志文件中不合法的记录，根据统计需求，提取特征信息。

所述计算机可读存储介质可以是前述任一实施例所述的终端的内部存储单元，例如终端的硬盘或内存。所述计算机可读存储介质也可以是所述终端的外部存储设备，例如所述终端上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD) 卡，闪存卡(Flash Card)等。进一步地，所述计算机可读存储介质还可以既包括所述终端的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述终端所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的终端和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的终端和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其他实施例的相关描述。

以上所述，为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

一种在线教育系统的个性化推荐方法，其特征在于，包括以下步骤：

接收用户端上传的用户行为日志文件；

将所述用户行为日志文件转存到Hadoop平台上，并根据所述Hadoop平台的HDFS特性对用户行为日志文件进行分布式存储备份；

根据所述Hadoop平台的分布式计算框架对所述用户行为日志文件进行离线预处理，得到过滤后的数据；

通过Mahout提取过滤后的数据，利用所述Mahout对所述过滤后的数据进行计算，得到计算结果，将所述计算结果存储至数据库中作为推荐结果；

若接收到用户端请求推荐的触发信号，则从数据库中调取推荐结果发送给用户端。
如权利要求1所述的在线教育系统的个性化推荐方法，其特征在于，所述通过Mahout提取过滤后的数据，利用所述Mahout对所述过滤后的数据进行计算，得到计算结果，包括：

利用融合了基于内容的推荐算法和基于混合协同过滤推荐算法的公式(1)，计算用户U对资源d _i的初始偏好程度P ₁(U,d _i)：

其中：

α＝|P _Cb(U,d _i)-P _Hcf(U,d _i)|，α≥0，

β＝|P _Cb(U,d _i)+P _Hcf(U,d _i)|，β≥0，

P _Cb(U,d _i)表示基于内容的推荐算法中用户U对资源d _i的偏好程度；

P _Hcf(U,d _i)表示基于混合协同过滤推荐算法中的用户U对资源d _i的偏好程度；

max{P _Cb(U,d _i),P _Hcf(U,d _i)}表示，取两种算法下最大的用户U对资源d _i的偏好程度的最大值；

min{P _Cb(U,d _i),P _Hcf(U,d _i)}表示，取两种算法下最小的用户U对资源d _i的偏好程度的最小值；

α代表在基于内容和混合协同过滤算法下用户U对资源d _i的偏好程度的偏差值；

β代表基于内容和混合协同过滤算法下用户U对资源d _i的偏好程度的总偏好值；

P ₁(U,d _i)表示在公式(1)的算法下用户U对资源d _i的初始偏好程度。
如权利要求2所述的在线教育系统的个性化推荐方法，其特征在于，还包括：

利用公式(2)计算用户U对资源d _i的最终偏好程度P(U,d _i)，将用户U对资源d _i的最终偏好程度最高的资源d _i作为计算结果：

P(U,d _i)＝e ^-w×P _u(U,d _i)+(1-e ^-w)*P ₁(U,d _i)

公式(2)

其中：w∝t，t表示用户历史行为记录条数；

P _u(U,d _i)表示基于用户信息相似度的推荐算法中用户U对资源d _i的初始偏好程度；

P(U,d _i)表示在公式(2)的算法下用户U对资源d _i的最终偏好程度。
如权利要求3所述的在线教育系统的个性化推荐方法，其特征在于，所述方法还包括：

所述用户行为日志文件由用户端储存到基于分布式文件存储的数据库中。
如权利要求1所述的在线教育系统的个性化推荐方法，其特征在于，所述根据所述Hadoop平台的分布式计算框架对所述用户行为日志文件进行离线预处理，包括：

对用户行为日志文件中的字段进行识别切分，去除所述用户行为日志文件中不合法的记录，根据统计需求，提取特征信息。
如权利要求5所述的在线教育系统的个性化推荐方法，其特征在于，所述特征信息包括：

用户的个人特征：学历、专业、职业、年龄、性别、性格、兴趣、未来学习计划；

显性的用户行为特征：用户评分反馈、下载资源、做题记录、搜索课程资源、与课程互动次数、每次互动时间、系统在线时长；

隐性用户行为特征：页面停留时间、页面访问次数、鼠标移动次数、滚动条滚动次数。
一种终端，其特征在于，包括：用于执行如权利要求1-6任一项所述的方法的单元。
一种终端，该终端包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其特征在于，所述存储器用于存储支持终端执行如权利要求1-6任一项所述的方法的应用程序代码，所述处理器被配置用于执行如权利要求1-6任一项所述的方法。
一种计算机可读存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-6任一项所述的方法。