WO2017219548A1

WO2017219548A1 - 用户属性预测方法及装置

Info

Publication number: WO2017219548A1
Application number: PCT/CN2016/102466
Authority: WO
Inventors: 周二亮
Original assignee: 乐视控股（北京）有限公司; 乐视网信息技术（北京）股份有限公司
Priority date: 2016-06-20
Filing date: 2016-10-18
Publication date: 2017-12-28
Also published as: CN106126597A

Abstract

一种用户属性预测方法及装置，所述方法包括：获取样本用户属性标签以及样本用户所安装的应用程序（101）；将用户属性标签以及样本用户所安装的应用程序作为训练数据，输入预先构建的算法模型中，训练得到预测用户属性的预测模型（102）；获取目标用户所安装的应用程序，并输入预测用户属性的预测模型中，计算得到目标用户的用户属性预测结果（103）。所述用户属性预测方法及装置通过将已知的用户属性以及该样本用户所安装的应用程序作为训练数据，训练得到能够预测用户属性的预测模型，通过将目标用户所安装的应用程序的类型输入预测模型中，能够预测目标用户的用户属性。所述用户属性预测方法基于应用程序能够对目标用户的用户属性进行准确的预测。

Description

用户属性预测方法及装置

交叉引用

本申请引用于2016年6月20日提交的专利名称为“用户属性预测方法及装置”的第2016104477184号中国专利申请，其通过引用被全部并入本申请。

技术领域

本发明实施例涉及移动互联网技术领域，特别是指一种用户属性预测方法及装置。

背景技术

随着web2.0的到来和移动互联网的飞速发展，用户的基础属性在网络应用中扮演的角色越来越重要，例如：Google提供的个性化搜索服务是根据用户的地理位置信息和用户的搜索历史记录为用户返回个性化的搜索列表，给用户提供个性化的搜索服务。这是因为用户属性很大程度上决定了用户的意图和习惯，知晓用户属性对于满足用户的潜在需求具有重大意义。这里的用户基础属性通常是指用户的年龄、性别、收入状况、地理位置、文化程度、宗教信仰等基础属性。

现有技术中，一种最简单的方式是通过注册用户的资料填写获取得到的用户属性信息，但是这种方法的覆盖率和准确率都无法得到保证，难以达到应用需求。特别是对于用户粘性不够高的产品来说，普遍存在注册比例低、登录用户少、乱填个人资料、使用默认选项、多人共用电脑等诸多问题。还有一种用户属性获取的方法，是主要研究集中在用户的网络日志和用户的搜索内容上。对用户的网络日志的研究主要是通过研究用户网络日志的书写习惯和用语习惯预测作者的性别和年龄等用户属性，采取的方法主要是基于文本的分类方法。对用户的搜索内容研究主要是分析用户的搜索内容和用户的基础属性之间的联系，以实现对用户的基础属性预测目的，采取的方法一般是统计分析和关联规则分析。

在实现本发明的过程中，发明人发现现有技术至少存在以下问题：现有技术中获取用户属性的方法并不适用于移动终端中用户属性的预测、分析。原因在于：一方面，与电脑不同，移动终端中用户的操作主要并不是体现在网络日志和搜索内容上，因此，网络日志和搜索内容不具有代表性；另一方面，在移动终端中由于用户的各种使用信息通常处于保密状态，导致难以获得相应的信息进行预测。因此，目前缺乏针对移动终端中用户属性预测的手段。

发明内容

有鉴于此，本发明实施例的目的在于提出一种用户属性预测方法及装置，能够对移动终端用户的用户属性进行准确的预测。

基于上述目的本发明实施例提供的一种用户属性预测方法，包括：

获取样本用户的用户属性标签以及所述样本用户所安装的应用程序；

将所述样本用户的用户属性标签以及所述样本用户所安装的应用程序作为训练数据，输入预先构建的用户属性预测的算法模型中，训练得到预测用户属性的预测模型；

获取目标用户所安装的应用程序，将所述目标用户所安装的应用程序输入预测用户属性的预测模型中，计算得到目标用户的用户属性预测结果。

可选的，所述将所述样本用户的用户属性标签以及所述样本用户所安装的应用程序作为训练数据的步骤还包括：

根据所述样本用户的用户属性标签以及所述样本用户所安装的应用程序，统计得到每个应用程序的使用次数；

将每个应用程序的使用次数与预设权重系数相乘，计算得到所述样本用户所安装的应用程序对应每个应用程序的权重；

将所述样本用户的用户属性标签、所述样本用户所安装的应用程序以及对应每个应用程序的权重作为训练数据。

进一步，所述统计得到每个应用程序的使用次数的步骤还包括：

判断所述样本用户所安装的应用程序每次的使用时间是否大于预设时间阈值；若是，则该次应用程序的使用记为一次有效使用，否则，该次应用程序的使用记为一次无效使用；

统计得到每个应用程序有效使用的次数，作为每个应用程序的使用次数。

进一步，所述判断所述样本用户所安装的应用程序每次的使用时间是否大于预设时间阈值的步骤之前还包括：

根据每个应用程序的类型，检索预设的应用程序与时间阈值的对应关系列表，得到每个应用程序对应的预设时间阈值。

可选的，所述计算得到目标用户的用户属性预测结果的步骤还包括：

根据预测用户属性的预测模型，计算得到目标用户的用户属性中不同属性类别的预测概率值；

选取预测概率值最大的属性类别，并判断所述属性类别的预测概率值是否大于预设概率阈值，若是，则将所述属性类别作为预测结果，否则，将用户属性中所有属性类别以及对应的预测概率值作为预测结果。

进一步，所述选取预测概率值最大的属性类别的步骤之后还包括：

查找预设的属性类别与概率阈值对应的关系列表，得到预测概率值最大的属性类别对应的预设概率阈值。

本发明实施例还提供了一种用户属性预测装置，包括：

数据获取模块，用于获取样本用户的用户属性标签以及所述样本用户所安装的应用程序，将获取的用户属性标签和应用程序发送给模型训练模块；

模型训练模块，用于接收所述数据获取模块发送的用户属性标签和应用程序，将所述样本用户的用户属性标签以及所述样本用户所安装的应用程序作为训练数据，输入预先构建的用户属性预测的算法模型中，训练得到预测用户属性的预测模型；

属性预测模块，用于获取目标用户所安装的应用程序，将所述目标用户所安装的应用程序输入预测用户属性的预测模型中，计算得到目标用户的用户属性预测结果。

可选的，所述模型训练模块包括：数量统计模块、权重计算模块和数据训练模块；

所述数据获取模块还用于，将获取的用户属性标签和应用程序发送给数量统计模块；

所述数量统计模块，用于接收所述数据获取模块发送的用户属性标签和应用程序，并根据所述样本用户的用户属性标签以及所述样本用户所安装的应用程序，统计得到每个应用程序的使用次数；将得到的每个应用程序的使用次数发送给权重计算模块；

所述权重计算模块，用于接收所述数量统计模块发送的每个应用程序的使用次数，并将每个应用程序的使用次数与预设权重系数相乘，计算得到所述样本用户所安装的应用程序对应每个应用程序的权重；将计算得到的每个应用程序的权重发送给数据训练模块；

所述数据训练模块，用于接收所述权重计算模块发送的每个应用程序的权重，将所述样本用户的用户属性标签、所述样本用户所安装的应用程序以及对应每个应用程序的权重作为训练数据，输入预先构建的用户属性预测的算法模型中，训练得到预测用户属性的预测模型。

进一步，所述数量统计模块还用于，判断所述样本用户所安装的应用程序每次的使用时间是否大于预设时间阈值；若是，则该次应用程序的使用记为一次有效使用，否则，该次应用程序的使用记为一次无效使用；

进一步，所述模型训练模块还包括时间阈值查找模块；

所述数据获取模块还用于，将获取的应用程序发送给所述时间阈值查找模块；

所述时间阈值查找模块，用于接收所述数据获取模块发送的应用程序，根据每个应用程序的类型，检索预设的应用程序与时间阈值的对应关系列表，得到每个应用程序对应的预设时间阈值，将每个应用程序对应的预设时间阈值发送给所述数量统计模块；

所述数量统计模块还用于，接收所述时间阈值查找模块发送的每个应用程序对应的预设时间阈值。

可选的，所述属性预测模块包括应用获取模块、概率预测模块和结果输出模块；

所述应用获取模块，用于获取目标用户的移动终端中的应用程序，并发送到概率预测模块中；

所述概率预测模块，用于接收所述应用获取模块发送的目标用户的移动终端中的应用程序，并将所述目标用户的移动终端中的应用程序输入预测用户属性的预测模型中，计算得到目标用户的用户属性中不同属性类别的预测概率值；将计算得到的不同属性类别的预测概率值发送给结果输出模块；

所述结果输出模块，用于接收所述概率预测模块发送的不同属性类别的预测概率值，选取预测概率值最大的属性类别，并判断所述属性类别的预测概率值是否大于预设概率阈值，若是，则将所述属性类别作为预测结果，否则，将用户属性中所有属性类别以及对应的预测概率值作为预测结果。

进一步，所述属性预测模块还包括概率阈值查找模块；

所述结果输出模块还用于，将选取出的预测概率值最大的属性类别发送给概率阈值查找模块；

所述概率阈值查找模块，用于接收所述结果输出模块发送的预测概率值最大的属性类别，查找预设的属性类别与概率阈值对应的关系列表，得到预测概率值最大的属性类别对应的预设概率阈值，将所述预设概率阈值发送给结果输出模块；

所述结果输出模块还用于，接收所述概率阈值查找模块发送的预设概率阈值。

本发明实施例还提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的程序指令，所述至少一个处理器调用所述程序指令能够执行上述任意一种所述的用户属性预测方法。

本发明实施例还提供了一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述任意一种所述的用户属性预测方法。

本发明实施例还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述任意一种所述的用户属性预测方法。

从上面所述可以看出，本发明实施例提供的用户属性预测方法及装置，通过获取已知样本用户的用户属性标签以及该样本用户移动终端中所安装的应用程序的类型，然后利用所述用户属性标签和所安装的应用程序的类型作为训练数据，训练得到能够预测用户属性的预测模型，最后，将目标用户的移动终端中所安装的应用程序的类型输入预测模型中，就能够预测得到目标用户的用户属性。因此，所述用户属性预测方法及装置能够对移动终端用户的用户属性进行准确的预测。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

为了更清楚地说明本公开的实施例，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的用户属性预测方法的一个实施例的流程示意图；

图2为本发明提供的用户属性预测方法的另一个实施例的流程示意图；

图3为本发明提供的用户属性预测装置的一个实施例的结构示意图；

图4为本发明提供的用户属性预测装置的另一个实施例的结构示意图。

通过上述附图，已示出本公开明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围，而是通过参考特定实施例为本领域技术人员说明本公开的概念。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

需要说明的是，本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量，可见“第一”“第二”仅为了表述的方便，不应理解为对本发明实施例的限定，后续实施例对此不再一一说明。

面对飞速发展的移动终端领域，获取移动终端中用户的用户属性变得越来越重要。然而，基于移动终端的特点以及用户对于移动终端数据安全的要求，目前常规获取用户属性的方法完全不适用于移动终端中。本发明针对这一问题，提出了一种用户属性预测方法，能够实现移动终端中用户属性的预测、分析。参照图1所示，为本发明提供的用户属性预测方法的一个实施例的流程示意图。

所述用户属性预测方法包括：

步骤101，获取样本用户的用户属性标签以及所述样本用户所安装的应用程序；

为了预测目标用户的用户属性，首先必须获得一些已知用户属性的用户数据，本发明基于移动终端的使用特点，发现在移动终端中使用最为频繁且具有代表性的事件就是关于各类应用程序的使用，因此，本发明将样本用户的移动终端中所安装的应用程序的类型作为预测用户属性的关键数据。所述用户属性标签是指表情用户属性的标签或者是指明用户属性的具体属性类别，例如：用户属性为性别，则所述用户属性标签为男或者女；若用户属性为年龄，则所述用户属性标签为具体的年龄或者一定规则划分的年龄段(20岁以下、20岁到30岁、30岁到40岁、40岁以上等等)。具体的，所述用户属性可以包括：性别、年龄、婚否、国籍、收入状况、地理位置、文化程度(学历)、宗教信仰等等基本信息。这里所述的所安装的应用程序既可以是指用户在一个移动终端上安装的应用程序，也可以是样本用户基于同一个用户账号在多个移动终端上所安装的应用程序。所述移动终端可以包括：手机、平板等各类智能移动设备。本步骤中所述获取的用户属性标签及应用程序，通常是指针对于已知用户属性的大量不同样本用户，分别获取所述大量不同样本用户对应所安装的应用程序。

可选的，在本发明另一些实施例中，所述应用程序还可以是预先选定的具有用户属性倾向的应用程序类型。例如：所述用户属性是性别，那么预先筛选出具有性别倾向的应用程序作为需要使用的数据，而其他不具有性别倾向的应用程序(包括作为训练数据的应用程序以及目标用户的应用程序)可以忽略，这样，不仅可以进一步提高预测的准确性，而且可以提高所述用户属性预测的速度和效率。

步骤102，将所述样本用户的用户属性标签以及所述样本用户所安装的应用程序作为训练数据，输入预先构建的用户属性预测的算法模型中，训练得到预测用户属性的预测模型；

为了预测未知用户属性的目标用户的用户属性，需要构建一个预测模型，基于本发明实施例中所述的方案是基于用户属性分类性质的判定，因此，本发明实施例中选用具有分类功能的算法模型进行训练，进而得到预测模型。输入时，需要将每个样本用户的用户属性标签与样本用户对应安装的应用程序相互对应起来，使其具有关联性。可选的，所述训练数据还可以包括：训练参数和测试参数，其中，所述训练参数用于训练并且构建预测模型，所述测试参数用于对所述预测模型进行测试。可选的，所述算法模型可以包括：

(1)朴素贝叶斯模分类算法模型，原理在于：对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率，哪个最大，就认为此待分类项属于哪个类别。通俗来说，就好比这么个道理，你在街上看到一个黑人，我问你你猜这哥们哪里来的，你十有八九猜非洲。为什么呢？因为黑人中非洲人的比率最高，当然人家也可能是美洲人或亚洲人，但在没有其它可用信息下，我们会选择条件概率最大的类别，这就是朴素贝叶斯的思想基础。

(2)逻辑回归(LR)模型，原理在于：仅在线性回归的基础上，套用了一个逻辑函数，但也就由于这个逻辑函数，使得逻辑回归模型成为了机器学习领域一颗耀眼的明星，更是计算广告学的核心。

(3)c4.5决策树模型，原理在于：C4.5是一系列用在机器学习和数据挖掘的分类问题中的算法。它的目标是监督学习：给定一个数据集，其中的每一个元组都能用一组属性值来描述，每一个元组属于一个互斥的类别中的某一类。C4.5的目标是通过学习，找到一个从属性值到类别的映射关系，并且这个映射能用于对新的类别未知的实体进行分类。

(4)支持向量机模型(SVM)，原理在于：支持向量机(support vector machine)是一种分类算法，通过寻求结构化风险最小来提高学习机泛化能力，实现经验风险和置信范围的最小化，从而达到在统计样本量较少的情况下，亦能获得良好统计规律的目的。通俗来讲，它是一种二类分类模型，其基本模型定义为特征空间上的间隔最大的线性分类器，即支持向量机的学习策略便是间隔最大化，最终可转化为一个凸二次规划问题的求解。

(5)随机森林模型，原理在于：随机森林是一种多功能的机器学习算法，能够执行回归和分类的任务。同时，它也是一种数据降维手段，用于处理缺失值、异常值以及其他数据探索中的重要步骤，并取得了不错的成效。另外，它还担任了集成学习中的重要方法，在将几个低效模型整合为一个高效模型时大显身手。

(6)集成分类器模型(Adaboost)，原理在于：Adaboost是一种迭代算法，其核心思想是针对同一个训练集训练不同的分类器(弱分类器)，然后把这些弱分类器集合起来，构成一个更强的最终分类器(强分类器)。

步骤103，获取目标用户所安装的应用程序，将所述目标用户所安装的应用程序输入预测用户属性的预测模型中，计算得到目标用户的用户属性预测结果。

当预测模型已经构建完成以后，可以开始进行属性用户的预测，此时，需要先获取目标用户所安装的所有应用程序，然后将获取的应用程序代入预测模型中就能够得到目标用户的用户属性的预测结果。例如：若用户属性是指性别，那么就可以预测得到目标用户是男还是女。当然，这里获取的应用程序可以只是该目标用户所安装的部分应用程序，而获取的应用程序越全面，那么预测结果越准确。同时，这里所述的安装是指目标用户安装该应用程序，并且使用了该应用程序。

由上述实施例可知，本发明实施例提供的所述用户属性预测方法，通过获取大量已知样本用户的用户属性标签以及该样本用户移动终端中所安装的应用程序的类型，然后利用所述用户属性标签和所安装的应用程序的类型作为训练数据，训练得到能够预测用户属性的预测模型，最后，将目标用户的移动终端中所安装的应用程序的类型输入预测模型中，就能够预测得到目标用户的用户属性。所述用户属性预测方法基于样本用户所安装的应用程序能够对所述目标用户的用户属性进行准确的预测。

参照图2所示，为本发明提供的用户属性预测方法的另一个实施例的流程示意图。

所述用户属性预测方法包括：

步骤201，获取样本用户的用户属性标签以及所述样本用户所安装的应用程序；

步骤202，根据每个应用程序的类型，检索预设的应用程序与时间阈值的对应关系列表，得到每个应用程序对应的预设时间阈值。其中，所述应用程序的类型是指应用程序的具体类别，例如微信、QQ、腾讯新闻、支付宝等等。所述应用程序与时间阈值的对应关系列表是指预先构建的一个用于给每个应用程序设定一个时间阈值的列表或计算公式，使得不同的应用程序与所述应用程序的性质对应的时间阈值，便于提高后续判断应用程序的有效使用次数的准确性和可靠性。这是应为针对于不同的应用程序，用户对所述应用程序使用的时间以及周期差别较大，有的应用程序的生命周期可能只是几个小时，而有的则可能是用户终身使用，所以若是采用同一个时间阈值判断，则会给使用次数的判断带来不准确性。

步骤203，判断所述样本用户所安装的应用程序每次的使用时间是否大于预设时间阈值；若是，则执行步骤204，否则，执行步骤205；

通过判断使用时间是否大于预设的时间阈值，使得所述样本用户的应用程序的使用均为有效使用，这样能够剔除一些无效使用的次数，进而提高使用次数的准确性，最后提高了用户属性预测的准确性。例如：有一些应用程序的使用是由于移动终端频繁断网导致的多次使用的记录。或者，某些应用程序的使用只是由于广告推广而使得用户安装，但是短时间后又卸载了的情形。

步骤204，根据步骤203，若所述样本用户所安装的应用程序每次的使用时间大于预设时间阈值，表示该次使用为有效使用，则将该次应用程序的使用记为一次有效使用；由步骤202可知，不同的应用程序可能对应了不同的时间阈值，所以在判断使用时间是否大于预设的时间阈值的时候也需要首先确定应用程序的类型。

步骤205，根据步骤203，若所述样本用户所安装的应用程序每次的使用时间不大于预设时间阈值，表示该次使用为无效使用，则该次应用程序的使用记为一次无效使用；

步骤206，统计得到每个应用程序有效使用的次数，作为每个应用程序的使用次数；

只有经过筛选判断后的有效使用的次数统计，才能够作为后续应用程序的使用次数。可选的，在统计应用程序的使用次数时，既可以设定在固定时间长度区间内的使用次数，例如，将某个月份内应用程序的使用次数作为统计的使用次数，进一步，还可以设定该时间长度内每个周期的次数上限，例如：每天的使用次数不能超过3次，这样能够避免一些样本用户喜欢在短时间内反复使用某一款应用程序，从而导致使用次数的干扰。还可以设定所述应用程序的使用次数为最近某个时间长度区间的使用次数，例如最近一个月的使用次数作为应用程序的使用次数。

步骤207，将每个应用程序的使用次数与预设权重系数相乘，计算得到所述样本用户所安装的应用程序对应每个应用程序的权重；

其中，所述预设权重系数是指为了将次数转化为权重值的一个预先设定的系数值，针对于不同的应用程序，既可以设定同一个权重系数，也可以根据不同的应用程序的类型，设定不同的权重系数。这样，所述应用程序的使用次数换算成权重后也将作为训练数据，能够提高用户属性预测的准确性。

步骤208，将所述样本用户的用户属性标签、所述样本用户所安装的应用程序以及对应每个应用程序的权重作为训练数据，输入预先构建的用户属性预测的算法模型中，训练得到预测用户属性的预测模型；

通过步骤207计算得到每个应用程序基于使用次数的权重值，将每个应用程序的权重值与应用程序本身一起作为训练数据，使得能够极大地提高训练得到的预测模型预测的准确性。例如：不同的样本用户即使所安装的应用程序完全一样，若是其使用的次数不同，也能够进一步区分不同样本用户的不同性质，使得通过获取目标用户所安装的应用程序以及每个应用程序的使用次数，能够更加精确的预测目标用户的用户属性。所述权重一般是使用次数越多，则权重值越大。

步骤209，获取目标用户所安装的应用程序，将所述目标用户所安装的应用程序输入预测用户属性的预测模型中，计算得到目标用户的用户属性预测概率值。所述预测用户属性的预测模型计算的结果既可以是用户属性的直接预测结果，也可以是不同属性类别的预测概率值。

步骤210，选取预测概率值最大的属性类别，查找预设的属性类别与概率阈值对应的关系列表，得到预测概率值最大的属性类别对应的预设概率阈值；

在任何判断中，都是选取概率最大的一个座位最有可能的判断结果，且概率越大则预测结果与实际的结果相同的可能性就越大。因此，为了提高预测用户属性的准确性，需要设定一个概率阈值进行判断，但是，基于不同属性类别的数据可能存在很大的差异，若是采用同一个概率阈值也可能引起一定的偏差，所以，本发明实施例针对不同的属性类别设定了对应的概率阈值，进而进一步提高用户属性的预测准确性。

步骤211，判断所述属性类别的预测概率值是否大于预设概率阈值，若是，则执行步骤212，否则，执行步骤213；

步骤212，根据步骤211，若所述属性类别的预测概率值大于预设概率阈值，表示此次预测的准确性达到了预设的标准，因而可以直接将所述属性类别作为预测结果；例如：判断目标用户为男性的预测概率值达到了95％，而设定的概率阈值为80％，则基本可以预测当前目标用户为男性用户。

步骤213，根据步骤211，若所述属性类别的预测概率值没有大于预设概率阈值，表示此次预测的准确性没有达到了预设的标准，未来给预测人员更加清晰的预测结果，将用户属性中所有属性类别以及对应的预测概率值作为预测结果，发送给预测人员或者显示出来。

由上述实施例可知，本发明实施例所述的用户属性预测方法，通过将样本用户使用应用程序的次数换算为应用程序的权重，并作为预测模型的训练数据，提高了目标用户预测的准确性，同时也体现出不同目标用户之间的差异；通过预设的时间阈值，筛选出有效的使用次数，进而提高了应用程序使用次数统计数据的稳定性；又进一步通过针对不同的应用程序的类型设定不同的预设时间阈值，使得能够对于不同性质的应用程序实现更加准确的次数统计，进一步提高了用户属性预测的准确性和可靠性；通过预设的预测概率阈值提高预测结果判断的准确性，又进一步通过针对不同的属性类别设置不同的预测概率阈值使得能够减少不同属性类别之间的差异性，使得判断结果更加准确、可靠。

需要说明的是，上述实施例只是为了表述本发明的设计思路的一个示例性的实施例，而本发明的思路并不限于上述实施例中所表述的步骤的数量和顺序。也即针对于某些步骤可以省略，或者有的步骤之间的顺序还可以根据需要发生改变。

在本发明一个可选的实施例中，所述用户属性预测的方法可以包括步骤201、步骤206、步骤207和步骤208。具体为：

这样，通过将应用程序的使用次数换算成应用程序的权重，进而提高预测用户属性的准确性。

在本发明另一个可选的实施例中，所述用户属性预测的方法可以包括步骤201、步骤203、步骤204、步骤205、步骤206、步骤207和步骤208。具体为：

统计得到每个应用程序有效使用的次数，作为每个应用程序的使用次数；

这样，通过将应用程序的使用时间与预设的时间阈值比较，能够筛选出有效的使用次数，进而提高用户属性预测的稳定性和可靠性。

进一步地，所述用户属性预测的方法还可以包括步骤201、步骤202、步骤203、步骤204、步骤205、步骤206、步骤207和步骤208。具体为：

根据每个应用程序的类型，检索预设的应用程序与时间阈值的对应关系列表，得到每个应用程序对应的预设时间阈值；

在本发明一些可选的实施例中，所述用户属性预测的方法可以包括步骤101、步骤102、步骤209、步骤211、步骤212、步骤213。具体为：

获取目标用户所安装的应用程序，将所述目标用户所安装的应用程序输入预测用户属性的预测模型中，计算得到目标用户的用户属性预测概率值；

这样，通过将预测得到的用户属性的预测概率值与预设的概率阈值比较，能够进一步提高预测结果的准确性，同时，使得在预测结果判断不准确的时候也能够将预测的概率值显示出来。

在本发明另一些可选的实施例中，所述用户属性预测的方法可以包括步骤101、步骤102、步骤209、步骤210、步骤211、步骤212、步骤213。具体为：

选取预测概率值最大的属性类别，查找预设的属性类别与概率阈值对应的关系列表，得到预测概率值最大的属性类别对应的预设概率阈值；

判断所述属性类别的预测概率值是否大于预设概率阈值，若是，则将所述属性类别作为预测结果，否则，将用户属性中所有属性类别以及对应的预测概率值作为预测结果。

这样，通过针对用户属性中的不同属性类型，减小不同属性类别数据之间的差异，使得统一用户属性中的所有属性类别均能够根据自身的特征得到较为准确的预测结果。

在一些可选的实施例中，所述用户属性为性别属性，所述用户属性预测方法为：

获取大量样本用户，所述样本用户均已知性别为男或为女，同时获取所述用户所安装的应用程序的类型；

将大量样本用户的性别和应用程序类型作为训练数据，训练得打预测用户男女的预测模块；

获取目标用户所安装的应用程序，然后将所述目标用户所安装的应用程序输入预测模型中，就能够预测得到当前目标用户的性别(为男性或者女性)。这样，通过移动终端目标用户容易获取的信息，即应用程序，就能够预测得到该目标用户的性别，进而后续能够针对目标用户的性别做出针对性的服务方案，实现目标用户的差异化管理。

在本发明的一个方面，本发明实施例还提供了一种用户属性预测装置，参照图3所示，为本发明提供的用户属性预测装置的一个实施例的结构示意图。

所述用户属性预测装置包括：

数据获取模块301，用于获取样本用户的用户属性标签以及所述样本用户所安装的应用程序，将获取的用户属性标签和应用程序发送给模型训练模块302；

模型训练模块302，用于接收所述数据获取模块301发送的用户属性标签和应用程序，将所述样本用户的用户属性标签以及所述样本用户所安装的应用程序作为训练数据，输入预先构建的用户属性预测的算法模型中，训练得到预测用户属性的预测模型；

属性预测模块303，用于获取目标用户所安装的应用程序，将所述目标用户所安装的应用程序输入预测用户属性的预测模型中，计算得到目标用户的用户属性预测结果。

由上述实施例可知，所述用户属性预测装置通过所述数据获取模块301获取已知属性样本用户的用户属性标签以及所述样本用户所安装的应用程序，所述模型训练模块302通过已知的用户属性和应用程序的训练数据训练得到预测用户属性的预测模型，所述属性预测模块303通过将目标用户所安装的应用程序输入预测模块，预测得到目标用户的用户属性预测结果。所述用户属性预测装置能够通过当前样本用户所安装的应用程序进而准确预测得到当前目标用户的用户属性，克服了现有装备智能通过用户的输入获得用户属性的缺陷，进而实现用户的差异化管理。

参见图4所示，为本发明提供的用户属性预测装置的另一个实施例的结构示意图。

在一些可选的实施例中，所述模型训练模块302包括：数量统计模块3022、权重计算模块3023和数据训练模块3024；

所述数据获取模块301还用于，将获取的用户属性标签和应用程序发送给数量统计模块3022；

所述数量统计模块3022，用于接收所述数据获取模块301发送的用户属性标签和应用程序，并根据所述样本用户的用户属性标签以及所述样本用户所安装的应用程序，统计得到每个应用程序的使用次数；将得到的每个应用程序的使用次数发送给权重计算模块3023；

所述权重计算模块3023，用于接收所述数量统计模块3022发送的每个应用程序的使用次数，并将每个应用程序的使用次数与预设权重系数相乘，计算得到所述样本用户所安装的应用程序对应每个应用程序的权重；将计算得到的每个应用程序的权重发送给数据训练模块3024；

所述数据训练模块3024，用于接收所述权重计算模块3023发送的每个应用程序的权重，将所述样本用户的用户属性标签、所述样本用户所安装的应用程序以及对应每个应用程序的权重作为训练数据，输入预先构建的用户属性预测的算法模型中，训练得到预测用户属性的预测模型。

这样，所述模型训练模块302通过所述数量统计模块3022统计得到应用程序的使用次数，通过所述权重计算模块3023计算得到应用程序基于使用次数的权重，然后通过所述数据训练模块3024将应用程序的权重也作为训练数据，提高了所述用户属性预测的准确性。

在本发明进一步的实施例中，所述数量统计模块3022还用于，判断所述样本用户所安装的应用程序每次的使用时间是否大于预设时间阈值；若是，则该次应用程序的使用记为一次有效使用，否则，该次应用程序的使用记为一次无效使用；统计得到每个应用程序有效使用的次数，作为每个应用程序的使用次数。这样，所述数量统计模块3022通过将应用程序的使用时间与预设时间阈值比较，进而筛选出应用程序的有效使用次数，进一步提高的用户属性预测的准确性。

在本发明可选的实施例中，所述模型训练模块302还包括时间阈值查找模块3021；

所述数据获取模块301还用于，将获取的应用程序发送给所述时间阈值查找模块3021；

所述时间阈值查找模块3021，用于接收所述数据获取模块301发送的应用程序，根据每个应用程序的类型，检索预设的应用程序与时间阈值的对应关系列表，得到每个应用程序对应的预设时间阈值，将每个应用程序对应的预设时间阈值发送给所述数量统计模块3022；

所述数量统计模块3022还用于，接收所述时间阈值查找模块3021发送的每个应用程序对应的预设时间阈值。

这样，所述模型训练模块302通过所述时间阈值查找模块3021查找预设的应用程序与时间阈值的对应关系列表，得到每个应用程序对应的预设时间阈值，使得能够针对于不同应用程序实现不同的判断标准，进一步减少了应用程序类型之间的差异，进而提高了预测用户属性的准确性。

在本发明另一些可选的实施例中，所述属性预测模块303包括应用获取模块3031、概率预测模块3032和结果输出模块3033；

所述应用获取模块3031，用于获取目标用户的移动终端中的应用程序，并发送到概率预测模块3032中；

所述概率预测模块3032，用于接收所述应用获取模块3031发送的目标用户的移动终端中的应用程序，并将所述目标用户的移动终端中的应用程序输入预测用户属性的预测模型中，计算得到目标用户的用户属性中不同属性类别的预测概率值；将计算得到的不同属性类别的预测概率值发送给结果输出模块3033；

所述结果输出模块3033，用于接收所述概率预测模块3032发送的不同属性类别的预测概率值，选取预测概率值最大的属性类别，并判断所述属性类别的预测概率值是否大于预设概率阈值，若是，则将所述属性类别作为预测结果，否则，将用户属性中所有属性类别以及对应的预测概率值作为预测结果。

所述属性预测模块303通过所述概率预测模块3032预测得到目标用户不同属性类别的预测概率值，通过所述结果输出模块3033判断所述预测概率值是否大于预设概率阈值，进而调整输出结果。这样，使得所述用户属性预测装置的预测结果更为可靠。

在本发明进一步的实施例中，所述属性预测模块303还包括概率阈值查找模块3034；

所述结果输出模块3033还用于，将选取出的预测概率值最大的属性类别发送给概率阈值查找模块3034；

所述概率阈值查找模块3034，用于接收所述结果输出模块3033发送的预测概率值最大的属性类别，查找预设的属性类别与概率阈值对应的关系列表，得到预测概率值最大的属性类别对应的预设概率阈值，将所述预设概率阈值发送给结果输出模块3033；

所述结果输出模块3033还用于，接收所述概率阈值查找模块发送的预设概率阈值。

这样，所述属性预测模块303通过所述概率阈值查找模块3034查找预设的属性类别与概率阈值对应的关系列表，得到预测概率值最大的属性类别对应的预设概率阈值，使得所述属性预测模块303能够根据不同属性类别的各自特征，做出相应的结果判断，进一步提高了用户属性预测的准确性和可靠性。

本发明的又一方面，还提供了一种电子设备，所述电子设备的一个实施例，包括：

一个或多个处理器，可选的，所述一个或多个处理器用于执行上面任意一个或多个实施例所述的方法中所限定的步骤；以及

用于存储操作指令的存储器；

所述一个或多个处理器被配置为从所述存储器中获取操作指令并执行：

可选的，所述处理器还用于执行：

可选的，所述处理器还用于执行：根据每个应用程序的类型，检索预设的应用程序与时间阈值的对应关系列表，得到每个应用程序对应的预设时间阈值。

可选的，所述处理器还用于执行：

参见图1，本实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：

获取目标用户所安装的应用程序，将所述目标用户所安装的应用程序输入预测用户属性的预测模型中，计算得到所述目标用户的用户属性预测结果。

本实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的方法，例如包括：

此外，典型地，本公开所述的装置可为各种电子终端设备，例如手机、个人数字助理(PDA)、平板电脑(PAD)、平板电脑(PAD)、智能电视等，因此本公开的保护范围不应限定为某种特定类型的装置。

此外，根据本公开的方法还可以被实现为由CPU执行的计算机程序，该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被CPU执行时，执行本公开的方法中限定的上述功能。

此外，上述方法步骤以及系统单元也可以利用控制器以及用于存储使得控制器实现上述步骤或单元功能的计算机程序的计算机可读存储介质实现。

此外，应该明白的是，本文所述的计算机可读存储介质(例如，存储器)可以是易失性存储器或非易失性存储器，或者可以包括易失性存储器和非易失性存储器两者。作为例子而非限制性的，非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦写可编程ROM(EEPROM)或快闪存储器。易失性存储器可以包括随机存取存储器(RAM)，该RAM可以充当外部高速缓存存储器。作为例子而非限制性的，RAM可以以多种形式获得，比如同步RAM(DRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据速率SDRAM(DDR SDRAM)、增强SDRAM(ESDRAM)、同步链路DRAM(SLDRAM)以及直接RambusRAM(DRRAM)。所公开的方面的存储设备意在包括但不限于这些和其它合适类型的存储器。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性，已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现所述的功能，但是这种实现决定不应被解释为导致脱离本公开的范围。

结合这里的公开所描述的各种示例性逻辑块、模块和电路可以利用被设计成用于执行这里所述功能的下列部件来实现或执行：通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立门或晶体管逻辑、分立的硬件组件或者这些部件的任何组合。通用处理器可以是微处理器，但是可替换地，处理器可以是任何传统处理器、控制器、微控制器或状态机。处理器也可以被实现为计算设备的组合，例如，DSP和微处理器的组合、多个微处理器、一个或多个微处理器结合DSP核、或任何其它这种配置。

结合这里的公开所描述的方法或算法的步骤可以直接包含在硬件中、由处理器执行的软件模块中或这两者的组合中。软件模块可以驻留在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域已知的任何其它形式的存储介质中。示例性的存储介质被耦合到处理器，使得处理器能够从该存储介质中读取信息或向该存储介质写入信息。在一个替换方案中，所述存储介质可以与处理器集成在一起。处理器和存储介质可以驻留在ASIC中。ASIC可以驻留在用户终端中。在一个替换方案中，处理器和存储介质可以作为分立组件驻留在用户终端中。

在一个或多个示例性设计中，所述功能可以在硬件、软件、固件或其任意组合中实现。如果在软件中实现，则可以将所述功能作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质来传送。计算机可读介质包括计算机存储介质和通信介质，该通信介质包括有助于将计算机程序从一个位置传送到另一个位置的任何介质。存储介质可以是能够被通用或专用计算机访问的任何可用介质。作为例子而非限制性的，该计算机可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储设备、磁盘存储设备或其它磁性存储设备，或者是可以用于携带或存储形式为指令或数据结构的所需程序代码并且能够被通用或专用计算机或者通用或专用处理器访问的任何其它介质。此外，任何连接都可以适当地称为计算机可读介质。例如，如果使用同轴线缆、光纤线缆、双绞线、数字用户线路(DSL)或诸如红外线、无线电和微波的无线技术来从网站、服务器或其它远程源发送软件，则上述同轴线缆、光纤线缆、双绞线、DSL或诸如红外先、无线电和微波的无线技术均包括在介质的定义。如这里所使用的，磁盘和光盘包括压缩盘(CD)、激光盘、光盘、数字多功能盘(DVD)、软盘、蓝光盘，其中磁盘通常磁性地再现数据，而光盘利用激光光学地再现数据。上述内容的组合也应当包括在计算机可读介质的范围内。

公开的示例性实施例，但是应当注公开的示例性实施例，但是应当注意，在不背离权利要求限定的本公开的范围的前提下，可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外，尽管本公开的元素可以以个体形式描述或要求，但是也可以设想多个，除非明确限制为单数。

应当理解的是，在本文中使用的，除非上下文清楚地支持例外情况，单数形式“一个”旨在也包括复数形式。还应当理解的是，在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。

上述本公开实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

Claims

一种用户属性预测方法，其特征在于，包括：

获取样本用户的用户属性标签以及所述样本用户所安装的应用程序；

将所述样本用户的用户属性标签以及所述样本用户所安装的应用程序作为训练数据，输入预先构建的用户属性预测的算法模型中，训练得到预测用户属性的预测模型；

获取目标用户所安装的应用程序，将所述目标用户所安装的应用程序输入预测用户属性的预测模型中，计算得到所述目标用户的用户属性预测结果。
根据权利要求1所述的方法，其特征在于，所述将所述样本用户的用户属性标签以及所述样本用户所安装的应用程序作为训练数据的步骤还包括：

根据所述样本用户的用户属性标签以及所述样本用户所安装的应用程序，统计得到每个应用程序的使用次数；

将每个应用程序的使用次数与预设权重系数相乘，计算得到所述样本用户所安装的应用程序对应每个应用程序的权重；

将所述样本用户的用户属性标签、所述样本用户所安装的应用程序以及对应每个应用程序的权重作为训练数据。
根据权利要求2所述的方法，其特征在于，所述统计得到每个应用程序的使用次数的步骤还包括：

判断所述样本用户所安装的应用程序每次的使用时间是否大于预设时间阈值；若是，则该次应用程序的使用记为一次有效使用，否则，该次应用程序的使用记为一次无效使用；

统计得到每个应用程序有效使用的次数，作为每个应用程序的使用次数。
根据权利要求3所述的方法，其特征在于，所述判断所述样本用户所安装的应用程序每次的使用时间是否大于预设时间阈值的步骤之前还包括：

根据每个应用程序的类型，检索预设的应用程序与时间阈值的对应关系列表，得到每个应用程序对应的预设时间阈值。
根据权利要求1所述的方法，其特征在于，所述计算得到目标用户的用户属性预测结果的步骤还包括：

根据预测用户属性的预测模型，计算得到目标用户的用户属性中不同属性类别的预测概率值；

选取预测概率值最大的属性类别，并判断所述属性类别的预测概率值是否大于预设概率阈值，若是，则将所述属性类别作为预测结果，否则，将用户属性中所有属性类别以及对应的预测概率值作为预测结果。
根据权利要求5所述的方法，其特征在于，所述选取预测概率值最大的属性类别的步骤之后还包括：

查找预设的属性类别与概率阈值对应的关系列表，得到预测概率值最大的属性类别对应的预设概率阈值。
一种用户属性预测装置，其特征在于，包括：

数据获取模块，用于获取样本用户的用户属性标签以及所述样本用户所安装的应用程序，将获取的用户属性标签和应用程序发送给模型训练模块；

模型训练模块，用于接收所述数据获取模块发送的用户属性标签和应用程序，将所述样本用户的用户属性标签以及所述样本用户所安装的应用程序作为训练数据，输入预先构建的用户属性预测的算法模型中，训练得到预测用户属性的预测模型；

属性预测模块，用于获取目标用户所安装的应用程序，将所述目标用户所安装的应用程序输入预测用户属性的预测模型中，计算得到目标用户的用户属性预测结果。
根据权利要求7所述的装置，其特征在于，所述模型训练模块包括：数量统计模块、权重计算模块和数据训练模块；

所述数据获取模块还用于，将获取的用户属性标签和应用程序发送给数量统计模块；

所述数量统计模块，用于接收所述数据获取模块发送的用户属性标签和应用程序，并根据所述样本用户的用户属性标签以及所述样本用户所安装的应用程序，统计得到每个应用程序的使用次数；将得到的每个应用程序的使用次数发送给权重计算模块；

所述权重计算模块，用于接收所述数量统计模块发送的每个应用程序的使用次数，并将每个应用程序的使用次数与预设权重系数相乘，计算得到所述样本用户所安装的应用程序对应每个应用程序的权重；将计算得到的每个应用程序的权重发送给数据训练模块；

所述数据训练模块，用于接收所述权重计算模块发送的每个应用程序的权重，将所述样本用户的用户属性标签、所述样本用户所安装的应用程序以及对应每个应用程序的权重作为训练数据，输入预先构建的用户属性预测的算法模型中，训练得到预测用户属性的预测模型。
根据权利要求8所述的装置，其特征在于，所述数量统计模块还用于，判断所述样本用户所安装的应用程序每次的使用时间是否大于预设时间阈值；若是，则该次应用程序的使用记为一次有效使用，否则，该次应用程序的使用记为一次无效使用；

统计得到每个应用程序有效使用的次数，作为每个应用程序的使用次数。
根据权利要求9所述的装置，其特征在于，所述模型训练模块还包括时间阈值查找模块；

所述数据获取模块还用于，将获取的应用程序发送给所述时间阈值查找模块；

所述时间阈值查找模块，用于接收所述数据获取模块发送的应用程序，根据每个应用程序的类型，检索预设的应用程序与时间阈值的对应关系列表，得到每个应用程序对应的预设时间阈值，将每个应用程序对应的预设时间阈值发送给所述数量统计模块；

所述数量统计模块还用于，接收所述时间阈值查找模块发送的每个应用程序对应的预设时间阈值。
根据权利要求7所述的装置，其特征在于，所述属性预测模块包括应用获取模块、概率预测模块和结果输出模块；

所述应用获取模块，用于获取目标用户的移动终端中的应用程序，并发送到概率预测模块中；

所述概率预测模块，用于接收所述应用获取模块发送的目标用户的移动终端中的应用程序，并将所述目标用户的移动终端中的应用程序输入预测用户属性的预测模型中，计算得到目标用户的用户属性中不同属性类别的预测概率值；将计算得到的不同属性类别的预测概率值发送给结果输出模块；

所述结果输出模块，用于接收所述概率预测模块发送的不同属性类别的预测概率值，选取预测概率值最大的属性类别，并判断所述属性类别的预测概率值是否大于预设概率阈值，若是，则将所述属性类别作为预测结果，否则，将用户属性中所有属性类别以及对应的预测概率值作为预测结果。
根据权利要求11所述的装置，其特征在于，所述属性预测模块还包括概率阈值查找模块；

所述结果输出模块还用于，将选取出的预测概率值最大的属性类别发送给概率阈值查找模块；

所述概率阈值查找模块，用于接收所述结果输出模块发送的预测概率值最大的属性类别，查找预设的属性类别与概率阈值对应的关系列表，得到预测概率值最大的属性类别对应的预设概率阈值，将所述预设概率阈值发送给结果输出模块；

所述结果输出模块还用于，接收所述概率阈值查找模块发送的预设概率阈值。
一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的程序指令，所述至少一个处理器调用所述程序指令能够执行如权利要求1至6任一所述的方法。
一种计算机程序产品，其特征在于，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行如权利要求1至6任一所述的方法。
一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1至6任一所述的方法。