WO2015196377A1

WO2015196377A1 - 一种用户身份类别确定方法以及装置

Info

Publication number: WO2015196377A1
Application number: PCT/CN2014/080676
Authority: WO
Inventors: 强思维; 金耀辉; 王岩
Original assignee: 华为技术有限公司
Priority date: 2014-06-25
Filing date: 2014-06-25
Publication date: 2015-12-30
Also published as: CN105408894A; CN105408894B

Abstract

本发明实施例公开了一种用户身份类别确定方法，包括：获取多个用户设备上网的位置信息记录、网页信息记录以及搜索信息记录；根据所述位置信息记录计算出各所述用户设备所属用户的第一身份属性概率集；并根据所述网页信息记录计算出各所述用户设备所属用户的第二身份属性概率集；并根据所述搜索信息记录计算出各所述用户设备所属用户的第三身份属性概率集；通过综合分析各所述用户设备所属用户对应的第一身份属性概率集、所述第二身份属性概率集以及所述第三身份属性概率集，确定各所述用户设备所属用户的身份类别。相应地，本发明实施例还公开了一种用户身份类别确定装置。采用本发明，可以实现根据用户的上网行的记录为确定用户身份类别。

Description

一一一种用户身份类别确定方法以及装置

技术领域

本发明涉及计算机网络技术领域，尤其涉及一种用户身份类别确定方法以及装置。背景技术

随着互联网技术的不断发展，基于互联网提供的用户服务也越来越多，例如: 通过互联网向用户推送业务信息或资讯信息。在提供用户服务的方式中，一概而论的撒网式服务已不再适合，个性化和差异化的服务才能更加博得用户的青睐，例如：针对青少年用户推送时装类的网页资源，而针对中年用户推送房产类的网页资源。进一步地，为了实现个性化和差异化的服务，需要获取用户的基本信息，如年龄、性别、职业以及住址等，从而确定用户身份类别。然而，由于以上基本信息涉及用户的个人隐私，并不能轻易获取。解决该问题的现有技术方案是，在用户创建网络账号时，获取用户填写的基本信息，从而根据基本信息确定用户身份类别。

但是，上述获取用户的基本信息的方式需要用户进行积极配合，即需用户同意将基本信息提供出来，导致能够收集得到基本信息的数量有限。

发明内容

本发明实施例提供了一种用户身份类别确定方法以及装置，可以实现根据用户的上网行为的记录确定用户身份类别。本发明实施例第一方面提供了一种用户身份类别确定方法，包括：获取多个用户设备上网的位置信息记录、网页信息记录以及搜索信息记录；

根据所述位置信息记录计算出各所述用户设备所属用户的第一身份属性概率集，所述第一身份属性概率集包括至少一个身份类别的概率；并

根据所述网页信息记录计算出各所述用户设备所属用户的第二身份属性概率集，所述第二身份属性概率集包括至少一个身份类别的概率；并 - - 根据所述搜索信息记录计算出各所述用户设备所属用户的第三身份属性概率集，所述第三身份属性概率集包括至少一个身份类别的概率；

通过综合分析各所述用户设备所属用户对应的第一身份属性概率集、所述第二身份属性概率集以及所述第三身份属性概率集，确定各所述用户设备所属用户的身份类别。

在第一方面的第一种可能实现方式中，所述获取多个用户设备上网的位置信息记录、网页信息记录以及搜索信息记录，包括：

从 AP ( Access Point, 网络接入点）控制器的日志信息或者移动网关的用户信息中，获取所述多个用户设备上网的位置信息记录；和

从网络嗅探器的 HTTP ( Hyper Text Transfer Protocol，超文本传输协议 ) 日志信息或者 DPI ( Deep Packet Inspection, 深度报文检测 )设备的检测信息中，获取所述多个用户设备上网的网页信息记录和搜索信息记录。

结合第一方面的可能实现方式，在第二种可能实现方式中，所述根据所述位置信息记录计算出各所述用户设备所属用户的第一身份属性概率集和所述根据所述网页信息记录计算出各所述用户设备所属用户的第二身份属性概率集，包括：

分别提取所述位置信息记录和所述网页信息记录中的特征信息，其中，特征信息包括分别在多个预设时间段内的所述用户设备的多种上网行为的统计量，所述统计量包括次数或时长；

将所述统计量转化为归一化的数值；

通过将所述归一化的数值引入预设的概率算法，分别计算出所述第一身份属性概率集和所述第二身份属性概率集。

结合第一方面以及第一方面的第二种可能实现方式，在第三种可能实现方式中，所述分别提取所述位置信息记录和所述网页信息记录中的特征信息之后，还包括：

若在同一所述预设时间段内的不同的所述用户设备的同一种所述上网行为的统计量相似，则从所述特征信息中去除相似的所述统计量。

结合第一方面以及第一方面的第三种可能实现方式，在第四种可能实现方式中，所述若在同一所述预设时间段内的不同的所述用户设备的同一种所述上网行为的统计量相似，则从所述特征信息中去除相似的所述统计量，包括： - - 通过预设的降维算法，从所述特征信息中去除相似的所述统计量，其中，所述预设的降维算法包括 LR ( Logistic Regression, 逻辑回归）算法和 Linear SVC函数。

结合第一方面以及第一方面的第二种可能实现方式，在第五种可能实现方式中，所述预设的概率算法包括以下方法的任一种：

DT ( Decision Tree, 决策树）算法；

RF ( Random Forest, 随机森林）算法；

SVM ( Support Vector Machine, 支持向量机）算法；

GT ( Gradient Tree, 梯度提升树）算法；

NB ( Naive Bayes，朴素贝叶斯）算法。

结合第一方面的可能实现方式，在第六种可能实现方式中，所述根据所述搜索信息记录计算出各所述用户设备所属用户的第三身份属性概率集，包括：提取所述搜索信息记录中的特征信息，其中，所述特征信息包括各所述用户设备对预设的多个关键词的搜索频率；

通过将所述搜索频率引入预设的算法，计算出所述第三身份属性概率集，其中，所述预设的算法包括朴素贝叶斯算法。

结合第一方面的可能实现方式，在第七种可能实现方式中，所述通过综合分析各所述用户设备所属用户对应的第一身份属性概率集、所述第二身份属性概率集以及所述第三身份属性概率集，确定各所述用户设备所属用户的身份类另¹ J，包括：

将所述第一身份属性概率集中的概率大于所述第一身份属性概率集对应的预设阔值的身份类别作为所述用户设备所属用户的身份类别；或

将所述第二身份属性概率集中的概率大于所述第二身份属性概率集对应的预设阔值的身份类别作为所述用户设备所属用户的身份类别；或

将所述第三身份属性概率集中的概率大于所述第三身份属性概率集对应的预设阔值的身份类别作为所述用户设备所属用户的身份类别。

结合第一方面以及第一方面的第一至第七任一种的可能实现方式，在第八种可能实现方式中，所述通过综合分析各所述用户设备所属用户对应的第一身份属性概率集、所述第二身份属性概率集以及所述第三身份属性概率集，确定各所述用户设备所属用户的身份类别之后，还包括： - - 根据各所述用户设备所属用户的身份类别，向各所述用户设备推送信息。本发明实施例第二方面提供了一种计算机存储介质，所述计算机存储介质存储有程序，该程序执行时包括第一方面提供的一种用户身份类别确定方法的部分或全部步骤。本发明实施例第三方面提供了一种用户身份类别确定装置，包括：信息获取模块，用于获取多个用户设备上网的位置信息记录、网页信息记录以及搜索信息记录；

概率计算模块，用于根据所述位置信息记录计算出各所述用户设备所属用户的第一身份属性概率集，所述第一身份属性概率集包括至少一个身份类别的概率；并

根据所述网页信息记录计算出各所述用户设备所属用户的第二身份属性概率集，所述第二身份属性概率集包括至少一个身份类别的概率；并

根据所述搜索信息记录计算出各所述用户设备所属用户的第三身份属性概率集，所述第三身份属性概率集包括至少一个身份类别的概率；

身份类别确定模块，用于通过综合分析各所述用户设备所属用户对应的第一身份属性概率集、所述第二身份属性概率集以及所述第三身份属性概率集，确定各所述用户设备所属用户的身份类别。

在第三方面的第一种可能实现方式中，所述信息获取模块包括：

第一获取单元，用于从 AP ( Access Point, 网络接入点 )控制器的日志信息或者移动网关的用户信息中，获取所述多个用户设备上网的位置信息记录；第二获取单元，用于从网络嗅探器的 HTTP ( Hyper Text Transfer Protocol，超文本传输协议）日志信息或者 DPI ( Deep Packet Inspection, 深度报文检测）设备的检测信息中，获取所述多个用户设备上网的网页信息记录和搜索信息记录。

结合第三方面的可能实现方式，在第二种可能实现方式中，所述概率计算模块包括：

特征信息提取单元，用于分别提取所述位置信息记录和所述网页信息记录中的特征信息，其中，特征信息包括分别在多个预设时间段内的所述用户设备 - - 的多种上网行为的统计量，所述统计量包括次数或时长；

数值转化单元，用于将所述统计量转化为归一化的数值；

概率计算单元，用于通过将所述归一化的数值引入预设的概率算法，分别计算出所述第一身份属性概率集和所述第二身份属性概率集。

结合第三方面以及第三方面的第二种可能实现方式，所述概率计算模块还包括：

降维单元，用于若在同一所述预设时间段内的不同的所述用户设备的同一种所述上网行为的统计量相似，则从所述特征信息中去除相似的所述统计量。

结合第三方面以及第三方面的第三种可能实现方式，在第四种可能实现方式中，所述降维单元具体用于通过预设的降维算法，从所述特征信息中去除相似的所述统计量，其中，所述预设的降维算法包括 LR ( Logistic Regression, 逻辑回归）算法和 Linear SVC函数。

结合第三方面以及第三方面的第二种可能实现方式，在第五种可能实现方式中，所述预设的概率算法包括以下方法的任一种：

DT ( Decision Tree, 决策树）算法；

RF ( Random Forest, 随机森林）算法；

SVM ( Support Vector Machine, 支持向量机）算法；

GT ( Gradient Tree, 梯度提升树）算法；

NB ( Naive Bayes, 朴素贝叶斯）算法。

结合第三方面的可能实现方式，在第六种可能实现方式中，所述特征信息提取单元还用于提取所述搜索信息记录中的特征信息，其中，所述特征信息包括各所述用户设备对预设的多个关键词的搜索频率；

所述概率计算单元还用于通过将所述搜索频率引入预设的算法，计算出所述第三身份属性概率集，其中，所述预设的算法包括朴素贝叶斯算法。

结合第三方面的可能实现方式，在第七种可能实现方式中，所述身份类别确定模块具体用于将所述第一身份属性概率集中的概率大于所述第一身份属性概率集对应的预设阔值的身份类别作为所述用户设备所属用户的身份类别；或

将所述第二身份属性概率集中的概率大于所述第二身份属性概率集对应的预设阔值的身份类别作为所述用户设备所属用户的身份类别；或 - - 将所述第三身份属性概率集中的概率大于所述第三身份属性概率集对应的预设阔值的身份类别作为所述用户设备所属用户的身份类别。

结合第三方面以及第三方面的第一至第七任一种的可能实现方式，在第八种可能实现方式中，所述装置还包括：

信息推送模块，用于根据各所述用户设备所属用户的身份类别，向各所述用户设备推送信息。本发明实施例第四方面提供了一种用户身份类别确定装置，包括存储器以及处理器，其中，存储器中存储一组用户身份类别确定程序，且处理器用于调用存储器中的程序，用于执行以下操作：

获取多个用户设备上网的位置信息记录、网页信息记录以及搜索信息记录；

通过综合分析各所述用户设备所属用户对应的第一身份属性概率集、所述第二身份属性概率集以及所述第三身份属性概率集，确定各所述用户设备所属用户的身份类别。由上可见，本发明实施例根据获取到的多个用户设备上网的位置信息记录、网页信息记录以及搜索信息记录，分别计算出三个方面的各用户设备所属用户的第一身份属性概率集、第二身份属性概率集以及第三身份属性概率集，其中，三个方面的身份属性概率集均包括至少一个身份类别的概率，进而通过综合分析第一身份属性概率集、第二身份属性概率集以及第三身份属性概率集，确定各所述用户设备所属用户的身份类别，本发明实施例对用户的上网行为进行上述三个方面的深入挖掘，再构建预设的算法对挖掘出的信息记录进行计算，并综合计算结果确定用户设备所属用户的身份类别，进一步地，确定得到的用户身份类别可用于个性化和差异化的用户服务，增强用户的体验。附图说明

为了更清楚地说明本发明实施例，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图 1是本发明实施例提供的一种用户身份类别确定方法的流程示意图；图 2是本发明实施例提供的另一种用户身份类别确定方法的流程示意图；图 3是本发明实施例提供的一种用户身份类别确定装置的结构示意图；图 4是本发明实施例提供的一种信息获取模块的结构示意图；

图 5是本发明实施例提供的一种概率计算模块的结构示意图；

图 6是本发明实施例提供的另一种用户身份类别确定装置的结构示意图。具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。本发明实施例中的用户身份类别确定装置（以下简称为本发明装置）实现于网络侧，从网络中获取用户设备上网的位置信息记录、网页信息记录以及搜索信息记录，因此并不用在用户设备上安装或植入任何软或硬件，具有信息基数大、信息面广和成本低的优点。

本发明实施例中的用户设备（UE， User Equipment )可以包括智能手机、平板电脑、个人电脑、电子阅读器以及车载终端等电子终端，所述用户设备可接入互联网，实现数据交互的功能。图 1是本发明实施例中一种用户身份类别确定方法的流程示意图。如图所 - - 示本实施例中的用户身份类别确定方法的流程可以包括：

S101 ,获取多个用户设备上网的位置信息记录、网页信息记录以及搜索信息记录。

所述位置信息记录是用户设备接入互联网时所处的地理位置的记录，例如咖啡馆、宿舍或图书馆。所述网页信息记录是用户设备通过浏览器或应用程序所打开的网页的记录，例如汽车网、购房网或电影网。所述搜索信息记录是用户设备使用搜索引擎或检索软件时所用的关键字或关键词。

可选的一个实施方式，一方面，本发明装置可从 AP ( Access Point, 网络接入点）控制器的日志信息或者移动网关的用户信息中，获取所述多个用户设备上网的位置信息记录。其中， AP控制器是无线网络的核心，用来集中化控制接入热点，广泛应用于 WiFi ( Wireless Fidelity, 无线保真）网络，能够获取用户登录和漫游过程中的地理位置，并生成日志信息；移动网关可以包括 GGSN ( Gateway GPRS Support Node, 网关 GPRS支持节点）或 PGW ( Packet Data Network Gateway,分组数据网网关 )等设备， GGSN可以把 GSM ( Global System for Mobile communication,全球移动中心)网中的 GPRS( General Packet Radio Service, 通用分组无线服务技术）的分组数据包进行协议转换，在转换过程中，能够获取移动用户的地理位置，并生成用户信息。简而言之，具体实现过程中，发明装置可从网络侧的设备中的日志信息或用户信息中获取包含有用户地理位置的位置信息记录。

另一方面，本发明装置可从网络嗅探器的 HTTP ( Hyper Text Transfer

Protocol, 超文本传输协议）日志信息或者 DPI ( Deep Packet Inspection, 深度报文检测 )设备的检测信息中，获取所述多个用户设备上网的网页信息记录和搜索信息记录。其中，所述网络嗅探器是一种通过包解析获取在网络应用层流量信息的工具，能够获取用户访问互联网流量信息中 HTTP的信息， HTTP信息通常保存为日志信息，包含域名、 URL ( Uniform Resource Locator, 统一资源定位器）以及 refer等字段，该字段均带有用户的上网痕迹，从中可直接读取用户设备访问过的网页和搜索的关键字或关键词； DPI设备是一种工作在 OSI ( Open System Interconnection，开放式系统互联）模型中传输层到应用层的网络设备，具备业务数据流识别和业务数据流控制功能，广泛应用于城域网 - - 和企业网，能够识别出用户设备访问过的网页和搜索的关键字或关键词，并保存在检测信息中。简而言之，具体实现过程中，发明装置可从网络侧的设备中的日志信息和检测信息中分别获取网页信息记录和搜索信息记录。

需要指出的是，本发明装置获取的是多个用户设备上网的记录，因此需要标识各个用户设备。用户设备的 IP ( Internet Protocol, 互联网协议 )地址是动态分配的， IP地址不能作为同一用户设备的标识，而 MAC ( Media Access Control, 硬件位）地址可唯一标识用户设备，因此，可选的，本发明实施例可通过 IP地址关联到由 MAC地址标识的某个具体用户，具体实现过程中，请参阅表 1 所示的一种统计用户设备的记录的示例，用户设备通过 IP地址 ( 168.192.1.158 )接入互联网时，将该 IP地址关联到该用户设备的 MAC地址 ( 1F4AE2368C2 ), 并最终以 MAC地址 ( 1F4AE2368C2 )作为用户设备的标表 1

S102，根据所述位置信息记录计算出各所述用户设备所属用户的第一身份属性概率集，所述第一身份属性概率集包括至少一个身份类别的概率；并根据所述网页信息记录计算出各所述用户设备所属用户的第二身份属性概率集，所述第二身份属性概率集包括至少一个身份类别的概率；并根据所述搜索信息记录计算出各所述用户设备所属用户的第三身份属性概率集，所述第三身份属性概率集包括至少一个身份类别的概率。

可选的一个实施方式，一方面，本发明装置分别提取位置信息记录和网页信息记录中的特征信息，其中，特征信息包括分别在多个预设时间段内的用户设备的多种上网行为的统计量，统计量包括次数或时长。

所述特征信息为用户上网行为的一种描述。为了准确描述上网行为，首先需构造多个预设时间段，例如工作日（Weekday ) 和周末（Weekends ), 又如将一天分为 A、 B、 C、 D的 4个时长，即 00: 00-06: 00 ( A ); 06: 00-12:

00 ( B ); 12: 00-18: 00 ( C ); 18: 00-24: 00 ( D ), 再如将一天按小时分为

24 个时长。接着，在每个预设时间段内统计用户设备对于位置信息记录和网 — — 页信息记录的多种上网行为的统计量，其中，统计量可包括次数或时长，这里不作限定。

例如：若将一天分为 A、 B、 C、 D的 4个时长，那么位置信息记录中特征信息可如表 2所示。

表 2

又如：若将一天分为 A、 B、 C、 D的 4个时长，那么网页信息记录中特征信息可如表 3所示。

表 3

另一方面，本发明装置还将提取搜索信息记录中的特征信息，其中，其特征信息包括各用户设备对多个预设的关键词的搜索频率。同理，首先需构造多个预设的关键词，也可以是关键字，可根据经验设置出最具代表性的关键词，例如汽车、美容、租房或参考书。接着，对每个关键词统计用户设备的搜索频率。

例如：若关键词为汽车、美容、租房或参考书，那么搜索信息记录中特征信息可如表 4所示。 - -

表 4

为了方便后续把获取到的特征信息的统计量带入预设的算法进行计算，需将归一化后的数值组成特征矩阵，特征矩阵的形式如（1) 所示：

(1)

X m,l X m,n 其中， Xi, j表示第 i个用户设备的第 j个上网行为的统计量，特征矩阵的每一行表示某个用户设备的全部上网行为，特征矩阵的每一列表示所有用户对应的某个上网行为。

例如：简化的用户设备的位置信息记录的特征矩阵如（2)所示，某一行的某一列对应某个用户设备的某个上网行为，假设有 5种上网行为，如某时间段内用户设备分别在数字图书馆、宿舍、教室、餐厅和咖啡馆的上网时长，假设有 5个用户设备，那么可构成 5X5的矩阵。

20 20 20 0 2

20 14 10 4 0

18 14 0 4 0

(2)

2 0 20 40 0

0 5 0 36 2 - - 又如：简化的用户设备的网页信息记录的特征矩阵如（3 )所示，某一行的某一列对应某个用户设备的某个上网行为，假设有 5种上网行为，如某时间段内用户设备登录网页 &、 b、 c、 d和 e的次数，假设有 5个用户设备，那么可构成 5 X 5的矩阵。

2 2 2 0 2

2 1 1 4 0

1 1 0 4 0

( 3 )

2 0 2 4 0

0 5 0 3 2

再如：简化的用户设备的搜索信息记录的特征矩阵如（4 )所示，某一行的某一列对应某个用户设备的某个上网行为，假设有 5种上网行为，如用户设备搜索时输入关键词 a、 b、 c、 d和 e的频率，假设有 5个用户设备，那么可构成 5 X 5的矩阵。

0.2 0.2 0.2 0 0.2

0.2 0.14 0.1 0.4 0

0.1 0.14 0 0.4 0

( 4 )

0.2 0 0.2 0.4 0

0 0.5 0 0.36 0.2

进一步可选的，本发明装置将提取的位置信息记录和网页信息记录中的特征信息的统计量转化为归一化的数值。所述归一化的数值即取值范围在 [0， 1] 之间的数值，统计量为一具体数据，将具体数据转化为归一化的数值的方法很多，其中，以位置信息记录的特征信息的统计量为例，本发明实施例釆用如下公式（5 ) 实现转化：

其中， X；表示某个用户设备在时间段 t内第 i个上网行为的统计量归一化的数值， t包括时间段 A、 B、（或0， i可以包括数字图书馆、宿舍或咖啡馆等位置，表示其统计量， x_min表示最小时长， x_max表示最大时长。需要指出 - - 的是，公式（5 )仅为本发明实施例的一种可选公式，其它公式不再——枚举。

例如：将特征矩阵（1 ) 中的统计量转化为归一化的数值后，特征矩阵如 ( 6 ) 所示。

1.0 1.0 1.0 0.0 1.0

1.0 0.7 0.5 0.1 0.0

0.9 0.7 0.0 0.1 0.0

( 6 )

0.1 0.0 1.0 1.0 0.0

0.0 0.2 0.0 0.0 0.0

更进一步可选的，若在同一预设时间段内的不同的用户设备的同一种上网行为的统计量相似，则本发明装置从特征信息中去除相似的所述统计量。具体实现过程中，本发明装置可通过预设的降维算法，从特征信息中去除相似的统计量，其中，预设的降维算法可包括 LR ( Logistic Regression, 逻辑回归）算法和 Linear SVC函数，但不仅限于这两种降维算法。

需要指出的是， LR算法和 Linear SVC函数的基本思想相似，均是釆用线性拟合的方法对特征和类别进行拟合。具体实现过程中， H没有一个 2分类的问题，类别为 yl和 y2，第 i个用户对应的特征向量为 [xi0， xil , xi2...xim] , 拟合系数向量为 [k0， kl， k2...km]，那么平面 α =[ xi0*k0， xil*kl， xi2*k2...xim*km]将特征空间划分成 2个部分，因此对于用户设备的特征信息的统计量，可通过判断出其所处的空间而做出预测和分类。其中，拟合系数的选择应使得预测值尽可能位于正确的类别对应的特征空间，如果拟合系数向量中的某个拟合系数趋近于零，则说明该拟合系数对应的统计量对预测和分类的结果影响不大，即可将其舍去，因此实现从特征信息中去除相似的所述统计量。特别地，由于 LR算法和 Linear SVC函数为现有常用的算法，这里就不再深入描述了。

例如：请参阅矩阵（6 )，由于第 3列和第 5列的特征信息的统计量相近，对于区分用户设备参考价值不大，可以从特征矩阵（6 ) 中去掉。因此，特征矩阵（6 ) 的维度从 5降到了 3，降维后的特征矩阵如（7 )所示。 - -

1.0 1.0 0.0

1.0 0.7 0.1

0.9 0.7 0.1

( 7 )

0.1 0.0 1.0

0.0 0.2 0.9

具体的，在得到归一化和降维后的特征矩阵后，本发明装置通过将特征矩阵引入预设的概率算法，分别计算出第一身份属性概率集、第二身份属性概率集以及第三身份属性概率集。其中，所述第一身份属性概率集、第二身份概率集和第三身份概率集均包括了至少一个身份类别的概率，所述身份类别可以是用户的年龄段、性别、住址以及职业等。

例如，假设身份类别为年龄段（包括青少年和中老年人），算出的各身份属性概率集可如表 5所示。

表 5

具体实现过程中，一方面，位置信息记录和网页信息记录的身份属性概率集可通过以下任一种方法来计算：

DT ( Decision Tree, 决策树）算法；

RF ( Random Forest, 随机森林）算法；

SVM ( Support Vector Machine, 支持向量机）算法;

GT ( Gradient Tree, 梯度提升树）算法；

NB ( Naive Bayes, 朴素贝叶斯）算法。 - - 需要，指出的是上述算法均为分类器算法，可根据特征矩阵分类出各用户设备所属用户的身份类别，并计算出身份类别对应的概率。

另一方面，搜索信息记录的身份属性概率集可通过朴素贝叶斯算法来计算。

由于朴素贝叶斯算法均可应用于位置信息记录、网页信息记录和搜索信息记录，本发明实施例将简单介绍下朴素贝叶斯算法的原理：假设 x=[a_{l 7} a₂， a₃...a_m] 为一个待分类项，为 X的一个特征信息的统计量，类别集合为 C=[_yi， y₂， y₃- .y_m]，那么待分类项属于类别 x，如果 P ( y ) = { P ( _yilx ) * P ( y₂lx ) * ... * P ( yjx ) }。其中，通过统计可以得到概率 P ( y!lx ) * P( y₂lx ) * ... * P ( y_nlx )。接着，根据贝叶斯定理即可计算得到 P ( _yilx )。详细计算过程可参考朴素贝叶斯算法详解，这里不再赘述。

S103 , 通过综合分析各所述用户设备所属用户对应的第一身份属性概率集、所述第二身份属性概率集以及所述第三身份属性概率集，确定各所述用户设备所属用户的身份类别。

具体实现过程中，本发明装置将第一身份属性概率集中的概率大于第一身份属性概率集对应的预设阔值的身份类别作为用户设备所属用户的身份类别；或将第二身份属性概率集中的概率大于第二身份属性概率集对应的预设阔值的身份类别作为用户设备所属用户的身份类别；或将第三身份属性概率集中的概率大于第三身份属性概率集对应的预设阔值的身份类别作为用户设备所属用户的身份类别。例如，请参阅表 5，假设第一身份属性集对应的预设阔值为 85%, 而用户 A是青少年的概率（90% ) 大于 85%，则确定用户 A的身份类别是青少年。

其中，由于根据位置信息记录、网页信息记录以及搜索信息计算出的身份类别概率的准确率各不相同，因此可针对各身份属性概率集对应地设置预设阔值，若某身份属性概率集的准确率较高，则可将对应的预设阔值设置得较低。例如，假设准确率：第三身份属性概率〉第一身份属性概率〉第二身份属性概率，则对应的预设阔值可分别设置为 60%、 80%和 90%。需要指出的是，各身份属性概率集的准确率可由一个训练样本来测试。

进一步可选的，如果某个身份类别的概率均不高于对应的预设阔值，则釆 - - 用该身份类别的概率的和。

综合上述情况，实现确定各用户设备所属用户的身份类别的算法的伪代码可口下所示： Sort m //m取值 1、 2、 3 , 分别对应于位置信息记录、网页信息记录以及搜索信息记录的分类模型

i<-0

Do

〃第 i个分类模型预测得到的 n个身份类别的概率为 ...P_jn, 〃第 i个分类模型的预设阔值为 Si

If

：

输出的身份类别为 j

else: i++

if i ==m 〃即身份类别的概率均不高于对应的预设阔值

∑m

输出的身份类别为 j 又可选的，本发明装置根据各用户设备所属用户的身份类别，向各用户设备推送信息，例如：针对青少年用户推送时装类的网页资源，而针对中年用户推送房产类的网页资源。

本发明实施例根据获取到的多个用户设备上网的位置信息记录、网页信息记录以及搜索信息记录，分别计算出三个方面的各用户设备所属用户的第一身份属性概率集、第二身份属性概率集以及第三身份属性概率集，其中，三个方面的身份属性概率集均包括至少一个身份类别的概率，进而通过综合分析第一身份属性概率集、第二身份属性概率集以及第三身份属性概率集，确定各所述用户设备所属用户的身份类别，本发明实施例对用户的上网行为进行上述三个方面的深入挖掘，再构建预设的算法对挖掘出的信息记录进行计算，并综合计算结果确定用户设备所属用户的身份类别，进一步地，确定得到的用户身份类 - - 别可用于个性化和差异化的用户服务，增强用户的体验。图 2是本发明实施例中另一种用户身份类别确定方法的流程示意图，可以包括：

S201 ,获取多个用户设备上网的位置信息记录、网页信息记录以及搜索信息记录。

另一方面，本发明装置可从网络嗅探器的 HTTP ( Hyper Text Transfer Protocol, 超文本传输协议）日志信息或者 DPI ( Deep Packet Inspection, 深度报文检测 )设备的检测信息中，获取所述多个用户设备上网的网页信息记录和搜索信息记录。其中，所述网络嗅探器是一种通过包解析获取在网络应用层流量信息的工具，能够获取用户访问互联网流量信息中 HTTP的信息， HTTP信息通常保存为日志信息，包含域名、 URL ( Uniform Resource Locator, 统一资源定位器）以及 refer等字段，该字段均带有用户的上网痕迹，从中可直接读 - - 取用户设备访问过的网页和搜索的关键字或关键词； DPI设备是一种工作在 OSI ( Open System Interconnection，开放式系统互联）模型中传输层到应用层的网络设备，具备业务数据流识别和业务数据流控制功能，广泛应用于城域网和企业网，能够识别出用户设备访问过的网页和搜索的关键字或关键词，并保存在检测信息中。简而言之，具体实现过程中，发明装置可从网络侧的设备中的日志信息和检测信息中分别获取网页信息记录和搜索信息记录。

需要指出的是，本发明装置获取的是多个用户设备上网的记录，因此需要标识各个用户设备。用户设备的 IP ( Internet Protocol, 互联网协议 )地址是动态分配的， IP地址不能作为同一用户设备的标识，而 MAC ( Media Access Control, 硬件位）地址可唯一标识用户设备，因此，可选的，本发明实施例可通过 IP地址关联到由 MAC地址标识的某个具体用户，具体实现过程中，请参阅表 1 所示的一种统计用户设备的记录的示例，用户设备通过 IP地址 ( 168.192.1.158 )接入互联网时，将该 IP地址关联到该用户设备的 MAC地址 ( 1F4AE2368C2 ), 并最终以 MAC地址（ 1F4AE2368C2 )作为用户设备的标识。

表 1

S202,分别提取所述位置信息记录和所述网页信息记录中的特征信息，其中，特征信息包括分别在多个预设时间段内的所述用户设备的多种上网行为的统计量，所述统计量包括次数或时长。

所述特征信息为用户上网行为的一种描述。为了准确描述上网行为，首先需构造多个预设时间段，例如工作日（Weekday ) 和周末（Weekends ), 又如将一天分为 A、 B、 C、 D的 4个时长，即 00: 00-06: 00 ( A ); 06: 00-12: 00 ( B ); 12: 00-18: 00 ( C ); 18: 00-24: 00 ( D ), 再如将一天按小时分为 24 个时长。接着，在每个预设时间段内统计用户设备对于位置信息记录和网页信息记录的多种上网行为的统计量，其中，统计量可包括次数或时长，这里不作限定。

例如：若将一天分为 A、 B、 C、 D的 4个时长，那么位置信息记录中特 - - 征信息可如表 2所示。表 2

表 3

为了方便后续把获取到的特征信息的统计量带入预设的算法进行计算，需将归一化后的数值组成特征矩阵，特征矩阵的形式如（1 ) 所示：

( 1 )

X m,l X m,n 其中， Xi, j表示第 i个用户设备的第 j个上网行为的统计量，特征矩阵的每一行表示某个用户设备的全部上网行为，特征矩阵的每一列表示所有用户对应的某个上网行为。 - - 例如：简化的用户设备的位置信息记录的特征矩阵如（2 )所示，某一行的某一列对应某个用户设备的某个上网行为，假设有 5种上网行为，如某时间段内用户设备分别在数字图书馆、宿舍、教室、餐厅和咖啡馆的上网时长，假设有 5个用户设备，那么可构成 5 X 5的矩阵。

20 20 20 0 2

20 14 10 4 0

18 14 0 4 0

( 2 )

2 0 20 40 0

0 5 0 36 2

又如：简化的用户设备的网页信息记录的特征矩阵如（3 )所示，某一行的某一列对应某个用户设备的某个上网行为，假设有 5种上网行为，如某时间段内用户设备登录网页 &、 b、 c、 d和 e的次数，假设有 5个用户设备，那么可构成 5 X 5的矩阵。

S203, 将所述统计量转化为归一化的数值。

所述归一化的数值即取值范围在 [0， 1]之间的数值，统计量为一具体数据，将具体数据转化为归一化的数值的方法很多，其中，以位置信息记录的特征信息的统计量为例，本发明实施例釆用如下公式（5 ) 实现转化：

其中， X；表示某个用户设备在时间段 t内第 i个上网行为的统计量归一化的数值， t包括时间段 A、 B、（或0， i可以包括数字图书馆、宿舍或咖啡馆等位置， Xi表示其统计量， x_min表示最小时长， x_max表示最大时长。需要指出的是，公式（5 )仅为本发明实施例的一种可选公式，其它公式不再——枚举。 - - 例如：将特征矩阵（1 ) 中的统计量转化为归一化的数值后，特征矩阵如 ( 6 ) 所示。

1.0 1.0 1.0 0.0 1.0

1.0 0.7 0.5 0.1 0.0

0.9 0.7 0.0 0.1 0.0

( 6 )

0.1 0.0 1.0 1.0 0.0

0.0 0.2 0.0 0.0 0.0

S204，若在同一预设时间段内的不同的用户设备的同一种上网行为的归一化数值相近，则从所述特征信息中去除相近的所述归一化数值。

具体实现过程中，本发明装置可通过预设的降维算法，从特征信息中去除相似的统计量，其中，预设的降维算法可包括 LR ( Logistic Regression, 逻辑回归）算法和 Linear SVC函数，但不仅限于这两种降维算法。

需要指出的是， LR算法和 Linear SVC函数的基本思想相似，均是釆用线性拟合的方法对特征和类别进行拟合。具体实现过程中， H没有一个 2分类的问题，类别为 yl和 y2，第 i个用户对应的特征向量为 [xi0， xil , xi2...xim] , 拟合系数向量为 [k0， kl , k2...km] , 那么平面 α =[ xi0*k0， xil*kl， xi2*k2...xim*km]将特征空间划分成 2个部分，因此对于用户设备的特征信息的统计量，可通过判断出其所处的空间而做出预测和分类。其中，拟合系数的选择应使得预测值尽可能位于正确的类别对应的特征空间，如果拟合系数向量中的某个拟合系数趋近于零，则说明该拟合系数对应的统计量对预测和分类的结果影响不大，即可将其舍去，因此实现从特征信息中去除相似的所述统计量。特别地，由于 LR算法和 Linear SVC函数为现有常用的算法，这里就不再深入描述了。

1.0 1.0 0.0

1.0 0.7 0.1

0.9 0.7 0.1

( 7 )

0.1 0.0 1.0

0.0 0.2 0.9

5205 ,通过将所述归一化的数值引入预设的概率算法，分别计算出所述第一身份属性概率集和所述第二身份属性概率集。

具体的，在得到归一化和降维后的特征矩阵后，本发明装置通过将特征矩阵引入预设的概率算法，分别计算出第一身份属性概率集和第二身份属性概率集。其中，所述第一身份属性概率集和第二身份概率集均包括了至少一个身份类别的概率，所述身份类别可以是用户的年龄段、性别、住址以及职业等。

具体实现过程中，位置信息记录和网页信息记录的身份属性概率集可通过以下任一种方法来计算：

DT ( Decision Tree, 决策树）算法；

RF ( Random Forest, 随机森林）算法；

SVM ( Support Vector Machine, 支持向量机）算法；

GT ( Gradient Tree, 梯度提升树）算法；

NB ( Naive Bayes, 朴素贝叶斯）算法。

需要，指出的是上述算法均为分类器算法，可根据特征矩阵分类出各用户设备所属用户的身份类别，并计算出身份类别对应的概率。

5206, 提取所述搜索信息记录中的特征信息，其中，所述特征信息包括各所述用户设备对预设的多个关键词的搜索频率。

具体的，首先需构造多个预设的关键词或关键字，可根据经验设置出最具代表性的关键词，例如汽车、美容、租房或参考书。接着，对每个关键词统计用户设备的搜索频率。

表 4

同理，为了方便后续把获取到的特征信息的统计量带入预设的算法进行计算，需将归一化后的数值组成特征矩阵，例如：简化的用户设备的搜索信息记录的特征矩阵如（4) 所示，某一行的某一列对应某个用户设备的某个上网行为，假设有 5种上网行为，如用户设备搜索时输入关键词 a、 b、 c、 d和 e的频率，假设有 5个用户设备，那么可构成 5X5的矩阵。

0.2 0.2 0.2 0 0.2

0.2 0.14 0.1 0.4 0

0.1 0.14 0 0.4 0

(4)

0.2 0 0.2 0.4 0

0 0.5 0 0.36 0.2 S207,通过将所述搜索频率引入预设的算法，计算出所述第三身份属性概率集，其中，所述预设的算法包括朴素贝叶斯算法。

例如，假设身份类别为年龄段（包括青少年和中老年人），算出的第三身份属性概率集可如表 5所示。

具体的，搜索信息记录的身份属性概率集可通过朴素贝叶斯算法来计算。本发明实施例将简单介绍下朴素贝叶斯算法的原理：假设 x=[a_l7 a₂， a₃...a_m] 为一个待分类项，为 X的一个特征信息的统计量，类别集合为 C=[_yi， y₂， y₃... y_m]，那么待分类项属于类别 χ，如果 Ρ( Ιχ)= { P(_yilx)*P(y₂lx)*...*P(y_nlx)}₀ 其中，通过统计可以得到概率 P (_yilx) *P (y₂lx) *...*P (y_nlx)。接着，根据贝叶斯定理即可计算得到 P(_yilx)。详细计算过程可参考朴素贝叶斯算法详解， - - 这里不再赘述。

S208，将所述第一身份属性概率集中的概率大于所述第一身份属性概率集对应的预设阔值的身份类别作为所述用户设备所属用户的身份类别；或将所述第二身份属性概率集中的概率大于所述第二身份属性概率集对应的预设阔值的身份类别作为所述用户设备所属用户的身份类别；或将所述第三身份属性概率集中的概率大于所述第三身份属性概率集对应的预设阔值的身份类别作为所述用户设备所属用户的身份类别。

例如，请参阅表 5，假设第一身份属性集对应的预设阔值为 85%，而用户 A是青少年的概率（90% ) 大于 85%，则确定用户 A的身份类别是青少年。

进一步可选的，如果某个身份类别的概率均不高于对应的预设阔值，则釆用该身份类别的概率的和。

综合上述情况，实现确定各用户设备所属用户的身份类别的算法的伪代码可口下所示：

Sort m //m取值 1、 2、 3 , 分别对应于位置信息记录、网页信息记录以及搜索信息记录的分类模型

i<-0

Do

〃第 i个分类模型预测得到的 n个身份类别的概率为 ...P_jn,

〃第 i个分类模型的预设阔值为

If

：

输出的身份类别为 j

else: i++

if i ==m 〃即身份类别的概率均不高于对应的预设阔值 - -

∑m

i=l P 'J

输出的身份类别为 j S209,根据各所述用户设备所属用户的身份类别，向各所述用户设备推送信息。

例如：针对青少年用户推送时装类的网页资源，而针对中年用户推送房产类的网页资源。

本发明实施例根据获取到的多个用户设备上网的位置信息记录、网页信息记录以及搜索信息记录，分别计算出三个方面的各用户设备所属用户的第一身份属性概率集、第二身份属性概率集以及第三身份属性概率集，其中，三个方面的身份属性概率集均包括至少一个身份类别的概率，进而通过综合分析第一身份属性概率集、第二身份属性概率集以及第三身份属性概率集，确定各所述用户设备所属用户的身份类别，本发明实施例对用户的上网行为进行上述三个方面的深入挖掘，再构建预设的算法对挖掘出的信息记录进行计算，并综合计算结果确定用户设备所属用户的身份类别，进一步地，确定得到的用户身份类别可用于个性化和差异化的用户服务，增强用户的体验。图 3是本发明实施例中一种用户身份类别确定装置的结构示意图。如图所示本发明实施例中的用户身份类别确定装置至少可以包括信息获取模块 310、概率计算模块 320以及身份类别确定模块 330，其中：

信息获取模块 310，用于获取多个用户设备上网的位置信息记录、网页信息记录以及搜索信息记录。具体实现中，所述信息获取模块 310 可以如图 4 所示进一步包括：第一获取单元 311和第二获取单元 312，其中：

第一获取单元 311，用于从 AP ( Access Point, 网络接入点 )控制器的日志信息或者移动网关的用户信息中，获取所述多个用户设备上网的位置信息记录。

所述 AP控制器是无线网络的核心，用来集中化控制接入热点，广泛应用于 WiFi ( Wireless Fidelity, 无线保真）网络，能够获取用户登录和漫游过程中 - - 的地理位置，并生成日志信息；移动网关可以包括 GGSN ( Gateway GPRS Support Node, 网关 GPRS支持节点）或 PGW ( Packet Data Network Gateway, 分组数据网网关）等设备， GGSN 可以把 GSM ( Global System for Mobile communication, 全球移动中心) 网中的 GPRS ( General Packet Radio Service, 通用分组无线服务技术）的分组数据包进行协议转换，在转换过程中，能够获取移动用户的地理位置，并生成用户信息。简而言之，具体实现过程中，第一获取单元 311 可从网络侧的设备中的日志信息或用户信息中获取包含有用户地理位置的位置信息记录。

第二获取单元 312，用于从网络嗅探器的 HTTP ( Hyper Text Transfer Protocol, 超文本传输协议）日志信息或者 DPI ( Deep Packet Inspection, 深度报文检测 )设备的检测信息中，获取所述多个用户设备上网的网页信息记录和搜索信息记录。

所述网络嗅探器是一种通过包解析获取在网络应用层流量信息的工具，能够获取用户访问互联网流量信息中 HTTP的信息， HTTP信息通常保存为日志信息，包含域名、 URL ( Uniform Resource Locator,统一资源定位器）以及 refer 等字段，该字段均带有用户的上网痕迹，从中可直接读取用户设备访问过的网页和搜索的关键字或关键词； DPI 设备是一种工作在 OSI ( Open System Interconnection, 开放式系统互联）模型中传输层到应用层的网络设备，具备业务数据流识别和业务数据流控制功能，广泛应用于城域网和企业网，能够识别出用户设备访问过的网页和搜索的关键字或关键词，并保存在检测信息中。简而言之，具体实现过程中，第二获取单元 312可从网络侧的设备中的日志信息和检测信息中分别获取网页信息记录和搜索信息记录。

概率计算模块 320，用于根据所述位置信息记录计算出各所述用户设备所属用户的第一身份属性概率集，所述第一身份属性概率集包括至少一个身份类别的概率；并根据所述网页信息记录计算出各所述用户设备所属用户的第二身份属性概率集，所述第二身份属性概率集包括至少一个身份类别的概率；并根据所述搜索信息记录计算出各所述用户设备所属用户的第三身份属性概率集，所述第三身份属性概率集包括至少一个身份类别的概率。具体实现中，所述概率计算模块 320可以如图 5所示进一步包括：特征信息提取单元 321、数值转 - - 化单元 322以及概率计算单元 323，其中：

特征信息提取单元 321，用于分别提取所述位置信息记录和所述网页信息记录中的特征信息，其中，特征信息包括分别在多个预设时间段内的所述用户设备的多种上网行为的统计量，所述统计量包括次数或时长。

所述特征信息为用户上网行为的一种描述。为了准确描述上网行为，首先需构造多个预设时间段，例如工作日（Weekday) 和周末（Weekends), 又如将一天分为 A、 B、 C、 D的 4个时长，即 00: 00-06: 00 (A); 06: 00-12: 00 (B); 12: 00-18: 00 (C); 18: 00-24: 00 (D), 再如将一天按小时分为 24 个时长。接着，在每个预设时间段内统计用户设备对于位置信息记录和网页信息记录的多种上网行为的统计量，其中，统计量可包括次数或时长，这里不作限定。

例如：若将一天分为 A、 B、 C、 D的 4个时长，那么位置信息记录中特征信息可如表 2所示。表 2

表 3

用户设备 A登录网页 a

总次数频率

时段 A 0 0

时段 B 12 2/h - -

为了方便后续把获取到的特征信息的统计量带入预设的算法进行计算，需将归一化后的数值组成特征矩阵，特征矩阵的形式如（1) 所示:

( 1)

X m,l X m,n

其中， Xi, j表示第 i个用户设备的第 j个上网行为的统计量，特征矩阵的每一行表示某个用户设备的全部上网行为，特征矩阵的每一列表示所有用户对应的某个上网行为。

例如：简化的用户设备的位置信息记录的特征矩阵如（2)所示，某一行的某一列对应某个用户设备的某个上网行为，假设有 5种上网行为，如某时间段内用户设备分别在数字图书馆、宿舍、教室、餐厅和咖啡馆的上网时长， ^ ：又设有 5个用户设备，那么可构成 5X5的矩阵。

20 20 20 0 2

20 14 10 4 0

18 14 0 4 0

(2)

2 0 20 40 0

0 5 0 36 2 又如：简化的用户设备的网页信息记录的特征矩阵如（3)所示，某一行的某一列对应某个用户设备的某个上网行为，假设有 5种上网行为，如某时间段内用户设备登录网页 &、 b、 c、 d和 e的次数，假设有 5个用户设备，那么可构成 5X5的矩阵。 - -

另夕卜，特征信息提取单元 321还用于提取搜索信息记录中的特征信息，其中，其特征信息包括各用户设备对多个预设的关键词的搜索频率。

例如：若关键词为汽车、美容、租房或参考书，那么搜索信息记录中特征信息可如表 4所示。表 4

同理，为了方便后续把获取到的特征信息的统计量带入预设的算法进行计算，需将归一化后的数值组成特征矩阵，例如：简化的用户设备的搜索信息记录的特征矩阵如（4 ) 所示，某一行的某一列对应某个用户设备的某个上网行为，假设有 5种上网行为，如用户设备搜索时输入关键词 a、 b、 c、 d和 e的频率，假设有 5个用户设备，那么可构成 5 X 5的矩阵。 - -

0.2 0.2 0.2 0 0.2

0.2 0.14 0.1 0.4 0

0.1 0.14 0 0.4 0

( 4 )

0.2 0 0.2 0.4 0

0 0.5 0 0.36 0.2

数值转化单元 322，用于将所述统计量转化为归一化的数值。

其中， X；表示某个用户设备在时间段 t内第 i个上网行为的统计量归一化的数值， t包括时间段 A、 B、（或0， i可以包括数字图书馆、宿舍或咖啡馆等位置，表示其统计量， x_min表示最小时长， x_max表示最大时长。需要指出的是，公式（5 )仅为本发明实施例的一种可选公式，其它公式不再——枚举。

1.0 1.0 1.0 0.0 1.0

1.0 0.7 0.5 0.1 0.0

0.9 0.7 0.0 0.1 0.0

( 6 )

0.1 0.0 1.0 1.0 0.0

0.0 0.2 0.0 0.0 0.0

可选的，请参阅图 5，如图所示的概率计算模块 320还可以进一步包括降维模块 324，用于若在同一所述预设时间段内的不同的所述用户设备的同一种所述上网行为的统计量相似，则从所述特征信息中去除相似的所述统计量。

具体实现过程中，降维模块 324可通过预设的降维算法，从特征信息中去除相似的统计量，其中，预设的降维算法可包括 LR ( Logistic Regression, 逻辑回归）算法和 Linear SVC函数，但不仅限于这两种降维算法。

需要指出的是， LR算法和 Linear SVC函数的基本思想相似，均是釆用线 - - 性拟合的方法对特征和类别进行拟合。具体实现过程中，殳有一个 2分类的问题，类别为 yl和 y2，第 i个用户对应的特征向量为 [xi0， xil , xi2...xim] , 拟合系数向量为 [k0， kl , k2...km] , 那么平面 α =[ xi0*k0， xil*kl， xi2*k2...xim*km]将特征空间划分成 2个部分，因此对于用户设备的特征信息的统计量，可通过判断出其所处的空间而做出预测和分类。其中，拟合系数的选择应使得预测值尽可能位于正确的类别对应的特征空间，如果拟合系数向量中的某个拟合系数趋近于零，则说明该拟合系数对应的统计量对预测和分类的结果影响不大，即可将其舍去，因此实现从特征信息中去除相似的所述统计量。特别地，由于 LR算法和 Linear SVC函数为现有常用的算法，这里就不再深入描述了。

例如：请参阅矩阵（6 )，由于第 3列和第 5列的特征信息的统计量相近，对于区分用户设备参考价值不大，可以从特征矩阵（6 ) 中去掉。因此，特征矩阵（6 ) 的维度从 5降到了 3，降维后的特征矩阵如（7 )所示。

1.0 1.0 0.0

1.0 0.7 0.1

0.9 0.7 0.1

( 7 )

0.1 0.0 1.0

0.0 0.2 0.9

概率计算单元 323，用于通过将所述归一化的数值引入预设的概率算法，分别计算出所述第一身份属性概率集和所述第二身份属性概率集。

具体的，在得到归一化和降维后的特征矩阵后，概率计算单元 323通过将特征矩阵引入预设的概率算法，分别计算出第一身份属性概率集和第二身份属性概率集。其中，所述第一身份属性概率集和第二身份概率集均包括了至少一个身份类别的概率，所述身份类别可以是用户的年龄段、性别、住址以及职业例如，假设身份类别为年龄段（包括青少年和中老年人），算出的各身份属性概率集可如表 5所示。

具体实现过程中，位置信息记录和网页信息记录的身份属性概率集可通过 - - 以下任一种方法来计算：

DT ( Decision Tree, 决策树）算法；

RF (Random Forest, 随机森林）算法；

SVM ( Support Vector Machine, 支持向量机）算法；

GT (Gradient Tree, 梯度提升树）算法；

NB ( Naive Bayes, 朴素贝叶斯）算法。

另外，概率计算单元 323还用于通过将所述搜索频率引入预设的算法，计算出所述第三身份属性概率集，其中，所述预设的算法包括朴素贝叶斯算法。

具体的，搜索信息记录的身份属性概率集可通过朴素贝叶斯算法来计算。本发明实施例将简单介绍下朴素贝叶斯算法的原理：假设 x=[a_l7 a₂， a₃...a_m] 为 —个待分类项，为 X的一个特征信息的统计量，类别集合为 C=[_yi， y₂， y₃... y_m]，那么待分类项属于类别 x，如果

P(_yilx)*P(y₂lx)*...*P(ynlx)}o 其中，通过统计可以得到概率 P (_yilx) *P (y₂lx) *...*P (y_nlx)。接着，根据贝叶斯定理即可计算得到 P(_yilx)。详细计算过程可参考朴素贝叶斯算法详解，这里不再赘述。

身份类别确定模块 330，用于通过综合分析各所述用户设备所属用户对应的第一身份属性概率集、所述第二身份属性概率集以及所述第三身份属性概率集，确定各所述用户设备所属用户的身份类别。

具体实现过程中，身份类别确定模块 330将第一身份属性概率集中的概率大于第一身份属性概率集对应的预设阔值的身份类别作为用户设备所属用户的身份类别；或将第二身份属性概率集中的概率大于第二身份属性概率集对应的预设阔值的身份类别作为用户设备所属用户的身份类别；或将第三身份属性概率集中的概率大于第三身份属性概率集对应的预设阔值的身份类别作为用户设备所属用户的身份类别。例如，请参阅表 5，假设第一身份属性集对应的预设阔值为 85%，而用户 A是青少年的概率（90%)大于 85%，则确定用户 A 的身份类别是青少年。 - - 其中，由于根据位置信息记录、网页信息记录以及搜索信息计算出的身份类别概率的准确率各不相同，因此可针对各身份属性概率集对应地设置预设阔值，若某身份属性概率集的准确率较高，则可将对应的预设阔值设置得较低。例如，假设准确率：第三身份属性概率〉第一身份属性概率〉第二身份属性概率，则对应的预设阔值可分别设置为 60%、 80%和 90%。需要指出的是，各身份属性概率集的准确率可由一个训练样本来测试。

i<-0

Do

If

：

输出的身份类别为 j

else: i++

if i ==m 〃即身份类别的概率均不高于对应的预设阔值

∑m „

输出的身份类别为 j

可选的，请参阅图 3，如图所示的用户身份类别确定装置还包括信息推送模块 340，用于根据各所述用户设备所属用户的身份类别，向各所述用户设备推送信息。

例如：针对青少年用户推送时装类的网页资源，而针对中年用户推送房产 - - 类的网页资源。图 4是本发明实施例中的另一种用户身份类别确定装置的结构示意图，如图 4所示，该用户身份类别确定装置可以包括：至少一个处理器 401，例如 CPU，至少一个存储器 403，至少一个通信总线 402。其中，通信总线 402用于实现这些组件之间的连接通信。存储器 403可以是高速 RAM存储器，也可以是非易失的存储器（ non- volatile memory ) ，例如至少一个磁盘存储器。可选的，存储器 403还可以是至少一个位于远离前述处理器 401的存储装置。存储器 404中存储一组程序代码，且处理器 401用于调用存储器中存储的程序代码，用于执行以下操作：

可选的，处理器 401获取多个用户设备上网的位置信息记录、网页信息记录以及搜索信息记录的具体操作为：

从网络嗅探器的 HTTP ( Hyper Text Transfer Protocol, 超文本传输协议 ) 日志信息或者 DPI ( Deep Packet Inspection, 深度报文检测 )设备的检测信息中，获取所述多个用户设备上网的网页信息记录和搜索信息记录。

相应地，处理器 401根据所述位置信息记录计算出各所述用户设备所属用 - - 户的第一身份属性概率集和所述根据所述网页信息记录计算出各所述用户设备所属用户的第二身份属性概率集的具体操作为：

将所述统计量转化为归一化的数值；

进一步的，处理器 401分别提取所述位置信息记录和所述网页信息记录中的特征信息之后，还执行：

可选的，处理器 401根据所述搜索信息记录计算出各所述用户设备所属用户的第三身份属性概率集的具体操作为：

提取所述搜索信息记录中的特征信息，其中，所述特征信息包括各所述用户设备对多个预设的关键词的搜索频率；

进一步的，处理器 401确定各所述用户设备所属用户的身份类别的具体操作可以为：

更进一步的，处理器 401 在确定各所述用户设备所属用户的身份类别之后还执行：

根据各所述用户设备所属用户的身份类别，向各所述用户设备推送信息。 - -

本发明实施例还提出了一种计算机存储介质，所述计算机存储介质存储有程序，所述程序执行时包括本发明实施例结合图 1~图 2所描述的用户身份类别确定方法中的部分或全部的步骤。本发明实施例根据获取到的多个用户设备上网的位置信息记录、网页信息记录以及搜索信息记录，分别计算出三个方面的各用户设备所属用户的第一身份属性概率集、第二身份属性概率集以及第三身份属性概率集，其中，三个方面的身份属性概率集均包括至少一个身份类别的概率，进而通过综合分析第一身份属性概率集、第二身份属性概率集以及第三身份属性概率集，确定各所述用户设备所属用户的身份类别，本发明实施例对用户的上网行为进行上述三个方面的深入挖掘，再构建预设的算法对挖掘出的信息记录进行计算，并综合计算结果确定用户设备所属用户的身份类别，进一步地，确定得到的用户身份类别可用于个性化和差异化的用户服务，增强用户的体验。

在本说明书的描述中，参考术语"一个实施例"、 "一些实施例"、 "示例"、

"具体示例"、或"一些示例"等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语"第一"、 "第二，，仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有 "第一"、 "第二，，的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中， "多个"的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现， - - 其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和 /或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备（如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统）使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言， "计算机可读介质' '可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例（非穷尽性列表）包括以下：具有一个或多个布线的电连接部（电子装置），便携式计算机盘盒（磁装置），随机存取存储器 ( RAM ), 只读存储器（ROM ), 可擦除可编辑只读存储器（EPROM或闪速存储器），光纤装置，以及便携式光盘只读存储器（CDROM )。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（ PGA )，现场可编程门阵列（ FPGA ) 等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。 - - 此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以釆用硬件的形式实现，也可以釆用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

权利要求

1、一种用户身份类别确定方法，其特征在于，所述方法包括：

2、如权利要求 1所述的方法，其特征在于，所述获取多个用户设备上网的位置信息记录、网页信息记录以及搜索信息记录，包括：

3、如权利要求 1所述的方法，其特征在于，所述根据所述位置信息记录计算出各所述用户设备所属用户的第一身份属性概率集和所述根据所述网页信息记录计算出各所述用户设备所属用户的第二身份属性概率集，包括：分别提取所述位置信息记录和所述网页信息记录中的特征信息，其中，特征信息包括分别在多个预设时间段内的所述用户设备的多种上网行为的统计量，所述统计量包括次数或时长；

将所述统计量转化为归一化的数值；通过将所述归一化的数值引入预设的概率算法，分别计算出所述第一身份属性概率集和所述第二身份属性概率集。

4、如权利要求 3所述的方法，其特征在于，所述分别提取所述位置信息记录和所述网页信息记录中的特征信息之后，还包括：

5、如权利要求 4所述的方法，其特征在于，所述若在同一所述预设时间段内的不同的所述用户设备的同一种所述上网行为的统计量相似，则从所述特征信息中去除相似的所述统计量，包括：

通过预设的降维算法，从所述特征信息中去除相似的所述统计量，其中，所述预设的降维算法包括 LR ( Logistic Regression, 逻辑回归）算法和 Linear SVC函数。

6、如权利要求 3所述的方法，其特征在于，所述预设的概率算法包括以下方法的任一种：

DT ( Decision Tree, 决策树）算法；

RF ( Random Forest, 随机森林）算法；

SVM ( Support Vector Machine, 支持向量机）算法；

GT ( Gradient Tree, 梯度提升树）算法；

NB ( Naive Bayes, 朴素贝叶斯）算法。

7、如权利要求 1所述的方法，其特征在于，所述根据所述搜索信息记录计算出各所述用户设备所属用户的第三身份属性概率集，包括：

8、如权利要求 1所述的方法，其特征在于，所述通过综合分析各所述用户设备所属用户对应的第一身份属性概率集、所述第二身份属性概率集以及所述第三身份属性概率集，确定各所述用户设备所属用户的身份类别，包括：将所述第一身份属性概率集中的概率大于所述第一身份属性概率集对应的预设阔值的身份类别作为所述用户设备所属用户的身份类别；或

9、如权利要求 1-8任一项所述的方法，其特征在于，所述通过综合分析各所述用户设备所属用户对应的第一身份属性概率集、所述第二身份属性概率集以及所述第三身份属性概率集，确定各所述用户设备所属用户的身份类别之后，还包括：

根据各所述用户设备所属用户的身份类别，向各所述用户设备推送信息。

10、一种计算机存储介质，其特征在于，所述计算机存储介质存储有程序，所述程序执行时包括权利要求 1~9任一项所述的步骤。

11、一种用户身份类别确定装置，其特征在于，所述装置包括：

信息获取模块，用于获取多个用户设备上网的位置信息记录、网页信息记录以及搜索信息记录；

12、如权利要求 11所述的装置，其特征在于，所述信息获取模块包括：第一获取单元，用于从 AP ( Access Point, 网络接入点 )控制器的日志信息或者移动网关的用户信息中，获取所述多个用户设备上网的位置信息记录；第二获取单元，用于从网络嗅探器的 HTTP ( Hyper Text Transfer Protocol，超文本传输协议）日志信息或者 DPI ( Deep Packet Inspection, 深度报文检测）设备的检测信息中，获取所述多个用户设备上网的网页信息记录和搜索信息记录。

13、如权利要求 11所述的装置，其特征在于，所述概率计算模块包括：特征信息提取单元，用于分别提取所述位置信息记录和所述网页信息记录中的特征信息，其中，特征信息包括分别在多个预设时间段内的所述用户设备的多种上网行为的统计量，所述统计量包括次数或时长；

数值转化单元，用于将所述统计量转化为归一化的数值；

14、如权利要求 13所述的装置，其特征在于，所述概率计算模块还包括：降维单元，用于若在同一所述预设时间段内的不同的所述用户设备的同一种所述上网行为的统计量相似，则从所述特征信息中去除相似的所述统计量。

15、如权利要求 14所述的装置，其特征在于，所述降维单元具体用于通过预设的降维算法，从所述特征信息中去除相似的所述统计量，其中，所述预设的降维算法包括 LR ( Logistic Regression, 逻辑回归）算法和 Linear SVC函数。

16、如权利要求 13所述的装置，其特征在于，所述预设的概率算法包括以下方法的任一种： DT ( Decision Tree, 决策树）算法；

RF ( Random Forest, 随机森林）算法；

SVM ( Support Vector Machine, 支持向量机）算法；

GT ( Gradient Tree, 梯度提升树）算法；

NB ( Naive Bayes，朴素贝叶斯）算法。

17、如权利要求 11所述的装置，其特征在于，所述特征信息提取单元还用于提取所述搜索信息记录中的特征信息，其中，所述特征信息包括各所述用户设备对多个预设的关键词的搜索频率；

18、如权利要求 11所述的装置，其特征在于，所述身份类别确定模块具体用于将所述第一身份属性概率集中的概率大于所述第一身份属性概率集对应的预设阔值的身份类别作为所述用户设备所属用户的身份类别；或

19、如权利要求 11-18任一项所述的装置，其特征在于，所述装置还包括：信息推送模块，用于根据各所述用户设备所属用户的身份类别，向各所述用户设备推送信息。

20、一种用户身份类别确定装置，其特征在于，所述用户身份类别确定装置包括存储器以及处理器，其中，存储器中存储一组用户身份类别确定程序，且处理器用于调用存储器中的程序，用于执行以下操作：

根据所述位置信息记录计算出各所述用户设备所属用户的第一身份属性概率集，所述第一身份属性概率集包括至少一个身份类别的概率；并根据所述网页信息记录计算出各所述用户设备所属用户的第二身份属性概率集，所述第二身份属性概率集包括至少一个身份类别的概率；并