WO2017084205A1

WO2017084205A1 - 一种网络用户身份认证方法及系统

Info

Publication number: WO2017084205A1
Application number: PCT/CN2016/070994
Authority: WO
Inventors: 蒋昌俊; 闫春钢; 陈闳中; 丁志军; 季梦清
Original assignee: 同济大学
Priority date: 2015-11-20
Filing date: 2016-01-15
Publication date: 2017-05-26
Also published as: CN105337987B; CN105337987A

Abstract

本发明提供一种网络用户身份认证方法及系统。所述网络用户身份认证方法包括：采集合法用户在设定时间段内的所有网页浏览记录作为一个会话，将每一条浏览记录处理成<网址顶级域名，内容类，时间戳>的形式；获取所述合法用户的m个会话，针对每一个会话，作如下处理：根据所述会话，得到所述用户浏览网页的n个特征值；根据设定的第三算法对所获取的特征值进行处理，得到与所述特征值相对应的权值矩阵；根据所述特征值以及相对应的权值矩阵计算得到所述会话的分数；根据会话的分数，采用第四算法计算得到所述合法用户的分类阈值。本发明的技术方案通过根据浏览记录网址，内容以及时间三个方面入手进行连续性认证，提高了认证效果。

Description

一种网络用户身份认证方法及系统

技术领域

本发明涉及一种网络安全技术，特别是涉及一种网络用户身份认证方法及系统。

背景技术

随着信息技术及互联网技术的发展，我国的上网人员的规模不断扩大，网上购物和交易也越来越频繁，上网已成为了许多人生活中不可缺少的一部分，与此同时，网购交易中的欺诈犯罪近年来也在急剧上升，人工骗术和技术手段相结合的新型网络欺诈已成为网民线上生活的首要安全威胁。对网络用户进行身份认证是提供网络交易中的安全性的重要方法。关于用户身份认证方面，可分为一次性认证和可持续认证两类。关于一次性认证，目前主要有传统的基于口令的认证、基于智能卡的认证、基于用户的生物特征和行为特征的认证等。但一次性验证只在某一时刻进行认证，认证通过则判断该用户身份合法，不能很好地为用户提供安全保障，因而进一步提出了可持续性认证。目前关于可持续认证的研究相对较少，现有的可持续认证主要从用户网址序列或者用户浏览内容之间的联系进行研究。对用户浏览行为考虑的不够全面，认证效果有待提高。

鉴于此，如何找到进一步提高网络用户身份认证安全性的技术方案就成了本领域技术人员亟待解决的问题。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种网络用户身份认证方法及系统，用于解决现有技术中网络用户身份认证安全性有待进一步提高的问题。

为实现上述目的及其他相关目的，本发明提供一种网络用户身份认证方法，所述网络用户身份认证方法包括：采集合法用户在设定时间段内的所有网页浏览记录，所述浏览记录包括浏览网页网址、文本内容、时间戳；从所述浏览网页网址中抽取出网址顶级域名，从所述文本内容抽取出关键字进而确定所述文本内容所属的内容类，将每一条所述浏览记录处理成<网址顶级域名，内容类，时间戳>的形式，将在所述设定时间段内得到的所有所述浏览记录作为一个会话；获取所述合法用户的m个会话，针对每一个会话，作如下处理：根据所述会话中的所有浏览记录，统计出用户最频繁访问的多个网址顶级域名，并利用设定的第一算法挖掘出所述浏览记录中网址顶级域名与内容类之间的关系，利用设定的第二算法挖掘出所述浏览记录中内容类与时间段之间的关系，进而得到所述用户浏览网页的n个特征值；根据设定的第三算法对所获取的特征值进行处理，得到与所述特征值相对应的权值矩阵；根据所述特征值以及相对应的权值矩阵计算得到所述会话的分数；根据所述m个会话的分数，采用第四算法计算得到所述合法用户的分类阈值。

可选地，所述网络用户身份认证方法还包括：获取一个新的会话，并计算出所述新会话的分数；当所述分数落入所述分类阈值的范围时，判定当前用户是所述合法用户；当所述分数不落入所述分类阈值的范围时，判定当前用户不是所述合法用户。

可选地，所述特征值包括：会话包含的元素个数；会话包含的频繁访问网站个数；会话所匹配的频繁项集个数；会话匹配的频繁项集中包含的频繁访问网站个数；会话所匹配的最长频繁项集长度；会话所匹配的频繁项集均长度；会话所匹配的频繁项集的最大支持度；会话所匹配的频繁项集的平均支持度；会话所匹配的频繁时间段个数；目标列。

可选地，所述第一算法包括Apriori算法。

可选地，所述第二算法包括：最大似然估计的方法从所述会话的浏览记录中计算出用户对每个内容类的浏览时间所服从的正态分布的参数值。

可选地，所述参数值包括：

其中，time_i为用户在浏览内容类content_i时的相对时间。

可选地，所述第三算法包括：LR逻辑回归算法。

可选地，所述第四算法包括：

则所述分类阈值为

其中，score_合法i为第i个会话的分数，共m个会话。

可选地，所述设定时间段包括30分钟。

本发明提供还一种网络用户身份认证系统，所述网络用户身份认证系统包括：用户会话获取模块，用于采集合法用户在设定时间段内的所有网页浏览记录，所述浏览记录包括浏览网页网址、文本内容、时间戳；从所述浏览网页网址中抽取出网址顶级域名，从所述文本内容抽取出关键字进而确定所述文本内容所属的内容类，将每一条所述浏览记录处理成<网址顶级域名，内容类，时间戳>的形式，将在所述设定时间段内得到的所有所述浏览记录作为一个会话；会话分数计算模块，用于针对一个会话，根据所述会话中的所有浏览记录，统计出用户最频繁访问的多个网址顶级域名，并利用设定的第一算法挖掘出所述浏览记录中网址顶级域名与内容类之间的关系，利用设定的第二算法挖掘出所述浏览记录中内容类与时间段之间的关系，进而得到所述用户浏览网页的n个特征值；根据设定的第三算法对所获取的特征值进行处理，得到与所述特征值相对应的权值矩阵；根据所述特征值以及相对应的权值矩阵计算得到所述会话的分数；分类阈值确定模块，用于获取合法用户的多个会话分数，采用第四算法计算得到所述合法用户的分类阈值。

可选地，所述网络用户身份认证系统还包括用户合法判断模块，用于获取一个新的会话，并计算出所述新会话的分数；当所述分数落入所述分类阈值的范围时，判定当前用户是所述合法用户；当所述分数不落入所述分类阈值的范围时，判定当前用户不是所述合法用户。

可选地，所述第一算法包括Apriori算法。

可选地，所述参数值包括：

其中，time_i为用户在浏览内容类content_i时的相对时间。

可选地，所述第三算法包括：LR逻辑回归算法。

可选地，所述第四算法包括：

则所述分类阈值为

其中，score_合法i为第i个会话的分数，共m个会话。

可选地，所述设定时间段包括30分钟。

如上所述，本发明的一种网络用户身份认证方法及系统，具有以下有益效果：1)将用户所浏览的(网址，内容)，以及(内容，时间)两个因素进行序列的挖掘，而不是单纯只考虑其中某个因素，从而使得本发明的认证方法符合用户的浏览习惯。2)利用关联规则，将(网址，内容)联合进行用户浏览习惯的挖掘；基于正态分布，用以发现用户对各个内容的频繁访问时间段。3)在用户浏览网页的过程中达到了持续性的认证的效果。

附图说明

图1显示为本发明的一种网络用户身份认证方法的一实施例的流程示意图。

图2显示为本发明的一种网络用户身份认证方法的另一实施例的流程示意图。

图3显示为本发明的一种网络用户身份认证系统的一实施例的模块示意图。

元件标号说明

1 网络用户身份认证系统

11 用户会话获取模块

12 会话分数计算模块

13 分类阈值确定模块

14 用户合法判断模块

S1～S4 步骤

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。

需要说明的是，本实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

本发明提供一种网络用户身份认证方法。所述网络用户身份认证方法根据用户浏览行为进行身份认证。在一个实施例中，如图1所示，所述网络用户身份认证方法包括：

步骤S1，采集合法用户在设定时间段内的所有网页浏览记录，所述浏览记录包括浏览网页网址、文本内容、时间戳；从所述浏览网页网址中抽取出网址顶级域名，从所述文本内容抽取出关键字进而确定所述文本内容所属的内容类，将每一条所述浏览记录处理成<网址顶级域名，内容类，时间戳>的形式，将在所述设定时间段内得到的所有所述浏览记录作为一个会话。在一个实施例中，采集一个用户的web浏览记录，进行数据处理，形成如下所示的{(domain，content，timestamp)}会话结构作为后续分析的基础。以30分钟的时间间隔对采集的浏览记录进行处理划分，每30分钟得到一个会话，执行多次步骤S1，如执行m次步骤S1，得到m个会话，最后将m个会话合并得到相应的会话集合S。后续进行认证时也是以用户的一次访问行为(即一个会话，30分钟)为单位进行认证。

在一个实施例中，首先利用chrome浏览器自带的sqlite数据库，采集合法用户的浏览记录。sqlite数据库中记录了用户浏览每个网页时的详细信息，采集每个用户所浏览网页的url(统一资源定位符，Uniform Resource Locator)，即网页地址；文本内容以及时间戳作为原始浏览记录。将浏览记录记为r，其属性如下表1所示：

在获得原始数据以后，会对原始数据进行处理：首先，对会话中的每个浏览记录进行处理，对其url进行顶级域名的抽取；再利用sogou实验室的文本分类样本与网络上的文章共同，对每个类下的文本内容抽取得到相应的关键字，之后与需要分类的网页标题进行匹配得到该网页所属的内容类。经过网页处理之后，如表1的第一条原始的浏览记录被处理为(news.163.com，社会，时间戳)的形式，我们将这种形式数据记为网页p(domain,content,timestamp)。

步骤S2，获取所述合法用户的m个会话，针对每一个会话，作如下处理：根据所述会话中的所有浏览记录，统计出用户最频繁访问的多个网址顶级域名，并利用设定的第一算法挖掘出所述浏览记录中网址顶级域名与内容类之间的关系，利用设定的第二算法挖掘出所述浏览记录中内容类与时间段之间的关系，进而得到所述用户浏览网页的n个特征值；根据设定的第三算法对所获取的特征值进行处理，得到与所述特征值相对应的权值矩阵；根据所述特征值以及相对应的权值矩阵计算得到所述会话的分数。在一个实施例中，以30分钟的时间间隔对采集的浏览记录进行处理划分，每30分钟得到一个会话，执行m次步骤S1，得到m个会话，最后将m个会话合并得到相应的会话集合S。所述特征值包括：会话包含的元素个数；会话包含的频繁访问网站个数；会话所匹配的频繁项集个数；会话匹配的频繁项集中包含的频繁访问网站个数；会话所匹配的最长频繁项集长度；会话所匹配的频繁项集均长度；会话所匹配的频繁项集的最大支持度；会话所匹配的频繁项集的平均支持度；会话所匹配的频繁时间段个数；目标列。所述第一算法包括Apriori算法。Apriori算法是一种挖掘关联规则的频繁项集算法，其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。而且算法已经被广泛的应用到商业、网络安全等各个领域。

所述第二算法包括：最大似然估计的方法从所述会话的浏览记录中计算出用户对每个内容类的浏览时间所服从的正态分布的参数值。所述参数值

其中，timei为用户在浏览内容类contenti时的相对时间；所述参数用于统计所述会话所匹配的频繁时间段个数。所述第三算法包括：LR逻辑回归算法。逻辑回归是一个典型的二分类算法，由它产生的模型相对直观简单，容易解释，并且不容易产生过拟合现象。它其实是学习f:X->Y方程的一个过程，我们会预先给定一个n元组变量向量X＝<X1,X2...,Xn>和m元目标向量Y＝<Y1,Y2...,Ym>，而逻辑回归就是学习一个函数f(X)，使得学习到的函数能根据我们事先给出的变量值最大程度地拟合目标向量Y。

在一个实施例中，不同用户会在不同时间，在不同网站浏览特定内容，基于这一用户浏览特征，我们主要从频繁访问网址，(网址，内容)以及(内容，时间段)这三方面着手进行特征的抽取。按照{(domain，content，timestamp)}会话集从频繁网址统计，频繁项集挖掘以及频繁时间段挖掘三方面进行特征抽取得到用户浏览特征。在一个实施例中，可以同时对多个用户进行处理统计：

频繁访问网站统计：由于每个用户所频繁浏览的网页不同，统计出每个用户最频繁访问的15个网址顶级域名，放入相应用户j的频繁访问网址类FUj当中。

频繁项集挖掘：利用Apriori算法，挖掘出(网址，内容)之间存在的序列关系。在这个过程中，本发明通过实验选取了一个合适的支持度阈值δ。对于一个频繁项集fc：X，Y，若support(fc)>δ，则将该频繁项集添加到对应用户j的web浏览频繁项集FCj中。

频繁时间段挖掘：对于一个用户，假定其浏览某个content的时间段服从于一个正态分布过程。利用从S*处理得到的(content，time)数据为用户建立浏览每一类content内容的时间所服从的正态分布模型。由于正态分布过程中的参数无法准确获得，利用最大似然估计的方法从会话中计算出用户对每个content的浏览时间所服从的正态分布的参数值。其中，

进而获取会话中相应的特征值，会话集当中的每个会话都有与之相应的特征值，记为fvji。在一个实施例中，且fv_ji＝<length_i,pun_i,mrn_i,rpun_i,mrml_i,mral_i,mrms_i,mras_i,mtn_i,target_i>，当中每个值的含义具体如表2当中所示。

在得到会话的特征值集合之后，利用LR逻辑回归算法进行基于用户浏览特征认证方法(以下简称UBFAA)，其具体过程如算法1所示。

算法1：基于用户浏览特征的认证方法(UBFAA)

输入：合法用户会话集S*，合法用户的频繁项集FC，合法用户的频繁访问网址集FU以

及频繁访问时间段集FT

输出：特征值权值矩阵w，数组score合法

1)遍历合法用户的会话集S*的每一个会话s*i

mrtl＝0；//会话S*i所匹配的频繁项集的总长度

mrts＝0；//会话S*i所匹配的频繁项集的总支持度

pun＝0；

length＝会话集S*包含的元素个数；

target＝1；

1.1)遍历合法用户的频繁访问网址集FU

if合法用户的频繁访问网址集FU中存在fuj＝当前会话网页类的顶级域名，则pun加1；

1.2)遍历合法用户的频繁项集FC

if当前会话包含频繁项集fcj

1.2.1)mrn加1，mrtl累加上当前频繁项集的长度，mrts累加上当前频繁项集的支持度；

1.2.2)将当前会话所匹配规则的最大支持度保存在mrms中；

1.2.3)将当前会话所匹配规则的最大长度保存在mrml中；

1.2.4)统计中fcj包含的频繁访问网站个数保存在rpun中；

1.3)获得当前会话所匹配规则的平均支持度mras与平均长度mral；

1.4)遍历合法用户的频繁时间段集FT

if合法用户的频繁访问网址集FT中存在ftj，使得当前会话网页类.content＝

ftj.content and当前会话网页类.time在

区间内，则mtn加1；

1.5)将会话s*i的各个属性写入十元组集合FVi当中；

2)遍历十元组集FVi

2.1)创建矩阵datas，将其第一列全赋值为1，并将的特征数据存储到矩阵当中；

2.2)创建labels矩阵，并将FVi的最后一列数据存储到labels当中；

2.3)创建值全为1的10*1大小的权值矩阵w；

3)设置LR逻辑回归的学习速度alpha＝0.01，LR的最大循环次数maxCycles＝500；

4)当计算次数小于maxCycles时，重复利用梯度下降法计算权值矩阵w的值；

5)利用权值矩阵w计算计算得到会话相应的score，并存入数组score_合法中；

6)返回权值矩阵w与合法会话评分数组score_合法。

然后，根据以上算法得到的权值矩阵w与会话j所对应的特征值向量fv_j计算其对应的score_j，其计算公式如下所示：

对于fv_i∈FV，

score＝w₀+w₁*fv_i.length+w₂*fv_i.pun+...+w₁₀*fv_i.mtn

针对m个合法用户的会话得到评分数组score_合法＝{score_合法1，score_合法2，...,score_合法m}。

步骤S3，根据所述m个会话的分数，采用第四算法计算得到所述合法用户的分类阈值。在一个实施例中，所述第四算法包括：

所述分类阈值为

其中，score_合法i为第i个会话的分数，共m个会话。

在一个实施例中，如图2所示，所述网络用户身份认证方法还包括：

步骤S4，获取一个新的会话，并计算出所述新会话的分数；当所述分数落入所述分类阈值的范围时，判定当前用户是所述合法用户；当所述分数不落入所述分类阈值的范围时，判定当前用户不是所述合法用户。采用步骤S1的方法获得一个当前会话(新的会话)，并采用步骤S2的方法计算该会话的分数，然后根据步骤S3中的分类阈值，判断当前会话所属的用户是否为合法用户。当新的会话的分数落入所述分类阈值的范围时，判定当前用户是所述合法用户；当新的会话的分数不落入所述分类阈值的范围时，判定当前用户不是所述合法用户。

本发明提供还一种网络用户身份认证系统。所述网络用户身份认证系统可以采用如上所述的网络用户身份认证方法。在一个实施例中，如图3所示，所述网络用户身份认证系统1包括用户会话获取模块11、会话分数计算模块12以及分类阈值确定模块13。其中：

用户会话获取模块11用于采集用户在设定时间段内的所有网页浏览记录，所述浏览记录包括浏览网页网址、文本内容、时间戳；从所述浏览网页网址中抽取出网址顶级域名，从所述文本内容抽取出关键字进而确定所述文本内容所属的内容类，将每一条所述浏览记录处理成<网址顶级域名，内容类，时间戳>的形式，将在所述设定时间段内得到的所有所述浏览记录作为一个会话。在一个实施例中所述设定时间段包括30分钟。

会话分数计算模块12与用户会话获取模块11相连，用于针对一个会话，根据所述会话中的所有浏览记录，统计出用户最频繁访问的多个网址顶级域名，并利用设定的第一算法挖掘出所述浏览记录中网址顶级域名与内容类之间的关系，利用设定的第二算法挖掘出所述浏览记录中内容类与时间段之间的关系，进而得到所述用户浏览网页的n个特征值；根据设定的第三算法对所获取的特征值进行处理，得到与所述特征值相对应的权值矩阵；根据所述特征值以及相对应的权值矩阵计算得到所述会话的分数。在一个实施例中，所述特征值包括：会话包含的元素个数；会话包含的频繁访问网站个数；会话所匹配的频繁项集个数；会话匹配的频繁项集中包含的频繁访问网站个数；会话所匹配的最长频繁项集长度；会话所匹配的频繁项集均长度；会话所匹配的频繁项集的最大支持度；会话所匹配的频繁项集的平均支持度；会话所匹配的频繁时间段个数；目标列。所述第一算法包括Apriori算法。所述第二算法包括：最大似然估计的方法从所述会话的浏览记录中计算出用户对每个内容类的浏览时间所服从的正态分布的参数值。所述参数值

其中，time_i为用户在浏览内容类content_i时的相对时间；所述参数用于统计所述会话所匹配的频繁时间段个数。所述第三算法包括：梯度下降法。

分类阈值确定模块13与会话分数计算模块相连，用于获取合法用户的多个会话分数，采用第四算法计算得到所述合法用户的分类阈值。在一个实施例中，所述第四算法包括：

则所述分类阈值为

其中，score_合 _法i为第i个会话的分数，共m个会话。

在一个实施例中，如图3所示，所述网络用户身份认证系统1还包括用户合法判断模块 14，用户合法判断模块14与分类阈值确定模块13、会话分数计算模块12、用户会话获取模块11相连，用于从用户会话获取模块11中获取一个新的会话，并通过会话分数计算模块12计算出所述新会话的分数；当所述分数落入分类阈值确定模块13中得到的合法用户的分类阈值的范围时，判定当前用户是所述合法用户；当所述分数不落入所述分类阈值的范围时，判定当前用户不是所述合法用户。本发明的技术方案通过从浏览的网址序列，内容以及浏览时间三方面区分出不同用户的浏览行为，从而为用户的账户安全提供可靠保证。经过实验测试，在误报率为10％时能本发明的网络身份认证可以达到93.6％的检测率，具有很好的验证效果，有利于保证用户账户安全。

综上所述，本发明的一种网络用户身份认证方法及系统具有以下有益效果：1)将用户所浏览的(网址，内容)，以及(内容，时间)两个因素进行序列的挖掘，而不是单纯只考虑其中某个因素，从而使得本发明的认证方法符合用户的浏览习惯。2)利用关联规则，将(网址，内容)联合进行用户浏览习惯的挖掘；基于正态分布，用以发现用户对各个内容的频繁访问时间段。3)在用户浏览网页的过程中达到了持续性的认证的效果。所以，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

一种网络用户身份认证方法，其特征在于，所述网络用户身份认证方法包括：

采集合法用户在设定时间段内的所有网页浏览记录，所述浏览记录包括浏览网页网址、文本内容、时间戳；从所述浏览网页网址中抽取出网址顶级域名，从所述文本内容抽取出关键字进而确定所述文本内容所属的内容类，将每一条所述浏览记录处理成<网址顶级域名，内容类，时间戳>的形式，将在所述设定时间段内得到的所有所述浏览记录作为一个会话；

获取所述合法用户的m个会话，针对每一个会话，作如下处理：根据所述会话中的所有浏览记录，统计出用户最频繁访问的多个网址顶级域名，并利用设定的第一算法挖掘出所述浏览记录中网址顶级域名与内容类之间的关系，利用设定的第二算法挖掘出所述浏览记录中内容类与时间段之间的关系，进而得到所述用户浏览网页的n个特征值；根据设定的第三算法对所获取的特征值进行处理，得到与所述特征值相对应的权值矩阵；根据所述特征值以及相对应的权值矩阵计算得到所述会话的分数；

根据所述m个会话的分数，采用第四算法计算得到所述合法用户的分类阈值。
根据权利要求1所述的网络用户身份认证方法，其特征在于：所述网络用户身份认证方法还包括：获取一个新的会话，并计算出所述新会话的分数；当所述分数落入所述分类阈值的范围时，判定当前用户是所述合法用户；当所述分数不落入所述分类阈值的范围时，判定当前用户不是所述合法用户。
根据权利要求1所述的网络用户身份认证方法，其特征在于：所述特征值包括：会话包含的元素个数；会话包含的频繁访问网站个数；会话所匹配的频繁项集个数；会话匹配的频繁项集中包含的频繁访问网站个数；会话所匹配的最长频繁项集长度；会话所匹配的频繁项集均长度；会话所匹配的频繁项集的最大支持度；会话所匹配的频繁项集的平均支持度；会话所匹配的频繁时间段个数；目标列。
根据权利要求1所述的网络用户身份认证方法，其特征在于：所述第一算法包括Apriori算法。
根据权利要求1所述的网络用户身份认证方法，其特征在于：所述第二算法包括：最大似然估计的方法从所述会话的浏览记录中计算出用户对每个内容类的浏览时间所服从的正态分布的参数值。
根据权利要求5所述的网络用户身份认证方法，其特征在于：所述参数值包括：
其中，time_i为用户在浏览内容类content_i时的相对时间。
根据权利要求1所述的网络用户身份认证方法，其特征在于：所述第三算法包括：LR逻辑回归算法。
根据权利要求1所述的网络用户身份认证方法，其特征在于：所述第四算法包括：
则所述分类阈值为
其中，score_合法i为第i个会话的分数。
一种网络用户身份认证系统，其特征在于：所述网络用户身份认证系统包括：

用户会话获取模块，用于采集合法用户在设定时间段内的所有网页浏览记录，所述浏览记录包括浏览网页网址、文本内容、时间戳；从所述浏览网页网址中抽取出网址顶级域名，从所述文本内容抽取出关键字进而确定所述文本内容所属的内容类，将每一条所述浏览记录处理成<网址顶级域名，内容类，时间戳>的形式，将在所述设定时间段内得到的所有所述浏览记录作为一个会话；

会话分数计算模块，用于针对一个会话，根据所述会话中的所有浏览记录，统计出用户最频繁访问的多个网址顶级域名，并利用设定的第一算法挖掘出所述浏览记录中网址顶级域名与内容类之间的关系，利用设定的第二算法挖掘出所述浏览记录中内容类与时间段之间的关系，进而得到所述用户浏览网页的n个特征值；根据设定的第三算法对所获取的特征值进行处理，得到与所述特征值相对应的权值矩阵；根据所述特征值以及相对应的权值矩阵计算得到所述会话的分数；

分类阈值确定模块，用于获取合法用户的多个会话分数，采用第四算法计算得到所述合法用户的分类阈值。
根据权利要求9所述的网络用户身份认证系统，其特征在于：所述网络用户身份认证系统还包括用户合法判断模块，用于获取一个新的会话，并计算出所述新会话的分数；当所述分数落入所述分类阈值的范围时，判定当前用户是所述合法用户；当所述分数不落入所述分类阈值的范围时，判定当前用户不是所述合法用户。