WO2020056857A1

WO2020056857A1 - 一种异常访问行为的识别方法及服务器

Info

Publication number: WO2020056857A1
Application number: PCT/CN2018/113029
Authority: WO
Inventors: 陈志勇; 王凤杰
Original assignee: 网宿科技股份有限公司
Priority date: 2018-09-19
Filing date: 2018-10-31
Publication date: 2020-03-26
Also published as: US20210194906A1; CN109194671B; CN109194671A; EP3852327A4; EP3852327A1

Abstract

本发明公开了一种异常访问行为的识别方法及服务器，其中，所述方法包括：接收客户端发来的访问请求，并基于所述访问请求，生成所述客户端的辨认标识；获取所述客户端的设备指纹信息，并根据所述辨认标识和所述设备指纹信息，生成所述客户端的唯一标识；将所述唯一标识下发给所述客户端，以基于所述唯一标识，识别所述客户端的访问行为是否异常。本申请提供的技术方案，能够提高异常访问行为的识别精度。

Description

一种异常访问行为的识别方法及服务器

技术领域

本发明涉及互联网技术领域，特别涉及一种异常访问行为的识别方法及服务器。

背景技术

随着互联网技术的不断发展，网络安全问题日益凸显。目前，恶意的网络爬虫会频繁访问企业的服务器，给企业的服务器带来较大的负担。为了有效阻止恶意爬虫发起的访问请求，当前可以针对恶意爬虫的IP地址设置一定时段内的访问次数上限，当该IP地址发起的访问次数较高时，可以拒绝来自该IP地址的访问请求。

然而，这种方式可能会对正常的用户造成影响。例如，在NAT(Network Address Translation,网络地址转换)环境下，不同用户的出口IP都是相同的，从而会导致来自该出口IP的访问次数较高。按照现有的方式会将该出口IP误封，从而导致正常用户的访问失效。由此可见，目前针对恶意爬虫的防范方式不够精准，会对正常用户造成影响。

发明内容

本申请的目的在于提供一种异常访问行为的识别方法及服务器，能够提高异常访问行为的识别精度。

为实现上述目的，本申请一方面提供一种异常访问行为的识别方法，所述方法包括：接收客户端发来的访问请求，并基于所述访问请求，生成所述客户端的辨认标识；获取所述客户端的设备指纹信息，并根据所述辨认标识和所述设备指纹信息，生成所述客户端的唯一标识；将所述唯一标识下发给所述客户端，以基于所述唯一标识，识别所述客户端的访问行为是否异常。

为实现上述目的，本申请另一方面还提供一种服务器，所述服务器包括：辨认标识生成单元，用于接收客户端发来的访问请求，并基于所述访问请求，生成所述客户端的辨认标识；唯一标识生成单元，用于获取所述客户端的设备指纹信息，并根据所述辨认标识和所述设备指纹信息，生成所述客户端的唯一标识；访问行为识别单元，用于将所述唯一标识下发给所述客户端，以基于所述唯一标识，识别所述客户端的访问行为是否异常。

为实现上述目的，本申请另一方面还提供一种服务器，所述服务器包括存储器和处理器，所述存储器用于存储计算机程序，所述计算机程序被所述处理器执行时，实现上述的异常访问行为的识别方法。

由上可见，本申请提供的技术方案，服务器在接收到客户端发来的访问请求时，可以基于该访问请求生成客户端的辨认标识。在实际应用中，该辨认标识可以由该访问请求中的访问信息和随机生成的识别码共同确定。访问请求中的访问信息可以包括客户端的IP地址和用户代理信息(usr-agent)。在生成客户端的辨认标识之后，可以获取客户端的设备指纹信息。该设备指纹信息可以从多方面表征一个客户端。例如，该设备指纹信息可以包括客户端的语言、色彩深度、像素比例、屏幕分辨率、浏览器语言、操作系统参数、CPU型号等信息。这样，通过上述的辨认标识和设备指纹信息，可以精确地确定一个客户端。在本申请中，可以根据所述辨认标识和所述设备指纹信息，生成所述客户端的唯一标识。该唯一标识可以将该客户端与其它客户端进行区分。后续，服务器可以将该唯一标识反馈给该客户端。对于正常用户而言，后续在向服务器发起访问请求时，都会带上自身的唯一标识；而部分恶意爬虫则不会携带该唯一标识，如果恶意爬虫携带了该唯一标识，服务器也可以通过该唯一标识来确定恶意爬虫的访问行为轨迹，从而有效地识别出恶意爬虫。这样，服务器可以基于该唯一标识，来判断发起访问请求的客户端是否存在异常。由上可见，本申请提供的技术方案，通过将客户端的辨认标识与设备指纹信息进行结合，从而可以精确地表征一个客户端。后续，通过对该唯一标识进行识别，从而可以追踪客户端的访问行为轨迹，进而能够判断客户端的访问行为是否存在异常。按照本申请提供的技术方案，能够有效地将正常用户与恶意爬虫进行区分，从而提高了异常行为的识别精度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施方式中服务器和客户端的系统示意图；

图2是本发明实施方式中异常访问行为的识别方法示意图；

图3是本发明实施方式中服务器的功能模块示意图；

图4是本发明实施方式中服务器的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

本申请一个实施方式提供一种异常访问行为的识别方法，该方法可以应用于服务器中。请参阅图1，企业的业务可以由服务器集群中的各台服务器提供。服务器可以根据客户端发起的访问请求，向客户端反馈对应的企业业务数据。服务器集群中的服务器中可以应用本申请提供的技术方案，在接收到客户端发来的访问请求时，对客户端的访问行为进行判定。具体地，请参阅图2，本申请提供的异常访问行为的识别方法可以包括以下步骤。

S1：接收客户端发来的访问请求，并基于所述访问请求，生成所述客户端的辨认标识。

在本实施方式中，客户端发起的访问请求，可以通过CDN(Content Delivery Network，内容分发网络)加速之后，倒流至服务器集群中的服务器上。服务器接收到客户端发来的访问请求之后，可以从所述访问请求中提取所述客户端的访问信息。具体地，所述访问信息至少可以包括所述客户端的IP地址和所述客户端的用户代理信息(User-Agent，UA)。通常而言，IP地址和UA的组合，往往可以准确地表征一个客户端的身份。但考虑到在实际应用中，不同的客户端也有可能具备相同的IP地址和UA。例如，在NAT模式中，客户端的出口IP地址均相同，在NAT网络架构中，也有可能存在UA一致的客户端。因此，为了更加精准地表征客户端的身份，在本实施方式中可以随机生成指定长度的识别码。该指定长度的识别码例如可以是8位的UUID(Universally Unique Identifier，通用唯一识别码)。这样，通过将上述的访问信息和该指定长度的识别码进行组合，从而可以从IP地址、UA以及UUID这三个维度来共同限定一个客户端。为了保证访问信息和识别码的组合的安全性，可以将访问信息和识别码的组合通过密钥的形式来表示。具体地，可以采用预设加密算法，对所述识别码和所述访问信息的组合进行加密，并将加密后的密钥作为所述客户端的辨认标识。在实际应用中，所述预设加密算法可以是DES(Data Encryption Standard，数据加密标准)、3DES、DSA(Digital Signature Algorithm，数字签名算法)、MD5(Message Digest Algorithm 5，信息摘要算法第五版)、SHA(Secure Hash Algorithm，安全散列算法)等加密算法中的一种。该预设加密算法可以生成指定位数的密钥。例如，通过3DES算法对访问信息和识别码的组合进行加密运算后，可以生成16位的密钥，该16位的密钥便可以作为该客户端的辨认标识。

S3：获取所述客户端的设备指纹信息，并根据所述辨认标识和所述设备指纹信息，生成所述客户端的唯一标识。

在本实施方式中，服务器在生成客户端的辨认标识之后，为了进一步提高对客户端的识别精度，还可以在上述辨认标识的基础上，结合客户端本身的一些设定信息。具体地，服务器针对客户端发来的所述访问请求，可以向客户端反馈对应的响应信息。在响应于所述访问请求向所述客户端反馈响应信息时，服务器可以一并向所述客户端下发检测脚本。该检测脚本可以是JavaScript的脚本，该脚本被客户端接收之后，可以在客户端中自动运行，并且在运行过程中，可以搜集客户端的设备指纹信息。所述设备指纹信息可以包括客户端的语言、色彩深度(colordepth)、设备物理像素和设备独立像素的比例(PixelRatio)、屏幕当前采用的分辨率、屏幕可用的分辨率、本地时间与GMT(Greenwich Mean Time，格林威治时间)的时间差、浏览器设置的语言、音频参数、浏览器的操作系统和/或硬件平台、计算机的CPU型号等信息。由于不同用户对于客户端的使用习惯均不相同，因此，设备指纹信息可以从客户端本身设置的多个维度对客户端进行限定。

在本实施方式中，通过向客户端下发检测脚本，并通过检测脚本的运行获取到客户端的设备指纹信息之后，可以进一步地将该设备指纹信息与所述客户端的辨认标识进行组合，从而共同限定该客户端的身份。同样地，为了保证组合的安全性，也可以将设备指纹信息与辨认标识的组合通过密钥的形式来表示。具体地，服务器可以按照预设加密算法对所述辨认标识和所述设备指纹信息的组合进行加密，从而得到指定长度的密钥，并将所述指定长度的密钥作为所述客户端的唯一标识。在实际应用中，所述预设加密算法可以是步骤S1中描述的多种加密算法中的一种。例如，同样可以通过3DES算法对设备指纹信息与辨认标识的组合进行加密，然后可以生成32位的密钥，并将该32位的密钥作为上述的唯一标识。在实际应用中，辨认标识和唯一标识的位数可以在加密时按照需求进行设置，并不一定限定于只能生成16位的辨认标识和32位的唯一标识。

S5：将所述唯一标识下发给所述客户端，以基于所述唯一标识，识别所述客户端的访问行为是否异常。

在本实施方式中，在生成所述客户端的唯一标识之后，可以将该唯一标识通过cookie的形式下发给客户端。这样处理的目的在于，正常的客户端都能够支持cookie形式的数据，并且客户端后续在向服务器发起访问请求时，通常都可以带上该cookie形式的唯一标识，以便服务器通过访问请求中的唯一标识来对客户端的访问行为进行辨认和追踪。

在本实施方式中，对于正常用户的客户端而言，可以接收服务器下发的唯一标识，并且后续在向服务器发起访问请求时，可以在访问请求中携带该唯一标识。而对于部分恶意爬虫而言，会拒绝接收服务器下发的唯一标识。后续，这些恶意爬虫再次向服务器发起访问请求时，访问请求中便不会携带服务器向其下发的唯一标识。

鉴于此，在一个实施方式中，服务器可以再次接收所述客户端发来的访问请求，并识别所述访问请求中是否携带所述唯一标识，若所述访问请求中未携带所述唯一标识，表明客户端拒绝接收了服务器向其下发的唯一标识，此时可以直接判定所述客户端的访问行为存在异常。

在另一个实施方式中，部分恶意爬虫可能会伪装正常客户端的访问形式，接收服务器向其下发的唯一标识。并且在后续发起的访问请求中，也会携带该唯一标识。在这种情况下，服务器可以根据访问请求中携带的唯一标识，来识别出该客户端在一段时间内的访问请求，并根据识别出的访问请求，分析该客户端的访问行为。考虑到恶意爬虫往往会在短时间内向服务器频繁地发起访问请求，因此可以通过计算客户端发起访问请求的访问频率，来判断该客户端的访问行为是否存在异常。具体地，若所述客户端发来的访问请求中携带所述唯一标识，服务器可以统计所述客户端发起访问请求的访问频率。服务器可以在指定时段内统计该客户端发起访问请求的次数，然后计算该客户端在单位时间内发起的访问请求的次数，从而可以确定出该客户端的访问频率。然后，若统计的所述访问频率大于或者等于指定频率阈值，则表明该客户端的访问行为过于频繁，从而仍可以判定所述客户端的访问行为存在异常。所述指定频率阈值可以是根据正常用户的访问频率进行设置的。例如，该指定频率阈值可以是正常用户的访问频率的上限值，或者在该上限值的基础上添加一定冗余度的结果。

在另一个实施方式中，考虑到企业的服务器中，有部分资源属于敏感资源，这些敏感资源通常不会被客户端通过外部网络的形式进行访问。正常用户的客户端通常不会访问这些敏感资源，而恶意爬虫则会对能够获取到的链接都尝试访问。鉴于此，可以通过判断客户端发起的访问请求是否指向敏感目标，来识别客户端的访问行为是否存在异常。具体地，若所述客户端发来的访问请求中携带所述唯一标识，服务器可以识别所述访问请求表征的访问目标，该访问目标通常可以通过对访问请求中的URL(Uniform Resource Locator，统一资源定位符)来识别。若所述访问目标属于敏感目标，服务器则可以判定所述客户端的访问行为存在异常。

在另一个实施方式中，用户在对网站资源发起访问时，通常可以在浏览器中输入网站的首页地址，或者可以在当前页面中点击某个链接，从而跳转至待访问的页面中。也就是说，正常用户在访问网站资源时，对于网站首页而言，用户可能会直接输入首页的网址，而对于网站中的其它页面而言，用户可能是通过百度、谷歌等搜索结果页面中的链接，或者通过网站首页中展示的链接跳转至其它页面的。因此，正常用户的访问的不同页面之间，往往是具备前后引用关系的。例如，用户在百度中输入“XX科技”，然后百度的搜索结果页面便可以出现该“XX科技”的官网地址。用户通过点击该官网地址，便可以访问“XX科技”的首页。首页中可能有该公司提供的各项业务，这样，用户通过点击其中的“CDN服务器租借”链接，便可以访问CDN服务器租借的详细内容。上述例子中，用户的访问行为是通过百度-官网首页-CDN服务器租借这个访问逻辑进行的。页面与页面之间往往存在引用关系。例如，用户最终想要访问的是CDN服务器租借页面，该页面的引用页面是官网首页，而官网首页的引用页面是百度。页面之间的这种引用关系，可以通过访问请求中的referer字段来记录。例如，上述针对CDN服务器租借页面的访问请求中，referer字段内便可以记录官网首页的标识。相应地，针对官网首页的访问请求中，referer字段可以记录百度的页面标识。然而，对于恶意爬虫而言，其并不会通过这种逐层搜索的方式来访问最终的页面，而是直接通过CDN服务器租借的访问链接，对该页面发起访问。也就是说，恶意爬虫往往都是直接通过待访问页面的页面地址发起访问。因此，在恶意爬虫的访问请求中，绝大部分的访问请求的referer字段都是空字段，不存在上一级的引用页面。

鉴于此，在本实施方式中，若所述客户端发来的访问请求中携带所述唯一标识，服务器可以从所述访问请求中识别所述访问请求是否具备请求来源。该请求来源便可以通过访问请求中的referer字段表明。具体地，服务器可以识别所述访问请求中referer字段的内容，若所述referer字段为空，则确定所述访问请求不具备请求来源；若所述referer字段中携带页面标识，则可以将所述页面标识指向的页面作为所述访问请求的请求来源。

在本实施方式中，服务器可以从所述客户端在指定时段内发来的访问请求中统计不具备请求来源的目标访问请求的数量，若统计的所述数量大于或者等于指定数量阈值，则表示该客户端在指定时段内发来的访问请求中，大部分并没有对应的引用页面，而是直接根据访问地址发起访问的。这种访问行为与恶意爬虫的访问行为比较相似，此时，可以判定所述客户端的访问行为存在异常。

请参阅图3，本申请还提供一种服务器，所述服务器包括：

辨认标识生成单元，用于接收客户端发来的访问请求，并基于所述访问请求，生成所述客户端的辨认标识；

唯一标识生成单元，用于获取所述客户端的设备指纹信息，并根据所述辨认标识和所述设备指纹信息，生成所述客户端的唯一标识；

访问行为识别单元，用于将所述唯一标识下发给所述客户端，以基于所述唯一标识，识别所述客户端的访问行为是否异常。

在一个实施方式中，所述辨认标识生成单元包括：

访问信息提取模块，用于从所述访问请求中提取所述客户端的访问信息，所述访问信息至少包括所述客户端的IP地址和所述客户端的用户代理信息；

加密模块，用于随机生成指定长度的识别码，并对所述识别码和所述访问信息的组合进行加密，以生成所述客户端的辨认标识。

在一个实施方式中，所述唯一标识生成单元包括：

脚本下发模块，用于在响应于所述访问请求向所述客户端反馈响应信息时，向所述客户端下发检测脚本，其中，所述检测脚本在所述客户端中运行时，获取所述客户端的设备指纹信息。

在一个实施方式中，所述访问行为识别单元包括：

标识识别模块，用于再次接收所述客户端发来的访问请求，并识别所述访问请求中是否携带所述唯一标识，若所述访问请求中未携带所述唯一标识，判定所述客户端的访问行为存在异常。

请参阅图4，本申请还提供一种服务器，所述服务器包括存储器和处理器，所述存储器用于存储计算机程序，所述计算机程序被所述处理器执行时，可以实现上述的异常访问行为的识别方法。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件来实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

一种异常访问行为的识别方法，其特征在于，所述方法包括：

接收客户端发来的访问请求，并基于所述访问请求，生成所述客户端的辨认标识；

获取所述客户端的设备指纹信息，并根据所述辨认标识和所述设备指纹信息，生成所述客户端的唯一标识；

将所述唯一标识下发给所述客户端，以基于所述唯一标识，识别所述客户端的访问行为是否异常。
根据权利要求1所述的方法，其特征在于，基于所述访问请求，生成所述客户端的辨认标识包括：

从所述访问请求中提取所述客户端的访问信息，所述访问信息至少包括所述客户端的IP地址和所述客户端的用户代理信息；

随机生成指定长度的识别码，并对所述识别码和所述访问信息的组合进行加密，以生成所述客户端的辨认标识。
根据权利要求1所述的方法，其特征在于，获取所述客户端的设备指纹信息包括：

在响应于所述访问请求向所述客户端反馈响应信息时，向所述客户端下发检测脚本，其中，所述检测脚本在所述客户端中运行时，获取所述客户端的设备指纹信息。
根据权利要求1-3任意一项所述的方法，其特征在于，根据所述辨认标识和所述设备指纹信息，生成所述客户端的唯一标识包括：

对所述辨认标识和所述设备指纹信息的组合进行加密，得到指定长度的密钥，并将所述指定长度的密钥作为所述客户端的唯一标识。
根据权利要求1所述的方法，其特征在于，将所述唯一标识下发给所述客户端包括：

将所述唯一标识以cookie的形式下发给所述客户端。
根据权利要求1所述的方法，其特征在于，基于所述唯一标识，识别所述客户端的访问行为是否异常包括：

再次接收所述客户端发来的访问请求，并识别所述访问请求中是否携带所述唯一标识，若所述访问请求中未携带所述唯一标识，判定所述客户端的访问行为存在异常。
根据权利要求6所述的方法，其特征在于，所述方法还包括：

若所述客户端发来的访问请求中携带所述唯一标识，统计所述客户端发起访问请求的访问频率；

若统计的所述访问频率大于或者等于指定频率阈值，判定所述客户端的访问行为存在异常。
根据权利要求6所述的方法，其特征在于，所述方法还包括：

若所述客户端发来的访问请求中携带所述唯一标识，识别所述访问请求表征的访问目标；若所述访问目标属于敏感目标，判定所述客户端的访问行为存在异常。
根据权利要求6所述的方法，其特征在于，所述方法还包括：

若所述客户端发来的访问请求中携带所述唯一标识，从所述访问请求中识别所述访问请求是否具备请求来源；

从所述客户端在指定时段内发来的访问请求中统计不具备请求来源的目标访问请求的数量，若统计的所述数量大于或者等于指定数量阈值，判定所述客户端的访问行为存在异常。
根据权利要求9所述的方法，其特征在于，从所述访问请求中识别所述访问请求是否具备请求来源包括：

识别所述访问请求中referer字段的内容，若所述referer字段为空，确定所述访问请求不具备请求来源；若所述referer字段中携带页面标识，将所述页面标识指向的页面作为所述访问请求的请求来源。
一种服务器，其特征在于，所述服务器包括：

辨认标识生成单元，用于接收客户端发来的访问请求，并基于所述访问请求，生成所述客户端的辨认标识；

唯一标识生成单元，用于获取所述客户端的设备指纹信息，并根据所述辨认标识和所述设备指纹信息，生成所述客户端的唯一标识；

访问行为识别单元，用于将所述唯一标识下发给所述客户端，以基于所述唯一标识，识别所述客户端的访问行为是否异常。
根据权利要求11所述的服务器，其特征在于，所述辨认标识生成单元包括：

访问信息提取模块，用于从所述访问请求中提取所述客户端的访问信息，所述访问信息至少包括所述客户端的IP地址和所述客户端的用户代理信息；

加密模块，用于随机生成指定长度的识别码，并对所述识别码和所述访问信息的组合进行加密，以生成所述客户端的辨认标识。
根据权利要求11所述的服务器，其特征在于，所述唯一标识生成单元包括：

脚本下发模块，用于在响应于所述访问请求向所述客户端反馈响应信息时，向所述客户端下发检测脚本，其中，所述检测脚本在所述客户端中运行时，获取所述客户端的设备指纹信息。
根据权利要求11所述的服务器，其特征在于，所述访问行为识别单元包括：

标识识别模块，用于再次接收所述客户端发来的访问请求，并识别所述访问请求中是否携带所述唯一标识，若所述访问请求中未携带所述唯一标识，判定所述客户端的访问行为存在异常。
一种服务器，其特征在于，所述服务器包括存储器和处理器，所述存储器用于存储计算机程序，所述计算机程序被所述处理器执行时，实现如权利要求1至10中任一权利要求所述的方法。