WO2021114454A1

WO2021114454A1 - 一种检测爬虫请求的方法和装置

Info

Publication number: WO2021114454A1
Application number: PCT/CN2020/071457
Authority: WO
Inventors: 洪镇宇; 黄梅芬; 王鑫渊
Original assignee: 网宿科技股份有限公司
Priority date: 2019-12-13
Filing date: 2020-01-10
Publication date: 2021-06-17
Also published as: CN112989157A

Abstract

本发明公开了一种检测爬虫请求的方法和装置，属于网络通信技术领域。所述方法包括：获取目标历史时段中目标网站的历史访问信息，将包含相同的主维度标识的历史访问信息划分至同一信息组；基于目标信息组下的历史访问信息，创建目标信息组下副维度标识对应的多个单维度会话序列，和主维度标识对应的跨纬度会话序列；根据跨纬度会话序列对应的流量特征，和多个单维度会话序列对应的流量特征，生成目标信息组对应的特征向量；基于目标网站下所有信息组对应的特征向量，训练目标网站对应的爬虫检测模型，通过爬虫检测模型对目标网站进行爬虫检测。采用本发明，可以更加精确有效地检测出传统的爬虫请求和新型爬虫请求。

Description

一种检测爬虫请求的方法和装置

技术领域

本发明涉及网络通信技术领域，特别涉及一种检测爬虫请求的方法和装置。

背景技术

网络爬虫是一种按照预设规则自动从网站抓取数据资源的程序或者脚本，其可以通过不断向网站服务器发送访问请求(可称为爬虫请求)的方式，从一个或若干网页开始抓取网页中资源和链接，再通过抓取到的链接继续访问并抓取后续网页，直至抓取完所需的全部网页。

据统计，目前针对网页的访问请求中爬虫请求的数量占比达到了一半以上，而对于网站运营方来讲，大量的爬虫请求会对网站服务器造成极高的负载压力。因此，网站运营方会采用一定的爬虫检测方案以从网页的全部访问请求中筛选过滤出爬虫请求。具体的，可以基于预先设定的爬虫请求检测规则，对接收到的访问请求进行检测，例如，当某个访问请求的源IP地址属于黑名单中的IP地址，或者某一客户端在一次会话中访问了某一网页链接的全部页面，则可以判定相应的访问请求为爬虫请求，或者相应的客户端为爬虫请求的发送端。

在实现本发明的过程中，发明人发现现有技术至少存在以下问题：

随着计算机技术的发展，出现了满足跨会话、爬取频率随机、应用IP代理池等特点的新型网络爬虫，传统的爬虫请求检测规则已无法对这些新型网络爬虫生成的新型爬虫请求进行有效检测，故而目前亟需一种既能够识别传统的爬虫请求，也可以有效检测出新型爬虫请求的爬虫检测方案。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种检测爬虫请求的方法和装置。所述技术方案如下：

第一方面，提供了一种检测爬虫请求的方法，所述方法包括：

获取目标历史时段中目标网站的历史访问信息，将包含相同的主维度标识的历史访问信息划分至同一信息组；

基于目标信息组下的历史访问信息，创建所述目标信息组下副维度标识对应的多个单维度会话序列，和所述主维度标识对应的跨纬度会话序列；

根据所述跨纬度会话序列对应的流量特征，和所述多个单维度会话序列对应的流量特征，生成所述目标信息组对应的特征向量；

基于目标网站下所有信息组对应的特征向量，训练所述目标网站对应的爬虫检测模型，通过所述爬虫检测模型对所述目标网站进行爬虫检测。

第二方面，提供了一种检测爬虫请求的装置，所述装置包括：

信息获取模块，用于获取目标历史时段中目标网站的历史访问信息，将包含相同的主维度标识的历史访问信息划分至同一信息组；

序列创建模块，用于基于目标信息组下的历史访问信息，创建所述目标信息组下副维度标识对应的多个单维度会话序列，和所述主维度标识对应的跨纬度会话序列；

特征提取模块，用于根据所述跨纬度会话序列对应的流量特征，和所述多个单维度会话序列对应的流量特征，生成所述目标信息组对应的特征向量；

爬虫检测模块，用于基于目标网站下所有信息组对应的特征向量，训练所述目标网站对应的爬虫检测模型，通过所述爬虫检测模型对所述目标网站进行爬虫检测。

第三方面，提供了一种网络设备，所述网络设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如第一方面所述的检测爬虫请求的方法。

第四方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如第一方面所述的检测爬虫请求的方法。

本发明实施例提供的技术方案带来的有益效果是：

本发明实施例中，获取目标历史时段中目标网站的历史访问信息，将包含相同的主维度标识的历史访问信息划分至同一信息组；基于目标信息组下的历史访问信息，创建目标信息组下副维度标识对应的多个单维度会话序列，和主维度标识对应的跨纬度会话序列；根据跨纬度会话序列对应的流量特征，和多个单维度会话序列对应的流量特征，生成目标信息组对应的特征向量；基于目标网站下所有信息组对应的特征向量，训练目标网站对应的爬虫检测模型，通过爬虫检测模型对目标网站进行爬虫检测。这样，通过构建不同维度的会话序列，从整体上以跨会话的方式对访问请求进行分析，再利用机器学习技术，针对不同网站构建爬虫检测模型，可以更加直观便捷地发现爬虫请求的总体特征和发送规律，从而可以更加精确有效地检测出传统的爬虫请求和新型爬虫请求。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种检测爬虫请求的方法流程图；

图2是本发明实施例提供的一种检测爬虫请求的方法流程图；

图3是本发明实施例提供的一种检测爬虫请求的方法流程图；

图4是本发明实施例提供的一种检测爬虫请求的装置结构示意图；

图5是本发明实施例提供的一种网络设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

本发明实施例提供了一种检测爬虫请求的方法，该方法的执行主体可以是任意具备数据处理功能的网络设备，且可以基于机器学习技术创建并训练智能模型。其中，网络设备可以是任意网站的后台服务器，其可以根据网站的访问历史，创建用于爬虫检测的智能模型，然后再利用智能模型检测后续的爬虫请求。网络设备还可以是用于接收并转发网站访问请求的网络节点(如CDN集群中的节点服务器)，其可以根据访问请求的历史接收情况，训练出针对各个网站的爬虫检测模型，再利用爬虫检测模型检测爬虫请求。上述网络设备可以包括处理器、存储器和收发器，处理器可以用于进行下述流程中检测爬虫请求的处理，存储器可以用于存储下述处理过程中需要的数据以及产生的数据，收发器可以用于接收和发送下述处理过程中的相关数据。

下面将结合具体实施方式，对图1所示的处理流程进行详细的说明，内容可以如下：

步骤101，获取目标历史时段中目标网站的历史访问信息，将包含相同的主维度标识的历史访问信息划分至同一信息组。

其中，主维度标识可以是用户端对于网站的访问请求中携带的，可以用来标识不同用户端、区分不同访问请求的标识，具体可以是访问请求中的源IP地址、用户ID或设备指纹中的任一项，可以根据实际需要选定，当然本实施例还支持选取其它可行标识作为主维度标识的情况。

在实施中，在目标网站上线后，用户可以向网络设备发送针对目标网站的访问请求，以访问目标网站中任一网页。在接收到针对目标网站的访问请求后，网络设备可以对访问请求的七元组信息、指向的URL、访问时间、数据包大小等参数信息进行记录，生成目标网站的历史访问信息。之后，网络设备可以利用该历史访问信息训练生成目标网站对应的爬虫检测模型。具体的，网络设备可以获取目标历史时段中目标网站的历史访问信息，如获取前7天内的目标网站的历史访问信息，然后按照预先选定的主维度标识对所有历史访问信息进行分组，以将包含相同的主维度标识的历史访问信息划分到同一信息组。例如，主维度标识为源IP地址，网络设备则可以按照源IP地址对前7天内目标网站的历史访问信息进行分组，每个信息组由包含相同源IP地址的历史访问信息组成，不同信息组可以对应不同的源IP地址。值得一提的是，在目标网站上线的初期，由于不存在足够的历史访问信息来建立爬虫检测模型，网络设备则可以先采用传统的爬虫检测技术来对目标网站进行爬虫检测，直至基于历史访问信息建立爬虫检测模型。

步骤102，基于目标信息组下的历史访问信息，创建目标信息组下副维度标识对应的多个单维度会话序列，和主维度标识对应的跨纬度会话序列。

其中，副维度标识可以是用户端对于网站的访问请求中携带的，在主维度标识之外的，可以进一步用来标识不同用户端、区分不同访问请求的标识，可以为源IP地址、用户ID、设备指纹或浏览器标识中与主维度标识不同的一项或多项，具体可以根据实际需要选定，当然本实施例还支持选取其它可行标识作为副维度标识的情况。目标信息组为步骤101中对历史访问信息划分得到的任一信息组。

在实施中，网络设备按照主维度标识对历史访问信息进行分组后，可以在各个信息组中分别创建会话序列，该会话序列可以是由多组会话信息组成的有序集合，每组会话信息可以至少包含一次HTTP会话中的具体访问信息。以目标信息组为例，网络设备可以基于目标信息组下的历史访问信息，分别创建主维度标识对应的跨纬度会话序列，和副维度标识对应的多个单维度会话序列。具体的，网络设备可以以HTTP会话为粒度，将目标信息组下的历史访问信息分为多组会话信息。之后，一方面可以对多组会话信息进行有序排列，生成主维度标识对应的跨纬度会话序列；另一方面可以按照副维度标识A对多组会话信息进行划分，对具备副维度标识A的会话信息进行有序排列，生成副维度标识A对应的多个单维度会话序列；进一步的，还可以选取副维度标识B对多组会话信息重新进行划分，再对具备副维度标识B的会话信息进行有序排列，生成副维度标识B对应的多个单维度会话序列，从而可以依次生成所有副维度标识对应的多个单维度会话序列。此处，还可以同时选取2个副维度标识，对会话信息进行划分和排列，生成2个副维度标识共同对应的多个单维度会话序列。

例如，主维度标识为源IP地址，副维度标识为用户ID、浏览器标识和设备指纹，而信息组IP1下存在30组会话信息，可以将30组会话信息进行有序排列，生成信息组IP1下的跨纬度会话序列。若30组会话信息中包括“ID1、ID2、ID3”3个用户ID，则可以按用户ID对30组会话信息进行划分和排列，从而生成3个用户ID对应的单维度会话序列；之后，若30组会话信息中包括“MAC1、MAC2”2个设备指纹，则可以按设备指纹对30组会话信息进行划分和排列，从而生成2个设备指纹对应的单维度会话序列；接下来，若30组会话信息中包括“UA1、UA2、UA3、UA4”4个浏览器标识，则可以按浏览器标识对30组会话信息进行划分和排列，从而生成4个浏览器标识对应的单维度会话序列。

具体的，上述单维度会话序列的创建过程可以如下：对于目标信息组下的目标副维度标识，获取每个目标副维度标识信息对应的会话所包含的网页访问信息；按照访问时间对网页访问信息进行排列，生成每个目标副维度标识信息对应的单维度会话序列。

其中，目标副维度标识可以是预先选定的任一副维度标识，目标副维度标识信息则可以是目标副维度标识下的具体标识信息，例如，目标副维度标识为用户ID，目标副维度标识信息为“ID1：893***221”、“ID2：668***203”等。

在实施中，以目标信息组下的目标副维度标识为例，网络设备在创建目标副维度标识对应的多个单维度会话序列时，可以先从目标信息组下的历史访问信息中，提取出全部的目标副维度标识信息，然后筛选每个目标副维度标识信息对应的会话，再获取这些会话包含的全部网页访问信息。其中，网页访问信息可以至少包括网页的页面标识和访问时间。之后，网络设备可以按照访问时间的顺序对上述网页访问信息进行排列，从而生成每个目标副维度标识信息对应的单维度会话序列。可以定义S＝{s ₁，s ₂，s ₃，…，s _n}为目标信息组下的会话集合，元素s _i代表一次会话，

表示第i个会话内的第j次访问，

h为页面标识，t为访问时间。假设目标副维度标识信息对应的会话有：

其中，

则单维度会话序列可以为

具体的，上述跨维度会话序列的创建过程可以如下：按照访问时间对目标信息组所有会话包含的全部网页访问信息进行排列，生成主维度标识对应的跨纬度会话序列。

其中，网页访问信息可以至少包括网页的页面标识和访问时间。

在实施中，以目标信息组为例，网络设备在创建主维度标识对应的跨维度会话序列时，可以按照访问时间的顺序对目标信息组所有会话包含的全部网页访问信息进行排列，从而生成主维度标识对应的跨纬度会话序列。例如，基于上述单维度会话序列的处理，目标信息组针对目标副维度标识，总共存在“SP ₁，SP ₂，SP ₃”3个单维度会话序列，则可以将每个SP _i下的

按照访问时间进行排序，从而可以得到目标信息组下主维度标识对应的跨纬度会话序列。

步骤103，根据跨纬度会话序列对应的流量特征，和多个单维度会话序列对应的流量特征，生成目标信息组对应的特征向量。

在实施中，网络设备针对目标信息组创建了多个单维度会话序列和跨维度会话序列之后，可以计算每个会话序列的流量特征。此处的流量特征可以是预先设定的，用于表征各个会话序列包含的多组会话信息的特征，如可以是会话间隔时间、请求包大小、请求类型、请求包内容等特征。值得一提的是，对于跨维度会话序列，还可以检测其包含不同副维度标识对应的会话信息间的相似度。接下来，网络设备可以将计算得到的各个会话序列的流量特征进行整合拼接，从而生成目标信息组对应的特征向量。

可选的，可以根据会话中携带的不同网站属性，对会话序列进行打分，并将打分结果作为特征向量，相应的处理可以如下：获取目标网站的网站地图，基于网站地图建立目标网站的属性分数库；根据属性分数库分别对每个单维度会话序列和跨纬度会话序列进行打分，将打分结果设为目标信息组的特征向量。

其中，属性分数库记录有目标网站的不同网站属性的分数值，网站属性至少包括网页URL、网页referer和支持的所有浏览器标识(即UA)。

在实施中，网络设备可以获取目标网站的网站地图，然后根据网站地图记录目标网站中各个网页的出入度及跳转关系，以及目标网站所支持的所有浏览器标识，搭建属性分数库。此处网站地图可以是目标网站主动提供的，也可以是网络设备根据目标网站的历史访问信息自行创建的；由于网站的内容会持续更新，网络设备也可以对网站地图以及属性分数库进行定期更新。具体来讲，可以采用不同的打分机制对同一网站属性进行打分，之后再对不同打分机制得到的分数进行加权，以得到该网站属性的综合得分。例如存在三套打分机制，打分机制A是基于网络属性在该网站的出现频率来实现，打分机制B根据网络属性在所有动态页面中的出现频率来实现，打分机制C是由人工根据业务经验的对属性价值进行评估。例如，打分机制A可以存在针对“URL、UA、referer”三种网站属性的分数：a _url＝{(url ₁，a_score _url1)，(url ₂，a_score _url2)，(url ₃，a_score _url3)}，a _ua＝{(ua ₁，a_score _ua1)，(ua ₂，a_score _ua2)}，a _referer＝{(referer ₁，a_score _referer1)，(referer ₂，a_score _referer2)}；打分机制B可以存在针对“URL、UA”两种网站属性的分数：b _url＝{(url ₁，b_score _url1)，(url ₂，b_score _url2)}，b _ua＝{(ua ₁，b_score _url1)，(ua ₃，b_score _ua3)}；打分机制C或其它打分机制同理。针对每个网站属性的加权分数可以为：score_traget _i＝(a_score _{target_i}+ b_score _{target_i}+…+n_score _{target_i})/n。进而，网络设备可以根据属性分数库分别对每个会话进行打分，再基于会话得分对每个单维度会话序列和跨纬度会话序列进行打分，并可以计算每个会话序列中的最大分、最小分、平均分、加权分等，从而可以将打分结果设为目标信息组的特征向量。这样，通过打分机制多角度地评估会话与网站的关联性，并将会话得分作为爬虫请求的检测角度，可以更大概率总结出爬虫请求的规律，有效提高爬虫检测的准确性。

可选的，可以将用户访问目标网站时的人机交互信息也作为特征向量，相应的处理可以如下：基于单维度会话序列和跨纬度会话序列中的人机交互信息，生成目标信息组对应的特征向量。

在实施中，网络设备在接收到用户端发送的目标网站的访问请求后，可以在反馈消息中嵌入人机交互检测程序，该程序可以用于监测用户端是否存在鼠标移动、点击、按键等行为，并可以将检测结果上报给网络设备。这样，网络设备可以记录每次会话中产生的人机交互信息，并可以在创建单维度会话序列和跨纬度会话序列后，基于上述会话序列中包含的人机交互信息生成目标信息组对应的特征向量。此外，网络设备可以结合设备指纹，进一步判断探测到的人机交互信息是否包含伪造信息。这样，通过对人机交互信息进行探测，并从人机交互的角度判定爬虫请求，可以更加有效地识别出正常请求和爬虫请求，提高爬虫检测的准确性。

步骤104，基于目标网站下所有信息组对应的特征向量，训练目标网站对应的爬虫检测模型，通过爬虫检测模型对目标网站进行爬虫检测。

在实施中，网络设备可以按照步骤102和步骤103的处理，生成目标网站下所有信息组对应的特征向量。这样，网络设备可以基于这些特征向量，利用机器学习技术训练目标网站对应的爬虫检测模型。具体来说，网络设备可以采用有监督算法或者无监督算法来训练爬虫检测模型。在爬虫检测模型训练完成后，网络设备可以通过爬虫检测模型对目标网站进行爬虫检测，即在接收到的目标网站的所有访问请求中，识别出爬虫请求。进一步的，由于网站的内容时常发生变更，且网络爬虫的不断更新，故而需要对爬虫检测模型设置一定的有效期限。网络设备在使用爬虫检测模型进行爬虫检测时，可以先判断当前时刻是否处于爬虫检测模型的有效期限内，如果处于则可以继续检测，否则可以重新执行步骤101至步骤104的处理，以更新爬虫检测模型。

值得一提的是，当出现新上线的网站，或者需要对网站的爬虫检测模型进更新，再或者当发现爬虫检测模型的检测结果的正确率过低时，均可以触发执行上述步骤101至步骤104的处理。

可选的，利用爬虫检测模型进行爬虫检测的机制多种多样，如下给出了如图2和图3示出的两种可行的机制：

机制一：步骤201，周期性统计当前周期内出现的目标网站对应的主维度标识信息。

其中，主维度标识信息可以是主维度标识下的具体标识信息，例如，主维度标识为源IP地址，主维度标识信息则可以为“IP地址1：192.***.***.200”、“IP地址2：255.***.***.101”等。

在实施中，网络设备可以周期性地对当前周期内针对目标网站的历史访问信息进行分析，统计其中出现的所有主维度标识信息。举例来说，网络设备可以每10分钟进行一次统计，获取前10分钟内目标网站的历史访问信息中出现的所有源IP地址。

步骤202，针对每个主维度标识信息，基于预设时长内的包含主维度标识信息的全部历史访问信息，创建主维度标识信息对应的多个单维度会话序列和跨纬度会话序列。

本步骤的处理具体可以参考步骤102，其中预设时长可以是由技术人员预先设定的，并可以根据需求进行适当调整，如可以是6个小时、12个小时等。

步骤203，根据主维度标识信息对应的多个单维度会话序列和跨纬度会话序列的流量特征，生成主维度标识信息对应的特征向量。

本步骤的处理具体可以参考步骤103。

步骤204，将主维度标识信息对应的特征向量输入爬虫检测模型，根据模型输出内容判断主维度标识信息是否属于爬虫请求。

这样，周期性对访问请求批量进行检测，可以保证针对正常访问请求反馈的及时性，并且无需频繁执行爬虫检测处理，一定程度上可以降低设备的资源消耗。

机制二：步骤301，当接收到目标网站的访问请求时，获取访问请求的主维度标识信息。

在实施中，网络设备可以在接收到目标网站的访问请求后，就对该访问请求进行检测，即可以先获取访问请求的主维度标识信息。这样，若检测出访问请求为正常请求，则可以按照常规的响应机制对该访问请求进行响应；若检测出访问请求为爬虫请求，则可以对该爬虫请求进行标记，并丢弃该爬虫请求。

步骤302，基于预设时长内的包含主维度标识信息的全部历史访问信息，创建主维度标识信息对应的多个单维度会话序列和跨纬度会话序列。

步骤303，根据主维度标识信息对应的多个单维度会话序列和跨纬度会话序列的流量特征，生成主维度标识信息对应的特征向量。

本步骤的处理具体可以参考步骤103。

步骤304，将主维度标识信息对应的特征向量输入爬虫检测模型，根据模型输出内容判断访问请求是否属于爬虫请求。

这样，每接收到一个访问请求即进行检测，可以及时有效地识别出爬虫请求，避免网站内容被频繁的恶意爬取。

可选的，在接收到某个访问请求后，可以先通过比对维度标识信息的方式，简单地对其进行检测，相应的处理可以如下：若接收到的目标访问请求与已检测出的爬虫请求间所有维度标识信息的相似度大于预设阈值，则将目标访问请求标记为爬虫请求。

在实施中，网络设备每次检测出爬虫请求之后，均可以对该爬虫请求的所有维度标识信息进行记录。因此，网络设备在接收到目标访问请求之后，可以先获取目标访问请求的所有维度标识信息，然后将其与已检测出的爬虫请求的维度标识信息整体进行对比。若发现目标访问请求与某个爬虫请求间所有维度标识信息在整体上的相似度大于预设阈值，则可以直接认定目标访问请求为爬虫请求，而无需再利用爬虫检测模型对目标访问请求进行检测。这样，先利用比对所有维度标识信息的方式，对访问请求进行初步的检测，可以快捷简单地识别出部分爬虫请求，从而可以降低爬虫检测的工作量，节省设备资源。

可选的，在模型训练完成后，可以预先对爬虫检测模型的检测准确率进行验证，相应的处理可以如下：基于预设的爬虫特征素材库验证爬虫检测模型的检测准确率；若检测准确率低于预设阈值，则补充获取目标网站的新增历史访问信息；基于新增历史访问信息和历史访问信息，重新训练目标网站对应的爬虫检测模型。

在实施中，网络设备处可以预先设置有爬虫特征素材库，该爬虫特征素材库中可以包含大量已确定的爬虫请求的特征向量。网络设备在训练完成目标网站对应的爬虫检测模型后，可以基于该爬虫特征素材库，来验证目标网站对应的爬虫检测模型的检测准确率。如果检测准确率低于预设阈值，网络设备则可以补充获取目标网站的新增历史访问信息，该新增历史访问信息可以是除步骤101中模型训练时所获取的历史访问信息之外的、目标网站的历史访问信息，即：若在训练爬虫检测模型时获取了过去7天的历史访问信息，则新增历史访问信息可以是前第8天的历史访问信息。之后，网络设备可以基于新增历史访问信息和历史访问信息，以步骤101至步骤104的流程，重新训练目标网站对应的爬虫检测模型，直至爬虫检测模型的检测准确率达到预设阈值。这样，一方面，通过爬虫特征素材库对爬虫检测模型进行验证，可以有效保证爬虫检测模型的检测准确率；另一方面，补充获取历史访问信息，重新训练爬虫检测模型，可以使得模型更贴近目标网站的爬虫检测需求。

需要说明的是，鉴于爬虫请求有利于网站内容的推广，网络设备可以通过更改模型训练的方式，或者设置爬虫请求白名单的形式，以避免阻止爬虫检测模型对部分的爬虫请求进行检测。

基于相同的技术构思，本发明实施例还提供了一种检测爬虫请求的装置，如图4所示，所述装置包括：

信息获取模块401，用于获取目标历史时段中目标网站的历史访问信息，将包含相同的主维度标识的历史访问信息划分至同一信息组；

序列创建模块402，用于基于目标信息组下的历史访问信息，创建所述目标信息组下副维度标识对应的多个单维度会话序列，和所述主维度标识对应的跨纬度会话序列；

特征提取模块403，用于根据所述跨纬度会话序列对应的流量特征，和所述多个单维度会话序列对应的流量特征，生成所述目标信息组对应的特征向量；

爬虫检测模块404，用于基于目标网站下所有信息组对应的特征向量，训练所述目标网站对应的爬虫检测模型，通过所述爬虫检测模型对所述目标网站进行爬虫检测。

可选的，所述爬虫检测模块404，具体用于：

周期性统计当前周期内出现的所述目标网站对应的主维度标识信息；

针对每个主维度标识信息，基于预设时长内的包含所述主维度标识信息的全部历史访问信息，创建所述主维度标识信息对应的多个单维度会话序列和跨纬度会话序列；

根据所述主维度标识信息对应的多个单维度会话序列和跨纬度会话序列的流量特征，生成所述主维度标识信息对应的特征向量；

将所述主维度标识信息对应的特征向量输入所述爬虫检测模型，根据模型输出内容判断所述主维度标识信息是否属于爬虫请求。

可选的，所述爬虫检测模块404，具体用于：

当接收到目标网站的访问请求时，获取所述访问请求的主维度标识信息；

基于预设时长内的包含所述主维度标识信息的全部历史访问信息，创建所述主维度标识信息对应的多个单维度会话序列和跨纬度会话序列；

将所述主维度标识信息对应的特征向量输入所述爬虫检测模型，根据模型输出内容判断所述访问请求是否属于爬虫请求。

图5是本发明实施例提供的网络设备的结构示意图。该网络设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器522 (例如，一个或一个以上处理器)和存储器532，一个或一个以上存储应用程序542或数据544的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器532和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对网络设备500中的一系列指令操作。更进一步地，中央处理器522可以设置为与存储介质530通信，在网络设备500上执行存储介质530中的一系列指令操作。

网络设备500还可以包括一个或一个以上电源529，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口558，一个或一个以上键盘556，和/或，一个或一个以上操作系统541，例如Windows Server，Mac OS X，Unix，Linux，FreeBSD等等。

网络设备500可以包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行上述检测爬虫请求的指令。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

一种检测爬虫请求的方法，其特征在于，所述方法包括：

获取目标历史时段中目标网站的历史访问信息，将包含相同的主维度标识的历史访问信息划分至同一信息组；

基于目标信息组下的历史访问信息，创建所述目标信息组下副维度标识对应的多个单维度会话序列，和所述主维度标识对应的跨纬度会话序列；

根据所述跨纬度会话序列对应的流量特征，和所述多个单维度会话序列对应的流量特征，生成所述目标信息组对应的特征向量；

基于目标网站下所有信息组对应的特征向量，训练所述目标网站对应的爬虫检测模型，通过所述爬虫检测模型对所述目标网站进行爬虫检测。
根据权利要求1所述的方法，其特征在于，所述主维度标识为源IP地址、用户ID或设备指纹；所述副维度标识为源IP地址、用户ID、设备指纹或浏览器标识。
根据权利要求1所述的方法，其特征在于，所述创建所述目标信息组下副维度标识对应的多个单维度会话序列，包括：

对于所述目标信息组下的目标副维度标识，获取每个目标副维度标识信息对应的会话所包含的网页访问信息；

按照访问时间对所述网页访问信息进行排列，生成每个所述目标副维度标识信息对应的单维度会话序列。
根据权利要求1所述的方法，其特征在于，所述创建所述主维度标识对应的跨纬度会话序列，包括：

按照访问时间对所述目标信息组所有会话包含的全部网页访问信息进行排列，生成所述主维度标识对应的跨纬度会话序列。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取所述目标网站的网站地图，基于所述网站地图建立所述目标网站的属性分数库，其中，所述属性分数库记录有目标网站的不同网站属性的分数值，所述网站属性至少包括网页URL、网页referer和支持的所有浏览器标识；

根据所述属性分数库分别对每个所述单维度会话序列和所述跨纬度会话序列进行打分，将所述打分结果设为目标信息组的特征向量。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

基于所述单维度会话序列和所述跨纬度会话序列中的人机交互信息，生成所述目标信息组对应的特征向量。
根据权利要求1所述的方法，其特征在于，所述通过所述爬虫检测模型对所述目标网站进行爬虫检测，包括：

周期性统计当前周期内出现的所述目标网站对应的主维度标识信息；

针对每个主维度标识信息，基于预设时长内的包含所述主维度标识信息的全部历史访问信息，创建所述主维度标识信息对应的多个单维度会话序列和跨纬度会话序列；

根据所述主维度标识信息对应的多个单维度会话序列和跨纬度会话序列的流量特征，生成所述主维度标识信息对应的特征向量；

将所述主维度标识信息对应的特征向量输入所述爬虫检测模型，根据模型输出内容判断所述主维度标识信息是否属于爬虫请求。
根据权利要求1所述的方法，其特征在于，所述通过所述爬虫检测模型对所述目标网站进行爬虫检测，包括：

当接收到目标网站的访问请求时，获取所述访问请求的主维度标识信息；

基于预设时长内的包含所述主维度标识信息的全部历史访问信息，创建所述主维度标识信息对应的多个单维度会话序列和跨纬度会话序列；

根据所述主维度标识信息对应的多个单维度会话序列和跨纬度会话序列的流量特征，生成所述主维度标识信息对应的特征向量；

将所述主维度标识信息对应的特征向量输入所述爬虫检测模型，根据模型输出内容判断所述访问请求是否属于爬虫请求。
根据权利要求7或8所述的方法，其特征在于，所述方法还包括：

若接收到的目标访问请求与已检测出的爬虫请求间所有维度标识信息的相似度大于预设阈值，则将所述目标访问请求标记为爬虫请求。
根据权利要求1所述的方法，其特征在于，所述建立所述目标网站对应的爬虫检测模型之后，还包括：

基于预设的爬虫特征素材库验证所述爬虫检测模型的检测准确率；

若所述检测准确率低于预设阈值，则补充获取所述目标网站的新增历史访问信息；

基于所述新增历史访问信息和所述历史访问信息，重新训练所述目标网站对应的爬虫检测模型。
一种检测爬虫请求的装置，其特征在于，所述装置包括：

信息获取模块，用于获取目标历史时段中目标网站的历史访问信息，将包含相同的主维度标识的历史访问信息划分至同一信息组；

序列创建模块，用于基于目标信息组下的历史访问信息，创建所述目标信息组下副维度标识对应的多个单维度会话序列，和所述主维度标识对应的跨纬度会话序列；

特征提取模块，用于根据所述跨纬度会话序列对应的流量特征，和所述多个单维度会话序列对应的流量特征，生成所述目标信息组对应的特征向量；

爬虫检测模块，用于基于目标网站下所有信息组对应的特征向量，训练所述目标网站对应的爬虫检测模型，通过所述爬虫检测模型对所述目标网站进行爬虫检测。
根据权利要求11所述的装置，其特征在于，所述爬虫检测模块，具体用于：

周期性统计当前周期内出现的所述目标网站对应的主维度标识信息；

针对每个主维度标识信息，基于预设时长内的包含所述主维度标识信息的全部历史访问信息，创建所述主维度标识信息对应的多个单维度会话序列和跨纬度会话序列；

根据所述主维度标识信息对应的多个单维度会话序列和跨纬度会话序列的流量特征，生成所述主维度标识信息对应的特征向量；

将所述主维度标识信息对应的特征向量输入所述爬虫检测模型，根据模型输出内容判断所述主维度标识信息是否属于爬虫请求。
根据权利要求11所述的装置，其特征在于，所述爬虫检测模块，具体用于：

当接收到目标网站的访问请求时，获取所述访问请求的主维度标识信息；

基于预设时长内的包含所述主维度标识信息的全部历史访问信息，创建所述主维度标识信息对应的多个单维度会话序列和跨纬度会话序列；

根据所述主维度标识信息对应的多个单维度会话序列和跨纬度会话序列的流量特征，生成所述主维度标识信息对应的特征向量；

将所述主维度标识信息对应的特征向量输入所述爬虫检测模型，根据模型输出内容判断所述访问请求是否属于爬虫请求。
一种网络设备，其特征在于，所述网络设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如下方法：

获取目标历史时段中目标网站的历史访问信息，将包含相同的主维度标识的历史访问信息划分至同一信息组；

基于目标信息组下的历史访问信息，创建所述目标信息组下副维度标识对应的多个单维度会话序列，和所述主维度标识对应的跨纬度会话序列；

根据所述跨纬度会话序列对应的流量特征，和所述多个单维度会话序列对应的流量特征，生成所述目标信息组对应的特征向量；

基于目标网站下所有信息组对应的特征向量，训练所述目标网站对应的爬虫检测模型，通过所述爬虫检测模型对所述目标网站进行爬虫检测。
一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如下方法：

获取目标历史时段中目标网站的历史访问信息，将包含相同的主维度标识的历史访问信息划分至同一信息组；

基于目标信息组下的历史访问信息，创建所述目标信息组下副维度标识对应的多个单维度会话序列，和所述主维度标识对应的跨纬度会话序列；

根据所述跨纬度会话序列对应的流量特征，和所述多个单维度会话序列对应的流量特征，生成所述目标信息组对应的特征向量；

基于目标网站下所有信息组对应的特征向量，训练所述目标网站对应的爬虫检测模型，通过所述爬虫检测模型对所述目标网站进行爬虫检测。