WO2020006908A1

WO2020006908A1 - 一种url去重方法及装置

Info

Publication number: WO2020006908A1
Application number: PCT/CN2018/108708
Authority: WO
Inventors: 熊庆昌
Original assignee: 平安科技（深圳）有限公司
Priority date: 2018-07-05
Filing date: 2018-09-29
Publication date: 2020-01-09
Also published as: CN108984703B; CN108984703A

Abstract

本申请实施例公开了一种URL去重方法及装置，其中方法包括：对原始URL进行第一泛化处理，并判断该第一URL是否属于第一重复集合，若该第一URL不属于该第一重复集合，则对该第一URL进行第一减参处理得到第二URL，并判断该第二URL是否属于第二重复集合，若该第二URL属于第二重复集合，检测该第二URL在该第二重复集合中的第一出现次数是否小于或等于第一阈值，若是，则下载该原始URL，若否，则丢弃该原始URL，即不下载。采用本申请实施例，可以减少下载到重复URL的数量，从而可以提高WEB漏洞扫描系统的扫描效率。

Description

一种URL去重方法及装置

本申请要求于2018年7月5日提交中国专利局、申请号为2018107353055、申请名称为“一种统一资源定位符URL去重方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及互联网技术领域，尤其涉及一种URL去重方法及装置。

背景技术

目前业内很多万维网(world wide web，WEB)漏洞扫描系统，都有自己的统一资源定位符(uniform resource locator，URL)爬虫，也有自己的URL去重方法。URL爬虫指爬虫系统首先从互联网页面中精心选择一部分网页，以这些网页的链接地址作为种子URL，将这些种子放入待抓取URL队列中，爬虫从待抓取URL队列依次读取，并将URL通过域名系统(domain name system，DNS)解析，把链接地址转换为网站服务器对应的IP地址。然后将其和网页相对路径名称交给网页下载器，网页下载器负责页面的下载。对于下载到本地的网页，一方面将其存储到页面库中，等待建立索引等后续处理；另一方面将下载网页的URL放入已抓取队列中，这个队列记录了爬虫系统已经下载过的网页URL，以避免系统的重复抓取。

URL去重指的是将重复抓取的URL去除，避免多次抓取同一网页。例如，对每一个给定的URL，将其映射到某个物理地址上。当需要检测该给定URL是否重复时，只需判断该给定URL对应的物理地址是否已经存在，若存在，说明已经被下载过，则放弃下载，否则将该给定URL放入待抓取队列，等待下载。由于一个网站中的很多URL仅是参数部分不同，而这些仅是参数部分不同的URL很大可能已经被下载过，但这些URL经过映射后得到的物理地址是不相同的，这时仅通过URL对应的物理地址来判断这些URL是否重复将导致爬取到很多重复的URL，影响WEB漏洞扫描系统的扫描效率。

发明内容

本申请实施例提供一种URL去重方法及装置，可减少下载到重复URL的数量，从而可以提高WEB漏洞扫描系统的扫描效率。

第一方面，本申请实施例提供了一种URL去重方法，该方法包括：

对原始URL进行第一泛化处理，得到第一URL，该第一泛化处理用于将该原始URL中相同类型的多个连续字符替换为单个字符；

若该第一URL不属于第一重复集合，对该第一URL进行第一减参处理得到第二URL，该第一减参处理用于减少该第一URL中的参数变量，该第一重复集合包括历史记录中已下载的URL经过该第一泛化处理后得到的URL；

若该第二URL属于第二重复集合，检测该第二URL在该第二重复集合中的第一出现次数是否小于或等于第一阈值，若是，则下载该原始URL，该第二重复集合包括历史记录中已下载的URL经过该第一减参处理后得到的URL。

第二方面，本申请实施例提供了一种URL去重装置，该装置包括：

第一泛化处理模块，用于对原始URL进行第一泛化处理，得到第一URL，该第一泛化处理用于将该原始URL中相同类型的多个连续字符替换为单个字符；

第一减参处理模块，用于当该第一URL不属于第一重复集合时，对该第一URL进行第一减参处理得到第二URL，该第一减参处理用于减少该第一URL中的参数变量，该第一重复集合包括历史记录中已下载的URL经过该第一泛化处理后得到的URL；

下载模块，用于当该第二URL属于第二重复集合时，检测该第二URL在该第二重复集合中的第一出现次数是否小于或等于第一阈值，若是，则下载该原始URL，该第二重复集合包括历史记录中已下载的URL经过该第一减参处理后得到的URL。

第三方面，本申请实施例提供了一种终端，包括处理器和存储器，该处理器和存储器相互连接，其中，该存储器用于存储支持终端执行上述方法的计算机程序，该计算机程序包括程序指令，该处理器被配置用于调用该程序指令，执行上述第一方面的URL去重方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，该计算机存储介质存储有计算机程序，该计算机程序包括程序指令，该程序指令当被处理器执行时使该处理器执行上述第一方面的URL去重方法。

本申请实施例通过对URL进行分级去重，可减少下载到重复URL的数量，从而可以提高WEB漏洞扫描系统的扫描效率。

附图说明

图1是本申请实施例提供的URL去重方法的一示意流程图；

图2是第一重复集合和出现次数的关系示意图；

图3是本申请实施例提供的URL去重方法的另一示意流程图；

图4是第二重复集合和出现次数的关系示意图；

图5是本申请实施例提供的URL去重装置的一示意性框图；

图6是本申请实施例提供的终端的一示意性框图。

具体实施方式

在介绍本申请实施例之前，先介绍URL的数据结构。一个URL的结构通常为“协议://服务器名称(IP地址)/路径/文件名？参数”，例如：http://xxx.pingan.com/cgi-bin/index1.html？param1＝value1&param2＝value2，其中param1＝value1&param2＝value2表示这个URL的参数部分，URL的参数部分由参数名和参数值组成，param1和param2表示参数名，value1和value2表示参数值，参数值可为数字、字母(包括大小写)、特殊字符(指除数字、字母之外的字符)和/或它们的组合。问号“？”字符用于分隔URL中的文件名部分和参数部分，逻辑与“&”字符表示URL中指定的参数间的分隔符。

下面将结合图1至图6，对本申请实施例提供的URL去重方法及装置进行说明。

参见图1，是本申请实施例提供的URL去重方法的一示意流程图，如图1所示，该URL去重方法可包括步骤：

S101，对原始URL进行第一泛化处理，得到第一URL。

在一些可行的实施方式中，终端可以将原始URL的参数部分按照参数名进行排序，并对该原始URL参数部分的参数值进行第一泛化处理，得到第一URL。该第一泛化处理用于将该原始URL中相同类型的多个连续字符替换为单个字符。例如，可将连续的数字如145替换为数字1，连续的字母如FK、aj、dgA都替换为字母A，特殊字符都替换为符号％。其中，特殊字符指除数字和字母外的字符，如问号“？”、感叹号“！”等。

例如，终端爬取到的原始URL为http://xxx.pingan.com/cgi-bin/index1.html？param1＝v167！ABD&param2＝val_ue2，终端可以将原始URL的参数部分按照参数名进行排序，保证原始URL的参数部分顺序排列，再将原始URL的参数值中连续的数字替换为预设的单个数字“1”、连续的字母替换为预设的单个字母“A”、特殊字符替换为预设的单个特殊字符“％”，得到第一URL为http://xxx.pingan.com/cgi-bin/index1.html？param1＝v1％A&param2＝A％A2。

S102，若第一URL不属于第一重复集合，对第一URL进行第一减参处理得到第二URL。

在一些可行的实施方式中，终端可以检测第一重复集合中是否存在与上述第一URL相同的URL，若不存在，说明上述第一URL不属于第一重复集合，则可以对该第一URL的参数部分进行第一减参处理得到第二URL。该第一减参处理用于减少该第一URL参数部分的参数变量，如去掉第一URL参数部分的参数值保留参数名。若存在，说明该第一URL属于该第一重复集合，则终端可以将该第一URL在该第一重复集合中的出现次数加1，得到该第一URL在该第一重复集合中的第二出现次数，并可以判断该第二出现次数是否小于或等于第二阈值，若是(即该第二出现次数小于或等于该第二阈值)，则下载上述原始URL，若否(即该第二出现次数大于该第二阈值)，则丢弃上述原始URL，即不下载该原始URL。终端通过判断经过第一泛化处理得到的第一URL是否已经被下载过，从而判断出是否需要下载原始URL，可以过滤掉参数值中具有相同数据格式的原始URL，减少了下载到重复URL的数量，又因为只减少了原始URL参数值中的部分变量，所以保证了去重的准确率。其中，第一重复集合可以包括历史记录中已下载的URL经过上述第一泛化处理后得到的URL，即已下载的URL对应的第一URL。该已下载的URL可以为未经第一泛化处理的URL。

例如，假设第一重复集合包括URL4、URL6以及URL7，第一URL为URL1：http://xxx.pingan.com/cgi-bin/index1.html？param1＝v1％A&param2＝A％A2，终端检测第一重复集合URL4、URL6以及URL7中是否存在与URL1相同的URL，即第一重复集合中是否存在URL1，因为第一重复集合中不存在URL1，说明URL1不属于第一重复集合，终端将URL1参数部分的参数值去掉保留参数名，得到第二URL为：http://xxx.pingan.com/cgi-bin/index1.html？param1&param2。

在一些可行的实施方式中，终端可以利用消息-摘要算法5(message-digest algorithm 5，MD5)计算上述第一URL的哈希(hash)值，并可以检测该第一URL的hash值是否存在该第一重复集合中，若不存在，说明上述第一URL的hash值不属于该第一重复集合，则可以对该第一URL的参数部分进行第一减参处理得到第二URL。该第一减参处理用于减少该第一URL参数部分的参数变量，如去掉第一URL参数部分的参数值只保留参数名。若存在，说明上述第一URL的hash值属于该第一重复集合，可以将该第一URL的hash 值在该第一重复集合中的出现次数加1，得到该第一URL的hash值在该第一重复集合中的第二出现次数，并可以判断该第二出现次数是否小于或等于第二阈值，若是(即该第二出现次数小于或等于该第二阈值)，则下载上述原始URL，若否(即该第二出现次数大于该第二阈值)，则丢弃上述原始URL，即不下载该原始URL。其中，第一重复集合可以包括历史记录中已下载的URL经过上述第一泛化处理后得到的URL，再经过MD5计算后得到的hash值，即已下载的URL对应的第一URL的hash值。该第二阈值为大于0的整数。因为hash函数是将任意大小的数据转换成特定大小的数据的函数，且已下载集合(第一重复集合)中存储的是URL的hash值，而不是完整的URL，可以减少存储空间(因为完整URL字符较多，而hash值是固定大小的数据)，同时在检测第一URL是否属于第一重复集合时，可以提高处理效率。

例如，如图2所示，是第一重复集合和出现次数的关系示意图，其中，假设第二阈值为10，第一重复集合中的元素为01、03以及06，第一URL为URL1，终端计算URL1的hash值为03，终端检测到URL1的hash值03在第一重复集合中，说明URL1属于第一重复集合，终端将URL1的hash值03在第一重复集合中的出现次数3加1，得到URL1的hash值03在第一重复集合中的第二出现次数4。终端判断第二出现次数4小于第二阈值10，下载原始URL。

在一些可行的实施方式中，终端在检测出该第一URL不属于该第一重复集合时，终端可以将该第一URL加入该第一重复集合形成新的第一重复集合，即更新该第一重复集合，同时可以将该第一URL在该第一重复集合中的出现次数置为1，并可以对该第一URL进行第一减参处理得到第二URL。终端在下载上述原始URL或丢弃上述原始URL之后，终端利用最新的第一重复集合检测下一个原始URL是否被下载过。终端通过不断更新第一重复集合，可以更准确地过滤掉重复的URL，并且可以进一步提高扫描效率。例如，第一重复集合包括URL4、URL6以及URL7，第一URL为URL1，此时，URL1不属于第一重复集合，终端可以将该URL1加入第一重复集合，此时更新后的第一重复集合包括URL1、URL4、URL6以及URL7。同时，终端也可以将URL1在第一重复集合中的出现次数也置为1。

在一些可行的实施方式中，若上述原始URL为某个网站中爬取到的第一个URL，那么第一重复集合可以为空(因为此时没有已下载的URL)。

S103，若第二URL属于第二重复集合，检测第二URL在第二重复集合中的第一出现次数是否小于或等于第一阈值，若是，则下载原始URL。

在一些可行的实施方式中，终端可以检测第二重复集合中是否存在与上述第二URL相同的URL，若存在，说明该第二URL属于该第二重复集合，则可以将该第二URL在该第二重复集合中的出现次数加1，得到该第二URL在该第二重复集合中的第一出现次数，并可以检测该第一出现次数是否小于或等于第一阈值，若是(即该第一出现次数小于或等于该第一阈值)，则下载上述原始URL，若否(即第一出现次数大于该第一阈值)，则丢弃上述原始URL，即不下载该原始URL。若终端检测到该第二重复集合中不存在该第二URL，说明该第二URL不属于该第二重复集合，则可以直接下载上述原始URL。其中，第二重复集合可以包括历史记录中已下载的URL经过上述第一减参处理后得到的URL，即已下载的URL对应的第二URL。该已下载的URL可以为未经第一减参处理的URL。终端通过判断经过第一减参处理得到的第二URL是否已经被下载过，从而判断出是否需要下载原始URL，可以过滤掉参数值不相同的原始URL，进一步减少了下载到重复URL的数量，在保证准确率的同时提高了扫描效率。需要说明的是，该第一阈值小于或等于上述第二阈值，该第一阈值可以为大于0的整数。因为第一泛化处理仅是减少了原始URL的参数值中的变量，此时第一URL中的变量还较多，过滤掉的URL就少，下载的URL就较多，第一URL在第一重复集合中出现的次数就多。因此第一阈值小于第二阈值可以保证未过滤掉的URL，经过第一减参处理后可以被过滤掉，达到分级去重的目的。

在一些可行的实施方式中，终端可以利用MD5计算上述第二URL的哈希(hash)值，并可以检测该第二URL的hash值是否存在该第二重复集合中，若存在，说明上述第二URL的hash值属于该第二重复集合，可以将该第二URL的hash值在该第二重复集合中的出现次数加1，得到该第二URL的hash值在该第二重复集合中的第一出现次数，并可以判断该第一出现次数是否小于或等于第一阈值，若是(即该第一出现次数小于或等于该第一阈值)，则下载上述原始URL，若否(即该第一出现次数大于该第一阈值)，则丢弃上述原始URL，不下载。若不存在，说明上述第二URL的hash值不属于该第二重复集合，则可以下载上述原始URL。其中，第二重复集合可以包括历史记录中已下载的原始URL经过上述第一减参处理后得到的URL，再经过MD5计算后得到的hash值，即已下载的原始URL对应的第二URL的hash值。因为hash函数是将任意大小的数据转换成特定大小的数据的函数，且已下载集合(第二重复集合)中存储的是URL的hash值，而不是完整的URL，可以进一步减少存储空间，同时在检测第二URL是否属于第二重复集合时，可以进一步提高处理效率。

在一些可行的实施方式中，终端在检测出该第二URL不属于该第二重复集合时，终端可以将该第二URL加入该第二重复集合形成新的第二重复集合，即更新该第二重复集合，同时可以将该第二URL在该第二重复集合中的出现次数置为1，并可以下载上述原始URL。终端在下载上述原始URL或丢弃上述原始URL之后，终端利用最新的第二重复集合检测下一个原始URL是否被下载过。终端通过不断更新第二重复集合，可以更准确地过滤掉重复的URL，并且可以进一步提高扫描效率。

在一些可行的实施方式中，若上述原始URL为某个网站中爬取到的第一个URL，那么第二重复集合可以为空(因为此时没有已下载的URL)。

本申请实施例通过对原始URL进行第一泛化处理，并判断该第一URL是否属于第一重复集合，若该第一URL不属于该第一重复集合，则对该第一URL进行第一减参处理得到第二URL，并判断该第二URL是否属于第二重复集合，若该第二URL属于第二重复集合，检测该第二URL在该第二重复集合中的第一出现次数是否小于或等于第一阈值，若是，则下载该原始URL，若否，则丢弃该原始URL，即不下载，可以减少下载到重复URL的数量，从而可以提高WEB漏洞扫描系统的扫描效率。

参见图3，是本申请实施例提供的URL去重方法的另一示意流程图。如图3所示，该URL去重方法可包括步骤：

S301，对原始URL进行第一泛化处理，得到第一URL。

S302，若第一URL不属于第一重复集合，对第一URL进行第一减参处理得到第二URL。

本申请实施例中上述步骤S301-步骤S302的实现方式可参考图1所示实施例的步骤S101-步骤S102所提供的实现方式，在此不再赘述。

S303，若第二URL属于第二重复集合，检测第二URL在第二重复集合中的第一出现次数是否小于或等于第一阈值，若是，则下载原始URL。

S304，若第二URL不属于第二重复集合，对第二URL进行第二减参处理得到第三URL。

在一些可行的实施方式中，终端可以检测第二重复集合中是否存在与上述第二URL相同的URL，若存在，说明该第二URL属于该第二重复集合，则可以将该第二URL在该第二重复集合中的出现次数加1，得到该第二URL在该第二重复集合中的第一出现次数，并可以检测该第一出现次数是否小于或等于第一阈值，若是(即该第一出现次数小于或等于该第一阈值)，则下载上述原始URL，若否(即第一出现次数大于该第一阈值)，则丢弃上述原始URL，即不下载该原始URL。若终端检测到该第二重复集合中不存在该第二URL，说明该第二URL不属于该第二重复集合，则可以对该第二URL进行第二减参处理得到第三URL。该第二减参处理用于减少第二URL中的参数变量，如去除该第二URL中的参数部分(包括参数值和参数名)。其中，第二重复集合可以包括历史记录中已下载的URL经过上述第一减参处理后得到的URL，即已下载的URL对应的第二URL。该已下载的URL可以为未经第一减参处理的URL。终端通过判断经过第一减参处理得到的第二URL是否已经被下载过，从而判断出是否需要下载原始URL，可以过滤掉参数值不相同的原始URL，进一步减少了下载到重复URL的数量，在保证准确率的同时提高了扫描效率。需要说明的是，该第一阈值小于或等于上述第二阈值，该第一阈值可以为大于0的整数。因为第一泛化处理仅是减少了原始URL的参数值中的变量，此时第一URL中的变量还较多，过滤掉的URL就少，下载的URL就较多，第一URL在第一重复集合中出现的次数就多。因此第一阈值小于第二阈值可以保证步骤S301-步骤S302未过滤掉的URL，经过第一减参处理后可以被过滤掉，达到分级去重的目的。

例如，如图4所示，是第二重复集合和出现次数的关系示意图，其中假设第一阈值为7，第二重复集合包括URL2和URL5，第一URL为URL2，终端检测到URL2在第二重复集合中，说明URL2属于第二重复集合，终端将URL2在第二重复集合中的出现次数1加1，得到URL2在第二重复集合中的第一出现次数2，终端判断第一出现次数2小于第一阈值7，则下载原始URL。

在一些可行的实施方式中，终端可以利用MD5计算上述第二URL的哈希(hash)值，并可以检测该第二URL的hash值是否存在该第二重复集合中，若存在，说明上述第二URL的hash值属于该第二重复集合，可以将该第二URL的hash值在该第二重复集合中的出现次数加1，得到该第二URL的hash值在该第二重复集合中的第一出现次数，并可以判断该第一出现次数是否小于或等于第一阈值，若是(即该第一出现次数小于或等于该第一阈值)，则下载上述原始URL，若否(即该第一出现次数大于该第一阈值)，则丢弃上述原始URL，即不下载该原始URL。若不存在，说明上述第二URL的hash值不属于该第二重复集合，则可以对该第二URL进行第二减参处理得到第三URL。该第二减参处理用于减少第二URL 中的参数变量，如去除该第二URL中的参数部分(包括参数值和参数名)。其中，第二重复集合可以包括历史记录中已下载的URL经过上述第一减参处理后得到的URL，再经过MD5计算后得到的hash值，即已下载的URL对应的第二URL的hash值。因为hash函数是将任意大小的数据转换成特定大小的数据的函数，且已下载集合(第二重复集合)中存储的是URL的hash值，而不是完整的URL，可以进一步减少存储空间，同时在检测第二URL是否属于第二重复集合时，可以进一步提高处理效率。

例如，假设第二重复集合中的元素为07和09，第二URL为URL2：http://xxx.pingan.com/cgi-bin/index1.html？param1&param2，终端计算URL2的hash值为04，终端检测到URL2的hash值04不在第二重复集合中，说明URL2不属于第二重复集合，终端去掉URL2中的参数部分得到第三URL，第三URL为：http://xxx.pingan.com/cgi-bin/index1.html。

在一些可行的实施方式中，终端在检测出该第二URL不属于该第二重复集合时，终端可以将该第二URL加入该第二重复集合形成新的第二重复集合，即更新该第二重复集合，同时可以将该第二URL在该第二重复集合中的出现次数置为1，并可以对该第二URL进行第二减参处理得到第三URL。终端在下载上述原始URL或丢弃上述原始URL之后，终端利用最新的第二重复集合检测下一个原始URL是否被下载过。终端通过不断更新第二重复集合，可以更准确地过滤掉重复的URL，并且可以进一步提高扫描效率。

S305，若第三URL属于第三重复集合，检测第三URL在第三重复集合中的第三出现次数是否小于或等于第三阈值，若是，则下载原始URL。

S306，若第三URL不属于第三重复集合，对第三URL进行第二泛化处理得到第四URL。

在一些可行的实施方式中，终端可以检测第三重复集合中是否存在与上述第三URL相同的URL，若存在，说明该第三URL属于该第三重复集合，则可以将该第三URL在该第三重复集合中的出现次数加1，得到该第三URL在该第三重复集合中的第三出现次数，并可以检测该第三出现次数是否小于或等于第三阈值，若是(即该第三出现次数小于或等于该第三阈值)，则下载上述原始URL，若否(即第三出现次数大于该第三阈值)，则丢弃上述原始URL，即不下载该原始URL。若终端检测到该第三重复集合中不存在该第三URL，说明该第三URL不属于该第三重复集合，则可以对该第三URL的文件名部分进行第二泛化处理得到第四URL。该第二泛化处理用于将第三URL文件名部分中目标类型的至少一个字符替换为目标字符，如将该第三URL的文件名部分中的一个或多个数字替换为预设的单个数字“1”。其中，第三重复集合可以包括历史记录中已下载的URL经过上述第二减参处理后得到的URL，即已下载的URL对应的第三URL。该已下载的URL可以为未经第二减参处理的URL。终端通过判断经过第二减参处理得到的第三URL是否已经被下载过，从而判断出是否需要下载原始URL，可以过滤掉参数部分不相同的原始URL，即减少了原始URL中的变量，丢弃的原始URL多，进而减少了下载到重复URL的数量，在保证准确率的同时进一步提高了扫描效率。需要说明的是，该第三阈值可以小于或等于上述第一阈值，上述第一阈值小于或等于上述第二阈值，该第三阈值可以为大于0的整数。因为第一减参处理仅是减少了原始URL参数部分的变量，此时第二URL中的变量还较多，过滤掉的URL就较少，下载的URL就较多，第二URL在第二重复集合中出现的次数就较多。因此第三阈值小于第一阈值可以保证步骤S303-步骤S304未过滤掉的URL，经过第二减参处理后可以被过滤掉，达到分级去重的目的。

在一些可行的实施方式中，终端可以利用MD5计算上述第三URL的哈希(hash)值，并可以检测该第三URL的hash值是否存在该第三重复集合中，若存在，说明上述第三URL的hash值属于该第三重复集合，可以将该第三URL的hash值在该第三重复集合中的出现次数加1，得到该第三URL的hash值在该第三重复集合中的第三出现次数，并可以判断该第三出现次数是否小于或等于第三阈值，若是(即该第三出现次数小于或等于该第三阈值)，则下载上述原始URL，若否(即该第三出现次数大于该第三阈值)，则丢弃上述原始URL，即不下载该原始URL。若不存在，说明上述第三URL的hash值不属于该第三重复集合，则可以对该第三URL进行第二泛化处理得到第四URL。该第二泛化处理用于将第三URL文件名部分中目标类型的至少一个字符替换为目标字符，如将该第三URL的文件名部分中的一个或多个数字替换为预设的单个数字“1”。其中，第三重复集合可以包括历史记录中已下载的URL经过上述第二减参处理后得到的URL，再经过MD5计算后得到的hash值，即已下载的URL对应的第三URL的hash值。因为hash函数是将任意大小的数据转换成特定大小的数据的函数，且已下载集合(第三重复集合)中存储的是URL的hash值，而不是完整的URL，可以进一步减少存储空间，同时在检测第三URL是否属于第三重复集合时，可以进一步提高处理效率。

在一些可行的实施方式中，终端在检测出该第三URL不属于该第三重复集合时，终端可以将该第三URL加入该第三重复集合形成新的第三重复集合，即更新该第三重复集合，同时可以将该第三URL在该第三重复集合中的出现次数置为1，并可以对该第三URL进行第二泛化处理得到第四URL。终端在下载上述原始URL或丢弃上述原始URL之后，终端利用最新的第三重复集合检测下一个原始URL是否被下载过。终端通过不断更新第三重复集合，可以更准确地分级过滤掉重复的URL，并且可以进一步提高扫描效率。

在一些可行的实施方式中，若上述原始URL为某个网站中爬取到的第一个URL，那么第三重复集合可以为空(因为此时没有已下载的URL)。

S307，若第四URL属于第四重复集合，检测第四URL在第四重复集合中的第四出现次数是否小于或等于第四阈值，若是，则下载原始URL。

S308，若第四URL不属于第四重复集合，下载原始URL。

在一些可行的实施方式中，终端可以检测第四重复集合中是否存在与上述第四URL相同的URL，若存在，说明该第四URL属于该第四重复集合，则可以将该第四URL在该第四重复集合中的出现次数加1，得到该第四URL在该第四重复集合中的第四出现次数，并可以检测该第四出现次数是否小于或等于第四阈值，若是(即该第四出现次数小于或等于该第四阈值)，则下载上述原始URL，若否(即第四出现次数大于该第四阈值)，则丢弃上述原始URL，即不下载该原始URL。若终端检测到该第四重复集合中不存在该第四URL，说明该第四URL不属于该第四重复集合，则可以直接下载上述原始URL。其中，第四重复集合可以包括历史记录中已下载的URL经过上述第一、第二减参处理以及上述第二泛化处理后得到的URL，即已下载的URL对应的第四URL。终端通过判断经过第二泛化处理得到的第四URL是否已经被下载过，从而判断出是否需要下载原始URL，可以过滤掉文件名部分不同的原始URL，减少了原始URL中的变量，进而丢弃的原始URL多，下载到的重复URL少，在保证准确率的同时进一步提高了扫描效率。需要说明的是，该第四阈值小于或等于上述第三阈值，上述第三阈值可以小于或等于上述第一阈值，上述第一阈值小于或等于上述第二阈值，该第四阈值为大于或等于0的整数。第四阈值小于第三阈值可以保证步骤S305-步骤S306未过滤掉的URL，经过第二泛化处理后可以被过滤掉，达到分级去重的目的。

在一些可行的实施方式中，终端可以利用MD5计算上述第四URL的哈希(hash)值，并可以检测该第四URL的hash值是否存在该第四重复集合中，若存在，说明上述第四URL的hash值属于该第四重复集合，可以将该第四URL的hash值在该第四重复集合中的出现次数加1，得到该第四URL的hash值在该第四重复集合中的第四出现次数，并可以判断该第四出现次数是否小于或等于第四阈值，若是(即该第四出现次数小于或等于该第四阈值)，则下载上述原始URL，若否(即该第四出现次数大于该第四阈值)，则丢弃上述原始URL，即不下载该原始URL。若不存在，说明上述第四URL的hash值不属于该第四重复集合，则可以直接下载上述原始URL。其中，第四重复集合可以包括历史记录中已下载的URL经过上述第一、第二减参处理以及上述第二泛化处理后得到的URL，再经过MD5计算后得到的hash值，即已下载的URL对应的第四URL的hash值。因为hash函数是将任意大小的数据转换成特定大小的数据的函数，且已下载集合(第四重复集合)中存储的是URL的hash值，而不是完整的URL，可以进一步减少存储空间，同时在检测第四URL是否属于第四重复集合时，可以进一步提高处理效率。

在一些可行的实施方式中，终端在检测出该第四URL不属于该第四重复集合时，终端可以将该第四URL加入该第四重复集合形成新的第四重复集合，即更新该第四重复集合，同时可以将第四URL在第四重复集合中的出现次数置为1，可以下载上述原始URL。终端在下载上述原始URL或丢弃上述原始URL之后，终端利用最新的第四重复集合检测下一个原始URL是否被下载过。终端通过不断更新第四重复集合，可以更准确地过滤掉重复的URL，并且可以进一步提高扫描效率。

在一些可行的实施方式中，若上述原始URL为某个网站中爬取到的第一个URL，那么第四重复集合可以为空(因为此时没有已下载的URL)。

本申请实施例通过对原始URL进行分级去重，逐级减少原始URL中的变量，并根据逐级减少变量后的URL判断原始URL是否已下载，若在该级就判断出原始URL已下载，则丢弃原始URL，若该级就确定原始URL未下载，则下载原始URL，若该级无法判断出原始URL是否已下载，则进入下一级判断，直至判断出原始URL已下载或未下载。通过更细化的分级去重方案，不仅能够减少下载到重复URL的数量，提高WEB漏洞扫描系统的扫描效率，还可以提高去重的准确率。

参见图5，是本申请实施例提供的URL去重装置的一示意性框图。本申请实施例提供的URL去重装置包括：

第一泛化处理模块10，用于对原始URL进行第一泛化处理，得到第一URL，该第一泛化处理用于将该原始URL中相同类型的多个连续字符替换为单个字符；

第一减参处理模块20，用于当该第一URL不属于第一重复集合时，对该第一URL进行第一减参处理得到第二URL，该第一减参处理用于减少该第一URL中的参数变量，该第一重复集合包括历史记录中已下载的URL经过该第一泛化处理后得到的URL；

下载模块30，用于当该第二URL属于第二重复集合时，检测该第二URL在该第二重复集合中的第一出现次数是否小于或等于第一阈值，若是，则下载该原始URL，该第二重复集合包括历史记录中已下载的URL经过该第一减参处理后得到的URL。

在一些可行的实施方式中，该装置还包括获取模块40，该获取模块40，用于当该第一URL属于该第一重复集合时，获取该第一URL在该第一重复集合中的第二出现次数；上述下载模块30，还用于当该第二出现次数小于或等于第二阈值时，下载该原始URL。其中，该第二阈值大于或等于该第一阈值。

在一些可行的实施方式中，上述第一减参处理模块20包括计算单元201、检测单元202以及第一减参处理单元203。该计算单元201，用于计算该第一URL的哈希值；该检测单元202，用于检测该第一URL的哈希值是否属于第一重复集合；该第一减参处理单元203，用于当该第一URL的哈希值不属于该第一重复集合时，对该第一URL进行该第一减参处理得到第二URL。其中，该第一重复集合包括历史记录中已下载的URL经过该第一泛化处理后得到的URL的哈希值。

在一些可行的实施方式中，该装置还包括第二减参处理模块50。该第二减参处理模块50，用于当该第二URL不属于该第二重复集合时，对该第二URL进行第二减参处理得到第三URL；上述下载模块30，还用于当该第三URL属于第三重复集合时，检测该第三URL在该第三重复集合中的第三出现次数是否小于或等于第三阈值，若是，则下载该原始URL。其中，该第三重复集合包括历史记录中已下载的URL经过该第二减参处理后得到的URL，该第二减参处理用于减少该第二URL中的参数变量，该第三阈值小于或等于该第一阈值。

在一些可行的实施方式中，该装置还包括第二泛化处理模块60。该第二泛化处理模块60，用于当该第三URL不属于该第三重复集合时，对该第三URL进行第二泛化处理得到第四URL；上述下载模块30，还用于当该第四URL属于第四重复集合时，检测该第四URL在该第四重复集合中的第四出现次数是否小于或等于第四阈值，若是，则下载该原始URL。其中，该第四重复集合包括历史记录中已下载的URL经过该第一、该第二减参处理以及该第二泛化处理后得到的URL，该第二泛化处理用于将该第三URL中目标类型的至少一个字符替换为目标字符，该第四阈值小于或等于该第三阈值。

在一些可行的实施方式中，上述下载模块30还用于当该第四URL不属于该第四重复集合时，下载该原始URL。

在一些可行的实施方式中，上述下载模块30还用于在该第二URL属于第二重复集合之后，检测该第二URL在该第二重复集合中的第一出现次数是否小于或等于第一阈值之前，将该第二URL在该第二重复集合中的出现次数加1得到第一出现次数。

具体实现中，上述URL去重装置可通过上述各个模块执行上述图1或者图3所提供的实现方式中各个步骤所提供的实现方式，实现上述各实施例中所实现的功能，具体可参见上述图1或图3所示的方法实施例中各个步骤提供的相应描述，在此不再赘述。

在本申请实施例中，URL去重装置可通过对原始URL进行分级去重，逐级减少原始URL中的变量，并根据逐级减少变量后的URL判断原始URL是否已下载，若在该级就判断出原始URL已下载，则丢弃原始URL，若该级就确定原始URL未下载，则下载原始URL，若该级无法判断出原始URL是否已下载，则进入下一级判断，直至判断出原始URL已下载或未下载。通过更细化的分级去重方案，不仅能够减少下载到重复URL的数量，提高WEB漏洞扫描系统的扫描效率，还可以提高去重的准确率。

参见图6，是本申请实施例提供的终端的一示意性框图。如图6所示，本实施例中的终端可以包括：一个或多个处理器601和存储器602。上述处理器601和存储器602通过总线603连接。存储器602用于存储计算机程序，所述计算机程序包括程序指令，处理器601用于执行存储器602存储的程序指令。其中，处理器601被配置用于调用该程序指令执行：

应当理解，在一些可行的实施方式中，所称处理器601可以是中央处理单元(central processing unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现成可编程门阵列(field-programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

该存储器602可以包括只读存储器和随机存取存储器，并向处理器601提供指令和数据。存储器602的一部分还可以包括非易失性随机存取存储器。例如，存储器602还可以存储设备类型的信息。

具体实现中，本申请实施例中所描述的处理器601可执行本申请实施例提供的URL去重方法中所描述的实现方式，也可执行本申请实施例所描述的URL去重装置的实现方式，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序包括程序指令，该程序指令被处理器执行时实现图1或图3所示的URL去重方法，具体细节请参照图1或图3所示实施例的描述，在此不再赘述。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

一种URL去重方法，其特征在于，包括：

对原始URL进行第一泛化处理，得到第一URL，所述第一泛化处理用于将所述原始URL中相同类型的多个连续字符替换为单个字符；

若所述第一URL不属于第一重复集合，对所述第一URL进行第一减参处理得到第二URL，所述第一减参处理用于减少所述第一URL中的参数变量，所述第一重复集合包括历史记录中已下载的URL经过所述第一泛化处理后得到的URL；

若所述第二URL属于第二重复集合，检测所述第二URL在所述第二重复集合中的第一出现次数是否小于或等于第一阈值，若所述第一出现次数小于或等于所述第一阈值，则下载所述原始URL，所述第二重复集合包括历史记录中已下载的URL经过所述第一减参处理后得到的URL。
根据权利要求1所述的方法，其特征在于，所述方法，还包括：

若所述第一URL属于所述第一重复集合，获取所述第一URL在所述第一重复集合中的第二出现次数；

若所述第二出现次数小于或等于第二阈值，下载所述原始URL；

其中，所述第二阈值大于或等于所述第一阈值。
根据权利要求1所述的方法，其特征在于，所述若所述第一URL不属于第一重复集合，对所述第一URL进行第一减参处理得到第二URL，包括：

计算所述第一URL的哈希值；

检测所述第一URL的哈希值是否属于第一重复集合，所述第一重复集合包括历史记录中已下载的URL经过所述第一泛化处理后得到的URL的哈希值；

若所述第一URL的哈希值不属于所述第一重复集合，对所述第一URL进行所述第一减参处理得到第二URL。
根据权利要求1-3任意一项所述的方法，其特征在于，所述方法，还包括：

若所述第二URL不属于所述第二重复集合，对所述第二URL进行第二减参处理得到第三URL，所述第二减参处理用于减少所述第二URL中的参数变量；

若所述第三URL属于第三重复集合，检测所述第三URL在所述第三重复集合中的第三出现次数是否小于或等于第三阈值，若所述第三出现次数小于或等于所述第三阈值，则下载所述原始URL，所述第三重复集合包括历史记录中已下载的URL经过所述第二减参处理后得到的URL；

其中，所述第三阈值小于或等于所述第一阈值。
根据权利要求4所述的方法，其特征在于，所述方法，还包括：

若所述第三URL不属于所述第三重复集合，对所述第三URL进行第二泛化处理得到第四URL，所述第二泛化处理用于将所述第三URL中目标类型的至少一个字符替换为目标字符；

若所述第四URL属于第四重复集合，检测所述第四URL在所述第四重复集合中的第四出现次数是否小于或等于第四阈值，若所述第四出现次数小于或等于所述第四阈值，则下载所述原始URL，所述第四重复集合包括历史记录中已下载的URL经过所述第一、所述第二减参处理以及所述第二泛化处理后得到的URL；

其中，所述第四阈值小于或等于所述第三阈值。
根据权利要求5所述的方法，其特征在于，所述方法，还包括：

若所述第四URL不属于所述第四重复集合，下载所述原始URL。
根据权利要求1-6任意一项所述的方法，其特征在于，所述在所述第二URL属于第二重复集合之后，检测所述第二URL在所述第二重复集合中的第一出现次数是否小于或等于第一阈值之前，所述方法还包括：

将所述第二URL在所述第二重复集合中的出现次数加1得到第一出现次数。
一种URL去重装置，其特征在于，包括：

第一泛化处理模块，用于对原始URL进行第一泛化处理，得到第一URL，所述第一泛化处理用于将所述原始URL中相同类型的多个连续字符替换为单个字符；

第一减参处理模块，用于当所述第一URL不属于第一重复集合时，对所述第一URL进行第一减参处理得到第二URL，所述第一减参处理用于减少所述第一URL中的参数变量，所述第一重复集合包括历史记录中已下载的URL经过所述第一泛化处理后得到的URL；

下载模块，用于当所述第二URL属于第二重复集合时，检测所述第二URL在所述第二重复集合中的第一出现次数是否小于或等于第一阈值，若所述第一出现次数小于或等于所述第一阈值，则下载所述原始URL，所述第二重复集合包括历史记录中已下载的URL经过所述第一减参处理后得到的URL。
根据权利要求8所述的装置，其特征在于，所述装置还包括：

获取模块，用于当所述第一URL属于所述第一重复集合时，获取所述第一URL在所述第一重复集合中的第二出现次数；

所述下载模块，还用于当所述第二出现次数小于或等于第二阈值时，下载所述原始URL；

其中，所述第二阈值大于或等于所述第一阈值。
根据权利要求8所述的装置，其特征在于，所述第一减参处理模块包括：

计算单元，用于计算所述第一URL的哈希值；

检测单元，用于检测所述第一URL的哈希值是否属于第一重复集合，所述第一重复集合包括历史记录中已下载的URL经过所述第一泛化处理后得到的URL的哈希值；

第一减参处理单元，用于当所述第一URL的哈希值不属于所述第一重复集合时，对所述第一URL进行所述第一减参处理得到第二URL。
根据权利要求8-18任意一项所述的装置，其特征在于，所述装置还包括：

第二减参处理模块，用于当所述第二URL不属于所述第二重复集合时，对所述第二URL进行第二减参处理得到第三URL，所述第二减参处理用于减少所述第二URL中的参数变量；

上述下载模块，还用于当所述第三URL属于第三重复集合时，检测所述第三URL在所述第三重复集合中的第三出现次数是否小于或等于第三阈值，若所述第三出现次数小于或等于所述第三阈值，则下载所述原始URL，所述第三重复集合包括历史记录中已下载的URL经过所述第二减参处理后得到的URL；

其中，所述第三阈值小于或等于所述第一阈值。
根据权利要求11所述的装置，其特征在于，所述装置还包括：

第二泛化处理模块，用于当所述第三URL不属于所述第三重复集合时，对所述第三URL进行第二泛化处理得到第四URL，所述第二泛化处理用于将所述第三URL中目标类型的至少一个字符替换为目标字符；

上述下载模块，还用于当所述第四URL属于第四重复集合时，检测所述第四URL在所述第四重复集合中的第四出现次数是否小于或等于第四阈值，若所述第四出现次数小于或等于所述第四阈值，则下载所述原始URL，所述第四重复集合包括历史记录中已下载的URL经过所述第一、所述第二减参处理以及所述第二泛化处理后得到的URL；

其中，所述第四阈值小于或等于所述第三阈值。
根据权利要求12所述的装置，其特征在于，所述下载模块还用于当所述第四URL不属于所述第四重复集合时，下载所述原始URL。
根据权利要求8-13任意一项所述的装置，其特征在于，所述下载模块还用于将所述第二URL在所述第二重复集合中的出现次数加1得到第一出现次数。
一种终端，其特征在于，包括处理器和存储器，所述处理器和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行：

对原始URL进行第一泛化处理，得到第一URL，所述第一泛化处理用于将所述原始URL中相同类型的多个连续字符替换为单个字符；

若所述第一URL不属于第一重复集合，对所述第一URL进行第一减参处理得到第二URL，所述第一减参处理用于减少所述第一URL中的参数变量，所述第一重复集合包括历史记录中已下载的URL经过所述第一泛化处理后得到的URL；

若所述第二URL属于第二重复集合，检测所述第二URL在所述第二重复集合中的第一出现次数是否小于或等于第一阈值，若所述第一出现次数小于或等于所述第一阈值，则下载所述原始URL，所述第二重复集合包括历史记录中已下载的URL经过所述第一减参处理后得到的URL。
根据权利要求15所述的终端，其特征在于，所述处理器还用于：

若所述第一URL属于所述第一重复集合，获取所述第一URL在所述第一重复集合中的第二出现次数；

若所述第二出现次数小于或等于第二阈值，下载所述原始URL；

其中，所述第二阈值大于或等于所述第一阈值。
根据权利要求15所述的终端，其特征在于，所述处理器具体用于：

计算所述第一URL的哈希值；

检测所述第一URL的哈希值是否属于第一重复集合，所述第一重复集合包括历史记录中已下载的URL经过所述第一泛化处理后得到的URL的哈希值；

若所述第一URL的哈希值不属于所述第一重复集合，对所述第一URL进行所述第一减参处理得到第二URL。
根据权利要求15-17任意一项所述的终端，其特征在于，所述处理器还用于：

若所述第二URL不属于所述第二重复集合，对所述第二URL进行第二减参处理得到第三URL，所述第二减参处理用于减少所述第二URL中的参数变量；

若所述第三URL属于第三重复集合，检测所述第三URL在所述第三重复集合中的第三出现次数是否小于或等于第三阈值，若所述第三出现次数小于或等于所述第三阈值，则下载所述原始URL，所述第三重复集合包括历史记录中已下载的URL经过所述第二减参处理后得到的URL；

其中，所述第三阈值小于或等于所述第一阈值。
根据权利要求18所述的终端，其特征在于，所述处理器还用于：

若所述第三URL不属于所述第三重复集合，对所述第三URL进行第二泛化处理得到第四URL，所述第二泛化处理用于将所述第三URL中目标类型的至少一个字符替换为目标字符；

若所述第四URL属于第四重复集合，检测所述第四URL在所述第四重复集合中的第四出现次数是否小于或等于第四阈值，若所述第四出现次数小于或等于所述第四阈值，则下载所述原始URL，所述第四重复集合包括历史记录中已下载的URL经过所述第一、所述第二减参处理以及所述第二泛化处理后得到的URL；

其中，所述第四阈值小于或等于所述第三阈值。
一种计算机可读存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的方法。