WO2012031460A1

WO2012031460A1 - 一种网站扫描设备和方法

Info

Publication number: WO2012031460A1
Application number: PCT/CN2011/001526
Authority: WO
Inventors: 周大; 王晓明; 吕明; 蒋辉; 刘光旭; 卢小海; 李钠; 卢梁; 曾菁菁
Original assignee: 北京神州绿盟信息安全科技股份有限公司
Priority date: 2010-09-09
Filing date: 2011-09-08
Publication date: 2012-03-15
Also published as: CN102404281A; JP5572763B2; US10491618B2; US20130227640A1; CN102404281B; JP2013537986A

Description

一种网站扫描设备和方法技术领域

本发明涉及计算机网络安全领域，尤其涉及对网站进行远程扫描以确定网站是否存在漏洞的网站扫描设备和方法。背景技术

为了判断网站是否存在诸如 CGI漏洞、 SQL注入漏洞、跨站脚本漏洞等各种漏洞，需要从网站外部，即远程对网站进行漏洞扫描，以确定网站是否存在这些漏洞。

现在互联网上的大量网站基于一些已知网络（ WEB )应用而构造，例如可以基于 Discuz! , phpwind或者动网论坛等已知网络应用构造网站的论坛系统，以及基于 WordPress 等网络应用来构造网站的博客系统。这些已知的 WEB应用程序已经被发现存在过一些已知的 CGI漏洞，如 Discuz!论坛存在过绕过全局变量防 ^(卸漏洞， Discuz!论坛的 manyou 插件存在过 SQL注入漏洞， WordPress存在过绕过口令保护漏洞等。由于已知网络应用的应用范围非常广泛，因此，针对这些网络应用的漏洞研究也非常广泛，但是对这些已知网络引用的漏洞进行修复的方法能够及时出现。因此，这些已知的网络应用程序逐步变成比较成熟的产品，除了已经在网上被公开的漏洞之外，存在其他漏洞可能性变得非常之小。

常规的网站漏洞扫描方法是依次遍历网站上的所有页面，对每个页面都会调用爬虫程序来获取页面内容进行分析，并针对页面进行全方位的漏洞扫描。

当使用常规的网站漏洞扫描方法对那些基于已知网络应用构造的网站进行扫描时，扫描出漏洞的可能性比较小，相反反而会为此消耗大量的时间和带宽，甚至可能会因为扫描程序的问题，而造成漏洞的误报，引起客户不必要的担忧。

因此，需要一种新的网站扫描设备和方法，其可以考虑网站所采用的已知网络应用而减少不必要的漏洞扫描处理过程，从而节省扫描时间和所占用的网络带宽，以提高网站扫描的效率。发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的网站扫描系统和网站扫描方法。

根据本发明的一个方面，提供了一种网站扫描设备，包括：策略分析装置，判断网站中的链接是否属于网站中的已识别的网络应用，如果所述链接属于已识别的网络应用，则不对所述链接进行漏洞扫描；爬虫装置，获取所述链接所指向的链接内容；网络应用识别装置，基于所述链接及链接内容来判断所述链接是否属于已知网络应用，并在所述链接属于已知网络应用时，将所述已知网络应用确定为所述网站中的已识别网络应用；全面扫描装置，接收被所述网络应用识别装置判断为不属于已知网络应用的链接，并对所述链接进行全面的漏洞扫描；以及已知网络应用漏洞检测装置，接收所述网络应用识别装置确定的已识别网络应用，根据所述已识别网络应用的已知漏洞对所述网站进行漏洞检测，以确定所述网站是否存在所述已识别网络应用的已知漏洞。

可选地，在根据本发明的网站扫描设备中，网络应用识别装置包括：规则生成部件，用于根据已知网络应用的特征生成规则集合；规则匹配引擎，用于获取所述链接及链接内容，提取所述链接及链接内容的特征，根据所述链接及链接内容的特征判断所述规则集合中的规则之一是否被匹配了，将与所述匹配规则相对应的已知网络应用确定为是所述链接所属的已知网络应用。此外，已知网络应用的特征包括下列特征中的一个或者多个：特定页面及所述特定页面中的特定标识；特定页面及所述特定页面的全部内容； HTTP响应字段；以及特定链接。

根据本发明的另一个方面，提供了一种网站扫描方法，包括步骤：由策略分析装置来判断网站中的链接是否属于网站中的已识别的网络应用；如果所述链接属于已识别的网络应用，则不对所述链接进行漏洞扫描，如果所述链接不属于已识别的网络应用，则由爬虫装置来获取所述链接指向的链接内容；由网络应用识别装置基于所述链接及链接内容来判断所述链接是否属于已知网络应用；如果所述链接属于已知网络应用，则将所述已知网络应用确定为所述网站中的已识别网络应用，并且由已知网络应用漏洞检测装置根据所述已识别网络应用的已知漏洞对所述网站进行漏洞检测，以确定所述网站是否存在所述已识别网络应用的已知漏洞；如果所述链接不属于已知网络应用，则由全面扫描装置对所述链接进行全面的漏洞扫描。

利用根据本发明的网站扫描设备和方法，当识别出目标网站所采用的已知网络应用时，对于所识别出的已知网络应用的相应目录下的所有页面，不需要进行扫描，而是仅仅需要检查该已知网络应用已经被公布的漏洞即可，这样可以极大地提高扫描效率。此外，对于所识别出的已知网络应用，不需要用爬虫装置进行页面内容爬取就可以直接得到该相应目录的文件结构，这也可以减少页面爬取所占用的时间的带宽。

另外，由于根据本发明的网站扫描设备和方法可以及时更新已知网络应用新发现的漏洞和漏洞修复方式，因此，当利用 #居本文明的网站扫描设备和方法识别出网站所采用的已知网络应用时，可以及时发现网站所具有的相应漏洞并提供漏洞修复建议。

进一步，由于不再对所识别的已知网络应用的相应目录下的文件进行全面扫描，能减少因扫描方案不完善以及网络环境的复杂性而引起的对于这些目录下文件的各种漏洞的误报。附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图 1 示意性地示出了根据本发明实施例的网站扫描设备 100的框图；

图 2示意性地示出了网站扫描设备 100中的网络应用识别装置 140 的框图；

图 3示意性地示出了针对 Discuz!网络应用的特征实例；

图 4示意性地示出了根据本发明实施例的网络扫描方法 400的流程图；

图 5示意性地示出了网络扫描方法 400 中的网络应用识别方法的流程图；以及

图 6示意性地示出了用于执行根据本发明的方法的服务器的框图；以及

图 7 示意性地示出了用于保持或者携带实现根据本发明的方法的程序代码的存储单元。具体实施例

下面结合附图和具体的实施方式对本发明作进一步的描述。

图 1 示意性地示出了根据本发明实施例的网站扫描设备 100的框图。如图 1所示，网站扫描设备 100包括策略分析装置 110、爬虫装置 120、网络应用识别装置 130、全面扫描装置 140和已知网络应用漏洞检测装置 150。

策略分析装置 110接收目标网站中的待处理链接，并基于已识别出的、目标网站所采用的已知网络应用列表，确定该待处理链接是否属于某个已知网络应用。在对目标网站进行扫描的过程中，可以识别出目标网站所采用的已知网络应用（其数量可以是任意的，甚至没有采用任何已知网络应用），这些已知网络应用可以可选地存储在已识别网络应用存储装置 160 中。每种已知网络应用均具有自身特定的文件目录结构，并且这些目录结构可以与网络应用相关联地存储。通过比较待处理链接的地址和目标网站所采用的已知网络应用的文件目录结构，可以判断出待处理链接是否属于某个已知网络应用。举例而言，如果已识别出的某个网络应用具有目录结构 http://www.example.eom/a/,贝¹ J地址为 http :// www. example/a/b .php 待处理链接由于处于该网络应用的目录结构之下，而被判断为属于该已识别出的网络应用。

如果目标网站没有任何已识别出的已知网络应用或者未发现该待处理链接属于已识别出的已知网络应用，则策略分析装置 110 将该待处理链接发送到爬虫装置 120 进行进一步处理，否则，策略分析装置 110 停止对该待处理链接的处理，并且获取下一个待处理链接进行处理。

爬虫装置 120从策略分析装置 110接收不属于已识别出的网络应用的链接，获取与该链接相对应的网络内容。爬虫装置 120 可以采用本领域所常用的网络爬虫等方法获取链接所对应的网络内容。当然所有可以获取链接对应的网络内容的方法都在本发明的保护范围之内。此外，爬虫装置 120可以对所获取的网络内容进行分析，提取其中所包含的进一步链接，并且可以将这些链接作为下一步要处理的链接而存储到网络链接存储装置 130中。网络链接存储装置 130中可以存储待处理链接列表，而且策略分析装置 110可以从网络链接存储装置 130 中获取列表中的待处理链接进行处理。

另外，爬虫装置 120还可以进一步获取与所获取的网络内容相关的进一步网络内容。具体而言，一个网络链接所对应的网络内容如网页中可能包括了对外部 js代码、 ess格式文件等之类的进一步引用，而这些诸如 js代码或者 ess格式文件之类的内容可以认为是该网页相关的进一步网络内容。在判断某个链接是否属于已知网络应用时，也可能需要用到这些相关的进一步内容，因此爬虫装置 120可以获取这些内容作为与待处理链接相对应的网络内容的相关联内容。

爬虫装置 120将待处理的链接以及该链接的网络内容（可选地，还包括与该网络内容相关联的内容）发送到网络应用识别装置 140。网络应用识别装置 140据此（可选地，可以参考其中存储了已知网络应用特征的已知网络应用特征存储装置 150 )判断目标网站是否采用了某个已知应用。如果目标网站采用了某个已知应用，则将有关该已知网络应用的信息发送到已知网络应用漏洞检测装置 160进行进一步处理，否则将该链接及其网络内容发送到全面扫描装置 170进行全面的漏洞扫描。此外，网络应用识别装置 140 可以将所识别出的已知网络应用及其相关信息（如 URL等）存储到已识别网络应用存储装置 180中，以便可以由策略分析装置 110使用来判断链接是否属于已识别的已知网络应用。在下文中将会结合附图 2详细描述网络应用识别装置 140 的特定实施例，但是应当理解，本发明不局限于该特定实施例，所有可以根据链接及其内容来判断出该链接所属的网络应用的网络应用识别装置都在本发明的保护范围之内。

应当注意的是，在网络应用识别装置 140根据待处理链接及其内容进行已知网络应用识别的过程中，可能还需要与爬虫装置 120进行交互以获取进一步的链接及其内容。

全面扫描装置 170从网络应用识别装置 140接收待处理链接以及可选的相对应网络内容，对该链接及其相对应网络内容进行全面的漏洞扫描，例如针对跨站脚本攻击漏洞（XSS ) 、 SQL 注入漏洞、 CGI 漏洞等的扫描。全面扫描装置 170 可以采用本领域任何漏洞扫描技术且不超出本发明的保护范围。

已知网络应用漏洞检测装置 160从网络应用识别装置 140接收所识别出的已知网络应用，并根据所识别出的已知网络应用的已知漏洞来对目标网站的该已知网络应用进行漏洞扫描，以确定该目标网站的已知网络应用是否已经针对已知漏洞进行了修复。可选地，已知网络应用的已知漏洞可以与已知网络应用特征相关联地存储在已知网络应用特征存储装置 150中。

应当注意地是，在本发明中所提及的已知网络应用并未涉及其版本，但是在实践中，已知网络应用通常具有多个版本，而且每个版本具有特定的特征和不同的已知漏洞。因此，上文所提及的已知网络应用还可以包括其版本信息，即可以将不同版本的网络应用看成是不同的网络应用。为此，可以将版本号与网络应用特征、网络应用漏洞等相关联地存储在已知网络应用特征存储装置 150中。

图 2 示意性地示出了根据本发明一个实施例的网站扫描设备 100 中的网络应用识别装置 140。如图 2所示，网络应用识别装置 140包括规则生成部件 141、规则匹配引擎 143以及结果输出部件 145。

规则生成部件 141根据已知网络应用的特征生成规则集 147。根据本发明的一个实施例，已知网络应用的特征可以存储在已知网络应用特征存储装置 150 中，规则生成部件 141 可以从已知网络应用特征存储装置 150中获取各种已知网络应用的特征并据此生成规则集 147。根据本发明的一个实施例，一个已知网络应用可以至少具有如下特征之

1、某个特定页面以及该特定页面中的特定标识，很多网络应用会在某些特定页面中嵌入特定的标识，例如 Discuz! 论坛网络应用中的页面 index.php会包括下列特定字符串：

2、某个特定页面以及该特定页面的全部内容，很多已知网络应用包含一些固定的文件，如 .css，.js,.ini等文件，因此这些文件的整体内容可以作为网络应用的识别标志。根据本发明的一个实施例，可以根据这些固定文件的整体内容的 MD5值来确定网络应用。例如已知网络应用 joomla 版本 1.5.15的固件文件 /language/en-GB/en-GB.ini的 MD5值为 449d7bb356fcefal343d72d203297438。

3、 HTTP响应字段：某些已知网络应用程序的响应头是其特有的，如 set-cookie响应字段中的值，因此可以将该特有的响应字段作为标识网络应用的一种方式。

4、特定链接：某些已知网络应用中必须存在特定的网络链接 ( U L ) , 因此可以根据是否存在特定链接来标识特定网络应用。

5、 robots.txt , 一些网站的 robots .txt文件中会设置一些关于网站所使用的网络应用的信息，因此也可以根据该文件的内容来获得一些网络应用的信息。

才艮据本发明的一个实施例，已知网络应用的特征可以 XML格式存储在已知网络应用特征存储装置 150 中。图 3 示出了适用于 phpnuke 网络应用的 XML文件，从该文件中可以看出，针对 phpnuk网络应用，存在三个子规则，具体为：

第一个子规则为在特定网络页面 index.php中存在特定内容，即与

第二个子规则为在特定网络页面 user.php 中存在特定内容，即与 <meta name="generator" content="(PHP-Nuke.*|.*http://phpnuke.org)"> 相匹配的特定内容，同样该子规则中也利用了正则表达式。

第三个子规则为存在某个特定页面 themes/Freezebeta/style/style.css以及该特定页面的全部内容，其中该页面的全部内容的 MD5值为 415acd896960884ada364d508e7c8ae9。

此外，还可以通过特定网络页面 index.php 中的 " <META NAME="GENERATOR"

CONTENT="PHP-Nuke[ ]*(?P<version>\d+\.\d+).*">，，来确定该网络应用的版本。

应当注意的是，虽然上面给出了有关网络应用特征的一些特定示例，但是已知网络应用的特征并不局限于此，本领域技术人员可以根据本发明所给出的启示很容易想到其他的网络应用特征。

根据本发明的一个实施例，每个网络应用具有一个或者多个网络应用特征，因此规则集 147具有对应的结构，即规则集 147 包括与每个网络应用相对应的规则 148^ 1482，...148_n 等，而每个规则 148^ 1482，...148_n具有一个或者多个与该网络应用的网络应用特征相对应的子规则 149 149₂， ...149_m等。

规则匹配引擎 143 获取待处理的链接及与该链接相对应的网络内容，提取该待处理链接及链接内容中的特征，随后参考规则集 147，并判断所提取的待处理链接及链接内容中的特征是否与规则集中的某个规则相匹配。当某个规则中的所有子规则都被匹配了时，则认为该规则被匹配了，并确定该链接属于与该规则相对应的网络应用，即目标网站中存在该网络应用。相反，如果确定待处理链接未与规则集 1 17 中的任何规则相匹配，则认为待处理链接不属于任何已知网络应用。随后，经由结果输出部件 145输出匹配结果。

应当注意的是，如上所述，一个已知网络应用可以具有多个子规贝 |J , 而且各个子规则可能涉及不同的链接（即网络页面），因此，在规则匹配引擎 143 判断所提取的待处理链接及链接内容中的特征是否与规则集中的某个规则相匹配时，爬虫装置 120 获取链接，规则匹配引擎 143对爬虫装置 120获取的链接进行子规则的匹配时，如果待处理链接与某个规则中的所有子规则全部匹配成功，则认为待处理链接属于与该规则相对应的已知网络应用。

例如，参考图 3的示例，当规则匹配引擎 143 中存在 phpnuke的规则时，爬虫装置 120获取到链接 index.php及其内容时，规则匹配引擎 143判断 index.php是否与第一个子规则相匹配，若 index.php中存在特定内容： <meta name=" generator" content

"(PHP-Nuke.*|.*http：〃 phpnuke.org)" >以及 <META NAME="RATING" CONTENT=^MGENERAL">, 则第一个子规则匹配成功。爬虫装置 120 获取到链接 user.php及其内容时，规则匹配引擎 143判断 user.php及其内容是否与第二个子规则匹配，若 user.php 中存在特定内容： <meta name="generator" content=" (PHP-Nuke. *|.* http://phpnuke.org)">,贝¹ J第二个子规则匹配成功。爬虫装置 120 获取到链接： themes/Freezebeta/style/style.css时，规则匹配引擎 143判断是否与第三个规则相匹配，若其 MD5值为 415acd896960884ada364d508e7c8ae9 , 则第三个规则匹配成功。当然只要有一个子规则不匹配，则规则匹配引擎 143确定待处理链接不属于某个已知网络应用。

可选地，规则匹配引擎 143 在确定待处理链接属于已知网络应用时，将所识别出的已知网络应用以及该已知网络应用在目标网站上的目录位置（可以根据待处理链接以及已知网络应用的目录结构而确定出）存储到到已识别网络应用存储装置 180 中，以便以后可以由策略分析装置 1 10使用来判断链接是否属于已识别的已知网络应用。

根据本发明的网站扫描设备 100 通过在对目标网站上的文件（即链接）进行扫描之前判断该文件是否属于已知网络应用，并且仅仅针对不属于已知网络应用的文件进行全面扫描，而针对网站所采用的已知网络应用，网站扫描设备 100根据目前已知的已知网络应用的漏洞进行检查而不进行全面检查，从而减少了进行全面扫描的次数，从而大大增加了网站扫描设备 100的效率。

图 4示出了根据本发明实施例的网络扫描方法 400的流程图，该方法可以在如上所述的网站扫描设备 100 中执行。如图 4所示，网络扫描方法 400开始于步骤 S410 , 其中获取待处理链接。可选地，可以事先将待处理链接存储在网络链接存储装置 130的待处理链接列表中，并从待处理链接列表中获取一个待处理链接进行处理。随后，在步骤 S420 中，基于目标网站所采用的已知网络应用列表，判断该待处理链接是否属于某个已知网络应用。如上所述，可以通过比较待处理链接的地址和目标网站所釆用的已知网络应用的文件目录结构，可以判断出待处理链接是否属于某个已知网络应用。如果待处理链接属于某个已知网络应用，则不再对该待处理链接进行处理，并且继续到步骤 S430 以确定待处理链接列表中是否有还要处理的待处理链接。如果待处理链接不属于目标网站所釆用的已知网络应用，则方法进入步骤 S450。

' *在步骤 S450处由爬虫装置获取与待处理：接相对应的网络内容，对所获取的网络内容进行分析，提取其中所包含的进一步链接，并且可以将这些链接作为下一步要处理的链接而添加到待处理链接列表中。此外，如上所述，在步骤 S450中还可以获取与所获取的网络内容相关的进一步网络内容。随后，在步骤 S460处，参考已知网络应用特征来对待处理的链接以及该链接的网络内容（可选地，还包括与该网络内容相关联的内容）进行分析以判断该待处理链接是否属于已知网络应用，即目标网站中是否存在该已知网络应用。在下文中将参考图 5进一步描述步骤 S460 中的处理。如果该待处理链接不属于任何已知网络应用，则在步骤 S470 处，对该待处理链接及其网络内容进行全面的漏洞扫描。如果在步骤 S460处确定该待处理链接属于已知网络应用，即目标网站中存在该已知网络应用，则在步骤 S480处存储所识别出的已知网络应用及其相关信息（如 URL等） , 以便可以在以后判断待处理链接是否属于目标网站所采用的已知网络应用时使用。

应当注意的是，在步骤 S460中分析待处理链接以判断目标网站中是否存在已知网络应用时，还可能需要由爬虫装置荻取一些进一步的链接及其内容，以便于准确判断目标网站中是否存在该已知网络应用。

随后在步骤 S490中根据所识别出的已知网络应用的已知漏洞来对目标网站的该已知网络应用进行漏洞扫描，以确定该目标网站的已知网络应用是否已经针对已知漏洞进行了修复。

随后，在步骤 S430确定还有链接要处理时，在步骤 S440处，从待处理链接列表中获取下一个待处理链接，并且返回到步骤 S420进行重复处理。如果在步骤 S430 处确定没有链接要处理时，则结束方法 400。

图 5示出了根据本发明一个实施例的网络扫描方法 400 中的步骤 S460 , 即判断链接是否属于已知网络应用的方法的具体流程图。如图 5 所示，该方法始于步骤 S510, 其中对规则集进行初始化，即根据已知网络应用特征（根据本发明的实施例，这些已知网络应用特征可以事先以某种格式（例如 XML文件格式）存储在已知网络应用特征存储装置 150 )来生成规则集。规则集具有如上所述的格式。可选地，可以在进行图 5 所示的处理之前就完成对规则集的初始化而不必每次对链接进行判断时均进行初始化处理。

随后，在步骤 S520中获取规则集中的第一个规则作为当前规则，并且在步骤 S530中获取当前规则中与待处理链接及其内容相关的第一个子规则作为当前子规则。在步骤 S540中判断待处理链接及其相关网络内容是否与当前子规则相匹配。上文结合图 2 的描述中已经给出了有关已知网络特征以及规则和子规则的具体内容，这里不再进行赘述。当在步骤 S540处确定未匹配时，在步骤 S550处确定规则集中是否还有未进行匹配的规则。如果在步骤 S550处确定没有未进行匹配的规则，则在步骤 S560输出待处理链接不属于已知网络应用的结果并结束该方法；相反，如果在步骤 S550处确定还有未进行匹配的规则，则在步骤 S570处获取规则集中的下一个规则作为当前规则 , 并返回到步骤 S530进行下一步处理。

当在步骤 S540处确定待处理链接及其相关网络内容与当前子规则相匹配时，则在步骤 S580中确定当前规则中是否还有其他子规则。如果在步骤 S580确定还有未进行匹配的子规则，则在步骤 S590获取下一个子规则作为当前子规则，并返回到步骤 S540进行子规则匹配。应当注意的是，如上所述，一个已知网络应用可以具有多个子规则，而且各个子规则可能涉及不同的链接，因此，在步骤 S590所获取的下一个子规则可能涉及其它链接，基于此，步骤 S590还包括获取与该当前子规则相关联的链接及其内容的步骤。

相反，如果在步骤 S580确定当前规则中的所有子规则均与待处理链接及其相关内容匹配时，则确定待处理链接属于与当前规则相对应的已知网络应用，并在步骤 S595输出该已知网络应用。可选地，在步骤 S595还可以输出该已知网络应用在目标网站上的位置（例如，相对于目标网站根目录的文件位置），以便由上述步骤 S420以后使用来确定待处理链接是否属于目标网站所采用的已知网络应用。

应当注意的是，在本发明的网站扫描设备 100 的各个部件中，根据其要实现的功能而对其中的部件进行了逻辑划分，但是，本发明不受限于此，可以根据需要对各个部件进行重新划分或者组合，例如，可以将一些部件组合为单个部件，或者可以将一些部件进一步分解为更多的子部件。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器 ( DSP )来实现根据本发明实施例的网站扫描设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序（例如，计算机程序和计算机程序产品）。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

例如，图 6示出了可以实现根据本发明的网络扫描方法的服务器，例如应用服务器。该服务器传统上包括处理器 610和以存储器 620形式的计算机程序产品或者计算机可读介质。存储器 620 可以是诸如闪存、 EEPROM (电可擦除可编程只读存储器）、 EPROM、硬盘或者 ROM 之类的电子存储器。存储器 620具有用于执行上述方法中的任何方法步骤的程序代码 631的存储空间 630。例如，用于程序代码的存储空间

631。这些程序代码可以一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘，紧致盘（CD ) 、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为如参考图 7所述的便携式或者固定存储单元。该存储单元可以具有与图 6的服务器中的存储器 620类似布置的存储段、存储空间等。程序代码可以例如以适当形式进行压缩。通常，存储单元包括计算机可读代码 63 Γ , 即可以由例如诸如 610之类的处理器读取的代码，这些代码当由服务器运行时，导致该服务器执行上面所描述的方法中的各个步骤。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词 "包含" 不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词 "一" 或 "一个" 不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

权利要求

1、一种网站扫描设备，包括：

策略分析装置，判断网站中的链接是否属于网站中的已识别的网络应用，如果所述链接属于已识别的网络应用，则不对上述链接进行漏洞扫描；

爬虫装置，获取所述链接所指向的链接内容；

网络应用识别装置，基于所述链接及链接内容来判断所述链接是否属于已知网络应用，并在所述链接属于所述已知网络应用时，将所述已知网络应用确定为所述网站中的已识别网络应用；

全面扫描装置，接收被所述网络应用识别装置判断为不属于已知网络应用的链接，并对所述链接进行全面的漏洞扫描；以及

已知网络应用漏洞检测装置，接收所述网络应用识别装置确定的已识别网络应用，居所述已识别网络应用的已知漏洞对所述网站进行漏洞检测，以确定所述网站是否存在所述已识别网络应用的已知漏洞。

2、如权利要求 1所述的网站扫描设备，还包括：

网站链接存储装置，用于存储所述网站中的一个或者多个链接，其中所述爬虫装置还用于对所获取的链接内容进行分析以提取所述链接内容包括的一个或者多个链接，并将所提取的一个或者多个链接放入到所述网站链接存储装置中，以及所述策略分析装置为所述网站链接存储装置中的每个链接进行判断。

3、如权利要求 1所述的网站扫描设备，还包括：

已识别网络应用存储装置，用于存储所述网站中的一个或者多个已识别网络应用。

4、如权利要求 1所述的网站扫描设备，还包括：

已知网络应用特征存储装置，用于存储已知网络应用的特征以及与所述已知网络应用相关联的一个或者多个已知漏洞。

5、如权利要求 1-4中的任一个所述的网站扫描设备，其中所述网络应用识别装置还包括：

规则生成部件，用于根据已知网络应用的特征生成规则集合；规则匹配引擎，用于获取所述链接及链接内容，提取所述链接及链接内容的特征，根据所述链接及链接内容的特征来判断所述规则集合中的规则之一是否被匹配了，将与所述匹配规则相对应的已知网络应用确定为是所述链接所属的已知网络应用。

6、如权利要求 5所述的网站扫描设备，其中所述规则集合中的每个规则与每个已知网络应用相对应，每个规则具有一个或者多个子规贝 ij，每个子规则与相应已知网络应用的一个特征相对应，以及

其中只有某个规则中的全部子规则都被匹配时了，才断定所述规则被匹配了。

7、如权利要求 6所述的网站扫描设备，其中每个规则中的子规则与链接相关联，

所述规则匹配引擎在确定所述链接及链接内容的特征与某个规则的子规则相匹配时，由所述爬虫装置获取与该规则的其它子规则相关联的进一步链接及其内容，并在所述进一步链接及其内容与该规则中的其它子规则都匹配了时，才断定所述规则被匹配了。

8、如权利要求 5所述的网站扫描设备，其中所述已知网络应用的特征包括下列特征中的一个或者多个：

特定页面及所述特定页面中的特定标识；

特定页面及所述特定页面的全部内容；

HTTP响应字段；以及

特定链接。

9、如权利要求 1-8中的任一个所述的网站扫描设备，其中所述网络应用识别装置所识别出的已识别网络应用还包括所述已识别网络应用的版本，而且所述已知网络应用特征存储装置还与所述已知网络应用的版本相关联地存储已知网络应用的特征以及一个或者多个已知漏洞。

10、一种网站扫描方法，包括步骤：

由策略分析装置来判断网站中的链接是否属于网站中的已识别的网络应用；

如果所述链接属于已识别的网络应用，则不对所述链接进行漏洞扫描，如果所述链接不属于已识别的网络应用，则由爬虫装置来获取所述链接指向的链接内容；

由网络应用识别装置基于所述链接及链接内容来判断所述链接是否属于已知网络应用；

如果所述链接属于已知网络应用，则将所述已知网络应用确定为所述网站中的已识别网络应用，并且由已知网络应用漏洞检测装置根据所述已识别网络应用的已知漏洞对所述网站进行漏洞检测，以确定所述网站是否存在所述已识别网络应用的已知漏洞；

如果所述链接不属于已知网络应用，则由全面扫描装置对所述链接进行全面的漏洞扫描。

11、如权利要求 10所述的网站扫描方法，还包括步骤：

由爬虫装置获取所述网站中的一个或者多个链接，其中所述策略分析装置为所述一个或者多个链接中的每个链接进行判断。

12、如权利要求 10或者 11 所述的网站扫描方法，其中所述判断所述链接是否属于已知网络应用的步骤包括：

根据一个或者多个已知网络应用中的每个已知网络应用的特征生成规则集合；

提取所述链接及链接内容的特征，并判断所述链接及链接内容的特征是否与所述规则集合中的规则之一相匹配；以及

如果相匹配，则将与所述匹配规则相对应的已知网络应用确定为是所述链接所属的已知网络应用。

13、如权利要求 12所述的网站扫描方法，其中所述规则集合中的每个规则与每个已知网络应用相对应，每个规则具有一个或者多个子规则，每个子规则与相应已知网络应用的一个特征相对应，以及

其中只有某个规则中的全部子规则都被匹配了时，才断定所述链接及链接内容的特征与所述规则相匹配。

14、如权利要求 13所述的网站扫描方法，其中所述判断所述链接及链接内容的特征是否与所述规则集合中的规则之一相匹配的步骤还包括：

在确定一个规则中的一个或者多个子规则与所述链接及链接内容

' '获取所述其它链接及其内 ; 、以及、 ' 、匹配,

15、如权利要求 12所述的网站扫描方法，其中所述已知网络应用的特征包括下列特征中的一个或者多个：

特定页面及所述特定页面中的特定标识；

特定页面及所述特定页面的全部内容；

HTTP响应字段；以及

特定链接。

16、如权利要求 10-15中的任一个所述的网站扫描方法，其中所述已识别的网络应用还包括所述已识别的网络应用的版本，而且所述已知网络应用的特征以及一个或者多个已知漏洞与所述已知网络应用的版本相关联。

17、一种计算机程序，包括计算机可读代码，当所述计算机可读代码在服务器上运行时，导致所述服务器执行根据权利要求 10-16中的任一个所述的网站扫描方法。

18、一种计算机可读介质，其中存储了如权利要求 17所述的计算机程序。