WO2012031460A1 - 一种网站扫描设备和方法 - Google Patents

一种网站扫描设备和方法 Download PDF

Info

Publication number
WO2012031460A1
WO2012031460A1 PCT/CN2011/001526 CN2011001526W WO2012031460A1 WO 2012031460 A1 WO2012031460 A1 WO 2012031460A1 CN 2011001526 W CN2011001526 W CN 2011001526W WO 2012031460 A1 WO2012031460 A1 WO 2012031460A1
Authority
WO
WIPO (PCT)
Prior art keywords
link
network application
website
rule
content
Prior art date
Application number
PCT/CN2011/001526
Other languages
English (en)
French (fr)
Inventor
周大
王晓明
吕明
蒋辉
刘光旭
卢小海
李钠
卢梁
曾菁菁
Original Assignee
北京神州绿盟信息安全科技股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 北京神州绿盟信息安全科技股份有限公司 filed Critical 北京神州绿盟信息安全科技股份有限公司
Priority to JP2013527447A priority Critical patent/JP5572763B2/ja
Priority to US13/821,867 priority patent/US10491618B2/en
Publication of WO2012031460A1 publication Critical patent/WO2012031460A1/zh

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1433Vulnerability analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1483Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing

Description

一种网站扫描设备和方法 技术领域
本发明涉及计算机网络安全领域, 尤其涉及对网站进行远程扫描 以确定网站是否存在漏洞的网站扫描设备和方法。 背景技术
为了判断网站是否存在诸如 CGI漏洞、 SQL注入漏洞、 跨站脚本 漏洞等各种漏洞, 需要从网站外部, 即远程对网站进行漏洞扫描, 以 确定网站是否存在这些漏洞。
现在互联网上的大量网站基于一些已知网络( WEB )应用而构造, 例如可以基于 Discuz! , phpwind或者动网论坛等已知网络应用构造网 站的论坛系统, 以及基于 WordPress 等网络应用来构造网站的博客系 统。这些已知的 WEB应用程序已经被发现存在过一些已知的 CGI漏洞, 如 Discuz!论坛存在过绕过全局变量防 ^(卸漏洞, Discuz!论坛的 manyou 插件存在过 SQL注入漏洞, WordPress存在过绕过口令保护漏洞等。 由于已知网络应用的应用范围非常广泛, 因此, 针对这些网络应用的 漏洞研究也非常广泛, 但是对这些已知网络引用的漏洞进行修复的方 法能够及时出现。 因此, 这些已知的网络应用程序逐步变成比较成熟 的产品, 除了已经在网上被公开的漏洞之外, 存在其他漏洞可能性变 得非常之小。
常规的网站漏洞扫描方法是依次遍历网站上的所有页面, 对每个 页面都会调用爬虫程序来获取页面内容进行分析, 并针对页面进行全 方位的漏洞扫描。
当使用常规的网站漏洞扫描方法对那些基于已知网络应用构造的 网站进行扫描时, 扫描出漏洞的可能性比较小, 相反反而会为此消耗 大量的时间和带宽, 甚至可能会因为扫描程序的问题, 而造成漏洞的 误报, 引起客户不必要的担忧。
因此, 需要一种新的网站扫描设备和方法, 其可以考虑网站所采 用的已知网络应用而减少不必要的漏洞扫描处理过程, 从而节省扫描 时间和所占用的网络带宽, 以提高网站扫描的效率。 发明内容
鉴于上述问题, 提出了本发明以便提供一种克服上述问题或者至 少部分地解决上述问题的网站扫描系统和网站扫描方法。
根据本发明的一个方面, 提供了一种网站扫描设备, 包括: 策略 分析装置, 判断网站中的链接是否属于网站中的已识别的网络应用, 如果所述链接属于已识别的网络应用, 则不对所述链接进行漏洞扫描; 爬虫装置, 获取所述链接所指向的链接内容; 网络应用识别装置, 基 于所述链接及链接内容来判断所述链接是否属于已知网络应用, 并在 所述链接属于已知网络应用时, 将所述已知网络应用确定为所述网站 中的已识别网络应用; 全面扫描装置, 接收被所述网络应用识别装置 判断为不属于已知网络应用的链接, 并对所述链接进行全面的漏洞扫 描; 以及已知网络应用漏洞检测装置, 接收所述网络应用识别装置确 定的已识别网络应用, 根据所述已识别网络应用的已知漏洞对所述网 站进行漏洞检测, 以确定所述网站是否存在所述已识别网络应用的已 知漏洞。
可选地, 在根据本发明的网站扫描设备中, 网络应用识别装置包 括: 规则生成部件, 用于根据已知网络应用的特征生成规则集合; 规 则匹配引擎, 用于获取所述链接及链接内容, 提取所述链接及链接内 容的特征, 根据所述链接及链接内容的特征判断所述规则集合中的规 则之一是否被匹配了, 将与所述匹配规则相对应的已知网络应用确定 为是所述链接所属的已知网络应用。 此外, 已知网络应用的特征包括 下列特征中的一个或者多个: 特定页面及所述特定页面中的特定标识; 特定页面及所述特定页面的全部内容; HTTP响应字段;以及特定链接。
根据本发明的另一个方面, 提供了一种网站扫描方法, 包括步骤: 由策略分析装置来判断网站中的链接是否属于网站中的已识别的网络 应用; 如果所述链接属于已识别的网络应用, 则不对所述链接进行漏 洞扫描, 如果所述链接不属于已识别的网络应用, 则由爬虫装置来获 取所述链接指向的链接内容; 由网络应用识别装置基于所述链接及链 接内容来判断所述链接是否属于已知网络应用; 如果所述链接属于已 知网络应用, 则将所述已知网络应用确定为所述网站中的已识别网络 应用, 并且由已知网络应用漏洞检测装置根据所述已识别网络应用的 已知漏洞对所述网站进行漏洞检测, 以确定所述网站是否存在所述已 识别网络应用的已知漏洞; 如果所述链接不属于已知网络应用, 则由 全面扫描装置对所述链接进行全面的漏洞扫描。
利用根据本发明的网站扫描设备和方法, 当识别出目标网站所采 用的已知网络应用时, 对于所识别出的已知网络应用的相应目录下的 所有页面, 不需要进行扫描, 而是仅仅需要检查该已知网络应用已经 被公布的漏洞即可, 这样可以极大地提高扫描效率。 此外, 对于所识 别出的已知网络应用, 不需要用爬虫装置进行页面内容爬取就可以直 接得到该相应目录的文件结构, 这也可以减少页面爬取所占用的时间 的带宽。
另外, 由于根据本发明的网站扫描设备和方法可以及时更新已知 网络应用新发现的漏洞和漏洞修复方式, 因此, 当利用 #居本文明的 网站扫描设备和方法识别出网站所采用的已知网络应用时, 可以及时 发现网站所具有的相应漏洞并提供漏洞修复建议。
进一步, 由于不再对所识别的已知网络应用的相应目录下的文件 进行全面扫描, 能减少因扫描方案不完善以及网络环境的复杂性而引 起的对于这些目录下文件的各种漏洞的误报。 附图说明
通过阅读下文优选实施方式的详细描述, 各种其他的优点和益处 对于本领域普通技术人员将变得清楚明了。 附图仅用于示出优选实施 方式的目的, 而并不认为是对本发明的限制。 而且在整个附图中, 用 相同的参考符号表示相同的部件。 在附图中:
图 1 示意性地示出了根据本发明实施例的网站扫描设备 100的框 图;
图 2示意性地示出了网站扫描设备 100中的网络应用识别装置 140 的框图;
图 3示意性地示出了针对 Discuz!网络应用的特征实例;
图 4示意性地示出了根据本发明实施例的网络扫描方法 400的流 程图;
图 5示意性地示出了网络扫描方法 400 中的网络应用识别方法的 流程图; 以及
图 6示意性地示出了用于执行根据本发明的方法的服务器的框图; 以及
图 7 示意性地示出了用于保持或者携带实现根据本发明的方法的 程序代码的存储单元。 具体实施例
下面结合附图和具体的实施方式对本发明作进一步的描述。
图 1 示意性地示出了根据本发明实施例的网站扫描设备 100的框 图。 如图 1所示, 网站扫描设备 100包括策略分析装置 110、 爬虫装置 120、 网络应用识别装置 130、 全面扫描装置 140和已知网络应用漏洞 检测装置 150。
策略分析装置 110接收目标网站中的待处理链接, 并基于已识别 出的、 目标网站所采用的已知网络应用列表, 确定该待处理链接是否 属于某个已知网络应用。 在对目标网站进行扫描的过程中, 可以识别 出目标网站所采用的已知网络应用 (其数量可以是任意的, 甚至没有 采用任何已知网络应用) , 这些已知网络应用可以可选地存储在已识 别网络应用存储装置 160 中。 每种已知网络应用均具有自身特定的文 件目录结构, 并且这些目录结构可以与网络应用相关联地存储。 通过 比较待处理链接的地址和目标网站所采用的已知网络应用的文件目录 结构, 可以判断出待处理链接是否属于某个已知网络应用。 举例而言, 如 果 已 识 别 出 的 某 个 网 络 应 用 具 有 目 录 结 构 http://www.example.eom/a/,贝1 J地址为 http :// www. example/a/b .php 待处 理链接由于处于该网络应用的目录结构之下, 而被判断为属于该已识 别出的网络应用。
如果目标网站没有任何已识别出的已知网络应用或者未发现该待 处理链接属于已识别出的已知网络应用, 则策略分析装置 110 将该待 处理链接发送到爬虫装置 120 进行进一步处理, 否则, 策略分析装置 110 停止对该待处理链接的处理, 并且获取下一个待处理链接进行处 理。
爬虫装置 120从策略分析装置 110接收不属于已识别出的网络应 用的链接, 获取与该链接相对应的网络内容。 爬虫装置 120 可以采用 本领域所常用的网络爬虫等方法获取链接所对应的网络内容。 当然所 有可以获取链接对应的网络内容的方法都在本发明的保护范围之内。 此外, 爬虫装置 120可以对所获取的网络内容进行分析, 提取其中所 包含的进一步链接, 并且可以将这些链接作为下一步要处理的链接而 存储到网络链接存储装置 130中。 网络链接存储装置 130中可以存储 待处理链接列表,而且策略分析装置 110可以从网络链接存储装置 130 中获取列表中的待处理链接进行处理。
另外, 爬虫装置 120还可以进一步获取与所获取的网络内容相关 的进一步网络内容。 具体而言, 一个网络链接所对应的网络内容如网 页中可能包括了对外部 js代码、 ess格式文件等之类的进一步引用, 而 这些诸如 js代码或者 ess格式文件之类的内容可以认为是该网页相关的 进一步网络内容。 在判断某个链接是否属于已知网络应用时, 也可能 需要用到这些相关的进一步内容, 因此爬虫装置 120可以获取这些内 容作为与待处理链接相对应的网络内容的相关联内容。
爬虫装置 120将待处理的链接以及该链接的网络内容(可选地, 还包括与该网络内容相关联的内容)发送到网络应用识别装置 140。 网 络应用识别装置 140据此(可选地, 可以参考其中存储了已知网络应 用特征的已知网络应用特征存储装置 150 )判断目标网站是否采用了某 个已知应用。 如果目标网站采用了某个已知应用, 则将有关该已知网 络应用的信息发送到已知网络应用漏洞检测装置 160进行进一步处理, 否则将该链接及其网络内容发送到全面扫描装置 170进行全面的漏洞 扫描。 此外, 网络应用识别装置 140 可以将所识别出的已知网络应用 及其相关信息 (如 URL等)存储到已识别网络应用存储装置 180中, 以便可以由策略分析装置 110使用来判断链接是否属于已识别的已知 网络应用。 在下文中将会结合附图 2详细描述网络应用识别装置 140 的特定实施例, 但是应当理解, 本发明不局限于该特定实施例, 所有 可以根据链接及其内容来判断出该链接所属的网络应用的网络应用识 别装置都在本发明的保护范围之内。
应当注意的是, 在网络应用识别装置 140根据待处理链接及其内 容进行已知网络应用识别的过程中, 可能还需要与爬虫装置 120进行 交互以获取进一步的链接及其内容。
全面扫描装置 170从网络应用识别装置 140接收待处理链接以及 可选的相对应网络内容, 对该链接及其相对应网络内容进行全面的漏 洞扫描, 例如针对跨站脚本攻击漏洞 (XSS ) 、 SQL 注入漏洞、 CGI 漏洞等的扫描。 全面扫描装置 170 可以采用本领域任何漏洞扫描技术 且不超出本发明的保护范围。
已知网络应用漏洞检测装置 160从网络应用识别装置 140接收所 识别出的已知网络应用, 并根据所识别出的已知网络应用的已知漏洞 来对目标网站的该已知网络应用进行漏洞扫描, 以确定该目标网站的 已知网络应用是否已经针对已知漏洞进行了修复。 可选地, 已知网络 应用的已知漏洞可以与已知网络应用特征相关联地存储在已知网络应 用特征存储装置 150中。
应当注意地是, 在本发明中所提及的已知网络应用并未涉及其版 本, 但是在实践中, 已知网络应用通常具有多个版本, 而且每个版本 具有特定的特征和不同的已知漏洞。 因此, 上文所提及的已知网络应 用还可以包括其版本信息, 即可以将不同版本的网络应用看成是不同 的网络应用。 为此, 可以将版本号与网络应用特征、 网络应用漏洞等 相关联地存储在已知网络应用特征存储装置 150中。
图 2 示意性地示出了根据本发明一个实施例的网站扫描设备 100 中的网络应用识别装置 140。 如图 2所示, 网络应用识别装置 140包括 规则生成部件 141、 规则匹配引擎 143以及结果输出部件 145。
规则生成部件 141根据已知网络应用的特征生成规则集 147。根据 本发明的一个实施例, 已知网络应用的特征可以存储在已知网络应用 特征存储装置 150 中, 规则生成部件 141 可以从已知网络应用特征存 储装置 150中获取各种已知网络应用的特征并据此生成规则集 147。根 据本发明的一个实施例, 一个已知网络应用可以至少具有如下特征之
1、 某个特定页面以及该特定页面中的特定标识, 很多网络应用会 在某些特定页面中嵌入特定的标识, 例如 Discuz! 论坛网络应用中的 页面 index.php会包括下列特定字符串:
<meta name="author" content="Discuz! Team and Comsenz UI Team" />
2、 某个特定页面以及该特定页面的全部内容, 很多已知网络应用 包含一些固定的文件, 如 .css,.js,.ini等文件, 因此这些文件的整体内容 可以作为网络应用的识别标志。 根据本发明的一个实施例, 可以根据 这些固定文件的整体内容的 MD5值来确定网络应用。 例如已知网络应 用 joomla 版本 1.5.15的固件文件 /language/en-GB/en-GB.ini的 MD5值 为 449d7bb356fcefal343d72d203297438。
3、 HTTP响应字段: 某些已知网络应用程序的响应头是其特有的, 如 set-cookie响应字段中的值, 因此可以将该特有的响应字段作为标识 网络应用的一种方式。
4、 特定链接: 某些已知网络应用中必须存在特定的网络链接 ( U L ) , 因此可以根据是否存在特定链接来标识特定网络应用。
5、 robots.txt , 一些网站的 robots .txt文件中会设置一些关于网站所 使用的网络应用的信息, 因此也可以根据该文件的内容来获得一些网 络应用的信息。
才艮据本发明的一个实施例, 已知网络应用的特征可以 XML格式存 储在已知网络应用特征存储装置 150 中。 图 3 示出了适用于 phpnuke 网络应用的 XML文件, 从该文件中可以看出, 针对 phpnuk网络应用, 存在三个子规则, 具体为:
第一个子规则为在特定网络页面 index.php中存在特定内容, 即与
<meta name="generatorM content = " (PHP -Nuke. * | . *http://phpnuke.org) " > 以及 <META NAME="RATING" C0NTENT=" GENERAL ">相匹配的特 定内容, 应当注意的是, 其中" (PHP-Nuke.*|.*http:〃 phpnuke.org)"为利 用本领域常用的正则表达式所编写的特定内容匹配项, 本领域技术人 员可以根据正则表达式的特征找出与之相匹配的特定内容。
第二个子规则为在特定网络页面 user.php 中存在特定内容, 即与 <meta name="generator" content="(PHP-Nuke.*|.*http://phpnuke.org)"> 相匹配的特定内容, 同样该子规则中也利用了正则表达式。
第 三 个 子 规 则 为 存 在 某 个 特 定 页 面 themes/Freezebeta/style/style.css以及该特定页面的全部内容, 其中该页 面的全部内容的 MD5值为 415acd896960884ada364d508e7c8ae9。
此外, 还可以通过特定网络页面 index.php 中的 " <META NAME="GENERATOR"
CONTENT="PHP-Nuke[ ]*(?P<version>\d+\.\d+).*">,,来确定该网络应 用的版本。
应当注意的是, 虽然上面给出了有关网络应用特征的一些特定示 例, 但是已知网络应用的特征并不局限于此, 本领域技术人员可以根 据本发明所给出的启示很容易想到其他的网络应用特征。
根据本发明的一个实施例, 每个网络应用具有一个或者多个网络 应用特征, 因此规则集 147具有对应的结构, 即规则集 147 包括与每 个网络应用相对应的规则 148^ 1482,...148n 等, 而每个规则 148^ 1482,...148n具有一个或者多个与该网络应用的网络应用特征相对 应的子规则 149 1492, ...149m等。
规则匹配引擎 143 获取待处理的链接及与该链接相对应的网络内 容, 提取该待处理链接及链接内容中的特征, 随后参考规则集 147, 并 判断所提取的待处理链接及链接内容中的特征是否与规则集中的某个 规则相匹配。 当某个规则中的所有子规则都被匹配了时, 则认为该规 则被匹配了, 并确定该链接属于与该规则相对应的网络应用, 即目标 网站中存在该网络应用。 相反, 如果确定待处理链接未与规则集 1 17 中的任何规则相匹配, 则认为待处理链接不属于任何已知网络应用。 随后, 经由结果输出部件 145输出匹配结果。
应当注意的是, 如上所述, 一个已知网络应用可以具有多个子规 贝 |J , 而且各个子规则可能涉及不同的链接 (即网络页面) , 因此, 在 规则匹配引擎 143 判断所提取的待处理链接及链接内容中的特征是否 与规则集中的某个规则相匹配时, 爬虫装置 120 获取链接, 规则匹配 引擎 143对爬虫装置 120获取的链接进行子规则的匹配时, 如果待处 理链接与某个规则中的所有子规则全部匹配成功, 则认为待处理链接 属于与该规则相对应的已知网络应用。
例如, 参考图 3的示例, 当规则匹配引擎 143 中存在 phpnuke的 规则时, 爬虫装置 120获取到链接 index.php及其内容时, 规则匹配引 擎 143判断 index.php是否与第一个子规则相匹配, 若 index.php中存 在 特 定 内 容 : <meta name=" generator" content
"(PHP-Nuke.*|.*http:〃 phpnuke.org)" >以及 <META NAME="RATING" CONTENT=MGENERAL">, 则第一个子规则匹配成功。 爬虫装置 120 获取到链接 user.php及其内容时,规则匹配引擎 143判断 user.php及其 内容是否与第二个子规则匹配, 若 user.php 中存在特定内容: <meta name="generator" content=" (PHP-Nuke. *|.* http://phpnuke.org)">,贝1 J第二 个 子 规 则 匹 配 成 功 。 爬 虫 装 置 120 获取 到 链 接 : themes/Freezebeta/style/style.css时, 规则匹配引擎 143判断是否与第三 个规则相匹配, 若其 MD5值为 415acd896960884ada364d508e7c8ae9 , 则第三个规则匹配成功。 当然只要有一个子规则不匹配, 则规则匹配 引擎 143确定待处理链接不属于某个已知网络应用。
可选地, 规则匹配引擎 143 在确定待处理链接属于已知网络应用 时, 将所识别出的已知网络应用以及该已知网络应用在目标网站上的 目录位置 (可以根据待处理链接以及已知网络应用的目录结构而确定 出) 存储到到已识别网络应用存储装置 180 中, 以便以后可以由策略 分析装置 1 10使用来判断链接是否属于已识别的已知网络应用。
根据本发明的网站扫描设备 100 通过在对目标网站上的文件 (即 链接) 进行扫描之前判断该文件是否属于已知网络应用, 并且仅仅针 对不属于已知网络应用的文件进行全面扫描, 而针对网站所采用的已 知网络应用, 网站扫描设备 100根据目前已知的已知网络应用的漏洞 进行检查而不进行全面检查, 从而减少了进行全面扫描的次数, 从而 大大增加了网站扫描设备 100的效率。
图 4示出了根据本发明实施例的网络扫描方法 400的流程图, 该 方法可以在如上所述的网站扫描设备 100 中执行。 如图 4所示, 网络 扫描方法 400开始于步骤 S410 , 其中获取待处理链接。 可选地, 可以 事先将待处理链接存储在网络链接存储装置 130的待处理链接列表中, 并从待处理链接列表中获取一个待处理链接进行处理。 随后, 在步骤 S420 中, 基于目标网站所采用的已知网络应用列表, 判断该待处理链 接是否属于某个已知网络应用。 如上所述, 可以通过比较待处理链接 的地址和目标网站所釆用的已知网络应用的文件目录结构, 可以判断 出待处理链接是否属于某个已知网络应用。 如果待处理链接属于某个 已知网络应用,则不再对该待处理链接进行处理,并且继续到步骤 S430 以确定待处理链接列表中是否有还要处理的待处理链接。 如果待处理 链接不属于目标网站所釆用的已知网络应用, 则方法进入步骤 S450。
' *在步骤 S450处 由爬虫装置获取与待处理:接相对应的网络内容, 对所获取的网络内容进行分析, 提取其中所包含的进一步链接, 并且 可以将这些链接作为下一步要处理的链接而添加到待处理链接列表 中。 此外, 如上所述, 在步骤 S450中还可以获取与所获取的网络内容 相关的进一步网络内容。 随后, 在步骤 S460处, 参考已知网络应用特征来对待处理的链接 以及该链接的网络内容(可选地, 还包括与该网络内容相关联的内容) 进行分析以判断该待处理链接是否属于已知网络应用, 即目标网站中 是否存在该已知网络应用。 在下文中将参考图 5进一步描述步骤 S460 中的处理。如果该待处理链接不属于任何已知网络应用,则在步骤 S470 处, 对该待处理链接及其网络内容进行全面的漏洞扫描。 如果在步骤 S460处确定该待处理链接属于已知网络应用, 即目标网站中存在该已 知网络应用, 则在步骤 S480处存储所识别出的已知网络应用及其相关 信息 (如 URL等) , 以便可以在以后判断待处理链接是否属于目标网 站所采用的已知网络应用时使用。
应当注意的是, 在步骤 S460中分析待处理链接以判断目标网站中 是否存在已知网络应用时, 还可能需要由爬虫装置荻取一些进一步的 链接及其内容, 以便于准确判断目标网站中是否存在该已知网络应用。
随后在步骤 S490中根据所识别出的已知网络应用的已知漏洞来对 目标网站的该已知网络应用进行漏洞扫描, 以确定该目标网站的已知 网络应用是否已经针对已知漏洞进行了修复。
随后, 在步骤 S430确定还有链接要处理时, 在步骤 S440处, 从 待处理链接列表中获取下一个待处理链接, 并且返回到步骤 S420进行 重复处理。 如果在步骤 S430 处确定没有链接要处理时, 则结束方法 400。
图 5示出了根据本发明一个实施例的网络扫描方法 400 中的步骤 S460 , 即判断链接是否属于已知网络应用的方法的具体流程图。 如图 5 所示, 该方法始于步骤 S510, 其中对规则集进行初始化, 即根据已知 网络应用特征 (根据本发明的实施例, 这些已知网络应用特征可以事 先以某种格式(例如 XML文件格式)存储在已知网络应用特征存储装 置 150 )来生成规则集。 规则集具有如上所述的格式。 可选地, 可以在 进行图 5 所示的处理之前就完成对规则集的初始化而不必每次对链接 进行判断时均进行初始化处理。
随后, 在步骤 S520中获取规则集中的第一个规则作为当前规则, 并且在步骤 S530中获取当前规则中与待处理链接及其内容相关的第一 个子规则作为当前子规则。 在步骤 S540中判断待处理链接及其相关网 络内容是否与当前子规则相匹配。 上文结合图 2 的描述中已经给出了 有关已知网络特征以及规则和子规则的具体内容, 这里不再进行赘述。 当在步骤 S540处确定未匹配时, 在步骤 S550处确定规则集中是 否还有未进行匹配的规则。 如果在步骤 S550处确定没有未进行匹配的 规则, 则在步骤 S560输出待处理链接不属于已知网络应用的结果并结 束该方法; 相反, 如果在步骤 S550处确定还有未进行匹配的规则, 则 在步骤 S570处获取规则集中的下一个规则作为当前规则 , 并返回到步 骤 S530进行下一步处理。
当在步骤 S540处确定待处理链接及其相关网络内容与当前子规则 相匹配时, 则在步骤 S580中确定当前规则中是否还有其他子规则。 如 果在步骤 S580确定还有未进行匹配的子规则, 则在步骤 S590获取下 一个子规则作为当前子规则, 并返回到步骤 S540进行子规则匹配。 应 当注意的是, 如上所述, 一个已知网络应用可以具有多个子规则, 而 且各个子规则可能涉及不同的链接, 因此, 在步骤 S590所获取的下一 个子规则可能涉及其它链接, 基于此, 步骤 S590还包括获取与该当前 子规则相关联的链接及其内容的步骤。
相反, 如果在步骤 S580确定当前规则中的所有子规则均与待处理 链接及其相关内容匹配时, 则确定待处理链接属于与当前规则相对应 的已知网络应用, 并在步骤 S595输出该已知网络应用。 可选地, 在步 骤 S595还可以输出该已知网络应用在目标网站上的位置(例如, 相对 于目标网站根目录的文件位置) , 以便由上述步骤 S420以后使用来确 定待处理链接是否属于目标网站所采用的已知网络应用。
应当注意的是, 在本发明的网站扫描设备 100 的各个部件中, 根 据其要实现的功能而对其中的部件进行了逻辑划分, 但是, 本发明不 受限于此, 可以根据需要对各个部件进行重新划分或者组合, 例如, 可以将一些部件组合为单个部件, 或者可以将一些部件进一步分解为 更多的子部件。
本发明的各个部件实施例可以以硬件实现, 或者以在一个或者多 个处理器上运行的软件模块实现, 或者以它们的组合实现。 本领域的 技术人员应当理解, 可以在实践中使用微处理器或者数字信号处理器 ( DSP )来实现根据本发明实施例的网站扫描设备中的一些或者全部部 件的一些或者全部功能。 本发明还可以实现为用于执行这里所描述的 方法的一部分或者全部的设备或者装置程序 (例如, 计算机程序和计 算机程序产品) 。 这样的实现本发明的程序可以存储在计算机可读介 质上, 或者可以具有一个或者多个信号的形式。 这样的信号可以从因 特网网站上下载得到, 或者在载体信号上提供, 或者以任何其他形式 提供。
例如, 图 6示出了可以实现根据本发明的网络扫描方法的服务器, 例如应用服务器。 该服务器传统上包括处理器 610和以存储器 620形 式的计算机程序产品或者计算机可读介质。 存储器 620 可以是诸如闪 存、 EEPROM (电可擦除可编程只读存储器)、 EPROM、硬盘或者 ROM 之类的电子存储器。 存储器 620具有用于执行上述方法中的任何方法 步骤的程序代码 631的存储空间 630。 例如, 用于程序代码的存储空间
631。 这些程序代码可以 一个或者多个计算机程序产品中读出或者写 入到这一个或者多个计算机程序产品中。 这些计算机程序产品包括诸 如硬盘, 紧致盘 (CD ) 、 存储卡或者软盘之类的程序代码载体。 这样 的计算机程序产品通常为如参考图 7所述的便携式或者固定存储单元。 该存储单元可以具有与图 6的服务器中的存储器 620类似布置的存储 段、 存储空间等。 程序代码可以例如以适当形式进行压缩。 通常, 存 储单元包括计算机可读代码 63 Γ , 即可以由例如诸如 610之类的处理 器读取的代码, 这些代码当由服务器运行时, 导致该服务器执行上面 所描述的方法中的各个步骤。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行 限制, 并且本领域技术人员在不脱离所附权利要求的范围的情况下可 设计出替换实施例。 在权利要求中, 不应将位于括号之间的任何参考 符号构造成对权利要求的限制。 单词 "包含" 不排除存在未列在权利 要求中的元件或步骤。 位于元件之前的单词 "一" 或 "一个" 不排除 存在多个这样的元件。 本发明可以借助于包括有若干不同元件的硬件 以及借助于适当编程的计算机来实现。 在列举了若干装置的单元权利 要求中, 这些装置中的若干个可以是通过同一个硬件项来具体体现。 单词第一、 第二、 以及第三等的使用不表示任何顺序。 可将这些单词 解释为名称。

Claims

权 利 要 求
1、 一种网站扫描设备, 包括:
策略分析装置, 判断网站中的链接是否属于网站中的已识别的网 络应用, 如果所述链接属于已识别的网络应用, 则不对上述链接进行 漏洞扫描;
爬虫装置, 获取所述链接所指向的链接内容;
网络应用识别装置, 基于所述链接及链接内容来判断所述链接是 否属于已知网络应用, 并在所述链接属于所述已知网络应用时, 将所 述已知网络应用确定为所述网站中的已识别网络应用;
全面扫描装置, 接收被所述网络应用识别装置判断为不属于已知 网络应用的链接, 并对所述链接进行全面的漏洞扫描; 以及
已知网络应用漏洞检测装置, 接收所述网络应用识别装置确定的 已识别网络应用, 居所述已识别网络应用的已知漏洞对所述网站进 行漏洞检测, 以确定所述网站是否存在所述已识别网络应用的已知漏 洞。
2、 如权利要求 1所述的网站扫描设备, 还包括:
网站链接存储装置, 用于存储所述网站中的一个或者多个链接, 其中所述爬虫装置还用于对所获取的链接内容进行分析以提取所 述链接内容包括的一个或者多个链接, 并将所提取的一个或者多个链 接放入到所述网站链接存储装置中, 以及所述策略分析装置为所述网 站链接存储装置中的每个链接进行判断。
3、 如权利要求 1所述的网站扫描设备, 还包括:
已识别网络应用存储装置, 用于存储所述网站中的一个或者多个 已识别网络应用。
4、 如权利要求 1所述的网站扫描设备, 还包括:
已知网络应用特征存储装置, 用于存储已知网络应用的特征以及 与所述已知网络应用相关联的一个或者多个已知漏洞。
5、 如权利要求 1-4中的任一个所述的网站扫描设备, 其中所述网 络应用识别装置还包括:
规则生成部件, 用于根据已知网络应用的特征生成规则集合; 规则匹配引擎, 用于获取所述链接及链接内容, 提取所述链接及 链接内容的特征, 根据所述链接及链接内容的特征来判断所述规则集 合中的规则之一是否被匹配了, 将与所述匹配规则相对应的已知网络 应用确定为是所述链接所属的已知网络应用。
6、 如权利要求 5所述的网站扫描设备, 其中所述规则集合中的每 个规则与每个已知网络应用相对应, 每个规则具有一个或者多个子规 贝 ij, 每个子规则与相应已知网络应用的一个特征相对应, 以及
其中只有某个规则中的全部子规则都被匹配时了, 才断定所述规 则被匹配了。
7、 如权利要求 6所述的网站扫描设备, 其中每个规则中的子规则 与链接相关联,
所述规则匹配引擎在确定所述链接及链接内容的特征与某个规则 的子规则相匹配时, 由所述爬虫装置获取与该规则的其它子规则相关 联的进一步链接及其内容, 并在所述进一步链接及其内容与该规则中 的其它子规则都匹配了时, 才断定所述规则被匹配了。
8、 如权利要求 5所述的网站扫描设备, 其中所述已知网络应用的 特征包括下列特征中的一个或者多个:
特定页面及所述特定页面中的特定标识;
特定页面及所述特定页面的全部内容;
HTTP响应字段; 以及
特定链接。
9、 如权利要求 1-8中的任一个所述的网站扫描设备, 其中所述网 络应用识别装置所识别出的已识别网络应用还包括所述已识别网络应 用的版本, 而且所述已知网络应用特征存储装置还与所述已知网络应 用的版本相关联地存储已知网络应用的特征以及一个或者多个已知漏 洞。
10、 一种网站扫描方法, 包括步骤:
由策略分析装置来判断网站中的链接是否属于网站中的已识别的 网络应用;
如果所述链接属于已识别的网络应用, 则不对所述链接进行漏洞 扫描, 如果所述链接不属于已识别的网络应用, 则由爬虫装置来获取 所述链接指向的链接内容;
由网络应用识别装置基于所述链接及链接内容来判断所述链接是 否属于已知网络应用;
如果所述链接属于已知网络应用, 则将所述已知网络应用确定为 所述网站中的已识别网络应用, 并且由已知网络应用漏洞检测装置根 据所述已识别网络应用的已知漏洞对所述网站进行漏洞检测, 以确定 所述网站是否存在所述已识别网络应用的已知漏洞;
如果所述链接不属于已知网络应用, 则由全面扫描装置对所述链 接进行全面的漏洞扫描。
11、 如权利要求 10所述的网站扫描方法, 还包括步骤:
由爬虫装置获取所述网站中的一个或者多个链接, 其中所述策略 分析装置为所述一个或者多个链接中的每个链接进行判断。
12、 如权利要求 10或者 11 所述的网站扫描方法, 其中所述判断 所述链接是否属于已知网络应用的步骤包括:
根据一个或者多个已知网络应用中的每个已知网络应用的特征生 成规则集合;
提取所述链接及链接内容的特征, 并判断所述链接及链接内容的 特征是否与所述规则集合中的规则之一相匹配; 以及
如果相匹配, 则将与所述匹配规则相对应的已知网络应用确定为 是所述链接所属的已知网络应用。
13、 如权利要求 12所述的网站扫描方法, 其中所述规则集合中的 每个规则与每个已知网络应用相对应, 每个规则具有一个或者多个子 规则, 每个子规则与相应已知网络应用的一个特征相对应, 以及
其中只有某个规则中的全部子规则都被匹配了时, 才断定所述链 接及链接内容的特征与所述规则相匹配。
14、 如权利要求 13所述的网站扫描方法, 其中所述判断所述链接 及链接内容的特征是否与所述规则集合中的规则之一相匹配的步骤还 包括:
在确定一个规则中的一个或者多个子规则与所述链接及链接内容
' '获取所述其它链接及其内 ; 、以及 、 ' 、 匹配,
15、 如权利要求 12所述的网站扫描方法, 其中所述已知网络应用 的特征包括下列特征中的一个或者多个:
特定页面及所述特定页面中的特定标识;
特定页面及所述特定页面的全部内容;
HTTP响应字段; 以及
特定链接。
16、如权利要求 10-15中的任一个所述的网站扫描方法, 其中所述 已识别的网络应用还包括所述已识别的网络应用的版本, 而且所述已 知网络应用的特征以及一个或者多个已知漏洞与所述已知网络应用的 版本相关联。
17、 一种计算机程序, 包括计算机可读代码, 当所述计算机可读 代码在服务器上运行时,导致所述服务器执行根据权利要求 10-16中的 任一个所述的网站扫描方法。
18、 一种计算机可读介质, 其中存储了如权利要求 17所述的计算 机程序。
PCT/CN2011/001526 2010-09-09 2011-09-08 一种网站扫描设备和方法 WO2012031460A1 (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2013527447A JP5572763B2 (ja) 2010-09-09 2011-09-08 ウェブサイトスキャン装置及びその方法
US13/821,867 US10491618B2 (en) 2010-09-09 2011-09-08 Method and apparatus for website scanning

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201010278838.9A CN102404281B (zh) 2010-09-09 2010-09-09 一种网站扫描设备和方法
CN201010278838.9 2010-09-09

Publications (1)

Publication Number Publication Date
WO2012031460A1 true WO2012031460A1 (zh) 2012-03-15

Family

ID=45810091

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2011/001526 WO2012031460A1 (zh) 2010-09-09 2011-09-08 一种网站扫描设备和方法

Country Status (4)

Country Link
US (1) US10491618B2 (zh)
JP (1) JP5572763B2 (zh)
CN (1) CN102404281B (zh)
WO (1) WO2012031460A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015534681A (ja) * 2012-09-18 2015-12-03 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation セキュリティ脆弱性に対するサーバ側アプリケーションの保証

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102710642A (zh) * 2012-06-01 2012-10-03 北京神州绿盟信息安全科技股份有限公司 系统漏洞扫描方法及设备
CN103902913B (zh) * 2012-12-28 2018-08-10 百度在线网络技术(北京)有限公司 一种用于对web应用进行安全处理的方法与设备
CN103077348B (zh) * 2012-12-28 2016-03-02 华为技术有限公司 一种Web站点漏洞扫描方法和装置
CN103065095A (zh) * 2013-01-29 2013-04-24 四川大学 一种基于指纹识别技术的web漏洞扫描方法和漏洞扫描器
CN103685237B (zh) * 2013-11-22 2018-12-18 北京奇安信科技有限公司 提高网站漏洞扫描速度的方法及装置
CN103685258B (zh) * 2013-12-06 2018-09-04 北京奇安信科技有限公司 一种快速扫描网站漏洞的方法和装置
CN103699845B (zh) * 2013-12-25 2017-05-17 北京神州绿盟信息安全科技股份有限公司 显示扫描进度的方法及装置
WO2016039642A1 (en) * 2014-09-11 2016-03-17 Pickles Samuel Geoffrey A telecommunications defence system
US9923916B1 (en) * 2015-06-17 2018-03-20 Amazon Technologies, Inc. Adaptive web application vulnerability scanner
CN107045507B (zh) * 2016-02-05 2020-08-21 北京国双科技有限公司 网页爬取方法及装置
CN107483464B (zh) * 2017-08-21 2020-10-16 北京知道未来信息技术有限公司 一种基于服务间交互来提高Web漏洞扫描器URL检出率的方法
CN108063759B (zh) * 2017-12-05 2022-08-16 西安交大捷普网络科技有限公司 Web漏洞扫描方法
US11055209B2 (en) * 2017-12-21 2021-07-06 Google Llc Application analysis with flexible post-processing
CN108154034B (zh) * 2017-12-21 2020-04-07 北京知道创宇信息技术股份有限公司 基于WordPress的漏洞分析方法及装置
GB2575006A (en) * 2018-04-04 2020-01-01 Cyberscanner Ltd Website vulnerability detection
CN109167757B (zh) * 2018-07-27 2021-05-11 平安科技(深圳)有限公司 一种web应用的漏洞检测方法、终端及计算机可读介质
CN110572399B (zh) * 2019-09-10 2022-05-20 阿波罗智联(北京)科技有限公司 漏洞检测处理方法、装置、设备及存储介质
CN112395523A (zh) * 2020-11-16 2021-02-23 杭州安恒信息技术股份有限公司 一种网站安全性分析方法、系统、设备及计算机介质
CN112906005A (zh) * 2021-02-02 2021-06-04 浙江大华技术股份有限公司 Web漏洞扫描方法、装置、系统、电子装置和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1866817A (zh) * 2006-06-15 2006-11-22 北京华景中天信息技术有限公司 网站安全风险评估方法和系统
CN1870493A (zh) * 2006-06-15 2006-11-29 北京华景中天信息技术有限公司 网站安全漏洞扫描方法
CN101808093A (zh) * 2010-03-15 2010-08-18 北京安天电子设备有限公司 一种对web安全进行自动化检测的系统和方法

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2283341A (en) 1993-10-29 1995-05-03 Sophos Plc Central virus checker for computer network.
US7475427B2 (en) * 2003-12-12 2009-01-06 International Business Machines Corporation Apparatus, methods and computer programs for identifying or managing vulnerabilities within a data processing network
US7765597B2 (en) * 2004-02-11 2010-07-27 Hewlett-Packard Development Company, L.P. Integrated crawling and auditing of web applications and web content
CN1808093A (zh) 2006-01-28 2006-07-26 重庆大学 基于磁流变技术的汽车悬架系统整车阻尼匹配试验方法及系统
US8615800B2 (en) * 2006-07-10 2013-12-24 Websense, Inc. System and method for analyzing web content
US8020206B2 (en) * 2006-07-10 2011-09-13 Websense, Inc. System and method of analyzing web content
US8656495B2 (en) * 2006-11-17 2014-02-18 Hewlett-Packard Development Company, L.P. Web application assessment based on intelligent generation of attack strings
US8286248B1 (en) * 2007-02-01 2012-10-09 Mcafee, Inc. System and method of web application discovery via capture and analysis of HTTP requests for external resources
DK2258126T3 (da) * 2008-04-02 2012-10-15 Nokia Siemens Networks Oy Sikkerhed ved en ikke-3GPP adgang til et udviklet pakkesystem
JP2009258057A (ja) * 2008-04-21 2009-11-05 Hamamatsu Photonics Kk 放射線像変換パネル
JP5070124B2 (ja) 2008-05-16 2012-11-07 ヤフー株式会社 フィルタリング装置、およびフィルタリング方法
US9152789B2 (en) * 2008-05-28 2015-10-06 Zscaler, Inc. Systems and methods for dynamic cloud-based malware behavior analysis
US8136029B2 (en) * 2008-07-25 2012-03-13 Hewlett-Packard Development Company, L.P. Method and system for characterising a web site by sampling
US8347386B2 (en) * 2008-10-21 2013-01-01 Lookout, Inc. System and method for server-coupled malware prevention
CN102859934B (zh) * 2009-03-31 2016-05-11 考持·维 网络可接入计算机服务的接入管理和安全保护系统和方法
JP2010250827A (ja) 2009-04-16 2010-11-04 Accenture Global Services Gmbh タッチポイントをカスタマイズするシステム
US8555391B1 (en) * 2009-04-25 2013-10-08 Dasient, Inc. Adaptive scanning
US8516590B1 (en) * 2009-04-25 2013-08-20 Dasient, Inc. Malicious advertisement detection and remediation
US20110219446A1 (en) * 2010-03-05 2011-09-08 Jeffrey Ichnowski Input parameter filtering for web application security
US8819637B2 (en) * 2010-06-03 2014-08-26 International Business Machines Corporation Fixing security vulnerability in a source code
US9251282B2 (en) * 2010-06-21 2016-02-02 Rapid7 LLC Systems and methods for determining compliance of references in a website
US20120017274A1 (en) * 2010-07-15 2012-01-19 Mcafee, Inc. Web scanning site map annotation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1866817A (zh) * 2006-06-15 2006-11-22 北京华景中天信息技术有限公司 网站安全风险评估方法和系统
CN1870493A (zh) * 2006-06-15 2006-11-29 北京华景中天信息技术有限公司 网站安全漏洞扫描方法
CN101808093A (zh) * 2010-03-15 2010-08-18 北京安天电子设备有限公司 一种对web安全进行自动化检测的系统和方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015534681A (ja) * 2012-09-18 2015-12-03 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation セキュリティ脆弱性に対するサーバ側アプリケーションの保証

Also Published As

Publication number Publication date
CN102404281A (zh) 2012-04-04
JP5572763B2 (ja) 2014-08-13
US10491618B2 (en) 2019-11-26
US20130227640A1 (en) 2013-08-29
CN102404281B (zh) 2014-08-13
JP2013537986A (ja) 2013-10-07

Similar Documents

Publication Publication Date Title
WO2012031460A1 (zh) 一种网站扫描设备和方法
WO2016201819A1 (zh) 检测恶意文件的方法和装置
WO2013139215A1 (zh) 病毒apk的识别方法及装置
US20150020203A1 (en) Method and device for processing computer viruses
CN109948334B (zh) 一种漏洞检测方法、系统及电子设备和存储介质
WO2013189216A1 (zh) 网页检测方法与扫描引擎
WO2014082599A1 (zh) 用于恶意程序查杀的扫描设备、云端管理设备及方法和系统
WO2013044744A1 (zh) 一种下载资源提供方法及装置
AU2004237916A1 (en) Detection of code-free files
JP2013543624A (ja) コンピュータシステムの分析方法および装置
JP5752642B2 (ja) 監視装置および監視方法
CN108900554B (zh) Http协议资产检测方法、系统、设备及计算机介质
JP6557334B2 (ja) アクセス分類装置、アクセス分類方法、及びアクセス分類プログラム
WO2017077847A1 (ja) 解析装置、解析方法、および、解析プログラム
CN110135153A (zh) 软件的可信检测方法及装置
WO2014075504A1 (zh) 一种运行应用程序的安全控制方法和装置
CN108667768A (zh) 一种网络应用指纹的识别方法及装置
US20160364567A1 (en) Monitoring device, monitoring method and monitoring program
US8863286B1 (en) Notification for reassembly-free file scanning
US20210092130A1 (en) Detecting malicious web pages by analyzing elements of hypertext markup language (html) files
US20130097707A1 (en) Terminal and method for terminal to determine file distributor
EP3859578B1 (en) Phishing site detection device, phishing site detection method and phishing site detection program
US20130254893A1 (en) Apparatus and method for removing malicious code
JP5456636B2 (ja) ファイル収集監視方法、ファイル収集監視装置及びファイル収集監視プログラム
JP7293170B2 (ja) シグネチャ生成装置、検出装置、シグネチャ生成プログラム及び検出プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11822983

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2013527447

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 13821867

Country of ref document: US

122 Ep: pct application non-entry in european phase

Ref document number: 11822983

Country of ref document: EP

Kind code of ref document: A1