WO2013026320A1

WO2013026320A1 - 一种网页挂马检测方法及系统

Info

Publication number: WO2013026320A1
Application number: PCT/CN2012/077469
Authority: WO
Inventors: 刘松
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2011-08-25
Filing date: 2012-06-25
Publication date: 2013-02-28
Also published as: US20140173736A1; CN102955913A

Abstract

本发明适用于计算机安全技术领域，提供了一种网页挂马检测方法及系统，所述方法包括：获取网页内容；对所获取的网页内容进行解析，提取脚本对象；构造对象执行引擎来模拟执行所述脚本对象的对象内容；监控所述对象内容的模拟执行，当出现异常行为时，确定所述对象内容包含危险数据。本发明可有效提高网页挂马检测的效率，降低网页挂马检测的漏检率和误检率。

Description

一种网页挂马检测方法及系统优先权申明

本专利申请要求 2011 年 8 月 25 日提交的中国专利申请号为 2011102455648, 申请人为腾讯科技（深圳）有限公司，发明名称为 "一种网页挂马检测方法及系统" 的优先权，该申请的全文以引用的方式并入本申请中。技术领域

本发明属于计算机安全技术领域，尤其涉及一种网页挂马检测方法及系统。背景技术

网页挂马是指攻击者利用诸如第三方控件或者浏览器等漏洞篡改网页，在网页上部署能够触发漏洞的危险数据。当用户使用浏览器浏览被挂马的网页时，如果系统中存在相应的漏洞，网页中包含的危险数据就会在用户系统下载和安装恶意软件，获取用户系统的控制权，窃取用户信息等，将严重威胁到用户系统的安全，因此对于网页挂马的检测显得十分必要。

现有的网页挂马检测方法主要釆用的是构建一个庞大的挂马网页特征数据库，通过对待检测网页进行逐个特征匹配来判断该网页是否为挂马网页。然而，由于网页脚本变形容易、加密方式又多种多样，通过特征匹配的方式进行网页挂马检测效率较低，而且漏检率和误检率较高。发明内容

本发明实施例的目的在于提供一种网页挂马检测方法及系统，提高网页挂马检测效率、以及降低漏检率和误检率。

本发明实施例是这样实现的，一种网页挂马检测方法，所述方法包括以下步骤：

A、获取网页内容；

B、对所获取的网页内容进行解析，提取脚本对象；

C、构造对象执行引擎来模拟执行所述脚本对象的对象内容；

D、监控所述对象内容的模拟执行，当出现异常行为时，确定所述对象内容包含危险数据。

本发明实施例的另一目的在于提供一种网页挂马检测系统，所述系统包括：

第一获取单元，用于获取网页内容；

信息提取单元，用于对所获取的网页内容进行解析，提取脚本对象；执行单元，用于构造对象执行引擎来模拟执行所述脚本对象的对象内容；

确定单元，用于监控所述对象内容的模拟执行，当出现异常行为时，确定所述对象内容包含危 P佥数据。

从上述技术方案可以看出，本发明实施例不需要提供庞大的挂马网页特征数据库就可以进行挂马网页的检测，从而可避免大量的特征匹配，提高了网页挂马检测的效率。而且，通过构造多个对象执行引擎来动态模拟执行脚本对象的对象内容，在模拟执行的过程中出现异常行为时，就可以确定该网页为挂马网页，有效减低了挂马网页的漏检率和误检率。附图说明

图 1是本发明实施例一提供的网页挂马检测方法的实现流程图；图 2是本发明实施例二提供的网页挂马检测方法的实现流程图；图 3是本发明实施例三提供的网页挂马检测系统的组成结构图；图 4是本发明实施例四提供的网页挂马检测系统的组成结构图。具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例通过获取网页内容，对所获取的网页内容进行解析，提取脚本对象，构造对象执行引擎来模拟执行所述脚本对象的对象内容，监控所述对象内容的模拟执行，当出现异常行为时，确定所述对象内容包含危险数据。本发明实施例不需要提供庞大的挂马网页特征数据库就可以进行挂马网页的检测，从而可避免大量的特征匹配，提高网页挂马检测的效率。而且，通过构造多个对象执行引擎来动态模拟执行脚本对象的对象内容，在模拟执行的过程中出现异常行为时，就可以确定该网页为挂马网页，有效减低了挂马网页的漏检率和误检率。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。实施例一：

图 1 是本发明实施例一提供的网页挂马检测方法的实现流程，该方法包括如下步骤：

步骤 S101 , 获取网页内容；

在本实施例中，可通过现有的网页爬虫获取网页内容。同时，为了提高网页内容获取的效率，在获取网页内容时，可以预先设置过滤条件，过滤网页内容中的非法数据类型和超过预定大小的文件。

步骤 S102, 对所获取的网页内容进行解析，提取脚本对象。

在本实施例中，通过现有的网页解析器对获取的网页内容进行解析，提取标签、文本以及脚本对象等信息。网页内容包括多个脚本对象，如 table、 title 等。而危险数据通常出现在特定的脚本对象中，例如： iframe、引用 javascript脚本的 URL地址、 Active控件 ( object对象）以及 javascript代码 ( script对象）等。

作为本发明的一个优选实施例，提供了一个可能包含危险数据的脚本对象的对象特征的对象特征库，根据该对象特征库对获取的网页内容进行特征匹配，以提取可能包含危险数据的脚本对象。

步骤 S103 , 构造对象执行引擎来模拟执行所述脚本对象的对象内容。在本实施例中，所述构造对象执行引擎是一个脚本执行的虚拟机，该虚拟机内定义了一些能够被挂马网页利用的脚本对象和方法，例如： javascript对象、 iframe对象等。其中，所述对象内容包括但不局限于 javascript 脚本、 Active控件等，所述对象执行引擎包括但不局限于 javascript脚本解释引擎、 Active控件执行引擎等。

优选的是，构造对象执行引擎来模拟执行所述脚本对象的对象内容包括以下三种方式： a) 初始化浏览器对象；

为了正确的模拟浏览器执行脚本的过程，需要定义基本的浏览器对象，如 window, document, navigator, location, ...javascript初始化脚本。

function CDocument()

{

This.elments = "Mozilla";

This.getElementBylD = function(arg)

{ } }

this. document = new CDocument();

b)模拟执行 ActiveX对象；为了能够在挂马网页执行到包含危险数据的脚本对象时检测到异常，需要重新定义一些被挂马网页利用的脚本对象和方法，当挂马网页执行这些定义的脚本对象和方法时，将由对象执行引擎接管。过程如下：

1)创建一个空的 javascript对象；

2)根据该对象 ID为其添加相应的属性和方法（例如：列表的高、宽等）；

3) 该对象在调用漏洞触发函数时由 javascript脚本解释引擎接管， javascript脚本解释引擎根据该对象中参数（不局限于参数判断）判断该对象是否为包含危险数据的对象，若是，则获取该对象的下载链接。

c) 获取 j?兆转： location, location.href, iframe.src等。

为了提取到网页中的各类跳转，需要自定义 location, iframe等对象，并为该对象设置属性拦截器。当网页脚本中存在 loctioiLsrc等跳转语句时，拦截器将获取其跳转的目标链接。

因此，在对象执行引擎模拟执行脚本对象的对象内容中，也包括当前网页的脚本对象和该网页引用的脚本对象。例如： <iframe src=http: //***.com width=0 height=0> </iframe> , iframe对象引用的 http: //***. com„

当对象执行引擎发现某个网页挂马时，通过各网页间的跳转关系，可以将其源 URL也一并捕获。

作为本发明的一个实施例，为了使对象执行引擎可以正确的处理所提取的每个脚本对象，需要对脚本对象的对象内容进行转换，转换成对象执行引擎可识别的语言。

步骤 S104, 监控所述对象内容的模拟执行，当出现异常行为时，确定所述对象内容包含危险数据。

在本实施例中，所述危险数据是指能够触发漏洞的数据。所述异常行为包括但不局限于所述 javascript脚本在执行时分配的内存是否超过预设阔值或者覆盖了特定地址、或者所述控件在执行时调用危险接口。作为本发明的另一实施例，所述方法在步骤 S103之后还可以包括：通过对象执行弓 )擎枚举网页文本内容中的所有属性，并检测所述属性是否具有 shellcode特征。

在本实施例中，为了进一步提高检测的准确性，对象执行引擎在执行完脚本对象后，将枚举网页文本中的所有属性，并通过开源库 libemu提供的 X86仿真器以及 GetPC启发器对所述属性进行 Shellcode检测。

通过增加的 Shellcode检测，可以更准确、快速的检测出网页是否为挂马网页。

在本发明实施例中，通过获取网页内容，对所获取的网页内容进行解析，提取脚本对象，构造对象执行引擎来模拟执行所述脚本对象的对象内容，监控所述对象内容的模拟执行，当出现异常行为时，确定所述对象内容包含危险数据。本发明实施例不需要提供庞大的挂马网页特征数据库就可以进行挂马网页的检测，从而可避免大量的特征匹配，提高网页挂马检测的效率。而且，通过构造多个对象执行引擎来动态模拟执行脚本对象的对象内容以及网页的 shellcode检测，从多个方面判断脚本对象是否存在异常行为，例如：判断 javascript脚本在执行时分配的内存是否超过预设阔值或者是否覆盖了特定地址、或者所述控件是否在执行时调用危险接口以及所述对象内容的属性值或者参数值是否存在异常等，从而可有效减低挂马网页的漏检率和误检率。

实施例二：

图 2示出了本发明实施例二提供的网页挂马检测方法的实现流程，该实施例是在实施例一的基础上增加了步骤 S201 , 其他的步骤 S202~S205与实施例一中的步骤 S101~S104完全相同。

在步骤 S201 中，获取与当前检测网页中的脚本对象相关联的 URL链接。

在本实施例中，为了进一步保护系统安全，增强网页挂马检测的实用性和有效性。在存在与当前检测网页中的脚本对象相关联的 URL链接时，需要获取与该脚本对象相关联的所有 URL链接，并对所述相关联的 URL 链接递归执行与实施例一相同的步骤，来判断所述相关的 URL链接中是否存在包含危 P佥数据的脚本对象。

实施例三：

图 3 示出了本发明实施例三提供的网页挂马检测系统的组成结构，为了便于说明，仅示出了与本发明实施例相关的部分。

该网页挂马检测系统可以是运行于各应用系统内的软件单元、硬件单元或者软硬件相结合的单元。

该网页挂马检测系统包括第一获取单元 31、信息提取单元 32、执行单元 33以及确定单元 34。其中，各单元的具体功能如下：

第一获取单元 31 , 用于获取网页内容；

信息提取单元 32, 用于对所获取的网页内容进行解析，提取脚本对象。其中，所述信息提取单元 32还包括信息提取模块 321 , 所述信息提取模块 321 用于根据可能包含危险数据的脚本对象的对象特征对所获取的网页内容进行特征匹配，提取可能包含危险数据的脚本对象。

执行单元 33 , 用于构造对象执行引擎来模拟执行所述脚本对象的对象内容；

确定单元 34, 用于监控所述对象内容的模拟执行，当出现异常行为时，确定所述对象内容包含危 P佥数据。在本实施例中，所述对象内容包括 javascript脚本、 Active控件，所述对象执行引擎包括 javascript脚本解释引擎、 Active控件执行引擎，所述异常行为包括所述 javascript脚本在执行时分配的内存是否超过预设阔值或者覆盖了特定地址、或者所述控件在执行时调用危险接口。

作为本发明的另一实施例，为了进一步提高检测的准确性，所述系统还可以包括检测单元 35 , 用于通过对象执行引擎枚举网页文本内容中的所有属性，并检测所述属性是否具有 shellcode特征。

本实施例提供的网页挂马检测系统可以使用在前述对应的网页挂马检测方法，详情参见上述网页挂马检测方法实施例一的相关描述，在此不再赘述。

实施例四：

图 4示出了本发明实施例四提供的网页挂马检测系统的组成结构，为了便于说明，仅示出了与本发明实施例相关的部分。

为了进一步保护系统安全，增强网页挂马检测的实用性和有效性，该网页挂马检测系统在实施例三的基础上增加了第二获取单元 41 , 所述第二获取单元 41用于获取与当前检测网页中的脚本对象相关联的 URL链接，并通过实施例三所述的系统来检测所述 URL链接所述指向的网页内容是否包含危险数据。

本实施例提供的网页挂马检测系统可以使用在前述对应的网页挂马检测方法，详情参见上述网页挂马检测方法实施例二的相关描述，在此不再赘述。

在本发明实施例中，通过获取网页内容，对所获取的网页内容进行解析，提取脚本对象，构造对象执行引擎来模拟执行所述脚本对象的对象内容，监控所述对象内容的模拟执行，当出现异常行为时，确定所述对象内容包含危险数据。本发明实施例不需要提供庞大的挂马网页特征数据库就可以进行挂马网页的检测，从而可避免大量的特征匹配，提高网页挂马检测的效率。而且，通过构造多个对象执行引擎来动态模拟执行脚本对象的对象内容以及网页的 shellcode检测，从多个方面判断脚本对象是否存在异常行为，例如：判断 javascript脚本在执行时分配的内存是否超过预设阔值或者是否覆盖了特定地址、或者所述控件是否在执行时调用危险接口以及所述对象内容的属性值或者参数值是否存在异常等，从而可有效减低挂马网页的漏检率和误检率。同时，为了进一步保护系统安全，增强网页挂马检测的实用性和有效性。在存在与当前脚本对象相关联的 URL链接时，需要获取与当前脚本对象相关联的所有 URL链接，并对所述相关联的 URL 链接递归执行与实施例一相同的网页挂马检测步骤，来判断所述相关的 URL链接中是否存在包含危险数据的脚本对象。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体

RAM )等。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

权利要求书

1、一种网页挂马检测方法，其特征在于，所述方法包括：

获取网页内容；

对所获取的网页内容进行解析，提取脚本对象；

构造对象执行引擎来模拟执行所述脚本对象的对象内容；

监控所述对象内容的模拟执行，当出现异常行为时，确定所述对象内容包含危险数据。

2、如权利要求 1所述的方法，其特征在于，所述提取脚本对象还包括：根据可能包含危险数据的脚本对象的对象特征对所获取的网页内容进行特征匹配，提取可能包含危险数据的脚本对象。

3、如权利要求 1所述的方法，其特征在于，所述构造对象执行引擎来模拟执行所述脚本对象的对象内容通过以下三种方式中的任意一种实现：初始化浏览器对象；

模拟执行 ActiveX对象；

获取跳转。

4、如权利要求 1 或 3 所述的方法，其特征在于，所述对象内容包括 javascript脚本、 Active控件；

所述对象执行引擎包括 javascript脚本解释引擎、 Active控件执行引擎；所述异常行为包括所述 javascript脚本在执行时分配的内存是否超过预设阔值、或者覆盖了特定地址、或者所述控件在执行时调用危险接口。

5、如权利要求 1所述的方法，其特征在于，所述方法还包括：获取所述脚本对象相关联的 URL链接，通过递归执行权利要求 1所述的方法来检测所述 URL链接所述指向的网页内容是否包含危险数据。

6、如权利要求 1或 3所述的方法，其特征在于，所述构造对象执行引擎来模拟执行所述脚本对象的对象内容之后，所述方法还包括：通过所述对象执行引擎枚举网页文本内容中的所有属性，并检测所述属性是否具有 shellcode特征。

7、一种网页挂马检测系统，其特征在于，所述系统包括：

第一获取单元，用于获取网页内容；

8、如权利要求 7所述的系统，其特征在于，所述信息提取单元还包括：信息提取模块，用于根据可能包含危险数据的脚本对象的对象特征对所获取的网页内容进行特征匹配，提取可能包含危险数据的脚本对象。

9、如权利要求 7所述的系统，其特征在于，所述执行单元用于通过以下三种方式中的任意一种构造对象执行引擎来模拟执行所述脚本对象的对象内容：

初始化浏览器对象；

模拟执行 ActiveX对象；

获取跳转。

10、如权利要求 7或 9所述的系统，其特征在于，所述对象内容包括 javascript脚本、 Active控件，所述对象执行弓 |擎包括 javascript脚本解释弓 | 擎、 Active控件执行引擎，所述异常行为包括所述 javascript脚本在执行时分配的内存是否超过预设阔值、或者覆盖了特定地址、或者所述控件在执行时调用危险接口。

11、如权利要求 7或 9所述的系统，其特征在于，所述系统还包括：第二获取单元，用于获取所述脚本对象相关联的 URL链接，通过所述第一获取单元、信息提取单元、执行单元和确定单元检测所述 URL链接所述指向的网页内容是否包含危 P佥数据。

12、如权利要求 7或 9所述的系统，其特征在于，所述系统还包括：检测单元，用于通过对象执行引擎枚举网页文本内容中的所有属性，并检测所述属性是否具有 shellcode特征。