WO2017063274A1

WO2017063274A1 - 一种恶意跳转及恶意嵌套类不良网站的自动判定方法

Info

Publication number: WO2017063274A1
Application number: PCT/CN2015/098469
Authority: WO
Inventors: 王翠翠; 耿光刚; 延志伟
Original assignee: 中国互联网络信息中心
Priority date: 2015-10-15
Filing date: 2015-12-23
Publication date: 2017-04-20
Also published as: CN105376217A; CN105376217B

Abstract

本发明提出一种恶意跳转及恶意嵌套类不良网站的自动判定方法，包括：1)构建一域名黑名单；2)搭建一递归服务器，在一待判定网站发起域名查询请求时进行递归解析，同时启用查询日志记录功能，对待判定网站发起的域名查询请求进行记录；3)利用服务器模拟浏览器访问行为，对待判定网站进行轮询访问；4)对递归服务器的查询日志进行分析，形成待筛选的域名列表；5)对于域名列表中的各域名进行筛选，形成疑似滥用域名列表；6)将疑似滥用域名列表与所述域名黑名单进行比对，判定该待判定网站是否为恶意网站。基于域名解析，通过模拟浏览器访问行为，捕获上述两类网站的域名查询集合，最终通过黑名单匹配的机制实现两类网站的判定。

Description

一种恶意跳转及恶意嵌套类不良网站的自动判定方法

技术领域

本发明涉及网络安全技术领域，具体涉及一种恶意跳转及恶意嵌套类不良网站的自动判定方法。

背景技术

域名系统(Domain Name System，缩写DNS)是因特网的一项核心服务，它作为将域名和IP地址相互映射的一个分布式数据库，是用户访问网络资源的入口。由于其直观性和便利性，方便了人们对于网络资源的访问，但同时也产生了大量的域名滥用现象，包括网络钓鱼，色情、赌博等不良网站、僵尸网络等，造成了用户信息的泄露及财产的损失，更为社会风气带来了严重的不良影响。

随着部分顶级域(例如.CN域名)实名认证的实施以及打击域名滥用力度的增强，不法分子利用域名滥用牟取暴利的难度增大。为了躲避不良应用审查及检测，恶意跳转、恶意嵌入类型的不良网站日益增多。这两种类型的网站其典型的特点是：可见而不可得。所谓“可见而不可得”指的是通过浏览器打开网站，可以看到其属于明显的不良网站；但通过抓取网页源码进行不良应用检测时，却无法检测到不良元素存在。

恶意跳转网站其特点是从一个网址(域名)跳到另一个网址(域名)，甚至跳转多次。该类网站主要通过Refresh、JavaScript等形式提供不良服务。以JavaScript跳转为例，JavaScript本身是编程语言，跳转方式多样化，被称为恶意跳转，目前对该类型的网站尚无完备的解决方案。除此之外，搜索引擎都对于JavaScript代码也均不做处理。因而恶意跳转又被叫做跳转作弊。

恶意嵌套网站，指网页通过使用某种框架，或通过JavaScript代码，实现对另外一个网页的嵌套，网络爬虫得到的是一个页面，而用户看到的是另外一个页面的信息，很多网站，特别是色情和赌博等不良网站热衷于使用嵌套作弊技术，究其原因，不外乎两点：1)用来欺骗自动化探测算法，以躲避监管、谋取利益；2)一旦被查处，可以很容易死而复生，因为被嵌入的内核网站还在，只需要换一个外壳，就能继续提供服务。由于该类网站的实现主要通过JavaScript代码恶意跳转和外域嵌入等形式提供不良服务，且JavaScript作为编程语言，嵌入方式不计其数，给识别带来极大的困难。类似的，该类网站还可能通过CSS模式恶意嵌套或嵌入。

可见，对于恶意跳转及恶意嵌套类的不良网站，传统的识别方法，包括基于文本和链接等信息的统计学习、基于图像识别的检测均已失效。

发明内容

针对上述问题，本发明的目的是提出一种恶意跳转及恶意嵌套类不良网站的自动判定方法，基于域名解析，通过模拟浏览器访问行为，捕获上述两类网站的域名查询集合，最终通过黑名单匹配的机制实现两类网站的判定。

为达上述目的，本发明采取的具体技术方案是：

一种恶意跳转及恶意嵌套类不良网站的自动判定方法，包括以下步骤：

1)构建一域名黑名单；

2)搭建一递归服务器，在一待判定网站发起域名查询请求时进行递归解析，同时启用查询日志记录功能，对待判定网站发起的域名查询请求进行记录；同时设置一服务器的DNS查询指向该递归服务器；

3)利用服务器模拟浏览器访问行为，对待判定网站进行轮询访问；

4)对递归服务器的查询日志进行分析，捕获各待判定网站的对应的域名查询序列，对其进行归并，形成待筛选的域名列表；

5)对于域名列表中的各域名进行筛选，形成疑似滥用域名列表；

6)将疑似滥用域名列表与所述域名黑名单进行比对，并取交集；若交集不为空，则判定该交集对应的待判定网站为恶意网站。

进一步地，步骤1)中所述域名黑名单的来源包括：公安部28类违法和不良的人工举报数据、中国反钓鱼网站联盟每日处理的数据及网络公布数据。

进一步地，所述网络公布数据可选为phishingtank数据。

进一步地，步骤2)中所述递归服务器通过BIND软件搭建；所述启动查询日志记录功能通过设置递归服务器的配置文件实现。

进一步地，步骤2)中所述模拟浏览器访问行为之前清除并禁用浏览器缓存及浏览器的DNS缓存。

进一步地，步骤4)中所述待筛选的域名列表的格式如下：

NETSTATION1—>(domainname1，domainname2，…..)

NETSTATION2—>(domainname3,domainname4,……)

……

其中NETSTATION1、NETSTATION2为待判定网站，domainname1～domainname4为各网站对应的待筛选的域名。

进一步地，步骤3)中所述对待判定网站进行轮询访问时，每访问一个待判定网站，再对一个不存在的网站进行访问。

进一步地，步骤4)中所述对递归服务器的查询日志进行分析，捕获各待判定网站的对应的域名查询序列包括，提取前后两次访问该不存在的网站之间的查询日志。

进一步地，步骤5)中所述对于域名列表中的各域名进行筛选包括，对于域名列表中的各域名依据其对应的待判定网站的PR值进行筛选。

进一步地，所述对于域名列表中的各域名依据其对应的待判定网站的PR值进行筛选包括，若一待筛选域名对应的网站的PR值小于一设定阀值，则将此域名添加至疑似滥用域名列表，否则，判定该域名为非滥用域名。

如上述，本方法的实现主要包括以下两个方面:

(1)提出黑名单匹配机制进行不良网站判定。

考虑到以恶意跳转和恶意嵌入不良网站作弊行为往往是为了核心网站内容的重复利用。在进行不良网站检测之前，首先构建一个大型的黑名单，该黑名单的大小和实时性决定了在实际互联网检测环境中的有效性。

(2)通过搭建递归服务器捕获不良网站域名查询集合

考虑到恶意跳转及恶意嵌套不良网站，其在页面载入的过程中，均需要发起一系列跨域的DNS查询请求，本发明的方法从DNS查询请求入手，搭建一个专用的DNS递归服务器，并设置电脑DNS查询指向该服务器，通过模拟浏览器访问行为，捕获域名查询的集合，进一步取该集合与黑名单的交集，如果交集不为空，则判定该网站为不良网站。

较传统的识别方法具有以下优点：

本发明的方法基于域名解析，无需对网页代码进行解析和检测，而是通过模拟访问行为提取待判定网站的域名查询序列，避免编程代码的误导，具有更高的准确性，且黑名单根据网络公开的安全信息数据实时的更新和调整，具有广泛的适应性。

附图说明

图1为本发明实施例中方法流程示意图。

图2为具体实施方式中所述common.js文件部分内容的示意图。

图3为具体实施方式中所述fery.js文件部分内容的示意图。

具体实施方式

为使本发明的上述特征和优点能更明显易懂，下文特举实施例，并配合所附图作详细说明如下。

本发明的工作原理是：考虑到背景技术所述的恶意行为在浏览器载入网页时都会发起一系列DNS查询请求，因此，本发明从域名解析的角度出发，提出了一种恶意跳转及恶意嵌套类不良网站的自动判定方法。包括以下的具体实现方式：

(1)构建大型黑名单

首先，构建一个大型的黑名单考虑到恶意跳转和恶意嵌入不良网站的作弊行为往往是为了核心网站内容的重复利用。该黑名单的大小和实时性决定了在实际互联网检测环境中的有效性。黑名单数据来源包括但不限定于：公安部28类违法和不良的人工举报数据，中国反钓鱼网站联盟每日处理的数据、网络公布数据如phishingtank数据等。

(2)搭建递归服务器

利用BIND软件搭建递归服务器，用于待判定网站在发起域名查询请求时进行递归解析，同时设置递归服务器的配置文件，启用查询日志记录功能，同时设置禁止使用递归服务器缓存，对待判定网站发起的域名查询请求进行记录。进一步设置服务器的DNS查询指向该递归服务器，这样浏览器在发起DNS查询时，即可将查询请求发送至该递归服务器。

以网站www.bjydhsbyxgs.cn的解析为例：

(1)服务器模拟浏览器发出bjydhsbyxgs.cn域名解析请求，并将该请求发送给搭建的递归服务器；

(2)由于在本发明中禁用递归服务器缓存，当递归服务器收到请求之后，将查询请求发给根域名服务器，同时在查询日志中记录查询的域名，然后根域名服务器返回给递归服务器一个所查询域的顶级域名服务器的地址；

(3)递归服务器再向查询返回的服务器发送请求，该服务器收到请求后查询其数据库，返回与此请求对应资源记录，递归服务器将返回的资源记录保存到本地缓存。

(4)重复步骤(3)，直至找到正确的查询记录；

(5)递归服务器将最终结果返回给浏览器，并将结果保存至缓存。

其查询日志中的域名查询记录如下所示：

21-May-2015 17:49:57.349 client 192.168.189.129#35835(bjydhsbyxgs.cn):query:bjydhsbyxgs.cn IN AAAA+(192.168.189.129)

21-May-2015 17:49:57.349 client 192.168.189.129#53751(bjydhsbyxgs.cn):query:bjydhsbyxgs.cn IN A+(192.168.189.129)

21-May-2015 17:49:58.162 client 192.168.189.129#53035(www.306070.com):query:www.306070.com IN AAAA+(192.168.189.129)

21-May-2015 17:50:05.007 client 192.168.189.129#53035(www.306070.com):query:www.306070.com IN AAAA+(192.168.189.129)

21-May-2015 17:50:18.303 client 192.168.189.129#54389(www.dwz.cn):query:www.dwz.cn IN AAAA+(192.168.189.129)

21-May-2015 17:50:22.251 client 192.168.189.129#59111(www.dwz.cn):query:www.dwz.cn IN A+(192.168.189.129)

其中，查询日志中的每一行为一个查询记录，每条查询记录中第一个括号中的内容即为查询的域名。

(3)清除并禁用浏览器相关缓存

因为当模拟浏览器访问网站时，首先会查询浏览器缓存，只有当缓存中无该网站的相关记录时，才将域名解析的请求发送至递归服务器。为了使递归服务器完整记录待检测网站的域名解析请求，应清除并禁用浏览器缓存，避免浏览器在访问网页内容时使用缓存中的内容。与此同时，清除并禁用浏览器的DNS缓存，避免浏览器在发起DNS查询请求时，使用其自身的DNS缓存。

(4)浏览器自动化轮询访问待判定网站列表

通过脚本模拟浏览器访问行为，对待判定网站进行轮询访问，同时，每访问一个网站，再对一个不存在的网站进行访问，例如www.xxxxxxxxxxxxxxxxxxx.cn，我们称该网站为XNAME。

(5)递归日志分析

完成待检测网站列表的轮询后，对递归服务器的查询日志进行分析，提取前后两次XNAME网站之间的查询日志，即可捕获各网站的对应的域名查询序列，对其进行归并，形成待筛选的域名列表。其列表格式如下：

NETSTATION1—>(domainname1，domainname2，…..)

NETSTATION2—>(domainname3,domainname4,……)

……

其中NETSTATION1、NETSTATION2为待判定网站，domainname1～domainname4为待筛选的域名。

(6)依据网站PR值对域名进行初步筛选

对于列表中的各域名，依据其对应网站的PR(PageRank)值进行初步筛选，形成疑似滥用域名列表。在一实施例中，将PR值的阈值设定为3。在对域名进行筛选时，若该域名对应网站的PR值小于3，则将此域名添加至疑似滥用域名列表，否则，判定该域名为非滥用域名。

例如对于(5)中待筛选列表，若domainname1对应网站的PR值小于3，则将domainname1从列表中删除，最终形成的疑似滥用域名列表如下：

NETSTATION1—>(domainname1a，domainname2a，…..)

NETSTATION2—>(domainname3a,domainname4a,……)

……

其中NETSTATION1、NETSTATION2为待检测网站，domainname1a～domainname4a为疑似滥用域名。

(7)黑名单匹配

将疑似滥用域名列表与黑名单进行比对，并取交集。若交集不为空，则判定其对应的网站为不良网站。

以(5)中的疑似滥用域名列表为例：

假设黑名单中的域名序列包括

(DOMAINNAMEabuse1，DOMAINNAMEabuse2，…DOMAINNAMEabusen)

若NETSTATION1中的domainname2a与DOMAINNAMEabuse2相同，则判定NETSTATION1为不良网站。

下面以实际的恶意网站为例，说明本发明的方法的实际判定过程：

(1)恶意嵌套网站

顶级域为.CN的网站其URL为：http://www.xiansx.com.cn/，通过common.js文件(文件部分内容如图1所示)嵌入了顶级域为.COM的网站，其URL为：http://www.ag823.com/。在进行网页代码检测时，并没有检测到不良元素存在，但当打开对用户而言看到的是后者，一个赌博网站。

(2)跳转网站——.CN跳转至.COM

顶级域为.CN的网站，其URL为http://www.xiaoyanzi568.cn，从网络爬虫获取的网页代码来看是南京中茂科技有限责任公司网站，无法检测到不良元素。但该网站的实质内容却为一个典型的赌博网站。该网站通过fery.js文件(文件部分内容如图2所示)恶意跳转到顶级域为.COM的网站，其URL为http://www.bzy888.com/。

在利用本发明的方法对上述两个不良网站进行判定时，通过分析查询日志可捕获其嵌套或跳转至的不良域名，通过与黑名单进行匹配，最终均可完成对上述两种不良网站的判定。

Claims

一种恶意跳转及恶意嵌套类不良网站的自动判定方法，包括以下步骤：

1)构建一域名黑名单；

2)搭建一递归服务器，在一待判定网站发起域名查询请求时进行递归解析，同时启用查询日志记录功能，对待判定网站发起的域名查询请求进行记录；同时设置一服务器的DNS查询指向该递归服务器；

3)利用服务器模拟浏览器访问行为，对待判定网站进行轮询访问；

4)对递归服务器的查询日志进行分析，捕获各待判定网站的对应的域名查询序列，对其进行归并，形成待筛选的域名列表；

5)对于域名列表中的各域名进行筛选，形成疑似滥用域名列表；

6)将疑似滥用域名列表与所述域名黑名单进行比对，并取交集；若交集不为空，则判定该交集对应的待判定网站为恶意网站。
如权利要求1所述的恶意跳转及恶意嵌套类不良网站的自动判定方法，其特征在于，步骤1)中所述域名黑名单的来源包括：公安部28类违法和不良的人工举报数据、中国反钓鱼网站联盟每日处理的数据及网络公布数据。
如权利要求2所述的恶意跳转及恶意嵌套类不良网站的自动判定方法，其特征在于，所述网络公布数据为phishingtank数据。
如权利要求1所述的恶意跳转及恶意嵌套类不良网站的自动判定方法，其特征在于，步骤2)中所述递归服务器通过BIND软件搭建；所述启动查询日志记录功能通过设置递归服务器的配置文件实现。
如权利要求1所述的恶意跳转及恶意嵌套类不良网站的自动判定方法，其特征在于，步骤2)中所述模拟浏览器访问行为之前清除并禁用浏览器缓存及浏览器的DNS缓存。
如权利要求1所述的恶意跳转及恶意嵌套类不良网站的自动判定方法，其特征在于，步骤3)中所述对待判定网站进行轮询访问时，每访问一个待判定网站，再对一个不存在的网站进行访问。
如权利要求6所述的恶意跳转及恶意嵌套类不良网站的自动判定方法，其特征在于，步骤4)中所述对递归服务器的查询日志进行分析，捕获各待判定网站的对应的域名查询序列包括，提取前后两次访问该不存在的网站之间的查询日志。
如权利要求1所述的恶意跳转及恶意嵌套类不良网站的自动判定方法，其特征在于，步骤4)中所述待筛选的域名列表的格式如下：

NETSTATION1—>(domainname1，domainname2，…..)

NETSTATION2—>(domainname3,domainname4,……)

……

其中NETSTATION1、NETSTATION2为待判定网站，domainname1～domainname4为各网站对应的待筛选的域名。
如权利要求1所述的恶意跳转及恶意嵌套类不良网站的自动判定方法，其特征在于，步骤5)中所述对于域名列表中的各域名进行筛选包括，对于域名列表中的各域名依据其对应的待判定网站的PR值进行筛选。
如权利要求9所述的恶意跳转及恶意嵌套类不良网站的自动判定方法，其特征在于，所述对于域名列表中的各域名依据其对应的待判定网站的PR值进行筛选包括，若一待筛选域名对应的网站的PR值小于一设定阀值，则将此域名添加至疑似滥用域名列表，否则，判定该域名为非滥用域名。