WO2013013475A1

WO2013013475A1 - 网络钓鱼检测方法及装置

Info

Publication number: WO2013013475A1
Application number: PCT/CN2011/083671
Authority: WO
Inventors: 洪博; 耿光刚; 王利明; 肖雅丽
Original assignee: 中国科学院计算机网络信息中心
Priority date: 2011-07-28
Filing date: 2011-12-08
Publication date: 2013-01-31
Also published as: CN102316099B; CN102316099A

Abstract

本发明提供一种网络钓鱼检测方法及装置。该方法包括：获取与钓鱼目标关键词匹配的疑似钓鱼主机名；获取与所述钓鱼目标对应的钓鱼统一资源定位符URL路径；将所述疑似钓鱼主机名和所述钓鱼URL路径拼接成疑似钓鱼URL；对所述疑似钓鱼URL进行检测，确定所述疑似钓鱼URL是否为钓鱼URL。本发明实施例通过主动获取与钓鱼目标关键词匹配的疑似钓鱼主机名和与所述钓鱼目标对应的钓鱼URL路径，拼接成疑似钓鱼URL，并对疑似钓鱼URL进行检测确定是否为钓鱼URL的技术手段，克服了现有技术中依靠用户触发的被动检测无法应对越来越猖獗普遍的钓鱼攻击的问题，进而实现了更早的发现钓鱼网站，提高了钓鱼网站检出效率。

Description

网络钓鱼检测方法及装置

技术领域本发明涉及网络安全技术领域，尤其是一种网络钓鱼检测方法及装置。背景技术

网络钓鱼，是指通过发送垃圾电子邮件等方式，将收信用户引诱到一个通过精心设计与目标组织的网站非常相似的钓鱼网站上，并获取收信用户在此钓鱼网站上输入的个人敏感信息的网络犯罪行为。由于电子商务和互联网应用的普及和发展，网络钓鱼造成的损失日益严重。

目前，出现的众多检测和判断钓鱼攻击的技术手段可以主要分为三大类：黑名单技术、启发式特征检测技术和基于模式识别的检测技术。黑名单技术是通过用户举报或评价来维护一个不断更新的钓鱼网站名单列表，从而阻止更多的用户不要访问已发现的钓鱼网站。启发式特征检测技术是通过将钓鱼网站的链接、文本内容、域名信息等特征作为钓鱼网站判定的标准，以该标准对未知的钓鱼网站进行检测。基于模式识别的检测技术是通过对大量钓鱼网站样本提取特征向量，然后进行训练后形成判别模型，以该判别模型对未知的钓鱼网站进行检测。不管采用上述哪种技术，几乎都需要客户端或者浏览器插件被动的接受用户提交的统一资源定位符 (Uniform Universal Resource Locator, 简称 URL), 然后将用户提交的 URL发给检测装置，检测装置才能利用上述检测技术对该 URL是否是钓鱼网站的 URL (简称钓鱼 URL )进行判断。

现有技术中检测装置只能被动的接受客户端提交的 URL进行检测。而钓鱼攻击越来越猖獗普遍，仅仅依靠用户触发的被动检测，显然是不足以应对钓鱼攻击的。发明内容

本发明实施例提供一种网络钓鱼检测方法及装置，以解决现有技术中依靠用户触发的被动检测无法应对越来越猖獗普遍的钓鱼攻击的问题。一方面，本发明实施例提供了一种网络钓鱼检测方法，包括：获取与钓鱼目标的关键词匹配的疑似钓鱼主机名；

获取与所述钓鱼目标对应的钓鱼统一资源定位符 URL路径；

将所述疑似钓鱼主机名和所述钓鱼 URL路径拼接成疑似钓鱼 URL; 对所述疑似钓鱼 URL 进行检测，确定所述疑似钓鱼 URL是否为钓鱼

URL。

另一方面，本发明实施例提供了一种网络钓鱼检测装置，包括：疑似主机获取模块，用于获取与钓鱼目标的关键词匹配的疑似钓鱼主机名；

URL路径获取模块，用于获取与所述钓鱼目标对应的钓鱼统一资源定位符 URL路径；

URL构造模块，用于将所述疑似钓鱼主机名和所述钓鱼 URL路径拼接成疑似钓鱼 URL;

检测模块，用于对所述疑似钓鱼 URL进行检测，确定所述疑似钓鱼 URL 是否为钓鱼 URL。

本发明实施例通过主动获取与钓鱼目标的关键词匹配的疑似钓鱼主机名和与所述钓鱼目标对应的钓鱼 URL路径，将所述疑似钓鱼主机名和钓鱼 URL 路径拼接成疑似钓鱼 URL, 并对所述疑似钓鱼 URL进行检测确定所述疑似钓鱼 URL是否为钓鱼 URL的技术手段，克服了现有技术中依靠用户触发的被动检测无法应对越来越猖獗普遍的钓鱼攻击的问题，进而实现了更早的发现钓鱼网站，提高了钓鱼网站检出效率。附图说明为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图 1是本发明提供的一种网络钓鱼检测方法实施例一的流程示意图。图 2是本发明提供的一种网络钓鱼检测方法实施例二的流程示意图。图 3是本发明提供的一种网络钓鱼检测装置实施例一的结构示意图。图 4为本发明提供的一种网络钓鱼检测装置实施例二的结构示意图。具体实施方式为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在实现本发明的过程中，发明人通过分析实际的钓鱼举报数据，发现当前超过 90%的钓鱼攻击依然是传统模式，即通过采用对钓鱼目标有仿冒行为的统一资源定位符 (Uniform Universal Resource Locator, 简称 URL)和其对应网页吸引欺骗用户泄露自己的账号等机密信息。这里的钓鱼目标是指被钓鱼网站的仿冒对象，比如淘宝网，中国工商银行等。其中 URL 包括主机名和 URL路径, t匕^口 http：〃 item.taobao.com/member/minilogin.asp这是个 URL, 它由主机名 http：〃 item.taobao.com/和 URL路径 /member/minilogin.asp组成。以釣鱼目标为淘宝网举例来说，对该钓鱼目标有仿冒行为的 URL, 即钓鱼网站可以是 http://item.taobao.cvbda.co.cc/member/minilogin.asp。因 jth , 通过十网络上活跃主机进行有针对性的扫描和检测，可以检索出有仿冒倾向的主机作为疑似钓鱼主机。另一方面，由于钓鱼攻击中执行钓鱼功能的页面 URL现在的结构层次越来越复杂，一般采用多级域多层级路径的形式，因此仅仅依靠主机往往很难检测出真正的钓鱼页面。所以，本发明实施例提出采用已经判定的钓鱼数据库中的 URL路径作为补充，和疑似钓鱼主机名拼接在一起，从而构造出完整的疑似钓鱼 URL。然后对疑似钓鱼 URL进行检测，以确定钓鱼 URL。

图 1是本发明提供的一种网络钓鱼检测方法实施例一的流程示意图。如图 1所示，该实施例包括：

步骤 101、获取与钓鱼目标的关键词匹配的疑似钓鱼主机名；

举例来说，检测装置可以基于网络管理员手工输入获取与钓鱼目标的关键词匹配的疑似钓鱼主机名，也可以是从域名系统（ Domain Name System, 简称 DNS )服务器查询获取疑似钓鱼主机名，本实施例对此不作限定。所述与钓鱼目标的关键词匹配的疑似钓鱼主机名通常是与钓鱼目标的主机名相近似的主机名。比如钓鱼目标为淘宝网，其关键词可以是 taobao , 与该关键词匹配的疑似钓鱼主机名可以是 htt ：〃 www.taobao.co.cc/等。

步骤 102、获取与所述钓鱼目标对应的钓鱼 URL路径；

这里，与所述钓鱼目标对应的钓鱼 URL路径是指针对该钓鱼目标，使用过的钓鱼 URL路径，通常可以从现有的数据库中获取。其中，现有数据库中存储了钓鱼目标和与钓鱼目标对应的一个或多个钓鱼 URL ,从所述钓鱼 URL 中截取出钓鱼 URL路径。

另外需要特别说明的是，实际应用中步骤 101和步骤 102之间没有一定的先后顺序关系，步骤 101和步骤 102都只要在步骤 103之前执行即可。

步骤 103、将所述疑似钓鱼主机名和所述钓鱼 URL路径拼接成疑似钓鱼

URL;

步骤 104、对所述疑似钓鱼 URL进行检测，确定所述疑似钓鱼 URL是否为钓鱼 URL。单技术、启发式特征检测技术、基于模式识别的检测技术等，本实施例对此不作限定。

实际应用中，可以对一个钓鱼目标进行网络钓鱼检测，也可以对多个钓鱼目标进行网络钓鱼检测，本实施例对此不作限定。

本发明实施例通过主动获取与钓鱼目标的关键词匹配的疑似钓鱼主机名和与所述钓鱼目标对应的钓鱼 URL路径，将所述疑似钓鱼主机名和钓鱼 URL 路径拼接成疑似钓鱼 URL, 并对疑似钓鱼 URL进行检测确定所述疑似钓鱼 URL是否为钓鱼 URL的技术手段，克服了现有技术中依靠用户触发的被动检测无法应对越来越猖獗普遍的钓鱼攻击的问题，进而实现了更早的发现钓鱼网站，提高了钓鱼网站检出效率。

图 2是本发明提供的一种网络钓鱼检测方法实施例二的流程示意图。如图 2所示，该实施例包括：

步骤 201、从 DNS服务器获取主机查询日志；

这里的主机查询日志包含查询的主机名、查询时间、查询来源 IP等信息，具体可以是权威查询日志，也可以是递归查询日志，本实施例对此不作限定。

步骤 202、根据所述主机查询日志确定主机名列表；将所述主机查询日志中查询的主机名提取出来，形成主机名列表步骤 203、对所述主机名列表进行预处理，形成有效主机名列表；这里的预处理包括但不限于以下任一种方式或方式的组合： 1 )从所述主机名列表中删除重复的主机名； 2 )从所述主机名列表中删除端口处于关闭状态的主机的主机名； 3 )从所述主机名列表中删除白名单中的主机名； 4 )从所述主机名列表中删除页面等级 Page Rank值正常的主机的主机名。

步骤 204、匹配钓鱼目标的关键词，从所述有效主机名列表中确定与所述钓鱼目标的关键词匹配的疑似钓鱼主机名；

这里的钓鱼目标的关键词，比如钓鱼目标为淘宝网，则该钓鱼目标的关键词可以为 taobao。进一步地，这里还可以用关键词的组合来匹配，比如 item 和 taobao的组合经常出现在针对淘宝网的钓鱼 URL主机中，则可以用 item 和 taobao 的组合来匹配所述有效主机名列表中的主机名，比如匹配中了 http：〃 item.taobao.cvbda.co.cc/作为一个针对淘宝网的疑似钓鱼主机名。

步骤 205、从钓鱼数据库中读取与所述钓鱼目标对应的钓鱼 URL路径；这里可以采用现有技术中任何一个公开的钓鱼举报数据源作为钓鱼数据库，比如 phishtank.com等。钓鱼数据库包含如下信息：钓鱼目标和与该钓鱼目标对应的钓鱼 URL。步骤 205在钓鱼数据库确定与所述钓鱼目标对应的钓鱼 URL后，读取钓鱼 URL中的路径部分，也就是钓鱼 URL路径。这里的与所述钓鱼目标对应的钓鱼 URL路径可以是一个，也可以是多个，本实施例对此不做限定。另外需要特别说明的是，步骤 205和步骤 201〜204之间没有一定的先后顺序关系，步骤 205和步骤 201〜204均只要在步骤 206之前执行即可。

若与所述钓鱼目标对应的钓鱼 URL路径有至少两个，则步骤 205进一步包括：按照出现频率从高到低对所述至少两个与所述钓鱼目标对应的钓鱼 URL路径进行排序，然后获取出现频率最高的 N个钓鱼 URL路径组成高频钓鱼路径列表， N为大于 1的自然数。

步骤 206、将所述疑似钓鱼主机名和所述钓鱼 URL路径拼接成疑似钓鱼 URL;

若与所述钓鱼目标对应的钓鱼 URL路径有至少两个，对应地，步骤 206 中将所述疑似钓鱼主机名依次和所述高频钓鱼路径列表中的钓鱼 URL路径进行拼接，得到疑似钓鱼 URL列表。

步骤 207、访问所述疑似钓鱼 URL ,获取所述疑似钓鱼 URL对应的页面；这里可以采用现有技术中的在线访问嗅探，判断是否可以在线访问所述疑似钓鱼 URL, 若不能在线访问则结束，或继续对下一个疑似钓鱼 URL进行在线访问嗅探。

步骤 208、若所述页面包含登陆框和所述钓鱼目标的关键词，确定所述疑似钓鱼 URL为钓鱼 URL。

发明人在实现本发明的过程中发现，通常钓鱼网站的页面上都有登陆框。另外，具体地，判断所述页面的标题后 ( meta=title )的值和版权（ copyright ) 处的字符串是否包含所述钓鱼目标的关键词。其中 Meta=title 是页面中头 ( head )部分的标题（title )部分，有具体的值，一般为一连串文本，描述这个页面用途的，被浏览器在顶端呈现。进一步地，步骤 208中若所述页面不包含登陆框和 /或所述钓鱼目标的关键词，则确定所述疑似钓鱼 URL不是钓鱼 URL。

本实施例通过步骤 207和步骤 208对疑似钓鱼 URL是否为钓鱼 URL进行进一步的判断，提高结果的准确性。

本发明实施例通过从 DNS服务器获取主机查询日志，根据主机查询日志确定主机名列表，对主机名列表进行预处理后匹配钓鱼目标关键词确定疑似钓鱼主机名，然后将疑似钓鱼主机名和从钓鱼数据库中获取与钓鱼目标对应的钓鱼 URL路径拼接构成疑似钓鱼 URL, 最后通过对疑似钓鱼 URL进行检测确定所述疑似钓鱼 URL是否为钓鱼 URL, 不仅克服了现有技术中依靠用户触发的被动检测无法应对越来越猖獗普遍的钓鱼攻击的问题，实现了更早的发现钓鱼网站，提高了钓鱼网站检出效率，更提高了钓鱼网站检出结果的准确性。

图 3是本发明提供的一种网络钓鱼检测装置实施例一的结构示意图。如图 3所示，该实施例包括：

疑似主机获取模块 31 , 用于获取与钓鱼目标的关键词匹配的疑似钓鱼主机名；

URL路径获取模块 32,用于获取与所述钓鱼目标对应的钓鱼 URL路径； URL构造模块 33 , 用于将所述疑似钓鱼主机名和所述钓鱼 URL路径拼接成疑似钓鱼 URL;

检测模块 34, 用于对所述疑似钓鱼 URL进行检测，确定所述疑似钓鱼 URL是否为钓鱼 URL。

本实施例的具体实现参照本发明提供的一种网络钓鱼检测方法实施例 —。本发明实施例通过主动获取与钓鱼目标的关键词匹配的疑似钓鱼主机名和与所述钓鱼目标对应的钓鱼 URL路径，将所述疑似钓鱼主机名和钓鱼 URL 路径拼接成疑似钓鱼 URL, 并对疑似钓鱼 URL进行检测确定所述疑似钓鱼 URL是否为钓鱼 URL的技术手段，克服了现有技术中依靠用户触发的被动检测无法应对越来越猖獗普遍的钓鱼攻击的问题，进而实现了更早的发现钓鱼网站，提高了钓鱼网站检出效率。

图 4为本发明提供的一种网络钓鱼检测装置实施例二的结构示意图。如图 4所示，该实施例包括：

疑似主机获取模块 41，用于获取与钓鱼目标的关键词匹配的疑似钓鱼主机名；

URL路径获取模块 42,用于获取与所述钓鱼目标对应的钓鱼 URL路径；

URL构造模块 43 , 用于将所述疑似钓鱼主机名和所述钓鱼 URL路径拼接成疑似钓鱼 URL;

检测模块 44, 用于对所述疑似钓鱼 URL进行检测，确定所述疑似钓鱼

URL是否为钓鱼 URL。

疑似主机获取模块 41具体包括：

日志获取单元 411 , 用于从 DNS服务器获取主机查询日志；

列表确定单元 412, 用于根据所述主机查询日志，确定主机名列表；预处理单元 413 , 用于对所述主机名列表进行预处理，形成有效主机名列表；

匹配单元 414, 用于匹配所述钓鱼目标的关键词，从所述有效主机名列表中确定与所述钓鱼目标的关键词匹配的疑似钓鱼主机。

进一步地，预处理单元 413具体用于进行下述至少一种操作，

从所述主机名列表中删除重复的主机名；

从所述主机名列表中删除端口处于关闭状态的主机的主机名；

从所述主机名列表中删除白名单中的主机名；从所述主机名列表中删除 Page Rank值正常的主机的主机名。进一步地， URL路径获取模块 42具体用于，从钓鱼数据库中读取与所述钓鱼目标对应的钓鱼 URL路径。

进一步地，若所述与所述钓鱼目标对应的钓鱼 URL路径有至少两个， URL路径获取模块 42具体用于，将所述至少两个钓鱼 URL路径按照出现频率从高到低依次排序； URL构造模块 43具体用于，按照所述排序依次将所述疑似钓鱼主机名和所述钓鱼 URL路径进行拼接，得到至少两个疑似钓鱼 URL; 检测模块 44 具体用于，按照所述排序依次对所述至少两个疑似钓鱼 URL进行检测。

进一步地，检测模块 44具体包括：

访问单元 441 , 用于访问所述疑似钓鱼 URL , 获取所述疑似钓鱼 URL对应的页面；

判断单元 442, 用于若所述页面包含登陆框和所述钓鱼目标的关键词，确定所述疑似钓鱼 URL为所述钓鱼 URL。

本实施例的具体实现参照本发明提供的一种网络钓鱼检测方法实施例二。本发明实施例通过从 DNS服务器获取主机查询日志，根据主机查询日志确定主机名列表，对主机名列表进行预处理后匹配钓鱼目标关键词确定疑似钓鱼主机名，然后将疑似钓鱼主机名和从钓鱼数据库中获取与钓鱼目标对应的钓鱼 URL路径拼接构成疑似钓鱼 URL, 最后通过对疑似钓鱼 URL进行检测确定所述疑似钓鱼 URL是否为钓鱼 URL, 不仅克服了现有技术中依靠用户触发的被动检测无法应对越来越猖獗普遍的钓鱼攻击的问题，实现了更早的发现钓鱼网站，提高了钓鱼网站检出效率，更提高了钓鱼网站检出结果的准确性。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括： ROM、 RAM, 磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

权利要求书

1、一种网络钓鱼检测方法，其特征在于，包括：

获取与钓鱼目标的关键词匹配的疑似钓鱼主机名；

获取与所述钓鱼目标对应的钓鱼统一资源定位符 URL路径；

将所述疑似钓鱼主机名和所述钓鱼 URL路径拼接成疑似钓鱼 URL; 对所述疑似钓鱼 URL 进行检测，确定所述疑似钓鱼 URL是否为钓鱼 URL。

2、根据权利要求 1所述的方法，其特征在于，所述获取与钓鱼目标的关键词匹配的疑似钓鱼主机名具体包括：

从域名系统 DNS服务器获取主机查询日志；

根据所述主机查询日志，确定主机名列表；

对所述主机名列表进行预处理，形成有效主机名列表；

匹配所述钓鱼目标的关键词，从所述有效主机名列表中确定与所述钓鱼目标的关键词匹配的疑似钓鱼主机名。

3、根据权利要求 2所述的方法，其特征在于，所述对所述主机名列表进行预处理具体包括下述至少一个操作：

从所述主机名列表中删除重复的主机名；

从所述主机名列表中删除白名单中的主机名；

从所述主机名列表中删除页面等级 Page Rank值正常的主机的主机名。

4、根据权利要求 1所述的方法，其特征在于，所述获取与所述钓鱼目标对应的钓鱼 URL路径具体包括：

从钓鱼数据库中读取与所述钓鱼目标对应的钓鱼 URL路径。

5、根据权利要求 1所述的方法，其特征在于，若所述与所述钓鱼目标对应的钓鱼 URL路径有至少两个，则所述将所述疑似钓鱼主机名和所述钓鱼

URL路径拼接成疑似钓鱼 URL之前还包括：

将所述至少两个钓鱼 URL路径按照出现频率从高到低依次排序；所述将所述疑似钓鱼主机名和所述钓鱼 URL路径拼接成疑似钓鱼 URL 具体包括：

按照所述排序依次将所述疑似钓鱼主机名和所述钓鱼 URL路径进行拼接，得到至少两个疑似钓鱼 URL;

所述对所述疑似钓鱼 URL进行检测具体包括：

6、根据权利要求 1所述的方法，其特征在于，所述对所述疑似钓鱼 URL 进行检测具体包括：

访问所述疑似钓鱼 URL , 获取所述疑似钓鱼 URL对应的页面；若所述页面包含登陆框和所述钓鱼目标的关键词，确定所述疑似钓鱼 URL为所述钓鱼 URL。

7、一种网络钓鱼检测装置，其特征在于，包括：

疑似主机获取模块，用于获取与钓鱼目标的关键词匹配的疑似钓鱼主机名；

8、根据权利要求 7所述的装置，其特征在于，所述疑似主机获取模块具体包括：

日志获取单元，用于从域名系统 DNS服务器获取主机查询日志；列表确定单元，用于根据所述主机查询日志，确定主机名列表；预处理单元，用于对所述主机名列表进行预处理，形成有效主机名列表；匹配单元，用于匹配所述钓鱼目标的关键词，从所述有效主机名列表中确定与所述钓鱼目标的关键词匹配的疑似钓鱼主机。

9、根据权利要求 8所述的装置，其特征在于，所述预处理单元具体用于进行下述至少一个操作，

从所述主机名列表中删除重复的主机名；

从所述主机名列表中删除白名单中的主机名；

10、根据权利要求 7所述的装置，其特征在于，所述 URL路径获取模块具体用于，从钓鱼数据库中读取与所述钓鱼目标对应的钓鱼 URL路径。

11、根据权利要求 7所述的装置，其特征在于，若所述与所述钓鱼目标对应的钓鱼 URL路径有至少两个，所述 URL路径获取模块具体用于，

将所述至少两个钓鱼 URL路径按照出现频率从高到低依次排序；所述 URL构造模块具体用于，

所述检测模块具体用于，

12、根据权利要求 7所述的装置，其特征在于，所述检测模块具体包括：访问单元，用于访问所述疑似钓鱼 URL, 获取所述疑似钓鱼 URL对应的页面；

判断单元，用于若所述页面包含登陆框和所述钓鱼目标的关键词，确定所述疑似钓鱼 URL为所述钓鱼 URL。