WO2013152610A1

WO2013152610A1 - 钓鱼网站检测方法及设备

Info

Publication number: WO2013152610A1
Application number: PCT/CN2012/087762
Authority: WO
Inventors: 洪博; 王利明; 肖娅丽
Original assignee: 中国科学院计算机网络信息中心
Priority date: 2012-04-10
Filing date: 2012-12-28
Publication date: 2013-10-17
Also published as: CN102647422A; CN102647422B

Abstract

本发明提供一种钓鱼网站检测方法及设备。该钓鱼网站检测方法包括：获取待检测网站；若根据待检测网站的域名，检测获知存在所述待检测网站的钓鱼倾向目标网站，则获取所述待检测网站的站内页面链接；若检测获知所述站内页面链接包括登陆框链接，则判定所述待检测网站为钓鱼网站。本发明提供的钓鱼网站检测方法及设备能够实现钓鱼网站的主动检测。

Description

钓鱼网站检测方法及设备

技术领域

本发明涉及信息处理技术，尤其涉及一种钓鱼网站检测方法及设备，属于网络安全技术领域。背景技术

随着科技的普及化，网络通讯技术以不可取代的地位深入各个领域，而网络安全问题也日益严峻，其中以网络钓鱼问题尤为突出。

网络钓鱼，是指通过发送垃圾电子邮件等方式，将收信用户引诱到一个通过精心设计与目标组织的网站非常相似的钓鱼网站上，并获取收信人在此网站上输入的个人敏感信息的网络犯罪行为。由于电子商务和互联网应用的普及和发展，网络钓鱼造成的损失日益严重。目前的钓鱼网站检测方法主要为黑名单过滤技术。黑名单过滤技术主要依靠不断对包括所有已知钓鱼网站和 /或用户举报网站的黑名单进行更新，在对可疑网站进行检测时，通过查找该可疑网站的域名等信息是否包括在黑名单中，来判断该可疑网站是否为钓鱼网站。

利用上述方法对可疑网站进行的检测为被动检测，即这种检测方法通常在用户已经遭受钓鱼网站侵害后才能发挥作用，具有一定的滞后性。因此，如何能够有效检测出未记录在黑名单中的钓鱼网站，即实现钓鱼网站的主动检测，从而避免或减少用户损失，成为钓鱼网站检测的重点所在。发明内容

针对现有技术中的缺陷，本发明提供一种钓鱼网站检测方法及设备，用以实现钓鱼网站的主动检测。

根据本发明的一方面，提供一种钓鱼网站检测方法，包括：

获取待检测网站；

若根据待检测网站的域名，检测获知存在所述待检测网站的钓鱼倾向目标网站，则获取所述待检测网站的站内页面链接；若检测获知所述站内页面链接包括登陆框链接，则判定所述待检测网站为钓鱼网站。

进一步地，在上述钓鱼网站检测方法中，所述若检测获知所述站内页面链接包括登陆框链接，则判定所述待检测网站为钓鱼网站具体包括：若检测获知所述站内页面链接包括登陆框链接，则获取所述待检测网站的特征向量；

根据所述待检测网站的特征向量，对所述待检测网站进行钓鱼网站检测。

进一步地，在上述钓鱼网站检测方法中，所述获取所述待检测网站的特征向量具体包括获取第一特征值、第二特征值、第三特征值和 /或第四特征值；其中：

获取所述待检测网站的所述第一特征值具体包括：

获取所述钓鱼倾向目标网站的身份信息关键词；检测所述待检测网站的标题和 /或版权信息中是否包括所述身份信息关键词；若是，则所述第一特征值为 1 ; 若否，则所述第一特征值为 0;

获取所述待检测网站的所述第二特征值具体包括：

获取所述待检测网站的站外页面链接，并获取所述待检测网站的链接总数，所述链接总数包括所述站外页面链接的数量与所述站内页面链接的数量之和；

获取所述站外页面链接的数量与所述链接总数的第一比值，并将所述第 ―比值作为所述第二特征值；

获取所述待检测网站的所述第三特征值具体包括：

获取所述待检测网站的可疑页面链接；

获取所述可疑页面链接的数量与所述链接总数的第二比值，并将所述第二比值作为所述第三特征值；

获取所述待检测网站的所述第四特征值具体包括：

获取所述待检测网站的注册时长；若所述注册时长不大于预设时长，则所述第四特征值为 1 ; 若否，则所述第四特征值为 0。

进一步地，在上述钓鱼网站检测方法中，所述获取所述待检测网站的可疑页面链接具体包括：若检测获知所述站外页面链接和 /或所述站内页面链接包括所述钓鱼倾向目标网站的域名关键词，或检测获知所述站外页面链接和 /或所述站内页面链接为互联网协议地址形式的统一资源定位符，则判定所述站外页面链接和 /或所述站内页面链接为待检测网站的可疑页面链接。

进一步地，在上述钓鱼网站检测方法中，所述根据所述待检测网站的特征向量，对所述待检测网站进行钓鱼网站检测具体包括：

为所述第一特征值、第二特征值、第三特征值和 /或第四特征值分配对应的权重，获取所述第一特征值、第二特征值、第三特征值和 /或第四特征值与对应权重乘积的累加值；

若所述累加值大于预设阈值，则判定所述待检测网站为钓鱼网站。根据本发明的另一方面，还提供一种钓鱼网站检测设备，包括：第一处理模块，用于获取待检测网站；

第二处理模块，用于若根据待检测网站的域名，检测获知存在所述待检测网站的钓鱼倾向目标网站，则获取所述待检测网站的站内页面链接；第三处理模块，用于若检测获知所述站内页面链接包括登陆框链接，则判定所述待检测网站为钓鱼网站。

进一步地，在上述钓鱼网站检测设备中，还包括：

第四处理模块，用于若检测获知所述站内页面链接包括登陆框链接，则获取所述待检测网站的特征向量；

第五处理模块，用于根据所述待检测网站的特征向量，对所述待检测网站进行钓鱼网站检测。

进一步地，在上述钓鱼网站检测设备中，所述第四处理模块包括第一处理单元、第二处理单元、第三处理单元和 /或第四处理单元，其中：所述第一处理单元用于获取所述钓鱼倾向目标网站的身份信息关键词；检测所述待检测网站的标题和 /或版权信息中是否包括所述身份信息关键词；若是，则第一特征值为 1 ; 若否，则第一特征值为 0;

所述第二处理单元用于获取所述待检测网站的站外页面链接，并获取所述待检测网站的链接总数，所述链接总数包括所述站外页面链接的数量与所述站内页面链接的数量之和；获取所述站外页面链接的数量与所述链接总数的第一比值，并将所述第一比值作为第二特征值；所述第三处理单元用于获取所述待检测网站的可疑页面链接；获取所述可疑页面链接的数量与所述链接总数的第二比值，并将所述第二比值作为第三特征值；

所述第四处理单元用于获取所述待检测网站的注册时长；若所述注册时长不大于预设时长，则第四特征值为 1 ; 若否，则第四特征值为 0。

进一步地，在上述钓鱼网站检测设备中，所述第三处理单元还用于若检测获知所述站外页面链接和 /或所述站内页面链接包括所述钓鱼倾向目标网站的域名关键词，或检测获知所述站外页面链接和 /或所述站内页面链接为互联网协议地址形式的统一资源定位符，则判定所述站外页面链接和 /或所述站内页面链接为待检测网站的可疑页面链接。

进一步地，在上述钓鱼网站检测设备中，所述第五处理模块包括：第五处理单元，用于为所述第一特征值、第二特征值、第三特征值和

/或第四特征值分配对应的权重，获取所述第一特征值、第二特征值、第三特征值和 /或第四特征值与对应权重乘积的累加值；

第六处理单元，若所述累加值大于预设阈值，则判定所述待检测网站为钓鱼网站。

根据本发明提供的钓鱼网站检测方法及设备，由于首先根据待检测网步根据待检测网站的站内页面链接是否包括登陆框来判定待检测网站是否为钓鱼网站，从而可根据待检测网站的自身特征，检测出未记录在黑名单中的钓鱼网站，实现了钓鱼网站的主动检测。附图说明

图 1为本发明实施例钓鱼网站检测方法的流程示意图。

图 2为本发明实施例钓鱼网站检测设备的结构示意图。具体实施方式本发明实施例的钓鱼网站检测方法例如由设置在网络中的钓鱼网站检测设备来执行。

图 1为本发明实施例钓鱼网站检测方法的流程示意图。如图 1所示，该方法包括以下步骤：

步骤 S 101 , 获取待检测网站；

步骤 S102, 若根据待检测网站的域名，检测获知存在所述待检测网站的钓鱼倾向目标网站，则获取所述待检测网站的站内页面链接；

步骤 S103 , 若检测获知所述站内页面链接包括登陆框链接，则判定所述待检测网站为钓鱼网站。

具体地，获取待检测网站的域名后，首先通过检测该待检测网站是否具体钓鱼倾向目标网站，来判断待检测网站是否可能对某一已知正常网站进行钓鱼攻击。其中，可通过多种方式检测是否存在钓鱼倾向目标网站，比如：对待检测网站的域名和经常被钓鱼攻击的知名网站的域名进行相似度检测，并根据两者之间的相似度值来判断待检测网站的域名是否为知名网站的仿冒域名，若是，则认为该知名网站为待检测网站的钓鱼倾向目标网站，即认为待检测网站可能对该知名网站进行钓鱼攻击。此外，也可以判断待检测网站的域名中是否包括知名网站的域名关键词，若是，则认为该知名网站为待检测网站的钓鱼倾向目标网站。其中，上述检测过程中的知名网站例如为存储在保护域名特征库中的网站，该保护域名特征库例如包括已知的受到钓鱼攻击的网站和点击量较高的网站等。

若检测到不存在钓鱼倾向目标网站，则可知待检测网站不存在钓鱼攻击的倾向，从而判定待检测网站不为钓鱼网站。若检测到存在钓鱼倾向网站，则对该待检测网站进行全站遍历，无重复的提取出待检测网站的所有站内页面链接，并进行后续检测。

根据提取出的待检测网站的所有站内页面链接，检测待检测网站中是否包括要求用户输入隐私信息的登陆框。具体地，遍历待检测网站的所有站内页面链接，分别检测各站内页面链接是否包括登陆框，具体的检测方式例如包括：检测站内页面链接对应的页面中是否包括 <form>…… <form> 表单元素，若无，则判定该站内页面链接不包括登陆框；若有，则进一步检测该表单元素中的值域是否包括 "账号" 、 "密码" 和 "登陆" 等字样，若有，则判定该站内页面链接包括登陆框。

由于钓鱼网站必然包含要求用户输入隐私信息的登陆框，因此，对待检测网站的所有站内页面链接完成上述登陆框检测后，若获知待检测网站的站内页面链接不包括登陆框链接，则可确定待检测网站不为钓鱼网站；若获知待检测网站的站内页面链接包括登陆框链接，则可确定待检测网站为钓鱼网站或待进一步检测的可疑钓鱼网站。

根据上述实施例的钓鱼网站检测方法，由于首先根据待检测网站的域名判断待检测网站是否存在钓鱼攻击倾向，并当判断为是时，进一步根据待检测网站的站内页面链接是否包括登陆框来判定待检测网站是否为钓鱼网站，从而可根据待检测网站的自身特征，检测出未记录在黑名单中的钓鱼网站，实现了钓鱼网站的主动检测。通过釆用这种钓鱼网站检测方法，能够在用户遭受钓鱼网站侵害之前，主动检测到钓鱼网站，从而有效避免或减少用户损失。

进一步地，在上述实施例的钓鱼网站检测方法中，所述若检测获知所述站内页面链接包括登陆框链接，则判定所述待检测网站为钓鱼网站具体包括：

若检测获知所述站内页面链接包括登陆框链接，则获取所述待检测网站的特征向量；

其中，待检测网站的特征向量可包括一个或多个特征值，该一个或多个特征值分别用于表征待检测网站的不同特征或信息，因此，根据待检测网站的特征向量对待检测网站进行钓鱼网站检测 , 可在检测获知站内页面链接包括登陆框链接后，进一步根据待检测网站的其他特征或信息进行钓鱼网站检测，从而提高钓鱼网站检测的准确性。

进一步地，在上述实施例的钓鱼网站检测方法中，待检测网站的特征向量包括第一特征值、第二特征值、第三特征值和 /或第四特征值。相应地，所述获取所述待检测网站的特征向量具体包括获取第一特征值、第二特征值、第三特征值和 /或第四特征值。例如表示为特征向量

Vector{Vl,V2,V3,V4}。

更为具体地，获取所述待检测网站的所述第一特征值 VI具体包括：获取所述钓鱼倾向目标网站的身份信息关键词；检测所述待检测网站的标题（ title ) 和 /或版权（ copyright )信息中是否包括所述身份信息关键词；若是，则所述第一特征值 VI为 1 ; 若否，则所述第一特征值 VI为 0。其中，例如从钓鱼倾向目标网站的 "title" 或 "copyright" 等部分的文本内容中获取表明钓鱼倾向目标网站身份的关键词，例如腾讯网站的身份信息关键词包括 "腾讯" 、 "Tencent" 和 "qq" 等。获取钓鱼倾向目标网站的身份信息关键词后，遍历待检测网站的 "title" 和 "copyright" 的文本内容，检测是否包括上述钓鱼倾向目标网站的身份信息关键词，若包括，则令第一特征值 Vl=l , 以表明待检测网站与钓鱼倾向目标网站身份匹配；若不包括，则令第一特征值 V1=0, 以表明待检测网站与钓鱼倾向目标网站身份不匹配。

获取所述待检测网站的所述第二特征值 V2具体包括：

获取所述站外页面链接的数量与所述链接总数的第 ―比值，并将所述第一比值作为所述第二特征值 V2;

获取所述待检测网站的所述第三特征值 V3具体包括：

获取所述待检测网站的可疑页面链接；

获取所述可疑页面链接的数量与所述链接总数的第二比值，并将所述第二比值作为所述第三特征值 V3 ;

其中，判定待检测网站的某一链接是否为可疑页面链接例如釆用如下方式：若检测获知所述站外页面链接和 /或所述站内页面链接包括所述钓鱼倾向目标网站的域名关键词，或检测获知所述站外页面链接和 /或所述站内页面链接为互联网协议地址（IP ) 形式的统一资源定位符，则判定所述站外页面链接和 /或所述站内页面链接为待检测网站的可疑页面链接。

具体地，对待检测网站的所有站外页面链接和站内页面链接进行检测，判断链接的 URL中是否包括钓鱼倾向目标网站的域名关键词，例如淘宝网站 "www.taobao.com" 的域名关键词为 "taobao" , 并判断链接的 URL是否为 IP形式，即该链接的 URL是否表示为 "210.46.102.141" 的格式。若链接的 URL中包括钓鱼倾向目标网站的域名关键词和 /或链接的 URL为 IP形式，则判定该链接为待检测网站的可疑页面链接，反之，若链接的 URL中不包括钓鱼倾向目标网站的域名关键词、且链接的 URL不为 IP形式，则判定该链接为待检测网站的正常页面链接。通过这种可疑页面链接判断方法，一方面，能够检测出链向钓鱼倾向目标网站的链接和釆用钓鱼倾向目标网站的域名关键词的可疑链接；另一方面，由于信誉度较高的网站通常不会釆用 IP形式作为 URL, 所以还能够检测出以 IP形式作为链接的 URL这种信誉度低的可疑链接。

获取所述待检测网站的所述第四特征值 V4具体包括：

获取所述待检测网站的注册时长；若所述注册时长不大于预设时长，则所述第四特征值 V4为 1 ; 若否，则所述第四特征值 V4为 0。

例如，通过访问 "WHOIS"数据库检测待检测网站的域名的注册时间是否大于一年。根据统计，钓鱼网站的域名中超过 95%的域名注册时间小于一年。因此，通过注册时间的检测，可以降低误报。若小于或等于一年，则令第四特征值 V4=l , 表示该站点不是钓鱼网站；若大于一年，则令第四特征值 V4=0。

此外，例如预先根据正常网站和钓鱼网站的样本生成判定模型，上述过程得到的特征向量作为判定模型的输入，由判定模型根据特征向量中的特征值，生成待检测网站是否为钓鱼网站的判定结果。

进一步地，在上述实施例的钓鱼网站检测方法中，所述根据所述待检测网站的特征向量，对所述待检测网站进行钓鱼网站检测具体包括：

为所述第一特征值 V 1、第二特征值 V2、第三特征值 V3和 /或第四特征值 V4分配对应的权重，获取所述第一特征值 VI、第二特征值 V2、第三特征值 V3和 /或第四特征值 V4与对应权重乘积的累加值；

若所述累加值大于预设阈值，则判定所述待检测网站为钓鱼网站。具体地，例如为第一特征值 VI分配第一权重值 al、为第二特征值 V2分配第一权重值 al、为第三特征值 V3分配第一权重值 al、为第四特征值 V4分配第四权重值 a4, 则该特征向量的累加值为 al V1+ a2 V2+ a3 V3+ a4 V4„ 将该特征向量的累加值与一个预设阈值相比较，若大于预设阈值，则判定所述待检测网站为钓鱼网站，若小于或等于预设阈值，则判定所述待检测网站不为钓鱼网站。

其中，第一权重值 al、第一权重值 al、第一权重值 al、第四权重值 a4例如均大于 0且小于等于 1 , 且第一权重值 al、第一权重值 al、第一权重值 al、第四权重值 a4以及预设阈值例如均由判定模型提供，具体数值可根据对正常网站和钓鱼网站的样本进行统计获得。

根据上述实施例的钓鱼网站检测方法，结合了待检测网站的身份特征、链接特征和注册时间等多项信息，对该网站是否为钓鱼网站进行辅助判定，实现了快速、可靠的主动钓鱼网站检测。

图 2为本发明实施例钓鱼网站检测设备的结构示意图。如图 2所示，该一种钓鱼网站检测设备包括：

第一处理模块 21 , 用于获取待检测网站；

第二处理模块 22, 用于若根据待检测网站的域名，检测获知存在所述待检测网站的钓鱼倾向目标网站，则获取所述待检测网站的站内页面链接；

第三处理模块 23 , 用于若检测获知所述站内页面链接包括登陆框链接，则判定所述待检测网站为钓鱼网站。

上述实施例的钓鱼网站检测设备执行钓鱼网站检测的具体流程与上述实施例的钓鱼网站检测方法相同，故此处不再赘述。

根据上述实施例的钓鱼网站检测设备，由于首先根据待检测网站的域名判断待检测网站是否存在钓鱼攻击倾向，并当判断为是时，进一步根据待检测网站的站内页面链接是否包括登陆框来判定待检测网站是否为钓鱼网站，从而可根据待检测网站的自身特征，检测出未记录在黑名单中的钓鱼网站，实现了钓鱼网站的主动检测。通过釆用这种钓鱼网站检测设备，能够在用户遭受钓鱼网站侵害之前，主动检测到钓鱼网站，从而有效避免或减少用户损失。

进一步地，在上述实施例的钓鱼网站检测设备中，还包括：

进一步地，在上述实施例的钓鱼网站检测设备中，所述第四处理模块包括第一处理单元、第二处理单元、第三处理单元和 /或第四处理单元，其中：

所述第一处理单元用于获取所述钓鱼倾向目标网站的身份信息关键词；检测所述待检测网站的标题和 /或版权信息中是否包括所述身份信息关键词；若是，则第一特征值为 1 ; 若否，则第一特征值为 0;

所述第二处理单元用于获取所述待检测网站的站外页面链接，并获取所述待检测网站的链接总数，所述链接总数包括所述站外页面链接的数量与所述站内页面链接的数量之和；获取所述站外页面链接的数量与所述链接总数的第 ―比值，并将所述第 ―比值作为第二特征值；

所述第三处理单元用于获取所述待检测网站的可疑页面链接；获取所述可疑页面链接的数量与所述链接总数的第二比值，并将所述第二比值作为第三特征值；

进一步地，在上述实施例的钓鱼网站检测设备中，所述第三处理单元还用于若检测获知所述站外页面链接和 /或所述站内页面链接包括所述钓鱼倾向目标网站的域名关键词 ,或检测获知所述站外页面链接和 /或所述站内页面链接为互联网协议地址形式的统一资源定位符，则判定所述站外页面链接和 /或所述站内页面链接为待检测网站的可疑页面链接。

进一步地，在上述实施例的钓鱼网站检测设备中，所述第五处理模块包括：

第五处理单元，用于为所述第一特征值、第二特征值、第三特征值和 /或第四特征值分配对应的权重，获取所述第一特征值、第二特征值、第三特征值和 /或第四特征值与对应权重乘积的累加值；

根据上述实施例的钓鱼网站检测设备，结合了待检测网站的身份特征、链接特征和注册时间等多项信息，对该网站是否为钓鱼网站进行辅助判定，实现了快速、可靠的主动钓鱼网站检测。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

权利要求书

1、一种钓鱼网站检测方法，其特征在于，包括：

获取待检测网站；

若根据待检测网站的域名，检测获知存在所述待检测网站的钓鱼倾向目标网站，则获取所述待检测网站的站内页面链接；

若检测获知所述站内页面链接包括登陆框链接，则判定所述待检测网站为钓鱼网站。

2、根据权利要求 1所述的钓鱼网站检测方法，其特征在于，所述若检测获知所述站内页面链接包括登陆框链接，则判定所述待检测网站为钓鱼网站具体包括：

3、根据权利要求 2所述的钓鱼网站检测方法，其特征在于，所述获取所述待检测网站的特征向量具体包括获取第一特征值、第二特征值、第三特征值和 /或第四特征值；其中：

获取所述待检测网站的所述第一特征值具体包括：

获取所述待检测网站的所述第二特征值具体包括：

获取所述待检测网站的所述第三特征值具体包括：

获取所述待检测网站的可疑页面链接；

获取所述待检测网站的所述第四特征值具体包括：

4、根据权利要求 3所述的钓鱼网站检测方法，其特征在于，所述获取所述待检测网站的可疑页面链接具体包括：

若检测获知所述站外页面链接和 /或所述站内页面链接包括所述钓鱼倾向目标网站的域名关键词，或检测获知所述站外页面链接和 /或所述站内页面链接为互联网协议地址形式的统一资源定位符，则判定所述站外页面链接和 /或所述站内页面链接为待检测网站的可疑页面链接。

5、根据权利要求 3或 4所述的钓鱼网站检测方法，其特征在于，所述根据所述待检测网站的特征向量，对所述待检测网站进行钓鱼网站检测具体包括：

若所述累加值大于预设阈值，则判定所述待检测网站为钓鱼网站。

6、一种钓鱼网站检测设备，其特征在于，包括：

第一处理模块，用于获取待检测网站；

7、根据权利要求 6所述的钓鱼网站检测设备，其特征在于，还包括：第四处理模块，用于若检测获知所述站内页面链接包括登陆框链接，则获取所述待检测网站的特征向量；

8、根据权利要求 7所述的钓鱼网站检测设备，其特征在于，所述第四处理模块包括第一处理单元、第二处理单元、第三处理单元和 /或第四处理单元，其中：

9、根据权利要求 8所述的钓鱼网站检测设备，其特征在于，所述第三处理单元还用于若检测获知所述站外页面链接和 /或所述站内页面链接包括所述钓鱼倾向目标网站的域名关键词，或检测获知所述站外页面链接和 /或所述站内页面链接为互联网协议地址形式的统一资源定位符，则判定所述站外页面链接和 /或所述站内页面链接为待检测网站的可疑页面链接。

10、根据权利要求 8或 9所述的钓鱼网站检测设备，其特征在于，所述第五处理模块包括：