WO2014000536A1

WO2014000536A1 - 一种钓鱼网站识别系统及方法

Info

Publication number: WO2014000536A1
Application number: PCT/CN2013/075949
Authority: WO
Inventors: 陈营营
Original assignee: 北京奇虎科技有限公司; 奇智软件（北京）有限公司
Priority date: 2012-06-28
Filing date: 2013-05-21
Publication date: 2014-01-03
Also published as: US9954895B2; CN102801709B; US9531751B2; CN102801709A; US20150326606A1; US20170078327A1

Abstract

本发明公开了一种钓鱼网站识别系统及方法，涉及网络安全领域。所述系统包括：域名获取单元、域名统计单元和网站识别单元；所述域名获取单元，适于收集待识别网站中出现的所有链接，得到所述链接对应的域名；所述域名统计单元，适于统计所述域名在所述待识别网站中出现的次数，找到出现次数最多的域名，记作目标域名；所述网站识别单元，适于根据所述目标域名与所述待识别网站的自身域名判断所述待识别网站是否是钓鱼网站。所述系统及方法，基于网站中的链接关系进行钓鱼网站的识别，可以有效识别新类型的钓鱼网站；同时，有利于丰富钓鱼网站库中钓鱼网站的数量和类型，便于进一步的钓鱼网站识别和查找，在网络安全领域具有广泛的应用前景。

Description

一种钓鱼网站识别系统及方法

技术领域

本发明涉及网络安全技术领域，特别涉及一种钓鱼网站识别系统及方法。背景技术

随着互联网的发展，网民数量逐年增加。在上网时，除了传统的木马、病毒的威胁，近两年钓鱼网站的数量大幅增加。

当前主要的钓鱼网站识别技术是通过收集常见的钓鱼网站，制作成知识库，再计算新发现的网页与知识库中的钓鱼网站的相似度，从而判断是否是钓鱼网站。

上述通过钓鱼网站知识库识别钓鱼网站的方法，通常只能识别已知类别的钓鱼网站，对于新类型的钓鱼网站则无法识别，比如钓鱼网站知识库内只有中国银行相关的钓鱼网站时，对于仿冒工商银行的钓鱼网站就无法识别。发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决或者减緩上述问题的钓鱼网站识别系统及方法。

根据本发明的一个方面，提供了一种钓鱼网站识别系统，其包括：域名获取单元、域名统计单元和网站识别单元；

所述域名获取单元，适于收集待识别网站中出现的所有链接，得到所述链接对应的域名；所述域名统计单元，适于统计所述域名在所述待识别网站中出现的次数，找到出现次数最多的域名，记作目标域名；所述网站识别单元，适于根据所述目标域名与所述待识别网站的自身域名判断所述待识别网站是否是钓鱼网站。

根据本发明的另一个方面，提供了一种钓鱼网站识别方法，其包括步骤：收集待识别网站中出现的所有链接，得到所述链接对应的域名；统计所述域名在所述待识别网站中出现的次数，找到出现次数最多的域名，记作目标域名；根据所述目标域名与所述待识别网站的自身域名判断所述待识别网站是否是钓鱼网站。根据本发明的又一个方面，提供了一种计算机程序，其包括计算机可读代码，当所述计算机可读代码在服务器上运行时，导致所述服务器执行根据权利要求 10-18中的任一个所述的钓鱼网站识别方法。

根据本发明的再一个方面，提供了一种计算机可读介质，其中存储了如权利要求 19所述的计算机程序。

本发明的有益效果为：

本发明的所述钓鱼网站识别系统及方法，基于网站中的链接关系进行钓鱼网站的识别，可以有效识别新类型的钓鱼网站；同时，有利于丰富钓鱼网站库中钓鱼网站的数量和类型，便于进一步的钓鱼网站识别和查找，在网络安全领域具有广泛的应用前景。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图 1是依据本发明实施例一的钓鱼网站识别系统的模块结构示意图；图 2是所述网站识别单元的模块结构示意图；

图 3是所述识别子单元的模块结构示意图；

图 4是所述相似度计算模块的模块结构示意图；

图 5是依据本发明实施例二的钓鱼网站识别系统的模块结构示意图；图 6是依据本发明实施例三的钓鱼网站识别方法的流程图；

图 7是依据本发明实施例四的钓鱼网站识别方法的流程图

图 8示意性地示出了用于执行根据本发明的方法的服务器的框图；以及

图 9示意性地示出了用于保持或者携带实现根据本发明的方法的程序代码的存储单元。具体实施例下面结合附图和具体的实施方式对本发明作进一步的描述。图 1是本发明实施例一所述钓鱼网站识别系统的模块结构示意图，如图 1 所示，所述系统包括：域名获取单元 100、域名统计单元 200和网站识别单元 300。

所述域名获取单元 100, 适于收集待识别网站中出现的所有链接，得到所述链接对应的域名。这里所述链接对应的域名为所述链接的绝对地址，如果所述待识别网站中出现的链接采用相对地址，需要将其转换为绝对地址。

所述域名统计单元 200, 适于统计所述域名在所述待识别网站中出现的次数，找到出现次数最多的域名，记作目标域名。所述域名统计单元 200会以域名为 key, 以出现次数为 value, 生成一个 key- value表格，然后根据表格中 value的数值，对域名进行排序，得到出现次数最多的域名。

所述网站识别单元 300, 适于根据所述目标域名与所述待识别网站的自身域名判断所述待识别网站是否是钓鱼网站。

图 2是所述网站识别单元的模块结构示意图，如图 2所示，所述网站识别单元 300进一步包括：比较子单元 310和识别子单元 320。

所述比较子单元 310, 适于比较所述目标域名与所述自身域名，并在比钓鱼网站。

所述识别子单元 320, 适于在所述目标域名与所述自身域名不同时，计算所述目标域名的出现次数与所述自身域名的出现次数之间的比例，以及计算所述目标域名与所述自身域名之间的相似度，进而根据所述比例和所述相似度判断所述待识别网站是否是钓鱼网站。

图 3是所述识别子单元的模块结构示意图，如图 3所示，所述识别子单元 320进一步包括：比例计算模块 321、相似度计算模块 322和判断模块 323。

所述比例计算模块 321 , 适于计算所述目标域名的出现次数与所述自身域名的出现次数之间的比例。

所述相似度计算模块 322, 适于计算所述目标域名与所述自身域名之间的相似度。

图 4是所述相似度计算模块的模块结构示意图，如图 4所示，所述相似度计算模块 322进一步包括：字符串对比子模块 322a、初值计算子模块 322b 和终值计算子模块 322c。

所述字符串对比子模块 322a,适于构建所述目标域名的字符串与所述自身域名的字符串的对比阵列，将所述目标域名的字符串设置在所述对比阵列的第一行并保持位置固定，将所述自身域名的字符串设置在所述对比阵列的第二行并自左向右移动，对两行字符串中重叠的字符进行对比。

所述初值计算子模块 322b,适于当所述目标域名的首字符与所述自身域名的尾字符对齐时，计算所述目标域名与所述自身域名之间的第一相似度计算值 Qi ; 当所述目标域名的第二字符与所述自身域名的尾字符对齐时，计算所述目标域名与所述自身域名之间的第二相似度计算值 Q₂;依次类推，当所述目标域名的尾字符与所述自身域名的首字符对齐时，计算所述目标域名与所述自身域名之间的第 m相似度计算值 Q_m; 其中， m=ni+n₂-l , m表示所述目标域名的字符串长度， n₂表示所述自身域名的字符串长度。

其中，所述初值计算子模块 322b中，利用如下公式计算第相似度计算值 β :

其中，为自然数，并且， l≤≤m; 并且，

其中，表示在第次对比时，所述自身域名的字符串与所述目标域名的字符串中，重叠的字符个数；表示所述自身域名的字符串与所述目标域名的字符串中较长字符串的字符个数；表示在第次对比时，所述自身域名的字符串与所述目标域名的字符串的重叠率；表示在第次对比时，所述自身域名的字符串与所述目标域名的字符串中，重叠并且相同的字符个数； M,表示在第次对比时，所述自身域名的字符串与所述目标域名的字符串的匹配率。

举例来讲，假设自身域名为 boc.cn自左向右移动，目标域名为 cocc.cn 保持位置固定。在第 1次对比时，只有字符 n与字符 c重叠，相应地 r₇=l , ^=0; 在第 2次对比时，字符 n与字符 0重叠，字符 c与字符 c重叠，相应地 r₂=2, =1。

另外，所述初值计算子模块中，还可以利用如下方式计算第相似度计算值 β _:

在第次对比时，计算所述目标域名的字符串与所述自身域名的字符串中重叠并且相同的字符个数，将所述重叠并且相同的字符个数作为第相似度计算值 Qi。对于第相似度计算值 β;的计算方式，还可以采用一些公知现有方法，由于其非本发明重点，在此不再贅述。

所述终值计算子模块 322c,适于根据下述公式计算得到所述目标域名与所述自身域名之间的相似度 Q

e_m«

, Q₂ , Q₃ , . . . . . . Q_m}。

所述判断模块 323 , 适于判断所述比例和所述相似度是否满足条件：所述比例大于预定比例，并且所述相似度大于预定阈值；如果满足，判定所述待识别网站是钓鱼网站；否则，判定所述待识别网站不是钓鱼网站。所述预定比例和所述预定阈值可以根据实际使用情况进行设置和调整，本实施例，所述预定比例优选为 1.0, 所述预定阈值优选为 80%。

图 5是本发明实施例二所述钓鱼网站识别系统的模块结构示意图，如图 5所示，本实施例所述系统与实施例一所述系统基本相同，其不同之处仅在于，本实施例所述系统还包括：网站获取单元 000和补充识别单元 400。

所述网站获取单元 000, 适于查找新建网站以作为待识别网站。一般情况下，钓鱼网站多是新建网站，因此，通过设置所述网站获取单元 000, 只将新建网站作为待识别网站，可以缩小钓鱼网站的识别范围，提高识别的准确度和速度。对于新建网站的查找可以采用如下方法：通过特定关键词监控搜索引擎结果页；或者，通过客户端发现网民访问量极少的网站。

所述补充识别单元 000, 适于将判断结果显示为钓鱼网站的待识别网站记作可疑网站，并对所述可疑网站进行补充识别，在识别结果显示所述可疑网站仍为钓鱼网站的情况下，将所述可疑网站送入钓鱼网站库。所述补充识别可以采用人工审查的方式。通过设置所述补充识别单元 000, 可以进一步提高钓鱼网站识别的准确度。

图 6是本发明实施例三所述钓鱼网站识别方法的流程图，如图 6所示，所述方法包括步骤：

A: 收集待识别网站中出现的所有链接，得到所述链接对应的域名。所述链接对应的域名为所述链接的绝对地址。

B: 统计所述域名在所述待识别网站中出现的次数，找到出现次数最多的域名，记作目标域名。

C: 根据所述目标域名与所述待识别网站的自身域名判断所述待识别网站是否是钓鱼网站。

所述步骤 C进一步包括步骤： CI : 判断所述目标域名与所述自身域名是否相同，如果是，判定所述待识别网站不是钓鱼网站，结束流程；否则，执行步骤 C2;

C2:计算所述目标域名的出现次数与所述自身域名的出现次数之间的比例，以及所述目标域名与所述自身域名之间的相似度，根据所述比例和所述相似度判断所述待识别网站是否是钓鱼网站。

所述步骤 C2进一步包括步骤：

C21 : 计算所述目标域名的出现次数与所述自身域名的出现次数之间的比例。

C22: 计算所述目标域名与所述自身域名之间的相似度。

所述步骤 C22进一步包括步骤：

C221 : 构建所述目标域名的字符串与所述自身域名的字符串的对比阵列，将所述目标域名的字符串设置在所述对比阵列的第一行并保持位置固定，将所述自身域名的字符串设置在所述对比阵列的第二行并自左向右移动，对两行字符串中重叠的字符进行对比。

C222: 当所述目标域名的首字符与所述自身域名的尾字符对齐时，计算所述目标域名与所述自身域名之间的第一相似度计算值 Qi；当所述目标域名的第二字符与所述自身域名的尾字符对齐时，计算所述目标域名与所述自身域名之间的第二相似度计算值 Q₂;依次类推，当所述目标域名的尾字符与所述自身域名的首字符对齐时，计算所述目标域名与所述自身域名之间的第 m 相似度计算值 Q_m; 其中， n^ + -l , 表示所述目标域名的字符串长度， n₂表示所述自身域名的字符串长度。

所述步骤 C222中，第相似度计算值 Qi的计算公式如下：

其中，为自然数，并且， l≤≤m; 并且，

M sjn 其中，表示在第次对比时，所述自身域名的字符串与所述目标域名的字符串中，重叠的字符个数；表示所述自身域名的字符串与所述目标域名的字符串中较长字符串的字符个数；表示在第次对比时，所述自身域名的字符串与所述目标域名的字符串的重叠率；表示在第次对比时，所述自身域名的字符串与所述目标域名的字符串中，重叠并且相同的字符个数； M,表示在第次对比时，所述自身域名的字符串与所述目标域名的字符串的匹配率。

另外，所述步骤 C222中，也可以利用如下方式计算第相似度计算值

Q :

在第次对比时，计算所述目标域名的字符串与所述自身域名的字符串中重叠并且相同的字符个数，将所述重叠并且相同的字符个数作为第相似度计算值 Qi。

C223:根据下述公式计算得到所述目标域名与所述自身域名之间的相似度 β

Q₂ , Q₃ , . . . . . . Q_m}。

C23: 判断是否满足以下条件：所述比例大于预定比例，并且所述相似度大于预定阈值；如果是，判定所述待识别网站是钓鱼网站；否则，判定所述待识别网站不是钓鱼网站。

图 7是本发明实施例四所述钓鱼网站识别方法的流程图，如图 7所示，本实施例所述方法与实施例三所述方法基本相同，其不同之处仅在于：

在所述步骤 A之前还包括步骤 A，：查找新建网站以作为待识别网站。对于新建网站的查找可以采用如下方法：通过特定关键词监控搜索引擎结果页；或者，通过客户端发现网民访问量极少的网站。

在所述步骤 C之后还包括步骤 D: 将判断结果显示为钓鱼网站的待识别网站记作可疑网站，并对所述可疑网站进行补充识别，在识别结果显示所述可疑网站仍为钓鱼网站的情况下，将所述可疑网站送入钓鱼网站库。所述补充识别可以采用人工审查的方式。

本发明实施例所述钓鱼网站识别系统及方法，基于网站中的链接关系进行钓鱼网站的识别，可以有效识别新类型的钓鱼网站；同时，有利于丰富钓鱼网站库中钓鱼网站的数量和类型，便于进一步的钓鱼网站识别和查找，在网络安全领域具有广泛的应用前景。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器（DSP ) 来实现根据本发明实施例的钓鱼网站识别系统中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序（例如，计算机程序和计算机程序产品）。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

例如，图 8示出了可以实现根据本发明的钓鱼网站识别方法的服务器，例如应用服务器。该服务器传统上包括处理器 810和以存储器 820 形式的计算机程序产品或者计算机可读介质。存储器 820可以是诸如闪存、 EEPROM (电可擦除可编程只读存储器）、 EPROM、硬盘或者 ROM 之类的电子存储器。存储器 820具有用于执行上述方法中的任何方法步骤的程序代码 831的存储空间 830。例如，用于程序代码的存储空间 830 可以包括分别用于实现上面的方法中的各种步骤的各个程序代码 831。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘，紧致盘（CD ) 、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为如参考图 9所述的便携式或者固定存储单元。该存储单元可以具有与图 8的服务器中的存储器 820类似布置的存储段、存储空间等。程序代码可以例如以适当形式进行压缩。通常，存储单元包括计算机可读代码 83 Γ , 即可以由例如诸如 810之类的处理器读取的代码，这些代码当由服务器运行时，导致该服务器执行上面所描述的方法中的各个步骤。

本文中所称的 "一个实施例"、 "实施例"或者"一个或者多个实施例 "意味着，结合实施例描述的特定特征、结构或者特性包括在本发明的至少一个实施例中。此外，请注意，这里"在一个实施例中"的词语例子不一定全指同一个实施例。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词"包含"不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词 "一"或"一个"不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

此外，还应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。

Claims

权利要求

1、一种钓鱼网站识别系统，其包括：域名获取单元、域名统计单元和网站识别单元；

所述域名获取单元，适于收集待识别网站中出现的所有链接，得到所述链接对应的域名；

所述域名统计单元，适于统计所述域名在所述待识别网站中出现的次数，找到出现次数最多的域名，记作目标域名；

所述网站识别单元，适于根据所述目标域名与所述待识别网站的自身域名判断所述待识别网站是否是钓鱼网站。

2、如权利要求 1所述的系统，其中，所述网站识别单元包括：比较子单元和识别子单元；

所述比较子单元，适于比较所述目标域名与所述自身域名，并在比较结果显示所述目标域名与所述自身域名相同时，判定所述待识别网站不是钓鱼网站；

所述识别子单元，适于在所述目标域名与所述自身域名不同时，计算所述目标域名的出现次数与所述自身域名的出现次数之间的比例，以及计算所述目标域名与所述自身域名之间的相似度，进而根据所述比例和所述相似度判断所述待识别网站是否是钓鱼网站。

3、如权利要求 2所述的系统，其中，所述识别子单元包括：比例计算模块、相似度计算模块和判断模块；

所述比例计算模块，适于计算所述目标域名的出现次数与所述自身域名的出现次数之间的比例；

所述相似度计算模块，适于计算所述目标域名与所述自身域名之间的相似度；

所述判断模块，适于判断所述比例和所述相似度是否满足条件：所述比例大于预定比例，并且所述相似度大于预定阈值；如果满足，判定所述待识别网站是钓鱼网站；否则，判定所述待识别网站不是钓鱼网站。

4、如权利要求 3所述的系统，其中，所述相似度计算模块包括：字符串对比子模块、初值计算子模块和终值计算子模块；

所述字符串对比子模块，适于构建所述目标域名的字符串与所述自身域名的字符串的对比阵列，将所述目标域名的字符串设置在所述对比阵列的第一行并保持位置固定，将所述自身域名的字符串设置在所述对比阵列的第二行并自左向右移动，对两行字符串中重叠的字符进行对比；尾字符对齐时，计算所述目标域名与所述自身域名之间的第一相似度计算值

Qi ; 当所述目标域名的第二字符与所述自身域名的尾字符对齐时，计算所述目标域名与所述自身域名之间的第二相似度计算值 Q₂;依次类推，当所述目标域名的尾字符与所述自身域名的首字符对齐时，计算所述目标域名与所述自身域名之间的第 m相似度计算值 Q_m; 其中， n^ + -l , 表示所述目标域名的字符串长度， n₂表示所述自身域名的字符串长度；

所述终值计算子模块，适于根据下述公式计算得到所述目标域名与所述自身域名之间的相似度 Q

, Q₂ , Q₃ , . . . . . . Q_m}。

5、如权利要求 4所述的系统，其中，所述初值计算子模块中，利用如下公式计算第 i相似度计算值 Qi ：

其中，为自然数，并且， l≤≤m; 并且，

M sjn

=

其中，表示在第次对比时，所述自身域名的字符串与所述目标域名的字符串中，重叠的字符个数；《皿表示所述自身域名的字符串与所述目标域名的字符串中较长字符串的字符个数；表示在第次对比时，所述自身域名的字符串与所述目标域名的字符串的重叠率；表示在第次对比时，所述自身域名的字符串与所述目标域名的字符串中，重叠并且相同的字符个数； M,表示在第次对比时，所述自身域名的字符串与所述目标域名的字符串的匹配率。

6、如权利要求 4所述的系统，其中，所述初值计算子模块中，利用如下方式计算第相似度计算值 β :

7、如权利要求 1所述的系统，其中，所述系统还包括：补充识别单元；所述补充识别单元，适于将判断结果显示为钓鱼网站的待识别网站记作可疑网站，并对所述可疑网站进行补充识别，在识别结果显示所述可疑网站仍为钓鱼网站的情况下，将所述可疑网站送入钓鱼网站库。

8、如权利要求 1所述的系统，其中，所述链接对应的域名为所述链接的绝对地址。

9、如权利要求 1所述的系统，其中，所述系统还包括：网站获取单元；所述网站获取单元，适于查找新建网站以作为待识别网站。

10、一种钓鱼网站识别方法，其包括步骤：

收集待识别网站中出现的所有链接，得到所述链接对应的域名；统计所述域名在所述待识别网站中出现的次数，找到出现次数最多的域名，记作目标域名；

根据所述目标域名与所述待识别网站的自身域名判断所述待识别网站是否是钓鱼网站。

11、如权利要求 10所述的方法，其中，所述根据所述目标域名与所述待识别网站的自身域名判断所述待识别网站是否是钓鱼网站，进一步包括步骤：

判断所述目标域名与所述自身域名是否相同，如果是，判定所述待识别网站不是钓鱼网站，结束流程；否则，执行下一步；

计算所述目标域名的出现次数与所述自身域名的出现次数之间的比例，以及所述目标域名与所述自身域名之间的相似度，根据所述比例和所述相似度判断所述待识别网站是否是钓鱼网站。

12、如权利要求 11所述的方法，其中，所述计算所述目标域名的出现次数与所述自身域名的出现次数之间的比例，以及所述目标域名与所述自身域名之间的相似度，根据所述比例和所述相似度判断所述待识别网站是否是钓鱼网站，进一步包括步骤：

计算所述目标域名的出现次数与所述自身域名的出现次数之间的比例；计算所述目标域名与所述自身域名之间的相似度；

判断是否满足以下条件：所述比例大于预定比例，并且所述相似度大于预定阈值；如果是，判定所述待识别网站是钓鱼网站；否则，判定所述待识别网站不是钓鱼网站。

13、如权利要求 12所述的方法，其中，所述计算所述目标域名与所述自身域名之间的相似度，进一步包括步骤：

构建所述目标域名的字符串与所述自身域名的字符串的对比阵列，将所述目标域名的字符串设置在所述对比阵列的第一行并保持位置固定，将所述自身域名的字符串设置在所述对比阵列的第二行并自左向右移动，对两行字符串中重叠的字符进行对比；

当所述目标域名的首字符与所述自身域名的尾字符对齐时，计算所述目标域名与所述自身域名之间的第一相似度计算值；当所述目标域名的第二字符与所述自身域名的尾字符对齐时，计算所述目标域名与所述自身域名之间的第二相似度计算值 Q₂;依次类推，当所述目标域名的尾字符与所述自身域名的首字符对齐时，计算所述目标域名与所述自身域名之间的第 m相似度计算值 Q_m; 其中，

, 表示所述目标域名的字符串长度， n₂表示所述自身域名的字符串长度；

根据下述公式计算得到所述目标域名与所述自身域名之间的相似度

, Q₂ , Q₃ , . . . . . . Q_m}。

14、如权利要求 13所述的方法，其中，所述当所述目标域名的首字符与所述自身域名的尾字符对齐时，计算所述目标域名与所述自身域名之间的第一相似度计算值 Qi ;当所述目标域名的第二字符与所述自身域名的尾字符对齐时，计算所述目标域名与所述自身域名之间的第二相似度计算值 Q₂;依述目标域名与所述自身域名之间的第 m相似度计算值 Q_m中，第相似度计算值 β 的计算公式如下：

其中，为自然数，并且， l< <m; 并且，

15、如权利要求 13所述的方法，其中，所述当所述目标域名的首字符与所述自身域名的尾字符对齐时，计算所述目标域名与所述自身域名之间的第一相似度计算值 Qi;当所述目标域名的第二字符与所述自身域名的尾字符对齐时，计算所述目标域名与所述自身域名之间的第二相似度计算值 Q₂;依述目标域名与所述自身域名之间的第 m相似度计算值 Q_m中，利用如下方式计算第相似度计算值 β :

16、如权利要求 10所述的方法，其中，在所述根据所述目标域名与所述待识别网站的自身域名判断所述待识别网站是否是钓鱼网站之后还包括步骤：将判断结果显示为钓鱼网站的待识别网站记作可疑网站，并对所述可疑网站进行补充识别，在识别结果显示所述可疑网站仍为钓鱼网站的情况下，将所述可疑网站送入钓鱼网站库。

17、如权利要求 10所述的方法，其中，所述链接对应的域名为所述链接的绝对地址。

18、如权利要求 10所述的方法，其中，在所述收集待识别网站中出现的所有链接，得到所述链接对应的域名之前还包括步骤：查找新建网站以作为待识别网站。

19、一种计算机程序，包括计算机可读代码，当所述计算机可读代码在服务器上运行时，导致所述服务器执行根据权利要求 10-18中任一个所述的钓鱼网站识别方法。

20、一种计算机可读介质，其中存储了如权利要求 19所述的计算机程序。